Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy - ebook

James Densmore

Wydawnictwo:

Helion

Tłumacz:

Robert Górczyński

Format:

MOBI

Data wydania:

23 maja 2023

4990 pkt

punktów Virtualo

Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy - ebook

Poprawnie zaprojektowane i wdrożone potoki danych mają kluczowe znaczenie dla pomyślnej analizy danych, a także w trakcie uczenia maszynowego. Pozyskanie ogromnych ilości danych z różnych źródeł najczęściej nie stanowi problemu. Nieco trudniejsze jest zaprojektowanie procesu ich przetwarzania w celu dostarczenia kontekstu w taki sposób, aby efektywnie korzystać z posiadanych danych w codziennej pracy organizacji i podejmować dzięki nim rozsądne decyzje.

Oto zwięzły przewodnik przeznaczony dla inżynierów danych, którzy chcą poznać zasady implementacji potoków danych. Wyjaśnia najważniejsze pojęcia związane z potokami danych, opisuje zasady ich tworzenia i implementacji, prezentuje także najlepsze praktyki stosowane przez liderów w branży analizy danych. Dzięki książce zrozumiesz, w jaki sposób potoki danych działają na nowoczesnym stosie danych, poznasz też typowe zagadnienia, które trzeba przemyśleć przed podjęciem decyzji dotyczących implementacji. Dowiesz się, jakie są zalety samodzielnego opracowania rozwiązania, a jakie - zakupu gotowego produktu. Poznasz również podstawowe koncepcje, które mają zastosowanie dla frameworków typu open source, produktów komercyjnych i samodzielnie opracowywanych rozwiązań.

Dowiedz się:

czym jest potok danych i na czym polega jego działanie
jak się odbywa przenoszenie i przetwarzanie danych w nowoczesnej infrastrukturze
jakie narzędzia są szczególnie przydatne do tworzenia potoków danych
jak używać potoków danych do analizy i tworzenia raportów
jakie są najważniejsze aspekty obsługi potoków, ich testowania i rozwiązywania problemów

Poznaj najlepsze praktyki projektowania i implementacji potoków danych!

Spis treści

Wprowadzenie

Rozdział 1. Wprowadzenie do potoków danych

Czym jest potok danych?
Kto tworzy potok danych?
- Podstawy pracy z SQL i hurtowniami danych
- Python i/lub Java
- Przetwarzanie rozproszone
- Podstawowa administracja systemem
- Nastawienie bazujące na celach
Dlaczego w ogóle są tworzone potoki danych?
Jak jest tworzony potok danych?

Rozdział 2. Nowoczesna infrastruktura danych

Różnorodność źródeł danych
- Własność źródła danych
- Interfejs pobierania danych i ich struktura
- Wolumen danych
- Czystość danych i ich weryfikacja
- Opóźnienie i przepustowość systemu źródłowego
Jezioro danych i hurtownia danych w chmurze
Narzędzia pobierania danych
Przekształcanie danych i narzędzia modelowania
Platformy narzędzi koordynacji sposobu pracy
- Skierowany graf acykliczny
Dostosowanie infrastruktury danych do własnych potrzeb

Rozdział 3. Najczęściej spotykane wzorce potoków danych

ETL i ELT
Pojawienie się ELT po ETL
Podwzorzec EtLT
ELT w analizie danych
ELT dla naukowca
ELT dla produktów danych i uczenia maszynowego
- Etapy potoku danych dla uczenia maszynowego
- Wykorzystanie informacji zwrotnych w potoku
- Więcej zasobów dotyczących potoków danych dla uczenia maszynowego

Rozdział 4. Pobieranie danych - wyodrębnianie

Przygotowanie środowiska Pythona
Przygotowanie plikowego magazynu danych w chmurze
Wyodrębnianie danych z bazy danych MySQL
- Pełne i przyrostowe wyodrębnianie danych z tabeli MySQL
- Binarny dziennik zdarzeń replikacji danych MySQL
Wyodrębnianie danych z bazy danych PostgreSQL
- Pełne i przyrostowe wyodrębnianie danych z tabeli PostgreSQL
- Replikacja danych za pomocą dziennika zdarzeń WAL
Wyodrębnianie danych z API REST
Wyodrębnianie danych z bazy danych MongoDB
Strumieniowane pobieranie danych za pomocą Kafki i Debezium

Rozdział 5. Pobieranie danych - wczytywanie

Konfiguracja hurtowni danych Amazon Redshift jako miejsca docelowego
Wczytywanie danych do hurtowni danych Redshift
- Wczytywanie przyrostowe a pełne
- Wczytywanie danych wyodrębnionych z dziennika zdarzeń CDC
Konfiguracja hurtowni danych Snowflake jako miejsca docelowego
Wczytywanie danych do hurtowni danych Snowflake
Używanie plikowego magazynu danych jako jeziora danych
Frameworki typu open source
Alternatywy komercyjne

Rozdział 6. Przekształcanie danych

Przekształcenia pozbawione kontekstu
- Usunięcie powtarzających się rekordów w tabeli
- Przetwarzanie adresów URL
Kiedy powinno odbywać się przekształcanie - podczas pobierania danych czy już po?
Podstawy modelowania danych
- Najważniejsze pojęcia związane z modelowaniem danych
- Modelowanie w pełni odświeżonych danych
- Powolna zmiana wymiarów w celu pełnego odświeżenia danych
- Modelowanie przyrostowo pobieranych danych
- Modelowanie danych, które są tylko dołączane
- Modelowanie zmiany przechwytywanych danych

Rozdział 7. Narzędzia instrumentacji potoków danych

Skierowany graf acykliczny
Konfiguracja Apache Airflow i ogólne omówienie tego frameworka
- Instalacja i konfiguracja
- Baza danych Apache Airflow
- Serwer WWW i interfejs użytkownika
- Harmonogram
- Wykonawca
- Operatory
Tworzenie skierowanego grafu acyklicznego za pomocą Apache Airflow
- Prosty skierowany graf acykliczny
- Skierowany graf acykliczny potoku danych ELT
Dodatkowe zadania potoku danych
- Komunikaty i powiadomienia
- Weryfikacja danych
Zaawansowane konfiguracje koordynacji
- Połączone a niepołączone zadania potoku danych
- Kiedy podzielić skierowany graf acykliczny?
- Koordynacja wielu grafów za pomocą operatora Sensor
Zarządzane opcje Apache Airflow
Inne frameworki koordynacji

Rozdział 8. Weryfikacja danych w potoku

Weryfikuj wcześnie i często
- Jakość danych w systemie źródłowym
- Niebezpieczeństwa związane z pobieraniem danych
- Umożliwienie analitykowi weryfikacji danych
Prosty framework weryfikacji
- Kod frameworka weryfikacji
- Struktura testu weryfikacyjnego
- Wykonywanie testu weryfikacyjnego
- Używanie frameworka w skierowanym grafie acyklicznym Apache Airflow
- Kiedy zatrzymać wykonywanie potoku, a kiedy tylko wygenerować ostrzeżenie i kontynuować potok?
- Rozbudowa frameworka
Przykłady testów weryfikacyjnych
- Powielone rekordy po operacji pobierania danych
- Nieoczekiwana zmiana liczby rekordów po operacji pobierania danych
- Fluktuacje wartości wskaźników
Komercyjne i niekomercyjne frameworki do weryfikacji danych

Rozdział 9. Najlepsze praktyki podczas pracy z potokiem danych

Obsługa zmian w systemach źródłowych
- Wprowadzenie abstrakcji
- Obsługa kontraktów danych
- Ograniczenia schematu podczas odczytu
Skalowanie złożoności
- Standaryzacja pobierania danych
- Wielokrotne używanie logiki modelu danych
- Zapewnienie spójności zależności

Rozdział 10. Pomiar i monitorowanie wydajności działania potoku danych

Kluczowe wskaźniki potoku
Przygotowanie hurtowni danych
- Schemat infrastruktury danych
Rejestrowanie danych i sprawdzanie wydajności działania operacji pobierania danych
- Pobieranie z Apache Airflow historii wykonania poszczególnych skierowanych grafów acyklicznych
- Dodawanie funkcjonalności rejestrowania danych do frameworka weryfikacji danych
Przekształcanie danych dotyczących wydajności działania
- Wskaźnik sukcesu skierowanego grafu acyklicznego
- Zmiana czasu wykonywania skierowanego grafu acyklicznego na przestrzeni czasu
- Liczba testów weryfikacyjnych i współczynnik sukcesu
Koordynacja wydajności działania potoku
- Skierowany graf acykliczny dotyczący wydajności działania
Przejrzystość wydajności działania

Skorowidz

Kategoria:	Bazy danych
Język:	Polski
Zabezpieczenie:	Watermark Watermark Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN:	978-83-8322-339-1
Rozmiar pliku:	3,9 MB
Użytkowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Drukowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Kopiowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.

Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy - ebook

Spis treści

BESTSELLERY