Facebook - konwersja
Pobierz fragment

Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy - ebook

Wydawnictwo:
Data wydania:
23 maja 2023
Format ebooka:
PDF
Format PDF
czytaj
na laptopie
czytaj
na tablecie
Format e-booków, który możesz odczytywać na tablecie oraz laptopie. Pliki PDF są odczytywane również przez czytniki i smartfony, jednakze względu na komfort czytania i brak możliwości skalowania czcionki, czytanie plików PDF na tych urządzeniach może być męczące dla oczu. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
, EPUB
Format EPUB
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najpopularniejszych formatów e-booków na świecie. Niezwykle wygodny i przyjazny czytelnikom - w przeciwieństwie do formatu PDF umożliwia skalowanie czcionki, dzięki czemu możliwe jest dopasowanie jej wielkości do kroju i rozmiarów ekranu. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
, MOBI
Format MOBI
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najczęściej wybieranych formatów wśród czytelników e-booków. Możesz go odczytać na czytniku Kindle oraz na smartfonach i tabletach po zainstalowaniu specjalnej aplikacji. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
(3w1)
Multiformat
E-booki sprzedawane w księgarni Virtualo.pl dostępne są w opcji multiformatu - kupujesz treść, nie format. Po dodaniu e-booka do koszyka i dokonaniu płatności, e-book pojawi się na Twoim koncie w Mojej Bibliotece we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu przy okładce. Uwaga: audiobooki nie są objęte opcją multiformatu.
czytaj
na laptopie
Pliki PDF zabezpieczone watermarkiem możesz odczytać na dowolnym laptopie po zainstalowaniu czytnika dokumentów PDF. Najpowszechniejszym programem, który umożliwi odczytanie pliku PDF na laptopie, jest Adobe Reader. W zależności od potrzeb, możesz zainstalować również inny program - e-booki PDF pod względem sposobu odczytywania nie różnią niczym od powszechnie stosowanych dokumentów PDF, które odczytujemy każdego dnia.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na tablecie
Aby odczytywać e-booki na swoim tablecie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. Bluefire dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na czytniku
Czytanie na e-czytniku z ekranem e-ink jest bardzo wygodne i nie męczy wzroku. Pliki przystosowane do odczytywania na czytnikach to przede wszystkim EPUB (ten format możesz odczytać m.in. na czytnikach PocketBook) i MOBI (ten fromat możesz odczytać m.in. na czytnikach Kindle).
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na smartfonie
Aby odczytywać e-booki na swoim smartfonie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. iBooks dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
Pobierz fragment
49,90

Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy - ebook

Poprawnie zaprojektowane i wdrożone potoki danych mają kluczowe znaczenie dla pomyślnej analizy danych, a także w trakcie uczenia maszynowego. Pozyskanie ogromnych ilości danych z różnych źródeł najczęściej nie stanowi problemu. Nieco trudniejsze jest zaprojektowanie procesu ich przetwarzania w celu dostarczenia kontekstu w taki sposób, aby efektywnie korzystać z posiadanych danych w codziennej pracy organizacji i podejmować dzięki nim rozsądne decyzje.

Oto zwięzły przewodnik przeznaczony dla inżynierów danych, którzy chcą poznać zasady implementacji potoków danych. Wyjaśnia najważniejsze pojęcia związane z potokami danych, opisuje zasady ich tworzenia i implementacji, prezentuje także najlepsze praktyki stosowane przez liderów w branży analizy danych. Dzięki książce zrozumiesz, w jaki sposób potoki danych działają na nowoczesnym stosie danych, poznasz też typowe zagadnienia, które trzeba przemyśleć przed podjęciem decyzji dotyczących implementacji. Dowiesz się, jakie są zalety samodzielnego opracowania rozwiązania, a jakie - zakupu gotowego produktu. Poznasz również podstawowe koncepcje, które mają zastosowanie dla frameworków typu open source, produktów komercyjnych i samodzielnie opracowywanych rozwiązań.

Dowiedz się:

  • czym jest potok danych i na czym polega jego działanie
  • jak się odbywa przenoszenie i przetwarzanie danych w nowoczesnej infrastrukturze
  • jakie narzędzia są szczególnie przydatne do tworzenia potoków danych
  • jak używać potoków danych do analizy i tworzenia raportów
  • jakie są najważniejsze aspekty obsługi potoków, ich testowania i rozwiązywania problemów

Poznaj najlepsze praktyki projektowania i implementacji potoków danych!

Spis treści

Spis treści

Wprowadzenie

Rozdział 1. Wprowadzenie do potoków danych

  • Czym jest potok danych?
  • Kto tworzy potok danych?
    • Podstawy pracy z SQL i hurtowniami danych
    • Python i/lub Java
    • Przetwarzanie rozproszone
    • Podstawowa administracja systemem
    • Nastawienie bazujące na celach
  • Dlaczego w ogóle są tworzone potoki danych?
  • Jak jest tworzony potok danych?

Rozdział 2. Nowoczesna infrastruktura danych

  • Różnorodność źródeł danych
    • Własność źródła danych
    • Interfejs pobierania danych i ich struktura
    • Wolumen danych
    • Czystość danych i ich weryfikacja
    • Opóźnienie i przepustowość systemu źródłowego
  • Jezioro danych i hurtownia danych w chmurze
  • Narzędzia pobierania danych
  • Przekształcanie danych i narzędzia modelowania
  • Platformy narzędzi koordynacji sposobu pracy
    • Skierowany graf acykliczny
  • Dostosowanie infrastruktury danych do własnych potrzeb

Rozdział 3. Najczęściej spotykane wzorce potoków danych

  • ETL i ELT
  • Pojawienie się ELT po ETL
  • Podwzorzec EtLT
  • ELT w analizie danych
  • ELT dla naukowca
  • ELT dla produktów danych i uczenia maszynowego
    • Etapy potoku danych dla uczenia maszynowego
    • Wykorzystanie informacji zwrotnych w potoku
    • Więcej zasobów dotyczących potoków danych dla uczenia maszynowego

Rozdział 4. Pobieranie danych - wyodrębnianie

  • Przygotowanie środowiska Pythona
  • Przygotowanie plikowego magazynu danych w chmurze
  • Wyodrębnianie danych z bazy danych MySQL
    • Pełne i przyrostowe wyodrębnianie danych z tabeli MySQL
    • Binarny dziennik zdarzeń replikacji danych MySQL
  • Wyodrębnianie danych z bazy danych PostgreSQL
    • Pełne i przyrostowe wyodrębnianie danych z tabeli PostgreSQL
    • Replikacja danych za pomocą dziennika zdarzeń WAL
  • Wyodrębnianie danych z API REST
  • Wyodrębnianie danych z bazy danych MongoDB
  • Strumieniowane pobieranie danych za pomocą Kafki i Debezium

Rozdział 5. Pobieranie danych - wczytywanie

  • Konfiguracja hurtowni danych Amazon Redshift jako miejsca docelowego
  • Wczytywanie danych do hurtowni danych Redshift
    • Wczytywanie przyrostowe a pełne
    • Wczytywanie danych wyodrębnionych z dziennika zdarzeń CDC
  • Konfiguracja hurtowni danych Snowflake jako miejsca docelowego
  • Wczytywanie danych do hurtowni danych Snowflake
  • Używanie plikowego magazynu danych jako jeziora danych
  • Frameworki typu open source
  • Alternatywy komercyjne

Rozdział 6. Przekształcanie danych

  • Przekształcenia pozbawione kontekstu
    • Usunięcie powtarzających się rekordów w tabeli
    • Przetwarzanie adresów URL
  • Kiedy powinno odbywać się przekształcanie - podczas pobierania danych czy już po?
  • Podstawy modelowania danych
    • Najważniejsze pojęcia związane z modelowaniem danych
    • Modelowanie w pełni odświeżonych danych
    • Powolna zmiana wymiarów w celu pełnego odświeżenia danych
    • Modelowanie przyrostowo pobieranych danych
    • Modelowanie danych, które są tylko dołączane
    • Modelowanie zmiany przechwytywanych danych

Rozdział 7. Narzędzia instrumentacji potoków danych

  • Skierowany graf acykliczny
  • Konfiguracja Apache Airflow i ogólne omówienie tego frameworka
    • Instalacja i konfiguracja
    • Baza danych Apache Airflow
    • Serwer WWW i interfejs użytkownika
    • Harmonogram
    • Wykonawca
    • Operatory
  • Tworzenie skierowanego grafu acyklicznego za pomocą Apache Airflow
    • Prosty skierowany graf acykliczny
    • Skierowany graf acykliczny potoku danych ELT
  • Dodatkowe zadania potoku danych
    • Komunikaty i powiadomienia
    • Weryfikacja danych
  • Zaawansowane konfiguracje koordynacji
    • Połączone a niepołączone zadania potoku danych
    • Kiedy podzielić skierowany graf acykliczny?
    • Koordynacja wielu grafów za pomocą operatora Sensor
  • Zarządzane opcje Apache Airflow
  • Inne frameworki koordynacji

Rozdział 8. Weryfikacja danych w potoku

  • Weryfikuj wcześnie i często
    • Jakość danych w systemie źródłowym
    • Niebezpieczeństwa związane z pobieraniem danych
    • Umożliwienie analitykowi weryfikacji danych
  • Prosty framework weryfikacji
    • Kod frameworka weryfikacji
    • Struktura testu weryfikacyjnego
    • Wykonywanie testu weryfikacyjnego
    • Używanie frameworka w skierowanym grafie acyklicznym Apache Airflow
    • Kiedy zatrzymać wykonywanie potoku, a kiedy tylko wygenerować ostrzeżenie i kontynuować potok?
    • Rozbudowa frameworka
  • Przykłady testów weryfikacyjnych
    • Powielone rekordy po operacji pobierania danych
    • Nieoczekiwana zmiana liczby rekordów po operacji pobierania danych
    • Fluktuacje wartości wskaźników
  • Komercyjne i niekomercyjne frameworki do weryfikacji danych

Rozdział 9. Najlepsze praktyki podczas pracy z potokiem danych

  • Obsługa zmian w systemach źródłowych
    • Wprowadzenie abstrakcji
    • Obsługa kontraktów danych
    • Ograniczenia schematu podczas odczytu
  • Skalowanie złożoności
    • Standaryzacja pobierania danych
    • Wielokrotne używanie logiki modelu danych
    • Zapewnienie spójności zależności

Rozdział 10. Pomiar i monitorowanie wydajności działania potoku danych

  • Kluczowe wskaźniki potoku
  • Przygotowanie hurtowni danych
    • Schemat infrastruktury danych
  • Rejestrowanie danych i sprawdzanie wydajności działania operacji pobierania danych
    • Pobieranie z Apache Airflow historii wykonania poszczególnych skierowanych grafów acyklicznych
    • Dodawanie funkcjonalności rejestrowania danych do frameworka weryfikacji danych
  • Przekształcanie danych dotyczących wydajności działania
    • Wskaźnik sukcesu skierowanego grafu acyklicznego
    • Zmiana czasu wykonywania skierowanego grafu acyklicznego na przestrzeni czasu
    • Liczba testów weryfikacyjnych i współczynnik sukcesu
  • Koordynacja wydajności działania potoku
    • Skierowany graf acykliczny dotyczący wydajności działania
  • Przejrzystość wydajności działania

Skorowidz

Kategoria: Bazy danych
Zabezpieczenie: Watermark
Watermark
Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN: 978-83-8322-339-1
Rozmiar pliku: 1,8 MB

BESTSELLERY

Kategorie: