- nowość
Nowoczesne architektury danych. Przewodnik po hurtowni danych, siatce danych oraz Data Fabric i Data Lakehouse - ebook
Nowoczesne architektury danych. Przewodnik po hurtowni danych, siatce danych oraz Data Fabric i Data Lakehouse - ebook
Architektury data fabric i data lakehouse, a także siatka danych pojawiły się niedawno jako alternatywy hurtowni danych. Te nowe architektury mają swoje mocne strony, ale podczas projektowania rzeczywistych rozwiązań musisz pamiętać o odróżnianiu faktów od przesadnych pochwał i niejasności. Nie zawsze jest to proste i oczywiste zadanie.
Niezwykłość tej książki polega na przekształcaniu złożonych zagadnień technicznych w jasne i zrozumiałe objaśnienia.
Annie Xu, starszy inżynier danych, Google
Dzięki temu praktycznemu przewodnikowi profesjonaliści zajmujący się danymi dobrze zrozumieją wady i zalety poszczególnych rozwiązań. Omówiono tu typowe zagadnienia dotyczące architektur danych, w tym ich rozwój i możliwości. Żadna architektura nie jest na tyle uniwersalna, by być odpowiednia w każdej sytuacji, dlatego w książce znajdziesz rzetelne porównanie cech poszczególnych architektur. Dowiesz się, jakie kompromisy towarzyszą każdej z nich, niezależnie od popularności. W ten sposób o wiele łatwiej przyjdzie Ci wybór rozwiązania, które najlepiej odpowiada Twoim potrzebom.
Najciekawsze zagadnienia:
- praktyczne działanie architektur danych, ich mocne i słabe strony
- wybór najlepszej architektury pod kątem konkretnego zastosowania
- różnice między hurtowniami i "jeziorami" danych
- wspólne koncepcje architektur danych i ich historyczny rozwój
- sesje projektowania architektury, organizacja zespołów i najważniejsze uwarunkowania
Połóż tę książkę na biurku. Będziesz często po nią sięgać!
Sawyer Nyquist, autor, właściciel The Data Shop
Spis treści
Słowo wstępne
Przedmowa
Część I. Fundamenty
- 1. Technologia Big Data
- Czym jest technologia Big Data i jak może być pomocna?
- Dojrzałość danych
- Etap 1: reakcyjny
- Etap 2: informacyjny
- Etap 3: predyktywny
- Etap 4: transformatywny
- Samoobsługowa analityka biznesowa
- Podsumowanie
- 2. Typy architektur danych
- Ewolucja architektur danych
- Relacyjna hurtownia danych
- Jezioro danych
- Nowoczesna hurtownia danych
- Architektura Data Fabric
- Architektura Data Lakehouse
- Siatka danych
- Podsumowanie
- 3. Sesja projektowania architektury
- Czym jest sesja projektowania architektury?
- Dlaczego należy przeprowadzać sesję ADS?
- Przed sesją ADS
- Przygotowanie
- Zaproszenie uczestników
- Przeprowadzanie sesji ADS
- Wprowadzenia
- Ustalenia
- Korzystanie z tablicy
- Po zakończeniu sesji ADS
- Wskazówki dotyczące prowadzenia sesji ADS
- Podsumowanie
Część II. Typowe pojęcia związane z architekturami danych
- 4. Relacyjna hurtownia danych
- Czym jest relacyjna hurtownia danych?
- Czym hurtownia danych nie jest?
- Podejście odgórne
- Dlaczego warto skorzystać z relacyjnej hurtowni danych?
- Wady związane z korzystaniem z relacyjnej hurtowni danych
- Zasilanie hurtowni danych
- Częstotliwość wyodrębniania danych
- Metody wyodrębniania
- Metoda określania, jakie dane zmieniły się od ostatniej operacji wyodrębnienia
- Informacje o kresie relacyjnej hurtowni danych okazały się mocno przesadzone
- Podsumowanie
- 5. Jezioro danych
- Czym jest jezioro danych?
- Dlaczego warto używać jeziora danych?
- Podejście oddolne
- Najlepsze praktyki projektowania architektury jeziora danych
- Wiele jezior danych
- Zalety
- Wady
- Podsumowanie
- 6. Procesy i rozwiązania z zakresu magazynowania danych
- Rozwiązania do przechowywania danych
- Składnice danych
- Magazyny danych operacyjnych
- Centra danych
- Procesy danych
- Zarządzanie danymi głównymi
- Wirtualizacja i federacja danych
- Katalogi danych
- Platformy danych
- Podsumowanie
- Rozwiązania do przechowywania danych
- 7. Metody projektowe
- Porównanie systemów OLTP i OLAP
- Dane operacyjne i analityczne
- Przetwarzanie SMP i MPP
- Architektura Lambda
- Architektura Kappa
- Trwałość poliglotyczna i poliglotyczne magazyny danych
- Podsumowanie
- 8. Metody modelowania danych
- Modelowanie relacyjne
- Klucze
- Diagramy relacji encji
- Reguły i formy normalizacji
- Śledzenie zmian
- Modelowanie wymiarowe
- Fakty, wymiary i klucze
- Monitorowanie zmian
- Denormalizacja
- Wspólny model danych
- Model Data Vault
- Metodologie Kimballa i Inmona dotyczące hurtowni danych
- Metodologia odgórna Inmona
- Metodologia oddolna Kimballa
- Wybór metodologii
- Modele hybrydowe
- Mity dotyczące metodologii
- Podsumowanie
- Modelowanie relacyjne
- 9. Metody pozyskiwania danych
- Porównanie procesów ETL i ELT
- Odwrócony proces ETL
- Porównanie przetwarzania wsadowego oraz przetwarzania w czasie rzeczywistym
- Zalety i wady przetwarzania wsadowego
- Zalety i wady przetwarzania w czasie rzeczywistym
- Nadzór nad danymi
- Podsumowanie
Część III. Architektury danych
- 10. Nowoczesna hurtownia danych
- Architektura nowoczesnej hurtowni danych
- Zalety i wady architektury nowoczesnej hurtowni danych
- Łączenie relacyjnej hurtowni danych z jeziorem danych
- Jezioro danych
- Relacyjna hurtownia danych
- Kamienie milowe prowadzące do hurtowni MDW
- Rozbudowa korporacyjnej hurtowni danych
- Tymczasowe jezioro danych oraz korporacyjna hurtownia danych
- Rozwiązanie kompleksowe
- Studium przypadku: strategiczne przejście firmy Wilson & Gunkerk do nowoczesnej hurtowni danych
- Wyzwanie
- Rozwiązanie
- Rezultat
- Podsumowanie
- 11. Architektura Data Fabric
- Architektura Data Fabric
- Zasady dostępu do danych
- Katalog metadanych
- Zarządzanie danymi głównymi
- Wirtualizacja danych
- Przetwarzanie w czasie rzeczywistym
- Interfejsy API
- Usługi
- Produkty
- Dlaczego warto dokonać przejścia z hurtowni MDW na architekturę Data Fabric?
- Potencjalne wady
- Podsumowanie
- Architektura Data Fabric
- 12. Architektura Data Lakehouse
- Opcje warstwy Delta Lake
- Poprawa wydajności
- Architektura Data Lakehouse
- Co się stanie, gdy zrezygnujesz z relacyjnej hurtowni danych?
- Relacyjna warstwa udostępniająca
- Podsumowanie
- 13. Fundamenty siatki danych
- Zdecentralizowana architektura danych
- Szum wokół siatki danych
- Cztery zasady Dehghani dotyczące siatki danych
- Pierwsza zasada: własność domeny
- Druga zasada: dane jako produkt
- Trzecia zasada: samoobsługowa infrastruktura danych jako platforma
- Czwarta zasada: nadzór nad federacyjnymi zasobami obliczeniowymi
- "Czysta" siatka danych
- Domeny danych
- Logiczna architektura siatki danych
- Różne topologie
- Porównanie siatki danych i architektury Data Fabric
- Warianty zastosowania
- Podsumowanie
- 14. Czy powinno się adaptować siatkę danych? Mity, obawy i przyszłość
- Mity
- Mit: użycie siatki danych to cudowny środek pozwalający szybko poradzić sobie z wszystkimi trudnościami towarzyszącymi danym
- Mit: siatka danych zastąpi Twoje jezioro danych i hurtownię danych
- Mit: wszystkie projekty z hurtownią danych nie udają się, a siatka danych rozwiąże ten problem
- Mit: budowanie siatki danych oznacza decentralizację absolutnie wszystkiego
- Mit: możesz użyć wirtualizacji danych, aby utworzyć siatkę danych
- Obawy
- Kwestie filozoficzne i koncepcyjne
- Łączenie danych w środowisku zdecentralizowanym
- Inne kwestie związane z decentralizacją
- Złożoność
- Duplikacja
- Wykonalność
- Ludzie
- Bariery na poziomie domen
- Ocena organizacyjna: czy powinno się adaptować siatkę danych?
- Zalecenia dotyczące implementowania z powodzeniem siatki danych
- Przyszłość siatki danych
- Szersze spojrzenie: zrozumienie architektur danych i ich zastosowań
- Podsumowanie
- Mity
Część IV. Ludzie, procesy i technologia
- 15. Ludzie i procesy
- Organizacja zespołów: role i obowiązki
- Role w przypadku nowoczesnej hurtowni danych oraz architektur Data Fabric lub Data Lakehouse
- Role w przypadku siatki danych
- Dlaczego projekty się nie udają: pułapki i zapobieganie im
- Pułapka: pozwalanie szefostwu myśleć, że analityka biznesowa jest "łatwa"
- Pułapka: używanie niewłaściwych technologii
- Pułapka: zgromadzenie zbyt wielu wymagań biznesowych
- Pułapka: zgromadzenie zbyt małej liczby wymagań biznesowych
- Pułapka: prezentowanie raportów bez wcześniejszego sprawdzenia poprawności ich zawartości
- Pułapka: zatrudnianie niedoświadczonej firmy konsultingowej
- Pułapka: zatrudnianie firmy konsultingowej, która zleca prace projektowe pracownikom z innych krajów
- Pułapka: przekazywanie konsultantom własności projektu
- Pułapka: zlekceważenie konieczności transferu zasobów wiedzy z powrotem do organizacji
- Pułapka: zmniejszanie budżetu w połowie trwania projektu
- Pułapka: rozpoczynanie od daty końcowej i cofanie się z działaniami
- Pułapka: określanie struktury hurtowni danych zgodnie z danymi źródłowymi, a nie wymogami firmy
- Pułapka: zaprezentowanie użytkownikom rozwiązania z długim czasem odpowiedzi lub innymi problemami z wydajnością
- Pułapka: przesadzenie z projektem architektury danych lub niedopracowanie go
- Pułapka: kiepska komunikacja między działem informatycznym i domenami biznesowymi
- Wskazówki dotyczące sukcesu
- Nie oszczędzaj na inwestycjach
- Angażuj użytkowników, prezentuj im wyniki i wzbudzaj ich entuzjazm
- Zapewnij wartość w nowych raportach i panelach kontrolnych
- Poproś użytkowników o zbudowanie prototypu
- Znajdź orędownika/sponsora projektu
- Stwórz plan projektu z celem 80% efektywności
- Podsumowanie
- Organizacja zespołów: role i obowiązki
- 16. Technologie
- Wybór platformy
- Rozwiązania open source
- Rozwiązania lokalne
- Rozwiązania dostawców usług w chmurze
- Modele usług w chmurze
- Główni dostawcy usług w chmurze
- Rozwiązania z wieloma chmurami
- Środowiska oprogramowania
- Hadoop
- Databricks
- Snowflake
- Podsumowanie
- Wybór platformy
Kategoria: | Informatyka |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-289-1670-8 |
Rozmiar pliku: | 5,8 MB |