Dane grafowe w praktyce. Jak technologie grafowe ułatwiają rozwiązywanie złożonych problemów - ebook

Denise Gosnell, Matthias Broecheler

Wydawnictwo:

Helion

Tłumacz:

Joanna Zatorska

Format:

EPUB

Data wydania:

31 maja 2021

8900 pkt

punktów Virtualo

Dane grafowe w praktyce. Jak technologie grafowe ułatwiają rozwiązywanie złożonych problemów - ebook

Komputer do pracy potrzebuje liczb i danych. Człowiek chętniej wysnuwa wnioski i wyodrębnia kontekst na podstawie relacji. Te dwa sposoby myślenia są tak odmienne, że komputery do niedawna z trudem wykonywały zadania związane z operowaniem na relacjach. Obecnie może się to zmienić dzięki grafom. Technologie grafowe łączą ludzkie postrzeganie świata i liniową pamięć komputerów. Ich wdrożenie na szerszą skalę będzie stanowić przełom i pozwoli osiągnąć nieznany dziś poziom. Ale najpierw trzeba nauczyć się stosować myślenie grafowe w rozwiązywaniu problemów technicznych.

Dzięki tej książce opanujesz podstawy myślenia grafowego. Zapoznasz się z elementarnymi koncepcjami grafowymi: teorią grafów, schematami baz danych, systemami rozproszonymi, a także analizą danych. Dowiesz się również, jak wyglądają typowe wzorce wykorzystania danych grafowych w aplikacjach produkcyjnych. Poznasz sposób, w jaki można te wzorce stosować w praktyce. Pokazano tu, jak używać technik programowania funkcyjnego oraz systemów rozproszonych do tworzenia zapytań i analizowania danych grafowych. Opisano też podstawowe podejścia do proceduralnego przechodzenia przez dane grafowe i ich wykorzystanie za pomocą narzędzi grafowych.

W książce:

nowy paradygmat rozwiązywania problemów: dane grafowe
wzorce wykorzystania danych grafowych
przykładowa architektura aplikacji w technologiach relacyjnych i grafowych
technologie grafowe a przewidywanie preferencji i zaufania użytkowników
filtrowanie kolaboratywne i jego zastosowanie

Grafy: przełomowa koncepcja w analizie danych!

Spis treści

Wstęp 9

1. Myślenie grafowe 15

Dlaczego teraz? Kontekst technologii bazodanowych 16
- Okres od lat 60. do lat 80. XX wieku - dane hierarchiczne 17
- Okres od lat 80. XX wieku do pierwszej dekady XXI wieku - encja-relacja 18
- Od początku XXI wieku do lat 20. XXI wieku - NoSQL 19
- Lata 20. XXI wieku do ? - grafy 20
Czym jest myślenie grafowe? 22
- Złożone problemy i złożone systemy 22
- Problemy złożone w biznesie 23
Podejmowanie decyzji o technologii rozwiązywania złożonych problemów 25
- Twoje dane są grafem. Co teraz? 28
- Spojrzenie z szerszej perspektywy 31
Ruszamy na wyprawę z myśleniem grafowym 32

2. Ewolucja od myślenia relacyjnego do grafowego 33

Przegląd rozdziału: tłumaczenie koncepcji relacyjnych na terminologię grafów 33
Relacyjne kontra grafowe - na czym polega różnica? 34
- Dane potrzebne w przykładzie 35
Modelowanie danych relacyjnych 36
- Encje i atrybuty 37
- Tworzenie diagramu ERD 37
Koncepcje związane z danymi grafowymi 38
- Podstawowe elementy grafu 39
- Przyleganie 40
- Sąsiedztwa 40
- Odległość 40
- Stopień 41
Język Graph Schema Language 43
- Etykiety wierzchołków i krawędzi 43
- Właściwości 44
- Kierunek krawędzi 45
- Odwołujące się do siebie etykiety krawędzi 47
- Mnogość grafu 48
- Pełny przykładowy model grafu 50
Relacyjne kontra grafowe: decyzje do rozważenia 51
- Modelowanie danych 51
- Zrozumienie danych grafowych 52
- Mieszanie projektu bazy danych z celem aplikacji 52
Podsumowanie 53

3. Zaczynamy. Prosta aplikacja Customer 360 55

Przegląd rozdziału: relacyjne kontra grafowe 56
Podstawowy przypadek użycia dla danych grafowych - C360 56
- Dlaczego firmy przejmują się projektem C360? 57
Implementowanie aplikacji C360 w systemie relacyjnym 58
- Modele danych 59
- Implementacja relacyjna 61
- Przykładowe zapytania dla aplikacji C360 65
Implementacja aplikacji C360 w systemie grafowym 68
- Modele danych 68
- Implementacja grafowa 69
- Przykładowe zapytania C360 76
Relacyjne kontra grafowe - jak wybrać? 80
- Relacyjne kontra grafowe - modelowanie danych 80
- Relacyjne kontra grafowe - reprezentowanie relacji 80
- Relacyjne kontra grafowe - języki zapytań 81
- Relacyjne kontra grafowe - najważniejsze aspekty 82
Podsumowanie 82
- Dlaczego nie relacyjne? 83
- Wybór technologii dla aplikacji C360 83

4. Badanie sąsiedztwa w środowisku roboczym 85

Przegląd rozdziału - tworzenie bardziej realistycznej aplikacji Customer 360 85
Zasady modelowania danych grafowych 86
- Czy to powinien być wierzchołek, czy krawędź? 87
- Zgubiłeś się? Wskażemy Ci właściwy kierunek 89
- Graf nie ma nazwy - typowe błędy w nazewnictwie 92
- Gotowy model grafu w środowisku roboczym 94
- Zanim zaczniemy budować 96
- Nasze przemyślenia o znaczeniu danych, zapytań i użytkownika końcowego 96
Szczegóły implementacji eksploracji sąsiedztw w środowisku roboczym 97
- Generowanie większej ilości danych dla rozszerzonego przykładu 98
Podstawowa nawigacja w języku Gremlin 99
Zaawansowane aspekty Gremlina - formatowanie wyników zapytania 106
- Formatowanie wyników zapytania za pomocą kroków project(), fold() i unfold() 107
- Usuwanie danych z wyników za pomocą wzorca where(neq()) 110
- Planowanie złożonych wyników za pomocą kroku coalesce() 111
Przejście ze środowiska roboczego do produkcyjnego 114

5. Eksploracja sąsiedztw w środowisku produkcyjnym 115

Przegląd rozdziału - rozproszone dane grafowe w środowisku Apache Cassandra 116
Praca z danymi grafowymi w środowisku Apache Cassandra 117
- Najważniejsze zagadnienie dotyczące modelowania danych - klucze główne 117
- Klucze partycji i lokalizacja danych w środowisku rozproszonym 119
- Opis krawędzi, część 1. Krawędzie na liście sąsiedztwa 123
- Zrozumienie krawędzi, część 2. Kolumny klastrów 125
- Zrozumienie krawędzi, część 3. Perspektywy zmaterializowane dla przejścia przez graf 129
Zaawansowane modelowanie danych grafowych 131
- Znajdowanie indeksów za pomocą inteligentnego systemu rekomendacji indeksów 135
Szczegóły implementacji produkcyjnej 136
- Perspektywy zmaterializowane i dodawanie czasu do krawędzi 136
- Gotowy schemat produkcyjny aplikacji C360 138
- Wczytywanie dużej ilości danych grafowych 139
- Uzupełnianie zapytań w Gremlinie z wykorzystaniem czasu na krawędziach 142
Przejście do bardziej złożonych, rozproszonych problemów grafowych 144
- 10 pierwszych wskazówek dotyczących przejścia od środowiska roboczego do produkcyjnego 144

6. Używanie drzew w środowisku roboczym 147

Przegląd rozdziału - nawigowanie przez drzewa, dane hierarchiczne i cykle 147
Hierarchie i dane zagnieżdżone - trzy przykłady 148
- Hierarchiczne dane w zestawieniu materiałów 148
- Dane hierarchiczne w systemach kontroli wersji 148
- Dane hierarchiczne w samoorganizujących się sieciach 149
- Dlaczego stosuje się technologię grafową w przypadku danych hierarchicznych? 150
Jak się odnaleźć w lesie terminologii 150
- Drzewa, korzenie i liście 151
- Głębokość w przechodzeniu, ścieżki i cykle 152
Zrozumienie hierarchii w danych z czujników 154
- Zrozumienie danych 154
- Model koncepcyjny z wykorzystaniem notacji GSL 160
- Implementowanie schematu 161
- Zanim utworzymy zapytania 164
Zapytania wykorzystujące drogę od liści do korzeni w trybie roboczym 164
- Dokąd wysłał dane określony czujnik? 165
- Jaka jest droga od tego czujnika do dowolnej wieży? 168
- Z dołu do góry 172
Przeszukiwanie od korzenia do liści w środowisku roboczym 172
- Konfiguracja zapytania: jak znaleźć wieżę, z którąpołączonych jest najwięcej czujników, aby można ją byłowykorzystać w przykładzie? 173
- Które czujniki są połączone bezpośrednio z wieżą Georgetown? 174
- Szukanie wszystkich czujników połączonych z wieżą Georgetown 175
- Ograniczanie głębokości w rekurencji 177
Powrót do przeszłości 178

7. Używanie drzew w środowisku produkcyjnym 179

Przegląd rozdziału - zrozumienie czynnika rozgałęziania i czasu na krawędziach 179
Zrozumienie czasu w danych dotyczących czujników 180
- Ostatnie wnioski dotyczące danych serii czasowych w grafach 187
Zrozumienie czynnika rozgałęzień w naszym przykładzie 188
- Czym jest czynnik rozgałęzień? 188
- Jak sobie poradzić z czynnikiem rozgałęzień? 190
Schemat produkcyjny dla danych dotyczących czujników 190
Zapytania przechodzące od liści do korzeni w środowisku produkcyjnym 192
- Dokąd i kiedy czujnik wysłał dane? 192
- Znajdź wszystkie drzewa prowadzące od czujnika do wieży z uwzględnieniem czasu 193
- Znajdź poprawne drzewo wychodzące z określonego czujnika 195
- Zaawansowane aspekty Gremlina - wzorzec where().by() 197
Zapytania od korzeni do liści w środowisku produkcyjnym 199
- Które czujniki są bezpośrednio połączone z wieżą Georgetown według czasu? 199
- Jakie prawidłowe drogi wiodą od wieży Georgetown w dół do wszystkich czujników? 200
Wykorzystanie zapytań w scenariuszach awarii wieży 204
- Wykorzystanie ostatnich wyników do rozwiązania złożonego problemu 208
Dostrzeganie lasu w grupie drzew 208

8. Szukanie dróg w środowisku roboczym 209

Podgląd rozdziału - ocena ilościowa zaufania w sieciach 209
Myślenie o zaufaniu - trzy przykłady 210
- Jak bardzo ufasz temu zaproszeniu? 210
- Jak obronić historię śledczego? 211
- Jak firmy modelują dostarczanie paczek? 212
Fundamentalne koncepcje dotyczące dróg 213
- Najkrótsze drogi 213
- Przeszukiwanie w głąb i przeszukiwanie wszerz 215
- Nauka postrzegania cech aplikacji jako różnych problemów przeszukiwania dróg 216
Szukanie dróg w sieci zaufania 217
- Dane źródłowe 217
- Krótkie wprowadzenie do terminologii związanej z Bitcoinem 218
- Tworzenie schematu roboczego 219
- Wczytywanie danych 220
- Analiza społeczności zaufania 220
Zrozumienie przejść w sieci zaufania Bitcoina 222
- Które adresy znajdują się w pierwszym sąsiedztwie? 222
- Które adresy znajdują się w drugim sąsiedztwie? 223
- Które adresy znajdują się tylko w drugim sąsiedztwie? 224
- Strategie wartościowania w języku zapytań Gremlin 225
- Wybór losowego adresu do użycia w przykładzie 226
Zapytania wyszukujące najkrótsze drogi 227
- Znajdowanie dróg o ustalonej długości 227
- Znajdowanie dróg o dowolnej długości 229
- Uzupełnianie dróg wartościami zaufania 232
- Czy ufasz tej osobie? 238

9. Znajdowanie dróg w środowisku produkcyjnym 239

Przegląd rozdziału - zrozumienie wag, odległości i przycinania 239
Ważone drogi i algorytmy wyszukiwania 240
- Definicja problemu najkrótszych dróg ważonych 240
- Techniki optymalizacji przeszukiwania najkrótszych dróg ważonych 241
Normalizacja wag krawędzi dla problemów dotyczących najkrótszej drogi 244
- Normalizacja wag krawędzi 245
- Aktualizacja grafu 249
- Eksploracja znormalizowanych wag krawędzi 250
- Przemyślenia przed utworzeniem zapytań wyszukujących najkrótszą drogę ważoną 253
Zapytania o najkrótszą drogę ważoną 254
- Tworzenie produkcyjnej wersji zapytania o najkrótszą drogę ważoną 254
Drogi ważone i zaufanie w środowisku produkcyjnym 263

10. Rekomendacje w środowisku roboczym 265

Przegląd rozdziału - kolaboratywne filtrowanie rekomendacji filmów 265
Przykłady systemów rekomendacji 266
- Rekomendacje w służbie zdrowia 266
- Na czym polegają rekomendacje w serwisach społecznościowych 267
- Wykorzystanie głęboko połączonych danych do tworzenia rekomendacji w handlu elektronicznym 268
Wstęp do filtrowania kolaboratywnego 269
- Zrozumienie problemu i domeny 269
- Filtrowanie kolaboratywne danych grafowych 270
- Rekomendacje na podstawie filtrowania kolaboratywnego opartego na elemencie zastosowanego w danych grafowych 271
- Trzy różne modele tworzenia rankingu rekomendacji 272
Dane dotyczące filmów - schemat, wczytywanie i zapytania 276
- Model danych dla rekomendacji filmów 276
- Kod schematu dla rekomendacji filmów 277
- Wczytywanie danych filmów 279
- Zapytania dotyczące sąsiedztw w danych o filmach 283
- Zapytania wykorzystujące drzewa w celu analizy danych o filmach 285
- Zapytania przeszukujące drogi w danych o filmach 287
Filtrowanie kolaboratywne oparte na elementach w Gremlinie 289
- Model 1. Liczenie dróg w zbiorze rekomendacji 289
- Model 2. Zainspirowany NPS 290
- Model 3. Znormalizowana punktacja NPS 292
- Wybór swojej przygody - filmy i edycja problemu grafowego 294

11. Proste łączenie encji w grafach 295

Przegląd rozdziału - scalanie wielu zbiorów danych w jeden graf 295
Definiowanie innego złożonego problemu - łączenie encji 296
- Analiza złożonego problemu 297
Analiza dwóch zbiorów danych o filmach 298
- Zbiór danych MovieLens 299
- Zbiór danych Kaggle 304
- Schemat roboczy 307
Dopasowywanie i scalanie danych o filmach 308
- Proces dopasowywania 308
Rozwiązywanie wyników fałszywie pozytywnych 310
- Elementy fałszywie pozytywne w zbiorze danych MovieLens 311
- Dodatkowe błędy wykryte podczas łączenia encji 311
- Ostatnia analiza procesu scalania 313
- Rola struktury grafu w scalaniu danych o filmach 313

12. Rekomendacje w środowisku produkcyjnym 315

Przegląd rozdziału - zrozumienie krawędzi skrótowych, wstępne obliczenia i zaawansowane obcinanie 316
Krawędzie skrótowe do ustalania rekomendacji w czasie rzeczywistym 316
- Gdzie proces roboczy się nie skaluje 317
- Obsługa problemów ze skalowaniem - krawędzie skrótowe 318
- Analiza funkcjonalności w środowisku produkcyjnym 318
- Przycinanie - różne sposoby wstępnego obliczania krawędzi skrótowych 319
- Czynniki, jakie trzeba uwzględnić podczas aktualizacji rekomendacji 321
Obliczanie krawędzi skrótowych dla danych o filmach 322
- Podział złożonego problemu wstępnego obliczania krawędzi skrótowych 322
- Radzenie sobie ze słoniem w składzie porcelany - obliczenia masowe 326
Schemat produkcyjny i wczytywanie danych dla rekomendacji filmów 328
- Schemat produkcyjny dla rekomendacji filmów 328
- Wczytywanie danych produkcyjnych dla rekomendacji filmów 329
Zapytania dotyczące rekomendacji wykorzystujące krawędzie skrótowe 330
- Potwierdzenie poprawnego wczytania krawędzi 331
- Rekomendacje dla użytkownika w środowisku produkcyjnym 332
- Zrozumienie czasu odpowiedzi w środowisku produkcyjnym poprzez zliczanie partycji krawędzi 336
- Ostatnie uwagi dotyczące analizy wydajności rozproszonych zapytań grafowych 338

13. Epilog 339

Co dalej? 340
- Algorytmy grafowe 340
- Grafy rozproszone 341
- Teoria grafów 341
- Teoria sieci 342

Kategoria:	Bazy danych
Język:	Polski
Zabezpieczenie:	Watermark Watermark Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN:	978-83-283-7468-3
Rozmiar pliku:	14 MB
Użytkowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Drukowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Kopiowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.

Dane grafowe w praktyce. Jak technologie grafowe ułatwiają rozwiązywanie złożonych problemów - ebook

Grafy: przełomowa koncepcja w analizie danych!

Spis treści

BESTSELLERY