Inżynieria danych na platformie AWS. Jak tworzyć kompletne potoki uczenia maszynowego - ebook
Inżynieria danych na platformie AWS. Jak tworzyć kompletne potoki uczenia maszynowego - ebook
Platforma Amazon Web Services jest uważana za największą i najbardziej dojrzałą chmurę obliczeniową. Zapewnia bogaty zestaw specjalistycznych narzędzi ułatwiających realizację projektów z zakresu inżynierii danych i uczenia maszynowego. W ten sposób inżynierowie danych, architekci i menedżerowie mogą szybko zacząć używać danych do podejmowania kluczowych decyzji biznesowych. Uzyskanie optymalnej efektywności pracy takich projektów wymaga jednak dobrego rozeznania w możliwościach poszczególnych narzędzi, usług i bibliotek.
Dzięki temu praktycznemu przewodnikowi szybko nauczysz się tworzyć i uruchamiać procesy w chmurze, a następnie integrować wyniki z aplikacjami. Zapoznasz się ze scenariuszami stosowania technik sztucznej inteligencji: przetwarzania języka naturalnego, rozpoznawania obrazów, wykrywania oszustw, wyszukiwania kognitywnego czy wykrywania anomalii w czasie rzeczywistym. Ponadto dowiesz się, jak łączyć cykle rozwoju modeli z pobieraniem i analizą danych w powtarzalnych potokach MLOps. W książce znajdziesz też zbiór technik zabezpieczania projektów i procesów z obszaru inżynierii danych, takich jak stosowanie usługi IAM, uwierzytelnianie, autoryzacja, izolacja sieci, szyfrowanie danych w spoczynku czy postkwantowe szyfrowanie sieci dla danych w tranzycie.
Najciekawsze zagadnienia:
- narzędzia AWS związane ze sztuczną inteligencją i z uczeniem maszynowym
- kompletny cykl rozwoju modelu przetwarzania języka naturalnego
- powtarzalne potoki MLOps
- uczenie maszynowe w czasie rzeczywistym
- wykrywanie anomalii i analiza strumieni danych
- zabezpieczanie projektów i procesów z obszaru inżynierii danych
AWS i inżynieria danych: tak zwiększysz wydajność i obniżysz koszty!
Implementowanie solidnego kompletnego procesu uczenia maszynowego to żmudne zadanie, dodatkowo komplikowane przez szeroki zakres dostępnych narzędzi i technologii. Autorzy wykonali świetną robotę, a jej efekty pomogą zarówno nowicjuszom, jak i doświadczonym praktykom realizować to zadanie z wykorzystaniem możliwości, jakie dają usługi AWS
Brent Rabowsky, danolog w firmie Amazon Web Services
Spis treści
Przedmowa
Rozdział 1. Wprowadzenie do danologii na platformie AWS
- Zalety przetwarzania w chmurze
- Potoki i procesy w danologii
- Zalecane praktyki z obszaru MLOps
- Usługi SI Amazona i zautomatyzowane uczenie maszynowe w narzędziu Amazon SageMaker
- Pobieranie, eksploracja i przygotowywanie danych na platformie AWS
- Uczenie i dostrajanie modelu za pomocą narzędzia Amazon SageMaker
- Instalowanie modeli za pomocą usługi Amazon SageMaker i funkcji AWS Lambda
- Analizy i uczenie maszynowe dla strumieni danych na platformie AWS
- Infrastruktura platformy AWS i niestandardowy sprzęt
- Ograniczanie kosztów za pomocą tagów, budżetów i alertów
- Podsumowanie
Rozdział 2. Zastosowania danologii
- Innowacje w każdej branży
- Spersonalizowane rekomendacje produktów
- Wykrywanie niestosownych materiałów wideo za pomocą usługi Amazon Rekognition
- Prognozowanie zapotrzebowania
- Identyfikowanie fałszywych kont za pomocą usługi Amazon Fraud Detector
- Używanie usługi Amazon Macie do wykrywania wycieków wrażliwych danych
- Urządzenia konwersacyjne i asystenci głosowi
- Analiza tekstu i NLP
- Wyszukiwanie kognitywne i rozumienie języka naturalnego
- Inteligentne centra obsługi klienta
- Przemysłowe usługi SI i konserwacja predykcyjna
- Automatyzacja domu za pomocą narzędzi AWS IoT i Amazon SageMaker
- Pobieranie informacji medycznych z dokumentów służby zdrowia
- Samooptymalizująca i inteligentna infrastruktura chmury
- Kognitywna i predyktywna analityka biznesowa
- Edukacja następnego pokolenia programistów SI i UM
- Zaprogramuj naturalny system operacyjny za pomocą przetwarzania kwantowego
- Wzrost wydajności i obniżenie kosztów
- Podsumowanie
Rozdział 3. Zautomatyzowane uczenie maszynowe
- Zautomatyzowane uczenie maszynowe w usłudze SageMaker Autopilot
- Śledzenie wyników eksperymentów za pomocą usługi SageMaker Autopilot
- Uczenie i instalowanie klasyfikatora tekstu za pomocą usługi SageMaker Autopilot
- Zautomatyzowane uczenie maszynowe w usłudze Amazon Comprehend
- Podsumowanie
Rozdział 4. Pobieranie danych do chmury
- Jeziora danych
- Kierowanie zapytań do jeziora danych w S3 za pomocą usługi Amazon Athena
- Ciągłe pobieranie nowych danych za pomocą narzędzia AWS Glue Crawler
- Stosowanie architektury Lake House za pomocą usługi Amazon Redshift Spectrum
- Wybór między narzędziami Amazon Athena a Amazon Redshift
- Zmniejszanie kosztów i zwiększanie wydajności
- Podsumowanie
Rozdział 5. Eksplorowanie zbioru danych
- Narzędzia do eksplorowania danych w AWS
- Wizualizowanie jeziora danych w środowisku SageMaker Studio
- Zapytania dotyczące hurtowni danych
- Tworzenie paneli kontrolnych za pomocą usługi Amazon QuickSight
- Wykrywanie problemów z jakością danych za pomocą narzędzi Amazon SageMaker i Apache Spark
- Wykrywanie tendencyjności w zbiorze danych
- Wykrywanie zmian różnego rodzaju za pomocą usługi SageMaker Clarify
- Analizowanie danych za pomocą usługi AWS Glue DataBrew
- Zmniejszanie kosztów i zwiększanie wydajności
- Podsumowanie
Rozdział 6. Przygotowywanie zbioru danych do uczenia modelu
- Wybieranie i inżynieria cech
- Skalowanie inżynierii cech za pomocą zadań SageMaker Processing
- Udostępnianie cech za pomocą repozytorium cech z platformy SageMaker
- Wczytywanie i przekształcanie danych w usłudze SageMaker Data Wrangler
- Śledzenie historii artefaktów i eksperymentów na platformie Amazon SageMaker
- Wczytywanie i przekształcanie danych za pomocą usługi AWS Glue DataBrew
- Podsumowanie
Rozdział 7. Uczenie pierwszego modelu
- Infrastruktura platformy SageMaker
- Instalowanie wyuczonego modelu BERT za pomocą usługi SageMaker JumpStart
- Tworzenie modelu w platformie SageMaker
- Krótka historia przetwarzania języka naturalnego
- Architektura Transformer w algorytmie BERT
- Uczenie modelu BERT od podstaw
- Dostrajanie wstępnie wyuczonego modelu BERT
- Tworzenie skryptu uczenia
- Uruchamianie skryptu uczenia w usłudze SageMaker Notebook
- Ocena modeli
- Debugowanie i profilowanie procesu uczenia modelu w usłudze SageMaker Debugger
- Interpretowanie i wyjaśnianie predykcji modelu
- Wykrywanie tendencyjności modelu i wyjaśnianie predykcji
- Dodatkowe metody uczenia algorytmu BERT
- Zmniejszanie kosztów i zwiększanie wydajności
- Podsumowanie
Rozdział 8. Uczenie i optymalizowanie modeli na dużą skalę
- Automatyczne znajdowanie optymalnych hiperparametrów dla modelu
- Stosowanie ciepłego startu dla dodatkowych zadań dostrajania hiperparametrów na platformie SageMaker
- Skalowanie poziome uczenia rozproszonego na platformie SageMaker
- Zmniejszanie kosztów i zwiększanie wydajności
- Podsumowanie
Rozdział 9. Instalowanie modeli w środowisku produkcyjnym
- Predykcje w czasie rzeczywistym czy w trybie wsadowym?
- Generowanie predykcji w czasie rzeczywistym za pomocą punktów końcowych platformy SageMaker
- Automatyczne skalowanie punktów końcowych platformy SageMaker za pomocą usługi Amazon CloudWatch
- Strategie instalowania nowych i zaktualizowanych modeli
- Testowanie i porównywanie nowych modeli
- Monitorowanie pracy modelu i wykrywanie zmian
- Monitorowanie jakości danych w punktach końcowych platformy SageMaker
- Monitorowanie jakości modelu w zainstalowanych punktach końcowych platformy SageMaker
- Monitorowanie zmian tendencyjności w zainstalowanych punktach końcowych platformy SageMaker
- Monitorowanie zmian wkładu cech w zainstalowanych punktach końcowych platformy SageMaker
- Wsadowe generowanie predykcji za pomocą usługi przekształcania wsadowego na platformie SageMaker
- Funkcje AWS Lambda i usługa Amazon API Gateway
- Optymalizowanie modeli i zarządzanie nimi na obrzeżach sieci
- Instalowanie modelu opartego na platformie PyTorch za pomocą narzędzia TorchServe
- Generowanie predykcji przez algorytm BERT oparty na platformie TensorFlow na platformie AWS Deep Java Library
- Zmniejszanie kosztów i zwiększanie wydajności
- Podsumowanie
Rozdział 10. Potoki i MLOps
- MLOps
- Potoki programowe
- Potoki uczenia maszynowego
- Koordynowanie potoku za pomocą usługi SageMaker Pipelines
- Automatyzacja w usłudze SageMaker Pipelines
- Inne sposoby tworzenia potoków
- Procesy z udziałem człowieka
- Zmniejszanie kosztów i zwiększanie wydajności
- Podsumowanie
Rozdział 11. Analizy i uczenie maszynowe dla danych przesyłanych strumieniowo
- Uczenie w trybach online i offline
- Aplikacje strumieniowe
- Zapytania oparte na oknach dotyczące strumieniowanych danych
- Analiza i uczenie maszynowe na podstawie strumieni na platformie AWS
- Klasyfikowanie recenzji produktów w czasie rzeczywistym za pomocą narzędzi Amazon Kinesis, AWS Lambda i Amazon SageMaker
- Implementowanie pobierania strumieniowanych danych za pomocą usługi Kinesis Data Firehose
- Podsumowywanie recenzji produktów w czasie rzeczywistym na podstawie analizy strumienia
- Konfigurowanie usługi Amazon Kinesis Data Analytics
- Aplikacje w usłudze Kinesis Data Analytics
- Klasyfikowanie recenzji produktów za pomocą narzędzi Apache Kafka, AWS Lambda i Amazon SageMaker
- Zmniejszanie kosztów i zwiększanie wydajności
- Podsumowanie
Rozdział 12. Bezpieczna danologia na platformie AWS
- Model podziału odpowiedzialności między platformę AWS i klientów
- Korzystanie z usługi IAM na platformie AWS
- Izolacja środowisk obliczeniowych i sieciowych
- Zabezpieczanie dostępu do danych w S3
- Szyfrowanie danych w spoczynku
- Szyfrowanie danych w tranzycie
- Zabezpieczanie instancji z notatnikami platformy SageMaker
- Zabezpieczanie środowiska SageMaker Studio
- Zabezpieczanie zadań i modeli platformy SageMaker
- Zabezpieczanie usługi AWS Lake Formation
- Zabezpieczanie danych uwierzytelniających do bazy za pomocą AWS Secrets Manager
- Nadzór
- Audytowalność
- Zmniejszanie kosztów i zwiększanie wydajności
- Podsumowanie
Kategoria: | Bazy danych |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-283-9129-1 |
Rozmiar pliku: | 20 MB |