Facebook - konwersja
  • promocja

Spark. Rozproszone uczenie maszynowe na dużą skalę. Jak korzystać z MLlib, TensorFlow i PyTorch - ebook

Wydawnictwo:
Tłumacz:
Data wydania:
6 sierpnia 2024
Format ebooka:
MOBI
Format MOBI
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najczęściej wybieranych formatów wśród czytelników e-booków. Możesz go odczytać na czytniku Kindle oraz na smartfonach i tabletach po zainstalowaniu specjalnej aplikacji. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
, PDF
Format PDF
czytaj
na laptopie
czytaj
na tablecie
Format e-booków, który możesz odczytywać na tablecie oraz laptopie. Pliki PDF są odczytywane również przez czytniki i smartfony, jednakze względu na komfort czytania i brak możliwości skalowania czcionki, czytanie plików PDF na tych urządzeniach może być męczące dla oczu. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
, EPUB
Format EPUB
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najpopularniejszych formatów e-booków na świecie. Niezwykle wygodny i przyjazny czytelnikom - w przeciwieństwie do formatu PDF umożliwia skalowanie czcionki, dzięki czemu możliwe jest dopasowanie jej wielkości do kroju i rozmiarów ekranu. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
(3w1)
Multiformat
E-booki sprzedawane w księgarni Virtualo.pl dostępne są w opcji multiformatu - kupujesz treść, nie format. Po dodaniu e-booka do koszyka i dokonaniu płatności, e-book pojawi się na Twoim koncie w Mojej Bibliotece we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu przy okładce. Uwaga: audiobooki nie są objęte opcją multiformatu.
czytaj
na laptopie
Pliki PDF zabezpieczone watermarkiem możesz odczytać na dowolnym laptopie po zainstalowaniu czytnika dokumentów PDF. Najpowszechniejszym programem, który umożliwi odczytanie pliku PDF na laptopie, jest Adobe Reader. W zależności od potrzeb, możesz zainstalować również inny program - e-booki PDF pod względem sposobu odczytywania nie różnią niczym od powszechnie stosowanych dokumentów PDF, które odczytujemy każdego dnia.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na tablecie
Aby odczytywać e-booki na swoim tablecie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. Bluefire dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na czytniku
Czytanie na e-czytniku z ekranem e-ink jest bardzo wygodne i nie męczy wzroku. Pliki przystosowane do odczytywania na czytnikach to przede wszystkim EPUB (ten format możesz odczytać m.in. na czytnikach PocketBook) i MOBI (ten fromat możesz odczytać m.in. na czytnikach Kindle).
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na smartfonie
Aby odczytywać e-booki na swoim smartfonie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. iBooks dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.

Spark. Rozproszone uczenie maszynowe na dużą skalę. Jak korzystać z MLlib, TensorFlow i PyTorch - ebook

Jeśli chcesz dostosować swoją pracę do większych zbiorów danych i bardziej złożonych kodów, potrzebna Ci jest znajomość technik rozproszonego uczenia maszynowego. W tym celu warto poznać frameworki Apache Spark, PyTorch i TensorFlow, a także bibliotekę MLlib. Biegłość w posługiwaniu się tymi narzędziami przyda Ci się w całym cyklu życia oprogramowania ... nie tylko ułatwi współpracę, ale również tworzenie powtarzalnego kodu.

Dzięki tej książce nauczysz się holistycznego podejścia, które zdecydowanie usprawni współpracę między zespołami. Najpierw zapoznasz się z podstawowymi informacjami o przepływach pracy związanych z uczeniem maszynowym przy użyciu Apache Spark i pakietu PySpark. Nauczysz się też zarządzać cyklem życia eksperymentów dla potrzeb uczenia maszynowego za pomocą biblioteki MLflow. Z kolejnych rozdziałów dowiesz się, jak od strony technicznej wygląda korzystanie z platformy uczenia maszynowego. W książce znajdziesz również opis wzorców wdrażania, wnioskowania i monitorowania modeli w środowisku produkcyjnym.

Najciekawsze zagadnienia:

  • cykl życia uczenia maszynowego i MLflow
  • inżynieria cech i przetwarzanie wstępne za pomocą Sparka
  • szkolenie modelu i budowa potoku
  • budowa systemu danych z wykorzystaniem uczenia głębokiego
  • praca TensorFlow w trybie rozproszonym
  • skalowanie systemu i tworzenie jego wewnętrznej architektury

Właśnie takiej książki społeczność Sparka wyczekuje od dekady!

Andy Petrella, autor książki Fundamentals of Data Observability

Spis treści

Przedmowa

1. Rozproszone uczenie maszynowe. Terminologia i pojęcia

  • Etapy przepływu pracy uczenia maszynowego
  • Narzędzia i technologie w potoku uczenia maszynowego
  • Modele przetwarzania rozproszonego
    • Modele uniwersalne
    • Dedykowane modele przetwarzania rozproszonego
  • Wprowadzenie do architektury systemów rozproszonych
    • Systemy scentralizowane a zdecentralizowane
    • Modele interakcji
    • Komunikacja w środowisku rozproszonym
  • Wprowadzenie do metod uczenia zespołowego
    • Wysoka i niska stronniczość
    • Rodzaje metod zespołowych
    • Topologie szkolenia rozproszonego learner
  • Wyzwania związane z rozproszonymi systemami uczenia maszynowego
    • Wydajność
    • Zarządzanie zasobami
    • Odporność na błędy
    • Prywatność
    • Przenośność
  • Konfiguracja środowiska lokalnego
    • Środowisko samouczków z rozdziałów 2. - 6.
    • Środowisko samouczków z rozdziałów 7. - 10.
  • Podsumowanie

2. Wprowadzenie do Sparka i PySparka

  • Architektura Apache Spark
  • Wprowadzenie do PySparka
  • Podstawy Apache Spark
    • Architektura oprogramowania
    • PySpark a programowanie funkcyjne
    • Uruchamianie kodu PySparka
  • Ramki DataFrame biblioteki pandas kontra ramki DataFrame systemu Spark
  • Scikit-Learn kontra MLlib
  • Podsumowanie

3. Zarządzanie cyklem życia eksperymentu uczenia maszynowego za pomocą MLflow

  • Wymagania dotyczące zarządzania cyklem życia uczenia maszynowego
  • Czym jest MLflow?
    • Komponenty oprogramowania platformy MLflow
    • Użytkownicy platformy MLflow
  • Komponenty platformy MLflow
    • MLflow Tracking
    • MLflow Projects
    • MLflow Models
    • MLflow Model Registry
  • Korzystanie z platformy MLflow w rozwiązaniach dużej skali
  • Podsumowanie

4. Pozyskiwanie danych, wstępne przetwarzanie i statystyki opisowe

  • Pozyskiwanie danych za pomocą Sparka
    • Przetwarzanie obrazów
    • Przetwarzanie danych tabelarycznych
  • Wstępne przetwarzanie danych
    • Przetwarzanie wstępne a właściwe
    • Po co wstępnie przetwarzać dane?
    • Struktury danych
    • Typy danych MLlib
    • Przetwarzanie wstępne z wykorzystaniem transformatorów MLlib
    • Wstępne przetwarzanie danych obrazów
    • Zapisywanie danych i unikanie problemu małych plików
  • Statystyki opisowe: poznawanie danych
    • Obliczanie statystyk
    • Statystyki opisowe z wykorzystaniem obiektu Summarizer Sparka
    • Skośność danych
    • Korelacja
  • Podsumowanie

5. Inżynieria cech

  • Cechy i ich wpływ na modele uczenia maszynowego
  • Narzędzia do cechowania w bibliotece MLlib
    • Ekstraktory
    • Selektory
    • Przykład: Word2Vec
  • Proces cechowania obrazów
    • Wykonywanie działań na obrazach
    • Wyodrębnianie cech za pomocą API Sparka
  • Proces cechowania tekstu
    • Worek słów
    • TF-IDF
    • n-gramy
    • Techniki dodatkowe
  • Wzbogacanie zbioru danych
  • Podsumowanie

6. Szkolenie modeli za pomocą biblioteki MLlib platformy Spark

  • Algorytmy
  • Nadzorowane uczenie maszynowe
    • Klasyfikacja
    • Regresja
  • Nienadzorowane uczenie maszynowe
    • Wydobywanie częstych wzorców
    • Klasteryzacja
  • Ocena
    • Ewaluatory nadzorowane
    • Ewaluatory nienadzorowane
  • Hiperparametry i eksperymenty dostrajania
    • Budowanie siatki parametrów
    • Podział danych na zbiory szkoleniowe i testowe
    • Walidacja krzyżowa: lepszy sposób testowania modeli
  • Potoki uczenia maszynowego
    • Budowa potoku
    • Jak działa podział dla API Pipeline?
  • Utrwalanie
  • Podsumowanie

7. Łączenie Sparka z frameworkami uczenia głębokiego

  • Podejście oparte na danych i dwóch klastrach
  • Implementacja dedykowanej warstwy dostępu do danych
    • Cechy DAL
    • Wybór warstwy DAL
  • Czym jest Petastorm?
    • SparkDatasetConverter
    • Petastorm jako magazyn Parquet
  • Projekt Hydrogen
    • Barierowy tryb wykonania
    • Harmonogramowanie z uwzględnieniem akceleratorów
  • Wprowadzenie do API Horovod Estimator
  • Podsumowanie

8. Rozproszone uczenie maszynowe z wykorzystaniem TensorFlow

  • Przegląd podstawowych wywołań API biblioteki TensorFlow
    • Czym jest sieć neuronowa?
    • Role i obowiązki w procesie klastra TensorFlow
  • Ładowanie danych Parquet do zbioru danych TensorFlow
  • Strategie rozproszonego uczenia maszynowego TensorFlow
    • ParameterServerStrategy
    • CentralStorageStrategy: jedna maszyna, wiele procesorów
    • MirroredStrategy: jedna maszyna, wiele procesorów, lokalna kopia
    • MultiWorkerMirroredStrategy: wiele maszyn, tryb synchroniczny
    • TPUStrategy
    • Co się zmienia po zmianie strategii?
  • Szkoleniowe interfejsy API
    • API Keras
    • Niestandardowa pętla szkoleniowa
    • API Estimator
  • Połączmy kropki
  • Rozwiązywanie problemów
  • Podsumowanie

9. Rozproszone uczenie maszynowe z wykorzystaniem frameworka PyTorch

  • Przegląd podstaw frameworka PyTorch
    • Graf obliczeniowy
    • Mechanika frameworka PyTorch i związane z nim pojęcia
  • Strategie rozproszonego szkolenia modeli frameworka PyTorch
    • Wprowadzenie do podejścia rozproszonego wykorzystywanego przez framework PyTorch
    • Rozproszone i równoległe szkolenie danych (DDP)
    • Szkolenie rozproszone oparte na RPC
    • Topologie komunikacji frameworka PyTorch (c10d)
    • Do czego można wykorzystać niskopoziomowe wywołania API frameworka PyTorch?
  • Ładowanie danych za pomocą frameworka PyTorch i biblioteki Petastorm
  • Rozwiązywanie problemów podczas korzystania z biblioteki Petastorm i frameworka PyTorch w środowisku rozproszonym
    • Enigma niedopasowanych typów danych
    • Tajemnica marudnych węzłów roboczych
  • Czym PyTorch różni się od TensorFlow?
  • Podsumowanie

10. Wzorce wdrażania modeli uczenia maszynowego

  • Wzorce wdrażania
    • Wzorzec 1. Prognozy zbiorcze
    • Wzorzec 2. Model w ramach usługi
    • Wzorzec 3. Model jako usługa
    • Decydowanie o wykorzystywanym wzorcu
    • Wymagania dotyczące oprogramowania produkcyjnego
  • Monitorowanie modeli uczenia maszynowego w produkcji
    • Dryf danych
    • Dryf modelu, dryf koncepcji
    • Przesunięcie dziedziny rozkładu (długi ogon)
    • Jakie wskaźniki należy monitorować w produkcji?
    • W jaki sposób wykorzystać system monitorowania do mierzenia zmian?
    • Jak to wygląda w systemie produkcyjnym?
  • Produkcyjna pętla sprzężenia zwrotnego
  • Wdrażanie z wykorzystaniem biblioteki MLlib
    • Produkcyjne potoki uczenia maszynowego ze strukturalnym przesyłaniem strumieniowym
  • Wdrażanie z wykorzystaniem biblioteki MLflow
    • Definiowanie wrappera MLflow
    • Wdrażanie modelu jako mikrousługi
    • Ładowanie modelu jako funkcji UDF platformy Spark
  • Jak pracować nad systemem w sposób iteracyjny?
  • Podsumowanie

Skorowidz

Kategoria: Programowanie
Zabezpieczenie: Watermark
Watermark
Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN: 978-83-289-1235-9
Rozmiar pliku: 7,7 MB

BESTSELLERY

Kategorie: