Facebook - konwersja
Pobierz fragment

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark - ebook

Wydawnictwo:
Tłumacz:
Data wydania:
7 marca 2023
Format ebooka:
PDF
Format PDF
czytaj
na laptopie
czytaj
na tablecie
Format e-booków, który możesz odczytywać na tablecie oraz laptopie. Pliki PDF są odczytywane również przez czytniki i smartfony, jednakze względu na komfort czytania i brak możliwości skalowania czcionki, czytanie plików PDF na tych urządzeniach może być męczące dla oczu. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
, EPUB
Format EPUB
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najpopularniejszych formatów e-booków na świecie. Niezwykle wygodny i przyjazny czytelnikom - w przeciwieństwie do formatu PDF umożliwia skalowanie czcionki, dzięki czemu możliwe jest dopasowanie jej wielkości do kroju i rozmiarów ekranu. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
, MOBI
Format MOBI
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najczęściej wybieranych formatów wśród czytelników e-booków. Możesz go odczytać na czytniku Kindle oraz na smartfonach i tabletach po zainstalowaniu specjalnej aplikacji. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
(3w1)
Multiformat
E-booki sprzedawane w księgarni Virtualo.pl dostępne są w opcji multiformatu - kupujesz treść, nie format. Po dodaniu e-booka do koszyka i dokonaniu płatności, e-book pojawi się na Twoim koncie w Mojej Bibliotece we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu przy okładce. Uwaga: audiobooki nie są objęte opcją multiformatu.
czytaj
na laptopie
Pliki PDF zabezpieczone watermarkiem możesz odczytać na dowolnym laptopie po zainstalowaniu czytnika dokumentów PDF. Najpowszechniejszym programem, który umożliwi odczytanie pliku PDF na laptopie, jest Adobe Reader. W zależności od potrzeb, możesz zainstalować również inny program - e-booki PDF pod względem sposobu odczytywania nie różnią niczym od powszechnie stosowanych dokumentów PDF, które odczytujemy każdego dnia.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na tablecie
Aby odczytywać e-booki na swoim tablecie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. Bluefire dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na czytniku
Czytanie na e-czytniku z ekranem e-ink jest bardzo wygodne i nie męczy wzroku. Pliki przystosowane do odczytywania na czytnikach to przede wszystkim EPUB (ten format możesz odczytać m.in. na czytnikach PocketBook) i MOBI (ten fromat możesz odczytać m.in. na czytnikach Kindle).
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na smartfonie
Aby odczytywać e-booki na swoim smartfonie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. iBooks dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
Pobierz fragment
69,00

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark - ebook

Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych.

Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy.

Dzięki książce poznasz:

  • model programowania w ekosystemie Spark
  • podstawowe metody stosowane w nauce o danych
  • pełne implementacje analiz dużych publicznych zbiorów danych
  • konkretne przypadki użycia narzędzi uczenia maszynowego
  • kod, który łatwo dostosujesz do swoich potrzeb

PySpark: systemowa odpowiedź na problemy inżyniera danych!

Spis treści

Słowo wstępne

1. Analiza wielkich zbiorów danych

  • Praca z wielkimi zbiorami danych
  • Przedstawiamy Apache Spark i PySpark
    • Komponenty
    • PySpark
    • Ekosystem
  • Spark 3.0
  • PySpark i wyzwania w nauce o danych
  • O czym jest ta książka

2. Wprowadzenie do analizy danych za pomocą PySpark

  • Architektura systemu Spark
  • Instalacja interfejsu PySpark
  • Przygotowanie danych
  • Analiza danych za pomocą struktury DataFrame
  • Szybkie statystyki zbiorcze w strukturze DataFrame
  • Przestawienie i przekształcenie struktury DataFrame
  • Złączenie struktur DataFrame i wybór cech
  • Ocena modelu
  • Dalsze kroki

3. Rekomendowanie muzyki i dane Audioscrobbler

  • Zbiór danych
  • Wymagania dla systemu rekomendacyjnego
  • Algorytm naprzemiennych najmniejszych kwadratów
  • Przygotowanie danych
  • Utworzenie pierwszego modelu
  • Wyrywkowe sprawdzanie rekomendacji
  • Ocena jakości rekomendacji
  • Obliczenie wskaźnika AUC
  • Dobór wartości hiperparametrów
  • Przygotowanie rekomendacji
  • Dalsze kroki

4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego

  • Drzewa i lasy decyzyjne
  • Przygotowanie danych
  • Pierwsze drzewo decyzyjne
  • Hiperparametry drzewa decyzyjnego
  • Regulacja drzewa decyzyjnego
  • Weryfikacja cech kategorialnych
  • Losowy las decyzyjny
  • Prognozowanie
  • Dalsze kroki

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich

  • Grupowanie według k-średnich
  • Wykrywanie anomalii w ruchu sieciowym
    • Dane KDD Cup 1999
  • Pierwsza próba grupowania
  • Dobór wartości k
  • Wizualizacja w środowisku R
  • Normalizacja cech
  • Zmienne kategorialne
  • Wykorzystanie etykiet i wskaźnika entropii
  • Grupowanie w akcji
  • Dalsze kroki

6. Wikipedia, algorytmy LDA i Spark NLP

  • Algorytm LDA
    • Algorytm LDA w interfejsie PySpark
  • Pobranie danych
  • Spark NLP
    • Przygotowanie środowiska
  • Przekształcenie danych
  • Przygotowanie danych za pomocą biblioteki Spark NLP
  • Metoda TF-IDF
  • Wyliczenie wskaźników TF-IDF
  • Utworzenie modelu LDA
  • Dalsze kroki

7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek

  • Przygotowanie danych
    • Konwersja ciągów znaków na znaczniki czasu
    • Obsługa błędnych rekordów danych
  • Analiza danych geoprzestrzennych
    • Wprowadzenie do formatu GeoJSON
    • Biblioteka GeoPandas
  • Sesjonowanie w interfejsie PySpark
    • Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
  • Dalsze kroki

8. Szacowanie ryzyka finansowego

  • Terminologia
  • Metody obliczania wskaźnika VaR
    • Wariancja-kowariancja
    • Symulacja historyczna
    • Symulacja Monte Carlo
  • Nasz model
  • Pobranie danych
  • Przygotowanie danych
  • Określenie wag czynników
  • Losowanie prób
    • Wielowymiarowy rozkład normalny
  • Wykonanie testów
  • Wizualizacja rozkładu zwrotów
  • Dalsze kroki

9. Analiza danych genomicznych i projekt BDG

  • Rozdzielenie sposobów zapisu i modelowania danych
  • Przygotowanie pakietu ADAM
  • Przetwarzanie danych genomicznych za pomocą pakietu ADAM
    • Konwersja formatów plików za pomocą poleceń pakietu ADAM
    • Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
  • Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
  • Dalsze kroki

10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH

  • PyTorch
    • Instalacja
  • Przygotowanie danych
    • Skalowanie obrazów za pomocą PyTorch
  • Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
    • Osadzenie obrazów
    • Import osadzeń obrazów do pakietu PySpark
  • Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
    • Wyszukiwanie najbliższych sąsiadów
  • Dalsze kroki

11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow

  • Cykl uczenia maszynowego
  • Platforma MLflow
  • Śledzenie eksperymentów
  • Zarządzanie modelami uczenia maszynowego i udostępnianie ich
  • Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
  • Dalsze kroki
Kategoria: Programowanie
Zabezpieczenie: Watermark
Watermark
Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN: 978-83-8322-070-3
Rozmiar pliku: 3,6 MB

BESTSELLERY

Kategorie: