Facebook - konwersja
  • promocja

Spark. Zaawansowana analiza danych - ebook

Wydawnictwo:
Tłumacz:
Data wydania:
24 listopada 2015
Format ebooka:
EPUB
Format EPUB
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najpopularniejszych formatów e-booków na świecie. Niezwykle wygodny i przyjazny czytelnikom - w przeciwieństwie do formatu PDF umożliwia skalowanie czcionki, dzięki czemu możliwe jest dopasowanie jej wielkości do kroju i rozmiarów ekranu. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
, PDF
Format PDF
czytaj
na laptopie
czytaj
na tablecie
Format e-booków, który możesz odczytywać na tablecie oraz laptopie. Pliki PDF są odczytywane również przez czytniki i smartfony, jednakze względu na komfort czytania i brak możliwości skalowania czcionki, czytanie plików PDF na tych urządzeniach może być męczące dla oczu. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
, MOBI
Format MOBI
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najczęściej wybieranych formatów wśród czytelników e-booków. Możesz go odczytać na czytniku Kindle oraz na smartfonach i tabletach po zainstalowaniu specjalnej aplikacji. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
(3w1)
Multiformat
E-booki sprzedawane w księgarni Virtualo.pl dostępne są w opcji multiformatu - kupujesz treść, nie format. Po dodaniu e-booka do koszyka i dokonaniu płatności, e-book pojawi się na Twoim koncie w Mojej Bibliotece we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu przy okładce. Uwaga: audiobooki nie są objęte opcją multiformatu.
czytaj
na laptopie
Pliki PDF zabezpieczone watermarkiem możesz odczytać na dowolnym laptopie po zainstalowaniu czytnika dokumentów PDF. Najpowszechniejszym programem, który umożliwi odczytanie pliku PDF na laptopie, jest Adobe Reader. W zależności od potrzeb, możesz zainstalować również inny program - e-booki PDF pod względem sposobu odczytywania nie różnią niczym od powszechnie stosowanych dokumentów PDF, które odczytujemy każdego dnia.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na tablecie
Aby odczytywać e-booki na swoim tablecie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. Bluefire dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na czytniku
Czytanie na e-czytniku z ekranem e-ink jest bardzo wygodne i nie męczy wzroku. Pliki przystosowane do odczytywania na czytnikach to przede wszystkim EPUB (ten format możesz odczytać m.in. na czytnikach PocketBook) i MOBI (ten fromat możesz odczytać m.in. na czytnikach Kindle).
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na smartfonie
Aby odczytywać e-booki na swoim smartfonie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. iBooks dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.

Spark. Zaawansowana analiza danych - ebook

Analiza ogromnych zbiorów danych nie musi być wolna!

Apache Spark to darmowy, zaawansowany szkielet i silnik pozwalający na szybkie przetwarzanie oraz analizę ogromnych zbiorów danych. Prace nad tym projektem rozpoczęły się w 2009 roku, a już rok później Spark został udostępniony użytkownikom. Jeżeli potrzebujesz najwyższej wydajności w przetwarzaniu informacji, jeżeli chcesz uzyskiwać odpowiedź na trudne pytania niemalże w czasie rzeczywistym, Spark może być odpowiedzią na Twoje oczekiwania.

Sięgnij po tę książkę i przekonaj się, czy tak jest w rzeczywistości. Autor porusza tu zaawansowane kwestie związane z analizą statystyczną danych, wykrywaniem anomalii oraz analizą obrazów. Jednak zanim przejdziesz do tych tematów, zapoznasz się z podstawami — wprowadzeniem do analizy danych za pomocą języka Scala oraz Apache Spark. Nauczysz się też przeprowadzać analizę semantyczną i zobaczysz, jak w praktyce przeprowadzić analizę sieci współwystępowań za pomocą biblioteki GraphX. Na koniec dowiesz się, jak przetwarzać dane geoprzestrzenne i genomiczne, a także oszacujesz ryzyko metodą symulacji Monte Carlo. Książka ta pozwoli Ci na wykorzystanie potencjału Apache Spark i zaprzęgnięcie go do najtrudniejszych zadań!

Przykłady prezetnowane w książce obejmują:

  • Rekomendowanie muzyki i dane Audioscrobbler
  • Prognozowanie zalesienia za pomocą drzewa decyzyjnego
  • Wykrywanie anomalii w ruchu sieciowym metodą grupowania według k-średnich
  • Wikipedia i ukryta analiza semantyczna
  • Analiza sieci współwystępowań za pomocą biblioteki GraphX
  • Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek
  • Szacowanie ryzyka finansowego metodą symulacji Monte Carlo
  • Analiza danych genomicznych i projekt BDG
  • Analiza danych neuroobrazowych za pomocą pakietów PySpark i Thunder

Poznaj potencjał i wydajność Apache Spark!

Spis treści

Przedmowa (9)

Słowo wstępne (11)

1. Analiza wielkich zbiorów danych (13)

  • Wyzwania w nauce o danych (15)
  • Przedstawiamy Apache Spark (16)
  • O czym jest ta książka (18)

2. Wprowadzenie do analizy danych za pomocą Scala i Spark (21)

  • Scala dla badaczy danych (22)
  • Model programowania w Spark (23)
  • Wiązanie rekordów danych (23)
  • Pierwsze kroki - powłoka Spark i kontekst SparkContext (24)
  • Przesyłanie danych z klastra do klienta (29)
  • Wysyłanie kodu z klienta do klastra (32)
  • Tworzenie list danych i klas wyboru (33)
  • Agregowanie danych (36)
  • Tworzenie histogramów (38)
  • Statystyki sumaryzacyjne ciągłych wartości (39)
  • Tworzenie współdzielonego kodu wyliczającego statystyki sumaryczne (40)
  • Prosty wybór zmiennych i ocena zgodności rekordów (44)
  • Następny krok (45)

3. Rekomendowanie muzyki i dane Audioscrobbler (47)

  • Zbiór danych (48)
  • Algorytm rekomendacyjny wykorzystujący metodę naprzemiennych najmniejszych kwadratów (49)
  • Przygotowanie danych (51)
  • Utworzenie pierwszego modelu (54)
  • Wyrywkowe sprawdzanie rekomendacji (56)
  • Ocena jakości rekomendacji (57)
  • Obliczenie metryki AUC (59)
  • Dobór wartości hiperparametrów (60)
  • Przygotowanie rekomendacji (62)
  • Dalsze kroki (63)

4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego (65)

  • Szybkie przejście do regresji (65)
  • Wektory i cechy (66)
  • Przykłady treningowe (67)
  • Drzewa i lasy decyzyjne (68)
  • Dane Covtype (70)
  • Przygotowanie danych (71)
  • Pierwsze drzewo decyzyjne (72)
  • Hiperparametry drzewa decyzyjnego (76)
  • Regulacja drzewa decyzyjnego (77)
  • Weryfikacja cech kategorialnych (79)
  • Losowy las decyzyjny (81)
  • Prognozowanie (83)
  • Dalsze kroki (83)

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania według k-średnich (85)

  • Wykrywanie anomalii (86)
  • Grupowanie według k-średnich (86)
  • Włamania sieciowe (87)
  • Dane KDD Cup 1999 (87)
  • Pierwsza próba grupowania (88)
  • Dobór wartości k (90)
  • Wizualizacja w środowisku R (93)
  • Normalizacja cech (94)
  • Zmienne kategorialne (96)
  • Wykorzystanie etykiet i wskaźnika entropii (97)
  • Grupowanie w akcji (98)
  • Dalsze kroki (100)

6. Wikipedia i ukryta analiza semantyczna (101)

  • Macierz słowo - dokument (102)
  • Pobranie danych (104)
  • Analiza składni i przygotowanie danych (104)
  • Lematyzacja (105)
  • Wyliczenie metryk TF-IDF (106)
  • Rozkład według wartości osobliwych (108)
  • Wyszukiwanie ważnych pojęć (110)
  • Wyszukiwanie i ocenianie informacji za pomocą niskowymiarowej reprezentacji danych (113)
  • Związek dwóch słów (114)
  • Związek dwóch dokumentów (115)
  • Związek słowa i dokumentu (116)
  • Wyszukiwanie wielu słów (117)
  • Dalsze kroki (118)

7. Analiza sieci współwystępowań za pomocą biblioteki GraphX (121)

  • Katalog cytowań bazy MEDLINE - analiza sieci (122)
  • Pobranie danych (123)
  • Analiza dokumentów XML za pomocą biblioteki Scala (125)
  • Analiza głównych znaczników i ich współwystępowań (126)
  • Konstruowanie sieci współwystępowań za pomocą biblioteki GraphX (128)
  • Struktura sieci (131)
    • Połączone komponenty (131)
    • Rozkład stopni wierzchołków (133)
  • Filtrowanie krawędzi zakłócających dane (135)
    • Przetwarzanie struktury EdgeTriplet (136)
    • Analiza przefiltrowanego grafu (138)
  • Sieci typu "mały świat" (139)
    • Kliki i współczynniki klastrowania (139)
    • Obliczenie średniej długości ścieżki za pomocą systemu Pregel (141)
  • Dalsze kroki (145)

8. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek (147)

  • Pobranie danych (148)
  • Przetwarzanie danych temporalnych i geoprzestrzennych w systemie Spark (148)
  • Przetwarzanie danych temporalnych za pomocą bibliotek JodaTime i NScalaTime (149)
  • Przetwarzanie danych geoprzestrzennych za pomocą Esri Geometry API i Spray (150)
    • Użycie interfejsu API Esri Geometry (151)
    • Wprowadzenie do formatu GeoJSON (152)
  • Przygotowanie danych dotyczących kursów taksówek (154)
    • Obsługa dużej liczby błędnych rekordów danych (155)
    • Analiza danych geoprzestrzennych (158)
  • Sesjonowanie w systemie Spark (161)
    • Budowanie sesji - dodatkowe sortowanie danych w systemie Spark (162)
  • Dalsze kroki (165)

9. Szacowanie ryzyka finansowego metodą symulacji Monte Carlo (167)

  • Terminologia (168)
  • Metody obliczania wskaźnika VaR (169)
    • Wariancja-kowariancja (169)
    • Symulacja historyczna (169)
    • Symulacja Monte Carlo (169)
  • Nasz model (170)
  • Pobranie danych (171)
  • Wstępne przetworzenie danych (171)
  • Określenie wag czynników (174)
  • Losowanie prób (176)
    • Wielowymiarowy rozkład normalny (178)
  • Wykonanie testów (179)
  • Wizualizacja rozkładu zwrotów (181)
  • Ocena wyników (182)
  • Dalsze kroki (184)

10. Analiza danych genomicznych i projekt BDG (187)

  • Rozdzielenie sposobów zapisu i modelowania danych (188)
  • Przetwarzanie danych genomicznych za pomocą wiersza poleceń systemu ADAM (190)
    • Format Parquet i format kolumnowy (195)
  • Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE (197)
  • Odczytywanie informacji o genotypach z danych 1000 Genomes (203)
  • Dalsze kroki (204)

11. Analiza danych neuroobrazowych za pomocą pakietów PySpark i Thunder (205)

  • Ogólne informacje o pakiecie PySpark (206)
    • Budowa pakietu PySpark (207)
  • Ogólne informacje i instalacja biblioteki pakietu Thunder (209)
  • Ładowanie danych za pomocą pakietu Thunder (210)
    • Podstawowe typy danych w pakiecie Thunder (214)
  • Klasyfikowanie neuronów za pomocą pakietu Thunder (216)
  • Dalsze kroki (221)

A. Więcej o systemie Spark (223)

  • Serializacja (224)
  • Akumulatory (225)
  • System Spark i metody pracy badacza danych (226)
  • Formaty plików (228)
  • Podprojekty Spark (229)
    • MLlib (229)
    • Spark Streaming (230)
    • Spark SQL (230)
    • GraphX (230)

B. Nowy interfejs MLlib Pipelines API (231)

  • Samo modelowanie to za mało (231)
  • Interfejs API Pipelines (232)
  • Przykład procesu klasyfikacji tekstu (233)

Skorowidz (237)

Kategoria: Bazy danych
Zabezpieczenie: Watermark
Watermark
Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN: 978-83-283-1464-1
Rozmiar pliku: 4,0 MB

BESTSELLERY

Kategorie: