Zwinna analiza danych. Apache Hadoop dla każdego - ebook

Russell Jurney

Wydawnictwo:

Helion

Tłumacz:

Przemysław Szeremiota

Format:

MOBI

Data wydania:

18 stycznia 2015

3990 pkt

punktów Virtualo

Zwinna analiza danych. Apache Hadoop dla każdego - ebook

Duże zbiory danych dla każdego!

W dobie Big Data klasyczne podejście do analizy danych nie przynosi już pożądanych wyników. Skuteczna analiza gigantycznych zbiorów informacji, wyciąganie interesujących wniosków i prezentowanie ich w przejrzystej formie użytkownikowi wymagają mnóstwa czasu i środków. Zastanawiasz się, jak podejść do tego problemu, by zminimalizować ryzyko niepowodzenia? Na to i wiele innych pytań odpowiada ta fantastyczna książka.

Dzięki niej dowiesz się, jak zaprząc platformę Hadoop do własnych celów. Skorzystasz z prostych narzędzi, takich jak język Python, biblioteka D3.js oraz Apache Pig, i zastosujesz zwinne podejście do problemu, by osiągnąć zaskakujące efekty. Ponadto przekonasz się, jak łatwo można publikować dane w MongoDB, stosować wyszukiwarkę ElasticSearch oraz wykorzystać potencjał chmur obliczeniowych. Nauczysz się także wizualizować dane na wykresach, prognozować oraz podejmować właściwe działania. Książka ta jest doskonałą lekturą dla wszystkich osób stojących przed problemem skutecznej pracy z ogromnymi zbiorami danych.

Dzięki tej książce:

poznasz najlepsze narzędzia do przetwarzania zbiorów danych
wykorzystasz możliwości języka Python
sprawdzisz możliwości chmur obliczeniowych
błyskawicznie wyszukasz dane za pomocą ElasticSearch
zwizualizujesz dane z użyciem D3.js

Zwinnie rozwiąż problemy z dużymi zbiorami danych!

„Przy tak dużej popularności zagadnień Big Data i Data Science, lektura praktycznego instruktażu budowy aplikacji analitycznych jest mocno odświeżająca. Russel Jurney wprowadza nas, małymi porcjami implementacji, w swoją filozofię zwinności w dziedzinie analizy i aplikacyjnego wykorzystywania danych.”

Mat Kelcey, matpalm.com

Spis treści

Wstęp (7)

CZĘŚĆ I. PRZYGOTOWANIE (11)

1. Teoria (13)

Agile w Big Data (13)
Wielkie słowa (15)
Zespoły (16)
- Rozpoznawanie problemów i szans (18)
- Adaptowanie do zmian (18)
Proces wytwórczy w zwinnym Big Data (22)
Programowanie w parach i przegląd kodu (24)
Środowisko zwinnej pracy a produktywność (24)
- Przestrzeń współpracy (25)
- Przestrzeń prywatna (26)
- Przestrzeń osobista (26)
Pomysły na wielkoformatowych wydrukach (26)

2. Dane (29)

E-mail (29)
Praca z surowymi danymi (30)
- Surowe wiadomości e-mail (30)
- Dane ustrukturyzowane a dane na wpół ustrukturyzowane (31)
- SQL (31)
NoSQL (37)
- Serializacja (38)
- Wyodrębnianie i ujawnianie cech w ewoluującym schemacie (39)
- Potoki danych (40)
Perspektywy danych (40)
- Sieci (41)
- Szeregi czasowe (44)
- Język naturalny (44)
- Prawdopodobieństwo (45)
Podsumowanie (48)

3. Narzędzia zwinności (49)

Skalowalność = prostota (49)
Zwinne przetwarzanie w Big Data (50)
Konfigurowanie wirtualnego środowiska dla języka Python (52)
Serializacja zdarzeń przez Avro (52)
- Avro w Pythonie (53)
Zbieranie danych (55)
Przetwarzanie danych w Pigu (58)
- Instalacja (58)
Publikowanie danych w MongoDB (62)
- Instalacja (62)
- Instalowanie sterownika MongoDB dla Javy (63)
- Instalowanie łącznika mongo-hadoop (63)
- Wypychanie danych z Piga do MongoDB (63)
Wyszukiwarka ElasticSearch (66)
- Instalacja (66)
- ElasticSearch i Pig - Wonderdog (66)
Refleksja o kształcie potoku przetwarzającego (69)
Lekkie aplikacje WWW (70)
- Python i Flask (70)
Prezentacja danych (72)
- Instalacja (73)
- Bootstrap na start (73)
- Wizualizacja danych: D3.js i nvd3.js (78)
Podsumowanie (78)

4. Do chmury! (81)

Wprowadzenie (81)
GitHub (83)
DotCloud (84)
- Pierwszy krok w dotCloud (85)
- Procesy robocze w Pythonie (87)
Amazon Web Services (87)
- Simple Storage Service (88)
- Elastic MapReduce (89)
- MongoDB w wydaniu usługowym (94)
Monitorowanie (97)
- Google Analytics (97)
- Mortar Data (98)

CZĘŚĆ II. W GÓRĘ PIRAMIDY (101)

5. Zbieranie i wyświetlanie rekordów (105)

Montaż końcowy (106)
Pobieranie i serializowanie zawartości skrzynki pocztowej (107)
Przetwarzanie i publikowanie wiadomości e-mail (108)
Prezentowanie wiadomości w przeglądarce (110)
- Serwowanie wiadomości przez Flask i pymongo (110)
- Renderowanie strony HTML5 z szablonów Jinja2 (111)
Kontrola zwinności (115)
Listy wiadomości (116)
- Generowanie list wiadomości w MongoDB (116)
- Anatomia prezentacji (119)
Przeszukiwanie wiadomości e-mail (124)
- Indeksowanie wiadomości - Pig, ElasticSearch i Wonderdog (124)
- Wyszukiwanie wiadomości z poziomu aplikacji WWW (125)
Podsumowanie (126)

6. Wizualizacja danych na wykresach (129)

Dobre wykresy (130)
Wyodrębnianie encji: adresy e-mail (130)
- Wyodrębnianie adresów (131)
Wizualizacja w przekroju czasowym (135)
Podsumowanie (141)

7. Eksplorowanie danych w raportach (143)

Budowanie raportów z wieloma wykresami (144)
Łączenie rekordów (147)
Ekstrakcja słów z wiadomości - TF-IDF (152)
Podsumowanie (158)

8. Stawianie prognoz (161)

Przewidywanie współczynnika odpowiedzi na wiadomości (162)
Personalizacja (167)
Podsumowanie (168)

9. Ukierunkowywanie działań (169)

Właściwości skutecznych wiadomości e-mail (170)
Lepsze przewidywanie - prosty predyktor bayesowski (171)
P(reply|from & to) (171)
P(reply|token) (171)
Predykcje w czasie rzeczywistym (174)
Rejestrowanie zdarzeń w aplikacji (177)
Podsumowanie (179)

Skorowidz (180)

Kategoria:	Programowanie
Język:	Polski
Zabezpieczenie:	Watermark Watermark Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN:	978-83-246-9945-2
Rozmiar pliku:	5,1 MB
Użytkowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Drukowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Kopiowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.

Zwinna analiza danych. Apache Hadoop dla każdego - ebook

Duże zbiory danych dla każdego!

Zwinnie rozwiąż problemy z dużymi zbiorami danych!

Spis treści

BESTSELLERY