Data science od podstaw. Analiza danych w Pythonie - ebook
Data science od podstaw. Analiza danych w Pythonie - ebook
Współczesne ogromne zbiory danych zawierają odpowiedzi na prawie każde pytanie. Równocześnie nauka o danych jest dziedziną, która cokolwiek onieśmiela. Znajduje się gdzieś pomiędzy subtelnymi umiejętnościami hakerskimi, twardą wiedzą z matematyki i statystyki a merytoryczną znajomością zagadnień z danej branży. Co więcej, dziedzina ta niezwykle dynamicznie się rozwija. Trud włożony w naukę o danych niewątpliwie się jednak opłaca: biegły analityk danych może liczyć na dobrze płatną, inspirującą i bardzo atrakcyjną pracę.
Dzięki tej książce opanujesz najważniejsze zagadnienia związane z matematyką i statystyką, będziesz także rozwijać umiejętności hakerskie. W ten sposób zyskasz podstawy pozwalające na rozpoczęcie przygody z analizą danych. Gruntownie zapoznasz się z potrzebnymi narzędziami i algorytmami. Pozwoli Ci to lepiej zrozumieć ich działanie. Poszczególne przykłady, którymi zilustrowano omawiane zagadnienia, są przejrzyste, dobrze opisane i zrozumiałe. Podczas lektury książki poznasz biblioteki, które umożliwią zaimplementowanie omówionych technik podczas analizy dużych zbiorów danych. Szybko się przekonasz, że aby zostać analitykiem danych, wystarczy odrobina ciekawości, sporo chęci, mnóstwo ciężkiej pracy i... ta książka.
Najważniejsze zagadnienia:
- Praktyczne wprowadzenie do Pythona
- Podstawy algebry liniowej, statystyki i rachunku prawdopodobieństwa w analizie danych
- Podstawy uczenia maszynowego
- Implementacje algorytmów modeli, w tym naiwny klasyfikator bayesowski, regresja liniowa, regresja logistyczna, drzewa decyzyjne, sieci neuronowe i grupowanie, MapReduce
- Systemy rekomendacji i mechanizmy przetwarzania języka naturalnego
- Korzystanie z mediów społecznościowych i baz danych.
Python. Wyciśniesz z danych każdą kroplę wiedzy!
Spis treści
- Przedmowa
- Data science
- Od podstaw
- Konwencje typograficzne przyjęte w tej książce
- Dodatkowe materiały do pobrania
- Podziękowania
- Rozdział 1. Wprowadzenie
- Znaczenie danych
- Czym jest analiza danych?
- Hipotetyczna motywacja
- Określanie najważniejszych węzłów
- Analitycy, których możesz znać
- Wynagrodzenie i doświadczenie
- Płatne konta
- Tematy interesujące użytkowników
- Co dalej?
- Rozdział 2. Błyskawiczny kurs Pythona
- Podstawy
- Skąd wziąć interpreter Pythona?
- Zasady tworzenia kodu Pythona
- Formatowanie za pomocą białych znaków
- Moduły
- Operacje arytmetyczne
- Polskie znaki diakrytyczne
- Funkcje
- Łańcuchy
- Wyjątki
- Listy
- Krotki
- Słowniki
- Zbiory
- Przepływ sterowania
- Wartości logiczne
- Bardziej skomplikowane zagadnienia
- Sortowanie
- Składanie list
- Generatory i iterator
- Losowość
- Wyrażenia regularne
- Programowanie obiektowe
- Narzędzia funkcyjne
- enumerate
- Funkcja zip i rozpakowywanie argumentów
- Argumenty nazwane i nienazwane
- Witaj w firmie DataSciencester!
- Dalsza eksploracja
- Podstawy
- Rozdział 3. Wizualizacja danych
- Pakiet matplotlib
- Wykres słupkowy
- Wykresy liniowe
- Wykresy punktowe
- Dalsza eksploracja
- Rozdział 4. Algebra liniowa
- Wektory
- Macierze
- Dalsza eksploracja
- Rozdział 5. Statystyka
- Opis pojedynczego zbioru danych
- Tendencje centralne
- Dyspersja
- Korelacja
- Paradoks Simpsona
- Inne pułapki związane z korelacją
- Korelacja i przyczynowość
- Dalsza eksploracja
- Opis pojedynczego zbioru danych
- Rozdział 6. Prawdopodobieństwo
- Zależność i niezależność
- Prawdopodobieństwo warunkowe
- Twierdzenie Bayesa
- Zmienne losowe
- Ciągły rozkład prawdopodobieństwa
- Rozkład normalny
- Centralne twierdzenie graniczne
- Dalsza eksploracja
- Rozdział 7. Hipotezy i wnioski
- Sprawdzanie hipotez
- Przykład: rzut monetą
- Przedziały ufności
- Hakowanie wartości p
- Przykład: przeprowadzanie testu A-B
- Wnioskowanie bayesowskie
- Dalsza eksploracja
- Rozdział 8. Metoda gradientu prostego
- Podstawy metody gradientu prostego
- Szacowanie gradientu
- Korzystanie z gradientu
- Dobór właściwego rozmiaru kroku
- Łączenie wszystkich elementów
- Stochastyczna metoda gradientu prostego
- Dalsza eksploracja
- Rozdział 9. Uzyskiwanie danych
- Strumienie stdin i stdout
- Wczytywanie plików
- Podstawowe zagadnienia dotyczące plików tekstowych
- Pliki zawierające dane rozdzielone separatorem
- Pobieranie danych ze stron internetowych
- HTML i parsowanie
- Przykład: książki wydawnictwa OReilly dotyczące analizy danych
- Korzystanie z interfejsów programistycznych
- Format JSON (i XML)
- Korzystanie z interfejsu programistycznego bez uwierzytelniania
- Poszukiwanie interfejsów programistycznych
- Przykład: korzystanie z interfejsów programistycznych serwisu Twitter
- Uzyskiwanie danych uwierzytelniających
- Dalsza eksploracja
- Rozdział 10. Praca z danymi
- Eksploracja danych
- Eksploracja danych jednowymiarowych
- Dwa wymiary
- Wiele wymiarów
- Oczyszczanie i wstępne przetwarzanie danych
- Przetwarzanie danych
- Przeskalowanie
- Redukcja liczby wymiarów
- Dalsza eksploracja
- Eksploracja danych
- Rozdział 11. Uczenie maszynowe
- Modelowanie
- Czym jest uczenie maszynowe?
- Nadmierne i zbyt małe dopasowanie
- Poprawność
- Kompromis pomiędzy wartością progową a wariancją
- Ekstrakcja i selekcja cech
- Dalsza eksploracja
- Rozdział 12. Algorytm k najbliższych sąsiadów
- Model
- Przykład: ulubione języki
- Przekleństwo wymiarowości
- Dalsza eksploracja
- Rozdział 13. Naiwny klasyfikator bayesowski
- Bardzo prosty filtr antyspamowy
- Bardziej zaawansowany filtr antyspamowy
- Implementacja
- Testowanie modelu
- Dalsza eksploracja
- Rozdział 14. Prosta regresja liniowa
- Model
- Korzystanie z algorytmu spadku gradientowego
- Szacowanie maksymalnego prawdopodobieństwa
- Dalsza eksploracja
- Rozdział 15. Regresja wieloraka
- Model
- Dalsze założenia dotyczące modelu najmniejszych kwadratów
- Dopasowywanie modelu
- Interpretacja modelu
- Poprawność dopasowania
- Dygresja: ładowanie wstępne
- Błędy standardowe współczynników regresji
- Regularyzacja
- Dalsza eksploracja
- Rozdział 16. Regresja logistyczna
- Problem
- Funkcja logistyczna
- Stosowanie modelu
- Poprawność dopasowania
- Maszyny wektorów nośnych
- Dalsza eksploracja
- Rozdział 17. Drzewa decyzyjne
- Czym jest drzewo decyzyjne?
- Entropia
- Entropia podziału
- Tworzenie drzewa decyzyjnego
- Łączenie wszystkiego w całość
- Lasy losowe
- Dalsza eksploracja
- Rozdział 18. Sztuczne sieci neuronowe
- Perceptrony
- Jednokierunkowe sieci neuronowe
- Propagacja wsteczna
- Przykład: pokonywanie zabezpieczenia CAPTCHA
- Dalsza eksploracja
- Rozdział 19. Grupowanie
- Idea
- Model
- Przykład: spotkania
- Wybór wartości parametru k
- Przykład: grupowanie kolorów
- Grupowanie hierarchiczne z podejściem aglomeracyjnym
- Dalsza eksploracja
- Rozdział 20. Przetwarzanie języka naturalnego
- Chmury wyrazowe
- Modele n-gram
- Gramatyka
- Na marginesie: próbkowanie Gibbsa
- Modelowanie tematu
- Dalsza eksploracja
- Rozdział 21. Analiza sieci społecznościowych
- Pośrednictwo
- Centralność wektorów własnych
- Mnożenie macierzy
- Centralność
- Grafy skierowane i metoda PageRank
- Dalsza eksploracja
- Rozdział 22. Systemy rekomendujące
- Ręczne rozwiązywanie problemu
- Rekomendowanie tego, co jest popularne
- Filtrowanie kolaboratywne oparte na użytkownikach
- Filtrowanie kolaboratywne oparte na zainteresowaniach
- Dalsza eksploracja
- Rozdział 23. Bazy danych i SQL
- Polecenia CREATE TABLE i INSERT
- Polecenie UPDATE
- Polecenie DELETE
- Polecenie SELECT
- Polecenie GROUP BY
- Polecenie ORDER BY
- Polecenie JOIN
- Zapytania składowe
- Indeksy
- Optymalizacja zapytań
- Bazy danych NoSQL
- Dalsza eksploracja
- Rozdział 24. Algorytm MapReduce
- Przykład: liczenie słów
- Dlaczego warto korzystać z algorytmu MapReduce?
- Algorytm MapReduce w ujęciu bardziej ogólnym
- Przykład: analiza treści statusów
- Przykład: mnożenie macierzy
- Dodatkowe informacje: zespalanie
- Dalsza eksploracja
- Rozdział 25. Praktyka czyni mistrza
- IPython
- Matematyka
- Korzystanie z gotowych rozwiązań
- NumPy
- pandas
- scikit-learn
- Wizualizacja
- R
- Szukanie danych
- Zabierz się za analizę
- Hacker News
- Wozy straży pożarnej
- Koszulki
- A Ty?
- O autorze
- Kolofon
Kategoria: | Hacking |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-283-4603-1 |
Rozmiar pliku: | 4,8 MB |