Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II - ebook
Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II - ebook
Metody statystyczne są kluczowym narzędziem w data science, mimo to niewielu analityków danych zdobyło wykształcenie w ich zakresie. Może im to utrudniać uzyskiwanie dobrych efektów. Zrozumienie praktycznych zasad statystyki okazuje się ważne również dla programistów R i Pythona, którzy tworzą rozwiązania dla data science. Kursy podstaw statystyki rzadko jednak uwzględniają tę perspektywę, a większość podręczników do statystyki w ogóle nie zajmuje się narzędziami wywodzącymi się z informatyki.
To drugie wydanie popularnego podręcznika statystyki przeznaczonego dla analityków danych. Uzupełniono je o obszerne przykłady w Pythonie oraz wyjaśnienie, jak stosować poszczególne metody statystyczne w problemach data science, a także jak ich nie używać. Skoncentrowano się też na tych zagadnieniach statystyki, które odgrywają istotną rolę w data science. Wyjaśniono, które koncepcje są ważne i przydatne z tej perspektywy, a które mniej istotne i dlaczego. Co ważne, poszczególne koncepcje i zagadnienia praktyczne przedstawiono w sposób przyswajalny i zrozumiały również dla osób nienawykłych do posługiwania się statystyką na co dzień.
W książce między innymi:
- analiza eksploracyjna we wstępnym badaniu danych
- próby losowe a jakość dużych zbiorów danych
- podstawy planowania eksperymentów
- regresja w szacowaniu wyników i wykrywaniu anomalii
- statystyczne uczenie maszynowe
- uczenie nienadzorowane a znaczenie danych niesklasyfikowanych
Statystyka: klasyczne narzędzia w najnowszych technologiach!
Spis treści
- Przedmowa
- Konwencja zastosowana w tej książce
- Wykorzystanie przykładów kodu
- Podziękowania
- Rozdział 1. Badania eksploracyjne
- Elementy danych uporządkowanych
- Dla pogłębienia wiedzy
- Dane stabelaryzowane
- Ramki danych i indeksy
- Niestabelaryzowane struktury danych
- Dla pogłębienia wiedzy
- Miary położenia
- Średnia
- Mediana i estymatory odporne
- Wartości odstające
- Przykład: miara położenia dla wielkości populacji i wskaźnika morderstw
- Dla pogłębienia wiedzy
- Miary rozproszenia
- Odchylenie standardowe i powiązane estymatory
- Estymatory oparte na percentylach
- Przykład: szacowanie zmienności dla populacji Stanów Zjednoczonych
- Dla pogłębienia wiedzy
- Badanie rozkładu danych
- Percentyle i boxploty
- Tablica częstości i histogramy
- Szacowanie i wykresy gęstości rozkładu
- Dla pogłębienia wiedzy
- Badanie danych binarnych i skategoryzowanych
- Moda
- Wartość oczekiwana
- Prawdopodobieństwo
- Dla pogłębienia wiedzy
- Korelacja
- Wykres punktowy
- Dla pogłębienia wiedzy
- Badanie dwóch lub więcej zmiennych
- Wykres przedziałów heksagonalnych i wykres konturowy (przedstawianie danych numerycznych względem danych numerycznych)
- Dwie zmienne skategoryzowane
- Dane kategoryzowane i numeryczne
- Wizualizacja wielu zmiennych
- Dla pogłębienia wiedzy
- Podsumowanie
- Elementy danych uporządkowanych
- Rozdział 2. Rozkłady danych i prób
- Losowy dobór i obciążenie próby
- Obciążenie
- Dobór losowy
- Rozmiar a jakość: kiedy rozmiar ma znaczenie?
- Średnia z próby a średnia z populacji
- Dla pogłębienia wiedzy
- Błąd doboru
- Regresja do średniej
- Dla pogłębienia wiedzy
- Rozkład próbkowania dla statystyki
- Centralne twierdzenie graniczne
- Błąd standardowy
- Dla pogłębienia wiedzy
- Próby bootstrapowe
- Ponowne próbkowanie a próby bootstrapowe
- Dla pogłębienia wiedzy
- Przedziały ufności
- Dla pogłębienia wiedzy
- Rozkład normalny
- Standaryzowany rozkład normalny i wykres K-K
- Rozkłady z długimi ogonami
- Dla pogłębienia wiedzy
- Rozkład t-Studenta
- Dla pogłębienia wiedzy
- Rozkład binarny
- Dla pogłębienia wiedzy
- Rozkład chi-kwadrat
- Dla pogłębienia wiedzy
- Rozkład F
- Dla pogłębienia wiedzy
- Rozkład Poissona i jego pochodne
- Rozkład Poissona
- Rozkład wykładniczy
- Szacowanie współczynnika porażki
- Rozkład Weibulla
- Dla pogłębienia wiedzy
- Podsumowanie
- Losowy dobór i obciążenie próby
- Rozdział 3. Eksperymenty statystyczne i testowanie istotności
- Test A/B
- Po co Ci grupa kontrolna?
- Dlaczego tylko A/B? Dlaczego nie C, D itd.?
- Dla pogłębienia wiedzy
- Testowanie hipotezy
- Hipoteza zerowa
- Hipoteza alternatywna
- Test jednostronny i test dwustronny
- Dla pogłębienia wiedzy
- Testy randomizacyjne
- Test permutacyjny
- Przykład: licznik odwiedzin strony
- Zupełny test permutacyjny i bootstrap
- Test permutacyjny: podstawa w data science
- Dla pogłębienia wiedzy
- Istotność statystyczna i p-wartość
- p-wartość
- Alfa
- Kontrowersje związane z p-wartością
- Istotność praktyczna
- Błędy pierwszego i drugiego rodzaju
- Data science i p-wartość
- Dla pogłębienia wiedzy
- Test t
- Dla pogłębienia wiedzy
- Testowanie wielokrotne
- Dla pogłębienia wiedzy
- Stopnie swobody
- Dla pogłębienia wiedzy
- ANOVA
- Statystyka F
- Dwustronna ANOVA
- Dla pogłębienia wiedzy
- Test chi-kwadrat
- Test chi-kwadrat: podejście randomizacyjne
- Test chi-kwadrat: teoria
- Dokładny test Fishera
- Znaczenie testu chi-kwadrat w data science
- Dla pogłębienia wiedzy
- Algorytm Wielorękiego Bandyty
- Dla pogłębienia wiedzy
- Moc i rozmiar próby
- Rozmiar próby
- Dla pogłębienia wiedzy
- Podsumowanie
- Test A/B
- Rozdział 4. Regresja i predykcja
- Prosta regresja liniowa
- Równanie regresji
- Dopasowanie wartości i rezydua
- Metoda najmniejszych kwadratów
- Predykcja a objaśnienie (profilowanie)
- Dla pogłębienia wiedzy
- Regresja wieloraka
- Przykład: wartość domów w King County
- Ocena modelu
- Kroswalidacja
- Dobór modelu i regresja krokowa
- Regresja ważona
- Dla pogłębienia wiedzy
- Predykcja z wykorzystaniem regresji
- Niebezpieczeństwa związane z ekstrapolacją
- Przedziały ufności i predykcji
- Zmienne skategoryzowane w regresji
- Zmienne fikcyjne
- Zmienne skategoryzowane na wielu poziomach
- Uporządkowane zmienne skategoryzowane
- Interpretacja równania regresji
- Predyktory skorelowane
- Współliniowość
- Zmienne zakłócające
- Interakcje i efekty główne
- Diagnostyka regresji
- Wartości odstające
- Obserwacje wpływowe
- Heteroskedastyczność, anormalność i błędy skorelowane
- Wykresy częściowych rezyduów i nieliniowość
- Regresja wielomianowa i regresja sklejana
- Wielomian
- Funkcja sklejana
- Uogólnione modele addytywne
- Dla pogłębienia wiedzy
- Podsumowanie
- Prosta regresja liniowa
- Rozdział 5. Klasyfikacja
- Naiwny klasyfikator bayesowski
- Dlaczego klasyfikator bayesowski jest niepraktyczny?
- Naiwne rozwiązanie
- Numeryczne zmienne objaśniające
- Dla pogłębienia wiedzy
- Analiza dyskryminacyjna
- Macierz kowariancji
- Liniowy dyskryminator Fishera
- Prosty przykład
- Dla pogłębienia wiedzy
- Regresja logistyczna
- Funkcja odpowiedzi logistycznej i logit
- Regresja logistyczna i GLM
- Uogólnione modele liniowe
- Wartości prognozowane na podstawie regresji logistycznej
- Interpretacja współczynników i iloraz szans
- Regresja liniowa i regresja logistyczna: podobieństwa i różnice
- Dopasowanie modelu
- Ocena modelu
- Analiza reszt
- Dla pogłębienia wiedzy
- Ewaluacja modeli klasyfikacji
- Macierz błędów
- Problem mało licznych klas
- Precyzja, czułość i swoistość
- Krzywa ROC
- Pole pod wykresem krzywej ROC
- Lift
- Dla pogłębienia wiedzy
- Strategie dla niezbilansowanych danych
- Undersampling
- Oversampling i zwiększenie/obniżenie wag
- Generowanie danych
- Klasyfikacja oparta na kosztach
- Badanie prognozy
- Dla pogłębienia wiedzy
- Podsumowanie
- Naiwny klasyfikator bayesowski
- Rozdział 6. Statystyczne uczenie maszynowe
- K-najbliższych sąsiadów
- Przykład: przewidywanie opóźnienia w spłacie pożyczki
- Metryki odległości
- Kodowanie 1 z n
- Standaryzacja (normalizacja, z-wartość)
- Dobór K
- KNN w doborze cech
- Drzewa decyzyjne
- Prosty przykład
- Algorytm rekursywnego podziału
- Pomiar homogeniczności lub zanieczyszczenia
- Zatrzymanie wzrostu drzewa
- Kontrolowanie złożoności drzewa w R
- Kontrolowanie złożoności drzewa w Pythonie
- Prognoza ciągłych wartości
- Jak są wykorzystywane drzewa
- Dla pogłębienia wiedzy
- Bagging i lasy losowe
- Bagging
- Las losowy
- Istotność zmiennej
- Hiperparametry
- Boosting
- Algorytm wzmacniania
- XGBoost
- Regularyzacja: unikanie nadmiernego dopasowania
- Hiperparametry i kroswalidacja
- Podsumowanie
- K-najbliższych sąsiadów
- Rozdział 7. Uczenie nienadzorowane
- Analiza głównych składowych
- Prosty przykład
- Obliczanie głównych składowych
- Interpretacja głównych składowych
- Analiza odpowiedniości
- Dla pogłębienia wiedzy
- Metoda K-średnich (centroidów)
- Prosty przykład
- Algorytm K-średnich
- Interpretacja klastrów
- Dobór liczby klastrów
- Klasteryzacja hierarchiczna
- Prosty przykład
- Dendrogram
- Algorytm aglomeracyjny
- Miary podobieństwa
- Klasteryzacja oparta na modelu
- Wielowymiarowy rozkład normalny
- Mieszaniny rozkładów normalnych
- Dobór liczby klastrów
- Dla pogłębienia wiedzy
- Skalowanie i zmienne skategoryzowane
- Skalowanie zmiennych
- Zmienne dominujące
- Zmienne skategoryzowane i odległość Gowera
- Problem z klasteryzacją danych mieszanych
- Podsumowanie
- Analiza głównych składowych
- Bibliografia
- O autorach
- Kolofon
Kategoria: | Bazy danych |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-283-7428-7 |
Rozmiar pliku: | 8,2 MB |