Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II - ebook

Peter Bruce, Andrew Bruce, Peter Gedeck

Wydawnictwo:

Helion

Tłumacz:

Krzysztof Sawka, Marta Danch-Wierzchowska

Format:

MOBI

Data wydania:

16 czerwca 2021

8700 pkt

punktów Virtualo

Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II - ebook

Metody statystyczne są kluczowym narzędziem w data science, mimo to niewielu analityków danych zdobyło wykształcenie w ich zakresie. Może im to utrudniać uzyskiwanie dobrych efektów. Zrozumienie praktycznych zasad statystyki okazuje się ważne również dla programistów R i Pythona, którzy tworzą rozwiązania dla data science. Kursy podstaw statystyki rzadko jednak uwzględniają tę perspektywę, a większość podręczników do statystyki w ogóle nie zajmuje się narzędziami wywodzącymi się z informatyki.

To drugie wydanie popularnego podręcznika statystyki przeznaczonego dla analityków danych. Uzupełniono je o obszerne przykłady w Pythonie oraz wyjaśnienie, jak stosować poszczególne metody statystyczne w problemach data science, a także jak ich nie używać. Skoncentrowano się też na tych zagadnieniach statystyki, które odgrywają istotną rolę w data science. Wyjaśniono, które koncepcje są ważne i przydatne z tej perspektywy, a które mniej istotne i dlaczego. Co ważne, poszczególne koncepcje i zagadnienia praktyczne przedstawiono w sposób przyswajalny i zrozumiały również dla osób nienawykłych do posługiwania się statystyką na co dzień.

W książce między innymi:

analiza eksploracyjna we wstępnym badaniu danych
próby losowe a jakość dużych zbiorów danych
podstawy planowania eksperymentów
regresja w szacowaniu wyników i wykrywaniu anomalii
statystyczne uczenie maszynowe
uczenie nienadzorowane a znaczenie danych niesklasyfikowanych

Statystyka: klasyczne narzędzia w najnowszych technologiach!

Spis treści

Przedmowa
- Konwencja zastosowana w tej książce
- Wykorzystanie przykładów kodu
- Podziękowania
Rozdział 1. Badania eksploracyjne
- Elementy danych uporządkowanych
  - Dla pogłębienia wiedzy
- Dane stabelaryzowane
  - Ramki danych i indeksy
  - Niestabelaryzowane struktury danych
  - Dla pogłębienia wiedzy
- Miary położenia
  - Średnia
  - Mediana i estymatory odporne
    - Wartości odstające
  - Przykład: miara położenia dla wielkości populacji i wskaźnika morderstw
  - Dla pogłębienia wiedzy
- Miary rozproszenia
  - Odchylenie standardowe i powiązane estymatory
  - Estymatory oparte na percentylach
  - Przykład: szacowanie zmienności dla populacji Stanów Zjednoczonych
  - Dla pogłębienia wiedzy
- Badanie rozkładu danych
  - Percentyle i boxploty
  - Tablica częstości i histogramy
  - Szacowanie i wykresy gęstości rozkładu
  - Dla pogłębienia wiedzy
- Badanie danych binarnych i skategoryzowanych
  - Moda
  - Wartość oczekiwana
  - Prawdopodobieństwo
  - Dla pogłębienia wiedzy
- Korelacja
  - Wykres punktowy
  - Dla pogłębienia wiedzy
- Badanie dwóch lub więcej zmiennych
  - Wykres przedziałów heksagonalnych i wykres konturowy (przedstawianie danych numerycznych względem danych numerycznych)
  - Dwie zmienne skategoryzowane
  - Dane kategoryzowane i numeryczne
  - Wizualizacja wielu zmiennych
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 2. Rozkłady danych i prób
- Losowy dobór i obciążenie próby
  - Obciążenie
  - Dobór losowy
  - Rozmiar a jakość: kiedy rozmiar ma znaczenie?
  - Średnia z próby a średnia z populacji
  - Dla pogłębienia wiedzy
- Błąd doboru
  - Regresja do średniej
  - Dla pogłębienia wiedzy
- Rozkład próbkowania dla statystyki
  - Centralne twierdzenie graniczne
  - Błąd standardowy
  - Dla pogłębienia wiedzy
- Próby bootstrapowe
  - Ponowne próbkowanie a próby bootstrapowe
  - Dla pogłębienia wiedzy
- Przedziały ufności
  - Dla pogłębienia wiedzy
- Rozkład normalny
  - Standaryzowany rozkład normalny i wykres K-K
- Rozkłady z długimi ogonami
  - Dla pogłębienia wiedzy
- Rozkład t-Studenta
  - Dla pogłębienia wiedzy
- Rozkład binarny
  - Dla pogłębienia wiedzy
- Rozkład chi-kwadrat
  - Dla pogłębienia wiedzy
- Rozkład F
  - Dla pogłębienia wiedzy
- Rozkład Poissona i jego pochodne
  - Rozkład Poissona
  - Rozkład wykładniczy
  - Szacowanie współczynnika porażki
  - Rozkład Weibulla
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 3. Eksperymenty statystyczne i testowanie istotności
- Test A/B
  - Po co Ci grupa kontrolna?
  - Dlaczego tylko A/B? Dlaczego nie C, D itd.?
  - Dla pogłębienia wiedzy
- Testowanie hipotezy
  - Hipoteza zerowa
  - Hipoteza alternatywna
  - Test jednostronny i test dwustronny
  - Dla pogłębienia wiedzy
- Testy randomizacyjne
  - Test permutacyjny
  - Przykład: licznik odwiedzin strony
  - Zupełny test permutacyjny i bootstrap
  - Test permutacyjny: podstawa w data science
  - Dla pogłębienia wiedzy
- Istotność statystyczna i p-wartość
  - p-wartość
  - Alfa
    - Kontrowersje związane z p-wartością
    - Istotność praktyczna
  - Błędy pierwszego i drugiego rodzaju
  - Data science i p-wartość
  - Dla pogłębienia wiedzy
- Test t
  - Dla pogłębienia wiedzy
- Testowanie wielokrotne
  - Dla pogłębienia wiedzy
- Stopnie swobody
  - Dla pogłębienia wiedzy
- ANOVA
  - Statystyka F
  - Dwustronna ANOVA
  - Dla pogłębienia wiedzy
- Test chi-kwadrat
  - Test chi-kwadrat: podejście randomizacyjne
  - Test chi-kwadrat: teoria
  - Dokładny test Fishera
  - Znaczenie testu chi-kwadrat w data science
  - Dla pogłębienia wiedzy
- Algorytm Wielorękiego Bandyty
  - Dla pogłębienia wiedzy
- Moc i rozmiar próby
  - Rozmiar próby
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 4. Regresja i predykcja
- Prosta regresja liniowa
  - Równanie regresji
  - Dopasowanie wartości i rezydua
  - Metoda najmniejszych kwadratów
  - Predykcja a objaśnienie (profilowanie)
  - Dla pogłębienia wiedzy
- Regresja wieloraka
  - Przykład: wartość domów w King County
  - Ocena modelu
  - Kroswalidacja
  - Dobór modelu i regresja krokowa
  - Regresja ważona
  - Dla pogłębienia wiedzy
- Predykcja z wykorzystaniem regresji
  - Niebezpieczeństwa związane z ekstrapolacją
  - Przedziały ufności i predykcji
- Zmienne skategoryzowane w regresji
  - Zmienne fikcyjne
  - Zmienne skategoryzowane na wielu poziomach
  - Uporządkowane zmienne skategoryzowane
- Interpretacja równania regresji
  - Predyktory skorelowane
  - Współliniowość
  - Zmienne zakłócające
  - Interakcje i efekty główne
- Diagnostyka regresji
  - Wartości odstające
  - Obserwacje wpływowe
  - Heteroskedastyczność, anormalność i błędy skorelowane
  - Wykresy częściowych rezyduów i nieliniowość
- Regresja wielomianowa i regresja sklejana
  - Wielomian
  - Funkcja sklejana
  - Uogólnione modele addytywne
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 5. Klasyfikacja
- Naiwny klasyfikator bayesowski
  - Dlaczego klasyfikator bayesowski jest niepraktyczny?
  - Naiwne rozwiązanie
  - Numeryczne zmienne objaśniające
  - Dla pogłębienia wiedzy
- Analiza dyskryminacyjna
  - Macierz kowariancji
  - Liniowy dyskryminator Fishera
  - Prosty przykład
  - Dla pogłębienia wiedzy
- Regresja logistyczna
  - Funkcja odpowiedzi logistycznej i logit
  - Regresja logistyczna i GLM
  - Uogólnione modele liniowe
  - Wartości prognozowane na podstawie regresji logistycznej
  - Interpretacja współczynników i iloraz szans
  - Regresja liniowa i regresja logistyczna: podobieństwa i różnice
    - Dopasowanie modelu
  - Ocena modelu
    - Analiza reszt
  - Dla pogłębienia wiedzy
- Ewaluacja modeli klasyfikacji
  - Macierz błędów
  - Problem mało licznych klas
  - Precyzja, czułość i swoistość
  - Krzywa ROC
  - Pole pod wykresem krzywej ROC
  - Lift
  - Dla pogłębienia wiedzy
- Strategie dla niezbilansowanych danych
  - Undersampling
  - Oversampling i zwiększenie/obniżenie wag
  - Generowanie danych
  - Klasyfikacja oparta na kosztach
  - Badanie prognozy
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 6. Statystyczne uczenie maszynowe
- K-najbliższych sąsiadów
  - Przykład: przewidywanie opóźnienia w spłacie pożyczki
  - Metryki odległości
  - Kodowanie 1 z n
  - Standaryzacja (normalizacja, z-wartość)
  - Dobór K
  - KNN w doborze cech
- Drzewa decyzyjne
  - Prosty przykład
  - Algorytm rekursywnego podziału
  - Pomiar homogeniczności lub zanieczyszczenia
  - Zatrzymanie wzrostu drzewa
    - Kontrolowanie złożoności drzewa w R
    - Kontrolowanie złożoności drzewa w Pythonie
  - Prognoza ciągłych wartości
  - Jak są wykorzystywane drzewa
  - Dla pogłębienia wiedzy
- Bagging i lasy losowe
  - Bagging
  - Las losowy
  - Istotność zmiennej
  - Hiperparametry
- Boosting
  - Algorytm wzmacniania
  - XGBoost
  - Regularyzacja: unikanie nadmiernego dopasowania
  - Hiperparametry i kroswalidacja
- Podsumowanie
Rozdział 7. Uczenie nienadzorowane
- Analiza głównych składowych
  - Prosty przykład
  - Obliczanie głównych składowych
  - Interpretacja głównych składowych
  - Analiza odpowiedniości
  - Dla pogłębienia wiedzy
- Metoda K-średnich (centroidów)
  - Prosty przykład
  - Algorytm K-średnich
  - Interpretacja klastrów
  - Dobór liczby klastrów
- Klasteryzacja hierarchiczna
  - Prosty przykład
  - Dendrogram
  - Algorytm aglomeracyjny
  - Miary podobieństwa
- Klasteryzacja oparta na modelu
  - Wielowymiarowy rozkład normalny
  - Mieszaniny rozkładów normalnych
  - Dobór liczby klastrów
  - Dla pogłębienia wiedzy
- Skalowanie i zmienne skategoryzowane
  - Skalowanie zmiennych
  - Zmienne dominujące
  - Zmienne skategoryzowane i odległość Gowera
  - Problem z klasteryzacją danych mieszanych
- Podsumowanie
Bibliografia
- O autorach
- Kolofon

Kategoria:	Programowanie
Język:	Polski
Zabezpieczenie:	Watermark Watermark Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN:	978-83-283-7428-7
Rozmiar pliku:	8,2 MB
Użytkowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Drukowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Kopiowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.

Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II - ebook

Statystyka: klasyczne narzędzia w najnowszych technologiach!

Spis treści

BESTSELLERY