Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych - ebook
Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych - ebook
Uczenie się i praktykowanie danologii nie należy do najłatwiejszych zadań. Edukacja w tej dziedzinie zazwyczaj dotyczy programowania i uczenia maszynowego, a przecież świetny analityk danych musi się znać na wielu innych zagadnieniach. Może się ich nauczyć w pracy, ale w tym celu konieczne jest znalezienie mentora. A to niestety nie zawsze jest możliwe.
Ten podręcznik zaczyna się tam, gdzie większość książek się kończy - od rzeczywistych procesów decyzyjnych opartych na wnioskach wynikających z danych.
Brett Holleman, niezależny danolog
Dzięki tej książce przyswoisz różne techniki, które pomogą Ci stać się bardziej produktywnym analitykiem danych. Najpierw zapoznasz się z tematami związanymi z rozumieniem danych i umiejętnościami miękkimi, które okazują się konieczne w pracy dobrego danologa. Dopiero potem skupisz się na kluczowych aspektach uczenia maszynowego. W ten sposób stopniowo przejdziesz ścieżkę od przeciętnego kandydata do wyjątkowego specjalisty data science. Umiejętności opisane w tym przewodniku przez wiele lat były rozpoznawane, katalogowane, analizowane i stosowane do generowania wartości i szkolenia danologów w różnych firmach i branżach.
Z książki dowiesz się:
- jak sprawić, by procesy oparte na analizie danych generowały wartość
- jak zaprojektować przydatne wskaźniki
- jak zdobywać poparcie interesariuszy
- jak się upewnić, że algorytm uczenia maszynowego nadaje się do rozwiązania danego zadania
- jak zapanować nad wyciekami danych
Oto brakujący podręcznik pozwalający odnieść sukces komercyjny dzięki data science!
Adri Purkayastha, dyrektor do spraw zagrożeń związanych z AI, BNP Paribas
Spis treści
Przedmowa
Część I. Techniki analityki danych
Rozdział 1. I co z tego? Generowanie wartości dzięki danologii
- Czym jest wartość?
- "Co?", czyli zrozumieć biznes
- "Co z tego?", czyli istota generowania wartości dzięki danologii
- "Co teraz?", czyli bądź przebojowy
- Pomiar wartości
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 2. Projektowanie wskaźników
- Pożądane właściwości wskaźników
- Mierzalność
- Możliwość podejmowania działań
- Trafność
- Aktualność
- Dekompozycja wskaźników
- Lejek analityczny
- Dekompozycje przepływów i zapasów
- Dekompozycje typu P×Q
- Przykład: inny sposób dekompozycji przychodów
- Przykład: platformy sprzedażowe
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 3. Dekompozycje wzrostu - zrozumienie przeszkód i sprzyjających czynników
- Dlaczego dekompozycje wzrostu?
- Dekompozycja addytywna
- Przykład
- Interpretacja i przypadki użycia
- Dekompozycja multiplikatywna
- Przykład
- Interpretacja
- Dekompozycja zmian wag i wartości
- Przykład
- Interpretacja
- Wyprowadzanie równań matematycznych
- Dekompozycja addytywna
- Dekompozycja multiplikatywna
- Dekompozycja mix-rate
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 4. Projekty 2×2
- Argumenty za upraszczaniem
- Czym jest projekt 2×2?
- Przykład: testowanie modelu i nowej cechy
- Przykład: zrozumienie zachowań użytkownika
- Przykład: udzielanie i akceptacja ofert kredytów
- Przykład: ustalanie priorytetów w procesie pracy
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 5. Tworzenie uzasadnienia biznesowego
- Wybrane zasady tworzenia uzasadnień biznesowych
- Przykład: proaktywna strategia zatrzymywania klientów
- Zapobieganie oszustwom
- Zakup zewnętrznych zbiorów danych
- Praca nad projektem z obszaru danologii
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 6. Czym jest wskaźnik przyrostu?
- Definicja wskaźnika przyrostu
- Przykład: model klasyfikatora
- Błędy wynikające z samoselekcji i przeżywalności
- Inne zastosowania wskaźników przyrostu
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 7. Narracje
- Co kryje się w narracji? Opowiadanie historii za pomocą danych
- Jasna i rzeczowa
- Wiarygodność
- Zapadająca w pamięć
- Możliwość podejmowania działań
- Tworzenie narracji
- Nauka jako opowiadanie historii
- "Co?", "co z tego?" i "co teraz?"
- Ostatnia prosta
- Streszczenia TL;DR
- Wskazówki dotyczące pisania zapadających w pamięć streszczeń TL;DR
- Przykład: pisanie streszczenia TL;DR tego rozdziału
- Skuteczne krótkie prezentacje
- Prezentowanie narracji
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 8. Wizualizacje danych - wybór właściwego wykresu do przekazania komunikatu
- Kilka przydatnych i rzadko używanych wizualizacji danych
- Wykres słupkowy a wykres liniowy
- Wykres nachylenia
- Wykres kaskadowy
- Funkcje wygładzania dla wykresów punktowych
- Prezentowanie rozkładów na wykresie
- Ogólne zalecenia
- Dobierz odpowiednią wizualizację dla przekazu
- Mądrze dobieraj kolory
- Różne wymiary na wykresie
- Staraj się uzyskać odpowiednio wysoki współczynnik dane/atrament
- Personalizacja a półautomatyzacja
- Na samym początku dobierz odpowiedni rozmiar czcionki
- Interaktywne czy nie?
- Zachowaj prostotę
- Zacznij od wyjaśnienia wykresu
- Najważniejsze wnioski
- Dalsza lektura
Część II. Uczenie maszynowe
Rozdział 9. Symulacje i bootstrapping
- Podstawy symulacji
- Symulacja modelu liniowego i regresji liniowej
- Czym są wykresy zależności częściowych?
- Błąd systematyczny z powodu pominięcia zmiennej
- Symulacja problemu klasyfikacji
- Modele zmiennych ukrytych
- Porównanie różnych algorytmów
- Bootstrapping
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 10. Regresja liniowa - powrót do podstaw
- Co kryje się za współczynnikiem?
- Twierdzenie Frischa-Waugha-Lovella
- Dlaczego twierdzenie FWL jest ważne?
- Czynniki zakłócające
- Dodatkowe zmienne
- Centralna rola wariancji w uczeniu maszynowym
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 11. Wyciekanie danych
- Czym jest wyciekanie danych?
- Wynik również jest cechą
- Funkcja wyniku sama też jest cechą
- Złe zmienne kontrolne
- Niewłaściwe oznaczenie znacznika czasu
- Wiele zbiorów danych z nieprecyzyjnymi agregacjami czasowymi
- Wyciekanie innych informacji
- Wykrywanie wyciekania danych
- Całkowita separacja
- Metoda okien
- Wybór długości okien
- Etap treningu odzwierciedla etap oceny punktowej
- Wdrażanie metody okien
- Mam wyciek. Co teraz?
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 12. Stosowanie modeli w środowisku produkcyjnym
- Co oznacza "gotowość produkcyjna"?
- Wsadowa ocena punktowa (w trybie offline)
- Obiekty modeli czasu rzeczywistego
- Dryf danych i modelu
- Etapy niezbędne w każdym potoku produkcyjnym
- Pobieranie i przekształcanie danych
- Sprawdzanie poprawności danych
- Etapy treningu i oceny punktowej
- Sprawdzanie poprawności modelu i ocen punktowych
- Zapisywanie modelu i ocen punktowych
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 13. Opowiadanie historii w uczeniu maszynowym
- Holistyczne spojrzenie na opowiadanie historii w uczeniu maszynowym
- Opowiadanie historii przed opracowaniem modelu i w trakcie tego procesu
- Tworzenie hipotez
- Inżynieria cech
- Opowiadanie historii po opracowaniu modelu: otwieranie czarnej skrzynki
- Kompromis między interpretowalnością a skutecznością
- Regresja liniowa: ustalenie punktu odniesienia
- Znaczenie cech
- Mapa cieplna
- Wykresy zależności częściowych
- Skumulowane efekty lokalne
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 14. Od predykcji do decyzji
- Analiza procesu podejmowania decyzji
- Proste reguły decyzyjne oparte na inteligentnym wyznaczaniu wartości progowych
- Precyzja i czułość
- Przykład: pozyskiwanie list kontaktów
- Optymalizacja macierzy błędów
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 15. Zmiany dodatkowe - Święty Graal danologii?
- Definiowanie zmian dodatkowych
- Wnioskowanie przyczynowe w celu poprawy predykcji
- Wnioskowanie przyczynowe jako wyróżnik
- Usprawnione podejmowanie decyzji
- Czynniki zakłócające i kolidery
- Błąd doboru
- Założenie o braku zmiennych zakłócających
- Radzenie sobie z błędem doboru - randomizacja
- Dopasowywanie
- Uczenie maszynowe i wnioskowanie przyczynowe
- Kod otwartoźródłowy
- Podwójne uczenie maszynowe
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 16. Testy A/B
- Czym są testy A/B?
- Kryterium decyzyjne
- Minimalne wykrywalne efekty
- Ustalanie mocy statystycznej, poziomu istotności i wartości P
- Szacowanie wariancji wyniku
- Symulacje
- Przykład: współczynniki konwersji
- Określanie wartości MWE
- Lista hipotez do zbadania
- Wskaźnik
- Hipoteza
- Uszeregowanie
- Zarządzanie eksperymentami
- Najważniejsze wnioski
- Dalsza lektura
Rozdział 17. Modele LLM i praktyka danologii
- Obecny stan sztucznej inteligencji
- Czym zajmują się danologowie?
- Ewolucja opisu stanowiska danologa
- Studium przypadku: testy A/B
- Studium przypadku: oczyszczanie danych
- Studium przypadku: uczenie maszynowe
- Modele LLM a ta książka
- Najważniejsze wnioski
- Dalsza lektura
Skorowidz
Kategoria: | Programowanie |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-289-1295-3 |
Rozmiar pliku: | 8,3 MB |