Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych - Ebook (Książka PDF) do pobrania w formacie PDF

Darmowy fragment

Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych - ebook

Daniel Vaughan

Wydawnictwo:

Helion

Tłumacz:

Tomasz Walczak

Format:

PDF

Data wydania:

3 grudnia 2024

7900 pkt

punktów Virtualo

Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych - ebook

Uczenie się i praktykowanie danologii nie należy do najłatwiejszych zadań. Edukacja w tej dziedzinie zazwyczaj dotyczy programowania i uczenia maszynowego, a przecież świetny analityk danych musi się znać na wielu innych zagadnieniach. Może się ich nauczyć w pracy, ale w tym celu konieczne jest znalezienie mentora. A to niestety nie zawsze jest możliwe.

Ten podręcznik zaczyna się tam, gdzie większość książek się kończy - od rzeczywistych procesów decyzyjnych opartych na wnioskach wynikających z danych.

Brett Holleman, niezależny danolog

Dzięki tej książce przyswoisz różne techniki, które pomogą Ci stać się bardziej produktywnym analitykiem danych. Najpierw zapoznasz się z tematami związanymi z rozumieniem danych i umiejętnościami miękkimi, które okazują się konieczne w pracy dobrego danologa. Dopiero potem skupisz się na kluczowych aspektach uczenia maszynowego. W ten sposób stopniowo przejdziesz ścieżkę od przeciętnego kandydata do wyjątkowego specjalisty data science. Umiejętności opisane w tym przewodniku przez wiele lat były rozpoznawane, katalogowane, analizowane i stosowane do generowania wartości i szkolenia danologów w różnych firmach i branżach.

Z książki dowiesz się:

jak sprawić, by procesy oparte na analizie danych generowały wartość
jak zaprojektować przydatne wskaźniki
jak zdobywać poparcie interesariuszy
jak się upewnić, że algorytm uczenia maszynowego nadaje się do rozwiązania danego zadania
jak zapanować nad wyciekami danych

Oto brakujący podręcznik pozwalający odnieść sukces komercyjny dzięki data science!

Adri Purkayastha, dyrektor do spraw zagrożeń związanych z AI, BNP Paribas

Spis treści

Przedmowa

Część I. Techniki analityki danych

Rozdział 1. I co z tego? Generowanie wartości dzięki danologii

Czym jest wartość?
"Co?", czyli zrozumieć biznes
"Co z tego?", czyli istota generowania wartości dzięki danologii
"Co teraz?", czyli bądź przebojowy
Pomiar wartości
Najważniejsze wnioski
Dalsza lektura

Rozdział 2. Projektowanie wskaźników

Pożądane właściwości wskaźników
- Mierzalność
- Możliwość podejmowania działań
- Trafność
- Aktualność
Dekompozycja wskaźników
- Lejek analityczny
- Dekompozycje przepływów i zapasów
- Dekompozycje typu P×Q
Przykład: inny sposób dekompozycji przychodów
Przykład: platformy sprzedażowe
Najważniejsze wnioski
Dalsza lektura

Rozdział 3. Dekompozycje wzrostu - zrozumienie przeszkód i sprzyjających czynników

Dlaczego dekompozycje wzrostu?
Dekompozycja addytywna
- Przykład
- Interpretacja i przypadki użycia
Dekompozycja multiplikatywna
- Przykład
- Interpretacja
Dekompozycja zmian wag i wartości
- Przykład
- Interpretacja
Wyprowadzanie równań matematycznych
- Dekompozycja addytywna
- Dekompozycja multiplikatywna
- Dekompozycja mix-rate
Najważniejsze wnioski
Dalsza lektura

Rozdział 4. Projekty 2×2

Argumenty za upraszczaniem
Czym jest projekt 2×2?
Przykład: testowanie modelu i nowej cechy
Przykład: zrozumienie zachowań użytkownika
Przykład: udzielanie i akceptacja ofert kredytów
Przykład: ustalanie priorytetów w procesie pracy
Najważniejsze wnioski
Dalsza lektura

Rozdział 5. Tworzenie uzasadnienia biznesowego

Wybrane zasady tworzenia uzasadnień biznesowych
Przykład: proaktywna strategia zatrzymywania klientów
Zapobieganie oszustwom
Zakup zewnętrznych zbiorów danych
Praca nad projektem z obszaru danologii
Najważniejsze wnioski
Dalsza lektura

Rozdział 6. Czym jest wskaźnik przyrostu?

Definicja wskaźnika przyrostu
Przykład: model klasyfikatora
Błędy wynikające z samoselekcji i przeżywalności
Inne zastosowania wskaźników przyrostu
Najważniejsze wnioski
Dalsza lektura

Rozdział 7. Narracje

Co kryje się w narracji? Opowiadanie historii za pomocą danych
- Jasna i rzeczowa
- Wiarygodność
- Zapadająca w pamięć
- Możliwość podejmowania działań
Tworzenie narracji
- Nauka jako opowiadanie historii
- "Co?", "co z tego?" i "co teraz?"
Ostatnia prosta
- Streszczenia TL;DR
- Wskazówki dotyczące pisania zapadających w pamięć streszczeń TL;DR
- Przykład: pisanie streszczenia TL;DR tego rozdziału
- Skuteczne krótkie prezentacje
- Prezentowanie narracji
Najważniejsze wnioski
Dalsza lektura

Rozdział 8. Wizualizacje danych - wybór właściwego wykresu do przekazania komunikatu

Kilka przydatnych i rzadko używanych wizualizacji danych
- Wykres słupkowy a wykres liniowy
- Wykres nachylenia
- Wykres kaskadowy
- Funkcje wygładzania dla wykresów punktowych
- Prezentowanie rozkładów na wykresie
Ogólne zalecenia
- Dobierz odpowiednią wizualizację dla przekazu
- Mądrze dobieraj kolory
- Różne wymiary na wykresie
- Staraj się uzyskać odpowiednio wysoki współczynnik dane/atrament
- Personalizacja a półautomatyzacja
- Na samym początku dobierz odpowiedni rozmiar czcionki
- Interaktywne czy nie?
- Zachowaj prostotę
- Zacznij od wyjaśnienia wykresu
Najważniejsze wnioski
Dalsza lektura

Część II. Uczenie maszynowe

Rozdział 9. Symulacje i bootstrapping

Podstawy symulacji
Symulacja modelu liniowego i regresji liniowej
Czym są wykresy zależności częściowych?
Błąd systematyczny z powodu pominięcia zmiennej
Symulacja problemu klasyfikacji
- Modele zmiennych ukrytych
- Porównanie różnych algorytmów
Bootstrapping
Najważniejsze wnioski
Dalsza lektura

Rozdział 10. Regresja liniowa - powrót do podstaw

Co kryje się za współczynnikiem?
Twierdzenie Frischa-Waugha-Lovella
Dlaczego twierdzenie FWL jest ważne?
Czynniki zakłócające
Dodatkowe zmienne
Centralna rola wariancji w uczeniu maszynowym
Najważniejsze wnioski
Dalsza lektura

Rozdział 11. Wyciekanie danych

Czym jest wyciekanie danych?
- Wynik również jest cechą
- Funkcja wyniku sama też jest cechą
- Złe zmienne kontrolne
- Niewłaściwe oznaczenie znacznika czasu
- Wiele zbiorów danych z nieprecyzyjnymi agregacjami czasowymi
- Wyciekanie innych informacji
Wykrywanie wyciekania danych
Całkowita separacja
Metoda okien
- Wybór długości okien
- Etap treningu odzwierciedla etap oceny punktowej
- Wdrażanie metody okien
Mam wyciek. Co teraz?
Najważniejsze wnioski
Dalsza lektura

Rozdział 12. Stosowanie modeli w środowisku produkcyjnym

Co oznacza "gotowość produkcyjna"?
- Wsadowa ocena punktowa (w trybie offline)
- Obiekty modeli czasu rzeczywistego
Dryf danych i modelu
Etapy niezbędne w każdym potoku produkcyjnym
- Pobieranie i przekształcanie danych
- Sprawdzanie poprawności danych
- Etapy treningu i oceny punktowej
- Sprawdzanie poprawności modelu i ocen punktowych
- Zapisywanie modelu i ocen punktowych
Najważniejsze wnioski
Dalsza lektura

Rozdział 13. Opowiadanie historii w uczeniu maszynowym

Holistyczne spojrzenie na opowiadanie historii w uczeniu maszynowym
Opowiadanie historii przed opracowaniem modelu i w trakcie tego procesu
- Tworzenie hipotez
- Inżynieria cech
Opowiadanie historii po opracowaniu modelu: otwieranie czarnej skrzynki
- Kompromis między interpretowalnością a skutecznością
- Regresja liniowa: ustalenie punktu odniesienia
- Znaczenie cech
- Mapa cieplna
- Wykresy zależności częściowych
- Skumulowane efekty lokalne
Najważniejsze wnioski
Dalsza lektura

Rozdział 14. Od predykcji do decyzji

Analiza procesu podejmowania decyzji
Proste reguły decyzyjne oparte na inteligentnym wyznaczaniu wartości progowych
- Precyzja i czułość
- Przykład: pozyskiwanie list kontaktów
Optymalizacja macierzy błędów
Najważniejsze wnioski
Dalsza lektura

Rozdział 15. Zmiany dodatkowe - Święty Graal danologii?

Definiowanie zmian dodatkowych
- Wnioskowanie przyczynowe w celu poprawy predykcji
- Wnioskowanie przyczynowe jako wyróżnik
- Usprawnione podejmowanie decyzji
Czynniki zakłócające i kolidery
Błąd doboru
Założenie o braku zmiennych zakłócających
Radzenie sobie z błędem doboru - randomizacja
Dopasowywanie
Uczenie maszynowe i wnioskowanie przyczynowe
- Kod otwartoźródłowy
- Podwójne uczenie maszynowe
Najważniejsze wnioski
Dalsza lektura

Rozdział 16. Testy A/B

Czym są testy A/B?
Kryterium decyzyjne
Minimalne wykrywalne efekty
- Ustalanie mocy statystycznej, poziomu istotności i wartości P
- Szacowanie wariancji wyniku
- Symulacje
- Przykład: współczynniki konwersji
- Określanie wartości MWE
Lista hipotez do zbadania
- Wskaźnik
- Hipoteza
- Uszeregowanie
Zarządzanie eksperymentami
Najważniejsze wnioski
Dalsza lektura

Rozdział 17. Modele LLM i praktyka danologii

Obecny stan sztucznej inteligencji
Czym zajmują się danologowie?
Ewolucja opisu stanowiska danologa
- Studium przypadku: testy A/B
- Studium przypadku: oczyszczanie danych
- Studium przypadku: uczenie maszynowe
Modele LLM a ta książka
Najważniejsze wnioski
Dalsza lektura

Skorowidz

Kategoria:	Programowanie
Język:	Polski
Zabezpieczenie:	Watermark Watermark Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN:	978-83-289-1295-3
Rozmiar pliku:	4,4 MB
Użytkowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Drukowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Kopiowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.

Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych - ebook

Spis treści

BESTSELLERY