Podstawy matematyki w data science. Algebra liniowa, rachunek prawdopodobieństwa i statystyka - ebook
Podstawy matematyki w data science. Algebra liniowa, rachunek prawdopodobieństwa i statystyka - ebook
Rosnąca dostępność danych sprawiła, że data science i uczenie maszynowe są powszechnie używane do przeróżnych celów. Równocześnie wiele osób pomija analizy matematyczne przed rozpoczęciem przetwarzania danych. A to wiąże się z ryzykiem popełnienia istotnych błędów już na etapie projektowania danego systemu. Dopiero dogłębne zrozumienie niektórych koncepcji matematycznych i umiejętność ich praktycznego zastosowania sprawia, że kandydat na analityka danych ma szansę osiągnąć poziom profesjonalisty.
To książka przeznaczona dla osób, które chcą dobrze zrozumieć matematyczne podstawy nauki o danych i nauczyć się stosowania niektórych koncepcji w praktyce. Wyjaśniono tu takie zagadnienia jak rachunek różniczkowy i całkowy, rachunek prawdopodobieństwa, algebra liniowa i statystyka, pokazano także, w jaki sposób posługiwać się nimi w regresji liniowej, regresji logistycznej i w tworzeniu sieci neuronowych. Poszczególne tematy zostały omówione zrozumiale, przystępnie, bez naukowego żargonu, za to z licznymi praktycznymi przykładami, co dodatkowo ułatwia przyswojenie koncepcji i prawideł matematyki. Opanowanie zawartej tu wiedzy pozwala uniknąć wielu kosztownych błędów projektowych i trafniej wybierać optymalne rozwiązania!
Dzięki książce nauczysz się:
- używać kodu Pythona i jego bibliotek do eksplorowania koncepcji matematycznych
- posługiwać się regresją liniową i regresją logistyczną
- opisywać dane metodami statystycznymi i testować hipotezy
- manipulować wektorami i macierzami
- łączyć wiedzę matematyczną z użyciem modeli regresji
- unikać typowych błędów w stosowaniu matematyki w data science
Zrozum matematykę i efektywnie używaj danych!
Spis treści
Przedmowa
1. Podstawy matematyki oraz rachunku różniczkowego i całkowego
- Teoria liczb
- Kolejność działań
- Zmienne
- Funkcje
- Sumowanie
- Potęgowanie
- Logarytmy
- Liczba Eulera i logarytmy naturalne
- Liczba Eulera
- Logarytmy naturalne
- Granice
- Pochodne
- Pochodne cząstkowe
- Reguła łańcuchowa
- Całki
- Podsumowanie
- Ćwiczenia
2. Prawdopodobieństwo
- Zrozumieć prawdopodobieństwo
- Prawdopodobieństwo a statystyka
- Matematyka prawdopodobieństw
- Prawdopodobieństwa łączne
- Prawdopodobieństwa alternatywne
- Prawdopodobieństwo warunkowe i twierdzenie Bayesa
- Łączne i alternatywne prawdopodobieństwa warunkowe
- Rozkład dwumianowy
- Rozkład beta
- Podsumowanie
- Ćwiczenia
3. Statystyka opisowa i wnioskowanie statystyczne
- Czym są dane?
- Statystyka opisowa a wnioskowanie statystyczne
- Populacje, próby i obciążenie
- Statystyka opisowa
- Średnia i średnia ważona
- Mediana
- Dominanta
- Wariancja i odchylenie standardowe
- Rozkład normalny
- Dystrybuanta odwrotna
- Standaryzacja Z
- Wnioskowanie statystyczne
- Centralne twierdzenie graniczne
- Przedziały ufności
- Wartości p
- Testowanie hipotez
- Rozkład t: analizowanie małych prób
- Big data i błąd teksańskiego snajpera
- Podsumowanie
- Ćwiczenia
4. Algebra liniowa
- Co to jest wektor?
- Dodawanie i łączenie wektorów
- Skalowanie wektorów
- Powłoka i zależność liniowa
- Przekształcenia liniowe
- Wektory bazowe
- Mnożenie macierzy przez wektor
- Mnożenie macierzy
- Wyznaczniki
- Specjalne rodzaje macierzy
- Macierz kwadratowa
- Macierz jednostkowa
- Macierz odwrotna
- Macierz diagonalna
- Macierz trójkątna
- Macierz rzadka
- Układy równań i macierze odwrotne
- Wektory i wartości własne
- Podsumowanie
- Ćwiczenia
5. Regresja liniowa
- Podstawowa regresja liniowa
- Reszty i kwadraty błędu
- Znajdowanie najlepiej dopasowanej linii
- Równanie w formie zamkniętej
- Techniki wykorzystujące macierze odwrotne
- Metoda gradientu prostego
- Nadmierne dopasowanie i wariancja
- Metoda stochastycznego gradientu prostego
- Współczynnik korelacji
- Istotność statystyczna
- Współczynnik determinacji
- Błąd standardowy estymacji
- Przedziały przewidywania
- Podział danych na treningowe i testowe
- Wielokrotna regresja liniowa
- Podsumowanie
- Ćwiczenia
6. Regresja logistyczna i klasyfikacja
- Na czym polega regresja logistyczna?
- Przeprowadzanie regresji logistycznej
- Funkcja logistyczna
- Dopasowywanie krzywej logistycznej
- Regresja logistyczna z wieloma zmiennymi
- Logarytm szansy
- R-kwadrat
- Wartości p
- Podziały na dane treningowe i testowe
- Macierz błędów
- Twierdzenie Bayesa a klasyfikacja
- Krzywa ROC/pole pod krzywą
- Nierównowaga klas
- Podsumowanie
- Ćwiczenia
7. Sieci neuronowe
- Kiedy używać sieci neuronowych i uczenia głębokiego?
- Prosta sieć neuronowa
- Funkcje aktywacji
- Propagacja w przód
- Propagacja wsteczna
- Obliczanie pochodnych względem wag i biasów
- Metoda gradientu stochastycznego
- Używanie scikit-learn
- Ograniczenia sieci neuronowych i uczenia maszynowego
- Podsumowanie
- Ćwiczenie
8. Porady zawodowe i droga naprzód
- Nowa definicja data science
- Krótka historia data science
- Szukanie przewagi
- Biegłość w SQL-u
- Biegłość w programowaniu
- Wizualizacja danych
- Znajomość branży
- Produktywna nauka
- Praktyk czy doradca?
- Na co trzeba uważać w pracy związanej z data science?
- Definicja roli
- Skupienie organizacyjne i akceptacja
- Adekwatne zasoby
- Rozsądne cele
- Konkurowanie z istniejącymi systemami
- Twoja rola nie jest tym, czego się spodziewałeś
- Czy Twoja praca marzeń nie istnieje?
- Co dalej?
- Podsumowanie
A. Tematy dodatkowe
B. Odpowiedzi do ćwiczeń
Skorowidz
Kategoria: | Matematyka |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-8322-014-7 |
Rozmiar pliku: | 19 MB |