Uczenie maszynowe w języku R. Tworzenie i doskonalenie modeli - od przygotowania danych po dostrajanie, ewaluację i pracę z big data - ebook
Uczenie maszynowe w języku R. Tworzenie i doskonalenie modeli - od przygotowania danych po dostrajanie, ewaluację i pracę z big data - ebook
Uczenie maszynowe polega na przekształcaniu danych w informacje ułatwiające podejmowanie decyzji. W erze big data umożliwia pracę z ogromnymi strumieniami napływających informacji ... pozwala na ich zrozumienie i efektywne zastosowanie. Ulubionym narzędziem analityków danych jest bezpłatne wieloplatformowe środowisko programowania statystycznego o nazwie R, oferujące potężne, intuicyjne i łatwe do opanowania narzędzia.
To czwarte, zaktualizowane wydanie znakomitego przewodnika poświęconego zastosowaniu uczenia maszynowego do rozwiązywania rzeczywistych problemów w analizie danych. Dzięki książce dowiesz się wszystkiego, co trzeba wiedzieć o wstępnym przetwarzaniu danych, znajdowaniu kluczowych spostrzeżeń, prognozowaniu i wizualizowaniu odkryć. W tym wydaniu dodano kilka nowych rozdziałów dotyczących data science i niektórych trudniejszych zagadnień, takich jak zaawansowane przygotowywanie danych, budowanie lepiej uczących się modeli i praca z big data. Znalazło się tu także omówienie etycznych aspektów uczenia maszynowego i wprowadzenie do uczenia głębokiego. Treść została zaktualizowana do wersji 4.0.0 języka R.
Dzięki tej książce nauczysz się:
- kompleksowo realizować proces uczenia maszynowego
- przeprowadzać predykcję za pomocą drzew decyzyjnych, reguł i maszyn wektorów nośnych
- szacować wartości finansowe przy użyciu regresji
- modelować złożone procesy z wykorzystaniem sztucznych sieci neuronowych
- oceniać modele i poprawiać ich trafność
- łączyć R z bazami danych SQL i nowymi technologiami big data
Naucz się przekształcać surowe dane w wiedzę!
Spis treści
O autorze
O recenzencie
Przedmowa
Rozdział 1. Wprowadzenie do uczenia maszynowego
- Początki uczenia maszynowego
- Użycia i nadużycia uczenia maszynowego
- Sukcesy uczenia maszynowego
- Ograniczenia uczenia maszynowego
- Etyka uczenia maszynowego
- Jak uczą się maszyny?
- Zachowywanie danych
- Abstrakcja
- Generalizacja
- Ewaluacja
- Uczenie maszynowe w praktyce
- Typy danych wejściowych
- Typy algorytmów uczenia maszynowego
- Dopasowywanie danych wejściowych do algorytmów
- Uczenie maszynowe w języku R
- Instalowanie pakietów R
- Wczytywanie pakietów R i usuwanie ich z pamięci
- Instalowanie RStudio
- Dlaczego R i dlaczego teraz?
- Podsumowanie
Rozdział 2. Zarządzanie danymi
- Struktury danych języka R
- Wektory
- Czynniki
- Listy
- Ramki danych
- Macierze i tablice
- Zarządzanie danymi w języku R
- Wczytywanie, zapisywanie i usuwanie struktur danych R
- Importowanie i zapisywanie zbiorów danych z plików CSV
- Importowanie typowych formatów zbiorów danych do RStudio
- Badanie i rozumienie danych
- Badanie struktury danych
- Badanie cech liczbowych
- Badanie cech kategorycznych
- Eksplorowanie relacji między cechami
- Podsumowanie
Rozdział 3. Uczenie leniwe - klasyfikacja metodą najbliższych sąsiadów
- Klasyfikacja metodą najbliższych sąsiadów
- Algorytm k-NN
- Dlaczego algorytm k-NN jest "leniwy"?
- Przykład - diagnozowanie raka piersi a pomocą algorytmu k-NN
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
- Podsumowanie
Rozdział 4. Uczenie probabilistyczne - naiwny klasyfikator bayesowski
- Naiwny klasyfikator bayesowski
- Podstawowe założenia metod bayesowskich
- Naiwny klasyfikator bayesowski
- Przykład - filtrowanie spamu w telefonach komórkowych za pomocą naiwnego klasyfikatora bayesowskiego
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ocena działania modelu
- Etap 5. Ulepszanie modelu
- Podsumowanie
Rozdział 5. Dziel i zwyciężaj - klasyfikacja z wykorzystaniem drzew decyzyjnych i reguł
- Drzewa decyzyjne
- Dziel i zwyciężaj
- Algorytm drzewa decyzyjnego C5.0
- Przykład - identyfikowanie ryzykownych pożyczek za pomocą drzew decyzyjnych C5.0
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ocena działania modelu
- Etap 5. Poprawianie działania modelu
- Reguły klasyfikacji
- Wydzielaj i zwyciężaj
- Algorytm 1R
- Algorytm RIPPER
- Reguły z drzew decyzyjnych
- Dlaczego drzewa i reguły są "zachłanne"?
- Przykład - identyfikowanie trujących grzybów za pomocą algorytmu uczącego się reguł
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
- Podsumowanie
Rozdział 6. Prognozowanie danych liczbowych - metody regresji
- Regresja
- Prosta regresja liniowa
- Metoda zwykłych najmniejszych kwadratów
- Korelacje
- Wieloraka regresja liniowa
- Uogólnione modele liniowe i regresja logistyczna
- Przykład - przewidywanie kosztów likwidacji szkód z wykorzystaniem regresji liniowej
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
- Krok dalej - przewidywanie odpływu ubezpieczonych z wykorzystaniem regresji logistycznej
- Drzewa regresji i drzewa modeli
- Dodawanie regresji do drzew
- Przykład - ocenianie jakości win za pomocą drzew regresji i drzew modeli
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
- Podsumowanie
Rozdział 7. Czarne skrzynki - sieci neuronowe i maszyny wektorów nośnych
- Sieci neuronowe
- Od neuronów biologicznych do sztucznych
- Funkcje aktywacji
- Topologia sieci
- Trenowanie sieci neuronowej za pomocą propagacji wstecznej
- Przykład - modelowanie wytrzymałości betonu za pomocą sieci ANN
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
- Maszyny wektorów nośnych
- Klasyfikacja za pomocą hiperpłaszczyzn
- Używanie funkcji jądrowych w przestrzeniach nieliniowych
- Przykład - optyczne rozpoznawanie znaków za pomocą modelu SVM
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
- Podsumowanie
Rozdział 8. Znajdowanie wzorców - analiza koszyka z wykorzystaniem reguł asocjacyjnych
- Reguły asocjacyjne
- Algorytm Apriori do nauki reguł asocjacyjnych
- Mierzenie istotności reguł - wsparcie i ufność
- Budowanie zbioru reguł z wykorzystaniem zasady Apriori
- Przykład - identyfikowanie często kupowanych artykułów spożywczych za pomocą reguł asocjacyjnych
- Etap 1. Gromadzenie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
- Podsumowanie
Rozdział 9. Znajdowanie grup danych - klasteryzacja metodą k-średnich
- Klasteryzacja
- Klasteryzacja jako zadanie uczenia maszynowego
- Klastry algorytmów klasteryzacji
- Klasteryzacja metodą k-średnich
- Znajdowanie segmentów rynkowych wśród nastolatków poprzez klasteryzację metodą k-średnich
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
- Podsumowanie
Rozdział 10. Ewaluacja działania modelu
- Mierzenie trafności klasyfikacji
- Rozumienie prognoz klasyfikatora
- Bliższe spojrzenie na macierze błędów
- Używanie macierzy błędów do mierzenia trafności
- Nie tylko dokładność - inne miary trafności
- Wizualizacja kompromisów za pomocą krzywych ROC
- Szacowanie przyszłej trafności
- Metoda wstrzymywania
- Walidacja krzyżowa
- Próbkowanie bootstrapowe
- Podsumowanie
Rozdział 11. Jak odnieść sukces w uczeniu maszynowym?
- Co decyduje o sukcesie praktyka uczenia maszynowego?
- Co decyduje o sukcesie modelu uczenia maszynowego?
- Unikanie oczywistych prognoz
- Przeprowadzanie uczciwych ewaluacji
- Uwzględnianie realiów
- Budowanie zaufania do modelu
- Więcej "nauki" w "nauce o danych"
- Notatniki R i znakowanie R
- Zaawansowane badanie danych
- Podsumowanie
Rozdział 12. Zaawansowane przygotowywanie danych
- Inżynieria cech
- Rola człowieka i maszyny
- Wpływ big data i uczenia głębokiego
- Praktyczna inżynieria cech
- Podpowiedź 1. Znajdź nowe cechy podczas burzy mózgów
- Podpowiedź 2. Znajdź spostrzeżenia ukryte w tekście
- Podpowiedź 3. Przekształcaj zakresy liczbowe
- Podpowiedź 4. Obserwuj zachowanie sąsiadów
- Podpowiedź 5. Wykorzystaj powiązane wiersze
- Podpowiedź 6. Dekomponuj szeregi czasowe
- Podpowiedź 7. Dołącz dane zewnętrzne
- tidyverse
- "Schludne" struktury tabelaryczne - obiekty tibble
- Szybsze odczytywanie plików prostokątnych za pomocą pakietów readr i readxl
- Przygotowywanie i potokowe przetwarzanie danych za pomocą pakietu dplyr
- Przekształcanie tekstu za pomocą pakietu stringr
- Czyszczenie danych za pomocą pakietu lubridate
- Podsumowanie
Rozdział 13. Trudne dane - za duże, za małe, zbyt złożone
- Dane wysokowymiarowe
- Stosowanie selekcji cech
- Ekstrakcja cech
- Używanie danych rozrzedzonych
- Identyfikowanie danych rozrzedzonych
- Przykład - zmiana odwzorowania rozrzedzonych danych kategorycznych
- Przykład - dzielenie rozrzedzonych danych liczbowych na przedziały
- Obsługa brakujących danych
- Typy brakujących danych
- Imputacja brakujących wartości
- Problem niezrównoważonych danych
- Proste strategie przywracania równowagi danych
- Generowanie syntetycznego zrównoważonego zbioru danych z wykorzystaniem algorytmu SMOTE
- Czy zrównoważone zawsze znaczy lepsze?
- Podsumowanie
Rozdział 14. Budowanie lepiej uczących się modeli
- Dostrajanie standardowych modeli
- Określanie zakresu dostrajania hiperparametrów
- Przykład - automatyczne dostrajanie za pomocą pakietu caret
- Zwiększanie trafności modeli za pomocą zespołów
- Uczenie zespołowe
- Popularne algorytmy zespołowe
- Spiętrzanie modeli do celów metanauki
- Spiętrzanie i mieszanie modeli
- Praktyczne metody mieszania i spiętrzania w języku R
- Podsumowanie
Rozdział 15. Praca z big data
- Praktyczne zastosowania uczenia głębokiego
- Pierwsze kroki w uczeniu głębokim
- Konwolucyjne sieci neuronowe
- Uczenie nienadzorowane a big data
- Reprezentowanie koncepcji wysokowymiarowych jako osadzeń
- Wizualizacja danych wysokowymiarowych
- Adaptowanie języka R do obsługi dużych zbiorów danych
- Odpytywanie baz danych SQL
- Szybsza praca dzięki przetwarzaniu równoległemu
- Używanie wyspecjalizowanego sprzętu i algorytmów
- Podsumowanie
Kategoria: | Programowanie |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-289-0900-7 |
Rozmiar pliku: | 23 MB |