Uczenie maszynowe w języku R. Tworzenie i doskonalenie modeli - od przygotowania danych po dostrajanie, ewaluację i pracę z big data - ebook

Brett Lantz

Wydawnictwo:

Helion

Tłumacz:

Grzegorz Werner

Format:

MOBI

Data wydania:

4 czerwca 2024

13900 pkt

punktów Virtualo

Uczenie maszynowe w języku R. Tworzenie i doskonalenie modeli - od przygotowania danych po dostrajanie, ewaluację i pracę z big data - ebook

Uczenie maszynowe polega na przekształcaniu danych w informacje ułatwiające podejmowanie decyzji. W erze big data umożliwia pracę z ogromnymi strumieniami napływających informacji ... pozwala na ich zrozumienie i efektywne zastosowanie. Ulubionym narzędziem analityków danych jest bezpłatne wieloplatformowe środowisko programowania statystycznego o nazwie R, oferujące potężne, intuicyjne i łatwe do opanowania narzędzia.

To czwarte, zaktualizowane wydanie znakomitego przewodnika poświęconego zastosowaniu uczenia maszynowego do rozwiązywania rzeczywistych problemów w analizie danych. Dzięki książce dowiesz się wszystkiego, co trzeba wiedzieć o wstępnym przetwarzaniu danych, znajdowaniu kluczowych spostrzeżeń, prognozowaniu i wizualizowaniu odkryć. W tym wydaniu dodano kilka nowych rozdziałów dotyczących data science i niektórych trudniejszych zagadnień, takich jak zaawansowane przygotowywanie danych, budowanie lepiej uczących się modeli i praca z big data. Znalazło się tu także omówienie etycznych aspektów uczenia maszynowego i wprowadzenie do uczenia głębokiego. Treść została zaktualizowana do wersji 4.0.0 języka R.

Dzięki tej książce nauczysz się:

kompleksowo realizować proces uczenia maszynowego
przeprowadzać predykcję za pomocą drzew decyzyjnych, reguł i maszyn wektorów nośnych
szacować wartości finansowe przy użyciu regresji
modelować złożone procesy z wykorzystaniem sztucznych sieci neuronowych
oceniać modele i poprawiać ich trafność
łączyć R z bazami danych SQL i nowymi technologiami big data

Naucz się przekształcać surowe dane w wiedzę!

Spis treści

O autorze

O recenzencie

Przedmowa

Rozdział 1. Wprowadzenie do uczenia maszynowego

Początki uczenia maszynowego
Użycia i nadużycia uczenia maszynowego
- Sukcesy uczenia maszynowego
- Ograniczenia uczenia maszynowego
- Etyka uczenia maszynowego
Jak uczą się maszyny?
- Zachowywanie danych
- Abstrakcja
- Generalizacja
- Ewaluacja
Uczenie maszynowe w praktyce
- Typy danych wejściowych
- Typy algorytmów uczenia maszynowego
- Dopasowywanie danych wejściowych do algorytmów
Uczenie maszynowe w języku R
- Instalowanie pakietów R
- Wczytywanie pakietów R i usuwanie ich z pamięci
- Instalowanie RStudio
- Dlaczego R i dlaczego teraz?
Podsumowanie

Rozdział 2. Zarządzanie danymi

Struktury danych języka R
- Wektory
- Czynniki
- Listy
- Ramki danych
- Macierze i tablice
Zarządzanie danymi w języku R
- Wczytywanie, zapisywanie i usuwanie struktur danych R
- Importowanie i zapisywanie zbiorów danych z plików CSV
- Importowanie typowych formatów zbiorów danych do RStudio
Badanie i rozumienie danych
- Badanie struktury danych
- Badanie cech liczbowych
- Badanie cech kategorycznych
- Eksplorowanie relacji między cechami
Podsumowanie

Rozdział 3. Uczenie leniwe - klasyfikacja metodą najbliższych sąsiadów

Klasyfikacja metodą najbliższych sąsiadów
- Algorytm k-NN
- Dlaczego algorytm k-NN jest "leniwy"?
Przykład - diagnozowanie raka piersi a pomocą algorytmu k-NN
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
Podsumowanie

Rozdział 4. Uczenie probabilistyczne - naiwny klasyfikator bayesowski

Naiwny klasyfikator bayesowski
- Podstawowe założenia metod bayesowskich
- Naiwny klasyfikator bayesowski
Przykład - filtrowanie spamu w telefonach komórkowych za pomocą naiwnego klasyfikatora bayesowskiego
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ocena działania modelu
- Etap 5. Ulepszanie modelu
Podsumowanie

Rozdział 5. Dziel i zwyciężaj - klasyfikacja z wykorzystaniem drzew decyzyjnych i reguł

Drzewa decyzyjne
- Dziel i zwyciężaj
- Algorytm drzewa decyzyjnego C5.0
Przykład - identyfikowanie ryzykownych pożyczek za pomocą drzew decyzyjnych C5.0
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ocena działania modelu
- Etap 5. Poprawianie działania modelu
Reguły klasyfikacji
- Wydzielaj i zwyciężaj
- Algorytm 1R
- Algorytm RIPPER
- Reguły z drzew decyzyjnych
- Dlaczego drzewa i reguły są "zachłanne"?
Przykład - identyfikowanie trujących grzybów za pomocą algorytmu uczącego się reguł
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
Podsumowanie

Rozdział 6. Prognozowanie danych liczbowych - metody regresji

Regresja
- Prosta regresja liniowa
- Metoda zwykłych najmniejszych kwadratów
- Korelacje
- Wieloraka regresja liniowa
- Uogólnione modele liniowe i regresja logistyczna
Przykład - przewidywanie kosztów likwidacji szkód z wykorzystaniem regresji liniowej
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
- Krok dalej - przewidywanie odpływu ubezpieczonych z wykorzystaniem regresji logistycznej
Drzewa regresji i drzewa modeli
- Dodawanie regresji do drzew
Przykład - ocenianie jakości win za pomocą drzew regresji i drzew modeli
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
Podsumowanie

Rozdział 7. Czarne skrzynki - sieci neuronowe i maszyny wektorów nośnych

Sieci neuronowe
- Od neuronów biologicznych do sztucznych
- Funkcje aktywacji
- Topologia sieci
- Trenowanie sieci neuronowej za pomocą propagacji wstecznej
Przykład - modelowanie wytrzymałości betonu za pomocą sieci ANN
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
Maszyny wektorów nośnych
- Klasyfikacja za pomocą hiperpłaszczyzn
- Używanie funkcji jądrowych w przestrzeniach nieliniowych
Przykład - optyczne rozpoznawanie znaków za pomocą modelu SVM
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
Podsumowanie

Rozdział 8. Znajdowanie wzorców - analiza koszyka z wykorzystaniem reguł asocjacyjnych

Reguły asocjacyjne
- Algorytm Apriori do nauki reguł asocjacyjnych
- Mierzenie istotności reguł - wsparcie i ufność
- Budowanie zbioru reguł z wykorzystaniem zasady Apriori
Przykład - identyfikowanie często kupowanych artykułów spożywczych za pomocą reguł asocjacyjnych
- Etap 1. Gromadzenie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
Podsumowanie

Rozdział 9. Znajdowanie grup danych - klasteryzacja metodą k-średnich

Klasteryzacja
- Klasteryzacja jako zadanie uczenia maszynowego
- Klastry algorytmów klasteryzacji
- Klasteryzacja metodą k-średnich
Znajdowanie segmentów rynkowych wśród nastolatków poprzez klasteryzację metodą k-średnich
- Etap 1. Zbieranie danych
- Etap 2. Badanie i przygotowywanie danych
- Etap 3. Trenowanie modelu na danych
- Etap 4. Ewaluacja modelu
- Etap 5. Poprawianie działania modelu
Podsumowanie

Rozdział 10. Ewaluacja działania modelu

Mierzenie trafności klasyfikacji
- Rozumienie prognoz klasyfikatora
- Bliższe spojrzenie na macierze błędów
- Używanie macierzy błędów do mierzenia trafności
- Nie tylko dokładność - inne miary trafności
- Wizualizacja kompromisów za pomocą krzywych ROC
Szacowanie przyszłej trafności
- Metoda wstrzymywania
- Walidacja krzyżowa
- Próbkowanie bootstrapowe
Podsumowanie

Rozdział 11. Jak odnieść sukces w uczeniu maszynowym?

Co decyduje o sukcesie praktyka uczenia maszynowego?
Co decyduje o sukcesie modelu uczenia maszynowego?
- Unikanie oczywistych prognoz
- Przeprowadzanie uczciwych ewaluacji
- Uwzględnianie realiów
- Budowanie zaufania do modelu
Więcej "nauki" w "nauce o danych"
- Notatniki R i znakowanie R
- Zaawansowane badanie danych
Podsumowanie

Rozdział 12. Zaawansowane przygotowywanie danych

Inżynieria cech
- Rola człowieka i maszyny
- Wpływ big data i uczenia głębokiego
Praktyczna inżynieria cech
- Podpowiedź 1. Znajdź nowe cechy podczas burzy mózgów
- Podpowiedź 2. Znajdź spostrzeżenia ukryte w tekście
- Podpowiedź 3. Przekształcaj zakresy liczbowe
- Podpowiedź 4. Obserwuj zachowanie sąsiadów
- Podpowiedź 5. Wykorzystaj powiązane wiersze
- Podpowiedź 6. Dekomponuj szeregi czasowe
- Podpowiedź 7. Dołącz dane zewnętrzne
tidyverse
- "Schludne" struktury tabelaryczne - obiekty tibble
- Szybsze odczytywanie plików prostokątnych za pomocą pakietów readr i readxl
- Przygotowywanie i potokowe przetwarzanie danych za pomocą pakietu dplyr
- Przekształcanie tekstu za pomocą pakietu stringr
- Czyszczenie danych za pomocą pakietu lubridate
Podsumowanie

Rozdział 13. Trudne dane - za duże, za małe, zbyt złożone

Dane wysokowymiarowe
- Stosowanie selekcji cech
- Ekstrakcja cech
Używanie danych rozrzedzonych
- Identyfikowanie danych rozrzedzonych
- Przykład - zmiana odwzorowania rozrzedzonych danych kategorycznych
- Przykład - dzielenie rozrzedzonych danych liczbowych na przedziały
Obsługa brakujących danych
- Typy brakujących danych
- Imputacja brakujących wartości
Problem niezrównoważonych danych
- Proste strategie przywracania równowagi danych
- Generowanie syntetycznego zrównoważonego zbioru danych z wykorzystaniem algorytmu SMOTE
- Czy zrównoważone zawsze znaczy lepsze?
Podsumowanie

Rozdział 14. Budowanie lepiej uczących się modeli

Dostrajanie standardowych modeli
- Określanie zakresu dostrajania hiperparametrów
- Przykład - automatyczne dostrajanie za pomocą pakietu caret
Zwiększanie trafności modeli za pomocą zespołów
- Uczenie zespołowe
- Popularne algorytmy zespołowe
Spiętrzanie modeli do celów metanauki
- Spiętrzanie i mieszanie modeli
- Praktyczne metody mieszania i spiętrzania w języku R
Podsumowanie

Rozdział 15. Praca z big data

Praktyczne zastosowania uczenia głębokiego
- Pierwsze kroki w uczeniu głębokim
- Konwolucyjne sieci neuronowe
Uczenie nienadzorowane a big data
- Reprezentowanie koncepcji wysokowymiarowych jako osadzeń
- Wizualizacja danych wysokowymiarowych
Adaptowanie języka R do obsługi dużych zbiorów danych
- Odpytywanie baz danych SQL
- Szybsza praca dzięki przetwarzaniu równoległemu
- Używanie wyspecjalizowanego sprzętu i algorytmów
Podsumowanie

Kategoria:	Programowanie
Język:	Polski
Zabezpieczenie:	Watermark Watermark Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN:	978-83-289-0900-7
Rozmiar pliku:	23 MB
Użytkowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Drukowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Kopiowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.

Uczenie maszynowe w języku R. Tworzenie i doskonalenie modeli - od przygotowania danych po dostrajanie, ewaluację i pracę z big data - ebook

Spis treści

BESTSELLERY