Język R. Kompletny zestaw narzędzi dla analityków danych - ebook
Język R. Kompletny zestaw narzędzi dla analityków danych - ebook
Analiza danych jest stosunkowo młodą, interdyscyplinarną dziedziną, której celem jest wydobycie i wykorzystanie wiedzy ukrytej w surowych danych pozyskanych z różnych źródeł. Można w ten sposób zrozumieć istotę zjawisk, przewidzieć wystąpienie zdarzeń czy pozyskać informacje niedostępne w inny sposób. W wielu przypadkach wnioski wyciągnięte z analizy danych okazują się bezcenne, co doceniają profesjonaliści z licznych branż. Przygotowanie danych, przeanalizowanie ich i odpowiednie przedstawienie płynącej z nich wiedzy bywa sporym wyzwaniem, jednak dzięki takim narzędziom jak język R i związane z nim pakiety zadanie to staje się znacząco prostsze.
Niniejsza książka jest przystępnie napisanym przewodnikiem po języku R i narzędziach służących do analizy danych. Zawarto tu wyczerpujące wprowadzenie do języka R, programu RStudio i tidyverse. Zaprezentowano zestaw pakietów R, które znacznie poprawiają komfort pracy podczas analizy danych. Wyjaśniono znaczenie poszczególnych etapów analizy danych: ich importowania, oczyszczania, przekształcania, modelowania, wizualizowania, a także skutecznego komunikowania wiedzy płynącej z danych. Mimo że książka dotyczy narzędzi programistycznych, skorzystają z niej nie tylko programiści. Doceni ją każdy, kto chce zyskać solidne podstawy przygotowania i analizy danych.
Najważniejsze zagadnienia:
- przekształcanie zbiorów danych
- techniki analizy danych w języku R
- eksplorowanie danych, formułowanie i testowanie hipotez
- integracja opisów, kodu i wyników badań w języku R Markdown
- graficzna prezentacja danych z wykorzystaniem ggplot2
R — wszystko, czego potrzebujesz w profesjonalnej analizie danych!
Spis treści
- Wstęp
- Czego się nauczysz
- Organizacja książki
- Czego się nie nauczysz
- Big Data
- Python, Julia i Friends
- Dane nietabelaryczne
- Potwierdzanie hipotez
- Wymagania wstępne
- R
- RStudio
- Tidyverse
- Inne pakiety
- Uruchamianie kodu R
- Uzyskiwanie pomocy i dodatkowych informacji
- Podziękowania
- Konwencje wykorzystywane w tej książce
- Korzystanie z przykładowego kodu
- Część I Przegląd
- Rozdział 1. Wizualizacja danych za pomocą pakietu ggplot2
- Wstęp
- Wymagania wstępne
- Pierwsze kroki
- Ramka danych mpg
- Tworzenie wykresu za pomocą ggplot
- Szablon wykresu
- Ćwiczenia
- Mapowanie estetyk
- Ćwiczenia
- Typowe problemy
- Panele
- Ćwiczenia
- Obiekty geometryczne
- Ćwiczenia
- Przekształcenia statystyczne
- Ćwiczenia
- Dostosowanie położenia
- Ćwiczenia
- Systemy współrzędnych
- Ćwiczenia
- Warstwowa gramatyka graficzna
- Wstęp
- Rozdział 2. Organizacja pracy: podstawy
- Podstawy kodowania
- Co się kryje pod nazwą?
- Wywoływanie funkcji
- Ćwiczenia
- Rozdział 3. Przekształcanie danych za pomocą pakietu dplyr
- Wprowadzenie
- Wymagania wstępne
- nycflights13
- Podstawy dplyr
- Filtrowanie wierszy za pomocą funkcji filter()
- Porównania
- Operatory logiczne
- Brakujące wartości
- Ćwiczenia
- Organizowanie wierszy za pomocą funkcji arrange()
- Ćwiczenia
- Wybieranie kolumn za pomocą funkcji select()
- Ćwiczenia
- Dodawanie nowych zmiennych za pomocą funkcji mutate()
- Przydatne funkcje do tworzenia nowych zmiennych
- Ćwiczenia
- Zgrupowane wartości sumaryczne za pomocą funkcji summarize()
- Łączenie kilku operacji w potok
- Brakujące wartości
- Liczność
- Przydatne funkcje sumaryczne
- Grupowanie według wielu zmiennych
- Rozgrupowywanie
- Ćwiczenia
- Grupowanie wyników mutowania (i filtrowania)
- Ćwiczenia
- Wprowadzenie
- Rozdział 4. Organizacja pracy: skrypty
- Uruchamianie kodu
- Diagnostyka RStudio
- Ćwiczenia
- Rozdział 5. Eksploracyjna analiza danych
- Wstęp
- Wymagania wstępne
- Pytania
- Odchylenie
- Wizualizacja rozkładów
- Typowe wartości
- Wartości nietypowe
- Ćwiczenia
- Wartości brakujące
- Ćwiczenia
- Kowariancja
- Zmienna kategorialna i ciągła
- Ćwiczenia
- Dwie zmienne kategorialne
- Ćwiczenia
- Dwie zmienne ciągłe
- Ćwiczenia
- Wzorce i modele
- Wywołania ggplot2
- Więcej informacji
- Wstęp
- Rozdział 6. Organizacja pracy: projekty
- Co jest prawdziwe?
- Gdzie przebywają nasze analizy?
- Ścieżki i katalogi
- Projekty RStudio
- Podsumowanie
- Część II Przygotowywanie
- Rozdział 7. Dane typu tibble z użyciem pakietu tibble
- Wstęp
- Wymagania wstępne
- Tworzenie danych typu tibble
- Typ tibble w porównaniu z typem data.frame
- Wyświetlanie
- Tworzenie podzbiorów
- Interakcje ze starszym kodem
- Ćwiczenia
- Wstęp
- Rozdział 8. Importowanie danych za pomocą pakietu readr
- Wstęp
- Wymagania wstępne
- Zaczynamy
- Porównanie z bazowym R
- Ćwiczenia
- Parsowanie wektora
- Liczby
- Napisy
- Czynniki
- Daty, dane data i czas oraz czas
- Ćwiczenia
- Parsowanie pliku
- Strategia
- Problemy
- Inne strategie
- Zapis do pliku
- Inne typy danych
- Wstęp
- Rozdział 9. Czyszczenie danych z wykorzystaniem pakietu tidyr
- Wstęp
- Wymagania wstępne
- Czyszczenie danych
- Ćwiczenia
- Rozkład i gromadzenie
- Gromadzenie
- Rozkładanie
- Ćwiczenia
- Rozdzielanie i łączenie
- Rozdzielanie
- Łączenie
- Ćwiczenia
- Brakujące wartości
- Ćwiczenia
- Studium przypadku
- Ćwiczenia
- Dane nieoczyszczone
- Wstęp
- Rozdział 10. Dane relacyjne z wykorzystaniem pakietu dplyr
- Wstęp
- Wymagania wstępne
- nycflights13
- Ćwiczenia
- Klucze
- Ćwiczenia
- Złączenia mutujące
- Na czym polegają złączenia?
- Złączenie wewnętrzne
- Złączenia zewnętrzne
- Zduplikowane klucze
- Definiowanie kolumn kluczy
- Ćwiczenia
- Inne implementacje
- Złączenia filtrujące
- Ćwiczenia
- Problemy ze złączeniami
- Operacje na zbiorach
- Wstęp
- Rozdział 11. Przetwarzanie napisów za pomocą pakietu stringr
- Wstęp
- Wymagania wstępne
- Podstawy napisów
- Długość napisu
- Łączenie napisów
- Wyodrębnianie fragmentów napisów
- Ustawienia regionalne
- Ćwiczenia
- Dopasowywanie wzorców do wyrażeń regularnych
- Podstawowe dopasowanie
- Ćwiczenia
- Kotwice
- Ćwiczenia
- Klasy znaków i alternatywy
- Ćwiczenia
- Powtórzenie
- Ćwiczenia
- Grupowanie i odwołania wsteczne
- Ćwiczenia
- Narzędzia
- Wykrywanie dopasowań
- Ćwiczenia
- Wyodrębnianie dopasowań
- Ćwiczenia
- Dopasowania zgrupowane
- Ćwiczenia
- Zastępowanie dopasowań
- Ćwiczenia
- Dzielenie
- Ćwiczenia
- Znajdowanie dopasowań
- Inne typy wzorców
- Ćwiczenia
- Inne sposoby użycia wyrażeń regularnych
- Pakiet stringi
- Ćwiczenia
- Wstęp
- Rozdział 12. Czynniki z użyciem pakietu forcats
- Wstęp
- Wymagania wstępne
- Tworzenie czynników
- Badania General Social Survey
- Ćwiczenia
- Modyfikowanie kolejności czynnika
- Ćwiczenia
- Modyfikowanie poziomów czynników
- Ćwiczenia
- Wstęp
- Rozdział 13. Przetwarzanie daty i czasu za pomocą pakietu lubridate
- Wstęp
- Wymagania wstępne
- Tworzenie daty lub czasu
- Na podstawie napisów
- Na podstawie poszczególnych komponentów
- Na podstawie innych typów
- Ćwiczenia
- Komponenty danych typu data i czas
- Pobieranie komponentów
- Zaokrąglanie
- Ustawianie komponentów
- Ćwiczenia
- Odcinki czasu
- Czasy trwania
- Okresy
- Interwały
- Podsumowanie
- Ćwiczenia
- Strefy czasowe
- Wstęp
- Część III Program
- Więcej informacji
- Rozdział 14. Potoki z wykorzystaniem pakietu magrittr
- Wstęp
- Wymagania wstępne
- Alternatywy potoków
- Kroki pośrednie
- Nadpisywanie oryginału
- Definiowanie funkcji
- Użycie potoku
- Kiedy nie należy używać potoków?
- Inne narzędzia z pakietu magrittr
- Wstęp
- Rozdział 15. Funkcje
- Wstęp
- Wymagania wstępne
- Kiedy powinienem napisać funkcję?
- Ćwiczenia
- Funkcje są dla ludzi i komputerów
- Ćwiczenia
- Wykonywanie warunkowe
- Warunki
- Wiele warunków
- Styl kodu
- Ćwiczenia
- Argumenty funkcji
- Wybieranie nazw
- Sprawdzanie wartości
- Argument ...
- Leniwe przetwarzanie
- Ćwiczenie
- Zwracane wartości
- Jawne instrukcje zwracania
- Pisanie funkcji nadających się do potoku
- Środowisko
- Wstęp
- Rozdział 16. Wektory
- Wstęp
- Wymagania wstępne
- Podstawy wektorów
- Ważne typy wektorów atomowych
- Logiczne
- Liczbowe
- Napisów
- Brakujące wartości
- Ćwiczenia
- Używanie wektorów atomowych
- Wymuszanie
- Funkcje testujące
- Skalary i reguły dopełniania
- Nazywanie wektorów
- Tworzenie podzbiorów
- Ćwiczenia
- Wektory rekurencyjne (listy)
- Wizualizowanie list
- Tworzenie podzbiorów
- Listy przypraw
- Ćwiczenia
- Atrybuty
- Wektory rozszerzone
- Czynniki
- Daty i dane typu data i czas
- Tibble
- Ćwiczenia
- Wstęp
- Rozdział 17. Iteracje za pomocą pakietu purrr
- Wstęp
- Wymagania wstępne
- Pętle for
- Ćwiczenie
- Odmiany pętli for
- Modyfikowanie istniejącego obiektu
- Wzorce pętli
- Nieznana długość wektora wyjściowego
- Nieznana długość sekwencji
- Ćwiczenia
- Pętle for kontra programowanie funkcyjne
- Ćwiczenia
- Funkcje mapujące
- Skróty
- Bazowy R
- Ćwiczenia
- Obsługa niepowodzeń
- Mapowanie na podstawie wielu argumentów
- Wywoływanie różnych funkcji
- Funkcja walk
- Inne wzorce pętli for
- Funkcje predykatów
- Funkcje reduce i accumulate
- Ćwiczenia
- Wstęp
- Część IV Model
- Generowanie kontra potwierdzanie hipotez
- Rozdział 18. Podstawy modelowania z wykorzystaniem pakietu modelr
- Wstęp
- Wymagania wstępne
- Prosty model
- Ćwiczenia
- Wizualizowanie modeli
- Przewidywania
- Resztki
- Ćwiczenia
- Formuły i rodziny modeli
- Zmienne kategorialne
- Interakcje (ciągłe i kategorialne)
- Interakcje (dwie zmienne ciągłe)
- Przekształcenia
- Ćwiczenia
- Wartości brakujące
- Inne rodziny modeli
- Wstęp
- Rozdział 19. Budowanie modelu
- Wstęp
- Wymagania wstępne
- Dlaczego diamenty niskiej jakości są droższe?
- Cena w zależności od ilości karatów
- Bardziej skomplikowany model
- Ćwiczenia
- Co wpływa na liczbę lotów w ciągu dnia?
- Dzień tygodnia
- Sezonowy efekt soboty
- Zmienne obliczane
- Czas roku: podejście alternatywne
- Ćwiczenia
- Więcej informacji o modelach
- Wstęp
- Rozdział 20. Wiele modeli z użyciem pakietów purrr i broom
- Wstęp
- Wymagania wstępne
- gapminder
- Dane zagnieżdżone
- Kolumny w postaci list
- Usuwanie zagnieżdżenia
- Jakość modelu
- Ćwiczenia
- Kolumny w postaci list
- Tworzenie kolumn w postaci list
- Z zagnieżdżaniem
- Za pomocą funkcji zwektoryzowanych
- Na podstawie podsumowania wielowartościowego
- Na podstawie listy nazwanej
- Ćwiczenia
- Upraszczanie kolumn w postaci list
- Przekształcanie listy w wektor
- Usuwanie zagnieżdżenia
- Ćwiczenia
- Czyszczenie danych za pomocą pakietu broom
- Wstęp
- Część V Komunikowanie
- Rozdział 21. R Markdown
- Wstęp
- Wymagania wstępne
- Podstawy R Markdown
- Ćwiczenia
- Formatowanie tekstu za pomocą Markdown
- Ćwiczenia
- Fragmenty kodu
- Nazwa fragmentu
- Opcje fragmentów
- Tabela
- Zapisywanie w pamięci podręcznej
- Opcje globalne
- Kod inline
- Ćwiczenia
- Rozwiązywanie problemów
- Nagłówek YAML
- Parametry
- Bibliografie i cytaty
- Więcej informacji
- Wstęp
- Rozdział 22. Grafika dla komunikacji z wykorzystaniem ggplot2
- Wstęp
- Wymagania wstępne
- Etykieta
- Ćwiczenia
- Adnotacje
- Ćwiczenia
- Skale
- Znaczniki osi i klucze legendy
- Układ legendy
- Zastępowanie skali
- Ćwiczenia
- Powiększanie
- Szablony
- Zapisywanie wykresów
- Zmiana rozmiaru rysunków
- Inne ważne opcje
- Więcej informacji
- Wstęp
- Rozdział 23. Formaty R Markdown
- Opcje wyjścia
- Dokumenty
- Notatniki
- Prezentacje
- Pulpity
- Interaktywność
- htmlwidgets
- Shiny
- Serwisy WWW
- Inne formaty
- Więcej informacji
- Rozdział 24. Sposób pracy z R Markdown
- O autorach
- Kolofon
Kategoria: | Programowanie |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-283-6107-2 |
Rozmiar pliku: | 17 MB |