Język R w data science. Importowanie, porządkowanie, przekształcanie, wizualizowanie i modelowanie danych. Wydanie 2 - ebook
Język R w data science. Importowanie, porządkowanie, przekształcanie, wizualizowanie i modelowanie danych. Wydanie 2 - ebook
Aby w pełni wykorzystać potencjał danych i przekształcać je w wartościową wiedzę, musisz się posługiwać odpowiednimi narzędziami. Szczególnie przyda Ci się znajomość języka R, który pozwala na efektywne wykonywanie zadań, od importowania surowych danych po komunikowanie uzyskanych wyników w zrozumiały sposób.
Oto drugie, zaktualizowane wydanie znakomitego przewodnika dla analityków danych. Dzięki niemu dowiesz się, w jaki sposób używać języka R do importowania, przekształcania i wizualizowania danych, a także do przekazywania uzyskanych wyników analizy. Nauczysz się też rozwiązywać najczęściej występujące problemy, a liczne ćwiczenia ułatwią Ci utrwalenie zdobytej wiedzy. Omówiono tu najnowsze funkcje języka i najlepsze praktyki w data science. Zaprezentowano również zasady korzystania z wielu bibliotek języka R, na przykład tidyverse, służącej do pobierania informacji z różnych źródeł.
Dzięki tej książce nauczysz się:
- wizualizować, czyli tworzyć wykresy na potrzeby eksploracji danych
- przekształcać, czyli pracować z różnymi typami zmiennych
- importować, czyli pobierać dane w formie wygodnej do analizy
- programować, czyli rozwiązywać problemy z danymi za pomocą języka R
- przekazywać informacje, czyli pracować z użyciem Quarto
To zaskakująco dobra aktualizacja światowej klasy przewodnika po danologii z użyciem języka R!
Emma Rand, University of York
Spis treści
Wprowadzenie
Część I. Pełny obraz
- 1. Wizualizowanie danych
- Wprowadzenie
- Pierwsze kroki
- Wywołania w pakiecie ggplot2
- Wizualizacje rozkładu
- Wizualizacje relacji
- Zapisywanie wykresów
- Typowe problemy
- Podsumowanie
- 2. Przepływ pracy - podstawy
- Podstawy programowania
- Komentarze
- Co zawiera nazwa?
- Wywoływanie funkcji
- Ćwiczenia
- Podsumowanie
- 3. Przekształcanie danych
- Wprowadzenie
- Wiersze
- Kolumny
- Potoki
- Grupy
- Studium przypadku: agregacje i wielkość próby
- Podsumowanie
- 4. Przepływ pracy - styl kodu
- Nazwy
- Odstępy
- Potoki
- Pakiet ggplot2
- Komentarze dzielące kod na sekcje
- Ćwiczenia
- Podsumowanie
- 5. Porządkowanie danych
- Wprowadzenie
- Uporządkowanie danych
- Wydłużanie danych
- Poszerzanie danych
- Podsumowanie
- 6. Przepływ pracy - skrypty i projekty
- Skrypty
- Projekty
- Ćwiczenia
- Podsumowanie
- 7. Importowanie danych
- Wprowadzenie
- Wczytywanie danych z pliku
- Zarządzanie typami kolumn
- Wczytywanie danych z wielu plików
- Zapisywanie do pliku
- Wprowadzanie danych
- Podsumowanie
- 8. Przepływ pracy - uzyskiwanie pomocy
- Google Twoim przyjacielem
- Przygotowywanie powtarzalnego przykładu
- Inwestowanie w siebie
- Podsumowanie
Część II. Wizualizowanie
- 9. Warstwy
- Wprowadzenie
- Odwzorowywanie właściwości estetycznych
- Obiekty geometryczne (geomy)
- Fasety
- Przekształcenia statystyczne
- Dostosowywanie pozycji
- Układy współrzędnych
- Warstwowa gramatyka grafiki
- Podsumowanie
- 10. Eksploracyjna analiza danych
- Wprowadzenie
- Pytania
- Zmienność
- Nietypowe wartości
- Współzmienność
- Wzorce i modele
- Podsumowanie
- 11. Przekazywanie informacji
- Wprowadzenie
- Etykiety
- Adnotacje
- Skale
- Motywy
- Układ
- Podsumowanie
Część III. Przekształcanie
- 12. Wektory logiczne
- Wprowadzenie
- Porównania
- Algebra Boole'a
- Podsumowania
- Przekształcenia warunkowe
- Podsumowanie
- 13. Liczby
- Wprowadzenie
- Tworzenie liczb
- Zliczanie
- Przekształcenia liczbowe
- Ogólne przekształcenia
- Podsumowania liczbowe
- Podsumowanie
- 14. Łańcuchy znaków
- Wprowadzenie
- Tworzenie łańcucha znaków
- Tworzenie wielu łańcuchów znaków na podstawie danych
- Wyodrębnianie danych z łańcuchów znaków
- Litery
- Tekst nieanglojęzyczny
- Podsumowanie
- 15. Wyrażenia regularne
- Wprowadzenie
- Podstawy wzorców
- Najważniejsze funkcje
- Szczegóły wzorca
- Kontrolowanie wzorca
- Praktyka
- Wyrażenia regularne w innych miejscach
- Podsumowanie
- 16. Czynniki
- Wprowadzenie
- Podstawowe informacje na temat czynników
- Badania General Social Survey
- Modyfikowanie kolejności w czynnikach
- Modyfikowanie poziomów czynników
- Czynniki uporządkowane
- Podsumowanie
- 17. Daty i czas
- Wprowadzenie
- Tworzenie wartości typu data-czas
- Komponenty daty i czasu
- Przedziały czasu
- Strefy czasowe
- Podsumowanie
- 18. Brakujące wartości
- Wprowadzenie
- Opisane brakujące wartości
- Nieopisane brakujące wartości
- Czynniki i puste grupy
- Podsumowanie
- 19. Złączenia
- Wprowadzenie
- Klucze
- Podstawowe złączenia
- Jak działają złączenia?
- Złączenia nierównościowe
- Podsumowanie
Część IV. Importowanie
- 20. Arkusze kalkulacyjne
- Wprowadzenie
- Excel
- Arkusze Google
- Podsumowanie
- 21. Bazy danych
- Wprowadzenie
- Podstawy baz danych
- Łączenie się z bazą danych
- Podstawy pakietu dbplyr
- SQL
- Tłumaczenia funkcji
- Podsumowanie
- 22. Pakiet arrow
- Wprowadzenie
- Pobieranie danych
- Otwieranie zbioru danych
- Format parquet
- Stosowanie pakietu dplyr z pakietem arrow
- Podsumowanie
- 23. Dane hierarchiczne
- Wprowadzenie
- Listy
- Eliminowanie zagnieżdżenia
- Studia przypadków
- JSON
- Podsumowanie
- 24. Web scraping
- Wprowadzenie
- Aspekty etyczne i prawne związane z web scrapingiem
- Podstawy HTML-a
- Wyodrębnianie danych
- Znajdowanie odpowiednich selektorów
- Łączenie wszystkich technik
- Witryny dynamiczne
- Podsumowanie
Część V. Programowanie
- 25. Funkcje
- Wprowadzenie
- Funkcje wektorowe
- Funkcje dla ramek danych
- Funkcje wykresów
- Styl
- Podsumowanie
- 26. Iterowanie
- Wprowadzenie
- Modyfikowanie wielu kolumn
- Wczytywanie wielu plików
- Zapisywanie wielu danych wyjściowych
- Podsumowanie
- 27. Praktyczny przewodnik po podstawowym języku R
- Wprowadzenie
- Pobieranie wielu elementów za pomocą operatora [
- Pobieranie pojedynczego elementu za pomocą operatorów $ i [[
- Rodzina funkcji apply
- Pętle for
- Wykresy
- Podsumowanie
Część VI. Przekazywanie informacji
- 28. Quarto
- Wprowadzenie
- Podstawy Quarto
- Edytor graficzny
- Edytor kodu źródłowego
- Fragmenty kodu
- Rysunki
- Tabele
- Buforowanie
- Rozwiązywanie problemów
- Nagłówek YAML
- Proces pracy
- Podsumowanie
- 29. Formaty w Quarto
- Wprowadzenie
- Opcje danych wyjściowych
- Dokumenty
- Prezentacje
- Interaktywność
- Strony internetowe i książki
- Inne formaty
- Podsumowanie
Kategoria: | Programowanie |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-289-0654-9 |
Rozmiar pliku: | 16 MB |