Data Science. Programowanie, analiza i wizualizacja danych z wykorzystaniem języka R - ebook
Data Science. Programowanie, analiza i wizualizacja danych z wykorzystaniem języka R - ebook
Aby surowe dane przekuć w gotową do wykorzystania wiedzę, potrzebna jest umiejętność ich analizy, przekształcania i niekiedy również wizualizacji. Nagrodą za włożony w to wysiłek jest lepsze rozumienie różnych złożonych zagadnień z wielu dziedzin wiedzy. Co więcej, znajomość procesów programowego przetwarzania danych pozwala na szybkie wykrywanie i opisywanie wzorców danych, praktycznie niemożliwych do dostrzeżenia innymi technikami. Dla wielu badaczy jednak barierą na drodze do skorzystania z tych atrakcyjnych możliwości jest konieczność pisania kodu.
Oto podręcznik programowania w języku R dla analityków danych, szczególnie przydatny dla osób, które nie mają doświadczenia w tej dziedzinie. Dokładnie opisano tu potrzebne narzędzia i technologie. Zamieszczono wskazówki dotyczące instalacji i konfiguracji oprogramowania do pisania kodu, wykonywania go i zarządzania nim, a także śledzenia wersji projektów i zmian w nich oraz korzystania z innych podstawowych mechanizmów. Poszczególne kroki tworzenia kodu w języku R wyjaśniono dokładnie i przystępnie. Dzięki tej książce można płynnie przejść do konkretnych zadań i budować potrzebne aplikacje. Zrozumienie prezentowanych w niej treści ułatwiają liczne przykłady i ćwiczenia, co pozwala szybko przystąpić do skutecznego analizowania własnych zbiorów danych.
W tej książce między innymi:
- przygotowanie środowiska pracy i rozpoczęcie programowania w R
- podstawy zarządzania projektami, kontrola wersji i generowanie dokumentacji
- ramki danych, pakiety dplyr i tidyr
- kod do wizualizacji danych i pakiet ggplot2
- tworzenie aplikacji i techniki współpracy w zespołach specjalistów
Po prostu R i dane. Wyciśniesz każdą kroplę wiedzy!
Spis treści
- Przedmowa
- Wprowadzenie
- Główny temat książki
- Dla kogo przeznaczona jest ta książka?
- Struktura książki
- Część I. Wprowadzenie
- Część II. Zarządzanie projektami
- Część III. Podstawowe umiejętności z zakresu języka R
- Część IV. Przekształcanie danych
- Część V. Wizualizacja danych
- Część VI. Tworzenie i udostępnianie aplikacji
- Konwencje stosowane w książce
- Jak czytać tę książkę?
- Powiązany kod
- Podziękowania
- O autorach
- I. Wprowadzenie
- 1. Przygotowywanie komputera
- Pisanie kodu
- Zarządzanie kodem
- Wykonywanie kodu
- 1.1. Przygotowywanie narzędzi używanych w wierszu poleceń
- 1.1.1. Wiersz poleceń w systemie macOS
- 1.1.2. Wiersz poleceń w systemie Windows
- 1.1.3. Wiersz poleceń w systemie Linux
- 1.2. Instalowanie systemu git
- 1.3. Tworzenie konta w serwisie GitHub
- 1.4. Wybieranie edytora tekstu
- 1.4.1. Atom
- 1.4.2. Visual Studio Code
- 1.4.3. Sublime Text
- 1.5. Pobieranie języka R
- 1.6. Pobieranie środowiska RStudio
- 2. Używanie wiersza poleceń
- 2.1. Uruchamianie wiersza poleceń
- 2.2. Poruszanie się w systemie plików
- 2.2.1. Przechodzenie do innego katalogu
- 2.2.2. Wyświetlanie listy plików
- 2.2.3. Ścieżki
- 2.3. Zarządzanie plikami
- 2.3.1. Uczenie się nowych instrukcji
- 2.3.2. Symbole wieloznaczne
- 2.4. Radzenie sobie z błędami
- 2.5. Przekierowywanie danych wyjściowych
- 2.6. Polecenia związane z siecią
- II. Zarządzanie projektami
- 3. Kontrola wersji z użyciem systemu git i serwisu GitHub
- 3.1. Czym jest git?
- 3.1.1. Podstawowe zagadnienia związane z systemem git
- 3.1.2. Czym jest GitHub?
- 3.2. Konfigurowanie narzędzi i tworzenie projektu
- 3.2.1. Tworzenie repozytorium
- 3.2.2. Sprawdzanie stanu
- 3.3. Śledzenie zmian w projekcie
- 3.3.1. Dodawanie plików
- 3.3.2. Zatwierdzanie
- 3.3.2.1. Etykieta dotycząca informacji na temat rewizji
- 3.3.3. Proces używania systemu git
- 3.4. Zapisywanie projektów w witrynie GitHub
- 3.4.1. Forki i klonowanie
- 3.4.2. Wysyłanie i pobieranie
- 3.5. Dostęp do historii projektu
- 3.5.1. Historia rewizji
- 3.5.2. Powrót do starszych wersji
- 3.6. Ignorowanie plików w projekcie
- 3.1. Czym jest git?
- 4. Tworzenie dokumentacji za pomocą języka Markdown
- 4.1. Pisanie kodu w języku Markdown
- 4.1.1. Formatowanie tekstu
- 4.1.2. Bloki tekstu
- 4.1.3. Hiperłącza
- 4.1.4. Rysunki
- 4.1.5. Tabele
- 4.2. Wyświetlanie dokumentów w języku Markdown
- 4.1. Pisanie kodu w języku Markdown
- III. Podstawowe umiejętności z zakresu języka R
- 5. Wprowadzenie do języka R
- 5.1. Programowanie z użyciem języka R
- 5.2. Uruchamianie kodu w języku R
- 5.2.1. Używanie środowiska RStudio
- 5.2.2. Używanie języka R w wierszu poleceń
- 5.3. Dodawanie komentarzy
- 5.4. Definiowanie zmiennych
- 5.4.1. Podstawowe typy danych
- 5.5. Szukanie pomocy
- 5.5.1. Nauka uczenia się języka R
- 6. Funkcje
- 6.1. Czym jest funkcja?
- 6.1.1. Składnia funkcji w języku R
- 6.2. Wbudowane funkcje języka R
- 6.2.1. Argumenty nazwane
- 6.3. Wczytywanie funkcji
- 6.4. Pisanie funkcji
- 6.4.1. Debugowanie funkcji
- 6.5. Instrukcje warunkowe
- 6.1. Czym jest funkcja?
- 7. Wektory
- 7.1. Czym jest wektor?
- 7.1.1. Tworzenie wektorów
- 7.2. Operacje wektorowe
- 7.2.1. Ponowne używanie elementów
- 7.2.2. Prawie wszystko jest wektorem
- 7.2.3. Funkcje wektorowe
- 7.3. Indeksy w wektorach
- 7.3.1. Listy indeksów
- 7.4. Filtrowanie wektorów
- 7.5. Modyfikowanie wektorów
- 7.1. Czym jest wektor?
- 8. Listy
- 8.1. Czym jest lista?
- 8.2. Tworzenie list
- 8.3. Dostęp do elementów listy
- 8.4. Modyfikowanie list
- 8.4.1. Pojedyncze i podwójne nawiasy kwadratowe
- 8.5. Stosowanie funkcji do list za pomocą wywołania lapply()
- IV> Przekształcanie danych
- 9. Jak zrozumieć dane?
- 9.1. Proces generowania danych
- 9.2. Wyszukiwanie danych
- 9.3. Rodzaje danych
- 9.3.1. Skale pomiarowe
- 9.3.2. Struktury danych
- 9.4. Interpretowanie danych
- 9.4.1. Zdobywanie wiedzy w danej dziedzinie
- 9.4.2. Jak zrozumieć schematy danych?
- 9.5. Odpowiadanie na pytania na podstawie danych
- 10. Ramki danych
- 10.1. Czym jest ramka danych?
- 10.2. Praca z ramkami danych
- 10.2.1. Tworzenie ramek danych
- 10.2.2. Opisywanie struktury ramek danych
- 10.2.3. Dostęp do ramek danych
- 10.3. Praca z danymi CSV
- 10.3.1. Katalog roboczy
- 10.3.2. Zmienne w postaci faktorów
- 11. Operowanie danymi za pomocą pakietu dplyr
- 11.1. Gramatyka operowania danymi
- 11.2. Podstawowe funkcje pakietu dplyr
- 11.2.1. Pobieranie (funkcja select())
- 11.2.2. Filtrowanie (funkcja filter())
- 11.2.3. Dodawanie kolumn (funkcja mutate())
- 11.2.4. Sortowanie danych (funkcja arrange())
- 11.2.5. Tworzenie podsumowań (funkcja summarize())
- 11.3. Wykonywanie operacji sekwencyjnych
- 11.3.1. Operator potoku
- 11.4. Analizowanie ramek danych z wykorzystaniem grupowania
- 11.5. Złączanie ramek danych
- 11.6. Pakiet dplyr w praktyce analizowanie danych na temat lotów
- 12. Porządkowanie danych za pomocą pakietu tidyr
- 12.1. Czym jest porządkowanie danych?
- 12.2. Od kolumn do wierszy gather()
- 12.3. Z wierszy na kolumny spread()
- 12.4. Pakiet tidyr w praktyce eksplorowanie statystyk na temat edukacji
- 13. Dostęp do bazy danych
- 13.1. Przegląd relacyjnych baz danych
- 13.1.1. Czym jest relacyjna baza danych?
- 13.1.2. Tworzenie relacyjnej bazy danych
- 13.2. Wstęp do języka SQL
- 13.3. Dostęp do bazy danych w języku R
- 13.1. Przegląd relacyjnych baz danych
- 14. Używanie internetowych interfejsów API
- 14.1. Czym jest internetowy interfejs API?
- 14.2. Żądania REST
- 14.2.1. Identyfikatory URI
- 14.2.1.1. Parametry zapytań
- 14.2.1.2. Tokeny dostępu i klucze API
- 14.2.2. Operacje (czasowniki) z protokołu HTTP
- 14.2.1. Identyfikatory URI
- 14.3. Dostęp do internetowych interfejsów API w R
- 14.4. Przetwarzanie danych w formacie JSON
- 14.4.1. Przetwarzanie danych w formacie JSON
- 14.4.2. Spłaszczanie danych
- 14.5. Interfejsy API w praktyce znajdowanie kubańskiego jedzenia w Seattle
- V. Wizualizacje danych
- 15. Projektowanie wizualizacji danych
- 15.1. Cel wizualizacji
- 15.2.Wybieranie układu graficznego
- 15.2.1. Wizualizowanie jednej zmiennej
- 15.2.1.1. Reprezentacje proporcjonalne
- 15.2.2. Wizualizowanie wielu zmiennych
- 15.2.3. Wizualizowanie danych hierarchicznych
- 15.2.1. Wizualizowanie jednej zmiennej
- 15.3. Wybieranie skutecznego kodowania graficznego
- 15.3.1. Skuteczne kolory
- 15.3.2. Wykorzystanie atrybutów przeduwagowych
- 15.4. Ekspresywne prezentacje danych
- 15.5. Zwiększanie estetyki
- 16. Tworzenie wizualizacji za pomocą pakietu ggplot2
- 16.1. Gramatyka grafiki
- 16.2. Tworzenie podstawowych wykresów za pomocą ggplot2
- 16.2.1. Określanie obiektów geometrycznych
- 16.2.2. Odwzorowania aspektów estetycznych
- 16.3. Złożone układy i dostosowywanie opcji
- 16.3.1. Dostosowywanie pozycji
- 16.3.2. Zmienianie stylu za pomocą skal
- 16.3.2.1. Skale kolorów
- 16.3.3. Układ współrzędnych
- 16.3.4. Fasety
- 16.3.5. Etykiety i uwagi
- 16.4. Tworzenie map
- 16.4.1. Kartogramy
- 16.4.2. Mapy punktowe
- 16.5. Pakiet ggplot2 w praktyce mapa eksmisji w San Francisco
- 17. Interaktywne wizualizacje w języku R
- 17.1. Pakiet plotly
- 17.2. Pakiet rbokeh
- 17.3. Pakiet leaflet
- 17.4. Interaktywne wizualizacje w praktyce analizowanie zmian w Seattle
- VI. Tworzenie i udostępnianie aplikacji
- 18. Tworzenie dynamicznych raportów za pomocą platformy R Markdown
- 18.1. Konfigurowanie raportu
- 18.1.1. Tworzenie plików .rmd
- 18.1.2. Kompilowanie dokumentów
- 18.2. Integrowanie tekstu w formacie Markdown i kodu w języku R
- 18.2.1. Wykonywalne fragmenty kodu w języku R
- 18.2.2. Kod wewnątrzwierszowy
- 18.3. Wyświetlanie danych i wizualizacji w raportach
- 18.3.1. Wyświetlanie łańcuchów znaków
- 18.3.2. Wyświetlanie list w formacie Markdown
- 18.3.3. Wyświetlanie tabel
- 18.3.4. Wyświetlanie wykresów
- 18.4. Udostępnianie raportów jako stron internetowych
- 18.5. Platforma R Markdown w praktyce raport na temat oczekiwanej długości życia
- 18.1. Konfigurowanie raportu
- 19. Tworzenie interaktywnych aplikacji internetowych za pomocą platformy Shiny
- 19.1. Platforma Shiny
- 19.1.1. Podstawowe zagadnienia dotyczące platformy Shiny
- 19.1.2. Struktura aplikacji
- 19.2. Projektowanie interfejsów użytkownika
- 19.2.1. Treści statyczne
- 19.2.2. Dynamiczne dane wejściowe
- 19.2.3. Dynamiczne dane wyjściowe
- 19.2.4. Układy
- 19.3. Tworzenie serwerów aplikacji
- 19.4. Publikowanie aplikacji na platformę Shiny
- 19.5. Platforma Shiny w praktyce wizualizacja śmiertelnych postrzeleń przez policję
- 19.1. Platforma Shiny
- 20. Praca zespołowa
- 20.1. Śledzenie różnych wersji kodu za pomocą gałęzi
- 20.1.1. Praca z różnymi gałęziami
- 20.1.2. Scalanie gałęzi
- 20.1.3. Scalanie a konflikty
- 20.1.4. Scalanie w serwisie GitHub
- 20.2. Prowadzenie projektów z użyciem gałęzi funkcji
- 20.3. Współpraca w ramach scentralizowanego procesu pracy
- 20.3.1. Tworzenie centralnego repozytorium
- 20.3.2. Używanie gałęzi funkcji w scentralizowanym procesie pracy
- 20.4. Współpraca w procesie pracy z użyciem forków
- 20.1. Śledzenie różnych wersji kodu za pomocą gałęzi
- 21. Dalsza nauka
- 21.1. Uczenie statystyczne
- 21.1.1. Ocena zależności
- 21.1.2. Prognozowanie
- 21.2. Inne języki programowania
- 21.3. Odpowiedzialność etyczna
- 21.1. Uczenie statystyczne
Kategoria: | Programowanie |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-283-5783-9 |
Rozmiar pliku: | 33 MB |