Python w data science. Praktyczne wprowadzenie - ebook
Python w data science. Praktyczne wprowadzenie - ebook
Python jest idealnym wyborem dla danologów, którzy chcą w prosty sposób uzyskiwać dostęp do dowolnego rodzaju danych, przetwarzać je i analizować. Służy do tego zarówno bogaty zestaw wbudowanych struktur danych, jak i solidny zbiór przeznaczonych do ich analizy bibliotek open source . Sam język pozwala na tworzenie zwięzłego kodu przy minimalnym nakładzie czasu i wysiłku: jeden wiersz kodu może filtrować, przekształcać i agregować dane.
Tę książkę docenią średnio zaawansowani użytkownicy Pythona, którzy tworzą aplikacje korzystające z osiągnięć nauki o danych. Znajdziesz w niej omówienie możliwości języka, wbudowanych struktur danych Pythona, jak również takich bibliotek jak NumPy, pandas, scikit-learn i matplotlib. Nauczysz się wczytywania danych w różnych formatach, porządkowania, grupowania i agregowana zbiorów danych, a także tworzenia wykresów i map. Poszczególne zagadnienia zostały zilustrowane praktycznymi przykładami tworzenia rzeczywistych aplikacji, takich jak system obsługi taksówek z wykorzystaniem danych lokalizacyjnych, analiza reguł asocjacyjnych dla danych transakcji czy też uczenie maszynowe modelu przewidującego zmiany kursów akcji. Każdy rozdział zawiera interesujące ćwiczenia, które pozwolą Ci nabrać biegłości w stosowaniu opisanych tu technik.
Dzięki tej książce nauczysz się:
- efektywnie korzystać ze struktur danych Pythona
- wyciągać cenne informacje z danych
- posługiwać się danymi: tekstowymi, przestrzennymi, szeregami czasowymi
- korzystać z wielu typów i formatów danych, w tym JSON i CSV
- używać technik uczenia maszynowego do celów przetwarzania języka naturalnego
Python: Twój najlepszy sojusznik w przetwarzaniu danych!
Spis treści
Wprowadzenie
1. Podstawowe informacje o danych
- Kategorie danych
- Dane niestrukturalne
- Dane strukturalne
- Dane częściowo strukturalne
- Dane o postaci szeregów czasowych
- Źródła danych
- Interfejsy programowania aplikacji (API)
- Strony WWW
- Bazy danych
- Pliki
- Potok przetwarzania danych
- Pozyskiwanie
- Oczyszczanie
- Przekształcanie
- Analiza
- Przechowywanie
- W sposób charakterystyczny dla Pythona
- Podsumowanie
2. Struktury danych w Pythonie
- Listy
- Tworzenie list
- Stosowanie najpopularniejszych metod obiektów list
- Stosowanie notacji wycinków
- Stosowanie list jako kolejek
- Stosowanie list jako stosów
- Używanie list i stosów do przetwarzania języka naturalnego
- Ulepszenia dzięki użyciu list składanych
- Krotki
- Listy krotek
- Niezmienność
- Słowniki
- Listy słowników
- Dodawanie danych do słownika przy użyciu setdefault()
- Wczytywanie kodu JSON do słownika
- Zbiory
- Usuwanie powtórzeń z sekwencji
- Wykonywanie typowych operacji na zbiorach
- Ćwiczenie 1. Poprawiony analizator znaczników zdjęć
- Podsumowanie
3. Biblioteki Pythona używane w zagadnieniach nauki o danych
- NumPy
- Instalowanie NumPy
- Tworzenie tablic NumPy
- Wykonywanie operacji na elementach
- Stosowanie statystycznych funkcji NumPy
- Ćwiczenie 2. Stosowanie funkcji statystycznych NumPy
- pandas
- Instalacja pandas
- Obiekty Series
- Ćwiczenie 3. Łączenie trzech serii
- Obiekty DataFrame
- Ćwiczenie 4. Stosowanie różnych typów złączeń
- Biblioteka scikit-learn
- Instalowanie biblioteki scikit-learn
- Pobieranie przykładowego zestawu danych
- Wczytywanie przykładowego zbioru danych do ramki danych
- Podział przykładowego zbioru danych na zbiór uczący i testowy
- Przekształcanie tekstu w liczbowe wektory cech
- Trenowanie i ocenianie modelu
- Wykonywanie predykcji na nowych danych
- Podsumowanie
4. Korzystanie z danych z plików i API
- Importowanie danych przy użyciu funkcji open() Pythona
- Pliki tekstowe
- Pliki z danymi tabelarycznymi
- Ćwiczenie 5. Otwieranie plików JSON
- Pliki binarne
- Eksportowanie danych do plików
- Dostęp do plików zdalnych i API
- Jak działają żądania HTTP
- Biblioteka urllib3
- Biblioteka Requests
- Ćwiczenie 6. Korzystanie z API przy użyciu biblioteki Requests
- Przenoszenie danych do i z obiektów DataFrame
- Importowanie zagnieżdżonych struktur JSON
- Konwersja obiektów DataFrame na format JSON
- Ćwiczenie 7. Manipulowanie złożonymi strukturami danych w formacie JSON
- Wczytywanie danych z internetu przy użyciu pandas-datareader
- Podsumowanie
5. Korzystanie z baz danych
- Relacyjne bazy danych
- Wyjaśnienie instrukcji SQL
- Rozpoczynanie pracy z bazą MySQL
- Definiowanie struktury bazy danych
- Wstawianie danych do bazy
- Zapytania - pobieranie danych z bazy
- Ćwiczenie 8. Wykonywanie złączenia jeden-do-wielu
- Stosowanie analitycznych narzędzi baz danych
- Bazy danych NoSQL
- Magazyny par klucz-wartość
- Dokumentowe bazy danych
- Ćwiczenie 9. Wstawianie i wyszukiwanie wielu dokumentów
- Podsumowanie
6. Agregacja danych
- Dane do agregacji
- Łączenie obiektów DataFrame
- Grupowanie i agregacja danych
- Przeglądanie konkretnych agregacji za pomocą MultiIndeksu
- Wycinanie zakresów zagregowanych wartości
- Wycinanie na podstawie poziomu agregacji
- Dodawanie sumy całkowitej
- Dodawanie sum częściowych
- Ćwiczenie 10. Usuwanie wierszy sum z ramki danych
- Selekcja wierszy w ramach grupy
- Podsumowanie
7. Łączenie zbiorów danych
- Łączenie wbudowanych struktur danych
- Łączenie list i krotek przy użyciu operatora +
- Łączenie słowników przy użyciu operatora **
- Łączenie odpowiadających sobie wierszy z dwóch struktur
- Implementacja różnych typów złączeń na listach
- Łączenie tablic NumPy
- Ćwiczenie 11. Dodawanie nowych wierszy i kolumn do tablic NumPy
- Łączenie struktur danych biblioteki pandas
- Konkatenacja obiektów DataFrame
- Łączenie dwóch obiektów DataFrame
- Podsumowanie
8. Tworzenie wizualizacji
- Najczęściej używane sposoby wizualizacji
- Wykresy liniowe
- Wykresy słupkowe
- Wykresy kołowe
- Histogramy
- Tworzenie wykresów przy użyciu Matplotlib
- Instalacja biblioteki Matplotlib
- Stosowanie modułu matplotlib.pyplot
- Stosowanie obiektów Figure i Axes
- Ćwiczenie 12. Łączenie zakresów w wycinek "inne"
- Stosowanie innych bibliotek z Matplotlib
- Prezentowanie danych biblioteki pandas
- Wykreślanie danych geoprzestrzennych przy użyciu Cartopy
- Ćwiczenie 13. Rysowanie map przy użyciu Cartopy i Matplotlib
- Podsumowanie
9. Analizowanie danych o lokalizacji
- Pozyskiwanie danych
- Przekształcanie adresów na dane geograficzne
- Pobieranie współrzędnych geograficznych poruszających się obiektów
- Analiza danych przestrzennych przy użyciu geopy i Shapely
- Znajdowanie najbliższego obiektu
- Znajdowanie obiektów w określonym obszarze
- Ćwiczenie 14. Definiowanie dwóch lub większej liczby wielokątów
- Połączenie obu rozwiązań
- Ćwiczenie 15. Kolejne usprawnienie algorytmu odbioru
- Łączenie danych przestrzennych z nieprzestrzennymi
- Stosowanie atrybutów nieprzestrzennych
- Ćwiczenie 16. Filtrowanie danych przy wykorzystaniu list składanych
- Łączenie zbiorów danych przestrzennych i nieprzestrzennych
- Podsumowanie
10. Analizowanie danych z szeregów czasowych
- Szeregi czasowe regularne i nieregularne
- Popularne techniki analizy szeregów czasowych
- Obliczanie zmian procentowych
- Obliczenia dla okna kroczącego
- Obliczanie zmiany procentowej dla okna kroczącego
- Szeregi czasowe z wieloma zmiennymi
- Przetwarzanie szeregów czasowych z wieloma zmiennymi
- Analizowanie zależności pomiędzy zmiennymi
- Ćwiczenie 17. Dodawanie kolejnych metryk do analizy zależności
- Podsumowanie
11. Wyciąganie wniosków na podstawie danych
- Reguły asocjacyjne
- Wsparcie
- Ufność
- Przesunięcie
- Algorytm Apriori
- Tworzenie zbioru danych transakcji
- Identyfikacja często występujących produktów
- Generacja reguł asocjacyjnych
- Wizualizacja reguł asocjacyjnych
- Uzyskiwanie praktycznych informacji na podstawie reguł asocjacyjnych
- Generowanie rekomendacji
- Planowanie obniżek na podstawie reguł asocjacyjnych
- Ćwiczenie 18. Analizowanie rzeczywistych danych transakcji
- Podsumowanie
12. Uczenie maszynowe w nauce o danych
- Dlaczego uczenie maszynowe?
- Typy uczenia maszynowego
- Uczenie nadzorowane
- Uczenie nienadzorowane
- Jak działa uczenie maszynowe
- Dane uczące
- Model statystyczny
- Dane, które wcześniej nie były widoczne
- Przykład analizy sentymentu - klasyfikacja recenzji produktów
- Pobieranie opinii o produktach
- Czyszczenie danych
- Dzielenie i przekształcanie danych
- Uczenie modelu
- Ocenianie modelu
- Ćwiczenie 19. Rozszerzanie przykładowego zestawu danych
- Przewidywanie trendów giełdowych
- Pozyskiwanie danych
- Określanie cech na podstawie ciągłych danych
- Generowanie zmiennej wynikowej
- Uczenie i ocena modelu
- Ćwiczenie 20. Eksperymenty z innymi walorami i nowymi metrykami
- Podsumowanie
Kategoria: | Programowanie |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-289-1021-8 |
Rozmiar pliku: | 4,5 MB |