Python i praca z danymi. Przetwarzanie, analiza, modelowanie i wizualizacja. Wydanie III - ebook

Avinash Navlani, Armando Fandango, Ivan Idris

Wydawnictwo:

Helion

Tłumacz:

Krzysztof Sawka

Format:

MOBI

Data wydania:

26 kwietnia 2022

8900 pkt

punktów Virtualo

Python i praca z danymi. Przetwarzanie, analiza, modelowanie i wizualizacja. Wydanie III - ebook

Analiza danych sprawia, że dzięki ich dużym i mniejszym kolekcjom uzyskujemy wartościową wiedzę, która pozwala na podejmowanie najlepszych decyzji. Dzieje się to poprzez odkrywanie wzorców lub trendów. Obecnie Python udostępnia przeznaczone specjalnie do tego celu narzędzia i biblioteki. Możemy więc łatwo korzystać z wyrafinowanych technik wydobywania wiedzy z danych. Aby jednak osiągnąć zamierzone efekty, trzeba dobrze poznać zarówno metodologię analizy danych, jak i zasady pracy ze służącymi do tego narzędziami.

Dzięki tej książce zdobędziesz wszystkie potrzebne informacje i umiejętności, aby skutecznie używać Pythona do analizy danych. Omówiono tu niezbędne podstawy statystyki i zasady analizy danych. Wyczerpująco przedstawiono zaawansowane zagadnienia dotyczące przygotowania, przetwarzania i modelowania danych, a także ich wizualizacji. W zrozumiały sposób wyjaśniono takie procesy jak inteligentne przetwarzanie i analizowanie danych za pomocą algorytmów uczenia maszynowego: regresji, klasyfikacji, analizy głównych składowych czy analizy skupień. Nie zabrakło praktycznych przykładów przetwarzania języka naturalnego i analizy obrazów. Ciekawym zagadnieniem jest również wykonywanie obliczeń równoległych za pomocą biblioteki Dask.

W książce między innymi:

podstawy analizy danych i korzystanie z bibliotek NumPy i pandas
praca z danymi w różnych formatach
interaktywna wizualizacja z bibliotekami Matplotlib, seaborn i Bokeh
inżynieria cech, analiza szeregów czasowych i przetwarzanie sygnałów
zaawansowana analiza danych tekstowych i obrazów

Python: wydobywaj z danych wiedzę o wielkiej wartości!

Spis treści

Współautorzy

Wstęp

Część I. Podstawy analizy danych

Rozdział 1. Wprowadzenie do bibliotek Pythona
- Wyjaśnienie pojęcia "analiza danych"
- Standardowy proces analizy danych
- Proces KDD
- Proces SEMMA
- Proces CRISP-DM
- Analiza danych a danetyka
- Umiejętności analityka danych oraz danetyka
- Instalacja środowiska Python 3
- Oprogramowanie używane w tej książce
- Używanie aplikacji IPython jako powłoki
- Korzystanie z aplikacji JupyterLab
- Stosowanie aplikacji Jupyter Notebook
- Zaawansowane funkcje aplikacji Jupyter Notebook
- Podsumowanie
Rozdział 2. Biblioteki NumPy i pandas
- Wymogi techniczne
- Tablice NumPy
- Numeryczne typy danych tablic NumPy
- Manipulowanie wymiarami tablic
- Łączenie tablic NumPy
- Rozdzielanie tablic NumPy
- Zmiana typu danych tablic NumPy
- Tworzenie widoków i kopii NumPy
- Fragmentowanie tablic NumPy
- Indeksowanie logiczne i indeksowanie specjalne
- Rozgłaszanie tablic
- Tworzenie obiektów DataFrame biblioteki pandas
- Obiekt Series biblioteki pandas
- Odczytywanie i kwerendowanie danych Quandl
- Opisywanie obiektów DataFrame
- Grupowanie i złączanie obiektów DataFrame
- Praca z brakującymi danymi
- Tworzenie tabel przestawnych
- Rozwiązywanie kwestii dat
- Podsumowanie
- Bibliografia
Rozdział 3. Statystyka
- Wymogi techniczne
- Atrybuty i ich typy
- Pomiar tendencji centralnej
- Pomiar dyspersji
- Skośność i kurtoza
- Określanie związków za pomocą współczynników kowariancji i korelacji
- Centralne twierdzenie graniczne
- Pozyskiwanie prób
- Przeprowadzanie testów parametrycznych
- Przeprowadzanie testów nieparametrycznych
- Podsumowanie
Rozdział 4. Algebra liniowa
- Wymogi techniczne
- Dopasowywanie do wielomianów za pomocą biblioteki NumPy
- Wyznacznik macierzy
- Określanie rzędu macierzy
- Macierz odwrotna w bibliotece NumPy
- Rozwiązywanie równań liniowych za pomocą biblioteki NumPy
- Rozkład macierzy za pomocą SVD
- Wartości własne i wektory własne w bibliotece NumPy
- Generowanie liczb losowych
- Rozkład dwumianowy
- Rozkład normalny
- Testowanie normalności rozkładu danych za pomocą biblioteki SciPy
- Tworzenie tablicy maskowanej za pomocą podpakietu numpy.ma
- Podsumowanie

Część II. Eksploracyjna analiza danych i oczyszczanie danych

Rozdział 5. Wizualizacja danych
- Wymogi techniczne
- Wizualizacja za pomocą pakietu Matplotlib
- Zaawansowana wizualizacja za pomocą pakietu seaborn
- Wizualizacja interaktywna za pomocą biblioteki Bokeh
- Podsumowanie
Rozdział 6. Pozyskiwanie, przetwarzanie i przechowywanie danych
- Wymogi techniczne
- Odczyt i zapis plików CSV za pomocą biblioteki NumPy
- Odczyt i zapis plików CSV za pomocą biblioteki pandas
- Odczyt i zapis plików arkusza kalkulacyjnego Excel
- Odczyt i zapis plików JSON
- Odczyt i zapis plików HDF5
- Odczyt i zapis danych z tabel HTML-a
- Odczyt i zapis plików Parquet
- Odczyt i zapis danych z obiektu pickle
- Łatwy dostęp do danych za pomocą modułu sqlite3
- Odczyt i zapis danych w bazie danych MySQL
- Odczyt i zapis danych w bazie danych MongoDB
- Odczyt i zapis danych w bazie danych Cassandra
- Odczyt i zapis danych w bazie danych Redis
- PonyORM
- Podsumowanie
Rozdział 7. Oczyszczanie nieuporządkowanych danych
- Wymogi techniczne
- Eksploracja danych
- Filtrowanie danych w celu pozbycia się szumu
- Rozwiązywanie kwestii brakujących wartości
- Rozwiązywanie kwestii elementów odstających
- Techniki kodowania cech
- Skalowanie cech
- Przekształcanie cech
- Rozdzielanie cech
- Podsumowanie
Rozdział 8. Przetwarzanie sygnałów i szeregi czasowe
- Wymogi techniczne
- Moduł statsmodels
- Średnie kroczące
- Funkcje okna czasowego
- Kointegracja
- Rozkład STL
- Autokorelacja
- Modele autoregresyjne
- Model ARMA
- Generowanie sygnałów okresowych
- Analiza Fouriera
- Filtrowanie metodą analizy widmowej
- Podsumowanie

Część III. Dokładna analiza uczenia maszynowego

Rozdział 9. Uczenie nadzorowane: analiza regresyjna
- Wymogi techniczne
- Regresja liniowa
- Wielowspółliniowość
- Zmienne fikcyjne
- Projektowanie modelu regresji liniowej
- Ocenianie skuteczności modelu regresyjnego
- Dopasowywanie regresji wielomianowej
- Modele regresji używane w klasyfikacji
- Regresja logistyczna
- Implementacja regresji logistycznej za pomocą biblioteki scikit-learn
- Podsumowanie
Rozdział 10. Uczenie nadzorowane: techniki klasyfikacji
- Wymogi techniczne
- Klasyfikacja
- Naiwny klasyfikator Bayesa
- Drzewa decyzyjne
- Algorytm KNN
- Maszyny wektorów nośnych
- Podział danych na zestawy uczący i testowy
- Ocena skuteczności modelu klasyfikacji
- Krzywa ROC i obszar AUC
- Podsumowanie
Rozdział 11. Uczenie nienadzorowane: PCA i analiza skupień
- Wymogi techniczne
- Uczenie nienadzorowane
- Redukowanie wymiarowości danych
- Analiza głównych składowych
- Analiza skupień
- Grupowanie danych za pomocą algorytmu centroidów
- Hierarchiczna analiza skupień
- Algorytm DBSCAN
- Widmowa analiza skupień
- Ocenianie jakości analizy skupień
- Podsumowanie

Część IV. Przetwarzanie języka naturalnego, analiza obrazów i obliczenia równoległe

Rozdział 12. Analiza danych tekstowych
- Wymogi techniczne
- Instalacja bibliotek NLTK i spaCy
- Normalizacja tekstu
- Tokenizacja
- Usuwanie słów nieinformatywnych
- Rdzeniowanie słów i lematyzacja
- Oznaczanie części mowy
- Rozpoznawanie jednostek nazewniczych
- Analiza zależności
- Tworzenie chmury słów
- "Worek słów"
- Metoda TF-IDF
- Analiza sentymentów za pomocą klasyfikacji tekstu
- Podobieństwo tekstów
- Podsumowanie
Rozdział 13. Analiza obrazów
- Wymogi techniczne
- Instalacja biblioteki OpenCV
- Omówienie danych obrazowych
- Modele barw
- Rysowanie na obrazach
- Pisanie na obrazach
- Zmiana rozmiaru obrazu
- Przekształcenie izometryczne obrazów
- Zmiana jasności
- Rozmywanie obrazu
- Wykrywanie twarzy
- Podsumowanie
Rozdział 14. Obliczenia równoległe za pomocą biblioteki Dask
- Obliczenia równoległe za pomocą biblioteki Dask
- Typy danych Dask
- Interfejs Dask Delayed
- Skalowane wstępne przetwarzanie danych
- Skalowane uczenie maszynowe
- Podsumowanie

Kategoria:	Programowanie
Język:	Polski
Zabezpieczenie:	Watermark Watermark Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN:	978-83-283-8361-6
Rozmiar pliku:	14 MB
Użytkowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Drukowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Kopiowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.

Python i praca z danymi. Przetwarzanie, analiza, modelowanie i wizualizacja. Wydanie III - ebook

Python: wydobywaj z danych wiedzę o wielkiej wartości!

Spis treści

BESTSELLERY