-
nowość
Pandas. Receptury. Obliczenia naukowe, szeregi czasowe i eksploracyjna analiza danych w Pythonie - ebook
Pandas. Receptury. Obliczenia naukowe, szeregi czasowe i eksploracyjna analiza danych w Pythonie - ebook
Pandas to najpopularniejsza biblioteka Pythona do przetwarzania danych. Jednak nawet doświadczeni użytkownicy tego darmowego narzędzia często nie znają jego wszystkich imponujących, a przy tym wyjątkowo przydatnych funkcji. Choć oficjalna dokumentacja pandas jest obszerna, brakuje w niej praktycznych przykładów pokazujących, jak łączyć wiele poleceń a to właśnie okazuje się kluczowe!
Książka powstała z myślą o wszystkich, którzy zajmują się analizą danych bez względu na poziom doświadczenia. Została pomyślana tak, aby w klarowny i praktyczny sposób, krok po kroku wyjaśnić wykonywanie różnych operacji na danych: od podstawowych czynności przetwarzania danych po zaawansowane techniki obsługi dużych zbiorów. Poszczególne receptury przygotowano w czytelnej konwencji: Jak to zrobić? Jak to działa? To jeszcze nie wszystko Każda receptura jest niezależna od innych, a układ treści pozwala na łatwe i szybkie odnalezienie potrzebnego zagadnienia.
W książce między innymi:
- system typów pandas
- eksploracja danych za pomocą biblioteki pandas
- grupowanie, agregowanie, przekształcanie i łączenie danych z różnych źródeł
- niezawodne szeregi czasowe i skalowanie operacji w pandas
- ekosystem biblioteki pandas
Doskonałe źródło praktycznych rozwiązań typowych problemów, z którymi spotkasz się w swojej pracy analitycznej w Pythonie!
Wes McKinney, twórca projektów pandas i Ibis
Spis treści
O autorach
O korektorze merytorycznym
Wstęp
Wprowadzenie
Rozdział 1. Podstawy biblioteki pandas
- Importowanie biblioteki pandas
- Obiekt pd.Series
- Obiekt pd.DataFrame
- Obiekt pd.Index
- Atrybuty obiektu pd.Series
- Atrybuty obiektu pd.DataFrame
Rozdział 2. Wybieranie i przypisywanie wartości
- Podstawowe wybieranie wartości z obiektu pd.Series
- Podstawowe wybieranie wartości z obiektu pd.DataFrame
- Wybieranie wartości oparte na pozycji w obiekcie pd.Series
- Wybieranie wartości oparte na pozycji w obiekcie pd.DataFrame
- Wybieranie wartości oparte na etykietach w obiekcie pd.Series
- Wybieranie wartości oparte na etykietach w obiekcie pd.DataFrame
- Łączenie wyboru wartości opartego na pozycji i etykietach
- Metoda pd.DataFrame.filter
- Wybieranie wartości według ich typu
- Wybieranie i filtrowanie wartości za pomocą tablic logicznych
- Wybieranie wartości z obiektu pd.MultiIndex - jeden poziom
- Wybieranie wartości z obiektu pd.MultiIndex - wiele poziomów
- Wybieranie wartości z obiektu pd.MultiIndex - obiekt pd.DataFrame
- Przypisywanie elementów za pomocą metod .loc i .iloc
- Przypisywanie kolumn w obiekcie pd.DataFrame
Rozdział 3. Typy danych
- Typy całkowitoliczbowe
- Typy zmiennoprzecinkowe
- Typy logiczne
- Typy tekstowe
- Obsługa brakujących wartości
- Typy kategoryczne
- Typy czasowe - datetime
- Typy czasowe - timedelta
- Typy czasowe PyArrow
- Typy list PyArrow
- Typy dziesiętne PyArrow
- System typów NumPy, typ object i pułapki z nimi związane
Rozdział 4. System wejścia-wyjścia biblioteki pandas
- CSV - podstawy odczytu i zapisu
- CSV - strategie wczytywania dużych plików
- Microsoft Excel - podstawy odczytu i zapisu danych
- Microsoft Excel - wyszukiwanie tabel w niestandardowych lokalizacjach
- Microsoft Excel - dane hierarchiczne
- SQL z wykorzystaniem SQLAlchemy
- SQL z wykorzystaniem ADBC
- Apache Parquet
- JSON
- HTML
- Pickle
- Zewnętrzne biblioteki wejścia-wyjścia
Rozdział 5. Algorytmy i ich zastosowanie
- Podstawowe operacje arytmetyczne na obiektach pd.Series
- Podstawowe operacje arytmetyczne na obiektach pd.DataFrame
- Agregacje
- Transformacje
- Mapowanie
- Stosowanie funkcji
- Podsumowujące dane statystyczne
- Algorytmy grupowania
- Kodowanie "1 z n" za pomocą funkcji pd.get_dummies
- Łączenie operacji za pomocą metody .pipe
- Wybieranie filmów o najniższym budżecie z listy stu najlepszych
- Obliczanie ceny dla kroczącego zlecenia stop
- Wyszukiwanie najlepszych baseballistów
- Ustalanie pozycji zdobywającej najwięcej punktów dla drużyny
Rozdział 6. Wizualizacja
- Tworzenie wykresów na podstawie zagregowanych danych
- Wizualizacja rozkładów danych niezagregowanych
- Dostosowywanie do własnych potrzeb wykresów tworzonych za pomocą biblioteki Matplotlib
- Analiza wykresów punktowych
- Analiza danych kategorycznych
- Analiza danych ciągłych
- Wykorzystanie biblioteki seaborn do tworzenia zaawansowanych wykresów
Rozdział 7. Przekształcanie ramek danych
- Łączenie obiektów pd.DataFrame
- Łączenie ramek danych za pomocą pd.merge
- Łączenie ramek danych za pomocą pd.DataFrame.join
- Przekształcanie danych za pomocą pd.DataFrame.stack i pd.DataFrame.unstack
- Zmiana kształtu danych za pomocą pd.DataFrame.melt
- Przekształcanie danych za pomocą pd.wide_to_long
- Zmiana struktury danych za pomocą pd.DataFrame.pivot i pd.pivot_table
- Przekształcanie danych za pomocą pd.DataFrame.explode
- Transpozycja danych za pomocą pd.DataFrame.T
Rozdział 8. Grupowanie
- Podstawy grupowania
- Grupowanie i obliczenia na wielu kolumnach
- Grupowanie za pomocą funkcji apply
- Operacje na oknach
- Wybór najwyżej ocenianych filmów według roku
- Porównanie najlepszych pałkarzy w baseballu na przestrzeni lat
Rozdział 9. Algorytmy i typy danych czasowych
- Obsługa stref czasowych
- Przesunięcia dat
- Wybieranie daty i godziny
- Resampling
- Agregacja tygodniowych danych o przestępstwach i wypadkach drogowych
- Obliczanie rocznych zmian w kategoriach przestępstw
- Dokładny pomiar rejestrowanych przez czujniki zdarzeń, dla których brakuje wartości
Rozdział 10. Ogólne wskazówki dotyczące użytkowania i wydajności
- Unikaj użycia typu danych object
- Zwracaj uwagę na wielkość danych
- Używaj funkcji zwektoryzowanych zamiast pętli
- Unikaj modyfikowania danych
- Korzystaj ze słownika podczas pracy z danymi o niskiej liczbie unikalnych wartości
- Wykorzystuj techniki programowania sterowanego testami
Rozdział 11. Ekosystem biblioteki pandas
- Podstawowe biblioteki zewnętrzne
- NumPy
- PyArrow
- Eksploracyjna analiza danych
- YData Profiling
- Sprawdzanie poprawności danych
- Great Expectations
- Wizualizacja
- Plotly
- PyGWalker
- Nauka o danych
- scikit-learn
- XGBoost
- Bazy danych
- DuckDB
- Inne biblioteki przeznaczone do pracy z ramkami danych
- Ibis
- Dask
- Polars
- cuDF
| Kategoria: | Programowanie |
| Zabezpieczenie: |
Watermark
|
| ISBN: | 978-83-289-3174-9 |
| Rozmiar pliku: | 6,8 MB |