Analiza danych z wykorzystaniem SQL-a. Zaawansowane techniki przekształcania danych we wnioski - ebook
Analiza danych z wykorzystaniem SQL-a. Zaawansowane techniki przekształcania danych we wnioski - ebook
Język SQL został stworzony jako narzędzie do przetwarzania danych. Mimo że zwykle jest używany do pracy z bazami danych, jego możliwości są o wiele większe. Poprawny kod SQL ułatwia przetwarzanie potężnych zbiorów danych z dużą szybkością. Szczególnie obiecującą perspektywą jest zastosowanie języka SQL na wielkich zbiorach danych przechowywanych w chmurze. Dzięki nieco bardziej złożonym konstrukcjom SQL analityk danych może z dużą efektywnością wydobywać z nich wiedzę.
Ta praktyczna książka jest przeznaczona dla analityków danych i danologów, którzy chcą używać SQL-a do eksploracji dużych zbiorów danych. Pokazuje zarówno popularne, jak i nieco mniej znane techniki budowania zapytań SQL, dzięki czemu możliwe staje się rozwiązywanie nawet bardzo zawiłych problemów i optymalne wykorzystanie właściwości tego języka w pracy na danych. W nowy, innowacyjny sposób przedstawiono tu takie pojęcia jak złączenia, funkcje okna, podzapytania i wyrażenia regularne. Zademonstrowano, jak łączyć różne techniki, aby szybciej osiągać cele za pomocą łatwego do zrozumienia, czytelnego kodu. Opisywany materiał został zilustrowany licznymi przykładami zapytań SQL, dzięki czemu można płynnie przejść do rozwiązywania konkretnych problemów z zakresu przetwarzania, analizy i eksploracji danych.
Najciekawsze zagadnienia:
- przygotowywanie danych do analizy
- analizy szeregów czasowych z wykorzystaniem SQL
- analizy kohortowe do badania zachodzących zmian
- analiza tekstu za pomocą zaawansowanych funkcji i operatorów SQL
- wykrywanie odstających wartości
- analizy eksperymentów (testy A/B)
SQL: tak wyciągniesz z danych rzetelne wnioski!
Spis treści
Przedmowa
Rozdział 1. Analizy z wykorzystaniem SQL-a
- Czym jest analiza danych?
- Dlaczego SQL?
- Czym jest SQL?
- Korzyści, jakie daje SQL
- SQL a R lub Python
- SQL jako element procesu analizy danych
- Rodzaje baz danych i sposoby pracy z nimi
- Wierszowe bazy danych
- Kolumnowe bazy danych
- Inne rodzaje infrastruktury danych
- Podsumowanie
Rozdział 2. Przygotowywanie danych do analiz
- Typy danych
- Typy danych w bazach
- Dane ustrukturyzowane i nieustrukturyzowane
- Dane ilościowe i jakościowe
- Dane z pierwszej, drugiej i trzeciej ręki
- Dane rzadkie
- Struktura zapytań w SQL-u
- Profilowanie - rozkład danych
- Histogramy i częstość wystąpień
- Binning
- Technika n przedziałów
- Profilowanie - jakość danych
- Wykrywanie duplikatów
- Deduplikacja za pomocą klauzul GROUP BY i DISTINCT
- Przygotowania - oczyszczanie danych
- Oczyszczanie danych za pomocą przekształceń w instrukcji CASE
- Konwersja i rzutowanie typów
- Radzenie sobie z wartościami null: funkcje coalesce, nullif i nvl
- Brakujące dane
- Przygotowania - kształtowanie danych
- Docelowe zastosowanie - analiza biznesowa, wizualizacja, obliczanie statystyk, uczenie maszynowe
- Tworzenie tabel przestawnych za pomocą instrukcji CASE
- Przywracanie struktury po przestawieniu z użyciem instrukcji UNION
- Funkcje pivot i unpivot
- Podsumowanie
Rozdział 3. Analiza szeregów czasowych
- Operacje na datach, czasie oraz datach i czasie
- Zmiana strefy czasowej
- Konwersja formatu dat i znaczników czasu
- Obliczenia matematyczne na datach
- Obliczenia na czasie
- Złączanie danych z różnych źródeł
- Zbiór danych o sprzedaży detalicznej
- Analiza trendów w danych
- Proste trendy
- Porównywanie komponentów
- Obliczanie procentów z całości
- Stosowanie indeksacji do badania zmian procentowych w czasie
- Okna przesuwne
- Obliczenia na podstawie okien przesuwnych
- Okna przestawne w rzadkich zbiorach danych
- Obliczanie wartości skumulowanych
- Analiza danych z efektem sezonowości
- Porównywanie okres do okresu - rdr i mdm
- Porównania okres do okresu - te same miesiące z kolejnych lat
- Porównywanie z wieloma wcześniejszymi okresami
- Podsumowanie
Rozdział 4. Analiza kohortowa
- Kohorty - przydatny model analiz
- Zbiór danych o członkach Kongresu
- Utrzymanie
- Kod w SQL-u do tworzenia prostej krzywej utrzymania
- Modyfikowanie szeregów czasowych, aby zwiększyć dokładność wyników analizy utrzymania
- Kohorty tworzone na podstawie szeregów czasowych
- Definiowanie kohort na podstawie odrębnej tabeli
- Jak radzić sobie z kohortami rzadkimi?
- Definiowanie kohort na podstawie dat innych niż początkowa
- Powiązane analizy kohortowe
- Przeżywalność
- Powroty (ponowne zakupy)
- Obliczanie skumulowanych wartości
- Analiza przekrojowa w kontekście analizy kohortowej
- Podsumowanie
Rozdział 5. Analiza tekstu
- Po co analizować tekst za pomocą SQL-a?
- Czym jest analiza tekstu?
- Dlaczego SQL jest dobrym narzędziem do analizy tekstu?
- Kiedy SQL nie jest dobrym wyborem?
- Zbiór danych o obserwacjach UFO
- Cechy tekstu
- Parsowanie tekstu
- Przekształcanie tekstu
- Znajdowanie elementów w większych blokach tekstu
- Dopasowywanie symboli wieloznacznych: LIKE i ILIKE
- Dokładne dopasowywanie za pomocą operatorów IN i NOT IN
- Wyrażenia regularne
- Tworzenie tekstu i zmienianie jego kształtu
- Konkatencja
- Zmiana kształtu tekstu
- Podsumowanie
Rozdział 6. Wykrywanie anomalii
- Możliwości i ograniczenia SQL-a w zakresie wykrywania anomalii
- Zbiór danych
- Wykrywanie wartości odstających
- Wyszukiwanie anomalii za pomocą sortowania
- Wyszukiwanie anomalii na podstawie percentyli i odchylenia standardowego
- Tworzenie wykresów w celu znajdowania anomalii
- Rodzaje anomalii
- Anomalne wartości
- Anomalne liczby wystąpień
- Anomalie w postaci braku danych
- Radzenie sobie z anomaliami
- Badanie anomalii
- Usuwanie danych
- Zastępowanie innymi wartościami
- Skalowanie
- Podsumowanie
Rozdział 7. Analiza eksperymentów
- Wady i zalety analizy eksperymentów za pomocą SQL-a
- Zbiór danych
- Rodzaje eksperymentów
- Eksperymenty z wynikami binarnymi - test chi-kwadrat
- Eksperymenty z wynikami ciągłymi - test t
- Problemy z eksperymentami i sposoby radzenia sobie z błędami
- Przydział jednostek do wariantów
- Wartości odstające
- Okna czasowe
- Eksperymenty związane z wielokrotną ekspozycją
- Co robić, gdy kontrolowane eksperymenty są niemożliwe? Inne analizy
- Analiza "przed i po"
- Analiza eksperymentów naturalnych
- Analiza populacji w okolicy wartości progowej
- Podsumowanie
Rozdział 8. Tworzenie złożonych zbiorów danych na potrzeby analiz
- Kiedy używać SQL-a do tworzenia złożonych zbiorów danych?
- Zalety stosowania SQL-a
- Kiedy używać procesu ETL?
- Kiedy umieszczać logikę w innych narzędziach?
- Porządkowanie kodu
- Komentarze
- Wielkość liter, wcięcia, nawiasy i inne sztuczki z obszaru formatowania
- Przechowywanie kodu
- Porządkowanie obliczeń
- Porządek przetwarzania klauzul w SQL-u
- Podzapytania
- Tabele tymczasowe
- Wyrażenia CTE
- Instrukcja grouping sets
- Zarządzanie wielkością zbioru danych i prywatnością
- Próbkowanie na podstawie wartości procentowych i dzielenia modulo
- Zmniejszanie liczby wymiarów
- Dane osobowe i prywatność danych
- Podsumowanie
Rozdział 9. Podsumowanie
- Analizy lejka
- Rezygnacje, wygaśnięcia i inne definicje utraty klientów
- Analiza koszykowa
- Materiały
- Książki i blogi
- Zbiory danych
- Uwagi końcowe
Kategoria: | Bazy danych |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-283-8896-3 |
Rozmiar pliku: | 11 MB |