- nowość
Mistrz analizy danych. Od danych do wiedzy - ebook
Mistrz analizy danych. Od danych do wiedzy - ebook
Mimo zainteresowania danymi i ich analizą zbyt wiele projektów z obszaru data science kończy się fiaskiem. Firmy zatrudniają analityków danych, kupują drogie narzędzia, traktują analizę danych jak magię. Niestety, bez dogłębnego zrozumienia sposobu i celu przetwarzania danych nie masz co liczyć na sukces. Jeśli chcesz podjąć się tego wyzwania, Twoim najlepszym sojusznikiem okaże się... Excel, który świetnie się nadaje do wyjaśniania najważniejszych zagadnień nauki o danych.
Analitycy, którzy w pełni wykorzystują potencjał Excela, będą odnosić sukcesy.
George Mount, Excel MVP, autor książki Zaawansowana analiza danych
Dzięki tej książce zrozumiesz techniki analizy danych, poznasz szczegóły ich implementacji, a także nauczysz się z nich korzystać w biznesie niezależnie od jego skali. To przewodnik po budowaniu modeli statystycznych, uczeniu maszynowym i użyciu sztucznej inteligencji bezpośrednio w Twoim arkuszu kalkulacyjnym. Jeśli chcesz stosować naukę o danych do odczytywania ukrytej w nich praktycznej wiedzy, to Mistrz analizy danych jest lekturą, po którą koniecznie musisz sięgnąć!
Najciekawsze zagadnienia:
- nowe funkcje Excela i Power Query, takie jak X.WYSZUKAJ, LET i LAMBDA
- ogólny model liniowy, metody zespołowe i naiwny klasyfikator Bayesa
- optymalizacja matematyczna, programowanie nieliniowe i algorytmy genetyczne
- szeregi czasowe i generowanie prognoz
- algorytmy k-średnich, modularność grafu i symulacja Monte Carlo
- analiza danych za pomocą języka R
Dane mówią same za siebie. Odkryj wiedzę ukrytą w liczbach!
Jeśli chcesz dołączyć do nowego pokolenia analityków, ta książka będzie Twoim przewodnikiem!
dr Alex J. Gutman, współautor książki Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym
Spis treści
Wstęp
1. Wszystko, co chciałeś wiedzieć o arkuszu kalkulacyjnym, ale bałeś się o to zapytać
- Przykładowe proste dane
- Szybkie statystyki opisowe
- Tabele Excela
- Filtrowanie i sortowanie
- Formatowanie tabeli
- Odwołania strukturalne
- Dodawanie kolumn do tabeli
- Formuły przeznaczone do wyszukiwania
- WYSZUKAJ.POZIOMO
- INDEKS/PODAJ.POZYCJĘ
- X.WYSZUKAJ
- Tabele przestawne
- Korzystanie z formuł tablicowych
- Rozwiązywanie problemów za pomocą narzędzia Solver
2. Ustaw i zapomnij! Wprowadzenie do Power Query
- Czym jest Power Query?
- Przykładowe dane
- Rozpoczęcie pracy z Power Query
- Filtrowanie wierszy
- Usuwanie kolumn
- Znajdź i zastąp
- Zamknij i załaduj. do tabeli
3. Naiwny klasyfikator bayesowski i niezwykła lekkość bycia idiotą
- Najszybsze na świecie wprowadzenie do rachunku prawdopodobieństwa
- Obliczanie prawdopodobieństwa warunkowego
- Prawdopodobieństwo części wspólnej, reguła łańcuchowa i niezależność
- A co, jeżeli sytuacje są zależne od siebie?
- Twierdzenie Bayesa
- Oddzielanie sygnału od szumu
- Tworzenie modelu sztucznej inteligencji za pomocą twierdzenia Bayesa
- Zwykle zakłada się, że wysokopoziomowe prawdopodobieństwa klas są sobie równe
- Kilka innych drobnostek
- Czas rozpocząć zabawę z Excelem
- Porządkowanie danych za pomocą Power Query
- Dzielenie na znakach spacji: każde słowo musi dostać to, co mu się należy
- Zliczanie leksemów i obliczanie prawdopodobieństw
- Zbudowaliśmy model. Skorzystajmy z niego!
4. Analiza skupień. Część I - zastosowanie algorytmu centroidów do segmentowania bazy klientów
- Zabawy taneczne na obozie letnim
- Prawdziwy problem: implementacja algorytmu centroidów w e-mail marketingu
- Początkowy zbiór danych
- Określanie tego, co chcemy mierzyć
- Zacznij od czterech grup
- Odległość euklidesowa - pomiar odległości w linii prostej
- Określanie położenia środków klastrów
- Analiza uzyskanych wyników
- Ustalanie najlepszej oferty dla danego klastra
- Sylwetka podziału - dobry sposób na określenie optymalnej liczby klastrów
- A może potrzebujesz pięciu klastrów?
- Dzielenie klientów na pięć klastrów za pomocą narzędzia Solver
- Ustalanie najlepszych ofert dla wszystkich pięciu klastrów
- Określanie sylwetki podziału na pięć klastrów
- Podział na grupy za pomocą algorytmu K-medioidów i asymetryczny pomiar odległości
- Podział na grupy za pomocą metody K-medioidów
- Stosowanie lepszego sposobu pomiaru odległości
- Implementacja za pomocą Excela
- Najlepsze oferty przy podziale na pięć klastrów za pomocą median
5. Analiza skupień. Część II - grafy i analiza sieci
- Czym jest graf sieci?
- Wizualizacja prostego grafu
- Wyjście poza dodatek GiGraph i listy sąsiedztwa
- Tworzenie grafu na podstawie danych sprzedaży wina
- Tworzenie macierzy podobieństwa kosinusowego
- Generowanie grafu r-sąsiedztwa
- Wprowadzenie do Gephi
- Tworzenie statycznej macierzy sąsiedztwa
- Macierz r-sąsiedztwa w Gephi
- Stopień rozgałęzienia
- Edycja danych grafu
- Jaka jest wartość krawędzi? Nagradzanie i karanie krawędzi - modularność grafu
- Czym jest punkt, a czym kara?
- Tworzenie arkusza punktacji
- Czas dokonać podziału na grupy
- Podział 1.
- Podział 2. - kontratak
- Podział 3. - zemsta
- Grupy - kodowanie i analiza
- Tam i z powrotem - czas na Gephi
6. Regresja jako przodek nadzorowanego uczenia maszynowego i sztucznej inteligencji
- Przewidywanie ciąży klientów na podstawie regresji liniowej
- Zbiór cech
- Tworzenie treningowego zbioru danych
- Tworzenie zmiennych fikcyjnych
- Pobawmy się regresją liniową
- Parametry regresji liniowej: współczynnik determinacji, test F i test t
- Przewidywanie ciąży na nowym zbiorze danych i sprawdzanie jakości modelu
- Przewidywanie ciąży klientów za pomocą regresji logistycznej
- Najpierw musisz określić funkcję wiążącą
- Tworzenie funkcji logistycznej i ponowna optymalizacja
- Praca nad prawdziwą regresją logistyczną
7. Modele zespołowe - dużo nie najlepszej pizzy
- Korzystanie z danych z rozdziału 6.
- Agregacja - losuj, trenuj, powtórz
- Pieniek decyzyjny to kolejne określenie słabego klasyfikatora
- To wcale nie wydaje się takie słabe!
- Więcej mocy!
- Czas rozpocząć proces trenowania
- Ocena działania modelu zespolonego
- Wzmacnianie - jeżeli uzyskałeś niesatysfakcjonujące wyniki, to wzmocnij swój model i uruchom go jeszcze raz
- Trenowanie modelu - każda cecha ma swoje pięć minut
- Wydajność modelu wzmacnianych reguł decyzyjnych
8. Prognozowanie - oddychaj spokojnie, i tak nie wygrasz
- Hossa na rynku sprzedaży mieczy
- Szeregi czasowe
- Zacznij od prostego wygładzania wykładniczego
- Przygotowanie arkusza prognozy prostego wygładzania wykładniczego
- Być może dane zawierają trend
- Podwójne wygładzanie wykładnicze (metoda Holta)
- Metoda Holta w arkuszu kalkulacyjnym
- To wszystko? Analiza autokorelacji
- Wielokrotne wygładzanie wykładnicze - model Holta-Wintersa
- Określanie początkowych wartości poziomu, trendu i sezonowości
- Tworzenie prognozy
- Czas na optymalizację
- Interwały prognozy
- Tworzenie wykresu warstwowego wachlarza wartości
- Arkusze prognozy w Excelu
9. Modelowanie optymalizacyjne - świeżo wyciśnięty sok nie zamiesza się sam
- Ale czy to w ogóle jest analiza danych?
- Zacznijmy od prostego kompromisu
- Przedstawienie problemu w formie wielokomórki
- Rozwiązywanie problemu poprzez przesuwanie poziomicy
- Metoda simpleks - kręcenie się wokół rogów
- Praca w Excelu
- Szklanka świeżego soku pomarańczowego prosto z drzewa. z przystankiem na modelowanie
- Zacznijmy od specyfikacji soków
- Stałość produktu wyjściowego
- Wprowadzanie danych do Excela
- Określanie problemu w dodatku Solver
- Obniżanie standardów
- Usuwanie cuchnącego problemu - minimalizacja maksymalnych odchyleń
- Warunki i ograniczenie "wielkiego M"
- Mnożenie zmiennych - skorzystajmy ze 110% mocy Excela
- Modelowanie ryzyka
- Dane pochodzące z rozkładu normalnego
10. Wykrywanie obserwacji odstających
- Element odstający to też człowiek
- Fascynująca sprawa Hadlumów
- Metoda Tukeya
- Implementacja metody Tukeya w arkuszu kalkulacyjnym
- Ograniczenia tej prostej techniki
- Nie tragiczny, ale słaby we wszystkim
- Przygotowywanie danych do utworzenia wykresu
- Tworzenie grafu
- Określanie k najbliższych sąsiadów
- Pierwsza metoda wykrywania elementów odstających grafu - skorzystaj ze stopnia wchodzącego
- Druga metoda wykrywania elementów odstających grafu - zgłębianie niuansów za pomocą k-odległości
- Trzecia metoda wykrywania elementów odstających grafu - lokalny miernik stopnia oddalenia obserwacji
11. Przejście z arkusza kalkulacyjnego do języka R
- Przygotowanie środowiska i początek pracy w języku R
- Szybkie szkolenie z pisania skryptów w języku R
- Działania matematyczne na wektorach i faktory
- Najlepszy typ danych - dataframe
- Pomoc dla języka R
- Wyjście poza podstawowe możliwości R
- Prawdziwa analiza danych
- Wczytywanie danych do R
- Sferyczny algorytm k-średnich wywołany za pomocą zaledwie kilku linii kodu
- Budowanie modeli sztucznej inteligencji na podstawie danych zakupów (wykrywanie ciąży)
- Prognozowanie w R
- Wykrywanie elementów odstających
12. Wnioski
- Gdzie ja jestem? Co się stało?
- Zanim odłożysz tę książkę
- Poznaj problem
- Potrzebujemy więcej tłumaczy
- Uważaj na trójgłowe monstrum: narzędzia, wydajność i perfekcjonizm
- Nie jesteś najważniejszą osobą w firmie
- Bądź kreatywny
Kategoria: | Bazy danych |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-289-1181-9 |
Rozmiar pliku: | 34 MB |