Facebook - konwersja

Mistrz analizy danych. Od danych do wiedzy - ebook

Wydawnictwo:
Data wydania:
21 września 2017
Format ebooka:
EPUB
Format EPUB
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najpopularniejszych formatów e-booków na świecie. Niezwykle wygodny i przyjazny czytelnikom - w przeciwieństwie do formatu PDF umożliwia skalowanie czcionki, dzięki czemu możliwe jest dopasowanie jej wielkości do kroju i rozmiarów ekranu. Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na tablecie
Aby odczytywać e-booki na swoim tablecie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. Bluefire dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na czytniku
Czytanie na e-czytniku z ekranem e-ink jest bardzo wygodne i nie męczy wzroku. Pliki przystosowane do odczytywania na czytnikach to przede wszystkim EPUB (ten format możesz odczytać m.in. na czytnikach PocketBook) i MOBI (ten fromat możesz odczytać m.in. na czytnikach Kindle).
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na smartfonie
Aby odczytywać e-booki na swoim smartfonie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. iBooks dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
Produkt niedostępny.  Może zainteresuje Cię

Mistrz analizy danych. Od danych do wiedzy - ebook

Nauka o danych, znana również pod nazwą data science, jest stosunkowo nową, interdyscyplinarną dziedziną, zajmującą się różnymi technikami analizy danych, ich implementacją i wykorzystywaniem do różnych celów. Zalety nauki o danych doceniają specjaliści z wielu branż: analitycy biznesowi, statystycy, architekci oprogramowania i osoby zajmujące się sztuczną inteligencją. Tak naprawdę ta dziedzina nie koncentruje się na kodowaniu i bazach danych, ale raczej na metodach wyłuskiwania z danych najróżniejszych cennych informacji. Wartość tej wiedzy niejednokrotnie okazuje się ogromna.

Niniejsza książka jest przystępnym wprowadzeniem do nauki o danych. Jest przeznaczona dla osób, które chcą stosować techniki analizy danych w biznesie. Te techniki, opisane na podstawie praktycznych przypadków, to m.in. optymalizacja, prognozowanie i symulacja, a także sztuczna inteligencja, teoria grafów, analiza skupień i wykrywanie anomalii. Dzięki tej książce nie tylko zrozumiesz zasady analizowania danych, ale także nauczysz się wybierać technikę właściwą do rozwiązania danego problemu. Poznasz też techniki pracy z prototypami. Co ciekawe, niemal wszystkie opisane tu metody zostały zaprezentowane w arkuszu kalkulacyjnym.

W książce opisano m.in.

  • optymalizację za pomocą programowania liniowego i całkowitoliczbowego
  • szereg czasowy, wykrywanie trendów i wahań sezonowych
  • przewidywanie za pomocą wygładzania wykładniczego
  • metodę symulacji Monte Carlo
  • test Tukeya i lokalne czynniki odstające
  • język R - zaawansowane techniki analizy danych

Wyciśnij z danych każdą kroplę wiedzy!

Spis treści


O autorze 11

O korektorach merytorycznych 11

Podziękowania 12

Wstęp 13

  • Co ja tutaj robię? 13
  • Praktyczna definicja analizy danych 14
  • Chwila, chwila. A co z big data? 15
  • Kim jestem? 16
  • Kim jesteś? 16
  • Na szczęście będziesz pracować tylko w arkuszu kalkulacyjnym 17
    • Ale arkusze kalkulacyjne są takie staromodne! 18
    • Korzystaj z programu Excel lub pakietu LibreOffice 18
  • Konwencje typograficzne przyjęte w tej książce 19
  • Zaczynamy 20

1. Wszystko, co chciałeś wiedzieć o arkuszu kalkulacyjnym, ale bałeś się o to zapytać 21

  • Przykładowe proste dane 22
  • Szybkie przeglądanie arkusza i klawisz Ctrl 23
  • Szybkie kopiowanie danych i formuł 24
  • Formatowanie komórek 26
  • Wklejanie wartości specjalnych 27
  • Wstawianie wykresów 28
  • Menu Znajdź i menu Zamień 29
  • Formuły przeznaczone do wyszukiwania i wyciągania wartości 30
  • Stosowanie formuły WYSZUKAJ.PIONOWO do łączenia danych 32
  • Filtrowanie i sortowanie 33
  • Stosowanie tabel przestawnych 36
  • Korzystanie z formuł tablicowych 39
  • Rozwiązywanie problemów za pomocą narzędzia Solver 40
  • OpenSolver - chciałbym, abyśmy go nie potrzebowali, ale... 46
  • Podsumowanie 47

2. Analiza skupień. Część I - zastosowanie algorytmu centroidów do segmentowania bazy klientów 49

  • Dziewczyny tańczą z dziewczynami, a chłopcy drapią się po łokciach 51
  • Prawdziwy problem: implementacja algorytmu centroidów w e-mail marketingu 56
    • Handel winem 56
    • Początkowy zbiór danych 57
    • Określanie tego, co chcemy mierzyć 57
    • Zacznij od czterech grup 61
    • Odległość euklidesowa - pomiar odległości w linii prostej 61
    • Odległość dla wszystkich! 64
    • Określanie położenia środków klastrów 66
    • Analiza uzyskanych wyników 68
    • Ustalanie najlepszej oferty dla danego klastra 69
    • Sylwetka podziału - dobry sposób na określenie optymalnej liczby klastrów 74
    • A może potrzebujesz pięciu klastrów? 81
    • Dzielenie klientów na pięć klastrów za pomocą narzędzia Solver 81
    • Ustalanie najlepszych ofert dla wszystkich pięciu klastrów 82
    • Określanie sylwetki podziału na pięć klastrów 85
  • Podział na grupy za pomocą algorytmu k-medioidów i asymetryczny pomiar odległości 87
    • Podział na grupy za pomocą metody k-medioidów 87
    • Stosowanie lepszego sposobu pomiaru odległości 87
    • Implementacja za pomocą Excela 90
    • Najlepsze oferty przy podziale na pięć klastrów za pomocą median 92
  • Podsumowanie 95

3. Naiwny klasyfikator bayesowski i niezwykła lekkość bycia idiotą 97

  • Jeżeli nazwiesz swój produkt Mandrill, to uzyskasz zaszumione informacje zwrotne 97
  • Najszybsze na świecie wprowadzenie do rachunku prawdopodobieństwa 100
    • Obliczanie prawdopodobieństwa warunkowego 100
    • Prawdopodobieństwo części wspólnej, reguła łańcuchowa i niezależność 101
    • A co, jeżeli sytuacje są zależne od siebie? 102
    • Twierdzenie Bayesa 102
  • Tworzenie modelu sztucznej inteligencji za pomocą twierdzenia Bayesa 103
    • Zwykle zakłada się, że wysokopoziomowe prawdopodobieństwa klas są sobie równe 105
    • Kilka innych drobnostek 106
  • Czas rozpocząć zabawę z Excelem 107
    • Usuwanie nieistotnych znaków interpunkcyjnych 108
    • Dzielenie na znakach spacji 109
    • Zliczanie leksemów i obliczanie prawdopodobieństw 112
    • Zbudowaliśmy model. Skorzystajmy z niego! 114
  • Podsumowanie 120

4. Modelowanie optymalizacyjne - "świeżo wyciśnięty" sok nie zamiesza się sam 123

  • Dlaczego analityk danych powinien wiedzieć, czym jest optymalizacja? 124
  • Zacznijmy od prostego kompromisu 125
    • Przedstawienie problemu w formie wielokomórki 126
    • Rozwiązywanie problemu poprzez przesuwanie poziomicy 128
    • Metoda simpleks - kręcenie się wokół rogów 129
    • Praca w Excelu 130
    • Na końcu tego rozdziału kryje się potwór 140
  • Szklanka świeżego soku pomarańczowego prosto z drzewa... z przystankiem na modelowanie 141
    • Trzeba skorzystać z modelu mieszania 142
    • Zacznijmy od specyfikacji soków 142
    • Stałość produktu wyjściowego 144
    • Wprowadzanie danych do Excela 145
    • Określanie problemu w dodatku Solver 148
    • Obniżanie standardów 150
    • Usuwanie cuchnącego problemu - minimalizacja maksymalnych odchyleń 154
    • Warunki i ograniczenie "wielkiego M" 156
    • Mnożenie zmiennych - skorzystajmy ze 110% mocy Excela 160
  • Modelowanie ryzyka 168
    • Dane pochodzące z rozkładu normalnego 168
  • Podsumowanie 176

5. Analiza skupień. Część II - grafy i analiza sieci 179

  • Czym jest graf sieci? 180
  • Wizualizacja prostego grafu 181
  • Krótkie wprowadzenie do Gephi 184
    • Instalacja Gephi i przygotowanie pliku 184
    • Budowa grafu 185
    • Stopień rozgałęzienia 188
    • Elegancki wydruk 190
    • Edycja danych grafu 192
  • Tworzenie grafu na podstawie danych sprzedaży wina 193
    • Tworzenie macierzy podobieństwa kosinusowego 195
    • Generowanie grafu r-sąsiedztwa 197
  • Jaka jest wartość krawędzi? Nagradzanie i karanie krawędzi - modularność grafu 202
    • Czym jest punkt, a czym kara? 202
    • Tworzenie arkusza punktacji 206
  • Czas dokonać podziału na grupy 208
    • Podział 1. 208
    • Podział 2. - kontratak 214
    • Podział 3. - zemsta 215
    • Grupy - kodowanie i analiza 216
  • Tam i z powrotem - czas na Gephi 220
  • Podsumowanie 225

6. Regresja jako przodek nadzorowanego uczenia maszynowego i sztucznej inteligencji 227

  • Co? Jesteś w ciąży? 227
  • Nie oszukuj siebie 228
  • Przewidywanie ciąży klientów na podstawie regresji liniowej 229
    • Zbiór cech 230
    • Tworzenie treningowego zbioru danych 231
    • Tworzenie zmiennych fikcyjnych 233
    • Pobawmy się regresją liniową 235
    • Parametry regresji liniowej: współczynnik determinacji, test F i test t 244
    • Przewidywanie ciąży na nowym zbiorze danych i sprawdzanie jakości modelu 255
  • Przewidywanie ciąży klientów za pomocą regresji logistycznej 265
    • Najpierw musisz określić funkcję wiążącą 265
    • Tworzenie funkcji logistycznej i ponowna optymalizacja 266
    • Praca nad prawdziwą regresją logistyczną 270
    • Wybór modelu - porównywanie skuteczności regresji liniowej i regresji logistycznej 272
  • Dalsza lektura 274
  • Podsumowanie 275

7. Modele zespołowe - dużo nie najlepszej pizzy 277

  • Korzystanie z danych z rozdziału 6. 278
  • Agregacja - losuj, trenuj, powtórz 280
    • Pieniek decyzyjny to niezbyt ładne określenie głupiego modelu 280
    • To wcale nie wydaje się takie głupie! 281
    • Więcej mocy! 283
    • Czas rozpocząć proces trenowania 284
    • Ocena działania modelu zespolonego 293
  • Wzmacnianie - jeżeli uzyskałeś niesatysfakcjonujące wyniki, to wzmocnij swój model i uruchom go jeszcze raz 298
    • Trenowanie modelu - każda cecha ma swoje pięć minut 299
    • Wydajność modelu wzmacnianych reguł decyzyjnych 307
  • Podsumowanie 311

8. Prognozowanie - oddychaj spokojnie, i tak nie wygrasz 313

  • Hossa na rynku sprzedaży mieczy 314
  • Szeregi czasowe 315
  • Zacznij od prostego wygładzania wykładniczego 317
    • Przygotowanie arkusza prognozy prostego wygładzania wykładniczego 319
  • Być może dane zawierają trend 325
  • Podwójne wygładzanie wykładnicze (metoda Holta) 327
    • Metoda Holta w arkuszu kalkulacyjnym 329
    • To wszystko? Analiza autokorelacji 335
  • Wielokrotne wygładzanie wykładnicze - model Holta-Wintersa 342
    • Określanie początkowych wartości poziomu, trendu i sezonowości 345
    • Tworzenie prognozy 349
    • Czas na optymalizację 354
    • Powiedz mi, że to już koniec. Proooszę! 356
    • Interwały prognozy 356
    • Tworzenie wykresu warstwowego wachlarza wartości 360
  • Podsumowanie 362

9. Wykrywanie obserwacji odstających - to, że jakiś element jest inny od pozostałych, nie oznacza, że jest nieistotny 365

  • Element odstający to też człowiek 366
  • Fascynująca sprawa Hadlumów 367
    • Metoda Tukeya 368
    • Implementacja metody Tukeya w arkuszu kalkulacyjnym 368
    • Ograniczenia tej prostej techniki 371
  • Nie tragiczny, ale słaby we wszystkim 372
    • Przygotowywanie danych do utworzenia wykresu 373
    • Tworzenie grafu 376
    • Określanie k najbliższych sąsiadów 378
    • Pierwsza metoda wykrywania elementów odstających grafu - skorzystaj ze stopnia wchodzącego 379
    • Druga metoda wykrywania elementów odstających grafu - zgłębianie niuansów za pomocą k-odległości 383
    • Trzecia metoda wykrywania elementów odstających grafu - lokalny miernik stopnia oddalenia obserwacji 385
  • Podsumowanie 391

10. Przejście z arkusza kalkulacyjnego do języka R 393

  • Przygotowanie środowiska i początek pracy w języku R 394
    • Wprowadzanie prostych danych 395
    • Wczytywanie danych do R 402
  • Prawdziwa analiza danych 404
    • Sferyczny algorytm k-średnich wywołany za pomocą zaledwie kilku linii kodu 404
    • Budowanie modeli sztucznej inteligencji na podstawie danych zakupów (wykrywanie ciąży) 410
    • Prognozowanie w R 417
    • Wykrywanie elementów odstających 421
  • Podsumowanie 426

Wnioski 427

  • Gdzie ja jestem? Co się stało? 427
  • Zanim odłożysz tę książkę 428
    • Poznaj problem 428
    • Potrzebujemy więcej tłumaczy 429
    • Uważaj na trójgłowe monstrum: narzędzia, wydajność i perfekcjonizm 430
    • Nie jesteś najważniejszą osobą w firmie 432
  • Bądź kreatywny 433

Skorowidz 435

Kategoria: Programowanie
Zabezpieczenie: Watermark
Watermark
Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN: 978-83-283-5822-5
Rozmiar pliku: 38 MB

BESTSELLERY

Kategorie: