Kluczowe kompetencje specjalisty danych - ebook
Kluczowe kompetencje specjalisty danych - ebook
Data Science szturmem zdobyło nowe obszary – wszystko jest większe, szybsze i lepsze. Większe możliwości obliczeniowe wprowadziły uczenie maszynowe i głębokie uczenie maszynowe na rynek. Tworzenie sztucznych sieci neuronowe jest znacznie prostsze. Sztuczna inteligencja zrewolucjonizowała wiele branż. Rozwój technologii byłby niemożliwy bez Data Science. Poznanie podstaw tej nauki otwiera wiele drzwi, bo specjaliści danych potrzebni są w wielu dziedzinach. Data Science jest wyjątkowo obiecującym obszarem prac i badań.
Jeśli chcesz zrobić krok w stronę swojej kariery w Data Science, książka Kluczowe kompetencje specjalisty danych jest dla Ciebie. Jest to publikacja, która w sposób kompleksowy omawia takie kwestie jak:
• gromadzenie danych,
• przygotowanie danych,
• analiza danych,
• wizualizacja danych,
• prezentacja danych.
Część I wprowadzi Cię w świat wszechobecnych danych i najważniejszych zasad Data Science, które pomogą Ci pogłębić posiadaną wiedzę. Część II przeprowadzi Cię przez etap gromadzenia i analizy danych. W Części III dowiesz się, jak najlepiej zwizualizować i zaprezentować wyniki swojej pracy.
Kategoria: | Informatyka |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-01-21655-9 |
Rozmiar pliku: | 6,1 MB |
FRAGMENT KSIĄŻKI
PODZIĘKOWANIA
Chciałbym podziękować mojemu ojcu, Aleksandrowi Eremenko, którego miłość i troskliwość uczyniły ze mnie osobę, jaką jestem dzisiaj, i którego jasne wytyczne pokazały mi, jak nie marnować życiowych okazji. Dziękuję mojej cudownej mamie, Elenie Eremenko, za to, że zawsze umiała wysłuchać moich szalonych pomysłów oraz za zachęcanie mnie i moich braci do poszerzania horyzontów dzięki muzyce, językom, tańcowi i wielu innym aktywnościom. Gdyby nie jej mądre rady, nigdy nie wyemigrowałbym do Australii.
Dziękuję mojemu bratu, Markowi Eremenko, za to, że zawsze we mnie wierzył, i za jego niezachwiane zaufanie. Jego życiowa nieustraszoność wciąż pomaga mi podejmować tak wiele ważnych decyzji. Dziękuję bratu Ilyi Eremenko, mądremu ponad swój wiek, za jego śmiałe pomysły biznesowe i przemyślane przedsięwzięcia. Jestem pewien, że sława i pieniądze wkrótce zapukają do jego drzwi.
Dziękuje mojej babci Valentinie, cioci Natashy i kuzynce Yurze za ich nieskończoną miłość i troskę. Dziękuję też rodzinom Tanakovic i Svoren, moim braciom Adamowi i Davidowi za wszystkie wspólnie spędzone, wyjątkowe chwile.
Dziękuję moim studentom i tysiącom ludzi, którzy słuchają podcastów SuperDataScience. Moi odbiorcy są dla mnie inspiracją do kontynuowania pracy.
Kilka osób szczególnie pomogło mi stworzyć tę książkę. Chciałbym podziękować mojej sekretarz Zarze Karschay za nagranie mojego głosu. Dziękuję redaktorom Rebecce Bush i Stefanowi Leszczuk, których uwagi i wskazówki, tak jak uwagi Anny Moss, miały zasadniczy wpływ na proces pisania. Dziękuję też redakcji wydawnictwa Kogan Page za narzucony rygor. Dziękuję mojemu przyjacielowi i wspólnikowi Hadelin de Ponteves za inspiracje i wsparcie w rozwiązywaniu niektórych najtrudniejszych kwestii z obszaru Data Science oraz za pomoc w technicznej korekcie książki.
Dziękuję mojemu przyjacielowi i asystentowi Mitji Bosničowi za niestrudzone wysiłki, które umożliwiły drugie wydanie książki. Pragnę również podziękować utalentowanemu zespołowi SuperDataScience za przejęcie dodatkowych obowiązków, co pozwoliło mi napisać tę książkę. Dziękuję ciężko pracującemu zespołowi Udemy, w tym wspierającym mnie specjalistom ds. kluczowych klientów: Lanie Martinez i Erinowi Adamsowi.
Dziękuję mojemu przyjacielowi i mentorowi Artemowi Valdimirovi, którego godna podziwu etyka zawodowa i wiedza leżą u podstaw wszystkiego, co wiem z zakresu Data Science. Serdeczne dziękuję Vitaly’emu Dologovi, Ivorowi Rockowi, Richardowi Hopkinsowi, Tracy Crossley i Harbowi Kanisowi za bycie doskonałymi wzorami do naśladowania, za wiarę we mnie, za to, że zawsze byli, gdy tylko potrzebowałem pomocy, i za kierowanie mną w dobrych i złych czasach. Dziękuję Katherinie Adyskovej – jestem wdzięczny za to, że jako pierwsza przeczytałaś Kluczowe kompetencje specjalisty danych. Twoje uwagi były nieocenione.
Wyrażam wdzięczność osobom współtworzącym zamieszczone w książce studia przypadków, a są to: Alberto Cairo, Samuel Hinton, Richard Hopkins, Kristen Kehrer, Raul Popa, Caroline McColl, Ulf Morys, Daniel i Leigh Pullen, Dominic Roe, Adrian Rosebrock, Matthew Rosenquist, Dan Shiebler, Ben Taylor, Artem Vladimirov i Stephen Welch.
Inspirujący nauczyciele z moskiewskiej szkoły nr 54, Moskiewskiego Instytutu Fizyki i Technologii oraz Uniwesytetu Queensland mają moją wdzięczność za wartościowe wykształcenie, które od nich otrzymałem. Byłym współpracownikom z Deloitte i Sunsuper pragnę podziękować za okazję do rozwoju zawodowego, który pozwolił mi zbudować zestaw kompetencji Data Science.
Przede wszystkim chcę podziękować Tobie Czytelniku, za Twój cenny czas. Mam szczerą nadzieję, że ta książka pomoże tym, którzy chcą zrozumieć i praktykować Data Science, w ich karierach zawodowych.CZĘŚĆ I
„O CO W TYM CHODZI?” NAJWAŻNIEJSZE ZASADY DATA SCIENCE
Przy całej uwadze poświęconej najwyraźniej nieskończonemu potencjałowi technologii i różnorodnym możliwościom, jakie oferuje ona sprytnym przedsiębiorcom, ktoś mógłby zapytać po co w ogóle zajmować się Data Science. Czemu po prostu nie opanować technologii. W końcu to one napędzają świat i nie widać żadnych oznak spowolnienia ich rozwoju. Czytelnik zainteresowany rozwojem swojej kariery zawodowej może uważać, że wiedza o tym, jak opanować nową technologię, zagwarantuje mu powodzenie.
Łatwo jest uznać technologię za siłę, która zmienia świat – zawdzięczamy jej komputery osobiste, internet, sztuczne organy, autonomiczne pojazdy, system GPS, ... Niewielu ludzi myśli o Data Science jako o sile napędowej wielu z tych wynalazków. Właśnie dlatego powinieneś przeczytać tę książkę zamiast książki poświęconej technologii – żeby coś zmienić, musisz poznać sposób, w jaki to coś działa.
Nie powinniśmy uważać danych za nudnego, ale przydatnego przodka, a technologii za szykownego nastolatka. Znaczenie Data Science nie sprowadza się do wyjaśnienia, że technologia potrzebuje danych jako jednego z wielu swoich składników. W ten sposób zaprzeczylibyśmy pięknu danych i wielu ich interesującym zastosowaniom, zarówno w pracy, jak i zabawie. W skrócie, rozwój technologii byłby niemożliwy bez Data Science i _vice versa_. To znaczy, że poznanie podstaw Data Science otwiera wiele drzwi, bo specjaliści danych potrzebni są w wielu dziedzinach. Data Science jest wyjątkowo obiecującym obszarem prac i badań.
Część I wprowadzi Cię w świat wszechobecnych danych i najważniejszych zasad Data Science, które pomogą Ci pogłębić posiadaną wiedzę. Pojęcia przedstawione w trzech pierwszych rozdziałach dadzą Ci zarys obrazu, w jaki sposób dane dotyczą Ciebie, i pozwolą Ci się zastanowić nie tylko nad tym, jak Ty i Twoja firma mogą z nich skorzystać, ale również nad tym, jak możesz użyć danych do rozwoju swojej kariery i nie tylko.
DOKĄD ZMIERZAMY
W rozdziale 1 zrobimy pierwsze kroki naszej wędrówki po Data Science. Wyjaśnię w nim, jak my wszyscy, żyjąc w erze komputerów, przyczyniamy się do gigantycznego przyrostu danych. Następnie przejdę do odpowiedzi na pytania, jak ludzie gromadzą i pracują z danymi oraz – przede wszystkim – jak można użyć danych z korzyścią dla różnorodnych projektów prowadzonych w ramach Data Science i poza tą dziedziną.
Przekonamy się, że jednym z problemów dotyczących Data Science nie jest jej trudność, ale to, że dla wielu osób obszar Data Science pozostaje niejasny. Dopiero gdy zdamy sobie sprawę z ogromnej ilości danych i poznamy metody ich zbierania, będziemy mogli zastanowić się nad różnorodnymi sposobami pracy z danymi. Osiągnęliśmy poziom rozwoju technologicznego pozwalający gromadzić i przechowywać dane na potrzeby najróżniejszych branż – wystarczy spojrzeć na liczbę ogólnie dostępnych zbiorów danych i projektów rządowych mających na celu zestawienie danych zbieranych przez różne instytucje kulturalne i polityczne. Jednak wciąż relatywnie mało osób wie, jak dostać się do tych danych i jak je przeanalizować. Bez specjalistów rozumiejących ich przydatność, te wspaniałe zbiory danych będą się tylko kurzyły. Ten rozdział odpowiada na pytania, dlaczego właśnie teraz Data Science stała się ważna, dlaczego nie jest tylko chwilową modą i dlaczego warto rozważyć jej użycie w codziennej pracy.
W drugiej części rozdziału szczegółowo wyjaśnię, czemu gwałtowny rozwój technologii nie pozwala nawet na chwilę wstrzymać badań w zakresie Data Science. Jakiekolwiek byłyby nasze obawy względem nadchodzącego świata, nie możemy przestać zbierać, przechowywać i używać danych. Niemniej nie możemy zignorować faktu, że dane jako takie nie są etyczne lub nieetyczne i że otwiera to pole do nadużyć. Ci z Was, którym kwestie etyczne leżą na sercu, mogą wziąć sprawę w swoje ręce i dołączyć do dyskusji prowadzonych przez międzynarodowe instytucje powołane w celu rozwiązywania etycznych problemów wynikających z używania danych. Temat ten jest tak wciągający, że poświęciłem mu osobny punkt rozdziału 3 – Ciemna strona sztucznej inteligencji.
PRZYSZŁOŚĆ TO DANE
Wszystko, każdy proces, każde urządzenie, wkrótce będzie sterowane danymi. To całkowicie zmieni sposób prowadzania biznesu. Przewiduję, że w ciągu 10 lat od każdego pracownika, we wszystkich firmach, będzie się oczekiwało umiejętności pracy z danymi oraz zdolności analitycznych, dzięki którym wypracuje on dodatkową wartość dla firmy. Nie tak bardzo zwariowany pomysł, jeśli wziąć pod uwagę, że teraz od wielu osób spodziewamy się umiejętności posługiwania się systemem płatności mobilnych i cyfrowym portfelem Apple Pay, który zadebiutował na rynku w roku 2014.
W rozdziale 2 wyjaśnię, że każdy aspekt naszego życia wiąże się z danymi. Dane nami kierują, a ich siła rośnie wraz z ich ilością. Chociaż technologia dopiero niedawno, jak na całą historię ludzkości, stała się ważną częścią naszego życia, dane zawsze odgrywały w nim zasadniczą rolę. Nasze DNA zawiera najbardziej podstawowe dane na nasz temat. To one nami sterują: odpowiadają za sposób, w jaki patrzymy, za kształt naszych kończyn, za budowę i działanie naszych mózgów i za zakres emocji, których doświadczamy. Jesteśmy pojemnikami na dane, chodzącymi pamięciami przenośnymi biochemicznych informacji, przekazującymi je naszym dzieciom i programującymi je mieszanką danych naszych i naszego partnera. Brak zainteresowania danymi oznacza brak zainteresowania najważniejszymi zasadami naszego istnienia.
Z tego rozdziału dowiesz się, jak dane są używane w różnych obszarach. Żeby to zilustrować, posłużyłem się przykładami bezpośrednio nawiązującymi do teorii hierarchii potrzeb Maslowa, teorii, która powinna być znana wielu studentom, przedsiębiorcom i menedżerom. Jeżeli nie znasz teorii Maslowa, nie martw się – wyjaśnię ją i jej związek z danymi w rozdziale 2.
HAMOWANIE POSTĘPU
W ostatnim rozdziale części I przyjrzę się bieżącemu stanowi badań nad sztuczną inteligencją, jej potencjalnym zastosowaniom i związanymi z nimi zagrożeniami. Rozwój sztucznej inteligencji pośrednio wpłynął na różne obszary naszego życia. Pojawiły się pytania o przyszłość specjalistów danych, jak również badaczy i praktyków, wykraczające poza obszar Data Science. Jeżeli planujesz karierę specjalisty danych, ten rozdział może dostarczyć inspiracji na zagospodarowanie nisz tak bardzo potrzebujących wykwalifikowanych fachowców.
Żeby uzupełnić przykłady z rozdziału 2, zawierającego przekonujące przykłady użycia danych w codziennym życiu, w rozdziale 3 zwracam uwagę na pięć najbardziej obiecujących zastosowań sztucznej inteligencji w biznesie. Różnorodność zastosowań sztucznej inteligencji może utrudniać ich poznanie. Ten rozdział dostarczy Ci podstawowych informacji o najważniejszych trendach użycia SI i zachodzących w nich zmianach.
Pozytywny wpływ sztucznej inteligencji jest oczywisty, ale nie powinien nas zaślepić. Dlatego w rozdziale 3 znajdziemy też informacje o zagrożeniach bezpieczeństwa wynikających z danych i ich użyciu przez sztuczną inteligencję oraz o tym, jak specjaliści danych mogą rozwiązywać takie, bieżące i przyszłe, problemy. Etyka jest fascynująca ze względu na jej wpływ na kierunki rozwoju Data Science. Na podstawie tego, co wiemy na temat metod zbierania danych i sposobów ich użycia przez maszyny i usługi online, etyka danych wyznacza obszar dialogu między ludźmi a technologią.01
DEFINICJA DANYCH
Pomyśl o ostatnim filmie, który widziałeś w kinie. Jak się o nim dowiedziałeś? Może kliknąłeś link zarekomendowany Ci przez YouTube, a może pojawił się on jako reklama wyświetlona przez YouTube przed materiałem wideo, który chciałeś zobaczyć? Może przeczytałeś recenzję opublikowaną przez znajomego na portalu społecznościowym albo zobaczyłeś intrygujący fragment filmu, który przerwał Ci czytanie wiadomości. Jeżeli jesteś miłośnikiem kina, film mógł zostać wybrany dla Ciebie przez fachowy portal jako kolejna propozycja do obejrzenia. Nawet poza zaciszem internetu mogłeś zobaczyć reklamę filmu w ulubionym czasopiśmie albo Twoją uwagę zwrócił plakat zauważony po drodze do kawiarni z najlepszym Wi-Fi.
Żaden z tych sposobów kontaktu nie był przypadkowy. Gwiazdy nie zmieniły swojego układu właśnie teraz, specjalnie po to, żebyś dowiedział się o tym filmie. Zostawmy wyidealizowane opowieści o szczęśliwych przypadkach postaciom filmowym. Do kina ściągnęła Cię nie tyle chęć zobaczenia filmu, co potężna kombinacja algorytmów analizujących dane, które wytypowały Cię jako prawdopodobnego widza _jeszcze zanim zdałeś sobie sprawę z tego, że chciałbyś obejrzeć ten film_.
Za każdym razem, gdy reagujesz na podobne zdarzenia, pozostawiasz trochę informacji o sobie. Nazywamy je „śladem danych”. Nie ogranicza się on do Twojej aktywności online i nie jest on jedynie związany z danymi udostępnionymi w mediach społecznościowych. Nieważne, czy jesteś użytkownikiem portali społecznościowych, podoba Ci się to, czy nie, jesteś źródłem danych.
Zawsze tak było – ostatnio jesteśmy po prostu lepsi w zapisywaniu i zbieraniu danych. Wszystkie Twoje codzienne działania zostawiają taki ślad. Gdy idziesz do londyńskiego metra, nagrywają Cię kamery monitoringu. Wsiadając do wagonu, wzbogacasz dane statystyczne wydziału komunikacji na temat liczby przewożonych pasażerów i godzin szczytu. Podświetlając akapit czytanej książki czy zapisując notatkę w Kindle, pomagasz sprzedawcom lepiej zrozumieć upodobania czytelników, dokładniej dopasować następne materiały promocyjne i informujesz ich, jaka cześć książki jest czytana bez przerwy.
Kiedy wreszcie zdecydujesz się porzucić wyzwania i uciążliwości transportu miejskiego i pojedziesz samochodem do supermarketu, prędkość, z jaką jedziesz, zostanie zmierzona za pomocą systemu GPS i pomoże usługodawcom poinformować ich klientów o natężeniu ruchu w tej okolicy. Ta sama informacja pozwoli komputerowi pokładowemu Twojego samochodu obliczyć dystans, który możesz jeszcze przejechać przed wizytą na stacji benzynowej.
Dzisiaj każde twoje działanie generuje dane, które po sobie pozostawiasz, a które są zbierane i dodawane do sygnatury opisującej Twoje zainteresowania, aktywności i pragnienia.
To tylko początek historii danych. Ta książka otworzy Ci oczy na ich wszechobecność. Poznasz podstawowe pojęcia potrzebne do zostania specjalistą danych oraz definicje, narzędzia i techniki, które pozwolą Ci stosować Data Science w codziennej pracy. Ta książka poszerzy Twoje horyzonty, pokazując Ci, jak można stosować Data Science w obszarach, o których nigdy wcześniej byś nie pomyślał. Pokaże, jak umiejętności pracy z danymi pomogą Ci w karierze i przekształcą Twój biznes – czy to dzięki temu, że zaimponujesz przełożonym swoimi pomysłami, czy też dzięki temu, że założysz własną firmę.
DANE SĄ WSZĘDZIE
Zanim przejdziemy dalej, powinienem wyjaśnić, co rozumiemy pod pojęciem dane. Kiedy ludzie myślą o danych, mają na myśli aktywnie zbierane dane, zapisywane w bazach działających na tajemniczych serwerach firmowych, dane, które następnie są analizowane. Tymczasem ten punkt widzenia jest już nieaktualny. Dzisiaj dane są wszechobecne.
Najprościej mówiąc, dane to jednostki informacji. Są produktem ubocznym każdej jednej akcji i przenikają wszystkie części naszego życia, nie tylko tego wirtualnego, ale również historię, pracę i kulturę. Malunki na ścianach jaskini to dane. Muzyczny akord to dane. Prędkość Twojego samochodu to dane. Bilet na mecz piłki nożnej to dane. Odpowiedź na pytanie ankiety to dane. Książka to też dane, tak samo jak jej rozdział, tak samo jak akapit rozdziału i tak samo jak litery tego akapitu. Coś nie musi być _zbierane_, żeby było danymi. Nie musimy czegoś zamykać w firmowym sejfie, żeby uznać to za dane. Większość światowych danych prawdopodobnie (jeszcze) nie trafiła do żadnej bazy danych.
Uzupełnijmy naszą definicję danych jako jednostki informacji. Dane są namacalnym _obrazem przeszłości_. To głębokie stwierdzenie, kiedy się nad nim zastanowić. Dane są przeszłością, a przeszłość to dane. Zbiór danych opisujących pewne rzeczy nazywamy bazą danych. Specjaliści danych używają ich do lepszego zrozumienia naszych przeszłych i przyszłych działań. Stosują oni tę samą zasadę, o której od dawna opowiadają nam historycy – historia jest nauczycielką życia. Możemy uczyć się na naszych sukcesach – i porażkach – żeby poprawić teraźniejszość i stworzyć lepszą przyszłość.
Jedyne, co całkowicie się zmieniło w ciągu ostatnich lat, to nasze zdolności do zbierania, modelowania, analizowania i wizualizowania danych sposobami, które ogranicza tylko nasza wyobraźnia. Gdziekolwiek idziemy, cokolwiek kupujemy, czymkolwiek się interesujemy, dane na ten temat są zbierane i modelowane w sposób pozwalający firmom marketingowym kierować reklamy do właściwych osób, rządom poznawać sympatie polityczne mieszkańców miast na podstawie ich wieku, a naukowcom tworzyć sztuczną inteligencję rozumiejącą skomplikowane emocje, ideologie i reguły etyczne, a nie tylko proste pytania.
Biorąc to wszystko pod uwagę, możesz zacząć się zastanawiać, gdzie kończy się definicja danych. Czy obserwacje cyklu kwitnienia kwiatu (dane ilościowe) zaliczymy do danych, tak samo jak wyniki badań naukowych poświęconych szokowi kulturowemu związanemu z pożegnaniem umierającego w ojczyźnie krewnego wiązanką kwiatów (dane jakościowe)? Odpowiedzią na to pytanie jest Tak. Definicja danych nie dyskryminuje. Nie ma znaczenia, czy jednostka zebranej informacji jest ilościowa, czy jakościowa. Może w przeszłości dane jakościowe były mniej przydatne, bo nie dysponowaliśmy na tyle wyrafinowaną technologią, żeby je przetwarzać. Jednak dzięki postępom w pracach nad algorytmami przetwarzania danych jakościowych to ograniczenie szybko przechodzi do historii.
Żeby znaleźć ograniczenia dla definicji danych, należy pamiętać, że dane są przeszłością. Nie mamy danych o przyszłości, chyba że uda nam się zbudować maszynę czasu. Chociaż dane nigdy nie pochodzą z przyszłości, mogą nam ją zdradzić i pomóc przewidzieć. Dokładnie ta cecha danych, czyli zdolność do uzupełniania braków w naszej wiedzy, czynią dane tak fascynującymi.
WIELKOŚĆ (DANYCH) MA ZNACZENIE
Teraz, gdy już wiemy, czym są dane, możemy zastanowić się nad tym, gdzie i jak są przechowywane. Znamy już nasze zdolności do generowania danych (ich efektem jest nasz ślad danych) i wyjaśniliśmy, że będąc jednostką informacji, termin dane ma szersze znaczenie niż to, o czym do tej pory myśleliśmy jako o danych. Skoro już je mamy, to gdzie trafiają dane?
Prawdopodobnie słyszałeś już wcześniej termin „big data”. Najprościej rzecz ujmując, zbiór danych tabelarycznych liczący tak wiele wierszy, że jego przechowywanie i przetwarzanie przez tradycyjne systemy komputerowe staje się zbyt wolne określamy dużym. Z tego powodu znaczenie terminu big data się zmienia – zbiór, który jeszcze w roku 2015 mógł być uznany za duży, nie będzie już nim w roku 2020, ponieważ w międzyczasie technologia rozwinęła się na tyle, że możemy go z łatwością przetwarzać.
Model 3V
Żeby zbiór danych uznać za duży, musi on spełnić co najmniej jeden z trzech warunków:
- wielkość (_volume_) – rozmiar zbioru danych (np. liczba wierszy) – musi być wyrażony w miliardach;
- zmienność (_velocity_) – szybkość, z jaką dane są zbierane (np. jako streaming wideo) – musi być tak duża, żeby uniemożliwiała ich przetwarzanie tradycyjnymi metodami;
- różnorodność (_variety_) – może oznaczać różnorodność typów danych, na przykład tekstów, wideo, audio i obrazów (znanych jako nieustrukturyzowane dane), albo różnorodność przechowywanych w kolumnach tabeli atrybutów – musi być duża.
Duże zbiory danych są z nami znacznie dłużej niż to sobie wyobrażamy – jedynie ich nazwa nie istniała przed latami 90. Duże zbiory danych są używane w najróżniejszych dziedzinach od wielu lat, dłużej niż przypuszczasz. Pozwól, że Ci to wyjaśnię – big data nie są niczym nowym. W żadnym razie nie są nowym pomysłem. Wiele, jeśli nie wszystkie największe światowe korporacje dysponują gigantycznymi, zbieranymi przez długie lata, zbiorami danych na temat ich klientów, produktów i świadczonych usług. Rządy zbierają dane o obywatelach, posługując się całym wachlarzem metod – od spisów powszechnych po inwigilację. Muzea przechowują dane o kulturze – od eksponatów i profili kolekcjonerów po archiwa wystaw. Nawet nasze własne ciała przechowują duży zbiór danych w postaci genomu.
Podsumowując, jeśli nie możesz pracować ze zbiorem danych, nazywasz go dużym zbiorem danych. Kiedy specjaliści danych używają tego terminu, nadają mu konkretne znacznie. Chcą podkreślić fakt, że w przypadku tego zbioru standardowe metody analizowania są niewystarczające.
Skąd to całe zamieszanie wokół dużych zbiorów danych?
Może wydać Ci się dziwne, że dopiero od niedawna zaczęliśmy zdawać sobie sprawę z potęgi ukrytej w danych. Choć dane zbieramy od wieków, czymś co w przeszłości zatrzymywało nas przed przekształceniem ich w coś użytecznego, był brak odpowiednich technologii. W sumie to nie wielkość danych ma znaczenie, ale to, co potrafimy z nimi zrobić. Dowolne dane, duże czy nie, są przydatne, o ile potrafimy wydobyć ukryte w nich informacje, a zanim zostały opracowane skalowalne technologie pomagające nam analizować i przechowywać dane, ich przydatność wyznaczały intelektualne możliwości pracującej z nimi osoby.
Tymczasem przetwarzanie dużych zbiorów danych wymaga szybszych i potężniejszych procesorów niż ludzki mózg. Przed wynalezieniem technologii XX wieku dane były przechowywane na papierze, w archiwach, bibliotekach i sejfach. Dzisiaj prawie wszystkie zbierane dane są zapisywane w postaci cyfrowej (nawet starsze dane są stopniowo konwertowane do postaci cyfrowej, co pokazuje wielkość zasobów, jakimi dysponują takie projekty digitalizacji danych jak Google Book czy Europeana).
PRZECHOWYWANIE I PRZETWARZANIE DANYCH
Wraz z nadejściem ery komputerów pojawiły się możliwości automatyzacji procesów przechowywania i przetwarzania danych. Jednak pierwsze modele komputerów nie radziły sobie z dużymi ilościami danych. Naukowcy pracujący z elektronicznymi maszynami w latach 50. ubiegłego wieku musieli godzinami czekać na wynik prostego zadania. Szybko doszli do wniosku, że jeśli chcą _prawidłowo_ przetwarzać duże zbiory danych – czyli wyszukiwać ukryte w danych wzorce i używać ich do tworzenia wiarygodnych i sensownych predykcji – potrzebują maszyn zdolnych zarówno przechowywać dane, jak i je przetwarzać. Oczywiście, rozwój technologii komputerowych szedł w parze z większymi możliwościami w zakresie przechowywania i przetwarzania danych. Pod koniec lat 70. nie tylko potrafiliśmy już znacznie efektywniej przechowywać dane, ale nauczyliśmy się również je przenosić. Te same dane, których zapisanie w latach 70. wymagałoby użycia 177 778 dyskietek, na początku XXI wieku można było zapisać na pojedynczym dysku USB. Dzisiaj możesz je zapisać, lub więcej, w Chmurze (wirtualnym centrum komputerowym dającym Ci dostęp do zapisanych w nim danych z dowolnego miejsca na świecie). Zwróć uwagę, że, gdy następnym razem uzyskasz dostęp do swoich dokumentów zapisanych na lokalnym komputerze, firmowym serwerze albo po prostu w swoim urządzeniu mobilnym, zrobisz coś, co w latach 70. wymagałoby użycia 100 000 dyskietek.
Gdy nowe technologie ułatwiły już przechowywanie danych, badacze zaczęli szukać odpowiedzi na pytanie, jak tych danych można używać.
Jak zabrać się do porządkowania chaosu? Wróćmy do przykładu ostatnio obejrzanego w kinie filmu. Prawdopodobnie nie zostałeś wytypowany jako potencjalny zainteresowany przez wnikliwego marketingowca przeglądającego Twoje dane, ale przez inteligentną maszynę, która porównała Twój ślad danych z profilem (danymi demograficznymi) osób, które najprawdopodobniej obejrzą i którym ten film się spodoba.
Takie podejście może wydawać się nowatorskie, ale jak już wiemy dane i metody ich (ręcznego) przetwarzania są z nami od dłuższego czasu. Niektóre z hollywoodzkich wytwórni filmowych zaczęły zbieranie danych w latach 50. Interesowało ich, jakie filmy publiczność chciałaby zobaczyć, zaczynając od aktorów i reżyserów, na płci kończąc. Następnie przekrojowo analizowały uzyskane dane, uwzględniając wiek, miejsce zamieszkania i płeć swoich klientów. Już w tamtych czasach ludzie podejmowali strategiczne decyzje biznesowe na podstawie tego, co wyczytali z danych.
RKO Radio Pictures
Dlaczego RKO Radio Pictures, jedna z pięciu największych wytwórni hollywoodzkich lat 50., konsekwentnie zatrudniała Katharine Hupburn do swoich produkcji? Ponieważ z danych wynikało, że z pewnością wywoła to rozmowy o jej najnowszym filmie i ostatecznie wypełnią się sale kinowe.
Oczywiście, intuicja też jest ważna. W trakcie pierwszego castingu reżyser George Cukor uznał Hupburn za dziwną, ale jedocześnie przyznał że „było coś niezwykle poruszającego w sposobie, w jaki podniosła kieliszek. Pomyślałem, że z niezwykłym talentem wykonała ten gest” (Fowless, 1992). Oto intuicja w działaniu.
Bazując na danych o upodobaniach publiczności, RKO zdecydowało się uwzględnić przeczucie Cukora na temat talentu Hupburn i zamienić je w solidne predykcje, które pozwoliły wytwórni dalej zarabiać miliony.
RKO zawdzięczała to Georgeowi Gallupowi – pierwszej osobie, która uświadomiła hollywoodzkim decydentom korzyści płynące z użycia danych do wspierania decyzji dotyczących na przykład obsady głównych ról lub wyboru takiego gatunku filmu, który gwarantowałby jego sukces.
Żeby pomóc RPO, Gallup zebrał, połączył i przeanalizował jakościowe i ilościowe dane opisujące cechy demograficzne klientów i ich opinie na temat filmów wytwórni. Zbierając te dane, Gallup utworzył model, w którym po raz pierwszy podzielił osoby na segmenty w taki sposób, żeby do każdego segmentu trafiły osoby lubiące inny gatunek filmowy. Modelu tego użył do próbkowania i analizowania zebranych danych.
Okrzyknięty jasnowidzem za to, że pomógł RPO się wzbogacić, Gallup szybko stał się ulubieńcem prezesów wielu wytwórni filmowych w całych Stanach Zjednoczonych. Dzięki ankietom i wywiadom trzymał rękę na pulsie publiczności zarówno Walta Disneya, jak i Orsona Wellesa.
Gallup swój sukces zawdzięcza wyłącznie danym (przypuszczalnie możemy go uznać za pierwszego wysokopłatnego specjalistę od danych). A jego wysiłki przyniosły rezultaty, wciąż cenne, bo pokazały możliwości tkwiące w zbieraniu nieustrukturyzowanych danych, takich jak zapisy wywiadów z publicznością odzwierciadlających kulturalne i społeczne wartości tamtych czasów. Prawdopodobnie Gallup zdawał sobie sprawę z tego, że potencjał analiz opartych na danych może tylko rosnąć.PRZYPISY
PRZYPISY
1 Duże zbiory danych często – o czym Autor wspomina w następnym podrozdziale – zawierają niestrukturyzowane dane, takie jak dokumenty. Tego typu dane zapisywane są w plikach, nie w tabelach (przyp. tłum.).
2 Dane w Chmurze są przechowywane poza siedzibą firmy i zwykle są przesyłane podmorskimi kablami komunikacyjnymi. Chmura zatem nie znajduje się w powietrzu, jak mogłoby się nam wydawać, lecz pod wodą. Mapa tych kabli jest dostępna pod adresem www.submarinecablemap.com.
3 Gallup i założony przez niego instytut statystyczny stali się sławni, gdy opracowana przez Gallupa metoda doboru kwotowego pozwoliła prawidłowo przewidzieć powtórne zwycięstwo Franklina D. Roosevelta w wyborach prezydenckich w 1936 roku.
4 Czytelników zainteresowanych pionierskimi pracami Gallupa odsyłam do Ohmer (2012).