Facebook - konwersja
Czytaj fragment
Pobierz fragment

Big Data. Krótkie Wprowadzenie 30 - ebook

Tłumacz:
Rok wydania:
2021
Format ebooka:
EPUB
Format EPUB
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najpopularniejszych formatów e-booków na świecie. Niezwykle wygodny i przyjazny czytelnikom - w przeciwieństwie do formatu PDF umożliwia skalowanie czcionki, dzięki czemu możliwe jest dopasowanie jej wielkości do kroju i rozmiarów ekranu. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
, PDF
Format PDF
czytaj
na laptopie
czytaj
na tablecie
Format e-booków, który możesz odczytywać na tablecie oraz laptopie. Pliki PDF są odczytywane również przez czytniki i smartfony, jednakze względu na komfort czytania i brak możliwości skalowania czcionki, czytanie plików PDF na tych urządzeniach może być męczące dla oczu. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
, MOBI
Format MOBI
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najczęściej wybieranych formatów wśród czytelników e-booków. Możesz go odczytać na czytniku Kindle oraz na smartfonach i tabletach po zainstalowaniu specjalnej aplikacji. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
(3w1)
Multiformat
E-booki sprzedawane w księgarni Virtualo.pl dostępne są w opcji multiformatu - kupujesz treść, nie format. Po dodaniu e-booka do koszyka i dokonaniu płatności, e-book pojawi się na Twoim koncie w Mojej Bibliotece we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu przy okładce. Uwaga: audiobooki nie są objęte opcją multiformatu.
czytaj
na laptopie
Pliki PDF zabezpieczone watermarkiem możesz odczytać na dowolnym laptopie po zainstalowaniu czytnika dokumentów PDF. Najpowszechniejszym programem, który umożliwi odczytanie pliku PDF na laptopie, jest Adobe Reader. W zależności od potrzeb, możesz zainstalować również inny program - e-booki PDF pod względem sposobu odczytywania nie różnią niczym od powszechnie stosowanych dokumentów PDF, które odczytujemy każdego dnia.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na tablecie
Aby odczytywać e-booki na swoim tablecie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. Bluefire dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na czytniku
Czytanie na e-czytniku z ekranem e-ink jest bardzo wygodne i nie męczy wzroku. Pliki przystosowane do odczytywania na czytnikach to przede wszystkim EPUB (ten format możesz odczytać m.in. na czytnikach PocketBook) i MOBI (ten fromat możesz odczytać m.in. na czytnikach Kindle).
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na smartfonie
Aby odczytywać e-booki na swoim smartfonie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. iBooks dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
Czytaj fragment
Pobierz fragment
27,90

Big Data. Krótkie Wprowadzenie 30 - ebook

KRÓTKIE WPROWADZENIE

- książki, które zmieniają sposób myślenia!

Big data pokazuje, jak postęp technologiczny spowodowany rozwojem Internetu i cyfrowego wszechświata wpłynął na radykalną transformację nauki o danych. Czym są duże zbiory danych i jak zmieniają świat? Jaki mają wpływ na nasze codzienne życie, a jaki na świat biznesu? W tej książce czytelnik znajdzie odpowiedzi na te pytania.

Interdyscyplinarna seria KRÓTKIE WPROWADZENIE piórem uznanych ekspertów skupionych wokół Uniwersytetu Oksfordzkiego przybliża aktualną wiedzę na temat współczesnego świata i pomaga go zrozumieć. W atrakcyjny sposób prezentuje najważniejsze zagadnienia XXI w. – od kultury, religii, historii przez nauki przyrodnicze po technikę. To publikacje popularnonaukowe, które w formule przystępnej, dalekiej od akademickiego wykładu, prezentują wybrane kwestie.

Książki idealne zarówno jako wprowadzenie do nowych tematów, jak i uzupełnienie wiedzy o tym, co nas pasjonuje. Najnowsze fakty, analizy ekspertów, błyskotliwe interpretacje.

Opiekę merytoryczną nad polską edycją serii sprawują naukowcy z Uniwersytetu Łódzkiego: prof. Krystyna Kujawińska Courtney, prof. Ewa Gajewska, prof. Aneta Pawłowska, prof. Jerzy Gajdka, prof. Piotr Stalmaszczyk.

Spis treści

Spis ilustracji

Przedmowa

Podziękowania

1. Eksplozja danych

2. Dlaczego duże zbiory danych są ważne?

3. Przechowywanie dużych zbiorów danych

4. Analityka dużych zbiorów danych

5. Duże zbiory danych i medycyna

6. Duże zbiory danych, duży biznes

7. Bezpieczeństwo dużych zbiorów danych i przypadek Snowdena

8. Duże zbiory danych i społeczeństwo

Tabela wielkości bajtowych

Tabela kodów ASCII dla małych liter alfabetu

Lektura uzupełniająca

Indeks

Kategoria: Bazy danych
Zabezpieczenie: Watermark
Watermark
Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN: 978-83-8220-062-1
Rozmiar pliku: 1,5 MB

FRAGMENT KSIĄŻKI

Spis treści

Spis ilustracji

Przedmowa

Podziękowania

1. Eksplozja danych

2. Dlaczego duże zbiory danych są ważne?

3. Przechowywanie dużych zbiorów danych

4. Analityka dużych zbiorów danych

5. Duże zbiory danych i medycyna

6. Duże zbiory danych, duży biznes

7. Bezpieczeństwo dużych zbiorów danych i przypadek Snowdena

8. Duże zbiory danych i społeczeństwo

Tabela wielkości bajtowych

Tabela kodów ASCII dla małych liter alfabetu

Lektura uzupełniająca

IndeksSpis ilustracji

1. Diagram grupowania

2. Zestaw danych dotyczących oszustw ze znanymi klasyfikacjami

3. Drzewo decyzyjne dla transakcji

4. Uproszczony widok klastra Hadoop HFS

5. Baza danych klucz-wartość

6. Grafowe bazy danych

7. Zakodowany ciąg znaków

8. Drzewo binarne

9. Drzewo binarne z nowym wierzchołkiem

10. Kompletne drzewo binarne

11. Funkcja map

12. Funkcje mieszająca i redukująca

13. 10-bitowa tablica

14. Podsumowanie wyników funkcji mieszającej

15. Filtr Blooma dla złośliwych adresów e-mail

16. Graf skierowany reprezentujący niewielką część sieci

17. Graf skierowany reprezentujący niewielką część sieci z dodanym linkiem

18. Głosy oddane na każdą stronę

19. Książki zakupione przez Smitha, Jonesa i Browna

20. Indeks i odległość Jaccarda

21. Ranking gwiazdek za zakupyPrzedmowa

Książki poświęcone dużym zbiorom danych1 można podzielić na dwie kategorie: takie, które nie wyjaśniają kwestii, czym są duże zbiory danych, i takie, które wymagając usystematyzowanej wiedzy matematycznej, przeznaczone są tylko dla zaawansowanych studentów. Celem tej książki jest przedstawienie innego podejścia do kwestii, czym są duże zbiory danych i jak zmieniają świat; jaki wpływ mają na nasze codzienne życie, jak i na świat biznesu.

Kiedyś przez dane rozumiano kartki papieru, dokumenty, czasem zdjęcia, ale dzisiaj to coś znacznie więcej. Sieci społecznościowe generują duże ilości danych w formie obrazów, zdjęć i filmów. Zakupy przez Internet generują dane, kiedy podajemy nasz adres mailowy czy numer karty kredytowej. Jesteśmy w takim momencie historii, w którym gromadzenie i przechowywanie danych wzrasta w tempie niewyobrażalnym w stosunku do wcześniejszych dziesięcioleci i, jak zobaczymy dalej, nowe techniki analizy danych przekształcają je w użyteczne informacje. Podczas pisania tej książki odkryłam, że duże zbiory danych nie mogą być omawiane bez częstego odwołania się do tego, skąd pochodzą, co przechowują, a także bez ich analizy i użycia przez duże komercyjne firmy. Ponieważ w ośrodkach badawczych takich firm jak Google czy Amazon rozwijały się technologie związane z dużymi zbiorami danych, często będę się do nich odwoływała.

Pierwszy rozdział ogólnie zapoznaje czytelnika z różnorodnością danych, zanim będzie wyjaśnione, jak era cyfrowa doprowadziła do zmian w sposobie ich definiowania. Pojęcie dużych zbiorów danych wprowadzone jest nieformalnie przez ideę eksplozji danych, która obejmuje informatykę, statystykę i ich wzajemne powiązania. W rozdziałach od drugiego do czwartego wielokrotnie używam diagramów, które pozwalają wyjaśnić niektóre nowe metody wymagane w dużych zbiorach danych. Drugi rozdział poszukuje tego, co czyni duże zbiory danych wyjątkowymi, doprowadzając nas do lepszej definicji tego pojęcia. W rozdziale trzecim analizujemy kwestie związane z przechowywaniem i zarządzaniem dużymi zbiorami danych. Większości z nas znana jest konieczność robienia kopii zapasowych na osobistym komputerze. Ale jak tego dokonać w przypadku olbrzymiej ilości danych, które są obecnie generowane? Żeby odpowiedzieć na to pytanie, przyjrzymy się przechowywaniu danych i idei ich rozdzielenia pomiędzy grupy komputerów. Rozdział czwarty pokazuje, że duże zbiory danych są użyteczne tylko wtedy, gdy możemy wydobyć z nich istotne dla nas informacje. Zarys tego, jak dane przekształcane są w użyteczne informacje, podany jest z wykorzystaniem uproszczonych opisów kilku dobrze znanych technik.

Następnie przechodzimy do bardziej szczegółowych dyskusji na temat wykorzystania dużych zbiorów danych, rozpoczynając w rozdziale piątym od ich roli w medycynie. Rozdział szósty wyjaśnia praktyki biznesowe z analizą przypadków firm Amazon i Netflix, za każdym razem podkreślając różne cechy marketingu opartego na dużych zbiorach danych. W rozdziale siódmym przyglądamy się pewnym problemom związanym z bezpieczeństwem dużych zbiorów danych i ważności (konieczności) ich szyfrowania. Kradzież danych staje się dużym problemem i w tym miejscu przyjrzymy się niektórym znanym medialnie wydarzeniom, takim jak przypadek Snowdena i historia WikiLeaks. Na zakończenie rozdziału pokazano, w jaki sposób cyberprzestępczość stanowi problem wymagający brania pod uwagę w przypadku dużych zbiorów danych. W rozdziale ósmym rozważamy, jak duże zbiory danych zmieniają społeczeństwo, w którym żyjemy, poprzez rozwój zaawansowanych technologicznie robotów i ich roli w środowisku pracy. Książka kończy się rozważaniami dotyczącymi inteligentnych domów i miast przyszłości.

W krótkim wprowadzeniu nie jest możliwe poruszenie wszystkich zagadnień, mam więc nadzieję, że czytelnik będzie pogłębiał swoją wiedzę w oparciu o polecane na zakończeniu w części Lektura uzupełniająca materiały.Podziękowania

Kiedy wspomniałam Peterowi, że chciałam podziękować za jego wkład w powstanie tej książki, zasugerował, abym napisała: „Dziękuję Peterowi Harperowi, bez którego wkładu w sprawdzenie pisowni książki byłaby to zupełnie inna książka”. Dodatkowo chciałabym podziękować mu za wiedzę w zakresie parzenia kawy oraz poczucie humoru! Wsparcie Petera jest nieocenione, zrobił dużo, dużo więcej i prawdą jest to, że bez jego nieustającej zachęty i konstruktywnego wkładu ta książka nie zostałaby napisana.

Dawn E. Holmes

kwiecień 2017 r.Rozdział 1

Eksplozja danych

Czym są dane?

W 431 r. p.n.e. Sparta wypowiedziała wojnę Atenom. Tukidydes w swoim opisie wojny wyjaśnia, jak oblężone siły platejskie, lojalne w stosunku do Aten, planowały ucieczkę. Cel ten chciano osiągnąć, wspinając się i przechodząc przez mur otaczający Plateje, który został zbudowany przez siły peloponeskie kierowane przez Spartan. Aby to zrobić, potrzebowali wiedzieć, jak wysoki jest mur, po to, żeby skonstruować odpowiedniej wysokości drabiny. Większość muru peloponeskiego była pokryta chropowatym tynkiem z drobnych kamieni, ale znaleziono fragment, gdzie cegły były wyraźnie widoczne. W związku z tym dużej liczbie żołnierzy przydzielono zadanie liczenia warstw odsłoniętych cegieł w murze. Obliczenia były prowadzone w bezpiecznej, ale znacznej odległości od wroga, co wpływało na błędy rachunkowe, ale – jak wyjaśnia Tukidydes – biorąc pod uwagę, że wykonano wiele prób obliczeń, rezultat, który pojawiał się najczęściej, przyjęto za prawidłowy. Najczęściej pojawiający się wynik, który teraz nazwalibyśmy dominantą, został później użyty do obliczenia wysokości muru. Znając wymiary cegieł używanych w tym rejonie, platejanie byli w stanie skonstruować drabiny o wymaganej wysokości muru. To umożliwiło ucieczkę kilkuset ludziom, a ten epizod można uznać za najbardziej imponujący historyczny przykład pozyskiwania i analizy danych. Ale, jak zobaczymy dalej, pozyskiwanie, przechowywanie i analiza danych poprzedzała o stulecia nawet czasy Tukidydesa.

Na patykach, kamieniach i kościach odnalezione zostały nacięcia, które sięgają czasów górnego paleolitu. Choć nadal jest to przedmiotem dyskusji akademickiej, to nacięcia te uważane są za przykład danych reprezentujących liczby2. Być może najsłynniejszym tego przykładem jest kość z Ishango znaleziona w Demokratycznej Republice Konga w 1950 r., której wiek szacuje się na ok. 20 000 lat. Nacięcia te były różnie interpretowane, np. jako kalkulator czy kalendarz, choć są również opinie, że służyły do lepszego chwytania. Kość z Lebombo odkryta w latach 70. XX w. w Suazi jest jeszcze starsza i pochodzi z ok. 35 000 r. p.n.e. Z 29 nacięciami w poprzek ten fragment kości strzałkowej pawiana jest uderzająco podobny do kalendarzy umieszczanych na patykach przez Buszmenów w odległej Namibii, co sugeruje, że w rzeczywistości może to być metoda wykorzystywana do zapisu danych ważnych dla ich cywilizacji.

Podczas gdy interpretacja tych naciętych kości jest wciąż przedmiotem spekulacji, wiemy, że jednym z pierwszych dobrze udokumentowanych zastosowań danych jest spis ludności przeprowadzony przez Babilończyków w 3800 r. p.n.e. Ten spis powszechny systematycznie dokumentował liczbę ludności i towarów, takich jak mleko i miód, w celu zapewnienia informacji niezbędnych do obliczenia podatków. Pierwsi Egipcjanie również używali danych w postaci hieroglifów zapisanych na drewnie lub papirusie, w celu notowania dostaw towarów i śledzenia podatków. Wczesne przykłady używania danych w żadnym wypadku nie ograniczają się do Europy i Afryki. Inkowie i ich południowoamerykańscy poprzednicy, prowadząc statystyki do celów podatkowych i handlowych, używali zaawansowanego i złożonego systemu kolorowych sznurków wiązanych w supły, zwanych quipu, jako systemu obliczeń dziesiętnych. Te wiązane sznurki wykonane z jaskrawo barwionej bawełny lub wełny wielbłąda, pochodzą z trzeciego tysiąclecia przed naszą erą, i chociaż mniej niż tysiąc z nich przetrwało hiszpańską inwazję i późniejsze próby pozbycia się ich, należą do pierwszych znanych przykładów systemu do przechowywania dużych zbiorów danych. Obecnie opracowywane są algorytmy komputerowe w celu odkodowania pełnego znaczenia quipu i lepszego zrozumienia tego, w jaki sposób były wykorzystywane.

Pomimo że opisujemy te wczesne systemy liczbowe, używając słowa „dane”, jest ono w zasadzie wyrazem liczby mnogiej pochodzenia łacińskiego, gdzie liczbą pojedynczą jest słowo „datum”. „Datum” jest obecnie rzadko używanym słowem, a słowo „dane” (ang. data) jest używane zarówno w liczbie pojedynczej, jak i mnogiej3. Słownik oksfordzki przypisuje pierwsze znane użycie tego terminu XVII-wiecznemu angielskiemu duchownemu Henry’emu Hammondowi w kontrowersyjnym traktacie religijnym opublikowanym w 1648 r. Hammond użył w nim pojęcia „sterta danych” w znaczeniu teologicznym w nawiązaniu do niepodważalnych prawd religijnych. Ale chociaż ta publikacja wyróżnia się jako ta, która po raz pierwszy wprowadza użycie terminu „dane” w języku angielskim, nie posługuje się nim w nowoczesnym znaczeniu dla oznaczenia faktów i liczb dotyczących interesującej nas populacji. W dzisiejszym rozumieniu termin „dane” wywodzi się z rewolucji naukowej z XVIII w. reprezentowanego przez geniuszy, takich jak Priestley, Newton i Lavoisier. Po 1809 r. pojawiły się prace matematyków, takich jak Gauss i Laplace, którzy dali podwaliny pod współczesną metodologię statystyczną.

Na poziomie bardziej praktycznym dużą ilość danych zebrano w 1854 r. podczas wybuchu epidemii cholery na Broad Street w Londynie, co pozwoliło lekarzowi Johnowi Snowowi na zobrazowanie rozwoju epidemii. W ten sposób był w stanie poprzeć swoją hipotezę, że zanieczyszczona woda rozprzestrzeniała chorobę, co pozwoliło mu udowodnić, że to nie powietrze było przyczyną epidemii, jak wcześniej sądzono. Zbierając dane od lokalnych mieszkańców, ustalił, że wszyscy poszkodowani używają tej samej publicznej pompy wodnej. Następnie przekonał władze miejscowej parafii do jej unieruchomienia, przy czym cel ten osiągnięto poprzez usunięcie uchwytu pompy. Później Snow stworzył mapę pokazującą, że epidemia pojawiła się w skupiskach wokół pompy Broad Street. Kontynuował pracę w tej dziedzinie, zbierając i analizując dane, dzięki czemu obecnie jest znany jako pionier epidemiologii.

Kontynuując pracę Johna Snowa, epidemiolodzy i badacze społeczni coraz częściej uważają dane demograficzne za nieocenione źródło celów badawczych, a przeprowadzony obecnie w wielu krajach spis ludności pokazuje, że jest to cenne źródło informacji. Obecnie gromadzone są np. dane dotyczące urodzeń i zgonów, częstotliwości występowania różnych chorób i statystyki dotyczące dochodów i przestępstw, co nie było stosowane przed XIX w. Spis powszechny, który w większości krajów odbywa się co dziesięć lat, gromadzi coraz większe ilości danych, co doprowadza do sytuacji, w której ilość przetwarzanych danych przekracza możliwości ich rejestracji – ręcznej, prowadzonej za pomocą prostych maszyn liczących używanych wcześniej. Wyzwanie stojące przed przetwarzaniem tych stale rosnących ilości danych spisu powszechnego zostało w pewnym stopniu podjęte przez Hermana Holleritha podczas jego pracy w amerykańskim biurze do spraw spisu ludności.

Do momentu spisu powszechnego w Stanach Zjednoczonych w 1870 r. używano prostej maszyny liczącej, która w niewielkim stopniu ułatwiała pracę biura. Przełom nastąpił w czasie spisu powszechnego w 1890 r., kiedy użyto maszyny analityczno-liczącej4 Hermana Holleritha do przechowywania i przetwarzania danych. Na przetworzenie danych ze spisu powszechnego w Stanach Zjednoczonych potrzebowano zwykle ok. ośmiu lat, natomiast użycie tego wynalazku skróciło czas do jednego roku. Maszyna Holleritha zrewolucjonizowała analizę spisu powszechnego w krajach na całym świecie, w tym w Niemczech, Rosji, Norwegii i na Kubie.

W końcu Hollerith sprzedał swoją maszynę firmie, która przekształciła się w IBM. W konsekwencji maszyna ta została udoskonalona i zaczęto sprzedawać ją na szeroką skalę. W 1969 r. American National Standards Institute (ANSI) ustandaryzował format karty kodów Holleritha (Hollerith Card Code), uznając jego wkład w powstanie karty perforowanej.------------------------------------------------------------------------

1 Takie zbiory przyjęło się nazywać w literaturze anglojęzycznej terminem „big data”, do czego nawiązuje tytuł niniejszej książki. W niektórych miejscach będziemy się tym terminem posługiwali, myśląc o „dużych zbiorach danych” .

2 Zapisywane w postaci tzw. unarnego systemu liczbowego (ang. telly marks), czyli systemu, gdzie wartość liczbową literału otrzymujemy przez zsumowanie ilości wystąpień powtarzającego się symbolu.

3 W języku angielskim często pisze się „data is”, co na język polski należałoby przetłumaczyć „dane jest”, a nie „dane są”. Poprawnie powinno być „datum is” lub „data are”. W tym przypadku jednak rzeczownik „data” używany jest jako tzw. rzeczownik zbiorowy (ang. mass noun) podobnie jak piasek czy deszcz, tzn. powiemy „dużo piasku”, a nie „dużo piasków”.

4 W oryginale: „punched cards tabulator”, czyli maszyna analityczno-licząca wykorzystująca karty dziurkowane.
mniej..

BESTSELLERY

Kategorie: