Statystyka matematyczna - ebook

Przemysław Grzegorzewski

Wydawnictwo:

Wydawnictwo Naukowe PWN

Format:

EPUB

Data wydania:

27 czerwca 2024

CENA VIRTUALO

71,40 zł

84,00 zł

7140 pkt

punktów Virtualo

Statystyka matematyczna - ebook

Wydawnictwo Naukowe PWN ma zaszczyt zaprezentować Państwu najnowszą propozycję wydawniczą z zakresu matematyki, dotyczącą niezwykle ważnej i uniwersalnej wobec wielorakich zastosowań jej dziedziny – statystyki matematycznej. Publikacja o tym właśnie tytule: STATYSTYKA MATEMATYCZNA powstała ze względu na brak aktualnego całościowo podejmującego temat podręcznika stricte do tego przedmiotu i jest efektem wieloletnich wykładów na Wydziale Matematyki i Nauk Informacyjnych Politechniki Warszawskiej, prowadzonych przez Autora tej książki – prof. dra hab. Przemysława Grzegorzewskiego. Celem Autora książki przy jej pisaniu była dbałość o równowagę między rozważaniami teoretycznymi i treściami o charakterze bardziej praktycznym i aplikacyjnym, jak również o to, by precyzja wywodu nie czyniła wykładu nazbyt hermetycznym, lecz by równolegle z przekazem formalnym pobudzać i rozwijać właściwą intuicję u odbiorców. Na rynku księgarskim zdecydowanie brakuje nieco bardziej zaawansowanego kursu, który zainteresowałby matematyków, informatyków, analityków danych i tych wszystkich, którzy chcieliby poznać podstawy matematyczne tej dziedziny, zrozumieć uwarunkowania i ograniczenia metod wnioskowania oraz podjąć trud dalszego rozwijania metod statystycznych. STATYSTYKA MATEMATYCZNA została pomyślana jako podręcznik akademicki dla studentów wydziałów nauk ścisłych uniwersytetów (matematyka, informatyka, fizyka, chemia – przykładowe przedmioty: statystyka, statystyka matematyczna, statystyka i analiza danych), ale także dla studentów politechnik oraz doktorantów wspomnianych uczelni i instytutów naukowych.

Kategoria:	Matematyka
Język:	Polski
Zabezpieczenie:	Watermark Watermark Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN:	978-83-01-23723-3
Rozmiar pliku:	22 MB
Użytkowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Drukowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Kopiowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.

SŁOWO WSTĘPNE

Niniejszy podręcznik statystyki matematycznej jest rozszerzoną wersją notatek do wykładów o tym samym tytule, które od wielu lat prowadzę na Wydziale Matematyki i Nauk Informacyjnych Politechniki Warszawskiej. Podręcznik ten jest też swoistym wyrazem reflekcji dokonanej podczas trwającej już od przeszło trzydziestu lat prywatnej wędrówki przez fascynującą krainę statystyki, która nie przestaje mnie wciąż zadziwiać i zachwycać, w której nieustannie czegoś się uczę i która zawsze stawia więcej pytań niż daje odpowiedzi.

Statystyka odgrywa doniosłą rolę we współczesnej nauce i życiu codziennym. Świadectwem tego jest bogata literatura przedmiotu zawierająca, w szczególności, wiele ciekawych podręczników i monografii. Podczas studiów towarzyszyły mi znakomite pozycje polskich autorów: Bartoszewicza , Fisza , Krzyśki i Zielińskiego , jak i klasyczne książki Bickela i Doksuma , Fergusona , Mooda i in. , Rohatgiego czy Wilksa . Ostatnie lata przyniosły również killka godnych uwagi podręczników, by wspomnieć choćby książki Koronackiego i Mielniczuka czy Magiery , które ukazały się na rynku krajowym, jak i Caselli i Bergera , Devore’a i Berka , Shao , Wackerly’ego i in. oraz Wassermana , napisane w języku angielskim. Ktoś mógłby więc zapytać o zasadność przygotowania kolejnego opracowania, zwłaszcza że ma ono charakter wprowadzenia do wnioskowania statystycznego.

Wydaje mi się, że powodów, dla których warto wciąż na nowo podejmować refleksję nad zagadnieniami podstawowymi danej dyscypliny, jest wiele i to właśnie one skłaniają kolejnych autorów, w tym piszącego te słowa, do wysiłku mającego na celu przedłożenie Czytelnikom nowej syntezy przedmiotu. Bo choć matematycy (w przeciwieństwie do reprezentantów wielu innych dyscyplin) mają ten komfort, że używają pojęć, które jeśli zostały poprawnie zdefiniowane, to mimo upływu czasu nie deaktualizują się, oraz twierdzeń, które raz udowodnione nie tracą swej prawdziwości, to jednak nieustające zmiany w otaczającym nas świecie oraz nowe odkrycia i wyzwania stawiają ich również w odmiennym położeniu. Tym samym kolejne pokolenia startują z innego punktu niż ich poprzednicy, a z kolei ci, co już dłuższy czas wędrują przez życie, niosą coraz to większy bagaż doświadczeń otwierający przed nimi nowe perspektywy, których być może wcześniej nie dostrzegali, albo też które dawniej nie były dostępne. Przykładowo, dynamiczny rozwój nauk informacyjnych, powszechny dostęp do szybkich komputerów i znaczące zwiększenie mocy obliczeniowych umożliwiły prowadzenie badań symulacyjnych i zaowocowały w statystyce nowymi metodami, choćby takimi jak bootstrap.

Statystyka zawsze rozwijała się w interakcji z innymi dyscyplinami naukowymi i zastosowaniami praktycznymi. Postęp naukowy i technologiczny, jaki przyniosło ostatnich kilkadziesiąt lat, sprawił, że do statystyków kierowane są nowe pytania. Do wyzwań płynących z obszarów tradycyjnie kojarzonych z zastosowaniami statystyki, jak fizyka, chemia i astronomia, demografia, ekonomia i finanse, technika i wytwarzanie, biologia, nauki rolnicze, medycyna, farmacja, epidemiologia, genetyka itd., doszły kolejne kierunki współpracy jak choćby informatyka i telekomunikacja, bezpieczeństwo, nauki polityczne i prawne, zarządzanie i marketing, psychologia, socjologia, edukacja, klimatologia i ekologia, literatura i językoznawstwo, sport, sztuka. Tak zróżnicowane obszary badawcze wnoszą do statystyki potrzebę eksploracji nowych typów, form i struktur danych oraz źródeł informacji – nie tylko liczb rzeczywistych czy wektorów, ale też funkcji i powierzchni, nieustrukturyzowanego tekstu, języka naturalnego, dźwięku, obrazu, nastroju respondenta itd. Do tego dochodzi potrzeba godzenia różnych rodzajów niepewności i radzenia sobie np. z brakami danych, nieprecyzyjnością, zmiennością zjawisk w czasie, subiektywizmem ocen, sprzecznymi informacjami itd. Wymaga to dostarczania kolejnym rocznikom studentów, doktorantów i wszystkich zainteresowanych podręczników, które oprócz kanonu wiedzy dziedzinowej i podstawowych narzędzi analitycznych dadzą im zaktualizowaną wizję dyscypliny i pobudzą wyobraźnię, tak aby mogli kontynuować dalsze pogłębione studia, ukierunkowane, być może, na określoną tematykę badawczą czy potrzeby praktyczne.

Do wspomnianych wyżej obiektywnych przesłanek dodajmy i te, które mają charakter subiektywny, jak choćby indywidualne zainteresowania i doświadczenia poszczególnych autorów, skłaniające ich do bardziej wnikliwego ujęcia danej tematyki lub choćby nieco innego rozłożenia akcentów. To zaś sprawia, że zgłębianie podręczników napisanych przez różnych autorów rozpościera przed Czytelnikiem szerszą panoramę i jest zdecydowanie wzbogacające.

Korzystając zatem z przysługującego autorowi prawa do podzielenia się z Czytelnikiem własną wizją przedmiotu, zrezygnowałem z zamieszczania w niniejszym podręczniku rozdziałów wstępnych zawierających przypomnienie wiadomości z rachunku prawdopodobieństwa, niezbędnych do zrozumienia dalszego wykładu, redukując je do zwięzłego dodatku (por. Aneks A). Przyjąłem domyślnie, że Czytelnik taką wiedzę posiada, a ewentualne wątpliwości czy braki uzupełni, sięgając samodzielnie do bogatej literatury z probabilistyki. Zrezygnowałem również z rozdziału poświęconego statystyce opisowej, która choć odgrywa ważną rolę w praktyce analizy danych, nie wchodzi w zakres statystyki matematycznej. Po rozdziale wprowadzającym (rozdz. 1) przedstawiłem podstawy matematyczne wnioskowania statystycznego wraz z uzasadnieniem jego skuteczności i omówieniem kwestii możliwej redukcji danych (rozdz. 2). W dalszej części rozważań skupiłem się na głównych ideach teorii estymacji (rozdz. 3) oraz praktycznych metodach wyznaczania estymatorów punktowych (rozdz. 4 i 5) i przedziałowych (rozdz. 6). Następnie przedstawiłem podstawy teorii weryfikacji hipotez wraz z metodami konstrukcji testów statystycznych (rozdz. 7) oraz omówiłem kilka rodzin testów używanych często w praktycznych zastosowaniach (rozdz. 8). Starałem się przy tym wskazywać Czytelnikom różne perspektywy, z jakich można spojrzeć na dane zagadnienie wnioskowania statystycznego – czy to estymacji, czy weryfikacji hipotez. Stąd też oprócz klasycznego i wciąż dominującego w statystyce podejścia częstościowego, odwoływałem się do ujęcia bayesowskiego, a wiedzę o tradycyjnie stosowanych narzędziach uzupełniałem informacjami o takich, które bazują na nieco nowszych pomysłach, jak choćby algorytm EM czy bootstrap i jackknife. Każdy rozdział kończy się zestawem zadań pozostawionych Czytelnikowi do samodzielnego rozwiązania. Tych, którym by one nie wystarczyły, odsyłam do zbiorów zadań, np. . Zachęcam również do sięgnięcia po zadania zamieszczone w innych, wspomnianych wyżej podręcznikach do statystyki matematycznej.

W swoim wykładzie starałem się łączyć precyzję matematyczną z troską o przedstawienie przekonującej interpretacji wprowadzanych pojęć i uzyskiwanych wyników. Jestem przekonany, że w przypadku studiowania statystyki matematycznej jest to niezwykle ważne, mając zwłaszcza na myśli ewentualny kontakt ze specjalistami i praktykami reprezentującymi inne dziedziny, z którymi statystyk musi nawiązać dialog stanowiący niezbędny warunek owocnej współpracy. Ocenę tego, na ile ta koncepcja wykładu okazała się interesująca pozostawiam Czytelnikom.

Na zakończenie chciałbym podziękować moim Mistrzom, którzy wprowadzili mnie w piękny i ciekawy świat statystyki: profesorowi Ryszardowi Zielińskiemu (1932–2012), profesorowi Jarosławowi Bartoszewiczowi (1935–2013) i profesorowi Mirosławowi Krzyśce. Dziękuję współpracownikom z Wydziału Matematyki i Nauk Informacyjnych Politechniki Warszawskiej i z Instytutu Badań Systemowych Polskiej Akademii Nauk oraz moim studentom i doktorantom za nieustanną inspirację. Dziękuję koleżankom i kolegom tworzącym środowisko konferencji _Statystyka matematyczna_ (zwanej przez bywalców „Konferencją w Wiśle”), od których się wiele nauczyłem. Dziękuję przyjaciołom i znajomym za dyskusje i współpracę oraz moim bliskim za codzienne wsparcie. Słowa podziękowania kieruję również do Wydawnictwa PWN za pomoc w przygotowaniu niniejszego podręcznika.

Przemysław Grzegorzewski
Warszawa, 23 lutego 2024 r.1.1. Nowy paradygmat

Genezą rozwoju wiedzy i nauki była chęć zaspokojenia różnorodnych potrzeb życiowych oraz ciekawość otaczającej rzeczywistości. Ich dzisiejszy stan jest owocem skumulowanego wysiłku osób prowadzących rozważania i spekulacje inspirowane obserwacjami pochodzącymi ze świata rzeczywistego jak i dorobkiem minionych pokoleń. Z upływem lat nauka ewoluowała, przeżywając okresy wzrostu i stangacji.

Pierwotnie dominował w niej aspekt eksperymentalny, a celem nauki było głównie opisywanie zjawisk naturalnych. Kilkaset lat temu rozpoczął się okres dynamicznego rozwoju nauk teoretycznych, osławiony epokowymi odkryciami praw Keplera, zasad dynamiki Newtona, równań Maxwella itp. Nastała era budowania i posługiwania się modelami oraz tworzenia ich kolejnych uogólnienień. Z czasem okazało się, że w przypadku wielu zagadnień modele teoretyczne są zbyt skomplikowane, aby wszystkie rozważane w ich ramach problemy dało się rozwiązać analitycznie. Sytuacja ta zaowocowała rozwojem metod obliczeniowych oraz bardziej czy mniej wyrafinowanych symulacji złożonych zjawisk.

Zarysowane wyżej etapy w dziejach nauki odpowiadają trzem PARADYGMATOM NAUKOWYM (por. tabela 1.1 ). Pojęcie to wprowadził do filozofii nauki amerykański fizyk, historyk i filozof Thomas Kuhn (1922–1966). W swej książce _Struktura rewolucji naukowych_ zdefiniował paradygmat naukowy jako powszechnie uznawane osiągnięcia naukowe, które przez pewien czas dostarczają modelowych problemów i rozwiązań społeczności praktyków. Paradygmat określa filozoficzne i teoretyczne ramy szkoły lub dyscypliny naukowej, w których formułowane są teorie, prawa i uogólnienia oraz eksperymenty przeprowadzane na ich poparcie, stanowiąc akceptowany sposób badania świata i syntezy wiedzy, wspólnej dla znacznej części badaczy danej dyscypliny w danym momencie.

Jednakże co pewien czas pojawiają się odkrycia podważające przyjęte teorie oraz nowe koncepcje intelektualne kolidujące z dotychczasową refleksją. Przykładem może być teoria ewolucji Darwina, która radykalnie zmieniła myślenie w naukach biologicznych. Dochodzą do tego sytuacje, w których okazuje się, że za pomocą dotychczasowych osiągnięć nauki nie jesteśmyw stanie wyjaśnić konkretnych zjawisk ani odpowiedzieć na kluczowe pytania, co wymaga sformułowania nowych idei. Wówczas, według Kuhna, może nastąpić zmiana paradygmatu.

W 2007 roku Jim Gray analizując ewolucję nauki przez pryzmat form danych i rozwoju metod analitycznych, stwierdził, iż nauka wkroczyła w czwarty paradygmat oparty na rosnącej dostępności Big Data i związanych w tym nowych metod eksploracji danych i wnioskowania (por. tabela 1.1 ). Jak zauważył, dzisiejsi astronomowie tak naprawdę „nie patrzą przez teleskopy”. Dane są coraz częściej rejestrowane przez różnego rodzaju czujniki i złożoną aparaturę badawczą lub generowane przez odpowiednie symulatory, a następnie przetwarzane przez specjalistyczne oprogramowanie, tak by wydobyte z nich informacje mogły być przechowywane we właściwych repozytoriach. Naukowcy zaś mają okazję przyjrzeć się swoim danym dopiero na dość późnym etapie tego procesu, de facto analizując bazy danych i zawarte w nich pliki za pomocą odpowiednich narzędzi zarządzania danymi i statystyki (por. ).

Gdyby Gray przedstawiał swoją wizję czwartego paradygmatu badawczego dzisiaj, posłużyłby się, być może, coraz powszechniej używanym terminem DATA SCIENCE, określającym nowe interdyscyplinarne podejście łączące statystykę i informatykę z konkretną wiedzą dziedzinową.

Nietrudno zauważyć, że po każdej kolejnej zmianie paradygmatu zwiększało się znaczenie statystyki w nauce. Ostatnia zmiana umiejscowiła ją wręcz w centralnym punkcie zmagań naukowych. I choć niektórzy umniejszają znaczenie statystyki, postrzegając analizę danych niemal wyłącznie z perspektywy „nowego empiryzmu” (por. ), warto pamiętać o słowach wypowiedzianych przez Johna Tukeya, iż samo „połączenie danych z palącym pragnieniem uzyskania odpowiedzi nie gwarantuje jeszcze, że jakąkolwiek rozsądną odpowiedź da się z danego zbioru danych wydobyć” (por. ). A może zdarzyć się i tak, że choć dysponujemy 1000 gigabajtów danych, to do udzielenia odpowiedzi na nurtujące nas pytanie wystarczy tylko kilka kilobajtów. Słowem kluczowym określenia „Data Science” nie są bowiem dane („Data”), lecz nauka („Science”), a tym, co owe dwa wyrazy łączy jest właśnie statystyka.

PARADYGMAT DOMINUJĄCY ASPEKT DOMINUJĄCA FORMA OKRES
------------ ------------------------------ ------------------------------------- --------------------------------------
Pierwszy eksperymentalny opisywanie zjawisk naturalnych przed renesansem(przed 1600 r.)
Drugi teoretyczny konstrukcja modelii ich uogólnianie przed erą komputerów (przed 1950 r.)
Trzeci obliczeniowy symulowaniezłożonych procesów przed erą BigData
Czwarty intensywnaeksploracja danych eksploracja danychi statystyka obecnie

: TABELA 1.1. Paradygmaty naukowe (źródło: )1.2. Nieco historii

Opowieść o historii statystyki można by zacząć niczym tradycyjną bajkę: dawno, dawno temu, za górami, za lasami... I nie ma w tym wiele przesady, statystyka bowiem sięga swymi korzeniami odległych czasów i miejsc. Wzmianki o pewnych działaniach, mieszczących się dziś w szeroko pojmowanej statystyce, sięgają około 2 tys. lat p.n.e. Wtenczas, za panowania w Chinach dynastii Sia, prowadzone już były regularne spisy ludności. Nieco później, bo za dynastii Czou (1112–256 p.n.e.) istniało w Chinach stanowisko swego rodzaju księgowego, odpowiedzialnego za prace statystyczne w państwie. Bardziej czy mniej systematyczne spisy ludności miały miejsce i w innych starożytnych państwach i królestwach – pewne świadectwa zawiera nawet Biblia. Nieco więcej wiadomości na ten temat pochodzi jednak z mniej odległych czasów. Na przykład, szósty król Rzymu ustanowił rzymski rejestr obywateli i ich własności, sporządzany w pięcioletnich odstępach przez urzędników zwanych cenzorami. Z kolei cezar August rozszerzył spis ludności na całe Imperium Rzymskie. Ostatni taki spis przeprowadzono w 74 roku n.e., a znane nam dziś regularne spisy ludności zaczęto prowadzić dopiero w XVII wieku.

Jakkolwiek to, co jest przedmiotem niniejszej książki niewiele ma wspólnego z przytoczoną powyżej odległą historią statystyki, przypomnieliśmy ją z dwóch powodów. Po pierwsze, w niej należy doszukiwać się pochodzenia nazwy dyscypliny, będącej przedmiotem naszego zainteresowania. A po wtóre, do niej nawiązują niektóre terminy używane do dziś w statystyce (np. populacja).

Skąd wziął się termin „statystyka”? Pochodzi on od łacińskiego słowa _status_, które znaczy „państwo”, a został wprowadzony w 1749 roku przez niemieckiego uczonego, Gottfrieda Achenwalla, na określenie ogółu czynności służących do gromadzenia, przetwarzania i wykorzystania danych przez państwo. Niespełna pół wieku później, w 1797 roku, hasło „statystyka” pojawiło się w trzecim wydaniu Encyklopedii Britannica jako _słowo wprowadzone ostatnio, aby wyrazić obraz lub zwięzły opis jakiegoś królestwa, hrabstwa lub gminy_.

Z czasem czynności te zaczęły być określane mianem „państwoznawstwa”, a zbiór desygnatów terminu „statystyka” poszerzył się o metody poszukiwania prawidłowości występujących w badanych zjawiskach. Listę nazwisk kojarzonych z tym nowym rozdziałem w historii statystyki otwiera John Graunt (1620–1674), który pokusił się o oszacowanie liczby mieszkańców Londynu na podstawie tzw. tablic wymieralności. Kolejną, wartą wspomnienia postacią jest William Petty (1623–1685), twórca tzw. arytmetyki politycznej, który jako pierwszy oszacował dochód narodowy Anglii i Walii. Przypomnijmy także pracę Edmunda Halleya (1656–1742), który w 1693 roku, na podstawie zestawienia narodzin i zgonów, opracował wzorzec wyliczania składek emerytalnych dla powstających funduszy ubezpieczeniowych. Znamienną postacią rozwijającego się nowego nurtu statystyki był belgijski uczony, Lambert Adolphe Quetelet (1796–1874), który zafascynowany rozkładem normalnym starał się wykorzystywać krzywą Gaussa w prognozowaniu rozmaitych zjawisk. Do historii przeszła jego praca z 1844 roku, w której modelując wzrost mężczyzn za pomocą rozkładu normalnego, oszacował zasięg uchylania się od poboru do wojska we Francji.

W cytowanych pracach można już dostrzec to, co stanowi istotę statystyki w jej obecnym kształcie. A jest nią wnioskowanie bazujące na danych empirycznych, które nie ogranicza się do ich opisu, ale stara się wyprowadzić z nich ogólne wnioski czy prawa, tudzież prognozować. Tą drogą podążyła plejada wybitnych uczonych, by wspomnieć Francisa Galtona (1822–1911), Williama A. Gosseta (1876–1937), Karla Pearsona (1857–1936), Egona S. Pearsona (1895–1980), Ronalda A. Fishera (1890–1962), Jerzego Neymana (1894–1981) i wielu innych. To właśnie oni, w ostatnich latach XIX wieku i w pierwszej połowie XX wieku, położyli fundamenty pod gmach współczesnej statystyki matematycznej, która – choć nadal dynamicznie i wielokierunkowo rozwijana – bazuje na ich dziełach. I o tych fundamentach statystyki traktuje niniejszy podręcznik.

Jak więc widać, trafne jest powiedzenie, że statystyka ma stosunkowo krótką historię, a zarazem długą prehistorię. Osoby zainteresowane tymi zagadnieniami odsyłamy do książek Stephena M. Stiglera , my zaś zatrzymajmy się jeszcze przez chwilę nad usytuowaniem statystyki jako dyscypliny.

Utworzenie w 1834 roku Królewskiego Towarzystwa Statystycznego wskazywało, że statystyka zaczyna być postrzegana nie tylko jako pewna działalność utylitarna, ale również jako nauka. Jednakże jej umiejscowienie pośrod innych dyscyplin nie było czymś oczywistym. Z powodu związków z empirią statystyka była przez pewien czas traktowana jako część fizyki. Choć XX-wieczne osiągnięcia teoretyczne przesunęły ją zdecydowanie w kierunku nauk matematycznych, w wielu bardziej konserwatywnie nastawionych środowiskach odmawiano statystyce członkostwa pośród innych dyscyplin matematycznych. Narodziny informatyki zdynamizowały rozwój statystyki, która obecnie bywa postrzegana bądź jako niezależna, wielce rozbudowana dyscyplina naukowa, bądź też jej podobszary są traktowane jako poddyscypliny w ramach innych nauk (matematycznych, ekonomicznych, technicznych, medycznych itd.).

Z biegiem lat zmieniła się również społeczna recepcja statystyki. Współczesna nauka, zwłaszcza fizyka i genetyka, przyczyniły się do umocnienia roli statystyki jako nauki pomagającej radzić sobie w świecie, który nie może już dłużej być traktowany jako deterministyczny. Z biegiem lat ludzie coraz powszechniej zaczęli doceniać przydatność statystyki w rozmaitych dziedzinach nauki i praktyki: od pierwszych zastosowań w astronomii, fizyce i naukach rolniczych, po szeroko pojętą technikę (statystyczna kontrola jakości i nie tylko), medycynę (analiza przeżycia, badania kliniczne itd.), epidemiologię, farmakologię, biologię i ekologię, klimatologię, psychologię, socjologię, językoznawstwo, nauki polityczne i prawne, telekomunikację i transport, finanse i ubezpieczenia, marketing itd., a obecnie także sport. Jak to podsumował lapidarnie znany filozof nauki, Ian Hacking: _Cisi statystycy zmienili nasz świat – nie poprzez odkrywanie nowych faktów lub osiągnięcia techniki, ale przez zmianę sposobów rozumowania, eksperymentowania i kształtowania naszych opinii o nim_. A próbując podsumować osiągnięcia XX-wiecznej nauki i techniki, tenże Ian Hacking umieścił statystykę pośród dwudziestu największych odkryć od 1900 roku.

Jednakże, jak mówi przysłowie, „każdy kij ma dwa końce”. Niewątpliwy sukces, jaki odniosła statystyka jako nauka, stał się dla niej swego rodzaju ciężarem. Sam termin „statystyka” zaczął być bowiem w wielu kręgach traktowany jako słowo magiczne. Sformułowania typu: „statystyki pokazują...”, „według statystyki...”, „statystycznie rzecz biorąc...”, „badania statystyczne wykazały, że...” itp. mają według niektórych być wystarczającym uzasadnieniem prawdziwości wypowiadanej tezy. Celują w tym zwłaszcza politycy i dziennikarze chcący dodać swoim wypowiedziom polor naukowy lub, co gorsza, manipulowć opinią publiczną. Nic więc dziwnego, że tego typu postawy sprawiły, iż równolegle z pozytywnym odbiorem statystyki funkcjonują w powszechnym odbiorze opinie, iż „statystyka kłamie”, czy też słynne stopniowanie: „kłamstwo, bezczelne kłamstwo, statystyka”. Tymczasem statystyka nie kłamie, ale kłamcy chętnie posługują się statystyką. Często też przyczyną pojawiania się nieprawdziwych zdań, których autorzy powołują się na statystykę, jest nie tyle zła wola, ale zwykła ignorancja. Stąd też powszechne kształcenie w zakresie choćby podstaw statystyki wydaje się zdecydowanie zalecane, choćby z pobudek samoobronnych, by nie stać się ofiarą owej ignorancji czy manipulacji.1.3. Czym jest statystyka

Nie ma jednej, powszechnie akceptowanej definicji statystyki. To, jak się ją próbuje określać w różnych podręcznikach, monografiach i słownikach, zależy w dużej mierze od doświadczenia autora i jego zaangażowania badawczego związanego z takim czy innym działem statystyki. Po części wpływ na definicję ma również panująca moda.

Poniżej przytoczymy dwie definicje statystyki. Pierwsza, choć krótsza, jest zarazem bardziej ogólna, gdyż obejmuje swym zasięgiem większość (jeśli nie wszystkie) obszary aktywności naukowo-badawczej i praktyki kojarzonej ze statystyką. A oto i ona.

STATYSTYKĄ nazywamy dyscyplinę naukową zajmującą się zbieraniem, prezentacją, analizą oraz interpretacją danych.

Niektórzy dopowiadają, że wspomniana analiza dotyczy danych opisujących zjawiska masowe (lub powtarzalne). Inni z kolei starają się uwypuklić, iż statystyka zajmuje się zarówno metodami liczbowego opisu danych (ujęcie deterministyczne), jak i metodami wnioskowania w warunkach niepewności (ujęcie stochastyczne). Poszerzanie optyki może również sprawić, że wzniesiemy się na swoisty metapoziom, z którego patrząc na statystykę, przyjdzie nam zacytować słowa C. R. Rao: „Statystyka nie jest nauką taką jak fizyka, chemia czy biologia, gdzie badamy zagadnienie w celu zbadania jego samego. Statystykę uprawiamy w celu rozwiązania problemów pojawiających się w innych naukach” . A stąd już tylko krok do Data Science.

Cofnijmy się zatem do naszej pierwotnej definicji. Dwa pierwsze wskazane przez nią obszary, a więc zbieranie i prezentacja danych, sytuują się zasadniczo poza tytułową STATYSTYKĄ MATEMATYCZNĄ, będącą przedmiotem niniejszej monografii. Odniesiemy się do nich pokrótce w podrozdziałach 1.4 i 1.5 , zanim przejdziemy do meritum, które lepiej wskazuje następujące określenie.

STATYSTYKA to dział matematyki zajmujący się pozyskiwaniem wiarygodnych informacji z dostępnych danych w celu uczenia się, prognozowania i podejmowania decyzji w obliczu niepewności.

To właśnie druga definicja, nieco bardziej szczegółowa, w stopniu większym niż pierwsza, ukierunkowana jest na wnioskowanie statystyczne, czyli zasadniczy przedmiot naszych dalszych rozważań.1.4. Podstawowe pojęcia statystyki

W niniejszym podrozdziale przedstawimy pokrótce podstawowe terminy stanowiące minielementarz statystyki.

Zbiór obiektów będących przedmiotem prowadzonego badania nazywamy POPULACJĄ. Jakkolwiek ów termin nawiązuje bezpośrednio do pierwotnych zainteresowań statystyki, tzn. do populacji ludzkiej, słowo to używane w statystyce może być odniesione do dowolnego zbioru, zarówno pod względem rodzaju elementów, jak i mocy zbioru. W niektórych zastosowaniach, np. w statystycznej kontroli jakości, zamiast słowa „populacja” używany jest często termin „proces” (np. badany proces producji). Poszczególne elementy populacji bywają nazywane JEDNOSTKAMI STATYSTYCZNYMI.

Populację badamy ze względu na jakąś CECHĘ (cechy), która charakteryzuje obiekty należące do owej populacji. Z grubsza rzecz biorąc, rozróżniamy CECHY JAKOŚCIOWE oraz CECHY ILOŚCIOWE. Przykładami cech jakościowych, zwanych także niemierzalnymi, są: kolor oczu, marka samochodu, grupa krwi itd. Z kolei cechy ilościowe, zwane również mierzalnymi, dzielimy na CECHY DYSKRETNE (skokowe) oraz CECHY CIĄGŁE. Przykładami należącymi do pierwszej podgrupy są: liczba jednostek wadliwych, liczba wypromieniowanych jednostek itp., natomiast typowymi przykładami cech ciągłych są: długość, szerokość, czas, naprężenie itd.

Przyczyną pojawienia się statystyki jest to, iż poszczególne elementy populacji różnią się pod względem wartości czy też poziomu badanej cechy. Tym samym zadanie, które stoi przed statystykiem, to odkrycie ROZKŁADU CECHY w populacji. Niekiedy rozkład ów jest całkowicie nieznany. Innym razem możemy dysponować informacją odnośnie do typu rozkładu, jednakże nie są znane wartości jego parametrów.

Źródłem informacji, na podstawie których statystyk stara się zidentyfikować nieznany rozkład cechy, są OBSERWACJE (pomiary) obiektów pochodzących z badanej populacji. W tym miejscu warto uświadomić sobie, że w praktyce możemy zetknąć się z różnymi SKALAMI POMIAROWYMI. W szczególności, zaczynając od „najniższej” w hierarchii, możemy mieć do czynienia ze SKALĄ NOMINALNĄ, kiedy dowiadujemy się tylko, czy dane obiekty należą do tej samej klasy, czy też nie. W przypadku SKALI PORZĄDKOWEJ otrzymujemy informację o tym, który z dwóch obiektów jest „lepszy” („większy”). SKALA PRZEDZIAŁOWA pozwala już przypisać znaczenie różnicy (odległości) między obiektami, ale dopiero w SKALI ILORAZOWEJ możemy nadać znaczenie ilorazom pomiarów. Innymi słowy, im wyższa skala pomiarowa, tym więcej się dowiadujemy o relacjach między badanymi obiektami.

Proces zbierania obserwacji czy też dokonywania pomiarów, nazywamy w statystyce BADANIEM. Rozróżnia się przy tym BADANIE PEŁNE, w którym badaniu podlegają wszystkie elementy rozważanej populacji, oraz BADANIE CZĘŚCIOWE, gdy badany jest pewien właściwy podzbiór populacji. Przykładem realizacji badania pełnego jest spis powszechny. I choć ów rodzaj badania, obejmujący wszystkie obiekty, może wydawać się najbardziej pożądany, stosowany jest nader rzadko z uwagi na koszty, czasochłonność, a czasem z powodu samego charakteru badania (np. w przypadku badań niszczących). Dlatego też przedmiotem naszych rozważań będą wyłącznie badania częściowe.

Podzbiór populacji, który zostaje poddany badaniu, nazywamy PRÓBKĄ. Skoro zaś wyniki badania próbki mają posłużyć wyciągnięciu wniosków odnoszących się nie tylko do owej próbki, ale całej populacji, wydaje się czymś oczywistym, że ogromną rolę odgrywa sposób pobierania próbki. Dlatego też, o ile to możliwe, warto zadbać o właściwe ZAPROJEKTOWANIE BADANIA, które ma na celu dołożenie starań, by otrzymana próbka była przede wszystkim REPREZENTATYWNA, czyli aby w skali mikro odzwierciedlała rozkład cechy charakteryzujący całą populację. Aby uniknąć tendencyjnego doboru obiektów do próbki, często przyjmuje się założenie, że próbka powinna być LOSOWA, co oznacza, że każdy element populacji ma szansę znaleźć się w próbce. W przypadku, gdy każdy element populacji ma takie same szanse na znalezienie się w próbce mówimy, że mamy do czynienia z PRÓBKĄ PROSTĄ.

Dane pochodzące bezpośrednio z badania, nie poddane jeszcze żadnym zabiegom porządkującym, są nazywane DANYMI SUROWYMI. Pierwszą czynnością, która musi być wykonana zanim przejdziemy do wyciągania z danych jakichkolwiek wniosków, jest WSTĘPNE PRZYGOTOWANIE DANYCH, obejmujące różnorodne zabiegi, w tym tzw. czyszczenie, scalanie, przekształcanie i redukcję danych. Dopiero po zakończeniu tego procesu można przejść do kolejnego etapu, jakim jest opis pozyskanej próbki. Ogół czynności związanych z tym etapem określany jest mianem STATYSTYKI OPISOWEJ. Jest to jednak wciąż etap przejściowy, poprzedzający to, co w statystyce najważniejsze i najciekawsze, czyli WNIOSKOWANIE STATYSTYCZNE mające na celu wyciągnięcie z próbki wniosków dotyczących rozkładu badanej cechy w całej rozważanej populacji. I to właśnie owo wnioskowanie statystyczne jest przedmiotem rozważań niniejszej książki.

Choć nie będzie w niej mowy o projektowaniu badania, sposobach pobierania próbki ani o wstępnym przygotowaniu danych, kwestie te mają pierwszorzędne znaczenie, gdyż nawet najbardziej wyrafinowane metody statystyczne mogą okazać się niewiele warte, jeśli dane, którymi dysponujemy, będą wątpliwej jakości.1.5. Podstawowe statystyki próbkowe

W literaturze przedmiotu znaleźć można wiele pozycji poświęconych wstępnemu przygotowaniu danych oraz statystyce opisowej. Zachęcamy Czytelnika, by zapoznał się, choćby pobieżnie, z niektórymi technikami i narzędziami służącymi do zilustrowania dostępnych danych i ułatwiającymi dostrzeżenie tych aspektów, które wydają się najciekawsze z punktu widzenia rozważanego problemu. Bardzo przydatne do osiągnięcia tego celu okazują się różnego typu wykresy: kołowe, słupkowe, pudełkowe (skrzynkowe), łodygowo-liściowe, histogramy i wiele innych. Nie będziemy się tu nimi zajmować, odsyłając zainteresowanych do publikacji, w których są one nie tylko szczegółowo omówione, ale też można w nich znaleźć wiele cennych wskazówek dotyczących odpowiedniego użycia palety barw i innych, z pozoru drobnych szczegółów, mających niebagatelny wpływ na odbiór rysunków. Do owej zachęty dołączymy tylko jedno ważne ostrzeżenie: choć uważa się, że _wykres jest wart tysiąca słów_, niemniej też od wykresów mogą zaczynać się tzw. „statystyczne kłamstwa”. Innymi słowy, należy być zawsze krytycznym wobec dostarczonych danych i sposobów ich prezentacji, bez względu na ich genezę oraz to, gdzie i przez kogo są publikowane.

Obok rozlicznych technik graficznych statystyka opisowa obfituje w różnorodne metody rachunkowe, prowadzące do wyznaczenia pewnych charakterystyk liczbowych, za pomocą których staramy się w sposób syntetyczny ująć najważniejsze cechy próbki. Charakterystyki te, zwane STATYSTYKAMI PRÓBKOWYMI, dzielimy na trzy grupy: CHARAKTERYSTYKI POŁOŻENIA, CHARAKTERYSTYKI ROZPROSZENIA oraz CHARAKTERYSTYKI KSZTAŁTU. Nietrudno zauważyć, że ów podział koresponduje z typami parametrów charakteryzujących zmienne losowe, co z kolei znajduje przełożenie na metody wnioskowania statystycznego. Z tego też powodu, mimo iż wiele miejsca w podręcznikach statystyki opisowej poświęcono statystykom próbkowym, także i my wymienimy i opiszemy pokrótce najważniejszych reprezentatów wspomnianych trzech rodzajów charakterystyk.

Charakterystyki położenia

Najważniejszą podrodzinę statystyk próbkowych należących do tej grupy stanowią tzw. MIARY TENDENCJI CENTRALNEJ, za pomocą których staramy się wskazać wartości „typowe” dla rozważanej próbki. Na potrzeby niniejszego rozdziału niech oznacza próbkę pobraną z rozważanej populacji, przy czym będziemy zakładać, że . Najbardziej znaną i najczęściej stosowaną miarą tendencji centralnej jest ŚREDNIA ARYTMETYCZNA, zwana pokrótce średnią, dana wzorem

(1.1)

Ma ona naturalną interpretację geometryczną (wskazując środek masy zbioru obiektów tworzących próbkę) oraz sporo zalet, jak choćby tę, że bierze pod uwagę wszystkie obserwacje i żadnej przy tym nie wyróżnia. Niestety, owa zaleta może stać się poważną wadą średniej, przez to bowiem jest ona bardzo wrażliwa na obecność OBSERWACJI ODSTAJĄCYCH, czyli takich, które znacznie odbiegają od ogółu obserwacji w próbce. Obserwacje odstające są często efektem tzw. BŁĘDÓW GRUBYCH, spowodowanych błędami pomiarowymi, błędami uczynionymi podczas wpisywania danych itp., a zatem czymś niepożądanym, co nie powinno znacząco wpływać na charaktersytyki próbki. Ktoś mógłby spytać, dlaczego więc nie pozbyć się obserwacji odstających już na etapie wstępnego przygotowania danych. Otóż może się jednak zdarzyć, że obserwacja odstająca faktycznie pochodzi z danej populacji, tyle że odpowiada jakiemuś rzadko spotykanemu w niej obiektowi, a tym samym jej usunięcie zubożyłoby naszą wiedzę o badanym rozkładzie. Tak więc obserwacje odstające należy traktować z ostrożnością i nie pozbywać się ich zbyt pochopnie i bezkrytycznie. Choć w tym miejscu więcej uwagi poświęciliśmy, zdałoby się, wadom niż zaletom średniej, zasygnalizowanych zalet jest dużo więcej, ale zostaną one wskazane dopiero w dalszych rozdziałach książki, poświęconych wnioskowaniu statystycznemu.

Ktoś mógłby zapytać, czy da się skonstruować miarę tendencji centralnej, która byłaby zupełnie niewrażliwa wobec obserwacji odstających. Odpowiedź na to pytanie jest pozytywna, a prostym przykładem takiej miary jest MEDIANA próbkowa dana następującym wzorem

(1.2)

gdzie jest ciągiem tzw. STATYSTYK PORZĄDKOWYCH (zwanych również STATYSTYKAMI POZYCYJNYMI), który otrzymujemy z wyjściowej próbki poprzez ustawienie obserwacji w ciąg niemalejący. Patrząc na wzór (1.2) widzimy, że w przypadku próbki o liczności nieparzystej, medianą jest środkowa obserwacja w uporządkowanym niemalejąco ciągu, natomiast gdy liczność próbki jest parzysta, jest nią średnia arytmetyczna z dwóch środkowych obserwacji. Tak czy owak, mediana jest całkowicie odporna na wpływ obserwacji odstających, porządkując bowiem dane, pozostawiamy obserwacje odstające na początku lub na końcu próbki.

Niestety, statystyka nie jest łatwo zadowolić. Całkowita odporność mediany na obecność obserwacji odstających została okupiona pominięciem , bądź , elementów próbki, co oznacza dużą stratę informacji, a tym samym pozbawia medianę pewnych zalet sygnalizowanych podczas omawiania średniej (o których będzie mowa w kolejnych rozdziałach). To spostrzeżenie zrodziło pytanie o konstrukcję takiej miary tendencji centralnej, która by łączyła zalety średniej i mediany, czyli brałaby pod uwagę większość obserwacji, a jednocześnie nie byłaby wrażliwa na obserwacje odstające. Przykładem takiej miary jest ŚREDNIA UCIĘTA dana wzorem

(1.3)

gdzie oznacza tzw. wielkość ucięcia, , określoną liczbą najmniejszych i największych obserwacji w próbce, które nie będą brane pod uwagę przy wyznaczaniu wartości tej średniej. Gdy wielkość ucięcia określana jest procentowo, za pomocą wskaźnika , to

(1.4)

gdzie .

Innym przykładem jest ŚREDNIA WINSOROWSKA

,]

(1.5)

w której poziom ucięcia określa się analogicznie jak w przypadku średniej uciętej. Czytelnik łatwo zauważy, że stosując średnią uciętą, wyznaczamy miarę tendencji centralnej na podstawie obserwacji, podczas gdy stosując średnią winsorowską na podstawie obserwacji.

Średnia ucięta i średnia winsorowska są szczególnymi przypadkami OPERATORA OWA zadanego następującym wzorem

(1.6)

gdzie jest wektorem wag dobieranych stosownie do potrzeb. Należy przy tym odróżniać operator OWA od popularnej ŚREDNIEJ WAŻONEJ, zdefiniowanej jako

(1.7)

gdzie jest wektorem wag, przy czym i . Zasadnicza różnica między wzorami (1.6) i (1.7) polega na tym, że podczas gdy waga przypisana jest -tej obserwacji, tzn. , w przypadku operatora OWA waga związana jest z , czyli -tą obserwacją w uprzednio uporządkowanym niemalejąco ciągu.

Innymi, stosowanymi czasem miarami tendencji centralnej dla obserwacji przyjmujących wartości nieujemne jest ŚREDNIA GEOMETRYCZNA

(1.8)

oraz ŚREDNIA HARMONICZNA

(1.9)

Omówione wyżej różne rodzaje średnich oraz mediana należą do interesującej klasy funkcji, zwanych FUNKCJAMI AGREGACJI (operatorami agregacji). Zainteresowanych własnościami i zastosowaniem funkcji agregacji odsyłamy do monografii .

Warto pamiętać o jeszcze jednaj mierze tendencji centralnej, mającej starożytny rodowód. Jest nią MODA, zwana również DOMINANTĄ, czyli najczęściej powtarzająca się obserwacja w próbce. Nie ma ona aż tak dobrych własności statystycznych jak wcześniej omawiane miary, ale może być stosowana wobec danych reprezentujących wszystkie skale pomiarowe, łącznie z nominalną.

Do charakterystyk położenia, oprócz miar tendencji centralnej, zalicza się również KWARTYLE, DECYLE i CENTYLE (percentyle), czyli kwantyle empiryczne o mianowniku odpowiednio 4, 10 i 100. Mamy zatem 3 kwartyle, 9 decyli i 99 centyli. W szczególności, pierwszy kwartyl (zwany również dolnym) odpowiada takiej wartości , od której mniej więcej obserwacji jest mniejszych i jednocześnie mniej więcej obserwacji jest większych. Z kolei trzeci (górny) kwartyl to taka wartość , od której mniej więcej obserwacji jest mniejszych, a jest większych. Wreszcie drugi (środkowy) kwartyl to wartość, od której mniej więcej połowa obserwacji jest mniejszych i połowa większych, co oznacza, iż ów drugi kwartyl jest, po prostu, medianą z próbki. W analogiczny sposób definiuje się pozostałe kwantyle empiryczne. Przykładowo, centyl to wartość, poniżej której lokuje się mniej więcej obserwacji, a zarazem tylko jest od niej większe.

Charakterystyki rozproszenia

Drugą, obok miar położenia, grupę statystyk próbkowych stanowią charakterystyki rozproszenia, zwane też miarami rozrzutu, dyspersji bądź skali. Najprostszą z nich jest ROZSTĘP, czyli odległość między największą i najmniejszą obserwacją w próbce, tzn.

(1.10)

Tak skonstruowana miara, która zależy wyłącznie od wartości ekstremalnych w próbce, jest z definicji wrażliwa na wpływ obserwacji odstających. Można rzec, iż jedyną zaletą rozstępu jest naturalna interpretacja i prostota obliczeniowa. Zalety te ma również ROZSTĘP MIĘDZYKWARTYLOWY

(1.11)

którego wartość jest równa długości odcinka zajmowanego przez (mniej więcej) połowę „środkowych” obserwacji z próbki, tzn. tych, które pozostaną po odrzuceniu najmniejszych i tyluż największych obserwacji. Jak łatwo się domyśleć, roztęp międzykwartylowy, w przeciwieństwie do zwykłego rozstępu, nie jest wrażliwy na obecność obserwacji odstających w próbce. Miarą pokrewną z roztępem międzykwartylowym jest tzw. ODCHYLENIE C@ODCHYLENIE ĆWIARTKOWE, równe połowie rozstępu międzykwartylowego.

Najważniejszą spośród stosowanych charakterystyk rozproszenia jest WARIANCJA PRÓBKOWA dana wzorem

(1.12)

Jest ona „prawie” równa przeciętnemu kwadratowi odległości obserwacji w próbce od średniej. Użytego w ostatnim zdaniu słowa „prawie” można by się pozbyć, gdyby w mianowniku wzoru (1.12) znalazła się liczność próbki , nie pomniejszona o jeden, jak to ma miejsce w (1.12), czyli gdybyśmy wariancję próbkową zdefiniowali jako

(1.13)

I choć mogłoby się wydawać, że wzór (1.13) ma bardziej naturalną interpretację niż (1.12), istnieje matematyczne uzasadnienie tego, iż preferujemy jednak wariancję określoną formułą (1.12), co wyjaśnimy dopiero w rozdziale 3. Oczywiście, jeśli liczność próbki jest bardzo duża, różnica między (1.12) i (1.13) jest zaniedbywalna.

Pewna niewygoda, związana z użyciem wariacji próbkowej w praktyce, spowodowana jest tym, iż określona przez nią miara rozrzutu wyrażona jest w jednostkach będących kwadratem jednostek, w których zostały dokonane pomiary. Aby tego uniknąć, posługujemy się często miarą rozproszenia pokrewną z wariancją, zwaną ODCHYLENIEM STANDARDOWYM, zdefiniowaną jako

(1.14)

Pierwiastek we wzorze (1.14) sprowadza rozrzut z powrotem do jednostek odpowiadających pomiarom.

Inną miarą rozrzutu, spokrewnioną z wariancją i odchyleniem standardowym, jest WSPÓŁCZYNNIK ZMIENNOŚCI dany nastepującym wzorem

(1.15)

W przeciwieństwie do odchylenia standardowego i wariancji, które są miarami bezwzględnymi, współczynnik zmienności jest względną miarą rozproszenia. To ważna cecha, która bywa przydatna np. przy porównywaniu dwóch próbek różniących się znacznie pod względem położenia. Inną zaletą współczynnika zmienności jest to, iż wyraża on rozproszenie w jednostkach niemianowanych, co umożliwia porównywanie rozrzutu cech mierzonych w różnych jednostkach (np. wzrostu i wagi mierzonych, odpowiednio, w centymetrach i kilogramach).

Wariancja i miary rozrzutu z nią związane, poprzez fakt uśredniania wszystkich obserwacji są mało odporne na wpływ obserwacji odstających. Przykładem charakterystyki rozproszenia, która jest niewrażliwa na obecność obserwacji odstających, jest następująca miara

(1.16)

Charakterystyki kształtu

Trzecią grupę statystyk próbkowych stanowią charakterystyki ukazujące pewne aspekty kształtu rozkładu próbki. Zasadniczo należą do nich dwie rodziny miar, spośród których ważniejszą rolę odgrywają WSPÓŁCZYNNIKI ASYMETRII, zwane też MIARAMI SKOŚNOŚCI, za pomocą których staramy się określić, czy rozkład próbki jest symetryczny, a jeśli tak nie jest, to z jakiego typu asymetrią mamy do czynienia. Współczynniki te konstruowane są zazwyczaj w ten sposób, aby w przypadku rozkładów symetrycznych wskazywały wartość zero (lub jej bliską), podczas gdy rozkładom o prawych ogonach cięższych niż lewe (czyli kojarzonym z asymetrią dodatnią), przypisywały wartości dodatnie, natomiast rozkładom o lewych ogonach cięższych niż prawe – wartości ujemne.

Najczęściej używany współczynnik asymetrii zdefiniowany jest następującym wzorem

(1.17)

Inną miarą tego typu jest

(1.18)

Jeśli zaś zależy nam na mierze asymetrii odpornej na wpływ obserwacji odstających, polecanym współczynnikiem jest

(1.19)

Drugą podgrupę charakterystyk kształtu stanowią miary KURTOZY. W praktyce są one najczęściej używane w celu odniesienia rozkładu próbki do rozkładu normalnego. Podstawowym wzorem na kurtozę jest następujące wyrażenie

(1.20)

Jak wiadomo, probabilistyczna kurtoza rozkładu normalnego wynosi 3. Tłumaczy to po części obecność trójki, jako odjemnika, we wzorze (1.20). W niektórych opracowaniach kurtozę definiuje się z pominięciem owej trójki i wówczas miarę (1.20) nazywa się EKSCESEM.1.6. Zadania

ZADANIE 1.6.1. Dla każdej z czterech skal pomiarowych, opisanych w podrozdziale 1.4 , podać przykład eksperymentu, w którym pojawiają się obserwacje odpowiadające danej skali.

ZADANIE 1.6.2. Poniższe dane przedstawiają wysokość miesięcznego wynagrodzenia (w tys.) losowo wziętych dwudziestu pracowników pewnego przedsiębiorstwa:

------ ------ ------ ------ ------ ------ ------ ------ ------- ------
6.1, 6.0, 7.2, 7.5, 2.7, 6.3, 6.4, 6.7, 14.2, 8.6,
7.1, 4.9, 7.9, 6.2, 5.5, 9.5, 7.1, 5.2, 6.1, 4.6.
------ ------ ------ ------ ------ ------ ------ ------ ------- ------

1. Wyznaczyć dla tych danych różne charakterystyki tendencji centralnej (średnia, mediana, moda, średnia ucięta, średnia winsorowska). Przedyskutować zalety i wady tych charakterystyk.

2. Wyznaczyć i omówić różne miary rozrzutu wynagrodzenia (rozstęp, rozstęp międzykwartylowy, wariancja próbkowa, odchylenie standardowe, MAD, współczynnik zmienności).

3. Wyznaczyć i porównać różne charakterystyki asymetrii powyższej próbki.

4. Sporządzić wykres skrzynkowy dla tych danych.

ZADANIE 1.6.3. Wykazać, że poniższe wzory na wariancję próbkową są równoważne:

1. ,

2. ] ,

3. ].

ZADANIE 1.6.4. Wykazać, że wariancję próbkową można wyrazić następująco

ZADANIE 1.6.5. Policzono średnią i wariancję z 5-elementowej próbki i otrzymano, odpowiednio, i . Wartość kolejnej uzyskanej obserwacji wynosi 8 .

1. Obliczyć średnią i wariancję z sześciu uzyskanych obserwacji, tzn. oraz .

2. Wyprowadzić wzór rekurencyjny na średnią arytmetyczną postaci

3. Wyprowadzić wzór rekurencyjny na wariancję próbkową postaci

ZADANIE 1.6.6. Rozważyć poniższe historyjki i sformułować wnioski odnośnie do stosowania różnych średnich.

1. Pan Abacki jedzie samochodem z miejscowości A do B z prędkością 30 km/h. Jak szybko musi jechać z powrotem z B do A, aby średnia prędkość podczas całej podróży wyniosła 60 km/h?

2. Pan Babacki jedzie przez godzinę z prędkością 30 km/h, a przez następną godzinę z prędkością 90 km/h. Jaka jest średnia prędkość podczas całej podróży?

3. Pan Cabacki jedzie samochodem z miejscowości A do B z prędkością 30 km/h, a z powrotem, z miejscowości B do A, z prędkością 90 km/h. Jaka jest średnia prędkość podczas całej podróży?

ZADANIE 1.6.7. Pan Oszczędny otworzył lokatę w banku na okres 4 lat, wpłacając złotych. Załóżmy, że była to lokata o zmiennym oprocentowaniu, przy czym w pierwszym roku oprocentowanie wynosiło 4%, a w kolejnych trzech latach, odpowiednio, 6%, 7% i 5%. Ile wynosi średnie oprocentowanie tej lokaty?

ZADANIE 1.6.8. Załóżmy, że . Wykazać, że między średnią arytmetyczną, geometryczną i harmoniczną z tej próbki zachodzi następująca relacja

przy czym równość ma miejsce wtedy i tylko wtedy, gdy .

ZADANIE 1.6.9. Dolny kwartyl definiuje się zwyczajowo jako medianę z obserwacji mniejszych od mediany, natomiast górny kwartyl jako medianę obserwacji większych od mediany. Podać wzory określające dolny i górny kwartyl za pomocą statystyk porządkowych oraz symboli sufitu i podłogi (tzn. odpowiednich funkcji zaokrąglających).

ZADANIE 1.6.10. W literaturze statystycznej spotyka się różne wzory na kwartyle z próbki. Zbadać, jak się mają do siebie kwartyle wyznaczane z poniższych wzorów:

1. , , przy czym , , i ,

2. , , przy czym , , i .

Porównać kwartyle uzyskiwane w ten sposób z kwartylami, które otrzymujemy, posługując się metodą opisaną w zadaniu 1.6.9 .

ZADANIE 1.6.11. Wykazać, że średnia arytmetyczna, średnia geometryczna, średnia harmoniczna, średnia ważona oraz mediana są funkcjami uśredniającymi. Zbadać, czy są to funkcje symetryczne, czy są one niezmiennicze ze względu na przesunięcia oraz czy są jednorodne.

_DEFINICJA. Przekształcenie _f_ : _n_ → nazywamy FUNKCJĄ AGREGACJI (operatorem agregacji), jeżeli_

ZADANIE 1.6.12. Wykazać, że średnia arytmetyczna, średnia geometryczna, średnia harmoniczna, średnia ważona oraz mediana są funkcjami uśredniającymi. Zbadać, czy są to funkcje symetryczne, czy są one niezmiennicze ze względu na przesunięcia oraz czy są jednorodne.

ZADANIE 1.6.13. Wykazać równoważność poniższych wzorów na wariancję próbkową dla danych pogrupowanych (gdzie oznacza liczność próbki, – liczbę klas, – liczność -tej klasy, – środek -tej klasy):

1. ,

2. ] ,

3. ].

ZADANIE 1.6.14. Poniższa tabela zawiera dane pogrupowane dotyczące czasu obsługi (w sekundach) w kiosku dwudziestu pięciu losowo wybranych klientów. Wyznaczyć: średnią, medianę, kwartyl dolny i kwartyl górny, wariancję, odchylenie standardowe oraz współczynnik zmienności czasu obsługi klientów w tym kiosku.

Czas obsługi Liczba klientów
-------------- -----------------
–20 3
20–40 9
40–60 6
60–80 5
80–100 2

więcej.. mniej..

Statystyka matematyczna - ebook

FRAGMENT KSIĄŻKI

BESTSELLERY