Wykorzystanie sztucznych sieci neuronowych - ebook
Wykorzystanie sztucznych sieci neuronowych - ebook
Sztuczne sieci neuronowe są uogólnionym modelem obliczeniowym wzorowanym na zachowaniu komórek nerwowych, a więc czerpią z analogii do budowy mózgu. Ta analogia nie jest jednak celem samym w sobie (poza zupełnie niezależnymi próbami budowy „sztucznego mózgu”, co nie jest przedmiotem niniejszej książki), a przeradza się w budowę obliczeniowych modeli matematycznych opartych na idei tak zwanego „uczenia maszynowego” (ang. machine learning, ML). Jaki ma to związek z zastosowaniami w naukach politycznych? Wyjaśnienie tej kwestii znajduje się na kartach książki.
Tytuł pracy pozostaje w ścisłym związku z układem jej treści. I tak, najpierw omówione zostają zagadnienia dotyczące biologicznych sieci neuronowych, następnie założenia modelu obliczeniowego, a na końcu – mowa jest o przykładowych zastosowaniach. Stąd też, w szerszej perspektywie, książka składa się z dwóch części: teoretycznej i empirycznej opartej na swego rodzaju studium przypadku (jest nim politologia).
Jest prawdopodobne, że sięgną do tej książki osoby zaintrygowane tylko jej tytułem. Takich Czytelników wypada zapewnić, że tekst skierowany jest w szczególności do tych osób, które do tej pory nie wykorzystywały w działalności naukowej omawianych podejść, a zwłaszcza jest kierowana do tych, którzy zakładają, że prawdopodobnie… nigdy ich nie wykorzystają. Przez wzgląd na nich, dołożono wszelkich starań, aby wywód – momentami nieco hermetyczny – opatrzyć odpowiednią liczbą przykładów ilustrujących intersujące nas zjawiska.
Stąd też, jeżeli szukasz odpowiedzi na pytania m.in.:
Czy sieci neuronowe znajdują zastosowania w naukach politycznych?
Czym są nauki społeczne 2.0?
Co oznacza soft computing, neurokomputing i czym jest neuromorficzny chip?
Co ma wspólnego Rembrandt z Rumelhartem i sieciami neuronowymi?
Jaki związek z sieciami neuronowymi ma logika rozmyta oraz algorytmy genetyczne?
Na czym polega doniosłość badań nad nicieniem Caenorhabditis elegans?
Dlaczego Ada Lovelace przeszła do historii i to nie tylko nauki?
Jaką ilość danych przyswajał człowiek w XV wieku, a jaką obecnie?
Ile to jest 1 yottabajt danych?
Jaka część danych w skali globalnej to dane ustrukturyzowane, a jaka – cyfrowe?
Czy obecnie jeszcze istnieją w wersji papierowej kopie zapasowe danych?
Ile danych jest potrzebnych w celu zidentyfikowania konkretnej osoby z 95% pewnością?
Czym jest kulturomika?
Czy można opatentować dane opisujące organizmy żywe?
Czym jest perceptron wielowarstwowy, metoda wstecznej propagacji błędów, deep learning, anwersalne sieci generatywne, sieci rekurencyjne, splotowe, komórkowe, LSTM, machine learning, projektowanie generatywne, text mining, sentiment analysis, przetwarzania języka naturalnego (NLP) – oraz dlaczego warto te pojęcia znać?
Na czym polega uczenie sieci neuronowych i czy można je „przeuczyć”?
Jakie są przykładowe zastosowania uczenia maszynowego i sieci neuronowych w naukach politycznych?
Czy demokracja i technologia są ze sobą sprzeczne?
– to warto sięgnąć po tę książkę!
Albert Einstein miał stwierdzić: „Wyobraźnia bez wiedzy może tworzyć rzeczy piękne. Wiedza bez wyobraźni najwyżej doskonałe. Wyobraźnia jest ważniejsza niż wiedza, bo choć wiedza wskazuje na to, co jest, wyobraźnia wskazuje na to, co będzie”. Kolejne rozdziały książki są poświęcone właśnie pewnym szczególnym aspektom tego co jest i tego – co będzie.
Książka dotyczy sztucznych sieci neuronowych, jednej z najważniejszych technologii uczenia maszynowego, ważnego działu sztucznej inteligencji, w zastosowaniu do badan politologicznych. Nie ma podobnej pozycji w języku polskim (…). Temat jest ważny i obecnie bardzo popularny ze względu na liczne inicjatywy dotyczące sztucznej inteligencji i sieci neuronowych w szczególności.
prof. dr hab. Włodzisław Duch
Katedra Informatyki Stosowanej, Instytut Nauk Technicznych,
Uniwersytet Mikołaja Kopernika w Toruniu
Praca skutecznie przełamuje (…) stereotyp statystyki jako aktywności trudnej i często nieprzekładalnej na syntetyczne wnioski o otaczającej rzeczywistości społecznej i politycznej. Prowadzona przez Autora narracja, przystępny oraz systematyczny wykład stanowią mocną stronę recenzowanej publikacji, umożliwiając nawet nieobeznanemu z tematyka analiz ilościowych Czytelnikowi zrozumienie metodyki i zastosowań analiz z wykorzystaniem sztucznych sieci neuronowych.
Nowatorstwo Autora odnajdujemy w syntezie i systematycznej ewaluacji użyteczności sztucznych sieci neuronowych na gruncie politologii (…), co w dalszej perspektywie przyczyni się do rozwoju dyscypliny nauk o polityce w obszarze metodologii. Jest to także próba zabrania głosu w szeroko pojętej debacie metodologicznej w naukach o polityce, szczególnie w kontekście swoistej Wilsonowskiej konsiliencji (zmierzania od hermetycznej merytorycznie i metodologicznie dyscypliny do nauki zorientowanej interdyscyplinarnie, a nawet „pandyscyplinarnie”), w tym wykorzystania narzędzi, doświadczeń i paradygmatów zarówno nauk ścisłych, jak i społecznych.
dr hab. Daniel Mider
Wydział Nauk Politycznych i Studiów Międzynarodowych,
Kategoria: | Informatyka |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-01-21651-1 |
Rozmiar pliku: | 2,1 MB |
FRAGMENT KSIĄŻKI
+--------------------------------------+--------------------------------------+
| ADALINE | Adaptive Linear Neuron |
+--------------------------------------+--------------------------------------+
| AI | sztuczna inteligencja (Artificial |
| | Intelligence) |
+--------------------------------------+--------------------------------------+
| AIC | kryterium informacyjne Akaike |
+--------------------------------------+--------------------------------------+
| AITO | Artificial Intelligence Trade |
| | Organization |
+--------------------------------------+--------------------------------------+
| ARMA | model autoregresyjny ze średnią |
| | ruchomą |
+--------------------------------------+--------------------------------------+
| ARPANET | Advanced Research Projects Agency |
| | Network |
+--------------------------------------+--------------------------------------+
| AUC | area under the curve (w analizie |
| | ROC) |
+--------------------------------------+--------------------------------------+
| CAMEO | Conflict and Mediation Event |
| | Observations |
+--------------------------------------+--------------------------------------+
| CEDS | Computational Event Data System |
+--------------------------------------+--------------------------------------+
| COMPAS | Correctional Offender Management |
| | Profiling for Alternative Sanctions |
+--------------------------------------+--------------------------------------+
| CPU | procesor centralny (= główny, |
| | central processing unit) |
+--------------------------------------+--------------------------------------+
| DA-RT | Data Access & Research Transparency |
+--------------------------------------+--------------------------------------+
| Data-PASS | Data Preservation Alliance for the |
| | Social Sciences |
+--------------------------------------+--------------------------------------+
| DL | głębokie nauczanie, głębokie uczenie |
| | (deep learning) |
+--------------------------------------+--------------------------------------+
| DOI | Digital Object Identifier |
+--------------------------------------+--------------------------------------+
| EEG | obrazowanie elektroencefalograficzne |
+--------------------------------------+--------------------------------------+
| EWP | Early Warning Project |
+--------------------------------------+--------------------------------------+
| FCC | Federalna Komisja ds. Komunikacji |
| | (Federal Communication Commission) |
+--------------------------------------+--------------------------------------+
| FISA | Foreign Intelligence Surveillance |
| | Act |
+--------------------------------------+--------------------------------------+
| fMRI | obrazowanie przy wykorzystaniu |
| | rezonansu magnetycznego |
+--------------------------------------+--------------------------------------+
| fNIR | obrazowanie przy wykorzystaniu |
| | podczerwieni |
+--------------------------------------+--------------------------------------+
| FNR | błąd II rodzaju (False-Negative |
| | Rate) |
+--------------------------------------+--------------------------------------+
| FPR | błąd I rodzaju (False-Positive Rate) |
+--------------------------------------+--------------------------------------+
| GAN | generatywna sieć przeciwstawna |
| | (generative adversarial network) |
+--------------------------------------+--------------------------------------+
| GCHQ | Government Communications |
| | Headquarters |
+--------------------------------------+--------------------------------------+
| GDELT | Global Database of Events, Language |
| | and Tone |
+--------------------------------------+--------------------------------------+
| GDPR | General Data Protection Regulation |
+--------------------------------------+--------------------------------------+
| GPU | procesor graficzny (= obrazu, |
| | graphics processing unit) |
+--------------------------------------+--------------------------------------+
| GRU | sieć Gated Recurrent Unit |
+--------------------------------------+--------------------------------------+
| HTM | Hierarchical Temporal Memory |
+--------------------------------------+--------------------------------------+
| IaaS | Infrastructure as a Service |
+--------------------------------------+--------------------------------------+
| ICEWS | Integrated Crisis Early Warning |
| | System |
+--------------------------------------+--------------------------------------+
| ICPSR | Inter-university Consortium for |
| | Political and Social Research |
+--------------------------------------+--------------------------------------+
| IEEE | Institute of Electrical and |
| | Electronics Engineers |
+--------------------------------------+--------------------------------------+
| iTRACE | Trending, Recognition, and |
| | Assessment of Current Events |
+--------------------------------------+--------------------------------------+
| KEDS | Kansas Event Data System |
+--------------------------------------+--------------------------------------+
| LSTM | sieć long short-term memory |
+--------------------------------------+--------------------------------------+
| MAE | średni błąd bezwzględny (mean |
| | absolute error) |
+--------------------------------------+--------------------------------------+
| MEG | magnetoencefalografia |
+--------------------------------------+--------------------------------------+
| MIDs | baza danych Militarized Interstate |
| | Disputes |
+--------------------------------------+--------------------------------------+
| ML | uczenie maszynowe (machine learning) |
+--------------------------------------+--------------------------------------+
| MLP | perceptron wielowarstwowy |
| | (multi-layer perceptron) |
+--------------------------------------+--------------------------------------+
| MSE | błąd średniokwadratowy (mean squared |
| | error) |
+--------------------------------------+--------------------------------------+
| NLP | przetwarzanie języka naturalnego |
| | (Natural Language Processing) |
+--------------------------------------+--------------------------------------+
| OLS | metoda najmniejszych kwadratów |
| | (ordinary least squares) |
+--------------------------------------+--------------------------------------+
| PaaS | Platform as a Service |
+--------------------------------------+--------------------------------------+
| PCA | analiza głównych składowych |
| | (Principal Component Analysis) |
+--------------------------------------+--------------------------------------+
| PET | Privacy Enhancing Technology |
+--------------------------------------+--------------------------------------+
| RBF | sieć z radialną funkcją bazową |
| | (Radial Basis Function) |
+--------------------------------------+--------------------------------------+
| RMSE | pierwiastek błędu |
| | średniokwadratowego (root mean |
| | squared error) |
+--------------------------------------+--------------------------------------+
| RNN | sieć rekurencyjna (recurrent neural |
| | network) |
+--------------------------------------+--------------------------------------+
| ROC | Receiver Operating Characteristic |
+--------------------------------------+--------------------------------------+
| RODO | Rozporządzenie o ochronie danych |
| | osobowych |
+--------------------------------------+--------------------------------------+
| SaaS | Software as a Service |
+--------------------------------------+--------------------------------------+
| SIC | kryterium informacyjne Schwartza |
+--------------------------------------+--------------------------------------+
| SIGACTS | repozytorium Significant Activities |
+--------------------------------------+--------------------------------------+
| SNARC | Stochastic Neural Analog |
| | Reinforcement Computer |
+--------------------------------------+--------------------------------------+
| SOM | samoorganizująca się mapa |
| | (self-organizing map), sieć Kohonena |
+--------------------------------------+--------------------------------------+
| SSN | sztuczne sieci neuronowe |
+--------------------------------------+--------------------------------------+
| SVMs | metoda wektorów nośnych (support |
| | vector machines) |
+--------------------------------------+--------------------------------------+
| TABARI | Textual Analysis by Augmented |
| | Replacement Instructions |
+--------------------------------------+--------------------------------------+
| TNR | True-Negative Rate |
+--------------------------------------+--------------------------------------+
| TPR | True-Positive Rate |
+--------------------------------------+--------------------------------------+
| TPU | Tensor Processing Unit |
+--------------------------------------+--------------------------------------+
| ViEWS | Violence Early-Warning System |
+--------------------------------------+--------------------------------------+
| XAI | Explainable Artificial Intelligence |
+--------------------------------------+--------------------------------------+UWAGI WSTĘPNE
Obecnie najsmutniejsze jest to, że nauka gromadzi wiedzę szybciej, niż społeczeństwo gromadzi mądrość.
Isaac Asimov
jest uderzająca nierównowaga pomiędzy elegancją otaczających nas narzędzi a znacznie bardziej ograniczoną elegancją rezultatów ich użycia.
Geoff Mulgan
Jest prawdopodobne, że sięgną do niniejszej książki osoby zaintrygowane tylko jej tytułem. Przez wzgląd na takich Czytelników, przed przejściem do zasadniczych rozważań, należy poczynić kilka uwag o charakterze wyjaśniającym. Dzięki temu jaśniejsze powinny się stać zarówno dalsze wywody, jak i intencje autora. Zacznijmy właśnie od tego zagadnienia: intencji.
Oczywiście podstawową przesłanką, która stała za pomysłem na niniejszą książkę, była chęć zmierzenia się z intrygującym zagadnieniem wyrażonym w tytule. Okazało się to przedsięwzięcie tyleż wielce angażujące, co i inspirujące do dalszych poszukiwań. Niezależnie od tego dodatkowa motywacja wynikała z powodów jak najbardziej pragmatycznych – chodzi tutaj o zarysowanie możliwości skierowania zainteresowania badaczy na obszary, które nie są przesadnie licznie reprezentowane w literaturze przedmiotu, zwłaszcza krajowej. Wydaje się, że możliwości tkwiące w statystyce opisowej i indukcyjnej powinny nas skłonić do nieco wnikliwszego przyjrzenia się możliwościom przez nie oferowanym. Oczywiście nie jest to strategia badawcza o uniwersalnym charakterze; wszakże nie każdy problem badawczy w ramach politologii może być zoperacjonalizowany przy użyciu zmiennych poddających się analizie statystycznej. Jak jednak jest podniesione w książce, takie zagadnienia są we współczesnych realiach raczej wyjątkiem niż regułą. Paradoksalnie, literatura przedmiotu – znowu: głównie krajowa – zdaje się kreować sytuację dokładnie odwrotną: to oszczędne sięganie po podejścia ilościowe jest regułą, i to nawet w pracach o charakterze empirycznym. Niniejsza publikacja jest zatem zaproszeniem do przedmiotowej refleksji oraz dyskusji na temat kondycji metodologicznej współczesnej politologii.
Jeżeli ktoś zechciałby użyć na opisanie powyższych zamierzeń określenia „podejście kreatywne”, wypada to opatrzyć następującym zastrzeżeniem. Otóż przyjmuje się, że istnieją trzy główne rodzaje kreatywności: kombinacyjna (combinational, tworzenie nowych bytów ze znanych elementów), badawcza lub też poszukiwawcza (exploratory, testowanie granic bez radykalnej modyfikacji dostępnych elementów) oraz przekształcająca (transformational, polega na przesuwaniu granic dotychczasowych podejść, paradygmatów i procedur). Ocena zasadności takiej klasyfikacji pozostaje oczywiście poza tematem zasadniczych rozważań. Jednocześnie treść niniejszej książki wydaje się lokować pomiędzy tymi wszystkimi trzema rodzajami kreatywności. W poniższych rozważaniach mamy bowiem do czynienia zarówno z wykorzystaniem znanych elementów procedur badawczych, jak i – mniej lub bardziej – twórczym poszukiwaniem ich granic. Stąd intencją autora było coś więcej niż tylko zarysowanie problemu, naszkicowanie jego zarysów, ale i jednocześnie nie chodziło o daleko ambitniejsze zamierzenie – uporządkowaną, wyraźną, zdecydowaną deklarację zasad nowej (sub)dyscypliny. Dwa podstawowe zamierzenia badawcze można streścić zatem następująco. Po pierwsze, chodzi o wskazanie roli, jaką współcześnie odgrywają dane – zarówno w szeroko rozumianym wymiarze społecznym/politycznym, jak i w towarzyszących mu zamierzeniach badawczych. Po drugie zaś, chodzi o wskazanie – poprzez odpowiednio usystematyzowany wywód – wad, zalet oraz możliwości tkwiących w tytułowym narzędziu analitycznym. Na ile owe zamierzenia są udane – jak zawsze w takich sytuacjach – rozstrzygną zainteresowani dalszą lekturą. Przejdźmy w tym miejscu do uwag wprowadzających i dotyczących treści książki.
Niniejsza praca nie jest podręcznikiem. Czytelnik zainteresowany dalej idącymi szczegółami związanymi z budową, działaniem, rodzajami i stosowaniem sztucznych sieci neuronowych powinien sięgnąć do szeroko przytaczanej literatury przedmiotu. Oferowane są teksty zarówno w języku polskim, jak i – w odpowiednio dużej ilości – w języku angielskim. Wielokrotnie w tej książce znajdują się odwołania do tych źródeł, co powinno ułatwić ich identyfikację i zachęcić do dalszych studiów. Dlatego też dość obszerna bibliografia ma pomóc tym, którzy mogą czuć się nieco zagubieni – czy wręcz sfrustrowani – różnorodnością poruszanej tematyki. Od razu bowiem należy wyraźnie zaznaczyć – wielość oferowanych modeli sztucznych sieci neuronowych może oszałamiać swoją różnorodnością oraz liczbą. Ich przedstawienie w formie podręcznikowej zajmuje kilkaset stron, co wszakże nie jest zamierzeniem niniejszego tekstu – stąd wskazówki, gdzie należy poszukiwać bardziej szczegółowych informacji. A zatem, odwołując się do konwencji wyznaczonej przez okładkę niniejszej publikacji – chodzi tutaj raczej o nakreślenie palety możliwych rozwiązań niż naukę ich stosowania.
Książka nie jest także z założenia przeznaczona dla Czytelników z zaawansowanym poziomem wiedzy o sztucznych sieciach neuronowych i poszukujących informacji o charakterze wysoce specjalistycznym. Może to być lektura dla takich osób, o ile tylko są one zainteresowane nieco szerszą refleksją naukową nad znanymi im sposobami analizy danych. Niniejszy tekst jest efektem prac wykonanych w ramach grantu NCN OPUS 8 „Wykorzystanie sieci neuronowych w badaniach politologicznych” (UMO-2014/15/B/HS5/01885) w latach 2015–2020. Projekt ten był realizowany w obszarze badawczym HS (Nauki Humanistyczne, Społeczne i o Sztuce, panel HS5: Normy i władza), stąd jego efekty w postaci tej publikacji są skierowane głównie do osób właśnie nieposiadających wykształcenia ścisłego/technicznego. Dlatego też dołożono wszelkich starań, aby do absolutnego minimum ograniczyć stosowanie żargonu typowego dla przedstawicieli tychże dziedzin nauki. Dodatkowo notacja matematyczna także została potraktowana w sposób elementarny, świadomie zrezygnowano również z przytaczania formalnych dowodów matematycznych. Z powyższych względów praca zawiera w dużej części rozważania o charakterze wstępnym, które przez bardziej zaawansowanych Czytelników mogą być z powodzeniem ominięte. Jednak dalsze fragmenty (traktujące o wyzwaniach wobec nauk społecznych oraz o zastosowaniach tytułowej techniki do rozwiązywania konkretnych problemów badawczych w politologii, czyli – odpowiednio – rozdziały 6 i 7) mogą zainteresować także i osoby posiadające bardziej zaawansowaną wiedzę z dziedziny nauk ścisłych, przyrodniczych czy też inżynieryjno-technicznych.
Niniejsza książka skierowana jest zatem w szczególności do osób, które do tej pory nie wykorzystywały w działalności naukowej omawianych tutaj podejść, a zwłaszcza jest kierowana do tych, którzy zakładają, że prawdopodobnie nigdy ich nie wykorzystają. Przez wzgląd na nich dołożono wszelkich starań, aby wywód – momentami nieco hermetyczny – opatrzyć odpowiednią liczbą przykładów ilustrujących interesujące nas zjawiska. Stąd też z konieczności część wykorzystanej literatury przedmiotu to prace popularnonaukowe oraz publicystyczne.
Tytuł pracy pozostaje w ścisłym związku z układem jej treści. I tak, najpierw omówione zostają zagadnienia dotyczące biologicznych sieci neuronowych, następnie założenia modelu obliczeniowego, a na końcu – mowa jest o przykładowych zastosowaniach. Stąd też, w szerszej perspektywie, książka składa się z dwóch części: teoretycznej i empirycznej opartej na swego rodzaju studium przypadku (jest nim politologia). Autor skłania się więc ku stanowisku, że to właśnie teoretyzowanie jest koniecznym – wstępnym – elementem rozeznania danego obszaru badawczego. Dopiero dysponując wiedzą uzyskaną w tym kroku, można się odnieść do określonych zastosowań praktycznych. Dzięki temu posiadanie wnikliwej, fachowej wiedzy przedmiotowej związanej z danym narzędziem niekoniecznie musi ograniczać możliwości zastosowania tego narzędzia przez osoby niemające takiej wiedzy. Podbudowa teoretyczna jest w stanie wypełnić taką lukę poprzez stworzenie stosownych ram heurystycznych. Ilustracją tej argumentacji może być – dość wszakże banalny – przykład. Otóż efektywne wykorzystanie komputera – w znakomitej większości codziennych zastosowań – nie wymaga posiadania fachowej wiedzy informatycznej. Bardziej wyrafinowanym zjawiskiem są jednak same sieci neuronowe – zarówno biologiczne, jak i sztuczne. Otóż wiele ich aspektów wciąż pozostaje nierozstrzygniętych na gruncie nauki, co nie zmienia faktu, że stanowią one przedmiot nie tylko ożywionych badań, lecz także i dynamicznie rozwijanych praktycznych aplikacji. Szerzej jest o tym mowa w dalszych częściach tekstu. Stąd wydaje się, że znajomość – choćby na podstawowym poziomie – danych narzędzi może decydować o ich właściwym wykorzystaniu, gdyż istotą takiego podejścia jest posiadanie świadomości ograniczeń tychże narzędzi.
Osobne wyjaśnienie dotyczy wspomnianej bazy źródłowej. Wykorzystano materiały różnorakiego rodzaju. Większą ich część stanowią anglojęzyczne prace naukowe, które zostały opublikowane w recenzowanych czasopismach oraz w wydawnictwach o zasięgu międzynarodowym. Warto w tym miejscu zaznaczyć, że autor niniejszej książki jest świadomy tego, że do rozwoju wielu technik omawianych poniżej przyczynili się także i badacze spoza świata anglosaskiego. Spore osiągnięcia miała w tym zakresie np. nauka rozwijana w krajach byłego bloku komunistycznego, ze Związkiem Radzieckim na czele. Gwoli ilustracji, przypomnijmy w tym miejscu choćby o osobach Aleksieja Iwachnienki (1913–2007) związanego głównie z kijowskim Instytutem Cybernetyki przy Ukraińskiej Akademii Nauk, czy też Władimira Vapnika (1936–), który do lat 90. XX wieku był związany z moskiewskimi ośrodkami naukowo-badawczymi, a następnie przeniósł się do USA. O tym, że nie są to postacie marginalne, może choćby świadczyć to, że W. Vapnik ma na swoim koncie kilkanaście tysięcy cytowań rocznie (sic!), jego książka The Nature of Statistical Learning Theory była zaś cytowana od wydania w 1995 r. niemal 85 tysięcy razy.
Ze względów oczywistych dla piszącego te słowa dodatkowo przeanalizowano także literaturę wydaną w języku polskim. Nawet jeśli nie stanowi ona części obiegu międzynarodowego, to i tak wiele publikowanych w kraju prac ma istotny walor poznawczy, a niektóre mają oryginalny charakter. Takie stanowisko jest odzwierciedlone przede wszystkim w rozdziale 3, gdzie obok dokonań nauki anglosaskiej jest także mowa właśnie i o pracach polskojęzycznych.
Jak wspomniano, poza tekstami naukowymi – głównie w celu zilustrowania omawianych zagadnień – odwołano się także do źródeł popularnonaukowych oraz publicystycznych. Jakkolwiek praktyka uwzględniania takich źródeł jest dość powszechna, to wypada wyraźnie ten wątek zaakcentować wobec rezerwy niektórych badaczy przed taką właśnie strategią przygotowywania źródeł. Nie wydaje się jednak zasadne, żeby nadmierna ostrożność musiała paraliżować szerokie poszukiwania istotnych informacji, także w źródłach nienaukowych. Oczywiście podstawowym zastrzeżeniem jest, aby były to źródła o charakterze wspomagającym, uzupełniającym, ilustrującym omawiane zjawiska – a tak jest w wypadku niniejszego tekstu. Naturalną koleją rzeczy duża część bibliografii obejmuje materiały dostępne w Internecie.
Ze względu na tematykę publikacji pewna część źródeł pochodzi także z serwisu arXiv (https://arxiv.org/). Jest to repozytorium artykułów naukowych, które jest utrzymywane na Cornell University i gromadzi ponad 1,5 miliona tekstów z nauk ścisłych oraz biologii i ekonomii. Poza faktem korzystania z zasobów w wolnym dostępie, arXiv oferuje jeszcze co najmniej jedną interesującą funkcjonalność: możliwość umieszczania kolejnych wersji tekstu. Pozwala to autorom modyfikować swoje artykuły, co wszakże z zasady jest niemożliwe w tradycyjnych kanałach komunikacji naukowej. Warto jednak pamiętać, że zasoby repozytorium tworzą prace, które nie są poddawane formalnym recenzjom, a jedynie przechodzą bardzo wstępną, elementarną weryfikację np. pod kątem uniknięcia plagiatów czy też publikowania treści nienaukowych.
Oddzielną kategorię wykorzystanych źródeł stanowią rozmowy autora z innymi badaczami, często zajmującymi się dość odległymi zagadnieniami od tych poruszanych na kartach książki. Dyskusja naukowa była prowadzona głównie przy okazji kongresów i konferencji, zarówno krajowych, jak i międzynarodowych. Zyskana przy tej okazji wiedza pozwoliła na wprowadzenie licznych zmian do oryginalnej koncepcji wywodu. Naturalnie, zgodnie z przyjętym zwyczajem, wszelkie uchybienia pozostają po stronie autora publikacji. W tym miejscu należą się także stosowne słowa podziękowania dla Recenzentów wydawniczych za wnikliwą i krytyczną lekturę tekstu.
Chcąc dokonać możliwie łagodnego wprowadzenia do tematyki, która dla części Czytelników może wydawać się nieco hermetyczna, warto odwołać się do pojęcia, które będzie wielokrotnie wykorzystywane: algorytm. Otóż dla wielu osób prawdopodobnie pierwsze skojarzenia wiążą się z informatyką lub też innymi naukami ścisłymi. Tymczasem należy sięgnąć do słownikowej definicji tego terminu, co sprowadza się do następującej formuły: algorytm to „ściśle określony ciąg czynności, których wykonanie prowadzi do rozwiązania jakiegoś zadania, zwykle zapisywany formalnie, np. w postaci programów komputerowych”. W istocie druga część definicji jest wyraźnym nawiązaniem do współczesnej dominacji wielu rozwiązań technicznych – o niektórych z nich będzie zresztą mowa dalej. Jednak zasadniczo podejście algorytmiczne – w szerokim rozumieniu tego wyrażenia – oznacza postępowanie zgodnie z określonymi procedurami, kwestią wtórną jest zaś w tym wypadku sposób konstrukcji tychże procedur. Jak zatem widać, algorytmy nie tylko mają swoje matematyczne oblicze, lecz także są powszechnie dostępne w licznych codziennych zastosowaniach od dłuższego już czasu.ROZDZIAŁ 1
WPROWADZENIE DO TEMATYKI
Jak wydaje się, istnieją trzy stopnie poznania: pierwszy stopień – przyjemne uczucie, że się zrozumiało argumenty zawarte w książce, drugi stopień – kiedy możesz powtórzyć i wykorzystać te argumenty i w końcu trzeci stopień – kiedy możesz je obalić.
J.Z. Cypkin
Sztuczne sieci neuronowe (SSN) są bardzo uogólnionym modelem obliczeniowym wzorowanym na zachowaniu komórek nerwowych, a więc czerpią z analogii do budowy mózgu. Ta analogia nie jest jednak celem samym w sobie (poza zupełnie niezależnymi próbami budowy „sztucznego mózgu”, co nie jest przedmiotem niniejszego tekstu), a przeradza się w budowę obliczeniowych modeli matematycznych opartych na idei tak zwanego uczenia maszynowego (ang. machine learning, ML).
1.1. Zalety sztucznych sieci neuronowych
Względna atrakcyjność SSN jest związana z licznymi ich właściwościami, które zostają omówione w dalszej części tekstu. Tutaj wspomnijmy tylko o tym, że mówimy o pokłosiu wieloletnich doświadczeń związanych ze stosowaniem sieci neuronowych jako przykładowego sposobu analizy danych uzyskanych z materiału empirycznego. Jest to technika badawcza, która pojawiła się na horyzoncie nauki w latach II wojny światowej, lecz szczególnie dynamicznie rozwija się od około 20–30 lat, stając się obecnie jednym z ciekawszych wyzwań metodologicznych w ramach wielu dyscyplin naukowych.
1.1.1. Liczba parametrów modelu
Przegląd zalet modeli sztucznych sieci neuronowych rozpocznijmy od cechy stosunkowo mało imponującej, czy wręcz kontrowersyjnej, gdyż mogącej wyglądać raczej jak wada niż zaleta. Otóż SSN charakteryzują się zazwyczaj znaczną liczbą parametrów. Jest to potencjalnie niekorzystna sytuacja, gdyż większa liczba parametrów stawia większe wymagania analityczne zarówno w zakresie obliczeń, jak i interpretacji wyników. Tak jest jednak tylko w tradycyjnych metodach badawczych, jak np. regresji liniowej, gdzie liczba parametrów, wzrastając w sposób wykładniczy, istotnie utrudnia analizę. Tymczasem w wypadku sieci nawet ze znaczną liczbą parametrów (porównywalną, czy wręcz przewyższającą liczbę przypadków) wciąż jest możliwe efektywne modelowanie takiego układu – a zatem mamy do czynienia z przezwyciężeniem jednego z ograniczeń klasycznej analizy danych (np. właśnie wspomniana regresja liniowa), gdzie co do zasady zakłada się, że liczba obserwacji powinna odpowiednio przewyższać liczbę estymowanych parametrów.
Zdaniem niektórych badaczy sztuczne sieci neuronowe mogą być traktowane jako uogólniony przypadek szerszej rodziny technik regresyjnych. Wskazuje się zatem na podobieństwo SSN do niektórych założeń tradycyjnych podejść statystycznych, takich jak analiza dyskryminacyjna, analiza czynnikowa (zwłaszcza analiza głównych składowych, PCA), regresja czy też analiza skupień. W konsekwencji twierdzi się, że sztuczne sieci neuronowe „należą do grupy całkiem standardowych modeli statycznych i nie wymagają zastosowania nowej «epistemologii» ani nowej teorii wnioskowania”.
Inne tradycyjne podejście – regresja logistyczna (logit) – które jest popularne zwłaszcza w ekonomii i ekonometrii, ale i w politologii w problemach klasyfikacyjnych, co do zasady zakłada, że istnieje możliwość określenia precyzyjnych założeń odnośnie do charakteru danych. W praktyce badań politologicznych jest to jednak sytuacja raczej wyjątkowa niż typowa. Nie zmienia to faktu, że modele regresyjne należą tutaj do kanonu. Czasami skłania to do nieco złośliwej konstatacji, że: „Nauki polityczne są jedyną dyscypliną naukową, gdzie regresja jest utożsamiana z postępem”.
Co szczególnie interesujące, SSN, które posiadają zazwyczaj sporą liczbę parametrów, i tak pozwalają na modelowanie złożonych zjawisk przy wykorzystaniu mniejszej liczby tychże parametrów, niż byłoby to w wypadku innych klasycznych technik, o ile miałyby one być stosowane do rozwiązywania analogicznych zadań.
W powyższym kontekście interesująca powinna być następująca konstatacja. Otóż sztuczne sieci neuronowe wiążą się często z analizą znacznej liczby parametrów i danych, ale jednocześnie nie musi to oznaczać konieczności uwzględnienia wielu zmiennych. W niektórych zastosowaniach SSN oznacza to osiągnięcie lepszych modeli przy zastosowaniu ponad połowy mniejszej liczby zmiennych niż w modelach liniowych. Jest tak wtedy, gdy ważniejsze od ich liczby są wzajemne relacje pomiędzy nimi zachodzące. Krótko rzecz ujmując: „W podejściach nieliniowych to raczej związki zachodzące pomiędzy zmiennymi, a nie ich duża liczba, wystarczają do wytworzenia złożonych rezultatów”. Jeżeli są to faktycznie związki nieliniowe (o czym szerzej poniżej), to SSN są podejściem szczególnie predestynowanym do wykorzystania w analizie.
1.1.2. Biologiczne inspiracje
Jest to argument obecny w przedmiotowych rozważaniach na wielu płaszczyznach, o szczegółowych kwestiach mowa zaś także i poniżej. Jednocześnie należy go tutaj potraktować jako wartość samą w sobie. To znaczy, fakt oparcia się o biologiczny pierwowzór uprawdopodobnia możliwość dysponowania odpowiednio atrakcyjnym narzędziem. Jest to szczególnie uzasadnione, jeżeli uwzględnimy, że oryginał jest rozwiązaniem nadzwyczaj sprawnym. Choć będzie o tym mowa dalej (podrozdział 2.1), to już na wstępie zaznaczmy, że owa sprawność układu biologicznego w większości sytuacji wielokrotnie przewyższa możliwości analityczne rozwiązań algorytmicznych.
1.1.3. Elastyczność
Sztuczne sieci neuronowe – zwłaszcza w porównaniu z klasycznymi metodami regresyjnymi – są elastyczne w tym sensie, że w razie wystąpienia zbyt dużych błędów ich pracy i spadku możliwości analitycznych sieć poszukuje lepszej „reprezentacji procesu generującego dane, nawet jeżeli oznacza to zmianę całej struktury sieci”. Ujmując rzecz najprościej – sieć neuronowa modyfikuje swoją strukturę zgodnie z posiadanymi danymi i zadanym problemem – zmiana tych elementów pociąga za sobą zmianę struktury sieci. Jak wiadomo, w wypadku podejść bardziej konwencjonalnych, w takiej sytuacji jesteśmy zmuszeni odrzucić nieefektywny model i przystąpić do konstruowania nowego. Wskazywana tutaj cecha oznacza w szczególności możliwość zastosowania SSN do analizy masowych danych napływających w czasie rzeczywistym.
1.1.4. Sieciowa struktura. Stabilność i efektywność analizy dużych zbiorów danych
Ponadto szczególna budowa (powszechnie używa się określeń „architektura” oraz „topologia” – tak też w dalszej części tekstu) SSN decyduje o jej stabilnym zachowaniu, co ma zasadnicze znaczenie użytkowe, gdyż ułatwia prowadzenie obliczeń. Jak większość rozwiązań opartych o strukturę sieciową, tak i w interesującym nas wypadku mamy do czynienia z układem odznaczającym się stosunkowo daleko idącą odpornością na uszkodzenia pojedynczych elementów – przyjmuje się, że pozbawienie układu sieciowego nawet około 1/10 jego elementów wciąż może oznaczać jego poprawne funkcjonowanie.
Dodatkowo struktura sieciowa oznacza rozproszenie informacji oraz towarzyszących jej błędów, co sprowadza się do wydajnego sposobu pracy układu. Stąd sztuczne sieci neuronowe mają zdolność do efektywnej analizy dużych zbiorów danych (big data). Owa efektywność analizy w szczególności oznacza:
1) zdolność do równoległego (współbieżnego) przetwarzania informacji. Cecha ta zasadniczo odróżnia sieci neuronowe od tradycyjnego podejścia do analizy danych, gdzie proces przebiega w określonej sekwencji obliczeń, „krok po kroku”, iteracyjnie – jak to ma miejsce np. w wypadku klasycznych komputerów opartych na podejściu zapoczątkowanym jeszcze w połowie XX wieku przez Johna (Jánosa) von Neumanna, gdzie stosuje się sekwencję zaprogramowanych instrukcji. W takim wypadku błąd jednego elementu powoduje awarię całego systemu. W wypadku struktur sieciowych, czyli zazwyczaj odpowiednio rozbudowanych („gęstych”, „głębokich”), mamy do czynienia ze znoszeniem się błędów części składowych, wynik zaś jest rezultatem pracy całego układu. Ujmując rzecz nieco inaczej – sieć nie przetwarza jednego sygnału w danej jednostce czasu, ale równolegle cały zbiór sygnałów. Ze względów tutaj wskazywanych struktura sieciowa (zdecentralizowana) jest także wykorzystywana w niektórych nowszych technologiach przetwarzania informacji, takich jak np. technologia rozproszonego rejestru (blockchain) – zwłaszcza wtedy gdy mamy do czynienia z danymi o charakterze wrażliwym;
2) zdolność do generalizacji (uogólniania), czyli uczenia się na zaprezentowanych przykładach i stosowania tak uzyskanej wiedzy do rozwiązywania nowych problemów (jest to więc zdolność do adaptacji do nowych danych). Inaczej rzecz ujmując, sztuczne sieci neuronowe „uczą się na własnych błędach”, czyli są przykładem systemu, który polepsza swoje działanie wraz z upływem czasu. Ze względów wskazanych w dalszej części tekstu to właśnie zdolność do generalizacji, a nie tradycyjnie wykorzystywane w modelowaniu statystycznym miary dobroci dopasowania, powinna być wyznacznikiem jakości modelu. Od razu należy wyraźnie zaznaczyć, że możliwość uogólniania wiedzy przez rozwiązania algorytmiczne jest kwestią dyskusyjną i wciąż są podejmowane próby jej efektywnego zapewnienia – np. poprzez odniesienie się do biologicznego mechanizmu neuromodulacji, czyli elastycznego dostrajania działania neuronu do nowych sygnałów;
3) użyteczność przy analizie danych, które są niekompletne i/lub nieustrukturyzowane. Jest to istotne zwłaszcza w realiach współczesnego świata, gdzie mamy do czynienia z natłokiem danych, które jednak nie zawsze są uporządkowane w sposób ułatwiający ich analizę. Tym samym sztuczne sieci neuronowe posiadają zdolność analizy danych nie tylko wyrażonych w skali interwałowej, lecz także i porządkowej czy też nominalnej. Dodatkowo, powszechnie jako dane wejściowe stosuje się nie tylko wielkości liczbowe, czy też szerzej – symbole alfanumeryczne, ale i obrazy. Problemu jakości (i ilości) danych dotyczy także zdolność radzenia sobie sieci z wpływem danych odstających, nietypowych (outliers, anomalies) na wyniki analizy;
4) uniwersalność. Dzięki swojej charakterystyce sztuczne sieci neuronowe mogą być względnie łatwo stosowane do analizy podobnych zadań. Dotyczy to także możliwości wykorzystania modelu do replikacji badań. Ta kwestia jest szerzej omówiona w dalszej części tekstu (podrozdziały 6.2 oraz 6.3).
Powyżej wskazane argumenty na rzecz SSN powinny być oceniane jako istotne. Tym bardziej warto nieco więcej miejsca poświęcić prawdopodobnie najważniejszej zalecie sztucznych sieci neuronowych – zdolności do odwzorowywania złożonych związków funkcyjnych.
1.1.5. Brak konieczności spełnienia warunku liniowości i normalnego rozkładu danych
Ze względu na wagę tego argumentu poświęcimy mu nieco więcej miejsca. I tak, sztuczne sieci neuronowe są pomocne w analizie zjawisk nie do końca zdefiniowanych precyzyjnie w sposób formalny, czyli jest możliwe zastosowanie interesującej nas techniki bez dogłębnego wnikania w charakter (związek funkcyjny) założeń teoretycznych badanego problemu. Dalszą konsekwencją takiego stanu rzeczy jest możliwość manipulowania w sieciach neuronowych związkami przyczynowo-skutkowymi – można zatem uczynić skutek przyczyną, czyli można dokonać badania pod kątem oczekiwanych parametrów, efektów, skutków (sieć neuronowa jako tzw. model odwrotny). W szczególności oznacza to także brak konieczności spełnienia a priori warunku liniowości oraz normalnego rozkładu zmiennych. Brak tych cech oraz współzależności zachodzące między zmiennymi są natomiast dość powszechne w danych wykorzystywanych w politologii.
Argument dotyczący jakości zmiennych jest szczególnie dobrze widoczny w zastosowaniach wspomnianej już regresji wielokrotnej. Otóż oprócz tego, że dane muszą spełniać warunek normalnego rozkładu i liniowego związku zmiennych zależnych i niezależnych, należy także zbadać zmienne pod kątem możliwych odstępstw od równomiernego rozkładu wariancji reszt modelu (heteroskedastyczność). Formalnie rzecz ujmując, stajemy przed problemem wielowymiarowości danych. Dodatkowo w modelowaniu liniowym raczej pomija się możliwość, że to nie tyle same zmienne niezależne wpływają na zmienną zależną, ile wzajemne relacje pomiędzy zmiennymi mogą determinować logikę wyjaśnianego zjawiska.
Od strony technicznej modelowanie nieliniowe oznacza z kolei odejście od powszechnie znanych metod analizy regresyjnej, jak choćby metoda najmniejszych kwadratów (ordinary least squares, OLS). Jakkolwiek posiada ona ugruntowaną pozycję w statystyce, odznacza się ona także co najmniej jedną „kłopotliwą” właściwością – jest wrażliwa na wartości odstające w zbiorze danych. Sposób radzenia sobie z tym faktem jest także dobrze znany: pomija się takie dane ze zbioru. Mówiąc zatem wprost – dane dobiera się do narzędzia, a nie narzędzie do danych. Czytelnika, który uważa taki stan rzeczy za pożądany, szczególnie zachęca się do dalszej lektury.
Sieci neuronowe pozwalają zatem na budowę nieliniowych modeli zachowań złożonych systemów, zwykle lepiej odwzorowujących rzeczywistość od prostszych modeli liniowych. Owa prostota jest głównie związana z tym, że założenia modeli liniowych są dobrze rozpoznane i istnieją wypracowane strategie optymalizacji. W najogólniejszym ujęciu związek liniowy polega na tym, że zmienna niezależna ma stały wpływ (w sensie jego kierunku i wielkości) na zmienną zależną. Ów wpływ jest niejako „uśredniany” pomiędzy zmiennymi w skali całego badanego procesu. Jest to szczególnie dobrze widoczne w wypadku operowania zmiennymi wyrażonymi w skali porządkowej: w związkach liniowych zakłada się, że przejście od jednej kategorii do kolejnej jest zawsze równe, jest jednakowy dystans pomiędzy tymi kategoriami. Kwestią otwartą pozostaje, na ile jest to zgodne z empirycznym ekwiwalentem. Pozostawiając na boku dane wyrażone w skali porządkowej, dość prostym, ale i jednocześnie dobrym przykładem z życia codziennego jest związek pomiędzy wzrostem temperatury (zmienna niezależna) a podnoszeniem się słupka rtęci w termometrze (zmienna zależna): dokonuje się to zawsze w tym samym tempie, to znaczy wzrost temperatury o daną wielkość powoduje zawsze wzrost słupka rtęci, niezależnie czy są to wartości dodatnie, czy też ujemne. W interesujących nas zagadnieniach politologicznych liniowość oznacza możliwość opracowania modelu, który przy wykorzystaniu skończonej (choć znacznej) liczby parametrów jest w stanie wyjaśnić dane zjawisko; jest to postulat co do możliwości wyznaczenia „deterministycznego algorytmu”.
Z kolei procesy nieliniowe charakteryzują się podatnością na duży wpływ małych zmian warunków początkowych („efekt motyla”), nierównowagą przebiegu, złożonymi wzorami zachowań, nagłymi zmianami wyników oraz – co oczywiste – skomplikowanym powiązaniem zmiennych i ich różnym wpływem na wynik końcowy. Przekładając powyższe na język bardziej formalny: sztuczne sieci neuronowe dzięki znacznej liczbie parametrów są w stanie odwzorować jakikolwiek związek funkcyjny, w tym zwłaszcza o charakterze nieliniowym. Dodatkowo SSN sprawdzają się w sytuacjach, gdy charakter tego związku pomiędzy zmiennymi w ogóle nie jest znany. A zatem wykorzystanie SSN nie determinuje konieczności rozstrzygnięcia dylematu liniowość–nieliniowość, a tym bardziej – nie na korzyść tej pierwszej cechy.
Inną cenną właściwością sztucznych sieci neuronowych jest możliwość modelowania zjawisk zoperacjonalizowanych przy użyciu zmiennych, które niekoniecznie pochodzą z niezależnych obserwacji. Ponownie w problemach z nauk politycznych – czy też ogólnie z nauk społecznych – jest to zagadnienie o istotnym ciężarze gatunkowym. Odwołując się do konkretnego przykładu: racjonalne założenie odnośnie do badania konfliktów zbrojnych opiera się na przyjęciu tezy mówiącej o tym, że fakt zaistnienia wojny w przeszłości może w jakimś stopniu wpływać na prawdopodobieństwo jej wybuchu w przyszłości; nie są to zatem obserwacje niezależne od siebie.
Założenie nieliniowości jest w istocie dość powszechnie obecne w politologii, gdzie gruntowna analiza musi uwzględniać zarówno wewnętrzną dynamikę badanego systemu, jak i siły działające na niego z zewnątrz; rzadko kiedy są to mechanizmy znane, proste, przewidywalne i w konsekwencji często zakłada się, że nie są łatwe do formalnego modelowania. Wypada zgodzić się tylko z pierwszą częścią tego stwierdzenia: istotnie, szereg zjawisk społecznych (a zatem także i politycznych) charakteryzuje się nieliniową dynamiką typową dla systemów złożonych. Jednocześnie okazuje się, że wcale nie musi to automatycznie oznaczać spiętrzenia trudności analitycznych. Otóż istnieje stosunkowo długa (sięgająca co najmniej lat 70. XX wieku) linia argumentacji podkreślająca możliwość wyjaśnienia złożonych zjawisk społecznych poprzez stosunkowo niewielką liczbę zmiennych – o ile tylko owe zmienne będą powiązane ze sobą nieliniowo. Ujmując rzecz precyzyjnie, jeżeli związki nieliniowe są trudne w analizie, wynika to nie tyle ze złożoności samych stosowanych modeli, ile ze złożonego charakteru otrzymanych informacji i związanych z tym trudności interpretacyjnych.
Wspomniane powyżej „systemy złożone” są samodzielną przestrzenią dociekań naukowych. Co do zasady wyróżnia się trzy główne rodzaje systemów: proste (simple), skomplikowane (complicated) i właśnie złożone (complex). Pierwsze z nich znacznie uprawdopodobniają osiągnięcie sukcesu w razie kierowania się określonymi wskazówkami/regułami (jak np. przy przygotowywaniu potraw). W wypadku układów skomplikowanych wymagana jest już wiedza fachowa, szczegółowa, ale wciąż postępowanie wynika z przestrzegania wypracowanych procedur (przykład: wysłanie statku kosmicznego na Księżyc). Z kolei systemy złożone charakteryzują się daleko idącą nieprzewidywalnością, niepowtarzalnością zaistniałych warunków czy też zdolnością do adaptacji (przykład: proces wychowywania dzieci).
Systemy złożone to także takie układy, których analiza wiąże się m.in. z następującymi zastrzeżeniami:
1) jest możliwość zaobserwowania względnie rzadkich, ale za to znacznych zmian w interesującym nas procesie – stąd badanie przy wykorzystaniu statystyki opisowej czy też analizy korelacyjnej i formułowanie na tej podstawie wniosków o związkach przyczynowo-skutkowych bywa bardzo zawodne;
2) wykorzystanie podstawowych metod ilościowych jest ograniczone, gdyż są one związane z koniecznością spełnienia warunku liniowości i bardzo często normalnego rozkładu zmiennych.
Przedmiotowe badania systemów złożonych są realizowane m.in. w ramach teorii chaosu, mechaniki kwantowej, logiki rozmytej, sztucznej inteligencji czy też modelowania komputerowego. Niektóre z tych obszarów są także punktem odniesienia do dalszych rozważań w niniejszej pracy – dotyczy to w szczególności trzech ostatnich pól badawczych.
W naukach politycznych (zresztą nie tylko w politycznych, ale wszędzie tam, gdzie badacze jedynie wykorzystują modele matematyczne, jednak bez ich lepszego zrozumienia) można napotkać na zastosowanie z jednej strony bardzo upraszczających modeli liniowych, z drugiej zaś – ich odpowiedników zbyt złożonych, niepotrzebnie zaciemniających rozwiązanie. W naukach społecznych, a w politologii w szczególności, związki przyczynowo-skutkowe charakteryzują się zwykle wysokim współczynnikiem nieliniowości, zmienne zaś często są ze sobą powiązane, ale nie jest znany powód takiego stanu rzeczy. Warto także w tym miejscu powtórzyć jedną z klasycznych przestróg metodologicznych: związek zachodzący między zmiennymi nie zawsze musi oznaczać relację przyczynowo-skutkową.
Dodatkowo, wiele spośród relacji społecznych odznacza się zdolnością do zmiany, adaptacji, trajektoria tych procesów jest zaś stosunkowo trudna do ujęcia w precyzyjne ramy teoretyczne. Przykładem ilustrującym taką sytuację może być choćby konkretna realizowana polityka (np. w sektorze energetycznym czy też ochronie zdrowia) – wyniki jej realizacji są do pewnego (znacznego) stopnia nieprzewidywalne, gdyż w istocie zależą od licznych pozytywnych i negatywnych „oddziaływań zwrotnych (feedback loops)”.
W świetle powyższych rozważań dość oczywiste wydaje się stwierdzenie mówiące o sferze polityki jako przykładzie układu złożonego. Badania prowadzone w tym zakresie wskazują na co najmniej dwa czynniki uzasadniające taką tezę. Są nimi: (1) wzajemne powiązanie ze sobą zjawisk politycznych (interconnectedness) oraz (2) powiązane ze sobą procesy ograniczonego dostępu do informacji i uczenia się. Oba te składniki mają swoje przełożenie na realia stosowania sztucznych sieci neuronowych, o czym jest szerzej mowa w dalszej części książki.
Jeszcze inna perspektywa spojrzenia na świat polityki z uwzględnieniem jej złożoności sprowadza się do zaproponowania kategorii „nieprecyzyjnie zdefiniowanych problemów (ill-defined problems)”. Jest to próba zaakcentowania wyraźnie odmiennego charakteru zjawisk politycznych od np. zjawisk fizycznych. Te drugie bowiem są względnie dobrze rozpoznane pod kątem zachodzących relacji między zmiennymi, co z kolei skutkuje możliwością wskazania strategii optymalizacyjnych wobec badanego układu.
Podsumujmy zatem, jak powyższe uwagi – a zwłaszcza te dotyczące nieliniowości dość powszechnie charakteryzującej zjawiska społeczne – należy odnieść do sztucznych sieci neuronowych. W jakim sensie może to determinować ich użyteczność w analizie politologicznej? Tradycyjnie wykorzystywane techniki analizy – regresja liniowa i jej warianty nieliniowe – posiadają swoje istotne ograniczenia, o jednym z nich należy zaś tutaj wyraźnie wspomnieć. Otóż obie zakładają istnienie określonych zależności funkcyjnych w wyjaśnianym zjawisku. Są to – odpowiednio – związki liniowe i nieliniowe. Jest to założenie, które w wielu – zbyt wielu, aby to przemilczać – sytuacjach stawia pod znakiem zapytania wartość prowadzonych badań. Jak wskazano powyżej, jest to szczególnie widoczne w wypadku odwołania się do regresji liniowej. Tymczasem właściwości matematyczne SSN pozwalają na modelowanie wszelkich związków funkcyjnych przekształcających dane wejściowe na wyjściowe – związków zarówno liniowych, jak i nieliniowych, i to w ramach jednej procedury badawczej. Dzieje się tak dlatego, że w wypadku sztucznych sieci neuronowych nie ma potrzeby zakładania określonych związków funkcyjnych przed przystąpieniem do analizy, co więcej – wcześniejsza wiedza co do istnienia takich relacji w ogóle nie jest wymagana. Jednym z celów badania zjawisk przy użyciu SSN jest właśnie wykrycie, czy takie związki funkcyjne zachodzą, a jeżeli tak – to jaki mają charakter (liniowy, nieliniowy, dodatni, ujemny itd.). Jako oczywistość trzeba przy tym potraktować uwagę, że w świetle powyższego badacz bynajmniej nie jest zwolniony z konieczności posiadania wiedzy fachowej, merytorycznej odnośnie do rozwiązywanego problemu. Uwidacznia się to choćby już na samym początku procedury, gdy należy postawić właściwe pytania badawcze/hipotezy; właściwe, czyli uzasadnione właśnie wiedzą ekspercką, sformułowane w oparciu o stan badań przedmiotu, odpowiednie założenia teoretyczne czy też poddane operacjonalizacji. Także i dobór właściwych zmiennych wymaga wykazania się stosowną wiedzą przedmiotową – owe zmienne nie mogą bowiem mieć ateoretycznego charakteru. Także i końcowa faza badań – czyli ocena wartości modelu i interpretacja wyników – nie zwalnia nas z obowiązku posiadania stosownej wiedzy i umiejętności. Błędem jest zakładanie, że SSN „same” działają – jest tak, ale tylko w bardzo wąskim rozumieniu, czyli wtedy kiedy chodzi o dokonanie stosownych obliczeń.
Ujmując rzecz krótko, sztuczne sieci neuronowe mogą spełnić warunek elastycznego modelowania zjawisk społecznych, co – w nieco innym ujęciu – D. Richards nazwała modelowaniem „zupełnym”, „całościowym” (full-spectrum modeling). Chodzi mianowicie o taką procedurę, która, po pierwsze, jest odpowiednio dobrana do danych, po drugie, jest odpowiednio efektywna i, po trzecie, nadmiernie nie ogranicza horyzontów analitycznych ani krępującymi warunkami wstępnymi, ani innymi kanonami analizy – w tym miejscu brak konieczności znajomości zależności funkcyjnych jest znamienny. SSN szeroko otwierają przed nami drzwi do poznania naukowego.
Jednocześnie należy mieć na względzie, że jakkolwiek niektóre szczegóły związane z sieciami neuronowymi mogą sugerować nieograniczone możliwości analityczne, w istocie nie mamy do czynienia z uniwersalnym narzędziem badawczym, które zawsze da się zastosować do każdego problemu badawczego. Przyjrzyjmy się zatem ograniczeniom SSN.