Mały korpus – wielkie wyzwania. Small corpora – big challenges - ebook
Mały korpus – wielkie wyzwania. Small corpora – big challenges - ebook
Najczęściej używamy dużych korpusów, ale jesteśmy twórcami małych. Dostępna literatura dotyczy jednak głównie dużych korpusów i sposobów ich wykorzystania. O małych korpusach wspomina się najczęściej przy okazji definiowania dużych, ale nawet jeśli przygotowywany mały korpus wydaje nam się czymś ulotnym czy jednorazowym […], to warto go opracować tak, aby miał szansę na powtórne wykorzystanie i rozwijał możliwości architektury korpusowej.
Na rynku wydawniczym nie spotkamy wielu książkowych publikacji na temat małych korpusów, nie ma ich wiele na rynku anglosaskim, nieobecne są także w Polsce. Przywiązywanie małej wagi do tego typu materiałów okazuje się jednak błędem. Praca prof. Zaśko-Zielińskiej wykazuje wagę i znaczenie małych korpusów w praktyce językoznawczej, zapoznaje czytelnika z typem działań, które okazują się kluczowe dla analiz językoznawczych, ich zastosowań oraz wniosków z nich wypływających.
(z recenzji prof. dr hab. Barbary Lewandowskiej-Tomaszczyk)
Monika Zaśko-Zielińska kieruje Zakładem Lingwistyki Korpusowej w Instytucie Filologii Polskiej Uniwersytetu Wrocławskiego. Interesuje się genologią lingwistyczną, lingwistyką korpusową i lingwistyką kryminalistyczną. Jest autorką i współautorką monografii Przez okno świadomości: gatunki mowy w świadomości użytkowników języka (2002), Listy pożegnalne: w poszukiwaniu lingwistycznych wyznaczników autentyczności tekstu (2013), współredaktorką (wraz z K. Kredensem) tomu Lingwistyka kryminalistyczna. Teoria i praktyka (2019) oraz współautorką pracy Od rozmowy do korpusu (wraz z A. Majewską-Tworek, M. Śleziak i A. Tworkiem). Jej współpraca z Clarin-PL zaowocowała przygotowaniem najstarszego zasobu (Mowa Wrocław) do wyszukiwarki danych konwersacyjnych Spokes w ramach prac zespołu Pracowni Polszczyzny Mówionej IFP UWr kierowanej przez Annę Majewską-Tworek. W ramach grantu NCN-u przygotowała Polski Korpus Listów Pożegnalnych, co stało się inspiracją do przyjrzenia się metodologii tworzenia małych korpusów, a zwłaszcza możliwościom dokumentowania języka pisanego w odmianie nieoficjalnej na podstawie korespondencji prywatnej. Zapoczątkowało to koncepcję Polskiego Korpusu Korespondencji Prywatnej (praca w zespole z K. Wabnicem i J. Krzywdzińskim), który powstaje dzięki współpracy ze studentami i doktorantami UWr.
Ta publikacja spełnia wymagania dostępności zgodnie z dyrektywą EAA.
Spis treści
Od Autorki
1. Wstęp
1.1. Czym jest mały korpus?
2. Etyka badań a małe korpusy
3. Mały korpus: projektowanie według uznanych zasad i nowych możliwości
3.1. O czytaniu małych korpusów
4. Wybór typu korpusu
4.1. Korpusy specjalistyczne
4.2. Korpusy gatunków
4.2.1. Korpus gatunku a typologie tekstów w dużych korpusach
4.3. Miejsce planowanego korpusu wśród innych korpusów specjalistycznych
4.3.1. Łączenie, zestawianie małego korpusu z innymi zasobami
4.3.1.1. Korpusy listów – możliwości łączenia zasobów elektronicznych i drukowanych
5. Wielkość małego korpusu i jej uwarunkowania
5.1. Miary wielkości
5.1.1. Próbki w korpusie: całe teksty czy ich fragmenty
5.2. Mały korpus – subkorpus – duży korpus
6. Mały korpus – wybór danych
6.1. Dane mówione
6.1.1. Nagrywanie i zbieranie danych o mówcach
6.1.2. Transkrybowanie danych mówionych do małego korpusu
6.2. Dane pisane ręcznie
6.2.1. Transkrypcja tekstu ręcznego jako odczytanie
6.3. Dane webowe do małych korpusów
6.4. Dane multimodalne
7. Metadane – wyszukiwalność małego korpusu
7.1. Zakres opisu metadanych
7.2. Metadane do korpusów webowych
8. Anotacja małego korpusu
8.1. Mały korpus jako zasób treningowy
8.2. Anotacja morfosyntaktyczna
8.3. Anotacja błędów
8.4. Anotacja pragmatyczna
8.4.1. Anotacja multimodalna
8.5. Anotacja semantyczna
9. Reprezentatywność małego korpusu
9.1. Reprezentatywność jako oczekiwana i oczywista cecha danych korpusowych a reprezentatywność zaprojektowana do konkretnych celów
9.2. Reprezentatywność jako brak wpływu selekcji na dobór danych
9.3. Reprezentatywność jako wybór typowych albo idealnych przykładów
9.4. Reprezentatywność jako miniatura populacji tekstów i pokrycie zróżnicowania zdarzeń językowych
9.5. Reprezentatywność jako możliwość poprawnego szacowania
9.6. Reprezentatywność jako cecha nieosiągalna
10. Dokumentacja korpusu
10.1. Nazwa korpusu
10.2. Strona korpusu, informacje w ramach aplikacji webowych
10.3. Użytkownicy małego korpusu a jego udostępnianie
11. Metody analizy korpusowej w ramach małego zasobu
11.1. Triangulacja małego korpusu
11.1.1. Dane w małym korpusie a ich triangulacja
11.1.2. Triangulacja badacza – w stronę intersubiektywności badań
11.1.3. Triangulacja teorii – między oczekiwaną odpowiedzią a pełnym oglądem
11.1.4. Triangulacja metod a optymalizacja wyników
12. Kiedy „małe jest piękne”?
12.1. Zobaczyć nieznany fragment rzeczywistości językowej
12.2. Kontekstualizacja danych i projekty anotacji
12.3. Upowszechnianie, standaryzacja, współtworzenie zasobów językowych
Bibliografia
Indeks osobowy
Preface
1. Introduction
1.2. What is a small corpus?
2. Small corpora and research ethics
3. Small corpus design: accepted rules and new possibilities
3.1. On reading small corpora
4. Deciding on corpus type
4.1. Specialised corpora
4.2. Genre corpora
4.2.1. Genre corpus and text typologies in large corpora
4.3. Small corpora among other specialised corpora
4.3.1. Combining and collating a small corpus with other resources
4.3.1.1. Letter corpora: on combining digital and printed resources
5. Corpus size and its importance
5.2. Measures of size
5.1.1. Corpus samples: full texts or their fragments
5.2. Small corpus – subcorpus – large corpus
6. Small corpus – data selection
6.1. Spoken data
6.1.1. Recording and collecting information about speakers
6.1.2. Transcribing spoken data for small corpora
6.2. Handwritten data
6.2.1. Transcribing a handwritten text is similar to reading it out loud
6.3. Web data in small corpora
6.4. Multimodal data
7. Metadata – findability of a small corpus
7.1. Ranges of metadata description
7.2. Metadata for web corpora
8. Annotating a small corpus
8.1. Small corpora as training data
8.2. Morphosyntactic annotation
8.3. Error annotation
8.4. Pragmatic annotation
8.4.1. Multimodal annotation
8.5. Semantic annotation
9. Representativeness of small corpora
9.1. Representativeness as an obvious and expected characteristic of corpus data or representativeness designed for specific purposes
9.2. Representativeness understood as the absence of selection bias
9.3. Representativeness as choosing typical or perfect examples
9.4. Representativeness as a miniature of the population and as coverage of the diverse language events
9.5. Representativeness that permits good estimation
9.6. Representativeness as an unachievable feature
10. Documenting the corpus
10.1. Corpus name
10.2. Corpus website and corpus description in web apps
10.3. Small corpus users and corpus availability
11. Methods of corpus analysis for smaller resources
11.1. Triangulating a small corpus
11.1.1. Small corpus data and their triangulation
11.1.2. Investigator triangulation – looking towards the intersubjectivity of research
11.1.3. Theory triangulation – between the expected answer and a complete outlook
11.1.4. Method triangulation and optimising results
12. When is it the case that “Small is beautiful”?
12.1. The ability to see an unknown fragment of linguistic reality
12.2. Contextualising data and designing annotation
12.3. Publishing, standardising and co-creating language resources
Bibliography
Index of persons
| Kategoria: | Polonistyka |
| Zabezpieczenie: |
Watermark
|
| ISBN: | 978-83-242-6871-9 |
| Rozmiar pliku: | 8,8 MB |
FRAGMENT KSIĄŻKI
Książka _Mały korpus – wielkie wyzwania_ ukazuje się w dwóch wersjach językowych: polskiej i angielskiej, do czego zainspirował mnie przegląd literatury z zakresu lingwistyki korpusowej w Polsce i na świecie oraz dwujęzyczna edycja pracy Adama Przepiórkowskiego _Korpus IPI PAN. Wersja wstępna_ / _The IPI PAN Corpus. Preliminary version_ (2004). Wybór jednego języka publikacji ma bowiem wpływ na poszerzanie lub ograniczanie kręgu odbiorców (tylko polskojęzyczni lub tylko anglojęzyczni); ułatwia lub utrudnia dialog z innymi badaczami, może rzutować na rozwój dyscypliny lub subdyscypliny w kraju, a także na umiędzynarodowienie lub wymiar lokalny badań (por. Kulczycki i in. 2020: 371–1385; Kulczycki, Engels, Pölönen 2023: 57–75). Mimo że język angielski mógłby się wydawać faworytem w tej konkurencji, to dostrzega się zarówno pozytywy, jak i negatywy tego wyboru, co uwidacznia tytuł artykułu: _The role of English in scientific communication: lingua franca or Tyrannosaurus rex?_ (Tardy 2004: 247–269). W odniesieniu do rozwoju lingwistyki korpusowej warto zauważyć właściwy dla nauk ścisłych bliskich tej dyscyplinie anglojęzyczny obieg komunikacji, a także szczególne znaczenie anglojęzycznej terminologii z tego zakresu, która jest uprzednia w stosunku do jej odpowiedników słowiańskich (Hebal-Jezierska 2021).
Na koniec tej najbardziej wstępnej części chciałabym serdecznie podziękować Pani Profesor Barbarze Lewandowskiej-Tomaszczyk – recenzentce tej książki – za inspirujące sugestie, a Panu Doktorowi Jędrzejowi Olejniczakowi – za przygotowanie tłumaczenia.1. WSTĘP
Najczęściej używamy dużych korpusów, ale jesteśmy twórcami małych. Dostępna literatura dotyczy jednak głównie dużych korpusów i sposobów ich wykorzystania. O małych korpusach wspomina się najczęściej przy okazji definiowania dużych, a krótkie instrukcje ich tworzenia znajdziemy w ramach aplikacji webowych lub przewodników1. Niewiele jest jednak monografii poświęconych małym korpusom2: zazwyczaj znajdujemy tylko pojedyncze rozdziały lub artykuły na ten temat, więc warto zastanowić się nad przyczynami tej sytuacji. Być może luka wynika z braku potrzeby szerszego opisu małych korpusów, mimo że mają one często innych twórców i odbiorców niż duże. Uznalibyśmy wtedy, że mały korpus jest tylko pewną modyfikacją dużego korpusu i opracowania na temat tego drugiego są zupełnie wystarczające. Inną przyczyną wspomnianego braku jest postrzeganie małych korpusów jako roboczego źródła danych, które ma doraźny charakter (por. _disposable corpus_), nie będzie upubliczniane czy też powtórnie wykorzystywane (por. _home-grown corpus, private corpus_). Natomiast najnowsze strategie polityki europejskiej czy też krajowej, w tym polskiej, nakłaniają badaczy do gromadzenia danych językowych oraz ich upubliczniania, aby możliwy był rozwój gospodarki oparty na danych i na wiedzy3. Bardzo istotne jest bowiem budowanie dużych zasobów (częściowo powstających z łączenia małych), które umożliwiają prace m.in. nad sztuczną inteligencją oraz obniżają koszty prowadzenia kolejnych badań na podstawie tych samych danych. Wiedza o małych korpusach potrzebna jest zupełnie nowym użytkownikom tego typu zasobów, którzy dzięki aplikacjom webowym niemal w tym samym momencie stają się twórcami i odbiorcami swoich własnych korpusów, a efekty ich pracy mogą współtworzyć duże zasoby danych językowych.
Mimo że historia małych korpusów jest krótka, to obecnie istnieje wiele ich typów, więc trudno przyglądać się wszystkim z taką samą starannością. Moje doświadczenia z małym korpusem rozpoczęły się od korpusu specjalistycznego, który zawiera przykłady realizacji jednego gatunku mowy – listów pożegnalnych (Polski Korpus Listów Pożegnalnych / Polish Corpus of Suicide Notes4). Ten zasób zgodnie z wstępnym zamysłem powstał w celu opracowania jednego projektu. Okazało się, że zarówno dla mnie, jak i wielu innych badaczy jest to wciąż użyteczny korpus, który ma szansę na rozbudowywanie. W podobny sposób inne małe zasoby mogą stawać się podstawą kolejnych badań, ale także zasilać duże zbiory danych, proponować rozwój metadanych i anotacji oraz wspierać rozwój kompetencji użytkowników i twórców kolejnych współdzielonych zbiorów danych. Praca nad korpusem pozwoliła mi też zorientować się, jak duży jest dorobek metodologiczny w zakresie korpusowego opisu danych gatunkowych i jak wielu specjalistów z zakresu różnych dyscyplin z nich korzysta. Systematyczny przegląd tych danych, jeśli tylko będą udostępniane, ma z pewnością ogromne znaczenie w budowaniu i architekturze wielkich zasobów językowych.
1.1. Czym jest mały korpus?
Wydaje się, że śladów odrębności małych i dużych korpusów można poszukać w początkach ich funkcjonowania. Z pewnością historie dużych i małych korpusów nie są równoległe, gdyż jedna z nich jest krótsza. Gdy spojrzymy na przedstawiane w różnych publikacjach typologie korpusów, to okaże się, że nie w każdej z nich uwzględniono mały korpus. Pierwotnie zamysł tworzenia korpusów wiązał się głównie z dążeniem do budowania coraz większych zasobów, które umożliwiałyby uzyskiwanie zobiektywizowanych wyników badań. Szybko rozwijająca się technologia utrudniała określanie górnej granicy rozmiaru korpusu, a wciąż rosnące liczby wymagały zmian w nominacji wielkich korpusów zarówno ze względu na ich wielkość, jak i stopień zaawansowania (por. ang. _corpora_: _large_, _massive_, _mega_, _first-generation_, _second-generation_5, _third-generation_6, __ _gigacorpus_7). Mały korpus był więc początkowo niedoskonałym, gdyż wciąż nieidealnym, korpusem, dlatego jeszcze w 2004 roku John Sinclair udowadniał, że „małe nie jest piękne” (Sinclair 2004: 189). Nawet jeśli we wczesnych pracach na temat korpusów znajdujemy przymiotnik _mały_, to najczęściej jest to tylko określenie towarzyszące przeciwstawieniom o znaczeniu: _mały_, bo nie _duży_. Trudno też traktować określenie _mały_ w tym rozumieniu jako część terminu.
Mimo postrzegania niewielkich rozmiarów jako wady zauważano jednocześnie, że mały korpus jest wystarczający do wielu celów, a mówiona odmiana języka czy pismo ręczne do dziś nie ułatwiają budowania wielkich zasobów. W 2014 roku ukazał się artykuł Richarda Chapmana ze znaczącym pytaniem w tytule: „Small is beautiful?” (2014: 84–96), któremu towarzyszy wieńczący całość rozważań akapit o potencjalnych zaletach małych korpusów (Chapman 2014: 96). Data wydania tekstu nie jest granicą przełomu w traktowaniu małych korpusów, ale śladem dłuższego procesu. W nowym znaczeniu mały korpus nie oznacza już bycia niewystarczającym (chociaż wiadomo, że badania na korpusach zbyt małych w stosunku do dostępnych danych nie spełniają standardów naukowych8), ale wskazuje na mniejszy korpus, który został jako taki zaplanowany, a jego nazwa staje się terminem. Potwierdzeniem krótszej historii małego korpusu jest wciąż nieustabilizowana nazwa, której warianty z czasem zaczęły oznaczać różne typy małych korpusów. W literaturze światowej oprócz _small corpus_ znajdziemy też nazwy: _micro-corpus_ (Padilla-Moyano 2014; Bilińska, Derwojedowa, Kwiecień 2018), _mini-corpus_, _DIY corpus_9 __ i inne, które zostały przywołane na stronach tej książki. Wydaje się zatem, że kategoria małego korpusu pojawiła się, gdy tego typu zasoby stały się coraz powszechniejsze, a tym samym zwiększyło się ich zróżnicowanie powiązane z charakterystycznymi funkcjami (por. np. korpusy specjalistyczne).
Mały korpus to stosunkowo niewielki korpus specjalistyczny. Użyty w jego nazwie przymiotnik _mały_ nie wynika z tego, że jest to korpus zbyt mały, aby nazwać go _dużym_. Jest to zawsze zaplanowany, wyczerpujący zbiór dostępnych danych, który można uznać za reprezentatywny w odniesieniu do celu analizy i postawionego pytania badawczego (por. _focused corpora_). Mały korpus jest więc odpowiedzią na konkretne pytania badawcze, ściśle dostosowany do zebranego materiału, co nie przeszkadza w tym, aby mógł później zostać udostępniony innym badaczom czy zmienić status na subkorpus w ramach większej całości zaplanowanej według podobnych reguł. Dzięki możliwej szczegółowej anotacji pragmatycznej pozwala na testowanie hipotez (por. Ahrens 2006) lub ich potwierdzanie na podstawie wniosków wyciągniętych z analiz prowadzonych wstępnie na dużym korpusie. Mały korpus jest łatwy do zaprojektowania, zestawienia i analizowania danych przez jednego badacza, który chce przyjrzeć się ściśle określonej odmianie języka w ramach jego zróżnicowania, kompetencji językowej niewielkiej grupy użytkowników języka, jednemu gatunkowi lub porównać kilka, czy też planuje prowadzić badania stylistyczne nad idiolektem. Dlatego też małe zasoby nazywane są czasem korpusami _DIY_, zwłaszcza gdy tworzone są doraźnie na podstawie zasobów internetowych (_Web as a corpus_). Rozwój technologii pozwala dzisiaj badaczom samodzielnie – tzn. bez pomocy informatyka czy specjalisty z zakresu przetwarzania języka naturalnego, a także bez specjalistycznych szkoleń – zbudować korpus na własnym komputerze, przy użyciu intuicyjnego, dostępnego dla wszystkich oprogramowania. Małe korpusy przygotowywane są najczęściej w dwóch celach: – badawczym, czyli przez naukowców, którzy wykorzystują te zasoby do badań własnych, a następnie wyniki swoich prac publikują – jako materiał w projektach związanych z naukami stosowanymi, np.: leksykografią (kształcenie umiejętności korzystania z korpusów10), glottodydaktyką, translatoryką czy lingwistyką kryminalistyczną (tutaj z utworzonych korpusów korzystają nie tylko naukowcy, ale i praktycy: uczniowie, studenci, tłumacze, biegli).
O zaletach małych korpusów pozwalających uzupełnić badania nad problemami lingwistycznymi, których nie da się analizować przy użyciu dużych korpusów, oraz o wadach i zagrożeniach czyhających na użytkowników małych korpusów można przeczytać w dalszej części książki. Nie da się jednak rozpocząć tej monografii bez jakiejkolwiek definicji, więc przedstawione powyżej skrótowe wyjaśnienia mają jedynie charakter wprowadzający.
------------------------------------------------------------------------
1.
1 Np.: _Build a corpus from the web_, https://www.sketchengine.eu/guide/create-a-corpus-from-the-web/ ; _Tworzenie korpusu_, https://korpusomat.pl/manual#corpus-creation ; _Building and exploring your own corpus with #LancsBox_, http://corpora.lancs.ac.uk/lancsbox/docs/pdf/handout4.pdf ; _Appendix: How to build a corpus_, https://users.ox.ac.uk/~martinw/dlc/appendix.htm .
2.
2 Por. (Ghadessy, Henry 2001).
3.
3 Por. dokument _Polityka dla rozwoju sztucznej inteligencji w Polsce od roku 2020. Załącznik do uchwały nr 196 Rady Ministrów z dnia 28 grudnia 2020 r._ (poz. 23), https://www.gov.pl/web/ai/polityka-dla-rozwoju-sztucznej-inteligencji-w-polsce-od-roku-2020 czy też publikacje: _Recent Advances in Technologies for Resource Creation and Mobilization in Language Documentation_ (Berez-Kroeker, Gabber, Slayton 2023: 195–214). _A corpus linguistics perspective on language documentation, data, and the challenge of small corpora_ (Lüdeling 2012: 32–38).
4.
4 Zob. (Zaśko-Zielińska 2013).
5.
5 Por. “Second generation corpora – A term referring to corpora created during or after the 1990s. Such corpora are sometimes referred to as mega-corpora because of their large size (for example 100 million words or more). Examples of second generation corpora include the British National Corpus (BNC), the Bank of English (BoE) and the Longman Corpus Network” (Baker, Hardie, McEnery __ 2006: 142).
6.
6 Por. “Corpus Linguistics have witnessed a progress from one-million-word corpora to over two-billion-word corpora that were named third generation corpora. The term third generation corpora is now increasingly associated with «a new generation of corpora: the multi-modal, multi-media corpus – that which combines video, audio and textual records of naturally occurring discourse»” (Knight, Evans, Carter and Adolphs 2009: 1), cyt. za: (Cubillo, Garrido 2010: i).
7.
7 Por. (Pęzik 2013: 45).
8.
8 Por. (Lemmens: 2019).
9.
9 Por. “_Do-it-yourself (DIY) corpora can be defined as small-scale databases of electronic texts built by users for specific, limited and local purposes”_ (Charles 2018: 217–224).
10.
10 Por. (Aston 1997: 51–62).2. ETYKA BADAŃ A MAŁE KORPUSY
Chociaż małe korpusy tworzone są czasami jako zasoby prywatne przeznaczone do jednorazowych badań lub osobistego użytku, to nie zwalnia to ich twórców z przestrzegania zasad etyki badań. Poza tym, w sytuacji gdy małe korpusy są rzadziej udostępniane niż duże, trzeba dołożyć wszelkich starań, aby prowadzone badania spełniały wszystkie wymogi rzetelności i otwartości dokumentacji, co daje szansę weryfikacji założeń korpusu oraz otrzymanych wyników. Ujawnienie szczegółowego opisu korpusu i transparentność badań pozwalają na kontynuowanie ich w analogiczny sposób, co umożliwia prowadzenie analiz porównawczych lub uzupełnianie wyników (_reusable c._) także przez innych badaczy (Cox 2011: 240). Możliwość powtórzenia badań na tych samych danych lub przeprowadzenia tej samej procedury na innym zasobie ma szczególne znaczenie w czasach naznaczonych _kryzysem powtarzalności_ – _replicability crisis_ (Sönning, Werner 2019: 1179–1206), który wymaga budowania strategii weryfikowania wyników badań empirycznych. Jak pisze Stefan Hartmann, część analiz nie może być powtarzana ze względu na brak dostępu do zasobów korpusowych, na których były prowadzone, więc tym cenniejsza jest możliwość dbania o udostępnianie małych korpusów (Hartmann 2023)11.
W odniesieniu do małych korpusów warto też zwrócić uwagę na kilka aspektów, które wynikają z ich specyfiki. Nawet jeśli z uzasadnionych powodów korpus został zaplanowany jako mały, to zgodnie z zasadą rzetelności badań jego rozmiar powinien być maksymalny, aby gromadził wszystkie możliwe do uzyskania dane, pozwalał na rozwój zasobu (Sinclair 1991: 18) oraz wskazywał jego reprezentatywność. Aspekty etyczne trzeba rozważyć na wszystkich etapach tworzenia korpusu: od projektowania, poprzez zbieranie danych, ich utrwalanie (wraz z anonimizacją), przechowywanie, publikację i ewentualne udostępnianie. Szczególne wymogi wynikają już z charakteru zasobów zbieranych w formie małych korpusów, które stanowią np. dane mówione (McEnery, Wilson 2001) czy też wrażliwe lub trudno dostępne (Leedham, Lillis, Twiner 2021). W związku z tym szczególnego znaczenia nabiera ochrona praw i prywatności nadawców, która może być realizowana dzięki uzyskanym zgodom uczestników komunikacji, anonimizacji danych korpusowych lub ich fragmentów przeznaczonych do publikacji, szczególnym zasadom przechowywania danych czy też ograniczeniu dostępu do korpusu. Wszystkie te działania są czasochłonne, a także czasem kosztochłonne. Stąd też niekiedy tylko część korpusu jest zanonimizowana (Isard 2020: 95). Na wstępnym etapie projektowania zasobu ustalany jest zakres danych wrażliwych, których status może być związany z:
- rodzajem materiału: dane mówione wymagają zgody respondentów oraz osób prowadzących wywiady, maskowania twarzy w korpusach wideo (co utrudnia badania w ramach języka migowego) czy multimodalnych analizach konwersacji (por. anonimizację zdjęć z sesji online – Child Conversation Multimodal Corpus12) lub też wykorzystania awatarów (Hunston 2022: 40);
- badaną grupą użytkowników języka (np.: dzieci – konieczne zgody opiekunów prawnych, spełnienie wymogów stawianych przez instytucję; osoby niesłyszące – uwzględnianie anonimizacji informacji o osobach trzecich z powodu niewielkich wspólnot komunikacyjnych, których członkowie się bardzo dobrze znają);
- podejmowaną przez rozmówców tematyką13, np. z zakresu zdrowia14 – problematyka zdrowia na forach internetowych (Hunston 2022: 40), rozmowy między lekarzem a pacjentem (Reineke, Schmidt, Schedl, Kaiser 2017).
Odpowiednio przeprowadzana procedura uzyskiwania zgód powiązana z informowaniem o możliwych zakresach wykorzystania danych czy też możliwości zrezygnowania z udziału w projekcie jest zdecydowanie łatwiejsza w ramach przygotowywania małego korpusu m.in. dlatego, że jest to działanie na mniejszą skalę. Poza tym zasób jest z góry projektowany dla niewielkiej grupy użytkowników i w konkretnym celu15.
Ze względu na zakres i specyfikę prowadzonych badań preferencją dla małych zasobów będzie tworzenie korpusów pełnotekstowych, które zapobiegają świadomym lub nieświadomym ingerencjom w gromadzony materiał i decydują o ich autentyczności (Sinclair 1991). Czasami fragmenty tekstów lub pojedyncze informacje mogą się nam wydawać drugorzędne, a jednocześnie zbyt poufne, co wpływa na podjęcie decyzji o ich usunięciu. Zawsze jednak warto rozważyć, czy w przyszłości nie będą to dane potrzebne do innych badań, a dla pełnego obrazu gromadzonego materiału zaznaczyć pominięte fragmenty lub zanonimizować dane. Można rozważyć możliwość tworzenia dwóch wersji korpusu: zanonimizowanej i kompletnej, gdyż czasami konieczne jest uwzględnianie anonimizowanych informacji. Anonimizacja Polskiego Korpusu Listów Pożegnalnych polegała m.in. na maskowaniu w ramach anotacji danych osobowych. Jednak analiza listów pożegnalnych bez zdrobnień, spieszczeń czy zgrubień antroponimów, które pokazują stosunek nadawcy do siebie samego i innych, byłaby bardzo zubożona. Dlatego też PKLP oprócz ograniczonego dostępu do danych ma dwie wersje różniące się szczegółowością anotacji (Zaśko-Zielińska 2012: 71–77). Tworzenie dwóch wersji korpusu dla danych wrażliwych relacjonują także Maria Leedham, Theresa Lillis i Alison Twiner (2021), uzupełniając te informacje opisem negocjacji w ramach procesu anonimizacji, w które byli zaangażowani nie tylko twórcy korpusu, ale także programiści i uczestnicy projektu (2021).
Zasady etyczne, które należy uwzględnić w ramach tworzenia, wykorzystywania i udostępniania małych korpusów, są zawsze ściśle powiązane z pytaniami badawczymi oraz planowanym zastosowaniem zasobów, czyli twórcami i użytkownikami tych zbiorów.
Przed przystąpieniem do realizacji projektu warto też zapoznać się z wymogami etycznymi obowiązującymi na terenie danego państwa i konkretnej uczelni, aby nie pominąć ustaleń zawartych w regulaminach czy koniecznych do uzyskania zgód.
------------------------------------------------------------------------
1.
11 Por. “I argue for using smaller but openly available corpora whenever possible, and for adopting open research practices as far as possible even when using commercial corpora”.
2.
12 (Bodur i in. 2021: 160).
3.
13 Por. Wykaz zagadnień powiązanych z danymi wrażliwymi (Reineke, Schmidt, Schedl, Kaiser 2017).
4.
14 Por. _Resources and Processing of Linguistic, Para-linguistic and Extra-linguistic Data from People with Various Forms of Cognitive/Psychiatric/Developmental Impairments_ (Kokkinakis, Lundholm Fors, Themistocleous, Antonsson, Eckerström 2020), tu m.in. uwagi o wymaganych zgodach na badania, ochronie danych czy możliwości ich udostępniania na podstawie doświadczeń z projektowaniem konkretnych korpusów.
5.
15 Por. „O ile jednak tworzenie minikorpusu językowego na podstawie prac uczniów z poprzednich lat może być stosowane przez nauczyciela tylko w formie prezentacji i ćwiczeń z uwagi na ograniczenia praw autorskich, o tyle dodawanie przez uczniów własnych tekstów w celu analizy popełnionych w nich błędów czy porównywanie swoich dzieł z modelem przy pomocy narzędzi analizy tekstowej opisanych poniżej jest już dostępne dla każdego uczącego się od poziomu B1” (Krajka 2022: 28).