Mały korpus – wielkie wyzwania. Small corpora – big challenges - ebook
Mały korpus – wielkie wyzwania. Small corpora – big challenges - ebook
Najczęściej używamy dużych korpusów, ale jesteśmy twórcami małych. Dostępna literatura dotyczy jednak głównie dużych korpusów i sposobów ich wykorzystania. O małych korpusach wspomina się najczęściej przy okazji definiowania dużych, ale nawet jeśli przygotowywany mały korpus wydaje nam się czymś ulotnym czy jednorazowym […], to warto go opracować tak, aby miał szansę na powtórne wykorzystanie i rozwijał możliwości architektury korpusowej.
Na rynku wydawniczym nie spotkamy wielu książkowych publikacji na temat małych korpusów, nie ma ich wiele na rynku anglosaskim, nieobecne są także w Polsce. Przywiązywanie małej wagi do tego typu materiałów okazuje się jednak błędem. Praca prof. Zaśko-Zielińskiej wykazuje wagę i znaczenie małych korpusów w praktyce językoznawczej, zapoznaje czytelnika z typem działań, które okazują się kluczowe dla analiz językoznawczych, ich zastosowań oraz wniosków z nich wypływających.
(z recenzji prof. dr hab. Barbary Lewandowskiej-Tomaszczyk)
Monika Zaśko-Zielińska kieruje Zakładem Lingwistyki Korpusowej w Instytucie Filologii Polskiej Uniwersytetu Wrocławskiego. Interesuje się genologią lingwistyczną, lingwistyką korpusową i lingwistyką kryminalistyczną. Jest autorką i współautorką monografii Przez okno świadomości: gatunki mowy w świadomości użytkowników języka (2002), Listy pożegnalne: w poszukiwaniu lingwistycznych wyznaczników autentyczności tekstu (2013), współredaktorką (wraz z K. Kredensem) tomu Lingwistyka kryminalistyczna. Teoria i praktyka (2019) oraz współautorką pracy Od rozmowy do korpusu (wraz z A. Majewską-Tworek, M. Śleziak i A. Tworkiem). Jej współpraca z Clarin-PL zaowocowała przygotowaniem najstarszego zasobu (Mowa Wrocław) do wyszukiwarki danych konwersacyjnych Spokes w ramach prac zespołu Pracowni Polszczyzny Mówionej IFP UWr kierowanej przez Annę Majewską-Tworek. W ramach grantu NCN-u przygotowała Polski Korpus Listów Pożegnalnych, co stało się inspiracją do przyjrzenia się metodologii tworzenia małych korpusów, a zwłaszcza możliwościom dokumentowania języka pisanego w odmianie nieoficjalnej na podstawie korespondencji prywatnej. Zapoczątkowało to koncepcję Polskiego Korpusu Korespondencji Prywatnej (praca w zespole z K. Wabnicem i J. Krzywdzińskim), który powstaje dzięki współpracy ze studentami i doktorantami UWr.
Spis treści
Od Autorki
1. Wstęp
1.1. Czym jest mały korpus?
2. Etyka badań a małe korpusy
3. Mały korpus: projektowanie według uznanych zasad i nowych możliwości
3.1. O czytaniu małych korpusów
4. Wybór typu korpusu
4.1. Korpusy specjalistyczne
4.2. Korpusy gatunków
4.2.1. Korpus gatunku a typologie tekstów w dużych korpusach
4.3. Miejsce planowanego korpusu wśród innych korpusów specjalistycznych
4.3.1. Łączenie, zestawianie małego korpusu z innymi zasobami
4.3.1.1. Korpusy listów – możliwości łączenia zasobów elektronicznych i drukowanych
5. Wielkość małego korpusu i jej uwarunkowania
5.1. Miary wielkości
5.1.1. Próbki w korpusie: całe teksty czy ich fragmenty
5.2. Mały korpus – subkorpus – duży korpus
6. Mały korpus – wybór danych
6.1. Dane mówione
6.1.1. Nagrywanie i zbieranie danych o mówcach
6.1.2. Transkrybowanie danych mówionych do małego korpusu
6.2. Dane pisane ręcznie
6.2.1. Transkrypcja tekstu ręcznego jako odczytanie
6.3. Dane webowe do małych korpusów
6.4. Dane multimodalne
7. Metadane – wyszukiwalność małego korpusu
7.1. Zakres opisu metadanych
7.2. Metadane do korpusów webowych
8. Anotacja małego korpusu
8.1. Mały korpus jako zasób treningowy
8.2. Anotacja morfosyntaktyczna
8.3. Anotacja błędów
8.4. Anotacja pragmatyczna
8.4.1. Anotacja multimodalna
8.5. Anotacja semantyczna
9. Reprezentatywność małego korpusu
9.1. Reprezentatywność jako oczekiwana i oczywista cecha danych korpusowych a reprezentatywność zaprojektowana do konkretnych celów
9.2. Reprezentatywność jako brak wpływu selekcji na dobór danych
9.3. Reprezentatywność jako wybór typowych albo idealnych przykładów
9.4. Reprezentatywność jako miniatura populacji tekstów i pokrycie zróżnicowania zdarzeń językowych
9.5. Reprezentatywność jako możliwość poprawnego szacowania
9.6. Reprezentatywność jako cecha nieosiągalna
10. Dokumentacja korpusu
10.1. Nazwa korpusu
10.2. Strona korpusu, informacje w ramach aplikacji webowych
10.3. Użytkownicy małego korpusu a jego udostępnianie
11. Metody analizy korpusowej w ramach małego zasobu
11.1. Triangulacja małego korpusu
11.1.1. Dane w małym korpusie a ich triangulacja
11.1.2. Triangulacja badacza – w stronę intersubiektywności badań
11.1.3. Triangulacja teorii – między oczekiwaną odpowiedzią a pełnym oglądem
11.1.4. Triangulacja metod a optymalizacja wyników
12. Kiedy „małe jest piękne”?
12.1. Zobaczyć nieznany fragment rzeczywistości językowej
12.2. Kontekstualizacja danych i projekty anotacji
12.3. Upowszechnianie, standaryzacja, współtworzenie zasobów językowych
Bibliografia
Indeks osobowy
Preface
1. Introduction
1.2. What is a small corpus?
2. Small corpora and research ethics
3. Small corpus design: accepted rules and new possibilities
3.1. On reading small corpora
4. Deciding on corpus type
4.1. Specialised corpora
4.2. Genre corpora
4.2.1. Genre corpus and text typologies in large corpora
4.3. Small corpora among other specialised corpora
4.3.1. Combining and collating a small corpus with other resources
4.3.1.1. Letter corpora: on combining digital and printed resources
5. Corpus size and its importance
5.2. Measures of size
5.1.1. Corpus samples: full texts or their fragments
5.2. Small corpus – subcorpus – large corpus
6. Small corpus – data selection
6.1. Spoken data
6.1.1. Recording and collecting information about speakers
6.1.2. Transcribing spoken data for small corpora
6.2. Handwritten data
6.2.1. Transcribing a handwritten text is similar to reading it out loud
6.3. Web data in small corpora
6.4. Multimodal data
7. Metadata – findability of a small corpus
7.1. Ranges of metadata description
7.2. Metadata for web corpora
8. Annotating a small corpus
8.1. Small corpora as training data
8.2. Morphosyntactic annotation
8.3. Error annotation
8.4. Pragmatic annotation
8.4.1. Multimodal annotation
8.5. Semantic annotation
9. Representativeness of small corpora
9.1. Representativeness as an obvious and expected characteristic of corpus data or representativeness designed for specific purposes
9.2. Representativeness understood as the absence of selection bias
9.3. Representativeness as choosing typical or perfect examples
9.4. Representativeness as a miniature of the population and as coverage of the diverse language events
9.5. Representativeness that permits good estimation
9.6. Representativeness as an unachievable feature
10. Documenting the corpus
10.1. Corpus name
10.2. Corpus website and corpus description in web apps
10.3. Small corpus users and corpus availability
11. Methods of corpus analysis for smaller resources
11.1. Triangulating a small corpus
11.1.1. Small corpus data and their triangulation
11.1.2. Investigator triangulation – looking towards the intersubjectivity of research
11.1.3. Theory triangulation – between the expected answer and a complete outlook
11.1.4. Method triangulation and optimising results
12. When is it the case that “Small is beautiful”?
12.1. The ability to see an unknown fragment of linguistic reality
12.2. Contextualising data and designing annotation
12.3. Publishing, standardising and co-creating language resources
Bibliography
Index of persons
| Kategoria: | Polonistyka |
| Zabezpieczenie: |
Watermark
|
| ISBN: | 978-83-242-6871-9 |
| Rozmiar pliku: | 9,2 MB |