Mały korpus – wielkie wyzwania. Small corpora – big challenges - Ebook (Książka PDF) do pobrania w formacie PDF

Darmowy fragment

Mały korpus – wielkie wyzwania. Small corpora – big challenges - ebook

Monika Zaśko-Zielińska

Wydawnictwo:

Universitas

Format:

PDF

Data wydania:

9 października 2025

2700 pkt

punktów Virtualo

Mały korpus – wielkie wyzwania. Small corpora – big challenges - ebook

Najczęściej używamy dużych korpusów, ale jesteśmy twórcami małych. Dostępna literatura dotyczy jednak głównie dużych korpusów i sposobów ich wykorzystania. O małych korpusach wspomina się najczęściej przy okazji definiowania dużych, ale nawet jeśli przygotowywany mały korpus wydaje nam się czymś ulotnym czy jednorazowym […], to warto go opracować tak, aby miał szansę na powtórne wykorzystanie i rozwijał możliwości architektury korpusowej.

Na rynku wydawniczym nie spotkamy wielu książkowych publikacji na temat małych korpusów, nie ma ich wiele na rynku anglosaskim, nieobecne są także w Polsce. Przywiązywanie małej wagi do tego typu materiałów okazuje się jednak błędem. Praca prof. Zaśko-Zielińskiej wykazuje wagę i znaczenie małych korpusów w praktyce językoznawczej, zapoznaje czytelnika z typem działań, które okazują się kluczowe dla analiz językoznawczych, ich zastosowań oraz wniosków z nich wypływających.

(z recenzji prof. dr hab. Barbary Lewandowskiej-Tomaszczyk)

Monika Zaśko-Zielińska kieruje Zakładem Lingwistyki Korpusowej w Instytucie Filologii Polskiej Uniwersytetu Wrocławskiego. Interesuje się genologią lingwistyczną, lingwistyką korpusową i lingwistyką kryminalistyczną. Jest autorką i współautorką monografii Przez okno świadomości: gatunki mowy w świadomości użytkowników języka (2002), Listy pożegnalne: w poszukiwaniu lingwistycznych wyznaczników autentyczności tekstu (2013), współredaktorką (wraz z K. Kredensem) tomu Lingwistyka kryminalistyczna. Teoria i praktyka (2019) oraz współautorką pracy Od rozmowy do korpusu (wraz z A. Majewską-Tworek, M. Śleziak i A. Tworkiem). Jej współpraca z Clarin-PL zaowocowała przygotowaniem najstarszego zasobu (Mowa Wrocław) do wyszukiwarki danych konwersacyjnych Spokes w ramach prac zespołu Pracowni Polszczyzny Mówionej IFP UWr kierowanej przez Annę Majewską-Tworek. W ramach grantu NCN-u przygotowała Polski Korpus Listów Pożegnalnych, co stało się inspiracją do przyjrzenia się metodologii tworzenia małych korpusów, a zwłaszcza możliwościom dokumentowania języka pisanego w odmianie nieoficjalnej na podstawie korespondencji prywatnej. Zapoczątkowało to koncepcję Polskiego Korpusu Korespondencji Prywatnej (praca w zespole z K. Wabnicem i J. Krzywdzińskim), który powstaje dzięki współpracy ze studentami i doktorantami UWr.

Spis treści

Od Autorki

1. Wstęp

1.1. Czym jest mały korpus?

2. Etyka badań a małe korpusy

3. Mały korpus: projektowanie według uznanych zasad i nowych możliwości

3.1. O czytaniu małych korpusów

4. Wybór typu korpusu

4.1. Korpusy specjalistyczne

4.2. Korpusy gatunków

4.2.1. Korpus gatunku a typologie tekstów w dużych korpusach

4.3. Miejsce planowanego korpusu wśród innych korpusów specjalistycznych

4.3.1. Łączenie, zestawianie małego korpusu z innymi zasobami

4.3.1.1. Korpusy listów – możliwości łączenia zasobów elektronicznych i drukowanych

5. Wielkość małego korpusu i jej uwarunkowania

5.1. Miary wielkości

5.1.1. Próbki w korpusie: całe teksty czy ich fragmenty

5.2. Mały korpus – subkorpus – duży korpus

6. Mały korpus – wybór danych

6.1. Dane mówione

6.1.1. Nagrywanie i zbieranie danych o mówcach

6.1.2. Transkrybowanie danych mówionych do małego korpusu

6.2. Dane pisane ręcznie

6.2.1. Transkrypcja tekstu ręcznego jako odczytanie

6.3. Dane webowe do małych korpusów

6.4. Dane multimodalne

7. Metadane – wyszukiwalność małego korpusu

7.1. Zakres opisu metadanych

7.2. Metadane do korpusów webowych

8. Anotacja małego korpusu

8.1. Mały korpus jako zasób treningowy

8.2. Anotacja morfosyntaktyczna

8.3. Anotacja błędów

8.4. Anotacja pragmatyczna

8.4.1. Anotacja multimodalna

8.5. Anotacja semantyczna

9. Reprezentatywność małego korpusu

9.1. Reprezentatywność jako oczekiwana i oczywista cecha danych korpusowych a reprezentatywność zaprojektowana do konkretnych celów

9.2. Reprezentatywność jako brak wpływu selekcji na dobór danych

9.3. Reprezentatywność jako wybór typowych albo idealnych przykładów

9.4. Reprezentatywność jako miniatura populacji tekstów i pokrycie zróżnicowania zdarzeń językowych

9.5. Reprezentatywność jako możliwość poprawnego szacowania

9.6. Reprezentatywność jako cecha nieosiągalna

10. Dokumentacja korpusu

10.1. Nazwa korpusu

10.2. Strona korpusu, informacje w ramach aplikacji webowych

10.3. Użytkownicy małego korpusu a jego udostępnianie

11. Metody analizy korpusowej w ramach małego zasobu

11.1. Triangulacja małego korpusu

11.1.1. Dane w małym korpusie a ich triangulacja

11.1.2. Triangulacja badacza – w stronę intersubiektywności badań

11.1.3. Triangulacja teorii – między oczekiwaną odpowiedzią a pełnym oglądem

11.1.4. Triangulacja metod a optymalizacja wyników

12. Kiedy „małe jest piękne”?

12.1. Zobaczyć nieznany fragment rzeczywistości językowej

12.2. Kontekstualizacja danych i projekty anotacji

12.3. Upowszechnianie, standaryzacja, współtworzenie zasobów językowych

Bibliografia

Indeks osobowy

Preface

1. Introduction

1.2. What is a small corpus?

2. Small corpora and research ethics

3. Small corpus design: accepted rules and new possibilities

3.1. On reading small corpora

4. Deciding on corpus type

4.1. Specialised corpora

4.2. Genre corpora

4.2.1. Genre corpus and text typologies in large corpora

4.3. Small corpora among other specialised corpora

4.3.1. Combining and collating a small corpus with other resources

4.3.1.1. Letter corpora: on combining digital and printed resources

5. Corpus size and its importance

5.2. Measures of size

5.1.1. Corpus samples: full texts or their fragments

5.2. Small corpus – subcorpus – large corpus

6. Small corpus – data selection

6.1. Spoken data

6.1.1. Recording and collecting information about speakers

6.1.2. Transcribing spoken data for small corpora

6.2. Handwritten data

6.2.1. Transcribing a handwritten text is similar to reading it out loud

6.3. Web data in small corpora

6.4. Multimodal data

7. Metadata – findability of a small corpus

7.1. Ranges of metadata description

7.2. Metadata for web corpora

8. Annotating a small corpus

8.1. Small corpora as training data

8.2. Morphosyntactic annotation

8.3. Error annotation

8.4. Pragmatic annotation

8.4.1. Multimodal annotation

8.5. Semantic annotation

9. Representativeness of small corpora

9.1. Representativeness as an obvious and expected characteristic of corpus data or representativeness designed for specific purposes

9.2. Representativeness understood as the absence of selection bias

9.3. Representativeness as choosing typical or perfect examples

9.4. Representativeness as a miniature of the population and as coverage of the diverse language events

9.5. Representativeness that permits good estimation

9.6. Representativeness as an unachievable feature

10. Documenting the corpus

10.1. Corpus name

10.2. Corpus website and corpus description in web apps

10.3. Small corpus users and corpus availability

11. Methods of corpus analysis for smaller resources

11.1. Triangulating a small corpus

11.1.1. Small corpus data and their triangulation

11.1.2. Investigator triangulation – looking towards the intersubjectivity of research

11.1.3. Theory triangulation – between the expected answer and a complete outlook

11.1.4. Method triangulation and optimising results

12. When is it the case that “Small is beautiful”?

12.1. The ability to see an unknown fragment of linguistic reality

12.2. Contextualising data and designing annotation

12.3. Publishing, standardising and co-creating language resources

Bibliography

Index of persons

Kategoria:	Polonistyka
Język:	Polski
Zabezpieczenie:	Watermark Watermark Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN:	978-83-242-6871-9
Rozmiar pliku:	9,2 MB
Użytkowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Drukowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Kopiowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.

Mały korpus – wielkie wyzwania. Small corpora – big challenges - ebook

Spis treści

BESTSELLERY