Diagnostyka edukacyjna. Podręcznik akademicki - ebook
Wydawnictwo:
Data wydania:
1 stycznia 2009
Format ebooka:
EPUB
Format
EPUB
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najpopularniejszych formatów e-booków na świecie.
Niezwykle wygodny i przyjazny czytelnikom - w przeciwieństwie do formatu
PDF umożliwia skalowanie czcionki, dzięki czemu możliwe jest dopasowanie
jej wielkości do kroju i rozmiarów ekranu. Więcej informacji znajdziesz
w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu.
Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu.
Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
Format
MOBI
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najczęściej wybieranych formatów wśród czytelników
e-booków. Możesz go odczytać na czytniku Kindle oraz na smartfonach i
tabletach po zainstalowaniu specjalnej aplikacji. Więcej informacji
znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu.
Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu.
Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
Multiformat
E-booki sprzedawane w księgarni Virtualo.pl dostępne są w opcji
multiformatu - kupujesz treść, nie format. Po dodaniu e-booka do koszyka
i dokonaniu płatności, e-book pojawi się na Twoim koncie w Mojej
Bibliotece we wszystkich formatach dostępnych aktualnie dla danego
tytułu. Informacja o dostępności poszczególnych formatów znajduje się na
karcie produktu przy okładce. Uwaga: audiobooki nie są objęte opcją
multiformatu.
czytaj
na tablecie
Aby odczytywać e-booki na swoim tablecie musisz zainstalować specjalną
aplikację. W zależności od formatu e-booka oraz systemu operacyjnego,
który jest zainstalowany na Twoim urządzeniu może to być np. Bluefire
dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu
w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale
Pomoc.
czytaj
na czytniku
Czytanie na e-czytniku z ekranem e-ink jest bardzo wygodne i nie męczy
wzroku. Pliki przystosowane do odczytywania na czytnikach to przede
wszystkim EPUB (ten format możesz odczytać m.in. na czytnikach
PocketBook) i MOBI (ten fromat możesz odczytać m.in. na czytnikach Kindle).
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu
w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale
Pomoc.
czytaj
na smartfonie
Aby odczytywać e-booki na swoim smartfonie musisz zainstalować specjalną
aplikację. W zależności od formatu e-booka oraz systemu operacyjnego,
który jest zainstalowany na Twoim urządzeniu może to być np. iBooks dla
EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu
w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale
Pomoc.
Czytaj fragment
Pobierz fragment
Pobierz fragment w jednym z dostępnych formatów
Diagnostyka edukacyjna. Podręcznik akademicki - ebook
Pierwszy podręcznik z zakresu teorii diagnozy edukacyjnej!
Książka prezentuje:
- koncepcję diagnostyki jako nauki o rozpoznawaniu warunków, przebiegu i wynikach uczenia się;
- główne pojęcia dyscypliny;
- analizę i ocenę narzędzi diagnozy;
- metody diagnostyczne oraz wyniki diagnozy osiągnięć ucznia i placówki edukacyjnej oraz poziomu edukacyjnego kraju;
- ewaluację w edukacji jako pochodną diagnozy;
- ćwiczenia ułatwiające wdrożenie stosowania pojęć i zaleceń.
Podręcznik jest przeznaczony dla:
- studentów kierunków pedagogicznych i nauczycielskich;
- pedagogów i nauczycieli pracujących w instytucjach edukacyjnych;
- dyrektorów szkół, doradców metodycznych, pracowników komisji egzaminacyjnych i nadzoru pedagogicznego.
Kategoria: | Pedagogika |
Zabezpieczenie: |
Watermark
|
ISBN: | 978-83-01-17717-1 |
Rozmiar pliku: | 3,8 MB |
FRAGMENT KSIĄŻKI
Przedmowa
Książka zawiera autorską wersję przedmiotu diagnostyka edukacyjna, który pojawił się niedawno w programach kształcenia szkół pedagogicznych i akademickich kierunków nauczycielskich innych uczelni. W treści i formie jest wzorowana na wydawnictwach anglosaskich. Diagnostyka, jaką prezentuje, została oparta na pomiarze pedagogicznym i ma charakter rozwojowy, co znaczy, że przyrost osiągnięć uczniów – przy każdym poziomie wyjściowym – jest w niej pierwszoplanowy.
Ponieważ pomiar pedagogiczny dotyczy zdarzeń powtarzalnych i posługuje się statystyką, dla jego uprawiania potrzebne jest opanowanie metod opisu i wnioskowania statystycznego. Wprowadzenie elementów tych dziedzin rozsadziłoby jednak ramy podręcznika i zmieniło jego charakter, toteż nie zawiera on żadnych wzorów matematycznych ani procedur obliczeniowych. Trzeba zatem podzielić korzystających z podręcznika na dwie kategorie: tych, którzy nie uczyli się statystyki, a mimo to będą mogli poznać zasady diagnostyki i uchwycić jej ducha – w tym przede wszystkim skromność, świadomość ograniczeń wszelkich metod diagnostycznych – na podstawie podanych przykładów, oraz tych, którzy mają za sobą solidny kurs statystyki – od porządkowania danych do korelacji i regresji – a więc będą mogli samodzielnie analizować narzędzia i wyniki badań diagnostycznych.
Jak stwierdza wybitny znawca diagnozy psychologicznej, Władysław Jacek Paluchowski (2007, s. 1): „diagnozowanie to przetwarzanie danych, a nie rejestrowanie zachowań”. W tym przetwarzaniu kluczową rolę odgrywa wiedza diagnosty – „znajomość ogólnych prawidłowości panujących w danej dziedzinie” (tamże, s. 12). Jak z tego wynika, diagnostyka stanowi jedynie dziedzinę pomocniczą. W edukacji będzie użyteczna po połączeniu z wiedzą wychowawczą, dydaktyczno-przedmiotową lub administracyjną. Nie może zastąpić tej wiedzy, dlatego różni specjaliści muszą współpracować, a zarazem znać granice swojej kompetencji, co dotyczy zwłaszcza dwu bliskich sobie dyscyplin: psychologii i pedagogiki.
Trzon podręcznika stanowi 77 rozgałęzionych pojęć, zestawionych – wraz z ich angielskimi odpowiednikami – na końcu każdego rozdziału. Tyleż też mamy ćwiczeń wdrażających do stosowania tych pojęć oraz par zaleceń będących rekapitulacją rozdziałów. Tekst podręcznika jest dwupłaszczyznowy: w warstwie zasadniczej, pisanej dużą czcionką, wprowadza główne pojęcia, a w warstwie dodatkowej, pisanej drobniejszą czcionką – poszerza je i ilustruje przykładami zagadnień i analiz.
Podręcznik jest przeznaczony dla tych nauczycieli i pedagogów, którzy będą ponosić odpowiedzialność za emocjonalny i poznawczy rozwój uczniów oraz za rozwój różnego rodzaju placówek edukacyjnych. Dopóki nie wyłonią się w Polsce akademickie specjalizacje „diagnosta osiągnięć uczniów” i „ewaluator systemów edukacyjnych” – a wierzę, że prędzej czy później to nastąpi – umiejętności z tych dziedzin będą stanowić uzupełnienie ogólnych kwalifikacji pedagogicznych. Chciałbym, by sięgnęli też po tę książkę czynni nauczyciele i doradcy, dyrektorzy szkół, pracownicy komisji egzaminacyjnych i nadzoru pedagogicznego.
Podręcznik zawiera materiały różnego pochodzenia, krajowego i zagranicznego. Tadeusz Lewowicki i Andrzej Janowski zainspirowali mnie do zajęcia się diagnostyką. Cenne kontrowersje wniósł Krzysztof Konarzewski, a Krzysztof Kruszewski przyjaźnie sekundował postępom w pisaniu podręcznika. Wiele zawdzięczam działalności Polskiego Towarzystwa Diagnostyki Edukacyjnej i jego władzom: Henrykowi Szaleńcowi i Marii Krystynie Szmigel. Członkowie Towarzystwa wypełnili swoimi pracami kilkanaście tomów wydawnictw konferencyjnych, które dostarczały mi danych, niekiedy nowych pomysłów, a zawsze przekonania o celowości podjętej pracy. Z zagranicznych autorów największy wpływ mieli Beniamin Bloom z Chicago, James Popham z Los Angeles i Anthony Nitko z Pittsburga.
Osobne podziękowanie składam Swojej Żonie, Adzie Sitarskiej-Niemierko, za wspólne znoszenie trudów dwuletniej pracy nad książką.
Bolesław Niemierko
Sopot–Alicante, 2007–2008ROZDZIAŁ 2 Pomiar pedagogiczny jako podstawa diagnostyki edukacyjnej
W poprzednim rozdziale określiliśmy pomiar jako przyporządkowywanie obiektom symboli według empirycznie sprawdzalnych reguł. Procedury pomiarowe są zobiektywizowane. Jaką mają wartość dla diagnostyki edukacyjnej? Jak dalece są potrzebne nauczycielowi-wychowawcy w jego codziennej pracy z uczniami-wychowankami oraz do ulepszania warsztatu pedagogicznego? Aby odpowiedzieć na te pytania, trzeba poznać najważniejsze procedury pomiarowe, począwszy od konstrukcji skali.
2.1. Skale pomiarowe
Skala pomiarowa jest systemem symboli przedstawiających wyniki pomiaru. Ten system ma swój skład w postaci zbioru symboli (nazw, liczb, innych znaków) i strukturę w postaci układu relacji między tymi symbolami.
Symbole pomiarowe są wymienne. Na przykład: liczba 5 (w Polsce), liczba 1 (w Niemczech), litera A (w Anglii), nazwa przymiotnikowa „bardzo dobry” lub rzeczownikowa „mistrz” i odpowiednio dobrane ikony (np. ☺) mogą mieć to samo znaczenie treściowe, a więc wskazywać na opanowanie tego samego zakresu treści kształcenia. Struktury pomiarowe natomiast nie są wymienne. Każda zmiana w nich dokonana powoduje zwiększenie lub zmniejszenie zakresu uprawnionych operacji matematycznych na symbolach. Z tego powodu specjaliści przywiązują znacznie większą wagę do relacji między symbolami niż do rodzaju symboli, jakie zastosowano w pomiarze.
Bardzo przydatna w diagnostyce edukacyjnej jest klasyfikacja skal pomiarowych dokonana przed ponad półwieczem przez S.S. Stevensa (1951), obejmująca cztery rodzaje skal: nominalną, porządkową, przedziałową i stosunkową.
2.1.1. Skala nominalna
Skala nominalna polega na rozróżnianiu jakości, a dokładniej – na zaliczaniu obiektów do określonych kategorii uznawanych za równorzędne. Decyzje podejmowane przy posługiwaniu się skalą nominalną polegają na przyporządkowaniu lub nieprzyporządkowaniu obiektu do danej klasy.
Obiektywizacja procedury pomiarowej przy zastosowaniu skali nominalnej polega na dwóch zabiegach:
1. Kategorie wyników pomiaru muszą być zdefiniowane przed jego dokonaniem. Ta właściwość różni pomiar nominalny od jakościowych metod badawczych, w których badacz rozpoczyna od nieukierunkowanej obserwacji obiektów i przyjmuje założenie o ich niepowtarzalności (Konarzewski, 2000, rozdz. 2 i 4). Pomiar należy do ilościowych metod badawczych, nastawionych na prawidłowości dotyczące powtarzalnych właściwości obiektów i sytuacji (tamże, rozdz. 3). Jak widać, pomiar nie może objąć „całego człowieka”, który jest bez wątpienia bytem indywidualnym, ani całej jego sytuacji, która nigdy dokładnie się nie powtarza. Skala nominalna dotyczy tylko określonych właściwości (cech) obiektu, wybranych ze względu na cel diagnozy.
2. Sposób przyporządkowania określonej kategorii obiektom musi być ustalony i sprawdzony. Właściwości klasyfikowane są bezpośrednio, jak np. płeć ucznia na podstawie jego wyglądu, lub pośrednio, jak płeć na podstawie imiennego rejestru uczniów. W każdym przypadku posługujemy się wskaźnikami badanej właściwości, czyli danymi, na podstawie których wnioskujemy o istnieniu tej właściwości.
Wskaźniki ułatwiają klasyfikację, ale nie są niezawodne. Przy obserwacji ucznia-wychowanka jego rysy twarzy, uczesanie, ubiór, a nawet brzmienie głosu mogą wprowadzać obserwatora w błąd co do płci. Rejestr uczniów może zawierać pomyłki, wiele nazwisk nie przybiera końcówek rodzajowych, a niektóre imiona (np. amerykańskie) mogą być wspólne dla chłopców i dziewcząt. Z tego względu procedurę trzeba sprawdzić, gdy zaś diagnozowana właściwość nie jest bezpośrednio obserwowalna (jak motywacja, inteligencja, aspiracje edukacyjne), każdy sposób przyporządkowania kategorii skali danego rodzaju obiektom podlega uzasadnionej krytyce.
Zakres posługiwania się nominalną skalą pomiarową jest w diagnostyce edukacyjnej szeroki. Obejmuje większość właściwości kontekstu kształcenia, w tym zwłaszcza jego cechy kulturowe (ekonomiczne, populacyjne, obyczajowe), które chcemy rozpoznać i nazwać, ale nie wartościować. Także poszczególne cechy osobowości uczniów (zdolności, temperament, aspiracje) mogą być skategoryzowane, jako elementy struktury osobowości. Wszelkie działania edukacyjne (ich cele, metody, środki) mają charakter jakościowy, nie ilościowy, ale możemy je rozróżniać i ogólnie klasyfikować. Wreszcie wyniki uczenia się, zwłaszcza w dziedzinie emocjonalnej, bywają dostępne pomiarowi tylko na szczeblu nominalnym.
Dane przedstawione w skali nominalnej mogą być poddane operacjom matematycznym opartym na liczeniu obiektów każdej kategorii oraz na porównywaniu liczebności między kategoriami. Jeżeli na przykład dwanaścioro uczniów wykazało – jako główne – zainteresowania sportowe, ośmioro – zainteresowania artystyczne, pięcioro – humanistyczne i troje – matematyczno-przyrodnicze, to możemy te dane przedstawić w procentach (odpowiednio: 42%, 29%, 18%, 11%), ustalić wartość modalną, najczęstszą (zainteresowania sportowe), a tabelę poddać testowi istotności różnic między liczebnościami (statystyka chi-kwadrat). Wnioski mogą dotyczyć zarówno pojedynczego ucznia-wychowanka, jak też grupy, ale nie mogą wybiegać poza rozróżnienie jakości.
2.1.2. Skala porządkowa
Skala porządkowa polega na ustaleniu hierarchii wartości, a więc na odróżnianiu wartości wyższych i niższych (większych i mniejszych). Jej kategorie są uporządkowane w ten sposób, że każda wyższa jest bardziej ceniona niż od niej niższa. Gdy można ustalić, co więcej zawiera wyższa kategoria w stosunku do niższej kategorii, a więc niższa kategoria jest częścią wyższej, mówimy o kumulatywności skali porządkowej.
Zbudowanie skali porządkowej w pedagogice i w innych naukach społecznych jest niełatwym zadaniem. Zasadniczą trudność stanowi takie jej unormowanie, aby przyporządkowanie stopnia skali obiektowi pomiaru było maksymalnie zobiektywizowane. Staramy się to uzyskać przez zastosowanie następującej procedury:
1. Zdefiniowanie każdej kategorii wyników pomiaru w taki sposób, aby odróżnienie kategorii bezpośrednio wyższej i bezpośrednio niższej było możliwie dokładne. Nadają się do tego zwłaszcza definicje operacyjne, zawierające informacje o wskaźnikach, jakie mają być zastosowane. Na przykład określenie „płynnie czyta głośno” nie wystarczy do precyzyjnego odróżnienia biegłych i mniej biegłych czytelników. Niezbędne bywają wskaźniki szybkości czytania (liczba słów typowego tekstu na minutę), dopuszczalnej liczby błędów (potknięć, zahamowań) i ewentualnie poziomu zrozumienia tekstu.
2. Sprawdzenie wytworzonej hierarchii przez różnych użytkowników wobec różnych obiektów. Ta czynność jest podstawą standaryzacji skali porządkowej, a jej pozytywny wynik pozwala uznać mierzoną właściwość za stopniowalną, czyli za możliwą do przedstawienia w kategoriach skali porządkowej.
Wzorem nauk przyrodniczych (klasyfikacji roślin i zwierząt dokonanej przez Linneusza), w naukach społecznych rosnącą rolę odgrywają taksonomie, czyli hierarchiczne klasyfikacje obiektów realnych i abstrakcyjnych. W poprzednim rozdziale przypomniano taksonomię potrzeb człowieka, zaproponowaną w psychologii przez Maslowa, a w podręcznikach dydaktyki (np. Niemierko, 2007a) pojawiają się taksonomie: zmian w uczniu, celów kształcenia, odbioru informacji, zaangażowania nauczyciela, trafności sprawdzania i inne. Także podręczniki socjologii (Sztompka, 2002) zawierają liczne układy hierarchicznie uporządkowanych pojęć.
Jako modele rzeczywistości taksonomie nigdy nie są jej w pełni wierne, zawsze stanowią duże uproszczenie i z tego względu wywołują ostre dyskusje (zob. Niemierko, 1990a, s. 212–215). Ich rola bywa większa w projektowaniu kształcenia. Gdy standardy edukacyjne, jako opisy osiągnięć uznanych za niezbędne na danym szczeblu kształcenia ogólnego lub zawodowego, są zbudowane w postaci wielostopniowej, mogą służyć zarówno do diagnozy wstępnej osiągnięć uczniów i doboru właściwego poziomu kształcenia, do regulowania przebiegu kształcenia, jak też do diagnozy końcowej, egzaminowania i dyplomowania. Dobrym przykładem tego jest Europejski system opisu kształcenia językowego (Coste i in., 2001).
2.1.3. Skala porządkowa znajomości języka obcego
Zespół czterech autorów powołany przez Radę Europy – Daniel Coste, Brian North, Joseph Sheils i John Trim – dokonał opracowania, które może być wzorem normowania wybranej dziedziny kształcenia przez budowanie skali porządkowej wymaganych osiągnięć. Międzynarodowy przepływ uczniów i studentów oraz siły roboczej wywołał potrzebę takiego systemu.
Wyznaczono trzy poziomy biegłości językowej: A. Poziom podstawowy, B. Poziom samodzielności i C. Poziom biegłości, a każdy z nich podzielono dodatkowo na dwa szczeble, tworząc sześciokategorialną taksonomię: A1 „Przełom”, A2 „Fundament”, B1 „Próg”, B2 „Perspektywa”, C1 „Skuteczność”, C2 „Mistrzostwo”.
A oto standardy osiągnięć na trzech z sześciu wyróżnionych poziomów (tamże, s. 33):
A2. Osoba posługująca się językiem na tym poziomie rozumie wypowiedzi i często używane wyrażenia podstawowe w zakresie tematów związanych z życiem codziennym (są to np. bardzo podstawowe informacje dotyczące rozmówcy i jego rodziny, zakupów, otoczenia, pracy). Potrafi porozumiewać się w rutynowych, prostych sytuacjach komunikacyjnych, wymagających jedynie bezpośredniej wymiany zdań na tematy znane i typowe. Potrafi w prosty sposób opisywać swoje pochodzenie i otoczenie, w którym żyje, a także poruszać sprawy związane z najważniejszymi potrzebami życia codziennego.
B2. Osoba posługująca się językiem na tym poziomie rozumie znaczenie głównych wątków przekazu w złożonych tekstach na tematy konkretne i abstrakcyjne, łącznie z rozumieniem dyskusji na tematy techniczne ze swojej specjalności. Potrafi porozumiewać się na tyle płynnie i spontanicznie, by prowadzić normalną rozmowę z rodzimym użytkownikiem języka, nie powodując przy tym napięcia u którejkolwiek ze stron. Potrafi – w szerokim zakresie tematów – formułować przejrzyste i szczegółowe wypowiedzi ustne lub pisemne, a także wyjaśniać swoje stanowisko w sprawach będących przedmiotem dyskusji, rozważając wady i zalety różnych rozwiązań.
C2. Osoba posługująca się językiem na tym poziomie może z łatwością zrozumieć praktycznie wszystko, co usłyszy lub przeczyta. Potrafi streszczać informacje pochodzące z różnych źródeł, pisanych lub mówionych, w spójny sposób odtwarzając zawarte w nich tezy i wyjaśnienia. Potrafi wyrażać swoje myśli płynnie, spontanicznie i precyzyjnie, subtelnie różnicując odcienie znaczeniowe nawet w bardzo złożonych wypowiedziach.
O przytoczonych standardach i o ich układzie warto poczynić następujące uwagi:
1. Autorzy zadbali o operacyjność sformułowań. Opisują konkretne czynności (zachowania) „osoby posługującej się językiem” w określonych sytuacjach, a nie tylko nazywają jej umiejętności (rozumienie, porozumiewanie się, wyrażanie). Charakterystyczny zwrot „potrafi” kieruje naszą myśl ku sprawdzeniu, czy dana czynność jest opanowana (czy kandydat rzeczywiście potrafi ją wykonać).
2. Między poziomami osiągnięć występuje kumulatywność w tym sensie, że „rozumie praktycznie wszystko” (C2), mieści w sobie „rozumie znaczenie głównych wątków przekazu w złożonych tekstach” (B2), a to z kolei obejmuje „rozumie wypowiedzi i często używane wyrażenia podstawowe” (A2). Podobnie „potrafi wyrażać swoje myśli płynnie, spontanicznie i precyzyjnie” (C2) zawiera „potrafi porozumiewać się na tyle płynnie i spontanicznie, by prowadzić normalną rozmowę” (B2) i z kolei „potrafi porozumiewać się w rutynowych, prostych sytuacjach komunikacyjnych” (A2). Nie da się uzyskać wyższego poziomu osiągnięć w danym zakresie bez uzyskania niższego poziomu.
3. Opisy poziomów są zwięzłe (trzyzdaniowe), co pozwala na uzyskanie jasnego wyobrażenia umiejętności językowych, ale nie wystarcza, aby je ćwiczyć i mierzyć. Dlatego autorzy Europejskiego systemu opisu kształcenia językowego rozwinęli w swym opracowaniu standardy ogólne w bardziej szczegółowe opisy poziomów opanowania pięciu głównych umiejętności: słuchania, czytania, porozumiewania się, mówienia i pisania, co uporządkowało dziedzinę i pogłębiło operacyjność sformułowań.
4. Dopełnieniem standardów są narzędzia pomiaru osiągnięć. Wydawnictwo odsyła do testów języka angielskiego stosowanych w Cambridge, ale inne testy językowe także mogą być dopasowane do norm Rady Europy. Zastępczą, znacznie mniej rzetelną procedurą pomiarową może być zastosowanie tabel samooceny biegłości językowej (tamże, s. 34–35), w których normy są zredagowane w pierwszej osobie liczby pojedynczej („Potrafię zrozumieć znane mi słowa…” itd.). Daje to wstępną orientację co do testów, jakie należałoby wybrać, aby potwierdzić poziom osiągnięć.
2.1.4. Skala przedziałowa
Skala przedziałowa powstaje przez ustalenie jednostki pomiaru jako wzorcowej ilości tej właściwości, którą chcemy zmierzyć. Wymaga założenia o jednorodności (homogeniczności), czyli wewnętrznej spójności mierzonej właściwości (cechy obiektów), pozwalającej na jej przedstawianie ilościowe. Jednostka pomiaru jest zwykle niewielka, tak by różnice ilościowe mogły być precyzyjne. Każda para symboli skali przedziałowej przedstawia różnicę między obiektami wyrażone liczbą jednostek pomiarowych.
Nauki fizykalne (matematyczno-przyrodnicze) operują dokładnie zdefiniowanymi jednostkami pomiaru: długości, pola, objętości, masy, siły, czasu, energii, ciepła i wieloma innymi. Daje to im prawo dokonywania zaawansowanych operacji matematycznych na symbolach przedstawiających wyniki pomiaru. Tej możliwości nie mają nauki humanistyczne, obejmujące właściwości, które nie są jednorodne. Już konsekwentne porządkowanie klas jakościowych, jak to sygnalizowano w podrozdz. 2.1.2, nastręcza wielu trudności, gdyż różnice między klasami są wielowymiarowe i np. rozumienie języka obcego, mówienie, czytanie i pisanie (sklasyfikowane w podrozdz. 2.1.3) mogą przybrać wartości rozbieżne. Ponadto są to różnice strukturalne, jakościowe i sprowadzenie ich do liczby jednostek elementarnych, jakimi są głoski, wyrazy i wzory zdań, miałoby zgoła niewielki sens praktyczny.
A jednak pedagogom trudno wyrzec się korzyści, jakie daje odmierzanie wyników uczenia się w jednostkach skali przedziałowej. Możliwe są tu dwa wyjścia:
1. Uproszczenie. Przyjmujemy, że przedziały skali porządkowej, czyli różnice między kolejnymi stopniami, są równe (a więc np. ocena „celująca” – „bardzo dobra” = „bardzo dobra” – „dobra”) i w ten sposób tworzymy jednostkę pomiaru. To założenie pozwala nam wykonywać na stopniach działania arytmetyczne, obliczać średnią, miary rozrzutu i miary korelacji, a także stosować indukcję statystyczną (szacowanie istotności różnic i siły związków).
Gdy stopnie lub inne symbole dotyczą różnych zakresów przedmiotu szkolnego, a nawet różnych przedmiotów, uproszczenia towarzyszące działaniom arytmetycznym na tych stopniach są jeszcze większe, bo cała treść osiągnięć uczniów jest traktowana jako jednorodna. Mimo naiwności takiego założenia jest ono przyjmowane w diagnostyce nieformalnej.
2. Zastąpienie. Jednostkę pomiaru uzyskujemy wtórnie, interpretując rozkład właściwości w populacji obiektów i zakładając, że działają w niej prawa rachunku prawdopodobieństwa. Na takim założeniu wyrosła klasyczna psychometria, metoda badawcza psychologii różnic indywidualnych.
Gdy wyniki pomiaru są zadowalająco zróżnicowane, ich rozkład da się przekształcić na przybliżenie rozkładu normalnego (Gaussa), o charakterystycznym kształcie dzwonowym: spiętrzeniu wyników w części środkowej i ramionach rozciągających się symetrycznie w obie strony. Takie przekształcenie nazywamy normalizacją rozkładu, a skalę wytworzoną u jego podstawy (na osi poziomej) nazywamy skalą znormalizowaną. O skali znormalizowanej możemy sądzić, że przedstawia dostatecznie jednorodną właściwość jednakowo dokładnie we wszystkich częściach rozkładu wyników pomiaru.
Pozostaje nam teraz podzielić uzyskaną prostą (kontinuum) na jednakowej długości odcinki. Dokonujemy tego według odchylenia standardowego rozkładu, tworząc skalę standardową. Jednostką skali standardowej bywa od 1/2 do 1/100 odchylenia standardowego, zależnie od tego, z jaką dokładnością chcemy przedstawiać wyniki pomiaru. Skale zbudowane z jednostek tych dwu wielkości zostały przedstawione na ryc. 2.1.
Ryc. 2.1. Rozkład normalny i dwie standardowe skale znormalizowane
Rycina 2.1 wymaga kilku objaśnień:
1. W związku z tym, że odchylenia standardowe rozkładu odmierzamy od średniej wyników pomiaru, połowa przedziałów skali standardowej miałaby numery ujemne, co utrudniłoby obliczenia i miałoby niekorzystny efekt psychiczny, sugerując badanemu porażkę. Zapobiegamy temu, dodając do numeru przedziału stałą o zadowalającej wielkości: 5 i 500 jednostek.
2. Pierwsza z dwu skal, popularna w normowaniu testów osiągnięć w Stanach Zjednoczonych, a stosowana w Polsce do przedstawiania wyników sprawdzianu po szkole podstawowej i egzaminu gimnazjalnego, skala staninowa (dziewiątkowa, stanine = standard + nine) ma dziewięć jednostek (1–9), z których siedem środkowych stanowi równe przedziały, a dwa krańcowe są półotwarte. Wynik „pięć staninów” uzyskuje aż 20% badanych (w próbie standaryzacyjnej), wyniki „cztery staniny” i „sześć staninów” – po 17% itd. Tak ogólne grupowanie badanych odpowiada rzetelności pomiaru, jaką możemy uzyskać w edukacji, a jednocyfrowe numery staninów ułatwiają dokumentowanie i analizę wyników. W Polsce uzgodniono (Niemierko, 1999, s. 272) następujące nazwy kolejnych staninów: najniższy, bardzo niski, niski, niżej średni, średni, wyżej średni, wysoki, bardzo wysoki i najwyższy.
3. Druga z przedstawionych skal, skala akademicka (w Stanach Zjednoczonych znana jako CEEB scale, gdyż jest stosowana w College Entrance Examination Board), proponowana do przedstawiania wyników polskiej matury, ma 601 jednostek (200–800). Tak wielka dokładność ma znaczenie tylko przy obliczaniu i porównywaniu średnich, a w stosunku do jednego kandydata ogranicza się ją zazwyczaj do pełnych dziesiątek.
4. Skale standardowe wydają się niespecjalistom trudne z dwu powodów:
a. Stanowią miary pozycyjne, gdyż oszacowanie jakości zastąpiono w nich oszacowaniem pozycji w zbiorze (grupie), nazywanej w statystyce rangą wyniku. Ranga jest wartością względną, zależną od wyników innych badanych, dość obcą pedagogice, nastawionej na planowe zmiany w uczniach-wychowankach.
b. Wymagają przekształcenia rozkładu wyników. Jest to wprawdzie operacja dość prosta, oparta na wyznaczeniu centyli, jako punktów na (dostatecznie długiej) skali wyników surowych (nieprzekształconych), poniżej których mieści się określony procent wyników (np. w skali staninowej: 4%, 4 + 7 = 11%, 11 + 12 = 23% itd., patrz: Niemierko, 1999a, s. 267–269), ale łatwo przy niej zgubić sens przekształcenia. Wykonując te obliczenia, traktujemy skalę wyników surowych jako jednorodną skalę porządkową, przedstawiającą mierzoną właściwość jednolicie na całej swej długości, a pedagog dostrzega odmienne znaczenie treściowe różnych wyników. Na interpretację tego znaczenia musi czekać do chwili gotowości skali standardowej, dlatego normalizacja rozkładu wydaje mu się abstrakcją, zwłaszcza że nie da się wprost dowieść, iż mierzona właściwość podlega prawom rachunku prawdopodobieństwa.
Wynik pomiaru w skali standardowej jest zależny od populacji obiektów (uczniów-wychowanków), reprezentowanej przez próbę standaryzacyjną, to jest przez zbiór elementów populacji wykorzystany w procesie standaryzacji narzędzia. Ten sam wynik surowy będzie zamieniony na więcej staninów i więcej punktów skali akademickiej, gdy populację stanowić będzie ogół uczniów danej klasy w Polsce, a mniej staninów i mniej punktów skali akademickiej, gdy populację stanowić będą jedynie kandydaci do selekcyjnych szkół wyższego szczebla, a więc na ogół lepiej przygotowani do egzaminu. Badana populacja ustanawia skalę i dyktuje normy.
Tej wady nie ma skala teta, uzyskiwana przez zastosowanie teorii wyniku zadania (teorii odpowiadania na pozycję testu, item response theory, IRT), obejmującej probabilistyczne modele pomiaru (Hambleton i Swaminathan, 1985; Hornowska, 2001, s. 193–204). Wymaga ona jeszcze silniejszego założenia o jednorodności mierzonej właściwości niż skale standardowe, oparte na klasycznej teorii testu. Tym założeniem jest lokalna niezależność zadań, oznaczająca, że wynik każdego zadania jest u wszystkich badanych statystycznie niezależny od wyniku jakiegokolwiek innego zadania testu, a zależny jedynie od mierzonej właściwości. Grupy zadań mają być więc pozbawione wyróżniającej je spójności.
Dla zbiorów zadań spełniających założenie o lokalnej niezależności funkcja teta wyznacza prawdopodobieństwo prawidłowego rozwiązania poszczególnego zadania. Zero skali przypada w punkcie, w którym prawdopodobieństwo rozwiązania tych zadań wynosi 0,5 (lub nieco więcej, gdy istnieje możliwość zgadywania odpowiedzi). Skala teta jest zwykle użytkowana w granicach od –3,00 do 3,00 (co odpowiada rozstępowi wyników 200–800 w skali akademickiej), gdyż wyniki poza tymi granicami, choć niekiedy zdarzają się, są rzadkie i bardzo niedokładne.
Do poprawnego skalowania testu tą metodą potrzebne są duże próby standaryzacyjne (2 tysiące i więcej badanych) i zaawansowane oprogramowanie. Jest najczęściej stosowana do tworzenia banków zadań, w postaci komputerowych baz danych o właściwościach zadań, które mogą być wykorzystane do budowy nowego narzędzia (Szaleniec, 2005).
Gdy skala teta jest oparta na założeniu rozkładu normalnego mierzonej właściwości (co nie jest konieczne, ale często stosowane), wyniki pomiaru w niej wyrażone okazują się wysoko skorelowane z wynikami przedstawionymi w skalach standardowych, mimo iż sposób ich szacowania jest odmienny (Ciżkowicz, 2005). Mała intuicyjność pojęć teorii wyniku zadania oraz matematyczne zaawansowanie programów obliczeniowych powodują, że jej wykorzystanie jest na razie ograniczone do wąskiego grona specjalistów psychometrii. Zalety matematyczne skali teta mogą jednak w przyszłości przeważyć szalę na jej korzyść.
2.1.5. Skala stosunkowa
Książka zawiera autorską wersję przedmiotu diagnostyka edukacyjna, który pojawił się niedawno w programach kształcenia szkół pedagogicznych i akademickich kierunków nauczycielskich innych uczelni. W treści i formie jest wzorowana na wydawnictwach anglosaskich. Diagnostyka, jaką prezentuje, została oparta na pomiarze pedagogicznym i ma charakter rozwojowy, co znaczy, że przyrost osiągnięć uczniów – przy każdym poziomie wyjściowym – jest w niej pierwszoplanowy.
Ponieważ pomiar pedagogiczny dotyczy zdarzeń powtarzalnych i posługuje się statystyką, dla jego uprawiania potrzebne jest opanowanie metod opisu i wnioskowania statystycznego. Wprowadzenie elementów tych dziedzin rozsadziłoby jednak ramy podręcznika i zmieniło jego charakter, toteż nie zawiera on żadnych wzorów matematycznych ani procedur obliczeniowych. Trzeba zatem podzielić korzystających z podręcznika na dwie kategorie: tych, którzy nie uczyli się statystyki, a mimo to będą mogli poznać zasady diagnostyki i uchwycić jej ducha – w tym przede wszystkim skromność, świadomość ograniczeń wszelkich metod diagnostycznych – na podstawie podanych przykładów, oraz tych, którzy mają za sobą solidny kurs statystyki – od porządkowania danych do korelacji i regresji – a więc będą mogli samodzielnie analizować narzędzia i wyniki badań diagnostycznych.
Jak stwierdza wybitny znawca diagnozy psychologicznej, Władysław Jacek Paluchowski (2007, s. 1): „diagnozowanie to przetwarzanie danych, a nie rejestrowanie zachowań”. W tym przetwarzaniu kluczową rolę odgrywa wiedza diagnosty – „znajomość ogólnych prawidłowości panujących w danej dziedzinie” (tamże, s. 12). Jak z tego wynika, diagnostyka stanowi jedynie dziedzinę pomocniczą. W edukacji będzie użyteczna po połączeniu z wiedzą wychowawczą, dydaktyczno-przedmiotową lub administracyjną. Nie może zastąpić tej wiedzy, dlatego różni specjaliści muszą współpracować, a zarazem znać granice swojej kompetencji, co dotyczy zwłaszcza dwu bliskich sobie dyscyplin: psychologii i pedagogiki.
Trzon podręcznika stanowi 77 rozgałęzionych pojęć, zestawionych – wraz z ich angielskimi odpowiednikami – na końcu każdego rozdziału. Tyleż też mamy ćwiczeń wdrażających do stosowania tych pojęć oraz par zaleceń będących rekapitulacją rozdziałów. Tekst podręcznika jest dwupłaszczyznowy: w warstwie zasadniczej, pisanej dużą czcionką, wprowadza główne pojęcia, a w warstwie dodatkowej, pisanej drobniejszą czcionką – poszerza je i ilustruje przykładami zagadnień i analiz.
Podręcznik jest przeznaczony dla tych nauczycieli i pedagogów, którzy będą ponosić odpowiedzialność za emocjonalny i poznawczy rozwój uczniów oraz za rozwój różnego rodzaju placówek edukacyjnych. Dopóki nie wyłonią się w Polsce akademickie specjalizacje „diagnosta osiągnięć uczniów” i „ewaluator systemów edukacyjnych” – a wierzę, że prędzej czy później to nastąpi – umiejętności z tych dziedzin będą stanowić uzupełnienie ogólnych kwalifikacji pedagogicznych. Chciałbym, by sięgnęli też po tę książkę czynni nauczyciele i doradcy, dyrektorzy szkół, pracownicy komisji egzaminacyjnych i nadzoru pedagogicznego.
Podręcznik zawiera materiały różnego pochodzenia, krajowego i zagranicznego. Tadeusz Lewowicki i Andrzej Janowski zainspirowali mnie do zajęcia się diagnostyką. Cenne kontrowersje wniósł Krzysztof Konarzewski, a Krzysztof Kruszewski przyjaźnie sekundował postępom w pisaniu podręcznika. Wiele zawdzięczam działalności Polskiego Towarzystwa Diagnostyki Edukacyjnej i jego władzom: Henrykowi Szaleńcowi i Marii Krystynie Szmigel. Członkowie Towarzystwa wypełnili swoimi pracami kilkanaście tomów wydawnictw konferencyjnych, które dostarczały mi danych, niekiedy nowych pomysłów, a zawsze przekonania o celowości podjętej pracy. Z zagranicznych autorów największy wpływ mieli Beniamin Bloom z Chicago, James Popham z Los Angeles i Anthony Nitko z Pittsburga.
Osobne podziękowanie składam Swojej Żonie, Adzie Sitarskiej-Niemierko, za wspólne znoszenie trudów dwuletniej pracy nad książką.
Bolesław Niemierko
Sopot–Alicante, 2007–2008ROZDZIAŁ 2 Pomiar pedagogiczny jako podstawa diagnostyki edukacyjnej
W poprzednim rozdziale określiliśmy pomiar jako przyporządkowywanie obiektom symboli według empirycznie sprawdzalnych reguł. Procedury pomiarowe są zobiektywizowane. Jaką mają wartość dla diagnostyki edukacyjnej? Jak dalece są potrzebne nauczycielowi-wychowawcy w jego codziennej pracy z uczniami-wychowankami oraz do ulepszania warsztatu pedagogicznego? Aby odpowiedzieć na te pytania, trzeba poznać najważniejsze procedury pomiarowe, począwszy od konstrukcji skali.
2.1. Skale pomiarowe
Skala pomiarowa jest systemem symboli przedstawiających wyniki pomiaru. Ten system ma swój skład w postaci zbioru symboli (nazw, liczb, innych znaków) i strukturę w postaci układu relacji między tymi symbolami.
Symbole pomiarowe są wymienne. Na przykład: liczba 5 (w Polsce), liczba 1 (w Niemczech), litera A (w Anglii), nazwa przymiotnikowa „bardzo dobry” lub rzeczownikowa „mistrz” i odpowiednio dobrane ikony (np. ☺) mogą mieć to samo znaczenie treściowe, a więc wskazywać na opanowanie tego samego zakresu treści kształcenia. Struktury pomiarowe natomiast nie są wymienne. Każda zmiana w nich dokonana powoduje zwiększenie lub zmniejszenie zakresu uprawnionych operacji matematycznych na symbolach. Z tego powodu specjaliści przywiązują znacznie większą wagę do relacji między symbolami niż do rodzaju symboli, jakie zastosowano w pomiarze.
Bardzo przydatna w diagnostyce edukacyjnej jest klasyfikacja skal pomiarowych dokonana przed ponad półwieczem przez S.S. Stevensa (1951), obejmująca cztery rodzaje skal: nominalną, porządkową, przedziałową i stosunkową.
2.1.1. Skala nominalna
Skala nominalna polega na rozróżnianiu jakości, a dokładniej – na zaliczaniu obiektów do określonych kategorii uznawanych za równorzędne. Decyzje podejmowane przy posługiwaniu się skalą nominalną polegają na przyporządkowaniu lub nieprzyporządkowaniu obiektu do danej klasy.
Obiektywizacja procedury pomiarowej przy zastosowaniu skali nominalnej polega na dwóch zabiegach:
1. Kategorie wyników pomiaru muszą być zdefiniowane przed jego dokonaniem. Ta właściwość różni pomiar nominalny od jakościowych metod badawczych, w których badacz rozpoczyna od nieukierunkowanej obserwacji obiektów i przyjmuje założenie o ich niepowtarzalności (Konarzewski, 2000, rozdz. 2 i 4). Pomiar należy do ilościowych metod badawczych, nastawionych na prawidłowości dotyczące powtarzalnych właściwości obiektów i sytuacji (tamże, rozdz. 3). Jak widać, pomiar nie może objąć „całego człowieka”, który jest bez wątpienia bytem indywidualnym, ani całej jego sytuacji, która nigdy dokładnie się nie powtarza. Skala nominalna dotyczy tylko określonych właściwości (cech) obiektu, wybranych ze względu na cel diagnozy.
2. Sposób przyporządkowania określonej kategorii obiektom musi być ustalony i sprawdzony. Właściwości klasyfikowane są bezpośrednio, jak np. płeć ucznia na podstawie jego wyglądu, lub pośrednio, jak płeć na podstawie imiennego rejestru uczniów. W każdym przypadku posługujemy się wskaźnikami badanej właściwości, czyli danymi, na podstawie których wnioskujemy o istnieniu tej właściwości.
Wskaźniki ułatwiają klasyfikację, ale nie są niezawodne. Przy obserwacji ucznia-wychowanka jego rysy twarzy, uczesanie, ubiór, a nawet brzmienie głosu mogą wprowadzać obserwatora w błąd co do płci. Rejestr uczniów może zawierać pomyłki, wiele nazwisk nie przybiera końcówek rodzajowych, a niektóre imiona (np. amerykańskie) mogą być wspólne dla chłopców i dziewcząt. Z tego względu procedurę trzeba sprawdzić, gdy zaś diagnozowana właściwość nie jest bezpośrednio obserwowalna (jak motywacja, inteligencja, aspiracje edukacyjne), każdy sposób przyporządkowania kategorii skali danego rodzaju obiektom podlega uzasadnionej krytyce.
Zakres posługiwania się nominalną skalą pomiarową jest w diagnostyce edukacyjnej szeroki. Obejmuje większość właściwości kontekstu kształcenia, w tym zwłaszcza jego cechy kulturowe (ekonomiczne, populacyjne, obyczajowe), które chcemy rozpoznać i nazwać, ale nie wartościować. Także poszczególne cechy osobowości uczniów (zdolności, temperament, aspiracje) mogą być skategoryzowane, jako elementy struktury osobowości. Wszelkie działania edukacyjne (ich cele, metody, środki) mają charakter jakościowy, nie ilościowy, ale możemy je rozróżniać i ogólnie klasyfikować. Wreszcie wyniki uczenia się, zwłaszcza w dziedzinie emocjonalnej, bywają dostępne pomiarowi tylko na szczeblu nominalnym.
Dane przedstawione w skali nominalnej mogą być poddane operacjom matematycznym opartym na liczeniu obiektów każdej kategorii oraz na porównywaniu liczebności między kategoriami. Jeżeli na przykład dwanaścioro uczniów wykazało – jako główne – zainteresowania sportowe, ośmioro – zainteresowania artystyczne, pięcioro – humanistyczne i troje – matematyczno-przyrodnicze, to możemy te dane przedstawić w procentach (odpowiednio: 42%, 29%, 18%, 11%), ustalić wartość modalną, najczęstszą (zainteresowania sportowe), a tabelę poddać testowi istotności różnic między liczebnościami (statystyka chi-kwadrat). Wnioski mogą dotyczyć zarówno pojedynczego ucznia-wychowanka, jak też grupy, ale nie mogą wybiegać poza rozróżnienie jakości.
2.1.2. Skala porządkowa
Skala porządkowa polega na ustaleniu hierarchii wartości, a więc na odróżnianiu wartości wyższych i niższych (większych i mniejszych). Jej kategorie są uporządkowane w ten sposób, że każda wyższa jest bardziej ceniona niż od niej niższa. Gdy można ustalić, co więcej zawiera wyższa kategoria w stosunku do niższej kategorii, a więc niższa kategoria jest częścią wyższej, mówimy o kumulatywności skali porządkowej.
Zbudowanie skali porządkowej w pedagogice i w innych naukach społecznych jest niełatwym zadaniem. Zasadniczą trudność stanowi takie jej unormowanie, aby przyporządkowanie stopnia skali obiektowi pomiaru było maksymalnie zobiektywizowane. Staramy się to uzyskać przez zastosowanie następującej procedury:
1. Zdefiniowanie każdej kategorii wyników pomiaru w taki sposób, aby odróżnienie kategorii bezpośrednio wyższej i bezpośrednio niższej było możliwie dokładne. Nadają się do tego zwłaszcza definicje operacyjne, zawierające informacje o wskaźnikach, jakie mają być zastosowane. Na przykład określenie „płynnie czyta głośno” nie wystarczy do precyzyjnego odróżnienia biegłych i mniej biegłych czytelników. Niezbędne bywają wskaźniki szybkości czytania (liczba słów typowego tekstu na minutę), dopuszczalnej liczby błędów (potknięć, zahamowań) i ewentualnie poziomu zrozumienia tekstu.
2. Sprawdzenie wytworzonej hierarchii przez różnych użytkowników wobec różnych obiektów. Ta czynność jest podstawą standaryzacji skali porządkowej, a jej pozytywny wynik pozwala uznać mierzoną właściwość za stopniowalną, czyli za możliwą do przedstawienia w kategoriach skali porządkowej.
Wzorem nauk przyrodniczych (klasyfikacji roślin i zwierząt dokonanej przez Linneusza), w naukach społecznych rosnącą rolę odgrywają taksonomie, czyli hierarchiczne klasyfikacje obiektów realnych i abstrakcyjnych. W poprzednim rozdziale przypomniano taksonomię potrzeb człowieka, zaproponowaną w psychologii przez Maslowa, a w podręcznikach dydaktyki (np. Niemierko, 2007a) pojawiają się taksonomie: zmian w uczniu, celów kształcenia, odbioru informacji, zaangażowania nauczyciela, trafności sprawdzania i inne. Także podręczniki socjologii (Sztompka, 2002) zawierają liczne układy hierarchicznie uporządkowanych pojęć.
Jako modele rzeczywistości taksonomie nigdy nie są jej w pełni wierne, zawsze stanowią duże uproszczenie i z tego względu wywołują ostre dyskusje (zob. Niemierko, 1990a, s. 212–215). Ich rola bywa większa w projektowaniu kształcenia. Gdy standardy edukacyjne, jako opisy osiągnięć uznanych za niezbędne na danym szczeblu kształcenia ogólnego lub zawodowego, są zbudowane w postaci wielostopniowej, mogą służyć zarówno do diagnozy wstępnej osiągnięć uczniów i doboru właściwego poziomu kształcenia, do regulowania przebiegu kształcenia, jak też do diagnozy końcowej, egzaminowania i dyplomowania. Dobrym przykładem tego jest Europejski system opisu kształcenia językowego (Coste i in., 2001).
2.1.3. Skala porządkowa znajomości języka obcego
Zespół czterech autorów powołany przez Radę Europy – Daniel Coste, Brian North, Joseph Sheils i John Trim – dokonał opracowania, które może być wzorem normowania wybranej dziedziny kształcenia przez budowanie skali porządkowej wymaganych osiągnięć. Międzynarodowy przepływ uczniów i studentów oraz siły roboczej wywołał potrzebę takiego systemu.
Wyznaczono trzy poziomy biegłości językowej: A. Poziom podstawowy, B. Poziom samodzielności i C. Poziom biegłości, a każdy z nich podzielono dodatkowo na dwa szczeble, tworząc sześciokategorialną taksonomię: A1 „Przełom”, A2 „Fundament”, B1 „Próg”, B2 „Perspektywa”, C1 „Skuteczność”, C2 „Mistrzostwo”.
A oto standardy osiągnięć na trzech z sześciu wyróżnionych poziomów (tamże, s. 33):
A2. Osoba posługująca się językiem na tym poziomie rozumie wypowiedzi i często używane wyrażenia podstawowe w zakresie tematów związanych z życiem codziennym (są to np. bardzo podstawowe informacje dotyczące rozmówcy i jego rodziny, zakupów, otoczenia, pracy). Potrafi porozumiewać się w rutynowych, prostych sytuacjach komunikacyjnych, wymagających jedynie bezpośredniej wymiany zdań na tematy znane i typowe. Potrafi w prosty sposób opisywać swoje pochodzenie i otoczenie, w którym żyje, a także poruszać sprawy związane z najważniejszymi potrzebami życia codziennego.
B2. Osoba posługująca się językiem na tym poziomie rozumie znaczenie głównych wątków przekazu w złożonych tekstach na tematy konkretne i abstrakcyjne, łącznie z rozumieniem dyskusji na tematy techniczne ze swojej specjalności. Potrafi porozumiewać się na tyle płynnie i spontanicznie, by prowadzić normalną rozmowę z rodzimym użytkownikiem języka, nie powodując przy tym napięcia u którejkolwiek ze stron. Potrafi – w szerokim zakresie tematów – formułować przejrzyste i szczegółowe wypowiedzi ustne lub pisemne, a także wyjaśniać swoje stanowisko w sprawach będących przedmiotem dyskusji, rozważając wady i zalety różnych rozwiązań.
C2. Osoba posługująca się językiem na tym poziomie może z łatwością zrozumieć praktycznie wszystko, co usłyszy lub przeczyta. Potrafi streszczać informacje pochodzące z różnych źródeł, pisanych lub mówionych, w spójny sposób odtwarzając zawarte w nich tezy i wyjaśnienia. Potrafi wyrażać swoje myśli płynnie, spontanicznie i precyzyjnie, subtelnie różnicując odcienie znaczeniowe nawet w bardzo złożonych wypowiedziach.
O przytoczonych standardach i o ich układzie warto poczynić następujące uwagi:
1. Autorzy zadbali o operacyjność sformułowań. Opisują konkretne czynności (zachowania) „osoby posługującej się językiem” w określonych sytuacjach, a nie tylko nazywają jej umiejętności (rozumienie, porozumiewanie się, wyrażanie). Charakterystyczny zwrot „potrafi” kieruje naszą myśl ku sprawdzeniu, czy dana czynność jest opanowana (czy kandydat rzeczywiście potrafi ją wykonać).
2. Między poziomami osiągnięć występuje kumulatywność w tym sensie, że „rozumie praktycznie wszystko” (C2), mieści w sobie „rozumie znaczenie głównych wątków przekazu w złożonych tekstach” (B2), a to z kolei obejmuje „rozumie wypowiedzi i często używane wyrażenia podstawowe” (A2). Podobnie „potrafi wyrażać swoje myśli płynnie, spontanicznie i precyzyjnie” (C2) zawiera „potrafi porozumiewać się na tyle płynnie i spontanicznie, by prowadzić normalną rozmowę” (B2) i z kolei „potrafi porozumiewać się w rutynowych, prostych sytuacjach komunikacyjnych” (A2). Nie da się uzyskać wyższego poziomu osiągnięć w danym zakresie bez uzyskania niższego poziomu.
3. Opisy poziomów są zwięzłe (trzyzdaniowe), co pozwala na uzyskanie jasnego wyobrażenia umiejętności językowych, ale nie wystarcza, aby je ćwiczyć i mierzyć. Dlatego autorzy Europejskiego systemu opisu kształcenia językowego rozwinęli w swym opracowaniu standardy ogólne w bardziej szczegółowe opisy poziomów opanowania pięciu głównych umiejętności: słuchania, czytania, porozumiewania się, mówienia i pisania, co uporządkowało dziedzinę i pogłębiło operacyjność sformułowań.
4. Dopełnieniem standardów są narzędzia pomiaru osiągnięć. Wydawnictwo odsyła do testów języka angielskiego stosowanych w Cambridge, ale inne testy językowe także mogą być dopasowane do norm Rady Europy. Zastępczą, znacznie mniej rzetelną procedurą pomiarową może być zastosowanie tabel samooceny biegłości językowej (tamże, s. 34–35), w których normy są zredagowane w pierwszej osobie liczby pojedynczej („Potrafię zrozumieć znane mi słowa…” itd.). Daje to wstępną orientację co do testów, jakie należałoby wybrać, aby potwierdzić poziom osiągnięć.
2.1.4. Skala przedziałowa
Skala przedziałowa powstaje przez ustalenie jednostki pomiaru jako wzorcowej ilości tej właściwości, którą chcemy zmierzyć. Wymaga założenia o jednorodności (homogeniczności), czyli wewnętrznej spójności mierzonej właściwości (cechy obiektów), pozwalającej na jej przedstawianie ilościowe. Jednostka pomiaru jest zwykle niewielka, tak by różnice ilościowe mogły być precyzyjne. Każda para symboli skali przedziałowej przedstawia różnicę między obiektami wyrażone liczbą jednostek pomiarowych.
Nauki fizykalne (matematyczno-przyrodnicze) operują dokładnie zdefiniowanymi jednostkami pomiaru: długości, pola, objętości, masy, siły, czasu, energii, ciepła i wieloma innymi. Daje to im prawo dokonywania zaawansowanych operacji matematycznych na symbolach przedstawiających wyniki pomiaru. Tej możliwości nie mają nauki humanistyczne, obejmujące właściwości, które nie są jednorodne. Już konsekwentne porządkowanie klas jakościowych, jak to sygnalizowano w podrozdz. 2.1.2, nastręcza wielu trudności, gdyż różnice między klasami są wielowymiarowe i np. rozumienie języka obcego, mówienie, czytanie i pisanie (sklasyfikowane w podrozdz. 2.1.3) mogą przybrać wartości rozbieżne. Ponadto są to różnice strukturalne, jakościowe i sprowadzenie ich do liczby jednostek elementarnych, jakimi są głoski, wyrazy i wzory zdań, miałoby zgoła niewielki sens praktyczny.
A jednak pedagogom trudno wyrzec się korzyści, jakie daje odmierzanie wyników uczenia się w jednostkach skali przedziałowej. Możliwe są tu dwa wyjścia:
1. Uproszczenie. Przyjmujemy, że przedziały skali porządkowej, czyli różnice między kolejnymi stopniami, są równe (a więc np. ocena „celująca” – „bardzo dobra” = „bardzo dobra” – „dobra”) i w ten sposób tworzymy jednostkę pomiaru. To założenie pozwala nam wykonywać na stopniach działania arytmetyczne, obliczać średnią, miary rozrzutu i miary korelacji, a także stosować indukcję statystyczną (szacowanie istotności różnic i siły związków).
Gdy stopnie lub inne symbole dotyczą różnych zakresów przedmiotu szkolnego, a nawet różnych przedmiotów, uproszczenia towarzyszące działaniom arytmetycznym na tych stopniach są jeszcze większe, bo cała treść osiągnięć uczniów jest traktowana jako jednorodna. Mimo naiwności takiego założenia jest ono przyjmowane w diagnostyce nieformalnej.
2. Zastąpienie. Jednostkę pomiaru uzyskujemy wtórnie, interpretując rozkład właściwości w populacji obiektów i zakładając, że działają w niej prawa rachunku prawdopodobieństwa. Na takim założeniu wyrosła klasyczna psychometria, metoda badawcza psychologii różnic indywidualnych.
Gdy wyniki pomiaru są zadowalająco zróżnicowane, ich rozkład da się przekształcić na przybliżenie rozkładu normalnego (Gaussa), o charakterystycznym kształcie dzwonowym: spiętrzeniu wyników w części środkowej i ramionach rozciągających się symetrycznie w obie strony. Takie przekształcenie nazywamy normalizacją rozkładu, a skalę wytworzoną u jego podstawy (na osi poziomej) nazywamy skalą znormalizowaną. O skali znormalizowanej możemy sądzić, że przedstawia dostatecznie jednorodną właściwość jednakowo dokładnie we wszystkich częściach rozkładu wyników pomiaru.
Pozostaje nam teraz podzielić uzyskaną prostą (kontinuum) na jednakowej długości odcinki. Dokonujemy tego według odchylenia standardowego rozkładu, tworząc skalę standardową. Jednostką skali standardowej bywa od 1/2 do 1/100 odchylenia standardowego, zależnie od tego, z jaką dokładnością chcemy przedstawiać wyniki pomiaru. Skale zbudowane z jednostek tych dwu wielkości zostały przedstawione na ryc. 2.1.
Ryc. 2.1. Rozkład normalny i dwie standardowe skale znormalizowane
Rycina 2.1 wymaga kilku objaśnień:
1. W związku z tym, że odchylenia standardowe rozkładu odmierzamy od średniej wyników pomiaru, połowa przedziałów skali standardowej miałaby numery ujemne, co utrudniłoby obliczenia i miałoby niekorzystny efekt psychiczny, sugerując badanemu porażkę. Zapobiegamy temu, dodając do numeru przedziału stałą o zadowalającej wielkości: 5 i 500 jednostek.
2. Pierwsza z dwu skal, popularna w normowaniu testów osiągnięć w Stanach Zjednoczonych, a stosowana w Polsce do przedstawiania wyników sprawdzianu po szkole podstawowej i egzaminu gimnazjalnego, skala staninowa (dziewiątkowa, stanine = standard + nine) ma dziewięć jednostek (1–9), z których siedem środkowych stanowi równe przedziały, a dwa krańcowe są półotwarte. Wynik „pięć staninów” uzyskuje aż 20% badanych (w próbie standaryzacyjnej), wyniki „cztery staniny” i „sześć staninów” – po 17% itd. Tak ogólne grupowanie badanych odpowiada rzetelności pomiaru, jaką możemy uzyskać w edukacji, a jednocyfrowe numery staninów ułatwiają dokumentowanie i analizę wyników. W Polsce uzgodniono (Niemierko, 1999, s. 272) następujące nazwy kolejnych staninów: najniższy, bardzo niski, niski, niżej średni, średni, wyżej średni, wysoki, bardzo wysoki i najwyższy.
3. Druga z przedstawionych skal, skala akademicka (w Stanach Zjednoczonych znana jako CEEB scale, gdyż jest stosowana w College Entrance Examination Board), proponowana do przedstawiania wyników polskiej matury, ma 601 jednostek (200–800). Tak wielka dokładność ma znaczenie tylko przy obliczaniu i porównywaniu średnich, a w stosunku do jednego kandydata ogranicza się ją zazwyczaj do pełnych dziesiątek.
4. Skale standardowe wydają się niespecjalistom trudne z dwu powodów:
a. Stanowią miary pozycyjne, gdyż oszacowanie jakości zastąpiono w nich oszacowaniem pozycji w zbiorze (grupie), nazywanej w statystyce rangą wyniku. Ranga jest wartością względną, zależną od wyników innych badanych, dość obcą pedagogice, nastawionej na planowe zmiany w uczniach-wychowankach.
b. Wymagają przekształcenia rozkładu wyników. Jest to wprawdzie operacja dość prosta, oparta na wyznaczeniu centyli, jako punktów na (dostatecznie długiej) skali wyników surowych (nieprzekształconych), poniżej których mieści się określony procent wyników (np. w skali staninowej: 4%, 4 + 7 = 11%, 11 + 12 = 23% itd., patrz: Niemierko, 1999a, s. 267–269), ale łatwo przy niej zgubić sens przekształcenia. Wykonując te obliczenia, traktujemy skalę wyników surowych jako jednorodną skalę porządkową, przedstawiającą mierzoną właściwość jednolicie na całej swej długości, a pedagog dostrzega odmienne znaczenie treściowe różnych wyników. Na interpretację tego znaczenia musi czekać do chwili gotowości skali standardowej, dlatego normalizacja rozkładu wydaje mu się abstrakcją, zwłaszcza że nie da się wprost dowieść, iż mierzona właściwość podlega prawom rachunku prawdopodobieństwa.
Wynik pomiaru w skali standardowej jest zależny od populacji obiektów (uczniów-wychowanków), reprezentowanej przez próbę standaryzacyjną, to jest przez zbiór elementów populacji wykorzystany w procesie standaryzacji narzędzia. Ten sam wynik surowy będzie zamieniony na więcej staninów i więcej punktów skali akademickiej, gdy populację stanowić będzie ogół uczniów danej klasy w Polsce, a mniej staninów i mniej punktów skali akademickiej, gdy populację stanowić będą jedynie kandydaci do selekcyjnych szkół wyższego szczebla, a więc na ogół lepiej przygotowani do egzaminu. Badana populacja ustanawia skalę i dyktuje normy.
Tej wady nie ma skala teta, uzyskiwana przez zastosowanie teorii wyniku zadania (teorii odpowiadania na pozycję testu, item response theory, IRT), obejmującej probabilistyczne modele pomiaru (Hambleton i Swaminathan, 1985; Hornowska, 2001, s. 193–204). Wymaga ona jeszcze silniejszego założenia o jednorodności mierzonej właściwości niż skale standardowe, oparte na klasycznej teorii testu. Tym założeniem jest lokalna niezależność zadań, oznaczająca, że wynik każdego zadania jest u wszystkich badanych statystycznie niezależny od wyniku jakiegokolwiek innego zadania testu, a zależny jedynie od mierzonej właściwości. Grupy zadań mają być więc pozbawione wyróżniającej je spójności.
Dla zbiorów zadań spełniających założenie o lokalnej niezależności funkcja teta wyznacza prawdopodobieństwo prawidłowego rozwiązania poszczególnego zadania. Zero skali przypada w punkcie, w którym prawdopodobieństwo rozwiązania tych zadań wynosi 0,5 (lub nieco więcej, gdy istnieje możliwość zgadywania odpowiedzi). Skala teta jest zwykle użytkowana w granicach od –3,00 do 3,00 (co odpowiada rozstępowi wyników 200–800 w skali akademickiej), gdyż wyniki poza tymi granicami, choć niekiedy zdarzają się, są rzadkie i bardzo niedokładne.
Do poprawnego skalowania testu tą metodą potrzebne są duże próby standaryzacyjne (2 tysiące i więcej badanych) i zaawansowane oprogramowanie. Jest najczęściej stosowana do tworzenia banków zadań, w postaci komputerowych baz danych o właściwościach zadań, które mogą być wykorzystane do budowy nowego narzędzia (Szaleniec, 2005).
Gdy skala teta jest oparta na założeniu rozkładu normalnego mierzonej właściwości (co nie jest konieczne, ale często stosowane), wyniki pomiaru w niej wyrażone okazują się wysoko skorelowane z wynikami przedstawionymi w skalach standardowych, mimo iż sposób ich szacowania jest odmienny (Ciżkowicz, 2005). Mała intuicyjność pojęć teorii wyniku zadania oraz matematyczne zaawansowanie programów obliczeniowych powodują, że jej wykorzystanie jest na razie ograniczone do wąskiego grona specjalistów psychometrii. Zalety matematyczne skali teta mogą jednak w przyszłości przeważyć szalę na jej korzyść.
2.1.5. Skala stosunkowa
więcej..