Typy pomiaru w edukacjii (Bolesław Niemierko).pdf

(279 KB) Pobierz
Pomiar w edukacji
1
Bolesław Niemierko áPomiar wynikw kształceniaÑ
Rozdział 3
Tworzenie koncepcji testu
Zaczynamy budować test osiągnięć szkolnych, czyli narzędzie pomiaru dydaktycznego. Zanim jednak
test powstanie, a nawet zanim powstanie plan testu, musimy podjąć decyzje dotyczące pomiaru, jaki
ma być dokonany. Te decyzje składają się na koncepcję testu.
Najpierw zajmiemy się ewaluacją i pomiarem osiągnięć uczniw, potem testami i, wstępnie,
zadaniami testowymi, a na koniec - dokumentacją procesu standaryzacji testw.
Ewaluacja osiągnięć uczniw
Ewaluacja osiągnięć uczniw jest sprawdzaniem i ocenianiem tych osiągnięć traktowanym jako
proces łączny i wielostronnie uwarunkowany.
Etapy sprawdzania (upewniania się o wynikach kształcenia) i oceniania (wartościowania tych
wynikw) przeplatają się. Ewaluacja osiągnięć uczniw może być głwnym, ale nigdy nie jedynym,
składnikiem ewaluacji systemu kształcenia, może też być podejmowana niezależnie.
Wspłcześnie oczekuje się od nauczyciela samodzielnego tworzenia metod ewaluacji osiągnięć
uczniw. Przydatne do tego jest podejście systemowe w następującym ujęciu:
Tabela 6. Systemowe tworzenie metod ewaluacji osiągnięć uczniw
Składnik
sytuacji
Wskaźnik
Minimum
Wartość środkowa Maksimum
Nauczyciel
Ingerencja
nauczyciela
Samokontrola i
samoocena ucznia
Zastosowanie
gotowych narzędzi
pomiaru
Pytania wybrane dla
określonego ucznia
Uczniowie
Obserwowalność
czynności ucznia
Rozwiązywanie
zadań wyłącznie w
myśli
Ustne lub pisemne
wypowiedzi ucznia
Działania praktyczne
z wytworem
fizycznym
Treść
kształcenia
Analityczność
doboru treści
kształcenia
Jedno przekrojowe
zadanie oceniane
intuicyjnie
Kilka złożonych
zadań dobranych i
ocenianych według
planu
Duża liczba prostych
zadań z całego
programu kształcenia
Wyposażenie
Wykorzystanie
środkw
dydaktycznych
Tylko papier i
ołwek lub tablica i
k reda
Wyposażenie
laboratoryjne
Środowisko w pełni
naturalne, "teren" lub
z akład pracy
Organizacja
Wyodrębnienie w
procesie kształcenia
Bieżąca obserwacja
pracy uczniw w
toku lekcji
Zbiorowe zajęcia
sprawdzające
poziom osiągnięć
uczniw
Indywidualna praca z
testem lub maszyną
egzaminacyjną
Rozważając kolejno składniki sytuacji dydaktycznej (pomiarowej) według tab. 6, nauczyciel może
wytworzyć oryginalną metodę ewaluacji osiągnięć uczniw. W tabeli zaproponowano obserwowalne
(empiryczne) wskaźniki udziału poszczeglnych składnikw w projektowanej metodzie i określono
wartości tych wskaźnikw (minimum, wartość środkową i maksimum), a dopuszczalne są także
wszelkie wartości pośrednie, np. w przypadku ingerencji nauczyciela możliwe jest zastosowanie
nieformalnych narzędzi sprawdzania w postaci tematw do wyboru i list pytań, a także włączenie
elementw działań praktycznych (np. czytanie tekstw, rysowanie) do pisemnego pomiaru testowego.
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
115800439.068.png
2
Bolesław Niemierko áPomiar wynikw kształceniaÑ
Pomiar dydaktyczny
Pomiar dydaktyczny jest przyporządkowywaniem symboli (ocen) uczniom w taki sposb, by relacje
między symbolami odpowiadały relacjom między uczniami ze względu na określone osiągnięcia.
Zasady przyporządkowania powinny być ustalone i możliwie dokładnie przestrzegane, a proces
pomiarowy powinien podlegać obiektywnej kontroli.
Wyniki pomiaru są przedstawiane za pomocą skali pomiarowej. Skala pomiarowa to system symboli
(liczbowych, słownych, graficznych lub innych) przedstawiających wyniki pomiaru. Od konstrukcji
skali, to jest od znaczenia poszczeglnych symboli i związkw między nimi, zależy szczebel pomiaru,
a więc jego jakość formalna.
Najszerzej znaną klasyfikację skal pomiarowych zawdzięczamy S. S. Stevensowi (1951), ktry
uporządkował je hierarchicznie (tab. 7.):
Tabela 7. Uproszczona typologia skal pomiarowych (według S. S. Stevensa)
Nazwa skali Własności
Przykład dydaktyczny Przykład spoza dydaktyki
tramwajowych
Porządkowa jw. + hierarchia klas Skala stopni szkolnych Przemysłowe klasy jakości
Przedziałowa jw. + jednostka pomiaru Skala znormalizowana Lata kalendarzowe
Stosunkowa jw. + zero bezwzględne Wyniki testu szybkości Liczba elementw zbioru
Gdy rejestrujemy zainteresowania uczniw, grupując je w klasy jakościowe, np. "zainteresowania
literackie", "matematyczne", "przyrodnicze", "artystyczne", "sportowe", lub gdy numerujemy obiekty
o tych samych właściwościach, jak np. wozy tramwajowe obsługujące kolejne linie, tworzymy klasy
jakościowe wartości zmiennych, nie przewidziane do porządkowania jako klasy "wyższe" - "niższe",
"większe" - "mniejsze" lub "lepsze" - "gorsze".
Zupełnie inaczej jest ze stopniami szkolnymi lub przemysłowymi klasami jakości. Skale zostały
zbudowane właśnie po to, by odrżniać wyższe i niższe wartości, większe i mniejsze osiągnięcia,
lepsze lub gorsze rozwiązania tych samych zadań. Nauczyciel przedstawiający wyniki sprawdzania
osiągnięć uczniw w stopniach szkolnych porwnuje te osiągnięcia z wymaganiami przewidzianymi
na poszczeglne stopnie. Na przykład, gdy uczeń spełnia wymagania na stopień dostateczny, ale nie
spełnia wymagań na stopień dobry, otrzymuje ocenę dostateczną. Tę operację nazywamy "pomiarem
dydaktycznym", jeżeli wymagania poszczeglnych stopni są wystarczająco ściśle określone, a
procedura porwnywania wyniku ucznia z wymaganiami jest ujęta w odpowiedni algorytm decyzyjny,
według ktrego możemy ją kontrolować. Ponieważ poprawnie ustalone wymagania programowe
poszczeglnych stopni lub w inny sposb określone punkty skali wynikw tworzą hierarchię, czyli
ustalony porządek, tego rodzaju skale nazywamy porządkowymi.
Wyższy szczebel pomiaru polega na określeniu jednostki miary, np. roku kalendarzowego, co pozwala
na zbudowanie skali przedziałowej i na dostatecznie dokładne obliczanie na przykład średniej długości
życia ludzkiego. Podobne walory mają psychologiczne "skale znormalizowane". Zakres porwnań
byłby jeszcze szerszy, gdybyśmy znali datę początku świata (zero bezwzględne wieku świata), co
pozwoliłoby na zbudowanie skali stosunkowej, dominującej w matematyce oraz w naukach
przyrodniczych i technicznych (Ackoff, 1969, rozdz. 6). W szkole taki pomiar jest ograniczony prawie
wyłącznie do testw szybkości, w ktrych rejestruje się liczbę sukcesw (np. przeczytanych wyrazw
lub napisanych na maszynie liter) w jednostce czasu.
Najważniejszą rżnicą między pomiarem fizykalnym, stosowanym w naukach przyrodniczych i
technicznych, a pomiarem stosowanym w naukach społecznych (psychologii, socjologii i pedagogice)
jest brak określonej jednostki miary i znajomości zera bezwzględnego mierzonej wielkości. Cż zatem
jest ustalone? Wybrane punkty skali wynikw, z ktrymi porwnuje się poszczeglne wyniki pomiaru.
Nominalna klasy jakościowe
Rejestr zainteresowań Numery linii
Może powstać pytanie, czy tak ubogą matematycznie procedurę, jaką jest porządkowanie wielkości
według wybranych punktw skali, warto nazywać pomiarem? Większość wspłczesnych
metodologw nauki uważa, że korzyści w postaci uściślenia kontroli oszacowań dokonywanych w
naukach społecznych przeważają nad stratą, jaką są pewne rozmycie pojęcia pomiaru i częste
nadinterpretacje pomiaru niższych szczebli.
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
115800439.079.png 115800439.090.png
3
Bolesław Niemierko áPomiar wynikw kształceniaÑ
Uporządkowany zbir wybranych punktw skali, z ktrymi porwnuje się wyniki pomiaru, będziemy
nazywali układem odniesienia wynikw pomiaru. Według układu odniesienia wynikw pomiar
dydaktyczny dzieli się na rżnicujący i sprawdzający.
Pomiar rżnicujący
W pomiarze rżnicującym (ang. norm-referenced measurement ) układem odniesienia wyniku każdego
ucznia są wyniki innych uczniw. Ci uczniowie tworzą wraz z danym uczniem określoną populację, to
jest zbiorowość o istotnych cechach wsplnych, np. oddział szkolny, grupę kandydatw na wyższą
uczelnię lub ogł absolwentw liceum ekonomicznego w Polsce. Układ odniesienia wyniku jest
reprezentowany przez jeden punkt skali, zwykle średnią arytmetyczną, przez pewną liczbę podobnych
punktw lub przez skomplikowane układy testowych norm empirycznych, to jest danych opartych na
planowym przebadaniu populacji uczniw (Niemierko, 1975b, s. 136-159).
Pomiar rżnicujący jest stosowany wtedy, gdy nie umiemy lub nie chcemy określić wymagań
programowych, np. w psychologicznym badaniu inteligencji uczniw lub podczas egzaminu
konkursowego dla kandydatw na wyższą uczelnię. W pierwszym przypadku normy są ustanowione
przez zestawienie średnich wynikw testowania kolejnych populacji wiekowych dzieci i młodzieży.
W drugim przypadku o położeniu punktu odniesienia na skali decyduje liczba kandydatw, jaką
uczelnia może przyjąć danego roku. Kandydaci są przyjmowani według rangi uzyskanego wyniku, to
jest według kolejności, począwszy od najwyższego wyniku.
Nauczyciel stosuje intuicyjnie zasadę pomiaru rżnicującego wtedy, gdy na przykład - nie dysponując
hierarchią wytworw danego rodzaju (np. wypracowań pisemnych na dany temat) - wstrzymuje się z
ocenami do chwili uzyskania obrazu wynikw pracy kilku lub kilkunastu uczniw, potem określa
średnią tych wynikw (np. jako "dobry" lub "dostateczny"), a wreszcie ustala indywidualne oceny
przez porwnanie z tą średnią.
Pomiar rżnicujący w dydaktyce jest szerzej stosowany w tych krajach, ktre mają długą tradycję
badań psychologicznych i pedagogicznych, przede wszystkim w krajach anglosaskich. Jako teoria
rozwinął się już w pierwszej połowie XX wieku w postaci klasycznej teorii testu (Gulliksen, 1950).
Wiele procedur analitycznych wytworzonych w tym okresie zachowało przydatność w dydaktyce do
dzisiaj, mimo zasadniczej zmiany układu odniesienia wynikw pomiaru.
Pomiar sprawdzający
W pomiarze sprawdzającym (ang. criterion-referenced measurement ) układem odniesienia wyniku
każdego ucznia są wymagania programowe. Narzędzia pomiaru (testy) buduje się według tych
wymagań, tak by je możliwie dokładnie reprezentowały i by można było orzec, czy są spełnione.
Wobec nagminnej oglnikowości programw kształcenia w tej kwestii konstruktorzy narzędzi
pomiaru sprawdzającego ponoszą niemały trud precyzowania wymagań programowych na wstępie
swej pracy.
Z powodu rozmaitych stanowisk nauczycieli każdego przedmiotu szkolnego co do wymagań,
psychologowie przez długie lata zaprzeczali poprawności naukowej testw budowanych na podstawie
wymagań programowych. Przełom dokonał się w okresie powszechnego zainteresowania nauczaniem
programowanym, to jest kształceniem uczniw poprzez udzielanie małych dawek informacji wraz z
zadaniami sprawdzającymi przyswojenie tej informacji (Kupisiewicz, 1970). Ukazał się wtedy artykuł
Roberta Glasera áTechnologia kształcenia a pomiar wynikw uczenia sięÑ (1963) wykazujący
bezużyteczność porwnywania osiągnięć między uczniami w eksperymentach dydaktycznych
mających na celu pełne opanowanie określonej informacji przez każdego ucznia. Zdaniem Glasera
zasadne było tylko porwnywanie wiedzy ucznia z programem kształcenia. Wkrtce pojawiły się
analizy podstaw teoretycznych i konsekwencji nowego podejścia (Popkam i Husek, 1969). Od tego
czasu zainteresowanie pedagogw pomiarem sprawdzającym stale wzrasta.
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
 
4
Bolesław Niemierko áPomiar wynikw kształceniaÑ
W Polsce i w wielu innych krajach, w ktrych pomiar rżnicujący - z rżnych przyczyn, nie
wyłączając ideologicznych - nigdy w szkolnictwie nie dominował, teorię pomiaru sprawdzającego
przyjmuje się jako uporządkowanie oczywistych zasad pracy dydaktycznej nauczyciela.
Pomiar sprawdzający wielostopniowy
W USA, ojczyźnie teorii pomiaru sprawdzającego, stosuje się niemal wyłącznie pomiar
jednostopniowy, oparty na jednym poziomie wymagań (ang. mastery tests, pass-fail scaling ).
Wszystkie zadania reprezentujące wybrany zakres treści kształcenia traktuje się jako rwnorzędne, a
problemem pozostaje tylko odpowiednia norma ilościowa - procent zadań, ktre trzeba rozwiązać, by
można bylo uznać ten zakres za opanowany.
W Polsce już w latach siedemdziesiątych (Niemierko, 1975a) zaproponowano pomiar wielostopniowy,
to jest pomiar sprawdzający oparty na wymaganiach wielostopniowych, w szczeglnym zaś
przypadku - na skali stopni szkolnych; po 15 latach studiw i doświadczeń powstała monografia
takiego pomiaru (Niemierko, 1990a).
Model wielostopniowy zakłada możliwość wyodrębnienia warstw treści kształcenia odpowiadających
ustopniowanym wymaganiom, czyli ustalenia struktury warstwowej programu kształcenia.
Ustopniowanie (hierarchia) wymagań wyraża się tym, że treść każdej warstwy niższej stanowi część
treści każdej warstwy wyższej. Warstwy niższe mogą być np. zaznaczone wytłuszczonym drukiem lub
kursywą w wykazach celw, materiału i wymagań programowych.
Model ten wraz z charakterystycznym nazewnictwem przedstawia rys. 6.
Rysunek 6. Podział treści kształcenia w modelu wielostopniowym
Pełny model wielostopniowy pomiaru sprawdzającego obejmuje, po wydlużeniu obowiązujacej w
Polsce skali stopni szkolnych do sześciu stopni, następujące warstwy treści kształcenia:
1. Treść konieczna (K), odpowiadająca ocenie "dopuszczającej" ("miernej").
2. Treść podstawowa (P), dodatkowo wymagana na ocenę "dostateczną".
3. Treść rozszerzająca (R), dodatkowo wymagana na ocenę "dobrą".
4. Treść dopełniająca (D), dodatkowo wymagana na ocenę "bardzo dobrą".
5. Treść wykraczająca (W), dodatkowo wymagana na ocenę "celującą".
Na strukturze warstwowej treści kształcenia opiera się struktura warstwowa testu wielostopniowego,
to jest takie pogrupowanie zadań, iż czynności sprawdzane zadaniami reprezentującymi warstwy
niższe są także niezbędne do rozwiązania zadań reprezentujących warstwy wyższe treści ksztalcenia.
Pomiar sprawdzający wielostopniowy zyskał w Polsce dużą popularność wśrd dydaktykw
przedmiotowych, zwłaszcza w przedmiotach przyrodniczych.
Psychologowie natomiast nadal powątpiewają w możliwość uzgodnienia decyzji dotyczących
warstwowania treści kształcenia oraz norm ilościowych, tym bardziej że każda z tych warstw
potrzebuje osobnej normy (Konarzewski, 1993).
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
115800439.001.png 115800439.012.png 115800439.020.png 115800439.021.png 115800439.022.png 115800439.023.png 115800439.024.png 115800439.025.png 115800439.026.png 115800439.027.png 115800439.028.png 115800439.029.png 115800439.030.png 115800439.031.png 115800439.032.png 115800439.033.png 115800439.034.png 115800439.035.png 115800439.036.png 115800439.037.png 115800439.038.png 115800439.039.png 115800439.040.png 115800439.041.png 115800439.042.png 115800439.043.png 115800439.044.png 115800439.045.png 115800439.046.png 115800439.047.png 115800439.048.png 115800439.049.png 115800439.050.png 115800439.051.png 115800439.052.png 115800439.053.png 115800439.054.png 115800439.055.png 115800439.056.png 115800439.057.png 115800439.058.png 115800439.059.png 115800439.060.png 115800439.061.png 115800439.062.png 115800439.063.png 115800439.064.png 115800439.065.png 115800439.066.png 115800439.067.png 115800439.069.png 115800439.070.png 115800439.071.png 115800439.072.png 115800439.073.png 115800439.074.png 115800439.075.png 115800439.076.png 115800439.077.png 115800439.078.png 115800439.080.png 115800439.081.png 115800439.082.png 115800439.083.png 115800439.084.png 115800439.085.png 115800439.086.png 115800439.087.png 115800439.088.png 115800439.089.png 115800439.091.png 115800439.092.png 115800439.093.png 115800439.094.png 115800439.095.png 115800439.096.png 115800439.097.png 115800439.098.png 115800439.099.png 115800439.100.png 115800439.101.png 115800439.102.png 115800439.103.png 115800439.104.png 115800439.105.png 115800439.106.png 115800439.107.png 115800439.108.png 115800439.109.png 115800439.110.png 115800439.002.png 115800439.003.png 115800439.004.png 115800439.005.png 115800439.006.png 115800439.007.png 115800439.008.png 115800439.009.png 115800439.010.png 115800439.011.png 115800439.013.png 115800439.014.png 115800439.015.png 115800439.016.png 115800439.017.png
5
Bolesław Niemierko áPomiar wynikw kształceniaÑ
Rodzaje testw
Test osiągnięć szkolnych jest zbiorem zadań przeznaczonych do rozwiązania w toku jednego zajęcia
szkolnego, reprezentujących wybrany zakres treści kształcenia w taki sposb, by z ich wynikw
można było wnioskować o poziomie opanowania tej treści. Jest narzędziem pomiaru dydaktycznego,
zbudowanym w celu sprawdzania i oceniania osiągnięć uczniw.
Głwne rodzaje testw są zestawione w tab. 8.:
Tabela 8. Głwne rodzaje testw osiągnięć szkolnych
Zasada podziału
Nazwa testu
Najważniejsze właściwości
Rżnicujący
Układem odniesienia wyniku każdego ucznia są wyniki innych
uczniw.
Układem odniesienia wyniku są wymagania programowe.
Rodzaj pomiaru
Sprawdzający
Sprawdzający
wielostopniowy
Układem odniesienia wyniku są wymagania programowe,
może być oparty na skali stopni szkolnych.
Nieformalny
Nie był poddany analizom, recenzjom i prbnym
zastosowaniom
Przeszedł standaryzację, to jest proces prb, ulepszeń i
normowania.
Zaawansowanie
konstrukcyjne
Standaryzowany
Zasięg stosowania
Nauczycielski
Szerokiego użytku
Stosowany wyłącznie przez autora testu.
Stosowany masowo, powinien być standaryzowany
Praktyczny
Uczeń demonstruje sposb wykonywania działań lub wytwr
fizyczny.
Uczeń wymawia słowa i zdania stanowiące rozwiązanie zadań.
Uczeń zapisuje swoje rozwiązania zadań lub wskazuje gotowe
odpowiedzi.
Sposb udzielania
odpowiedzi
Ustny
Pisemny
Podziały testw dokonane w tab. 8 są niezależne (z wyjątkiem obowiązku standaryzacji testu
szerokiego użytku), a więc test może być "sprawdzający, nieformalny, nauczycielski, praktyczny" lub
"rżnicujący, standaryzowany, szerokiego użytku, pisemny".
Ponadto istnieje wiele bardziej szczegłowych odmian testw osiągnięć szkolnych (Niemierko, 1975b,
s. 26-34).
Nauczycielski nieformalny test sprawdzający jest często nazywany sprawdzianem. Nazwa ta utrwaliła
się w Polsce w okresie, gdy testy uważano za narzędzia pedagogiki "burżuazyjnej", całkowicie obcej
doktrynie socjalistycznej (Niemierko, 1990, s. 64).
Formy zadań testowych
Zadanie testowe jest najmniejszą względnie niezależną cząstką testu, wymagającą od ucznia
udzielenia odpowiedzi. Może mieć postać polecenia, pytania, wypowiedzi niekompletnej lub
twierdzenia podawanego w wątpliwość. "Względna niezależność" znaczy, iż zadanie może być
rozwiązane przez ucznia, ktry nie rozwiązał innych zadań testu, ale wynik zadania może (a nawet
powinien) być powiązany (dodatnio skorelowany) z wynikami innych zadań.
Zadanie może być proste, wymagać pokonania jednej trudności, lub złożone, gdy liczy się nie tylko
wykonanie wielu czynności prostych, lecz także strategia i struktura powiązania tych czynności w
funkcjonalną całość. Czas pracy nad takimi zadaniami jest rżny, co ma duże znaczenie przy
tworzeniu koncepcji testu.
(C) Centrum Otwartej i Multimedialnej Edukacji UW 2000
http://www.come.uw.edu.pl
115800439.018.png 115800439.019.png
Zgłoś jeśli naruszono regulamin