Poradnik (dla autorów zadań i egzaminów testowych)
Wprowadzenie
Konstrukcja zamkniętych zadań testowych
Typy zadań zamkniętych
Zasady konstrukcji testu egzaminacyjnego
Ocenianie jako skutek pomiaru
Planowanie testu
Związek planu testu z celem egzaminu
Źródła i uwarunkowania doboru zadań
Klucz prawidłowych rozwiązań
Wersje testu
Przeplot
Warianty testu
Weryfikacja poprawności konstrukcji zadań i testu egzaminacyjnego
Wprowadzenie
Podczas różnych dyskusji na temat przydatności różnych form egzaminowania studentów, często pojawia się powtarzany jak "mantra" pogląd, że egzamin testowy nadaje się wyłącznie do sprawdzania wiedzy encyklopedycznej, natomiast na studiach to nie wystarcza. Tak rzeczywiście może być zwłaszcza wtedy, gdy egzamin zawiera tyko jeden typ zadań i gdy są to zadania o najprostszej konstrukcji, w treści ograniczające się do terminologii, np. wskazanie poprawnej nazwy (czegoś) spośród nazw wymienionych. Jednak w przypadku większości przedmiotów objętych programami studiów, istotną treścią nauczania są zjawiska o znacznym stopniu złożoności (np. w przedmiotach klinicznych na studiach medycznych). W takim przypadku dobry egzamin powinien być nastawiony na ocenienie stopnia opanowania umiejętności w zakresie wykorzystania posiadanej wiedzy do rozwiązywania problemów.
Taki cel egzaminu można osiągnąć stosując także test, pod warunkiem, że będzie on zawierał zadania odpowiednio dobranych typów i we właściwej proporcji (wobec zakładanych celów nauczania), gdyż różne typy zadań umożliwiają sprawdzanie różnych aspektów przyswojonej wiedzy. Jednak wynikowa jakość egzaminu zależy nie tylko od prawidłowego doboru typów zadań. Egzamin, złożony z nawet doskonale skonstruowanych zadań właściwych typów, może być równocześnie (jako całość) nienajlepiej skonstruowany (gdy np. jest zbyt łatwy, zbyt trudny lub gdy zawiera zadania o treści źle dobranej do celów i standardów nauczania) lub/oraz może być przeprowadzony w niewłaściwy sposób, co także obniża jakość badania wiedzy. Wobec tego, poprawność konstrukcji (wewnętrznej) zadań, poprawność konstrukcji całego testu (jako narzędzia egzaminacyjnego) oraz poprawność sposobu przeprowadzenia egzaminu, to zagadnienia rozpatrywane odrębnie w tym poradniku.
Należy podkreślić, że żadna forma egzaminu nie jest gwarancją idealnego ocenienia wiedzy studentów, każda z nich obok cech korzystnych, ma także swoiste ograniczenia. Niezaprzeczalnym walorem testu jest jednak to, że wobec znacznej liczby zadań, jednakowego zestawu zadań dla wszystkich zdających, możliwości celowego stosowania zadań wybranego typu oraz zadań o poznanych wcześniej właściwościach, krótkiego czasu egzaminowania grup o dużej liczebności i wolnej od subiektywizmu zasady punktowego oceniania, egzamin w takiej formie może być traktowany jako narzędzie pomiarowe o szerokim zakresie skali pomiaru. Wobec tego, test pozwala oceniać studentów na podstawie pomiaru stopnia opanowania materiału w całym zakresie programu nauczania przedmiotu, a także na tej podstawie - oceniać stopień realizacji programu nauczania.
Powodem opracowania tego poradnika jest przekonanie, że egzamin testowy jednak może być dobrym narzędziem do oceniania studentów, nie tylko w zakresie podstawowej struktury wiedzy, ale także w zakresie umiejętności jej zastosowania. Jest to możliwe w wyniku spełnienia szeregu warunków, a w tym: objęciu zadaniami wszystkich najważniejszych zagadnień nauczanego przedmiotu, doboru zadań odpowiednich typów, optymalnej ich proporcji w teście oraz prawidłowo ustalonego poziomu trudności testu.
Powyższe nie powinno być jednak odczytane jako sugestia, że test "jest dobry na wszystko". Skoro wiadomo, że właściwości diagnostyczne różnych form egzaminu są niejednakowe, a celem egzaminatora jest kompleksowa ocena nie tylko kierunkowej wiedzy, ale także umiejętności wykonawczych studenta; może warto rozważyć uwzględnienie np. dwóch różnych form egzaminowania (o dopełniających się właściwościach) w ramach jednego egzaminu końcowego.
Zadania testowe
W uczelni najczęściej stosowane są testy złożone z zadań zamkniętych z jednym prawidłowym rozwiązaniem, to znaczy takich, których ostateczne rozwiązanie polega na dokonaniu wyboru jednej spośród przedstawionych opcji (dystraktorów). Alternatywną formą są zadania otwarte, dla rozwiązania których należy coś samodzielnie zrobić (np. uzupełnić podany tekst w oznaczonych miejscach, nazwać lub zinterpretować przedstawione zjawisko lub dane, na podstawie opisu zjawiska sporządzić wykres lub zaprojektować i wypełnić danymi tabelę).
Zadania zamknięte dobrej jakości znacznie trudniej ułożyć niż zadania otwarte. Jednak ocenianie testu złożonego z zadań zamkniętych z jedną prawidłową odpowiedzią jest już proste, bo jednoznaczne (albo prawda albo fałsz) i dlatego dzięki skomputeryzowaniu pobierania i przetwarzania danych, wyniki takiego egzaminu mogą być gotowe niedługo po jego przeprowadzeniu.
Natomiast w przypadku egzaminów złożonych z zadań otwartych, trudny i czasochłonny okazuje się właśnie proces ich oceniania ze względu na indywidualny sposób formułowania rozwiązań przez egzaminowanych. Trudność polega na konieczności opracowania do każdego zadania tzw. modelu odpowiedzi, który obok rozwiązania najbardziej oczekiwanego przez autora zadania, musi określać także granice dla różnorodności ujęcia rozwiązania poprawnego. Uzyskanie takiego modelu jest możliwe dopiero po przeanalizowaniu pewnej liczby rzeczywistych prac egzaminacyjnych, co musi poprzedzać właściwe ich ocenianie. Wobec tego, ocenianie zadań otwartych musi być ręczne zatem czasochłonne, a użycie modelu odpowiedzi do oceniania prac egzaminacyjnych musi być poprzedzone szkoleniem osób oceniających. Doświadczenie pokazuje, że dla uniknięcia skutków pomyłek w ocenianiu, konieczna jest weryfikacja poprawności dokonanych ocen. Z tych powodów, w przypadku znacznej liczebności grup egzaminowanych, ocenianie trwa długo i angażuje wiele osób. Wobec tego, bez specjalistycznego przygotowania w zakresie pomiaru dydaktycznego, łatwiej jest jednak uzyskać dobrej jakości egzamin złożony z zadań zamkniętych.
Konstrukcja zamkniętych zadań testowych
Zadania zamknięte składają się z tzw. główki zawierającej polecenie lub pytanie oraz z tzw. dystraktorów zawierających warianty rozwiązań lub odpowiedzi, wśród których tylko jedna może być całkowicie prawidłowa. Więcej na temat zawartości główki zadania można znaleźć poniżej w części zatytułowanej „Typy zadań zamkniętych”.
Zestaw zadań testowych, zwłaszcza gdy wyniki egzaminu mają być ewaluowane elektronicznie, nie może zawierać zadań o różnej liczbie dystraktorów. W testach egzaminacyjnych tworzonych do różnych przedmiotów nauczania spotyka się zadania o liczbie dystraktorow od trzech do pięciu, jednak najczęściej jest ich cztery. Należy podkreślić, że im więcej ma być dystraktorów, tym trudniej uzyskać zestaw dobrych zadań, to znaczy takich, w których wszystkie dystraktory „pracują” (są atrakcyjne dla części egzaminowanych studentów).
Jeżeli w omawianych zadaniach wybieranie prawidłowej odpowiedzi byłoby skutkiem losowania (przy całkowitym braku wiedzy), wtedy prawdopodobieństwo trafnego wyboru wynosiłoby (odpowiednio do liczby dystraktorów): 33%, 25%, 20%. Jest więc oczywiste, że zadanie okaże się tym trudniejsze dla egzaminowanych, im więcej będzie zawierało dystraktorów, ponieważ odpowiednio maleje szansa na trafne wylosowanie odpowiedzi prawidłowej. Zadanie formalnie pięciodystraktorowe, z jednym dystraktorem trywialnym lub jawnie fałszywym, będzie w rzeczywistości funkcjonowało jako zadanie czterodystraktorowe, czyli łatwiejsze niż planowano. Zwłaszcza w przypadku tworzenia zadań zawierających pięć dystraktorów, pojawia czasem się trudność znalezienia dostatecznie atrakcyjnego (nie trywialnego nawet dla gorzej przygotowanych) piątego wariantu odpowiedzi. W takim przypadku należy rozważyć zastosowanie odpowiedzi „żadne z powyższych” lub „wszystkie powyższe”
Wg zaleceń Niemierki (1999), podczas budowania zadań należy między innymi unikać:
- stosowania takich samych oznaczeń dla dystraktorów co dla elementów w wyliczeniach zawartych w treści główki zadania,
- uzależniania treści główki danego zadania od prawidłowego rozwiązania innego zadania,
- takiego sformułowania treści w główce zadania, że jego zrozumienie jest możliwe dopiero po przeczytaniu odpowiedzi,
- formułowania treści główki zadania jako zdania nie dokończonego (równoważnik zdania jest dopuszczalny),
- wieloznaczności określeń, zawiłości treści poleceń oraz "podstępów" np. pytania o nieistniejące fakty, nazwy lub prawidłowości, czy "pułapek" (np. istotnych dla rozwiązania zadania celowych błędów w pisowni określeń),
- wstawiania do treści odpowiedzi części wspólnej, którą należy umieścić w główce,
- lokowania w odpowiedziach nieprawidłowych: ukrytych wskazówek, fałszu, określeń trywialnych, określeń znacznie krótszych lub znacznie dłuższych od prawidłowego,
- znacznej różnicy atrakcyjności odpowiedzi nieprawidłowych w stosunku do prawidłowych,
- tworzenia główki zadań przez przepisywanie zdań z podręcznika (zdanie wyrwane z kontekstu może zmieniać lub tracić sens) gdyż takie zadania premiują tych, którzy zapamiętują treść zamiast rozumienia znaczenia,
- długiej i skomplikowanej treści polecenia lub/oraz wariantów odpowiedzi,
- tworzenia "pułapek" podwójnego przeczenia (w zadaniach o postaci przeczącej).
Typy zadań zamkniętych
W podanych poniżej przykładach - pogrubienie markuje dystraktor prawidłowy.
Typ A (dopełnienie pojedyncze) z trzema wariantami (I. II. III)
Główka zadania: polecenie wybrania czynnika (np nazwa substancji), który najlepiej pełni określoną funkcję (np. zapobiega nawrotom choroby)
Wariant I. (Wszystkie dystraktory zawierają nazwy czynników, wśród których występuje prawidłowy)
A). substancja 1
B). substancja 2
C). substancja 3
D). substancja 4
E). substancja 5
Wariant II. (Cztery pierwsze dystraktory zawierają nazwy czynników, wśród których brak prawidłowego, wobec tego, właściwą nazwę czynnika student musi odnaleźć w pamięci)
A). substancja 1
B). substancja 2
C). substancja 3
D). substancja 4
E). żadne z powyższych
Wariant III. (Cztery pierwsze dystraktory zawierają nazwy czynników, wśród których jest prawidłowy, ale jest także opcja "żadne z powyższych", która może być wprowadzona celowo lub może zastępować brakującą piątą substancję)
A). substancja 1
B). substancja 2
C). substancja 3
D). substancja 4
E). żadne z powyższych
Komentarz. Każdy z powyższych podtypów zadania sprawdza wiedzę studenta w inny sposób.
Typ A (dopełnienie pojedyncze) - postać przecząca
Główka zadania: polecenie wybrania sytuacji (np nazwa choroby), w przypadku której podany rodzaj zapobiegania jej (np. czynne uodpornienie) nie jest skuteczny
(Odpowiada wariantowi I - patrz powyżej)
A). choroba 1
B). choroba 2
C). choroba 3
D). choroba 4
E). choroba 5
Komentarz. W zadaniach o postaci przeczącej, zaprzeczenie należy zawsze wyróżnić. Podkreślenie jest najkorzystniejszym sposobem wyróżnienia, ponieważ w przypadku ściągania jest trudniejsze (niż pogrubienie) do identyfikacji w teście sąsiada (pod warunkiem prawidłowych odstępów między zdającymi).
Komentarz do zadań typu A. Celowe stosowanie w jednym teście różnych wariantów zadań powyższego typu jest korzystne, ponieważ nie sprzyja schematyzmowi myślenia studentów.
Typ B (przyporządkowanie wielokrotne) wariant I - równa liczebność list wyboru
Główka zadania: do każdego stwierdzenia z listy oznaczonej numerami rzymskimi należy przyporządkować najbardziej związane z nim hasło oznaczone małą literą.
I. stwierdzenie 1 a. hasło 1
II. stwierdzenie 2 b. hasło 2
III. stwierdzenie 3 c. hasło 3
IV. stwierdzenie 4 d. hasło 4
V. stwierdzenie 5 e. hasło 5
A). I-e, II-d, III-c, IV-b, V-a
B). I-b, II-a, III-e, IV-d, V-c
C). I-c, II-d, III-a, IV-e, V-b
D). I-d, II-c, III-e, IV-a, V-b
E). I-a, II-b, III-c, IV-d, V-e
Komentarz. Trudność w zadaniu tego typu polega na tym, że w każdym dystraktorze jest kilka różnie przyporządkowanych par i tylko jedna kombinacja jest prawidłowa. Należy jednak zauważyć, że im więcej elementów w każdej ich kombinacji, w tym większym stopniu zadanie takie jest szaradą. Należy rozważyć, jaka (zależnie od problemu badanego prze takie zadanie) powinna być proporcja aspektu merytorycznego i umiejętności przdatnych przy rozwiązywaniu szarad. Zadanie tego typu będzie łatwiejsze i ukierunkowane na treść nauczania, gdy dystraktory będą zawierać przyporządkowanie pojedyncze (jedną parę).
Typ C (przyporządkowanie) wariant II - nierówna liczebność list wyboru
Główka zadania: do każdego hasła z listy oznaczonej małymi literami należy przyporządkować najbardziej związane z nim stwierdzenie z listy oznaczonej numerami rzymskimi.
I. stwierdzenie 1 a. hasło 1
II. stwierdzenie 2 b. hasło 2
III. stwierdzenie 3 c. hasło 3
IV. stwierdzenie 4 d. hasło 4
V. stwierdzenie 5
VI. stwierdzenie 6
VII. stwierdzenie 7
A). a-IV, b-III, c-II, d-I
B). a--VI, b-V, c-III, d-II
C). a-VII, b-II, c-VI, d-III
D). a-VII, b-VI, c-V, d-IV
E). a-IV, b-V, c-VI, d-VII
Komentarz. Trudność tego zadania polega na tym, że nie wszystkie elementy z jednego zbioru odpowiadają elementom z drugiego zbioru, chociaż stwierdzenia nadmiarowe mogą być bardzo podobne do pasujących.
Typ D (wyłączenie pojedyncze)
Główka zadania: spośród pięciu różnych sytuacji (np. nazwy chorób) oznaczonych małymi literami, dla czterech z nich, właściwy jest jeden z trzech czynników (np. objawy) oznaczonych liczbami rzymskimi. Należy wskazać tę jedną sytuację, która jest wyjątkiem lub taki czynnik który związany jest z pozostałymi czterema sytuacjami.
I. czynnik 1 a. sytuacja 1
II. czynnik 2 b. sytuacja 2
III. czynnik 3 c. sytuacja 3
d. sytuacja 4
e. sytuacja 5
A). c / I
B). b / II
C). c / III
D). a / I
E). b / IV
Komentarz do zadań typów B, C, D. Dystraktor ostatni ( E).) może także zawierać tekst "żadne z powyższych". W zadaniu, w którym każdy dystraktor zawiera tylko pojedynczą parę zestawianych elementów (tak jak w typie D), dystraktor ostatni może zawierać tekst "wszystkie powyższe". W takim przypadku konieczna będzie odpowiednia modyfikacja zasady konstrukcji główki zadania.
Typ E (analiza związków)
Główka zadania: zawiera jeden lub więcej zestawów twierdzenie - przesłanka, (zestawy te mogą odnosić się do jednego lub różnych zjawisk).
- prawdziwe są i twierdzenie i przesłanka; albo
- twierdzenie i przesłanka są zdaniami prawdziwymi, jednak bez związku przyczynowego; albo
- twierdzenie jest prawdziwe ale przesłanka fałszywa; albo
- twierdzenie jest fałszywe ale przesłanka prawdziwa; albo
- fałszywe są i twierdzenie i przesłanka.
Egzaminowany powinien wybrać dystraktor, w którym:
A). twierdzenie (1) prawdziwe PONIEWAŻ przesłanka (I) prawdziwa,
B). twierdzenie (2) prawdziwe
PONIEWAŻprzesłanka (II) prawdziwa,C). twierdzenie (3) prawdziwe PONIEWAŻ przesłanka (III) fałszywa,
D). twierdzenie (4) fałszywe PONIEWAŻ przesłanka (IV) prawdziwa,
E). twierdzenie (5) fałszywe PONIEWAŻ przesłanka (V) fałszywa,
Komentarz. W tym zadaniu nie pogrubiono żadnego dystraktora, ponieważ (zależnie od tego, co zadanie ma sprawdzać oraz zależnie od pomysłu w zakresie doboru treści twierdzeń i przesłanek) w każdym z nich może być zawarta odpowiedź określona przez autora, jako prawidłowa. Liczby arabskie przy twierdzeniach i rzymskie przy przesłankach oznaczają, że dystraktory pomyślane tak jak w przykładzie, mogą odwoływać się do jednego zestawu zawartego w główce zadania, mogą także zawierać różne zestawy (wtedy w główce należy określić kryterium prawidłowego wyboru).
Typ F (analiza złożonej sytuacji np. analiza historii choroby) - dwa warianty: I i II
Zwięźle napisana historia choroby (lub opis przypadku) poprzedza pewną liczbę zadań odnoszących się do treści opisu (na jego końcu należy podać numery zadań, do których on się odnosi). W tej grupie mogą występować zadania dwóch pokazanych poniżej typów.
Wariant I.
Wszystkie zadania zawierają taką samą liczbę dystraktorów odnoszących się do różnych elementów uwzględnionych w tekście. Wśród dystraktorów, każdego zadania jeden jest prawdziwy (wskazanie wprost) i żaden nie zawiera opcji typu "żadne z powyższych".
Wariant II.
Ani w historii choroby, ani w treści główki zadania nie pojawia się określenie, nazwa lub pojęcie, którego zapamiętanie przez studentów chce sprawdzić autor zadania (np. nazwa choroby). To określenie nie pojawia się także w treści dystraktorów do tego zadania, natomiast dystraktor ostatni zawiera tekst "żadne z powyższych".
Typ G (sposoby pytania o wartości liczbowe) - dwa warianty: I i II
Uważa się, że zadania wymagające zapamiętywania absolutnych wielkości liczbowych powinny być ograniczone do minimum i stosowane tylko w przypadku wartości, których znajomość jest konieczna, jako nieodłączna część "roboczej" wiedzy studenta lub absolwenta określonych studiów (np. lekarza).
Wariant I. (porównanie ilościowe)
Główka zadania może być zbudowana tak, aby zdający musiał porównać wartości (czegoś więcej, czegoś mniej, czegoś tyle samo), zamiast np. wskazywania tej jednej wartości prawidłowej.
Wariant II. (zależność między zmianami)
W tym przypadku, pytanie zawarte w główce zadania dotyczy procesów lub wielkości, których zmiany mogą być wzajemnie zależne (np. wzrost "A" powoduje spadek "B") lub odwrotnie - brak związku między nimi.
Typ H (budowa i funkcja)
Dla sprawdzenia wiadomości na temat struktury, działania, przebiegu sytuacji (np. klinicznej) lub zjawisk statystycznych, można stosować rysunki, wykresy, fotogramy, tabele. Zadanie może być zbudowane wg dowolnego typu. Może odnosić się do oznaczonych elementów rysunku, może dotyczyć rozpoznania wyglądu lub topografii struktur albo wykrycia celowo wprowadzonych błędów. Wykresy mogą służyć do rozpoznania charakterystyki i porównania zmiennych.
Zasady konstrukcji testu egzaminacyjnego
W rzeczywistości uczelnianej często jest tak, że tworzony w ostatniej chwili test egzaminacyjny składa się z wyłącznie nowych zadań, przygotowanych w ilości zaledwie wystarczającej do uzyskania testu o oczekiwanej objętości (po odrzuceniu zadań merytorycznie wadliwych lub intuicyjnie najsłabszych). Wobec tego, szczegółowa tematyka zadań i typy zadań są w tak uzyskanym teście raczej przypadkowe niż celowo dobrane. Zdarza się także, że liczba zadań bywa niewystarczająca, a wtedy test (jeżeli nawet składa się z zadań dobrej jakości) staje się przypadkowym quizem. Jednak, nawet w takich przypadkach egzamin może wystarczyć do wystawienia ocen studentom, o ile udało się (intuicyjnie lub przypadkowo) uzyskać jakąkolwiek dyskryminację indywidualnych wyników. Natomiast, nie jest możliwa na takiej podstawie ocena: rzeczywistych osiągnięć studenta, stopnia realizacji celów nauczania oraz analiza w zakresie jakości nauczania.
Może wydać się dziwne to, że o ocenianiu piszemy na początku tego rozdziału, skoro wystawienie ocen jest ostatnim krokiem w procesie egzaminowania studentów. Jest tak dlatego, że test egzaminacyjny może być traktowany jako narzędzie pomiarowe do mierzenia osiągnięć studentów, jednak dopiero wtedy, gdy zostanie skonstruowany w sposób adekwatny także do zaplanowanej zasady oceniania wyników tego pomiaru. Wobec tego, jeżeli wynik egzaminu testowego traktować jako wynik pomiaru, przybliżenie pojęcia pomiaru dydaktycznego wydaje się celowe przed przystąpieniem do omawiania zasad tworzenia testu.
Ocenianie jako skutek pomiaru
W ujęciu typologicznym, wynik egzaminu jest wynikiem pomiaru dydaktycznego wyrażonym w skali (porządkowej) ocen traktowanych jako hierarchiczne klasy jakościowe. Oznacza to, że każda ocena wyższa powinna odpowiadać większym osiągnięciom studenta niż te, na podstawie których wystawiono ocenę niższą, a różnice wymagań dla kolejnych ocen zostały jednoznacznie określone. Wobec tego, warunkiem prawidłowego ocenienia jest wystarczająco ścisłe określenie wymagań dla poszczególnych ocen z nauczanego przedmiotu. Zakres wymagań musi być dostosowany do kierunku i roku studiów, zakresu programu oraz standardów nauczania. To dostosowanie jest szczególnie istotne, chociaż bywa niełatwe, w zakładach i klinikach prowadzących określony przedmiot równolegle wg. różnych programów i dla różnych kierunków studiów.
Zgodnie z teorią pomiaru dydaktycznego, ze względu na odmienność układu odniesienia, wyróżnia się: pomiar różnicujący i pomiar sprawdzający. Zasadą oceniania, jako wyniku pomiaru różnicującego, jest ustalanie kryteriów dla różnic wyników nauczania w danej grupie, w odniesieniu do wyniku średniego ocenianej grupy. Taka zasada oceniania zawiera element subiektywny, natomiast pozwala wykorzystać (do różnicowania ocenami osiągnięć indywidualnych uczniów w grupie) pełny zakres skali ocen niezależnie od poziomu przeciętnej jakości danej grupy. Dlatego ocenianie na podstawie pomiaru różnicującego może mieć silny aspekt motywacyjny, co jest istotne zwłaszcza przy ocenianiu cząstkowym w toku prowadzonego nauczania.
Pomiar sprawdzający polega na ocenianiu zależnym od spełnienia wymagań programowych stanowiących zewnętrzny układ odniesienia. Skutkiem jest niezależność wystawianych ocen od sytuacji lokalnej w ocenianej grupie, czyli - obiektywność kryteriów oceniania. Jeżeli określono strukturę warstwową (hierarchiczną) treści kształcenia, gdzie częścią wymagań kolejnej warstwy wyższej są wymagania, które zawierała warstwa niższa, możliwy staje się pomiar sprawdzający wielostopniowy. Porównywanie osiągnięć odrębnie ocenianych grup (np. roczników studentów) oraz analiza stopnia realizacji wymagań programowych wymagają stosowania zasad oceniania właściwych dla pomiaru sprawdzającego. Wobec tego, egzaminy końcowe powinny mieć charakter pomiaru sprawdzającego.
Obok wskaźników takich jak wynik średni, odchylenie standardowe, średnia łatwość, współczynnik rzetelności (KR20), czy trafność testu, istotnym elementem oceny narzędzia egzaminacyjnego jest charakterystyka rozkładu częstości jego wyników punktowych. Zakres zmienności i rozkład wyników pokazują jakość narzędzia egzaminacyjnego lub/oraz sytuację w grupie egzaminowanej. Odpowiednio szeroki zakres zmienności i zbliżony do symetrycznego rozkład wyników świadczy o dobrze dobranym zestawie zadań. Rozkład zmienności będzie prawo lub lewo skośny, zależnie od proporcji udziału zadań trudniejszych i łatwiejszych. Znaczny nadmiar zadań bardzo łatwych lub/oraz bardzo trudnych zawęża zakres zmienności wyników. Wobec tego, ustalenie kryteriów oceniania wyników egzaminu powinno być podstawą do planowania proporcji udziału w teście zadań o różnej trudności.
Uzyskanie przez część zdających, wyników bardzo wysokich (maksymalnych) może oznaczać, że egzamin był źle zaplanowany, gdyż nie zawierał zadań dostatecznie trudnych dla najlepiej przygotowanych studentów. Taką sytuację należy przeanalizować, bo może być także sygnałem odtajnienia zestawu zadań egzaminacyjnych
Przejście od wyników punktowych egzaminu do skali ocen ma dwa aspekty: określa granicę zdał/nie zdał oraz różnicuje ocenami osiągnięcia tych, którzy zdali. W pierwszym przypadku, konieczne jest ustalenie kryterium progowego poprzez określenie zakresu minimum osiągnięć dla egzaminu zdanego, a w drugim - kryteriów dla przedziałów różnicowania wyników pozytywnych. Wystawienie ocen, podejmowane po obliczeniu wyników testu, sprowadza się do wyznaczenia progów (przedziałów) punktowych dla ocen zgodnie w wcześniejszym założeniem, jednak z możliwością korekty uwzględniającej wyniki analizy statystycznej testu. Natomiast decyzje w sprawie zakresu i poziomu wymagań oraz kryteriów dla różnicowania wyników powinny zapadać w okresie projektowania egzaminu i dobierania zadań.
Planowanie testu
Jeżeli egzamin testowy ma posiadać właściwości narzędzia pomiarowego, obiektywizującego ocenienie stopnia opanowania treści nauczanego przedmiotu, pracę nad jego przygotowaniem należy rozpocząć od ustalenia szczegółowego wykazu wymagań egzaminacyjnych na podstawie: standardów nauczania, celów nauczania i programu nauczania. Wykaz wymagań egzaminacyjnych powinien stanowić podstawę do określenia minimalnego zakresu wiedzy i umiejętności dla zdania egzaminu oraz zakresów swoistych dla kolejnych ocen pozytywnych i umożliwić określenie optymalnej objętości testu. Wykaz wymagań egzaminacyjnych pozwala także ustalić strukturę egzaminu, to znaczy, udział w teście zadań reprezentujących poszczególne działy nauczanego przedmiotu oraz udział typów zadań najlepiej sprawdzających kompetencje określone w celach nauczania.
W praktyce okazuje się jednak trudne zaprojektowanie testu tak, aby pogodzić dążenie do precyzyjnej kontroli realizacji celów nauczania z niejednakową w każdej egzaminowanej grupie tzw. kompetencją pomiarową studentów. Test (jako całość) nie powinien być ani zbyt łatwy, ani zbyt trudny, powinien umożliwiać różnicowanie ocenami zarówno wśród najlepszych jak i wśród słabiej przygotowanych studentów. Średni poziom trudności grup zadań reprezentujących poszczególne działy przedmiotu powinien być podobny. Uzyskanie takich właściwości testu nie jest możliwe bez dysponowania dostatecznie dużym zbiorem gotowych zadań, umożliwiającym wybranie w każdym przypadku zadania o potrzebnej trudności spośród różnych (ze względu na ujęcie zagadnienia i typ) zadań na każdy temat.
Związek planu testu z celem egzaminu
Plan egzaminu powinien ustalać strukturę trudności zadań jako odpowiednią do jego przeznaczenia i do zasady oceniania wyników. Ze względu na cel jakiemu mają służyć, można wyróżnić trzy typy egzaminów: selekcyjne, kwalifikacyjne i weryfikacyjne.
Przykładem egzaminu selekcyjnego jest egzamin wstępny na studia (wybranie najlepiej przygotowanych). W tym przypadku, najistotniejszy jest możliwie szeroki zakres różnicowania wyników. Kryterium progowego wyników (zdał/nie zdał) nie ustala się, ponieważ o minimum punktów warunkującym skutek pozytywny dla zdających decydują czynniki pozamerytoryczne: proporcja liczby kandydatów do limitu przyjęć.
Celem egzaminu kwalifikacyjnego jest ustalenie, czy egzaminowani spełniają określone minimum. W takim egzaminie najistotniejsze jest ustalenie kryterium progu, a różnicowanie wyników w okolicy progu, a zwłaszcza poniżej progu, ma większe znaczenie niż różnicowanie wyników wysokich. Im wyższa będzie punktowa wartość progu, tym lepiej będzie określone spełnienie przez egzaminowanych wymaganego minimum.
Egzaminy kończące nauczanie, to egzaminy typu weryfikacyjnego. W tym przypadku konieczne jest pogodzenie spełnienia warunków dla ustalenia kryterium progu (zdał/nie zdał) z możliwie szerokim zakresem dla różnicowania wyników ponad tym progiem. Najczęściej przyjmuje się, że egzamin będzie zdany, jeżeli jego wynik będzie nie mniejszy niż 51% maksymalnej liczby punktów. Oznacza to, że osiągnięcie wymaganego minimum jest równoznaczne rozwiązaniu ponad połowy zadań w zestawie. Jeżeli zadania dobrano tak, że najlepsze wyniki osiągają 95 - 97%, wtedy na różnicowanie ocen pozytywnych pozostaje ok. 45% zakresu zmienności.
Ten zakres można poszerzyć stosując zasadę pomiaru wielostopniowego. W tym celu należy w zbiorze zadań określić grupę takich zadań, bez rozwiązania których (np. w ponad 90%), egzamin nie może być zdany, niezależnie od rozwiązania zadań pozostałych. Poszerzenie zakresu różnicowania ocen pozytywnych będzie wynikało z proporcji liczby zadań w obu grupach, jednak nie powinno przekraczać 20% całkowitej liczby zadań. Jeżeli w informacji dla studentów wyraźnie określono odrębne zakresy wymagań egzaminacyjnych, zadania z grupy warunkującej zdanie egzaminu mogą być wymieszane z zadaniami pozostałymi i nie oznaczone w żaden sposób, co jest dodatkowym utrudnieniem. Można także zadania pogrupować i dołączyć do testu informację o odrębnym znaczeniu grup, co jest sytuacją łatwiejszą
Źródła i uwarunkowania doboru zadań
Do przygotowywanego egzaminu można za każdym razem układać nowe zadania, jednak korzystniej jest wybierać część zadań z przechowywanego zbioru (banku zadań) i tylko uzupełnić test zadaniami nowymi. Warto rozważyć skutki każdej z wymienionych sytuacji.
Zadania pobierane z banku zadań nazywamy walidowanymi, jeżeli były wcześniej użyte w innym egzaminie dla grupy studentów o takim samym lub podobnym programie oraz celach kształcenia i gdy zapisano ich parametry wynikowe. Zadania takie można dobierać nie tylko ze względu na ich treść i typ, ale także ze względu na ich poznane właściwości egzaminacyjne. W takim przypadku, w tworzonym teście można uzyskać nie przypadkowy, ale zaplanowany poziom i rozkład trudności zadań. Poprzez zestawienie dla takich zadań (dobranych tak, aby odnosiły się w treści do zagadnień kluczowych dla ustalonych celów nauczania), wyników uzyskanych w egzaminach dla różnych roczników określonego kierunku studiów, możliwe staje się porównywanie tych roczników pod kątem wynikowej jakości nauczania.
Tworząc bank zadań można zaprojektować jego strukturę jako adekwatną do struktury działów materiału w nauczanym przedmiocie lub/oraz do ustalonych szczegółowych celów nauczania. W każdej kategorii struktury banku można gromadzić zadania różnych typów oraz różniące się sposobem sformułowania polecenia lub/oraz doborem treści dystraktorów. Taka zawartość banku zadań umożliwia swobodny wybór zadań dla uzyskania testu optymalnie sprawdzającego realizację celów nauczania, czyli - umożliwia uzyskanie precyzyjnego (wykalibrowanego) narzędzia pomiarowego o zaplanowanych właściwościach.
Należy w tym miejscu przestrzec przed ujawnianiem zawartości nawet dużego banku zadań, czy to poprzez opublikowanie (jako materiałów dla studentów) czy w wyniku niedostatecznej dbałości o odzyskanie po każdym egzaminie kompletu książeczek. Znane są przypadki zapamiętania przez studenta prawidłowych odpowiedzi dla ponad tysiąca zadań pomimo braku rozumienia przyczyn dokonywanych wyborów.
W przypadku zadań nowo utworzonych oraz zadań nie walidowanych (z banku zadań) nie są znane ich właściwości egzaminacyjne, natomiast ich zaletą jest to, że nie powinni ich znać egzaminowani. Zadania nowo utworzone mogą i powinny stanowić określoną część każdego egzaminu (np. nie mniej niż 20%) chociażby dlatego, że w miarę postępu wiedzy, aktualizacji może wymagać treść i forma zadań, nawet przy nie zmienionych celach nauczania. Nowe zadania są takie, jaki był aktualny pomysł autora. Dlatego też, ze względu na sposób sformułowania (treść) i typ, nie zawsze najlepiej nadają się do zastosowania w konkretnym zestawie zadań, chociaż mogą doskonale pasować do inaczej pomyślanej kompozycji zdań równoważnego testu. Np. treścią zadania jest zjawisko ważne dla realizacji jednego z celów nauczania, jednak zadanie dotyczy mechanizmu zjawiska, natomiast w tworzonym teście potrzebne jest zadanie dotyczące wrażliwości zjawiska na czynniki zewnętrzne.
O ile, dla uzyskania testu o zaplanowanym poziomie trudności, zadania walidowane mogą być dobierane z uwzględnieniem poznanych wcześniej ich właściwości, warto wyjaśnić, na jakiej podstawie dobierać zadania nie walidowane. W tym przypadku, użyteczne może być zastosowanie taksonomii celów nauczania, jako wskaźnika przewidywanego poziomu trudności. Taksonomia celów nauczania jest klasyfikacją hierarchiczną spełniającą następujące kryteria:
- poprawności naukowej,
- kumulatywności (wyższe kategorie obejmują między innymi te cele i osiągnięcia, które składały się na kategorie niższe),
- użyteczności (ma zastosowanie do tworzenia programu nauczania i pomiaru dydaktycznego),
- łatwości stosowania (przez nie specjalistów).
Użyteczna do testów w dziedzinach medycznych i przyrodniczych jest uproszczona postać taksonomii celów nauczania, której zasadę pokazano w tabeli poniżej, a uporządkowane hierarchicznie główne cele nauczania to: 1) wiadomości, 2). rozumienie, 3) zastosowanie, 4). analiza, 5). synteza, 6). ocena.
poziom | kategoria |
I WIADOMOŚCI | A. zapamiętywanie wiadomości |
B. rozumienie wiadomości | |
II UMIEJĘTNOŚCI |
C. stosowanie wiadomości w sytuacjach typowych |
D. stosowanie wiadomości w sytuacjach problemowych |
Zapamiętywanie wiadomości oznacza gotowość do przypomnienia sobie terminów, faktów, praw, teorii, zasad działania. Jest to poziom elementarny. Zapamiętanych wiadomości nie powinno się mylić i zniekształcać.
Rozumienie wiadomości oznacza umiejętność przedstawienia ich innej formie niż zapamiętana, umiejętność ich uporządkowania, streszczenia bądź uczynienia podstawą prostego wnioskowania.
Stosowanie wiadomości w sytuacjach typowych oznacza opanowanie umiejętności praktycznego posługiwania się wiadomościami według podanych uprzednio wzorców.
Stosowanie wiadomości w sytuacjach problemowych oznacza opanowanie umiejętności formułowania problemów, dokonywania analizy i syntezy nowych zjawisk, formułowanie planu działania, wartościowania przedmiotów lub zjawisk według ustalonych kryteriów.
W praktyce egzaminacyjnej, zadania kategorii C. i D. okazują się trudne i bardzo trudne, natomiast przeważnie to one właśnie sprawdzają realizację kluczowych celów nauczania.
Na zakończenie warto zauważyć, że niezależnie od specyfiki przedmiotu nauczania, nawet najlepszy nauczyciel nie jest w stanie stworzyć nieograniczonej liczby dobrych zadań. Najczęściej bywa ich, co najwyżej, kilkadziesiąt. Zasadne jest oczekiwanie, że zadania tworzone na ten sam temat przez różnych nauczycieli powinny różnić się pod względem sposobu sformułowania polecenia, poziomu trudności lub typu. Z tych powodów celowe jest, aby tworzenie zadań egzaminacyjnych miało charakter pracy zbiorowej. Dobra znajomość szczegółowych celów nauczania i wymagań egzaminacyjnych kierunkuje myślenie autorów tak, że pozwala unikać tworzenia zadań nawet poprawnych merytorycznie, jednak mało przydatnych do realizacji celów nauczania.
Klucz prawidłowych rozwiązań
Klucz jest niezbędny do ocenienia (punktowania) wyników testu. Jest to przyporządkowanie liter (oznaczających prawidłowe odpowiedzi) do kolejnych numerów zadań. Klucz ma postać tabeli złożonej z dwóch kolumn. W lewej kolumnie umieszcza się numery zadań uporządkowane narastająco, a w prawej kolumnie - oznaczenia literowe dystraktorów zawierających prawidłowe odpowiedzi.
Wersje testu
Wersjami testu nazywamy odmienne uporządkowanie zbioru tych samych zadań. Przygotowanie testu w więcej niż jednej wersji i przydzielanie egzaminowanym siedzącym obok siebie innych wersji, służy utrudnieniu ściągania. Dla każdej wersji testu należy sporządzić odrębny klucz prawidłowych odpowiedzi. Posiadany system do ewaluacji wyników egzaminów jest przystosowany do scalania wyników w jeden zbiór danych dla wersji testu przygotowanych bez zmiany kolejności dystraktorów w przemieszczanych zadaniach. Do wczytania i scalenia wyników testu opracowanego w więcej niż jednej wersji, obok klucza dla wersji pierwszej, konieczne jest sporządzenie przeplotu (patrz poniżej). Możliwe jest także tworzenie wariantów testu różniących się dodatkowo kolejnością dystraktorów w przemieszczanych zadaniach. Jednak wobec ograniczeń posiadanego systemu informatycznego, powoduje to konieczność odrębnej ewaluacji wyników dla takich wariantów testu, co wydłuża czas trwania procesu ewaluacji oraz utrudnia ustalenie skali ocieniania jednakowej dla całej grupy egzaminowanej.
Przeplot
Przeplot jest to przyporządkowanie w kolejnych wersjach testu (drugiej, trzeciej, ...) numerów zadań (wg numeracji z wersji pierwszej) do ich pozycji w kolejnej wersji testu. Przeplot jest niezbędny do scalenia wyników ze wszystkich wersji testu w jeden zbiór danych, konieczny do ustalenia wspólnej skali oceniania egzaminu oraz do statystycznej analizy wyników. Przeplot jest tabelą złożoną z liczby kolumn równej liczbie wersji testu. W kolumnie lewej umieszczone są numery zadań uporządkowane narastająco. W kolumnie drugiej w prawo (dla wersji drugiej), w kolejnych pozycjach (w dół) tabeli, podane są numery, jakie odpowiednie zadania miały w wersji pierwszej (przed ich przemieszczeniem). W kolumnie trzeciej i następnych (zależnie od liczby wersji testu) zawsze podawana jest dla kolejnych pozycji zadań ich numeracja wg wersji pierwszej.
Zasada tworzenia przeplotu (na przykładzie o testu czterech wersjach)
Tabela I. Układ tych samych zadań w kolejnych wersjach gotowego testu
(nazwy działań matematycznych symbolizują inaczej rozmieszczone zadania o tej samej treści)
wersja 1 | wersja 2 | wersja 3 | wersja 4 | ||||
1 | mnożenie | 1 | odejmowanie | 1 | dodawanie | 1 | dodawanie |
2 | dzielenie | 2 | dodawanie | 2 | mnożenie | 2 | odejmowanie |
3 | odejmowanie | 3 | mnożenie | 3 | dzielenie | 3 | dzielenie |
4 | dodawanie | 4 | dzielenie | 4 | odejmowanie | 4 | mnożenie |
Tabela II. Gotowy przeplot dla czterech wersji testu pokazanych powyżej
wersja 1 | wersja 2 | wersja 3 | wersja 4 |
1 | 3 | 4 | 4 |
2 | 4 | 1 | 3 |
3 | 1 | 2 | 2 |
4 | 2 | 3 | 1 |
Warianty testu
Warianty testu różnią się od wersji testu tym, że składają się z takiej samej liczby nieidentycznych zadań. Wobec tego, ocenianie wyników w jednym (wspólnym) zbiorze danych dla całego egzaminu nie jest możliwe, a warunkiem zastosowania jednakowych progów punktowych dla oceniania studentów, niezależnie od wariantu testu, jest wysokie podobieństwo zbiorów po względem wyników analizy statystycznej. Minimalna różnica pomiędzy wariantami testu to zmiana kolejności dystraktorów w tych samych zadaniach, a w tym - ulokowanie pod inną literą prawidłowego wariantu odpowiedzi. Taka modyfikacja nie jest jednak możliwa w przypadku zadań, w których prawidłowa jest odpowiedź ostatnia, zawierająca tekst "wszystkie powyższe" lub "żadne z powyższych". Najtrudniej stworzyć taki egzamin wariantowy, w którym warianty testu różnią się treścią poszczególnych zadań jednak zadania są tak dobrane, że zapewniają taki sam poziom realizacji wymagań i celów nauczania oraz taka sama jest wewnętrzna struktura zestawów zadań pod względem trudności i udziału typów zadań.
Zasady przeprowadzania egzaminu testowego
Egzamin nie powinien być szkołą przetrwania, ale sprawdzianem opanowania przedmiotu. Dlatego, na początku okresu nauczania, studentom powinna być udostępniona informacja o: wymaganiach egzaminacyjnych, formie, objętości i czasie trwania egzaminu oraz o kryterium progowym jego zaliczenia (graniczna liczba punktów).
Do egzaminu mogą przystąpić wyłącznie osoby do niego dopuszczone. Ocena jest wystawiana osobie określonej w dokumentacji przez imię, nazwisko i numer albumu. Z tego powodu, wpuszczanie na salę egzaminacyjną powinno być związane z identyfikacją osoby na podstawie konfrontacji danych na liście dopuszczonych z dokumentem z fotografią (legitymacja studencka). Fakt wpuszczenia studenta na salę powinien być zaznaczany na liście obecności, co po egzaminie umożliwi także ustalenie, czy wszyscy zdający oddali karty egzaminacyjne.
Wpuszczani na salę mogą od razu (przy wejściu) otrzymywać karty egzaminacyjne. Są one przygotowane jako personalizowane (nazwisko, imię, numer albumu) po to, aby wykluczyć późniejsze opowieści o "przypadkowej pomyłce". Podczas egzaminu, zdający powinni autoryzować podpisem karty egzaminacyjne (w miejscu określonym w instrukcji) i podpisać się na książeczkach, co po egzaminie pozwoli zidentyfikować osobę w przypadku nie oddania książeczki.
Książeczki testowe należy traktować jako chronioną prawem autorskim publikację przeznaczoną do użycia w ściśle określonym celu, jakim jest wyłącznie egzamin. W takim przypadku, nie oddanie książeczki jest równoznaczne kradzieży. Nie świadczy o opanowaniu przedmiotu zapamiętanie przez studentów jedynie tego, które (zamiast: dlaczego właśnie te?) odpowiedzi dla określonych zadań należy wybrać, aby egzamin zaliczyć. Z tego powodu, nie jest dobrym pomysłem ujawnienie (opublikowanie w postaci materiałów dla studentów) nawet dużego zbioru zadań. Znane są przypadki pamiętania prawidłowych odpowiedzi dla ponad tysiąca zadań przy braku rozumienia przyczyn dokonanych wyborów.
Zdawanie egzaminu nie polega na pracy zespołowej, dlatego warunki jego przeprowadzania powinny maksymalnie utrudniać porozumiewanie się zdających. Zarezerwowane sale powinny być dostatecznie duże dla zapewnienia odpowiednich odstępów pomiędzy wszystkimi zdającymi. W przypadku sal audytoryjnych skuteczna jest zasada: co drugie miejsce, co drugi rząd. Nie należy pozwolić zdającym na swobodny wybór miejsc gdyż wtedy usiądą tak, że na sali powstaną trudne do opanowania ośrodki "wzajemnej pomocy". Zdający powinni zajmować miejsca kolejne, wpuszczani na salę wg. listy, która zwykle jest uporządkowana alfabetycznie, co warunkuje niskie prawdopodobieństwo sąsiedztwa przyjaciół.
Liczba obecnych podczas egzaminu osób pilnujących powinna być dostateczna, a sposób ich postępowania właściwy dla zapobiegania wszelkim formom ściągania i współpracy zdających. Stwierdzenie zachowań niepożądanych powinno, po najwyżej dwóch ostrzeżeniach, skutkować usunięciem zdającego z negatywnym wynikiem egzaminu. Taki przykład dobrze działa na wszystkich pozostałych. Rozmowy zdających z pilnującymi powinny być ograniczone do spraw wyłącznie technicznych i prowadzone w taki sposób, aby ich treść słyszeli najbliżej siedzący sąsiedzi. Przygotowanie egzaminu w, co najmniej, dwóch wersjach i przydzielanie ich tak, aby sąsiedzi otrzymywali różne wersje, także ogranicza możliwości ich współpracy.
Zasady obowiązujące podczas egzaminu powinny być przez prowadzącego omówione przed jego rozpoczęciem. Omówienie to powinno obejmować: określenie czasu trwania, sposób rozpoczęcia, godzinę i sposób zakończenia, zasady korzystania z sanitariatu, oczekiwany sposób zachowania się zdających (w tym - żądanie wyłączenia telefonów komórkowych), sposób zgłaszania zapytań, sposób postępowania w przypadku stwierdzenia błędów w rozwiązywanym teście, sposób postępowania w przypadku wcześniejszego zakończenia egzaminu, skutki stwierdzenia zachowań niepożądanych.
Rozpoczęcie egzaminu oraz godzina zakończenia, są ogłaszane po rozdaniu książeczek wszystkim zdającym. Godzinę zakończenia można także zapisać w dobrze widocznym miejscu. Dobrze jest, gdy w sali znajduje się zegar. Osoby wychodzące do sanitariatu, swoją książeczkę i kartę egzaminacyjną deponują u osoby prowadzącej egzamin. Notowanie czasu i krotności takich wyjść może ułatwić wykrycie ewentualnych zachowań niepożądanych. Upływ czasu może być ogłaszany okresowo, w stopniowo malejący odstępach. Związana z wcześniejszym zakończeniem egzaminu, możliwość opuszczenia sali powinna kończyć się 5 minut przed upływem ogłoszonego terminu zakończenia. Nie należy pozwalać na opuszczanie przez zdających miejsc, zanim nie zostaną zebrane książeczki i karty egzaminacyjne. O właściwej godzinie, prowadzący ogłasza koniec egzaminu, zbierane są karty i książeczki i dopiero wtedy prowadzący zezwala na opuszczenie miejsc. Nie jest dobrym pomysłem godzenie się na to, aby po zakończonym egzaminie i odebraniu książeczek, zdający mieli dodatkowy czas na porządkowanie zaznaczeń na kartach. Zamieszanie powstające podczas zbierania książeczek nie sprzyja dopilnowaniu zdających, czego skutkiem są zachowania nieporządne. Okres czasu ustalony dla egzaminu powinien obejmować wszystkie czynności związane z jego zdawaniem i najlepiej gdy jest tak ustalony, aby czas egzaminu mógł pełnić rolę merytoryczną (różnicowanie lepiej i gorzej przygotowanych).
Weryfikacja poprawności konstrukcji
zadań i testu egzaminacyjnego
1. Czy zadanie dotyczy ważnego aspektu (lub aspektów) tematu? (należy unikać "drobiazgowego" pytania o szczegóły mniej istotne)
2. Czy zadanie wymaga posiadania informacji, którą powinien posiadać każdy student/absolwent danego kierunku studiów bez korzystania z piśmiennictwa? (np. dawki leków, granice wartości prawidłowych i inne dane liczbowe winny znajdować się w teście tylko w przypadku, gdy należą do informacji stanowiących codzienną, roboczą wiedzę)
3. Czy zadanie reprezentuje taki poziom wiedzy, jakiego należy oczekiwać od zdającego w zależności od kierunku i roku studiów? (zadanie nie powinno być ani zbyt łatwe, ani zbyt trudne)
4. Czy w każdym zadaniu problem zasadniczy jest sformułowany jasno i dokładnie? (Dwuznaczne lub niejasne sformułowania mogą wprowadzić w błąd zdającego i pozbawić zadanie trafności)
5. Czy zadanie jest napisane tak zwięźle, jak to możliwe, aby było jasne i kompletne? (zbędne słowa wydłużają czas zapoznawania się z treścią; egzamin powinien kontrolować wiedzę w zakresie określonego przedmiotu, a nie szybkość czytania)
6. Czy typ zadania został dobrany najlepiej dla danego zagadnienia lub tematu? (problem trudny do sformułowania w zadaniu jednego typu, może być znacznie lepiej wyrażony w zadaniu innego typu)
7. Czy uniknięto podwójnych zaprzeczeń? (temat zawierający podwójne zaprzeczenie, zwykle może być poprawiony przez przeredagowanie na formę twierdzącą lub przez zmianę typu zadania)
8. Czy forma (np. gramatyczna) zadania oraz wszystkich dystraktorów jest poprawna? (np. w zadaniach typu A, wszystkie alternatywy muszą pozostawać w zgodności gramatycznej z główką i ze sobą)
9. Czy każdy dystraktor nosi pozory poprawności? (naiwne lub nonsensowne dystraktory nie oszukają nikogo, natomiast powodują zmniejszenie liczby działających alternatyw, przez co zadanie staje się łatwiejsze niż planowano)
10. Czy zadanie nie mogłoby być poprawione przez wprowadzenie dystraktora o treści "żadne z powyższych"? (w zadaniach typu dopełnienia; alternatywa, tak która czasem powinna być prawidłowa, a czasem błędna, ma zaletę skłaniania zdającego do myślenia o wszystkich możliwych aspektach problemu, a nie tylko o tych, które znajduje wymienione w zadaniu. Ponadto, rozwiązuje ona czasem problem egzaminatora, natrafiającego na trudności w znalezieniu właściwej, piątej alternatywy.)
11. Czy cały test został sprawdzony? (pod kątem braku powtórzeń oraz celem upewnienia się, że żadne zadanie nie daje wskazówek do rozwiązania innego, zwłaszcza następnego zadania)
12. W przypadku zadań, w których główka zawiera instrukcję wybrania jednej najwłaściwszej odpowiedzi, czy istotnie tylko jedna alternatywa spełnia ten warunek? (odpowiedzi nieprawidłowe winny być bliskie odpowiedziom prawidłowym, aby mogły służyć jako efektywne dystraktory, równocześnie jednak - muszą być wyraźnie mniej odpowiednie niż odpowiedź NAJWŁAŚCIWSZA)
13. Czy liczba zadań nie jest zbyt mała? (zbyt mała liczba zadań będzie przyczyną "wyrywkowego" (zamiast systematycznego i kompleksowego) sprawdzenia wiedzy egzaminowanych)
14. Czy zadania nie układają się w ciągi lub grupy zadań logicznie lub merytorycznie powiązanych? (takie sytuacje ułatwiają egzaminowanym udzielenie prawidłowej odpowiedzi wyłącznie w wyniku kontekstu sąsiednich zadań)
15. Czy nie jest zbyt duża liczba zadań, w których prawidłowa jest odpowiedź ostatnia, zawierająca treść "wszystkie powyższe" lub "żadne z powyższych"? (takie zadania często najłatwiej ułożyć, a ich nadmierna liczba będzie przyczyną zbyt małej liczby zadań o innych literach prawidłowych dystraktorów)
16. Czy w kolejnych zadaniach testu prawidłowe odpowiedzi nie układają się w rytm lub inny powtarzający się układ? Czy zbliżona do równej jest liczebność wszystkich grup zadań różniących się literą wskazaną jako rozwiązanie prawidłowe? (takie sytuacje ułatwiają inteligentnym egzaminowanym udzielenie prawidłowych odpowiedzi pomimo niedostatecznej wiedzy)
Słownik terminologiczny
Bank zadań - uzupełniany w kolejnych latach, niejawny zbiór zadań, uporządkowanych w sposób uwzględniający np. strukturę nauczania przedmiotu. Celowe jest gromadzenie zadań zawierających pytanie sformułowane w różny sposób oraz zadań różnych typów, dotyczących tych samych zagadnień. Jeżeli gromadzone zadania zostały użyte w egzaminie, celowe jest, po jego przeprowadzeniu, dopisanie do tych zadań w bazie ich parametrów wynikowych (takich jak łatwość i moc różnicująca). Okaże się wtedy, że ich poziom trudności nie jest jednakowy. Celowe stosowanie w nowym egzaminie takich zadań (określanych jako walidowane) pozwoli uzyskać zaplanowany poziom trudności testu oraz porównywać stopień opanowania wybranych zagadnień przez grupy egzaminowane odrębnie, a na tej podstawie - porównać np. stopień opanowania przedmiotu przez różne roczniki studentów.
Ewaluacja - proces prowadzący do ocenienia wyników egzaminu, w sensie technicznym obejmujący: wczytanie do komputera danych z kart egzaminacyjnych, analizę danych prowadzącą do ustalenia skali ocen, wystawienie ocen, analizę wyników egzaminu służącą ocenie jakości narzędzia.
Dystraktor - oznaczony literą wariant odpowiedzi na pytanie (lub polecenie) zawarte w główce zadania testowego. Tylko jeden dystraktor może zawierać prawidłową odpowiedź. Zadanie może mieć nie więcej niż 5 dystraktorów. W jednym egzaminie wszystkie zadania muszą mieć taką samą liczbę dystraktorów.
Główka zadania - zawarte w zadaniu pytanie lub polecenie, dla którego prawidłowy i nieprawidłowe warianty odpowiedzi stanowią treść dystraktorów.
Klucz - przyporządkowanie liter (oznaczających prawidłowe odpowiedzi) do kolejnych numerów zadań. Dla każdej wersji testu można sporządzić odrębny klucz, jednak do ewaluacji konieczny jest klucz wersji pierwszej. Klucz jest tabelą złożoną z dwóch kolumn. W lewej kolumnie umieszczone są numery zadań uporządkowane narastająco, a w prawej kolumnie - oznaczenia literowe dystraktorów zawierających prawidłowe odpowiedzi.
Łatwość zadania - (odwrotność trudności) w przypadku zadań z jedną prawidłową odpowiedzią, odpowiada procentowemu udziałowi prawidłowych odpowiedzi wśród wszystkich odpowiedzi na dane zadanie. Najogólniej, wskaźnik pozwala określać zadania jako: łatwe, optymalne, trudne. Łatwość optymalnie różnicujących, prawidłowo skonstruowanych zadań, powinna przyjmować wartości w przedziale 40 - 60 %.
Moc różnicująca zadania - korelacja wyników zadania z wynikami całego testu (formalnie, obliczana jako współczynnik korelacji Pearsona). W przypadku zadań z jedną prawidłową odpowiedzią (punktowanych 0 - 1), stosuje się obliczenie współczynnika korelacji punktowo-biseryjnej (może przyjmować wartości do -1 do +1). Moc różnicująca zadań (kryterium ich trafności) musi być rozpatrywana z uwzględnieniem innych wskaźników, takich jak: łatwość zadania, wielkość testu. Dla zadań mieszczących się w przedziale optymalnym łatwości, moc różnicująca powinna mieścić się w przedziale od +0,2 do +0,4. Wartość ujemna mocy różnicującej jest przeważnie wskazaniem do unieważnienia zadania.
Przeplot - przyporządkowanie w kolejnych wersjach (drugiej, trzeciej, ...) numerów zadań (wg numeracji z wersji pierwszej) do ich pozycji w teście. Przeplot jest niezbędny do scalenia wyników ze wszystkich wersji testu w jeden zbiór danych, konieczny do ustalenia wspólnej skali oceniania egzaminu oraz do statystycznej analizy wyników. Przeplot jest tabelą złożoną z liczby kolumn równej liczbie wersji testu. W kolumnie lewej umieszczone są numery zadań uporządkowane narastająco. W kolumnie drugiej w prawo (dla wersji drugiej), w kolejnych pozycjach tabeli, podane są numery, jakie odpowiednie zadania miały w wersji pierwszej (przed ich przemieszczeniem). W kolumnie trzeciej i następnych (zależnie od liczby wersji testu) zawsze podawana jest dla kolejnych pozycji zadań ich numeracja wg wersji pierwszej.
Rzetelność pomiaru - błąd pomiaru dydaktycznego oceniany na podstawie wartości współczynnika (obliczanego wg wzoru KR20) interpretowanego w płaszczyźnie statystycznej i nieformalnej. Silnie związana z objętością testu. Ma znaczenie negatywnego kryterium oceny jakości pomiaru dydaktycznego (nie potwierdza wysokiej jakości pomiaru natomiast może wykazać jego niewiarygodność), jednak nie może być traktowana jako samodzielne kryterium, przesądzające o jakości pomiaru dydaktycznego.
Trafność pomiaru - możliwość zasadnego wnioskowania o osiągnięciach uczniów i podejmowania skutecznych działań na podstawie tego pomiaru (wg Niemierki 1999). W zależności od szczegółowego celu analizy, wyróżnia się trafność: diagnostyczną, funkcjonalną, kryterialną, prognostyczną, programową, wewnętrzną, wyboru dziedziny. Jednym z powodów niskiej trafności testu jest nadmierna trudność (łatwość) zadań.
Walidowanie zadań - wcześniejsze użycie zadań w innym egzaminie pozwalające poznać ich właściwości egzaminacyjne (łatwość, trafność, moc różnicującą).
Wersje testu - inne uporządkowanie tych samych zadań (bez zmiany kolejności dystraktorów). Użytkowany system informatyczny obsługuje nie więcej niż 6 wersji testu. Zmiana kolejności dystraktorów jest możliwa, jednak powoduje konieczność odrębnej ewaluacji wyników takich wariantów testu, co wydłuża czas trwania procesu ewaluacji oraz utrudnia ustalenie skali ocieniania jednakowej dla całej grupy egzaminowanej.
Niemierko B.; 1999; Pomiar wyników kształcenia; (wyd. IV); WSiP, Warszawa