Undervisningsudvalget 2017-18
UNU Alm.del Bilag 47
Offentligt
Virum og Odense, 5. januar 2018
Svend Kreiner, professor emeritus
Jeppe Bundsgaard, professor MSO
Åbent brev ti Undervisningsminister Merete Riisager og mediemmerne af Foiketngets
Undervisningsudvaig
Vi har med interesse fulgt og deltaget i diskussionen om De Natonale Test (DNT), og selvom vi ikke
nødvendigvis er enige i alt hvad der siges både for og imod pædagogiske test i al almindelighed og DNT i
særdeleshed, er det åbenlyst for os begge, at DNT ikke er blevet det nytge redskab for alle lærerne i den
danske folkeskole, som pædagogiske test kan og bør være.
Det er åbenlyst, at der er meget, der kan og bør forbedres i forbindelse med DNT, og da det nu ser ud som
om der er politsk interesse i at gøre noget ved det, vil vi med dete brev give en række indspark tl, hvad
der kan forbedres.
I en ikke helt systematsk rækkefølge bør følgende tng komme på banen.
Brugen af DNT skai tireeeiegges såiedes at den er nytg for iereren
De natonale test har fra starten været præsenteret som et pædagogisk redskab. Men der fndes ikke
overbevisende belæg for, at de faktsk har udviklet sig tl et sådant.
Det kan der være fere årsager tl. n af de væsentligste er formodentlig, at afprøvningen er tlretelagt
uden respekt for og uden hensyn tl, hvornår det vil være nytgt for læreren at få de oplysninger om
eleverne, som testresultaterne kan give. Det forekommer os desuden at der ikke tages tlstrækkeligt hensyn
tl om testene rent faktsk giver læreren de oplysninger, som læreren har brug for, for at kunne
tlretelægge undervisningen på den bedste måde. Da det, der er nytgt at vide og hvornår, må forventes at
variere fra klasse tl klasse, vil vi opfordre tl følgende:
Læreren skal selv bestemme, hvornår der skal testes. Hvis læreren mener, at det er bedre at teste
eleverne i oktober og november end sent i skoleåret, fordi tdlig viden giver bedre muligheder for at
tlretelægge undervisningen i forhold tl de problemer, som testresultaterne måte afsløre, skal
læreren naturligvis have ret tl at trææe den beslutning.
Læreren skal kunne fravælge irrelevante proflområder så testningen fokuserer på og giver mere
sikre resultater om det relevante. Hvis en lærer i 8. klasse fx mener, at det er spild af td at teste
hele klassen i afodning, skal læreren have ret tl at fravælge dete proflområde for nogle eller alle
elever, således at tden i stedet kan bruges tl at teste elevernes tekstorståelse. n sådan
beslutning vil kunne reducere usikkerheden på målingerne af tekstorståelse tl ca. 70 % af den
usikkerhed, man har i dag.
Hvis læreren oplever, at testene ikke bidrager med noget, hun kan bruge tl undervisningen – fx på
grund af usikkerheden, eller fordi hun ikke forstår testresultaterne – skal hun have mulighed for at
fravælge testen og i stedet bruge undervisningstden på noget mere nytgt.
1
UNU, Alm.del - 2017-18 - Bilag 47: Henvendelse af 4/1-18 fra Jeppe Bundsgaard vedrørende de nationale test
Ovennævnte forslag er først og fremmest motveret af det synspunkt, at anvendelsen af testene skal være
så nytge som muligt for undervisningen, og at td, der kun fungerer som spildtd for læreren og eleverne,
skal reduceres tl det mindst mulige. Udover det, vil implementeringen af forslagene kunne betyde, at
lærernes engagement i testene forøges, fordi de kommer tl at opleve, at de i højere grad er med tl at
styre, hvorledes testene bruges.
n anden årsag tl at den natonale test ikke har udviklet sig tl det nytge pædagogiske redskab, som man
havde håbet, er, at det ifølge en undersøgelse af Bundsgaards og Puck (2016) er mindre end 10 % af
lærerne, der forstår, hvad resultaterne betyder. Udover at dete tal i sig selv er chokerende lavt, er det
naturligvis illusorisk, at lærere, som ikke forstår testresultaterne, kan få noget som helst ud af dem, som de
kan bruge i undervisningen. t redskab forudsæter, at brugerne forstår at bruge det. Det gælder også for
pædagogiske test.
Den mangelfulde indsigt i, hvad testresultater betyder, skyldes ikke lærerne. Det skyldes udelukkende, at
man ikke har forstået at formidle tngene på en ordentlig måde. Det er ministeriets ansvar, og vi kan kun
opfordre tl at ministeriet tager problemet alvorligt og gør noget ved det. Testresultaterne
skal
gøres
forståelige og meningsfulde for lærerne, hvis lærerne skal kunne bruge dem tl noget fornufigt. Det kan ske
gennem
Kurser.
Meget bedre forklaringer af hvad testresultaterne betyder.
Mindre komplicerede præsentatoner af resultater (i øjeblikket gengives de samme resultater på
mindst 3 forskellige måder).
Ordentlige kriteriebaserede profciency scores. Læreren har brug for at vide hvilke dele af stoæet,
eleven har store problemer med, hvilke dele eleven kan arbejde med uden uovervindelige
problemer, og hvilke dele der ikke længere giver problemer for eleven. Testresultater, der leverer
den slags oplysninger, omtales som
proiciencysscores,
og det er den form for testresultater, som
læreren kan drage nyte af i forbindelse med undervisningen af eleverne og klassen. De
testresultater (inkl. de såkaldte kriteriebaserede scores), som DNT leverer, fortæller kun noget om,
hvorvidt eleven er dygtg eller mindre dygtg. Det ved læreren i langt de feste tlfælde allerede, og
dermed bidrager DNT ikke med noget, som læreren kan drage nyte af.
Profciency scores er den bedste måde at formidle testresultater på, hvis resultaterne fra testene skal
bidrage tl lærernes fagligt-pædagogiske arbejde. Profciency scores udvikles ved, at faglige eksperter
analyserer og beskriver, hvad der kendetegner opgaver på forskellige niveauer, og på den baggrund
udarbejder en beskrivelse af normal progression inden for det faglige område. Den enkelte elevs resultat
kan så relateres tl denne progression, og der kan opnås viden om, hvad eleven har af udfordringer lige nu
og skal tl at arbejde med. På grund af hemmelighedskræmmeriet omkring opgaverne i de natonale test, er
det ikke muligt for os at sige, om opgaverne i natonale test i den nuværende udformning indeholder et
tlstrækkeligt udfoldet fagligt indhold, tl at det er muligt at konstruere egentlige profciency scores. Det bør
derfor undersøges, om det er muligt, og der bør udvikles nye opgaver, der gør det muligt at konstruere
profciency scores, hvis de eksisterende opgaver ikke er tlstrækkelige tl formålet.
2
UNU, Alm.del - 2017-18 - Bilag 47: Henvendelse af 4/1-18 fra Jeppe Bundsgaard vedrørende de nationale test
Spørgsmåiene om DNTs vaiiditet og nyeeverdi skai håndteres ordentiigt
n lang række fagdidaktske eksperter og lærere har peget på at DNT måler for snævre dele af fagene og
gør det på en for usikker måde.
Derfor bør det dokumenteres, at proflområderne er fagligt set meningsfulde, og at opgaverne dækker alle
relevante aspekter af proflområderne (indholdsvaliditet).
Den psykometriske begrebsvaliditet skal forklares og dokumenteres. Internatonalt er der traditon for at
der udarbejdes tekniske rapporter, der beskriver udviklingsprocessen og de teoretske baggrunde for test. I
forbindelse med DNT fndes der intet sådant tlgængeligt forarbejde, og det er derfor ikke muligt for
uafængige forskere at gå arbejdet efer i sømmene.
Selvom målingerne af de forskellige proflområder er psykometrisk valide, er det ikke nødvendigvis givet, at
disse proflområder er de mest relevante og nytge for lærerne i arbejdet med eleverne. Vi opfordrer
derfor tl, at der lægges op tl saglig og faglig diskussion af de valgte proflområder.
For at diskussionen (og i givet fald forsvaret) af DNT skal være mulig, er det nødvendigt, at
Hemmeligholdelse af indhold, arbejdsprocesser og tekniske forhold mindskes i så høj grad som
muligt. Pædagogiske test er andet og mere end standpunktsprøver, der kun har det formål at skille
fårene fra bukkene. Der er derfor ingen grund tl og heller ikke nogen traditon for at holde
opgaverne hemmelige.
At de personer, der har ansvaret for opgaverne og for defnitonen af proflområder, forklarer
baggrunden for designet af opgaver og proflområder og forholder sig tl kritk.
At man er parat tl at droppe proflområder, som lærere og fagdidaktkere fnder irrelevante, og
enten erstater dem med andre eller nøjes med færre, så sikkerheden på resultaterne inden for de
proflområder, som er relevante, kan forøges.
At man forøger indholdsvaliditeten gennem at udvikle fere typer af opgaver (itemtyper). Det er
usandsynligt at alle aspekter af et fagligt område kan måles med kun én eller få typer opgaver. For
nogle elever kan en opgavetype i sig selv give problemer, og derved vil målingen af elevens
dygtghed blive skæv, hvis kunne én type opgaver anvendes.
Kvaliteten af opgaverne skal kontrolleres løbende, og man bør være parat tl både at defnere nye
proflområder og at udvikle og afprøve nye opgaveformer.
Probiemer med eievers og iereres negatve opieveiser skai tages aivoriigt
Forskning i form af både casestudier (Kousholt 2015a; 2015b) og surveys (Bundsgaard & Puck 2016) og
beretninger fra praksis (fx i
Folkeskolen)
har vist, at der er elever, der oplever testsituatonen som utryg og
alt for svær. Præcis hvor mange elever, der er tale om, er der desværre kun få konkrete oplysninger om.
Bundsgaard & Puck rapporterer, at godt 20 % af lærerne oplever at der er en eller fere elever i deres
3
UNU, Alm.del - 2017-18 - Bilag 47: Henvendelse af 4/1-18 fra Jeppe Bundsgaard vedrørende de nationale test
klasse, der er kede af at blive testet. n endnu ikke publiceret undersøgelse af knap 1100 elevers oplevelser
af de natonale test oplyser at 17 % af eleverne synes det er ubehageligt at besvare de natonale test. t
meget forsigtgt gæt er derfor, at det er ca. 20 % af eleverne har dårlige oplevelser med de natonale test.
Begge undersøgelser rapporterer samtdig, at knap halvdelen af eleverne har positve testoplevelser, men
uanset det kan man argumentere for, at antallet af elever med dårlige testoplevelser er for stort. Da et
meget stort antal lærere giver udtryk for, at de betragter testene som en kontrol af deres praksis, og at de
derfor spilder megen værdifuld undervisningstd på at træne eleverne tl testen (såkaldt
teachingsforsthes
test)
vil vi opfordre tl:
at det er lærerens ansvar at vælge sværhedsgraderne på de opgaver, som det adaptve system
udvælger tl eleverne, således at eleverne har fx 75 % sandsynlighed for at svare korrekt på
opgaverne i stedet for 50 % som det er nu. Det vil gøre oplevelsen mindre ubehagelig for eleverne,
men vil betyde at der i givet fald skal besvares fere opgaver og bruges længere td på testen for at
opnå samme sikkerhed som nu.
at lærerne gives mulighed for at vælge, hvilke sværhedsgrader eleverne skal starte med.
at testenes karakter af
highsstakes
(dvs. at lærere og elever potentelt kan imødese sanktoner for
dårlige testresultater) fernes for både elever og lærere. Det kan ske ved at der laves et natonalt
gennemsnit på baggrund af en tlfældigt udvalgt gruppe af klasser, i stedet for at alle klasser indgår
i de natonale gennemsnit. Antallet af elever, der udtrækkes tl dete formål kunne f.eks. svare tl
det antal elever, som PISA-undersøgelserne betragter som tlstrækkeligt tl at vurdere, hvorledes
danske elever klarer sig i pædagogiske test.
Testresuitater er usikre og uforståeiige
Målinger ved hjælp af pædagogiske test er målinger, der altd er behæfet af en vis grad af usikkerhed. Det
er tlsyneladende kommet bag på mange, selvom det en mere end 100 år gammel nyhed, og der har været
meget kritk af usikkerheden ved resultaterne i natonale test. Selvom en stor del af denne kritk er baseret
på en utlstrækkelig viden om, hvad usikkerheden skyldes og betyder, samt af en manglende erkendelse af
at almindelige ikke-adaptve test er præget af større usikkerhed end de natonale test, skal problemerne
med usikkerheden tages alvorligt.
Usikkerheden på testresultaterne skal beskrives, så brugerne kan forstå hvad det handler om. Der
er allerede taget initatver i den retning, men det kan gøres endnu bedre. I de situatoner, hvor
testresultaterne placeres i forhold tl et lille antal kategorier, bør oplysningerne om usikkerheden fx
suppleres med oplysninger om, hvor stor risiko der er, for at en eleven er placeret i en forkert
kategori
På grund af usikkerheden bør testresultater på individniveau ikke deles med andre end kolleger og
evt. skoleledelsen. Heller ikke med forældrene. I forhold tl forældrene fungerer testresultaterne
kun som meget usikre standpunktsprøver.
4
UNU, Alm.del - 2017-18 - Bilag 47: Henvendelse af 4/1-18 fra Jeppe Bundsgaard vedrørende de nationale test
Ministeriets behov for standpunktsprøver skal ikke blandes sammen med og slet ikke dominere
lærernes brug af testene.
Testresultater skal altd ses og vurderes i en kontekst. Det vil sige sammen med alt det, som
læreren ved om eleven.
Der er fere måder at reducere usikkerheden i pædagogiske test.
Den væsentligste faktor tl at reducere usikkerheden i en pædagogisk test er, at forøge antallet af
opgaver.
n anden faktor er at reducere antallet af opgaver, der enten er alt for lete eller alt for vanskelige
for eleven. Det er på dete punkt - og kun på dete punkt - at adaptve test er bedre end
almindelige ikke-adaptve test.
Udover det er vi bekendt med, at ministeriet er i gang med at undersøge, om der er visse
opgavetyper, der bidrager mere tl at reducere usikkerheden end andre opgavetyper, og at
resultaterne ser lovende ud.
For at undgå, at testorløbet starter med opgaver, der er alt for lete eller alt for vanskelige for
eleven, vil det være en fordel, hvis man lader læreren indplacere den enkelte elevs startniveau
således, at de første opgavers sværhedsgrad ligger omkring elevens forventede dygtghedsniveau.
Dete har den klare pædagogiske fordel, at læreren efer testen kan se, om den enkelte elev
vurderes af DNT tl at ligge på det samme niveau, som læreren forventede.
Ønsket om at teste tre proflområder i hvert testorløb, er en betydelig årsag tl den store
usikkerhed. Hvis man sæter antallet af proflområder ned (så testen kun skal give et eller to
resultater), bliver td tl fere opgaver inden for de andre proflområder.
n anden mulighed for at forbedre sikkerheden på resultaterne er at forlænge testden. Men dete
er ikke nødvendigvis en god ide, særligt da DNT opleves som en belastning af mange elever. Ved
mere performance-orienterede test kan det dog sagtens lade sig gøre for eleverne at deltage i test i
længere perioder.
Undersøgelser af testenes reliabilitet har vist at nogle proflområder har meget lav test-retest-
korrelaton. Vi foreslår at ferne sådanne proflområder, fordi en svag korrelaton er et signal om, at
usikkerheden på testene er for stor i forhold tl spredningen af eleverne.
I pædagogiske test vil der altd være en procentdel af eleverne, som har et atypisk testorløb, hvor
i øvrigt svage elever svarer rigtgt på vanskelige opgaver, og dygtge elever svarer forkert på lete.
Inden for Rasch-modellen kan man få et statstsk mål for, hvor godt elevens svar ”passer” med det
forventede forløb, som kaldes
personsit.
Dete mål kan bruges tl at fortælle læreren, at der ikke
bør tllægges resultaterne for stor tllid, og tl at hindre, at testresultaterne indgår i
gennemsnitsberegninger for større grupper af elever.
5
UNU, Alm.del - 2017-18 - Bilag 47: Henvendelse af 4/1-18 fra Jeppe Bundsgaard vedrørende de nationale test
Yderiigere forsiag
Hvis testene gøres frivillige, vil det være en naturlig udvikling, at der løbende udvikles test tl
yderligere områder, således at lærerne får et redskab tl at vurdere, hvordan deres elever klarer sig
inden for fere væsentlige områder af de ganske omfatende fag, de skal undervise i.
Beregning af resultater for større grupper af elever sker i dag på en teknisk set upræcis måde. Man
bør derfor anvende såkaldt plausible værdier i beregningen af gennemsnit osv., så man ikke
undervurderer usikkerheden på estmaterne.
Forskning i pædagogiske test bør intensiveres. Det er tankevækkende, at man samtdig med, at
man fra centralt hold begyndte at udvikle og deltage i pædagogiske test (PISA og DNT), nedlagde
det sektorforskningsinsttut – dvs. Danmarks Pædagogiske Insttut – der havde pædagogiske test
som særligt ansvarsområde. I forhold tl for 25-30 år siden er der næsten ingen forskning inden for
dete område i Danmark. Hvis beslutningstagerne mener det alvorligt, at pædagogiske test er
nytge, bør de tage ansvar for at denne forskning genoptages, i stedet for at forlade sig på at
konsulentirmaer som Rambøll, Cowi, pinon og Damvad nok skal fnde nogen, der kan løse
opgaverne for dem. Vores oplevelse fra samarbejder med sådanne frmaer er, at de sjældent har
været i stand tl selv at løfe opgaven på et fagligt acceptabelt niveau og derfor har været
afængige af, om de kunne fnde fageksperterne.
Lidt om forfaeerne ti deee åbne brev
Svend Kreiner er professor emeritus med speciale i statstk og psykometri og har arbejdet med udvikling of
afprøvning af pædagogiske test i 49 år. Han var konsulent for ministeriet ved udviklingen af DNT og skrev i
den forbindelse fere af de baggrundspapirer, som lå tl grund for udvikling af testens statstske algoritmer.
Han har desuden gennemført fere undersøgelser af testens validitet og forbindelse tl fx PISA. Kreiner har
desuden igangsat en internatonal diskussion af, hvorvidt man på baggrund af PISA-undersøgelsen kan
rangordne lande i forhold tl deres resultater i PISA.
Kontakt: Tlf.: 26 36 52 15. -mail: [email protected]
Jeppe Bundsgaard er professor MSO med speciale i fagdidaktk og it. Han har deltaget som Natonal
Research Coordinator i
InternatonalsComputersandsInformatonsLiteracysStudy,
han er internatonal ekspert
i forbindelse med den nye test af ICT literacy i PISA 2021, og han har deltaget i udvikling af en række
innovatve test af de såkaldte 21. århundredes kompetencer. Han har sammen med Morten Rasmus Puck
gennemført en undersøgelse af danske læreres og skolelederes praksis med, holdninger tl og viden om
natonale test. Han har desuden undersøgt og kritseret natonale test fra et fagdidaktsk perspektv.
Kontakt: Tlf.: 31 19 26 07. -mail: [email protected].
6
UNU, Alm.del - 2017-18 - Bilag 47: Henvendelse af 4/1-18 fra Jeppe Bundsgaard vedrørende de nationale test
Referencer
Bundsgaard, J., & Puck, M. R. (2016).
Natonalestestesdanskeslæreresogsskolelederessrrug sholdningersogs
viden.
København: DPU, Aarhus Universitet.
Kousholt, K. (2015a). Børns gæterier ved natonale test. C PRA-striben. Tidsskrif for evaluering i praksis,
(18), 46-57.
Kousholt, K. (2015b).
Børnssomsdeltageresissocialstestpraksis.
Paedagogisk Psykologisk Tidsskrif, 52(3), 63-
85.
7