Børne- og Undervisningsudvalget 2013-14
BUU Alm.del Bilag 50
Offentligt
1302178_0001.png
1302178_0002.png
1302178_0003.png
1302178_0004.png
1302178_0005.png
1302178_0006.png
1302178_0007.png
1302178_0008.png
1302178_0009.png
1302178_0010.png
1302178_0011.png
1302178_0012.png
1302178_0013.png
1302178_0014.png
1302178_0015.png
1302178_0016.png
1302178_0017.png
1302178_0018.png
1302178_0019.png
1302178_0020.png
1302178_0021.png
1302178_0022.png
1302178_0023.png
1302178_0024.png
1302178_0025.png
1302178_0026.png
1302178_0027.png
1302178_0028.png
1302178_0029.png
1302178_0030.png
1302178_0031.png
1302178_0032.png
1302178_0033.png
1302178_0034.png
1302178_0035.png
1302178_0036.png
1302178_0037.png
1302178_0038.png
1302178_0039.png
1302178_0040.png
1302178_0041.png
1302178_0042.png
1302178_0043.png
1302178_0044.png
1302178_0045.png
1302178_0046.png
1302178_0047.png
1302178_0048.png
1302178_0049.png
1302178_0050.png
1302178_0051.png
1302178_0052.png
1302178_0053.png
1302178_0054.png
1302178_0055.png
1302178_0056.png
1302178_0057.png
1302178_0058.png
1302178_0059.png
1302178_0060.png
1302178_0061.png
1302178_0062.png
1302178_0063.png
1302178_0064.png
1302178_0065.png
1302178_0066.png
1302178_0067.png
1302178_0068.png
1302178_0069.png
1302178_0070.png
1302178_0071.png
1302178_0072.png
1302178_0073.png
1302178_0074.png
1302178_0075.png
1302178_0076.png
1302178_0077.png
1302178_0078.png
1302178_0079.png
1302178_0080.png
1302178_0081.png
1302178_0082.png
1302178_0083.png
1302178_0084.png
1302178_0085.png
1302178_0086.png
1302178_0087.png
1302178_0088.png
1302178_0089.png
1302178_0090.png
1302178_0091.png
1302178_0092.png
1302178_0093.png
1302178_0094.png
1302178_0095.png
1302178_0096.png
1302178_0097.png
1302178_0098.png
1302178_0099.png
1302178_0100.png
1302178_0101.png
1302178_0102.png
1302178_0103.png
1302178_0104.png
1302178_0105.png
1302178_0106.png
1302178_0107.png
1302178_0108.png
1302178_0109.png
1302178_0110.png
1302178_0111.png
1302178_0112.png
1302178_0113.png
1302178_0114.png
1302178_0115.png
1302178_0116.png
1302178_0117.png
1302178_0118.png
1302178_0119.png
1302178_0120.png
1302178_0121.png
1302178_0122.png
1302178_0123.png
1302178_0124.png
1302178_0125.png
1302178_0126.png
Til
Undervisningsministeriet(Kvalitets- og Tilsynsstyrelsen)Dokumenttype
RapportDato
September 2013
EVALUERING AF DENATIONALE TEST IFOLKESKOLENRAPPORT
FOLKESKOLENRAPPORTINDHOLD
1.2.2.12.22.32.3.12.3.22.43.3.13.1.13.1.23.1.33.23.2.13.2.23.2.33.33.3.13.3.23.44.4.14.24.34.45.5.15.1.15.1.25.1.35.1.4
ResuméIndledningOm de nationale testBaggrundOm evalueringenFormålMetode og analysestrategiLæsevejledningTestenes effektEr elevernes faglige niveau styrket efter indførelse af denationale test?Hvordan kan de nationale test tænkes at have effekt?Hvordan undersøges effekten af de nationale test?Hvad viser analyserne af effekten af de nationale test?Er skolernes evalueringskultur styrket efter indførelse af denationale test?Er skolernes evalueringskultur blevet styrket?Hvad er årsagen til den styrkede evalueringskultur?Har de nationale test medvirket til en styrkelse af skolernesevalueringskultur?Er der sammenhæng mellem skolernes evalueringskultur ogelevernes faglige resultater?Fremgangsmåde for dannelse af mål for skolernesevalueringskulturSammenhæng mellem evalueringskultur og faglige resultaterDelkonklusionDe nationale test som pædagogisk værktøjLærernes anvendelse af testresultaterne til vurdering afeleverneLærernes anvendelse af testresultaterne til planlægning afundervisningDe nationale tests indflydelse på lærernes prioritering afundervisningens indholdDelkonklusionTestenes betydning for elever og skole-hjem-samarbejdeEleverneLærernes tilbagemelding til eleverne og opfølgning påresultaterneDe nationale tests betydning for elevernes forståelse af egnestyrker og svaghederDe nationale tests betydning for elevernes (motivation for)læringElevernes oplevelse af testsituationen
13344559101011121418182121303133363839425155575758606061
RambøllHannemanns Allé 53DK-2300 København ST +45 5161 1000F +45 5161 1001www.ramboll.dk
RAPPORT
5.25.2.15.2.25.36.6.16.1.16.1.26.1.36.26.2.16.2.26.2.36.37.7.17.1.17.1.27.1.37.1.47.1.57.1.67.1.77.27.2.17.2.27.2.37.38.8.18.28.38.49.9.19.1.19.1.29.1.39.1.49.29.3Bilag:Bilag 1:Bilag 2:Bilag 3:Bilag 4:Bilag 5:
Skole-hjem-samarbejdeInddragelse af hjemmet i dialog om læringsmålTestresultaternes værdi for forældre i skole-hjem-samarbejdetDelkonklusionDe nationale test som dialog- og styringsredskabAnvendelse af de nationale test som værktøj for skoleledereskvalitetsarbejdeSkolernes evalueringspraksisSkoleledelsens anvendelse af de nationale testBrug af de nationale test som dialog- og styringsredskabDe nationale test som værktøj for kommunerskvalitetsarbejdeKommuners generelle kvalitetsarbejde på skoleområdetKommunernes anvendelse af de nationale testSamarbejde og dialog mellem forvaltning og skolerDelkonklusionTestenes indholdTestenes indhold, udformning og kvalitetFag og profilområderTrinmålOpgaveemnerAntal opgaverOpgavetyperTestopgavernes kvalitetUdvikling af opgaverFordele og ulemper ved det adaptive principKort beskrivelse af det adaptive principTeknisk om det adaptive principØkonomisk om det adaptive principDelkonklusionTestenes udformningDen praktiske tilrettelæggelse af testene på skolerne,herunder selve gennemførelsenDet adaptive princip ud fra et pædagogisk perspektivTilbagemelding til lærerneDelkonklusionKonklusionerTematiske hovedkonklusionerTestenes effektTestenes anvendelseTestenes indholdTestenes udformningTværgående hovedkonklusionPerspektivering
63676768707070717778798087879090909292939394959596969798100100104107112114114114115117118118119
MetodebilagModel for evalueringskulturDetaljeret redegørelse for registeranalyserEkspertvurdering 2 (det adaptive princip)Fagspecifikke opmærksomhedspunkter fra ekspertvurdering 1
Evaluering af de nationale test
1
1.
RESUMÉRambøll Management Consulting (herefter Rambøll) har i perioden november 2012 til september2013 gennemført en evaluering af de nationale test. Evalueringen er udarbejdet på opdrag afKvalitets- og Tilsynsstyrelsen, Undervisningsministeriet. Evalueringen er gennemført i samarbej-de med en række underleverandører. Professor Helena Skyt Nielsen og lektor Simon Calmar An-dersen, Aarhus Universitet, har været ansvarlige for at gennemføre en række registeranalyser afeffekten af de nationale test. Professor Peter Allerup, Aarhus Universitet, har været ansvarlig forat foretage en vurdering af fordele og ulemper ved det adaptive princip. Endelig har lektor Car-sten Bendixen og chefkonsulent Mikael Axelsen, Professionshøjskolen UCC, været sparringspart-nere for Rambøll i forhold til udvikling af en model for evalueringskultur.De nationale test er introduceret som et værktøj til at styrke den løbende evaluering i folkesko-len. Eleverne skal i løbet af deres skoletid gennemføre 10 obligatoriske nationale test inden forforskellige fag. Testene er it-baserede, selvscorende og adaptive. Sidstnævnte betyder, at teste-ne tilpasser sig den enkelte elevs niveau undervejs i testforløbet. De nationale test blev lanceret ifuldt omfang i 2010.Formålet med evalueringen er at vurdere, om de nationale test som pædagogisk værktøj harstyrket skolernes evalueringskultur og elevernes faglige niveau. Evalueringen skal belyse positivesåvel som negative effekter af indførelsen af de nationale test i forhold til formålet med testene.Rambøll har i nærværende evaluering kortlagt, analyseret og vurderet de nationale test i forholdtil følgende temaer: Effekt, anvendelse, indhold og udformning. Data er indsamlet ultimo 2012 ogi første halvdel af 2013, og evalueringen er således udtryk for status for testenes implementeringog effekt på dette tidspunkt. Evalueringen har haft sit hovedfokus på at vurdere, hvordan testeneanvendes i praksis, samt eventuelle resultater og effekter heraf.Metodisk er der anvendt et evalueringsdesign, der kombinerer effektevaluering og virkningseva-luering. Herved opnås viden om resultater og effekter, og tilsvarende en afdækning afhvordanoghvorforeventuelle effekter er skabt. Datagrundlaget for evalueringens observationer, vurde-ringer og konklusioner er omfattende. De anvendte datakilder omfatter desk research, register-data, spørgeskemaundersøgelser til lærere, skoledere og forvaltninger, casestudier, inddragelseaf eksperter samt et internationalt litteraturstudie om det adaptive princip. Datakvaliteten vurde-res, samlet set, at være særdeles god.I forhold til evalueringens første tema,testenes effekt,indikerer analysen, at indførelsen af denationale test har haft en positiv effekt på elevernes faglige resultater. Evaluator har ved hjælpaf registerdata gennemført analyser på elev-, skole- og landsniveau, og data indikerer, at de na-tionale test har en positiv effekt på elevernes faglige niveau. Resultaterne tyder endvidere på, atdenne effekt ikke alene skyldesteaching to the test,eller at eleverne blot er blevet bedre til atgennemføre testene, men at de faktisk er blevet dygtigere til det fag, de er blevet testet i. Dethar dog alene været muligt at se på effekten af et midlertidigt teknisk nedbrud i dansk, læsning,og det vil – når data for testresultater fra 2013 bliver tilgængelige – være muligt at undersøge,om den samme effekt ses i matematik. Evalueringen konkluderer videre, at skolernes evalue-ringskultur ser ud til at være styrket i de senere år, samt at der er flere indikationer på, at de na-tionale test har medvirket til at styrke skolernes evalueringskultur. Det er dog samtidig evalua-tors vurdering (som det anføres i lovbemærkningerne), at det ikke er de nationale test alene, derskaber en stærkere evalueringskultur. Det er derimod helheden i anvendelsen af nationale test isamspil med en række evalueringsværktøjer, samt en stærk ledelse, der understøtter en stærkevalueringskultur.Evalueringstemaettestenes anvendelseomfatter en analyse af en række aktørers anvendelse,oplevelse og vurdering af de nationale test. Selv om der er flere forskelle mellem læreres og sko-lelederes vurdering af de nationale test (herunder betydning af testene), er der flere fællesnæv-nere mellem lærernes og skoleledernesanvendelseaf de nationale test. Den overordnede kon-klusion er, at størstedelen af lærerne og skolelederne anvender de nationale test i henholdsvis enpædagogisk og ledelsesmæssig sammenhæng. Det er endvidere en fællesnævner, at både lærere
Evaluering af de nationale test
2
og ledere i overvejende grad bruger testresultatersummativt,dvs. til at skabe overblik og moni-torere det faglige niveau blandt elever, klasser og skolen som helhed. Den fremadrettede (forma-tive) anvendelse, som var tiltænkt i lovgivningen, sker (indtil videre) i langt mindre omfang. Der-udover er det en hovedkonklusion, at testresultater sjældent står alene som redskab i en evalue-ringskultur. Evalueringen viser videre, at kommunerne anser de nationale test som en væsentligindikator til at vurdere skolernes faglige resultater, men de nationale test er blot ét ud af flereværktøjer, og mange kommuner delegerer typisk ansvaret for opfølgning på testresultater tilskolelederne. Endelig konkluderer evalueringen, at de nationale test i nogen grad har styrketskole-hjem-samarbejdet, samt at eleverne overordnet set er positivt indstillede over testene. Envæsentlig konklusion er dog, at individuel tilbagemelding til og dialog med eleven om testresulta-ter kun sker i begrænset omfang.Hvad angårtestenes indhold,konkluderer evalueringen, at valg af testfag og profilområdersamlet set synes hensigtsmæssige. Tilsvarende afspejler testene i hovedtræk testegnede trinmål.Det er endvidere en hovedkonklusion, at der inden for flere testfag er mangel på svære opgaver iopgavebanken. Evalueringen peger på flere opmærksomhedspunkter i forhold til testopgaverne,såvel fagfaglige som relateret til layout, grafik samt brug af illustrationer. Det konkluderes viderepå baggrund af evalueringens litteraturstudie, at det adaptive princip sikrer, at de nationale testfremskaffer sikker viden om elevens faglige niveau med høj præcision og med færrest mulige op-gaver. Samtidig konstateres det, at de adaptive test er betydeligt mere ressourcekrævende endlineære test, og systemet har en lav agilitet og fleksibilitet.Testenes udformningomfatter en analyse af rammerne for testafvikling ud fra flere perspekti-ver. Evalueringen viser, at afviklingen af de nationale test (herunder den praktiske forberedelse)fungerer på tilfredsstillende vis. Det medgåede tidsforbrug udgør generelt set heller ikke en ud-fordring. Evalueringen viser, at der er en klar tidsmæssig gevinst ved at gennemføre it-baseredetest, når man sammenholder med papirbaserede test. Det skyldes, at de nationale test automa-tisk genererer et resultat, hvorfor lærerne sparer rettetid. Hvad angår det adaptive princip vurde-ret ud fra et pædagogisk perspektiv, er konklusionen, at størstedelen af lærerne ser dette som enfordel for eleverne og deres testafvikling. Dette understøttes af litteraturstudiet. Der peges dogsamtidig på en række ulemper relateret til elevernes oplevelse af de nationale test. Endelig viserevalueringen, at testsystemets muligheder for at vise resultater (resultatvisningen) umiddelbarter brugervenlig, men der er et ønske om, at resultaterne kan vises på måder, der i endnu højeregrad kan understøtte lærernes arbejde med at implementere resultaterne/arbejde med disse pæ-dagogisk.Evalueringenssamlede konklusioner, at de nationale test har en positiv effekt på elevernesfaglige niveau, samt at de nationale test i nogen grad har været en medvirkende årsag til enstyrket evalueringskultur, der har udviklet sig i folkeskolen i de senere år. I sammenhæng her-med konkluderer evaluator, at det ikke er de nationale test alene, der har resulteret i en stærke-re evalueringspraksis. De nationale test har været en del af en bredere skoleudvikling, der i høje-re grad end tidligere er kendetegnet ved systematik, dokumentation af resultater og (i nogengrad) fastsættelse af mål. Evalueringen viser samtidig, at der er en række af de opstillede hypo-teser, relateret til de nationale test, som evaluator ikke har kunnet bekræfte baseret på den ind-samlede empiri. Med andre ord er der flere forbedringspunkter, der kan styrkes fremadrettet. Irelation til såvel den pædagogiske som styringsmæssige anvendelse er den væsentligste udfor-dring at anvende testresultaterfremadrettet(formativt) til tilrettelæggelse af undervisning, øgetdialog og målretning af indsatsen.Evaluator har som afslutning på evalueringen udarbejdet enperspektiveringmed en rækkeopmærksomhedspunkter af relevans for den fremtidige udvikling af de nationale test.
Evaluering af de nationale test
3
2.
INDLEDNINGEvalueringen af de nationale test er gennemført af Rambøll i samarbejde med en række underle-verandører. Professor Helena Skyt Nielsen og lektor Simon Calmar Andersen, Aarhus Universitet,har været ansvarlige for at gennemføre en række registeranalyser af effekten af de nationaletest. Professor Peter Allerup, Aarhus Universitet, har været ansvarlig for at foretage en vurderingaf fordele og ulemper ved det adaptive princip. Endelig har lektor Carsten Bendixen og chefkon-sulent Mikael Axelsen, Professionshøjskolen UCC, været sparringspartnere for Rambøll i forhold tiludvikling af en model for evalueringskultur1.Evalueringen er gennemført på opdrag for Kvalitets- og Tilsynsstyrelsen, Undervisningsministeri-et, i perioden fra november 2012 til september 2013.Målgruppen for evalueringsrapporten er Kvalitets- og Tilsynsstyrelsen, der har fungeret som op-dragsgiver for evaluator. Derudover er det politiske niveau en relevant målgruppe, da rapportenskal danne grundlag for en redegørelse til Folketinget ultimo 2013. Også kommuner og skolermed interesse i effekten og anvendelsen af de nationale test kan have glæde af at læse rappor-ten.Evaluator vil gerne benytte lejligheden til at takke alle de kommuner og skoler, der har deltaget inærværende evaluering. Vi har gennemført omfattende dataindsamling med stor involvering afde kommunale forvaltninger såvel som skoleledere, lærere, elever og forældre, og dataindsam-lingen skulle for skolernes vedkommende passes ind i en i forvejen travl hverdag. Det er evalua-tors oplevelse, at vi er blevet mødt med stor interesse, samarbejdsvilje og hjælpsomhed, hvilkethar bidraget til at skabe en god proces samt et solidt datagrundlag for evalueringen.
2.1
Om de nationale testDe nationale test er introduceret som et værktøj til at styrke den løbende evaluering af elevernesudbytte af undervisningen i folkeskolen. De nationale test skal fungere som et pædagogisk red-skab for lærerne, og testresultaterne skal bidrage til den videre tilrettelæggelse af undervisnin-gen2. Derudover skal de nationale test fungere som værktøj i skolelederes og kommuners kvali-tetsarbejde.De nationale test tester elevernes kundskaber og færdigheder med henblik på at give lærerne etindblik i den enkelte elevs niveau. Eleverne skal i løbet af deres skoletid gennemføre 10 obligato-riske nationale test inden for forskellige fag. Tabellen nedenfor giver et overblik over de fag ogklassetrin, hvor der skal gennemføres obligatoriske test.Tabel 2.1: Oversigt over nationale test
Fag og klassetrinDansk, læsningMatematikEngelskGeografiBiologiFysik/kemi
2.x
3.
4.x
5.
6.xx
7.
8.x
x
xxxx
De nationale test er kendetegnede ved at være:It-baserede – eleverne besvarer testene på en computerSelvscorende – lærerne skal ikke selv rette testene, men får leveret resultaterneAdaptive – testene tilpasser sig den enkelte elevs niveau undervejs i testforløbet.
12
I den resterende del af rapporten bruges "evaluator" som samlet betegnelse for disse parter.www.uvm.dk.
Evaluering af de nationale test
4
De nationale test tester udvalgte områder i de enkelte fag (profilområder), og testenes funktioner således først og fremmest at vurdere elevernes faglige niveau inden for hvert af disse områ-der3.I skoleåret 2011/2012 blev der gennemført ca. 529.000 obligatoriske test og ca. 420.000 frivilli-ge test over hele landet. Der gennemføres således et stort antal frivillige test som supplement tilde obligatoriske test. En frivillig test kan gennemføres på det klassetrin, den er målrettet mod,men også på klassetrinnet over og under. Det skal i den sammenhæng bemærkes, at de friegrundskoler også har mulighed for at gennemføre frivillige test.2.2BaggrundI 2006 besluttede Folketinget at indføre nationale test i den danske folkeskole. Det skete ikkemindst på baggrund af en OECD-rapport fra 2004, der pegede på, at evalueringskulturen i dendanske folkeskole var utilstrækkelig4. Rapportens konklusion blev understøttet af to samtidigeevalueringsrapporter fra Danmarks Evalueringsinstitut (EVA)5, der også pegede på, at der savne-des dokumentation af folkeskolens arbejde og af elevernes udbytte af undervisningen.OECD-rapporten konkluderede, at etableringen af en ny evalueringskultur sikkert er den enkelt-forandring, der er mest vigtig at opnå, hvis andre initiativer skal kunne indføres, så de får virk-ning, og standarderne hæves. Svaret på denne evalueringsudfordring blev bl.a. indførelse af 10nationale test under overskriften "Fremme af evalueringskulturen", en indførelse af kommunalekvalitetsrapporter og elevplaner samt en præcisering af, at den løbende evaluering af elevensudbytte af undervisningen skal ses i forhold til trin- og slutmål for de enkelte fag. De to sidst-nævnte initiativer understreger det øgede fokus på styrkelse af elevernes faglige niveau, som og-så indførelsen af de nationale test var udtryk for. Som en del af projektet "Fremme af evalue-ringskulturen" blev der lanceret en evalueringsportal med en lang række evalueringsværktøjer oginspirationsmateriale, der skulle understøtte lærernes brug af de nationale test samt lærernes,skolernes og kommunernes evalueringspraksis generelt6.Det fremgår af bemærkningerne til Forslag til Lov om ændring af lov om folkeskolen (Styrketevaluering og anvendelse af nationale test som pædagogisk redskab samt obligatoriske prøvermv.7), at det overordnede mål med indførelse af testene er en forbedring af det faglige niveaumed henblik på at give alle elever mulighed for at opnå sikre kundskaber og færdigheder, somsætter dem i stand til at gennemføre en ungdomsuddannelse, når de har afsluttet folkeskolen.Det fremgår samtidig af lovbemærkningerne, at det er en forventning, at man ved at indføre na-tionale test vil styrke skolernes evalueringskultur og dermed på sigt elevernes faglige niveau. Deter denne sammenhæng, der belyses i nærværende evaluering.Det var et omfattende udviklingsarbejde og lovforberedende arbejde, der lå forud for lanceringenaf de nationale test. Det er værd at bemærke, at lancering og implementering af de nationaletest i årene 2006-2010 var genstand for stor debat og bevågenhed i medier, politisk og ikkemindst i skolen bredt set. En ambitiøs tidsplan, tekniske udfordringer og en grundlæggende de-bat om nødvendigheden af nationale test medførte, at projektets implementering oplevede bety-delig turbulens indtil den endelige lancering i foråret 20108. Det skal understreges, at driften aftestsystemet i dag er velfungerende.2.3Om evalueringenDette afsnit redegør for evalueringens formål og på overordnet niveau for evalueringens metodeog datakilder. For en mere detaljeret beskrivelse af metode og datakilder henvises til evaluerin-gens bilag.345
www.uvm.dkOECD-rapport om grundskolen i Danmark, OECD, 2004.Undervisningsdifferentiering i folkeskolen, Danmarks Evalueringsinstitut, 2004 og Løbende evaluering af elevernes udbytte af under-Evalueringsportalen er i dag nedlagt, og artikler og værktøjer er lagt ind på Undervisningsministeriets hjemmeside.Herefter anvendes betegnelsen ”Lovforslag om de nationale test”.Rigsrevisionens beretning om de nationale test fra 2010 indeholder en oversigt over de milepæle, som projektet har gennemgået,
visningen i folkeskolen, Danmarks Evalueringsinstitut, 2004.678
se http://www.rigsrevisionen.dk/media(1438,1030)/05-2009.pdf.Evaluering af de nationale test
5
2.3.1
Formål
Formålet med evalueringen er at vurdere, om de nationale test som pædagogisk værktøj harstyrket skolernes evalueringskultur og elevernes faglige niveau.Med udgangspunkt i dette overordnede formål definerer kommissoriet for evalueringen 16 evalu-eringsspørgsmål, der falder inden for følgende fire temaer:TemaTemaTemaTema1:2:3:4:TestenesTestenesTestenesTesteneseffektanvendelseindholdudformning.
For oversigt over samtlige evalueringsspørgsmål henvises til bilag 1.2.3.2Metode og analysestrategi
Analyse af effekt og årsagssammenhængeNærværende evaluering undersøger sammenhængen mellem nationale test og skolernes evalue-ringskultur samt elevernes faglige resultater, jf. formålet ovenfor. Disse analyser skal belyse,hvorvidt anvendelsen af de nationale test som et pædagogisk værktøj har styrket skolernes eva-lueringskultur og herigennem elevernes faglige niveau.Analysen af årsagssammenhænge er i evalueringen omsat til følgende tre selvstændige analyser:1. I den første analyse udføres der en række regressionsanalyser, der sammenligner fagligeresultater mellem elever, der har deltaget i nationale test, og elever der ikke har deltaget inationale test. Variationen skabes ved at analysere testresultater for elever, der går på for-skellige årgange og derfor adskiller sig mht. deltagelse i test. Ligeledes analyserer vi, om derer forskelle på resultater hos elever, der har været udsat for testnedbrud9og altså ikke fikrespons på deres resultat, og elever, der deltog i testen og således fik mulighed for at fåfeedback på deres præstation.2. I en anden analyse søger vi via spørgeskemaundersøgelser at vurdere, om skolernes evalue-ringskultur er styrket efter indførelse af nationale test. Dette sker bl.a. ved at spørge skolerneom deres evalueringskultur har ændret sig over tid, samt ved at inkludere et mindre antalspørgsmål, der er anvendt i en spørgeskemaundersøgelse, inden de nationale test blev ind-ført10. Skolernes svar uddybes ved dybdegående casestudier, og der sammenlignes med tidli-gere studier af danske skolers evalueringskultur for at vurdere, om der er sket en eventuelforbedring.3. I den tredje form for analyse kombineres spørgeskemadata om skolernes evalueringskulturmed testresultater. Metodisk set foretages en korrelationsanalyse for at undersøge, hvorvidtder er en sammenhæng mellem styrken af skolernes evalueringskultur og elevernes fagligeresultater.Der henvises til bilag 1 og 3 for en detaljeret beskrivelse af de anvendte tilgange til at afdækkeeffekten af de nationale test.Kombination af effektevaluering og virkningsevalueringFor at kunne undersøge ovenstående årsagssammenhænge har evaluator til nærværende evalue-ring udviklet et evalueringsdesign, der kombinerer virkningsevaluering og effektevaluering, menstilgangencontribution analysisdanner rammen for analysen11. Evalueringsdesignet er udviklet
9
Begrebet “nedbrud” (eller lignende begreber) bruges som betegnelse for et midlertidigt teknisk nedbrud i testsystemet, der fandt
sted i en kortere periode primo marts måned 2010. Det skal understreges, at driften af testsystemet efter evaluators oplysninger ge-nerelt er velfungerende.10
The Impact of Public Management Reforms on Student Performance in Danish Schools, Public Administration, Vol. 86, No. 2, pp.Addressing Attribution Through Contribution Analysis: Using Performance Measures Sensibly, The Canadian Journal of Program Eval-
541-558, Simon Calmar Andersen, 2008.11
uation, Vol. 16 (1), pp. 1-24., John Mayne, 2001.Evaluering af de nationale test
6
med henblik på at kunne etablere viden om effekter af nationale test samt systematiske sam-menhænge til forklaring af, hvordan effekter er skabt. Dette uddybes nedenfor.Evalueringstilgangen contribution analysis er udviklet med henblik på at sandsynliggøre sam-menhængen mellem indsats og effekt i situationer, hvor det ikke er muligt at etablere en evalue-ringstilgang med brug af eksperimentelt design. I forhold til de nationale test er det ikke muligtat lave et randomiseret kontrolleret forsøg, da alle folkeskoler i henhold til loven skal gennemførenationale test. En indsatsgruppe og kontrolgruppe kan derfor ikke etableres. Contribution analy-sis-perspektivet kan imidlertid bidrage til at sandsynliggøre, i hvilken grad effekt kan tilskrivesden pågældende indsats, og via udvikling af en forandringsteori identificeres endvidere de fakto-rer, som forventes at lede frem til de endelige mål.For at kunne sandsynliggøre årsagssammenhænge benytter contribution analysis teoribaseretevalueringsmetode med definition af en forandringsteori for årsag-virkningskæder samt opstillingaf hypoteser om drivkræfter og barrierer for at realisere antagelserne i forandringsteorien. End-videre kræver contribution analysis opstilling af alternative forklaringer på en positiv eller negativeffekt, der kan testes og dermed bidrage til at be- eller afkræfte forandringsteoriens vs. alterna-tive forklaringers kraft som drivende for de skabte effekter. Evaluator har på denne baggrundudviklet en forandringsteori med to spor: et spor med fokus på lærerne og den pædagogiskepraksis og et spor med fokus på styring og ledelse. Med afsæt heri har evaluator endvidere ud-viklet en række hypoteser, der løbende testes i evalueringens analyser. Forandringsteori(er) oghypoteser er præsenteret i bilag 1.Model for evalueringskulturSom en del af evalueringsdesignet har evaluator operationaliseret begrebet evalueringskultur irelation til evalueringen af de nationale test og udviklet en model herfor. Modellen er præsenteretnedenfor og beskrives nærmere i bilag 2.Operationaliseringen er sket med henblik på at kunne anskueliggøre og sandsynliggøre de nævn-te årsagssammenhænge, herunder både for at kunne undersøge hvorvidt evalueringskulturen erstyrket ved brug af de nationale test, og for at kunne undersøge testene som bidragende årsag tilstyrket fagligt niveau hos eleverne. Modellen bliver således brugt til at vurdere, om der er sam-menhæng mellem graden af skolernes evalueringskultur og skolernes faglige resultater, og dengiver samtidig et billede af, i hvor høj grad lærere, skoler og kommuner arbejder systematiskmed de nationale test. Jo højere grad af systematik, jo stærkere evalueringskultur.Modellen kan læses både vertikalt og horisontalt og afspejler dermed to forskellige dimensioneraf evalueringskultur. En vertikal læsning af modellen viser en progression i aktørernes brug af re-sultatet af de nationale test gående fra monitorering alene til aktiv fremadrettet anvendelse påbaggrund af samarbejde og dialog. En horisontal læsning af modellen afspejler en udvikling isammenhængen mellem de tre aktørers arbejde med evaluering. Jo højere placeret en skole er imodellen, jo stærkere sammenhæng (eller overensstemmelse) er der mellem aktørernes arbejdemed evaluering.Af hensyn til overskuelighed indgår faglige vejledere, forældre og elever ikke direkte som aktø-rer, men de er implicit tænkt ind både i relation til lærer- og skoleledersøjle.
Evaluering af de nationale test
7
Figur 2.1: Model for evalueringskultur
LærerAktørfokusNiveau 4Pædagogisk udvikling(Undervisning)Kollegialt samarbejde omformativ anvendelse af NTsom ét blandt flere evalue-ringsredskaber mhp. under-visningsdifferentiering.
LederForandringsledelse(Ledelse af pædagogiskudvikling)Organisatorisk reflekteretanvendelse af NT som étblandt flere evaluerings-redskaber mhp. på udvik-ling af skolens undervis-ning.
Kommune
StyringFormativ anvendelse af ogdialog om NT og øvrigeevalueringsresultater mhp.at målrette skolernes fagli-ge og pædagogiske arbej-de.
Niveau 3
Delvist kollegialt samarbejdeog delvis formativ anvendel-se af NT som ét blandt flereevalueringsredskaber mhp.På undervisnings-differentiering.
Organiseret kollegialt sam-arbejde mhp. formativ an-vendelse af NT som étblandt flere evaluerings-redskaber.
Delvis formativ anvendelseaf og begrænset dialog omNT mhp. at målrette sko-lernes faglige og pædago-giske arbejde.
Niveau 2
Klasserumsbaseret monitore-ring.Summativ anvendelse af na-tionale test som enkeltred-skab.Elevbaseret monitorering afNT som enkeltredskab.
Skolebaseret monitorering.Summativ anvendelse afNT som enkeltredskab.
Kommunal monitorering.Summativ anvendelse afnationale test som enkelt-redskab.
Niveau 1Monitorering af NT somenkeltredskab.Monitorering af NT somenkeltredskab.
Modellen har i evalueringen endvidere fungeret som udgangspunkt for udarbejdelse af spørge-skemaer, interviewguides til casestudier og effektanalyser.DokumentationsgrundlagFor at kunne belyse evalueringens fire temaer omfatter evalueringsdesignet brug af såvel kvanti-tative som kvalitative samfundsvidenskabelige metoder. Evalueringen baserer sig på et omfat-tende datamateriale, der er indsamlet gennem de dataindsamlingsaktiviteter, der fremgår af ta-bellen nedenfor.Tabel 2.2: Dataindsamlingsaktiviteter
DatakildeDesk researchRegisteranalyserSpørgeskema-undersøgelser
BeskrivelseGennemgang af relevant lovgivning, baggrundsmateriale, undersøgelser og forsk-ning.Regressionsanalyser af elevers resultater i nationale test, afgangsprøver mv. medhenblik på at vurdere effekten af de nationale test.Spørgeskemaundersøgelser blandt forvaltninger, skoleledere og lærere med hen-blik på at identificere og forklareeventuelle sammenhænge mellem indførelsen afde nationale test og hhv. evalueringskultur og elevernes faglige niveau. Dertilkommer afdækning af en lang række øvrige dimensioner af de nationale test.Casestudier af to dages varighed på 10 skoler med interview med skoleledere, læ-rere, faglige vejledere, forældre, elever og forvaltningsrepræsentanter samt ob-servation af afvikling af de nationale test.Evaluator har i samarbejde med en række faglige eksperter vurderet indholdet afde nationale test med henblik på at identificere og beskrive indholdsmæssigestyrker og svagheder.
Casestudier
Ekspertvurdering 1 og2 (testenes indhold)
Evaluering af de nationale test
8
Sammenfattendehviler evalueringen på et omfattende datamateriale, der har sikret, at evalue-ringsspørgsmålene er belyst ved hjælp af forskellige perspektiver og datakilder. Generelt har da-tatriangulering således været et grundlæggende princip i vores analyse af data og efterfølgendevurdering og konklusion i relation til evalueringsspørgsmålene.DatakvalitetEvaluator vurderer, at datakvaliteten i nærværende evaluering samlet set er særdeles god. Eva-lueringen bygger på et omfattende datagrundlag og gør brug af såvel kvantitative som kvalitativedata.Dekvantitative data(registeranalyser og spørgeskemaundersøgelser) bidrager overordnet set tilat indsamle viden i bredden og til at etablere den kausale sammenhæng mellem indsats og effekt(effektevaluering). Testresultater og karakterer i afgangsprøver er anvendt som datakilder til atvurdere effekt og årsagssammenhænge.Registeranalyserne er udført ved at anvende registerdata i form af anonymiserede baggrundsop-lysninger fra Danmarks Statistik samt oplysninger om faglige resultater i nationale test samt fol-keskolens afgangsprøver fra UNI-C. Fordelene ved registerdata er, at de er indsamlet på konsi-stent vis over tid, de kan kobles til andre datakilder via cpr-nummer og giver mulighed for at føl-ge individer over tid. Der er benyttet anonymiserede registerdata fra Danmarks Statistik til atsammenligne den sociale baggrund for de elever, der gennemførte testen, med de elever, der ik-ke gennemførte på grund af det midlertidige nedbrud. Denne analyse bekræfter antagelsen, atdet var tilfældigt, hvilke elever der blev ramt af nedbrud. Således har vi et grundlag for at laveen robust analyse af forskelle i faglige resultater mellem elevernes faglige resultater og kan til-lægge eventuelle forskelle deres deltagelse i de nationale test.Spørgeskemaundersøgelserne er gennemført med høje svarprocenter for forvaltning, skoleledereog lærere. Mellem 59 og 80 pct. for hver af de tre respondentgrupper har besvaret spørgeske-maet. Dertil kommer, at spørgeskemaundersøgelsen blandt forvaltningen dækker næsten allekommuner i Danmark og således næsten udgør en totalundersøgelse. Samlet set medfører dehøje besvarelsesprocenter et repræsentativt kvantitativt datagrundlag, der bidrager til at sikre enhøj datakvalitet.De kvalitative data(casestudier, internationalt litteraturstudie og ekspertseminarer) bidrager tilat indsamle dybdegående viden om anvendelse, indhold og udformning af de nationale test. Merespecifikt anvendes de kvalitative data til at belyse, forstå og forklare de kontekstuelle faktorer,der kan sandsynliggøre, hvorvidt effekter kan tilskrives indsatsen (virkningsevaluering).Der er gennemført 10 casestudier af to dages varighed. De 10 cases er udvalgt, så der sikresdybdegående kvalitativ viden fra forskellige typer skoler. Der er sikret spredning i relation til deaf evaluator udvalgte kriterier. Casestudierne er gennemført som en kombination af interview ogobservation. Interviewene sikrer, at der er indsamlet viden om de nationale test fra alle de invol-verede parter, mens observationerne bidrager med viden om praksis i relation til gennemførelsenaf de nationale test.Vurderingen af indholdet af de nationale test omfatter en vurdering af fordele og ulemper ved detadaptive princip samt en vurdering af styrker og svagheder ved udformning og indhold af testop-gaver. Disse analyser forudsætter indgående teknisk og faglig indsigt, hvorfor evaluator har gen-nemført disse i samarbejde med førende eksperter på de pågældende områder. Dette bidrager tilat sikre kvaliteten af disse analyser.Kombination af kvantitative og kvalitative data giver et solidt grundlag for metodetriangulering,hvilket er et grundlæggende princip i tilgangen til evalueringen. Metodetriangulering giver mulig-hed for at belyse evalueringens temaer og evalueringsspørgsmål gennem såvel datakilder (fx læ-rere, skoleledere og forvaltningsrepræsentanter) som dataindsamlingsmetoder (fx spørgeskema-undersøgelser, casestudier mv.). Denne grundlæggende tilgang øger evalueringens validitet.
Evaluering af de nationale test
9
2.4
LæsevejledningRapporten indeholder foruden resumé og nærværende indledning seks analysekapitler og et kon-kluderende kapitel. Kapitlerne ser ud som følger:Kapitel 3 består af en analyse afde nationale tests effektpå elevernes faglighed og sko-lernes evalueringskultur samt sammenhængen herimellem (evalueringens tema 1)Kapitel 4, 5 og 6 indeholder delanalyser afde nationale tests anvendelse.Kapitel 4 omfat-ter den pædagogiske anvendelse af de nationale test, kapitel 5 undersøger forældre og ele-vers oplevelse af de nationale test, og i kapitel 6 undersøges de nationale test som dialog- ogstyringsredskab (evalueringens tema 2)Kapitel 7 består af en analyse afde nationale tests indhold,herunder udformning og ind-hold af testopgaver samt fordele og ulemper ved det adaptive princip (evalueringens tema 3)Kapitel 8 indeholder en analyse afde nationale tests udformning,herunder den praktisketilrettelæggelse af testene på skolerne (evalueringens tema 4)Kapitel 9 består af evalueringenskonklusionerpå tværs af de seks analysekapitler og inde-holder dermed en samlet besvarelse af evalueringsspørgsmålene. Dertil kommer en perspek-tivering af evalueringens resultater.
Rapportens bilagsmateriale omfatter en uddybende metodebeskrivelse (bilag 1), en model forevalueringskultur (bilag 2), en detaljeret redegørelse for registeranalyser (bilag 3), et selvstæn-digt notat om ekspertvurdering 2 (bilag 4) og fagspecifikke opmærksomhedspunkter fra ekspert-vurdering 1 (bilag 5).
Evaluering af de nationale test
10
3.
TESTENES EFFEKTI dette kapitel besvares en række evalueringsspørgsmål, der er rubriceret under det følgendeoverordnede evalueringstema:Testenes effekt.Kapitlet indeholder således en samlet analyse afde effekter, som indførelsen af de nationale test har haft, ved at undersøge sammenhængenmellem nationale test og skolernes evalueringskultur samt elevernes faglige resultater.De forskellige årsagssammenhænge, der analyseres i kapitlet, fremgår af figur 3.1 nedenfor. Foren grundig beskrivelse af analysestrategien henvises til kapitel 2 samt metodebilaget (bilag 1).Figur 3.1: Analyse af årsagssammenhænge
Indførelse afnationale test
Forbedrede fagli-ge resultater
Styrket evalue-ringskultur
Kapitlet indledes med en analyse af, hvorvidt elevernes faglige niveau er styrket efter indførelsenaf de nationale test. Dernæst undersøges det, hvorvidt skolernes evalueringskultur er styrket ef-ter indførelsen af de nationale test. Disse to analyser er de centrale i evalueringens effektanaly-se, idet de relaterer sig direkte til besvarelsen af de to evalueringsspørgsmål omhandlende effektfra evalueringens opdrag.Derudover har evaluator foretaget en supplerende analyse af sammenhængen mellem skolernesevalueringskultur og elevernes faglige resultater (markeret med stiplet linje i figuren ovenfor).Denne analyse bidrager til at belyse, hvorvidt anvendelsen af de nationale test som et pædago-gisk værktøj har styrket skolernes evalueringskultur og herigennem elevernes faglige niveau.Analyserne i nærværende kapitel er samlet set baseret på et datagrundlag bestående af følgen-de:Testresultater fra de obligatoriske nationale test i 2010, 2011 og 2012Resultater fra folkeskolens afgangsprøverData om elevernes socioøkonomiske baggrundSpørgeskemaundersøgelser til kommunale forvaltninger, skoleledere samt lærere med er-faring inden for testfagOmfattende casestudier på udvalgte skolerDesk research af relevant forskning, undersøgelser mv.Kapitlet er bygget op om hver af de nævnte sammenhænge, således at kapitlet besvarer hvert afde evalueringsspørgsmål, der relaterer sig til testenes effekt. I kapitlets delkonklusion foretagesen samlet vurdering af de overordnede effekter ved indførelse af de nationale test.3.1Er elevernes faglige niveau styrket efter indførelse af de nationale test?Som det fremgår af lovbemærkningerne til lovforslaget om de nationale test, er det overordnedeformål med indførelsen af testene en forbedring af elevernes faglige niveau. I sidste ende er må-let at give alle elever mulighed for at opnå sikre kundskaber og færdigheder, som sætter dem istand til at gennemføre en ungdomsuddannelse, når de har afsluttet folkeskolen. Således er én afevalueringens nøglehypoteser, at anvendelsen af nationale test styrker elevernes faglige niveau.I det følgende vil det blive efterprøvet, om denne sammenhæng kan bekræftes12.
12
Der henvises til evalueringens forandringsteori og tilhørende hypoteser i bilag 1.
Evaluering af de nationale test
11
3.1.1
Hvordan kan de nationale test tænkes at have effekt?
Nationale test kan i princippet have effekt på både den enkelte elev, på skolen og på landsplan.Den enkelteelevkan blive dygtigere af at skulle gennemføre en test. Laboratorieforsøg har do-kumenteret, hvordan elever bedre kan huske en tekst, hvis de er blevet testet i teksten (uden atfå at vide, om de svarede rigtigt), end hvis de har fået tid til at repetere teksten. Så selve det atgennemføre en test kan hjælpe til at huske det, man er blevet testet i13. Den enkelte elev kan og-så blive bedre til at gennemføre nationale test ved at have prøvet det før. Således kan der delsvære en øget fortrolighed med den it-baserede adaptive testform eller – for nogens vedkommen-de – at blive testet i det hele taget, ligesom der kan være en effekt af at have stiftet bekendtskabmed typen af opgaver. Endvidere kan der opstå en effekt for den enkelte elev, fordi læreren (ogeleven) ved hjælp af resultaterne af testen kan se, hvor eleven har behov for at blive dygtigereog efterfølgende indrette undervisningen, så den svarer til den enkelte elevs behov og forudsæt-ninger. Den sidste antagelse om, at lærerens pædagogiske anvendelse af testresultaterne skaberen forbedret faglig indlæring hos eleverne, står centralt i evalueringens forandringsteori. Derud-over er der i forandringsteorien formuleret en forventning om, at lærerens tilbagemelding omtestresultaterne gør eleven mere bevidst om egne faglige styrker og svagheder og medvirker tilat motivere eleven til at lære.skoleniveaukan der opstå en effekt af de nationale test i den forstand, at skolens lærere sam-let set bliver bedre til at få deres elever til at præstere godt. Det kan skyldes, at lærerne for hvertest får øget kendskab til, hvilke typer spørgsmål testen stiller, og på den baggrund kan indretteundervisningen på, at eleverne bliver gode til at besvare netop den type spørgsmål. Dette øgedekendskab vil spredes på skolen. For det første vil informationen blive delt blandt lærerne på læ-rerværelset og således potentielt påvirke undervisningen hos lærere, som endnu ikke selv har seten national test. For det andet vil informationen om testenes indhold hurtigt kunne påvirke stortset alle elever på en given skole, fordi vi i Danmark anvender faglærere, der som oftest undervi-ser flere klasser på flere klassetrin samtidig. Der kan således opstå, hvad man ofte betegner somteaching to the test.Ikke blot hos en enkelt lærer, men i store dele af lærerkollegiet på en skole.Hvis testen dækker (en del af) de discipliner, som man ønsker, at eleverne skal blive dygtige tilfor at opfylde Fælles Mål, behøver der ikke være noget negativt iteaching to the test.Nogle for-skere peger endda på, at det er idealet, at læringsmål, undervisningsformer og test er afstemte iforhold til hinanden (alignment).14Men hvis testene kun ligger på kanten af det, som man ønsker,at eleverne skal blive gode til, eller hvisteaching to the testtager for meget tid og opmærksom-hed væk fra andre dele af faget, som er vigtige(re), kan det være problematisk.15Der henvises tilkapitel 4 for en yderligere analyse af dette emne i relation til testene.Et centralt aspekt af forandringsteorien er tilsvarende, at der på skoleniveau kan opstå en effektved, at testene bidrager til at forstærke en evalueringskultur på hele skolen. Det kan ske ved, atresultater af test benyttes af lærere og skoleledelse til en dialog om, hvor skolen samlet set harbehov for at styrke undervisningen, og hvad der kan gøres for at bidrage til dette. En sådanpraksis beskrives i modellen for evalueringskultur som en organisatorisk reflekteret anvendelse aftestene og er udtryk for det stærkeste niveau for skolers evalueringskultur.Endelig kan der pålandsplanvære en tilsvarende effekt af de nationale test, som består i, at sko-ler landet over benytter resultater og erfaringer fra de gennemførte test til at indrette undervis-ningen, så eleverne generelt præsterer bedre. Igen kan det ske, dels ved at hele skolesystemetbegynder at indsnævre undervisningen til de områder, der bliver testet, dels ved at man genereltlærer af og reflekterer over resultaterne, og på den baggrund udvikler bedre undervisningsformerog -materialer mv., der styrker elevernes læring inden for de faglige områder, hvor testene viser,der er et behov.
13
The Power of Testing Memory: Basic Research and Implications for Educational Practice, Perspectives on Psychological Science 1(3):Instructional Alignment: Searching for a Magic Bullet. Educational Researcher vol. 16 no. 8 16-20, Cohen, 1987.
181-210, Roediger, H. L., III, and J. D. Karpicke, 2006.14
Teaching for Quality Learning at University. What the student does, Buckingham and Philadelphia: Open University Press, John Biggs,2003, samt Alignment - how to bridge between qualifications and the learning process. Paper prepared for the conference on QualityAssurance, Accreditation and European Legal Education, Utrecht, The Netherlands, Torben K. Jensen, 2004.15
School Accountability, Ch. 8 in E. A. Hanushek, S. Machin and L. Woessmann (eds.), Handbook of the Economics of Education, vol.
3., 383-421, Figlio, D. and S. Loeb, 2011.Evaluering af de nationale test
12
3.1.2
Hvordan undersøges effekten af de nationale test?
Som udgangspunkt er det meget vanskeligt statistisk at undersøge effekten af de nationale testpå faglige færdigheder. Data fra det nationale testsystem kan vise, hvordan eleverne har klarettestene over tid, men som udgangspunkt er det ikke til at sige, om en eventuel fremgang er eneffekt af testene eller en effekt af andre faktorer. Udfordringen er, at der ikke er nogen at sam-menligne med. De nationale test er obligatoriske for alle elever (dog med mulighed for fritagel-se), og alle ti test blev udrullet til alle landets folkeskoler i foråret 2010. Det er således svært atfinde en sammenligningsgruppe, så man kan vurdere, hvordan de faglige færdigheder hos de te-stede elever ville have udviklet sig, hvis de ikke havde taget en test. Man kan desværre heller ik-ke anvende de frivillige test til formålet, eftersom de skoler, lærere og elever, som har gennem-ført frivillige test, ikke udgør et tilfældigt udsnit.Der findes meget få studier internationalt, der forsøger at undersøge effekten af nationale, stan-dardiserede testsystemer – til trods for, at sådanne testsystemer, der skal holde skolerne ansvar-lige for deres resultater, har bredt sig med stor hast over hele verden.16Nogle steder har mansøgt at sammenligne elevpræstationer i stater, der har indført sådanne systemer, med elevpræ-stationer i lignende stater uden samme systemer.17Generelt tyder disse sammenligninger på, atindførelsen af disse systemer har positive effekter,18men for det første er det en udfordring forden type undersøgelser, at indførelsen af sådanne testsystemer ofte er ledsaget af en række an-dre reformelementer, hvilket gør det vanskeligt at adskille effekten af testsystemet fra de andreaspekter af sådanne reformer. Dette er også tilfældet i Danmark, hvor de nationale test blev ind-ført som en del af initiativer til at fremme af evalueringskultur i folkeskolen. For det andet er dis-se undersøgelser gennemført i en amerikansk kontekst med såkaldte ”high stakes test”, hvor dergenerelt har været knyttet stærke sanktioner til dårlige testresultater (fx lukning af skoler). I densammenligning er de nationale test i Danmark ”low stakes” og har først og fremmest været frem-ført som et pædagogisk værktøj. Det gør det vanskeligt at overføre resultaterne – specielt fordiundersøgelserne også tyder på, at truslen om sanktioner får skoler til at udnytte svagheder i sy-stemet eller ligefrem til at snyde, hvilket modvirker de ellers positive effekter.19For at imødegå disse vanskeligheder med at undersøge effekten af de nationale test i sig selv,har evaluator til denne evaluering anvendt to metoder til at opnå eksogen variation i deltagelse inationale test. Til effekter på elev- og skoleniveau benytter vi os af et midlertidigt nedbrud i it-systemet i 2010, der gjorde, at ikke alle elever blev testet det år. Til effekter på landsplan under-søger evaluator forskelle mellem årgange lige før og lige efter testenes indførelse.Til førstnævnte analyser af elev- og skoleniveau udnyttes det, at it-systemet brød sammen i enperiode på ni dage fra den 2. til 10. marts 2010. Det betød, at halvdelen af de elever, der skullehave gennemført en test på det tidspunkt, ikke fik nogen test.20Ved at sammenligne disse ele-vers resultater ved efterfølgende nationale test, med resultaterne for tilsvarende elever, der gen-nemførte testen i 2010, kan effekten af de nationale test undersøges. Den anvendte metode kal-des ”two stage least squares” og foregår i to trin (deraf navnet): I det første trin beregnes sand-synligheden for, at en elev er blevet testet. Her udnyttes det, at den gruppe der blev ramt afnedbrud, har en lavere sandsynlighed for at blive testet, fordi kun nogle af dem blev genbookettil en ny test. I andet trin estimeres sammenhængen mellem denne sandsynlighed for at blive te-stet og testresultater to år senere. Denne analyse hviler på den antagelse, at det var tilfældigt,hvilke elever der blev ramt af det midlertidige nedbrud. Analyser, der sammenligner de ”ned-brudsramte” elever med de øvrige elever på alle de baggrundsfaktorer, som evaluator har regi-steroplysninger om (deres køn, alder, familieforhold, forældres uddannelse, indkomst, indvan-16
School Accountability, Ch. 8 in E. A. Hanushek, S. Machin and L. Woessmann (eds.), Handbook of the Economics of Education, vol.Bl.a. The Impact of No Child Left Behind on Student Achievement. Journal of Policy Analysis and Management 30, 418-446, Dee, T.School Accountability, Ch. 8 in E. A. Hanushek, S. Machin and L. Woessmann (eds.), Handbook of the Economics of Education, vol.Left Behind by Design: Proficiency Counts and Test-Based Accountability. Review of Economics and Statistics 92, 263-283, Neal, D.
3., 383-421, Figlio, D. and S. Loeb, 2011.17
D. and B. Jacob, 2011.18
3., 383-421, Figlio, D. and S. Loeb, 2011.19
and D. W. Schanzenbach, 2010, samt Teaching to the rating: School accountability and the distribution of student achievement Journalof Public Economics 92: 1394:1415, Reback, R., 2008.20
Skolerne blev tilbudt mulighed for at booke en ny test, hvilket skete for halvdelen af de 21.697, der blev udsat for et nedbrud i
dansk, læsning.Evaluering af de nationale test
13
drerstatus mv.), bestyrker, at den antagelse er korrekt.21Der er kun få statistisk signifikante for-skelle mellem de to grupper.Med en såkaldt skole ”fixed-effects” (FE)-analyse, er det endvidere muligt at isolere den effekt afde nationale test, som gælder på elevniveau, dvs. for de enkelte elever på en skole, fra den ef-fekt af de nationale test, der påvirker hele skolen (skoleniveau). Med en FE-analyse undersøgesdet, om præstationerne er bedre eller dårligere for elever, der ikke blev testet, i forhold til eleverpå samme skole,der blev testet. Det vil sige, at det her undersøges, om der er en effekt for denenkelte elev udover, hvad der måtte være af effekter, som løfter hele skolen og dermed alle ele-ver (fx effekter afteaching to the test,som kan opstå på skoleniveau, hvis lærernes viden om te-stenes præcise indhold spredes på skolen og får dem til at træne eleverne specifikt i at blive godetil at gennemføre næste test).Endvidere undersøges det, om effekten på elevniveau skyldes, at eleverne generelt bliver bedretil at gennemføre enhvilken som helstaf de adaptive, it-baserede, selvscorende test, eller om deblot præsterer bedre i det fag, de er blevet testet i før. Dette gøres ved at sammenligne om ef-fekten af det midlertidige nedbrud – fx i dansk, læsning – er den samme for alle efterfølgendefag – fx i dansk, læsning, fysik/kemi, geografi og biologi – eller om den er størst i det fag, elevenoplevede nedbrud i (her dansk, læsning).Til disse analyser benyttes registerdata fra UNI-C og Danmarks Statistik for de elever, der gik i 2.til 8. klasse på en folkeskole i skoleåret 2009/10. Det vil sige de elever, der var til national test iforåret 2010, da der var midlertidigt nedbrud i it-systemet. Evaluator ser på effekten af nedbrud idansk, læsning på resultaterne i dansk, læsning to år efter. Evaluator benytter det midlertidigenedbrud i dansk, læsning, fordi det er det eneste fag, som eleverne bliver testet i igen to år se-nere (2012). Der ses endvidere på, om der er effekt af nedbrud i dansk, læsning på andre fagend dansk, læsning. Når data senere bliver tilgængelige for 2013, vil det være muligt tilsvarendeat undersøge, om det midlertidige nedbrud i matematik i 3. klasse i 2010 har effekt på resulta-terne i matematik i 6. klasse i 2013.Omtrent 14 pct. af eleverne var udsat for det midlertidige nedbrud i den korte periode i marts2010. Der benyttes baggrundsdata om eleverne som en ekstra kontrol for, at resultaterne ikke erdrevet af, om gruppen af elever, der blev udsat for test, adskilte sig systematisk fra de øvrigeelever. Resultaterne påvirkes ikke substantielt af at inddrage disse oplysninger, hvilket bestyrkerresultaternes robusthed.Som nævnt undersøges det også, om der pålandsplankan ses en effekt af indførelsen af de na-tionale test. Denne analyse kan indfange, at der udover effekterne på elev- og skoleniveau ogsåkan ske at være en effekt på hele skolesystemet. Det er blandt andet interessant, fordi den an-vendte metode betyder, at analyserne på elev- og skoleniveau ikke kan vise, om de elever, dersom følge af nedbruddet ikke blev testet, også har oplevet en positiv effekt af indførelsen af denationale test. Derfor har evaluator også undersøgt effekter på landsplan.Det gøres ved at sammenligne karaktererne for de årgange af elever, der var til folkeskolens af-gangsprøver i 2009 og 2010 – det vil sige, lige inden de nationale test var indført for dem (i 8.klasse) – med karaktererne for de efterfølgende to årgange i 2011 og 2012 (der havde nået atblive testet i 8. klasse). Endvidere sammenlignes resultaterne i de fag, eleverne blev testet i i 8.klasse, med de fag, der ikke blev testet i 8. klasse. Hvis der skulle være en generel ændring ielevernes resultater fra 2009 og 2010 til 2011 og 2012, som ikke har at gøre med indførelsen afnationale test i bestemte fag, må det forventes, at dette afspejles i de forskellige fag generelt.Hvis man udover en sådan generel udvikling kan se en særlig positiv udvikling i de fag, der blevindført test i, tages det som et udtryk for en samlet effekt af de nationale test på landsplan. Den-ne analyse hviler på relativt strenge antagelser, idet der ikke må være systematiske forskelle ikarakterne som følge af opgaveudformningen fra år til år og heller ikke i de faglige evner hoseleverne på tværs af årgange, og at det i den forstand var tilfældigt, at de nationale test blev
21
Beskrivende analyser fra UNI-C af bortfaldet ved den første testning bestyrker ligeledes denne antagelse. Se Bortfaldsanalyse, Nati-
onale Test, UNI-C, 2010.Evaluering af de nationale test
14
indført lige i foråret 2010 og ikke fx et år før eller et år senere.22Denne antagelse kan ikke yderli-gere testes, og evaluator må derfor tage disse analyser med et vist forbehold. Omvendt kan mansige, at hvis resultaterne peger i samme retning som analyserne af elever, der blev ramt af ned-brud, styrker det yderligere vores tiltro til, at resultaterne faktisk påviser den reelle effekt af denationale test.Til analyserne benyttes registerdata fra UNI-C og Danmarks Statistik for børn født i perioden1994-2002. Der henvises i øvrigt til rapportens bilag 3 for yderligere specifikationer.3.1.3Hvad viser analyserne af effekten af de nationale test?
Effekter på elev- og skoleniveauI det følgende præsenteres først resultaterne af, at der var et midlertidigt nedbrud i it-systemet i2010. Vi undersøger effekten af at opleve et nedbrud i faget dansk, læsning, fordi dette fag blivertestet hvert andet år (2., 4., 6. og 8. klasse), og det derfor på nuværende tidspunkt er muligt atundersøge, om der er en effekt på resultaterne i samme fag to år efter.23Hovedresultaterne ses i figur 3.2. Figuren viser, hvor meget bedre, de elever, der gennemførteen test i 2010, klarede sig i 2012 i dansk, læsning (i 4., 6. og 8. klasse). Det fremgår, at elever-ne scorede omkring 9 pct. (af en standardafvigelse24) bedre end elever, der ikke blev testet. Deter vanskeligt at give en substantiel fortolkning af, hvor stor denne effekt er, men det svarer cirkatil gabet mellem drenge og piger. Til sammenligning er det en effekt, der er mindst lige så storsom estimaterne af effekten af de amerikanske testsystemer.Figuren viser endvidere, at effekten af de nationale test i dansk, læsning er mindst på profilom-rådet tekstforståelse. Effekten er dog statistisk signifikant på alle tre profilområder.Figur 3.2: Effekten af at gennemføre en test i dansk, læsning på præstation to år efter
10%9%8%7%6%5%4%3%2%1%0%Dansk, læsning,samletstatistisk signifikant i alle fire tilfælde.
Sprogforståelse
Afkodning
Tekstforståelse
Note: Samlet testscore og opdelt på de tre profilområder målt på standardiseret skala. Effekten er
I nedenstående figur 3.3 har vi med den såkaldte skole ”fixed-effects”-model isoleret den del afeffekten, der kan tilskrives forskelle i resultater for elever fra samme skole (altså effekter på22
Der kan godt være andre ikke-tilfældige årsager til, at det blev indført i 2010 – for eksempel den politiske udvikling, den tid det tog
at udvikle it-systemet mv. Det afgørende for vores analyse er antagelsen om, at eleverne i disse årgange ikke i udgangspunktet havdesystematisk forskellige faglige forudsætninger. Evaluator slår årgangene hhv. 2009 og 2010 samt 2011 og 2012 sammen for at gøredenne antagelse mere robust.23
Det eneste andet fag, der bliver testet to gange i løbet af skoletiden, er matematik. Først senere vil data blive tilgængelige for 2013,De nationale test måles som udgangspunkt på en såkaldt Rasch-skala. Evaluator har standardiseret skalaen, så den har gennemsnit
så det kan undersøges, om nedbrud i matematik i 3. klasse i 2010 har effekt på resultaterne i matematik i 6. klasse i 2013.24
på 0 og standardafvigelse på 1. Effekten måles derfor i, hvor meget af en standardafvigelse (der er mål for den gennemsnitlige spred-ning i resultaterne) de nationale test flytter eleverne.Evaluering af de nationale test
15
elevniveau), og som derfor ikke kan skyldes, at hele skolen er blevet bedre, fx som følge af for-bedret evalueringskultur eller øgetteaching to the test.De blå søjler i figur 3.3 er de samme somi figur 3.2.De nye grønne søjler viser, at den del af effekten, der skyldes forskelle inden for elever på sam-me skole, samlet set udgør knap halvdelen af den samlede effekt. På denne måde udelukker deneffekt af de nationale test, der skyldes, at nogle skoler samlet set opnår bedre resultater, og manfokuserer alene på den forbedring, enkelte elever inden for en skole opnår. Alligevel er der altsåstadig en statistisk signifikant og betydelig positiv effekt af de nationale test. Disse resultater vi-ser med andre ord, at den positive effekt af de nationale test ikke kun skyldes, at skoler samletset opnår bedre resultater af at have gennemført de nationale test (hvilket blandt andet kunnehænge sammen med, at lærerne på skolen i højere grad indretter undervisningen efter testensindhold). Noget af den positive effekt skyldes også, at de enkelte elever på en skole, der hargennemført en test, klarer sig bedre end deres skolekammerater, der ikke blev testet (på grundaf det midlertidige nedbrud). Det indikerer, at eleverne lærer noget af at blive testet, eller at læ-rerne benytter de enkelte elevers resultater fra de gennemførte test som et pædagogisk værktøjtil at målrette undervisningen til de enkelte elevers behov (jf. diskussionen i kapitel 4).Effekten inden for skoler stammer hovedsageligt fra bedre resultater inden for profilområdet af-kodning. Der er ikke nogen statistisk signifikant effekt på de to andre profilområder. Forklaringenkan være, at afkodning er en forholdsvis konkret færdighed (kobling af bogstaver og lyde til ord),og at lærerne på området afkodning har de mest konkrete værktøjer til at sætte ind over for ele-ver, hvor testresultaterne viser, at de har problemer på det område.Figur 3.3: Effekten af at gennemføre en test i dansk, læsning på præstation to år efter
10%9%8%7%6%5%4%3%2%1%0%Dansk, læsning, SprogforståelsesamletAfkodningTekstforståelse
Samlet effektEffekt indenfor skoler
Note: Den samlede effekt (identisk med figur 3.2) og effekt inden for skoler. Samlet testscore og opdelt på de tre profilområ-der målt på standardiseret skala. Effekten er statistisk signifikant i alle tilfælde på nær sprogforståelse inden for skoler.
Evaluator har endvidere undersøgt, om effekten af de nationale test er forskellig for forskelligegrupper af elever. Det er der nogle tendenser til, men generelt ikke større, end at det kan skyl-des tilfældigheder i målingerne. Som eksempel er effekten af de nationale test i figur 3.4 opdeltfor piger og drenge. Som det fremgår, er der en tendens til, at drengene har større effekt af atblive testet, men forskellene er ikke store og stabile nok til at være statistisk signifikante.25Derses også en tendens til, at effekten af at blive testet er større for elever med indvandrerbaggrund(figur udeladt, se bilag 3), men igen er effekten på den samlede testscore ikke statistisk signifi-kant. Det er også undersøgt, om der er forskelle i effekten af at have gennemført en national testpå tværs af forældres uddannelsesbaggrund (figur udeladt, se bilag 3). Der er ingen tegn på det-25
Vi anvender et konventionelt signifikansniveau på 5 pct., hvilket betyder, at vi kun regner det for et signifikant resultat, hvis forskel-
len er så markant, at der er mindre end 5 pct. sandsynlighed for at finde en sådan forskel, hvis det faktisk bare var tilfældigheder, dervar på spil.Evaluering af de nationale test
16
te. Generelt findes en positiv effekt af at gennemføre nationale test for både drenge og piger, påtværs af forældres uddannelsesbaggrund, og for både elever med og uden indvandrerbaggrund.26Figur 3.4: Effekten for piger og drenge af at gennemføre en test i dansk, læsning på præstation to år ef-ter
12%10%8%6%4%2%0%Dansk, læsning, Sprogforståelsesamletikke statistisk signifikante.
PigerDrenge
Afkodning
Tekstforståelse
Note: Samlet testscore og opdelt på de tre profilområder målt på standardiseret skala. Forskellene mellem piger og drenge er
I nedenstående figur 3.5 er effekten af de nationale test opdelt på klassetrin. Her ses, at effektenaf at blive testet er mindre for elever, der gik i 4. klasse i 2010, end for elever der gik i 6. klasse.Der er ikke nogen statistisk signifikant effekt af at blive testet i 4. klasse.Figur 3.5: Effekten af at gennemføre en test i dansk, læsning på præstation to år efter, opdelt på klasse-trin
20%18%16%14%12%10%8%6%4%2%0%Dansk, læsning, SprogforståelsesamletAfkodningTekstforståelse2.-4. kl.4.-6. kl.6.-8. kl.
Note: Samlet testscore og opdelt på de tre profilområder målt på standardiseret skala. Effekten på 6. klassetrin er signifikantforskellig fra 4. klassetrin (på nær profilområdet Sprogforståelse) og forskellig fra 2. klassetrin på profilområdet Afkodning.
26
Vi har også set på, om gennemførelse af nationale test i 8. klasse har en sammenhæng med afgangsprøvekaraktererne i 9. klasse.
Resultaterne indikerer en positiv effekt og støtter således de øvrige resultater. Men da noget i data kunne tyde på, at det ikke er helttilfældigt, hvilke 8. klasseelever der blev ramt af nedbrud, forfølger vi ikke dette spor yderligere.Evaluering af de nationale test
17
Endelig har evaluator i forhold til analyserne af effekter på elevniveau undersøgt, om nedbrud i étfag har effekt på resultaterne i andre fag. Hvis det er tilfældet, vil det indikere, at effekten af denationale test til dels skyldes, at eleverne bliver bedre til det atgennemføreen test generelt ogikke alene skyldes, at de bliver dygtigere af den feedback, som testresultaterne giver.Resultaterne viser, at en test i dansk, læsning i 2. klasse alene påvirker resultatet i dansk, læs-ning i 4. klasse og ikke påvirker resultatet i matematik i 3. klasse. Til gengæld har det at blivetestet i dansk, læsning på 6. klassetrin både en effekt på resultatet i dansk, læsning og i fy-sik/kemi, biologi og geografi i 8. klasse. Disse resultater indikerer, at noget af effekten af de na-tionale test skyldes, at eleverne bliver dygtigere til det fag, de bliver testet i, og at noget af ef-fekten af de nationale test skyldes, at eleverne bliver dygtigere til at gennemføre test i det heletaget. Det havde dog generelt styrket analysen, såfremt man havde haft en længere tidsserieend den eksisterende, samt tilsvarende havde kunnet se på matematik over en treårig periode.Effekt på landsplanI forhold til effekten på landsplan, som sammenfatter både den effekt, der måtte være for denenkelte elev, for hele skolerogfor hele folkeskolen (herunder også eventuelle effekter på kom-muneniveau), har evaluator som nævnt sammenlignet afgangsprøvekaraktererne for årgangenelige før og lige efter indførelsen af de nationale test. For at gøre resultaterne mere robuste overfor tilfældige forskelle mellem årgangene, sammenlignes årgangene, der gik til afgangsprøve i2009 og 2010 (og som derfor ikke havde nået at gennemføre en test i 8. klasse), med dem, dergjorde det i 2011 og 2012. For at tage højde for en generel forskel mellem disse to grupper afårgange sammenlignes udviklingen i afgangskaraktererne i de fag, hvor eleverne var blevet te-stet ved nationale test i 8. klasse (dansk, læsning, fysik/kemi, biologi og geografi), med udviklin-gen i afgangskarakterer i de fag, hvor eleverne endnu ikke var blevet testet (matematik for år-gang 2011 og 2012 og engelsk for årgang 2011). Analyserne viser et generelt billede af, at ka-rakterne er gået lidt mere frem i fag, hvor eleverne er blevet testet, sammenlignet med fag, hvoreleverne ikke er blevet testet. Dette bestyrker de foregående analysers resultater om, at de nati-onale test har en positiv effekt for eleverne. Denne analyse på landsplan skal dog tages med for-behold, fordi der er mange andre forhold, som påvirker ændringer i karakterer i fag over tid, her-under udformning af opgaver.En samlet vurdering af, om de nationale test har styrket elevernes faglige niveauSamlet set kan det konkluderes, at både analyserne på elev-, skole- og landsniveau samstem-mende indikerer, at de nationale test har en positiv effekt på elevernes faglige præstationer. Re-sultaterne tyder endvidere på, at denne effekt ikke alene skyldes, at hele skoler er blevet bedre(hvilket kunne skyldes, at lærerne på skolerne har indrettet undervisningen efterteaching to thetest).Noget af effekten ses også for de enkelte elever på skolerne, der gennemførte testen, isammenligning med tilsvarende skolekammerater, der på grund af nedbruddet ikke fik gennem-ført en test. Det tyder på, at lærere og elever blandt andet har brugt resultaterne af testene til atarbejde på at blive dygtigere i faget. For elever, der blev testet i dansk, læsning på 6. klassetrinses samtidig en tendens til, at de også opnår bedre resultater i andre fag i 8. klasse. Det indike-rer, at noget af effekten skyldes, at eleverne bliver bedre til at gennemføre test i det hele taget.Disse analyser på elev- og skoleniveau ser alene på effekten af nedbrud i dansk, læsning. Nårdata for 2013 bliver tilgængelige, vil det være muligt at undersøge, om den samme effekt ses imatematik.Analyserne på elev- og skoleniveau kan ikke vise, om de, der som følge af det midlertidige ned-brud ikke blev testet, også har oplevet en positiv effekt af indførelsen af de nationale test. Derforer der også set på effekter på landsplan. Denne analyse af årgangene før og efter, testene blevindført, viste, at der er en betydelig positiv effekt af de nationale test også på landsplan. Noget afdenne effekt må tilskrives de effekter på elev- og skoleniveau, som de første analyser viste. Meneffekten er så stor, at det tyder på, at der også er en yderligere effekt på landsplan, som kanskyldes, at lærerne i kraft af de nationale test har haft et større fokus på undervisningen i dissefag. Denne effekt kan være kommet alle elever til gode – også de, der ikke blev testet på grundaf nedbruddet i 2010.
Evaluering af de nationale test
18
Størrelsen på disse effekter er betydelige. Disse effekter er lige så store som i de amerikansketestsystemer, hvor der kan være meget stærke sanktioner knyttet til dårlige testresultater ogomvendt store økonomiske incitamenter til gode resultater. Det kunne tyde på, at nationale testhar en effekt som et pædagogisk værktøj uden, at det er fordi det er drevet af trussel om sankti-oner eller løfte om økonomiske belønninger.Sammenfattende kanhypotesenom, at anvendelsen af nationale test styrker elevernes fagligeniveau, således bekræftes. Analyserne indikerer, at de nationale test har haft en positiv effekt påelevernes faglige resultater. Det har dog alene været muligt at se på effekten af at eleven hargennemført én enkelt national test i dansk, læsning, hvorfor resultaterne skal læses med dettefor øje. Derudover har det kun været muligt at undersøge de generelle effekter af de nationaletest, dvs.omtestene har en effekt på elevernes faglige niveau, hvorimod evaluator i kapitel 4 og6 mere dybdegående vil undersøge,hvordanlærere og skoleledere anvender de nationale test.Således vil evaluator her forsøge at relatere effektanalysernes resultater til forandringsteoriensforventninger om, hvordan de nationale test opnår deres effekter.3.2Er skolernes evalueringskultur styrket efter indførelse af de nationale test?En væsentlig bevæggrund for at indføre nationale test i den danske folkeskole var opfattelsen af,at evalueringskulturen i den danske folkeskole var utilstrækkelig, jf. beskrivelsen i kapitel 2. Ud-over dokumentation fra OECD og Danmarks Evalueringsinstitut var der samtidig bred enighedblandt folkeskolens parter om, at der var en udfordring med skolernes evalueringskultur27.Et af svarene på denne evalueringsudfordring blev indførelsen af ti nationale test. Det fremgik aflovbemærkningerne, at man forventede, at man ved at indføre nationale test vil styrke skolernesevalueringskultur og dermed på sigt elevernes faglige niveau. Dette er tilsvarende kernen i nær-værende evaluerings forandringsteori, jf. bilag 1. Således er én af evalueringens hypoteser, atanvendelsen af nationale test styrker skolernes evalueringskultur.I det følgende vurderes det, hvorvidt der i de senere år,overordnet set,er sket en styrkelse afskolernes evalueringskultur. Her vil evaluator anvende skolernes egne kvalitative vurderingersamt tidligere undersøgelser til at foretage en vurdering af, om der samlet set er sket en positivudvikling i evalueringskulturen i den danske folkeskole (som forventet i lovbemærkninger og iforandringsteorien). Dernæst vil det blive undersøgt, hvorvidt en eventuel styrkelse kan tilskrivesde nationale test for at kunne afdække det relevante evalueringsspørgsmål.3.2.1Er skolernes evalueringskultur blevet styrket?
For at kunne undersøge hvorvidt der,overordnet set,er sket en styrkelse af den danske folke-skoles evalueringskultur, er vi nødt til at definere evalueringskultur som begreb. I evalueringensudbudsmateriale præsenterer Kvalitets- og Tilsynsstyrelsen nedenstående definition af evalue-ringskultur.
27
Folkeskolens svar på OECD’s anbefalinger. Tilbagemelding fra KL, Danmarks Læreforening, Lederforeningen, Danmarks skoleleder-
forening, Skole og Samfund, Børne- og kulturchefforeningen, 2004.Evaluering af de nationale test
19
Boks 3.1: Definition af evalueringskultur
Evalueringskultur handler om en lærers, en skoles eller en kommunes evne til at arbejde med og anven-de evalueringer på forskellige niveauer, så evalueringer adapteres og gøres til rutiner. Arbejdet med eva-luering skal foregå på både kommune-, skole-, team-, klasse- og elevniveau og skal foretages systema-tisk og løbende med henblik på at styrke elevernes udbytte af undervisningen.Evalueringer skal være baseret på fastsættelse af mål samt efterfølgende refleksioner og vurderinger.Resultater af evalueringerne skal formidles og dokumenteres skriftligt, være suppleret af mundtlig for-midling og have et fremadrettet perspektiv.Der skal løbende følges op på evalueringsarbejdet, så der skabes grobund for, at arbejdet med evalue-ringskulturen hele tiden udvikler sig og tilpasses inden for konteksten.
Kilde: Kvalitets- og Tilsynsstyrelsen, baggrundsnotat om nationale test i folkeskolen, 2012.
Kernen i denne definition af evalueringskultur handler om skolers evne tilsystematiskogløbendeat arbejde med oganvendeevalueringer på forskellige niveauer med henblik på at styrke elever-nes udbytte af undervisningen. Det er denne definition, som evaluator har taget udgangspunkt ived udviklingen af en model for evalueringskultur, og det er denne definition, som vi i det følgen-de vil anvende til at vurdere, om skolernes evalueringskultur som helhed er styrket.Til at understøtte denne vurdering har evaluator inddraget andre undersøgelser, som har under-søgt udviklingen af den evalueringskultur, som man ønskede at styrke med ændringerne af folke-skoleloven i 2006-2007. Der ses først på, hvordan evalueringskulturen blev vurderet,indendenationale test blev indført. Derefter vurderer evaluator data om samme emneefterindførelsen afde nationale test. I denne forbindelse suppleres der med data, indhentet via evaluators casestu-dier. Samlet skal dette bidrage til at vurdere, om der reelt er sket en styrkelse af skolernes eva-lueringskultur, men altså uden at tillægge en eventuel udvikling af de nationale test. Dennesammenhæng vil først blive undersøgt i de efterfølgende afsnit.Evalueringskulturenindende nationale testSom allerede nævnt udgav OECD i 2004 et meget omtalt review, hvis overordnede budskab varfraværet af en evalueringskultur i den danske folkeskole28. Samme år kritiserede EVA folkeskolenfor det samme i deres evaluering af undervisningsdifferentiering29og i deres evaluering af løben-de evaluering i grundskolen30. EVA konkluderede, at evaluering ikke fylder ret meget og er en løs-revet del af den daglige læringspraksis, samt at valget af evalueringsredskaber er mere ellermindre tilfældig. I forlængelse heraf opfordrede bl.a. KL i en pjece fra 2005 skolerne til at begyn-de at arbejde med evalueringskultur, idet dette er med til at skabe en bedre faglig kvalitet i fol-keskolen.31I 2006 undersøgte EVA læringsmiljøer i folkeskolen32, hvor de igen anførte, at evalueringskulturenendnu ikke er etableret i skolevæsenet. Året efter vurderede EVA dog, at skolerne var i gang medat opbygge en evalueringskultur, selv om man naturligvis ikke var nået lige langt på alle skoler.33I OECDs TALIS-undersøgelse fra 2008 undersøgte man danske samt en række andre landes læ-reres anvendelse af evaluering i skolen. Undersøgelsen viste, at danske lærere i langt mindregrad end andre landes lærere benytter evaluering. Der er relativt få lærere, der mener, at evalu-
2829303132
OECD-rapport om grundskolen i Danmark, OECD, 2004.Undervisningsdifferentiering i folkeskolen, Danmarks Evalueringsinstitut, 2004.Løbende evaluering af elevernes udbytte af undervisningen i folkeskolen, Danmarks Evalueringsinstitut, 2004.Evalueringskultur – en ny dansk skoletradition, Kommunernes Landsforening, 2005.Læringsmiljøer i folkeskolen – Samspillet mellem læringssynet, de fysiske rammer, undervisningens tilrettelæggelse og evaluerings-Klog på egen praksis. Danmarks Evalueringsinstitut 2007.
kulturen, Danmarks Evalueringsinstitut, 200633
Evaluering af de nationale test
20
ering har medført ændringer i deres undervisningspraksis34, og ca. en fjerdedel af lærerne angi-ver, at de arbejder på en skole, hvor de inden for de seneste fem år aldrig har evalueret hverkeninternt eller eksternt på skolen35.Endvidere har Skolerådet siden deres etablering i 2006 vurderet udviklingen i den danske folke-skoles evalueringskultur. I Skolerådets årsberetninger fra 2007-2009 – årene efter de nationaletest blev vedtaget – pegede Skolerådet på en række redskaber, hvis anvendelse kan være medtil at styrke evalueringskulturen og elevernes faglige resultater, heriblandt de nationale test. Detfremgår dog hverken, om evalueringskulturen i folkeskolen er blevet styrket eller svækket.Evaluator konstaterer, at dokumentationen for begrænset/manglende evalueringskultur er gan-ske omfattende, inden indførelsen af de nationale test samt en række andre initiativer til styrkel-se af evalueringskulturen i folkeskolen.Evalueringskulturenefterde nationale testI 2010 fremhæver Skolerådet i deres beretning, at evalueringskulturen er blevet styrket de sene-ste år, hvor blandt andet elevplaner og kvalitetsrapporter har haft en positiv indvirkning. De på-peger dog, at der stadig er plads til forbedring. I 2011 fremhæver de igen, at evalueringskulturener blevet styrket, og nu indgår de nationale test som en del af forklaringen. I 2012 og 2013 kon-kluderer Skolerådet igen, at evalueringskulturen er styrket, men at de nye redskaber36har poten-tiale til at styrke evalueringskulturen endnu mere. Man vurderede bl.a., at én af udfordringerneer den pædagogiske anvendelse af de nationale test. Det er altså gennemgående en vurdering iSkolerådets beretninger, som baserer sig på den løbende dokumentation, der udmøntes i deresobservationer og anbefalinger, at evalueringskulturen i den danske folkeskole er forbedret overårene.I 2011 udgav OECD et omfattende review af evalueringspraksis i den danske folkeskole. OECDkonkluderer i deres rapport, at der siden 2004 er iværksat mange initiativer, som har medført enstyrkelse af folkeskolens evalueringskultur37, og at Danmark"over en kort periode har indført envifte af obligatoriske foranstaltninger for elevernes læring, et system for kvalitetsrapportering,der involverer kommuner og skoler, og en national struktur til at overvåge resultaterne og vurde-re prioriteringer i folkeskolen."38Således anfører forfatterne, at de første skridt i opbygningen afen evalueringskultur er taget, samt at skolerne har adgang til mere information om og flere red-skaber til selvevaluering og forbedring.I 2011 udgav EVA en evaluering af sammenhænge mellem evalueringsfaglighed og differentieretundervisning39, hvor det konkluderes, at evalueringsarbejdet er styrket, og at lærerne i stigendegrad påtager sig evalueringsopgaven. EVA finder dog ingen tydelig kobling mellem evaluerings-indsatsen og undervisningsdifferentiering. De forklarer det blandt andet med, at evaluering stadiger frakoblet undervisningen, da lærerne primært anvender evalueringsresultaterne bagudrettet.De konkluderer bl.a., at "iteorien burde lærerne anvende evalueringsresultaterne i tilrettelæg-gelsen af undervisningen, men enten indsamler de ikke tilstrækkelige data, eller også anvenderde ikke den indsamlede viden til at fokusere undervisningen i forhold til læringsmålene".Gennemgangen af eksisterende viden om udviklingen i den danske folkeskole viser, at der erigangsat et omfattende arbejde med fokus på at evaluere elevernes udbytte i folkeskolen, herun-der at denne indsats tilsyneladendeoverordnet sethar bidraget til en styrkelse af evalueringskul-turen i den danske folkeskole.34
TALIS – Lærere og skoleledere om undervisning, kompetenceudvikling og evaluering – i et internationalt perspektiv, Skolestyrelsen,Creating Effective Teaching and Learning Environments – First Results from TALIS, Teaching And Learning International Survey –Elevplaner, kvalitetsrapporter og de nationale test.OECD Reviews of Evaluation and Assessment in Education: Denmark, OECD, 2011.Oversat fra "Over a short period of time, Denmark has introduced a suite of compulsory measures of student learning, a system of
2009.35
OECD, 2009.363738
quality reporting involving municipalities and schools, and a national structure to monitor outcomes and evaluate priorities in compul-sory education."39
Undervisningsdifferentiering som bærende pædagogisk princip – En evaluering af sammenhænge mellem evalueringsfaglighed og
differentieret undervisning, Danmarks Evalueringsinstitut, 2011.Evaluering af de nationale test
21
Denne vurdering, foretaget på baggrund af sekundære datakilder, understøttes af data fra deomfattende casestudier, som evaluator har gennemført på et bredt udsnit af skoler i forbindelsemed evalueringen. I den forbindelse er det værd at fremhæve, at vi i vores casestudier finderopbakning til, at skolernes evalueringskultur er styrket i løbet af de senere år. Det afspejler sigførst og fremmest i et større fokus på evaluering overordnet set, og et større fokus på faglige re-sultater. De interviewede aktører på skolerne fortæller, at det især er inden for de senere par år,at man er begyndt at få en systematik for, hvordan evalueringsredskaber anvendes i en samletevalueringspraksis. Som det påpeges i flere af de ovennævnte rapporter, viser casestudierne og-så, at den formative del af evalueringen – dvs. en fremadrettet pædagogisk brug af resultaternemed henblik på tilrettelæggelse af undervisningen, så den tilpasses den enkelte elevs behov.– er en udfordring.3.2.2Hvad er årsagen til den styrkede evalueringskultur?
Nedenfor undersøges det, hvorvidt indførelsen af de nationale test har medvirket til den umiddel-bare styrkelse i evalueringskulturen.FremgangsmådeEn (i statistisk forstand) kausal undersøgelse af, hvorvidt skolernes evalueringskultur er blevetstyrket efter indførelse af de nationale test, forudsætter, at man enten a) har valide data for sko-lernes evalueringskulturførogefterindførelsen af de nationale test og/eller b) at man kan sam-menligne skoler, der har indført nationale test, med skoler, der ikke har, for at se om der er for-skel i skolernes evalueringskultur som følge af brugen af nationale test.Disse tilgange er ikke umiddelbart mulige at gennemføre, dels fordi der ikke foreligger solide, na-tionalt dækkende førmålinger i relation til evalueringskultur, dels fordi de nationale test ved lover obligatoriske for alle folkeskoler i Danmark. Evaluator har i stedet benyttet andre data til atundersøge, hvorvidt skolernes evalueringskultur er blevet styrket efter indførelse af de nationaletest. Dette er bl.a. sket gennem landsdækkende spørgeskemaundersøgelser med skoleledere,lærere og forvaltninger samt dybdegående casestudier på skoler. Evaluators model for evalue-ringskultur har fungeret som analytisk ramme for udarbejdelse af såvel spørgeskemaer som in-terviewguides.Evaluator har anvendt følgende fremgangsmåde til at foretage analysen med:1.For det første undersøges det, hvilke evalueringsredskaber skolelederne angiver, at de an-vender, og hvor længe de har anvendt dem. Dette giver et indblik i omfanget af brugen afevalueringsværktøjer, herunder om en given ændring i anvendelse er sket inden, samtidigmed eller efter de nationale test blev indført. Ligeledes benyttes data fra samme spørgeun-dersøgelse til at vurdere, hvorvidt en række elementer er en del af skolernes evaluerings-praksis. I lighed med ovenstående har skolelederne skulle angive, hvornår de givne elemen-ter blev en del af skolens evalueringspraksis. Denne analyse giver et indblik i skolernes ind-stilling til samt anvendelse af evalueringDernæst vil vi benytte data fra de tre spørgeskemaundersøgelser med skoleledere, lærereog forvaltninger, hvor de nævnte målgrupper er blevet bedt om deres direkte vurdering af,hvorvidt de nationale test har medført en stærkere evalueringskultur i folkeskolen, og påhvilken måde dette kommer til udtryk. I dette tilfælde baserer analysen sig således på denoplevede effekt af årsagssammenhængen.
2.
Evaluators kvalitative erfaringer fra en række casestudier på danske folkeskoler inddrages gen-nemgående i de tre analyser.3.2.3Har de nationale test medvirket til en styrkelse af skolernes evalueringskultur?
Analyse 1: Skolernes anvendelse af evalueringsredskaber samt deres evalueringsprak-sis – hvornår ændrede det sig?Jf. definitionen af evalueringskultur er skolernes evne til at anvende evalueringsredskaber og ar-bejde med dem på forskellige niveauer en central del af evalueringskulturen. Nedenstående tabelviser en fordeling af skoleledernes svar på spørgsmål om, hvorvidt de anvender en række evalue-ringsredskaber i ledelsen af skolen, og i så fald, hvor længe de har gjort det. I spørgeskemaun-Evaluering af de nationale test
22
dersøgelsen er spørgsmål fra Simon Calmar Andersens (2004)40undersøgelse af styringsmetoderi de danske folkeskoler inkluderet(disse spørgsmål er markeret med gråt). Dette muliggør i envis udstrækning en form for sammenligning mellem delaspekter af skolernes evalueringskulturinden og efter indførelse af nationale test.Tabel 3.1: Hvis din skole anvender nogle af følgende redskaber i ledelsen af skolen, hvor længe har de daværet i anvendelse41? Angivet i pct.
UdsagnUndervisningsmiljøvurderingblandt eleverOpgørelse af fravær blandteleverOpgørelse af fravær blandtlærereStandardiserede test (fx fraDansk Psykologisk For-lag/Hogrefe eller lignende)Elevernes resultater i de na-tionale testSkriftlige målsætninger fornetop din skole (2004)Skriftlige målsætninger fornetop din skole (2013)Skriftlige evalueringer ellertilbagemeldinger om opnåe-de resultater (2004)Skriftlige evalueringer ellertilbagemeldinger om opnåe-de resultater (2013)Skriftlig plan for indfrielse afskolens målsætningerAndre evalueringsværktøjersom fx lærerlogbog ogværdsættende samtaleAfgangselevernes karakter-gennemsnitElevernes efterfølgende del-tagelse i ungdomsuddannel-se10 og flere end 10 år.
Anvenderikke234
Mindreend 1 år212
1-2år798
3-5år363735
6-10år402122
Flere end10 år92424
Vedikke556
I alt(N)100(728)100(728)100(728)100(728)100(728)100(892)100(728)
5
2
5
18
28
35
8
67
43
2313
5532
644*2336
1
51
15
3
11
28
13
7
26
6
18
27
20*
2
100(895)100(728)
21
4
12
30
1725
8
8
25
4
10
26
19
8
8
100(728)100(728)100(728)100(728)
25
3
12
26
17
6
12
28
2
6
23
17
17
9
33
2
9
22
13
6
15
*:I 2004-undersøgelsen hed svarkategorien blot ”Flere end 5 år”. I 2012/13-spørgeskemaundersøgelsen sondres mellem 6-Kilde: Spørgsmål 3 og 18, spørgeskemaundersøgelse til skoleledere, 2013
De første nationale test blev afviklet i 201042. Det indebærer, at svarene ’6-10 år’ eller ’flere end10 år’ vil sandsynliggøre, at evalueringsredskabet blev taget i brug,indende nationale test varen realitet. Således er anvendelsen af redskabet ikke påvirket af indførelsen af de nationale test.Svarene ’Mindre end 1 år’ og ’1-2 år’ vil i evaluators analyse betyde, at redskabet først blev tageti brug efter de nationale test. Svaret ’3-5 år’ er taget som udtryk for, at skolernes benyttelse af
40
The Impact of Public Management Reforms on Student Performance in Danish Schools, Public Administration, Vol. 86, No. 2, 2008Svarene er kontrolleret for, hvor længe skolelederen har været ansat. Der er en signifikant sammenhæng mellem ansættelsestid og
(s. 541-558), Simon Calmar Andersen, 2004.41
svar. Skolelederne svarer primært ud fra den tid, de har været ansat. Skoleledere, der har været ansat i kort tid, svarere oftere vedikke, men ikke oftere, at de ikke anvender redskabet.42
Nogle test blev dog lanceret i 2007, om end den første fulde obligatoriske runde var i 2010.
Evaluering af de nationale test
23
evalueringsredskabet fandt sted omtrent samtidig med, at de nationale test blev indført. Evalua-tor skal gentage, at der ikke er tale om en kausal test i statistisk forstand, men svarene kan giveen indikation af, om der er et tidssammenfald med ændringer i anvendelse af evalueringsredska-ber og fremkomsten af de nationale test.Tabellen ovenfor viser interessante forskelle i anvendelsen af redskaber blandt skoleledelsen.Der er en gruppe redskaber, som i meget vid udstrækning anvendes af langt de fleste skolelede-re. Således er der meget få skoler, derikkeanvender undervisningsmiljøvurderinger blandt ele-ver (2 pct.), elev- (3 pct.) og lærerfravær (4 pct.) eller standardiserede test (5 pct.). En stor delaf skolelederne angiver, at disse redskaber blev taget i brug, inden de nationale test blev indført,men der er samtidig over en tredjedel, der svarer, at det skete omtrent samtidig med indførelsenaf de nationale test (3-5 år siden). Mange skoleledere angiver også, at de anvender de nationaletest som redskab, og ikke så overraskende svarer hovedparten, at de begyndte med det samtidigmed indførelsen af de nationale test. Over en fjerdedel er dog først begyndt at bruge de nationaletest som redskab inden for de seneste 2 år. Da både undervisningsmiljøvurderinger samt natio-nale test er lovpligtige at benytte, siger anvendelsen af disse to instrumenter ikke voldsomt me-get om skolernes evalueringskultur.Der er en anden gruppe redskaber, som benyttes i langt mindre udstrækning end de ovennævn-te. Disse redskaber vedrører skoleledernes anvendelse af skriftlige planer for indfrielse af skolensmålsætninger, skriftlige evalueringer eller tilbagemeldinger om opnåede resultater eller skriftligemålsætninger for skolen. Disse redskaber anvendesikkeaf henholdsvis 25, 21 og 15 pct. af sko-lelederne. Den største gruppe af skolelederne svarer, at de begyndte at bruge redskaberne for 3-5 år siden, men en del angiver også, at det sketeinden,de nationale test blev indført. I relationtil skoleledernes anvendelse af de to sidstnævnte redskaber har vi her mulighed for at sammen-ligne skoledernes svar med den tidligere nævnte undersøgelse i 2004, foretaget af Simon CalmarAndersen, hvor der indgår identiske spørgsmålsformuleringer.Sammenligner man spørgsmålene fra den aktuelle undersøgelse og dem fra 2004, må det kon-stateres, at der ikke er sket markante ændringer. Der er dog sket en forøgelse af skoler, derikkeanvender skriftlige målsætninger for deres skole. Andelen af skoler, der ikke anvender skriftligemålsætninger for deres skole, er fordoblet siden undersøgelsen i 2004 fra 7 til 15 pct. På den an-den side er der sket en reduktion i antallet af skoler, derikkeanvender skriftlige evalueringer påfem procentpoint fra 2004 til 2013. Man kan således forsigtigt konkludere, at der er sket en styr-kelse i form af forøget anvendelse af skriftlige evalueringer, mens der er en udvikling væk frabenyttelsen af skriftlige målsætninger. Styrkelsen af anvendelsen af de skriftlige evalueringer er ien vis udstrækning sket, efter de nationale test blev indført.Endelig er der en tredje gruppe evalueringsinstrumenter, der slet ikke benyttes af mellem enfjerdedel og tredjedel af skolerne. Således angiver skolelederne, at følgende redskaberikkean-vendes i ledelsen af skolen: elevernes overgangsfrekvens (33 pct.), elevernes afgangskarakterer(28 pct.) samt andre evalueringsværktøjer som fx lærerlogbog og værdsættende samtale (25pct.).Evalueringen viser, at skolelederne benytter en bred vifte af evalueringsværktøjer i deres ledelseaf skolerne. Især de nationale test benyttes i vid udstrækning sammen med andre standardisere-de test samt undervisningsmiljøvurderinger og fraværsopgørelser blandt både lærere og elever. Icasestudierne fremhæves det tilsvarende af både skoleledere og lærere, at de nationale test bloter ét af mange evalueringsredskaber, og at testene derfor ikke kan stå alene (se afsnit 4.1).Nedenstående tabel indeholder skoleledernes svar på en række udsagn, hvor de har skullet angi-ve, hvor længe udsagnene kan siges at have afspejlet skolens generelle evalueringspraksis.Spørgsmålene er formuleret på baggrund af modellen for evalueringskultur og reflekterer, hvadder kan betegnes som stærk evalueringskultur. Nogle af spørgsmålene vedrører ledelsens vurde-ring af deres egen samt lærernes indstilling til evaluering, andre handler mere om ledelsens evnetil at arbejde med evaluering, og endelig er der spørgsmål, der afdækker om evaluering brugesfremadrettet, fx til at formulere mål med.
Evaluering af de nationale test
24
Tabel 3.2: Hvis følgende udsagn kan siges at afspejle skolens generelle evalueringspraksis, hvor længehar det så været praksis? Angivet i pct.43
Udsagn
Ikke endel afpraksis
Mindreend 1 år
1-2år
3-5år
6-10år
Flere end10 år
Vedikke
I alt(N)
Skoleledelsen ser evalueringsom et vigtigt redskab til atunderstøtte den faglige kva-litet og udviklingLærergruppen ser evalueringsom et vigtigt redskab til atunderstøtte den faglige kva-litet og udviklingSkoleledelsen har et godtindblik i forskellige evalue-ringsværktøjer og deresstyrker og svaghederSkoleledelsen understøtter,at der er ressourceper-son(er), der har et stortkendskab til evalueringsme-toder og deres anvendelig-hedSkolen har klare målsætnin-ger for arbejdet med evalue-ringSkoleledelsen arbejder sy-stematisk og løbende med atinddrage forskellige test- ogevalueringsresultater i en re-fleksiv dialog med lærer-gruppen med henblik på atopstille klare mål for skolensudviklingSkoleledelsen benytter eva-lueringsresultater til at sætteårlige mål
1
2
11
38
29
13
6
100(728)
1
3
15
40
22
11
7
100(728)
6
6
18
36
17
6
11
100(728)
12
4
18
38
14
7
6
100(728)
14
6
17
34
17
5
8
100(728)
15
8
22
30
13
6
6
100(728)
35
8
17
24
7
2
8
100(728)
Kilde: Spørgeskemaundersøgelse til skoleledere, 2013.
Overordnet viser tabellen, at de fleste elementer af evalueringspraksis er udbredt på skolerne.Tabellen viser også, at det hyppigst forekommende svar er, at de pågældende praksisser blevetableret for 3-5 år siden, og derefter er det mest hyppige svar 1-2 år. Hvad angår skolernesindstillingtil evaluering, angiver alle skolelederne (på nær 144pct.), at skoleledelsen såvel som læ-rergruppen ser evaluering som et vigtigt redskab til at understøtte den faglige kvalitet og udvik-ling med. Hovedparten af skolerne angiver, at denne positive indstilling til evaluering blandt sko-leledere og lærergruppen har været til stede samtidig med eller efter, de nationale test kom til(hhv. 51 pct. og 55 pct.). En vis andel angiver dog, at denne indstilling har været praksis, indende nationale test blev indført (henholdsvis 42 pct. og 33 pct. svarer 6 år eller flere).Hvad angår skolernesevnetil at arbejde med evaluering, svarer mange, at skoleledelsen har etgodt indblik i forskellige evalueringsværktøjer (83 pct.). Ligeledes svarer forholdsvis mange, atskoleledelsen understøtter, at der er ressourcepersoner, der har et stort kendskab til evalue-ringsmetoder og deres anvendelighed (82 pct.). Begge dele er en forholdsvis nylig praksis (36-38pct. svarer 3-5 år og 18 pct. svarer 1-2 år).
43
Svarene er kontrolleret for, hvor længe skolelederen har været ansat. Der er en signifikant sammenhæng mellem ansættelsestid og
svar. Skolelederne svarer primært ud fra den tid, de har været ansat, Skoleledere, der har været ansat i kort tid, svarere oftere vedikke, men ikke oftere, at de ikke anvender redskabet.44
7-8 pct., hvis man inkluderer ’Ved ikke' i svaret om, at de ikke anvender redskabet.
Evaluering af de nationale test
25
Der er især ét aspekt af evalueringspraksis, som ud fra ovenstående tabel ser ud til at væremangelfuld. Evalueringer bør, jf. definitionen af evalueringskultur, være baseret påfastsættelseaf målsamt efterfølgende refleksioner og vurderinger og have etfremadrettetperspektiv. Der erdog over en tredjedel af skolelederne, der angiver, at detikkeer en del af praksis, at skoleledel-sen benytter evalueringsresultater til at sætte årlige mål med (35 pct.)45. 15 pct. angiver ligele-des, at det ikke er en del af skolens praksis, at skoleledelsen arbejder systematisk og løbendemed at inddrage forskellige test- og evalueringsresultater i en refleksiv dialog med lærergruppenmed henblik på at opstille klare mål for skolens udvikling. Endelig angiver 14 pct., at det ikke eren del af praksis, at skolen har klare målsætninger for arbejdet med evaluering. Disse resultaterstemmer overens med resultaterne i tabel 3.1, der viste, at en del skoleledere ikke anvendteskriftlige målsætninger for netop deres skole, skriftlige evalueringer eller tilbagemeldinger omopnåede resultater eller en skriftlig plan for indfrielse af skolens målsætninger. Der henvises ogsåtil analyser heraf i et styringsperspektiv i kapitel 6.Ovenstående resultater udfordrer til dels en central del af evalueringens forandringsteori. I for-andringsteorien anføres, at ledelsen skal opstille konkrete faglige mål på baggrund af testresulta-ter og øvrig evaluering, formulere pædagogiske indsatsområder på baggrund af resultaterne ogløbende revidere de pædagogiske mål for skolens udvikling. Sker dette ikke, vil der være en risi-ko for, at den tiltænkte styrkelse af skolens evalueringskultur og evalueringskapacitet ikke findersted. Det ser dog ud til, at der er en positiv udvikling i gang, hvor flere skoler i de senere år be-nytter evalueringsresultater til at sætte mål med. Kun 9 pct. svarer, at skoleledelsen for 6 år ellerflere år siden benyttede evalueringsresultater til at sætte årlige mål med. En fjerdedel angiver, atdet har været en del af praksis for 3-5 år siden, og knap en femtedel angiver, at det påbegyndtesfor 1-2 år siden. Det samme mønster ses ved de andre spørgsmål.Evalueringens kvalitative data giver et indblik i nogle af de barrierer, der er i forhold til at anven-de evalueringsresultater fra de nationale test til, på skoleniveau, at sætte eller justere mål ogindsatser. Ud fra casestudierne og svar fra ledere og lærere i de åbne svarkategorier i spørge-skemaerne er det tydeligt, at de nationale test på nogle skoler rummer en potentiel interessekon-flikt mellem ledere og lærere. Sammenlignet med mange andre evalueringsredskaber giver denationale test mulighed for at sammenligne på tværs af klasser og over tid. En skoleleder forkla-rer det på følgende måde: ”Det store dokumentationsmateriale giver mulighed for at evaluerebåde elever, men også lærernes undervisning på en måde, som det ikke tidligere har været til-fældet” (spørgeskemaundersøgelsen til skoleledere, 2013). Dét, at de nationale test indeholdersammenlignelige resultater, er med til at give en stor gruppe lærere et indtryk af, at testene eren kontrolforanstaltning, jf. kapitel 6.Flere lærere, som er interviewet i forbindelse med casestudierne, fortæller, at de efter de natio-nale tests indførelse ansvarliggøres for deres elevers resultater af forældre, skoleledelse, forvalt-ning og offentligheden generelt. Spørger man til, hvordan de holdes til ansvar for resultaterne,kan de fleste dog ikke komme med konkrete eksempler på, hvordan dette sker. Casestudierneviser eksempelvis, at det ikke er alle skoleledere, der direkte har en dialog med lærere om resul-taterne af de nationale test. Det er heller ikke alle skoleledere, som bruger evalueringsresultater-ne til vurdering og eventuelt justering af målene for skolen som helhed såvel som for den enkeltelærer, årgang eller klasse. Således er der i nogle tilfælde modstrid mellem lærernes fornemmelseaf kontrol og den praksis, der foregår på skolen.Ovenstående resultater stemmer overens med resultaterne af et forskningsprojekt, der fandtfrem til, at en relativ stor andel af danske lærere mener, at evaluering kan inspirere til udviklingaf en bedre undervisning samt kan anvendes til at adressere seriøse problemer på skolen, samti-dig med at de mener, at vedvarende evaluering udviser mangel på tillid til lærernes arbejde46.Dette resultat kan forekomme paradoksalt, idet lærerne på én og samme tid har en positiv såvelsom negativ attitude over for evaluering. Svarene kan tages som udtryk for, at lærerne støtter,at man som lærer kan anvende evaluering pædagogisk, men at de ser med bekymring på, at
4546
Denne tendens findes ligeledes i andre publikationer som fx Ledelse af folkeskolerne, SFI, 2011.Chp.10: Teachers' perceptions of quality assurance and evaluation" in Fabricating Quality in Education. Data and governance in Eu-
rope, Ozga, Jenny, Peter Dahler-Larsen, Christina Segerholm og Hannu Simola, 2011.Evaluering af de nationale test
26
skoleledelse, forvaltning eller andre bruger evalueringsresultater til at vurdere og kontrollere læ-reres indsats med.Resultaterne viser, at de fleste af de evalueringspraksisser, som evaluator har defineret som endel af en stærk evalueringskultur – med få undtagelser – er udbredt på de deltagende skoler. Derer dog ikke tale om en meget markant udvikling, hvor samtlige skoler fra den ene dag til den an-den anfører, at de efter indførelsen af nationale test omlagde deres evalueringspraksis. Men forflertallet af skolerne er ændringerne sket inden for de sidste 5 år. Dette resultat bekræftes ligele-des i casestudierne, hvor det samstemmende anføres, at ændringerne i evalueringskulturen harværet undervejs i nogle år, men særligt har fundet sted de sidste 3-5 år. På denne baggrund erdet evaluators samlede vurdering (på tværs af datakilder), at skolernes evalueringskultur er i enstadig bevægelse mod at blive styrket, og at denne styrkelse falder tidsmæssigt sammen medindførelsen af de nationale test (og projektet til fremme af evalueringskultur i folkeskolen). Derer dog tilsyneladende en udfordring i forhold til at bruge testresultater fremadrettet til at sætteeller justere skolens faglige eller pædagogiske mål og indsatser med.Analyse 2: Den oplevede effekt af de nationale tests bidrag til at styrke skolernes eva-lueringskulturNedenfor ser evaluator nærmere på, i hvilket omfang skolerne selv – skoleledere og lærere –samt forvaltninger vurderer, at de nationale test har styrket evalueringskulturen i den danskefolkeskole.Tabel 3.3: Styrker de nationale test skolens evalueringskultur? Angivet i pct.
SletikkeSkoleledereLærere521
I mindregrad1935
I nogengrad4736
I temmelighøj grad238
I megethøj grad61
Total100 (728)100 (2162)
Kilde: Spørgeskemaundersøgelse til skoleledere og lærere, 2013.
Tabellen viser, hvordan skolelederne og lærernes svar fordeler sig i forhold til deres vurdering af,hvorvidt de nationale test styrker skolernes evalueringskultur. Det hyppigste svar for både skole-lederne og lærerne er, at de nationale test i nogen grad har styrket skolens evalueringskultur (47pct. af skolelederne og 36 pct. af lærerne). Ser man nærmere på de to gruppers svarfordelinger,er det dog tydeligt, at skolelederne vurderer effekten af nationale test for skolernes evaluerings-kultur markant mere positivt end lærerne. 29 pct. af skolelederne angiver, at de nationale test itemmelig høj eller i meget høj grad har styrket skolens evalueringskultur. Den tilsvarende andelaf lærere er kun 9 pct. 55 pct. af lærerne angiver, at de nationale test slet ikke eller i mindregrad har styrket skolens evalueringskultur, mens det tilsvarende tal for skolelederne kun er 24pct.Ovenstående billede stemmer godt overens med data, indhentet i forbindelse med casestudier påen række skoler. Størstedelen af skolelederne på de besøgte skoler, mener, at deres skolers eva-lueringskultur er styrket efter indførelsen af de nationale test. Der er dog en del skoler, der me-ner, at evalueringskulturen også ville være blevet styrket i fraværet af test. Flere skoler nævner,at det er en tendens i tiden, hvor der fokuseres på at måle og vurdere med PISA-undersøgelserne som afsæt for dette fokus. Således er evaluering i langt højere grad blevet itale-sat end tidligere, hvilket har afstedkommet både statslige og lokale initiativer.
Evaluering af de nationale test
27
Nedenstående tabel viser, hvordan forvaltningerne har svaret på et enslydende spørgsmål omsammenhæng mellem nationale test og evalueringskultur.Tabel 3.4: De nationale test har generelt medvirket til at styrke evalueringskulturen på kommunens sko-ler. Angivet i pct.
Helt uenig1
Overvejendeuenig6
Hverkenenig elleruenig22
Overvejendeenig50
Helt enig14
Ved ikke6
Total (N)100 (78)
Kilde: Spørgeskemaundersøgelse til kommunale forvaltninger, 2013.
Sammenligner man skolernes svar med forvaltningernes, fremgår det, at forvaltningerne er end-nu mere positive end skolelederne. Således svarer hele 64 pct. af de adspurgte repræsentanterfra forvaltningerne, at de er overvejende eller helt enige i, at de nationale test har styrket evalu-eringskulturen på kommunens skoler. 22 pct. er hverken enige eller uenige, og kun 7 pct. erovervejende eller helt uenige i, at de nationale test har medvirket til at styrke evalueringskultu-ren på kommunens skoler. Dette billede er i overensstemmelse med det billede, som forvaltnin-gerne gav i casestudierne.Baseret på ovenstående er der altså en klar gruppering af de forskellige respondenters svar i for-hold til vurderingen af, om de nationale test har styrket skolernes evalueringskultur eller ej. Jolængere væk fra undervisningen, man kommer, jo mere positivt vurderes de nationale tests be-tydning at være for evalueringskulturen. Således er forvaltningerne meget positive i deres vurde-ring, skolelederne er positive og lærerne mere skeptiske. Samlet set er der således tale om etblandet billede fra de aktører, der anvender de nationale test i dagligdagen. Særligt kredsen aflærere med erfaringer inden for testfag har en blandet vurdering af testenes betydning for sko-lernes evalueringskultur – endog med en klar tendens til, at størstedelen finder testenes effektbegrænset.Dette resultat kan læses på flere måder: For det første kan det være udtryk for et øjebliksbilledeog samtidig et udtryk for, at testene af mange lærere endnu ikke bruges på et niveau, der be-tegner en stærk evalueringskultur (den fremadrettede og formative anvendelse), jf. kapitel 4. Fordet andet kan svarene være udtryk for, at formålet med de nationale test aldrig har været, at denationale testaleneskulle styrke skolernes evalueringskultur, men at de skulle gøre det i sam-menhæng med andre redskaber. Således vurderer evaluator samlet, at data fra spørgeskemaun-dersøgelsernei nogen gradpeger på en positiv sammenhæng mellem nationale test og udviklingaf evalueringskultur.Det bemærkes endvidere, at skolelederne og lærerne i spørgeskemaundersøgelsen samstem-mende fremhæver, at de nationale test først og fremmest har medført, at skolen er blevet bedretil at dokumentere og formidle resultaterne af evalueringerne. På den anden side er både skole-ledere og lærere mindst tilbøjelige til at erklære sig enige i, at de nationale test har fremmet, atskolen foretager systematiske og løbende evalueringer af elevernes udbytte af undervisningen.
Evaluering af de nationale test
28
Tabel 3.5: Hvordan har de nationale test været med til at styrke jeres skoles evalueringskultur? Vi erblevet bedre til … Angivet i pct.
Sletikke… at foretage systematiske og lø-bende evalueringer af elevernesudbytte af undervisningen… at dokumentere og formidle re-sultaterne af evalueringerne… at anvende evaluering fremad-rettet med henblik på at tilrette-lægge en undervisning, der tagerudgangspunkt i den enkelte elev1
I mindregrad13
I nogengrad57
I temmelighøj grad24
I megethøjgrad4
Total(N)100(550)100(550)100(550)
0 (0,4)1
1014
5456
3226
33
Kilde: Spørgeskemaundersøgelse til skoleledere, 2013.Bemærk: Spørgsmålet er kun stillet til de skoleledere, der har svaret bekræftende på, om de nationale test har medvirket tilat styrke skolens evalueringskultur.
For de tre spørgsmål angiver flest skoleledere, at de nationale test har medført, at skolen er ble-vet bedre til at dokumentere og formidle resultaterne af evalueringerne (36 pct. svarede i tem-melig eller i meget høj grad). Det hyppigst angivne svar er dog ’I nogen grad’ til alle tre spørgs-mål (54-57 pct.).Tabel 3.6: Hvordan har de nationale test været med til at styrke evalueringskulturen. Angivet i pct.
De nationale test har…… medvirket til at fremme, at vipå skolen foretager systematiskeog løbende evalueringer af ele-vernes udbytte af undervisningen… medvirket til at fremme, at vipå skolen dokumenterer og for-midler resultaterne af evaluerin-ger… styrket mit fokus på elevernesfaglige resultater
Sletikke
I mindregrad
I nogengrad
I temmelighøj grad
I megethøj grad
Total
26
32
34
8
1
100(2162)
20
30
37
12
2
100(2162)100(2162)
21
29
36
12
2
Kilde: Spørgeskemaundersøgelse til lærere, 2013.Bemærk: Alle de deltagende lærere er blevet stillet spørgsmålet.
Lærernes svar er noget mindre positive end skoleledernes. En relativ stor andel af lærerne angi-ver således for hvert af de tre spørgsmål, at de nationale test ikke har gjort en positiv forskel.Casestudierne nuancerer skolernes forklaringer på, hvordan de nationale test har styrket skoler-nes evalueringskultur. I den forbindelse angiver flere skoler, at de nationale test har understøttetog forstærket det fokus, der allerede var på evaluering. Skolelederne understreger, at selvomevaluering også var på dagsordenen tidligere, har de nationale test medført en bevægelse fra enevalueringskultur, der baserer sig på mavefornemmelser og ”synsninger”, til i dag at bygge påresultater. Endvidere nævnes det, at man med testene har flyttet fokus fra en evaluering af, omundervisningsforløbet er godt, til et fokus på om læringsudbyttet er godt. Casestudierne viser, atde nationale test har medført et større fokus på faglige resultater. På denne vis har testene bi-draget til en styrket evalueringskultur.En samlet vurdering af de nationale tests betydning for skolernes evalueringskulturEvaluator vurderer overordnet, at der i de senere år er sket en styrkelse af skolernes evalue-ringskultur. Denne vurdering er baseret på sekundære kilder (undersøgelser mv.) samt evalua-tors egne data.
Evaluering af de nationale test
29
Evaluator vurderer samlet set, at ovenstående analyser i et vist omfang understøtterhypotesenom, at de nationale test har medvirket til at styrke skolernes evalueringskultur. Indførelsen af denationale test har – sammen med en række andre evalueringsredskaber – været med til at ce-mentere det ønske, der politisk har været om at styrke arbejdet med evaluering i skolen. De na-tionale tests effekt skal ses i sammenhæng med et generelt fokus på resultater og evaluering.Modsat andre evalueringsredskaber såsom standardiserede test, er de nationale test obligatori-ske, og det er med til at fastholde et kontinuerligt fokus på den løbende evaluering. Der er doginteressante forskelle i de oplevede effekter af de nationale test. Forvaltninger og skoleledere ermeget positive, mens lærere er mere skeptiske over for, om de nationale har styrket skolernesevalueringskultur. Denne skepsis kan hænge sammen med nogle læreres oplevelse af, at de na-tionale test er et kontrolinstrument, som kan bruges til at vurdere lærerens og ikke kun elevensindsats med.Evaluator vurderer dog, at evalueringskulturen på enkelte punkter stadig er mangelfuld. Detterelaterer sig især til at anvende evaluering som udgangspunkt for målfastsættelse samt anven-delse af evalueringsresultater fremadrettet. Der henvises til kapitel 4 og 6 for yderligere analy-ser.Som supplement hertil vil evaluator analysere, om den oplevede sammenhæng kan tilskrives an-dre faktorer end de nationale test. En metodisk udfordring i denne sammenhæng er, at der i dendanske folkeskole er indført en række evalueringsredskaber (nationalt og lokalt), der alle har somoverordnet formål at styrke evalueringskulturen. Således er det ikke muligt at isolere, hvilken ef-fekt hvert redskab hver især har bidraget med i forhold til styrkelsen af evalueringskulturen. Deter dog evaluators vurdering, at de nationale test har haft en selvstændig positiv effekt på skoler-nes evalueringskultur. Casestudierne gav ikke anledning til at vurdere, at andre instrumentersom elevplaner, obligatoriske afgangseksamener eller skolernes egne kvalitetsrapporter, i sigselv har påvirket skolernes evalueringskultur i nogen nævneværdig grad. Ligeledes undersøgteEVA i 2011 kvalitetsrapportens betydning for praksis på skoler og i kommuner. De konkluderer,at kvalitetsrapporten kan styrke evalueringskulturen, men at kvalitetsrapporterne stadig kun an-vendes i begrænset omfang47.Et andet forhold, som kan have haft betydning for styrkelsen af skolernes evalueringskultur, erdet generelle fokus på faglige resultater og elevernes udbytte af undervisningen. Således kunneman argumentere for, at skolerne i fraværet af nationale test alligevel ville have øget andre for-mer for evaluering for at kunne følge og forbedre de faglige resultater. Dette kan ikke udelukkes,men det er evaluators vurdering, at de nationale test har bidraget til at forstærke det fokus, derallerede var på faglige resultater. Med andre ord har de nationale test haft en understøttende (ogdagsordenssættende) funktion, der på én og samme tid har understreget vigtigheden af at foku-sere på elevernes udbytte af undervisningen samt nødvendigheden af at evaluere for at opnå,såvel som at fastholde, gode resultater.Det er endvidere veldokumenteret, at skoleledelsen har enten direkte eller indirekte betydningfor elevernes faglige resultater (se fx Skolerådets beretning 2012). Mange undersøgelser under-streger ligeledes ledelsens betydning i forhold til at skabe et stærkt fagligt miljø48. Det er evalua-tors vurdering, at en stærk evalueringskultur er en central bestanddel af et sådant fagligt miljø.Således kan en velbegrundet hypotese være, at en stærk skoleledelse har en positiv betydningfor skolers evalueringskultur. For at få en indikation af denne sammenhæng er det undersøgt,hvorvidt de skoleledere, der angiver, at de prioriterer, at eleverne får gode faglige resultater, ermere tilbøjelige til at mene, at de nationale test har styrket skolens evalueringskultur.
47
Delrapport 3: Kvalitetsrapporten – undersøgelse af kvalitetsrapportens betydning for praksis på skoler og i kommuner. DanmarksLedelse, læring og trivsel i folkeskolerne, SFI, 2011.
Evalueringsinstitut, 2011.48
Evaluering af de nationale test
30
Tabel 3.7: Sammenhæng mellem vægtning af elevernes faglige resultater og vurdering af nationale testsbetydning for skolernes evalueringskultur. Angivet i pct.
Vurdering af i hvilken grad nationale test har styrket evalue-ringskulturVægter elevernes fag-lige resultaterSlet ikkeI mindre gradI nogen gradI temmelig høj gradI meget høj gradSlet ikke00746I mindregrad033292016I nogengrad033385045I temmelighøj grad033262224I megethøj grad000410Total0100(3)100(73)100(405)100(247)
Kilde: Spørgeskemaundersøgelse til skoleledere, 2013.
Der er en svag, men signifikant sammenhæng mellem, hvordan skoleledelsen har angivet, at deprioriterer, at eleverne får gode faglige resultater, og hvorvidt de mener, de nationale test hargavnet evalueringskulturen. Jo stærkere, man prioriterer elevernes faglige resultater, jo størretendens er der til, at man har en positiv vurdering af, om de nationale test har styrket skolensevalueringskultur.Casestudierne viser tilsvarende, at de skoler, hvor man vægter elevernes faglige resultater højt,også er mest positivt stemt over for evaluering generelt, herunder især nationale test. Såledeskan man betragte et stærkt fagligt fokus mere som en fremmende faktor end som en konkurre-rende forklaring, idet anvendelse af nationale test både kan påvirke det faglige fokus og blive på-virket af det. I kapitel 6 vil vi ligeledes fokusere på skoleledelsen.Afsluttende vil evaluator pointere et væsentligt forhold omkring årsager til forskelle i skolers eva-lueringskultur. Lovbemærkningerne er som nævnt meget tydelige omkring, at det ikke er de na-tionale testalene,der skal skabe styrket evalueringskultur og stærkere faglighed. Der er delsandre virkemidler i spil nationalt (elevplaner, kvalitetsrapporter, obligatoriske afgangsprøver),dels skulle evaluering i skolerne også trække på andre værktøjer end nationale test (standardise-rede test, logbøger mv.). I forlængelse heraf er det evaluators vurdering, at de ovenstående al-ternative forklaringer sammen med de nationale test skal ses som værende medvirkendetil/understøttende for en stærkere evalueringskultur. Det er således ikke de nationale test alene,der skaber en stærkere evalueringskultur. Det er helheden i anvendelsen af nationale test i sam-spil med en række evalueringsværktøjer samt en stærk ledelse, der understøtter en stærk evalu-eringskultur. Etablering og videreudvikling af en evalueringskultur er en kompleks størrelse, ogder er ikke nogen entydig sammenhæng mellem enkeltfaktorer – som nationale test – og skolersevalueringskultur.Det bemærkes, at dette afsnit indeholder en mere overordnet vurdering af skolernes evalue-ringskultur. I kapitel 4, 5 og 6 undersøger evaluator skolernes evalueringspraksis nærmere, her-under hvordan de nationale test anvendes i folkeskolen. Herved tilvejebringes en mere nuanceretforståelse af status for, hvordan de nationale test anvendes i den danske folkeskole, og hvordananvendelsen fremadrettet kan styrkes med henblik på en endnu stærkere evalueringskultur.3.3Er der sammenhæng mellem skolernes evalueringskultur og elevernes faglige resulta-ter?Som supplement til de to foregående effektanalyser har evaluator som led i vores test af evalue-ringens forandringsteori undersøgt, om elevernes styrkede faglige niveau understøttes af enstærkere evalueringskultur i folkeskolen. Hermed undersøges, om graden af evalueringskultur påen skole har betydning for elevernes faglige niveau. Evaluator har på den baggrund formuleret enhypotese om, at en stærk evalueringskultur i folkeskolen styrker elevernes faglige niveau.
Evaluering af de nationale test
31
I de følgende afsnit vil denne hypotese blive afprøvet. Denne analyse skal dog ses som et sup-plement til de to foregående analyser. For at undersøge denne sammenhæng vil der blive foreta-get en statistisk analyse af den forventede sammenhæng, jf. nedenfor. Disse statistiske analyservil blive suppleret af erfaringer fra casestudier samt evaluators vurdering på baggrund af de til-gængelige datakilder.3.3.1Fremgangsmåde for dannelse af mål for skolernes evalueringskultur
For at undersøge, hvorvidt der er en statistisk sammenhæng mellem skolernes evalueringskulturog deres faglige resultater, er det nødvendigt at finde et velegnet kvantificérbart mål for evalue-ringskultur. For at skabe et sådant mål har vi dannet indeks. I det følgende præsenteres kortfremgangsmåden.Som beskrevet i kapitel 2 har evaluator operationaliseret begrebet evalueringskultur ved at ud-vikle en model for evalueringskultur. Modellen er anvendt i arbejdet med at formulere items tilspørgeskemaundersøgelsen målrettet alle tre målgrupper (lærere, skoleledere og forvaltning) forat sikre, at alle relevante aspekter af evalueringskultur afdækkes. I dannelsen af et statistisk målfor evalueringskultur har vi taget udgangspunkt i skoleledernes besvarelse49. Statistiske analyseraf skoleledernes svar viser, at der er tale om flere selvstændige dimensioner i svarene, og atman derfor ikke kan slå alle relevante spørgsmål sammen til ét indeks for evalueringskultur. Påbaggrund af disse analyser har vi valgt at etablere tre indeks50.Det første indeks repræsentererskoleledelsens anvendelse af de nationale test:Hvilkeresultater anvender de, hvordan anvender de dem osv.Det andet indeks illustrererskolens generelle evalueringspraksis:Hvad er indstillingen tilevaluering på skolen, bruges evalueringsresultater systematisk til vurdering og målfastsæt-telse etc.Det tredje indeks opsummerer skolelederens vurdering aflærernes anvendelse af de nati-onale test:Hvordan anvender lærerne de nationale test, hvordan samarbejder de omkringtestresultaterne, og inddrager de dem i skole-hjem-samarbejdet?
Skolernes placering på indeks for evalueringskulturNedenfor præsenteres, hvordan skolerne fordeler sig i relation til de tre indeks. Skoleledernessvar er summeret, således at de kan indplaceres på værdien 1-5, hvor 5 repræsenterer fx denstærkeste generelle evalueringspraksis (eller fremadrettede anvendelse af nationale testresulta-ter) og 1 repræsenterer den svageste.For at score højt på indekset omkring skolernes generelle evalueringspraksis, skal skolelederen iflere tilfælde have svaret ’I meget høj grad’ eller ’I høj grad’ til en række spørgsmål, fx hvorvidtskoleledelsen ser evaluering som et vigtigt redskab til at understøtte den faglige kvalitet og ud-vikling eller til, at skolen har klare målsætninger for arbejdet med evaluering. Svarer skolelede-ren derimod ’Slet ikke’ eller ’I mindre grad’ til de nævnte spørgsmål, vil skolen blive vurderet tilat have en svagere generel evalueringspraksis.
49
Fordelen ved at benytte skolelederens svar er, at vi spørger alle landets folkeskoleledere og således kan forvente en højere grad afFor en nærmere beskrivelse af fremgangsmåde, se kapitel 2 og metodebilaget.
repræsentativitet end hos lærerne, hvor vi spørger et udvalg af lærerne på skolerne.50
Evaluering af de nationale test
32
Figur 3.6: Skolernes fordeling på tre indeks om evalueringskultur70%60%50%
Skoler pct.
40%30%20%10%0%
Skoleledernes anvendelse afnationale testSkolernes generelleevalueringspraksisLærernes anvendelse af denationale test
1
2
3Værdi på indeks
4
5
Overordnet viser figuren, at skolernes fordeling på de tre indeks er relativ ens, men med enkelteundtagelser.For så vidt angår det første indeks – skoleledernes fremadrettede anvendelse af de nationale test– så viser figuren, at halvdelen af skolerne fordeler sig i en midtergruppe, mens godt en fjerdedelkan siges at repræsentere den relativt stærkere gruppe, og knap en femtedel den relativt svage-re gruppe. Der er få skoler, der repræsenterer den stærkeste og svageste anvendelse (3 pct.).Der er således en tendens til, at der er flere skoler med en relativ stærk end med en relativ svaganvendelse af resultaterne af de nationale test.Hvad angår det andet indeks – skolernes generelle evalueringspraksis – så fremgår det, at lidtfærre skoler i forhold til det første indeks er i midtergruppen. Knap en fjerdedel er i den relativtsvagere gruppe, mens en femtedel er i den relativt stærkere gruppe. Som ved indeks 1 er der fåskoler i den meget svage (6 pct.) og meget stærke gruppe (5 pct.). Der er altså relativt færreskoler, der placerer sig i gruppen med den stærke evalueringskultur, end der er skoler, der place-rer sig i gruppen med den stærke anvendelse af de nationale tests resultater.Fordelingen på det tredje indeks – lærernes anvendelse af de nationale test – skiller sig ud fra deto andre ved at have en højere modalværdi. Hermed menes, at der er en stor gruppe, der ikkeplacerer sig i midten, men til højre for midten. Således er kun en fjerdedel af skolerne i midter-gruppen, mens næsten to tredjedele af skolerne er i den relativt stærkere gruppe. Det illustrerer,at skolelederne har en forholdsvis positiv vurdering af lærernes anvendelse af de nationale test (ikapitel 4, 5 og 6 vil analysen dog blive nuanceret i forhold til, hvorvidt lærernes anvendelse af denationale test er så stærk som vurderet af skolelederne).Ovenstående analyse viser, at flertallet af danske skoler placerer sig i midten af et kontinuumgående fra meget svag til meget stærk evalueringskultur. Selvom der er tale om tre selvstændigedimensioner af skolernes samlede evalueringskultur, er der alligevel en positiv statistisk signifi-kant sammenhæng mellem indeksene, men den er ikke særlig stærk. Der er en tendens til, at jostærkere generel evalueringspraksis en skole har, jo stærkere er skolelederens anvendelse af re-sultaterne af de nationale test. Ligeledes, jo stærkere en skoleleders anvendelse af resultaterneaf de nationale test er, jo stærkere angiver de, at lærernes brug af de nationale test er. Den sva-geste sammenhæng finder man mellem skolens generelle evalueringspraksis og lærernes anven-delse af de nationale test.Indeksene giver dog kun mulighed for at vurdere fordelingen af skolerne og deres relative styrke,og som nævnt er det ikke muligt at analysere resultaterneover tid,da der ikke tidligere er lavetlignende repræsentative undersøgelser af evalueringskulturen på de danske folkeskoler. Derud-over har vi udelukkende benyttet data fra spørgeskemaundersøgelsen til skolelederne til at bely-se skolernes evalueringskultur med, hvorfor lærernes perspektiv ikke er direkte repræsenteret. IEvaluering af de nationale test
33
kapitel 4 vil vi mere indgående belyse, hvordan lærere og skoleledere anvender de nationale testsom en del af deres samlede arbejde med evaluering. Dette vil nuancere det overordnede billedesamt give indblik i, om der er områder, hvor anvendelsen af testene er særlig stærk eller om-vendt mindre stærk.3.3.2Sammenhæng mellem evalueringskultur og faglige resultater
Evaluator har statistisk undersøgt sammenhængen mellem på den ene side de tre mål for eva-lueringskultur, der er beskrevet ovenfor, og på den anden side resultaterne af de fire nationaletest, der gennemføres i 8. klasse (i 2012): Dansk, læsning, fysik/kemi, biologi og geografi.Undersøgelsen mellem de tre mål for evalueringskultur og hver af de fire nationale test resultereri 12 analyser. I de 11 af analyserne findes ikke nogen statistisk signifikant sammenhæng. I ét til-fælde findes en sammenhæng, nemlig mellem skolernes generelle evalueringspraksis og resulta-terne i dansk, læsning.Boks 3.2: Alternative forklaringer til årsagssammenhængen mellem evalueringskultur og faglige resulta-ter
Evaluator har undersøgt, om denne ene sammenhæng kunne skyldes en række andre faktorer, der poten-tielt også kunne kendetegne skoler med en høj evalueringskultur. Således har vi kontrolleret sammen-hængen for, om skolerne anvender lektiecafe (el.lign.), hvor stor andel af eleverne, der i givet fald an-vender lektiecafeen, om skolerne anvender bestemte lærebogssystemer i dansk, læsning eller matematik,om skoleledelsen aktivt understøtter lærernes professionelle udvikling, og om skoleledelsen mere genereltprioriterer pædagogisk, strategisk eller administrativ ledelse. Resultaterne viser, at sammenhængen mel-lem den anden dimension af evalueringskultur og de nationale testresultaterne i dansk, læsning i 8. klasseforbliver signifikant. Det er altså ikke ovenstående konkurrerende forhold, der forklarer sammenhængenmellem en stærk evalueringskultur og høje faglige resultater i dansk, læsning.
Resultatet kan ikke siges at være særlig robust, idet der kun findes sammenhæng i 1 ud af 12analyser. Der var heller ikke på forhånd nogle teoretisk baserede forventninger om at finde ensammenhæng mellem netop den dimension af evalueringskultur (generel evalueringspraksis) oglige præcis testen i dansk, læsning. Den på forhånd formulerede hypotese var, at en stærk eva-lueringskultur i folkeskolen styrker elevernes generelle faglige niveau. Såfremt der var en reelsammenhæng, burde der således findes en sammenhæng med flere af fagene. Ligeledes var for-ventningen, at de andre indeks omkring skoleledernes og lærernes anvendelse af nationale testogså burde have en sammenhæng med faglige resultater. Således er det evaluators vurdering, atden ene fundne sammenhæng mest sandsynligt er udtryk for en tilfældighed.51De statistiske analyser giver altså ikke umiddelbart støtte til, at der er en sammenhæng mellemskolers evalueringskultur og de faglige resultater blandt skolens elever. Resultaterne kan dog ik-ke tages som et endegyldigt bevis på et fravær af sammenhæng mellem skolernes evaluerings-kultur, og hvordan skolens elever klarer sig fagligt. De gennemførte analyser kan blot ikke be-kræfte, at der er en statistisk sammenhæng.Der kan være flere årsager til dette. For det første kan det handle om de muligheder, der er forat måle evalueringskultur. For at få et samlet mål for en skoles evalueringskultur har vi benyttetskoleledernes svar i en spørgeskemaundersøgelse og derefter dannet flere indeks, der belyserforskellige dimensioner af dette fænomen. Det kan muligvis handle om, at evaluering er en forindividuel praksis til, at man kan danne et retvisende mål på skoleniveau, eller at skolelederenmåske er for langt fra praksis til at kunne repræsentere skolens evalueringskultur. Således harSFI konkluderet, at evaluering gennem test har en positiv betydning for elevernes faglige præ-stationer. Jo flere test eleverne udsættes for, jo bedre klarer de sig. Vores analyse er dog foreta-get på samlet skoleniveau i modsætning til fornævnte analyse. Således kan individuelle forskelle
51
Som nævnt ovenfor anvender vi et konventionelt signifikansniveau på 5 pct.. Det betyder, at man accepterer, at man i hver 20. ana-
lyse (5 pct.) kan ske at finde en signifikant sammenhæng, som i virkeligheden er en tilfældighed. Det skal man være særligt opmærk-som på, når man som her gennemfører mange analyser på én gang og kun finder en sammenhæng i et enkelt tilfælde.Evaluering af de nationale test
34
mellem lærere på en skole blive udvisket.52Derudover er skolernes evalueringskultur selvfølgeligandet og mere end blot anvendelsen af test.En anden forklaring kan handle om, at de bedst præsterende skoler i forvejen havde en stærkevalueringskultur og således ikke har haft en effekt af at anvende de nationale test. I suppleren-de analyser findes således en tendens til, at effekten af de nationale test er signifikant mindre forde skoler, der allerede inden testene blev indført, var blandt de 10 pct. bedst præsterende skoler(målt på afgangsprøvekaraktererne i 2009). Dette kan tolkes som, at disse skoler allerede påforhånd har tilstrækkelig god evalueringspraksis, så de nationale test ikke tilfører dem yderligereforbedring. Dette er dog en tolkning, som ikke direkte kan ses ud af de statistiske data. En andenmulighed kan være, at der er en vis loft-effekt i de nationale test i den forstand, at testen harvanskeligt ved at måle forskelle inden for gruppen af meget dygtige elever.Den ovenstående analyse udgør et øjebliksbillede af sammenhængen mellem skolernes evalue-ringskultur og elevernes faglige resultater. Men kan forestille sig, at resultaterne havde væretanderledes, såfremt man havde set påudviklingenbåde i evalueringskultur og faglige resultater.Hypotetisk er det muligt, at de skoler, der har oplevet den største styrkelse af evalueringskultur,er dem, der har opnået de største forbedringer i elevernes faglige resultater. Derudover er det ensvaghed ved analysen, at vi måler evalueringskulturefter(december-januar 2012/2013), at vimåler de faglige resultater (forår 2012). Dette kan have haft en negativ betydning for at finde ensammenhæng, idet et centralt kriterium for kausalitet – tidsrækkefølge – er brudt. Det har dogsom tidligere nævnt ikke været muligt at benytte nyere data for faglige resultater.Den komplekse sammenhæng mellem evalueringskultur og faglige resultater har også været ty-delig i de kvalitative casestudier. I denne forbindelse besøgte vi både skoler med en stærk evalu-eringskultur og gode faglige resultater, samt skoler med en svagere evalueringskultur og godefaglige resultater. Ligeledes besøgte vi skoler med en stærk evalueringskultur og dårlige fagligeresultater, og skoler med en svag evalueringskultur og dårlige resultater. Det kan på den bag-grund konstateres, at der ikke er en entydig sammenhæng mellem styrken af evalueringskulturog skolers faglige resultater. En stærk evalueringskultur er under ingen omstændigheder en til-strækkelig betingelse for, at en skoles elever klarer sig godt. Dertil er sammenhængen for kom-pleks, og der er andre faktorer i spil. De skoler, der havde oplevet en positiv udvikling i elevernesfaglige resultater, tillagde de nationale test såvel som en styrket evalueringskultur en vis betyd-ning. Derudover fremhævede de vigtigheden af en tydelig ledelse, der klart prioriterer en høj fag-lighed som et centralt mål for skolen. Ligeledes oplevede de en stærk faglig sparring i form afvelfungerende fagteammøder og klasseteammøder som befordrende for gode resultater. Endeliger det et tilbagevendende argument fra både godt og mindre godt præsterende skoler, at de fag-lige resultater i høj grad hænger sammen med skolens elevers socioøkonomiske grundlag (elevermed en stærk socioøkonomisk baggrund får alt andet lige bedre resultater end elever med ensvagere socioøkonomisk baggrund).
52
Lærere, undervisning og elevpræstationer i folkeskolen, SFI, 2013.
Evaluering af de nationale test
35
Boks 3.3: Et eksempel fra evalueringen: En stærk evalueringskultur understøtter gode faglige resultater
Evaluator har besøgt en folkeskole, der viser, at en høj evalueringskultur og et højt fagligt niveau erhinandens forudsætninger. Skolens overordnede mål er at lave verdens bedste folkeskole. Der erenighed om, at faglighed har førsteprioritet og trivsel et middel til at nå faglige resultater. Skolelede-ren påpeger, at skolens målsætning om et højt fagligt niveau er meget eksplicit, og at hverken lære-re eller forældre er i tvivl om denne: ”Det er fagligheden, der er i fokus her. Det betyder ikke, at altdet andet ikke er vigtigt, men her går vi op i, at eleverne lærer noget og trives med det. Ikke om-vendt.”Skolens stærke evalueringskultur afspejles i følgende forhold:Skolen har en klar og strategisk evalueringskultur, herunder en årlig testoversigt som bådekommune, lærere og forældre kan orientere sig i. Den beskriver, hvad og på hvilke klassetrin,der testes i indeværende skoleår.Skoleledelsen har sat den ramme, at alle de frivillige test er obligatoriske.Skolen har en målsætning for faglige resultater i nationale test såvel som folkeskolens afgangs-prøver og læsetest på 1., 3. og 5. årgang.Internt i ledelsen er arbejdsdelingen den, at skolelederen har det strategiske overblik over test-resultaterne, mens den pædagogiske afdelingsleder arbejder med at udmønte resultatet på elev-niveau og er i tæt dialog med lærerne om den pædagogiske opfølgning. Det strategiske overblikindebærer bl.a., at skolelederen tager testresultaterne med i sine overvejelser om fagfordeling,ressourcefordeling m.v.De nationale test er et centralt delelement i en bred evalueringspraksis:I dansk benyttes standardiserede test (OS64, Ordlæs, SL60, ST mv.) og nationale test somkvantitative metoder. Skolen benytter LUS (læseudviklingsskema) som kvalitativt supple-ment, da det efter deres vurdering kommer mere i dybden med elevernes læseudvikling. Imatematik benyttes MAT- testen udover de nationale test.Den kvalitative evaluering dækkes ofte i hverdagen, bl.a. ved at flere undervisningsmateria-ler, herunder skolens dansksystem ”Vild med dansk”, har inkorporeret, at hvert emne følgesaf en mindre evaluering.Skolen har årlige klassekonferencer, hvor alle klassens fag tages op, og omdrejningspunktet erresultaterne fra de nationale test såvel som de andre test. Man kigger på tværs af fag og sam-menligner testresultater. Målet er, at lærerne skal være gode til at bruge hinanden på tværs affag, således at det fx opdages såfremt et problem i matematik eventuelt skyldes elevens ringelæsekundskaber. På klassekonferencen besluttes en indsats over for de svage elever.De nationale test indgår altså som et delelement i en evalueringspraksis, der er testorienteret og sy-stematisk, men som samtidig lægger vægt på løbende dialog om analyse af og opfølgning på resulta-tet. Alle kender og arbejder hen imod de faglige mål og anvender evaluering til løbende at vurdere,om man når derhen. Skolens evalueringskultur understøtter således det overgribende mål om at op-nå gode faglige resultater.
Det er evaluators samlede vurdering, at de skoler, der har en stærk evalueringskultur, har enrække fordele i deres arbejde for at fremme gode resultater end skoler, der ikke har en stærkevalueringskultur. Disse skoler har redskaber, der gør dem i stand til mere systematisk at vurde-re årsager til en given præstation (for en elev, klasse, årgang eller skole som helhed) samt omen præstation skal give anledning til at justere indsatser og/eller mål. Ligeledes er det evaluatorsvurdering, at skoler med en stærk evalueringskultur er mindre følsomme for udsving i personaleeller elevgrundlag, idet der er en samlet organisatorisk tilgang til kvalitetsarbejdet, der er mindrepersonbåren end på skoler med en svagere evalueringspraksis.
Evaluering af de nationale test
36
Derudover viser casestudierne, at effekten af de nationale test på mange skoler endnu ikke erslået fuldstændig igennem i forhold til evalueringskulturen, men mere i forhold til at cementeregode faglige resultater som et vigtigt mål. De fleste skoler har kun arbejdet med de nationaletest i to til tre år. Således kan man forestille sig, at sammenhængen mellem evalueringskultur ogfaglige resultater bliver stærkere, når skolerne gennem længere tids anvendelse får styrket deressamlede evalueringskultur.3.4DelkonklusionI dette kapitel er der foretaget en række analyser af effekterne af indførelsen af de nationaletest. Effektanalysen er foretaget ved at undersøge eventuelle sammenhænge mellem nationaletest og skolernes evalueringskultur samt elevernes faglige resultater. Nedenstående tabel inde-holder en oversigt over de forskellige sammenhænge samt analysens resultater i oversigtsform.Tabel 3.8: Oversigt over resultater af analyser omkring effekten af de nationale test
SammenhængNationale testfagligeresultaterNationale testsko-lens evalueringskulturSkolens evalueringskul-turfaglige resultater
HypoteseAnvendelsen af nationaletest styrker elevernesfaglige niveauAnvendelsen af nationaletest styrker folkeskolensevalueringskulturEn stærk evalueringskul-tur i folkeskolen styrkerelevernes faglige niveau
DataRegisterdata
StatusBekræftet+
Spørgeskemaundersø-gelse, casestudier og øv-rig dokumentationSpørgeskemaundersø-gelse, registerdata ogcasestudier
Delvis bekræftet+Ikke bekræftet-
Analysen afsammenhængen mellem de nationale test og elevernes faglige resultaterin-dikerer en positiv effekt af de nationale test i relation til elevernes faglige resultater og bekræftersåledes hypotesen. Både analyserne på elev-, skole- og landsniveau indikerer, at de nationaletest har en positiv effekt på elevernes faglige niveau. Resultaterne tyder endvidere på, at denneeffekt ikke alene skyldesteaching to the test,eller at eleverne blot er blevet bedre til at gennem-føre testene, men at de faktisk er blevet dygtigere til det fag, de er blevet testet i. Det har dogalene været muligt at se på effekten af nedbrud i dansk, læsning. Derudover har det kun væretmuligt at undersøge de generelle effekter af de nationale test – dvs.omtestene har en effekt påelevernes faglige niveau og ikke,hvordande har en effekt.Analysen afsammenhængen mellem de nationale test og skolernes evalueringskulturtyder for det første på, at skolerne overordnet har styrket deres evalueringskultur i de senere år.Styrkelsen af evalueringskulturen ses ved, at skolerne som gruppe (som udtrykt af skolelederne)betragter evaluering som et vigtigt kvalitetsunderstøttende redskab, samt at de anvender enrække evalueringsredskaber i deres arbejde. For det andet er der indikationer på, at de nationaletest har medvirket til at styrke skolernes evalueringskultur. Styrkelsen af evalueringskulturenfalder til en vis grad tidsmæssigt sammen med indførelsen af de nationale test. Undersøger mande oplevede effekter af de nationale test, er skolelederne samt forvaltningerne forholdsvis positi-ve i deres vurdering af, hvorvidt de nationale test har bidraget til at styrke skolernes evalue-ringskultur. Dog er lærerne mere skeptiske. Evaluator vurderer samlet, at de nationale test harhaft en understøttende og dagsordenssættende effekt i relation til at understrege et fokus på fag-lige resultater såvel som at bidrage til en større systematik i skolernes evaluering og har dervedmedvirket til en stærkere evalueringskultur. Det er dog samtidig evaluators vurdering (som detanføres i lovbemærkningerne), at det ikke er de nationale test alene, der skaber en stærkereevalueringskultur. Det er derimod helheden i anvendelsen af nationale test i samspil med enrække evalueringsværktøjer samt en stærk ledelse, der understøtter en stærk evalueringskultur.Evaluator vurderer sammenfattende, at evalueringskulturen i den danske folkeskole er styrket,og at indførelsen af de nationale test i et vist omfang har bidraget positivt hertil.De statistiske analyser afsammenhængen mellem skolernes evalueringskultur og dereselevers faglige resultaterviser ikke en overbevisende sammenhæng, og hypotesen kan såle-des ikke umiddelbart bekræftes. Det kan forekomme som et paradoks, at de nationale test tilsy-neladende har en forholdsvis positiv effekt på elevernes faglige resultater og har styrket skoler-
Evaluering af de nationale test
37
nes evalueringskultur, hvorimod der ikke er en signifikant sammenhæng mellem evalueringskul-tur og faglige resultater. Som allerede nævnt, kan resultaterne dog ikke tages som et endegyl-digt bevis på et fravær af sammenhæng mellem skolernes evalueringskultur, og hvordan skolenselever klarer sig. Resultaterne kan blot ikke bekræfte, at der er en statistisk sammenhæng ud frade tilgængelige data. På baggrund af casestudierne vurderer evaluator dog, at en stærk evalue-ringskultur har en klar fremmende effekt på at opnå gode faglige resultater. Men en stærk evalu-eringskultur er hverken en tilstrækkelig eller en nødvendig betingelse for at opnå gode resultater.På baggrund af ovenstående vurderer evaluator, at der har været positive effekter af de nationa-le test i relation til at styrke elevernes faglige resultater. Det er ligeledes vurderingen, at de nati-onale test har haft en positiv indvirkning på skolernes evalueringskultur. Der er dog stadig poten-tiale for en væsentlig styrkelse af evalueringskulturen, hvilket vil blive uddybet i kapitel 4.
Evaluering af de nationale test
38
4.
DE NATIONALE TEST SOM PÆDAGOGISK VÆRKTØJI dette kapitel belyses ét af en række evalueringsspørgsmål, der relaterer sig evalueringstemaet:Testenes anvendelse.Kapitlet indeholder en analyse af, hvordanlærerneanvender de nationaletest som led i deres pædagogiske praksis. Dette omfatter lærernes anvendelse af testresultaternei relation til vurderingen af elevernes faglige niveau og planlægning af undervisningen. Afslut-ningsvis vil det blive analyseret, hvorvidt testen har indflydelse på lærernes prioritering af under-visningens indhold.Analyserne i nærværende kapitel er tilvejebragt af et datagrundlag bestående af følgende:Desk research af lovgrundlag, relevant litteratur samt viden fra undersøgelser, evalueringerog forskningSpørgeskemaundersøgelser til kommunale forvaltninger, skoleledere samt lærere med erfa-ring inden for testfagOmfattende casestudier på udvalgte skoler.Supplerende inddrages tilbagemeldinger givet af de fageksperter, der har givet input til evaluatori forbindelse med evalueringsspørgsmål, der er afrapporteret undertestenes indhold(jf. kapitel7).BaggrundDet fremgår af folkeskolelovens § 13, stk. 2, at der løbende skal foretages en evaluering af ele-vernes udbytte af undervisningen. Et af de overordnede mål med at indføre nationale test er atstyrke denne løbende evaluering, jf. bemærkningerne til lovforslaget om indførelse af nationaletest.De nationale test er tænkt som et pædagogisk værktøj, der bl.a. kanbidragetil en nuanceretvurdering af den enkelte elevs udbytte af udvalgte testegnede undervisningsemner samt medvir-ke til skabe overblik over den enkelte elevs faglige niveau53. Det er ligeledes forventningen, attestresultatet anvendes fremadrettetsammen medresultatet af den øvrige løbende evaluering tilbrug for den videre planlægning af undervisningen, vejledningen af den enkelte elev samt under-retning af forældre, jf. førnævnte lovgivning.I forlængelse af bemærkningerne om en fremadrettet anvendelse af resultaterne fremgår detendvidere, at der forventes en målretning af undervisningen til den enkelte elevs behov og forud-sætninger. En formulering, der afspejler folkeskolelovens § 18, stk. 2, der fastslår undervisnings-differentiering som det bærende pædagogiske princip i den danske folkeskole. Der er altså enklar forventning om, at nationale test ikke kun anvendes til at skabe overblik over de enkelteelevers faglige niveau, men også understøtter lærernes arbejde med at differentiere undervisnin-gen.Ovenstående baggrund for og mål med at indføre de nationale test i folkeskolen er afspejlet ievaluators forandringsteori og hypoteser, jf. bilag 1. Forandringsteorien tydeliggør en forventetsammenhæng mellem gennemførelsen af test, lærerens analyse af testresultatet, lærerens plan-lægning af undervisningen på baggrund heraf samt gennemførelsen af en undervisning, der tagerudgangspunkt i både klassen og den enkelte elevs faglige behov. Den forventede virkning er påsigt en styrket kvalitet af undervisningen.For at understøtte de politiske målsætninger, der er beskrevet ovenfor, har Skolestyrelsen (nuKvalitets-og Tilsynsstyrelsen) udsendt en vejledning, der giver råd om, hvordan læreren kan ana-lysere og anvende testresultaterne54. Også her fremgår det, at resultaterne af de nationale testkan bruges til at målrette undervisningen mod elevernes niveau, justere klassens eller elevernesmål eller iværksætte yderligere evalueringer. Det understreges, at eleverne ikke bliver dygtigereaf selve testen, men de bliver dygtigere, hvis læreren kan bruge testen til at målrette undervis-
5354
L 101 Lovbekendtgørelse om nationale test s. 8.Brug testresultaterne – inspiration til pædagogisk brug af resultater fra de nationale test, Skolestyrelsen, 2011.
Evaluering af de nationale test
39
ningen mod den enkeltes behov. Det er opfølgningen, ifølge styrelsen, der gør forskellen55. En po-inte, der også spiller en væsentlig rolle i denne evaluerings forandringsteori.Afslutningsvis skal der peges på, at det samtidig med indførelsen af de 10 nationale test, blevgjort obligatorisk at udarbejde minimum én elevplan om året for hver elev. Denne elevplan skalbl.a. indeholde oplysning om den besluttede opfølgning på resultaterne af den løbende evalue-ring, herunder opfølgningen på de nationale test56. Altså et krav om, at den fremadrettede an-vendelse af testresultaterne beskrives skriftligt i hver plan.Evaluator vil i nærværende kapitel undersøge, hvorvidt disse bagvedliggende intentioner er ind-friet.4.1Lærernes anvendelse af testresultaterne til vurdering af eleverneI en analyse af lærernes brug af testresultater kan man, som det fremgår af indledningen, skelnemellem lærernes brug af resultatet til envurdering af elevernes faglige niveauog som ud-gangspunkt for den videreplanlægning af undervisningen.I dette afsnit analyseres først-nævnte, altså hvorvidt lærerne anvender testene til at monitorere elevernes faglige styrker ogsvagheder, jf. model for evalueringskultur.For at undersøge hvorvidt lærerne anvender resultatet til en vurdering af eleven, er de deltagen-de lærere i spørgeskemaundersøgelsen blevet bedt om at tage stilling til, i hvilken grad de brugertestresultatet til at få et samlet overblik over henholdsvis klassen og de enkelte elevers fagligeniveau.Tabel 4.1: Tænk tilbage på, da du fik resultaterne af de nationale test i foråret 2012. Hvad har du brugtresultaterne af de nationale test til? Angivet i pct.
SletikkeTil at få et samlet over-blik overklassensfag-lige niveauTil at få et overblik overdeenkelte eleversfaglige niveau2
I mindregrad8
I nogengrad32
I temmelighøj grad41
I megethøj grad17
I alt (N)100(2162)100(2162)
2
11
34
38
16
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Tabellen ovenfor viser, at 58 pct. af lærerne svarer, at de i temmelig høj eller i meget høj gradbenytter testresultatet til at få et overblik over klassens samlede niveau. Ser man på, hvorvidtlærerne bruger resultatet til at få et overblik over de enkelte elevers niveau, er tallet marginaltmindre. 54 pct. svarer, at de i temmelig eller i meget høj grad bruger resultaterne til at få over-blik. For begge spørgsmål gælder det, at ca. en tredjedel af lærerne angiver, at de i nogen gradbruger resultaterne. Kun en meget lille andel af de adspurgte lærere giver udtryk for, at de sletikke anvender testresultaterne. Samlet set kan det altså konstateres, at testen anvendes til vur-dering af elevernes faglige niveau af et stort flertal af lærerne.Den lille forskel mellem anvendelse på klasse- og elevniveau kan ikke bekræftes fuldt ud af case-studierne. De interviewede lærere fortæller, at de først og fremmest orienterer sig om resultatetpå klasseniveau, når en test er gennemført, og resultatvisningen er tilgængelig, sådan som detudtrykkes i dette citat:Det er rart at se, hvordan klassens faglige niveau er – også i forhold til landsgennemsnittet! Jegkunne tydeligt aflæse, at min klasse var dygtig til afkodning og tekstforståelse, men at det kneblidt med sprogforståelsen. Det fik mig til i højere grad at gå i dybden med enkelte ord fra de tek-ster, vi arbejder med – og jeg blev meget forbavset over deres uvidenhed!Kilde: Kommentarfelt i spørgeskemaundersøgelsen for lærere.
5556
Brug testresultaterne – inspiration til pædagogisk brug af resultater fra de nationale test, Skolestyrelsen, 2011.Bekendtgørelse om elevplaner, elev- og uddannelsesplaner samt uddannelsesplaner i folkeskole, § 3, stk. 2.
Evaluering af de nationale test
40
Mange lærere giver udtryk for, at de kun ser på enkeltelevers resultater, hvis det overrasker iforhold til deres egen vurdering, ikke mindst hvis det overrasker negativt. Lærere, der har klas-ser, hvor det går godt, og hvor resultaterne er langt over middel, giver generelt udtryk for, at debruger mindre tid på opfølgning og vurdering af eleverne.På baggrund af ikke mindst casestudierne er det evaluators vurdering, at testresultaterne oftestses som et supplement af lærerne. Flere peger på, at nationale test mest af alt bekræfter et alle-rede eksisterende billede af elevernes faglige niveau, der er dannet på baggrund af anden løben-de evaluering. Dette synspunkt understøttes af kommentarer i spørgeskemaundersøgelsen:”Bruger ikke udelukkende nationale test som evalueringsredskab, der er jo flere aspekter i omløb– synes det giver et alt for entydigt billede – har jo andre evalueringsredskaber.””De nationale test bruges sammen med de andre papirtest, som en helhed sammen med mineegne observationer.”Kilde: Kommentarfelter i spørgeskemaundersøgelsen.
At evalueringsresultaterne ses som supplement til anden løbende evaluering stemmer overensmed de overordnede målsætninger i lovbemærkningerne, hvor det som nævnt netop pointeres,at nationale test er ét ud af flere pædagogiske værktøjer. Det er også en del af denne evalue-rings forandringsteori (og model for evalueringskultur), at der er et samspil mellem nationale testog den øvrige evalueringsindsats.Ser man på anvendelse af resultatet til vurdering af elevernes faglige niveau fordelt på de enkel-te testfag, så er der imidlertid tydelige forskelle, som det fremgår af tabellerne nedenfor.Tabel 4.2: Tænk tilbage på, da du fik resultaterne af de nationale test i foråret 2012. Hvad har du brugtresultaterne af de nationale test til? Til at få et samlet overblik overklassens faglige niveau.Angivet ipct.
SletikkeMatematikLæsningTestfag:EngelskGeografiFysik/kemiBiologi311576
I mindregrad86391710
I nogengrad313331343436
I temmelig højgrad404244383732
I meget højgrad18192113516
I alt (N)100 (499)100 (1043)100 (234)100 (97)100 (202)100 (87)
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Tabel 4.3: Tænk tilbage på, da du fik resultaterne af de nationale test i foråret 2012. Hvad har du brugtresultaterne af de nationale test til? Til at få et overblik over de enkelteelevers faglige niveau.Angivet ipct.
SletikkeMatematikLæsningTestfag:EngelskGeografiFysik/kemiBiologi312567
I mindregrad1276202515
I nogengrad323433343643
I temmelig højgrad384044302724
I meget højgrad15181611612
I alt (N)100 (499)100 (1043)100 (234)100 (97)100 (202)100 (87)
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Tabellen viser, at 65 pct. af lærerne i engelsk angiver, at de i meget eller temmelig høj grad bru-ger resultatet påklasseniveau.Dette tal er kun 42 pct. for fysik/kemi. Tilsvarende er tallene no-get lavere for de to andre naturfag på 8. klassetrin.
Evaluering af de nationale test
41
Billedet er endnu tydeligere, når der spørges til, hvorvidt resultatet bruges til at få overblik overenkelte eleversfaglige niveau. Her er svarer kun 33 pct. af fysik-/kemilærerne ’I meget høj grad’eller ’I temmelig høj grad’, hvor det i både dansk, læsning og engelsk er ca. 60 pct. Omvendtsvarer 31 pct. af fysiklærerne, at de slet ikke eller i mindre grad bruger resultaterne. For dansk,læsning og engelsk er dette tal kun ca. 8 pct.En antagelse kunne være, at resultaterne af en eller anden grund er sværere at orientere sig i fornogle faggrupper end andre, men i spørgeskemaundersøgelsen har 70 pct. af lærerne på tværsaf fag angivet, at de er helt – eller overvejende – enige i, at præsentationen af resultaterne itestsystemet giver et godt overblik over klassens faglige niveau i de dele af faget, der testes57.Det er evaluators vurdering, at de store forskelle i lærernes anvendelse af testresultaterne af-spejlergraden aftestenes samspil med denne øvrige evaluering. Det vil sige, at i nogle fag ind-går testen og testresultaterne i højere grad i lærernes (evaluerings)praksis/monitorering end iandre.Ikke mindst flere af de interviewede naturfagslærere, herunder fysik/kemi, giver udtryk for, atdet ikke opleves som meningsfuldt/udbytterigt at inddrage resultaterne i deres evaluering ogplanlægning af undervisningen. Dette vil blive uddybet i afsnittene om den fremadrettede anven-delse nedenfor.Nationale test i samspil med anden løbende evalueringSom nævnt indledningsvis forventes det, at testresultaterne fra nationale test anvendes fremad-rettet sammen med resultatet af den øvrige løbende evaluering. Evaluator har derfor spurgt indtil brugen af øvrige evalueringsværktøjer for at få et billede af den supplerende evalueringsprak-sis, testen indgår i et samspil med.Tabel 4.4: I hvilken grad gør du brug af nedenstående øvrige evalueringsværktøjer udover de nationaletest? Angivet i pct.
Slet ik-kePortfolioLærerlogbogElevlogbogElevplanSMTTE og kvalitetsstjerneDelphi-metodenEvalueringssamtaleHverdagsevalueringSelvevaluering (blandteleverne)AktionslæringsforløbUndervisningsobservationi samarbejde med team-medlemmer, faglige vejle-dere el.lign.Selvproducerede test,prøver og opgaverKommunale testAndre standardiseredeprøverAndet52384636191751369
I mindregrad2021245186792315
I nogengrad1725212214232313912
I temmelighøj grad713742613839204
I megethøj grad3322810171551
I alt (N)100 (2162)100 (2162)100 (2162)100 (2162)100 (2162)100 (2162)100 (2162)100 (2162)100 (2162)100 (2162)
47
24
19
7
3
100 (2162)
7582159
1211127
30152712
35112711
1751312
100 (2162)100 (2162)100 (2162)100 (2162)
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
57
Resultatvisningen analyseres selvstændigt i kapitel 8.
Evaluering af de nationale test
42
Det fremgår af tabellen, at de mest anvendte evalueringsværktøjer er selvproducerede test, prø-ver og opgaver samt standardiserede test58. Dette bekræftes af casestudierne. Enkelte af skoler-ne er dog ved at udfase de standardiserede læse- og matematiktest på de klassetrin, hvor der ernationale test. Det er evaluators antagelse, at ledelsen her vurderer, at nationale test giver et li-ge så godt overblik over elevernes faglige udvikling, som de standardiserede test. To test sammeår er derfor ikke nødvendigt.Størstedelen af alle lærere på tværs af fag peger desuden på afleveringsopgaver, selvproducere-de test og prøver eller prøver, der indgår som en del af et lærebogssystem, som noget af det,der fylder mest, når de skal beskrive deres egen evalueringspraksis. Netop sidstnævnte typerevalueringer er noget, som lærerne i naturfag på 8. klassetrin fremhæver i casestudierne. Dettekan være en del af forklaringen på, at denne faggruppe bruger testresultaterne i mindre grad.I forlængelse heraf skal det fremhæves, at stort set alle de interviewede lærere på tværs af fagpeger på den løbende evaluering af eleverne i den daglige undervisning på baggrund af dialogmed den enkelte elev, klassesamtaler, fremlæggelser mv. som en meget anvendt evaluerings-form59. At denne tilgang kan fylde meget, kommer klart til udtryk i en kommentar fra spørgeske-maundersøgelsen:”De nationale test fortæller ikke noget, som den gode lærer ikke vidste på forhånd. Ingen evalue-ringsform kan måle sig med den løbende dialog mellem lærer og elev sammenholdt med de ob-servationer, læreren gør sig i undervisningen.”Kilde: Kommentarfelt i spørgeskemaundersøgelse til lærere.
Den dialog- og samtalebaserede evalueringspraksis har en mere kvalitativ karakter og bygger pålærerens egen subjektive vurdering. Nogle lærere vælger at supplere denne evalueringsform meden lærerlogbog eller andre lignende skriftlige værktøjer. Det er dog evaluators indtryk, at det erde færreste lærere, der benytter sig af dette.På trods af, at de nationale test i vid udstrækning bliver brugt af lærerne i den danske folkeskoletil en vurdering af elevernes faglige niveau, ikke mindst på klasseniveau, er det evaluators vurde-ring, at mange lærere ikke oplever, at nationale test gør en forskel i relation til det pædagogiskearbejde i klassen. Det vil sige inddragelse af resultatet som grundlag forplanlægningaf den vide-re undervisning. Dette uddybes i næste afsnit.4.2Lærernes anvendelse af testresultaterne til planlægning af undervisningEvaluator gør brug af model for evalueringskultur som referenceramme til at vurdere skolernespraksis inden for evaluering – og dermed deres grad af evalueringskultur. Forenklet indebærerdette, at skoler vurderes af have svag/mindre grad af evalueringskultur, hvis man alene brugerresultaterne af de nationale test til vurdering, altså summativt. Tilsvarende klassificeres evalue-ringspraksis som værende på et højt niveau, hvis resultatet af evalueringen (bl.a. på baggrund afkollegial dialog og refleksion) bruges som grundlag for planlægning af en undervisning, der tagerudgangspunkt i den enkelte elevs behov og forudsætninger (undervisningsdifferentiering), det vilsige formativt.Det skal dog understreges, at der er tale om en flydende overgang mellem de forskellige niveau-er. En summativ anvendelse af resultaterne, som beskrevet i forrige afsnit, udelukker derfor ikkeen supplerende formativ brug, der vil blive analyseret nedenfor.Evaluator har i spørgeskemaundersøgelsen spurgt lærerne, i hvilken grad de har brugt resultatetaf nationale test fremadrettet, jf. tabellen nedenfor.
58
Det drejer sig konkret om prøver fra det der tidligere hed Dansk Psykologisk Forlag nu Hogrefe. Som eksempel kan nævnes – MAT-På trods af at ministeriet/styrelsen på uvm.dk definerer denne type evaluering som forskellige former for løbende skriftlig evalue-
prøverne i matematik samt OS 64, OS 120, ST-prøver mv. i læsning.59
ring, er det evaluators vurdering, at hverdagsevaluering af mange lærere er blevet fortolket som løbende mundtlig dialog ved besva-relse af spørgeskemaet. I så fald kan tabel 4.4 om evalueringsværktøjer bekræfte, at mange lærere gør brug af denne type evaluering.Evaluering af de nationale test
43
Tabel 4.5: Tænk tilbage på, da du fik resultaterne af de nationale test i foråret 2012. Hvad har du brugtresultaterne af de nationale test til? Angivet i pct.
SletikkeTil at tilrettelægge enundervisning, der tagerudgangspunkt i denen-kelte elevsfaglige ni-veauTil at tilrettelægge enundervisning, der tagerudgangspunkt iklas-sensfaglige niveau
I mindregrad
I nogengrad
I temmelighøj grad
I megethøj grad
I alt (N)
9
22
42
23
5
100(2162)
9
21
44
22
4
100(2162)
Kilde: Spørgeskemaundersøgelsen til lærere, 2013.
Det fremgår af tabellen, at 28 pct. af lærerne tilkendegiver, at de på baggrund af resultaterne afde nationale test i meget høj eller i temmelig høj grad tilrettelægger en undervisning, der tagerudgangspunkt iden enkelte elevsfaglige niveau. 42 pct. gør det i nogen grad, mens 31 pct. gørdet i mindre grad eller slet ikke. Resultatet er stort set det samme, når der spørges til, hvorvidtlærerne på baggrund af resultaterne tilrettelægger en undervisning, der tager udgangspunkt iklassensfaglige niveau.På trods af, at 42 pct. af lærerne svarer, at de i nogen grad bruger resultatet, så er det evalua-tors overordnede indtryk, på baggrund af casestudierne, at det fortsat kun er en forholdsvis lilledel af lærerne, derkonsekvent og systematiskbruger testresultaterne fremadrettet som grundlagfor planlægning af undervisningen.Direkte adspurgt har de fleste lærere svært ved at komme med konkrete eksempler på anvendel-se af testresultater til at understøtte en differentieret undervisning60i forhold til den enkelte elev.Nogle lærere (de fleste matematik- og dansklærere) nævner, at de udarbejder hæfter eller map-per med individuelle træningsopgaver, så eleverne hver især kan arbejde med de faglige temaer,hvor de har udfordringer. Der er altså først og fremmest tale om en differentiering af indholdet(opgavedifferentiering), sådan som det kommer til udtryk i citatet nedenfor:”De nationale test er et godt redskab til at få et overblik over elevernes standpunkt inden for detemne, der testes i. Efter enhver test er det (ifølge mig) vigtigt at evaluere med eleverne. De na-tionale test giver ikke altid et retvisende billede af elevens standpunkt i dansk, men kan vise om-råder, hvor eleven har brug for mere fokus, træning osv.”Kilde: Kommentarfelt i spørgeskemaundersøgelsen til lærere.
Undervisningsdifferentiering har imidlertid altid har været en udfordring i den danske folkeskole.Som eksempel kan nævnes EVAs undersøgelse fra 2011, der konkluderer, at der fortsat herskerusikkerhed om, hvad dette begreb dækker, samt at lærerne primært anvender evalueringsresul-tater bagudrettet61. Det er evaluators opfattelse, at de få eksempler på reel undervisningsdiffe-rentiering afspejler en mere generel tendens. Med andre ord kan denne evaluering bekræfte, atder er udfordringer med undervisningsdifferentiering, og brug af nationale test synes ikke umid-delbartaleneat være løsningen på denne problematik.Det skal dog nævnes, at man på én af de besøgte caseskoler har forpligtet lærerne på at fokuse-re på en differentieret tilrettelæggelse af undervisningen. Skoleledelsen har besluttet, at der skal60
Evaluator har i denne sammenhæng valgt en definition inspireret af Patricia A. Koeze som referenceramme:Undervisningsdifferenti-
ering er en undervisning, hvor læreren varierer indhold, processer og produkter med udgangspunkt i elevens parathed, interesser oglæringsbehov.Differentiated Instruction: Effect on Student Achievement in an Elementary School, s. 4, Patricia A. Koeze, 2007. En an-den meget anvendt definition er N. Egelunds, der definerer undervisningsdifferentiering som fem forhold læreren skal gøre sig overve-jelser om i planlægningen af undervisningen: Indhold/mål, metoder, organisering, materialer og tid (Undervisningsdifferentiering –Status og fremblik, Dafolo, Egelund, N., 2010).61
Undervisningsdifferentiering som bærende pædagogisk princip – En evaluering af sammenhænge mellem evalueringsfaglighed og
differentieret undervisning, Danmarks Evalueringsinstitut, 2011.Evaluering af de nationale test
44
udarbejdes en handlingsplan for de elever, der klarer sig klart over eller klart under middel i denationale test. Det er altså ikke op til den enkelte lærer at tage stilling til, hvorvidt der skal følgesop med individuelle tiltag.Boks 4.1: Eksempel på handleplan fra caseskole
Den nationale test, som klassen gennemførte d. 17.4., viser, at Nikolaj klarede sig rigtig godt i den nati-onale test i matematik. Særlig stærk er han inden for områderne ’geometri’ og ’matematik i anvendelse’og her vil Nikolaj i løbet af april få udleveret opgaver, der kan bidrage med flere udfordringer. Disse vilblive udvalgt i samarbejde med skolens matematikvejleder. Nikolaj har fået udleveret en ekstra Rema-arbejdsbog, som passer til hans niveau, og desuden udfordres han i undervisningen med sværere opga-ver og spørgsmål end mange af de øvrige elever. Nikolaj skal i øvrigt sammen med nogle af de øvrigeelever lave en skitse over vores mooncarbane i det rigtige målestoksforhold m.m. Han udfordres endvi-dere med materialet ’snak om… - samtalekort” (for 3.-6. klasse).
Det er evaluators indtryk, at i det omfang, resultater anvendes fremadrettet, sker det oftest iforhold til et specifikt profilområde62, hvor klassen samlet set har scoret mindre godt. I sådannesituationer fortæller flere lærere, at de efterfølgende har gennemført et nyt undervisningsforløbmed fokus på det konkrete profilområde.Sammenholdt med evaluators model for evalueringskultur er hovedindtrykket, at der endnu er etstykke vej for mange skoler og lærere. På de fleste skoler arbejdes der, som konstateret i forrigeafsnit, summativt med resultatet af testen, hvorimod det fortsat er en udfordring, som det erfremgået, med den formative anvendelse.Den begrænsede fremadrettede brug kan ses som udtryk for, at en stor del af lærerne, som tidli-gere nævnt, i højere grad anvender resultatet afanden løbende evaluering.Men fag, kultur ogledelse spiller også ind. Førstnævnte tydeliggøres, når lærernes besvarelser deles op på fag.Tabel 4.6: Tænk tilbage på, da du fik resultaterne af de nationale test i foråret 2012. Hvad har du brugtresultaterne af de nationale test til? Til at tilrettelægge en undervisning der tager udgangspunkt i klas-sens faglige niveau. Angivet i pct.
SletikkeMatematikLæsningTestfag:EngelskGeografiFysik/kemiBiologi1067142017
I mindregrad211816262929
I nogengrad414748413937
I temmelig højgrad232424161113
I meget højgrad545325
I alt(N)100 (499)100 (1043)100 (234)100 (97)100 (202)100 (87)
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
62
Se kapitel 7 for definition af profilområder.
Evaluering af de nationale test
45
Tabel 4.7: Tænk tilbage på, da du fik resultaterne af de nationale test i foråret 2012. Hvad har du brugtresultaterne af de nationale test til? Til at tilrettelægge en undervisning der tager udgangspunkti denenkelte elevs faglige niveau. Angivet i pct.
SletikkeMatematikLæsningTestfag:EngelskGeografiFysik/kemiBiologi857192120
I mindregrad261722363530
I nogengrad404544353337
I temmelig højgrad23282391110
I meget højgrad564103
I alt(N)100 (499)100 (1043)100 (234)100 (97)100 (202)100 (87)
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Ovenstående tabeller viser, at engelsklærerne ligger på niveau med matematik- og dansklærere,når man ser på andelen af lærere, der i meget høj eller i temmelig høj grad angiver, at de brugertestresultatet på klasseniveau (ca. 30 pct.), tilsvarende billede tegner sig, når man ser på brugeni relation til enkelte elever. Engelsklærerne skiller sig dermed klart ud i forhold til gruppen af na-turfagslærerne, hvor andelen af lærere, der i meget eller i temmelig høj grad bruger testresulta-terne, er noget mindre, mellem 13 og 19 pct.Denne forskel i anvendelsesgraden fagene imellem uddybes i afsnittene nedenfor.LæsetestenPå trods af, at ikke mindst casestudierne overordnet set giver anledning til at konkludere, at detfortsat er en mindre andel af lærerne, der anvender de nationale test fremadrettet, så er detsamtidig vurderingen, at flere kan se værdien i, at testresultaterne kan være med til atkvalifice-re deres undervisning,som én udtrykker det. Ikke mindst i relation til læsetesten gør denne ud-vikling sig gældende, hvilket der efter evaluators vurdering er flere grunde til.For det første er der tale om en afgrænset færdighed inden for faget dansk, jf. kapitel 7. At læse-testen alene afspejler klart definerede elementer af faget, gør det mere overskueligt for den en-kelte lærer at se på resultatet og udvælge de elementer, der skal følges op på i undervisningen.Boks 4.2: Eksempel på opfølgning i relation til enkeltelever
En dansklærer fra mellemtrinnet fortæller, at hun udarbejder læsefokuspunkter for hver elev på baggrundaf resultatet i de nationale test i dansk, læsning. Fokuspunkterne skrives ind i elevplanen og udleveres tilden enkelte elev på et lamineret ark, så han eller hun kan have det med sig rundt både i skolen og hjem-me. Et fokuspunkt kan fx være, at en elev ”skal se nyheder og undre sig over nye ord, som han/hun stø-der på”.
For det andet gennemføres der, som tidligere nævnt, fire obligatoriske læsetest på 2., 4., 6. og8. klassetrin. Dertil kommer de frivillige test året før og efter, hvilket gør det muligt at gennemfø-re en national læsetest hvert år. Dette sammenholdt med danskfagets timetal skaber mulighedfor at følge systematisk og kontinuerligt op på resultaterne – noget lærerne, der underviser i na-turfagene på 8. klassetrin, efterlyser (se nedenfor).For det tredje peger flere af de besøgte skoler/interviewede lærere på, at de har haft stor glædeafprofilberegnerenmed tilhørende bog63. Bogen giver konkrete anvisninger til, hvordan testresul-tatet fordelt på elevprofiler kan indgå i lærerens analyse med henblik på den fremadrettede plan-lægning af undervisningen. Lærerne på flere skoler fremhæver denne hjælp til atoversættere-sultatet til konkret pædagogisk praksis som meget værdifuldt. Flere peger også på, at kurser
63
Nationale test og anden evaluering af elevens læsning, L. Pøhler & S. A. Sørensen, Dafolo, 2011.
Evaluering af de nationale test
46
med fokus på analyse af resultater og forskellige elevprofiler har været en øjenåbner i relation tilanvendelse af testresultaterne.For det fjerde har stort set alle skoler i dag ansat en læsevejleder64, hvilket antages at kunne un-derstøtte en fremadrettet anvendelse at testresultaterne. Se nedenfor om brugen af ressource-personer.Sidst, men ikke mindst, har lærerne i dansk en lang tradition for at gennemføre og anvende testinden for læseområdet.Evaluator har undersøgt om der forskel på graden af anvendelse, når man deler lærernes besva-relse op på henholdsvis 2., 4., 6. og 8. klassetrin, men der kan ikke påvises en sammenhæng.Lærerne anvender resultatet i lige høj grad på alle trin.MatematikHvor der, som nævnt, inden for testen i dansk, læsning sker en udvikling frem mod en højeregrad af fremadrettet anvendelse, er det evaluators vurdering, at denne udvikling er mindre udtalti relation til matematiktesten, om end resultatet fra spørgeskemaundersøgelsen viser, at fagetligger på niveau med dansk, læsning og engelsk, se tabel 4.6. I det omfang testresultaterne bru-ges fremadrettet, så sker det som oftest, som nævnt ovenfor, på klasseniveau. Undervisning, dertager udgangspunkt i den enkelte elev, sker i langt højere grad på baggrund af anden løbendeevaluering.Som begrundelse for ikke at bruge testresultaterne peger flere af de interviewede lærere på, atikke mindst timingen er uhensigtsmæssig. På 6. klassetrin, hvor den anden af de to matematik-test er placeret, afgiver mange lærere deres klasse til en udskolingslærer. Dette medfører, at denlærer, der afgiver klassen, ikke er motiveret for eller har tid til at følge op på resultatet. Den læ-rer, der modtager klassen, bruger i nogle tilfælde resultatet til at orientere sig om klassens fagli-ge niveau, hvor andre giver udtryk for, at de slet ikke har adgang til resultaterne65. Hovedind-trykket er, at resultaterne fra testene på dette klassetrin i mindre grad kommer i anvendelse.For andre lærere er udfordringen, at de ikke mener, at testen afspejler den daglige undervisningog undervisningsmateriale:”De nationale test bør være medvirkende til en meget kompetent evaluering. Jeg mener dog ik-ke, at [opgaverne i] de nationale test i matematik på tilfredsstillende vis ligner de opgaver, ele-verne møder i relevante grundmaterialer for årgangen. Dette bør man i højere grad tage ud-gangspunkt i. Grundmaterialerne lever op til trinmålene.”Kilde: Kommentarfelt i spørgeskemaundersøgelsen til lærere.
At opgaverne ikke afspejler gældende trinmål er en udfordring, som også de faglige eksperterpåpeger (jf. kapitel 7). Flere matematiklærere giver udtryk for, at det generelt er en udfordringat uddrage resultatet af testen og oversætte det til konkret praksis. En lærer udtrykker det påfølgende måde:”Jegkan ikke samle op og bruge testen fremadrettet. Det ville tage alt for lang tid, fordi man skalse samtlige opgaver for hver elev. Hvad er fxmatematik i anvendelse?66Det giver mig ikkenok information. Jeg vil kunne se, at jeg fx skal undervise mere i trekantsgeometri. Ligesom mankan med MG-testene.”Kilde: Citat fra lærerinterview i casestudie.
Denne henvisning til specifikke standardiserede test gentages af flere lærere i casestudierne. Defremhæver MG-prøverne eller MAT-prøverne, der i dag findes i elektronisk form, som et eksempelpå en test, der automatisk genererer en tilbagemelding til læreren, og som umiddelbart kan dan-ne grundlag for en videre planlægning/opfølgning i undervisningen både på klasse- og elevni-646566
97,4 pct. af skolerne svarer i spørgeskemaundersøgelsen ja til, at de har en læsevejleder ansat på skolen.Dette skyldes i nogle tilfælde, at eleverne skifter til en overbygningsskole.Der henvises her til ét af de tre profilområder i matematik.
Evaluering af de nationale test
47
veau. Det er evaluators vurdering, at denne form for resultatvisning, sammenholdt med at der eren test på hvert klassetrin, er én af hovedårsagerne til, at mange lærere i højere grad brugerdisse test som udgangspunkt for den videre planlægning67.EngelskPå trods af at engelsk, ligesom naturfagene, kun har én test sent i skoleforløbet, så er der klarforskel på andelen af lærere, der angiver, at de bruger resultatet fremadrettet, som det fremgikaf tabel 4.6 og 4.7.Som nævnt gælder det for både engelsk og naturfagsgruppen, at der kun er én obligatorisk test iskoleforløbet. Resultatet indikerer derfor, at det ikke alene er antallet af test, der er afgørendefor graden af anvendelse. Evaluator har derfor ud fra spørgeskemaundersøgelsen til lærerne un-dersøgt sammenhængen mellem lærernes holdning til de nationale test med deres grad af an-vendelse, og der er en klar positiv sammenhæng. Jo mere positiv, lærerne er over for de natio-nale test, i jo højere grad anvender de resultatet af dem.Dette resultat understøttes af det generelle indtryk fra casestudierne, hvor de fleste af engelsk-lærerne udtrykker, at de er tilfredse med testen. Dette skyldes ikke mindst, at der ikke har væretstandardiserede test til rådighed forud for indførelsen af de nationale test, som det har været til-fældet i matematik og dansk. Engelsklærerne har derfor nu fået muligheden for et mere objektivtbillede af klassens faglige niveau. Inden indførelsen af de nationale test har lærerne i høj gradværet afhængige af deres egen subjektive vurdering, og den har ikke altid været helt retvisende.En lærer nævner som eksempel, at det kom bag på hende, hvor dårligt et resultat klassen havdeinden for profilområdet ordforråd. Fremadrettet var det derfor en naturlig konsekvens i højeregrad at målrette klassens undervisning i den retning.Et andet spørgsmål i spørgeskemaundersøgelsen understøtter ligeledes billedet af engelsklærernesom en faggruppe, der bruger testresultatet i højere grad end andre. På spørgsmålet om, i hvil-ken grad man som lærer har dialog med hver enkelt elev om resultatet af testen, svarer 71 pct.af engelsklærerne, at de i meget høj eller i temmelig høj grad har denne dialog. For dansk ogmatematik er tallet lidt over 50 pct., og for naturfagenes vedkommende ligger tallet lidt under.Det skal dog understreges, at en dialog med eleven om testresultatet ikke nødvendigvis er ens-betydende med, at det anvendes fremadrettet, men resultatet kan indikere, at netop engelsklæ-rerne generelt har en særskilt interesse i opfølgning på og anvendelse af testen.Enkelte lærere har peget på, at testen ligger sent i skoleforløbet. En test på et tidligere klassetrinvil kunne understøtte en højere grad af fremadrettet anvendelse/opfølgning. Ikke mindst set i ly-set af at engelsk vil blive introduceret som fag i 1. klasse fra 2014.Naturfagene på 8. klassetrinSom det fremgik af tabel 4.6 og 4.7 ovenfor, så er andelen af lærere i naturfag, der bruger resul-tatet af testen på klasseniveau, markant mindre end andelen af lærere i engelsk, dansk og ma-tematik.Tilbagemeldingen fra naturfagslærerne på tværs af de skoler, der har deltaget i casestudiet, erstort set enslydende. De fleste giver udtryk for, at de ikke bruger testresultaterne. Det skyldes,dels at der er meget få timer i fagene, så der ikke er tid til at følge op, dels at undervisningen ifagene i høj grad er tilrettelagt ud fra faglige temaer/emner fordelt over de tre år, eleverne harfagene. (Dette er ikke tilfældet i engelsk, hvor de tre profilområder samt opgaveemnerne68i høje-re grad afspejler faglige elementer, der arbejdes med løbende). Konsekvensen af den temaopdel-te undervisning i naturfagene fremgår klart af dette citat:
67
Det har været fremhævet af flere datakilder, at der opleves utryghed ved, at der i matematiktesten kan være store udsving i resul-
taterne inden for samme profilområde, hvis elever tager både den obligatoriske og frivillige test. Evaluator har ikke haft mulighed forat validere disse udsagn.68
For definition af opgaveemner, se kapitel 7.
Evaluering af de nationale test
48
”Efter min mening skal eleverne testes i ting, som er gennemgået. Men da testen ikke er tilrettetden enkelte klasse, kan der ofte forekomme spørgsmål, hvor eleverne ikke har fået den fornødneundervisning. Muligvis fordi andre emner er valgt, eller fordi at emnet først er planlagt til senere.Eleverne er under og efter testene frustrerede, da de føler, at de ikke har viden om nødvendigeting.”Kilde: Kommentarfelt i spørgeskemaundersøgelse til lærere.
Lærerne oplever altså, at testresultatet i højere grad afspejler de temaer, eleverne er blevet un-dervist i, frem for at give et retvisende billede af elevernes faglige niveau, og det er ikke motive-rende for en fremadrettet brug. Nogle lærere har valgt at prioritere en hurtigere gennemgang affaglige temaer, så klassen er nået igennem flest muligt inden den obligatoriske test. Konsekven-sen er, at tempoet er højt, og det går ud over forståelsen hos nogle elever.På én af de skoler, hvor ledelsen havde klare forventninger til gode faglige resultater, lagde na-turfagslærerne ikke skjul på, at de målrettede undervisningen frem mod den obligatoriske test.Det har resulteret i, at den praktiske del af fagene, som feltbiologi (fx ture ud af huset til skoveog åer) er blevet nedprioriteret og stort set ikke finder sted mere, hvilket ærgrer dem. Målretningaf undervisningen frem mod testen uddybes yderligere nedenfor.Samlet set er tilbagemeldingen fra denne faggruppe, at de i langt højere grad er orienteret modafgangsprøverne end de nationale test. Sidstnævnte spiller en meget lille rolle i tilrettelæggelsenaf det videre arbejde hos langt de fleste.Skoleledernes vurderingTil brug for vurderingen af, i hvilken grad lærerne anvender testresultatet, har evaluator ogsåspurgtskolelederneom deres vurdering:Tabel 4.8: I hvilken grad anvender skolens lærere resultater af de nationale test på følgende måde? An-givet i pct.
SletikkeBidrag til at få etoverblik over klas-sens/elevens fagligeniveauSkolens lærere bru-ger resultaterne afde nationale test tilfremadrettet at tilret-telægge en undervis-ning, der tager ud-gangspunkt i den en-kelte elevs faglige ni-veau
I mindregrad
I nogengrad
I temmelighøj grad
I megethøj grad
Vedikke
I alt(N)100(728)
0
4
28
38
29
1
0
11
46
30
11
2
100(728)
Kilde: Spørgeskemaundersøgelse til skoleledere, 2013.
Skoleledernes besvarelse viser, at de generelt er mere positive i relation til lærernes anvendelse.41 pct. vurderer, at lærerne i meget høj eller i temmelig høj grad anvender resultaterne fremad-rettet i forhold til den enkelte elev. 46 pct. vurderer, at de gør det i nogen grad. Forskelligheden ivurderingen af anvendelsen af testen kan bl.a. hænge sammen med, at 62 pct. af skoleledernesvarer, at de først og fremmest leder efter mål og rammer. Det vil i hovedtræk sige at udstikkeoverordnede visioner og mål samt fokusere på tillid, inddragelse og delegering. Pædagogisk le-delse i form af løbende dialog og sparring samt jævnlig klasserumsobservation fylder mindre iden daglige praksis.Den divergerende opfattelse lærere og ledere imellem indikerer, at det i relation tilimplemente-ringenaf de nationale test kan være en udfordring, at skoleledelsen ikke alle steder er tæt påpraksis. På nogle skoler vil der være risiko for, at ledelsen har en misvisende opfattelse af, i hvil-ken grad lærerne arbejder med og anvender testene til vurdering og planlægning af undervisnin-
Evaluering af de nationale test
49
gen. Konsekvensen kan være, at skoleledelsen ikke i tilstrækkelig grad får skabt nogle organisa-toriske rammer og strukturer, der understøtter den fremadrettede anvendelse af testen. Derhenvises til kapitel 6 for en detaljeret analyse af de deltagende skolers ledelsespraksis.Det er evaluators vurdering, at langt de fleste lærere og skoleledere ikke længere sætterspørgsmålstegn ved,omman skal evaluere systematisk. Det er nu mere et spørgsmål omhvor-dan.Både i relation til hvilke evalueringsværktøjer man ønsker at anvende, og i relation til hvilkesystematikker og rammer der skal tilrettelægges med henblik på at understøtte en fremadrettetanvendelse.At resultatet af testene anvendes fremadrettet i begrænset omfang i forhold til den fremadrette-de anvendelse kan for en del læreres vedkommende umiddelbart tolkes som et udtryk for et fra-valg af nationale test som evalueringsværktøj til fordel for andre.RessourcepersonerAfslutningsvist skal evaluator pege på ressourcepersonernes rolle i relation til anvendelse af test-resultater. I evaluators model for evalueringskultur er det en afgørende faktor for en stærk kul-tur, at der finder et systematisk/kollegialt samarbejde sted med henblik på at tolke og brugetestresultatet fremadrettet. Denne del er tilsvarende fremhævet i den anvendte forandringsteori,bl.a. på baggrund af resultater fra nyere forskning69.Evaluator har i spørgeskemaundersøgelsen til lærerne spurgt til graden af brug af klasse- og fag-team samt ressourcepersoner. Med ressourcepersoner menes der læsevejledere, matematikvej-ledere mv.Tabel 4.9: Drøftelse af brugen af resultater med klasse- eller fagteam samt ressourcepersoner. Angivet ipct.
Slet ik-keJeg drøfter brugen afre-sultaterneaf de natio-nale test i mit klasseteameller årgangsteamJeg drøfter brugen afre-sultaterneaf de natio-nale test i et fagteamJeg drøfter brugen afre-sultaterneaf de natio-nale test med en fagligressourceperson (læse-vejleder, matematikvej-leder mv.)
I mindregrad
I nogengrad
I temmelighøj grad
I megethøj grad
I alt (N)
11
24
40
18
7
100 (2162)
24
32
30
12
3
100 (2162)
31
21
24
16
7
100 (2162)
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Resultatet viser, at knap halvdelen af lærerne slet ikke eller i mindre grad inddrager fagteam ogfaglige ressourcepersoner i drøftelse af testresultaterne. Kollegial sparring med klasseteamskolle-ger viser sig at være den mest anvendte form for dialog.Casestudierne underbygger ovenstående og viser, at praksis er meget forskellig fra skole til sko-le. Evaluator har besøgt en skole, hvor inddragelse af fagteam/faglige ressourcepersoner i tolk-ning og analyse af testresultater er meget systematiseret og tydelig, først og fremmest på læse-området, men med ambitioner om at udvide det til matematik og naturfag.Andre af skolerne fortæller, at de er i en opstartsfase, og at man fra næste skoleår vil arbejdesystematisk med at inddrage i første omgang læsevejlederen i en fælles tolkning og opfølgningpå læseresultaterne i danskfagteamet. De fleste af de besøgte caseskoler har dog ikke nogen fastpraksis for inddragelse af ressourcepersoner/faglige vejledere.69
Se bl.a. Synlig læring – for lærere, Dafolo, John Hattie, 2013.
Evaluering af de nationale test
50
Casestudier på de skoler, der påtænker eller allerede har påbegyndt det systematiske arbejdemed inddragelse af ikke mindst læsekonsulenter, giver evaluator grundlag for at vurdere, at ind-dragelse af faglige ressourcepersoner kan gøre en forskel i relation til den fremadrettede anven-delse af de nationale test som en del af den løbende evaluering. Den faglige vejleder kan netophjælpe den enkelte lærer med at oversætte testresultatet til pædagogisk praksis, og man kan iden fælles dialog sammen med fagteamet finde frem til konkrete indsatser målrettet klassen,grupper af elever eller enkelte elever. Det er tydeligt, at de lærere, der har deltaget i et fællesfortolkningsarbejde, har en høj grad af faglig indsigt og viden om læsning – en indsigt og viden,som de bl.a. vil kunne sætte i spil i planlægningen af undervisningen.Boks 4.3: Inddragelse af faglige ressourcepersoner på en skole (baseret på casestudie)
Skolen har to matematikvejledere, som hver har 250 vejledningstimer på årsbasis. Skolens læsevejlederer den pædagogiske afdelingsleder. Hun har 1400 timer om året til vejledningsfunktionen. Skolen harprioriteret de faglige vejledere og finansierer timerne ved at nedlægge tolærerordningen på skolen. Næ-ste år bliver man nødt til at halvere antallet timer til de faglige vejledere grundet generel stram økono-mi.Efter gennemførelsen af nationale test er der stor forskel fra matematik til dansk på, hvordan de fagligevejledere benyttes.Matematikvejlederentaler som udgangspunkt kun med lærerne, hvis der er udsving, som undrerham. I det tilfælde sætter han sig med den pågældende lærer og analyserer testresultatet. Målet er bl.a.at finde frem til, hvorvidt eleven bare har klikket sig gennem opgaverne, eller om han/hun har taget te-sten seriøst. Matematikvejlederen bliver også brugt til at lave konkrete undervisningsforløb i klasser somopfølgning på testen (sidemandsoplæring). Det bruges meget på skolen. Dog pointeres det, at side-mandsoplæring ikke er en del af den danske skolekultur, hvorfor det har krævet en tilvænningsperiode.Læsevejlederenhar én gang årligt en klassekonference med alle klasser. Her tages alle klassens fag opmed udgangspunkt i resultaterne af den nationale læsetest og med inddragelse af resultatet af andrestandardiserede test. Målet er, at lærerne skal være gode til at bruge hinanden på tværs af fag. Et dår-ligt resultat i en matematiktest kan fx skyldes elevens ringe læsekundskaber.På klassekonferencen redegør læsevejlederen indledningsvis for klassens resultat i læsetesten. Lærernekigger derefter på tværs af fag og sammenligner testresultater. Efterfølgende tages der beslutning omen indsats over for de svage elever. Da der kun er klassekonferencer én gang årligt, kan der godt gå tidfra testen er gennemført til resultatet drøftes i plenum, men læsevejlederen påpeger, at lærerne og le-delsen er gode til at tage tingene løbende. Generelt gælder det, at ressourcerne især bruges, der hvorder er udfordringer (i form af elever med vanskeligheder).Læsevejlederen har i indskolingen arbejdet målrettet med at ensrette evalueringspraksissen, således atdansklærerne i indskolingen i dag evaluerer ens, det vil sige, at de bl.a. er enige om, hvad der kende-tegner specifikke faglige niveauer hos eleverne. Udviklingen er ifølge lærerne sket inden for de seneste 5år. Læsevejlederen har holdt fast i fagudvalgsmøder, hvor dansklærerne bl.a. har diskuteret materialerog evalueringspraksis. Ifølge dansklærerne har ensretningen den værdi, at lærerne kan bruge hinandensom sparringspartnere på en ny og bedre måde, fordi de har udviklet et fælles sprog og en fælles forstå-else af danskfaget og dets faglige elementer.Vejlederne påpeger generelt, at det ligger i vejlederfunktionen at være opsøgende, og det er også deresopfattelse, at lærerne forventer det. Vejlederne forventer altså ikke, at lærerne opsøger dem på bag-grund af resultaterne fra nationale test, det er den anden vej rundt. Begge vejledere pointerer, at natio-nale test er et positivt redskab, der kan understøtte deres funktion, da testene bidrager til at kvalificereden faglige dialog.
Evaluering af de nationale test
51
Det skal i denne sammenhæng nævnes, at i relation til engelsk og inddragelse af faglige vejlede-re er der en særskilt udfordring, som flere lærere i casestudierne peger på. Det er ofte sådan, atengelsklæreren i 7. klasse er alene på årgangen eller selv er fagansvarlig. Dertil kommer, at derkun er én test i hele skoleforløbet (de frivillige test nævnes ikke i denne sammenhæng). Engelsk-lærerne giver derfor udtryk for, at det kan være svært at finde et fagligt forum, hvor det givermening at drøfte resultatet af testen.4.3De nationale tests indflydelse på lærernes prioritering af undervisningens indholdVurderingen af, i hvilken grad de nationale test har indflydelse på lærernes prioritering af under-visningens indhold, tager udgangspunkt i begrebetteaching to the test,der ofte refereres tilsom en utilsigtet konsekvens af brugen af test, samt det relaterede begrebwashback,der defi-neres somthe effects of tests on teaching and learning, the educational system, and the variousstakeholders in the education process70. Det vil sige, at testen bliver styrende for, hvad der kom-mer til at foregå i undervisningen.Hvor definitionen afteaching to the testhar en negativ klang, så åbner definitionen af washbackop for, at man kan tale om både negativ og positiv påvirkning af/indflydelse på undervisningen.Hvorvidt der er tale om det ene eller det andet, vil i nogen udstrækning afhænge af øjnene, derser71, som det fremgår nedenfor. Det er denne nuancerede tilgang, der ligger til grund for evalua-tors analyse.
Man kan tale om washback når:Der er forskel på undervisningen i et konkret fag, der leder frem mod en test, og den undervisning isamme fag, der ikke leder frem mod testDen undervisning, der leder frem mod testene, ligner hinanden hos flere forskellige lærere, og det,der undervises i, afspejler testenes indhold.Med inspiration fra Liying Cheng, Yoshinori Watanabe og Andy Curtis (red.):Washback in language testing: Research contexts and methods, 2004, s. 37.
I forlængelse af ovenstående vil man også kunne tale om en stærk eller svag påvirkning af tilret-telæggelsen og gennemførelsen af undervisningen, herunder om testen påvirker hele eller dele afundervisningen, i kort eller lang tid, om testen påvirker alle lærere eller få lærere, i alle testfageller i enkelte testfag.Evaluator har ligeledes undersøgt, hvorvidt man kan tale omwashback to learnersi relation tilelevernes måde at lære/forberede sig frem mod testene, idet der kan forventes en vis washback-effekt for nogle elevgrupper, der vil komme til udtryk ved en prioritering af deres arbejde og for-beredelse af visse elementer, som de ved, de skal testes i, sammenlignet med andre elementer,som de ved, de ikke skal testes i. Dette besvares kort nedenfor.
70
Washback in language testing: Research contexts and methods, s.37, Liying Cheng, Yoshinori Watanabe og Andy Curtis (red.),De nationale test i et pædagogisk perspektiv, i: Test i folkeskole, Hans Reitzels Forlag, Stæhr, L. S., 2009.
2004.71
Evaluering af de nationale test
52
LærerneEvaluator har i spørgeskemaundersøgelsen blandt lærerne spurgt ind til, i hvor høj grad deresundervisning påvirkes af de nationale test (obligatoriske og de frivillige), samt i hvilket omfangdet sker, det vil sige, hvor meget af skoleåret der evt. påvirkes.Tabel 4.10: I hvilken grad er du enig eller uenig i følgende udsagn om de nationale tests eventuelle ind-flydelse på din undervisning? Angivet i pct.
SletikkeJeg målretter min under-visning frem modde ob-ligatoriske testved atinddrage elementer af fa-get, der testes iJeg målretter min under-visning frem modde fri-villige testved at ind-drage elementer af faget,der testes iJeg opprioriterer under-visningen i de faglige om-råder, der testes i,heleåretJeg opprioriterer under-visningen i de faglige om-råder, der testes i,desidste ugerinden testensgennemførelseDer er dele af fagets trin-mål, som jegvælger ikkeat tilgodese i undervisnin-gen, fordi det faglige om-rådeikke testes i de natio-nale testJeg målretter min under-visning frem mod de nati-onale test for at sikre, atresultaterne er så godesom muligt i forhold tillandsgennemsnittet (somoffentliggørelse én gangårligt på www.uvm.dk)
I mindregrad
I nogengrad
I temme-lig højgrad
I megethøj grad
Vedikke
I alt(N)
18
27
36
13
6
1
100(2162)
24
31
30
10
4
1
100(2162)
22
29
31
11
6
1
100(2162)
26
29
25
13
6
1
100(2162)
68
19
8
2
1
2
100(2162)
42
28
20
6
4
1
100(2162)
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Tabellen viser, at ca. halvdelen af lærerne giver udtryk for, at de slet ikke eller i mindre gradmålretter undervisningen frem mod de frivillige og de obligatoriske test. Stort set samme andelgiver udtryk for, at de ikke opprioriterer de elementer af faget, der testes i, hverken hele året el-ler de sidste uger op til testen. Modsat giver den anden halvdel udtryk for, at de både målretterog opprioriterer elementer af faget. Størstedelen dog kun i nogen grad.Deler man lærerbesvarelserne op på indskoling, mellemtrin og udskoling, tegner der sig et tyde-ligt billede. Her viser det sig, at andelen af indskolingslærere, der i meget høj eller i temmelig højgrad målretter undervisningen frem mod de obligatoriske test, er 23 pct., hvor den kun er 13 pct.for udskolingslærernes vedkommende. Blandt udskolingslærerne er der lidt over halvdelen, dersvarer, at de slet ikke eller i mindre grad målretter undervisningen. For indskolingslærernes ved-kommende er der kun en tredjedel.En sandsynlig årsag til ovenstående forskelle er, at udskolingslærerne først og fremmest er orien-teret mod afgangsprøverne frem for testene, hvilket flere interviewpersoner har givet udtryk for.
Evaluering af de nationale test
53
Det er disse resultater, der først og fremmest tæller, og det er derfor, man målretter sin indsats iden retning.Grupperinger blandt lærerneResultaterne i spørgeskemaundersøgelsen vedrørende testens indflydelse på lærernes undervis-ning, understøttes af casestudierne. Det er evaluators vurdering, at lærerne deler sig i to grup-per. De lærere, der klart melder ud, at de aldrig kunne finde på at lade deres undervisning påvir-ke af de nationale test, og de lærere, der tilkendegiver, at de målretter undervisningen i ét ellerandet omfang. Citatet afspejler den gruppe af lærere, der ikke lader sig påvirke:”Nationaletest skal ikke styre mig, og hvordan jeg laver god undervisning. Skal jeg sætte migned og kigge efter, hvad det er, jeg skal undervise efter? Nej! Jeg er med til at danne menne-sker, og det er den der test ikke – den tester kun faglighed.”Kilde: Citat fra lærerinterview i casestudie.
Andre lærere sammenligner målretning af undervisningen med Tour de France. Man vinder ikkehele løbet ved kun at træne spurt. På samme måde bliver man ikke god til hele faget ved kun atfokusere på udvalgte elementer.Blandt de lærere, der målretter deres undervisning, finder man yderligere en opdeling i to grup-per. Den ene gruppe er af den opfattelse, at de faglige emner, der testes, er helt legitime. Testenafspejler Fælles Mål, og det giver derfor god mening at målrette dele af sin undervisning moddisse elementer, altså en positiv washback. Flere lærere og skoleledere fortæller, at de inddragerresultatet af de frivillige test i efteråret og bruger det til at tage beslutning om, hvilke fagligeelementer der skal være fokus på i foråret. Flere peger dog ligeledes på, at der er tale om enhårfin balance, der ikke må tage overhånd. På baggrund af casestudierne er det ikke evaluatorsindtryk, at denne målrettethed udelukker undervisning i ikke-testbare kundskabs- og færdig-hedsområder i Fælles Mål.Den anden gruppe lærere lader taktiske overvejelser veje tungt; ”Vier jo ikke dumme”,som énudtrykker det. Dette skal først og fremmest tolkes i retning af, at lærerne er bevidste om, attestresultaterne fra de nationale test har en anden form for fokus end andre standardiseredetest. De oplever, at både forældre og ikke mindst skoleledelse er optaget af, at eleverne klarersig godt. Læreren føler sig derfor nødsaget til at give denne test ekstra opmærksomhed. For enrække lærere er der tale om en klart negativ påvirkning af undervisningen, hvilket understreges idette citat:Jeg oplever desværre, at lærere, deriblandt mig selv, føler sig nødsaget til at tilrettelægge under-visningen med det ene formål: At eleverne får et godt resultat i de nationale test, for at skolenfremstår som en "god skole."Kilde: Kommentarfelt i spørgeskemaundersøgelse til lærere.
Nogle skoleledere oplever på samme måde, at de nationale test påvirker undervisningen nega-tivt. De giver udtryk for, at testen har medførtteaching to the testpå en måde, der ikke er hen-sigtsmæssig, da de nationale test ikke i sig selv bidrager med noget nyt rent evalueringsmæs-sigt. Lærerne bliver på trods af dette nødt til at fokusere på indholdet af dem, da de er obligatori-ske, og det ses som et forstyrrende element i en allerede eksisterende evalueringspraksis.En anden gruppe skolelederne oplever modsat, at testen på positiv vis har været med til at sættefokus og øge bevidstheden om fagligheden72.I forlængelse af ovenstående skal det også påpeges, at nogle lærere er bevidste om, at testen iét eller andet omfang afspejler deres egen indsats, hvilket også har indflydelse på lærernes prio-riteringer af undervisningen. Dette fremgår bl.a. af følgende citat:
72
Kommentarfelt i spørgeskemaundersøgelse til ledere.
Evaluering af de nationale test
54
”De nationale test er politikernes måde at flytte ansvaret væk fra sig og over på skolen samt øgekontrollen af den enkelte underviser. Testene er klart en stressfaktor på lærerværelserne, daman jo kan vurderes sammen med andre... Det bør være nok med tillid og ikke test.”Kilde: Kommentarfelt i spørgeskemaundersøgelse lærere.
Andre oplever det som positivt, at lederen kan følge resultatet af ens praksis. Nogle lærere for-tæller, at hvis ikke skolelederen selv er opmærksom på et godt testresultat, så gør de selv op-mærksom på det.Ikke mindst på de skoler, hvor skoleledelsen har tydelige forventninger til, at skolen klarer siggodt i de nationale test, fortæller flere lærere, at de målretter undervisningen. For en del lærereer det helt uproblematisk. For andre giver det anledning til bekymring. Ikke mindst for de lærere,der underviser i naturfag, da de som tidligere nævnt oplever, at det går ud over deres metodefri-hed, da de ser sig nødsaget til at nedprioritere det praktiske element i faget. En naturfagslærerudtrykker det på følgende måde:”De er i bedste fald spild af tid og ressourcer. Det bliver "teaching to test", hvor vi kun underviseri fx energiomsætning, fordi vi ved, at det bliver testet, selvom det intet har at gøre med det em-ne, vi har på det tidspunkt. Eleverne hader det, og de kan ikke bruge resultatet til noget. Få mo-tiveres af test, de fleste bliver nervøse og frygter det. I sådanne tilfælde yder de ikke deres opti-male. Elever med sproglige vanskeligheder, som måske er gode i det praktisk-eksperimentale,bliver fejlvurderet, så det basker.”Kilde: Kommentarfelt i spørgeskemaundersøgelse til lærere.
Sammenholder man casestudierne med definitionen på washback ovenfor, er der ingen tvivl om,at det fag, hvor der i højeste grad sker en påvirkning af undervisningen, er i dansk, læsning. Påstort set alle skoler peges der på, at det element af profilområdet sprogforståelse, der vedrøreropgaveemnet ”Faste vendinger”, har fået markant mere opmærksomhed i danskundervisningen.Evaluator har hørt flere eksempler på klasser, der dagligt træner dagens ordsprog eller talemåde.For nogle lærere er det uproblematisk, da det er et element, der inden testen havde en tendenstil at blive overset. For andre er der tale om en skævvridning, da det kommer til at fylde for me-get i forhold til faget samlet set.Denne konstatering i relation til læsetesten understøttes af spørgeskemaundersøgelsen, når manser på fagene enkeltvis. 62 pct. af dansklærerne har angivet, at de i nogen, i temmelig eller i højgrad målretter undervisningen frem mod de obligatoriske test. Dette tal er mellem 10-15 pct. la-vere i de andre testfag.Afslutningsvist skal der peges på, at mange lærere, som en del af målretningen frem mod frivilli-ge og obligatoriske test, nævner gennemførelse af demotest og dialog om/træning af opgavety-per.Ikke mindst mange indskolingslærere går op i at sørge for, at deres elever er forberedt på test-situationen. De er meget optaget af, at eleverne ikke får en dårlig oplevelse. Flere fortæller omsituationer, hvor elever blive kede af det og frustrerede, når de ikke forstår, hvordan de heltkonkret skal agere i skærmbilledet.Som eksempel nævner mange lærere ordkædeopgaverne under profilområdet afkodning i læse-testen samt fokus på regneudtryk i relation til matematik. Det er begge opgavetyper, hvor lærer-ne bruger tid på at gennemgå eksempler samt løsningsstrategier som fx at starte bagfra, når op-gaver med ordkæder skal løses.På baggrund af ovenstående kan det konstateres, at lærerne er meget delte i deres holdning til,hvorvidt man kan tale om positiv eller negativ washback, men det er evaluators hovedindtryk, attesten alene påvirkerdeleaf undervisningen. Undervisningen i testfagene rummer fortsat en langrække andre elementer, der ikke er målrettet indholdet i de nationale test. En mindre undtagelseer de konkrete eksempler fra casestudierne i naturfag, hvor hele faget og dets metode ændrerfokus.
Evaluering af de nationale test
55
EleverneDansk Clearinghouse for uddannelsesforsknings review (2009) viser, at der var stærk evidensfor, at den enkelte elevs testresultater har indflydelse på fremtidig motivation såvel som selv-værd. Generelt styrkes højt præsterende elevers motivation og selvværd, mens det modsatte ertilfældet hos svagt præsterende elever. Elevernes oplevelse af de nationale test vil blive behand-let i kapitel 5.På spørgsmålet om, hvorvidt der har været en washback-effekt for nogle elevgrupper i form af enprioritering af deres arbejde og forberedelse på visse elementer, som de ved, de skal testes i, såhar evaluator kun mødt elever på én skole, der klart tilkendegav, at de i ugerne op til testen ar-bejdede målrettede med at læse op, udarbejde noter mv. Der var tale om udskolingselever, dergik på en specifik bogligt/sprogligt orienteret linje, og de var generelt meget ambitiøse.4.4DelkonklusionI dette kapitel er der foretaget en analyse af den pædagogiske anvendelse af de nationale test,dvs. lærernes anvendelse af testene i deres pædagogiske arbejde. Det skal understreges, at ana-lysen i nærværende kapitel sammen med kapitel 5 og 6 dækker flere aktører og niveauer i folke-skolens styringskæde. Samlet set bidrager delanalyserne i kapitlerne 4, 5 og 6 til en vurdering afde nationale tests bidrag til målretning af skolernes arbejde.I tabellen nedenfor er indsat en oversigt over de nøglehypoteser, der har været undersøgt vedrø-rende den pædagogiske anvendelse under det overordnede evalueringstematestenes anvendel-se.Ved læsning af nedenstående tabel skal det understreges, at ”status” er udtryk for evaluatorssamlede vurdering af den indsamlede empiri. Når en hypotese ikke bekræftes, er det således ud-tryk for, at der ikke er grundlag for at bekræfte de givne antagelser om sammenhænge vedrø-rende nationale test. Dette betyder imidlertidikke,at hypoteserne (og den bagvedliggende for-andringsteori) ikke er relevant/valid, men at der kan konstateres en række implementeringsud-fordringer i forhold til at realisere de mål, der blev formuleret i lovgivningen. Samtidig ønskerevaluator at påpege, at casestudierne har dokumenteret flere eksempler på, at de nationale test ihøj grad anvendes som tiltænkt i lovgivningen og hver for sig bekræfter udvalgte hypoteser.Tabel 4.11: Oversigt over nøglehypoteser (den pædagogiske anvendelse)
HypoteseLærerneResultatet af de nationale test styrker lærerensløbende evaluering af elevernes faglige styrkerog svagheder (bidrager til et nuanceret billede afelevernes kundskaber og færdigheder)Resultatet af de nationale test målretter den en-kelte lærers planlægning af undervisningen i re-lation til klassen og den enkelte elev
Data
Status
Spørgeskemaundersøgelser tilskoleledere og lærereCasestudierEkspertinterviewSpørgeskemaundersøgelser tilskoleledere og lærereCasestudierEkspertinterviewSpørgeskemaundersøgelser tilskoleledere og lærereCasestudierEkspertinterview
Delvist bekræftet+
Ikke bekræftet-
Resultatet af de nationale test styrker den enkel-te lærers differentiering af undervisningen
Ikke bekræftet-
Inddragelse af resultater fra de nationale teststyrker og kvalificerer dialogen i lærerteams omudvikling af undervisning
Spørgeskemaundersøgelse tilskoleledere og lærereCasestudierEkspertinterviewSpørgeskemaundersøgelse tilskoleledere og lærereCasestudierEkspertinterview
Ikke bekræftet-
Inddragelse af ressourcepersoner styrker fortolk-ningen af resultatet af de nationale test og mål-retter lærerens opfølgning i relation til den enkel-te elev/klassen
Ikke bekræftet-
Evaluering af de nationale test
56
Evalueringen dokumenterer, at langt størstedelen aflærernegør brug af de nationale test. Den-ne overordnede konklusion nuanceres imidlertid ved, at lærerne i overvejende grad bruger teste-ne til skabe overblik og dermed monitorerer klassens og elevernes faglige niveau. Derimod erbrugen af de nationale test mindre udbredt i forhold til den fremadrettede tilrettelæggelse af un-dervisningen. Evalueringen viser, at mange lærere (indtil videre) primært anvender de nationaletestresultatersummativtog i langt mindre gradformativt.Derudover er der markante forskelle ianvendelsen mellem fagene. Anvendelsen af testresultaterne er således mere udbredt i dansk,læsning, matematik og engelsk, end det er tilfældet i naturfagene. Endelig er det en hovedkon-klusion, at testresultaterne typisk ses som et supplement til viden indhentet fra øvrig evaluering.De nationale test står sjældent alene som redskab i en evalueringskultur.Evalueringen dokumenterer, at det fortsat kun er en forholdsvis lille del af lærerne, der konse-kvent og systematisk bruger testresultaterne fremadrettet som grundlag for planlægning af un-dervisningen. Den manglende formative anvendelse kan forklares ved, at mange lærere brugerandre evalueringsværktøjer. En anden forklaring kan være manglende fokus og rammesætningfra skoleledelsens side. Endelig spiller oplevelsen af manglende relevans ind for en del lærere.Særligt lærere inden for naturfag finder det ikke brugbart med én test relativt sent i folkeskolen(8. klasse), og derudover påvirker en række fagspecifikke forhold graden af testanvendelse.Evalueringen undersøger, i hvilket omfang de nationale test har indflydelse på lærernes priorite-ring af undervisningens indhold. Der refereres ofte til begrebetteaching to the test,men evalua-tor anvender i stedet begrebetwashbacksom et mere nuanceret udtryk for, at man kan tale ombåde negativ og positiv påvirkning af/indflydelse på undervisningen. Evalueringen viser et særde-les differentieret billede af omfanget af washback i relation til brugen af de nationale test. Lærer-ne på de undersøgte skoler fordeler sig i forskellige grupper, hvor halvdelen af lærerne giver ud-tryk for, at de slet ikke eller i begrænset omfang målretter deres undervisning i forhold til obliga-toriske og frivillige test, hvorimod den anden halvdel gør det i forskellig grad. Hovedkonklusioneni forhold til dette spørgsmål er, at evalueringen tegner et meget varieret billede af testenes på-virkning af undervisningen. En gruppe lærere målretter undervisningen, enten fordi de finder detnaturligt (da testene afspejler Fælles Mål), eller fordi de gerne vil have, at eleverne klarer siggodt, da der er fokus på resultaterne i de nationale test. Den anden gruppe omfatter de lærere,som meget bevidst ikke vil lade deres undervisning styre af de nationale test. En vigtig konklusi-on er i øvrigt, at teaching to the test (eller washback) er mere udbredt dels i udskolingen, dels påskoler hvor ledelsen har fokus på faglige resultater.
Evaluering af de nationale test
57
5.
TESTENES BETYDNING FOR ELEVER OG SKOLE-HJEM-SAMARBEJDENærværende kapitel belyser de nationale tests betydning for eleverne og for skole-hjem-samarbejdet. Kapitlet fokuserer på de tre af evalueringens hypoteser, der knytter sig hertil.Kapitlet sætter fokus på hypotesen om, at lærerens dialog med eleven om testresultater styrkerelevernes bevidsthed om egne læreprocesser og dermed motivation for læring. Dette tema be-handles også i andre dele af evalueringen, men dette kapitel har særligt fokus på at belyse ele-vernes perspektiver herpå. Derudover belyser kapitlet hypotesen om, at dialog med hjemmet omresultatet af de nationale test fremmer forældrenes mulighed for at understøtte deres barns læ-ring samt hypotesen om, at de nationale test styrker skole-hjem-samarbejdet.Der er gennemført interview med elever og forældre i forbindelse med samtlige casestudier. Dis-se udgør det primære datagrundlag for kapitlet. Dog vil elevernes og forældrenes udsagn under-vejs i kapitlet blive suppleret med og forholdt til lærernes besvarelse af spørgeskemaundersøgel-sen.
5.1
EleverneI spørgeskemaundersøgelsen er lærerne blevet bedt om at angive, hvor enige de er i en rækkeudsagn om elevernes udbytte af og holdning til de nationale test. Resultatet fremgår af neden-stående tabel.Tabel 5.1: I hvilken grad er du enig eller uenig i følgende udsagn om de nationale test og eleverne? An-givet i pct.
HeltuenigResultatet af de nationaletest styrker elevernesforståelse af faglige styr-ker og svaghederDialog med eleverne omresultatet af de nationaletest styrker elevernesmotivation for at læreDialog med eleverne omresultatet af de nationaletest mindsker elevernesmotivation for at læreTilbagemelding og dialogmed eleverne om resulta-tet af de nationale testmedvirker til, at elevernei højere grad inddrages iformulering af fremtidigelæringsmålJeg oplever, at elevernegenerelt er glade for denationale test
Overve-jendeuenig
Hverkenenig elleruenig
Overve-jende enig
Heltenig
Vedikke
I alt (N)100(2162)
8
21
32
33
4
2
9
19
40
26
3
3
100(2162)
10
31
47
7
2
4
100(2162)
6
16
40
30
5
3
100(2162)
13
23
40
19
4
2
100(2162)
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Af tabellen fremgår det, at 37 pct. af lærerne er helt eller overvejende enige i, at resultatet af denationale test styrker elevernes forståelse af faglige styrker og svagheder, mens 29 pct. er helteller overvejende uenige i dette udsagn. Videre viser tabellen, at tre ud af 10 lærere er helt ellerovervejende enige i, at dialog med eleverne om resultatet af de nationale test styrker eleveresmotivation for at lære. 9 pct. af lærerne er helt eller overvejende enige i, at dialog med eleverneom de nationale test direkte mindsker elevernes motivation for at lære.
Evaluering af de nationale test
58
Desuden viser tabellen, at ca. hver tredje lærer er helt eller overvejende enige i, at tilbagemel-ding og dialog med eleverne om resultatet af de nationale test medvirker til, at eleverne i højeregrad inddrages i formuleringen af fremtidige læringsmål.Endelig viser tabellen, at 36 pct. af lærerne er helt eller overvejende uenige i, at eleverne gene-relt er glade for de nationale test. 23 pct. af lærerne er helt eller overvejende enige i, at elevernegenerelt er glade for de nationale test.5.1.1Lærernes tilbagemelding til eleverne og opfølgning på resultaterne
I spørgeskemaundersøgelsen er lærerne tillige blevet bedt om at tilkendegive, på hvilken mådeog i hvilken grad de giver eleverne tilbagemelding om resultaterne af en national test. Resultatetfremgår af nedenstående tabel.Tabel 5.2: I hvilken grad stemmer følgende udsagn overens med din opfølgning på resultatet af de nati-onale test i relation til den enkelte elev? Angivet i pct.
SletikkeJeg orienterer elevernemundtligt om resultatetumiddelbart efter testenJeg har en dialog medhver enkelt elev om re-sultatetI forbindelse med dialo-gen med hver enkelt elevom resultatet, opstiller vii fællesskab fremadrette-de faglige mål15
I mindregrad14
I nogengrad22
I temmelighøj grad28
I megethøj grad22
I alt(N)100(2162)100(2162)
8
14
25
31
23
13
21
37
20
9
100(2162)
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Tabellen viser, at halvdelen af lærerne i temmelig eller i meget høj grad orienterer elevernemundtligt om resultatet umiddelbart efter testen. 15 pct. af lærerne tilkendegiver, at de slet ikkeorienterer eleverne mundtlig om resultatet, mens 14 pct. gør dette i mindre grad. Godt halvdelenaf lærerne vurderer, at de i temmelig eller i meget høj grad har en dialog med hver enkelt elevom testresultatet. For 8 pct. af lærerne gælder, at de slet ikke har dialog med den enkelte elevom resultatet, mens 14 pct. angiver, at det foregår i mindre grad. Endelig viser tabellen, at treud af 10 lærere vurderer, at de i temmelig eller i meget høj grad opstiller fælles fremadrettedefaglige mål i samarbejde med eleven, mens 13 pct. angiver, at dette slet ikke sker, og 21 pct., atdet sker i mindre grad.Med henblik på at undersøge, om der er forskel på typen og graden af lærernes tilbagemelding tileleverne fra fag til fag, er lærernes besvarelse af ovenstående spørgsmål sammenholdt med,hvilke(t) testfag de underviser i. Det fremgår, at 71 pct. af engelsklærerne vurderer, at de itemmelig eller meget høj grad har dialog med hver enkelt elev om testresultaterne. Til sammen-ligning vurderer godt halvdelen af matematiklærerne og dansklærerne, at de i temmelig eller imeget høj grad har dialog med hver enkelt elev om testresultaterne. For naturfagene forholderdet sig sådan, at 43 pct. af geografilærerne, 47 pct. af fysik/kemilærerne og 46 pct. af biologilæ-rerne har dialog med eleverne om testresultatet. Der er således ikke de store forskelle på tværsaf fag – dog med den undtagelse, at engelsklærerne i højere grad angiver at have dialog medden enkelte om testresultaterne.I casestudierne er eleverne blevet bedt om at beskrive, hvordan og i hvilken grad de har dialogmed lærerne om resultaterne af de nationale test. Hovedparten af eleverne oplever, at deres læ-rere sammen med hele klassen gennemgår klassens resultater. Eleverne fortæller typisk, at læ-reren i det enkelte fag bruger (dele af) en lektion på at redegøre for klassens samlede resultater,herunder hvilke emner eleverne klarer sig godt og mindre godt i. Der er dog også eksempler fracasestudierne på, at elever ikke kan huske, at deres lærer har gennemgået resultaterne af de na-tionale test.Evaluering af de nationale test
59
I forlængelse af ovenstående viser casestudierne videre, at kun en mindre del af eleverne har op-levet af få individuel tilbagemelding fra deres lærer om resultatet af en national test. De elever,der har haft én-til-én dialog med deres lærer om testresultater, forklarer typisk, at deres lærersætter en lektion af til en kort samtale med eleverne om testresultaterne. Ifølge eleverne handlersamtalerne især om, hvad de skal gøre bedre, og hvad de særligt skal øve sig på. Casestudiernetegner endvidere et billede af, at individuel tilbagemelding fra lærer til elev om resultater af nati-onale test især forekommer blandt elever i udskolingen.Også lærerne er i forbindelse med casestudierne blevet bedt om at beskrive deres praksis for til-bagemelding om resultater af nationale test til eleverne. Lærerne bekræfter i høj grad elevernesbillede heraf. De tilkendegiver ofte, at de især giver tilbagemelding om resultaterne på klasseni-veau, mens de sjældent eller aldrig giver individuel tilbagemelding til eleverne. Lærerne begrun-der især den fraværende dialog med den enkelte elev med praktiske udfordringer. Lærerne for-tæller, at tid er en afgørende faktor, og at tilbagemelding til eleverne ville kræve, at andet blevnedprioriteret og/eller udeladt af undervisningen. Derudover nævner flere lærere, at i de tilfælde,hvor de er eneste lærer/voksen i klasserummet, er det vanskeligt at gennemføre den individuelledialog, da det vil betyde, at resten af klassen skal være i klassen uden opsyn. Som det fremgårovenfor, indikerer casestudierne, at individuelle samtaler om resultater af nationale test isærgennemføres i udskolingen, hvilket ifølge lærerne netop skyldes, at de ældre elever nemmerekan lades alene i klassen.Som det fremgår af tabellen ovenfor, angiver omkring en tredjedel af lærerne, at de i forbindelsemed dialogen med hver enkelt elev om resultatet opstiller fremadrettede faglige mål, mens entilsvarende andel tilkendegiver, at dette slet ikke sker eller sker i mindre grad. Yderligere analy-ser viser, at det særligt er engelsklærerne, der vurderer, at de i temmelig eller i meget høj gradopstiller læringsmål med eleven i forlængelse af dialogen om testresultatet. Dette billede kan kuni begrænset omfang bekræftes gennem viden fra casestudierne. Ganske få elever har oplevet, atde sammen med læreren opstiller mål for deres arbejde i et fag. De elever, der tilkendegiver athave haft en sådan dialog med en lærer, forklarer typisk, at dialogen består i, at læreren fortæl-le, hvilke emner eleven bør fokusere (mere) på.Boksen nedenfor består af eksempler fra casestudierne på lærernes dialog med eleverne om re-sultater af de nationale test set fra elevernes perspektiv.Boks 5.1: Eksempler på dialog om resultater af de nationale test
Dialog om resultater med den enkelte elevDe elever, der fortæller, at de har dialog med lærerne om resultaterne af en national test fortæller, at læ-reren typisk tager dem ud enkeltvis og taler om, hvad der gik godt og mindre godt i testen. Eleverne for-tæller, at de til samtalen får at vide, om de ligger under middel, middel eller over middel, og hvad det be-tyder. Eleverne fortæller videre, at dialogen med lærerne, når den finder sted, primært drejer sig om,hvordan man kan forbedre sig frem mod næste test. En elev fortæller, at man først taler om, hvordan detgik sidste gang, og derefter hvordan det er gået i de seneste test. En anden elev fortæller videre, at hanssamtale med læreren om testresultaterne efterfølgende medførte, at han fik en lang liste med øvelser,som han kunne gennemføre sammen med sine forældre frem mod næste test.Dialog om resultaterne med en klasseDe elever, der oplever, at dialog om testen primært foregår i klassen, fortæller, at lærerne eksempelvisviser elevernes samlede resultater på smartboard. Eleverne fortæller, at der ikke er navne på, men at deter for, at eleverne kan se, hvor klassen ligger samlet. Lærerne fortæller bagefter, hvis der er et specieltemne, som klassen bliver nødt til at træne mere.
På baggrund af ovenstående er det evaluators vurdering, at eleverne i høj grad modtager kollek-tiv tilbagemelding om resultater af de nationale test fra læreren. Det er ligeledes evaluators vur-dering, at eleverne kun i begrænset omfang modtager individuel tilbagemelding fra lærerne, lige-Evaluering af de nationale test
60
som der i denne forbindelse og i fællesskab med læreren sjældent opstilles faglige mål. Beggeobservationer udfordrer grundlæggende elementer i evalueringens forandringsteori vedrørendedialogen mellem lærer og elev om resultatet af testene.5.1.2De nationale tests betydning for elevernes forståelse af egne styrker og svagheder
Som det fremgår af tabel 5.1, fordeler lærerne sig nogenlunde ligeligt i deres vurdering af, hvor-vidt de nationale test styrker elevernes forståelse af egne styrker og svagheder, om end der erflest, der forholder sig positivt til dette.I forbindelse med casestudierne er eleverne ligeledes blevet bedt om at forholde sig til dette. De-res udsagn understøtter i høj grad lærernes vurdering, idet der også blandt eleverne er forskel påderes vurdering af betydningen heraf. En gruppe af elever tilkendegiver, at resultaterne af de na-tionale test i høj grad bidrager til at tydeliggøre deres egne styrker og svagheder i de enkeltefag. De forklarer, at de både i testsituationen, og når de får resultaterne, bliver opmærksommepå, hvad de er gode og mindre gode til. Flere elever fortæller, at de godt kan mærke, hvornåropgaverne falder dem lette eller svære, og at de bruger dette til at vurdere deres eget faglige ni-veau i faget. Der er dog også en gruppe af elever, som tilkendegiver, at de nationale test, herun-der både gennemførelse og resultater, fylder ganske lidt i deres bevidsthed. Denne gruppe eleverforklarer typisk, at de gennemfører testene, ”fordi de skal”, men at de ikke anvender eller reflek-terer over resultater af testene.Hvorvidt eleverne tilhører den eller den anden gruppe, afhænger af den tilbagemelding, som demodtager fra lærerne om resultaterne. Det er evaluators vurdering, at de elever, der udelukken-de modtager kollektiv orientering om resultaterne af de nationale test,alenehar forståelse af eg-ne styrker og svagheder på et generelt og overordnet niveau. I forlængelse heraf vurderer evalu-ator, at de elever, der modtager individuel tilbagemelding fra lærerne, får mere specifik og em-nenær viden om egne styrker og svagheder. Eleverne tilkendegiver typisk, at i de tilfælde, hvorlæreren forklarer, hvilke områder eleven kan forbedre sig på, er det således nemmere for elevenat have fokus herpå fremadrettet.Casestudierne tegner dog også et billede af, at elevernes vurdering af, hvorvidt de nationale testbidrager til forståelse af egne styrker og svagheder, afhænger af deres opfattelse af testenes va-liditet. Også her deler eleverne sig i to grupper. En gruppe elever tilkendegiver, at de betragterde nationale test som mere troværdige og objektive set i forhold til andre test. Eleverne forklarerdette med, at de nationale test rettes ”af computeren” og ikke af læreren. Dette er ifølge elever-ne værdifuldt, fordi lærerne kan overse korrekte svar og/eller være påvirket af deres generelleopfattelse af den enkelte elev. En anden gruppe elever udtrykker dog skepsis over for resultatetaf testene, fordi de har oplevet at rykke sig meget fra de frivillige til de obligatoriske test. Nogleelever fortæller eksempelvis, at de har rykket sig fra langt under middel til over middel. Elevernehar både eksempler på at rykke sig i positiv og negativ retning. Eleverne betragter dette som ud-tryk for, at de nationale test ikke tegner et korrekt billede af deres faglige udvikling, herunderstyrker og svagheder.På tværs af datakilder tegner evalueringen således et billede af, at de nationale test i nogen gradbidrager til at bevidstgøre eleverne om egne styrker og svagheder. Det er dog evaluators vurde-ring, at denne bevidstgørelse er størst i de tilfælde, hvor læreren har individuel dialog med ele-verne om resultaterne og i den forbindelse forklarer og drøfter elevens styrker og svagheder.5.1.3De nationale tests betydning for elevernes (motivation for) læring
I forlængelse af ovenstående har evalueringen sat fokus på, hvorvidt lærernes dialog med ele-verne om resultatet af de nationale test mindsker eller styrker elevernes motivation for at lære.Som det fremgår af tabel 5.1, vurderer lidt under halvdelen af lærerne i spørgeskemaundersøgel-sen, at de hverken er enige eller uenige i, at dialog med eleverne om resultaterne af de nationaletest styrker eller mindsker elevernes motivation for læring. Knap en tredjedel af lærerne er enigeeller helt enige i, at denne dialog styrker elevernes motivation for læring.Også i forbindelse med casestudierne er lærerne blevet bedt om at forholde sig til sammenhæn-gen mellem dialog om resultaterne af de nationale test og elevernes motivation for læring. Læ-Evaluering af de nationale test
61
rernes udsagn bekræfter i høj grad resultaterne af spørgeskemaundersøgelsen. En stor del af læ-rerne vurderer, at der ikke er en sammenhæng mellem dialog om resultater af nationale test ogelevernes motivation for læring. De forklarer, at eleverne ikke i særlig høj grad tillægger de nati-onale test værdi, og/eller at testene ikke fylder meget i elevernes bevidsthed og således hellerikke påvirker deres motivation for læring.Eleverne er som led i casestudierne blevet bedt om at vurdere, hvorvidt de nationale test styrkerdem fagligt. Overordnet set deler eleverne sig i to grupper i forhold til dette spørgsmål. En grup-pe elever mener, at de bliver fagligt dygtigere af at tage nationale test, blandt andet fordi de inogle fag øver sig meget op til testen. Eleverne i denne gruppe fortæller typisk, at de oplever atblive bedre til udvalgte fagområder i et testfag op til en national test, fordi læreren undervisermere intensivt i pågældende område(r). Den anden gruppe elever vurderer, at de nationale testikke har betydning for deres faglige niveau. Disse elever peger ofte på den manglende mulighedfor at få konkretiseret, i hvilke opgaver de har lavet fejl. Eleverne sammenligner gerne nationaletest med andre typer af test og fremhæver, at andre typer af test har den fordel, at de kan sederes korrekte såvel som ukorrekte besvarelser. De fortæller, at det er irriterende, at de i de na-tionale test ikke kan se deres ukorrekte svar. Flere elever efterlyser i denne forbindelse (mere)dialog med lærerne om resultaterne.Som ovenfor vurderer evaluator, at det afhænger af lærerens dialog med eleven, hvorvidt ele-verne tilhører den ene eller den anden gruppe. I de tilfælde, hvor lærerne har individuel dialogmed eleverne om resultaterne, kan eleverne i højere grad forstå og anvende viden om egne styr-ker og svagheder fremadrettet.5.1.4Elevernes oplevelse af testsituationen
I forbindelse med casestudierne er eleverne blevet bedt om at beskrive, hvordan de oplever selvetestsituationen.Størstedelen af eleverne fortæller, at de er rimelig afslappede i testsituationen. Mange af elever-ne fortæller, at de godt kan være lidt nervøse op til en testafvikling, men at nervøsiteten ofteforsvinder, når de først er i gang med at gennemføre testen.Evaluator har som led i casestudierne gennemført observation af testafviklingerne. Disse bekræf-ter i høj grad elevernes beskrivelse af situationen. For hovedparten af de testafviklinger, evalua-tor har observeret, gælder, at eleverne var stille og koncentrerede om opgavebesvarelsen. Der erdog også enkelte eksempler på, at en elev er blevet ked af det og eventuelt har forladt lokalet. Ide situationer har læreren forsøgt at berolige eleven, og i de fleste tilfælde er eleven vendt tilba-ge og har færdiggjort testen.Casestudierne viser endvidere en tendens til, at nervøsiteten forud for en test er størst blandtelever i indskolingen. Indskolingseleverne fortæller, at de kan være nervøse for at skulle gen-nemføre en test, fordi de er bange for ikke at kunne svare på spørgsmålene, og/eller fordi de ba-re ikke bryder sig om selve situationen. Elever på mellemtrinnet og i udskolingen giver udtrykfor, at de efterhånden har gennemført så mange nationale test, at de godt ved, hvad det indebæ-rer. Usikkerheden i forhold til at gennemføre nationale test er derfor langt mindre for disse ele-ver.Det adaptive principI forbindelse med casestudierne er eleverne endvidere blevet bedt om at tilkendegive, om dekender (betydningen af) det adaptive princip, og hvordan det indvirker på deres oplevelse aftestsituationen.Hovedparten af eleverne ved godt, at opgaverne i testsituationen tilpasser sig deres faglige ni-veau, og at ikke alle i klassen får samme spørgsmål og antal opgaver. De er således bekendtemed det adaptive princip, om end det ikke er alle, der kender den betegnelse. Casestudierne vi-ser videre, at elevernes viden herom går på tværs af klassetrin, og således er mange af elevernei indskolingen også bekendte med princippet. Eleverne, uanset klassetrin, fortæller, at lærerneforklarer dem dette forud for en test. De fremhæver, at læreren har forklaret, at antallet og ty-pen af opgaver vil være forskellig fra elev til elev, og at dette ikke betyder, at nogle klarer sigEvaluering af de nationale test
62
dårligere eller bedre end andre. Dog viser casestudierne også, at selvom elevernei princippetforstår betydningen af det adaptive princip, påvirker det i høj grad deres oplevelse af testsituati-onen – og i mange tilfælde i negativ retning.Eleverne fortæller i casestudierne, at en af udfordringerne ved det adaptive princip er, at de ikkenødvendigvis bliver færdige med testen på samme tidspunkt. På tværs af casestudier fremhævereleverne deres frustration over at sidde tilbage blandt de sidste under selve testafviklingen. Detfylder meget hos eleverne på alle klassetrin. Det varierer fra skole til skole, hvorvidt lærerne erlykkedes med at forklare eleverne, at det at sidde tilbage blandt de sidste ikke nødvendigvis erensbetydende med, at man er fagligt svag. I boksen nedenfor er fremhævet nogle eksempler pådette med elevernes egne ord.Boks 5.2: Eksempler på elevernes oplevelse af at gennemføre testen i forskelligt tempo
En elev fra 2. klasse fortæller om testsituationen: ”Detbliver bare ved og ved… Der kommer hele tidennye spørgsmål, og nogle gange kan jeg ikke svare. Det er ikke så sjovt. Og jeg sidder altid tilbage tilsidst, men nogle gange sammen med [elev]. [Lærer] siger, at vi bare skal svare så godt, vi kan. Og dertil sidst, når alle andre er færdige, vil man jo gerne bare ud til dem. [Elev] og [elev] er jo gået i gangmed at lege, men så kan jeg ikke nå at være med.”En elev fra 4. klasse udtrykker frustration over at være en af de sidste, der bliver færdig med at gennem-føre en national test:”Gid det var mig, der kunne blive hurtigt færdig og ikke sidde alene. ”Find nu mitniveau”, siger jeg til computeren. Så bliver jeg rimelig træt af det. Jeg vil hellere bare blive færdig såhurtigt som muligt.”Læreren til pågældende elev har forklaret eleverne i klassen, at det ikke er dårligt atsidde tilbage som de sidste, men til trods herfor oplever eleven ubehag ved situationen. Eleven fortællervidere: ”Manprøver jo at koncentrere sig og så går de andre pludselig – så tænker man ’videre, videre’ –det er ret stressende”,fortæller eleven og afslutter:”Jeg skynder mig bare, når de andre er færdige.”En elev fra 8. klasse bekræfter ovenstående billede:”Det er træls, hvis man sidder tilbage der som densidste, helt lonely. Der kan man få stress, hvis man sidder tilbage. [Lærer] har jo sagt, at vi bare skal gi-ve os god tid, men det er altså ikke sjovt til sidst. Man vil jo hellere ud til de andre. Og man vil jo hellerikke have, at de tænker, at man er dum eller sådan noget.”
Eleverne fremhæver også styrker ved det adaptive princip. Flere elever forklarer i forbindelsemed casestudierne, at det er motiverende, at spørgsmålene tilpasser sig deres niveau. De tillæg-ger dette princip den værdi, at resultatet heraf er mere retvisende end øvrige, ofte papirbaseredetest, hvorfor de gør sig umage for at svare rigtigt.Mange af eleverne i casestudierne fortæller desuden, at de ved, hvornår de får lettere og svære-re opgaver. Flere elever fortæller, at det presser dem, når de kan mærke, at opgaverne bliverlettere, idet de antager, at det betyder, at de har svaret forkert på foregående opgaver. Eleverneforklarer, at dette stresser dem i testsituationen.Det er evaluators vurdering, at eleverne i høj grad er bekendte med det adaptive princip, men atde til trods herfor i mange tilfælde oplever ubehag ved testsituationen, særligt i de tilfælde, hvorde sidder tilbage blandt de sidste.En it-baseret testEleverne blev i casestudierne bedt om at beskrive, hvad det betyder for deres oplevelse af testsi-tuationen, at nationale test er it-baserede. Eleverne fremhæver både styrker og svagheder her-ved.Som styrker fremhæver eleverne, at det er motiverende at gennemføre test på computeren. Ele-verne peger på, at det på computeren er nemmere at koncentrere sig om sin egen test, eftersomdet ikke er muligt at se, hvor langt dine kammerater er nået. Eleverne sammenligner det med enpapirbaseret test, hvor de typisk godt kan se, hvor langt sidemanden er nået.
Evaluering af de nationale test
63
Som udfordringer fremhæver eleverne især, at det ikke er muligt at gå tilbage og rette en fejl, li-gesom det er tilfældet ved en papirbaseret test. Mange elever tilkendegiver, at det er frustreren-de og demotiverende at opdage, at man har svaret forkert på et spørgsmål, og at man ikke harmulighed for at gå tilbage og rette denne fejl. Nogle af eleverne fortæller, at det i testsituationenkan påvirke dem så meget, at de har svært ved at koncentrere sig om resten af opgaverne. Enanden udfordring, som fremhæves af eleverne, er, at den it-baserede test betyder, at de ikke haroverblik over mængden af opgaver og derfor ikke kan disponere deres tid i testsituationen. Deforklarer typisk, at ved papirbaserede test orienterer de sig først i den samlede test ved at kiggealle spørgsmål igennem, inden de går i gang med besvarelsen. De beskriver den manglende mu-lighed herfor i de nationale test som irriterende.På baggrund af ovenstående er det evaluators vurdering, at eleverne overordnet set er afslappe-de i forbindelse med gennemførelse af en national test, men at de i nogen grad finder det stres-sende, hvis de er blandt de sidste til at afslutte testen. Dette til trods for at eleverne i mange til-fælde er bekendte med, hvad det adaptive princip indebærer.5.2Skole-hjem-samarbejdeI dette afsnit sætter evaluator fokus på de nationale tests rolle og betydning for skole-hjem-samarbejdet.Bestemmelserne om anvendelsen af nationale test i forbindelse med skole-hjem-samarbejdet erbeskrevet i lovforslaget om de nationale test samt i bekendtgørelse om elevplaner, elev- og ud-dannelsesplaner samt uddannelsesplaner i folkeskolen73. Af førstnævnte fremgår det, at de natio-nale test er et pædagogisk værktøj, der bl.a. skal bidrage til at underrette forældre med henblikpå at tilrettelægge et forældresamarbejde, der understøtter eleven bedst muligt. Det fremgårdesuden, at forældrene skal underrettes skriftligt om resultaterne af de nationale test. Sidst-nævnte beskriver, at elevplaner skal indeholde oplysninger om resultater af den løbende evalue-ring og den besluttede opfølgning. Dog fremgår det eksplicit, at for de nationale test gælder, atalene opfølgningen (og ikke resultaterne) samt eventuelle aftaler om forældres og elevens med-virken til elevens opnåelse af de opstillede læringsmål skal indgå i elevplanen.Både skoleledere og lærere er i spørgeskemaundersøgelsen blevet bedt om at forholde sig til an-vendelse af de nationale test i skole-hjem-samarbejdet. Resultaterne heraf fremgår af følgendeto tabeller.Tabel 5.3: Du bedes angive, hvordan de nationale test indgår i skole-hjem-samarbejdet. Angivet i pct.
AldrigOrienteres forældre om,hvad testene måler, oghvad de skal bruges til in-den testafviklingen?Får forældrene en skriftligtilbagemelding om resulta-tet af de nationale test?Indgår resultatet af de na-tionale test, og lærerensfortolkning af dette, i endialogmed forældrene omfremadrettede læringsmålfor deres barn?
Sjældent
Af ogtil/jævnligt
Ofte
Altid
I alt(N)100(728)
0
8
24
24
45
1
3
9
18
69
100(728)
0
3
20
40
36
100(728)
Kilde: Spørgeskemaundersøgelse til skoleledere, 2013.
73
Bekendtgørelse om elevplaner, elev- og uddannelsesplaner samt uddannelsesplaner i folkeskolen (BEK nr. 750 af 13/07/2009).
Evaluering af de nationale test
64
Tabel 5.4: Du bedes i følgende spørgsmål angive, hvordan de nationale test indgår i skole-hjem-samarbejdet. Angivet i pct.
AldrigOrienteres forældrene in-den testafviklingen om,hvad testene måler, oghvad de skal bruges til?Får forældrene resultatetaf de nationale test sam-men med elevplanen førskole-hjem-samtalen?Udleverer du resultatet afde nationale test ved selveskole-hjem-samtalen?Gennemgår du resultatetaf de nationale test online itestsystemet ved selveskole-hjem-samtalen?Inddrager du resultatet afde nationale test i en dia-log med forældrene omlæringsmål for deres barn?
Sjældent
Af ogtil/jævnligt
Ofte
Altid(megetofte)
I alt(N)100(2162)
5
13
19
21
42
12
11
13
20
45
100(2162)
35
17
12
15
22
100(2162)
44
17
14
11
14
100(2162)
8
13
29
31
20
100(2162)
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Af den øverste tabel fremgår det, at hovedparten (69 pct.) af skolelederne tilkendegiver, at for-ældrene ofte eller altid orienteres om, hvad testene måler, og hvad de skal bruges til, inden test-afviklingen. Videre viser tabellen, at 87 pct. af skolelederne angiver, at forældrene altid eller oftefår en skriftlig tilbagemelding om resultatet af de nationale test, mens 76 pct. angiver, at resulta-tet og tolkningen heraf altid eller ofte indgår i dialog med forældrene om fremadrettede lærings-mål for deres barn.Den nederste tabel viser, at 63 pct. af de adspurgte lærere angiver, at forældre altid eller ofteorienteres om, hvad testene måler, og hvad de skal bruges til inden testafviklingen. Tabellen vi-ser videre, at to tredjedele af lærerne angiver, at forældrene får resultatet af de nationale testsammen med elevplanen før skole-hjem-samtalen. For 37 pct. af lærerne gælder, at de udlevererresultatet af de nationale test ved selve skole-hjem-samtalen, mens omkring halvdelen (52 pct.)tilkendegiver, at dette sjældent eller aldrig er tilfældet. Endelig viser tabellen, at flertallet af deadspurgte lærere (61 pct.) angiver, at de sjældent eller aldrig gennemgår resultater af de natio-nale test online i testsystemet ved skole-hjem-samtalen, mens en fjerdedel angiver, at dette altideller ofte sker. Ca. halvdelen (51 pct.) af lærerne tilkendegiver, at de inddrager resultatet af denationale test i en dialog med forældrene om læringsmål for deres barn. 21 pct. angiver, at dettesjældent eller aldrig er tilfældet.Sammenholder man skolelederes og læreres besvarelser af spørgeskemaundersøgelsen, adskillerde to gruppers besvarelser sig især i forhold til, hvorvidt resultatet af de nationale test inddragesi dialog med forældrene om læringsmål for deres barn. Her tilkendegiver hhv. 87 pct. af skole-lederne og 51 pct. af lærerne, at dette er tilfældet. Skolelederes og læreres besvarelser angåen-de, hvorvidt forældre orienteres om, hvad testene måler, og hvad de skal bruges til, fordeler signogenlunde ens. Dog er der lidt flere lærere (18 pct.) end skoleledere (8 pct.), der tilkendegiver,at dette aldrig eller sjældent sker. Sammenholder man skolelederes og læreres besvarelser i re-lation til skriftlig tilbagemelding om resultaterne af de nationale test til forældrene, er skoleleder-ne generelt mere positive i forhold til hyppigheden heraf, end lærerne er. Der er dog 13 pct. afskolelederne, der vurderer, at dette kun sker af og til, sjældent eller aldrig.Det er evaluators vurdering, at ovenstående tegner et billede af, at (resultaterne af) de nationaletest i nogen grad indgår i forældresamarbejdet, men at der er stor variation skolerne og lærerneimellem. Ydermere er det evaluators vurdering, at spørgeskemaundersøgelsen peger på, at resul-Evaluering af de nationale test
65
taterne af de nationale test i mange tilfælde ikke på systematisk vis inddrages i skole-hjem-samarbejdet, herunder i forhold til opstilling af læringsmål.I det følgende uddybes og sammenholdes resultaterne af spørgeskemaundersøgelserne med dekvalitative data, indsamlet via casestudier.Orientering af forældreI forbindelse med casestudierne er lærerne blevet bedt om at beskrive skolens praksis i forholdtil, om og hvordan forældrene orienteres om (gennemførelsen af) nationale test. Disse beskrivel-ser nuancerer det billede, der tegnes via spørgeskemaundersøgelsen, jf. ovenfor. Samtlige læreretilkendegiver, at de orienterer forældrene om tidspunktet for gennemførelsen af en national testforud herfor. Orienteringen foregår typisk skriftligt via forældreintra. I forlængelse heraf pegerflere af de adspurgte lærere på, at de nogle gange supplerer den skriftlige information med enmundtlig orientering. Dog tilkendegiver de samtidig, at dette typisk kun foregår i de tilfælde,hvor orienteringen om gennemførelse af en national test falder sammen med et i forvejen plan-lagt forældremøde.En del af lærerne forklarer i forbindelse med casestudierne, at forældrenes informationsbehov erstørst den/de først(e) gang(e), deres barn skal gennemføre en national test. Det er lærernesvurdering, at forældrene forud for en national test især er interesserede i den praktiske gennem-førelse af de nationale test (herunder varighed; at der er tale om en digital test mv.), mens for-ældrene kun i begrænset omfang efterspørger viden om testenes faglige indhold. Dette betyderifølge lærerne, at informationsbehovet hos forældrene daler i takt med, at deres børn får erfaringmed at gennemføre nationale test.Forældrene er i interviewene tillige blevet bedt om at beskrive den information, de modtagervedrørende de nationale test. Overordnet set stemmer dette overens med det billede, lærernetegner. Forældrene forklarer typisk, at de ved den/de første test modtog skriftlig eller mundtliginformation om formålet med de nationale test, praktisk gennemførelse mv., men at de ved ef-terfølgende nationale test udelukkende bliver orienteret om tidspunktet for gennemførelsen her-af. Hovedparten af forældrene tilkendegiver i forlængelse heraf, at dette informationsniveau ertilstrækkeligt. Flere forældre forklarer, at de betragter de nationale test som lærerens redskab,hvorfor de ikke har en forventning om yderligere information herom. Enkelte forældre fortæller,at de har gennemført en demotest med henblik på at få en fornemmelse af, hvad de nationaletest består af.Skolestyrelsen (nu Kvalitets- og Tilsynsstyrelsen) har udarbejdet en pjece med inspiration til pæ-dagogisk brug af resultater fra de nationale test74. Af denne fremgår det, at forældrene bør orien-teres om, hvad testresultaterne måler, og hvordan de kan bruges over for klassen og den enkelteelev. Det er evaluators vurdering, at denne anbefaling i høj grad synes at være omsat til praksis iskolerne.Med afsæt i ovenstående og på tværs af datakilder er det evaluators vurdering, at forældreneisær orienteres om tidspunktet for gennemførelse af en national test, mens formål med og ind-hold af testene primært beskrives ved gennemførelse af test i de første skoleår. Evaluator vurde-rer i forlængelse heraf, at den sparsomme orientering på mellemtrinnet og i udskolingen om,hvad testene måler, sjældent udgør en udfordring for forældrene. Endelig er det evaluators vur-dering, at dialog om resultater og læringsmål kun i nogen grad indgår i skole-hjem-samarbejdet.Resultat af de nationale test – tilbagemelding og opfølgningSom det fremgår af tabel 5.3, tilkendegiver næsten alle skolelederne, at forældre får en skriftligtilbagemelding på deres barns resultat i en national test. Som supplement hertil angiver flertalletaf lærerne, at forældrene får resultatet af de nationale test sammen med elevplanen før skole-hjem-samtalen, mens færre udleverer resultatet af de nationale test ved selve skole-hjem-samtalen. Casestudierne bekræfter dette billede. Disse viser, at skolerne orienterer forældreneom deres barns resultater af de nationale test. Casestudierne viser videre, at den skriftlige orien-tering sker gennem det forældrebrev, der automatisk genereres ved gennemførelse af en natio-74
Brug testresultaterne – inspiration til pædagogisk brug af resultater fra de nationale test, Skolestyrelsen, 2011.
Evaluering af de nationale test
66
nal test. Forældrebrevet sendes til forældrene eller udleveres i forbindelse med skole-hjem-samtaler. På baggrund af spørgeskemaundersøgelser og casestudier er det evaluators vurdering,at skolerne – i overensstemmelse med lovgivningen – skriftligt orienterer forældre om resultater-ne af de nationale test.Mange af de adspurgte lærere vurderer, at informationen i forældrebrevet er utilstrækkelig ogkun i begrænset omfang er meningsfuld i forhold til at give forældrene et billede af deres barnsfaglige niveau i et givent fag. Se desuden kapitel 8 om testsystemets tilbagemelding til lærerne.Generelt set forholder de adspurgte forældre sig mere positivt til forældrebrevet. Mange af foræl-drene vurderer, at informationen i brevet er forståelig, men påpeger samtidig, at det skal sættesi kontekst og uddybes, hvis forældrene skal kunne anvende resultaterne fremadrettet. Der er dogogså enkelte forældre, der tilkendegiver, at de har svært ved at forstå indholdet af forældrebre-vet, ligesom enkelte forældre efterlyser mere opfølgning på testresultaterne og yderligere forkla-ring i forældrebrevet. Forældrene beskriver typisk, at de orienterer sig i resultaterne af de natio-nale test, men at det generelt ikke fylder meget.Lærerne er, som led i spørgeskemaundersøgelsen, blevet bedt om at tilkendegive, i hvilken gradde prioriterer de nationale test i dialogen ved skole-hjem-samtaler. 44 pct. angiver, at dette i no-gen grad prioriteres, mens 20 pct. angiver, at det i meget høj eller i temmelig høj grad priorite-res. Dette billede bekræftes i høj grad af viden fra casestudierne. Både lærere og forældre tilken-degiver, at resultaterne af en national test ofte gennemgås i forbindelse med skole-hjem-samtaler, da der, jf. ovenstående, typisk er behov for en mundtlig forklaring/uddybning heraf.Der er dog også flere forældre, der peger på, at resultaterne af de nationale test kun drøftes,hvis de eksplicit beder læreren om det.For at undersøge om der er forskel på prioriteringen af de nationale test i dialogen med forældrefra fag til fag, er lærernes angivelse af prioritering sammenholdt med, hvilke testfag de undervi-ser i. Denne analyse indikerer, at dialogen om de nationale test prioriteres højest i dansk (25pct.), engelsk (25 pct.) og matematik (22 pct.), mens den prioriteres lavere i geografi (9 pct.),fysik/kemi (9 pct.) og biologi (8 pct.). Tallene i parentes angiver, hvor stor en andel af lærerne,der har angivet, at de prioriterer dette i meget eller i temmelig høj grad. Det skal dog her be-mærkes, at samtlige lærere i spørgeskemaundersøgelsen er blevet bedt om at forholde sig tildette spørgsmål. Det betyder, at også lærere, der ikke nødvendigvis afholder skole-hjem-samtaler, er med i analysen. Det betyder således også, at resultatet skal tolkes med varsomhed.Dog bekræfter casestudierne ovenstående. Her fremgår det også, at hvorvidt resultaterne af denationale test drøftes med forældre til skole-hjem-samtaler er afhængig af, om læreren fordet/de pågældende testfag deltager ved skole-hjem-samtalen. Det er evaluators vurdering, atdette i praksis betyder, at det typisk er resultater af nationale test i fag som dansk, matematikog evt. engelsk, der gennemgås ved skole-hjem-samtaler, mens resultaterne af nationale test ifagene fysik/kemi, biologi og geografi sjældent eller aldrig drøftes i forbindelse med skole-hjem-samtaler. Evalueringen påpeger således en reel informationsudfordring til hjemmet (egentlig dia-log) i de fag, hvor lærerne ikke er repræsenteret ved skole-hjem-samtaler.Casestudierne viser, at når resultaterne af de nationale test drøftes ved skole-hjem-samtaler,anvendes de til at give forældrene en status for deres barns faglige niveau i pågældende fag. Deadspurgte lærere forklarer dog samstemmende, at denne status baserer sig på en samlet vurde-ring af elevens faglige niveau, som fremkommer ved hjælp af flere evalueringsmetoder og evalu-eringsredskaber, herunder andre typer af test, resultater ved hjemmeopgaver, elevens dagligeindsats mv. Lærerne understreger således, at resultaterne af de nationale test aldrig står alene.Det er evaluators vurdering, at dette er det generelle billede, hvilket understøttes af analysen iafsnit 4.1. Sidstnævnte bekræftes i høj grad af forældrene. De forklarer typisk, at i lærerens vur-dering af deres barns faglige niveau indgår resultater af de nationale test på lige fod med resulta-ter af andre test og lærerens mere generelle vurdering af eleven.Af casestudierne fremgår det endvidere, at mange lærere forsøger at koordinere tidspunktet forgennemførelsen af en national test og afholdelse af skole-hjem-samtaler, så det er muligt at taleom resultaterne af testen i forbindelse med skole-hjem-samtalen.Evaluering af de nationale test
67
5.2.1
Inddragelse af hjemmet i dialog om læringsmål
Som det fremgår af tabel 5.4, angiver ca. halvdelen af lærerne, at de inddrager resultatet af denationale test i dialog med forældrene om læringsmål for deres barn. I forbindelse med casestu-dierne er forældrene tillige blevet bedt om at beskrive deres erfaringer hermed, og deres udsagntegner et noget anderledes billede. Langt hovedparten af forældrene fortæller, at de ikke har op-levet, at der er lavet aftaler om opfølgning og/eller opstillet læringsmål for deres barn på bag-grund af resultater af nationale test (og andre typer af test/evaluering). Kun ganske få forældrehar oplevet, at der er blevet opstillet læringsmål og/eller iværksat tiltag med afsæt i resultater afde nationale test. Både lærernes svar i spørgeskemaundersøgelsen samt i særdeleshed feedbackfra forældrene indikerer, at det langt fra er i alle tilfælde, at resultaterne af de nationale test gi-ver anledning til en dialog om fremadrettede læringsmål for eleverne.Det er evaluators vurdering, at den i nogle tilfælde begrænsede dialog mellem skole og hjem omresultater af de nationale test i høj grad begrænser forældrenes mulighed for at anvende disse tilat understøtte deres barns læring, som det er intentionen i lovgivningen. Evaluator vurderer i for-længelse heraf, at den begrænsede dialog udfordrer grundlaget for og dermed indfrielse af eva-lueringens hypotese om samme. Ydermere adskiller dette sig fra anbefalingen i ministeriets pje-ce, hvor det fremgår, at testresultaterne kan være udgangspunkt for en dialog med forældre omlæringsmål for den enkelte elev75. Evaluator vurderer, at evalueringens hypotese om, at dialogmed hjemmet om resultatet af de nationale test fremmer forældrenes mulighed for at understøt-te deres barns læring, kun i nogen grad bekræftes. Det skal dog understreges, at evaluator lige-ledes vurderer, at der synes at være betydelig variation skolerne og lærerne imellem i forhold tilpraksis herfor, hvilket vidner om et uudnyttet potentiale.Som tidligere nævnt skal opfølgning på resultater af de nationale test samt eventuelle aftaler omforældres og elevens medvirken til elevens opnåelse af de opstillede læringsmål indgå i elevpla-nen. Det fremgår af tabel 5.4, at flertallet af lærerne tilkendegiver, at forældrene altid eller oftefår resultatet af de nationale test sammen med elevplanen før skole-hjem-samtalen. Ved case-studierne er forældrene blevet bedt om at forholde sig til dette, og – ligesom det er tilfældet medopstilling af læringsmål – tegner casestudierne et andet billede end det, lærernes besvarelse afspørgeskemaet gør. Størstedelen af forældrene tilkendegiver, at elevplanen for deres barn ikkeindeholder information om opfølgning på resultater af nationale test. De interview, der er gen-nemført med lærere som led i casestudierne, bekræfter, at ikke alle lærere forholder sig til op-følgning på resultater af de nationale test i elevplanen.Med afsæt i flere datakilder er det således evaluators vurdering, at opfølgning på resultater af denationale test ikke på alle skoler systematisk indskrives i elevernes elevplan. Det skal nævnes, atdet af ministeriets pjece fremgår, at den skriftlige tilbagemelding til forældrene om barnets test-resultater kan lægges ind i elevplanen, om end det præciseres, at de nationale test er ét ud afmange evalueringsværktøjer, hvorfor de kun vil fylde en lille del. Spørgeskemaundersøgelse så-vel som casestudier peger dog på, at dette i nogle tilfælde slet ikke sker.5.2.2Testresultaternes værdi for forældre i skole-hjem-samarbejdet
Som det fremgår indledningsvis, er en hypotese i evalueringen, at de nationale test styrker sko-le-hjem-samarbejdet. Som led i casestudierne er både lærere og forældre blevet bedt om at for-holde sig eksplicit til dette og dermed give en samlet vurdering af, om de nationale test styrkerskole-hjem-samarbejdet. For både lærere og forældre gælder, at informanterne overordnet setdeler sig i to grupper. Den ene gruppe vurderer, at de nationale test i en vis grad har styrketskole-hjem-samarbejdet. Dette begrundes især med, at resultaterne af de nationale test giver etkonkret og objektivt grundlag at drøfte elevens faglige niveau ud fra. Derudover tilkendegiver de,at resultaterne af de nationale test giver dem et grundlag for at sammenligne den enkelteelev/deres barn med andre klasser, ligesom resultaterne giver et billede af elevens/barnets fagli-ge udvikling over tid.Den anden gruppe lærere og forældre vurderer, at de nationale test ikke bidrager til at styrkeskole-hjem-samarbejdet. Særligt forældrene forklarer dette med, at lærerne ikke bruger det ak-75
Brug testresultaterne – inspiration til pædagogisk brug af resultater fra de nationale test, Skolestyrelsen, 2011.
Evaluering af de nationale test
68
tivt i samarbejdet med forældrene, og at de ser det som lærerens redskab frem for forældrenes.Lærerne påpeger typisk, at de især betragter de nationale test som et styringsredskab for skole-ledelsen og forvaltningen, hvorfor det ikke har betydning for samarbejdet mellem skole og hjem.Nedenstående boks giver eksempler på aspekter af de nationale test, der udgør en værdi forforældrene. De nævnte aspekter er fremhævet af forældre i forbindelse med casestudierne. Deter således evaluators vurdering, at der er tale om generelle tendenser, om end de i boksen ereksemplificeret ved fx én skole og/eller én forælder.Boks 5.3: Eksempler på testresultaternes værdi for forældre i skole-hjem-samarbejdet
Øget fokus på de fagligt stærke eleverPå en skole er der i kommende skoleår fokus på at udvikle de fagligt stærke elever. I casestudierne for-tæller en forælder fra skolen, at forældrene er blevet gjort opmærksomme på dette fokus, og at der ihendes barns elevplan står, hvordan der skal arbejdes med barnets faglige udvikling. Forælderen er over-bevist om, at de nationale test har medvirket til et øget fokus på de fagligt stærke og fortæller: ”Forud forforældresamtalen er der målsætningssamtaler – her bliver der indgået kontrakter mellem lærer og elev.Her aftales, hvor der skal udfordres osv. Både toppen og bunden”. Forældrene på pågældende skole vur-derer, at de nationale test er med til at øge fokus på de fagligt stærke.Lærerne er mere åbne for dialogEn del af forældrene oplever, at lærerne efter indførelsen af de nationale test er blevet mere åbne for enløbende dialog med forældrene om elevens faglige niveau. Forældrene fortæller i casestudierne, at det erderes opfattelse, at lærerne er trygge ved de nationale test, fordi de har noget konkret at tale ud fra. Enforælder fortæller i relation hertil, at de nationale test til skole-hjem-samtalen kan medvirke til, at samta-len kan dreje sig om noget fagligt fremfor personligt. Dette fremhæves især som en fordel, hvis forældre-ne og/eller eleven har et mindre godt forhold til lærerne. Her kan de nationale test bruges som konkretomdrejningspunkt for skole-hjem-samtalen. Forældrene giver i den forbindelse udtryk for, at det er medtil at styrke indholdet af skole-hjem-samtalen, at der inddrages objektive vurderinger af eleverne.SammenligningsgrundlagEn forældregruppe på en skole oplever, at nationale test er et godt redskab for forældrene til at følge de-res børns faglige niveau over tid. Særligt læsetesten fremhæves af forældrene som et godt redskab tildette, da man med læsetesten har mulighed for at følge elevernes udvikling over de fire obligatorisketest. Desuden fremhæves den, fordi den kun har fokus på én færdighed, nemlig læsning, hvorfor det ernemt for forældrene at forholde sig til.
På baggrund af ovenstående er det evaluators vurdering, at hypotesen om, at dialog med hjem-met om resultatet af de nationale test fremmer forældrenes mulighed for at understøtte deresbarns læring, kun i nogen grad kan bekræftes. Dette skyldes især, at denne dialog kun sker i be-grænset omfang og typisk kun i nogle fag. Det er desuden evaluators vurdering, at hypotesenom, at de nationale test styrker skole-hjem-samarbejdet, kun delvist kan bekræftes.5.3DelkonklusionI dette kapitel er der foretaget en analyse af de nationale tests betydning for eleverne og for sko-le-hjem-samarbejdet. I tabellen nedenfor er indsat en oversigt over de nøglehypoteser, der harværet undersøgt i denne forbindelse.
Evaluering af de nationale test
69
Tabel 5.5: Oversigt over nøglehypoteser (eleven og skole-hjem-samarbejde)
HypoteseEleverneLærerens tilbagemelding og dialog med elevenom resultatet af de nationale test styrker elever-nes bevidsthed om egne læreprocesser og der-med motivation for læringSkole-hjem-samarbejdeNationale test styrker skole-hjem-samarbejdet
Data
Status
Spørgeskemaundersøgelse tillærereCasestudier, herunder interviewog observation
Ikke bekræftet-
Spørgeskemaundersøgelse tilskoleledere og lærereCasestudier, herunder interviewmed forældre m.fl.
Delvist bekræftet+
Dialog med hjemmet om resultatet af de natio-nale test fremmer forældrenes mulighed for atunderstøtte deres barns læring
Spørgeskemaundersøgelse tilskoleledere og lærereCasestudier, herunder interviewmed forældre m.fl.
Delvist bekræftet+
I forhold tilelevernes oplevelse af de nationale tester evaluators samlede vurdering, at ele-verne overordnet er positivt indstillede over for de nationale test. De it-baserede og adaptive tester generelt motiverende og udfordrende for eleverne, men der er også eksempler på, at testeneskaber stress og usikkerhed hos visse elever. Forskellig praksis på skolerne vedrørende afslutningaf testene, hvor nogle elever bliver færdige før andre, skaber en uhensigtsmæssig afvikling fornogle elever. En hovedkonklusion er endvidere, at eleverne hovedsageligt modtager kollektiv til-bagemelding fra lærerne om resultaterne af de nationale test, mens dialog med den enkelte elevom testresultater kun sker i begrænset omfang. Samtidig peger evalueringen på, at netop denindividuelle dialog med eleven om resultater af testene er afgørende for testenes betydning forelevernes bevidsthed om egne styrker og svagheder samt deres motivation for at omsætte denneviden til handling.Det er evaluators samlede vurdering, at de nationale test i nogen grad styrkerskole-hjem-samarbejdet.Evalueringen viser, at forældrene generelt set orienteres om tidspunkt for gen-nemførelse af nationale test, samt at yderligere information om formål med, praktisk gennemfø-relse af de nationale test mv. typisk sker især den/de først(e) gang(e), eleverne skal gennemføreen national test. Forældrene modtager typisk skriftlig information om den enkelte elevs resultatergennem forældrebrev, som enten sendes hjem til forældrene eller udleveres ved skole-hjem-samtaler. En hovedkonklusion er, at resultaterne af de nationale test kun i begrænset omfanganvendes til at opstille læringsmål for eleverne (i dialog med hjemmet), ligesom opfølgningenherpå kun i nogen grad skrives ind i elevplanerne. Der synes således at være potentiale for atinddrage resultater af de nationale test til opstilling af læringsmål i højere grad, end tilfældet er idag.
Evaluering af de nationale test
70
6.
DE NATIONALE TEST SOM DIALOG- OG STYRINGSRED-SKABI det følgende kapitel behandles den del af evalueringen, der omhandler anvendelsen af de nati-onale test som værktøj for kommuners og skolelederes kvalitetsarbejde. Dette er endnu en di-mension, relateret til evalueringstemaetTestenes anvendelse.Som tidligere fremhævet blev de nationale test indført med pædagogisk anvendelse som detprimære formål (jf. lovforslaget om de nationale test). Imidlertid var det tilsvarende en politiskambition, at de nationale test skulle anvendes af både skoleledere og kommuner i deres kvali-tetsarbejde på henholdsvis den enkelte skole og for det samlede skolevæsen76.Den del af forandringsteorien, der afdækkes og analyseres i dette kapitel, kalder vi forleder- ogstyringssporet.Der skal således foretages en vurdering af, i hvilket omfang og hvordan de natio-nale test anvendes af henholdsvisskoleledereogkommuneri deres respektive kvalitetsarbejde,herunder om anvendelsen bidrager til de forventede forandringer og resultater.
6.1
Anvendelse af de nationale test som værktøj for skolelederes kvalitetsarbejdeSom pædagogisk og administrativ ansvarlig for skolens samlede virksomhed harskolelederenen central rolle i skolens kvalitetsarbejde, herunder arbejdet med evaluering. I henhold til lov-grundlaget skal skoleledelsen orientere sig i resultaterne af de nationale test, og som det fremgåraf såvel model for evalueringskultur som forandringsteori, antages det, at ledelsen går i dialogmed lærerne om resultaterne med henblik på fremadrettet handling.I det følgende afrapporteres evalueringens resultater, for så vidt angår skoleledernes kvalitetsar-bejde. Resultaterne er baseret på en spørgeskemaundersøgelse udsendt til samtlige skoleledere ide danske folkeskoler. Over 700 skoleledere har deltaget i spørgeskemaundersøgelsen. Derud-over anvendes de gennemførte casestudier, hvor der er foretaget interviews med repræsentan-terne fra skoleledelsen.Evaluator har som led i spørgeskemaundersøgelsen til skoleledere spurgt om en række organisa-toriske og ledelsesmæssige forhold. Disse data bekræfter i vid udstrækning resultater fra øvrigeundersøgelser og forskning77. Det gælder bl.a. følgende forhold:Meget høj grad af prioritering af formel efteruddannelse blandt skolelederneUdbredt brug af forskellige organisationsformer, bl.a. klasseteams, fagteam samt afdelings-opdelingStigende anvendelse af ressourcepersoner/vejledere, særligt inden for læsningAtledelse efter mål og rammerer den mest udbredte ledelsestilgangAtelevernes trivselprioriteres markant højere af skolelederne end en række øvrige faktorer(herunder et højt fagligt ambitionsniveau, der dog prioriteres næsthøjest).
Hvor det er relevant, bruges baggrundsoplysninger om skolernes organisation og ledelsespraksistil at nuancere analysen i det følgende.6.1.1Skolernes evalueringspraksis
Forud for evalueringens belysning af skoleledernes brug af de nationale test har vi i spørgeske-maundersøgelsen spurgt ind til skoleledernes syn på skolernes evalueringspraksis. Skoleledernessvar, relateret til evalueringspraksis, afrapporteres ikke her, idet en dybdegående analyse heraffindes i kapitel 3.Det er dog værd at gentage – forud for den specifikke analyse af skoleledernes anvendelse af denationale test – at skolelederne generelt tillægger evalueringsarbejdet stor betydning, samt at en76
OECD beskriver dette dobbelte formal i deres review fra 2011:”TheMinistry of Education clearly states that the intended purposes of
the national tests are two-fold: to provide teachers with diagnostic information about students’ strengths and areas of improvementand to monitor school performance”,OECD Reviews of Evaluation and Assessment in Education, Denmark, OECD, May 2011.77
Se fx Ledelse af folkeskolerne, SFI, 2011.
Evaluering af de nationale test
71
række praksisser inden for evaluering ser ud til at være ganske udbredt på de fleste skoler. End-videre viser analysen i kapitel 3, at de fleste dimensioner af evalueringspraksis er etableret påskolerne inden for de seneste 3-5 år.Analysen konstaterer dog samtidig, at der er et væsentligt element af evalueringspraksis, der serud til at være mangelfuld. Det handler om brug af evalueringsresultater fra skoleledelsens side tilat sætte årlige mål. Over en tredjedel af skolerne har angivet, at målfastsættelse på baggrund afevaluering slet ikke var en del af praksis. Endelig tyder det på, at skolelederne benytter en bredvifte af evalueringsværktøjer i deres ledelse af skolerne.For så vidt angår skolernes evalueringspraksis, skal det afslutningsvist konstateres, at det ikkepå baggrund af evalueringens data har været muligt at bekræftehypotesenom, at formel le-deruddannelse hos skoleledelsen betyder stærkere evalueringskultur på skolen. Dette skyldesden begrænsede variation i skoledernes svar, da stort set alle skoleledere har én eller andenform for skoleledelse.6.1.2Skoleledelsens anvendelse af de nationale test
Nedenstående tabel giver et indblik i, om og i hvilket omfang skoleledelsen bruger de nationaletest.Tabel 6.1: I hvilken grad bruger skolens ledelse resultaterne af de nationale test til systematisk at holdeøje med og vurdere… Angivet i pct.
SletikkeSkolens niveau ved at se på, hvordanskolen placerer sig samlet set i forholdtil den nationale præstationsprofilSkolens niveau ved at se på, hvordanskolen klarer sig som helhed i forhold tiltidligere års resultaterKlassens niveau ved at sammenligne deenkelte klassers resultat med hinanden(fx 6.a dansk med 6.b dansk)Klassens niveau ved at sammenligne deenkelte klassers resultat over tid (fx vedat sammenholde testenes resultatermed, hvordan klassen klarede sig påtidligere klassetrin)Enkelte elevers faglige niveauLærerens faglige præstation
I mindregrad
I nogengrad
I temme-lig højgrad30
I megethøj grad
I alt(N)100(728)100(728)100(728)
5
17
39
10
4
11
37
36
12
19
22
31
21
7
7
15
35
33
11
100(728)
616
1828
2936
3417
133
100(728)100(728)
Kilde: Spørgeskemaundersøgelse til skoleledere, 2013.
I evalueringens forandringsteori er det en kritisk antagelse, at skoleledelsen reelt orienterer sig iog analyserer testresultaterne, som det er forudsat i loven, og som der er givet mulighed for78.Grundlæggende må denne forudsætning siges at være opfyldt, da resultaterne tyder på, at skole-ledelsen generelt orienterer sig i resultaterne. Dog er den hyppigste besvarelse (med en enkeltundtagelse), at de anvender testene i nogen grad. Der er en lille andel af skolerne, der slet ikkebruger de nationale test.Det er mest udbredt for skoleledelsen at holde øje med resultaterneover tid.Det gælder bådeskolens niveau i forhold til tidligere år (knap halvdelen angiver, at de gør det i temmelig høj gradeller i meget høj grad), samt de enkelte klassers niveau over tid. Derimod er det markant færre,78
I henhold til Bekendtgørelse om anvendelse af test i folkeskolen mv. (BEK nr. 1000 af 26/10/2009) kan skolens leder foretage ud-
træk af (i) skolens samlede profil, (ii) de enkelte klassers gennemsnitsprofiler; (iii) antal elever, der har deltaget; samt (iv) en listeover de enkelte eleveres resultat i hver klasse.Evaluering af de nationale test
72
der orienterer sig i, hvordan de enkelte klasser klarer sig i sammenligning med hinanden (fire udaf 10 skoler gør det slet ikke eller i mindre grad). Den nationale præstationsprofil bringes i an-vendelse på stort set alle skoler (i ét eller andet omfang).Tabellen indikerer meget stor variation i forhold til, om de nationale test fungerer som styrings-værktøj for skoleledelsen i relation til lærernes faglige præstationer. De fleste skoleledelser angi-ver i nogen grad (36 pct.), og det er kun en mindre andel af skolerne, der gør dette i udprægetgrad. Som de åbne svar i spørgeskemaundersøgelsen samt casestudierne viser, så er det udbredtpraksis at anvende de nationale test i samspil med andre evalueringsredskaber og sjældent ale-ne. Dertil kommer, at det generelt ikke synes at være standard at give lærerne systematiskfeedback på deres indsats og præstationer79. Der er dog skoler, hvor testene har stor betydning –også i forhold til at give feedback til lærerne. Disse eksempler vender vi tilbage til nedenfor.Endelig konstaterer evaluator, at skoleledelsen på et betydeligt antal skoler tilsyneladende brugerde nationale test til på systematisk vis at holde øje med de enkelte elevers faglige niveau. Dettesynes umiddelbart bemærkelsesværdigt, da det kunne være en antagelse, at indblik i testresulta-ter på elevniveau er forbeholdt lærerne. Evalueringen kan ikke svare på, om dette i alle tilfældesker i et samarbejde mellem lærere og skoleleder, men evaluator har set eksempler på dette.Yderligere analyser af data fra spørgeskemaundersøgelsen viser endvidere, at der er en positivsammenhæng mellem, hvorvidt skoleledelsen systematisk holder øje med elevernes niveau, ogom skoleledelsen prioriterer et højt fagligt ambitionsniveau på vegne af eleverne. Sagt forenklethar de skoler, der angiver at have et højt fagligt ambitionsniveau, større tilbøjelighed til at orien-tere sig i resultater på elevniveau.I tabellen nedenfor er det afsøgt,hvadde nationale test nærmere anvendes til, når resultaterneforeligger.Tabel 6.2: I hvilken grad benytter skolens ledelse resultaterne af de nationale test til at… Angivet i pct.
SletikkeIdentificere faglige problemstillinger,der skal håndteresPrioritere nye pædagogiske indsats-områderPrioritere ressourcer (ekstra ti-mer/lærerressourcer/undervisningsmaterialer mv. til klasser eller ele-ver)69
I mindregrad1621
I nogengrad3638
I temme-lig højgrad3225
I megethøj grad107
I alt(N)100(728)100(728)100(728)
11
22
36
24
7
Kilde: Spørgeskemaundersøgelse til skoleledere, 2013.
Tabellen viser relativ stor variation i skoleledelsens anvendelse af testresultaterne. Det hyppigstesvar på alle spørgsmål er, at man i nogen grad identificerer faglige problemstillinger, prioriterernye indsatsområder og prioriterer ressourcer (36-38 pct. af skolerne). Svarene indikerer på ny,at mange skoleledere gør aktiv brug af resultaterne fra de nationale test i deres kvalitetsarbejde.De kvalitative casestudier vidner om den samme høje grad af variation. Iden ene ende af spek-treter der en række skoler, hvor der nok er fokus på at identificere og handle på faglige pro-blemstillinger, men dette sker af læreren og ikke af skolens ledelse (selv om skoleledelsen orien-terer sig i resultaterne). Hvis skoleledelsen har en rolle i fremadrettede handlinger på disse sko-ler, så er arbejdet centreret om de klasser, der klarer sig mindre godt. Den fremadrettede priori-tering af nye pædagogiske indsatser (udover hvad læreren igangsætter i klassen) eller yderligereressourcer sker ikke eller i meget begrænset omfang. Det bemærkes også, at der er skoler (6pct.), hvor de nationale test slet ikke anvendes til at identificere faglige problemstillinger.
79
Se fx OECD Reviews of Evaluation and Assessment in Education, Denmark, OECD, May 2011.
Evaluering af de nationale test
73
Iden anden ende af spektrethar evaluator besøgt skoler, hvor skoleledelsen i langt større om-fang er aktive også i den fremadrettede anvendelse – frem for ”blot” at monitorere testresulta-terne og delegere den konkrete handling til lærerstaben. På disse skoler har testresultater væreanledning til omfattende fremadrettede aktiviteter, som det fremgår nedenfor (eksempler fra ud-valgte skoler):Prioritering af ressourcer til faglige vejledere, der på den pågældende skole havde ført til etmarkant fagligt løftIndkøb af nye bogsystemer på baggrund af utilfredsstillende resultater i naturfagEfteruddannelsesstrategi med henblik på løfte til linjefagsniveau inden for bestemte fagområ-derÆndret fagfordeling.
Ovenstående eksempler er udtryk for, at testresultater kan føre til konkrete ændringer, fx at flyt-te lærere fra en klasse ved gentagne dårlige resultater i nationale test, og/eller prioritere res-sourcer til fag, hvor der er behov for ekstra støtte, vejledning eller opfølgning.I nedenstående tabel afdækkes en række spørgsmål vedrørenderammer, dialog med lærergrup-pensamt brug affrivillige test.Tabel 6.3: Angiv, i hvilken grad du er enig eller uenig i de følgende udsagn om nationale test. På minskole… Angivet i pct.
HeltuenigHar skolens ledelse klartkommunikeret formåletmed/værdien af at benytte denationale testHar skolens ledelse klartkommunikerethvordanlæ-rerne skal bruge resultaterneaf de nationale testArbejder ledelsen systematiskog løbende med at inddrageresultatet af de nationale testi en refleksiv dialog med læ-rergruppen, med henblik påat opstille klare faglige målfor udviklingen af skolens un-dervisningHar vi en målsætning om atmåle elevernes faglige pro-gression ved systematiskbrug af frivillige test
Overvejendeuenig
Hverkenenig elleruenig
Overvejendeenig
Heltenig
I alt(N)
5
14
33
37
11
100(728)
6
17
33
35
8
100(728)
8
20
35
31
7
100(728)
10
16
29
32
13
100(728)
Kilde: Spørgeskemaundersøgelse til skoleledere, 2013.
For så vidt angår item 1 og 2, så belyser spørgsmålene, i hvilket omfang der på skolerne erklarerammer og retningslinjerfor anvendelsen af de nationale test (herunder skoleledelsens rolle i densammenhæng).Knap halvdelen af respondenterne angiver, at skolens ledelse klart har kommunikeret formåletmed/værdien af at benytte de nationale test, og en lidt mindre andel (43 pct. erklærer sig over-vejende enige eller helt enige) svarer, at skolens ledelse klart har kommunikeret,hvordanlærer-ne skal bruge de nationale test. Det noteres endvidere, at en betydelig andel af skoleledere sva-rer hverken enig eller uenig på spørgsmålene.I forhold til evalueringens forandringsteori er den store forskel skolerne imellem i forhold til”rammesætning” problematisk. Det vurderes vigtigt, at skoleledelsen tager ejerskab for brugen
Evaluering af de nationale test
74
af de nationale test, bl.a. ved at kommunikere formålet med at bruge testene. Det gælder ikkemindst sammenhængen til den øvrige evalueringsindsats på skolen. Resultaterne af spørgeske-maundersøgelsen indikerer samtidig, at der i vid udstrækning sker delegation af ansvar til lærer-ne i forhold til brugen af de nationale test.Dette billede kan evaluator bekræfte på baggrund af udvalgte casestudier. Selv om skoleledernegenerelt tillægger de nationale test en vis værdi (se tabellen nedenfor), så er der flere skoler,hvor brugen af nationale test bliver italesat som symbolsk/instrumentel, fordi”det er jo noget,som vi skal”,som det blev udtrykt af en skoleleder. Evaluator vurderer samtidig, at resultaterneer udtryk for, at de nationale test nu er indlejret i skolernes praksis, hvorfor nogle skolelederemåske ikke vurderer, at der er behov for (fortsat) kommunikation om formål med og værdi af te-stene. Det er dog evaluators vurdering, at der er et potentiale for bedre anvendelse af de natio-nale test på de skoler, hvor dette ikke sker.Evaluator bygger bl.a. dette på, at resultaterne fra spørgeskemaundersøgelsen viser en positivsammenhæng mellem, om skoleledelsen klart har kommunikeret formålet med de nationale test,og om skolens lærere (ifølge skolelederne) anvender de nationale test fremadrettet til at tilrette-lægge en undervisning, der tager udgangspunkt i den enkelte elevs faglige niveau. Denne sam-menhæng fremgår af tabellen nedenfor.Tabel 6.4: Sammenhæng mellem, om skoleledelsen klart har kommunikeret formålet med de nationaletest og om skolens lærere (ifølge skolelederne) anvender de nationale test fremadrettet til at tilrette-lægge en undervisning, der tager udgangspunkt i den enkelte elevs faglige niveau. Angivet i pct.
Skolens lærere bruger resultaterne af de nationale test til fremadrettet at tilrettelæggeen undervisning, der tager udgangspunkt i den enkelte elevs faglige niveauPå min skole – Har skolensledelse klart kommunikeretformålet med/værdien af atbenytte de nationale testSletikkeHelt uenigOvervejendeuenigHverken enigeller uenigOvervejendeenigHelt enig60000I mindregrad28171277I nogengrad5349484833I temmelighøj grad1428333235I meget højgrad0771326I alt (N)100 (36)100 (101)100 (232)100 (269)100 (77)
Kilde: Spørgeskemaundersøgelsen til skoleledere, 2013.
Dette indebærer, at evaluator delvist kan bekræftehypotesenom, at skoleledelsens formuleringaf klare retningslinjer og målsætninger for anvendelsen af de nationale test har en positiv betyd-ning på lærernes pædagogiske anvendelse af de nationale test.Potentialet – og den delvise bekræftelse af hypotesen – bygger evaluator endvidere på kvalitativedata, indhentet via casestudierne. Det er således evaluators vurdering, at klare retningslinjer ogmålsætninger for brug af testene understøtter den pædagogiske anvendelse. På de skoler medstærk evalueringskultur er det bl.a. den fremadrettede anvendelse, som man arbejder med at fåtil at fungere, og her spiller ledelsen en væsentlig rolle. Omvendt viser evalueringen, atretningslinjer fra skoleledelsens side på nogle skoler har været helt fraværende med den konse-kvens, at anvendelsen bliver symbolsk fra lærernes side, og/eller at lærerne vender sig mod an-dre evalueringsværktøjer. På nogle af disse skoler efterlyser lærerne viden om, hvordan resulta-terne kan bruges.Tabellen viser videre, at skoleledelsen på knap 4 ud af 10 skoler arbejder systematisk og løbendemed at inddrage resultatet af de nationale test i en refleksiv dialog med lærergruppen, med hen-blik på at opstille klare faglige mål for udviklingen af skolens undervisning. Også her angiver enstor andel af skolelederne (35 pct.), at de hverken er enige eller uenige. Dette kan enten repræ-sentere indifferens (at man ikke beskæftiger sig med temaet/ikke finder det relevant), eller at de
Evaluering af de nationale test
75
pågældende skoleledere har ”uddelegeret” arbejdet med de nationale test til lærerne og derforikke er en del af denne dialog.Evaluator har da også besøgt skoler, hvor”den refleksive dialog med lærergruppen”slet ikke fin-der sted. I bedste fald finder dialogen sted, hvis der er brændende platforme, dvs. klasser medmeget dårlige testresultater. Og i den anden ende af skalaen er der eksempler på skoler, hvor denationale test spiller en central rolle i dialogen mellem skoleledelse og lærer. Der er ikke nødven-digvis tale om dialoger med hele lærergruppen på én gang, men snarere målrettede dialoger medspecifikke faggrupper eller lærerne enkeltvis. Evaluator har også set eksempler på, at den årligeklassekonference er platform for dialog om klassens og enkeltelevers resultater samt lærerensindsats (klassekonference skal her forstås som en given klasses lærere/klasseteam samt repræ-sentanter for ledelsen). Nogle bruger den årlige MUS-samtale som platform til at få læreren til atreflektere over egen praksis: Hvorfor ser resultatet ud, som det gør, og hvad kan gøres for atændre på resultatet fremadrettet? Denne anvendelse er helt i tråd med ministeriets egen vejled-ning til skolelederne80. Samlet set er der således stor variation i forhold til, om skoleledelsen ar-bejder systematisk med resultaterne i en dialog med lærerne.I boksen nedenfor har vi set nærmere på for skolernes brug af ressourcepersoner.Boks 6.1: Skolernes brug af ressourcepersoner (ifølge skolelederne)
Ressourcepersoner på udvalgte faglige områder (særligt læsning) bruges i stigende grad i de danske fol-keskoler. I spørgeskemaundersøgelsen til skoleledere er det afdækket nærmere, hvordan ressourceper-soner anvendes i forhold til de nationale test. Evalueringen viser følgende resultater:Der er en formaliseret procedure for inddragelse af ressourcepersoner som hjælp til tolkning af test-resultater på knap halvdelen af skolerne (46 pct. af skolelederne er i temmelig høj grad eller i megethøj grad enige heri)En tilsvarende andel (46 pct.) er enige i, at skolen prioriterer ressourcer til, at lærerne kan sparremed skolens ressourcepersoner om de nationale test.
Data viser således betydelig variation på skoleniveau i forhold til brugen af ressourcepersoner, når derskal tolkes på resultater fra de nationale test. Yderligere analyser viser, at de skoleledere, der angiver, atskolen har en formaliseret procedure for inddragelse af ressourcepersoner i højere grad, vurderer, at sko-len er blevet bedre til, dels at foretage systematiske og løbende evalueringer af elevernes udbytte af un-dervisningen, dels at anvende evaluering fremadrettet med henblik på at tilrettelægge en undervisning,der tager udgangspunkt i den enkelte elev. Dette indikerer en positiv sammenhæng mellem formaliseretbrug af ressourcepersoner og styrket fremadrettet anvendelse af evalueringsresultater.
Endelig har evaluator afdækket skoleledernesvurderinger af/holdninger til de nationaletest.Resultaterne fremgår nedenfor81.
8081
Brug testresultaterne – inspiration til pædagogisk brug af resultater fra de nationale test, Skolestyrelsen, 2011.Det bemærkes, at skoleledernes oplevelse afeffekterneaf de nationale test er afrapporteret i kapitel 3.
Evaluering af de nationale test
76
Tabel 6.5: Angiv venligst, hvor enig eller uenig du/skoleledelsen er i relation til følgende udsagn om denationale test. Nationale test... Angivet i pct.
Heltueniggiver ny viden om elevernesfaglige niveauunderstøtter lærernes arbejdemed at differentiere undervis-ningenpåvirker undervisningens ind-hold uhensigtsmæssigt megetgiver skoleledelsen anvende-lig information om skolensfaglige niveaufungerer som et nyttigt dia-logredskab til brug for samar-bejdet mellem skole og for-valtningfungerer som et nyttigt dia-logredskab mellem skole oghjem om elevernes fagligeudviklingskaber for meget bureaukratipå skolenfungerer alene som et doku-mentationsredskab for for-valtningen over for kommu-nalbestyrelsen2
Overvejendeuenig11
Hverkenenig elleruenig29
Overvejendeenig49
Heltenig10
I alt(N)100(728)100(728)100(728)100(728)
2
9
28
50
12
10
28
41
18
3
2
7
27
52
13
13
22
41
19
5
100(728)
2
6
21
57
14
100(728)100(728)100(728)
13
27
38
16
6
39
23
28
8
2
Kilde: Spørgeskemaundersøgelse til skoleledere, 2013.
Ovenstående resultater giver et relativt klart og overvejende positivt billede af de nationale test,hvis man spørger skolelederne. Et udpluk af svarene illustrerer dette:Seks ud af 10 skoleledere er enige i (overvejende eller helt enige), at testene giver ny videnom elevernes faglige niveau. Der er altsåikketale om, at testene kun bekræf-ter/reproducerer eksisterende videnEn tilsvarende andel mener, at de nationale test understøtter arbejdet med at differentiereundervisningen – en opgave, der notorisk er en stor udfordring i folkeskolen71 pct. vurderer, at testene er et nyttigt værktøj i skole-hjem-samarbejdet65 pct. angiver, at testene giver anvendelig information om skolens faglige niveau.
Alt i alt vurderer evaluator, at størstedelen af skolelederne i de danske folkeskoler har taget te-stene til sig og finder dem anvendelige. På trods heraf er det samtidig tydeligt (baseret på fleredatakilder), at der stadig er en betydelig andel af skolelederne, der ikke finder dem relevante,og/eller overlader ansvaret til lærerne ud fra devisen, at der er tale om et pædagogisk værktøj(ses også ved, at en stor andel svarer hverken enig eller uenig til udsagnene ovenfor). Lignendetilbagemeldinger er tidligere givet fra skoleledere i andre undersøgelser, fx om Fælles Mål, hvoren del skoleledere ikke ønskede at blande sig i arbejdet med Fælles Mål, da dette ansås som ”læ-rernes domæne”82.Det bemærkes i øvrigt, at blot én ud af fire anser de nationale test for at være et nyttigt dialog-redskab i samarbejdet mellem skole og forvaltning (se nedenfor).
82
Fælles Mål i folkeskolen, Danmarks Evalueringsinstitut, 2012.
Evaluering af de nationale test
77
6.1.3
Brug af de nationale test som dialog- og styringsredskab
Som led i styringsdelen af forandringsteorien (se bilag 1) er det en antagelse, at dialog mellemskoleledere og kommune om skolens testresultater er væsentlig i forhold til fremadrettet at kun-ne opstille faglige mål for skolen.I tabellen nedenfor har vi bedt skolelederen om at vurdere, hvordan de oplever kommunens ar-bejde med de nationale test.Tabel 6.6: I hvilken grad stemmer nedenstående udsagn om kommunalbestyrelsens arbejde i relation tilnationale test overens med oplevelsen på jeres skole? Angivet i pct.
SletikkeKommunalbestyrelsen tillæggerresultaterne af de nationale teststor vægt i arbejdet med dekommunale kvalitetsrapporter ogvurderingen af den enkelte skolesfaglige niveauKommunalbestyrelsen bruger dennationale præstationsprofil i denløbende vurdering af det fagligeniveau på skolerneKommunalbestyrelsen har formu-leret klare mål til elevernes fagli-ge niveau, herunder resultaterneaf de nationale testKommunerne udarbejder enhandleplan til skolen, hvis resul-tatet af elevernes faglige niveaupå en skole, herunder resultatetaf de nationale test, ikke er til-fredsstillendeKommunalbestyrelsen bruger ak-tivt resultaterne af de nationaletest i en løbende og systematiskdialog med skoleledelsen om sko-lens faglige niveau og behovet foropfølgning
I min-dre grad
I nogengrad
I temmelighøj grad
I megethøjgrad
Vedikke
I alt(N)
5
13
26
18
16
22
100(728)
7
14
23
18
13
26
100(728)
25
19
20
9
6
21
100(728)
31
14
13
7
3
32
100(728)
27
22
20
8
6
18
100(728)
Kilde: Spørgeskemaundersøgelse til skoleledere, 2013.Note: Respondenterne er blevet gjort opmærksomme på, at kommunalbestyrelsen kan læses som forvaltningen.
Skoleledernes svar på ovenstående udsagn giver et sammensat billede af skoleledernes opfattel-se af kommunernes arbejde med de nationale test. Der er således stor variation i forhold til, omskolelederne vurderer, at kommunerne tillægger testresultaterne stor vægt. Skolelederne opleveri begrænset omfang, at kommunerne opstiller klare mål til elevernes faglige niveau (herundertestresultater), idet næsten halvdelen slet ikke eller kun i mindre grad vurderer, at dette er til-fældet.Mest markant viser tabellen, at 49 pct. i mindre grad eller slet ikke finder, at kommunen aktivtbruger testresultaterne i en løbende og systematisk dialog med skoleledelsen. Denne relativt kri-tiske (eller ”blot” nøgterne) vurdering af kommunernes brug af de nationale test stemmerikkeoverens med kommunernes egen vurdering af testresultaterne. Her svarer en del flere kommu-ner på samme spørgsmål, at de aktivt bruger resultaterne. Der er dog stadig 4 ud af 10 kommu-ner, der slet ikke eller i mindre grad bruger resultaterne aktivt i dialog med skoleledelsen. Det ersandsynligvis udtryk for, at testresultaterne ses som en del af en større sammenhæng, jf. afsnit6.2.
Evaluering af de nationale test
78
Under alle omstændigheder indebærer ovenstående, at forandringsteorien på dette punkt (densystematiske og løbende dialog mellem skoleledelse og kommune) udfordres på en lang rækkeskoler. Dette bekræftes i flere af casestudierne, hvor vurderingen er, at de nationale test er vig-tige, men kun på det overordnede niveau. Kommunerne/forvaltningerne efterstræber gode resul-tater i de nationale test, men der er sjældent direkte samarbejde om disse. En repræsentant fraen af de interviewede forvaltninger anførte, at man fra kommunal side med viljeikkeopstilledeegentlige mål for skolerne, da man mente, at der dermed ville være risiko forteaching to thetest.Omvendt er der eksempler i evalueringen på, at nogle kommuner spiller en meget aktiv rolle,hvor der foretages en løbende og systematisk dialog med skolerne om resultaterne, og hvor manogså inddrager resultaterne fremadrettet i kommunernes strategiske planlægning. Det bemærkesdog samtidig, at der er en tendens til, at de kommunale forvaltninger mest er interesserede i deskoler, der klarer sig dårligt. Der kan derfor typisk konstateres en form for ”slagside”, eller alter-nativt prioritering, fra kommunal side.Væsentligt er det også at fremhæve, at evaluator har oplevet eksempler, hvor skoler levererstærke faglige resultater (bl.a. i de nationale test), men hvor forvaltningen ikke spiller en aktivrolle. Det tyder på, at forvaltningerne ikke i alle tilfælde er udslagsgivende for positive faglige re-sultater. Omvendt vurderer evaluator, at de nationale test netop kan være afgørende som sty-ringsværktøj i de tilfælde, hvor derikkeer tale om en stærk/dygtig skoleledelse.I forhold til evalueringenshypoteser om skoleledelsekan evalueringen delvist bekræfte, atskoleledelsens formulering af klare retningslinjer og målsætninger for testanvendelse har en po-sitiv betydning for lærernes pædagogiske anvendelse. Der er eksempler på, at rammesætningenslet ikke finder sted, og i de tilfælde kan hypotesen indlysende ikke bekræftes. Omvendt viseranalyse af spørgeskemadata samt udvalgte casestudier, at den positive sammenhæng findes. Til-svarende kan hypotesen om, at anvendelse af testresultater bidrager til et bedre grundlag forskoleledelsens kvalitetsarbejde, delvist bekræftes. På skolerne med stærk evalueringskultur erder en klar sammenhæng med den vigtige tilføjelse, at skolelederne anvender testresultater somét ud af flere evaluerings-/monitoreringsværktøjer. Den sidste hypotese, relateret til skoleledelse– at inddragelse af testresultater (sammen med øvrig evaluering) giver et styrket grundlag foraktiv pædagogisk skoleledelse – betoner den formative og fremadrettede dimension af testan-vendelsen. Denne hypotese kan evalueringen kun i begrænset omfang bekræfte. Det skyldes, atde fleste skoleledere (endnu) anvender testresultaterne til at skabe et overblik (summativt), ogdet er således et mindretal, der anvender resultaterne fremadrettet, som hypotesen lægger optil.6.2De nationale test som værktøj for kommuners kvalitetsarbejdeDet kommunale niveau – kommunalbestyrelse og den kommunale skoleforvaltning – var i be-grænset omfang i fokus i det lovforslag, der lå til grund for indførelse af de nationale test. Herinævnes det blot, at kommunerne har ansvar for at sikre, at de obligatoriske test gennemføres(kommunens ansvar som skoleejer), samt at kommunerne ville kunne orientere sig i testresulta-terne.Det var det efterfølgende lovforslag fra 2006, der specifikt koblede de nationale test sammenmed et politisk ønske om at præcisere det kommunale ansvar for folkeskolen (lovforslaget omindførelse af elevplaner, kvalitetsrapporter mv.). I lovforslaget introduceres kravet om udarbej-delse af kommunale kvalitetsrapporter som svar på en række udfordringer vedrørende tilsyn,kvalitetsudvikling og evalueringskultur på kommunalt niveau.Med udgangspunkt i lovændringerne af folkeskoleloven fra 2006 kan det konstateres, at de nati-onale test primært har til hensigt at fungere som et styringsværktøj på kommunalt niveau, nårde ses i sammenhæng med de kommunale kvalitetsrapporter. Således fremgår det af lovbe-mærkningerne til lovforslaget om elevplaner, kvalitetsrapporter mv., at kvalitetsrapporten skalanvendes til at vurdere skolernes faglige niveau”i forhold til resultaterne fra de obligatoriske na-tionale test samt skolernes evalueringspraksis”.Det forventes endvidere, at de nationale test kanvære omdrejningspunktet for en løbende dialog om kvalitet mellem kommune og skolelederemed henblik på løbende og systematisk opfølgning og eventuel handling.Evaluering af de nationale test
79
Nedenfor afrapporteres evalueringens resultater, for så vidt angår kommunernes kvalitetsarbej-de. Resultaterne er baseret på en spørgeskemaundersøgelse til de kommunale skoleforvaltningersamt de gennemførte casestudier, hvor der er foretaget interviews med repræsentanter fra sko-leforvaltningerne.6.2.1Kommuners generelle kvalitetsarbejde på skoleområdet
I tabellen nedenfor har kommunerne i spørgeskemaundersøgelsen angivet, hvad der kendetegnerkommunensgenerellekvalitetsarbejde på skoleområdet. Dette vurderes relevant, da de nationaletest, jf. lovgrundlaget, indgår som ét ud af flere værktøjer i arbejdet med tilsyn og kvalitetsud-vikling af det samlede skolevæsen.Tabel 6.7: I hvilken grad er følgende forhold kendetegnende for kommunens generelle kvalitetsarbejdepå skoleområdet? Angivet i pct.
SletikkeKommunen har fast-sat klare mål til sko-lernes faglige resul-taterKommunen har fasteprocedurer for dialogmed skolerne om op-fyldelse af de fagligemålKommunen følger lø-bende og systema-tisk op på skolernesopfyldelse af de fag-lige målSkolers manglendeefterlevelse af fagligemål fører til krav om,at skolerne skal for-bedre sig fagligt
I mindregrad
I nogengrad
I temmelighøj grad
I megethøj grad
Vedikke
I alt (N)
5
13
39
27
17
0
100 (78)
3
4
19
32
42
0
100 (78)
1
4
26
39
31
0
100 (78)
1
12
28
35
22
3
100 (78)
Kilde: Spørgeskemaundersøgelse til skoleforvaltninger, 2013.
Som det fremgår af tabellen, angiver størstedelen af kommunernebådeat opstille klare mål forskolernes faglige præstationerogat arbejde løbende og systematisk med opfyldelsen af dissemål. Således angiver 8 ud af 10 kommuner, at de har fastlagt klare faglige mål, om end det skalunderstreges, at flest svarer ’I nogen grad’. Langt størstedelen af kommunerne (70 pct.) svarer,at de i temmelig høj grad eller i meget høj grad følger løbende og systematisk op på målopfyldel-sen på skolerne, og en betydelig andel stiller tilsvarende krav til forbedringer, hvis der kan kon-stateres manglende efterlevelse af mål83.På baggrund af spørgeskemaundersøgelsen ser det således ud til, at de kommunale forvaltningergenerelt stiller klare krav til skolernes faglige resultater, og at de – for de flestes vedkommende– ikke mindst følger op på, om dette er tilfældet.Det fremgår endvidere af spørgeskemaundersøgelsen, at de lovpligtige kvalitetsrapporter er detcentrale styringsværktøj for kommunerne på skoleområdet. Alle kommuner anvender kvalitets-rapporter for det samlede skolevæsen, og godt 7 ud af 10 kommuner vurderer, at kvalitetsrap-porter i temmelig høj grad eller i meget høj grad bidrager til at styrke kvalitetsudviklingen af sko-levæsenet. En stor andel gør tilsvarende brug af kvalitetsrapporter for de enkelte skoler.83
Selv om der er begrænset viden om betydningen af kommunale krav og mål for skoler og elevers præstationer, så har flere under-
søgelser peget på den positive betydning af klare mål – også på lokalt niveau. Således konkluderer AKF i deres rapport fra 2010, athøjt præsterende skoler bl.a. er kendetegnede ved en tydelig ledelse m med klare krav fra forvaltningens side i dialog med skoleledel-sen, jf. Den højt præsterende skole, AKF, 2010. Derudover peger formandskabet for Skolerådet i deres beretning fra 2012 på en ræk-ke internationale undersøgelser, der understøtter denne konklusion.Evaluering af de nationale test
80
Endelig viser spørgeskemaundersøgelsen et meget stort fokus på resultater generelt i kommu-nerne. Flest kommuner (halvdelen) prioriterer skolens resultater som den vigtigste faktor foranskolernes rammebetingelser (31 pct. angiver dette som vigtigst) og de pædagogiske processer(19 pct. finder dette vigtigst). Disse svar fremgår af tabellen nedenfor.Tabel 6.8: Hvis du tager udgangspunkt i behandlingen af den seneste kvalitetsrapport for kommunensskolevæsen: Hvilke af nedenstående faktorer har størst vægt i kommunalbestyrelsens drøftelse og be-handling af de kommunale kvalitetsrapporter? Angivet i pct.
Vigtigste faktorSkolernes rammebetingelser (fxantal elever, timer, linjefags-dækning, økonomi)Skolernes pædagogiske proces-serSkolernes resultater (fx i de nati-onale test, afgangsprøver, over-gang til ungdomsuddannelse)
Næstvigtigste fak-tor37
Tredje vigtigstefaktor32
I alt (N)
31
100 (78)
19
23
58
100 (78)
50
40
10
100 (78)
Kilde: Spørgeskemaundersøgelse til skoleforvaltninger, 2013.Note: Respondenterne er blevet bedt om at prioriterer de tre udsagn.
Der er således i spørgeskemaundersøgelsen flere indikationer på, at der fra kommunal side gene-relt er et stærkt fokus på skolernes faglige resultater – også når denne faktor skal prioriteres iforhold til andre forhold84. Nærværende evaluerings kvalitative data, indhentet via casestudierne,nuancerer de data, der er indhentet ved hjælp af spørgeskemaundersøgelsen. Det generelle ind-tryk er, at kommunerneharstærkt fokus på faglige resultater, men i flere tilfælde orienterer dekommunale forvaltninger sig i højere grad mod skolernes afgangskarakterer (der offentliggøres)end mod resultaterne i de nationale test. Her er testresultaterne i højere grad én ud af flere indi-katorer i kvalitetsrapporten (se næste afsnit). I nogle tilfælde er der tale om ingen eller begræn-set anvendelse af de nationale test fra kommunal side.6.2.2Kommunernes anvendelse af de nationale test
Nedenstående tabel giver et indblik i, hvilken vægt de nationale test tillægges af kommunerne iforhold til andre faktorer, der relaterer sig til kommunens kvalitetsarbejde.Tabel 6.9: I hvilken grad er følgende faktorer væsentlige for kommunens kvalitetsarbejde i dialogen medskolelederne? Udvalgte items. Angivet i pct.
SletikkeSkolernes resultater i afgangs-prøverSkolernes resultater i de natio-nale testSkolernes resultater i andrestandardiserede testSkolernes overgangsfrekvenstil ungdomsuddannelserSkolernes inklusionsgrad16513
I mindregrad4121569
I nogengrad3341312621
I temmelighøj grad3119283723
I me-get højgrad3122193045
Vedikke00100
I alt(N)100(78)100(78)100(78)100(78)100(78)
Kilde: Spørgeskemaundersøgelse til skoleforvaltninger, 2013.
84
Anden dokumentation peger på, at der også er udfordringer i forhold til kommunernes arbejde med kvalitetsudvikling, herunder mål-
formulering og opfølgning, jf. bl.a. OECD Reviews of Evaluation and Assessment in Education, Denmark, OECD, May 2011, Delrapport3: Kvalitetsrapporten – undersøgelse af kvalitetsrapportens betydning for praksis på skoler og i kommuner, Danmarks Evalueringsin-stitut, 2011, samt Beretning om evaluering og kvalitetsudvikling af folkeskolen 2012, Formandskabet for Rådet for Evaluering og Kvali-tetsudvikling af Folkeskolen, maj 2012.Evaluering af de nationale test
81
Tabellen viser, at 8 ud af 10 kommuner finder skolernes resultater i de nationale test væsentlige inogen grad, i temmelig høj grad eller i meget høj grad. Det bemærkes imidlertid, at den klartstørste andel af kommunerne (41 pct.) angiver, at testene i nogen grad er væsentlige i kommu-nens kvalitetsarbejde. Samtidig fremgår det, at andre indikatorer – resultater i afgangsprøver,øvrige testresultater, overgangsfrekvens og ikke mindst inklusionsgraden – anses for væsentlige-re fra et kommunalt perspektiv. Dette samlede billede, hvor resultaterne af de nationale test til-lægges en vis, men ikke nødvendigvis afgørende, vægt, understøttes af casestudierne.Hovedbudskabet fra casestudierne er, at resultater fra de nationale test er ”en del af paletten”,som det udtrykkes. Kommunerne interesserer sig for skolernes faglige resultater, men de natio-nale test er én ud af mange brikker til at sammensætte et billede af en skoles faglige niveau. Defleste kommuner betragter de nationale test som væsentlige, især fordi de skaber det hurtigeoverblik. De gør det samtidig muligt at sammenligne på tværs af skoler. Flere kommuner angi-ver, at de bruger resultaterne fra de nationale test over for skoler lidt på samme måde, som le-derne anvender dem over for lærerne – til at identificere gode ogi særdeleshedmindre godeskoler. Og til det formål er de nationale test særdeles anvendelige.Der er imidlertid også kommuner, der slet ikke eller i begrænset omfang gør brug af de nationaletest, bl.a. fremhæves udfordringer i forhold til kravet om fortrolighed om testresultaterne. Kravetom fortrolighed medfører, at der i nogle tilfælde er usikkerhed om, hvordan testresultater kananvendes. Det gælder særligt, når testresultater aggregeres og skal anvendes som dokumentati-on af de kommunale forvaltninger. Konsekvensen bliver i nogle tilfælde, at testresultaterikkeel-leri begrænset omfanganvendes med henvisning til fortrolighedsprincippet.Med ovenstående resultat in mente viser figuren nedenfor kommunernes svar på, om de anven-der resultaterne af de nationale test i kvalitetsarbejdetudoveri arbejdet med kvalitetsrapporten.Svaret er stillet for at få et billede afbreddeni anvendelsen af testene på kommunalt niveau.Figur 6.1: Indgår resultaterne af de nationale test i forvaltningens kvalitetsarbejde udover i arbejdetmed udarbejdelse og opfølgning på kvalitetsrapporten? Pct.
Kilde: Spørgeskemaundersøgelse til skoleforvaltninger, 2013.
Evaluering af de nationale test
82
Figuren viser stor variation i anvendelsesgraden blandt kommunerne, når der ses bort fra denobligatoriske anvendelse som indikator i sammenhæng med kvalitetsrapporten. Resultatet tyderumiddelbart på, at de nationale test af en række kommuner anses som et relevant værktøj i detbredere arbejde med kvalitetsudvikling, selv om der også er en betydelig andel af kommunerne,der svarer ’Slet ikke’ (15 pct.) eller ’I mindre grad’ (21 pct.).Hvis lovgrundlaget bag såvel nationale test som kvalitetsrapporter læses meget snævert, skalden primære anvendelse af de nationale test på kommunalt niveau ske i forbindelse med udar-bejdelsen af (og opfølgning på) kvalitetsrapporten, jf. også tidligere i rapporten. Figuren ovenforindikerer imidlertid en mere varieret brug af resultaterne af de nationale test, og at værktøjet inogle kommuner også bruges i andre sammenhænge.Den store variation mellem kommuner bekræftes af de casestudier, som evaluator har gennem-ført. De 10 casestudier er eksempler på en kommunal anvendelsesgrad, der rækker over et kon-tinuum fraingen/begrænset anvendelseoverbrug af test til at skabe overbliktil atudgøre et vig-tigt element i de løbende feedbacksamtaler mellem forvaltning og skoleledere.
Evaluering af de nationale test
83
I nedenstående tabel er de kommunale respondenter blevet bedt om at tage stilling til en rækkeudsagn vedrørende kommunens arbejde med de nationale test.Tabel 6.10: I hvilken grad stemmer nedenstående udsagn overens med kommunens arbejde med de na-tionale test? Udvalgte items. Angivet i pct.
SletikkeKommunen har fastsat klaremål til skolernes resultater ide nationale testKommunen følger løbende ogsystematisk op på, om sko-lerne opnår de forventede re-sultater i de nationale testKommunen gør brug af deforskellige muligheder for re-sultatvisninger i testsystemettil at følge udviklingen ikommunens og skolernestestresultaterKommunen bruger den natio-nale præstationsprofil i denløbende vurdering af det fag-lige niveau på de enkelte sko-lerKommunen bruger aktivt re-sultaterne af de nationale testi en løbende og systematiskdialog med skoleledelsen omskolens faglige niveau og be-hovet for opfølgningKommunen bruger aktivttestresultaterne som grundlagfor iværksættelse af nye initi-ativer målrettet faglig udvik-ling, kvalitetsudvikling oglign. i kommunen (samlet foralle skoler)Kommunen bruger aktivttestresultaterne som grundlagfor iværksættelse af nye initi-ativer målrettet faglig udvik-ling, kvalitetsudvikling oglign. på enkelte skoler
I mindregrad
I nogengrad
I temmelighøj grad
I me-get højgrad4
Vedikke
I alt(N)100(78)
42
23
22
8
1
18
24
32
14
12
0
100(78)
12
23
22
24
17
3
100(78)
17
23
24
21
13
3
100(78)
14
26
27
17
15
1
100(78)
15
24
28
18
13
1
100(78)
14
24
32
18
10
1
100(78)
Kilde: Spørgeskemaundersøgelse til skoleforvaltninger, 2013.
Evaluering af de nationale test
84
Tabellen indeholder en række interessante resultater, der sammenfattes i punkterne nedenfor:For det første viser tabellen en betydelig forskel mellem det generelle kvalitetsarbejde ikommunerne og anvendelsen af de nationale test. Således er det relativt få kommuner (12pct. angiver ’I temmelig høj grad’ eller ’I meget høj grad’), der angiver at have opstillet klaremål til skolernes resultater i de nationale test. Dette skal sammenholdes med, at kommuner-ne i større grad angiver at have klare mål til skolernes faglige resultatergenerelt(jf. tabel6.7). Tilsvarende finder den specifikke opfølgning i forhold til testresultater i langt mindregrad sted fra kommunal side, end hvad der er tilfældet på det generelle niveau. Svarene indi-kerer, at mange kommuner opfatter de nationale test som skolernes (herunder lærernesværktøj), men samtidig, at manglende målformulering og opfølgning ikke nødvendigvis erensbetydende med fravær af faglige ambitioner fra kommunal side. Denne pointe kan evalua-tor underbygge ved hjælp af de kvalitative data. Mange kommuner bruger de nationale testtil at skabe”et hurtigt overblik”,men betragter dem ellers som lærernes værktøj. Det er op-fattelsen fra kommunerne, at det er skolernes ansvar at opstille mål for resultatopnåelse i denationale test – ikke kommunernes.For det andet viser tabellen, at langt størstedelen i ét eller andet omfang gør brug af de mu-ligheder, som kommunerne har, for at gå ind i testsystemet og få overblik via forskellige re-sultatvisninger. Der er i øvrigt stor variation i, hvor meget kommunerne gør brug af dennemulighed, og 12 pct. af kommunerne gør det slet ikke. Stort set den samme variation gør siggældende ved spørgsmålet om, hvorvidt kommunerne gør brug af den nationale præstations-profil (det gennemsnitlige landsresultat). Evaluator konstaterer, at de fleste kommuner reeltgennemgår skolernes resultater i testsystemet, hvilket i evalueringens forandringsteori vur-deres som en kritisk antagelse for at kunne indgå i dialog med skolerne om deres resultater.Endelig viser tabellen for det tredje, at det ikke er udbredt blandt kommunerne at bruge re-sultaterne af de nationale test til dels aktivt at gå i dialog med skoleledelsen, dels aktivt ativærksætte nye initiativer målrettet faglig udvikling. De tre sidste spørgsmål i ovenståendetabel viser, at kun 3 ud af 10 kommuner i betydeligt omfang gør aktivt brug af testresultater-ne i den fremadrettede dialog. Dette tyder på, at kommunerne primærtorienterer sigi test-resultaterne (jf. lovbemærkningerne) og i mindre omfang bruger testene fremadrettet. Medandre ord er en summativ anvendelse af testene mest udbredt i kommunerne, mens en for-mativ anvendelse enten ikke vurderes relevant, eller også kan svaret være udtryk for, at te-stene ikkeisoleret setgiver anledning til fremadrettet handling. Testene skal snarere ses somet delelement i den bredere styringsdialog mellem kommune og skoleledelse. Samlet set erdet generelle billede – vurderet op imod evaluators model for evalueringskultur – at de flestekommuner bør placeres på ”de lavere niveauer”. Omvendt har evaluator også mødt eksem-pler på kommuner med meget aktiv anvendelse af testresultaterne i dialogen med skoleledel-sen, jf. eksemplet nedenfor.
Det bemærkes endvidere, at detaljerede analyser af resultaterne fra spørgeskemaundersøgelsenikke har afsløret statistiske sammenhænge mellem kommunestørrelse og arbejdet med de natio-nale test.
Evaluering af de nationale test
85
Boks 6.2: Et eksempel på aktiv kommunal anvendelse af de nationale test
I en kommune indgår resultatet af de nationale test som et vigtigt element i de løbende feedbacksamtalermellem forvaltning og skoleledere. Centerchefen for skoleområdet orienterer sig i resultaterne af testenepå hver enkelt årgang, men understreger samtidig, at testresultaterne ikke kan stå alene. Det er en del afdet samlede billede af skolernes faglige niveau. Der er en forventning om, at skolelederne selv peger påde klasser/årgange, som centerchefen skal forholde sig særskilt til, og at skolelederen i forlængelse herafhar reflekteret over, hvorfor resultatet er, som det er, og hvad der kan gøres. Det er centerchefens erfa-ring, at en dialog om resultatet af de nationale test kan afføde, at skolerne rykker sig fagligt, eksempelvisved at der iværksættes en styrket læseindsats. En sådan indsats skal skolerne beskrive i den handleplan,der indgår som en del af kvalitetsrapporten.På kommunalt niveau har man også fokuseret sin indsats og ressourcer på baggrund af testresultater ogkarakterer i folkeskolens afgangsprøve. Resultaterne inden for naturfag var generelt ikke tilfredsstillende,og man har derfor besluttet at ansætte en naturfagskonsulent.Centerchefen understreger afslutningsvis, at det er vurderingen, at nationale test kan styrke det fagligeniveau, men det forudsætter, at testene først og fremmest bruges som det pædagogisk redskab, de ertænkt som, altså i mødet mellem læreren og eleven. Det styringsmæssige element er sekundært, menabsolut væsentligt i det fortsatte systematiske arbejde med at understøtte skolernes faglige resultater.Evaluator har tilsvarende mødt et par andre kommuner, hvor resultatet af de nationale test og opfølgningherpå indgår som et væsentligt element i enten LUS-samtaler (Lederudviklingssamtaler) eller i dialogenmed bl.a. ressourcepersoner/vejledere i kommunale netværk.
Ovenstående observationer kan nuanceres yderligere ved hjælp af kommunernes svar på neden-stående udsagn, som udtrykker kommunernesholdningertil de nationale test85.
85
Heller ikke i relation til kommunernes holdninger til de nationale test har det været muligt at konstatere signifikante sammenhænge
mellem kommunestørrelse og besvarelse af de holdningsbaserede udsagn om de nationale test.Evaluering af de nationale test
86
Tabel 6.11: Angiv i hvilken grad du er enig eller uenig i nedenstående udsagn om de nationale test. Ud-valgte items. Angivet i pct.
HeltenigResultaterne af de natio-nale test udgør en væ-sentlig indikator til at vur-dere skolernes faglige re-sultaterIndførelsen af de nationaletest har styrket det politi-ske fokus i kommunen påfaglige resultaterDe nationale test er etnyttigt værktøj til at følgeudviklingen i det fagligeniveau i kommunen og påde enkelte skolerResultaterne af de natio-nale test prioriteres ikkehøjere end andre indikato-rer til at vurdere skolernesfaglige resultaterResultaterne fra de natio-nale test udgør et godtgrundlag for dialog mel-lem forvaltning og de en-kelte skoler i forhold tilkvalitetsudvikling afkommunens skoler
Overvejendeenig
Hverkenenig elleruenig
Overvejendeuenig
Heltuenig
Vedikke
I alt(N)
14
54
23
8
0
1
100(78)
10
37
30
15
5
3
100(78)
23
53
19
4
0
1
100(78)
23
47
15
9
3
3
100(78)
21
46
22
8
1
3
100(78)
Kilde: Spørgeskemaundersøgelse til skoleforvaltninger, 2013.
Samlet set peger svarene på, at kommunerne anser de nationale test som havende en væsentligbetydning. Således er 68 pct. af kommunerne helt enige eller overvejende enige i, at resultaterneaf de nationale test udgør en væsentlig indikator til at vurdere skolernes faglige resultater. Til-svarende er 3 ud af 4 kommuner helt eller overvejende enige i, at de er et nyttigt værktøj til atfølge udviklingen i det faglige niveau. Størstedelen erklærer sig samtidig enige i, at resultaterneaf de nationale test ikke prioriteres højere end andre indikatorer.Det er evaluators vurdering, at ovenstående svar fra spørgeskemaundersøgelsen kan fortolkes isamme retning, som evaluator fremhævede ovenfor. Resultaterne af de nationale test tillæggesbetydelig værdi, men primært somnetopen indikator, der kan bidrage til at skabe overblik overfaglige præstationer. I forhold til fremadrettet anvendelse og handling kan resultaterne af de na-tionale test ikke stå alene og vurderes derfor ikke at have større værdi end andre indikato-rer/værktøjer. Dette indtryk understøttes af de gennemførte casestudier.Evaluator har gennemført omfattende statistiske analyser af data fra spørgeskemaundersøgelsentil kommunerne for at finde relevante sammenhænge. Analysen viser en meget stærk sammen-hæng mellem, om kommunerne angiver at finde de nationale test væsentlige for kommunenskvalitetsarbejde i dialogen med skolelederne, og om kommunerne har opfattelsen af, at de natio-nale test har medvirket til at styrke elevernes faglige resultater på kommunens skoler. Evaluatorhar også via casestudierne set udvalgte eksempler på betydningen af kommunens rolle i forholdtil at skabe effekt, men det er langt fra det generelle billede, at kommunerne har en aktiv dialogmed skolelederen om resultaterne af de nationale test (som forudsat på de øverste niveauer imodellen for evalueringskultur). De kommunerelateredehypoteserkan på den baggrund kun ibegrænset omfang bekræftes. Der er dog indikationer på, at kommunerne kan spille en væsent-lig rolle i arbejdet med at målrette skolernes arbejde på baggrund af input fra de nationale test.
Evaluering af de nationale test
87
6.2.3
Samarbejde og dialog mellem forvaltning og skoler
I forhold til samarbejde og dialog mellem forvaltning og skoler har langt hovedparten af kommu-nerne (95 pct.) skoleledermøder, fællesledermøder og lign. på månedlig basis. Derudover har defleste kommuner formaliseret dialogen og samarbejdet i årlige MUS-samtaler mellem skolechef(e.l.) og skoleledere, og i kvartalsvise/månedlige møder, dialog og lign. i forbindelse med kom-munale udviklingsprojekter. Endelig har en stor del af kommunerne månedlig/ugentlig sparring,coaching e.l. fra skolechef til skoleledere, samt ad hoc dialog.På kommunalt niveau har de fleste ansat pædagogiske konsulenter og psykologer (fx i PPR) ogomkring 2/3 af kommunerne har også ansat faglige vejledere og udviklingskonsulenter. I forholdtil hvilke fagområder, der dækkes af kommunens konsulenter og vejledere, svarer 90 pct., at dedækker læsning. Omkring 60 pct. angiver tosprogsområdet, og 30 pct. angiver matematik samtnatur og teknik. Derudover har 27 pct. af kommunerne ansat konsulenter eller vejledere indenfor evaluering.I forhold til de nationale test angiver forvaltningerne, at omkring 25 pct. af de kommunale kon-sulenter og vejledere rådgiver den enkelte skole om, hvordan de kan fortolke og anvende resul-tatet af de nationale test, samt hvordan man på kommunalt niveau kan følge op på resultatet afde nationale test. Modsat svarer omkring 40 pct. af kommunerne, at de kommunale konsulenterog vejledere i mindre grad eller slet ikke rådgiver herom. Der er dog en positiv sammenhængmellem ansættelse af kommunale konsulenter og vejledere inden for læsning og graden af råd-givning fra konsulenterne til skolen om, hvordan de skal anvende resultatet af de nationale test.Samtidig er der en positiv sammenhæng mellem ansættelse af kommunale konsulenter og vejle-dere inden for evaluering, og i hvor høj grad konsulenterne indgår i en dialog med skolerne om,hvordan man på kommunalt niveau kan følge op på resultaterne af de nationale test.På baggrund af data fra såvel spørgeskemaundersøgelse som casestudier vurderer evaluator, atder er begrænset dialog mellem skole og forvaltning om de nationale test, hvorfor sidste del afhypotesenom aktivt samarbejde (se bilag 1) udfordres. I de kvalitative interview fremgår detdog, at det i højere grad er den kommunale læsekonsulent, som kommer rundt på skolerne, derhar dialogen om skolens resultater, herunder resultater i de nationale test, hvilket bakkes op afspørgeskemabesvarelserne.Evalueringenshypoteser om kommunen/forvaltningen(at aktivt samarbejde/dialog mellemforvaltning og skoleledere om testresultater fører til en målretning af skolernes arbejde,samtatet klart kommunalt fokus på faglige resultater har en positiv indflydelse på skolernes faglige ni-veau) kan kun i begrænset omfang bekræftes. Dette tilskrives primært, at de fleste kommunerbruger testresultaterne til at skabe overblik og således ikke arbejder med testresultater på et ni-veau, som det var antaget på ”de øverste niveauer” i evaluators model for evalueringskultur(dvs. formativ anvendelse). Men der er eksempler på, at denne form for dialog finder sted, hvor-for evaluator kan pege på et potentiale for stærkere kommunal anvendelse af de nationale test.6.3DelkonklusionI dette kapitel er der foretaget en analyse af de nationale test som værktøj for skolelederes ogkommuners kvalitetsarbejde, dvs. brugen af testene som dialog- og styringsredskab. I tabellennedenfor er indsat en oversigt over de nøglehypoteser, der har været undersøgt i denne forbin-delse.
Evaluering af de nationale test
88
Tabel 6.12: Oversigt over nøglehypoteser
HypoteseSkoleledelseFormel lederuddannelse hos skoleledelsen be-tyder stærkere evalueringskultur på skolenSkoleledelsens formulering af klare retningslin-jer og målsætninger for anvendelsen af de na-tionale test har positiv betydning for lærernespædagogiske anvendelse af de nationale testAnvendelse af resultaterne fra de nationale testbidrager til, at skoleledelsen får et bedregrundlag for kvalitetsudvikling af skolen (ved fxat formulere mål og strategier for skolens ar-bejde)Inddragelse af resultaterne af de nationale testgiver – sammen med resultaterne af den øvrigeevalueringsindsats – et styrket grundlag for ak-tiv pædagogisk skoleledelse (fx ved at følge oppå elevpræstationer og i dialog udvikle under-visningen)Kommunerne/forvaltningerneSkolerne og forvaltningens aktive samarbej-de/dialog om skolens testresultater fører til enmålretning af skolernes arbejde (og dermedforbedrede faglige resultater)Et klart kommunalt fokus på faglige resultaterhar en positiv indflydelse på skolernes fagligeniveau
Data
Status
Spørgeskemaundersøgelse tilskoleledereSpørgeskemaundersøgelse tilskoleledereCasestudier, herunder interviewmed skoleledere, lærere m.fl.Spørgeskemaundersøgelse tilskoleledereCasestudier, herunder interviewmed skoleledere, lærere m.fl.Spørgeskemaundersøgelse tilskoleledereCasestudier, herunder interviewmed skoleledere, lærere m.fl.
NA (for lidt spredningi data)Delvist bekræftet+
Delvist bekræftet+
Ikke bekræftet-
Spørgeskemaundersøgelse tilskoleledere og forvaltningerCasestudier, herunder interviewmed forvaltninger, skolelederem.fl.Spørgeskemaundersøgelse tilskoleledere og forvaltningerCasestudier, herunder interviewmed forvaltninger, skolelederem.fl.
Ikke bekræftet-
Delvist bekræftet+
Evalueringen viser, atskoleledernegenerelt gør brug af de nationale test, om end med betyde-lig variation. De orienterer sig i og analyserer testresultaterneover tidprimært på skole- og klas-seniveau. På de skoler, hvor skolelederen udtrykker høje faglige forventninger til eleverne, er deren tendens til, at skolelederne også orienterer sig i resultater på elevniveau. De nationale testindgår således til en vis grad som en del af skoleledernes kvalitetsarbejde.Evalueringen dokumenterer stor variation blandt skolerne i forhold til, dels om der er klare ret-ningslinjer for brug af de nationale test, delshvordantestresultater anvendes. Nogle skolelederebruger de nationale test i meget begrænset omfang og fungerer primært som støttende for læ-rerne i forhold til det praktiske arbejde, men uden at indgå i dialog med lærerne om testresulta-terne. Andre skoleledere bruger resultaterne til monitorering og overblik over det faglige niveau,mens en tredje gruppe skolelederehandler aktivtog lægger testresultaterne til grund for tildelingaf ressourcer, ændret fagfordeling, sparring til lærere mv. Med udgangspunkt i de eksempler,hvor skoleledelsen meget aktivt rammesætter og anvender de nationale test som en del af do-kumentationsgrundlaget (sammen med øvrig evaluering), vurderer evaluator, at der er et uud-nyttet potentiale for nationale test på en stor andel skoler, der med mere aktivt fokus på anven-delse af nationale test vil kunne stimulere yderligere positive tiltag til at fremme af elevernes fag-lige niveau. Endelig viser evalueringen, at der blandt de danske skoleledere generelt er en positivholdning til de nationale test og testenes potentialer. Det er dog de færreste, der finder, at teste-ne er et værktøj til dialog med de kommunale forvaltninger.Evalueringen dokumenterer, atkommunernegenerelt stiller krav til skolernes faglige resultater.Resultaterne af de nationale test er for kommunerne en væsentlig indikator for skolernes fagligeresultater, men hovedkonklusionen er, at resultater fra de nationale test er ”en del af paletten”,som det udtrykkes af flere kommuner. Kommunerne interesserer sig således for skolernes faglige
Evaluering af de nationale test
89
resultater (og vurderer også, at resultater er vigtigere end rammebetingelser og pædagogiskeprocesser), men de nationale test er blot ét ud af flere værktøjer til at sammensætte et billede afen skoles faglige niveau. Dette kan være en hovedårsag til, at få kommuner angiver at brugetestresultater aktivt i dialog med skoleledelsen. Evalueringen viser endvidere stor variation påtværs af kommuner i forhold til anvendelsen af de nationale test – uden at disse forskelle dogkan knyttes systematisk til kommunestørrelse. Det samlede billede er, at kommunerne overve-jende bruger de nationale test som et monitoreringsredskab, der kan skabe et overblik over fag-lige resultater. Omvendt er testresultater sjældent omdrejningspunktet for kommunernes kvali-tetsarbejde, hvor de inddrages i dialog med skolelederne med henblik på fremadrettet pædago-gisk handling. Evalueringen viser, at der er et potentiale for at fremme evalueringskulturen ogden positive udvikling i elevernes faglige niveau ved en mere aktiv forvaltningsadfærd i dialogmed skoleledere om, hvordan lederne fremmer evalueringskulturen.
Evaluering af de nationale test
90
7.
TESTENES INDHOLDDette kapitel indeholder en analyse af de nationale tests indhold. Kapitlets to første afsnit sætterfokus på indhold, udformning og kvalitet i fire udvalgte testfag (dansk, læsning, fysik/kemi, en-gelsk samt matematik), mens det sidste afsnit belyser tekniske og økonomiske fordele og ulem-per ved det adaptive princip.For begge dele af kapitlet gælder, at analyserne er gennemført i samarbejde med faglige eksper-ter på de pågældende områder.Analysen af indhold, udformning og kvalitet baserer sig på viden, indhentet gennem seminarermed faglige eksperter, og individuelle interview med nøglepersoner. Både eksperter og nøgleper-sonerne er udvalgt, fordi de besidder viden om og erfaring med nationale test i relation til et afde fire udvalgte fag. Evaluator har udarbejdet et fagnotat for hver af de fire udvalgte fag, somsammenfatter viden fra ekspertseminarerne. Nærværende kapitel sætter fokus på de generelletendenser på tværs af de fire fag. For en mere detaljeret og fagspecifik beskrivelse af opmærk-somhedspunkterne, se bilag 5, som således udgør et supplement til nærværende kapitel.Analysen af tekniske og økonomiske fordele og ulemper ved det adaptive princip baserer sig pået internationalt litteraturstudie og analyse udarbejdet til nærværende evaluering af professorPeter Allerup fra Aarhus Universitet. Denne analyse afrapporteres i et selvstændigt notat vedlagtsom bilag 4 til evalueringsrapporten.Som supplement til de faglige eksperters analyser inddrages viden fra evalueringens øvrige data-kilder til belysning af temaet i nærværende kapitel.
7.1
Testenes indhold, udformning og kvalitetDette afsnit sætter fokus på indhold, udformning og kvalitet af de nationale test. Mere specifiktbehandler afsnittet fag og profilområder, trinmål, opgaveemner, antal opgaver, opgavetyper,testopgavernes kvalitet samt udvikling af opgaver.Fag og profilområder
7.1.1
De faglige eksperter er i forbindelse med de gennemførte seminarer blevet bedt om at forholdesig til, hvorvidt det fag, de hver især repræsenterer, er egnet som nationalt testfag. Alle fire ud-valgte testfag vurderes at være relevante og testegnede. Dog kan der også peges på en rækkefagspecifikke svagheder, som beskrives nærmere nedenfor og i bilag 5.Hver test er bygget op om tre profilområder, der afspejler testbare indholdsområder af faget.Disse fremgår af tabellen nedenfor.Tabel 7.1: Oversigt over profilområder
Dansk, læsningAfkodningSprogforståelseTekstforståelse
MatematikTal og algebraGeometriMatematik i anvendelse
Fysik/kemiAnvendelse og perspekti-verEnergi og energiomsæt-ningFænomener, stoffer ogmaterialer
EngelskLæsningOrdforrådSprog og sprogbrug
De faglige eksperter vurderer på tværs af fag, at profilområderne generelt set afspejler nogle, forlærerne, relevante og genkendelige kerneelementer. Eksperterne understreger, at der – i over-ensstemmelse med intentionen med testene – netop er tale om elementer af pågældende fag ogikke hele faget. Eksperterne tilkendegiver desuden, at de valgte profilområder i høj grad rummerfagenes testbare områder.I forlængelse af ovenstående fremgår det dog også, at der eksisterer nogle fagspecifikke udfor-dringer i relation til profilområderne i matematik, engelsk og fysik/kemi.
Evaluering af de nationale test
91
Eksperterne i matematik peger på, at der er et efterslæb i de nationale test i matematik. I for-bindelse med revisionen af Fælles Mål (fagenes indholdsbeskrivelse) i 2009 skete der store æn-dringer af fagets indhold, herunder at det centrale kundskabs- og færdighedsområdematematik ianvendelseblev erstattet afstatistik og sandsynlighed.Eksperterne vurderer, at denne ændringendnu ikke er slået igennem indholdsmæssigt i de nationale test i faget.Eksperterne i engelsk tilkendegiver, at det er en styrke, atordforrådhar fået en selvstændig sta-tus i testen, da dette element er afgørende for udviklingen af de fire færdigheder (lytte, læse, ta-le og skrive), der tegner faget. Det kan virke ulogisk, atordforrådogsprog og sprogbrugudgørhver deres profilområde, daordforrådi Fælles Mål er et delelement af det centrale kundskabs- ogfærdighedsområdesprog og sprogbrug.Det er dog eksperternes vurdering, at det ikke giver pro-blemer i praksis for lærerne.I relation til testen i fysik/kemi påpeger eksperterne, at det potentielt kan skabe forvirring blandtlærerne, at testen indeholder tre profilområder, når dette sammenholdes med, at faget i FællesMål har fire centrale kundskabs- og færdighedsområder86. Eksperterne peger derudover på, at derknytter sig en særlig udfordring til profilområdetenergiogenergiomsætning.De forklarer detmed, at dette tema, modsat de to andre profilområder, ikke afspejler faget bredt. En konsekvensaf dette kan være, atenergiogenergiomsætningkan få uforholdsmæssig stor vægt i undervis-ningen, hvis undervisningen tilrettelægges efter testens indhold.At der ikke er fuld overensstemmelse mellem profilområder og centrale kundskabs- og færdig-hedsområder, eller atenergiogenergiomsætninghar fået uforholdsmæssig stor vægt, er kun imeget begrænset omfang blevet italesat af lærerne i faget, når de er blevet interviewet i forbin-delse med de gennemførte casestudier. Evaluator kan derfor ikke bekræfte, at det ud fra en læ-rersynsvinkel udgør et problem. Dette er dog ikke ensbetydende med, at undervisningen aldrigtilrettelægges efter testenes indhold, som det fremgik af afsnit 4.1.Eksperterne i dansk, læsning vurderer, at profilområderne i dette fag er præcise og dækkende.Sidstnævnte begrundes med, at testen i dansk, læsning er en læsetest, og at den derfor testeren afgrænset færdighed.Som supplement til eksperternes vurdering er lærerne i forbindelse med spørgeskemaundersø-gelsen blevet bedt om at forholde sig til, hvorvidt de tre profilområder for det testfag, de under-viser i, afspejler faget på en genkendelig måde. Lærernes besvarelser fremgår af tabellen neden-for.Tabel 7.2: I hvilken grad er du enig eller uenig i følgende udsagn om de nationale test i relation til dettestfag, du underviser i? Angivet i pct.
HeltuenigDe tre profilområder af-spejler faget på engenkendelig mådeTestopgaverne afspejlervæsentlige fagligekompetencer i faget
Overve-jendeuenig19
Hverkenenig elleruenig31
Overvejendeenig
Heltenig
Vedikke
I alt (N)
5
38
5
2
100(2162)100(2162)
4
13
32
43
7
1
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Tabellen viser, at der generelt set er flere lærere, der er overvejende enige eller helt enige i, atde tre profilområder afspejler faget på en genkendelig måde. Tilsvarende fordeling gør sig gæl-
86
De fire centrale kundskabs- og færdighedsområder er:1) Fysikkens og kemiens verden2) Udvikling i naturvidenskabelig erkendelse3) Anvendelse af fysik og kemi i hverdag og samfund4) Arbejdsmåder og tankegange.
Evaluering af de nationale test
92
dende i relation til lærernes vurdering af, hvorvidt testopgaverne afspejler væsentlige fagligekompetencer i faget.Evaluator har endvidere undersøgt, om der er forskelle på lærernes besvarelse af ovenstående,alt efter hvilke fag de repræsenterer. Denne analyse viser en forskel i lærernes vurdering af pro-filområdernes genkendelighed. Det fremgår, at lærerne i fysik/kemi i langt højere grad er overve-jende eller helt uenige i, at de tre profilområder afspejler faget på en genkendelig måde. Detteunderstøtter således det billede, eksperterne tegner af, at der især i fysik/kemi kan være udfor-dringer med genkendeligheden af profilområderne i faget.7.1.2Trinmål
De nationale test afspejler Fælles Mål. Fælles Mål omfatter fagformål, slutmål (centrale kund-skabs- og færdighedsområder), trinmål samt læseplaner for skolens fag og emner. Testopgaver-ne relaterer sig inden for hvert af de tre profilområder til udvalgte trinmål. Eksperterne er blevetbedt om at vurdere, i hvilket omfang testene afspejler alle relevante testegnede trinmål for deenkelte fag.På tværs af fag vurderer eksperterne, at hovedparten af de testegnede trinmål indgår i de natio-nale test. Det tilkendegives dog samtidig, at der er et mindre antal testegnede trinmål, der ikketestes i fagene. Det skyldes bl.a., at de nationale test ikke i alle tilfælde afspejler gældende trin-mål, jf. ovenfor. Eksperterne peger på, at når dette er tilfældet, skyldes det eksempelvis, at derer elementer af faget, som det ikke er teknisk muligt at teste (fx lytteelementer).7.1.3Opgaveemner
Opgaveemnet (tidligere benævnt kendeord) fremgår af den enkelte opgaves metadata, det vil si-ge de baggrundsinformationer, der er knyttet til hver opgave. Opgaveemnet bruges til at beskri-ve de konkrete kundskaber eller færdigheder fra Fælles Mål, der afprøves med opgaven inden forhvert af de tre profilområder. Der er tale om et redskab til både opgaveudviklere samt lærere ogforældre. Læreren kan se den enkelte opgaves opgaveemne via resultatvisningen på computer-skærmen, når en elev har gennemført en test. Eksempler på opgaveemner kan være navneord,udsagnsord, specifikt indhold i tekster samt addition/subtraktion.Ekspertseminarernes deltagere peger på, at der i forbindelse med testens indførelse blev ”bun-det” et bestemt antal opgaveemner til fagene, hvilket vurderes at have medført nogle fagspeci-fikke uhensigtsmæssigheder. Dette er eksempelvis, at der er for få eller for mange opgaveemnertil rådighed. Eksperterne forklarer, at hvis der er for få opgaveemner til rådighed, giver detupræcis information til lærere og forældre, der efterfølgende ønsker at undersøge, hvilke opgave-typer eleven har haft udfordringer med eller klarer sig særlig godt i. Er der omvendt for mangeopgaveemner til rådighed, er risikoen, at opgaveemnerne ikke kan underbygges fagligt.Afslutningsvist skal lærernes brug af opgaveemner nævnes. På tværs af fag peger flere af ek-sperterne på risikoen for, at der sker en overfortolkning af resultaterne, hvis lærerne lægger formeget vægt på netop opgaveemner, når de skal danne sig et billede af elevens faglige udfordrin-ger/styrker. Testen kan alene sige noget om elevens faglige niveau inden for det enkelte profil-område. Eksperterne understreger, at der er for få testopgaver inden for de enkelte opgaveem-ner til at kunne sige noget mere specifikt om elevens kundskaber og færdigheder, og at det ervigtigt, at lærerne kender til denne begrænsning.I forbindelse med casestudierne er lærerne blevet bedt om at beskrive, hvordan de analysererresultater af de nationale test. På baggrund heraf er det evaluators vurdering, at lærerne ikke isærlig høj grad gør brug af muligheden for at se det enkelte testspørgsmåls opgaveemne, jf. af-snit 6.3.Med afsæt i ovenstående vurderer evaluator, at det kan være meningsfuldt at revidere rammernefor brugen af opgaveemner, så der i højere grad bliver overensstemmelse mellem opgaveemnetsordlyd, og det som den enkelte opgave rent faktisk tester. Det gælder ikke mindst inden fordansk, læsning og matematik.
Evaluering af de nationale test
93
7.1.4
Antal opgaver
Opgaverne i opgavebanken fordeler sig inden for hvert profilområde på fem niveauer, hvor 5 erdet højeste og sværeste niveau, og 1 er det letteste niveau.REVIEW-panelets rapport fra 2007 fastslår, at minimumsforventningen til opgavebanken er, atder skal være lige mange opgaver til de 10 pct. svageste elever som til de 10 pct. stærkeste ele-ver, hvilket langt fra er tilfældet i dag, da der er mange flere opgaver på niveau 1 end på niveau5. På tværs af fag tilkendegiver deltagerne på ekspertseminarerne enighed om, at jo bredere op-gavebanken repræsenterer stoffet, herunder det svære stof, jo bedre er det.Evaluator har i forbindelse med evalueringen haft adgang til oplysninger om antallet af opgaver iopgavebanken for hver af de fire testfag87. Disse er blevet forelagt eksperterne, der er blevet bedtom at forholde sig til, om der er nok opgaver i henhold til at skabe bredde samt meningsfuldetestforløb set fra en lærer-/elevsynsvinkel. Eksperterne vurderer, at der særligt er en udfordringmed antallet af opgaver inden for det sværeste niveau (niveau 5), hvor der er flere eksempler påprofilområder med kun én til to opgaver eller slet ingen på det sværeste niveau.Eksperterne peger på,at for få svære opgaver bl.a. medfører, at fagligt stærke elever ”tømmer”opgavebanken på niveau 5 og dermed løber tør for opgaver af en sværhedsgrad, der er relevantfor netop disse elever. Det kan også medføre, at den enkelte elev møder den samme opgave i deobligatoriske og frivillige test, eller at mange elever i klassen får de samme opgaver.Sidstnævnte bekræftes af de casestudier, evaluator har gennemført som led i evalueringen. Læ-rerne fortæller, at de i forbindelse med testafviklinger i klasser med højt fagligt niveau og en for-holdsvis fagligt homogen elevgruppe har oplevet, at mange af eleverne får den samme opga-ve/de samme opgaver i løbet af testforløbet, dog ikke samtidigt. Lærerne fortæller, at de harelever, der er stødt på den samme opgave mere end én gang.Afslutningsvist skal det fremhæves, at eksperterne peger på, at der mangler viden om, hvad derdefinerer en opgaves niveau, herunder parametre for hvad der definerer en henholdsvis let, mel-lem og svær opgave. Det vurderes, at det vil være en viden, der kan kvalificere arbejdet med atudvikle nye opgaver, der tilgodeser de aktuelle behov, herunder at man kan målrette arbejdetmed at udforme opgaver på niveau 5. Se endvidere afsnit 7.1.7 om udvikling af nye opgaver.7.1.5Opgavetyper
Der er i dag 15 opgavetyper til rådighed for opgaveudviklerne. Disse er fx multiple choice, ind-sættelsesopgaver, del ord, cloze-test samt farv felter. Evaluator har til brug for evalueringen op-gjort antallet af opgaver. Opgørelsen viser, at der er stor variation i antallet af opgaver inden forden enkelte opgavetype. Multiple choice og del ord er nogle af de absolut mest anvendte.Evaluator har ydermere bedt eksperterne om at forholde sig til fordelingen af opgavetyper samtvurdere, hvorvidt de fungerer hensigtsmæssigt i relation til de færdigheder og kundskaber, manønsker at afdække inden for det enkelte profilområde.På tværs af fag vurderer eksperterne, at det, at nogle typer af opgaver anvendes langt hyppigereend andre, skal betragtes som et udtryk for, at det er testens indhold, der kommer først og ikkeformen. Eksperternes vurdering er, at man anvender netop de opgavetyper, der tester specifikkekundskaber og færdigheder på den mest hensigtsmæssige måde.Ser man på tværs af de fire fag peger eksperterne på, at det er problematisk, at de opgaveska-beloner, der er til rådighed i dag, ikke afspejler den teknologiske udvikling, der er sket siden2007 på både hard- og softwaresiden. Et eksempel er den tidligere nævnte manglende mulighedfor at inddrage lytteelementet, men også muligheden for, at eleven fx selv kan tegne streger ikoordinatsystem, fremhæves af eksperterne.Eksperterne er dog enige om, at anvendelsen af mange forskellige opgavetyper i et enkelt test-forløb ikke nødvendigvis er en kvalitet i sig selv. De vurderer, at der kan være en risiko for, at
87
Opgørelsen bygger på data udleveret af Kvalitets- og Tilsynsstyrelsen december 2012.
Evaluering af de nationale test
94
eleven kommer til at fokusere for meget på at afkode forskellige opgavetyper, frem for det fagli-ge indhold.I forlængelse heraf har både eksperterne og flere af de lærere, der er interviewet som led i case-studierne, peget på, at ikke alle opgavetyper indgår i demotesten på ministeriets hjemmeside.De påpeger, at dette er uhensigtsmæssigt, da flere lærere fortæller, at de gør brug af denne mu-lighed for at gøre eleverne fortrolige med de forskellige typer af opgaver, de vil kunne møde. Ik-ke mindst på de yngste klassetrin.7.1.6Testopgavernes kvalitet
Dette afsnit belyser testopgavernes faglige kvalitet i forhold til en række af de kvalitetsfaktorer,som REVIEW-panelet forholdt sig til i 2007, så som layout, grafik og illustrationer samt distrakto-rer (svarmuligheder)88.Udgangspunktet for vurderingen har været en række repræsentativt (i relation til opgavetyper,antal opgaver mv.) udvalgte opgaver fra hvert af de fire fag. Dette udvalg af opgaver har på ek-spertseminarerne fungeret som afsæt for eksperternes analyse og vurdering af testopgaverneskvalitet.Eksperterne vurderer, at der er en lang række udfordringer ilayoutaf testopgaverne. På tværsaf fag peger eksperterne på, at der er flere eksempler på layout af opgaver, der er direkte for-styrrende for elevernes opgaveløsning. De fremhæver eksempelvis opgaver, hvor der er flereoverskrifter og linjer med forskellige forklaringer på, hvad opgaven går ud på, samt opgaver,hvor brugen af faglige begreber er inkonsekvent.Sammenholder man de fire udvalgte testfag, synes udfordringerne størst for engelsk, matematikog fysik/kemi. Det layoutmæssige behov er mindst udtalt i dansk, læsning. Deltagerne i dette ek-spertseminar forklarer, at man i længere tid har arbejdet med opgavernes layout og tilstræbt, atoverskrift og opgavespørgsmål er én og samme ting, så eleven kun skal orientere sig et sted.Deltagerne konstaterer, at det er slået igennem i langt de fleste opgaver. Indtrykket er derfor, atmange opgaver har en stringent, ensartet og overskuelig opbygning. Det er derfor i læsetesten,man finder de færrest layoutmæssige udfordringer, når man ser bort fra opgavetekster med spal-tebrud.En del af testopgaverne i opgavebanken indeholdergrafik og illustrationeri form af tegninger,fotografier, affotograferinger, tabeller mv. Også her fremhæver eksperterne, at der er mange ek-sempler på brug heraf, der virker forstyrrende frem for hensigtsmæssige. Dette kan eksempelvisvære en utidssvarende tegnestil og forældede illustrationer. Eksperterne tilkendegiver, at grafikog illustrationer er relevant i de testopgaver, hvor det indgår som en naturlig del af opgaveløs-ningen, mens det bør fjernes i de tilfælde, hvor det kun er til pynt.Distraktorerer de svarmuligheder, som eleven præsenteres for som en del af testspørgsmålet.De er et afgørende element i forhold til testens validitet. Deltagerne på tværs af ekspertsemina-rer peger på en række udfordringer ved distraktorerne. Eksperterne fremhæver især, at det erproblematisk, at det i nogle opgaver kan konstateres, at flere svarmuligheder rent faktisk er kor-rekte, men kun ét af svarene accepteres som rigtigt. Det skaber frustration hos fagligt stærkeelever, da de ikke har mulighed for at afgive det svar, som de ønsker. Desuden er der eksemplerpå inkonsekvent brug af faglige begreber både i opgaveformuleringer og svarmuligheder.Som supplement til eksperternes vurderinger af testopgavernes kvalitet er lærerne i spørgeske-maundersøgelsen blevet bedt om at vurdere, hvorvidt testopgavernes faglige kvalitet er tilfreds-stillende, og om testopgaverne er formuleret entydigt og klart. Besvarelserne fremgår af tabellennedenfor.
88
Rapport fra REVIEW-panelet, 2007.
Evaluering af de nationale test
95
Tabel 7.3: Ihvilken grad er du enig eller uenig i følgende udsagn om de nationale test i relation til [TESTFA-GET]? Angivet i Pct.
HeltuenigTestopgavernes fagligekvalitet er tilfredsstil-lendeTestopgaverne er for-muleret på en måde, såde er entydige og klare
Overve-jendeuenig24
Hverkenenig elleruenig28
Overvejendeenig
Heltenig
Vedikke
I alt (N)
7
34
6
1
100(2162)100(2162)
9
27
31
28
3
1
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Tabellen viser, at der generelt set er flere lærere, der er overvejende enige eller helt enige i, attestopgavernes faglige kvalitet er tilfredsstillende. Modsat er der flere lærere, der er overvejendeeller helt uenige i, at testopgaverne er formuleret på en måde, så de er entydige og klare.I forhold til, om testopgaverne er formuleret på en måde, så de er entydige og klare, adskillerlærerne sig fra hinanden. Her svarer kun 23 pct. af matematiklærerne, at de er overvejende ellerhelt enige, hvor det er hele 40 pct. af hhv. biologi-, geografi- og engelsklærerne, der svarer, atde overvejende er enige eller helt enige.Lærernes vurderinger understøtter således eksperternes vurderinger af, at der knytter sig enrække udfordringer til testopgavernes kvalitet.7.1.7Udvikling af opgaver
Testopgavernes faglige kvalitet og udformning hænger tæt sammen med rammerne for udviklin-gen af de enkelte opgaver. Tilbagemeldinger fra eksperterne giver grundlag for at pege på enrække opmærksomhedspunkter i relation hertil. Eksperterne peger på, at opgaveudviklerne i dagikke har adgang til opgaveproduktionens maskinrum. Det vil sige adgang til at se de opgaver, derkasseres i Rasch-analyse89. De tilkendegiver, at hvis det var en mulighed, kunne fremtidig opga-veudvikling bygge på konkret viden om, hvorfor en opgave kasseres eller ej. Opgaveudviklerneville fremover kunne være mere præcise og i højere grad undgå faldgruber.Derudover vurderer eksperterne, at der på nuværende tidspunkt i høj grad udvikles opgaver udfra den enkelte udviklers mavefornemmelse, hvilket ikke betragtes som optimalt. Der er, somtidligere nævnt, heller ikke lavet analyser af, hvad der definerer sværhedsgraden inden for defem niveauer, hvilket vanskeliggør udviklingsarbejdet.På baggrund af ovenstående vurderer evaluator, at der synes at være et behov for i endnu højeregrad at klæde opgaveudviklerne fagligt på, end det sker i dag. Eksperterne nævner som eksem-pel England og Holland, hvor opgaveudviklere gennemgår en systematisk uddannelse, så de eropdateret med den nyeste viden inden for digitale/adaptive test. Det er ligeledes evaluators vur-dering, at der synes at være et behov for, at opgaveudviklingen i langt højere grad knyttes tilforskning, sådan at testen og ikke mindst udviklingen af opgaverne bygger på faktuel viden. Eteksempel på relevant forskning kunne være viden om, hvordan elever agerer foran en skærm ien testsituation, eller hvilke specifikke opgavetyper der bedst tester konkrete færdigheder ogkompetencer, som fx ordkæder i relation til afkodning.7.2Fordele og ulemper ved det adaptive principI dette afsnit præsenteres evaluators vurdering af tekniske og økonomiske fordele og ulemperved det adaptive princip, der benyttes i de nationale test. Vurderingen er fortrinsvis baseret på etinternationalt litteraturstudie og en analyse udarbejdet til nærværende evaluering af professorPeter Allerup fra Aarhus Universitet90. Dertil kommer indsamlede data om ressourceforbrug tilbrug for vurdering af økonomiske fordele og ulemper samt enkelte referencer til evaluators egne
8990
Se afsnit 7.2.2 for definition.Analysen afrapporteres i selvstændigt notat vedlagt som bilag 4 til evalueringsrapporten.
Evaluering af de nationale test
96
datakilder (spørgeskemaundersøgelse og casestudier). De pædagogiske fordele og ulemper veddet adaptive princip behandles særskilt i afsnit 8.2.7.2.1Kort beskrivelse af det adaptive princip
Det adaptive princip, som de nationale test er funderet på, er en procedure for en aktiv sammen-sætning af opgaver til eleverne, hvor hver opgave udvælges af testsystemet på baggrund af ele-vens besvarelse af foregående opgaver. Testsystemet beregner således for den enkelte elev,hvilken opgave eleven skal have ud fra et princip om at give en opgave med en passende svær-hedsgrad beregnet ud fra elevens tidligere besvarelser. Alle elever får altså et individuelt sam-mensat opgavesæt, kreeret undervejs i testafviklingen i modsætning til eksempelvis folkeskolensafgangsprøve, hvor alle får samme opgaver.Det adaptive princip fungerer i praksis ved, at eleven indledningsvis stilles en middelsvær opga-ve. Afhængigt af, om eleven besvarer opgaven rigtigt eller forkert, udvælges den næste stilledeopgave, som så er sværere eller lettere end den først stillede opgave. Herefter fortsætter syste-met med at udvælge opgaver efter samme princip, indtil den statistiske Standard Error of Measu-rement (SEM) (som bliver systematisk mindre med antallet af opgaver eleven stilles) i beregnin-gen af elevdygtigheden er reduceret så meget, at eleven bør kunne nå et resultat for alle tre pro-filområder på 45 minutter. De 45 minutter anvendes som alternativt stopkriterium. Teoretisk vilen stor andel elever afslutte testen væsentligt hurtigere end 45 minutter. Tidspunktet for, hvor-når elevens test afsluttes, bestemmes af, hvor hurtigt eleven opnår et konsistent svarmønster,som gør systemet i stand til at fastslå elevens faglige niveau. Litteraturstudiet fastslår, at dettevil ske med anvendelse af ca. 50 pct. færre opgaver end det, der kræves med lineære test. Litte-raturstudiet fastslår samtidig, at det ikke er muligt at konstruere et testsystem, hvor stopkriterietnås for samtlige elever. Dette bekræftes af de gennemførte casestudier, hvor evaluator har erfa-ret, at testen for et mindre antal elever fortsætter ud over de 45 minutter.7.2.2Teknisk om det adaptive princip
Det adaptive princip udmøntes ved to parametre: itemsværhed og elevdygtighed. Det adaptiveprincip betyder, at testsystemet søger at udvælge opgaver, der kan fastlægge elevens faglige ni-veau hurtigt. Systemet vurderer elevens dygtighed baseret på besvarelse af de stillede opgaverog beregner konstant, hvilken ny opgave eleven skal have. Det sker på baggrund af rigtige ogforkerte besvarelser af tidligere opgaver. Med den rette sammensætning af itemsværhed91til dendemonstrerede elevdygtighed kan det adaptive princip oftest hurtigt og præcist fastlægge ele-vens faglige niveau (som nævnt ovenfor, er det ca. 50 pct. af det antal opgaver, der kræves medlineære test). Idet det adaptive princip betyder, at der opgave for opgave successivt opbyggesviden om elevens dygtighedsniveau, sker dette med maksimal information, hvorved det adaptiveprincip sikrer, at de nationale test fremskaffer sikker viden om elevens dygtighedsniveau med højpræcision og med færrest mulige opgaver.Adaptive test er baseret på en psykometrisk metode, det vil sige en statistisk model, som beteg-nes Item Response Theory (IRT). De nationale test er baseret på en Rasch-model, der er en så-dan IRT-model, karakteriseret ved at indeholde itemsværhed og elevdygtighed.Alle opgaver i de nationale test er udviklet med Rasch-analyse. Det vil sige, at alle opgaver ud-vikles af eksperter og testes blandt et stort antal elever (ca. 700), hvorefter resultaterne gen-nemgår en Rasch-analyse for at konstatere, om opgaven er anvendelig til at indgå i opgaveban-ken (måler opgaven det, den skal måle, på hvilket fagligt niveau mv., hvilket sker med diverseanalyser af robusthed i elevbesvarelser, standardafvigelser mv.).Opgaver udvikles efter et såkaldt homogenitetskriterium, det vil sige, at en hvilken som helst op-gave i opgavebanken kan erstatte en hvilken som helst anden opgave (dog således at hvert pro-filområde skal dækkes for den enkelte elev). Samtlige opgaver inden for hvert område adskillersig således alene ved deres sværhedsgrad, som er testet i afprøvning, hvorefter resultaterne erRasch-analyseret.
91
Se afsnit 7.1.4.
Evaluering af de nationale test
97
Brug af homogenitetskriteriet (hvilket ikke anvendes i alle internationalt anvendte adaptivt base-rede test) betyder også, at sammenligninger mellem elever, grupper af elever og mellem eleverover år er valide og kan gennemføres på én skala. I modsætning hertil vil test baseret på ikke-homogene opgavebanker ikke kunne sammenligne elever, da eleverne vil være stillet ikke bareforskellige opgaver, men forskellige opgaver uden systematisk etableret ensartethed i sværheds-grad. Det adaptive princip, baseret på homogenitetskriteriet for opgavebanken, sikrer således denationale test en stor psykometrisk fordel, men homogenitetskriteriet er ikke en nødvendighed.Litteraturstudiet konstaterer dog: ”Hvis man slækker på disse homogenitetskrav, umuliggør manvalide sammenligninger af elevernes præstationer i lys af IRT.”Resultatet af den nationale test beregnes og kommunikeres ved, at den enkelte elev placeres i engruppe, der omfatter hhv. 10 pct., 25 pct., 30 pct., 25 pct. og 10 pct. af samtlige elever, der hartaget testen (svarende til intervallerne 1-10, 11-35, 36-65, 66-90, 91-100), der igen svarer til etudmeldt niveau 1-5. Ved tilbagemeldingen til lærerne vises resultatet på en skala fra 1-100 (per-centilskala). Læreren oplyses om elevens placering på percentilskalaen for hvert profilområde ogfor testen som helhed. Besvarelsen af hver enkelt testopgave er endvidere tilgængelig92. Syste-met oplyser ikke det samlede antal rigtigt besvarede opgaver pr. elev, idet eleverne ikke løser desamme opgaver, hvorved sammenligning af antallet af korrekte besvarelser ikke giver mening.Litteraturen peger på, at antallet af opgaver af middelsvær karakter skal være størst, mens etmindre antal skal være hhv. svære og lette. Antallet af opgaver i opgavebanken for nationale tester fordelt således. Dog viser evaluators opgørelse, at der er for få meget svære opgaver inden forspecifikke profilområder.7.2.3Økonomisk om det adaptive princip
Anvendelse af det adaptive princip i test kræver omfattende ressourcer i udviklings-, afprøv-nings- og analysefasen sammenholdt med lineære test. Det skyldes, at alle opgaver skal gen-nemgå en Rasch-analyse med henblik på at etablere et validt grundlag, sådan at opgaverne kanbenyttes vilkårligt i testen.Der udøves således et omfattende arbejde med at:Udvikle opgaver i opgavekommissioner og med kvalitetssikringsprocedurer ved eksterntindkøbte eksperter og embedsmænd i ministerietAfprøve opgaverne blandt et stort antal elever. I de nationale test sker dette blandt 700elever, hvilket er et minimum for at sikre, at afprøvningen foregår på et validt niveau.Afprøvning sker på udvalgte skoler. Opgaverne distribueres digitalt under hensyn til nøjedefinerede kvalitetssikringsprocedurer og afprøves på skolerne. I 2012 deltog hele 361skoler i afprøvning af nye opgaver med deltagelse af i alt 15.512 eleverUdsætte de afprøvede opgaver for en Rasch-analyse i UNI-C, hvor de psykometriskeegenskaber nøje vurderes i forhold til kravene i Rasch-modellen. Især dette er stærkt ar-bejdskrævende og fordrer statistisk faglig indsigt i analyseresultater ud fra kontrol afIRT-modellen. Opgaven forkastes eller accepteres til medlemskab af opgavebanken.
Forkastede opgaver, eller opgaver, der ønskes ændret, selv meget små ændringer i overskrift oglignende, skal gennemgå samme proces som beskrevet i ovenstående. Arbejdet med udvikling afen opgave fra første udkast til den indlemmes i opgavebanken tager ca. et år.Der er altså tale om en omfattende anvendelse af personaleressourcer i ministeriet og UNI-C, køb(aflønning) af eksterne eksperter til opgavekommissioner og kvalitetssikring, ressourcer på sko-ler, der afprøver opgaver (lærer-, elev- og administrative ressourcer), samt tidsmæssige ressour-cer (et års udviklingstid) for at skabe et validt grundlag for en adaptiv procedure.Litteraturstudiet peger på, at det er muligt at forenkle dele af processen noget ved at medtageopgaver til afprøvning i ordinær testafvikling, dog således at disse opgaver ikke indgår i bereg-ningen af elevens faglige niveau i testen. Opgaver til afprøvning blandes altså med de opgaver,
92
Se kap. 8 for særskilt analyse af resultatvisningen.
Evaluering af de nationale test
98
der er i opgavebanken, men opgaverne til afprøvning benyttes kun til Rasch-analyse efterfølgen-de med henblik på at vurdere opgavens egnethed til at indgå i opgavebanken fremover.Det skal nævnes, at det forhold, at de nationale test er digitale, indebærer betydelige ressourceri udvikling og vedligeholdelse af it-systemet, men evaluator vurderer, at papirbaserede test for-mentlig vil medføre endnu højere udgifter i den samlede testafvikling, fordi lærerne herved vilskulle rette, score og foretage rapporteringer af testresultater med en betydelig højere samletressourceindsats, end den, der samlet medgår til den model, der benyttes for de nationale test.Litteraturstudiet peger på, at den tid, der spares ved adaptive test, ved at eleverne generelt me-get hurtigere end i lineære test når stopkriteriet, altså hvor testsystemet har beregnet og fastslå-et elevens faglige niveau, generelt ”ikke kan kapitaliseres til at udgøre en ressource for andreundervisningsrelaterede aktiviteter”, som det hedder. Dette skyldes, at de fleste skoler ikke på-begynder læringsaktiviteter for eleverne i takt med, at de afslutter testen.Tilsvarende er det ikke muligt via litteraturstudiet at opgøre effekten (i økonomisk værdi) af, atrelativt fagligt svagere og stærkere elever opnår højere motivation ved de adaptive test end vedlineære test.Litteraturstudiet konkluderer, at ”det er en klar samlet vurdering, at vedligeholdelsen af de nati-onale test kræver flere ressourcer end udvikling af fra-gang-til-gang lineære test.”Evaluator vurderer på baggrund af litteraturstudiet, at der samlet set er både fordele og ulemperved adaptive test. De vigtigste fordele er øget præcision i etablering af vurdering af elevernesfaglige niveau med brug af færre opgaver end lineære test og bedre sammenligningsgrundlagmellem elever. Af ulemper viser analysen, at adaptive test er betydeligt mere ressourcekrævendeend lineære test, og udviklingstid af nye opgaver og selv simpel tilretning af eksisterende opga-ver er på ca. et år, hvilket gør vedligeholdelse af opgavebanken på et anvendeligt niveau megettung, hvorved systemet har en lav agilitet og fleksibilitet.7.3DelkonklusionDette kapitel har belyst en række evalueringsspørgsmål under evalueringstemaet:Testens ind-hold.Kapitlet har med udgangspunkt i tilbagemeldinger fra interview med nøglepersoner og ek-sperter inden for fire testfag (dansk, læsning, matematik, engelsk og fysik/kemi) analyseret enrække udvalgte elementer, der afspejler forskellige dimensioner af testens indhold, herunderfag,profilområder, faglige emnerogrelationen til Fælles Målsamt testopgavernes faglige kvali-tet i form af fxopgavetyper, layoutoggrafik og illustrationer.Afslutningsvist er detekni-skeogøkonomiskefordele og ulemper ved det adaptive princip blevet analyseret med ud-gangspunkt i et internationalt litteraturstudie.Opgavernes indhold og udformningGenerelt kan det konkluderes, at valg af testfag og profilområder samlet set synes hensigtsmæs-sige, om end der er mindre opmærksomhedspunkter.Ser man på koblingen mellem testspørgsmål og Fælles Mål, er konklusionen, at testene i hoved-træk afspejler testegnede trinmål. Testspørgsmålene i to af fagene er dog ikke opdaterede (ma-tematik og fysik/kemi), så de afspejler gældende faglige mål, hvilket må vurderes at være uhen-sigtsmæssigt.En væsentlig konklusion er endvidere, at der inden for flere testfag er en mangel på svære opga-ver i opgavebanken. En optælling af opgaver udført af evaluator viser, at der er ganske få elleringen svære opgaver inden for flere profilområder i både engelsk, dansk, læsning samt matema-tik. Antallet af opgaver i opgavebanken synes derfor at være en udfordring.I forhold til testopgavernes faglige kvalitet, viser analysen, at der er en række opgavetyper til rå-dighed, og de anvendes i varierende grad. Multiple choice er én af de typer af opgaver, der ermeget populær. Eksperterne pointerer dog, at stor variation i brugen af opgavetyper ikke er af-gørende. Det væsentligste er, hvordan man tester specifikke kundskaber og færdigheder på denmest hensigtsmæssige måde.
Evaluering af de nationale test
99
I forlængelse heraf er det en generel udfordring, at opgaveskabelonerne (som er rammen for ud-vikling og design af opgaver) ikke afspejler den teknologiske udvikling, der er sket siden 2007.Det kan ligeledes konkluderes, at der er behov for en gennemgang af udvalgte testopgaver i for-hold til at sikre hensigtsmæssigt layout, brug af illustrationer samt distraktorer. Behovet for for-bedringer er dog mindst udtalt i dansk, læsning.Endelig viser analysen af testens indhold, at det vil være hensigtsmæssigt at forbedre rammernefor opgaveudviklingen, bl.a. i form af systematisk uddannelse af opgaveudviklere samt stærkeretilknytning til forskning.Tekniske og økonomiske fordele og ulemper ved det adaptive principAnalysen af de tekniske og økonomiske fordele og ulemper ved det adaptive princip er somnævnt, sket på baggrund af et litteraturstudie.Den tekniske analyse giver grundlag for at konkludere, at det adaptive princip sikrer, at de natio-nale test fremskaffer sikker viden om elevens faglige niveau med høj præcision og med færrestmulige opgaver.Brug af homogenitetskriteriet sikrer samtidig, at sammenligninger mellem elever, grupper af ele-ver og mellem elever over år er valide og kan gennemføres på én skala.Den økonomiske analyse viser, at anvendelse af det adaptive princip i test kræver omfattenderessourcer i udviklings-, afprøvnings- og analysefasen sammenholdt med lineære test. Det skyl-des, at alle opgaver skal gennemgå en Rasch-analyse. Litteraturstudiet viser dog, at det er mu-ligt at forenkle dele af processen noget ved at medtage opgaver til afprøvning i ordinær testafvik-ling.Konklusionen er her, at de adaptive test er betydeligt mere ressourcekrævende end lineære test,og systemet har en lav agilitet og fleksibilitet.
Evaluering af de nationale test
100
8.
TESTENES UDFORMNINGDette kapitel belyser en række evalueringsspørgsmål, der er samlet under følgende overordnedeevalueringstema:Testens udformning.Kapitlet vil indeholde en analyse af forskellige elementer irelation hertil i form afden praktiske tilrettelæggelseaf testafviklingen på skolerne, herundertids- og ressourceforbrug, testsystemetsresultatvisningsamt en vurdering afdet adaptiveprincipset ud fra etundervisningsmæssigt/pædagogisk perspektiv.Også i dette kapitel vil tilbagemeldinger fra seminar med faglige eksperter (jf. kapitel 7) indgåsom en del af datagrundlaget, der derudover bygger på spørgeskemaundersøgelserne til skolele-dere og lærere, de tidligere nævnte casestudier, herunder observationer af testafviklingen, samtdet i afsnit 7.2 omtalte litteraturstudium.Tilrettelæggelse, gennemførelse og brug af resultatvisningen er alle elementer, der indgår somgrundlæggende forudsætninger i evaluators forandringsteori, dvs. de ressourcer, aktiviteter ogoutput, der ligger forud for de forventede resultater og virkninger. Der henvises til forandringste-orien i bilag 1. Dette kapitel er derfor en analyse af disse grundlæggende forudsætninger.
8.1
Den praktiske tilrettelæggelse af testene på skolerne, herunder selve gennemførelsenNærværende afsnit indeholder en vurdering af den praktiske tilrettelæggelse af testene på sko-lerne, herunder booking af test, den tekniske klargøring, selve gennemførelsen samt opfølgnin-gen i form af analyse af resultater alene eller i dialog med klasse-, årgangs- eller fagteam samtfaglige vejledere. Analysen vurderer fordele og ulemper set ud fra et tidsmæssigt og teknisk per-spektiv.Evaluator har i spørgeskemaundersøgelsen spurgt ind til lærernes tidsforbrug før, under og eftertestafvikling.Tabel 8.1: Angivelse af gennemsnitlig tidsforbrug pr. test fordelt på aktiviteter. Angivet i pct.
0 ti-merPlanlægning (booking, orientering af foræl-dre mv.)Gennemførelse (til og fra lokale, gennemfø-relsen af selve testen mv.)Analyse og fortolkning af resultatetSamtaler med fx årgangs- eller fagteam el-ler med ressourcepersoner i form af læse-vejledere, matematikvejledere og lign. omresultatetElevsamtaler om resultatetOrientering af forældre om resultatetSamtaler med skoleledelsen om resultatetKilde: Spørgeskemaundersøgelse til lærere, 2013.
1-3timer889163
4-6timer5829
7-9timer115
10 timereller mere002
I alt(N)100(2162)100(2162)100(2162)100(2162)
611
16
78
6
1
0
9448
587051
27181
560
220
100(2162)100(2162)100(2162)
Af tabellen fremgår det, at langt størstedelen af lærerne (88 pct.) bruger 1-3 timer på planlæg-ning af testafvikling, herunder booking, orientering af forældre mv. 6 pct. af lærerne bruger in-gen tid forud for testafvikling.Tabellen viser endvidere, at 91 pct. af lærerne bruger 1-3 timer på selve testgennemførelsen,hvilket inkluderer tid til, at eleverne kommer til og fra lokalet samt gennemførelse af selve te-sten. Der er tale om et forholdsvis stort tidsspænd. På baggrund af de kvalitative data er det mu-ligt at komme med en mere præcis vurdering af tidsforbruget, som det fremgår nedenfor.Evaluering af de nationale test
101
Aktiviteter efter testafvikling er i tabellen delt op i analyse og fortolkning af resultat, samtalermed fagteam og/eller ressourcepersoner, elevsamtaler om resultat, orientering af forældre omresultat samt samtaler med skoleledelsen om resultat. Det fremgår, at størstedelen af lærernebruger 1-3 timer på de forskellige elementer af opfølgning. Besvarelserne, der er fordelt på fag,viser, at lidt over en tredjedel af dansk- og matematiklærerne bruger mellem 4-6 timer på analy-se og fortolkning af resultaterne. Dette tal er noget lavere for fysik/kemi og biologi, hvor kun 17-18 pct. af lærerne tilkendegiver, at de bruger dette antal timer.Ser man på tværs af indskoling, mellemtrin og udskoling, er der en tendens til, at tidsforbrugetgenerelt er mindre i udskolingen.Et spørgsmål i tabel 8.1 skiller sig særskilt ud. Det er spørgsmålet vedrørende lærerens samtalermed skoleledelsen om resultatet. Her tilkendegiver 48 pct. af lærerne, at de bruger 0 timer på ensådan samtale.Nedenfor sammenholdes resultatet af spørgeskemaundersøgelsen med resultatet af casestudier-ne, herunder evaluators observationer.Før testenDet fremgår af tabellen ovenfor, at 88 pct. af lærerne bruger 1-3 timer på planlægning af testen,herunder booking af test, orientering af forældre mv.I forbindelse med casestudierne er lærerne dels blevet bedt om at angive det konkrete tidsfor-brug til planlægning (i timer), dels at vurdere om gennemførelse af en national test samlet settager længere eller kortere tid end andre typer af test.Lærerne tilkendegiver, at de ofte bruger lidt længere tid på den praktiske tilrettelæggelse forudfor testafvikling i indskolingen sammenholdt med udskolingen. Dette skyldes ikke mindst, at ele-verne i udskolingen er blevet fortrolige med de nationale test og derfor ikke har behov for enlængere introduktion til login, opgavetyper mv.Det samme billede tegner sig i forhold til orientering af forældre. Også her bruges der mest tid iindskolingen, da det for mange forældre er første gang, de (og deres børn) stifter bekendtskabmed de nationale test. Af samme grund er der også her flere forældrehenvendelser. Dette stem-mer overens med den generelle analyse af skole-hjem-samarbejdet, jf. kapitel 5.Når lærerne bliver bedt om at beskrive, hvad de bruger tid på forud for testafvikling, nævner defleste på tværs af årgange, at de introducerer eller opsummerer det adaptive princip for eleverne,træner demotest samt skriver praktiske oplysninger vedrørende testafvikling på forældre-intra.En gruppe af lærerne forklarer, at der i nogle klasser er et stort behov for at gå i dybden med dettekniske (herunder det adaptive princip), da flere elever bliver utrygge og nervøse (se kapitel 5for uddybning af dette). Andre lærere fortæller, at de bruger lidt tid umiddelbart inden testafvik-lingen på eksempelvis at repetere strategier for orddeling sammen med eleverne.Generelt er det evaluators vurdering, at anvendelsen af tid forud for testen er for nedadgåendesammenlignet med tidsforbruget ved testens indførelse, da eleverne på de fleste klassetrin efter-hånden er bekendt med testen. Tidsforbruget inden testen italesættes heller ikke som en ulempe.Booking af tidI casestudierne har evaluator spurgt ind til, hvem der booker tid til test. På ca. halvdelen af sko-lerne er det en repræsentant fra ledelsen, der har ansvaret for at booke til samtlige klasser. Påden anden halvdel af skolerne er det lærerne selv, der står for denne del.På de skoler, hvor man har ændret bookingprocedure fra ledelse til lærerne selv, er det ofte sketud fra den begrundelse, at det er "spildte" ledelsesressourcer. Lærerne er tilfredse med denneløsning. Dette skyldes ikke mindst, at bookingsystemet i dag fungerer langt bedre end tidligere.
Evaluering af de nationale test
102
Dette bekræftes i spørgeskemaundersøgelsen, hvor 67 pct. tilkendegiver, at de er helt eller over-vejende enige i, at bookingsystemet fungerer godt.Enkelte peger på, at der kan opstå et behov for koordinering lærerne imellem, så man undgår, ateleverne har flere test samme dag. Det er noget af det, som eleverne selv påpeger. De opleverdet som uhensigtsmæssigt at have op til tre test i træk, da det kan være svært at koncentreresig.Enkelte lærere påpeger, at de oplever systemet som ufleksibelt, da man ikke kan ændre ibookingen til en elev, hvis det efterfølgende viser sig, at eleven fx skal på ferie, til læge eller lign.Dette beror dog på en misforståelse, da det fremgår af UNI-C’s vejledning, at lærere medbookingrettighed kan redigere en booking frem til det tidspunkt, hvor testen starter, eller lære-rens side til testafvikling åbnes93.Andre skoler ser det som en fordel at have samme person til at booke test til alle klasser. På énskole er det eksempelvis den pædagogiske leder, der står for al booking. Hendes ansvarsområdeer løbende evaluering, herunder de nationale test. Lærerne på skolen udtrykker stor tilfredshedmed, at ansvaret er placeret centralt. Ud over at der er kontinuitet i perioden for afholdelsen aftest fra år til år, fremhæver lærerne, at det er en fordel, at den, der booker test, har et samletoverblik over ledige computerressourcer på skolen.På spørgsmålet om, hvorvidt lærerne er enige i, at det er hensigtsmæssigt, at de nationale testskal gennemføres inden for en centralt fastsat periode, svarer 16 pct. af lærerne, at de er helt el-ler overvejende uenige i dette udsagn. Ca. 50 pct. er helt eller overvejende enige. Det generelleindtryk er således, at de fleste lærere ikke ser noget problem med en på forhånd fastlagt testpe-riode. Af den del af lærerne, der er uenige, angiver 75 pct. som begrundelse, at testen kan risi-kere at komme på et tidspunkt, hvor klassen mangler at blive undervist i ét eller flere af de trin-mål/områder, der testes. Dette er i overensstemmelse med de tilbagemeldinger, evaluator harfået af lærerne i naturfag, jf. kapitel 4.Af mere teknisk karakter peger flere lærere fortsat på, at det er en udfordring at fremskaffe nokcomputere, der er funktionsdygtige, sådan at en hel klasse kan afvikle testen samtidig. Det erheller ikke altid, at der er ledige computere til rådighed i det tidsrum, man har booket, hvilketselvsagt opleves som frustrerende.Under testenSelve testafviklingenI spørgeskemaundersøgelsen svarer 91 pct. af lærerne, som nævnt, at de bruger 1-3 timer påselve gennemførelsen af testen. Det generelle billede præciseres af casestudierne. Evaluators ob-servationer af testafvikling samt tilbagemeldinger i interviewene giver grundlag for at konstatere,at gennemførelse af en test i de fleste tilfælde varer ca. 60 minutter. Ministeriet har i forbindelsemed indførelsen af testen meldt ud, at et testforløb forventes at tage ca. 45 minutter94. At eva-luator har set flere forløb på ca. 60 minutter skyldes bl.a. elever, der kommer senere i gang endresten af klassen, samt elever, hvor det er nødvendigt at forlænge deres testforløb med ca. 15minutter.I parentes bemærket oplever flere lærere, at en testafvikling på mellem 45-60 minutter kan væ-re en udfordring for nogle elever. Det gælder ikke mindst de yngre elever i indskolingen, forhvem det kan være svært at bevare koncentrationen.De 60 minutter afspejler selve testafviklingen foran computeren. Dertil kommer den tid, der mågå med at få eleverne over i test-/it-lokalet samt retur. De klasser, der afvikler testen i dereseget klasselokale på fx en tablet, sparer selvsagt tid på denne del. Tidsforbruget afhænger der-udover af, hvor meget tid læreren bruger på at introducere/genopfriske diverse praktiske som ik-ke-praktiske informationer/oplysninger.9394
Brugervejledning. Testsystemet – De nationale test, UNI-C, 2013.Fremme af evalueringskulturen. Evaluering og test, Jakob Wandall, 2006. PowerPoint-show til Uddannelsesforum i Odense den 3.
oktober 2006.Evaluering af de nationale test
103
I forlængelse af ovenstående skal det nævnes, at de på forhånd definerede tider til testafviklingofte ikke passer til skolernes ringetider. En test vil derfor ofte løbe over to lektioner.Flere lærere fortæller, at det kan være nødvendigt at indgå aftaler med kollegaer om, at elevernekommer for sent til den efterfølgende undervisning. Det gælder ikke mindst i de testfag, hvorman sjældent har to lektioner i træk. Det er evaluators generelle indtryk, at tidsforbruget, her-under at flere test løber over to lektioner, ikke ses som en stor ulempe blandt lærere og skolele-dere. Det tolker evaluator som en accept af, at det er det tidsforbrug, der skal til for at sikre enhensigtsmæssig testafvikling.HjælpemidlerI forbindelse med casestudierne har flere lærere uopfordret peget på, at det er uklart, hvilken ty-pe hjælpemidler der er tilladt under selve testafviklingen. De mener, at der er behov for tydelige-re retningslinjer/større grad af ensretning, så resultatet af testen ikke bliver misvisende, fordi deter forskelligt fra skole til skole, hvad der gøres brug af.Evaluator oplevede ikke hjælpemidler i brug under testafvikling med undtagelse af CD-ord. Detvar dog forskelligt, i hvilken grad og på hvilken måde lærerne gik rundt og hjalp de elever videre,der var stoppet op. Nogle lærere var helt afvisende, andre forsøgte at få eleven til at reflektereendnu engang, bruge udelukkelsesmetoden eller blot klikke videre.
CD-ord er et program, der læser teksten på skærmen op under testafviklingen. Evaluator observerede fle-re elever, der brugte CD-ord helt uden problemer eller gene for andre elever.
Tekniske udfordringerI forbindelse med indførelsen af de nationale test oplevede skolerne en række tekniske udfor-dringer. Evaluator har derfor spurgt lærerne i casestudierne, om de fortsat oplever problemer afteknisk karakter. Tilbagemeldingen er, at langt de fleste udfordringer er løst, og det generelt ikkeopleves som et problem. Det er således evaluators generelle vurdering, på tværs af datakilder, atde tekniske problemer i selve testsystemet er minimeret. Der er nu i højere grad tale om tekni-ske udfordringer af lokal karakter.På enkelte skoler er der således stadig udfordringer med trådløs opkobling på grund af ringe ka-pacitet. En af caseskolerne har derfor set sig nødsaget til at koble hver enkelt bærbar computerop via kablede netværk i et særskilt testlokale for at sikre, at eleverne ikke bliver hægtet af un-der prøven. Andre skoler vælger fortsat at gennemføre testene i computerlokaler med stationæremaskiner.Efter testenOpfølgning på testenSom det fremgår af tabel 8.1 ovenfor, er opfølgning på testresultater opdelt i analyse og fortolk-ning af resultat samt opfølgning på team-, elev-, forældre- og skoleledelsesniveau.Størstedelen af lærerne tilkendegiver, at de bruger mellem 1-3 timer på analyse og fortolkning. Icasestudierne giver lærerne udtryk for, at det er meget forskelligt fra fag til fag og klasse til klas-se, hvor lang tid de bruger på dette. Tidsforbruget afhænger ikke mindst af, hvor mange eleverder klarer sig under middel, da de kræver ekstra tid, fordi læreren er nødt til at gå tilbage oganalysere, hvilke opgaver eleven fik fejl i. For videre analyse af lærernes anvendelse af testresul-tater, se kapitel 4.Langt de fleste lærere understreger, at de nationale test overordnet set er mindre tidskrævendeend de fleste andre test, alene fordi de rettes automatisk. Enkelte oplever dog, at også de natio-nale test kan være tidskrævende, hvis man ønsker at gå i dybden med analysen af elevernes re-sultater, herunder de enkelte opgavetyper.
Evaluering af de nationale test
104
Andre peger på, at der ligger en værdi i selv at rette de test, som eleverne gennemfører. Det gi-ver mulighed for at få et billede af elevernes svarmønstre og ræsonnementer, samt et godt over-blik over den enkelte elevs faglige styrker og svagheder. Det er dog evaluators vurdering, at derer tale om et klart mindretal, der foretrækker dette. Som det fremgår af kapitel 4, foretrækkerde fleste lærere en test, der selv genererer et resultat.I relation til opfølgning i form af kollegial dialog, elevsamtaler og skole-hjem-samtaler er det eva-luators vurdering, at der ikke er særskilte tidsmæssige fordele eller ulemper, når man sammen-holder nationale test med andre testtyper.Mest iøjnefaldende er det, at kun ca. halvdelen af lærerne drøfter resultatet med skolens ledelse.Dette bekræfter, at lærerne har et andet syn på graden af opfølgning sammenholdt med skolele-derne.Sammenfattende er det evaluators vurdering, at hverken det tidsmæssige eller det tekniske per-spektiv fylder meget i ledernes og lærernes bevidsthed. Umiddelbart er langt de fleste lærere afden opfattelse, at booking, klargøring og gennemførelse af test ikke opleves som særskilt pro-blematisk eller tidskrævende. I relation til tidsforbruget efter testens gennemførelse er den stør-ste tidsmæssige fordel sammenholdt med papirbaserede test, at de nationale test selv generereret resultat, hvilket de fleste ser som positivt. For en nærmere analyse af omkostninger ved driftaf testen henvises til afsnit 7.2.3.8.2Det adaptive princip ud fra et pædagogisk perspektivDette afsnit vil analysere fordele og ulemper ved det adaptive princip ud fra et pædagogisk per-spektiv. Det vil sige en analyse af lærernes opfattelse/vurdering af, hvordan en adaptiv test på-virker elevernes testafvikling, perspektiveret med konklusioner fra litteraturstudiet.I spørgeskemaundersøgelsen har evaluator først spurgt ind til lærernes forståelse af det adaptiveprincip og efterfølgende deres vurdering heraf.Det kan konstateres, at langt størstedelen af lærerne kender til og forstår, hvad en adaptiv testindebærer. Kun 5 pct. har i spørgeskemaundersøgelsen sat kryds ud for de udsagn, derikkeken-detegner det adaptive princip. Dette stemmer overens med indtrykket fra casestudierne. Lærernehar en klar forståelse af testens adaptive element, og de gør meget ud af at forklare eleverne omdet inden testgennemførelsen.
Evaluering af de nationale test
105
Tabel 8.2: I hvilken grad er du enig eller uenig i følgende udsagn vedrørende det adaptive princip? Angi-vet i pct.
SletikkeDet giver et mere præcistbillede af elevernes fagligeniveau end traditionelle pa-pirbaserede/lineære testDet bidrager ikke med nyviden om elevernes fagligeniveauDet påvirker elevernes en-gagement positivt, at de lø-bende får udfordrendespørgsmålDet påvirker eleverne enga-gement negativt, at de lø-bende får fagligt udfordren-de spørgsmålDet gør det svært at sam-menligne elevernes testre-sultater, at de får forskelligespørgsmålDet gør det svært at sam-menligne den enkelte elevstestresultater over tid
I mindregrad
I nogengrad
I højgrad
I megethøj grad
Vedikke
I alt(N)100(2162)
11
19
35
19
9
7
12
35
30
8
6
8
100(2162)
7
22
43
17
5
7
100(2162)
16
36
30
5
4
9
100(2162)
29
35
20
5
3
8
100(2162)
25
34
19
5
3
15
100(2162)
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Det fremgår af tabellen ovenfor, at 43 pct. af lærerne i nogen grad og 22 pct. i høj eller megethøj grad vurderer, at det adaptive princip påvirker elevernes engagementpositivt,fordi de lø-bende får fagligt udfordrende spørgsmål. I den modsatte ende af skalaen svarer 30 pct., at det inogen grad påvirker elevernenegativt,at de får fagligt udfordrende spørgsmål. Der er altsåumiddelbart tale om tilbagemeldinger fra lærerne, der peger i begge retninger.Casestudierne understøtter spørgeskemaundersøgelsens billede af, at lærerne vurderer det adap-tive princip som havende både styrker og svagheder. Generelt er vurderingen fra de interviewedelærere på tværs af skolerne dog, at styrkerne vejer tungest. De fremhæver først og fremmest, atbåde de stærke og svage elever udfordres på et niveau, der afspejler deres faglige kunnen. Meden adaptiv test får eleverne mulighed for at få en god testoplevelse, fordi alle undervejs fårspørgsmål af en sværhedsgrad, som de kan svare på. Det antages at fremme motivationen ogengagementetDenne konstatering understøttes af litteraturstudiet, der peger på den fordel, at den adaptivetest kan kreeres, så alle elever oplever, at ca. 50 pct. af de stillede opgaver løses korrekt. Detteer også tilfældet i de nationale test. Denne tilgang er motiverende for både relativt fagligt svageelever, fordi de ikke oplever en stor faglig utilstrækkelighed, og for relativt fagligt stærkere ele-ver, fordi de oplever at blive udfordret og ikke keder sig pga. for mange for lette opgaver.Litteraturstudiet peger desuden på, at de adaptive test også er gode til at registrere faglig pro-gression blandt eleverne, særligt for elever med relativt store faglige spring mellem to test.Adaptive test konstaterer hurtigt en udvikling og tilpasser opgaverne herefter.Det skal i denne sammenhæng anføres, at der fra et fagligt pædagogisk synspunkt kan argumen-teres for, at anvendelsen af de nationale test, som et værktøj til måling af den enkelte elevs fag-lige progression, forudsætter, at testen tages med mindre tidsintervaller, end tilfældet er i dag.Dette synspunkt understøttes af evaluators casestudier, hvor flere lærere peger på hyppighedenog antallet af test, som én af styrkerne ved de andre test på markedet, som de gør brug af og fo-retrækker, jf. kapitel 4.Evaluering af de nationale test
106
Lærerne i casestudiet peger derudover på, at eleverne ikke kan kigge efter hinanden under selvetestafviklingen. Tilsvarende kan de heller ikke sammenligne resultater efterfølgende, da de ikkehar haft de samme spørgsmål. Noget, der i forbindelse med andre test, kan fylde uhensigtsmæs-sigt meget. Enkelte lærere oplever, at nationale test tages mere alvorligt blandt eleverne. Samti-dig opleves det som ekstra motiverende, at testen er it-baseret.De ulemper, som lærerne nævner, går igen på tværs af skolerne. Et eksempel er, at på trods af,at de fagligt svage eleverikkenødvendigvis mister modet undervejs, fordi de kan svare på en delaf de stillede spørgsmål, peger flere lærere på, at nogle efterfølgende bliver skuffede, når de fårresultatet: "Menbagefter bliver de [eleverne] alligevel dunket i hovedet med et dårligt resultat.Det kan være svært at forstå, hvorfor de alligevel ligger under middel."For de fagligt stærke elever kan udfordrende spørgsmål på et højt fagligt niveau resultere i, at debliver ærgerlige og kede af det, da de fra andre testforløb er vant til at kunne svare på alt. Flerelærere fortæller om elever, der er brudt grædende sammen. Det vurderes at være aftagende, ef-terhånden som eleverne får øget kendskab til den adaptive test og dens opbygning. Det sker påtrods af, at lærerne har forklaret om det adaptive princip, herunder at alle elever vil opleve at nåtil et fagligt niveau, hvor de ikke kan være med.At eleverne bliver færdige på forskellige tidspunkter95opleves også som en uhensigtsmæssighedaf flere lærere. Det er forskellig praksis fra klasse til klasse, hvorvidt hver enkelt elev må forladelokalet, når de har gennemført testen, eller de skal vente til, alle er færdige. I de situationer,hvor enkelte elever sidder tilbage, fortæller lærerne, at mange elever bliver frustrererede, fordide skal svare på så mange spørgsmål. Det kan resultere i, at de sjusker med svarene for hurtige-re at blive færdige. I starten var mange af den opfattelse, at det var de fagligt svage, der sad til-bage. Men med tiden har de fleste elever fundet ud af, at det lige så ofte er de fagligt stærkeelever. På trods af dette, er oplevelsen af, at det kan være ubehageligt at være den sidste, fort-sat aktuel. Dette bekræftes af eleverne, jf. kapitel 5. I forlængelse heraf fortæller lærerne, at deadaptive test kræver et stort forklaringsarbejde over for eleverne, ikke mindst i indskolingen,hvor eleverne ikke har nogen tidligere erfaring. Det er noget, der lægges stor vægt på og priori-teres, som det fremgik ovenfor.En anden ulempe, som flere lærere oplever, er, at fagligt stærke eleverlåsespå et for lavt ni-veau i det adaptive testforløb. De første tre spørgsmål i elevens test er afgørende for niveauet afde efterfølgende spørgsmål. Lærerne fortæller, at hvis eleven fx er ukoncentreret, sjusker eller afanden grund kommer lidt skævt i gang, så har de set flere eksempler på fagligt stærke elever,der ikkekommer opog får testspørgsmål, der afspejler deres reelle faglige niveau senere i te-sten.Afslutningsvist skal der på baggrund af litteraturstudiet peges på den ulempe, at eleverne ikkeved det adaptive princip oplever en indre sammenhæng mellem opgaverne, idet testsystemetblander opgaver fra opgavebanken på tværs af de tre profilområder96. Eleverne oplever altså ikke,at de løser et antal opgaver, der ligger i naturlig forlængelse af samme tema, som det er tilfældetfor nogle lineære test, eksempelvis folkeskolens afgangsprøve, hvor samme hovedopgave kanindeholde et antal afledte spørgsmål, der skal besvares.Typer af videnDet er en antagelse, at den adaptive test kan give et mere præcist billede af elevernes faglige ni-veau.I forlængelse af analysen af den pædagogiske anvendelse i kapitel 4 kan det i denne sammen-hæng konstateres, at det kun er godt en fjerdedel af lærerne, der vurderer, at det adaptive prin-cip i meget - eller i temmelig høj grad giver et mere præcist billede af elevernes faglige niveausammenholdt med papirbaserede test. 35 pct. vurderer, at det i nogen grad er tilfældet.
95
Antallet af testspørgsmål varierer fra elev til elev. Det er forskelligt, hvor mange spørgsmål den enkelte elev skal igennem, før test-Defineret i kapitel 7.
systemet viser grønt (gennemført).96
Evaluering af de nationale test
107
Flertallet af lærere oplever altså ikke i særlig høj grad, at testens mulighed for at afspejle elever-nes individuelle faglige niveau bidrager til et mere præcist billede. I forlængelse heraf kan en hy-potese være, at jo mere præcis en vurdering er/opleves, i jo højere grad vil den efterfølgendekunne understøtte en tilrettelæggelse af en undervisning, der tager udgangspunkt i klassens ogden enkelte elevs faglige niveau.At det adaptive princip ikke i særlig høj grad giver et mere præcist fagligt billede, kan for noglesvedkommende hænge sammen med den tilbagemelding/resultatvisning, som lærerne får i selvetestsystemet. Dette element analyseres i næste afsnit.I forlængelse heraf viser litteraturstudiet, at adaptive test ikke skaber ny viden om elevernespræstationer, som ikke kan etableres via lineære test. Ny viden om elevernes faglige niveau viade nationale test skabes således kun i de tilfælde, hvor lærere ikke tidligere ville have gennem-ført nogen form for test, og hvor lærerne heller ikke ville have påbegyndt brug af andre test i pe-rioden siden 2010 i det tilfælde, at nationale test ikke havde eksisteret.Sammenfattendekan det konstateres, at lærerne generelt er tilfredse med det adaptive princip.Størstedelen ser det i nogen eller i høj grad som en styrke, at eleverne testes/udfordres på deresindividuelle faglige niveau, og det er en styrke, der vægtes højere end de ulemper, der peges på.Dette understøttes i høj grad i casestudierne. Det er dog evaluators vurdering, at dele af de kon-krete ulemper/udfordringer kan løses ved tydelig kommunikation, vejledning og forklaringer tileleverne – noget, som de fleste af lærerne i casestudierne ser ud til at praktisere.8.3Tilbagemelding til lærerneDet fremgår af kapitel 4, at det er et klart politisk mål, at de nationale test skal understøtte endifferentieret planlægning af undervisningen. Det kan både være i relation til klassen, grupper afelever (holddannelse) og ikke mindst den enkelte elev97.Ministeriets egen pjece giver inspiration til pædagogisk brug af resultater fra de nationale test98.Pjecen giver anvisninger til, hvordan man bruger den resultatvisning, som testsystemet stiller tilrådighed, som fx klassens resultater i et søjlediagram, klassens resultat i tabelform samt detalje-rede resultater fra den enkelte elev.Dette afsnit analyserer denne tilbagemelding til lærerne i form af forskellige resultatvisninger,herunder i hvilket omfang de bidrager til, at læreren får et nuanceret billede af elevernes kund-skaber og færdigheder.
9798
Jf. Folkeskolelovens § 18, stk. 2, der fastslår kravet om undervisningsdifferentiering.Brug testresultaterne – inspiration til pædagogisk brug af resultater fra de nationale test, Skolestyrelsen, 2011.
Evaluering af de nationale test
108
Tabel 8.3: Angiv, i hvilken grad du er enig eller uenig i følgende udsagn om visningen af resultaterne afde nationale test. Her menes de oversigter over resultater, som du ser i testsystemet påwww.testogprøver.dk, fx søjlediagrammer, tabeller over klassens resultat og den enkelte elevs resultatog testforløb. Angivet i pct.
HeltuenigEr generelt brugervenligEr for detaljeretGiver et godt overblikover klassens faglige ni-veau i de dele af faget,der testesGiver et klart billede afden enkelte elevs fagligeniveau i de dele af faget,der testesGiver et godt grundlagfor den faglige opfølg-ning på resultatet i rela-tion til klassenGiver et godt grundlagfor den faglige opfølg-ning på resultatet i rela-tion til den enkelte elevStyrker generelt minmulighed for at differen-tiere min undervisning220
Overvejendeuenig834
Hverkenenig elleruenig2037
Overvejendeenig578
Heltenig131
I alt(N)100(2162)100(2162)100(2162)
3
9
18
57
13
4
15
27
45
10
100(2162)
4
15
33
42
7
100(2162)
4
15
30
43
7
100(2162)
10
19
37
30
5
100(2162)
Kilde: Spørgeskemaundersøgelse til lærere, 2013.
Evaluator har i spørgeskemaundersøgelsen til lærerne indledningsvis spurgt til resultatvisningensgenerelle brugervenlighed. Hele 70 pct. er helt enige eller overvejende enige i, at den generelt erbrugervenlig. 20 pct. er hverken enige eller uenige.Ligeledes er det langt størstedelen, der er helt eller overvejende enige i, at præsentationen af re-sultaterne i testsystemet giver et godt overblik overklassensfaglige niveau i de dele af faget, dertestes. Denne andel falder en smule, når der bliver spurgt til, hvorvidt resultatvisningen giver etklart billedeaf den enkelte elevsfaglige niveau. Det er 55 pct. helt eller overvejende enige i,hvor 26 pct. er hverken enige eller uenige.Når der spørges ind til lærernes holdning til, hvorvidt resultatvisningen understøtter den fagligeopfølgningpå henholdsvis klassen og i relation til den enkelte elev, er ca. 50 pct. helt eller over-vejende enige i, at det er tilfældet. Ca. 20 pct. er helt eller overvejende uenige. Tallet er nogetlavere, når der direkte spørges ind til, hvorvidt resultatvisningen styrker lærernes mulighed for atundervisningsdifferentiere. Ca. 35 pct. er helt eller overvejende enig i, at det er tilfældet, hvorca. 30 pct. er helt eller overvejende uenige. Den resterende del er hverken enige eller uenige.Dette indikerer, at selvom resultatvisningen umiddelbart er brugervenlig og giver et godt overblikfor en stor andel af lærerne, så bliver det mere udfordrende, når resultatet skal omsættes til endifferentieret planlægning og gennemførelse af undervisningen. Det stemmer overens med detbillede, der tegner sig på baggrund af casestudierne i relation til den pædagogiske anvendelse, jf.kapitel 4.Evaluator har sammenholdt lærernes holdning til resultatvisningen med lærernes brug af testre-sultaterne. Resultatet er, at der generelt er en stærk positiv sammenhæng mellem lærernesholdning til visningen af resultaterne af de nationale test og lærernes anvendelse af resultatet afde nationale test. Med andre ord er der en klar tendens til, at de lærere, der har en positiv hold-Evaluering af de nationale test
109
ning til testen, i højere grad gør brug af resultaterne i deres pædagogiske arbejde, herunder denfremadrettede planlægning – et resultat, der understreger potentialet i at være i dialog med læ-rerne om testens formål og muligheder ud fra den betragtning, at hvis flere lærere begynder atvurdere testen som meningsfuld, vil flere sandsynligvis også anvende den.Ser man på de forskellige resultatvisninger, er der ikke den store forskel på, hvor stor en andel aflærerne, der bruger henholdsvis søjlediagram, klassens testresultat i tabelform samt testresulta-ter for den enkelte elev. Det er mellem 40 og 45 pct. af lærerne, der angiver, at de bruger alletre resultatvisninger altid eller ofte, og ca. 35 pct. bruger det engang imellem.I resultatvisningen er det også muligt at se oplysninger om hver enkelt testopgave, som elevernehar svaret på. Den mulighed er der kun en fjerdedel, der altid eller ofte benytter sig af. 40 pct.svarer, at de gør det engang imellem.Generelt bekræfter spørgeskemaundersøgelsen billedet af, at langt fra alle lærere bruger resul-tatvisningens muligheder efter hver test. Ca. 40 pct. af lærerne angiver, at de er helt eller over-vejende enige i, at de primært bruger de forskellige oversigter, når resultatet for en elev ellerklasse ikke er som forventet. 30 pct. er hverken enige eller uenige. Dette resultat understøtter detilbagemeldinger, som evaluator har fået i casestudierne.CasestudierneI casestudierne har evaluator spurgt ind til lærernes anvendelse af resultatvisningen. Generelt ertilbagemeldingen, at langt de fleste har let ved at navigere rundt og kender til de forskellige ty-per skærmbilleder. Dette understøtter tilbagemeldingerne i spørgeskemaundersøgelsen i tabellenovenfor.Det er evaluators vurdering, at udfordringen opstår i den mere detaljerede analyse, altså i arbej-det med at oversætte resultatet til pædagogisk praksis, sådan som det også fremgik af kapitel 4.I interviewene peger flere lærere først og fremmest på, at det er besværligt at få et samlet bille-de af den enkelte elevs faglige styrker eller svagheder, der er tilstrækkelig detaljeret. I dag giversystemet mulighed for at få sorteret elevernes resultater inden for hvert profilområde, men deter, efter lærernes vurdering, for overordnet. Profilområdet Tal og Algebra rummer mange fagligeområder/opgaveemner (fx talkendskab, 10-talssystem, addition/subtraktion, multiplikation/division m.fl.), og en elev vil ikke nødvendigvis have udfordringer inden for alle. Hvis man somlærer ønsker sig et mere detaljeret overblik, er man nødsaget til at gå ind og åbne hver enkeltopgave manuelt.Nogle af de interviewede lærere udtrykker derfor ønske om, at systemet automatisk genererer enliste over, hvordan eleven/klassen har klaret specifikke faglige områder, sådan at man kan tilret-telægge en undervisning ud fra den enkeltes behov. En lærer fortæller, at hun printer de samlederesultater ud, for efterfølgende med en farveblyant at kunne gruppere resultaterne for hver elevinden for de enkelte faglige emner.Flere foreslår desuden, at resultatvisningen i testsystemet skal indeholde muligheden for atsammenligne den enkelte elevs resultater over tid, herunder både frivillige og obligatorisk test.Også litteraturstudiet peger på en ulempe, der er relateret til resultatvisningen. Det kan være enudfordring at forstå resultatet af en adaptiv test. Elevdygtigheden beregnes på en intervalskala.Ved tilbagemelding til læreren vises resultatet på percentilskalaen (1-100). Denne percentilværdikan efterfølgende indplaceres i én af de fem grupper, der er angivet ved 5-trins-skalaen. Den un-derliggende intervalskala har den egenskab, at afstanden mellem to punkter er lige stor, mensdenne egenskab bortfalder ved transformation til percentilskalaen. Netop denne kobling mellempercentilskala og de fem niveauer opleves af flere lærere og elever som problematisk. Ikkemindst blandt eleverne er der et ønske om, at de får at vide, hvor på percentilskalaen de ligger.De oplever, at intervallerne, der udgør de fem niveauer, er så brede, at det er væsentligt at vide,
Evaluering af de nationale test
110
om man ligger i bunden eller toppen af niveauet, hvis man skal have et præcist billede af sit fag-lige niveau99.Af mindre ulemper peger enkelte lærere på, at der ikke er plads til hele klassens resultat på étskærmbillede, når man vil se tabellen for dette. Derfor bliver man nødt til at scrolle frem og til-bage. Andre ærgrer sig over, at skærmbilledet ikke er tilpasset smartphones.Samlet set er det dog først og fremmest den manglende automatisk genererede detaljeringsgradi forhold til de enkelte elever, som de interviewede lærere peger på.
99
Evaluator er opmærksom på, at eleverne som udgangspunkt alene skal have oplyst deres placering på ét af de fem niveauer. Evalu-
ator har dog mødt flere elever, der har kendskab til 100-skalaen, eller som får deres resultat i form af tallet på percentilskalaen.Evaluering af de nationale test
111
Boks 8.1: Ekspertvurdering i relation til resultatvisning
EkspertvurderingSom en del af den gennemførte ekspertvurdering (se kap. 5) har evaluator ligeledes bedt de faglige ek-sperter vurdere testsystemets resultatvisning.Tre ud af de fire ekspertgrupper er enige om, at resultatvisningen indeholder nogle brugbare elementerog muligheder. Matematikgruppen er mindre enig i denne betragtning.Størstedelen af de faglige eksperter mener, at muligheden for at se klassens resultat i et søjlediagram,klassens resultat i tabelform samt detaljerede resultater fra den enkelte elev er brugbar, men det kræveren indsats fra lærerens side. Det vurderes derfor, at der ligger en stor udfordring i at understøtte lærernei deres arbejde med at omsætte resultaterne til praksis i undervisningen. Fageksperterne i matematikvurderer, at der fremadrettet bør tænkes i en helt anden og mere præcis tekst, hvis lærerne skal kunnebruge resultatvisningen i praksis, som det uddybes nedenfor.Alle ekspertgrupper er enige om, at det er relevant at få sat fokus på, hvordan lærernes viden om denpædagogiske anvendelse kan optimeres.Ekspertgruppen i engelsk er umiddelbart mest positiv. De mener, at resultatvisningen er et godt redskabfor lærerne, der principielt giver mulighed for at gå kirurgisk til værks i arbejdet med at analysere elever-nes faglige styrker og svagheder, som de formulerer det.1. Ligesom engelsklærerne i casestudierne hen-vises der til, at der ikke tidligere har været test tilgængelige, så de nationale test opleves generelt som etløft.Ekspertgruppen i dansk, læsning peger på, at en vigtig funktion i det nuværende system er mulighedenfor at sortere resultaterne efter profilområder, der kan give et mere samlet overblik og gøre det nemmereat bruge resultatet som udgangspunkt for fx holddannelse. Selvom netop disse funktioner beskrives iKvalitets- og Tilsynsstyrelsens vejledning, er det indtrykket, at langt fra alle lærere gør brug af dennemulighed.Ekspertgrupperne i henholdsvis matematik og fysik/kemi kommer med forslag til forskellige funktionalite-ter, der som et supplement til resultatvisningen, vil kunne hjælpe lærerne på vej.Ekspertgruppen i matematik vurderer, at det vil understøtte lærernes anvendelse af resultaterne, hvistestsystemet automatisk udpeger elever, man som udgangspunkt bør være opmærksom på, herunderhvilke specifikke faglige udfordringer/styrker der er tale om.I dag er det alene muligt at sortere elevernes svar inden for de tre profilområder, men det vurderes affageksperterne, ligesom lærerne (se ovenfor), at være for generelt.I forlængelse heraf peger ekspertgruppen i fysik/kemi på, at de tre profilområder inden for faget ikke erskarpt afgrænset, hvorfor der er opgaveemner (fx syre-base, pH-værdi), der går igen inden for alle treområder. Gruppen er derfor enig i, at det vil være hensigtsmæssigt med en funktion i resultatvisning, derkan sortere besvarelser på opgaveemneniveau både i forhold til klassen samlet set og i forhold til den en-kelte elev.Afslutningsvis skal det nævnes, at flere af eksperterne på tværs af de fire grupper er enige om, at densamlede vurdering af klassens resultater på tværs af de tre profilområder (resultatvisningen med søjledi-agrammer) er mindre hensigtsmæssig. Et gennemsnit af resultatet inden for hvert af de tre profilområdergiver ingen mening i relation til den fremadrettede anvendelse. Det er nødvendigt at se på, hvordan klas-sen klarer sig inden for det enkelte profilområde, for at kunne målrette undervisningen.
Evaluering af de nationale test
112
8.4
DelkonklusionDette kapitel har belyst en række evalueringsspørgsmål under evalueringstemaet:Testens ud-formning.Kapitlet har fokuseret på en analyse af forskellige elementer i relation til den praktisketilrettelæggelse af testafviklingen på skolerne, visning af resultaterne af testene samten vurdering af det adaptive princip set ud fra et undervisningsmæssigt/pædagogisk perspektiv.Samlet set er der tale om en analyse af rammerne for testafviklingen ud fra to forskellige per-spektiver. Det ene perspektiv har fokuseret på selve tilrettelæggelsen af testen, herunderplan-lægningoggennemførelse,samt fordele og ulemper ved det adaptive princip i testsituationen setud fra et lærerperspektiv. Det andet perspektiv har fokuseret påopfølgningenpå testen, dvs. envurdering af, i hvilken grad hypotesen om, at systemets forskellige resultatvisninger bidrager til,at testen giver læreren et nuanceret billede af elevernes kundskaber og færdigheder, kan be-kræftes. Kapitlet kommer således hele vejen rundt om de faser af lærerens undervisning, hvortestene er i anvendelse: planlægning, gennemførelse og opfølgning.I relation til tilrettelæggelsen af testen på skolerne, såsom booking, klargøring af it samt forbere-delse af eleverne mv. kan det overordnet konkluderes, at testafviklingen ud fra et lærer- og le-dersynspunkt ser ud til at kunne planlægges og gennemføres på tilfredsstillende vis. De tekniskeudfordringer, der har været tidligere, er stort set løst, og de fleste vurderer, at bookingsystemermv. fungerer godt. Enkelte skoler/kommuner har dog fortsat problemer med manglende ha-stighed og elever, der bliversmidt afmidt i en test, men det er en generel problematik, uaf-hængig af testsystemet.Hvad angår tidsforbrug, der går til testafviklingen, er dette ikke noget, som hverken lærere ellerledere peger på som en ulempe. Der er dog ingen tvivl om, at der er en klar tidsmæssig gevinstved at gennemføre it-baserede test, når man sammenholder med papirbaserede test. Det skyl-des, at de nationale test automatisk genererer et resultat, hvorfor lærerne sparer rettetid. Detteer dog en funktionalitet, som andre it-baserede test på markedet også indeholder, som det frem-gik af kapitel 4.De nationale test adskiller sig særskilt fra andre test i folkeskolen ved at gøre brug af det adapti-ve princip, hvor testen løbende tilpasser sig elevens niveau. I forhold til dette princip er konklusi-onen, at størstedelen af lærerne ser dette som en fordel for eleverne og deres testafvikling. Detteunderstøttes af litteraturstudiet. Det er dog muligt at pege på en række ulemper, relateret til ele-vernes oplevelse af testsituationen (fx at eleverne bliver færdige på forskellige tidspunkter, ognogle derfor risikerer at sidde tilbage til sidst), men den styrke, der ligger i, at eleverne hver isærudfordres på deres eget faglige niveau, vejer tungest i lærernes vurdering.Det kan tillige konkluderes, at det kun er godt en fjerdedel af lærerne, der vurderer, at det adap-tive princip i meget - eller temmelig høj grad giver et mere præcist billede af elevernes fagligeniveau sammenholdt med papirbaserede test.Som en del af opfølgningen på testen skal den enkelte lærer ind i testsystemets resultatvisningog orientere sig om klassens og de enkelte elevers resultater. Som nævnt ovenfor har det væretevaluators hypotese, at denne tilbagemelding til lærerne bidrager til, at lærerne får et nuanceretbillede af elevernes kundskaber og færdigheder.Svaret på hypotesen er ikke entydigt. En betydelig del af lærerne angiver i spørgeundersøgelsen,at resultatvisningen umiddelbart er brugervenlig. De kender systemet, og de kan navigere rundt ide forskellige typer skærmbilleder og detaljeringsgrader. Det er dog langt fra alle lærere, der gørbrug af denne mulighed, først og fremmest fordi de i højere grad vælger andre evalueringsværk-tøjer, jf. kapitel 4.En del af begrundelsen skyldes dog selve resultatvisningen. Her er meldingen fra flere sider, atresultaterne kunne vises på måder, der i endnu højere grad understøtter lærernes arbejde medat implementere resultaterne. Både interviewede lærere på casestudierne og faglige eksperterpeger på konkrete funktioner i resultatvisningen, som de mener, vil hjælpe lærerne til at få etendnu mere nuanceret, men også systematiseret billede af klassens faglige niveau.
Evaluering af de nationale test
113
Ikke mindst er der et ønske om at få et overblik over de konkrete opgaver, eleven har gennem-ført, uden at skulle åbne hver enkelt testopgave i visningen manuelt. Samtidig er der et ønskeom automatisk gruppering af elever, der har specifikke faglige udfordringer. I dag er det muligtat gruppere på profilområdeniveau, men det vurderes af flere lærere til at være for generelt til atkunne planlægge undervisningen efter.Konklusionen er, at nok er der tale om en resultatvisning, der umiddelbart kan bidrage til et nu-anceret billede af kundskaber og færdigheder og tilsvarende er forholdsvis let at navigere rundt ipå skærmen, men det kræver fortsat et relativt stort fortolknings- og analysearbejde af den en-kelte lærer at skulle omsætte resultatet til praksis. Nye funktionaliteter i visningen og udvikling afanalyseværktøjer kan være en del af løsningen. Men som det fremgik af kapitel 4, er der en langrække andre elementer, der spiller ind i forhold til den fremadrettede pædagogiske anvendelse afresultaterne.
Evaluering af de nationale test
114
9.
KONKLUSIONERI dette afsluttende kapitel sammenfatter evaluator de væsentligstehovedkonklusionerfra deforegående kapitler. Kapitlet er struktureret i henhold til evalueringens fire temaer samt en tvær-gående analyse.Som supplement til hovedkonklusionerne indeholder kapitlet enperspektiveringmed en rækkeopmærksomhedspunkter, der af evaluator vurderes relevante at overveje i den videre udviklingaf de nationale test.
9.1
Tematiske hovedkonklusionerNedenfor sammenfattes hovedkonklusionerne for de fire temaer.Testenes effekt
9.1.1
Med henblik på at afdække sammenhænge mellem de nationale test, folkeskolens evaluerings-kultur og elevernes faglige niveau har evaluator foretaget en række analyser afeffekterne af ind-førelsen af de nationale test.Analysernes overordnede resultat er, at de nationale test har haften positiv indvirkning på elevernes faglige resultater, samt at de har været medvirkende til atstyrke skolernes evalueringskultur. På baggrund af de tilgængelige data kan der dog ikke på nu-værende tidspunkt findes en tydelig sammenhæng mellem skolernes evalueringskultur og ele-vernes faglige resultater.Analysen afsammenhængen mellem de nationale test og elevernes faglige resultaterin-dikerer en positiv effekt af de nationale test i relation til elevernes faglige resultater. Både analy-serne på elev-, skole- og landsniveau indikerer således, at de nationale test har en positiv effektpå elevernes faglige niveau. Det har dog kun været muligt at undersøge de generelle effekter afde nationale test – dvs.omtestene har en effekt på elevernes faglige niveau og ikke,hvordandehar en effekt. Resultaterne tyder dog på, at den konstaterede effekt ikke alene skyldesteachingto the test,eller at eleverne blot er blevet bedre til at gennemføre testene, men at eleverne fak-tisk er blevet dygtigere til det fag, de er blevet testet i. Det har dog alene været muligt at se påeffekten af nedbrud i dansk, læsning. Når data for 2013 bliver tilgængelige, vil det være muligt atundersøge, om den samme effekt ses i matematik.Analysen afsammenhængen mellem de nationale test og skolernes evalueringskulturtyder for det første på, at skolerne overordnet set har styrket deres evalueringskultur i de senereår. For det andet er der indikationer på, at de nationale test har medvirket til at styrke skolernesevalueringskultur. Styrkelsen af evalueringskulturen falder til en vis grad tidsmæssigt sammenmed indførelsen af de nationale test. Undersøger man de oplevede effekter af de nationale test,er skolelederne samt forvaltningerne forholdsvis positive i deres vurdering af, hvorvidt de natio-nale test har bidraget til at styrke skolernes evalueringskultur. Dog er lærerne mere skeptiske.Evaluator vurderer samlet, at de nationale test har haft en understøttende og dagsordenssætten-de effekt i relation til at understrege et fokus på faglige resultater såvel som bidrag til en størresystematik i skolernes evaluering og har derved medvirket til en stærkere evalueringskultur. Deter dog samtidig evaluators vurdering (som det anføres i lovbemærkningerne), at det ikke er denationale test alene, der skaber en stærkere evalueringskultur. Det er derimod helheden i anven-delsen af nationale test i samspil med en række evalueringsværktøjer samt en stærk ledelse, derunderstøtter en stærk evalueringskultur.De statistiske analyser afsammenhængen mellem skolernes evalueringskultur og elever-nes faglige resultaterviser ikke en overbevisende sammenhæng. Selvom resultaterne ikke kanbekræfte, at der er en statistisk sammenhæng ud fra de tilgængelige data, er dette dog ikke etendegyldigt bevis på fravær af sammenhæng mellem skolernes evalueringskultur, og hvordanskolens elever klarer sig. Det er evaluators vurdering (ud fra casestudier og eksisterende under-søgelser), at en stærk evalueringskultur har en fremmende effekt for at opnå gode faglige resul-tater. Men en stærk evalueringskultur er ikke en tilstrækkelig betingelse for at opnå gode resulta-ter. Evaluator vurderer, at der er potentiale for en stærkere sammenhæng, såfremt skolernefremadrettet styrker deres evalueringskultur og benytter de nationale test mere systematisk.
Evaluering af de nationale test
115
Læs mere omtestenes effekti kapitel 3.9.1.2Testenes anvendelse
Evalueringstemaettestenes anvendelseomfatter en analyse af en række aktørers anvendelse,oplevelse og vurdering af de nationale test. Det gælder lærere, elever, forældre (som led i skole-hjem-samarbejdet) samt skoleledere og kommuner. Nedenfor sammenfattes de væsentligstekonklusioner i relation til anvendelse af de nationale test.En central del af nærværende evaluering er analysen af, hvorvidt – og i givet fald hvordan –læ-rerne anvender de nationale testtil den løbende evaluering af elevernes udbytte af undervis-ningen, herunder den fremadrettede planlægning af undervisningen. Evalueringen dokumenterer,at langt størstedelen af lærerne gør brug af de nationale test.Denne overordnede konklusion nuanceres imidlertid ved, at lærerne i overvejende grad brugertestene til skabe overblik og dermed monitorere klassens og elevernes faglige niveau. Derimod erbrugen af de nationale test mindre udbredt i forhold til den fremadrettede tilrettelæggelse af un-dervisningen. Evalueringen viser, at mange lærere (indtil videre) primært anvender de nationaletestresultatersummativtog i langt mindre gradformativt.Derudover er der markante forskelle ianvendelsen mellem fagene. Anvendelsen af testresultaterne er således mere udbredt i dansk,læsning, matematik og engelsk, end det er tilfældet i naturfagene. Endelig er det en hovedkon-klusion, at testresultaterne typisk ses som et supplement til viden, indhentet fra øvrig evaluering.De nationale test står sjældent alene som redskab i en evalueringskultur.Som nævnt er det evaluators overordnede indtryk, at det fortsat kun er en forholdsvis lille del aflærerne, der konsekvent og systematisk bruger testresultaterne fremadrettet som grundlag forplanlægning af undervisningen. Den manglende formative anvendelse kan forklares ved, at man-ge lærere bruger andre evalueringsværktøjer. En anden forklaring kan være manglende fokus ogrammesætning fra skoleledelsens side. Endelig spiller oplevelsen af manglende relevans ind foren del lærere. Særligt lærere inden for naturfag finder det ikke brugbart med én test relativt senti folkeskolen (8. klasse), og derudover påvirker en række fagspecifikke forhold graden af testan-vendelse.Evalueringen undersøger, i hvilket omfang de nationale test har indflydelse på lærernes priorite-ring af undervisningens indhold. Der refereres ofte til begrebetteaching to the test,men evalua-tor anvender i stedet begrebetwashbacksom et mere nuanceret udtryk for, at man kan tale ombåde negativ og positiv påvirkning af/indflydelse på undervisningen. Evalueringen viser et særde-les differentieret billede af omfanget af washback i relation til brugen af de nationale test. Lærer-ne på de undersøgte skoler fordeler sig i forskellige grupper, hvor halvdelen af lærerne giver ud-tryk for, at de slet ikke eller i begrænset omfang målretter deres undervisning i forhold til obliga-toriske og frivillige test, hvorimod den anden halvdel gør det i forskellig grad. Hovedkonklusioneni forhold til dette spørgsmål er, at evalueringen tegner et meget varieret billede af testenes på-virkning af undervisningen. En gruppe lærere målretter undervisningen, enten fordi de finder detnaturligt (da testene afspejler Fælles Mål), eller fordi de gerne vil have, at eleverne klarer siggodt, da der er fokus på resultaterne i de nationale test. Den anden gruppe omfatter de lærere,som meget bevidst ikke vil lade deres undervisning styre af de nationale test. En vigtig konklusi-on er i øvrigt, at teaching to the test (eller washback) er mere udbredt dels i udskolingen, og delspå skoler, hvor ledelsen har fokus på faglige resultater.Sammenfattende viser analysen afden pædagogiske anvendelse af de nationale test,at testenegenerelt anvendes i den danske folkeskole, men at de i dag primært anvendes summativt til atskabe overblik og til at bekræfte eksisterende viden. En række barrierer eksisterer – såvel gene-relle som fagspecifikke – i forhold til at styrke særligt den formative anvendelse af de nationaletest. Ser man på tværs af fagene, kan evalueringen entydigt konkludere, at dansk, læsning erden test, hvor skolerne/lærerne er længst fremme i arbejdet med at bruge resultaterne fremad-rettet. Dette skyldes ikke mindst testens særlige karakter, antallet af test hen over klassetrin,antallet af timer til rådighed i faget samt udviklingen af et supplerende analyseværktøj.I forhold tilelevernes oplevelse af de nationale tester evaluators samlede vurdering – base-ret på elevernes tilbagemeldinger, lærernes svar samt evaluators observationer – at eleverneEvaluering af de nationale test
116
overordnet set er positivt indstillede over for de nationale test. De it-baserede og adaptive test ergenerelt motiverende og udfordrende for eleverne, men der er også eksempler på, at testeneskaber stress og usikkerhed hos visse elever. Forskellig praksis på skolerne vedrørende afslutningaf testene, hvor nogle elever bliver færdige før andre og skaber en uhensigtsmæssig afvikling fornogle elever. En hovedkonklusion er endvidere, at eleverne hovedsageligt modtager kollektiv til-bagemelding fra lærerne om resultaterne af de nationale test, mens dialog med den enkelte elevom testresultater kun sker i begrænset omfang. Samtidig peger evalueringen på, at netop denindividuelle dialog med eleven om resultater af testene er afgørende for testenes betydning forelevernes bevidsthed om egne styrker og svagheder samt deres motivation for at omsætte denneviden til handling.Det er evaluators samlede vurdering, at de nationale test i nogen grad styrkerskole-hjem-samarbejdet.Evalueringen viser, at forældrene generelt set orienteres om tidspunkt for gen-nemførelse af de nationale test, samt at yderligere information om formål med og praktisk gen-nemførelse af de nationale test mv. typisk sker især den/de først(e) gang(e), eleverne skal gen-nemføre en national test. Forældrene modtager typisk skriftlig information om den enkelte elevsresultater gennem forældrebrev, som enten sendes hjem til forældrene eller udleveres ved skole-hjem-samtaler. En hovedkonklusion er, at resultaterne af de nationale test kun i begrænset om-fang anvendes til at opstille læringsmål for eleverne (i dialog med hjemmet), ligesom opfølgnin-gen herpå kun i nogen grad skrives ind i elevplanerne. Der synes således at være potentiale forat inddrage resultater af nationale test til opstilling af læringsmål i højere grad, end tilfældet er idag.Evalueringen belyser anvendelsen af de nationale test som værktøj for henholdsvisskolelederesog kommuners kvalitetsarbejde.Evalueringen viser, atskoleledernegenerelt gør brug af de nationale test, om end med betyde-lig variation. De orienterer sig i og analyserer testresultaterneover tidprimært på skole- og klas-seniveau. På de skoler, hvor skolelederne udtrykker høje faglige forventninger til eleverne, er deren tendens til, at skolelederne også orienterer sig i resultater på elevniveau. De nationale testindgår således til en vis grad som en del af skoleledernes kvalitetsarbejde. Evalueringen doku-menterer stor variation blandt skolerne i forhold til, dels om der er klare retningslinjer for brug afde nationale test, delshvordantestresultater anvendes. Nogle skoleledere bruger de nationaletest i meget begrænset omfang og fungerer primært som støttende for lærerne i forhold til detpraktiske arbejde, men uden at indgå i dialog med lærerne om testresultaterne. Andre skolelede-re bruger resultaterne til monitorering og overblik over det faglige niveau, mens en tredje gruppeaf skolelederehandler aktivtog lægger testresultaterne til grund for tildeling af ressourcer, æn-dret fagfordeling, sparring med lærere mv. Med udgangspunkt i de eksempler, hvor skoleledelsenmeget aktivt rammesætter og anvender de nationale test som en del af skoleledelsen (sammenmed øvrig evaluering), vurderer evaluator, at der er et uudnyttet potentiale for de nationale testpå en stor andel skoler, der med mere aktivt fokus på anvendelse af de nationale test vil kunnestimulere yderligere positive tiltag til at fremme elevernes faglige niveau. Endelig viser evaluerin-gen, at der blandt de danske skoleledere generelt er en positiv holdning til de nationale test ogtestenes potentialer. Det er dog de færreste, der finder, at testene er et værktøj til dialog med dekommunale forvaltninger.Evalueringen dokumenterer, atkommunernegenerelt stiller krav til skolernes faglige resultater.Kommunerne vurderer i den sammenhæng, at resultaterne af de nationale test er en væsentligindikator til at vurdere skolernes faglige resultater, men hovedkonklusionen af evalueringen er,at resultater fra de nationale test er ”en del af paletten”, som det udtrykkes af flere kommuner.Kommunerne interesserer sig således for skolernes faglige resultater (og vurderer også, at resul-tater er vigtigere end rammebetingelser og pædagogiske processer), men de nationale test erblot ét ud af flere værktøjer til at sammensætte et billede af en skoles faglige niveau. Evaluerin-gen viser endvidere stor variation på tværs af kommuner i forhold til anvendelsen af de nationaletest. Men det samlede billede er, at kommunerne overvejende bruger de nationale test som etmonitoreringsredskab, der kan skabe et overblik over faglige resultater. Omvendt er testresulta-ter sjældent omdrejningspunktet for kommunernes kvalitetsarbejde, hvor de inddrages i dialogmed skolelederne med henblik på fremadrettet pædagogisk handling. Det tyder på, at kommu-nerne i høj grad uddelegerer ansvaret for at opnå resultater i de nationale test til skolerne, hvil-Evaluering af de nationale test
117
ket tilsvarende gælder for opfølgningen herpå. Evalueringen viser, at der er et potentiale for atfremme evalueringskultur og positiv udvikling i elevernes faglige niveau ved en mere aktiv for-valtningsadfærd i dialog med skoleledere om, hvordan lederne fremmer evalueringskultur.Læs mere omtestenes anvendelsei kapitel 4, 5 og 6.9.1.3Testenes indhold
Evalueringstemaettestenes indholdomfatter en analyse af en række forhold relateret til det fag-lige indhold af de nationale test, der anvendes i de danske folkeskoler. Dertil kommer en analyse(baseret på litteraturstudier) af fordele og ulemper ved det adaptive princip ud fra et teknisk ogøkonomisk perspektiv.Generelt konkluderer evaluator, atvalg af testfagsamlet set synes hensigtsmæssigt. Dette erbaseret på, at testfagene hver for sig vurderes relevante og testegnede. Imidlertid er der knyttetspecifikke svagheder til flere af fagene.Evalueringen konkluderer, atvalg af profilområdergenerelt repræsenterer genkendelige og re-levante kernelementer i fagene, og det er en selvstændig pointe, at profilområderne på tværs affag i høj grad rummer testfagenes testbare områder. Heri ligger også en erkendelse af, at teste-ne langt fra dækker testfagene i deres helhed, hvilket da heller ikke var intentionen. I forlængel-se heraf viser evalueringen imidlertid, at der er en række fagspecifikke udfordringer i relation tilde nuværende profilområder, herunder særligt i matematik og fysik/kemi samt i begrænset om-fang i engelsk. Det samme gælder for testenes evne til via profilområderne at afspejle trinmålenefra Fælles Mål.En væsentlig hovedkonklusion er endvidere, at der inden for flere testfag er en udfordring i for-hold til mangel på svære opgaver i opgavebanken. En optælling af opgaver udført af evaluator vi-ser, at der er ganske få opgaver inden for flere profilområder. Det indebærer, at fagligt stærkeelever ”tømmer” opgaver med højeste sværhedsgrad og/eller møder de samme opgaver, fx i ob-ligatoriske og frivillige test.Antallet af opgaveri opgavebanken synes derfor at være en udfor-dring. Det skal dog understreges, at det ikke har været en del af evalueringens opdrag at foreta-ge en samlet vurdering af størrelsen af den samlede opgavebank.Endvidere påpeger evalueringen, at det generelt er en udfordring, at opgaveskabelonerne (somer rammen for udvikling af opgaver) ikke afspejler den teknologiske udvikling, der er sket siden2007. Evalueringen konstaterer tilsvarende, at der er behov for en gennemgang af udvalgte test-opgaver i forhold til at sikre hensigtsmæssig layout, grafik samt brug af illustrationer. Behovetfor forbedringer er dog mindst udtalt i dansk, læsning.Endelig viser evalueringen, at der er behov for at forbedre rammerne for opgaveudviklingen, bl.a.i form af systematisk uddannelse af opgaveudviklere samt stærkere tilknytning til forskning.De nationale test er baseret pådet adaptive princip,som betyder, at testen løbende tilpassesden enkelte elevs faglige niveau ved, at testen giver eleverne opgaver på baggrund af deres be-svarelse af de tidligere opgaver i testen. Evalueringen viser, at de nationale test med det adapti-ve princip sikrer en hurtigere og mere præcis fastlæggelse af elevernes faglige niveau. De adap-tive test giver en rapportering af elevernes niveau, der kan være vanskeligere at forstå end re-sultatrapportering fra lineære test. Evalueringen viser endvidere, at brug af adaptive test bety-der, at udvikling af opgaver til opgavebanken er betydeligt mere ressource- og omkostningskræ-vende end lineære test. Det gælder i relation til ministeriet og UNI-C samt aflønning af eksperter.Det gælder tilsvarende på skoler, der medvirker i afprøvning af opgaver, der skal analyseres iforhold til, om de lever op til de kvalitetskrav, som det kræver at indgå i opgavebanken for denationale test.Læs mere omtestenes indholdi kapitel 7.
Evaluering af de nationale test
118
9.1.4
Testenes udformning
Evalueringen har under temaettestenes udformningafdækket en række evalueringsspørgsmålvedrørende den praktiske tilrettelæggelse af de nationale test på skolerne, lærernes holdning tildet adaptive princip samt tilbagemeldingen til lærerne efter afvikling af testene.For så vidt angården praktiske tilrettelæggelse af de nationale test på skolerne,er denoverordnede konklusion, at tilrettelæggelse og afvikling af de nationale test generelt gennemfø-res tilfredsstillende. Det er således evaluators vurdering, at tidligere it-relaterede udfordringermed testafvikling ser ud til at være løst. Det specifikke tidsforbrug til testafvikling vurderes til-svarende ikke at være en udfordring for skolerne, og evaluator konkluderer, at der er en klartidsmæssig gevinst for lærerne ved at gennemføre de it-baserede nationale test sammenlignetmed papirbaserede test. Disse hovedkonklusioner er funderet i tilbagemeldinger fra lærere ogskoleledere på et meget stort antal skoler samt i evaluators observationer i forbindelse med ca-sestudier.De nationale test adskiller sig fra andre test i folkeskolen ved at gøre brug afdet adaptive prin-cip,hvor testen løbende tilpasser sig elevens niveau. Evaluator vurderer i denne sammenhæng,at størstedelen af lærerne ser det adaptive princip som en fordel for eleverne og deres testafvik-ling. Det er samtidig muligt at pege på en række ulemper relateret til elevernes oplevelse af test-situationen, men det er evaluators vurdering, at disse ulemper kan afhjælpes ved hjælp af tyde-ligere vejledning fra lærerens side. Samlet set vurderer evaluator, at de pædagogiske ulemperopvejes af de pædagogiske fordele, som karakteriserer det adaptive princip, herunder særligt ateleverne hver især udfordres på deres eget faglige niveau.Endelig viser evalueringen, at det ikke er muligt at konkludere entydigt, hvorvidt de forskelligeresultatvisninger i testsystemet bidrager til en hensigtsmæssigtilbagemelding til lærerne.Mange lærere angiver i spørgeskemaundersøgelsen, at de umiddelbart finder resultatvisningenbrugervenlig, men langt fra alle lærere gør brug af systemets mange muligheder, bl.a. fordi de ihøjere grad vælger at gøre brug af andre evalueringsværktøjer. Evalueringen konstaterer i øvrigtflere forbedringspunkter i resultatvisningen, der potentielt kan bidrage til den pædagogiske an-vendelse af resultaterne. Hovedkonklusionen er således, at den nuværende resultatvisning an-vendes, men den samlede vurdering er, at det fortsat kræver et relativt stort fortolknings- oganalysearbejde af den enkelte lærer for at få et udbytte af testresultaterne for den enkelte elev,hvilket udgør en barriere for lærerens omsætning af testresultater til praksis, i fremtidig tilrette-læggelse af undervisningen og undervisningsdifferentiering.Læs mere omtestenes udformningi kapitel 8.9.2Tværgående hovedkonklusionNedenfor foretager evaluator en samlet konklusion på tværs af temaer og datakilder.Det er evaluators samlede konklusion, at de nationale test har en positiv effekt på elevernes fag-lige niveau. De gennemførte analyser på elev-, skole- og landsniveau indikerer en positiv effektpå elevernes faglige udbytte. Det skal understreges, at det kun har været muligt at undersøgeeffekten af det midlertidige nedbrud i dansk, læsning. Samtidig vurderer evaluator, at evalue-ringskulturen er styrket i de danske folkeskoler i de senere år. Indførelsen af de nationale testhar i nogen grad været en medvirkende årsag til denne udvikling – primært som understøttendefor en generel udvikling hen imod stærkere dokumentation og systematik af undervisningspraksisog fagligt udbytte. En hovedkonklusion er dog samtidig, at det ikke er de nationale test alene,der har fremmet en stærkere evalueringskultur. Det er snarere mangfoldigheden af nationale oglokale initiativer inden for evaluering, deri samspilhar bidraget til denne udvikling. De nationaletest har således været en del af enskoleudvikling,der i højere grad end tidligere, er karakterise-ret ved systematik, dokumentation af resultater og (i nogen grad) fastsættelse af mål.Evalueringen viser, at selv om der kan konstateres positive sammenhænge og effekter af indfø-relsen af de nationale test, er der en række sammenhænge i evalueringensforandringsteori,derikke har vist sig at holde empirisk. Med andre ord dokumenterer evalueringen, at en række af deforventede resultater, der indgår i forandringsteorien, ikke realiseres i praksis. I forhold tildenpædagogiske anvendelseer en hovedkonklusion, at de nationale test i dag i langt overvejendeEvaluering af de nationale test
119
grad anvendes summativt ogikkeformativt forstået som fremadrettet anvendelse af testresulta-ter til planlægning af undervisningen. Tilsvarende er antagelserne om styrket skole-hjem-samarbejde og bedre dialog med den enkelte elev om fremadrettede læringsmål som følge af denationale test udfordret i praksis. Evalueringen viser endvidere, at de nationale test tillægges be-tydelig vægt af såvel skoleledere som kommuner i deres kvalitetsarbejde. Det generelle billede erimidlertid, at skolelederne som hovedregel anvender testresultater til at skabe overblik over detfaglige niveau, men sjældnere som omdrejningspunkt for dialog med såvel lærere som forvalt-ning om den videre skoleudvikling. Evalueringen viser videre, at der på visse områder er forskel-lige opfattelser blandt særligt lærere og skoleledere af dels betydningen af de nationale test ogdels, hvordan de respektive aktører arbejder med test og evaluering. Disse forskelle kan havebetydning for forudsætningerne for at udvikle enfællesevalueringskultur på de enkelte skoler.Ovenstående betyder ikke, at de forventede forandringer som følge af indførelse af de nationaletest ikke finder sted. Evalueringen har dokumenteret stor variation i måden, hvorpå man anven-der de nationale test i kommuner, på skoler og af den enkelte lærer. Vi har afdækket flere ek-sempler på skoler, hvor forandringsteorien”holder i praksis”.Det vil sige skoler med en skolele-delse med tydelig fokus på faglige resultater, og hvor de nationale test spiller en betydelig rollefor både skoleledere og for lærerne i deres pædagogiske praksis.Dokumentationen af positive effekter af de nationale test på den ene side og betydelige mangler ianvendelsen af de nationale test på den anden side (som forudsat i lovgivningen) får samtidigevaluator til at konkludere, at der synes at være et potentiale for stærkere effektskabelse frem-adrettet. Dette underbygges med en række af gode eksempler, jf. ovenfor.Samtidig vurderer evaluator, at den dokumenterede effekt inden for dansk, læsning bl.a. kan til-skrives, at lærerne i dansk har haft nogle andre muligheder for at anvende de nationale test ilæsning hensigtsmæssigt (og i mange tilfælde også formativt). Det gælder dels karakteristikaved testen i dansk, læsning (hyppigheden, et velafgrænset fokus på læsefærdigheder, kvalitetenaf opgaverne), men det spiller også ind, at læseområdet har haft fokus i mange år i den danskefolkeskole. Der er fagdidaktiske miljøer på skolerne, lærerne understøttes ofte af læsevejledere,og der er supplerende evalueringsværktøjer til rådighed. Med andre ord harforudsætningerneforat bruge de nationale test som pædagogisk værktøj i dansk, læsning været mere gunstige end iandre testfag. På den baggrund vurderer evaluator, forenklet fremstillet, at forandringsteorien”holder” for så vidt angår dansk, læsning. Det er derfor sandsynligt, at effekten på elevernesfærdigheder i nogen grad kan tilskrives den pædagogiske indsats, som lærerne har været an-svarlige for.Det skal afslutningsvis understreges, at data til nærværende evaluering er indsamlet over en pe-riode fra ultimo 2012 og til og med foråret 2013. Tilsvarende har der været anvendt registerdataover en relativt kort tidsperiode. På denne baggrund konstaterer evaluator, at de nationale testhar været implementeret over få år, hvorfor de mere langsigtede effekter i forandringsteorien gi-vetvis endnu ikke kan registreres. En fortsat gennemførelse af de nationale test med stærkt fo-kus på implementering i henhold til intentionerne vil sandsynligvis medvirke til, at de nationaletest i de kommende år bliver mere virkningsfulde. Tilsvarende vil det blive muligt at indhente da-ta over en længere tidsperiode, hvorfor effektvurderinger kan blive mere robuste og nuancerede.9.3PerspektiveringDette afsluttende afsnit indeholder en perspektivering af evalueringens hovedkonklusioner. For-målet med perspektiveringen er at pege på en række opmærksomhedspunkter, som evaluatorfinder væsentlige i forhold til den videre udvikling af de nationale test. Opmærksomhedspunkter-ne er funderet i de data, som evaluator har indhentet som led i evalueringen.
Evaluering af de nationale test
120
De nationale test som pædagogisk redskabEvalueringen dokumenterer, at de nationale test generelt bruges af lærerne i den danske folke-skole. Testene bruges – som det var intentionen – som et pædagogisk værktøj, om end primærttil at skabe overblik over klassens og elevernes faglige niveau og i mindre grad til den fremadret-tede tilrettelæggelse af undervisningen.I det videre arbejde med de nationale test synes der således at være et potentiale i forhold til atunderstøtteden formative anvendelseaf de nationale test. Evaluator ønsker at pege på følgendeopmærksomhedspunkter, der potentielt kan bidrage til at styrke den pædagogiske anvendelse afde nationale test.Styrket ledelse: Evalueringen viser, at skoleledelsen kan spille en væsentlig rolle, hvis man øn-sker at understøtte brugen af de nationale test som et pædagogisk redskab. De skoler, der erkommet længst i arbejdet med at udvikle en evalueringskultur, har en ledelse, der klart og tyde-ligt har rammesat brugen af de nationale test. Det er entydigt for lærerne på disse skoler, at te-stene er et evalueringsværktøj, der tillægges værdi. Ledelsen har her fokus på opfølgning på re-sultatet i form af løbende dialog med medarbejderne. Denne dialog danner grundlag for fremad-rettede pædagogiske og organisatoriske beslutninger for både lærere og ledelse.På dette grundlag synes der at ligge et stort potentiale i at få alle skoleledere til i endnu højeregrad at arbejde systematisk og dialogisk med evaluering og evalueringsresultater (herunder nati-onale test), således at ledelsesmæssige beslutninger kan ske på et oplyst grundlag.Styrket vejledning, bl.a. fra ressourcepersoner: Flere lærere i evalueringen peger på, at de fort-sat ser en udfordring i at oversætte resultaterne af de nationale test til pædagogisk praksis. Deter med andre ord vanskeligt for mange lærere at gå fra den summative til den formative anven-delse.Et af målene med den kommende reform af folkeskolen er en præcisering og forenkling af FællesMål med henblik på udarbejdelse af læringsmål, der sætter elevernes læringsudbytte tydeligere icentrum100. Tydelige mål for elevernes læring skal bidrage til at øge det faglige niveau. Resulta-terne fra de nationale test kan i den sammenhæng være en væsentlig indikator på elevens fagli-ge niveau inden for dele af Fælles Mål.På baggrund af evalueringen er der tydelige indikationer på, at ressourcepersoner/faglige vejle-dere kan bidrage til at understøtte de refleksioner og dialoger, der ligger i arbejdet med at for-mulere tydelige (lærings)mål, at dokumentere fagligt udbytte og ikke mindst at forholde sig tilpædagogisk praksis. Dvs. på baggrund af testresultatet at hjælpe læreren med at se den enkelteelev og de faglige styrker/udfordringer han/hun har, samt vejlede til at finde frem til den rettepædagogiske indsats/undervisning/undervisningsmaterialer.I den sammenhæng synes det oplagt at trække på de erfaringer, som der er gjort særligt på læ-seområdet i kommuner og på skoler over hele landet. Dog er der også gode erfaringer fra andretestfag. Et væsentligt opmærksomhedspunkt er således, at lærerne har brug for vejledning til atomsætte testresultater (og resultater fra anden evaluering) til pædagogisk praksis. Herigennemstyrkes mulighederne for videndeling tilsvarende.Antallet af test: På baggrund af evalueringen kan det konstateres, at antallet af test inden forhvert fag spiller en rolle for lærernes (mulighed for) pædagogisk anvendelse af testen. Dettefremgår tydeligst på læseområdet, hvor der gennemføres flest nationale test, og hvor man gene-relt er længst fremme i forhold til at arbejde formativt med testresultaterne.Som begrundelse for fravalg af de nationale test som pædagogisk værktøj peger flere lærerenetop på, at testen gennemføres for sjældent til at give mening som et (pædagogisk) redskab,der kan danne grundlag for henholdsvis løbende monitorering og fremadrettet anvendelse. De fo-
100
Aftale mellem regeringen (Socialdemokraterne, Radikale Venstre og Socialistisk Folkeparti), Venstre og Dansk Folkeparti om et fag-
ligt løft af folkeskolen (7. juni 2013).Evaluering af de nationale test
121
retrækker at teste oftere, så de løbende og kontinuerligt kan følge elevernes faglige udvikling el-ler mangel på samme og efterfølgende kan tilrettelægge en undervisning på baggrund heraf.Dertil kommer, at visse af testene i dag er placeret på (for nogle lærere) uhensigtsmæssige klas-setrin, som fx matematik i 6., hvor flere lærere afgiver klassen og derfor ikke har tid til og mulig-hed for at anvende resultatet som grundlag for den fremadrettede planlægning. Et andet eksem-pel er test inden for flere naturfag i 8. klasse, hvor der er meget kort tid til opfølgning, inden ele-verne ophører med at have faget/forlader folkeskolen.Fra skoleåret 2014/2015 vil eleverne i henhold til folkeskolereformen skulle undervises i engelskfra 1. klasse. Der vil derfor gå syv år (seks år, hvis de frivillige test tælles med), før lærerne harde nationale testresultater til rådighed som pædagogisk værktøj. Denne lærergruppe er i forvejenmeget positive over for testen, og det må formodes, at der vil være en stor interesse for – oganvendelse af – en national test tidligere i skoleforløbet.På baggrund af evalueringens resultater samt de kommende ændringer af folkeskolen vurderesdet relevant at overveje antallet af test inden for de forskellige fag, herunder placering på klasse-trin, med henblik på at understøtte den pædagogiske anvendelse af testresultaterne.Bedre resultatvisninger: Hvis brugen af de nationale test som pædagogisk redskab skal styrkes,er det værd at overveje, hvordan mulighederne for resultatvisninger kan styrkes. Evalueringenviser, at det er ikke nok i forhold til at sikre pædagogisk anvendelse, at lærerne er i stand til atnavigere rundt på testsystemets hjemmeside og forstå resultaterne umiddelbart. Der synes atvære et behov for forholdsvis let ikke kun at udpege fx elever med faglige udfordringer, herunderogså hvilke faglige udfordringer der er tale om. Mange lærere oplever, at det er omstændeligt atfå et præcist billede af den enkelte elevs faglige profil, der efterfølgende vil kunne danne grund-lag for fx holddannelse eller individuelle undervisningstiltag. Det kræver reelt, at læreren går indi systemet og åbner hver enkelt testopgave. Derudover efterlyses der en mulighed for at kunnegruppere eleverne inden for de faglige temaer, hvor de måtte have udfordringer/styrker.Der synes således at være et potentiale i forhold til at videreudvikle de eksisterende funktionali-teter i resultatvisningen, der i højere grad kan understøtte den fremadrettede pædagogiske an-vendelse.I forlængelse heraf skal det nævnes, at de nationale test vil blive teknisk omlagt i forbindelsemed den kommende reform af folkeskolen, så de kan anvendes af lærerne som et pædagogiskredskab til at vurdere elevernes kompetenceniveau og progression i forhold til på forhånd fastlag-te faglige kriterier (i dansk og matematik).De nationale test som styringsværktøjEvalueringen viser, at såvel skoleledere som kommuner gør brug af resultaterne af de nationaletest som styringsværktøj, men at der samtidig er meget stor variation i graden af anvendelse.Det er på den baggrund en hovedkonklusion, at brugen af de nationale test som styringsværktøjkan styrkes betydeligt, så testene i højere grad indgår i skolelederes og kommuners kvalitetsar-bejde.Det fremadrettede arbejde med at styrke de nationale test som styringsværktøj kan bl.a. byggevidere på de gode eksempler, der allerede findes. Evalueringen har dokumenteret flere eksemplerpå kommuner og skoler, hvor de nationale test indgår som en væsentlig del af arbejdet med atformulere faglige mål, løbende og systematisk dialog samt konkrete handlinger baseret på test-resultater.Evaluator konstaterer, at det som led i folkeskolereformen er en ambition dels at bruge de natio-nale test som styringsværktøj i relation tilnationale målfor folkeskolen, og dels at omlægge denationale test til såkaldtekriteriebaserede test,jf. ovenfor. Sidstnævnte kanumiddelbartskabebedre forudsætninger for at bruge de nationale test som led i skolelederes og kommuners kvali-tetsarbejde, da det i princippet vil være lettere at følge op på formulerede målsætninger (natio-nalt, kommunalt og på forskellige niveauer på den enkelte skole).
Evaluering af de nationale test
122
Der er imidlertid også flere potentielle ulemper, der bør imødegås ved en sådan omlægning. Enbekymring kan være overdreven fokus på den styringsmæssige dimension, der kan føre til øgetsnyd med testene. En anden bekymring kan være, at lærerne satser på at løfte de elever, derligger tæt på de nationalt eller lokalt fastsatte kriterier for fx ”en god læser” – og dermed undla-der at bruge testresultater til at fokusere på den enkelte elevs styrker og svagheder og tilrette-lægge en differentieret undervisning.Med andre ord er det et væsentligt opmærksomhedspunkt, at overdreven brug af testresultater ien styringsoptik kan komme i modstrid med den oprindelige intention relateret til at bruge teste-ne som et pædagogisk redskab. Flere amerikanske forskningsstudier peger på uhensigtsmæssigekonsekvenser af brugen af test101.Et yderligere opmærksomhedspunkt knytter sig til kravet i folkeskoleloven om, at testresultaterer fortrolige. Kravet om fortrolighed medfører, at der i nogle tilfælde er usikkerhed om, hvordantestresultater kan anvendes. Det gælder dog særligt som styringsværktøj, når testresultater ag-gregeres og skal anvendes af skoleledelsen og de kommunale forvaltninger. Konsekvensen er inogle tilfælde, at testresultaterikkeelleri begrænset omfanganvendes (fx i relation til dels sko-lebestyrelse, dels kommunalbestyrelse) med henvisning til fortrolighedsprincippet. Fremadrettetsynes der at være behov for tydeligere retningslinjer for og vejledning til, hvordan nationale test-resultater må og kan anvendes proaktivt. Dette skal bidrage til, at kvalitetsudvikling af skoler ogdet kommunale skolevæsen sker i en dialog baseret på dokumentation og ikke, som det har væ-ret fremhævet, ud fra”principper om lukkethed”.Brug de gode eksemplerEvaluator har ovenfor fremhævet potentialet for styrket brug af de nationale test – både pæda-gogisk og som styrings- og dialogværktøj. Grundlaget for dette er de gode eksempler, som eva-luator har mødt i forbindelse med analysearbejdet. De gode eksempler findes derude i de kom-munale forvaltninger, på skolerne og i klasseværelserne. Det er derfor relevant at overveje, at degode eksempleri hele styringskædenspredes og mangfoldiggøres. Mange forvaltninger, ledereog lærere har fortsat ikke set mulighederne i de nationale test. Der ligger et stort formidlings- ogvejledningsarbejde i at få disse aktører til at se potentialerne.Brugen af det adaptive principEvalueringen peger på, at brugen af det adaptive princip i de nationale test har en række fordele.Dette gælder dels pædagogisk såsom hurtigere og mere præcis fastlæggelse af elevernes fagligeniveau, og dels en bedre oplevelse for eleverne for såvel fagligt svagere som fagligt stærkereelever.Evalueringen peger dog også på, at formidlingen af testresultater er en udfordring, fordi den ikkeer intuitiv, enkel og let forståelig for elever og forældre. Der kan derfor være et perspektiv i atvurdere mulighederne for at understøtte lærernes samarbejde med elever og forældre med enlettere resultatvisning, der i højere grad kan understøtte dialogen.Endelig viser evalueringen, at brugen af det adaptive princip i de nationale test kræver betydeligressourceanvendelse, idet alle opgaver, der udvikles eller ændres bare det mindste, skal gen-nemgå en meget ressourcekrævende afprøvning og Rasch-test. Denne proces tager ifølge eva-luators oplysninger ca. et år. Med udgangspunkt i dette opmærksomhedspunkt kan der eventueltvære perspektiv i at benytte den tilgang, der er fremhævet i det internationale litteraturstudiesom en mulighed: At afprøve opgaver som en del af selve testafviklingen, hvor eleverne stillesopgaver under afprøvning blandt selve testopgaverne, uden at opgaverne under afprøvning med-regnes i elevernes testresultat.Udvikling af kvaliteten af opgaver fra de nationale testEvalueringen viser, at valg af henholdsvis testfag og profilområder generelt har været hensigts-mæssige. Imidlertid peger evalueringen på, at der er flere udfordringer knyttet til testopgavernes101
Left Behind by Design: Proficiency Counts and Test-Based Accountability. Review of Economics and Statistics 92, 263-283, Neal, D.
and D. W. Schanzenbach, 2010, Teaching to the rating: School accountability and the distribution of student achievement. Journal ofPublic Economics 92: 1394:1415, Reback, R., 2008.Evaluering af de nationale test
123
kvalitet samt opgavebankens størrelse. Evaluator er i den forbindelse opmærksom på, at der lø-bende arbejdes på at udvikle kvaliteten af opgavebanken, herunder at der er tale om en ressour-cekrævende proces, når opgaver skal ændres, jf. ovenfor.I forhold til den fremtidige udvikling af opgavernes kvalitet er det et generelt opmærksomheds-punkt, atløbende kvalitetsudvikling/-sikringaf opgavebanken skal prioriteres. Høj kvalitet af deopgaver, der anvendes i de nationale test, er en forudsætning for, at testene opfattes som valide,genkendelige og ikke mindst anvendelige af alle aktører, hvad enten testresultater skal bruges ipædagogiske eller styringsmæssige sammenhænge.Et særligt opmærksomhedspunkt, som vurderes at kunne bidrage til kvaliteten af opgavebanken,er en øget professionalisering af arbejdet med at udvikle opgaver/items. Det kunne være via (ef-ter)uddannelse af opgaveudviklere samt tættere kobling til den nyeste forskning.Fokus på elevernes læringEvalueringen viser, at eleverne overordnet set er positive over for de nationale test. En hovedud-fordring er imidlertid, at eleverne typisk modtager kollektiv tilbagemelding fra lærerne om testre-sultater. Denindividuelletilbagemelding til eleverne om styrker og svagheder samt overvejelserom fremadrettede forbedringspotentialer er således mangelfuld.Der synes på baggrund af evalueringen at være perspektiver i fremadrettet at fokusere på, hvor-dan de nationale test kan bidrage til at formulere læringsmål ikke blot for klassen, men også forog med den enkelte elev. Med folkeskolereformen in mente kan de nationale test i højere gradbidrage til at sætte elevernes læring i centrum – både som grundlag til at formulere fremadrette-de mål og som redskab til at dokumentere udviklingen i læringsudbytte. En tydeligere ramme-sætning fra skoleledelsens side samt videndeling om/vejledning til lærere vedrørende arbejdetmed at omsætte testresultater til læringsmål synes at være relevante opmærksomhedspunkter iden fremadrettede udvikling af de nationale test.
Evaluering af de nationale test