BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Børne- og Undervisningsudvalget 2019-20
BUU Alm.del Bilag 82
Offentligt

Evalueringen af de nationale test

Tværgående evalueringsrapport

Lasse Hønge Flarup

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Evalueringen af de nationale test – Tværgående evalueringsrapport

e-ISBN: 978-87-7119-740-2

Arkivfoto: Lars Degnbol/VIVE

Projekt: 301403

VIVE – Viden til Velfærd

Det Nationale Forsknings- og Analysecenter for Velfærd

Herluf Trolles Gade 11, 1052 København K

www.vive.dk

VIVEs publikationer kan frit citeres med tydelig kildeangivelse.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Forord

Folketinget vedtog i marts 2006 indførelsen af de nationale test. Den første obligatoriske test-

runde blev gennemført i foråret 2010. De nationale test var ét blandt flere elementer i et lov-

forslag fra december 2005 om fornyelse af folkeskolen for at forbedre det faglige niveau blandt

eleverne gennem styrket, løbende evaluering i folkeskolen.

Børne- og Undervisningsministeriet igangsatte evalueringen af de nationale test med udgangs-

punkt i to overordnede undersøgelsesspørgsmål på baggrund af anbefalinger fra den nedsatte

rådgivningsgruppe:

Evalueringens to undersøgelser

En analyse af den statistiske usikkerhed, reliabiliteten og øvrige måleegenskaber forbundet med de

nationale test.

En undersøgelse af betydningen og brugen af de nationale test.

Rådgivningsgruppen har udarbejdet forslag til de samlede undersøgelsesspørgsmål, der er

afgivet til Børne- og Undervisningsministeriet. Ministeriet har med en enkelt tilføjelse om ”fage-

nes formål” bedt Styrelsen for It og Læring (STIL) og VIVE – Det Nationale Forsknings- og

Analysecenter for Velfærd om at udarbejde henholdsvis første og anden undersøgelse. VIVE

har endvidere haft til opgave at sammenfatte en kvalitetssikring af STILs tekniske beregninger

og analyser af de nationale test gennem et forskerreview.

Evalueringen bygger på en kombination af STILs dokumentation, registerdata, en systematisk

litteratursøgning, interview, observationer, surveydata og workshops.

Evalueringen af de nationale test består af seks rapporter og en bilagsrapport: én tværgående

evalueringsrapport og fem delrapporter, der omhandler hvert sit emne, samt en bilagsrapport

til delrapport 5. Chefanalytiker Lasse Hønge Flarup er projektleder på evalueringen af de nati-

onale test og har udarbejdet den tværgående evalueringsrapport med udgangspunkt i de fem

delrapporter:

Delrapport 1:

Review af evalueringen af de statistiske aspekter ved de nationale test

Af forsker Peter Rohde Skov og chefanalytiker Lasse Hønge Flarup

Delrapport 2:

De nationale tests samvariation med karakterer

Af forsker Peter Rohde Skov og chefanalytiker Lasse Hønge Flarup

Delrapport 3:

Kortlægning af sammenlignelige test

Af forsker Tine Louise Mundbjerg Eriksen, chefanalytiker Lasse Hønge Flarup og forsker

Peter Rohde Skov

Delrapport 4:

De nationale tests sammenhæng med fagenes formål

Af senioranalytiker Martin Foldager Hindsholm, analytiker Niels Westermann Brændgaard

og chefanalytiker Lasse Hønge Flarup

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Delrapport 5:

Anvendelsen af de nationale test inkl. bilagsrapport

Af seniorforsker Bente Bjørnholt, chefanalytiker Lasse Hønge Flarup, senioranalytiker Mar-

tin Foldager Hindsholm, analytiker Niels Westermann Brændgaard, praktikant Christina

Munkholm Andersen, forsker Niels Bjørn Grund Petersen og forsker Sidsel Vive Jensen.

Bibliotekar Anne Nørgaard-Pedersen har stået for litteratursøgningen. Studenterne Cecilia Juel

Schlosser, Emilie Hestbæk Jacobsen, Amalie Damgaard Johansen, Clara Maria Pedersen,

Helene Kni Rasmussen, Sara Lentz Jørgensen, Anders Winkler, Cecilie Bundgaard Lohse,

Cianne Isabel, Emil Bakkensen Johansen, Helena Elisabeth Ravn, Julie Lund Hansen, Karl

Magnus Møller, Matthias Røy Wagner, Sofie Jarlstrøm Clausen samt videnskabelig assistent

Ronja Rosenberg Grøn har bidraget til dataindsamling og databehandling.

Rapporterne har været i eksternt review og er blevet kvalitetssikret af forskere og praktikere på

feltet. Rapporterne er endvidere kvalitetssikret af forsknings- og analysechef Carsten Strøm-

bæk Pedersen, udviklingsdirektør Mette Deding, forskningsdirektør Torben Tranæs og forsk-

nings- og analysechef Mads Leth Jakobsen.

Vi takker for værdifulde kommentarer fra de tilknyttede medarbejdere fra Børne- og Under-

visningsministeriet. Vi takker desuden de mange forvaltningschefer, forskere, opgavekommis-

sionsmedlemmer, politikere, skoleledere, lærere, elever og forældre, der har deltaget i under-

søgelsen gennem spørgeskemaer, interview, workshops. Uden deres deltagelse ville disse

rapporter ikke have været mulige.

Carsten Strømbæk Pedersen

Forsknings- og analysechef for VIVE Børn og Uddannelse

2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Indhold

Evalueringen af de nationale test .............................................................. 6

1.1

1.2

Formål ........................................................................................................... 6

Læsevejledning ............................................................................................. 8

Sammenfatning af evalueringen af de nationale test ................................. 9

2.1

2.2

Tværgående perspektivering ........................................................................ 9

Tværgående resultater ............................................................................... 11

De nationale test ..................................................................................... 24

3.1

3.2

Baggrund .................................................................................................... 24

Testenes indhold......................................................................................... 25

Litteratur........................................................................................................... 30

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Evalueringen af de nationale test

Børne- og Undervisningsministeriet igangsatte evalueringen af de nationale test med udgangs-

punkt i to overordnede undersøgelsesspørgsmål på baggrund af anbefalinger fra den nedsatte

rådgivningsgruppe:

Evalueringens to undersøgelser

En analyse af den statistiske usikkerhed, reliabiliteten og øvrige måleegenskaber forbundet med de

nationale test.

En undersøgelse af betydningen og brugen af de nationale test.

Rådgivningsgruppen har udarbejdet forslag til de samlede undersøgelsesspørgsmål, der er

afgivet til Børne- og Undervisningsministeriet. Ministeriet har med en enkelt tilføjelse om ”fage-

nes formål” bedt STIL og VIVE om at udarbejde henholdsvis første og anden undersøgelse.

VIVE har dog også til opgave at sammenfatte en kvalitetssikring af STILs tekniske beregninger

og analyser af de nationale test gennem et forskerreview.

Denne rapport er den tværgående delrapport i VIVEs samlede evaluering af de nationale test.

Evalueringen er både summativ og formativ og danner grundlag for en redegørelse til Folke-

tinget, ligesom den danner grundlag for, at rådgivningsgruppen udarbejder anbefalinger. Det

summative sigte har til formål at se på resultaterne af brugen af de nationale test. Det formative

sigte anvendes med henblik på, at den viden, evalueringen bibringer, kan indgå i de valg, der

træffes om den fremadrettede brug og udvikling af de nationale test. VIVEs evaluering af de

nationale test belyser styrker såvel som svagheder i indholdet og brugen af de nationale test i

folkeskolen.

1.1

Formål

Denne tværgående rapport samler resultaterne fra evalueringen af de nationale test. Evalue-

ringen har til formål at belyse styrker såvel som svagheder omkring indholdet og brugen af de

nationale test i folkeskolen samt give et vidensgrundlag, der kan danne afsæt for det fremad-

rettede arbejde med udvikling og brug af de nationale test i folkeskolen. Evalueringen svarer

konkret på følgende, overordnede undersøgelsesspørgsmål:

Undersøgelsesspørgsmål

Har de nationale tests indhold og udformning styrket skolernes evalueringskultur og derigennem

elevernes faglige niveau?

Evalueringen af de nationale test kan groft sagt deles ind i to aspekter – der ser på henholdsvis

indholdet og anvendelsen. Undersøgelsen af indholdet af de nationale test består af fire sepa-

rate undersøgelser, der sætter fokus på forskellige aspekter af testenes egenskaber. Under-

søgelsen af anvendelsen af de nationale test ser på, hvordan aktører på alle niveauer anvender

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

testenes resultater. VIVE har struktureret besvarelsen i følgende fem delrapporter samt en

tværgående evaluering.

Tværgående

evaluering

Delrapport 1 -

Tekniske aspekter af

testene

Delrapport 2 -

Samvariation med

karakterer

Delrapport 3 -

Sammenlignelige test

Delrapport 4 -

Sammenhæng med

fagenes formål

Delrapport 5 -

Anvendelsen af

testene

De fire første delrapporter omhandler primært egenskaber ved de nationale test og sammen-

lignelige test, mens delrapport 5 omhandler anvendelsen af testene til evaluering. Nedenstå-

ende figur illustrerer indholdet af de fem delrapporter.

Datagrundlag

Den tværgående evaluering

baseres primært på de fem delrapporter samt materiale

vedrørende baggrunden for udviklingen af de nationale test og materiale udarbejdet i for-

bindelse med de nationale test af Børne- og Undervisningsministeriet. Delrapporterne re-

fererer desuden løbende til hinanden og inddrager relevant viden på området. De fem

delrapporter baseres på en kombination af forskellige datakilder. Datakilderne uddybes i

de enkelte delrapporter. Herunder beskrives de kort:

Delrapport 1

baseres på Styrelsen for It og Lærings evaluering af de statistiske aspekter

af de nationale test samt fire forskere på områdets review af samme evaluering.

Delrapport 2

baseres primært på registerdata for de nationale test og karakterer i folke-

skolens afgangsprøver.

Delrapport 3

baseres på en systematisk litteratur- og testsøgning i online databaser og

hjemmesider.

Delrapport 4

baseres på registerdata over samtlige aktive opgaver i de nationale test

samt kvalificerende workshops med medlemmer af de opgavekommissioner, der udvikler

opgaverne.

Delrapport 5

baseres på spørgeskemadata fra lærere, skoleledere, kommunale forvalt-

ninger, forskere, spørgeskemadata fra evalueringen af de nationale test i 2013, observa-

tionsdata fra elever og lærere, interviewdata fra elever, lærere, vejledere, skoleledere,

skolebestyrelsesformænd, kommunalforvaltninger, kommunalpolitikere, folketingspoliti-

kere, workshopdata fra medarbejdere i Børne- og Undervisningsministeriet, testdata om

de nationale test.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Delrapport

Undersøgelsesspørgsmål

Indhold

1. Review af

evalueringen af

de statistiske

aspekter ved de

nationale test

• Har STIL på tilfredsstil-

lende vis besvaret rådgiv-

ningsgruppens evalue-

ringsspørgsmål om de na-

tionale tests statistiske

usikkerhed, reliabilitet og

øvrige måleegenskaber?

Sammenfatter eksterne revieweres be-

dømmelse af STILs gennemgang af de

tekniske aspekter af de nationale test.

Undersøger testenes statistiske usikker-

hed, validitet, reliabilitet og øvrige måle-

egenskaber.

2. De nationale

tests samvaria-

tion med karak-

terer

• Hvad er samvariationen

mellem elevers præstatio-

ner i testene og karakterer

i 8. og 9. klasseprøverne?

Undersøger og giver svar på samvariati-

onen mellem elevers resultat i de natio-

nale test og samme ele ver i folkesko-

lens 8. og 9. klasseprøver. Undersøger,

hvor valide testene er på gruppeniveau.

3. Kortlægning

af sammenligne-

lige test

• Hvilke test findes, der i for-

mål, indhold og omfang

minder om de danske nati-

onale test?

Kortlægger nationale og internationale

test på baggrund af en række karakteri-

stika. Undersøger andre tests karakteri-

stika sammenlignet med de nationale

test og giver et overordnet billede af

testlandskabet til inspiration.

4. De nationale

tests sammen-

hæng med fage-

nes formål

• I hvilket omfang er der

sammenhæng mellem de

nationale test og de cen-

trale dele af faget og fage-

nes formål jf. Fælles Mål?

Undersøger sammenhængen mellem

opgaverne i de nationale test og Fælles

Mål for de fire obligatoriske testfag:

dansk (læsning), matematik, engelsk og

fysik/kemi.

5. Anvendelsen

af de nationale

test

• Hvordan opleves de natio-

nale test som evaluerings-

redskab?

• Hvordan bruges de natio-

nale test i dialogen og op-

følgningen på tværs af lo-

kale politikere, forvaltning,

skoleledere, lærere, elever

og forældre?

Undersøger, hvorvidt og hvordan de na-

tionale test anvendes som evaluerings-

redskab alene og i sammenhæng med

andre datakilder og evalueringer på na-

tionalt, kommunalt og skoleniveau. Fo-

kus er særligt, hvorvidt og hvordan nati-

onale test understøtter en evaluerings-

kultur inden for og på tværs af niveauer.

1.2

Læsevejledning

Rapporten er inddelt i tre kapitler. Kapitel 1 beskriver overordnet designet af evalueringen af

de nationale test. Kapitel 2 beskriver de tværgående perspektiver af evalueringen og sammen-

fatter resultaterne af de enkelte delrapporter. Kapitel 3 beskriver de nationale tests baggrund

og indhold.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Sammenfatning af evalueringen af de

nationale test

Evalueringen af de nationale test afrapporteres i fem selvstændige, men forbundne delrappor-

ter. Hver delrapport har selvstændige analyser og afdækker selvstændige undersøgelses-

spørgsmål. Der er dog en række temaer, der bliver berørt i flere af delrapporterne.

Sammenfatningen i den tværgående rapport deles op i to underkapitler. Det første underkapitel

2.1 indeholder de tværgående og overordnede konklusioner, som evalueringen som en samlet

analyse har fundet frem til. Det andet underkapitel 2.2 indeholder en sammenfatning af resul-

taterne fra hver delrapport. For en mere fyldig gennemgang af resultaterne og analyserne hen-

vises til de konkrete delrapporter.

2.1

Tværgående perspektivering

Den tværgående perspektivering samler op på evalueringens fund og sætter dem ind i en fæl-

les kontekst. Den tværgående perspektivering er udtryk for VIVEs samlede vurdering på bag-

grund af de indsamlede data og de gennemførte analyser.

De nationale test er en typisk test …

De nationale test er én faglig test blandt mange forskellige faglige test og prøver i grundskolen.

Faglige test måler områder inden for et fag og ikke hele faget eller alle aspekter af et fags

formål. Folkeskolens afgangsprøver dækker heller ikke alle aspekter af fagene. De nationale

test måler tilsvarende kun de dele af faget, som der testes i. De er således ikke udtryk for

elevers fulde kunnen inden for et fag, men et udtryk for deres kunnen inden for de områder,

der testes i. Og det ved praktikerne godt. Resultaterne fra de nationale test anvendes derfor

primært som én videnskilde blandt flere supplerende videnskilder, ligesom Børne- og Under-

visningsministeriets vejledninger til de nationale test også beskriver anvendelsesmulighe-

derne.

Alle tests resultater er forbundet med en grad af usikkerhed. Og denne usikkerhed er forbundet

med testens evne til at måle præcist og til at måle det, den er designet til at måle. De nationale

tests resultater er også forbundet med usikkerhed.

… og en atypisk test

De nationale test har nogle karakteristika, der gør dem specielle i sammenligning med andre

test. Både i Danmark, og når man sammenligner med andre landes erfaringer.

De nationale test har et dobbelt formål, der er rettet mod både pædagogisk brug og brug som

styringsredskab. Det gør testen speciel sammenlignet med flertallet af andre test i ind- og ud-

land.

Det adaptive princip, hvor testen tilpasser opgavers sværhedsgrad til eleven, er også relativt

sjældent. Der er ikke andre test i Danmark, der gør det samme, og meget få test i udlandet.

Det er derfor ikke en testform, der på nuværende tidspunkt er meget erfaring med fra andre

steder end de danske nationale test.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Validitetsdiskussionen om de nationale test fylder

Diskussionen vedrørende de nationale tests validitet og reliabilitet fylder og har fyldt meget

både i medier og i praksis. Evalueringen indikerer, at diskussionen har givet anledning til tvivl

hos praktikerne, hvilket har haft betydning for deres syn på testene og deres anvendelsespo-

tentiale. Man står i en venteposition, hvor man er i tvivl om, hvorvidt man kan stole på resulta-

terne eller ej.

Evalueringen viser, at de nationale test er usikre, når det kommer til den enkelte elevs resultat.

Usikkerhed på elevniveau er forventeligt blandt lignende test. Der findes dog meget lidt viden

om, hvor usikre andre test er på elevniveau, da området er relativt uudforsket og vanskeligt at

sammenligne på tværs af test.

Resultaterne kan anvendes til generalisering og styring, da de har høj eksternt validitet og til

en vis grad også er internt valide, dvs. måler det, de er designet til at måle. Høj ekstern validitet

betyder, at de kan generaliseres til et udtryk for elevernes faglige niveau. Evalueringen viser

også, at der er mulighed for at forbedre både målesikkerheden og den interne validitet.

Det vil sige, at den tvivl, mange har om, hvorvidt man meningsfuldt kan anvende data på ag-

gregeret niveau, når nu data er usikre for den enkelte elev, bør være afklaret. Det kan man

godt, men selvfølgelig inden for de metodiske rammer, som er gældende for data af denne

type, og niveauet man aggregerer til. Det skal bemærkes, at der ikke er noget, der tyder på, at

de nationale test er mindre eller mere pålidelige end andre sammenlignelige test.

Testsituationen rummer dilemmaer

Selve testsituationen rummer dilemmaer. Nogle elever oplever testsituationen positivt, mange

oplever den som neutral og få oplever den negativt. Særligt blandt de yngre elever er der ud-

fordringer i forhold til længden af testen. Ligeledes spiller det adaptive princip ind i oplevelsen

af testsituationen, hvor nogle, både lærere og elever, oplever det som ubehageligt, dels at

længden på testen kan forlænges, dels at alle elever stilles spørgsmål, som er for svære at

besvare.

Længden af testen hænger sammen med testens præcision. Jo længere en test, desto mere

præcis test, da man vil kunne svare på flere opgaver. Så hvis man forkorter testens længde,

så bliver testen mere upræcis.

Testens adaptive princip er i teorien med til at forkorte testens længde, da det gør det muligt

hurtigere at finde elevens niveau. Så en afskaffelse af det adaptive princip vil alt andet lige

kræve en længere test for at opnå et lige så præcist resultat.

På samme måde vises resultaterne fordelt på de tre profilområder inden for faget. Det giver et

større detaljeringsniveau i forhold til at teste forskellige områder af et fag. Men samtidig gør

opdelingen også, at resultatet for hvert profilområde er mere upræcist, end hvis man lagde

profilområderne sammen, jf. Delrapport 1. En sammenlægning af profilområderne vil potentielt

kunne forkorte testens længde.

Det dobbelte formål volder udfordringer

De nationale test er designet til både at være et pædagogisk redskab og et styringsredskab.

Men det dobbelte formål volder udfordringer i forhold til anvendelsen af testenes resultater.

Evalueringen viser klart, at man bør være meget påpasselig med at anvende en enkelt elevs

resultat som enkeltstående udtryk for elevens faglige niveau. Resultatet er for usikkert til, at

det kan stå alene, og den interne validitet kunne være bedre. Det vanskeliggør anvendelsen

som et enkeltstående testresultat i det pædagogiske arbejde, om end VIVEs data viser, at

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

lærerne oftest oplever, at elevernes resultater stemmer overens med lærerens opfattelse af

elevens faglige niveau.

Som pædagogisk redskab på klasseniveau er der bedre muligheder for at anvende data. Men

der er uklarhed om, hvordan man omsætter den viden, som testene potentielt bidrager med, til

pædagogisk praksis. Uklarheden kan både bygge på manglende viden, manglende tid, og at

diskussionen om testenes validitet har fyldt så meget, som den har.

På styringsniveau og som ledelsesinformation er data dog pålidelige med høj ekstern validitet.

Data bidrager særligt på kommunalt og nationalt niveau som et værdifuldt styringsredskab ad-

ministrativt og i mindre grad politisk. Tilsvarende har data fra de nationale test høj værdi for

den forskning, der anvender data. Den eksterne validitet er også med til at forhøje den infor-

mationsværdi, skoleledelserne kan have, for de ledere, der formår at forene deres styring med

den pædagogiske praksis.

Hvad er det fremtidige behov?

Evalueringen viser klart, at der er behov for data, der kan bruges pædagogisk af lærerne i

skolerne, og data, der kan bruges som styringsredskab på højere niveauer. Og VIVE vurderer,

at hvis de nationale test afskaffes, så vil der være behov for at udvikle et eller flere nye redska-

ber til at dække disse behov, der kan indgå i samspil med andre eksisterende datakilder, så

som trivselsmålinger og afgangsprøvekarakterer.

Hvis man ikke afskaffer de nationale test, er der behov for at arbejde med reliabiliteten og den

interne validitet samt med at gøre det nemmere for lærere og skoleledere at arbejde konstruk-

tivt med testene – eksempelvis gennem bedre vejledninger og mere handlingsorienteret over-

sættelse af data til pædagogisk anvendelse – ligesom der bør arbejdes med fortællingen om,

hvad de nationale test egentlig kan og skal måle, og hvad de ikke kan og skal måle.

2.2

Tværgående resultater

Dette kapitel samler resultaterne fra de fem delrapporter. Først behandles emnerne vedrø-

rende de nationale tests reliabilitet, interne validitet og eksterne validitet (Delrapport 1+2). Der-

efter behandles de nationale tests sammenhæng med fagenes Fælles Mål (Delrapport 4). Så

behandles anvendelsen af de nationale test, først på skole og kommunalt niveau, og dernæst

på nationalt niveau (Delrapport 5). Til sidst behandles kortlægningen af sammenlignelige test

(Delrapport 3).

2.2.1

De nationale tests præcision, validitet og sammenhæng med fagene

Styrelsen for It og Læring (STIL) har gennemført en evaluering af de statistiske aspek-

ter af de nationale test

I forbindelse med evalueringen af de nationale test, er det blevet udarbejdet en evaluering af

de statistiske aspekter af de nationale test. Børne- og Undervisningsministeriet har besluttet,

at STIL skal gennemføre denne evaluering.

STILs evaluering består af en validering af den tekniske beregning bag de nationale test, dvs.

spørgsmål om, hvorvidt de nationale test regner rigtigt, om opgavernes sværhedsgrader stadig

er korrekte og stadig passer til Rasch-modellen

, og om det er det er muligt at forbedre den

Læs mere om Rasch-modellen i afsnit 3.2.1

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

adaptive algoritme med henblik på at reducere den statistiske usikkerhed. Derudover under-

søger STIL, hvorvidt målesikkerheden af elevernes færdigheder kan forbedres ved at kombi-

nere resultater fra forskellige profilområder. Dette gøres ved at undersøge, om profilområderne

måler forskellige aspekter af den samme bagvedliggende færdighed og dermed, om testresul-

taterne fra profilområderne kan slås sammen og dermed forbedre sikkerheden i testene.

VIVE har til opgave at reviewe evalueringen gennem nedsættelse og facilitering af en uaf-

hængig gruppe af danske, såvel som nordiske forskere, med særlig viden om test af elever.

Forskerne vurderer styrker og svagheder ved resultaterne af STILs dokumentation og analyser

af de nationale tests usikkerhed, reliabilitet og øvrige måleegenskaber. Reviewerne bemærker,

at STIL har gjort et stort arbejde med at dokumentere de statistiske aspekter af de nationale

test, så som den statistiske sikkerhed og reliabilitet. Læs mere om de statistiske aspekter af de

nationale test i Delrapport 1.

STILs evaluering af de statistiske aspekter af de nationale test er omfattende, og der er

behov for uddybende forklaringer og argumentation

Reviewerne påpeger, at der er en række områder, hvor der er behov for yderligere forklaringer

eller argumentation for valgene, truffet i forbindelse med både selve opbygningen af de natio-

nale test og STILs evaluering af de tekniske aspekter. Der er ligeledes en række kritikpunkter

forbundet med opbygningen af de nationale test samt konkrete forslag til forbedringer.

Opgaverne vælges på den rigtige måde, og elevdygtighederne og usikkerhederne be-

regnes korrekt

STIL dokumenterer, at opgaverne i de nationale test vælges på den rigtige måde og at elev-

dygtighederne og usikkerhederne om elevernes resultater beregnes korrekt. Det vil sige, at

STIL har udelukket, at eventuelle fejl eller usikkerheder i de nationale test skyldes tekniske

programmeringsfejl i beregningerne.

Målingerne er usikre på elevniveau

STIL dokumenterer, at sikkerhedsintervallerne for elevernes præstationer er brede, og at relia-

biliteten er lav for nogle af testene. Det betyder ifølge reviewerne, at målesikkerheden er relativt

usikker på elevniveau. Usikkerheden har særligt betydning for lærernes anvendelse af den

enkelte elevs resultat, som derfor bør foretages med forbehold og ikke uden supplerende vi-

den. Der er dog ikke noget, der tyder på, at de nationale test er ekstraordinært usikre eller mere

usikre på elevniveau end andre tilsvarende test. Det bemærkes dog, at der generelt er be-

grænset viden om usikkerheden blandt alternative test. STIL dokumenterer, at usikkerheden

er størst for de dygtigste elever. Reliabiliteten refererer til, om testen er stabil og vil give de

samme resultater, hvis man gentager målingen.

93 % af alle obligatoriske testforløb i skoleåret 2017/2018 blev afsluttet med en statistisk usik-

kerhed under 0,55 SEM (Standard Error of Measurement), hvilket er den anvendte skærings-

værdi i de nationale test. Reviewerne kritiserer STIL for ikke tilstrækkeligt at have argumenteret

for, at skæringsværdien bør være 0,55 SEM, ligesom STIL ikke reflekterer over, hvad SEM bør

være, når der er tale om en pædagogisk test som de nationale test. Det betyder, at det er

vanskeligt at forholde sig til, om den valgte værdi er den korrekte eller ej.

Reliabiliteten er højest for dansk (læsning), matematik og engelsk, mens den for fysik/kemi

ligger lavere. Man bør overveje, om den nuværende konvertering af resultaterne til en percentil-

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

skala (dvs. til den normbaserede skala) er formålstjenstlig, da det leder til paradoksale resul-

tater, hvor resultaterne er mest sikre i hver sin ende af skalaen, men usikre i midten, selvom

usikkerheden i de rå resultatscorer er størst for de dygtigste elever.

Ved at forlænge den tid, en test tager, vil det være muligt for eleverne at besvare flere opgaver,

hvilket vil være med til at reducere den statistiske usikkerhed. Læs mere om den statistiske

usikkerhed i Delrapport 1. En forlængelse af testtiden vil dog potentielt have konsekvenser for

elevernes oplevelse af testsituationen, som i forvejen opleves som lang, særligt i de små klas-

ser. For mere om oplevelsen af testsituationen læs Delrapport 5.

STIL foreslår selv at øge antallet af polytome opgaver samt at justere algoritmen i testsystemet,

så opgaver med størst mulig informationsværdi vælges. ”Polytome opgaver” er opgaver, hvor

der er flere delspørgsmål, der tilsammen kan udtrykke om eleven har svaret rigtigt på hele

opgaven eller kun dele – i modsætning til dikotome opgaver med eksempelvis ja/nej-svar. Det

er dog ikke, ifølge reviewerne, entydigt, at brugen af flere polytome opgaver vil forbedre de

nationale tests præcision.

Antallet af svære opgaver bør øges for at forbedre præcisionen

Der er for få svære opgaver i opgavebanken til de nationale test. STIL dokumenterer, hvor

mange opgaver der er i opgavebanken, hvordan opgaver afprøves, og besvarelserne fra op-

gaveafprøvningerne statistisk analyseres. STIL dokumenterer, at der er mangel på svære op-

gaver til de dygtigste elever i flere af profilområderne. Dette betyder, at eleverne ikke får den

rette information om, hvor dygtige de er i de enkelte fag, da testen er upræcis. Med flere svære

opgaver er det muligt at skelne mellem dygtige og meget dygtige elever, hvilket også vil med-

føre større sikkerhed i testene om elevdygtigheden, generelt. Der er enighed blandt reviewerne

om, at antallet af svære opgaver bør øges, da det vil forbedre de nationale tests præcision.

Metoder til bestemmelse af sværhedsgrader bør undersøges nærmere

STIL finder endvidere, at der er forskel på opgavernes estimerede sværhedsgrad, når disse

beregnes på baggrund af de adaptive testforløb (obligatoriske test), og når de beregnes i line-

ære afprøvningsforløb (opgaveafprøvning). Reviewerne efterspørger, at metoderne til bestem-

melse af opgavernes sværhedsgrader bør undersøges nærmere, da der er stor forskel på op-

gavernes sværhedsgrad, afhængig af, om de er fra lineære eller adaptive test (som de natio-

nale test er baseret på). Læs mere om sværhedsgraderne i Delrapport 1.

Samling af profilområderne vil øge præcisionen i målingerne

Det vil forbedre testenes målesikkerhed, hvis de nuværende tre profilområder, der findes for

hver af de nationale test, bliver samlet til én skala. STIL vurderer, at elevernes resultater fra tre

profilområder kan samles til ét samlet resultat med en større statistisk sikkerhed, end hvad der

er tilfældet i dag.

Analyserne i VIVEs Delrapport 2 viser i forlængelse heraf, at et samlet mål for resultatet af en

national test har større samvariation med karakterne i folkeskolens 9. klasseprøver i tilsvarende

fag, end de tre mål, der knytter sig til de tre profilområder enkeltvis. Det vil sige, at resultater

fra de enkelte profilområder har lavere præcision med hensyn til at forudsige elevernes præ-

stationer i 9. klasse end et samlet mål for hver national test. Et samlet mål vil derfor være mere

præcist med hensyn til at afdække elevernes faglige niveau.

Det er dog afhængigt af, at det undersøges og testes, om profilområderne kan sammensættes

til ét samlet mål for elevernes dygtighed inden for det enkelte fag. Reviewerne udtrykker, at der

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

mangler et teoretisk argument for samling af profilområderne til én skala. Læs mere om mulig-

hederne for at øge præcisionen af resultatet ved at samle de tre profilområder i Delrapport 2

og 1. Delrapport 4 uddyber endvidere forskellen i, hvordan de enkelte test dækker fagenes mål

og bredde.

Der er sammenhæng mellem resultater i de nationale test og afgangsprøverne…

Tidligere undersøgelser har vist sammenhænge mellem de nationale test og senere karakterer

i 8. klasses standpunktskarakterer og folkeskolens 9. klasseprøver. STILs beregninger, jf. Del-

rapport 1, og nye undersøgelser gennemført af VIVE, jf. Delrapport 2, viser ligeledes, at der er

samvariation mellem elevernes resultater i de nationale test og i folkeskolens afgangsprøver.

De fundne korrelationer og sammenhænge i Delrapport 2 er på niveau med niveauet fra andre

analyser af standardiserede test og karakterer. Det vil sige, at de nationale test har et forven-

teligt niveau. Læs mere om samvariationen mellem de nationale test og andre testresultater i

Delrapport 2.

Resultatet indikerer, at de nationale test har en høj ekstern validitet, hvilket som sagt betyder,

at de kan generaliseres til et udtryk for elevernes faglige niveau. Det vil sige, at resultatet indi-

kerer, at de nationale test er gode til at anvende i analyser på gennemsnits- og gruppeniveau,

fordi resultaterne af testene er en god stedfortræder for de enkelte elevers faglige niveau,

selvom resultaterne i sagens natur ikke er identiske med det faglige niveau. Det giver de nati-

onale test en informationsværdi, der kan anvendes på skole-, kommune- og nationalt niveau

til at vurdere elevernes faglige niveau. Det gælder også, selvom de – i lighed med andre faglige

test og prøver – kun måler en del af det, der undervises i. Både de nationale test og afgangs-

prøverne er udtryk for niveauet i de ting, der testes i, og ikke andre dele, så som alsidig udvik-

ling eller trivsel. Der er et overlap mellem det, de nationale test og afgangsprøverne måler, om

end det ikke er et fuldstændigt overlap.

… og sammenhængen stiger med øget samtidighed

Analyserne viser ligeledes, at samvariationen – altså korrelationen mellem de to resultater – er

stigende med øget samtidighed. Desto tættere tidsmæssigt på hinanden den nationale test og

afgangsprøven er taget, jo stærkere sammenhæng mellem de to faglige resultater. Dette un-

derstøttes også af, at de samtidige sammenligninger mellem test taget i 8. klasse og stand-

punktskarakterer, er ligeså stærke eller stærkere end sammenhængene imellem test taget i 8.

klasse og karakterer i 9. klasse. Dette resultat er, som forventet, givet, at eleven udvikler sig,

som årene går, og at der forventes mindre udvikling, jo tættere testen er på prøven.

Faglige resultater hænger ved

Elever, der opnåede lave resultater i de nationale test, opnår i gennemsnit også lave karakterer

i de samme fag ved folkeskolens 9. klasseprøver. Tilsvarende gælder, at elever, der klarede

sig godt i de nationale test, også i gennemsnit får højere karakterer ved afgangsprøverne end

de elever, der klarede sig mindre godt. Læs mere i Delrapport 2.

Der er stærke sammenhænge i dansk (læsning) og matematik og mindre stærke sam-

menhænge i fysik/ kemi

Nogle fag har en lavere sammenhæng mellem resultater i de nationale test og karakterer end

andre. De stærkeste sammenhænge findes i fagene dansk (læsning) og matematik for de na-

tionale test i 8. klasse og karakterer i folkeskolens 9. klasseprøver. Det skyldes dels faget, dels

at der er kort tid mellem testen og prøven.

Særligt de nationale test i fysik/kemi samvarierer i mindre grad end øvrige fag med karakter i

9. klasse i samme fag. En medvirkende forklaring kan være, at fysik/kemi er et treårigt fag fra

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

7.-9. klasse, hvor læreren planlægger undervisningen af pensum på tværs af alle årene, men

hvor den nationale test finder sted i 8. klasse. Det vil sige, at de nationale test potentielt inde-

holder emner, som eleverne ikke har gennemgået på testtidspunktet. Læs mere om fysik/kemi

i Delrapport 2, hvor samvariationen analyseres, og Delrapport 4, hvor sammenhængen mellem

opgaverne i testen og fagets mål analyseres.

2.2.2

Sammenhængen med fagenes formål

De nationale tests tekniske kobling til fagenes Fælles Mål

Opgaverne til de nationale test udvikles af opgavekommissioner bestående af praktikere på

bestilling af Styrelsen for Undervisning og Kvalitet (STUK). Opgaverne kobles til et bestemt fag

inden for bestemte profilområder og sværhedsgrader. Opgaverne kobles desuden i det admi-

nistrative system til Fælles Mål. Fælles Mål er organiseret i tre niveauer; i) kompetenceområ-

der, ii) færdigheds- og vidensområder og iii) færdigheds- og vidensmål. Læs mere om udvik-

lingen af opgaver i de nationale test i Delrapport 4.

Der er stor variation i bredden af testenes sammenhæng med Fælles Mål

Der er store og centrale dele af fagene, der ikke dækkes af de nationale test. Omfanget varierer

på tværs af fag. Det er dog meningen, at testene ikke skal teste hele fag, men kun dele af

faget, hvilket også er tilfældet for andre test og prøver.

Mens nogle af testene – i dansk (læsning) og engelsk – dækker de Fælles Mål relativt snævert

og går i dybden med udvalgte områder, dækker de øvrige obligatoriske test – i matematik og

fysik/kemi – større dele af fagenes Fælles Mål og er således mindre fokuserede.

Testene i matematik, engelsk og fysik/kemi har stor variation i dækningen af færdigheds- og

vidensområderne og færdigheds- og vidensmålene i Fælles Mål. En del af forklaringen kan

være, at testformatet i de nationale test (fx at de er it-baserede og multiple choice) ikke egner

sig til at teste kompetencer og kun i nogen grad færdigheder. Disse dele af fagene dækkes

derfor enten slet ikke eller i lav grad af testene. Det drejer sig eksempelvis om områder som

’Kommunikation’ og ’Modellering’.

Der er omstændigheder, der gør, at den fundne sammenhæng undervurderes. For det første

er der opgaver, som ikke i systemet er kategoriseret inden for Fælles Mål, men som hører til

faget alligevel. For det andet har opgavekommissionerne, der udvikler opgaverne, kun mulig-

hed for at koble en opgave til ét kompetenceområde, ét færdigheds- og vidensområde, ét fær-

dighedsmål samt ét vidensmål i Fælles Mål, selvom nogle opgaver kan tilknyttes flere områder

og mål, da løsningen af opgaven kræver viden fra flere af fagets områder. Læs mere om sam-

menhængen mellem indholdet i de nationale test og de fire obligatoriske testfags mål i Delrap-

port 4.

De nationale test i dansk (læsning) er en læsetest, ikke en dansktest

De nationale test i dansk adskiller sig fra de andre nationale test ved ikke at teste et fag men

alene ét fagområde. Dansktesten tester således i Fælles Mål-termer udelukkende kompeten-

ceområdet læsning – og konkret halvdelen af dette kompetenceområdes seks færdigheds- og

vidensområder. De tre områder fra Fælles Mål, der dækkes, svarer 1-1 til testens tre profilom-

råder.

Sammenhængen mellem indholdet af testen i dansk (læsning) og fagets samlede formål er

derfor begrænset. Testen tester alene læsning og ikke de andre centrale dele af danskfaget.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Dette er dog et bevidst valg truffet i forbindelse med indførelsen af de nationale test. Testens

sammenhæng med kompetenceområdet ’læsning’ er derimod stærk. Der identificeres et po-

tentiale i at inddrage læsehastighed i testningen af afkodning, som burde være teknisk mulig

og umiddelbart vil kvalificere testen. Læs mere om sammenhængen mellem indholdet i de

nationale test og faget dansk i Delrapport 4.

De nationale test i matematik rammer bredt, men er udfordret på test af færdigheder

De nationale test i matematik dækker ikke kompetenceområdet ’Matematiske kompetencer’.

Det er et bevidst fravalg, da det er vurderet for svært at teste inden for de nationale tests format.

Matematiktestene dækker de tre øvrige kompetenceområder, der svarer til testenes profilom-

råder. Inden for kompetenceområderne er der dog stor variation i, i hvilken grad både færdig-

heds- og vidensområder samt færdigheds- og vidensmål dækkes. Dette skyldes eksempelvis,

at nogle områder og mål ganske enkelt er nemmere at teste end andre. Dette gælder særligt

områder og mål, som involverer færdigheder – fx det at undersøge, beskrive eller tegne.

Sammenlignet med særligt testene i dansk (læsning) og engelsk dækker matematiktestene

dele af matematikfaget ganske bredt. En stor andel af fagets Fælles Mål er i en eller anden

grad berørt, men der er stor forskel på, i hvilken grad områder af faget er dækket, og flere

centrale færdigheder testes ikke som følge af testens format. Læs mere om sammenhængen

mellem indholdet i de nationale test og faget matematik i Delrapport 4.

De nationale test i engelsk varierer på de to klassetrin

De nationale test i engelsk er knyttet til kompetenceområderne ’Skriftlig kommunikation’ og

’Mundtlig kommunikation’. Kompetenceområdet ’Kultur og samfund’ dækkes således ikke i te-

sten målrettet 7. klassetrin, og dækkes kun i meget ringe grad af testen målrettet 4. klassetrin.

Inden for de dækkede kompetenceområder er der stor variation i, i hvilken grad færdigheds-

og vidensområderne er dækket. I testen målrettet 7. klasse er der tale om, at færdigheds- og

vidensområderne enten er dækket af mange opgaver eller ingen opgaver. Således er kun tre

områder dækket med mere end én opgave. I testen målrettet 4. klasse er opgaverne lidt mere

spredt. Variationen skyldes særligt testens format. Læs mere om sammenhængen mellem ind-

holdet i de nationale test og faget engelsk i Delrapport 4.

De nationale test i fysik/kemi er præget af stor bredde, men skævhed i opgavernes for-

deling

Den nationale test i fysik/kemi dækker tre af fire af fagets kompetenceområder i Fælles Mål.

Inden for kompetenceområderne er der knyttet spørgsmål til hver af færdigheds- og vidensom-

råderne. Der er altså tale om en meget bred test. Antallet af opgaver tilknyttet hvert færdigheds-

og vidensområde varierer dog meget. Det kan delvist forklares af, at der ikke er nogen klar

kobling mellem testens profilområder og stukturen i Fælles Mål, ligesom der ikke systematisk

arbejdes med at dække alle dele af fagets Fælles Mål i udarbejdelsen af opgaver. Som i de

øvrige fags tilfælde, er der områder af faget fysik/kemi, som er særligt vanskelige at teste i

nationale test. Det gælder blandt andet for kompetenceområdet ’Kommunikation’. Læs mere

om sammenhængen mellem indholdet i de nationale test og fysik/kemi i Delrapport 4.

Der er særligt for fysik/kemi et mismatch mellem, hvad testen tester og bredden af elevernes

faglige kunnen på tidspunktet for testafviklingen. Testen tester nemlig de samlede Fælles Mål

for hele udskolingen (7.-9. klassetrin), mens testen gennemføres på 8. klassetrin. Lærerne

bestemmer selv, i hvilken rækkefølge de underviser i områderne i Fælles Mål, hvilket betyder,

at eleverne risikerer at få testopgaver, der relaterer sig til områder af faget, som eleverne endnu

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

ikke er undervist i. En problematik, der også fremhæves i Delrapport 5, ligesom det kommer til

udtryk i den relativt svage samvariation mellem testresultaterne i de nationale test og afgangs-

prøverne jf. Delrapport 2.

2.2.3

Anvendelse af de nationale test på skoler og i kommuner

Anvendelsen af de nationale test på skole-, kommune- og nationalt niveau behandles i Delrap-

port 5. De nationale test har til formål at fungere både som et pædagogisk redskab og et sty-

ringsredskab, jf. kapitel 3 i denne rapport. Delrapport 5 afdækker endvidere, hvorvidt nationale

test anvendes i overensstemmelse med de to formål, mens Delrapport 3 kortlægger, om sam-

menlignelige nationale og internationale test ligeledes har to formål.

Der gennemføres flere frivillige nationale test for at følge elevernes progression

Registerdata viser, at omfanget af obligatoriske nationale test har været nogenlunde stabilt

over en periode på seks skoleår. I samme periode er omfanget af gennemførte frivillige natio-

nale test steget ganske betydeligt. Det hænger blandt andet sammen med, at kommuner og

skoler ønsker at kunne følge elevernes progression, lige som der blandt forvaltninger, skolele-

dere og lærere er et ønske om at forberede eleverne til de obligatorisk test og gøre dem mere

trygge ved testsituationen. Samtidig er der også kommet flere mulige, frivillige test, hvilket er

med til at øge antallet af gennemførte frivillige test.

Testsituationen er ofte udramatisk, men de små elever oplever i særlig grad udfordrin-

ger med koncentrationen

Observationer af testgennemførelser og elevinterview viser, at eleverne oplever testsituationen

meget forskelligt. Hovedparten af de interviewede elever er dog hverken særligt negative eller

positive i beskrivelse af testen. I testsituation kommer frustrationer og ubehag typisk kun synligt

til udtryk hos en enkelt eller få elever pr. testafvikling, mens der også er elever, der sætter pris

på testen som en afveksling fra den almindelige undervisning. Der er ikke belæg i analysen for

at sige, at de nationale test skaber hverken mere eller mindre ubehag eller glæde hos eleverne

end andre test.

Eleverne oplever, at testen tager lang tid, og at det er svært at koncentrere sig. Særligt, når

der er tale om forlængelser ud over de 45 minutter, som der er afsat til testene. I de mindste

klasser observeres tegn på manglende koncentration allerede efter 10-15 minutter, hvilket dog

ofte forbedres efter en pause.

Lærerne er generelt skeptiske over for nationale test som et pædagogisk redskab, men

deres vurderinger har flere relevante nuancer

Lærerne er generelt skeptiske over for nationale test som et pædagogisk redskab. Mange læ-

rere i spørgeskemaundersøgelsen er overordnet utilfredse med testens faglige indhold og kva-

litet, og kun en mindre gruppe lærere oplever, at testen bidrager positivt til den pædagogiske

praksis. Lærerne vurderer således generelt ikke, at de nationale test giver dem bedre indsigt i

hverken enkeltelevers eller klassers faglige niveau på de områder, som eleverne bliver testet

i. Lærerne stiller desuden spørgsmål ved, om resultaterne reelt udtrykker elevernes kompeten-

cer inden for fagenes formål.

På den anden side vurderer lærerne imidlertid også, at elevernes resultater i de nationale test

typisk stemmer overens med deres forventninger, og i de kvalitative interview fremstår lærer-

nes vurderinger af de nationale test mere blandede. Flere lærere viser her på én og samme tid

både en begejstring for mulighederne med de nationale test og en skepsis over for resultaterne.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Desuden er der lærere, der vurderer, at det er synd for børnene at teste dem, mens en anden

gruppe lærere betragter test som en nødvendighed for deres pædagogiske praksis. Det spiller

desuden en rolle for lærerne, at det pædagogiske formål med de nationale test er uklart, og de

vurderer, at de nationale test primært er tænkt som et styringsredskab.

Endelig er nogle lærere kritiske over for, at nationale test er standardiserede og ikke kan til-

passes til den enkelte klasse, mens andre lærere vurderer, at standardiseringen og muligheden

for at sammenligne med andre klasser giver en form for evidens og mulighed for at bekræfte

deres egne vurderinger af eleverne mere bredt.

Begrænset systematik i lærernes pædagogiske anvendelse af nationale test

Der er i mindre grad fastsat klare retningslinjer for den pædagogiske anvendelse af nationale

test. Lærerene er generelt i tvivl om, hvorvidt og hvordan de skal bruge nationale test i deres

pædagogiske praksis. Ofte er det op til den enkelte lærer.

Lærerne bruger i begrænset omfang nationale test som grundlag for deres undervisning. Det

skyldes ifølge lærerne, at nationale test ikke afspejler det, lærerne underviser i, at det kan være

vanskeligt at handle på baggrund af nationale test, og at det er meget ressourcekrævende at

bruge nationale test som afsæt for en faglig udvikling. Læs mere om sammenhængen mellem

testene og fagenes mål i Delrapport 4.

Lærerne anvender i højere grad nationale test i dansk og matematik end i andre fag.

Lærerne anvender i højere grad nationale test i dansk og matematik sammenlignet med særligt

fysisk og i nogen grad engelsk. Det kan hænge sammen med, at det særligt er i de fag, at

skoleledelsen følger op på elevernes resultater, og det er ofte i dansk og matematik, at der

findes faglige vejledere. Det er imidlertid dansklærerne, som vurderer de nationale test i dansk

som mindst anvendelige sammenlignet med nationale test i andre fag. VIVE vurderer, at deres

skepsis kan hænge sammen med, at de nationale test i dansk ikke tester hele faget men alene

delelementer. Læs evt. delrapport 4 for en uddybning.

Der gives begrænset mundtlig feedback til eleverne

Kun lige over halvdelen af lærerne giver deres elever individuel mundtlig feedback efter en

national test. Når lærerne giver feedback, sker der med størst fokus på de elever, der har klaret

sig dårligst i testen, og primært med det formål at opmuntre dem. Den individuelle feedback

involverer oftest en drøftelse af elevernes oplevelse af testsituationen. Cirka halvdelen af læ-

rerne, der giver eleverne individuel feedback, anvender feedbacksituationen til at pege på

handlemuligheder for eleven.

De nationale test betragtes som et vigtigt styringsredskab på kommunalt niveau og til

en vis grad på skoleniveau

Særligt forvaltningschefer og til en vis grad skoleledere oplever, at de nationale test er et vigtig

styringsredskab, som muliggør en dialog og opfølgning inden for og på tværs af kommuner og

skoler. De kommunale forvaltningschefer vurderer, at nationale test styrker deres mulighed for

at følge med i skolernes udvikling, og er et kvalificeret udgangspunkt for dialog med skolerne.

I forlængelse heraf påpeger forvaltningscheferne i interview, at de ville erstatte nationale test

med andre målinger af elevernes faglige niveau, hvis nationale test afskaffes.

Forvaltningschefernes opfattelse og anvendelse af de nationale tests er blevet styrket siden

2013. De fleste skoler indgår da også mindst én gang årligt i en dialog med forvaltningen om

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

resultaterne af de nationale test. Forud for dialogen har både skole og forvaltning typisk iden-

tificeret områder, hvor skolen kan forbedre sig. Dialogerne er oftest fremadskuende og fører til

fremadrettede konkrete aftaler. Desuden opfattes dialogerne overvejende som tillidsbaserede.

Forvaltningschefer og til dels kommunalpolitikere finder desuden, at det er vigtigt med nationale

målinger, som giver mulighed for at vurdere, om kommunens elever er særligt udfordrede i

forhold til elever andre steder i landet.

Skoleledernes vurderinger af nationale test som styringsredskab er mere blandende. Stort set

lige andele skoleledere er henholdsvis positive og negative over for nationale test som en kilde

til ledelsesinformation om elevernes faglige niveau. Skolelederne er mest positive over for mu-

ligheden for at følge elevernes progression.

Selvom de nationale test generelt anvendes i dialogerne til at skabe overblik over, hvordan

eleverne klarer sig, vurderer både skoleledere, forvaltningschefer og lokal politikere, at de na-

tionale test ikke kan stå alene, hvorfor der inddrages en lang række andre datakilder i dialo-

gerne på tværs af skoler, forvaltninger og politikere.

Systematiske procedurer understøtter den styringsmæssige anvendelse af nationale

test på kommunalt niveau, mens det er mere svingende på skoleniveau

Mens der på kommunalt niveau er forholdsvis faste procedurer for opfølgning på nationale test

i dialogen mellem forvaltning og skole, er det mere svingende, om der på skolerne er systema-

tiske retningslinjer for opfølgning på de nationale test. De kommunale forvaltninger bruger ty-

pisk de nationale test aktivt og følger systematisk op på både tilfredsstillende og utilfredsstil-

lende resultater fra skolerne. Det sker via systematiske ”læringssamtaler” med skolerne, der

typisk gennemføres en til to gange om året. Mens der på nogle skoler er tilsvarende systema-

tiske procedurer for intern opfølgning på de nationale test, så som faste møder, er det ikke

tilfældet på andre skoler. Samtidig kan der på én skole være forskel på systematikken i opfølg-

ningen på tværs af fag.

De nationale test udgør en mindre del af skoleledernes styring og ledelse

Generelt tegner Delrapport 5 et meget blandet billede af, hvorvidt og hvordan skolelederne

burger nationale test. Over halvdelen af skolelederne bruger nationale test til at holde øje med

det samlede faglige niveau på skolen og oplever, at nationale test øger deres kendskab til

eleverne og styrker deres samarbejde med lærerne. Der er imidlertid også en betydelig andel

skoleledere, der ikke bruger de nationale test eller bruger dem i mindre grad.

Nationale test synes primært at understøtte en tillidsbaseret dialog mellem lærere og skolele-

dere, men oplevelsen heraf varierer. Den nationale test synes i mindre grad at give anledning

til konkrete indsatser og beslutninger på skoleniveau.

Nationale test synes i det hele taget at udgøre en mindre del af skoleledernes styrings- og

ledelsesgrundlag, selv om der er relativt stor forskel på skoleledernes opfølgning på tværs af

skoler. I overvejende grad bruger skolelederne nationale test til at vurdere skolens samlede,

faglige progression og i mindre grad til at vurdere den enkelte elev eller klasse.

De kvalitative interview tyder på, at lærerne er mere positive over for de nationale test på de

skoler, hvor skolelederne formår at koble den ledelsesmæssige dialog med lærerne til lærernes

pædagogiske praksis og dermed anvende de nationale test som både et pædagogisk og et

styringsmæssigt redskab.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Nationale test udgør en lille del af skolernes evalueringspraksis

Skoleledere og lærere er generelt enige om, at evaluering er et vigtig redskab i arbejdet med

at styrke den faglige kvalitet på skolerne, og de oplever, at der findes evalueringskompetencer

på skolerne. Der synes imidlertid at være forskel på skolerne, hvad angår skoleledernes kend-

skab til og systematik i opfølgningen på test- og evalueringsresultater. Nationale test opleves

generelt ikke at understøtte skolernes evalueringskultur. Undersøgelsen peger på, at det hæn-

ger sammen med, at lærere og skoleledere er skeptiske over for validiteten af nationale test.

Læs mere om validiteten af de nationale test i Delrapport 1 og 2.

Kompetencerne til at tolke og omsætte resultaterne af nationale test varierer

Generelt vurderer skoleledere, at både de selv og lærerne har de nødvendige kompetencer til

at tolke og anvende resultaterne fra nationale test. Der synes imidlertid at være forskel på

skolerne, hvad angår skoleledernes kendskab til mulighederne for systematik i opfølgning på

de nationale testresultater og øvrige evalueringsresultater.

Dertil kommer, at nogle skoleledere vurderer, at de ikke har de nødvendige fagfaglige kompe-

tencer til at kunne understøtte den pædagogiske anvendelse af de nationale test og dermed

underbygge, at testene får en faglig relevans for lærerne. Der er få lærere, der bruger de vis-

ningsmuligheder, der findes for elevernes resultater i nationale test. Det skyldes ifølge lærerne,

at det er tidskrævende og kræver særlige kompetencer, som ikke alle lærere oplever, at de

har. På flere skoler spiller skolens faglige vejledere derfor en vigtig rolle i forhold til at tolke

resultaterne og identificere konkrete indsatser.

Afklaring om testenes validitet har stor betydning

Der synes at være en udfordring på skolerne i forhold til at tolke resultaterne af nationale test.

En betydelig andel (mellem 41 og 59 %) lærere svarer ”ved ikke” i spørgeskemaundersøgelsen

på flere spørgsmål vedrørende fortolkning af resultaterne i de nationale test og deres målsik-

kerhed. Det indikerer manglende viden hos lærerne om de statistiske aspekter af de nationale

test.

På tværs af lokalpolitikere, forvaltningschefer, skoleledere og lærere er der enighed om, at det

er vigtigt at afklare, hvorvidt de nationale test er valide, hvis de skal give mening og anvendes

både som styrings- og pædagogisk redskab. De vurderer, at kritikken af de nationale tests

validitet udfordrer anvendelsen af nationale test som et effektivt evalueringsredskab, og at kri-

tikken i nogle tilfælde kan udgøre en stopklods for den fortsatte anvendelse af de nationale

test, både som pædagogisk og styringsmæssigt redskab. Læs mere om oplevelsen af testenes

validitet i Delrapport 5, og om testene af validiteten og reliabiliteten i Delrapport 1 og 2.

Nationale test indgår i skole-hjem-samarbejdet men sammen med andre typer af data

Næsten alle lærere orienterer forældrene skriftligt om resultaterne af deres børns resultater i

de nationale test. Lærerne oplever, at forældrene kan have svært ved at forstå de skriftlige

orienteringer, mens forælderene ikke vurderer, at dette er et problem i interview. Det kan dog

hænge sammen med, at de interviewede forældre alle er bestyrelsesformænd og forholdsvis

ressourcestærke. Lærerne oplever da også, at det særligt er de ressourcestærke forældre, der

har interesse i de nationale test. En af kommentarerne fra reviewerne i Delrapport 1 var, at

man bør overveje den form, man formidler elevernes resultater til forældrene i forhold til de

skalaer, som resultaterne præsenteres på.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Lidt over halvdelen af lærerne drøfter også resultaterne med forældrene mundtligt, typisk i for-

bindelse med skole-hjem-samtaler. De interviewede forældre er overvejende glade for den in-

formation, de får fra de nationale test. Det er imidlertid karakteristisk, at nationale test udgør

en lille del af datagrundlaget for skole-hjem-samarbejdet.

Tilsvarende gør sig gældende i bestyrelsesarbejdet, hvor bestyrelserne bliver orienteret om

elevernes resultater i nationale test, men i mindre grad handler og diskuterer resultaterne. I det

omfang det sker, bygger dialogen og initiativerne også på andre datakilder.

2.2.4

Anvendelse af nationale test på nationalt niveau

På nationalt niveau anvendes de nationale test i høj grad administrativt

Den administrative anvendelse af de nationale test er ganske betydelig i forhold til at under-

støtte styring og ledelses på tværs af niveauer. Data fra de nationale test anvendes til at kvali-

ficere Børne- og Undervisningsministeriets vejledningsindsatser over for skoler og kommuner

og som et udvælgelseskriterie for tilsyn med folkeskolens faglige kvalitet. Her giver de nationale

test som faglig indikator mulighed for at følge elevkohorters faglige progression over en år-

række og identificere faglige udsving allerede i indskolingen og på mellemtrinnet.

Derudover bruges nationale test indirekte som politisk beslutningsgrundlag som en del af mi-

nisteriets statusredegørelser til Folketinget om folkeskolens generelle udvikling, og de indgår

som en del af det vidensgrundlag, der videresendes til ministeren og forligskredsen, og danner

afsæt for bl.a. policy-udvikling, følgeforskningen til folkeskolereformen samt rekvirerede analy-

ser og forskning.

Politisk anvendes de nationale test i væsentlig grad indirekte

Den politiske værdi af de nationale test vurderes meget forskelligt fra folketingsmedlem til fol-

ketingsmedlem. Variationen spænder fra ingen værdi til stor værdi.

Den direkte politiske anvendelse på nationalt niveau af data fra de nationale test synes meget

begrænset. Data forelægges kun forligskredsen bag folkeskolereformen gennem den årlige

statusredegørelse for folkeskolens udvikling. Udviklingen i elevernes resultater præsenteres

for politikerne på et aggregeret og ikke detaljeret niveau, og ifølge de interviewede politikere

er det derfor vanskeligt at træffe beslutninger alene på baggrund af resultaterne.

Den indirekte politiske anvendelse af de nationale test gennem fx forskning er langt større.

Særligt er Folketingsmedlemmerne optagede af følgeforskningen til folkeskolereformen, som

blandt andet baserer sig på data fra de nationale test. En stor del af den forskningsviden, som

Folketinget har på skoleområdet, indeholder data fra nationale test.

Data fra de nationale test er værdifulde i forskning

Forskere, der anvender data fra de nationale test, oplever, at data fra de nationale test har stor

forskningsmæssig anvendelighed og er værdifulde for deres forskning. Langt hovedparten af

forskerne er desuden helt eller overvejende enige i, at adgang til data fra de nationale test er

værdifuld for, at deres forskning kan bidrage til at forbedre praksis.

Data anvendes til samfundsvidenskabelig forskning og primært i undersøgelser af sammen-

hængen mellem indsatser og elevers faglige resultater eller undersøgelser, der bidrager med

viden om, hvad der øger elevernes læring og faglige niveau. Data fra de nationale test i dansk

(læsning) og matematik anvendes mest.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Forskerne ser overvejende ingen alternative datakilder af samme kvalitet, og mere end to ud

af tre finder adgang til data fra de nationale test afgørende for, at de kan besvare deres forsk-

ningsspørgsmål.

2.2.5

Sammenlignelige test

VIVE har kortlagt 106 sammenlignelige test fra Danmark og internationalt med det formål at

kortlægge, hvilke test findes der i formål, indhold og omfang minder om de danske nationale

test. Det gøres for at skabe overblik over lignende test og dermed skabe mulighed for at blive

inspireret til at indhente yderligere viden om konkrete test. Kortlægningen viser endvidere,

hvordan testlandskabet ser ud, og hvilke typer af test der bliver anvendt. Testene er ikke nød-

vendigvis direkte alternativer til de danske nationale test, men kan bruges til at søge inspiration

om form og erfaringer i. For mere om sammenlignelige test læs Delrapport 3.

Testene er oftest fra USA og tester oftest indskolingen

Ud af de 106 test er 56 fra USA, mens 14 test er danske. Desuden findes 13 test i resten af

Norden, 13 test i Europa eksklusive Norden, 7 i de resterende undersøgte lande, samt 3 inter-

nationale test.

90 % af testene målretter sig indskolingen i USA og Europa. De kan dog, ligesom de danske

nationale test, godt være udviklet til at dække flere klassetrin. I USA ses eksempelvis, at de

fleste test er målrettet hele skolegangen.

Formålet er typisk pædagogisk

Testene er typisk tiltænkt som pædagogiske redskaber, men uden for Europa ses oftere test

med styring som formål, dog i ca. 50 % af tilfældene i en kombination af et styringsredskab og

et pædagogisk værktøj ligesom de danske nationale test.

De danske nationale tests målgruppe og modtager minder om andre test med lignende

anvendelsesformål

De danske nationale test er karakteriseret ved at være tiltænkt som både et pædagogisk værk-

tøj og et styringsredskab. De er målrettet årgange på tværs af indskolingen, mellemtrinnet og

udskolingen. Dette er også tilfældet for de øvrige test, som har det dobbelte formål.

Tilsvarende målrettes resultaterne af testen typisk både hjemmet, læreren og myndighed, præ-

cis som det også forekommer i de danske nationale test.

Varigheden af de danske nationale test er kortere sammenlignet med andre test med

lignende anvendelsesformål

Er en test kategoriseret som et pædagogisk værktøj, er den typisk målrettet indskolingen eller

hele skolegangen, og testen vil maksimalt tage 45 minutter.

Anvendes testen derimod alene som et styringsredskab og ikke et pædagogisk værktøj, er den

målrettet mellemtrinnet og udskolingen eller hele skolegangen. Her vil testen typisk tage mere

end 45 minutter.

Er en test en kombination af begge anvendelsesformål er den typisk designet til hele skole-

gangen, og den vil have en tendens til at vare mere end 45 minutter. De danske nationale test

varer typisk en lektion, dvs. 45 minutter, hvilket er kortere sammenlignet med øvrige test med

samme anvendelsesformål.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Adaptive test er ikke udpræget i Norden

Brugen af adaptive test er meget begrænset, og generelt findes der ingen adaptive test i Nor-

den ud over de danske nationale test. Denne testform er altså usædvanlig, og man må forvente

mindre eller ingen erfaring med denne type test i landene, herunder Danmark.

Test er oftest manuelt bedømte

De danske test minder mest om test i USA, hvor cirka halvdelen af testene bedømmes manuelt,

cirka en tredjedel er selvscorende i testsystemet, mens resten bedømmes både manuelt og

automatisk i testsystemet. Sammenlignet med resten af Norden er selvscorende bedømmelse

betydeligt mere udbredt i Danmark.

Information om tests reliabilitet er svær at indhente og sammenligne

Blandt et udsnit på 11 af de kortlagt test er der søgt efter information om reliabilitet. Det er dels

sparsomt med information både inden for og på tværs af testene, dels er der ikke konsistens i

valget af reliabilitetsmål på tværs af test. Derudover er de enkelte mål meget kontekstaf-

hængigt. Værdierne af Standard Error of Measurement (SEM) afhænger af den underliggende

model, der anvendes til at score en given test. Det er med til at vanskeliggøre sammenligning

af SEM på tværs af test. Ligeledes vil en test-retest kunne foretages på mange forskellige

samples, som i større eller mindre omfang vil have betydning for korrelationen. Det vil sige, at

det ikke uden en væsentligt dybere analyse er muligt at sammenligne de danske nationale

tests reliabillitet med de fundne tests reliabilitet. Ud fra den information, der er indhentet på de

11 test, er der ikke noget, der tyder på, at de danske nationale test har en markant dårligere

eller bedre reliabilitet end andre test.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

De nationale test

Dette kapitel beskriver kortfattet baggrunden for og indholdet af de nationale test. Formålet er

at give læseren tilstrækkelig viden om de fundamentale aspekter af de nationale test til at kunne

læse de analytiske kapitler, der vedrører VIVEs evaluering af de nationale test.

Undervisningsministeriet har selv ad flere omgange beskrevet dette, og kapitlet vil i væsentlig

grad bestå af en gengivelse af disse beskrivelser (Børne- og Undervisningsministeriet, 2019a).

Først beskrives baggrunden og det erklærede formål med de nationale test, og efterfølgende

beskrives de tekniske aspekter af testene.

3.1

Baggrund

Indførelsen af de nationale test blev begrundet med henvisning til undersøgelser, der viste, at

det faglige niveau blandt eleverne i den danske folkeskole var utilstrækkelig (EVA, 2004a;

2004b). Tilsvarende havde en OECD-rapport om grundskolen fra 2004 (OECD, 2004) påpeget,

at den danske evalueringskultur var utilfredsstillende, og at der derfor var behov for at styrke

arbejdet med at følge elevernes faglige resultater systematisk.

Testene er skabt som både et pædagogisk redskab og et styringsredskab

Formålet med de nationale test er todelt. De er skabt til at være såvel et pædagogisk redskab

som et styringsredskab.

Figur 3.1

Testenes dobbelte formål

Styringsredskab

(L 170)

Pædagogisk redskab

(L 101)

Lov om ændring af lov om folkeskolen

(Styrket evaluering og anvendelse af

de nationale test som pædagogisk

redskab samt obligatoriske prøver mv.)

Lov om ændring af lov om folkeskolen

(Præcisering af folkeskolens formål,

ekstra timer i dansk og historie,

elevplaner, offentliggørelse af

landsresultater af test, præcisering af

det kommunale ansvar samt etablering

af nyt råd for evaluering og

kvalitetsudvikling af folkeskolen)

Formålet med testene er at skabe et

pædagogisk evalueringsredskab, der

kan bidrage til en nuanceret vurdering

af den enkelte elevs udbytte af

udvalgte undervisningsemner inden for

udvalgte fag på bestemte klassetrin.

De nationale test er et styringsredskab

til at evaluere de enkelte skoler og

kommuner ud fra et landsresultat og

holde dem oppe på deres ansvar for at

forbedre elevernes resultater.

Kilde:

Undervisningsministeriet (2005; 2006)

Formålet med indførelsen var, at man gennem øget brug af viden om elevernes faglige niveau

kunne handle med rettidig omhu fra såvel lærerne, skolelederne, de kommunale forvaltninger

og på nationalt niveau (Børne- og Undervisningsministeriet, 2019a). Målet var, at man på den

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

måde bedre kunne sætte ind i tide i forhold såvel til den enkelte elevs behov og tilrettelægge

undervisningen for et bedre fagligt udbytte som klassens eller skolens behov. I 2006 vedtog

Folketinget indførelsen af de nationale test med udgangspunkt i ”Lov om ændring af lov om

folkeskolen (styrket evaluering og anvendelse af de nationale test som pædagogisk redskab

samt obligatoriske prøver mv.)”. De nationale test var ét blandt flere elementer i et lovforslag

fra december 2005 om fornyelse af folkeskolen for at forbedre det faglige niveau blandt ele-

verne gennem styrket, løbende evaluering i folkeskolen.

Den første obligatoriske testrunde blev gennemført i foråret 2010. Resultaterne fra de nationale

test anvendes blandt andet til at følge den faglige udvikling på landsplan. Der er senest med

folkeskolereformen i 2014 formuleret tre nationale mål for udvikling af folkeskolen, der skal

danne afsæt for alle initiativer i folkeskolen og fungere som målestok for opfølgningen på, hvor-

vidt kommuners og skolers tiltag til udvikling af folkeskolen er lykkedes.

Nationale mål for folkeskolens udvikling



Folkeskolen skal udfordre alle elever, så de bliver så dygtige, de kan.

Folkeskolen skal mindske betydningen af social baggrund i forhold til faglige resultater.

Tilliden til og trivslen i folkeskolen skal styrkes blandt andet gennem respekt for professionel

viden og praksis.

De nationale test spiller en central rolle i forhold til at vurdere, hvorvidt de to første af de tre

mål realiseres. De tre mål er operationaliseret i fire måltal, som danner afsæt for opfølgning

på, hvorvidt målene indfris. I den sammenhæng spiller de nationale test en afgørende rolle,

idet de indgår som datagrundlag for vurdering af, hvorvidt kommuner og skoler realiserer de

tre første af måltallene.

Nationale måltal for folkeskolens udvikling

Mindst 80 % af eleverne skal være gode til at læse og regne i nationale test.

Andelen af de allerdygtigste elever i dansk og matematik skal stige år for år.

Andelen af elever med dårlige resultater i nationale test for læsning og matematik skal reduceres

år for år.

Elevers trivsel skal øges.

3.2

Testenes indhold

Ti obligatoriske test og op til 32 frivillige

Der er ti obligatoriske nationale test i folkeskolen fordelt på fire fag. De fire fag er dansk (læs-

ning)

, matematik, engelsk og fysik/kemi. Alle elever, der undervises efter folkeskoleloven, skal

gennemføre de obligatoriske test i udvalgte fag og på bestemte klassetrin. Elever kan i særlige

tilfælde fritages. I de obligatoriske testfag er det muligt at tage samme test frivilligt før og efter

den obligatoriske testrunde.

I faget dansk testes alene i kompetenceområdet læsning.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Derudover er der i tre fag test, der kan tages på frivillig basis. De tre fag er geografi, biologi og

dansk som andetsprog. Alle grundskoler (folkeskoler, specialskoler, privatskoler, friskoler og

efterskoler mv.) kan gennemføre de nationale test på frivillig basis.

Testene kan gennemføres i to perioder: En i efteråret og en i foråret. I efteråret kan de frivillige

test gennemføres, mens der både kan gennemføres frivillige og obligatoriske test i perioden

fra d. 1. marts til og med den 30. april. Nedenstående oversigt viser testene, samt hvorvidt de

er obligatoriske eller alene kan tages som frivillige test.

Tabel 3.1

Oversigt over obligatoriske og frivillige nationale test

Fag og klassetrin

Dansk (læsning)

Matematik

Engelsk

Fysik/kemi

Biologi

Geografi

Dansk som andetsprog

Frivillige test målrettet klassetrinet over eller under

Obligatoriske test målrettet klassetrinnet

Frivillige test målrettet klassetrinnet

3.2.1

Testenes form

De nationale test har følgende otte grundlæggende karakteristika:

Karakteristika

Hver test består af tre faglige

profilområder

Uddybende beskrivelse

De nationale test tester et afgrænset område af fagene, og i hvert fag testes ele-

verne inden for tre faglige profilområder. Profilområderne er ens på tværs af klas-

setrin på nær engelsk, hvor der er forskel i 4. (lytning) og 7. (sprog og sprogbrug)

klassetrin. Hver opgave i testen er tilknyttet ét af de tre profilområder.

Testene gennemføres på computer eller tablet online.

Rasch-modellen er en statistisk model, hvor elevens dygtighed og opgavens

sværhedsgrad måles på én og samme skala. Elevens dygtighed er defineret som

sværhedsgraden på den opgave, hvor eleven har lige så stor sandsynlighed for at

svare rigtigt og forkert. Alle opgaver i testen lever op til modellens krav.

I testen er det ikke antallet af korrekte svar, der er af betydning for, hvor dygtig te-

sten vurderer eleven til at være. Det er derimod sværhedsgraden af de opgaver,

som eleven besvarer, der har betydning for, hvor dygtig testen vurderer eleven til

at være.

De er adaptive

Det adaptive princip betyder, at testen tilpasser opgavernes sværhedsgrad til ele-

ven i et forsøg på at tilpasse sig elevens faglige niveau. Testen individualiseres

således, så eleverne ikke modtager de samme opgaver. Når der eksempelvis sva-

res forkert på en opgave, vil den næste opgave have en lavere sværhedsgrad, og

omvendt hvis man svarer rigtigt. Det betyder, at de svageste elever også får opga-

ver, som de kan svare på, og at de dygtigste elever også får opgaver, de ikke kan

svare på.

Tilpasningen sker på baggrund af en bagvedliggende algoritme, der trækker opga-

ver, hvis sværhedsgrad er baseret på elevens estimerede dygtighed.

De er it-baserede

De er baseret på Rasch-mo-

dellen

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Karakteristika

De er selvscorende

Der gives en tilbagemelding

pr. profilområde samt en

samlet vurdering

Uddybende beskrivelse

Programmet bag de nationale test beregner resultatet for den enkelte elev. Det er

således ikke lærerne, der bedømmer testbesvarelserne.

Eleven får en samlet vurdering af præstationen. Eleven kan også få en tilbagemel-

ding pr. profilområde.

Elevens lærer har mulighed for at se, hvordan eleven klarer sig overordnet pr. pro-

filområde samt på de enkelte opgaver og herunder tidsforbruget.

Testen tager minimum 45 min. De fleste elever gennemfører på denne tid. I de til-

fælde, at programmet ikke har fundet en tilfredsstillende vurdering i løbet af 45 mi-

nutter, har læreren mulighed for at forlænge den enkelte elevs test med 15 min ad

gangen. Der er også mulighed for at afslutte eller udsætte testen.

Resultaterne af de nationale test må ikke offentliggøres. Kommunerne må offent-

liggøre, om kommunen eller de enkelte skoler lever op til de nationale resultatmål,

og om kommunen eller de enkelte skoler har forbedret sig i forhold til sidste sko-

leår.

En test tager én lektion at

gennemføre (45 min.).

Resultaterne er ikke offent-

lige

3.2.2

Test- og prøvesystemet

Testene er digitalt-selvrettende og gennemføres online. Testene bookes og gennemføres i

test- og prøvesystemet på testogprøver.dk. Skolerne kan gennemføre test samme dag, som

de booker. I samme system genereres og tilgås testresultaterne fra testene.

Undervisningsministeriet har udarbejdet vejledninger om de nationale test til forældre, lærere i

alle fag, skoleledere, kommuner og lærere, som underviser elever med særlige behov og dansk

som andet sprog, samt vejledninger i resultatvisningerne af de nationale test (Undervisnings-

ministeriet, 2017; 2018a; 2018b; 2018c; 2018d; 2018e; 2018f).

Adgangen til testopgaver og resultater varierer med aktøren

Lærere, skoleledere og kommuner har adgang til testresultater på forskellige niveauer (hhv.

elevniveau, klasseniveau og skoleniveau). Resultaterne af testene er fortrolige og må alene

anvendes internt, når der foreligger en saglig grund. Børne- og Undervisningsministeriets vej-

ledninger til de enkelte aktører uddyber, hvilke aktører der må udveksle testresultater med

hvem. Anonymiserede testresultater må heller ikke offentliggøres.

Læreren skal som minimum give eleven og forældrene en skriftlig tilbagemelding om testresul-

tatet af de obligatoriske test. Det er ikke fastlagt, hvornår tilbagemeldingen skal foregå, og det

er således ikke fastlagt, at den skriftlige tilbagemelding skal se umiddelbart efter testgennem-

førelsen. Børne- og Undervisningsministeriet har udarbejdet to tilbagemeldingsskabeloner til

fri afbenyttelse. Det er dog frivilligt, om man vil bruge disse eller udarbejde egne skriftlige tilba-

gemeldinger.

Fortroligheden gælder også testopgaver. Det er dermed ikke lovligt at offentliggøre testopga-

ver, hverken mundtligt eller skriftligt. Dette gælder også i tilbagemeldingen til elever og foræl-

dre. Det betyder, at man eksempelvis som lærer ikke må vise en opgave fra testen på klassen

efter testgennemførelse. Det skyldes, at testopgaverne bruges igen. Hvis testopgaverne bliver

kendt, for eksempel fordi de står i lærebøger, ændres deres sværhedsgrad (de bliver lettere),

og de får mindre værdi i testen.

3.2.3

Tilbagemeldingsformer

Testresultaterne kan vises på to forskellige måder: normbaseret og kriteriebaseret. De to tilba-

gemeldingsformer kan ikke umiddelbart sammenlignes, da de giver forskellig information om

eleverne (Børne- og Undervisningsministeriet, 2018c). Lærerne kan i dansk og matematik

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

vælge, om de anvender den normbaserede eller den kriteriebaserede i formidlingen til foræl-

drene. I de øvrige fag skal den normbaserede anvendes.

Den normbaserede tilbagemelding

Den normbaserede tilbagemelding viser, hvordan en elev og en klasse har klaret sig i testen

sammenlignet med første gang, der blev gennemført nationale test på landsplan. Det var i 2010

for de fleste fag og profilområder. Elevernes resultater vises på en skala fra 1-100. Hvis en

elev for eksempel har fået resultatet 75 på denne skala, er elevens resultat bedre end eller lige

så godt som 75 % af elevernes resultater i samme fag og test fra 2010. Den normbaserede

tilbagemelding kan anvendes i alle fag.

Den normbaserede skala viser ikke, hvor eleverne er i forhold til et ønsket fagligt niveau

(Børne- og Undervisningsministeriet, 2018c). 1-100 skalaen vises kun til lærerne og eventuelt

skolelederen. Det normbaserede resultat på 100-skalaen omsættes til fem kategorier, i formid-

lingen til elever og forældre (Børne- og Undervisningsministeriet, 2019b).



En del over gennemsnittet (91-100)

Over gennemsnittet (66-90)

Gennemsnittet (36-65)

Under gennemsnittet (11-35)

En del under gennemsnittet (1-10).

Den kriteriebaserede tilbagemelding

Den kriteriebaserede tilbagemelding er alene for dansk (læsning) og matematik. Resultatet

vises som et udtryk for elevernes faglige niveau i de dele af fagene, som testes. Skalaen er

udarbejdet i samarbejde med ministeriets opgavekommissioner. De har udvalgt repræsenta-

tive opgaver og vurderet, hvor mange og hvilke af disse opgaver en elev bør kunne besvare

rigtigt på hvert trin på skalaen.

Det kriteriebaserede resultatet anvendes i formidling til lærerne, hvor skalaen består af seks

kategorier:

1. Fremragende præstation

2. Rigtig god præstation

3. God præstation

4. Jævn præstation

5. Mangelfuld præstation

6. Ikke tilstrækkelig præstation.

3.2.4

Udvikling af testopgaver

Kontor for Prøver, Eksamen og Test i Styrelsen for Undervisning og Kvalitet (STUK) har det

overordnede ansvar for de nationale test. STUK beskikker eksterne fagpersoner til deltagelse

i opgavekommissioner, som er det producerende organ i udviklingen og revisionen af opgaver

til de nationale test. Hvert fag har en opgavekommission, som består af minimum to personer

med en formand. Formanden for opgavekommissionen har det overordnede ansvar for kvali-

tetssikringen og processen. Deltagerne i opgavekommissionerne producerer testopgaver in-

den for fagenes tilknyttede profilområder og vælger inden for, hvilke færdigheds- og videnom-

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

råder de falder. De vælger ligeledes, hvilken sværhedsgrad og opgavetype de producerer op-

gaver inden for. Når medlemmerne er færdige med at udvikle et antal testopgaver, har andre

tilknyttede personer, der skal kvalitetssikre, efterfølgende ansvar for at gennemgå hver enkelt

opgave for at sikre, at de lever op til kvalitetsfaktorerne.

Læringskonsulenterne i STUK har det overordnede ansvar for den faglige godkendelse af op-

gaverne. Når de er godkendt, bliver de sendt til Kontor for Prøver, Eksamen og Test i STUK.

Derefter afprøver Styrelsen for It og Læring (STIL) opgaven og foretager en analyse, bygget

på Rasch-modellen. Alle opgaverne er afprøvet på ca. 700 elever. Rasch-analysen er en sta-

tistisk analyse, der oprindeligt er udviklet til læseprøver og intelligenstest. I Rasch-modellen

bliver elevens dygtighed og opgavens sværhedsgrad målt på én og samme skala. Elevens

resultat (dygtighed) er defineret som sværhedsgraden på den opgave, hvor eleven har lige stor

sandsynlighed for at svare rigtigt og forkert. Selve testen handler altså om at finde ud af, hvor

svære opgaverne skal være, for at eleven har 50 % sandsynlighed for at svare rigtigt. Lidt

forenklet kan man sige, at jo sværere en opgave er, desto færre elever kan svare på den – og

omvendt. Man finder opgavernes sværhedsgrad ved at afprøve opgaverne empirisk. Rasch-

modellens styrke er, at den testmetodisk sikrer test, hvor resultatet er et godt udtryk for elever-

nes samlede resultat, mens en ulempe er, at opgaverne tester et forholdsvist snævert fagligt

område (Børne- og Undervisningsministeriet, 2018e).

3.2.5

Tidligere evaluering

Den seneste evaluering af de nationale test blev gennemført i 2013 (Rambøll, 2013). Det blev

i denne sammenhæng besluttet, at der skulle igangsættes en ny evaluering efter en femårig

periode. Derfor igangsatte Undervisningsministeriet i efteråret 2018 en evaluering af de natio-

nale test. VIVE blev i foråret 2019 kontaktet med henblik på udarbejdelse af evalueringen.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Litteratur

Undervisningsministeriet (2017).

Vejledning til nye resultatvisninger i de nationale test – til

lærere i alle fag.

København: Undervisningsministeriet.

Undervisningsministeriet (2018a).

Vejledning om de nationale test - til kommuner.

Køben-

havn: Undervisningsministeriet.

Undervisningsministeriet (2018b).

Vejledning om de nationale test - til lærere, som underviser

elever med særlige behov.

København: Undervisningsministeriet.

Undervisningsministeriet (2018c).

Vejledning om de nationale test - til skoleledere.

Køben-

havn: Undervisningsministeriet.

Undervisningsministeriet (2018d).

Vejledning til de frivillige nationale test i dansk som andet-

sprog.

København: Undervisningsministeriet.

Undervisningsministeriet (2018e).

Nationale test – information til forældre.

København: Un-

dervisningsministeriet.

Undervisningsministeriet (2018f).

Vejledning om de nationale test - til lærere i alle fag.

Kø-

benhavn: Undervisningsministeriet.

Børne- og Undervisningsministeriet (2019a).

Baggrundsnotat.

København: Undervisningsmi-

nisteriet.

Børne- og Undervisningsministeriet (2019b).

Standardbrev til formidling af resultater.

Køben-

havn: Undervisningsministeriet.

EVA (2004a).

Undervisningsdifferentiering i folkeskolen.

København: Danmarks Evaluerings-

institut – EVA.

EVA (2004b).

Løbende evaluering af elevernes udbytte af undervisningen i folkeskolen.

Kø-

benhavn: Danmarks Evalueringsinstitut – EVA.

OECD (2004).

OECD-rapport om grundskolen i Danmark - 2004.

København: Undervisnings-

ministeriet.

Rambøll (2013).

Evaluering af de nationale test i folkeskolen.

København: Rambøll.

Undervisningsministeriet (2005).

Lov om ændring af lov om folkeskolen L101.

København:

Undervisningsministeriet.

Undervisningsministeriet (2006).

Lov om ændring af lov om folkeskolen L170.

København:

Undervisningsministeriet.

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren