BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Børne- og Undervisningsudvalget 2019-20
BUU Alm.del Bilag 82
Offentligt

Evaluering af de statistiske aspekter

ved de nationale test

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 1 af 145

Indhold

Forord ...................................................................................................... 4

De nationale test .............................................................................. 4

Opgavebeskrivelse ........................................................................... 5

Udarbejdet materiale ....................................................................... 6

Notat 1 Algoritmen i testsystemet og beregning af

elevdygtigheden ............................................................................... 7

Sammenfatning ................................................................................ 7

Indledning ........................................................................................ 8

Rasch-modellen og beregning af elevdygtighed .............................. 8

Run-in perioden

Efter run-in perioden

Valg af opgaver i den adaptive algoritme ...................................... 10

Eksempler på valg af opgave i testforløb

Tjek af beregnet dygtighed og statistisk usikkerhed ..................... 17

Notat 2 De nationale tests måleegenskaber.................................. 24

Sammenfatning .............................................................................. 24

Indledning ...................................................................................... 25

Sammenhæng mellem testresultater og prøvekarakter ............... 25

Sammenhæng mellem testresultater og standpunktskarakter ..... 29

Sammenhæng mellem testresultater og PISA test ........................ 31

Notat 3 Den statistiske usikkerhed og testenes reliabilitet ........... 32

Sammenfatning .............................................................................. 32

Indledning ...................................................................................... 33

Den statistiske usikkerhed ............................................................. 33

Den statistiske usikkerhed og testenes stopkriterie

Den statistiske usikkerhed i de enkelte profilområder

Den statistiske usikkerhed og antal opgaver

Den statistiske usikkerhed og elevdygtigheden

Den statistiske usikkerhed og sikkerhedsintervaller...................... 40

Reliabiliteten .................................................................................. 42

Forslag til forbedringer af den statistiske sikkerhed ...................... 46

Antal opgaver

Polytome opgaver

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 2 af 145

Justering af algoritmen

Flere svære opgaver

Notat 4 Opgavebanken og opgavernes sværhedsgrad .................. 48

Sammenfatning .............................................................................. 48

Indledning ...................................................................................... 49

Opgaveafprøvningen ...................................................................... 49

Opgavebanken ............................................................................... 51

Stabiliteten af opgavernes sværhedsgrad over tid ........................ 53

Forskellen i opgavernes sværhedsgrad baseret på lineær og

adaptiv testadministration ..................................................... 54

Ændring over tid

Opgavernes alder

Opgavernes sværhedsgrad

Forskel i beregnet elevdygtighed ................................................... 60

Notat 5 Samling af testresultater fra flere profilområder ............. 63

Sammenfatning .............................................................................. 63

Indledning ...................................................................................... 64

Korrelationen mellem elevresultater ............................................. 64

Antal besvarede opgaver og SEM i profilområderne ..................... 65

Analyse af mulighed for anvendelse af én Rasch-model pr. test .. 65

Samlet elevdygtighed ..................................................................... 66

Bilag 1.1 Anvendte skalaer til præsentation af elevernes beregnede

dygtigheder .................................................................................... 68

Bilag 1.2 Opgavebanken i dansk læsning 8. klasse

–

sprogforståelse ... 70

Bilag 2.1 Sammenhæng mellem testresultater og karakterer .............. 81

Bilag 3.1 Statistisk usikkerhed på elevdygtighederne ........................... 84

Bilag 3.2 Reliabilitet ............................................................................... 92

Bilag 4.1 Opgaveafprøvningsperioder ................................................... 95

Bilag 4.2 Skærmdumps fra RUMM ........................................................ 98

Dansk læsning 2. klasse

–

sprogforståelse

Dansk læsning 2. klasse

–

afkodning

103

Dansk læsning 2. klasse

–

tekstforståelse

106

Dansk læsning 4. klasse

–

sprogforståelse

111

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 3 af 145

Matematik 3. klasse

–

geometri og måling

Matematik 6. klasse

–

tal og algebra

115

120

Bilag 4.3 Opgavebankens sammensætning i forhold til opgavernes

sværhedsgrad ............................................................................... 124

Bilag 4.4 Sammenhæng mellem elevernes dygtighed og opgavernes

sværhedsgrad ............................................................................... 125

Bilag 4.5 Undersøgelse af link-opgavernes ændrede sværhedsgrad .. 136

Bilag 4.6 Forskel i opgavernes sværhedsgrad...................................... 141

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 4 af 145

Forord

De nationale test

Der er ti obligatoriske nationale test i folkeskolen (Figur 1), hvor hver test be-

står af tre faglige profilområder

. En test kan gennemføres på 45 minutter.

Figur 1 Frivillige og obligatoriske nationale test

Kilde:

www.uvm.dk/folkeskolen/elevplaner-nationale-test--trivselsmaaling-og-sprogproever/nationale-test

De nationale test er it-baserede, selvscorende og adaptive. At testene er

adaptive betyder, at opgaverne i et testforløb udvælges så de bedst muligt

passer til elevens dygtighedsniveau undervejs i forløbet. Dygtige elever får

de sværeste opgaver, mens elever med større faglige udfordringer får de let-

tere opgaver.

De første obligatoriske nationale test blev gennemført i folkeskolen i skole-

året 2009/2010.

https://www.uvm.dk/folkeskolen/elevplaner-nationale-test--trivselsmaaling-og-sprogproe-

ver/nationale-test/klassetrin-fag-og-profilomraader

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 5 af 145

Børne- og undervisningsministeren igangsatte en evaluering af de nationale

test i 2018. I den forbindelse blev der nedsat en rådgivningsgruppe bestå-

ende af forskere og praktikere, der blandt andet skulle rådgive i forhold til

indholdet af evalueringen af de nationale test.

Evalueringsspørgsmålene er udarbejdet på baggrund af anbefalinger fra råd-

givningsgruppen.

Opgavebeskrivelse

Evalueringen af de nationale test består af to dele:

1. Validering af teknisk beregning

2. Undersøgelse af betydningen og brugen af de nationale test

Under delopgave 1 skal følgende evalueringsspørgsmål besvares:

Regner de nationale test rigtigt?

Ved besvarelse af spørgsmålet skal den kritik, der rejses af den statisti-

ske sikkerhed og reliabiliteten i de nationale test adresseres. Herunder

skal det klarlægges om:

a. opgavernes sværhedsgrader stadig er korrekte?

b. opgaverne fortsat passer til Rasch-modellen?

c. det er muligt at forbedre den adaptive algoritme med henblik på at

reducere den statistiske usikkerhed?

2. Det skal afdækkes, om sikkerheden i målingerne af elevernes færdighe-

der kan forbedres ved at kombinere resultater fra forskellige profilområ-

der? Herunder sigter spørgsmålet på at klarlægge følgende:

a. Kan det påvises, at profilområderne måler forskellige aspekter af

den samme bagvedliggende færdighed?

b. Som følge af spørgsmål a: Kan testresultaterne fra profilområderne

slås sammen og dermed forbedre sikkerheden i testene?

Styrelsen for It og Læring (STIL) under Børne- og undervisningsministeriet har

tidligere undersøgt mange af evalueringens temaer og formidlet disse på

www.uvm.dk

. Børne- og undervisningsministeriet har derfor bedt STIL om at

foretage analyserne knyttet til delopgave 1. Evalueringen af de statistiske

aspekter ved de nationale test (delopgave 1) samler de tidligere gennem-

førte analyser og supplerer disse med opdaterede data og nye analyser.

https://www.uvm.dk/folkeskolen/elevplaner-nationale-test--trivselsmaaling-og-sprogproe-

ver/nationale-test/om-de-nationale-test

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 6 af 145

Udarbejdet materiale

Til besvarelse af evalueringens delopgave 1 er der udarbejdet 5 notater med

tilhørende bilag:



Notat 1. Algoritmen i testsystemet og beregning af elevdygtigheden



Bilag 1.1. Anvendte skalaer til præsentation af elevernes beregnede

dygtigheder



Bilag 1.2. Opgavebanken i dansk læsning 8. klasse - sprogforståelse



Notat 2. De nationale tests måleegenskaber



Bilag 2.1. Sammenhæng mellem testresultater og karakterer



Notat 3. Den statistiske usikkerhed og testenes reliabilitet



Bilag 3.1. Statistisk usikkerhed på elevdygtighederne



Bilag 3.2. Reliabilitet



Notat 4. Opgavebanken og opgavernes sværhedsgrad



Bilag 4.1. Opgaveafprøvningsperioder



Bilag 4.2. Skærmdumps fra RUMM



Bilag 4.3. Opgavebankens sammensætning i forhold til opgavernes

sværhedsgrad



Bilag 4.4. Sammenhæng mellem elevernes dygtighed og opgaver-

nes sværhedsgrad



Bilag 4.5. Undersøgelse af link-opgavernes ændrede sværhedsgrad



Bilag 4.6. Forskel i opgavernes sværhedsgrad



Notat 5. Samling af testresultater fra flere profilområder

De 5 notater inklusiv bilag er samlet i denne rapport.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 7 af 145

Notat 1 Algoritmen i testsystemet og beregning af elev-

dygtigheden

Sammenfatning



Den adaptive algoritme i testsystemet fungerer efter hensigten både i

forhold til valg af opgaver fra opgavebanken og i forhold til beregning af

elevdygtigheden og den statistiske usikkerhed



I testsystemet vælges opgaverne til elevernes testforløb, så de passer til

elevens dygtighed. Eksempler illustrerer, hvordan algoritmen virker



De beregnede elevdygtigheder og tilhørende statistiske usikkerheder i

testsystemet i dansk læsning 8. klasse og matematik 6. klasse fra de obli-

gatoriske nationale test i 2018 er sammenlignet med tilsvarende bereg-

nede elevdygtigheder og usikkerheder ved anvendelse af det kommerci-

elle software program RUMM



Der er ingen statistisk signifikant forskel mellem elevdygtighederne be-

regnet i testsystemet og beregnet i RUMM. Den gennemsnitlige forskel

er på 0,02 logit



Beregningerne viser overensstemmelse indenfor ±0,1 logit mellem elev-

dygtighederne beregnet i testsystemet og i RUMM for over 99,2 % af

alle elevforløb og overensstemmelse indenfor ±0,2 logit mellem elev-

dygtighederne beregnet i testsystemet og i RUMM for over 99,7 % af

alle elevforløb

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 8 af 145

Indledning

I evalueringen af de nationale test skal følgende spørgsmål besvares:

Regner de nationale test rigtigt?

For at svare på spørgsmålet er det først og fremmest vigtigt at vurdere, om

algoritmen i testsystemet fungerer efter hensigten.

I notatet beskrives, hvordan opgaverne fra opgavebanken vælges til elever-

nes testforløb, og hvordan elevernes dygtighed beregnes. De elevdygtighe-

der, der beregnes i testsystemet, sammenholdes med elevdygtighederne be-

regnet i et kommercielt software program.

Formålet er således, at vurdere om elevernes dygtighed beregnes rigtigt i

testsystemet.

Notatet indeholder følgende afsnit:



Rasch-modellen og beregning af elevdygtigheden



Valg af opgaver i den adaptive algoritme



Sammenligning af beregnet elevdygtighed og statistisk usikkerhed i test-

system med tilsvarende beregnet i kommercielt software

Rasch-modellen og beregning af elevdygtighed

De nationale test er baseret på Rasch-modellen

3,4

. Rasch-modellen er en

sandsynlighedsmodel, der i den simpleste udgave, kaldet det dikotome til-

fælde, giver sandsynligheden for, at en elev nummer

med dygtighedspara-

meteren



svarer rigtigt (svarende til scoringen

=1)

på item

nummer

med item sværhedsparameteren

Sandsynligheden for, at en elev svarer rigtigt på et item, afhænger således

kun af elevens dygtighed



(theta) og opgavens sværhed

(beta).

I Rasch-modellen optræder itemsværheder og elevdygtigheder på samme

skala. Skalaen kaldes logit-skalaen

. Anvendte skalaer i de nationale test ses i

Bilag 1.1.

��{��

��



−��½

��

= �� } =

+ ��



−��½

��

Rasch, G.: Probabilistic Models for Some Intelligence and Attainment Tests. Danish Na-

tional Institute for Educational Research, Copenhagen 1960.

Karl Bang Christensen, Svend Kreiner, Mounir Mesbah (edt): Rasch Models in Health. Wiley

2013.

I Rasch-modellen anvendes begrebet item i stedet for opgave.

Logits er en transformation med den naturlige logaritme af odds, p/(1-p), hvor p er sand-

synligheden for at svare rigtigt på et item.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 9 af 145

Rasch-modellen kan udvides til at inkludere items med flere subitems, såle-

des at scoringen

kan antage højere heltalsværdier end 1 svarende til, at

flere subitems er besvaret korrekt. Items med flere subitems kaldes poly-

tome items.

Det polytome tilfælde resulterer i en lidt mere kompliceret matematisk mo-

del med flere parametre, de såkaldte tærskelværdier



og

en størrelse

der angiver den maksimale scoring for det polytome item:

Det ses, at det dikotome tilfælde er indeholdt i modellen med

=1 og



=0.

I de nationale test anvendes en blanding af dikotome og polytome items.

Tærskelværdierne for de enkelte items i opgavebanken er beregnet på bag-

grund af opgaveafprøvningerne.

Opgavernes sværhedsgrad, location, beregnes som gennemsnittet af de ikke-

centraliserede tærskelværdier.

Ved at anvende de estimerede tærskelværdier for opgaverne i opgaveban-

ken kan elevernes dygtighed beregnes. Elevernes dygtighed beregnes som

maximum likelihood estimatet af person parameteren,



.Tilsvarende kan

den statistiske usikkerhed, Standard Error of Measurement (SEM), på elev-

dygtigheden beregnes.

I testsystemets algoritme håndteres elevforløb uden for intervallet ±7 logit

ikke. Dvs. alle elevdygtigheder under -7 logit sættes lig med -7 og alle elev-

dygtigheder over +7 logit sættes lig med +7.

Enkelte elevforløb er såkaldte ekstreme forløb. Et ekstremt forløb i denne

sammenhæng er, når eleven enten svarer forkert eller rigtigt på alle opgaver.

Dette giver problemer i beregningerne, da værdier, der anvendes, kan

nærme sig uendeligt. Beregningen af elevdygtigheden i ekstreme forløb

håndteres ved at ændre elevens samlede score med +0,22 ved ekstremt lav

score og -0,22 ved ekstremt høj score.

Selve algoritmen til valg af opgaver fra opgavebanken og beregning af elever-

nes dygtighed i testsystemet er programmeret i C#, og beregningen af elev-

dygtigheden foregår iterativt ved anvendelse af bisektion metoden.

I testsystemets

algorit e skel es

ter run-i

’.

elle

’ru

-i

periode ’ og ’periode ef-

��{��

��

= �� } =

��

∑

��=

��

−�� −�� …−�� +��



−��½��

��

−�� −�� …−�� +��



−��½��

{1}

Run-in perioden

Run-in perioden defineres ved de tre første opgaver i hvert profilområde.

Eleven starter med en dygtighed, der passer til en middelsvær opgave i det

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 10 af 145

pågældende profilområde. Startværdien på logit-skalaen for elevens dygtig-

hed afhænger således af det enkelte profilområde.

Svarer eleven forkert, nedsættes elevens dygtighed med en fast step-værdi.

Svarer eleven rigtigt, forhøjes elevens dygtighed med step-værdien. Step-

værdien afhænger af spredningen på opgavernes sværhedsgrad i det enkelte

profilområde. Step-værdien er på 0,25 eller 0,50 logit afhængigt af profilom-

råde.

Efter elevens besvarelse på anden opgave gentages ovenstående fastsæt-

telse af elevdygtigheden.

Efter besvarelse af tredje opgave beregnes elevens dygtighed for første gang

–

baseret på elevens besvarelser på de tre opgaver.

Efter run-in perioden

Elevens dygtighed beregnes efter hver besvarelse efter run-in perioden ifølge

modellen {1}. Beregningen baseres på elevens besvarelser af alle foregående

opgaver samt på opgavernes sværhedsgrad.

Valg af opgaver i den adaptive algoritme

Valg af opgaver fra opgavebanken til elevernes testforløb foregår efter det

adaptive princip. Hvis eleven svarer rigtigt på en opgave, da vil næste opgave

være med en større sværhedsgrad. Hvis eleven svarer forkert, vil næste op-

gave være med en mindre sværhedsgrad.

Valg af den næste opgave i en elevs testforløb i de nationale test foregår ved,

at vælge den opgave, der har en sværhedsgrad, der er lig med eller ligger så

tæt som muligt på elevens dygtighed. Derved opnås den højeste statistiske

informationsværdi og den mindst mulige statistiske usikkerhed på beregnin-

gen af elevens dygtighed.

I den adaptive algoritme søges efter opgaver i et interval omkring elevens ak-

tuelt beregnede dygtighed i følgende rækkefølge:

Elevens beregnede dygtighed ± 0,1 logit

Elevens beregnede dygtighed ± 0,2 logit

Elevens beregnede dygtighed ± 0,5 logit

Elevens beregnede dygtighed ± 1,0 logit

Elevens beregnede dygtighed ligger tættest muligt på opgavens svær-

hedsgrad

Blandt de opgaver, der ligger i intervallet, vælges den aktuelle opgave sim-

pelt tilfældigt. Der kan ikke vælges opgaver, eleven allerede har fået i samme

testforløb.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 11 af 145

Søgning efter den næste opgave starter således i et lille interval (± 0,1 logit)

omkring elevens dygtighed. Findes ingen opgaver her, eller har eleven alle-

rede fået alle de opgaver, der lå i intervallet, da udvides intervallet til ± 0,2

logit. Findes heller ingen opgaver her, da udvides søgeintervallet til ± 0,5 lo-

git og endelig til ± 1,0 logit. Kan der stadig ikke findes en opgave, som eleven

ikke har besvaret tidligere i testforløbet, da vælges den opgave, der har en

sværhedsgrad tættest på elevens dygtighed.

I testsystemet skiftes mellem opgaver i de tre profilområder, testen består

af. Eleven får således stillet opgaver

e i rækkefølge , , , , , , , …,

hvor 1, 2 og 3 står for de tre profilområder. Når den statistiske usikkerhed på

elevens dygtighed er kommet under 0,55, eller eleven har besvaret 29 opga-

ver i et profilområde fortsættes udelukkende med opgaver i de øvrige profil-

områder.

Eksempler på valg af opgave i testforløb

Nedenstående tre eksempler viser hvilke opgaver, der vælges for den en-

kelte elev i ét profilområde. Der er valgt tre eksempler fra de obligatoriske

test i dansk læsning 8. klasse i foråret 2018. Alle tre eksempler stammer fra

profilområdet sprogforståelse.

Algoritmens valg af opgave fungerer fuldstændigt ens for alle test og profil-

områder. Eksemplerne er således repræsentative for algoritmens valg af op-

gaver uanset test, klassetrin og profilområde.

Startværdien for elevens dygtighed i dansk læsning 8. klasse sprogforståelse

er sat til 0,50 og step-værdien i run-in perioden er på 0,50.

Bilag 1.2 indeholder alle opgaver i opgavebanken i dansk læsning 8. klasse

sprogforståelse med tilhørende sværhedsgrad. Opgaverne er sorteret efter

stigende sværhedsgrad.

Nedenstående tabeller, der viser tre elevers testforløb, indeholder:



Svartidspunkt:

Dato og tid for elevens besvarelse af den pågældende

opgave



Theta:

Elevens dygtighed på logit skalaen når opgavens stilles



Opgavenummer:

Opgavens id-nummer i opgavebanken



Location:

Opgavens sværhedsgrad på logit skalaen



Afstand:

Forskellen på logit skalaen mellem elevens dygtighed og opga-

vens sværhedsgrad



Score:

Elevens antal rigtige i opgaven



Ny theta:

Elevens beregnede dygtighed efter besvarelse af opgaven



SEM:

Standard Error of Measurement. Den statistiske usikkerhed på ele-

vens beregnede dygtighed

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 12 af 145

Eksempel 1

Tabel 1.1 Elevforløb 1

Step

Svartidspunkt

07MAR18:11:17:54

07MAR18:11:19:24

07MAR18:11:21:47

07MAR18:11:23:42

07MAR18:11:26:28

07MAR18:11:29:14

07MAR18:11:31:09

07MAR18:11:33:39

07MAR18:11:36:52

07MAR18:11:38:45

07MAR18:11:41:20

07MAR18:11:45:13

07MAR18:11:48:24

07MAR18:11:49:55

07MAR18:11:54:22

07MAR18:11:56:54

07MAR18:11:59:32

07MAR18:12:01:19

Theta

0,500

1,000

0,500

1,414

2,050

1,557

1,180

0,872

1,140

1,385

1,182

1,000

1,182

1,347

1,202

1,343

1,474

1,357

Opgavenummer

0108010420155

0108010420129

0108010420043

010801000301234804-1

0108010415180

0108010420122

0108010410399

0108010420028

0108010420017

010801000301238997-1

0108010415109

0108010415118

0108010420056

0108010415153

0108010420160

010801000301239000-1

010801000301234820-1

0108010415151

Location

0,580

1,085

0,464

1,505

1,981

1,465

1,160

0,897

1,235

1,445

1,266

1,095

1,259

1,381

1,249

1,367

1,552

1,370

Afstand

-0,080

-0,085

0,036

-0,091

0,069

0,092

0,020

-0,025

-0,095

-0,060

-0,084

-0,095

-0,077

-0,034

-0,047

-0,024

-0,078

-0,013

Score

Ny theta

1,000

0,500

1,414

2,050

1,557

1,180

0,872

1,140

1,385

1,182

1,000

1,182

1,347

1,202

1,343

1,474

1,357

1,244

SEM

1,235

1,174

0,948

0,845

0,786

0,726

0,687

0,647

0,618

0,588

0,566

0,543

0,525

0,511

0,493

0,478

Kilde: Styrelsen for It og Læring

Step1. Run-in perioden. Eleven starter med en dygtighed på 0,5. Algoritmen

søger først efter opgaver i opgavebanken i intervallet 0,5 ± 0,1, dvs. i inter-

vallet 0,4-0,6. I intervallet findes 28 opgaver (Bilag 1.2), og algoritmen vælger

en opgave tilfældig blandt disse. Den valgte opgave har en sværhedsgrad på

0,580. Eleven svarer rigtigt (score=1) og den nye dygtighed forhøjes til 1,0.

Step2. Run-in perioden. Eleven har nu en dygtighed på 1,0 og algoritmen sø-

ger først efter opgaver i intervallet 0,9-1,1. I intervallet findes 21 opgaver (Bi-

lag 1.2), og algoritmen vælger en opgave tilfældig blandt disse. Den valgte

opgave har en sværhedsgrad på 1,085. Eleven svarer forkert (score=0) og

den nye dygtighed sættes til 0,5.

Step3. Run-in perioden. Eleven har nu en dygtighed på 0,5 og algoritmen sø-

ger først efter opgaver i intervallet 0,4-0,6. I intervallet findes 28 opgaver (Bi-

lag 1.2). Eleven har tidligere fået én af disse, så der er 27 opgaver tilbage i in-

tervallet, og algoritmen vælger en opgave tilfældig blandt disse. Den valgte

opgave har en sværhedsgrad på 0,464. Eleven svarer rigtigt (score=1). Eleven

har nu svaret på tre opgaver og elevens dygtighed kan beregnes for første

gang. På baggrund af elevens besvarelser på de tre opgaver samt ved anven-

delse af opgavernes estimerede tærskelværdier, beregnes elevens dygtighed

til 1,414 og den statistiske usikkerhed beregnes til 1,235.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 13 af 145

Step4. Eleven har nu en dygtighed på 1,414 og algoritmen søger først efter

opgaver i intervallet 1,314-1,514. I intervallet findes 12 opgaver (Bilag 1.2),

og algoritmen vælger en opgave tilfældig blandt disse. Den valgte opgave har

en sværhedsgrad på 1,505. Eleven svarer rigtigt (score=1), og elevens dygtig-

hed beregnes på baggrund af elevens besvarelser på de fire opgaver samt

ved anvendelse af opgavernes estimerede tærskelværdier. Elevens dygtighed

beregnes til 2,050 og den statistiske usikkerhed beregnes til 1,174.

Step5. Eleven har nu en dygtighed på 2,050 og algoritmen søger først efter

opgaver i intervallet 1,950-2,150. I intervallet findes 1 opgave (Bilag 1.2), og

algoritmen vælger denne. Opgaven har en sværhedsgrad på 1,981. Eleven

svarer forkert (score=0), og elevens dygtighed beregnes på baggrund af ele-

vens besvarelser på de fem opgaver samt ved anvendelse af opgavernes esti-

merede tærskelværdier. Elevens dygtighed beregnes til 1,557 og den statisti-

ske usikkerhed beregnes til 0,948.

Step6-Step18. Eleven svarer i alt på 18 opgaver i profilområdet, og efter hver

besvarelse vælges en opgave fra opgavebanken med en sværhedsgrad, der

ikke ligger mere end ± 0,1 logit fra elevens dygtighed. Dette ses af kolonnen

’Afsta d’ i Tabel

1.1.

Step1-Step18: Alle 18 opgaver findes i intervallet ± 0,1 logit fra elevens dyg-

tighed.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 14 af 145

Eksempel 2

Tabel 1.2 Elevforløb 2

Step

Svartidspunkt

24APR18:06:04:43

24APR18:06:08:44

24APR18:06:11:57

24APR18:06:14:17

24APR18:06:18:54

24APR18:06:23:18

24APR18:06:28:25

24APR18:06:29:42

24APR18:06:32:22

24APR18:06:34:32

24APR18:06:35:50

24APR18:06:39:07

24APR18:06:42:43

24APR18:06:43:39

24APR18:06:45:27

Theta

0,500

1,000

1,500

3,606

4,791

3,313

2,594

2,887

2,476

2,158

2,359

2,111

1,904

2,063

2,192

Opgavenummer

010801000301238555-1

0108010410384

010801000301234820-1

0108010410315

010801000301239196-1

010801000301234837-1

0108010420015

010801000301234841-1

0108010415180

010801000301234833-1

010801000301234828-1

0108010410094

0108010410379

0108010420095

0108010415124

Location

0,479

0,931

1,552

3,044

2,371

2,263

2,151

2,248

1,981

1,937

1,912

1,832

1,807

1,716

1,713

Afstand

0,021

0,069

-0,052

0,562

2,420

1,050

0,443

0,639

0,495

0,221

0,447

0,279

0,097

0,347

0,479

Score

Ny heta

1,000

1,500

3,606

4,791

3,313

2,594

2,887

2,476

2,158

2,359

2,111

1,904

2,063

2,192

2,304

SEM

2,229

2,259

1,193

0,932

0,885

0,774

0,709

0,677

0,634

0,603

0,579

0,560

0,545

Kilde: Styrelsen for It og Læring

Step1. Run-in perioden. Eleven starter med en dygtighed på 0,5. Algoritmen

søger først efter opgaver i opgavebanken i intervallet 0,5 ± 0,1, dvs. i inter-

vallet 0,4-0,6. I intervallet findes 28 opgaver (Bilag 1.2), og algoritmen vælger

en opgave tilfældig blandt disse. Den valgte opgave har en sværhedsgrad på

0,479. Eleven svarer rigtigt (score=1) og den nye dygtighed forhøjes til 1,0.

Step2. Run-in perioden. Eleven har nu en dygtighed på 1,0 og algoritmen sø-

ger først efter opgaver i intervallet 0,9-1,1. I intervallet findes 21 opgaver (Bi-

lag 1.2), og algoritmen vælger en opgave tilfældig blandt disse. Den valgte

opgave har en sværhedsgrad på 0,931. Eleven svarer rigtigt (score=1) og den

nye dygtighed sættes til 1,5.

Step3. Run-in perioden. Eleven har nu en dygtighed på 1,5 og algoritmen sø-

ger først efter opgaver i intervallet 1,4-1,6. I intervallet findes 11 opgaver (Bi-

lag 1.2), og algoritmen vælger en opgave tilfældig blandt disse. Den valgte

opgave har en sværhedsgrad på 1,552. Eleven svarer rigtigt (score=1). Eleven

har nu svaret på tre opgaver og elevens dygtighed kan beregnes for første

gang. På baggrund af elevens besvarelser på de tre opgaver samt ved anven-

delse af opgavernes estimerede tærskelværdier, beregnes elevens dygtighed

til 3,606 og den statistiske usikkerhed beregnes.

Step4. Eleven har nu en dygtighed på 3,606 og algoritmen søger først efter

opgaver i intervallet 3,506-3,706. Der findes ingen opgaver i opgavebanken i

dette interval. Dernæst søges i intervallet ± 0,2, dvs. i intervallet 3,406-3,806.

Der findes heller ingen opgaver i opgavebanken i dette interval. Dernæst sø-

ges i intervallet ± 0,5, dvs. i intervallet 3,106-4,106. Der findes heller ingen

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 15 af 145

opgaver i opgavebanken i dette interval. Dernæst søges i intervallet ± 1,0,

dvs. i intervallet 2,606-4,606. Der findes én opgave i dette interval med en

sværhedsgrad på 3,044 (Bilag 1.2) som vælges. Eleven svarer rigtigt

(score=1), og elevens dygtighed beregnes på baggrund af elevens besvarelser

på de fire opgaver samt ved anvendelse af opgavernes estimerede tærskel-

værdier. Elevens dygtighed beregnes til 4,791.

Step5. Eleven har nu en dygtighed på 4,791 og algoritmen søger først efter

opgaver i intervallet ± 0,1, dernæst i intervallet ± 0,2 og i intervallerne ± 0,5

og ± 1,0. Opgavebanken indeholder ingen opgaver i disse intervaller. Derfor

vælges den opgave med en sværhedsgrad, der ligger tættest på elevens dyg-

tighed, og som eleven ikke tidligere har fået. Denne opgave har en sværheds-

grad på 2,371. Eleven svarer forkert (score=0), og elevens dygtighed bereg-

nes på baggrund af elevens besvarelser på de fem opgaver samt ved anven-

delse af opgavernes estimerede tærskelværdier. Elevens dygtighed beregnes

til 3,313.

Step6. Eleven har nu en dygtighed på 3,313 og algoritmen søger først efter

opgaver i intervallet ± 0,1 og i intervallerne ± 0,2, ± 0,5 og ± 1,0. Opgaveban-

ken indeholder ingen opgaver i disse intervaller, som eleven ikke allerede har

fået. Derfor vælges den opgave med en sværhedsgrad, der ligger tættest på

elevens dygtighed, og som eleven ikke tidligere har fået. Denne opgave har

en sværhedsgrad på 2,263. Eleven svarer forkert (score=0), og elevens dyg-

tighed beregnes på baggrund af elevens besvarelser på de seks opgaver samt

ved anvendelse af opgavernes estimerede tærskelværdier. Elevens dygtighed

beregnes til 2,594.

Step7. Eleven har nu en dygtighed på 2,594 og algoritmen søger først efter

opgaver i intervallet ± 0,1 og i intervallet ± 0,2. Opgavebanken indeholder in-

gen opgaver i disse intervaller, som eleven ikke allerede har fået. Dernæst

søges i intervallet ± 0,5, dvs. i intervallet 2,094-3,094. . I intervallet findes 5

opgaver (Bilag 1.2). Eleven har tidligere fået tre af disse, så der er 2 opgaver

tilbage i intervallet, og algoritmen vælger en opgave tilfældig blandt disse.

Den valgte opgave har en sværhedsgrad på 2,151. Eleven svarer rigtig

(score=1), og elevens dygtighed beregnes på baggrund af elevens besvarelser

på de syv opgaver samt ved anvendelse af opgavernes estimerede tærskel-

værdier. Elevens dygtighed beregnes til 2,887.

Step8-Step15. Eleven svarer i alt på 15 opgaver i profilområdet. Forskellen

mellem elevens dygtighed og den valgt opgaves sværhedsgrad ses af kolon-

e ’Afsta d’ i

Tabel 1.2.

Step1-Step15: Fire opgaver findes i intervallet ± 0,1 logit fra elevens dygtig-

hed, syv opgaver skal findes i intervallet ± 0,5 logit, to opgaver skal findes i

intervallet ± 1,0 logit, mens to af opgaverne ligger med en sværhedsgrad

mere end ± 1,0 logit fra elevens dygtighed.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 16 af 145

Eksempel 3

Tabel 1.3 Elevforløb 3

Step

Svartidspunkt

12APR18:07:00:26

12APR18:07:04:10

12APR18:07:09:16

12APR18:07:10:30

12APR18:07:12:30

12APR18:07:16:22

12APR18:07:22:00

12APR18:07:24:07

12APR18:07:25:44

12APR18:07:28:41

12APR18:07:30:48

12APR18:07:35:29

12APR18:07:39:59

12APR18:07:43:02

12APR18:07:47:25

12APR18:07:50:20

12APR18:07:52:16

Theta

0,500

1,000

1,500

1,741

2,384

2,959

3,550

2,842

3,089

3,275

2,835

2,973

3,091

2,772

2,866

2,614

2,700

Opgavenummer

0108010420043

0108010410084

010801000301234804-1

0108010410094

010801000301239196-1

0108010410315

010801000301234837-1

010801000301234841-1

0108010420015

0108010415180

010801000301234833-1

010801000301234828-1

0108010410379

0108010420095

0108010415124

010801000301234824-1

010801000301236068-1

Location

0,464

1,081

1,505

1,832

2,371

3,044

2,263

2,248

2,151

1,981

1,937

1,912

1,807

1,716

1,713

1,685

1,649

Afstand

0,036

-0,081

-0,005

-0,091

0,013

-0,085

1,287

0,594

0,938

1,294

0,898

1,061

1,284

1,056

1,153

0,929

1,051

Score

Ny theta

1,000

1,500

1,741

2,384

2,959

3,550

2,842

3,089

3,275

2,835

2,973

3,091

2,772

2,866

2,614

2,700

2,776

SEM

1,248

1,180

1,152

1,148

0,885

0,853

0,831

0,718

0,700

0,686

0,620

0,609

0,564

0,554

0,546

Kilde: Styrelsen for It og Læring

Step1. Run-in perioden. Eleven starter med en dygtighed på 0,5. Algoritmen

søger først efter opgaver i opgavebanken i intervallet 0,5 ± 0,1, dvs. i inter-

vallet 0,4-0,6. I intervallet findes 28 opgaver (Bilag 1.2), og algoritmen vælger

en opgave tilfældig blandt disse. Den valgte opgave har en sværhedsgrad på

0,464. Eleven svarer rigtigt (score=1) og den nye dygtighed forhøjes til 1,0.

Step2. Run-in perioden. Eleven har nu en dygtighed på 1,0 og algoritmen sø-

ger først efter opgaver i intervallet 0,9-1,1. I intervallet findes 21 opgaver (Bi-

lag 1.2), og algoritmen vælger en opgave tilfældig blandt disse. Den valgte

opgave har en sværhedsgrad på 1,081. Eleven svarer rigtigt (score=1) og den

nye dygtighed sættes til 1,5.

Step3. Run-in perioden. Eleven har nu en dygtighed på 1,5 og algoritmen sø-

ger først efter opgaver i intervallet 1,4-1,6. I intervallet findes 11 opgaver (Bi-

lag 1.2), og algoritmen vælger en opgave tilfældig blandt disse. Den valgte

opgave har en sværhedsgrad på 1,505. Eleven svarer forkert (score=0). Ele-

ven har nu svaret på tre opgaver og elevens dygtighed kan beregnes for før-

ste gang. På baggrund af elevens besvarelser på de tre opgaver samt ved an-

vendelse af opgavernes estimerede tærskelværdier, beregnes elevens dygtig-

hed til 1,741 og den statistiske usikkerhed beregnes til 1,248.

Step4. Eleven har nu en dygtighed på 1,741 og algoritmen søger først efter

opgaver i intervallet 1,641-1,841. I intervallet findes 6 opgaver (Bilag 1.2), og

algoritmen vælger en opgave tilfældig blandt disse. Den valgte opgave har en

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 17 af 145

sværhedsgrad på 1,832. Eleven svarer rigtigt (score=1), og elevens dygtighed

beregnes på baggrund af elevens besvarelser på de fire opgaver samt ved an-

vendelse af opgavernes estimerede tærskelværdier. Elevens dygtighed be-

regnes til 2,384.

Step5. Eleven har nu en dygtighed på 2,384 og algoritmen søger først efter

opgaver i intervallet 2,284-2,584. I intervallet findes 1 opgave (Bilag 1.2), og

algoritmen vælger denne. Opgaven har en sværhedsgrad på 2,371. Eleven

svarer rigtigt (score=1), og elevens dygtighed beregnes på baggrund af ele-

vens besvarelser på de fem opgaver samt ved anvendelse af opgavernes esti-

merede tærskelværdier. Elevens dygtighed beregnes til 2,959.

Step6-Step17. Eleven svarer i alt på 17 opgaver i profilområdet. Forskellen

mellem elevens dygtighed og den valgt opgaves sværhedsgrad ses af kolon-

e ’Afsta d’ i Tabel

1.3.

Step1-Step17: Seks opgaver findes i intervallet ± 0,1 logit fra elevens dygtig-

hed, fire opgaver skal findes i intervallet ± 1,0 logit, mens syv af opgaverne

ligger med en sværhedsgrad mere end ± 1,0 logit fra elevens dygtighed.

Tjek af beregnet dygtighed og statistisk usikkerhed

For at undersøge om testsystemet beregner elevernes dygtighed og den sta-

tistiske usikkerhed (SEM) korrekt, er elevdygtighederne og SEM kontrolbe-

regnet i et kommercielt softwareprogram. Kontrolberegningerne er foreta-

get i softwareprogrammet RUMM

, der er udviklet på University of Western

Australia, Perth.

Elevdygtighederne i RUMM er beregnet ved anvendelse af Weighted Maxi-

mum Likelihood. I modsætning til testsystemet kan de beregnede elevdygtig-

heder i RUMM falde udenfor intervallet ±7.

Sammenligningen af de beregnede elevdygtigheder og SEM er foretaget for

dansk læsning 8. klasse og matematik 6. klasse. Der er anvendt elevbesvarel-

ser fra de obligatoriske test i foråret 2018.

Den absolutte forskel i beregnet elevdygtighed mellem testsystemet og

RUMM er:

absolut forskel = abs(theta(DNT)

–

theta(RUMM)),

hvor theta(DNT) er elevdygtigheden beregnet i testsystemet og

theta(RUMM) er elevdygtigheden beregnet ved anvendelse af RUMM.

www.rummlab.com.au

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 18 af 145

Tabel 1.4 Forskel i estimerede elevdygtigheder mellem testsystemet og

RUMM. Gennemsnit (SD)

Absolut forskel (logit)

Fag og klassetrin

Dansk læsning

8. klasse

Matematik

6. klasse

I alt

1) Ekskl. elever med ekstremt testforløb

Kilde: Styrelsen for It og Læring

Profilområde

Sprogforståelse

Afkodning

Tekstforståelse

Tal og algebra

Geometri

Statistik og sandsynlighed

Alle elever

0,02 (0,06)

0,02 (0,05)

0,02 (0,03)

0,03 (0,04)

0,03 (0,03)

0,02 (0,05)

0,02 (0,04)

Ekskl. ekstreme

0,02 (0,03)

0,02 (0,02)

0,03 (0,03)

0,02 (0,03)

Den gennemsnitlige absolutte forskel mellem elevdygtighederne beregnet i

testsystemet og beregnet i RUMM er på 0,02-0,03 logit afhængig af profilom-

råde (Tabel 1.4). Elevdygtighederne beregnet i testsystemet er ikke statistisk

signifikant forskellig fra elevdygtighederne i RUMM.

Tabel 1.5 viser, at 99,2 % af alle elevdygtighederne beregnes på samme

måde (indenfor ±0,1) i testsystemet som i RUMM. Ses bort fra elever med

ekstremt elevforløb, da beregnes 99,3 % af alle elevdygtighederne på samme

måde i testsystemet som i RUMM.

Tabel 1.5 Fordeling af absolut forskel i estimerede elevdygtigheder mellem

testsystemet og RUMM. Samlet for dansk læsning 8. klasse og matematik

6. klasse 2018

Interval

0,0

–

0,1

0,0

–

0,2

0,0

–

0,3

0,0

–

0,4

0,0

–

0,5

0,5 +

1) Forskel på logit-skalaen

Kilde: Styrelsen for It og Læring

Alle elever

99,2 %

99,7 %

99,8 %

99,9 %

<0,1 %

Ekskl. elever med ekstremt forløb

99,3 %

99,8 %

99,9 %

99,99 %

99,999 %

<0,001 %

De få og små afvigelser, der er mellem de beregnede elevdygtigheder, kan

sandsynligvis tilskrives forskel i den anvendte præcision. Desuden kan for-

skellen ligge i forskellen på estimations metoden, dvs forskellen mellem

Weighted Maximum Likelihood og Unweighted Maximum Likelihood.

Figur 1.1 og 1.2 viser den store overensstemmelse, der er, i beregningen af

elevdygtighederne i testsystemet og i RUMM. Figurerne viser de beregnede

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 19 af 145

elevdygtigheder i hvert af de tre profilområder i henholdsvis dansk læsning

8. klasse og matematik 6. klasse.

De røde punkter viser beregnede elevdygtigheder for elever med ekstreme

forløb.

Figur 1.3 og 1.4 viser tilsvarende fin overensstemmelse mellem beregnin-

gerne af SEM i testsystemet og i RUMM. De elevforløb, hvor der er en afvi-

gelse i den beregnede SEM, er primært elevforløb med en SEM over 0,55.

Her gælder, at den beregnede statistiske usikkerhed i testsystemet er større

end den beregnede usikkerhed i RUMM.

Kontrolberegningerne i RUMM giver således samme elevdygtigheder og SEM

som beregnes i testsystemet.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 20 af 145

Figur 1.1 Sammenhæng mellem beregnet elevdygtighed i testsystemet

(Theta DNT) og i RUMM (Theta RUMM). Dansk læsning 8. klasse

Note: Røde dots er elever med ekstreme besvarelser

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 21 af 145

Figur 1.2 Sammenhæng mellem beregnet elevdygtighed i testsystemet

(Theta DNT) og i RUMM (Theta RUMM). Matematik 6. klasse

Note: Røde dots er elever med ekstreme besvarelser

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 22 af 145

Figur 1.3 Sammenhæng mellem beregnet statistisk usikkerhed i testsyste-

met (SEM DNT) og i RUMM (SEM RUMM). Dansk læsning 8. klasse

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 23 af 145

Figur 1.4 Sammenhæng mellem beregnet statistisk usikkerhed i testsyste-

met (SEM DNT) og i RUMM (SEM RUMM). Matematik 6. klasse

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 24 af 145

Notat 2 De nationale tests måleegenskaber

Sammenfatning



Der er en tydelig sammenhæng mellem elevernes resultater fra de nati-

onale test i dansk læsning og matematik og elevernes karakterer i såvel

standpunktsprøverne i 8. klasse som i folkeskolens prøver i 9. klasse



De nationale test og folkeskolens prøver når til relativt enslydende vur-

deringer af elevernes faglige niveau i de områder, hvor der testes



Der er en sammenhæng mellem elevernes resultater fra de nationale

test og resultaterne fra PISA-undersøgelserne

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 25 af 145

Indledning

I evalueringen af de nationale test skal følgende spørgsmål besvares:

Regner de nationale test rigtigt?

Et element i vurderingen af dette er, at undersøge om elevernes resultater

fra de nationale test stemmer overens med elevernes resultater fra andre til-

svarende test og prøver. En sådan egenskab omtales som testenes kriterieva-

liditet.

Hvis de nationale test beregner elevernes dygtighed forkert, må det forven-

tes, at sammenhængen mellem elevernes beregnede dygtigheder i de natio-

nale test og resultaterne fra andre test og elevvurderinger er begrænset.

For at få en indikation af om testene samlet set ser ud til at måle det samme

som andre tilsvarende test og prøver, kan man se på sammenhængen mel-

lem elevernes testresultat i de nationale test og deres efterfølgende præsta-

tion i de relevante dele af standpunktsprøverne i 8. klasse samt i folkeskolens

prøver i 9. klasse. Endvidere er det muligt at se på sammenhængen mellem

elevernes testresultater i de nationale test og elevernes senere PISA resulta-

ter. Begge dele er tidligere undersøgt af BUVM

8,9,10

I notatet beskrives sammenhængen mellem elevernes testresultater og hen-

holdsvis standpunktskarakterer, prøvekarakterer og PISA resultater.

Formålet er således, at vurdere om de nationale test måler den egenskab,

der forventes.

Notatet indeholder følgende afsnit:



Sammenhæng mellem testresultater og prøvekarakterer



Sammenhæng mellem testresultater og standpunktskarakterer



Sammenhæng mellem testresultater og PISA test

Sammenhæng mellem testresultater og prøvekarakter

Elevernes karakter i dansk, læsning i folkeskolens prøve i 9. klasse i

2017/2018 sammenholdes med elevernes testresultater i de obligatoriske

nationale test i dansk, læsning i 8. klasse i 2016/2017. Tilsvarende sammen-

holdes elevernes karakter i matematik uden hjælpemidler i folkeskolens

Børne- og undervisningsministeriet

https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf16/sep/160912-notat-om-natio-

nale-tests-maaleegenskaber.pdf

https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf17/jan/170110-kriteriebaserede-

test-delrapport-1.pdf

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 26 af 145

prøve i 9. klasse i 2017/2018 med elevernes testresultater i de obligatoriske

nationale test i matematik i 6. klasse i 2014/2015

(Figur 2.1 og Figur 2.2).

I Rasch-modellen beregnes elevernes dygtighed på logit-skalaen

. I testsy-

stemet omregnes resultaterne til den normbaserede skala, der er en simpel

percentilskala (1-100)

, ved anvendelse af en stykvis sigmoid funktion. I

dansk læsning og i matematik omregnes resultaterne endvidere til en krite-

riebaseret skala

på seks trin

I figurer og tabeller er anvendt den samlede vurdering af elevens testresul-

tat. På den normbaserede skala er den samlede vurdering lig med gennem-

snittet af elevens testresultater fra de tre profilområder. På den kriteriebase-

rede skala er den samlede vurdering

ligeledes baseret på elevens kriterie-

baserede testresultater fra hvert af de tre profilområder.

De nationale test i matematik 8. klasse startede først i 2017/2018

Logits er en transformation med den naturlige logaritme af odds, p/(1-p), hvor p er sand-

synligheden for at svare rigtigt på et item.

I formidlingen til elever og forældre bliver resultaterne på 100-skalaen omsat til: En del

under gennemsnittet (1-10), under gennemsnittet (11-35), gennemsnittet (35-65), over

gennemsnittet (66-90), en del over gennemsnittet (91-100)

https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf14/dec/141218-kriteriebaseret-

scoring-den-statistiske-model-bag.pdf

Ikke tilstrækkelig præstation, mangelfuld præstation, jævn præstation, god præstation,

rigtig god præstation og fremragende præstation

Det samlede testresultat opfattes som: 1) Fremragende, hvis præstationen har været

fremragende i mindst to profilområder og mindst god i det tredje. 2) Rigtig god, hvis præ-

stationen har været mindst rigtig god i mindst to profilområder og mindst jævn i det tredje.

3) God, hvis præstationen har været mindst god i to profilområder og mindst mangelfuld i

det tredje. 4) Jævn, hvis præstationen har været mindst jævn i to profilområder. 5) Mangel-

fuld, hvis præstationen har været mindst mangelfuld i to profilområder.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 27 af 145

Figur 2.1 Sammenhængen mellem resultaterne

fra de nationale test

(normbaseret skala) og karakterer fra folkeskolens prøver i 9. klasse i

2017/2018

1) Samlet vurdering

Kilde: Styrelsen for It og Læring

Gruppen af elever, der opnår mellem 31 og 40 point i samlet vurdering i de

obligatoriske nationale test i dansk, læsning 8. klasse får i gennemsnit 4,2 i

karakter ved folkeskolens prøver i 9. klasse, mens gruppen af elever, der op-

når mellem 81 og 90 point i samlet vurdering i de obligatoriske nationale test

i dansk, læsning 8. klasse får 8,6 i gennemsnit i karakter ved folkeskolens prø-

ver i 9. klasse (Figur 2.1).

Den samme tydelige sammenhæng ses mellem elevernes testresultater i ma-

tematik i 6. klasse og deres karakter tre år senere ved folkeskolens prøve i

matematik uden hjælpemidler i 9. klasse.

Karaktergennemsnit med tilhørende spredning fordelt efter elevernes dyg-

tighed i de nationale test findes i Bilag 2.1.

Tilsvarende sammenhæng mellem elevernes testresultater i de nationale

test og elevernes karakterer fra folkeskolens prøver i 9. klasse ses, når testre-

sultaterne omregnes til den kriteriebaserede skala (Figur 2.2).

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 28 af 145

Figur 2.2 Sammenhængen mellem resultaterne

fra de nationale test (krite-

riebaseret skala) og karakterer fra folkeskolens prøver i 9. klasse i 2017/2018

1) Samlet vurdering

Kilde: Styrelsen for It og Læring

Elevernes fordeling på karakterne ved folkeskolens prøver i 9. klasse i forhold

til elevernes testresultater på den kriteriebaserede skala i de nationale test

ses i Tabel 2.1.

Blandt de elever, der opnår en mangelfuld præstation i dansk læsning i de

nationale test i 8. klasse, får 64 procent højst karakteren 2 i dansk læsning

året efter ved folkeskolens prøve i 9. klasse, mens 90 procent højst får karak-

teren 4.

Blandt de elever, der opnår en rigtig god præstation i dansk læsning i de nati-

onale test i 8. klasse, får 67 procent karakteren 7 eller 10 i dansk læsning året

efter ved folkeskolens prøve i 9. klasse.

Blandt de elever, der opnår en fremragende præstation i matematik i de na-

tionale test i 6. klasse, får 87 procent karakteren 10 eller 12 i matematik

uden hjælpemidler tre år efter ved folkeskolens prøve i 9. klasse.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 29 af 145

Tabel 2.1 Elevernes testresultat

i de nationale test sammenholdt med ka-

rakteren fra folkeskolens prøve i 9. klasse i 2017/2018. Andel elever (pct.)

Fag og

klassetrin

Dansk

læsning

8. klasse

Testresultat

Ikke tilstrækkelig

Mangelfuld

Jævn

God

Rigtig god

Fremragende

Matematik

6. klasse

Ikke tilstrækkelig

Mangelfuld

Jævn

God

Rigtig god

Fremragende

1) Samlet vurdering

Kilde: Styrelsen for It og Læring

Karakter

-3

I alt

100

De nationale test i dansk læsning og i matematik beregner således elevresul-

tater, der ligger relativt tæt op ad elevernes karakterer i folkeskolernes prøve

i 9. klasse.

Den samme prædiktive validitet er flere forskere kommet frem til, blandt an-

det Louise Beuchert & Anne Nandrup fra Aarhus Universitet

Sammenhæng mellem testresultater og standpunktskarakter

Elevernes standpunktskarakter i dansk, læsning 8. klasse i 2017/2018 sam-

menholdes med elevernes testresultater i de obligatoriske nationale test i

dansk, læsning i 8. klasse samme år. Tilsvarende sammenholdes elevernes

standpunktskarakter i matematik uden hjælpemidler i 8. klasse i 2017/2018

med elevernes testresultater i de obligatoriske nationale test i matematik i 8.

klasse samme år (Figur 2.3 og Figur 2.4).

Louise V. Beuchert & Anne B. Nandrup. The Danish National Tests at a Glance. National-

økonomisk Tidsskrift 2018:2

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 30 af 145

Figur 2.3 Sammenhængen mellem resultaterne

fra de nationale test

(normbaseret skala) og standpunktskaraktererne i 8. klasse i 2017/2018

1) Samlet vurdering

Kilde: Styrelsen for It og Læring

Figur 2.4 Sammenhængen mellem resultaterne

fra de nationale test (kri-

teriebaseret skala) og standpunktskaraktererne i 8. klasse i 2017/2018

1) Samlet vurdering

Kilde: Styrelsen for It og Læring

Der ses den samme tydelige sammenhæng mellem testresultater og stand-

punktskarakterer fra 8. klasse som mellem testresultater og prøvekarakte-

rerne i 9. klasse.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 31 af 145

Sammenhæng mellem testresultater og PISA test

I en rapport fra konsulentfirmaet DAMVAD udarbejdet i samarbejde med

Svend Kreiner i 2014

påvises det, at der er en tydelig sammenhæng mellem

de resultater, eleverne opnår i de nationale test og i den internationale PISA-

undersøgelse, jf. boks 1. Dette gælder både for testene i dansk og matema-

tik.

Boks 1. Uddrag af Damvad-rapport om PISA og de nationale test (s. 5):

”Der er e tydelig sa

e hæ g elle resultater e fra de

ationale

test og resultaterne fra PISA-undersøgelserne. Sammenhængen kan ob-

serveres på tværs af profilområder i både læsning og matematik, men er

ikke ødve digvis jæv t fordelt.”

”De tydelige sa

e hæ g elle resultater e fra de atio ale test og

PISA betyder samtidig, at de to test uafhængigt af hinanden når til rela-

tivt enslydende vurderinger af elevers faglige niveauer. Det er en bekræf-

telse af, at de nationale test siger noget relevant om elevernes faglige ni-

veau i de o råder, hvori de testes.”

I projektet blev anvendt resultaterne fra PISA-undersøgelsen i 2012. Resulta-

terne fra de elever, der var udtrukket til PISA-undersøgelsen, blev koblet

med de samme elevers testresultater fra dansk, læsning i 8. klasse og fra ma-

tematik i 6. klasse.

I analysen af sammenhængen i dansk læsning indgik 4.162 elever med resul-

tater i såvel de nationale test som i PISA-undersøgelsen. I analysen fandtes

en statistisk signifikant korrelation mellem PISA-resultatet og resultaterne fra

hvert af de tre profilområder i de nationale test. Analysen blev foretaget på

Rasch-modellens logit-skala og viste den stærkeste korrelation (r=0,62) mel-

le PISAs læsetest og profilo rådet ’tekstforståelse’.

I rapporten konkluderedes

: ”Dette resultat u derstøtter, at der er e ko si-

stent sammenhæng mellem målingen af profilområder i de nationale test og

resultaterne i PISA-u

dersøgelse .”

Den faglige færdighed i læsning og matematik, der måles i de nationale test,

kan således relateres til den internationale PISA-undersøgelse.

PISA-relatering af de kriteriebaserede nationale test. DAMVAD 2014

(https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf17/jan/170110-kriteriebaserede-

test-delrapport-1.pdf)

s. 11 i delrapport-1

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 32 af 145

Notat 3 Den statistiske usikkerhed og testenes reliabilitet

Sammenfatning



Den statistiske usikkerhed på elevernes estimerede dygtighed kan be-

regnes i de nationale test



Den statistiske usikkerhed på elevernes estimerede dygtighed vises for

den enkelte lærer på resultatvisningerne i testsystemet



Den gennemsnitlige statistiske usikkerhed på elevernes estimerede dyg-

tighed er 0,46 logit.



Den gennemsnitlige statistiske usikkerhed er mindst i fysik/kemi i 8.

klasse (0,36 i profilområde 3) og størst i matematik i 8. klasse (0,54 i pro-

filområde 3)



Den statistiske usikkerhed er generelt størst for de dygtigste elever



93 procent af alle obligatoriske testforløb i skoleåret 2017/2018 blev af-

sluttet med en statistisk usikkerhed under 0,55 logit



Omregnes den statistiske usikkerhed til den normbaserede skala (1-

100), da er længden på 68 procent og 95 procent sikkerhedsintervallet

på henholdsvis ± 12 og ± 22 point



På den normbaserede skala er sikkerhedsintervallerne størst på midten

af skalaen



Reliabiliteten, angivet ved Person Separation Index, ligger i intervallet

0,74

–

0,91 for dansk læsning, matematik og engelsk, mens den ligger i

intervallet 0,66

–

0,70 for fysik/kemi.



Reliabiliteten, angivet ved Person Separation Index, ligger over 0,80 i 23

ud af 30 profilområder og under 0,80 i de resterende syv



Den statistiske sikkerhed kan forbedres ved at forlænge testtiden, såle-

des at eleven når at besvare flere opgaver. Øges testtiden, så antallet af

opgaver eleverne når at besvare øges fra de nuværende ca. 20 til 40, da

kan den bedst mulige statistiske usikkerhed reduceres fra 0,45 til 0,32



Den statistiske sikkerhed kan endvidere forbedres ved, at øge antallet af

polytome opgaver, tilføje flere svære opgaver til opgavebanken samt

ved at justere algoritmen i testsystemet så opgaver med størst mulig in-

formationsværdi vælges

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 33 af 145

Indledning

I evalueringen af de nationale test skal følgende kritik belyses:

1. Den kritik der rejses af den statistiske sikkerhed og reliabiliteten skal adres-

seres.

1c. Herunder skal det klarlægges om det er muligt at forbedre den adaptive

algoritme med henblik på at reducere den statistiske usikkerhed.

I notatet redegøres for den statistiske usikkerhed på de beregnede elevdyg-

tigheder. Ligeledes omsættes den statistiske usikkerhed til sikkerhedsinter-

valler omkring elevdygtigheden. Sikkerhedsintervallerne omregnes til de for-

skellige skalaer elevernes dygtighed formidles på. BUVM

har tidligere un-

dersøgt såvel den statistiske usikkerhed som reliabiliteten

21,22

. I notatet sam-

les op på tidligere beregninger og suppleres med nye baseret på de seneste

obligatoriske test. I notatet præsenteres forslag til forbedringer af de natio-

nale test med henblik på reduktion af den statistiske usikkerhed.

Formålet er således, at beskrive den statistiske usikkerhed og testenes relia-

bilitet samt komme med forslag til forbedringer af de nationale test.

Notatet indeholder følgende afsnit:



Den statistiske usikkerhed

Sikkerhedsintervaller og skalaer til formidling af denne

Reliabiliteten

Forslag til forbedringer af den statistiske sikkerhed

Den statistiske usikkerhed

De nationale test er baseret på Rasch-modellen

23,24

. Rasch-modellen er en

sandsynlighedsmodel, hvor sandsynligheden for, at en elev nummer

med

dygtighedsparameteren



svarer

rigtige på det polytome item

nummer

Børne- og undervisningsministeriet

https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf16/sep/160912-notat-om-natio-

nale-tests-maaleegenskaber.pdf

https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf17/jan/170110-uddybende-bilags-

notat-om-de-nationale-tests-maaleegenskaber.pdf

Rasch, G.: Probabilistic Models for Some Intelligence and Attainment Tests. Danish Na-

tional Institute for Educational Research, Copenhagen 1960.

Karl Bang Christensen, Svend Kreiner, Mounir Mesbah (edt): Rasch Models in Health. Wi-

ley 2013.

I Rasch-modellen anvendes begrebet item i stedet for opgave. Et dikotomt item har to

svarmuligheder, fx ja/nej eller rigtigt/forkert. Et polytomt item er et item med flere subi-

tems, således at eleven kan

s ore , , , , … rigtige

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 34 af 145

med item sværhedsparameteren

og de såkaldte tærskelværdier



samt

størrelse

, der angiver den maksimale scoring for det polytome item:

I Rasch-modellen måles itemsværheder og elevdygtigheder på samme skala.

Skalaen kaldes logit-skalaen

Ved at anvende de estimerede tærskelværdier for opgaverne i opgaveban-

ken kan elevernes dygtighed beregnes. Elevernes dygtighed beregnes som

maximum likelihood estimatet af person parameteren,



.

Anvendelsen af en statistisk model, Rasch-modellen, medfører, at den stati-

stiske usikkerhed på elevdygtighederne kan beregnes. Den statistiske usik-

kerhed på andre test og prøver i skolen beregnes og formidles ikke.

Den statistiske usikkerhed på elevens estimerede dygtighed betegnes SEM

(Standard

Error

Measurement).

SEM afhænger både af elevens dygtighed, opgavernes sværhedsgrad samt

ikke mindst af antallet af opgaver eleven besvarer. Des flere opgaver eleven

besvarer des mindre statistisk usikkerhed på den beregnede dygtighed.

SEM beregnes i testsystemet i lighed med elevens dygtighed efter hver be-

svarelse på en opgave

SEM anvendes i den adaptive algoritme til at angive, hvornår elevens dygtig-

hed er bestemt med den fastsatte præcision så elevens testforløb kan afslut-

tes. Ligeledes anvendes SEM i formidlingen af elevernes resultater til læ-

rerne.

Den statistiske usikkerhed og testenes stopkriterie

SEM indgår i vurderingen af, hvornår en elev kan afslutte testen. Den enkelte

test med 3 profilområder varer som udgangspunkt i 45 minutter, men lære-

ren kan forlænge testtiden for den enkelte elev, hvis den statistiske usikker-

hed på elevdygtigheden er for stor.

I den oprindelige løsningsbeskrivelse fra COWI, der udviklede testene, står

”Der vælges derfor et stopkriteriu der i debærer, at der e te skal være be-

svaret 20 items på et profil- eller testområde før der kan gives en tilbagemel-

ding, eller der skal være opnået en SE på mindre end 0,6 i det pågældende

��{��

��

= �� } =

��

∑

��=

��

−�� −�� …−�� +��



−��½��

��

−�� −�� …−�� +��



−��½��

{1}

Logits er en transformation med den naturlige logaritme af odds, p/(1-p), hvor p er sand-

synligheden for at svare rigtigt på et item.

https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf15/jan/150128-den-adaptive-algo-

ritme-i-de-nationale-test.pdf

Fremme af evalueringskulturen i folkeskolen

–

Bilag 3A løsningsbeskrivelse (10. juli 2006)

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 35 af 145

testforløb. Det anbefales at fortsætte testen, hvis testens tidsramme ikke er

overskredet selvom stopkriteriet er nået, idet enhver forøgelse af antal be-

svarede ite s vil øge sikkerhede for tilbage eldi ge .”

Det endelige stopkriterie i testsystemet blev fastsat til:



Testtiden er 45 minutter for 3 profilområder



SEM < 0,55 logit eller eleven skal have besvaret mindst 30 opgaver i

hvert profilområde

Når SEM kommer under 0,55 logit i et profilområde, da får eleven ikke flere

opgaver i det pågældende profilområde men fortsætter med opgaver i de

øvrige profilområder. Når SEM er under 0,55 i alle tre profilområder i en test,

fortsætter eleven med opgaver indtil de 45 minutter er gået.

Elevernes teststatus følges af læreren på en monitoreringsskærm under af-

viklingen af testene. Elevers teststatus ændres fra

gul

til

grøn,

når SEM er un-

der 0,55 logit eller antallet af besvarede opgaver er mindst 30 i alle tre profil-

områder. Elever med teststatus lig grøn kan umiddelbart afsluttes af læreren

efter de 45 minutter. Læreren kan vælge at forlænge elevens test tid, hvis

elevens teststatus er lig gul. Læreren kan også vælge at afslutte eleven.

92 procent af eleverne afsluttede den nationale obligatoriske test i skoleåret

2017/2018 med en SEM under 0,55 logit eller havde besvaret mindst 30 op-

gaver i alle tre profilområder (Tabel 3.1).

Tabel 3.1 Andelen af eleverne, der afslutter testen med en SEM < 0,55

alle tre profilområder (status =’grø

’)

i skoleåret 2017/2018.

Test

Dansk læsning 2. klasse

Dansk læsning 4. klasse

Dansk læsning 6. klasse

Dansk læsning 8. klasse

Matematik 3. klasse

Matematik 6. klasse

Matematik 8. klasse

Engelsk 4. klasse

Engelsk 7. klasse

Fysik/kemi 8. klasse

I alt

Kilde: Styrelsen for It og Læring

Afsluttet i ’grø ’

94 %

95 %

96 %

91 %

87 %

89 %

80 %

97 %

94 %

98 %

92 %

1) Elever, hvor SEM er under 0,55 logit eller antallet af besvarede opgaver er mindst 30 i alle tre profilområder

For den nyeste test i matematik 8. klasse, der startede i skoleåret 2017/2018,

er andelen af elever, der afslutter med en SEM under 0,55 logit, kun på 80

procent. Tilsvarende er andelen af elever, der afslutter med en SEM under

0,55 logit i alle tre profilområder i matematik i 3. og 6. klasse, lavere end for

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 36 af 145

de øvrige test. Læreren kan vælge at forlænge testtiden med henblik på at

forbedre den statistiske sikkerhed på elevens beregnede dygtighed.

Den statistiske usikkerhed i de enkelte profilområder

Den gennemsnitlige statistiske usikkerhed på elevdygtigheden i de nationale

obligatoriske test i skoleåret 2017/2018 er på 0,46. 93,4 procent af testforlø-

bene afsluttes med en SEM under 0,55.

SEM i hver test i skoleåret 2017/2018 fremgår af Tabel 3.2. Spredningen i

SEM er angivet ved henholdsvis 5 % og 95 % percentilerne. Fx er den gen-

nemsnitlige SEM i profilområde 1 i dansk læsning 2. klasse på 0,46, mens

henholdsvis 5 % og 95 % percentilerne er på 0,32 og 0,55. Dvs. 5 procent af

eleverne opnår et testresultat med en usikkerhed på 0,32 eller derunder,

mens 5 procent af eleverne opnår et testresultat med en usikkerhed på 0,55

eller derover. Den gennemsnitlige statistiske usikkerhed er størst i de nye

test (nyt profilområde 3

) i matematik i 3. og 6. klasse samt i den nye test i

matematik i 8. klasse

. I fysik/kemi i 8. klasse er den gennemsnitlige statisti-

ske usikkerhed på 0,36-0,37 logit.

Tabel 3.2 Den statistiske usikkerhed på den estimerede elevdygtighed i sko-

leåret 2017/2018. Gennemsnit [5% percentil; 95% percentil] (logit)

Test

Dansk læsning 2. klasse

Dansk læsning 4. klasse

Dansk læsning 6. klasse

Dansk læsning 8. klasse

Matematik 3. klasse

Matematik 6. klasse

Matematik 8. klasse

Engelsk 4. klasse

Engelsk 7. klasse

Fysik/kemi 8. klasse

Kilde: Styrelsen for It og Læring

Profilområde 1

0,46 [0,32; 0,55]

0,47 [0,36; 0,55]

0,48 [0,38; 0,55]

0,51 [0,40; 0,59]

0,48 [0,32; 0,65]

0,47 [0,32; 0,58]

0,53 [0,43; 0,69]

0,40 [0,26; 0,54]

0,45 [0,27; 0,55]

0,37 [0,23; 0,52]

Profilområde 2

0,46 [0,32; 0,57]

0,48 [0,36; 0,55]

0,49 [0,39; 0,55]

0,51 [0,41; 0,60]

0,49 [0,31; 0,65]

0,48 [0,32; 0,62]

0,52 [0,40; 0,69]

0,41 [0,25; 0,54]

0,47 [0,31; 0,55]

0,37 [0,22; 0,53]

Profilområde 3

0,42 [0,26; 0,55]

0,44 [0,25; 0,55]

0,45 [0,28; 0,54]

0,47 [0,31; 0,60]

0,53 [0,40; 0,73]

0,52 [0,42; 0,66]

0,54 [0,43; 0,72]

0,44 [0,29; 0,61]

0,45 [0,29; 0,55]

0,36 [0,21; 0,53]

For testene i alle profilområderne gælder, at den gennemsnitlige statistiske

usikkerhed er under de 0,55 logit, der er den fastsatte grænse for, hvornår

elevens testresultat vurderes tilstrækkeligt sikkert bestemt indenfor den af-

satte tid til testen.

I matematik 3. klasse erstattedes profilområde 3

matematik i anvendelse

statistik og

sandsynlighed

i 2015/2016. Tilsvarende ændring skete i matematik i 6. klasse i 2017/2018

Matematik i 8. klasse introduceredes i 2017/2018

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 37 af 145

Den statistiske usikkerhed og antal opgaver

For at vurdere om den statistiske usikkerhed er stor eller lille kan anvendes,

at usikkerheden i adaptive test med dikotome

opgaver ikke kan blive min-

dre end

/√��,

hvor n er antallet af opgaver (Tabel 3.3).

Tabel 3.3 Sammenhæng mellem antal opgaver og mindst mulige SEM

Antal opgaver

SEM

0,89

0,63

0,52

0,50

0,49

0,47

0,46

0,45

0,44

0,43

Antal opgaver

SEM

0,42

0,41

0,40

0,37

0,32

0,30

0,28

0,27

0,26

0,24

1) Standard Error of Measurement (SEM)

Kilde: Styrelsen for It og Læring

Der er afsat 45 minutter til hver test. På de 45 minutter får eleverne opgaver

i alle tre profilområder, der er knyttet til den enkelte test. Eleverne kan i gen-

nemsnit nå at besvare 19 opgaver i hvert profilområde. Antallet af opgaver

eleverne kan nå at besvare varierer fra i gennemsnit 15 til 25 opgaver af-

hængig af test og klassetrin (Tabel 3.4).

Opgavebanken i de nationale test består både af dikotome og polytome op-

gaver. En polytom opgave består af flere delopgaver således at eleven kan

score 0, 1, 2, 3,

… rigtige. I profilo råde i da sk læs i g sprogforståelse

findes udelukkende dikotome opgaver i opgavebanken. Andre profilområder

indeholder både dikotome og polytome opgaver. Fx indeholder opgaveban-

ken i fysik/kemi og i engelsk en del polytome opgaver.

Det gennemsnitlige antal delopgaver eleverne når at besvare i hvert profil-

område er 23. Antallet af delopgaver eleverne kan nå at besvare varierer fra i

gennemsnit 17 til 36 delopgaver afhængig af test og klassetrin (Tabel 3.4).

Dikotome opgaver har to svarmuligheder, fx ja/nej eller rigtigt/forkert.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 38 af 145

Tabel 3.4 Det gennemsnitlige antal opgaver/delopgaver

eleverne når at

besvare i de obligatoriske test i skoleåret 2017/2018.

Test

Dansk læsning 2. klasse

Dansk læsning 4. klasse

Dansk læsning 6. klasse

Dansk læsning 8. klasse

Matematik 3. klasse

Matematik 6. klasse

Matematik 8. klasse

Engelsk 4. klasse

Engelsk 7. klasse

Fysik/kemi 8. klasse

Samlet pr. profilområde

1) Delopgave er et subitem i et polytomt item

Kilde: Styrelsen for It og Læring

Profilområde 1

24/24

21/21

20/20

19/19

16/19

15/19

17/17

22/29

17/24

18/33

Profilområde 2

24/24

22/22

21/21

19/19

16/19

15/19

16/17

22/29

18/22

18/33

19/23

Profilområde 3

22/29

20/26

18/24

17/21

19/19

18/18

17/17

25/29

18/25

18/36

Med 19 dikotome opgaver er den mindst mulige statistiske usikkerhed på

0,46 logit, mens der med 23 dikotome opgaver ikke kan opnås en statistisk

usikkerhed på mindre end 0,42 (Tabel 3.3).

Den gennemsnitlige statistiske usikkerhed i de nationale test på 0,46 er såle-

des ikke langt fra det mest optimale på 0,42 (Tabel 3.3) med det givne antal

opgaver.

For yderligere at vurdere om en statistisk usikkerhed på 0,46 ved 23 delopga-

ver er stor eller lille, ka følge de he tes fra otatet ”O opgavetyper og

usikkerhed i de atio ale test” Sve d Krei er, ju i

”Tallet

0,45 kan derfor bruges som en benchmark værdi, hvis man både vil

vurdere, hvor godt den adaptive algoritme har fungeret for en adaptiv test

med 20 dikotome opgaver, og hvor godt en ikke-adaptiv test fungerer for ele-

ver med forskellige grader af dygtighed. Det kan for eksempel beregnes, at

en ikke-adaptiv test med 20 opgaver, hvor sværhedsgraden er ligeligt fordelt

fra -2,5 til +2,5, i bedste fald vil resultere i SEM = 0,54 og i værste fald (for

meget dygtige og meget svage elever) med SEM = 0,82. Altså dårligere end

en fungerende adaptiv test.”

”Eller

med andre ord: Hvis den adaptive algoritme fungerer efter hensigten

vil usikkerheden på elevdygtigheden i en adaptiv test altid være mindre end

usikkerheden i almindelige ikke-adaptive test. Hvor meget mindre afhænger

https://www.uvm.dk/folkeskolen/elevplaner-nationale-test--trivselsmaaling-og-sprog-

proever/nationale-test/om-de-nationale-test

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 39 af 145

af opgavernes sværhedsgrader og af elevernes dygtighed.”

Antallet af opgaver og dermed den tid, der afsættes til en test, er helt cen-

tralt når den statistiske usikkerhed skal vurderes. Adaptive test giver mulig-

hed for, at mindske denne usikkerhed mest muligt.

Den statistiske usikkerhed og elevdygtigheden

Den observerede statistiske usikkerhed på elevernes dygtighed er generelt

mindst for elever med en dygtighed i midten af skalaen og størst for de dyg-

tigste elever.

Tabel 3.5 viser den gennemsnitlige statistiske usikkerhed på elevdygtigheden

i dansk læsning 8. klasse og matematik i 6. klasse for elever i hvert af de fem

niveauer af den normbaserede skala

Bilag 3.1 viser tabeller over SEM for alle de obligatoriske test foråret 2018.

Tabel 3.5 Den statistiske usikkerhed (logit) på den estimerede elevdygtig-

hed skoleåret 2017/2018 i forhold til elevdygtigheden

Elevdygtighed på femtrins skalaen

Fag

Dansk

læsning

8. klasse

Matema-

tik 6.

klasse

Profilområde

Sprogforståelse

Afkodning

Tekstforståelse

Tal og algebra

Geometri

Statistik og

sandsynlighed

1) I formidlingen til elever og forældre bliver resultaterne på 100-skalaen omsat til en fem-trins skala: En del under

gennemsnittet (1-10), under gennemsnittet (11-35), gennemsnittet (35-65), over gennemsnittet (66-90), en del

over gennemsnittet (91-100)

Kilde: Styrelsen for It og Læring

1-10

0,49

0,44

0,45

0,50

11-35

0,49

0,38

0,42

0,50

36-65

0,50

0,45

0,46

0,51

66-90

0,50

0,51

0,48

0,51

0,53

91-100

0,56

0,59

0,55

0,53

0,56

0,60

I fx sprogforståelse i 8. klasse er den gennemsnitlige statistiske usikkerhed på

0,50 for elever med en dygtighed midt på dygtighedsskalaen, mens den er

0,56 for de allerdygtigste elever.

Svend Kreiner (juni 2017).

https://www.uvm.dk/-/media/fi-

ler/uvm/udd/folke/pdf17/sep/170913-om-opgavetyper-og-usikkerhed-i-de-nationale-

test.pdf

Målingerne af elevdygtigheden og SEM foregår på logit-skalaen. I formidlingen af resulta-

terne til lærerne omregnes resultaterne til den normbaserede percentilskala (1-100). I for-

midlingen til elever og forældre bliver resultaterne på 100-skalaen omsat til en fem-trins

skala: En del under gennemsnittet (1-10), under gennemsnittet (11-35), gennemsnittet (35-

65), over gennemsnittet (66-90), en del over gennemsnittet (91-100)

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 40 af 145

Generelt er den statistiske usikkerhed størst for de dygtigste elever, dvs. for

elever med et testresultat en del over gennemsnittet. Manglen på svære op-

gaver i opgavebanken er givetvis en medvirkende årsag til dette. Hvis der

mangler svære opgaver i opgavebanken, vil de dygtigste elever kunne opleve

at få opgaver, der ligger et stykke væk fra deres dygtighed. Hermed bliver

den statistiske usikkerhed på elevens beregnede dygtighed større end, hvis

der hele tiden var opgaver med en sværhedsgrad, der passede til elevens

dygtighed.

Den statistiske usikkerhed og sikkerhedsintervaller

For hver elevs testresultat kan der beregnes et såkaldt sikkerhedsinterval. I

forbindelse med beregning af sikkerhedsintervaller for gennemsnit, fx for en

klasses gennemsnit eller en skoles gennemsnit, anvendes ofte et 95 procent

sikkerhedsinterval. Et 95 procent sikkerhedsinterval er givet ved

gennemsnit

± 1,96*SE.

Til angivelse af sikkerhedsinterval for et enkelt individs testresultat anvendes

testresultat ± 1*SEM,

hvilket ca. svarer til et 68 procent sikkerhedsinterval.

Begge usikkerhedsintervaller er beregnet

på logit-skalaen baseret på den

enkelte elevs beregnede statistiske usikkerhed og herefter omsat til og præ-

senteret på såvel den normbaserede (1-100) skala som på den kriteriebase-

rede skala. Usikkerhedsintervallet på den oprindelige dygtighedsskala, logit-

skalaen, er blot ± 1*SEM eller ± 1,96*SEM for henholdsvis et 68 procent og

et 95 procent sikkerhedsinterval.

Den beregnede elevdygtighed er den mest sandsynlige, men det kan ikke af-

vises med en vis sandsynlighed, at elevens dygtighed afviger fra dette. Des

længere væk fra elevens estimerede dygtighed des mindre sandsynligt er

denne værdi.

Længden (L) af sikkerhedsintervallet på den normbaserede skala angiver af-

standen fra elevens estimerede testresultat til nedre/øvre grænse i interval-

let. Sikkerhedsintervallets samlede længde er således 2*L.

68 procent og 95 procent sikkerhedsintervallet udtrykt på den normbaserede

er på henholdsvis ± 12 og ± 22 point (Tabel 3.6)

. Dette svarer til, at en elevs

testresultat med stor sandsynlighed ligger i dette interval omkring det esti-

merede testresultat. Det er vigtig at understrege, at elevens beregnede score

Beregningen af usikkerhedsintervaller er kun foretaget for elever, der har afsluttet testen i

teststatus ’grøn’, dvs hvor de statistiske usikkerhed på eleve s esti erede dygtighed er

kommet under 0,55 logit, eller eleven har besvaret mindst 30 opgaver i hvert af de tre pro-

filområder.

Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er

helt symmetriske

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 41 af 145

er den mest sandsynlige værdi, men der er en vis sandsynlighed for, at den

reelle score afviger fra denne.

Tabel 3.6 Længden af sikkerhedsintervallet i forhold til elevernes dygtighed

på den normbaserede (1-100) skala. Samlet for alle de obligatoriske test.

Skoleåret 2017/2018

Usikkerheds-

interval

±1*SEM

±1,96*SEM

Samlet

1: 1-10

Elevdygtighed på femtrins skalaen

2: 11-35

3: 36-65

4: 66-90

5: 91-100

1) tilnærmelsesvist et 68 % sikkerhedsinterval

2) tilnærmelsesvist et 95 % sikkerhedsinterval

Note: Der er tale om en tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske

Kilde: Styrelsen for It og Læring

Målingerne af elevdygtigheden og den statistiske usikkerhed foregår på en

såkaldt logit-skala. På denne logit-skala er den statistiske usikkerhed på elev-

dygtighederne størst for de dygtigste elever og mindst for elever med en

dygtighed på midten af skalaen (Tabel 3.5).

Formidlingen af resultaterne til lærerne har siden starten i 2010 foregået på

percentilskalaen, 1-100. Omregning fra den grundlæggende logit-skala til

percentilskalaen har nogle uheldige egenskaber. Mange elever har en bereg-

net dygtighed midt på logit-skalaen med en relativt lille forskel imellem sig.

Ved omregning til percentilskalaen vil en given forskel i dygtighed strække sig

over mange percentiler på midten og over færre i yderområderne af dygtig-

hedsskalaen. En beregnet statistisk usikkerhed på dygtigheden hos elever

med en dygtighed på midten af skalaen vil derfor strække sig over flere per-

centiler end en tilsvarende statistisk usikkerhed hos elever i yderområderne

af dygtighedsskalaen. Derfor fremstår den statistiske usikkerhed på elevdyg-

tigheden formidlet på percentilskalaen størst for elever omkring gennemsnit-

tet, hvilket reelt er i modstrid med den faktiske bagvedliggende statistiske

usikkerhed.

Fx er 68 procent sikkerhedsintervallet for en elev, der har opnået et testre-

sultat på 50 lig med ± 16, dvs sikkerhedsintervallet for denne elevs testresul-

tat kunne være [34 - 66], mens 68 procent sikkerhedsintervallet for en elev,

der har opnået et testresultat på 95 er lig med ± 4, dvs sikkerhedsintervallet

for denne elevs testresultat kunne være [91 - 99].

Formidlingen af resultaterne til elever og forældre foregår på en femtrins

skala, hvor netop det midterste interval (gennemsnittet) er bredest. Dette

opvejer til dels denne uheldige konsekvens af en omregning til en percentil-

skala. Den skala, der skal anvendes til fortsat formidling af elevernes resulta-

ter, bør dog genovervejes.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 42 af 145

Tilsvarende kan der beregnes sikkerhedsintervaller på den kriteriebaserede

skala (Tabel 3.7).

Tabel 3.7 Sikkerhedsintervallet på den kriteriebaserede skala. Samlet for

dansk læsning og matematik. Skoleåret 2017/2018

Eleve s testresultat ligger

ed stor sa dsy lighed i …

… det bereg ede

faglige niveau eller

niveauet lige over

eller lige under

54 %

… det bereg ede faglige

niveau eller enten ni-

Usikkerheds-

interval

±1*SEM

±1,96*SEM

… det bereg ede fag-

lige niveau

28 %

veauet lige under/over

(ikke både og)

65 %

37 %

1) tilnærmelsesvist et 68 % sikkerhedsinterval

2) tilnærmelsesvist et 95 % sikkerhedsinterval

Kilde: Styrelsen for It og Læring

Samlet gælder, at 28 procent af elevernes testresultater med 68 procent

sandsynlighed sikkerhed ligger indenfor det beregnede faglige niveau, mens

65 procent af elevernes testresultater ligger indenfor det beregnede niveau

eller enten niveauet lige under eller niveauet lige over (Tabel 3.7). Således

ligger 93 procent af elevernes testresultater med den beregnede statistiske

sikkerhed indenfor det beregnede faglige niveau eller i nabo kategorien. De

resterende 7 procent af elevernes testresultater har en større usikkerhed,

der betyder, at elevens faktiske niveau ikke kan afvises at ligge i både ni-

veauet under og i niveauet over det estimerede niveau.

Bilag 3.1 indeholder sikkerhedsintervallerne udtrykt på den normbaserede

skala for alle de obligatoriske test i skoleåret 2017/2018. I bilaget findes også

tabeller med sikkerhedsintervallerne på den kriteriebaserede skala for de ob-

ligatoriske test i dansk læsning og matematik i 2017/2018.

Reliabiliteten

Reliabiliteten er et udtryk for testens evne til at rangordne eleverne efter

elevdygtighed på korrekt måde. Reliabiliteten kan også forklares ved, hvor

god en test er til at adskille elever med forskellig dygtighed.

Reliabiliteten er belyst på forskellig vis af BUVM

. I 2016 blev beregnet en

såkaldt test-retest korrelation. Beregningerne var baseret på elevers testre-

sultater fra de frivillige test. I den frivillige testperiode er det muligt at tage

den samme test to gange med få dages mellemrum. Gentagelsen af en test

skal ske, uden at eleven kan huske det første testforløb, og uden at eleven

har lært af den første test eller lært nyt mellem de to testafviklinger. Dette er

https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf17/jan/170110-uddybende-bilags-

notat-om-de-nationale-tests-maaleegenskaber.pdf

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 43 af 145

naturligvis vanskelligt i pædagogiske test herunder i de nationale test. Desu-

den kan elevers testadfærd, motivation, koncentration mv. spille ind på ele-

vens testresultat. Derfor skal disse test-retest resultater vurderes med stor

forsigtighed. BUVM har gennemført analyser af test-retest på en specifik

skole, hvor læreren undrede sig over store udsving i nogle af elevernes resul-

tater i to gentagne frivillige test afholdt med syv dages mellemrum i efteråret

2014. Gennemgangen af elevernes testforløb viste, at en stor del af eleverne

i andet forsøg besvarede langt flere opgaver uden at anvende længere tid. I

elevernes andet forsøg besvaredes næsten 50 procent flere opgaver end ele-

ver på landsplan i gennemsnit gør. Denne forskel i testadfærd kan betyde, at

det er vanskelligt at sammenholde en elevs to test (test-retest).

I 2016 foretog BUVM ligeledes test-retest simuleringer, hvor 5.000 elever

med forskellig dygtighed fik simuleret et elevforløb i testsystemet to gange.

Disse simuleringer er uafhængig af testadfærd og korrelationen mellem de

simulerede testresultater er derfor en beregning af den teoretiske test-retest

korrelation, som man ville kunne observere, hvis testen fungerede fuldstæn-

digt som forventet. Simuleringerne måler således om testsystemet og tilhø-

rende opgavebank kan genskabe rangordningen af elevernes testresultater.

I Tabel 3.8 er disse resultater vist for dansk læsning 8. klasse og matematik 6.

klasse. Samtlige resultater er tilgængelige på

https://www.uvm.dk/folkesko-

len/elevplaner-nationale-test--trivselsmaaling-og-sprogproever/nationale-

test

Tabel 3.8 Reliabiliteten i de nationale test målt ved test-retest og

simuleringer

Test

Dansk

læsning

8. klasse

Matematik

6. klasse

Profilområde

Sprogforståelse

Afkodning

Tekstforståelse

Tal og algebra

Geometri

Statistik og sandsynlighed

Test-retest

0,66

0,85

0,72

0,63

0,65

0,68

Simuleringer

0,84

0,87

0,88

0,89

0,86

0,89

1) Korrelation mellem elevdygtigheden fra to frivillige test efteråret 2015

2) Korrelation mellem elevdygtigheden bestemt ved simuleringer i testsystemet

Kilde: Styrelsen for It og Læring

Baseret på klassisk test teori kan reliabiliteten defineres som forholdet mel-

lem variansen på den sande score og variansen på den observerede score.

Udgangspunktet er:

X=T+E

hvor X er den observerede elevscore, T er den sande elevscore og E er måle-

fejlen.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 44 af 145

Under visse forudsætninger er variansen på den observerede elevscore (X)

lig summen af variansen på den sande score (T) og variansen på målefejlen

(E)

��

= ��

��

+ ��

��

Reliabiliteten defineres som forholdet mellem variansen på den sande score

og variansen på den observerede score:

��

��′

��

−

��

I RUMM

beregnes et indeks for reliabiliteten:

Person Separation Index

40,41

Person separation indeks (PSI) beregnes som:

hvor

er elevens estimerede dygtighed og

��

beregnes som variansen mel-

lem elevernes dygtigheder blandt de elever, der gennemfører en test.

��

er usikkerheden på den enkelte elevs beregnede dygtighed og betegnes

SEM

, hvor SEM er Standard Error of Measurement.

��

−

��

Reliabiliteten afhænger således ikke kun af SEM men også af spredningen af

elevernes dygtighed i den pågældende test. En lille spredning mellem elever-

nes dygtighed giver en lavere reliabilitet, mens en større spredning i elever-

nes dygtighed vil give en højere reliabilitet. Reliabiliteten er således gæl-

dende for den aktuelle population og er vanskellig at sammenligne med re-

liabiliteten fra andre test og andre populationer med en anden spredning i

elevdygtighederne.

I Tabel 3.9 er reliabiliteten beregnet for dansk læsning 8. klasse og matema-

tik 6. klasse. I beregningerne er anvendt gennemsnittet af SEM på elevdygtig-

hederne i det pågældende profilområde (Tabel 3.2).

Davidshofer, Kevin R. Murphy, Charles O. (2005): Psychological testing: principles and ap-

plication. Pearson/Prentice Hall.

RUMM Laboratory Pty Ltd.

Persons Separation Index udtrykker forholdet mellem usikkerheden på elevdygtigheden

på den ene side og spredningen mellem elevernes dygtighed på den anden side

Karl Bang Christensen, Svend Kreiner, Mounir Mesbah (edt): Rasch Models in Health.

(2013)

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 45 af 145

Tabel 3.9 Testenes reliabilitet i skoleåret 2017/2018

Fag

Dansk

læsning

8. klasse

Matematik

6. klasse

Profilområde

Sprogforståelse

Afkodning

Tekstforståelse

Tal og algebra

Geometri

Statistik og sandsynlighed

1) Person Separation Index (PSI)

2) Korrelation mellem elevdygtigheden bestemt ved simuleringer i testsystemet

Kilde: Styrelsen for It og Læring

PSI

0,83

0,85

0,84

0,83

0,81

0,84

Simuleringer

0,84

0,87

0,88

0,89

0,86

0,89

Reliabiliteten beregnet ved Person Separation Index er næsten på niveau

med de simulerede test-retest korrelationer (Tabel 3.9).

I Bilag 3.2 er reliabiliteten beregnet for alle de obligatoriske test i skoleåret

2017/2018.

Der findes forskellige anbefalinger for niveauet af reliabilitet. En anvendt

tommelfingerregel er en reliabilitet på mindst 0,80. I Streiner

anføres, at en

optimal reliabilitet ikke bør være under 0,70. I Stewart

accepteres værdier

helt ned til 0,50 dog som værende evidens for tilfredsstillende reliabilitet.

I dansk læsning ligger reliabiliteten i intervallet 0,74

–

0,91. I sprogforståelse

(profilområde 1) i 2. og 6. klasse ligger reliabiliteten under 0,80. I alle øvrige

test i dansk læsning ligger reliabiliteten på mindst 0,80.

I matematik ligger reliabiliteten i intervallet 0,78

–

0,89. I geometri (profilom-

råde 2) i 3. klasse ligger reliabiliteten under 0,80. I alle øvrige test i matema-

tik ligger reliabiliteten på mindst 0,80.

I engelsk ligger reliabiliteten i intervallet 0,79

–

0,91. I læsning (profilområde

1) i 7. klasse ligger reliabiliteten under 0,80. I alle øvrige test i engelsk ligger

reliabiliteten på mindst 0,80.

I fysik/kemi 8. klasse ligger reliabiliteten i intervallet 0,66

–

0,70. Reliabilite-

ten ligger således relativt lavt i alle tre profilområder til trods for, at spred-

ningen, SEM, på elevdygtighederne også er lille. Den lave reliabilitet skyldes

således en meget begrænset spredning i elevernes dygtighed i testen i fy-

sik/kemi.

Streiner, D. L., G. R. Norman (1995): Health Measurement Scales

–

A Practical Guide to

Their Development and Use. Oxford University Press

Steward, A. L. (1990): Psychometric Considerations in Functional Status Instruments. In

Lipkin Jr., M. Functional Status Measurement in Primary Care. Springer-Verlag, NY

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 46 af 145

I 23 ud af 30 profilområder ligger reliabiliteten, i form af Person Separation

Index, over 0,80, mens de resterende syv profilområder har en lavere reliabi-

litet. Specielt er reliabiliteten lav i fysik/kemi.

Forslag til forbedringer af den statistiske sikkerhed

Antal opgaver

Den statistiske sikkerhed (SEM) kan primært forbedres ved at øge antallet af

opgaver den enkelte elev skal besvare (Tabel 3.3). Antallet af point (lig med

antal delopgaver) i folkeskolens digitale prøver i 9. klasse i matematik uden

hjælpemidler, biologi, geografi m.fl. ligger omkring 50. Med 50 dikotome

items kan SEM bringes ned i nærheden af 0,28 (Tabel 3.3). Antallet af opga-

ver hænger sammen med tiden til den enkelte test.

Polytome opgaver

Øget anvendelse af polytome opgaver, hvor eleverne svarer på flere diko-

tome delopgaver, vil også have en positiv effekt på SEM. Den statistiske usik-

kerhed på elevens testresultat er en funktion af den såkaldte test informa-

tion

. Des større test information des mindre statistisk usikkerhed. Test in-

formationen er summen af informationen fra elevens besvarelser af de en-

kelte opgaver. For dikotome opgaver (rigtig/forkert) er den maksimale infor-

mationsværdi på 0,25, og denne opnås, når opgavens sværhedsgrad er lig

elevens dygtighed.

Beregninger viser

45,46

, at polytome opgaver med

del-opgaver kan give op til

gange den information som

dikotome opgaver kan give. Øget anven-

delse af polytome opgaver kan derfor mindske den statistiske usikkerhed på

den beregnede elevdygtighed.

Sammenhængen mellem opgavetyper og den statistiske usikkerhed i de nati-

onale test er beskrevet af Svend Kreiner

. Af rapporten fremgår også, at der

er forskel på de polytome opgavers informationsværdi og at denne varierer

med opgavetypen.

Efter hver opgaveafprøvning modtager de faglige opgavekommissioner der-

for en opgørelse, der viser den beregnede opgaveinformation for alle de

www.uvm.dk/-/media/filer/uvm/udd/folke/pdf17/sep/170913-om-opgavetyper-og-usik-

kerhed-i-de-nationale-test.pdf

Henrik Albeck et al: Optimizing the precision in estimating student abilities i

’Da ish Na-

tio al Tests’.

Seventh International Conference on Probabilistic Models for Measurement

Developments with Rasch Models, Perth 2018

Svend Kreiner: On item information and usefulness of partial credit items. Seventh Inter-

national Conference on Probabilistic Models for Measurement Developments with Rasch

Models, Perth 2018

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 47 af 145

Rasch godkendte opgaver. Dette kan bruges til vurdering af hvilke opgavety-

per, der giver mest statistisk information.

Justering af algoritmen

Den adaptive algoritme i testsystemet kan forbedres ved i højere grad end i

dag, at vælge opgaver med den størst mulige opgaveinformation. I dag væl-

ger den adaptive algoritme i testsystemet den næste opgave så den bedst

muligt passer til elevens dygtighed.

Hvis opgaveparametrene for opgaverne i opgavebanken suppleres med op-

gavens informationsværdi, da kan algoritmen justeres således, at opgaven

med den største informationsværdi, i forhold til hvor elevens estimerede

dygtighed er, vælges

Flere svære opgaver

Den statistiske usikkerhed er størst for de dygtigste elever (Tabel 3.5). Mang-

len på svære opgaver i opgavebanken har en medvirkende årsag til dette.

Når der ikke er tilstrækkeligt med svære opgaver, der matcher elevernes

dygtighed, falder den samlede test information og den statistiske usikkerhed

stiger.

www.uvm.dk/-/media/filer/uvm/udd/folke/pdf17/sep/170913-om-opgavetyper-og-usik-

kerhed-i-de-nationale-test.pdf

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 48 af 145

Notat 4 Opgavebanken og opgavernes sværhedsgrad

Sammenfatning



I perioden maj 2008 til januar 2019 har der været afholdt 14 opgaveaf-

prøvninger



I foråret 2019 var der 10.969 opgaver i drift i opgavebanken



Alle nye opgaver, der tilføjes opgavebanken, passer til Rasch-modellen



Der er mangel på svære opgaver til de dygtigste elever i flere af profil-

områderne



Analyser fra 2018 viser, at under 10 procent af de opgaver, der genaf-

prøves i forbindelse med opgaveafprøvningerne, har ændret deres

sværhedsgrad over tid. Analyser fra 2019 viser, at 16 procent af de op-

gaver, der genafprøves i forbindelse med opgaveafprøvningerne, har

ændret deres sværhedsgrad over tid



Analyser hidtil viser således ingen generel tendens til, at opgavernes

sværhedsgrad ændres over tid



Opgaver med statistisk signifikant ændret sværhedsgrad får denne op-

dateret i opgavebanken



Der er forskel på opgavernes estimerede sværhedsgrad når disse bereg-

nes på baggrund af de adaptive testforløb (obligatoriske test) og når de

beregnes i lineære afprøvningsforløb (opgaveafprøvning)



Andelen af opgaver, hvor den estimerede sværhedsgrad afviger mellem

opgaveafprøvningerne og testforløbene ændres generelt ikke i perioden

fra 2010 til 2018



Afvigelsen i den estimerede sværhedsgrad stiger ikke des længere tid,

der er mellem testafholdelse og opgaveafprøvning



Afvigelsen i den estimerede sværhedsgrad er størst for de svære opga-

ver

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 49 af 145

Indledning

I evalueringen af de nationale test skal følgende spørgsmål besvares:

1. Regner de nationale test rigtigt?

1a. Herunder skal det klarlægges om opgavernes sværhedsgrader stadig er

korrekt og

1b. om opgaverne passer til Rasch-modellen.

I notatet redegøres for hvor mange opgaver, der er i opgavebanken, hvordan

opgaver afprøves og besvarelserne fra opgaveafprøvningerne statistisk ana-

lyseres. Opgavebankens sammensætning af opgaver i forhold til opgavernes

sværhedsgrad og i forhold til elevernes dygtighed beskrives. I notatet rede-

gøres for, hvordan det undersøges, om opgavernes sværhedsgrad ændres

over tid. Endelig belyses forskellen i opgavernes sværhedsgrad når disse fast-

sættes ud fra data indsamlet under henholdsvis lineær opgaveadministration

og under adaptive testafviklinger samt betydningen for elevernes beregnede

dygtighed.

Formålet er således at beskrive, hvordan opgaver tilføjes opgavebanken,

hvordan opgavernes sværhedsgrader fastlægges samt at vurdere om opga-

vernes sværhedsgrader er ændret over tid eller stadig er korrekte.

Notatet indeholder følgende afsnit:



Opgaveafprøvningen

Opgavebanken

Stabiliteten af opgavernes sværhedsgrad over tid

Forskellen i opgavernes sværhedsgrad baseret på lineær og adaptiv test-

administration



Forskel i beregnet elevdygtighed

Opgaveafprøvningen

Opgaverne udarbejdes af faglige opgavekommissioner. Alle opgaver i opga-

vebanken er afprøvet af elever på det klassetrin, testen er målrettet til. I dag

bliver alle nye opgaver afprøvet på ca. 700 elever.

Afprøvning af nye opgaver (udskiftning af opgaver) er omtalt i lov om folke-

skolen

§13:

”Stk. 4.

Før en test tages i brug og ved udskiftning af opgaver, som indgår i en

test, kan undervisningsministeren udpege repræsentative grupper af elever til

afprøvning

af teste es releva s og pålidelighed .v.”

Bekendtgørelse af lov om folkeskolen (LBK nr 1510) af 14. dec 2017

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 50 af 145

Skoler, der skal deltage i opgaveafprøvningen, udvælges tilfældigt blandt lan-

dets folkeskoler. Udvælgelsen sker stratificeret efter skolens beliggenhed

(Øst- eller Vestdanmark) og størrelse (under eller over 350 elever på skolen).

Opgaveafprøvningen foregår som en lineær test, hvor eleverne får 2-3 sæt

på ca. 30 opgaver i hvert sæt. Et sæt af opgaver kan besvares på 45 minutter.

I forbindelse med afprøvningen af nye opgaver til opgavebanken medtages

endvidere et antal af de eksisterende og tidligere godkendte opgaver fra op-

gavebanken. Dette sikrer, at der sker et overlap mellem blokkene af opgave-

afprøvninger, således at nye opgavers sværhedsgrad kan indplaceres på den

eksisterende skala. Disse overlapningsopgaver kaldes link-opgaver.

Opgaverne i hvert sæt randomiseres, så opgaverne kommer i forskellig ræk-

kefølge til de enkelte elever.

Afprøvning af opgaver med henblik på anvendelse i de nationale test er fore-

gået siden maj 2008. Der har i alt været afholdt 14 opgaveafprøvninger i pe-

rioden maj 2008 til januar 2019.

Bilag 4.1 indeholder tabeller, der viser, hvornår opgavebankens

opgaver er

afprøvet. De fleste af opgavebankens opgaver er afprøvet i perioden fra 2008

til 2015. I perioden 2015 til 2018 er der primært afprøvet opgaver til de nye

test og profilområder i matematik 3., 6. og 8. klasse samt i engelsk 4. klasse. I

januar 2019 er der desuden afprøvet 1.552 opgaver fordelt på næsten alle

test og profilområder.

På baggrund af elevernes besvarelser fra opgaveafprøvningen foretages en

statistisk analyse, hvor det undersøges om opgaverne passer til Rasch-mo-

dellen. Opgaver, der ikke passer til Rasch-modellen fjernes. De resterende

opgaver eteg es ’Ras h-godke dte’ og tilføjes opgave a ke

Alle analyser af besvarelser fra opgaveafprøvningerne foretages i analysepro-

grammet RUMM

. Bilag 4.2 viser skærmdumps fra analyserne af opgaver af-

prøvet i januar 2018. Alle nye opgaver, der tilføjes opgavebanken, passer til

Rasch-modellen.

Der er kun medtaget den del af opgavebanken, der anvendes af de obligatoriske test, dvs

dansk læsning, matematik, engelsk samt fysik/kemi

https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf19/mar/190315-opgaveafprovning-

og-beregning-af-opgavernes-svarhedsgrad-i-de-nationale-test.pdf

www.rummlab.com.au

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 51 af 145

Opgavebanken

Under afvikling af de nationale test foråret 2019 var der i alt 10.969 opgaver i

drift i opgavebanken (Tabel 4.1).

Tabel 4.1 Antal opgaver i opgavebanken foråret 2019

Fag og klassetrin

Dansk læsning 2. klasse

Dansk læsning 4. klasse

Dansk læsning 6. klasse

Dansk læsning 8. klasse

Matematik 3. klasse

Matematik 6. klasse

Matematik 8. klasse

Engelsk 4. klasse

Engelsk 7. klasse

Fysik/kemi 8. klasse

Biologi 8. klasse

Geografi 8. klasse

Dansk som andetsprog 5. klasse

Dansk som andetsprog 7. klasse

I alt

Kilde: Styrelsen for It og Læring

Antal opgaver i drift

729

788

773

821

706

1.025

706

787

640

757

764

858

756

859

10.969

Opgavebankens sammensætning af opgaver i forhold til opgavernes estime-

rede sværhedsgrad ses i Bilag 4.3.

I dansk læsning er der relativt få svære opgaver i profilområderne

afkodning

tekstforståelse.

Dette gør sig ligeledes gældende i det nye profilområde

statistik og sandsynlighed

i matematik 3. og 6. klasse samt i engelsk.

Opgavebankens sammensætning af lette, middelsvære og svære opgaver i

forhold til elevgruppens dygtighed kan illustreres med de såkaldte person-

item plot, hvor fordelingen af elevernes dygtighed sammenholdes med for-

delingen af opgavernes sværhedsgrad (Figur 4.1-4.3).

x-aksen på person-item plottene viser logit-skalaen. Såvel elevernes dygtig-

hed som opgavernes sværhedsgrad måles på samme skala (logit-skala).

y-aksen på person-item plottene viser antallet af elever (opad) med en given

dygtighed og antallet af opgaver (nedad) med en given sværhedsgrad.

Person-item plot for dansk læsning 8. klasse viser, at der mangler svære op-

gaver til de dygtigste elever i såvel

afkodning

(Figur 4.2) som i

tekstforståelse

(Figur 4.3).

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 52 af 145

Figur 4.1 Dansk læsning 8. klasse

–

sprogforståelse

Figur 4.2 Dansk læsning 8. klasse

–

afkodning

Figur 4.3 Dansk læsning 8. klasse

–

tekstforståelse

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 53 af 145

Manglen på svære opgaver gør det primært vanskelligt at skelne de dygtigste

og de allerdygtigste elever ved hjælp af testene. Endvidere bliver den statisti-

ske usikkerhed ikke så lille, som den kunne blive, hvis der var tilstrækkeligt

med opgaver, der passede til elevernes dygtighed.

I Bilag 4.4 er medtaget person-item plot for alle profilområder for de obliga-

toriske nationale test foråret 2018.

Person-item figurerne viser, at der mangler svære opgaver i flere af profilom-

råderne.

Stabiliteten af opgavernes sværhedsgrad over tid

I forbindelse med afprøvningen af nye opgaver til opgavebanken medtages

hver gang et antal af de eksisterende og tidligere godkendte opgaver fra op-

gavebanken. Dette sikrer, at der sker et overlap mellem blokkene af opgave-

afprøvninger, således at nye opgavers sværhedsgrad kan indplaceres på den

eksisterende skala. Disse overlapningsopgaver kaldes link-opgaver. Typisk

udvælges 5-10 link-opgaver ved hver opgaveafprøvning.

Anvendelsen af link-opgaver giver endvidere mulighed for, at undersøge om

disse opgavers sværhedsgrad er ændret siden tidligere opgaveafprøvninger.

For disse opgaver foreligger der nemlig elevbesvarelser fra flere perioder.

I Rasch analysen foretages denne analyse i en Diffential Item Functioning

(DIF) analyse i RUMM. Der testes for DIF mellem nyeste og tidligere afprøv-

ningsperioder.

I analyserne fra opgaveafprøvning i januar 2018 er der testet for periode DIF

mellem afprøvningsperioden i januar 2018 og tidligere afprøvningsperioder

(maj 2008 til september 2014) samlet.

I de analyserede profilområder blev der i alt anvendt 208 link-opgaver. 17 (8

procent) af disse udviste statistisk signifikant periode DIF. Disse opgaver er

derfor tildelt en ny sværhedsgrad (item split i RUMM) i opgavebanken i sko-

leåret 2018/2019.

I Bilag 4.5 er opsummeret de statistiske analyser af periode DIF for de analy-

serede link-opgaver knyttet til profilområderne, hvor der afholdes obligatori-

ske test.

Analyser af opgaveafprøvningen fra januar 2019 viser, at 48 (16 procent) ud

af 296 link-opgaver udviser statistisk signifikant periode DIF. Disse opgaver er

derfor tildelt en ny sværhedsgrad (item split i RUMM) i opgavebanken i sko-

leåret 2019/2020.

Opgavernes sværhedsgrad justeres således efter hver opgaveafprøvning. Det

er kun opgaver, hvor der er konstateret statistisk signifikant periode DIF, der

får justeret deres opgaveparametre.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 54 af 145

Link-opgaverne udvælges blandt opgaver, der ligger på midten af skalaen for

opgavernes sværhedsgrad. Analyserne kan således ikke umiddelbart bruges

til at udtale sig om, hvorvidt meget lette eller meget svære opgaver har æn-

dret deres sværhedsgrad over tid.

Forskellen i opgavernes sværhedsgrad baseret på lineær og adaptiv testad-

ministration

Sværhedsgraderne på opgaverne i opgavebanken er siden testenes opstart i

maj 2008 estimeret på baggrund af opgaveafprøvninger, der foregår som en

lineær test.

Elevbesvarelser fra obligatoriske test kan også anvendes til at estimere opga-

vernes sværhedsgrad. Dette har Jeppe Bundsgaard og Svend Kreiner

(JB &

SK) gjort for dansk læsning 8. klasse på baggrund af elevernes besvarelser i

de obligatoriske test foråret 2017.

Data fra elevbesvarelser i obligatoriske test er baseret på adaptive forløb,

hvor elever, der svarer rigtigt på en opgave, får stillet en sværere opgave næ-

ste gang, og elever, der svarer forkert på en opgave, får stillet en lettere op-

gave næste gang.

Opgavernes estimerede sværhedsgrad baseret på henholdsvis opgaveafprøv-

ninger (Location (OAP)) og på elevbesvarelser fra de obligatoriske test (Loca-

tion (OBL)) er vist i Figur 4.4 for dansk læsning i 8. klasse. Data fra elevbesva-

relser fra de obligatoriske test stammer fra skoleåret 2017/2018. Sværheds-

graderne baseret på opgaveafprøvningerne er de aktuelle i opgavebanken i

testsystemet.

Korrelationen mellem de estimerede opgavesværheder er på 0,95 for alle tre

profilområder, mens regressionslinjens hældning er på henholdsvis 1,52,

1,04 og 1,26 i de tre profilområder.

I alle tre profilområder ses, at afvigelsen i opgavernes sværhedsgrad baseret

på de to forskellige datasæt er størst for de svære opgaver.

Jeppe Bundsgaard og Svend Kreiner: Undersøgelse af De Nationale Tests måleegenskaber.

Revideret 2. udgave. 25. April 2019

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 55 af 145

Figur 4.4 Estimerede opgavesværhedsgrader i dansk læsning 8. klasse baseret

på opgaveafprøvning (Location(OAP)) og på obligatoriske test (Location(OBL))

Note: Profilområde 1 = Sprogforståelse; Profilområde 2 = Afkodning; Profilområde 3 = Tekstforståelse

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 56 af 145

Forskellen mellem opgavernes sværhedsgrad baseret på opgaveafprøvnin-

gerne og opgavernes sværhedsgrad, hvis den blev beregnet på baggrund af

elevbesvarelser fra de obligatoriske test, er beregnet for elevbesvarelserne i

de obligatoriske test i henholdsvis skoleårene 2009/2010, 2013/2014 og

2017/2018 i dansk læsning 6. og 8. klasse samt i matematik 3. og 6. klasse. I

matematik er beregningerne kun foretaget for profilområde 1 og 2, da profil-

område 3 blev erstattet med et nyt profilområde i 3. klasse i 2015/2016 og i

6. klasse i 2017/2018.

Forskellen er beregnet som forskellen mellem de estimerede opgavesværhe-

der ved anvendelse af de to forskellige typer af data:

forskel = location(OAP)

–

location(OBL)

hvor location(OAP) er opgavens sværhedsgrad baseret på data fra opgaveaf-

prøvningerne og location(OBL) er opgavens sværhedsgrad baseret på data

fra de obligatoriske nationale test.

Desuden er den absolutte forskel beregnet:

absolut forskel = abs(location(OAP)

–

location(OBL))

Ændring over tid

Samlet for opgaverne i dansk læsning og matematik gælder (Tabel 4.2), at

beregningen af opgavernes sværhedsgrad afviger med mindre end 1 logit

mellem besvarelser fra opgaveafprøvningerne og besvarelser fra selve test-

forløbene for 70-79 procent af opgaverne i opgavebanken.

Tabel 4.2 Fordeling af absolut forskel i estimerede sværhedsgrader mellem

opgaveafprøvningerne og elevbesvarelserne i obligatoriske test. Samlet for

dansk læsning 6. og 8. klasse og matematik 3. og 6. klasse

Interval

0,0

–

0,5

–

1,0

–

1,5

–

2,0

–

2,5

2,5 +

Forskel

Absolut forskel

Antal

1) Absolut forskel på logit-skalaen

2) Gennemsnitlig forskel

3) Gennemsnitlig absolut forskel

Kilde: Styrelsen for It og Læring

2010

48 %

31 %

12 %

0,01

0,68

2.171

2014

41 %

29 %

17 %

0,00

0,79

2.333

2018

41 %

31 %

17 %

0,00

0,75

2.843

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 57 af 145

Den gennemsnitlige absolutte forskel i opgavernes sværhedsgrad ligger i in-

tervallet 0,68-0,79 for de tre analyserede skoleår.

Beregningerne viser også, at andelen af opgaver, hvor den beregnede svær-

hedsgrad afviger, ikke ændres markant over tid. Således er fordelingen af af-

vigelser stort set identisk i perioden 2014 til 2018. I 2010 er der samlet lidt

flere opgaver (79 procent), der afviger mindre end 1,0 logit i forhold til i

2018, hvor 72 procent afviger mindre end 1,0 logit. Til gengæld er der en

større andel af opgaverne i 2010 (5 procent), der afviger med mere end 2,0

logit, i forhold til 3 procent af opgaverne i 2018.

I Bilag 4.6 er beregningerne for alle profilområderne i dansk læsning 6. og 8.

klasse samt i matematik 3. og 6. klasse vist.

I profilområdet sprogforståelse 6. klasse og testforståelse 8. klasse samt i tal

og algebra og i geometri i 3. og 6. klasse er andelen, der afviger med mere

end 1,0 logit, mindre i 2010 end i såvel 2014 og 2018. I afkodning i 8. klasse

er det modsatte tilfældet. Her er andelen, der afviger med mere end 1,0 lo-

git, større end i 2018.

Blandt de analyserede profilområder, ses den største gennemsnitlige forskel

mellem opgavernes sværhedsgrad i sprogforståelse i 8. klasse. I dette profil-

område er opgavernes sværhedsgrad større, når disse er bestemt ud fra op-

gaveafprøvningerne i forhold til, hvis de blev fastsat ud fra besvarelserne i de

obligatoriske test i både 2010 og 2014. Opgaverne i dette profilområde vur-

deres således lettere i de obligatoriske testforløb end ved opgaveafprøvnin-

gerne. Denne forskel er stort set væk i 2018.

De obligatoriske test blev afholdt for første gang i foråret 2010, og besvarel-

serne fra disse testforløb ligger således relativt tæt på de første opgaveaf-

prøvninger, der blev foretaget i 2008 og 2009. Hvis forskellen mellem opga-

vernes estimerede sværhedsgrad primært skyldtes, at opgavesværhederne

var ændret over tid, ville det forventes, at der var stor overensstemmelse når

de to perioder lå tæt på hinanden. Dette er ikke tilfældet (Tabel 4.2). I 2010

afviger sværhedsgraden med mere end 0,5 logit, når denne beregnes baseret

på henholdsvis opgaveafprøvningerne og besvarelserne fra selv testforlø-

bene, for 52 procent af opgaverne i læsning (6. og 8. klasse) og i matematik

(3. og 6. klasse) og 21 procent af opgaverne afviger med mere end 1,0 logit i

sværhedsgrad.

Opgavernes sværhedsgrad beregnes forskelligt for en del af opgaverne i op-

gavebanken, når beregningerne baseres på henholdsvis data fra opgaveaf-

prøvninger og på data fra de obligatoriske testforløb. Forskellen ændres ikke

fra 2010 til 2018.

Hvis opgavernes (endelige) sværhedsgrad fremadrettet skal baseres på de

obligatoriske test, vil det betyde, at elevernes dygtighed skal genberegnes,

når alle test er afviklet. Først når alle test er afviklet kan opgavernes aktuelle

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 58 af 145

sværhedsgrad i populationen fastlægges og elevernes tilhørende dygtighed

beregnes.

Opgavernes alder

Hvis forskellen i de estimerede sværhedsgrader baseret på henholdsvis opga-

veafprøvningerne og elevforløbene under de obligatoriske test skulle være et

udtryk for, at opgavernes sværhedsgrad er ændret over tid, da ville man for-

vente en større afvigelse des længere tid, der er gået siden opgaverne er af-

prøvet i forhold til afviklingen af de obligatoriske test. Forskellen ville forven-

tes at være begrænset for de senest afprøvede opgaver.

Dette kan ikke bekræftes (Figur 4.5). For opgaver afprøvet i 2009 og 2010 lig-

ger den beregnede sværhedsgrad i 45 - 55 procent af tilfældene udenfor ±

0,5 logit af den sværhedsgrad, der kan beregnes på baggrund af elevernes

besvarelser i de obligatoriske test i foråret 2018. For opgaver afprøvet 5-7 år

senere, i 2015 og 2016, ligger den beregnede sværhedsgrad i 66 - 73 procent

af tilfældene udenfor ± 0,5 logit af den sværhedsgrad, der kan beregnes på

baggrund af elevernes besvarelser i de obligatoriske test i foråret 2018.

Andelen af opgaver med stor afvigelse i estimeret sværhedsgrad baseret på

opgaveafprøvningsdata og testforløbsdata stiger således ikke, når den tids-

mæssige afstand mellem de to dataindsamlinger øges.

Figur 4.5 Andel opgaver med forskel

i sværhedsgrad mellem opgaveaf-

prøvning og testforløb i 2018 fordelt på opgaveafprøvningsperiode

1) Forskel større end 0,5 logit

Baseret på Bilag 4.6

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 59 af 145

Forskellen i opgavernes sværhedsgrad, når beregningerne baseres på data

fra opgaveafprøvninger, og når beregningerne baseres på obligatoriske test-

forløb, afhænger ikke af, hvor længe siden opgaverne er afprøvet og deres

sværhedsgrad er beregnet.

Opgavernes sværhedsgrad

Derimod er der en sammenhæng mellem opgavernes sværhedsgrad og for-

skellen i de estimerede sværhedsgrader baseret på opgaveafprøvningerne og

elevforløbene under de obligatoriske test (Figur 4.6).

47 procent af opgaverne med en estimeret sværhedsgrad i midten af skalaen

(logit: (÷1; +1]) afviger med mere end 0,5 logit fra den sværhedsgrad, der kan

estimeres på baggrund af elevforløbene i de obligatoriske test i 2018. For de

svære opgaver (logit: ( > +2 )) afviger 93 procent med mere end 0,5 logit.

Figur 4.6 Andel opgaver med forskel

i sværhedsgrad mellem opgaveaf-

prøvning og testforløb i 2018 fordelt på opgavernes sværhedsgrad

1) Forskel større end 0,5 logit

Baseret på Bilag 4.6

Kilde: Styrelsen for It og Læring

Den absolutte forskel i opgavernes beregnede sværhedsgrad er mindst for

opgaver med en sværhedsgrad midt på skalaen og størst for de lette og de

svære opgaver (Tabel 4.3).

Fortegnet på forskellen i opgavernes beregnede sværhedsgrad viser, at de

sværeste opgaver, med en estimeret logit-værdi på over +1,0, vurderes

endnu sværere i de obligatoriske testforløb i 2017/2018. De lettere opgaver,

med en estimeret logit-værdi under ÷1,0, vurderes omvendt lettere i de obli-

gatoriske testforløb.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 60 af 145

Tabel 4.3 Forskel i estimerede sværhedsgrader mellem opgaveafprøvnin-

gerne og elevbesvarelserne i obligatoriske test 2017/2018 i forhold til opga-

vernes sværhedsgrad. Samlet for dansk læsning 6. og 8. klasse og matema-

tik 3. og 6. klasse. Opgaver i opgavebanken i 2018

Opgavernes sværhedsgrad

(N=2.843)

(÷ ; ÷2]

(N=195)

Forskel

Abs. Forskel

1) Gennemsnitlig forskel

2) Gennemsnitlig absolut forskel

Kilde: Styrelsen for It og Læring

(÷2 ; ÷1]

(N=400)

0,77

0,85

(÷1 ; +1]

(N=1.656)

0,22

0,55

(+1 ; +2]

(N=399)

-1,04

1,07

(+2 ; + )

(N=193)

-1,57

1,59

0,30

0,76

Der er en sammenhæng mellem opgavernes sværhedsgrad og forskellen i de

estimerede sværhedsgrader baseret på opgaveafprøvningerne og elevforlø-

bene under de obligatoriske test.

Forskel i beregnet elevdygtighed

Elevdygtighederne i de nationale obligatoriske test i skoleåret 2017/2018 kan

beregnes ved at anvende opgavernes estimerede sværhedsgrad baseret på

elevbesvarelser fra de obligatoriske test (Figur 4.7). Disse elevdygtigheder er

beregnet i RUMM og sammenholdes med de elevdygtigheder, der beregnes i

testsystemet. Elevdygtighederne i testsystemet er baseret på opgavesværhe-

der, der er beregnet på baggrund af opgaveafprøvninger.

De dygtigste elever, der får de sværeste opgaver i den adaptive algoritme i

dansk læsning 8. klasse, vil få en større beregnet elevdygtighed, hvis der blev

anvendt opgavesværheder baseret på de samme elevers besvarelser fra de

obligatoriske test. Ændringen i elevdygtighederne er mindre for elever med

en elevdygtighed midt i skalaen.

Korrelationen mellem de beregnede elevdygtigheder på logit-skalaen ved de

to metoder er på 0,98, 0,99 og 0,98 i de tre profilområder.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 61 af 145

Figur 4.7 Beregnede elevdygtigheder i dansk læsning 8. klasse baseret på

opgaveafprøvning (Elevdygtighed(OAP)) og på obligatoriske test (Elevdyg-

tighed(OBL))

Note: Profilområde 1 = Sprogforståelse; Profilområde 2 = Afkodning; Profilområde 3 = Tekstforståelse

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 62 af 145

De høje korrelationer (0,98-0,99) mellem de beregnede elevdygtigheder indi-

kerer, at rangordningen mellem eleverne i stor udstrækning vil være bevaret,

hvis elevernes dygtighed blev beregnet baseret på opgavesværheder estime-

ret i de adaptive obligatoriske test.

Sammenligning af elevernes dygtighed på percentilskalaen kræver, at elever-

nes dygtigheder baseret på opgavesværheder fra de adaptive obligatoriske

test omregnes fra logit-skalaen til en normbaseret percentilskala. Denne om-

regning skal foretages på samme udgangspopulation som for de nuværende,

dvs på resultaterne fra elevernes testafvikling i foråret 2010 (Bilag 1.1).

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 63 af 145

Notat 5 Samling af testresultater fra flere profilområder

Sammenfatning



Analyser af besvarelserne fra de obligatoriske test i 2017/2018 viser, at

de tre profilområder i dansk læsning 8. klasse godt kan antages at måle

forskellige egenskaber af én og samme færdighed. Analyser viser tilsva-

rende resultat for matematik 6. klasse



Som supplement til den beregnede elevdygtighed i hvert af de tre profil-

områder kan der derfor beregnes én samlet elevdygtighed i henholdsvis

dansk læsning 8. klasse og i matematik 6. klasse



Den statistiske usikkerhed på elevernes estimerede samlede dygtighed

er i gennemsnit på ca. 0,30 logit, hvor den i gennemsnit i hvert af de

analyserede profilområder ligger på 0,47-0,52 logit



Det er ikke undersøgt om profilområder i de øvrige nationale test på

samme vis måler én og samme færdighed

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 64 af 145

Indledning

I evalueringen af de nationale test skal det afdækkes:

2. Om sikkerheden i målingerne af elevernes færdigheder kan forbedres ved

at kombinere resultater fra forskellige profilområder. Herunder skal det føl-

gende klarlægges:

a. Kan det påvises, at profilområderne måler forskellige aspekter af den

samme bagvedliggende færdighed?

b. Kan testresultaterne fra profilområderne slås sammen og dermed for-

bedre sikkerheden i testene.

I notatet beskrives sammenhængen mellem elevernes resultater i de tre pro-

filområder i henholdsvis dansk læsning 8. klasse og matematik 6. klasse. Be-

svarelserne fra de nationale obligatoriske test i skoleåret 2017/2018 anven-

des til analyserne.

Formålet er at vurdere, om elevernes resultater fra tre profilområder kan

samles til ét samlet resultat med en større statistisk sikkerhed.

Notatet indeholder følgende afsnit:



Korrelationen mellem elevresultater

Antal besvarede opgaver og SEM i profilområderne

Analyse af mulighed for anvendelse af én Rasch-model pr. test

Samlet elevdygtighed

Korrelationen mellem elevresultater

De nationale test tester elevernes dygtighed i udvalgte områder og fag. I

hvert fag testes eleverne inden for tre hovedområder, der kaldes profilområ-

der. Elevernes dygtighed beregnes i hvert profilområde ud fra de besvarelser

eleven har givet på en række opgaver.

Sammenhængen mellem elevernes beregnede dygtighed i de tre profilområ-

der i dansk læsning 8. klasse og i matematik 6. klassen ses i Tabel 5.1. Bereg-

ningerne er baseret på elevbesvarelser fra de obligatoriske test i foråret

2018.

Tabel 5.1 Korrelationer mellem elevdygtigheder. Obligatoriske test

2017/2018

Test

Dansk læsning

8. klasse

Matematik

6. klasse

Profilområde 1

Profilområde 2

Profilområde 1

Profilområde 2

0,48

0,68

Profilområde 3

0,36

0,60

0,71

0,70

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 65 af 145

Alle korrelationer er statistisk signifikant forskellige fra nul. I dansk læsning 8.

klasse er der specielt en stærk korrelation mellem afkodning (profilområde

2) og tekstforståelse (profilområde 3). I matematik 6. klasse er der en stærk

korrelation mellem alle tre profilområder.

Der er således en sammenhæng mellem elevernes dygtighed i de enkelte

profilområder i en test. De dygtigste elever i ét profilområde er også blandt

de dygtigste i de to andre profilområder.

Antal besvarede opgaver og SEM i profilområderne

Elevernes testresultater afrapporteres i hvert profilområde for sig. I gennem-

snit når eleverne at besvare 15-19 opgaver i hvert profilområde i dansk læs-

ning 8. klasse og matematik 6. klasse (Tabel 5.2).

Tabel 5.2 Det gennemsnitlige antal opgaver eleverne når at besvare i de ob-

ligatoriske test i 2017/2018.

Test

Dansk læsning 8. klasse

Matematik 6. klasse

Kilde: Styrelsen for It og Læring

Profilområde 1

Profilområde 2

Profilområde 3

Samlet

Den gennemsnitlige observerede statistiske usikkerhed (SEM) på den bereg-

nede elevdygtighed i dansk læsning 8. klasse og matematik 6. klasse er på

0,47-0,52 logit (Tabel 5.3).

Tabel 5.3 Den gennemsnitlige statistiske usikkerhed (logit) på den estime-

rede elevdygtighed i skoleåret 2017/2018.

Test

Dansk læsning 8. klasse

Matematik 6. klasse

Kilde: Styrelsen for It og Læring

Profilområde 1

0,51

0,47

Profilområde 2

0,51

0,48

Profilområde 3

0,47

0,52

Hvis elevernes testresultater i to eller tre profilområder kan samles til ét fæl-

les mål for elevens dygtighed, da vil denne beregnede dygtighed være base-

ret på besvarelser af flere opgaver, og dermed vil den statistiske usikkerhed

på elevens resultat være mindre end den statistiske usikkerhed på dygtighe-

den i hvert af profilområderne.

Analyse af mulighed for anvendelse af én Rasch-model pr. test

Ved at samle den enkelte elevs besvarelser fra alle tre profilområder i hen-

holdsvis dansk læsning 8. klasse og matematik 6. klasse fra de obligatoriske

test i 2017/2018 er det undersøgt, om opgaverne fra de tre profilområder

kan samles til én opgavebank

–

én dimension. Hvis elevernes besvarelser af

opgaver i de tre profilområder ikke giver anledning til at forkaste hypotesen

om én samlet Rasch model, da kan opgavernes parametre estimeres og ind-

placeres på én samlet logit-skala.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 66 af 145

Alle analyser af besvarelserne er foretaget i software programmet RUMM

Analyserne i dansk læsning 8. klasse er baseret på besvarelser fra 48.481 ele-

ver, mens analyserne i matematik 6. klasse er baseret på besvarelser fra

53.043 elever.

I foråret 2018 indeholdt opgavebanken i dansk læsning 8. klasse 823 opgaver

samt 1.019 opgaver i matematik 6. klasse (Tabel 5.4).

Tabel 5.4 Opgavebanken dansk læsning 8. klasse og matematik 6. klasse i

foråret 2018

Fag

Dansk læsning 8. klasse

Matematik 6. klasse

Kilde: Styrelsen for It og Læring

Profilområde 1

308

494

Profilområde 2

214

263

Profilområde 3

301

262

Samlet

823

1.019

De statistiske analyser i RUMM viser, at 12 ud af de 823 opgaver udviser

misfit til én samlet Rasch model i dansk læsning 8. klasse, og 6 ud af de 1.019

opgaver udviser misfit til én samlet Rasch model i matematik 6. klasse. Disse

opgaver skal derfor fjernes inden, der beregnes elevdygtigheder.

Én samlet opgavebank i dansk læsning 8. klasse består således af 811 opga-

ver og i matematik 6. klasse af 1.013 opgaver.

Baseret på elevbesvarelser fra de obligatoriske test i skoleåret 2017/2018

kan det således ikke afvises, at de tre profilområder i henholdsvis dansk læs-

ning 8. klasse og matematik 6. klasse måler forskellige aspekter af én og

samme færdighed.

Hvorvidt dette også gælder for de øvrige test er ikke undersøgt.

Samlet elevdygtighed

Baseret på elevbesvarelserne fra de Rasch godkendte opgaver kan én samlet

elevdygtighed i henholdsvis dansk læsning 8. klasse og i matematik 6. klasse

beregnes.

Det gennemsnitlige antal opgaver samt den beregnede statistiske usikkerhed

ses i Tabel 5.5.

Tabel 5.5 Det gennemsnitlige antal opgaver samt den gennemsnitlige stati-

stiske usikkerhed (SEM) på den estimerede elevdygtighed i skoleåret

2017/2018. Gennemsnit [5% percentil; 95% percentil]

Test

Dansk læsning 8. klasse

Matematik 6. klasse

Kilde: Styrelsen for It og Læring

Antal opgaver

SEM

0,29 [0,22; 0,35]

0,30 [0,22; 0,37]

www.rummlab.com.au

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 67 af 145

En samlet beregnet elevdygtighed i hver test vil være baseret på ca. 50-60

opgaver. Den statistiske usikkerhed på den samlede elevdygtighed er 0,30 lo-

git, mens usikkerheden på elevdygtigheden i hvert profilområde for sig er på

0,47-0,52 logit.

Korrelationerne mellem elevernes samlede beregnede dygtighed og den be-

regnede dygtighed i hvert af de tre profilområder i dansk læsning 8. klasse og

i matematik 6. klassen er store (Tabel 5.6) og alle statistisk signifikant forskel-

lige fra nul.

Tabel 5.6 Korrelationer mellem samlet beregnet elevdygtighed og elevdyg-

tighederne i hvert af de tre profilområder. Obligatoriske test 2017/2018

Test

Dansk læsning 8. klasse

Matematik 6. klasse

Kilde: Styrelsen for It og Læring

Profilområde 1

0,71

0,89

Profilområde 2

0,86

0,88

Profilområde 3

0,82

0,89

Ud fra rent statistiske betragtninger vil det derfor være muligt at supplere de

nuværende resultater i de enkelte profilområder med ét samlet elevresultat

med en betydelig større statistisk sikkerhed end, der kan opnås i hvert profil-

område for sig.

Der udestår en faglig indholdsmæssig afklaring af muligheden for samling af

testresultater fra flere profilområder til ét samlet mål.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 68 af 145

Bilag 1.1 Anvendte skalaer til præsentation af elevernes bereg-

nede dygtigheder

Elevdygtigheden og den tilhørende usikkerhed beregnes i den adaptive algo-

ritme i testsystemet på en

logit-skala,

som i princippet går fra minus til plus

uendelig, men som i praksis går fra minus 7 til plus 7. I de fleste profilområ-

der er intervallet dog snævrere.

Siden skoleåret 2009/2010 har resultaterne fra de nationale test været for-

midlet på den

normbaserede skala (1-100),

der er en

percentilskala.

Percen-

tilskalaen er dannet på baggrund af fordelingen af elevernes testresultater i

2010

, hvor en percentilværdi på fx 40 svarer til den elevdygtighed på logit

skalaen, hvor 40 procent af testresultaterne i 2010 lå under. En percentil-

værdi på 90 svarer til den elevdygtighed, hvor 90 procent af eleverne i 2010

scorede under, dvs kun 10 procent af eleverne i 2010 opnåede et bedre test-

resultat.

I formidlingen til elever og forældre bliver resultaterne på 100-skalaen omsat

til en

femtrins skala:

En del under gennemsnittet (1-10)

Under gennemsnittet (11-35)

Gennemsnittet (35-65)

Over gennemsnittet (66-90)

En del over gennemsnittet (91-100)

Logit skalaen har den fordel, at det er en interval skala. Forskellen mellem to

værdier har samme betydning overalt på skalaen. Således er fx en forbedring

eller en forskel fra -2 til -1 den samme som en forbedring fra 0 til +1.

Dette gælder ikke for percentilskalaen. Her vil en forskel eller en forbedring

på fx 10 point svarer til en relativ beskeden ændring i elevdygtigheden på lo-

git-skalaen, hvis der er tale om en middeldygtig elev (30-70), mens det svarer

til en større ændring i elevdygtigheden på logit-skalaen, hvis der er tale om

en meget dygtig elev (80-100) eller en mindre dygtig elev (1-20).

Siden skoleåret 2014/2015 har resultaterne i dansk læsning og matematik

desuden været præsenteret på den

kriteriebaserede skala.

Ved den kriterie-

baserede scoring omregnes elevens dygtighed på logit-skalaen til en forven-

tet score på et antal udvalgte opgaver.

Omregning fra logit-skala til percentilskala sker ved anvendelse af en stykvis sigmoid-funk-

tion

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 69 af 145

Opgavekommissionerne har fastsat kriterier for, hvilket fagligt niveau en

score stemmer overens med. I hvert profilområde er defineret seks faglige

niveauer:

Ikke tilstrækkelig præstation

Mangelfuld præstation

Jævn præstation

God præstation

Rigtig god præstation

Fremragende præstation

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 70 af 145

Bilag 1.2 Opgavebanken i dansk læsning 8. klasse

–

sprogforstå-

else

Opgaver i opgavebanken i dansk læsning 8. klasse sprogforståelse. Kun opga-

ver, der var aktive

i foråret 2018.

Tabel 1.2.1 Opgavenummer med tilhørende sværhedsgrad (location)

opgavenummer

0108010410311

0108010420046

0108010410186-1

0108010410344

0108010420016

0108010415103

0108010410340

0108010420126

0108010410369

0108010420032

0108010410410-1

0108010410343

0108010410080

0108010410316

0108010440022

0108010415102

0108010415171

0108010415190

0108010415179

0108010440027

0108010410337

0108010420021

0108010420101

location

-4,135

-4,128

-4,105

-3,694

-3,657

-2,771

-2,741

-2,616

-2,610

-2,525

-2,504

-2,434

-2,399

-2,333

-2,187

-2,133

-2,007

-1,984

-1,958

-1,945

-1,932

-1,922

-1,920

Tidligere Rasch-godkendte opgaver kan være taget ud af opgavebanken

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 71 af 145

opgavenummer

010801000301236064-1

0108010415164

0108010410230042

0108010410335

0108010410376

0108010410327

0108010415193

0108010420034

0108010440019

0108010420071

0108010410385

0108010410339

0108010420060

010801000301239199-1

0108010410230045

010801000301234830-1

0108010410097

0108010420064

0108010420029

0108010415194

0108010420044

0108010410230025

0108010410408-1

0108010420041

0108010415169

0108010410395

0108010415157

0108010420012

0108010420067

010801000301238278-1

location

-1,876

-1,848

-1,792

-1,790

-1,752

-1,672

-1,641

-1,625

-1,622

-1,619

-1,614

-1,584

-1,573

-1,527

-1,474

-1,449

-1,415

-1,351

-1,340

-1,322

-1,272

-1,257

-1,247

-1,242

-1,204

-1,192

-1,140

-1,121

-1,086

-1,064

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 72 af 145

opgavenummer

0108010440021

0108010410401-1

0108010410358

0108010420002

0108010410402-1

010801000301238283-1

0108010410098

0108010440014

0108010410406-1

0108010415139

0108010410325

010801000301239200-1

0108010440028

0108010410093

0108010415178

010801000301238279-1

0108010415175

0108010420042

0108010410333

0108010420116

0108010410230021

0108010410230032

010801000301238277-1

0108010410096

010801000301238994-1

0108010415117

0108010415182

0108010410187-1

0108010420027

0108010410110-1

location

-1,043

-1,020

-1,005

-1,000

-0,989

-0,944

-0,938

-0,923

-0,912

-0,906

-0,871

-0,834

-0,807

-0,793

-0,786

-0,779

-0,778

-0,769

-0,767

-0,739

-0,733

-0,713

-0,680

-0,652

-0,648

-0,629

-0,622

-0,617

-0,612

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 73 af 145

opgavenummer

010801000301238285-1

0108010440042

0108010410230029

0108010410230009

0108010420084

0108010410230020

0108010420050

0108010420023

0108010410411-1

0108010420033

0108010410230039

0108010415140

0108010410230014

0108010415132

0108010420104

0108010410230041

0108010415129

0108010420010

0108010420030

010801000301239235-1

010801000301234835-1

0108010410351

0108010410400-1

0108010410320

0108010420161

010801000301238995-1

0108010410230028

010801000301238837-1

0108010410414-1

0108010410230030

location

-0,576

-0,574

-0,570

-0,567

-0,544

-0,526

-0,515

-0,472

-0,467

-0,466

-0,437

-0,412

-0,395

-0,384

-0,376

-0,372

-0,352

-0,325

-0,295

-0,286

-0,283

-0,279

-0,256

-0,227

-0,216

-0,180

-0,178

-0,163

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 74 af 145

opgavenummer

0108010440036

0108010420150

0108010410413-1

0108010420003

0108010440031

010801000301239197-1

0108010420141

0108010410230018

0108010420131

0108010440013

0108010420045

0108010420073

0108010440010

0108010410230046

0108010420058

0108010410155-1

0108010420136

0108010420092

0108010415159

0108010420048

0108010420142

0108010420024

0108010440037

0108010415160

0108010440040

0108010440025

0108010410230013

0108010410230022

0108010415130

0108010440001

location

-0,143

-0,134

-0,108

-0,103

-0,102

-0,073

-0,072

-0,067

-0,057

-0,052

-0,049

-0,044

-0,021

-0,015

-0,001

0,008

0,020

0,050

0,062

0,068

0,074

0,080

0,090

0,102

0,109

0,116

0,124

0,132

0,167

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 75 af 145

opgavenummer

0108010420053

0108010410230038

0108010415111

0108010410230008

0108010410357

0108010410230017

010801000301238353-1

0108010415119

0108010420094

0108010420102

0108010410230023

0108010410230019

0108010420061

0108010410230005

0108010415122

010801000301238282-1

0108010415135

0108010410397

0108010420049

0108010415134

0108010420066

0108010420040

0108010420019

0108010420151

0108010410393

0108010415145

0108010410083

010801000301238996-1

0108010420149

0108010420059

location

0,171

0,174

0,192

0,193

0,224

0,232

0,237

0,239

0,245

0,257

0,271

0,294

0,305

0,322

0,326

0,347

0,356

0,380

0,393

0,394

0,398

0,402

0,403

0,409

0,433

0,448

0,458

0,462

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 76 af 145

opgavenummer

010801000301238927-1

0108010420130

0108010420043

0108010420074

010801000301238555-1

0108010420112

0108010420070

0108010420157

0108010410398

0108010410392

0108010420013

0108010420113

0108010420162

0108010410230031

0108010420154

010801000301234832-1

0108010415133

0108010410366

0108010420155

0108010420018

010801000301238607-1

0108010420156

0108010410373

010801000301234806-1

0108010420106

0108010420014

0108010420100

0108010410230034

0108010415186

0108010420114

location

0,463

0,464

0,470

0,479

0,498

0,499

0,505

0,512

0,516

0,534

0,547

0,550

0,554

0,566

0,569

0,580

0,583

0,591

0,614

0,616

0,628

0,635

0,664

0,667

0,668

0,674

0,696

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 77 af 145

opgavenummer

0108010420120

0108010415120

0108010415173

0108010410230012

010801000301238839-1

010801000301238925-1

010801000301238281-1

010801000301239195-1

0108010420140

010801000301238835-1

0108010410145-1

010801000301234815-1

0108010410088

0108010420088

0108010410377

0108010440045

010801000301234831-1

0108010420152

0108010420031

010801000301238999-1

010801000301238873-1

0108010410328

0108010420105

0108010410230024

0108010420054

010801000301238836-1

0108010420147

0108010420138

010801000301234836-1

0108010420132

location

0,700

0,702

0,714

0,733

0,735

0,743

0,745

0,760

0,775

0,793

0,800

0,801

0,802

0,805

0,811

0,817

0,821

0,836

0,843

0,844

0,849

0,851

0,853

0,862

0,868

0,870

0,875

0,877

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 78 af 145

opgavenummer

010801000301234842-1

0108010415165

0108010420028

0108010410230037

0108010420068

0108010410372

0108010420079

010801000301234838-1

0108010440007

0108010410384

0108010415158

010801000301238872-1

0108010410378

0108010440006

0108010415183

0108010420087

0108010410230047

0108010410388

010801000301238556-1

010801000301234823-1

0108010410084

0108010420129

0108010415118

0108010420153

0108010420109

0108010440034

0108010410230035

0108010410405-1

0108010420103

010801000301234840-1

location

0,879

0,893

0,897

0,901

0,904

0,917

0,920

0,930

0,931

0,951

1,003

1,009

1,020

1,026

1,047

1,049

1,075

1,079

1,081

1,085

1,095

1,097

1,102

1,104

1,135

1,143

1,152

1,155

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 79 af 145

opgavenummer

0108010410399

0108010415167

010801000301234789-1

0108010420017

010801000301238862-1

0108010420160

0108010420056

0108010415109

0108010410412-1

010801000301234825-1

0108010415113

010801000301238920-1

010801000301238923-1

0108010410368

010801000301234817-1

010801000301239000-1

0108010415151

0108010415153

010801000301234826-1

010801000301238997-1

010801000301234843-1

0108010410350

0108010420122

010801000301234839-1

010801000301234804-1

0108010410407-1

010801000301236073-1

010801000301234820-1

010801000301234802-1

010801000301234807-1

location

1,160

1,202

1,235

1,248

1,249

1,259

1,266

1,282

1,288

1,294

1,299

1,306

1,318

1,346

1,367

1,370

1,381

1,396

1,445

1,463

1,464

1,465

1,495

1,505

1,524

1,532

1,552

1,563

1,566

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 80 af 145

opgavenummer

010801000301234829-1

010801000301236068-1

010801000301234824-1

0108010415124

0108010420095

0108010410379

0108010410094

010801000301234828-1

010801000301234833-1

0108010415180

0108010420015

010801000301234841-1

010801000301234837-1

010801000301239196-1

0108010410315

Kilde: Styrelsen for It og Læring

location

1,634

1,649

1,685

1,713

1,716

1,807

1,832

1,912

1,937

1,981

2,151

2,248

2,263

2,371

3,044

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 81 af 145

Bilag 2.1 Sammenhæng mellem testresultater og karakterer

Elevernes karakter i dansk, læsning i folkeskolens prøve i 9. klasse i

2017/2018 sammenholdes med elevernes testresultater i de obligatoriske

nationale test i dansk, læsning i 8. klasse i 2016/2017. Tilsvarende sammen-

holdes elevernes karakter i matematik uden hjælpemidler i folkeskolens

prøve i 9. klasse i 2017/2018 med elevernes testresultater i de obligatoriske

nationale test i matematik i 6. klasse i 2014/2015.

Elevernes karakter i dansk, læsning i standpunktsprøven i 8. klasse i

2017/2018 sammenholdes med elevernes testresultater i de obligatoriske

nationale test i dansk, læsning i 8. klasse i 2017/2018. Tilsvarende sammen-

holdes elevernes karakter i matematik uden hjælpemidler i standpunktsprø-

ven i 8. klasse med elevernes testresultater i de obligatoriske nationale test i

matematik i 8. klasse i 2017/2018.

Tabellerne indeholder:



Gns.: Gennemsnitskarakter i gruppen af elever



SD: Standardafvigelsen

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 82 af 145

Tabel 2.1.1 Resultaterne fra de nationale test (normbaseret skala) og prø-

vekaraktererne i 9. klasse i 2017/2018. Nationale test i dansk læsning 8.

klasse 2016/2017 samt i matematik 6. klasse 2014/2015

Dansk læsning

Point

1-10

11-20

21-30

31-40

41-50

51-60

61-70

71-80

81-90

91-100

Gns.

1,6

2,6

3,5

4,2

4,9

5,8

6,6

7,6

8,6

9,5

2,0

2,1

2,3

2,4

2,5

2,6

2,7

2,6

2,5

Matematik u. hjælpemidler

Gns.

2,0

2,7

3,6

4,5

5,3

6,2

7,1

8,2

9,3

10,5

2,2

2,1

2,0

2,2

1,9

Kilde: Styrelsen for It og Læring

Tabel 2.1.2 Resultaterne fra de nationale test (kriteriebaseret skala) og prø-

vekaraktererne i 9. klasse i 2017/2018. Nationale test i dansk læsning 8.

klasse 2016/2017 samt i matematik 6. klasse 2014/2015

Dansk læsning

Kriterie

Ikke tilstrækkelig

Mangelfuld

Jævn

God

Rigtig god

Fremragende

Kilde: Styrelsen for It og Læring

Matematik u. hjælpemidler

Gns.

2,0

3,2

4,7

6,8

9,3

10,7

2,4

2,2

2,4

2,2

1,8

Gns.

1,2

2,5

3,8

5,5

7,2

8,4

2,0

2,2

2,4

2,6

2,8

2,9

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 83 af 145

Tabel 2.1.3 Resultaterne fra de nationale test (normbaseret skala) og stand-

punktskaraktererne i 8. klasse i 2017/2018

Dansk læsning

Point

1-10

11-20

21-30

31-40

41-50

51-60

61-70

71-80

81-90

91-100

Gns.

2,6

3,5

4,3

5,2

5,9

6,8

7,6

8,5

9,3

10,1

1,8

1,9

2,1

2,2

2,3

2,4

2,3

2,2

2,0

Matematik u. hjælpemidler

Gns.

2,3

3,6

4,6

5,5

6,4

7,3

8,1

9,0

10,0

11,0

1,7

1,8

2,0

1,9

1,8

1,5

1,2

Kilde: Styrelsen for It og Læring

Tabel 2.1.4 Resultaterne fra de nationale test (kriteriebaseret skala) og

standpunktskaraktererne i 8. klasse i 2017/2018

Dansk læsning

Kriterie

Ikke tilstrækkelig

Mangelfuld

Jævn

God

Rigtig god

Fremragende

Kilde: Styrelsen for It og Læring

Matematik u. hjælpemidler

Gns.

1,7

2,4

3,7

6,3

9,1

10,9

1,7

1,8

2,2

1,9

1,3

Gns.

2,1

3,4

4,7

6,4

8,2

9,1

1,7

1,8

2,0

2,4

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 84 af 145

Bilag 3.1 Statistisk usikkerhed på elevdygtighederne

Bilaget indeholder oversigt over den beregnede SEM i forhold til elevernes

estimerede dygtighed.

I Rasch-modellen beregnes elevernes dygtighed på logit-skalaen. I testsyste-

met omregnes resultaterne til den normbaserede skala, der er en simpel per-

centilskala (1-100), ved anvendelse af en stykvis sigmoid funktion. Elevernes

dygtighed er inddelt på femtrins skalaen, der er en gruppering af den norm-

baserede (1-100) skala.

Tabel 3.1.1 Femtrins skala

Fem trins skala

Normbaseret skala (1-100)

1-10

11-35

35-65

66-90

91-100

I dansk læsning og matematik omregnes resultaterne endvidere til en krite-

riebaseret skala på seks trin.

Tabel 3.1.2 Kriteriebaseret skala

Trin

Kriteriebaseret skala

Ikke tilstrækkelig præstation

Mangelfuld præstation

Jævn præstation

God præstation

Rigtig god præstation

Fremragende præstation

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 85 af 145

Beregningen af sikkerhedsintervaller er kun foretaget for elever, der har af-

sluttet teste i teststatus ’grøn’, dvs hvor de statistiske usikkerhed på ele-

vens estimerede dygtighed er kommet under 0,55 logit, eller eleven har be-

svaret mindst 30 opgaver i hvert af de tre profilområder.

Usikkerhedsintervallerne er beregnet på logit-skalaen baseret på den enkelte

elevs beregnede statistiske usikkerhed og herefter omsat til og præsenteret

på såvel den normbaserede (1-100) skala som på den kriteriebaserede skala.

Tabel 3.1.3 Den statistiske usikkerhed (logit) på den estimerede elevdygtig-

hed i skoleåret 2017/2018 i forhold til elevdygtigheden. Dansk læsning

Elevdygtighed på femtrins skalaen

Klassetrin

2. klasse

Profilområde

4. klasse

6. klasse

8. klasse

Kilde: Styrelsen for It og Læring

1-10

0,40

0,42

0,43

0,46

0,42

0,48

0,41

0,49

0,44

11-35

0,43

0,36

0,47

0,34

0,48

0,37

0,49

0,38

36-65

0,45

0,46

0,40

0,47

0,48

0,43

0,48

0,46

0,50

0,45

66-90

0,48

0,45

0,48

0,49

0,48

0,50

0,48

0,50

0,51

91-100

0,54

0,51

0,52

0,51

0,56

0,51

0,56

0,59

0,55

Note: Profilområder: 1 (sprogforståelse), 2 (afkodning), 3 (tekstforståelse)

Tabel 3.1.4 Den statistiske usikkerhed (logit) på den estimerede elevdygtig-

hed i skoleåret 2017/2018 i forhold til elevdygtigheden. Matematik

Elevdygtighed på femtrins skalaen

Klassetrin

3. klasse

Profilområde

6. klasse

8. klasse

Kilde: Styrelsen for It og Læring

1-10

0,45

0,43

0,51

0,45

0,50

0,53

0,52

0,54

11-35

0,45

0,42

0,50

0,42

0,50

0,51

0,48

0,51

36-65

0,45

0,48

0,51

0,45

0,46

0,51

0,52

0,53

66-90

0,47

0,52

0,48

0,51

0,53

0,55

0,56

91-100

0,57

0,56

0,63

0,53

0,56

0,60

0,62

Note: Profilområder: 1 (tal og algebra), 2 (geometri), 3 (statistik og sandsynlighed)

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 86 af 145

Tabel 3.1.5 Den statistiske usikkerhed (logit) på den estimerede elevdygtig-

hed i skoleåret 2017/2018 i forhold til elevdygtigheden. Engelsk

Elevdygtighed på femtrins skalaen

Klassetrin

4. klasse

Profilområde

7. klasse

Kilde: Styrelsen for It og Læring

1-10

0,36

0,32

0,39

0,36

0,38

11-35

0,35

0,38

0,36

0,40

0,38

36-65

0,38

0,40

0,42

0,43

0,46

0,43

66-90

0,45

0,47

0,50

0,48

91-100

0,51

0,54

0,66

0,52

0,51

0,52

Note: Profilområder: 1 (læsning), 2 (ordforråd), 3 (sprog og sprogbrug), 4 (lytning)

Tabel 3.1.6 Den statistiske usikkerhed (logit) på den estimerede elevdygtig-

hed i skoleåret 2017/2018 i forhold til elevdygtigheden. Fysik/kemi

Elevdygtighed på femtrins skalaen

Klassetrin

8. klasse

Profilområde

spektiv)

Kilde: Styrelsen for It og Læring

1-10

0,34

0,32

11-35

0,31

0,30

36-65

0,35

0,33

0,31

66-90

0,40

0,39

0,37

91-100

0,46

0,47

0,46

Note: Profilområder: 1 (energi og energiomsætning), 2 (fænomener, stoffer og materialer), 3 (anvendelse og per-

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 87 af 145

Tabel 3.1.7 Længden af 68 % sikkerhedsintervallet i forhold til elevernes

dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018. Dansk

læsning

Elevdygtighed på femtrins skalaen

Klassetrin

2. klasse

Profilområde

4. klasse

6. klasse

8. klasse

1-10

11-35

36-65

66-90

91-100

Note: Profilområder: 1 (sprogforståelse), 2 (afkodning), 3 (tekstforståelse)

Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske

Kilde: Styrelsen for It og Læring

Tabel 3.1.8 Længden af 95 % sikkerhedsintervallet i forhold til elevernes

dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018. Dansk

læsning

Elevdygtighed på femtrins skalaen

Klassetrin

2. klasse

Profilområde

4. klasse

6. klasse

8. klasse

1-10

11-35

36-65

66-90

91-100

Note: Profilområder: 1 (sprogforståelse), 2 (afkodning), 3 (tekstforståelse)

Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 88 af 145

Tabel 3.1.9 Længden af 68 procent sikkerhedsintervallet i forhold til elever-

nes dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018.

Matematik

Elevdygtighed på femtrins skalaen

Klassetrin

3. klasse

Profilområde

6. klasse

8. klasse

1-10

11-35

36-65

66-90

91-100

Note: Profilområder: 1 (tal og algebra), 2 (geometri), 3 (statistik og sandsynlighed)

Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske

Kilde: Styrelsen for It og Læring

Tabel 3.1.10 Længden af 95 procent sikkerhedsintervallet i forhold til ele-

vernes dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018.

Matematik

Elevdygtighed på femtrins skalaen

Klassetrin

3. klasse

Profilområde

6. klasse

8. klasse

1-10

11-35

36-65

66-90

91-100

Note: Profilområder: 1 (tal og algebra), 2 (geometri), 3 (statistik og sandsynlighed)

Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 89 af 145

Tabel 3.1.11 Længden af 68 procent sikkerhedsintervallet i forhold til ele-

vernes dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018.

Engelsk

Elevdygtighed på femtrins skalaen

Klassetrin

4. klasse

Profilområde

7. klasse

1-10

11-35

36-65

66-90

91-100

Note: Profilområder: 1 (læsning), 2 (ordforråd), 3 (sprog og sprogbrug), 4 (lytning)

Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske

Kilde: Styrelsen for It og Læring

Tabel 3.1.12 Længden af 95 procent sikkerhedsintervallet i forhold til ele-

vernes dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018.

Engelsk

Elevdygtighed på femtrins skalaen

Klassetrin

4. klasse

Profilområde

7. klasse

1-10

11-35

36-65

66-90

91-100

Note: Profilområder: 1 (læsning), 2 (ordforråd), 3 (sprog og sprogbrug), 4 (lytning)

Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 90 af 145

Tabel 3.1.13 Længden af 68 procent sikkerhedsintervallet i forhold til ele-

vernes dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018.

Fysik/kemi

Elevdygtighed på femtrins skalaen

Klassetrin

8. klasse

Profilområde

spektiv)

Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske

Kilde: Styrelsen for It og Læring

1-10

11-35

36-65

66-90

91-100

Note: Profilområder: 1 (energi og energiomsætning), 2 (fænomener, stoffer og materialer), 3 (anvendelse og per-

Tabel 3.1.14 Længden af 95 procent sikkerhedsintervallet i forhold til ele-

vernes dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018.

Fysik/kemi

Elevdygtighed på femtrins skalaen

Klassetrin

8. klasse

Profilområde

spektiv)

Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske

Kilde: Styrelsen for It og Læring

1-10

11-35

36-65

66-90

91-100

Note: Profilområder: 1 (energi og energiomsætning), 2 (fænomener, stoffer og materialer), 3 (anvendelse og per-

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 91 af 145

Tabel 3.1.15 68 % sikkerhedsintervallet på den kriteriebaserede skala i for-

hold til elevernes dygtighed. Skoleåret 2017/2018. Dansk læsning og mate-

matik samlet

Eleve s testresultat ligger

ed stor sa dsy lighed i …

… det bereg ede

faglige niveau eller

niveauet lige over

eller lige under

28 %

… det bereg ede

faglige niveau eller

Elevens testresultat

på den kriteriebase-

rede skala

Ikke tilstrækkelig

Mangelfuld

Jævn

God

Meget god

Fremragende

Kilde: Styrelsen for It og Læring

enten niveauet lige

… det bereg ede

faglige niveau

60 %

32 %

37 %

17 %

44 %

under/over (ikke

både og)

40 %

65 %

66 %

61 %

78 %

56 %

Tabel 3.1.16 95 % sikkerhedsintervallet på den kriteriebaserede skala i for-

hold til elevernes dygtighed. Skoleåret 2017/2018. Dansk læsning og mate-

matik samlet

Elevens testresultat ligger med stor

sa dsy lighed i …

… det bereg ede

faglige niveau eller

Elevens testresultat

på den kriteriebase-

rede skala

Ikke tilstrækkelig

Mangelfuld

Jævn

God

Meget god

Fremragende

Kilde: Styrelsen for It og Læring

… det bereg ede

faglige niveau eller

niveauet lige over

eller lige under

46 %

88 %

49 %

62 %

enten niveauet lige

… det bereg ede

faglige niveau

36 %

14 %

17 %

under/over (ikke

både og)

62 %

49 %

12 %

37 %

38 %

77 %

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 92 af 145

Bilag 3.2 Reliabilitet

Variansen på den observerede elevscore (X) er summen af variansen på den

sande score (T) og variansen på målefejlen (E)

��

= ��

��

+ ��

��

Reliabiliteten kan defineres som forholdet mellem variansen på den sande

score og variansen på den observerede score:

��

��′

��

−

��

I RUMM

beregnes reliabiliteten ved anvendelse af Person Separation Index:

er elevens estimerede dygtighed og

��

beregnes som variansen på elever-

nes dygtigheder blandt de elever, der gennemfører en test.

��

er usikkerheden på den enkelte elevs beregnede dygtighed og betegnes

SEM

, hvor SEM er Standard Error of Measurement.

��

−

��

SEM beregnes i test- og prøvesystemet i lighed med elevens dygtighed efter

hver besvarelse på en opgave.

Der er anvendt resultaterne fra de obligatoriske test i skoleåret 2017/2018 i

alle tabellerne.

Davidshofer, Kevin R. Murphy, Charles O. (2005): Psychological testing: principles and ap-

plication. Pearson/Prentice Hall.

RUMM Laboratory Pty Ltd.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 93 af 145

Tabel 3.2.1 Den statistiske usikkerhed (SEM) på den estimerede elevdygtig-

hed og beregnet reliabilitet i skoleåret 2017/2018. Dansk læsning

Klassetrin

2. klasse

Profilområde

4. klasse

6. klasse

8. klasse

1) Person Separation Index (PSI)

Note: Profilområder: 1 (sprogforståelse), 2 (afkodning), 3 (tekstforståelse)

Kilde: Styrelsen for It og Læring

SEM

0,46

0,42

0,47

0,48

0,44

0,48

0,49

0,45

0,51

0,47

Reliabilitet (PSI

)

0,74

0,91

0,90

0,80

0,87

0,88

0,78

0,85

0,81

0,83

0,85

0,84

Tabel 3.2.2 Den statistiske usikkerhed (SEM) på den estimerede elevdygtig-

hed og beregnet reliabilitet i skoleåret 2017/2018. Matematik

Klassetrin

3. klasse

Profilområde

6. klasse

8. klasse

1) Person Separation Index (PSI)

Note: Profilområder: 1 (tal og algebra), 2 (geometri), 3 (statistik og sandsynlighed)

Kilde: Styrelsen for It og Læring

SEM

0,48

0,49

0,53

0,47

0,48

0,52

0,53

0,52

0,54

Reliabilitet (PSI

)

0,86

0,78

0,87

0,83

0,81

0,84

0,88

0,86

0,89

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 94 af 145

Tabel 3.2.3 Den statistiske usikkerhed (SEM) på den estimerede elevdygtig-

hed og beregnet reliabilitet i skoleåret 2017/2018. Engelsk

Klassetrin

4. klasse

Profilområde

7. klasse

1) Person Separation Index (PSI)

Note: Profilområder: 1 (læsning), 2 (ordforråd), 3 (sprog og sprogbrug), 4 (lytning)

Kilde: Styrelsen for It og Læring

SEM

0,40

0,41

0,44

0,45

0,47

0,45

Reliabilitet (PSI

)

0,91

0,88

0,79

0,86

0,88

Tabel 3.2.4 Den statistiske usikkerhed (SEM) på den estimerede elevdygtig-

hed og beregnet reliabilitet i skoleåret 2017/2018. Fysik/kemi

Klassetrin

8. klasse

Profilområde

1) Person Separation Index (PSI)

Note: Profilområder: 1 (energi og energiomsætning), 2 (fænomener, stoffer og materialer), 3 (anvendelse og per-

spektiv)

Kilde: Styrelsen for It og Læring

SEM

0,37

0,36

Reliabilitet (PSI

)

0,68

0,66

0,70

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 95 af 145

Bilag 4.1 Opgaveafprøvningsperioder

Afprøvning af opgaver med henblik på anvendelse i de nationale test er fore-

gået siden maj 2008.

Bilaget indeholder oversigt over afprøvningsperiode for de opgaver i opgave-

banken, der var aktive under afviklingen af de obligatoriske test foråret 2019.

I matematik 3. klasse erstattedes profilområdet

matematik i anvendelse

statistik og sandsynlighed

fra og med skoleåret 2015/2016.

Tilsvarende ændring skete i matematik i 6. klasse i skoleåret 2017/2018.

Matematik i 8. klasse introduceredes fra og med skoleåret 2017/2018.

Engelsk i 4. klasse introduceredes skoleåret 2017/2018.

Tabellerne viser tidspunkt for opgaveafprøvning.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 96 af 145

Tabel 4.1.1 Opgavebankens sammensætning i forhold til opgavernes afprøv-

ningsperiode. Dansk læsning

Afprøvningsperiode

Maj 2008

Oktober 2008

December 2008

April 2009

September 2009

September 2010

September 2012

September 2014

September2015

Januar 2016

September 2016

Januar 2017

Januar 2018

I alt

Dansk læsning

2. klasse

4. klasse

6. klasse

8. klasse

0 122

80 166

44 168

88 108

0 111

245 254 230 227 273 288 241 241 291 308 214 299

1) Sprogforståelse 2) Afkodning 3) Tekstforståelse

Kilde: Styrelsen for It og Læring

Tabel 4.1.2 Opgavebankens sammensætning i forhold til opgavernes afprøv-

ningsperiode. Matematik

Afprøvningsperiode

Maj 2008

Oktober 2008

December 2008

April 2009

September 2009

September 2010

September 2012

September 2014

September2015

Januar 2016

September 2016

Januar 2017

Januar 2018

I alt

Matematik

3. klasse

112

225

261

220

225

Matematik

6. klasse

252

143

262

474

289

262

Matematik

8. klasse

234

249

223

234

249

223

1) Tal og algebra 2) Geometri 3) Statistik og sandsynlighed

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 97 af 145

Tabel 4.1.3 Opgavebankens sammensætning i forhold til opgavernes afprøv-

ningsperiode. Engelsk

Afprøvningsperiode

Maj 2008

Oktober 2008

December 2008

April 2009

September 2009

September 2010

September 2012

September 2014

September2015

Januar 2016

September 2016

Januar 2017

Januar 2018

I alt

Engelsk 4. klasse

211

149

131

219

313

256

Engelsk 7. klasse

104

207

222

213

1) Læsning 2) Ordforråd 3) Lytning 4) Sprog og sprogbrug

Kilde: Styrelsen for It og Læring

Tabel 4.1.4 Opgavebankens sammensætning i forhold til opgavernes afprøv-

ningsperiode. Fysik/kemi

Afprøvningsdato

Maj 2008

Oktober 2008

December 2008

April 2009

September 2009

September 2010

September 2012

September 2014

September2015

Januar 2016

September 2016

Januar 2017

Januar 2018

I alt

218

Fysik/kemi 8. klasse

195

279

260

1) Energi og energiomsætning 2) Fænomener, stoffer og materialer 3) Anvendelse og perspektiv

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 98 af 145

Bilag 4.2 Skærmdumps fra RUMM

På baggrund af elevernes besvarelser fra opgaveafprøvningerne foretages

Rasch analyser. Opgaver der ikke passer til modellen fjernes. For de god-

kendte opgaver estimeres opgavernes tærskelværdier, herunder opgavernes

sværhedsgrad.

Bilaget dokumenterer, ved skærmdumps fra RUMM

, analyserne foretaget

efter opgaveafprøvningen i januar 2018. Der er kun medtaget skærmdumps

fra analyserne af opgaver afprøvet i dansk læsning og matematik:



Dansk læsning 2. klasse:



Sprogforståelse



Afkodning



Tekstforståelse



Dansk læsning 4. klasse



Sprogforståelse



Matematik 3. klasse



Geometri og måling



Matematik 6. klasse



Tal og algebra

I Raschanalysen forkastes opgaver på baggrund af:



Itemfit: tester hvor godt opgaverne passer til den overordnede Rasch-

model.



Differentiel item funktion (DIF): tester om elevernes svar på opgaverne

afhænger af elevernes køn, geografi (skolens beliggenhed) og skolestør-

relse.

I analysen indgår også eksisterende aktive opgaver (linkopgaver) fra tidligere

opgaveafprøvninger. Disse opgaver linker de nye opgaver i opgaveafprøvnin-

gen sammen med den eksisterende Rasch-skala. Disse opgaver slettes ikke,

men bliver testet for om opgavernes sværhedsgrad har ændret sig fra tidli-

gere opgaveafprøvninger (DIF for periode).

www.rummlab.com.au

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 99 af 145

Dansk læsning 2. klasse

–

sprogforståelse

I opgaveafprøvningen januar 2018 blev 61 opgaver afprøvet, heraf forkastes

27 opgaver og 34 (56 %) opgaver godkendes og tilføjes Opgavebanken.

25 af opgaverne forkastes pga. itemfit og 2 opgaver forkastes pga. DIF på

køn.

Analysen indeholder 10 linkopgaver: I0170, I0171, I0173, I0175, I0176, I0182,

I0183, I0189, I0192 og I0203.

Initiel itemfit-analyse: viser et udpluk af de opgaver der forkastes.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 100 af 145

Afsluttende itemfit-analyse: de tre statistisk signifikante opgaver er linkopga-

ver, der ikke slettes.

Afsluttende DIF-analyse: køn

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 101 af 145

Afsluttende DIF-analyse: skolestørrelse

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 102 af 145

Afsluttende DIF-analyse: geografi

Eksempel på ICC-kurve for en godkendt opgave.

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 103 af 145

Dansk læsning 2. klasse

–

afkodning

I opgaveafprøvningen januar 2018 blev 32 opgaver afprøvet, heraf forkastes

7 opgaver og 25 (78 %) opgaver godkendes og tilføjes Opgavebanken.

6 af opgaverne forkastes pga. itemfit og 1 opgave forkastes pga. DIF på geo-

grafi.

Analysen indeholder 10 linkopgaver: I0036, I0050, I0091, I0094, I0097, I0151,

I0153, I0238, I0246 og I0248.

Initiel itemfit-analyse: viser et udpluk af de opgaver der forkastes.

Afsluttende itemfit-analyse.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 104 af 145

Afsluttende DIF-analyse: køn

Afsluttende DIF-analyse: skolestørrelse

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 105 af 145

Afsluttende DIF-analyse: skolestørrelse

Eksempel på ICC-kurve over godkendt opgave.

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 106 af 145

Dansk læsning 2. klasse

–

tekstforståelse

I opgaveafprøvningen januar 2018 blev 60 opgaver afprøvet, heraf forkastes

7 opgaver og 53 (88 %) opgaver godkendes og tilføjes Opgavebanken.

Alle 7 opgaver forkastes pga. itemfit.

Analysen indeholder 10 linkopgaver: I0150, I0151, I0152, I0153, I0155, I0157,

I0158, I0159, I0160 og I0161.

Initiel itemfit-analyse: viser et udpluk af de opgaver der forkastes.

Afsluttende itemfit-analyse: de seks statistisk signifikante opgaver er linkop-

gaver, der ikke slettes.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 107 af 145

Afsluttende DIF-analyse: køn

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 108 af 145

Afsluttende DIF-analyse: skolestørrelse

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 109 af 145

Afsluttende DIF-analyse: geografi

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 110 af 145

Eksempel på ICC-kurve over godkendt opgave.

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 111 af 145

Dansk læsning 4. klasse

–

sprogforståelse

I opgaveafprøvningen januar 2018 afprøves 51 opgaver, heraf forkastes 27

opgaver og 24 (56 %) opgaver godkendes og tilføjes Opgavebanken.

23 af opgaverne forkastes pga. itemfit og 4 opgaver forkastes pga. DIF på

geografi.

Analysen indeholder 10 linkopgaver: I0012, I0014, I0032, I0061, I0067, I0078,

I0197, I0200, I0203 og I0204.

Initiel itemfit-analyse: viser et udpluk af de opgaver der forkastes.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 112 af 145

Afsluttende itemfit-analyse

Afsluttende DIF-analyse: køn

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 113 af 145

Afsluttende DIF-analyse: skolestørrelse

Afsluttende DIF-analyse: geografi

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 114 af 145

Eksempel på ICC-kurve for godkendt opgave.

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 115 af 145

Matematik 3. klasse

–

geometri og måling

I opgaveafprøvningen januar 2018 afprøves 57 opgaver, heraf forkastes 16

opgaver og 41 (72 %) opgaver godkendes og tilføjes Opgavebanken.

Alle 16 opgaver forkastes pga. itemfit.

Analysen indeholder 10 linkopgaver: I0034, I0058, I0102, I0120, I0156, I0163,

I0168, I0169, I0181 og I0185.

Initiel itemfit-analyse: viser et udpluk af de opgaver der forkastes.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 116 af 145

Afsluttende itemfit-analyse: de to statistisk signifikante opgaver er link opga-

ver, der ikke slettes.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 117 af 145

Afsluttende DIF-analyse: køn

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 118 af 145

Afsluttende DIF-analyse: skolestørrelse

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 119 af 145

Afsluttende DIF-analyse: geografi

Eksempel på ICC-kurve for en godkendt opgave.

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 120 af 145

Matematik 6. klasse

–

tal og algebra

I opgaveafprøvningen januar 2018 afprøves 61 opgaver, heraf forkastes 32

opgaver og 29 (48 %) opgaver godkendes og tilføjes Opgavebanken.

31 opgaver forkastes pga. itemfit og 1 opgave forkastes pga. DIF på geografi.

Analysen indeholder 10 linkopgaver: I0030, I0143, I0200, I0263, I0289, I0307,

I0366, I0389, I0404 og I0458.

Initiel itemfit-analyse: viser et udpluk af de opgaver der forkastes.

Afsluttende itemfit-analyse

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 121 af 145

Afsluttende DIF-analyse: køn

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 122 af 145

Afsluttende DIF-analyse: skolestørrelse

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 123 af 145

Afsluttende DIF-analyse: geografi

Eksempel på ICC-kurve for en godkendt opgave.

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 124 af 145

Bilag 4.3 Opgavebankens sammensætning i forhold til opgaver-

nes sværhedsgrad

Tabel 4.3.1 Opgavebankens sammensætning i forhold til opgavernes sværheds-

grad

Femtrinsskala

***

****

*****

Fag

Dansk

læsning

2. klasse

Dansk

læsning

4. klasse

Dansk

læsning

6. klasse

Dansk

læsning

8. klasse

Matematik

3. klasse

Matematik

6. klasse

Matematik

8. klasse

Engelsk

4. klasse

Engelsk

7. klasse

Fysik/kemi

8. klasse

10)

11)

10)

11)

10)

11)

12)

13)

14)

12)

13)

15)

16)

17)

18)

Antal

159

169

134

192

156

145

(Pct.)

(34 %)

(23 %)

(7 %)

(18 %)

(58 %)

(15 %)

(70 %)

(21 %)

(16 %)

(63 %)

(18 %)

(35 %)

(18 %)

(41 %)

(16 %)

(36 %)

(9 %)

(16 %)

(30 %)

(19 %)

(50 %)

(57 %)

(12 %)

(19 %)

(13 %)

(4 %)

(10 %)

(12 %)

Antal

111

131

149

140

114

112

(Pct.)

(18 %)

(44 %)

(48 %)

(22 %)

(25 %)

(45 %)

(19 %)

(20 %)

(51 %)

(18 %)

(21 %)

(47 %)

(44 %)

(23 %)

(50 %)

(19 %)

(26 %)

(23 %)

(30 %)

(26 %)

(28 %)

(26 %)

(21 %)

(25 %)

(48 %)

(27 %)

(45 %)

(19 %)

(18 %)

(15 %)

Antal

(Pct.)

(13 %)

(19 %)

(31 %)

(20 %)

(7 %)

(28 %)

(20 %)

(5 %)

(18 %)

(9 %)

(21 %)

(20 %)

(19 %)

(22 %)

(14 %)

(17 %)

(23 %)

(30 %)

(24 %)

(15 %)

(37 %)

(15 %)

(20 %)

(29 %)

(23 %)

(22 %)

(21 %)

Antal

(Pct.)

(20 %)

(11 %)

(14 %)

(31 %)

(5 %)

(9 %)

(30 %)

(2 %)

(7 %)

(30 %)

(4 %)

(8 %)

(11 %)

(14 %)

(10 %)

(16 %)

(21 %)

(16 %)

(24 %)

(18 %)

(13 %)

(14 %)

(13 %)

(2 %)

(14 %)

(18 %)

(15 %)

(27 %)

(22 %)

(27 %)

Antal

(Pct.)

(15 %)

(4 %)

(0 %)

(9 %)

(4 %)

(3 %)

(17 %)

(3 %)

(19 %)

(4 %)

(6 %)

(8 %)

(9 %)

(0 %)

(11 %)

(19 %)

(2 %)

(7 %)

(15 %)

(14 %)

(5 %)

(1 %)

(2 %)

(6 %)

(7 %)

(4 %)

(28 %)

(29 %)

(25 %)

I alt

245

254

230

227

273

288

241

291

308

214

299

261

220

225

474

289

262

234

249

223

219

313

256

207

222

213

218

279

260

Percentilværdi. 1-10

Percentilværdi: 11-35

Percentilværdi: 36-65

Percentilværdi: 66-90

Percentilværdi: 91-100

Sprogforståelse

Afkodning

Tekstforståelse

Tal og algebra

10)

Geometri

11)

Statistik og sandsynlighed

12)

Læsning

13)

Ordforråd

14)

Lytning

15)

Sprog og sprogbrug

16)

Energi og energiomsætning

17)

Fænomener, stoffer og materialer

18)

Anvendelser og perspektiver

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 125 af 145

Bilag 4.4 Sammenhæng mellem elevernes dygtighed og opgaver-

nes sværhedsgrad

Figurerne viser sammenhængen mellem opgavernes sværhedsgrad og ele-

vernes dygtighed i de obligatoriske test i foråret 2018 (person-item distribu-

tion). Begge dele er udtrykt på Rasch (logit) skalaen.

Figurerne er hentet fra analyserne foretaget med RUMM

www.rummlab.com.au

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 126 af 145

Figur 4.4.1 Dansk læsning 2. klasse - sprogforståelse

Figur 4.4.2 Dansk læsning 2. klasse - afkodning

Figur 4.4.3 Dansk læsning 2. klasse - tekstforståelse

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 127 af 145

Figur 4.4.4 Dansk læsning 4. klasse - sprogforståelse

Figur 4.4.5 Dansk læsning 4. klasse - afkodning

Figur 4.4.6 Dansk læsning 4. klasse - tekstforståelse

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 128 af 145

Figur 4.4.7 Dansk læsning 6. klasse - sprogforståelse

Figur 4.4.8 Dansk læsning 6. klasse - afkodning

Figur 4.4.9 Dansk læsning 6. klasse - tekstforståelse

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 129 af 145

Figur 4.4.10 Dansk læsning 8. klasse - sprogforståelse

Figur 4.4.11 Dansk læsning 8. klasse - afkodning

Figur 4.4.12 Dansk læsning 8. klasse - tekstforståelse

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 130 af 145

Figur 4.4.13 Matematik 3. klasse - tal og algebra

Figur 4.4.14 Matematik 3. klasse - geometri

Figur 4.4.15 Matematik 3. klasse - statistik og sandsynlighed

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 131 af 145

Figur 4.4.16 Matematik 6. klasse - tal og algebra

Figur 4.4.17 Matematik 6. klasse - geometri

Figur 4.4.18 Matematik 6. klasse - statistik og sandsynlighed

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 132 af 145

Figur 4.4.19 Matematik 8. klasse - tal og algebra

Figur 4.4.20 Matematik 8. klasse - geometri

Figur 4.4.21 Matematik 8. klasse - statistik og sandsynlighed

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 133 af 145

Figur 4.4.22 Engelsk 4. klasse - læsning

Figur 4.4.23 Engelsk 4. klasse - ordforråd

Figur 4.4.24 Engelsk 4. klasse - lytning

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 134 af 145

Figur 4.4.25 Engelsk 7. klasse - læsning

Figur 4.4.26 Engelsk 7. klasse - ordforråd

Figur 4.4.27 Engelsk 7. klasse - sprog og sprogbrug

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 135 af 145

Figur 4.4.28 Fysik/kemi 8. klasse - energi og energiomsætning

Figur 4.4.29 Fysik/kemi 8. klasse - fænomener, stoffer og materialer

Figur 4.4.30 Fysik/kemi 8. klasse - anvendelse og perspektiv

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 136 af 145

Bilag 4.5 Undersøgelse af link-opgavernes ændrede sværheds-

grad

I forbindelse med afprøvningen af nye opgaver til opgavebanken medtages

hver gang et antal af de eksisterende og tidligere godkendte opgaver fra op-

gavebanken. Dette sikrer, at der sker et overlap mellem blokkene af opgave-

afprøvninger, således at nye opgavers sværhedsgrad kan indplaceres på den

eksisterende skala. Disse overlapningsopgaver kaldes link-opgaver. Typisk

udvælges 5-10 link-opgaver ved hver opgaveafprøvning.

Anvendelsen af link-opgaver giver endvidere mulighed for, at undersøge om

disse opgavers sværhedsgrad er ændret siden tidligere opgaveafprøvninger.

I Rasch analysen foretages denne analyse i en Diffential Item Functioning

(DIF) analyse. Der testes for DIF mellem ny og tidligere afprøvningsperioder.

I den seneste analyserede opgaveafprøvning fra januar 2018 indgik opgaver

fra følgende profilområder:



Dansk læsning 2. klasse: sprogforståelse, afkodning og tekstfor-

ståelse



Dansk læsning 4. klasse: sprogforståelse



Matematik 3. klasse: geometri



Matematik 6. klasse: tal og algebra



Engelsk 4. klasse: ordforråd



Fysik/kemi 8. klasse: energi og energiomsætning, fænomener,

stoffer og materialer samt anvendelse og perspektiv

Der er testet for periode DIF mellem afprøvningsperioden i januar 2018 og

tidligere afprøvningsperioder samlet.

Tabellerne indeholder:



Opgavenummer



Maj2008

–

Sep2014: opgavens estimerede sværhedsgrad (location) ba-

seret på tidligere opgaveafprøvninger samt antal besvarelser



Jan2018: opgavens nye sværhedsgrad (location) hvis denne afviger stati-

stisk signifikant samt antal besvarelser fra opgaveafprøvningen i januar

2018



ANOVA for periode DIF: F-ratio samt tilhørende p-værdi fra ANOVA test

for periode DIF. Der er anvendt Bonferroni korrektion for multiple test.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 137 af 145

Tabel 4.5.1 Dansk læsning 2. klasse - sprogforståelse

Opgavenummer

010201000301235192-1

010201000301235195-1

010201000301235202-1

010201000301235397-1

010201000301235399-1

010201000301235416-1

010201000301235418-1

010201000301235196-1

010201000301235205-1

010201000301235423-1

Kilde: Styrelsen for It og Læring

Maj2008 - Sep2014

location

Antal

1,73

780

1,22

698

1,72

782

1,11

667

1,87

783

2,07

781

1,79

699

1,75

751

1,78

753

1,05

750

Jan2018

Location

Antal

653

646

644

653

647

586

653

586

ANOVA for

periode DIF

F-ratio

P-værdi

0,01

n.s.

0,08

n.s.

4,12

n.s.

0,65

n.s.

2,07

n.s.

3,50

n.s.

0,09

n.s.

7,09

n.s.

0,01

n.s.

1,79

n.s.

Tabel 4.5.2 Dansk læsning 2. klasse - afkodning

Opgavenummer

01020204628-4

01020204122-2

01020204621-5

01020204626-5

0102020410001-4

010202000301235179-1

010202000301235189-1

010202000301239054-1

010202000301239443-1

010202000301239453-1

Kilde: Styrelsen for It og Læring

Maj2008 - Sep2014

location

Antal

1,03

428

1,21

440

2,66

2107

2,19

603

0,57

2446

1,05

652

1,92

653

0,92

717

1,54

734

0,76

779

Jan2018

Location

Antal

670

721

669

720

721

670

0,40

670

ANOVA for

periode DIF

F-ratio

P-værdi

0,83

n.s.

7,27

n.s.

4,75

n.s.

1,71

n.s.

0,68

n.s.

1,88

n.s.

4,12

n.s.

0,20

n.s.

10,79

n.s.

14,14

0,002

Tabel 4.5.3 Dansk læsning 2. klasse - tekstforståelse

Opgavenummer

0102030510270006-3

0102030510270009-1

0102030510270010-1

0102030510270011-1

0102030510270013-1

0102030540001-2

0102030540002-2

0102030540008-1

0102030540012-1

0102030540012-3

Kilde: Styrelsen for It og Læring

Maj2008 - Sep2014

location

Antal

0,06

587

0,86

586

-0,14

589

0,81

589

2,11

1377

0,14

586

-0,71

1413

-0,04

588

0,40

594

-0,52

584

Jan2018

Location

Antal

858

791

778

860

793

777

858

794

780

847

ANOVA for

periode DIF

F-ratio

P-værdi

10,38

n.s.

0,06

n.s.

1,69

n.s.

0,02

n.s.

2,21

n.s.

0,95

n.s.

0,46

n.s.

1,22

n.s.

0,98

n.s.

2,23

n.s.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 138 af 145

Tabel 4.5.4 Dansk læsning 4. klasse - sprogforståelse

Opgavenummer

0104010110595-2

0104010110599-3

0104010110586-2

0104010110572-2

0104010110599-2

0104010110597-4

010401000301238258-1

010401000301238266-1

010401000301238272-1

010401000301238275-1

Kilde: Styrelsen for It og Læring

Maj2008 - Sep2014

location

Antal

0,64

677

0,49

680

0,03

2017

0,13

653

0,13

663

0,18

1438

-0,03

830

0,17

819

0,00

833

0,09

820

Jan2018

Location

Antal

757

807

806

756

807

674

757

806

0,91

675

ANOVA for

periode DIF

F-ratio

P-værdi

4,03

n.s.

5,12

n.s.

0,19

n.s.

0,59

n.s.

0,06

n.s.

1,21

n.s.

1,47

n.s.

0,19

n.s.

13,24

0,003

0,66

n.s.

Tabel 4.5.5 Matematik 3. klasse - geometri

Opgavenummer

02030204403-1

02030204403-2

02030205101-4

0203020410030002-3

020302000301235338-5

020302000301235338-2

020302000301235795-1

020302000301235797-2

020302000301239628-4

020302000301235860-1

Kilde: Styrelsen for It og Læring

Maj2008 - Sep2014

location

Antal

0,24

539

0,01

1258

0,47

1369

0,51

1212

0,53

551

0,69

740

0,67

742

0,84

705

0,64

854

0,66

778

Jan2018

Location

Antal

742

738

0,12

827

742

739

828

739

742

ANOVA for

periode DIF

F-ratio

P-værdi

0,87

n.s.

10,24

n.s.

49,19

0,00001

1,22

n.s.

3,34

n.s.

0,51

n.s.

0,11

n.s.

2,83

n.s.

3,59

n.s.

0,00

n.s.

Tabel 4.5.6 Matematik 6. klasse

–

tal og algebra

Opgavenummer

02060108011-11

02060108033-3

02060107003-22

02060106003-15

02060106007-4

020601000301234766-1

020601000301238714-1

020601000301239117-1

020601000301239365-1

020601000301238641-1

Kilde: Styrelsen for It og Læring

Maj2008 - Sep2014

location

Antal

0,66

1745

0,62

1759

0,59

2914

0,45

1751

0,39

853

0,49

680

0,36

665

0,33

650

0,34

652

0,72

545

Jan2018

Location

Antal

852

1,30

851

871

870

544

892

871

870

-0,05

892

ANOVA for

periode DIF

F-ratio

P-værdi

5,98

n.s.

22,91

0,00001

0,28

n.s.

5,87

n.s.

0,49

n.s.

2,84

n.s.

6,50

n.s.

0,42

n.s.

18,12

0,00003

2,27

n.s.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 139 af 145

Tabel 4.5.7 Engelsk 4. klasse

–

ordforråd

Opgavenummer

060402000301244229-1

060402000301244205-2

060402000301244420-1

060402000301244255-2

060402000301244239-1

060402000301244253-2

060402000301249843-2

060402000301249780-1

060402000301249783-1

060402000301249789-1

Kilde: Styrelsen for It og Læring

Maj2008 - Sep2014

location

Antal

1,42

850

1,21

657

1,32

807

1,83

615

1,29

763

1,46

764

1,43

1065

1,50

604

1,46

603

1,56

604

Jan2018

Location

Antal

695

698

695

697

717

695

718

719

718

ANOVA for

periode DIF

F-ratio

P-værdi

0,17

n.s.

2,90

n.s.

1,34

n.s.

3,89

n.s.

2,61

n.s.

0,00

n.s.

0,12

n.s.

1,16

n.s.

0,93

n.s.

0,01

n.s.

Tabel 4.5.8 Fysik/kemi 8. klasse

–

energi og energiomsætning

Opgavenummer

03080115016-21

0308010713087-1

0308010713090-1

0308011411120-2

0308011413178-1

Kilde: Styrelsen for It og Læring

Maj2008 - Sep2014

location

Antal

-0,35

476

-0,33

464

-0,47

2349

-0,63

498

-0,65

498

Jan2018

Location

Antal

660

661

660

ANOVA for

periode DIF

F-ratio

P-værdi

1,19

n.s.

0,53

n.s.

2,06

n.s.

0,14

n.s.

5,22

n.s.

Tabel 4.5.9 Fysik/kemi 8. klasse

–

fænomener, stoffer og materialer

Opgavenummer

03080204008-1

03080204008-2

03080204008-5

03080204008-6

03080204034-3

0308020411001-1

0308020412004-1

0308020412004-3

0308020412008-1

0308020412010-2

Kilde: Styrelsen for It og Læring

Maj2008 - Sep2014

location

Antal

0,17

418

-0,31

414

0,58

481

0,40

485

-0,36

2291

-0,79

482

-0,02

437

-0,78

1575

-0,84

484

-1,71

417

Jan2018

Location

Antal

482

481

454

453

ANOVA for

periode DIF

F-ratio

P-værdi

9,56

n.s.

0,46

n.s.

1,65

n.s.

6,37

n.s.

0,18

n.s.

1,66

n.s.

0,15

n.s.

1,17

n.s.

2,70

n.s.

1,58

n.s.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 140 af 145

Tabel 4.5.10 Fysik/kemi 8. klasse

–

anvendelse og perspektiv

Opgavenummer

0308030113007-3

03080320010-3

03080311012-2

03080310002-2

03080318028-21

0308031912168-1

0308032013174-1

0308032211138-1

0308032011136-1

030803000301239811-1

Kilde: Styrelsen for It og Læring

Maj2008 - Sep2014

location

Antal

-0,07

2321

0,08

2458

-0,28

2345

-0,35

2215

-0,11

2347

-0,42

562

-0,12

2442

-0,09

2451

-0,33

500

0,19

537

Jan2018

Location

Antal

723

662

661

725

723

726

723

-0,73

726

724

ANOVA for

periode DIF

F-ratio

P-værdi

3,12

n.s.

2,04

n.s.

0,44

n.s.

0,58

n.s.

5,11

n.s.

0,48

n.s.

1,15

n.s.

0,60

n.s.

14,12

0,002

0,28

n.s.

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 141 af 145

Bilag 4.6 Forskel i opgavernes sværhedsgrad

Sværhedsgraderne på opgaverne i opgavebanken er estimeret på baggrund

af opgaveafprøvninger. I en opgaveafprøvning afprøver ca. 700 elever opga-

ver i et lineært afprøvningsforløb.

Elevbesvarelser fra obligatoriske test kan også anvendes til at estimere opga-

vernes sværhedsgrad.

Data fra elevbesvarelser i obligatoriske test er baseret på adaptive forløb,

hvor elever, der svarer rigtigt på en opgave, får stillet en sværere opgave næ-

ste gang, og elever, der svarer forkert på en opgave, får stillet en lettere op-

gave næste gang. Alle elever starter med middelsvære opgaver, dvs opgaver

der ligger midt på sværhedsskalaen for det pågældende fag og profilområde.

Dette bilag indeholder tabeller og figurer, der viser forskellen mellem opga-

vernes sværhedsgrad baseret på opgaveafprøvningerne og opgavernes svær-

hedsgrad, hvis den blev beregnet på baggrund af elevbesvarelser fra de obli-

gatoriske test. Sammenligningen er foretaget for elevbesvarelserne i de obli-

gatoriske test i foråret 2010, 2014 og 2018 i dansk læsning 6. og 8. klasse

samt i matematik 3. og 6. klasse. I matematik er beregningerne kun foretaget

for profilområde 1 og 2, da profilområde 3 blev erstattet med et nyt profil-

område i 3. klasse i 2015/2016 og i 6. klasse i 2017/2018.

I tabellerne anvendes forskellen i en opgaves sværhedsgrad, når den bereg-

nes ved anvendelse af data fra henholdsvis opgaveafprøvninger, loca-

tion(OAP), og fra de obligatoriske test, location(OBL), dvs

forskel = location(OAP)

–

location(OBL)

Desuden er den absolutte forskel beregnet:

absolut forskel = abs(location(OAP)

–

location(OBL))

Tabellerne og figurerne viser:



Fordelingen af forskellen i estimeret sværhedsgrad for de enkelte profil-

områder og samlet for testene i dansk læsning og matematik



Fordelingen af forskellen i estimeret sværhedsgrad i forhold til hvilket år

opgaverne er afprøvet



Fordelingen af forskellen i estimeret sværhedsgrad i forhold til opgaver-

nes sværhedsgrad

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 142 af 145

Tabel 4.6.1 Fordeling af absolut forskel i estimerede sværhedsgrader mel-

lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test. Dansk

læsning 6. klasse

Sprogforståelse

Interval

0,0

–

0,5

–

1,0

–

1,5

–

2,0

–

2,5

2,5 +

Forskel

Abs. forskel

Antal

0,04

0,65

224

2010

42 %

41 %

13 %

2014

28 %

33 %

26 %

0,00

0,88

264

-0,03

0,82

241

0,04

0,60

231

0,05

0,63

229

-0,02

0,58

241

-0,13

0,38

185

-0,12

0,41

222

0,05

0,47

292

2018

29 %

37 %

25 %

2010

46 %

35 %

16 %

Afkodning

2014

45 %

33 %

16 %

2018

54 %

29 %

12 %

Tekstforståelse

2010

70 %

26 %

2014

68 %

23 %

2018

65 %

28 %

1) Absolut forskel på logit-skalaen

2) Gennemsnitlig forskel

3) Gennemsnitlig absolut forskel

Kilde: Styrelsen for It og Læring

Tabel 4.6.2 Fordeling af absolut forskel i estimerede sværhedsgrader mel-

lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test. Dansk

læsning 8. klasse

Sprogforståelse

Interval

0,0

–

0,5

–

1,0

–

1,5

–

2,0

–

2,5

2,5 +

Forskel

Abs. forskel

Antal

0,48

0,74

178

0,42

0,92

162

0,04

0,76

308

2010

29 %

39 %

29 %

2014

25 %

31 %

25 %

17 %

2018

34 %

38 %

21 %

2010

26 %

22 %

11 %

10 %

23 %

-0,09

1,52

217

Afkodning

2014

30 %

18 %

14 %

10 %

18 %

-0,10

1,39

212

-0,03

0,55

214

-0,05

0,31

207

-0,05

0,36

193

2018

52 %

35 %

Tekstforståelse

2010

83 %

16 %

2014

77 %

19 %

2018

54 %

34 %

10 %

0,04

0,54

301

1) Absolut forskel på logit-skalaen

2) Gennemsnitlig forskel

3) Gennemsnitlig absolut forskel

Kilde: Styrelsen for It og Læring

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 143 af 145

Tabel 4.6.3 Fordeling af absolut forskel i estimerede sværhedsgrader mel-

lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test. Mate-

matik 3. klasse

Tal og algebra

Interval

0,0

–

0,5

–

1,0

–

1,5

–

2,0

–

2,5

2,5 +

Forskel

Abs. forskel

Antal

2) Gennemsnitlig forskel

3) Gennemsnitlig absolut forskel

Kilde: Styrelsen for It og Læring

Geometri og måling

2018

46 %

30 %

18 %

-0,04

0,66

290

2010

51 %

33 %

12 %

-0,06

0,60

180

2014

43 %

30 %

16 %

-0,07

0,75

223

2018

35 %

29 %

19 %

11 %

-0,01

0,87

199

2010

62 %

30 %

-0,01

0,49

202

2014

50 %

29 %

15 %

0,03

0,63

230

1) Absolut forskel på logit-skalaen

Tabel 4.6.4 Fordeling af absolut forskel i estimerede sværhedsgrader mel-

lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test. Mate-

matik 6. klasse

Tal og algebra

Interval

0,0

–

0,5

–

1,0

–

1,5

–

2,0

–

2,5

2,5 +

Forskel

Abs. forskel

Antal

2) Gennemsnitlig forskel

3) Gennemsnitlig absolut forskel

Kilde: Styrelsen for It og Læring

Geometri og måling

2018

28 %

27 %

26 %

11 %

-0,03

1,00

494

2010

40 %

37 %

15 %

-0,02

0,73

200

2014

30 %

34 %

19 %

-0,01

0,92

265

2018

25 %

24 %

21 %

0,05

1,06

263

2010

43 %

33 %

15 %

-0,03

0,72

347

2014

27 %

36 %

21 %

-0,04

0,92

333

1) Absolut forskel på logit-skalaen

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 144 af 145

Tabel 4.6.5 Fordeling af absolut forskel i estimerede sværhedsgrader mel-

lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test. Sam-

let for dansk læsning 6. og 8. klasse og matematik 3. og 6. klasse. Kun opga-

ver der har været aktive i hele perioden

Interval

0,0

–

0,5

–

1,0

–

1,5

–

2,0

–

2,5

2,5 +

Forskel

Absolut forskel

Antal

1) Absolut forskel på logit-skalaen

2) Gennemsnitlig forskel

3) Gennemsnitlig absolut forskel

Kilde: Styrelsen for It og Læring

2010

49 %

31 %

12 %

0,03

0,69

1.601

2014

41 %

30 %

16 %

0,03

0,79

1.601

2018

43 %

31 %

15 %

0,06

0,74

1.601

Tabel 4.6.6 Fordeling af absolut forskel i estimerede sværhedsgrader mel-

lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test foråret

2018 i forhold til perioden for opgavernes afprøvning. Samlet for dansk

læsning 6. og 8. klasse og matematik 3. og 6. klasse. Opgaver i opgaveban-

ken i 2018

Periode for opgaveafprøvning

(N=2.843)

Interval

0,0

–

0,5

–

1,0

1,0 +

Forskel

Abs. forskel

2) Gennemsnitlig forskel

3) Gennemsnitlig absolut forskel

Kilde: Styrelsen for It og Læring

2008

(N=1.123)

38 %

31 %

32 %

0,03

0,82

2009

(N=507)

55 %

30 %

15 %

0,14

0,55

2010

(N=246)

45 %

30 %

25 %

-0,05

0,70

2012

(N=326)

32 %

25 %

43 %

-0,32

0,88

2014

(N=503)

43 %

31 %

27 %

0,06

0,72

2015

(N=94)

27 %

65 %

0,41

0,65

2016

(N=44)

34 %

20 %

45 %

0,33

0,88

1) Absolut forskel på logit-skalaen

Januar 2020

BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren

Side 145 af 145

Tabel 4.6.7 Fordeling af absolut forskel i estimerede sværhedsgrader mel-

lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test foråret

2018 i forhold til opgavernes sværhedsgrad. Samlet for dansk læsning 6. og

8. klasse og matematik 3. og 6. klasse. Opgaver i opgavebanken i 2018

Opgavernes sværhedsgrad

(N=2.843)

Interval

0,0

–

0,5

–

1,0

1,0 +

Forskel

Abs. forskel

2) Gennemsnitlig forskel

3) Gennemsnitlig absolut forskel

Kilde: Styrelsen for It og Læring

(÷ ; ÷2]

(N=195)

36 %

28 %

0,30

0,76

(÷2 ; ÷1]

(N=400)

33 %

26 %

42 %

0,77

0,85

(÷1 ; +1]

(N=1.656)

53 %

34 %

13 %

0,22

0,55

(+1 ; +2]

(N=399)

18 %

30 %

52 %

-1,04

1,07

(+2 ; +)

(N=193)

16 %

78 %

-1,57

1,59

1) Absolut forskel på logit-skalaen

Januar 2020