Børne- og Undervisningsudvalget 2019-20
BUU Alm.del Bilag 82
Offentligt
2146472_0001.png
Evaluering af de statistiske aspekter
ved de nationale test
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 1 af 145
Indhold
Forord ...................................................................................................... 4
De nationale test .............................................................................. 4
Opgavebeskrivelse ........................................................................... 5
Udarbejdet materiale ....................................................................... 6
1
Notat 1 Algoritmen i testsystemet og beregning af
elevdygtigheden ............................................................................... 7
Sammenfatning ................................................................................ 7
Indledning ........................................................................................ 8
Rasch-modellen og beregning af elevdygtighed .............................. 8
Run-in perioden
9
Efter run-in perioden
10
Valg af opgaver i den adaptive algoritme ...................................... 10
Eksempler på valg af opgave i testforløb
11
Tjek af beregnet dygtighed og statistisk usikkerhed ..................... 17
Notat 2 De nationale tests måleegenskaber.................................. 24
Sammenfatning .............................................................................. 24
Indledning ...................................................................................... 25
Sammenhæng mellem testresultater og prøvekarakter ............... 25
Sammenhæng mellem testresultater og standpunktskarakter ..... 29
Sammenhæng mellem testresultater og PISA test ........................ 31
Notat 3 Den statistiske usikkerhed og testenes reliabilitet ........... 32
Sammenfatning .............................................................................. 32
Indledning ...................................................................................... 33
Den statistiske usikkerhed ............................................................. 33
Den statistiske usikkerhed og testenes stopkriterie
34
Den statistiske usikkerhed i de enkelte profilområder
36
Den statistiske usikkerhed og antal opgaver
37
Den statistiske usikkerhed og elevdygtigheden
39
Den statistiske usikkerhed og sikkerhedsintervaller...................... 40
Reliabiliteten .................................................................................. 42
Forslag til forbedringer af den statistiske sikkerhed ...................... 46
Antal opgaver
46
Polytome opgaver
46
2
3
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 2 af 145
Justering af algoritmen
Flere svære opgaver
4
47
47
Notat 4 Opgavebanken og opgavernes sværhedsgrad .................. 48
Sammenfatning .............................................................................. 48
Indledning ...................................................................................... 49
Opgaveafprøvningen ...................................................................... 49
Opgavebanken ............................................................................... 51
Stabiliteten af opgavernes sværhedsgrad over tid ........................ 53
Forskellen i opgavernes sværhedsgrad baseret på lineær og
adaptiv testadministration ..................................................... 54
Ændring over tid
56
Opgavernes alder
58
Opgavernes sværhedsgrad
59
Forskel i beregnet elevdygtighed ................................................... 60
Notat 5 Samling af testresultater fra flere profilområder ............. 63
Sammenfatning .............................................................................. 63
Indledning ...................................................................................... 64
Korrelationen mellem elevresultater ............................................. 64
Antal besvarede opgaver og SEM i profilområderne ..................... 65
Analyse af mulighed for anvendelse af én Rasch-model pr. test .. 65
Samlet elevdygtighed ..................................................................... 66
5
Bilag 1.1 Anvendte skalaer til præsentation af elevernes beregnede
dygtigheder .................................................................................... 68
Bilag 1.2 Opgavebanken i dansk læsning 8. klasse
sprogforståelse ... 70
Bilag 2.1 Sammenhæng mellem testresultater og karakterer .............. 81
Bilag 3.1 Statistisk usikkerhed på elevdygtighederne ........................... 84
Bilag 3.2 Reliabilitet ............................................................................... 92
Bilag 4.1 Opgaveafprøvningsperioder ................................................... 95
Bilag 4.2 Skærmdumps fra RUMM ........................................................ 98
Dansk læsning 2. klasse
sprogforståelse
99
Dansk læsning 2. klasse
afkodning
103
Dansk læsning 2. klasse
tekstforståelse
106
Dansk læsning 4. klasse
sprogforståelse
111
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 3 af 145
Matematik 3. klasse
geometri og måling
Matematik 6. klasse
tal og algebra
115
120
Bilag 4.3 Opgavebankens sammensætning i forhold til opgavernes
sværhedsgrad ............................................................................... 124
Bilag 4.4 Sammenhæng mellem elevernes dygtighed og opgavernes
sværhedsgrad ............................................................................... 125
Bilag 4.5 Undersøgelse af link-opgavernes ændrede sværhedsgrad .. 136
Bilag 4.6 Forskel i opgavernes sværhedsgrad...................................... 141
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0005.png
Side 4 af 145
Forord
De nationale test
Der er ti obligatoriske nationale test i folkeskolen (Figur 1), hvor hver test be-
står af tre faglige profilområder
1
. En test kan gennemføres på 45 minutter.
Figur 1 Frivillige og obligatoriske nationale test
Kilde:
www.uvm.dk/folkeskolen/elevplaner-nationale-test--trivselsmaaling-og-sprogproever/nationale-test
De nationale test er it-baserede, selvscorende og adaptive. At testene er
adaptive betyder, at opgaverne i et testforløb udvælges så de bedst muligt
passer til elevens dygtighedsniveau undervejs i forløbet. Dygtige elever får
de sværeste opgaver, mens elever med større faglige udfordringer får de let-
tere opgaver.
De første obligatoriske nationale test blev gennemført i folkeskolen i skole-
året 2009/2010.
1
https://www.uvm.dk/folkeskolen/elevplaner-nationale-test--trivselsmaaling-og-sprogproe-
ver/nationale-test/klassetrin-fag-og-profilomraader
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0006.png
Side 5 af 145
Børne- og undervisningsministeren igangsatte en evaluering af de nationale
test i 2018. I den forbindelse blev der nedsat en rådgivningsgruppe bestå-
ende af forskere og praktikere, der blandt andet skulle rådgive i forhold til
indholdet af evalueringen af de nationale test.
Evalueringsspørgsmålene er udarbejdet på baggrund af anbefalinger fra råd-
givningsgruppen.
Opgavebeskrivelse
Evalueringen af de nationale test består af to dele:
1. Validering af teknisk beregning
2. Undersøgelse af betydningen og brugen af de nationale test
Under delopgave 1 skal følgende evalueringsspørgsmål besvares:
1.
Regner de nationale test rigtigt?
Ved besvarelse af spørgsmålet skal den kritik, der rejses af den statisti-
ske sikkerhed og reliabiliteten i de nationale test adresseres. Herunder
skal det klarlægges om:
a. opgavernes sværhedsgrader stadig er korrekte?
b. opgaverne fortsat passer til Rasch-modellen?
c. det er muligt at forbedre den adaptive algoritme med henblik på at
reducere den statistiske usikkerhed?
2. Det skal afdækkes, om sikkerheden i målingerne af elevernes færdighe-
der kan forbedres ved at kombinere resultater fra forskellige profilområ-
der? Herunder sigter spørgsmålet på at klarlægge følgende:
a. Kan det påvises, at profilområderne måler forskellige aspekter af
den samme bagvedliggende færdighed?
b. Som følge af spørgsmål a: Kan testresultaterne fra profilområderne
slås sammen og dermed forbedre sikkerheden i testene?
Styrelsen for It og Læring (STIL) under Børne- og undervisningsministeriet har
tidligere undersøgt mange af evalueringens temaer og formidlet disse på
www.uvm.dk
2
. Børne- og undervisningsministeriet har derfor bedt STIL om at
foretage analyserne knyttet til delopgave 1. Evalueringen af de statistiske
aspekter ved de nationale test (delopgave 1) samler de tidligere gennem-
førte analyser og supplerer disse med opdaterede data og nye analyser.
2
https://www.uvm.dk/folkeskolen/elevplaner-nationale-test--trivselsmaaling-og-sprogproe-
ver/nationale-test/om-de-nationale-test
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 6 af 145
Udarbejdet materiale
Til besvarelse af evalueringens delopgave 1 er der udarbejdet 5 notater med
tilhørende bilag:
Notat 1. Algoritmen i testsystemet og beregning af elevdygtigheden
Bilag 1.1. Anvendte skalaer til præsentation af elevernes beregnede
dygtigheder
Bilag 1.2. Opgavebanken i dansk læsning 8. klasse - sprogforståelse
Notat 2. De nationale tests måleegenskaber
Bilag 2.1. Sammenhæng mellem testresultater og karakterer
Notat 3. Den statistiske usikkerhed og testenes reliabilitet
Bilag 3.1. Statistisk usikkerhed på elevdygtighederne
Bilag 3.2. Reliabilitet
Notat 4. Opgavebanken og opgavernes sværhedsgrad
Bilag 4.1. Opgaveafprøvningsperioder
Bilag 4.2. Skærmdumps fra RUMM
Bilag 4.3. Opgavebankens sammensætning i forhold til opgavernes
sværhedsgrad
Bilag 4.4. Sammenhæng mellem elevernes dygtighed og opgaver-
nes sværhedsgrad
Bilag 4.5. Undersøgelse af link-opgavernes ændrede sværhedsgrad
Bilag 4.6. Forskel i opgavernes sværhedsgrad
Notat 5. Samling af testresultater fra flere profilområder
De 5 notater inklusiv bilag er samlet i denne rapport.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 7 af 145
1
Notat 1 Algoritmen i testsystemet og beregning af elev-
dygtigheden
Sammenfatning
Den adaptive algoritme i testsystemet fungerer efter hensigten både i
forhold til valg af opgaver fra opgavebanken og i forhold til beregning af
elevdygtigheden og den statistiske usikkerhed
I testsystemet vælges opgaverne til elevernes testforløb, så de passer til
elevens dygtighed. Eksempler illustrerer, hvordan algoritmen virker
De beregnede elevdygtigheder og tilhørende statistiske usikkerheder i
testsystemet i dansk læsning 8. klasse og matematik 6. klasse fra de obli-
gatoriske nationale test i 2018 er sammenlignet med tilsvarende bereg-
nede elevdygtigheder og usikkerheder ved anvendelse af det kommerci-
elle software program RUMM
Der er ingen statistisk signifikant forskel mellem elevdygtighederne be-
regnet i testsystemet og beregnet i RUMM. Den gennemsnitlige forskel
er på 0,02 logit
Beregningerne viser overensstemmelse indenfor ±0,1 logit mellem elev-
dygtighederne beregnet i testsystemet og i RUMM for over 99,2 % af
alle elevforløb og overensstemmelse indenfor ±0,2 logit mellem elev-
dygtighederne beregnet i testsystemet og i RUMM for over 99,7 % af
alle elevforløb
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0009.png
Side 8 af 145
Indledning
I evalueringen af de nationale test skal følgende spørgsmål besvares:
Regner de nationale test rigtigt?
For at svare på spørgsmålet er det først og fremmest vigtigt at vurdere, om
algoritmen i testsystemet fungerer efter hensigten.
I notatet beskrives, hvordan opgaverne fra opgavebanken vælges til elever-
nes testforløb, og hvordan elevernes dygtighed beregnes. De elevdygtighe-
der, der beregnes i testsystemet, sammenholdes med elevdygtighederne be-
regnet i et kommercielt software program.
Formålet er således, at vurdere om elevernes dygtighed beregnes rigtigt i
testsystemet.
Notatet indeholder følgende afsnit:
Rasch-modellen og beregning af elevdygtigheden
Valg af opgaver i den adaptive algoritme
Sammenligning af beregnet elevdygtighed og statistisk usikkerhed i test-
system med tilsvarende beregnet i kommercielt software
Rasch-modellen og beregning af elevdygtighed
De nationale test er baseret på Rasch-modellen
3,4
. Rasch-modellen er en
sandsynlighedsmodel, der i den simpleste udgave, kaldet det dikotome til-
fælde, giver sandsynligheden for, at en elev nummer
n
med dygtighedspara-
meteren
n
svarer rigtigt (svarende til scoringen
X
ni
=1)
på item
5
nummer
i
med item sværhedsparameteren
β
i
:
Sandsynligheden for, at en elev svarer rigtigt på et item, afhænger således
kun af elevens dygtighed
(theta) og opgavens sværhed
β
(beta).
I Rasch-modellen optræder itemsværheder og elevdygtigheder på samme
skala. Skalaen kaldes logit-skalaen
6
. Anvendte skalaer i de nationale test ses i
Bilag 1.1.
����{����
��������
����
����
−���½
����
= ���� } =
+ ����
−���½
����
3
Rasch, G.: Probabilistic Models for Some Intelligence and Attainment Tests. Danish Na-
tional Institute for Educational Research, Copenhagen 1960.
Karl Bang Christensen, Svend Kreiner, Mounir Mesbah (edt): Rasch Models in Health. Wiley
2013.
I Rasch-modellen anvendes begrebet item i stedet for opgave.
Logits er en transformation med den naturlige logaritme af odds, p/(1-p), hvor p er sand-
synligheden for at svare rigtigt på et item.
4
5
6
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0010.png
Side 9 af 145
Rasch-modellen kan udvides til at inkludere items med flere subitems, såle-
des at scoringen
x
kan antage højere heltalsværdier end 1 svarende til, at
flere subitems er besvaret korrekt. Items med flere subitems kaldes poly-
tome items.
Det polytome tilfælde resulterer i en lidt mere kompliceret matematisk mo-
del med flere parametre, de såkaldte tærskelværdier
og
en størrelse
m
i
,
der angiver den maksimale scoring for det polytome item:
Det ses, at det dikotome tilfælde er indeholdt i modellen med
m
i
=1 og
1i
=0.
I de nationale test anvendes en blanding af dikotome og polytome items.
Tærskelværdierne for de enkelte items i opgavebanken er beregnet på bag-
grund af opgaveafprøvningerne.
Opgavernes sværhedsgrad, location, beregnes som gennemsnittet af de ikke-
centraliserede tærskelværdier.
Ved at anvende de estimerede tærskelværdier for opgaverne i opgaveban-
ken kan elevernes dygtighed beregnes. Elevernes dygtighed beregnes som
maximum likelihood estimatet af person parameteren,
.Tilsvarende kan
den statistiske usikkerhed, Standard Error of Measurement (SEM), på elev-
dygtigheden beregnes.
I testsystemets algoritme håndteres elevforløb uden for intervallet ±7 logit
ikke. Dvs. alle elevdygtigheder under -7 logit sættes lig med -7 og alle elev-
dygtigheder over +7 logit sættes lig med +7.
Enkelte elevforløb er såkaldte ekstreme forløb. Et ekstremt forløb i denne
sammenhæng er, når eleven enten svarer forkert eller rigtigt på alle opgaver.
Dette giver problemer i beregningerne, da værdier, der anvendes, kan
nærme sig uendeligt. Beregningen af elevdygtigheden i ekstreme forløb
håndteres ved at ændre elevens samlede score med +0,22 ved ekstremt lav
score og -0,22 ved ekstremt høj score.
Selve algoritmen til valg af opgaver fra opgavebanken og beregning af elever-
nes dygtighed i testsystemet er programmeret i C#, og beregningen af elev-
dygtigheden foregår iterativt ved anvendelse af bisektion metoden.
I testsystemets
algorit e skel es
ter run-i
’.
elle
’ru
-i
periode ’ og ’periode ef-
����{����
��������
= ���� } =
����
����=
����
−���� ���� −���� ���� …−������������ +����
−���½����
����
−���� ���� −���� ���� …−������������ +����
−���½����
{1}
Run-in perioden
Run-in perioden defineres ved de tre første opgaver i hvert profilområde.
Eleven starter med en dygtighed, der passer til en middelsvær opgave i det
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 10 af 145
pågældende profilområde. Startværdien på logit-skalaen for elevens dygtig-
hed afhænger således af det enkelte profilområde.
Svarer eleven forkert, nedsættes elevens dygtighed med en fast step-værdi.
Svarer eleven rigtigt, forhøjes elevens dygtighed med step-værdien. Step-
værdien afhænger af spredningen på opgavernes sværhedsgrad i det enkelte
profilområde. Step-værdien er på 0,25 eller 0,50 logit afhængigt af profilom-
råde.
Efter elevens besvarelse på anden opgave gentages ovenstående fastsæt-
telse af elevdygtigheden.
Efter besvarelse af tredje opgave beregnes elevens dygtighed for første gang
baseret på elevens besvarelser på de tre opgaver.
Efter run-in perioden
Elevens dygtighed beregnes efter hver besvarelse efter run-in perioden ifølge
modellen {1}. Beregningen baseres på elevens besvarelser af alle foregående
opgaver samt på opgavernes sværhedsgrad.
Valg af opgaver i den adaptive algoritme
Valg af opgaver fra opgavebanken til elevernes testforløb foregår efter det
adaptive princip. Hvis eleven svarer rigtigt på en opgave, da vil næste opgave
være med en større sværhedsgrad. Hvis eleven svarer forkert, vil næste op-
gave være med en mindre sværhedsgrad.
Valg af den næste opgave i en elevs testforløb i de nationale test foregår ved,
at vælge den opgave, der har en sværhedsgrad, der er lig med eller ligger så
tæt som muligt på elevens dygtighed. Derved opnås den højeste statistiske
informationsværdi og den mindst mulige statistiske usikkerhed på beregnin-
gen af elevens dygtighed.
I den adaptive algoritme søges efter opgaver i et interval omkring elevens ak-
tuelt beregnede dygtighed i følgende rækkefølge:
1.
2.
3.
4.
5.
Elevens beregnede dygtighed ± 0,1 logit
Elevens beregnede dygtighed ± 0,2 logit
Elevens beregnede dygtighed ± 0,5 logit
Elevens beregnede dygtighed ± 1,0 logit
Elevens beregnede dygtighed ligger tættest muligt på opgavens svær-
hedsgrad
Blandt de opgaver, der ligger i intervallet, vælges den aktuelle opgave sim-
pelt tilfældigt. Der kan ikke vælges opgaver, eleven allerede har fået i samme
testforløb.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 11 af 145
Søgning efter den næste opgave starter således i et lille interval (± 0,1 logit)
omkring elevens dygtighed. Findes ingen opgaver her, eller har eleven alle-
rede fået alle de opgaver, der lå i intervallet, da udvides intervallet til ± 0,2
logit. Findes heller ingen opgaver her, da udvides søgeintervallet til ± 0,5 lo-
git og endelig til ± 1,0 logit. Kan der stadig ikke findes en opgave, som eleven
ikke har besvaret tidligere i testforløbet, da vælges den opgave, der har en
sværhedsgrad tættest på elevens dygtighed.
I testsystemet skiftes mellem opgaver i de tre profilområder, testen består
af. Eleven får således stillet opgaver
e i rækkefølge , , , , , , , …,
hvor 1, 2 og 3 står for de tre profilområder. Når den statistiske usikkerhed på
elevens dygtighed er kommet under 0,55, eller eleven har besvaret 29 opga-
ver i et profilområde fortsættes udelukkende med opgaver i de øvrige profil-
områder.
Eksempler på valg af opgave i testforløb
Nedenstående tre eksempler viser hvilke opgaver, der vælges for den en-
kelte elev i ét profilområde. Der er valgt tre eksempler fra de obligatoriske
test i dansk læsning 8. klasse i foråret 2018. Alle tre eksempler stammer fra
profilområdet sprogforståelse.
Algoritmens valg af opgave fungerer fuldstændigt ens for alle test og profil-
områder. Eksemplerne er således repræsentative for algoritmens valg af op-
gaver uanset test, klassetrin og profilområde.
Startværdien for elevens dygtighed i dansk læsning 8. klasse sprogforståelse
er sat til 0,50 og step-værdien i run-in perioden er på 0,50.
Bilag 1.2 indeholder alle opgaver i opgavebanken i dansk læsning 8. klasse
sprogforståelse med tilhørende sværhedsgrad. Opgaverne er sorteret efter
stigende sværhedsgrad.
Nedenstående tabeller, der viser tre elevers testforløb, indeholder:
Svartidspunkt:
Dato og tid for elevens besvarelse af den pågældende
opgave
Theta:
Elevens dygtighed på logit skalaen når opgavens stilles
Opgavenummer:
Opgavens id-nummer i opgavebanken
Location:
Opgavens sværhedsgrad på logit skalaen
Afstand:
Forskellen på logit skalaen mellem elevens dygtighed og opga-
vens sværhedsgrad
Score:
Elevens antal rigtige i opgaven
Ny theta:
Elevens beregnede dygtighed efter besvarelse af opgaven
SEM:
Standard Error of Measurement. Den statistiske usikkerhed på ele-
vens beregnede dygtighed
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0013.png
Side 12 af 145
Eksempel 1
Tabel 1.1 Elevforløb 1
Step
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Svartidspunkt
07MAR18:11:17:54
07MAR18:11:19:24
07MAR18:11:21:47
07MAR18:11:23:42
07MAR18:11:26:28
07MAR18:11:29:14
07MAR18:11:31:09
07MAR18:11:33:39
07MAR18:11:36:52
07MAR18:11:38:45
07MAR18:11:41:20
07MAR18:11:45:13
07MAR18:11:48:24
07MAR18:11:49:55
07MAR18:11:54:22
07MAR18:11:56:54
07MAR18:11:59:32
07MAR18:12:01:19
Theta
0,500
1,000
0,500
1,414
2,050
1,557
1,180
0,872
1,140
1,385
1,182
1,000
1,182
1,347
1,202
1,343
1,474
1,357
Opgavenummer
0108010420155
0108010420129
0108010420043
010801000301234804-1
0108010415180
0108010420122
0108010410399
0108010420028
0108010420017
010801000301238997-1
0108010415109
0108010415118
0108010420056
0108010415153
0108010420160
010801000301239000-1
010801000301234820-1
0108010415151
Location
0,580
1,085
0,464
1,505
1,981
1,465
1,160
0,897
1,235
1,445
1,266
1,095
1,259
1,381
1,249
1,367
1,552
1,370
Afstand
-0,080
-0,085
0,036
-0,091
0,069
0,092
0,020
-0,025
-0,095
-0,060
-0,084
-0,095
-0,077
-0,034
-0,047
-0,024
-0,078
-0,013
Score
1
0
1
1
0
0
0
1
1
0
0
1
1
0
1
1
0
0
Ny theta
1,000
0,500
1,414
2,050
1,557
1,180
0,872
1,140
1,385
1,182
1,000
1,182
1,347
1,202
1,343
1,474
1,357
1,244
SEM
-
-
1,235
1,174
0,948
0,845
0,786
0,726
0,687
0,647
0,618
0,588
0,566
0,543
0,525
0,511
0,493
0,478
Kilde: Styrelsen for It og Læring
Step1. Run-in perioden. Eleven starter med en dygtighed på 0,5. Algoritmen
søger først efter opgaver i opgavebanken i intervallet 0,5 ± 0,1, dvs. i inter-
vallet 0,4-0,6. I intervallet findes 28 opgaver (Bilag 1.2), og algoritmen vælger
en opgave tilfældig blandt disse. Den valgte opgave har en sværhedsgrad på
0,580. Eleven svarer rigtigt (score=1) og den nye dygtighed forhøjes til 1,0.
Step2. Run-in perioden. Eleven har nu en dygtighed på 1,0 og algoritmen sø-
ger først efter opgaver i intervallet 0,9-1,1. I intervallet findes 21 opgaver (Bi-
lag 1.2), og algoritmen vælger en opgave tilfældig blandt disse. Den valgte
opgave har en sværhedsgrad på 1,085. Eleven svarer forkert (score=0) og
den nye dygtighed sættes til 0,5.
Step3. Run-in perioden. Eleven har nu en dygtighed på 0,5 og algoritmen sø-
ger først efter opgaver i intervallet 0,4-0,6. I intervallet findes 28 opgaver (Bi-
lag 1.2). Eleven har tidligere fået én af disse, så der er 27 opgaver tilbage i in-
tervallet, og algoritmen vælger en opgave tilfældig blandt disse. Den valgte
opgave har en sværhedsgrad på 0,464. Eleven svarer rigtigt (score=1). Eleven
har nu svaret på tre opgaver og elevens dygtighed kan beregnes for første
gang. På baggrund af elevens besvarelser på de tre opgaver samt ved anven-
delse af opgavernes estimerede tærskelværdier, beregnes elevens dygtighed
til 1,414 og den statistiske usikkerhed beregnes til 1,235.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 13 af 145
Step4. Eleven har nu en dygtighed på 1,414 og algoritmen søger først efter
opgaver i intervallet 1,314-1,514. I intervallet findes 12 opgaver (Bilag 1.2),
og algoritmen vælger en opgave tilfældig blandt disse. Den valgte opgave har
en sværhedsgrad på 1,505. Eleven svarer rigtigt (score=1), og elevens dygtig-
hed beregnes på baggrund af elevens besvarelser på de fire opgaver samt
ved anvendelse af opgavernes estimerede tærskelværdier. Elevens dygtighed
beregnes til 2,050 og den statistiske usikkerhed beregnes til 1,174.
Step5. Eleven har nu en dygtighed på 2,050 og algoritmen søger først efter
opgaver i intervallet 1,950-2,150. I intervallet findes 1 opgave (Bilag 1.2), og
algoritmen vælger denne. Opgaven har en sværhedsgrad på 1,981. Eleven
svarer forkert (score=0), og elevens dygtighed beregnes på baggrund af ele-
vens besvarelser på de fem opgaver samt ved anvendelse af opgavernes esti-
merede tærskelværdier. Elevens dygtighed beregnes til 1,557 og den statisti-
ske usikkerhed beregnes til 0,948.
Step6-Step18. Eleven svarer i alt på 18 opgaver i profilområdet, og efter hver
besvarelse vælges en opgave fra opgavebanken med en sværhedsgrad, der
ikke ligger mere end ± 0,1 logit fra elevens dygtighed. Dette ses af kolonnen
’Afsta d’ i Tabel
1.1.
Step1-Step18: Alle 18 opgaver findes i intervallet ± 0,1 logit fra elevens dyg-
tighed.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0015.png
Side 14 af 145
Eksempel 2
Tabel 1.2 Elevforløb 2
Step
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Svartidspunkt
24APR18:06:04:43
24APR18:06:08:44
24APR18:06:11:57
24APR18:06:14:17
24APR18:06:18:54
24APR18:06:23:18
24APR18:06:28:25
24APR18:06:29:42
24APR18:06:32:22
24APR18:06:34:32
24APR18:06:35:50
24APR18:06:39:07
24APR18:06:42:43
24APR18:06:43:39
24APR18:06:45:27
Theta
0,500
1,000
1,500
3,606
4,791
3,313
2,594
2,887
2,476
2,158
2,359
2,111
1,904
2,063
2,192
Opgavenummer
010801000301238555-1
0108010410384
010801000301234820-1
0108010410315
010801000301239196-1
010801000301234837-1
0108010420015
010801000301234841-1
0108010415180
010801000301234833-1
010801000301234828-1
0108010410094
0108010410379
0108010420095
0108010415124
Location
0,479
0,931
1,552
3,044
2,371
2,263
2,151
2,248
1,981
1,937
1,912
1,832
1,807
1,716
1,713
Afstand
0,021
0,069
-0,052
0,562
2,420
1,050
0,443
0,639
0,495
0,221
0,447
0,279
0,097
0,347
0,479
Score
1
1
1
1
0
0
1
0
0
1
0
0
1
1
1
Ny heta
1,000
1,500
3,606
4,791
3,313
2,594
2,887
2,476
2,158
2,359
2,111
1,904
2,063
2,192
2,304
SEM
-
-
2,229
2,259
1,193
0,932
0,885
0,774
0,709
0,677
0,634
0,603
0,579
0,560
0,545
Kilde: Styrelsen for It og Læring
Step1. Run-in perioden. Eleven starter med en dygtighed på 0,5. Algoritmen
søger først efter opgaver i opgavebanken i intervallet 0,5 ± 0,1, dvs. i inter-
vallet 0,4-0,6. I intervallet findes 28 opgaver (Bilag 1.2), og algoritmen vælger
en opgave tilfældig blandt disse. Den valgte opgave har en sværhedsgrad på
0,479. Eleven svarer rigtigt (score=1) og den nye dygtighed forhøjes til 1,0.
Step2. Run-in perioden. Eleven har nu en dygtighed på 1,0 og algoritmen sø-
ger først efter opgaver i intervallet 0,9-1,1. I intervallet findes 21 opgaver (Bi-
lag 1.2), og algoritmen vælger en opgave tilfældig blandt disse. Den valgte
opgave har en sværhedsgrad på 0,931. Eleven svarer rigtigt (score=1) og den
nye dygtighed sættes til 1,5.
Step3. Run-in perioden. Eleven har nu en dygtighed på 1,5 og algoritmen sø-
ger først efter opgaver i intervallet 1,4-1,6. I intervallet findes 11 opgaver (Bi-
lag 1.2), og algoritmen vælger en opgave tilfældig blandt disse. Den valgte
opgave har en sværhedsgrad på 1,552. Eleven svarer rigtigt (score=1). Eleven
har nu svaret på tre opgaver og elevens dygtighed kan beregnes for første
gang. På baggrund af elevens besvarelser på de tre opgaver samt ved anven-
delse af opgavernes estimerede tærskelværdier, beregnes elevens dygtighed
til 3,606 og den statistiske usikkerhed beregnes.
Step4. Eleven har nu en dygtighed på 3,606 og algoritmen søger først efter
opgaver i intervallet 3,506-3,706. Der findes ingen opgaver i opgavebanken i
dette interval. Dernæst søges i intervallet ± 0,2, dvs. i intervallet 3,406-3,806.
Der findes heller ingen opgaver i opgavebanken i dette interval. Dernæst sø-
ges i intervallet ± 0,5, dvs. i intervallet 3,106-4,106. Der findes heller ingen
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 15 af 145
opgaver i opgavebanken i dette interval. Dernæst søges i intervallet ± 1,0,
dvs. i intervallet 2,606-4,606. Der findes én opgave i dette interval med en
sværhedsgrad på 3,044 (Bilag 1.2) som vælges. Eleven svarer rigtigt
(score=1), og elevens dygtighed beregnes på baggrund af elevens besvarelser
på de fire opgaver samt ved anvendelse af opgavernes estimerede tærskel-
værdier. Elevens dygtighed beregnes til 4,791.
Step5. Eleven har nu en dygtighed på 4,791 og algoritmen søger først efter
opgaver i intervallet ± 0,1, dernæst i intervallet ± 0,2 og i intervallerne ± 0,5
og ± 1,0. Opgavebanken indeholder ingen opgaver i disse intervaller. Derfor
vælges den opgave med en sværhedsgrad, der ligger tættest på elevens dyg-
tighed, og som eleven ikke tidligere har fået. Denne opgave har en sværheds-
grad på 2,371. Eleven svarer forkert (score=0), og elevens dygtighed bereg-
nes på baggrund af elevens besvarelser på de fem opgaver samt ved anven-
delse af opgavernes estimerede tærskelværdier. Elevens dygtighed beregnes
til 3,313.
Step6. Eleven har nu en dygtighed på 3,313 og algoritmen søger først efter
opgaver i intervallet ± 0,1 og i intervallerne ± 0,2, ± 0,5 og ± 1,0. Opgaveban-
ken indeholder ingen opgaver i disse intervaller, som eleven ikke allerede har
fået. Derfor vælges den opgave med en sværhedsgrad, der ligger tættest på
elevens dygtighed, og som eleven ikke tidligere har fået. Denne opgave har
en sværhedsgrad på 2,263. Eleven svarer forkert (score=0), og elevens dyg-
tighed beregnes på baggrund af elevens besvarelser på de seks opgaver samt
ved anvendelse af opgavernes estimerede tærskelværdier. Elevens dygtighed
beregnes til 2,594.
Step7. Eleven har nu en dygtighed på 2,594 og algoritmen søger først efter
opgaver i intervallet ± 0,1 og i intervallet ± 0,2. Opgavebanken indeholder in-
gen opgaver i disse intervaller, som eleven ikke allerede har fået. Dernæst
søges i intervallet ± 0,5, dvs. i intervallet 2,094-3,094. . I intervallet findes 5
opgaver (Bilag 1.2). Eleven har tidligere fået tre af disse, så der er 2 opgaver
tilbage i intervallet, og algoritmen vælger en opgave tilfældig blandt disse.
Den valgte opgave har en sværhedsgrad på 2,151. Eleven svarer rigtig
(score=1), og elevens dygtighed beregnes på baggrund af elevens besvarelser
på de syv opgaver samt ved anvendelse af opgavernes estimerede tærskel-
værdier. Elevens dygtighed beregnes til 2,887.
Step8-Step15. Eleven svarer i alt på 15 opgaver i profilområdet. Forskellen
mellem elevens dygtighed og den valgt opgaves sværhedsgrad ses af kolon-
e ’Afsta d’ i
Tabel 1.2.
Step1-Step15: Fire opgaver findes i intervallet ± 0,1 logit fra elevens dygtig-
hed, syv opgaver skal findes i intervallet ± 0,5 logit, to opgaver skal findes i
intervallet ± 1,0 logit, mens to af opgaverne ligger med en sværhedsgrad
mere end ± 1,0 logit fra elevens dygtighed.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0017.png
Side 16 af 145
Eksempel 3
Tabel 1.3 Elevforløb 3
Step
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Svartidspunkt
12APR18:07:00:26
12APR18:07:04:10
12APR18:07:09:16
12APR18:07:10:30
12APR18:07:12:30
12APR18:07:16:22
12APR18:07:22:00
12APR18:07:24:07
12APR18:07:25:44
12APR18:07:28:41
12APR18:07:30:48
12APR18:07:35:29
12APR18:07:39:59
12APR18:07:43:02
12APR18:07:47:25
12APR18:07:50:20
12APR18:07:52:16
Theta
0,500
1,000
1,500
1,741
2,384
2,959
3,550
2,842
3,089
3,275
2,835
2,973
3,091
2,772
2,866
2,614
2,700
Opgavenummer
0108010420043
0108010410084
010801000301234804-1
0108010410094
010801000301239196-1
0108010410315
010801000301234837-1
010801000301234841-1
0108010420015
0108010415180
010801000301234833-1
010801000301234828-1
0108010410379
0108010420095
0108010415124
010801000301234824-1
010801000301236068-1
Location
0,464
1,081
1,505
1,832
2,371
3,044
2,263
2,248
2,151
1,981
1,937
1,912
1,807
1,716
1,713
1,685
1,649
Afstand
0,036
-0,081
-0,005
-0,091
0,013
-0,085
1,287
0,594
0,938
1,294
0,898
1,061
1,284
1,056
1,153
0,929
1,051
Score
1
1
0
1
1
1
0
1
1
0
1
1
0
1
0
1
1
Ny theta
1,000
1,500
1,741
2,384
2,959
3,550
2,842
3,089
3,275
2,835
2,973
3,091
2,772
2,866
2,614
2,700
2,776
SEM
-
-
1,248
1,180
1,152
1,148
0,885
0,853
0,831
0,718
0,700
0,686
0,620
0,609
0,564
0,554
0,546
Kilde: Styrelsen for It og Læring
Step1. Run-in perioden. Eleven starter med en dygtighed på 0,5. Algoritmen
søger først efter opgaver i opgavebanken i intervallet 0,5 ± 0,1, dvs. i inter-
vallet 0,4-0,6. I intervallet findes 28 opgaver (Bilag 1.2), og algoritmen vælger
en opgave tilfældig blandt disse. Den valgte opgave har en sværhedsgrad på
0,464. Eleven svarer rigtigt (score=1) og den nye dygtighed forhøjes til 1,0.
Step2. Run-in perioden. Eleven har nu en dygtighed på 1,0 og algoritmen sø-
ger først efter opgaver i intervallet 0,9-1,1. I intervallet findes 21 opgaver (Bi-
lag 1.2), og algoritmen vælger en opgave tilfældig blandt disse. Den valgte
opgave har en sværhedsgrad på 1,081. Eleven svarer rigtigt (score=1) og den
nye dygtighed sættes til 1,5.
Step3. Run-in perioden. Eleven har nu en dygtighed på 1,5 og algoritmen sø-
ger først efter opgaver i intervallet 1,4-1,6. I intervallet findes 11 opgaver (Bi-
lag 1.2), og algoritmen vælger en opgave tilfældig blandt disse. Den valgte
opgave har en sværhedsgrad på 1,505. Eleven svarer forkert (score=0). Ele-
ven har nu svaret på tre opgaver og elevens dygtighed kan beregnes for før-
ste gang. På baggrund af elevens besvarelser på de tre opgaver samt ved an-
vendelse af opgavernes estimerede tærskelværdier, beregnes elevens dygtig-
hed til 1,741 og den statistiske usikkerhed beregnes til 1,248.
Step4. Eleven har nu en dygtighed på 1,741 og algoritmen søger først efter
opgaver i intervallet 1,641-1,841. I intervallet findes 6 opgaver (Bilag 1.2), og
algoritmen vælger en opgave tilfældig blandt disse. Den valgte opgave har en
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0018.png
Side 17 af 145
sværhedsgrad på 1,832. Eleven svarer rigtigt (score=1), og elevens dygtighed
beregnes på baggrund af elevens besvarelser på de fire opgaver samt ved an-
vendelse af opgavernes estimerede tærskelværdier. Elevens dygtighed be-
regnes til 2,384.
Step5. Eleven har nu en dygtighed på 2,384 og algoritmen søger først efter
opgaver i intervallet 2,284-2,584. I intervallet findes 1 opgave (Bilag 1.2), og
algoritmen vælger denne. Opgaven har en sværhedsgrad på 2,371. Eleven
svarer rigtigt (score=1), og elevens dygtighed beregnes på baggrund af ele-
vens besvarelser på de fem opgaver samt ved anvendelse af opgavernes esti-
merede tærskelværdier. Elevens dygtighed beregnes til 2,959.
Step6-Step17. Eleven svarer i alt på 17 opgaver i profilområdet. Forskellen
mellem elevens dygtighed og den valgt opgaves sværhedsgrad ses af kolon-
e ’Afsta d’ i Tabel
1.3.
Step1-Step17: Seks opgaver findes i intervallet ± 0,1 logit fra elevens dygtig-
hed, fire opgaver skal findes i intervallet ± 1,0 logit, mens syv af opgaverne
ligger med en sværhedsgrad mere end ± 1,0 logit fra elevens dygtighed.
Tjek af beregnet dygtighed og statistisk usikkerhed
For at undersøge om testsystemet beregner elevernes dygtighed og den sta-
tistiske usikkerhed (SEM) korrekt, er elevdygtighederne og SEM kontrolbe-
regnet i et kommercielt softwareprogram. Kontrolberegningerne er foreta-
get i softwareprogrammet RUMM
7
, der er udviklet på University of Western
Australia, Perth.
Elevdygtighederne i RUMM er beregnet ved anvendelse af Weighted Maxi-
mum Likelihood. I modsætning til testsystemet kan de beregnede elevdygtig-
heder i RUMM falde udenfor intervallet ±7.
Sammenligningen af de beregnede elevdygtigheder og SEM er foretaget for
dansk læsning 8. klasse og matematik 6. klasse. Der er anvendt elevbesvarel-
ser fra de obligatoriske test i foråret 2018.
Den absolutte forskel i beregnet elevdygtighed mellem testsystemet og
RUMM er:
absolut forskel = abs(theta(DNT)
theta(RUMM)),
hvor theta(DNT) er elevdygtigheden beregnet i testsystemet og
theta(RUMM) er elevdygtigheden beregnet ved anvendelse af RUMM.
7
www.rummlab.com.au
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0019.png
Side 18 af 145
Tabel 1.4 Forskel i estimerede elevdygtigheder mellem testsystemet og
RUMM. Gennemsnit (SD)
Absolut forskel (logit)
Fag og klassetrin
Dansk læsning
8. klasse
Matematik
6. klasse
I alt
1) Ekskl. elever med ekstremt testforløb
Kilde: Styrelsen for It og Læring
Profilområde
Sprogforståelse
Afkodning
Tekstforståelse
Tal og algebra
Geometri
Statistik og sandsynlighed
Alle elever
0,02 (0,06)
0,02 (0,05)
0,02 (0,03)
0,03 (0,04)
0,03 (0,03)
0,02 (0,05)
0,02 (0,04)
Ekskl. ekstreme
1)
0,02 (0,03)
0,02 (0,02)
0,02 (0,02)
0,03 (0,03)
0,03 (0,03)
0,02 (0,03)
0,02 (0,03)
Den gennemsnitlige absolutte forskel mellem elevdygtighederne beregnet i
testsystemet og beregnet i RUMM er på 0,02-0,03 logit afhængig af profilom-
råde (Tabel 1.4). Elevdygtighederne beregnet i testsystemet er ikke statistisk
signifikant forskellig fra elevdygtighederne i RUMM.
Tabel 1.5 viser, at 99,2 % af alle elevdygtighederne beregnes på samme
måde (indenfor ±0,1) i testsystemet som i RUMM. Ses bort fra elever med
ekstremt elevforløb, da beregnes 99,3 % af alle elevdygtighederne på samme
måde i testsystemet som i RUMM.
Tabel 1.5 Fordeling af absolut forskel i estimerede elevdygtigheder mellem
testsystemet og RUMM. Samlet for dansk læsning 8. klasse og matematik
6. klasse 2018
Interval
1)
0,0
0,1
0,0
0,2
0,0
0,3
0,0
0,4
0,0
0,5
0,5 +
1) Forskel på logit-skalaen
Kilde: Styrelsen for It og Læring
Alle elever
99,2 %
99,7 %
99,8 %
99,9 %
99,9 %
<0,1 %
Ekskl. elever med ekstremt forløb
99,3 %
99,8 %
99,9 %
99,99 %
99,999 %
<0,001 %
De få og små afvigelser, der er mellem de beregnede elevdygtigheder, kan
sandsynligvis tilskrives forskel i den anvendte præcision. Desuden kan for-
skellen ligge i forskellen på estimations metoden, dvs forskellen mellem
Weighted Maximum Likelihood og Unweighted Maximum Likelihood.
Figur 1.1 og 1.2 viser den store overensstemmelse, der er, i beregningen af
elevdygtighederne i testsystemet og i RUMM. Figurerne viser de beregnede
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 19 af 145
elevdygtigheder i hvert af de tre profilområder i henholdsvis dansk læsning
8. klasse og matematik 6. klasse.
De røde punkter viser beregnede elevdygtigheder for elever med ekstreme
forløb.
Figur 1.3 og 1.4 viser tilsvarende fin overensstemmelse mellem beregnin-
gerne af SEM i testsystemet og i RUMM. De elevforløb, hvor der er en afvi-
gelse i den beregnede SEM, er primært elevforløb med en SEM over 0,55.
Her gælder, at den beregnede statistiske usikkerhed i testsystemet er større
end den beregnede usikkerhed i RUMM.
Kontrolberegningerne i RUMM giver således samme elevdygtigheder og SEM
som beregnes i testsystemet.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0021.png
Side 20 af 145
Figur 1.1 Sammenhæng mellem beregnet elevdygtighed i testsystemet
(Theta DNT) og i RUMM (Theta RUMM). Dansk læsning 8. klasse
Note: Røde dots er elever med ekstreme besvarelser
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0022.png
Side 21 af 145
Figur 1.2 Sammenhæng mellem beregnet elevdygtighed i testsystemet
(Theta DNT) og i RUMM (Theta RUMM). Matematik 6. klasse
Note: Røde dots er elever med ekstreme besvarelser
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0023.png
Side 22 af 145
Figur 1.3 Sammenhæng mellem beregnet statistisk usikkerhed i testsyste-
met (SEM DNT) og i RUMM (SEM RUMM). Dansk læsning 8. klasse
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0024.png
Side 23 af 145
Figur 1.4 Sammenhæng mellem beregnet statistisk usikkerhed i testsyste-
met (SEM DNT) og i RUMM (SEM RUMM). Matematik 6. klasse
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 24 af 145
2
Notat 2 De nationale tests måleegenskaber
Sammenfatning
Der er en tydelig sammenhæng mellem elevernes resultater fra de nati-
onale test i dansk læsning og matematik og elevernes karakterer i såvel
standpunktsprøverne i 8. klasse som i folkeskolens prøver i 9. klasse
De nationale test og folkeskolens prøver når til relativt enslydende vur-
deringer af elevernes faglige niveau i de områder, hvor der testes
Der er en sammenhæng mellem elevernes resultater fra de nationale
test og resultaterne fra PISA-undersøgelserne
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0026.png
Side 25 af 145
Indledning
I evalueringen af de nationale test skal følgende spørgsmål besvares:
Regner de nationale test rigtigt?
Et element i vurderingen af dette er, at undersøge om elevernes resultater
fra de nationale test stemmer overens med elevernes resultater fra andre til-
svarende test og prøver. En sådan egenskab omtales som testenes kriterieva-
liditet.
Hvis de nationale test beregner elevernes dygtighed forkert, må det forven-
tes, at sammenhængen mellem elevernes beregnede dygtigheder i de natio-
nale test og resultaterne fra andre test og elevvurderinger er begrænset.
For at få en indikation af om testene samlet set ser ud til at måle det samme
som andre tilsvarende test og prøver, kan man se på sammenhængen mel-
lem elevernes testresultat i de nationale test og deres efterfølgende præsta-
tion i de relevante dele af standpunktsprøverne i 8. klasse samt i folkeskolens
prøver i 9. klasse. Endvidere er det muligt at se på sammenhængen mellem
elevernes testresultater i de nationale test og elevernes senere PISA resulta-
ter. Begge dele er tidligere undersøgt af BUVM
8,9,10
.
I notatet beskrives sammenhængen mellem elevernes testresultater og hen-
holdsvis standpunktskarakterer, prøvekarakterer og PISA resultater.
Formålet er således, at vurdere om de nationale test måler den egenskab,
der forventes.
Notatet indeholder følgende afsnit:
Sammenhæng mellem testresultater og prøvekarakterer
Sammenhæng mellem testresultater og standpunktskarakterer
Sammenhæng mellem testresultater og PISA test
Sammenhæng mellem testresultater og prøvekarakter
Elevernes karakter i dansk, læsning i folkeskolens prøve i 9. klasse i
2017/2018 sammenholdes med elevernes testresultater i de obligatoriske
nationale test i dansk, læsning i 8. klasse i 2016/2017. Tilsvarende sammen-
holdes elevernes karakter i matematik uden hjælpemidler i folkeskolens
8
9
Børne- og undervisningsministeriet
https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf16/sep/160912-notat-om-natio-
nale-tests-maaleegenskaber.pdf
https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf17/jan/170110-kriteriebaserede-
test-delrapport-1.pdf
10
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0027.png
Side 26 af 145
prøve i 9. klasse i 2017/2018 med elevernes testresultater i de obligatoriske
nationale test i matematik i 6. klasse i 2014/2015
11
(Figur 2.1 og Figur 2.2).
I Rasch-modellen beregnes elevernes dygtighed på logit-skalaen
12
. I testsy-
stemet omregnes resultaterne til den normbaserede skala, der er en simpel
percentilskala (1-100)
13
, ved anvendelse af en stykvis sigmoid funktion. I
dansk læsning og i matematik omregnes resultaterne endvidere til en krite-
riebaseret skala
14
på seks trin
15
.
I figurer og tabeller er anvendt den samlede vurdering af elevens testresul-
tat. På den normbaserede skala er den samlede vurdering lig med gennem-
snittet af elevens testresultater fra de tre profilområder. På den kriteriebase-
rede skala er den samlede vurdering
16
ligeledes baseret på elevens kriterie-
baserede testresultater fra hvert af de tre profilområder.
11
12
De nationale test i matematik 8. klasse startede først i 2017/2018
Logits er en transformation med den naturlige logaritme af odds, p/(1-p), hvor p er sand-
synligheden for at svare rigtigt på et item.
I formidlingen til elever og forældre bliver resultaterne på 100-skalaen omsat til: En del
under gennemsnittet (1-10), under gennemsnittet (11-35), gennemsnittet (35-65), over
gennemsnittet (66-90), en del over gennemsnittet (91-100)
https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf14/dec/141218-kriteriebaseret-
scoring-den-statistiske-model-bag.pdf
13
14
15
Ikke tilstrækkelig præstation, mangelfuld præstation, jævn præstation, god præstation,
rigtig god præstation og fremragende præstation
Det samlede testresultat opfattes som: 1) Fremragende, hvis præstationen har været
fremragende i mindst to profilområder og mindst god i det tredje. 2) Rigtig god, hvis præ-
stationen har været mindst rigtig god i mindst to profilområder og mindst jævn i det tredje.
3) God, hvis præstationen har været mindst god i to profilområder og mindst mangelfuld i
det tredje. 4) Jævn, hvis præstationen har været mindst jævn i to profilområder. 5) Mangel-
fuld, hvis præstationen har været mindst mangelfuld i to profilområder.
16
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0028.png
Side 27 af 145
Figur 2.1 Sammenhængen mellem resultaterne
1)
fra de nationale test
(normbaseret skala) og karakterer fra folkeskolens prøver i 9. klasse i
2017/2018
1) Samlet vurdering
Kilde: Styrelsen for It og Læring
Gruppen af elever, der opnår mellem 31 og 40 point i samlet vurdering i de
obligatoriske nationale test i dansk, læsning 8. klasse får i gennemsnit 4,2 i
karakter ved folkeskolens prøver i 9. klasse, mens gruppen af elever, der op-
når mellem 81 og 90 point i samlet vurdering i de obligatoriske nationale test
i dansk, læsning 8. klasse får 8,6 i gennemsnit i karakter ved folkeskolens prø-
ver i 9. klasse (Figur 2.1).
Den samme tydelige sammenhæng ses mellem elevernes testresultater i ma-
tematik i 6. klasse og deres karakter tre år senere ved folkeskolens prøve i
matematik uden hjælpemidler i 9. klasse.
Karaktergennemsnit med tilhørende spredning fordelt efter elevernes dyg-
tighed i de nationale test findes i Bilag 2.1.
Tilsvarende sammenhæng mellem elevernes testresultater i de nationale
test og elevernes karakterer fra folkeskolens prøver i 9. klasse ses, når testre-
sultaterne omregnes til den kriteriebaserede skala (Figur 2.2).
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0029.png
Side 28 af 145
Figur 2.2 Sammenhængen mellem resultaterne
1)
fra de nationale test (krite-
riebaseret skala) og karakterer fra folkeskolens prøver i 9. klasse i 2017/2018
1) Samlet vurdering
Kilde: Styrelsen for It og Læring
Elevernes fordeling på karakterne ved folkeskolens prøver i 9. klasse i forhold
til elevernes testresultater på den kriteriebaserede skala i de nationale test
ses i Tabel 2.1.
Blandt de elever, der opnår en mangelfuld præstation i dansk læsning i de
nationale test i 8. klasse, får 64 procent højst karakteren 2 i dansk læsning
året efter ved folkeskolens prøve i 9. klasse, mens 90 procent højst får karak-
teren 4.
Blandt de elever, der opnår en rigtig god præstation i dansk læsning i de nati-
onale test i 8. klasse, får 67 procent karakteren 7 eller 10 i dansk læsning året
efter ved folkeskolens prøve i 9. klasse.
Blandt de elever, der opnår en fremragende præstation i matematik i de na-
tionale test i 6. klasse, får 87 procent karakteren 10 eller 12 i matematik
uden hjælpemidler tre år efter ved folkeskolens prøve i 9. klasse.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0030.png
Side 29 af 145
Tabel 2.1 Elevernes testresultat
1)
i de nationale test sammenholdt med ka-
rakteren fra folkeskolens prøve i 9. klasse i 2017/2018. Andel elever (pct.)
Fag og
klassetrin
Dansk
læsning
8. klasse
Testresultat
Ikke tilstrækkelig
Mangelfuld
Jævn
God
Rigtig god
Fremragende
Matematik
6. klasse
Ikke tilstrækkelig
Mangelfuld
Jævn
God
Rigtig god
Fremragende
1) Samlet vurdering
Kilde: Styrelsen for It og Læring
Karakter
-3
1
0
0
0
0
0
0
0
0
0
0
0
0
59
27
11
3
1
1
46
16
4
1
0
0
2
25
37
29
14
5
4
25
29
16
4
0
0
4
9
26
37
33
18
12
19
40
46
23
4
1
7
5
9
21
39
42
31
8
14
31
51
30
11
10
0
1
2
10
25
31
1
1
3
18
42
31
12
0
0
0
1
8
22
0
0
0
4
24
56
I alt
100
100
100
100
100
100
100
100
100
100
100
100
De nationale test i dansk læsning og i matematik beregner således elevresul-
tater, der ligger relativt tæt op ad elevernes karakterer i folkeskolernes prøve
i 9. klasse.
Den samme prædiktive validitet er flere forskere kommet frem til, blandt an-
det Louise Beuchert & Anne Nandrup fra Aarhus Universitet
17
.
Sammenhæng mellem testresultater og standpunktskarakter
Elevernes standpunktskarakter i dansk, læsning 8. klasse i 2017/2018 sam-
menholdes med elevernes testresultater i de obligatoriske nationale test i
dansk, læsning i 8. klasse samme år. Tilsvarende sammenholdes elevernes
standpunktskarakter i matematik uden hjælpemidler i 8. klasse i 2017/2018
med elevernes testresultater i de obligatoriske nationale test i matematik i 8.
klasse samme år (Figur 2.3 og Figur 2.4).
17
Louise V. Beuchert & Anne B. Nandrup. The Danish National Tests at a Glance. National-
økonomisk Tidsskrift 2018:2
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0031.png
Side 30 af 145
Figur 2.3 Sammenhængen mellem resultaterne
1)
fra de nationale test
(normbaseret skala) og standpunktskaraktererne i 8. klasse i 2017/2018
1) Samlet vurdering
Kilde: Styrelsen for It og Læring
Figur 2.4 Sammenhængen mellem resultaterne
1)
fra de nationale test (kri-
teriebaseret skala) og standpunktskaraktererne i 8. klasse i 2017/2018
1) Samlet vurdering
Kilde: Styrelsen for It og Læring
Der ses den samme tydelige sammenhæng mellem testresultater og stand-
punktskarakterer fra 8. klasse som mellem testresultater og prøvekarakte-
rerne i 9. klasse.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0032.png
Side 31 af 145
Sammenhæng mellem testresultater og PISA test
I en rapport fra konsulentfirmaet DAMVAD udarbejdet i samarbejde med
Svend Kreiner i 2014
18
påvises det, at der er en tydelig sammenhæng mellem
de resultater, eleverne opnår i de nationale test og i den internationale PISA-
undersøgelse, jf. boks 1. Dette gælder både for testene i dansk og matema-
tik.
Boks 1. Uddrag af Damvad-rapport om PISA og de nationale test (s. 5):
”Der er e tydelig sa
e hæ g elle resultater e fra de
ationale
test og resultaterne fra PISA-undersøgelserne. Sammenhængen kan ob-
serveres på tværs af profilområder i både læsning og matematik, men er
ikke ødve digvis jæv t fordelt.”
”De tydelige sa
e hæ g elle resultater e fra de atio ale test og
PISA betyder samtidig, at de to test uafhængigt af hinanden når til rela-
tivt enslydende vurderinger af elevers faglige niveauer. Det er en bekræf-
telse af, at de nationale test siger noget relevant om elevernes faglige ni-
veau i de o råder, hvori de testes.”
I projektet blev anvendt resultaterne fra PISA-undersøgelsen i 2012. Resulta-
terne fra de elever, der var udtrukket til PISA-undersøgelsen, blev koblet
med de samme elevers testresultater fra dansk, læsning i 8. klasse og fra ma-
tematik i 6. klasse.
I analysen af sammenhængen i dansk læsning indgik 4.162 elever med resul-
tater i såvel de nationale test som i PISA-undersøgelsen. I analysen fandtes
en statistisk signifikant korrelation mellem PISA-resultatet og resultaterne fra
hvert af de tre profilområder i de nationale test. Analysen blev foretaget på
Rasch-modellens logit-skala og viste den stærkeste korrelation (r=0,62) mel-
le PISAs læsetest og profilo rådet ’tekstforståelse’.
I rapporten konkluderedes
19
: ”Dette resultat u derstøtter, at der er e ko si-
stent sammenhæng mellem målingen af profilområder i de nationale test og
resultaterne i PISA-u
dersøgelse .”
Den faglige færdighed i læsning og matematik, der måles i de nationale test,
kan således relateres til den internationale PISA-undersøgelse.
18
PISA-relatering af de kriteriebaserede nationale test. DAMVAD 2014
(https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf17/jan/170110-kriteriebaserede-
test-delrapport-1.pdf)
s. 11 i delrapport-1
19
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 32 af 145
3
Notat 3 Den statistiske usikkerhed og testenes reliabilitet
Sammenfatning
Den statistiske usikkerhed på elevernes estimerede dygtighed kan be-
regnes i de nationale test
Den statistiske usikkerhed på elevernes estimerede dygtighed vises for
den enkelte lærer på resultatvisningerne i testsystemet
Den gennemsnitlige statistiske usikkerhed på elevernes estimerede dyg-
tighed er 0,46 logit.
Den gennemsnitlige statistiske usikkerhed er mindst i fysik/kemi i 8.
klasse (0,36 i profilområde 3) og størst i matematik i 8. klasse (0,54 i pro-
filområde 3)
Den statistiske usikkerhed er generelt størst for de dygtigste elever
93 procent af alle obligatoriske testforløb i skoleåret 2017/2018 blev af-
sluttet med en statistisk usikkerhed under 0,55 logit
Omregnes den statistiske usikkerhed til den normbaserede skala (1-
100), da er længden på 68 procent og 95 procent sikkerhedsintervallet
på henholdsvis ± 12 og ± 22 point
På den normbaserede skala er sikkerhedsintervallerne størst på midten
af skalaen
Reliabiliteten, angivet ved Person Separation Index, ligger i intervallet
0,74
0,91 for dansk læsning, matematik og engelsk, mens den ligger i
intervallet 0,66
0,70 for fysik/kemi.
Reliabiliteten, angivet ved Person Separation Index, ligger over 0,80 i 23
ud af 30 profilområder og under 0,80 i de resterende syv
Den statistiske sikkerhed kan forbedres ved at forlænge testtiden, såle-
des at eleven når at besvare flere opgaver. Øges testtiden, så antallet af
opgaver eleverne når at besvare øges fra de nuværende ca. 20 til 40, da
kan den bedst mulige statistiske usikkerhed reduceres fra 0,45 til 0,32
Den statistiske sikkerhed kan endvidere forbedres ved, at øge antallet af
polytome opgaver, tilføje flere svære opgaver til opgavebanken samt
ved at justere algoritmen i testsystemet så opgaver med størst mulig in-
formationsværdi vælges
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0034.png
Side 33 af 145
Indledning
I evalueringen af de nationale test skal følgende kritik belyses:
1. Den kritik der rejses af den statistiske sikkerhed og reliabiliteten skal adres-
seres.
1c. Herunder skal det klarlægges om det er muligt at forbedre den adaptive
algoritme med henblik på at reducere den statistiske usikkerhed.
I notatet redegøres for den statistiske usikkerhed på de beregnede elevdyg-
tigheder. Ligeledes omsættes den statistiske usikkerhed til sikkerhedsinter-
valler omkring elevdygtigheden. Sikkerhedsintervallerne omregnes til de for-
skellige skalaer elevernes dygtighed formidles på. BUVM
20
har tidligere un-
dersøgt såvel den statistiske usikkerhed som reliabiliteten
21,22
. I notatet sam-
les op på tidligere beregninger og suppleres med nye baseret på de seneste
obligatoriske test. I notatet præsenteres forslag til forbedringer af de natio-
nale test med henblik på reduktion af den statistiske usikkerhed.
Formålet er således, at beskrive den statistiske usikkerhed og testenes relia-
bilitet samt komme med forslag til forbedringer af de nationale test.
Notatet indeholder følgende afsnit:
Den statistiske usikkerhed
Sikkerhedsintervaller og skalaer til formidling af denne
Reliabiliteten
Forslag til forbedringer af den statistiske sikkerhed
Den statistiske usikkerhed
De nationale test er baseret på Rasch-modellen
23,24
. Rasch-modellen er en
sandsynlighedsmodel, hvor sandsynligheden for, at en elev nummer
n
med
dygtighedsparameteren
n
svarer
x
rigtige på det polytome item
25
nummer
i
20
21
Børne- og undervisningsministeriet
https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf16/sep/160912-notat-om-natio-
nale-tests-maaleegenskaber.pdf
https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf17/jan/170110-uddybende-bilags-
notat-om-de-nationale-tests-maaleegenskaber.pdf
22
23
Rasch, G.: Probabilistic Models for Some Intelligence and Attainment Tests. Danish Na-
tional Institute for Educational Research, Copenhagen 1960.
24
Karl Bang Christensen, Svend Kreiner, Mounir Mesbah (edt): Rasch Models in Health. Wi-
ley 2013.
I Rasch-modellen anvendes begrebet item i stedet for opgave. Et dikotomt item har to
svarmuligheder, fx ja/nej eller rigtigt/forkert. Et polytomt item er et item med flere subi-
tems, således at eleven kan
s ore , , , , … rigtige
25
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0035.png
Side 34 af 145
med item sværhedsparameteren
β
i
og de såkaldte tærskelværdier
samt
en
størrelse
m
i
, der angiver den maksimale scoring for det polytome item:
I Rasch-modellen måles itemsværheder og elevdygtigheder på samme skala.
Skalaen kaldes logit-skalaen
26
.
Ved at anvende de estimerede tærskelværdier for opgaverne i opgaveban-
ken kan elevernes dygtighed beregnes. Elevernes dygtighed beregnes som
maximum likelihood estimatet af person parameteren,
.
Anvendelsen af en statistisk model, Rasch-modellen, medfører, at den stati-
stiske usikkerhed på elevdygtighederne kan beregnes. Den statistiske usik-
kerhed på andre test og prøver i skolen beregnes og formidles ikke.
Den statistiske usikkerhed på elevens estimerede dygtighed betegnes SEM
(Standard
Error
of
Measurement).
SEM afhænger både af elevens dygtighed, opgavernes sværhedsgrad samt
ikke mindst af antallet af opgaver eleven besvarer. Des flere opgaver eleven
besvarer des mindre statistisk usikkerhed på den beregnede dygtighed.
SEM beregnes i testsystemet i lighed med elevens dygtighed efter hver be-
svarelse på en opgave
27
.
SEM anvendes i den adaptive algoritme til at angive, hvornår elevens dygtig-
hed er bestemt med den fastsatte præcision så elevens testforløb kan afslut-
tes. Ligeledes anvendes SEM i formidlingen af elevernes resultater til læ-
rerne.
Den statistiske usikkerhed og testenes stopkriterie
SEM indgår i vurderingen af, hvornår en elev kan afslutte testen. Den enkelte
test med 3 profilområder varer som udgangspunkt i 45 minutter, men lære-
ren kan forlænge testtiden for den enkelte elev, hvis den statistiske usikker-
hed på elevdygtigheden er for stor.
I den oprindelige løsningsbeskrivelse fra COWI, der udviklede testene, står
28
:
”Der vælges derfor et stopkriteriu der i debærer, at der e te skal være be-
svaret 20 items på et profil- eller testområde før der kan gives en tilbagemel-
ding, eller der skal være opnået en SE på mindre end 0,6 i det pågældende
26
����{����
��������
= ���� } =
����
����=
����
−���� ���� −���� ���� …−������������ +����
−���½����
����
−���� ���� −���� ���� …−������������ +����
−���½����
{1}
Logits er en transformation med den naturlige logaritme af odds, p/(1-p), hvor p er sand-
synligheden for at svare rigtigt på et item.
https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf15/jan/150128-den-adaptive-algo-
ritme-i-de-nationale-test.pdf
Fremme af evalueringskulturen i folkeskolen
Bilag 3A løsningsbeskrivelse (10. juli 2006)
27
28
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0036.png
Side 35 af 145
testforløb. Det anbefales at fortsætte testen, hvis testens tidsramme ikke er
overskredet selvom stopkriteriet er nået, idet enhver forøgelse af antal be-
svarede ite s vil øge sikkerhede for tilbage eldi ge .”
Det endelige stopkriterie i testsystemet blev fastsat til:
Testtiden er 45 minutter for 3 profilområder
SEM < 0,55 logit eller eleven skal have besvaret mindst 30 opgaver i
hvert profilområde
Når SEM kommer under 0,55 logit i et profilområde, da får eleven ikke flere
opgaver i det pågældende profilområde men fortsætter med opgaver i de
øvrige profilområder. Når SEM er under 0,55 i alle tre profilområder i en test,
fortsætter eleven med opgaver indtil de 45 minutter er gået.
Elevernes teststatus følges af læreren på en monitoreringsskærm under af-
viklingen af testene. Elevers teststatus ændres fra
gul
til
grøn,
når SEM er un-
der 0,55 logit eller antallet af besvarede opgaver er mindst 30 i alle tre profil-
områder. Elever med teststatus lig grøn kan umiddelbart afsluttes af læreren
efter de 45 minutter. Læreren kan vælge at forlænge elevens test tid, hvis
elevens teststatus er lig gul. Læreren kan også vælge at afslutte eleven.
92 procent af eleverne afsluttede den nationale obligatoriske test i skoleåret
2017/2018 med en SEM under 0,55 logit eller havde besvaret mindst 30 op-
gaver i alle tre profilområder (Tabel 3.1).
Tabel 3.1 Andelen af eleverne, der afslutter testen med en SEM < 0,55
1)
i
alle tre profilområder (status =’grø
’)
i skoleåret 2017/2018.
Test
Dansk læsning 2. klasse
Dansk læsning 4. klasse
Dansk læsning 6. klasse
Dansk læsning 8. klasse
Matematik 3. klasse
Matematik 6. klasse
Matematik 8. klasse
Engelsk 4. klasse
Engelsk 7. klasse
Fysik/kemi 8. klasse
I alt
Kilde: Styrelsen for It og Læring
Afsluttet i ’grø ’
1)
94 %
95 %
96 %
91 %
87 %
89 %
80 %
97 %
94 %
98 %
92 %
1) Elever, hvor SEM er under 0,55 logit eller antallet af besvarede opgaver er mindst 30 i alle tre profilområder
.
For den nyeste test i matematik 8. klasse, der startede i skoleåret 2017/2018,
er andelen af elever, der afslutter med en SEM under 0,55 logit, kun på 80
procent. Tilsvarende er andelen af elever, der afslutter med en SEM under
0,55 logit i alle tre profilområder i matematik i 3. og 6. klasse, lavere end for
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0037.png
Side 36 af 145
de øvrige test. Læreren kan vælge at forlænge testtiden med henblik på at
forbedre den statistiske sikkerhed på elevens beregnede dygtighed.
Den statistiske usikkerhed i de enkelte profilområder
Den gennemsnitlige statistiske usikkerhed på elevdygtigheden i de nationale
obligatoriske test i skoleåret 2017/2018 er på 0,46. 93,4 procent af testforlø-
bene afsluttes med en SEM under 0,55.
SEM i hver test i skoleåret 2017/2018 fremgår af Tabel 3.2. Spredningen i
SEM er angivet ved henholdsvis 5 % og 95 % percentilerne. Fx er den gen-
nemsnitlige SEM i profilområde 1 i dansk læsning 2. klasse på 0,46, mens
henholdsvis 5 % og 95 % percentilerne er på 0,32 og 0,55. Dvs. 5 procent af
eleverne opnår et testresultat med en usikkerhed på 0,32 eller derunder,
mens 5 procent af eleverne opnår et testresultat med en usikkerhed på 0,55
eller derover. Den gennemsnitlige statistiske usikkerhed er størst i de nye
test (nyt profilområde 3
29
) i matematik i 3. og 6. klasse samt i den nye test i
matematik i 8. klasse
30
. I fysik/kemi i 8. klasse er den gennemsnitlige statisti-
ske usikkerhed på 0,36-0,37 logit.
Tabel 3.2 Den statistiske usikkerhed på den estimerede elevdygtighed i sko-
leåret 2017/2018. Gennemsnit [5% percentil; 95% percentil] (logit)
Test
Dansk læsning 2. klasse
Dansk læsning 4. klasse
Dansk læsning 6. klasse
Dansk læsning 8. klasse
Matematik 3. klasse
Matematik 6. klasse
Matematik 8. klasse
Engelsk 4. klasse
Engelsk 7. klasse
Fysik/kemi 8. klasse
Kilde: Styrelsen for It og Læring
Profilområde 1
0,46 [0,32; 0,55]
0,47 [0,36; 0,55]
0,48 [0,38; 0,55]
0,51 [0,40; 0,59]
0,48 [0,32; 0,65]
0,47 [0,32; 0,58]
0,53 [0,43; 0,69]
0,40 [0,26; 0,54]
0,45 [0,27; 0,55]
0,37 [0,23; 0,52]
Profilområde 2
0,46 [0,32; 0,57]
0,48 [0,36; 0,55]
0,49 [0,39; 0,55]
0,51 [0,41; 0,60]
0,49 [0,31; 0,65]
0,48 [0,32; 0,62]
0,52 [0,40; 0,69]
0,41 [0,25; 0,54]
0,47 [0,31; 0,55]
0,37 [0,22; 0,53]
Profilområde 3
0,42 [0,26; 0,55]
0,44 [0,25; 0,55]
0,45 [0,28; 0,54]
0,47 [0,31; 0,60]
0,53 [0,40; 0,73]
0,52 [0,42; 0,66]
0,54 [0,43; 0,72]
0,44 [0,29; 0,61]
0,45 [0,29; 0,55]
0,36 [0,21; 0,53]
For testene i alle profilområderne gælder, at den gennemsnitlige statistiske
usikkerhed er under de 0,55 logit, der er den fastsatte grænse for, hvornår
elevens testresultat vurderes tilstrækkeligt sikkert bestemt indenfor den af-
satte tid til testen.
29
I matematik 3. klasse erstattedes profilområde 3
matematik i anvendelse
af
statistik og
sandsynlighed
i 2015/2016. Tilsvarende ændring skete i matematik i 6. klasse i 2017/2018
Matematik i 8. klasse introduceredes i 2017/2018
30
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0038.png
Side 37 af 145
Den statistiske usikkerhed og antal opgaver
For at vurdere om den statistiske usikkerhed er stor eller lille kan anvendes,
at usikkerheden i adaptive test med dikotome
31
opgaver ikke kan blive min-
dre end
/√����,
hvor n er antallet af opgaver (Tabel 3.3).
Tabel 3.3 Sammenhæng mellem antal opgaver og mindst mulige SEM
Antal opgaver
5
10
15
16
17
18
19
20
21
22
SEM
1)
0,89
0,63
0,52
0,50
0,49
0,47
0,46
0,45
0,44
0,43
Antal opgaver
23
24
25
30
40
45
50
55
60
70
SEM
1)
0,42
0,41
0,40
0,37
0,32
0,30
0,28
0,27
0,26
0,24
1) Standard Error of Measurement (SEM)
Kilde: Styrelsen for It og Læring
Der er afsat 45 minutter til hver test. På de 45 minutter får eleverne opgaver
i alle tre profilområder, der er knyttet til den enkelte test. Eleverne kan i gen-
nemsnit nå at besvare 19 opgaver i hvert profilområde. Antallet af opgaver
eleverne kan nå at besvare varierer fra i gennemsnit 15 til 25 opgaver af-
hængig af test og klassetrin (Tabel 3.4).
Opgavebanken i de nationale test består både af dikotome og polytome op-
gaver. En polytom opgave består af flere delopgaver således at eleven kan
score 0, 1, 2, 3,
… rigtige. I profilo råde i da sk læs i g sprogforståelse
findes udelukkende dikotome opgaver i opgavebanken. Andre profilområder
indeholder både dikotome og polytome opgaver. Fx indeholder opgaveban-
ken i fysik/kemi og i engelsk en del polytome opgaver.
Det gennemsnitlige antal delopgaver eleverne når at besvare i hvert profil-
område er 23. Antallet af delopgaver eleverne kan nå at besvare varierer fra i
gennemsnit 17 til 36 delopgaver afhængig af test og klassetrin (Tabel 3.4).
31
Dikotome opgaver har to svarmuligheder, fx ja/nej eller rigtigt/forkert.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0039.png
Side 38 af 145
Tabel 3.4 Det gennemsnitlige antal opgaver/delopgaver
1)
eleverne når at
besvare i de obligatoriske test i skoleåret 2017/2018.
Test
Dansk læsning 2. klasse
Dansk læsning 4. klasse
Dansk læsning 6. klasse
Dansk læsning 8. klasse
Matematik 3. klasse
Matematik 6. klasse
Matematik 8. klasse
Engelsk 4. klasse
Engelsk 7. klasse
Fysik/kemi 8. klasse
Samlet pr. profilområde
1) Delopgave er et subitem i et polytomt item
Kilde: Styrelsen for It og Læring
Profilområde 1
24/24
21/21
20/20
19/19
16/19
15/19
17/17
22/29
17/24
18/33
Profilområde 2
24/24
22/22
21/21
19/19
16/19
15/19
16/17
22/29
18/22
18/33
19/23
Profilområde 3
22/29
20/26
18/24
17/21
19/19
18/18
17/17
25/29
18/25
18/36
Med 19 dikotome opgaver er den mindst mulige statistiske usikkerhed på
0,46 logit, mens der med 23 dikotome opgaver ikke kan opnås en statistisk
usikkerhed på mindre end 0,42 (Tabel 3.3).
Den gennemsnitlige statistiske usikkerhed i de nationale test på 0,46 er såle-
des ikke langt fra det mest optimale på 0,42 (Tabel 3.3) med det givne antal
opgaver.
For yderligere at vurdere om en statistisk usikkerhed på 0,46 ved 23 delopga-
ver er stor eller lille, ka følge de he tes fra otatet ”O opgavetyper og
usikkerhed i de atio ale test” Sve d Krei er, ju i
7
32
):
”Tallet
0,45 kan derfor bruges som en benchmark værdi, hvis man både vil
vurdere, hvor godt den adaptive algoritme har fungeret for en adaptiv test
med 20 dikotome opgaver, og hvor godt en ikke-adaptiv test fungerer for ele-
ver med forskellige grader af dygtighed. Det kan for eksempel beregnes, at
en ikke-adaptiv test med 20 opgaver, hvor sværhedsgraden er ligeligt fordelt
fra -2,5 til +2,5, i bedste fald vil resultere i SEM = 0,54 og i værste fald (for
meget dygtige og meget svage elever) med SEM = 0,82. Altså dårligere end
en fungerende adaptiv test.”
”Eller
med andre ord: Hvis den adaptive algoritme fungerer efter hensigten
vil usikkerheden på elevdygtigheden i en adaptiv test altid være mindre end
usikkerheden i almindelige ikke-adaptive test. Hvor meget mindre afhænger
32
https://www.uvm.dk/folkeskolen/elevplaner-nationale-test--trivselsmaaling-og-sprog-
proever/nationale-test/om-de-nationale-test
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0040.png
Side 39 af 145
af opgavernes sværhedsgrader og af elevernes dygtighed.”
33
Antallet af opgaver og dermed den tid, der afsættes til en test, er helt cen-
tralt når den statistiske usikkerhed skal vurderes. Adaptive test giver mulig-
hed for, at mindske denne usikkerhed mest muligt.
Den statistiske usikkerhed og elevdygtigheden
Den observerede statistiske usikkerhed på elevernes dygtighed er generelt
mindst for elever med en dygtighed i midten af skalaen og størst for de dyg-
tigste elever.
Tabel 3.5 viser den gennemsnitlige statistiske usikkerhed på elevdygtigheden
i dansk læsning 8. klasse og matematik i 6. klasse for elever i hvert af de fem
niveauer af den normbaserede skala
34
.
Bilag 3.1 viser tabeller over SEM for alle de obligatoriske test foråret 2018.
Tabel 3.5 Den statistiske usikkerhed (logit) på den estimerede elevdygtig-
hed skoleåret 2017/2018 i forhold til elevdygtigheden
Elevdygtighed på femtrins skalaen
1)
Fag
Dansk
læsning
8. klasse
Matema-
tik 6.
klasse
Profilområde
Sprogforståelse
Afkodning
Tekstforståelse
Tal og algebra
Geometri
Statistik og
sandsynlighed
1) I formidlingen til elever og forældre bliver resultaterne på 100-skalaen omsat til en fem-trins skala: En del under
gennemsnittet (1-10), under gennemsnittet (11-35), gennemsnittet (35-65), over gennemsnittet (66-90), en del
over gennemsnittet (91-100)
Kilde: Styrelsen for It og Læring
1-10
0,49
0,49
0,44
0,45
0,45
0,50
11-35
0,49
0,49
0,38
0,42
0,42
0,50
36-65
0,50
0,50
0,45
0,45
0,46
0,51
66-90
0,50
0,51
0,51
0,48
0,51
0,53
91-100
0,56
0,59
0,55
0,53
0,56
0,60
I fx sprogforståelse i 8. klasse er den gennemsnitlige statistiske usikkerhed på
0,50 for elever med en dygtighed midt på dygtighedsskalaen, mens den er
0,56 for de allerdygtigste elever.
33
Svend Kreiner (juni 2017).
https://www.uvm.dk/-/media/fi-
ler/uvm/udd/folke/pdf17/sep/170913-om-opgavetyper-og-usikkerhed-i-de-nationale-
test.pdf
34
Målingerne af elevdygtigheden og SEM foregår på logit-skalaen. I formidlingen af resulta-
terne til lærerne omregnes resultaterne til den normbaserede percentilskala (1-100). I for-
midlingen til elever og forældre bliver resultaterne på 100-skalaen omsat til en fem-trins
skala: En del under gennemsnittet (1-10), under gennemsnittet (11-35), gennemsnittet (35-
65), over gennemsnittet (66-90), en del over gennemsnittet (91-100)
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0041.png
Side 40 af 145
Generelt er den statistiske usikkerhed størst for de dygtigste elever, dvs. for
elever med et testresultat en del over gennemsnittet. Manglen på svære op-
gaver i opgavebanken er givetvis en medvirkende årsag til dette. Hvis der
mangler svære opgaver i opgavebanken, vil de dygtigste elever kunne opleve
at få opgaver, der ligger et stykke væk fra deres dygtighed. Hermed bliver
den statistiske usikkerhed på elevens beregnede dygtighed større end, hvis
der hele tiden var opgaver med en sværhedsgrad, der passede til elevens
dygtighed.
Den statistiske usikkerhed og sikkerhedsintervaller
For hver elevs testresultat kan der beregnes et såkaldt sikkerhedsinterval. I
forbindelse med beregning af sikkerhedsintervaller for gennemsnit, fx for en
klasses gennemsnit eller en skoles gennemsnit, anvendes ofte et 95 procent
sikkerhedsinterval. Et 95 procent sikkerhedsinterval er givet ved
gennemsnit
± 1,96*SE.
Til angivelse af sikkerhedsinterval for et enkelt individs testresultat anvendes
testresultat ± 1*SEM,
hvilket ca. svarer til et 68 procent sikkerhedsinterval.
Begge usikkerhedsintervaller er beregnet
35
på logit-skalaen baseret på den
enkelte elevs beregnede statistiske usikkerhed og herefter omsat til og præ-
senteret på såvel den normbaserede (1-100) skala som på den kriteriebase-
rede skala. Usikkerhedsintervallet på den oprindelige dygtighedsskala, logit-
skalaen, er blot ± 1*SEM eller ± 1,96*SEM for henholdsvis et 68 procent og
et 95 procent sikkerhedsinterval.
Den beregnede elevdygtighed er den mest sandsynlige, men det kan ikke af-
vises med en vis sandsynlighed, at elevens dygtighed afviger fra dette. Des
længere væk fra elevens estimerede dygtighed des mindre sandsynligt er
denne værdi.
Længden (L) af sikkerhedsintervallet på den normbaserede skala angiver af-
standen fra elevens estimerede testresultat til nedre/øvre grænse i interval-
let. Sikkerhedsintervallets samlede længde er således 2*L.
68 procent og 95 procent sikkerhedsintervallet udtrykt på den normbaserede
er på henholdsvis ± 12 og ± 22 point (Tabel 3.6)
36
. Dette svarer til, at en elevs
testresultat med stor sandsynlighed ligger i dette interval omkring det esti-
merede testresultat. Det er vigtig at understrege, at elevens beregnede score
35
Beregningen af usikkerhedsintervaller er kun foretaget for elever, der har afsluttet testen i
teststatus ’grøn’, dvs hvor de statistiske usikkerhed på eleve s esti erede dygtighed er
kommet under 0,55 logit, eller eleven har besvaret mindst 30 opgaver i hvert af de tre pro-
filområder.
Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er
helt symmetriske
36
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0042.png
Side 41 af 145
er den mest sandsynlige værdi, men der er en vis sandsynlighed for, at den
reelle score afviger fra denne.
Tabel 3.6 Længden af sikkerhedsintervallet i forhold til elevernes dygtighed
på den normbaserede (1-100) skala. Samlet for alle de obligatoriske test.
Skoleåret 2017/2018
Usikkerheds-
interval
±1*SEM
1)
±1,96*SEM
2)
Samlet
12
22
1: 1-10
3
7
Elevdygtighed på femtrins skalaen
2: 11-35
11
21
3: 36-65
16
28
4: 66-90
12
23
5: 91-100
4
10
1) tilnærmelsesvist et 68 % sikkerhedsinterval
2) tilnærmelsesvist et 95 % sikkerhedsinterval
Note: Der er tale om en tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske
Kilde: Styrelsen for It og Læring
Målingerne af elevdygtigheden og den statistiske usikkerhed foregår på en
såkaldt logit-skala. På denne logit-skala er den statistiske usikkerhed på elev-
dygtighederne størst for de dygtigste elever og mindst for elever med en
dygtighed på midten af skalaen (Tabel 3.5).
Formidlingen af resultaterne til lærerne har siden starten i 2010 foregået på
percentilskalaen, 1-100. Omregning fra den grundlæggende logit-skala til
percentilskalaen har nogle uheldige egenskaber. Mange elever har en bereg-
net dygtighed midt på logit-skalaen med en relativt lille forskel imellem sig.
Ved omregning til percentilskalaen vil en given forskel i dygtighed strække sig
over mange percentiler på midten og over færre i yderområderne af dygtig-
hedsskalaen. En beregnet statistisk usikkerhed på dygtigheden hos elever
med en dygtighed på midten af skalaen vil derfor strække sig over flere per-
centiler end en tilsvarende statistisk usikkerhed hos elever i yderområderne
af dygtighedsskalaen. Derfor fremstår den statistiske usikkerhed på elevdyg-
tigheden formidlet på percentilskalaen størst for elever omkring gennemsnit-
tet, hvilket reelt er i modstrid med den faktiske bagvedliggende statistiske
usikkerhed.
Fx er 68 procent sikkerhedsintervallet for en elev, der har opnået et testre-
sultat på 50 lig med ± 16, dvs sikkerhedsintervallet for denne elevs testresul-
tat kunne være [34 - 66], mens 68 procent sikkerhedsintervallet for en elev,
der har opnået et testresultat på 95 er lig med ± 4, dvs sikkerhedsintervallet
for denne elevs testresultat kunne være [91 - 99].
Formidlingen af resultaterne til elever og forældre foregår på en femtrins
skala, hvor netop det midterste interval (gennemsnittet) er bredest. Dette
opvejer til dels denne uheldige konsekvens af en omregning til en percentil-
skala. Den skala, der skal anvendes til fortsat formidling af elevernes resulta-
ter, bør dog genovervejes.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0043.png
Side 42 af 145
Tilsvarende kan der beregnes sikkerhedsintervaller på den kriteriebaserede
skala (Tabel 3.7).
Tabel 3.7 Sikkerhedsintervallet på den kriteriebaserede skala. Samlet for
dansk læsning og matematik. Skoleåret 2017/2018
Eleve s testresultat ligger
ed stor sa dsy lighed i …
… det bereg ede
faglige niveau eller
niveauet lige over
eller lige under
7%
54 %
… det bereg ede faglige
niveau eller enten ni-
Usikkerheds-
interval
±1*SEM
1)
±1,96*SEM
2)
… det bereg ede fag-
lige niveau
28 %
9%
veauet lige under/over
(ikke både og)
65 %
37 %
1) tilnærmelsesvist et 68 % sikkerhedsinterval
2) tilnærmelsesvist et 95 % sikkerhedsinterval
Kilde: Styrelsen for It og Læring
Samlet gælder, at 28 procent af elevernes testresultater med 68 procent
sandsynlighed sikkerhed ligger indenfor det beregnede faglige niveau, mens
65 procent af elevernes testresultater ligger indenfor det beregnede niveau
eller enten niveauet lige under eller niveauet lige over (Tabel 3.7). Således
ligger 93 procent af elevernes testresultater med den beregnede statistiske
sikkerhed indenfor det beregnede faglige niveau eller i nabo kategorien. De
resterende 7 procent af elevernes testresultater har en større usikkerhed,
der betyder, at elevens faktiske niveau ikke kan afvises at ligge i både ni-
veauet under og i niveauet over det estimerede niveau.
Bilag 3.1 indeholder sikkerhedsintervallerne udtrykt på den normbaserede
skala for alle de obligatoriske test i skoleåret 2017/2018. I bilaget findes også
tabeller med sikkerhedsintervallerne på den kriteriebaserede skala for de ob-
ligatoriske test i dansk læsning og matematik i 2017/2018.
Reliabiliteten
Reliabiliteten er et udtryk for testens evne til at rangordne eleverne efter
elevdygtighed på korrekt måde. Reliabiliteten kan også forklares ved, hvor
god en test er til at adskille elever med forskellig dygtighed.
Reliabiliteten er belyst på forskellig vis af BUVM
37
. I 2016 blev beregnet en
såkaldt test-retest korrelation. Beregningerne var baseret på elevers testre-
sultater fra de frivillige test. I den frivillige testperiode er det muligt at tage
den samme test to gange med få dages mellemrum. Gentagelsen af en test
skal ske, uden at eleven kan huske det første testforløb, og uden at eleven
har lært af den første test eller lært nyt mellem de to testafviklinger. Dette er
37
https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf17/jan/170110-uddybende-bilags-
notat-om-de-nationale-tests-maaleegenskaber.pdf
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0044.png
Side 43 af 145
naturligvis vanskelligt i pædagogiske test herunder i de nationale test. Desu-
den kan elevers testadfærd, motivation, koncentration mv. spille ind på ele-
vens testresultat. Derfor skal disse test-retest resultater vurderes med stor
forsigtighed. BUVM har gennemført analyser af test-retest på en specifik
skole, hvor læreren undrede sig over store udsving i nogle af elevernes resul-
tater i to gentagne frivillige test afholdt med syv dages mellemrum i efteråret
2014. Gennemgangen af elevernes testforløb viste, at en stor del af eleverne
i andet forsøg besvarede langt flere opgaver uden at anvende længere tid. I
elevernes andet forsøg besvaredes næsten 50 procent flere opgaver end ele-
ver på landsplan i gennemsnit gør. Denne forskel i testadfærd kan betyde, at
det er vanskelligt at sammenholde en elevs to test (test-retest).
I 2016 foretog BUVM ligeledes test-retest simuleringer, hvor 5.000 elever
med forskellig dygtighed fik simuleret et elevforløb i testsystemet to gange.
Disse simuleringer er uafhængig af testadfærd og korrelationen mellem de
simulerede testresultater er derfor en beregning af den teoretiske test-retest
korrelation, som man ville kunne observere, hvis testen fungerede fuldstæn-
digt som forventet. Simuleringerne måler således om testsystemet og tilhø-
rende opgavebank kan genskabe rangordningen af elevernes testresultater.
I Tabel 3.8 er disse resultater vist for dansk læsning 8. klasse og matematik 6.
klasse. Samtlige resultater er tilgængelige på
https://www.uvm.dk/folkesko-
len/elevplaner-nationale-test--trivselsmaaling-og-sprogproever/nationale-
test
Tabel 3.8 Reliabiliteten i de nationale test målt ved test-retest og
simuleringer
Test
Dansk
læsning
8. klasse
Matematik
6. klasse
Profilområde
Sprogforståelse
Afkodning
Tekstforståelse
Tal og algebra
Geometri
Statistik og sandsynlighed
Test-retest
1)
0,66
0,85
0,72
0,63
0,65
0,68
Simuleringer
2)
0,84
0,87
0,88
0,89
0,86
0,89
1) Korrelation mellem elevdygtigheden fra to frivillige test efteråret 2015
2) Korrelation mellem elevdygtigheden bestemt ved simuleringer i testsystemet
Kilde: Styrelsen for It og Læring
Baseret på klassisk test teori kan reliabiliteten defineres som forholdet mel-
lem variansen på den sande score og variansen på den observerede score.
Udgangspunktet er:
X=T+E
hvor X er den observerede elevscore, T er den sande elevscore og E er måle-
fejlen.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0045.png
Side 44 af 145
Under visse forudsætninger er variansen på den observerede elevscore (X)
lig summen af variansen på den sande score (T) og variansen på målefejlen
(E)
38
:
2
2
2
����
����
= ����
����
+ ����
����
2
����
����
=
2
=
����
����
Reliabiliteten defineres som forholdet mellem variansen på den sande score
og variansen på den observerede score:
����
��������′
2
����
����
2
����
����
I RUMM
39
beregnes et indeks for reliabiliteten:
Person Separation Index
40,41
.
Person separation indeks (PSI) beregnes som:
2
hvor
θ
er elevens estimerede dygtighed og
����
����
beregnes som variansen mel-
lem elevernes dygtigheder blandt de elever, der gennemfører en test.
2
����
����
er usikkerheden på den enkelte elevs beregnede dygtighed og betegnes
SEM
2
, hvor SEM er Standard Error of Measurement.
����
��������
=
2
����
����
2
����
����
Reliabiliteten afhænger således ikke kun af SEM men også af spredningen af
elevernes dygtighed i den pågældende test. En lille spredning mellem elever-
nes dygtighed giver en lavere reliabilitet, mens en større spredning i elever-
nes dygtighed vil give en højere reliabilitet. Reliabiliteten er således gæl-
dende for den aktuelle population og er vanskellig at sammenligne med re-
liabiliteten fra andre test og andre populationer med en anden spredning i
elevdygtighederne.
I Tabel 3.9 er reliabiliteten beregnet for dansk læsning 8. klasse og matema-
tik 6. klasse. I beregningerne er anvendt gennemsnittet af SEM på elevdygtig-
hederne i det pågældende profilområde (Tabel 3.2).
38
Davidshofer, Kevin R. Murphy, Charles O. (2005): Psychological testing: principles and ap-
plication. Pearson/Prentice Hall.
RUMM Laboratory Pty Ltd.
39
40
Persons Separation Index udtrykker forholdet mellem usikkerheden på elevdygtigheden
på den ene side og spredningen mellem elevernes dygtighed på den anden side
Karl Bang Christensen, Svend Kreiner, Mounir Mesbah (edt): Rasch Models in Health.
(2013)
41
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0046.png
Side 45 af 145
Tabel 3.9 Testenes reliabilitet i skoleåret 2017/2018
Fag
Dansk
læsning
8. klasse
Matematik
6. klasse
Profilområde
Sprogforståelse
Afkodning
Tekstforståelse
Tal og algebra
Geometri
Statistik og sandsynlighed
1) Person Separation Index (PSI)
2) Korrelation mellem elevdygtigheden bestemt ved simuleringer i testsystemet
Kilde: Styrelsen for It og Læring
PSI
1)
0,83
0,85
0,84
0,83
0,81
0,84
Simuleringer
2)
0,84
0,87
0,88
0,89
0,86
0,89
Reliabiliteten beregnet ved Person Separation Index er næsten på niveau
med de simulerede test-retest korrelationer (Tabel 3.9).
I Bilag 3.2 er reliabiliteten beregnet for alle de obligatoriske test i skoleåret
2017/2018.
Der findes forskellige anbefalinger for niveauet af reliabilitet. En anvendt
tommelfingerregel er en reliabilitet på mindst 0,80. I Streiner
42
anføres, at en
optimal reliabilitet ikke bør være under 0,70. I Stewart
43
accepteres værdier
helt ned til 0,50 dog som værende evidens for tilfredsstillende reliabilitet.
I dansk læsning ligger reliabiliteten i intervallet 0,74
0,91. I sprogforståelse
(profilområde 1) i 2. og 6. klasse ligger reliabiliteten under 0,80. I alle øvrige
test i dansk læsning ligger reliabiliteten på mindst 0,80.
I matematik ligger reliabiliteten i intervallet 0,78
0,89. I geometri (profilom-
råde 2) i 3. klasse ligger reliabiliteten under 0,80. I alle øvrige test i matema-
tik ligger reliabiliteten på mindst 0,80.
I engelsk ligger reliabiliteten i intervallet 0,79
0,91. I læsning (profilområde
1) i 7. klasse ligger reliabiliteten under 0,80. I alle øvrige test i engelsk ligger
reliabiliteten på mindst 0,80.
I fysik/kemi 8. klasse ligger reliabiliteten i intervallet 0,66
0,70. Reliabilite-
ten ligger således relativt lavt i alle tre profilområder til trods for, at spred-
ningen, SEM, på elevdygtighederne også er lille. Den lave reliabilitet skyldes
således en meget begrænset spredning i elevernes dygtighed i testen i fy-
sik/kemi.
42
Streiner, D. L., G. R. Norman (1995): Health Measurement Scales
A Practical Guide to
Their Development and Use. Oxford University Press
Steward, A. L. (1990): Psychometric Considerations in Functional Status Instruments. In
Lipkin Jr., M. Functional Status Measurement in Primary Care. Springer-Verlag, NY
43
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0047.png
Side 46 af 145
I 23 ud af 30 profilområder ligger reliabiliteten, i form af Person Separation
Index, over 0,80, mens de resterende syv profilområder har en lavere reliabi-
litet. Specielt er reliabiliteten lav i fysik/kemi.
Forslag til forbedringer af den statistiske sikkerhed
Antal opgaver
Den statistiske sikkerhed (SEM) kan primært forbedres ved at øge antallet af
opgaver den enkelte elev skal besvare (Tabel 3.3). Antallet af point (lig med
antal delopgaver) i folkeskolens digitale prøver i 9. klasse i matematik uden
hjælpemidler, biologi, geografi m.fl. ligger omkring 50. Med 50 dikotome
items kan SEM bringes ned i nærheden af 0,28 (Tabel 3.3). Antallet af opga-
ver hænger sammen med tiden til den enkelte test.
Polytome opgaver
Øget anvendelse af polytome opgaver, hvor eleverne svarer på flere diko-
tome delopgaver, vil også have en positiv effekt på SEM. Den statistiske usik-
kerhed på elevens testresultat er en funktion af den såkaldte test informa-
tion
44
. Des større test information des mindre statistisk usikkerhed. Test in-
formationen er summen af informationen fra elevens besvarelser af de en-
kelte opgaver. For dikotome opgaver (rigtig/forkert) er den maksimale infor-
mationsværdi på 0,25, og denne opnås, når opgavens sværhedsgrad er lig
elevens dygtighed.
Beregninger viser
45,46
, at polytome opgaver med
k
del-opgaver kan give op til
k
2
gange den information som
k
dikotome opgaver kan give. Øget anven-
delse af polytome opgaver kan derfor mindske den statistiske usikkerhed på
den beregnede elevdygtighed.
Sammenhængen mellem opgavetyper og den statistiske usikkerhed i de nati-
onale test er beskrevet af Svend Kreiner
22
. Af rapporten fremgår også, at der
er forskel på de polytome opgavers informationsværdi og at denne varierer
med opgavetypen.
Efter hver opgaveafprøvning modtager de faglige opgavekommissioner der-
for en opgørelse, der viser den beregnede opgaveinformation for alle de
44
www.uvm.dk/-/media/filer/uvm/udd/folke/pdf17/sep/170913-om-opgavetyper-og-usik-
kerhed-i-de-nationale-test.pdf
Henrik Albeck et al: Optimizing the precision in estimating student abilities i
’Da ish Na-
tio al Tests’.
Seventh International Conference on Probabilistic Models for Measurement
Developments with Rasch Models, Perth 2018
Svend Kreiner: On item information and usefulness of partial credit items. Seventh Inter-
national Conference on Probabilistic Models for Measurement Developments with Rasch
Models, Perth 2018
45
46
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0048.png
Side 47 af 145
Rasch godkendte opgaver. Dette kan bruges til vurdering af hvilke opgavety-
per, der giver mest statistisk information.
Justering af algoritmen
Den adaptive algoritme i testsystemet kan forbedres ved i højere grad end i
dag, at vælge opgaver med den størst mulige opgaveinformation. I dag væl-
ger den adaptive algoritme i testsystemet den næste opgave så den bedst
muligt passer til elevens dygtighed.
Hvis opgaveparametrene for opgaverne i opgavebanken suppleres med op-
gavens informationsværdi, da kan algoritmen justeres således, at opgaven
med den største informationsværdi, i forhold til hvor elevens estimerede
dygtighed er, vælges
47
.
Flere svære opgaver
Den statistiske usikkerhed er størst for de dygtigste elever (Tabel 3.5). Mang-
len på svære opgaver i opgavebanken har en medvirkende årsag til dette.
Når der ikke er tilstrækkeligt med svære opgaver, der matcher elevernes
dygtighed, falder den samlede test information og den statistiske usikkerhed
stiger.
47
www.uvm.dk/-/media/filer/uvm/udd/folke/pdf17/sep/170913-om-opgavetyper-og-usik-
kerhed-i-de-nationale-test.pdf
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 48 af 145
4
Notat 4 Opgavebanken og opgavernes sværhedsgrad
Sammenfatning
I perioden maj 2008 til januar 2019 har der været afholdt 14 opgaveaf-
prøvninger
I foråret 2019 var der 10.969 opgaver i drift i opgavebanken
Alle nye opgaver, der tilføjes opgavebanken, passer til Rasch-modellen
Der er mangel på svære opgaver til de dygtigste elever i flere af profil-
områderne
Analyser fra 2018 viser, at under 10 procent af de opgaver, der genaf-
prøves i forbindelse med opgaveafprøvningerne, har ændret deres
sværhedsgrad over tid. Analyser fra 2019 viser, at 16 procent af de op-
gaver, der genafprøves i forbindelse med opgaveafprøvningerne, har
ændret deres sværhedsgrad over tid
Analyser hidtil viser således ingen generel tendens til, at opgavernes
sværhedsgrad ændres over tid
Opgaver med statistisk signifikant ændret sværhedsgrad får denne op-
dateret i opgavebanken
Der er forskel på opgavernes estimerede sværhedsgrad når disse bereg-
nes på baggrund af de adaptive testforløb (obligatoriske test) og når de
beregnes i lineære afprøvningsforløb (opgaveafprøvning)
Andelen af opgaver, hvor den estimerede sværhedsgrad afviger mellem
opgaveafprøvningerne og testforløbene ændres generelt ikke i perioden
fra 2010 til 2018
Afvigelsen i den estimerede sværhedsgrad stiger ikke des længere tid,
der er mellem testafholdelse og opgaveafprøvning
Afvigelsen i den estimerede sværhedsgrad er størst for de svære opga-
ver
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0050.png
Side 49 af 145
Indledning
I evalueringen af de nationale test skal følgende spørgsmål besvares:
1. Regner de nationale test rigtigt?
1a. Herunder skal det klarlægges om opgavernes sværhedsgrader stadig er
korrekt og
1b. om opgaverne passer til Rasch-modellen.
I notatet redegøres for hvor mange opgaver, der er i opgavebanken, hvordan
opgaver afprøves og besvarelserne fra opgaveafprøvningerne statistisk ana-
lyseres. Opgavebankens sammensætning af opgaver i forhold til opgavernes
sværhedsgrad og i forhold til elevernes dygtighed beskrives. I notatet rede-
gøres for, hvordan det undersøges, om opgavernes sværhedsgrad ændres
over tid. Endelig belyses forskellen i opgavernes sværhedsgrad når disse fast-
sættes ud fra data indsamlet under henholdsvis lineær opgaveadministration
og under adaptive testafviklinger samt betydningen for elevernes beregnede
dygtighed.
Formålet er således at beskrive, hvordan opgaver tilføjes opgavebanken,
hvordan opgavernes sværhedsgrader fastlægges samt at vurdere om opga-
vernes sværhedsgrader er ændret over tid eller stadig er korrekte.
Notatet indeholder følgende afsnit:
Opgaveafprøvningen
Opgavebanken
Stabiliteten af opgavernes sværhedsgrad over tid
Forskellen i opgavernes sværhedsgrad baseret på lineær og adaptiv test-
administration
Forskel i beregnet elevdygtighed
Opgaveafprøvningen
Opgaverne udarbejdes af faglige opgavekommissioner. Alle opgaver i opga-
vebanken er afprøvet af elever på det klassetrin, testen er målrettet til. I dag
bliver alle nye opgaver afprøvet på ca. 700 elever.
Afprøvning af nye opgaver (udskiftning af opgaver) er omtalt i lov om folke-
skolen
48
§13:
”Stk. 4.
Før en test tages i brug og ved udskiftning af opgaver, som indgår i en
test, kan undervisningsministeren udpege repræsentative grupper af elever til
afprøvning
af teste es releva s og pålidelighed .v.”
48
Bekendtgørelse af lov om folkeskolen (LBK nr 1510) af 14. dec 2017
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0051.png
Side 50 af 145
Skoler, der skal deltage i opgaveafprøvningen, udvælges tilfældigt blandt lan-
dets folkeskoler. Udvælgelsen sker stratificeret efter skolens beliggenhed
(Øst- eller Vestdanmark) og størrelse (under eller over 350 elever på skolen).
Opgaveafprøvningen foregår som en lineær test, hvor eleverne får 2-3 sæt
på ca. 30 opgaver i hvert sæt. Et sæt af opgaver kan besvares på 45 minutter.
I forbindelse med afprøvningen af nye opgaver til opgavebanken medtages
endvidere et antal af de eksisterende og tidligere godkendte opgaver fra op-
gavebanken. Dette sikrer, at der sker et overlap mellem blokkene af opgave-
afprøvninger, således at nye opgavers sværhedsgrad kan indplaceres på den
eksisterende skala. Disse overlapningsopgaver kaldes link-opgaver.
Opgaverne i hvert sæt randomiseres, så opgaverne kommer i forskellig ræk-
kefølge til de enkelte elever.
Afprøvning af opgaver med henblik på anvendelse i de nationale test er fore-
gået siden maj 2008. Der har i alt været afholdt 14 opgaveafprøvninger i pe-
rioden maj 2008 til januar 2019.
Bilag 4.1 indeholder tabeller, der viser, hvornår opgavebankens
49
opgaver er
afprøvet. De fleste af opgavebankens opgaver er afprøvet i perioden fra 2008
til 2015. I perioden 2015 til 2018 er der primært afprøvet opgaver til de nye
test og profilområder i matematik 3., 6. og 8. klasse samt i engelsk 4. klasse. I
januar 2019 er der desuden afprøvet 1.552 opgaver fordelt på næsten alle
test og profilområder.
På baggrund af elevernes besvarelser fra opgaveafprøvningen foretages en
statistisk analyse, hvor det undersøges om opgaverne passer til Rasch-mo-
dellen. Opgaver, der ikke passer til Rasch-modellen fjernes. De resterende
opgaver eteg es ’Ras h-godke dte’ og tilføjes opgave a ke
50
.
Alle analyser af besvarelser fra opgaveafprøvningerne foretages i analysepro-
grammet RUMM
51
. Bilag 4.2 viser skærmdumps fra analyserne af opgaver af-
prøvet i januar 2018. Alle nye opgaver, der tilføjes opgavebanken, passer til
Rasch-modellen.
49
Der er kun medtaget den del af opgavebanken, der anvendes af de obligatoriske test, dvs
dansk læsning, matematik, engelsk samt fysik/kemi
50
https://www.uvm.dk/-/media/filer/uvm/udd/folke/pdf19/mar/190315-opgaveafprovning-
og-beregning-af-opgavernes-svarhedsgrad-i-de-nationale-test.pdf
www.rummlab.com.au
51
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0052.png
Side 51 af 145
Opgavebanken
Under afvikling af de nationale test foråret 2019 var der i alt 10.969 opgaver i
drift i opgavebanken (Tabel 4.1).
Tabel 4.1 Antal opgaver i opgavebanken foråret 2019
Fag og klassetrin
Dansk læsning 2. klasse
Dansk læsning 4. klasse
Dansk læsning 6. klasse
Dansk læsning 8. klasse
Matematik 3. klasse
Matematik 6. klasse
Matematik 8. klasse
Engelsk 4. klasse
Engelsk 7. klasse
Fysik/kemi 8. klasse
Biologi 8. klasse
Geografi 8. klasse
Dansk som andetsprog 5. klasse
Dansk som andetsprog 7. klasse
I alt
Kilde: Styrelsen for It og Læring
Antal opgaver i drift
729
788
773
821
706
1.025
706
787
640
757
764
858
756
859
10.969
Opgavebankens sammensætning af opgaver i forhold til opgavernes estime-
rede sværhedsgrad ses i Bilag 4.3.
I dansk læsning er der relativt få svære opgaver i profilområderne
afkodning
og
tekstforståelse.
Dette gør sig ligeledes gældende i det nye profilområde
statistik og sandsynlighed
i matematik 3. og 6. klasse samt i engelsk.
Opgavebankens sammensætning af lette, middelsvære og svære opgaver i
forhold til elevgruppens dygtighed kan illustreres med de såkaldte person-
item plot, hvor fordelingen af elevernes dygtighed sammenholdes med for-
delingen af opgavernes sværhedsgrad (Figur 4.1-4.3).
x-aksen på person-item plottene viser logit-skalaen. Såvel elevernes dygtig-
hed som opgavernes sværhedsgrad måles på samme skala (logit-skala).
y-aksen på person-item plottene viser antallet af elever (opad) med en given
dygtighed og antallet af opgaver (nedad) med en given sværhedsgrad.
Person-item plot for dansk læsning 8. klasse viser, at der mangler svære op-
gaver til de dygtigste elever i såvel
afkodning
(Figur 4.2) som i
tekstforståelse
(Figur 4.3).
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0053.png
Side 52 af 145
Figur 4.1 Dansk læsning 8. klasse
sprogforståelse
Figur 4.2 Dansk læsning 8. klasse
afkodning
Figur 4.3 Dansk læsning 8. klasse
tekstforståelse
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 53 af 145
Manglen på svære opgaver gør det primært vanskelligt at skelne de dygtigste
og de allerdygtigste elever ved hjælp af testene. Endvidere bliver den statisti-
ske usikkerhed ikke så lille, som den kunne blive, hvis der var tilstrækkeligt
med opgaver, der passede til elevernes dygtighed.
I Bilag 4.4 er medtaget person-item plot for alle profilområder for de obliga-
toriske nationale test foråret 2018.
Person-item figurerne viser, at der mangler svære opgaver i flere af profilom-
råderne.
Stabiliteten af opgavernes sværhedsgrad over tid
I forbindelse med afprøvningen af nye opgaver til opgavebanken medtages
hver gang et antal af de eksisterende og tidligere godkendte opgaver fra op-
gavebanken. Dette sikrer, at der sker et overlap mellem blokkene af opgave-
afprøvninger, således at nye opgavers sværhedsgrad kan indplaceres på den
eksisterende skala. Disse overlapningsopgaver kaldes link-opgaver. Typisk
udvælges 5-10 link-opgaver ved hver opgaveafprøvning.
Anvendelsen af link-opgaver giver endvidere mulighed for, at undersøge om
disse opgavers sværhedsgrad er ændret siden tidligere opgaveafprøvninger.
For disse opgaver foreligger der nemlig elevbesvarelser fra flere perioder.
I Rasch analysen foretages denne analyse i en Diffential Item Functioning
(DIF) analyse i RUMM. Der testes for DIF mellem nyeste og tidligere afprøv-
ningsperioder.
I analyserne fra opgaveafprøvning i januar 2018 er der testet for periode DIF
mellem afprøvningsperioden i januar 2018 og tidligere afprøvningsperioder
(maj 2008 til september 2014) samlet.
I de analyserede profilområder blev der i alt anvendt 208 link-opgaver. 17 (8
procent) af disse udviste statistisk signifikant periode DIF. Disse opgaver er
derfor tildelt en ny sværhedsgrad (item split i RUMM) i opgavebanken i sko-
leåret 2018/2019.
I Bilag 4.5 er opsummeret de statistiske analyser af periode DIF for de analy-
serede link-opgaver knyttet til profilområderne, hvor der afholdes obligatori-
ske test.
Analyser af opgaveafprøvningen fra januar 2019 viser, at 48 (16 procent) ud
af 296 link-opgaver udviser statistisk signifikant periode DIF. Disse opgaver er
derfor tildelt en ny sværhedsgrad (item split i RUMM) i opgavebanken i sko-
leåret 2019/2020.
Opgavernes sværhedsgrad justeres således efter hver opgaveafprøvning. Det
er kun opgaver, hvor der er konstateret statistisk signifikant periode DIF, der
får justeret deres opgaveparametre.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0055.png
Side 54 af 145
Link-opgaverne udvælges blandt opgaver, der ligger på midten af skalaen for
opgavernes sværhedsgrad. Analyserne kan således ikke umiddelbart bruges
til at udtale sig om, hvorvidt meget lette eller meget svære opgaver har æn-
dret deres sværhedsgrad over tid.
Forskellen i opgavernes sværhedsgrad baseret på lineær og adaptiv testad-
ministration
Sværhedsgraderne på opgaverne i opgavebanken er siden testenes opstart i
maj 2008 estimeret på baggrund af opgaveafprøvninger, der foregår som en
lineær test.
Elevbesvarelser fra obligatoriske test kan også anvendes til at estimere opga-
vernes sværhedsgrad. Dette har Jeppe Bundsgaard og Svend Kreiner
52
(JB &
SK) gjort for dansk læsning 8. klasse på baggrund af elevernes besvarelser i
de obligatoriske test foråret 2017.
Data fra elevbesvarelser i obligatoriske test er baseret på adaptive forløb,
hvor elever, der svarer rigtigt på en opgave, får stillet en sværere opgave næ-
ste gang, og elever, der svarer forkert på en opgave, får stillet en lettere op-
gave næste gang.
Opgavernes estimerede sværhedsgrad baseret på henholdsvis opgaveafprøv-
ninger (Location (OAP)) og på elevbesvarelser fra de obligatoriske test (Loca-
tion (OBL)) er vist i Figur 4.4 for dansk læsning i 8. klasse. Data fra elevbesva-
relser fra de obligatoriske test stammer fra skoleåret 2017/2018. Sværheds-
graderne baseret på opgaveafprøvningerne er de aktuelle i opgavebanken i
testsystemet.
Korrelationen mellem de estimerede opgavesværheder er på 0,95 for alle tre
profilområder, mens regressionslinjens hældning er på henholdsvis 1,52,
1,04 og 1,26 i de tre profilområder.
I alle tre profilområder ses, at afvigelsen i opgavernes sværhedsgrad baseret
på de to forskellige datasæt er størst for de svære opgaver.
52
Jeppe Bundsgaard og Svend Kreiner: Undersøgelse af De Nationale Tests måleegenskaber.
Revideret 2. udgave. 25. April 2019
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0056.png
Side 55 af 145
Figur 4.4 Estimerede opgavesværhedsgrader i dansk læsning 8. klasse baseret
på opgaveafprøvning (Location(OAP)) og på obligatoriske test (Location(OBL))
Note: Profilområde 1 = Sprogforståelse; Profilområde 2 = Afkodning; Profilområde 3 = Tekstforståelse
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0057.png
Side 56 af 145
Forskellen mellem opgavernes sværhedsgrad baseret på opgaveafprøvnin-
gerne og opgavernes sværhedsgrad, hvis den blev beregnet på baggrund af
elevbesvarelser fra de obligatoriske test, er beregnet for elevbesvarelserne i
de obligatoriske test i henholdsvis skoleårene 2009/2010, 2013/2014 og
2017/2018 i dansk læsning 6. og 8. klasse samt i matematik 3. og 6. klasse. I
matematik er beregningerne kun foretaget for profilområde 1 og 2, da profil-
område 3 blev erstattet med et nyt profilområde i 3. klasse i 2015/2016 og i
6. klasse i 2017/2018.
Forskellen er beregnet som forskellen mellem de estimerede opgavesværhe-
der ved anvendelse af de to forskellige typer af data:
forskel = location(OAP)
location(OBL)
hvor location(OAP) er opgavens sværhedsgrad baseret på data fra opgaveaf-
prøvningerne og location(OBL) er opgavens sværhedsgrad baseret på data
fra de obligatoriske nationale test.
Desuden er den absolutte forskel beregnet:
absolut forskel = abs(location(OAP)
location(OBL))
Ændring over tid
Samlet for opgaverne i dansk læsning og matematik gælder (Tabel 4.2), at
beregningen af opgavernes sværhedsgrad afviger med mindre end 1 logit
mellem besvarelser fra opgaveafprøvningerne og besvarelser fra selve test-
forløbene for 70-79 procent af opgaverne i opgavebanken.
Tabel 4.2 Fordeling af absolut forskel i estimerede sværhedsgrader mellem
opgaveafprøvningerne og elevbesvarelserne i obligatoriske test. Samlet for
dansk læsning 6. og 8. klasse og matematik 3. og 6. klasse
Interval
1)
0,0
0,5
0,5
1,0
1,0
1,5
1,5
2,0
2,0
2,5
2,5 +
Forskel
2)
Absolut forskel
3)
Antal
1) Absolut forskel på logit-skalaen
2) Gennemsnitlig forskel
3) Gennemsnitlig absolut forskel
Kilde: Styrelsen for It og Læring
2010
48 %
31 %
12 %
4%
2%
3%
0,01
0,68
2.171
2014
41 %
29 %
17 %
7%
3%
3%
0,00
0,79
2.333
2018
41 %
31 %
17 %
7%
2%
1%
0,00
0,75
2.843
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 57 af 145
Den gennemsnitlige absolutte forskel i opgavernes sværhedsgrad ligger i in-
tervallet 0,68-0,79 for de tre analyserede skoleår.
Beregningerne viser også, at andelen af opgaver, hvor den beregnede svær-
hedsgrad afviger, ikke ændres markant over tid. Således er fordelingen af af-
vigelser stort set identisk i perioden 2014 til 2018. I 2010 er der samlet lidt
flere opgaver (79 procent), der afviger mindre end 1,0 logit i forhold til i
2018, hvor 72 procent afviger mindre end 1,0 logit. Til gengæld er der en
større andel af opgaverne i 2010 (5 procent), der afviger med mere end 2,0
logit, i forhold til 3 procent af opgaverne i 2018.
I Bilag 4.6 er beregningerne for alle profilområderne i dansk læsning 6. og 8.
klasse samt i matematik 3. og 6. klasse vist.
I profilområdet sprogforståelse 6. klasse og testforståelse 8. klasse samt i tal
og algebra og i geometri i 3. og 6. klasse er andelen, der afviger med mere
end 1,0 logit, mindre i 2010 end i såvel 2014 og 2018. I afkodning i 8. klasse
er det modsatte tilfældet. Her er andelen, der afviger med mere end 1,0 lo-
git, større end i 2018.
Blandt de analyserede profilområder, ses den største gennemsnitlige forskel
mellem opgavernes sværhedsgrad i sprogforståelse i 8. klasse. I dette profil-
område er opgavernes sværhedsgrad større, når disse er bestemt ud fra op-
gaveafprøvningerne i forhold til, hvis de blev fastsat ud fra besvarelserne i de
obligatoriske test i både 2010 og 2014. Opgaverne i dette profilområde vur-
deres således lettere i de obligatoriske testforløb end ved opgaveafprøvnin-
gerne. Denne forskel er stort set væk i 2018.
De obligatoriske test blev afholdt for første gang i foråret 2010, og besvarel-
serne fra disse testforløb ligger således relativt tæt på de første opgaveaf-
prøvninger, der blev foretaget i 2008 og 2009. Hvis forskellen mellem opga-
vernes estimerede sværhedsgrad primært skyldtes, at opgavesværhederne
var ændret over tid, ville det forventes, at der var stor overensstemmelse når
de to perioder lå tæt på hinanden. Dette er ikke tilfældet (Tabel 4.2). I 2010
afviger sværhedsgraden med mere end 0,5 logit, når denne beregnes baseret
på henholdsvis opgaveafprøvningerne og besvarelserne fra selv testforlø-
bene, for 52 procent af opgaverne i læsning (6. og 8. klasse) og i matematik
(3. og 6. klasse) og 21 procent af opgaverne afviger med mere end 1,0 logit i
sværhedsgrad.
Opgavernes sværhedsgrad beregnes forskelligt for en del af opgaverne i op-
gavebanken, når beregningerne baseres på henholdsvis data fra opgaveaf-
prøvninger og på data fra de obligatoriske testforløb. Forskellen ændres ikke
fra 2010 til 2018.
Hvis opgavernes (endelige) sværhedsgrad fremadrettet skal baseres på de
obligatoriske test, vil det betyde, at elevernes dygtighed skal genberegnes,
når alle test er afviklet. Først når alle test er afviklet kan opgavernes aktuelle
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0059.png
Side 58 af 145
sværhedsgrad i populationen fastlægges og elevernes tilhørende dygtighed
beregnes.
Opgavernes alder
Hvis forskellen i de estimerede sværhedsgrader baseret på henholdsvis opga-
veafprøvningerne og elevforløbene under de obligatoriske test skulle være et
udtryk for, at opgavernes sværhedsgrad er ændret over tid, da ville man for-
vente en større afvigelse des længere tid, der er gået siden opgaverne er af-
prøvet i forhold til afviklingen af de obligatoriske test. Forskellen ville forven-
tes at være begrænset for de senest afprøvede opgaver.
Dette kan ikke bekræftes (Figur 4.5). For opgaver afprøvet i 2009 og 2010 lig-
ger den beregnede sværhedsgrad i 45 - 55 procent af tilfældene udenfor ±
0,5 logit af den sværhedsgrad, der kan beregnes på baggrund af elevernes
besvarelser i de obligatoriske test i foråret 2018. For opgaver afprøvet 5-7 år
senere, i 2015 og 2016, ligger den beregnede sværhedsgrad i 66 - 73 procent
af tilfældene udenfor ± 0,5 logit af den sværhedsgrad, der kan beregnes på
baggrund af elevernes besvarelser i de obligatoriske test i foråret 2018.
Andelen af opgaver med stor afvigelse i estimeret sværhedsgrad baseret på
opgaveafprøvningsdata og testforløbsdata stiger således ikke, når den tids-
mæssige afstand mellem de to dataindsamlinger øges.
Figur 4.5 Andel opgaver med forskel
1)
i sværhedsgrad mellem opgaveaf-
prøvning og testforløb i 2018 fordelt på opgaveafprøvningsperiode
1) Forskel større end 0,5 logit
Baseret på Bilag 4.6
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0060.png
Side 59 af 145
Forskellen i opgavernes sværhedsgrad, når beregningerne baseres på data
fra opgaveafprøvninger, og når beregningerne baseres på obligatoriske test-
forløb, afhænger ikke af, hvor længe siden opgaverne er afprøvet og deres
sværhedsgrad er beregnet.
Opgavernes sværhedsgrad
Derimod er der en sammenhæng mellem opgavernes sværhedsgrad og for-
skellen i de estimerede sværhedsgrader baseret på opgaveafprøvningerne og
elevforløbene under de obligatoriske test (Figur 4.6).
47 procent af opgaverne med en estimeret sværhedsgrad i midten af skalaen
(logit: (÷1; +1]) afviger med mere end 0,5 logit fra den sværhedsgrad, der kan
estimeres på baggrund af elevforløbene i de obligatoriske test i 2018. For de
svære opgaver (logit: ( > +2 )) afviger 93 procent med mere end 0,5 logit.
Figur 4.6 Andel opgaver med forskel
1)
i sværhedsgrad mellem opgaveaf-
prøvning og testforløb i 2018 fordelt på opgavernes sværhedsgrad
1) Forskel større end 0,5 logit
Baseret på Bilag 4.6
Kilde: Styrelsen for It og Læring
Den absolutte forskel i opgavernes beregnede sværhedsgrad er mindst for
opgaver med en sværhedsgrad midt på skalaen og størst for de lette og de
svære opgaver (Tabel 4.3).
Fortegnet på forskellen i opgavernes beregnede sværhedsgrad viser, at de
sværeste opgaver, med en estimeret logit-værdi på over +1,0, vurderes
endnu sværere i de obligatoriske testforløb i 2017/2018. De lettere opgaver,
med en estimeret logit-værdi under ÷1,0, vurderes omvendt lettere i de obli-
gatoriske testforløb.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0061.png
Side 60 af 145
Tabel 4.3 Forskel i estimerede sværhedsgrader mellem opgaveafprøvnin-
gerne og elevbesvarelserne i obligatoriske test 2017/2018 i forhold til opga-
vernes sværhedsgrad. Samlet for dansk læsning 6. og 8. klasse og matema-
tik 3. og 6. klasse. Opgaver i opgavebanken i 2018
Opgavernes sværhedsgrad
1)
(N=2.843)
(÷ ; ÷2]
(N=195)
Forskel
1)
Abs. Forskel
2)
1) Gennemsnitlig forskel
2) Gennemsnitlig absolut forskel
Kilde: Styrelsen for It og Læring
(÷2 ; ÷1]
(N=400)
0,77
0,85
(÷1 ; +1]
(N=1.656)
0,22
0,55
(+1 ; +2]
(N=399)
-1,04
1,07
(+2 ; + )
(N=193)
-1,57
1,59
0,30
0,76
Der er en sammenhæng mellem opgavernes sværhedsgrad og forskellen i de
estimerede sværhedsgrader baseret på opgaveafprøvningerne og elevforlø-
bene under de obligatoriske test.
Forskel i beregnet elevdygtighed
Elevdygtighederne i de nationale obligatoriske test i skoleåret 2017/2018 kan
beregnes ved at anvende opgavernes estimerede sværhedsgrad baseret på
elevbesvarelser fra de obligatoriske test (Figur 4.7). Disse elevdygtigheder er
beregnet i RUMM og sammenholdes med de elevdygtigheder, der beregnes i
testsystemet. Elevdygtighederne i testsystemet er baseret på opgavesværhe-
der, der er beregnet på baggrund af opgaveafprøvninger.
De dygtigste elever, der får de sværeste opgaver i den adaptive algoritme i
dansk læsning 8. klasse, vil få en større beregnet elevdygtighed, hvis der blev
anvendt opgavesværheder baseret på de samme elevers besvarelser fra de
obligatoriske test. Ændringen i elevdygtighederne er mindre for elever med
en elevdygtighed midt i skalaen.
Korrelationen mellem de beregnede elevdygtigheder på logit-skalaen ved de
to metoder er på 0,98, 0,99 og 0,98 i de tre profilområder.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0062.png
Side 61 af 145
Figur 4.7 Beregnede elevdygtigheder i dansk læsning 8. klasse baseret på
opgaveafprøvning (Elevdygtighed(OAP)) og på obligatoriske test (Elevdyg-
tighed(OBL))
Note: Profilområde 1 = Sprogforståelse; Profilområde 2 = Afkodning; Profilområde 3 = Tekstforståelse
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 62 af 145
De høje korrelationer (0,98-0,99) mellem de beregnede elevdygtigheder indi-
kerer, at rangordningen mellem eleverne i stor udstrækning vil være bevaret,
hvis elevernes dygtighed blev beregnet baseret på opgavesværheder estime-
ret i de adaptive obligatoriske test.
Sammenligning af elevernes dygtighed på percentilskalaen kræver, at elever-
nes dygtigheder baseret på opgavesværheder fra de adaptive obligatoriske
test omregnes fra logit-skalaen til en normbaseret percentilskala. Denne om-
regning skal foretages på samme udgangspopulation som for de nuværende,
dvs på resultaterne fra elevernes testafvikling i foråret 2010 (Bilag 1.1).
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 63 af 145
5
Notat 5 Samling af testresultater fra flere profilområder
Sammenfatning
Analyser af besvarelserne fra de obligatoriske test i 2017/2018 viser, at
de tre profilområder i dansk læsning 8. klasse godt kan antages at måle
forskellige egenskaber af én og samme færdighed. Analyser viser tilsva-
rende resultat for matematik 6. klasse
Som supplement til den beregnede elevdygtighed i hvert af de tre profil-
områder kan der derfor beregnes én samlet elevdygtighed i henholdsvis
dansk læsning 8. klasse og i matematik 6. klasse
Den statistiske usikkerhed på elevernes estimerede samlede dygtighed
er i gennemsnit på ca. 0,30 logit, hvor den i gennemsnit i hvert af de
analyserede profilområder ligger på 0,47-0,52 logit
Det er ikke undersøgt om profilområder i de øvrige nationale test på
samme vis måler én og samme færdighed
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0065.png
Side 64 af 145
Indledning
I evalueringen af de nationale test skal det afdækkes:
2. Om sikkerheden i målingerne af elevernes færdigheder kan forbedres ved
at kombinere resultater fra forskellige profilområder. Herunder skal det føl-
gende klarlægges:
a. Kan det påvises, at profilområderne måler forskellige aspekter af den
samme bagvedliggende færdighed?
b. Kan testresultaterne fra profilområderne slås sammen og dermed for-
bedre sikkerheden i testene.
I notatet beskrives sammenhængen mellem elevernes resultater i de tre pro-
filområder i henholdsvis dansk læsning 8. klasse og matematik 6. klasse. Be-
svarelserne fra de nationale obligatoriske test i skoleåret 2017/2018 anven-
des til analyserne.
Formålet er at vurdere, om elevernes resultater fra tre profilområder kan
samles til ét samlet resultat med en større statistisk sikkerhed.
Notatet indeholder følgende afsnit:
Korrelationen mellem elevresultater
Antal besvarede opgaver og SEM i profilområderne
Analyse af mulighed for anvendelse af én Rasch-model pr. test
Samlet elevdygtighed
Korrelationen mellem elevresultater
De nationale test tester elevernes dygtighed i udvalgte områder og fag. I
hvert fag testes eleverne inden for tre hovedområder, der kaldes profilområ-
der. Elevernes dygtighed beregnes i hvert profilområde ud fra de besvarelser
eleven har givet på en række opgaver.
Sammenhængen mellem elevernes beregnede dygtighed i de tre profilområ-
der i dansk læsning 8. klasse og i matematik 6. klassen ses i Tabel 5.1. Bereg-
ningerne er baseret på elevbesvarelser fra de obligatoriske test i foråret
2018.
Tabel 5.1 Korrelationer mellem elevdygtigheder. Obligatoriske test
2017/2018
Test
Dansk læsning
8. klasse
Matematik
6. klasse
Profilområde 1
Profilområde 2
Profilområde 1
Profilområde 2
Profilområde 2
0,48
-
0,68
-
Profilområde 3
0,36
0,60
0,71
0,70
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0066.png
Side 65 af 145
Alle korrelationer er statistisk signifikant forskellige fra nul. I dansk læsning 8.
klasse er der specielt en stærk korrelation mellem afkodning (profilområde
2) og tekstforståelse (profilområde 3). I matematik 6. klasse er der en stærk
korrelation mellem alle tre profilområder.
Der er således en sammenhæng mellem elevernes dygtighed i de enkelte
profilområder i en test. De dygtigste elever i ét profilområde er også blandt
de dygtigste i de to andre profilområder.
Antal besvarede opgaver og SEM i profilområderne
Elevernes testresultater afrapporteres i hvert profilområde for sig. I gennem-
snit når eleverne at besvare 15-19 opgaver i hvert profilområde i dansk læs-
ning 8. klasse og matematik 6. klasse (Tabel 5.2).
Tabel 5.2 Det gennemsnitlige antal opgaver eleverne når at besvare i de ob-
ligatoriske test i 2017/2018.
Test
Dansk læsning 8. klasse
Matematik 6. klasse
Kilde: Styrelsen for It og Læring
Profilområde 1
19
15
Profilområde 2
19
15
Profilområde 3
17
18
Samlet
55
48
Den gennemsnitlige observerede statistiske usikkerhed (SEM) på den bereg-
nede elevdygtighed i dansk læsning 8. klasse og matematik 6. klasse er på
0,47-0,52 logit (Tabel 5.3).
Tabel 5.3 Den gennemsnitlige statistiske usikkerhed (logit) på den estime-
rede elevdygtighed i skoleåret 2017/2018.
Test
Dansk læsning 8. klasse
Matematik 6. klasse
Kilde: Styrelsen for It og Læring
Profilområde 1
0,51
0,47
Profilområde 2
0,51
0,48
Profilområde 3
0,47
0,52
Hvis elevernes testresultater i to eller tre profilområder kan samles til ét fæl-
les mål for elevens dygtighed, da vil denne beregnede dygtighed være base-
ret på besvarelser af flere opgaver, og dermed vil den statistiske usikkerhed
på elevens resultat være mindre end den statistiske usikkerhed på dygtighe-
den i hvert af profilområderne.
Analyse af mulighed for anvendelse af én Rasch-model pr. test
Ved at samle den enkelte elevs besvarelser fra alle tre profilområder i hen-
holdsvis dansk læsning 8. klasse og matematik 6. klasse fra de obligatoriske
test i 2017/2018 er det undersøgt, om opgaverne fra de tre profilområder
kan samles til én opgavebank
én dimension. Hvis elevernes besvarelser af
opgaver i de tre profilområder ikke giver anledning til at forkaste hypotesen
om én samlet Rasch model, da kan opgavernes parametre estimeres og ind-
placeres på én samlet logit-skala.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0067.png
Side 66 af 145
Alle analyser af besvarelserne er foretaget i software programmet RUMM
53
.
Analyserne i dansk læsning 8. klasse er baseret på besvarelser fra 48.481 ele-
ver, mens analyserne i matematik 6. klasse er baseret på besvarelser fra
53.043 elever.
I foråret 2018 indeholdt opgavebanken i dansk læsning 8. klasse 823 opgaver
samt 1.019 opgaver i matematik 6. klasse (Tabel 5.4).
Tabel 5.4 Opgavebanken dansk læsning 8. klasse og matematik 6. klasse i
foråret 2018
Fag
Dansk læsning 8. klasse
Matematik 6. klasse
Kilde: Styrelsen for It og Læring
Profilområde 1
308
494
Profilområde 2
214
263
Profilområde 3
301
262
Samlet
823
1.019
De statistiske analyser i RUMM viser, at 12 ud af de 823 opgaver udviser
misfit til én samlet Rasch model i dansk læsning 8. klasse, og 6 ud af de 1.019
opgaver udviser misfit til én samlet Rasch model i matematik 6. klasse. Disse
opgaver skal derfor fjernes inden, der beregnes elevdygtigheder.
Én samlet opgavebank i dansk læsning 8. klasse består således af 811 opga-
ver og i matematik 6. klasse af 1.013 opgaver.
Baseret på elevbesvarelser fra de obligatoriske test i skoleåret 2017/2018
kan det således ikke afvises, at de tre profilområder i henholdsvis dansk læs-
ning 8. klasse og matematik 6. klasse måler forskellige aspekter af én og
samme færdighed.
Hvorvidt dette også gælder for de øvrige test er ikke undersøgt.
Samlet elevdygtighed
Baseret på elevbesvarelserne fra de Rasch godkendte opgaver kan én samlet
elevdygtighed i henholdsvis dansk læsning 8. klasse og i matematik 6. klasse
beregnes.
Det gennemsnitlige antal opgaver samt den beregnede statistiske usikkerhed
ses i Tabel 5.5.
Tabel 5.5 Det gennemsnitlige antal opgaver samt den gennemsnitlige stati-
stiske usikkerhed (SEM) på den estimerede elevdygtighed i skoleåret
2017/2018. Gennemsnit [5% percentil; 95% percentil]
Test
Dansk læsning 8. klasse
Matematik 6. klasse
Kilde: Styrelsen for It og Læring
Antal opgaver
55
48
SEM
0,29 [0,22; 0,35]
0,30 [0,22; 0,37]
53
www.rummlab.com.au
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0068.png
Side 67 af 145
En samlet beregnet elevdygtighed i hver test vil være baseret på ca. 50-60
opgaver. Den statistiske usikkerhed på den samlede elevdygtighed er 0,30 lo-
git, mens usikkerheden på elevdygtigheden i hvert profilområde for sig er på
0,47-0,52 logit.
Korrelationerne mellem elevernes samlede beregnede dygtighed og den be-
regnede dygtighed i hvert af de tre profilområder i dansk læsning 8. klasse og
i matematik 6. klassen er store (Tabel 5.6) og alle statistisk signifikant forskel-
lige fra nul.
Tabel 5.6 Korrelationer mellem samlet beregnet elevdygtighed og elevdyg-
tighederne i hvert af de tre profilområder. Obligatoriske test 2017/2018
Test
Dansk læsning 8. klasse
Matematik 6. klasse
Kilde: Styrelsen for It og Læring
Profilområde 1
0,71
0,89
Profilområde 2
0,86
0,88
Profilområde 3
0,82
0,89
Ud fra rent statistiske betragtninger vil det derfor være muligt at supplere de
nuværende resultater i de enkelte profilområder med ét samlet elevresultat
med en betydelig større statistisk sikkerhed end, der kan opnås i hvert profil-
område for sig.
Der udestår en faglig indholdsmæssig afklaring af muligheden for samling af
testresultater fra flere profilområder til ét samlet mål.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0069.png
Side 68 af 145
Bilag 1.1 Anvendte skalaer til præsentation af elevernes bereg-
nede dygtigheder
Elevdygtigheden og den tilhørende usikkerhed beregnes i den adaptive algo-
ritme i testsystemet på en
logit-skala,
som i princippet går fra minus til plus
uendelig, men som i praksis går fra minus 7 til plus 7. I de fleste profilområ-
der er intervallet dog snævrere.
Siden skoleåret 2009/2010 har resultaterne fra de nationale test været for-
midlet på den
normbaserede skala (1-100),
der er en
percentilskala.
Percen-
tilskalaen er dannet på baggrund af fordelingen af elevernes testresultater i
2010
54
, hvor en percentilværdi på fx 40 svarer til den elevdygtighed på logit
skalaen, hvor 40 procent af testresultaterne i 2010 lå under. En percentil-
værdi på 90 svarer til den elevdygtighed, hvor 90 procent af eleverne i 2010
scorede under, dvs kun 10 procent af eleverne i 2010 opnåede et bedre test-
resultat.
I formidlingen til elever og forældre bliver resultaterne på 100-skalaen omsat
til en
femtrins skala:
1.
2.
3.
4.
5.
En del under gennemsnittet (1-10)
Under gennemsnittet (11-35)
Gennemsnittet (35-65)
Over gennemsnittet (66-90)
En del over gennemsnittet (91-100)
Logit skalaen har den fordel, at det er en interval skala. Forskellen mellem to
værdier har samme betydning overalt på skalaen. Således er fx en forbedring
eller en forskel fra -2 til -1 den samme som en forbedring fra 0 til +1.
Dette gælder ikke for percentilskalaen. Her vil en forskel eller en forbedring
på fx 10 point svarer til en relativ beskeden ændring i elevdygtigheden på lo-
git-skalaen, hvis der er tale om en middeldygtig elev (30-70), mens det svarer
til en større ændring i elevdygtigheden på logit-skalaen, hvis der er tale om
en meget dygtig elev (80-100) eller en mindre dygtig elev (1-20).
Siden skoleåret 2014/2015 har resultaterne i dansk læsning og matematik
desuden været præsenteret på den
kriteriebaserede skala.
Ved den kriterie-
baserede scoring omregnes elevens dygtighed på logit-skalaen til en forven-
tet score på et antal udvalgte opgaver.
54
Omregning fra logit-skala til percentilskala sker ved anvendelse af en stykvis sigmoid-funk-
tion
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 69 af 145
Opgavekommissionerne har fastsat kriterier for, hvilket fagligt niveau en
score stemmer overens med. I hvert profilområde er defineret seks faglige
niveauer:
1.
2.
3.
4.
5.
6.
Ikke tilstrækkelig præstation
Mangelfuld præstation
Jævn præstation
God præstation
Rigtig god præstation
Fremragende præstation
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0071.png
Side 70 af 145
Bilag 1.2 Opgavebanken i dansk læsning 8. klasse
sprogforstå-
else
Opgaver i opgavebanken i dansk læsning 8. klasse sprogforståelse. Kun opga-
ver, der var aktive
55
i foråret 2018.
Tabel 1.2.1 Opgavenummer med tilhørende sværhedsgrad (location)
opgavenummer
0108010410311
0108010420046
0108010410186-1
0108010410344
0108010420016
0108010415103
0108010410340
0108010420126
0108010410369
0108010420032
0108010410410-1
0108010410343
0108010410080
0108010410316
0108010440022
0108010415102
0108010415171
0108010415190
0108010415179
0108010440027
0108010410337
0108010420021
0108010420101
location
-4,135
-4,128
-4,105
-3,694
-3,657
-2,771
-2,741
-2,616
-2,610
-2,525
-2,504
-2,434
-2,399
-2,333
-2,187
-2,133
-2,007
-1,984
-1,958
-1,945
-1,932
-1,922
-1,920
55
Tidligere Rasch-godkendte opgaver kan være taget ud af opgavebanken
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0072.png
Side 71 af 145
opgavenummer
010801000301236064-1
0108010415164
0108010410230042
0108010410335
0108010410376
0108010410327
0108010415193
0108010420034
0108010440019
0108010420071
0108010410385
0108010410339
0108010420060
010801000301239199-1
0108010410230045
010801000301234830-1
0108010410097
0108010420064
0108010420029
0108010415194
0108010420044
0108010410230025
0108010410408-1
0108010420041
0108010415169
0108010410395
0108010415157
0108010420012
0108010420067
010801000301238278-1
location
-1,876
-1,848
-1,792
-1,790
-1,752
-1,672
-1,641
-1,625
-1,622
-1,619
-1,614
-1,584
-1,573
-1,527
-1,474
-1,449
-1,415
-1,351
-1,340
-1,322
-1,272
-1,257
-1,247
-1,242
-1,204
-1,192
-1,140
-1,121
-1,086
-1,064
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0073.png
Side 72 af 145
opgavenummer
0108010440021
0108010410401-1
0108010410358
0108010420002
0108010410402-1
010801000301238283-1
0108010410098
0108010440014
0108010410406-1
0108010415139
0108010410325
010801000301239200-1
0108010440028
0108010410093
0108010415178
010801000301238279-1
0108010415175
0108010420042
0108010410333
0108010420116
0108010410230021
0108010410230032
010801000301238277-1
0108010410096
010801000301238994-1
0108010415117
0108010415182
0108010410187-1
0108010420027
0108010410110-1
location
-1,043
-1,020
-1,005
-1,000
-0,989
-0,944
-0,938
-0,923
-0,912
-0,906
-0,871
-0,834
-0,807
-0,793
-0,786
-0,779
-0,778
-0,769
-0,767
-0,739
-0,733
-0,713
-0,680
-0,680
-0,652
-0,648
-0,629
-0,622
-0,617
-0,612
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0074.png
Side 73 af 145
opgavenummer
010801000301238285-1
0108010440042
0108010410230029
0108010410230009
0108010420084
0108010410230020
0108010420050
0108010420023
0108010410411-1
0108010420033
0108010410230039
0108010415140
0108010410230014
0108010415132
0108010420104
0108010410230041
0108010415129
0108010420010
0108010420030
010801000301239235-1
010801000301234835-1
0108010410351
0108010410400-1
0108010410320
0108010420161
010801000301238995-1
0108010410230028
010801000301238837-1
0108010410414-1
0108010410230030
location
-0,576
-0,574
-0,570
-0,567
-0,544
-0,526
-0,515
-0,472
-0,467
-0,466
-0,437
-0,437
-0,412
-0,395
-0,384
-0,376
-0,372
-0,352
-0,325
-0,295
-0,286
-0,283
-0,279
-0,256
-0,227
-0,216
-0,180
-0,178
-0,178
-0,163
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0075.png
Side 74 af 145
opgavenummer
0108010440036
0108010420150
0108010410413-1
0108010420003
0108010440031
010801000301239197-1
0108010420141
0108010410230018
0108010420131
0108010440013
0108010420045
0108010420073
0108010440010
0108010410230046
0108010420058
0108010410155-1
0108010420136
0108010420092
0108010415159
0108010420048
0108010420142
0108010420024
0108010440037
0108010415160
0108010440040
0108010440025
0108010410230013
0108010410230022
0108010415130
0108010440001
location
-0,143
-0,134
-0,108
-0,103
-0,102
-0,073
-0,072
-0,067
-0,057
-0,057
-0,052
-0,049
-0,044
-0,021
-0,015
-0,001
0,008
0,020
0,050
0,062
0,068
0,074
0,080
0,090
0,102
0,109
0,116
0,124
0,132
0,167
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0076.png
Side 75 af 145
opgavenummer
0108010420053
0108010410230038
0108010415111
0108010410230008
0108010410357
0108010410230017
010801000301238353-1
0108010415119
0108010420094
0108010420102
0108010410230023
0108010410230019
0108010420061
0108010410230005
0108010415122
010801000301238282-1
0108010415135
0108010410397
0108010420049
0108010415134
0108010420066
0108010420040
0108010420019
0108010420151
0108010410393
0108010415145
0108010410083
010801000301238996-1
0108010420149
0108010420059
location
0,171
0,174
0,192
0,193
0,193
0,224
0,232
0,237
0,239
0,245
0,257
0,271
0,294
0,305
0,322
0,326
0,347
0,356
0,356
0,380
0,393
0,394
0,398
0,402
0,403
0,409
0,433
0,448
0,458
0,462
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0077.png
Side 76 af 145
opgavenummer
010801000301238927-1
0108010420130
0108010420043
0108010420074
010801000301238555-1
0108010420112
0108010420070
0108010420157
0108010410398
0108010410392
0108010420013
0108010420113
0108010420162
0108010410230031
0108010420154
010801000301234832-1
0108010415133
0108010410366
0108010420155
0108010420018
010801000301238607-1
0108010420156
0108010410373
010801000301234806-1
0108010420106
0108010420014
0108010420100
0108010410230034
0108010415186
0108010420114
location
0,463
0,463
0,464
0,470
0,479
0,479
0,498
0,499
0,505
0,512
0,516
0,534
0,547
0,550
0,550
0,554
0,566
0,569
0,580
0,583
0,591
0,614
0,616
0,628
0,635
0,664
0,667
0,668
0,674
0,696
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0078.png
Side 77 af 145
opgavenummer
0108010420120
0108010415120
0108010415173
0108010410230012
010801000301238839-1
010801000301238925-1
010801000301238281-1
010801000301239195-1
0108010420140
010801000301238835-1
0108010410145-1
010801000301234815-1
0108010410088
0108010420088
0108010410377
0108010440045
010801000301234831-1
0108010420152
0108010420031
010801000301238999-1
010801000301238873-1
0108010410328
0108010420105
0108010410230024
0108010420054
010801000301238836-1
0108010420147
0108010420138
010801000301234836-1
0108010420132
location
0,700
0,702
0,714
0,733
0,735
0,743
0,745
0,760
0,760
0,775
0,793
0,800
0,801
0,802
0,805
0,805
0,811
0,817
0,821
0,836
0,843
0,844
0,849
0,851
0,853
0,862
0,868
0,870
0,875
0,877
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0079.png
Side 78 af 145
opgavenummer
010801000301234842-1
0108010415165
0108010420028
0108010410230037
0108010420068
0108010410372
0108010420079
010801000301234838-1
0108010440007
0108010410384
0108010415158
010801000301238872-1
0108010410378
0108010440006
0108010415183
0108010420087
0108010410230047
0108010410388
010801000301238556-1
010801000301234823-1
0108010410084
0108010420129
0108010415118
0108010420153
0108010420109
0108010440034
0108010410230035
0108010410405-1
0108010420103
010801000301234840-1
location
0,879
0,893
0,897
0,901
0,904
0,917
0,920
0,930
0,930
0,931
0,951
1,003
1,009
1,020
1,026
1,026
1,047
1,049
1,075
1,079
1,081
1,085
1,095
1,097
1,102
1,104
1,135
1,143
1,152
1,155
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0080.png
Side 79 af 145
opgavenummer
0108010410399
0108010415167
010801000301234789-1
0108010420017
010801000301238862-1
0108010420160
0108010420056
0108010415109
0108010410412-1
010801000301234825-1
0108010415113
010801000301238920-1
010801000301238923-1
0108010410368
010801000301234817-1
010801000301239000-1
0108010415151
0108010415153
010801000301234826-1
010801000301238997-1
010801000301234843-1
0108010410350
0108010420122
010801000301234839-1
010801000301234804-1
0108010410407-1
010801000301236073-1
010801000301234820-1
010801000301234802-1
010801000301234807-1
location
1,160
1,160
1,202
1,235
1,248
1,249
1,259
1,266
1,282
1,288
1,294
1,299
1,306
1,318
1,346
1,367
1,370
1,381
1,396
1,445
1,463
1,464
1,465
1,495
1,505
1,524
1,532
1,552
1,563
1,566
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0081.png
Side 80 af 145
opgavenummer
010801000301234829-1
010801000301236068-1
010801000301234824-1
0108010415124
0108010420095
0108010410379
0108010410094
010801000301234828-1
010801000301234833-1
0108010415180
0108010420015
010801000301234841-1
010801000301234837-1
010801000301239196-1
0108010410315
Kilde: Styrelsen for It og Læring
location
1,634
1,649
1,685
1,713
1,716
1,807
1,832
1,912
1,937
1,981
2,151
2,248
2,263
2,371
3,044
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 81 af 145
Bilag 2.1 Sammenhæng mellem testresultater og karakterer
Elevernes karakter i dansk, læsning i folkeskolens prøve i 9. klasse i
2017/2018 sammenholdes med elevernes testresultater i de obligatoriske
nationale test i dansk, læsning i 8. klasse i 2016/2017. Tilsvarende sammen-
holdes elevernes karakter i matematik uden hjælpemidler i folkeskolens
prøve i 9. klasse i 2017/2018 med elevernes testresultater i de obligatoriske
nationale test i matematik i 6. klasse i 2014/2015.
Elevernes karakter i dansk, læsning i standpunktsprøven i 8. klasse i
2017/2018 sammenholdes med elevernes testresultater i de obligatoriske
nationale test i dansk, læsning i 8. klasse i 2017/2018. Tilsvarende sammen-
holdes elevernes karakter i matematik uden hjælpemidler i standpunktsprø-
ven i 8. klasse med elevernes testresultater i de obligatoriske nationale test i
matematik i 8. klasse i 2017/2018.
Tabellerne indeholder:
Gns.: Gennemsnitskarakter i gruppen af elever
SD: Standardafvigelsen
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0083.png
Side 82 af 145
Tabel 2.1.1 Resultaterne fra de nationale test (normbaseret skala) og prø-
vekaraktererne i 9. klasse i 2017/2018. Nationale test i dansk læsning 8.
klasse 2016/2017 samt i matematik 6. klasse 2014/2015
Dansk læsning
Point
1-10
11-20
21-30
31-40
41-50
51-60
61-70
71-80
81-90
91-100
Gns.
1,6
2,6
3,5
4,2
4,9
5,8
6,6
7,6
8,6
9,5
SD
2,0
2,1
2,3
2,4
2,5
2,6
2,6
2,7
2,6
2,5
Matematik u. hjælpemidler
Gns.
2,0
2,7
3,6
4,5
5,3
6,2
7,1
8,2
9,3
10,5
SD
2,2
2,1
2,0
2,2
2,2
2,2
2,2
2,2
2,2
1,9
Kilde: Styrelsen for It og Læring
Tabel 2.1.2 Resultaterne fra de nationale test (kriteriebaseret skala) og prø-
vekaraktererne i 9. klasse i 2017/2018. Nationale test i dansk læsning 8.
klasse 2016/2017 samt i matematik 6. klasse 2014/2015
Dansk læsning
Kriterie
Ikke tilstrækkelig
Mangelfuld
Jævn
God
Rigtig god
Fremragende
Kilde: Styrelsen for It og Læring
Matematik u. hjælpemidler
Gns.
2,0
3,2
4,7
6,8
9,3
10,7
SD
2,4
2,2
2,2
2,4
2,2
1,8
Gns.
1,2
2,5
3,8
5,5
7,2
8,4
SD
2,0
2,2
2,4
2,6
2,8
2,9
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0084.png
Side 83 af 145
Tabel 2.1.3 Resultaterne fra de nationale test (normbaseret skala) og stand-
punktskaraktererne i 8. klasse i 2017/2018
Dansk læsning
Point
1-10
11-20
21-30
31-40
41-50
51-60
61-70
71-80
81-90
91-100
Gns.
2,6
3,5
4,3
5,2
5,9
6,8
7,6
8,5
9,3
10,1
SD
1,8
1,8
1,9
2,1
2,2
2,3
2,4
2,3
2,2
2,0
Matematik u. hjælpemidler
Gns.
2,3
3,6
4,6
5,5
6,4
7,3
8,1
9,0
10,0
11,0
SD
1,7
1,7
1,8
2,0
1,9
1,9
1,9
1,8
1,5
1,2
Kilde: Styrelsen for It og Læring
Tabel 2.1.4 Resultaterne fra de nationale test (kriteriebaseret skala) og
standpunktskaraktererne i 8. klasse i 2017/2018
Dansk læsning
Kriterie
Ikke tilstrækkelig
Mangelfuld
Jævn
God
Rigtig god
Fremragende
Kilde: Styrelsen for It og Læring
Matematik u. hjælpemidler
Gns.
1,7
2,4
3,7
6,3
9,1
10,9
SD
1,7
1,7
1,8
2,2
1,9
1,3
Gns.
2,1
3,4
4,7
6,4
8,2
9,1
SD
1,7
1,8
2,0
2,4
2,4
2,4
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0085.png
Side 84 af 145
Bilag 3.1 Statistisk usikkerhed på elevdygtighederne
Bilaget indeholder oversigt over den beregnede SEM i forhold til elevernes
estimerede dygtighed.
I Rasch-modellen beregnes elevernes dygtighed på logit-skalaen. I testsyste-
met omregnes resultaterne til den normbaserede skala, der er en simpel per-
centilskala (1-100), ved anvendelse af en stykvis sigmoid funktion. Elevernes
dygtighed er inddelt på femtrins skalaen, der er en gruppering af den norm-
baserede (1-100) skala.
Tabel 3.1.1 Femtrins skala
Fem trins skala
1
2
3
4
5
Normbaseret skala (1-100)
1-10
11-35
35-65
66-90
91-100
I dansk læsning og matematik omregnes resultaterne endvidere til en krite-
riebaseret skala på seks trin.
Tabel 3.1.2 Kriteriebaseret skala
Trin
1
2
3
4
5
6
Kriteriebaseret skala
Ikke tilstrækkelig præstation
Mangelfuld præstation
Jævn præstation
God præstation
Rigtig god præstation
Fremragende præstation
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0086.png
Side 85 af 145
Beregningen af sikkerhedsintervaller er kun foretaget for elever, der har af-
sluttet teste i teststatus ’grøn’, dvs hvor de statistiske usikkerhed på ele-
vens estimerede dygtighed er kommet under 0,55 logit, eller eleven har be-
svaret mindst 30 opgaver i hvert af de tre profilområder.
Usikkerhedsintervallerne er beregnet på logit-skalaen baseret på den enkelte
elevs beregnede statistiske usikkerhed og herefter omsat til og præsenteret
på såvel den normbaserede (1-100) skala som på den kriteriebaserede skala.
Tabel 3.1.3 Den statistiske usikkerhed (logit) på den estimerede elevdygtig-
hed i skoleåret 2017/2018 i forhold til elevdygtigheden. Dansk læsning
Elevdygtighed på femtrins skalaen
Klassetrin
2. klasse
Profilområde
1
2
3
4. klasse
1
2
3
6. klasse
1
2
3
8. klasse
1
2
3
Kilde: Styrelsen for It og Læring
1-10
0,40
0,42
0,43
0,46
0,46
0,42
0,48
0,48
0,41
0,49
0,49
0,44
11-35
0,43
0,43
0,36
0,47
0,47
0,34
0,48
0,48
0,37
0,49
0,49
0,38
36-65
0,45
0,46
0,40
0,47
0,48
0,43
0,48
0,48
0,46
0,50
0,50
0,45
66-90
0,48
0,48
0,45
0,48
0,49
0,48
0,48
0,50
0,48
0,50
0,51
0,51
91-100
0,54
0,54
0,54
0,51
0,52
0,52
0,51
0,56
0,51
0,56
0,59
0,55
Note: Profilområder: 1 (sprogforståelse), 2 (afkodning), 3 (tekstforståelse)
Tabel 3.1.4 Den statistiske usikkerhed (logit) på den estimerede elevdygtig-
hed i skoleåret 2017/2018 i forhold til elevdygtigheden. Matematik
Elevdygtighed på femtrins skalaen
Klassetrin
3. klasse
Profilområde
1
2
3
6. klasse
1
2
3
8. klasse
1
2
3
Kilde: Styrelsen for It og Læring
1-10
0,45
0,43
0,51
0,45
0,45
0,50
0,53
0,52
0,54
11-35
0,45
0,42
0,50
0,42
0,42
0,50
0,51
0,48
0,51
36-65
0,45
0,48
0,51
0,45
0,46
0,51
0,52
0,52
0,53
66-90
0,47
0,52
0,52
0,48
0,51
0,53
0,55
0,55
0,56
91-100
0,57
0,56
0,63
0,53
0,56
0,60
0,60
0,60
0,62
Note: Profilområder: 1 (tal og algebra), 2 (geometri), 3 (statistik og sandsynlighed)
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0087.png
Side 86 af 145
Tabel 3.1.5 Den statistiske usikkerhed (logit) på den estimerede elevdygtig-
hed i skoleåret 2017/2018 i forhold til elevdygtigheden. Engelsk
Elevdygtighed på femtrins skalaen
Klassetrin
4. klasse
Profilområde
1
2
4
7. klasse
1
2
3
Kilde: Styrelsen for It og Læring
1-10
0,36
0,32
0,39
0,36
0,38
0,38
11-35
0,35
0,35
0,38
0,36
0,40
0,38
36-65
0,38
0,40
0,42
0,43
0,46
0,43
66-90
0,45
0,47
0,47
0,50
0,50
0,48
91-100
0,51
0,54
0,66
0,52
0,51
0,52
Note: Profilområder: 1 (læsning), 2 (ordforråd), 3 (sprog og sprogbrug), 4 (lytning)
Tabel 3.1.6 Den statistiske usikkerhed (logit) på den estimerede elevdygtig-
hed i skoleåret 2017/2018 i forhold til elevdygtigheden. Fysik/kemi
Elevdygtighed på femtrins skalaen
Klassetrin
8. klasse
Profilområde
1
2
3
spektiv)
Kilde: Styrelsen for It og Læring
1-10
0,34
0,32
0,32
11-35
0,31
0,31
0,30
36-65
0,35
0,33
0,31
66-90
0,40
0,39
0,37
91-100
0,46
0,47
0,46
Note: Profilområder: 1 (energi og energiomsætning), 2 (fænomener, stoffer og materialer), 3 (anvendelse og per-
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0088.png
Side 87 af 145
Tabel 3.1.7 Længden af 68 % sikkerhedsintervallet i forhold til elevernes
dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018. Dansk
læsning
Elevdygtighed på femtrins skalaen
Klassetrin
2. klasse
Profilområde
1
2
3
4. klasse
1
2
3
6. klasse
1
2
3
8. klasse
1
2
3
1-10
3
2
2
3
3
3
4
3
3
4
3
2
11-35
12
6
6
12
9
8
13
10
11
15
11
10
36-65
18
9
10
18
14
14
19
16
17
22
15
16
66-90
13
8
9
14
11
12
15
13
12
18
10
13
91-100
6
3
3
5
4
4
4
5
4
3
4
4
Note: Profilområder: 1 (sprogforståelse), 2 (afkodning), 3 (tekstforståelse)
Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske
Kilde: Styrelsen for It og Læring
Tabel 3.1.8 Længden af 95 % sikkerhedsintervallet i forhold til elevernes
dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018. Dansk
læsning
Elevdygtighed på femtrins skalaen
Klassetrin
2. klasse
Profilområde
1
2
3
4. klasse
1
2
3
6. klasse
1
2
3
8. klasse
1
2
3
1-10
7
3
4
7
6
5
9
6
6
9
7
5
11-35
23
11
12
23
18
15
25
20
20
29
22
19
36-65
31
18
19
32
26
26
33
28
30
37
27
28
66-90
25
15
17
26
21
22
27
24
24
32
20
24
91-100
13
7
7
12
9
8
10
10
10
8
8
9
Note: Profilområder: 1 (sprogforståelse), 2 (afkodning), 3 (tekstforståelse)
Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0089.png
Side 88 af 145
Tabel 3.1.9 Længden af 68 procent sikkerhedsintervallet i forhold til elever-
nes dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018.
Matematik
Elevdygtighed på femtrins skalaen
Klassetrin
3. klasse
Profilområde
1
2
3
6. klasse
1
2
3
8. klasse
1
2
3
1-10
3
4
2
4
4
3
3
3
3
11-35
10
14
9
15
13
12
10
10
10
36-65
15
18
14
20
18
16
14
15
14
66-90
11
12
11
13
14
11
9
11
10
91-100
3
4
4
4
4
4
3
3
3
Note: Profilområder: 1 (tal og algebra), 2 (geometri), 3 (statistik og sandsynlighed)
Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske
Kilde: Styrelsen for It og Læring
Tabel 3.1.10 Længden af 95 procent sikkerhedsintervallet i forhold til ele-
vernes dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018.
Matematik
Elevdygtighed på femtrins skalaen
Klassetrin
3. klasse
Profilområde
1
2
3
6. klasse
1
2
3
8. klasse
1
2
3
1-10
6
8
5
10
9
8
7
7
6
11-35
20
25
18
26
24
22
19
20
20
36-65
26
32
26
34
32
29
25
28
26
66-90
22
25
21
26
27
22
18
21
19
91-100
8
9
9
9
9
9
7
7
7
Note: Profilområder: 1 (tal og algebra), 2 (geometri), 3 (statistik og sandsynlighed)
Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0090.png
Side 89 af 145
Tabel 3.1.11 Længden af 68 procent sikkerhedsintervallet i forhold til ele-
vernes dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018.
Engelsk
Elevdygtighed på femtrins skalaen
Klassetrin
4. klasse
Profilområde
1
2
4
7. klasse
1
2
3
1-10
3
3
3
3
3
3
11-35
10
11
10
11
11
10
36-65
11
15
14
16
16
14
66-90
7
10
9
12
11
10
91-100
3
3
4
5
4
3
Note: Profilområder: 1 (læsning), 2 (ordforråd), 3 (sprog og sprogbrug), 4 (lytning)
Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske
Kilde: Styrelsen for It og Læring
Tabel 3.1.12 Længden af 95 procent sikkerhedsintervallet i forhold til ele-
vernes dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018.
Engelsk
Elevdygtighed på femtrins skalaen
Klassetrin
4. klasse
Profilområde
1
2
4
7. klasse
1
2
3
1-10
6
7
6
8
7
6
11-35
18
21
19
20
20
18
36-65
21
27
25
28
28
25
66-90
14
21
18
23
21
19
91-100
6
7
8
10
8
7
Note: Profilområder: 1 (læsning), 2 (ordforråd), 3 (sprog og sprogbrug), 4 (lytning)
Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0091.png
Side 90 af 145
Tabel 3.1.13 Længden af 68 procent sikkerhedsintervallet i forhold til ele-
vernes dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018.
Fysik/kemi
Elevdygtighed på femtrins skalaen
Klassetrin
8. klasse
Profilområde
1
2
3
spektiv)
Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske
Kilde: Styrelsen for It og Læring
1-10
5
5
6
11-35
15
18
18
36-65
21
24
22
66-90
17
18
17
91-100
6
6
6
Note: Profilområder: 1 (energi og energiomsætning), 2 (fænomener, stoffer og materialer), 3 (anvendelse og per-
Tabel 3.1.14 Længden af 95 procent sikkerhedsintervallet i forhold til ele-
vernes dygtighed på den normbaserede (1-100) skala. Skoleåret 2017/2018.
Fysik/kemi
Elevdygtighed på femtrins skalaen
Klassetrin
8. klasse
Profilområde
1
2
3
spektiv)
Note: Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske
Kilde: Styrelsen for It og Læring
1-10
11
13
14
11-35
27
31
31
36-65
35
38
36
66-90
32
35
33
91-100
15
16
15
Note: Profilområder: 1 (energi og energiomsætning), 2 (fænomener, stoffer og materialer), 3 (anvendelse og per-
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0092.png
Side 91 af 145
Tabel 3.1.15 68 % sikkerhedsintervallet på den kriteriebaserede skala i for-
hold til elevernes dygtighed. Skoleåret 2017/2018. Dansk læsning og mate-
matik samlet
Eleve s testresultat ligger
ed stor sa dsy lighed i …
… det bereg ede
faglige niveau eller
niveauet lige over
eller lige under
0%
3%
28 %
2%
4%
0%
… det bereg ede
faglige niveau eller
Elevens testresultat
på den kriteriebase-
rede skala
Ikke tilstrækkelig
Mangelfuld
Jævn
God
Meget god
Fremragende
Kilde: Styrelsen for It og Læring
enten niveauet lige
… det bereg ede
faglige niveau
60 %
32 %
6%
37 %
17 %
44 %
under/over (ikke
både og)
40 %
65 %
66 %
61 %
78 %
56 %
Tabel 3.1.16 95 % sikkerhedsintervallet på den kriteriebaserede skala i for-
hold til elevernes dygtighed. Skoleåret 2017/2018. Dansk læsning og mate-
matik samlet
Elevens testresultat ligger med stor
sa dsy lighed i …
… det bereg ede
faglige niveau eller
Elevens testresultat
på den kriteriebase-
rede skala
Ikke tilstrækkelig
Mangelfuld
Jævn
God
Meget god
Fremragende
Kilde: Styrelsen for It og Læring
… det bereg ede
faglige niveau eller
niveauet lige over
eller lige under
2%
46 %
88 %
49 %
62 %
6%
enten niveauet lige
… det bereg ede
faglige niveau
36 %
5%
0%
14 %
0%
17 %
under/over (ikke
både og)
62 %
49 %
12 %
37 %
38 %
77 %
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0093.png
Side 92 af 145
Bilag 3.2 Reliabilitet
Variansen på den observerede elevscore (X) er summen af variansen på den
sande score (T) og variansen på målefejlen (E)
56
:
2
2
2
����
����
= ����
����
+ ����
����
2
����
����
=
2
=
����
����
Reliabiliteten kan defineres som forholdet mellem variansen på den sande
score og variansen på den observerede score:
����
��������′
2
����
����
2
����
����
I RUMM
57
beregnes reliabiliteten ved anvendelse af Person Separation Index:
2
θ
er elevens estimerede dygtighed og
����
����
beregnes som variansen på elever-
nes dygtigheder blandt de elever, der gennemfører en test.
2
����
����
er usikkerheden på den enkelte elevs beregnede dygtighed og betegnes
SEM
2
, hvor SEM er Standard Error of Measurement.
����
��������
=
2
����
����
2
����
����
SEM beregnes i test- og prøvesystemet i lighed med elevens dygtighed efter
hver besvarelse på en opgave.
Der er anvendt resultaterne fra de obligatoriske test i skoleåret 2017/2018 i
alle tabellerne.
56
Davidshofer, Kevin R. Murphy, Charles O. (2005): Psychological testing: principles and ap-
plication. Pearson/Prentice Hall.
RUMM Laboratory Pty Ltd.
57
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0094.png
Side 93 af 145
Tabel 3.2.1 Den statistiske usikkerhed (SEM) på den estimerede elevdygtig-
hed og beregnet reliabilitet i skoleåret 2017/2018. Dansk læsning
Klassetrin
2. klasse
Profilområde
1
2
3
4. klasse
1
2
3
6. klasse
1
2
3
8. klasse
1
2
3
1) Person Separation Index (PSI)
Note: Profilområder: 1 (sprogforståelse), 2 (afkodning), 3 (tekstforståelse)
Kilde: Styrelsen for It og Læring
SEM
0,46
0,46
0,42
0,47
0,48
0,44
0,48
0,49
0,45
0,51
0,51
0,47
Reliabilitet (PSI
1
)
0,74
0,91
0,90
0,80
0,87
0,88
0,78
0,85
0,81
0,83
0,85
0,84
Tabel 3.2.2 Den statistiske usikkerhed (SEM) på den estimerede elevdygtig-
hed og beregnet reliabilitet i skoleåret 2017/2018. Matematik
Klassetrin
3. klasse
Profilområde
1
2
3
6. klasse
1
2
3
8. klasse
1
2
3
1) Person Separation Index (PSI)
Note: Profilområder: 1 (tal og algebra), 2 (geometri), 3 (statistik og sandsynlighed)
Kilde: Styrelsen for It og Læring
SEM
0,48
0,49
0,53
0,47
0,48
0,52
0,53
0,52
0,54
Reliabilitet (PSI
1
)
0,86
0,78
0,87
0,83
0,81
0,84
0,88
0,86
0,89
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0095.png
Side 94 af 145
Tabel 3.2.3 Den statistiske usikkerhed (SEM) på den estimerede elevdygtig-
hed og beregnet reliabilitet i skoleåret 2017/2018. Engelsk
Klassetrin
4. klasse
Profilområde
1
2
4
7. klasse
1
2
3
1) Person Separation Index (PSI)
Note: Profilområder: 1 (læsning), 2 (ordforråd), 3 (sprog og sprogbrug), 4 (lytning)
Kilde: Styrelsen for It og Læring
SEM
0,40
0,41
0,44
0,45
0,47
0,45
Reliabilitet (PSI
1
)
0,91
0,88
0,88
0,79
0,86
0,88
Tabel 3.2.4 Den statistiske usikkerhed (SEM) på den estimerede elevdygtig-
hed og beregnet reliabilitet i skoleåret 2017/2018. Fysik/kemi
Klassetrin
8. klasse
Profilområde
1
2
4
1) Person Separation Index (PSI)
Note: Profilområder: 1 (energi og energiomsætning), 2 (fænomener, stoffer og materialer), 3 (anvendelse og per-
spektiv)
Kilde: Styrelsen for It og Læring
SEM
0,37
0,37
0,36
Reliabilitet (PSI
1
)
0,68
0,66
0,70
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 95 af 145
Bilag 4.1 Opgaveafprøvningsperioder
Afprøvning af opgaver med henblik på anvendelse i de nationale test er fore-
gået siden maj 2008.
Bilaget indeholder oversigt over afprøvningsperiode for de opgaver i opgave-
banken, der var aktive under afviklingen af de obligatoriske test foråret 2019.
I matematik 3. klasse erstattedes profilområdet
matematik i anvendelse
af
statistik og sandsynlighed
fra og med skoleåret 2015/2016.
Tilsvarende ændring skete i matematik i 6. klasse i skoleåret 2017/2018.
Matematik i 8. klasse introduceredes fra og med skoleåret 2017/2018.
Engelsk i 4. klasse introduceredes skoleåret 2017/2018.
Tabellerne viser tidspunkt for opgaveafprøvning.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0097.png
Side 96 af 145
Tabel 4.1.1 Opgavebankens sammensætning i forhold til opgavernes afprøv-
ningsperiode. Dansk læsning
Afprøvningsperiode
Maj 2008
Oktober 2008
December 2008
April 2009
September 2009
September 2010
September 2012
September 2014
September2015
Januar 2016
September 2016
Januar 2017
Januar 2018
I alt
Dansk læsning
Dansk læsning
Dansk læsning
Dansk læsning
2. klasse
4. klasse
6. klasse
8. klasse
1)
2)
3)
1)
2)
3)
1)
2)
3)
1)
P1
P2
P3
P1
P2
P3
P1
P2
P3
P1
P2
2)
P3
3)
0
0
0
0
0
0
0
0
0
0
0
0
0 122
89
80 166
82
44 168
75
19
13
3
22
23
18
20
0
22
37
38
4
38
52
31
66
0
0
6
0
5
24
0
11
88 108
29
80
0
21
11
0
23
72
0
61
0
0 111
0
0
23
56
53
77
0
0
50
99
0
0
34
15
23
11
17
14
10
30
19
30
26
40
6
69
16
19
37
32
54
5
24
34
15
38
3
0
0
0
0
33
0
0
47
0
0
47
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
34
25
40
24
0
0
0
0
0
0
0
0
245 254 230 227 273 288 241 241 291 308 214 299
1) Sprogforståelse 2) Afkodning 3) Tekstforståelse
Kilde: Styrelsen for It og Læring
Tabel 4.1.2 Opgavebankens sammensætning i forhold til opgavernes afprøv-
ningsperiode. Matematik
Afprøvningsperiode
Maj 2008
Oktober 2008
December 2008
April 2009
September 2009
September 2010
September 2012
September 2014
September2015
Januar 2016
September 2016
Januar 2017
Januar 2018
I alt
Matematik
3. klasse
1)
P1
P2
2)
P4
3)
68
69
0
0
0
0
0
30
0
0
0
0
0
0
0
22
35
0
59
16
0
112
29
0
0
0
225
0
0
0
0
0
0
0
0
0
0
41
0
261
220
225
Matematik
6. klasse
1)
P1
P2
2)
P4
3)
252
79
0
0
0
0
0
0
0
0
0
0
0
0
0
1
25
0
49
47
0
143
42
0
0
0
0
0
0
0
0
96
262
0
0
0
29
0
0
474
289
262
Matematik
8. klasse
1)
P1
P2
2)
P4
3)
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
234
249
223
0
0
0
0
0
0
234
249
223
1) Tal og algebra 2) Geometri 3) Statistik og sandsynlighed
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0098.png
Side 97 af 145
Tabel 4.1.3 Opgavebankens sammensætning i forhold til opgavernes afprøv-
ningsperiode. Engelsk
Afprøvningsperiode
Maj 2008
Oktober 2008
December 2008
April 2009
September 2009
September 2010
September 2012
September 2014
September2015
Januar 2016
September 2016
Januar 2017
Januar 2018
I alt
Engelsk 4. klasse
P1
P2
2)
P4
3)
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
211
60
149
0
131
70
71
65
0
31
0
219
313
256
1)
Engelsk 7. klasse
P1
P2
2)
P3
4)
45
43
76
0
0
0
5
5
4
0
0
0
8
0
4
0
9
0
19
37
12
26
32
19
104
96
98
0
0
0
0
0
0
0
0
0
0
0
0
207
222
213
1)
1) Læsning 2) Ordforråd 3) Lytning 4) Sprog og sprogbrug
Kilde: Styrelsen for It og Læring
Tabel 4.1.4 Opgavebankens sammensætning i forhold til opgavernes afprøv-
ningsperiode. Fysik/kemi
Afprøvningsdato
Maj 2008
Oktober 2008
December 2008
April 2009
September 2009
September 2010
September 2012
September 2014
September2015
Januar 2016
September 2016
Januar 2017
Januar 2018
I alt
P1
1)
67
0
38
0
11
47
22
24
5
0
0
0
4
218
Fysik/kemi 8. klasse
P2
2)
195
0
0
0
1
7
22
19
16
0
0
0
19
279
P4
3)
98
0
29
0
11
33
30
26
14
0
0
0
19
260
1) Energi og energiomsætning 2) Fænomener, stoffer og materialer 3) Anvendelse og perspektiv
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0099.png
Side 98 af 145
Bilag 4.2 Skærmdumps fra RUMM
På baggrund af elevernes besvarelser fra opgaveafprøvningerne foretages
Rasch analyser. Opgaver der ikke passer til modellen fjernes. For de god-
kendte opgaver estimeres opgavernes tærskelværdier, herunder opgavernes
sværhedsgrad.
Bilaget dokumenterer, ved skærmdumps fra RUMM
58
, analyserne foretaget
efter opgaveafprøvningen i januar 2018. Der er kun medtaget skærmdumps
fra analyserne af opgaver afprøvet i dansk læsning og matematik:
Dansk læsning 2. klasse:
Sprogforståelse
Afkodning
Tekstforståelse
Dansk læsning 4. klasse
Sprogforståelse
Matematik 3. klasse
Geometri og måling
Matematik 6. klasse
Tal og algebra
I Raschanalysen forkastes opgaver på baggrund af:
Itemfit: tester hvor godt opgaverne passer til den overordnede Rasch-
model.
Differentiel item funktion (DIF): tester om elevernes svar på opgaverne
afhænger af elevernes køn, geografi (skolens beliggenhed) og skolestør-
relse.
I analysen indgår også eksisterende aktive opgaver (linkopgaver) fra tidligere
opgaveafprøvninger. Disse opgaver linker de nye opgaver i opgaveafprøvnin-
gen sammen med den eksisterende Rasch-skala. Disse opgaver slettes ikke,
men bliver testet for om opgavernes sværhedsgrad har ændret sig fra tidli-
gere opgaveafprøvninger (DIF for periode).
58
www.rummlab.com.au
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0100.png
Side 99 af 145
Dansk læsning 2. klasse
sprogforståelse
I opgaveafprøvningen januar 2018 blev 61 opgaver afprøvet, heraf forkastes
27 opgaver og 34 (56 %) opgaver godkendes og tilføjes Opgavebanken.
25 af opgaverne forkastes pga. itemfit og 2 opgaver forkastes pga. DIF på
køn.
Analysen indeholder 10 linkopgaver: I0170, I0171, I0173, I0175, I0176, I0182,
I0183, I0189, I0192 og I0203.
Initiel itemfit-analyse: viser et udpluk af de opgaver der forkastes.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0101.png
Side 100 af 145
Afsluttende itemfit-analyse: de tre statistisk signifikante opgaver er linkopga-
ver, der ikke slettes.
Afsluttende DIF-analyse: køn
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0102.png
Side 101 af 145
Afsluttende DIF-analyse: skolestørrelse
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0103.png
Side 102 af 145
Afsluttende DIF-analyse: geografi
Eksempel på ICC-kurve for en godkendt opgave.
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0104.png
Side 103 af 145
Dansk læsning 2. klasse
afkodning
I opgaveafprøvningen januar 2018 blev 32 opgaver afprøvet, heraf forkastes
7 opgaver og 25 (78 %) opgaver godkendes og tilføjes Opgavebanken.
6 af opgaverne forkastes pga. itemfit og 1 opgave forkastes pga. DIF på geo-
grafi.
Analysen indeholder 10 linkopgaver: I0036, I0050, I0091, I0094, I0097, I0151,
I0153, I0238, I0246 og I0248.
Initiel itemfit-analyse: viser et udpluk af de opgaver der forkastes.
Afsluttende itemfit-analyse.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0105.png
Side 104 af 145
Afsluttende DIF-analyse: køn
Afsluttende DIF-analyse: skolestørrelse
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0106.png
Side 105 af 145
Afsluttende DIF-analyse: skolestørrelse
Eksempel på ICC-kurve over godkendt opgave.
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0107.png
Side 106 af 145
Dansk læsning 2. klasse
tekstforståelse
I opgaveafprøvningen januar 2018 blev 60 opgaver afprøvet, heraf forkastes
7 opgaver og 53 (88 %) opgaver godkendes og tilføjes Opgavebanken.
Alle 7 opgaver forkastes pga. itemfit.
Analysen indeholder 10 linkopgaver: I0150, I0151, I0152, I0153, I0155, I0157,
I0158, I0159, I0160 og I0161.
Initiel itemfit-analyse: viser et udpluk af de opgaver der forkastes.
Afsluttende itemfit-analyse: de seks statistisk signifikante opgaver er linkop-
gaver, der ikke slettes.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0108.png
Side 107 af 145
Afsluttende DIF-analyse: køn
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0109.png
Side 108 af 145
Afsluttende DIF-analyse: skolestørrelse
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0110.png
Side 109 af 145
Afsluttende DIF-analyse: geografi
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0111.png
Side 110 af 145
Eksempel på ICC-kurve over godkendt opgave.
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0112.png
Side 111 af 145
Dansk læsning 4. klasse
sprogforståelse
I opgaveafprøvningen januar 2018 afprøves 51 opgaver, heraf forkastes 27
opgaver og 24 (56 %) opgaver godkendes og tilføjes Opgavebanken.
23 af opgaverne forkastes pga. itemfit og 4 opgaver forkastes pga. DIF på
geografi.
Analysen indeholder 10 linkopgaver: I0012, I0014, I0032, I0061, I0067, I0078,
I0197, I0200, I0203 og I0204.
Initiel itemfit-analyse: viser et udpluk af de opgaver der forkastes.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0113.png
Side 112 af 145
Afsluttende itemfit-analyse
Afsluttende DIF-analyse: køn
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0114.png
Side 113 af 145
Afsluttende DIF-analyse: skolestørrelse
Afsluttende DIF-analyse: geografi
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0115.png
Side 114 af 145
Eksempel på ICC-kurve for godkendt opgave.
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0116.png
Side 115 af 145
Matematik 3. klasse
geometri og måling
I opgaveafprøvningen januar 2018 afprøves 57 opgaver, heraf forkastes 16
opgaver og 41 (72 %) opgaver godkendes og tilføjes Opgavebanken.
Alle 16 opgaver forkastes pga. itemfit.
Analysen indeholder 10 linkopgaver: I0034, I0058, I0102, I0120, I0156, I0163,
I0168, I0169, I0181 og I0185.
Initiel itemfit-analyse: viser et udpluk af de opgaver der forkastes.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0117.png
Side 116 af 145
Afsluttende itemfit-analyse: de to statistisk signifikante opgaver er link opga-
ver, der ikke slettes.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0118.png
Side 117 af 145
Afsluttende DIF-analyse: køn
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0119.png
Side 118 af 145
Afsluttende DIF-analyse: skolestørrelse
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0120.png
Side 119 af 145
Afsluttende DIF-analyse: geografi
Eksempel på ICC-kurve for en godkendt opgave.
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0121.png
Side 120 af 145
Matematik 6. klasse
tal og algebra
I opgaveafprøvningen januar 2018 afprøves 61 opgaver, heraf forkastes 32
opgaver og 29 (48 %) opgaver godkendes og tilføjes Opgavebanken.
31 opgaver forkastes pga. itemfit og 1 opgave forkastes pga. DIF på geografi.
Analysen indeholder 10 linkopgaver: I0030, I0143, I0200, I0263, I0289, I0307,
I0366, I0389, I0404 og I0458.
Initiel itemfit-analyse: viser et udpluk af de opgaver der forkastes.
Afsluttende itemfit-analyse
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0122.png
Side 121 af 145
Afsluttende DIF-analyse: køn
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0123.png
Side 122 af 145
Afsluttende DIF-analyse: skolestørrelse
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0124.png
Side 123 af 145
Afsluttende DIF-analyse: geografi
Eksempel på ICC-kurve for en godkendt opgave.
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0125.png
Side 124 af 145
Bilag 4.3 Opgavebankens sammensætning i forhold til opgaver-
nes sværhedsgrad
Tabel 4.3.1 Opgavebankens sammensætning i forhold til opgavernes sværheds-
grad
Femtrinsskala
*
1)
**
2)
***
3)
****
4)
*****
5)
Fag
Dansk
læsning
2. klasse
Dansk
læsning
4. klasse
Dansk
læsning
6. klasse
Dansk
læsning
8. klasse
Matematik
3. klasse
Matematik
6. klasse
Matematik
8. klasse
Engelsk
4. klasse
Engelsk
7. klasse
Fysik/kemi
8. klasse
1)
P1
P2
7)
P3
8)
P1
6)
P2
7)
P3
8)
P1
6)
P2
7)
P3
8)
P1
6)
P2
7)
P3
8)
P1
9)
P2
10)
P4
11)
P1
9)
P2
10)
P4
11)
P1
9)
P2
10)
P4
11)
P1
12)
P2
13)
P4
14)
P1
12)
P2
13)
P4
15)
P1
16)
P2
17)
P3
18)
6)
Antal
83
58
15
40
159
43
35
169
60
50
134
53
47
77
41
192
47
94
22
41
66
41
156
145
24
43
27
9
28
31
(Pct.)
(34 %)
(23 %)
(7 %)
(18 %)
(58 %)
(15 %)
(15 %)
(70 %)
(21 %)
(16 %)
(63 %)
(18 %)
(18 %)
(35 %)
(18 %)
(41 %)
(16 %)
(36 %)
(9 %)
(16 %)
(30 %)
(19 %)
(50 %)
(57 %)
(12 %)
(19 %)
(13 %)
(4 %)
(10 %)
(12 %)
Antal
43
111
111
51
69
131
45
48
149
56
44
140
114
50
112
89
76
60
70
65
63
57
66
65
99
61
96
42
51
40
(Pct.)
(18 %)
(44 %)
(48 %)
(22 %)
(25 %)
(45 %)
(19 %)
(20 %)
(51 %)
(18 %)
(21 %)
(47 %)
(44 %)
(23 %)
(50 %)
(19 %)
(26 %)
(23 %)
(30 %)
(26 %)
(28 %)
(26 %)
(21 %)
(25 %)
(48 %)
(27 %)
(45 %)
(19 %)
(18 %)
(15 %)
Antal
33
47
72
45
20
80
47
13
53
54
20
64
51
42
49
65
50
59
70
60
33
81
46
38
42
64
50
49
58
54
(Pct.)
(13 %)
(19 %)
(31 %)
(20 %)
(7 %)
(28 %)
(20 %)
(5 %)
(18 %)
(18 %)
(9 %)
(21 %)
(20 %)
(19 %)
(22 %)
(14 %)
(17 %)
(23 %)
(30 %)
(24 %)
(15 %)
(37 %)
(15 %)
(15 %)
(20 %)
(29 %)
(23 %)
(22 %)
(21 %)
(21 %)
Antal
50
27
32
71
15
26
72
4
19
91
8
24
28
31
23
75
60
43
56
45
29
30
42
4
29
39
31
58
61
70
(Pct.)
(20 %)
(11 %)
(14 %)
(31 %)
(5 %)
(9 %)
(30 %)
(2 %)
(7 %)
(30 %)
(4 %)
(8 %)
(11 %)
(14 %)
(10 %)
(16 %)
(21 %)
(16 %)
(24 %)
(18 %)
(13 %)
(14 %)
(13 %)
(2 %)
(14 %)
(18 %)
(15 %)
(27 %)
(22 %)
(27 %)
Antal
36
11
0
20
10
8
42
7
10
57
8
18
21
20
0
53
56
6
16
38
32
10
3
4
13
15
9
60
81
65
(Pct.)
(15 %)
(4 %)
(0 %)
(9 %)
(4 %)
(3 %)
(17 %)
(3 %)
(3 %)
(19 %)
(4 %)
(6 %)
(8 %)
(9 %)
(0 %)
(11 %)
(19 %)
(2 %)
(7 %)
(15 %)
(14 %)
(5 %)
(1 %)
(2 %)
(6 %)
(7 %)
(4 %)
(28 %)
(29 %)
(25 %)
I alt
245
254
230
227
273
288
241
241
291
308
214
299
261
220
225
474
289
262
234
249
223
219
313
256
207
222
213
218
279
260
Percentilværdi. 1-10
2)
Percentilværdi: 11-35
3)
Percentilværdi: 36-65
4)
Percentilværdi: 66-90
5)
Percentilværdi: 91-100
6)
Sprogforståelse
7)
Afkodning
8)
Tekstforståelse
9)
Tal og algebra
10)
Geometri
11)
Statistik og sandsynlighed
12)
Læsning
13)
Ordforråd
14)
Lytning
15)
Sprog og sprogbrug
16)
Energi og energiomsætning
17)
Fænomener, stoffer og materialer
18)
Anvendelser og perspektiver
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0126.png
Side 125 af 145
Bilag 4.4 Sammenhæng mellem elevernes dygtighed og opgaver-
nes sværhedsgrad
Figurerne viser sammenhængen mellem opgavernes sværhedsgrad og ele-
vernes dygtighed i de obligatoriske test i foråret 2018 (person-item distribu-
tion). Begge dele er udtrykt på Rasch (logit) skalaen.
Figurerne er hentet fra analyserne foretaget med RUMM
59
.
59
www.rummlab.com.au
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0127.png
Side 126 af 145
Figur 4.4.1 Dansk læsning 2. klasse - sprogforståelse
Figur 4.4.2 Dansk læsning 2. klasse - afkodning
Figur 4.4.3 Dansk læsning 2. klasse - tekstforståelse
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0128.png
Side 127 af 145
Figur 4.4.4 Dansk læsning 4. klasse - sprogforståelse
Figur 4.4.5 Dansk læsning 4. klasse - afkodning
Figur 4.4.6 Dansk læsning 4. klasse - tekstforståelse
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0129.png
Side 128 af 145
Figur 4.4.7 Dansk læsning 6. klasse - sprogforståelse
Figur 4.4.8 Dansk læsning 6. klasse - afkodning
Figur 4.4.9 Dansk læsning 6. klasse - tekstforståelse
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0130.png
Side 129 af 145
Figur 4.4.10 Dansk læsning 8. klasse - sprogforståelse
Figur 4.4.11 Dansk læsning 8. klasse - afkodning
Figur 4.4.12 Dansk læsning 8. klasse - tekstforståelse
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0131.png
Side 130 af 145
Figur 4.4.13 Matematik 3. klasse - tal og algebra
Figur 4.4.14 Matematik 3. klasse - geometri
Figur 4.4.15 Matematik 3. klasse - statistik og sandsynlighed
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0132.png
Side 131 af 145
Figur 4.4.16 Matematik 6. klasse - tal og algebra
Figur 4.4.17 Matematik 6. klasse - geometri
Figur 4.4.18 Matematik 6. klasse - statistik og sandsynlighed
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0133.png
Side 132 af 145
Figur 4.4.19 Matematik 8. klasse - tal og algebra
Figur 4.4.20 Matematik 8. klasse - geometri
Figur 4.4.21 Matematik 8. klasse - statistik og sandsynlighed
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0134.png
Side 133 af 145
Figur 4.4.22 Engelsk 4. klasse - læsning
Figur 4.4.23 Engelsk 4. klasse - ordforråd
Figur 4.4.24 Engelsk 4. klasse - lytning
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0135.png
Side 134 af 145
Figur 4.4.25 Engelsk 7. klasse - læsning
Figur 4.4.26 Engelsk 7. klasse - ordforråd
Figur 4.4.27 Engelsk 7. klasse - sprog og sprogbrug
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0136.png
Side 135 af 145
Figur 4.4.28 Fysik/kemi 8. klasse - energi og energiomsætning
Figur 4.4.29 Fysik/kemi 8. klasse - fænomener, stoffer og materialer
Figur 4.4.30 Fysik/kemi 8. klasse - anvendelse og perspektiv
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 136 af 145
Bilag 4.5 Undersøgelse af link-opgavernes ændrede sværheds-
grad
I forbindelse med afprøvningen af nye opgaver til opgavebanken medtages
hver gang et antal af de eksisterende og tidligere godkendte opgaver fra op-
gavebanken. Dette sikrer, at der sker et overlap mellem blokkene af opgave-
afprøvninger, således at nye opgavers sværhedsgrad kan indplaceres på den
eksisterende skala. Disse overlapningsopgaver kaldes link-opgaver. Typisk
udvælges 5-10 link-opgaver ved hver opgaveafprøvning.
Anvendelsen af link-opgaver giver endvidere mulighed for, at undersøge om
disse opgavers sværhedsgrad er ændret siden tidligere opgaveafprøvninger.
I Rasch analysen foretages denne analyse i en Diffential Item Functioning
(DIF) analyse. Der testes for DIF mellem ny og tidligere afprøvningsperioder.
I den seneste analyserede opgaveafprøvning fra januar 2018 indgik opgaver
fra følgende profilområder:
Dansk læsning 2. klasse: sprogforståelse, afkodning og tekstfor-
ståelse
Dansk læsning 4. klasse: sprogforståelse
Matematik 3. klasse: geometri
Matematik 6. klasse: tal og algebra
Engelsk 4. klasse: ordforråd
Fysik/kemi 8. klasse: energi og energiomsætning, fænomener,
stoffer og materialer samt anvendelse og perspektiv
Der er testet for periode DIF mellem afprøvningsperioden i januar 2018 og
tidligere afprøvningsperioder samlet.
Tabellerne indeholder:
Opgavenummer
Maj2008
Sep2014: opgavens estimerede sværhedsgrad (location) ba-
seret på tidligere opgaveafprøvninger samt antal besvarelser
Jan2018: opgavens nye sværhedsgrad (location) hvis denne afviger stati-
stisk signifikant samt antal besvarelser fra opgaveafprøvningen i januar
2018
ANOVA for periode DIF: F-ratio samt tilhørende p-værdi fra ANOVA test
for periode DIF. Der er anvendt Bonferroni korrektion for multiple test.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0138.png
Side 137 af 145
Tabel 4.5.1 Dansk læsning 2. klasse - sprogforståelse
Opgavenummer
010201000301235192-1
010201000301235195-1
010201000301235202-1
010201000301235397-1
010201000301235399-1
010201000301235416-1
010201000301235418-1
010201000301235196-1
010201000301235205-1
010201000301235423-1
Kilde: Styrelsen for It og Læring
Maj2008 - Sep2014
location
Antal
1,73
780
1,22
698
1,72
782
1,11
667
1,87
783
2,07
781
1,79
699
1,75
751
1,78
753
1,05
750
Jan2018
Location
Antal
-
653
-
646
-
644
-
653
-
647
-
586
-
586
-
586
-
653
-
586
ANOVA for
periode DIF
F-ratio
P-værdi
0,01
n.s.
0,08
n.s.
4,12
n.s.
0,65
n.s.
2,07
n.s.
3,50
n.s.
0,09
n.s.
7,09
n.s.
0,01
n.s.
1,79
n.s.
Tabel 4.5.2 Dansk læsning 2. klasse - afkodning
Opgavenummer
01020204628-4
01020204122-2
01020204621-5
01020204626-5
0102020410001-4
010202000301235179-1
010202000301235189-1
010202000301239054-1
010202000301239443-1
010202000301239453-1
Kilde: Styrelsen for It og Læring
Maj2008 - Sep2014
location
Antal
1,03
428
1,21
440
2,66
2107
2,19
603
0,57
2446
1,05
652
1,92
653
0,92
717
1,54
734
0,76
779
Jan2018
Location
Antal
-
670
-
670
-
721
-
669
-
720
-
721
-
721
-
721
-
670
0,40
670
ANOVA for
periode DIF
F-ratio
P-værdi
0,83
n.s.
7,27
n.s.
4,75
n.s.
1,71
n.s.
0,68
n.s.
1,88
n.s.
4,12
n.s.
0,20
n.s.
10,79
n.s.
14,14
0,002
Tabel 4.5.3 Dansk læsning 2. klasse - tekstforståelse
Opgavenummer
0102030510270006-3
0102030510270009-1
0102030510270010-1
0102030510270011-1
0102030510270013-1
0102030540001-2
0102030540002-2
0102030540008-1
0102030540012-1
0102030540012-3
Kilde: Styrelsen for It og Læring
Maj2008 - Sep2014
location
Antal
0,06
587
0,86
586
-0,14
589
0,81
589
2,11
1377
0,14
586
-0,71
1413
-0,04
588
0,40
594
-0,52
584
Jan2018
Location
Antal
-
858
-
791
-
778
-
860
-
793
-
777
-
858
-
794
-
780
-
847
ANOVA for
periode DIF
F-ratio
P-værdi
10,38
n.s.
0,06
n.s.
1,69
n.s.
0,02
n.s.
2,21
n.s.
0,95
n.s.
0,46
n.s.
1,22
n.s.
0,98
n.s.
2,23
n.s.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0139.png
Side 138 af 145
Tabel 4.5.4 Dansk læsning 4. klasse - sprogforståelse
Opgavenummer
0104010110595-2
0104010110599-3
0104010110586-2
0104010110572-2
0104010110599-2
0104010110597-4
010401000301238258-1
010401000301238266-1
010401000301238272-1
010401000301238275-1
Kilde: Styrelsen for It og Læring
Maj2008 - Sep2014
location
Antal
0,64
677
0,49
680
0,03
2017
0,13
653
0,13
663
0,18
1438
-0,03
830
0,17
819
0,00
833
0,09
820
Jan2018
Location
Antal
-
757
-
807
-
806
-
756
-
807
-
674
-
757
-
806
0,91
675
-
675
ANOVA for
periode DIF
F-ratio
P-værdi
4,03
n.s.
5,12
n.s.
0,19
n.s.
0,59
n.s.
0,06
n.s.
1,21
n.s.
1,47
n.s.
0,19
n.s.
13,24
0,003
0,66
n.s.
Tabel 4.5.5 Matematik 3. klasse - geometri
Opgavenummer
02030204403-1
02030204403-2
02030205101-4
0203020410030002-3
020302000301235338-5
020302000301235338-2
020302000301235795-1
020302000301235797-2
020302000301239628-4
020302000301235860-1
Kilde: Styrelsen for It og Læring
Maj2008 - Sep2014
location
Antal
0,24
539
0,01
1258
0,47
1369
0,51
1212
0,53
551
0,69
740
0,67
742
0,84
705
0,64
854
0,66
778
Jan2018
Location
Antal
-
742
-
738
0,12
827
-
742
-
739
-
828
-
828
-
739
-
739
-
742
ANOVA for
periode DIF
F-ratio
P-værdi
0,87
n.s.
10,24
n.s.
49,19
0,00001
1,22
n.s.
3,34
n.s.
0,51
n.s.
0,11
n.s.
2,83
n.s.
3,59
n.s.
0,00
n.s.
Tabel 4.5.6 Matematik 6. klasse
tal og algebra
Opgavenummer
02060108011-11
02060108033-3
02060107003-22
02060106003-15
02060106007-4
020601000301234766-1
020601000301238714-1
020601000301239117-1
020601000301239365-1
020601000301238641-1
Kilde: Styrelsen for It og Læring
Maj2008 - Sep2014
location
Antal
0,66
1745
0,62
1759
0,59
2914
0,45
1751
0,39
853
0,49
680
0,36
665
0,33
650
0,34
652
0,72
545
Jan2018
Location
Antal
-
852
1,30
851
-
871
-
870
-
544
-
892
-
871
-
870
-0,05
892
-
892
ANOVA for
periode DIF
F-ratio
P-værdi
5,98
n.s.
22,91
0,00001
0,28
n.s.
5,87
n.s.
0,49
n.s.
2,84
n.s.
6,50
n.s.
0,42
n.s.
18,12
0,00003
2,27
n.s.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0140.png
Side 139 af 145
Tabel 4.5.7 Engelsk 4. klasse
ordforråd
Opgavenummer
060402000301244229-1
060402000301244205-2
060402000301244420-1
060402000301244255-2
060402000301244239-1
060402000301244253-2
060402000301249843-2
060402000301249780-1
060402000301249783-1
060402000301249789-1
Kilde: Styrelsen for It og Læring
Maj2008 - Sep2014
location
Antal
1,42
850
1,21
657
1,32
807
1,83
615
1,29
763
1,46
764
1,43
1065
1,50
604
1,46
603
1,56
604
Jan2018
Location
Antal
-
695
-
698
-
698
-
695
-
697
-
717
-
695
-
718
-
719
-
718
ANOVA for
periode DIF
F-ratio
P-værdi
0,17
n.s.
2,90
n.s.
1,34
n.s.
3,89
n.s.
2,61
n.s.
0,00
n.s.
0,12
n.s.
1,16
n.s.
0,93
n.s.
0,01
n.s.
Tabel 4.5.8 Fysik/kemi 8. klasse
energi og energiomsætning
Opgavenummer
03080115016-21
0308010713087-1
0308010713090-1
0308011411120-2
0308011413178-1
Kilde: Styrelsen for It og Læring
Maj2008 - Sep2014
location
Antal
-0,35
476
-0,33
464
-0,47
2349
-0,63
498
-0,65
498
Jan2018
Location
Antal
-
660
-
660
-
660
-
661
-
660
ANOVA for
periode DIF
F-ratio
P-værdi
1,19
n.s.
0,53
n.s.
2,06
n.s.
0,14
n.s.
5,22
n.s.
Tabel 4.5.9 Fysik/kemi 8. klasse
fænomener, stoffer og materialer
Opgavenummer
03080204008-1
03080204008-2
03080204008-5
03080204008-6
03080204034-3
0308020411001-1
0308020412004-1
0308020412004-3
0308020412008-1
0308020412010-2
Kilde: Styrelsen for It og Læring
Maj2008 - Sep2014
location
Antal
0,17
418
-0,31
414
0,58
481
0,40
485
-0,36
2291
-0,79
482
-0,02
437
-0,78
1575
-0,84
484
-1,71
417
Jan2018
Location
Antal
-
482
-
482
-
482
-
482
-
482
-
482
-
481
-
454
-
453
-
453
ANOVA for
periode DIF
F-ratio
P-værdi
9,56
n.s.
0,46
n.s.
1,65
n.s.
6,37
n.s.
0,18
n.s.
1,66
n.s.
0,15
n.s.
1,17
n.s.
2,70
n.s.
1,58
n.s.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0141.png
Side 140 af 145
Tabel 4.5.10 Fysik/kemi 8. klasse
anvendelse og perspektiv
Opgavenummer
0308030113007-3
03080320010-3
03080311012-2
03080310002-2
03080318028-21
0308031912168-1
0308032013174-1
0308032211138-1
0308032011136-1
030803000301239811-1
Kilde: Styrelsen for It og Læring
Maj2008 - Sep2014
location
Antal
-0,07
2321
0,08
2458
-0,28
2345
-0,35
2215
-0,11
2347
-0,42
562
-0,12
2442
-0,09
2451
-0,33
500
0,19
537
Jan2018
Location
Antal
-
723
-
662
-
661
-
661
-
725
-
723
-
726
-
723
-0,73
726
-
724
ANOVA for
periode DIF
F-ratio
P-værdi
3,12
n.s.
2,04
n.s.
0,44
n.s.
0,58
n.s.
5,11
n.s.
0,48
n.s.
1,15
n.s.
0,60
n.s.
14,12
0,002
0,28
n.s.
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
Side 141 af 145
Bilag 4.6 Forskel i opgavernes sværhedsgrad
Sværhedsgraderne på opgaverne i opgavebanken er estimeret på baggrund
af opgaveafprøvninger. I en opgaveafprøvning afprøver ca. 700 elever opga-
ver i et lineært afprøvningsforløb.
Elevbesvarelser fra obligatoriske test kan også anvendes til at estimere opga-
vernes sværhedsgrad.
Data fra elevbesvarelser i obligatoriske test er baseret på adaptive forløb,
hvor elever, der svarer rigtigt på en opgave, får stillet en sværere opgave næ-
ste gang, og elever, der svarer forkert på en opgave, får stillet en lettere op-
gave næste gang. Alle elever starter med middelsvære opgaver, dvs opgaver
der ligger midt på sværhedsskalaen for det pågældende fag og profilområde.
Dette bilag indeholder tabeller og figurer, der viser forskellen mellem opga-
vernes sværhedsgrad baseret på opgaveafprøvningerne og opgavernes svær-
hedsgrad, hvis den blev beregnet på baggrund af elevbesvarelser fra de obli-
gatoriske test. Sammenligningen er foretaget for elevbesvarelserne i de obli-
gatoriske test i foråret 2010, 2014 og 2018 i dansk læsning 6. og 8. klasse
samt i matematik 3. og 6. klasse. I matematik er beregningerne kun foretaget
for profilområde 1 og 2, da profilområde 3 blev erstattet med et nyt profil-
område i 3. klasse i 2015/2016 og i 6. klasse i 2017/2018.
I tabellerne anvendes forskellen i en opgaves sværhedsgrad, når den bereg-
nes ved anvendelse af data fra henholdsvis opgaveafprøvninger, loca-
tion(OAP), og fra de obligatoriske test, location(OBL), dvs
forskel = location(OAP)
location(OBL)
Desuden er den absolutte forskel beregnet:
absolut forskel = abs(location(OAP)
location(OBL))
Tabellerne og figurerne viser:
Fordelingen af forskellen i estimeret sværhedsgrad for de enkelte profil-
områder og samlet for testene i dansk læsning og matematik
Fordelingen af forskellen i estimeret sværhedsgrad i forhold til hvilket år
opgaverne er afprøvet
Fordelingen af forskellen i estimeret sværhedsgrad i forhold til opgaver-
nes sværhedsgrad
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0143.png
Side 142 af 145
Tabel 4.6.1 Fordeling af absolut forskel i estimerede sværhedsgrader mel-
lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test. Dansk
læsning 6. klasse
Sprogforståelse
Interval
1)
0,0
0,5
0,5
1,0
1,0
1,5
1,5
2,0
2,0
2,5
2,5 +
Forskel
2)
Abs. forskel
3)
Antal
0,04
0,65
224
2010
42 %
41 %
13 %
5%
2014
28 %
33 %
26 %
9%
3%
1%
0,00
0,88
264
-0,03
0,82
241
0,04
0,60
231
0,05
0,63
229
-0,02
0,58
241
-0,13
0,38
185
-0,12
0,41
222
0,05
0,47
292
2018
29 %
37 %
25 %
7%
2%
2010
46 %
35 %
16 %
3%
Afkodning
2014
45 %
33 %
16 %
5%
2018
54 %
29 %
12 %
4%
1%
Tekstforståelse
2010
70 %
26 %
4%
2014
68 %
23 %
9%
2018
65 %
28 %
4%
2%
1%
1) Absolut forskel på logit-skalaen
2) Gennemsnitlig forskel
3) Gennemsnitlig absolut forskel
Kilde: Styrelsen for It og Læring
Tabel 4.6.2 Fordeling af absolut forskel i estimerede sværhedsgrader mel-
lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test. Dansk
læsning 8. klasse
Sprogforståelse
Interval
1)
0,0
0,5
0,5
1,0
1,0
1,5
1,5
2,0
2,0
2,5
2,5 +
Forskel
2)
Abs. forskel
3)
Antal
0,48
0,74
178
0,42
0,92
162
0,04
0,76
308
2010
29 %
39 %
29 %
3%
2014
25 %
31 %
25 %
17 %
1%
2018
34 %
38 %
21 %
5%
1%
2010
26 %
22 %
11 %
9%
10 %
23 %
-0,09
1,52
217
Afkodning
2014
30 %
18 %
14 %
9%
10 %
18 %
-0,10
1,39
212
-0,03
0,55
214
-0,05
0,31
207
-0,05
0,36
193
2018
52 %
35 %
8%
4%
0%
Tekstforståelse
2010
83 %
16 %
1%
0%
2014
77 %
19 %
4%
1%
2018
54 %
34 %
10 %
2%
0%
0%
0,04
0,54
301
1) Absolut forskel på logit-skalaen
2) Gennemsnitlig forskel
3) Gennemsnitlig absolut forskel
Kilde: Styrelsen for It og Læring
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0144.png
Side 143 af 145
Tabel 4.6.3 Fordeling af absolut forskel i estimerede sværhedsgrader mel-
lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test. Mate-
matik 3. klasse
Tal og algebra
Interval
1)
0,0
0,5
0,5
1,0
1,0
1,5
1,5
2,0
2,0
2,5
2,5 +
Forskel
2)
Abs. forskel
3)
Antal
2) Gennemsnitlig forskel
3) Gennemsnitlig absolut forskel
Kilde: Styrelsen for It og Læring
Geometri og måling
2018
46 %
30 %
18 %
4%
1%
2%
-0,04
0,66
290
2010
51 %
33 %
12 %
4%
1%
1%
-0,06
0,60
180
2014
43 %
30 %
16 %
6%
4%
2%
-0,07
0,75
223
2018
35 %
29 %
19 %
11 %
6%
1%
-0,01
0,87
199
2010
62 %
30 %
3%
2%
1%
2%
-0,01
0,49
202
2014
50 %
29 %
15 %
4%
1%
1%
0,03
0,63
230
1) Absolut forskel på logit-skalaen
Tabel 4.6.4 Fordeling af absolut forskel i estimerede sværhedsgrader mel-
lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test. Mate-
matik 6. klasse
Tal og algebra
Interval
1)
0,0
0,5
0,5
1,0
1,0
1,5
1,5
2,0
2,0
2,5
2,5 +
Forskel
2)
Abs. forskel
3)
Antal
2) Gennemsnitlig forskel
3) Gennemsnitlig absolut forskel
Kilde: Styrelsen for It og Læring
Geometri og måling
2018
28 %
27 %
26 %
11 %
5%
3%
-0,03
1,00
494
2010
40 %
37 %
15 %
5%
3%
1%
-0,02
0,73
200
2014
30 %
34 %
19 %
8%
5%
3%
-0,01
0,92
265
2018
25 %
24 %
24 %
21 %
3%
3%
0,05
1,06
263
2010
43 %
33 %
15 %
6%
2%
1%
-0,03
0,72
347
2014
27 %
36 %
21 %
8%
5%
3%
-0,04
0,92
333
1) Absolut forskel på logit-skalaen
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0145.png
Side 144 af 145
Tabel 4.6.5 Fordeling af absolut forskel i estimerede sværhedsgrader mel-
lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test. Sam-
let for dansk læsning 6. og 8. klasse og matematik 3. og 6. klasse. Kun opga-
ver der har været aktive i hele perioden
Interval
1)
0,0
0,5
0,5
1,0
1,0
1,5
1,5
2,0
2,0
2,5
2,5 +
Forskel
2)
Absolut forskel
3)
Antal
1) Absolut forskel på logit-skalaen
2) Gennemsnitlig forskel
3) Gennemsnitlig absolut forskel
Kilde: Styrelsen for It og Læring
2010
49 %
31 %
12 %
4%
2%
2%
0,03
0,69
1.601
2014
41 %
30 %
16 %
7%
3%
3%
0,03
0,79
1.601
2018
43 %
31 %
15 %
7%
2%
2%
0,06
0,74
1.601
Tabel 4.6.6 Fordeling af absolut forskel i estimerede sværhedsgrader mel-
lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test foråret
2018 i forhold til perioden for opgavernes afprøvning. Samlet for dansk
læsning 6. og 8. klasse og matematik 3. og 6. klasse. Opgaver i opgaveban-
ken i 2018
Periode for opgaveafprøvning
(N=2.843)
Interval
1)
0,0
0,5
0,5
1,0
1,0 +
Forskel
2)
Abs. forskel
3)
2) Gennemsnitlig forskel
3) Gennemsnitlig absolut forskel
Kilde: Styrelsen for It og Læring
2008
(N=1.123)
38 %
31 %
32 %
0,03
0,82
2009
(N=507)
55 %
30 %
15 %
0,14
0,55
2010
(N=246)
45 %
30 %
25 %
-0,05
0,70
2012
(N=326)
32 %
25 %
43 %
-0,32
0,88
2014
(N=503)
43 %
31 %
27 %
0,06
0,72
2015
(N=94)
27 %
65 %
9%
0,41
0,65
2016
(N=44)
34 %
20 %
45 %
0,33
0,88
1) Absolut forskel på logit-skalaen
Januar 2020
BUU, Alm.del - 2019-20 - Bilag 82: Anbefalinger, evaluering og faktaark om nationale test, fra børne- og undervisningsministeren
2146472_0146.png
Side 145 af 145
Tabel 4.6.7 Fordeling af absolut forskel i estimerede sværhedsgrader mel-
lem opgaveafprøvningerne og elevbesvarelserne i obligatoriske test foråret
2018 i forhold til opgavernes sværhedsgrad. Samlet for dansk læsning 6. og
8. klasse og matematik 3. og 6. klasse. Opgaver i opgavebanken i 2018
Opgavernes sværhedsgrad
1)
(N=2.843)
Interval
1)
0,0
0,5
0,5
1,0
1,0 +
Forskel
2)
Abs. forskel
3)
2) Gennemsnitlig forskel
3) Gennemsnitlig absolut forskel
Kilde: Styrelsen for It og Læring
(÷ ; ÷2]
(N=195)
36 %
36 %
28 %
0,30
0,76
(÷2 ; ÷1]
(N=400)
33 %
26 %
42 %
0,77
0,85
(÷1 ; +1]
(N=1.656)
53 %
34 %
13 %
0,22
0,55
(+1 ; +2]
(N=399)
18 %
30 %
52 %
-1,04
1,07
(+2 ; +)
(N=193)
7%
16 %
78 %
-1,57
1,59
1) Absolut forskel på logit-skalaen
Januar 2020