Bilag 2: Den statistiske model
Den anvendte statistiske model er en såkaldt multilevel model:
����
��������
= ����
��������
���½ + ����
����
+ ����
��������
hvor
y
ij
er karakteren for elev
i
på institution
j, x
ij
er elevens baggrundsvariable og β
er de tilhørende parameterestimater,
u
j
er varianskomponenten svarende til varia-
tionen mellem skolerne, og
e
ij
er residualet svarende til variationen mellem
eleverne på skolen.
Beregningerne er foretaget for såvel de bundne prøvefag som for prøvefag til ud-
træk (eksklusiv fransk, hvor relativt få elever aflægger prøve).
Ved anvendelse af modellen fås et estimat over, hvor stor en del af variationen mel-
lem karaktererne der skyldes forskelle mellem eleverne, og hvor stor en del der
skyldes forskelle mellem skolerne. Dette kaldes modellens forklaringsgrad.
Alle de socioøkonomiske baggrundsvariable beskrevet i Bilag 1: Baggrund-
soplysninger medtages i modellen sammen med interaktionen mellem forældrenes
uddannelse og elevens herkomst, interaktionen mellem elevens køn og herkomst
samt andelen af indvandrere og efterkommere og andelen af elever med forældre
med en mellemlang eller lang videregående uddannelse.
Interaktionerne medtages for at undersøge, om effekten af forældrenes uddannelse
og elevens køn afhænger af elevens herkomst.
Skoleniveauvariablen vedrørende andelen af indvandrere og efterkommere med-
tages for at undersøge, om der er en ekstra effekt af en høj andel af indvandrere og
efterkommere på samme institution. Tilsvarende for andelen af elever med
forældre, der har en mellemlang eller lang videregående uddannelse.
Øvrige interaktioner og skoleniveauvariable er ikke medtaget dels for ikke at øge
modellernes kompleksitet, dels viser undersøgelser, at disse ikke øger modellernes
forklaringskraft væsentligt.
Ikke alle elever har fyldestgørende oplysninger på de her benyttede baggrundsvari-
able. Der i disse tilfælde indsat en værdi, et såkaldt bedste gæt, på alle de steder,
hvor oplysningerne er ukendte. For hver elev med ukendt baggrundsoplysning
gættes 5 gange, således at modellen bliver estimeret på baggrund af en sandsynlig
fordeling. Metoden kaldes ’multiple imputation’. Gættene baseres på fordelingen
blandt elever med oplyst baggrundsvariabel, hvor der er taget hensyn til elevens
køn, alder og herkomst. Den socioøkonomiske reference for hver elev er så et gen-
nemsnit af de 5 beregnede værdier.
I den statistiske model for beregning af socioøkonomiske referencer for 3-års perio-
den medtages endvidere skoleåret som en forklarende variabel. Herved tages der
højde for, at karakterniveauet kan være forskelligt fra år til år.
For hver elev beregnes en socioøkonomisk referenceværdi ud fra værdierne af elev-
ens baggrundsvariable og de estimerede parametre for baggrundsvariablene.