Statistiek voor pedagogen: Verdeling van gegevens (1 variabele)
1 Het gegevensrooster
Variabelen voorgesteld door schuingedrukte hoofdletters: toevalsvariabelen → waarden zijn
realisaties van toevalsproces
Xij, waarbij i verwijst naar onderzoekselement en j naar variabele
2 Types van variabelen
2.1 Onafhankelijke en afhankelijke variabelen
Voorbeeld afhankelijke variabele: score op examen statistiek
Voorbeeld onafhankelijke variabele: provincie
2.2 Discrete en continue variabelen
Continue variabele: tussen elke 2 waarden kan een derde waarde worden gevonden
(cf. reële getallen)
Discrete variabele: natuurlijke getallen
Continuïteit = theoretische veronderstelling
● Als continue beschouwd als…
○ Ze groot aantal waarden aannemen
○ Ze een manifestatie zijn van onderliggende continue variabele
● Als discreet beschouwd als ze slechts beperkt aantal waarden aannemen
1
,Speciale discrete variabelen:
● Dichotome variabele: neemt slechts 2 waarden aan
● Trichotome variabele: neemt slechts 3 waarden aan
● Polytome variabele: neemt 3 of meer waarden aan
2.3 Kwalitatieve en kwantitatieve variabelen
Kwalitatief: getallen verwijzen slechts naar (on)gelijkheden tussen onderzoekselementen
(met betrekking tot gemeten kenmerk)
→ Getal als naam/label, rekenen NIET zinvol
Kwantitatief: getallen toegekend zodanig dat afstanden tussen getallen overeenkomen met
afstanden tussen onderzoekselementen (met betrekking tot gemeten kenmerk)
→ Getal als echt getal, rekenen WEL zinvol
Speciaal type kwalitatieve variabele: ordinale variabele
Getallen kunnen naar grootte vergeleken worden (volgorde), MAAR niet zinvol om mee te
rekenen
Bv.: tevredenheid over het vak statistiek, …
Hiërarchie van variabelen:
2
, Statistiek voor pedagogen: Het beschrijven van 1 variabele
1 Via tabellen
1.1 Frequentietabellen
Ruwe gegevens:
Frequenties:
● Frequentie van score op X: aantal keer dat deze score voorkomt
● Frequentieverdeling van X wordt genoteerd als f(X)
Frequentietabel:
Relatieve frequenties:
● Relatieve frequenties: proporties van scores op X, frequenties gedeeld door aantal
observaties
● Relatieve frequentieverdeling van X wordt genoteerd als p(X)
Relatieve frequentietabel:
3
,Cumulatieve frequenties:
● Cumulatieve frequentie van bepaalde score op X: totaal aantal scores lager dan of
gelijk aan bepaalde score
● Cumulatieve frequentieverdeling van X wordt genoteerd als F(X)
Cumulatieve frequentietabel:
Relatieve cumulatieve frequenties:
● Relatieve cumulatieve frequentie: cumulatieve proportie van bepaalde score op X,
cumulatieve frequentie gedeeld door totaal aantal observaties
● Relatieve cumulatieve frequentieverdeling van X wordt genoteerd als P(X)
Relatieve cumulatieve frequentietabel:
Even oefenen
X f(x) P(X) = ?
6 3 20/20 = 1 (100%)
5 5 17/20 = 0.85 (85%)
4 2 12/20 = 0.6 (60%)
3 3 10/20 = 0.5 (50%)
2 4 7/20 = 0.35 (35%)
1 3 3/20 = 0.15 (15%)
4
,1.2 Kwalitatieve gegevens
Categorieën NIET geordend
● Categorieën naar dalende frequentie gerangschikt
● Cumulatieve (relatieve) frequenties niet zinvol
1.3 Stamdiagrammen
2 Beschrijven aan de hand van kengetallen
2.1 Percentielen
Percentiel: score op X waaronder ten minste een specifiek % van scores gesitueerd is
Berekenen van percentiel: % gegeven, bijbehorende scores zoeken
● Percentage komt WEL voor in relatieve cumulatieve frequentietabel
○ Kijken naar alle scores in interval tot volgende frequentie
○ Percentiel gedefinieerd als midden van dit interval
● Percentage komt NIET voor in relatieve cumulatieve frequentietabel
○ Percentiel gedefinieerd als score met dichtsbijzijnde grotere relatieve
cumulatieve frequentie
Enkele afspraken:
● P100 = hoogste geobserveerde score
● P0 = laagste geobserveerde score
Enkele bijzondere percentielen:
● Decielen: D1=P10, D2=P20, … , D9=P90
● Kwartielen: Q1=P25, Q2=P50, Q3=P75
5
, Even oefenen
X f(X) P(x)
6 3 1
5 5 0.85
4 2 0.6
3 3 0.5
2 4 0.35
1 3 0.15
Bereken:
● P35 = 2.5 (staat in tabel, dus midden van interval nemen)
● P90 = 6 (staat niet in tabel, dus dichtstbijzijnde hogere frequentie nemen)
Even oefenen
Bereken:
● P85 = 93.5 (staat niet in tabel, dus midden van interval nemen)
2.2 Centrum
Modus: score of categorie met de hoogste frequentie. De modus kan ook gebruikt worden
bij kwalitatieve variabelen.
Bv.: 2, 3, 3, 4, 6 → modus = 3
Uniciteit van modus
● Unimodale verdeling: modus uniek gedefinieerd
● Bimodale verdeling: twee scores/categorieën hebben maximumfrequentie
● Multimodale verdeling: meerdere scores/categorieën hebben maximumfrequentie
Mediaan: de middelste waarde, (minstens) de helft van de scores ligt erboven en
(minstens) de helft ligt eronder. De mediaan is gelijk aan het tweede kwartiel, Q2.
Berekening van de mediaan:
● Orden alle geobserveerde scores
● Bij oneven aantal scores neemt men de middelste score
● Bij even aantal scores neemt men het gemiddelde van de twee middelste scores
● OF bereken P50
Bv.: 2, 3, 3, 4, 4, 6 → mediaan = 3.5
6
, 𝑛
1
Het (rekenkundig) gemiddelde: 𝑋 = 𝑛
∑ 𝑋𝑖
𝑖=1
Bv.: 2, 3, 3, 4, 4, 5 → 𝑋 = 21/6 = 3.5
Formules bij frequentietabel met k scores:
𝑘 𝑘
1
𝑋= 𝑛
∑ 𝑋𝑖 × 𝑓𝑖, waarbij ∑ 𝑓𝑖 = 𝑛
𝑖=1 𝑖=1
𝑘 𝑘
= ∑ 𝑋𝑖 × 𝑝𝑖, waarbij ∑ 𝑝𝑖 = 1
𝑖=1 𝑖=1
2 + 3×2 + 4×2 + 5
Bv.: 2, 3, 3, 4, 4, 5 → 𝑋 = 6
= 3. 5
Even oefenen
X f(X) X p(X)
2 1 2 0.1667
3 2 3 0.3333
4 2 4 0.3333
5 1 5 0.1667
2 + 3×2 + 4×2 + 5
𝑋= 6
𝑋 = 2 × 0. 17 + 3 × 0. 33 + 4 × 0. 33 + 5 × 0. 17
𝑋=
21
= 3. 5 𝑋 = 3. 5
6
Gemiddelde van lineair getransformeerde scores: lineaire transformatie van
gemiddelde berekend op ongetransformeerde scores.
Formule: 𝑎 + 𝑏𝑋 = 𝑎 + 𝑏𝑋
Even oefenen
Bereken:
● Modus = 5
● Mediaan = 3.5
● Rekenkundig gemiddelde = 3.55
7
, 2.3 Spreiding
Verdeling met 1 getal beschrijven = meestal maat van centrale tendens kiezen
MAAR 2 verdelingen kunnen zelfde gemiddelde/mediaan hebben en er toch helemaal
anders uitzien
Bv.: 10, 20, 30, 40, 50 en 28, 29, 30, 31, 32
Bereik: het verschil tussen het maximum en het minimum. Het bereik is extreem gevoelig
voor uitschieters
Formule: 𝐵 = 𝑋[𝑚𝑎𝑥] − 𝑋[𝑚𝑖𝑛]
Interkwartielbereik: het verschil tussen het derde en het eerste kwartiel. Het is een
robuuste maat van spreiding bij kwantitatieve variabelen.
Formule: 𝐼𝐾𝐵 = 𝑄3 − 𝑄1
Definities van 3 soorten afwijkingen
● Afwijking: 𝑥𝑖 = 𝑋𝑖 − 𝑋
𝑛 𝑛
● Som van de afwijkingen: ∑ 𝑥𝑖 = ∑ 𝑋𝑖 − 𝑋 = 0
𝑖=1 𝑖=1
( )
● Absolute afwijking: 𝑥𝑖 = |||𝑋𝑖 − 𝑋|||
| |
𝑛 𝑛
● Som van de absolute afwijkingen: ∑ 𝑥𝑖 = ∑ |||𝑋𝑖 − 𝑋||| | |
𝑖=1 𝑖=1
2
● Gekwadrateerde afwijking: 𝑥𝑖 = 𝑋𝑖 − 𝑋
2
( )
𝑛 2 𝑛 2
● Gecorrigeerde kwadratensom: ∑ 𝑥 = ∑ 𝑋𝑖 − 𝑋
𝑖=1 𝑖=1
( )
𝑖
Som gekwadrateerde afwijkingen delen door aantal observaties = variantie
𝑛 2
2
Formule: 𝑆𝑥 =
1
𝑛 (
∑ 𝑋𝑖 − 𝑋
𝑖=1
)
Vierkantswortel van variantie wordt standaardafwijking
2
Formule: 𝑆𝑥 = 𝑆𝑥
Interpretatie: drukt uit hoe verspreid scores liggen rond het gemiddelde
Deze score kan NOOIT negatief zijn!
8