Inleiding statistiek Samenvatting
Hoorcollege 1
empirische cyclus:
statistiek vindt vooral plaats rond de
toetsing en rond de observatie.
Beschrijvende statistiek: kwantitatieve samenvatting van informatie/data.
→ summary statistics, gemiddelde, mediaan, modus, variantie, deviatie, covariantie,
frequentieverdeling etc.
Inferentiële statistiek: maak inferenties op basis van data (een steekproef (over een meer
algemene situatie (de populatie).
→ sampling error, standaard fout, schatten, margin of error etc.
Variabele: een eigenschap die verschillende waardes kan aannemen voor verschillende
individuen.
Random variabelen: variabelen waarvan de uitkomsten het resultaat zijn van een random
fenomeen.
Kwantificeren van random variabelen:
→ het meetniveau van een variabele bepaalt wat voor betekenis de nummers die we
toewijzen hebben.
o Er zijn 4 niveaus: nominaal, ordinaal, interval, ratio
o De niveaus zijn cumulatief, elk niveau heeft de eigenschappen van de vorige niveaus.
1
,Nominaal: toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten.
→ Vb. geslacht: man, vrouw (0, 1)
Ordinaal: toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten.
Er is een betekenisvolle ordening in de mogelijke uitkomsten.
→ Vb. dosering: laag, medium, hoog (0,1,2)
Rangen: 1e, 2e, 3e, (0, 1, 2)
Likertschaal
Interval: toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten.
Er is een betekenisvolle ordening in de mogelijke uitkomsten. De intervallen tussen elk van
de geordende uitkomsten is betekenisvol en dezelfde grootte.
→ Vb. temperatuur in graden Celsius
Ratio: toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten. Er
is een betekenisvolle ordening in de mogelijke uitkomsten. De intervallen tussen elk van de
geordende uitkomsten is betekenisvol en dezelfde grootte. Er is een ‘absoluut nulpunt’: een
nul betekent dat de gemeten eigenschap afwezig is.
→ vb. dosering medicijn: 0 mg, 1 mg, 2 mg
Lengte in cm: 0 cm
Directe vs. continue random variabelen
Directe variabele: de mogelijke uitkomsten voor de variabelen zijn te vangen in een eindige,
telbare lijst van waarden.
→ Vb. aantal kinderen per gezin, sekse categorieën, haarkleur, dosering categorieën (laag,
medium, hoog)
Continue variabele: de mogelijke uitkomsten van de variabele kunnen elke waarde
aannemen binnen een bepaald interval.
→ Vb. leeftijd, dosering grammen, lengte, sekse schalen
Frequentie: hoe vaak een bepaalde uitkomst is geobserveerd.
Kans: de relatieve frequentie van de uitkomst.
Kansverdelingen: laten de kans zien op elke mogelijke uitkomst voor een random variabele.
→ altijd optellen tot 1!
Discrete kansverdeling: continue kansverdeling:
2
,Beschrijvende statistieken: voor het samenvatten van variabelen en hun kansverdelingen in
een paar getallen.
• Centrummaten: beschrijven het ‘centrum’ of ‘midden’ of ‘typische waarde’ voor een
variabele
→ modus, mediaan, gemiddelde
• Spreidingsmaten: beschrijven de variatie, spreiding, breedte van een variabele
→ bereik, variantie, standaard deviatie
Centrummaten
o Modus: de uitkomst die het vaakst voorkomt.
o Mediaan: de waarde die de hoogste helft van de data scheidt van de laagste helft van
de data (50% ligt boven deze waarde en 50% ligt eronder) (6,7,7,8,9 → 2e zeven is
mediaan)
o Gemiddelde: cijfers bij elkaar optellen en delen door het totaal aantal observaties.
→ notatie: µ voor het gemiddelde van een populatie & X voor het gemiddelde van
een steekproef (of M)
= Gemiddelde van populatie
= Gemiddelde van steekproef
Spreidingsmaten
o Variantie: de gemiddelde gekwadrateerde afwijking van het gemiddelde
1) Voor elke observatie bereken je de afwijking (deviatie) van het gemiddelde.
2) Kwadrateer alle deviaties die je in stap 1 hebt berekend.
3) Neem de som van alle gekwadrateerde deviaties uit stap 2.
4) Bepaal het totaal aantal observaties, we noemen dat aantal n of N.
5) Deel de som van de gekwadrateerde deviaties door het totaal aantal
observaties.
➢ 𝜎2 = variantie voor een populatie
➢ s2 = variantie voor een steekproef
o Standaard deviatie: de wortel van de variantie. Handig om te hebben omdat het
uitgedrukt wordt in dezelfde eenheden als de observaties, i.p.v. die kwadraten in de
variantie.
1) Bereken de variantie.
3
, 2) Neem de wortel van de variantie
Hoorcollege 2
Kans: de relatieve frequentie van de uitkomst
D.w.z. hoe vaak komt de uitkomst voor in verhouding tot het totaal aantal observaties
Kansverdelingen laten de kans zien op elke mogelijke uitkomst voor een random variabele.
→ bij elkaar opgeteld zijn deze kansen altijd 1!!
Discrete en continue kansverdelingen
❖ Discreet:
o Kansen op de y-as
o Uitkomsten van de variabelen op de x-as
o Notatie voor de kans van een bepaalde uitkomst: P(uitkomst)
Kansrekenregels:
✓ Een kans is altijd tussen 0 en 1
✓ De kansen voor alle uitkomsten voor een variabele tellen samen op tot 1
✓ Voor mutueel exclusieve gebeurtenissen A en B: P(A of B) = P(A) + P(B)
→ vb. de kans op een aas of een heer is P(aas) + P(heer)
✓ Complementregel: P(A) = 1 – P(NIET A)
→ vb. de kans op harten is 1 – P(klaveren, schoppen, ruiten)
✓ Voor NIET-mutueel exclusieve gebeurtenissen A en B: P(A of B) = P(A) + P(B) –
P(A én B)
→ vb. de kans op harten of dame is P(harten) + P(dame) – P(harten én dame)
Mutueel exclusief houdt in dat de ene optie alleen kunnen voorkomen als de andere
niet voorkomt. Zo kan je als je 1 kaart pakt niet aas en heer pakken, maar wel harten
en dame
4