MTO-B Samenvatting
Hoorcollege 1
`Statistiek is de wetenschap, de methodiek en de techniek van het verzamelen,
bewerken, interpreteren en presenteren van gegevens.' (Wikipedia)
‘methode of wetenschap van het waarnemen van verschijnselen en van het
weergeven van de uitkomsten in getallen en figuren’ (Van Dale)
‘set of mathematical procedures for organizing, summarizing, and interpreting
information‘ (Gravetter & Wallnau boek)
Statistiek in de empirische cyclus
Beschrijvende Statistiek
Ordening van data en samenvatting van de kenmerken van de dataset.
Gebruik: Kwantitatieve samenvatting van informatie/data.
Relevante jargon: summary statistics, gemiddelde, mediaan, modus, variantie,
standaarddeviatie, covariantie, frequentieverdeling, histogram, etc.
Inferentiële Statistiek
Het generaliseren van waarnemingen, kenmerken, eigenschappen
uit steekproeven naar de gehele populatie.
Gebruik: Maak inductieve inferenties van data (een steekproef) naar een meer
algemene situatie (de populatie).
Relevante jargon: Sampling error, standaardfout, schatten, confidence intervals,
margin of error, hypothesetoetsing, steekproeffluctuaties, etc
1
,Data: random variabelen (X)
Variabele: een variabele is iets wat varieert
Variabelen waarvan de mogelijke uitkomsten het resultaat zijn van een random
fenomeen.
Statistische notatie: Meestal X, of Y.
Specifieke uitkomsten en specifieke observaties worden opgeschreven met een
kleine x of y
Notatie: Stel we noteren variable “age” als “X”, dan x 4=23.
Kwantificeren van Random Variabelen
Het meetniveau van een variabele bepaalt wat voor betekenis de nummers die we
toewijzen hebben.
o 4 niveaus: Nominaal, Ordinaal, Interval, Ratio
o De niveaus zijn cumulatief – elk niveau heeft de eigenschappen van de vorige
niveaus.
Het meetniveau van een random variabele bepaalt wat voor analyses je er beter
wel/niet op kan uitvoeren.
Meetniveaus van random variabelen
Nominale Variabelen
Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten.
Voorbeelden
o Geslacht: man, vrouw; 0, 1
o Nationaliteit: Nederlands, Duits, Grieks, Pools, etc ; 0, 1, 2, 3, etc.
o Teamnaam: rocket, galactic, magma; 0, 1, 2
Ordinale Variabelen
Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten.
Er is een betekenisvolle ordening in de mogelijke uitkomsten (maar afstanden
hebben geen betekenis).
Voorbeelden
o Dosering: laag, medium, hoog; 0, 1, 2
o Rangen: 1e plaats, tweede plaats, derde plaats; 0, 1, 2
o Likert schalen: Zeer oneens, oneens, neutraal, mee eens, zeer eens; 0,1,2,3,4;
o Leeftijdscategorieën: 9-13, 14-18, 19-30, etc.; 0,1,2, etc
Interval Variabelen
Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten.
Er is een betekenisvolle ordening in de mogelijke uitkomsten.
De intervallen tussen elk van de geordende uitkomsten is betekenisvol en dezelfde
grootte.
Voorbeelden
o Temperatuur in graden Celsius en Fahrenheit (maar geen absoluut nulpunt
die aangeeft dat er geen temperatuur is (tov lengte))
2
,Ratio Variabelen
Toewijzen van mutueel exclusieve getallen aan de mutueel exclusieve uitkomsten.
Er is een betekenisvolle ordening in de mogelijke uitkomsten.
De intervallen tussen elk van de geordende uitkomsten is betekenisvol en dezelfde
grootte.
“Absoluut nulpunt”: Een nul betekent dat de gemeten eigenschap afwezig is.
Voorbeelden
o Dosering in milligram: 0 mg, 1 mg, 2 mg, etc
o Lengte in cm (0 cm – geen lengte)
o Temperatuur op de Kelvin schaal (0 graden – geen temperatuur)
Discrete vs Continue random variabelen
Het type variabele bepaalt wat voor analyses we er beter wel/niet op uit kunnen voeren.
Discrete variabele
De mogelijke uitkomsten voor de variabelen zijn te vangen in een eindige, telbare
lijst van waarden.
Let op! Als de gemeten score discreet is, hoeft de onderliggende variabele dat niet te
zijn (bv. leeftijd afgerond op hele jaren).
Nb: Nominale/ordinale variabelen zijn over het algemeen discreet. Discrete
variabelen zijn niet per sé nominaal/ordinaal.
Voorbeelden:
o Aantal kinderen per gezin.
o Dosering categorieën (laag, medium, hoog)
o Sekse categorieën (man, vrouw)
o Beroepsgroep (docent, advocaat, tandarts, etc.
Continue variabele
De mogelijke uitkomsten van de variabele kunnen elke waarde aannemen binnen
een bepaald interval (dat interval zou kunnen lopen van –oneindig tot oneindig
Nb: Continue variabelen hebben over het algemeen interval/ratio niveaus.
Interval/ratio variabelen zijn niet per sé continu.
Voorbeelden:
o Leeftijd (niet afgerond)
o Hoeveelheid gedronken alcohol
o Dosering in grammen
o Lengte
3
, Mogelijke tentamenvraag:
Een ziekenhuis is geïnteresseerd in het gezinsleven en de leef-werkbalans van hun
medewerkers en zet daarom een survey uit. Aan elke werknemer wordt gevraagd hoeveel
kinderen zij hebben.
Stelling: De resulterende variabele, namelijk het aantal kinderen voor elke werknemer, is
een discrete variabele met een ratio meetniveau = juist
Frequentieverdelingen en Kansverdelingen
Frequentie (van de uitkomsten van een random variabele)
o Hoe vaak een bepaalde uitkomst is geobserveerd.
Frequentie verdelingen
o Een tabel of grafiek die weergeeft hoe vaak een bepaalde
uitkomst is geobserveerd, voor elke mogelijke uitkomst
voor die variabele
Kans
o De relatieve frequentie van de uitkomst
o D.w.z.: Hoe vaak de uitkomst voorkomt in verhouding tot het totaal aantal
observaties.
o 11 grote auto’s van de 54 observaties in totaal = 11/54 = .204
Kansverdelingen laten de kans zien op elke mogelijke uitkomst voor
een random variabele.
o Deze kansen moeten altijd optellen tot 1!
o 11/54 + 22/54 + 21/54 = .204+.407+.389 = 1
Beschrijvende Statistieken
Voor het samenvatten van variabelen en hun
kansverdelingen in een paar getallen.
Centrummaten
o Beschrijven het ‘centrum’ of ‘midden’ of
‘typische waarde’ voor een variabele.
o Modus, mediaan, gemiddelde.
Spreidingsmaten
o Beschrijven de variatie, spreiding, breedte van
een variabele.
o Bereik, variantie en standaarddeviatie.
Centrummaten: Modus
Modus: de uitkomst die het vaakst voorkomt, d.w.z,
de uitkomst met de hoogste frequentie.
Voorbeeld Stel je hebt de volgende cijfers gehaald: 7,7,8,6,9. De modus is 7
Centrummaten: Mediaan
Mediaan: de waarde die de hoogste helft van de data scheidt van de laagste helft
van de data. 50% van de data ligt boven deze waarde, en 50% ligt onder deze waarde
4