MTO-B MAW: Inleiding Statistiek
,HOORCOLLEGE 1
Definitie van statistiek
“Statistiek is de wetenschap, de methodiek en de techniek van het verzamelen, bewerken,
interpreteren en presenteren van gegevens.” – Wikipedia
1. “Statistiek is de methode of wetenschap van het waarnemen van verschijnselen en van
het weergeven van de uitkomsten in getallen en figuren.” – Van Dale
2. “Reeks wiskundige procedures om informatie te ordenen, samen te vatten en te
interpreteren.”– Granvetter & Wallnau
Figuur 1. Statistiek in de empirische cyclus
− Bij observatie kun je exploratieve statistiek gebruiken: om verbanden te vinden tussen
bepaalde variabelen.
− Bij toetsen maak je ook gebruik van statistiek. Dan ga je kijken welke conclusies je
kunt trekken op basis van de data waarover je beschikt.
Er zijn twee soorten statistiek:
1. Beschrijvende statistiek
− Gebruik: kwantitatieve samenvatting van informatie/data
− Relevante termen: summary statistics, gemiddelde, mediaan, modus, variantie,
standaarddeviatie, covariantie, frequentieverdeling, histogram etc.
2. Inferentiële statistiek
− Gebruik: als je data observeert. Maak inductieve inferenties van data (een
steekproef) naar een meer algemene situatie (de populatie).
− Relevante termen: sampling error, standaardfout, schatten, confidence,
intervals, margin of error, hypothesetoetsing etc.
→ Je gaat kijken hoe je data in de steekproef kunt samenvatten aan de hand van
beschrijvende statistiek. En je gaat kijken hoe je aan de hand van een steekproef iets
kunt zeggen over de populatie met behulp van inferentiële statistiek.
Voorbeeld inferentiële statistiek: van steekproef naar doelpopulatie
− Stel je voor dat je een bepaalde studie opnieuw zou doen, met hetzelfde aantal
participanten (steekproefgrootte), maar wel een nieuwe steekproef (simple random).
Zou je weer precies hetzelfde resultaat verwachten?
− Antwoord: nee, misschien heeft deze steekproef meer mensen waarvoor de methode
goed werkt of juist minder goed werkt etc. De resultaten zullen nooit precies hetzelfde
zijn.
, − Als we iets willen zeggen over een populatie op basis van een steekproef, dan moeten
we rekening houden met deze onzekerheid. De onzekerheid die komt van het nemen
van random steekproeven (steekproeffluctuaties).
Constante of random variabelen:
− Bijvoorbeeld variabele geslacht (X) is een random variabele, omdat het man of vrouw
kan zijn. Stel dat het alleen over vrouwen gaat is het constant.
− Random variabelen = variabelen waarvan de mogelijke uitkomsten het resultaat zijn
van een random fenomeen.
− Statistische notatie: meestal X of Y
− Specifieke uitkomsten en specifieke observaties worden opgeschreven met een kleine
x of y
− Bijvoorbeeld leeftijd is X en x4 = 23
Kwantificeren van random variabelen
− Het meetniveau van een variabele bepaalt wat voor betekenis de nummers die we
toewijzen hebben.
Er zijn 4 niveaus: nominaal, ordinaal, interval, ratio
De niveaus zijn cumulatief
− Het meetniveau van een random variabele bepaalt wat voor analyses je er op kunt
uitvoeren.
Meetniveaus van random variabelen
1. Nominale variabelen: toewijzen van mutueel exclusieve getallen aan de mutueel
exclusieve uitkomsten.
Voorbeelden:
▪ Geslacht: man of vrouw; 0 of 1
▪ Nationaliteit: Nederlands, Duits, Grieks, Pools; 0, 1, 2, 3
2. Ordinale variabelen: naast eigenschappen van nominale variabelen, is er een
betekenisvolle ordening in de mogelijke uitkomsten.
Voorbeelden:
▪ Dosering: laag, medium, hoog; 0, 1, 2
▪ Likert schalen: oneens, neutraal, eens; 0, 1, 2
3. Interval variabelen: naast eigenschappen van ordinale en nominale variabelen, zijn
de intervallen tussen elk van de geordende uitkomsten betekenisvol en dezelfde
grootte.
Voorbeelden:
▪ Temperatuur in graden Celsius en Fahrenheit
4. Ratio variabelen: naast de eigenschappen van nominale, ordinale en interval
variabelen, is er hier sprake van een absoluut nulpunt: een nul betekent dat de gemeten
eigenschap afwezig is.
Voorbeelden:
▪ Dosering in milligram: 0 mg, 1 mg, 2 mg
▪ Lengte in cm: 0 cm – geen lengte
▪ Temperatuur op de Kelvin schaal: 0 graden – geen temperatuur
Discrete vs. continue random variabelen
Het type variabele bepaalt wat voor analyses we er beter wel of niet op uit kunnen
voeren.
, − Discrete variabele: de mogelijke uitkomsten voor de variabelen zijn te vangen in een
eindige telbare lijst van waarden.
Let op! Als de gemeten score discreet is, hoeft de onderliggende variabele dat niet te
zijn. (Bijvoorbeeld leeftijd afgerond op hele jaren meten, dit betekent niet dat leeftijd
altijd discreet is als je het meet. Leeftijd heeft namelijk oneindige aantal waardes).
Voorbeelden:
▪ Aantal bestellingen per week (4 en niet 4,4)
▪ Dosering categorieën (laag, medium, hoog)
▪ Aantal kinderen per gezin
▪ Sekse categorieën (man, vrouw)
▪ Beroepsgroep (docent, advocaat, tandarts)
Nominale en ordinale variabelen zijn over het algemeen discreet. Maar discrete
variabelen zijn niet per se nominaal of ordinaal.
− Continue variabele: de mogelijke uitkomsten van de variabelen kunnen elke waarde
aannemen binnen een bepaald interval (dat interval zou kunnen lopen van -oneindig
tot oneindig).
Voorbeelden:
▪ Leeftijd (niet afgerond)
▪ Hoeveelheid gedronken alcohol
▪ Dosering in grammen
▪ Lengte
Continue variabelen hebben over het algemeen interval/ratio niveaus. Maar
interval/ratio variabelen zijn niet per se continue.
-----------------------------------------------------------------------------------------------------------------
Mogelijke tentamenvraag:
Een ziekenhuis is geïnteresseerd in het gezinsleven en de leef-werk balans van hun
medewerkers en zet daarom een survey uit. Aan elke werknemer wordt gevraagd hoeveel
kinderen zij hebben.
Stelling: de resulterende variabele, namelijk het aantal kinderen voor elke werknemer, is een
discrete variabele met een ratio meetniveau.
Juist, (er is een absoluut nulpunt, want 0 kinderen betekent geen kinderen en je kunt
niet 1,5 kinderen hebben).
-----------------------------------------------------------------------------------------------------------------
Frequentieverdelingen en kansverdelingen
− Frequentie (van de uitkomsten van een random variabele): hoe vaak een bepaalde
uitkomst is geobserveerd.)
− Frequentieverdelingen: een tabel of grafiek die weergeeft hoe vaak een bepaalde
uitkomst is geobserveerd voor elke mogelijke uitkomst voor die variabele.
− Kans: de relatieve frequentie van de uitkomst, hoe vaak de uitkomst voorkomt in
verhouding tot het totaal aantal observaties.
Kansverdelingen: een tabel of grafiek die weergeeft wat de kans op elke mogelijke
uitkomst is voor een random variabele. Alle kansen moeten optellen tot 1.