STATISTIEK A
GW5642PM
,Hoorcollege 1
Wat is statistiek?
De wetenschap van het verzamelen, samenvatten, presenteren en interpreteren van
data
• Nodig bij opzetten, uitvoeren en beoordelen van onderzoeken
• Essentieel onderdeel empirisch kwantitatief onderzoek
• Wordt gebruikt bij beschrijvend en toetsend onderzoek
Bij beschrijvend onderzoek willen wij gegevens en data simpelweg beschrijven. Dat
kan je doen door data visueel te presenteren.
-Frequentie tabel, kruistabel
-Grafieken
Data samenvatten; dus door enkele kerngetallen te berekenen
• Centrummaat, bijv. een gemiddelde of een mediaan
Stel: we zijn geïnteresseerd in het IQ onder de studenten van Statistiek A, dan
nemen wij bij iedereen een IQ test af en berekenen het gemiddelde IQ van 110.
• Spreidingsmaat: bijv. een standaardafwijking
Waarom is een spreidingsmaat belangrijk? Onder de studenten van statistiek A kan
je verwachten dat iedereen relatief gelijk is in termen van het IQ, de spreiding is
redelijk klein rond het gemiddelde van 110. Dit kan sterk verschillen bij bijv.
middelbare school onderwijs, waarbinnen 1 zelfde klas leerlingen zullen zitten met
een IQ van 110 maar ook 70-80
Bij toetsend onderzoek wil men voornamelijk antwoord geven op een bepaalde
vraag, meestal een ja/ nee antwoord aan de hand van statistiek.
Voorbeeld toetsend onderzoek:
‘Is de tevredenheid op de werkvloer hoger onder mannen dan onder vrouwen?’
Dan kan je in een bepaald bedrijf een enquête uitzetten en kijken of de gemiddelde
tevredenheid hoger is onder de mannen dan onder de vrouwen.
‘Is het percentage rokers in de leeftijdsgroep 18-25 jaar lager dan het percentage
rokers in de leeftijdsgroep 55-65 jaar?’
‘Heeft een patiënt een grotere kans op kwalitatieve zorg als zijn/ haar arts ervaring
heeft met de medische procedure?
,’Bij de Onderzoekscyclus vormt statistiek een belangrijk onderdeel voor empirisch
en kwantitatief onderzoek.
Leerdoel: De student kan de relatie tussen de begrippen
“populatie” en “steekproef” in eigen woorden toelichten;
Het selecteren van een kleiner aantal eenheden (steekproef)
uit een grotere gedefinieerde groep (populatie), waarbij je
veronderstelt dat je met de informatie verzameld in de
kleinere groep iets kan zeggen over de grotere groep.
Domein waar je probleemstelling over gaat = populatie
Selectie = steekproef
Deze data gaat uiteindelijk iets zeggen over totale populatie
Probleemstelling: focust op een bepaalde populatie. We willen bijvoorbeeld weten
wat het aantal rokers is onder de gehele Nederlandse populatie, dus alle
Nederlanders. Onderzoeksontwerp (design) & dataverzameling: We hebben een
duidelijk geformuleerde populatie, dat zijn in dit geval alle Nederlanders. We willen
van hen weten wie er roken, echter is het niet haalbaar om van iedereen dat te
weten te komen. Dus we trekken een steekproef door uit een lijst (steekproefkader)
met alle inwoners van Nederland random (dus op toevallige wijze) 1.000 individuen
uit te kiezen. Dat noemen we dan onze steekproef, om iets te kunnen zeggen over
het aantal rokers onder de Nederlandse bevolking.
Als je de analyse zorgvuldig hebt uitgevoerd en je hebt statische methodes
toegepast op de data, moeten wij uiteindelijk de data gaan rapporteren,
interpreteren en reflecteren over de resultaten. We willen uiteindelijk iets gaan
zeggen over inwoners van heel Nederland.
Het kan zijn dat de steekproef die je neemt per toeval heel veel of heel weinig rokers
bevat. Het toeval speelt dus een rol in hoeveel rokers je in je steekproef vindt. Indien
je een steekproef hebt met voornamelijk niet-rokers, kan het zijn dat het geen goede
afspiegeling/ weergave geeft van het échte aantal rokers in de populatie. Dit
fenomeen wordt sampling variatie genoemd.
In statistiek proberen we, gegeven die sampling variatie, toch iets te kunnen zeggen
over de gehele populatie.
Leerdoel: De student kan beargumenteren welke van de vier verschillende
meetniveaus van toepassing is op een bepaalde kans variabele;
Type variabelen
Wordt voornamelijk gebruikt om een onderscheid te maken in hoe we data
voorstellen, presenteren en samenvatten.
, 1) Numerieke variabele
a. Continue variabele: eigenschappen die in principe elk mogelijke
numerieke waarde kan aannemen -
Bijvoorbeeld salaris: kan bijna iedere waarde aannemen €1.500,
€1.500,24, €6.000,55
b. Discrete variabele: kan niet iedere waarde aannemen, maar enkel de
waarde van gehele ‘volledige’ getallen
Bijvoorbeeld: aantal bezoeken aan huisarts, dat kan 1,2 of 3 bezoeken
zijn maar geen 2,5 bezoek.
2) Categorische variabele
a. Ongeordende: verwijst meestal naar een bepaalde categorie waarin
geen volgorde van slecht naar beter (of lager naar hoger) in zit.
Bijvoorbeeld: in welke stad je woont, kan Amsterdam of Rotterdam zijn,
maar het ene is niet beter dan het ander (geen rangschikking)
b. Geordende: bevat een rangschikking tussen de categorieën.
Bijvoorbeeld: zelf gerapporteerde gezondheid: slecht – matig – goed –
uitstekend (natuurlijke ordening)
Het verschil met numerieke variabelen is dat het verschil tussen de categorieën niet
altijd hetzelfde is. Verschil tussen die categorieën is dus niet duidelijk meetbaar, en
is niet noodzakelijk even groot tussen de verschillende categorieën. De categorieën
zijn dus wel geordend, maar er is geen duidelijke afstand tussen de verschillende
categorieën.
Een veel voorkomende categorische (ongeordende of geordende) is een binaire of
een dummy variabele: dat is een variabele (eigenschap) die de waarde 0 of 1
aanneemt. Voorbeeld daarvan is geslacht:
→Waarde op de variabele vrouw is 0, waarde variabele man is 1
3) Proporties
a) Proporties (gaande van 0 naar 1)
b) Percentages (0 tot 100).
Voorbeeld is het percentage rokers in Nederland.
Typering van variabelen: Meetniveaus (4) van variabele
Wordt gebruikt om te weten welke analyses je moet doen. Dit wordt eerder bij
toetsend onderzoek gebruikt dan bij beschrijvend onderzoek.
Niveau Kenmerk Voorbeeld
Nominaal Onderscheidbaarheid subgroepen ▪ Woonplaats: R’dam, Parijs, Rome
▪ Psychiatrische stoornis: depressie, OCD,
paranoïde PS
▪ Geslacht: Man, Vrouw
Ordinaal + Ordening ▪ Inkomen:
< gemiddeld, gemiddeld, > gemiddeld
▪ Gezondheid: goed, slecht, matig
, ▪ Opleidingsniveau: MBO, HBO, WO
▪ Goud, zilver, brons
Interval + Vaste Meeteenheid ▪ Temperatuur: 10o, 20o of 30o
(Gelijke intervallen) Celsius 0o-100o
Farenheit 32o- 212o
Maar arbitrair (=willekeurig) start ▪ Intelligentie: IQ-score
en eindpunt ▪ pH-waarde
▪ 13:00/ 14:00/ 15:00
Ratio + Absoluut nulpunt ▪ Gewicht: 10 kg, 20 kg, 30 kg
▪ Aantal patiënten in de afgelopen maand: 0,
1, 2, 3 etc.
▪ Leeftijd in jaren
▪ Inkomen in euro’s
Nominaal: Een duidelijke onderscheidbaarheid tussen categorieën, maar geen
eenduidige ordening
Ordinaal: Duidelijk onderscheid tussen categorieën + tegelijkertijd een ordening
Interval: continue variabele die iedere waarde kan aannemen met een vaste
meeteenheid. Geen absoluut nulpunt: zoals temperatuur; de temperatuur kan 0
graden zijn, maar dat betekent niet dat er geen temperatuur is.
Ratio: vaste meeteenheid met een vaste afstand tussen alle waarden + absoluut
nulpunt!
Functioneel onderscheid tussen variabelen, bij toetsend onderzoek
• Afhankelijke variabele (y-variabele/ outcome variabele): wanneer we spreken
over een te verklaren variabele
• Onafhankelijke variabele (x-variabele): exposure/ identifying dus verklarende
variabele
Leerdoel: De student kan frequentieverdelingen tabelleren en in een grafiek
weergeven en vervolgens interpreteren;
Het analyseren, interpreteren en presenteren van data wordt bepaald door het type
data:
Categorische variabelen: → Grafische weergave: staaf- of taartdiagram
-Absolute frequenties
-Relatieve frequenties
Numerieke variabelen: → Grafische weergave: histogram of frequentiepolygoon