Hoofddoelen statistiek
• Samenvatting van gegevens middels beschrijvende statistiek (inleiding onderzoek).
o Het samenvatten van kenmerken van een dataset. Het beschrijven van variabelen uit en
onderzoek/steekproef. Een grote hoeveelheid data terugbrengen/samenvatten zodat het
overzichtelijk is.
§ Plaatjes maken
§ Berekenen samenvattingsmaten
§ Normale verdeling
§ Kansrekening
• Aangeven van onzekerheid middels inferentiële statistiek (statistische modellen I en II).
o Het toetsen van hypotheses of het bepalen of data generaliseerbaar zijn naar een
bredere populatie. Voorspellen/generaliseren. “Houdt zich bezig met generaliseren van
uitkomsten.”
§ Wat zegt de steekproefuitkomst over de populatie?
§ Veel onderzoek is gebaseerd op steekproeven.
§ Toch vaak uitspraken doen over een grotere groep (populatie)
• Het terugbrengen van gegevens naar getallen brengen risico’s met zich mee. Een tentamencijfer
weerspiegelt niet altijd de kennis van de student.
Terminologie
• Populatie: groep waarvan de onderzoeker eigenschappen wil weten.
• Parameter: numerieke samenvatting van gegevens/eigenschap in de populatie.
• Steekproef: subgroep uit de populatie die onderzocht wordt.
• Statistic/schatter: numerieke samenvatting van gegevens/eigenschap in de steekproef. Hiermee
schatten we de parameter.
,Doel in onderzoek
Steekproef à Populatie
Statistic à Parameterschatting
• We vinden iets in een steekproefà Wat betekent dit in de populatie?
Hoe?
• Beschikbaar: theorie (stel we zouden de populatie kennen. Wat kan er allemaal uit een
steekproef komen?)
Populatie à Steekproef Stel: we zouden populatie kennen.
Parameter à Statistic Wat kan er allemaal uit steekproef
komen?
Nodig in praktijk: is omgekeerde stap
Parameterschatting ß Statistic
De centrale limietstelling stelt dat gegevens een normale verdeling aannemen wanneer je maar vaak
genoeg een steekproef trekt. Die maakt dat er redelijk goed iets gezegd kan worden over een bepaalde
steekproef. Wanneer er een groot verschil wordt gevonden tussen de statistic en de nulhypothese (en
grote steekproef) is het waarschijnlijk dat de nulhypothese waar is.
Inferentiële statistiek
• Voorbeeld: het gemiddelde in de steekproef kun je gebruiken om:
o Het gemiddelde in de populatie te schatten
o Kansuitspraken te doen over het gemiddelde in de populatie
• Nodig om kansuitspraken te doen:
o Steekproevenverdeling
o “Wat gebeurt er wanneer we het over zouden doen?”
Steekproevenverdeling
Waar heb je steekproevenverdelingen voor nodig?
1. Betrouwbaarheidsintervallen: foutenmarge
2. Toetsen: p-waarde
Wanneer je heel vaak steekproeven neemt, en deze groot genoeg zijn, dat zullen deze niet ver afliggen
van de parameter waar je naar op zoek bent. Daarnaast vormen de steekproeven een patroon. Meer
massa ligt dichtbij, minder massa bevindt zich aan de zijkant.
Twee methoden voor inferentie
1. Betrouwbaarheidsintervallen: indicatie van de parameter van waar de paramater ongeveer ligt.
(bij herhaald steekproeftrekken)
2. Hypothesetoetsen (=significantietoetsen): “De kans op deze steekproefuitkomst is zo klein als de
nulhypothese waar zou zijn, dat het onwaarschijnlijk is dat de populatiegrootheid die waarde
(𝐻# ) heeft.”
à Populatie en steekproef
,1. Betrouwbaarheidsintervallen
Een betrouwbaarheidsinterval wordt gemaakt om een steekproef/statistic en is gebaseerd op
steekproevenverdeling rond een parameter (bijv. 𝜇, 𝜋)
• Middelste …% van de verdeling
• Afstand tot het midden = foutenmarge
• Foutenmarge (marging of error): kritieke waarde × SE
(standaardfout)
• Altijd rond de steekproefuitkomst (statistic staat onder de top)!
• Iedere keer een ander interval
• Met als doel: het schatten van de parameter
• Algemeen: informatiever dan significantietoets
Interpretatie betrouwbaarheidsinterval
• Als we heel vaak een betrouwbaarheidsinterval op deze manier zouden opstellen, zou dit in …%
van de gevallen de parameter omvatten.
Of
• Als ons betrouwbaarheidsinterval de parameter omvat (en dat is het geval in …% van de
steekproeven), dan ligt de parameter tussen [ondergrens] en [bovengrens].
En dus niet
• We zijn nu 95% zeker dat de parameter ligt tussen [ondergrens] en [bovengrens].
Vaste opbouw van een betrouwbaarheidsinterval
• Statistic ± foutenmarge
Ofwel
• Statistic ± kritieke waarde x SE (standaardfout)
Toetsen (hypothesetoets/significantietoets)
• Nulhypothese: een populatiegrootheid heeft een bepaalde waarde.
• Alternatieve hypothese: de populatiegrootheid heeft die waarde niet (groter, kleiner, ongelijk)
à Probeer de nulhypothese te verwerpen.
Voorbeeld: 𝐻# : 𝜇 = 0 versus 𝐻# : 𝜇 ≠ 0
Gebaseerd op een toetsingsgrootheid (test statistic):
𝑆𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 − 𝐻#
𝑍 𝑜𝑓 𝑇𝑠𝑡𝑒𝑒𝑘𝑝𝑟𝑜𝑒𝑓 =
𝑆𝐸
, P-waarde
Een p-waarde is de kans om te vinden wat wij in onze steekproef gevonden hebben, óf extremer,
wanneer in werkelijkheid de nulhypothese waar zou zijn.
• P-waarde is een mate voor de mate van bewijs.
• Hoe kleiner de p-waarde is, des te meer bewijs is er tegen de nulhypothese. Dat wil zeggen hoe
onwaarschijnlijker de nulhypothese is.
• Hoe klein is p?
o Vergelijk met significantieniveau 𝛼.
Interpretatie uitkomst significantietoets
• 𝑝 < 𝑎: P-waarde is kleiner dan alfa: significant. “Er lijkt bewijs tegen de nulhypothese” (maar dit
hoeft niet per se sterk bewijs te zijn).
o Wanneer de p-waarde kleiner is dan de alfa, mag 𝐻# verworpen worden. Er is dan
voldoende bewijs tegen de nulhypothese. En mag gesteld worden dat de alternatieve
hypothese 𝐻A waarschijnlijk waar is. Het resultaat is dan wel significant.
• 𝑝 > 𝑎: P-waarde is groter dan alfa: niet significant. “Geen idee of er een populatie-effect is” (en
dus niet: “er is waarschijnlijk geen populatie-effect”).
o Wanneer de p-waarde groter is dan de alfa, mag 𝐻# niet verworpen worden. Er is dan
onvoldoende bewijs tegen de nulhypothese. Het resultaat is dan niet significant.
NB: wees voorzichtig! Rigide interpretaties zijn zelden wenselijk!
Vaste opbouw van een toets
• Test statistic (toetsingsgrootheid): “hoeveel standaardfouten ligt de gevonden uitkomst van de
waarde onder de 𝐻# af.”
• P-waarde: wat is de kans op minstens de gevonden test statistic als de nulhypothese waar zou
zijn.
Waarom test statistics (bijv. t, z)?
• Je wilt kansen verbinden aan scores.
o Bijvoorbeeld: hoe lang zijn de langste 10% van de mensen?
• Kans vaak niet rechtstreeks op te zoeken.
• Wel indirect als je test statistic als tussenstap gebruikt!
• Scores: bijv. T = (𝒚 − 𝜇) / (𝑠/√𝑛)
• Test-statistic: bijv. opzoeken t-waarde in Tabel B
• Kansen: Bijv. 0.05 < P(t) < 0.10
Problemen met significantietoetsing
1. Complexe redenatie: heel vaak fouten bij het interpreteren van de resultaten.
2. Slechts twee mogelijke uitkomsten: wel/niet significant:
a. Onnodige en schadelijke reductie van informatie
3. Kan leiden tot gebruik questionable research practices.
a. Onderzoekers proberen om significante resultaten te vinden omdat deze interessanter
zijn dan niet-significante resultaten.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper Puck1207. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,89. Je zit daarna nergens aan vast.