Hoorcolleges Correlationele Onderzoeksmethoden
Week 1
Deel 1. Populatie en steekproeven
• Aspecten van empirisch onderzoek:
- Steekproeven v s. populatie
- Beschrijvende vs. toetsende statistiek
- Meetniveaus (nominaal, ordinaal, interval, ratio)
- Experimenteel, quasi-experimenteel, correlationeel onderzoek
• Steekproeven vs. populatie
- Populatie: geïnteresseerde doelgroep van een onderzoeker
- Steekproef: een sample van random geselecteerde proefpersonen uit de populatie
o Informatie beschrijven: descriptives
o Uitkomst van de steekproef generaliseren naar de gehele populatie: inferentiële
statistieken
• Vormen van steekproeftrekking:
- Simple random sampling: elke element in de populatie heeft dezelfde kans om in de
steekproef terecht te komen
- Stratified sampling: de populatie wordt opgedeeld in strata (geslacht, leeftijd, etc.)
o Binnen elk stratum wordt een volledig aselecte steekproef getrokken
- Convenience sampling: de steekproef bestaat uit de diegene die voorhanden zijn
NB: er zijn nog vele andere vormen; bij toetsende statistiek zoals wij die toepassen in deze cursus
(hypothese toetsen, betrouwbaarheidsvalleen) gaan we (stilzwijgend) uit van simple random
sampling.
• Steekproeffluctuaties
- Elke steekproef kan er anders uit zien
- Voorbeeld: Wicherts & Bakker (2012)
o Maten extraversie bij steekproeven van n = 25
o µ = 64.0; σ = 10.8
o Veel verschillende steekproeven
- Men denkt vaak dat de steekproef heel representatief is voor de populatie. Dit heet ook wel:
Belief in the Law of Small Numbers (Tversky & Kahneman, 1971)
- Zeker bij kleine steekproeven is dit niet het geval en kan de ene steekpreof sterk variëren van
de steekproeven en zegt de steekproef ook weinig over de populatie → bij voorkeur grotere
steekproeven (lijkt meer op de populatie en meer power)
, • Beschrijvende statistiek (descriptives): samenvatten van de data
- Voorbeeld onderzoeksvraag: scoren studenten hoger dan een 6.0 op het tentamen van
Correlationele Onderzoeksmethoden?
- Steekproef van n = 30
- Data beschrijven → kijk naar:
o Centrummaten (measures of central tendency)
𝛴𝑋 𝛴𝑋
▪ Gemiddelde: µ = (populatie) of M = (steekproef)
𝑁 𝑛
▪ Mediaan: de score die de hogere helft van de lagere helft scheidt
▪ Modus: de score die het meest voorkomt (hoogste frequentie)
o Spreidingsmaten (measures of dispersion)
▪ Sum of squares (SS) = Σ(X - µ)2
𝛴 (𝑋−µ)2 𝑆𝑆
▪ Variantie: s2 = (steekproef) of s2 =
𝑛−1 𝑛−1
𝛴 (𝑋−µ)2 𝑆𝑆
▪ Standaarddeviatie: s = √ 𝑛−1 (steekproef) of s = √𝑛−1
- Terug naar voorbeeld: data
Deel 2. Inferentiële statistiek en p-waardes
• Inferentiële statistiek
- Wanneer we resultaten willen generaliseren naar de populatie zijn beschrijvende statistieken
niet genoeg
- We maken gebruik van inferentiële statistiek om conclusies te trekken over de populatie, op
basis van de informatie uit de steekproef
- Twee populaire methoden zijn:
o Null hypothesis significance testing (NHST)
o Betrouwbaarheidsinterval schatting
- Voorbeeld onderzoeksvraag: Is het gemiddelde tentamencijfer in de populatie (µ) gelijk aan
6.0?
• Null hypothesis significance testing (NHST)
- Eerst formuleren we de nul- en alternatieve hypothese
o H0 : µ1 = 6.0
o H1 : µ1 ≠ 6.0
- Als tweede maken we een beslisregel
o Als de p-waarde < α, dan verwerpen we de nulhypothese
o α = .05
- Als derde, halen we de t- en p-waarde uit de output
o t(29) = 1.815; p = .074
, - Als laatste verwerpen we wel of niet de nulhypothese en trekken we een conclusie
o We verwerpen de nulhypothese niet, want p > .05. Het gemiddelde cijfer voor het
tentamen is niet statistisch significant verschillend van 6
- Wat zou er gebeuren als we een eenzijdige t-toets zouden uitvoeren (H1 : µ > 6.0)?
o t-waarde zou in de kritieke waarde vallen en p zou .037 zijn, dus dan zou H0 wel
verwerpt mogen worden
Deel 3. Confidence intervals en onderzoeksdesigns
• Betrouwbaarheidsinterval schatten
- Voorbeeld
o 95% CI = [5.9429;7.1489]
o Deze reeks bevat waarschijnlijke waarden voor µ
• Betrouwbaarheidsinterval
- Definitie: wanneer we het experiment keer op keer herhalen, bevat het 95%
betrouwbaarheidsinterval in 95% van de gevallen de echte waarde
- Interpretatie: op basis van de gevonden data, zijn dit de meest waarschijnlijke waarden van µ
- Belang: geeft de onzekerheid rondom de puntschatter weer
- Verdeling van alle gemiddelden van de steekproeven
o Standaardfout (standard error, SEM): de standaarddeviatie van het gemiddelde
𝑆𝐷 𝜎
▪ SEM = of σM =
√𝑁 √𝑛
o 95% CI = X -/+ 2 · σM
, • Meetniveaus
- Klassieke indeling: nominal, ordinal, interval, ratio
- Voor Correlationele onderzoeksmethoden maken we onderscheid tussen:
o Categorische variabelen: geslacht, type opleiding, experimentele conditie, diagnose,
sociale klasse, etc.
o Kwantitatieve variabelen: leeftijd, IQ scores, tentamencijers, scores op een
depressievragenlijst, etc.
- Het onderscheid tussen ordinaal en interval is vaak niet zo scherp als de meeste
statistiekboeken doen overkomen. Zie Warner voor een discussie over het belang van
meetniveaus (nominaal, ordinaal, interval en ratio) vanuit een breder perspectief
• Onderzoeksdesigns
- Experimenteel
- Quasi-experimenteel
- Correlationeel onderzoek
Deel 4. Confidence intervals en
onderzoeksdesigns
• Samenhang tussen variabelen
- Voorbeelden
o Social trust en geboortegewicht
o Drankgebruik en schoolprestaties
o Aantal uren studies en tentamencijfer
o Etc.
• Pearson’s correlatie coëfficiënt (Hoofdstuk 10)
- Maat voor lineaire samenhang
- Notatie: ρ = correlatie in de populatie, r = correlatie in de steekproef
- -1 ≤ r ≤ 1
- r = 0 betekent: er is geen lineaire samenhang, maar misschien is er wel sprake van niet-
lineaire samenhang
• Voorbeelden
• Interpretatie van de correlatie als effectgrootte samenhang
- Richtlijnen voor de interpretatie van de sterkte
van de correlatie
o Richtlijnen zijn een handig hulpmiddel,
maar moet je niet al te strikt nemen; of
de samenhang als zwak, matig of sterk
kan worden gezien hangt af van de
specifieke toepassing/onderzoeksveld