Correlationele onderzoeksmethodes
H2: Basic research concepts
Meetniveaus:
● Categorical/nominal variables: de levels van de variabele zijn categorieën. bv. de variabele
geslacht heeft twee categorieën, de onderzoeker kan ervoor kiezen om aan elke categorie een
cijfer toe te kennen (bv. man = 1 en vrouw = 2), maar deze cijfers hebben geen numerieke
betekenis (het is niet dat vrouw (2) hier hoger is dan man (1)).
● Quantitative variables: de levels krijgen cijfers toegekend die van betekenis zijn (bv. gewicht
of lengte), er zijn drie types van quantitative variables, namelijk:
o Ordinal scale: de cijfers die aan de quantitative variabele worden toegekend hebben
betekenis, maar er is niet bekent of het interval tussen twee cijfers steeds gelijk is (bv.
bij de top 3 meest verkochte boeken is het duidelijk dat het boek op plek 1 vaker
verkocht is dan de boeken op plaats 2 en 3, maar het is niet bekent of het verschil
tussen het aantal verkochte boeken van 1 en 2 even groot is als het verschil tussen
boek 2 en 3).
o Interval scale: de intervallen tussen de cijfers zijn steeds gelijk, en er is geen “true zero”
(een persoon kan een score van 0 halen, maar dat betekent niet dat het er helemaal
niet is (bv. een score van 0 op een IQ-test betekent niet dat iemand geen intelligentie
heeft)). Omdat er geen true zero is kunnen onderzoekers geen dingen zeggen zoals,
twee keer zo goed/drie keer slimmer.
o Ratio scale: de intervallen tussen de cijfers zijn steeds gelijk, en er is een “true zero” (en
score van 0 betekent dat iets er niet is). Bv. hoe vaak knippert iemand met zijn ogen in
een stress situatie. Omdat er hierbij wel een true zero is kan er wel gezegd wordt dat
iemand twee/drie keer zo goed is als iemand anders.
Vormen van steekproeftrekking:
Simple random sampling: elk element in de populatie heeft dezelfde kan om in de steekproef
terecht te komen.
Stratified sampling: de populatie wordt in strata opgedeeld (bv. leeftijd/geslacht), binnen elk
stratum wordt vervolgens volledig aselect een steekproef getrokken.
Convenience sampling: de steekproef bestaat uit diegene die voorhanden zijn (bv. aanwezige
in de kantine of eerstejaars psychologie studenten).
H7: sampling error and confidence intervals
Steekproeffluctuaties: kleine steekproeven zijn lang niet altijd representatief voor de populatie, met
kleine steekproeven kan de ene steekproef sterk variëren van de andere steekproef en daarom zegt
een kleine steekproef weinig over de populatie. Dus gebruik bij voorkeur grotere steekproeven (lijkt
meer op de populatie en hebben meer power).
Descriptive statistics: samenvatten van de data:
Centrummaten (measures of central tendency):
n
1
o Gemiddelde: X = ∑ X i
n i=1
o Mediaan: de middelste waarde als je de data van hoog naar laag sorteert.
o Modus: de waarde die het vaakste voorkomt.
Spreidingsmaten (measurs of dispersion):
, n
1
o Variantie: s2x = ∑ ( X − X )2
n−1 i=1 i
o √
Standarddeviatie: s 2x
Inferentiele statistiek
Wanneer we resultaten willen generaliseren naar de populatie zijn beschrijvende statistieken niet
genoeg, dus maken we gebruik van inferentiele statistiek om conclusies te trekken over de populatie
op basis van de informatie uit de steekproef.
Twee methodes hiervoor zijn:
Null hypothesis significance testing (NHST)
Betrouwbaarheidsinterval schatting
Null hypothesis significance testing
Stel en nul en alternatieve hypothese op.
Maak een beslisregel (als de p-waarde < α verwerpen wel H0).
Haal de t en p-waarde uit de output.
Besluit of de nulhypothese verworpen moet worden en trek een conclusie.
Betrouwbaarheidsinterval (CI) schatten
Definitie: wanneer we een experiment keer op keer herhalen bevat bij een 95%
betrouwbaarheidsinterval 95% van de gevallen de echte waarde (bv. µ).
De lower limit vind je met: M −( t 95 % × SEM )
De upper limit vind je met: M + ( t 95 % × SE M )
H9: issues in significant tests
Type I en II fouten:
Type I fout: H0 wordt ten onrechte verworpen, de kans op een type I fout is gelijk aan α.
Type II fout: H0 wordt niet verworpen terwijl H0 fout is, de kans op een type II fout is gelijk
aan β.
Onderzoeksdesigns
Random sampling Random toewijzing Actieve manipulatie
aan condities
Experiment Ja Ja Ja
Quasi-experiment Ja Nee Ja
Correlationeel Ja Nee Nee
H10: bivariate pearson correlation
De pearson’s correlatie coëfficiënt geeft een maat voor lineaire samenhang. De correlatie in een
populatie geven we aan met ρ en de correlatie in een steekproef wordt aangeven met r. Er geldt
altijd −1 ≤r ≤ 1, wanneer r gelijk is aan 1 zegt dit dat er geen lineaire samenhang is, maar dat
betekent niet meteen dat er helemaal geen samenhang is, er kan ook sprake zijn van een niet lineaire
samenhang.
Richtlijnen voor de interpretatie van de sterkte van de correlatie:
R Interpretatie sterkte samenhang
1,00 Perfect
0,50 sterk
0,30 Matig
, 0,10 Klein
0,00 Geen
Outliers: extreme waarde, outliers kunnen er
soms voor zorgen dat r relatief groot is, terwijl er
zonder deze outlier geen verband lijkt te zijn. Het
is dus van belang dat je altijd op outliers
controleerd, maar verwijder ze nooit zomaar.
Bivariate outliers: outliers die zowel op de
variabele X als op de variabele Y geen extreme
scoren laten zien, maar de combinatie tussen die
twee waarde is wel apart (bv. en erg hoge score
op X en een lage score op Y bij een voor de rest sterk positieve correltatie).
T-toets: t=r
√ N −2
1−r
2
, met df =N−2 .
Aannames bij het toetsen van correlatiecoëfficiënt:
De proefpersonen worden onafhankelijk van elkaar gekozen (er is gedaan aan simple random
sampling).
X en Y zijn lineair gerelateerd.
Er zijn geen extreme bivariate outliers.
X en Y moeten onafhankelijk geobserveerd worden.
X en Y moeten quantitative of dichotomous (bv. lidmaadschap van slechts twee groepen)
variabele zijn.
Power en kanskapitalisatie:
Bij een grotere N, wordt het betrouwbaarheidsinterval kleiner en neemt de power toe.
Om kleinere effecten aan te tonen is een grotere N nodig.
Wanneer meerdere correlaties tegelijk getoetst worden, neemt de kans op een type I fout
(ten onrecht verwerpen van H0) toe, dit komt doordat je bij bijvoorbeeld een 95%
betrouwbaarheidsinterval bij 5% (dus 1 op de 20) een type I fout maakt, dus als je meer dan
20 correlaties tegelijk toetst is de kans erg groot dat je met minimaal 1 type I fout te maken
hebt. Dit kan je voorkomen door:
o Replicatie
o Cross-validatie
o Bonferroni-correctie ( PCα =EW α ÷ k )(deel α door het aantal studies dat je uitvoert
(bv. een α van 0,05 bij 5 studies geeft een nieuwe α van 0,01 waardoor de kans op een
type I fout nog maar 1% is).
Berekenen van de Pearson’s r:
Bereken eerst de z-scores van X en Y z x =( X−M x ) ÷ s x en z y =( Y −M y ) ÷ s y
Bereken voor elke waarde z x × z y
Bereken de som van het product van de z-scores ∑ (z x × z y )
Deel de som van de producten van de z-scores door N-1, dan krijg je dus :
r =∑ (z x × z y )÷ ( N−1)