Samenvatting Correlationele Onderzoeksmethoden
Tutorial 0
Steekproevenverdeling van het gemiddelde = verdeling van alle gemiddelden, wanneer je duizenden
keren een random steekproef trekt uit de populatie en het gemiddelde in elke steekproef berekent
Steekproeffluctuaties = het gemiddelde in elke steekproef is een beetje anders
Nulhypothese toetsing = hypothese toetsen door de waarde van de steekproef te vergelijken met de
steekproefverdeling die je zou verwachten onder de nulhypothese → conclusies trekken over de
populatie → nulhypothese (𝐻0 ) (= min of meer je ‘gok’) en alternatieve hypothese (𝐻1 )
Teststatistiek/toetsingsgrootheid = geeft het verschil weer tussen het steekproefgemiddelde en het
aangenomen populatiegemiddelde onder 𝐻0 , waarbij rekening gehouden wordt met
steekproeffluctuaties. Bijv. t- of z-waarde
Significantieniveau = bijv. 𝛼 = 0.05→ 5% meest extreme gemiddelden die je gevonden zou kunnen
hebben als 𝐻0 waar is → kritiek gebied → toetsingsgrootheid valt hierbuiten: onvoldoende bewijs om
𝐻0 te verwerpen; toetsingsgrootheid valt erbinnen: wel voldoende bewijs om 𝐻0 te verwerpen
Standaardfout = de standaarddeviatie van de steekproefverdeling
𝜎𝑥
𝜎𝑥̅
√𝑁
P-waarde = de kans op een t-waarde die gelijk of groter is dan de gevonden t-waarde en de kans op
een t-waarde die gelijk of kleiner is dan de minvariant van de gevonden t-waarde, wanneer je een
andere steekproef trekt met dezelfde N en van dezelfde populatie, op het moment dat de
nulhypothese waar is → bijv. Gelijk aan of groter dan 1.783 en gelijk aan of kleiner dan -1.783
Type I fout = het onterecht verwerpen van 𝐻0 , m.a.w. 𝐻0 verwerpen als deze waar is. De kans op deze
fout is gelijk aan het significantieniveau (𝛼)
Type II fout = het onterecht niet verwerpen van de nulhypothese, m.a.w. 𝐻0 niet verwerpen als 𝐻1
juist is. De kans op deze fout wordt beïnvloed door het significantieniveau, de effectgrootte en de
steekproefgrootte. Type II fout is 𝛽
1
,Power = de kans om 𝐻0 te verwerpen als 𝐻1 waar is, m.a.w. terecht verwerpen van 𝐻0 . Wordt
beïnvloed door het significantieniveau (> 𝛼 → > power), effectgrootte (> effect → > power) en
steekproefgrootte (> N → > power). Power is 1 − 𝛽
Hoorcollege 1
Steekproeftrekking
Simple random design = elk element in de populatie heeft dezelfde kans om in de steekproef
te komen → heb je het liefst
Stratified sampling = populatie wordt opgedeeld in strata (geslacht, leeftijd, etc.); binnen elk
stratum wordt een volledig aselecte steekproef getrokken
Convenience sampling = steekproef bestaat uit diegene die voorhanden zijn, bijv. Aanwezigen
in kantine, eerstejaarsstudenten psychologie
Centrummaten = waar zit de steekproef?
Gemiddelde = som van alle cijfers of aantallen/ aantal personen
∑𝑁
𝑖=1 𝑋𝑖
𝑋̅ =
𝑁
Mediaan = middelste score → ene helft hoger, andere helft lager
Modus = meest frequent geobserveerde score
Spreidingsmaten = hoeveel verschil?
Variantie = spreiding in de testscores, moeilijk te interpreteren
∑𝑁 ̅ 2
𝑖=1(𝑋𝑖 − 𝑋 ) 𝑆𝑆
𝑆𝑋2 = =
𝑁−1 𝑁−1
Standaarddeviatie = gemiddelde afstand tot het gemiddelde waar de meeste scores in liggen;
wortel van de variantie
𝑆𝑋 = √𝑆𝑋2
2
,Nulhypothese testen
1. De nulhypothese en de alternatieve hypothese formuleren
2. Een beslisregel maken, bijv. Als p-waarde < 0.05 dan verwerpen we de nulhypothese → bij
tweezijdig: p < α ; bij eenzijdig: p/2 < α of 1-p/2 < α
3. De t- en p-waarde uit de output halen
4. Wel of niet verwerpen van de nulhypothese en een conclusie trekken
Als de waarde onder de nulhypothese niet in het betrouwbaarheidsinterval van de
gevonden waarde in de steekproef valt, is er een significant resultaat → de
nulhypothese is dan geen goede ‘gok’ en daardoor verwerp de nulhypothese → bijv.
je vindt in de steekproef een correlatie van 0.87, terwijl je nulhypothese was dat de
correlatie 0.80 is. Op het moment dat je een betrouwbaarheidsinterval opstelt rondom
de gevonden steekproefwaarde en de veronderstelde waarde onder 𝐻0 hier niet invalt,
verwerp je 𝐻0
Betrouwbaarheidsinterval (CI) = bijv. 𝐶𝐼95 → wanneer we het experiment keer op keer herhalen, bevat
het 95% betrouwbaarheidsinterval in 95% van de gevallen de echte waarde, bijv. 𝜇 of 𝜌 → op basis
van de gevonden data is dit de meest waarschijnlijke range waarbinnen de echte waarde zal liggen. Op
het moment dat er 90% zekerheid wordt gehanteerd i.p.v. 95%, wordt het betrouwbaarheidsinterval
smaller, waardoor je meer nauwkeurigheid/precisie hebt, maar minder zekerheid
Meetniveaus
Categorisch = bepaalde categorieën, bijv. man-vrouw, wel/geen diagnose
Kwantitatief = schaal, bijv. leeftijd, IQ
Onderzoeksdesigns
Experiment = probability sampling (bijv. simple random sampling, stratified sampling) +
random toewijzing aan condities + ‘actieve’ manipulatie
Quasi experiment = probability sampling + geen random toewijzing aan condities + ‘actieve’
manipulatie
Correlationeel (niet-experimenteel) = probability sampling + geen random toewijzing aan
condities + geen ‘actieve’ manipulatie
Pearson’s Correlatie Coëfficiënt = maat voor lineaire samenhang, waarbij 𝝆= correlatie in de populatie
en r = correlatie in de steekproef en -1 ≤r ≤ 1. Een correlatie van r = 0 betekent: er is geen lineaire
samenhang, maar misschien is er wel sprake van niet-lineaire samenhang
P-waarde = de kans op de gevonden data (r) of nog extremer (nog verder bij 0 vandaan), gegeven dat
𝐻0 (𝜌 = 0) waar is
3
,Hoorcollege 2
Betrouwbaarheidsinterval voor correlaties → hoeven niet symmetrisch te zijn, dat wil zeggen dat de
steekproefwaarde r niet precies in het midden van het CI ligt (door gebruik van Fisher transformaties).
Er geldt dat wanneer >CI → breder CI, <N → breder CI (bij meer info heb je meer zekerheid) en dat
wanneer 0 niet in het interval voorkomt, de correlatie significant is
𝐻0 : 𝜌 = 0 𝑒𝑛 𝐻1 : 𝜌 ≠ 0 → t-toets in SPSS
𝐶𝐼(1−𝛼)100% = 𝑟 ± 𝐶𝑟𝑖𝑡. 𝑉𝑎𝑙.(𝛼,𝑡𝑤𝑜−𝑡𝑎𝑖𝑙𝑒𝑑) × 𝑆𝐸(𝑟)
Aannames bij het toetsen van correlatiecoëfficiënt
- Onafhankelijk van elkaar gekozen personen
- X en Y zijn bivariaat normaal verdeeld
○ Bivariaat normaal = de puntenwolk heeft de vorm van een sigaar
- X en Y zijn lineair gerelateerd
○ Lineair = de punten in de puntenwolk liggen rondom een rechte lijn
- Aanname van homoscedasticiteit = de spreiding van X gegeven Y is hetzelfde voor elke Y
Power en kanskapitalisatie
- Bij een grotere N wordt het betrouwbaarheidsinterval kleiner en neemt de power toe
- Om kleinere effecten (𝜌 is klein) aan te tonen, is een grotere N nodig
- Wanneer er meerdere correlaties tegelijk gerapporteerd worden, neemt de kans op een type I
fout toe → het kan zo zijn dat als er helemaal geen correlatie is, er toch een significant effect
gevonden wordt
○ Cross-validatie
○ Bonferroni-correlatie
Richtlijnen voor de interpretatie van de sterkte van de correlatie
r Interpretatie sterkte samenhang
0.90 tot 1.00 Zeer sterk tot perfect
0.70 tot 0.90 Sterk tot zeer sterk
0.50 tot 0.70 Matig tot sterk
0.30 tot 0.50 Zwak tot matig
0.00 tot 0.30 Geen tot zwak
4
,Gekwadrateerde correlatie 𝒓𝟐𝑿𝒀 = proportie verklaarde variantie = gemeenschappelijke variantie in X en
Y = proportie van de variantie in X die je lineair kunt voorspellen uit Y (en andersom) → samenhang
tussen X en Y betekent dat je Y kunt voorspellen uit X (en andersom). De grafische weergaves hiervan
duiden we aan met ballantines. Bijv. stel ‘aantal uren’ en ‘tentamencijfers’ correleren met 0.40 →
0.402 = 0.16→ 16% van de verschillen in tentamencijfers kan verklaard worden door verschillen in
mate van voorbereiding OF depressie en angst correleren met 0.60 → 0.602 = 0.36 → verschillen in
angst representeren voor 36% ook verschillen in depressie en andersom
‘Verklaringen’ voor de gevonden samenhang tussen X en Y
- Direct = X --------> Y
- Indirect = X --------> Z --------> Y (via mediator Z) → Bijv. positieve correlatie introversie en
slapeloosheid: introversie → piekeren → slapeloosheid
- Spurieus = X <-------- Z --------> Y → Bijv. positieve correlatie tussen boeken lezen en
gezondheid: gemeenschappelijke oorzaak opleiding
Correlatie = maat voor de lineaire samenhang van twee variabelen. De pijl wijst twee kanten op →
𝑋1 <--------> 𝑋2
Lineaire enkelvoudige regressiemodel = lineair (= rechtlijnig) verband tussen X en Y. Dit lineaire
verband betekent dat we Y kunnen voorspellen uit X met een rechtlijnige functie → 𝑌 ′ = 𝑏0 + 𝑏1 𝑋
Intercept = parameter van het model. Voorspelde waarde van Y’ wanneer iemand 0 op X
scoort; in de praktijk meestal niet super interessant. Bijv. Het voorspelde cijfer wanneer
iemand 0 uur heeft gestudeerd; 𝒃𝟎
𝑏0 = 𝑌̅ − 𝑏1 𝑋̅ / 𝑌̅ = 𝑏0 + 𝑏1 𝑋̅
Regressiecoëfficiënt = parameter van het model. De verandering in Y’ wanneer X met één
eenheid toeneemt; de hellingshoek van de lijn. Bijv. de verandering in het cijfer als iemand 1
uur langer studeert; 𝒃𝟏
Voorspellingsfout = de voorspelde waarde voor Y aftrekken van de daadwerkelijk
geobserveerde waarde voor Y → 𝑌 − 𝑌′
o De gemiddelde voorspellingsfout is precies 0
o De variantie van de voorspellingsfouten is hetzelfde als de onverklaarde variantie
5
,Enkelvoudige lineaire regressieanalyse = één onafhankelijke variabele X en één afhankelijke variabele Y.
De pijl gaat één kant op → X --------> Y. Bijv. Uren studeren --------> Tentamencijfer. Met
regressieanalyse zoek je de best passende rechte lijn waarbij je bijv. Tentamencijfer (Y) zo goed
mogelijk kunt voorspellen uit de voorbereidingstijd (X)
1. Bepaal de best passende rechte lijn - dat wil zeggen de waarden voor de coëfficiënten (𝒃𝟎 en
𝒃𝟏 ) - waarmee we Y zo goed mogelijk kunnen voorspellen uit X
o De lijn waarvoor de voorspellingsfouten (𝑒𝑖 ) het kleinst zijn → kies 𝑏0 en 𝑏1 zo dat de
𝑒𝑖 zo klein mogelijk is; ‘kleinste kwadraten schatter’ (Least Squares). De kleinste
kwadratenschattingen voor 𝑏0 en 𝑏1 kan men eenvoudig berekenen uit de correlatie
(𝑟𝑋𝑌 ) en de standaarddeviaties (𝑠𝑋 en 𝑠𝑌 ). De regressielijn gaat altijd door het snijpunt
van de gemiddelden
𝑁 𝑁
′𝑘𝑙𝑒𝑖𝑛𝑠𝑡𝑒 𝑘𝑤𝑎𝑑𝑟𝑎𝑡𝑒𝑛 𝑠𝑐ℎ𝑎𝑡𝑡𝑒𝑟 ′ (𝐿𝑒𝑎𝑠𝑡 𝑆𝑞𝑢𝑎𝑟𝑒𝑠) = ∑ (𝑌𝑖 − 𝑌𝑖′ )2 ∑ 𝑒𝑖2
𝑖=1 𝑖=1
Kleinste kwadratenschattingen voor 𝑏0 en 𝑏1 kan men eenvoudig berekenen uit de
correlatie (𝑟𝑋𝑌 ) en de standaarddeviaties (𝑠𝑋 en 𝑠𝑌 )
𝑆𝑌
→ 𝑏1 = 𝑟 ∙ en 𝑟 = ∑(𝑍𝑋 ∙ 𝑍𝑌 )/𝑁
𝑆𝑋
Waarbij 𝑍𝑋 = (𝑋 − 𝑋̅)/𝑆𝑋 en 𝑍𝑌 = (𝑌 − 𝑌
̅ )/𝑆𝑌
𝑏1 = 𝑏̂1 − 𝑏1
6
,2. Bepaal hoe goed je Y kunt voorspellen: via de individuele voorspellingsfouten
𝑒𝑖 = 𝑌𝑖 − 𝑌𝑖′
o Totale variantie 𝒔𝟐𝒀 wordt opgesplitst in twee delen: 𝒔𝟐𝒀′ en 𝒔𝟐𝒆
𝑆𝑌2 = 𝑆𝑌′
2
+ 𝑆𝑒2
o Proportie verklaarde variantie (van het totaal) = hoe goed voorspelt dit model? →
geeft aan welk deel van de totale variantie in Y je lineair kunt voorspellen uit X → ….%
van de variantie van …. wordt verklaard door ….; Multiple R-square: 𝑹𝟐𝒀𝑿
2
2
𝑆𝑌′
𝑅𝑌𝑋 =
𝑆𝑌2
2
𝑅𝑌𝑋
o Proportie onverklaarde variantie = 1 - proportie verklaarde variantie = 1 - 𝑹𝟐𝒀𝑿→ Wat
kun je nog niet voorspellen a.d.h.v. het aantal uren studeren?
7
, 3. Ga na in hoeverre je de resultaten mag generaliseren naar populatieniveau (m.b.v.
significantietoetsen, betrouwbaarheidsintervallen)
𝑏̂1 −𝑏1
𝐻0 : 𝑏1 = 0 𝑒𝑛 𝐻1 : 𝑏1 ≠ 0 met 𝑡 = en 𝑑𝑓 = 𝑁 − 2 (𝑁 − #𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑜𝑟𝑠 − 1)
𝑆𝐸(𝑏̂1 )
o 𝒃𝟏 verwijst naar de populatiewaarde
o ̂𝟏 verwijst naar de steekproefwaarde
𝒃
o Resultaten: bijv. De behoefte om erbij te horen heeft een positief lineair effect op de
mate van piekeren en het effect is significant op 5% niveau, b = 0.868, t(348) = 8.075,
p < 0.001, 𝑅 2= 0.158
DUS enkelvoudige regressieanalyse:
1. Hoe ziet het verband tussen X en Y eruit? → Best passende lijn bepalen →
𝑌 ′ = 𝑏0 + 𝑏1 𝑋 opstellen
2. Hoe sterk is het verband tussen X en Y? → 𝑅 2 = …. → ….% van de variantie van Y wordt
verklaard door X
3. Mogen we de resultaten uit de steekproef generaliseren?
Hoorcollege 3
Regressieanalyse geeft antwoord op de vragen:
1. Hoe ziet het lineaire verband eruit? Wat is de verandering in Y’ als X met één eenheid
toeneemt? Wat is de best passende lijn - die door het punt (𝑿̅, 𝒀̅ )loopt - waarbij de
gekwadrateerde voorspellingsfouten zo klein mogelijk zijn? → wat is de waarde van 𝒃𝟎 en 𝒃𝟏 ?
𝑌 ′ = 𝑏0 + 𝑏1 𝑋 𝑌𝑖 = 𝑌𝑖′ + 𝑒𝑖 𝑌𝑖 = 𝑏0 + 𝑏1 𝑋 + 𝑒𝑖
2. Hoe goed kunnen we Y voorspellen? Hoe sterk is het effect? Hoeveel van de variantie in Y
kunnen we verklaren door verschillen in X? → 𝑹𝟐
3. Mogen we de steekproefresultaten generaliseren naar de populatie? → statistische toets
Centraliseren = gemiddelde van waarde aftrekken
Gecentraliseerde score = 𝑋 − 𝑋̅
8