Samenvatting COM
Cursus: Correlationele onderzoeksmethoden 2020/2021
Opleiding: Bachelor Psychologie Tilburg University
Hoorcollege 1
Inleiding
Empirisch onderzoek bestaat uit verschillende aspecten:
1. Populatie versus sample/steekproef: Uit de populatie wordt een steekproef
getrokken. Hoe deze steekproef wordt getrokken staat bekend als sampling design
(steekproeftrekking). Er zijn verschillende manieren om een steekproef te trekken uit
de populatie:
- Simple random sampling, elk element in de populatie heeft dezelfde kans om in de
steekproef terecht te komen
- Stratified sampling, de populatie wordt opgedeeld in strata (geslacht, leeftijd, etc.);
binnen elk stratum wordt een volledig aselecte steekproef getrokken
- Convenience sampling, de steekproef bestaat uit de degenen die voorhanden zijn
(bijvoorbeeld aanwezigen in de kantine, eerstejaarsstudenten psychologie). Er zijn
nog vele andere vormen, maar in deze cursus wordt er uitgegaan van simple random
sampling. Steekproeffluctuaties zijn toevallige verschillen in steekproeven. Iedere
steekproef is net een beetje anders, ook al trek je ze uit dezelfde populatie; door een
zo groot mogelijke steekproef te trekken, worden de fluctuaties minder (en gaat het
steeds meer lijken op een normaalverdeling). Men denkt vaak dat de steekproef heel
representatief is voor de populatie: Belief in the Law of Small Numbers (Tversky &
Kahneman, 1971). Maar bij kleine steekproeven is dit dus zeker niet het geval en kan
de ene steekproef sterk variëren van de andere steekproef en zegt de steekproef ook
weinig over de populatie → bij voorkeur grotere steekproeven (lijkt meer op populatie
en meer power).
2. Beschrijvende versus toetsende statistiek: descriptives/beschrijvende
statistieken (SPSS) gaan over de steekproef. Steekproef data kan beschreven
worden door centrummaten:
n
Σ Xi
- Gemiddelde: x̄ = 1 : de som van de itemscores gedeeld door de participanten
n
- Mediaan: de score die de laagste helft scheidt van de hoogste helft: 2, 4, 7, 9, 10
dus 7
- Modus: de score die het meest voorkomt/de hoogste frequentie heeft: 2, 4, 7, 7, 8
dus 7
Of door spreidingsmaten:
n
Σ ( xi−x̄ )2
- Variantie: S = 1
2
: de som van de itemscore – het gemiddelde in het
n−1
kwadraat delen door de participanten-1
- Standaarddeviatie: √S2 : de wortel van de variantie
Met inferential statistics kijken we of de steekproef gegevens kunnen
generaliseren naar de algemene populatie. Twee populaire methoden zijn:
,- Nul hypothese significantie test: Eerst formuleren we de nul (H0 = …) en
alternatieve hypothese (H1 ≠ …). Als tweede maken we een beslisregel (als de p-
waarde < α verwerpen we H0) en als derde, halen we de t- and p-waarde uit de
output. Als laatste verwerpen we wel of niet de nulhypothese en trekken een
conclusie
- Betrouwbaarheidsinterval schatten: een betrouwbaarheidsinterval van 95% (CI 95%)
betekent dat wanneer een experiment keer op keer herhaalt wordt, het 95%
betrouwbaarheidsinterval in 95% van de gevallen de echte waarde bevat (van μ of ρ
bv.). Dit geeft de onzekerheid rondom de puntschatter weer.
3. Meetniveaus: de klassieke indeling bestaat uit nominaal, ordinaal, interval,
ratio. Voor Correlationele onderzoeksmethoden maken we onderscheid tussen:
- Categorische variabelen: geslacht, type opleiding, experimentele conditie,
diagnose, sociale klasse, ...
- Kwantitatieve variabelen: leeftijd, IQ scores, NEO-PI scores, tentamencijfers, scores
op een depressievragenlijst, ...
Het onderscheid tussen ordinaal en interval is vaak niet zo scherp als de meeste
statistiekboeken doen voorkomen.
4. Onderzoeksdesigns:
Probability Random toewijzing “actieve”
Sampling* aan condities manipulatie
Experimenteel JA JA JA
Quasi- JA NEE JA
experimenteel
Correlationeel (niet- JA NEE NEE
experimenteel)
* Simple Random Sampling, Stratified Sampling etc.
Pearson’s Correlatie Coëfficiënt is een mate voor lineaire samenhang die
wordt uitgedrukt in ρ (populatie) of r (steekproef). -1 ≤ r ≤ 1. Als r=0 is er geen lineaire
samenhang, maar er kan dus wel een andere samenhang zijn. Het toetsen van een
correlatie coëfficiënt ziet er als volgt uit:
H0: ρ = 0, H1: ρ ≠ 0
N−2
t-toets uitvoeren met t = 𝑟√ , df= N-2
1−r 2
SPSS geeft standaard de p-waarde van deze toets.
of
H0: ρ = c, H1: ρ ≠ c
En c is een getal tussen -1 en 1, maar niet 0
Uitvoeren met behulp van Z-scores en Z-toets
Niet in SPSS
De p-waarde is de kans op de gevonden data (r) of een score nog extremer
(dan 0), gegeven dat H0 (ρ = 0) waar is. Kies een significantieniveau, vaak .05 en kijk
of p < α. Als dat zo is verwerp H0.
, Hoorcollege 2
Belangrijke begrippen R Interpretatie
Richtlijnen voor de interpretatie van de samenhang
sterkte van de correlatie (Hinkle et al., p. .90 tot 1.00 Zeer sterk tot perfect
109) staan in de tabel weergegeven.
Richtlijnen zijn een handig hulpmiddel, .70 tot .90 Sterk tot zeer sterk
maar zijn dus ook afhankelijk van .50 tot .70 Matig tot sterk
context.
.30 tot .50 Zwak tot matig
Betrouwbaarheidsintervallen voor
de correlatie coëfficiënt worden als volgt .00 tot .30 Geen tot zwak
berekent: CI(1−𝛼)100% = 𝑟 -
Crit.Val(α,twotailed) × 𝑆𝐸𝑟, maar dit wordt op het tentamen altijd gegeven en hoeft
niet met de hand te worden berekent. Wat je wel moet weten is dat de CI’s voor
correlaties niet symmetrisch zijn, dat wil zeggen dat de steekproefwaarde 𝑟 niet
precies in het midden van het CI ligt (komt door gebruik van Fisher transformaties).
Voorbeeld uit het college:
𝑟𝑋𝑌=0.40, 𝑁=100→CI90%= [0.25;0.53]
- Wat gebeurt er met het interval als je 95% zekerheid hanteert (en de rest constant
houdt)? Het interval wordt groter, want als er meer waardes in het interval worden
opgenomen, is de kans groter dat de echt waarde zich in het interval bevindt.
- Wat gebeurt er met het interval als je 𝑁=50 hanteert (en de rest constant houdt)?
Het interval wordt groter, want er is minder informatie dus om meer zekerheid te
hebben, moet er een groter interval komen.
- Wat kan je concluderen wanneer 0 niet in het interval zit? Dan is de toets significant
bij een alfa van .010 in dit geval.
Bij het toetsen van correlaties worden er verschillende aannames gedaan:
- Onafhankelijk van elkaar gekozen personen: men spreekt ook wel van
onafhankelijke gekozen observaties; aan de aanname wordt voldaan bij simple
random sampling.
- 𝑋 en 𝑌 zijn bivariaat normaal verdeeld: de puntenwolk heeft de vorm van een sigaar.
- 𝑋en 𝑌 zijn lineair gerelateerd: de punten in de puntenwolk liggen rondom een rechte
lijn.
- De spreiding van 𝑋 14
gegeven 𝑌 is hetzelfde voor 12
elke 𝑌: dit is de aanname 10
van homoscedasticiteit.
Variabele x2
8
(als dit geschonden wordt,
6
ziet de puntenwolk eruit als
een toeter; zie voorbeeld) 4
2
0
0 1 2 3 4 5 6 7
Variabele x1
, Bij grotere N, wordt het betrouwbaarheidsinterval kleiner en de power neemt
toe. Power is de kans om H0 te verwerpen gegeven dat H1 waar is. Om kleinere
effecten (𝜌 is klein) aan te tonen, is een grotere N nodig. Doe vooraf een
poweranalyse! N > 100 (om aannames te checken en de invloed van outliers is
kleiner). Let op beperkte spreidingsbreedte of extreme groepen. Wanneer meerdere
correlaties tegelijk getoetst worden, neemt de kans op een Type I fout (onterecht
verwerpen van H0) toe. (Cross-validatie en Bonferroni-correctie). Correlaties laten
geen causale interpretatie toe, tenzij verkregen in een experimenteel onderzoek. Met
behulp van regressiemodellen (deze cursus) en structurele vergelijkingsmodellen
(SEM; dit wordt behandeld in een derdejaars cursus) kunnen we verschillende
theoretische verklaringsmodellen met elkaar vergelijken!
Verklaringen voor de gevonden samenhang tussen X en Y:
- Direct
X Y
- Indirect (mediator)
X Z Y
- Spurieus (gemeenschappelijke oorzaak)
X Y
Z
De correlatie is een maat voor een lineair samenhang waarbij de pijl tussen twee
variabelen dus twee kanten op wijst.
X Y
Bij de enkelvoudige regressie analyse is er één onafhankelijke variabele X en
één afhankelijke variabele Y, dus de pijl gaat één kant op, zoals bij de directe
samenhang. Momenteel gaan we er vanuit dat X en Y kwantitatieve variabelen zijn.
Er is een lineair verband tussen de variabelen dus we kunnen Y voorspellen uit X
met een lineaire functie:
Y’ = 𝑏0+𝑏1𝑋
Y is te voorspellen, indien X gegeven is. 𝑏0 (intercept) is de voorspelde waarde van
Y, indien X 0 is. 𝑏1 (regressie coëfficiënt) is de verandering in Y, als X met één
eenheid toeneemt. 𝑏0 en 𝑏1 worden de parameters van het model genoemd.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller melissauvt. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.82. You're not tied to anything after your purchase.