Zeer uitgebreide samenvatting van de hoorcolleges van correlationele onderzoeksmethoden (MTO-D). Bevat alle hoorcolleges, aantekeningen, afbeeldingen met uitleg en uitgewerkte voorbeelden.
Topicwise Past Exam & Quiz Questions with detailed explanations and lecture summary for the topics "Moderation, Path Analysis, Binary Logistics Regression"
Topicwise Past Exam & Quiz Questions with detailed explanations and lecture summary for the topics "Adding a Third variable, Multiple regression with 2 predictors, Multiple regression with multiple pr...
How to pass CAT with an 8
All for this textbook (4)
Written for
Tilburg University (UVT)
Psychologie
Correlationele onderzoeksmethoden (424533)
All documents for this subject (23)
1
review
By: achaleito • 5 year ago
Seller
Follow
marleendejong
Reviews received
Content preview
Samenvatting Correlationele Onderzoeksmethoden
Tutorial 0
Steekproevenverdeling van het gemiddelde = verdeling van alle gemiddelden, wanneer je duizenden
keren een random steekproef trekt uit de populatie en het gemiddelde in elke steekproef berekent
Steekproeffluctuaties = het gemiddelde in elke steekproef is een beetje anders
Nulhypothese toetsing = hypothese toetsen door de waarde van de steekproef te vergelijken met de
steekproefverdeling die je zou verwachten onder de nulhypothese → conclusies trekken over de
populatie → nulhypothese (𝐻0 ) (= min of meer je ‘gok’) en alternatieve hypothese (𝐻1 )
Teststatistiek/toetsingsgrootheid = geeft het verschil weer tussen het steekproefgemiddelde en het
aangenomen populatiegemiddelde onder 𝐻0 , waarbij rekening gehouden wordt met
steekproeffluctuaties. Bijv. t- of z-waarde
Significantieniveau = bijv. 𝛼 = 0.05→ 5% meest extreme gemiddelden die je gevonden zou kunnen
hebben als 𝐻0 waar is → kritiek gebied → toetsingsgrootheid valt hierbuiten: onvoldoende bewijs om
𝐻0 te verwerpen; toetsingsgrootheid valt erbinnen: wel voldoende bewijs om 𝐻0 te verwerpen
Standaardfout = de standaarddeviatie van de steekproefverdeling
𝜎𝑥
𝜎𝑥̅
√𝑁
P-waarde = de kans op een t-waarde die gelijk of groter is dan de gevonden t-waarde en de kans op
een t-waarde die gelijk of kleiner is dan de minvariant van de gevonden t-waarde, wanneer je een
andere steekproef trekt met dezelfde N en van dezelfde populatie, op het moment dat de
nulhypothese waar is → bijv. Gelijk aan of groter dan 1.783 en gelijk aan of kleiner dan -1.783
Type I fout = het onterecht verwerpen van 𝐻0 , m.a.w. 𝐻0 verwerpen als deze waar is. De kans op deze
fout is gelijk aan het significantieniveau (𝛼)
Type II fout = het onterecht niet verwerpen van de nulhypothese, m.a.w. 𝐻0 niet verwerpen als 𝐻1
juist is. De kans op deze fout wordt beïnvloed door het significantieniveau, de effectgrootte en de
steekproefgrootte. Type II fout is 𝛽
1
,Power = de kans om 𝐻0 te verwerpen als 𝐻1 waar is, m.a.w. terecht verwerpen van 𝐻0 . Wordt
beïnvloed door het significantieniveau (> 𝛼 → > power), effectgrootte (> effect → > power) en
steekproefgrootte (> N → > power). Power is 1 − 𝛽
Hoorcollege 1
Steekproeftrekking
Simple random design = elk element in de populatie heeft dezelfde kans om in de steekproef
te komen → heb je het liefst
Stratified sampling = populatie wordt opgedeeld in strata (geslacht, leeftijd, etc.); binnen elk
stratum wordt een volledig aselecte steekproef getrokken
Convenience sampling = steekproef bestaat uit diegene die voorhanden zijn, bijv. Aanwezigen
in kantine, eerstejaarsstudenten psychologie
Centrummaten = waar zit de steekproef?
Gemiddelde = som van alle cijfers of aantallen/ aantal personen
∑𝑁
𝑖=1 𝑋𝑖
𝑋̅ =
𝑁
Mediaan = middelste score → ene helft hoger, andere helft lager
Modus = meest frequent geobserveerde score
Spreidingsmaten = hoeveel verschil?
Variantie = spreiding in de testscores, moeilijk te interpreteren
∑𝑁 ̅ 2
𝑖=1(𝑋𝑖 − 𝑋 ) 𝑆𝑆
𝑆𝑋2 = =
𝑁−1 𝑁−1
Standaarddeviatie = gemiddelde afstand tot het gemiddelde waar de meeste scores in liggen;
wortel van de variantie
𝑆𝑋 = √𝑆𝑋2
2
,Nulhypothese testen
1. De nulhypothese en de alternatieve hypothese formuleren
2. Een beslisregel maken, bijv. Als p-waarde < 0.05 dan verwerpen we de nulhypothese → bij
tweezijdig: p < α ; bij eenzijdig: p/2 < α of 1-p/2 < α
3. De t- en p-waarde uit de output halen
4. Wel of niet verwerpen van de nulhypothese en een conclusie trekken
Als de waarde onder de nulhypothese niet in het betrouwbaarheidsinterval van de
gevonden waarde in de steekproef valt, is er een significant resultaat → de
nulhypothese is dan geen goede ‘gok’ en daardoor verwerp de nulhypothese → bijv.
je vindt in de steekproef een correlatie van 0.87, terwijl je nulhypothese was dat de
correlatie 0.80 is. Op het moment dat je een betrouwbaarheidsinterval opstelt rondom
de gevonden steekproefwaarde en de veronderstelde waarde onder 𝐻0 hier niet invalt,
verwerp je 𝐻0
Betrouwbaarheidsinterval (CI) = bijv. 𝐶𝐼95 → wanneer we het experiment keer op keer herhalen, bevat
het 95% betrouwbaarheidsinterval in 95% van de gevallen de echte waarde, bijv. 𝜇 of 𝜌 → op basis
van de gevonden data is dit de meest waarschijnlijke range waarbinnen de echte waarde zal liggen. Op
het moment dat er 90% zekerheid wordt gehanteerd i.p.v. 95%, wordt het betrouwbaarheidsinterval
smaller, waardoor je meer nauwkeurigheid/precisie hebt, maar minder zekerheid
Experiment = probability sampling (bijv. simple random sampling, stratified sampling) +
random toewijzing aan condities + ‘actieve’ manipulatie
Quasi experiment = probability sampling + geen random toewijzing aan condities + ‘actieve’
manipulatie
Correlationeel (niet-experimenteel) = probability sampling + geen random toewijzing aan
condities + geen ‘actieve’ manipulatie
Pearson’s Correlatie Coëfficiënt = maat voor lineaire samenhang, waarbij 𝝆= correlatie in de populatie
en r = correlatie in de steekproef en -1 ≤r ≤ 1. Een correlatie van r = 0 betekent: er is geen lineaire
samenhang, maar misschien is er wel sprake van niet-lineaire samenhang
P-waarde = de kans op de gevonden data (r) of nog extremer (nog verder bij 0 vandaan), gegeven dat
𝐻0 (𝜌 = 0) waar is
3
,Hoorcollege 2
Betrouwbaarheidsinterval voor correlaties → hoeven niet symmetrisch te zijn, dat wil zeggen dat de
steekproefwaarde r niet precies in het midden van het CI ligt (door gebruik van Fisher transformaties).
Er geldt dat wanneer >CI → breder CI, <N → breder CI (bij meer info heb je meer zekerheid) en dat
wanneer 0 niet in het interval voorkomt, de correlatie significant is
Aannames bij het toetsen van correlatiecoëfficiënt
- Onafhankelijk van elkaar gekozen personen
- X en Y zijn bivariaat normaal verdeeld
○ Bivariaat normaal = de puntenwolk heeft de vorm van een sigaar
- X en Y zijn lineair gerelateerd
○ Lineair = de punten in de puntenwolk liggen rondom een rechte lijn
- Aanname van homoscedasticiteit = de spreiding van X gegeven Y is hetzelfde voor elke Y
Power en kanskapitalisatie
- Bij een grotere N wordt het betrouwbaarheidsinterval kleiner en neemt de power toe
- Om kleinere effecten (𝜌 is klein) aan te tonen, is een grotere N nodig
- Wanneer er meerdere correlaties tegelijk gerapporteerd worden, neemt de kans op een type I
fout toe → het kan zo zijn dat als er helemaal geen correlatie is, er toch een significant effect
gevonden wordt
○ Cross-validatie
○ Bonferroni-correlatie
Richtlijnen voor de interpretatie van de sterkte van de correlatie
r Interpretatie sterkte samenhang
0.90 tot 1.00 Zeer sterk tot perfect
0.70 tot 0.90 Sterk tot zeer sterk
0.50 tot 0.70 Matig tot sterk
0.30 tot 0.50 Zwak tot matig
0.00 tot 0.30 Geen tot zwak
4
,Gekwadrateerde correlatie 𝒓𝟐𝑿𝒀 = proportie verklaarde variantie = gemeenschappelijke variantie in X en
Y = proportie van de variantie in X die je lineair kunt voorspellen uit Y (en andersom) → samenhang
tussen X en Y betekent dat je Y kunt voorspellen uit X (en andersom). De grafische weergaves hiervan
duiden we aan met ballantines. Bijv. stel ‘aantal uren’ en ‘tentamencijfers’ correleren met 0.40 →
0.402 = 0.16→ 16% van de verschillen in tentamencijfers kan verklaard worden door verschillen in
mate van voorbereiding OF depressie en angst correleren met 0.60 → 0.602 = 0.36 → verschillen in
angst representeren voor 36% ook verschillen in depressie en andersom
‘Verklaringen’ voor de gevonden samenhang tussen X en Y
- Direct = X --------> Y
- Indirect = X --------> Z --------> Y (via mediator Z) → Bijv. positieve correlatie introversie en
slapeloosheid: introversie → piekeren → slapeloosheid
- Spurieus = X <-------- Z --------> Y → Bijv. positieve correlatie tussen boeken lezen en
gezondheid: gemeenschappelijke oorzaak opleiding
Correlatie = maat voor de lineaire samenhang van twee variabelen. De pijl wijst twee kanten op →
𝑋1 <--------> 𝑋2
Lineaire enkelvoudige regressiemodel = lineair (= rechtlijnig) verband tussen X en Y. Dit lineaire
verband betekent dat we Y kunnen voorspellen uit X met een rechtlijnige functie → 𝑌 ′ = 𝑏0 + 𝑏1 𝑋
Intercept = parameter van het model. Voorspelde waarde van Y’ wanneer iemand 0 op X
scoort; in de praktijk meestal niet super interessant. Bijv. Het voorspelde cijfer wanneer
iemand 0 uur heeft gestudeerd; 𝒃𝟎
𝑏0 = 𝑌̅ − 𝑏1 𝑋̅ / 𝑌̅ = 𝑏0 + 𝑏1 𝑋̅
Regressiecoëfficiënt = parameter van het model. De verandering in Y’ wanneer X met één
eenheid toeneemt; de hellingshoek van de lijn. Bijv. de verandering in het cijfer als iemand 1
uur langer studeert; 𝒃𝟏
Voorspellingsfout = de voorspelde waarde voor Y aftrekken van de daadwerkelijk
geobserveerde waarde voor Y → 𝑌 − 𝑌′
o De gemiddelde voorspellingsfout is precies 0
o De variantie van de voorspellingsfouten is hetzelfde als de onverklaarde variantie
5
,Enkelvoudige lineaire regressieanalyse = één onafhankelijke variabele X en één afhankelijke variabele Y.
De pijl gaat één kant op → X --------> Y. Bijv. Uren studeren --------> Tentamencijfer. Met
regressieanalyse zoek je de best passende rechte lijn waarbij je bijv. Tentamencijfer (Y) zo goed
mogelijk kunt voorspellen uit de voorbereidingstijd (X)
1. Bepaal de best passende rechte lijn - dat wil zeggen de waarden voor de coëfficiënten (𝒃𝟎 en
𝒃𝟏 ) - waarmee we Y zo goed mogelijk kunnen voorspellen uit X
o De lijn waarvoor de voorspellingsfouten (𝑒𝑖 ) het kleinst zijn → kies 𝑏0 en 𝑏1 zo dat de
𝑒𝑖 zo klein mogelijk is; ‘kleinste kwadraten schatter’ (Least Squares). De kleinste
kwadratenschattingen voor 𝑏0 en 𝑏1 kan men eenvoudig berekenen uit de correlatie
(𝑟𝑋𝑌 ) en de standaarddeviaties (𝑠𝑋 en 𝑠𝑌 ). De regressielijn gaat altijd door het snijpunt
van de gemiddelden
Kleinste kwadratenschattingen voor 𝑏0 en 𝑏1 kan men eenvoudig berekenen uit de
correlatie (𝑟𝑋𝑌 ) en de standaarddeviaties (𝑠𝑋 en 𝑠𝑌 )
𝑆𝑌
→ 𝑏1 = 𝑟 ∙ en 𝑟 = ∑(𝑍𝑋 ∙ 𝑍𝑌 )/𝑁
𝑆𝑋
Waarbij 𝑍𝑋 = (𝑋 − 𝑋̅)/𝑆𝑋 en 𝑍𝑌 = (𝑌 − 𝑌
̅ )/𝑆𝑌
𝑏1 = 𝑏̂1 − 𝑏1
6
,2. Bepaal hoe goed je Y kunt voorspellen: via de individuele voorspellingsfouten
𝑒𝑖 = 𝑌𝑖 − 𝑌𝑖′
o Totale variantie 𝒔𝟐𝒀 wordt opgesplitst in twee delen: 𝒔𝟐𝒀′ en 𝒔𝟐𝒆
𝑆𝑌2 = 𝑆𝑌′
2
+ 𝑆𝑒2
o Proportie verklaarde variantie (van het totaal) = hoe goed voorspelt dit model? →
geeft aan welk deel van de totale variantie in Y je lineair kunt voorspellen uit X → ….%
van de variantie van …. wordt verklaard door ….; Multiple R-square: 𝑹𝟐𝒀𝑿
2
2
𝑆𝑌′
𝑅𝑌𝑋 =
𝑆𝑌2
2
𝑅𝑌𝑋
o Proportie onverklaarde variantie = 1 - proportie verklaarde variantie = 1 - 𝑹𝟐𝒀𝑿→ Wat
kun je nog niet voorspellen a.d.h.v. het aantal uren studeren?
7
, 3. Ga na in hoeverre je de resultaten mag generaliseren naar populatieniveau (m.b.v.
significantietoetsen, betrouwbaarheidsintervallen)
o 𝒃𝟏 verwijst naar de populatiewaarde
o ̂𝟏 verwijst naar de steekproefwaarde
𝒃
o Resultaten: bijv. De behoefte om erbij te horen heeft een positief lineair effect op de
mate van piekeren en het effect is significant op 5% niveau, b = 0.868, t(348) = 8.075,
p < 0.001, 𝑅 2= 0.158
DUS enkelvoudige regressieanalyse:
1. Hoe ziet het verband tussen X en Y eruit? → Best passende lijn bepalen →
𝑌 ′ = 𝑏0 + 𝑏1 𝑋 opstellen
2. Hoe sterk is het verband tussen X en Y? → 𝑅 2 = …. → ….% van de variantie van Y wordt
verklaard door X
3. Mogen we de resultaten uit de steekproef generaliseren?
Hoorcollege 3
Regressieanalyse geeft antwoord op de vragen:
1. Hoe ziet het lineaire verband eruit? Wat is de verandering in Y’ als X met één eenheid
toeneemt? Wat is de best passende lijn - die door het punt (𝑿̅, 𝒀̅ )loopt - waarbij de
gekwadrateerde voorspellingsfouten zo klein mogelijk zijn? → wat is de waarde van 𝒃𝟎 en 𝒃𝟏 ?
𝑌 ′ = 𝑏0 + 𝑏1 𝑋 𝑌𝑖 = 𝑌𝑖′ + 𝑒𝑖 𝑌𝑖 = 𝑏0 + 𝑏1 𝑋 + 𝑒𝑖
2. Hoe goed kunnen we Y voorspellen? Hoe sterk is het effect? Hoeveel van de variantie in Y
kunnen we verklaren door verschillen in X? → 𝑹𝟐
3. Mogen we de steekproefresultaten generaliseren naar de populatie? → statistische toets
Centraliseren = gemiddelde van waarde aftrekken
Gecentraliseerde score = 𝑋 − 𝑋̅
8
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller marleendejong. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.38. You're not tied to anything after your purchase.