1. Hoofdstuk 18: Samenhang in data
1.1. Inleiding
- In onderzoek worden bijna altijd meerdere variabelen onderzocht
- Datasets bevatten dus bijna altijd meer dan één datareeks
- Onderzoekers hebben interesse in hoe datareeksen samenhangen
- Onderzoeken van relaties tussen variabelen is interessant om de wereld beter te kunnen
begrijpen
- Mogelijk om uit de ene variabele te voorspellen wat iemand op de andere variabele scoort
- Maar de interesse gaat ook vaak over de vraag rond oorzaak en gevolg of causaliteit
o Nood aan een experimentele studie
- Soms blijkt er geen causale relatie te bestaan en wordt een geobserveerd verband
verklaard door andere variabelen
1.2. Twee variabelen
- Werken met het voorbeeld van pinguïns
- Histogrammen maken van de datareeksen
o Moeilijk om zo snel inzicht te krijgen in een eventueel verband
o Één voor één alle deelnemers nakijken waar ze zich in elk histogram bevinden
o Oplossing, histogrammen combineren en dan stipje tekenen waar de twee lijnen van
één deelnemer elkaar kruisen
o Dit kan je dan doen voor elke deelnemer (pinguïn)
1.3. Een scatterplot
- Elke stipje representeert een pinguïn (onderzoekseenheid)
o De twee datapunten die bij die pinguïn horen (twee meetwaarden op de variabelen
van de x- en y-as) bepalen de positie van het stipje
1.3.1. Een positief verband
- Pinguïns die hoger scoren op de variabele op de x-as scoren over het algemeen ook hoger
op de variabele op de y-as
o Dit is een positief verband tussen die twee variabelen
- Positief verband: naarmate de waarde van de variabele op de x-as toeneemt, neemt ook
de waarde van de variabele op de y-as toe
- Toegepast op mensen kunnen op de x-as en de y-as twee psychologische constructen
staan
1.3.2. Een negatief verband
- Negatief verband: onderzoekseenheden die hoger scoren op de variabele op de x-as zal
juist lager scoren op de variabele op de y-as
o Naarmate de ene variabele hoger is zal de andere variabele lager zijn
, 1.3.3. Positieve en negatieve verbanden onderscheiden
- Een ellips inbeelden die zo getekend is dat de meeste punten erbinnen vallen
- Daarnaast een lijn inbeelden die zo goed mogelijk door de puntenwolk heen loopt
- Positief verband
o Stipjes liggen in een wolk of rondom een lijn
o Lopen van linksonder naar rechtsboven
- Negatief verband
o Stipjes liggen in een wolk of rondom een lijn
o Lopen van linksboven naar rechtsonder
- Geen verband of samenhang
o Stipjes liggen in een ronde wolk en de lijn loopt horizontaal
2. Hoofdstuk 28: Correlaties
2.1. Samenvatting en verdieping
2.1.1. Inleiding
- Correlatiecoëfficiënt of correlatie of Pearson’s r drukt uit hoe sterk twee continue
variabelen (minimaal intervalniveau) met elkaar samenhangen
- Maar correlatie impliceert geen causatie
o Gaat in tegen de intuïtie dat als twee variabelen gecorreleerd zijn, dit komt doordat
de ene variabele de andere beïnvloedt of andersom
o Dat is maar zelden effectief het geval
- Indien iemand op een variabelen ver boven het gemiddelde scoort en op een andere
variabelen ook, draagt die persoon bij aan een positief verband
- Personen die op beide variabelen juist onder het gemiddelde scoren, dragen ook bij aan
een positief verband
- Personen die op de ene variabele boven en op de andere variabele onder het gemiddelde
scoren, dragen bij aan een negatief verband
- Scatterplot kan je dus indelen in vier kwadranten
o Komen bij elkaar op het gemiddelde
- Een punt dat verder van het gemiddelde af ligt heeftmeer invloed op het verband tussen
twee variabelen dan punten die dichter bij het gemiddelde liggen
- Voor iedere deelnemer bepalen hoe ver de twee datapunten ieder van het gemiddelde van
de betreffende datareeks afliggen
o Door van elk datapunt het gemiddelde af te trekken, krijgen we die afwijkingen per
datapunt
2.2. De berekening van de correlatie
- Deelnemers met een grote positieve of negatieve afwijking op beide variabelen dragen bij
aan een positief verband
- Deelnemers met een positieve afwijking op de ene variabele maar een negatieve afwijking
op de andere variabele dragen bij aan een negatief verband
- Vervolgens gaan we deze twee afwijkingen voor elke deelnemer met elkaar
vermenigvuldigen
- Dan kunnen we deze bij elkaar optellen en delen door het aantal datapunten minus 1 (het
aantal vrijheidsgraden)
, - Deze stappen leiden tot de covariantie; een maat voor de spreiding die twee datareeksen
delen. Drukt uit hoeveel variantie de twee variabelen x en y met elkaar delen
- Dus de covariantie van x met x is de variantie (mean squares, MS)
- De formule voor de variantie en de covariantie zijn dus hetzelfde
o Variantie is de covariantie van een variabele met zichzelf
- Nadeel van covariantie
o Deze maat is afhankelijk van de meetschalen waarop de twee variabelen gemeten
zijn
o Maakt dat de covariantie onvergelijkbaar is tussen studies
- Oplossing hiervoor
o Delen door de standaarddeviatie
o Elimineert de schaalafhankelijkheid
o Bij standaardisering van scores wordt van elk datapunt het gemiddelde afgetrokken,
waarna het verschil wordt gedeeld door de standaarddeviatie
- Het resulterende getal, correlatiecoëfficiënt, is daardoor te vergelijken tussen
verschillende studies
- Indien alle datapunten reeds omgerekend zijn in z-scores, kunnen die twee z-scores voor
elk paar datapunten vermenigvuldigd worden
o Door de som van die producten te delen door het aantal datapunten minus 1, krijg je
ook de correlatie
- Correlatie staat centraal in de statistiek als maat voor samenhang
o Pearson product-moment correlatiecoëfficiënt of r
- Bij het voorbeeld van de pinguïns
o Door de covariantie tussen twee van die variabelen te delen door het product van de
twee bijbehorende standaarddeviaties, kunnen de correlaties berekend worden
die bij die twee scatterplots horen
2.3. Interpretatie: mogelijke waarden
- Correlatiecoëfficiënten drukken uit hoe sterk twee continue variabelen samenhangen
o Liggen altijd tussen -1 en 1
o Waarbij 0 staat voor een gebrek aan verband
o En -1 voor een perfecte negatieve samenhang
o En 1 voor een perfecte positieve samenhang
- Deze waarden corresponderen met patronen in een scatterplot
o Perfecte samenhang (positief of negatief) liggen de punten op een rechte lijn
o Geen samenhang liggen de punten in een ronde wolk
- Correlatie drukt het verband tussen twee variabelen alleen goed uit als de variabelen
lineair met elkaar samenhangen
o Verband tussen de twee variabelen is over de gehele schaal van de variabelen even
sterk; stipjes moeten om een rechte lijn heen liggen
- Indien het verband curvilineair is en de stipjes op een gekromde lijn liggen, kan de
correlatie het verband niet goed samenvatten
o Geldt ook voor datareeksen met outliers
o Zie vb. Francis Anscombe
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper chloegoossens. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,49. Je zit daarna nergens aan vast.