1. Hoofdstuk 18: Samenhang in data
1.1. Inleiding
- In onderzoek worden bijna altijd meerdere variabelen onderzocht
- Datasets bevatten dus bijna altijd meer dan één datareeks
- Onderzoekers hebben interesse in hoe datareeksen samenhangen
- Onderzoeken van relaties tussen variabelen is interessant om de wereld beter te kunnen
begrijpen
- Mogelijk om uit de ene variabele te voorspellen wat iemand op de andere variabele scoort
- Maar de interesse gaat ook vaak over de vraag rond oorzaak en gevolg of causaliteit
o Nood aan een experimentele studie
- Soms blijkt er geen causale relatie te bestaan en wordt een geobserveerd verband
verklaard door andere variabelen
1.2. Twee variabelen
- Werken met het voorbeeld van pinguïns
- Histogrammen maken van de datareeksen
o Moeilijk om zo snel inzicht te krijgen in een eventueel verband
o Één voor één alle deelnemers nakijken waar ze zich in elk histogram bevinden
o Oplossing, histogrammen combineren en dan stipje tekenen waar de twee lijnen van
één deelnemer elkaar kruisen
o Dit kan je dan doen voor elke deelnemer (pinguïn)
1.3. Een scatterplot
- Elke stipje representeert een pinguïn (onderzoekseenheid)
o De twee datapunten die bij die pinguïn horen (twee meetwaarden op de variabelen
van de x- en y-as) bepalen de positie van het stipje
1.3.1. Een positief verband
- Pinguïns die hoger scoren op de variabele op de x-as scoren over het algemeen ook hoger
op de variabele op de y-as
o Dit is een positief verband tussen die twee variabelen
- Positief verband: naarmate de waarde van de variabele op de x-as toeneemt, neemt ook
de waarde van de variabele op de y-as toe
- Toegepast op mensen kunnen op de x-as en de y-as twee psychologische constructen
staan
1.3.2. Een negatief verband
- Negatief verband: onderzoekseenheden die hoger scoren op de variabele op de x-as zal
juist lager scoren op de variabele op de y-as
o Naarmate de ene variabele hoger is zal de andere variabele lager zijn
, 1.3.3. Positieve en negatieve verbanden onderscheiden
- Een ellips inbeelden die zo getekend is dat de meeste punten erbinnen vallen
- Daarnaast een lijn inbeelden die zo goed mogelijk door de puntenwolk heen loopt
- Positief verband
o Stipjes liggen in een wolk of rondom een lijn
o Lopen van linksonder naar rechtsboven
- Negatief verband
o Stipjes liggen in een wolk of rondom een lijn
o Lopen van linksboven naar rechtsonder
- Geen verband of samenhang
o Stipjes liggen in een ronde wolk en de lijn loopt horizontaal
2. Hoofdstuk 28: Correlaties
2.1. Samenvatting en verdieping
2.1.1. Inleiding
- Correlatiecoëfficiënt of correlatie of Pearson’s r drukt uit hoe sterk twee continue
variabelen (minimaal intervalniveau) met elkaar samenhangen
- Maar correlatie impliceert geen causatie
o Gaat in tegen de intuïtie dat als twee variabelen gecorreleerd zijn, dit komt doordat
de ene variabele de andere beïnvloedt of andersom
o Dat is maar zelden effectief het geval
- Indien iemand op een variabelen ver boven het gemiddelde scoort en op een andere
variabelen ook, draagt die persoon bij aan een positief verband
- Personen die op beide variabelen juist onder het gemiddelde scoren, dragen ook bij aan
een positief verband
- Personen die op de ene variabele boven en op de andere variabele onder het gemiddelde
scoren, dragen bij aan een negatief verband
- Scatterplot kan je dus indelen in vier kwadranten
o Komen bij elkaar op het gemiddelde
- Een punt dat verder van het gemiddelde af ligt heeftmeer invloed op het verband tussen
twee variabelen dan punten die dichter bij het gemiddelde liggen
- Voor iedere deelnemer bepalen hoe ver de twee datapunten ieder van het gemiddelde van
de betreffende datareeks afliggen
o Door van elk datapunt het gemiddelde af te trekken, krijgen we die afwijkingen per
datapunt
2.2. De berekening van de correlatie
- Deelnemers met een grote positieve of negatieve afwijking op beide variabelen dragen bij
aan een positief verband
- Deelnemers met een positieve afwijking op de ene variabele maar een negatieve afwijking
op de andere variabele dragen bij aan een negatief verband
- Vervolgens gaan we deze twee afwijkingen voor elke deelnemer met elkaar
vermenigvuldigen
- Dan kunnen we deze bij elkaar optellen en delen door het aantal datapunten minus 1 (het
aantal vrijheidsgraden)
, - Deze stappen leiden tot de covariantie; een maat voor de spreiding die twee datareeksen
delen. Drukt uit hoeveel variantie de twee variabelen x en y met elkaar delen
- Dus de covariantie van x met x is de variantie (mean squares, MS)
- De formule voor de variantie en de covariantie zijn dus hetzelfde
o Variantie is de covariantie van een variabele met zichzelf
- Nadeel van covariantie
o Deze maat is afhankelijk van de meetschalen waarop de twee variabelen gemeten
zijn
o Maakt dat de covariantie onvergelijkbaar is tussen studies
- Oplossing hiervoor
o Delen door de standaarddeviatie
o Elimineert de schaalafhankelijkheid
o Bij standaardisering van scores wordt van elk datapunt het gemiddelde afgetrokken,
waarna het verschil wordt gedeeld door de standaarddeviatie
- Het resulterende getal, correlatiecoëfficiënt, is daardoor te vergelijken tussen
verschillende studies
- Indien alle datapunten reeds omgerekend zijn in z-scores, kunnen die twee z-scores voor
elk paar datapunten vermenigvuldigd worden
o Door de som van die producten te delen door het aantal datapunten minus 1, krijg je
ook de correlatie
- Correlatie staat centraal in de statistiek als maat voor samenhang
o Pearson product-moment correlatiecoëfficiënt of r
- Bij het voorbeeld van de pinguïns
o Door de covariantie tussen twee van die variabelen te delen door het product van de
twee bijbehorende standaarddeviaties, kunnen de correlaties berekend worden
die bij die twee scatterplots horen
2.3. Interpretatie: mogelijke waarden
- Correlatiecoëfficiënten drukken uit hoe sterk twee continue variabelen samenhangen
o Liggen altijd tussen -1 en 1
o Waarbij 0 staat voor een gebrek aan verband
o En -1 voor een perfecte negatieve samenhang
o En 1 voor een perfecte positieve samenhang
- Deze waarden corresponderen met patronen in een scatterplot
o Perfecte samenhang (positief of negatief) liggen de punten op een rechte lijn
o Geen samenhang liggen de punten in een ronde wolk
- Correlatie drukt het verband tussen twee variabelen alleen goed uit als de variabelen
lineair met elkaar samenhangen
o Verband tussen de twee variabelen is over de gehele schaal van de variabelen even
sterk; stipjes moeten om een rechte lijn heen liggen
- Indien het verband curvilineair is en de stipjes op een gekromde lijn liggen, kan de
correlatie het verband niet goed samenvatten
o Geldt ook voor datareeksen met outliers
o Zie vb. Francis Anscombe
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller chloegoossens. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.96. You're not tied to anything after your purchase.