Bij onderzoek naar de relatie tussen twee variabelen, X en Y, kunnen deze variabelen willekeurig
(random) of vast (fixed) zijn. Een random variabele is een variabele die niet door de onderzoeker
beïnvloed kan worden, en waarvan de waarde dus pas na een meting bekend is. Een fixed variabele
kan daarentegen wel door de onderzoeker beïnvloed worden. Wanneer beide variabelen random
variabelen zijn, spreken we van correlatie. Wanneer X een fixed variabele en Y random variabele is,
spreken we van regressie. Bij regressie is er dus geen sprake van sampling error voor de X-variabele.
Replicaties leveren steeds dezelfde waarden van X op. Bij correlatie is er sprake van sampling error bij
beide variabelen. Wanneer het doel van het onderzoek is om Y te kunnen voorspellen aan de hand
van X, hebben we het over regressie. Wanneer het doel van het onderzoek alleen is om de mate van
samenhang tussen twee variabelen statistisch weer te geven, hebben we het over correlatie.
Een scatterplot of spreidingsdiagram is een diagram waarmee je handig inzicht kunt krijgen in de
relatie tussen variabelen. De predictorvariabele wordt weergegeven op de X-as van het
spreidingsdiagram en de criteriumvariabele op de y-as. De variabele die voorspeld wordt is de
criteriumvariabele. Wanneer het onderscheid niet duidelijk is, maakt het ook niet uit welke variabele
op welke as komt.
Regressielijnen van Y voorspeld op X geven voor een gegeven waarde van Xi, de best mogelijke
voorspelling van Yi, waarbij i een bepaalde persoon of observatie is. Deze voorspelde waarde van Y
wordt aangegeven met Y ^ . De mate waarin de punten rondom de regressielijn liggen (dus de mate
waarin de gemeten waarden van Y overeenkomen met de voorspelde waarden van Y), is de correlatie
(r) tussen X en Y). wanneer de punten heel dicht bij de regressielijn liggen, is er sprake van een sterk
lineair verband tussen de variabelen.
Er is sprake van een lineaire relatie, wanneer de best passende lijn een rechte lijn is. Wanneer de
best passende lijn niet recht is, spreken we van een curvilineair verband. Een Q-Q plot geeft een
beeld van de normaliteit van de variabelen.
De correlatiecoëfficiënt die we willen berekenen is gebaseerd op de covariantie. Deze statistiek geeft
weer in hoeverre twee variabelen gezamenlijk variëren. De formule voor covariantie is
COV XY =Σ ¿¿ , COV wordt ook wel vervangen met S.
Een probleem bij het gebruik van de covariantie als maat voor de relatie tussen variabelen, is dat de
waarde van de covariantie afhankelijk is van de standaarddeviaties van X en Y. om dit probleem te
verhelpen gebruiken we Pearson correlatiecoëfficiënt r, waarbij de covariantie gedeeld word door de
cov xy
standaarddeviaties van beide variabelen.r =
sx sy
De correlatie coëfficiënt r, is met name bij een kleine steekproef, geen perfecte schatting van de
correlatiecoëfficiënt in de populatie. Om hiervoor te corrigeren kunnen we de adjusted
√
correlatiecoëfficiënt r adj berekenen. De formule is: r adj = 1−
observaties is het verschil tussen r en r adj het grootst.
(1−r 2 )( N−1) . Bij een klein aantal
N−2
, De regressievergelijking voor het voorspellen van Y op basis van X wordt geformuleerd als:
Y^ = bX + a, waarbij:
- Y^ = de voorspelde waarde van Y
- ^ bij een verandering van 1 in X)
B = de helling (slope) (de verandering in Y
- A= de intercept (de waarde van Y ^ bij X= 0)
- X= de waarde van de predictorvariabele.
We willen nu aan de hand van de data de waarden van a en b vinden op zo’n manier dat de
regressielijn zo dicht mogelijk bij de daadwerkelijke waarden van Y ligt. Hiervoor kijken we naar de
voorspellingsfouten (errors of prediction), ofwel: de verschillen tussen de waarden van Y en Y ^.
- ^ −b X
A=Y
COV xy sy
- B= 2 ( ook wel b =r )
sx
sx
^ voor
Om de regressielijn te plotten in een diagram neem je twee waarden van X en bereken je Y
beide waarden.
Het intercept is gedefinieerd als de waarde van Y ^ wanneer X gelijk is aan 0. Het intercept heeft soms
op zichzelf al betekenis. Dit is het geval wanneer X=0 betekenisvol is en in of dicht bij het bereik van
de gevonden waarden van X ligt. Vaak heeft het intercept echter geen praktische betekenis.
De slope wordt gedefinieerd als de verandering in Y^ bij een verandering van 1 in X. het geeft de
snelheid van verandering in Y aan en is dus vaak een betekenisvolle waarde.
Wanneer beide variabelen afzonderlijk gestandaardiseerd zijn, geeft een verschil van 1 in X of Y een
verschil aan van één standaarddeviatie. De slope is in dit geval de gestandaardiseerde
regressiecoëfficiënt β (beta). Een slope van 0.75 zou bijvoorbeeld betekenen dat een toename van 1
standaarddeviatie in X geassocieerd wordt met een toename van driekwart standaarddeviatie in Y.
Wanneer de date gestandaardiseerd is, zijn Sx, Sy en S2 x allemaal gelijk aan 1. De slope en
correlatiecoëfficiënt r zijn dan ook gelijk aan elkaar, omdat in beide formules de covariantie gedeeld
wordt door 1. Bij gestandaardiseerde data met één predictorvariabele kun je dus bijvoorbeeld zeggen
dat bij een r van 0.80 een toename van één standaarddeviatie X geassocieerd wordt met een
gemiddelde toename van 0.8 standaarddeviatie in Y.
Bij het interpreteren van b en r is het belangrijk om in gedachten te houden dat het hier niet gaat om
oorzaak-gevolg relaties. We kunnen dus niet stellen dat een toename in X een bepaalde toename in Y
veroorzaakt.
Om de Y te schatten zonder dat je iets weet over de X, kan je het best de gemiddelde waarde van Y
nemen. De bijbehorende error van deze voorspelling is dan de standaarddeviatie van Y. de formules
voor de standaarddeviatie en variantie van Y zijn:
- S y= √ Σ ¿ ¿ ¿
- S2y =Σ ¿ ¿
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper annealidaroozendaal. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €7,16. Je zit daarna nergens aan vast.