Correlatie
- Geeft aan in hoeverre twee variabelen met elkaar samenhangen
- Symbool e, tussen de -1 en de +1
- Geeft informatie over 2 dingen:
o Richting van het verband positief of negatief
o Sterkte van het verband 0 is geen samenhang, -1/+1 veel samenhang
Correlatie en regressie
- Correlatie en regressie zijn zeer nauw verwant
- Als twee variabelen met elkaar samenhangen (correlatie), kunnen we een waarde op
de ene gebruiken om een waarde op de andere te voorspellen (regressie), x op y
- Een sterke correlatie betekent dat je ook goed kunt voorspellen
- Let op: noch samenhang noch voorspellen impliceert dat de ene de andere veroorzaakt
(geen causale claim)
- Statistiek op zich kan nooit een causaal verband vaststellen
- Met regressie maken we een model, een lijn, waarmee we de y waarde kunnen
voorspellen
Met regressie maak je een lijn in de puntenwolk. Met die lijn ga je voorspellingen doen.
Regressie:
- Ŷi = b0 + b1xi
- b0 is the intercept de plek waar de lijn de y-as snijdt, dus de voorspelde waarde van
iemand die 0 scoort op x
- b1 is de slope (richtingscoefficient), deze geeft aan hoeveel y stijgt of daalt met elke
1-unit stijging van x
- als x 1 groter wordt, wordt y met b1 groter
- xi is de geobserveerde waarde op x van individu i
Hoe goed zijn de voorspellingen:
- Y voorspeld 1, y geobserveerd 2 → verschil (error, residuals) 1
- Y voorspeld 3, y geobserveerd 5 → verschil (error, residuals) -2
- Probleem: negatieve en positieve afwijkingen heffen elkaar op als we ze optellen
- Oplossing: elke afwijking kwadrateren (-2 wordt 4, 1 wordt 1, samen 5)
- SSE → sum of squared errors/residuals
- Idee: het beste model heeft de laagste SSE
- Regressie zoekt automatisch de lijn met de laagste SSE
SSE is schaal afhankelijk, we hebben een relatieve maat nodig om te kunnen vergelijken.
Oplossing:
- Een deel van de spreiding wordt niet verklaard (SSE), dus het andere deel wel.
- Proportie verklaarde variantie
Verklaard totaal−onverklaard SStotal−SSerror
- = = =¿ R2
Totaal totaal SStotal
- SStotal is de totale variantie van Y
, Het nul-model: geen predictor
- Ŷi = b0
- Laagste SSE is wanneer b0 het gemiddelde van y is
- Geen slope, dus een horizontale lijn
- SSE = SST want, geen x en gemiddelde ligt hetzelfde
- R2 = SStotal - SSerror / SStotal = 0/10 = 0
- 6/10 = 60%
Als ik een predictor toevoeg:
- Met een regressiemodel wil je weten of die significant beter is dan het 0-model
- SSE wordt kleiner dan SST
- R2 = SStotal - SSerror / SStotal = 6/10 = 60%
- 60% → met x kunnen we 60% van de variantie in y verklaren
SSE → som van punt tot regressielijn
SST → som van de variantie van y, punt tot gemiddelde lijn
R2 → hoeveel procent variantie kan x verklaren
Is de verklaarde variantie significant?
- P-waarde: de kans om deze waarde voor F, of groter, te vinden, gegeven de aanname
dat de nulhypothese waar is
- F = MSregressie/MSerror
- Als H0 waar is → F van 1 → hoort bij nulhypothese
- Als H0 waar is → F van 10 → nulhypothese verwerpen
- Alpha = 0.05, p kleiner dan alpha → Nulhypothese verwerpen
- Lage p-waarde is een significant effect is nulhypothese verwerpen
Nog beter model
- Meer predictoren
- Voor vergelijken van de belangrijkheid van de predictoren:
o Gestandaardiseerde coëfficiënten vergelijken
o Want de normale hangen af van de schaap van de predictor
Wat test je? Hoe? Conclusie
Hele regressie model F-test P-waade (sig.)
Slope (effect) van x (B) T-test P-waarde (sig.)
Soorten tabellen
- Model summary alleen kijken naar de R2 (hoeveel variantie wordt er verklaard)
- ANOVA bij de p waarde kijken of die significant is (of de variantie significant is)
- Coefficients constante B waarde geeft intercept (wanneer 0). De waarden
daaronder zijn allemaal slopes
In de standardized coëfficiënts Beta staan de significante predictors en de hoogste (absoluut
getal, niet naar de richting kijken) is de beste. Alleen de significante tellen mee.
Wanneer P lager dan het .05 is, dan is het significant en moet je H0 verwerpen. Om te bepalen
of iets significant is moet je dus altijd baseren op de p waarde (sig).
Nulhypothese en alternatieve hypothese R2 kan niet negatief zijn, alternatieve is altijd R2>0
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper annahelgason. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €3,49. Je zit daarna nergens aan vast.