College 2
We gebruiken regressie om scores op variabelen te voorspellen. Een regressiemodel is een
eenvoudige benadering van de relatie tussen variabelen. Hoe eenvoudiger, hoe beter. Correlatie ≠
causatie. Regressie gaat hand in hand met correlaties, maar het zegt niets over oorzaak/gevolg.
Enkelvoudige lineaire regressie
Het meest eenvoudige model bestaat uit één onafhankelijke variabele en een afhankelijke variabele.
Dit is enkelvoudige lineaire regressie, of ook wel ordinary least squares regression.
a is dus het punt waarop de lijn begint (bij x = 0) en b is de mate waarin y toeneemt als x 1 toeneemt
(hoe steil de lijn is).
e = error/residu, je kan namelijk niet precies voorspellen wat de waarde van y is
We voorspellen het gemiddelde van y voor elke x-waarde. Voor elke waarde van x hebben we een
waargenomen y, en een voorspelde ŷ die op de lijn ligt. De fouten hier tussen zijn de residuen (e).
Voor elke waarneming i kunnen we uitrekenen hoe groot het residu is (de verticale afstand tussen
waargenomen yi en voorspelde ŷi).
Least squares methode bij enkelvoudige lineaire regressie:
Bij OLS kijken we naar het kwadraat van deze residuen. We willen de optelsom van deze
gekwadrateerde fouten zo klein mogelijk hebben.
,De optimale helling (b) bereken je door de correlatie van x en y, vermenigvuldigd met de
standaarddeviatie van y gedeeld door de standaarddeviatie van x. Het intercept (a) is gelijk aan het
gemiddelde van y, min de helling vermenigvuldigd met het gemiddelde van x.
Dus als we weten wat de standaarddeviaties van beide variabelen zijn, en de correlatie, dan kunnen
we de helling uitrekenen. Als we ook het gemiddelde van beide variabelen hebben, kunnen we ook
het intercept uitrekenen.
Maar mogen we dit altijd doen en levert het dan zinvolle uitkomsten op? Daarvoor moet er voldaan
worden aan een aantal voorwaarden (assumpties).
Assumpties van enkelvoudige lineaire regressie:
1. Lineariteit
2. Homoscedasticiteit
3. Onafhankelijkheid van residuen
Assumptie 1: lineariteit
We veronderstellen dat er een lineaire relatie is tussen x en het gemiddelde van y ( ).
Als je iets weet over x, dan kun je deze informatie van x gebruiken bij de voorspelling van y
(conditionele kans). Gegeven x hebben we dus een verwachte waarde van y, en deze verwachting is
lineair.
Verwachte waarde y gegeven waarde x:
Residuen: . Ze zijn normaal verdeeld met een gemiddelde van 0 en standaarddeviatie σ.
De verwachte waarde van y gegeven x is een rechte lijn zonder de residuen. Maar de waarden zijn
een puntenwolk.
Assumptie 2: homoscedasticiteit
Alle subpopulaties voor elke waarde van x zijn normaal verdeeld met gelijke variantie σ. Dit gaat dus
over de residuen.
Dus je gaat kijken bij elke waarde van x, wat voor y-waardes je daarbij vindt. We veronderstellen dat
daar een normale verdeling is met een constante variantie (σ). Voor elke waarde van x is de spreiding
rond de regressielijn gelijk.
, Voorbeeld: er wordt hier voldaan aan de assumptie, de verticale spreiding rondom de regressielijn is
redelijk normaal verdeeld. (Alleen misschien rond het einde niet.)
Voorbeeld: hier wordt er niet voldaan aan homoscedasticiteit. Bij de lagere waarden zie je een veel
kleinere spreiding dan bij de hogere x-waarden. Er is een <-vormige puntenwolk.
Assumptie 3: onafhankelijkheid van de residuen
De residuen zijn onafhankelijk van x. De residuen zijn onafhankelijk van de waarde van de
voorspeller. Het zou niet uit moeten maken welke waarde van x er is, hoe hoog of laag de waarde
van de residuen zijn.
Als je kijkt naar de residuen, wil je geen enkel patroon zien. De scatterplot, met op de x-as de
voorspeller en op de y-as de residuen, moet compleet ongecorreleerd zijn.
Check deze assumptie dus met de residual plot.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper femkebvanrijn. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €2,99. Je zit daarna nergens aan vast.