College 2
We gebruiken regressie om scores op variabelen te voorspellen. Een regressiemodel is een
eenvoudige benadering van de relatie tussen variabelen. Hoe eenvoudiger, hoe beter. Correlatie ≠
causatie. Regressie gaat hand in hand met correlaties, maar het zegt niets over oorzaak/gevolg.
Enkelvoudige lineaire regressie
Het meest eenvoudige model bestaat uit één onafhankelijke variabele en een afhankelijke variabele.
Dit is enkelvoudige lineaire regressie, of ook wel ordinary least squares regression.
a is dus het punt waarop de lijn begint (bij x = 0) en b is de mate waarin y toeneemt als x 1 toeneemt
(hoe steil de lijn is).
e = error/residu, je kan namelijk niet precies voorspellen wat de waarde van y is
We voorspellen het gemiddelde van y voor elke x-waarde. Voor elke waarde van x hebben we een
waargenomen y, en een voorspelde ŷ die op de lijn ligt. De fouten hier tussen zijn de residuen (e).
Voor elke waarneming i kunnen we uitrekenen hoe groot het residu is (de verticale afstand tussen
waargenomen yi en voorspelde ŷi).
Least squares methode bij enkelvoudige lineaire regressie:
Bij OLS kijken we naar het kwadraat van deze residuen. We willen de optelsom van deze
gekwadrateerde fouten zo klein mogelijk hebben.
,De optimale helling (b) bereken je door de correlatie van x en y, vermenigvuldigd met de
standaarddeviatie van y gedeeld door de standaarddeviatie van x. Het intercept (a) is gelijk aan het
gemiddelde van y, min de helling vermenigvuldigd met het gemiddelde van x.
Dus als we weten wat de standaarddeviaties van beide variabelen zijn, en de correlatie, dan kunnen
we de helling uitrekenen. Als we ook het gemiddelde van beide variabelen hebben, kunnen we ook
het intercept uitrekenen.
Maar mogen we dit altijd doen en levert het dan zinvolle uitkomsten op? Daarvoor moet er voldaan
worden aan een aantal voorwaarden (assumpties).
Assumpties van enkelvoudige lineaire regressie:
1. Lineariteit
2. Homoscedasticiteit
3. Onafhankelijkheid van residuen
Assumptie 1: lineariteit
We veronderstellen dat er een lineaire relatie is tussen x en het gemiddelde van y ( ).
Als je iets weet over x, dan kun je deze informatie van x gebruiken bij de voorspelling van y
(conditionele kans). Gegeven x hebben we dus een verwachte waarde van y, en deze verwachting is
lineair.
Verwachte waarde y gegeven waarde x:
Residuen: . Ze zijn normaal verdeeld met een gemiddelde van 0 en standaarddeviatie σ.
De verwachte waarde van y gegeven x is een rechte lijn zonder de residuen. Maar de waarden zijn
een puntenwolk.
Assumptie 2: homoscedasticiteit
Alle subpopulaties voor elke waarde van x zijn normaal verdeeld met gelijke variantie σ. Dit gaat dus
over de residuen.
Dus je gaat kijken bij elke waarde van x, wat voor y-waardes je daarbij vindt. We veronderstellen dat
daar een normale verdeling is met een constante variantie (σ). Voor elke waarde van x is de spreiding
rond de regressielijn gelijk.
, Voorbeeld: er wordt hier voldaan aan de assumptie, de verticale spreiding rondom de regressielijn is
redelijk normaal verdeeld. (Alleen misschien rond het einde niet.)
Voorbeeld: hier wordt er niet voldaan aan homoscedasticiteit. Bij de lagere waarden zie je een veel
kleinere spreiding dan bij de hogere x-waarden. Er is een <-vormige puntenwolk.
Assumptie 3: onafhankelijkheid van de residuen
De residuen zijn onafhankelijk van x. De residuen zijn onafhankelijk van de waarde van de
voorspeller. Het zou niet uit moeten maken welke waarde van x er is, hoe hoog of laag de waarde
van de residuen zijn.
Als je kijkt naar de residuen, wil je geen enkel patroon zien. De scatterplot, met op de x-as de
voorspeller en op de y-as de residuen, moet compleet ongecorreleerd zijn.
Check deze assumptie dus met de residual plot.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller femkebvanrijn. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.22. You're not tied to anything after your purchase.