Wanneer je een lineaire regressie wilt opstellen kom je met de volgende formule:
- Y = Ax+b – of B1x+b
o B = de constante, het snijpunt met de y-as.
o A = de helling van de lijn – wanneer je een positieve relatie hebt is de A
positief en bij een negatieve relatie is de A negatief (-).
Wanneer je voor a & b (of zoals in het boek B1) & B) getallen gaat invullen kan daar een
waarde uitkomen en dat is dan de voorspellende waarde.
- 100 x €5,- + 50 = €550,- euro is dan de voorspellende waarde.
Het kan natuurlijk zo zijn dat er meerdere variabelen invloed hebben op de voorspellende
waarde dan alleen A (of B1) en dat je daarom ook een formule kunt hebben met meerdere
variabelen. – A1X + A2X + B.
Vervolgens kan je hier een model uit krijgen en daarin zie je dan een regressievlak. er
zijn dan ook datagegevens die niet in dat vlak vallen en dit noem je residuen / residuals. ;
met 2 variabelen is het nog makkelijk weer te geven, maar wanneer er meer variabelen in
het spel komen, wordt dit een stuk lastiger.
Wanneer je meerdere onafhankelijke variabelen / voorspellende variabelen gebruikt voor
de uitkomst variabelen / afhankelijke variabelen = multipele regressie analyse.
Hoe kom je bij B? dat is eigenlijk het gemiddelde van alle datapuntjes. ; methode van de
kleinste kwadranten. je vult als het ware verschillende gegevens in en hierdoor krijg je dus
verschillende datapuntjes die uiteindelijk een voorspellende lijn vormen.
Je hebt dan dus de voorspellende lijn en vervolgens doe je daar de geobserveerde
data bij om te kijken hoe goed je model bij de data past. ; als het perfect past, vallen
alle geobserveerde data precies op die voorspellende lijn.
o Residuals = de afstand tussen de voorspellende lijn (het model) en de
geobserveerde waarde.
Deze residuen zet je in het kwadraat en tel je bij elkaar op = residual
sum of squares (SSr). & vertelt hoe goed je model bij de data past.
is deze groot, dan past het niet goed, is deze klein, dan past het wel
goed.
Ordinary least squares (OLS) regression = een methode die de SSr minimaliseert zodat je
data het beste bij het model past.
Goodness of fit = hoe goed past je model bij de geobserveerde data. – de SSr vertelt
hoeveel error erin zit, maar niet per se of het model beter is dan niks.
Hoe doe je dit? Stel je neemt het gemiddelde van de uitkomst dit is eigenlijk
gelijk aan “geen relatie” (dus geen lineaire relatie); als het ene veranderd, dan blijft
het andere constant.
o Daarna bereken je de total sum of squares (SSt) = de verschillende tussen
de geobserveerde waardes en de waardes voorspeld door het gemiddelde in
het kwadraat bij elkaar opgeteld.
, Om te kijken of het gebruik van een model beter is dan het niet
gebruiken van een model trek je dus SSt van de SSr af. En dit
wordt dan de SSm = model sum of squares.
Als SSm groot is, dan toont dat aan dat het gebruik van een
lineair model beter is dan het simpelweg gebruiken van een
gemiddelde en als deze klein is geldt het andersom.
R2 = de proportie variantie die verklaard wordt door het model.
Test statistieken (F-test) = systematische variantie delen door de onsystematische
variantie. je vergelijkt het model met de fouten in het model.
- Als het model goed is, dan moet MSm groot zijn (de voorspelling wordt verbetert) en
de MSr moet klein zijn. dus de F-statistiek moet groter zijn dan 1 voor een goed
model. ; hoeveel kan het model verklaren ten opzichte van hoeveel het niet kan
verklaren. ?
Om te kijken of een variabele daadwerkelijk bijdraagt aan het veranderen van de uitkomst (a
is dan dus groter dan 0), kan je een t-test/statistiek uitvoeren. dit test de null hypothese
dat de waarde van a 0 is. ; hiervoor gebruik je ook de standaardfout van a dit laat zien hoe
het zit met de verschillende A waardes over verschillende samples.
2 vragen voor je model:
1. Wordt het beïnvloedt door het kleine aantal cases?
a. Outliers – 1 datapunt dat totaal verschilt van alle andere data punten. – dit
heeft invloed op de schatting van bijv. je lijn. De outliers vallen bijv. al op als je
de residuals gaat berekenen, want die hebben dan hele grote waardes. Maar,
dit is nog niet gestandaardiseerd. Dus stel dat je gestandaardiseerde
residuals zult maken krijg je z-scores. Op basis hiervan heb je een paar
aannames:
i. Als de z-score hoger is dan 3 is er rede tot zorg
ii. Als meer dan 1% van je sample boven de 2,5 ligt is er een
onaccepteerbare fout in het model.
iii. Als meer dan 5% boven de 2 ligt, dan is het model een slechte
representatie van je data.
b. Invloedrijke cases: het enige wat je moet weten is:
i. Cook’s distance = deze berekent de algemene invloed van een case
op het model. een waarde groter dan 1 is een probleem.
ii. Mahalanobis distance = berekent de afstand van de cases tot het
gemiddelde van de voorspellende variabelen. deze heeft een chi-
square distributie met degrees of freedom evengroot als het aantal
voorspellers.
2. Kan het gegeneraliseerd worden naar andere samples? om dit te kunnen doen
moet er voldaan worden aan een aantal assumpties:
a. Er moet sprake zijn van een lineair model / lineairiteit
b. De residuen moeten niet gecorreleerd zijn (onafhankelijke fouten). dit
kun je testen met een Durbin-Watson test. ; dit test of de residuen met elkaar
gecorreleerd zijn. ; als het rond de 2 is, is het geen probleem.
c. Homoscedasticiteit = de variantie van de resiuduen moet overal ongeveer
hetzelfde zijn.
d. Normaal verdeelde errors de residuen moeten zo rond de 0 liggen.
e. Voorspellers zijn ongecorreleerd met externe variabelen
f. De voorspellende variabelen moeten kwantitatief of categorisch zijn
g. Geen perfecte multicollineairiteit met meer dan 2 voorspellers mag de
correlatie niet perfect zijn.
h. Geen 0 variantie
, Wanneer er niet aan deze assumpties wordt voldaan heeft dat invloed op de
betrouwbaarheidsintervallen en de significantietesten.
Cross-validation = testen hoe accuraat je model is over verschillende samples. :
Adjusted R2 = hoeveel variantie wordt er door het model verklaard als je het
doortrekt naar de populatie waarvan de sample getrokken is.
Data splitting
De sample size is afhankelijk van de effect size die je wilt bereiken en hoeveel power je wilt.
Over het algemeen wordt er gezegd dat een grotere sample size beter is. Als je een
groot effect wilt vinden (77), bij een medium effect (157) en bij een klein effect (1043),
dit met 20 voorspellers.
Je kiest natuurlijk niet zomaar voorspellende variabelen als je er bijv. 100 hebt gemeten,
kies dan degene die het meest theoretisch belang hebben.
Hoe voeg je zulke variabelen dan toe in je model?
- Hiërarchische regressie = je selecteert voorspellers op basis van je eerdere werk
en voegt daar op basis van een hiërarchie nieuwe aan toe. Je begint dan met degene
waarvan je verwacht dat ze de meeste invloed hebben.
- Forced entry = je voegt alle voorspellers in 1 keer toe i.p.v. op basis van een
hiërarchie.
- Stepwise regression = dit wordt allemaal gedaan door de computer. – zie de
aantekeningen van het college. De computer besluit wat wel en niet belangrijk is.
deze methode moet je gewoon NIET gebruiken want het is alleen gebaseerd op
mathematische criteria en niet op gedachte; het kijkt naar hoe goed een andere
variabele past op basis van de eerdere, maar dat is niet logisch. Het voorbeeld van
winterkleding & de broek/onderbroek.
Wanneer er sprake is van collinearity kunnen er 3 problemen ontstaan:
Je krijgt onbetrouwbare B’s
Het beperkt de R grote
Het belang van andere voorspellers wordt beperkt. ; als ze sterk gecorreleerd zijn,
hoe kom je er dan achter welke belangrijker is?
Hoe kom je hier achter? Dat kan bijv. door de variance inflation factor (VIF) & tolerance:
- Als de grootste VIF groter is dan 10 dan is er een probleem
- Als de gemiddelde VIF groter is dan 1, kan er een bias zijn.
- Tolerance onder de 0.2 geeft een mogelijk probleem aan.
Vanuit SPSS kan de fit van je model bekeken worden in de tabellen “model summary” of
ANOVA.
Door te kijken naar de BETA in een tabel, kan je de resultaten beter met elkaar vergelijken
omdat ze op een soortgelijke schaal zijn gezet. het is omgezet naar standaarddeviaties en
verteld je wat er veranderd wanneer de resultaten met 1 standaard deviatie veranderen.
Je kunt ook kijken naar de betrouwbaarheidsintervallen als deze smal zijn (en geen nul
bevatten) zullen ze een grotere voorspellende waarde hebben dan wanneer de
betrouwbaarheidsintervallen wijder zijn. ; zodra er een 0 in het interval zit, kan dat betekenen
dat er geen relatie is.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper vdb99. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,99. Je zit daarna nergens aan vast.