Statistical Methods for the Social Sciences, Global Edition
Samenvatting voor het eerste deeltentamen van Statistiek 3. De samenvatting bestaat uit H14 en H15 van het boek van Agresti en is aangevuld met de stof uit de colleges. Opmerking: alle stof van statistiek 2 hoort ook bij de tentamenstof voor dit deeltentamen! Zie mijn andere samenvattingen van stat...
Hi! Your summary is semi-fine, but it is not clear to me what main topic it is about (like Repeated Measures ANOVA bv). And I'm missing something about sphericity. There are also things staggered and intertwined.
Seller
Follow
lottekalk02
Reviews received
Content preview
Samenvatting Statistiek 3 deeltentamen 1
*Alle statistiek 2 stof is ook tentamenstof!*
Hoofdstuk 14: Hoe construeer je een model voor multipele regressie van extreme of
sterk gecorreleerde data?
14.1 Welke strategieën zijn er voor het selecteren van een model?
Er kunnen allerlei strategieën zijn om onafhankelijke variabelen wel of niet toe te voegen aan
een model. Er zijn 3 basisregels voor het maken van een selectie:
1. Selecteer relevante variabelen zodat het model theoretisch bruikbaar wordt, met
zinvolle controlevariabelen en mediërende variabelen
2. Selecteer voldoende variabelen om voldoende power te verkrijgen
3. Houd het model zo eenvoudig mogelijk
Het model blijft overzichtelijk als de onafhankelijke variabelen een hoge correlatie hebben
met de afhankelijke variabele, maar niet met elkaar.
Bij hiërarchische regressieanalyse worden een serie regressieanalyses uitgevoerd door sets
van onafhankelijke variabelen stap voor stap toe te voegen of te verwijderen. Per stap
worden de correlaties en de regressiecoëfficiënten geanalyseerd.
Een hiërarchische regressieanalyse kan op 2 manieren uitgevoerd worden:
1. Handmatig: het 1-voor-1 toevoegen van onafhankelijke variabelen kan met de knop
‘Enter’ in SPSS. Hierbij moet de optie ‘block’ gebruikt worden. Het 1-voor-1
verwijderen van onafhankelijke variabelen kan met de knop ‘Remove’ in SPSS.
Hierbij moet ook de optie ‘block’ gebruikt worden
2. Automatisch (m.b.v. software): hier zijn 3 strategieën voor:
- Backward elimination: begint met een ‘verzadigd’ model met alle
onafhankelijke variabelen. 1-voor-1 worden er onafhankelijke variabelen
verwijderd uit het model, waarbij telkens de afname in 𝑅2 wordt bepaald. De
onafhankelijke variabele met de kleinste 𝑠𝑟 2 wordt geselecteerd, waarbij
gekeken wordt of 𝑅2 significant afneemt bij het verwijderen van deze
variabele. Als de p-waarde niet significant is, wordt die variabele uit het model
verwijderd en wordt hetzelfde proces nogmaals uitgevoerd. Bij een
significante p-waarde wordt de backward elimination gestopt
- Forward selection: begint met een ‘leeg’ model (𝑦̂ = 𝑎) waarbij elke niet-
gebruikte onafhankelijke variabele 1-voor-1 wordt toegevoegd aan het model.
Hierbij wordt elke keer de 𝑠𝑟 2 bepaald. De significantie van de onafhankelijke
variabele met de grootste 𝑠𝑟 2 wordt getoetst, waarbij bij een significant
resultaat de onafhankelijke variabele wordt toegevoegd
- Stepwise regression: eerst vindt er forward selection plaats. Vervolgens wordt
er getoetst of de onafhankelijke variabelen in het model niet-significante 𝑠𝑟𝑖2
hebben. Zo ja, dan worden deze onafhankelijke variabelen verwijderd
Er zijn een aantal risico’s aan het automatisch uitvoeren van een hiërarchische regressie:
- Bij veel onafhankelijke variabelen zijn de verschillen tussen 𝑠𝑟𝑖 ’s klein
- Kans speelt een (te) grote rol bij de selectie van onafhankelijke variabelen
- Het is steekproefafhankelijk
- Verschillende methoden leveren verschillende resultaten
- Het leidt niet noodzakelijk tot praktische/verstandige modellen
Door bovenstaande risico’s moeten er theoretische argumenten gebruikt worden voor de
selectie van onafhankelijke variabelen, moet men voorzichtig zijn met interpretaties, moet
𝑛⁄ > 40 zijn (met 𝑝 = totaal aantal onafhankelijke variabelen beschikbaar) en moet cross-
𝑝
validatie gebruikt worden (een deel van de data wordt gebruikt om het model te schatten en
het andere deel om te onderzoeken hoe goed de voorspelling is).
1
,Bij cross-validatie ontstaat vanuit de residuen van de voorspelde waarden een predicted
residual sum of squares (PRESS):
𝑃𝑅𝐸𝑆𝑆 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 Hoe kleiner de PRESS, hoe beter de voorspellingen zijn.
Omdat de PRESS gebruik maakt van een som van kwadraten, wordt er een normale
verdeling veronderstelt. Een methode dat ook niet-normale verdelingen aankan, is het
Akaike information criterion (AIC). Deze methode selecteert het model waarbij 𝑦̂𝑖 zo dicht
mogelijk bij 𝐸(𝑦𝑖 ) ligt (gecorrigeerd voor het aantal variabelen in het model). Hoe kleiner de
AIC, hoe beter de voorspellingen.
De hiërarchische analyse maakt gebruik van de opsplitsing van 𝑅2 met semi-partiële
correlaties (𝑠𝑟). 2 voorbeelden van zo’n analyse:
De volgorde van de onafhankelijke variabelen is
dus van belang, want deze 2 hiërarchische
regressieanalyses zijn niet hetzelfde.
Je kunt toetsen of de set extra variabelen van het reduced model (r) naar het complete
model (C) significant bijdraagt met:
Hierbij is 𝑑𝑓1 het aantal extra variabelen van model r naar model C en
𝑑𝑓2 = 𝑛 − 𝑝 − 1 van model C waarbij p = het aantal onafhankelijke
variabelen.
Als er 1 extra onafhankelijke variabele is toegevoegd, dan geldt 𝐹 = 𝑡 2 . Hierbij is 𝑡 2 de
gekwadrateerde waarde van de t-statistic van de betreffende toegevoegde onafhankelijke
variabele.
Verklarend (explanatory) onderzoek gaat uit van een theoretisch model dat getest moet
worden, meestal zijn de variabelen dan al bekend. Verkennend (exploratory) onderzoek gaat
open op zoek naar verklaringen van een fenomeen.
Om een model te kiezen met een hoge voorspellende power maar met een gering aantal
variabelen, wordt de adjusted 𝑅2 gebruikt:
De adjusted 𝑅2 neemt af als een overbodige
variabele wordt toegevoegd.
14.2 Waaraan zie je dat een statistisch model niet werkt?
Inferentie van parameters van een regressiemodel heeft de volgende assumpties:
1. Er is een lineaire relatie tussen y en de onafhankelijke variabelen. Dit kan worden
gecheckt met partial plots (de relatie tussen y en de onafhankelijke variabele, na
weglating van het effect van andere voorspellers)
2. De conditionele verdeling van y is normaal. Dit kan worden gecheckt met
histogrammen van residuals
3. Homoscedasticiteit: de conditionele verdeling van y heeft een constante variantie
voor alle x-waarden. Dit kan worden gecheckt met scatterplot residuals
4. Het gaat om een willekeurige steekproef
2
,Een studentized residual is een gestandaardiseerde versie van een residu: het residu
gedeeld door de standaardfout. Dit geeft aan hoeveel variabiliteit in de residuen wordt
verklaard door de variabiliteit van de steekproeftrekking. Een studentized residual groter dan
3 kan een outlier zijn.
De willekeurigheid van een longitudinaal onderzoek wordt in het nauw gebracht als de
observaties binnen een bepaald tijdsbestek sterk correleren. Dit kan worden nagekeken met
een puntgrafiek van de residuen gedurende het gehele tijdsverloop. Bij time series analyse
gaat het om een langer tijdsbestek, waarbij methoden uit de econometrie geschikter zijn.
Er zijn veel statistieken die het effect van een outlier meten. De residuen meten hoe ver y
valt van de trend (regressielijn). Hoe ver de verklarende variabelen van hun gemiddelden af
liggen, wordt gemeten door het leverage (h). Als observaties zowel een hoog residu hebben
als een hoog leverage, dan hebben ze veel invloed.
DFBETA beschrijft het effect van een observatie op de schattingen van de parameters.
DFFIT en Cook's distance beschrijven het effect op de mate waarin de grafiek past bij de
data als een bepaalde observatie wordt verwijderd.
14.3 Hoe detecteer je multicollineariteit en wat zijn de gevolgen ervan?
Wanneer er veel verklarende variabelen zijn die een sterke correlatie met elkaar hebben,
dan neemt 𝑅2 relatief weinig toe als het aantal verklarende variabelen toeneemt. Dit betekent
niet dat die variabelen y niet goed kunnen voorspellen, maar dat ze niet veel meer
toevoegen aan de predictoren. Dit heet multicollineariteit.
Door multicollineariteit worden de standaardfouten groter. Door een groter
betrouwbaarheidsinterval wordt ook de variantie groter. Dit wordt gemeten door de variance
inflation factor (VIF). Dit is de vermenigvuldigde toename in de variantie die wordt
veroorzaakt door de correlatie tussen de verklarende variabelen. In formulevorm:
1
𝑉𝐼𝐹 =
(1 − 𝑅𝑖2 )
Om multicollineariteit te verminderen, kan slechts een deel van de variabelen gekozen
worden, variabelen toegevoegd worden of variabelen gecentreerd worden. Met factoranalyse
worden kunstmatige, nieuwe variabelen geschapen uit de bestaande variabelen waarbij
correlatie kan worden vermeden.
De standaardfout van een partiële regressiecoëfficiënt is:
Hierbij is 𝑠 = √𝑀𝑆𝐸 en 𝑅𝑖2 = de 𝑅2 die hoort bij de regressie van
𝑥𝑖 op de andere onafhankelijke variabelen.
14.4 Wat zijn de kenmerken van Generalized Linear Models?
Er zijn verschillende manieren om niet-lineaire relaties te modelleren met een lineair model:
1. Polynomiale regressie: zie §14.5
2. Monotonische non-lineaire transformaties: het transformeren van data zodat men
uitkomt op (redelijk) lineaire relaties
3. Non-lineaire regressie: logistische regressie
4. Non-parametrische regressie: geen statistiek 3 tentamenstof
Generalized Linear Models (GLM) is een brede term waaronder regressiemodellen met een
normale verdeling vallen, alternatieve modellen voor continue variabelen met een niet-
normale verdeling, en modellen met discrete (categorische) variabelen.
3
, Een voordeel van een GLM is dat de data niet normaal verdeeld hoeft te zijn, omdat een
GLM de meest aannemelijke schatter gebruikt. De meest aannemelijke schatter gebruikt een
versie van de kleinste-kwadratenmethode die de gewogen kleinste-kwadratenmethode heet.
Deze methode geeft meer gewicht aan observaties met minder variabiliteit.
Een GLM heeft een linkfunctie: een vergelijking die het gemiddelde van de afhankelijke
variabele verbindt met de onafhankelijke variabelen. De formule is:
𝑔(𝜇) = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ 𝛽𝑝 𝑥𝑝 .
Voor binaire data ziet bovenstaande formule er als volgt uit (want als y binair is, dan is
𝑃(𝑦 = 1) het gemiddelde van 0-en en 1-en):
𝜇 𝑃̂ (𝑦 = 1)
𝑔(𝜇) = log ( ) = log ( ) = log(𝑜𝑑𝑑𝑠)
1−𝜇 1 − 𝑃̂ (𝑦 = 1)
De simpelste linkfunctie is de identity link: 𝑔(𝜇) = 𝜇.
Als de data niet negatief kan zijn, dan kan de log link worden gebruikt voor loglineaire
modellen: 𝑙𝑜𝑔(𝜇) = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ 𝛽𝑝 𝑥𝑝 .
14.5 Wat is polynomiale regressie?
Als een grafiek in hoge mate niet lineair is (bijv. curvilineair), dan wordt een polynomiale
regressiefunctie gebruikt: 𝐸(𝑦) = 𝛼 + 𝛽1 𝑥 + 𝛽2 𝑥 2 + 𝛽3 𝑥 3 + 𝛽𝑘 𝑥 𝑘 . Hierbij wordt de hoogste
macht de graad (degree) van de functie genoemd.
Met een polynomiale regressiefunctie kan een kwadratisch regressiemodel worden
vormgegeven, een parabool:
Het hoogste of laagste punt van de parabool (waarop deze van
−𝛽
richting verandert) is: 𝑥 = 2𝛽1 .
2
Een quadratic function is een polynomiale functie met 2 graden.
Een cubic function is een polynomiale functie met 3 graden.
Naarmate de orde met 1 stijgt, komt er een extra curve in de
lijn. Als 𝑥 𝑘 in het model zit, moet men ook 𝑥 𝑘−1 meenemen in
het model.
𝑛 waarnemingen kunnen perfect beschreven worden door 𝑥 𝑛−1 te gebruiken. Deze perfecte
fit is echter niet bruikbaar bij de interpretatie. Meestal gaat men bij de beslissing van welke
orde te gebruiken niet verder dan 𝑥 3 . Hogere orde polynomen nemen namelijk teveel
random variatie in de data mee. Daarnaast zijn hogere orde regressiecoëfficiënten moeilijk te
interpreteren. Bij twijfel is een eenvoudiger model beter dan een ingewikkelder model.
Bij dit soort modellen is 𝑅2 de proportionele vermindering van schattingsfouten door het
gebruiken van een kwadratisch verband i.p.v. een lineair verband. Door 𝑅2 voor het
kwadratische verband te vergelijken met 𝑅2 voor het lineaire verband, kan men zien hoeveel
beter de kwadratische functie past.
Het centreren van voorspellers bij polynomiale regressie vermindert de multicollineariteit.
Daarnaast blijven 𝑦̂’s en 𝑅𝑦2 gelijk en blijven de 𝑏, 𝑠𝑟 en 𝑝𝑟 voor de hoogste-orde-term gelijk.
Bijvoorbeeld:
Gecentreerde waarden kunnen als volgt verkregen worden: 𝑥 = (𝑋 − 𝑀𝑥 ) en 𝑥 2 = (𝑋 − 𝑀𝑋 )2
etc. Hierbij is 𝑀𝑋 het gemiddelde van X.
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller lottekalk02. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $5.93. You're not tied to anything after your purchase.