100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting Statistiek 3 (deeltentamen 1) €5,49   In winkelwagen

Samenvatting

Samenvatting Statistiek 3 (deeltentamen 1)

1 beoordeling
 58 keer bekeken  2 keer verkocht

Samenvatting voor het eerste deeltentamen van Statistiek 3. De samenvatting bestaat uit H14 en H15 van het boek van Agresti en is aangevuld met de stof uit de colleges. Opmerking: alle stof van statistiek 2 hoort ook bij de tentamenstof voor dit deeltentamen! Zie mijn andere samenvattingen van stat...

[Meer zien]
Laatste update van het document: 3 jaar geleden

Voorbeeld 4 van de 7  pagina's

  • Nee
  • H14 en h15
  • 14 maart 2020
  • 6 juni 2021
  • 7
  • 2019/2020
  • Samenvatting
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (14)

1  beoordeling

review-writer-avatar

Door: florandouma1997 • 3 jaar geleden

Hoi! Je samenvatting is wel semi-prima, maar het is voor mij niet duidelijk over welk hoofdonderwerp het gaat (zoals Repeated Measures ANOVA bv). En ik mis iets over sfericiteit. Er zijn ook dingen versprongen en door elkaar heen.

avatar-seller
lottekalk02
Samenvatting Statistiek 3 deeltentamen 1
*Alle statistiek 2 stof is ook tentamenstof!*


Hoofdstuk 14: Hoe construeer je een model voor multipele regressie van extreme of
sterk gecorreleerde data?
14.1 Welke strategieën zijn er voor het selecteren van een model?
Er kunnen allerlei strategieën zijn om onafhankelijke variabelen wel of niet toe te voegen aan
een model. Er zijn 3 basisregels voor het maken van een selectie:
1. Selecteer relevante variabelen zodat het model theoretisch bruikbaar wordt, met
zinvolle controlevariabelen en mediërende variabelen
2. Selecteer voldoende variabelen om voldoende power te verkrijgen
3. Houd het model zo eenvoudig mogelijk
Het model blijft overzichtelijk als de onafhankelijke variabelen een hoge correlatie hebben
met de afhankelijke variabele, maar niet met elkaar.

Bij hiërarchische regressieanalyse worden een serie regressieanalyses uitgevoerd door sets
van onafhankelijke variabelen stap voor stap toe te voegen of te verwijderen. Per stap
worden de correlaties en de regressiecoëfficiënten geanalyseerd.

Een hiërarchische regressieanalyse kan op 2 manieren uitgevoerd worden:
1. Handmatig: het 1-voor-1 toevoegen van onafhankelijke variabelen kan met de knop
‘Enter’ in SPSS. Hierbij moet de optie ‘block’ gebruikt worden. Het 1-voor-1
verwijderen van onafhankelijke variabelen kan met de knop ‘Remove’ in SPSS.
Hierbij moet ook de optie ‘block’ gebruikt worden
2. Automatisch (m.b.v. software): hier zijn 3 strategieën voor:
- Backward elimination: begint met een ‘verzadigd’ model met alle
onafhankelijke variabelen. 1-voor-1 worden er onafhankelijke variabelen
verwijderd uit het model, waarbij telkens de afname in 𝑅2 wordt bepaald. De
onafhankelijke variabele met de kleinste 𝑠𝑟 2 wordt geselecteerd, waarbij
gekeken wordt of 𝑅2 significant afneemt bij het verwijderen van deze
variabele. Als de p-waarde niet significant is, wordt die variabele uit het model
verwijderd en wordt hetzelfde proces nogmaals uitgevoerd. Bij een
significante p-waarde wordt de backward elimination gestopt
- Forward selection: begint met een ‘leeg’ model (𝑦̂ = 𝑎) waarbij elke niet-
gebruikte onafhankelijke variabele 1-voor-1 wordt toegevoegd aan het model.
Hierbij wordt elke keer de 𝑠𝑟 2 bepaald. De significantie van de onafhankelijke
variabele met de grootste 𝑠𝑟 2 wordt getoetst, waarbij bij een significant
resultaat de onafhankelijke variabele wordt toegevoegd
- Stepwise regression: eerst vindt er forward selection plaats. Vervolgens wordt
er getoetst of de onafhankelijke variabelen in het model niet-significante 𝑠𝑟𝑖2
hebben. Zo ja, dan worden deze onafhankelijke variabelen verwijderd

Er zijn een aantal risico’s aan het automatisch uitvoeren van een hiërarchische regressie:
- Bij veel onafhankelijke variabelen zijn de verschillen tussen 𝑠𝑟𝑖 ’s klein
- Kans speelt een (te) grote rol bij de selectie van onafhankelijke variabelen
- Het is steekproefafhankelijk
- Verschillende methoden leveren verschillende resultaten
- Het leidt niet noodzakelijk tot praktische/verstandige modellen

Door bovenstaande risico’s moeten er theoretische argumenten gebruikt worden voor de
selectie van onafhankelijke variabelen, moet men voorzichtig zijn met interpretaties, moet
𝑛⁄ > 40 zijn (met 𝑝 = totaal aantal onafhankelijke variabelen beschikbaar) en moet cross-
𝑝
validatie gebruikt worden (een deel van de data wordt gebruikt om het model te schatten en
het andere deel om te onderzoeken hoe goed de voorspelling is).

1

,Bij cross-validatie ontstaat vanuit de residuen van de voorspelde waarden een predicted
residual sum of squares (PRESS):
𝑃𝑅𝐸𝑆𝑆 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 Hoe kleiner de PRESS, hoe beter de voorspellingen zijn.

Omdat de PRESS gebruik maakt van een som van kwadraten, wordt er een normale
verdeling veronderstelt. Een methode dat ook niet-normale verdelingen aankan, is het
Akaike information criterion (AIC). Deze methode selecteert het model waarbij 𝑦̂𝑖 zo dicht
mogelijk bij 𝐸(𝑦𝑖 ) ligt (gecorrigeerd voor het aantal variabelen in het model). Hoe kleiner de
AIC, hoe beter de voorspellingen.

De hiërarchische analyse maakt gebruik van de opsplitsing van 𝑅2 met semi-partiële
correlaties (𝑠𝑟). 2 voorbeelden van zo’n analyse:

De volgorde van de onafhankelijke variabelen is
dus van belang, want deze 2 hiërarchische
regressieanalyses zijn niet hetzelfde.




Je kunt toetsen of de set extra variabelen van het reduced model (r) naar het complete
model (C) significant bijdraagt met:
Hierbij is 𝑑𝑓1 het aantal extra variabelen van model r naar model C en
𝑑𝑓2 = 𝑛 − 𝑝 − 1 van model C waarbij p = het aantal onafhankelijke
variabelen.

Als er 1 extra onafhankelijke variabele is toegevoegd, dan geldt 𝐹 = 𝑡 2 . Hierbij is 𝑡 2 de
gekwadrateerde waarde van de t-statistic van de betreffende toegevoegde onafhankelijke
variabele.

Verklarend (explanatory) onderzoek gaat uit van een theoretisch model dat getest moet
worden, meestal zijn de variabelen dan al bekend. Verkennend (exploratory) onderzoek gaat
open op zoek naar verklaringen van een fenomeen.

Om een model te kiezen met een hoge voorspellende power maar met een gering aantal
variabelen, wordt de adjusted 𝑅2 gebruikt:
De adjusted 𝑅2 neemt af als een overbodige
variabele wordt toegevoegd.

14.2 Waaraan zie je dat een statistisch model niet werkt?
Inferentie van parameters van een regressiemodel heeft de volgende assumpties:
1. Er is een lineaire relatie tussen y en de onafhankelijke variabelen. Dit kan worden
gecheckt met partial plots (de relatie tussen y en de onafhankelijke variabele, na
weglating van het effect van andere voorspellers)
2. De conditionele verdeling van y is normaal. Dit kan worden gecheckt met
histogrammen van residuals
3. Homoscedasticiteit: de conditionele verdeling van y heeft een constante variantie
voor alle x-waarden. Dit kan worden gecheckt met scatterplot residuals
4. Het gaat om een willekeurige steekproef




2

,Een studentized residual is een gestandaardiseerde versie van een residu: het residu
gedeeld door de standaardfout. Dit geeft aan hoeveel variabiliteit in de residuen wordt
verklaard door de variabiliteit van de steekproeftrekking. Een studentized residual groter dan
3 kan een outlier zijn.

De willekeurigheid van een longitudinaal onderzoek wordt in het nauw gebracht als de
observaties binnen een bepaald tijdsbestek sterk correleren. Dit kan worden nagekeken met
een puntgrafiek van de residuen gedurende het gehele tijdsverloop. Bij time series analyse
gaat het om een langer tijdsbestek, waarbij methoden uit de econometrie geschikter zijn.

Er zijn veel statistieken die het effect van een outlier meten. De residuen meten hoe ver y
valt van de trend (regressielijn). Hoe ver de verklarende variabelen van hun gemiddelden af
liggen, wordt gemeten door het leverage (h). Als observaties zowel een hoog residu hebben
als een hoog leverage, dan hebben ze veel invloed.

DFBETA beschrijft het effect van een observatie op de schattingen van de parameters.
DFFIT en Cook's distance beschrijven het effect op de mate waarin de grafiek past bij de
data als een bepaalde observatie wordt verwijderd.

14.3 Hoe detecteer je multicollineariteit en wat zijn de gevolgen ervan?
Wanneer er veel verklarende variabelen zijn die een sterke correlatie met elkaar hebben,
dan neemt 𝑅2 relatief weinig toe als het aantal verklarende variabelen toeneemt. Dit betekent
niet dat die variabelen y niet goed kunnen voorspellen, maar dat ze niet veel meer
toevoegen aan de predictoren. Dit heet multicollineariteit.

Door multicollineariteit worden de standaardfouten groter. Door een groter
betrouwbaarheidsinterval wordt ook de variantie groter. Dit wordt gemeten door de variance
inflation factor (VIF). Dit is de vermenigvuldigde toename in de variantie die wordt
veroorzaakt door de correlatie tussen de verklarende variabelen. In formulevorm:
1
𝑉𝐼𝐹 =
(1 − 𝑅𝑖2 )

Om multicollineariteit te verminderen, kan slechts een deel van de variabelen gekozen
worden, variabelen toegevoegd worden of variabelen gecentreerd worden. Met factoranalyse
worden kunstmatige, nieuwe variabelen geschapen uit de bestaande variabelen waarbij
correlatie kan worden vermeden.

De standaardfout van een partiële regressiecoëfficiënt is:

Hierbij is 𝑠 = √𝑀𝑆𝐸 en 𝑅𝑖2 = de 𝑅2 die hoort bij de regressie van
𝑥𝑖 op de andere onafhankelijke variabelen.

14.4 Wat zijn de kenmerken van Generalized Linear Models?
Er zijn verschillende manieren om niet-lineaire relaties te modelleren met een lineair model:
1. Polynomiale regressie: zie §14.5
2. Monotonische non-lineaire transformaties: het transformeren van data zodat men
uitkomt op (redelijk) lineaire relaties
3. Non-lineaire regressie: logistische regressie
4. Non-parametrische regressie: geen statistiek 3 tentamenstof

Generalized Linear Models (GLM) is een brede term waaronder regressiemodellen met een
normale verdeling vallen, alternatieve modellen voor continue variabelen met een niet-
normale verdeling, en modellen met discrete (categorische) variabelen.



3

, Een voordeel van een GLM is dat de data niet normaal verdeeld hoeft te zijn, omdat een
GLM de meest aannemelijke schatter gebruikt. De meest aannemelijke schatter gebruikt een
versie van de kleinste-kwadratenmethode die de gewogen kleinste-kwadratenmethode heet.
Deze methode geeft meer gewicht aan observaties met minder variabiliteit.

Een GLM heeft een linkfunctie: een vergelijking die het gemiddelde van de afhankelijke
variabele verbindt met de onafhankelijke variabelen. De formule is:
𝑔(𝜇) = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ 𝛽𝑝 𝑥𝑝 .

Voor binaire data ziet bovenstaande formule er als volgt uit (want als y binair is, dan is
𝑃(𝑦 = 1) het gemiddelde van 0-en en 1-en):
𝜇 𝑃̂ (𝑦 = 1)
𝑔(𝜇) = log ( ) = log ( ) = log⁡(𝑜𝑑𝑑𝑠)
1−𝜇 1 − 𝑃̂ (𝑦 = 1)

De simpelste linkfunctie is de identity link: 𝑔(𝜇) = 𝜇.

Als de data niet negatief kan zijn, dan kan de log link worden gebruikt voor loglineaire
modellen: 𝑙𝑜𝑔(𝜇) = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ 𝛽𝑝 𝑥𝑝 .

14.5 Wat is polynomiale regressie?
Als een grafiek in hoge mate niet lineair is (bijv. curvilineair), dan wordt een polynomiale
regressiefunctie gebruikt: 𝐸(𝑦) = 𝛼 + 𝛽1 𝑥 + 𝛽2 𝑥 2 + 𝛽3 𝑥 3 + 𝛽𝑘 𝑥 𝑘 . Hierbij wordt de hoogste
macht de graad (degree) van de functie genoemd.

Met een polynomiale regressiefunctie kan een kwadratisch regressiemodel worden
vormgegeven, een parabool:

Het hoogste of laagste punt van de parabool (waarop deze van
−𝛽
richting verandert) is: 𝑥 = 2𝛽1 .
2


Een quadratic function is een polynomiale functie met 2 graden.
Een cubic function is een polynomiale functie met 3 graden.
Naarmate de orde met 1 stijgt, komt er een extra curve in de
lijn. Als 𝑥 𝑘 in het model zit, moet men ook 𝑥 𝑘−1 meenemen in
het model.

𝑛 waarnemingen kunnen perfect beschreven worden door 𝑥 𝑛−1 te gebruiken. Deze perfecte
fit is echter niet bruikbaar bij de interpretatie. Meestal gaat men bij de beslissing van welke
orde te gebruiken niet verder dan 𝑥 3 . Hogere orde polynomen nemen namelijk teveel
random variatie in de data mee. Daarnaast zijn hogere orde regressiecoëfficiënten moeilijk te
interpreteren. Bij twijfel is een eenvoudiger model beter dan een ingewikkelder model.

Bij dit soort modellen is 𝑅2 de proportionele vermindering van schattingsfouten door het
gebruiken van een kwadratisch verband i.p.v. een lineair verband. Door 𝑅2 voor het
kwadratische verband te vergelijken met 𝑅2 voor het lineaire verband, kan men zien hoeveel
beter de kwadratische functie past.

Het centreren van voorspellers bij polynomiale regressie vermindert de multicollineariteit.
Daarnaast blijven 𝑦̂’s en 𝑅𝑦2 gelijk en blijven de 𝑏, 𝑠𝑟 en 𝑝𝑟 voor de hoogste-orde-term gelijk.
Bijvoorbeeld:

Gecentreerde waarden kunnen als volgt verkregen worden: 𝑥 = (𝑋 − 𝑀𝑥 ) en 𝑥 2 = (𝑋 − 𝑀𝑋 )2
etc. Hierbij is 𝑀𝑋 het gemiddelde van X.


4

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper lottekalk02. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 66579 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen

Laatst bekeken door jou


€5,49  2x  verkocht
  • (1)
  Kopen