Padmodel multipele regressie
- Één afhankelijke variabele (y)
- Één of meerdere onafhankelijke variabelen (minimaal interval)
- Één of meerdere onafhankelijke variabelen (dichotoom: ja/nee)
*Een stapje meer op x, wat doet dat met verachte score y (daarom interval)
E: meetfout (errors)
Voorbeeld
Onderzoeksvraag: kunnen we kennis van literatuur bij jongvolwassenen voorspellen met persoons-,
gezins- en schoolkenmerken?
Populatie: jongvolwassenen
Variabelen: afhankelijke variabele y (kennis van literatuur)
Onafhankelijke variabelen x (predictoren (persoonlijke kenmerken; kenmerken ouderlijk huis,
kenmerken school)
Doel: voor de populatie beschrijven en toetsen van de relaties tussen afhankelijke variabele y en de
predictoren x
Multipele regressie algemeen
Onderzoeksvraag: kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere
kenmerken?
(waarde op kenmerk (schoolprestatie) voorspellen adhv kennis andere kenmerken (gezinssituatie))
Doelen analyse
Beschrijven lineaire relaties tussen variabelen (regressiemodel)
Toetsen hypothesen over relaties (significantie)
Kwantificeren van relaties (effectgrootte)
Kwalificeren van relaties (klein, middelmatig, groot)
Beoordelen relevantie relaties (subjectief)
Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting)
*Waarschuwing: doe obv statistische samenhang; geen uitspraken over causaliteit
Meetniveau variabelen
Afhankelijke variabele: kenmerk gemeten op minimaal interval meetniveau
Meetniveau onafhankelijke variabelen Xk
- Kenmerk gemeten op minimaal interval meetniveau
- Categorisch kenmerk met 2 categorieën: nominaal meetniveau met 2 categorieën noemen de
dichotoom
- Categorisch kenmerk met >2 categorieën: nominaal/ordinaal meetniveau wordt omgezet in
dummyvariabelen
,Regressiemodel 1
Vergelijking y
Voor geobserveerde variabele y: uitkomst (y) = model (x) + voorspellingsfout
Voor voorspellen van waarde op y voorspellen van waarde op y: geschatte uitkomst (ydakje) = model
(x)
Regressiemodel 2
B1: 1 stapje hoger kennis literatuur vader. Wat is de invloed op verwachte kennis literatuur
jongvolwassene?
Histogram read scores
Willen zien of er spreiding is. Als iedereen hetzelfde scoort, valt er niks te verklaren. Met spreiding:
kijken of histogram normaal is verdeeld
Spreidingsdiagram
Uitkomst y met 1 voorspeller
Intercept overal b0=5, zegt niks over richting verband
Interpretatie b1-waarde: de verandering in y(dakje) bij toename van één eenheid in X
Kleinste kwadraten criterium
Best passende rechte lijn: de lijn waarbij voorspellingsfout (error) zo klein mogelijk is
Voor elke respondent j
- Geobserveerde Yj
- Geschatte Y(dakje)j
- Voorspellingsfout Ej=Yj-Y(dakje)j
Voorspellingsfout: afstand tussen geobserveerde waarde en voorspelde waarde
Uitschieters tellen zwaar mee in het model
Positieve errors: boven lijn; onderschatting door model
Negatieve errors: onder lijn; overschatting door model
,Goodness-of-fit 1
Beste model? Het model (regressielijn) met kleinste residuele kwadratensom. Hoe goed is dat dan?
Bepalen Goodness-of-fit (R2)
Vergelijking (ratio) van lineair model (regressielijn) met basismodel (basislijn)
*Model wat alles kan verklaren: R2 = 1
M verklaart stukje t. Hoe groter m, hoe beter het model past
Ideale situatie: R=0. M gelijk aan t
Goodness-of-fit 2
- Kwadratensom van model gedeeld door totale kwadratensom
- Proportie door x verklaarde variatie in y
*R2 tussen 0 en 1
Interpretatie R en R2
- Multipele correlatiecoëfficiënt R
o Correlatie tussen geobserveerde Y en Y(dakje)
- Determinatiecoëfficiënt R2: proportie in Y verklaarde variantie door het model
Waardering model
1. Significantie (=toetsen)
2. Kwantificeren relatie (=effectgrootte)
, Toetsen R2en B’s (individuele voorspellers)
Populatie: hypothesen
Steekproef: steekproefresultaten
Beschrijven
1. Verklaring van Y door alle X’en en (R2)
2. Invloed afzonderlijke X’en op Y (B’s)
Alternatieven hypothesen
1. R2> 0: regressiemodel verklaart variatie in Y
2. B>0 of B<0: er is effect van X op Y
Toetsen R2
Voorbeeld: kan literatuurkennis bij jongvolwassenen verklaard worden met aantal boeken in ouderlijk
huis en literatuurkennis vader en literatuurkennis moeder?
Model 1:
Statistische hypothesen
H0: R2=0
Ha: R2>0
Toets voor R2: met F-toets beoordeel je statistische significantie (alpha=.05)
Beoordelen R2: met grootte van R2kwantificeer je de relatie
F-toets
F-toets voor toetsing R2
- Is verklaarde variantie significant groter dan 0?
- Hoeveel verklaart het model tov het deel dat het model niet kan verklaren?
Toetsen B’s
Voorbeeld: kan literatuurkennis bij jongvolwassenen verklaard worden met aantal boeken in ouderlijk
huis en/of literatuurkennis vader en/of literatuurkennis moeder
Is toevoeging van 3 variabelen aan model statistisch zinvol?
- Ja als de verklaarde variantie significant (en relevant) toeneemt
- Nee als de verklaarde variantie niet significant toeneemt
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper mversleijen. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,48. Je zit daarna nergens aan vast.