Het aantal onafhankelijke variabelen bepaalt of het een enkelvoudige of een multipele regressie is. Is
er slechts één onafhankelijke variabele, dan is er sprake van enkelvoudige regressie. Zijn er meerdere
onafhankelijke variabelen, dan is er sprake van multipele regressie. De E staat voor de
voorspellingsfout (een verzameling van andere invloeden)
Multipele regressie algemeen
Onderzoeksvraag: Kunnen we iemands waarde op een kernmerk voorspellen met kennis over andere
kenmerken?
Doelen analyse:
- Beschrijven lineaire relaties tussen variabelen (regressiemodel).
- Toetsen hypothesen over relaties (significantie).
- Kwantificeren van relaties (effectgrootte).
- Kwalificeren van relaties (klein, middelmatig, groot).
- Beoordelen relevantie relaties (subjectief).
- Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting).
Waarschuwing: doe op basis van statistische samenhang geen uitspraken over causaliteit
Meetniveau variabelen
Afhankelijke variabele Y:
- Kenmerk gemeten op minimaal interval niveau
Onafhankelijke variabelen X:
- Kenmerk gemeten op minimaal nominaal meetniveau.
- Categorische kenmerk met twee categorieën; nominaal meetniveau met twee categorieën
noemen we dichotoom.
- Categorisch kenmerk met meer dan twee categorieën; nominaal meetniveau wordt omgezet in
dummyvariabelen.
,Regressiemodel
Vergelijking Y gebruiken we voor de geobserveerde variabele Y (het model is een lineair regressie
model). Hiermee kun je een gedeelte voorspellen. Je kunt hier niet perfect in slagen, dus daarom blijft
er een voorspellingsfout over. Hoe lager de voorspellingsfout, des te beter het verklaringsmodel is.
Uitkomst (Y) = model (X) + voorspellingsfout (residual of error)
Vergelijking Ŷ gebruiken we om de waarde op Y te voorspellen.
Geschatte uitkomst (Ŷ ) = model (X)
Het verschil tussen Ŷ en Y noemen we de voorspellingsfout
Y = afhankelijke variabele (dependent)
X = onafhankelijke variabelen (predictors)
B0 = intercept (constant), ook wel a
B1 = regressiecoëfficiënt (slope) (sterkte relatie)
E = voorspellingsfout (error of residual)
Spreidingsdiagram
1. Intercept of constant (b0) (X=0)
2. Regressiecoëfficiënt (b1) verandering in Ŷ bij toename van één eenheid in X
Formule voor enkelvoudigeregressie: Ŷ = b0 + b1 X1
Kleinste kwadraten criterium
We willen een lijn waarbij de voorspellingsfout zo klein mogelijk is, dan hebben we de best passende
lijn. De afstand tussen Y en Ŷ moet zo klein mogelijk zijn. We spreken van een positief residu als een
waarde boven de lijn ligt, waardoor er dus een onderschatting is door een model. Bij een negatief
residu ligt een waarde onder de lijn en er is dus een overschatting van het model.
Goodness of fit
Dit gaat over hoe goed het model past bij de geobserveerde gegevens. Het beste model is het model
met de kleinste residuele kwadratensom. Om de goodness of fit (R 2) te bepalen, vergelijken we het
lineaire model (regressielijn) met het basismodel (basislijn).
SST = SSM + SSR
SST = totale kwadratensom
SSM = verklaarde deel van het model
SSR = onverklaarde deel van het model
, Dit is de proportie X verklaarde variantie in Y. Dit ligt altijd tussen 0 en 1. 1 is
perfect en 0 is een waardeloos model. We noemen R2 de determinatiecoëfficiënt. R is de multipele
correlatiecoëfficiënt. Het is de correlatie tussen de geobserveerde Y en Ŷ
Toetsen R2 en B’s
Verklaring van Y door alle X’en (R ²) R2 > 0: Het regressiemodel verklaart variatie in Y.
Invloed afzonderlijke X 'en op Y (B‘ s) B > 0 of B < 0: Er is effect van X op Y.
Toetsen R2
Onderzoeksvraag: Kan literatuurkennis verklaard worden met aantal boeken in ouderlijk huis en
literatuurkennis vader en literatuurkennis moeder?
Model: Y = B0 + B1X1 + B2X2 + B3 X3 + E
Hypothesen: H0: R2 = 0
Ha: R2 > 0
Toets voor R2: met de F-toets beoordelen we de statistische significantie (a = .05)
Beoordelen R2: met de grootte van R2 kwantificeer je de relatie
F-toets
Is de verklaarde variantie significant groter dan 0?
F = MSM : MSR
MS staat voor het gemiddelde van de kwadratensom of gemiddelde van sum of squares en dit moet
worden gedeeld door de vrijheidsgraden.
SPSS uitvoer
Constant = intercept, b0
B = regressiecoëfficiënt
Beta = gestandaardiseerde regressiecoëfficient
T = toetsingsgrootheid t
Sig. = overschreidingskans p van steekproef resultaat
Regressiecoëfficiënt B en Beta
Regressiecoëfficiënt B
• Gebruik je voor opstellen van regressievergelijking voor Ŷ
• Regressiecoëfficiënt B is schaalafhankelijk.
Gestandaardiseerde regressiecoëfficiënt Beta
• Gebruik voor vergelijken van de predictoren (X 'en).
• Beoordelen van invloed predictoren.
• Gestandaardiseerde regressiecoëfficiënt Beta is schaalonafhankelijk.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper xjolienx. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,99. Je zit daarna nergens aan vast.