Hoorcollege 1 Vos multipele regressie
Multipele regressie
meerdere onafhankelijke variabelen/factoren (verzameling)
Pad model (clusters)
variabelen van invloed zijn op…
Pad model multipele regressie
Eén afhankelijke variabele (Y)
Een of meerdere onafhankelijke variabelen (minimaal interval)
Een of meerdere onafhankelijke variabelen (dichotoom)
doel voor de populatie beschrijven en toetsen van de relaties tussen afhankelijke variabele Y en de
onafhankelijke variabele X
Multiple regressie algemeen
Onderzoeksvraag
Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere kenmerken?
Doel analyse
o Beschrijven lineaire relaties tussen variabelen (regressie model)
o Toetsen hypothesen over relaties (significantie)
o Kwantificeren van relaties (effectgrootte)
o Kwalificeren van relaties (klein, middelmatig, groot)
o Beoordelen relevantie relaties (subjectief)
o Voorspellen van iemands waarde met regressiemodel (puntschatting en interval
schatting)
Waarschuwing
Doe op basis van statistische samenhang geen uitspraken over causaliteit
Meetniveau variabelen
- NOIR
Ratio, interval, ordinaal, nominaal
- Afhankelijke variabele Y
o Kenmerk gemeten op minimaal interval meetniveau
- Meetniveau onafhankelijke variabele Xk
o Kenmerk gemeten op minimaal interval meetniveau
o Categorische kenmerken met twee categorieën; nominaal meterniveau met twee
categorieën noemen we dichotoom
o Categorisch kenmerk met meer dan 2 categorieën; nominaal/ordinaal meetniveau wordt
omgezet in dummy variabelen
,Regressiemodel (1)
Vergelijking Y
Voor geobserveerde variabele Y
Vergelijking Y^
Voor voorspellen van waarde op Y (= Y^)
Geschatte uitkomst (Y^) = model (X)
Regressiemodel (2)
Y= B0 + B1 X1 + … + B6 X6 + E
Y= afhankelijke variabele (dependent)
X= onafhankelijke variabele (predictors)
B0= intercept (constant), ook wel
B1= regressie coëfficiënt (slope)
E= voorspellingsfout (error of residual)
Spreidingsdiagram
- Vergelijking voor enkelvoudige regressive
1. Intercept of constante (b0)
2. Regressie coefficient (b1)
- Intercept
B0 = 5, B0 = 5, B0 = 5
- Richting verband
B1= 0.5 (positief) B1= -0.5 (negatief) B1= 0
- Interpretatie b1 waarde
De verandering in Y^ bij toename van één eenheid in X
Kleinste kwadraten criterium
Best passende rechte lijn
De lijn waarbij spellingsfout (error) zo klein mogelijk is
Voor elke respondent geldt J:
o Geobserveerde Yj
o Geschatte Y^j
o Voorspellingfout Ej= Yj – Y^j
, De voorspellingsfout is de afstand tussen de geobserveerde waarde en de voorspelde waarde
Positief residu
Boven de lijn; onderschatting door model
Negatief residu
Onder de lijn; overschatting door model
Goodness-of-fit (1)
- Beste model?
Het model (regressielijn) met kleinste residuele kwadratensom, hoe goed is dat dan?
- Bepalen Goodness-of-fit (R2)
Vergelijking (ratio) van lineair model (regressielijn) met basismodel (basislijn)
Opsplitsing waargenomen variatie
Y^ basis model
t = totale deviatie
/ Y^ lineair model
m = verklaarde deel (model)
r = onverklaarde deel (residu)
elke t, m, r kwadraten en dan optellen
SST, SSM en SSR
Goodness-of-fit (2)
Goodness-of-fit (R2)
- Kwadratensom van model gedeeld door totale kwadratensom
- Proportie door X verklaarde variatie in Y
- Interpretatie R en R2
o Multipele regressie coëfficiënt R
o Correlatie tussen geobserveerde Y en Y^
o Determinatiecoëfficiënt R2:
Proportie in Y verklaarde variantie door het model
- Waarderingmodel
1. Significantie (= toetsen)
2. Kwantificeren relatie (= effectgrootte)
Toetsen R2 en B’s
Populatie
o Hypothesen
Steekproef
o Steekproef resultaten
Multipele regressie
meerdere onafhankelijke variabelen/factoren (verzameling)
Pad model (clusters)
variabelen van invloed zijn op…
Pad model multipele regressie
Eén afhankelijke variabele (Y)
Een of meerdere onafhankelijke variabelen (minimaal interval)
Een of meerdere onafhankelijke variabelen (dichotoom)
doel voor de populatie beschrijven en toetsen van de relaties tussen afhankelijke variabele Y en de
onafhankelijke variabele X
Multiple regressie algemeen
Onderzoeksvraag
Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere kenmerken?
Doel analyse
o Beschrijven lineaire relaties tussen variabelen (regressie model)
o Toetsen hypothesen over relaties (significantie)
o Kwantificeren van relaties (effectgrootte)
o Kwalificeren van relaties (klein, middelmatig, groot)
o Beoordelen relevantie relaties (subjectief)
o Voorspellen van iemands waarde met regressiemodel (puntschatting en interval
schatting)
Waarschuwing
Doe op basis van statistische samenhang geen uitspraken over causaliteit
Meetniveau variabelen
- NOIR
Ratio, interval, ordinaal, nominaal
- Afhankelijke variabele Y
o Kenmerk gemeten op minimaal interval meetniveau
- Meetniveau onafhankelijke variabele Xk
o Kenmerk gemeten op minimaal interval meetniveau
o Categorische kenmerken met twee categorieën; nominaal meterniveau met twee
categorieën noemen we dichotoom
o Categorisch kenmerk met meer dan 2 categorieën; nominaal/ordinaal meetniveau wordt
omgezet in dummy variabelen
,Regressiemodel (1)
Vergelijking Y
Voor geobserveerde variabele Y
Vergelijking Y^
Voor voorspellen van waarde op Y (= Y^)
Geschatte uitkomst (Y^) = model (X)
Regressiemodel (2)
Y= B0 + B1 X1 + … + B6 X6 + E
Y= afhankelijke variabele (dependent)
X= onafhankelijke variabele (predictors)
B0= intercept (constant), ook wel
B1= regressie coëfficiënt (slope)
E= voorspellingsfout (error of residual)
Spreidingsdiagram
- Vergelijking voor enkelvoudige regressive
1. Intercept of constante (b0)
2. Regressie coefficient (b1)
- Intercept
B0 = 5, B0 = 5, B0 = 5
- Richting verband
B1= 0.5 (positief) B1= -0.5 (negatief) B1= 0
- Interpretatie b1 waarde
De verandering in Y^ bij toename van één eenheid in X
Kleinste kwadraten criterium
Best passende rechte lijn
De lijn waarbij spellingsfout (error) zo klein mogelijk is
Voor elke respondent geldt J:
o Geobserveerde Yj
o Geschatte Y^j
o Voorspellingfout Ej= Yj – Y^j
, De voorspellingsfout is de afstand tussen de geobserveerde waarde en de voorspelde waarde
Positief residu
Boven de lijn; onderschatting door model
Negatief residu
Onder de lijn; overschatting door model
Goodness-of-fit (1)
- Beste model?
Het model (regressielijn) met kleinste residuele kwadratensom, hoe goed is dat dan?
- Bepalen Goodness-of-fit (R2)
Vergelijking (ratio) van lineair model (regressielijn) met basismodel (basislijn)
Opsplitsing waargenomen variatie
Y^ basis model
t = totale deviatie
/ Y^ lineair model
m = verklaarde deel (model)
r = onverklaarde deel (residu)
elke t, m, r kwadraten en dan optellen
SST, SSM en SSR
Goodness-of-fit (2)
Goodness-of-fit (R2)
- Kwadratensom van model gedeeld door totale kwadratensom
- Proportie door X verklaarde variatie in Y
- Interpretatie R en R2
o Multipele regressie coëfficiënt R
o Correlatie tussen geobserveerde Y en Y^
o Determinatiecoëfficiënt R2:
Proportie in Y verklaarde variantie door het model
- Waarderingmodel
1. Significantie (= toetsen)
2. Kwantificeren relatie (= effectgrootte)
Toetsen R2 en B’s
Populatie
o Hypothesen
Steekproef
o Steekproef resultaten