Afhankelijke variabele met veel mogelijke invloeden die in een keer geanalyseerd kunnen worden.
Welke invloeden zijn de belangrijksten?
Operationaliseren van de theoretische constructen→ hoe meet je iets.
Padmodel multipele regressie
Het Padmodel geeft de relatie tussen de x variabelen en de E.
X1→ eerste predictor/onafhankelijke variabele
X2→ tweede predictor
E→ error/residu/voorspellingsfout. Een verzameling van andere invloeden op Y, niet nader
gespecifieerd die ook van invloed zijn op Y. Je hoopt dat de E zo klein mogelijk is.
Interval/ratio variabele (zonder streepje)
Dichotome variabele waarbinnen je 2 categorieën kunt onderscheiden (bijv. sekse; man en vrouw)
Deze variabelen lenen zich binnen de multipele regressie
Nominale variabelen met meer dan 2 categorieën kunnen worden meegenomen met de multipele
regressie, maar moeten eerst worden bewerkt.
Een multipele regressie bestaat uit één of meerdere interval/ratio variabelen en één of meerdere
dichotome variabelen.
Vaak:
- Één afhankelijke variabele (Y)
- Één of meerdere onafhankelijke variabelen (minimaal interval)
- Één of meerdere onafhankelijke variabelen (dichotoom)
Een goed verklaringsmodel stelt de onderzoeker in staat een voorspelling te maken. Steekproef
nemen waarmee je voor de populatie uitspraken probeert te doen.
Multipele regressie
- Onderzoeksvraag: kunnen we iemands waarde op een kenmerk voorspellen met kennis over
andere kenmerken?
- Doelen van de analyse:
Beschrijven van lineaire relaties tussen variabelen (regressiemodel)
Toetsen van hypotheses over relaties (significantie)
, Kwantificeren van de relaties (effectgrootte)
Kwalificeren van relaties (klein, middelmatig, groot)
Beoordelen van de relevantie van relaties (subjectief)
Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting)
- Op basis van statistische samenhang kan geen uitspraak worden gedaan over causaliteit
Meetniveau variabelen
De afhankelijke variabele (Y)
- Gemeten op minimaal interval meetniveau
De onafhankelijke variabelen Xk
- Gemeten op minimaal interval meetniveau
- Categorisch kenmerk met twee categorieën; nominaal meetniveau met twee categorieën
noemen we dichotoom.
- Categorisch kenmerk met meer dan twee categorieën; nominaal meetniveau wordt omgezet
in dummyvariabelen.
Regressiemodel
Voor geobserveerde variabele Y wil je met het model zo dicht mogelijk bij komen, maar dit lukt niet
perfect. Je houdt altijd een voorspellingsfout over (residu). Hoe kleiner deze fout, hoe beter het
verklaringsmodel.
Voor voorspellen van de waarde op Y (=^Y), de geschatte uitkomst van Y, gebruik je het lineaire
regressiemodel.
Het verschil tussen Y en ^Y is de voorspellingsfout/ het residu.
,De B-coëfficiënt is voor iedereen hetzelfde. Het is het hellingsgetal en wordt ook wel het effect
genoemd.
Regressievergelijking:
Kleinste kwadraten criterium
Best passende rechte lijn.
De lijn waarbij de voorspellingsfout zo klein mogelijk is.
, Goodness-of-fit→ hoe goed past het model bij de geobserveerde gegevens?
Het beste model
- Het model met de kleinste residuele kwadratensom
Vergelijken van het lineaire model (regressielijn) met het basismodel (basislijn, het gemiddelde, de
voorspelling van Y, zonder informatie te gebruiken over predictoren). De afstand van een individuele
waarde tot het basismodel heet de deviatie.
Sum of squares→ de optelling van alle voorspellingsfouten. Alle residuen gekwadrateerd en opgeteld
ten opzichte van het basismodel.
R^2= de goodness-of-fit.
- De kwadratensom van het model gedeeld door totale kwadratensom