Hoorcolleges samenvattingen
Dit is een samenvatting van de hoorcolleges van het kwantitatieve deel van MiOO 2020-
2021. Voor aanvullende uitleg zie de andere samenvattingen.
Inhoud:
, 2
Hoorcollege 1: Multipele Regressie
Bij iedere theorie past een model
Y = afhankelijke variabele
X = onafhankelijke variabele (predictoren) → we
proberen dus te voorspellen adhv kenmerken
E = error, overige verzameling van invloeden op de y
Dit bevat variabelen van minimaal interval
Bij het uitvoeren van de analyse, om de invloed van predictoren te bepalen op de
afhankelijke variabele, wordt gecontroleerd op de invloed van de andere predictoren. Om
zo rekening te houden met relaties tussen deze predictoren. In plaats van de afzonderlijke
predictoren, moet dit dus in samenhang bekeken worden. → dit maakt het een multipele
regressie analyse.
Voorbeeld wat in heel het college gebruikt wordt:
Onderzoeksvraag: Kunnen we kennis van literatuur bij jong volwassenen voorspellen
met persoons-, gezins- en schoolkenmerken?
Afhankelijke variabele: literatuur (kennis literatuur respondent)
Onafhankelijke variabele:
- Fath_rd (kennis literatuur vader)
- Moth_rd (kennis literatuur moeder)
- Par_book (aantal boeken in ouderlijk huis)
- Sch_rd (aandacht voor literatuur school)
- Hist_r (lezen verleden)
- Educ (opleidingsniveau)
Deze moeten geoperationaliseerd worden, gaat het later pas over)
Populatie: jong volwassenen
→ voor de populatie beschrijven en toetsen (toevallig of systematisch?) van de relaties
tussen afhankelijke variabele Y en de predictoren X
Algemeen
Doelen analyse:
- Beschrijven van relaties tussen variabelen (regressiemodel)
- Toetsen hypothesen over relaties (significantie)
- Kwantificeren van relaties (effectgrootte)
- Beoordelen relevantie relaties (subjectief)
, 3
- Voorspellen van iemands waarde met regressiemodel (puntschatting en
intervalschatting)
- Een goed verklaringsmodel stelt je in staat iets te kunnen zeggen over
iemand buiten de steekproef, in de populatie
Waarschuwing:
- Doe geen uitspraken over causaliteit, omdat dit correlationeel onderzoek is.
- Het vinden van statistische relaties is wel een ondersteuning voor causatie, maar
kan dit niet uitsluiten/bevestigen.
Meetniveau variabelen:
Of datgene eruit komt wat juist is, ligt aan de tests die je hebt gedaan.
De variabelen zijn van een bepaald meetniveau (nominaal, ordinaal, interval en ratio
(NOIR)).
Afhankelijke variabele moet minimaal interval zijn (Y)
Onafhankelijke variabele ook (X), met enige uitzonderingen
- Een dichotome variabele (vb. sekse): een categorisch kenmerk met twee
categorieën, nominaal
- Dummyvariabelen (vb. opleiding): categorisch kenmerk met meer dan twee
categorieën, nominaal (die niet op een vaste volgorde staan, maar waar wel iedere
participant in valt)
Regressiemodel
Formeel leidt de analyse tot een verklaringsmodel. Dat kan weergegeven worden in de
modelvergelijking (vergelijking voor uitkomst Y):
Voor geobserveerde variabele Y geldt model (lineair regressiemodel)X + voorspellingsfout
(residual of error):
Y= B0 + Bn Xn + E
B reflecteert de relatie tussen de predictor en de afhankelijke relatie
Y= afhankelijke variabele (dependent)
X = onafhankelijke variabele (predictors) → variabele
B0 = intercept (constant), ook wel a
Bn = regressiecoëfficiënt (slope) → effect
E = voorspellingsfout (error/residual)
Bij deze techniek wordt verondersteld dat de relatie rechtlijnig is, dat is een
aanname. Die aanname kan gecontroleerd worden, dat volgt later in de cursus.
Regressievergelijking (voor voorspellen van waarde op Y):
Geschatte uitkomst (^Y) = Model (X)
, 4
Met hulp van de multipele regressiemodel allereerst uitzoeken hoe de spreiding op de
variabele wordt beïnvloed binnen de steekproef. → hoe goed zijn mijn predictoren in staat
om de spreiding van de afhankelijke variabele te voorspellen? → proportie verklaarbare
variantie
(gestandaardiseerde) regressiecoëfficiënten
Spreidingsdiagram
Best passende regressielijn volgens kleinste kwadraten criterium. Dat is een procedure die
ertoe leidt dat de getrokken lijn de minste error geeft
Vergelijking van een lijn (regressievergelijking)
- Intercept of constante (B0), het begin van de lijn, waar x=0
- Regressiecoëfficiënt (B1) → grootte en richting kunnen variëren
→ Y = b0 + b1X1
Wat verandert er in Y, per eenheid van X?
Wijkt dat wat we vinden dusdanig af van een constante (nulhypothese), dat dit significant
is? → dat wil je ontdekken uit de regressievergelijking
Kleinste kwadraten criterium
De lijn waarbij de voorspellingsfout (error) zo klein mogelijk is.
Het kwadrateren en optellen van al deze verschillen, zal een uitkomst geven
(kwadratensom). Deze zal minimaal zijn, iedere andere lijn levert een grotere lijn op.
Residuen E
Er zijn verschillende voorspellingsmodellen, bij de een is de E erg klein, bij de ander is de E
wat groter. De lijnen kunnen dan ook goed of beter passen, daar gaat het niet om, het gaat
om de best passende lijn bij het model.