Een samenvatting van het vak methodenleer en statistiek. Hierin worden de colleges behandeld en stap voor stap uitgelegd hoe de verschillende analysetechnieken werken en hoe je de SPSS-output kunt interpreteren.
Bijeenkomst 1 – multipele regressie
Terugblik vorig jaar
Enkelvoudige regressie: relatie tussen een afhankelijke variabele en één onafhankelijke
variabele (relatie tussen X en Y, wat is de invloed van X op Y). Je kunt hiermee beschrijven,
verklaren en voorspellen.
Multipele regressiemodel
Multipele regressieanalyse
- Eén afhankelijke variabele (y)
o Meetniveau interval of ratio (numerieke variabelen waarmee we een
volgorde kunnen aangeven, waarin afstanden hetzelfde zijn en waarmee we
kunnen rekenen).
- Meer dan één predictor, ook wel onafhankelijke variabele (X1, X2, …)
o Meetniveau interval of dichotoom (ofwel bestaand uit twee categoriën) (X1,
X2, …)
Y is de afhankelijke variabele, de variabele die we willen beschrijven, verklaren of
voorspellen. We kijken wat de invloed is van de X-variabelen op de Y-variabele. X1 is een
variabele van interval meetniveau. In het vakje staat alleen de X. De Y is ook van interval
meetniveau. In het vakje van X2 staat een streep. Het is een dichotome variabele (dichtome
predictor). E is de error. Op basis van de predictoren kun je veel te weten te komen over de
Y, maar niet alles. Er is altijd een error (voorspellingsfout).
Meetniveau variabelen
Afhankelijke variabele Y
- Kenmerk gemeten op interval meetniveau
Onafhankelijke variabelen (X…)
- Kenmerk gemeten op interval meetniveau
- Categorische variabele met twee categorieën (dichotoom)
- Categorische variabele met meer dan twee categorieën (nominaal meetniveau)
omgezet in dummyvariabelen categorische variabelen omzetten in dichotome
variabelen
Voorbeeld
Onderzoeksvraag
Kunnen we kennis van literatuur bij jong volwassenen voorspellen met persoons-, gezins- en
schoolkenmerken?
Variabelen:
Afhankelijke variabele Y (outcome): kennis van literatuur bij jong volwassenen
Onafhankelijke variabelen X: persoons-, gezins- en schoolkenmerken
,Methodenleer & statistiek
Doelen:
- Beschrijven van relaties tussen variabelen (regressiemodel).
- Toetsen hypothesen over relaties (significantie).
- Kwantificeren van relaties (effectgrootte, getal berekenen).
- Kwalificeren van relaties, wat vinden we van het berekende getal (klein, middelmatig,
groot).
- Beoordelen relevantie relaties (subjectief).
- Voorspellen van iemands waarde met regressiemodel (puntschatting, 1 getal en
intervalschatting, meerdere getallen).
Variabelen in het voorbeeld
Read: kennis literatuur respondent (Y)
Fath_rd: Kennis literatuur vader (X1)
Moth_rd: Kennis literatuur moeder (X2)
Par_book: Aantal boeken in slaapkamer kind (X3)
Sch_rd: Aandacht voor literatuur school (X4)
Hist_rd: Lezen verleden (X5)
Educ: Opleidingsniveau (X6)
Alle vakjes zijn open, ze zijn van interval meetniveau. Iedere b-waarde die hoort bij
een x-variabele, geeft aan wat de invloed is van die predictor op de afhankelijke
variabele. De andere predictoren moeten niet veranderen. Allemaal bij ekaar zullen ze
de Y verklaren en voorspellen.
De lijn zo tekeken dat de afstand tussen de punten en de lijn, zo klein mogelijk is
(kleinste kwadratencriterium). Een punt geeft aan wat de combinatie is van de scores
op x en y. je zoekt met de best passende lijn het effect van de predictor op de
afhankelijke variabele. Voor 6 predictoren worden er dus ook 6 lijnen gezet die de
relatie weergeeft tussen x en y.
Goodness-of-fit (1)
Het beste model is het model (regressielijn) met de kleinste residuele kwadratensom (kleinste
verschillen tussen de punten en de lijn).
Bepalen goodness-of-fit (R2)
Vergelijken van beste model (regressielijn) met basismodel (basislijn). Hiervoor kunnen we
de SS (sum of squares) gebruiken.
SSt = SSm + SSr
,Methodenleer & statistiek
- SSt = totale kwadratensom
- SSm = kwadratensom van best passende model (verschil tussen gemiddelde en
regressielijn)
- SSr = kwadratensom van voorspellingsfout
SStotal = SSregression + SSresidual
Y-basismodel is het model met het gemiddelde van de Y-variabele. Yi is de score van
één respondent. De t berekenen we door het verschil tussen score en gemiddelde te
nemen. Y-bestemodel is de regressielijn. Deze lijn past beter bij de punten dan de
gemiddelde lijn. De m geeft het verschil weer tussen het gemiddelde en de
regressielijn. De r is de error/voorspellingsfout. We kijken hierbij naar de score en de
regressielijn. Wat is de voorspellingsfout als we de regressielijn gebruiken.
Goodness-of-fit (2)
Goodness-of-fit (R2)
- Kwadratensom van model gedeeld door totale kwadratensom
- Proportie door X verklaard variantie in Y (om te zetten in percentage)
We willen een maat die aangeeft hoe goed de lijn bij de punten past. Om hier een uitspraak
over te doen gebruiken we R2. R2 is als proportie een getal tussen 0 en 1, waarbij 0 =
helemaal geen verklaarde variantie. Dan past de lijn totaal niet bij de punten. De punten
liggen waarschijnlijk helemaal verspreid. 1 = perfecte verklaarde variantie. Alle punten liggen
op de lijn.
Interpretatie R en R2
- Multipele correlatiecoëfficiënt R: correlatie tussen geobserveerde Y en Ygemiddeld
(gebruiken we echter nauwelijks, maar SPSS gebruikt hem altijd)
- Determinatiecoëfficiënt R2: proportie in Y verklaarde variantie door het model
Waardering model
1. Significantie (=toetsen)
2. Als significant, dan relevantie beoordelen (=subjectief)
a. Kwantificeren effectgrootte
b. Kwalificeren klein, medium of groot effect
Voorbeeld toetsen R2
, Methodenleer & statistiek
Kan literatuurkennis verklaard worden met aantal boeken in slaapkamer kind en
literatuurkennis vader en literatuurkennis moeder?
Y = literatuurkennis
X1 = aantal boeken slaapkamer kind
X2 = literatuurkennis vader
X3 = literatuurkennis moeder
Model
Y = b0 + b1X1 + b2X2 + b3X3 + e
Hypothesen
H0: 2 = 0 (er is geen enkele verklaarde variantie. Met deze predictoren kunnen we niet de
literatuurkennis verklaren)
H1: 2 > 0 (we kunnen een deel van de literatuurkennis verklaren met de drie predictoren)
= .05
SPSS output
De R is het multitipele correlatiecoëfficiënt. Hier doen we echter
niet zo veel mee. De std. Error of the estimate is de
standaardschattingsfout. Het is de gemiddelde afstand tussen de
punten (score individuen) en de regressielijn. Als je een grote
standaard schattingsfout hebt, betekent dat de punten ver van de
lijn liggen. R square is R2. Hij is 0.137 ofwel 13,7% verklaarde
variantie. We kunnen deze maat gebruiken als effectgrootte. We
hebben hem gekwantificeerd, het is een getal. Nu willen we hem
kwalificeren (klein 0.01, medium 0.09, groot effect 0.25). 0.137
ligt nog redelijk dichtbij 0.09 dus een medium effect.
Het resultaat van de hypothestoets vind je in de tabel ANOVA. F
= toetsingsgrootheid. Bij een toetsingsgrootheid hoort een p-
waarde. Bij deze toetsingsgrootheid is hij .000. De alpha is .05. De
p-waarde is kleiner dan alpha, dus H0 wordt verworpen. we
kunnen we de predictoren een deel van de variantie verklaren.
Voorbeeld toetsen B’s
Kan literatuurkennis verklaard worden met aantal boeken in slaapkamer kind en/of
literatuurkennis vader en/of literatuurkennis moeder?
We gaan nu kijken wat het effect is per predictor op de afhankelijke variabele.
Model
Y = b0 + b1X1 + b2X2 + b3X3 + e
Is de richtingscoëfficiënt significant anders dan 0? Een regressielijn met een
richtingscoëfficiënt van 0 loopt horizontaal. Dat betekent dat er geen relatie is tussen x en y.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper nienkevanooyen. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,48. Je zit daarna nergens aan vast.