Een samenvatting van het vak methodenleer en statistiek. Hierin worden de colleges behandeld en stap voor stap uitgelegd hoe de verschillende analysetechnieken werken en hoe je de SPSS-output kunt interpreteren.
Bijeenkomst 1 – multipele regressie
Terugblik vorig jaar
Enkelvoudige regressie: relatie tussen een afhankelijke variabele en één onafhankelijke
variabele (relatie tussen X en Y, wat is de invloed van X op Y). Je kunt hiermee beschrijven,
verklaren en voorspellen.
Multipele regressiemodel
Multipele regressieanalyse
- Eén afhankelijke variabele (y)
o Meetniveau interval of ratio (numerieke variabelen waarmee we een
volgorde kunnen aangeven, waarin afstanden hetzelfde zijn en waarmee we
kunnen rekenen).
- Meer dan één predictor, ook wel onafhankelijke variabele (X1, X2, …)
o Meetniveau interval of dichotoom (ofwel bestaand uit twee categoriën) (X1,
X2, …)
Y is de afhankelijke variabele, de variabele die we willen beschrijven, verklaren of
voorspellen. We kijken wat de invloed is van de X-variabelen op de Y-variabele. X1 is een
variabele van interval meetniveau. In het vakje staat alleen de X. De Y is ook van interval
meetniveau. In het vakje van X2 staat een streep. Het is een dichotome variabele (dichtome
predictor). E is de error. Op basis van de predictoren kun je veel te weten te komen over de
Y, maar niet alles. Er is altijd een error (voorspellingsfout).
Meetniveau variabelen
Afhankelijke variabele Y
- Kenmerk gemeten op interval meetniveau
Onafhankelijke variabelen (X…)
- Kenmerk gemeten op interval meetniveau
- Categorische variabele met twee categorieën (dichotoom)
- Categorische variabele met meer dan twee categorieën (nominaal meetniveau)
omgezet in dummyvariabelen categorische variabelen omzetten in dichotome
variabelen
Voorbeeld
Onderzoeksvraag
Kunnen we kennis van literatuur bij jong volwassenen voorspellen met persoons-, gezins- en
schoolkenmerken?
Variabelen:
Afhankelijke variabele Y (outcome): kennis van literatuur bij jong volwassenen
Onafhankelijke variabelen X: persoons-, gezins- en schoolkenmerken
,Methodenleer & statistiek
Doelen:
- Beschrijven van relaties tussen variabelen (regressiemodel).
- Toetsen hypothesen over relaties (significantie).
- Kwantificeren van relaties (effectgrootte, getal berekenen).
- Kwalificeren van relaties, wat vinden we van het berekende getal (klein, middelmatig,
groot).
- Beoordelen relevantie relaties (subjectief).
- Voorspellen van iemands waarde met regressiemodel (puntschatting, 1 getal en
intervalschatting, meerdere getallen).
Variabelen in het voorbeeld
Read: kennis literatuur respondent (Y)
Fath_rd: Kennis literatuur vader (X1)
Moth_rd: Kennis literatuur moeder (X2)
Par_book: Aantal boeken in slaapkamer kind (X3)
Sch_rd: Aandacht voor literatuur school (X4)
Hist_rd: Lezen verleden (X5)
Educ: Opleidingsniveau (X6)
Alle vakjes zijn open, ze zijn van interval meetniveau. Iedere b-waarde die hoort bij
een x-variabele, geeft aan wat de invloed is van die predictor op de afhankelijke
variabele. De andere predictoren moeten niet veranderen. Allemaal bij ekaar zullen ze
de Y verklaren en voorspellen.
De lijn zo tekeken dat de afstand tussen de punten en de lijn, zo klein mogelijk is
(kleinste kwadratencriterium). Een punt geeft aan wat de combinatie is van de scores
op x en y. je zoekt met de best passende lijn het effect van de predictor op de
afhankelijke variabele. Voor 6 predictoren worden er dus ook 6 lijnen gezet die de
relatie weergeeft tussen x en y.
Goodness-of-fit (1)
Het beste model is het model (regressielijn) met de kleinste residuele kwadratensom (kleinste
verschillen tussen de punten en de lijn).
Bepalen goodness-of-fit (R2)
Vergelijken van beste model (regressielijn) met basismodel (basislijn). Hiervoor kunnen we
de SS (sum of squares) gebruiken.
SSt = SSm + SSr
,Methodenleer & statistiek
- SSt = totale kwadratensom
- SSm = kwadratensom van best passende model (verschil tussen gemiddelde en
regressielijn)
- SSr = kwadratensom van voorspellingsfout
SStotal = SSregression + SSresidual
Y-basismodel is het model met het gemiddelde van de Y-variabele. Yi is de score van
één respondent. De t berekenen we door het verschil tussen score en gemiddelde te
nemen. Y-bestemodel is de regressielijn. Deze lijn past beter bij de punten dan de
gemiddelde lijn. De m geeft het verschil weer tussen het gemiddelde en de
regressielijn. De r is de error/voorspellingsfout. We kijken hierbij naar de score en de
regressielijn. Wat is de voorspellingsfout als we de regressielijn gebruiken.
Goodness-of-fit (2)
Goodness-of-fit (R2)
- Kwadratensom van model gedeeld door totale kwadratensom
- Proportie door X verklaard variantie in Y (om te zetten in percentage)
We willen een maat die aangeeft hoe goed de lijn bij de punten past. Om hier een uitspraak
over te doen gebruiken we R2. R2 is als proportie een getal tussen 0 en 1, waarbij 0 =
helemaal geen verklaarde variantie. Dan past de lijn totaal niet bij de punten. De punten
liggen waarschijnlijk helemaal verspreid. 1 = perfecte verklaarde variantie. Alle punten liggen
op de lijn.
Interpretatie R en R2
- Multipele correlatiecoëfficiënt R: correlatie tussen geobserveerde Y en Ygemiddeld
(gebruiken we echter nauwelijks, maar SPSS gebruikt hem altijd)
- Determinatiecoëfficiënt R2: proportie in Y verklaarde variantie door het model
Waardering model
1. Significantie (=toetsen)
2. Als significant, dan relevantie beoordelen (=subjectief)
a. Kwantificeren effectgrootte
b. Kwalificeren klein, medium of groot effect
Voorbeeld toetsen R2
, Methodenleer & statistiek
Kan literatuurkennis verklaard worden met aantal boeken in slaapkamer kind en
literatuurkennis vader en literatuurkennis moeder?
Y = literatuurkennis
X1 = aantal boeken slaapkamer kind
X2 = literatuurkennis vader
X3 = literatuurkennis moeder
Model
Y = b0 + b1X1 + b2X2 + b3X3 + e
Hypothesen
H0: 2 = 0 (er is geen enkele verklaarde variantie. Met deze predictoren kunnen we niet de
literatuurkennis verklaren)
H1: 2 > 0 (we kunnen een deel van de literatuurkennis verklaren met de drie predictoren)
= .05
SPSS output
De R is het multitipele correlatiecoëfficiënt. Hier doen we echter
niet zo veel mee. De std. Error of the estimate is de
standaardschattingsfout. Het is de gemiddelde afstand tussen de
punten (score individuen) en de regressielijn. Als je een grote
standaard schattingsfout hebt, betekent dat de punten ver van de
lijn liggen. R square is R2. Hij is 0.137 ofwel 13,7% verklaarde
variantie. We kunnen deze maat gebruiken als effectgrootte. We
hebben hem gekwantificeerd, het is een getal. Nu willen we hem
kwalificeren (klein 0.01, medium 0.09, groot effect 0.25). 0.137
ligt nog redelijk dichtbij 0.09 dus een medium effect.
Het resultaat van de hypothestoets vind je in de tabel ANOVA. F
= toetsingsgrootheid. Bij een toetsingsgrootheid hoort een p-
waarde. Bij deze toetsingsgrootheid is hij .000. De alpha is .05. De
p-waarde is kleiner dan alpha, dus H0 wordt verworpen. we
kunnen we de predictoren een deel van de variantie verklaren.
Voorbeeld toetsen B’s
Kan literatuurkennis verklaard worden met aantal boeken in slaapkamer kind en/of
literatuurkennis vader en/of literatuurkennis moeder?
We gaan nu kijken wat het effect is per predictor op de afhankelijke variabele.
Model
Y = b0 + b1X1 + b2X2 + b3X3 + e
Is de richtingscoëfficiënt significant anders dan 0? Een regressielijn met een
richtingscoëfficiënt van 0 loopt horizontaal. Dat betekent dat er geen relatie is tussen x en y.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller nienkevanooyen. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.16. You're not tied to anything after your purchase.