Verdieping in Onderzoeksmethoden en Statistiek (201900054)
Institution
Universiteit Utrecht (UU)
Dit is een uitgebreide overzichtelijke samenvatting van de hoorcolleges 1 t/m 6 (dus alle kwantitatieve onderwerpen komen aan bod) van het vak VOS. Er zijn veel afbeeldingen (van bijvoorbeeld SPSS output) toegevoegd ter verduidelijking.
Interdisciplinaire Sociale Wetenschappen. Jaar 2, blok 2.
We...
Verdieping in Onderzoeksmethoden en Statistiek (201900054)
All documents for this subject (11)
1
review
By: anaitkassi • 2 year ago
Seller
Follow
lisannekuiper44
Reviews received
Content preview
VOS
Kwantitatief
HC 1 – Multipele regressie
1. Inleiding
Vaak gebruikt bij onderzoek met een afhankelijke variabele
(bv schoolprestaties) een veel mogelijke factoren (school,
opvoeding, gezin) die deze beïnvloeden. Zie het voorbeeld
hiernaast.
Met multipele regressie krijg je direct een antwoord op de
vraag: hoe goed kunnen we onderwijsachterstand verklaren
en welke mogelijke invloeden zijn de belangrijkste??
Enkelvoudige regressie = Kijken of één onafhankelijke
variabele de afhankelijke variabele kan
voorspellen.
Meervoudige (multipele) regressie = Kijken of twee of meer onafhankelijke variabelen de
afhankelijke variabele voorspellen.
2. Doelen van multipele regressie analyse
Het doel van regressie is uiteindelijk relaties te ontdekken waarmee je voorspellingen kunt
doen in de populatie (dus ook over mensen die niet in je steekproef zaten).
• Beschrijven van lineaire relaties tussen variabelen (regressie / lineair model)
• Toetsen van hypothesen over relaties (significantie)
• Kwantificeren van relaties (effectgrootte)
• Kwalificeren van relaties (klein, middel, groot)
• Beoordelen van de relevantie van relatie (subjectief)
• Voorspellen van iemands waarde met regressiemodel (punt- & intervalschatting)
! Je kan op basis van statistische samenhang géén uitspraken over causaliteit doen.
3. Meetniveau van de variabelen
Afhankelijke variabele Y → Minimaal gemeten op interval niveau (dus nominaal
en ordinaal mogen niet).
Onafhankelijke variabele X → Minimaal gemeten op interval niveau.
• Categorisch kenmerk met 2 categorieën (bv sekse) → Normaal noemen we
dit nominaal, maar omdat het er precies twee zijn ‘dichotoom’.
• Categorisch kenmerk met meer dan 2 categorieën (bv etniciteit) → Kan
niet zomaar worden meegenomen in analyse, omzetten naar dummyvariabele.
, 4. Regressiemodel
In het algemene Padmodel hiernaast:
➔ Het horizontale streepje bij X2 is om aan te geven dat het een
dichotome variabele is: een variabele waarbinnen je 2
categorieën kunt onderscheiden, bv bachelor en pre-master
studenten. Padmodel
Vergelijking voor geobserveerde Y:
• Model = een lineaire regressiemodel (X = alle predictoren die je hebt meegenomen)
• Voorspellingsfout wordt ook wel residu of residual genoemd. Je probeert zo dicht
mogelijk bij Y te komen, maar je houdt altijd nog een foutje over.
Vergelijking voor voorspellen van waarde op Y (= Ŷ):
Deze voorspelling kun je doen als je iemand waarden voor X weet. Als je opzoek bent naar de
kennis van literatuur (Y), en je weet het aantal boeken in huis (X1), literaire kennis van de
vader (X2) enzovoorts, kun je voorspellen wat Y is. Deze waarde is anders dan wat je
daadwerkelijk zal vinden in je steekproef.
➔ Het verschil tussen Y en Ŷ is de voorspellingsfout!
Uiteindelijk volgt hier een vergelijking uit waarmee je Y kunt voorspellen:
• Y = afhankelijke variabele (dependent)
• X = onafhankelijke variabelen (predictors)
➔ X is een variabele: mensen verschillen op de X, maar de B is hetzelfde.
• B0 = intercept (constante), ook wel a (soort startwaarde)
• B1 = regressiecoëfficiënt (slope)
➔ De B’s zijn het ‘effect’: ze geven aan hoe Y verandert als X ook verandert.
• E = voorspellingsfout (error / residual)
5. Kleinste kwadraten criterium
Met een regressieanalyse wil je de relatie beschrijven
met een rechte lijn. Hier hoort een wiskundige
vergelijking bij met 2 kenmerken:
• Een constante, b0, is het beginpunt (intercept)
• Het regressiecoëfficiënt (b1) geeft aan hoeveel
de lijn per eenheid van X omhooggaat Spreidingsdiagram
(richting).
In dit spreidingsdiagram kies je dus de best passende lijn, waarbij de voorspellingsfout zo
klein mogelijk is. Deze verkrijg je met het kleinste kwadraten criterium: de hoogste en
laagste punten kwadrateer je en trek je van elkaar af. Zo kom je uit op de beste lijn.
,De voorspellingsfout is dus de afstand tussen de geobserveerde
waardes (de punten) en wat we volgens de lijn voorspellen.
De blauwe streepjes geven de residuen weer: de afstand tussen de
geobserveerde score en de geschatte score.
• Positief residu = wanneer de geobserveerde waarde boven
de zwarte lijn ligt (onderschatting door model).
• Negatief residu = wanneer de geobserveerde waarde onder
de zwarte lijn ligt (overschatting door model).
6. Goodness-of-fit
De beste regressielijn is dus de lijn met de kleinste residuele kwadratensom. Maar: hoe goed
is deze regressielijn nu eigenlijk?
Dit bepaal je met Goodness-of-fit (R2) → De lineaire regressielijn ga je vergelijken met een
basislijn. Als je afhankelijke variabele ‘kennis van literatuur is’, kun je als basislijn met de
kleinste voorspellingsfout het gemiddelde nemen voor kennis van literatuur! Daarnaast weet
je dat andere variabelen (opleiding bv) hier invloed op hebben, dit moet je meenemen.
SS = Sum of Squares (kwadratensom), de optelling van alle voorspellingsfouten.
• SST = Totale kwadratensom: alle residuen gekwadrateerd en opgeteld
• SSM = kwadratensom van het Model (van de rechte lijn dus)
• SSR = kwadratensom van het Residu (de voorspellingsfout)
Uiteindelijk heb je een maat nodig voor hoe goed het model in staat is om die totale fout - die
je maakt bij het gebruik van het gemiddelde als voorspelling – te verkleinen met de kennis
over bijvoorbeeld opleiding als variabele.
De blauwe rechte lijn hiernaast is het
gemiddelde (dus zonder rekening te houden
met predictoren).
• De afstand van individu Yi tot de rechte
gemiddelde lijn – het basismodel - heet
de deviatie (t).
• Afstand van Yi het lineaire model heet
residu, de fout die je nog overhoudt.
• De afstand die je ‘wint’ met het lineaire
model, heet het verklaarde deel.
Uiteindelijk kijk je niet meer naar één individu, maar ga je voor elk individu t, m en r
kwadrateren en optellen. Dan kom je bij de Sum of Squares. Dan krijg je de Goodness-of-fit.
De kwadratensom van het lineaire model deel je door de totale kwadratensom.
Dan weet je de proportie door het model (X) verklaarde variatie in Y.
R2 ligt tussen de 0 en de 1:
➔ 1 betekent perfecte verklaring door het model: alle punten op de lijn.
➔ 0 betekent dat de lineaire lijn precies gelijk loopt met de basislijn.
, R (multipele correlatiecoëfficiënt) = R en R2 kun je beschouwen als de correlatie tussen
geobserveerde Y en voorspelde Ŷ.
2
R (determinatiecoëfficiënt) = de proportie in Y verklaarde variantie door het model. Dit
zegt dus iets over hoe goed het model in staat is om variatie te verklaren.
7. Toetsen van R2 en B’s
Herhaling: hypothesen gaan over de populatie. Met behulp van steekproeven uit de populatie
proberen we iets te kunnen zeggen over de hele populatie. Wat je wilt beschrijven:
• De verklaring van Y door alle X’en (R2) → Het hele model
• De invloed van alle afzonderlijke X’en op Y (B’s) → De afzonderlijke factoren
Bij de toetsing (van bv de goodness-of-fit, R2 of verklaarde variantie) heb je een aantal
alternatieve hypothesen:
• R2 > 0 → Het regressiemodel verklaart variatie in Y
o Nulhypothese is dat het regressiemodel niks verklaart
• B > 0 of B < 0 → Er is effect van X op Y
o Nulhypothese is dat er geen effect is van X op Y
➔ Voorbeeld en uitleg toetsen R2
Kan literatuurkennis verklaard worden met het aantal boeken in het ouderlijk huis (1) én
literatuurkennis van de vader (2) én literatuurkennis van de moeder (3)?
• In je model krijg je dan 3 B’s: Y = B0 + B1X1 + B2X2 + B3X3 + E
• Hypothesen: H0 → R2 = 0
Ha → R2 > 0
• Toetsen met de F-Toets → Om de statistische significantie te beoordelen (α = .05).
Hiermee bepaal je of je de nulhypothese verwerpt of behoudt.
o Gegeven de nulhypothese (geen effect), wat is dan de kans dat we deze
bevinding in de steekproef hebben gevonden? Dat kan komen doordat de
nulhypothese niet juist is!
o Toetsingsgrootheid F (of F-ratio) → MS = Mean sum of
squares (ook wel variantie!). Deze verkrijg je door de SS te
delen door vrijheidsgraden (degrees of freedom).
• Beoordelen van R2 → Het is misschien dan wel statistisch significant, maar stelt dit
ook wat voor? Hiermee kwantificeer je de relatie: groot, middelmatig of klein
effect?
Voorbeeld SPSS uitvoer:
R2 is 13.7%, dus 14% van de
variantie in Y-scores wordt verklaard
door X. Om te kijken of dit
significant is, gebruik je de F-toets.
Het significantieniveau is .000, dus
lager dan .05. Het effect is dus
significant.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller lisannekuiper44. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $4.77. You're not tied to anything after your purchase.