Verdieping in onderzoeksmethoden en statistiek voor pedagogen
Institution
Universiteit Utrecht (UU)
Deze samenvatting bevat aantekeningen van alle hoorcolleges van het vak "Verdieping in onderzoeksmethoden en statistiek voor pedagogen". De samenvatting komt uit collegejaar 2022/2023.
Verdieping in onderzoeksmethoden en statistiek voor pedagogen
All documents for this subject (15)
1
review
By: aliciaaamln • 2 weeks ago
Seller
Follow
ravolphen
Reviews received
Content preview
COLLEGE 1 – MULTIPELE
REGRESSIE
Multipele regressietechniek analysetechniek die ons in staat stelt om een grote
verzameling van mogelijke invloeden te bestuderen en uiteindelijk een conclusie
te trekken over hoe de afzonderlijke variabelen van invloed zijn. Er is sprake van
meerdere onafhankelijke variabelen in het verklaringsmodel, ook tussen de
verschillende clusters bestaat samenhang. Hoe goed kan het model het
onderwerp van mijn onderzoek verklaren?
Padmodel multipele regressie:
- Eén afhankelijke variabele (Y)
- Eén of meerdere onafhankelijke variabelen (minimaal interval)
o X met streepje erdoorheen: variabele met 2 categorieën
o X zonder streepje erdoorheen: interval variabele
- Eén of meerdere onafhankelijke variabelen
(dichotoom/nominaal)
- E: een model met een beperkt aantal variabelen kunnen niet alle
verschillen in Y verklaren.
Voorbeeld:
- Onderzoeksvraag: kunnen we kennis van literatuur bij jongvolwassenen
voorspellen met persoons-, gezins- en schoolkenmerken?
- Populatie: jongvolwassenen
- Variabelen:
o Afhankelijke variabele Y: kennis van literatuur
o Onafhankelijke variabelen X (predictoren)
Persoonlijke kenmerken
Kenmerken ouderlijk huis
Kenmerken school
- Doel: voor de populatie beschrijven en toetsen van de
relaties tussen afhankelijke variabele Y en de predictoren X.
Meetniveau variabelen:
- Afhankelijke variabele Y: kenmerk gemeten op minimaal interval
meetniveau.
- Meetniveau onafhankelijke variabelen Xk:
o Kenmerk gemeten op minimaal interval meetniveau.
o Categorisch kenmerk met twee categorieën; nominaal meetniveau
met twee categorieën noemen we dichotoom.
o Categorisch kenmerk met meer dan twee categorieën;
nominaal/ordinaal meetniveau wordt omgezet in dummyvariabelen.
Variantie spreiding in Y.
Multipele regressie algemeen:
- Onderzoeksvraag: kunnen we iemands waarde op een kenmerk
voorspellen met kennis over andere kenmerken?
- Doelen analyse:
o Beschrijven lineaire relaties tussen variabelen (regressiemodel)
o Toetsen hypothesen over relaties (significantie)
, o Kwantificeren van relaties (effectgrootte)
o Kwalificeren van relaties (klein, middelmatig, groot)
o Beoordelen relevantie relaties (subjectief)
o Voorspellen van iemands waarde met regressiemodel (puntschatting
en intervalschatting)
- Waarschuwing: doe op basis van statistische samenhang geen uitspraken
over causaliteit.
REGRESSIEMODEL
Vergelijking Y, voor geobserveerde variabele Y: uitkomst (Y) = model (X) +
voorspellingsfout e
Voorspellingsfout e het gedeelte wat je niet kunt verklaren in de observatie.
Vergelijking Ŷ, voor voorspellen van waarde Y (= Ŷ): geschatte uitkomst (Ŷ) =
model (X)
B: sterkte of mate van samenhang tussen Xen en Y.
Standaardafwijking is een maat voor spreiding
Vergelijking voor enkelvoudige regressie:
1. Intercept of constante (b0)
2. Regressie coëfficiënt (b1) (steilheid van lijn) de verandering in Ŷ bij
toename van één eenheid in X.
KLEINSTE KWADRATEN CRITERIUM
Best passende rechte lijn: de lijn waarbij de voorspellingsfout (error) zo klein
mogelijk is.
Voorspellingsfout de afstand tussen de geobserveerde waarde en de
voorspelde waarde.
Voor elke respondent j:
- Geobserveerde Yj
- Geschatte Ŷj
- Voorspellingsfout Ej = Yj – Ŷj
Positieve e: boven de lijn, onderschatting door model
Negatieve e: onder de lijn, overschatting door model
Voorspellingsfouten worden eerst gekwadrateerd voordat ze bij elkaar worden
opgeteld, omdat de som anders 0 is.
GOODNESS-OF-FIT
,Het beste model is het model (regressielijn) met de kleinste residuele
kwadratensom.
Bepalen goodness-of-fit (R2): vergelijking (ratio) van lineair model
(regressielijn) met basismodel (basislijn).
SST = SSM + SSR
R2 = (SSM/SST)
Goodness-of-fit (R2) kwadratensom van model gedeeld door totale
kwadratensom. Proportie door X verklaarde variatie in Y. Bereik R2 is tussen 0 en
1. Wordt ook wel determinatiecoëfficiënt genoemd.
R = multipele correlatiecoëfficiënt. Correlatie tussen geobserveerde Y en Ŷ.
Waardering model:
1. Significantie (= toetsen)
2. Kwantificeren relatie (= effectgrootte)
TOETSEN VAN R 2 EN B’S
Populatie: hypothesen
Steekproef: steekproefresultaten
Beschrijven:
1. Verklaring van Y door alle X’en (R2)
2. Invloed afzonderlijke X’en op Y (B’s)
Alternatieve hypothesen:
1. R2 > 0: het regressiemodel verklaart variatie in
Y.
2. B > 0 of B < 0: er is effect van X op Y.
F-toets voor toetsing R2:
- Is verklaarde variantie significant ( = .05) groter dan 0?
- Hoeveel verklaart het model ten opzichte van het deel dat het model niet
kan verklaren?
Toetsingsgrootheid F: F = (MSM/MSR)
MS = mean sum of squares (gemiddelde kwadratensom)
Voorbeeld:
Regressiecoëfficiënt B:
- Gebruik je voor opstellen van regressievergelijking voor Ŷ.
- Regressiecoëfficiënt B is schaalafhankelijk (cm vs m)
Gestandaardiseerde regressiecoëfficiënt Beta:
, - Gebruik voor vergelijken van de predictoren (X’en)
- Beoordelen van grootte invloed predictoren
- Gestandaardiseerde regressiecoëfficiënt Beta is schaalonafhankelijk.
VERGELIJKING VAN MODELLEN (R 2 )
Vraag over voorbeeld: Is toevoeging van drie variabelen aan model statistisch
zinvol? Dit is zinvol wanneer de proportie verklaarde variantie (R2) significant
stijgt.
- Hypothese: H0: R2 = 0
- Toetsing: F-toets voor R2 ( = .05)
CATEGORISCHE KENMERKEN IN REGRESSIEMODEL;
DUMMY’S
ASSUMPTIES TOEPASSING REGRESSIEANALYSE
1. De participanten zijn aselect gekozen en scoren onafhankelijk van elkaar
2. Specificatie verklaringsmodel
3. De variabelen meten een begrip op interval/ ratio meetniveau
(uitzondering: dummy’s)
4. Er is een lineaire relatie tussen de variabelen
5. Er zijn geen uitschieters
6. Per X-waarde is de spreiding in Y-scores gelijk (dit wordt ook wel
homoscedasticiteit genoemd)
7. Per X-waarde zijn de Y-scores normaal verdeeld
8. Er mag geen hoge correlatie zijn tussen de onafhankelijke variabelen (dit
wordt ook wel multicollineariteit genoemd)
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller ravolphen. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.38. You're not tied to anything after your purchase.