Hoorcollege samenvatting Verdiepende Onderzoeksmethoden en Statistiek
Blok 2 – Clinical Child, Family & Education Studies
Hoorcollege 1: Multipele regressie
Meervoudige of multipele regressie = is een uitbreiding van de enkelvoudige regressie waarbij twee
of meer verklarende variabelen (X) worden gebruikt om de afhankelijke variabele (Y) te voorspellen
of verklaren.
Bijvoorbeeld: Wat zijn risicofactoren (X) voor schoolprestaties (Y)?
Clusters: opvoedfactoren, schoolfactoren, kind factoren, leefomstandigheden. Daaronder hangen
weer intelligentie, leeftijd, sekse, etc. (zie afbeelding hieronder).
Enkelvoudige regressie betekent één onafhankelijke variabeken.
Dit kun je weergeven in een padmodel:
Links zie je de clusters staan. Daar rechts van, in blauwe hokjes, de bijbehorende
factoren/variabelen. De factoren hebben een pijltje → gekregen naar de afhankelijke variabelen (Y)
schoolprestaties, om aan te geven dat deze factoren van INVLOED zijn op de schoolprestaties.
Een meer concreet vormgegeven en algemeen model:
Linkerkant zie je de onafhankelijke variabelen. Een streepje er doorheen betekent dat er maar twee
categorieën zijn, zoals sekse: Jongen en Meisje, dat is een dichotoom. Geen streepje is een interval
of ratio meetniveau, denk aan: leeftijd, SES, gezondheid gemeten op een bepaalde schaal.
De combinatie van meerdere onafhankelijke variabelen maakt dat het multipele regressie is.
Voorbeeld
Onderzoeksvraag: Kunnen we kennis van literatuur bij jongvolwassenen voorspellen/verklaren
met persoons-, gezins- en schoolkenmerken?
Populatie: Jongvolwassene
1
,Y (afhankelijke variabelen) = Kennis van literatuur
X (onafhankelijke variabelen, in MP is dit predictoren) = persoonlijke kernmerken, kenmerken
ouderlijk huis, kenmerken school
Doel van de analyse
Voor de populatie beschrijven en toetsen van de relaties tussen afhankelijke variabelen Y en
predictoren X.
Hoe goed kunnen we met de X’s de Y voorspellen/verklaren?
Multipele regressie algemeen
Onderzoeksvraag: Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere
kenmerken?
Doelen multipele regressie analyse
Beschrijven lineaire relaties tussen variabelen (eigenlijk zeg je geen multipele regressie maar
multipele lineaire regressie)
Toetsen hypothesen over relaties (hoe sterk significant is een relatie?)
Kwantificeren van relaties (wat is de effectgrootte van de predictor op de Y?)
Kwalificeren van relaties (naast een getal, is een waarde toegeven ook handig: is de effectgrootte
van de predictor op Y klein, middelmatig of groot?)
Beoordelen relevantie relaties (Je kan wel een groot effect hebben van X op Y, maar is het wel
relevant? Kleine effecten kunnen soms ook heel belangrijk zijn, bijv. klein effect op minder
tienermoeders is heel belangrijk. Context is dus belangrijk voor deze subjectieve beoordeling.)
Voorspellen van iemands waarde met regressiemodel (wanneer je iets kan verklaren, kan je ook
iets voorspellen bij MP. Deze voorspelling betekent dat je een puntschatting geeft op/van de
grafiek, dat noem je een intervalschatting.)
WAARSCHUWING: Doe op basis van statistische samenhang GEEN uitspraken over causaliteit. Je
kan met MP alleen een uitspraak doen over de statistische samenhang, voor causaliteit heb je een
experiment nodig.
Voorwaarden en assumpties voor multipele regressie:
3. Lineaire relatie
Zie hieronder een visuele verduidelijking hiervan.
2
,4. Homoscedasticiteit
Zie hieronder een visuele verduidelijking hiervan.
5. Normaal verdeeld
3
, Variabelen in voorbeeld:
Links zie je de labels die zijn gebruikt voor de variabelen die rechts staan.
Meetniveau variabelen
NOIR: Nominaal – Ordinaal – Interval – Ratio
Geheugensteun:
Verschillende soorten variabelen: meetniveaus
Meetniveau is een manier om verschillende variabelen in te delen.
Nominaal meetniveau (geheugensteun: categorieën)
De antwoorden op een vraag die word gesteld bestaan uit CATEGORIEN.
Wat is je lievelingskleur? 1 = rood, 2 = blauw, 3 = wit etc.
De getallen geven niet een waarde aan in dit geval. Enkel geven ze een label aan. De één is niet beter dan de
ander, de getallen hebben dus geen betekenis an sich. De 1 en 2 hadden ook prima andersom gekund, het is
willekeurig.
Ordinaal meetniveau (geheugensteun: Volgorde)
Hier hebben de getallen wél betekenis in de zin van volgorde.
Bijv: een ranglijst van schaatsers. Nummer 1 is de beste, 2 daarna, 3 daarna, etc. Er zit een volgorde in deze lijst.
Belangrijk: het verschil tussen schaatser nummer 1 en 2 kan heel anders zijn dan schaatser nummer 2 en 3. Dus
het staat wel op volgorde, maar de afstand tussen de getallen kan qua betekenis niet even groot zijn (schaatser
nummer 1 is echt veel beter dan 2, en 3 en 4 zaten dicht bij elkaar qua snelheid/hoe goed te zijn).
Interval meetniveau (geheugensteun: volgorde, afstanden gelijk)
Getallen hebben betekenis en geven een volgorde aan en de afstanden zijn hier WEL gelijk.
Bijvoorbeeld: IQ score! Verschil tussen 100 en 101 en 120 en 121 is even ‘groot’.
4