Complete samenvatting van +100 pagina's van alle hoorcolleges en waar nodig toevoegingen om het begrijpelijker te maken. Inclusief allemaal printscreens van de tabellen en modellen etc. Door het leren van deze samenvatting heb ik een 8,0+ weten te behalen! :) Ook heel fijn voor het doen van onderzo...
Samenvatting VOS
Hoorcolleges, Grasple, werkgroepen en werkopdrachten
________________________________________________
Multipele regressie
Voorbeeld – Het Nederlands Jeugd onderzoek heeft onderzoek gedaan naar de
risicofactoren van onderwijsachterstanden. Veel wetenschappelijk onderzoek is gericht om
verklaringen te vinden, dus bijv voor onderwijs achterstanden. Je kunt misschien meerdere
factoren vinden: kindfactoren, gezinsfactoren, opvoeding, leefomstandigheden en
schoolfactoren → binnen al deze gebieden vind je kenmerken van het kind die in combinatie
ervoor zorgen dat een kind een onderwijsachterstand oploopt.
Vaak bevatten sociale problemen geen enkele verklaring, maar meerdere. Dit vraagt van
onderzoek om de verschillende kenmerken bij mensen na te gaan. Vervolgens kun je deze
kenmerken en factoren mengen en een verklaring geven. We hebben dus een analyse-
techniek nodig om met meerdere factoren een verklaring te geven en te kijken wat de
belangrijkste factoren zijn. Hiervoor gebruiken we de multipele regressie.
De afhankelijke variabele, onderwijsachterstand en meerdere onafhankelijke variabelen →
hoe goed kunnen we onderwijsachterstand verklaren en welke invloeden zijn het
belangrijkste?
Operationaliseren van de theoretische constructen → onderwijsachterstand
operationaliseren door
- Te kijken naar schoolprestaties
- Opvoeding van kind
- Enzovoort
Dit gaan we vervolgens in verschillende clusters opdelen
Zoals je ziet is er een grote variatie aan factoren die de schoolprestaties beïnvloeden.
,Padmodel multipele regressie – algemene model
We zien hier de afhankelijke variabele Y
En een set van predictoren, de onafhankelijke X
- X1 is de eerste predictor
- Horizontale streepje (X2) geeft een dichotome
variabele aan
- Geen streepje (X1) geeft een interval of ratio
variabele aan
Variabele die niet gebruikt kan worden voor multipele regressie is een nominale variabele
met meer dan 2 categorieën zoals etnische achtergrond (meerdere categorieën). Het kan
worden meegenomen maar hiervoor moeten we eerst een bewerking uitvoeren →
dummyvariabelen (komt in volgend college)
Verschil tussen enkelvoudige en multipele regressie zit hem in het aantal onafhankelijke
variabelen.
Multipele regressie
- Één afhankelijke variabele Y
- Één of meerdere onafhankelijke variabelen (minimaal interval)
- Of één of meerdere onafhankelijke variabelen dichotoom
Assumpties multipele regressie
Meetniveau
Meetniveau afhankelijke variabele
Afhankelijke variabele moet minimaal op interval meetniveau zijn (interval of ratio)
Meetniveau onafhankelijke variabelen
- Kenmerk gemeten op minimaal interval meetniveau
- Categorisch met twee categorieën: nominaal met 2 categorieën is dichotoom
- Categorisch kenmerk met meer dan twee categorieën: nominaal meetniveau wordt
omgezet in dummyvariabelen.
Lineairiteit tussen predictoren en afhankelijke Y
Dit noemen we het kwartet van
Anscombe
We gebruiken hier residuen
,Geen uitschieters (uitleg in Grasple MR 2 → nog x maken)
Op het oog beoordelen of aan de hand van SPSS
Kijk naar tabel Residuals Statistics en bekijk min en max van
- Standardized residuals: tussen -3.3 en +3.3 geen uitschieters (hiermee controleren
we uitschieters in de Y-ruimte)
- Mahalanobis distance: 10 + 2 x n predictoren, hoger dan die waarde is er een
uitschieter (uitschieter in X-ruimte)
- Cook’s distance: hoger dan 1 is uitschieter (uitschieter in XY, dus een overall invloed
van één respondent)
Keuze verwijderen uitschieter
• Behoort deze participant tot de groep waarover je een uitsprak wilt doen? Zo niet,
verwijder de uitschieter
• Is de extreme waarde theoretisch mogelijk? Zo niet, neem de participant niet mee.
Zo wel, draai de analyse met én zonder uitschieter en analyseer het verschil
Afwezigheid multicollineariteit
Teveel samenhang in de predictoren en dit wil je juist voorkomen. Dit kun je bekijken adhv
SPSS bij de tabel Coefficients. Een R>0.80 is een te sterke samenhang. Bekijk in de tabel:
- Tolerance <0.1 is een probleem (<0.2 ook een redelijk probleem)
- VIF groter dan 10 is een probleem
Gevolgen multicollineariteit
• De regressiecoëfficiënten (B) zijn onbetrouwbaar.
• Het beperkt de grootte van R (de correlatie tussen Y en Ŷ)
• Het belang van individuele onafhankelijke variabelen is niet/moeilijk vast te stellen.
Homoscedasticiteit
De spreiding van de residuen moet ongeveer gelijk zijn. Dit beoordelen we adhv de
gestandaardsieerde residuen en
plotten we tegen de
gestandaardiseerde voorspelde
waardes. Als er voor elke
voorspelde waarde (X-as) ongeveer
evenveel spreiding is op de Y-as,
dan is er voldaan aan de
voorwaarde. In het rechterplaatje zie
je een situatie waarin dit juist niet het
geval is.
Normale verdeling
Beoordelen aan de hand van een frequentieverdeling in een histogram.
per X-waarde zijn de Y-scores
normaalverdeeld. Oftewel: de residuen
zijn voor elke Xwaarde normaalverdeeld
, Voorbeeld onderzoeksvraag – kunnen we kennis van literatuur bij jong volwassenen
voorspellen met persoons-, gezins- en schoolkenmerken?
Populatie – jong volwassenen
Variabelen
- Afhankelijke Y, kennis van literatuur
- Onafhankelijke X, persoonlijke, school, ouderlijk huis kenmerken
➔ Een goed verklaringsmodel zorgt ervoor dat we kunnen gaan voorspellen. Dit is een
doel van veel onderzoeken.
Voor we gaan voorspellen moeten we het onderzoek uitvoeren en kijken hoe het nou
eigenlijk zit → steekproef nemen en voor de populatie beschrijven hoe de relatie in elkaar zit
tussen de afhankelijke Y en de predictoren.
Algemeen multipele regressie
Onderzoeksvraag – iemands waarde op de afhankelijke variabele voorspellen met kennis
over andere kenmerken?
Doelen regressieanalyse:
• Beschrijven van relaties tussen variabelen (in steekproef)
• Toetsen hypothesen over relaties (significantie)
• Kwantificeren van relaties (effectgrootte)
• Voorspellen van iemands waarde met regressiemodel
➔ Als we een goed verklaringsmodel hebben kunnen we voorspellen. Op basis van
statistische samenhang doen we geen uitspraken over causaliteit.
Multipele regressie valt onder correlationeel onderzoek → tegelijk. Het is geen experiment
met een voor- en nameting.
Kennis van de liliteratuur – de variabelen
➔ Deze variabelen zijn van invloed en volgen uit de verschillende clusters. Deze 7
variabelen moeten we informatie voor verzamelen.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller schklfscht. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $11.22. You're not tied to anything after your purchase.