Complete samenvatting van +100 pagina's van alle hoorcolleges en waar nodig toevoegingen om het begrijpelijker te maken. Inclusief allemaal printscreens van de tabellen en modellen etc. Door het leren van deze samenvatting heb ik een 8,0+ weten te behalen! :) Ook heel fijn voor het doen van onderzo...
Samenvatting VOS
Hoorcolleges, Grasple, werkgroepen en werkopdrachten
________________________________________________
Multipele regressie
Voorbeeld – Het Nederlands Jeugd onderzoek heeft onderzoek gedaan naar de
risicofactoren van onderwijsachterstanden. Veel wetenschappelijk onderzoek is gericht om
verklaringen te vinden, dus bijv voor onderwijs achterstanden. Je kunt misschien meerdere
factoren vinden: kindfactoren, gezinsfactoren, opvoeding, leefomstandigheden en
schoolfactoren → binnen al deze gebieden vind je kenmerken van het kind die in combinatie
ervoor zorgen dat een kind een onderwijsachterstand oploopt.
Vaak bevatten sociale problemen geen enkele verklaring, maar meerdere. Dit vraagt van
onderzoek om de verschillende kenmerken bij mensen na te gaan. Vervolgens kun je deze
kenmerken en factoren mengen en een verklaring geven. We hebben dus een analyse-
techniek nodig om met meerdere factoren een verklaring te geven en te kijken wat de
belangrijkste factoren zijn. Hiervoor gebruiken we de multipele regressie.
De afhankelijke variabele, onderwijsachterstand en meerdere onafhankelijke variabelen →
hoe goed kunnen we onderwijsachterstand verklaren en welke invloeden zijn het
belangrijkste?
Operationaliseren van de theoretische constructen → onderwijsachterstand
operationaliseren door
- Te kijken naar schoolprestaties
- Opvoeding van kind
- Enzovoort
Dit gaan we vervolgens in verschillende clusters opdelen
Zoals je ziet is er een grote variatie aan factoren die de schoolprestaties beïnvloeden.
,Padmodel multipele regressie – algemene model
We zien hier de afhankelijke variabele Y
En een set van predictoren, de onafhankelijke X
- X1 is de eerste predictor
- Horizontale streepje (X2) geeft een dichotome
variabele aan
- Geen streepje (X1) geeft een interval of ratio
variabele aan
Variabele die niet gebruikt kan worden voor multipele regressie is een nominale variabele
met meer dan 2 categorieën zoals etnische achtergrond (meerdere categorieën). Het kan
worden meegenomen maar hiervoor moeten we eerst een bewerking uitvoeren →
dummyvariabelen (komt in volgend college)
Verschil tussen enkelvoudige en multipele regressie zit hem in het aantal onafhankelijke
variabelen.
Multipele regressie
- Één afhankelijke variabele Y
- Één of meerdere onafhankelijke variabelen (minimaal interval)
- Of één of meerdere onafhankelijke variabelen dichotoom
Assumpties multipele regressie
Meetniveau
Meetniveau afhankelijke variabele
Afhankelijke variabele moet minimaal op interval meetniveau zijn (interval of ratio)
Meetniveau onafhankelijke variabelen
- Kenmerk gemeten op minimaal interval meetniveau
- Categorisch met twee categorieën: nominaal met 2 categorieën is dichotoom
- Categorisch kenmerk met meer dan twee categorieën: nominaal meetniveau wordt
omgezet in dummyvariabelen.
Lineairiteit tussen predictoren en afhankelijke Y
Dit noemen we het kwartet van
Anscombe
We gebruiken hier residuen
,Geen uitschieters (uitleg in Grasple MR 2 → nog x maken)
Op het oog beoordelen of aan de hand van SPSS
Kijk naar tabel Residuals Statistics en bekijk min en max van
- Standardized residuals: tussen -3.3 en +3.3 geen uitschieters (hiermee controleren
we uitschieters in de Y-ruimte)
- Mahalanobis distance: 10 + 2 x n predictoren, hoger dan die waarde is er een
uitschieter (uitschieter in X-ruimte)
- Cook’s distance: hoger dan 1 is uitschieter (uitschieter in XY, dus een overall invloed
van één respondent)
Keuze verwijderen uitschieter
• Behoort deze participant tot de groep waarover je een uitsprak wilt doen? Zo niet,
verwijder de uitschieter
• Is de extreme waarde theoretisch mogelijk? Zo niet, neem de participant niet mee.
Zo wel, draai de analyse met én zonder uitschieter en analyseer het verschil
Afwezigheid multicollineariteit
Teveel samenhang in de predictoren en dit wil je juist voorkomen. Dit kun je bekijken adhv
SPSS bij de tabel Coefficients. Een R>0.80 is een te sterke samenhang. Bekijk in de tabel:
- Tolerance <0.1 is een probleem (<0.2 ook een redelijk probleem)
- VIF groter dan 10 is een probleem
Gevolgen multicollineariteit
• De regressiecoëfficiënten (B) zijn onbetrouwbaar.
• Het beperkt de grootte van R (de correlatie tussen Y en Ŷ)
• Het belang van individuele onafhankelijke variabelen is niet/moeilijk vast te stellen.
Homoscedasticiteit
De spreiding van de residuen moet ongeveer gelijk zijn. Dit beoordelen we adhv de
gestandaardsieerde residuen en
plotten we tegen de
gestandaardiseerde voorspelde
waardes. Als er voor elke
voorspelde waarde (X-as) ongeveer
evenveel spreiding is op de Y-as,
dan is er voldaan aan de
voorwaarde. In het rechterplaatje zie
je een situatie waarin dit juist niet het
geval is.
Normale verdeling
Beoordelen aan de hand van een frequentieverdeling in een histogram.
per X-waarde zijn de Y-scores
normaalverdeeld. Oftewel: de residuen
zijn voor elke Xwaarde normaalverdeeld
, Voorbeeld onderzoeksvraag – kunnen we kennis van literatuur bij jong volwassenen
voorspellen met persoons-, gezins- en schoolkenmerken?
Populatie – jong volwassenen
Variabelen
- Afhankelijke Y, kennis van literatuur
- Onafhankelijke X, persoonlijke, school, ouderlijk huis kenmerken
➔ Een goed verklaringsmodel zorgt ervoor dat we kunnen gaan voorspellen. Dit is een
doel van veel onderzoeken.
Voor we gaan voorspellen moeten we het onderzoek uitvoeren en kijken hoe het nou
eigenlijk zit → steekproef nemen en voor de populatie beschrijven hoe de relatie in elkaar zit
tussen de afhankelijke Y en de predictoren.
Algemeen multipele regressie
Onderzoeksvraag – iemands waarde op de afhankelijke variabele voorspellen met kennis
over andere kenmerken?
Doelen regressieanalyse:
• Beschrijven van relaties tussen variabelen (in steekproef)
• Toetsen hypothesen over relaties (significantie)
• Kwantificeren van relaties (effectgrootte)
• Voorspellen van iemands waarde met regressiemodel
➔ Als we een goed verklaringsmodel hebben kunnen we voorspellen. Op basis van
statistische samenhang doen we geen uitspraken over causaliteit.
Multipele regressie valt onder correlationeel onderzoek → tegelijk. Het is geen experiment
met een voor- en nameting.
Kennis van de liliteratuur – de variabelen
➔ Deze variabelen zijn van invloed en volgen uit de verschillende clusters. Deze 7
variabelen moeten we informatie voor verzamelen.
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur schklfscht. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €10,39. Vous n'êtes lié à rien après votre achat.