Hoorcolleges VOS
hoorcollege 1 kwantitatieve deel multipele regressie
Regressiemodel
Op basis van theorievorming maak je een hypothese die je
checkt met statistiek als je data verzameld. Hierbij moet je
goed operationaliseren: Hoe meet je iets en wat kan de
verklarende factor zijn?
- Variabele Minimaal in intervalniveau
- Afhankelijke variabele wil je voorspellen adhv onafhankelijke variabele = predictor
- Interventie: onafhankelijke variabele x verhogen, om te kijken of y omhoog gaat.
- Causaal verband: je meet op meerdere momenten en uitkomst gaat omhoog
- Niet een causaal verband: op 1 moment meten en de uitkomst gaan omhoog
- Lineare relatie tussen variabele beschrijven.
- verschil tussen proberen een nieuwe score te voospellen of te kijken hoe goed het model
past met de score die je al geobserveerd hebt. -> gaat niet altijd bij iedereen goed ->
fouttermen = E
- Categorische kenmerk met twee categorieën; nominaal meetniveau met twee categorieën
noemen we dichotoom.
- Categorisch kenmerk met meer dan twee categorieën; nominaal/ordinaal meetniveau wordt
omgezet in dummyvariabelen.
- Regressiemodel: Uitkomst Y = model (x) + voorspellingsfout (e), modelvergelijking en
geobserveerde afhankelijke variabele.
- Y = B0 (constante) + B1 (regressiecoefficient, slope) X1 (voor elke toename van x1 volgt een
bepaalde toename in y) + B6X6 + E (voorspellingsfout)
- Voorspellen y? = Y^ = model x = regressievergelijking en voorspelde score is afhankelijke
variabele.
- Variantie = kwadraat van standaarddeviatie
Doelenanalyse
- Beschrijven lineaire relaties tussen variabelen (regressiemodel).
- Toetsen hypothesen over relaties (significantie).
- Kwantificeren van relaties (effectgrootte).
- Kwalificeren van relaties (klein, middelmatig, groot).
- Beoordelen relevantie relaties (subjectief).
- Voorspellen van iemands waarde met regressiemodel (puntschatting
- en intervalschatting).
Meetvariabele: NOIR -> ratio, interval, ordinaal en nominaal
Voor vergelijking enkelvoudige regressie: Y^= B0 +b1X1
1. Intercept of constante = bo -> geeft aan
wanneer lijn door 0 punt kruist
2. Regressiecoefficient = b1 -> constante/richtingsverband. Plaatje laat zien hoe hij verschilt -|
,Voorspellingsfout: afstand tussen geobserveerde waarde en voorspelde waarde -> lijn zo
trekken dat voorspellingsfout zo klein mogelijk is. positieve e (error) boven lijn en
negatieve e(error) onder lijn. ------------------------------------------------------------------
Voorspelling wordt nauwkeuriger als residuen kleiner zijn en errors dichter bij de lijn zijn.
Spreidingsdiagram READ-EDUC
Understandized b = gebruik je voor regressieformule
Goodness-of-fit
Beste model = model met kleinste residuele kwadratensom ->
kijk hiervoor naar goodness of fit (R2)
- R2 = kwadratensom van model gedeeld door totale kwadratensom.
- R2 = Proportie door X verklaarde variantie in Y. ligt altijd tussen 0 en 1.
- Verklaarde variantie verschil: R2 model 2 – R2 model 1.
- Toename R2 significant? -> kijk naar significant F change
- Relevantie model: R square change: Verschil R2 > .05 = relevant. < .05 = niet relevant
- R = multipele correlatiecoefficient. Wat is relatie tussen als alle y^ ga voorspellen op
basis van de Y die daadwerkelijk zijn geobserveerd. -> hoeveel percentage verklaart dit
model. Hoeveel hij meer verklaard dan hiervoor: R square change.
- Waarderingmode: significant = toetsen. Kwantificeren relatie = effectgrootte
Kwadraten?: standaarddeviaties bij elkaar
optellen is ongeveer 0, hiermee trek je de
rechte lijn. Door kwadraten kan je
inschatting krijgen over grootte van
afwijkingen.
Opsplitsing
waargenomen variantie
Y=basismodel en Y^= lineair model.
Yi = waarde van iemand in het model. Was het een onderschatting ->
zie Yi . De afstand van hier tot y = totale deviate. M is het verklaarde
deel, gele lijn zit nu dichter by Yi. R is onverklaarde deel.
Yi meer naar links? = groter verklaard deel
Toetsen van R2 en toetsen van B’s
- R2 = verklaring van Y door alle X’en. Ha: R 2 > 0: Het regressiemodel verklaart variatie in Y
- B = invloed afzonderlijke x’en op Y. Ha: B > 0 of B < 0: Er is effect van X op Y
- Meerdere variabele: Y = B0 + b1X1 + B2X2 (+ meer b en x als er meer variabele zijn) + E
- Statistische hypothese: H0: R2=0 en Ha: R2 > 0.
- Met F-toets beoordeel je statistische significantie
F-toets
mean: gemiddelde van alle sum squares
MSr: gedeeld door het aantal vrijheidsgraden.
, Unstandardized coeffiecients zijn afhankelijk van de schaal van de voorspeller, hierdoor kan je
moeilijk vergelijken tussen verschillende variabelen, want ze zijn gemeten met verschillende schalen
-> daarom heb je standardized coefficient B -> dan zijn de schalen vergelijkbaar.
Instructiecollege deel 1
Verschil enkelvoudige en multipele regressie:
- Enkelvoudige: 1 afhankelijke en 1 onafhankelijke variabele
- Multipele regressie: 1 afhankelijke en meerdere onafhankelijk variabele
Doelen regressieanalyse: beschrijven relaties tussen variabelen (in steekproef),
toetsen hypothese over relaties (significantie), kwantificeren van relaties (effectgrootte), voorspellen
van iemands waarden op Y met regressiemodel
Residu: het verschil tussen een geobserveerde score 𝑌 en de voorspelde score 𝑌 (zie rode pijlen in
figuren), dus: ei = y1 – yi^ Het residu wordt ook wel de voorspellingsfout of error genoemd.
Kleinste kwadratenmethode: gebruikt voor bepalen van best passende regressielijn, waarbij de som
van kwadraten van residuen het kleinst is. formule:
Voorwaarden en assumpties multipele regressie Schuingedrukte kunnen bij checken
analyse: voorwaarden gebruik maken van
residuen
1. Aselecte steekproef
Lineair: lineaire relatie tussen variabelen.
2. Meetniveau Y minimaal interval
3. Lineaire relaties tussen de X’en en Y -> gebruik van Homoscendasasticiteit: variantie
4. Per X-waarde is de spreiding in Y-scores gelijk (homoscedasticiteit) residuen gelijk voor verschillende
waarden onafhankelijke variabele.
->
5. Per X-waarde zijn de Y-scores normaal verdeeld Normaalverdeeld: Per X waarde zijn Y
6. Geen uitschieters en/of invloedrijke respondenten scores normaalverdeeld. residuen zijn
voor elke x waarde normaal verdeeld,
7. Geen hoge correlatie tussen de onafhankelijke variabelen
afhankelijke variabele hoeft niet!
(multicollineariteit)
Verklaarde variantie: Proportie of percentage van de variantie in scores op de afhankelijke
variabele dat verklaard wordt door de onafhankelijke variabelen in het model.
Hypotheses: toetsen of verklaarde variantie voor hele model groter is dan 0.
Predictor: kijken of hij een significante bijdrage levert. Toetsen of
regressiecoefficient (slope) van de predictor gelijk is aan 0 .
Vergelijkingen met twee voorspellers.
Yi geet vergelijking van geobserveerde score Y weer. -> voorspelde score Yi^ + residue ei
Yi^ geeft voorspelde score voor Y weer.
Regressiecoefficient negatief? -> kan duiden op multicollineariteit
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper puckvlot. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,29. Je zit daarna nergens aan vast.