Verdieping in Onderzoeksmethoden en Statistiek VOS
All documents for this subject (19)
Seller
Follow
puckvlot
Content preview
Hoorcolleges VOS
hoorcollege 1 kwantitatieve deel multipele regressie
Regressiemodel
Op basis van theorievorming maak je een hypothese die je
checkt met statistiek als je data verzameld. Hierbij moet je
goed operationaliseren: Hoe meet je iets en wat kan de
verklarende factor zijn?
- Variabele Minimaal in intervalniveau
- Afhankelijke variabele wil je voorspellen adhv onafhankelijke variabele = predictor
- Interventie: onafhankelijke variabele x verhogen, om te kijken of y omhoog gaat.
- Causaal verband: je meet op meerdere momenten en uitkomst gaat omhoog
- Niet een causaal verband: op 1 moment meten en de uitkomst gaan omhoog
- Lineare relatie tussen variabele beschrijven.
- verschil tussen proberen een nieuwe score te voospellen of te kijken hoe goed het model
past met de score die je al geobserveerd hebt. -> gaat niet altijd bij iedereen goed ->
fouttermen = E
- Categorische kenmerk met twee categorieën; nominaal meetniveau met twee categorieën
noemen we dichotoom.
- Categorisch kenmerk met meer dan twee categorieën; nominaal/ordinaal meetniveau wordt
omgezet in dummyvariabelen.
- Regressiemodel: Uitkomst Y = model (x) + voorspellingsfout (e), modelvergelijking en
geobserveerde afhankelijke variabele.
- Y = B0 (constante) + B1 (regressiecoefficient, slope) X1 (voor elke toename van x1 volgt een
bepaalde toename in y) + B6X6 + E (voorspellingsfout)
- Voorspellen y? = Y^ = model x = regressievergelijking en voorspelde score is afhankelijke
variabele.
- Variantie = kwadraat van standaarddeviatie
Doelenanalyse
- Beschrijven lineaire relaties tussen variabelen (regressiemodel).
- Toetsen hypothesen over relaties (significantie).
- Kwantificeren van relaties (effectgrootte).
- Kwalificeren van relaties (klein, middelmatig, groot).
- Beoordelen relevantie relaties (subjectief).
- Voorspellen van iemands waarde met regressiemodel (puntschatting
- en intervalschatting).
Meetvariabele: NOIR -> ratio, interval, ordinaal en nominaal
Voor vergelijking enkelvoudige regressie: Y^= B0 +b1X1
1. Intercept of constante = bo -> geeft aan
wanneer lijn door 0 punt kruist
2. Regressiecoefficient = b1 -> constante/richtingsverband. Plaatje laat zien hoe hij verschilt -|
,Voorspellingsfout: afstand tussen geobserveerde waarde en voorspelde waarde -> lijn zo
trekken dat voorspellingsfout zo klein mogelijk is. positieve e (error) boven lijn en
negatieve e(error) onder lijn. ------------------------------------------------------------------
Voorspelling wordt nauwkeuriger als residuen kleiner zijn en errors dichter bij de lijn zijn.
Spreidingsdiagram READ-EDUC
Understandized b = gebruik je voor regressieformule
Goodness-of-fit
Beste model = model met kleinste residuele kwadratensom ->
kijk hiervoor naar goodness of fit (R2)
- R2 = kwadratensom van model gedeeld door totale kwadratensom.
- R2 = Proportie door X verklaarde variantie in Y. ligt altijd tussen 0 en 1.
- Verklaarde variantie verschil: R2 model 2 – R2 model 1.
- Toename R2 significant? -> kijk naar significant F change
- Relevantie model: R square change: Verschil R2 > .05 = relevant. < .05 = niet relevant
- R = multipele correlatiecoefficient. Wat is relatie tussen als alle y^ ga voorspellen op
basis van de Y die daadwerkelijk zijn geobserveerd. -> hoeveel percentage verklaart dit
model. Hoeveel hij meer verklaard dan hiervoor: R square change.
- Waarderingmode: significant = toetsen. Kwantificeren relatie = effectgrootte
Kwadraten?: standaarddeviaties bij elkaar
optellen is ongeveer 0, hiermee trek je de
rechte lijn. Door kwadraten kan je
inschatting krijgen over grootte van
afwijkingen.
Opsplitsing
waargenomen variantie
Y=basismodel en Y^= lineair model.
Yi = waarde van iemand in het model. Was het een onderschatting ->
zie Yi . De afstand van hier tot y = totale deviate. M is het verklaarde
deel, gele lijn zit nu dichter by Yi. R is onverklaarde deel.
Yi meer naar links? = groter verklaard deel
Toetsen van R2 en toetsen van B’s
- R2 = verklaring van Y door alle X’en. Ha: R 2 > 0: Het regressiemodel verklaart variatie in Y
- B = invloed afzonderlijke x’en op Y. Ha: B > 0 of B < 0: Er is effect van X op Y
- Meerdere variabele: Y = B0 + b1X1 + B2X2 (+ meer b en x als er meer variabele zijn) + E
- Statistische hypothese: H0: R2=0 en Ha: R2 > 0.
- Met F-toets beoordeel je statistische significantie
F-toets
mean: gemiddelde van alle sum squares
MSr: gedeeld door het aantal vrijheidsgraden.
, Unstandardized coeffiecients zijn afhankelijk van de schaal van de voorspeller, hierdoor kan je
moeilijk vergelijken tussen verschillende variabelen, want ze zijn gemeten met verschillende schalen
-> daarom heb je standardized coefficient B -> dan zijn de schalen vergelijkbaar.
Instructiecollege deel 1
Verschil enkelvoudige en multipele regressie:
- Enkelvoudige: 1 afhankelijke en 1 onafhankelijke variabele
- Multipele regressie: 1 afhankelijke en meerdere onafhankelijk variabele
Doelen regressieanalyse: beschrijven relaties tussen variabelen (in steekproef),
toetsen hypothese over relaties (significantie), kwantificeren van relaties (effectgrootte), voorspellen
van iemands waarden op Y met regressiemodel
Residu: het verschil tussen een geobserveerde score 𝑌 en de voorspelde score 𝑌 (zie rode pijlen in
figuren), dus: ei = y1 – yi^ Het residu wordt ook wel de voorspellingsfout of error genoemd.
Kleinste kwadratenmethode: gebruikt voor bepalen van best passende regressielijn, waarbij de som
van kwadraten van residuen het kleinst is. formule:
Voorwaarden en assumpties multipele regressie Schuingedrukte kunnen bij checken
analyse: voorwaarden gebruik maken van
residuen
1. Aselecte steekproef
Lineair: lineaire relatie tussen variabelen.
2. Meetniveau Y minimaal interval
3. Lineaire relaties tussen de X’en en Y -> gebruik van Homoscendasasticiteit: variantie
4. Per X-waarde is de spreiding in Y-scores gelijk (homoscedasticiteit) residuen gelijk voor verschillende
waarden onafhankelijke variabele.
->
5. Per X-waarde zijn de Y-scores normaal verdeeld Normaalverdeeld: Per X waarde zijn Y
6. Geen uitschieters en/of invloedrijke respondenten scores normaalverdeeld. residuen zijn
voor elke x waarde normaal verdeeld,
7. Geen hoge correlatie tussen de onafhankelijke variabelen
afhankelijke variabele hoeft niet!
(multicollineariteit)
Verklaarde variantie: Proportie of percentage van de variantie in scores op de afhankelijke
variabele dat verklaard wordt door de onafhankelijke variabelen in het model.
Hypotheses: toetsen of verklaarde variantie voor hele model groter is dan 0.
Predictor: kijken of hij een significante bijdrage levert. Toetsen of
regressiecoefficient (slope) van de predictor gelijk is aan 0 .
Vergelijkingen met twee voorspellers.
Yi geet vergelijking van geobserveerde score Y weer. -> voorspelde score Yi^ + residue ei
Yi^ geeft voorspelde score voor Y weer.
Regressiecoefficient negatief? -> kan duiden op multicollineariteit
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller puckvlot. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.64. You're not tied to anything after your purchase.