Dit document bevat een uitgebreide samenvatting van de cursus 'Verdieping in Onderzoeksmethoden en Statistiek' voor Interdisciplinaire Sociale Wetenschap in het 2e jaar. Dit is in principe het belangrijkste voor de toets: van de begrippen tot aan de output van SPSS.
Week 1: multipele regressie, we...
Exam Guide for Applied Multivariate Data Analysis – Get yourself a Wonderful Grade!
Summary of Statistics (IBC), Radboud University
Answers assignment 3 business research methods
All for this textbook (117)
Written for
Universiteit Utrecht (UU)
Interdisciplinaire Sociale Wetenschappen
Verdieping in onderzoeksmethoden en statistiek
All documents for this subject (11)
2
reviews
By: DrsDrs • 3 year ago
Translated by Google
Very good. Take a few days to memorize this, use some material in addition to it, and you have enough. (But take the time, because the first time I had an insufficient... second time a 7,5!)
By: lisannekuiper44 • 3 year ago
Seller
Follow
documentenv
Reviews received
Content preview
HOORCOLLEGE AANTEKENINGEN - VOS
HOORCOLLEGE 1: MULTIPELE REGRESSIE – 25 NOVEMBER 2019
WEEK 3
Regressieanalyse
Je gebruikt een regressieanalyse als je wilt weten of de onafhankelijke variabele (X) de score op
afhankelijke variabele (Y) kan voorspellen, in dit geval is er sprake van een enkelvoudige regressie.
Bij een multipele regressie gaat het om minimaal twee onafhankelijke variabelen (X). Deze
onafhankelijke variabelen (X) worden ook wel predictoren genoemd. Het gaat er dus dan ook om
hoe goed deze variabelen goede voorspellers zijn.
Een voorbeeld hiervan is: Hoe zijn de verschillende variabelen, zoals intelligentie of uren werk, van
invloed zijn op schoolprestaties. Hierbij gaat het er dus om of de verschillen in kinderen in
schoolprestaties kunnen worden verklaard met behulp van de predictoren; het verklaren van
variantie. Er wordt gekeken naar waarom niet iedereen dezelfde schoolprestaties heeft.
Verschillen enkelvoudige en meervoudige regressie (meetniveau’s)
Je gebruikt een enkelvoudige regressie als je één afhankelijke variabele (Y) van minimaal interval
meetniveau hebt en één onafhankelijke variabele (X) van minimaal interval meetniveau hebt.
Je gebruikt een multipele regressie als je één afhankelijke variabele (Y) van minimaal interval
meetniveau hebt en meer dan één onafhankelijke variabele (X) van minimaal interval meetniveau
al dan niet in combinatie met een dichotome variabele(n) hebt.
Een dichotome variabele is een variabele met slechts 2 mogelijke uitkomsten of waarden, zoals het
geslacht; man of vrouw.
Voorbeeld multipele regressie
Onderzoeksvraag: Kunnen we kennis van literatuur bij jong volwassenen voorspellen met persoons-,
gezins- en schoolkenmerken? (PAC) Dit is een voorbeeld van een correlationeel onderzoek, want je
wilt kennis van literatuur voorspellen met verschillende onafhankelijke variabelen (X)
De afhankelijke variabele (Y) wat je wilt verklaren in dit voorbeeld is kennis van de literatuur, de
afhankelijke variabele kan je voorspellen met de onafhankelijke variabelen (X), de predictoren of
voorspellers; persoonlijke kenmerken, kenmerken ouderlijk huis en kenmerken van school. De
populatie binnen deze vraag zijn jong volwassenen. Het doel van dit onderzoek is de populatie
beschrijven en toetsen van de relaties tussen afhankelijke variabele Y en de predictoren X.
Doelen multipele regressie
• Beschrijven lineaire relaties tussen variabelen (regressiemodel).
• Toetsen hypothesen over relaties (significantie).
• Kwantificeren van relaties (effectgrootte).
• Kwalificeren van relaties (klein, middelmatig, groot).
• Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting).
,Je kan op basis van statistische samenhang nooit geen uitspraken over causaliteit doen. Als je een
correlatie hebt gevonden, wil dat niet zeggen dat de ene variabele de andere variabele veroorzaakt.
De eerste voorwaarde van causaliteit, de samenhang kan je met een multipele regressie beoordelen,
de rest van de voorwaarden niet.
Assumpties multipele regressie:
• Voorwaarden meetniveaus (Y= interval meetniveau, X =
interval meetniveau of 2 categorieën
• Lineaire verbanden tussen de afhankelijke variabele en
onafhankelijke variabelen
• Afwezigheid uitschieters in Y-ruimte (Standardized
residuals)
• Afwezigheid uitschieters in X-ruimte (Mahalonobis distance)
• Afwezigheid uitschieters in XY-ruimte (Cook’s distance)
• Afwezigheid multicollineariteit (kijk naar VIF en Tolerance);
hiermee wordt gekeken of de relatie tussen twee of
meerdere onafhankelijke variabelen te sterk is, gevolgen
o.a. hier van zijn dat de regressiecoëfficiënten (B)
onbetrouwbaar zijn
• Homescedasticiteit; de spreiding van de residuen per X-
waarde ongeveer gelijk moet zijn (plot de gestandaardiseerde residuen tegen
gestandaardiseerde voorspelde waardes)
• Normaal verdeelde residuen; geen grote afwijkingen van de verdeling
T-toets
Deze toetsingsgrootheid gebruik je wanneer je één categorische variabele met twee categorieën
(dichotoom) wilt vergelijken op een continue variabele (interval/ratio). Je kijkt dan naar het
verschil tussen de twee gemiddelden.
Meetniveau variabelen
Voor een multipele regressieanalyse is het meetniveau van variabelen zijn belangrijk. Dit is ook een
van de assumpties; de meetniveaus moeten kloppen.
Meetniveaus kan je onthouden aan de hand van het acronym NOIR; nominaal, ordinaal, interval en
ratio. Soorten meetniveaus.
➢ De afhankelijke variabele Y moet gemeten worden op minimaal interval meetniveau of
ratio.
➢ De onafhankelijke variabelen X moeten gemeten worden op minimaal interval meetniveau.
Categorische variabelen kan je met twee categorieën meten (sekse, man vs vrouw); hierbij is
er dus sprake van een nominaal meetniveau met twee categorieën. Een categorische
variabele met twee categorieën wordt dichotoom genoemd. Categorische variabelen met
meer dan twee categorieën van nominaal meetniveau moet worden omgezet in
dummyvariabelen. Dan pas kan je deze variabelen meenemen in de regressie analyse.
,Regressiemodel (1)
In een regressiemodel probeer je Y scores te voorspellen en de werkelijkheid te benaderen. Daarvoor
stel je een vergelijking voor.
Modelvergelijking voor geobserveerde variabele
De uitkomt Y is gelijk aan het model (samenraapsel van alle predictoren die je hebt meegenomen;
linieair regressiemodel) + voorspellingsfout. Op grond van zo’n model doe je een voorspelling en die
voorspelling zal er ook naast zitten. De voorspellingsfout wordt ook wel de residu of error genoemd.
Het residu is het verschil tussen een geobserveerde score Yi en de voorspelde score Y^. De formule
voor het residu is dus ei = Yi – Y^i
Regressievergelijking voor voorspellen van waarde op Y
Als je het hebt over de voorspellende waarde van Y, dan wordt Y dakje gebruikt. De
voorspelde/geschatte Y score is gelijk aan het model, daarbij ontbreekt de voorspellingsfout
(residu). Je kan twee aparte vergelijkingen opstellen, één voor de geobserveerde variabele en één
voor de voorspelde waarde.
Regressiemodel (2)
Uiteindelijk wil je op grond van verschillende x-
variabelen y gaan voorspellen, daarbij ga je een
voorspellingsfout maken, een residu; een verschil tussen
dat wat je hebt geobserveerd en dat wat je voorspelt.
Bij formule in de tabel/grafiek:
Bij B1 * X1 wordt B1 vermenigvuldigd met een X score. +
residu (voorspellingsfout). Het intercept (de constant;
ook wel a genoemd) is het startpunt van de
regressielijn, en het intercept is gelijk aan de Y-score die
je krijgt als je de regressievergelijking invult en voor elke X-score de score 0 observeert.
B1 wordt ook wel de hellingshoek/slope/regressiecoëfficiënt genoemd.
Het weergeeft de verandering weer in voorspelde Y-scores (Y^) bij toename van 1 eenheid in X-
scores; dus hoeveel neemt Y toe als X-score met 1 toeneemt? 4.017 + 0.136 *
Histogram ‘’read’’
Je ziet dat er spreiding is in scores, niet iedereen heeft dus dezelfde score. Je
probeert ook de spreiding in scores te verklaren; kunnen de predictoren
verklaren waarom bijv. het ene kind een score heeft van 8 en de andere een
4. Er wordt gezocht naar een model waarbij de voorspelde score (y dakje),
heel dicht ligt bij y. Een model waarbij de residuen zo klein mogelijk is,
verschil tussen y en y dakje zo klein mogelijk is (voorspellingsfout). Dat is
het uiteindelijke doel van een regressieanalyse
, Spreidingsdiagram
Het doel van een regressieanalyse is om een relatie te
beschrijven met een rechte lijn. Met behulp van een
regressieanalyse ga je op zoek naar een best passende lijn.
Bij een spreidingsdiagram hoort een wiskunde vergelijking.
In deze vergelijking zit een startpunt en een hellingshoek.
Vergelijking van een lineaire lijn (regressievergelijking)
➢ Intercept of constante ( B 0) → startpunt van de lijn
➢ Regressiecoëfficiënt ( B 1) → hoe schuin of hoe stijl loopt de lijn
(hellingshoek van de lijn), dit kan negatief of positief zijn
Bij een enkelvoudige regressie worden Y-scores voorspelt met een enkele X-score.
Intercept
grafiek 1: B 0 = 5 grafiek 2: B 0 = 5 grafiek 3: B 0 = 5
Richting verband
grafiek 1: B 1 = 0,5 grafiek 2: B 1 = -0.5 grafiek 3: B 1 = 0
(positief) (negatief)
Er ontstaat een horizontale lijn wanneer de richtingscoëfficiënt (B1) gelijk is aan 0.
Kleinste kwadraten criterium
De best passende lijn wordt gevonden met behulp van het kleinste
kwadraten criterium (least square). De best passende lijn is waarbij
voorspellingsfout (error aka residuen) zo klein mogelijk is.
Voor elke respondent is er een geobserveerde Y. De geschatte Y, op
grond van de lijn, moet zodanig zijn dat de voorspellingsfout E voor
iedereen uiteindelijk zo klein mogelijk is.
De blauwe streepjes geven de residuen (zie grafiek hiernaast) aan; de
afstanden tussen de geobserveerde scores en de geschatte scores.
Voorbeeld; er is iemand met een x-score van 4, voor deze persoon observeer je een y-
score voort iets meer dan 2, maar voor deze persoon voorspel je een hogere y-score, rond de 5. Bij deze persoon zit de
voorspelling boven de ware observatie (echte score). Voor dit individu is dit geen goede voorspelling. Bij de individuen
waarbij de voorspelling beter is, liggen de punten dichter bij de oranje lijn; zoals het individu met een x-score van 2.
➢ Wanneer de geobserveerde waarde boven de oranje lijn ligt dan is er sprake van een positief
residu; onderschatting door het model
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller documentenv. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.75. You're not tied to anything after your purchase.