100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
VOS ISW - Samenvatting hoorcolleges 1-6 €3,49   In winkelwagen

Samenvatting

VOS ISW - Samenvatting hoorcolleges 1-6

2 beoordelingen
 233 keer bekeken  31 keer verkocht

Dit document bevat een uitgebreide samenvatting van de cursus 'Verdieping in Onderzoeksmethoden en Statistiek' voor Interdisciplinaire Sociale Wetenschap in het 2e jaar. Dit is in principe het belangrijkste voor de toets: van de begrippen tot aan de output van SPSS. Week 1: multipele regressie, we...

[Meer zien]

Voorbeeld 4 van de 53  pagina's

  • Onbekend
  • 16 januari 2020
  • 53
  • 2019/2020
  • Samenvatting
  • asw
  • vos
  • statistiek
  • isw
book image

Titel boek:

Auteur(s):

  • Uitgave:
  • ISBN:
  • Druk:
Alle documenten voor dit vak (11)

2  beoordelingen

review-writer-avatar

Door: DrsDrs • 3 jaar geleden

Zeer goed. Neem een paar dagen de tijd dit uit je hoofd te leren, gebruik er nog wat materiaal bij naast, en je hebt geheid een voldoende. (Maar neem wel de tijd ervoor, want ik had de eerste keer een onvoldoende... tweede keer een 7,5!)

review-writer-avatar

Door: lisannekuiper44 • 3 jaar geleden

avatar-seller
documentenv
HOORCOLLEGE AANTEKENINGEN - VOS

HOORCOLLEGE 1: MULTIPELE REGRESSIE – 25 NOVEMBER 2019
WEEK 3

Regressieanalyse
Je gebruikt een regressieanalyse als je wilt weten of de onafhankelijke variabele (X) de score op
afhankelijke variabele (Y) kan voorspellen, in dit geval is er sprake van een enkelvoudige regressie.
Bij een multipele regressie gaat het om minimaal twee onafhankelijke variabelen (X). Deze
onafhankelijke variabelen (X) worden ook wel predictoren genoemd. Het gaat er dus dan ook om
hoe goed deze variabelen goede voorspellers zijn.

Een voorbeeld hiervan is: Hoe zijn de verschillende variabelen, zoals intelligentie of uren werk, van
invloed zijn op schoolprestaties. Hierbij gaat het er dus om of de verschillen in kinderen in
schoolprestaties kunnen worden verklaard met behulp van de predictoren; het verklaren van
variantie. Er wordt gekeken naar waarom niet iedereen dezelfde schoolprestaties heeft.

Verschillen enkelvoudige en meervoudige regressie (meetniveau’s)
Je gebruikt een enkelvoudige regressie als je één afhankelijke variabele (Y) van minimaal interval
meetniveau hebt en één onafhankelijke variabele (X) van minimaal interval meetniveau hebt.

Je gebruikt een multipele regressie als je één afhankelijke variabele (Y) van minimaal interval
meetniveau hebt en meer dan één onafhankelijke variabele (X) van minimaal interval meetniveau
al dan niet in combinatie met een dichotome variabele(n) hebt.

Een dichotome variabele is een variabele met slechts 2 mogelijke uitkomsten of waarden, zoals het
geslacht; man of vrouw.

Voorbeeld multipele regressie
Onderzoeksvraag: Kunnen we kennis van literatuur bij jong volwassenen voorspellen met persoons-,
gezins- en schoolkenmerken? (PAC) Dit is een voorbeeld van een correlationeel onderzoek, want je
wilt kennis van literatuur voorspellen met verschillende onafhankelijke variabelen (X)

De afhankelijke variabele (Y) wat je wilt verklaren in dit voorbeeld is kennis van de literatuur, de
afhankelijke variabele kan je voorspellen met de onafhankelijke variabelen (X), de predictoren of
voorspellers; persoonlijke kenmerken, kenmerken ouderlijk huis en kenmerken van school. De
populatie binnen deze vraag zijn jong volwassenen. Het doel van dit onderzoek is de populatie
beschrijven en toetsen van de relaties tussen afhankelijke variabele Y en de predictoren X.

Doelen multipele regressie
• Beschrijven lineaire relaties tussen variabelen (regressiemodel).
• Toetsen hypothesen over relaties (significantie).
• Kwantificeren van relaties (effectgrootte).
• Kwalificeren van relaties (klein, middelmatig, groot).
• Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting).

,Je kan op basis van statistische samenhang nooit geen uitspraken over causaliteit doen. Als je een
correlatie hebt gevonden, wil dat niet zeggen dat de ene variabele de andere variabele veroorzaakt.

De eerste voorwaarde van causaliteit, de samenhang kan je met een multipele regressie beoordelen,
de rest van de voorwaarden niet.

Assumpties multipele regressie:

• Voorwaarden meetniveaus (Y= interval meetniveau, X =
interval meetniveau of 2 categorieën
• Lineaire verbanden tussen de afhankelijke variabele en
onafhankelijke variabelen
• Afwezigheid uitschieters in Y-ruimte (Standardized
residuals)
• Afwezigheid uitschieters in X-ruimte (Mahalonobis distance)
• Afwezigheid uitschieters in XY-ruimte (Cook’s distance)
• Afwezigheid multicollineariteit (kijk naar VIF en Tolerance);
hiermee wordt gekeken of de relatie tussen twee of
meerdere onafhankelijke variabelen te sterk is, gevolgen
o.a. hier van zijn dat de regressiecoëfficiënten (B)
onbetrouwbaar zijn
• Homescedasticiteit; de spreiding van de residuen per X-
waarde ongeveer gelijk moet zijn (plot de gestandaardiseerde residuen tegen
gestandaardiseerde voorspelde waardes)
• Normaal verdeelde residuen; geen grote afwijkingen van de verdeling


T-toets
Deze toetsingsgrootheid gebruik je wanneer je één categorische variabele met twee categorieën
(dichotoom) wilt vergelijken op een continue variabele (interval/ratio). Je kijkt dan naar het
verschil tussen de twee gemiddelden.

Meetniveau variabelen
Voor een multipele regressieanalyse is het meetniveau van variabelen zijn belangrijk. Dit is ook een
van de assumpties; de meetniveaus moeten kloppen.

Meetniveaus kan je onthouden aan de hand van het acronym NOIR; nominaal, ordinaal, interval en
ratio. Soorten meetniveaus.

➢ De afhankelijke variabele Y moet gemeten worden op minimaal interval meetniveau of
ratio.
➢ De onafhankelijke variabelen X moeten gemeten worden op minimaal interval meetniveau.
Categorische variabelen kan je met twee categorieën meten (sekse, man vs vrouw); hierbij is
er dus sprake van een nominaal meetniveau met twee categorieën. Een categorische
variabele met twee categorieën wordt dichotoom genoemd. Categorische variabelen met
meer dan twee categorieën van nominaal meetniveau moet worden omgezet in
dummyvariabelen. Dan pas kan je deze variabelen meenemen in de regressie analyse.

,Regressiemodel (1)
In een regressiemodel probeer je Y scores te voorspellen en de werkelijkheid te benaderen. Daarvoor
stel je een vergelijking voor.

Modelvergelijking voor geobserveerde variabele




De uitkomt Y is gelijk aan het model (samenraapsel van alle predictoren die je hebt meegenomen;
linieair regressiemodel) + voorspellingsfout. Op grond van zo’n model doe je een voorspelling en die
voorspelling zal er ook naast zitten. De voorspellingsfout wordt ook wel de residu of error genoemd.
Het residu is het verschil tussen een geobserveerde score Yi en de voorspelde score Y^. De formule
voor het residu is dus ei = Yi – Y^i

Regressievergelijking voor voorspellen van waarde op Y




Als je het hebt over de voorspellende waarde van Y, dan wordt Y dakje gebruikt. De
voorspelde/geschatte Y score is gelijk aan het model, daarbij ontbreekt de voorspellingsfout
(residu). Je kan twee aparte vergelijkingen opstellen, één voor de geobserveerde variabele en één
voor de voorspelde waarde.

Regressiemodel (2)
Uiteindelijk wil je op grond van verschillende x-
variabelen y gaan voorspellen, daarbij ga je een
voorspellingsfout maken, een residu; een verschil tussen
dat wat je hebt geobserveerd en dat wat je voorspelt.

Bij formule in de tabel/grafiek:
Bij B1 * X1 wordt B1 vermenigvuldigd met een X score. +
residu (voorspellingsfout). Het intercept (de constant;
ook wel a genoemd) is het startpunt van de
regressielijn, en het intercept is gelijk aan de Y-score die
je krijgt als je de regressievergelijking invult en voor elke X-score de score 0 observeert.
B1 wordt ook wel de hellingshoek/slope/regressiecoëfficiënt genoemd.
Het weergeeft de verandering weer in voorspelde Y-scores (Y^) bij toename van 1 eenheid in X-
scores; dus hoeveel neemt Y toe als X-score met 1 toeneemt? 4.017 + 0.136 *

Histogram ‘’read’’
Je ziet dat er spreiding is in scores, niet iedereen heeft dus dezelfde score. Je
probeert ook de spreiding in scores te verklaren; kunnen de predictoren
verklaren waarom bijv. het ene kind een score heeft van 8 en de andere een
4. Er wordt gezocht naar een model waarbij de voorspelde score (y dakje),
heel dicht ligt bij y. Een model waarbij de residuen zo klein mogelijk is,
verschil tussen y en y dakje zo klein mogelijk is (voorspellingsfout). Dat is
het uiteindelijke doel van een regressieanalyse

, Spreidingsdiagram
Het doel van een regressieanalyse is om een relatie te
beschrijven met een rechte lijn. Met behulp van een
regressieanalyse ga je op zoek naar een best passende lijn.

Bij een spreidingsdiagram hoort een wiskunde vergelijking.
In deze vergelijking zit een startpunt en een hellingshoek.

Vergelijking van een lineaire lijn (regressievergelijking)

➢ Intercept of constante ( B 0) → startpunt van de lijn
➢ Regressiecoëfficiënt ( B 1) → hoe schuin of hoe stijl loopt de lijn
(hellingshoek van de lijn), dit kan negatief of positief zijn

Bij een enkelvoudige regressie worden Y-scores voorspelt met een enkele X-score.




Intercept
grafiek 1: B 0 = 5 grafiek 2: B 0 = 5 grafiek 3: B 0 = 5

Richting verband
grafiek 1: B 1 = 0,5 grafiek 2: B 1 = -0.5 grafiek 3: B 1 = 0
(positief) (negatief)

Er ontstaat een horizontale lijn wanneer de richtingscoëfficiënt (B1) gelijk is aan 0.

Kleinste kwadraten criterium
De best passende lijn wordt gevonden met behulp van het kleinste
kwadraten criterium (least square). De best passende lijn is waarbij
voorspellingsfout (error aka residuen) zo klein mogelijk is.
Voor elke respondent is er een geobserveerde Y. De geschatte Y, op
grond van de lijn, moet zodanig zijn dat de voorspellingsfout E voor
iedereen uiteindelijk zo klein mogelijk is.

De blauwe streepjes geven de residuen (zie grafiek hiernaast) aan; de
afstanden tussen de geobserveerde scores en de geschatte scores.

Voorbeeld; er is iemand met een x-score van 4, voor deze persoon observeer je een y-
score voort iets meer dan 2, maar voor deze persoon voorspel je een hogere y-score, rond de 5. Bij deze persoon zit de
voorspelling boven de ware observatie (echte score). Voor dit individu is dit geen goede voorspelling. Bij de individuen
waarbij de voorspelling beter is, liggen de punten dichter bij de oranje lijn; zoals het individu met een x-score van 2.

➢ Wanneer de geobserveerde waarde boven de oranje lijn ligt dan is er sprake van een positief
residu; onderschatting door het model

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper documentenv. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €3,49. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 72042 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€3,49  31x  verkocht
  • (2)
  Kopen