Verdieping in onderzoeksmethoden
en statistiek
College 1
Regressie
Op basis van een theorie maak je een hypothese en die kan je met statistiek testen als je data gaat
verzamelen. Door te operationaliseren worden variabelen meetbaar.
Pad model multipele regressie:
- Afhankelijke variabele Y
- Meerde onafhankelijke variabelen X op minimaal interval niveau (dit zijn de factoren)
- Of meerdere onafhankelijke variabelen op dichotoom niveau* (nul of één)
Waarom van dit niveau? In het beschrijven van relatie kijk je voor 1 stap meer in X verandert er zo
veel in Y (toe of afname). Omdat je dit in stapjes doet heb je een interval niveau nodig, stappen tussen
verschillende waardes hebben een betekenis.
*dichotoom: interval meetniveau maken van een nominaal meetniveau met twee categorieën. Denk aan man/vrouw.
Voorbeeld: onderzoeksvraag is “kunnen we kennis van literatuur bij jongvolwassenen
voorspellen met persoons-, gezins- en schoolkenmerken. De populatie is jongvolwassenen.
Afhankelijke variabele = kennis van literatuur. Dit wil je voorspellen aan de hand van
Onafhankelijke variabele = persoonlijke kenmerken kenmerken ouderlijk huis/kenmerken
school
Doel: voor de populatie beschrijven en toetsen van de relaties tussen de afhankelijke variabele
y en de onafhankelijke variabele (predictoren) X.
De multipele regressie in het algemeen:
Onderzoeksvraag: Kunnen we iemands waarde op een kenmerk voorspellen met de kennis over
andere kenmerken?
Doelen:
o Beschrijven van lineaire relaties tussen variabelen (regressiemodel)
1 stapje meer van de voorspelling, hoeveel meer of minder wordt mijn uitkomst dan?
o Toetsen van hypothesen over relaties (significantie)
Nulhypothese: geen relatie, alternatieve hypothese: wel een relatie.
o Kwantificeren van relaties (effectgrootte)
Hoe groot is de relatie?
o Kwalificeren van relaties (klein, middel, groot)
Is het een klein, middelgroot of groot effect?
o Relevantie beoordelen van relaties (subjectief)
Afhankelijk van de context, is het het waard om uit te voeren als het effect heel klein is?
o Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting)
Met het regressiemodel voorspellen wat de uitkomst is op de afhankelijke variabele
Je kan met deze regressiemodellen geen causaliteit vaststellen, daar zijn andere voorwaarden voor
nodig.
,E = het verschil tussen het proberen een nieuwe score te voorspellen met een score die je al
geobserveerd hebt. Voor elk individu is het geen perfecte voorspelling, er is residu een error. Hier
vang je de foutmarges op die je hebt in je model en de observatie in de realiteit. In een voorspelling
heb je de e niet nodig
Hoe kleiner de error, hoe groter de F, hoe kleiner de p (overschrijdingskans)
Meetniveaus variabelen:
- Ratio
- Interval
- Ordinaal
- Nominaal
Belangrijk om meetniveau vast te stellen, dan wijst zich uit welke analysetechniek daarbij hoort.
De vergelijking voor de geobserveerde variabele Y luidt:
Uitkomst (Y) = model (B0 + B1X1 + B2X2) + voorspellingsfout (E)
De vergelijking voor de voorspelde variabele Y luidt:
Geschatte uitkomst (Ŷ) = model (X’en)
o Y = afhankelijke variabele, ook wel dependant
o X = onafhankelijke variabele, ook wel predictors
o B0 = intercept/constant
o B1 = regressiecoëfficiënt, ook wel slope
o E = voorspellingsfout/error, ook wel error of residual
Voorspellingsfout in het model: afstand van tussen geobserveerde waarde en voorspelde waarde. Dit
is te meten van de lijn naar het geobserveerde punt. Die lijn trek je zo, dat de voorspellingsfouten zo
klein mogelijk zijn over de hele lijn heen en je probeert gemiddeld mogelijk correct te zijn. D.w.z. net
zo vaak een overschatting als onderschatting zodat je evenveel afstand boven als onder hebt. Dit is
ook de reden dat je het kwadratencriterium gebruikt.
Wat is het beste model?
Je probeert de residuen zo klein mogelijk te houden en gemiddeld correct te zijn, maar hoe goed is
dat model dan?
Dan kan je kijken naar de r2 goodness of fit.
Dit helpt met interpretatie van hoe goed dit model in absolute zin is. Nodig: totale kwadratensom en
kwadratensom van voorspellingsfout.
o SST = totale kwadratensom
o SSM = kwadratensom van rechte lijn (model)
o SSR = kwadratensom van voorspellingsfouten
o SST = SSM + SSR
Om te rekenen en een inschatting krijgen van hoe groot inschattingen zijn heb je kwadraten nodig.
Hoe is de verhouding tussen wat het model mij wel kan vertellen en wat het model mij niet kan
vertellen. Dit maakt uiteindelijk hoe goed een model is.
R squared linear wordt gegeven bij de lijn en is de verklaarde variantie in procenten.
, In een basismodel zitten verschillende punten en het beste om de waarde van een punt te schatten is
het gemiddelde te nemen van alle punten.
De afstand van zo’n punt tot de gemiddelde-lijn t = de totale deviatie
Wanneer er dan een lineair model bij komt kun je kijken naar de m = verklaarde deel en de r = residu.
Hiermee ga je kijken of het model beter is dan wat je had. Je komt wel dichter bij het punt, maar je zit
nog steeds fout. Er is een verhouding tussen wat het model heeft verklaard en wat het onverklaarde
deel is t.o.v. die nullijn (r). Dit kan voor alle datapunten, als je dit doet krijg je een inschatting van hoe
goed je model is.
opsplitsing waargenomen variatie 1
Voor die goodness-of-fit (R2) deel je de SSM / SST.
R2 kunnen we interpreteren als de hoeveelheid verklaarde variantie. D.w.z. hoeveel van die verschillen
op Y kan ik verklaren door de X’en. Dit is een proportie in verklaarde variantie door het model en ligt
daarom altijd tussen 0 en 1 en is een percentage. Als dit heel hoog is, heb je een goed model.
R is een multiple relatiecoëfficiënt: relatie tussen de voorspelde Y’jes en de Y’jes die je daadwerkelijk
geobserveerd.
Toetsen R2 en B’s
Je hebt een populatie en bepaalde hypothesen. Je wilt kijken naar de populatie maar kijkt niet naar
iedereen. Daarom trek je een steekproef. Op basis van de steekproef probeer je wat te zeggen over
de populatie. Vervolgens beschrijf je:
1. De verklaring van Y door alle X’en (de R2 )
2. Invloed van afzonderlijke X’en op Y (B’s)
Daarna kijk je naar je hypotheses.
1. Nulhypothese: dit model verklaart niets, geen relatie tussen onafhankelijke en afhankelijke
variabele
2. Alternatieve hypothese 1: R2 > 0, het regressiemodel verklaart de variatie in Y.
3. Alternatieve hypothese 2: B > 0 of B < 0, er is een effect van X op Y
Voorbeeld toetsen R2
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper MèrleKreuze03. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,99. Je zit daarna nergens aan vast.