College 1 - Regressieanalyse
Dit college enkelvoudige regressieanalyse en multipele regressieanalyse
Welk model?
Een afhankelijke variabele/ dependent variabele is een variabele
waarover in statistiek en wetenschappelijk onderzoek een
voorspelling wordt gedaan om hypotheses te toetsen.
Een onafhankelijke variabele/ independent variabele is een
variabele die gebruikt wordt om de voorspelling op te baseren.
Bijvoorbeeld intelligentie is een afhankelijke variabele. Je kan
onderzoeken welke factoren invloed (onafhankelijke factoren)
hebben op intelligentie.
Over het algemeen heb je vaak maar 1 afhankelijke variabele. Deze
afhankelijke variabele kan verschillende meetniveau’s hebben.
Meetniveau’s
DUM = dummy variabele = Een dummy variabele is een indicator-variabele die de waarde 0 of 1 kan hebben. De
waarde 0 betekend vaak dat het niet aanwezig is of niet van toepassing. 1 betekend vaak dat het wel aanwezig is en
dus van toepassing is.
Bijvoorbeeld geslacht: 0 = man, 1 = vrouw
NOM = nominale variabele = Een nominale variabele bestaat uit meerdere categorieën (waar geen verschil zit tussen de
categorieën). Het gaat slechts op het benoemen van de bijhorende waarde.
INT = interval variabele = Een interval variabele is een variabele met heel veel verschillende waarden. Vaak steken we
van ene interval variabel als er sprake is van 7 of meer categorieën.
Bijvoorbeeld lengte, gewicht, depressie
Verschil tussen enkelvoudige en multipele regressieanalyse
Bij een enkelvoudige regressieanalyse is er sprake van 1 voorspeller, ook wel 1 onafhankelijke variabele.
Bij een multipele regressieanalyse is er sprake van meerdere voorspellers, dus meerdere onafhankelijke variabele.
Zie dikgedrukte modellen.
Regressieanalyse
Een regressieanalyse wordt gebruikt om het effect te bepalen van een (of meerdere) variabelen, zoals lengte of leeftijd,
op een afhankelijke variabele.
Je kunt regressieanalyse gebruiken om:
1. Samenhang tussen 2 variabelen te bepalen
2. Verandering van de afhankelijke variabelen te voorspellen
3. Toekomstige waarden voorspellen
Er bestaan dus meerdere soorten regressieanalyses. Welke soort je gebruikt hangt dus af van het aantal variabelen
en het meetniveau waarop de variabelen gemeten zijn.
In veel onderzoekssituaties wordt er gebruikt gemaakt van intervalvariabelen. Dit betekent dat er veel verschillende
scores zijn voor verschillende individuen.
Bijvoorbeeld: lengte, gewicht, leeftijd, depressie, attitude, vaardigheidscodes op taal en rekenen etc
Vaak gaan we uit dat deze variabelen gerelateerd zijn. De relatie tussen variabel kan je onderzoeken binnen een
steekproef. Maar je kan ook de populatie onderzoeken.
Lineaire relatie
Een lijn wordt beschreven door een helling. Deze parameter geeft:
- De richting van de relatie weer
- Interpretatie aan de relatie
Er zijn alleen verschillende lijnen mogelijk.
,Spreidingsdiagram
De relatie tussen 2 variabelen kun je bekijken met een spreidingsdiagram / scatterplot. Hierbij plot je de scores van de
individuen tegen elkaar op de 2 verschillende variabelen.
Een spreidingsdiagram maken is altijd een eerste stap om te kijken naar wat voor
soort relatie het is.
Negatieve richting = hoge scores op de ene variabele gaan samen met lage
scores op de andere variabele. Afbeelding is sprake van negatieve richting.
Positieve richting = Hoge scores op de ene variabele gaan samen met hoge
scores op de andere variabele. Ook lage scores op de ene variabele gaan samen
met lage scores op de andere variabele.
Er zijn verschillende lijnen mogelijk in dit model om de relatie te weergeven. We moeten dus een lijn hebben die ook een
maat van sterkte van de relatie aangeeft. Dit kan je bereken door middel van de kleinste kwadratensom van de
residuen.
Hierbij neem je 1 variabel als referentiepunt, vaak de y variabele.
1. Bereken alle residuen = afstand van de punt tot de lijn.
2. Kwadrateer al deze residuen.
3. Tel deze gekwadrateerde residuen op.
4. Kies de lijn waarbij deze som zo klein mogelijk is.
De kleinste kwadratensom van residuen is uniek en dus is het ook een unieke lijn.
Pearson correlatie
De Pearson correlatie geeft een maat voor sterkte an de lineaire samenhang.
Analyze - Correlate - Bivariate
Bij de SPSS output krijg je een correlatie waarde met daarbij ook een t-toets.
Met de t-toets ga ja na of er iets gezegd kan worden over de populatie.
Nulhypothese bij t-toets : H0: r = 0 (geen relatie tussen de variabelen)
De p-waarde is kleiner dan 0,001 en die waarde maakt de kans klein dat de
nulhypothese waar is. Dus verwerp je de nulhypothese en daaruit kan je concluderen dat er een significante relatie is
tussen de variabelen.
Hoe sterk is deze relatie?
De kwadraat van de persons correlatie geeft een waarde voor de gemeenschappelijke variantie tussen variabelen. R2
Nulhypothesen verwerpen of aannemen?
H0: … = 0 —> geen relatie tussen …
Ha: … = geen 0 —> wel een relatie
Je kijkt dan op de gevonden p-waarde < is dan 0,05. Als dit zo is dan verwerp je de H0 en is er dus een significante
relatie.
Is de p-waarde > 0,05 dan neem de de H0 aan en is er dus geen relatie.
Statistisch model regressie analyse
y =β +βx+ε
i 0 1 i i
y = score op afhankelijke variabele y voor persoon i
i
x = score onafhankelijke variabele x voor persoon i
i
ε = residu (error, afwijking) = dit is het deel van de afhankelijke variabele dat niet verklaard kan worden door de verhalende variabele.
i
Hierdoor staat dit model spreiding toe rond de lijn. Mensen verschillen van elkaar dus niet alle punten hoeven op de lijn te liggen.
Regressiecoëfficiënten
β = intercept = startpunt van regressielijn : de zogenaamde constante.
0
β = helling (slope) = geeft de gemiddelde toename in Y aan waneer de verklarende variabele X met 1 toeneemt.
1
De regressiecoëfficiënten moeten geschat worden (uit de steekproef) met de kleinste kwadraten methode. Bij schattingen zit
onzekerheid en hier zitten meetfouten bij. De geschatte regressielijn is dan
b = schatter van β
0 0 yˆ i = b0 + b1 xi
b = schatter van β
1 1
,Regressieanalyse in SPSS
Analyze - Regression - Lineair
Er verschijnt een scherm waarin je onder Dependent: de afhankelijke variabele selecteert. Bij Independent(s) selecteer je
de verklarende variabele.
De output van een regressieanalyse bestaat uit drie onderdelen, namelijk de ‘model summary’, ‘ANOVA’ en
‘Coefficients’.
Model summary
Het eerste blok vermeldt de correlatiecoëfficiënt R en de determinatiecoëfficiënt
R2. De ‘R Squared’ geeft aan hoeveel van de variantie in de afhankelijke variabele
(gewicht) verklaard wordt door de verklarende variabelen.
Als je een meervoudige regressie uitvoert kijk je naar de ‘Adjusted R Square’ in
plaats van ‘R Square’ omdat meer verklarende variabelen altijd meer van de
variantie kunnen verklaren. De adjusted R2 corrigeert hiervoor.
Hoge R2
Als punten allemaal dicht bij regressielijn
• Veel kleine residuen:
• Hoge correlatie tussen variabelen (BDI en coping)
• Veel verklaarde variantie
Lage R2
Als punten verder weg van regressielijn
• Veel grote residuen:
• Lage correlatie tussen variabelen (BDI en coping)
• Minder verklaarde variantie
ANOVA
Het tweede blok toetst de significantie van het regressiemodel. Dat
laat zien hoe groot de kans is dat alle regressiecoëfficiënten in
werkelijkheid nul zijn en de uitkomsten van deze analyse dus op
toeval berusten.
Hiervoor wordt een F-toets uitgevoerd met vrijheidsgraden 1 (het
aantal verklarende variabelen) en 28 (het aantal observaties minus
het aantal verklarende variabelen minus één).
De kans om een waarde van 132,863 of groter te observeren met deze vrijheidsgraden is kleiner dan ,001, zoals af te
lezen in de ‘Sig.’-kolom. Daarom kunnen we concluderen dat dit regressiemodel significante verklarende variabelen
bevat.
Coefficients-tabel
Unstandardized coefficients:
waarde van b0 (= 54.3) bij Constant
waarde van b1 (= – 5.2) bij coping
Invullen in BDI = b0 + b1*coping geeft de geschatte regressievergelijking:
BDI = 54.3 – 5.2*coping. Hiermee kan je voorspellingen doen voor in de
toekomst door waardes in te vullen.
Om te testen of dit effect significant is, wordt er een t-toets uitgevoerd voor beide variabelen.
H0: β0 = 0 Er wordt getoetst of populatie intercept gelijk is aan 0.
t = 30.3, p < 0.001 —> intercept waarschijnlijk geen 0 in populatie
H0: β1 = 0. Er wordt getoetst of populatie regressiecoeffcicient gelijk is aan 0.
t = –16.7, p < 0.001 —> waarschijnlijk geen 0 in populatie en dus zeer waarschijnlijk dat coping een voorspelling is van
BDI
Standardized coefficients : waarden van coëfficiënten als alle variabelen gestandaardiseerd zijn. Dit betekend dat je ze
een gemiddelde van 0 geeft en een standaarddeviatie van 1. Hierdoor zijn verschillende variabelen vergelijkbaar als je
meerdere voorspellers hebt op verschillende schalen.
Als je maar 1 voorspeller hebt, zoals in dit voorbeeld, dan is de Beta gelijk aan de correlatie.
, Assumpties regressieanalyse
Deze assumpties heb je nodig om iets te kunnen zeggen over de populatie, deze kan je niet direct observeren.
1. De relatie tussen de afhankelijke en de onafhankelijke variabelen is lineair.
• Checken met spreidingsdiagram.
2. De residuen zijn normaal verdeeld
• Checken met histogram van de residuen
3. Homoscedasticiteit
• Checken met spreidingsdiagram van voorspelde waarden tegen gestandaardiseerde residuen.
4. Residuen zijn onafhankelijk / de score van de participanten zijn onafhankelijk
• Moeilijk te checken
Als assumpties niet lijken op te gaan
- Geen effect op schattingen regressiecoëfficiënten
- Beïnvloedt p-waardes (en eventueel conclusies)
- Beïnvloedt standaardfouten van coëfficiënten
- Beïnvloedt f en t waardes
p = 0.046 kan leiden tot ten onrechte verwerping van H0 (Type I fout)
Homoscedasticiteit
= Voor alle waarden van x hebben de punten verticaal dezelfde spreiding
In alle data wel lichte vorm van heteroscedasticiteit aanwezig (als het maar niet te ernstig is).
Residuen normaal verdeeld
Lineariteit en homoscedasticiteit
Checken met spreidingsdiagram van voorspelde waarden tegen gestandaardiseerde residuen. Assumptie aannemen als
de residuen random verspreid rond de lijn 0 liggen.
Niet-lineariteit en heteroscedasticiteit
Niet lineair Wel lineair
Wel homoscedastisch Heteroscedastisch
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper yulaschreuder. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,49. Je zit daarna nergens aan vast.