Hoofdstuk 9: Lineaire Regressie en Correlatie
In de statistiek beschrijven parameters de populatie. Hiervoor wordt het Griekse alfabet
gebruikt. Statistieken beschrijven de steekproef, ook wel de geschatte parameter. Voor
statistieken worden ‘gewone’ lettertekens gebruikt.
In lineaire relaties is y de afhankelijke en x de onafhankelijke variabele. De formule
y = a + bx laat het lineair verband zien tussen y en x, waarbij a (α, alfa) de constante is en b
(β, beta) de coëf ciënt voor de helling - de verandering in y in standaarddeviaties voor een
stijging van één eenheid in x. Die relatie is positief wanneer β >0, negatief bij β<0 en
onveranderlijk bij β=0.
Voorspelfouten worden ook wel residuen genoemd. Een residu voor een enkele
observatie is gelijk aan y - ŷ. In een spreidingsdiagram is dit de afstand tussen een punt en de
regressielijn. De grote van de residuen noemen we de ‘Sum of Squared Values’ (SSE), ofwel
de ‘som der kwadraten’: SSE = ∑(y - ŷ)². Hoe kleiner de residuen, hoe kleiner de SSE, hoe
preciezer de schatting. De regressielijn heeft positieve en negatieve residuen maar de som en
het gemiddelde zijn gelijk aan 0. Daarnaast gaat de lijn door de gemiddelden van y en x.
Het lineaire regressiemodel is deterministisch: voor elke waarde van x bestaat een vaste
waarde van y. In de sociale wetenschap is dit niet realistisch omdat niet alle subjecten met
dezelfde x-waarde ook dezelfde waarde op y zullen hebben: y varieert. Een probabilistisch
model houdt hier wel rekening mee door de lineaire functie (E )y = a + bx te gebruiken en het
gemiddelde van y te voorspellen in plaats van y als directe afgeleide van x, waarbij (E) staat
voor ‘expected value’.
Het lineair regressiemodel kent de parameter σ
n
(sigma), de conditionele standaarddeviatie. Dit is een ∑ (yi − yî )2
SSE
meting van de variabiliteit van de y-waarden voor alle s = = i=1
subjecten met dezelfde x-waarde. Een kleine σ-waarde n−2 n−2
duidt op een nauwkeurig model waarbij de y-waarden voor
Schatting van de conditionele
elke x-waarde dicht bij het gemiddelde liggen: de relatie standaarddeviatie
tussen x en y is dan zeer consistent.
SAMENVATTING STATISTIEK 2 1
, Je kunt dus σ gebruiken om een inschatting maken
van de betrouwbaarheid van het model, waarbij het
model beter is in het schatten van y naarmate σ kleiner
wordt. De statistiek voor σ is standaarddeviatie s. In de
formule is het stukje n - 2 het aantal vrijheidsgraden,
‘degrees of freedom’ of ‘df ’. Wanneer een regressiemodel
p parameters heeft is df gelijk aan n - p. In (ANOVA) tabel 9.4 is s² = .024, waaruit s is af te
leiden door een wortel te trekken. SSE is de Residual Sum of Squares = 11.66. In de formule
voor de populatie standaarddeviatie is de teller de ‘total sum of squares’ of TSS. In tabel 9.4
is die gelijk aan 15,29. De TSS bevat de variabiliteit rond de observaties van
y . SSE bevat de variabiliteit rond de gehele vergelijking met x.
Hellingscoef cient b vertelt ons over de richting van het lineair
verband, maar niets over de sterkte daarvan. De correlatie kan dat wel. De
correlatie tussen variabelen x en y is gelijk aan r en is als het ware een
gestandaardiseerde vorm van de helling. Correlatiecoëf ciënt kun je
berekenen door de standaarddeviatie van x te delen door die van y en
te vermenigvuldigen met helling b. De correlatie:
1. …is alleen valide bij een lineair model van de relatie tussen Sy
twee variabelen.
2. …valt tussen -1 en 1, waarbij het verband positief is bij r<0 en
positief bij r>0.
3. …is 0 wanneer b = 0. Hierbij is dan geen sprake van een Sx
verband tussen variabelen.
4. …is 1 wanneer alle datapunten precies op de regressielijn passen.
5. …hangt niet af van het soort eenheid van de variabelen.
Een andere manier om correlatie te meten kan met de aan r gerelateerde r²: de
verklaarde variantie of proportionele reductie in voorspelfouten. Hiermee wordt vergeleken
in hoeverre het lineair model beter wordt wanneer er een onafhankelijke x variabele wordt
toegevoegd. Het gaat hier om twee regels:
1. Wanneer y wordt geschat zonder x variabele, is de beste voorspeller voor y het
steekproefgemiddelde ȳ.
2. Wanneer de relatie tussen x en y lineair is, is de vergelijking (E )y = a + bx de beste
voorspeller voor y.
De verklaarde variantie r² wordt berekend als volgt:
Hierin is E1 de som van fouten voor het
voorspelde gemiddelde van y en E2 de som van
fouten voor het voorspelde gemiddelde van y,
gegeven x.
SAMENVATTING STATISTIEK 2 2
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper leonvanesveld6. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €5,92. Je zit daarna nergens aan vast.