Hoofdstuk 9: Lineaire Regressie en Correlatie
In de statistiek beschrijven parameters de populatie. Hiervoor wordt het Griekse alfabet
gebruikt. Statistieken beschrijven de steekproef, ook wel de geschatte parameter. Voor
statistieken worden ‘gewone’ lettertekens gebruikt.
In lineaire relaties is y de afhankelijke en x de onafhankelijke variabele. De formule
y = a + bx laat het lineair verband zien tussen y en x, waarbij a (α, alfa) de constante is en b
(β, beta) de coëf ciënt voor de helling - de verandering in y in standaarddeviaties voor een
stijging van één eenheid in x. Die relatie is positief wanneer β >0, negatief bij β<0 en
onveranderlijk bij β=0.
Voorspelfouten worden ook wel residuen genoemd. Een residu voor een enkele
observatie is gelijk aan y - ŷ. In een spreidingsdiagram is dit de afstand tussen een punt en de
regressielijn. De grote van de residuen noemen we de ‘Sum of Squared Values’ (SSE), ofwel
de ‘som der kwadraten’: SSE = ∑(y - ŷ)². Hoe kleiner de residuen, hoe kleiner de SSE, hoe
preciezer de schatting. De regressielijn heeft positieve en negatieve residuen maar de som en
het gemiddelde zijn gelijk aan 0. Daarnaast gaat de lijn door de gemiddelden van y en x.
Het lineaire regressiemodel is deterministisch: voor elke waarde van x bestaat een vaste
waarde van y. In de sociale wetenschap is dit niet realistisch omdat niet alle subjecten met
dezelfde x-waarde ook dezelfde waarde op y zullen hebben: y varieert. Een probabilistisch
model houdt hier wel rekening mee door de lineaire functie (E )y = a + bx te gebruiken en het
gemiddelde van y te voorspellen in plaats van y als directe afgeleide van x, waarbij (E) staat
voor ‘expected value’.
Het lineair regressiemodel kent de parameter σ
n
(sigma), de conditionele standaarddeviatie. Dit is een ∑ (yi − yî )2
SSE
meting van de variabiliteit van de y-waarden voor alle s = = i=1
subjecten met dezelfde x-waarde. Een kleine σ-waarde n−2 n−2
duidt op een nauwkeurig model waarbij de y-waarden voor
Schatting van de conditionele
elke x-waarde dicht bij het gemiddelde liggen: de relatie standaarddeviatie
tussen x en y is dan zeer consistent.
SAMENVATTING STATISTIEK 2 1
, Je kunt dus σ gebruiken om een inschatting maken
van de betrouwbaarheid van het model, waarbij het
model beter is in het schatten van y naarmate σ kleiner
wordt. De statistiek voor σ is standaarddeviatie s. In de
formule is het stukje n - 2 het aantal vrijheidsgraden,
‘degrees of freedom’ of ‘df ’. Wanneer een regressiemodel
p parameters heeft is df gelijk aan n - p. In (ANOVA) tabel 9.4 is s² = .024, waaruit s is af te
leiden door een wortel te trekken. SSE is de Residual Sum of Squares = 11.66. In de formule
voor de populatie standaarddeviatie is de teller de ‘total sum of squares’ of TSS. In tabel 9.4
is die gelijk aan 15,29. De TSS bevat de variabiliteit rond de observaties van
y . SSE bevat de variabiliteit rond de gehele vergelijking met x.
Hellingscoef cient b vertelt ons over de richting van het lineair
verband, maar niets over de sterkte daarvan. De correlatie kan dat wel. De
correlatie tussen variabelen x en y is gelijk aan r en is als het ware een
gestandaardiseerde vorm van de helling. Correlatiecoëf ciënt kun je
berekenen door de standaarddeviatie van x te delen door die van y en
te vermenigvuldigen met helling b. De correlatie:
1. …is alleen valide bij een lineair model van de relatie tussen Sy
twee variabelen.
2. …valt tussen -1 en 1, waarbij het verband positief is bij r<0 en
positief bij r>0.
3. …is 0 wanneer b = 0. Hierbij is dan geen sprake van een Sx
verband tussen variabelen.
4. …is 1 wanneer alle datapunten precies op de regressielijn passen.
5. …hangt niet af van het soort eenheid van de variabelen.
Een andere manier om correlatie te meten kan met de aan r gerelateerde r²: de
verklaarde variantie of proportionele reductie in voorspelfouten. Hiermee wordt vergeleken
in hoeverre het lineair model beter wordt wanneer er een onafhankelijke x variabele wordt
toegevoegd. Het gaat hier om twee regels:
1. Wanneer y wordt geschat zonder x variabele, is de beste voorspeller voor y het
steekproefgemiddelde ȳ.
2. Wanneer de relatie tussen x en y lineair is, is de vergelijking (E )y = a + bx de beste
voorspeller voor y.
De verklaarde variantie r² wordt berekend als volgt:
Hierin is E1 de som van fouten voor het
voorspelde gemiddelde van y en E2 de som van
fouten voor het voorspelde gemiddelde van y,
gegeven x.
SAMENVATTING STATISTIEK 2 2
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller leonvanesveld6. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.36. You're not tied to anything after your purchase.