Chapter 9 – Linear Regression and Correlation
Bij een regressieanalyse kijk je naar drie dingen:
1. Of er een verband is tussen de variabelen.
2. Hoe sterk dit verband is.
3. Of een en welke regressieformule de afhankelijke variabele kan voorspellen
9.1 Linear Relationships
Linear Functions: Interpreting The Y-Intercept and Slope
Een lineaire formule beschrijft hoe y relateert aan x y=α + βx (α=y-intercept; β=helling)
Het verband tussen de variabelen kan positief of negatief zijn, afhankelijk van β. Als β=0 geldt dat er
geen verband is tussen x en y.
Models Are Simple Approximations For Reality
Wanneer de geschatte lineaire formule beter y kan voorspellen, heb je een beter model.
Associatie is niet hetzelfde als causatie.
9.2 Least Squares Prediciton Equation
A Scatterplot Portrays the Data
Scatterplot = een grafiek met alle observaties als puntjes; Hiermee kan je checken of het verband
tussen twee variabelen lineair is
∑( x−x )( y− y )
Prediction equation = ^y =a+bx met: b= 2 a= y−b x
∑ ( x−x)
Effect of Outliers on the Prediction Equation
Uitbijters hebben invloed op de schattingsformule, als je ze weg zou halen, verandert dit de formule.
Prediction Errors are Called Residuals
Prediction error = het verschil tussen de werkelijke y-waarde en de geschatte y-waarde; de verticale
afstand tussen de regressielijn en het werkelijke punt in de scatterplot
Prediction Equation has Least Squares Property
SSE=∑ ( y− y )2 = som van de gekwadrateerde fouten
De kleinste som van de gekwadrateerde fouten geeft de waarden van a en b van de regressielijn. De
som van de residuen is altijd 0. De regressielijn gaat door punt ( x , y ).
9.3 The Linear Regression Model
Een probability distribution is niet deterministisch, het gaat om een conditionele distributie
(probabilistisch model). Dit houdt in dat er voor elke waarde van x meerdere y-waarden mogelijk zijn.
Linear Regression Function
E ( y )=α + βx Deze formule berekent het gemiddelde van de y-waarden voor een bepaalde
waarde van x. Dit is een lineaire regressieformule.
^y =a+bx berekent het gemiddelde in de steekproef.
Describing Variation About the Regression Line
σ = conditionele standaarddeviatie; meet de variabiliteit van de y-waarden voor elke x-waarde
Assumptie: de conditionele distributies van y zijn normaal bij elke x-waarde.
,Residual Mean Square: Estimating Conditional Variation
√ √
2
SSE ∑( y− y ) Dit is de schatting van σ.
s= =
n−2 n−2
N-2 = df = degrees of freedom je doet min 2 omdat er twee parameters zijn (α & β).
Conditional Variation Tends to be Less Than Marginal Variation
Bij de marginale distributie gaat het alleen om y ( s y ∧σ y ), bij de conditionele distributie gaat het
y-waarden bij een bepaalde x-waarde ( s yx ∧σ yx ). De marginale distributie is vaak groter dan de
conditionele distributie.
9.4 Measuring Lineair Association: The Correlation
The Slope and Strength of Association
De helling vertelt ons de richting van de associatie, maar niet hoe sterk deze is.
The Correlation
( )
√ ∑ ( x −x )2
∑( x−x )( y− y ) n−1 sx
r= r= b=( )b
√ [ ∑( x−x) ] [ ∑( y − y) ]
√
2 2
∑( y− y)
2 sy
n−1
De correlatie wordt ook wel de gestandaardiseerde regressie-coëfficiënt of de Pearson correlatie
genoemd.
Properties of the Correlation
- De correlatie is alleen valide wanneer er sprake is van een lineair verband.
- De correlatie valt tussen -1 en +1
- Als b positief is, is r ook positief; als b negatief is, is r ook negatief.
- Als r=0 geldt b=0
- Als r=1 is er sprake van een perfecte lineaire associatie, er is dan geen prediction error.
- Hoe groter de waarde van r, hoe sterkter de lineaire associatie.
- De correlatie van y om x te voorspellen, is gelijk aan die van x om y te voorspellen.
- De waarde van r is onafhankelijk van de eenheden van de variabele.
Correlation Implies Regression Toward the Mean
Regressie naar het gemiddelde = wanneer je x verhoogt met s x, verandert y met r∗s y .
R is lager dan 1, dus valt is lager dan 1, dus valt y minder standaarddeviaties van het gemiddelde dan
x. Een enkele standaarddeviatie verandering in x, is gelijk aan een verwachte verandering van r
standaarddeviaties in y.
R-Squared: Proportional Reduction in Prediction Error
2
De som van gekwadrateerde fouten ( E2=∑( y − ^y ) ) is kleiner wanneer je rekening houdt met x
( ^y → E 2), dan wanneer je dat niet doet ( y → E 2) als er een lineaire associaties is tussen x en y.
E1 −E2 TSS−SSE
r 2= = . TSS= total sum of squares
E1 TSS
Properties of r-Squared
- r2 valt tussen 0 en 1.
- Wanneer SSE 0 is, is r2 1
- Wanneer b=0, geldt r2=0
, - r2 meet de sterkte van de associatie
- r2 is onafhankelijk van de eenheden van de variabele
Sums of Squares Describe Conditional and Marginal Variability
R2 geeft het percentage van de verklaarde variantie aan, maar het is makkelijker om r te
interpreteren.
9.5 Inferences for the Slope and Correlation
Assumptions for Statistical Inference
- Randomisatie
- Het gemiddelde van y is gerelateerd aan x door: E ( y )=α + βx
- De conditionele standaarddeviatie σ is identiek voor elke waarde van x (kleinste kwadraatfout).
- De conditionele distributie van y is normaal bij elke x-waarde.
Test of Independence Using Slope or Correlation
√
b s SSE
t= se= s=
se √∑( x−x)2
n−2
r
t=
√
2
1−r
n−2
Confidence Interval for the Slope and Correlation
Een betrouwbaarheidsinterval voor β heeft de formule: b ± t(se ).
Een betrouwbaarheidsinterval berekenen voor de correlatie is moeilijker, omdat deze verdeling niet
symmetrisch is.
Sums of Squares in Software Output
9.6 Model Assumptions and Violations
Which Assumptions are Important?
De assumpties van randomisatie en de lineariteit zijn erg belangrijk. Voor de assumpties van
normaliteit en gelijkheid van de conditionele distributies geldt dat deze meestal niet volledig juist
zijn, maar dit is niet heel erg.
Influential Observations
Wanneer er een ernstige uitbijter is, moet er gekeken worden hoe dit komt, omdat deze veel invloed
heeft op de regressielijn.
Factors Influencing the Correlation
De range van x-waarden heeft ook invloed op de correlatie, wanneer deze veel kleiner is dan in de
populatie, wordt de correlatie onderschat.
Extrapolation is Dangerous
Het is niet logisch om een geschatte regressielijn toe te passen op waarden van x buiten de
geobserveerde waarden, omdat het verband daar misschien niet meer lineair is. Het is ook niet zo
dat, wanneer er een positieve relatie is tussen x en y en tussen y en z, dat er dan ook een positieve
relatie is tussen x en z.
Regression Model with Error Terms
y=α + βx +ε ε geeft deviatie van de observatie van het gemiddelde weer = error term