Regression and Correlation Methods
Introductie → wat zullen we in dit hoofdstuk bespreken?
1. Methoden van regressie- en correlatieanalyse waarbij 2 verschillende variabelen binnen dezelfde steekproef met
elkaar in verband worden gebracht.
2. Meervoudige regressie-analyse, waarbij de relatie tussen meer dan 2 variabelen tegelijkertijd wordt bekeken.
3. Lineaire regressiemethoden, waarin we leren hoe we een uitkomstvariabele y lineair kunnen relateren aan één of
meer voorspeller-variabelen (x_1, ..., x_k), waarbij de x-variabelen zowel continu als categorisch kunnen zijn.
General Concepts
Als x het estriolniveau is en y het geboortegewicht, dan kunnen we een lineaire relatie tussen
y en x postuleren: E(y|x) = a + bx
De regressielijn wordt dan uitgedrukt als: y = a + bx
Waarbij:
- a: het intercept is (de plaats waar de lijn de y-as snijdt, oftewel het voorspelde
geboortegewicht bij een estriolniveau van 0),
- b: de helling is (hoeveel het geboortegewicht verandert per eenheid toename in
estriolniveau),
- x: de onafhankelijke variabele (estriolniveau),
- y: de afhankelijke variabele (geboortegewicht).
→ Hiermee kun je y (geboortegewicht) voorspellen als een functie van x (estriolniveau).
→Om een rechte lijn te fitten tussen het estradiolniveau (X) en geboortegewicht (Y in gram) kun je een lineaire
regressie uitvoeren:
1. Data voorbereiden: Vermenigvuldig geboortegewichten met 100 om mg → gram
2. Regressieformule: De rechte heeft de vorm Y = a + bX, waarbij:
- Y het geboortegewicht is
- X het estradiolniveau,
- a het intercept is (waar de rechte de Y-as snijdt),
- b de helling van de lijn is (de verandering in geboortegewicht per eenheid estradiol).
3. Fitten: Gebruik een methode zoals least squares om de best passende lijn te berekenen. Het intercept a is het punt
waar de lijn de Y-as snijdt (dus bij X = 0).
De formule y = a + bx geeft een schatting van het geboortegewicht op basis van het estriolniveau. Omdat deze relatie
niet perfect is voor elke vrouw, voegen we een foutterm e toe aan de vergelijking om de variabiliteit te verklaren: y = a +
bx + e
→ De foutterm e vertegenwoordigt het verschil tussen het voorspelde gewicht en het werkelijke gewicht. Bv. als het
voorspelde gewicht van de baby 2,3 kg is, maar de baby in werkelijkheid 2,6 kg weegt,
→ fout e = 2,6 - 2,3 = 0,3 kg.
→Deze foutterm is normaal verdeeld met een gemiddelde van 0, wat betekent dat sommige voorspellingen hoger en
sommige lager dan de werkelijke waarde kunnen zijn, maar de afwijkingen compenseren elkaar gemiddeld.
• Foutterm e: Normaal verdeeld met gemiddelde 0 en variantie σ2, wat betekent dat de voorspelde waarden
rondom de werkelijke waarden liggen. Sommige voorspellingen zullen te hoog zijn, anderen te laag, maar
gemiddeld is het verschil nul.
• Variantie σ2: Hoe kleiner de variantie, hoe dichter de voorspellingen bij de werkelijke waarden liggen.
• Normale verdeling: Een veelvoorkomende kansverdeling, met een klokvorm waarbij de meeste waarden
rond het gemiddelde liggen. De kans op extreme waarden neemt af naarmate de afstand tot het
gemiddelde groter wordt.
In een grafiek met Gauss-curves van verschillende datasets kan de vorm dezelfde zijn, maar de spreiding
(variantie) kan verschillen.
Belangrijke eigenschappen van de normale verdeling:
- Symmetrisch: rond het gemiddelde.
- Gemiddelde = Mediaan = Modus: De piek van de verdeling ligt bij het gemiddelde.
- 68-95-99.7 regel: Ongeveer 68% van de waarden ligt binnen één standaardafwijking van het gemiddelde, 95%
binnen twee standaardafwijkingen, en 99.7% binnen drie.
→ De foutterm e wordt verondersteld deze eigenschappen te volgen in het regressiemodel, wat betekent dat de
afwijkingen van de voorspellingen normaal verdeeld zijn.
Fitting Regression Lines—The Method of Least Squares
De kleinste-kwadratenlijn, of geschatte regressielijn, is de lijn y = a + bx die de som van de
gekwadrateerde afstanden van de steekproefpunten tot de lijn minimaliseert. Deze afstanden
zijn de verticale verschillen tussen de werkelijke waarden van y en de voorspelde waarden
door het model.
De methode van kleinste kwadraten werkt door:
1. Voor elk punt in de data de verticale afwijking (fout) van de lijn te berekenen: ei = yi - (a + bxi)
2. Vervolgens kwadrateert men deze afwijkingen: ei^2. Dit kwadrateren zorgt ervoor dat positieve en negatieve
afwijkingen elkaar niet opheffen.
,3. Daarna worden alle gekwadrateerde afwijkingen bij elkaar opgeteld: sum e_i^2.
The raw sum of squares for x : (formules staan in formularium)
The corrected sum of squares for x :
4. De parameters a (het intercept) en b (de helling) worden gekozen zodat deze som van de kwadraten minimaal is.
Deze techniek, bekend als de methode van de kleinste kwadraten, zorgt ervoor dat de regressielijn zo goed mogelijk
past bij de data door de fouten (afstanden) tussen de waargenomen en voorspelde waarden zo klein mogelijk te maken.
Dit proces omvat de volgende stappen:
1. Definities:
o Laat xi het hormoonniveau zijn.
o Laat yi het werkelijke geboortegewicht zijn.
o Laat ^yi het voorspelde geboortegewicht zijn.
2. Foutenterm e: De afwijking (fout) voor elk datapunt kan worden gedefinieerd als:
Hier is di positief als het voorspelde gewicht onder het werkelijke gewicht ligt en negatief als het daarboven ligt.
3.Som van de afwijkingen: We willen de som van deze afwijkingen zo klein mogelijk maken. In plaats van direct met di
te werken, maken we ze allemaal positief door te kwadrateren:
4.Kleinste kwadraten: De totale fout wordt dan de som van de gekwadrateerde afwijkingen:
→Het doel is om deze totale fout te minimaliseren.
5.Bepaling van intercept en helling: Door de waarden van a (intercept) en b (helling) te optimaliseren, kun je de beste
rechte lijn vinden die door de gegevens past. De optimale waarden zorgen ervoor dat de som van de gekwadrateerde
afwijkingen zo klein mogelijk is.
Door deze stappen te volgen, vind je de waarden voor a en b die de beste schatting geven van het geboortegewicht op
basis van het hormoonniveau, met de kleinste foutenterm.
The raw sum of cross products :
The corrected sum of cross products :
→ som maken van eerste observatie tot laatste. n = 32 zwangere vrouwen. (1e deel van formule)
→ gelijkaardig ook voor y-waardes. (2e deel van formule)
Er kan worden aangetoond dat een korte vorm voor de gecorrigeerde som van kruisproducten wordt gegeven door
Estimation of Least-Squares Line
The coefficients van de ‘least-squares line’ y = a + bx gegeven door b = Lxy/Lxx (b = concrete berekende waarde)
Soms wordt de lijn y = a + bx de geschatte regressielijn of regressielijn genoemd.
Eens je b kent, kan je vervolgens a berekenen.
Voorbeeld (EXAMEN!) → schrijf vergelijking van rechte op
• Video: Hoe maken we een regressielijn met de losse hand?
1) Ga naar de gegevens (tabel 11.1 (op examen obv 3 punten, eerste 3 rijen).
a. Gebruik je meer dan 3 rijen → Gebruik Excel
2) Bereken Lxx, Lxy en Lyy
3) Y = a + bx met slope b = Lxy/Lxx
4) Intercept a = y(avg) – b . x(avg) → met avg = average
5) Bereken vervolgens mbv formularium.
• Hoe maken we een regressielijn in Excel?
1) x = oestriol en y = birthweight
2) =average (select all the X) → 17 (paars)
3) =average (select all the Y) → 32 (blauw)
4) =7 -17 = -10 → Sleep tot onder voor de hele kolom
5) Zelfde voor y: 25 – 32 = -7 → sleep tot onder voor de hele kolom
6) =(select xi – xavg)^2 → sleep tot onder voor de hele kolom
7) Zelfde voor y: (select yi – yavg)^2
8) Vermenigvuldig de kolommen met elkaar (oranje)
9) Lxy = som van alle waardes uit stap 8 (rood)
10) Vermenigvuldig de kolommen met elkaar (oranje) = 412 = Lxy
11) Vermenigvuldig de kolommen met elkaar (groen) = 679 = Lxx
12) Slope b = 412/679 = 0,608
13) Intercept a = y avg – slope b * x avg = 21,54
, Voorbeeld
Toepassing: Identificeren van vrouwen die een baby met een laag geboortegewicht dragen
De regressievergelijking is: y = 21.52 + 0.608x → = a + bx
Interpretatie van de helling b = 0.608: (slope = snelheid van stijgen of dalen)
- De helling b geeft aan dat voor elke toename van 1 mg/24 uur in het estriolniveau, het voorspelde geboortegewicht y
met ongeveer 0,61 eenheden toeneemt.
De voorspelde of gemiddelde waarde van y voor een gegeven waarde van x, zoals geschat op basis van de aangepaste
regressielijn, wordt aangegeven door ^y = a + bx
Poll 1:
y = 21,52 + 0,608x
met y = geboortegewicht (in hg) en x = estriolniveau (in mg/24 uur)
Wat is het voorspelde geboortegewicht als een zwangere vrouw een estriolniveau van 10 mg/24 uur heeft?
→ x vervangen door 10 → y berekenen
Poll 2:
y = 21,52 + 0,608x
met y = geboortegewicht (in hg) en x = estriolniveau (in mg/24 uur)
Voor welk estriolniveau zou het voorspelde geboortegewicht 4,5 kg (45hg) zijn?
→ y = 4,5 naar juiste eenheid dus 45 en x = 21 overbengen en dan delen door 0,6
Inferences about parameters from regression lines
Het punt (x, y) valt op de regressielijn. Bewijs? Is het nuttig om experiment te fitten, experiment herhalen en bevestigen
dat we te maken hebben met een stijgende richting.
→ Moeten conclusie trekken over significantie van a (richtingscoëfficiënt).
Dus bv. de 0,6 dat we als b hadden, is die significant? Geen groot getal, dus kan zijn dat het niet significant verschillend
is van 0.
→ Grootte van getal zegt niets over significantie van getal!!
1) Eerst hypothese test afleiden!
H0: Beta = 0 → volgt een bepaalde verdeling
H1 Beta ≠ 0
2) Kijken naar de P (kans) dat H0 zich voordoet → klein? < 0,5
Dan toeval. Niet geloven dat hyptohese H0 correct is → verwerpen!
► Voor elk steekproefpunt (xi,yi) wordt het residu of de residucomponent van dat punt rond de regressielijn
gedefinieerd door yi – ÿi . Dus voor elk punt!
3 componenten (kaders), geeft fouten
weer. Dat willen we niet graag…
- we willen dat residual component zo klein mogelijk.
- Gevolg: regression component moet zo groot mogelijk zijn!
→ regression/residual = groot/klein = breuk groot → p-waarde met H0 hypothese verworpen kan worden.
Voor elk steekproefpunt (xi,yi) wordt het residu of de residucomponent van dat punt rond de regressielijn gedefinieerd
door yi – .
Voor elk steekproefpunt (xi,yi) wordt de regressiecomponent van dat punt rond de regressielijn gedefinieerd door – y.
rechts onder: niet ideaal → kleine breuk
Links boven: ideaal → grote breuk
Rechts boven: tussenin
Links onder: tussenin
De regressiesom van de kwadraten of Reg SS = de som van de kwadraten van de regressiecomponenten:
Ontleding van de totale som van de kwadraten in regressie- en restcomponenten:
De totale som van de kwadraten (Total SS) wordt opgesplitst in:
- Regressiesom van de kwadraten (Reg SS): verklaarde variatie door het model.
- Restsom van de kwadraten (Res SS): onverklaarde variatie (residuen).
Formule: Total SS (DIT IS LYY) = Reg SS + Res SS
, F Test for Simple Linear Regression
Goodness-of-fit = de regressiesom van kwadraten gedeeld door de residuele som van kwadraten. (Hoe goed is de
rechte, significant of niet?)
• Regressiegemiddelde kwadraten, of Reg MS = Reg SS/k met k het aantal voorspellende variabelen in het model
(exclusief de constante), ook bekend als de vrijheidsgraden voor de regressiesom van kwadraten of Reg df.
• Residugemiddelde kwadraten, of Res MS = Res SS/(n – k - 1) = S2y,x met n het aantal observaties in de steekproef
(n – k - 1) is ook bekend als de vrijheidsgraden voor de residuele som van kwadraten of Res df.
• Regressiegemiddelde kwadraten, of Reg MS = Reg SS/k met k het aantal voorspellende variabelen in het model
(exclusief de constante), ook bekend als de vrijheidsgraden voor de regressiesom van kwadraten of Reg df.
• Resultaatgemiddelde kwadraten, of Res MS = Res SS/(n – k - 1) = s2y.x met n het aantal observaties in de steekproef
(n – k - 1) is ook bekend als de vrijheidsgraden voor de residuele som van kwadraten of Res df.
k = aantal x-variabelen
Hypothese test → F-test
𝛽 𝛽
Definition p-value
De p-waarde kan ook worden beschouwd als de waarschijnlijkheid om een teststatistiek te verkrijgen die even
extreem/extremer is dan de daadwerkelijk verkregen teststatistiek, uitgaande dat de 0-hypothese waar is.
Short Computational Form for Reg SS and Res SS
! EX; 3 kolommen met x en y bv bloeddruk vs leeftijd. Uit opgave uithalen wat x en y is. Zelf aan slag om alpha en beta
te berekenen. Daaruit Lxy,… en vervolgens F berekenen. → vertrokken om hypothese test uit te voeren. (zie oefening
eerder uitgevoerd)
Reg SS = L2xy/Lxx
Total SS = Lyy
Res SS = Total SS – Reg SS = Lyy – L2xy/Lxx
So to compute the test statistic:
Back to example Obstetrics → significantie van regessielijn testen
We testen de goodness-of-fit door de significantie van de
regressielijn te testen. Dus we testen of β (de helling) significant
verschilt van nul.
𝛽 𝛽
→ Kijk in tabel