PART 1: INTRODUCTORY MATERIAL
PART 2: ANALYSIS OF CONTINUOUS OUTCOMES
3. SIMPLE LINEAR REGRESSION SL.18
INTRODUCTION
Het verband tussen de ernst van de hoofdpijn (X = Pk1 = continu) en de verandering (Y = change = continu) van de ernst score na 1 jaar?
o Scatterplot + pearson correlatie
o p < 0,05 (sign)
o r = 0,3679 meet het lineaire verband (positief)
o Lineaire regressie: y = β0 + β1 x.
§ Rechte die het best aansluit bij de bekomen observaties
§ Positeve helling: β1 > 0, β1 stijgt sneller
§ Negatieve helling: β1 < 0, β1 daalt sneller
THE METHOD OF LEAST SQUARES
Deze methode dient om de parameters in te schatten (β0 en β1) om de beste rechte te bekomen.
o Voorspellen van de waarde y die hoort bij waarde x
o Q = ∑i [yi - y î ]^2 = ∑i [yi - (β0 + β1 x)]^2
o Deze formule meet hoe goed de rechte gekozen is
o Als deze nauwkeurig is dan zal de waarde van y heel dicht liggen bij ^y
o Als Q dus klein is dan is de y-waarde accuraat voorspeld adhv de rechte
Kleinste kwadratische methode berekent de warden van β0 en β1 voor welke Q minimaal is
o β1
̂ = (∑i (xi - x) (yi - y))/(∑i (xi - x)^2 )
o β0̂ =y-β1 ̂ x
o β0 ̂ en β 1
̂ (hoedje) zijn de kleinste kwadraten schatters van β0 en β1
Regressielijn: y = β 0
̂ +β1
̂ x
o Indien de schatters gekend zijn kunnen we een voorspelling maken voor elke observarie van de data set voor y gebaseerd op x
o y î = β 0
̂ +β1
̂ xi
o In het ideale geval is deze waarde exact gelijk aan de voorspelde waarde
We kunnen daarbij een fout maken door yi te voorspellen adhv yî = error
o Residuen: ei = yi - y î = yi - (β 0
̂ +β1
̂ xi )
o ei > 0 de waargenomen yi ligt boven de regressielijn
o ei = 0 op de regressie lijn
o ei < 0 ligt onder de regressielijn
o ∑i ei = 0, d.w.z. dat de punten boven de regressielijn "in evenwicht" zijn met die onder de regressielijn.
§ Sommige obs liggen er boven andere er onder, ze heffen elkaar op.
APPLICATION
Verandering y = -0,73 + 0,28 x Pk1
o Y = respons = afhankelijke variabele
o X = covariaat = onafhankelijke variabele.
o Positieve rechte tussen change en Pk1
o Hoe ernstiger de hoofdpijn bij aanvang van de studie, hoe groter het effect na 1 jaar in de studie
4
,STATISTICAL INTERFERENCE
Het vinden van de beste rechte laat ons nog niet meteen toe deze te veralgemenen naar de globale patiënten populatie
p-waarden die testen volgende hypothese
o H0: β0 = 0 vs HA: β0 ≠ 0
o H0: β1 = 0 vs HA: β1 ≠ 0
Verschillende steekproef = verschillende regressielijn
o y=β0 ̂ +β1
̂ xi
o Deze methode laat toe een uitspraak te doen over de regressielijn y = β0 + β1x die de relatie in de gehele populatie weergeeft.
De kans op β 1
̂ = 0,28 als β1 = 0?
o p < 0,05 → 0 ligt buiten de 95% C.I. [0,201; 0,364]
o Verwerp H0 → β1 ≠ 0.
o Analoog voor β0 .
In de praktijk is men vooral geïnteresseerd in toetsen voor β1.
THE ANOVA TABLE
Hoeveel beter kunnen we Y voorspellen als X gekend is?
o Hoe dicht leunen onze observaties aan bij onze gevonden en geschatte regressielijn?
o Weinig stijgend? Erg sign = grote dataset
o Heel stijgend? Niet sign = kleine dataset
§ Vermogen/ power hangt af van onze dataset
Wanneer er gn X waarden zijn, de best mogelijke voorspelling voor yi is dan het steekproefgemiddelde (maat vr de geobs variabiliteit in de y-waarden).
Het hebben van de extra info over X, zal atlijd leiden tot een meer preciese schatting
o De nieuwe fout zal nooit groter zijn dan de originele fout
o De voorspelling zal niet verslechteren als we extra info gebruiken die vervat zit in de covariaat X
SSTO (∑i [yi - y]^2 ) = SSE (∑i [yi - (yi ) ̂ ]^2 ) + SSR (∑i [(yi ) ̂ - y]^2 )
o SSTO = totale som van de kwadraten = totale fout die wordt gemaakt door yi te voorspellen zonder rekening te houden met de waargenomen xi.
o MSresidual = SSE = foutensom van kwadraten = de fout die gemaakt wordt bij het voorspellen van yi door gebruik te maken van de waarnemingen xi.
o MSmodel = SSR = regressiesom van kwadraten = de ↓ in fout door yi te voorspellen met, eerder dan zonder gebruik te maken van covariaten.
R^2 = SSR/SSTO = een maat voor hoe goed de datapunten (xi,yi ) overeenstemmen met de regressielijn
o 0 ≤ R2 ≤1
o R2 = 0 → SSR = 0 → (yi ) ̂ = y → de regressielijn is vlak.
o Dit is equivalent met β 1 ̂ = 0. Geen helling
o R2 =1 → SSE = 0 → yi = (yi ) ̂ voor alle i
o Alle punten (xi,yi )liggen op de regressierechte. Perfect lineair verband
R2 drukt uit "het deel van de variabiliteit in de yi dat door de xi^ kan worden verklaard".
o Eenvoudige regressie: R2 = r2.
APPLICATION (TOEPASSING)
R^2 = SSR/SSTO
o = (MS-model)/(MS-model + SS-residu) = 5692,82/(5692,82 + 36367,41) = 0,1353
o De regressie kan 14% van de totale variabiliteit in yi verklaren.
o De Pearson correlatie: r = + √(R^2 ) = + √0.1353 = 0,3679.
EXAMPLE FROM THE PHARMACEUTICAL LITERATURE
5
, 4. ANALYSIS OF VARIANCE SL.43
2 of meeerdere technieken onderling vgl’en
EXAMPLE ACUPUNCTUUR
FREQ (CAT.) VS VERANDERING ERNST (CONT.) NA 1 JAAR, SUBPOPULATIES
De relatie tussen verandering van ernst in hoofdpijn na 1 jaar (Y = verandering = continu) en frequentie (X = F1 = categorisch)?
o Deze relatie is niet noodzakelijk lineair dus deze wordt opgedeeld in 4 groepen
o Lage, middel, hoge en zeer hoge frequentie (4 boxplots)
o Is de verbetering groter bij patiënten met meer hoofdpijn bij baseline?
§ Significant of alle μ gelijk puur door toeval? → ANOVA.
1-WAY ANOVA
Assumpties: normaliteit, gelijke variantie (Levene's test)
SSTO, SS WITHIN (RESIDUAL), SS BETWEEN (MODEL), F
ANOVA = uitbreiding van de ongepaarde t-toets
o Vergelijkt de variabiliteit tussen groepen met de variabiliteit binnen groepen
o Als 2 populaties weinig/ niet overlappen = weinig gelijkenissen tussen de 2 groepen
o Meer of minder variabiliteit leidt tot meer of minder geneigd zijn te besluiten dat de variaties verschillend zijn
o r verschillende reeksen metingen met de volgende verdelingen: Yrj ∼ N(μ1,σ^2 )
De bijhorende hypotheses
o H0: alle μi gelijk vs HA: niet alle μi gelijk (minstens 1 is verschillend)
o SSTO = SSwithin + SSbetween
o SSTO = totale som van kwadraten = de totale variabiliteit in de gegevens
§ Elke obs vgl met globaal gem
o SSresidual = SSwithin = SSW = som van kwadraten binnen de groepen = de variabiliteit binnen de groepen (dfresidual = N - r)
§ Elke obs vgl met eigen groepsgem
o SSmodel = SSbetween = SSB = som van de kwadraten tussen de groepen = de variabiliteit tussen de groepen (dfmodel = r - 1)
§ Groeps tov globaal gem
Maat voor de variabiliteit:
o F = (SSbetween / (r - 1))/(SSwithin / (N - r) ) met N = Σ_i n_i.
o H0 → F = klein (veel overlap tussen de steekproeven)
o F = groot → kans door puur toeval?
§ Histogrammen + p < 0,05 → verwerp H0.
EXAMPLE
SS MODEL = SS between en SS Residual = SS within
R2 = de fractie vd variabiliteit in change dat kan verklaart worden door het verschil in frequentie van hoofdpijn.
EXAMPLES FROM THE PHARMACEUTICAL LITERATURE
6
, 5. MULTIPLE LINEAR REGRESSION SL.65
2X CONTINUE 1X CATEGORISCH
EXAMPLE ACUPUNCTUUR
Het verband tussen verandering in ernst van de hoofdpijn (Y = change = continu), basislijn ernst (X = Pk1 = continu) is significant.
o Er kan dus een verbetering optreden in ernst afhankelijk van de frequentie aan het begin van de studie
o Of afhankelijk van de ernst bij het begin van de studie en de frequentie
o Dit kan worden bestudeerd dmv 3 simpele regressie lijnen: change, severety en frequentie (X = F1 = categorisch)
o Change ↑ = Pk1 ↑
o Change ↑ = F1 ↑
o Pk1 ↑ = F1 ↑
§ Is de waargenomen relatie tussen Change en Pk1 / F1 niet een zuiver F1 / Pk1 (frequentie) effect?
§ Immers patiënten met een hoge Pk1 / F1 (basis ernst) hebben een hoge F1 / Pk1 (frequentie).
§ Kan ook dat Change/ F1 + zijn omdat meer frequentie gepaard gaat met een hogere ernst
⇒ meervoudige (lineaire) regressie
THE MULTIPLE LINEAR REGRESSION MODEL
Dit model wordt gebruikt om te bepalen of de verandering beinvloed wordt door de ernst aan het begin van de studie of de frequentie van hoofdpijn.
3D-scatterplot
o Vaak is rotatie nodig
o Het regressiemodel: yi = β0 + β1 x1i + β2 x2i
o Er is dus een extra term, deze is de waarde van beide veranderlijken die nodig zijn om de voorspelling van change te maken
o Regressievlak (twee verschillende rotaties)
Opnieuw moeten de parameters β0, β1 en β2 geschat worden door een steekproef
o We maken opnieuw gebruik van de kleinste kwadraten methode
o (Change) î = β 0
̂ +β1
̂ Pk1i + β 2
̂ F1i
§ Minimaliseren van ∑i [Changei - (Change) î ].
o SSTO = SSE + SSR (uitleg zie boven)
R2 voorspelt hoeveel variabiliteit in Y er kan verklaard worden door Pk1 en F1
o Eenvoudige regressie R2=r2
o R2=0: X1 en X2 helpen niet om de response te voorspellen
o Vandaar dat de hypothese opgesteld wordt om na te gaan of de covariaten een voorspellende waarde hebben of niet
§ H0: β1 = β2 = 0 (geen voorspellende waarde) vs HA: β1 of β2 ≠ 0. (wel voorspellende waarde)
§ F-test (meestal automatische bij ANOVA)
APPLICATION
ANOVA: p < 0.05
o β1 of β2 ≠ 0 (minstens 1 van de 2 is verschillend aan 0)
o R2 = 0.1355 (change vs Pk1: R2 = 0.1353 HS3)
o F1 verklaart dus bijzonder weinig verandering in de variabiliteit
Eenmaal we de ernst kennen bij het begin van de studie zal de frequentie slechts een klein beetje extra info geven voor de voorspelling van de verbetering in
ernst na 1jaar.
(change) î = -0.50 + 0.29 Pk1i - 0. 03 F1i
o De kleinste kwadratenschatters verschillen van die van twee enkelvoudige regressies
o We krijgen dus een andere betekenis voor de parameters
o P (voor F1) > 0.05 → F1 is niet langer significant
Enkelvoudige en meervoudige regressie moet anders geinterpreteerd worden!
7
,INTERPRETATION
Change = -0,50 + 0,29 Pk1 - 0,03 F1
We kunnen NIET concluderen dat een eenheidsverhoging van Pk1 voor een bepaalde patiënt zal leiden tot een verhoging van change met 0,29.
o We kunnen alleen beweren dat, voor patiënten met een bepaalde F1 (frequentie wordt vastgehouden), een eenheidsverschil in Pk1 overeenkomt
met een gemiddeld verschil in change van 0,29.
o We kunnen geen "longitudinale" conclusies trekken uit ons "cross-sectionele" experiment.
o β1
̂ (schatter) geeft aan hoe de gemiddelde Change-score varieert met Pk1, voor patiënten met dezelfde F1.
o β2̂ geeft aan hoe de gemiddelde Change-score varieert met F1, voor patiënten met dezelfde Pk1
o Bij deze scatterplot zien we een bijna plat vlak, als de Pk1 constant blijft zal Change bijna niet veranderen door F1
§ Dit verklaart waarof F1 niet sign is in een meervoudig regressie model (eenmaal Pk1 gekend is)
De p-waarde geeft een indicatie van de noodzaak van één bepaald covariaat, naast de covariaten die al in het model zitten.
o Het is geen goede praktijk om niet-significante covariaten tegelijkertijd uit het model te verwijderen.
o Het schrappen van niet-significante covariaten moet stapsgewijs gebeuren.
GRAPHICAL INTERPRETATION
Een eenvoudige lineaire regressieanalyse van Y op X1 / X2 kwantificeert de informatie die X1 / X2 over Y bevat.
Een meervoudige lineaire regressieanalyse van Y op X1 en X2 kwantificeert de informatie die X1 en X2 gezamenlijk over Y bevatten.
o Deze kwantificeert de info die een individueel covariaat over Y bevat en die nog niet in de andere covariaten is verwerkt.
o Indien beide sign, bevatten beide nog voldoende info over Y die niet gegeven was door de andere
§ P-waarde kan dalen in meervoudige (sign in enkel en in meervoudig)
• Het aandeel dat verklaard wordt door de covariaat wordt groter tov het nog niet verklaarde deel
o Indien 2 niet-sign covariaten, terwijl ze in enkelvoudige regressie beide hoog significant zijn
§ X1 en X2 bevatten dan veel informatie over Y en over elkaar, en dus sterk afhankelijk zijn.
• Eenmaal X1 gekend is biedt X2 nog weinig extra info over Y en zal het meervoudig niet meer sign zijn en omgekeerd
6. POLYNOMIAL REGRESSION (NIET LINEAIR) SL. 103
EXAMPLE ACUPUNCTUUR
De regressie van Pk1 op F1: de figuur lijkt erop te wijzen dat Pk1 een steilere stijging vertoont voor hoge F1 dan voor lage F1
o Niet-lineariteit
o Een recht is dus mss niet de juiste weergave
o Lineaire functie vervangen door een meervoudige veelterm
o yi = β0 + β1 x1i + β2 x2i = β0 + β1 xi + β2 xi^2
o Pk1 = 14. 22 - 0,67 F1 + 0,08F1^2
§ De ernst varieert dus veel meer in functie van de freq bij een hogere freq.
§ β2 ≠ 0 en p < 0,05
• Grafisch + ANOVA tabel
• R2 = hoger (dan bij een lineair model)
INTERPRETATION OF THE RESULTS
Aangezien F1 niet kan variëren zonder dat F12 mee verandert, moeten we concluderen dat de individuele regressiecoëfficiënten in polynomiale regressie niet
kunnen worden geïnterpreteerd.
o De regressiecoëfficiënten beschrijven slechts een polynoom, die de gemiddelde ontwikkeling van Y als functie van X beschrijft.
Anderzijds wijst de hoge significantie van β2 erop dat de toevoeging van de kwadratische term het regressiemodel aanzienlijk heeft verbeterd.
o Maw, er is een sterk kwadratisch effect, dat het lineaire effect overschaduwt.
o De significantie van de afzonderlijke parameters in de polynomiale regressie kan worden geïnterpreteerd, de afzonderlijke regressieparameters niet.
o Merk op dat het resultaat van de polynomiale regressie een kromme is in plaats van een vlak.
8
, REMARKS
Veeltermen: yi = β0 + β1 xi + β2 xi^p.
Derdegraads polynomen = kubische regressie: yi = β0 + β1 xi + β2 xi^2 + β3 xi^3.
Men kan gewone meervoudige regressie combineren met polynomiale regressie: yi = β10 + βi x1i + β2 x1i^2 + β3 x2i.
7. INTERACTION (WISSELWERKING) SL.118
EXAMPLE ACUPUNCTUUR
De voorspelling van de change op basis van (ernst bij het begin) Pk1 en Leeftijd?
o Change = 6,91 + 0,28 Pk1 - 0,16 Age (alle p-waarden zijn sign)
o Deze regressie veronderstelde dat de relatie tussen Pk1 en Change onafhankelijk is van de leeftijd van de patiënt
o Deze regressie veronderstelde dat de relatie tussen Pk1 en leeftijd onafhankelijk is van de ernst bij aanvang van de patiënt
o Interactieterm van Age en Pk1:
§ Change = β0 + β1 Pk1 + β2 Age + β3 Pk1 x Age
• We gaan na of de ene de andere beinvloedt
o Change = β0 + β2 Age + (β1+ β3 Age) x Pk1
§ Intercept = β0 + β2 Age, helling = β1+ β3 Age
§ Kan dus afhangen van Age
o Change = β0 + β1 Pk1 + (β2 + β3 Pk1) x Age
§ Intercept = β0 + β1 Pk1, helling = β2 + β3 Pk1
§ Kan afhangen van Pk1
o Test H0: β3 = 0
APPLICATION
ANOVA
o H0: β1 = β2 = β3 = 0 vs. HA: ten minste één van de bovenstaande regressiecoëfficiënten ≠ 0.
o Toevoeging van de interactieterm heeft R2 verhoogd en p < 0,05
o Interactie term is sign dus de change door Pk1 hangt af van de leeftijd en de change door de leeftijd hangt af van Pk1
o Change = -6,96 + 0,82 Pk1 + 0,13 Age - 0,01 Pk1 x Age.
INTERPRETATION OF RESULTS
We kunnen de individuele regressiecoëfficiënten NIET interpreteren. Om meer inzicht te krijgen in het effect van de toevoeging van de interactie aan het model,
beschouwen we de voorspelde ontwikkeling van Change als functie van Pk1 en als functie van Age, afzonderlijk.
VERANDERING ALS FUNCTIE VAN PK1
Change = -6,96 + 0,13 Leeftijd + (0,82 - 0,01 Leeftijd) × Pk1.
o 20 jaar: Verandering = -4,36 + 0,62 × Pk1
o 45 jaar: Verandering = -1,11 + 0,37 × Pk1
o 70 jaar: Verandering = 2,14 + 0,12 × Pk1
Voor hoge leeftijden zal de Verandering minder sterk toenemen als functie van Pk1.
VERANDERING ALS FUNCTIE VAN LEEFTIJD
Change = -6,96 + 0,82 Pk1 + (0,13 - 0,01 Pk1) × leeftijd.
o Pk1=20: Verandering=9,44 - 0,07 × Leeftijd
o Pk1=50: Verandering=34,04 - 0,37 × Leeftijd
o Pk1=80: Verandering=58.64 - 0.67 × Leeftijd
Voor patiënten met een lage Pk1 heeft Verandering de neiging minder te variëren met Leeftijd dan voor patiënten met een hoge Pk1. Behalve voor patiënten
met zeer lage ernst (Pk1 < 13), neemt Verandering af met Leeftijd.
9