MEDICAL STATISTICS | STAT B
1 | CHAPTER 10 LINEAIRE REGRESSIE EN CORRELATIE
We kijken nu naar de relatie tussen een numerieke uitkomst en een numerieke blootstelling
De methode van lineaire regressie wordt gebruikt om de best passende rechte lijn te schatten om de associatie
te beschrijven. De methode geeft ook een schatting van de correlatiecoëfficiënt, die de nabijheid (sterkte) van
de lineaire associatie meet.
Scatter plot: Blootstelling op de horizontale as en het resultaat op de verticale as.
Regressie lijn:
- 0 en 1 de parameters of regressiecoëfficiënten zijn van de lineaire regressie:
o 0 is het snijpunt (de waarde van y wanneer x = 0)
o 1 de helling van de lijn (de toename in y voor elke eenheidstoename in x)
Schatting van de regressieparameters.
De best passende lijn wordt afgeleid met de
methode van de kleinste kwadraten: door de
waarden te vinden voor de parameters B0 en B1 die
de som van de gekwadrateerde verticale afstanden
van de punten tot de lijn minimaliseren (Figuur
10.3). De parameters B0 en B1 worden geschat met
behulp van de volgende formules:
Als de helling B1 = 0 komt dit overeen met een horizontale lijn op een hoogte van yy en betekent dat er geen
verband is tussen x en y
De berekende waarden voor B0 en B1 zijn schattingen van de populatiewaarden van het snijpunt en de helling
en zijn daarom onderhevig aan steekproefvariatie. Net als bij geschatte verschillen tussen de gemiddelden van
de blootstellingsgroep (zie hoofdstuk 7), wordt hun precisie gemeten aan de hand van hun standaardfouten.
s is de standaarddeviatie van de punten rond de lijn. Het heeft (n - 2) vrijheidsgraden (de steekproefomvang
minus het aantal regressiecoëfficiënten).
Computer output interpreteren
1. De regressiecoëfficiënt voor gewicht is hetzelfde als de schatting van B1 die eerder is berekend, terwijl
de regressiecoëfficiënt met het label ‘Constante’ overeenkomt met de schatting van het snijpunt (B0).
, Intercept zinvol worden gemaakt door de exposure variabele te centreren: het gemiddelde ervan af te
trekken zodat de nieuwe blootstellingsvariabele gemiddelde = 0 heeft. Het intercept in een lineaire
regressie met een gecentreerde exposure variabele is gelijk aan de gemiddelde uitkomst.
2. De standaardfouten komen ook overeen met de hierboven berekende fouten.
3. De t-statistieken in de vierde kolom zijn de waarden van elke regressiecoëfficiënt gedeeld door de
standaardfout. Elke t-statistiek kan worden gebruikt om de nulhypothese te testen dat de
overeenkomstige regressiecoëfficiënt gelijk is aan nul.
D.f. is sample size minus the number of regression coefficients, n = 2.
4. 95% BI, niet zelf hoeven te berekenen
Aannames:
1. Voor elke waarde van x is y normaal verdeeld.
2. De tweede is dat de grootte van de spreiding van de punten rond de lijn hetzelfde is over de hele
lengte van de lijn. Deze spreiding wordt gemeten door de standaarddeviatie, s, van de punten rond de
lijn zoals hierboven gedefinieerd
Formeler gaan we ervan uit dat:
waarbij de fout, e, normaal verdeeld is met een gemiddelde nul en standaarddeviatie, die wordt
geschat door s (de st dev van de punten rond de lijn). De verticale afwijkingen (weergegeven door de
stippellijnen) in zijn de geschatte fouten, bekend als residuen, voor elk paar waarnemingen.
Voorspellen
In sommige situaties kan het handig zijn om de regressievergelijking te gebruiken om de waarde van y te
voorspellen voor een bepaalde waarde van x, zeg x’;
Deze standaardfout is het minst wanneer x’ dicht bij het gemiddelde ligt, xX. In het algemeen zou men
terughoudend moeten zijn om de regressielijn te gebruiken voor het voorspellen van waarden buiten het
bereik van x in de oorspronkelijke gegevens, aangezien de lineaire relatie niet noodzakelijkerwijs zal gelden
buiten het bereik waarover het is aangepast.
CORRELATION
Naast het schatten van de best passende rechte lijn, kunnen we de sterkte van het lineaire verband tussen de
uitkomst- en blootstellingsvariabelen onderzoeken.
Dit wordt gemeten door de correlatiecoëfficiënt, r, die wordt geschat als:
De correlatiecoëfficiënt is altijd een getal tussen +1 en -1, en is gelijk aan nul als de variabelen niet geassocieerd
zijn. Het is positief als x en y de neiging hebben om samen hoog of laag te zijn, en hoe groter de waarde, hoe
nauwer de associatie. 1 als de waardes precies op de lijn liggen. Bij geen correlatie is B1 = 0 = r
Een bruikbare interpretatie van de correlatiecoëfficiënt is dat het het aantal standaarddeviaties is dat de
uitkomst y verandert voor een standaarddeviatieverandering in de exposure x.
, ANALYSE VAN VARIANTIEBENADERING NAAR EENVOUDIG LINEAIR REGRESSIE
We stelden eerder dat de regressiecoëfficiënten B0 en B1 worden berekend om de som van de kwadratische
afwijkingen van de punten rond de regressielijn te minimaliseren. Dit kan worden vergeleken met de algehele
variatie in de uitkomstvariabele, gemeten door de total sum of squares.
De som van de afwijkingen in het kwadraat rond de best passende regressielijn wordt de residuale som van de
kwadraten (SSResidual) genoemd. Dit is kleiner dan SSTotal met een hoeveelheid die de som van de kwadraten
wordt genoemd, verklaard door de regressie van het plasmavolume op het lichaamsgewicht, of gewoon de
regressiesom van de kwadraten.
Als er geen verband zou zijn tussen de variabelen, dan zou het gemiddelde regressiekwadraat ongeveer even
groot zijn als het residuale gemiddelde kwadraat, terwijl het groter zou zijn als de variabelen zouden worden
geassocieerd.
RELATIONSHIP BETWEEN CORRELATION COEFFICIENT AND ANALYSIS OF VARIANCE TABLE
Het kwadraat van de correlatiecoëfficiënt, r2, is gelijk aan de regressiesom van kwadraten gedeeld door de
totale som van kwadraten (0.76^2 = 0.5763 = 0.3907 = 0.6780).
Het is dus het aandeel van de totale variatie in plasmavolume dat wordt verklaard door de regressie. In
voorbeeld kunnen we zeggen dat lichaamsgewicht 57,63% uitmaakt van de totale variatie in plasmavolume.
1 | CHAPTER 11 MULTIPLE REGRESSION
Over het algemeen zijn er twee redenen om extra exposure op te nemen in een meervoudige regressieanalyse.
1. De eerste is om een exposure effect in te schatten, rekening houdend met de effecten van andere
variabelen. control of confounding factors,
2. De tweede reden is die opname van exposure variabelen die sterk geassocieerd zijn met de
uitkomstvariabele, zal de resterende variatie verminderen en daarmee de standaardfout van de
regressiecoëfficiënten voor andere blootstellingsvariabelen verminderen.
Dit betekent dat het zowel de nauwkeurigheid van de schatting van de andere regressiecoëfficiënten
verhoogt, als de waarschijnlijkheid dat de gerelateerde hypothesetests eventuele bestaande effecten
zullen detecteren.
MULTIPLE REGRESSION WITH TWO TWO CATEGORIES EXPOSURE VARIABLES
Vaak hebben we het over het effect van een variabele die zich heeft aangepast of gecontroleerd voor de
effecten van de andere variabele (n) in het model.
Deze vragen kunnen worden beantwoord door een meervoudig regressiemodel te passen voor de effecten van
lengte en leeftijd op FEV1. De algemene vorm van een meervoudig regressiemodel voor de effecten van twee
blootstellingsvariabelen (x1 en x2) op een uitkomstvariabele (y) is:
Het snijpunt B0 is de waarde van de uitkomst y wanneer beide blootstellingsvariabelen x1 en x2 zijn nul.
Merk op dat B1 en B2 zullen verschillen van de regressiecoëfficiënten van de eenvoudige lineaire regressies
voor leeftijd en lengte afzonderlijk, tenzij de twee blootstellingsvariabelen geen verband houden.
Deze verhouding is gelijk aan R2, waarbij R = wortel 0,4356 = 0,66 wordt gedefinieerd als de meervoudige
correlatiecoëfficiënt.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller lunavandenbergh. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $11.27. You're not tied to anything after your purchase.