Een samenvatting van alle lessen, theorie, slides, extra notities van Toegepaste Biostatistiek. Door gebruik te maken van deze samenvatting behaalde ik een 18/20 in eerste zit.
CH11: REGRESSIE EN CORRELATIE
METHODEN
INTRODUCTIE
1. Methoden van regressie- en correlatieanalyse waarbij 2 verschillende variabelen in dezelfde
steekproef met elkaar in verband worden gebracht
2. Meervoudige regressieanalyse, waarbij rekening wordt gehouden met de relatie tussen meer dan
2 variabelen tegelijk
3. Lineaire regressiemethoden waarbij we leren hoe we een uitkomstvariabele y lineair (continu)
kunnen relateren aan een of meer voorspellende (predictor) x variabelen (continu of categorisch)
DUS: kijken of verbanden echt zijn of per toeval
ALGEMENE CONCEPTEN
- x = afh variabele, y = onafh variabele
- Lineaire relatie tussen x en y = regressielijn = geschatte lijn die zoveel mogelijk punten verbind
y = a + bx
- a = intercept, b = helling
- DOEL : y voorspellen ifv x
MAAR: er zit altijd een fout op de voorspelling tov werkelijkheid
DUS: voor elke x waarde zijn er meerdere y waarden
Bv: er zijn meerdere moeders met een estriol level van 12
mg/dag maar die toch andere geboortegewichten hebben
DUS: error term toevoegen aan rechte
y = a + bx + e
met de veronderstelling dat e normaal verdeeld is met
gemiddelde 0 en variantie s^2
DUS: we verwachten dat de meeste voorspellingen
dicht bij de rechte liggen
- DUS: voorwaarde voor regressie
= e moet normaal verdeeld zijn met homoscedasticiteit (alle curves zijn even breed)
Pos verband Neg verband Geen verband
1
,VOORBEELD: OBSTETRICS
- X = estriol level , Y = geboortegewicht
- DOEL : geboortegewicht voorspellen ifv estriol level
Bv: moeder heeft 12 mg estriol/ dag => kind zal 2800g wegen
REGRESSIELIJN FITTEN – METHOD OF LEAST SQUARES
Regressie = rechte fitten die het beste aansluit bij een puntenwolk
di = yi – ŷi -> fouten die je zo klein mogelijk wilt houden
S1 = ∑|di| -> S = ∑di2
Voorspelde regressielijn = least-squares lijn -> y = a + bx
- Minimaliseert de som van de gekwadrateerde afstanden van de punten van de lijn gegeven door S
- Methode om de parameters van een regressielijn te schatten
BEREKENEN VAN DE LEAST-SQUARES LIJN
Raw sum of squares
Corrected sum of squares
Raw sum of cross products
Corrected sum of cross products
Helling
Intercept
2
,VOORBEELD: OBSTETRICS
DOEL: vrouwen die een baby met laag geboortegewicht baren identificeren
- y = 21,52 + 0,608x
- b = 0,608 => y stijgt met 0,608 units per 1 mg/24u
DUS: de het verwachte geboortegewicht stijgt met 61g voor elke 1mg/24u het estriol stijgt
- verwachte geboortegewicht van een zwangere vrouw met een estriol level van 10 mg/24u
y = 21,52 + 0,608*10 = 27,52 hg
- voor welk estriol niveau zou het verwachte geboortegewicht 4,5kg zijn?
45 = 21,52 + 0,608x <-> x = 39 mg/24u
GEVOLGTREKKIN GEN OVER PARAMETERS UIT REGRESSIELIJNEN
Nagaan of hetgeen we observeren geen toeval is
checken of helling statistisch significant verschillend van 0 is
*residual component: afwijking van voorspelde waarde tov echte waarde
**regressie component
***soms van beide componenten
Gewenst: grote regressie component en kleine residual
component
WANT: fouten klein en voorspelling accuraat houden
geeft significantie
Total sum of squares (total SS, Lyy)
Reg SS + Res SS
Regression sum of squares (reg SS)
L2xy/Lxx
Residual sum of squares (res SS)
Tot SS – Reg SS
Lyy – L2xy/Lxx
SIMPELE LINEAIRE REGRESSIE
F TEST VOOR SIMPELE LINEAIRE REGRESSIE
Goedheid van de fit = Reg SS/ Res SS
Dus: je wil goede fit, met kleine Res SS en grote Reg SS
Regression mean square (Reg MS) Reg SS/k
Met k = aantal x-variabelen
Residual mean square (Res MS, S2y.x) Reg SS/(n-k-1)
Met k = aantal x-variabelen
Met n = steekproefgrootte
3
, VOORBEELD: OBSTETRICS
Goedheid van de fit testen door de significantie van de regressielijn -> testen of b (helling = 0,608) significant
verschillend is van 0
R 2 OF R-KWADRAAT
= maat voor hoe goed de fit van de rechte door de punten is, drukt uit hoe goed het model is
= reg SS/ tot SS
= deel van de variantie van y dat verklaard wordt door het model en dus door de voorspellende variabelen die
in het model opgenomen zijn
= hoe groter, hoe beter
- R2 = 1 alle variantie van y is verklaard door variantie van x, alle punten liggen op de
regressielijn
- R2 = 0 x geeft geen info over y en de variantie van y is hetzelfde als je x kent of niet kent
- 0 < R2 < 1 voor een gegeven x-waarde is de variantie van y kleiner dan dat er geen x-waarde
gegeven zou zijn, maar wel nog groter dan 0
! simpele lineaire regressie: R2 = r2 met r = Pearson correlatie coëfficiënt !
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller JenteDG. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.96. You're not tied to anything after your purchase.