Een samenvatting van alle lessen, theorie, slides, extra notities van Toegepaste Biostatistiek. Door gebruik te maken van deze samenvatting behaalde ik een 18/20 in eerste zit.
CH11: REGRESSIE EN CORRELATIE
METHODEN
INTRODUCTIE
1. Methoden van regressie- en correlatieanalyse waarbij 2 verschillende variabelen in dezelfde
steekproef met elkaar in verband worden gebracht
2. Meervoudige regressieanalyse, waarbij rekening wordt gehouden met de relatie tussen meer dan
2 variabelen tegelijk
3. Lineaire regressiemethoden waarbij we leren hoe we een uitkomstvariabele y lineair (continu)
kunnen relateren aan een of meer voorspellende (predictor) x variabelen (continu of categorisch)
DUS: kijken of verbanden echt zijn of per toeval
ALGEMENE CONCEPTEN
- x = afh variabele, y = onafh variabele
- Lineaire relatie tussen x en y = regressielijn = geschatte lijn die zoveel mogelijk punten verbind
y = a + bx
- a = intercept, b = helling
- DOEL : y voorspellen ifv x
MAAR: er zit altijd een fout op de voorspelling tov werkelijkheid
DUS: voor elke x waarde zijn er meerdere y waarden
Bv: er zijn meerdere moeders met een estriol level van 12
mg/dag maar die toch andere geboortegewichten hebben
DUS: error term toevoegen aan rechte
y = a + bx + e
met de veronderstelling dat e normaal verdeeld is met
gemiddelde 0 en variantie s^2
DUS: we verwachten dat de meeste voorspellingen
dicht bij de rechte liggen
- DUS: voorwaarde voor regressie
= e moet normaal verdeeld zijn met homoscedasticiteit (alle curves zijn even breed)
Pos verband Neg verband Geen verband
1
,VOORBEELD: OBSTETRICS
- X = estriol level , Y = geboortegewicht
- DOEL : geboortegewicht voorspellen ifv estriol level
Bv: moeder heeft 12 mg estriol/ dag => kind zal 2800g wegen
REGRESSIELIJN FITTEN – METHOD OF LEAST SQUARES
Regressie = rechte fitten die het beste aansluit bij een puntenwolk
di = yi – ŷi -> fouten die je zo klein mogelijk wilt houden
S1 = ∑|di| -> S = ∑di2
Voorspelde regressielijn = least-squares lijn -> y = a + bx
- Minimaliseert de som van de gekwadrateerde afstanden van de punten van de lijn gegeven door S
- Methode om de parameters van een regressielijn te schatten
BEREKENEN VAN DE LEAST-SQUARES LIJN
Raw sum of squares
Corrected sum of squares
Raw sum of cross products
Corrected sum of cross products
Helling
Intercept
2
,VOORBEELD: OBSTETRICS
DOEL: vrouwen die een baby met laag geboortegewicht baren identificeren
- y = 21,52 + 0,608x
- b = 0,608 => y stijgt met 0,608 units per 1 mg/24u
DUS: de het verwachte geboortegewicht stijgt met 61g voor elke 1mg/24u het estriol stijgt
- verwachte geboortegewicht van een zwangere vrouw met een estriol level van 10 mg/24u
y = 21,52 + 0,608*10 = 27,52 hg
- voor welk estriol niveau zou het verwachte geboortegewicht 4,5kg zijn?
45 = 21,52 + 0,608x <-> x = 39 mg/24u
GEVOLGTREKKIN GEN OVER PARAMETERS UIT REGRESSIELIJNEN
Nagaan of hetgeen we observeren geen toeval is
checken of helling statistisch significant verschillend van 0 is
*residual component: afwijking van voorspelde waarde tov echte waarde
**regressie component
***soms van beide componenten
Gewenst: grote regressie component en kleine residual
component
WANT: fouten klein en voorspelling accuraat houden
geeft significantie
Total sum of squares (total SS, Lyy)
Reg SS + Res SS
Regression sum of squares (reg SS)
L2xy/Lxx
Residual sum of squares (res SS)
Tot SS – Reg SS
Lyy – L2xy/Lxx
SIMPELE LINEAIRE REGRESSIE
F TEST VOOR SIMPELE LINEAIRE REGRESSIE
Goedheid van de fit = Reg SS/ Res SS
Dus: je wil goede fit, met kleine Res SS en grote Reg SS
Regression mean square (Reg MS) Reg SS/k
Met k = aantal x-variabelen
Residual mean square (Res MS, S2y.x) Reg SS/(n-k-1)
Met k = aantal x-variabelen
Met n = steekproefgrootte
3
, VOORBEELD: OBSTETRICS
Goedheid van de fit testen door de significantie van de regressielijn -> testen of b (helling = 0,608) significant
verschillend is van 0
R 2 OF R-KWADRAAT
= maat voor hoe goed de fit van de rechte door de punten is, drukt uit hoe goed het model is
= reg SS/ tot SS
= deel van de variantie van y dat verklaard wordt door het model en dus door de voorspellende variabelen die
in het model opgenomen zijn
= hoe groter, hoe beter
- R2 = 1 alle variantie van y is verklaard door variantie van x, alle punten liggen op de
regressielijn
- R2 = 0 x geeft geen info over y en de variantie van y is hetzelfde als je x kent of niet kent
- 0 < R2 < 1 voor een gegeven x-waarde is de variantie van y kleiner dan dat er geen x-waarde
gegeven zou zijn, maar wel nog groter dan 0
! simpele lineaire regressie: R2 = r2 met r = Pearson correlatie coëfficiënt !
4
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper JenteDG. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,49. Je zit daarna nergens aan vast.