Een samenvatting van alle lessen, theorie, slides, extra notities van Toegepaste Biostatistiek. Door gebruik te maken van deze samenvatting behaalde ik een 18/20 in eerste zit.
CH11: REGRESSIE EN CORRELATIE
METHODEN
INTRODUCTIE
1. Methoden van regressie- en correlatieanalyse waarbij 2 verschillende variabelen in dezelfde
steekproef met elkaar in verband worden gebracht
2. Meervoudige regressieanalyse, waarbij rekening wordt gehouden met de relatie tussen meer dan
2 variabelen tegelijk
3. Lineaire regressiemethoden waarbij we leren hoe we een uitkomstvariabele y lineair (continu)
kunnen relateren aan een of meer voorspellende (predictor) x variabelen (continu of categorisch)
DUS: kijken of verbanden echt zijn of per toeval
ALGEMENE CONCEPTEN
- x = afh variabele, y = onafh variabele
- Lineaire relatie tussen x en y = regressielijn = geschatte lijn die zoveel mogelijk punten verbind
y = a + bx
- a = intercept, b = helling
- DOEL : y voorspellen ifv x
MAAR: er zit altijd een fout op de voorspelling tov werkelijkheid
DUS: voor elke x waarde zijn er meerdere y waarden
Bv: er zijn meerdere moeders met een estriol level van 12
mg/dag maar die toch andere geboortegewichten hebben
DUS: error term toevoegen aan rechte
y = a + bx + e
met de veronderstelling dat e normaal verdeeld is met
gemiddelde 0 en variantie s^2
DUS: we verwachten dat de meeste voorspellingen
dicht bij de rechte liggen
- DUS: voorwaarde voor regressie
= e moet normaal verdeeld zijn met homoscedasticiteit (alle curves zijn even breed)
Pos verband Neg verband Geen verband
1
,VOORBEELD: OBSTETRICS
- X = estriol level , Y = geboortegewicht
- DOEL : geboortegewicht voorspellen ifv estriol level
Bv: moeder heeft 12 mg estriol/ dag => kind zal 2800g wegen
REGRESSIELIJN FITTEN – METHOD OF LEAST SQUARES
Regressie = rechte fitten die het beste aansluit bij een puntenwolk
di = yi – ŷi -> fouten die je zo klein mogelijk wilt houden
S1 = ∑|di| -> S = ∑di2
Voorspelde regressielijn = least-squares lijn -> y = a + bx
- Minimaliseert de som van de gekwadrateerde afstanden van de punten van de lijn gegeven door S
- Methode om de parameters van een regressielijn te schatten
BEREKENEN VAN DE LEAST-SQUARES LIJN
Raw sum of squares
Corrected sum of squares
Raw sum of cross products
Corrected sum of cross products
Helling
Intercept
2
,VOORBEELD: OBSTETRICS
DOEL: vrouwen die een baby met laag geboortegewicht baren identificeren
- y = 21,52 + 0,608x
- b = 0,608 => y stijgt met 0,608 units per 1 mg/24u
DUS: de het verwachte geboortegewicht stijgt met 61g voor elke 1mg/24u het estriol stijgt
- verwachte geboortegewicht van een zwangere vrouw met een estriol level van 10 mg/24u
y = 21,52 + 0,608*10 = 27,52 hg
- voor welk estriol niveau zou het verwachte geboortegewicht 4,5kg zijn?
45 = 21,52 + 0,608x <-> x = 39 mg/24u
GEVOLGTREKKIN GEN OVER PARAMETERS UIT REGRESSIELIJNEN
Nagaan of hetgeen we observeren geen toeval is
checken of helling statistisch significant verschillend van 0 is
*residual component: afwijking van voorspelde waarde tov echte waarde
**regressie component
***soms van beide componenten
Gewenst: grote regressie component en kleine residual
component
WANT: fouten klein en voorspelling accuraat houden
geeft significantie
Total sum of squares (total SS, Lyy)
Reg SS + Res SS
Regression sum of squares (reg SS)
L2xy/Lxx
Residual sum of squares (res SS)
Tot SS – Reg SS
Lyy – L2xy/Lxx
SIMPELE LINEAIRE REGRESSIE
F TEST VOOR SIMPELE LINEAIRE REGRESSIE
Goedheid van de fit = Reg SS/ Res SS
Dus: je wil goede fit, met kleine Res SS en grote Reg SS
Regression mean square (Reg MS) Reg SS/k
Met k = aantal x-variabelen
Residual mean square (Res MS, S2y.x) Reg SS/(n-k-1)
Met k = aantal x-variabelen
Met n = steekproefgrootte
3
, VOORBEELD: OBSTETRICS
Goedheid van de fit testen door de significantie van de regressielijn -> testen of b (helling = 0,608) significant
verschillend is van 0
R 2 OF R-KWADRAAT
= maat voor hoe goed de fit van de rechte door de punten is, drukt uit hoe goed het model is
= reg SS/ tot SS
= deel van de variantie van y dat verklaard wordt door het model en dus door de voorspellende variabelen die
in het model opgenomen zijn
= hoe groter, hoe beter
- R2 = 1 alle variantie van y is verklaard door variantie van x, alle punten liggen op de
regressielijn
- R2 = 0 x geeft geen info over y en de variantie van y is hetzelfde als je x kent of niet kent
- 0 < R2 < 1 voor een gegeven x-waarde is de variantie van y kleiner dan dat er geen x-waarde
gegeven zou zijn, maar wel nog groter dan 0
! simpele lineaire regressie: R2 = r2 met r = Pearson correlatie coëfficiënt !
4
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur JenteDG. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €6,49. Vous n'êtes lié à rien après votre achat.