samenvatting statistiek 3 & EBM, partim statistiek, cursustekst+ppt+eigen notities, Prof. Tine Willems (Topic 3) & Prof. De Pauw (Topic 1 & 2)
samenvatting is aangepast na het studeren
HOOFDSTUK 1: ENKELVOUDIGE
LINEAIRE REGRESSIE
Gebruikt om relatie tssn 1 onafhankelijke variabele & 1 afhankelijke variabele
te modelleren
Doel: afhankelijke variabele voorspellen obv onafhankelijke variabele
voorspellen vd effecten v fysieke activiteit op LG of gezondheid
cohorte: voorspellen uitkomstmaat obv 1/meerdere factoren
vertrekt v gezonde populatie die ziekte nog niet heeft doorlopen (incidentie)
vereist longitudonale follow-up
cross-sectionele studie: beschijven verband tssn uitkomstmaat & andere
factoren, waarbij rekening wordt gehouden met verstorende variabelen
vertrekt v populatie die zowel gezond als ziek is (prevalentie)
vereist geen longitudonale follow-up
1. REGRESSIEFORMULE
Y=B0+B1X+ ε
1
, - Y= afhankelijke variabele
- X= onafhankelijke variabele
- B0= intercept
Voorspelde waarde van Y X=0
- B1= regressiecoëfficiënt
Hoeveel afhankelijke variabele verandert onafhankelijke variabele
met 1 eenheid toeneemt
- ε=foutenterm
verschil tssn geobserveerde waarde & waarde voorspeld door model
2. DETERMINANTIECOËFFICIËNT (R 2 )
Hoeveel vd variantie in afhankelijke variabele wordt verklaard door
onafhankelijke variabele
Hogere R2 => model past beter bij data
Vb: R2=0.72:
- 72% vd variantie in BMI wordt verklaard door aantal uren sport per week
- Overige 28% wordt verklaard door andere factoren die niet in model zijn
opgenomen
3. PRAKTISCH VOORBEELD MET DATASET
10 observaties: effect vh aantal sport per week op BMI
Regressieformule: BMI=B0+B1(Uren sport) + ε
BMI=26-0.8*(Uren sport) + ε
Intercept (B0=26): persoon die geen uren sport per week, heeft
voorspelde BMI van 26
Regressiecoëfficiënt (B1=-0.8): voor elk extra uur sporten, neemt BMI
gemiddeld met 0.8 eenheden af
3.1. INTERPRETATIE
Correlatie (Pearson correlatie): geeft weer hoe sterk het lineaire verband
is
Alle punten exact op 1 lijn liggen? Correlatie gelijk aan 1 of -1
Lineaire regressie: geeft interpretatie aan correlatielijn in oorspronkelijke
eenheden v X & Y
3.2. CONTINUE VS CATEGORISCHE VARIABELE
Vb: bevraging bij P met LRP over pijnbeleving
- SEKS: geslacht vd P
- AGE: leeftijd (jaren)
- PAIN: pijnscore adhv VAS (0-100)
Continue variabele:
Onafhankelijke, continue variabele: leeftijd
Afhankelijke, continue variabele: pijnlevel
- Regressiecoëfficiënten:
B0=27
B1=0.85
4. SSE, SSR & SST: BELANGRIJKE GROOTHEDEN IN
REGRESSIEANALYSE
Zie ANOVA-tabel
4.1. SST (TOTAL SUM OF SQUARES)
Meet totale variabiliteit vd afhankelijke variabele YYY
Vertegenwoordigt totale afwijking vd geobserveerde waarden vh gemiddelde
vd afhankelijke variabele
Basismaat vr totale variatie in data
Uitgedrukt als:
Meet hoeveelheid variatie die door regressiemodel wordt verklaard
Vertegenwoordigt afwijking vd voorspelde waarden (Y^) vh gemiddelde v Y
(Y-)
Uitgedrukt als:
- Yî= voorspelde wwaarde v Y
- Y-= gemiddelde vd afhankelijke variabele
4.3. SSE (SUM OF SQUARED ERRORS)
Meet varaiite die niet door model wordt verklaard
Vertegenwoordigt som vd kwadraten vd verschillen tssn geobserveerde &
voorspelde waarden
Uitgedrukt als:
- Yi= geobserveerde waarde vd afhankelijke variabele
- Yî= voorspelde waarde vd afhankelijke variabele
3
, 4.4. SAMENHANG TSSN SST, SSR & SSE
SST=SSR+SSE
- SST= totale variatie in data
- SSR= deel vd variatie verklaard door model
- SSE= deel vd variatie niet verklaard door model
4.5. DE F-WAARDE, DE P-WAARDE & DETERMINANTIECOËFFICIËNT
F-waarde: maatstaf vr hoe goed het regressiemodel de data verklaart in
vergelijking met model zonder verklarende variabelen (nulmodel)
Vergelijkt verklaarde variatie (SSR) met onverklaarde variatie (SSE)
Formules:
- k= aantal onafhankelijke variabelen
- n= aantal overservaties
Is variatie verklaard door model significant groter dan variatie die niet wordt
verklaard?
Hogere F-waarde => model verklaart groot deel vd variantie
p<0.05 => model significant beter presteren dan schatting obv …
p-waarde: kans dat waargenomen F-waarde wordt verkregen als
nulhypothese waar is
- nulhypothese: stelt dat regressiecoëfficiënten=0
model heeft geen verklarende kracht
H0: geen verband tssn X & Y
Verwerpen lage p-waarde (<0.05)
Model verklaart significant deel vd variatie in Y
Niet verwerpen hoge p-waarde
Model niet veel beter dan nulmodel
- Alternatieve hypothese: stelt dat regressiecoëfficiënt=/0
H1: verband tssn X & Y
5. SCHATTING
A) Schatting obv gemiddelde tevredenheid
B) Houdt ook rekening met leeftijd
4
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur ellagoosens. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €13,46. Vous n'êtes lié à rien après votre achat.