samenvatting statistiek 3 & EBM, partim statistiek, cursustekst+ppt+eigen notities, Prof. Tine Willems (Topic 3) & Prof. De Pauw (Topic 1 & 2)
samenvatting is aangepast na het studeren
HOOFDSTUK 1: ENKELVOUDIGE
LINEAIRE REGRESSIE
Gebruikt om relatie tssn 1 onafhankelijke variabele & 1 afhankelijke variabele
te modelleren
Doel: afhankelijke variabele voorspellen obv onafhankelijke variabele
voorspellen vd effecten v fysieke activiteit op LG of gezondheid
cohorte: voorspellen uitkomstmaat obv 1/meerdere factoren
vertrekt v gezonde populatie die ziekte nog niet heeft doorlopen (incidentie)
vereist longitudonale follow-up
cross-sectionele studie: beschijven verband tssn uitkomstmaat & andere
factoren, waarbij rekening wordt gehouden met verstorende variabelen
vertrekt v populatie die zowel gezond als ziek is (prevalentie)
vereist geen longitudonale follow-up
1. REGRESSIEFORMULE
Y=B0+B1X+ ε
1
, - Y= afhankelijke variabele
- X= onafhankelijke variabele
- B0= intercept
Voorspelde waarde van Y X=0
- B1= regressiecoëfficiënt
Hoeveel afhankelijke variabele verandert onafhankelijke variabele
met 1 eenheid toeneemt
- ε=foutenterm
verschil tssn geobserveerde waarde & waarde voorspeld door model
2. DETERMINANTIECOËFFICIËNT (R 2 )
Hoeveel vd variantie in afhankelijke variabele wordt verklaard door
onafhankelijke variabele
Hogere R2 => model past beter bij data
Vb: R2=0.72:
- 72% vd variantie in BMI wordt verklaard door aantal uren sport per week
- Overige 28% wordt verklaard door andere factoren die niet in model zijn
opgenomen
3. PRAKTISCH VOORBEELD MET DATASET
10 observaties: effect vh aantal sport per week op BMI
Regressieformule: BMI=B0+B1(Uren sport) + ε
BMI=26-0.8*(Uren sport) + ε
Intercept (B0=26): persoon die geen uren sport per week, heeft
voorspelde BMI van 26
Regressiecoëfficiënt (B1=-0.8): voor elk extra uur sporten, neemt BMI
gemiddeld met 0.8 eenheden af
3.1. INTERPRETATIE
Correlatie (Pearson correlatie): geeft weer hoe sterk het lineaire verband
is
Alle punten exact op 1 lijn liggen? Correlatie gelijk aan 1 of -1
Lineaire regressie: geeft interpretatie aan correlatielijn in oorspronkelijke
eenheden v X & Y
3.2. CONTINUE VS CATEGORISCHE VARIABELE
Vb: bevraging bij P met LRP over pijnbeleving
- SEKS: geslacht vd P
- AGE: leeftijd (jaren)
- PAIN: pijnscore adhv VAS (0-100)
Continue variabele:
Onafhankelijke, continue variabele: leeftijd
Afhankelijke, continue variabele: pijnlevel
- Regressiecoëfficiënten:
B0=27
B1=0.85
4. SSE, SSR & SST: BELANGRIJKE GROOTHEDEN IN
REGRESSIEANALYSE
Zie ANOVA-tabel
4.1. SST (TOTAL SUM OF SQUARES)
Meet totale variabiliteit vd afhankelijke variabele YYY
Vertegenwoordigt totale afwijking vd geobserveerde waarden vh gemiddelde
vd afhankelijke variabele
Basismaat vr totale variatie in data
Uitgedrukt als:
Meet hoeveelheid variatie die door regressiemodel wordt verklaard
Vertegenwoordigt afwijking vd voorspelde waarden (Y^) vh gemiddelde v Y
(Y-)
Uitgedrukt als:
- Yî= voorspelde wwaarde v Y
- Y-= gemiddelde vd afhankelijke variabele
4.3. SSE (SUM OF SQUARED ERRORS)
Meet varaiite die niet door model wordt verklaard
Vertegenwoordigt som vd kwadraten vd verschillen tssn geobserveerde &
voorspelde waarden
Uitgedrukt als:
- Yi= geobserveerde waarde vd afhankelijke variabele
- Yî= voorspelde waarde vd afhankelijke variabele
3
, 4.4. SAMENHANG TSSN SST, SSR & SSE
SST=SSR+SSE
- SST= totale variatie in data
- SSR= deel vd variatie verklaard door model
- SSE= deel vd variatie niet verklaard door model
4.5. DE F-WAARDE, DE P-WAARDE & DETERMINANTIECOËFFICIËNT
F-waarde: maatstaf vr hoe goed het regressiemodel de data verklaart in
vergelijking met model zonder verklarende variabelen (nulmodel)
Vergelijkt verklaarde variatie (SSR) met onverklaarde variatie (SSE)
Formules:
- k= aantal onafhankelijke variabelen
- n= aantal overservaties
Is variatie verklaard door model significant groter dan variatie die niet wordt
verklaard?
Hogere F-waarde => model verklaart groot deel vd variantie
p<0.05 => model significant beter presteren dan schatting obv …
p-waarde: kans dat waargenomen F-waarde wordt verkregen als
nulhypothese waar is
- nulhypothese: stelt dat regressiecoëfficiënten=0
model heeft geen verklarende kracht
H0: geen verband tssn X & Y
Verwerpen lage p-waarde (<0.05)
Model verklaart significant deel vd variatie in Y
Niet verwerpen hoge p-waarde
Model niet veel beter dan nulmodel
- Alternatieve hypothese: stelt dat regressiecoëfficiënt=/0
H1: verband tssn X & Y
5. SCHATTING
A) Schatting obv gemiddelde tevredenheid
B) Houdt ook rekening met leeftijd
4
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper ellagoosens. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €13,46. Je zit daarna nergens aan vast.