Geneeskunde jaar 2
Inhoudsopgave
Versatest modules .......................................................................................................................................... 2
Module 1 – Een introductie van regressiemodellen ............................................................................................ 2
Module 2 – simpele lineaire regressie ................................................................................................................ 3
Module 3 – eenvoudige lineaire regressie: binaire verklarende variabele ......................................................... 7
Module 4 – simpele lineaire regressie: categorische verklarende variabele met meer dan 2 categorieën ........ 8
Module 5 – Multiple lineaire regressie ............................................................................................................. 11
Module 6 – Interacties in lineaire regressie ...................................................................................................... 18
Module 7 – simpele logistische regressie.......................................................................................................... 20
Module 8 – meervoudige logistische regressie ................................................................................................. 30
,Versatest modules
Module 1 – Een introductie van regressiemodellen
Significante lineair verband tussen twee continue variabelen;
- Correlatiecoëfficiënt van Pearson: als de variabelen normaal zijn verdeeld;
- Correlatiecoëfficiënt van
è Dit geeft een verband; nog geen manier om de uitkomstvariabele met behulp van de
verklarende variabelen te voorspellen.
,Module 2 – simpele lineaire regressie
Doel van Lineaire regressie: het vinden van de best passende lijn, gegeven door alle data
punten in een scatterplot.
- De beste lijn is de lijn waarbij de som van de kwadraten van de residuale lijn van alle
individuele punten het kleinste is (=de kleinste kwadraten).
o Residuale lijn = de lijn van elk punt tot de regressielijn.
§ Elk individueel punt heeft een individuele regressielijn.
- De lijn heeft de vorm van Y = ax + b à in statistiek ook wel
Y = b0 + b1 x X
o B0 = intercept
§ Het snijpunt van de lijn met de Y-as bij X=0
§ Ook wel de constante genoemd
o B1 = de helling / richtingscoëfficiënt / slope
§ Positief: lijn gaat omhoog // negatief: lijn
gaat naar beneden
è De waarden van b0 en b1 zijn schattingen van de populatieparameters b0 en b1
Eenvoudige lineaire regressie in SPSS
1. Kies Analyse à Regressie à Lineair
2. In het lineaire regressievenster: vul de uitkomstvariabele in het vak met de naam
‘afhankelijk’ in (y) (=responsvariabele / uitkomstvariabele) en de verklarende
variabele in het vak ‘onafhankelijk’ (x) (=verklarende variabele / voorspeller)
3. Drie tabellen worden gegeven (à zie aantekeningen college 1)
a. Modelsamenvatting
b. ANOVA-tabel
c. Coëfficiëntentabel
i. Bevat schattingen
1. Intercept
2. Richtings-coëfficiënt
4. De coëfficiëntentabel: testen van de nullhypothese
a. H0 = geen verband tussen uitkomstvariabele en de verklarende variabele
, i. De lijn is horizontaal: H0: b1 = 0
b. De standaardfouten van de coëfficiënten worden gegeven als maatstaven
voor onzekerheid;
i. Worden gebruikt voor het construeren van
betrouwbaarheidsintervallen en statistische testen
c. De geschatte coëfficiënt b1 wordt gestandardiseerd tot een t-waarde, door de
geschatte waarde (b1) te delen door zijn standaard error (SE(b1))
i. Deze t-waarde wordt vergeleken met een t-verdeling met aantal
vrijheidsgraden gelijk aan n-2 (met n = sample grootte)
1. Twee vrijheidsgraden (df) raken verloren, omdat twee
parameters (b0 en b1) geschat zijn
ii. De t-waarde resulteert in een P-waarde
iii. De P-waarde wordt vergeleken met het significantie level a = 0,05
1. P ≤ a à verwerp nulhypothese
2. P ≥ a à verwerp de nulhypothese niet
d. De schatting van de helling van de lijn is gebaseerd op een random sample
5. ANOVA-tabel
a. H0 = uitkomstvariabele is niet afhankelijk van de verklarende variabelen in het
model; dus het totale model illustreert niets
i. H0: b1 = b2 = …. = bk = 0
ii. Bij een eenvoudige lineaire regressie heb je maar 1 verklarende
variabele, en dus is de H0 gelijk aan die van puntje 4
b. De P-waarde in de ANOVA-tabel is altijd gelijk aan de P-waarde van de t-test
voor de helling, als het gaat om eenvoudige lineaire regressie
c. De test in de ANOVA-tabel is gebaseerd op het splitten van de ‘som van de
kwadraten’
i. De totale variatie in uitkomst variabele Y kan worden weergegeven
als: (= de totale som van de kwadraten)
ii. Als je de totale som van van de kwadraten verdeelt, krijg je een deel
‘regressie’ (=verklaard) en een deel ‘residuaal’ (=onverklaard)
1. E.g. een oud persoon met een extreem hoge bloeddruk, kan
worden verklaard door de leeftijd (part explained), maar niet
alleen door de leeftijd (part unexplained)
d. De F-waarde in de tabel is het gemiddelde kwadraat van regressie gedeeld
door het gemiddelde kwadraat van de residuen.
i. Als H0 waar is, verwacht je de F-waarde dichtbij 1
ii. Bij een F-waarde van 8, betekent dit dat het verklaarde deel 8 keer zo
groot is als het restdeel.
6. Model of summary
a. Vier schattingen worden gegeven
i. R Square (=R kwadraat) = het percentage dat wordt verklaard met dit
model