SAMENVATTING EPIDEMIOLOGIE EN BIOSTATISTIEK II
INHOUDSOPGAVE
Analyseren van continue uitkomstmaten
Twee groepen p.
Meer dan twee groepen p.
Lineaire regressie analyse p.
Lineairiteit p.
Scheef verdeelde uitkomstvariabelen p.
Confounding en effectmodificatie (multiple regressie analyse) p.
Analyseren van dichotome uitkomstmaten
Twee groepen p.
Meer dan twee groepen p.
Logistische regressie analyse p.
Likelihood ratio p.
Logistische regressie met een categoriale determinant p.
Logistische regressie met een continue determinant p.
Confounding en effectmodificatie (multiple regressie analyse) p.
Analyseren van dichotoom + tijd uitkomstvariabelen (survival data)
Twee groepen p.
Meer dan twee groepen p.
Cox regressie analyse p.
Cox regressie analyse + tijd p.
Confounding en effectmodificatie (multiple regressie analyse) p.
Multiple regressie analyse
Associatiemodel p.
Predictiemodel p.
Valkuilen
Te veel variabelen in een regressie, rare verdeling variabelen, collineariteit, confounding en mediatie
, Continu Dichotoom Dichotoom+tijd
2 groepen Methode: Methode: Methode
Onafhankelijke t- Chi-kwadraat Log Rank Toets
toets toets
Je bent dan geïnteresseerd in een Effectmaat: Effectmaat:
verband tussen twee variabelen -verschil in -RR/RV/OR
gemiddelden
> 2 groepen Methode: Methode: Methode:
ANOVA Chi-kwadraat Log Rank Toets
Je bent dan geïnteresseerd in een toets
verband tussen meerdere variabelen Effectmaat:
-verschil in Effectmaat:
gemiddelden -RR/RV/OR
De relatie tussen een Methode: Methode: Methode:
continue/dichotome/dichotome+tijd- Lineaire regressie Logistische Cox-regressie
uitkomstvariabele en andere regressie
variabele Effectmaat: Effectmaat:
(2 groepen/meer dan 2 groepen) -Regressie Effectmaat: HR (hazard)
Je gaat dan een verband voorspellen coëfficiënt -OR
(lineair verband/kwadratisch verband)
Effectmaat: het geen dat je wilt weten
1
,Epidemiologie en biostatistiek I Hoorcollege 1
Analyseren van Continue uitkomstvariabelen (1)
Statistische techniek
Op basis van een onderzoeksvraag
Kijken naar de verdeling van de uitkomstvariabele
o Dichotoom of continue
Uitkomstvariabele
Continu
o Alle waardes die je kan bedenken die mogelijk zijn (bloeddruk en gewicht)
o Uitspraken worden gedaan over het gemiddelde van de waardes
Discreet
o Je kan niet alle waardes bedenken die mogelijk zijn (bijvoorbeeld hartslag)
o De uitkomst is in eenheden met telkens dezelfde afstand: 120, 121 en geen 121,5
Dichotoom
o Twee mogelijkheden
o Wel of niet ziek
Dichotoom + tijd
o Dan heb je informatie over waar de dichotome uitkomst plaatsvindt
I Het vergelijken van twee groepen
Voorbeeld
Cross sectioneel cohort onderzoek
o Je meet op dit moment
Uitkomstvariabele: cholesterol
Berekening:
o Wat is het verschil in cholesterol concentratie tussen mannen en vrouwen?
Wat:
Je dan gaat het gemiddelde van de groep mannen vergelijken met het
gemiddelde van de groep vrouwen
o Mannen 4.86 (0.75SD) en vrouwen 4.54 (0.83SD)
SD = standaard deviatie (het geeft de verschillen aan
binnen de groep)
Antwoord:
0.32 mmol/l
Vertaalslag naar de hele populatie:
Wanneer de spreiding heel klein is, dan is men zeker van het resultaat van
het cholesterol.
o Hoe groter de spreiding, des te onzekerder het resultaat
Grote van de groep speelt ook een rol:
o Hoe kleiner de groep des te minder zeker men is van het resultaat
Group Statistics
Std. Error
sex N Mean Std. Deviation Mean
cholesterol in mmol/l female 47 4,5453 ,83957 ,12246
male 53 4,8645 ,75454 ,10364
Standard error of the mean
Spreiding en grootte van de groep speelt hierbij een rol
2
,Schatten
Oftewel: effect en het betrouwbaarheidsverschil bereken je dan
o Effect = het verschil tussen gemiddelde waardes
Wat:
o Je brengt dan een onzekerheid (een BI-interval) rondom het gevonden effect
Hoe groter het betrouwbaarheidsinterval: des te onzekerder de resultaten
Het geeft iets weer over de onzekerheid
Statistisch toetsen
o Het berekenen van de kans op het gevonden resultaat (of nog extremer weg van de 0-
hypothese) als eigenlijk de 0-hypothese waar is
Hoe goed past het effect wat ik vind bij de nul hypothese, want deze zegt: er is geen
verschil
Als de 0-hypothese klopt: dan vind ik een hoge P-waarde
Als de 0-hypothese niet klopt: dan vind ik een lage P-waarde
En dan is de uitkomst significant en geldt de H0 niet
Hoe
o Je berekend geen kans, maar de kans dichtheid (schatten de grootte van het effect)
Je kijkt in SPSS naar de Mean Difference. Hier vindt je -0,32
Vervolgens kijk je naar de 95%-BI van de Mean Difference.
Met 95% zekerheid kunnen we stellen dat de uitkomst tussen de -0,63 en -
0,0028 ligt
P-waarde (toetsen)
o 0,048
o Hoe deze tot stand is gekomen:
T = geobserveerde verschil – verschil bij H0 / Std. Error Difference
T = 0,32 – 0 / standaard fout
Independent Samples Test
t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
t df Sig. (2-tailed) Difference Difference Lower Upper
cholesterol in mmol/l -2,003 98 ,048 -,31921 ,15940 -,63554 -,00288
Belangrijke aanname
Het gemiddelde moet een goede weergave zijn voor wat je in de groep vindt
De uitkomstvariabele is normaal verdeeld, wat te doen als dit niet het geval is?
o Een scheef naar rechtse verdeling
o Dan krijgt je uitkomst invloed van de uitbijters en krijg je niet het gemiddelde
Scheef naar rechtse verdeling
Transformeren
o Normaliseren van de grafiek
o Bijvoorbeeld: log-transformatie
Non-parametrische toetsen
o Dan kijkt men naar rangnummers (welke je dan moet vergelijken)
De laagste waarde geef je het cijfer 1 enzovoort en vervolgens toets je de
rangnummers van twee groepen met elkaar
Je komt dan helaas niet meer terug op je oorspronkelijke waarde
Mann-whitney toets
o Toets techniek: alleen p-waarden
o Alleen gebruiken wanneer de populatie (heel) klein is
3
,II Het vergelijken van meer dan twee groepen
Voorbeeld
Wat is de relatie tussen cholesterol en alcohol gebruik?
Drie groepen: niet drinkers, matige drinkers (1-2glazen) en zware drinkers (meer dan 2 glazen)
Wat:
o Variantie analyse (ANOVA) – (Wordt niet naar gevraagd in het tentamen)
De variantie die je vind in een groep observatie opdelen in stukjes
De verschillen die je vindt tussen de mensen te verklaren door een andere
variabele (bijvoorbeeld geslacht)
De spreiding die je vindt ga je dus verklaren door middel van andere variabelen
Hoe:
o Je werkt dan met kwadraatsommen (geeft de spreiding van de data weer)
Groepen gemiddelden vergelijk je met het overall gemiddelde
2 2
SST = 5 - 4 + 5 - 4 + …. = 22
SST = Totale sums of squares
Je gaat kijken hoeveel van de 22 wordt verklaard door de groepsverschillen
Je gaat dan twee andere SUMS of squares berekenen:
SSB = vermenigvuldigen van de observaties (6) x SSt
o 12 van de 22 worden toe te schrijven aan groepsverschillen
o SSB = tussen de groepen
SSW = 22 – 12 = 10
o 10 zijn de binnengroepsverschillens
o SSW = binnen de groepen
o Je vindt uiteindelijk een p waarde (0,003)
H0 = het gemiddelde van de groepen zijn hetzelfde
En deze kans is klein (0,003), oftewel: er is een significant verschil tussen de
groepen ANOVA
UITKOMST
Sum of
Squares df Mean Square F Sig.
Berekening:
Betw een Groups 12,000 2 6,000 9,000 ,003
o Niet drinkers: 4,86 (0,63)
Within Groups 10,000 15 ,667
o 1-2 glazen per dag: 4.29 (0,77)
Total
o 2 glazen per dag 5.18 (0,83) 22,000 17
Je kan dan een ANOVA doen
De kans dat je de drie gemiddelde vind (of nog verder weg van de H0), oftewel H0
klopt, die kans is klein
Oftewel: er is een significant verschil in cholesterol en drinken
4
, Lineaire regressie analyse
Om de relatie tussen variabelen (dichotoom/continue) te relateren aan de continue uitkomst
Deze is gelijk aan het verschil tussen de gemiddelde waarden van de twee groepen
Voorbeeld
Wat is de relatie tussen cholesterol en leeftijd?
Leeftijd is een continue determinant
1. maak een plaatje:
o Uitkomst op y-as
o Variabele op x-as
o Je gaat dan de individuele observaties plaatsen (puntjes)
2. Trek een rechte lijn:
o Maak de beste lijn door de puntjes (deze wordt geschat met de kleinste kwadraten methode)
Met als eigenschap dat de afstand tussen de puntjes en de lijn zo klein mogelijk is
3. Parameters:
o Beschrijving van de lijn maken:
Y = b0 +b1 x leeftijd
Voorbeeld: Cholesterol = 35 + 0.1 x leeftijd
B0 is de snijpunt met de Y-as. En het is de uitkomst van de variabele bij X (leeftijd) 0
is
B1 is het verschil in cholesterol tussen bijvoorbeeld 29 en 30 jaar:
35 + 0.1 x 30
35 + 0.1 x 29
o Verschil: 0.1
Zegt iets over de relatie over leeftijd en cholesterol
Als de X variabele een eenheid verschilt, verschilt de uitkomstvariabele altijd
0.1
Voorbeeld
Zowel het verschil tussen twee groepen als het verschil tussen drie groepen kan geanalyseerd worden
met behulp van lineaire regressie analyse
Mannen coderen als 1 en vrouwen coderen als 0 op de x-as
5