Epidemiologie en biostatistiek III
Herhaling [Jos Twisk]
Typen onderzoek
Observationeel
o Case-control retrospectief selectie cases vergelijken met controles
o Cohort
Retrospectief terugvragen naar determinant (nu bepaalde
gezondheidstoestand meten en dit relateren met vroeger)
Transversaal nu (lastig om oorzaak en gevolg weer te geven)
Prospectief volgen (kost veel tijd en geld)
Experimenteel
o Prospectief effect medicijnen
Vertekening
Effect modificatie
o Definitie het effect is anders voor verschillende groepen
Confounding
o Definitie het gevonden effect is (gedeeltelijk) veroorzaakt door een andere
variabele, de confounder
o Twee punten nodig voor confouding:
Samenhangend met de uitkomst
Samenhangend met de determinant
o Effecten onderschatting of overschatting wanneer je rekening houd met
confounding
Mediator
o Dit ligt in het causale pad van oorzaak en gevolg
o Zelfde als confounder
o Bijvoorbeeld: roken bloeddruk omhoog MI
o Andere effect interpretatie voor nodig
o Drie punten nodig voor confounding:
Samenhangend met de uitkomst
Samenhangend met de determinant
Wel in causale pad
Je bent dan geïnteresseerd in een Effectmaat: Effectmaat:
verband tussen twee variabelen -verschil in -RR/RV/OR
gemiddelden
> 2 groepen Methode: Methode: Methode:
ANOVA Chi-kwadraat Log Rank Toets
Je bent dan geïnteresseerd in een toets
verband tussen meerdere variabelen Effectmaat:
-verschil in Effectmaat:
gemiddelden -RR/RV/OR
De relatie tussen een Methode: Methode: Methode:
continue/dichotome/dichotome+tijd- Lineaire regressie Logistische Cox-regressie
uitkomstvariabele en andere regressie
variabele Effectmaat: Effectmaat:
(2 groepen/meer dan 2 groepen) -Regressie Effectmaat: HR (hazard)
Je gaat dan een verband voorspellen coëfficiënt -OR
(lineair verband/kwadratisch verband)
1
,Keuze voor een statistische techniek
Onderzoeksvraag
Verdeling van de uitkomstvariabele
o Continu (alles mogelijk) of discreet (hele getallen)
o Dichotoom (0 en 1)
o Dichotoom + tijd (survival)
Continue uitkomstvariabele
1) Descriptive statistics eerste stap bij analyse
o Gaat over de uitkomstvariabele die je hebt gemeten
o Gemiddelde en SD (kleine spreiding grotere betrouwbaarheid)
2) Analyses
o Methode:
Analyseren van het verschil tussen de voormeting en de nameting
(bijvoorbeeld)
Vergelijken van verschilscores
o T-test vergelijking gemiddelde groepen (mean difference)
Hoort een betrouwbaarheidsinterval bij
Grootte hangt af van het aantal mensen meer mensen = kleiner
betrouwbaarheidsinterval
Spreiding hoe groter, des te groter het betrouwbaarheidsinterval
P-waarde kleiner dan 0.05 = significant
Testen h0 (h0 = er is geen verschil)
Nadeel: je kan niks met confounding/effectmodificatie
Aanname
o De te analyseren variabele is normaal verdeeld
o Wat als dit niet het geval is?
Dan zegt het gemiddelde niet zo veel (komt door uitbijters), wanneer je dit
vergelijkt dan bereken je meer de uitbijters
o Niet-normaal verdeelde variabelen, oplossing voor scheef naar rechts data:
Logtransformatie
Het verschil van 2 gemiddelde van de logaritmes is dan de uitkomst
Deze kun je terugtransformeren naar je oorspronkelijke data d.m.v. e-
macht dan wordt het een ratio i.p.v. verschil
Non-parametrische toetsen
Wanneer transformatie niet kan
Dan transformeer je de gegevens in rangnummers en daar doe je
dan uitspraken over, maan dan kom je nooit meer terug naar je
oorspronkelijke data
Je kan dan alleen een p-waarde berekenen (dus geen effect en
betrouwbaarheidsinterval) met de rangsomtoets/Mann-Whitney toets
Vergelijken van drie gemiddelde waardes/groepen
o Oftewel: vergelijken van de verschillen tussen de drie groepen
Toepassen variantie analyse (maar alleen p-waarde als uitkomst)
Analyseren van continue determinant en continue uitkomstmaat
o Voorbeeld: in hoeverre is leeftijd geassocieerd met pijnverandering?
o Leeftijd is een continue variabele geen t-test en geen ANOVA
o 1) Eerst grafiek maken x-as: determinant(voorspeller/co-variabele), y-as:
uitkomstvariabele
Je maakt een scatterplot (alle observaties worden in de grafiek geplaatst)
o 2) Analyse: lineaire regressie analyse
De afstand van de puntjes tot de lijn moeten zo klein mogelijk zijn die lijn
beschrijft dan het beste de relatie tussen x en y (determinant en
uitkomstvariabele)
De lijn wordt gekenmerkt door twee dingen:
o Y= b0 + b1 X
o B0 = de waarde van de uitkomst wanneer x = 0
o B1 = is het effect (de waarde als de determinant met 1
verschilt)
2
, De lineaire regressie coëfficiënt is gelijk aan het verschil in de
uitkomstvariabele wanneer de determinant 1 eenheid verschilt
Voorbeeld:
We veronderstellen een lineair verband tussen X en Y
Pijn verschil= b0 + b1 x leeftijd
B0 = pijnverschil bij leeftijd 0
B1 = verschil tussen leeftijd 1 en leeftijd 0, verschil tussen leeftijd 2
en leeftijd 1 etc.
o 3) Confounding en effectmodificatie
Eerst scatterplot maken
Dan lineaire regressie analyse weer een lijn voorspellen
Y = b0 + b1 X
X is nu 0 of 1 (placebo of medicatie gemiddelde)
B1 is het effect tussen de twee gemiddelde waardes/groepen
o In voorbeeld: -2.800
B0 gemiddelde groep 0 (placebo)
Vergelijking van 3 groepen
o Y = b0 + b1 groep (0,1,2,)
B0 = uitkomst wanneer x 0 is, oftewel waarde van groep 0
Maar dan heb je dat b1 niet klopt verschil tussen de groepen is niet
hetzelfde; dus geen lineair verband en de constante klopt niet. Je wilt de
onderlinge verschillen weten, dus maak je gebruik van dummy variabelen.
o Groep is echter geen continue variabele, maar een categoriale variabele die
geanalyseerd kan worden met dummies
Groep: Dummie 1 Dummie 2
0 0 0
1 1 0
2 0 1
o Y = b0 + b1D1 + b2D2
o Waarde groep 0: y0 = b0
o Waarde groep 1: y1= b0 + b1
o Waarde groep 2: y2 = b0+b2
o Nadeel: je refereert het altijd aan een groep (de referentiegroep)
o B0 = gemiddelde van groep 0
o B1 = verschil tussen groep 1 en 0
o B2 = verschil tussen groep 2 en 0
Dichotome uitkomstmaten
Drie effectmaten
o RV, RR, OR
1 toets: chi-kwadraat toets
o Bij de chi-kwadraattoets worden de verwachte aantallen in de cellen vergeleken met
de geobserveerde aantallen
o Hoe groter dat verschil, des te hoger de chi-kwadraat waarde des te lager de p-
waarde
o Ook te gebruiken bij vergelijken met 3 groepen moet je opsplitsen in 2x2 tabellen
o De toets zegt dus niks over de effectgrootte
Logistische regressie
o Verschil 2 en 3 groepen
o Is vergelijkbaar als lineaire regressie, alleen ziet de uitkomstvariabele er een beetje
raar uit (is natuurlijke logaritme)
o LN[odds(y=1)] = b0 + b1 x groep
o De regressiecoefficient kan worden omgezet in een odds ratio met emacht OR =
EXP (b)
o Met 3 groepen worden weer de dummies gemaakt
Uitkomst 3 odds ratios
Relatie tussen dichotome variabele en een continue variabele geldt natuurlijk hetzelfde
o Effectmaat is de odds ratio voor een verschil in een eenheid in de determinant
3
, Dichotome uitkomstvariebele + een tijdsindicator
o Voorbeeld: Herstel + tijd waarop herstel plaatsvindt
o Survival analyse
Twee overlevingscurven (kaplan meier curven) kunnen met elkaar vergelijken
worden met behulp van de log-rank toets
Geeft alleen p-waarde dus geen effect schatting
o Cox-regressie analyse
Zowel de verschillen tussen twee groepen als de verschillen tussen 3
groepen kun je hiermee analyseren
De uitkomstvariabele ziet er anders uit
Ln[hazard] = baseline hazard + b1 x groep
Uitkomst terugtransformeren exp (b)
o Deze interpreteer je als een hazard ratio
Je ziet nu geen b0
Er is geen b0, want het is een functie over de tijd. De kans op herstel
veranderd over de functie dus dit kan niet weergeven worden in een
getal
B1 wordt wel weergeven effect gemiddeld over de tijd (=verhouding van
twee curven over de tijd) veranderd ook over de tijd
o Hetzelfde geldt voor drie groepen dummies maken
Effectmaat is de hazard ratio voor een verschil in 1 eenheid in de determinant
Aanname: proportionele hazards
Opmerkingen regressie analyse
Controle op lineariteit van continue determinanten
o Toevoegen kwadraatterm significant? dan is het kwadratische verband beter
dan het lineaire verband
o Determinant opdelen in groepen (kwartielen)
Kijken of de regressie coëfficiënt gelijk op loopt hier valt geen rechte lijn
door te trekken
De effecten per groep moet je dan rapporteren
Confounding en effectmodificatie
o Effectmodificatie het effect is anders voor verschillende groepen
Toevoegen interactieterm (b3): vermenigvuldigen van de twee variabelen
waar het over gaat
Uitkomst = b0 + b1 x groep + b2 x sekse + b3 x groep x sekse
B1 = interventie effect effect voor sekse = 0
B1 + B3 = interventie effect voor sekse = 1
o Als deze twee bovenstaande verschillen, dan is er sprake
van effectmodificatie
o Kijken of dit (b3) significant is
o Confounding het gevonden effect is (gedeeltelijk) veroorzaakt door een andere
variabele, de confounder
Toevoegen variabele aan regressiemodel en kijken of de regressie coëfficiënt
van de determinant verandert
Vuistregel = meer dan 10% verandering = confounding
Elegante oplossing: presenteren van zowel ongecorrigeerde als
gecorrigeerde resultaten (in de praktijk wordt de 10% niet gebruikt, en altijd
de ongecorrigeerde en gecorrigeerde resultaten gepresenteerd(doe dit ook in
je opdracht), tenzij je heel veel confounders hebt):
Ruw, gecorrigeerde modellen met b, 95% BI en p-waarde
Predictiemodel
Beste en meest eenvoudige model (combinatie van variabelen) om een bepaalde
uitkomstvariabele te voorspellen
Dan ben je geïnteresseerd in alles en niet op een ding
Strategieën: forward en backward
4
,ANOVA & regressie [Lothar Kuijper]
Regressie revisited
Lineaire regressie
Hoe sterk is de samenhang tussen bijv. leeftijd (x) en bloeddruk (y)
Intercept lijn
o Y = b0 + b1x (regressievergelijking)
o Y = 0.3898x + 107.69
o Voor elk levensjaar (eenheid van leeftijd) neemt de bloedruk met 0.39 mm Hg toe
o Bij een leeftijd van 0 jaar (een pasgeborene) is de bloeddrukwaarde 107.7 mm Hg
Het best passende verband analyseer je door de variantie te analyseren
Variantie
Spreidingsmaat in onderzoeksgegevens xi x 2
Formule var
o Teller: kwadratensom (waarneming en gemiddelde) n 1
o Noemer: aantal vrijheidsgraden
Wortel van de variantie heet de standaarddeviatie
Voor berekening kwadratensom in gehele meetreeks gebruik je steekproefgemiddelde
o Voor elk meetpunt vergelijk je die met het gemiddelde en dit kwadrateer je
Kwadratensom: afstanden datapunten en rode lijn
y y 6473.9
2
i
Basis gedachte regressie
180
Deel van de variatie in gegevens is te verklaren door
determinant 160
o Methode: varieer met de sterkte van het
verband rond (Xgem; Ygem), zodat de 140
optelsom gekwadrateerde afstanden
120
geminimaliseerd wordt
Resulterend verband is de regressievergelijking: 100
o Y= 0,3898x + 107.69
y b b1 xi 20 5707.140
80 2
i 0 0 60 80
Vergelijking kwadratensommen
Hoe lager resterende kwadratensom, des te beter de fit, maar is deze voldoende verlaagd om
te kunnen spreken van statistische significantie?
6573.9
5707.1
Oplossen van spreiding
Door te fitten/passen los je een deel van de spreiding op
o Door te variëren met de hellingshoek
o Dat is de kwadratensom die hoort bij deze
hoek
6573.9 – 5707.1 = 866.8
Totale spreiding: 6573.9
Spreiding die we kwijtgeraakt zijn:
5
, 2
o 866..9 = 0.118 = 11.8% (=R : percentage van de spreiding dat verklaard
wordt door de determinant)
Van kwadratensom naar variantie
Variantie is de totale gegevensverzameling
Een variantie is een kwadratensom gedeeld door het aantal vrijheidsgraden
o Van elke geschatte parameter raak je een vrijheidsgraad kwijt
Populatiegemiddelde (n-1)
Hellingshoek heeft er 1 nodig
Wat overblijft is de residuele/onverklaarde variantie
Elke determinant heeft zijn eigen variantie
Voorbeeld (in stappen)
Variantie analyse [wat we nu hebben n.a.v. het voorbeeld: ]
Kwadratensom per spreidingsbron
D.f. per spreidingsbron
o Variantie is deling van die twee
Synoniem variantie = mean square (ms)
Door MS van een spreidingsbron af te zetten tegen residuele spreiding kunnen we statistische
significantie onderzoeken
o F-toets maakt dit mogelijk
Variantieanalyse
Als er in werkelijkheid geen verband bestaat, dan wordt de variatie in de hellingshoek van
gevonden verband door toeval bepaald en eveneens de spreiding in residuen
(toevalsspreiding)
o En dan zouden de ms regresie en ms residuen dezelfde verwachtingswaarde hebben
o F-toets: kijken of varianties significant van elkaar verschillen
6
, MS1 MSregressie
Fdf1 ,df 2
F-toets: MS2 MSresiduen
o H0: twee variantieschattingen zijn uitkomstig uit populaties met een gelijke variantie
(F (uitkomst) van 1)
o Formule: Ms regressie/Ms residuen = F (dan zou F 1 moeten zijn als er geen verband
is)
Hoe groter F des te meer spreiding wordt opgelost en hoe sterker het pleit
voor het niet waar zijn van de h0
Gebruik F-verdeling met df1 vrijheidsgraden in de teller en df2 in de noemer
voor bepaling p-waarde
Interpretatie p: de kans op het vinden van het gerealiseerde verband, of extremer, is 5.8% als
je aanneemt dat h0 klopt
Conclusie voorbeeld: de kans op het toevallig vinden van deze hellingshoek, of meer
afwijkend van 0, bedraagt 5.8%
Samenvatting
Regressie is een vorm van variantieanalyse
Je splitst de totale spreiding in je gegevens in een deel dat je kwijtraakt door de best
passende lijn te fitten + in een deel dat overblijft (toevalsspreiding)
2
o R geeft de verhouding tussen die twee
o Je gebruikt de MS’s (varianties) voor de F-toets
ANOVA
Analysis of variance
Gebruiken bij: categoriale determinanten
Voorbeeld supermarktonderzoek
Aantal variabelen – 1
o Vrijheidsgraden
o Elke dummy is een te schatten parameter: je schat dus twee hellingshoeken
Dummies nadelen:
o Referentiegroep moeten veranderen voor andere vergelijkingen
o Je krijgt geen eenduidig antwoord wanneer je dummies verschillende p waarden heeft
(wel of niet significant)
o Dummy regressie geeft geen antwoord op een overall effect van aanprijzing in de
supermarkt
7
, Oplossing:
o ANOVA
o Het splitst de totale variantie in gegevens in
Een deel dat je kwijtraakt als je ze indeelt in groepen
Een deel dat overblijft (toevalsspreiding)
o Voorbeeld:
H0: voor alle populaties geldt dat de verwachtinswaarde gelijk is
H1: minstens een van de verwachtingswaarden verschilt van de andere
Als we h0 verwerpen, dan concluderen we dat de aankoop van de gezonde
producten samenhangt met de wijze van adverteren
ANOVA – werking
Gegevens en groepsgemiddelden hebben een spreiding 15
Is toeval een goede verklaring zijn voor de spreiding in 12
groepsgemiddelden? 9
o In het voorbeeld: zou best een toeval zijn
6
o ANOVA geeft hier antwoord op
Stappenplan: 3
o Bepaal kwadratensom alle gegevens 0
Groep 1 Groep 2 Groep 3
o Bepaal residuele kwadratensom na analyse van
gegevens per groep
o Bepaal het aantal vrijheidsgraden
1. Alle groepen bij elkaar (=totaal) – gemiddelde van gegevens
Bepaald kwadratensom
Resultaat in dit voorbeeld = 2545
2. Bepaal voor elke groep de kwadratensom rond groepsgemiddelde
Per groep moet je optellen (= residuen)
Resultaat in dit voorbeeld = 2217.5
Je ziet dan een vermindering in het voorbeeld
3. Van elkaar aftrekken (=regressie)
4. Aantal vrijheidsgraden voor dummies: 3-1 = 2
5. Resterend aantal: 89-2 = 87
Immers voor elke groep 30-1 = 29 df
o Mean square
MS (mean square) regressie: 163.7
MS residuen: 25.5
Dit is een groot verschil
8
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller Naomi12. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.77. You're not tied to anything after your purchase.