Voortgezette statistiek en methoden van onderzoek
GZW3024
Inhoud
Voortgezette statistiek en methoden van onderzoek................................................................................... 1
Hoorcolleges .................................................................................................................................................. 2
Openingscollege ........................................................................................................................................ 2
HC01 Epidemiology – Measures of disease frequency & observational study design.............................. 3
HC02 – herhaling en MLR .......................................................................................................................... 7
HC03 – Linear regression 2 ...................................................................................................................... 12
Checking Assumptions with Residual Plots – JB statistics (youtube) .................................................. 18
HC04 – Bias en confounding – Martijn Bours.......................................................................................... 19
HC05 – Logistic regression....................................................................................................................... 41
HC06 – Mixed regression......................................................................................................................... 48
HC07 – Experimental studies................................................................................................................... 61
HC08 – Validity, reliability and responsiveness ....................................................................................... 69
HC11 – Reliability and validity – Part 1.................................................................................................... 82
HC12 – Reliability and validity – Part II.................................................................................................... 94
HC13 – Causality and causal inference.................................................................................................. 103
HC14 – Power analysis and sample size calculation & choice of analysis technique............................ 113
HC15 – Designing epidemiologic research ............................................................................................ 127
Seminars – Uitwerkingingen + verbeteringen van de homework assignments ........................................ 132
Seminar 01............................................................................................................................................. 132
Seminar 02............................................................................................................................................. 139
Seminar 03............................................................................................................................................. 150
Seminar 04............................................................................................................................................. 159
Seminar 05............................................................................................................................................. 168
Seminar 06............................................................................................................................................. 182
Seminar 07............................................................................................................................................. 194
Seminar 08............................................................................................................................................. 203
Seminar 09............................................................................................................................................. 209
Seminar 10............................................................................................................................................. 218
1
, Seminar 11............................................................................................................................................. 230
Seminar 12............................................................................................................................................. 241
Seminar 14............................................................................................................................................. 259
Seminar 15............................................................................................................................................. 268
Seminar 16............................................................................................................................................. 276
Seminar 17............................................................................................................................................. 284
Seminar 18............................................................................................................................................. 297
Seminar 20............................................................................................................................................. 302
Seminar 21............................................................................................................................................. 308
Seminar 22............................................................................................................................................. 318
Seminar 23............................................................................................................................................. 326
Seminar 24............................................................................................................................................. 332
Seminar 25............................................................................................................................................. 338
Hoorcolleges
Openingscollege
Uitleg Casus 1
In iedere leeftijdscategorie komt depressie vaker voor bij vrouwen dan bij mannen. Er moet een goede,
niet te dure therapie voor komen, want omvangrijk probleem.
◼ Primary research question – does BtB reduce depressive symptoms substantially over a period of
six months, when compared to treatment as usual in general practice (TAU – treatment as
usual)?
◼ Secondary research questions:
o Does BtB reduce the chance of having a depressive disorder, one year after the end of
treatment, when compared to TAU?
o Is this effect of BtB versus TAU, after one year, modified by gender?
➔ Deze vragen beantwoorden adhv deelvragen/issues → zie 5 issues/vragen op slides.
o Discontinued intervention → hebben we geen informatie over, dus hoef je ook niet te
beantwoorden.
o Interne validiteit → in hoeverre gaan de conclusies die je trekt op/zijn deze valide voor
jouw doelpopulatie.
o Externe validiteit → in welke mate kan ik deze conclusies generaliseren? Gelden ze ook
voor andere personen/tijden/situaties?
2
,HC01 Epidemiology – Measures of disease frequency & observational study design
Etiologie – zoeken naar oorzaken. Als je deze weet dan kun je ziekte voorkomen.
Diagnose – vaststellen. Screening → er op tijd bij zijn, vroeg opsporen.
Prognose – + wat is de beste therapie om de prognose te verbeteren?
Epidemiologen gebruiken verschillende maten voor de maten van ziekten.
◼ Prevalentie – hoe vaak komt het voor?
◼ Incidentie – hoeveel nieuwe gevallen van de ziekte in een bepaalde periode?
o Beide pas je toe op een bepaalde populatie.
o Both measures relate the number of disease cases to the population at risk
Prevalentie
Puntprevalentie
➔ Hoeveel mensen zijn er op een bepaald moment ziek?
Part of population that is diseased at a certain point in time.
◼ Bv. point prevalence of arthrosis NL 65+ on 01-01-2016: 21%
Periode-prevalentie
Part of population that is diseased within a time period.
◼ Bv. ‘common cold’ among UM employees in 2016: 37%
◼ Lijkt op incidentie, maar hier sluit je niet uit mensen die het nieuw ontwikkeld hebben!
◼ !Note: use the mid-term population if Nbegin ≠ Nend.
Life-time prevalence
Part of population that was diseases during life.
◼ Bv. life-time prevalence of kidney stones among Dutch men: 12%.
Incidentie – gaat altijd over nieuwe gevallen. 2 typen:
◼ Cumulatieve incidentie (CI)
◼ Incidense density (ID) of incidence rate
Depending on type of population (closed or dynamic)
◼ Closed – cohort → stellen we samen en sluiten we af. Volgen we voor een bepaalde tijd. Komen
geen mensen meer bij.
o In de loop van de tijd zal de cohortpopulatie afnemen (overlijden, stoppen).
3
, o Bv. mensen die starten aan GW.
o Zie slides.
◼ Dynamic – je kunt in- en uitstromen, verschilt in grootte.
o Nadeel – je weet niet precies hoeveel mensen er in zitten.
o Bv. mensen die wonen in Maastricht (verhuizen, overlijden)
Cumulative incidence (CI)
◼ Size of study population does not change over time (closed!).
◼ Unit: proportion, % - All members of population are ‘at risk’ at T0 (> exclude all prevalent cases!).
◼ Specify period P: complete follow-up of all members of the population is required (~loss to
follow-up unwanted). → over hoeveel tijd betrekken we deze observatie?
◼ Interpretation: ‘absolute risk’ (mean individual risk during follow-up) → hoe groot is het risico
dat iemand een bepaalde ziekte krijgt die die ziekte nog niet heeft?
◼ Rekenvoorbeeld → zie slide 18.
Incidence dichtheid/ratio
◼ Unit: year-1 (=rate: numbers/time)
◼ Voordeel – Complete follow-up of all members of the population is NOT required → je hoeft niet
alle mensen gedurende de hele tijd te volgen.
◼ Hoelang volg je iedere persoon?
◼ Rekenvoorbeeld → zie slide 20.
◼ Persoonsjaren – hoeveel jaren je ze gevolgd hebt.
◼ Het kan ook dat mensen die al eens gevolgd zijn, opnieuw gevolgd worden (dan nemen de
persoonsjaren dus toe) → zie slide 21.
Wat voor incidenties kun je uitrekenen bij een gesloten cohord? → CI en ID!
Wat voor incidenties kun je uitrekenen bij een dynamisch cohord? → alleen ID!
Relatie tussen prevalentie en incidentie
4
,Prevalentie kun je uitrekenen/schatten met deze formule.
→ Omgekeerd kun je ook de gemiddelde duur van een
ziekte schatten als je de prevalentie en incidentie weet.
➔ Vaak weet je 2 van deze maten en wil je de 3de
weten, dus deze samenhang is van belang!
Bovenstaande maten worden vaak in de descriptive
epidemiology gebruikt.
◼ Who is diseased?
◼ Is the disease occurence stable or changing?
◼ Bv. nuttig bij het maken van beleid.
Analytische epidemiologie → wat is nou oorzaak en
gevolg?
◼ Kunnen we oorzaak-gevolg relaties uit observationeel onderzoek halen?
Experimentele epidemiologie → is veel lastiger (ethisch gezien).
Deel II – Observational study designs → measures of association.
Definition study design:
◼ A study design is a specific plan or protocol for conducting a scientific investigation, which
enables the researcher to:
o Translate the conceptual hypothesis into an operational one.
o Statistically test the formulated hypothesis.
Conceptual hypothesis:
◼ Selenium intake is associated with a decreased risk of advanced prostate cancer.
Operational hypothesis (waar we wat meer mee kunnen):
◼ Selenium levels, as measured by neutron activation analysis of toenail specimens, are associated
with a decreased risk of advanced prostate cancer, defined as a prostate cancer diagnosis based
on histology and staging diagnostics TNM = T3 or 4, N+, or M+.
Empirische cyclus.
5
,Verschillende designs → zie slides.
Associatiematen
Cohort-study
0 < RR < 1 – determinant is a protective factor
RR = 1 – determinant has no effect
RR > 1 – determinant is a risk factor
➔ Relative Risk (RR) = Indicence ziekte/
incidence normaal
o RR = incidence density ratio
o Bv. RR = 2 → obese mannen hebben
een 2 x zo groot risico om te sterven
dan mannen met een normaal gewicht.
Risk difference (RD), excess risk:
RD = incidenceobese– incidence‘normal weight’ → je trekt het van elkaar af dus bv. /1000 per jaar blijft staan
→ Hoeveel is te wijten aan obesitas (van de gestorven obese mannen)
Attributable proportion among the exposed (APE , EF)
Incidence(obese)– incidence(’normal weight’) / Incidence(obese)
➔ Dit is in de groep die het heeft (APe), maar je kan dit ook berekenen voor de totale populatie
(APt).
Case-control study → hierbij kun je geen RR berekenen!
Cases worden vaak uit een ziekenhuis gehaald, we selecteren hier cases die al ziekte hebben.
◼ Probleem – we willen de cases vergelijken met controlepersonen, maar waar haal je die
vandaan? Lastig: want je wilt deze uit de base-populatie halen waar ook de cases uitkomen. Dus
wie is niet, maar had wel in dit ziekenhuis terecht kunnen komen met deze ziekte?
◼ Je geeft iedereen (controle + cases) een vragenlijst of (bloed)bepalingen en je vergelijkt de
uitkomsten.
6
, ◼ Probleem – we hebben geen idee wat de incidentie (ID en CI) is → dus daarom kunnen we ook
geen RR uitrekenen. De cases zijn geselecteerd en dus niet verschenen in onze studie. → DUS
rekenen we de odds ratio uit → (a x d)/(b x d)
o Is niet helemaal hetzelfde als de RR als we een heel zeldzame ziekte hebben. Met de
odds ratio (OR) schat je de RR.
o Interpretatie – the “risk” of HEART FAILURE for subjects with a BMI ≥25 is 2.59 x higher
compared to subjects with BMI <25.
o Bv. de kans dat jouw club wint vs. de kans dat jouw club niet wint? → waarschijnlijkheid
op de ziekte/ (1 – waarschijnlijkheid op de ziekte).
◼ Voordelen → zie slides.
◼ Nadelen
o Recall-bias (als je kanker krijgt, dan zeg je misschien bij ‘heb je ooit gerookt’ dat ene
sigaretje wel, als je gezond bent zal je dan bv. eerder nee antwoorden.
o Biomarkes kunnen niet gebruikt worden (terug in de tijd), heel soms als er bijvoorbeeld
nog iets in de diepvries ligt in het ziekenhuis, maar dit geldt zelden ook voor de
controlepersonen. Genetische markers zijn wel mogelijk.
Betrouwbaarheidsinterval: bij RR/OR kijk je of de 1 binnen het interval ligt, en bij attributief risico kijk je
naar de 0. - Attributief risico: risicoverschil, geen effect = 0. - RR/OR: relatieve uitkomst, dus geen effect =
1.
HC02 – herhaling en MLR
Het doel van een regressielijn is het beschrijven van een relatie tussen twee variabelen (x en y) en het
voorspellen van de variabele y bij een gegeven waarde voor x. Het vinden van de beste regressielijn,
door een formule → E(yi|xi) = β0 + β1xi, met β0 als de intercept en β1 als richting van de lijn. Het verschil
tussen de werkelijke waarde van y en de geschatte waarde van y zal vaak niet precies hetzelfde zijn, dit
wordt weergegeven als de error (ε).
Wanneer je het hebt over een gehele populatie dan gebruik je Griekse symbolen.
◼ Nieuwe formule → yi = β0 + β1xi + ε.
◼ Je wilt de ε’s over alle punten in de puntenwolk zo klein mogelijk → ∑(ε)2.
◼ Je neemt altijd een steekproef uit de gehele populatie. Je krijgt dan een steekproefregressielijn,
welke de formule heeft: ^yi = b0 + b1xi + ei.
o De richtingscoëfficiënt (b1) is te bepalen middels:
▪ b1= correlatie tussen x en y * (standaarddeviatie y / standaarddeviat x) = rxy*
(Sy/Sx).
▪ Het intercept (b0) is te bepalen middels: b0 = gemiddelde y – b1 * gemiddelde x
= _y – b1 * _x.
▪ Ook een SPSS output geeft de waarden voor b0 en b1; b0 is te vinden in de
kolom b bij constant en b1 is te vinden bij de kolom b bij de x variabele.
Hoe goed is een regressielijn? Afhankelijk van de hoeveelheid voorspelfouten → uitgedrukt in R-square.
Hoe kunnen we de samenhang tussen twee variabelen toetsen? Middels hypothesen. Wil je weten of er
een relatie is tussen x en y dan wordt dat als volgt geformuleerd:
◼ H0: β1 = 0, dit betekent dat er geen samenhang is.
◼ H1: β1 ≠ 0.
Het toetsen op een regressie-coëfficiënt doe je middels een t-toets (test-statistic).
7
, ◼ De formule hiervoor is t = (b1 – β1) / SE(b1)
o b1=schatting van de regressie-coëfficiënt.
o β1=gedachte waarde van de hellingshoek in de populatie,
o SE=standaard error, zegt iets over hoe stabiel de schatting is.
1. Je gaat aangeven wat je extreme waarde vind waarbij je H0 gaat verwerpen; door het maken van
kritische t-waarden. Het gebied in de t-verdeling dat de H0 zal verwerpen omslaat 5%. De 5%
betekent de kans dat je H0 verwerpt, terwijl H0 eigenlijk waar is. Zo kom je aan de kritieke
waarden. Je maakt dus altijd een type 1 of 2 fout, en je moet zelf bepalen hoe groot je die kans
daarvoor wilt hebben.
2. Een andere manier om te toetsen is om te kijken naar de waarde van t die je observeert. Dan kijk
je wat de kans is dat je de t vindt of een grotere waarde of de negatieve t-waarde of een
negatievere waarde; dit wordt aangegeven met de p-waarde. Als de p-waarde kleiner is dan 5%
dan moet het zo zijn dat de t die je observeert in het verwerpingsgebied ligt en H0 dus
verworpen moet worden.
Dit alles veronderstelt wel bepaalde aannames.
◼ Een van de aannames is dat de afhankelijke variabele van minstens interval level zijn.
◼ Een andere aanname is dat de waardes/metingen onafhankelijk moeten zijn van elkaar.
◼ Daarnaast neem je aan dat de relatie tussen x en y lineair is.
◼ Ook moeten de errortermen normaal verdeeld zijn, dus de punten op, boven en onder de lijn
moeten normaal verdeeld zijn, bij iedere waarde van x.
Je kunt een regressielijn ook gebruiken om twee groepen te vergelijken.
◼ Je hebt dan geen continue x-variabele (zoals leeftijd), maar een dummy variabele, welke twee
waarden heeft (bv. geslacht man = 1, vrouw = 2) = independent variabele met 2 categorieën.
o Je hebt dan op de x-as maar 2 waarden (namelijk 0 en 1).
◼ De lineaire regressie kan hierbij worden toegepast wanneer de samenhang lineair is, de error
termen moeten normaal verdeeld zijn, en voor iedere waarde van x moet je dezelfde variantie
hebben rondom de lijn.
◼ Het verschil tussen de groepen is te bepalen door:
o β1 = a/b = (E(Y|X=1) – E(Y|X=0)) / 1 = μmannen – μvrouwen → dus β1 staat voor het
populatieverschil tussen de mannen en de vrouwen.
8
, ▪ a/b = richtingscoëfficiënt.
• Waarin a: het gemiddelde wat we verwachten als x=1 – het gemiddelde
wat we verwachten als x=0, oftewel μmannen – μvrouwen:
Dus de groepsverschillen (man vs vrouw) zijn gelijk aan
β1!
o De hypothesen kunnen dus ook anders worden geformuleerd,
namelijk H0 : μmannen – μvrouwen = 0 en H1 : μmannen –
μvrouwen ≠ 0.
Om te bepalen welke t-test je moet gebruiken kijk je eerst naar de Levene’s test.
De nulhypothese bij de Levene’s test is dat de twee groepen gelijk aan elkaar zijn
qua variantie. Aan de hand van de p-waarde kun je deze hypothese verwerpen of niet; boven de 5%
betekent handhaven van de nulhypothese. Dan kijken naar de regel ‘equal variances’ om daar de p-
waarde van te nemen. Wanneer deze boven de 5% is betekent die het handhaven van de nulhypothese.
Het voorspellende verschil tussen twee groepen is gelijk aan b1.
◼ De kans op het maken van een type-1 fout is 5%.
Bovenstaande kan ook bij dummy-variabelen:
Komt op hetzelfde neer als met de t-toets (β1 is het verschil tussen
de twee groepen).
^Weight = b0 + b1Gender
◼ Bij gender kan je dan 1 invullen voor mannen en 0 voor vrouwen,
dus bij vrouwen blijft dan weight = b0 over en bij mannen weight =
b0 + b1. → b1 is dus het voorspelde verschil tussen mannen en
vrouwen.
9
, Vergelijken van regressie analyse en independent sample t-test:
◼ T = -9.981 (want we mochten equal variances aannemen).
◼ Mean difference → 12.445 is hetzelfde als de schatting bij de regressie-analyse. Dit is logisch
want deze hellingshoek van de regressielijn stond voor het verschil tussen mannen en vrouwen
(a/b). Alleen staat er een – bij de t-toets en een + bij de regressie-analyse. Reden hiervoor is:
gemiddelde gewicht = mannen – vrouwen bij de regressie-analyse. Dit is een positief getal omdat
mannen zwaarder zijn. Bij de t-toets doet spss vrouwen – mannen, dus een negatief getal. Maar
eigenlijk is het verschil dus gewoon hetzelfde. → Dit geldt exact hetzelfde voor de t-waarde.
◼ Ook de p-waarde zijn gelijk.
➔ Je krijgt dus precies dezelfde uitkomsten als je een regressieanalyse met een dummy doet of
een independent sample t-test doet!!
➔ Maar er is een uitzondering! → Wat nou als de varianties ongelijk zijn? We weten dat je
alleen een regressieanalyse mag doen als voor iedere waarde van x de varianties gelijk zijn
(dus voor mannen en vrouwen moet je dezelfde varianties hebben in gewicht).
o Dan kun je dus geen regressieanalyse doen, maar wel nog de t-toets draaien. → kijk
dan bij de Levene’s test naar equal variances not assumed.
Multiple lineaire regressie → to examine the simultaneous influence of a set variables.
◼ Bv. What is the effect of age and stress on blood pressure?
We willen dan de invloed van meerdere onafhankelijke variabelen meten op een uitkomstmaat:
10