Leerdoelen
Na afloop van de cursus is de student in staat met behulp van statistische
(regressie)technieken een antwoord te krijgen op gezondheidswetenschappelijke vragen. Na
afloop van de cursus kan de student:
de theoretische achtergrond bij de in de cursus behandelde statistische
technieken/modellen uitleggen;
uit de behandelde statistische technieken de best passende kiezen, gegeven een (al
dan niet zelf geformuleerde) onderzoeksvraag, het onderzoeksdesign en de gemeten
variabelen;
de in deze cursus behandelde onderzoekstechnieken toepassen, gebruik makend van
het statistische software programma SPSS;
de resultaten van deze analyse(s) op juiste wijze kan interpreteren;
een methoden- en resultatenparagraaf schrijven over de resultaten van een (al dan
niet zelfstandig uitgevoerde) analyse;
kritisch reflecteren op sterke en zwakke punten in het onderzoeksdesign, de
methode en de resultaten van (inclusief het eigen) wetenschappelijk onderzoek,
gericht op validiteit van de conclusies van het onderzoek.
Literatuur
Week 1: ANOVA en lineaire regressie
Twisk: 4-4.5.8 (exclusief); 9.3,
Bouter HS 3.4
Week 2: Multiple lineaire regressie
Twisk: 4.6-4.7 (confounding, effectmodificatie)
Twisk: HS 7 t/m 7.3.6; 9.4; 9.5; 9.6;
Week 3: Chi2-toets en logistische regressie
Twisk: HS 5.1 t/m 5.7; 9 t/m 9.2.3
Week 4: Multiple logistische regressie
Twisk: HS 5.8 t/m 5.9;
Twisk 7.4
Week 5: Survival analyse
Twisk: HS 6
,Week 1: ANOVA en lineaire
regressie
H4: De analyse van continue uitkomstmaten
4.1. Inleiding
Analyse continue uitkomstmaat besproken aan de hand van twee voorbeelden:
1. Observationeel prospectief cohortonderzoek waarbij 100 personen 2 x
cholesterolconcentratie wordt gemeten, onderzoek naar verandering in
cholesterolconcentratie over bepaalde periode (6 mnd).
2. Observationeel cross-sectioneel cohortonderzoek waarbij voor 100 personen de
relatie tussen cholesterol en andere determinanten zoals leeftijd, sekse, roken en
alcoholgebruik wordt onderzocht.
4.2. Het vergelijken van twee metingen bij dezelfde
persoon
Kwantificeren onzekerheid
In hoeverre kunnen dit resultaat genereren naar andere personen? Doel van statistiek is om
onzekerheid (over de vertaalslag van resultaat van het onderzoek naar de doelpopulatie)
van gevonden resultaat te kwantificeren. Hierbij spelen twee aspecten een rol:
1. De grootte van de steekproef (de onderzoekspopulatie);
2. De spreiding in de individuele resultaten (spreiding in de individuele
veranderingsscore).
Als spreiding in veranderingsscore voor ieder persoon ongeveer gelijk is, zal je dit ook eerder
voor anderen voorspellen. Als we voor de ene persoon een sterke stijging in
cholesterolconcentratie vinden en voor andere persoon een sterke daling, zal de
onzekerheid van het gemiddelde verschil groter zijn.
- De grootte van onderzoekspopulatie en de spreiding in onderzoeksresultaten komen
samen in de standard error of the mean.
Met behulp van SEM kan het 95%BI geconstrueerd worden rond de gevonden verandering.
Hiervoor is nog wel de spreiding van individuele veranderingsscores nodig:
,Het enige wat nog nodig is om de grenzen van het BI te krijgen, is een waarde uit een
kansverdeling waarmee de SEM vermenigvuldigd moet worden.
Het gaat hier om een continue uitkomstvariabele t-toets gebruiken en daarin opzoek
naar de waarde die hoort bij een 95%-BI/alternatief voor de 1,96 uit de standaardnormale
verdeling.
Deze waarde is afhankelijk van het aantal vrijheidsgraden/grootte van onderzoekspopulatie.
- In het onderzoek 100 deelnemers; 100 verschilscores = 99 vrijheidsgraden.
- Waarde t-verdeling 95%BI bij df=100 = 1,98.
Interpretatie
Er kan met 95% zekerheid gesteld worden dat de ‘werkelijke’ verandering over zes maanden
in de cholesterolconcentratie ergens ligt tussen de 0,24 mmol/l en 0,50 mmol/l.
Toetsen of gevonden gemiddelde past bij waarde nulhypothese
In dit geval is de waarde van de nulhypothese 0, er is geen verschil.
Toetsingsgrootheid moet bepaald worden om uiteindelijk de p-waarde te kunnen
berekenen. Hiervoor moet je de geobserveerde waarde vergelijken met de verwachte
waarde als de nulhypothese waar is, en dit verschil vervolgens delen door de onzekerheid
rond het gevonden resultaat (SEM):
Gepaarde t-toets/Paired Samples Test
Het berekenen van 95%-BI en het uitvoeren van de toets kan via SPSS via de gepaarde t-
toets/paired samples test
,Interpretatie:
Rond het gemiddelde verschil van 0,3712 ligt een 95%BI van 0,2439 tot 0,4985 en de p-
waarde van het gevonden verschil is <0,001. Oftewel, de kans dat men een verschil zou
vinden van 0,3712 mmol/l (of nog verder weg van de nulhypothese) als het verschil in
werkelijkheid 0 zou zijn, is heel klein.
4.2. Het vergelijken van twee groepen
Kwantificeren onzekerheid
Ook hierbij SEM gebruiken om het 95%BI rond het gevonden verschil te
construeren. Hiervoor is het volgende weer nodig:
- Een waarde uit kansverdeling waarmee SEM vermenigvuldigen;
- Deze waarde is afhankelijk van aantal
vrijheidsgraden/grootte steekproefpopulatie.
- Aantal df=98 en betreffende t-waarde is 1,98.
,Omdat voor het construeren van 95%BI er 1 standaarddeviatie nodig is moet er voor deze
twee groepen een soort gemiddelde berekend worden, de populatiestandaarddeviatie.
Onafhankelijke t-toets/independent samples test
Dit wordt in SPSS allemaal voor je berekend:
Interpretatie:
De toetsingsgrootheid is gelijk aan -2,003 en de bijbehorende p-waarde, uitgaande van een
t-verdeling met 98 vrijheidsgraden, is 0,048. Dat wil zeggen dat, als de nulhypothese waar is,
de kans op het in het onderzoek gevonden verschil tussen mannen en vrouwen (of nog
verder weg van de nulhypothese) 4,8% is. Conclusie is dat er een significant verschil is in de
cholesterolconcentratie tussen mannen en vrouwen. De gevonden p-waarde is kleiner dan
5%.
We hadden deze conclusie ook al kunnen trekken na het zien van het 95%BI, omdat de
waarde van de nulhypothese (in dit geval 0) buiten de grenzen van het interval valt.
Aannames t-toets twee onafhankelijke groepen
1. Uitkomstvariabele (cholesterolconcentratie) moet een normale verdeling volgen.
, Bij scheve verdelingen wordt het gemiddelde namelijk sterk beïnvloedt door
extreme waarden en is het geen goede indicator voor het ‘midden’ van de verdeling.
2. Varianties binnen de twee groepen moeten ongeveer gelijk zijn; de vorm van de
twee normale verdelingen moeten ongeveer gelijk zijn.
Dit kan worden getoetst met de F-toets voor gelijkheid van varianties.
De p-waarde van 0,379 leidt tot het niet verwerpen van de nulhypothese, wat inhoudt dat
beide varianties gelijk zijn. Kortom, het resultaat van de F-toets geeft aan dat voldaan wordt
aan de aanname die voor de t-toets geldt.
Scheef verdeelde uitkomstvariabelen
Bij een scheef verdeelde uitkomstvariabele moet je het volgende doen om alsnog twee
groepen met elkaar te vergelijken:
1. Transformatie oorspronkelijke data zodat de getransformeerde data een normale
verdeling heeft (logtransformeren);
2. Vervolgens kan je verschil tussen twee groepen en 95%BI uitvoeren;
3. Vervolgens moet het resultaat worden teruggetransformeerd naar de
oorspronkelijke data.