Samenvatting Medische Statistiek 2
2023-2024, prof. Abrams
Inleiding
● Op examen zelf moeten we R niet kunnen gebruiken
● Aanwezigheid practicum: 1 punt /20
● Examen → FORMULARIUM + REKENMACHINE meenemen!!
○ Multiple choice vragen
○ Open vragen: oefeningen, interpretatie, R output,..
Statistiek 1: Beschrijvende en inferentiële statistiek (Herhaling)
Beschrijvende statistiek - weergeven van gegevens
Inferentiële statistiek - verklaren; je gaat vragen beantwoorden, groepen met elkaar vergelijken, conclusies
trekken, interpretaties doen naar de vraag die je wil beantwoorden
Basisconcepten
● Population (populatie) - groep mensen waar je in geïnteresseerd bent
● Sample (steekproef) - een kleine groep representatief voor de populatie
● Statistisch significant - een bewijs van een verband, causaliteit, ..
● Klinisch relevant - een onderzoek kan statistisch significant zijn maar niet klinisch relevant (vb. een
medicijn die de levensduur van een patiënt met 1 dag verlengt)
● Experimentele studies - Het bestuderen van de effect van de behandeling; je wil causale verbanden
vinden (vb. clinical trials → r andomisation, blinding, placebo)
● Observationele studies - Geen actieve interventie van de onderzoeker, je kan niet alle factoren
onderzoeken. Enige wat je kan aantonen is of er een relatie bestaat (niet per se causaal).
● Kwalitatief (categorical) onderzoek - niet meetbare gegevens
○ nominaal - groepen (geslacht, regio,..)
○ ordinaal - specifieke ordening (goed-matig-slecht, ..)
● Kwantitatief (continuous) onderzoek - meetgegevens
○ discreet - Discrete data verwijst naar gegevens die alleen specifieke, afzonderlijke waarden
kunnen aannemen en geen tussenliggende waarden hebben.
■ aantal autos in parking
■ aantal zwangere dames in UZA
○ continu - Continue data zijn gegevens die een oneindig aantal mogelijke waarden hebben
binnen een bepaald bereik. Ze kunnen elke numerieke waarde aannemen binnen een bepaald
interval.
■ lengte / gewicht
■ temperatuur
● Afhankelijke data (dependent) -
● Onafhankelijke data (independent) -
● Samenvattende data:
○ Locatie (gemiddelde, mediaan, kwartielen)
○ Variatie (variantie, standaardafwijking (wortel van variantie), bereik (maximum - minimum) ,
interkwartiel afstand (afstand tussen de eerste en derde kwartiel))
1
,Oefening:
1. lengte - kwantitatief continu
2. Oogkleur - kwalitatief nominaal
3. dagelijkse nummer autoaccidenten in vlaanderen - kwantitatief discreet
4. body mass index - kwantitatief continu
5. AVI leesniveau A1-A7 - kwantitatief ordinaal
Een boxplot
Q1 - eerste kwartiel
Q2 - derde kwartiel
Me - mediaan
X(1) - eerste waarde
X(n) - laatste waarde
→ kijken naar symmetrie in de box zelf
Toetsen van hypothese
Onderzoeksvraag → je zet die om naar hypotheses
● Nulhypothese (H0) - De nulhypothese is een statement dat stelt dat er geen effect is of geen verschil
bestaat. Het wordt vaak geschreven als een statement van geen effect of geen verandering. Je moet de
nulhypothese verwerpen om een effect aan te tonen.
● Alternatieve hypothese (H1) - De alternatieve hypothese is de tegenhanger van de nulhypothese. Het
stelt dat er wel een effect is, een verschil bestaat, of er een relatie is. Het is hetgeen waar je naar zoekt
om te bewijzen.
Bij het uitvoeren van statistische tests, wordt gegevensverzameling gebruikt om te bepalen of er voldoende
bewijs is om de nulhypothese te verwerpen en te concluderen dat de alternatieve hypothese waarschijnlijker
is. Dit wordt vaak gedaan door het berekenen van een p-waarde, die aangeeft hoe waarschijnlijk de
waargenomen gegevens zouden zijn als de nulhypothese waar is. Als de p-waarde klein genoeg is (meestal
kleiner dan een vooraf bepaald significantieniveau, bijvoorbeeld 0,05), verwerpen we de nulhypothese en
accepteren we de alternatieve hypothese.
We kunnen foutjes maken:
Type 1 fout = verwerpen van de hypothese terwijl die juist is
Type 2 fout = niet verwerpen van de hypothese terwijl die fout is
Algemene procedure
1. Toetsprobleem formuleren
2. De juiste statistische test gebruiken (steekproef n<30 = klein; n>30=groot)
3. kritische waarde opstellen /P-waarde berekenen (moet kleiner dan 0.05 zijn)
4. conclusie formuleren
2
,Extra uitleg puntje 3
● Kritische waarde
Alfa = het procent significantieniveau (meestal 5%)
eenzijdige test = alfa
tweezijdige test = alfa/2 (kritisch punt: - 1.96 en +1.96)
→ als de waarde die je vindt voor je toetsingsgrootheid extremer is dan kritisch punt (in gearceerde gebied)
dan verwerpen we de nulhypothese
● P-waarde
→ een statistische maat die wordt gebruikt in hypothese testen om te beoordelen of er voldoende bewijs is om
de nulhypothese te verwerpen. Het geeft de waarschijnlijkheid aan om de waargenomen resultaten te
verkrijgen, onder de veronderstelling dat de nulhypothese waar is.
→ onder 0.05 = statistisch significant
Statistische testen die twee of meer variabelen vergelijken
continuous = kwantitatief
nominal = groepen
ordinal = ordes
dichotomous = binair (0 of 1)
vb. ziek en niet-ziek
gepaarde gegevens= als 1 persoon 2 keer
wordt opgemeten of tweelingen; gegevens
in associatie met elkaar
→ enkel degene kennen die besproken
worden
3
, Parametric methods
Parametrische methoden in statistiek verwijzen naar analytische technieken die aannames doen over de
vorm van de verdeling van de populatie waaruit de gegevens afkomstig zijn. Deze methoden vertrouwen op
parameters, zoals het gemiddelde en de standaarddeviatie, om de eigenschappen van de populatie te
beschrijven. Parametrische methoden hebben vaak krachtige statistische eigenschappen, maar ze zijn
gevoeliger voor de aannames die worden gemaakt over de populatieverdeling. → GAUSS CURVE
Belangrijk om op te merken is dat parametrische methoden vaak aannames doen over de populatieverdeling,
zoals de veronderstelling van normaliteit en homogeniteit van varianties. Als deze aannames niet geldig zijn
(vb. kleine steekproef), kunnen de resultaten van parametrische tests vertekend zijn. In dergelijke gevallen
kunnen niet-parametrische methoden een alternatief zijn, omdat ze minder strenge aannames vereisen.
● One sample T-test / Paired T-test
● Unpaired T-test
● Repeated measures ANOVA
● One-way ANOVA
ONE SAMPLE T-TEST
Een one sample t-test is een statistische test die wordt gebruikt om te beoordelen of het gemiddelde van een
enkele steekproef significant verschilt van een bekende of aangenomen populatiegemiddelde. Het is geschikt
wanneer je geïnteresseerd bent in het vergelijken van het gemiddelde van een steekproef met een theoretisch
verwacht gemiddelde.
● Er is geen controlegroep hier; eensteeksproefsprobleem
Experiment: Het gemiddelde gewicht van baby’s van arme moeders in UK is μ0 = 2800 gram. Er wordt een
verzorgingsprogramma geïntroduceerd om het gewicht van die baby's bij geboorte te doen stijgen. In totaal, n
= 25 moeders, allemaal die in armoede leven, nemen deel aan het programma.
Onderzoeksvraag: Is het programma effectief op vlak van verbetering van het gewicht van pasgeborenen in
arme gezinnen?
Nulhypothese (H0) - µ=µH0=2800
→ als de programma niet werkt (geen effect; gewicht baby’s zoals ervoor)
Alternatieve hypothese (H1) µ>2800
→ programma werkt (effect; gewicht baby’s stijgt)
- steekproef: n=25; n<30 → steekproef is klein
- populatievariantie kennen we niet
→ We maken gebruik van een T-test
→ we gaan kijken naar tabel voor T-verdeling
→ alpha = 5%
4