Statistiek voor de gezondheidszorg:
theorie
Hoofdstuk 1: inleiding
Toegepaste statistiek = het analyseren van data om een wetenschappelijke vraag te beantwoorden.
Data: waarnemingen op variabelen.
= de eigenschappen, kenmerken van onze onderzoekseenheden.
Steekproef van de doelpopulatie. = populatie waarop je onderzoek wil doen.
= onderzoekspopulatie.
1.1 Onderzoeksvormen
Observationeel onderzoek:
- Hier wordt enkel geobserveerd.
o Men verricht een aantal metingen aan de proefpersoon zonder dat dit deze persoon
beïnvloedt.
o Onderzoeker gaat niet zelf interveniëren, enkel metingen doen (bv: vragenlijsten
afnemen, in medische dossiers kijken). → geen tussenkomst om bepaalde variabelen
te manipuleren.
1
,Case-control onderzoek:
- Een groep patiënten met een bepaalde ziekte of aandoening (de cases) worden vergeleken
met een groep controlepersonen (de controls).
o Deze groepen worden voornamelijk vergeleken op basis van mogelijke oorzaken van
die ziekte of aandoening.
- Is retrospectief.
o Teruggaand/terugkijkend in de tijd. Vonden in het verleden plaats.
Cohort onderzoek:
- Waarbij een groep proefpersonen wordt geobserveerd.
- Kan verschillende vormen in tijd aannemen:
o Retrospectief: terugkijkend in de tijd informatie verzamelen.
o Transversaal (of cross-sectioneel): informatie wordt verzameld op het moment dat
het onderzoek wordt uitgevoerd.
o Prospectief: groep proefpersonen wordt opgevolgd over de tijd.
Experimenteel onderzoek:
- Proefpersoon wordt beïnvloedt. (beïnvloeding = interventie)
o Onderzoeker gaat manipuleren.
o Beïnvloeding is het belangrijkste onderdeel van het onderzoek, want het doel
hiervan is het effect van de interventie te evalueren.
- Is altijd een prospectief cohortonderzoek!
1.2 Variabelen
1.2.1 Terminologie
Uitkomstvariabele (outcome):
- = Afhankelijke variabele.
o Waarover de onderzoeker uitspraken wil doen.
Bv: lichaamsgewicht, systolische bloeddruk.
Onafhankelijke variabele:
- = Determinanten, verklarende variabelen, voorspellers, predictoren.
Bv: je wil de relatie tussen leeftijd en bloeddruk nagaan.
Bloeddruk = outcome.
Leeftijd = determinant.
1.2.2 Soorten variabelen
Categorische/ categoriale/ kwalitatieve variabele:
Dit zijn variabelen die als uitkomst een bepaald/beperkt aantal mogelijke uitkomstcategorieën heeft.
bv: geslacht, bloedgroep
- Nominaal:
o Niet geordend.
▪ Bv: beroep, provincie.
2
, - Ordinaal:
o Geordend.
▪ Bv: opleidingsniveau, gezinsinkomen.
- Dichotoom:
o 2 categorieën: wel of niet → worden aangeduid met een dummy codering: 1 vs 0.
▪ Bv: patiënt is of ziek of niet ziek, of dood of niet dood, of man of vrouw.
Numerieke/ kwantitatieve variabele:
Een hele reeks van mogelijke uitkomsten.
- Discreet:
o Gehele getallen/aantallen.
o Je kan geen oneindig aantal mogelijke waarden hebben, het zijn gehele getallen.
▪ Bv: aantal bezoeken bij huisarts in de afgelopen 6 maanden (je kan niet 1,5
keer bij de huisarts geweest zijn).
- Continu:
o In theorie oneindig aantal mogelijke waarden.
▪ Bv: lichaamsgewicht, lichaamslengte.
o Verschillende soorten meetschalen:
▪ Interval-schaal
• Alle intervallen zijn gelijk. Bv: gewicht interval van 9 naar 10 kg is
hetzelfde als het interval van 13-14 kg.
▪ Ratio-schaal
• Als het een natuurlijk nulpunt heeft. bv: lengte, gewicht, leeftijd.
1.2.3 Soorten statistiek
Beschrijvende statistiek = overzichtelijk samenvatten van onderzoeksgegevens zonder te kijken naar
mogelijke verbanden of relaties tussen verschillende variabelen: grafische/numerieke weergave.
Verklarende statistiek = schatten van effecten/relaties.
➔ Schatten van betrouwbaarheid van de onderzoeksresultaten
➔ Hypothesen testen.
(Bv: wat is de relatie tussen x en y)
3
,Hoofdstuk 2: beschrijvende statistiek
2.1 Grafische weergave
Categorische variabelen: staafdiagram (bar chart)
X-as: welke mogelijke uitkomsten je kan hebben
Y-as: de aantallen.
2 categorische variabelen: geclusterd/ gesegmenteerd staafdiagram
Waarbij niet 1 categorische variabele wordt weergegeven, maar
de associatie tss 2 variabelen wordt weergegeven.
Categorische variabelen: taartdiagram (pie chart)
Wordt iets minder gebruikt.
4
,Continue variabelen: histogram
X-as: alle mogelijke uitkomsten van die variabele (ze zijn
gegroepeerd).
Y-as: frequentie.
Continue variabelen: tak-en-blad diagram (stem-and-leaf plot)
Wordt niet zo vaak gebruikt. Enkel nuttig als je steekproef niet
te groot is.
Takken zijn die tientallen (1,2,3,4,5,…).
Bladen zijn die getallen er naast.
2 continue variabelen: puntenwolk (scatterplot)
Grafische weergave van de associatie/relatie tss 2 continue
variabelen.
Elk puntje in die wolk stelt een proefpersoon voor.
2.2 Numerieke weergave
Categorische variabelen: frequentietabel
5
,Categorische variabelen met missende waarden: frequentietabel
Missende waarden: bv: zaken die niet
ingevuld zijn door de proefpersoon, fout
ingegeven, niet duidelijk → die mogen
allemaal niet meegeteld worden en worden
als missings ingegeven.
Continue variabelen: centrummaten
- Modus
- Rekenkundig gemiddelde
- Mediaan
- Geometrisch gemiddelde
Continue variabelen: spreidingsmaten
- Variantie
- Standaarddeviatie
- Range
- Interkwartiel-range
2.3 Centrummaten
Modus = meest voorkomende waarde in de dataset
- Ook voor categorische variabelen
- Weinig informatief
Rekenkundig gemiddelde =
- Alleen een goede indicator bij normaal verdeelde variabelen.
- = som alle waarden gedeeld door steekproef.
➔ Wordt weergegeven als mean.
X̄ = gemiddelde waarde.
n = aantal personen.
Xi = de waarde van variabele x voor persoon i.
Mediaan = P50 = middelste waarde. (evenveel mensen voor de mediaan en evenveel mensen achter
de mediaan)
Alle observaties ordenen → percentielpunten. = kwartielen = wanneer al de gegevens geordend worden
van laag naar hoog, waar er geen berekening opgemaakt
wordt.
6
,2.4 Normale verdeling
Kenmerken:
• Observaties symmetrisch verdeeld rond
gemiddelde (geen uitschieters); dus:
gemiddelde = mediaan.
• Klokvorm (niet te hoog/niet te plat): 95% van
de waarnemingen tss gemiddeld ± 2*sd
Gemiddelde en mediaan liggen heel dicht bij elkaar.
2.5 Niet-normale verdeling
Scheef naar rechtse verdeling (skewed to the right):
gemiddelde > mediaan.
Scheef naar linkse verdeling (skewed to the left):
gemiddelde < mediaan
Transformatie van niet-normaal verdeelde (rechtse scheve) variabelen: natuurlijk logaritme nemen
van elke waarde (= nieuw variabele).
Geometrisch gemiddelde
gemiddelde(ln(xi))
=e
→ gemiddelde nemen van de getransformeerde variabele.
→ terug transformeren: inverse van natuurlijk logaritme (om
opnieuw in oorspronkelijke eenheid uit te drukken).
7
, Geometrisch gemiddelde
gemiddelde(ln(xi))
=e
= 39.25
Overzicht:
Soort gemiddelde Voordelen Nadelen
(Rekenkundig) gemiddelde - Gebruikt alle gegevenswaarden. - Vervormd door uitschieters.
- Algebraïsch gedefinieerd en dus - Vervormd door scheve gegevens.
wiskundig beheersbaar.
Mediaan - Niet vervormd door uitschieters. - Negeert de meeste informatie.
- Niet vervormd door scheve - Niet algebraïsch gedefinieerd.
gegevens.
Modus - Gemakkelijk bepaald voor - Negeert de meeste informatie.
categorische gegevens. - Niet algebraïsch gedefinieerd.
Geometrisch gemiddelde - Voor de terugtransformatie heeft - Alleen geschikt als de log-
het dezelfde voordelen als het transformatie een symmetrische
rekenkundig gemiddelde. verdeling oplevert.
- Geschikt voor scheef naar rechtse
verdelingen.
Min of meer normale verdeling, dus oke.
Rechts scheef verdeelde variabele.
Mean is te sterk onderhevig aan uitschieters langs de rechter kant. Dus
hier is het beter om de mediaan te bekijken, en nog beter om te
transformeren.
8