HC 1 klinimetrie reproduceerbaarheid en validiteit, metingen in voedingsonderzoek door Laura Schaap
Leerstof:
• Hoorcollege
• Werkcollege klinimetrie
• Aanvullende literatuur uit het boek:
• Measurements in Medicine. Henrika CW de Vet. 2011
Leerdoelen:
1. Kernbegrippen validiteit en reproduceerbaarheid begrijpen en onthouden
2. Toepassen en interpreteren van enkele statistische methoden voor het vaststellen van validiteit en
reproduceerbaarheid van meetmethoden (scatterplot en correlatie coëfficiënt; Bland en Altman plot; variatie
coëfficiënt)
Betrouwbaarheid (reproduceerbaarheid) en validiteit MTB 1:
− Betrouwbaarheid van een meting: zegt iets over herhaalbaarheid (of: reproduceerbaarheid), maar niet over de
juistheid van het resultaat
− Betrouwbaarheid: als men het onderzoek herhaalt, krijgt men steeds hetzelfde resultaat: de overeenkomst
tussen uitkomsten van herhaalde metingen, door dezelfde of verschillende waarnemers of bij herhaalde meting
onder dezelfde omstandigheden.
− Dit is een systematische afwijking, maar wel een hele nauwkeurige. Roos heeft in het midden van de bolletjes
gezeten.
− Deze is niet valide maar wel betrouwbaar, want het meet hetzelfde (bolletjes op dezelfde plek).
− Validiteit van een meting: Wat zeggen metingen over de werkelijke waarde… meet ik wat ik wil meten?
− Metingen met slechte reproduceerbaarheid kunnen toch valide zijn. Eis: meerdere herhaalde metingen
− Hier geen sprake van systematische afwijking. Validiteit is in orde, maar reproduceerbaarheid is laag.
− Hoe dichter een diagnostische observatie de werkelijke klinische toestand benadert, hoe groter de validiteit van
de test.
− Nu kunnen we met het weghalen van de schietschijf best redelijk reconstrueren waar de roos zich moet hebben
bevonden, door de locatie van de blauwe puntjes te middelen. En hoe vaker er is geschoten, hoe nauwkeuriger
dat zal gaan. Het is een valide instrument om de locatie van de roos te kunnen bepalen, maar je moet wel vaak
genoeg hebben geschoten.
Valide meting?
• Wat is uw huidige gewicht? (in kg)
Stel je vraagt wat is uw gewicht, zou dit dan een valide resultaat opleveren? Niet zo valide. Mensen hebben zich niet
net gewogen. Hangt ook af van je populatie. Als je mensen hebt die wel bezig zijn met hun gewicht, kan je een valide
antwoord krijgen.
• Meting van de middelomtrek (vlg protocol)?
Stel je gaat de middelomtrek meten volgens protocol, zou dit dan een valide resultaat opleveren? Als iedereen zich
netjes houdt aan hoe het moet, zou je een valide antwoord krijgen.
Schietschijf: metingen liggen precies in het midden. Het midden is de waarheid. Zolang de puntjes in het midden
liggen is het valide.
Validiteit: In hoeverre meet een instrument het construct wat het beoogt te meten?
Reproduceerbare meting?
• Gewicht met weegschaal
Stel je weegt iemand, zou je dan een betrouwbaar resultaat krijgen? Als de omstandigheden hetzelfde blijven wel:
weegschaal niet verplaatsen, eten/drinken, toiletbezoek.
• Energie-inname met dagboek
Stel je houdt een energie-inname dagboek bij. Er is altijd wel wat spreiding t.o.v. de werkelijke inname
1
,Schietschijf: metingen liggen bij elkaar, dus is het reproduceerbaar.
− Linksboven: bijvoorbeeld een goed werkende weegschaal: je meet wat je moet meten en bij herhaalde
metingen krijg je, onder dezelfde omstandigheden, hetzelfde resultaat. Is reproduceerbaar en valide.
− Linksonder: bijvoorbeeld het vergeten van je kop thee met suiker. M.b.t. reproduceerbaarheid zou dat
lastig zijn. Als je maar genoeg metingen hebt, daarom doen mensen het ook voor een week. Niet
reproduceerbaar, wel valide, want je varieert om de werkelijkheid, doordat je genoeg metingen hebt.
− Rechtsboven: stel weegschaal is niet goed afgesteld, dan is de meting reproduceerbaar, maar niet valide.
− Rechtsonder: Kan ook zijn dat iemand bij het invullen van het dagboek vergeet standaard zijn lunch in te
vullen, dan zal je niet uitkomen op de werkelijke inname, iemand rapporteert standaard onder. Je schat
de energie inname lager dan dat hij daadwerkelijk was. Niet reproduceerbaar en niet valide.
Reproduceerbaarheid: De mate waarin herhaalde metingen bij (onveranderde) personen hetzelfde resultaat geven:
1. test-retest; 2. intra-rater; 3. inter-rater
1. Test-retest: onder dezelfde omstandigheden 2 keer een meting uitvoeren met hetzelfde instrument. weegschaal
mensen 2 keer op laat staan, over time. Verschil tussen uitkomsten. (Resultaten van zo’n test kunnen verschillen
doordat patiënten de 2e test anders scoren door hun ervaring op de 1e test, instructies gegeven bij de ene
onderzoeker zijn motiverender dan van de andere onderzoeker).
2. Intra-rater: binnen 1 onderzoeker; jijzelf als onderzoeker meet niet altijd hetzelfde. Hoe goed volg je het
protocol op. Er zit altijd variatie in je metingen. Bijv. 1 onderzoeker beoordeeld een scan 2 keer. Krijg je
hetzelfde?
3. Inter-rater: tussen 2 onderzoekers; meerdere onderzoekers meten hetzelfde. Je kijkt of daar verschil tussen zit.
Bijv. 2 onderzoekers beoordelen dezelfde scan. Krijg je hetzelfde?
Synoniemen reproduceerbaarheid:
• Betrouwbaarheid (reliability)
• Precisie (precision)
• Overeenstemming (agreement)
En..
• Repeatability, variability, consistency, concordance, dependability, stability
NIET: validiteit! Geen synoniemen voor validiteit!
Validiteit en reproduceerbaarheid:
2e schietschijf: als je maar 1 meting zou doen, meet je niet valide.
Als je meerdere metingen doet en je neemt het gemiddelde, kom je
wel in het midden uit (op groepsniveau), zie hierboven aantekening
MTB 2
3e schietschijf: als je het gemiddelde van de bolletjes zou nemen,
kom je niet in het midden van de roos uit. je meet dus niet de
werkelijkheid. Ook omdat de bolletjes niet op dezelfde plek zitten is
het niet reproduceerbaar.
• Als iets niet valide is spreken we van een systematische meetfout: als we het hebben over niet valide
instrumenten of meetmethoden spreken we ook wel van een systematische meetfout, zoals een fout ingestelde
weegschaal. Deze fout treedt dan bij elke meting op.
• Als iets niet reproduceerbaar is spreken we van een toevallige meetfout.
Soms meet je te veel, soms meet je te weinig.
Belangrijke punten validiteit:
• Kennis over het construct: we kunnen alleen beoordelen of een instrument meet wat het beoogt te meten als we
duidelijk het construct hebben beschreven dat we willen meten. We moeten hypotheses formuleren over de
scores die we verwachten op het meetinstrument o.b.v. onze kennis over het construct.
• Complexiteit van het construct: een simpel construct is makkelijker te valideren dan een complex construct. Bijv.
vermoeidheid over het algemeen (mentaal en fysiek) of alleen mentale vermoeidheid
• Afhankelijkheid van de situatie: een instrument moet opnieuw gevalideerd worden als het wordt gebruikt in een
nieuwe situatie of voor andere doeleinden.
• Validatie van metingen, niet van instrumenten: validatie focust zich op de metingen door het instrument, niet op
het instrument zelf
2
,• Formuleren van specifieke hypotheses: bijv. wanneer onderzoekers een nieuw instrument ontwikkelen in een veld
waarin er al andere instrumenten zijn, dan moeten ze specifiek zijn in welke punten hun instrument beter zal zijn
• Validatie als een continu proces: wanneer kennis in een bepaald veld opkomt, zullen de 1 e theorieën nog zwak
zijn, maar in het proces van validatie zullen theorieën over het construct en validatie van metingen sterker
worden.
3 Vormen van validiteit: content, criterium, construct
1. Content validity (inhoudsvaliditeit): inhoud meting ≈ te meten construct: De mate waarin de content van een
meetinstrument een adequate reflectie is van het construct dat wordt gemeten.
• Face validity: eerste (subjectieve) indruk
• Content validity: indruk van inhoud, in meer detail (o.a. expert panel)
Contentvaliditeit, of te wel inhoudsvaliditeit: meest eenvoudige manier van bepalen van validiteit.
Kijken of de inhoud van je meting of instrument overeenkomt met wat je wilt meten: Kijkt of de content van het
instrument correspondeert met het construct dat men van plan is te meten met oog op relevantie en volledigheid.
Bijvoorbeeld: als het construct dat we willen meten gewicht is, is een weegschaal sufficiënt. Om het construct
obesitas te meten, gedefinieerd als BMI, > 30 kg/m 2, hebben we een weegschaal en een meetlint nodig. Wanneer we
ondervoeding onder ouderen willen meten, met ondervoeding gedefinieerd als een vorm van ondervoeding als
gevolg van een insufficiënte voorziening van voedsel, of van een onvermogen tot vertering, opnemen en gebruiken
van noodzakelijke nutriënten. In dit geval zal een weegschaal en meetlint niet voldoende zijn, omdat het concept van
ondervoeding breder is dan alleen gewicht en lengte.
2 varianten van content validity:
Face validity: puur een eerste indruk die je hebt van je instrument, subjectief, geen standaarden.
Bijv. vragenlijst bekijken: als ik dit uitvraag, weet ik dan wat ik wil weten?
content validity: wanneer een instrument de test van face validity gepasseerd is, gaan we bij content validity in detail
kijken en je raadpleegt experts om te bepalen of een instrument adequaat het construct representeert.
Content validity- voorbeelden:
Face validity: Een onderzoeker kan er door een collega op gewezen worden dat in de vragenlijst om de prevalentie
van hart- en vaatziekten in een populatie vast te stellen, er geen vragen zijn opgenomen over beroertes: als je de
prevalentie van hart- en vaartziekten wilt weten en je mist er 1, krijg je een onderschatting van deze prevalentie en
meet je niet de werkelijkheid.
Content validity: Een panel bestaande uit radiologen die beoordelen of een nieuwe MRI techniek adequaat werkt:
Zien we verschillen waardoor de nieuwe methode niet goed is?
Het proces van content validiteit volgt de volgende stappen: (minder belangrijk)
• Beschouw informatie over het construct en de situatie: content dat wordt gemeten moet goed gespecificeerd zijn
• Beschouw informatie over de content van het instrument: om te beoordelen of een instrument de content van
het construct dekt, moeten alle details van het instrument beschikbaar zijn
• Selecteer een expert panel: de content validiteit van een instrument wordt bepaald door onderzoekers die het
instrument gaan gebruiken.
• Beoordeel wanneer de content van het instrument correspondeert met het construct: met oog op relevantie en
volledigheid.
• Gebruik een strategie of framework om de overeenkomst tussen construct en instrument te beoordelen
2. Criterion validity (criteriumvaliditeit): t.o.v. ‘gouden standaard’ te meten construct
• Concurrent validity: gouden standaard zelfde moment.
• Predictive validity: gouden standaard in toekomst
Vraag: als er al een gouden standaard is, waarom zou je dan een nieuw meetinstrument willen gebruiken?
Invasief, goedkoper, makkelijker.
3
,Criterion validity: je kan je nieuwe meetinstrument vergelijken met een gouden standaard, een meetinstrument dat
daadwerkelijk valide is. Aan de hand daarvan kan je de validiteit bepalen.
Toepasbaar in situaties waarin er een gouden standaard beschikbaar is om het construct te meten.
Refereert naar hoe goed de metingen van het instrument overeenstemmen met de metingen op de gouden
standaard.
2 varianten van criterion validity:
Concurrent validity: je vergelijkt het met de gouden standaard op hetzelfde moment. De score van het instrument en
de score van de gouden standaard worden op hetzelfde moment beschouwd.
Predictive validity: je weet pas of je risicoprofiel werkt als er operaties plaatsvinden en mensen wel of niet overlijden.
Als er uit je risicoprofiel komt dat ze prima geopereerd kunnen worden en vervolgens overlijden, is risicoprofiel niet
goed en dus niet valide. Je kijkt naar de toekomst: je moet wachten op je resultaat. Beschouwen of het instrument de
gouden standaard voorspelt in de toekomst.
Criterium validiteit- voorbeelden:
Concurrent validity: In een onderzoek worden de resultaten van een activiteitenmeter voor het bepalen van totaal
energieverbruik vergeleken met de resultaten van dubbel gelabeld water (= de gouden standaard)
Predictive validity: Risicoprofiel voor ziekenhuis-sterfte bij patiënten die een open hart operatie zullen ondergaan:
hoe goed kun je sterfte voorspellen met dit risicoprofiel?
Stappen in criterium validiteit:
• Identificeer criteria en methode voor meting: selecteer een gouden standaard
• Identificeer een sample uit de doelpopulatie waarin het meetinstrument gebruikt zal worden: het instrument
moet gevalideerd worden in de populatie waarin het gebruikt zal worden
• Definieer van tevoren een mate van overeenstemming tussen instrument en criteria: er is een impliciete
hypothese dat het instrument net zo goed moet zijn als de gouden standaard. De meeste studies missen criteria
waarin gespecificeerd wordt in welke mate de instrumenten overeen moeten komen
• Verkrijg metingen van het instrument en de gouden standaard onafhankelijk van elkaar: ze mogen elkaar niet
beïnvloeden
• Bepaal de sterkte van de relatie tussen metingen van het instrument en criterium van metingen: metingen van
het instrument worden vergeleken met metingen van de gouden standaard.
3. Construct validity (construct validiteit): er is geen gouden standaard, vergelijken van resultaten van het
meetinstrument met resultaten van soortgelijke meetinstrumenten.
Vooraf hypothesen formuleren over de relatie tussen de resultaten van het meetinstrument met de resultaten van
vergelijkbare meetinstrumenten of juist tegengestelde meetinstrumenten
Construct validity: hoeveel moet hij lijken op een ander meetinstrument om te zeggen hij is valide.
Refereert naar of een instrument voorziet van verwachte scores o.b.v. bestaande kennis over het construct.
Voorbeeld validiteit:
Welke methode is het meest valide om met behulp van een predictieformule lichaamsvetpercentage te bepalen bij
studenten gezondheidswetenschappen?
A. Bio-impedantie
B. Body mass index (BMI) [gewicht / lengte2]
C. Triceps huidplooien
Werkcollege: Criteriumvaliditeit met gouden standaard: BODPOD -> We gaan criterium validiteit bepalen met het
practicum.
Voorbeeld reproduceerbaarheid:
Welke meting is het best reproduceerbaar?
A. Triceps huidplooien
B. BMI (gewicht/lengte2)
C. Handknijpkracht
Werkcollege: inter- en intrarater reproduceerbaarheid!
4
,Validiteit versus reproduceerbaarheid:
Gaat om het testen van een nieuwe weegmethode: haakje met cocon.
Meting 1 en 2 slaat op de nieuwe weegmethode.
Hier meet hij dus wel telkens hetzelfde.
Meet niet hetzelfde en niet de werkelijkheid, wel
Valide bij (voldoende) herhaalde metingen als je het
gemiddelde neemt.
Meet en niet hetzelfde en niet de werkelijkheid
Herhaalde metingen:
Quiz vraag: Wanneer is het gebruik van herhaalde metingen zinvol?
A. Slechte reproduceerbaarheid
B. Slechte validiteit
Bij een slechte validiteit weet je dus al dat je nooit meet wat je wilt meten. Bij een slechte validiteit
van je meetinstrument kan je het meetinstrument dus beter niet gebruiken.
Statistische methoden om validiteit en reproduceerbaarheid te bepalen:
1. Scatterplot en correlatie coëfficiënt
2. Bland en Altman plot -> systematische meetfout en mate van overeenstemming
3. Variatie coëfficiënt -> mate van spreiding van metingen
Scatterplot en correlatie coëfficiënt:
• Correlatie coefficient = Pearson’s r, standardized beta
• Geeft aan wat de sterkte is van een lineair verband tussen twee variabelen (lineair verband= wanneer beide
variabele evenveel toe of afnemen), bijv. tussen 2 metingen
• Hoe goed volgt een scatterplot een rechte lijn
Scatterplot en correlatie coëfficiënt voer je samen uit. Scatterplot is hierin belangrijk. In het plaatje kan je zien in
hoeverre je een rechte lijn ziet.
5
,Scatterplot en correlatiecoëfficiënt:
Linksboven 1e:
meetinstrument x op de x as, meetinstrument y op de y as.
Bij puntenwolk, waar geen lijn in te ontdekken is, is de correlatie
0.
Rechts middelste 4e:
Je ziet een lijn in de punten; Wanneer je iets meet met instrument
x, komt dat ongeveer overeen met de meting van instrument y.
Correlatie van 0,7
Rechts onder 4e:
In het meest ideale geval meten beiden instrumenten exact
hetzelfde, daar komt een rechte lijn uit met een
correlatiecoëfficiënt van 1.
Ligt de uitkomst tussen 0 en 1 dan spreekt men van een positieve
samenhang: als de score op de ene variabele (determinant)
omhoog gaat, gaat de score op de andere variabele (uitkomst) ook
omhoog.
• Correlatie ligt tussen 0 en 1, hoe hoger hoe beter
Voorbeeld validiteit:
Koolhydraatinname van 100 studenten gemeten met dagboekmethode (=gouden standaard) en
recall methode.
We gaan de validiteit van de recall methode bepalen, want is deze wel valide?
Op x as resultaten van KH inname van recall
Op y as resultaten van KH inname van dagboek methode
Rode lijn is als het exact hetzelfde zou zijn. dan zouden allen bolletjes op de rode lijn liggen en zou de
correlatiecoëfficiënt 1 zijn
De correlatie ligt heel dicht bij 1: 0,92. In dit geval zeggen we dit is wel valide. Hier is geen grens voor. Dit moet je van
tevoren vaststellen.
Invloed outliers:
Scatterplot maakt dit inzichtelijk!
• Outliers hebben veel invloed op de correlatie coëfficiënt daarom is het belangrijk dat je het
plaatje (scatterplot) erbij maakt
Voorbeeld calciuminname a.d.h.v. recall methode en dagboek:
1 uitschieter: O.b.v. de recall is de calciuminname ong. 2000 mg.
O.b.v. het dagboek is de inname ong. 8000 mg. (Bij 1 persoon op 2 manieren gemeten)
Een inname van 8000 mg calcium is een onrealistische inname. A.d.h.v. het plaatje zie je dat er
iets geks aan de hand is en kan je in je data kijken wat er mis is.
Stel dat je dit plaatje niet had en je alleen de correlatiecoëfficiënt had kreeg je 0,75. Dan denk je
dat dat best goed is. Als je de persoon weg zou laten of zou herstellen met juiste gegevens krijg je
een correlatie van 0,94, dat is nog beter.
Moeten we outliers verwijderen? Nee, omdat in de realiteit deze errors voorkomen en informatie
geven over moeilijkheden bij meetinstructies of interpretaties van schalen
Nadeel correlatiecoëfficiënt:
• Je pikt er geen outliers (toevalsfouten) mee op!
• Je pikt er geen systematische fout mee op!
6
,Voorbeeld geen systematische fouten oppikken met correlatiecoëfficiënt alleen:
Systematische fout 1:
Alles ligt keurig op 1 lijn. Ook een correlatie van 0,99. Dat is bijna perfect! Maar als je goed kijkt zie
je dat als instrument X 1 meet, instrument Y op 1,25 zit. Als instrument X 2 zou meten, zit je bij
instrument Y op 2,25.
Oftewel: instrument Y zit steeds hoger te meten dan instrument x. Ze komen wel keurig op 1 lijn te
liggen, maar het klopt toch niet. Je moet niet alleen kijken of alles op 1 rechte lijn ligt, maar ook of
de lijn start vanuit het 0 punt. Als alle puntjes op de blauwe lijn zouden liggen zou het goed zijn,
maar nu liggen ze standaard daarboven. Dit is dus een systematische meetfout.
Systematische fout 2:
Hier gaat de lijn wel door het 0 punt. Hier meet hij steeds zoveel x zoveel als het andere
meetinstrument: als instrument X 1 meet, meet instrument Y 0,5. Als instrument X 2 meet, meet
instrument Y 1. Kijk of de diagonaal goed klopt over het plaatje heen.
Voorbeeld reproduceerbaarheid:
Tussen-meter variatie: 2 onderzoekers meten de bovenarmomtrek.
2 “meters”, 50 ouderen, verpleeghuis.
Meter b op de x as. Meter a op de y as.
Goede reproduceerbaarheid, want de correlatiecoëfficiënt is hoog.
• Correlatiecoëfficiënt zegt wat over de reproduceerbaarheid en de validiteit, net als de Bland
en Altman plot
Bland en Altmanplot MTB 1:
Visualiseert de mate van overeenstemming tussen 2 reeksen waarnemingen van een op continue schaal gemeten
kenmerk. Het kan hierbij gaan om een vergelijking van de resultaten van 2 verschillende meetinstrumenten of om een
vergelijking van de uitkomsten bij herhaalde toepassing van hetzelfde meetinstrument.
Bland-Altman plots are extensively used to evaluate the agreement among two different instruments or two
measurements techniques. Bland-Altman plots allow identification of any systematic difference between the
measurements
Voor het maken van een Bland-Altman plot pas je beide meetinstrumenten toe, en bepaal je het gemiddelde
van de twee metingen, alsmede het verschil in meetwaarde tussen de twee metingen. Horizontaal staat het
gemiddelde, verticaal het verschil
Gemiddeld verschil positief, dus blaastest geeft onderschatting. Bland-Altman plot
Er is een systematische afwijking is. In de meeste gevallen zie je dat de blaastest een lagere waarde 0,6
geeft dan de 3d test. Blaastest afgetrokken van 3d techniek. Positief getal wat erop lijkt dat 3d
verschil 3D - blaastest
0,4
hogere waarde geeft. 3d techniek geeft systematisch hogere waarde. Gemiddeld verschil positief. 0,2
Systematisch lichte onderschatting van blaastest. 0
0 1 2 3 4 5 6
-0,2
Gemiddelde longinhoud
Blauwe lijn is het gemiddelde van de afwijking dus alle waarnemingen 3D- blaastest: aantal
waarnemingen
Bland-Altman plot
0,6
‘Limits of Agreement’ geeft maat overeenstemming
verschil 3D - blaastest
0,4
o In 95% van de gevallen verschillen de volumes tussen de –0.13 en de +0.47 liter
o Alleen interpreteerbaar bij evenwichtige verdeling x-as 0,2
Het moet niet zo zijn dat er een stijgende of dalende lijn in zit. Het gemiddelde heeft dan geen 0
0 1 2 3 4 5 6
betekenis meer. -0,2
Gemiddelde longinhoud
limits of agreement zijn groen gestippelde lijnen. Naarmate het dichter op elkaar ligt zijn de methodes nauwkeuriger
in elkaar over te zetten. Als ze breed zijn komen ze niet goed overeen.
7
,Problematische bland- altmanplot:
Bland-Altman plot
Mate van overeenstemming afhankelijk van longinhoud van proefpersoon. 0,8
In dit hypothetische geval neemt de afwijking toe, naarmate het longvolume ook toeneemt. In een
verschil 3D - blaastest
0,6
dergelijk geval kun je geen limits of agreement meer bepalen. 0,4
Dus hier geen evenwichtige verdeling van de x-as. De afwijking neemt toe naarmate de longinhoud 0,2
0
toeneemt, voor een kleinere longinhoud is de afwijking kleiner dan voor een grotere longinhoud. 0 1 2 3 4 5
-0,2
Gemiddelde longinhoud
Bland en Altman Plot:
In een Bland en Altmand plot maak je systematische fouten goed zichtbaar en de mate
van overeenstemming tussen 2 methoden/metingen= voordeel
(Wanneer de metingen van het instrument en de gouden standaard in dezelfde eenheden
zijn uitgedrukt, kan er een Bland en Altman plot worden gebruikt)
Voorbeeld validiteit:
Vezelinname (g) van 100 studenten gemeten met de dagboekmethode (=gouden standaard) en recall methode.
We willen weten of de recall methode valide is.
Recall methode valide op individueel niveau? Kijk naar grootte/relevantie van:
1. Systematische fout
2. Limits of agreement (toevalsfout)
Limits of agreement is de ruimte tussen de systematische fout en de boven en
ondergrens van de limits of agreement.
− Rode lijn is de 0 lijn. Als alle punten op de 0 lijn liggen dan zou dat betekenen dat er geen verschil is tussen de
meetmethode.
− De zwarte lijn eronder is het gemiddelde verschil dat er gevonden is. Dit is ook wel de systematische fout. (dus
de ene methode meet net wat minder dan de andere methode, welke dat is hangt af van wat je min wat doet)
− Overige 2 zwarte lijnen= Gemiddelde verschil (2 meetmethode van elkaar aftrekken en van die variabele het
gemiddelde van opvragen) + en – 1,96, keer SD van verschil (de 2 meetmethoden – elkaar). Aannemende dat de
verschillende scores een normale verdeling volgen, valt 95% van de bolletjes binnen de limits of agreement.
− Als de scores van de metingen veel verschillen zal de SD van de verschillen hoger zijn en zullen de limits of
agreement ook groter zijn en verder weg liggen van het gemiddelde verschil.
− De afstand tussen de systematische fout en de limits of agreement is de toevalsfout
(het gemiddelde van de 2 meetmethoden staat op de x as: 2 methoden bij elkaar optellen en gedeeld door 2, het
verschil van de 2 meetmethoden staat op de y as: 2 meetmethoden van elkaar aftrekken)
Limits of agreement=
Gemiddelde verschil +- 1,96 x SD van het verschil
Nu willen we nog weten wanneer de recall methode valide is. Daarvoor hebben we getallen nodig:
1.Kijken naar hoe groot de systematische fout is 2. en hoe groot de limits of agreement zijn: liggen die ver uit elkaar
of niet? Beiden wil je zo klein mogelijk hebben.
1. systematische fout is -0,48 gram (het gemiddelde verschil, weergegeven door de zwarte lijn tussen de lijnen van
de limits of agreement). 0,5 gram is vrij weinig.
2. Limits of agreement: Als je kijkt vanaf het gemiddelde verschil ligt de lijn 8 gram omhoog en naar beneden:
Van -0,48 naar 7,35= 7,35+ 0,48= 7,83
Van -0,48 naar -8,31= 8,31 – 0,48= - 7,83
Op het oog is 8 gram veel, maar om te weten of iets veel of weinig is moet je weten wat een normale inname van
vezel is. Het Gemiddelde kan je uit je data halen. Gemiddelde vezelinname is 25 g.
Is de recall methode nu valide met alles wat we weten?
8
,• Toevalsfout van 8 gram. 8 gram is bij 25 gram best veel. Je moet vooraf bepalen wanneer je de limits of
agreement oké vindt of dat de fout bij het gebruik van de methode te groot is.
• Met een toevalsfout van 8 gram, zit je nog binnen de waarden van 95%BI (17-33). De waarden van het BI zijn
best breed. Als de waarden van het BI smaller waren geweest had het een probleem kunnen zijn. Stel dat het BI
had gelopen van 20 tot 30 of kleiner van 24 tot 26 dan weet je zeker dat je niet uit de voeten kan komen met
zo’n grote toevalsfout.
• Bovenstaande is slechts een voorbeeld hoe je het kan aanpakken. Een toevallige fout van 8 gram is best veel op
een gemiddelde van 25 gram. De systematische fout is wel klein: slechts 0,5 gram. IP doe je niet veel met het BI.
Validiteit recall methode voor meten cholesterolinname Validiteit bij een hoge en lage inname?
Belangrijke assumptie bland en altman plot: verschillen binnen de metingen verschillen niet met toenemende
waarden. De berekende waarden voor de limits of agreement gelden voor de hele range aan metingen.
Je moet ook letten op dat de puntenwolk gelijk verdeeld is rond de gemiddelde lijn. Voorbeeld wanneer het niet
goed gaat: Gemiddelde o.b.v. dagboek en recall.
Bij een lage gemiddelde inname lijken de bolletjes dichter bij elkaar te liggen dan verderop naar rechts.
De methode is dus wel valide wanneer de gemiddelde cholesterolinname laag is, maar als het gemiddelde
cholesterol hoog is, dan is het waarschijnlijk niet valide. Doordat de groep hier als 1 geheel wordt genomen kan de
gemiddelde lijn en de limits of agreement niet kloppen.
Middelste plaatje: de limits of agreement zouden in het linker beginstuk kleiner kunnen zijn, dan aan het einde. Je
kan de groep in dit geval niet op 1 hoop gooien en 1 plot maken.
Rechterplaatje: het kan ook zijn dat de cholesterolinname laag is doordat het ene instrument een onderschatting
geeft t.o.v. de ander en bij een hoge inname een
overschatting. Je zou de groep in 2 kunnen splitsen.
Afkappunt bij gemiddelde cholesterol inname. Iedereen die
eronder of erboven zit. Zo krijg je wel een ingewikkeld
instrument waarbij je alleen zou weten dat het alleen werkt
bij een lage of juist een hoge inname
Bovenarmomtrek reproduceerbaar
Kijk naar:
• Systematisch verschil tussen meters
• Limits of agreement (toevallig verschil tussen meters)
Reproduceerbaarheid kan je ook bepalen met de bland altman plot
Gemiddelde onderzoeker A en B
Rode lijn is 0 lijn. Als daar alle puntjes liggen zou er precies hetzelfde gemeten
worden door de 2 onderzoekers.
Reproduceerbaarheid van de bovenarmomtrek:
1. Systematische fout: 0,34 cm (gem verschil). De ene onderzoeker meet net
wat meer dan de andere onderzoeker. 0,34 cm verschil is weinig. Protocol wordt mogelijk door 1 onderzoeker
net wat anders uitgevoerd. Bijv net iets hoger of lager zitten met het meten van de arm.
2. Limits of agreement:
1,30 - 0,34= 0,96
-0,62 – 0,34= -0,96
Limits of agreement lopen 1 cm omhoog en 1 cm naar beneden: bij toeval meet je 1 cm te veel of 1 cm te
weinig.
We vinden het reproduceerbaar: beide onderzoekers meten hetzelfde.
9
, Variatiecoëfficiënt:
• Vaststellen reproduceerbaarheid
• Relatieve spreidingsmaat: Je rekent in %.
• Gemiddelde spreiding van metingen (voor bijvoorbeeld 2 meters) gerelateerd aan het
gemiddelde van alle metingen
• VC = (gemiddelde SD / overall gemiddelde) * 100 (%)
Gemiddelde SD: met trucje via variantie (= SD2)
Gem SD = √ gem variantie = √(((SD12) + (SD22) + .. )/n)
Gem SD = √ (((21.212) + (77.782) + .. )/5) = 59.62
Overall gemiddelde: (1950+1920+2235+..)/10 = 2316 (dus alle meetronden hierin meenemen)
In rekenmachine invullen: wortel, breuk, boven alle SD2 + SD2 + SD2 enz, zonder haakjes. Onder de breuk delen door
aantal SD’s
VC = 59.62/2316 (enter) *100 = 2.6% (er is een spreiding rondom het gemiddelde van 2.6%)
Dan is dus weer de vraag vind ik dit reproduceerbaar of niet.
• Kijkt alleen naar reproduceerbaarheid. Je kan de mate van spreiding van metingen goed weergeven. Is puur een
rekensom.
• Hoe hoger de variatiecoëfficiënt, hoe meer spreiding, hoe slechter de reproduceerbaarheid.
• Hoe lager de variatiecoëfficiënt, hoe minder spreiding, hoe meer reproduceerbaar.
2 beoordelaars die hetzelfde hebben gemeten bij 5 proefpersonen, SD van het verschil, gemiddelde verschil.
Gemiddelde SD is de variantie
Voorbeeldvraag tentamen:
Cholesterolinname
Is de 24 uurs recall methode een valide methode om - op individueel niveau - mensen van elkaar te onderscheiden
die 10% van de gemiddelde inname van elkaar verschillen?
Gegeven:
▪ Gemiddelde cholesterolinname 140 mg (95% BI 20-325 mg)
▪ Geen systematisch verschil met dagboekmethode
▪ Limits of agreement (vgl dagboekmethode) +/- 20.3 mg: dit heb je met elkaar afgesproken.
Kan ook zijn dat er een plaatje staat. Als je dit leest denk je meteen aan bland en altman plot.
1. Er is dus geen systematische fout.
2. 10% verschil van de gemiddelde inname= 14 mg. 126- 154
3. De toevalsfout (limits of agreement) is +/-20,3 mg.
4. 14 mg ligt binnen de limits of agreement.
5. Het is geen valide methoden om mensen van elkaar te onderscheiden, omdat het binnen de limits of
agreement valt.
6. Limits of agreement zijn groot: het kan een toevalsfout zijn van -20 of + 20, dus je kan nooit met zekerheid
zeggen: deze mensen verschillen 14 mg van elkaar. je kan ze niet van elkaar onderscheiden.
7. Als de limits of agreement (toevalsfout) 10 was geweest, was het wel een valide methoden om te
onderscheiden.
10