Inleiding in evidence-based medicine:
Klinisch handelen gebaseerd op
bewijsmateriaal.
M. Offringa, W.J.J. Assendelft, R.J.P.M. Scholten.
H4 kritisch beoordelen van een artikel
4.2 Diagnose
Als een patiënt bij een arts komt, is een van de eerste doelen het stellen van een
diagnose. Dit kan zorgt ervoor dat de cliënt weet wat de prognose zal zijn en wat
hierbij een passend beleid is.
Een diagnose kan gesteld worden door een valide diagnostische test. Deze test is
verschillend (patiëntenkenmerken, anamnesevragen, lichamelijk onderzoek,
laboratoriumonderzoek en beeldvormende diagnostiek). Deze test kan bewijzen
of er een aanwezigheid van ziekte is. De test die dit met maximale zekerheid kan,
wordt de gouden standaard genoemd. Omdat een test soms ook een diagnose
kan missen, gebruikt men sneller de naam referentiestandaard of –test. Soms is
het niet altijd mogelijk om deze test te doen. De uitslag kan te lang duren, het is
duur of minimaal beschikbaar. Dan worden en ook testen uitgevoerd die de
waarheid zo goed mogelijk willen achterhalen.
De waarde van een diagnostische test voor het aantonen van een bepaalde
aandoening, wordt meestal onderzocht in een groep van opeenvolgende
patiënten waarin een bepaalde diagnose wordt vermoed. De patiënten
ondergaan de diagnostische test en de referentietest. De uitkomsten worden met
elkaar vergeleken. Er wordt gekeken naar sensitiviteit (proportie personen met
een positieve indextest onder de personen met de aan te tonen aandoening) en
naar de specificiteit (proportie personen met een negatieve indextest onder de
personen onder de aan te tonen aandoening).
De beoordeling van een diagnostische test(indextest) bestaat uit: validiteit,
belang uitkomsten en toepasbaarheid van resultaten.
Soms biedt een referentietest niet een optimaal resultaat. Dan zal er genoegen
genomen moeten worden met een mindervalide test. Als er geen gouden
standaard is, dan kan de indextest vergeleken worden met de test die op dat
moment het meest aanvaardbaar is of met het langetermijnbeloop van de
aandoening. Als er geen valide referentietest aanwezig is kan dit leiden tot zowel
overschatting als onderschatting van de eigenschappen van de test. In een
beoordeling van een referentietest moeten dan duidelijke criteria staan vermeld
waarom een test positief of negatief is.
Als een indextest en referentietest worden beoordeeld, moet dit onafhankelijk
van elkaar. Als dit niet gebeurd, dan kan dit leiden tot een kunstmatige hogere
overeenstemming van de indextest met de referentietest. (review bias)
De beoordelaar van de indextest mag niet beschikken over klinische informatie
die zo sterk gerelateerd is met de werkelijke ziektestatus van de patiënt, dat hij
de diagnose eigenlijk al in handen heeft. Dit kan uiteindelijk ook weer leiden tot
kunstmatige hogere overeenstemming. De beoordelaar mag wel andere klinische
informatie hebben, het gaat hierbij alleen om informatie waaruit hij de werkelijke
ziektestatus van de patiënt met grote zekerheid kan afleiden.
,De indextest en de referentietest moeten bij alle patiënten uitgevoerd worden.
Soms is de referentietest te duur hiervoor. Het is dan mogelijk dat de keuze om
de referentietest al dan niet uit te voeren, samenhangt met de uitslag van de
indextest. Dit heet partiele verificatie. Zo kunnen bijvoorbeeld alle positieven
verwezen worden naar de referentietest maar niet alle negatieven uit de
indextest. Hierdoor zullen de doorverwezen verhoudingen van zo’n test verstoord
worden. De steekproef is dan ‘opgewekt’ (work-up bias) hetgeen een vertekend
beeld geeft van de diagnostische waarde van de indextest; de sensitiviteit wordt
overschat en de specificiteit onderschat.
Een onderzoek is wel valide als de referentietest is uitgevoerd bij alle indextest-
positieven en bij een aselecte steekproef bij de indextest-negatieven. Bij het
berekenen moeten de onderzoekers wel corrigeren voor deze steekproef. Een
andere oplossing is het toepassen van een alternatieve, geaccepteerde
referentietest voor de indextest-negatieven. Alleen als de eigenschappen van
beide refetentietesten verschillen, kan dit leiden tot misclassificatie en
vertekening. Dit heet differentiële verificatie.
Het is van belang dat er voor de inclusie van patiënten in het onderzoek geen
selectie plaatsvindt. Als de patiëntengroep niet valide is samengesteld kan dat
leiden tot het makkelijker maken om de index- of referentietest een juiste
diagnose te stellen.
De waarde van de indextest dient onderzocht te zijn in een relevante en
representatieve groep personen voor de maatschappij. Aspecten waarop gelet
kan worden zijn: patiënten spectrum, spectrum niet-zieken, setting, duur van de
klachten, aard en resultaten van voorafgaande tests en demografische gegevens.
Soms kan een indextest leiden tot niet-interpreteerbare testresultaten. Als deze
slecht te duiden resultaten worden weggelaten en de uitkomsten worden
berekend aan de hand van de overgebleven resultaten, dan worden de noemers
te klein waardoor de sensitiviteit en specificiteit van de indextest overschat
worden. Daarom moeten ook slecht interpreteerbare resultaten gerapporteerd
worden zodat met een inschatting kan maken van het effect ervan op de
resultaten.
Soms is er sprake van selectieve uitval omdat patiënten de behandeling niet
volgen. Hierdoor kan het ziektespectrum van de andere patiënten beïnvloed
worden en kunnen de resultaten vertekenen. Dus ook hiervoor moet uitval
gerapporteerd worden zodat de kans op vertekening ingeschat kan worden.
Bij een indextest zijn verschillende kwaliteitsaspecten van belang. Deze overige
aspecten kunnen ook mogelijk tot vertekening leiden: beschrijving indextest,
interpretatie testuitslag, voorbereiking patiënt, benodigde ervaring van de
uitvoerders, reproduceerbaarheid, tijd tussen het uitvoeren van de indextest en
referentietest.
Als we te maken hebben met een valide onderzoek naar de waarde van een
indextest, dan moet er vastgesteld worden hoe goed de indextest de aan- of
afwezigheid van de onderzochte aandoening kan voorspellen. Wordt het
onderzocht op een dichotomeschaal, dan kunnen de uitkomsten in een 2x2 tabel
worden samengevat. Bij een continue schaal moet eerst een afkappunt gekozen
worden voor het positief aanduiden van de indextest.
,Voor de kwantificering van het diagnostische onderscheidingsvermogen van de
indextest, zijn verschillende parameters beschikbaar Hieronder vallen de
sensitiviteit en de specificiteit die worden gemeten. Deze geven een beeld over
de verdeling van de indextest resultaten bij zieken en niet-zieken. Alleen voor een
arts zijn deze minder van belang. Hij wil weten wat de kans is dat de patiënt ok
werkelijk de ziekte heeft of niet. Hiervoor is de voorspellende waarden van de
indextest nodig. Deze kan zowel positief zijn (de proportie zieken onder de
personen met een positieve uitslag op de indextest) of negatief (de proportie
niet-zieken onder de personen met een negatieve uitslag op de indextest).
Deze voorspellende waarden zijn op te vatten als achterafkansen
(posteriorkansen) op respectievelijk de aan- en afwezigheid van ziekte. De
voorafkans is de prevalentie onder de onderzochte patiënten (A/totaal
positieven). De voorafkans kan ook de afwezigheid van een aandoening
voorspellen (totaal ziekte/N). De achterafkans is C/totaal negatieven. De
voorspellende waarden van de indextest zijn sterk afhankelijk van de prevalentie
van de onderzochte aandoening in de groep personen bij wie de test wordt
uitgevoerd. De grootste ‘diagnostische winst’ wordt doorgaans geboekt in
situaties met een voorafkans (prevalentie) tussen de 30-70%. Bij lagere of hogere
voorafkansen voegt het testresultaat vaak niet veel toe aan de klinische
(on)zekerheid.
Andere parameters zijn likelihoo-ratios (aannemelijkheidsverhoudingen. De
likelihood van een positieve test (LR+) is de verhouding tussen de kans op een
positieve uitslag op de indextest bij personen met de ziekte en de kans op een
positieve testuitslag bij personen zonder de ziekte. Een test met een LR-waarde
van 1 is niet informatief. De test is informatiever als de LR+ groter wordt. Bij een
positieve uitslag van een indextest met een grote LR+ waarde is het
aannemelijker dat we met een zieke te maken hebben dan met een niet-zieke.
Een uitslag met een LR+ waarde van oneindig heet pathogonomonisch voor de
ziekte. De likelihood voor een negatieve test (LR-) is de verhouding tussen de
kans op een negatieve uitslag op de indextest bij personen met de ziekte en de
kans op een negatieve uitslag bij personen zonder de ziekte. Als de LR- waarde
kleiner wordt, is deze informatiever dan wanneer deze 1 is. Een negatieve uitslag
van een test met een LR- waarde van 0 sluit de ziekte volledig uit.
Als een indextest wordt gemeten op een continue schaal, moet je een positief
afkappunt kiezen voor het positief duiden van een test. Hoe hoger men de grens
van het afkappunt legt, des te lager wordt de sensitiviteit en des te hoger de
specificiteit. Als je het afkappunt lager legt is de sensitiviteit hoger en de
specificiteit lager. Deze twee zijn dus negatief aan elkaar gecorreleerd. De relatie
tussen sensitiviteit en specificiteit bij verschillende afkappunten kan worden
weergeven in een receiver operating characteristic curve (ROC). De y-as geeft de
sensitiviteit weer en de x-as de specificiteit. Blokjes staan voor een afkappunt die
de combinatie van de waarden van sensitiviteit en 1-specificiteit weer. De beste
combinatie in en afkappunt, ligt het dichtstbij de linkerbovenhoek. Bij dit punt is
de diagnostische misclassificatie geminimaliseerd (het aantal fout-positieven en
fout-negatieven is geminimaliseerd).
De schattingen van sensitiviteit, specificiteit, voorspellende waarden en
likelihood-ratios zijn onderhevig aan toevalsvariatie. Met hulp van het 95%
betrouwbaarheidsinterval kan de precisie van de schatting worden bepaald.
H4.3 Prognose
, Als een diagnose is gesteld, is de prognose de volgende stap. Dit is zowel in
belang van de patiënt als van de behandelaar. Hiervoor is kennis nodig. Kennis
voor de behandeling en voor het verloop van een ziekte of aandoening. In de
regel is bij patiënten met een slechtere prognose, de winst van een interventie
groter.
Beoordeling van een prognostisch onderzoek bevat: validiteit, belang en
toepasbaarheid. Prognostische factoren hangen samen met een positieve of
negatieve prognose en kunnen beïnvloedbaar zijn. Bijvoorbeeld roken,
voedingsgedrag of bewegingspatroon. Maar ook niet beïnvloedbare factoren
zoals leeftijd en geslacht. Onder uitkomst wordt de gebeurtenis verstaan die
antwoord geeft op de prognostische vraag. Dit kan genezing zijn maar ook het
optreden van complicaties.
Onderzoek naar prognostische factoren wordt vaak uitgevoerd aan de hand van
observationeel onderzoek (cohort). Informatie over de prognose na een
behandeling zal vaker volgen uit gerandomiseerd effectonderzoek maar kan ook
volgen uit cohortonderzoek. Onderzoek kan zich richten op 1 factor of
meerderen. Vervolgens kunnen effecten samengevoegd worden in 1 prognostisch
model.
Een samengestelde groep heet inceptiecohort. Het startpunt van het cohort is
vaak het moment waarop de eerste ondubbelzinnige symptomen merkbaar zijn
of zodra de therapie wordt gestart. Op deze manier worden zowel patiënten
ingesloten die volledig herstellen, die overleiden, al de personen waarbij de
ziekte blijft bestaan. Maar een onderzoeker kan ook geïnteresseerd zijn in een
cohort wat op een later tijdstip is samengesteld.
Prognostisch onderzoek kan retrospectief zijn. Dit is minder valide dan onderzoek
dat uit gaat van een inceptiecohort. Dan worden meestal alleen personen
ingesloten hebben die nog last hebben van klachten en contact hebben met de
gezondheidszorg. Personen die zijn overleden of genezen worden dan gemist.
Ook kan het leiden tot oververtegenwoordiging van patiënten die herhaaldelijk
dezelfde klachten hebben: zij hebben namelijk meer kans om geïncludeerd te
worden ten opzichte van patiënten die eenmalig klachten hebben.
In de omschrijving en het verwijspatroon van een prognostisch onderzoek, moet
het voor de lezer duidelijk zijn waarom bepaalde patiënten gerekruteerd zijn. Dit
is nodig om te kunnen beoordelen of de resultaten van het artikel toepasbaar zijn
op de eigen patiënten.
Om een prognostisch onderzoek compleet mogelijk te maken, is er voldoende
follow-up nodig. Het ontbreken van patiënten bij de follow-up kan gerelateerd zijn
aan de ernst van de aandoening of aan de uitkomst en dus leiden tot
vertekening. De mogelijke invloed van uitval op de resultaten van het onderzoek
kan op verschillende manieren worden nagegaan. Hierbij kun je rekenen in de
best case scenario of de worstcasescenario. Dit kan door de uitvallers in de
eerste berekening mee te nemen alsof alle uitvallers genezen zijn en dit daarna
nogmaals uit te rekenen, maar nu alsof alle uitvallers de ongunstige uitkomst
hadden. Hoe lager de kans op de (slechte) uitkomst, hoe groter het potentiële
effect van onderbrekende patiënten is.
Een andere methode is op basis van de gegevens die wel bekend zijn, van een
patiënt, in te schatten wat de meest waarschijnlijke uitkomst zou zijn geweest.