The Lancet publiceerde vorige week een systematische review en een meta-analyse over de doeltreffendheid van artificiële intelligentie en artsen bij het stellen van diagnoses. Wat zijn de take-home messages?
Iedereen die betrokken is bij digitale gezondheid keek uit naar de publicatie van de studieresultaten in The Lancet. De belangrijkste conclusie is dat artificiële intelligentie net zo doeltreffend kan zijn als artsen voor het stellen van diagnoses. Maar de auteurs van de studie wijzen op de belangrijke beperkingen van de studie en de interpretatie ervan.
Een eerste vaststelling: minder dan 1% van de 20.500 onderzochte studies had een robuust genoeg design opdat de onderzoekers een relatief vertrouwen hadden in de resultaten. Het totaal aantal artikels dat in aanmerking kwam voor de studie is aanzienlijk. En des te meer in een tijd waarin de academische wereld overspoeld wordt door artikels die de afwezigheid aantonen van de reproduceerbaarheid in verschillende domeinen van de biomedische wetenschappen, waaronder het fundamenteel medisch onderzoek.
Een tweede punt. De directeur van de studie, professor Alastair Denniston (NHS Birmingham) zegt dat niet meer dan 25 studies hun resultaten valideerden met gebruik van medische beelden van andere populaties dan de bronpopulatie van hun onderzoek. De primaire replicatie van de resultaten werd uitgevoerd in minder dan één duizendste van de geanalyseerde studies.
Ten derde wordt in niet meer dan veertien studies artificiële intelligentie echt vergeleken met artsen met gebruik van dezelfde stalen.
Op basis van deze meta-analyse kan men nièt stellen dat artificiële intelligentie doeltreffender is voor het stellen van diagnoses dan artsen. Het klein aantal kwalitatieve studies waarover de onderzoekers beschikten stellen dat deep learning net zo nuttig is voor opsporen van verschillende types van ziekten.
Het besluit? De studie is een excellente etappe naar de klinische validatie van algortimes, maar de bewijzen van toepassingen van artificiële intelligentie in de ‘echte wereld’ zullen, net zoals dat altijd het geval is met innovaties, afkomstig moeten zijn van gerandomiseerde studies waarin de verschillende diagnostische aanpakken en hun impact op de time-to-treatment, time-to-discharge en de overleving vergeleken worden.