Hoeveel risico heeft iemand op een ziekte als kanker? Of een hartaanval? Het systeem Delphi-2M kan dat voorspellen. Maar hebben we daar echt wat aan? Of zijn er ook risico’s?
“Ik dacht toen ik het las: wéér een voorspelmodel. Want slechts twee procent van alle AI-innovaties wordt ook echt gebruikt in de zorg, blijkt uit onderzoek. Innovaties sluiten vaak niet goed aan op de praktijk.” Dat zegt Michel van Genderen, internist-intensivist en mede-oprichter van AI-ethieklab REAiHL, een samenwerking tussen Erasmus MC en TU Delft.
Van Genderen en zijn collega’s adviseren de Wereldgezondheidsorganisatie (WHO) op het gebied van AI in de zorg. “AI in de zorg omarmen gaat mis als er geen morele spelregels zijn. Het moet veilig en ethisch zijn.”
Interpreteren
De tool die nu is ontwikkeld, beoordeelt de waarschijnlijkheid óf en wannéér iemand ziekten als kanker, diabetes, hartziekten en vele andere aandoeningen zal ontwikkelen. Het systeem kan tot wel duizend ziekten voorspellen, zeggen de onderzoekers. Volgens hen is dat belangrijk voor preventie, diagnose en de behandeling.
Hoogleraar Mark Hoogendoorn van de VU Amsterdam bouwt ook AI-modellen die ziekten voorspellen, bijvoorbeeld voor de kans op darmkanker. Hij is enthousiast, maar ook kritisch. “Voor sommige ziekten doet-ie het redelijk goed, maar voor andere helemaal niet.”
Hoe stellig kun je die voorspellingen interpreteren, vraagt Van Genderen zich af. “Hoe kun je mij garanderen dat het voor een man van 70 net zo goed werkt als voor een vrouw van 70, of iemand van een minderheidsgroep, of iemand van 20? Stel je voert iemands huidskleur in of seksuele voorkeur. Je moet echt goed snappen wat die datasets doen.”
Van Genderen waarschuwt dat er nog een lange weg is te gaan voordat artsen met AI-modellen kunnen werken. “Wat we ons absoluut niet kunnen permitteren, is dat we beslissingen nemen op basis van een AI-model en dat de patiënt dan toch dood neervalt. Omdat er iets verkeerd is geïnterpreteerd.”
Het lijkt alsof we met AI ineens de binnenbocht willen nemen, vindt de internist-intesivist. “Dat kan niet. Het gaat om mensenlevens. Het gaat er niet om dat we iets kunnen met een model, maar hoe we ermee omgaan.”
Leeftijd en geslacht
Experts van het European Molecular Biology Laboratory (EMBL), het Duitse Centrum voor Kankeronderzoek en de Universiteit van Kopenhagen ontwikkelden de AI-tool. Iemands medische geschiedenis wordt gecombineerd met gegevens over levensstijl als roken en alcoholgebruik. Maar ook obesitas, leeftijd en geslacht.
Als Hoogendoorn dieper in het model kijkt en de bais van de voorspellende kracht, ziet hij voornamelijk leeftijd en geslacht. En dat gebeurt nu ook al zonder AI. “Over langere periodes, bijvoorbeeld tien jaar, doet het model het niet veel beter. Sommige dingen in de toekomst zijn nou eenmaal lastig te voorspellen.”
Delphi-2M haalt een nauwkeurigheidsscore van gemiddeld 0,76, waarbij 1,0 overeenkomt met een perfecte voorspelling. Voor voorspellingen op de langere termijn, voor bijvoorbeeld over meer dan tien jaar, is de gemiddelde score 0,7.
Vinden we die 0.7 echt goed genoeg? Vraagt Van Genderen zich af. “Ga ik wel behandelen of niet behandelen? Dat zijn hele moeilijke discussies. Het gaat hier wel over mensenlevens.”
Weersvoorspelling
Volgens Van Genderen zit er ook veel vooringenomenheid in AI-modellen. “Er zijn legio studies die dat aantonen. Het systeem werkt discriminatie in de hand.” Als voorbeeld noemt hij de conclusie van AI dat zwarte vrouwen die zwanger zijn minder pijn hebben.
EMBL-directeur professor Ewan Birney, die Delphi-2M mede ontwikkelde, benadrukt dat het om een voorspelling gaat. “Een beetje zoals bij het weer. Het is dus geen zekerheid.”
Van Genderen: “Het is uiteraard zeer slimme technologie, maar we moeten snappen wat de karakteristieken van zo’n dataset zijn en kunnen garanderen dat het echt goed is. Uiteindelijk gaat het ook om de vertrouwensrelatie tussen arts en patiënt.”
Eigendom van data
Birney begrijpt de zorgen. “Het model is inderdaad beter in korte tijdsintervallen. Artsen hebben sowieso vaak meer vertrouwen in wat er gebeurt in de nabije tijd.” De onderzoeker hoopt dat bekeken zal worden waar het AI-model de grootste impact kan hebben.
Als voorbeeld noemt hij ook de planning van zorg. “Dat je kunt beslissen hoeveel MRI-scanners er naar Amsterdam of Leiden of Rotterdam of waar dan ook moeten gaan.”
Van Genderen blijft huiverig. “Delphi-2M is een taalmodel dat gebaseerd is op dezelfde architectuur als Open AI en DeepSeek. 300 Chinese ziekenhuizen zijn recent met DeepSeek gaan werken”, zegt hij. “Daar worden alle ingevoerde data eigendom van het bedrijf. Wat gaan zij ermee doen, nu of over twintig jaar? Stel ze verkopen het aan verzekeraars. Dat is ook een zeer fundamentele vraag: waar wil je je data stallen?”
-nos.nl-