De Opkomst van Grote Taalmodellen in de Maatschappij
Sinds ongeveer twee jaar zijn grote taalmodellen, oftewel Large Language Models (LLM's), niet meer weg te denken uit de maatschappij. LLM's zijn een vorm van generatieve AI. Het bekendste voorbeeld van een toepassing van LLM’s is ChatGPT. Dit is een LLM die verder getraind is om als chatbot te werken, en zo allerlei vragen te beantwoorden en opdrachten uit te voeren. Sinds de introductie van ChatGPT zijn mensen er veelvuldig mee aan het experimenteren. Er worden ontzettend veel wetenschappelijke artikelen gepubliceerd over hoe ChatGPT en andere LLM’s presteren op allerlei verschillende soorten taken. Hierdoor wordt steeds duidelijker waar je deze technologie voor in kunt zetten en waar (nog) niet.
LLM’s en Diagnosestelling
Vanaf de introductie van LLM’s is er meteen veel aandacht geweest voor het gebruik van dit type modellen, zoals ChatGPT, bij het stellen van diagnoses. Wat steeds terugkomt in de studies die hierover gepubliceerd worden, is dat ChatGPT eigenlijk verbazingwekkend goed is in het stellen van een diagnose op basis van ingevoerde symptomen. In veel studies doet ChatGPT (afhankelijk van de versie) het niet veel slechter en soms zelfs beter dan artsen. Een voorbeeld hiervan is een studie die in 2023 gedaan is door artsen van het Elisabeth-Tweesteden Ziekenhuis in Tilburg[1]. Zij gaven ChatGPT beschrijvingen van patiënten die op de Spoedeisende Hulp gezien waren. Op basis hiervan kozen zowel de artsen als ChatGPT de vijf meest waarschijnlijke diagnoses. Bij artsen zat de juiste diagnose er in 83% van de gevallen tussen, bij ChatGPT v3.5 was dat 77% en bij ChatGPT v4.0 was dat 87%.
Andere studies laten zien dat de resultaten wel erg afhankelijk zijn van het vakgebied en ook met wat voor artsen je ChatGPT vergelijkt. In een andere studie binnen de dermatologie doet ChatGPT het beter dan niet-gespecialiseerde artsen, maar een stuk slechter dan dermatologen[2]. Meerdere studies beschrijven vergelijkbare resultaten[3, 4, 5]. Verder is de uitleg van ChatGPT waarom voor een bepaalde diagnose gekozen is vaak onlogisch of niet correct.
Beperkingen van Huidig Onderzoek
Het is goed om te benoemen is dat al deze studies werken met zogenaamde ‘vignetten’. Dat zijn uitgewerkte casussen, waarbij een beschrijving van de patiënt en eventuele andere informatie in één document wordt geplaatst. Dat is een groot verschil met hoe het er in de klinische praktijk aan toegaat, waarin diagnostiek dynamischer verloopt en afhankelijk is van interacties tussen arts en patiënt.
Daarnaast is er recent een studie gepubliceerd die onderzocht of artsen in samenwerking met LLM’s het beter zouden doen dan artsen zonder LLM’s[6]. Daar kwam uit dat de samenwerking met LLM’s niet leiden tot betere diagnoses. Het is dus nog niet duidelijk hoe LLM’s daadwerkelijk presteren in de klinische praktijk.
Naast algemene LLM’s zoals ChatGPT zijn er steeds meer LLM’s die specifiek op medische data getraind worden. Een voorbeeld daarvan is Med-PaLM van Google[7]. Het voordeel hiervan is dat er meer controle is op relevante data van goede kwaliteit, waarmee je de kans op onjuiste antwoorden verkleint. Er zijn zelfs LLM’s die specifiek zijn getraind om diagnoses te stellen. Ook hier loopt Google voorop: vorig jaar presenteerden ze AMIE, een LLM getraind om diagnostische gesprekken te voeren met patiënten[8]. AMIE werkt alsof je aan het chatten bent met een arts: je begint met over je klachten vertellen, AMIE stelt vervolgvragen totdat er genoeg informatie is, stelt een diagnose en maakt een behandelplan. Vergeleken met huisartsen was AMIE beter in staat om de juiste diagnose te maken en een goed behandelplan op te stellen.
De Risico’s van LLM’s in de Zorg
Uit al deze voorbeelden komt naar voren dat LLM’s tot op zekere hoogte kunnen bijdragen aan het stellen van een diagnose aan de hand van symptomen. Duidelijk wordt ook dat ChatGPT vooral goed is in veelvoorkomende diagnoses herkennen, en dat zeker niet beter doet dan gespecialiseerde artsen. LLM’s die specifiek op medische data getraind zijn, geven betere informatie terug. De potentie is er dus zeker, maar er zijn nog een hoop risico’s om aan te pakken voordat we dit grootschalig in kunnen zetten in de zorg. Ten eerste moet alle software die invloed heeft op de diagnose of behandeling van een patiënt aan strenge kwaliteitseisen voldoen, zoals beschreven in de Medical Device Regulation. Daar komen binnenkort nog extra eisen bij vanuit de nieuwe AI-act. Verder zijn er grote uitdagingen rondom privacy: wat gebeurt er eigenlijk met je (sensitieve) data als je die in een LLM invoert? Wordt je data opgeslagen en weer gebruikt voor het trainen van een volgend model? Ook is discriminatie een belangrijk onderwerp: omdat LLM’s op zoveel data getraind worden, bevatten ze veel stereotyperende ideeën die er moeilijk uit te krijgen zijn. Denk bijvoorbeeld aan verschillende opvattingen over mannen en vrouwen, of over bevolkingsgroepen. Hier moet een goede oplossing voor zijn voordat we LLM’s gaan gebruiken voor het stellen van diagnoses. Als laatste is het belangrijk dat er nog veel meer onderzoek wordt gedaan, om een zo duidelijk mogelijk beeld te krijgen van hoe goed LLM’s presteren in verschillende situaties. Zo kunnen we beter bepalen op welke momenten het goed zou zijn om LLM’s te gebruiken voor het stellen van diagnoses, en wanneer we dat niet moeten doen.
Conclusie
Als we al deze informatie bij elkaar nemen, dan is het duidelijk dat LLM’s in de toekomst wellicht gebruikt zullen worden om diagnoses te stellen. Op dit moment kunnen ze hier echter nog niet voor ingezet worden, tenzij ze aan strenge eisen voldoen. In eerste instantie is dit vooral van toegevoegde waarde op plekken waar de juiste expertise niet beschikbaar is. Denk bijvoorbeeld aan afgelegen gebieden waar geen artsen zijn. Of ter ondersteuning van jonge of niet-gespecialiseerde artsen. LLM’s zullen artsen niet snel helemaal vervangen in het stellen van diagnoses. Daar is nog een hoop extra onderzoek voor nodig.