LLM’s: voorspellen van het volgende woord
Large language models (LLM’s) zoals GPT-4o en Claude zijn getraind op het uitvoeren van een taak die “next word prediction” heet. Een LLM wordt getraind op deze taak, door het model heel veel teksten te laten ‘lezen’, zodat het model leert welke woorden er vaak op elkaar volgen. Nadat het model is getraind, kan het op basis van de tekst die een gebruiker invoert, voorspellen welke woorden daar het meest waarschijnlijk op volgen.
Als je dus een vraag stelt aan het model, voorspelt het model de meest waarschijnlijke zin die volgt, namelijk het antwoord op die vraag. Het antwoord op de gestelde vraag is helaas niet altijd correct. Daarom blijft het belangrijk om als gebruiker te controleren of het gegeven antwoord ook echt feitelijk juist is.
Voor bepaalde redeneringstaken, bijvoorbeeld rekenen, kan het helpen om de LLM te vragen om stap-voor-stap (Chain-of-Thought) na te denken. In de vraag verwerk je dan een zin zoals ‘let’s think step by step’. Doordat het model in stapjes de taak oplost, is de kans dat er een correct antwoord wordt gegenereerd groter [1]. De stap-voor-stap redenering kan worden gezien als een uitleg van de LLM voor het gegeven antwoord. Deze uitleg wordt op dezelfde manier gegenereerd als het antwoord: de LLM voorspelt de meest waarschijnlijke volgende zin, maar bevat deze keer zinnen of woorden die de gebruiker als uitleg herkent.
Plausibele of waarheidsgetrouwe uitleg?
Wanneer een mens de uitleg van een AI-model herkent en gelooft, word deze uitleg plausibel genoemd. Aangezien LLM’s vaak zijn getraind op teksten die door mensen zijn geschreven, zijn de uitleggen vaak plausibel [2].
Dat een mens de uitleg plausibel acht, betekent helaas niet dat de uitleg ook echt de redenering van de LLM weerspiegelt. De causaliteit die (eventueel) wordt weerspiegeld in een gegenereerde tekst is het gevolg van het feit dat het trainingsmateriaal van de LLM’s in het algemeen op een causale manier wordt beschreven. Als een uitleg correct weerspiegelt welke redenering de LLM heeft gebruikt om op een antwoord te komen, wordt dit een waarheidsgetrouwe (faithful) uitleg genoemd. Het is (vooralsnog) lastig om erachter te komen welke redenering een LLM precies heeft gebruikt om op het antwoord te komen, en of dit überhaupt een redenering genoemd kan worden. Dit komt doordat LLM’s veel verschillende parameters hebben om rekening mee te houden. Daardoor is het voor mensen onmogelijk om te begrijpen hoe het model precies werkt.
Als we de LLM vragen om een uitleg te geven, gelden de bovenstaande knelpunten ook. Omdat LLM’s op teksten zijn getraind die door mensen zijn geschreven, is de er een grote kans dat zo’n uitleg plausibel is [2]. Of de uitleg ook waarheidsgetrouw is aan wat er werkelijk binnenin de LLM is gebeurd, is moeilijk te zeggen. Recent onderzoek suggereert dat de uitleggen die een LLM geeft over het algemeen niet waarheidsgetrouw zijn [3] [4] [5]. Zie het voorbeeld in Figuur 1: volgens de uitleg van de LLM wordt de beste kandidaat voorgesteld op basis van de eigenschappen van de kandidaten. Maar door een aanpassing aan de vraag (“he” vervangen door “she”), blijkt dat juist het gender van de kandidaten beslissend is voor het uiteindelijke antwoord. De gegenereerde uitleg is in dit geval niet waarheidsgetrouw.

Figuur 1: Voorbeeld van een niet waarheidsgetrouwe uitleg uit [5]. De LLM baseert het antwoord op andere redenen dan uit de uitleg blijkt.
Wat voor waarde heeft de uitleg van een LLM dan wel?
Je kunt de uitleg van een LLM beschouwen als een uitgebreid antwoord, maar is het nog steeds belangrijk om te controleren of het antwoord ook feitelijk correct is. Het kan namelijk voorkomen dat een uitleg correct is, maar het antwoord niet, of dat de uitleg niets met het antwoord te maken heeft [2]. Kortom, zelfs een correcte uitleg is geen garantie voor een correct antwoord, en een correct antwoord is geen garantie voor een correcte uitleg.