Welke waarde kun je hechten aan de uitleg van een LLM (zoals Claude) over zijn werkwijze bij het beantwoorden van een vraag?

Techniek Natuurlijke Taalverwerking

De volledige vraag is: "Welke waarde en betekenis kun je als gebruiker of onderzoeker wel of niet toekennen aan de uitleg van een LLM zoals Claude over de werkwijze die het gevolgd heeft bij het analyseren, interpreteren en beantwoorden van een vraag in een thematische conversatie en uitwisseling?". LLM’s genereren teksten door te voorspellen wat het volgende woord in de zin is. De uitleg die door een LLM wordt gegeven, wordt ook op deze manier gemaakt. Het is lastig om te zeggen of een dergelijke uitleg ook echt verklaart hoe de LLM op het antwoord is gekomen. Daarom is het belangrijk om altijd te controleren of het gegeven antwoord feitelijk correct is.

LLM’s: voorspellen van het volgende woord

Large language models (LLM’s) zoals GPT-4o en Claude zijn getraind op het uitvoeren van een taak die “next word prediction” heet. Een LLM wordt getraind op deze taak, door het model heel veel teksten te laten ‘lezen’, zodat het model leert welke woorden er vaak op elkaar volgen. Nadat het model is getraind, kan het op basis van de tekst die een gebruiker invoert, voorspellen welke woorden daar het meest waarschijnlijk op volgen.

Als je dus een vraag stelt aan het model, voorspelt het model de meest waarschijnlijke zin die volgt, namelijk het antwoord op die vraag. Het antwoord op de gestelde vraag is helaas niet altijd correct. Daarom blijft het belangrijk om als gebruiker te controleren of het gegeven antwoord ook echt feitelijk juist is.

Voor bepaalde redeneringstaken, bijvoorbeeld rekenen, kan het helpen om de LLM te vragen om stap-voor-stap (Chain-of-Thought) na te denken. In de vraag verwerk je dan een zin zoals ‘let’s think step by step’. Doordat het model in stapjes de taak oplost, is de kans dat er een correct antwoord wordt gegenereerd groter [1]. De stap-voor-stap redenering kan worden gezien als een uitleg van de LLM voor het gegeven antwoord. Deze uitleg wordt op dezelfde manier gegenereerd als het antwoord: de LLM voorspelt de meest waarschijnlijke volgende zin, maar bevat deze keer zinnen of woorden die de gebruiker als uitleg herkent.

Plausibele of waarheidsgetrouwe uitleg?

Wanneer een mens de uitleg van een AI-model herkent en gelooft, word deze uitleg plausibel genoemd. Aangezien LLM’s vaak zijn getraind op teksten die door mensen zijn geschreven, zijn de uitleggen vaak plausibel [2].

Dat een mens de uitleg plausibel acht, betekent helaas niet dat de uitleg ook echt de redenering van de LLM weerspiegelt. De causaliteit die (eventueel) wordt weerspiegeld in een gegenereerde tekst is het gevolg van het feit dat het trainingsmateriaal van de LLM’s in het algemeen op een causale manier wordt beschreven. Als een uitleg correct weerspiegelt welke redenering de LLM heeft gebruikt om op een antwoord te komen, wordt dit een waarheidsgetrouwe (faithful) uitleg genoemd. Het is (vooralsnog) lastig om erachter te komen welke redenering een LLM precies heeft gebruikt om op het antwoord te komen, en of dit überhaupt een redenering genoemd kan worden. Dit komt doordat LLM’s veel verschillende parameters hebben om rekening mee te houden. Daardoor is het voor mensen onmogelijk om te begrijpen hoe het model precies werkt.

Als we de LLM vragen om een uitleg te geven, gelden de bovenstaande knelpunten ook. Omdat LLM’s op teksten zijn getraind die door mensen zijn geschreven, is de er een grote kans dat zo’n uitleg plausibel is [2]. Of de uitleg ook waarheidsgetrouw is aan wat er werkelijk binnenin de LLM is gebeurd, is moeilijk te zeggen. Recent onderzoek suggereert dat de uitleggen die een LLM geeft over het algemeen niet waarheidsgetrouw zijn [3] [4] [5]. Zie het voorbeeld in Figuur 1: volgens de uitleg van de LLM wordt de beste kandidaat voorgesteld op basis van de eigenschappen van de kandidaten. Maar door een aanpassing aan de vraag (“he” vervangen door “she”), blijkt dat juist het gender van de kandidaten beslissend is voor het uiteindelijke antwoord. De gegenereerde uitleg is in dit geval niet waarheidsgetrouw.

Figuur 1: Voorbeeld van een niet waarheidsgetrouwe uitleg uit [5]. De LLM baseert het antwoord op andere redenen dan uit de uitleg blijkt.

Wat voor waarde heeft de uitleg van een LLM dan wel?

Je kunt de uitleg van een LLM beschouwen als een uitgebreid antwoord, maar is het nog steeds belangrijk om te controleren of het antwoord ook feitelijk correct is. Het kan namelijk voorkomen dat een uitleg correct is, maar het antwoord niet, of dat de uitleg niets met het antwoord te maken heeft [2]. Kortom, zelfs een correcte uitleg is geen garantie voor een correct antwoord, en een correct antwoord is geen garantie voor een correcte uitleg.

Wat vond je van dit antwoord? Geef ons uw mening

Hoe is dit artikel tot stand gekomen?

Dit antwoord is gereviewed door Bram van Es

Gepubliceered op: 29 April 2025

Citeer dit artikel

[1] J. Wei, X. Wang, D. Schuurmans, M. Bosma, F. Xia, E. Chi, Q. V. Le and D. Zhou, "Chain-of-thought prompting elicits reasoning in large language models," Advances in neural information processing systems, vol. 35, pp. 24824--24837, 2022. https://doi.org/10.48550/arXiv.2201.11903

[2] C. Agarwal, S. H. Tanneru and H. Lakkaraju, "Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models," arXiv, vol. 2402.04614, 2024. https://doi.org/10.1007/978-3-031-78952-6_2

[3] M. Turpin, J. Michael, E. Perez and S. R. Bowman, "Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting," in Advances in Neural Information Processing Systems, vol. 36, Curran Associates, Inc., 2023, pp. 74952--74965. DOI:10.48550/arXiv.2412.15504

[4] A. Madsen, S. Chandar and S. Reddy, "Are self-explanations from Large Language Models faithful?," in Findings of the Association for Computational Linguistics: ACL 2024, Bangkok, Association for Computational Linguistics, 2024, pp. 295--337. 10.18653/v1/2024.findings-acl.19

[5] K. Matton, R. Ness and E. Kiciman, "Walk the Talk? Measuring the Faithfulness of Large Language Model Explanations," in CLR 2024 Workshop on Secure and Trustworthy Large Language Models, 2024. https://doi.org/10.48550/arXiv.2504.14150

[6] C. Singh, J. P. Inala, M. Galley, R. Caruana and J. Gao, "Rethinking Interpretability in the Era of Large Language Models," arXiv, vol. 2402.01761, 2024. arXiv preprint arXiv:2402.01761

©De tekst is beschikbaar onder de licentie Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal, er kunnen aanvullende voorwaarden van toepassing zijn. Zie de gebruiksvoorwaarden voor meer informatie.