Hoe kunnen we onderscheid maken tussen echte en door AI gegenereerde data?

Hoe kunnen we onderscheid maken tussen echte en door AI gegenereerde data? Dit antwoord richt zich op LLM (grote taalmodellen)-gegenereerde teksten. De verschillen tussen menselijke en AI-gegenereerde teksten zijn vaak subtiel. Machine learning methoden kunnen effectief zijn om te bepalen of teksten door LLMs zijn gegenereerd, maar ze zijn kwetsbaar voor tactieken die detectie vermijden. Er zijn daarom ook alternatieven voorgesteld zoals technieken die teksten van een watermerk voorzien.

Het detecteren van AI-gegenereerde data is de afgelopen jaren een belangrijk onderzoeksonderwerp geworden. Het idee dat AI-modellen menselijke data kunnen genereren heeft een lange geschiedenis, maar pas onlangs is de door AI gegenereerde data zo goed geworden dat het, in ieder geval op het eerste gezicht, vaak niet meer van echt te onderscheiden is. Dit is een indrukwekkende prestatie, maar het brengt ook gevaren met zich mee, zoals het genereren van spam, intimidatie van individuen en organisaties, en massale online desinformatie [2].

Voor de rest van dit antwoord zal ik me vooral richten op teksten die worden gegenereerd door grote taalmodellen (LLM's).

Het automatisch onderscheiden van echte en AI genereerde teksten

Er zijn veel studies die suggereren dat mensen deze detectietaak erg moeilijk vinden [3], [4]. Zo blijkt uit een recente studie dat leraren moeite hebben om essays die door AI zijn geschreven te herkennen [5].

Recent onderzoek suggereert dat mensen beter kunnen worden in het herkennen van door AI gegenereerde data, vooral als ze specifiek moeten aangeven waar de tekst overgaat van menselijk naar AI-gegenereerd [6]. Dit lijkt op hoe mensen vaak werken met taalmodellen: het AI model krijgt een stukje tekst (prompt) waarna het model de tekst afmaakt. Maar de nauwkeurigheid waarmee mensen het omslagpunt herkennen hangt af van het type tekst, zoals een recept, verhaal of nieuwsartikel, en van de grootte van het gebruikte taalmodel.

Omdat het moeilijk is voor mensen om AI-gegenereerde teksten te herkennen, zijn de meest effectieve methoden nu gebaseerd op machine learning. Het doel is om een model te trainen dat kan bepalen of een tekst door AI is gegenereerd. Kaggle, een online platform, heeft recentelijk een competitie georganiseerd, waarbij deelnemers modellen bouwden om AI-gegeneerde studenten essays te detecteren [7]. De beste modellen konden deze taak met een 98% accuraatheid uitvoeren, maar houdt in gedachten dat hierbij alleen naar essays gekeken werd.

Waaraan kunnen we herkennen of een tekst automatisch gegeneerd is?

Om te bepalen of een tekst automatisch gegenereerd is, kun je beginnen met het kijken naar het gebruik van bepaalde woorden of zinsdelen. Volgens recent onderzoek gebruikt ChatGPT het woord ‘delve’ vaker dan een typische Britse of Amerikaanse spreker [8], [9]. Dit komt omdat ChatGPT deels getraind is met een techniek ("reinforcement learning") die menselijke feedback gebruikt, en veel van deze feedback kwam van mensen uit Afrikaanse landen waar 'delve' vaker gebruikt wordt. Dit roept trouwens de vraag op of het overmatig gebruik van zulke woorden in deze landen minder snel herkent wordt.

Kenmerken die gebruikt kunnen worden om onderscheid te maken tussen menselijke en AI-gegenereerde teksten zijn vaak subtiel. Zo volgt taal een specifieke frequentieverdeling waarbij enkele woorden heel vaak en vele woorden zelden voorkomen. De frequentieverdeling van door machines gegenereerde tekst komt niet helemaal overeen met die van door mensen geschreven tekst, afhankelijk van het gebruikte algoritme [10]. Ook kunnen er verschillen zijn in eenvoudigere kenmerken zoals het gebruik van leestekens [11] en de vloeiendheid van zinnen, gemeten aan de hand van leesbaarheid [12].

Het bouwen van detectoren

Er zijn twee veelgebruikte manieren om een systeem te bouwen om AI- gegenereerde inhoud te detecteren. De ene methode gebruikt klassieke ‘machine learning’ technieken. Eerst worden er grote hoeveelheid teksten verzameld die zowel door mensen als door AI zijn geschreven. Daar worden vervolgens kenmerken uitgehaald, zoals hoe leesbaar de teksten zijn en hoe vaak bepaalde woorden of symbolen voorkomen. Deze kenmerken worden dan gebruikt in een leeralgoritme, zoals logistische regressie of support vector machines, om te voorspellen of een tekst door een mens of AI is geschreven. Deze modellen werken redelijk goed en behalen een nauwkeurigheid tot 70%, afhankelijk van welke LLMs gebruikt worden om de te classificeren teksten te genereren.

Een andere aanpak is het gebruik van een ander taalmodel, zoals BERT [13] of RoBERTa [14]. Deze modellen zijn getraind op grote tekstcorpora, waardoor ze al veel voorkennis van taal hebben. Deze modellen kunnen met een kleine hoeveelheid voorbeelddata aangepast worden om de detectietaak uit te voeren (een proces dat "finetuning" wordt genoemd). BERT en RoBERTa zijn vrij compacte modellen en recent onderzoek suggereert dat ze tot 85% nauwkeurigheid AI-gegenereerde tekst kunnen detecteren. Hun prestaties dalen alleen aanzienlijk als als de teksten door grotere modellen zijn gegenereerd, omdat grotere modellen uitgebreider getrained zijn, meer parameters hebben, en over het algemeen vloeiendere output produceren.

Recent onderzoek heeft ook grotere taalmodellen ingezet om teksten te detecteren zonder ze verder aan te passen ("zero shot’" modus). Zo classificeert DetectGPT [15] teksten direct als menselijk of AI-gegeneerd, door vooral te kijken naar de verschillen in taalfrequenties tussen het model en door mensen geschreven teksten.

Beperkingen in detectie en andere oplossingen

Hoewel machine learning goed werkt voor het detecteren van AI-gegeneerde teksten, zijn er beperkingen. Soms nemen de prestaties van detectiesystemen drastisch af als teksten speciaal worden aangepast om detectie te ontwijken (‘adversarial attacks’), zoals door het toevoegen van kleine typefouten [12]. Een andere methode om detectie te vermijden, is het gebruik van een ander model om de tekst te parafraseren, zodat de oorsprong wordt verhuld [16].

Automatische detectie heeft dus waarschijnlijk zijn grenzen, vooral als kwaadwillenden de detectiesystemen willen misleiden. Daarom zijn er alternatieven zoals watermerken voorgesteld [17]. Hierbij past een LLM zijn tekst aan om onopvallend aan te geven dat de tekst van een LLM komt (merkbaar voor een detector, maar niet voor mensen). Dit idee kan ook voor afbeeldingen worden gebruikt. Voor watermerken is echter samenwerking nodig van de ontwerpers van de modellen om deze functie te implementeren. Waarschijnlijk zal AI-regulering hierin een belangrijke rol gaan spelen.

Hoe is dit artikel tot stand gekomen?

Dit antwoord is gereviewed door dr. Ayoub Bagheri.

Gepubliceered op: 31 Maart 2025

Citeer dit artikel

[1] A. M. Turing, “Computing Machinery and Intelligence,” Mind, vol. 49, pp. 433–460, 1950 https://doi.org/10.1093/mind/LIX.236.433

[2] E. Crothers, N. Japkowicz, and H. Viktor, “Machine Generated Text: A Comprehensive Survey of Threat Models and Detection Methods,” IEEE Access, vol. 11, pp. 70977–71002, May 2023 https://doi.org/10.1109/ACCESS.2023.3294090

[3] D. Ippolito, D. Duckworth, C. Callison-Burch, and D. Eck, “Automatic Detection of Generated Text is Easiest when Humans are Fooled,” in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL’20), Online: Association for Computational Linguistics, 2020, pp. 1808–1822. https://aclanthology.org/2020.acl-main.164/

[4] Y. Li et al., “MAGE: Machine-generated Text Detection in the Wild.” In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 36–53, Bangkok, Thailand. Association for Computational Linguistics. https://aclanthology.org/2024.acl-long.3/

[5] J. Fleckenstein, J. Meyer, T. Jansen, S. D. Keller, O. Köller, and J. Möller, “Do teachers spot AI? Evaluating the detectability of AI-generated texts among student essays,” Computers and Education: Artificial Intelligence, vol. 6, p. 100209, Jun. 2024 https://doi.org/10.1016/j.caeai.2024.100209

[6] L. Dugan, D. Ippolito, A. Kirubarajan, S. Shi, and C. Callison-Burch, “Real or Fake Text?: Investigating Human Ability to Detect Boundaries between Human-Written and Machine-Generated Text,” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 37, no. 11, Art. no. 11, Jun. 2023 https://doi.org/10.1609/aaai.v37i11.26501

[7] “LLM - Detect AI Generated Text.” Accessed: Jun. 03, 2024. https://kaggle.com/competitions/llm-detect-ai-generated-text

[8] A. Hern, “TechScape: How cheap, outsourced labour in Africa is shaping AI English,” The Guardian, Apr. 16, 2024. Accessed: Jun. 03, 2024. https://www.theguardian.com/technology/2024/apr/16/techscape-ai-gadgest-humane-ai-pin-chatgpt

[9] H. Sheikh, “Why does ChatGPT use ‘Delve’ so much? Mystery Solved.,” Medium. Accessed: Jun. 03, 2024. https://pub.towardsai.net/why-does-chatgpt-use-delve-400621728787

[10] A. Holtzman, J. Buys, L. Du, M. Forbes, and Y. Choi, “The curious case of neural text degeneration,” in Proceedings of the 2020 Conference on Learning Representations (ICLR’20), 2020. https://arxiv.org/abs/1904.09751

[11] L. Fröhling and A. Zubiaga, “Feature-based detection of automated language models: tackling GPT-2, GPT-3 and Grover,” PeerJ Comput Sci, vol. 7, p. e443, Apr. 2021 https://doi.org/10.7717%2Fpeerj-cs.443

[12] E. Crothers, N. Japkowicz, H. Viktor, and P. Branco, “Adversarial Robustness of Neural-Statistical Features in Detection of Generative Transformers,” in 2022 International Joint Conference on Neural Networks (IJCNN), Jul. 2022, pp. 1–8. https://doi.org/10.1109/IJCNN55064.2022.9892269

[13] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” in Proceedings ofNAACL-HLT 2019, Minneapolis, MN: Association for Computational Linguistics, 2019, pp. 4171–4186. https://doi.org/10.18653/v1/N19-1423

[14] Y. Liu et al., “RoBERTa: A Robustly Optimized BERT Pretraining Approach.” arXiv, Jul. 26, 2019 https://arxiv.org/abs/1907.11692

[15] E. Mitchell, Y. Lee, A. Khazatsky, C. D. Manning, and C. Finn, “DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature.” Proceedings of the 40th International Conference on Machine Learning, 2023 https://proceedings.mlr.press/v202/mitchell23a/mitchell23a.pdf

[16] V. S. Sadasivan, A. Kumar, S. Balasubramanian, W. Wang, and S. Feizi, “Can AI-Generated Text be Reliably Detected?”, arXiv 2023 https://arxiv.org/abs/2303.11156

[17] J. Kirchenbauer, J. Geiping, Y. Wen, J. Katz, I. Miers, and T. Goldstein, “A Watermark for Large Language Models.” Proceedings of the 40th International Conference on Machine Learning, PMLR 202:17061-17084, 2023 https://proceedings.mlr.press/v202/kirchenbauer23a.html

©De tekst is beschikbaar onder de licentie Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal, er kunnen aanvullende voorwaarden van toepassing zijn. Zie de gebruiksvoorwaarden voor meer informatie.