Het detecteren van AI-gegenereerde data is de afgelopen jaren een belangrijk onderzoeksonderwerp geworden. Het idee dat AI-modellen menselijke data kunnen genereren heeft een lange geschiedenis, maar pas onlangs is de door AI gegenereerde data zo goed geworden dat het, in ieder geval op het eerste gezicht, vaak niet meer van echt te onderscheiden is. Dit is een indrukwekkende prestatie, maar het brengt ook gevaren met zich mee, zoals het genereren van spam, intimidatie van individuen en organisaties, en massale online desinformatie [2].
Voor de rest van dit antwoord zal ik me vooral richten op teksten die worden gegenereerd door grote taalmodellen (LLM's).
Het automatisch onderscheiden van echte en AI genereerde teksten
Er zijn veel studies die suggereren dat mensen deze detectietaak erg moeilijk vinden [3], [4]. Zo blijkt uit een recente studie dat leraren moeite hebben om essays die door AI zijn geschreven te herkennen [5].
Recent onderzoek suggereert dat mensen beter kunnen worden in het herkennen van door AI gegenereerde data, vooral als ze specifiek moeten aangeven waar de tekst overgaat van menselijk naar AI-gegenereerd [6]. Dit lijkt op hoe mensen vaak werken met taalmodellen: het AI model krijgt een stukje tekst (prompt) waarna het model de tekst afmaakt. Maar de nauwkeurigheid waarmee mensen het omslagpunt herkennen hangt af van het type tekst, zoals een recept, verhaal of nieuwsartikel, en van de grootte van het gebruikte taalmodel.
Omdat het moeilijk is voor mensen om AI-gegenereerde teksten te herkennen, zijn de meest effectieve methoden nu gebaseerd op machine learning. Het doel is om een model te trainen dat kan bepalen of een tekst door AI is gegenereerd. Kaggle, een online platform, heeft recentelijk een competitie georganiseerd, waarbij deelnemers modellen bouwden om AI-gegeneerde studenten essays te detecteren [7]. De beste modellen konden deze taak met een 98% accuraatheid uitvoeren, maar houdt in gedachten dat hierbij alleen naar essays gekeken werd.
Waaraan kunnen we herkennen of een tekst automatisch gegeneerd is?
Om te bepalen of een tekst automatisch gegenereerd is, kun je beginnen met het kijken naar het gebruik van bepaalde woorden of zinsdelen. Volgens recent onderzoek gebruikt ChatGPT het woord ‘delve’ vaker dan een typische Britse of Amerikaanse spreker [8], [9]. Dit komt omdat ChatGPT deels getraind is met een techniek ("reinforcement learning") die menselijke feedback gebruikt, en veel van deze feedback kwam van mensen uit Afrikaanse landen waar 'delve' vaker gebruikt wordt. Dit roept trouwens de vraag op of het overmatig gebruik van zulke woorden in deze landen minder snel herkent wordt.
Kenmerken die gebruikt kunnen worden om onderscheid te maken tussen menselijke en AI-gegenereerde teksten zijn vaak subtiel. Zo volgt taal een specifieke frequentieverdeling waarbij enkele woorden heel vaak en vele woorden zelden voorkomen. De frequentieverdeling van door machines gegenereerde tekst komt niet helemaal overeen met die van door mensen geschreven tekst, afhankelijk van het gebruikte algoritme [10]. Ook kunnen er verschillen zijn in eenvoudigere kenmerken zoals het gebruik van leestekens [11] en de vloeiendheid van zinnen, gemeten aan de hand van leesbaarheid [12].
Het bouwen van detectoren
Er zijn twee veelgebruikte manieren om een systeem te bouwen om AI- gegenereerde inhoud te detecteren. De ene methode gebruikt klassieke ‘machine learning’ technieken. Eerst worden er grote hoeveelheid teksten verzameld die zowel door mensen als door AI zijn geschreven. Daar worden vervolgens kenmerken uitgehaald, zoals hoe leesbaar de teksten zijn en hoe vaak bepaalde woorden of symbolen voorkomen. Deze kenmerken worden dan gebruikt in een leeralgoritme, zoals logistische regressie of support vector machines, om te voorspellen of een tekst door een mens of AI is geschreven. Deze modellen werken redelijk goed en behalen een nauwkeurigheid tot 70%, afhankelijk van welke LLMs gebruikt worden om de te classificeren teksten te genereren.
Een andere aanpak is het gebruik van een ander taalmodel, zoals BERT [13] of RoBERTa [14]. Deze modellen zijn getraind op grote tekstcorpora, waardoor ze al veel voorkennis van taal hebben. Deze modellen kunnen met een kleine hoeveelheid voorbeelddata aangepast worden om de detectietaak uit te voeren (een proces dat "finetuning" wordt genoemd). BERT en RoBERTa zijn vrij compacte modellen en recent onderzoek suggereert dat ze tot 85% nauwkeurigheid AI-gegenereerde tekst kunnen detecteren. Hun prestaties dalen alleen aanzienlijk als als de teksten door grotere modellen zijn gegenereerd, omdat grotere modellen uitgebreider getrained zijn, meer parameters hebben, en over het algemeen vloeiendere output produceren.
Recent onderzoek heeft ook grotere taalmodellen ingezet om teksten te detecteren zonder ze verder aan te passen ("zero shot’" modus). Zo classificeert DetectGPT [15] teksten direct als menselijk of AI-gegeneerd, door vooral te kijken naar de verschillen in taalfrequenties tussen het model en door mensen geschreven teksten.
Beperkingen in detectie en andere oplossingen
Hoewel machine learning goed werkt voor het detecteren van AI-gegeneerde teksten, zijn er beperkingen. Soms nemen de prestaties van detectiesystemen drastisch af als teksten speciaal worden aangepast om detectie te ontwijken (‘adversarial attacks’), zoals door het toevoegen van kleine typefouten [12]. Een andere methode om detectie te vermijden, is het gebruik van een ander model om de tekst te parafraseren, zodat de oorsprong wordt verhuld [16].
Automatische detectie heeft dus waarschijnlijk zijn grenzen, vooral als kwaadwillenden de detectiesystemen willen misleiden. Daarom zijn er alternatieven zoals watermerken voorgesteld [17]. Hierbij past een LLM zijn tekst aan om onopvallend aan te geven dat de tekst van een LLM komt (merkbaar voor een detector, maar niet voor mensen). Dit idee kan ook voor afbeeldingen worden gebruikt. Voor watermerken is echter samenwerking nodig van de ontwerpers van de modellen om deze functie te implementeren. Waarschijnlijk zal AI-regulering hierin een belangrijke rol gaan spelen.