Gen-AI produceert onzin (4)

Door Koen D. op 21-06-2026

Januari 2026, Universiteit Gent. Rector Petra De Sutter heeft een speech voorbereid, en maakte daarbij gebruik van ChatGPT. Dat liep falikant af, toen bleek dat enkele aangehaalde citaten waren gehallucineerd door de AI-tool. Uiteraard kwam dat in de media, en uiteraard genereerde dat bericht een ketting van reacties. Ik ga ze niet analyseren; hieronder geef ik wel een beperkte opsomming, enkel uit De Standaard, en met de samenvatting van DS zelf.

08-01-2026 – AI-citaten in openingsrede doen Petra De Sutter afzien van eredoctoraat: "Ik betreur ten zeerste dat ik in deze val ben getrapt" – In haar openingsrede als nieuwe rector van de Universiteit Gent gebruikte Petra De Sutter verschillende door AI verzonnen citaten. Dat blijkt uit onderzoek van nieuwssite 'Apache'. De Sutter kondigde intussen aan dat ze een eredoctoraat van de Universiteit van Amsterdam niet in ontvangst zal nemen.

08-01-2026 – De woorden van Petra De Sutter zullen voortaan op een schaaltje liggen, om van nabij te onderzoeken – Artificiële intelligentie komt met mogelijkheden en uitdagingen. Petra De Sutter heeft alvast met de uitdagingen op een pijnlijke manier kennisgemaakt.

08-01-2026 – Een rector van de universiteit die terugvalt op AI, capituleert – AI inzetten om een rectorspeech te schrijven, gaat in tegen de taak van de universiteit. Het toont de opgave van haar opgave, stelt Victor Warnotte.

09-01-2026 – Gentse studenten over toespraak Petra De Sutter: "Als wij AI gebruiken, zijn we gebuisd. Maar de rector mag het wel?" – De verontwaardiging over de door AI gegenereerde citaten in Petra De Sutters toespraak is groot. Maar wat denken de Gentse studenten zelf over hun ChatGPT-gebruikende rector?

09-01-2026 – Raad van bestuur behoudt "volste vertrouwen", maar welke autoriteit heeft Petra De Sutter nog als rector? – Nee, de positie van Petra De Sutter aan de UGent staat niet onder druk. De raad van bestuur behoudt het vertrouwen in de rector. Binnen de universiteit leeft wel de vrees dat ze beleid zal voeren met de handrem op.

11-01-2026 – Rector De Sutter, laat u niet verlammen en gebruik deze AI-blunder om te versnellen – De AI-blunder in de speech van Petra De Sutter kan een nieuwe start zijn, vindt Raf Buyle.

12-01-2026 – Requiem voor de universiteit van weleer – De universiteit is onherkenbaar veranderd, schrijft Ive Marx. Het universitaire bedrijf is –wel, exact dat: een bedrijf. Het draait allemaal om kwantificeerbare output. En niet alleen aan universiteiten. Managerialisme grijpt al enkele decennia om zich heen.

18-01-2026 – Petra De Sutter reageert op AI-heisa: "Het ging allang niet meer alleen over mijn openingsrede" – De rector van de Gentse universiteit, Petra De Sutter, heeft voor het eerst in een interview gereageerd op de AI-heisa rond haar openingsrede. "Ik heb mijn speech – waaraan ik tijdens mijn vakantie drie weken heb geschreven – willen spijzen met een aantal citaten. Ik denk niet dat ik dat ooit nog ga doen."

Om maar te tonen dat AI wel degelijk een valkuil is: twee maanden later trapt Peter Vandermeersch, nochtans gepokt en gemazeld in publicaties, zelf in die val. Ik analyseer het betreffende bericht, en enkele vervolgberichten. De titels in de lijst hieronder verwijzen naar mijn bespreking; de titels van de secties verwijzen naar het originele bronartikel. Schuine tekst is brontekst, klein groen is mijn commentaar, vet groen zijn koppelingen naar randinformatie.

1 – Voormalig hoofdredacteur Peter Vandermeersch tijdelijk geschorst door Mediahuis: blogposts bevatten door AI verzonnen citaten – Inge Schelstraete, De Standaard, 19-03-2026 – Zelfs gerenommeerde journalisten en wetenschappers lijken niet te beseffen hoe Gen-AI werkt. In principe kan je gewoon niks geloven van wat Gen-AI produceert, omwille van de werking ervan: het produceert een antwoord op basis van statistische combinaties van woorden die ook in andere bronnen voorkomen. En wie zijn gat verbrandt moet op de blaren zitten.

2 – AI-hallucinaties zijn verraderlijk, en dat zal niet snel veranderen – Lennart Fernandes, De Standaard, 20-03-2026 – AI-taalmodellen als ChatGPT beantwoorden vragen vol zelfvertrouwen, ook wanneer die informatie nergens op gestoeld is. Het risico op zulke hallucinaties kun je hooguit verkleinen, maar helemaal verdwijnen doen ze nooit. Een zeldzame technische kijk op LLM'S. Mijn kijk op de zaak: er bestaat niet zoiets als "AI-hallucinaties".

3 – Honderden AI-boeken duiken op in Vlaamse bibliotheken: "De samenstelling van onze collectie is nochtans mensenwerk" – Thomas Goorden, De Standaard, 23-03-2026 – De voorbije maanden zijn honderden boeken, gemaakt met artificiële taalmodellen zoals ChatGPT, in openbare bibliotheken in Vlaanderen binnengeglipt. "Die boeken hebben geen plaats in een bibliotheek, bij uitstek een ontmoetingsplaats voor en door mensen." (1) Het verband met hallucinaties: mensen laten zich veel te gemakkelijk bedotten door AI. (2) Die AI-boeken vormen doorgaans wel het bewijs van de schamele kwaliteit van wat LLM's produceren.

4 – 'Wie vandaag over AI spreekt als over een zekerheid, negeert dat de rekening nog openstaat' – Julien De Wit, auteur en columnist in Knack 25-03-2026 – Het lijkt niet uitgesloten dat de AI-race onze sociale zekerheid opvreet, gezien de belabberde kwaliteit van LLM's. Een bangelijke sociaal-economische visie: als al die beloftes niet uitkomen zijn we de pineut.

5 – AI-hype of déjà vu? Waarom bedrijven met AI dezelfde fouten blijven maken – David Geuens, Knack, 10-04-2026 – Artificiële intelligentie wordt vandaag voorgesteld als de volgende grote doorbraak. IT-afdelingen krijgen de opdracht 'iets met AI te doen', en liefst snel. Dat klinkt ambitieus. In de praktijk levert het zelden op wat ervan verwacht wordt. Een klassieker: technologie belooft efficiëntie, maar effectiviteit is veel belangrijker.

6 – Epiloog – Een samenvatting en benadrukking van enkele belangrijke elementen. Ik stel een gewaagde vraag aan ChatGPT, en krijg een antwoord dat na analyse mijn geloof in het nut van LLM's nog verder doet zakken.

1 – Voormalig hoofdredacteur Peter Vandermeersch tijdelijk geschorst door Mediahuis: blogposts bevatten door AI verzonnen citaten

In blogposts voor Mediahuis heeft Peter Vandermeersch door AI gegenereerde valse citaten gebruikt. De nieuwsgroep heeft hem tijdelijk geschorst.

Inge Schelstraete, De Standaard, 19 maart 2026

Mediahuis heeft Peter Vandermeersch, van 1999 tot 2010 hoofdredacteur van De Standaard, tijdelijk geschorst als fellow 'journalistiek en samenleving'. ChatGPT: "Een Fellow Journalistiek & Samenleving bij Mediahuis (de uitgever van onder meer De Standaard) is geen klassieke journalistieke functie of redactiejob. Het is eerder een strategische denktank- en adviesrol rond de toekomst van journalistiek en haar maatschappelijke betekenis". Vandermeersch is overigens de eerste in die rol, dus zijn "tijdelijke schorsing" is niet bepaald wereldschokkend. De maatregel werd genomen na een onderzoek door journalist Menno van den Bos van de Nederlandse krant NRC (ooit de Nieuwe Rotterdamsche Courant van 1844 tot 1970), waarvan Vandermeersch tussen 2010 en 2019 hoofdredacteur was. Daaruit bleek dat in 15 van de 53 blogposts (die Van den Bos heeft wel serieus gezocht…) die Vandermeersch schreef, citaten staan die bij geen andere bronnen te vinden zijn. Enkele citaten verschenen ook in publicaties, in opiniestukken die Vandermeersch er aanbood. Dat gebeurde in het Nederlandse journalistenvakblad Villamedia, in The Irish Independent en in NRC.

In een mail naar de hoofdredacteurs van de Mediahuis-titels geeft Vandermeersch zijn fout toe. "Een medewerker van NRC stelde vast dat hij citaten die ik in afleveringen van deze nieuwsbrief heb gebruikt, niet kon verifiëren. Hij legde die aan mij voor, alvorens een stuk daarover te publiceren (journalistieke collegialiteit :-)."

"Laat ik duidelijk zijn: hij heeft gelijk. Ik geef toe dat ik, bij de start van mijn nieuwsbrief in het laatste kwart van vorig jaar, bij het schrijven AI-taalmodellen als ChatGPT, Perplexity en Google Notebook heb gebruikt. Ik was enthousiast over de mogelijkheden die de AI-modellen boden en wilde daar volop mee experimenteren." Die taalmodellen doen op het eerste gezicht ook geweldige dingen. Het twee gezicht is iets anders…

Er zijn overigens een handvol verschillende termen in gebruik voor hetzelfde: AI-model, taalmodel, AI-chatbot, LLM ('large language model' of 'groot taalmodel'), AI-tool, gewoon 'AI', … Ik gebruik ze een beetje door elkaar. De term 'model' komt uit de wiskundige optimalisatiemethoden, waarbij in een 'model' van de realiteit, opgebouwd uit doelen en beperkingen, via wiskundige algoritmes een optimum berekend wordt.

Hallucinaties

Vandermeersch schrijft dat hij "niet zorgvuldig genoeg" was toen hij AI-assistenten gebruikte. Die verzinnen soms aan de hand van een paar zoektermen foute informatie of citaten, die ook 'hallucinaties' worden genoemd. Dat gebeurde volgens Vandermeersch met de citaten in zijn nieuwsbrief: "Ik vatte rapporten samen met een AI-tool en begon daarop te werken, in het vertrouwen dat de samenvattingen correct waren (zie verder). Al doende heb ik ten onrechte woorden in de mond gelegd van mensen, terwijl ik die als parafraseringen had moeten formuleren. In een aantal gevallen ging het om mijn interpretatie van hun woorden. Dat was niet enkel onzorgvuldig, het was fout." Twee fenomenen hier, eentje boven de tafel, eentje eronder. (1) Hallucinaties zijn het gekende probleem: er wordt door AI een bewering gedaan die achteraf blijkt vals te zijn. De medewerker van de NRC zocht naar een andere bron voor een citaat uit de tekst van Vandermeersch, en kon die niet vinden, terwijl je dat voor een citaat wel mag verwachten. In feite had Vandermeersch die opzoeking ook zelf kunnen (of moeten?) doen; dat hij dat niet deed was een fout van hem. Hij moest bijgevolg door het stof, De Sutter achterna. (2) Het ging om het samenvatten van rapporten. Het product van de AI-tool is dan een samenvatting. Maar klopt die wel? Als de AI-tool zonder schaamte (want dat heeft die immers niet) een citaat kan hallucineren, wat zet die dan wel allemaal in de samenvatting van een rapport? En hier hebben we een groter probleem, want een samenvatting is veel moeilijker te controleren. In de tijd die je nodig hebt om na te gaan of er geen fouten in staan, of onaanvaardbare gaten (!), heb je de samenvatting zelf gemaakt. Met andere woorden: samenvattingen van een AI-tool worden niet gecontroleerd, zoals Vandermeersch hier zelf bevestigt. Daarmee vergeleken is een beetje miserie met citaten nog klein bier.

De fout van Vandermeersch is vooral bitter, omdat hij als fellow 'journalistiek en samenleving' schreef over de toekomst van en de bedreigingen voor journalistiek, over transparantie en omgaan met fouten, en het gebruik van AI in journalistiek. "Het is meer dan zuur dat ik de fout maakte die ik zelf uitentreuren beschrijf als ik collega's waarschuw voor de gevaren van AI: de taalmodellen zijn zo goed dat ze onweerstaanbare citaten produceren die je als auteur bij wijze van spreken niet kunt laten liggen." Die 'onweerstaanbaar' zou de fout van Vermeersch verklaren, ware het niet dat hij die citaten zelf 'onweerstaanbaar' noemt, bij wijze van excuus. Een AI-tool doet ook zomaar wat, net als de meesten van ons, en probeert niet eens iets onweerstaanbaars te maken. De makers van die tools zijn er wel in geslaagd iets te produceren dat zo aantrekkelijk is, zelfs voor de bovengemiddelde menselijke tekstverwerker als Vandermeersch, dat ze het zelf niet konden laten om het op de markt te gooien (ChatGPT in november '22; de concurrentie bleef niet lang achter) en ons op te zadelen met een inferieur product. Bekijk het vanop een afstand: als Peter Vandermeersch en Petra De Sutter voor aap staan als gevolg van het gebruik van een AI-tool, dan gaat het toch om een inferieur product, niet?

Gebrek aan transparantie

Toen hij (nee, die van de NRC :-) ontdekte dat hij bij het nazicht was tekortgeschoten (dat hij ze niet nagekeken had), begon hij naar eigen zeggen minder AI te gebruiken. Wijs besluit. "Ik gebruik het nog als basis (ja, ja :-) voor vertalingen, als hulp bij het doorploegen van documenten, als sparringpartner voor ideeën, mogelijke koppen, andere invalshoeken. Maar met veel minder naïef vertrouwen dan ik een aantal maanden geleden wel nog had." Maar hij liet na de gehallucineerde citaten te corrigeren. Ik weet niet precies wat hier wordt bedoeld, maar als Vandermeersch, Vandermeersch zijnde, naliet de citaten te corrigeren, zie ik maar één mogelijke oorzaak, nl. dat hij niet wist dat ze fout waren. Daarmee zondigde hij ook tegen de transparantie die journalisten horen aan de dag te leggen (?).

Vandermeersch is een bekende voorstander van AI. De Morgen interviewde hem vorig jaar als ceo van Mediahuis Ierland. Hij zei toen: "Op de Irish Independent weet iedereen: Peter wil, zodra AI ertoe in staat is, eindredactie afschaffen. Dat is ook zo. Waarom zou je dat nog door mensen laten doen? […] Mijn hart bloedt wanneer ik eindredacteurs tijd zie steken in dingen waarvan ik als uitgever denk: dat kan een machine ook." Dat bloeden is nu wel tijdelijk gestelpt, zeker…?

"Ik ben en blijf ervan overtuigd dat AI een krachtig hulpmiddel kan zijn, waardoor menselijke journalistiek beter kan worden, dieper kan graven en exacter kan zijn", schrijft hij nu. Maar de fouten die hij heeft gemaakt, "kunnen niet zonder gevolg blijven". "Daarom heb ik in overleg met Gert (Ysebaert, CEO van Mediahuis, red.) besloten dat ik in mijn rol als Mediahuis Fellow, tijdelijk op non-actief word gesteld." (1) Een mens moet ook niet te veel hooi op de vork willen nemen; te veel stress geeft miserie. (2) Deze stap werkt als afleidingsmaneuver, en als excuus om elders gewoon door te doen. (3) Bericht aan voorstanders van AI: als je niet oplet kom je vroeg of laat voor aap te staan.

In een reactie zegt Gert Ysebaert: "Dit had nooit mogen gebeuren. Binnen Mediahuis hanteren we strikte regels voor het gebruik van AI, waarbij zorgvuldigheid, menselijke controle en transparantie cruciaal zijn." Ik ben toch benieuwd hoe ze bij Mediahuis samenvattingen maken…

Peter Vandermeersch wenste zelf geen verder commentaar te geven ter aanvulling op wat in zijn mailbericht staat.

2 – AI-hallucinaties zijn verraderlijk, en dat zal niet snel veranderen

AI-taalmodellen als ChatGPT beantwoorden vragen vol zelfvertrouwen, ook wanneer die informatie nergens op gestoeld is. Het risico op zulke hallucinaties kun je hooguit verkleinen, maar helemaal verdwijnen doen ze nooit. Een AI-tool kent geen zelfvertrouwen.

Lennart Fernandes, De Standaard, 20 maart 2026

Het is inmiddels drie jaar geleden dat de release van ChatGPT 4 de wereld massaal aan het prompten zette, maar anno 2026 lijkt er nog steeds (!) iets niet in de haak met ons gebruik van large language models (LLM's). Nadat UGent-rector Petra De Sutter haar toespraak bij de opening van het academisch jaar had doorspekt met onbestaande citaten, blijkt nu ook journalist Peter Vandermeersch AI-fraude te hebben gepleegd. Kan je "fraude plegen" als het niet opzettelijk was? Donderdag bleek dat vijftien blogposts die de oud-hoofdredacteur van De Standaard en NRC het voorbije half jaar schreef, citaten bevatten die de genoemde personen nooit hebben uitgesproken. 'Hallucinaties' van ChatGPT en Google Gemini, gaf Vandermeersch zelf toe. Zijn uitschuiver roept opnieuw de vraag op waarom we zo graag vertrouwen stellen in de antwoorden van een chatmodel en of dat vertrouwen ooit gerechtvaardigd zal zijn. Voila.

"Wat LLM's in essentie doen, is één groot voorspellingsproces", zegt David Martens, gewoon hoogleraar datawetenschap aan de UAntwerpen en directeur van het Antwerp Center on Responsible AI (ACRAI). "Woord voor woord genereren ze tekst, op basis van de gestelde vraag en alles wat eraan voorafging, door telkens het meest waarschijnlijke vervolg te voorspellen." Met een massale hoeveelheid trainingsdata in het digitale achterhoofd, biedt een taalmodel dus vooral het antwoord dat de gebruiker wellicht wil horen. Die 'dus' lijkt mij niet gefundeerd; of "vooral een antwoord wordt gegenereerd dat de gebruiker wil horen" staat los van de werking van een LLM.

Een krachtig principe voor eenvoudige vragen of om inspiratie op te doen voor een grappige out-of-office-mail, maar ook een systeem dat lang niet altijd de waarheid oplevert. Wanneer een feitelijk antwoord – of een passend citaat – niet voorhanden is, bestaat de kans dat het model met evenveel zelfvertrouwen een antwoord 'hallucineert'. Zo'n ding heeft geen zelfvertrouwen; dat kent alleen woorden.

Net omdat het algoritme ontworpen is om ons naar de mond te praten (waarvoor bevestiging ontbreekt), is het enorm verleidelijk om die foute antwoorden ook voor waar aan te nemen, zegt Martens. "Hallucinaties zijn niet zomaar fouten, het zijn per definitie heel geloofwaardige fouten." Hij houdt vol; waar komt dit vandaan (of is dit met AI geschreven?)? Dat het algoritme ons naar de mond praat is alvast niet mijn ervaring.

Inherent aan voorspelling

Hoewel AI-ontwikkelaars met steeds verfijndere modellen op de proppen komen, blijkt het gevaar van hallucinaties een moeilijk te verhelpen kwaal. Over het algemeen geldt: hoe specifieker de prompt, hoe juister het resultaat. Door zogeheten 'grounding' (het opleggen van bijkomende gegevens waarmee een model rekening moet houden) kun je LLM's nog verder indijken tot meer gespecialiseerde tools. Maar als puntje bij paaltje komt, worden ook die instructies aan hetzelfde voorspellingsalgoritme gevoed. Uiteraard. Het risico op hallucinaties neemt dan wel sterk af doordat de vraag beter wordt afgelijnd, helemaal verdwijnen doet het gevaar nooit. Ook reinforcement learning door menselijke feedback, waarbij modellen worden verbeterd door gebruikers antwoorden te laten beoordelen, mist zijn doel wanneer die gebruikers zich laten overtuigen door de overtuigingskracht van een vloeiend maar onjuist antwoord. En zo wordt ook foutieve informatie deel van de dataset (wat suggereert dat resultaten opnieuw worden aangeboden als basismateriaal, wat op lange termijn slecht afloopt; zie Model Autophagy Disorder).

Het lijkt onwaarschijnlijk dat hallucinaties ooit volledig tot het verleden zullen behoren. In juni 2023 meende Mustafa Suleyman, CEO van Microsoft AI, in een tweet nog dat LLM-hallucinaties tegen 2025 "grotendeels geëlimineerd zullen zijn". Yann LeCun, een van de peetvaders van artificiële intelligentie en destijds hoofd AI bij Meta, reageerde toen dat hallucinaties nu eenmaal inherent zijn aan het voorspellingsmechanisme, en dat ze LLM's dus ook altijd zullen blijven plagen. Martens deelt die visie. "De meest geavanceerde modellen gaan nog geregeld de mist in. Zelfs wanneer je simpelweg vraagt om een tekst te kopiëren, sluipen er soms hallucinaties in." Dus: hallucinaties zijn onvermijdelijk.

Maar in feite klopt de term 'hallucinaties' ook niet. Een vals citaat ontstaat op dezelfde manier als een correct antwoord, nl. als een samenstelling van woorden in de meest waarschijnlijke combinatie. Foutieve citaten en feiten zijn relatief gemakkelijk verifieerbaar; je moet de elementen van het antwoord enkel elders opzoeken en vergelijken. Maar de betrouwbaarheid van de rest van een antwoord is precies dezelfde als die van citaten en feiten. Zie ook hierboven, bij Vermeersch: een samenvatting van een tekst bevat met dezelfde waarschijnlijkheid fouten als die citaten en feiten, maar een samenvatting wordt nooit nagekeken, omdat dat evenveel tijd kost als ze zelf maken.

Mildheid

Fundamenteel maakt een voorspellend taalmodel zelf dan ook geen onderscheid tussen een correct antwoord, een bijna correct antwoord en een hallucinatie. Voila. Het kent enkel de waarde van waarschijnlijkheid, niet die van waarheid.

Toch waarschuwt Martens dat we het kind niet met het badwater hoeven weg te gooien. De ellende van positivisme. "Voor veel taken zijn LLM's niet meer weg te denken, en ook lange teksten samenvatten, werkt in de meeste gevallen goed. In de meeste gevallen? En de andere dan? En hoe zien we het verschil?! Hier wordt alleen het kind weggegooid, en het badwater wordt bewaard. Altman heeft iedereen mee in het bad getrokken (ChatGPT november '22) terwijl de concurrenten even ver stonden, maar de sprong niet durfden maken omdat die dingen niet deugen. Intussen is het water sterk bezoedeld door quatsch. Maar we hebben dringend meer tools nodig om gericht informatie uit AI-modellen te checken." Ja, dat geloof ik dan wel, omdat LLM's intussen veel meer produceren dan we ooit nog gecheckt krijgen. Bovenal vindt hij dat we fouten met mildheid moeten benaderen. "Dit soort incidenten moet men niet gebruiken om iemand te veroordelen, maar aangrijpen om te wijzen op de gevaren van AI. Alleen zo kunnen we een verandering in gang zetten." Er gaat juist niks in gang gezet worden. Wat voor een systeem zou bv. een samenvatting moeten nakijken? Een andere LLM? Gaat niet werken, toch? Of een nieuw soort systeem dat betrouwbaarder is? Dan gebruiken we toch geen LLM's meer… ?! Waar zijn we eigenlijk mee bezig?

3 – Honderden AI-boeken duiken op in Vlaamse bibliotheken: "De samenstelling van onze collectie is nochtans mensenwerk"

De voorbije maanden zijn honderden boeken, gemaakt met artificiële taalmodellen zoals ChatGPT, in openbare bibliotheken in Vlaanderen binnengeglipt. "Die boeken hebben geen plaats in een bibliotheek, bij uitstek een ontmoetingsplaats voor en door mensen."

Thomas Goorden, De Standaard, 23 maart 2026

Kent u de auteur Andries B.V. of uitgeverij Saage Media? Enkele weken geleden stuurden gealarmeerde Vlaamse bibliothecarissen deze namen naar elkaar door, met een waarschuwing om hun boeken niet (meer) aan te kopen. Er bestond een vermoeden dat die niet door een mens, maar door een machine zijn geschreven. Het gaat onder meer om truecrimeboeken van ene Alexander Dragone en titels zoals "Zelf duurzame kaarsen maken" en "Mijn abc in en om het huis".

"Onlangs werden wij voor het eerst geconfronteerd met AI-gegenereerde boeken", zegt Katja Grammens, bibliothecaris in Sint-Pieters-Leeuw. "Dergelijke boeken horen niet thuis in onze collectie, maar de uitdaging waarvoor we staan, wordt almaar groter."

De Standaard dook in bibliotheek.be, de globale onlinecatalogus van alle Vlaamse openbare bibliotheken, en vond meer dan honderd titels die met grote waarschijnlijkheid door AI zijn gemaakt. Dat is voor alle duidelijkheid nog altijd maar een fractie van de tienduizenden boeken die bibliotheken elk jaar aankopen. Het betreft voornamelijk non-fictie, maar er zitten ook kinderboeken bij, vertalingen en zelfs een poëzieboekje, te vinden onder een lappendeken van dubieuze auteursnamen en verzonnen uitgeverijen. Vaak zijn er meerdere exemplaren te vinden in bibliotheken in heel Vlaanderen, van Hasselt tot Knokke-Heist.

Duurzame kaarsen

Wat de opdracht van bibliotheken niet eenvoudiger maakt, is hoe moeilijk AI-gegenereerde boeken te herkennen zijn als je louter afgaat op hun online presentatie. Soms verraadt de omslag al iets. Maar bij veel non-fictieboeken van AI valt de lage kwaliteit pas op wanneer je ze openslaat. In de bibliotheek van Balen konden we zo vier boeken van Andries B.V. uitgestald zien staan, met onderwerpen gaande van "zelf duurzame kaarsen maken" tot "zelf een escaperoom maken". Het valt meteen op dat ze flinterdun zijn, zonder enige illustratie binnenin (opvallend voor doe-het-zelfboeken), colofon of zelfs paginanummers. Dat zijn inderdaad kenmerken die dadelijk opvallen. Het beoordelen van de tekstkwaliteit duurt wat langer. Als je het gevoel hebt dat er geen lijn in het verhaal zit, dan is het waarschijnlijk van dattum. Ook in de bibliotheken van Hove en Merksplas zagen we exemplaren liggen. "Het kinderboek "Mijn abc in en om het huis" bleek duidelijk gemaakt door AI, zo zaten er afbeeldingen in waarop de kinderen drie rijen tanden leken te hebben", zegt groepswerker Yana Demeulemeester van de bibliotheek van Balen. "We hebben het boek meteen uit de collectie gehaald en bij het afval gezet (waar het thuishoort; jammer van het papier)." De schaamte is de wereld uit. In dit geval de schaamte om een inferieur en goedkoop product ongevraagd op de markt te gooien, louter voor eigen gewin.

In andere gevallen valt het niet zo duidelijk op dat een boek met AI is gemaakt. Neem de truecrimeserie van Alexander Dragone, zogezegd uitgegeven door Ganesh Media LLC uit New York, waarvan we een exemplaar vonden in de bibliotheek van Hove. Wanneer we dit checken in New Yorkse databanken, blijkt het bedrijf daar helemaal niet geregistreerd te staan. Sommige hoofdstukken lijken bovendien sterk op Wikipedia-artikelen in het Duits, alsof ze door AI zijn herschreven en vertaald. En welke lezer of aankoper merkt dat een bron waarnaar wordt verwezen helemaal niet bestaat? Het enige nuttige aspect va AI-boeken is dat ze tonen hoe gemakkelijk de mens zich laat bedotten.

Zonder uitzondering blijken alle met AI gegenereerde boeken die we in de Vlaamse bibcatalogus vonden, fysiek gedrukt door zogenaamde 'self-publishing' platformen zoals Brave New Books, Bookmundo, Pumbo of Tredition. Via die weg kan vrijwel iedereen boeken publiceren zonder tussenkomst van een professionele uitgeverij. Als ze over een geldig ISBN-nummer beschikken (zo'n nummer moet je aanvragen en is een voorwaarde als je een boek wil verkopen)(alleen via de gebruikelijke kanalen, nl. officiële boekhandels, incl. online), worden ze vaak ook automatisch opgenomen in de lijsten met nieuwe publicaties van de gespecialiseerde boekhandels die leveren aan bibliotheken, zoals Standaard Boekhandel, Distri-Bib en Medio.

Stijgende werkdruk

Blijft de vraag hoe deze AI-gegeneerde boeken vervolgens in onze bibliotheken belanden. Bij navraag blijkt dat er verschillende manieren van aankopen zijn, afhankelijk van de bibliotheek. Vaak krijgen meerdere medewerkers een deel van het budget toegewezen om hun eigen deelcollectie aan te vullen. Bibliotheek De Krook in Gent heeft bijvoorbeeld acht medewerkers die aankopen doen voor de non-fictiecollectie. In de Gentse bib vonden we meer dan twintig AI-gegenereerde boeken.

"De samenstelling van de collectie in onze bibliotheek is zuiver mensenwerk", zegt Ingrid Verdonck, coördinator-expert collectie van De Krook. "Hoe dat te rijmen met de AI-evolutie, is een leerproces (begrijpelijk, gezien het gemak van bedrog). Daarom zetten we ook in op interne opleidingen om AI-gegenereerde boeken te detecteren (met AI misschien :-). En we ijveren ervoor dat er in de aankoopcatalogi duidelijk vermeld staat dat een boek (vermoedelijk) met de ondersteuning van AI is gemaakt."

In het bibliotheeknetwerk Antwerpen slaagden ze er tot nu toe wel in om AI-gegenereerde boeken vrijwel volledig uit de collectie te houden. De sleutel lijkt te liggen bij een beperkt aantal medewerkers die zich uitsluitend met collectiebeheer bezighouden. Voor kleinere bibliotheken is zo'n aanpak vaak onmogelijk.

"Onze opdracht als bibliotheek is enorm toegenomen, overal stijgt de werkdruk (neoliberale economie)", zegt Katja Grammens (Sint-Pieters-Leeuw). "Collega's worden niet altijd vervangen of krijgen er andere taken bij, waardoor collectievorming minder aandacht krijgt." Stijgende werkdruk is een klassieke oorzaak van burn-out (zie ook Preventie tegen burn-out), waardoor de werkdruk nog verder stijgt…

Waakzaamheid

Jessica Jacobs, directeur van de Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie (VVBAD), geeft toe dat de sector "een weg zoekt in nieuwe ontwikkelingen, zoals de opkomst van AI". Daarbij maakt iedere bibliotheek onafhankelijke aankoopbeslissingen. Ze wijst ook op de impact van het wegvallen van het bibliotheekdecreet en de besparingen (neoliberale economie). Eerder raakte al bekend dat bibliotheekmedewerkers die met pensioen gaan slechts in 40 procent van de gevallen worden vervangen. Volgens verschillende bronnen is in sommige bibliotheken daardoor geen opgeleide bibliothecaris meer aanwezig. Alles moet naar de wuppe.

Jacobs geeft aan dat de kans klein is dat deze specifieke boeken nog verder aangekocht worden. "We verwachten dat er een bepaalde waakzaamheid zal groeien bij de leveranciers. Het is ook geen zwart-witverhaal, er zijn ook boeken die gedeeltelijk met AI gemaakt zijn, bijvoorbeeld enkel de illustraties. Dat ook nog. Voor sommige boeken zijn er gegronde redenen om het exemplaar toch in de bibliotheek te houden."

Paola Verhaert, expert digitale rechten, waarschuwt voor de mogelijke negatieve gevolgen: "De bibliotheek is een publieke ruimte voor ontmoeting en dialoog, waar een zekere belofte hangt: lezers verwachten op z'n minst een wederkerigheid met een menselijke auteur, maar dat is hier slechts een illusie. AI-gegenereerde boeken van onbestaande auteurs zijn louter bedoeld om mensen om de tuin te leiden. Voila. Zoiets heeft geen plaats in een bibliotheek voor en door mensen." Dan moeten we eigenlijk ook LLM's verbannen…?

4 – 'Wie vandaag over AI spreekt als over een zekerheid, negeert dat de rekening nog openstaat'

Julien De Wit, Auteur en columnist in Knack, 25-03-2026

Ik zit de laatste tijd met een ongemakkelijke gedachte. Wat als het risico van de eeuw zich afspeelt voor onze neus? We praten altijd over de belofte van artificiële intelligentie (AI). Over de kosten veel minder. Dat is opmerkelijk, want achter die belofte van ongekende productiviteit schuilt een economisch model dat voorlopig vooral draait op geloof, geduld en andermans geld.

Het dominante discours is bekend: AI zal onze welvaart vooruitstuwen, onze productiviteit vertienvoudigen en hele sectoren hertekenen. De toekomst is beloftevol, maar wie onder de motorkap van die nieuwe miljardenindustrie kijkt, stuit op een ongemakkelijke realiteit die me zorgen baart.

Een gemiddelde AI-gebruiker betaalt enkele tientallen euro's per maand voor een tool waarvan de werkelijke operationele kosten een veelvoud bedragen. Datacenters moeten om de paar jaar worden vernieuwd. Het energieverbruik is kolossaal, kosten voor onderzoek en ontwikkeling evenzeer. De infrastructuur wordt voortdurend uitgebreid, zonder dat daar een evenredige inkomstenstroom tegenover staat. Wie draagt die last en betaalt de rekening vandaag? Dat zijn onder meer de grote techbedrijven, overheden en schuldfinanciers.

Wie vandaag over AI spreekt als een zekerheid, negeert dat de rekening nog openstaat en dat niemand precies weet wie ze zal betalen.

Sam Altman, de topman van Open AI, het bedrijf achter ChatGPT, suggereerde onlangs dat we in de toekomst voor AI zullen betalen zoals voor gas, elektriciteit of water. Als nutsvoorziening dus. Dat klinkt redelijk, tot je beseft wat het impliceert: een forse prijsstijging op het moment dat de werkelijke kosten worden doorgerekend. Zolang het gebruik gesubsidieerd blijft, voelt AI goedkoop. Zodra het op eigen benen moet staan, verandert het plaatje ingrijpend. Inderdaad te verwachten.

Wat mij zorgen baart, is het systeemrisico dat onder die constructie borrelt. De grote techbedrijven die de AI-infrastructuur financieren, zijn verweven in het financiële systeem met pensioenfondsen, beleggingsinstrumenten, overheidsbudgetten en mondiale kapitaalstromen. Een gebrekkig businessmodel dat mondiaal vertakt zit, schreeuwt: problematisch! Oeps. Zo had ik de AI-race nog niet bekeken. Interessante en bangelijke piste.

Het doet denken aan de crisis van 2008. Het scheelde toen geen haar of de volledige wereldeconomie ging ten onder. De banken moesten gered worden omdat ze te groot waren geworden om te mogen falen. Vandaag zie je diezelfde dynamiek ontstaan rond tech. Is big tech vandaag ook niet too big to fail? Ik heb de indruk dat er bij Big Tech nog veel meer geld omgaat dan bij de banken, als je ziet dat een clown als Musk 1000 miljard verzamelt.

Neem daar de macro-economische context bij, de hoge overheidsschulden en een mogelijke correctie na een lange schuldencyclus, dan wordt de timing precair. Het risico is niet dat AI faalt als technologie. Ah neen? Zie de artikels hierboven. Het risico is dat de economische fundamenten eronder bezwijken op het slechtst denkbare moment.

Loopt het hoe dan ook fout? Dat hoeft niet. De enige uitweg die het model sluitend maakt, is een productiviteitswinst van historische proporties. We zijn eraan voor de moeite. AI zou zoveel menselijke arbeid moeten vervangen of versterken dat de hogere kosten geabsorbeerd worden zonder dat gebruikers of bedrijven het voelen. Vergeet het. Maar daar wringt het schoentje. Die massale productiviteitswinsten zijn er voorlopig niet, althans niet op de schaal die nodig is om het kostenplaatje rond te krijgen. En zelfs als ze er komen, rijst de vraag: ten koste van wat? Als er inderdaad een risico bestaat dat een tegenvallende AI-race onze sociale zekerheid opvreet, dan zijn we gejost, gezien de belabberde kwaliteit van LLM's.

Elke golf van technologische vooruitgang beloofde ons het walhalla. Meer tijd, meer rust, meer ruimte, meer winst. En telkens was daar ook het bubbelgevaar. Misschien is dat wel de kern van het probleem. Niet dat AI niet werkt (net wél dat AI niet werkt), maar dat we er een economisch verhaal op bouwen dat de toets van de realiteit nog moet doorstaan. Elke vorm van subsidiëring en financiële ondersteuning is in se een marktverstoring. De vraag is dan: welke grote conclusies trekken we misschien te snel of te traag? Wie vandaag over AI spreekt als over een zekerheid, negeert dat de rekening nog openstaat, en dat niemand precies weet wie ze zal betalen.

De auteur is publicist, ondernemer, eigenaar van het strategisch consultancybureau Think Ahead Inc. en onderzoeker bij de denktank Itinera. www.juliendewit.be

5 – AI-hype of déjà vu? Waarom bedrijven met AI dezelfde fouten blijven maken

Artificiële intelligentie wordt vandaag voorgesteld als de volgende grote doorbraak. IT-afdelingen krijgen de opdracht 'iets met AI te doen', en liefst snel. Dat klinkt ambitieus. In de praktijk levert het zelden op wat ervan verwacht wordt.

David Geuens, Knack, 10-04-2026

Achter de hype schuilt een patroon dat we al eerder zagen: bij digitalisering, bij big data, bij ERP. Telkens weer vertrekken organisaties vanuit de technologie, terwijl de echte uitdaging elders ligt. Eenvoudige reden: efficiëntie krijgt altijd voorrang op effectiviteit, onterecht.

Als AI zo krachtig is, waarom blijft de impact dan zo vaak beperkt? En waarom maken we met elke nieuwe technologiegolf exact dezelfde fouten? Ik ben benieuwd of we hier een antwoord krijgen.

Het probleem zit zelden in de technologie

Wanneer AI-initiatieven mislukken, wordt de oorzaak vaak gezocht in de technologie. Ze zou nog niet rijp zijn, te complex of moeilijk te integreren. In werkelijkheid ligt het probleem zelden daar. AI faalt niet omdat ze niet werkt, maar omdat ze wordt toegepast op een organisatie die onvoldoende inzicht heeft in haar eigen werking. Technologie wordt ingezet zonder duidelijk beeld van de processen waarin ze moet functioneren of van het probleem dat ze moet oplossen. Bedenkelijk procesbeheer en [efficiëntie i.p.v. effectiviteit] zijn de belangrijkste oorzaken van elk slecht functioneren van organisaties.

Daarmee wordt AI al snel een oplossing op zoek naar een probleem. Zoals al die andere technologieën. Voor digitalisering is dat al ongeveer 50 jaar zo.

Een tweede hardnekkige misvatting is dat AI een strategie zou zijn. Dat klinkt logisch, maar is het niet. Net zoals bedrijven ooit spraken over een 'digitale strategie', wordt AI vandaag vaak als een aparte pijler gezien. In werkelijkheid is het een instrument dat processen kan versnellen, beslissingen kan ondersteunen en repetitief werk kan automatiseren. Zelfs dát moet nog duurzaam bewezen worden. Maar het bepaalt niet waar een organisatie naartoe wil, noch hoe ze waarde creëert. Voila.
Wie vertrekt vanuit AI, begint dus op de verkeerde plaats. Dan ontstaat een zoektocht naar toepassingen zonder duidelijk kader, en dat leidt zelden tot structurele verbetering. Dat leidt enkel naar meer macht voor Big Tech.

Nieuwe technologie legt oude problemen bloot

Veel organisaties hebben minder grip op hun eigen processen dan ze denken. Verantwoordelijkheden zijn vaag, uitzonderingen zijn de norm en op papier klopt het. Maar in de praktijk loopt het stroef. Wanneer AI in zo'n omgeving wordt geïntroduceerd, verdwijnt het probleem niet. Het wordt alleen zichtbaarder. Helemaal waar.

De reflex om meteen use cases te bedenken maakt het er niet beter op. Chatbots, automatisering, voorspellende modellen: de ideeën liggen voor het grijpen. Maar de relevante vraag is niet wát er mogelijk is, wel wáár het zinvol is (en niet alleen waar het efficiënt is). Organisaties die vanuit hun operationele realiteit vertrekken, kijken eerst waar processen vertragen, waar manueel werk zich opstapelt, waar beslissingen afhangen van informatie die niemand goed in handen heeft. Allemaal logisch.

Pas wanneer die knelpunten zichtbaar zijn, wordt duidelijk waar technologie effectief kan bijdragen. Soms is dat AI, maar even vaak ligt de oplossing in procesvereenvoudiging, betere samenwerking of duidelijkere governance. Het verschil zit niet in de technologie, maar in de diagnose. Voila.

De oplossing: vertrek vanuit operational excellence

Organisaties die wél impact realiseren, beginnen ergens anders. Niet bij de tool, maar bij de vraag hoe het werk vandaag eigenlijk loopt… en waar het spaak loopt. Dat vraagt eerlijkheid over de eigen werking: over verantwoordelijkheden die niet kloppen, over data die niet op orde is (maar waar wel AI op wordt getraind), over samenwerking die op papier bestaat maar in de praktijk niet werkt. Over basale fouten.

Pas wanneer die basis helder is, krijgt technologie een duidelijke rol. AI wordt dan geen doel op zich, maar een middel om concrete verbeteringen te realiseren.

AI verandert daarmee minder dan gedacht. Ze maakt vooral zichtbaar wat er al was. Een slecht georganiseerd proces wordt met AI een slecht georganiseerd proces dat sneller draait (en hallucineert :-). Structurele onduidelijkheid los je niet op met een tool. Je versterkt ze.

De organisaties die dat snappen, stellen andere vragen. Niet "welke AI-tool passen we toe?", maar "waar loopt onze werking vast, en wat lost dat echt op?" Dat is geen technologische vraag. Het is een organisatievraag. En zolang bedrijven die twee blijven verwarren, zal de volgende technologiegolf, hoe die ook heet, opnieuw teleurstellen. Zoals alle voorgaande.

6 – Epiloog

De Sutter en Vandermeersch zijn twee prachtige voorbeelden van het blind achterna hollen van technologie, zoals sectie 5 dat beschrijft. Gelijkaardige toestanden hebben al geleid tot het ontslag van mensen in belangrijke functies, maar die analyse gaan we hier niet maken. Wat ik hier wel uit afleid: als deze beide toonaangevende (toch?) personen in de val trappen, wie dan nog allemaal? Er moeten in Vlaanderen intussen honderdduizenden AI-gebruikers zijn die zich weinig of niets aantrekken van de kwaliteit van wat AI-tools produceren. Dat geldt uiteraard voor controleerbare citaten en feiten, maar evenzeer voor alle andere gespuide teksten, waarop controle allesbehalve evident is. Als je voor je baas tijd wint met een AI-samenvatting van een document van 20 pagina's, waarbij je lengte en stijl zelfs kan kiezen (bv. "in 10 regels, professionele stijl"), dan lees je die misschien wel na, maar je gaat niet nakijken of dat ook een goede samenvatting is, want dat duurt veel te lang. Daaruit volgt dat je op basis van "use it or lose it" ook nog de skills verliest om (1) zelf een goede samenvatting te maken, en dan ook (2) te beoordelen of een AI-samenvatting wel deugt. Dergelijk verlies van capaciteiten is voor een organisatie een veel grotere valkuil dan onbestaande citaten. En hoe meer er heisa wordt gemaakt over gevallen als De Sutter en Vandermeersch, hoe meer de bedenkelijke kwaliteit van AI-tools onder de radar blijft.

In de vorige paragraaf weer ik het woord 'hallucinatie'. Wat is dat eigenlijk? Volgens Wikipedia: "een hallucinatie is een zintuiglijke beleving die niet overeenkomt met wat er in de fysieke werkelijkheid gebeurt". Verschillende andere bronnen geven een gelijkaardige definitie. Bij de toepassing op AI-tools moeten we constateren dat die geen zintuigen hebben, noch een vorm van beleving, en dus niet kunnen hallucineren. Een niet-bestaand citaat of feit is dan ook geen hallucinatie, maar een fout in de output van een proces, dus een gevolg van ofwel een fout in de input, ofwel een fout in het proces. Diezelfde fouten in het proces veroorzaken ook andere fouten in de output, alleen zijn die soms moeilijk controleerbaar (bv. in een samenvatting), en soms helemaal niet. Door te benadrukken dat AI-tools kunnen hallucineren, wordt echter verhuld dat procesfouten op een ondefinieerbare en oncontroleerbare manier de kwaliteit van een resultaat negatief beïnvloeden. Als je het zo bekijkt kan je met mij concluderen dat de kernprocessen van AI-tools niet goed werken. Dat is al zo van in het begin (ChatGPT einde '22), en dat is ruim drie jaar later nog altijd zo (getuige De Sutter en Vandermeersch), wat dan ook betekent dat dit allicht zo zal blijven, zoals wordt beweerd in Sectie 2.

Ofwel kan Big Tech dit probleem niet oplossen (bv. omwille van beperkingen in wiskundige algoritmen), ofwel wil men het niet oplossen (of een combinatie). Voor dat laatste kon ik geen redenen bedenken, dus vroeg ik daarnaar aan ChatGPT. Mijn eerste gedacht bij het antwoord: mooi opgezet, maar hier heb ik niks aan. Dat was eerder een gevoelsmatige reactie, maar daar heeft de analist of de lezer dan weer niks aan. Een korte poging om de betrouwbaarheid wat preciezer in te schatten mondde uiteindelijk uit in een volledige analyse. Mijn belangrijkste conclusies:
– hallucinaties zijn fouten, en ze zijn onvermijdelijk;
– je kan betrouwbaarheid en creativiteit niet combineren in één systeem, maar dat is wel wat LLM's proberen te doen;
– de behoefte aan creativiteit vergoelijkt hallucinaties;
– interne controles op betrouwbaarheid zijn onmogelijk.
De volledige analyse vind je hieronder; de schuine tekst komt van ChatGPT.

Naar verluidt zullen Gen-AI systemen af en toe blijven hallucineren. Zijn er redenen waarom de makers dat niet kunnen vermijden, en zijn er redenen waarom de makers dat niet zouden willen vermijden?

Ja. Er zijn zowel technische redenen waarom hallucinaties moeilijk volledig uit te bannen zijn, als redenen waarom een systeem dat nooit hallucineert waarschijnlijk minder bruikbaar zou zijn. HUH? Dat laatste betekent niet dat ontwikkelaars hallucinaties willen; eerder dat er afwegingen bestaan tussen creativiteit, flexibiliteit, dekking en absolute betrouwbaarheid. Vreemd. Mijn darmgevoel zegt mij dat ChatGPT probeert redenen te bedenken om niet te moeten zeggen dat het 'hallucinatieprobleem' onoplosbaar is. Overigens, waar ik 'hallucinatie' schrijf zet ik het tussen aanhalingstekens, omdat ik hoger heb betoogd dat LLM's niet hallucineren, maar gewoonweg fouten maken.

Waarom zijn hallucinaties moeilijk volledig te vermijden?

1. Een taalmodel voorspelt tekst, geen waarheid

Grote taalmodellen (LLM, Large Language Model) leren patronen in enorme hoeveelheden tekst. Hun primaire taak is het voorspellen van plausibele vervolgen van tekst, niet het controleren van feiten. Op het eerste gezicht begrijpelijk. Maar. (1) Ik denk dat 'vervolg' geen meervoud heeft; in dat geval is 'plausibele vervolgen' een 'hallucinatie'. (2) "De primaire taak is niet het controleren van feiten". Een gebruiker verwacht wel feiten, maar geen controle van feiten. Waar komt dit dan vandaan? Ook een 'hallucinatie'? Dit is zo'n zin waar je gemakkelijk doorheen leest omdat er niets fout in staat. De logica kraakt echter. Daardoor kunnen ze soms een antwoord genereren dat grammaticaal en logisch klinkt, maar feitelijk onjuist is. Of feitelijk juist, maar logisch fout, zoals in dit geval.

2. De wereld is groter dan de trainingsdata

Geen enkel model heeft toegang tot alle feiten, alle actuele gebeurtenissen of alle lokale context. Ook begrijpelijk, maar je hebt als gebruiker geen zicht op welke bronnen dan wel gebruikt werden. Ook daar hebben de makers allicht een grondige reden voor, nl. het omzeilen van auteursrechten. Als een vraag buiten de beschikbare kennis valt, zijn er grofweg drie opties:

"Ik weet het niet."
Een gedeeltelijk antwoord geven.
Een antwoord construeren dat plausibel lijkt.

Moderne systemen zijn steeds beter getraind om onzekerheid toe te geven, maar die verbetering is niet perfect.

Hier zien we diverse aspecten. (1) De taak van een taalmodel is "het voorspellen van een plausibel vervolg van tekst" (zie punt 1). Dus zou ik verwachten dat "een antwoord construeren dat plausibel lijkt" volstaat als optie. Maar dat verkoopt slecht, want dan krijg je bij gebrek aan de nodige informatie per definitie een 'hallucinatie'. (2) Om dat zogezegd te vermijden is een tweede mogelijkheid nodig, nl. een onvolledig antwoord, of in een uiterste geval helemaal geen. Dan is het wel nuttig voor de gebruiker om daar informatie over te krijgen. ChatGPT beweert dat moderne systemen die mogelijkheid voorzien. Dan heb ik nog niet op een modern systeem gewerkt. (3) Als er geen bericht omtrent onzekerheid wordt gegeven, krijg ik geen indicatie dat het antwoord niet correct is (foutief of onvolledig). Dit lijstje met opties kan dus ook een 'hallucinatie' zijn. (4) Of de 'verbetering' perfect is zal niemand interesseren, wel of het resultaat verbetert. Van een mens moeten we een dergelijke uitspraak tolereren (zie de paragraaf "Spreken en schrijven" in de sectie Spreektaal en schrijftaal van ANS: Algemene Nederlandse Spraakverwarring), van een AI-tool verwacht je geen onlogische uitspraken.

3. Taal bevat ambiguïteit

Ambiguïteit is de mogelijkheid om een tekst op twee of meer verschillende manieren te interpreteren. Anders gezegd: een tekst die een ambiguïteit bevat kan op verschillende manieren geïnterpreteerd worden. "Taal bevat ambiguïteit" is onzin, mogelijk een 'hallucinatie'. Veel vragen zijn onvolledig of dubbelzinnig. Zou kunnen; mensen die tools voor zich laten werken verliezen zelf hun capaciteit om volledige en ondubbelzinnige vragen te stellen. Bijvoorbeeld: "Wat was de belangrijkste oorzaak van de crisis?". Welke crisis? Financiële crisis van 2008? Energiecrisis? Politieke crisis? Modellen proberen vaak de meest waarschijnlijke interpretatie te kiezen. Dat kan soms leiden tot een fout antwoord dat niet als fout wordt herkend. (1) Zou dat? Ik doe een test, en vraag ChatGPT "wat is de belangrijkste oorzaak van de crisis?". Het antwoord: "Kun je aangeven over welke crisis je het hebt?". ChatGPT maakt dus zelf geen keuze, maar vraagt meer details, zoals ik verwachtte. Dat betekent dat het voorbeeld niet klopt. Weer een 'hallucinatie'? (2) De vraag "wat is de belangrijkste oorzaak van de crisis?" is volgens ChatGPT een ambigue vraag; volgens mij is dat een onvolledige vraag. (3) Beschouw dit scenario: een gebruiker heeft een vraag (a) in gedachten, formuleert die echter zodanig vreemd dat een andere vraag (b) ontstaat, AI antwoordt correct op (b), en de gebruiker interpreteert het resultaat als een antwoord op de vraag (a) die hij had willen stellen. Dat komt overeen met het voorbeeld, nl. een fout antwoord dat niet als fout wordt herkend. Maar hier is geen sprake van ambiguïteit. (4) Ambiguïteit kan wel degelijk een probleem zijn, maar op een dubbelzinnige vraag verwacht je wel een vraag van AI om nadere specifiëring, zoals in de test die ik deed. De vraag "hoeveel kolen werden er geproduceerd in België in 1980?" is volgens mij een ambigue vraag, omdat "kolen" twee betekenissen heeft. Het antwoord van ChatGPT heeft het enkel over steenkool, en geeft er meteen randinformatie bij; hier is geen verkeerde interpretatie mogelijk. Op de vraag "hoeveel kost een muis" antwoord ChatGPT "dit is een ambigue vraag, omdat muis twee veel voorkomende betekenissen heeft"; je krijgt overigens voor beide de gevraagde prijsinformatie :-). Ik heb er geen idee van waarom de tool al dan niet zelf een keuze maakt. (5) Conclusie: ChatGPT geeft hier uitleg waar haken en ogen aan zitten. Ambiguïteit is wel een mogelijke bron van misverstanden bij de gebruiker, maar niet van 'hallucinaties' in de tool. Dus lijkt heel punt 3 eerder een 'hallucinatie'.

4. Er is geen perfecte interne waarheidsmeter

Mensen hebben dat trouwens ook niet. Als je je al een waarheidsmeter kan voorstellen. Een model kan een antwoord met hoge "zelfverzekerdheid" formuleren zonder een betrouwbaar mechanisme te hebben om vast te stellen of de inhoud werkelijk klopt. Onderzoek naar betrouwbaarheid, verificatie en onzekerheid probeert dit te verbeteren, maar het blijft een lastig probleem.

Ook wel wat haken en ogen hier. (1) Ik kan mij iets voorstellen bij die 'zelfverzekerdheid'; met veel 'kan' in het antwoord is die laag, met veel 'is' en 'zal' is die hoog. Maar ook de keuzen van AI voor 'kunnen' en 'zullen' volgen uit statistische algoritmen, en hebben weinig te maken met de zelfverzekerdheid van een AI-tool, die trouwens alleen technische eigenschappen heeft, en geen menselijke, en dus ook geen zelfverzekerdheid kan ervaren of tonen. (2) Een mechanisme om vast te stellen of het resultaat klopt lijkt mij een vreemd idee. Hoe zou dat immers in de procedure ingebed worden? Je stelt een vraag, AI formuleert intern een antwoord, en dan zou dat mechanisme moeten nagaan of dat antwoord wel klopt. Wat indien niet? Gaat de tool dan een aangepast antwoord zoeken door de vraag te wijzigen en opnieuw te beginnen? En hoe dikwijls gaan we dan in een kring draaien? (3) Als het mogelijk zou zijn om betrouwbaarheid te beoordelen, dan kon dat ook dadelijk als selectiemechanisme in het primaire proces opgenomen worden. (4) AI vergelijken met mensen heeft geen zin. Mensen vertonen onderlinge verschillen in diverse capaciteiten, die bovendien individueel variabel zijn in de tijd. Een dergelijke eigenschap tolereer je toch niet van een AI-tool?

Het verschil tussen feiten en opinies komt in deze blog af en toe aan bod. Ik denk dat de maatschappij er beter zou uitzien als we feiten beter zouden kunnen scheiden van opinies. Een feit is voor iedereen hetzelfde. Een opinie is een mening waarover te discussiëren valt. De belabberde betrouwbaarheid van LLM's maakt het echter onmogelijk om feiten van opinies te scheiden.

5. Sommige vragen hebben geen eenduidig antwoord

Bij onderwerpen als geschiedenis, economie, filosofie of voorspellingen over de toekomst bestaan vaak meerdere verdedigbare interpretaties (bij gebrek aan definities en/of bewijzen). De grens tussen een "hallucinatie" en een speculatieve interpretatie is daar soms minder scherp. Een speculatieve interpretatie is een uitleg of betekenis die verder gaat dan wat rechtstreeks uit de beschikbare feiten, gegevens of tekst kan worden afgeleid (ik maak er ook wel eens gebruik van :-). Als een vraag geen eenduidig antwoord heeft kan de tool niettemin een veronderstelling maken, m.a.w. speculeren. Dit lijkt erop neer te komen dat de tool soms zelf moet kiezen tussen meerdere mogelijke antwoorden, wat dan weer in tegenspraak is met het principe van woordselectie op basis van waarschijnlijkheid. Ik vermoed dat de makers een vorm van willekeurigheid hebben ingebouwd in het proces, om ervoor te zorgen dat het systeem zeker niet deterministisch is, m.a.w. op twee keer dezelfde vraag wel twee verschillende antwoorden geeft. Dat simuleert een soort menselijkheid, waardoor we minder (en sommigen helemaal niet meer) geneigd zijn de antwoorden in vraag te stellen.

Waarom zouden makers hallucinaties niet volledig willen elimineren?

Hier is het belangrijk onderscheid te maken tussen foutieve informatie (ongewenst) en creatieve generatie (vaak gewenst). Ontwikkelaars willen doorgaans het eerste verminderen zonder het tweede te verliezen.

1. Een extreem voorzichtig model wordt minder nuttig

Stel dat een model alleen antwoord geeft wanneer het 100% zeker is. Dan zou het op heel veel vragen reageren met: "Dat weet ik niet". Dat zou de betrouwbaarheid verhogen, maar de bruikbaarheid sterk verminderen. Er is een afweging tussen precisie, volledigheid en behulpzaamheid.

Geweldige uitleg, maar ook dit is een 'hallucinatie'. (1) Dat we het nut van betrouwbaarheid zouden gaan interpreteren is typisch voor de actuele Amerikaanse politiek, waar opinies voorrang krijgen op feiten. (2) Het model produceert een tekst op basis van waarschijnlijkheid van woordcombinaties, maar heeft geen begrip, en dus ook geen weet van zekerheid. Elke veronderstelling omtrent zekerheid is dan zinloos. (3) Dankzij de waarschijnlijkheid van woordcombinaties lukt het genereren van een tekst altijd, ongeacht de vraag. Op een vraag waarvoor geen antwoord te vinden is in de brondata wordt evengoed het meest waarschijnlijke antwoord gegenereerd. (4) Als er al sprake zou zijn van zekerheid (zie punt 4 hierboven), kan je je inderdaad een model voorstellen dat 100% juiste antwoorden geeft, en dan ook regelmatig, afhankelijk van de brondata, aangeeft geen antwoord te vinden. Dan ontstaat de interessante vraag of we als gebruiker zelf zouden willen bepalen in welke mate de zekerheid mag dalen om toch een antwoord te kunnen vinden. Dat zou neerkomen op het tolereren van 'hallucinaties'. In feite is dat de toestand waarin we nu zitten.

2. Creativiteit vereist het genereren van nieuwe combinaties

Verhalen schrijven, brainstormen, ontwerpen, programmeren en hypothesen bedenken vereisen allemaal het combineren van ideeën die niet letterlijk in de trainingsdata stonden. Een systeem dat uitsluitend bestaande, geverifieerde feiten mag reproduceren zou veel van zijn creatieve kracht verliezen.

Een "creatieve kracht" die vooral wordt benut voor bedrog… Willen we een tool die betrouwbare informatie levert, of een creatieve tool? Ik denk dat beide aspecten niet samengaan. En toch zitten ze samen in LLM's, omdat ze in het gebruikte proces niet uit elkaar te halen zijn. Dat is duidelijk een gebrekkige aspectscheiding.

3. Redeneren lijkt op gecontroleerd gokken

Wanneer een model een onbekend probleem oplost, moet het vaak tussenstappen construeren die niet letterlijk uit een bron komen. Veel nuttige intelligentie ontstaat juist uit het vermogen om plausibele hypotheses te vormen. Het risico is dat sommige hypotheses onjuist blijken. Toen ik dit probeerde te ontrafelen ging ik zelf hallucineren.

4. Het kan onmogelijk zijn om nul hallucinaties te garanderen

Zelfs als een model elk antwoord controleert tegen externe bronnen, blijven problemen bestaan: bronnen kunnen fout zijn, bronnen kunnen elkaar tegenspreken, informatie kan ontbreken, en de vraag kan interpretatie vereisen. Een garantie van 0% hallucinaties zou daarom waarschijnlijk onhaalbaar zijn.

Dit is grof. (1) Opnieuw die controle. Als een model een antwoord zou kunnen controleren tegen externe bronnen, waarom zijn die bronnen dan niet in de eerste plaats gebruikt om het antwoord op te stellen? (2) Hier wordt de oorzaak van 'hallucinaties' bij de bronnen gelegd, terwijl die in het proces zit. (3) De hier opgesomde problemen met bronnen zijn reëel; die heb je bij gelijk welke opzoeking, ook zonder LLM. (4) de zinsnede "zou daarom waarschijnlijk onhaalbaar zijn" is bijzonder vreemd; wat doet die "zou" daar? Ik kan mij niet voorstellen dat dit een statistisch frequent voorkomende combinatie is. De term "rommel in, rommel uit" krijgt een bijzondere betekenis.

Wat proberen makers dan wel te doen?

De huidige trend is niet om modellen volledig stil (huh?; 'hallucinatie'?) te maken, maar om ze vaker onzekerheid te laten aangeven, externe bronnen te laten raadplegen (onzin; zie hoger), antwoorden te laten verifiëren (idem), verwijzingen naar bronnen te geven, en beter onderscheid te laten maken tussen feiten en speculatie (dat is hetzelfde als "onzekerheid laten aangeven"). Dat verschuift het probleem van "verzin een antwoord" naar "geef een antwoord met een passende mate van zekerheid". Verwijzingen naar bronnen geven gebeurt al regelmatig, waarbij vooral opvalt dat het altijd om een beperkt aantal bronnen gaat. Eigenlijk vind ik dat vreemd. Je verwacht niet van een systeem dat getraind is op massa's bronnen van over de hele wereld dat het een antwoord baseert op slechts één bron; die zou immers onbetrouwbaar kunnen zijn (!); één bron lijkt ook niet overeen te komen met het systeem van waarschijnlijkheid van woordcombinaties. Dat toch één of enkele bronnen worden gerapporteerd is eerder bedoeld om de markt gerust te stellen.

Een vergelijking

Een nuttige analogie is een zeer belezen expert. Zo'n expert weet enorm veel, kan vaak correct redeneren over nieuwe situaties, kan creatieve ideeën genereren, maar kan zich ook vergissen of een detail verkeerd herinneren. Een systeem dat nooit iets verkeerd zegt zou eerder lijken op een database die alleen exact opgeslagen feiten kan teruggeven. Een systeem dat flexibel kan redeneren en creëren zal waarschijnlijk altijd een zekere kans houden om soms iets te produceren dat overtuigend klinkt maar niet klopt. Opnieuw: AI vergelijken met mensen is onzin; aan AI stel je andere verwachtingen dan aan mensen.

Veel onderzoekers verwachten daarom dat hallucinaties in de praktijk steeds zeldzamer en beter beheersbaar zullen worden, maar niet volledig zullen verdwijnen. En hier is weer zo'n zin waarin de logica zoek is. ChatGPT beweert dat 'hallucinaties' zeldzamer zullen worden (of eerder dat onderzoekers dat verwachten; het zet zichzelf uit de wind), maar in de vorige paragrafen worden 'hallucinaties' wel verdedigd, om meerdere redenen zelfs. Dat is koud en warm blazen tegelijk. Wat je ChatGPT dan weer niet kunt kwalijk nemen, want het begrijpt dat niet.

Basale fouten: Foutieve procedure Gebrekkige aspectscheiding