ChatGPT onder de loep

Dit artikel is een vervolg op Wat als AI de mens inhaalt?, waar ik kennismaakte met ChatGPT, die handige AI-tool die binnen een halve minuut indrukwekkende dingen doet met een jaarverslag, en andere hocus pocus. Een min of meer interessante test zou te lang uitgevallen zijn voor dat originele artikel, vandaar dit vervolgartikel. Met daarin enkele verrassingen; een mens is nooit te oud om te leren.

Eén van de veel aangehaalde voorbeelden van het gebruik van ChatGPT is het maken van een samenvatting van een tekst. Daar ga ik mee beginnen. Andere probeersels:
– het verschil tussen twee begrippen uitleggen;
– 10 ja/nee vragen genereren;
– uitleggen waarom AI uit de klas moet verbannen worden (vuile vraag);
– een Excel formule schrijven.
Om te eindigen een poging tot globale conclusie.


Een tekst samenvatten

1 – Wat is een goede samenvatting?

In Wat als AI de mens inhaalt? had ik al beschreven dat ChatGPT een samenvatting kan maken, en de vrees geuit dat velen die niet eens zullen nakijken, wat ik nu wel wil gaan doen. Maar hoe beoordeel je een samenvatting? ting.nl geeft 8 tips, tipsvoorschool.nl geeft er 15 (ze geven in feite een stappenplan (vlag-en-ladingprobleem), en geen tips, maar laat dat de pret niet drukken), en Scribbr biedt je meteen een tool zoals ChatGPT. Het blijkt te gaan om Quillbot, dat al bestaat sinds 2017. Er blijken trouwens meerdere tools te bestaan die een tekst kunnen samenvatten, bv. canva.com, grammarly.com, of resoomer.com (sinds 2015, werkt met de meeste Europese talen, ook Nederlands). Deze tools doen overigens méér dan alleen samenvatten; Scribbr kan ook bronvermeldingen, lay-out en spelling nakijken, tekst herschrijven, checken op plagiaat, en bronvermeldingen genereren. Dus: alvast betreffende samenvattingen met ChatGPT is er veel drukte om niets.

De diverse stappenplannen zijn overigens nogal gelijkaardig, en beginnen doorgaans op dezelfde manier: lees eerst de tekst aandachtig door, en begrijp wat er staat en waarover het gaat. Begrip is zoals gezegd het zwarte gat van AI. Een LLM of large language model functioneert ook niet op basis van begrip, wel op basis van waarschijnlijkheid van opeenvolgende termen. Ik ben dus geneigd te verwachten dat een AI-samenvatting niet betrouwbaar zal zijn. Maar ik doe een test, onbevangen (voor zover ik dat zelf mag beoordelen; zelfbegrip is ook voor veel mensen een zwart gat).

2 – ChatGPT maakt een samenvatting

Mijn bronmateriaal voor de test: het jaarverslag van de VRT 2022, meer bepaald een soort inleiding, een combinatie van het voorwoord op p.4 en het overzicht op p.5 (om de controle beheersbaar te houden; zie hieronder). Bij zo'n jaarverslag dreigt ook een vlag-en-ladingprobleem, omdat twee verschillende jaartallen kunnen bedoeld worden, nl. het jaartal van de activiteiten die verslaan worden (2022), en het jaartal waarin het verslag wordt gepubliceerd (2023). Ik maak verschillende samenvattingen van deze tekst, die 16 paragrafen bevat. Je kan de procedure trouwens zelf nadoen, mocht je daar zin in hebben. De kans dat je precies dezelfde resultaten krijgt is echter klein; blijkbaar speelt er een tijdsafhankelijkheid.

Samenvatting van de inleiding, door ChatGPT op 12-10

Ik kopieer de testtekst, tik in ChatGPT de vraag maak een samenvatting van de tekst "", plak de tekst tussen de aanhalingstekens, en druk Enter. Het antwoord ziet er op het eerste gezicht prima uit. Ik kan begrijpen dat mensen bij een eerste kennismaking spreken van "indrukwekkende resultaten", en dat velen die resultaten zonder nazicht zullen aanvaarden. Enkele zinnetjes eruit, met mijn (kritische, toegegeven) commentaar.

In het jaar 2022 stond VRT in het teken van digitale groei, met de focus op de mediagebruiker boven merken en platformen. (1) ChatGPT lijkt niet te begrijpen :-) dat we spreken van dé VRT, in tegenstelling tot bv. Ikea of BOL.com. (2) Een actie kan in een bepaald teken staan, maar een instituut niet. (3) Voor de duidelijkheid had na mediagebruiker een komma mogen staan.

(1) Meteen rijst al de vraag of een samenvattingstool beter moet presteren dan een mens. Van een mens verwachten we geen perfectie, maar van een AI-tool? Anders gesteld: wat is de norm voor een AI-tool? Verwachten we bv. dat een samenvatting in het Nederlands voldoet aan de regels van de Taalunie? Ik zou denken van wel, maar dat is niet evident, en ook niet het geval (taalfoutje, omdat "het geval" een zelfstandig, en "evident" een bijvoeglijk naamwoord is). Wat is het alternatief? Volstaat het dat een AI-tool dezelfde kwaliteit produceert als een mens? Wetende dat mensen zeer uiteenlopende kwaliteit produceren, is dat niet te beschouwen als een richtlijn. Maar dat is wel ongeveer wat er nu gebeurt, vermits ChatGPT zich baseert op massa's menselijke schrijfsels die online te vinden zijn. (2) Extra gevaar ontstaat als de resultaten van allerlei automatische schrijfsels, inclusief de fouten, ook online gezet worden, en opnieuw worden gebruikt als input voor AI-tools. Een vijftal van dergelijke cycli zou volstaan om het hele internet onbetrouwbaar te maken; zie ook Vrees voor robo-inteelt. Omdat ChatGPT's bronnen slechts tot 2021 gaan lijkt dat gevaar momenteel miniem.

VRT maakte belangrijke stappen richting meer on-demand, mobiel en gepersonaliseerd aanbod. Vind ik niet geweldig. Waarom niet naar i.p.v. richting? En waarom het Engelse on-demand, als de originele tekst het heeft over op aanvraag? En een addertje onder het gras: hoe meer mobiel en gepersonaliseerd aanbod, hoe meer trafiek op het internet, dat vroeg of laat eens gaat vastlopen (maar dat staat uiteraard los van ChatGPT).

De publieke omroep bleef marktleider op radio en tv en investeerde in digitalisering, dankzij sterk Vlaams aanbod en innovatieve projecten. De zin die ik al eerder vermeldde als teaser. Waarom staat en investeerde in digitalisering op een plaats waar dat niet past? Achteraan in de zin had dat wel gekund, maar nu wordt gesuggereerd dat de VRT investeerde in digitalisering dankzij sterk Vlaams aanbod en innovatieve projecten, wat uiteraard onzin is. Dit lijkt mij typisch een fout door gebrek aan begrip, die dan weer door een gebrek aan aandacht veel mensen zal ontgaan. Zou het gebruik van de woorden investeren in digitalisering misschien een belangrijke drijfveer zijn voor ChatGPT? Met die neoliberalistische techsector weet je maar nooit…

[..] [..]  Financiële uitdagingen leidden tot het Transformatieplan, gericht op efficiëntie, opleidingen en arbeidsplaatsen. De brontekst heeft het over de aankondiging van het Transformatieplan, wat niet hetzelfde is, maar dit is allicht al wat ver gezocht; wel straf dat de tool een dergelijke verkorting kan maken. Of toch niet? De verkorting van schrappen van 116 arbeidsplaatsen tot arbeidsplaatsen zonder meer lijkt mij dan weer een stap te ver, temeer omdat efficiëntie, opleidingen en arbeidsplaatsen een positieve indruk wekt.   

[..] [..] Het Transformatieplan is bedoeld om VRT te versterken en de toekomst van de publieke omroep te waarborgen. Het jaar 2023 wordt gezien als een kans om deze transformatie met succes te realiseren. Hier toch even de originele paragraaf waar dit vandaan komt:
De échte ambitie van het Transformatieplan is VRT te versterken in haar
opdracht en de toekomst van de publieke omroep te verzekeren. Langer stilstaan was geen optie, maar VRT heeft meer dan voldoende talent om ook die omwenteling aan te kunnen. 2023 is het eerste jaar waarin we kunnen bewijzen dat we daar ook in zullen slagen.
(1) Begrijpelijk dus dat ChatGPT ook VRT schrijft i.p.v. de VRT. (2) Verzekeren > waarborgen. Ook synoniemen kiezen zit in ChatGPT, net als bij de plagiaat-checker van Scribbr.; de Engelse term is paraphrasing. (3) De laatste zin van de samenvatting lijkt mij wel OK, maar het verband met de laatste twee zinnen van de originele tekst is toch niet bepaald duidelijk. Ofwel straf, ofwel toeval.

De originele tekst bevat twee delen, met in totaal 16 paragrafen (1>16). Bij een vergelijking met de samenvatting zie je dat telkens zinnen uit de originele paragrafen worden gekneed en samengesteld tot nieuwe paragrafen A>E in de samenvatting, meer bepaald als volgt: 1+2 > A, 3+4 > B, 5+6 > C, 7+14 > D, en 16 > E. De logica ontgaat mij in elk geval. Tenzij ChatGPT met opzet veel van het begin neemt en een beetje van het einde, om bij een oppervlakkige controle een goede indruk te wekken. Zijn niet vermeld: de nieuwbouw (§8), kwaliteit (§10), verbinding (§9+11), doelgroepen (§12), Vlaamse producties (§13).

De discussie over de kwaliteit van een automatische samenvatting dreigt eindeloos te worden, enerzijds omdat een norm ontbreekt, anderzijds omdat elk individu een andere samenvatting zal maken. Op elke samenvatting, menselijk of automatisch, is wel iets aan te merken. Maar dat verandert uiteindelijk niets aan het feit dat een mens kunde en kennis kwijtraakt door die over te laten aan een extern systeem, en dat is geen goede ontwikkeling.

Samenvatting van de inleiding, door ChatGPT op 15-10

Dezelfde instructie, enkele dagen later, geeft een gelijkaardig, maar verschillend resultaat. De eerste paragraaf:

In 2022 stond de (OK!) Vlaamse publieke omroep, (de) VRT, in het teken van digitale groei (NOK) en het centraal stellen van de mediagebruiker (komma) boven merken en platformen. De (OK!) VRT heeft in dat jaar belangrijke stappen gezet om haar aanbod meer op aanvraag (aha!), mobiel en gepersonaliseerd te maken. Ze behaalde goede resultaten in radio en tv, bleef marktleider en werkte aan het inhalen van digitale achterstand (probleem opgelost!).

Zelfde informatie, andere formulering, en nu beter dan enkele dagen geleden. Ik heb geen idee vanwaar dit verschil. Zou het kunnen dat ChatGPT bij elke poging ook synoniemen genereert, en de toepassing daarvan afhankelijk is van een toevalsgenerator? Ik fantaseer maar wat, bij gebrek aan informatie (wat de tool naar verluidt ook wel eens doet). ChatGPT blijkt in elk geval niet deterministisch te zijn; je krijgt dus bij elke poging mogelijk een ander antwoord, wat mij niet OK lijkt. Dat betekent immers dat je de pech kan hebben dat een formulering niet optimaal is, of zelfs dat essentiële informatie ontbreekt. Het is niet op het eerste gezicht duidelijk of en hoe je de samenvatting kan beïnvloeden met extra parameters in de instructie.

Ik ga niet elk van de paragrafen van de samenvatting (nu vier i.p.v. vijf) apart bekijken. Er is nu bv. wel sprake van uitstroom van medewerkers, en inzet op Vlaamse producties. Onduidelijkheid over de interne werking van ChatGPT maakt het onmogelijk om verwachtingen bij jezelf te creëren, en daarmee om de kwaliteit te beoordelen. Wie ChatGPT gebruikt om een samenvatting te maken zal bijgevolg, door de onmogelijkheid om de tool te begrijpen (!), neigen om ofwel het resultaat zonder meer te aanvaarden, ofwel de tool niet meer te gebruiken. En allicht gaat het ook zo met andere tools, zoals Quillbot en Resoomer. En aanvaarding zal eerder bepaald worden door de gemakzucht van wie aanvaardt, dan door de kwaliteit van de samenvatting, jammer genoeg.

3 – Bing Chat maakt een samenvatting

Zowel ChatGPT als Bing Chat zijn producten van OpenAI, dat wordt gesponsord door Microsoft. De integratie van Bing Chat in MS Edge is wel handig, zodra je die vervelende automatische nieuwsfeeds in MS Edge weet te temmen. Maar ze geven wel totaal verschillende antwoorden!? Ik doe een test op basis van dezelfde twee pagina's als met ChatGPT hierboven, nl. p.4-5 uit het jaarverslag van de VRT 2022, geopend in de Edge browser (Ctrl-O). Het zou te langdradig zijn om het hele verhaal hier in detail te reproduceren (vind ík zelfs), vandaar de afsplitsing naar een achtergrondartikel Samenvattingen in Bing Chat, waar je de antwoorden van Bing Chat kan nalezen. Hieronder de korte commentaar.

In Bing Chat heb je een knop "Pagina-overzicht" die blijkbaar hetzelfde doet als de opdracht "maak een samenvatting". Er zijn ook knoppen voorzien om een keuze te maken uit drie stijlen van antwoord, nl. creatiever, gebalanceerder (de standaard), en gedetailleerder. Maar soms zijn die knoppen er niet, soms wel; geen idee waarom. Overigens is "gebalanceerder" een vreemde term, die suggereert dat "gebalanceerd" misschien toch niet helemaal "gebalanceerd" is?! Het zoveelste geval van een vlag-en-ladingprobleem, één van die basale fouten die onze wereld om zeep helpen.

Pagina-overzicht van de inleiding, door Bing Chat op 12-10, stijl "Gebalanceerder"

Dit lijkt in niets op de samenvatting van ChatGPT; zie ook hier voor een vergelijking tussen beide. De achterliggende motor is blijkbaar totaal verschillend. ChatGPT is naar verluidt getraind op gegevens tot 2021, terwijl Bing Chat zich in principe d.m.v. Bing baseert op het actuele internet; dat maakt uiteraard een groot verschil. Dit is een andere soort samenvatting, op zich best OK, lijkt mij. Dat hangt echter af van wat je van een samenvatting verwacht, bv. een oppervlakkig idee van de inhoud (wat hier gegeven wordt), of eerder een tekst waarin de belangrijke elementen staan, zoals bij die van ChatGPT.

Pagina-overzicht van de inleiding, door Bing Chat 15-10, stijl "Gebalanceerder"

Enkele dagen later geeft datzelfde pagina-overzicht echter een totaal andere samenvatting. Ook de inleidende zin is anders. De tool ontwaart nu een reeks "hoofdstukken" (die nergens te bekennen zijn): voorwoord, VRT Maximaal, VRT NWS, VRT MAX, VRT Radio, VRT Televisie, VRT Diversiteit, VRT Innovatie, VRT Samenwerking, en VRT Financiën, met telkens een beschrijving van de inhoud van dat zgn. hoofdstuk, telkens ingeleid door "dit hoofdstuk gaat over ..". Vreemd gedrag, dat wel. Bovendien is er aan elke beschrijving wel iets fout, soms matig, soms flagrant; zie Samenvattingen in Bing Chat.

Pagina-overzicht van de inleiding, door Bing Chat op 15-10, stijl "Creatiever"

Een zgn. creatievere samenvatting lijkt weer erg op de eerste versie van 12-10. Ongeveer dezelfde paragrafen, maar iets anders verwoord, en in details verschillend. Blijkbaar zijn ook hier toevallige variaties voorzien, maar maakt de stijl geen enkel verschil.

Pagina-overzicht van de inleiding, door Bing Chat op 15-10 12:58, stijl "Gebalanceerder"

Beetje in de stijl van de hoofdstukken eerder, maar nu er zijn enkel Voorwoord en VRT Maximaal, de beide paginatitels, niet onlogisch.

Pagina-overzicht van de inleiding, door Bing Chat op 15-10 13:02, stijl "Nauwkeuriger"

Weer lijkt de stijl geen enkele invloed te hebben, vermits dit antwoord alles behalve nauwkeuriger is.

Pagina-overzicht van de inleiding, door Bing Chat op 16-10 15:33, stijl "Gebalanceerder"

Opnieuw een antwoord in de stijl van het eerste van 12-10, maar nu 5 paragrafen i.p.v. 4.

Samenvatting van de inleiding, door Bing Chat op 17-10 18:50

Nog eens de opdracht "maak een samenvatting" (de knop voor het pagina-overzicht is verdwenen), op basis van het document dat in de browser geopend is. Weer een versie zoals de allereerste op 12-10, weer met toevallige wijzigingen.

Conclusie

Je krijgt dus elke keer een andere tekst?! Dat betekent ofwel dat de interpretatie van de opdracht (in de meeste gevallen via de knop "Paginaoverzicht genereren", anders via de opdracht "maak een samenvatting") niet stabiel is, ofwel dat de opbouw van het resultaat eerder willekeurig is, met nadelige gevolgen voor de betrouwbaarheid. Op het eerste gezicht is ook de interface niet stabiel, vermits functies nu eens niet, dan weer wel beschikbaar zijn. Mogelijk willen de makers nog wat sleutelen aan de interface, maar zo lang na de start verwacht je dat toch niet meer? Of zou die interface ook door Bing Chat gemaakt worden?? Grapje. Hoop ik…


Andere probeersels

Hieronder: enkele vragen en de antwoorden van Bing Chat.

Wat is het verschil tussen benodigen en vereisen?

In het Nederlands worden de woorden 'benodigen' en 'vereisen' vaak als synoniemen gebruikt, maar er is een subtiel verschil tussen de twee. 'Benodigen' betekent 'nodig hebben', terwijl 'vereisen' betekent 'noodzakelijk zijn of maken'. In andere woorden, 'benodigen' impliceert een verlangen of behoefte, terwijl 'vereisen' een noodzaak of verplichting impliceert.

Mooi omschreven, en ik krijg er geen speld tussen. Zo heel subtiel is dat verschil eigenlijk niet, maar het blijft wel sterk dat ChatGPT het subtiel noemt. Wat ik wel mis is iets over het gebruik van deze termen, nl. het is een persoon die iets benodigt, het is een zaak (taak, project, regelgeving…) die iets vereist. Denk ik. Anderzijds is taal zo kneedbaar dat het niet altijd mogelijk is om sluitende definities te geven, dus ook op dit vlak zal de commentaar van ChatGPT al snel als zaligmakend aangezien worden, toch door degenen die het regelmatig gebruiken. Dat er intussen geen enkele garantie bestaat dat de tool zich baseert op de geijkte bronnen (Taalunie, Académie Française, Rat für deutsche Rechtschreibung e.d.) is problematisch.

Creëer 10 ja-nee vragen op basis van de tekst

Hier zijn 10 ja-nee vragen op basis van de tekst (met mijn controle erbij):

– Heeft VRT in 2022 een digitale groeisprong gemaakt waarbij de mediagebruiker centraal staat? (Ja)
Niet OK. De tekst zegt in §1 "in het ondernemingsplan werd 2022 aangekondigd als het jaar van de digitale groeisprong" en nog wat andere dingen (!). In §2 wordt gezegd dat de publieke omroep "daar" wonderwel in geslaagd is. Het verband tussen de digitale groeisprong en "daar" is niet direct genoeg om de vraag positief te beantwoorden.
– Heeft VRT in 2022 de productie van Thuis overgenomen van een externe partner? (Nee)
OK. Thuis werd uitbesteed; zie §7+14.
Heeft VRT in 2022 meer dan 100 arbeidsplaatsen geschrapt als onderdeel van het Transformatieplan? (Ja)
OK. Het waren er 116; zie §14.
Heeft VRT in 2022 vier onafhankelijke bestuurders verwelkomd in de Raad van Bestuur? (Ja)
OK. Vier onafhankelijke bestuurders deden hun intrede in de Raad van Bestuur; zie §6.
Heeft VRT in 2022 een documentaire reeks gemaakt over het KMSKA? (Nee)
Niet OK. Uit §5: "ook de heropening van het KMSKA werd omroepbreed benaderd, gaande van [..] tot een schitterende documentaire reeks 'Een nacht in het museum op Canvas' en [..]". Dat Bing Chat dit mist is veelzeggend. Let wel: de formulering van de vraag vind ik OK, het antwoord is jammer genoeg fout zonder meer.
Heeft VRT in 2022 een filmversie van de Canvas-reeks Onze natuur uitgebracht in de bioscopen? (Ja)
Niet OK. Uit §13: "in het najaar van 2022 ging in de Vlaamse bioscopen de filmversie van de Canvas-reeks 'Onze natuur' in première [..]". Dat de VRT de film uitbracht in de bioscopen staat niet in de tekst, dus het antwoord op de vraag kan niet 'Ja' zijn; de productie is trouwens van Hotel Hungaria. De film ging in première in september 2022, de Canvas-reeks werd uitgezonden in het voorjaar van 2023. De tekst 'een filmversie van de Canvas-reeks' suggereert dat de reeks bestond vóór de film, en Bing Chat neemt die suggestie begrijpelijkerwijze over; de film van 1u24 is ook veel korter is dan de reeks van 7 delen. Niettemin, op de expliciete vraag naar een afhankelijkheid beweert Bing Chat, mogelijk op basis van de periode van uitgave, dat de Canvas-reeks gebaseerd is op de film. Waarschijnlijker is dat zowel de film als de reeks gebaseerd zijn op hetzelfde bronmateriaal.
Heeft VRT in 2022 meer dan een vierde van de muziektijd op radio besteed aan Vlaamse muziek? (Ja)
OK; zie §13.
Heeft VRT in 2022 een nieuw digitaal platform gelanceerd met de naam VRT MAX? (Nee)
Niet OK. VRT MAX wordt vermeld in §4+12, maar uit de tekst is niet af te leiden dat dit platform niet in 2022 is opgestart.
Heeft VRT in 2022 een actie georganiseerd rond kansarmoede met De Warmste Week als thuisbasis? (Ja)
Niet OK. Uit §5: ".. met de Warmste Week, met thuisbasis Hasselt, volledig in het teken van kansarmoede". Een "actie rond kansarmoede" is correct afgeleid uit de tekst, maar dat "De Warmste Week" als thuisbasis wordt aangezien is zonder meer een uitschuiver.
Heeft VRT in 2022 een podcast gemaakt met de naam Het kwartier? (Ja)
OK. Min of meer. Uit §10: "waarin we ook verder blijven investeren, met nieuwe formats en op nieuwe kanalen, van de dagelijkse podcast Het kwartier tot het grote succes van Karrewiet op TikTok". Strikt genomen staat hier nergens dat 'Het kwartier' ook in 2022 is opgestart, maar de veronderstelling dat de VRT dat wel bedoelde lijkt mij redelijk. Half puntje.

Op het eerste gezicht is dat geweldig goed gedaan; "dat ga ik niet meer nakijken hoor" is de te verwachten algemene reactie. Maar grondig nazicht toont aan dat Bing Chat zelf hier een magere 4.5/10 verdient; gebuisd dus. Oorzaak: begrip is het zwarte gat van AI. Het is te vrezen dat dit probleem met haken en ogen zal aangepakt worden om te sleutelen aan de resultaten, maar nooit volledig betrouwbaar zal worden.

Geef redenen waarom AI uit scholen moet verbannen worden.

Het verrassende antwoord van Bing Chat:

Ik heb een artikel gevonden waarin wordt uitgelegd waarom artificiële intelligentie (AI) juist een positieve invloed kan hebben op het onderwijs. Het artikel stelt dat AI leerkrachten kan helpen bij het uitvoeren van taken, waardoor ze meer tijd kunnen besteden aan leerlingen. Bovendien kan AI leerlingen helpen bij het verbeteren van hun prestaties. Er wordt verwezen naar het artikel dat ik besprak in A.I. in de klas. :-)

Hoewel er zorgen zijn over de impact van AI op het onderwijs, zijn er ook veel voordelen. Zo kan AI bijvoorbeeld adaptieve leersystemen bieden die leerlingen automatisch oefeningen aanbieden op hun niveau. Bing Chat houdt stug vol.

Het is belangrijk om te onthouden dat technologieën zoals AI niet bedoeld zijn om leerkrachten te vervangen, maar om hen te ondersteunen en te helpen bij het verbeteren van de leerervaring van studenten.

Dit is nu echt niet het antwoord dat ik verwachtte. Is Bing Chat vooringenomen betreffende de positieve en negatieve kenmerken van AI? Meer over de nadelen en gevaren in een ander blogartikel.

Een Excel-formule schrijven

Ik neem een voorbeeld uit een boek, en voer het in bij ChatGPT, aanvankelijk in drie delen:

[You are a spreadsheet formula expert.] [I have a sheet with grades in cells B3-B8 respresented as a percentage. I then have a second table with grades and their lookup value in cells E2-I3. Row E2-I2 contains the grade ranges like this: '0-19' and so on, with the respective grade written underneath on row 3.] [Please write a formula i can copy into cells C3-C8 to take the percentage and cross-reference it with the second lookup table to output the correct grade.]

Poging 1 – Ik voer de drie delen van de opdracht één voor één in. Na het tweede deel geeft ChatGPT al een formule =VLOOKUP(B3, E2:I3, 2, TRUE). ChatGPT heeft in feite zelf een opdracht gefingeerd: zoek B3 op in E2:I2 en geef de waarde uit rij 3 terug. Bovendien klopt het antwoord niet; (1) hiermee kan ik bv. een percentage '90' immers niet terugvinden in een kolomhoofding '85-100' in rij 2, en (2) het gaat om horizontaal zoeken, niet vertikaal. Na ingave van het derde deel geeft ChatGPT hetzelfde foutieve antwoord ongewijzigd terug. Bij een onvolledige vraag (gevolg van het opdelen) gaat ChatGPT dus zelf een doel kiezen (allicht uit eerder voorgekomen doelen in gelijkaardige situaties; een LOOKUP functie ligt voor de hand), en daarmee een antwoord geven. De vervollediging van de vraag doet ChatGPT niet meer van werkwijze veranderen. Dit heeft waarschijnlijk te maken met wat OpenAI de context noemt. Deel twee heeft blijkbaar een context gecreëerd, die doorwerkt bij deel drie. Dus: vragen opdelen kan foutieve antwoorden opleveren.

Poging 2 – De drie delen achter elkaar, in één keer. Dit geeft een ander antwoord:
=VLOOKUP(B3, $E$2:$I$3, MATCH(B3, $E$2:$I$2, 1), TRUE). Dollartekens zijn toegevoegd omdat de formule moet kunnen gekopieerd worden naar cel C3-C8 (onderdeel van het derde deel). Nog steeds vertikaal i.p.v. horizontaal zoeken. De zoekwaarde B3 blijft gelijk, de tabel E2:I3 ook. Nu wordt i.p.v. een exacte overeenkomst een match gezocht tussen het gegeven percentage en de percentagebereiken. Dit werkt evenmin, vermits rij 2 bereiken als '85-100' bevat, en geen enkelvoudige getallen.

Poging 3 – Opdracht in het Nederlands. Ander antwoord: =INDEX($E$3:$I$3, MATCH(B3, $E$2:$I$2, 1)). Geen idee waarom dezelfde vraag in een andere taal een ander antwoord oplevert. 't Is te zeggen, Nederlandse functienamen en puntkomma's i.p.v. komma's zou wel handig zijn, maar eerst VLOOKUP, en nu INDEX? De rest blijft gelijk, dus dat gaat ook niet werken. De vraag opnieuw in het Engels stellen geeft weer het antwoord van poging 2; dus veronderstel ik dat dit geen contextprobleem is.

Op die tijd had ik het allemaal zelf uitgezocht… Geen groot succes dus. Nu zijn er wel wat sites die uitleg geven bij het gebruik van ChatGPT voor het creëren van Excel formules, zoals deze of deze, die o.m. zegt dat "hoe geïnformeerd deze AI-chatbots ook zijn, ze nog steeds niet zo goed op de hoogte zijn van nuances als een mens, en fouten kunnen maken of aanwijzingen verkeerd kunnen interpreteren". Waar zijn we dan mee bezig? Ik denk dat er efficiëntere methoden bestaan om Excel-formules te creëren (zoek in je browser)(of vraag "Hoe maak ik een complexe formule in MS Excel?" aan Bing Chat; die uitleg is OK).

Elk gebruik van een tool die een fout zou kunnen maken moet m.i. vermeden worden. En tot nader order hoort ChatGPT daar zeker bij. Ons eigen brein zou ook fouten kunnen maken, maar de correcties daarvan hebben we zelf in de hand (de meesten onder ons toch), en we leren er iets van; op die van een chatbot heb je echter geen greep. En door wie wordt je het liefst bedrogen, door jezelf of door een tech-tool?


Globale conclusie

Indrukwekkend

Wat indrukwekkend is krijgt, dikwijls ten onrechte, meer waarde toegekend. Waarom is dat zo? Hier moet ik opbiechten dat ik de vraag heb voorgelegd aan Bing Chat: waarom krijgen indrukwekkende dingen en personen de meeste aandacht? Zijn antwoord:

Er zijn verschillende redenen waarom indrukwekkende dingen en personen de meeste aandacht krijgen. Een van de redenen is dat mensen vaak op zoek zijn naar inspiratie en motivatie. Indrukwekkende dingen en personen kunnen ons inspireren om ons eigen potentieel te ontdekken en te ontwikkelen. Bovendien kunnen ze ons motiveren om onze eigen doelen na te streven. Niet slecht. Hoewel ik niet zeker ben of indrukwekkende dingen echt meer aandacht krijgen; dat was immers mijn suggestie, die ogenschijnlijk door Bing Chat wordt overgenomen (het praat mij misschien naar de mond, maar ik betwijfel of het die uitdrukking kent).

Een andere reden is dat indrukwekkende dingen en personen vaak een unieke kwaliteit of vaardigheid hebben die ons fascineert. We zijn van nature nieuwsgierig naar dingen die anders zijn dan wat we gewend zijn, en indrukwekkende dingen en personen kunnen ons helpen om onze horizon te verbreden. Dat komt m.i. op hetzelfde neer als de eerste paragraaf. En anders is het verschil wel subtiel…

Ten slotte kan (kunnen) de media (meervoud van medium) ook een rol spelen bij het geven van aandacht aan indrukwekkende dingen en personen. De media heeft (hebben) de neiging om te focussen op verhalen die sensationeel of dramatisch zijn (!!), omdat deze verhalen meer kijkers of lezers trekken (kassa, kassa; zo zit de neoliberale economie nu eenmaal in elkaar!). Dit kan ertoe leiden dat indrukwekkende dingen en personen meer aandacht krijgen dan minder sensationele onderwerpen. Eén van de belangrijke redenen voor de aandacht voor ChatGPT sinds einde 2022. Aan de kwaliteit zal het immers niet liggen.

Bing Chat geeft ook enkele bronnen mee, die gaan over waarom mensen aandacht willen, en hoe dat uit de hand kan lopen, en niet over de invloed van indruk. Een minder subtiel verschil, maar wel interessant. Hier gaat het o.m. over het "algemeen patroon van overdreven aandacht zoeken" (een andere bron is deze; benieuwd of die bronnen bij een herhaalde vraag weer verschijnen). Ik zie meteen een sterke overeenkomst met het "Global AI Moratorium", en de vraag van de techsector om de aandacht (!) van de Amerikaanse senaat voor het vermeende probleem van de bedreiging van de mensheid (zie Wat als AI de mens inhaalt)(of voor de Limburgse vrouwen: wat als AI de mans inhaalt?).

Ondermaatse kwaliteit

Is kwaliteit relatief? Het antwoord van Bing Chat:

Kwaliteit is een relatief begrip dat afhangt van de context, de criteria en de normen die worden gehanteerd. Het is dus niet eenduidig te bepalen of iets van goede kwaliteit is of niet. Er zijn verschillende factoren die een rol spelen bij het bepalen van de kwaliteit van een product of dienst, zoals de functionaliteit, betrouwbaarheid, duurzaamheid, veiligheid en gebruiksvriendelijkheid. Wel een prima bruikbaar antwoord. Hoewel Bing Chat misschien ook hier weer mijn suggestie volgt…

Bing Chat verwijst verder naar een Wikipedia pagina over de Q Factor, die hier niets mee te maken heeft (!), naar een pagina van stackoverflow.com (een site voor softwareontwikkelaars) waar toevallig de term "relative quality" voorkomt (?!), en naar een pagina waar de vraag waarom kwaliteit relatief is wordt beantwoordt met een uitleg waarom kwaliteit relevant is. Wat dan weer de vraag doet rijzen of er wel een verband is tussen het antwoord op de vraag en de verwijzingen naar de bronnen. Over kwaliteit gesproken…

Als ik nu zelf eens mijn hersenen gebruik gaat het misschien rapper en beter. Kwaliteit is relatief omdat het idee van kwaliteit voor elk individu anders is. Kwaliteit evolueert ook, zoals een taal evolueert. Termen die vroeger doodgewoon waren doen nu de wenkbrauwen fronsen, sommige films die vroeger goed waren vinden we nu tweederangs. Een reden, of dé reden, om kwaliteit na te streven is om iets te krijgen van iemand (goedkeuring, een job, een date…), en dan ga je je idee van kwaliteit aanpassen aan de kwaliteit die je denkt dat de andere partij (of jij zelf…) verwacht, net zoals je je taal aanpast.

ChatGPT

En wat is nu het verband met ChatGPT? ChatGPT geeft op het eerste gezicht indrukwekkende antwoorden (en trekt daardoor veel aandacht). Als je die wat nader gaat bekijken stoot je op een ondermaatse kwaliteit; veel antwoorden kloppen niet (zie hoger). Wie meer belang hecht aan efficiëntie dan aan effectiviteit (in een neoliberale economie moeten hoe langer hoe meer mensen werken onder tijdsdruk) zal de tijdswinst bij het gebruik van ChatGPT belangrijker vinden dan het gebrek aan kwaliteit of de twijfels daarover. Het feit dat het extra tijd kost om de kwaliteit na te trekken is voor de meeste gebruikers een extra reden om twijfels te negeren. Velen zullen daarom door ChatGPT en co aangetrokken worden (zoals de muggen door de UV-lamp), en riskeren eraan verslaafd te geraken (knetter, knetter).


Bijwerking 03-11-2023

Over de kwaliteit van ChatGPT wordt wel één en ander gepubliceerd, ook vanuit wetenschappelijke (en naar verwachting dus objectieve) hoek. Ik stootte op een uitgebreid artikel in ScienceDirect: ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope. Ik onderwerp enkele relevante delen van de tekst aan een filerende blik in ChatGPT: een kritische kijk op de gevaren.