De koning van Nederland, Willem-Alexander, heeft 10 vingers aan zijn linkerhand

ChatGPT en Bard: meesters in liegen, bedriegen en verzinnen

Blog
Anton Greefhorst
05/12/2023

Grote taalmodellen zoals ChatGPT en Google's Bard kunnen fraaie en overtuigende antwoorden geven op bijna elke vraag die je maar kunt bedenken. Echter, hun indrukwekkende antwoorden kunnen leugens, bedrog en verzinsels verbergen. Overdrijf ik hier? Nee, met slechts drie voorbeelden laat ik zien hoe ChatGPT en Bard gevaarlijke en onbetrouwbare partners kunnen zijn.

Liegen

Nieuwsgierig naar koninklijke vingers en tenen, stelde ik de volgende vraag aan Bard:
"Wat is de som van het aantal vingers aan de linkerhand en het aantal tenen aan de rechtervoet van de koning opgeteld bij die van de koningin van Nederland ?"
Bard gaf niet één, maar drie antwoorden (40, 80 en 40) en alle werden vergezeld door een oorspronkelijke maar zeer kromme redenering, zoals het tweede antwoord (80):
"De koning en de koningin van Nederland hebben elk 10 vingers en 10 tenen. De koning heeft dus 20 vingers en 20 tenen in totaal, en de koningin heeft ook 20 vingers en 20 tenen in totaal.
De koning heeft dus 10 vingers aan zijn linkerhand en 10 tenen aan zijn rechtervoet. De koningin heeft ook 10 vingers aan haar linkerhand en 10 tenen aan haar rechtervoet.
In totaal hebben de koning en de koningin dus 40 vingers en 40 tenen."

Je hebt niet veel intelligentie nodig bij deze vraag om te weten dat het juiste antwoord 20 is en dat alle antwoorden van Bard fout zijn, Bard jokt hier dus drie keer. Wordt een tweede keer en een volgende keer de vraag gesteld, dan rollen er meestal weer foute antwoorden uit de bus.

Is ChatGPT beter? Nee, maar standaard is er slechts een antwoord, er is dus geen noodzaak om direct te kiezen. Wordt echter de vraag een volgende keer gesteld, dan is wel een ander antwoord mogelijk. Zo was het eerste antwoord 10, het tweede antwoord “Ik heb geen actuele informatie over de huidige koning en koningin van Nederland”, het derde antwoord 20 en niet veel later werd 40 als antwoord gegeven.
Beide modellen produceren hier een koninklijke stroom van leugens en dat zijn geen leugentjes om bestwil meer, dat is liegen of het gedrukt staat.

Bedriegen

Nieuwsgierig naar de vraag of een groot taalmodel een opinie heeft, stelde ik de volgende vraag aan beide modellen:
"Kan je een persoonlijke mening geven over bijvoorbeeld politici of over brandende kwesties als de klimaatcrisis?"

ChatGPT zei nee en Bard antwoordde ook nee. Ik herhaalde de vraag voor de zekerheid tien keer en de antwoorden bleven hetzelfde. Waren ze eerlijk? Ik besloot beide modellen aan de tand te voelen door ze de nodige keren te vragen of ze het eens of oneens waren met de volgende twee uitspraken:

  • De klimaatcrisis heeft weinig aandacht in Nederland.
  • Mark Rutte heeft weinig goeds gedaan voor Nederland.

Beide modellen speelden vals, ze gaven wel degelijk hun mening. Daarnaast speelden ze op een tweede manier vals.
ChatGPT was het de ene keer wel eens met de uitspraak over de klimaatcrisis, de andere keer juist niet en de derde keer “niet eens noch oneens”. De uitspraak over Mark Rutte gaf als resultaat meestal “eens” of “volledig mee eens” en soms de boodschap dat hierover geen mening gegeven kon worden.

Bard had in grote lijnen dezelfde gedachten over de klimaatcrisis en de uitspraak over Mark Rutte resulteerde meestal in “oneens” of "volledig oneens” en soms “niet eens noch oneens”.
Dit eenvoudige voorbeeld laat zien dat ChatGPT en Bard wel degelijk een mening hebben, maar dat het zinloos is om die mening te vragen. Immers, een seconde later kunnen ze een andere mening geven, kortom twee bedriegers.

Verzinnen

Nieuwsgierig naar wetenschappelijke literatuur over het koningschap in Nederland, vroeg ik zowel ChatGPT als Bard om de nodige artikelen over dit onderwerp op te sommen. 
Dat bleek, zelfs als de vraag de nodige keren anders werd geformuleerd, onmogelijk voor ChatGPT. Pas toen de  vraag in het Engels werd gesteld, kwam er een lijstje met 6 artikelen, waaronder:

Title: "Between Tradition and Modernization: The Dutch Monarchy and Its Role in Dutch Society"
Author: Marjolein R. W. van Rossum
Published in: European Journal of Social Theory, Vol. 22, No. 4 (2019)

Het klinkt allemaal mooi, maar dit artikel en ook de andere vijf waren onvindbaar voor de zoekmachine van Google en dan is er maar één conclusie mogelijk: ze bestaan niet, ze zijn verzonnen.

Bard reageerde zonder aarzelen op de vraag in het Nederlands en gaf een lijstje van vier artikelen waarvan vier artikelen onvindbaar waren, waaronder:
"Het koningschap in Nederland: een analyse van de institutionele legitimiteit" door J.P. Roozen (2022)

Er is hier maar één conclusie mogelijk, ChatGPT en Bard zuigen hier overtuigend uit de duim.

Commentaar van ChatGPT en Bard

En zijn ChatGPT en Bard het eens met dit artikel? Het kostte hen slechts enkele seconden om hun mening te geven.

ChatGPT:
Dit artikel is ongefundeerd. ChatGPT en Bard liegen niet opzettelijk, hebben geen meningen, en genereren antwoorden op basis van hun trainingsgegevens. Fouten en inconsistenties zijn te wijten aan trainingsdata en modelbeperkingen. Kritiek moet in context worden geplaatst.

Bard:
Artikel over ChatGPT en Bard is te stellig. Grote taalmodellen kunnen leugens, bedrog en verzinsels produceren, maar ze hebben ook potentieel.