Onderzoek wijst uit dat zelfs de beste AI-chatbots hallucineren

Onderzoekers van de Cornell University, University of Washington, University of Waterloo en het Allen Institute for Artificial Intelligence hebben een benchmark ontwikkeld om vast te stellen in hoeverre AI-chatbots zelfverzekerde reacties geven die niet gebaseerd zijn op trainingsgegevens. Dit wordt ook wel hallucineren genoemd.

vpngids.nl 21 August 2024

Nieuws-persbericht

Met de benchmark hebben de onderzoekers 15 verschillen taalmodellen (large language models of LLM’s) aan de tand gevoeld, waaronder ChatGPT, Llama en Command R. Zelfs de beste modellen produceerden slechts in 35% van de gevallen teksten zonder hallucinaties. Dit bewijst dat de output van LLM’s niet erg betrouwbaar is.

Invloed van Wikipedia en onderwerp

Bij onderwerpen waarover geen Wikipedia-pagina bestond was de kans op hallucineren groter. Dat komt doordat heel veel modellen getraind zijn met data van deze site. De onderzoekers hadden bewust gekozen om ervoor te zorgen dat 50% van hun vragen niet met Wikipedia beantwoord kon worden. De resultaten wijken daardoor af van claims van AI-bedrijven.

Ook het onderwerp had invloed: de modellen gaven meer correcte antwoorden bij onderwerpen als geografie en computerwetenschappen. Vragen over beroemdheden en financiën bleken juist lastig voor de LLM’s. Geen enkel model deed het goed bij alle onderwerpen.

Claude 3 Haiku bleek de meeste antwoorden te geven die op feiten berusten, maar dat kwam vooral doordat dit model in 28% van de gevallen aangaf het antwoord niet te weten. Als deze factor buiten beschouwing wordt gelaten, blijken juist de modellen van OpenAI het betrouwbaarst.

Gevaar van hallucinaties

De antwoorden van AI-chatbots kunnen heel overtuigend klinken, maar zijn niet altijd nauwkeurig. Chatbots kunnen zelf zaken verzinnen of zich baseren op verkeerde informatie. Zeker nu AI-chatbots een steeds grotere rol in de samenleving gaan spelen, is het belangrijk om te realiseren hoe onbetrouwbaar de antwoorden van de tools kunnen zijn.

Hallucinaties van AI kunnen gevaarlijk worden als mensen de antwoorden van chatbots voor waar aannemen. “Er moet beleid en regelgeving worden ontwikkeld om ervoor te zorgen dat er altijd menselijke experts betrokken zijn bij het proces om de informatie die door generatieve AI-modellen wordt gegenereerd te verifiëren en valideren”, zegt hoofdonderzoeker Wenting Zhao.

Reacties

MEER REACTIES

Laat een reactie achter Reactie annuleren

U moet ingelogd zijn om een reactie te plaatsen.

NIEUWS

De onverwachte kwetsbaarheid van de cloud

Blog

AI hard op weg om grootste energieverbruiker te worden

Nieuws-persbericht

General-Purpose AI Code of Practice: Europa's nieuwe regels voor AI-modellen

Blog

Betere besluitvorming met AI: AP publiceert praktische handvatten voor menselijke tussenkomst

Nieuws-persbericht

De Autoriteit Persoonsgegevens (AP) heeft handvatten ontwikkeld voor betekenisvolle menselijke tussenkomst bij algoritmische besluitvorming. Hiervoor heeft de AP onlangs bedrijven,...

Verantwoord en innovatief: AI voor een rechtvaardige Rechtspraak

Nieuws/persbericht

Rechtspraak.nl