Sind falsche Anreize schuld an KI-Halluzinationen?
Große Sprachmodelle wie GPT-5 und Chatbots wie ChatGPT sind beeindruckend, aber sie halluzinieren immer noch. Eine neue Studie von OpenAI untersucht die Ursachen für diese „plausiblen, aber falschen Aussagen“ und schlägt eine Lösung vor, die sich auf die Bewertung von KI-Modellen konzentriert.
Der Ursprung der KI-Halluzinationen
Das Phänomen der KI-Halluzinationen ist allgegenwärtig. Chatbots können scheinbar selbstbewusst falsche Informationen liefern. Die Forscher stellten fest, dass sogar einfache Fragen, wie nach dem Titel einer Dissertation, zu falschen Antworten führten. Dies geschieht, weil die Modelle darauf trainiert werden, das nächste Wort vorherzusagen, ohne zwischen wahr und falsch zu unterscheiden. Der Fokus liegt auf der sprachlichen Flüssigkeit, nicht auf der faktischen Richtigkeit.

„Spelling und Klammern folgen konsistenten Mustern, sodass Fehler mit dem Maßstab verschwinden“, schreiben die Forscher. „Aber willkürliche, seltene Fakten, wie der Geburtstag eines Haustieres, können nicht allein aus Mustern vorhergesagt werden und führen daher zu Halluzinationen.“
Bewertungssysteme und falsche Anreize
Die Studie argumentiert, dass die aktuellen Bewertungssysteme für KI-Modelle falsche Anreize setzen. Diese Systeme belohnen Genauigkeit und ermutigen zum Raten, anstatt Unsicherheit zuzugeben. Vergleichen Sie dies mit Multiple-Choice-Tests: Raten kann Glück bringen, während das Weglassen der Antwort sicher zu einem Fehler führt.
Ähnlich verhält es sich bei KI-Modellen, die nur nach Genauigkeit bewertet werden. Sie werden dazu ermutigt, zu raten, anstatt „Ich weiß es nicht“ zu sagen.
Eine Lösung: Bewertungssysteme neu denken
Die Forscher schlagen vor, die Bewertungssysteme zu überarbeiten. Genau wie Tests, die negative Punktzahlen für falsche Antworten oder Teilpunkte für das Freilassen von Fragen vergeben, sollten KI-Modelle für selbstbewusste Fehler stärker bestraft und für angemessene Unsicherheitsäußerungen belohnt werden.
Es genügt nicht, nur ein paar neue Tests zur Unsicherheitsbewertung einzuführen. Stattdessen müssen die weit verbreiteten, auf Genauigkeit basierenden Bewertungen aktualisiert werden, damit ihre Wertung das Raten nicht fördert.
„Wenn die Hauptwertungen weiterhin glückliche Vermutungen belohnen, werden die Modelle weiterhin lernen, zu raten“, so die Forscher.
Fazit
Die Untersuchung von OpenAI beleuchtet ein grundlegendes Problem der modernen KI: die Tendenz zu Halluzinationen. Der Schlüssel zur Verbesserung liegt nicht nur im Training, sondern auch in der Art und Weise, wie wir KI-Modelle bewerten. Indem wir Anreize neu definieren und Unsicherheit anerkennen, können wir den Weg für zuverlässigere und wahrheitsgetreuere KI-Systeme ebnen. Mehr Informationen zu diesem Thema finden Sie in der vollständigen Studie auf [Link zur Studie, falls verfügbar].