Neue Methode zur Erkennung von KI-Halluzinationen vorgestellt

Heutige generative KI-Tools wie ChatGPT haben ein Problem: Sie geben oft falsche Informationen selbstbewusst aus.

25.6.2024, 15:15
Eulerpool News 25. Juni 2024, 15:15

Eine anhaltende Herausforderung bei heutigen generativen Künstlichen Intelligenzen (KI) wie ChatGPT besteht darin, dass sie häufig falsche Informationen selbstbewusst behaupten. Dieses Verhalten, das von Computerwissenschaftlern als „Halluzination“ bezeichnet wird, stellt ein wesentliches Hindernis für die Nützlichkeit von KI dar.

Halluzinationen haben bereits zu einigen peinlichen öffentlichen Zwischenfällen geführt. Im Februar wurde Air Canada von einem Tribunal dazu verpflichtet, einen Rabatt anzuerkennen, den sein Kundenservice-Chatbot irrtümlich einem Passagier angeboten hatte.

Im Mai musste Google Änderungen an seiner neuen Suchfunktion „AI Overviews“ vornehmen, nachdem der Bot einigen Nutzern mitgeteilt hatte, es sei sicher, Steine zu essen.

Und im Juni vergangenen Jahres wurden zwei Anwälte von einem US-Richter zu einer Geldstrafe von 5.000 Dollar verurteilt, nachdem einer von ihnen zugegeben hatte, ChatGPT zur Unterstützung bei der Erstellung einer Klageschrift verwendet zu haben. Der Chatbot hatte gefälschte Zitate in die Einreichung eingefügt, die auf nie existierende Fälle verwiesen.

Eine gute Nachricht für Anwälte, Suchmaschinenriesen und Fluggesellschaften: Zumindest einige Arten von KI-Halluzinationen könnten bald der Vergangenheit angehören. Neue Forschungsergebnisse, die am Mittwoch in der wissenschaftlichen Fachzeitschrift Nature veröffentlicht wurden, beschreiben eine neue Methode zur Erkennung von KI-Halluzinationen.

Die Methode ist in der Lage, zwischen korrekten und falschen KI-generierten Antworten in etwa 79 Prozent der Fälle zu unterscheiden – etwa zehn Prozentpunkte höher als andere führende Methoden. Obwohl die Methode nur eine der Ursachen von KI-Halluzinationen adressiert und etwa zehnmal mehr Rechenleistung als eine Standard-Chatbot-Konversation erfordert, könnten die Ergebnisse den Weg für zuverlässigere KI-Systeme ebnen.

„Mein Ziel ist es, Wege zu eröffnen, wie große Sprachmodelle dort eingesetzt werden können, wo sie derzeit nicht eingesetzt werden können – wo etwas mehr Zuverlässigkeit als derzeit verfügbar erforderlich ist“, sagt Sebastian Farquhar, einer der Autoren der Studie und Senior Research Fellow an der Abteilung für Informatik der Universität Oxford, wo die Forschung durchgeführt wurde.

Farquhar ist auch Forscher im Sicherheitsteam von Google DeepMind. Über den Anwalt, der wegen einer ChatGPT-Halluzination bestraft wurde, sagt Farquhar: „Dies hätte ihm geholfen.“

Der Begriff „Halluzination“ hat in der Welt der KI an Bedeutung gewonnen, ist jedoch auch umstritten. Er impliziert, dass Modelle eine Art subjektive Welterfahrung haben, was die meisten Informatiker verneinen. Außerdem suggeriert er, dass Halluzinationen eine lösbare Eigenart und kein grundlegendes Problem von großen Sprachmodellen sind. Farquhars Team konzentrierte sich auf eine spezifische Kategorie von Halluzinationen, die sie „Konfabulationen“ nennen.

Dies tritt auf, wenn ein KI-Modell inkonsistente falsche Antworten auf eine Tatsachenfrage gibt, im Gegensatz zu konsistent falschen Antworten, die eher auf Probleme mit den Trainingsdaten des Modells oder strukturelle Fehler in der Logik des Modells zurückzuführen sind.

Die Methode zur Erkennung von Konfabulationen ist relativ einfach. Zuerst wird der Chatbot gebeten, mehrere Antworten auf die gleiche Eingabe zu geben. Dann verwenden die Forscher ein anderes Sprachmodell, um diese Antworten nach ihrer Bedeutung zu gruppieren.

Die Forscher berechnen dann eine Kennzahl, die sie „semantische Entropie“ nennen – ein Maß dafür, wie ähnlich oder unterschiedlich die Bedeutungen der Antworten sind. Eine hohe semantische Entropie deutet darauf hin, dass das Modell konfabuliere.

Die Methode zur Erkennung semantischer Entropie übertraf andere Ansätze zur Erkennung von KI-Halluzinationen. Farquhar hat einige Ideen, wie semantische Entropie helfen könnte, Halluzinationen in führenden Chatbots zu reduzieren.

Er glaubt, dass dies es theoretisch ermöglichen könnte, OpenAI eine Schaltfläche hinzuzufügen, mit der Benutzer die Gewissheit einer Antwort bewerten können. Die Methode könnte auch in andere Tools integriert werden, die KI in hochsensiblen Umgebungen verwenden, wo Genauigkeit entscheidend ist.

Während Farquhar optimistisch ist, warnen einige Experten davor, die unmittelbare Wirkung zu überschätzen. Arvind Narayanan, Professor für Informatik an der Princeton University, betont die Herausforderungen bei der Integration dieser Forschung in reale Anwendungen.

Er weist darauf hin, dass Halluzinationen ein grundlegendes Problem der Funktionsweise großer Sprachmodelle darstellen und dass es in naher Zukunft unwahrscheinlich sei, dass dieses Problem vollständig gelöst wird.

Die besten Investoren analysieren mit Eulerpool
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Für 2 € sichern

Favoriten unserer Leser