Nowa metoda wykrywania halucynacji sztucznej inteligencji przedstawiona

Heutige generative KI-Tools wie ChatGPT mają problem: Często pewnie przekazują błędne informacje.

25.06.2024, 15:15
Eulerpool News 25 cze 2024, 15:15

Oto przetłumaczony nagłówek na język polski:
Trwałe wyzwanie współczesnych generatywnych sztucznych inteligencji (SI), takich jak ChatGPT, polega na tym, że często z przekonaniem podają fałszywe informacje. To zachowanie, określane przez informatyków jako „halucynacje”, stanowi istotną przeszkodę dla użyteczności SI.

Halucynacje już doprowadziły do kilku żenujących publicznych incydentów. W lutym Air Canada została zobowiązana przez trybunał do uznania rabatu, który jej chatbot obsługi klienta omyłkowo zaoferował pasażerowi.

W maju Google musiało wprowadzić zmiany w swojej nowej funkcji wyszukiwania „AI Overviews” po tym, jak bot poinformował niektórych użytkowników, że jedzenie kamieni jest bezpieczne.

W czerwcu ubiegłego roku dwaj prawnicy zostali skazani przez amerykańskiego sędziego na grzywnę w wysokości 5 000 dolarów, po tym jak jeden z nich przyznał się do użycia ChatGPT przy sporządzaniu pozwu. Chatbot wprowadził do dokumentu fałszywe cytaty odnoszące się do nigdy nieistniejących spraw.

Dobra wiadomość dla prawników, gigantów wyszukiwarek i linii lotniczych: Przynajmniej niektóre rodzaje halucynacji KI mogą wkrótce odejść w przeszłość. Nowe badania, opublikowane w środę w czasopiśmie naukowym Nature, opisują nową metodę wykrywania halucynacji KI.

Metoda jest w stanie rozróżniać między poprawnymi a błędnymi odpowiedziami generowanymi przez SI w około 79 procentach przypadków – o około dziesięć punktów procentowych więcej niż inne wiodące metody. Chociaż metoda ta zajmuje się tylko jednym z powodów halucynacji SI i wymaga około dziesięć razy więcej mocy obliczeniowej niż standardowa rozmowa z chatbotem, wyniki mogą utorować drogę dla bardziej niezawodnych systemów SI.

„Moim celem jest otwarcie dróg do wykorzystania dużych modeli językowych tam, gdzie obecnie nie są wykorzystywane – tam, gdzie wymagana jest większa niezawodność niż obecnie dostępna,” mówi Sebastian Farquhar, jeden z autorów badania i starszy pracownik naukowy w Wydziale Informatyki Uniwersytetu Oksfordzkiego, gdzie przeprowadzono badania.

Farquhar jest także badaczem w zespole ds. bezpieczeństwa w Google DeepMind. O prawniku, który został ukarany z powodu halucynacji ChatGPT, Farquhar mówi: „To by mu pomogło.”

Pojęcie „halucynacji” zyskało na znaczeniu w świecie SI, ale jest także kontrowersyjne. Sugeruje ono, że modele mają pewien rodzaj subiektywnego doświadczenia świata, co większość informatyków neguje. Ponadto sugeruje ono, że halucynacje są rozwiązywalnym dziwactwem, a nie fundamentalnym problemem dużych modeli językowych. Zespół Farquhara skupił się na specyficznej kategorii halucynacji, którą nazywają „konfabulacjami”.

Dies tritt auf, wenn ein KI-Modell inkonsistente falsche Antworten auf eine Tatsachenfrage gibt, im Gegensatz zu konsistent falschen Antworten, die eher auf Probleme mit den Trainingsdaten des Modells oder strukturelle Fehler in der Logik des Modells zurückzuführen sind.

Występuje to wtedy, gdy model AI udziela niespójnych błędnych odpowiedzi na pytanie o fakty, w przeciwieństwie do spójnych błędnych odpowiedzi, które są raczej wynikiem problemów z danymi treningowymi modelu lub strukturalnych błędów w logice modelu.

Metoda do rozpoznawania konfabulacji jest stosunkowo prosta. Najpierw chatbot zostaje poproszony o udzielenie kilku odpowiedzi na to samo pytanie. Następnie badacze używają innego modelu językowego, aby pogrupować te odpowiedzi według ich znaczenia.

Badacze obliczają następnie wskaźnik, który nazywają „entropią semantyczną” – miarę tego, jak podobne lub różne są znaczenia odpowiedzi. Wysoka entropia semantyczna sugeruje, że model konfabulować.

Metoda wykrywania entropii semantycznej przewyższyła inne podejścia do wykrywania halucynacji AI. Farquhar ma kilka pomysłów, jak entropia semantyczna mogłaby pomóc w redukcji halucynacji w wiodących chatbotach.

On uważa, że ​​teoretycznie mogłoby to umożliwić dodanie przycisku do OpenAI, za pomocą którego użytkownicy mogliby oceniać pewność odpowiedzi. Metoda mogłaby również zostać zintegrowana z innymi narzędziami używającymi AI w wysoce wrażliwych środowiskach, gdzie precyzja jest kluczowa.

Während Farquhar optimistisch ist, warnen einige Experten davor, die unmittelbare Wirkung zu überschätzen. Arvind Narayanan, Professor für Informatik an der Princeton University, betont die Herausforderungen bei der Integration dieser Forschung in reale Anwendungen.

Polish translation:
Podczas gdy Farquhar jest optymistą, niektórzy eksperci ostrzegają przed przecenianiem natychmiastowego wpływu. Arvind Narayanan, profesor informatyki na Uniwersytecie Princeton, podkreśla wyzwania związane z integracją tych badań w rzeczywistych zastosowaniach.

Wskazuje, że halucynacje stanowią podstawowy problem działania dużych modeli językowych i że w najbliższej przyszłości jest mało prawdopodobne, aby ten problem został w pełni rozwiązany.

Rozpoznaj niedowartościowane akcje jednym spojrzeniem.
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Subskrypcja za 2 € / miesiąc

Wiadomości