ChatGPT uvjerava kao briljantni logičar – i to je problem

Eulerpool News 7. srp 2024. 17:19

Mogu li veliki jezični modeli riješiti logičke zagonetke? Kako bi to saznali, Fernando Perez-Cruz i Hyun Song Shin pitali su GPT-4. Shin, voditelj istraživanja u Banci za međunarodna poravnanja, uključio je zagonetku "Cherylin rođendan", gdje Albert i Bernard trebaju pogoditi kada Cheryl slavi rođendan. Cheryl im daje tragove i nakon nekog razmišljanja oboje uspijevaju otkriti datum. No taj nije bio pravi test. Istraživači su promijenili imena i mjesece u zagonetki, a GPT-4 nije uspio točno riješiti modificiranu verziju, iako je originalnu zagonetku briljantno objasnio.

Ovo pokazuje da, iako GPT-4 zvuči logično i uvjerljivo, često samo ponavlja poznate odgovore, bez stvarnog razumijevanja logike. Ovaj privid briljantnosti nosi rizike kada je riječ o važnim odlukama.

Ein weiteres Beispiel ist das Monty-Hall-Problem, bei dem ein Kandidat zwischen drei Türen wählen muss, hinter einer verbirgt sich ein Preis. Der Quizmaster öffnet eine Tür ohne Preis und bietet dem Kandidaten an, die Wahl zu ändern. Die richtige Strategie ist, die Tür zu wechseln, aber als Perez-Cruz das Rätsel mit zusätzlichen Komplikationen stellte, machte GPT-4 erneut Fehler, obwohl es die Grundlagen korrekt erklärte.

Još jedan primjer je Monty-Hall problem, u kojem kandidat mora birati između troje vrata, iza jednih se krije nagrada. Voditelj otvara jedna vrata bez nagrade i nudi kandidatu promjenu izbora. Ispravna strategija je promijeniti vrata, ali kada je Perez-Cruz postavio zagonetku s dodatnim komplikacijama, GPT-4 je ponovno napravio greške, iako je pravilno objasnio osnove.

Ovi primjeri ukazuju na temeljni problem: Veliki jezični modeli poput GPT-4 izvanredno su vješti u generiranju uvjerljivih, ali netočnih odgovora. Oni mogu djelovati uvjerljivo čak i kada griješe, što njihovu uporabu čini rizičnom. Kako ističu Perez-Cruz i Shin, neispravan jezični model može imati fatalne posljedice ako se koristi u važnim procesima donošenja odluka.

Jezični model koji se čini točnim, ali je zapravo pogrešan, je opasno oružje. To je kao oslanjanje na proračunsku tablicu koja povremeno zaboravlja kako radi množenje. Ova saznanja trebaju poslužiti kao upozorenje da se jezični modeli koriste s oprezom i da se njihovi odgovori uvijek kritički preispitaju.

ChatGPT uvjerava kao briljantni logičar – i to je problem

Učini najbolje investicije svog života
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Novosti

Meta obustavlja uvođenje multimodalnih AI modela u Europi

Ryanair upozorava na pad profita – potrošači nisu spremni za visoke cijene karata

Hammerson prodaje udio u Bicester Villageu tvrtki L Catterton za 600 milijuna funti

Neizvjesnost oko GCAP programa: Starmer hvali napredak, ali ostaje nejasan

Vodafone prodaje dodatnih 10 posto udjela u Vantage Towers za 1,3 milijarde eura

Učini najbolje investicije svog života fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news