ChatGPT veenab kui briljantne loogik – ja see on probleem

Eulerpool News 7. juuli 2024, 17:19

Kas suured keelemudelid suudavad lahendada loogikamõistatusi? Selleks, et seda välja selgitada, küsisid Fernando Perez-Cruz ja Hyun Song Shin GPT-4-lt. Shin, Rahvusvaheliste Arvelduste Panga teadusuuringute juht, tõi mängu mõistatuse „Cheryl’s Birthday“, kus Albert ja Bernard peavad ära arvama Cheryl’i sünnipäeva. Cheryl annab neile vihjeid ning pärast mõningast kaalumist suudavad mõlemad kuupäeva välja selgitada. Kuid see polnud tõeline test. Teadlased muutsid mõistatuse nimesid ja kuid, ja GPT-4 ei suutnud modifitseeritud versiooni õigesti lahendada, kuigi selgitas originaalset mõistatust meisterlikult.

Dies zeigt, dass GPT-4 zwar logisch und überzeugend klingt, aber tatsächlich oft nur bekannte Antworten wiedergibt, ohne die Logik wirklich zu verstehen. Dieser Schein von Brillanz birgt Risiken, wenn es um wichtige Entscheidungen geht.

See näitab, et GPT-4 kõlab küll loogiliselt ja veenvalt, kuid tegelikkuses esitab see sageli vaid tuntud vastuseid ilma loogikat tegelikult mõistmata. See näiline sära kätkeb endas riske, kui on tegemist oluliste otsustega.

Ein weiteres Beispiel ist das Monty-Hall-Problem, bei dem ein Kandidat zwischen drei Türen wählen muss, hinter einer verbirgt sich ein Preis. Der Quizmaster öffnet eine Tür ohne Preis und bietet dem Kandidaten an, die Wahl zu ändern. Die richtige Strategie ist, die Tür zu wechseln, aber als Perez-Cruz das Rätsel mit zusätzlichen Komplikationen stellte, machte GPT-4 erneut Fehler, obwohl es die Grundlagen korrekt erklärte.

---

Veel üks näide on Monty-Halli probleem, kus kandidaat peab valima kolme ukse vahel, millest ühe taga on auhind. Viktoriinimeister avab ühe uste ilma auhinnata ja pakub kandidaadile võimalust valikut muuta. Õige strateegia on ust vahetada, kuid kui Perez-Cruz lisakompikatsioone esitas, tegi GPT-4 taas vigu, kuigi see selgitas põhialuseid õigesti.

Need märgid toovad esile põhiprobleemi: suured keelemudelid nagu GPT-4 on hämmastavalt head usutavate, kuid valede vastuste genereerimisel. Nad võivad veenvalt mõjuda, isegi kui nad eksivad, mis muudab nende kasutamise riskantseks. Nagu Perez-Cruz ja Shin rõhutavad, võib vigane keelemudel olulistes otsustusprotsessides kasutades saatuslike tagajärgedega olla.

Keelemudel, mis näib olevat täiesti õige, kuid tegelikult on täiesti vale, on ohtlik relv. See on nagu tugineda tabelarvutusele, mis aeg-ajalt unustab, kuidas korrutamine toimib. Need teadmised peaksid olema hoiatuseks, et keelemudeleid tuleb kasutada ettevaatlikult ja nende vastuseid alati kriitiliselt kontrollida.

ChatGPT veenab kui briljantne loogik – ja see on probleem

Tee oma elu parimad investeeringud
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Uudised

Meta peatab multimodaalsete tehisintellekti mudelite kasutuselevõtu Euroopas

Ryanair hoiatab kasumi vähenemise eest – tarbijad pole valmis kõrgeteks piletihindadeks

Hammerson müüb Bicester Village'i osaluse L Cattertonile 600 miljoni naela eest

Ebakindlus GCAP-programmi ümber: Starmer kiidab edusamme, kuid jääb ebamääraseks

Vodafone müüb veel 10 protsenti Vantage Towersi 1,3 miljardi euro eest

Tee oma elu parimad investeeringud fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news