ChatGPT prepriča kot briljanten logik – in to je problem

Eulerpool News 7. jul. 2024, 17:19

Ali lahko veliki jezikovni modeli rešujejo logične uganke? Da bi to ugotovila, sta Fernando Perez-Cruz in Hyun Song Shin vprašala GPT-4. Shin, vodja raziskav pri Banki za mednarodne poravnave, je uporabil uganko „Cherylin rojstni dan“, v kateri naj bi Albert in Bernard ugotovila, kdaj ima Cheryl rojstni dan. Cheryl jima namigne in po nekaj razmislekih lahko oba ugotovita datum. Toda to ni bil pravi test. Raziskovalci so spremenili imena in mesece uganke, GPT-4 pa ni uspelo pravilno rešiti spremenjene različice, čeprav je prvotno uganko mojstrsko razložil.

Das zeigt, dass GPT-4 zwar logisch und überzeugend klingt, aber tatsächlich oft nur bekannte Antworten wiedergibt, ohne die Logik wirklich zu verstehen. Dieser Schein von Brillanz birgt Risiken, wenn es um wichtige Entscheidungen geht.

To kaže, da GPT-4 sicer zveni logično in prepričljivo, vendar dejansko pogosto zgolj ponavlja znane odgovore, ne da bi resnično razumel logiko. Ta vtis briljantnosti prinaša tveganja, ko gre za pomembne odločitve.

Še en primer je Monty-Hallov problem, v katerem mora kandidat izbrati med tremi vrati, za katerimi je ena nagrada. Voditelj kviza odpre vrata brez nagrade in ponudi kandidatu možnost zamenjave izbire. Pravilna strategija je zamenjava vrat, vendar je GPT-4 ponovno naredil napake, čeprav je pravilno pojasnil osnove, ko je Perez-Cruz postavil uganko z dodatnimi zapleti.

Ta primeri ponazarjajo osnovno težavo: Veliki jezikovni modeli, kot je GPT-4, so izjemno dobri v ustvarjanju verjetnih, a napačnih odgovorov. Lahko delujejo prepričljivo, tudi kadar se motijo, kar njihovo uporabo naredi tvegan. Kot poudarjata Perez-Cruz in Shin, bi lahko imel napačen jezikovni model usodne posledice, če bi ga uporabili v pomembnih odločitvenih procesih.

Jezikovni model, ki se zdi pravilen, a je v resnici napačen, je nevarno orodje. Je kot zanašanje na preglednico, ki občasno pozabi, kako deluje množenje. Ti uvidi naj služijo kot opozorilo, da je treba jezikovne modele uporabljati previdno in njihove odgovore vedno kritično preverjati.

ChatGPT prepriča kot briljanten logik – in to je problem

Naredi najboljše naložbe svojega življenja
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Novice

Meta ustavi uvedbo multimodalnih modelov umetne inteligence v Evropi

Ryanair opozarja na upad dobička – potrošniki niso pripravljeni na visoke cene vozovnic

Hammerson proda delež v Bicester Village družbi L Catterton za 600 milijonov funtov

Ne gotovost glede programa GCAP: Starmer hvali napredek, vendar ostaja nejasen

Vodafone proda nadaljnjih 10 odstotkov Vantage Towers za 1,3 milijarde evrov