ChatGPT convince come brillante logico – e questo è un problema

Eulerpool News 7 lug 2024, 17:19

Possono i grandi modelli linguistici risolvere enigmi logici? Per scoprirlo, Fernando Perez-Cruz e Hyun Song Shin hanno chiesto a GPT-4. Shin, responsabile della ricerca presso la Banca dei Regolamenti Internazionali, ha introdotto l'enigma "Il compleanno di Cheryl", in cui Albert e Bernard devono indovinare quando è il compleanno di Cheryl. Cheryl dà loro degli indizi e, dopo alcune riflessioni, entrambi riescono a trovare la data. Ma questo non era il vero test. I ricercatori hanno cambiato i nomi e i mesi dell'enigma, e GPT-4 ha fallito nel risolvere correttamente la versione modificata, nonostante avesse spiegato magistralmente l'enigma originale.

Questo mostra che, sebbene GPT-4 possa sembrare logico e convincente, spesso fornisce semplicemente risposte conosciute senza comprendere veramente la logica. Questa parvenza di brillantezza comporta dei rischi quando si tratta di decisioni importanti.

Un altro esempio è il problema di Monty Hall, in cui un concorrente deve scegliere tra tre porte, dietro una delle quali si nasconde un premio. Il presentatore apre una porta senza premio e offre al concorrente la possibilità di cambiare scelta. La strategia giusta è cambiare porta, ma quando Perez-Cruz pose il rompicapo con complicazioni aggiuntive, GPT-4 fece di nuovo errori, nonostante spiegasse correttamente le basi.

Questi esempi evidenziano un problema fondamentale: modelli linguistici di grandi dimensioni come il GPT-4 sono sorprendentemente bravi a generare risposte plausibili ma errate. Possono sembrare convincenti, anche se sono sbagliati, il che rende rischioso il loro utilizzo. Come sottolineato da Perez-Cruz e Shin, un modello linguistico difettoso potrebbe avere conseguenze fatali se utilizzato in processi decisionali importanti.

Un modello linguistico che sembra corretto ma è in realtà errato è un'arma pericolosa. È come fare affidamento su un foglio di calcolo che occasionalmente dimentica come funziona la moltiplicazione. Queste intuizioni dovrebbero servire come avvertimento per usare i modelli linguistici con cautela e mettere sempre in discussione criticamente le loro risposte.

ChatGPT convince come brillante logico – e questo è un problema

Fai gli investimenti migliori della tua vita.
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Novità

Meta sospende l'introduzione di modelli di IA multimodale in Europa.

Ryanair avverte di un calo dei profitti: i consumatori non sono pronti per i prezzi elevati dei biglietti

Hammerson vende la partecipazione in Bicester Village a L Catterton per 600 milioni di sterline

Incertezza sul programma GCAP: Starmer loda i progressi, ma rimane vago

Vodafone vende un ulteriore 10 percento di Vantage Towers per 1,3 miliardi di euro