ChatGPT impressiona como brilhante lógico – e isso é um problema

Eulerpool News 7 de jul. de 2024, 17:19

Podem modelos de linguagem grandes resolver enigmas lógicos? Para descobrir isso, Fernando Perez-Cruz e Hyun Song Shin perguntaram ao GPT-4. Shin, chefe de pesquisa no Banco de Compensações Internacionais, trouxe à tona o enigma "Cheryl’s Birthday", onde Albert e Bernard devem adivinhar quando é o aniversário de Cheryl. Cheryl lhes dá pistas e, após algumas considerações, ambos conseguem descobrir a data. No entanto, esse não era o verdadeiro teste. Os pesquisadores mudaram os nomes e os meses do enigma, e o GPT-4 falhou em resolver a versão modificada corretamente, apesar de ter explicado o enigma original de forma magistral.

Isto mostra que, embora o GPT-4 soe lógico e convincente, frequentemente apenas reproduz respostas conhecidas, sem realmente compreender a lógica. Essa aparência de brilhantismo traz riscos quando se trata de decisões importantes.

Ein weiteres Beispiel ist das Monty-Hall-Problem, bei dem ein Kandidat zwischen drei Türen wählen muss, hinter einer verbirgt sich ein Preis. Der Quizmaster öffnet eine Tür ohne Preis und bietet dem Kandidaten an, die Wahl zu ändern. Die richtige Strategie ist, die Tür zu wechseln, aber als Perez-Cruz das Rätsel mit zusätzlichen Komplikationen stellte, machte GPT-4 erneut Fehler, obwohl es die Grundlagen korrekt erklärte.

Outro exemplo é o Problema de Monty Hall, onde um candidato deve escolher entre três portas, atrás de uma delas está um prêmio. O apresentador do quiz abre uma porta sem prêmio e oferece ao candidato a oportunidade de mudar sua escolha. A estratégia correta é trocar de porta, mas quando Perez-Cruz apresentou o enigma com complicações adicionais, o GPT-4 cometeu erros mais uma vez, embora explicasse corretamente os fundamentos.

Esses exemplos destacam um problema fundamental: grandes modelos de linguagem como o GPT-4 são surpreendentemente bons em gerar respostas plausíveis, mas incorretas. Eles podem parecer convincentes, mesmo quando estão errados, o que torna seu uso arriscado. Como salientam Perez-Cruz e Shin, um modelo de linguagem falho pode ter consequências fatais se for usado em processos decisórios importantes.

Um modelo de linguagem que parece estar correto, mas na verdade está errado, é uma arma perigosa. É como confiar em uma planilha que às vezes esquece como a multiplicação funciona. Essas percepções devem servir como um aviso para usar modelos de linguagem com cautela e sempre questionar criticamente suas respostas.

Andreessen Horowitz co-fundador muda apoio de Trump para Harris após retirada de Biden

Der Wechsel von Andreessen Horowitz-Co-Gründer Ben Horowitz von der Unterstützung Trump zu einer bedeutenden Spende für Kamala Harris markiert einen wichtigen Wendepunkt in der politischen Ausrichtung der renommierten Venture-Capital-Firma.

A transição de Ben Horowitz, co-fundador da Andreessen Horowitz, de apoio a Trump para uma doação significativa para Kamala Harris marca um ponto de virada importante na orientação política da renomada empresa de capital de risco.

Business

ChatGPT impressiona como brilhante lógico – e isso é um problema

Reconheça ações subavaliadas com um olhar.
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Notícias

EY deixou de identificar precocemente a fraude na NMC Health: indenização de 2,7 bilhões de USD exigida.

Andreessen Horowitz co-fundador muda apoio de Trump para Harris após retirada de Biden

Volkswagen-Chef warnt vor chinesischer Gegenreaktion auf EU-Zusatzzölle" translates to Portuguese as: "Chefe da Volkswagen alerta para reação chinesa aos impostos adicionais da UE

Investigações na Infineon: Funcionário de empresa terceirizada preso por roubo de resíduos de ouro

Daimler Truck deve pagar 40 milhões de reais por discriminação no Brasil.

Reconheça ações subavaliadas com um olhar. fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Notícias

EY deixou de identificar precocemente a fraude na NMC Health: indenização de 2,7 bilhões de USD exigida.

Andreessen Horowitz co-fundador muda apoio de Trump para Harris após retirada de Biden

Volkswagen-Chef warnt vor chinesischer Gegenreaktion auf EU-Zusatzzölle" translates to Portuguese as: "Chefe da Volkswagen alerta para reação chinesa aos impostos adicionais da UE

Investigações na Infineon: Funcionário de empresa terceirizada preso por roubo de resíduos de ouro

Daimler Truck deve pagar 40 milhões de reais por discriminação no Brasil.

Reconheça ações subavaliadas com um olhar.
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news