ChatGPT parlak bir mantıkçı olarak ikna ediyor – ve bu bir sorun

ChatGPT mükemmel bir mantıkçı gibi görünüyor – ve tam olarak bu büyük bir sorun teşkil ediyor.

07.07.2024 17:19
Eulerpool News 7 Tem 2024 17:19

Büyük Dil Modelleri Mantıksal Bulmacaları Çözebilir mi? Bunu Öğrenmek İçin Fernando Perez-Cruz ve Hyun Song Shin GPT-4'e Sordular. Shin, Uluslararası Ödemeler Bankası'nda Araştırma Direktörü, Cheryl’in Doğum Günü Bulmacasını Oyun Sahasına Getirdi. Bu Bulmacada, Albert ve Bernard Cheryl’in Doğum Gününü Tahmin Etmeye Çalışıyor. Cheryl Onlara İpuçları Veriyor ve Bir Süre Düşündükten Sonra Her İkisi de Tarihi Bulabiliyor. Ancak Bu Gerçek Test Değildi. Araştırmacılar, Bulmacanın İsimlerini ve Aylarını Değiştirdiler ve GPT-4, Orijinal Bulmacayı Ustaca Açıklamasına Rağmen, Modifiye Edilmiş Versiyonu Doğru Çözemedi.

İşte GPT-4'ün mantıklı ve ikna edici göründüğünü, ancak gerçekte sıklıkla yalnızca bilinen cevapları tekrarladığını ve mantığı gerçekten anlamadığını gösteriyor. Bu parlaklık izi, önemli kararlar söz konusu olduğunda riskler barındırıyor.

Başka bir örnek Monty-Hall Problemi'dir, burada bir aday üç kapı arasında seçim yapmalıdır ve birinin arkasında bir ödül vardır. Yarışma sunucusu ödül olmayan bir kapıyı açar ve adaya seçimini değiştirmesini teklif eder. Doğru strateji, kapıyı değiştirmektir, ancak Perez-Cruz bulmacayı ek komplikasyonlarla sunduğunda, GPT-4 temelleri doğru açıklamasına rağmen yine hatalar yaptı.

Bu örnekler temel bir sorunu net bir şekilde ortaya koyuyor: GPT-4 gibi büyük dil modelleri, makul görünen, ancak yanlış olan yanıtlar üretmekte şaşırtıcı derecede iyidir. Yanlış olduklarında bile ikna edici görünebilirler, bu da onların kullanımını riskli hale getirir. Perez-Cruz ve Shin'in vurguladığı gibi, hatalı bir dil modeli önemli karar verme süreçlerinde kullanılırsa ölümcül sonuçlar doğurabilir.

Görünüşte tamamen doğru, ama aslında tamamen yanlış olan bir dil modeli tehlikeli bir silahtır. Bu, bazen nasıl çarpma yapılacağını unutan bir hesap tablosuna güvenmek gibidir. Bu bulgular, dil modellerinin dikkatli kullanılması ve yanıtlarının her zaman eleştirel bir şekilde sorgulanması gereken bir uyarı olarak hizmet etmelidir.

Hayatının en iyi yatırımlarını yap
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

2 €'dan başlayarak güvence altına alın

Haberler