สามารถแบบจำลองภาษาขนาดใหญ่แก้ปริศนาทางตรรกะได้หรือไม่? เพื่อหาคำตอบนี้ Fernando Perez-Cruz และ Hyun Song Shin ได้ถาม GPT-4
หัวข้อนี้แสดงให้เห็นว่า GPT-4 อาจฟังดูมีเหตุผลและน่าเชื่อถือ แต่จริง ๆ แล้วมักจะให้คำตอบที่รู้จักกันดีโดยไม่เข้าใจตรรกะจริง ๆ ความฉลาดลวงตานี้มีความเสี่ยงเมื่อเกี่ยวข้องกับการตัดสินใจที่สำคัญ.
ตัวอย่างอีกอย่างคือปัญหามอนตีฮอลล์ ที่ผู้เข้าร่วมต้องเลือกระหว่างประตูสามบานซึ่งมีรางวัลซ่อนอยู่หลังหนึ่งบาน ผู้ดำเนินรายการเปิดประตูบานหนึ่งที่ไม่มีรางวัลและเสนอให้ผู้เข้าร่วมเปลี่ยนการเลือก กลยุทธ์ที่ถูกต้องคือการเปลี่ยนประตู แต่เมื่อเปเรซ-ครูซเพิ่มความซับซ้อนให้กับปัญหา GPT-4 ก็ทำผิดพลาดอีกครั้งแม้ว่าจะอธิบายพื้นฐานได้ถูกต้อง
ตัวอย่างเหล่านี้แสดงให้เห็นถึงปัญหาพื้นฐาน: แบบจำลองภาษาขนาดใหญ่อย่าง GPT-4 นั้นเก่งอย่างน่าทึ่งในการสร้างคำตอบที่ดูน่าเชื่อถือแต่ผิดพลาดได้ พวกมันสามารถทำให้ดูน่าเชื่อถือได้แม้ข้อมูลจะผิด ทำให้การใช้งานมีความเสี่ยง ซึ่ง Perez-Cruz และ Shin เน้นย้ำว่า แบบจำลองภาษาที่มีข้อผิดพลาดอาจมีผลกระทบร้ายแรงหากถูกใช้ในกระบวนการตัดสินใจที่สำคัญ
โมเดลภาษาที่ดูเหมือนถูกต้องแต่จริง ๆ แล้วผิดอย่างมาก เป็นอาวุธที่อันตราย การพึ่งพามันก็เหมือนกับการใช้สเปรดชีตที่บางครั้งลืมวิธีคูณ คำเตือนเหล่านี้ควรจะเตือนให้ใช้โมเดลภาษาอย่างระมัดระวังและตระหนักถึงการตรวจสอบคำตอบของมันอยู่เสมอ