צ'אטג'יפיטי משכנע כלוגיקן מבריק – וזו בעיה

ChatGPT נראה כמו לוגיקן גאוני – וזה בדיוק מה שמציג בעיה גדולה.

7.7.2024, 17:19
Eulerpool News 7 ביולי 2024, 17:19

האם מודלים גדולים של שפה יכולים לפתור חידות לוגיות? כדי לגלות זאת, שאלו פרננדו פרז-קרוז ויון סונג שין את GPT-4. שין, ראש מחקרבבנק להסדרים בינלאומיים, הכניס את החידה "יום ההולדת של שריל", שבה על אלברט וברנרד לנחש מתי יום ההולדת של שריל. שריל נותנת להם רמזים ולאחר מכן, שניהם מצליחים לגלות את התאריך. אך זה לא היה המבחן האמיתי. החוקרים שינו שמות וחודשים של החידה, ו-GPT-4 לא הצליח לפתור את הגרסה המותאמת נכונה, אף על פי שהסביר בהצלחה את החידה המקורית.

הדבר מראה כי אף על פי ש-GPT-4 נשמע לוגי ומשכנע, הוא לעיתים קרובות מציג תשובות מוכרות בלבד מבלי להבין באמת את ההיגיון. מראית עין זו של ברק טומנת בחובה סיכונים כאשר מדובר בהחלטות חשובות.

דוגמה נוספת היא בעיית מונטי-הול, שבה מועמד צריך לבחור בין שלוש דלתות, מאחורי אחת מהן מסתתר פרס. המנחה פותח דלת ללא פרס ומציע למועמד לשנות את בחירתו. האסטרטגיה הנכונה היא להחליף דלת, אך כאשר פרז-קרוז הציג את החידה עם סיבוכים נוספים, GPT-4 שוב ביצע טעויות, אף על פי שהסביר את הבסיסים נכון.

דוגמאות אלה ממחישות בעיה בסיסית: מודלים לשוניים גדולים כמו GPT-4 טובים להפליא בהפקת תשובות סבירות, אך שגויות. הם יכולים להיראות משכנעים, אפילו כשהם טועים, מה שהופך את השימוש בהם למסוכן. כפי שמדגישים פרז-קרוז ושין, מודל שפה שגוי עלול להוביל להשלכות חמורות כאשר משתמשים בו בתהליכי קבלת החלטות חשובים.

מודל שפה שנראה כאילו הוא צודק, אבל בעצם טועה מאוד, הוא נשק מסוכן. זה כמו להסתמך על גיליון חישוב שלפעמים שוכח איך פעולת הכפל עובדת. תובנות אלו צריכות להוות אזהרה לשימוש זהיר במודלי שפה ולבחון את תשובותיהם בקפידה.

עשה את ההשקעות הטובות ביותר של חייך
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

מתחילים מ-2 אירו

חדשות