מדד חדש להערכת הדיוק העובדתי של מודלים לשוניים
המדד החדש של DeepMind בוחן את יכולת המודלים לספק תשובות מדויקות המבוססות על מסמכי מקור, במטרה לצמצם יצירת מידע שגוי ולשפר את האמינות של הבינה המלאכותית.
DeepMind, חטיבת הבינה המלאכותית של גוגל השיקה לאחרונה את FACTS Grounding, מדד חדשני שנועד להעריך את הדיוק העובדתי של מודלים לשוניים גדולים (LLMs).
המדד מציע שיטה מקיפה לבדיקת יכולתם של מודלים להפיק תשובות מדויקות ועובדתיות, בהתבסס על מסמכים שסופקו להם, ומטרתו לצמצם את תופעת ה"הזיות" (Hallucinations) - יצירת מידע שגוי על ידי המודל.
מהו FACTS Grounding?
FACTS Grounding הוא מדד שנועד לבחון את יכולתם של מודלים לשוניים גדולים:
- להתבסס על חומר מקור שסופק להם.
- לספק תשובות מפורטות ומדויקות המשתקפות ממסמכים אלה.
המדד כולל מאגר נתונים ייחודי של 1,719 דוגמאות, הכוללות מסמכים מגוונים, הוראות למודלים ובקשות משתמשים. כל דוגמה דורשת מהמודל לנתח מידע מורכב, להפיק תשובות ארוכות טווח ולהתייחס ישירות למידע במסמך.
מאפייני המדד
-
שני שלבי הערכה:
- שלב ההתאמה: האם התשובה מספקת מענה ברור לבקשת המשתמש?
- שלב הדיוק העובדתי: האם התשובה מבוססת במלואה על המידע הקיים במסמך שסופק?
-
שופטים אוטומטיים מתקדמים:
FACTS Grounding נעזר בשלושה מודלים מובילים לבחינת תשובות:- Gemini 1.5 Pro
- GPT-4o
- Claude 3.5 Sonnet
השופטים תוכננו במיוחד כדי להפחית הטיה בין מודלים מאותה משפחה ולספק הערכות מדויקות.
-
נתונים מגוונים:
הדוגמאות כוללות מסמכים ממגוון תחומים, כולל פיננסים, טכנולוגיה, רפואה ומשפט, עם מסמכים באורך של עד 32,000 טוקנים (כ-20,000 מילים).
שיפוט מבוסס על המודלים המובילים
לכל דוגמה במדד, תשובות המודל נשפטות על פי התאמתן לבקשת המשתמש ודיוקן העובדתי. אם תשובה נכונה עובדתית אך אינה עונה לשאלה, היא תיפסל.
הציונים הסופיים הם ממוצע של ההערכות מכלל השופטים, ונאספים למעקב בלוח תוצאות מקוון ב-Kaggle.
תרומת FACTS Grounding לעתיד הבינה המלאכותית
המדד מהווה צעד חשוב בשיפור הדיוק של מודלים לשוניים גדולים. מטרתו לא רק להעריך את היכולות הנוכחיות של המודלים, אלא גם לקדם מחקר ופיתוח עתידיים בתעשיית ה-AI. DeepMind שואפת להפוך את FACTS Grounding לכלי משמעותי לשיפור אמינות המודלים בעולם האמיתי.
האתגר של אמינות מודלים לשוניים
מודלים לשוניים מתקדמים חווים לעיתים תופעה של יצירת מידע שגוי ("הזיות"), במיוחד כאשר הם מתמודדים עם בקשות מורכבות. FACTS Grounding מספק מענה לבעיה זו, תוך שיפור השימושיות והאמינות של טכנולוגיות בינה מלאכותית.
סיכום
FACTS Grounding הוא צעד משמעותי להערכת מודלים לשוניים גדולים, תוך דגש על שקיפות, דיוק ואמינות. המאמץ לשפר את הדיוק העובדתי של מודלים אלו ישפיע רבות על תחומים כמו טכנולוגיה, רפואה ופיננסים.
DeepMind מזמינה את קהילת הבינה המלאכותית להתנסות במדד ולהגיש מודלים לבדיקה, במטרה לשפר את הטכנולוגיה ולהבטיח עתיד טוב יותר.
למידע נוסף: FACTS Grounding בבלוג של DeepMind