הכירו את Computer-Using Agent
סוכן ה-CUA מפעיל את המחשב באמצעות ראייה, חשיבה ופעולה – ממש כמו משתמש אנושי.
הקדמה
Computer-Using Agent (או בקיצור: CUA) הוא ממשק אוניברסלי המאפשר למודלי בינה מלאכותית להשתמש במחשב ככלי פעולה בעולם הדיגיטלי. במקום שהמודל יסתמך על ממשקי API מותאמים מראש, CUA מנתח את המסך כפיקסלים (תצלומי מסך מלאים) ומשתמש בעכבר ובמקלדת וירטואליים כדי להשלים פעולות – בדומה לאופן בו בני אדם עובדים מול המחשב.
כיצד CUA עובד
-
Perception (תפיסה):
המערכת קולטת תצלומי מסך (צילומי מצב המחשב) ומכניסה אותם להקשר הלשוני של המודל. כך המודל "רואה" את מה שמופיע על המסך בזמן אמת. -
Reasoning (הסקת מסקנות):
המודל מנתח את המידע מהמסך ומתכנן את הפעולות הבאות שלו באמצעות "שרשרת חשיבה" (Chain-of-thought). המשמעות היא שהמודל "מדבר עם עצמו" באופן פנימי כדי להחליט על הצעדים הבאים תוך התחשבות במצב הנוכחי ובהיסטוריית הפעולות הקודמות. -
Action (פעולה):
לאחר ההחלטה על הפעולה, CUA לוחץ, מקליד או גולל על המסך – ממש כפי שמשתמש אנושי היה עושה. הוא ממשיך כך בלולאה עד שמסיים את המשימה, או עד שעליו לבקש מהמשתמש אישור (למשל לפני שליחת טופס רגיש).
באופן זה, CUA יכול לבצע משימות מורכבות במערכות מגוונות—ממילוי טפסים ועד לנווט בין אתרים—בלי צורך בפיתוח API ייעודי.
דוגמאות לביצועים ויכולות
-
גלישה באינטרנט (WebArena, WebVoyager):
- WebArena מדמה את העולם האמיתי עם אתרים מקומיים (Self-Hosted) בתחומים כמו מסחר אלקטרוני, ניהול תוכן, רשתות חברתיות, ועוד.
- WebVoyager בודק כיצד המודל מתפקד באתרים "חיים" כמו אמזון, GitHub, וגוגל מפות.
CUA קובע הישג חדש עם 58.1% הצלחה ב-WebArena ו-87% ב-WebVoyager, אך עדיין נופל מיכולות אנושיות במשימות מורכבות יותר.
-
שימוש במחשב (OSWorld):
- ב-OSWorld, שבודק כיצד מודלים שולטים במערכות הפעלה כמו אובונטו, חלונות, ו-macOS, CUA השיג 38.1% הצלחה.
- בני אדם מגיעים לכ-72.4% הצלחה באותו מבחן.
- ביצועי CUA משתפרים כשמאפשרים לו יותר צעדים (Test-time scaling), אך עדיין יש פער גדול מול ביצוע אנושי.
CUA ב-Operator
CUA מוטמע בגרסת תצוגה מקדימה (Research Preview) של מערכת בשם Operator, המיועדת למשתמשים בארה"ב בעלי חשבון Pro. דרך Operator, CUA יכול לבצע משימות שונות בדפדפן עבור המשתמש—לחפש מידע, למלא טפסים, ליצור רשימות קניות, וכדומה.
בטבלה שהוצגה בטקסט מפורטים ניסיונות שונים של CUA ב-Operator. הוא מצליח יפה במשימות פשוטות (כמו יצירת פרויקטים ורשימות ב-Todoist או חיפוש מוזיקה בספוטיפיי), אך מתקשה במשימות מורכבות יותר, במיוחד עם ממשקים פחות מוכרים.
סוגיות בטיחות
כיוון ש-CUA יכול לבצע פעולות אמיתיות במחשב (כולל הקלדה ושליחת טפסים), קיימות סכנות חדשות בהשוואה למודל-צ'אט רגיל:
-
שימוש לרעה (Misuse):
- CUA אומן לסרב לפעולות לא חוקיות או כאלה המנוגדות למדיניות שימוש.
- קיימת רשימת חסימה (Blocklist) של אתרים רגישים (הימורים, אתרי נשק, וכד').
- קיימת מערכת ניטור אוטומטית (Moderation) המתריעה על פעולות אסורות.
-
טעויות של המודל (Model Mistakes):
- המודל עלול לבצע פעולה לא רצויה בשוגג (למשל, רכישה שגויה או מחיקת קובץ חשוב).
- לכן, CUA מבקש אישור מהמשתמש בפעולות קריטיות (כמו רכישה, שליחת הודעה, או הזנת סיסמה).
- ישנן מגבלות על משימות בסיכון גבוה (כמו גישה לבנק או נתונים רגישים).
- באתרים מסוימים כמו דוא"ל, CUA מחויב לפעול ב"מצב צפייה" (Watch mode) בו המשתמש בודק את כל צעדיו.
-
הגנה מפני התקפות עוינות (Adversarial Attacks):
- CUA אומן לזהות ולהתעלם מ"Prompt Injections" באתרי אינטרנט המנסים להשתלט על המודל.
- מנגנוני ניטור עוקבים אחרי פעולות חשודות ומקפיאים את המודל במקרה הצורך.
- צוותי בדיקה אנושיים ומערכות אוטומטיות מסייעים לזהות ולחסום שימושים בעייתיים.
-
סיכונים עתידיים (Frontier Risks):
- הערכות פנימיות לא מצאו סיכון מוגבר בהשוואה למודלי GPT אחרים, אך הנושא נבחן לעומק כחלק ממסגרת ההיערכות (Preparedness Framework).
מסמך Operator System Card מספק שקיפות לגבי גישת הבטיחות של CUA וכולל פרטים על הדרכים להתמודד עם הסיכונים הנ"ל.
סיכום ומבט לעתיד
CUA הוא צעד נוסף בהתפתחות הבינה המלאכותית, שמטרתו "ללמד" את המודל להשתמש במחשב כמו בן אדם אמיתי. הוא משלב יכולות ניתוח תמונה (Vision) מתקדמות, הסקת מסקנות (Reasoning) עמוקה, והגנות בטיחות מורכבות.
הצוות ממשיך לעבוד על שיפור המודל והרחבת טווח הפעולות שהוא יכול לבצע, כך שיוכל להתמודד עם משימות יותר מגוונות ומורכבות. תצוגת התכלית ב-Operator והמשוב מהמשתמשים אמורים לסייע בשיפור יכולות המודל, ושילובו בסביבות עבודה שונות ואפליקציות נוספות.
בהמשך, מתכננים להציע את CUA גם ב-API חיצוני (כדי שמפתחים יוכלו לשלב אותו בפרויקטים שלהם) ובכך להעצים את המסוגלות שלו להגיע למגוון רחב מאוד של שימושים וכלים דיגיטליים.
בשורה התחתונה:
- CUA הוא "סוכן ממוחשב" בעל ממשק אוניברסלי שפועל באמצעות מסך, עכבר ומקלדת וירטואליים.
- הוא יכול לנווט בין אתרים, למלא טפסים, לחפש מידע, לערוך מסמכים ועוד—בלי תלות ב-API ייעודי.
- גישתו מבוססת על לולאת פעולה המשלבת תפיסה חזותית, הסקת מסקנות ופעולה מעשית.
- קיימים אתגרי ביצועים ובטיחות, אך ההתקדמות בתחום פותחת אפשרויות חדשות לאוטומציה של משימות מחשב מורכבות.
- המערכת עדיין בשלבי פיתוח וניסוי, ומתוכננות הרחבות ושיפורים עתידיים כדי לצמצם פערים מול ביצועים אנושיים ולהקטין סיכונים.
המקור כאן