מודלי AI ופיזיקה

מערכות AI ויכולת הבנה של חוקי פיזיקה

פריצת גבולות: מדוע מודלים גנרטיביים של בינה מלאכותית לווידאו עדיין אינם מבינים לחלוטין חוקים פיזיקליים

אחת ההבטחות הגדולות של מודלים גנרטיביים של בינה מלאכותית לעיבוד תוכן וידאו היא האפשרות שיום אחד הם יגיעו לרמת אוטונומיה וורסטיליות שתאפשר להם להבין וליישם עקרונות של חוקים פיזיקליים באופן דומה לאופן שבו אנחנו, בני האדם, מפתחים הבנה מולדת של עקרונות אלה דרך התנסויות מוקדמות.

למידה דרך אינטראקציה עם העולם

לדוגמה, דרך משחקי ילדים כמו משחק בכדור, אנחנו מאמצים באופן ספונטני הבנה של קינטיקת תנועה, כמו גם השפעת כוחות כמו כבידה וחיכוך על מסלול העצמים. באופן דומה, אינטראקציות עם תרחישים יומיומיים הכוללים נוזלים, כמו רחצה, שפיכת משקאות או צפייה באוקיינוסים ובריכות, מטמיעים בנו הבנה אינטואיטיבית וסקלבילית של התנהגות גופים נוזליים תחת השפעת כוח הכבידה.

אפילו עבור תופעות פחות נפוצות כמו בעירה, פיצוצים או חלוקת עומסים על אלמנטים מבניים של בניינים, אנחנו סופגים באופן לא מודע הבנה בסיסית דרך חשיפה לתוכניות טלוויזיה, סרטים או סרטוני וידאו ברשתות חברתיות.

עד הזמן שבו אנחנו לומדים באופן פורמלי את העקרונות המדעיים שעומדים בבסיס מערכות אלה, אנחנו למעשה רק מרחיבים את האינטואיציה המולדת (אם כי הלא מלומדת) שלנו לגביהם.

מומחים מתמחים

בניגוד לכך, מודלים גנרטיביים קיימים של בינה מלאכותית לווידאו הם בעיקר “מתמחים”, מאומנים מאפס או מכווננים בעדינות על מערכי נתונים הספציפיים ליישומים מסוימים, במקום להיות מתוכננים לפתח הבנה כללית של חוקים פיזיקליים שולטים.

מודלים אחרים יכולים להציג מראית עין של הבנת חוקים פיזיקליים, אך למעשה רק משחזרים דפוסים מנתוני האימון שלהם, במקום להבין באמת יסודות כמו פיזיקת תנועה באופן שיאפשר להם לייצר תצוגות חדשות (ומדעית סבירות) על בסיס שאילתות משתמשים.

פוטנציאל שיווקי מטעה

ברגע העדין הזה של מסחור מערכות בינה מלאכותית גנרטיביות, זו האחריות שלנו, ובמיוחד של המשקיעים החדים, להבחין בין שיווק מתוכנן של מודלי בינה מלאכותית חדשים לבין המגבלות האמיתיות של יכולותיהם. אחת השאלות הדורשות תשומת לב היא רמת ההבנה שלהם את החוקים הפיזיקליים.

הערכת הבנת חוקים פיזיקליים במודלי בינה מלאכותית

אחד המחקרים המעניינים ביותר לאחרונה, בהובלת Bytedance Research, עסק בדיוק בשאלה זו, חוקר את הפער בין היכולות הנחזות והאמיתיות של מודלים גנרטיביים “מקיפים” כמו Sora.

המחקר הסיק כי במצב הנוכחי של הטכנולוגיה, הפלטים שמייצרים מודלים כאלה סבירים יותר לשחזור דוגמאות מנתוני האימון מאשר להדגמת הבנה מלאה של המגבלות הפיזיקליות הבסיסיות הפועלות בעולם האמיתי.

הכללה אקראית במקום הבנה

המחקר מציין: “מודלים אלה יכולים בקלות להיות מוטעים על ידי דוגמאות ‘מטעות’ מסט האימון, מה שיגרום להם להכליל באופן ‘אקראי’ בתנאים מסוימים. תופעה זו, שנצפתה גם במודלי שפה גדולים, מתארת את הנטייה של המודל להסתמך על מקרי אימון דומים בעת פתרון משימות חדשות.”

המחברים ממשיכים עם דוגמה: “דמיינו מודל וידאו שאומן על נתונים של כדור הנע בתנועה אחידה בקו ישר במהירות גבוהה. אם מבוצעת הגדלת נתונים על ידי היפוך הוידאו אופקית, המכניסה תנועה בכיוון ההפוך, המודל עשוי לייצר תרחיש שבו כדור במהירות נמוכה נע אחורה לאחר הפריימים הראשונים, למרות שהתנהגות כזו אינה נכונה פיזיקלית.”

השלכות ההסתמכות על נתוני אימון

ללא יכולת הכללה אמיתית, מודל בינה מלאכותית מאומן הוא בעצם רק טבלת חיפוש יקרה של הפניות לחלקים מנתוני האימון שלו: מצא את מילת החיפוש המתאימה ותוכל לאחזר מופע של אותם נתונים.

בתרחיש זה, המודל פועל כ”חיפוש נוירונלי”, אינו יכול לייצר פרשנויות מופשטות או “יצירתיות” של הפלט הרצוי, אלא במקום זאת משחזר וריאציות של נתונים שראה במהלך האימון. זה נקרא זכירת נתונים – בעיה שנויה במחלוקת שבה מודלים מפורטים חסרים מקוריות וגמישות, בעוד שמודלים באמת מסתגלים ופרשניים חסרים פירוט מספיק.

אתגרי “מודלים עולמיים”

אחת התקוות הגדולות למערכות בינה מלאכותית גנרטיביות חדשות לווידאו היא שהן יוכלו ללמוד חוקים פיזיקליים יסודיים, כמו חוקי תנועה, קינמטיקה אנושית, דינמיקת זורמים ותופעות אחרות שהן, לכל הפחות, מוכרות חזותית לבני אדם.

אם בינה מלאכותית גנרטיבית תשיג ציון דרך זה, היא עשויה להיות מסוגלת לייצר אפקטים חזותיים היפר-ריאליסטיים המציגים פיצוצים, שיטפונות ואירועי התנגשות סבירים בין סוגים שונים של עצמים. עם זאת, אם מערכת הבינה המלאכותית פשוט מאומנת על אלפי (או מאות אלפי) סרטוני וידאו מוקלטים מראש, היא עשויה להיות מסוגלת לשחזר באופן משכנע את אותם נתונים כאשר היא מאומנת על נקודת מטרה דומה, אך עלולה להיכשל אם השאילתא משלבת יותר מדי מושגים שאינם מיוצגים בשילוב כזה בנתונים.

יתר על כן, מגבלות אלה לא היו ברורות עד שהמערכת נבחנת בשילובים מאתגרים הדורשים הכללה קומבינטורית – חיבור עקרונות פיזיקליים שונים לפלט גנרטיבי אחד.

הכללה קומבינטורית כאתגר

המחקר הנזכר לא בחן רק את גבולות האקסטרפולציה של חוקים פיזיקליים ספציפיים, כמו התנהגות עצמים בתנועה כאשר הם מתנגשים או כאשר דרכם נחסמת, אלא גם את יכולת המודל להכללה קומבינטורית.

המחברים מסכמים: “המחקר שלנו מציע כי סקאלינג לבדו אינו מספיק כדי שמודלים ליצירת וידאו יגלו חוקים פיזיקליים יסודיים, למרות תפקידו בהצלחה הרחבה יותר של מודל Sora… [הממצאים] מצביעים על כך שסקאלינג לבדו אינו יכול לפתור את בעיית מחוץ להתפלגות (OOD), למרות שהוא משפר ביצועים בתרחישים אחרים.”

“הניתוח המעמיק שלנו מציע כי הכללת מודלי וידאו תלויה יותר בהתייחסות לדוגמאות אימון דומות, ולא בלמידת כללים אוניברסליים. הבחנו בסדר עדיפויות של צבעים > גודל > מהירות > צורה בהתנהגות ‘אקראית’ זו של הכללה.”

מסקנה: הצורך בפיתוח הבנה אמיתית

כאשר אלגוריתם שאינו בינה מלאכותית (למשל, שיטה פרוצדורלית, מתמטית) מכיל כללים מפורשים להתנהגות תופעות פיזיקליות, יש לו גישה לקבוצה של קבועים בלתי משתנים המאפשרים רינדור מדויק. עם זאת, ממצאי המחקר החדש מציעים כי שום יחס שקול כזה או הבנה מולדת של חוקי פיזיקה קלאסיים לא התפתחו במהלך האימון של מודלי בינה מלאכותית גנרטיביים לווידאו.

יתר על כן, הגדלת כמות נתוני האימון כשלעצמה אינה פותרת בעיה זו, אלא למעשה מסווה אותה – מספקת למודל יותר דוגמאות לחיקוי במקום ללמוד כללים אמיתיים. לכן, התגברות על מגבלות אלה תדרוש מאמצים ממוקדים של כל קהילת הבינה המלאכותית למציאת דרכים למערכות בינה מלאכותית להפנים באמת הבנה של חוקים פיזיקליים, במקום להסתמך על שחזור נתונים שנראו בעבר.

Tags:

השאר תגובה