בינה מלאכותית ווידאו

מהפכת הווידאו הנרטיבית של AI

סולל את הדרך לסיפורי וידאו שזורים מבינה מלאכותית

השחרור לאחרונה של דגם Hunyuan Video Generator הגביר את הדיונים הסוערים סביב הפוטנציאל שבמודלים רב-מודליים גדולים לייצר יום אחד סרטים שלמים באמצעות בינה מלאכותית. אולם, כפי שהוכח עד כה, יכולת זו היא עדיין רחוקה מאוד ממימוש, מכמה סיבות מרכזיות. אחת הבולטות שבהן היא חלון הקשב הקצר ביותר של מרבית מחוללי הווידאו הקיימים, המתקשים לשמור על רצף ועקביות אפילו בתוך קטע וידאו יחיד וקצר.

האתגר של יצירת סיפור רצוף ועקבי

אתגר משמעותי נוסף הוא היכולת ליצור התייחסויות עקביות לרכיבי התוכן החזותי לאורך קטעי הווידאו – כמו סביבות חוויתיות שאינן אמורות להשתנות באקראי בין צילומים שונים. במודלים מבוזרים, יכולת זו ניתנת להשגה כיום רק באמצעות טכניקות התאמה אישית כמו LoRA (Low-Rank Adaptation), המגבילות את היכולות המקוריות של המודלים היסודיים. לפיכך, נראה כי התקדמות משמעותית בתחום מחוללי הווידאו הנרטיבי צפויה להיעצר אם לא יפותחו גישות חדשניות להשגת רצף נרטיבי אמין.

סרטוני בישול כמתכון לרצף סיפורי

על רקע זה, שיתוף פעולה חדש בין חוקרים מארה”ב וסין הציע רעיון מקורי: לנצל את מבנה הסיפור הטבוע בסרטוני בישול הדרכתיים כתבנית אפשרית ליצירת רצפי סיפור ויזואליים עקביים ורציפים. פרויקט המחקר VideoAuteur ממשיג את ניתוח שלביו השונים של תהליך הבישול, בכדי ליצור מסד נתונים חדש המכיל כיתובים מפורטים ושיטת תיזמור ייחודית לייצור סרטוני בישול – ובכך משיג תוצאות מרשימות בתחום שעד כה נותר כמעט בלתי מנוצל.

CookGen – מאגר המידע הענק לרצפים קוליגריים

במסגרת פיתוח VideoAuteur, החוקרים ניסו פונקציות אובדן שונות וגישות חדשניות נוספות. כדי לפתח תהליך יעיל להחלטת מתכונים, הם גם אצרו את CookGen – מאגר הנתונים הגדול ביותר שהתמקד אי פעם בתחום הבישול, הכולל 200,000 קטעי וידאו קצרים ממוצעים בני 9.5 שניות. עם ממוצע של 768.3 מילים של כיתוב מפורט לכל קטע, CookGen הוא מסד הנתונים המתויג ביותר בתחומו. מודלי שפה/ראיה מגוונים שולבו כדי להבטיח כי התיאורים הטקסטואליים יהיו מפורטים, רלוונטיים ומדויקים ככל האפשר.

סרטוני בישול נבחרו כאמור בזכות המבנה הסיפורי הברור והחד-משמעי של הדרכות צעד-אחר-צעד בתהליך הבישול, דבר המפשט משמעותית את משימות התיוג וההערכה. מלבד סרטונים פורנוגרפיים (שצפויים להיכנס לתחום זה בקרוב), קשה למצוא ז’אנר אחר ‘המנוסח’ באופן כה ברור מבחינה חזותית וסיפורית.

השיטה הדו-שלבית של VideoAuteur

שלב הייצור של VideoAuteur מחולק בין המנהל הנרטיבי הארוך (LND – Long Narrative Director) ומודל ייצור הווידאו המותנה חזותית (VCVGM – Visual-Conditioned Video Generation Model). LND מחולל רצף של צפנוני חזותיים או ‘תמונות מפתח’ המאפיינות את זרימת הסיפור, בדומה ל’נקודות ציון מהותיות’. לאחר מכן, VCVGM מייצר קטעי וידאו ממשיים על בסיס בחירות חזותיות אלו.

החוקרים מצאו כי הגישה המשולבת של טקסט-תמונה עדיפה על הגישה הלשונית-מרכזית של תמונות מפתח גרידא, מאחר שהיא משיגה ניקוד גבוה יותר בקוהרנטיות הרצף ובעקביות החזותית. הם גם גילו שגישה זו מסוגלת באופן טבעי ללמוד ולשחזר סגנונות חזותיים ממשיים במהלך האימון, גם אם לעתים עם רכיבים חוזרים ורעשים לא רצויים.

בדיקות ותוצאות מעודדות

על מנת להוכיח את יתרונה של הגישה המשולבת, החוקרים השוו את VideoAuteur לשיטות המסתמכות על קלט טקסטואלי בלבד. הערכה אנושית אובייקטיבית אכן אישרה את הביצועים העולים של הגישה המשולבת, אם כי שיטות לשוניות קיבלו ניקוד אסתטי גבוה במקצת. עם זאת, החוקרים טוענים כי קריטריון זה הוא משני ביחס למטרה המרכזית של יצירת סרטים נרטיביים ארוכים ועקביים.

המשך דרך: לקראת סיפורי וידאו מלאים

הזרם הפופולרי ביותר כיום במחקר על אתגר היצירה של סיפורי וידאו עקביים ממוקד בתמונות יחידות. דוגמאות לכך הן פרויקטים כמו DreamStory, StoryDiffusion, TheaterGen ו-ConsiStory של חברת NVIDIA. במובן מסוים, גם VideoAuteur נכנס לקטגוריה ‘סטטית’ זו עם השימוש שלו בתמונות זרע עליהן מתבססים קטעי הווידאו המחוללים. אולם, השילוב של תוכן סמנטי וחזותי מקרב את התהליך צעד נוסף לקראת מערכת ייצור וידאו נרטיבי מלאה ומעשית.

שאלות ותשובות

מהם היתרונות העיקריים של VideoAuteur?

VideoAuteur מציג שיטת ייצור חדשנית המשלבת קלט לשוני וחזותי כדי ליצור רצפי וידאו ארוכים ועקביים יותר עם סיפור רצוף ומובנה.

מה מייחד את מסד הנתונים CookGen?

CookGen הוא מאגר הנתונים הגדול ביותר שפותח עד כה בתחום הבישול, הכולל כ-200,000 קטעי וידאו קצרים שכוללים כיתובים מפורטים במיוחד. מטרתו היא לסייע בפיתוח דורות הבאים של מודלים ליצירת וידאו נרטיבי.

מהי השיטה העיקרית שמיושמת ב-VideoAuteur?

VideoAuteur מחולק לשני שלבים עיקריים: מנהל נרטיבי ארוך יוצר רצף של תמונות מפתח המאפיינות את זרימת הסיפור, ולאחר מכן מודל ייצור וידאו מותנה חזותית מחולל קטעי וידאו ממשיים המבוססים על תמונות אלו.

מדוע נבחר ז’אנר הבישול להדגמת הרעיון?

הדרכות בישול מציגות סיפור מובנה וחד-משמעי, דבר שהופך את התיוג וההערכה של התוצאות למשימה פשוטה יחסית. מלבד סרטונים פורנוגרפיים, קשה למצוא ז’אנר אחר שהוא ‘מנוסח’ באופן כה ברור מבחינה חזותית וסיפורית.

מהם האתגרים העיקריים שנותרו ליצירת סרטים שלמים באמצעות בינה מלאכותית?

האתגרים המרכזיים כוללים שמירה על עקביות ורצף נרטיבי לאורך פרק זמן ממושך, ופיתוח יכולות ליצירת סיפורים מורכבים יותר עם דמויות ועלילות מפותחות יותר.

Tags:

השאר תגובה