ראיית מחשב חדשנית

חדשנות בראיית מחשב וסינתזה לשנת 2024

מגמות מרתקות בעולם הסינתזה החזותית

בשנת 2024 חלו התפתחויות משמעותיות בתחומי ראיית המחשב והסינתזה החזותית. כחוקר ותיק הבוחן את הזירה המחקרית מקרוב, בולטים מספר כיוונים חדשים ומעניינים שראויים לתשומת לב.

השתלטות המזרח האסייתי על שדה המחקר

לקראת סוף 2023, ניכרה עלייה משמעותית במספר הפרסומים המחקריים הבאים מסין ומאזורי מזרח אסיה אחרים בתחום סינתזת הקול. עם סיכום שנת 2024, נראה כי מגמה זו חלה גם בזירת המחקר של סינתזת תמונה ווידאו. למרות שאין זה אומר כי המחקרים המצוינים ביותר מגיעים דווקא ממדינות אלו, ההשתלטות הכמותית של מזרח אסיה על התחום בולטת לעין.

מגמה זו מעידה על ריבוי מחקרים מסוג ‘פרנקנשטיין’, הממזגים גישות קיימות ללא חידושים ארכיטקטוניים מהותיים. רבים מהמאמרים הללו נראים כנובעים ממגבלות מחקריות ופחות מתוך חדשנות אמיתית. עם זאת, יש לציין כי מספר לא מבוטל של מחקרים ממזרח אסיה הפגינו איכות וחדשנות מרשימות השנה.

צונאמי של פרסומים חדשים

שנת 2024 אופיינה בגידול ניכר בנפח המאמרים שפורסמו בארכיב המאגר המקוון Arxiv בתחומי ראיית המחשב וזיהוי דפוסים. בימי השיא, לעתים קרובות התפרסמו 300-350 מאמרים חדשים ביום אחד בלבד. Arxiv עצמו דיווח על שיא של 6,000 מאמרים חדשים שהתפרסמו באוקטובר 2024, כאשר תחום ראיית המחשב היה השני בנפח הפרסומים אחרי לימוד מכונה.

נתונים מדו”ח ה-AI Index של אוניברסיטת סטנפורד לשנת 2024 גם מדגישים את העלייה הניכרת בפרסומים אקדמיים בתחום לימוד המכונה בשנים האחרונות, תופעה המשקפת את הצמיחה המטאורית של התחום.

צמיחת מסגרות diffusion>mesh

מגמה בולטת נוספת היא העלייה החדה במספר המאמרים העוסקים בניצול מודלי Diffusion Latent (LDMs) כמנועים לייצור רשתות תלת-ממדיות קלאסיות. פרויקטים כגון InstantMesh3D של Tencent, 3Dtopia, Diffusion2, V3D, MVEdit ו-GIMDiffusion ממחישים את המגמה הזו היטב. התפתחות זו עשויה להעיד על הקושי הנמשך בהפיכת מודלים גנרטיביים כמו diffusion לתחליף מלא לטכנולוגיות וזרימות עבודה מסורתיות.

הבנת הסמנטיקה התלת-ממדית

בזירת הבינה המלאכותית הגנרטיבית, קיימת הבחנה בין מערכות דו-ממדיות לתלת-ממדיות לצורכי ראייה וסינתזה. למשל, מסגרות לסימון פנים, למרות שמייצגות אובייקטים תלת-ממדיים (פנים), אינן בהכרח מתמודדות באופן ישיר עם קואורדינטות תלת-ממדיות. המונח ‘תלת-ממדי’ הפך למבלבל במידת מה במחקר ראיית המחשב, משום שהוא יכול להתייחס הן לזיהוי קואורדינטות קרטזיות במרחב הסמוי של המודל והן לייצוגים תלת-ממדיים ממשיים.

אפילו הרעיון של diffusion>3D אינו מדויק לחלוטין; לא רק שכל תמונה (כולל צילומים אמיתיים) יכולה לשמש כקלט ליצירת מודל CGI גנרטיבי, אלא שהמונח ‘רשת’ (mesh) מדויק יותר. עם זאת, diffusion נדרש כדי לפרש את התמונה המקור לרשת במרבית הפרויקטים החדשים. לכן, התיאור המדויק ביותר הוא image-to-mesh, ועוד יותר מזה – image>diffusion>mesh.

אינדיקציות לבעיות ארכיטקטוניות עמוקות

מחקרי 2024 מעלים תחושה של ייאוש הולך וגובר בניסיון להתגבר על המגבלות הקשות של סינתזה מבוססת diffusion. החסם העיקרי נותר ביצירת וידאו עקיב מבחינה נרטיבית וזמנית, תוך שמירה על מראה עקבי של דמויות ועצמים – לא רק בין קטעי וידאו שונים, אלא אפילו בתוך קטע וידאו יחיד שנוצר.

החידוש האחרון המשמעותי בתחום הסינתזה מבוססת diffusion היה כניסתו של LoRA בשנת 2022. למרות שמערכות חדשות כגון Flux שיפרו כמה בעיות, רוב המחקרים השנה רק ‘הזיזו את האוכל על הצלחת’ ללא התקדמות מהותית.

דפוס של קיפאון מחקרי מתרחש מדי פעם, כפי שקרה עם רשתות אויב מתנגד (GANs) ושדות קרינה נוירונליים (NeRF), שלא עמדו בציפיות הראשוניות הגבוהות שניתנו להן. גם עם מודלי diffusion נראה כי מתחילה מגמה דומה של שילובם במערכות קונבנציונליות יותר.

מגמות חדשות בתחום ה-Gaussian Splatting

לקראת סוף 2023, נדמה היה כי שיטת ה-rasterization הנקראת 3D Gaussian Splatting (3DGS), שמקורותיה בסריקות רפואיות בשנות ה-90, עתידה להחליף מערכות מבוססות אוטו-אנקודר באתגרי סינתזת דמות אנושית וזהות. אולם, בשנת 2024 לא חלה ההתקדמות הדרמטית הצפויה במחקר 3DGS להפקת דמויות אנושיות.

במקום זאת, הדגש במחקר 3DGS השנה היה על שיפור יתכנותה של הארכיטקטורה הבסיסית, עם ריבוי מחקרים שהציעו שיפורים לסביבות חיצוניות מבוססות 3DGS. תשומת לב רבה הופנתה לגישות 3DGS מבוססות Simultaneous Localization and Mapping (SLAM).

ירידה באובססיה למשתתפי מחקר צעירים

במחקרים ממזרח אסיה, ובפרט מסין, הוצגו לעתים קרובות דוגמאות של משתתפים צעירים בלבוש חשוף וערום חלקית. מגמה בעייתית זו פחתה במקצת לקראת סוף השנה, אך עדיין נותרה קיימת. בפרסומים ממערב, ניכרת ירידה ניכרת יותר בהצגת דוגמאות פוגעניות מסוג זה, בהנחיית גופים מובילים כמו OpenAI וחברות ה-FAANG.

במקביל, ניכרת עלייה בדוגמאות ‘חמודות’ ו’בטוחות’ במיוחד המוצגות על ידי מערכות גנרטיביות מערביות, במטרה להימנע מסיכונים משפטיים עתידיים. גישה זו של ‘שטיפת פנים’ בולטת במיוחד במערכות התאמה אישית וקבצי LoRA אשר ברמה הטכנית מסוגלים ליצור דמויות אישיות ממשיות.

שאלות נפוצות

מהן המגמות המרכזיות שצוינו במאמר? המגמות המרכזיות הן עלייה בנפח הפרסומים ממזרח אסיה, גידול במחקרים העוסקים במסגרות diffusion>mesh, בעיות ארכיטקטוניות שעדיין לא פותרו במודלי diffusion, והתפתחויות חדשות במחקר בתחום ה-3D Gaussian Splatting.

מדוע ישנה עלייה במספר המאמרים שמקורם במזרח אסיה? זוהי מגמה כמותית שאינה בהכרח משקפת איכות גבוהה. חלק ממחקרים אלו הם שילובים של גישות קיימות ללא חידושים מרכזיים, אך ישנם גם מחקרים איכותיים ומרשימים שראויים לתשומת לב.

מהו המכשול העיקרי במודלי diffusion כיום? הקושי העיקרי הוא ביצירת וידאו עקיב מבחינה נרטיבית וזמנית, תוך שמירה על מראה עקבי של דמויות ועצמים בין קטעי וידאו ואף בתוך קטע יחיד.

מדוע ישנה בעייתיות בהצגת דוגמאות ממחקרים ממזרח אסיה? חלק מהדוגמאות כוללות דימויים והצגות פוגעניות של בני נוער וצעירים בהקשרים מיניים או חשופים. ישנה ירידה בשימוש בדוגמאות כאלה, אך היא עדיין קיימת במידה מסוימת.

מהי הגישה של מחקרים מערביים כלפי דוגמאות של דמויות אנושיות? ישנה נטייה להציג דוגמאות ‘חמודות’, ממוסדות ומאובטחות משפטית, במטרה להימנע מסיכונים משפטיים בשימוש בדמויות ממשיות.

Tags:

השאר תגובה