
הפרדת רקעים בבינה מלאכותית גנרטיבית
- רובי בוטוביץ'
- דצמבר 5, 2024
- AI Tools, חדשות בינה מלאכותית, חידוד והגדלת תמונות
- AI
- 0תגובות
בינה מלאכותית גנרטיבית ויזואלית: גבולות חדשים בהפרדת רקעים
בעולם הבינה המלאכותית הגנרטיבית הוויזואלית, קיימים חידושים מרתקים בתחום הפרדת הרקעים, המאפשרים יצירת תוכן ויזואלי עשיר ומגוון עם רקעים נקיים ומבודדים. למרות ההתקדמות המשמעותית, קיימים אתגרים ומגבלות שעדיין דורשים פתרונות חדשניים.
רקעים שקופים לאלמנטים ויזואליים
במשך שנים רבות, קיימת דרישה ליצירת אלמנטים ויזואליים עם רקעים שקופים, המאפשרים להציב אותם על רקעים שונים או לשלבם עם אלמנטים אחרים. שיטות קלאסיות כמו הסרת רקעים צבעוניים בווידאו, שהיו בעבר תהליכים מורכבים וממושכים, הפכו לעבודה של דקות בודדות בזכות תוכנות עריכה מתקדמות.
ערוצי אלפא להפרדת אלמנטים ויזואליים
ערוצי אלפא, המהווים למעשה מסכות המסתירות תוכן לא רלוונטי, מאפשרים הפרדה של אלמנטים ויזואליים מהרקע ושילובם עם רקעים חדשים או עם אלמנטים אחרים. תהליך זה, המכונה ‘סגמנטציה סמנטית’, מתקדם בזכות פרויקטים קוד פתוח כמו Segment Anything של Meta.
אתגרי הסגמנטציה הסמנטית
עם זאת, הסגמנטציה הסמנטית מסתמכת על נתונים מאומנים שעשויים להגביל את טווח האובייקטים שניתן להפריד. מודלים המאומנים על נפחי נתונים גדולים יכולים לזהות טווח רחב יותר של אובייקטים, אך עדיין מוגבלים על ידי הקטגוריות שעליהן הם מאומנים. בנוסף, הסגמנטציה הסמנטית היא תהליך פוסט-פקטו, ללא היתרון של רקע צבעוני אחיד שניתן להסיר בקלות.
ניסיונות ליצירת רקעים ירוקים בבינה מלאכותית גנרטיבית
לאור האתגרים הללו, עלתה המחשבה ליצור תמונות ווידאו עם רקעים ירוקים באמצעות בינה מלאכותית גנרטיבית, כך שניתן יהיה להסירם בקלות בשיטות קונבנציונליות. אולם, מודלים גנרטיביים פופולאריים כמו Stable Diffusion מתקשים ליצור רקעים ירוקים חיים וזוהרים באופן מושלם, בשל מגבלות בנתוני האימון שלהם.
פיתוחים חדשניים בשילוב בינה מלאכותית ורקעים צבעוניים
לאור האתגרים הללו, חוקרים ממוסדות שונים פיתחו גישות חדשניות לשילוב בינה מלאכותית גנרטיבית עם רקעים צבעוניים מובחנים. אחת הגישות היא LayerDiffuse של אוניברסיטת סטנפורד, המסוגלת ליצור תמונות עם ערוצי אלפא, אך מוגבלת בשל צורך במשאבי אימון ניכרים ומסד נתונים לא זמין לציבור.
MAGICK – שיטת הפרדה מבוססת בינה מלאכותית
בהמשך, מחקר משותף של Adobe ואוניברסיטת Stonybrook הציג את MAGICK – גישה להפרדת רקעים המאומנת על 150,000 אובייקטים מופרדים שנוצרו על ידי בינה מלאכותית. למרות ההצלחה של השיטה, היא עדיין מוגבלת לתחום היכולת המקורי שעליו אומנה ואינה ניתנת להתאמה אישית בקלות.
TKG-DM – הפרדת רקעים צבעוניים ‘טבעית’ למודל דיפיוזיה לטנטית
שיתוף פעולה חדש בין חוקרים גרמנים ויפנים הציע חלופה מבטיחה בשם TKG-DM (Training-free Chroma Key Content Generation Diffusion Model). גישה זו מסוגלת ליצור רקעים צבעוניים מכל סוג עבור מודלי דיפיוזיה לטנטית כמו Stable Diffusion, ללא הצורך באימון על מסדי נתונים ייעודיים.
גישת TKG-DM
TKG-DM משיגה זאת על ידי אופטימיזציה של הרעש ההתחלתי שממנו נוצרת התמונה במודל הדיפיוזיה הלטנטית. השיטה מרחיבה את ארכיטקטורת Stable Diffusion על ידי תניית הרעש ההתחלתי באמצעות הסטת ממוצע ערוץ צבע (CMS), המאפשרת יצירת דפוסי רעש המעודדים הפרדה ברורה בין רקע לקדמה בתוצאה הסופית.
החוקרים דיווחו על שיפור של 33.7% ו-35.9% בציוני FID ו-mask-FID, בהתאמה, בהשוואה לשיטות אחרות. לפי המאמר, TKG-DM מציע “פתרון יעיל ורב-גוני למשימות יצירת תוכן ויזואלי הדורשות שליטה מדויקת ברקע ובקדמה”, ללא צורך באימון ייעודי.
עם התקדמות מרתקת זו, נראה שהבינה המלאכותית הגנרטיבית הוויזואלית ממשיכה לפרוץ גבולות חדשים ולהציע פתרונות יצירתיים ומהפכניים להפרדת רקעים ויצירת תוכן ויזואלי עשיר ומגוון.