
Flux: העתיד החדש של סינתזת תמונה טקסטואלית
- אלגו ריתם
- אוגוסט 13, 2024
- UX\UI, חדשות בינה מלאכותית, מחוללי תמונות
- AI
- 0תגובות
Flux: עידן חדש של סינתזת תמונה באמצעות טקסט
מעבדות Black Forest, היוצרים של הפלטפורמה החלוצית Stable Diffusion, מציגות את Flux – סוויטת מודלים מתקדמים שמבטיחה להגדיר מחדש את הסטנדרטים של תמונות שנוצרו באמצעות בינה מלאכותית. האם Flux אכן מייצג קפיצת מדרגה בתחום זה, ואיך היא נמדדת לעומת מובילות התעשייה כמו Midjourney? בואו נצלול לעומק לעולם של Flux ונבחן את הפוטנציאל שלה לשנות את פני העתיד של אמנות ומדיה שנוצרו באמצעות בינה מלאכותית.
שורשיה של Black Forest Labs
לפני שנפרוט את ההיבטים הטכניים של Flux, חשוב להבין את הרקע שמאחורי המודל החדשני הזה. Black Forest Labs אינה סתם עוד סטארט-אפ של בינה מלאכותית; זוהי קבוצת יוצרים מוכשרים עם היסטוריה של פיתוח פורצי דרך של מודלים גנרטיביים של בינה מלאכותית. הצוות כולל את המפתחים של VQGAN, Latent Diffusion וסדרת המודלים Stable Diffusion שזעזעה את עולם האמנות של בינה מלאכותית.
לאחר שגייסה 31 מיליון דולר בסבב מימון הזנק מוביל מאת Andreessen Horowitz ותמיכה ממשקיעי מלאך בולטים, Black Forest Labs ממוקמת כיום בחזית המחקר של בינה מלאכותית גנרטיבית. המטרה שלה ברורה: לפתח ולקדם מודלים גנרטיביים מתקדמים של למידה עמוקה עבור מדיה כגון תמונות וסרטונים, תוך דחיפת הגבולות של היצירתיות, היעילות והמגוון.
מבט על סדרת המודלים Flux
Black Forest Labs הציגה את סוויטת המודלים FLUX.1 לסינתזת טקסט-לתמונה, שמיועדת להציב רף חדש של פירוט תמונה, התאמה להנחיות, מגוון סגנונות ומורכבות סצנה. משפחת Flux מורכבת משלושה וריאנטים, כל אחד ממוקד במקרי שימוש ורמות נגישות שונות:
FLUX.1 [pro]: המודל הדגל, המציע ביצועי שיא ביצירת תמונות עם התאמה מדויקת להנחיות, איכות חזותית גבוהה, תמונות מפורטות ומגוון תפוקות עשיר. זמין דרך API, הוא ממוקד בשימושים מקצועיים וארגוניים ברמה הגבוהה ביותר.
FLUX.1 [dev]: מודל מוחלש ומופעל על ידי הדרכה, למטרות שימוש לא מסחריות. מיועד להשיג רמות איכות והתאמה להנחיות דומות לגרסת הפרו, תוך שיפור היעילות.
FLUX.1 [schnell]: המהדורה המהירה ביותר בסוויטה, האופטימלית לפיתוח מקומי ושימוש אישי. זמינה באופן פתוח תחת רישיון Apache 2.0, הופכת אותה לנגישה למגוון רחב של יישומים וניסויים.
דוגמאות לפרומפטים ייחודיים ויצירתיים
להלן כמה דוגמאות ייחודיות ויצירתיות של פרומפטים שממחישות את היכולות של FLUX.1. הפרומפטים האלה מדגישים את נקודות החוזק של המודל בטיפול בטקסט, בהרכבים מורכבים וברכיבים מאתגרים כמו ידיים:
‘צור דיוקן של וינסנט ואן גוך בסגנונו הייחודי, אבל החלף את זקנו במסלולי מכחול מתפתלים היוצרים את המילים ‘ליל הכוכבים’ בכתב יד ארוך וזורם.’
‘גיבור על מופץ שבורח דרך עמוד קומיקס. קווי הפעולה ואפקטי הקול צריכים ליצור את שם הגיבור ‘כוח FLUX’ בסגנון טיפוגרפי דינמי ומודגש.’
‘צילום תקריב של חתול חמוד בגוונים חומים ולבנים, תחת אור חלון. מיקוד חד על טקסטורות ועל צבעי העיניים. תאורה טבעית כדי לתפוס ברק אותנטי בעיניים ועומק שדה.’
פרומפטים אלו נועדו לאתגר את יכולותיה של Flux ביצירה ושילוב של טקסט, הרכבת סצנות מורכבות ויצירת אובייקטים מפורטים, תוך הדגמת הפוטנציאל שלה ליצירת תמונות ייחודיות וחדשניות.
החידושים הטכניים שמאחורי Flux
בבסיס יכולותיה המרשימות של Flux עומדת שורה של חידושים טכניים שמבדילים אותה ממודלים קודמים ומהמתחרות שלה:
מודלי זרימה גדולים המבוססים על טרנספורמרים
כל מהדורות FLUX.1 הפומביות נשענות על ארכיטקטורה היברידית המשלבת בלוקים מולטימודליים וטרנספורמרים להתפשטות מקבילה, בקנה מידה של 12 מיליארד פרמטרים מרשימים. זוהי קפיצה משמעותית בגודל המודל ובמורכבות שלו בהשוואה לרבים ממודלי הטקסט-לתמונה הקיימים.
מודלי Flux משפרים על מודלי ההתפשטות מקודמיהם על ידי אימוץ שיטת ‘התאמת זרימה’, גישה כוללנית ופשוטה להדרכת מודלים גנרטיביים. התאמת זרימה מספקת מסגרת גמישה יותר למודלים גנרטיביים, כאשר מודלי ההתפשטות הם מקרה פרטי בתוך הגישה הרחבה יותר הזאת.
כדי לשפר את ביצועי המודל ואת יעילות החומרה, Black Forest Labs שילבה עיגונים מרחביים רוטציוניים ושכבות תשומת לב מקבילות. טכניקות אלו מאפשרות הבנה טובה יותר של יחסים מרחביים בתמונות ועיבוד יעיל יותר של נתונים גדולים.
חידושים ארכיטקטוניים
בואו נסקור כמה מהרכיבים הארכיטקטוניים המרכזיים התורמים לביצועי Flux:
ארכיטקטורה היברידית: על ידי שילוב בלוקים מולטימודליים וטרנספורמרים להתפשטות מקבילה, Flux יכולה לעבד בצורה יעילה הן מידע טקסטואלי והן ויזואלי, מה שמוביל להתאמה משופרת בין פרומפטים לתמונות שנוצרו.
התאמת זרימה: גישה זו מאפשרת הדרכה יותר גמישה ויעילה של מודלים גנרטיביים. היא מספקת מסגרת אחידה הכוללת מודלי התפשטות וטכניקות גנרטיביות אחרות, דבר העשוי להוביל לייצור תמונות חזק ורב-תכליתי יותר.
עיגונים מרחביים רוטציוניים: עיגונים אלו מסייעים למודל להבין ולשמר יחסים מרחביים בתוך תמונות בצורה טובה יותר, דבר קריטי ליצירת תוכן ויזואלי קוהרנטי ומפורט.
שכבות תשומת לב מקבילות: טכניקה זו מאפשרת עיבוד יעיל יותר של מנגנוני תשומת לב, החיוניים להבנת הקשרים בין רכיבים שונים בפרומפטים טקסטואליים ובתמונות המונפקות.
קנה מידה של 12 מיליארד פרמטרים: הגודל העצום של המודל מאפשר לו ללכוד ולסנתז דפוסים ויחסים מורכבים יותר, דבר שעשוי להוביל לתפוקות באיכות גבוהה יותר ומגוונות יותר.
מבחן ביצועים לFlux: סטנדרט חדש לסינתזת תמונה
לטענת Black Forest Labs, FLUX.1 מציב סטנדרטים חדשים בסינתזת תמונה, עם עליונות על מודלים פופולריים כמו Midjourney v6.0, DALL·E 3 (HD) ו-SD3-Ultra בהיבטים מרכזיים אלה:
איכות ויזואלית: Flux שואפת לייצר תמונות באיכות פיקסל גבוהה יותר, פרטים ריאליסטיים יותר ואסתטיקה כוללת משכנעת יותר.
התאמה להנחיות: המודל נועד להתאים בצורה מדויקת יותר לפרומפטים הטקסטואליים הנתונים, מייצרת תמונות שמשקפות במדויק את כוונות המשתמש.
גמישות גודל/יחס צדדים: Flux תומכת בטווח רחב של יחסי צדדים ורזולוציות, מ-0.1 ועד 2.0 מגה-פיקסלים, מציעה גמישות למקרי שימוש שונים.
טיפוגרפיה: המודל מציגה יכולות משופרות בייצור ושילוב של טקסט בתוך תמונות, אתגר שכיח עבור רבים ממודלי הטקסט-לתמונה.
מגוון תפוקות: Flux תוכננה במיוחד לשמר את מלוא מגוון התפוקות מתהליך ההדרכה המקורי, מציעה טווח רחב יותר של אפשרויות יצירתיות.
Flux vs Midjourney: ניתוח השוואתי
נתמודד עכשיו עם השאלה הבוערת: האם Flux עולה על Midjourney? כדי לענות על כך, עלינו לשקול מספר גורמים:
איכות התמונה והאסתטיקה
הן Flux והן Midjourney ידועות ביצירת תמונות באיכות גבוהה ומרשימות מבחינה ויזואלית. Midjourney זכתה לשבחים על הסגנון האמנותי שלה והיכולת ליצור תמונות בעלות אסתטיקה ייחודית ומושכת. Flux, עם הארכיטקטורה המתקדמת שלה וכמות הפרמטרים הגדולה יותר, שואפת להשו