
שיטה חדשנית לגילוי התחזות בשיחות וידאו
- בינה ארטיפישלי
- ספטמבר 26, 2024
- AI Tools, חדשות בינה מלאכותית, מחוללי וידאו
- AI
- 0תגובות
מלחמת החזית החדשה: גילוי התחזות בזמן אמת בשיחות וידאו
לפני כמה חודשים, דוח ממחיש כיצד עובד בנק נרמה להעביר 35 מיליון דולר לזייפן שהתחזה למנהל הבכיר באמצעות סרטון דיפ-פייק (DeepFake) איכותי בשיחת וידאו. אירוע זה מציין מגמה מדאיגה – דיפ-פייקס מתוחכמים כבר אינם תופעה המוגבלת לצילומי תדמית ווידאו בלבד, אלא איום עכשווי על משא ומתן עסקיים רציניים. כדי להילחם באיומים אלה, צוות מחקר משנגחאי הציע גישה חדשנית לגילוי דיפ-פייקס בשיחות וידאו בסמארטפונים.
SFake: שיטת גילוי דיפ-פייק פעילה בזמן אמת
המערכת שלהם, SFake, נוטשת את הגישות הפסיביות הקונבנציונליות לזיהוי דיפ-פייקס – שמבוססות על ניתוח סטטיסטי של סרטונים – ובמקום זאת משנה באופן אקטיבי את תנאי הצילום כדי לחשוף התחזויות. היא גורמת לסמארטפון של המשתמש לרטוט על ידי הפעלת המנגנון הרטט הפנימי שלו, ומטשטשת באופן עדין את הפנים במהלך השיחה. למרות שמערכות דיפ-פייק מתקדמות מסוימות יכולות לשחזר תנועות ופרטים מסוימים, הן חסרות את הכלים לחזות ולהגיב במהירות לשינויים בלתי צפויים מסוג זה. כתוצאה מכך הן ממשיכות להציג קטעי וידאו לא מטושטשים של הפנים, חושפות כך את עצמן.
עליונות על גישות קיימות
בבדיקות מול מאגר נתונים ששימש את הצוות, SFake עלתה על מערכות זיהוי דיפ-פייקס אחרות. היא הצליחה לעמוד גם בנסיבות מאתגרות כמו תנועות יד טבעיות של המשתמשים, שבהן הפנים נעות ללא הפסקה במהלך השיחה. הישג זה הוא תוצאה של ‘רעידת’ הסמארטפון על ידי SFake, המגבירה את רמת האתגר עבור מערכות דיפ-פייק שלא הוכנו לתנאי צילום משתנים ובלתי צפויים אלה.
סכנת דיפ-פייקס בשיחות וידאו
הצורך בפיתוח מערכות לגילוי התחזויות בשיחות וידאו גדל בשנים האחרונות, לאחר סדרה של מקרים מצליחים של הונאות דיפ-פייק קוליות בשנים קודמות. כעת, עם כניסת טכנולוגיית הדור הבא של דיפ-פייקס הכוללים גם וידאו, המחוקקים חוששים מהתגברות מקרי הונאה ותרמית – במיוחד בעסקים ובעולם הפיננסי. סכנות אלה גרמו למחקר הנוכחי לבחון דרכים חדשות למגר את האיום.
למעשה, הדוח על התרמית בסכום של 35 מיליון דולר נחשף רק לאחר שהמנכ”ל השתמש ביישום אימות פנים באחד מביקוריו במשרדי החברה. כשנתקל בהצגת תמונה קפואה של עצמו, הוא חשד שמשהו לא כשורה. חוקרים מצאו שמנהלים בכירים אחרים נרמו באותה תרמית, והניחו שסרטונים מזוייפים איכותיים שוב הונו את הבנקאים לפני ההעברה הכספית.
אירוע זה מדגיש כיצד ככל שטכנולוגיות דיפ-פייק מתקדמות, נדרשות גם שיטות זיהוי מתקדמות שיתאימו אליהן. סביר להניח שבקרוב שיטות לגילוי דיפ-פייקס בזמן אמת יהפכו לחלק אינטגרלי מכלי שיחה פופולריים כמו Zoom, Microsoft Teams, Skype ועוד.
אתגרי השימוש בסמארטפון
עם זאת, מרבית הפתרונות הקיימים לגילוי דיפ-פייקס בשיחות וידאו פותחו לשימוש עם מצלמות רשת נייחות ומיועדים לסביבה יציבה וקבועה. הם מתקשים להתמודד עם האתגרים הייחודיים של שיחות וידאו מסמארטפונים – כמו תנועה, שינויי סביבה ותאורה, איכות חלשה של הזרם ועוד. SFake היא אחת הגישות הראשונות שמעוצבת במיוחד לסביבת הסמארטפון המשתנה, ומשתמשת בכלי הרטט הפנימי של המכשיר כדי ליצור אתגרים שמערכות דיפ-פייק לא מצליחות להתגבר עליהם.
איך עובדת SFake?
רציונל ומתודולוגיה
במקום להסתמך על ניתוח סטטיסטי של סרטוני וידאו קיימים, SFake יוצרת תנאי צילום דינמיים וחסרי תקדים על ידי רטוט מכוון של מצלמת הסמארטפון ויצירת טשטוש עדין על גבי פניו של המשתמש. מערכות דיפ-פייק הופכות חסרות אונים למול תנאים בלתי צפויים כאלה, שכן הן מבוססות על לימוד והטמעה של מצבים סטטיים.
בשלב הראשון, SFake מבצעת זיהוי פנים ובוחרת את האזורים הרלוונטיים כמקורות פוטנציאליים לתוכן מזויף – למעט העיניים והגבות, שינויים בהן אינם ממצאים מובהקים. לאחר מכן, היא מחשבת את הגרדיאנטים (שינויי הצבע והצפיפות) בכל פריים משמעותי של קטע הוידאו, ופוסלת את הפריימים שאינם עומדים בתנאים האידאליים של זיהוי הפנים. הרצף המתקבל משמש כקלט למסווג מיוחד שמעריך את ההסתברות לתוכן מזויף על סמך בסיס הנתונים המאומן שלו.
דרישות חומרה ומרחק
על מנת להפיק קלט באיכות גבוהה, SFake דורשת רזולוציית תמונה של 1920×1080 פיקסלים לפחות, וזום פי 2 לפחות במצלמה. רוב סמארטפונים עדכניים עומדים בדרישות אלו במצלמה הראשית או המשנית. המחקר גילה שהמרחק האופטימלי לצילום הוא 34-38 ס”מ – המרחק שבו רוב המשתמשים מחזיקים את סמארטפונים שלהם במהלך שיחות.
טכניקות להתגברות על תנועה
משימוש מצוין היא האתגר העיקרי שעימו SFake נאלצת להתמודד – תנועת יד המורכבת והבלתי צפויה המאפיינת שיחות סמארטפון. על מנת להתגבר על כך ולשמור על יציבות תמונה מספקת, SFake מחשבת את נקודת המרכז של סמני הפנים המזוהים בכל פריים, ומשתמשת בה כ”עוגן” שסביבו היא מיישרת את התמונה. טכניקת יציבות אלגוריתמית זו הגיעה לרמת דיוק של 92% בהתמודדות עם תנועת יד טבעית של המשתמשים.
איסוף נתונים ותהליך האימון
מאחר שמאגרי הנתונים הקיימים לא כללו דוגמאות לסביבות סמארטפון דינמיות, החוקרים יצרו את מאגר הנתונים שלהם באמצעות צילום של 15 משתתפים במצבים שונים. הם השתמשו ב-8 סוגי סמארטפונים שונים לצילום המשתתפים מגילאים ומגדרים מגוונים, תוך שימוש בדפוסי רטוט שונים במהלך הצילום. בסופו של דבר, נוצרו 1500 קליפים אמיתיים של 4 שניות, וכנגדם – 1500 קליפי דיפ-פייק באותו אורך מחמש מערכות דיפ-פייק שונות.
מסווגים והערכה
בתהליך האימון, SFake הודרכה להבדיל בין הקליפים האמיתיים לקליפי הדיפ-פייק על ידי רשת עצבית דו-שכבתית פשוטה. לאחר מכן, ביצועיה נבדקו כנגד מגוון רחב של מסווגי דיפ-פייק מוכרים כמו FaceAF, CnnDetector, LRNet ואפילו ShiverringAI – שירות חינמי לגילוי דיפ-פייקס. במרבית המקרים, SFake עלתה על הביצועים של השיטות האחרות בסביבת הסמארטפון הדינמית, במיוחד כשהמסווגים האחרים הוכשרו על נתוני וידאו סטטיים.
סיכום
עם התפשטות איום הדיפ-פייקס גם לתחום שיחות הוידאו העסקיות, SFake מהווה חזית חדשה ויעילה להגנה מפני מעשי הונאה ותרמית מתוחכמים אלה. על ידי ניצול היכולות הפשוטות של סמארטפונים – כמו רטוט המסך והפעלת טשטוש בזמן אמת – המערכת מציבה אתגר בלתי צפוי שמערכות דיפ-פייק אינן מצליחות להתגבר עליו. פתרונות כאלה הופכים לחיוניים ככל שהאיום מסתעף לתחומים נוספים של החיים הדיגיטליים.