
חשיפת זהויות במאגרי נתונים סינתטיים
- אלגו ריתם
- נובמבר 11, 2024
- חדשות בינה מלאכותית
- AI
- 0תגובות
הממשק הסינתטי חושף זהויות אמיתיות
שנת 2022 סימנה את הרגע שבו הפוטנציאל המשבש של בינה מלאכותית גנרטיבית זכה לראשונה לתשומת לב ציבורית רחבה. בשנת 2024, שאלות לגבי החוקיות של הנתונים שעליהם מבוססת הטכנולוגיה הפכו למרכז תשומת הלב של עסקים המעוניינים לנצל את כוחה.
ההשלכות המשפטיות
בארצות הברית, דוקטרינת השימוש ההוגן והרישיון האקדמי המשתמע, שאפשרו במשך זמן רב לסקטורים המסחריים והמחקריים לחקור בינה מלאכותית גנרטיבית, הפכו בלתי אפשריים ככל שהוכחות להעתקה התגברו. כתוצאה מכך, ארצות הברית אסרה לפחות בינתיים על מתן זכויות יוצרים לתוכן שנוצר על ידי בינה מלאכותית.
סוגיות אלו רחוקות מלהיות סופיות או מוכרעות בקרוב. בשנת 2023, בשל דאגה גוברת מצד התקשורת והציבור לגבי המעמד החוקי של תפוקות בינה מלאכותית גנרטיבית, משרד הזכויות היוצרים בארה”ב יזם חקירה ארוכת שנים בהיבט זה של הטכנולוגיה, ופרסם את החלק הראשון (העוסק בשכפולים דיגיטליים) ביולי 2024.
האינטרסים העסקיים
בינתיים, חברות נותרו מוסכלות מהאפשרות שהמודלים היקרים שהן מעוניינות לנצל עלולים לחשוף אותן להשלכות משפטיות כאשר חקיקה והגדרות ממשיות יתבהרו. הפתרון לטווח הקצר היה להכשיר את המודלים הגנרטיביים על נתונים שלחברות יש זכות לנצלם.
ארכיטקטורת הטקסט-לתמונה (ולאחרונה גם טקסט-לווידאו) של אדובי, Firefly, מופעלת בעיקר על ידי רכישת מאגר התמונות הסטוקיות Fotolia בשנת 2014, שהושלמה בשימוש בנתונים ציבוריים שזכויות היוצרים עליהם פגו*. במקביל, ספקי תמונות סטוק מובילים כמו Getty ו-Shutterstock הפיקו תועלת מהערך החדש של הנתונים הרשומים שלהם, ופיתחו מערכות בינה מלאכותית גנרטיבית משלהן העומדות בדרישות הקניין הרוחני.
פתרונות סינתטיים
מאחר שהסרת נתונים בזכויות יוצרים ממרחב הלמידה החבוי של מודל בינה מלאכותית כרוכה בבעיות, טעויות בתחום זה עלולות להיות יקרות מאוד לחברות המציעות פתרונות צרכניים ועסקיים המבוססים על למידת מכונה.
פתרון חלופי וזול יותר למערכות ראיית מחשב וגם למודלים גדולים של שפה הוא השימוש בנתונים סינתטיים, כלומר מאגר נתונים המורכב מדוגמאות אקראיות ומוגנרטות של התחום המטרה (כמו פנים, חתולים, כנסיות, או אפילו מאגר נתונים מכליל יותר).
אתרים כמו thispersondoesnotexist.com פופולריזו את הרעיון שתמונות אותנטיות למראה של אנשים ‘לא-אמיתיים’ יכולות להיות ממוסכמות (במקרה זה באמצעות רשתות גנרטיביות אדוורסריאליות, או GANs) מבלי להתייחס לאנשים שקיימים בעולם האמיתי.
איזון בין שיקולים
לכן, אם אתה מכשיר מערכת זיהוי פנים או מערכת גנרטיבית על דוגמאות מופשטות ולא אמיתיות כאלה, אתה יכול בתיאוריה להשיג רמה פוטוריאליסטית של ביצועים עבור מודל בינה מלאכותית מבלי צורך לשקול אם הנתונים חוקיים לשימוש.
הבעיה היא שהמערכות שמייצרות נתונים סינתטיים עצמן מוכשרות על נתונים אמיתיים. אם עקבות מאותם הנתונים דולפים לנתונים הסינתטיים, זה עלול לספק ראיה לכך שחומר מוגבל או לא מורשה אחרת הונצל לטובת רווח כספי.
כדי למנוע זאת ולאפשר ייצור של תמונות ‘אקראיות’ באמת, מודלים כאלה צריכים להבטיח שהם מוכללים היטב. ההכללה היא המידה שבה מודל בינה מלאכותית מאומן מסוגל להבין מושגים ברמה גבוהה (כמו ‘פנים’, ‘גבר’ או ‘אישה’) מבלי להסתמך על שיחזור הנתונים שבאמצעותם הוא הוכשר.
לצערנו, למערכות מאומנות עלול להיות קשה לייצר (או לזהות) פרטים מפורטים אלא אם כן הן מוכשרות באופן נרחב על מאגר נתונים. זה חושף את המערכת לסיכון של שינון: נטייה לשחזר, במידה מסוימת, דוגמאות של נתוני ההכשרה בפועל.
ניתן למתן זאת על ידי קביעת קצב למידה רפוי יותר, או על ידי סיום הכשרה בשלב שבו המושגים הליבה עדיין גמישים ולא קשורים לנקודת נתונים ספציפית (כמו תמונה ספציפית של אדם, במקרה של מאגר נתוני פנים). אולם, שני הפתרונות הללו צפויים להוביל למודלים עם פחות פרטים מדויקים, מכיוון שלמערכת לא הייתה הזדמנות להתקדם מעבר ל’בסיסים’ של תחום המטרה ולפרטים הספציפיים.
לפיכך, בספרות המדעית מיושמים בדרך כלל קצבי למידה גבוהים מאוד ולוחות זמנים מקיפים להכשרה. בעוד שחוקרים נוהגים לנסות לפשר בין יישום רחב לבין פרטים מדויקים במודל הסופי, אפילו מערכות שמציגות ‘שינון’ מועט עלולות להיחשב כמוכללות היטב – אפילו בבדיקות ראשוניות.
חשיפת פנים
זה מביא אותנו למחקר חדש ומעניין משוויץ, שטוען כי הוא הראשון להוכיח שהתמונות המקוריות, האמיתיות שמפעילות את הנתונים הסינתטיים יכולות להיות משוחזרות מתמונות מוגנרטות שאמורות בתיאוריה להיות לגמרי אקראיות:
לטענת המחברים, התוצאות מצביעות על כך ש’סינתטיים’ גנרטיביים אכן שינו את רוב נקודות הנתונים להכשרה, בחיפושם אחר פרטים מדויקים יותר. הם גם מצביעים על כך שמערכות שמסתמכות על נתונים סינתטיים כדי להגן על יצרני בינה מלאכותית מהשלכות משפטיות עלולות להיות לא אמינות מאוד מבחינה זו.
החוקרים ערכו מחקר נרחב על שישה מאגרי נתונים סינתטיים מהמתקדמים ביותר, ומראים שבכל המקרים ניתן לשחזר נתונים מקוריים (שעלולים להיות בזכויות יוצרים או מוגנים). הם מסכמים:
‘ניסויינו מראים שמאגרי נתונים סינתטיים של זיהוי פנים מהמוכשרים ביותר כיום מכילים דוגמאות שקרובות מאוד לדוגמאות בנתוני ההכשרה של מודלי הגנרציה שלהם. במקרים מסוימים הדוגמאות הסינתטיות מכילות שינויים קטנים לתמונה המקורית, אך אנו יכולים גם לראות במקרים מסוימים שהדוגמא שנוצרה מכילה יותר שינויים (לדוגמה, זווית צילום שונה, תנאי תאורה שונים, וכו’) בעוד שהזהות נשמרת.
‘זה מרמז שמודלי הגנרציה לומדים ושוכחים את המידע הקשור לזהויות מנתוני ההכשרה ויכולים ליצור זהויות דומות. דבר זה יוצר חששות קריטיים לגבי היישום של נתונים סינתטיים במשימות רגישות לפרטיות, כגון ביומטריקה וזיהוי פנים.’
השיטה, הנתונים והתוצאות
הפנים שנשמרו במחקר התגלו על ידי ‘התקפת הסקת חברות’. למרות שהמושג נשמע מסובך, הוא די עצמו מסביר: הסקת חברות, במקרה זה, מתייחסת לתהליך של שאילת שאלות למערכת עד שהיא מגלה נתונים שאו שתואמים לנתונים שאתה מחפש, או דומים להם באופן משמעותי.
החוקרים חקרו שישה מאגרי נתונים סינתטיים שמקור הנתונים האמיתיים שלהם היה ידוע. מכיוון ששני מאגרי הנתונים, הן האמיתיים והן המזויפים, מכילים נפח גבוה מאוד של תמונות, זה למעשה כמו לחפש מחט בערימת שחת.
לפיכך, המחברים השתמשו במודל זיהוי פנים מדף† עם שלדת ResNet100 שאומנה על פונקציית האובדן AdaFace. זה אפשר להם לחפש במהירות את התמונות המוגנרטות הדומות ביותר לדוגמאות הנתונים המקוריות שידועות להם.
המחקר נושא את הכותרת ‘Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities’ (‘חשיפת פנים סינתטיים: כיצד מאגרי נתונים סינתטיים יכולים לחשוף זהויות אמיתיות’), ומגיע משני חוקרים ממכון המחקר Idiap במרטיני, מבית הספר הפוליטכני הפדרלי של לוזאן (EPFL), ומאוניברסיטת לוזאן (UNIL).