מודל גנרטיבי

מודל גנרטיבי (באנגלית: Generative Model) או מודל מחולל, הוא סוג של מודל ממוחשב המסוגל לייצר תוכן חדש, כמו טקסט, תמונות או אודיו, באופן אוטונומי.

המודלים הגנרטיביים לומדים ממאגר נתוני אימון גדול, ואז יוצרים תוצאות חדשות המבוססות על הדפוסים וההקשרים שלמדו. לדוגמה:

מודלים גנרטיביים לטקסט (כמו GPT) מאומנים על מאגר עצום של טקסטים, והם מסוגלים לייצר טקסט חדש הנשמע טבעי ומתאים להקשר.
מודלים גנרטיביים לתמונות (כמו Midjourney) מאומנים על אוסף גדול מאוד של תמונות עם תיאורים טקסטואליים, והם מסוגלים ליצור תמונות חדשות על פי תיאור טקסטואלי.
מודלים גנרטיביים לאודיו (כמו Whisper (אנ')) לומדים ומאומנים על קטעי קול, והם מסוגלים לדבר בקולות עליהם אומנו.

היתרון הגדול של מודלים גנרטיביים הוא היכולת לייצר תוכן חדש ומגוון באיכות גבוהה. האתגר המרכזי הוא לוודא שהתוצאות יהיו מדויקות, אמינות ובטוחות לשימוש.

בסיווג סטטיסטי יש שתי גישות עיקריות:

גישה גנרטיבית (Generative) - המנסה לדמות את התהליך שיצר את הנתונים. לדוגמה, אם הנתונים הם תמונות של בעלי חיים, המודל הגנרטיבי ינסה ללמוד כיצד נוצרות תמונות של בעלי חיים ואז לייצר תמונות חדשות הנראות כמו תמונות אמיתיות של בעלי חיים.
גישה מפלה (Discriminative) - מנסה ישירות למצוא קשר בין הנתונים לתוויות, ללא ניסיון לדמות את התהליך שיצר אותם. לדוגמה, המודל ינסה למצוא קשרים בין פיקסלים בתמונה לבין התווית "חתול" או "כלב" מבלי לנסות לדמות כיצד נוצרות תמונות של חיות.

הגישה הגנרטיבית טובה יותר כאשר יש הרבה נתונים זמינים ורוצים ליצור תוכן חדש. הגישה המפלה טובה יותר למטרות סיווג וחיזוי.

הגדרה[עריכת קוד מקור | עריכה]

מודל ג'נרטיבי מנסה לאמוד את ההתפלגות המשותפת p(x,y) של הנתונים x והתוויות y. כלומר, מהי ההסתברות לקבל את הנתונים והתווית ביחד. מיוצג כ: $P(X\mid Y=y)$ לדוגמה, אם x הוא תמונה ו-y היא התווית "כלב" או "חתול", המודל ינסה לאמוד p(x,y=כלב) ו-p(x,y=חתול). בשלב הבא המודל משתמש בהתפלגות הזו כדי לייצר נתונים חדשים על ידי דגימה מההתפלגות המשותפת.^[1]
מודל מפלה: המודל מנסה ישירות לאמוד את ההתפלגות המותנית p(y|x) - ההסתברות לקבל תווית y עבור נתונים נתונים x. מיוצג כ: $P(Y\mid X=x)$ לדוגמה, המודל יאמוד ישירות את ההסתברות p(y=כלב|x) ו-p(y=חתול|x) בלי לנסות לדמות את תהליך יצירת התמונות. בשלב הבא המודל משתמש בהתפלגות המותנית כדי לסווג נתונים חדשים לתוויות. כלומר, הגישה הגנרטיבית מנסה לחקות את תהליך יצירת הנתונים, ואילו הגישה המפלה הולכת ישירות מהנתונים לחיזוי התוויות.^[2]

המונח "מודל ג'נרטיבי" משמש גם לתיאור מודלים היוצרים מופעים של משתני פלט באופן שאין לו קשר ברור להתפלגות הסתברות על מדגמים פוטנציאליים של משתני קלט. רשתות יריבות גנרטיביות הן דוגמאות לסוג זה של מודלים ג'נרטיביים, ונשפטות בעיקר על פי הדמיון של תפוקות מסוימות לתשומות פוטנציאליות. מודלים כאלה אינם מסווגים.

יחסים בין דגמים[עריכת קוד מקור | עריכה]

ביישומי סיווג, ה-X הנצפה הוא בדרך כלל משתנה רציף, היעד Y הוא בדרך כלל משתנה בדיד המורכב מקבוצה סופית של תוויות, וההסתברות המותנית P(Y|X) ניתן לפרש גם כפונקציית היעד (לא דטרמיניסטית) f: X → Y, בהתחשב ב-X כקלטים וב-Y כפלטים.

בהינתן קבוצה סופית של תוויות, שתי ההגדרות של "מודל ג'נרטיבי" קשורות קשר הדוק. מודל של ההתפלגות המותנית P(X|Y=y) הוא מודל של התפלגות של כל תווית, ומודל של התפלגות משותפת שווה ערך למודל של התפלגות ערכי התווית P(Y), יחד עם התפלגות התצפיות שקיבלה תווית, P(X|Y); באופן סמלי, P(X,Y) = P(X|Y)P(Y). לפיכך, בעוד שמודל של התפלגות ההסתברות המשותפת הוא אינפורמטיבי יותר ממודל של התפלגות התווית (אך ללא התדירויות היחסיות שלהם), זהו צעד קטן יחסית, ומכאן שלא תמיד ניתן להבחין ביניהם.

בהינתן מודל של החלוקה המשותפת, P(X,Y), ניתן לחשב את התפלגות המשתנים הבודדים כהתפלגויות השוליות P(X) = ∑y P(X,Y=y) ו- P(Y) = ∫x P(Y,X=x) (צריך להתחשב ב-X כרציף, ומכאן משתלב מעליו, ו-Y כבדיד), וניתן לחשב כל התפלגות מותנית מתוך ההגדרה של הסתברות מותנית: P(X|Y) = P(X,Y)/P(Y) ו- P(Y|X) = P(X,Y)/P(X).

נתון מודל של הסתברות מותנית אחת, והתפלגויות הסתברות משוערות עבור המשתנים X ו-Y, המסומנים P(X) ו-P(Y), ניתן להעריך את ההסתברות המותנית ההפוכה באמצעות כלל בייס:

P(X\mid Y)P(Y)=P(Y\mid X)P(X).

לדוגמה, נתון מודל ג'נרטיבי עבור P(X|Y), אפשר להעריך:

P(Y\mid X)=P(X\mid Y)P(Y)/P(X),

וניתן מודל מפלה עבור $P(Y\mid X)$ , אפשר להעריך:

P(X\mid Y)=P(Y\mid X)P(X)/P(Y).

שימו לב שהכלל של בייס (חישוב הסתברות מותנית אחת במונחים של האחרת) וההגדרה של הסתברות מותנית (חישוב הסתברות מותנית במונחים של ההתפלגות המשותפת) מתערבבים לעיתים קרובות גם כן.

ניגוד למסווגים מפלים[עריכת קוד מקור | עריכה]

אלגוריתם מחולל מדגים כיצד נוצרו הנתונים כדי לסווג אות. היא שואלת את השאלה: בהתבסס על הנחות הדור שלי, איזו קטגוריה צפויה לייצר את האות הזה? לאלגוריתם מפלה לא אכפת מהאופן שבו הנתונים נוצרו, הוא פשוט מסווג אות נתון. אז אלגוריתמים מפלים מנסים ללמוד $p(y|x)$ ישירות מהנתונים ולאחר מכן נסה לסווג נתונים. מצד שני, אלגוריתמים גנרטיביים מנסים ללמוד $p(x,y)$ שאפשר להפוך ל $p(y|x)$ מאוחר יותר כדי לסווג את הנתונים. אחד היתרונות של אלגוריתמים גנרטיביים הוא שאתה יכול להשתמש בהם $p(x,y)$ ליצור נתונים חדשים הדומים לנתונים קיימים. מצד שני, הוכח שחלק מהאלגוריתמים המפלים נותנים ביצועים טובים יותר מאלגוריתמים מחוללים במשימות סיווג. ^[3]

למרות העובדה שמודלים מפלים אינם צריכים ליצור מודל של התפלגות המשתנים הנצפים, הם אינם יכולים לבטא בדרך כלל קשרים מורכבים בין המשתנים הנצפים למשתני היעד. אבל באופן כללי, הם לא בהכרח מתפקדים טוב יותר ממודלים גנרטיביים במשימות סיווג ורגרסיה. שני המעמדות נתפסים כמשלימים או כהשקפות שונות של אותו הליך.

מודלים יצירתיים עמוקים[עריכת קוד מקור | עריכה]

עם עליית הלמידה העמוקה, נוצרת משפחה חדשה של שיטות, הנקראות מודלים יצירתיים עמוקים (DGMs),^[4] באמצעות שילוב של מודלים גנרטיביים ורשתות עצביות עמוקות. עלייה בקנה המידה של הרשתות העצביות מלווה בדרך כלל בהגדלת קנה המידה של נתוני האימון, שניהם נדרשים לביצועים טובים.

DGMs פופולריים כוללים מקודדים אוטומטיים וריאציות (VAEs), רשתות יריבות (GANs) ומודלים אוטומטיים רגרסיביים. לאחרונה, יש מגמה לבנות מודלים גנרטיביים עמוקים מאוד. לדוגמה, GPT-3, והמבשר שלו GPT-2, ^[5] הם מודלים של שפה עצבית אוטומטית רגרסיבית המכילים מיליארדי פרמטרים, BigGAN ו-VQ-VAE המשמשים ליצירת תמונות שיכולות להיות מאות מיליוני פרמטרים, ו-Jukebox הוא מודל מחולל גדול מאוד לאודיו מוזיקלי המכיל מיליארדי פרמטרים. ^[6]

סוגים[עריכת קוד מקור | עריכה]

מודלים ג'נרטיביים[עריכת קוד מקור | עריכה]

סוגי מודלים גנרטיביים הם:

אם הנתונים הנצפים נדגמים באמת מהמודל הג'נרטיבי, אז התאמת הפרמטרים של המודל הג'נרטיבי כדי למקסם את סבירות הנתונים היא שיטה נפוצה. עם זאת, מכיוון שרוב המודלים הסטטיסטיים הם רק קירובים להתפלגות האמיתית, אם היישום של המודל הוא להסיק על תת-קבוצה של משתנים המותנים בערכים ידועים של אחרים, אז ניתן לטעון שהקירוב מניח יותר הנחות ממה שצריך כדי לפתור את בעיה בהישג יד. במקרים כאלה, זה יכול להיות מדויק יותר לדגמן את פונקציות הצפיפות המותנית ישירות באמצעות מודל אבחנה, אם כי פרטים ספציפיים ליישום יכתיבו בסופו של דבר איזו גישה מתאימה ביותר בכל מקרה מסוים.

מודלים מפלים[עריכת קוד מקור | עריכה]

דוגמאות[עריכת קוד מקור | עריכה]

דוגמה פשוטה[עריכת קוד מקור | עריכה]

נניח שנתוני הקלט הם $x\in \{1,2\}$ , סט התוויות עבור $x$ הוא $y\in \{0,1\}$ , ויש את 4 נקודות הנתונים הבאות: $(x,y)=\{(1,0),(1,1),(2,0),(2,0)\}$

עבור הנתונים לעיל, אומדן התפלגות ההסתברות המשותפת $p(x,y)$ מהמדד האמפירי יהיו הדברים הבאים:

	$y=0$	$y=1$
$x=1$	$1/4$	$1/4$
$x=2$	$2/4$	$0$

בזמן $p(y|x)$ יהיה הבא:

	$y=0$	$y=1$
$x=1$	$1/2$	$1/2$
$x=2$	$1$	$0$

הערות שוליים[עריכת קוד מקור | עריכה]

^ Mitchell 2015: "We can use Bayes rule as the basis for designing learning algorithms (function approximators), as follows: Given that we wish to learn some target function $f\colon X\to Y$ , or equivalently, $P(Y\mid X)$ , we use the training data to learn estimates of $P(X\mid Y)$ and $P(Y)$ . New X examples can then be classified using these estimated probability distributions, plus Bayes rule. This type of classifier is called a generative classifier, because we can view the distribution $P(X\mid Y)$ as describing how to generate random instances X conditioned on the target attribute Y.
^ Mitchell 2015: "Logistic Regression is a function approximation algorithm that uses training data to directly estimate $P(Y\mid X)$ , in contrast to Naive Bayes. In this sense, Logistic Regression is often referred to as a discriminative classifier because we can view the distribution $P(Y\mid X)$ as directly discriminating the value of the target value Y for any given instance X
^ Ng & Jordan 2002
^ A deep generative model trifecta: Three advances that work towards harnessing large-scale power - Microsoft Research, Microsoft Research, ‏9 באפריל 2020
^ "Better Language Models and Their Implications". OpenAI. 14 בפברואר 2019. {{cite web}}: (עזרה)
^ "Jukebox". OpenAI. 30 באפריל 2020. {{cite web}}: (עזרה)

[mitchell2015generative-1] Mitchell 2015: "We can use Bayes rule as the basis for designing learning algorithms (function approximators), as follows: Given that we wish to learn some target function $f\colon X\to Y$ , or equivalently, $P(Y\mid X)$ , we use the training data to learn estimates of $P(X\mid Y)$ and $P(Y)$ . New X examples can then be classified using these estimated probability distributions, plus Bayes rule. This type of classifier is called a generative classifier, because we can view the distribution $P(X\mid Y)$ as describing how to generate random instances X conditioned on the target attribute Y.

[mitchell2015discriminative-2] Mitchell 2015: "Logistic Regression is a function approximation algorithm that uses training data to directly estimate $P(Y\mid X)$ , in contrast to Naive Bayes. In this sense, Logistic Regression is often referred to as a discriminative classifier because we can view the distribution $P(Y\mid X)$ as directly discriminating the value of the target value Y for any given instance X

[3] Ng & Jordan 2002

[4] A deep generative model trifecta: Three advances that work towards harnessing large-scale power - Microsoft Research, Microsoft Research, ‏9 באפריל 2020

[5] "Better Language Models and Their Implications". OpenAI. 14 בפברואר 2019. {{cite web}}: (עזרה)

[6] "Jukebox". OpenAI. 30 באפריל 2020. {{cite web}}: (עזרה)

[1]

[2]

[3]

[4]

[5]

[6]