אלגוריתם מיקסום התוחלת

מתוך ויקיפדיה, האנציקלופדיה החופשית
יש לערוך ערך זה. ייתכן שהערך סובל מבעיות ניסוח, סגנון טעון שיפור או צורך בהגהה, או שיש לעצב אותו, או מפגמים טכניים כגון מיעוט קישורים פנימיים.
אתם מוזמנים לסייע ולערוך את הערך. אם לדעתכם אין צורך בעריכת הערך, ניתן להסיר את התבנית. ייתכן שתמצאו פירוט בדף השיחה.
יש לערוך ערך זה. ייתכן שהערך סובל מבעיות ניסוח, סגנון טעון שיפור או צורך בהגהה, או שיש לעצב אותו, או מפגמים טכניים כגון מיעוט קישורים פנימיים.
אתם מוזמנים לסייע ולערוך את הערך. אם לדעתכם אין צורך בעריכת הערך, ניתן להסיר את התבנית. ייתכן שתמצאו פירוט בדף השיחה.
דוגמה לשימוש באלגוריתם EM כדי ליצור אשכולות (Clustering). בדוגמה זו מוצג מידע על התפרצויות גייזר אולד פיית'פול. ציר ה-X מבטא את משך ההתפרצות של גייזר, וציר ה-Y מבטא את הזמן שחלף מההתפרצות הקודמת. האלגוריתם מגיע להתכנסות ולסיווג לשני סוגים של התפרצויות הגייזר אולד פיית'פול.

אלגוריתם מיקסום התוחלת (באנגלית: Expectation–maximization; ובראשי תיבות: EM) הוא שיטה איטרטיבית למציאת אומדי נראות מקסימלית לפרמטרים, במודלים סטטיסטיים התלויים במשתנים סמויים שלא נצפו. מודל איטרציה זה עובר בין שני שלבים: שלב התוחלת (שלב ה-E), אשר יוצר פונקציה על התוחלת של לוג הנראות המוערך באמצעות האומדן הנוכחי עבור הפרמטרים, ושלב המיקסום (שלב ה-M), אשר מחשב את הפרמטרים כדי למקסם את תוחלת לוג הנראות שנמצאו בשלב התוחלת. פרמטרי הערכות אלה משמשים לאחר מכן לקבוע את ההתפלגות של המשתנים החבויים בשלב התוחלת הבא.

היסטוריה[עריכת קוד מקור | עריכה]

אלגוריתם EM קיבל את שמו לראשונה בשנת 1977 במאמר מאת ארתור דמפסטר, נאן ליירד, ודונלד רובין.[1] במאמר זה ציינו החוקרים כי בעבר השיטה כבר הועלתה על כתב בידי מחברים אחרים. דמפסטר-ליירד-רובין הגדירו את שיטת מיקסום-התוחלת ככלי חשוב בניתוח סטטיסטי, לפתרון מגוון רחב ביותר של בעיות. עם זאת, ניתוח ההתכנסות של דמפסטר-ליירד-רובין היה פגום, וניתוח התכנסות נכון פורסם על ידי ס.פ ג'ף וו ב-1983.[2]

מבוא[עריכת קוד מקור | עריכה]

אלגוריתם EM משמש למציאת משתני הנראות המקסימלית במקרים שבהם לא ניתן לפתור את המשוואה באופן ישיר. בדרך כלל מודל מסוג זה מכיל משתנים סמויים, משתנים לא ידועים ומאגר נתונים ידוע. מציאת פתרון נראות מרבית דורש שימוש בנגזרות של פונקציית הנראות המתייחסת לכל המשתנים הידועים. במודלים סטטיסטיים המכילים משתנים סמויים שיטה זו אינה אפשרית, ולכן במקרים כאלה צריך לבנות קבוצה של משוואות שפתרונן דורש את ערכי המשתנים הסמויים ולהפך. אולם החלפת קבוצת משוואות מסוימת באחרת תיצור משוואה ללא פתרון.

אלגוריתם EM מתבסס על ההנחה שזו הדרך היחידה לפתור את שתי המשוואות הללו באופן מספרי. אפשר פשוט לבחור ערכים שרירותיים לאחת משתי הקבוצות ולהשתמש בהם כדי לאמוד את ערכי הקבוצה השנייה. לאחר-מכן ניתן להשתמש בערכים החדשים שמצאנו כדי למצוא אומדן טוב יותר לערכי הקבוצה הראשונה. כך ניתן להמשיך ולאמוד לסירוגין את ערכי שתי הקבוצות עד שהערכים וגם התוצאות של שתי המשוואות יתכנסו לנקודות קבועות. התכנסות זו נובעת מכך שהנגזרת של הנראות היא אפס בנקודה זו (או לפחות קטנה כרצוננו), ולכן הנקודה היא נקודת מקסימום או נקודת אוכף. באופן כללי ייתכן שיש כמה נקודות מקסימום מקומיות, ואין שום ערובה לכך שהמקסימום הגלובלי יימצא. ישנן פונקציות נראות מסוימות אשר יש בהם גם סינגולריות, כלומר מקסימום שטותי.

תיאור מתמטי[עריכת קוד מקור | עריכה]

בהינתן מודל סטטיסטי המורכב מסדרת מדידות X, קבוצת נתונים סמויים שאינם נראים או ערכים חסרים Z, ווקטור של פרמטרים לא ידועים θ, ופונקציית נראות , הערכת הנראות המרבית של הפרמטרים הלא ידועים נקבעת על ידי הנראות השולית של הנתונים הנצפים: . אלגוריתם EM מבקש למצוא את הערכת הנראות המרבית של הנראות השולית על ידי יישום איטרטיבי של שני הצעדים הבאים:

שלב התוחלת (שלב ה-E): חישוב תוחלת הלוגריתם של פונקציית הנראות, ביחס להתפלגות המותנית של X ו-Z ותחת האומדן הנוכחי של הפרמטרים :

שלב המיקסום (שלב ה-M): מצא וקטור של פרמטרים θ שמגדיל את התוחלת שחושבה בצעד הראשון:

המודלים שבהם אופייני להשתמש באלגוריתם EM:

  1. הערכים שנמדדו X יכולים להיות בדידים או רציפים (בפרט הם יכולים לקבל ערכים מקבוצה אינסופית). למעשה ייתכן שיש וקטור של ערכים בכל אחת מהתצפיות.
  2. הערכים החסרים Z הם בדידים, ונמשכים ממספר קבוע של משתנים, ויש משתנה חבוי אחד לכל קבוצת משתנים שנצפתה.
  3. הפרמטרים הם רציפים, ומשני סוגים: פרמטרים הקשורים לכל נקודות הנתונים ופרמטרים הקשורים עם ערך מסוים של המשתנה הסמוי.

עם זאת, ניתן להחיל את אלגוריתם EM על כל מיני מודלים.

המוטיבציה היא כזו: אם אנחנו יודעים את הערך של הפרמטר θ, אנחנו בדרך כלל יכולים למצוא את ערכיהם של המשתנים הסמויים Z על ידי מקסימיזציית לוג הנראות על כל הערכים האפשריים של Z, אפשר פשוט על ידי איטרציה על Z או דרך אלגוריתם כגון אלגוריתם ויטרבי עבור מודלי מרקוב חבויים. לעומת זאת, אם אנחנו יודעים את הערך של המשתנים הסמויים Z, נוכל להעריך את הפרמטר θ בקלות יחסית, בדרך כלל על ידי קיבוץ הנתונים שנצפו על פי ערכו של המשתנה הסמוי הקשור, וחישוב הממוצע (או פונקציה כלשהי) של ערכי הנקודות בכל קבוצה. הדבר מצביע על אלגוריתם איטרטיבי, במקרה שבו הן הקבוצה Z והן הווקטור θ לא ידוע:

  1. ראשית, צריך לאתחל את הפרמטרים הלא ידועים של וקטור θ לערכים אקראיים כלשהם.
  2. לחשב את ההסתברות לכל נתון או ערך בקבוצה Z לפי ערכי הפרמטרים של וקטור θ שחושבו בשלב 1.
  3. להשתמש בערכי Z שחושבו בשלב 2 כדי לחשב אומדן טוב יותר לפרמטרים של וקטור θ. פרמטרים הקשורים לנתון או ערך מסוים בקבוצה Z ישמשו רק עם נקודות המידע אשר המשתנים החבויים שמקושרים איתם הם בעלי אותו הערך.
  4. יש לחזור על השלבים 2 ו-3 עד להתכנסות.

הוכחת נכונות[עריכת קוד מקור | עריכה]

אלגוריתם EM פועל לשפר את הביטוי במקום לשפר ישירות את הביטוי . ההוכחה שלהלן תראה כי שיפורים בביטוי הראשון גוררים שיפורים בביטוי האחרון:

מתוך הגדרת ההסתברות המותנית,

או באופן שקול, אם ההסתברות ל-Z איננה אפס בהינתן X ו-θ, כלומר: , אז:
אם מוציאים לוגריתם לשני הצדדים של המשוואה, מתקבל:

לשם ההמשך, ההוכחה תניח ש-Z הוא משתנה מקרי בדיד, אבל ההוכחה תקפה (בשינויים הנדרשים) גם עבור משתנה מקרי רציף.

בשלב הבא, מחשבים את התוחלת על ערכים של Z על ידי הכפלת שני הצדדים ב- וסיכום על Z. ביחס ל-Z, צד שמאל הוא תוחלת של קבוע, כך שמתקבל:

מוגדר בתור הנגדי לסכום שאותו מחליף, והוא אינו אלא האנטרופיה הצולבת בין ההתלפגות המיוחסת ל- לבין ההתפלגות המיוחסת ל-. המשוואה זו תקפה לכל ערך של θ, ובפרט אם ,

ומתוך חיסור המשוואה האחרונה מהמשוואה הקודמת מתקבל

עם זאת, מאי-שוויון גיבס (אנ') נובע כי .

מאפיינים[עריכת קוד מקור | עריכה]

שלב התוחלת הוא קצת מטעה. בשלב הראשון מה שמחושב הם הפרמטרים הקבועים, פרמטרים תלויי נתונים של הפונקציה Q. לאחר שהפרמטרים של הפונקציה Q חושבו, הם נקבעים באופן סופי ומובאים לידי מקסימום בשלב השני של המיקסום.

על אף פעולת האיטרציה באלגוריתם EM מגדילה את המידע הידוע על פונקציית הנראות, אין בכך ערובה שהתהליך יוביל בסופו של דבר לאומדן נראות מרבי. כלומר, אלגוריתם EM עשוי להתכנס למקסימום מקומי של פונקציית נראות שנצפתה, בהתאם לערכי ההתחלה. ישנן מגוון של גישות היוריסטיות ליציאה ממקסימום מקומי כגון אתחול אקראי או באמצעות שימוש בשיטות חישול מדומה.

שימוש באלגוריתם EM הוא שימושי במיוחד כאשר הנראות היא ממשפחת המעריכיים. צעד התוחלת הופך לסכום של תוחלות של סטטיסטים מספיקים וצעד המיקסום דואג למקסם את הפונקציה הליניארית. במקרה כזה, בדרך כלל ניתן לגזור עדכוני צורה סגורה לכל שלב, תוך שימוש בנוסחת סונדברג.

יישומים[עריכת קוד מקור | עריכה]

מסנן קלמן משמש בדרך כלל עבור מדיניות הערכה online, ומינימום שונות חלקות עשויים להיות במדיניות הערכה off-line או הערכת מצב באצווה. פתרונות שונים דורשים הערכות של הפרמטרים מודל מרחב מצבים. סינון ושיפור אלגוריתמי תוחלת-מקסום עשויה להתרחש על ידי חזרה על התהליך בן שני השלבים הבאים:

שלב התוחלת להפעיל מסנן קלמן או מחליק עם שונות מינימלית, המעוצב עם הערכות הפרמטר הנוכחיות, כדי לקבל הערכות מצב מעודכנות.

שלב המיקסום השתמש בהערכות המצב המסוננות או המוחלקות בחישוב הנראות המקסימלית, כדי לקבל אומדני פרמטר מעודכנים. נניח שמסנן קלמן או מינימום שונות חלקה יותר פועל על מדידות רועשות של מערכת יחיד קלט יחיד פלט. ניתן לקבל אומדן שונות רעש מדידה מעודכן מחישוב הנראות המקסימלית.

כאשר הם אומדני תפוקת סקלר מחושבים על ידי מסנן או חלק ממדידות סקלר N . לתהליך אוטומטי רגרסיבית מסדר ראשון, אומדן שונות רעש תהליך מעודכן יכול להיות מחושב על ידי .

כאשר ו- אומדני מדינת סקלר מחושבים על ידי מסנן או חלק יותר. ההערכה מקדם מודל המעודכן מתקבלת באמצעות: .

גרסאות[עריכת קוד מקור | עריכה]

מספר שיטות הוצעו על מנת להאיץ את ההתכנסות האיטית של אלגוריתם EM, כדוגמת אלו המשתמשות בשיפוע צמוד ומותאמות לטכניקות ניוטון-רפסון. בנוסף ניתן להשתמש ב-EM לטכניקות הערכה מאולצות. מיקסום מותנה תוחלת מחליף כל צעד של מיקסום עם רצף של שלבי מיקסום מותנים שבהם כל פרמטר θi מוגדל באופן יחיד והתנאים על הפרמטרים האחרים נותרים כפי שהם. רעיון זה, להאריך את האלגוריתם עוד יותר במיקסום תוחלת כללי ושבו רק פרמטר אחד גורם לעלייה בפונקציית המטרה F, לאחר ביצוע שני הצעדים של האלגוריתם (תוחלת ומיקסום), מהווה גרסה שימושית נוספת של אלגוריתם זה. ניתן גם לתאר את אלגוריתם EM כסדרה של אלגוריתמי מיקסום-מיקסום, ואפשר לעשות שימוש בכל התכונות שפותחו גם במקרה הכללי יותר.

אלגוריתם EM-α[עריכת קוד מקור | עריכה]

הפונקציה Q המשמשת באלגוריתם EM מבוססת על לוגריתם הנראות. לכן, הוא נחשב לאלגוריתם לוג-תוחלת-מקסום. ניתן להכליל לשימוש בלוג הנראות של יחס סיכוי α-לוג. לאחר מכן, יחס הנראות של לוג-α של הנתונים שנצפו יכול לבוא לידי ביטוי בדיוק כשוויון באמצעות הפונקציה Q של יחס סיכוי α-log ו-α-הסטייה. קבלת פונקציה Q זו היא צעד תוחלת כללי. המקסום שלה הוא צעד מקסום כללי. זוג זה נקרא אלגוריתם EM-α אשר מכיל את אלגוריתם לוג-תוחלת-מקסום. לכן, אלגוריתם EM-α הוא הכללה של אלגוריתם לוג-תוחלת-מקסום מדויקת. אין צורך בחישוב מטריצת שיפוע או הסיאן. ניתן לראות באלגוריתם EM-α התכנסות מהירה יותר מאשר אלגוריתם לוג-תוחלת-מקסום על ידי בחירת α מתאים. אלגוריתם EM-α מוביל לגרסה מהירה יותר של אלגוריתם אמידת מודל מרקוב חבוי α-HMM.

הקשר לשיטות בייס השונות[עריכת קוד מקור | עריכה]

תוחלת-מקסום הוא באופן חלקי שיטת נראות השונה מהשיטה הבייסיאנית. התוצאה הסופית שלה נותנת התפלגות הסתברות על המשתנים החבויים (בסגנון בייס) יחד עם אומד נקודתי ל-θ. גרסה בייסיאנית מלאה לאלגוריתם צריכה לייחס התפלגות הסתברות על θ, כמו גם למשתנים החבויים. למעשה, ניתן לראות שבגישה הבייסיאנית θ היא עוד משתנה סמוי, וההבחנה בין צעדי התוחלת והמקסום נעלמת. אם משתמשים בגרסה המלאה לקירוב Q כפי שתוארה לעיל (הווריאציה של בייס), ניתן לעבור על כל המשתנים הסמויים ולשפר אותם אחד-אחד. כעת יש k צעדים לכל איטרציה, כאשר k הוא מספר המשתנים הסמויים. למודלים גרפיים קל לעשות תלויי Q לכל משתנים, רק בשמיכת מרקוב שלה, כך שהעברת מידע מקומית יכולה לשמש למסקנה יעילה.[דרושה הבהרה]

דוגמאות[עריכת קוד מקור | עריכה]

שלב התוחלת[עריכת קוד מקור | עריכה]

בהתחשב בהערכה הנוכחית שלנו של θ הפרמטרים (t), ההתפלגות המותנה של Zi נקבעה על ידי משפט בייס להיות הגובה היחסי של הצפיפות הנורמלית משוקללת לפי τ .

אלה נקראים הסתברויות החברות ואלו בדרך כלל נחשבים לפלט, צעד E זה תואם את הפונקציה עבור Q הבא:

אין צורך לחשב את ערכו של הביטוי, כי בשלב M אנו דורשים רק את המונחים בהתאם τ כאשר אנו נמקסם את τ, או רק את המונחים בהתאם μ אם אנחנו נמקסם עבור μ.

M step[עריכת קוד מקור | עריכה]

הוא ביטוי ריבועי ב- Q(θ|θ(t) משמעות הדבר היא כי קביעת הערכים עבור מקסום של θ היא פשוטה יחסית. שימו לב כי ניתן להגדיל כל אחד מבין (τ, (μ1, Σ1) ו-(μ2, Σ2), באופן בלתי תלוי, שכן כל שהם מופיעים בתנאים ליניארי נפרדים. כדי להתחיל, לשקול τ, שבה יש מגבלת τ1, τ2 = 1

שיש לה הצורה של אומד נראות מקסימלית להתפלגות הבינומית, ולכן

עבור האומדנים הבאים של (μ1, σ1)

זו יש לה הצורה כאומד נראות מקסימלית משוקלל להתפלגות נורמלית, ולכן

    וגם    

ומסימטריה:

    וגם     .

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ A. P. Dempster, N. M. Laird, D. B. Rubin, Maximum Likelihood from Incomplete Data Via the EM Algorithm, Journal of the Royal Statistical Society: Series B (Methodological) 39, 1977-09, עמ' 1–22 doi: 10.1111/j.2517-6161.1977.tb01600.x
  2. ^ C. F. Jeff Wu, On the Convergence Properties of the EM Algorithm, The Annals of Statistics 11, 1983-03, עמ' 95–103 doi: 10.1214/aos/1176346060