התפלגות תערובת
בהסתברות וסטטיסטיקה, התפלגות תערובת היא התפלגות של משתנה מקרי המתקבל מקבוצה יוצרת של משתנים מקריים אחרים באופן הבא: ראשית, בוחרים באקראי משתנה מקרי מתוך קבוצת המשתנים המקריים לפי הסתברויות נתונות, ולאחר מכן מקבלים תוצאה (מימוש) מתוך המשתנה המקרי שנבחר. המשתנים המקריים בקבוצה יכולים להיות גם וקטורים מקריים (מאותו הממד), ובמקרה זה התפלגות התערובת היא התפלגות משותפת.
ניתן לבטא את פונקציית ההתפלגות המצטברת של התפלגות התערובת כצירוף קמור (כלומר סכום משוקלל, עם משקלים לא שליליים המסתכמים ל-1) של פונקציות ההתפלגות המצטברת של המשתנים המקריים בקבוצה היוצרת. ההתפלגויות של המשתנים המקריים בקבוצה היוצרת נקראת מרכיבי התערובת, וההסתברויות הקשורות לכל מרכיב נקראות משקלות התערובת. מספר המרכיבים במקרים מסוימים יכול להיות גם אינסופי בן מניה. מקרים כלליים יותר, כמו למשל קבוצה שאינה בת מניה של מרכיבים, מטופלים תחת הכותרת של התפלגויות מורכבות.
יש להבחין בין משתנה מקרי שפונקציית ההתפלגות שלו או צפיפותו הם צירוף של קבוצת מרכיבים (כלומר התפלגות תערובת) לבין משתנה מקרי שמתקבל כצירוף ליניארי של שני משתנים מקריים או יותר. במקרה כזה ניתן לקבל את ההתפלגות הנוצרת באמצעות אופרטור הקונבולציה. לדוגמה, סכום שני משתנים מקריים בעלי התפלגות נורמלית משותפת, יהיה תמיד משתנה מקרי בעל התפלגות נורמלית. לעומת זאת, התפלגות תערובת שנוצרת משתי התפלגויות נורמליות שונות לא תהיה בעצמה התפלגות נורמלית.
פונקציית התפלגות מצטברת ופונקציית צפיפות
[עריכת קוד מקור | עריכה]בהינתן קבוצה סופית של פונקציות התפלגות מצטברות או פונקציות צפיפות , ומשקולות כך ש- ו-. להתפלגות התערובת יש פונקציית ההתפלגות , או/ו פונקציית הצפיפות , כסכום (שבשני המקרים הוא צירוף קמור):
צירוף ליניארי של פונקציות צפיפות אינו בהכרח פונקציית צפיפות, מכיוון שהיא עשויה להיות שלילית או בעלת אינטגרל שונה מ-1. עם זאת, צירוף קמור של פונקציות צפיפות משמר את התכונות של אי-שליליות ואינטגרל שווה ל-1. לכן צפיפות התערובת היא פונקציית צפיפות לגיטימית.
סוג זה של תערובת, בהיותו סכום סופי, נקרא תערובת סופית. עבור המקרה של קבוצה אינסופית (בת מניה) של מרכיבים, מחליפים את בביטויים ב- .
מומנטים
[עריכת קוד מקור | עריכה]בהינתן משתנים מקריים מ- התפלגויות המרכיבים, ומשתנה מקרי של ההתפלגות התערובת . לכל פונקציה שעבורה התוחלות קיימות, ובהנחה שפונקציות הצפיפות של המרכיבים קיימות, מתקיים,
לכן, המומנט ה- (כאשר בוחרים ) הוא פשוט ממוצע משוקלל של המומנטים ה- של המרכיבים. ניתן לקבל את המומנטים המרכזיים , כאשר היא התוחלת של התערובת, באופן הבא:[1]
כאשר היא התוחלת של המרכיב ה-.
במקרה של תערובת של התפלגויות חד-ממדיות עם משקלים , תוחלת i ושונות , התוחלת והשונות הכוללים יהיו:
להתפלגות תערובת יש את הפוטנציאל לשמש כמודל במצבים שבהם יש מומנטים לא טריוויאליים מסדר גבוה כמו צידוד וגבנוניות, אפילו בהיעדר תכונות כאלה במרכיבים עצמם.[2]
דוגמאות
[עריכת קוד מקור | עריכה]תערובת שתי התפלגויות נורמליות
[עריכת קוד מקור | עריכה]בהינתן התפלגות תערובת עם משקלים שווים של שתי התפלגויות נורמליות עם תוחלות שונות ואותה סטיית תקן, אז פונקציית צפיפות תערובת תהיה.
התפלגות התערובת תציג גבנוניות נמוכה ביחס להתפלגות נורמלית בודדת.
אם מתקיים אז התפלגות התערובת היא התפלגות דו-שיאית. אחרת, יש לה שיא רחב.[3]
לחלופין, כאשר שתי ההתפלגויות המרכיבות הן עם אותה תוחלת וסטיות תקן שונות, להתפלגות התערובת תהיה גבנוניות גבוהה, עם שיא חד יותר וזנבות כבדים יותר מאשר להתפלגות נורמלית אם אתה סטיית תקן.
-
התפלגות תערובת, שהיא דו-שיאית
-
התפלגות תערובת דו-ממדית, עם ארבעה שיאים מקומיים.
תערובת של התפלגויות נורמלית וקושי
[עריכת קוד מקור | עריכה]הדוגמה הבאה לקוחה מהמפל,[4] אשר מייחס את הקרדיט לג'ון טוקי.
נתונה התפלגות תערובת המוגדרת על ידי פונקציית הצפיפות
.
הממוצע של תצפיות בלתי תלויות מההתפלגות הנתונה על ידי פונקציית הצפיפות מתנהג כמו בקירוב טוב כמו בהתפלגות נורמלית למעט במדגמים גדולים במיוחד, זאת למרות שהתוחלת של התפלגות התערובת לא קיימת.
יישומים
[עריכת קוד מקור | עריכה]פונקציות צפיפות תערובת הן פונקציות צפיפות מסובכות יחסית הניתנות לביטוי במונחים של פונקציות צפיפות פשוטות יותר (מרכיבי התערובת), והן משמשות מכיוון שהן מספקות מודל טוב עבור מערכי נתונים מסוימים (כאשר תת-קבוצות שונות של הנתונים מציגות מאפיינים שונים), וכן מכיוון שלעיתים קרובות הן קלות לניתוח מתמטי, בגלל הפשטות היחסית של מרכיבי התערובת.
ניתן להשתמש בצפיפות תערובת לתיאור של אוכלוסיית מדגם עם תת-אוכלוסיות, כאשר מרכיבי התערובת הם פונקציות הצפיפות על תת-האוכלוסיות, והמשקלים הם הפרופורציות של כל תת-אוכלוסייה באוכלוסייה הכוללת.
ניתן להשתמש בצפיפות תערובת גם לתאר של טעויות או זיהום בנתונים - אפשר להניח שרוב הדגימות מודדות את התופעה הרצויה, וחלק אחר וקטן מהדגימות מהתפלגות שונה ושגויה.
סטטיסטיקה היסקית המתעלמת מקיום של מרכיב של שגיאה, עלולה להיכשל בניתוח פונקציית צפיפות תערובת המכילה מרכיב לא צפוי- לדוגמה, ניתוחים המניחים התפלגות נורמלית עלולים להיכשל בנוכחות ערכי קיצון בודדים אשר נובעים ממרכיב של שגיאה לא צפוי. במצבים כאלה נהוג להשתמש בסטטיסטיקה חסינה.
במטא-אנליזה של מספר מחקרים, הבדלים בין הדרך שבה המחקרים בוצעו גורמים לכך שהתפלגות התוצאות היא התפלגות תערובת, ומובילה לפיזור יתר של התוצאות ביחס לטעות הצפויה. לדוגמה, בסקר סטטיסטי, רווח בר סמך (הנקבע לפי גודל המדגם) מנבא את פיזור התוצאות בסקרים חוזרים. הבדלים בין המחקרים (למחקרים יש הטיות דגימה שונות) מגדילים את הפיזור בפועל מעבר לרווח בר סמך המחושב.
ראו גם
[עריכת קוד מקור | עריכה]- אמידת פרמטרים של התפלגות מעורבת של שתי התפלגויות רב-נורמליות באמצעות אלגוריתם מיקסום התוחלת (EM).
הערות שוליים
[עריכת קוד מקור | עריכה]- ^ Frühwirth-Schnatter (2006, Ch.1.2.4)
- ^ Marron, J. S.; Wand, M. P. (1992). "Exact Mean Integrated Squared Error". Annals of Statistics. 20 (2): 712–736. doi:10.1214/aos/1176348653., http://projecteuclid.org/euclid.aos/1176348653
- ^ Schilling, Mark F.; Watkins, Ann E.; Watkins, William (2002). "Is human height bimodal?". The American Statistician. 56 (3): 223–229. doi:10.1198/00031300265.
- ^ Hampel, Frank (1998), "Is statistics too difficult?", Canadian Journal of Statistics, 26: 497–513, doi:10.2307/3315772