אמידה

ערך זה עוסק בתחום בהסקה סטטיסטית. אם התכוונתם לבודהה אמידה, ראו אמיטאבהה.

אֲמִידָה (נקראת לפעמים גם שיערוך) היא אחד התחומים המרכזיים בהסקה סטטיסטית. מטרתה לאמוד ולהעריך תכונות של האוכלוסייה באמצעות עיבוד מתמטי של ערכים המכמתים את אותן התכונות, והם נדגמים באופן מקרי מתוך אותה אוכלוסייה.

הצורך באמידה מתעורר כאשר ההתפלגות של משתנים מקריים המעורבים בְּניסוי אינה ידועה באופן מלא. בתרחיש השכיח ביותר, נתון שההתפלגות שייכת למשפחה מוכרת של התפלגויות, אבל לא ידוע איזו מבין החברות במשפחה היא ההתפלגות הנכונה. למשל, ייתכן כי ידוע שהנתון מתפלג נורמלית, על פי גרף הפעמון, אך ממוצע ו.או שונות האוכלוסייה, אינם ידועים. במצב הפשוט יותר -- שבו ההתפלגות ידועה -- ניתן לענות על כל שאלה סטטיסטית מתוך התכונות של ההתפלגות עצמה, ואז אין סיבה לאמוד.

לדוגמה, שיקולים כלליים מאפשרים לסטטיסטיקאים להסיק שבמערכת תאורה גדולה, מספר הנורות שיישרפו במשך שעה הוא משתנה מקרי בעל התפלגות פואסונית, אלא שלשאלה 'מה הסיכוי שיישרפו ארבע נורות, אם מספר הנורות מתפלג פואסונית' אין משמעות, בלי שנקבע באיזו מבין התפלגויות פואסון מדובר; זוהי משפחה של התפלגויות, שההתפלגויות החברות בה נבדלות זו מזו בתוחלת שלהן.

במקרה כזה, תורת האמידה מציעה שיטות שונות להערכת הפרמטרים. אחרי שנאסף מדגם של ערכי המשתנה המקרי (למשל, על ידי הפעלת עשר מערכות תאורה, כל אחת למשך שעה, וספירת הנורות שנשרפו בכל מערכת), אפשר לנסות לאמוד על-פי המדגם את ערכו האמיתי של הפרמטר הלא ידוע. שיטה נפוצה לאמידת הפרמטר היא באמצעות נראות מקסימלית, אולם קיימות שיטות רבות נוספות.

דגימה מהתפלגות השייכת למשפחה

נניח ש- $\{F_{\theta }:\theta \in I\}$ היא משפחה של התפלגויות, כאשר $\theta$ הוא פרמטר שערכו קבוע אך אינו ידוע. הקבוצה $I$ מציינת את הערכים שהפרמטר יכול לקבל א-פריורי; לדוגמה, כל המספרים הממשיים. המשתנים $X_{1},\dots ,X_{n}$ הם כולם בעלי ההתפלגות ${F_{\theta }}$ , ובלתי תלויים זה בזה. אם כך, ערכו של הפרמטר מגדיר באיזו התפלגות מדובר, וזה קובע את ההסתברות לכל תוצאה אפשרית של המדגם. כללי המשחק קובעים שאנחנו מקבלים את תוצאת המדגם, אבל איננו יודעים מהו ערך הפרמטר שהיה אחראי לתוצאה זו; זהו הסוד שהאמידה מנסה לחשוף.

דוגמה. ידוע שגובהם של בנים בכתה ו' מתפלג התפלגות נורמלית (כך סביר להניח, על-פי משפט הגבול המרכזי), אלא שהתוחלת והשונות אינם ידועים. במקרה כזה המשפחה כוללת את כל ההתפלגויות הנורמליות. כאן יש לפרמטר שני מרכיבים, ואפשר לנסות ולאמוד כל אחד מהם בפני עצמו.

אומדים

נסמן את ערכי המשתנה שהתקבלו במדגם ב- $X_{1},\dots ,X_{n}$ . אם כך, זהו מדגם בגודל $n$ . על-פי המודל הנפוץ, המשתנים $X_{i}$ הם בעלי אותה התפלגות התלויה (כאמור) בפרמטר לא ידוע, $\theta$ , והם בלתי תלויים זה בזה.

כל פונקציה מדידה $T=T(X_{1},\dots ,X_{n})$ של המשתנים $X_{i}$ קרויה בשם סטטיסטי, או, כאשר מבקשים להשתמש בה כדי לאמוד את הפרמטר, בשם אומד (במלרע). הערך אותו מקבל האומד עבור מדגם מסוים נקרא אומדן. מטרתו של האומד היא לתת הערכה מוצלחת לערכו של הפרמטר, ולכן על החישוב להיות חופשי משימוש בפרמטר. ההתפלגות של $T$ , עם זאת, בהחלט תלויה בערך הפרמטר - אלמלא כן, לא הייתה שום דרך להסיק מסקנות על הפרמטר מן הערך של $T$ .

לא כל האומדים מתאימים באותה מידה למשימתם. תורת האמידה עוסקת בהשוואה של אומדים, ובבניה של אומדים מוצלחים. דרישה נפוצה ומקובלת לאומד היא חוסר הטיה: אם התוחלת של המשתנה המקרי $T$ (המחושבת עבור ערך מסוים של $\theta$ ) שווה ל- $\theta$ (וזאת לכל ערך של $\theta$ ), אז האומד $T$ הוא אומד חסר הטיה.

דוגמה: נחזור לדוגמה הקודמת, כאשר הפרמטרים הם התוחלת והשונות של גובהם של בנים בגיל מסוים. גובהו של הבן הראשון במדגם מהווה אומד חסר הטיה לתוחלת; כך גם הממוצע של ארבעת הבנים האחרונים במדגם. לעומת זאת, גובהו של הבן הנמוך ביותר במדגם הוא אומד מוטה. הריבוע של סטיית התקן של המדגם, מהווה אומד מוטה לשונות. כאשר מכפילים אומד זה ב- $n/(n-1)$ (למדגם בגודל n), מתקבל אומד חסר הטיה.

בין האומדים חסרי ההטיה, מעדיפים את זה ששונותו נמוכה יותר (משום שהוא 'יציב' יותר, ופחות תלוי במדגם שעלה בגורל).

במצבים מסוימים, קיים אומד שהוא 'בעל שונות מינימלית במידה שווה', כלומר: אומד חסר הטיה T, כך שלכל אומד חסר הטיה אחר, $T'$ , השונויות מקיימות $V(T)\leq V(T')$ , וזאת לכל ערך של הפרמטר $\theta$ . אומד כזה הוא אומד חסר הטיה בעל שונות מינימלית במידה שווה (באנגלית: Uniformly Minimal Variance Unbiased Estimator, או UMVUE, בקיצור). אם שני אומדים חסרי הטיה (לאותו פרמטר) הם בעלי תכונה זו, אז הם שווים זה לזה (בהסתברות 1).

סטטיסטיים מספיקים

סטטיסטי הוא, כאמור, פונקציה של המדגם שאיננה מערבת את הפרמטר הלא ידוע. סטטיסטי S נקרא סטטיסטי מספיק אם כל המידע שמכיל המדגם על הפרמטר, ניתן למיצוי מתוך הסטטיסטי. במונחים טכניים, הדרישה היא שהתפלגות המדגם, המותנית בערכו של S, אינה תלויה עוד בפרמטר. שקולה לכך הדרישה שההתפלגות של כל סטטיסטי, כשהיא מותנית בערכו של S, אינה תלויה בפרמטר.

אפשר לזהות (ואף לחשב) סטטיסטים כאלה באמצעות משפט הפירוק. לפי משפט זה, סטטיסטי S הוא מספיק, אם פונקציית הנראות של המדגם מתפרקת למכפלה של שני מרכיבים: אחד מהם תלוי בפרמטר וב- S, והשני אינו תלוי בפרמטר.

הממוצע הוא סטטיסטי מספיק במקרים רבים (ובפרט כאשר עוסקים במשפחה של התפלגויות נורמליות, או של התפלגויות פואסון). כך למשל, ברגע שידוע כי גובהם הממוצע של עשרים הילדים שעלו במדגם הוא 157 סנטימטר, אין יותר צורך לדעת את גובהו של כל אחד ואחד מן הילדים (וליתר דיוק, נתונים אלה אינם יכולים ללמד אותנו דבר על הממוצע האמיתי של האוכלוסייה, מעבר למה שאפשר ללמוד מן המספר 157).

בהינתן סטטיסטי מספיק, משפט ראו-בלקוול מספק שיטה לשיפור אומד חוסר הטיה: המשפט מבטיח את קיומו של אומד חדש, שגם הוא חסר הטיה, ושונותו קטנה יותר מזו של האומד הקודם. אומד זה הוא לעיתים קרובות אומד אופטימלי, כלומר UMVUE.

ראו גם