אמידה

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

אמידה היא אחד התחומים המרכזיים בסטטיסטיקה היסקית. מטרתה לאמוד ולהעריך תכונות של האוכלוסייה באמצעות מניפולציות מתמטיות על הערכים הנדגמים ממנה.

הצורך באמידה מתעורר כאשר ההתפלגות של משתנים מקריים המעורבים בְּניסוי אינה ידועה באופן מלא. בתרחיש השכיח ביותר, ידוע שההתפלגות שייכת למשפחה מוכרת של התפלגויות, אבל לא ידוע איזו מבין החברות במשפחה היא ההתפלגות הנכונה. במצב הפשוט יותר שבו ההתפלגות ידועה, ניתן לענות על כל שאלה סטטיסטית מתוך התכונות של ההתפלגות עצמה, ואז אין סיבה לאמוד.

לדוגמה, שיקולים כלליים מאפשרים לסטטיסטיקאים להסיק שבמערכת תאורה גדולה, מספר הנורות שיישרפו במשך שעה הוא משתנה מקרי בעל התפלגות פואסונית. אלא שלשאלה 'מה הסיכוי שיישרפו ארבע נורות, אם מספר הנורות מתפלג פואסונית' אין משמעות, בלי שנקבע באיזו מבין התפלגויות פואסון מדובר; זוהי משפחה של התפלגויות, שההתפלגויות החברות בה נבדלות זו מזו בתוחלת שלהן.

במקרה כזה, תורת האמידה מציעה שיטות שונות להערכת הפרמטרים. אחרי שנאסף מדגם של ערכי המשתנה המקרי (למשל, על ידי הפעלת עשר מערכות תאורה, כל אחת למשך שעה, וספירת הנורות שנשרפו בכל מערכת), אפשר לנסות לאמוד על-פי המדגם את ערכו האמיתי של הפרמטר הלא ידוע. שיטה נפוצה לאמידת הפרמטר היא באמצעות נראות מקסימלית, אולם קיימות שיטות רבות נוספות.

דגימה מהתפלגות השייכת למשפחה[עריכת קוד מקור | עריכה]

נניח ש- \{F_{\theta}: \theta\in I\} היא משפחה של התפלגויות, כאשר \ \theta הוא פרמטר שערכו קבוע אך אינו ידוע. הקבוצה I מציינת את הערכים שהפרמטר יכול לקבל א-פריורי; לדוגמה, כל המספרים הממשיים. המשתנים \ X_1,\dots,X_n הם בעלי ההתפלגות \ {F_{\theta}}, ובלתי תלויים. אם כך, ערכו של הפרמטר מגדיר באיזו התפלגות מדובר, וזה קובע את ההסתברות לכל תוצאה אפשרית של המדגם. כללי המשחק קובעים שאנחנו מקבלים את תוצאת המדגם, אבל איננו יודעים מהו ערך הפרמטר שהיה אחראי לתוצאה זו; זהו הסוד שהאמידה מנסה לחשוף.

דוגמה. ידוע שגובהם של בנים בכתה ו' מתפלג התפלגות נורמלית (כך סביר להניח, על-פי משפט הגבול המרכזי), אלא שהתוחלת והשונות אינם ידועים. במקרה כזה המשפחה כוללת את כל ההתפלגויות הנורמליות. כאן יש לפרמטר שני מרכיבים, ואפשר לנסות ולאמוד כל אחד מהם בפני עצמו.

אומדים[עריכת קוד מקור | עריכה]

נסמן את ערכי המשתנה שהתקבלו במדגם ב- \ X_1,\dots,X_n. אם כך, זהו מדגם בגודל \ n. על-פי המודל השכיח, המשתנים \ X_i הם בעלי אותה התפלגות התלויה (כאמור) בפרמטר לא ידוע, \ \theta,והם בלתי תלויים זה בזה.

כל פונקציה \ T = T(X_1,\dots,X_n) של המשתנים \ X_i קרויה בשם סטטיסטי, או, כאשר מבקשים להשתמש בה כדי לאמוד את הפרמטר, בשם אומד. מטרתו של האומד היא לתת הערכה מוצלחת לערכו של הפרמטר, ולכן על החישוב להיות חופשי משימוש בפרמטר. ההתפלגות של T, עם זאת, בהחלט תלויה בערך הפרמטר - אלמלא כן, לא הייתה שום דרך להסיק מסקנות על הפרמטר מן הערך של T.

לא כל האומדים מתאימים באותה מידה למשימתם. תורת האמידה עוסקת בהשוואה של אומדים, ובבניה של אומדים מוצלחים. הדרישה הבסיסית מכל אומד היא חוסר הטיה: אם התוחלת של המשתנה המקרי \ T (המחושבת עבור ערך מסוים של \ \theta) שווה ל- \ \theta (וזאת לכל ערך של \ \theta), אז האומד T הוא אומד חסר הטיה.

דוגמה: נחזור לדוגמה הקודמת, כאשר הפרמטרים הם התוחלת והשונות של גובהם של בנים בגיל מסוים. גובהו של הבן הראשון במדגם מהווה אומד חסר הטיה לתוחלת; כך גם הממוצע של ארבעת הבנים האחרונים במדגם. לעומת זאת, גובהו של הבן הנמוך ביותר במדגם הוא אומד מוטה. הריבוע של סטיית התקן של המדגם, מהווה אומד מוטה לשונות. כאשר מכפילים אומד זה ב- \ n/(n-1) (למדגם בגודל n), מתקבל אומד חסר הטיה.

בין האומדים חסרי ההטיה, מעדיפים את זה ששונותו נמוכה יותר (משום שהוא 'יציב' יותר, ופחות תלוי במדגם שעלה בגורל).

במצבים מסוימים קיים אומד שהוא 'בעל שונות מינימלית במידה שווה', כלומר: אומד חסר הטיה T, כך שלכל אומד חסר הטיה אחר, \ T', השונויות מקיימות \ V(T)\leq V(T'), וזאת לכל ערך של הפרמטר \ \theta. אומד כזה הוא אומד חסר הטיה בעל שונות מינימלית במידה שווה, ובאנגלית Uniformly Minimal Variance Unbiased Estimator, ובקיצור UMVUE. אם שני אומדים חסרי הטיה (לאותו פרמטר) הם בעלי תכונה זו, אז הם שווים זה לזה (בהסתברות 1).

סטטיסטיים מספיקים[עריכת קוד מקור | עריכה]

סטטיסטי הוא, כאמור, פונקציה של המדגם שאיננה מערבת את הפרמטר הלא ידוע. סטטיסטי S נקרא סטטיסטי מספיק אם כל המידע שמכיל המדגם על הפרמטר, ניתן למיצוי מתוך הסטטיסטי. במונחים טכניים, הדרישה היא שהתפלגות המדגם, המותנית בערכו של S, אינה תלויה עוד בפרמטר. שקולה לכך הדרישה שההתפלגות של כל סטטיסטי, כשהיא מותנית בערכו של S, אינה תלויה בפרמטר.

אפשר לזהות (ואף לחשב) סטטיסטים כאלה באמצעות משפט הפירוק. לפי משפט זה, סטטיסטי S הוא מספיק, אם פונקציית הנראות של המדגם מתפרקת למכפלה של שני מרכיבים: אחד מהם תלוי בפרמטר וב- S, והשני אינו תלוי בפרמטר.

הממוצע הוא סטטיסטי מספיק במקרים רבים (ובפרט כאשר עוסקים במשפחה של התפלגויות נורמליות, או של התפלגויות פואסון). כך למשל, ברגע שידוע כי גובהם הממוצע של עשרים הילדים שעלו במדגם הוא 157 סנטימטר, אין יותר צורך לדעת את גובהו של כל אחד ואחד מן הילדים (וליתר דיוק, נתונים אלה אינם יכולים ללמד אותנו דבר על הממוצע האמיתי של האוכלוסייה, מעבר למה שאפשר ללמוד מן המספר 157).

בהינתן סטטיסטי מספיק, משפט ראו בלקוול מספק שיטה לשיפור אומד חוסר הטיה: המשפט מבטיח את קיומו של אומד חדש, שגם הוא חסר הטיה, ושונותו קטנה יותר מזו של האומד הקודם. אומד זה הוא לעתים קרובות אומד אופטימלי, כלומר UMVUE.

ראו גם[עריכת קוד מקור | עריכה]