רווח בר-סמך

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

בתורת האמידה הסטטיסטית, רווח בר-סֶמֶך (או רווח סמך) עבור פרמטר לא ידוע של התפלגות ממשפחה ידועה של התפלגויות, הוא קטע המחושב מתוך תוצאות של מדגם, באופן כזה שהסיכוי לתפוס את הפרמטר בתוך הקטע הוא קבוע, הקרוי "רמת המובהקות" של הרווח.

רקע[עריכת קוד מקור | עריכה]

הצורך בבנית רווח בר-סמך עולה כאשר ההתפלגות של משתנה מקרי מסוים אינה ידועה באופן מלא; ידוע שההתפלגות שייכת למשפחה מוכרת של התפלגויות, אבל לא ידוע איזו מבין החברות במשפחה היא ההתפלגות הנכונה. למשל, ידוע משיקולים תאורטיים שמספר השקדים המרים בחבילה גדולה הוא בעל התפלגות פואסונית - אבל ללא מדידה מעשית של החבילות, לא ניתן לקבוע באיזו התפלגות מדובר, מבין אינסוף ההתפלגויות השונות הקרויות בשם זה, הנבדלות זו מזו בערכה של התוחלת \ \lambda. (מספר, כגון \ \lambda, המבדיל בין חברות שונות במשפחה של התפלגויות, קרוי פרמטר).

תורת האמידה עוסקת בחילוץ מידע על ערכו של הפרמטר, מתוך נתונים שנאספו במדגם (מתוך ההתפלגות שאינה ידועה). את תורת האמידה אפשר לחלק באופן גס לשני תחומים - אמידה נקודתית, בה מנסים לקלוע לערכו המדויק של הפרמטר, ואמידת רווח, שבה בונים רווח בר-סמך לפרמטר, שגם אם אינו מדויק, יש סיכוי טוב לכך שהוא מכיל את הפרמטר.

תיאור מתמטי[עריכת קוד מקור | עריכה]

נתון מדגם \ X_1,\dots,X_n מהתפלגות \ F_{\theta}, הידועה למעט ערכו של הפרמטר \ \theta. רווח בר-סמך בעל רמת מובהקות \ 1-\alpha עבור הפרמטר \ \theta הוא קטע \ (V_1,V_2), ששני קצותיו הם "סטטיסטים" (כלומר, פונקציות של המדגם, שאינן תלויות בפרמטר), כך שההסתברות למאורע \ V_1 < \theta <V_2 היא \ 1-\alpha.

אם כך, הסיכוי לכך שהפרמטר שייך לרווח שווה ל- \ 1-\alpha, והסיכוי לכך שהטענה "הפרמטר שייך לרווח זה" תהיה שגויה, הוא \ \alpha. בישומים שונים מקובל לדרוש שהסיכוי לטעות יהיה \ \alpha = 0.05 או \ \alpha = 0.01.

לאחר ביצוע הליך הדגימה בפועל, המשתנים המקריים \ X_1,\dots,X_n מקבלים ערכים מספריים, וכך הופכים גם קצות הקטע \ V_1,V_2 למספרים, נאמר \ v_1,v_2.

מכשלה נפוצה היא לומר שבמקרה זה, "הסיכוי לכך שהפרמטר \ \theta נמצא בין \ v_1 ל- \ v_2 הוא \ 1-\alpha". ניסוח זה שגוי בתכלית, משום שלפרמטר אין התפלגות - הוא מספר (וגם אם הוא נקבע על-פי התפלגות כלשהי, התפלגות זו אינה נלקחת בחשבון בחישוב הרווח). אם כך, הסיכוי לכך שהפרמטר יהיה בין שני מספרים הוא אפס, או אחד (גם אם איננו יודעים איזו אפשרות היא הנכונה). א-פריורי, הסיכוי לכך שהפרמטר יהיה שייך לקטע הוא בדיוק \ 1-\alpha; אבל לאחר מעשה, גורל הניסוי כבר נגזר, לשבט (בסיכוי \ \alpha) או לחסד, והוא איננו מאורע הסתברותי.

חישוב רווחים בני-סמך[עריכת קוד מקור | עריכה]

דוגמה[עריכת קוד מקור | עריכה]

מבקשים לאמוד את הפרמטר הלא ידוע \ \theta בהתפלגות אחידה \ U(0,\theta), באמצעות דגימה בודדת, X. לכל מספר \ 0<t<0.05, הסיכוי למאורע \ t\theta < X < (0.95+t)\theta שווה ל- \ 0.95; ואם כך, זהו בדיוק הסיכוי (טרם הדגימה) לכך ש- \ \theta יפול בקטע \ (\frac{X}{0.95+t},\frac{X}{t}) (שקצותיו אינם קבועים, כמובן, אלא תלויים במשתנה המקרי X). כל אלו (עבור כל ערך של t) הם רווחי סמך לפרמטר, בעלי אותה רמת מובהקות.

בחירה בין רווחים שונים[עריכת קוד מקור | עריכה]

בדרך כלל אפשר לבנות רווחים בני-סמך רבים לאותו פרמטר, מאותו מדגם, כבדוגמה לעיל. יש כמה קריטריונים להעדפה (א-פריורי) של רווח מסוים על-פני רווח אחר:

  • אורך הרווח: מעדיפים רווח קצר על-פני רווח ארוך; למשל, נעדיף לדעת שהפרמטר נמצא, בסיכוי 0.95, בקטע \ (X-2,X+2), מאשר שהוא נמצא באותו סיכוי בקטע \ (X-1,X+6) (גם אם שתי הטענות נכונות).
  • סימטריה: מעדיפים רווח \ (V_1,V_2) שהסיכוי (א-פריורי) ליפול מקצהו האחד שווה לסיכוי ליפול מקצהו האחר.

שיקולים אלה עשויים להיות סותרים (וישנם גם שיקולים אחרים). בדוגמה שניתנה לאמידה של פרמטר בהתפלגות אחידה, השיקול הראשון יציע את הרווח \ (X,20X), ואילו השני את הרווח \ (\frac{40}{39}X,40X).

שיטת הכמות הצירית[עריכת קוד מקור | עריכה]

בחישוב תאורטי של רווחים בני-סמך עושים שימוש בפונקציה הקרויה כמות צירית, שהיא מזיגה של המדגם ושל הפרמטר, שהתפלגותה ידועה ואינה תלויה בפרמטר.

לדוגמה, עבור מדגם \ X_1,\dots,X_n\sim U(0,\theta) של משתנים מהתפלגות אחידה, היחס \ \frac{X_1}{\theta} הוא כמות צירית, משום שההתפלגות שלו (אחידה בין אפס לאחת) אינה תלויה בפרמטר. עבור מדגם \ X_1,\dots,X_n\sim N(\mu,1) של משתנים מהתפלגות נורמלית (בעלת תוחלת לא ידועה ושונות 1), ההפרש \ \frac{X_1+\dots+X_n}{n}-\mu הוא כמות צירית, משום שההתפלגות שלו נורמלית סטנדרטית.

אם Q היא כמות צירית, והסיכוי לטעות, \ \alpha, נתון, אפשר למצוא קבועים \ \gamma_1,\gamma_2 כך ש- \ P(\gamma_1<Q<\gamma_2)=1-\alpha. מכיוון ש- Q תלוי בפרמטר, אפשר (לעתים קרובות) לחלץ משוויון זה רווח סמך לפרמטר.

רווח בר-סמך לתוחלת של התפלגות נורמלית[עריכת קוד מקור | עריכה]

להתפלגות הנורמלית חשיבות מיוחדת בסטטיסטיקה, בזכות משפט הגבול המרכזי. בתרחיש הפשוט ביותר בהקשר זה, נתון מדגם \ X_1,\dots,X_n \sim N(\mu,\sigma), ומבקשים לבנות רווח בר-סמך עבור הפרמטר \ \mu, השווה לתוחלת ההתפלגות. ישנם שני מקרים:

  • אם השונות \ \sigma^2 ידועה, אז הגודל \ Q=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} הוא כמות צירית בעלת התפלגות נורמלית סטנדרטית (כאשר \ \bar{X} הוא הממוצע), ומכאן אפשר לבנות את הרווח \ (\bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}). הערך \ z_{\alpha/2} הוא מספר המקיים \ P(Q>z_{\alpha/2})=\alpha/2 כאשר Q משתנה נורמלי סטנדרטי. למשל, עבור \ \alpha=0.05, מתקבל \ z_{0.025}=1.96.
  • אם השונות אינה ידועה, לא ניתן להיעזר בה בבניית כמות צירית, ויש להחליף אותה באומד לשונות, \ S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2. במקרה זה לכמות הצירית \ Q=\frac{\bar{X}-\mu}{S/\sqrt{n}} יש התפלגות t עם n-1 דרגות חופש, ומכאן אפשר לבנות את הרווח \ (\bar{X}-t_{n-1,\alpha/2}\frac{\sigma}{\sqrt{n}}, \bar{X}+t_{n-1,\alpha/2}\frac{\sigma}{\sqrt{n}}), שבו הערך \ t_{n-1,\alpha/2} מקיים \ P(Q>t_{n-1,\alpha/2})=\alpha/2 כאשר Q משתנה בעל התפלגות t עם n-1 דרגות חופש.

הקשר לבדיקת השערות[עריכת קוד מקור | עריכה]

בניה של רווח בר-סמך שקולה לבעיות רבות בבדיקת השערות סטטיסטית, למרות שהמטרות בשני המקרים שונות בתכלית. בבנית רווח, המטרה היא להציג תחום שבו סביר למצוא את הפרמטר. בבדיקת השערות, מעוניינים לפסול (או שלא לפסול) השערה מסוימת על ערכו המדויק של הפרמטר.

אם למשל משערים שערכו של פרמטר מסוים הוא אפס, וקיים רווח בר-סמך (בעל רמת מובהקות מסוימת) שאינו כולל את הערך הזה, אז אפשר לפסול את ההשערה באותה רמת מובהקות.

ראו גם[עריכת קוד מקור | עריכה]