שונות

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

שוֹנוּת היא מדד לפיזור הסטטיסטי של משתנה מקרי. הפיזור נמדד סביב התוחלת של המשתנה המקרי הנדון. השורש הריבועי של השונות מגדיר את "סטיית התקן" של המשתנה.

מושג זה הוצג לראשונה על ידי רונלד פישר בשנת 1918.

הגדרה פורמלית[עריכת קוד מקור | עריכה]

השונות של המשתנה המקרי \ X , בדיד או רציף, מוגדרת כתוחלת \ \operatorname{var}(X) = \mathbb{E}( ( X - \mu ) ^ 2 ) = \mathbb{E}(X^2) - \mu^2, כאשר \mu = \mathbb{E}(X) היא התוחלת של המשתנה עצמו. עבור משתנה מקרי המקבל מספר סופי של ערכים, השונות שווה לממוצע של ריבועי המרחקים של הערכים מן הממוצע. (השונות מוגדרת בתנאי שהסכום או האינטגרל המגדירים אותה מתכנסים; יש התפלגויות, כמו התפלגות קושי, שבהן השונות אינה מוגדרת).

את השונות מסמנים גם בסימון \ \sigma^2.

תכונות השונות[עריכת קוד מקור | עריכה]

  • השונות תמיד אי שלילית \operatorname{var}(X) \ge 0
  • השונות של קבוע היא 0.   \ c\quad \operatorname{var}(c) = 0 - קבוע ממשי.
  • השונות של טרנספורמציה לינארית על המשתנה המקרי \ X מחושבת באופן הבא:
\operatorname{var}(aX+b)=a^2\operatorname{var}(X)

\ a,\,b - קבועים ממשיים.

  • השונות של סכום משתנים מקריים X,Y הינה:

\operatorname{var}(X+Y)=\operatorname{var}(X)+2\operatorname{cov}(X,Y)+\operatorname{var}(Y)

כאשר cov היא השונות המשותפת של המשתנים X,Y

  • אם X,Y משתנים מקריים, והשונות של Y סופית, אפשר לפרק את השונות של X באופן הבא:

\ \operatorname{var}(X)=\mathbb{E}(\operatorname{var}(X|Y))+\operatorname{var}(\mathbb{E}(X|Y)) (ראו גם משפט השונות השלמה).

שונות האוכלוסייה ושונות המדגם[עריכת קוד מקור | עריכה]

עבור אוכלוסייה סופית (שהתפלגותה אינה ידועה) ניתן לחשב את השונות בעזרת הנוסחה:

\sigma^2 = \frac {\sum_{i=1}^N \left(x_i - \overline{x} \right)^2} {N}

\overline{x} - ממוצע האוכלוסייה.
\ N - מספר האיברים באוכלוסייה.

נוסחה שימושית לחישוב שונות האוכלוסייה:

\sigma^2 = \frac {\sum_{i=1}^{N} x_i^2 - (\sum_{i=1}^{N} x_i)^2/N}{N} \!

כאשר נתון מדגם מקרי (y_1,\dots,y_N) ניתן לאמוד את השונות על ידי הנוסחה s^2 = \frac{1}{N-1} \sum_{i=1}^N \left(y_i - \overline{y} \right)^ 2; בתנאים רגילים, זהו אומד בלתי מוטה. אם הנתונים מעוגלים בזמן המדידה, יש להפעיל את תיקון שפרד.

הוכחה לכך שהאומד \ s^2 חסר הטיה

לפי ההגדרה, אמד \hat{\theta} לפרמטר \ \theta הוא בלתי מוטה אם מתקיים: \operatorname{E}\{ \hat{\theta}\} = \theta. לפיכך צריך להראות ש- \operatorname{E}\{ s^2\} = \sigma^2.
בהנחה שהמדגם לקוח מאוכלוסייה בעלת הפרמטרים, ממוצע - \ \mu ושונות - \ \sigma^2; אזי:

 \operatorname{E} \{ s^2 \}
= \operatorname{E} \left\{ \frac{1}{n-1} \sum_{i=1}^n  \left( x_i - \overline{x} \right) ^ 2 \right\}



= \frac{1}{n-1} \sum_{i=1}^n  \operatorname{E} \left\{ \left( x_i - \overline{x} \right) ^ 2 \right\}



= \frac{1}{n-1} \sum_{i=1}^n  \operatorname{E} \left\{ \left( (x_i - \mu) - (\overline{x} - \mu) \right) ^ 2 \right\}



= \frac{1}{n-1} \sum_{i=1}^n  \left\{ \operatorname{E} \left\{ (x_i - \mu)^2 \right\} 
- 2 \operatorname{E} \left\{ (x_i - \mu) (\overline{x} - \mu) \right\} 
+ \operatorname{E} \left\{ (\overline{x} - \mu)  ^ 2 \right\} \right\}



= \frac{1}{n-1} \sum_{i=1}^n \left\{ \sigma^2
- 2 \left( \frac{1}{n} \sum_{j=1}^n \operatorname{E} \left\{ (x_i - \mu) (x_j - \mu) \right\} \right)
+ \frac{1}{n^2} \sum_{j=1}^n \sum_{k=1}^n \operatorname{E} \left\{ (x_j - \mu) (x_k - \mu) \right\} \right\}



= \frac{1}{n-1} \sum_{i=1}^n  \left\{ \sigma^2
- \frac{2 \sigma^2}{n}
+ \frac{\sigma^2}{n} \right\}



= \frac{1}{n-1} \sum_{i=1}^n \frac{(n-1)\sigma^2}{n}



= \frac{(n-1)\sigma^2}{n-1} = \sigma^2

מ.ש.ל.

נוסחה שימושית אחרת לחישוב האומד לשונות: s^2 = \frac {\sum_{i=1}^{N} x_i^2 - (\sum_{i=1}^{N} x_i)^2/N}{N-1} \!.

ראו גם[עריכת קוד מקור | עריכה]