סטיית תקן

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

סטיית התקן היא מדד סטטיסטי לתיאור הפיזור של ערכי קבוצת נתונים סביב הממוצע שלהם. במונח "סטייה" מתכוונים למרחק בין ערך בקבוצה לבין הממוצע. סטיית התקן היא אחד ממדדי הפיזור. אחד השימושים הנפוצים לסטיית תקן היא בחישוב רווח בר-סמך לממוצע.

סטיית התקן שווה לשורש הריבועי של השונות, ולכן היא לעולם אינה שלילית. יתרונה על השונות הוא בכך שהיא נמדדת ביחידות הנתון המקורי. ככל שהנתונים מקובצים יחדיו - סטיית התקן שלהם קטנה יותר.

יש להבחין בין סטיית התקן המחושבת לכל קבוצת הנתונים (האוכלוסייה) לבין סטיית התקן המדגמית המחושבת על מדגם (תת-קבוצה) מקבוצת הנתונים.

מושג זה נטבע בידי קרל פירסון בשנת 1894.

סטיית תקן של הקבוצה (אוכלוסייה)[עריכת קוד מקור | עריכה]

סטיית התקן של הנתונים \ x_1,\dots,x_N היא \sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}, כאשר \ \overline{x} הוא הממוצע.

דוגמה מספרית[עריכת קוד מקור | עריכה]

נחשב את סטיית התקן של הקבוצה {2, 5, 8, 13}.

ממוצע הקבוצה הוא: \overline{x} = 7 = (13 + 8 + 5 + 2)/4.

נציב זאת בנוסחה לעיל ונקבל: \sigma = \sqrt{\frac{1}{4} \cdot \left[(13-7)^2 + (8-7)^2 + (5-7)^2 + (2-7)^2 \right]} = 4.062

חישוב סטיית התקן לפי הנוסחאות בסעיף זה שימושי במקרים בהם ניתן לאסוף נתונים מכל הקבוצה (האוכלוסייה) אותה מעוניינים לחקור.
לדוגמה: מורה יכולה לאסוף נתונים של כל ציוני התלמידים בכיתתה המהווים את כלל האוכלוסייה לעניינה.
במקרים רבים לא ניתן מבחינה מעשית לאסוף את נתוני כלל האוכלוסייה ולכן מסתפקים באיסוף נתונים מחלק קטן ממנה בלבד. במקרה שכזה יש לחשב את סטיית התקן המדגמית (ראו להלן).

דוגמה נוספת להמחשה[עריכת קוד מקור | עריכה]

נניח כי במועד א' ניגשו 4 תלמידים למבחן, והציונים שלהם הם {65, 75, 85, 95}.

הממוצע הכיתתי הוא: \overline{x} = 80 = (95 + 85 + 75 + 65)/4.

נציב זאת בנוסחה לעיל ונקבל את סטיית התקן: \sigma = \sqrt{\frac{1}{4} \cdot \left[(95-80)^2 + (85-80)^2 + (75-80)^2 + (65-80)^2 \right]} = 11.18

כעת, נניח כי במועד ב' ניגשו 5 תלמידים למבחן, והציונים שלהם הם {76, 79, 80, 81, 84}.

הממוצע הכיתתי במועד ב' זהה לממוצע הכיתתי שבמועד א', משום ש: \overline{x} = 80 = (84 + 81 + 80 + 79 + 76)/5.

אולם, סטיית התקן הפעם נמוכה הרבה יותר, משום ש: \sigma = \sqrt{\frac{1}{5} \cdot \left[(84-80)^2 + (81-80)^2 + (80-80)^2 + (79-80)^2 + (76-80)^2 \right]} = 2.608

סטיית תקן של מדגם (מדגמית)[עריכת קוד מקור | עריכה]

כאשר הנתונים שלנו מהווים מדגם (תת-קבוצה) מכלל הקבוצה (האוכלוסייה) הנוסחה לחישוב סטיית התקן של המדגם s - נתונה על ידי:


s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2}

השוני הוא ש-\ N הפך ל- \ n-1 .

  • \ \overline{x} - ממוצע המדגם
  • \ x_1...x_n - איברי המדגם
  • \ n - מספר האיברים במדגם (גודל המדגם)


נוסחאות שימושיות לחישוב סטיית התקן המדגמית[עריכת קוד מקור | עריכה]


\sqrt{\frac{\sum_{i=1}^n{{x_i}^2} - n\left(\overline{x}\right)^2}{(n-1)}\ }
\quad; \sqrt{\frac{n\sum_{i=1}^n{{x_i}^2} - \left(\sum_{i=1}^n{x_i}\right)^2}{n(n-1)}}

תכונות סטיית התקן[עריכת קוד מקור | עריכה]

  • סטיית התקן לעולם אינה שלילית \ \sigma \ge 0
  • השפעת טרנספורמציה לינארית על משתני הקבוצה המקורית. נסמן:  a,\,b קבועים, ו- \ x ערכי הקבוצה המקורית. תהא הטרנספורמציה: y = a \cdot x + b. השפעתה על סטיית התקן היא: \ \sigma_y = |a| \cdot \sigma_x
    כלומר, הכפלה של כל אחד ממשתני הקבוצה המקורית בקבוע (a) והוספת קבוע (b) משפיעה על סטיית התקן בהגדלתה פי a, התוספת הקבועה b לא משפיעה. תוצאה זו מתיישבת עם העובדה שסטיית התקן מודדת פיזור ולא מיקום, לכן הוספת קבוע ששקולה להזזה לא משפיעה ואילו הכפלה בקבוע (גדול מ-1) מגדילה את הפיזור של קבוצת הנתונים המקורית.
  • סטיית התקן מושפעת מאוד מערכים קיצוניים של הקבוצה (אוכלוסייה).
  • סטיית התקן ניתנת לחישוב רק כאשר יש משמעות למרחק בין הערכים, כלומר סולם המדידה הוא רווחי (או מנתי).

סטיית התקן בהתפלגות נורמלית[עריכת קוד מקור | עריכה]

כאשר התפלגות הערכים היא נורמלית בעלת סטיית תקן \ \sigma וממוצע \ \mu:

  • כ-68% מהם נמצאים במרחק שאינו עולה על סטיית תקן אחת מן הממוצע (כלומר 68% מהערכים נמצאים בין \ \mu-\sigma ל-\ \mu+\sigma).
  • כ-95% מהם נמצאים במרחק שאינו עולה על שתי סטיות תקן מן הממוצע (כלומר בין \ \mu-2\sigma ל-\ \mu+2\sigma).
  • כ-99.73% מהערכים נמצאים במרחק שאינו עולה על שלוש סטיות תקן מן הממוצע (בין \ \mu-3\sigma ל-\ \mu+3\sigma).

טבלה עבור התפלגות נורמלית.

Standard deviation diagram.svg
σ 68.26894921371%
95.44997361036%
99.73002039367%
99.99366575163%
99.99994266969%
99.99999980268%
99.99999999974%

סטיית תקן של משתנה מקרי[עריכת קוד מקור | עריכה]

סטיית התקן עבור משתנה מקרי X מוגדרת כשורש ריבועי של השונות. כלומר:

\sigma = \sqrt{\operatorname{E}((X-\operatorname{E}X)^2)} = \sqrt{\operatorname{E}(X^2) - (\operatorname{E}(X))^2}

\operatorname{E}(X) - תוחלת המשתנה המקרי X, \operatorname{E}(X^2) - המומנט השני סביב 0.
נציין שלא לכל משתנה מקרי קיימת סטיית תקן. היא קיימת רק בתנאי שהתוחלת והמומנט השני קיימים וסופיים.

ראו גם[עריכת קוד מקור | עריכה]