סטיית תקן

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

סטיית התקן היא מדד סטטיסטי לתיאור הפיזור של ערכי קבוצת נתונים סביב הממוצע שלהם. במונח "סטייה" מתכוונים למרחק בין ערך בקבוצה לבין הממוצע. סטיית התקן היא אחד ממדדי הפיזור. אחד השימושים הנפוצים לסטיית תקן היא בחישוב רווח בר-סמך לממוצע.

סטיית התקן שווה לשורש הריבועי של השונות, ולכן היא לעולם אינה שלילית. יתרונה על השונות הוא בכך שהיא נמדדת ביחידות הנתון המקורי. ככל שהנתונים מקובצים יחדיו - סטיית התקן שלהם קטנה יותר.

יש להבחין בין סטיית התקן המחושבת לכל קבוצת הנתונים (האוכלוסייה) לבין סטיית התקן המדגמית המחושבת על מדגם (תת-קבוצה) מקבוצת הנתונים.

מושג זה נטבע בידי קרל פירסון בשנת 1894.

סטיית תקן של הקבוצה (אוכלוסייה)[עריכת קוד מקור | עריכה]

סטיית התקן של הנתונים \ x_1,\dots,x_N היא \sigma = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2}, כאשר \ \overline{x} הוא הממוצע.

דוגמה מספרית[עריכת קוד מקור | עריכה]

נחשב את סטיית התקן של הקבוצה {2, 5, 8, 13}.

ממוצע הקבוצה הוא: \overline{x} = 7 = (13 + 8 + 5 + 2)/4.

נציב זאת בנוסחה לעיל ונקבל: \sigma = \sqrt{\frac{1}{4} \cdot \left[(13-7)^2 + (8-7)^2 + (5-7)^2 + (2-7)^2 \right]} = 4.062

חישוב סטיית התקן לפי הנוסחאות בסעיף זה שימושי במקרים בהם ניתן לאסוף נתונים מכל הקבוצה (האוכלוסייה) אותה מעוניינים לחקור.
לדוגמה: מורה יכולה לאסוף נתונים של כל ציוני התלמידים בכיתתה המהווים את כלל האוכלוסייה לעניינה.
במקרים רבים לא ניתן מבחינה מעשית לאסוף את נתוני כלל האוכלוסייה ולכן מסתפקים באיסוף נתונים מחלק קטן ממנה בלבד. במקרה שכזה יש לחשב את סטיית התקן המדגמית (ראו להלן).

דוגמה נוספת להמחשה[עריכת קוד מקור | עריכה]

נניח כי במועד א' ניגשו 4 תלמידים למבחן, והציונים שלהם הם {65, 75, 85, 95}.

הממוצע הכיתתי הוא: \overline{x} = 80 = (95 + 85 + 75 + 65)/4.

נציב זאת בנוסחה לעיל ונקבל את סטיית התקן: \sigma = \sqrt{\frac{1}{4} \cdot \left[(95-80)^2 + (85-80)^2 + (75-80)^2 + (65-80)^2 \right]} = 11.18

כעת, נניח כי במועד ב' ניגשו 5 תלמידים למבחן, והציונים שלהם הם {76, 79, 80, 81, 84}.

הממוצע הכיתתי במועד ב' זהה לממוצע הכיתתי שבמועד א', משום ש: \overline{x} = 80 = (84 + 81 + 80 + 79 + 76)/5.

אולם, סטיית התקן הפעם נמוכה הרבה יותר, משום ש: \sigma = \sqrt{\frac{1}{5} \cdot \left[(84-80)^2 + (81-80)^2 + (80-80)^2 + (79-80)^2 + (76-80)^2 \right]} = 2.608

סטיית תקן של מדגם (מדגמית)[עריכת קוד מקור | עריכה]

כאשר הנתונים שלנו מהווים מדגם (תת-קבוצה) מכלל הקבוצה (האוכלוסייה) הנוסחה לחישוב סטיית התקן של המדגם s - נתונה על ידי:


s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2}

השוני הוא ש-\ n הפך ל- \ n-1 .

  • \ \overline{x} - ממוצע המדגם
  • \ x_1...x_n - איברי המדגם
  • \ n - מספר האיברים במדגם (גודל המדגם)


נוסחאות שימושיות לחישוב סטיית התקן המדגמית[עריכת קוד מקור | עריכה]


\sqrt{\frac{\sum_{i=1}^n{{x_i}^2} - n\left(\overline{x}\right)^2}{(n-1)}\ }
\quad; \sqrt{\frac{n\sum_{i=1}^n{{x_i}^2} - \left(\sum_{i=1}^n{x_i}\right)^2}{n(n-1)}}

תכונות סטיית התקן[עריכת קוד מקור | עריכה]

  • סטיית התקן לעולם אינה שלילית \ \sigma \ge 0
  • השפעת טרנספורמציה לינארית על משתני הקבוצה המקורית. נסמן:  a,\,b קבועים, ו- \ x ערכי הקבוצה המקורית. תהא הטרנספורמציה: y = a \cdot x + b. השפעתה על סטיית התקן היא: \ \sigma_y = |a| \cdot \sigma_x
    כלומר, הכפלה של כל אחד ממשתני הקבוצה המקורית בקבוע (a) והוספת קבוע (b) משפיעה על סטיית התקן בהגדלתה פי a, התוספת הקבועה b לא משפיעה. תוצאה זו מתיישבת עם העובדה שסטיית התקן מודדת פיזור ולא מיקום, לכן הוספת קבוע ששקולה להזזה לא משפיעה ואילו הכפלה בקבוע (גדול מ-1) מגדילה את הפיזור של קבוצת הנתונים המקורית.
  • סטיית התקן מושפעת מאוד מערכים קיצוניים של הקבוצה (אוכלוסייה).
  • סטיית התקן ניתנת לחישוב רק כאשר יש משמעות למרחק בין הערכים, כלומר סולם המדידה הוא רווחי (או מנתי).

דוגמאות לשימושים[עריכת קוד מקור | עריכה]

הערך העיקרי בהבנת סטיית תקן של אוסף נתונים הוא בהערכת השוני של הערכים בהשוואה לממוצע.

מזג אוויר:

כדוגמא פשוטה, נסתכל הממוצע היומי של הטמפרטורה המקסימלית בשתי ערים- אחת במישור החוף והשניה בפנים הארץ. יעזור להבין שטווח הטמפרטורות המקסימליות בערי חוף קטן מאשר בערים בפנים הארץ. לכן, בעוד שלשתי הערים האלו יש ממוצע טמפרטורות מקסימלי דומה, סטיית התקן של הטמפרטורה היומית המקסימלית עבור ערי חוף, תהיה קטנה מאשר של ערים בפנים הארץ. ביום מסויים הטמפרטורה המקסימלית הממשית בעלת סיכוי גבוה יותר להיות רחוקה יותר מהטמפרטורה המקסימלית הממוצעת עבור עיר בפנים הארץ מאשר בעיר חוף.

פיזיקת חלקיקים

בפיזיקת חלקיקים משתמשים בתקן של "5 סיגמא" עבור הכרזה על תגליות. ב-5 סיגמא ישנו רק סיכוי של אחד לשני מיליון (בערך) שתנודה מקרית תניב את התוצאה. רמה זו של וודאות האיצה את ההכרזה שחלקיק שהנו בהתאמה עם בוזון היגס התגלה בשני ניסויים בלתי תלויים.

כלכלה

בכלכלה, סטיית התקן משמשת לרוב כמדד הסיכון המקושר עם תנודות מחיר של נכס נתון (מניות, ניירות ערך, אג"ח וכדומה), או הסיכון של תיק השקעות (קבוצות השקעה, קרנות הון סיכון). סיכון הוא גורם משמעותי בבחירת דרך לניהול תיקי השקעות בצורה יעילה, בגלל שהוא קובע את שונות התשואות של נכס ו/או תיק השקעות ונותן למשקיעים בסיס מתמטי לקבלת החלטות השקעה (ראה ערך: התאוריה המודרנית של תיקי השקעות).

העיקרון הבסיסי של סיכון הוא שכשהוא גדל, התשואה אמורה לגדול גם כן, עליה שנקראת פרמיית סיכון (ראו פרמיה (שוק ההון)). במילים אחרות, משקיעים אמורים לצפות לתשואה גבוהה יותר כאשר ההשקעה נושאת בחובה סיכון גבוה יותר או חוסר וודאות. כאשר מעריכים השקעות, רצוי שהמשקיעים יעריכו גם את התשואה הצפויה וגם את חוסר הודאות בתשואות עתידיות. סטיית התקן נותנת הערכה מכומתת של חוסר הודאות לגבי תשואות עתידיות.

לדוגמא, ננניח שמשקיע צריך לבחור בין שתי מניות. למניה א' הייתה תשואה ממוצעת של 10% לאורך עשרים השנים האחרונות, עם סטיית תקן של 20%. לאורך אותה תקופה למניה ב' הייתה תשואה ממוצעת של 12%, אבל סטיית תקן גבוהה יותר של 30%. על בסיס סיכון-תשואה, המשקיע עלול להחליט שמניה א' היא בחירה בטוחה יותר, מכיוון שתוספת של שני אחוזי תשואה למניה ב' אינה שווה את הסיכון שנובע מעליה של 10% בסטיית התקן. למניה ב' סיכוי גבוהה יותר לרדת בערכה (אך גם לעלות) לעיתים תכופות יותר מאשר מניה א' תחת אותם התנאים, וצפויה לספק תשואה גבוהה רק בשני אחוזים ממניה א'.

חישוב הממוצע של התשואה של אג"ח לאורך זמן תייצר את התשואה הצפויה של הנכס. עבור כל תקופה, חיסור התשואה הצפויה מהתשואה הממשית ייתן את ההפרש מהממוצע. העלאה בריבוע של ההפרש בכל תקופת זמן, ואז מיצוע יתן את השונות הכוללת של התשואה של הנכס. ככל שהשונות גבוהה יותר, כך הסיכון של האג"ח גבוה יותר. מציאת שורש השונות ייתן את סטיית התקן המבוקשת.

סטיית התקן בהתפלגות נורמלית[עריכת קוד מקור | עריכה]

כאשר התפלגות הערכים היא נורמלית בעלת סטיית תקן \ \sigma וממוצע \ \mu:

  • כ-68% מהם נמצאים במרחק שאינו עולה על סטיית תקן אחת מן הממוצע (כלומר 68% מהערכים נמצאים בין \ \mu-\sigma ל-\ \mu+\sigma).
  • כ-95% מהם נמצאים במרחק שאינו עולה על שתי סטיות תקן מן הממוצע (כלומר בין \ \mu-2\sigma ל-\ \mu+2\sigma).
  • כ-99.73% מהערכים נמצאים במרחק שאינו עולה על שלוש סטיות תקן מן הממוצע (בין \ \mu-3\sigma ל-\ \mu+3\sigma).

טבלה עבור התפלגות נורמלית.

Standard deviation diagram.svg
σ 68.26894921371%
95.44997361036%
99.73002039367%
99.99366575163%
99.99994266969%
99.99999980268%
99.99999999974%

סטיית תקן של משתנה מקרי[עריכת קוד מקור | עריכה]

סטיית התקן עבור משתנה מקרי X מוגדרת כשורש ריבועי של השונות. כלומר:

\sigma = \sqrt{\operatorname{E}((X-\operatorname{E}X)^2)} = \sqrt{\operatorname{E}(X^2) - (\operatorname{E}(X))^2}

\operatorname{E}(X) - תוחלת המשתנה המקרי X, \operatorname{E}(X^2) - המומנט השני סביב 0.
נציין שלא לכל משתנה מקרי קיימת סטיית תקן. היא קיימת רק בתנאי שהתוחלת והמומנט השני קיימים וסופיים.

ראו גם[עריכת קוד מקור | עריכה]