סטטיסטיקה חסינה

מתוך ויקיפדיה, האנציקלופדיה החופשית

סטטיסטיקה חסינה או "סטטיסטיקה רוֹבּוּסטית" (Robust statistics) היא טכניקה סטטיסטית שביצועיה טובים עבור נתונים מטווח רחב של התפלגויות. יתרונה בולט במיוחד עבור התפלגויות שאינן נורמליות. שיטות הסטטיסטיקה החסינות מתבססות יותר על החציון מאשר על הממוצע ומשתמשות יותר בערכים שבמרכז המדגם מאשר בערכים שבקצותיו.

הסטטיסטיקה החסינה מבקשת לספק שיטות המחקות את השיטות המקובלות בסטטיסטיקה, אך פחות מושפעות מנתונים קיצוניים. שיטות ההערכה הקלאסיות בסטטיסטיקה נשענות בחוזקה על השערות שלעיתים קרובות אין להן אחיזה במציאות. הסטטיסטיקה החסינה מוגדרת להיות עמידה מפני טעויות הנובעות מסטייה מההשערות. זה אומר שגם אם ההשערות מתקיימות רק בקירוב, המדד הסטטיסטי החסין יספק יעילות והטיה מתקבלות על הדעת, ואסימפטוטית (בשאיפה לאינסוף) יהיה חסר הטיה. שימוש נפוץ בסטטיסטיקה חסינה הוא להתמודדות עם תופעת הזנב הארוך.

מדידת חסינות[עריכת קוד מקור | עריכה]

הכלים העיקריים המשמשים לתיאור ומדידת חסינות הם נקודת השבירה, פונקציית ההשפעה ועקומת הרגישות.

נקודת השבירה של מדד סטטיסטי היא שיעור התצפיות הקטן ביותר ששינוי בלתי מוגבל בהן יגרום לשינוי לא חסום בערך המדד. לדוגמה, בהינתן אוסף של n מספרים ניתן להשתמש בנוסחה: על מנת לחשב את הממוצע. הממוצע לכן הוא בעל נקודת שבירה של 0 מכיוון שניתן לשנות אותו באופן בלתי חסום על ידי שינוי של כל אחד מהערכים .

פונקציית ההשפעה בודקת את תלות המדד הסטטיסטי בערך נקודה בודדת במדגם.

עקומת הרגישות בודקת כיצד המדד הסטטיסטי מושפע משינויים קלים בפיזור הערכים במדגם.

דוגמאות[עריכת קוד מקור | עריכה]

  • חציון הוא מדד חסין, בעל נקודת שבירה של 50%, בעוד לממוצע נקודת שבירה של 0% והוא איננו מדד חסין.
  • טווח בין-רבעוני הוא מדד חסין של סטייה סטטיסטית, בעוד שטווח איננו.
  • שימוש באומד קטום או בווינסוריזציה מאפשר ליצור מדד חסין יותר מהמדד המקורי.