מסווג דו-ערכי

מתוך ויקיפדיה, האנציקלופדיה החופשית

בסטטיסטיקה ובלמידה חישובית, מסווג דו-ערכי או מסווג בינארי הוא מסווג שמטרתו למיין את הפרטים בקבוצה לאחת משתי תת-קבוצות.

דוגמאות:

  • מסנן ספאם בדואר אלקטרוני מסווג את ההודעות הנכנסות לספאם וללא-ספאם.
  • בדיקה רפואית מאבחנת קיום מחלה (האם המטופל חולה או בריא?).
  • זיהוי עמית-טורף: מערכת הבודקת האם מטוס שזוהה במכ"ם הוא מטוס ידידותי או מטוס אויב.

סיווג סטטיסטי[עריכת קוד מקור | עריכה]

מדדי הערכה למסווג דו-ערכי[עריכת קוד מקור | עריכה]

מטריצת טעות
תיאור גרפי של מטריצת הטעות: הקו החוצה מפריד בין הפריטים החיוביים (משמאל) לבין הפריטים השליליים (מימין). האליפסה מתארת את המסווג: הפריטים בתוך האליפסה סומנו על ידי המסווג כחיוביים, ומחוץ לה – כשליליים.
קיום התופעה על פי מדד הזהב
קיימת לא קיימת
סיווג חיובי חיובי אמיתי חיובי כוזב
(שגיאה מסוג I)
שלילי שלילי כוזב
(שגיאה מסוג II)
שלילי אמיתי
מדדים שבריים פשוטים
רגישות מספר החיוביים האמיתייםמספר הקיימים
שיעור שליליים כוזבים מספר השליליים הכוזביםמספר הקיימים
סגוליות מספר השליליים האמיתייםמספר הלא-קיימים
שיעור חיוביים כוזבים מספר החיוביים הכוזביםמספר הלא-קיימים
ערך ניבוי חיובי מספר החיוביים האמיתייםמספר המסווגים חיובית
ערך ניבוי שלילי מספר השליליים האמיתייםמספר המסווגים שלילית


ערך מורחב – מדדי הערכה למסווג דו-ערכי

אינטואיטיבית, קל לומר האם מסווג מסוים הוא "מוצלח" (כלומר, ממיין את פריטי הקבוצה בדרך שתואמת את ההיגיון שלנו) או לא. עם זאת, לצרכים מדעיים, קיים צורך לתת הערכה מספרית לביצועי המסווג. כדי לבצע זאת, יש צורך לבדוק את המסווג מול קבוצת נתונים קטנה יחסית, שבה ידוע לנו (מלכתחילה או בדיעבד) הסיווג הנכון, בעזרת מדד זהב כלשהו.

גם בהינתן מדד זהב, עדיין ניתן לבחור דרכים שונות להעריך מספרית את הצלחת המסווג (ראו מסגרת).

קיימים מספר יחסים פשוטים, המתארים את היחסים בין חלקים שונים של התרשים. למשל:

  • רגישות מתארת את החלק היחסי של התוצאות החיוביות מתוך כלל הפריטים שאמורים היו להיות מסווגים כחיוביים.
כלומר:
חיוביים אמיתייםכלל החיוביים = חיוביים אמיתייםחיוביים אמיתיים + שליליים כוזבים רגישות
  • סגוליות מתארת את החלק היחסי של התוצאות השליליות מתוך כלל הפריטים שהיו אמורים להיות מסווגים כשליליים.
שליליים אמיתייםכלל השליליים = שליליים אמיתייםשליליים אמיתיים + חיוביים כוזבים


סגוליות

בנוסף, קיימים מדדי הערכה פשוטים פחות, אבל יותר תמציתיים; למשל, מקדם מתאם מתיוז:

ח"א ש"א - ח"כ ש"כ(ח"א + ח"כ)(ח"א + ש"כ)(ש"א + ח"כ)(ש"א + ש"כ)


כאשר ח"א הוא מספר החיוביים האמיתיים; ח"כ הוא מספר החיוביים הכוזבים; ש"א הוא מספר השליליים האמיתיים; ש"כ הוא מספר השליליים הכוזבים.

ניתן לומר, בהכללה, שמקדם מתאם מתיוז מתאר את המתאם בין המסווג למדד הזהב.

להלן איור המסכם את מטריצת הטעות וממדי ההערכה השונים, היסודיים והנגזרים, של מסווג דו-ערכי.

המרת ערכים רציפים לסיווג דו-ערכי[עריכת קוד מקור | עריכה]

בהינתן קלט , על המסווג להחליט האם התוצאה חיובית או שלילית. דרך נפוצה לבצע זאת היא על ידי הגדרת פונקציית ניקוד . הניקוד מבטא את מידת ההערכה שתוצאה קרובה לחיובית או חיובית בעצמה. בנוסף, מגדירים פונקציית מדרגה התלויה ב-T (שנקרא ערך הסף, threshold) באופן הבא:

בעזרת שתי הפונקציות הללו, ניתו לבחור מסווג בינארי מהצורה , כלומר: לכל המסווג יחזיר , כלומר: המסווג יחזיר 1 אם הניקוד גדול או שווה לערך הסף, ואחרת יחזיר 0. באמצעות קביעת הסף אפשר להגדיל או להקטין את רגישות המסווג, וכן את הסגוליות. באמצעות עקומת ROC אפשר לבצע אופטימיזציה של המסווג על ידי כוונון הסף.