מטריצת בלבול

בענף למידת המכונה, ובאופן ספציפי בבעיות סיווג סטטיסטי, מטריצת בלבול, המכונה גם מטריצת טעות,^[1] היא טבלה המציגה באופן ויזואלי, ביצועי מודל סטטיסטי, בדרך כלל בתחום הלמידה המונחית. באופן ספציפי, המטריצה מציגה היכן המודל הצליח לחזות את המצב הנכון והיכן לא. כל שורה במטריצה מייצגת את המופעים במחלקה בפועל (כלומר, התשובה הנכונה) בעוד שכל עמודה מייצגת את המופעים במחלקה חזויה (כלומר, התשובה שהמודל חזה כנכונה), או להפך.^[2]

המטריצה היא סוג מיוחד של לוח שכיחות, בעל שני ממדים ("בפועל" ו"חזויים").

דוגמה

בהינתן מדגם של 12 אנשים, 8 שאובחנו כחולי סרטן ו-4 שאינם חולים, כאשר החולים סווגו כ-1 (חיובי) והבריאים סווגו כ-0 (שלילי), ניתן להציג את הנתונים כך:

משתתפים	1	2	3	4	5	6	7	8	9	10	11	12
סיווג בפועל	1	1	1	1	1	1	1	1	0	0	0	0

נניח שיש לנו מודל סיווג, המקבל נתונים אודות אדם, ומכריע האם הוא חולה סרטן או אינו חולה סרטן. נרצה לבחון את המודל באמצעות הפעלתו על 12 האנשים במדגם לעיל, מבלי להגיד למודל מי מהם חולה ומי לא. נניח שהמודל חזה באופן מדויק את מצבם של 9 מתוך 12 האנשים, וטעה ביחס לשלושה מהם. לצורך הדוגמה, המודל חזה כי משתתפים 1 ו-2, אשר בפועל הם חולי סרטן, כבריאים, וכי משתתף 9, שבפועל הוא בריא, כחולה סרטן.

משתתפים	1	2	3	4	5	6	7	8	9	10	11	12
סיווג בפועל	1	1	1	1	1	1	1	1	0	0	0	0
סיווג חזוי	0	0	1	1	1	1	1	1	1	0	0	0

את 12 הסיווגים שסיפק המודל שלנו ניתן לחלק ל-4 תוצאות שונות:

האחת, "חיובי-אמיתי" (True-Positive (TP)), כאשר הסיווג בפועל חיובי והסיווג החזוי חיובי (1,1). כלומר, המודל סיווג נכונה תוצאה כחיובית.

השנייה, "שלילי-כוזב" (False-Negative (FN)), כאשר הסיווג בפועל חיובי והסיווג החזוי שלילי (1,0). כלומר, המודל סיווג באופן כוזב תוצאה חיובית כשלילית.

השלישית, "חיובי-כוזב" (False-Positive (FP)), כאשר הסיווג בפועל שלילי והסיווג החזוי חיובי (0,1). כלומר, המודל סיווג באופן כוזב תוצאה שלילית כחיובית.

הרביעית, "שלילי-אמיתי" (True-Negative (TN)), כאשר הסיווג בפועל שלילי והסיווג החזוי שלילי (0,0). כלומר, המודל סיווג נכונה תוצאה כשלילית.

לאחר מכן נוכל לבצע את ההשוואה בין סיווגים בפועל לסיווגים חזויים, ולהוסיף מידע זה לטבלה. את התוצאות הנכונות נסמן בצבע ירוק ואת הכוזבות באדום, על מנת להקל על הזיהוי.

משתתפים	1	2	3	4	5	6	7	8	9	10	11	12
סיווג בפועל	1	1	1	1	1	1	1	1	0	0	0	0
סיווג חזוי	0	0	1	1	1	1	1	1	1	0	0	0
תוצאה	FN	FN	TP	TP	TP	TP	TP	TP	FP	TN	TN	TN

את ארבע התוצאות השונות לעיל, ניתן להציג במטריצת בלבול בגודל 2×2, באופן הבא:

		מצב חזוי
	סה"כ 8 + 4 = 12	חולי סרטן 7	אינם חולים 5
מצב בפועל	חולי סרטן 8	6 (TP)	2 (FN)
מצב בפועל	אינם חולים 4	1 (FP)	3 (TN)

מטריצת בלבול עם יותר משתי קטגוריות

מטריצת בלבול אינה מוגבלת לסיווג בינארי (1 או 0) וניתן להשתמש בה גם במודלים המסווגים למעלה משני משתנים.^[3] זאת, להבדיל ממטריצת הבלבול לעיל, בה המסווג מכריע בין שני מצבים בלבד: חיובי ושלילי.

במטריצה להלן, המודל נדרש להבחין בין חתולים, כלבים וארנבים.

מתוך שמונה חתולים אמיתיים, המודל חזה שלושה ככלבים.

מתוך שישה כלבים, המודל חזה אחד כארנב ושניים כחתולים.

מהמטריצה ניתן לראות שהמודל מתקשה להבחין בין חתולים לכלבים, אך מבחין בצורה סבירה בין ארנבים לבעלי חיים אחרים.

		מצב חזוי
		חתול	כלב	ארנב
מצב בפועל	חתול	5	3	0
	כלב	2	3	1
	ארנב	0	2	11

הערות שוליים

^ Stehman, Stephen V. (1997). "Selecting and interpreting measures of thematic classification accuracy". Remote Sensing of Environment. 62 (1): 77–89. Bibcode:1997RSEnv..62...77S. doi:10.1016/S0034-4257(97)00083-7.
^ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.

ערך זה הוא יתום, כלומר אין ערכים בוויקיפדיה שמקשרים אליו. אתם מוזמנים לתרום לוויקיפדיה ולקשר אליו מכמה מהערכים שמכילים את המונח "מטריצת בלבול".

[1] Stehman, Stephen V. (1997). "Selecting and interpreting measures of thematic classification accuracy". Remote Sensing of Environment. 62 (1): 77–89. Bibcode:1997RSEnv..62...77S. doi:10.1016/S0034-4257(97)00083-7.

[Powers2011-2] Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.

[:1-3] Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.

[1]

[2]

[3]