סיווג (סטטיסטיקה)
יש להשלים ערך זה: בערך זה חסר תוכן מהותי.
| ||
יש להשלים ערך זה: בערך זה חסר תוכן מהותי. | |
בסטטיסטיקה ובלמידת מכונה, סיווג הוא פעולה שמחלקת קבוצת עצמים לתת-קבוצות. למשל: ניתן לסווג את הילדים בכיתה לקבוצות למידה שונות, כך שכל ילד יהיה בקבוצת לימוד אחת. דוגמה נוספת: ניתן לסווג קבוצת תפוחים לפי הזנים השונים שלהם. האלגוריתם שמבצע את הסיווג מכונה כלל סיווג. לעיתים, כמו בדוגמה הראשונה, אין סיווג "נכון". במקרים אחרים (כמו בדוגמה השנייה) פעולת הסיווג אמורה לחקות חלוקה שאינה תלויה בפעולת הסיווג עצמה, ואז כלל הסיווג נקרא מסווג.
באופן יותר פורמלי, כלל סיווג הוא פונקציה מקבוצת העצמים לקבוצת הקטגוריות , שהיא על, אבל בדרך כלל לא חד חד ערכית (הסיווג הטריוויאלי).
אם קיים סיווג אמיתי , ו- אמור למזער את ההבדל , תחת מטריקה מתאימה, אזי כלל הסיווג נקרא מסווג.
מקום מיוחד שמור למסווגים דו-ערכיים. אלו מסווגים מהסוג הפשוט ביותר: הם מחלקים את כל העצמים בקבוצה לאחת משתי תת-קבוצות. קיימות דרכים רבות להעריך את הקרבה בין פלט המסווג לבין החלוקה האמיתית, (קרי: מטריקות על מרחב המסווגים), בפרט למסווגים דו-ערכיים. ראו פירוט בערך: מדדי הערכה למסווג דו-ערכי.
מסווגים המחלקים את הקבוצה ליותר משתי תת-קבוצות נקראים מסווגים רב-ערכיים, והניתוח המתמטי שלהם מסובך יותר.