שכיח

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
Statistipedia.svg

בסטטיסטיקה, השכיח הוא הערך בעל השכיחות הגבוהה ביותר בקבוצת נתונים. במילים אחרות, זהו הערך שהופיע במדגם יותר פעמים מכל ערך אחר.

כמו הממוצע והחציון, השכיח משמש כאמצעי להבעת מידע חשוב על משתנה מקרי או אוכלוסייה באמצעות מספר בודד. ערכו של השכיח בהתפלגות נורמלית שווה לממוצע ולחציון, אך יכול להיות שונה מהם מאוד ב התפלגות א-סימטרית. יתרונו המשמעותי של השכיח על שאר מדדי המרכז היא תקפותו גם למשתנה בעל ערכים שמיים.

השכיח אינו בהכרח ערך יחיד, כיון שפונקציית צפיפות ההסתברות יכולה להיות בעלת מספר נקודות מקסימום. כלומר יכולים להיות מספר ערכים שלהם שכיחות זהה, שהיא המקסימלית. במקרה כזה, יהיו כל הערכים בעלי שכיחות זו השכיחים. המקרה הקיצוני ביותר מתרחש בהתפלגויות אחידות, שבהן כל הערכים שכיחים באותה מידה. בהתפלגויות סימטריות, כמו ההתפלגות הנורמלית, החציון, השכיח והממוצע (אם הוגדר) מתלכדים. עבור דגימות, אם ידוע שהן מפוזרות בהתפלגות סימטרית, ממוצע המדגם יכול לשמש כאומדן של השכיח. במרבית ההתפלגויות הסימטריות (כמו ההתפלגות הנורמלית), השכיח שווה בערכו לממוצע ולחציון.

חישוב השכיחעריכה

במדגם בדידעריכה

השכיח של מדגם הוא הערך המופיע בו בתדירות הגבוהה ביותר. לדוגמה, השכיח של המדגם [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] הוא 6.לעומת זאת, ברשימת הנתונים [1, 1, 2, 4, 4] השכיח אינו ייחודי - קיימים שני ערכים בעלי אותה שכיחות, שהיא הגבוהה ביותר במדגם. ניתן לומר שההתפלגות היא דו-שיאית, בעוד שקבוצה עם יותר משני שכיחים יכולה להיות מתוארת כרב-שיאית.

במדגם רציףעריכה

כאשר המדגם הוא התפלגות רציפה, כגון [... .935, 1.211 ..., 2.430 ..., 3.668 ..., 3.874 ...], המושג הוא בלתי שימושי בצורתו הגולמית, שכן אין בו שני ערכים זהים, ולכן כל ערך יופיע בדיוק פעם אחת. על מנת להעריך את השכיח, מקובל לסדר את הנתונים במחלקות שוות רוחב, כמו להכנת היסטוגרמה, ולחשב את שכיחותה של כל מחלקה. ניתן למצוא בקלות את המחלקה השכיחה - המחלקה שבה ההיסטוגרמה מגיעה לשיא - ואמצע מחלקה זו הוא השכיח. החיסרון בכך הוא שבדגימות קטנות או בינוניות, עלולה להיווצר הטיה בהתאם לרוחב המחלקה. דרך אחרת לחישוב השכיח במקרה כזה היא למצוא את נקודת המקסימום של פונקציית צפיפות ההסתברות.

הצגה גרפיתעריכה

גרף המתאר את התפלגות אורכי הערכים בוויקיפדיה העברית.
התפלגות אורכי הערכים בוויקיפדיה העברית. ניתן לראות את השכיח כנקודה הבודדת בעלת הערך הגבוה ביותר וגם כנקודת המקסימום של הגרף

בסדרת ערכים, השכיח מוגדר כאמור על ידי ספירת ההופעות של הערכים השונים וניתן להציג את הרשימה כולה, אך דרך זו אינה נוחה. קיימות מספר דרכים להצגה גרפית של השכיח: ניתן לסדר את הערכים בטבלת שכיחויות- בה ליד כל ערך יופיע מספר הפעמים שבו נדגם. טבלה כזו יכולה לשמש לבניית דיאגרמת מקלות או גרף שבו מיקום נקודה מציין את הערך ושכיחותו. בהצגות כאלו, ניתן לאתר את השכיח בקלות: הערך השכיח הוא זה שהעמודה או הנקודה המייצגת אותו היא הגבוהה ביותר - בעל הצפיפות הגבוהה ביותר. כאשר מספר הערכים גדול ניתן לחלק את הערכים למחלקות ולהציג את שכיחותן בהיסטוגרמה. בצורת הצגה כזאת, השכיח הוא אמצע המחלקה השכיחה ביותר. במדגם רציף, שבו ניתן להציג את ההתפלגות בקו אחד, ניתן לאתר את השכיח בגרף על ידי מציאת נקודת המקסימום שלו.

השוואה למדדי מרכז אחריםעריכה

הטבלה הבאה ממחישה היטב את ההבדלים בין שלושת מדדי המיקום המרכזיים:

סוג תיאור דוגמה תוצאה
ממוצע חשבוני סכום ערכי המדגם מחולק במספרם\\bar{x} = \frac{1}{n}\sum_{i=1}^n x 7/(1+2+2+3+4+7+9) 4
חציון הערך האמצעי בסידור עולה של הערכים 1,2,2,3,4,7,9 3
שכיח הערך הנפוץ ביותר במדגם 1,2,2,3,4,7,9 2


בניגוד לממוצע ולחציון, המושג "שכיח" הגיוני וישים גם על ערכים שמיים. למשל, אם המדגם הוא של שמות משפחה בישראל, והשם "כהן" מופיע הכי הרבה פעמים, השכיח יהיה "כהן". מובן שבדגימה כזו לא ניתן לחשב ממוצע או חציון. במערכת בחירות שבה המנצח נקבע על פי הרוב, המנצח הוא השכיח. שני שכיחים ומעלה ידרשו תהליך שובר שוויון. בניגוד לחציון, שהגיוני להשתמש בו רק כאשר יש סדר לינארי בין הערכים האפשריים, השכיח אינו דורש זאת- בכל מדגם יש משמעות למושג זה.

פונקציית ההפסדעריכה

השכיח של מדגם מוגדר כערך שמספר הערכים השונים ממנו הוא הקטן ביותר. במילים אחרות, השכיח הוא הממזער של פונקציית ההפסד הבאה:

L_0(m)=\sum_{i=1}^n I_{m}(X_i) כאשר I_m(X_i)=\begin{cases} 1 & \text{if }m=X_i \\ 0 & \text{else} \end{cases}.

פונקציית ההפסד בעצם מתארת בכתיב מתמטי את המקרה הבא: בכל פעם בוחרים ערך אקראי מהרשימה. המטרה היא לנחש אותו, כאשר "ניצחון" הוא ניחוש נכון של הערך ו"הפסד" הוא כל ניחוש שאינו נכון. אנו מעוניינים "לנצח" כמה שיותר פעמים באמצעות שימוש באותו המספר. באיזה מספר עדיף לבחור? בשכיח כמובן. זהו הערך שאיתו נצא עם מספר ה"הפסדים" הקטן ביותר.


ראו גםעריכה