היסטוגרמה

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
דוגמה להיסטוגרמה

היסטוגרמה היא צורת הצגה גרפית של נתונים. מקור השם מיוונית histos - תורן, עמוד זקוף ו- gram - ציור, תרשים. הנתונים בהיסטוגרמה מוצגים כמלבנים המייצגים מחלקות שונות (הקרויות גם קטגוריות), שאין ביניהן חפיפה, באוכלוסיית הנתונים לפי שכיחותן היחסית. בהצגה זו שטח כל מלבן מייצג את השכיחות היחסית המתאימה לו. בדרך כלל, הציר האופקי (ציר X) מייצג את הקטגוריות של הנתונים. הציר המאונך לו (ציר Y) מתאר את השכיחות. גובה המלבן, מבטא את שכיחות או צפיפות המקרים, ליחידה אחת של המשתנה הנחקר. את אותו מידע ניתן להציג גם בטבלת שכיחות, אך ההצגה הגרפית מאפשרת תפישה אינטואיטיבית ומהירה יותר של הנתונים. המחלקות בהיסטוגרמה אינן חייבות להיות בעלות אותו הגודל, ובלבד שלא תהיה חפיפה ביניהן.

ההיסטוגרמה שימושית לתיאור משתנה רציף מסולם מדידה מרווחי או מנה.

השימוש המוקדם ביותר במונח היסטוגרמה מיוחס לסטטיסטיקאי קארל פירסון בשנת 1895‏‏[1].

הגדרה פורמלית[עריכת קוד מקור | עריכה]

היסטוגרמה היא טרנספורמציה הממפה משתנים מסולם מדידה אחד (מרווחי או מנה), המהווים את המקור, ל-k משתני מחלקות (הקטגוריות). משתנה המחלקה ה-i מונה את מספר המופעים של משתנה המקור במחלקה m_i. לאמור, בהינתן n משתנים ו-k מחלקות, ההיסטוגרמה מקיימת את התנאי הבא: n = \sum_{i=1}^k{m_i}

הייצוג הגרפי הוא דרך אחת לייצג היסטוגרמה, דרך נוספת היא טבלת שכיחות.

היסטוגרמה מצטברת[עריכת קוד מקור | עריכה]

היסטוגרמה מצטברת מורכבת ממשתנים המונים את המספר המצטבר של המופעים במחלקה נוכחית, בתוספת כל המחלקות הקודמות.

לאמור, משתנה היסטוגרמה מצטברת M_i המורכבת מההיסטוגרמה m_i מקיים: M_i = \sum_{j=1}^i{m_j}

בחירת גודל המחלקות ומספרן[עריכת קוד מקור | עריכה]

ההיסטוגרמה רגישה לגודלן של המחלקות, לכן ברורה החשיבות בבחירתן הנכונה.
ואולם, אין הסכמה בקרב הסטטיסטיקאים בדבר הגודל האופטימלי של כל מחלקה. מקובלים מספר כללים מנחים, אך לא מוחלטים.

כללי אד-הוק[עריכת קוד מקור | עריכה]

אלה כללים (שרירותיים) מקובלים המבוססים על ניסיון בלבד ועל טיבם של הנתונים. לדוגמה: ציוני מבחן בטווח 0-100 יחולקו למחלקות בגודל 10 ציונים כל אחת. נתוני שכר יחולקו למחלקות בגודל 1,000 ש"ח כל אחת, או בהתאם למדרגות המיסוי על ההכנסה וכדומה.

בחלוקה גסה, מקובל לחלק את הנתונים ללא פחות מ-5 ולא יותר מ-15 מחלקות בדרך כלל, בהתאם לנסיבות. ככל שעולה מספרם הכללי של הנתונים כך גם יחולקו ליותר מחלקות.

משנקבע רוחבה/גודלה של מחלקה - h, ניתן לחשב את מספר המחלקות k על ידי חלוקת טווח הנתונים (המרחק בין הערך הגדול ביותר לבין הערך הקטן ביותר) למקטעים שווים, לפי הנוסחה

k = \left \lceil \frac{\max x - \min x}{h} \right \rceil

הערה: הסוגריים לעיל מציינות את פונקציית התקרה.

כללים תאורטיים[עריכת קוד מקור | עריכה]

אלה כללים המתבססים על התאוריה הסטטיסטית. נציג את הנפוצים שבהם בלבד. יש לציין שכאשר מספרם של הנתונים אינו עולה על 200, רוב הכללים נותנים תוצאה דומה מאוד.

שני הכללים הנפוצים, המסתמכים על מספרם הכולל של הנתונים בלבד הם:

  • הכלל של סטורג'ס (Sturges) לקביעת מספר הקטגוריות
k = \lceil 1 + 3.32 \cdot log_{10}n\rceil

n - מספר התצפיות/נתונים הכולל.

  • הכלל של טרל וסקוט (Terrell & Scott) לקביעת מספר הקטגוריות
k = \lceil (2n)^{1/3}\rceil

בשני הכללים נדרש שמספר הנתונים יהיה גדול מ-30 (ישנם מקורות שמסתפקים גם במינימום של 15 נתונים). לקבוצת נתונים קטנה הכלל של טרל וסקוט מחמיר מהכלל של סטורג'ס, אך מעל כ-500 נתונים מתהפכות היוצרות והכלל של סטורג'ס הוא המחמיר מבין השניים. הכלל של סטורג'ס נפוץ יותר בשימוש בשל היותו הוותיק מבין השניים.

שני כללים מתוחכמים יותר לקביעת גודל קטגוריה:

  • הכלל של סקוט (Scott)
h = \frac{3.5 \cdot s}{n^{1/3}}

s - סטיית התקן המדגמית.

  • הכלל של פרידמן (או פרידמן-דיאקוניס) (Freedman-Diaconis)
h = \frac{2 \cdot IQR}{n^{1/3}}

IQR - הטווח הבין-רבעוני.

ראו גם[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Dodge, Yadolah. "The Concise Encyclopedia of Statistics". Springer, 2008