חציון

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

בסטטיסטיקה, החציון (קרוי גם המאון ה-50 או האחוזון ה-50) הוא מדד מרכזי לקבוצה סדורה של נתונים חד-ממדיים. החציון מוגדר להיות ערך - גם אם אינו איבר בקבוצה - שחצי מהנתונים קטנים ממנו וחצי מהנתונים גדולים ממנו (אי-שוויון חלש). למשל החציון של הקבוצה {1,2,10} הוא 2. כאשר מספר הנתונים אי-זוגי הגדרת החציון פשוטה, אולם כאשר הוא זוגי ההגדרה אינה חד-משמעית. נהוג לקבוע שבמקרים כאלה החציון הוא הממוצע של שני הנתונים המרכזיים.

חציון גאומטרי הוא מדד מרכזי שמוגדר גם עבור קבוצות סדורות של נתונים רב-ממדיים.

לחציון תכונות מסוימות, המשותפות עם הממוצע, אולם הם שונים מהותית בהיבטים אחרים. ההבדל המשמעותי ביניהם הוא בכך שהחציון מתעלם ממטריקה על הנתונים ולוקח בחשבון רק את האינדקס שלהם. כך למשל החציון של הקבוצה {1,2,5} זהה לחציון של הקבוצה {1,2,10}, על אף שהממוצעים של שתי הקבוצות שונים מאוד. בפרט, החציון פחות רגיש לשגיאות גדולות בערכים בודדים או לערכים חריגים.

הגדרה פורמלית[עריכת קוד מקור | עריכה]

כמדד של קבוצת נתונים, יש לחציון כמה הגדרות מקובלות שכולן שקולות אם הקבוצה כוללת מספר אי-זוגי של נתונים. במקרה זה, החציון שווה לערך המופיע במקום האמצעי לאחר סידור הנתונים. אם בקבוצה מספר זוגי של נתונים מסודרים, \ a_1,\dots,a_n,a_{n+1},\dots,a_{2n}, כל מספר שבין \ a_n ו-\ a_{n+1} עשוי להיחשב כחציון, וכאמור נהוג לרוב לבחור את הממוצע שבין שני ערכים אלה.

כאשר מדובר בנתונים מקובצים (למשל: כמה תלמידים קיבלו ציון שבין 61 ל-70), החציון שייך לקבוצה שפחות ממחצית הנתונים מעליה, ופחות ממחצית הנתונים מתחתיה, אם יש כזו. במקרה כזה מקובל למקם את החציון כאילו הנתונים בקבוצה שאליה הוא שייך היו מתפלגים באופן אחיד, וכך מחלק החציון את ההיסטוגרמה לשתי מחציות שוות-שטח. אם לא קיימת קבוצה כנזכר למעלה, אז קיימת נקודת חיתוך בין שתי קבוצות, החוצה את הנתונים לשתי קבוצות שוות, ואז מקובל לקבוע אותה כחציון.

הגדרת החציון חלה, באופן כללי יותר, בכל מקרה שבו הנתונים סדורים באופן מלא. במקרה זה, חציון תמיד קיים (לפחות אחד) אם לכל חתך של הטווח של המשתנה המקרי (דהיינו, חלוקת הטווח לשתי קבוצות הממצות אותו ואשר כל איבר באחת גדול מכל אחד מאברי השנייה) יש לפחות קבוצה אחת המרכיבה אותו שיש לה איבר הקטן ביותר ואיבר הגדול ביותר.

חציון של משתנה מקרי[עריכת קוד מקור | עריכה]

בדומה לתוחלת, החציון מוגדר גם עבור משתנה מקרי ממשי X, בתור ערך \ M(X), המקיים:
גם \ P[ X \le M(X)]\ge 0.5 וגם \ P[ X \ge M(X)]\ge 0.5 . האופרטור M הוא הומוגני ושומר על הזזות (כלומר, \ M(aX+b)=aM(X)+b); יתרה מזו, \ M(f(X))=f(M(X)) לכל פונקציה מונוטונית ממשית \ f. התוחלת של סכום משתנים מקריים שווה לסכום התוחלות, ובתנאים מסוימים טענה דומה נכונה גם עבור השונות. לעומת זאת, אין קשר ברור בין החציון של סכום משתנים לבין שני החציונים.

החציון של משתנה מקרי המקבל בהסתברות \ 1/n את הערך \ a_i (כאשר \ i=1,\dots,n והערכים \ a_i אינם בהכרח שונים), שווה לחציון של סדרת הערכים \ a_1,\dots,a_n. מכיוון שכך, ניתן לראות בהגדרה לחציון של קבוצת ערכים, מקרה פרטי של ההגדרה למשתנים מקריים.

דוגמאות. החציון של התפלגות אחידה רציפה, הוא מרכז הקטע. החציון של התפלגות סימטרית, כגון ההתפלגות הנורמלית, שווה לתוחלת.

הגדרה כערך קיצון[עריכת קוד מקור | עריכה]

את הממוצע x של קבוצת מספרים \ a_1,\dots,a_n אפשר להגדיר כמספר (היחיד) שעבורו סכום הריבועים \ (x-a_1)^2+\dots+(x-a_n)^2 הוא הקטן ביותר. באופן דומה, מספר הממזער את סכום הערכים המוחלטים \ |x-a_1|+\dots+|x-a_n| נקרא חציון של הקבוצה. על-פי הגדרה זו, ישנם לקבוצה בגודל זוגי אינסוף ערכי חציון אפשריים (בדרך כלל); מקורות אחדים בוחרים אחד מן הערכים האלה להיות החציון, כפי שהוצע לעיל בבחירת הממוצע של שני הערכים המרכזיים.