סטטיסטיקה תאורית

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
הצגה גרפית של התפלגות

סטטיסטיקה תאורית היא ענף בסטטיסטיקה, העוסק ביצירה והשוואה של מדדים לתיאור תמציתי וקל לתפישה של נתונים. מטרת הסטטיסטיקה התיאורית היא לסייע בארגון וסיכום הנתונים שנאספו מכלי מדידה או הערכה שונים‏[1].

טבלאות[עריכת קוד מקור | עריכה]

טבלה הינה תמליל או אוסף נתונים מספריים, המארגן בעל שטח של מסמך, בעזרת טורים ושורות, כאשר כל טור ושורה נושאים כותרת המגדירה את תוכנם. בטבלה מוצלבים הטורים והשורות ליצירת תאים בהם נרשמים הערכים השונים, נתון אחד בכל תא. נתונים בטבלה מכונים ערכי הטבלה. לכלל הטבלה ניתנת כותרת ראשית.

מטרת הטבלה היא סידור מידע באופן תמציתי וקל לתפישה. היא מגדירה במדויק קשרים בין הערכים השונים. טבלה רגילה מסוגלת לקשר מספר רב של הבחנות (דרכים על פיהן מבוצע המיון) זו לזו, ולתאר בכך את התייחסותן ההדדית.

דוגמה:

טבלת חלוקת מדינות העולם לפי תוחלת חיים בלידה, על פי הערכות ה CIA לקראת שנת 2010 [1]

עשירון תוחלת חיים מ- תוחלת חיים עד מדינות בולטות
העשירון העליון 80 שנה 90 מדינות מערב אירופאיות, אוסטרליה, ניו זילנד, יפאן, סינגפור וישראל
השני 78.5 80 מדינות מערב אירופאיות, ממלכת ירדן, קוריאה הדרומית, בוסניה-הרצגובניה, פוארטו ריקו
השלישי 76.7 78.5 מדינות ממזרח ומערב אירופה, ארצות הברית, מדינות דרום אמריקניות, טייוון וליבריה
הרביעי 75 76.7 מדינות ערביות שונות, מדינות מזרח אירופאיות, דרום אמריקניות ודרום מזרח אסייתיות
החמישי 73.5 75 מרבית מדינות ערב, סין, הונגריה ומדינות שונות מדרום אמריקה ודרום מזרח אסיה
השישי 71.4 73.5 לטוויה, ברזיל, מצרים, אירן, טורקיה ומקבץ מדינות עולם שלישי
השביעי 67.5 71.4 מקבץ מדינות עולם שלישי, ביניהן הפיליפינים ועירק
השמיני 62.5 67.5 רוסיה, תימן ומדינות מדרום מזרח אסיה
התשיעי 54.5 62.5 מדינות עולם שלישי שונות, רובן באפריקה שמדרום לסהרה
האחרון 38 54.5 אפגניסטן ומדינות אפריקה שמדרום לסהרה או במדבר סהרה עצמו

הצגה גרפית[עריכת קוד מקור | עריכה]

הצגה גרפית היא דרך לתאר התפלגות של משתנה מקרי בצורה ויזואלית.

  • דיאגרמת מקלות - על ציר ה-X ערכי המשתנים, ציר ה-Y הוא תדירויות הופעת משתנה בערך מסוים. על כל ערך אפשרי של המשתנה ניצב "מקל" בגובה פרופורציוני למספר הפעמים שערך זה מופיע במדגם.
  • היסטוגרמה - על ציר ה-X קטגוריות של ערכי משתנים (למשל טווח ערכים). מעל כל קטגוריה ניצב מלבן בעל שטח פרופורציוני למספר הפעמים שערכי הקטגוריה מופיעים במדגם.
  • דיאגרמת עוגה - תרשים בצורת מעגל המציג התפלגות: שטח המעגל צבוע בצבעים שונים, כפרוסות בעוגה, כאשר הזווית המוקדשת לכל צבע נמצאת בפרופורציה לתדירות הופעת ערכי הקטגוריות השונות.

מדדים[עריכת קוד מקור | עריכה]

מדדי מיקום ומרכז[עריכת קוד מקור | עריכה]

מדדי מיקום הם מדדים המאפשרים להעריך את מיקומו של פרט ביחס לשאר המדגם. מרבית מדדי המיקום הם מדדי מרכז. מטרתם של מדדי מרכז היא אפיון מרכז ההתפלגות. ההבדל ביניהם הוא במידת רגישותם לערכים קיצוניים.

  • מדדים הקשורים לממוצע:
    • ממוצע חשבוני (לרוב נקרא פשוט "ממוצע") - הערך שהיה מתקבל עבור כל פרט, אילו כלל ערכי הקבוצה היו מתחלקים שווה בשווה בין פרטיה. זהו מדד המיקום המקובל ביותר בסטטיסטיקה. דרך חישוב: סכום הערכים חלקי מספרם. מדד מרכז.
      • ממוצע משוקלל - מדד מרכז. ממוצע משוקלל הוא ממוצע חשבוני שבו לערכים שונים ניתנת חשיבות ("משקל") שונה. ערכו של הממוצע המשוקלל הוא סכום המכפלות של כל ערך במשקל שלו, מחולק בסכום המשקלות. הממוצע החשבוני הפשוט הוא מקרה פרטי של הממוצע המשוקלל כאשר כל המשקלות שווים זה לזה.
      • ציון תקן - ציון תקן הוא המרחק של הפריט מהממוצע החשבוני, ביחידות של סטיית התקן.
    • ממוצע הנדסי - ממוצע הנדסי של ערכים חיוביים הוא מכפלת הערכים, בחזקת המספר ההופכי למספר הערכים. מדד מרכז.
    • ממוצע הרמוני - מדד מרכז.
  • אחוזון - האחוזון של פריט מסוים בסדרה מציין איזה אחוז מן הנתונים קטנים ממנו. בדומה לאחוזונים, ניתן לבטא את מיקומו של פריט בשברים אחרים, כגון חמישונים, עשירונים וכדומה. כך למשל, העשירון הרביעי כולל את האחוזונים מ-30 עד 40.
    • חציון הוא הערך שנמצא באמצע קבוצת הנתונים לאחר סידורה. החציון שימושי למשל כאשר יש באוכלוסייה ערכים חריגים שערכם המספרי אינו בר-חשיבות.
    • העשירון העליון.
    • רבעון ראשון ורבעון שלישי, וביניהם מקובל לחשב את אמצע טווח בין רבעוני.
  • אחרים:
    • אמצע טווח - אמצע המרחק בין הערך הנמוך ביותר לבין הערך הגבוה ביותר (מדד נדיר שימוש בשל השפעת תוצאות בעלות ערך חריג). מדד מרכז
    • שכיח - הערך הנפוץ ביותר בקבוצה. הערך המופיע מספר הפעמים הגדול ביותר במדגם. מדד מרכז

מדדי פיזור[עריכת קוד מקור | עריכה]

בניגוד למדדי מרכז, המאפיינים את המשותף לכל הערכים, מדדי פיזור מודדים את ההבדל בין הערכים שבמדגם.

  • טווח - המדידה הפשוטה ביותר של הפיזור היא הטווח - המרחק בין הערך הגדול ביותר לבין הערך הקטן ביותר (R = Xmax - Xmin). מדידה זו מושפעת ביותר מערכים קיצוניים.
  • טווח בין רבעוני - המרחק בין הרבעון הראשון לבין הרבעון השלישי.
  • שוֹנוּת - מדד המאפיין את השונות של הערכים, כלומר מידת ריחוקם מהערך הממוצע. מחושב כממוצע ריבועי הסטיות מהממוצע.
  • סטיית התקן - המרחק של המדדים מן הממוצע, מדד המתבסס על השונות, ומשמש לאותו צורך. מחושב כשורש ריבועי של השונות. הצורך במדד זה נובע מהעובדה שבתהליך חישוב השונות יש העלאה בריבוע, ולכן הערך המתקבל אינו באותן יחידות של ערכי המדגם. סטיית התקן היא באותן יחידות.

מדידים הן לפיזור והן למיקום[עריכת קוד מקור | עריכה]

  • התפלגות - אפיון הערכים על פי מידת פיזורם במרחב. לדוגמה התפלגות אחידה, התפלגות נורמלית, התפלגות פואסונית.

מדדי קשר ותלות[עריכת קוד מקור | עריכה]

מדדי קשר הם מדדים המאפשרים להעריך את טיב הקשר בין שני משתנים שונים - האם יש קשר בין שינוי באחד מהם לשינוי בשני. קיימים מספר מדדי קשר, בהתאם לסולם המדידה של המשתנים הנמדדים. במקרה של אי התאמה בין הסולמות של שני משתנים, יש להשתמש במדד המתאים לסולם הנמוך מבין השניים.

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ מנוחה בירנבוים (1997). חלופות בהערכת הישגים. רעננה: רמות.