לוח שכיחות
בהסתברות ובסטטיסטיקה, לוח שכיחות (באנגלית: contingency table) הוא טבלה את ההתפלגות של משתנה איכותי, או את ההתפלגות המשותפת של שני משתנים איכותיים או יותר. תהליך יצירת הנתונים ללוח השכיחות יכול להיות תהליך מולטינומי או פואסוני.
המונח "contingency table" הופיע לראשונה במאמר של קרל פירסון מ-1900[1]. באותה שנה פירסון הציג את גם מבחן כי בריבוע לבדיקת השערת אי התלות בין שני משתנים איכותיים[2].
דוגמאות
[עריכת קוד מקור | עריכה]לוח שכיחות חד־ממדי
[עריכת קוד מקור | עריכה]לקראת סוף מלחמת העולם השנייה, בין יוני 1944 למרץ 1945, גרמניה שיגרה יותר מ-9000 טילי V1 לכיוון בריטניה[3]. 535 טילים נחתו בדרום לונדון. לצורך ניתוח סטטיסטי לבדיקת רמת הדיוק של הטילים, חולק האזור בו נחתו הטילים ל-576 אזורים שווי שטח, ונספרו מספר הפגיעות בכל אזור. הנתונים מרוכזים בלוח השכיחות החד־ממדי הבא:
מספר הפגיעות | מספר האזורים |
---|---|
0 | 229 |
1 | 211 |
2 | 93 |
3 | 75 |
4 או יותר | 8 |
סך הכל | 535 |
המשתנה הוא מספר הפגיעות. מספר הפגיעות הוא אמנם משתנה ספירה, אך עדיין ניתן להציג את הערכים בלוח שכיחות. קיבוץ הערכים שערכם גדול או שווה מ-4 לקטגוריה אחת הופך את המשתנה למשתנה סודר. השכיחות של הערך 0 היא 229, השכיחות של הערך 1 היא 211, וכן הלאה.
תהליך יצירת הנתונים הוא פואסוני.
לוח שכיחות דו־ממדי
[עריכת קוד מקור | עריכה]בניסוי קליני שנערך בשוודיה השתתפו 1360 חולים שעברו שבץ מוחי. כל חולה טופל באופן מקרי באספירין או בפלצבו[4]. אחד הנתונים שנאספו בניסוי הוא ציון מוות כתוצאה מאוטם שריר הלב במהלך תקופת המעקב שארכה שלוש שנים. הנתונים מוצגים בלוח השכיחות הדו־ממדי הבא:
טיפול | מוות כתוצאה מאוטם שריר הלב | סך הכל | |
---|---|---|---|
כן | לא | ||
אספירין | 18 | 658 | 676 |
פלסבו | 28 | 656 | 684 |
סך הכל | 46 | 1314 | 1360 |
בלוח זה יש שני משתנים: הטיפול, ומוות כתוצאה מאוטם שריר הלב. השכיחות של מספר החולים שטופלו באספירין ומתו כתוצאה מאוטם שריר הלב היא 18, השכיחות של מספר החולים שטופלו בפלסבו ולא מתו כתוצאה מאוטם שריר הלב היא 656, וכולי.
בלוח יש גם שורה ועמודה בהן נרשם סך הכל של כל שורה וכל עמודה. בשורה התחתונה אנו יכולים לראות כי השכיחות של סך החולים (ללא קשר לטיפול) שמתו כתוצאה מאוטם שריר הלב היא 46, והשכיחות של סך החולים שלא מתו כתוצאה מאוטם שריר הלב היא 1346. זהו למעשה לוח שכיחות חד־ממדי המציג את ההתפלגות של המשתנה "מוות כתוצאה מאוטם שריר הלב". התפלגות זו מכונה ההתפלגות השולית של המשתנה. באופן דומה, עמודת סך הכל של הלוח (העמודה השמאלית ביותר) מציגה את ההתפלגות השולית של משתנה הטיפול.
תהליך יצירת הנתונים כאן הוא מולטינומי.
לוח שכיחות תלת־ממדי
[עריכת קוד מקור | עריכה]מחקר שנערך בארצות הברית בדק נתונים של 674 משפטי רצח. מטרת המחקר הייתה לבדוק את השפעת צבעי העור של הרוצח והנרצח על גזר הדין – עונש מוות או תוצאה אחרת[5]. במחקר זה יש שלושה משתנים איכותיים: צבע העור של הרוצח, צבע העור של הנרצח, וגזר הדין, ולכן הנתונים יוצרים לוח שכיחות תלת־ממדי:
צבע העור של הנרצח | צבע העור של הרוצח | עונש מוות | |
---|---|---|---|
כן | לא | ||
לבן | לבן | 53 | 414 |
שחור | 11 | 37 | |
שחור | לבן | 0 | 16 |
שחור | 139 | 4 |
בלוח כזה קשה יותר להציג את ההתפלגויות השוליות, אך ניתן לחשב אותן. כך למשל ההתפלגות השולית של צבע העור של הנרצח היא
צבע העור של הנרצח | לבן | שחור | סך הכל |
---|---|---|---|
שכיחות | 515 | 159 | 674 |
וכדומה.
תהליך יצירת הנתונים הוא מולטינומי.
ניתוח לוחות שכיחות
[עריכת קוד מקור | עריכה]מבחינת סטטיסטיקה תיאורית, ניתן לחשב מדדי מרכז ופיזור לכל משתנה בנפרד, בהתאם לסולם המדידה של המשתנה.
קיים מבחר גדול של מדדי קשר למדידת עוצמת הקשר בין שני משתנים בלוח שכיחות דו־ממדי[6]. חלקם ניתנים להכללה עבור לוחות שכיחות ממימד גבוה יותר. כן קיימים מבחנים לבדיקת השערת אי התלות בין שני משתנים, הנפוץ שבהם הוא מבחן כי בריבוע. חלק ממבחנים אלה ניתנים גם הם להכללה ללוחות שכיחות ממימד גבוה יותר.
ההסקה הסטטיסטית על לוחות שכיחות מתחלקת לשני תחומים עיקריים. באחד מהם המיקוד הוא על מבנה הקשר בין המשתנים, והשני מציג את אחד המשתנים כמשתנה מוסבר ואת שאר המשתנים כמשתנים מסבירים, במסגרת ניתוח רגרסיה.
ראו גם
[עריכת קוד מקור | עריכה]לקריאה נוספת
[עריכת קוד מקור | עריכה]- Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. ISBN 978-0-262-02113-5. MR 0381130.
- Agresti, Alan (2007). An introduction to categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN 978-0-471-22618-5.
- Agresti, Alan (2002). Categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN 0-471-36093-7.
קישורים חיצוניים
[עריכת קוד מקור | עריכה]- לוח שכיחות, באתר MathWorld (באנגלית)
הערות שוליים
[עריכת קוד מקור | עריכה]- ^ Karl Pearson, I. Mathematical contributions to the theory of evolution.—VII. On the correlation of characters not quantitatively measurable., Philosophical Transactions of the Royal Society of Series A 195, 1900, עמ' 1-47
- ^ Karl Pearson, On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling, Philosophical Magazine, 50 5, 1900, עמ' 157–175 doi: 10.1080/14786440009463897
- ^ C. Dennis O'Shaughnessy, Bombs over London, Course notes, Department of Mathematics and Statistics University of Saskatchewan
- ^ Agresti Alan, Categorical Data Analysis, 2nd edition, John Wiley & Sons, Inc., Hoboken, New Jersey, 2002, עמ' 71-72, ISBN 0-471-36093-7
- ^ Alan Agresti, An introduction to categorical data analysis, 2nd Edition, John Wiley & Sons, Inc., Hoboken, New Jersey, 2002, עמ' 49-50, ISBN 978-0-471-22618-5
- ^ Goodman, Leo A., and William H. Kruskal, Measures of association for cross classifications, Journal of the American statistical association, 49 268, 1954, עמ' 732-764