שגיאות מסוג I ו-II
בביצוע בדיקת השערות סטטיסטית, מקובל לסווג שגיאות בצורה הבאה: שגיאה מסוג I היא דחייה שגויה של השערת האפס, כלומר ניסוי מסתיים בתוצאה שהתגלתה תופעה מסוימת, אך תוצאת הניסוי שגויה והתופעה אינה קיימת במציאות. את ההסתברות לקבל שגיאה זו מסמנים באות α; שגיאה מסוג II היא קבלה שגויה של השערת האפס, כלומר הניסוי לא מצליח לאשש שתופעה מסוימת קיימת, למרות שהתופעה אכן קיימת במציאות. את ההסתברות לקבל שגיאה כזו מסמנים באות β. לדוגמה, אם הניסוי בודק את השפעתה של תרופה מסוימת על מחלה, שגיאה מסוג I מתרחשת כאשר התוצאות מצביעות על היות התרופה יעילה כשבמציאות היא אינה יעילה, ושגיאה מסוג II כאשר התוצאות אינן מצביעות על יעילות התרופה כשבמציאות היא כן יעילה.
המונחים "שגיאה מסוג I" ו"שגיאה מסוג II" נקראים לעיתים גם "תוצאה חיובית כוזבת" (False positive) ו"תוצאה שלילית כוזבת" (False negative) בהתאמה, שהם מונחים כלליים יותר המשמשים בהקשרים שונים. המונחים "שגיאה מסוג I" ו"שגיאה מסוג II" מתייחסים ספציפית לבדיקת השערות סטטיסטית.
הגדרה
[עריכת קוד מקור | עריכה]כל בדיקה הנשענת על מידע מדעי וכל מבחן סטטיסטי עשויים לעיתים לתת תוצאות שגויות. על פי רוב, בדיקות ומבחנים סטטיסטיים בוררים בין שתי השערות:
- "השערת האפס", שאותה מקובל לסמן ב-H0.
- "ההשערה האלטרנטיבית" H1: השערת האפס אינה נכונה.
בדרך כלל השערת האפס תהיה שלאובייקט הנבדק אין השפעה. לדוגמה, אם חוקרים את השפעתה של תרופה מסוימת על מחלה, השערת האפס תהיה שלתרופה אין השפעה. מטרת המחקר היא לבדוק האם ניתן לאסוף די ראיות כדי לדחות בביטחון את השערת האפס, ובכך לאשש את ההשערה האלטרנטיבית, שלאובייקט הנבדק כן יש השפעה.
סוגי השגיאות:
- שגיאה מסוג I (False positive) היא דחייה שגויה של השערת האפס. שגיאה כזו תגרום בדרך כלל למסקנה שאפקט מסוים קיים, כשלמעשה הוא אינו קיים. לדוגמה, מחקר קליני שמוכיח שתרופה היא יעילה כשלמעשה היא אינה יעילה או ניסוי שמראה שמכונות מדגם חדש יעילות יותר ממכונות מדגם ישן, כשלמעשה הן שוות ביעילותן.
- שגיאה מסוג II (False negative) היא קבלה שגויה של השערת האפס. דוגמאות לכך הן מחקר קליני שלא מצליח להוכיח את יעילותה של תרופה, אף על פי שבמציאות היא אכן יעילה, או ניסוי שלא מצליח להוכיח הבדל בין יעילותן של מכונות מדגם חדש ודגם ישן, בעוד במציאות יש הבדל בין יעילות הדגמים.
דחיית השערת האפס קרויה לעיתים גם תוצאה חיובית, מכיוון שלכאורה הוכח בהצלחה קיומו של האפקט הנבדק. לכן שגיאה מסוג ראשון קרויה גם תוצאה חיובית כוזבת (False positive). באופן דומה, שגיאה מסוג II קרויה גם תוצאה שלילית כוזבת (False negative).
דוגמאות
[עריכת קוד מקור | עריכה]דוגמה 1
[עריכת קוד מקור | עריכה]ניסוי לבדיקת השפעתו של פלואוריד על עששת:
- השערת האפס: הוספת פלואוריד למשחת שיניים אינה מגנה מפני עששת.
- השערה אלטרנטיבית: הוספת פלואוריד למשחת שיניים מגנה מפני עששת.
הניסוי יתבצע על ידי מעקב אחר נבדקים בשתי קבוצות, אחת משתמשת בפלואוריד, ואחת לא. החוקרים יכמתו את ההבדלים בהופעת עששת בין שתי הקבוצות, ויחליטו אם הם מהווים עדות מספקת לדחיית השערת האפס.
שגיאה סוג I תתרחש אם הם יסיקו שפלואוריד מועיל נגד עששת כשבמציאות הוא אינו מועיל. שגיאה מסוג II תתרחש אם הם יסיקו שפלואוריד אינו מועיל, כשלמעשה הוא מועיל.
דוגמה 2
[עריכת קוד מקור | עריכה]משפט פלילי אינו מבחן בדיקת השערות סטטיסטי, אך יש דמיון מתודולוגי, ולכן אפשר להמחיש את המונחים בעזרתו:
- השערת האפס: הנאשם אינו אשם.
- השערה אלטרנטיבית: הנאשם אשם.
במהלך המשפט יבחנו העדויות, ויוחלט אם יש בהם די כדי לדחות את השערת האפס בביטחון מעבר לספק סביר.
שגיאה מסוג I תתרחש אם הנאשם יורשע למרות היותו חף מפשע, ושגיאה מסוג II תתרחש כאשר נאשם יזוכה למרות היותו אשם.
ביטוי בתחומים שונים
[עריכת קוד מקור | עריכה]- ערך מורחב – חיובי כוזב ושלילי כוזב
ברפואה
[עריכת קוד מקור | עריכה]- ערך מורחב – מדדים לבדיקות אבחון
ברפואה, תוצאה חיובית שגויה ותוצאה שלילית שגויה[1] היא תוצאה של בדיקת דגימה שמצביעה על כך שהאדם חולה במחלה מסוימת, בעוד שלמעשה הוא אינו חולה בה, או להפך, תוצאה של בדיקה שמצביעה על כך שהאדם אינו חולה במחלה מסוימת, בעוד שלמעשה הוא אכן חולה בה. רמות הדיוק והיכולת האבחנתית של הבדיקות הרפואיות נמדדות בהשוואה לבדיקה מדויקת (הידועה בכינוי מדד הזהב) וניתנות בצורה של מדדים שונים. המדדים לבדיקות אבחון הנפוצים ביותר הם רגישות וסגוליות וכן ערך ניבוי חיובי וערך ניבוי שלילי. מדד מודרני יותר הוא יחס נראות.
כימות ההסתברות לשגיאות
[עריכת קוד מקור | עריכה]נהוג להשתמש בשני מדדים על מנת לכמת את ההסתברות לשגיאה, אחד עבור כל סוג של שגיאה.
מדד אחד הוא ההסתברות שתתרחש שגיאה מסוג I תחת ההנחה שהשערת האפס היא נכונה. כלומר, תחת ההנחה שאספנו מדידות ממקור כלשהו בו לא קיים כל אפקט (כפי שטוענת הנחת האפס), מחשבים את ההסתברות לקבל נתונים שיטעו אותנו לחשוב שהאפקט קיים. הסתברות זו מסומנת באות α, וגם מכנים אותה רמת המובהקות של הניסוי.
לעיתים רמת המובהקות הנדרשת נקבעת מראש, והניסוי מתוכנן באופן כזה שיעמוד בה. לדוגמה, נניח נדרשת רמת מובהקות סטטיסטית של 5%, כלומר בהנחה שהשערת האפס היא נכונה, נדרש שההסתברות לדחות אותה לא תעלה על 5%. על סמך דרישה זו (בין השאר) יבחרו הפרמטרים השונים של הניסוי: כמות דגימות המידע שצריך לאסוף, המדד הסטטיסטי שיכריע את התוצאה, והסף שהוא צריך לעבור על מנת לדחות את השערת האפס. כל אלה יכוונו באופן כזה שיבטיחו את רמת המובהקות הנדרשת. לעיתים רמת המובהקות לא נקבעת מראש, אלא מחושבת בדיעבד. כלומר, קודם כל הניסוי מתבצע, ואז מחושב ערך-p, שמציין באיזה רמת מובהקות סטטיסטית המבחן עבר.
המדד השני הוא ההסתברות שתתרחש שגיאה מסוג II תחת ההנחה שהשערה האלטרנטיבית היא הנכונה. הסתברות זו מסומנת באות β. ההסתברות ששגיאה מסוג II לא תתרחש קרויה גם עוצמה סטטיסטית, כלומר העוצמה הסטטיסטית שווה ל-1-β.
עבור מבחן סטטיסטי נתון המתבצע על מדגם בגודל נתון, ההסתברויות לשני סוגי השגיאות באים זה על חשבון זה. לדוגמה, נניח נבדקת יעילותה של תרופה להורדת חום. אם נדרוש שהתרופה תוריד לפחות מעלה אחת בממוצע בקבוצה הנבדקת כדי להכריז עליה כיעילה, נקבל הסתברויות מסוימות לשגיאה מסוג I ומסוג II. אם נדרוש שהתרופה תוריד לפחות שתי מעלות בממוצע, ההסתברות לשגיאה מסוג I תרד וההסתברות לשגיאה מסוג II תעלה. בשני המקרים הסיבה היא שדרשנו סף יותר מחמיר לדחיית השערת האפס. אם נגדיל את גודל המדגם אז ההסתברויות לשני סוגי השגיאות ירדו.
הקטנת הסיכוי לשגיאה מאחד הסוגים על ידי הגדלת הסיכוי לשגיאה מהסוג האחר מקובלת כאשר לאחת השגיאות יש השלכות מסוכנות יותר מאשר לשנייה. לדוגמה, הסיכון באבחון שגוי של אדם בריא כחולה סרטן, בבדיקה ראשונית לגילוי סרטן, הוא בזבוז כספים וזמן בבדיקות מתקדמות וכן עגמת נפש. לעומת זאת אבחון שגוי של חולה סרטן כאדם בריא עלול לגרום למוות מהזנחה – תוצאה חמורה בהרבה.
מקור השמות
[עריכת קוד מקור | עריכה]ג'רזי ניימן ואגון פירסון, סטטיסטיקאים רבי השפעה, פרסמו במשותף החל משנת 1928 סדרת ספרים ומאמרים מכוננים בנושא בדיקת השערות, ובהם מתוארים גם שני סוגי השגיאות.[2] [3][4]
במאמרם משנת 1933 מתוארות שתי השגיאות ברשימה הממוספרת (I) ו-(II). בהמשך אותו מאמר הם מתייחסים לשגיאות כאל שגיאה מסוג I ומסוג II.[4]
מושגים קשורים
[עריכת קוד מקור | עריכה]הטיית פרסום
[עריכת קוד מקור | עריכה]- ערך מורחב – הטיית פרסום
תופעה ידועה בספרות המדעית היא שמחקרים שמקבלים תוצאה מובהקת סטטיסטית (כלומר שדחו את השערת האפס) הם בעלי סיכוי רב יותר להתקבל לפרסום מאשר מחקרים שלא קיבלו תוצאה מובהקת סטטיסטית. כתוצאה מכך יש שיעור גבוה מן הצפוי של פרסומים המכילים שגיאה מסוג I.
הסיבה לכך היא כדלהלן: נניח שכ-20 צוותי מחקר ברחבי העולם בודקים האם יש קשר בין טמפרטורה ושכיחות מחלת השפעת. כמו כן נניח לצורך הדוגמה שאין קשר. הצוותים פועלים באופן בלתי תלוי ומבלי להכיר זה את זה. הם דוחים את השערת האפס אם הם מקבלים מובהקות סטטיסטית של 5% או פחות. מכיוון שהנחנו שאין קשר בין שפעת וטמפרטורה, הרי שהסתברות לדחיית השערת האפס תהיי לפי סף המובהקות הסטטיסטית שנקבע: 5%. לכן סביר לצפות שאחד הצוותים יכריז על תגלית בשל שגיאה מסוג I, וזו התוצאה היחידה שתפורסם. מכיוון שרק תוצאה זו תפורסם, נוצר מצג שווא כאילו נעשה רק ניסוי אחד והוא הצליח, בעוד שבמציאות הוא רק אחד מתוך 20, בדיוק השיעור הצפוי בהנחה שקשר אמיתי אינו קיים.
בעיית ההשוואות המרובות
[עריכת קוד מקור | עריכה]- ערך מורחב – בעיית ההשוואות המרובות
יש מחקרים בהם נבדקות בו זמנית זוגות רבים של השערת אפס והשערה אלטרנטיבית. לדוגמה, נניח נעשה המחקר הבודק האם ההסתברות לחלות בשפעת תלויה בגנים מסוימים. נניח שהמחקר בודק בו זמנית מאה גנים, שנכנה אותם גן 1, גן 2, גן 3 וכו'. כלומר למחקר יש מאה השערות אפס: גן 1 אינו משפיע על ההסתברות לחלות בשפעת, גן 2 אינו משפיע על ההסתברות לחלות בשפעת, וכו'. בהתאם יש מאה השערות אלטרנטיביות. מצב כזה קרוי בדיקת השערות מרובות, או השוואות מרובות. במחקרים מודרניים מספר ההשערות הנבדק עשוי להגיע למיליונים.
מכיוון שהמחקר מבצע בו זמנית בדיקות השערות רבות, הוא חשוף במיוחד לשגיאות מסוג I וסוג II. אם נבדקות למשל מאה השערות, ונניח שבכולן השערת האפס נכונה, ושרמת המובהקות של הניסוי היא 5%, הרי שצפוי מראש לקבל כחמש שגיאות מסוג I.
כלים סטטיסטים מיוחדים פותחו כדי להתמודד עם בעיה זו. אמצעי פשוט אחד ידוע בשם תיקון בונפרוני, לפיו פשוט מחלקים את רמת המובהקות הסטטיסטית במספר ההשערות הנבדק. כלומר כדי לקבל רמה של 5% עבור 100 השערות צריך לעבוד ברמת מובהקות של 0.05%. שיטה זו פותרת את בעיית השגיאות מסוג I, אך מעלה בצורה משמעותית את ההסתברות לשגיאה מסוג II. בשנת 1989 פתחו שני סטטיסטיקאים מאוניברסיטת תל אביב, הפרופסורים יואב בנימיני ויוסף הוכברג, אמצעי מתוחכם יותר הקרוי שיעור התגליות השגויות. שיטה זו מאפשרת שליטה בכמות השגיאות מסוג I עם עליה פחותה בהסתברות לשגיאה מסוג II. השיטה זכתה להכרה רבה, והיוותה את הסיבה המרכזית לזכייתו של בנימיני בפרס ישראל לשנת 2012.
מטא-אנליזה
[עריכת קוד מקור | עריכה]- ערך מורחב – מטא-אנליזה
מכיוון שידוע שמחקרים חשופים לשגיאות מסוג I וסוג II, פרסום מחקר הטוען לתוצאה מסוימת אינו מתקבל כעובדה מוגמרת. בדרך כלל אחרי מחקר שפורסם יתבצעו עוד סדרת מחקרים המנסים לשחזר את התוצאות של המחקר המקורי. לעיתים קרובות המחקרים אינם מסכימים זה עם זה, כלומר ייתכן שבעוד חלק מהמחקרים קיבלו תוצאה מובהקת סטטיסטית, אחרים קיבלו שהתוצאות אינן מובהקות, וכך נותר ערפל סביב השאלה מהי האמת.
כדי לברר בצורה מהימנה יותר את האמת, עורכים מטא-אנליזה, שבמסגרתה משלבים יחד את המחקרים הנפרדים שהתבצעו. ההסתמכות על מספר מחקרים בלתי תלויים, ובסופו של דבר על בסיס דגימות רבות יותר, מוריד את ההסתברות גם לשגיאה מסוג I וגם לשגיאה מסוג II.
ראו גם
[עריכת קוד מקור | עריכה]הערות שוליים
[עריכת קוד מקור | עריכה]- ^ תוצאה חיובית שגויה (חיובי שגוי) (false positive report), באתר infomed; תוצאה שלילית שגויה (שגוי שלילי) (false negative report), באתר infomed
- ^ Neyman, J.; Pearson, E.S. (1967) [1928]. "On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference, Part I". Joint Statistical Papers. Cambridge University Press. pp. 1–66
- ^ Pearson, E.S.; Neyman, J. (1967) [1930]. "On the Problem of Two Samples". Joint Statistical Papers. Cambridge University Press. p. 100.
- ^ 1 2 Neyman, J.; Pearson, E.S. (1967) [1933]. "The testing of statistical hypotheses in relation to probabilities a priori". Joint Statistical Papers. Cambridge University Press. pp. 186–202.