שגיאות מסוג I ו-II

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

בבדיקת השערות סטטיסטית "שגיאה מסוג I" היא דחיה שגויה של השערת האפס, בעוד "שגיאה מסוג II" היא קבלה שגויה של השערת האפס. במילים פשוטות יותר, שגיאה מסוג I כאשר ניסוי מסתיים בתוצאה שהתגלה אפקט מסוים שאינו קיים במציאות, ושגיאה מסוג II כאשר הניסוי לא מצליח לאשש שאפקט קיים, למרות שהוא אכן קיים במציאות. לדוגמה, אם הניסוי בודק את השפעתה של תרופה מסוימת על מחלה, שגיאה מסוג I מתרחשת כאשר התוצאות מצביעות על היות התרופה יעילה כשבמציאות היא אינה יעילה, ושגיאה מסוג II כאשר התוצאות לא מצביעות על יעילות התרופה כשבמציאות היא כן יעילה.

המונחים "שגיאה מסוג I" ו"שגיאה מסוג II" נקראים לעתים גם "תוצאה חיובית שגויה" (True positive) ו"תוצאה שלילית שגויה" (False negative) בהתאמה, שהם מונחים כלליים יותר המשמשים בהקשרים שונים. המונחים "שגיאה מסוג I" ו"שגיאה מסוג II" מתייחסים ספציפית לבדיקת השערות סטטיסטית.

הגדרה[עריכת קוד מקור | עריכה]

כל בדיקה הנשענת על מידע מדעי וכל מבחן סטטיסטי עשויים לעתים לתת תוצאות שגויות. על פי רוב, בדיקות ומבחנים סטטיסטיים בוררים בין שתי השערות:

  • "השערת האפס", שאותה מקובל לסמן ב-H0.
  • "ההשערה האלטרנטיבית" H1: השערת האפס אינה נכונה.

בדרך כלל השערת האפס תהיה שלאובייקט הנבדק אין השפעה. לדוגמה, אם חוקרים את השפעתה של תרופה מסוימת על מחלה, השערת האפס תהיה שלתרופה אין השפעה. מטרת המחקר היא לבדוק האם ניתן לאסוף די ראיות כדי לדחות בביטחון את השערת האפס, ובכך לאשש את ההשערה האלטרנטיבית, שלאובייקט הנבדק כן יש השפעה.

סוגי השגיאות:

  • שגיאה מסוג I היא דחיה שגויה של השערת האפס. שגיאה כזו תגרום בדרך כלל למסקנה שאפקט מסוים קיים, כשלמעשה הוא אינו קיים. לדוגמה, מחקר קליני שמוכיח שתרופה היא יעילה כשלמעשה היא אינה יעילה או ניסוי שמראה שמכונות מדגם חדש יעילות יותר ממכונות מדגם ישן, כשלמעשה הן שוות ביעילותן.
  • שגיאה מסוג II היא קבלה שגויה של השערת האפס. דוגמאות לכך הן מחקר קליני שלא מצליח להוכיח את יעילותה של תרופה, אף על פי שבמציאות היא נמצאה אכן יעילה, או ניסוי שלא מצליח להוכיח הבדל בין יעילותן של מכונות מדגם חדש ודגם ישן, בעוד במציאות ברור כי יש הבדל בין יעילות הדגמים.

דחיית השערת האפס קרויה לעתים גם תוצאה חיובית, מכיוון שלכאורה הוכח בהצלחה קיומו של האפקט הנבדק. לכן שגיאה מסוג ראשון קרויה גם תוצאה חיובית שגויה (False positive). באופן דומה, שגיאה מסוג II קרויה גם תוצאה שלילית שגויה (False negative).

דוגמאות[עריכת קוד מקור | עריכה]

דוגמה 1[עריכת קוד מקור | עריכה]

ניסוי לבדיקת השפעתו של פלואוריד על עששת:

  • השערת האפס: הוספת פלואוריד למשחת שיניים אינה מגנה מפני עששת.
  • השערה אלטרנטיבית: הוספת פלואוריד למשחת שיניים מגנה מפני עששת.

הניסוי יתבצע על ידי מעקב אחר נבדקים בשתי קבוצות, אחת משתמשת בפלואוריד, ואחת לא. החוקרים יכמתו את ההבדלים בהופעת עששת בין שתי הקבוצות, ויחליטו אם הם מהווים עדות מספקת לדחיית השערת האפס.

שגיאה סוג I תתרחש אם הם יסיקו שפלואוריד מועיל נגד עששת כשבמציאות הוא אינו מועיל. שגיאה מסוג II תתרחש אם הם יסיקו שפלואוריד אינו מועיל, כשלמעשה הוא מועיל.

דוגמה 2[עריכת קוד מקור | עריכה]

משפט פלילי אינו מבחן בדיקת השערות סטטיסטי, אך יש דמיון מתודולוגי, ולכן אפשר להמחיש את המונחים בעזרתו:

  • השערת האפס: הנאשם אינו אשם.
  • השערה אלטרנטיבית: הנאשם אשם.

במהלך המשפט יבחנו העדויות, ויוחלט אם יש בהם די כדי לדחות את השערת האפס בביטחון מעבר לספק סביר.

שגיאה מסוג I תתרחש אם הנאשם יורשע למרות היותו חף מפשע, ושגיאה מסוג II תתרחש כאשר נאשם יזוכה למרות היותו אשם.

כימות ההסתברות לשגיאות[עריכת קוד מקור | עריכה]

נהוג להשתמש בשני מדדים על מנת לכמת את ההסתברות לשגיאה, אחד עבור כל סוג של שגיאה.

מדד אחד הוא ההסתברות שתתרחש שגיאה מסוג I תחת ההנחה שהשערת האפס היא נכונה. כלומר, תחת ההנחה שאספנו מדידות ממקור כלשהו בו לא קיים כל אפקט (כפי שטוענת הנחת האפס), מחשבים את ההסתברות לקבל נתונים שיטעו אותנו לחשוב שהאפקט קיים. הסתברות זו מסומנת באות α, וגם מכנים אותה רמת המובהקות של הניסוי.

לעתים הרמת המובהקות הנדרשת נקבעת מראש, והניסוי מתוכנן באופן כזה שיעמוד בה. לדוגמה, נניח נדרשת רמת מובהקות סטטיסטית של 5%, כלומר בהנחה שהשערת האפס היא נכונה, נדרש שההסתברות לדחות אותה לא תעלה על 5%. על סמך דרישה זו (בין השאר) יבחרו הפרמטרים השונים של הניסוי: כמות דגימות המידע שצריך לאסוף, המדד הסטטיסטי שיכריע את התוצאה, והסף שהוא צריך לעבור על מנת לדחות את השערת האפס. כל אלה יכוונו באופן כזה שיבטיחו את רמת המובהקות הנדרשת. לעתים רמת המובהקות לא נקבעת מראש, אלא מחושבת בדיעבד. כלומר, קודם כל הניסוי מתבצע, ואז מחושב ערך-p, שמציין באיזה רמת מובהקות סטטיסטית המבחן עבר.

המדד השני הוא ההסתברות שתתרחש שגיאה מסוג II תחת ההנחה שהשערה האלטרנטיבית היא הנכונה. הסתברות זו מסומנת באות β. ההסתברות ששגיאה מסוג II לא תתרחש קרויה גם עוצמה סטטיסטית, כלומר העוצמה הסטטיסטית שווה ל-1-β.

עבור מבחן סטטיסטי נתון המתבצע על מדגם בגודל נתון, ההסתברויות לשני סוגי השגיאות באים זה על חשבון זה. לדוגמה, נניח נבדקת יעילותה של תרופה להורדת חום. אם נדרוש שהתרופה תוריד לפחות מעלה אחת בממוצע בקבוצה הנבדקת כדי להכריז עליה כיעילה, נקבל הסתברויות מסוימות לשגיאה מסוג I ומסוג II. אם נדרוש שהתרופה תוריד לפחות שתי מעלות בממוצע, ההסתברות לשגיאה מסוג I תרד וההסתברות לשגיאה מסוג II תעלה. בשני המקרים הסיבה היא שדרשנו סף יותר מחמיר לדחיית השערת האפס. אם נגדיל את גודל המדגם אז ההסתברויות לשני סוגי השגיאות ירדו.

הקטנת הסיכוי לשגיאה מאחד הסוגים על ידי הגדלת הסיכוי לשגיאה מהסוג האחר מקובלת כאשר לאחת השגיאות יש השלכות מסוכנות יותר מאשר לשנייה. לדוגמה, הסיכון באבחון שגוי של אדם בריא כחולה סרטן, בבדיקה ראשונית לגילוי סרטן, הוא בזבוז כספים וזמן בבדיקות מתקדמות וכן עגמת נפש. לעומת זאת אבחון שגוי של חולה סרטן כאדם בריא עלול לגרום למוות מהזנחה – תוצאה חמורה בהרבה.

מקור השמות[עריכת קוד מקור | עריכה]

ג'רזי ניימן ואגון פירסון, סטטיסטיקאים רבי השפעה, פרסמו במשותף החל משנת 1928 סדרת ספרים ומאמרים מכוננים בנושא בדיקת השערות, ובהם מתוארים גם שני סוגי השגיאות.‏[1][2][3]

במאמרם משנת 1933 מתוארות שתי השגיאות ברשימה הממוספרת (I) ו-(II). בהמשך אותו מאמר הם מתייחסים לשגיאות כאל שגיאה מסוג I ומסוג II.‏[3]

ראו גם[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Neyman, J.; Pearson, E.S. (1967) [1928]. "On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference, Part I". Joint Statistical Papers. Cambridge University Press. pp. 1–66
  2. ^ Pearson, E.S.; Neyman, J. (1967) [1930]. "On the Problem of Two Samples". Joint Statistical Papers. Cambridge University Press. p. 100.
  3. ^ 3.0 3.1 Neyman, J.; Pearson, E.S. (1967) [1933]. "The testing of statistical hypotheses in relation to probabilities a priori". Joint Statistical Papers. Cambridge University Press. pp. 186–202.