ערך-p

ערך-p ‏(p-value, או עֵרֶךְ הַמֻבְהָקוּת) הוא פונקציה בסטטיסטיקה של תוצאות מדגם (סטטיסטי), שמיועד לביצוע בדיקת השערות.

דוגמה

מתוכנן מחקר בחממת עגבניות על הקשר בין תכשיר כלשהו נגד כנימות לבין הידבקות בכנימות. השערת המחקר היא שהתכשיר מונע הידבקות. המחקר נעשה על קבוצת שתילים שהם המדגם. מנגד להשערת המחקר עומדת השערת האפס, שהיא שאין לתכשיר השפעה על ההידבקות, כלומר ששיעור השתילים שיידבקו בכנימות מתוך אלה שטופלו בתכשיר יהיה שווה לשיעור השתילים שנדבקים בדרך כלל, ללא קבלת טיפול כלשהו. עם סיום ביצוע המחקר נאספות התוצאות. ערך p הוא התשובה לשאלה: אם לתכשיר אכן אין השפעה על השתילים (כלומר: השערת האפס נכונה), מה ההסתברות לקבל תוצאות "חריגות" לפחות כמו אלה שאכן התקבלו במחקר?

לצורך הדוגמה, נניח שללא התכשיר, היה ידוע ש-40% מהשתילים נדבקים בכנימות. נניח שהמחקר בוצע על 30 שתילים; ללא התכשיר, היינו מצפים שכ-12 שתילים, שהם 40%, יידבקו. בתום המחקר התברר ש-10 שתילים אכן נדבקו. כדי להבין האם "סביר" להחליט שהתכשיר אכן מצליח למנוע הדבקה, ניתן לחשב – תחת ההנחה שלתכשיר אין השפעה כלל – את ההסתברות לכך שבמדגם אקראי של 30 שתילים, יידבקו רק 10 או פחות. הסיכוי הזה נקרא ערך-p. עבור הנתונים שבדוגמה, יש סיכוי של קרוב ל-30% לכך שמתוך 30 שתילים לא מטופלים יידבקו רק 10 או פחות (בהינתן שהסיכוי להדבקה לשתיל בודד הוא 40%)^[א]. כלומר, אם החוקרים היו חוזרים על הניסוי עם קבוצות לא מטופלות של 30 שתילים, אז הציפייה הייתה שבכל מקרה בכ-30% מהקבוצות, רק 10 או פחות יידבקו, פשוט בגלל השונות הסטטיסטית בין הקבוצות. לכן, ערך-p עבור תוצאות הניסוי האלה הוא כ-30%, או 0.3.

אם תוצאות המחקר היו אחרות, למשל אם היה מתברר שמתוך 30 שתילים בקבוצה המטופלת בתכשיר נדבקו רק שלושה, אז ערך-p היה 0.0003 (או 3 מאיות האחוז).

לפני תחילת המחקר החוקרים קובעים מה יהיה הסף של p שיידרש כדי לקבל את השערת המחקר ולדחות את השערת האפס. סף זה שנקבע מראש נקרא רמת מובהקות, ומסומן באות α. בדרך כלל α נקבע ל-1% או 5%.

לאחר ביצוע המחקר מחשבים את p לפי התוצאות. לשם כך יש גם להניח מהי ההתפלגות של הידבקות בכנימות ללא התכשיר. אם p נמוך מרמת המובהקות שנדרשה α, הדבר ייחשב לדחייה של השערת האפס. בדוגמאות שהובאו לעיל, החוקרים היו קובעים במקרה הראשון שתיצאות הניסוי לא מובהקות מספיק כדי לקבוע שהתכשיר אכן מועיל (כלומר הם אינם דוחים את השערת האפס), ובמקרה השני הם היו קובעים שהוא אכן מועיל, בהינתן רמת המובהקות שנקבעה. אין פירוש הדבר שהשערת המחקר היא בוודאות נכונה או שהשערת האפס היא בוודאות לא נכונה, אלא שאם המחקר בוצע כראוי, הסיכוי לטעות מסוג ראשון – כלומר הסיכוי לדחות בטעות את השערת האפס – הוא קטן ואיננו עולה על האחוז α.

שימוש במחקר

בדיקת השערות אשר מסתמכת על הערך p נפוצה במגוון רחב של תחומים מדעיים כמו: אקונומטריקה, פסיכולוגיה, ביולוגיה, קרימינולוגיה, סוציולוגיה. שימוש שגוי בערך p הוא מושא לביקורת.

מאחר שבערך p משתמשים בסטטיסטיקה שכיחותנית (אנ') (ולא בסטטיסטיקה בייסיאנית), הערך p לא מתיימר לטעון טענה כלשהי לגבי ההסתברויות של ההשערות הנבדקות, אלא רק משמש ככלי כדי לקבוע ― בהינתן רמת מובהקות קבועה מראש ― האם התצפיות שנמדדו מובהקות מספיק כדי לדחות את השערת האפס או לא.

רעיון כללי

ערך p נועד לכמת את רעיון המובהקות הסטטיסטית של תוצאות נצפות מנתוני מדגם. הרעיון המרכזי הוא להראות את מידת סבירות תוצאות המדגם תחת השערת האפס.

לפיכך, ההשערה היחידה שיש צורך לציין בעת ביצוע מבחן ההשערות היא השערת האפס, מאחר שעל סמך השערה זו מכמתים את המובהקות הסטטיסטית. לכן, כאשר דוחים את השערת האפס, אלא אם כן ישנה השערה אלטרנטיבית בודדה, לא ניתן לטעון שההשערה האלטרנטיבית בהכרח נכונה.

לדוגמה, אם נניח שהשערת האפס היא שהנתונים נדגמים מהתפלגות נורמלית סטנדרטית (N(0,1, דחייה של השערת האפס תיתכן במקרים הבאים: 1. תוחלת התפלגות הנתונים היא לא אפס 2. השונות איננה 1 או לחלופין 3. שההתפלגות שממנה דגמנו איננה נורמלית. כמו כן, התוצאות שיתקבלו בבחינת ההשערה תלויות גם בסוג המבחן שיבוצע על הנתונים. יתר על כן, אם נבצע מבחן של בדיקת ההשערה שתוחלת התפלגות הנתונים היא 0 ונדחה אותה, לא נקבל מכך מידע לאיזה ערך אכן שווה התוחלת.

בבדיקת השערות סטטיסטית, ההשערה הסטטיסטית מתייחסת להתפלגות ההסתברותית ממנה מניחים כי הגיעו התצפיות. אם $X$ הוא משתנה מקרי אשר מייצג את התפלגות התצפיות, ו- $H$ היא ההשערה הסטטיסטית שמיוחסת לנתונים, אז הרעיון של המובהקות הסטטיסטית יכול להיות מוצג כהתפלגות המותנה $\mathbf {Pr} (X|H)$ ,אשר תיתן את פונקציית הנראות של התצפיות אם ההשערה שנבחרה, $H$ , היא נכונה. אמנם ישנה בעייתיות בהצגה זו, מאחר שההסתברות שמשתנה מקרי רציף יהיה שווה לערך מסוים היא תמיד 0, $\mathbf {Pr} (X=x|H)=0$ . לכן הגדרה זו נאיבית ולא מספקת, ויש לשנותה על מנת שתוכל להתמודד עם ערכים רציפים. מצד שני, הצגה זו מאפשרת להבין את ההבדל בין הערך p לבין הסתברויות שמוערכות בדיקת השערות בייזיאנית כגון ההסתברות שההשערה נכונה בהינתן התצפיות $\mathbf {Pr} (H|X)$ , ההסתברות שההשערה נכונה $\mathbf {Pr} (H)$ וההסתברות לקבלת התצפיות $\mathbf {Pr} (X)$ .

הגדרה ופרשנות

הערך p מוגדר כהסתברות תחת השערת האפס, $H$ , של קבלת תוצאה זהה או קיצונית מזו שנצפתה במדגם. בכל הנוגע למושג "קיצונית מ.." יש מספר פרשנויות ואלה תלויים בסוג התופעה.

הפרשנות לקיצוניות יכולה להיות $\{X\geq x\}$ (מאורע בזנב הימני), או $\{X\leq x\}$ (מאורע בזנב השמאלי), או גם וגם $\{X\leq x\}$ ו $\{X\geq x\}$ (מאורע באחד מהזנבות), לפיכך הערך p יהיה בהתאמה:

$\mathbf {Pr} (X\geq x|H)$ (מאורע בזנב הימני)
$\mathbf {Pr} (X\leq x|H)$ (מאורע בזנב השמאלי)
$2\min\{\mathbf {Pr} (X\leq x|H),\mathbf {Pr} (X\geq x|H)\}$ (מאורע באחד מהזנבות)

ככל שערך p קטן יותר, למעשה רמת הסמך של החוקר לגבי התוצאות גבוהה יותר, זאת כיוון שערך p קטן מאוד מרמז שקבלת התוצאות הנצפות תחת השערת האפס המיוחסת להם סבירה פחות. השערת האפס, $H$ , נדחית אם הערך p המתאים (מבין השלושה שצוינו לעיל), קטן או שווה מאותה רמת מובהקות, $\alpha$ , שהיא סף קבוע ושרירותי שנקבע לפני ביצוע המבחן ואיננו תלוי בתצפיות. הערך נקבע בדרך כלל על פי קונצנזוס בתוך הקהילה המדעית שהחוקר עובד בה.

מאחר שהערך של $X$ , הערך שמגדיר אם המאורע יהיה בזנב הימני או השמאלי, הוא משתנה מקרי, והערך p הוא פונקציה של $x$ , לכן הוא בעצמו מהווה משתנה מקרי אחיד מעל הקטע $[0,1]$ , תחת הנחה ש- $x$ רציף. לפיכך, הערך p איננו קבוע. כלומר, מכאן אי אפשר לתת לערך p פרשנות כתדירות שמאורע מסוים יקרה מאחר שעליו להיות מספר קבוע לשם כך. במילים אחרות, אם אותו המבחן מבוצע באופן בלתי תלוי מספר פעמים עם אותה השערת אפס (אך על תצפיות שונות), יתקבלו ערכי p שונים בכל פעם שבו מבוצע המבחן. במקרה כזה ניתן לחבר את ערכי p המתקבלים מביצוע כל מבחן כזה תוך שימוש במבחן שילוב ההסתברויות של פישר אשר מתבסס על איחוד הסתברויות של מבחנים המבוצעים תחת אותה השערת אפס.

רמת המובהקות הנקבעת מראש $\alpha$ יכולה להתפרש כסיכוי לדחות שלא בצדק את השערת האפס (טעות מסוג ראשון) מאחר ש $\mathbf {Pr} (\mathrm {Reject} \;H|H)=\mathbf {Pr} (p\leq \alpha )=\alpha$

כמו כן, אם נקבע מופע מסוים של ערך p, ונרשה ל $\alpha$ להיבחר בין 0 ל-1, נקבל פרשנות מקבילה לערך ה-p במונחי $\alpha$ , כערך הנמוך ביותר של $\alpha$ שניתן להניח עבורו שהשערת האפס תידחה עבור סט תצפיות מסוים ברמת מובהקות שנקבעה מראש. אם מניחים כי רמת המובהקות, $\alpha$ , היא קטנה מהערך p שיתקבל זה יוביל לכך שלא תהיה דחייה של השערת האפס.

חישוב

בדרך כלל, $X$ איננו מייצג את התצפיות, אלא את המבחן הסטטיסטי. המבחן הסטטיסטי ("סטטיסטיקות מבחן") הוא פונקציה של כלל התצפיות, כמו ממוצע או קורלציה, אשר מסכם את התכונות של התצפיות לכדי מספר אחד הרלוונטי לשאלה הספציפית. ככזה, למבחן הסטטיסטי יש התפלגות הנקבעת על פי הפונקציה המגדירה אותו ולפי ההתפלגות של התצפיות.

עבור המקרה החשוב בו משערים שהתצפיות הגיעו מהתפלגות נורמלית, פותחו מבחנים שונים עבור ההשערות השונות שנבדקות וטבע הנתונים השונה. מספר מבחנים כאלו הם: מבחן Z להתפלגות נורמלית, מבחן t עבור התפלגות t ומבחן f עבור התפלגות f. כאשר התצפיות לא מגיעות מהתפלגות נורמלית, עדיין ניתן להעריך את ההתפלגויות של סטטיסטי המבחן על ידי שימוש במשפט הגבול המרכזי עבור מדגמים גדולים מספיק, כגון במקרה של מבחן חי בריבוע.

חישוב ערך ה-p דורש השערת אפס, מבחן סטטיסטי (יחד עם ההחלטה אם המבחן מבוצע עבור מאורע שנמצא בזנב הימני, בזנב השמאלי או שייתכן המאורע בכל אחד מהזנבות) וכמובן נתונים. אפילו אם ייתכן שחישוב המבחן הסטטיסטי הוא קל, חישוב של ההתפלגות תחת השערת האפס, וחישוב פונקציית ההסתברות המצטברת שלה היא לעיתים רבות מטלה קשה חישובית. כיום החישוב מתבצע בדרך כלל באמצעות תוכנות סטטיסטיות, ופעמים רבות על ידי שימוש באמצעים נומריים (ולא תוך פתירת פונקציות בצורה מדויקת), אך בתחילת ואמצע המאה ה-20, החישובים הללו נעשו באמצעות טבלאות, ועל מנת להגיע לערך המתאים היה צורך לבצע אינטרפולציה או אקסטרפולציה מתוך אותם ערכים בדידים בטבלה. לכן במקום להשתמש בטבלאות של ערכי p, פישר הפך את פונקציית ההסתברות המצטברת, ופרסם את ערכי המבחן הסטטיסטי עבור ערכי p מסוימים.

דוגמאות נוספות

הטלה אחת של זוג קוביות

נניח שחוקר מטיל זוג קוביות פעם אחת, והשערת האפס היא שהן הוגנות. המבחן הסטטיסטי הוא "סכום תוצאות ההטלה" והוא חד צדדי. החוקר מטיל את הקוביות ומבחין ששתיהן מראות 6 ולכן מניב מבחן סטטיסטי של 12. ערך ה-p של תוצאה זו הוא 1/36 (מכיוון שתחת השערת האפס, המבחן הסטטיסטי מתפלג אחיד), או בערך 0.028 (המבחן הסטטיסטי הגבוה ביותר מתוך 6×6 = 36 אפשרויות). אם החוקר מניח רמת מובהקות של 0.05, הוא יקבע שתוצאה זו היא משמעותית ולכן ידחה את ההשערה שהקוביות הן הוגנות.

במקרה זה, הטלה אחת מניבה בסיס חלש מאוד (זאת אומרת חסר מידע) כדי להסיק מסקנה משמעותית לגבי הקוביות. זה מדגים את ה"סיכון" שביישום ערך-p ללא התחשבות בתכנון הניסוי.

חמישה "עץ" ברצף

נניח שחוקר מטיל מטבע חמש פעמים ברצף והשערת האפס היא שהמטבע הוגן. מבחן סטטיסטי של "המספר הכולל של עץ" יכול להיות חד-צדדי או דו-צדדי: מבחן חד-צדדי מקביל לכך שנראה אם המטבע מוטה לטובת "עץ", לעומת זאת מבחן דו-צדדי מקביל לכך שנראה האם המטבע מוטה לצד כלשהו. החוקר מטיל את המטבע חמש פעמים ורואה "עץ" בכל פעם, מה שמניב מבחן סטטיסטי של 5. במבחן חד-צדדי זהו הערך הקיצוני ביותר האפשרי, ומניב ערך-p של (1/2)⁵ = 1/32 ≈ 0.03. אם החוקר הניח רמת מובהקות של 0.05, הוא יקבע שתוצאה זו משמעותית וידחה את ההשערה שהמטבע הוגן. במבחן דו-צדדי, סטטיסטי מבחן של "0 פעמים "עץ"" קיצוני באותה מידה, ולכן המידע של 5 פעמים "עץ" יניב ערך-p של 2×(1/2)⁵ = 1/16 ≈ 0.06, וזה לא משמעותי מספיק עבור רמת מובהקות 0.05.

זה מדגים שציון כיוון (על סטטיסטי מבחן סימטרי) חוצה את ערך p (מגדיל את המשמעותיות) ויכול להוות את ההבדל בין החשבת הנתונים למשמעותיים או לא.

היסטוריה

חישוב הערך p החל במאה ה-18 כאשר פייר-סימון לפלס חישב אותו: "במהלך העשור של 1770 לפלס התייחס לסטטיסטיקה לגבי חצי מיליון לידות. הסטטיסטיקה הראתה כמות לידות גדולה יותר של זכרים לעומת נקבות. הוא הגיע למסקנה על ידי חישוב הערך p כי עודף לידות הזכרים הוא אמיתי, אם כי בלתי מוסבר".

הערך p הוצג באופן פורמלי על ידי קרל פירסון, במבחן פירסון שפיתח, כאשר במבחן זה הוא השתמש בהתפלגות חי בריבוע וסימן את ערך ה-p ב-P גדולה.

השימוש בערך p בסטטיסטיקה הפך לפופולרי בזכות רונלד פישר, ומשחק תפקיד מרכזי בהתייחסות שלו לנושא. בספרו המשפיע Statistical Methods for Research Workers פישר הציע את קביעת ערך p להיות p=0.05, או כסיכוי של 1 מתוך עשרים לקבל תוצאה קיצונית יותר באופן מקרי, כגבול למובהקות סטטיסטית. הוא יישם את הרעיון של הערך p להתפלגות הנורמלית (בתור מבחן דו-צדדי), ובכך יצר את הכלל של שתי סטיות התקן (עבור התפלגות נורמלית) כמובהקות סטטיסטית.

לאחר מכן פישר חישב טבלה של ערכים, בה חישב את ערכי החי בריבוע השונים אשר יניבו ערכי p מסוימים, הוא חישב את ערכי החי עבור ערכי ה- p הבאים: 0.99, 0.98 ,0.95 ,0.9 ,0.8 ,0.7 ,0.5, 0.3 ,0.2 ,0.1 ,0.005 ,0.02 ו- 0.01. דבר זה אפשר להשוות ערכי חי בריבוע שונים כנגד ערכי סף שונים ועודד את השימוש בערך p (בעיקר 0.05, 0.02 ו-0.01) כערכי סף במקום לחשב ולדווח את הערך p על ידי עורך המחקר עצמו. טבלאות דומות חושבו במאמר של פישר וייטס מ-1938 אשר ביצר את הגישה של התייחסות לערך p כערך סף.

כדוגמה לשימוש בערך p בתכנון וניתוח ניסויים בספרו The Design of Experiments (1935)‎, פישר הציג את ניסוי טעימת התה, שנחשב היום כדוגמה הארכיטיפית לשימוש בערך p.

ניסוי טעימת התה: על מנת לבדוק את הטענה של גברת (Murie Bristol) שהיא יכולה להבחין באופן בו הוכן התה (הוספה של חלב לכוס ולאחריה תה, או בסדר הפוך), הוצגו בפניה 8 כוסות תה, כאשר ארבעה הוכנו בצורה הראשונה, וארבעה בצורה השנייה. היא נשאלה איזו כוס תה הוכנה באיזו צורה (כאשר ידעה שישנם ארבע כוסות תה מכל סוג). במקרה זה, המבחן המתאים הוא מבחן פישר המדויק כאשר השערת האפס שאין לגברת כל יכולת מיוחדת להבחין בין סוגי התה. ערך ה-p היה 0.014 מאחר שהצליחה לזהות את כל ארבע כוסות התה.

לכן פישר היה מוכן לדחות את השערת האפס, מפני שהסיכוי שהיא הצליחה לסווג את כל כוסות התה באופן מקרי היא לא סבירה. פישר הסביר שוב את ההיגיון מאחורי בחירת ערך סף של הערך p כשווה ל-0.05:

'זו דרך שכיחה ונוחה לחוקרים לקחת 5 אחוז כרמה הסטנדרטית למובהקות, במובן שהחוקרים מוכנים להתעלם מכל התוצאות שכושלות להגיע לסטנדרט הנ"ל, ובכך לחסל את הדיון לגבי חלק גדול מהתנודתיות שנגרמת באופן מקרי במהלך הניסוי.'

פישר יישם את הגישה של ערך הסף גם עבור תכנון ניסויים, כאשר ציין שאם היו שש כוסות בלבד (3 מכל סוג), סיווג מושלם של הכוסות היה נותן ערך p של 0.05, אשר לא היה עונה על רמת המובהקות. פישר הדגיש את הפרשנות השכיחותנית של p, כאשר פירש אותו כפרופורציה בטווח הארוך של ערכים שהם לפחות קיצוניים כמו אלה של המידע תחת השערת האפס.

במהדורות מאוחרות, פישר ציין במפורש את ההבדל בין שימוש בערך p בהסקה סטטיסטית במדע, לבין שיטת ניימן-פירסון, אותה כינה בתור "תהליכי קבלה". פישר הדגיש שאף על פי שהשימוש בערכים קבועים של 5%, 2% ו-1% הם נוחים, ערך ה-p המדויק ניתן לשימוש, וחוזק העדויות ישפיעו עליו עם ביצוע ניסויים נוספים. בניגוד לכך, תהליכי החלטה דורשים החלטה חד משמעית, אשר יוצרים פעולה בלתי הפיכה, והפרוצדורה מבוססת על מחיר הטעות, פרוצדורות אשר פישר טען שאינן ניתנות ליישום במחקר מדעי.

אי הבנות

למרות שכיחות השימוש בערך p, השימוש בו מבוקר בגלל החסרונות הטבועים בו, ובגלל אי ההבנות שנובעות ממנו.

המידע שמתקבל על ידי שימוש בערך p והשוואתו לרמת מובהקות מניב אחת משתי תוצאות: קבלה של השערת האפס, או אי דחיית השערת האפס ברמת המובהקות הזו (משמע שלא ניתן לטעון כי השערת האפס היא נכונה, אלא רק שלא ניתן לדחות אותה כרגע). בניסוח של פישר, ישנו חוסר עקביות: לפי ניסוחו ערך p נמוך אומר או כי השערת האפס היא נכונה והנתונים הנבדקים התקבלו על ידי אירוע לא סביר, או שהשערת האפס היא שגויה.

למרות זאת, אנשים רבים מפרשים את הערך p במספר רב של צורות שגויות, ומסיקים מהערך מסקנות שגויות אשר אינן מתאימות לפרשנות המקורית.

הערך p כשלעצמו אינו מאפשר הסקה על ההסתברות של ההשערות, דבר אשר דורש מספר השערות או טווח של השערות עם הסתברות אפריורית על הנראות שלהם, כמו בסטטיסטיקה בייסיאנית, שם ניתן להשתמש בפונקציית הנראות עבור כל הערכים האפשריים עבור התפלגות האפריורית, במקום שימוש בערך p עבור השערת אפס בודדת.

הערך p מתייחס להשערה בודדת, השערת האפס, ולא מאפשר הסקה לגבי שאר ההשערות אחרות (ההשערה האלטרנטיבית). בגישה של ניימן פירסון לבדיקת השערות, ישנה פונקציית החלטה בין שתי אלטרנטיבות, ומבוססת בדרך כלל על סטטיסטי מבחן, עבורם מחושבים הסיכויים לטעות מסוג ראשון ושני. למרות זאת, הערך p של סטטיסטי המבחן לא ניתן להשוואה לסיכויי הטעות מסוג ראשון ושני ובמקום זאת מוזן לתוך פונקציית ההחלטה.

ישנן מספר אי הבנות נפוצות לגבי הערך p:

הערך p הוא לא ההסתברות שהשערת האפס היא נכונה או שההשערה האלטרנטיבית היא לא נכונה. הוא לא קשור להסתברויות הללו. בסטטיסטיקה שכיחותנית לא ניתן לחבר הסתברויות להשערות. השוואה בין גישות בייזיאניות לגישות קלאסיות מראה שהערך p יכול להיות קרוב מאוד לאפס וההסתברות הפוסטריורית קרובה ל-1 עבור אותה השערת האפס (אם אין השערה אלטרנטיבית עם הסתברות אפריורית גדולה מספיק אשר יכולה להסביר את התוצאות בקלות יותר).
הערך p הוא לא ההסתברות שהממצא התקבל במקריות לחלוטין. חישוב הערך p מבוסס על ההנחה, שכל ממצא הוא מקרי, ותוצר של מזל גרידא. הביטוי 'התוצאות האלו הן מקריות' מתכוון לכך שהשערת האפס כנראה נכונה. למרות זאת הטיעון הנ"ל הוא חזרה על הטעות לגבי הצמדה של הסתברויות להשערות, מאחר שהערך p לא מעיד על ההסתברות שהשערה היא נכונה או לא.
הערך p הוא לא ההסתברות לדחות באופן לא נכון את השערת האפס. הטעות הזו היא גרסה של כשל התובע.
הערך p הוא לא ההסתברות לבצע את הניסוי שוב ולקבל את אותה מסקנה. הניסיון לכמת את ההדירות של ניסוי נוסתה באמצעות הרעיון של p-rep.
רמת מובהקות של 0.05 לא נקבעת על ידי הערך p. אלא, רמת המובהקות נקבעת מראש על ידי מתכנן הניסוי (כאשר 0.05 הוא הסטנדרט בקרב הקהילה המדעית), לפני שהנתונים נצפים על ידו והיא מושוות לערך p לאחר שהמבחן מבוצע. (למרות זאת, דיווח של הערך p הוא שימושי יותר מאשר ציון של העובדה אם התוצאות מובהקות או לא, מאחר שכל קורא יכול לקבוע את רמת המובהקות שלו ולהחליט בעצמו אם התוצאות מובהקות או לא בהתאם לרף שיקבע).
הערך p לא מציין את גודל או חשיבות האפקט הנצפה. השניים משתנים יחדיו ככל שהאפקט גדול יותר, אך אפקטים קטנים מאוד, אשר נבדקים במבחן עם גודל מדגם גדול, יכולים להניב ערך p קטן מאוד. ככל שגודל האפקט גדול יותר כך גודל המדגם שיידרש על מנת להגיע למובהקות קטן יותר.

ביקורת

המבקרים של הערך p מציינים כי הקריטריון (ערך הסף) נועד על מנת לקבוע מובהקות סטטיסטית והסף שלפיו נקבעת המובהקות נקבע באופן שרירותי, ועובדה זו מובילה לכמות גדולה של תוצאות חיוביות שגויות.

אם נגדיר את שיעור התוצאות המובהקות השגויות כאחוז של מתוך המבחנים שנמצאו מובהקים סטטיסטית בהם השערת האפס היא למעשה כן נכונה, יש הטוענים כי לפחות שלושים אחוז מערכי ה-p הם קרובים ל-0.05. כדי להגיע למספר הנ"ל צריך להניח משהו לגבי ההסתברות האפריורית כי אפקט אמיתי אכן קיים. למרות זאת, המסקנה הזו חסינה במובן שללא קשר למה היא ההתפלגות האפריורית שהונחה, השערת האפס נדחתה שלא בצדק, הרבה יותר מ-5% מהמקרים.

סימולציות של מבחני t מראים כי אם אנו מקבלים p = 0.047 במבחן בודד, וטוענים כי ישנה תגלית (דהיינו דחייה של השערת האפס), הטענה הזו תהיה שגויה לפחות 26% מהפעמים, והרבה יותר אם ההשערה איננה סבירה. העובדה הזאת בלבד תורמת למספר הרב של מחקרים שלא ניתנים לשחזור בתחומים מדעיים שונים, גם לפני הבעיות שנגרמות בעקבות בחינה של השערות מרובות, p-hacking וגורמים נוספים שידועים לגבי תגליות שגויות. הדבר הוביל לקריאה לשימוש בערכי p קטנים יותר לדוגמה (0.005 או 0.001).

הערך p לוקה בחוסר התאמה לעקרון הנראות ותלוי בתכנון הניסוי וסטטיסטי המבחן הנבדק. זאת אומרת שההגדרה של "קיצוני יותר" במידע תלוי בשיטת הדגימה אשר בה החוקר השתמש. למשל עבור סיטואציה בה חוקר מטיל מטבע 100 פעמים, והמטבע נופל 50 פעמים על פלי, יש סט של נתונים "קיצוניים יותר" מזה אשר בהם החוקר ממשיך להטיל את המטבע עד אשר 50 פעמים הוא מקבל פלי וזה מצביע על מקרה בו בוצעו 100 הטלות.

אי ההתאמה של הערך p עם עיקרון הנראות, מעיד על חוסר של שלמות רעיונית במתודולוגיה הנ"ל מאחר שהכוונה של המנתח לנתח את הנתונים בצורות שונות (סוגי תכנון ניסוי, בחירה של סטטיסטי וכו') יניבו תוצאות שונות על גבי אותו מידע ולגבי אותן שאלות בקשר להוגנות המטבע. הדאגה הזאת לגבי עקביות הסקה, הובילה את ריצ'רד קוקס לפתח בסיס אקסיומטי להסתברות אשר מותנית על הדרישה לעקביות אשר מובילה בסופו של דבר לכלל בייס.

פישר הציע את הערך p כדרך לא רשמית למדידת עדויות כנגד השערת האפס. הוא קרא לחוקרים לשלב את הערך p עם סוגים נוספים של עדויות, כמו הסבירות האפריורית של ההשערות.

במקרים נדירים מאוד, הערך p נאסר לשימוש במגזינים שונים.

p-hacking

p-hacking הוא כינוי לשיטות סטטיסטיות המוצאות מתאמים בין משתנים שאינם באמת קשורים זה לזה. על ידי כריית מידע, כלומר איסוף נתונים רבים מאד וחיפוש מתאמים בין הנתונים, אפשר למצוא באופן מקרי מתאמים מובהקים סטטיסטית בין נתונים שאין ביניהם מתאם במציאות, ליצור על פי המתאמים שנמצאו השערה למחקר, ולדווח על תוצאות מובהקות אלה.^[1] לדוגמה: כאשר כוללים במחקר סטטיסטי מספר גדול מאוד של משתנים על בני אדם, כגון: גיל, שם, מאכל אהוב, מקום מגורים, מוצא, גובה, מחלות כרוניות, שנות לימוד ועוד רבים, הסיכוי שלא יימצא מתאם מקרי בין אף זוג משתנים הוא קטן. במיוחד אם גודל המדגם, כלומר מספר האנשים שהוכנסו למחקר, הוא קטן. אם נמצא קשר מקרי כזה, החוקרים יכולים לדווח על כך שהם ציפו למצוא קשר כזה, כלומר לייצר השערה פוסט-הוק, ואז לדווח על כך שהיא נמצאה מובהקת.

המונח p-hacking (בהתייחס לערכי p) הוטבע במאמר משנת 2014 על ידי שלושת החוקרים מאחורי הבלוג Data Colada, שמתמקד בגילוי בעיות כאלה במחקר במדעי החברה.^[2]^[3]

p-hacking הוא דוגמה להתעלמות מבעיית ההשוואות המרובות. למשל, כאשר משווים תת-קבוצות מבלי ליידע את הקורא על מספר ההשוואות הכולל של תת-הקבוצות שנבדקו.^[4]

ראו גם

E-value - רעיון קרוב לנושא הוא ה E-value אשר הוא הערך המצופה של מספר הפעמים בבחינה של השערות מרובות שחוקר יקבל סטטיסטי מבחן שהוא "קיצוני" לפחות כמו זה שנצפה אם אותו חוקר מניח שהשערת האפס היא הנכונה. הערך E הוא פונקציה של מספר המבחנים והערך p, ושווה למכפלתם.

קישורים חיצוניים

מדיה וקבצים בנושא ערך-p בוויקישיתוף

כל מה שרציתם לדעת על ה- p-value (מצגת של ד"ר יוסי לוי באתר האיגוד הישראלי לסטטיסטיקה).
יוסי לוי, מהו p-value?, באתר "נסיכת המדעים".
יוסי לוי, מה ה-P-value הוא לא?, באתר "נסיכת המדעים".
יוסי לוי, סטטיסטיקה רעה: פרשנות לא נכונה של ה-p-value ואי הבחנה בין תוצאות מובהקות לתוצאות משמעותיות, באתר "נסיכת המדעים".
יוסי לוי, האם כל תוצאה מובהקת היא משמעותית (ולהפך)?, באתר "נסיכת המדעים".
ג'יימס סמית', השיטה שיכולה "להוכיח" כמעט כל טענה, סרטון באתר Ted-Ed.
ערך-p, באתר MathWorld (באנגלית)

ביאורים

^ לתוצאות הניסוי כפי שתואר כאן יש התפלגות בינומית $B(30,0.4)$ . ההסתברות שהתפלגות כזו תקבל ערך קטן או שווה ל-10 היא בקירוב 30%.

הערות שוליים

^ George Davey Smith, Shah Ebrahim, Data dredging, bias, or confounding, BMJ : British Medical Journal 325, 2002-12-21, עמ' 1437–1438
^ Lewis-Kraus, Gideon (2023-09-30). "They Studied Dishonesty. Was Their Work a Lie?". The New Yorker (באנגלית אמריקאית). ISSN 0028-792X. נבדק ב-2024-06-25.
^ Simonsohn, U., Nelson, L. D., & Simmons, J. P. (2014), P-curve: A key to the file-drawer.
^ Deming, data and observational studies A process out of control and needing fixing

[1] לתוצאות הניסוי כפי שתואר כאן יש התפלגות בינומית $B(30,0.4)$ . ההסתברות שהתפלגות כזו תקבל ערך קטן או שווה ל-10 היא בקירוב 30%.

[2] George Davey Smith, Shah Ebrahim, Data dredging, bias, or confounding, BMJ : British Medical Journal 325, 2002-12-21, עמ' 1437–1438

[3] Lewis-Kraus, Gideon (2023-09-30). "They Studied Dishonesty. Was Their Work a Lie?". The New Yorker (באנגלית אמריקאית). ISSN 0028-792X. נבדק ב-2024-06-25.

[4] Simonsohn, U., Nelson, L. D., & Simmons, J. P. (2014), P-curve: A key to the file-drawer.

[5] Deming, data and observational studies A process out of control and needing fixing

[א]

[1]

[2]

[3]

[4]