טיוטה:מבחן מאן ויטני U

מתוך ויקיפדיה, האנציקלופדיה החופשית

בסטטיסטיקה, מבחן Mann-Whitney U (מאן וויטני) (נקרא גםMann-Whitney-Wilcoxon ( MWW/MWU ), Wilcoxon rank-sum test, או Wilcoxon-Mann-Whitney Test) הוא מבחן א-פרמטרי של השערת האפס שעבורה, לשני ערכים מקריים X ו-Y של שתי אוכלוסיות, ההסתברות ש-X גדול מ-Y שווה להסתברות ש-Y גדול מ-X.

מבחנים א-פרמטריים שמשמשים לבחינת שני מדגמים תלויים הם מבחן הסימן ומבחן הדירוג של Wilcoxon.

הנחות ההיפותזה[עריכת קוד מקור | עריכה]

על אף שמאן ווויטני[1] פיתחו את מבחן מאן וויטני תחת ההנחה שדוגמים דגימות רציפות כשההשערה האלטרנטיבית היא שהתפלגות אחת גדולה מהאחרת, ישנן דרכים רבות אחרות לנסח את השערות האפס והאלטרנטיבות על מנת שמבחן מאן וויטני יהיה תקף.[2]

ניסוח כללי של ההנחות למבחן:

  1. כל התצפיות משתי הקבוצות בלתי תלויות זו בזו.
  2. הדגימות הן לפחות מסולם סדר (כלומר, אפשר לומר על כל שתי תצפיות מי הגדולה יותר).
  3. תחת השערת האפס H0, ההתפלגויות של שתי האוכלוסיות זהות.[3]
  4. ההשערה האלטרנטיבית H1 היא שההתפלגויות אינן זהות.

לפי הניסוח הכללי, המבחן רק עקבי כאשר הדברים הבאים מתרחשים תחת H1:

  1. ההסתברות שתצפית מאוכלוסייה X תהיה גדולה מתצפית מאוכלוסייה Y שונה (גדולה או קטנה יותר) מההסתברות שתצפית מ-Y תהיה גדולה מתצפית מ-X; כלומר, P(X > Y) ≠ P(Y > X) או P(X > Y) + 0.5 · P(X = Y) ≠ 0.5.

תחת הנחות מחמירות יותר מהניסוח הכללי לעיל, למשל, אם מניחים שהדגימות הן רציפות והאלטרנטיבה מוגבלת לשינוי במיקום, כלומר, F1(x) = F2(x + δ), נוכל לפרש את מבחן מאן וויטני כבוחן הבדל בחציונים. תחת הנחת שינוי מיקום זו, אנו יכולים גם לפרש את מבחן מאן וויטני כהערכה האם אומדן Hodges–Lehmann של ההבדל בנטייה המרכזית בין שתי האוכלוסיות שונה מאפס. אומדן הודג'ס-להמן לבעיה דו-מדגמית זו היא החציון של כל ההבדלים האפשריים בין תצפית במדגם הראשון לתצפית במדגם השני.

אחרת, אם גם הפיזור וגם הצורות של ההתפלגות של שתי הדגימות שונות, מבחן מאן וויטני נכשל במבחן חציונים. אפשר להראות דוגמאות שבהן החציונים שווים בקירוב בעוד שהמבחן דוחה את השערת האפס עם ערך p קטן.[4][5][6]

מבחן מאן וויטני / מבחן סכום דירוג וילקוקסון אינו זהה למבחן דירוג סימן של Wilcoxon, למרות ששניהם א-פרמטרים ובשניהם סוכמים דרגות. מבחן מאן וויטני הוא לדגימות בלתי תלויות. מבחן דירוג סימן של Wilcoxon הוא לדגימות תואמות או תלויות.

הסטטיסטי U[עריכת קוד מקור | עריכה]

יהי דגימות בלתי תלויות מאותה התפלגות (iid) , ו- דגימות בלתי תלויות מאותה התפלגות (iid) , ושתי הדגימות בלתי תלויות אחת מהשנייה. הסטטיסטי של Mann–Witney U מוגדר כ:

S מוגדר להיות:

חישובים[עריכת קוד מקור | עריכה]

המבחן כולל חישוב של סטטיסטי, הנקרא בדרך כלל U, שהתפלגותו תחת השערת האפס ידועה. במקרה של מדגמים קטנים, ההתפלגות מוצגת בטבלה, אך עבור מדגמים גדולים מ~20, ניתן להגיד שהמדגם מתפלג נורמלית בקירוב די טוב. בחלק מהספרים רושמים את U כסכום הדרגות של אחד המדגמים, ולא בתור U עצמו.

מבחן מאן וויטני כלול ברוב החבילות הסטטיסטיות המודרניות. ניתן לחשב את הסטטיסטי ידנית בקלות יחסית, במיוחד עבור דגימות קטנות. ישנן שתי דרכים לעשות זאת.

שיטה ראשונה:

על מנת להשוות בין שתי קבוצות קטנות של תצפיות, השיטה הישירה היא מהירה, ונותנת הבנה לגבי המשמעות של הסטטיסטי U, התואמת למספר הניצחונות מכל התחרויות בין שני משתנים (למשל כמו בדוגמה של הצב והארנבת בדוגמאות למטה). עבור כל תצפית בקבוצה, ספור את מספר הפעמים שהערך הזה מנצח תצפית מהקבוצה השנייה (הערך מהמדגם הראשון מנצח אם הערך מהמדגם השני קטן יותר). הוסף 0.5 עבור כל שוויון בין הערכים. סכום הניצחונות והשוויונות הוא U (כלומר: ) עבור המדגם הראשון. ה-U של המדגם השני הוא ההפך (כלומר: ).

שיטה שנייה:

לדגימות גדולות יותר:

  1. דרג מספרית בסדר עולה את כל התצפיות (אחד את התצפיות משתי הקבוצות לקבוצה אחת), דרג את הערך הקטן ביותר ב-1. כאשר יש רצפים של ערכים זהים, דרג את כל הערכים הזהים בממוצע שלהם (למשל, הדירוג של הערכים (3, 5, 5, 5, 5, 8) הוא (1, 2, 3, 4, 5, 6) אך מכיוון שארבעת הערכים האמצעיים זהים הדירוג הסופי יהיה (1, 3.5, 3.5, 3.5, 3.5, 6).
  2. כעת, חבר את הדרגות של התצפיות שהגיעו ממדגם 1. כעת סכום הדרגות של מדגם 2 ידוע, מכיוון שסכום כל הדרגות שווה ל - N(N + 1)/2 כאשר N הוא המספר הכולל של התצפיות.
  3. U נתון על ידי:[7]
כאשר n1 הוא גודל המדגם עבור מדגם 1, ו - R1 הוא סכום הדרגות במדגם 1.
שימו לב שזה לא משנה לאיזו משתי הדגימות קראתם דגימה 1. הנוסחה זהה עבור U של דגימה 2
הערך הקטן יותר מבין U1 ו-U2 הוא הערך שמשווים לערך בטבלאות מובהקות. הסכום של שני הערכים ניתן על ידי
מכיוון ש-R1 + R2 = N(N + 1)/2 ו-N = n1 + n2, בעזרת קצת אלגברה, ניתן להראות שהסכום הוא
U1 + U2 = n1*n2.

תכונות[עריכת קוד מקור | עריכה]

הערך המרבי של U הוא המכפלה של גודל הדגימות (כלומר: ). במקרה כזה, ה - U "האחר" יהיה 0.

דוגמאות[עריכת קוד מקור | עריכה]

המחשה של שיטות החישוב[עריכת קוד מקור | עריכה]

נניח שאיזופוס אינו מרוצה מהניסוי הקלאסי שלו שבו צב אחד מנצח ארנבת אחת במרוץ, ומחליט לבצע בדיקת מובהקות כדי לגלות האם ניתן להרחיב את התוצאות גם לצבים וארנבות באופן כללי. הוא אוסף דגימה של 6 צבים ו-6 ארנבות, וגורם לכולם להתחרות במרוץ שלו ביחד. הסדר שבו הם מגיעים לעמדת הסיום הוא כדלקמן (מימין לשמאל):

צב, ארנבת, ארנבת, ארנבת, ארנבת, ארנבת, צב, צב, צב, צב, צב, ארנבת

מה הערך של U?

  • בשיטה הישירה, אנחנו לוקחים כל צב, וסופרים את מספר הארנבות שהוא עקף, ומקבלים 6, 1, 1, 1, 1, 1, כלומר U1 = 11. לחלופין, נוכל לקחת כל ארנבת, ולספור את מספר הצבים שהיא עקפה. במקרה זה, נקבל 5, 5, 5, 5, 5, 0, אז U2 = 25. שימו לב שהסכום של שני הערכים הללו הוא U = 36, שהוא 6×6.
  • באמצעות השיטה העקיפה:
דרג את הארנבות והצבים לפי הזמן שלוקח להם לסיים את המרוץ. תן לבעל החיים הראשון דירוג 12, לשני 11, וכן הלאה.
סכום הדרגות של הצבים הוא: 12 + 6 + 5 + 4 + 3 + 2 = 32.
לכן U1 = 32 − (6×7)/2 = 32 − 21 = 11 (כמו בשיטה הראשונה).
סכום הדרגות של הארנבות הוא 11 + 10 + 9 + 8 + 7 + 1 = 46, מה שמוביל ל - U2 = 46 − 21 = 25.

קירוב נורמלי ותיקון שוויונות[עריכת קוד מקור | עריכה]

עבור דגימות גדולות, U מתפלגת נורמלית בקירוב. במקרה כזה, ציון התקן

כאשר mU ו - σU הם הממוצע וסטיית התקן של U, הוא בערך מתפלג נורמלית סטנדרטית (מתפלג נורמלית עם ממוצע 0 ושונות 1) שניתן לבדוק את מובהקותה בטבלאות של ההתפלגות הנורמלית. mU ו-σU ניתנות על ידי

[8]
[8]

הנוסחה לסטיית התקן מסובכת יותר כאשר הדרגות שוות. אם יש שוויון בדרגות, יש לחשב את σ באופן הבא:

[9]

כאשר הצד השמאלי הוא פשוט השונות והצד הימני הוא ההתאמה לשוויונות, t k הוא מספר השוויונות עבור הדרגה ה-kית, ו-K הוא המספר של שוויוני דרגות.

צורה יעילה יותר לחישוב היא להוציא n1n2/12 כגורם משותף

כאשר n = n1 + n2.

אם מספר השוויונות קטן ניתן להתעלם מהשוויונות כאשר מחשבים ידנית. החבילות הסטטיסטיות של המחשב ישתמשו בנוסחה המתאימה.

נשים לב שמכיוון ש-U1 + U2 = n1*n2, הממוצע n1*n2/2 המשמש בקירוב הנורמלי הוא הממוצע של שני הערכים של U. לכן, הערך המוחלט של הסטטיסטי z המחושב יהיה זהה בכל ערך של U שנשתמש.

קשר למבחנים אחרים[עריכת קוד מקור | עריכה]

השוואה למבחן t של סטודנטים[עריכת קוד מקור | עריכה]

מבחן מאן וויטני בודק השערת אפס לפיה התפלגות ההסתברות של תצפית שנלקחה באקראי מקבוצה אחת זהה להתפלגות ההסתברות של תצפית אקראית מהקבוצה השנייה מול האלטרנטיבה שההתפלגויות לא שוות (ראה מבחן מאן-וויטני U#הנחות והשערות ). לעומת זאת, מבחן t בודק השערת אפס של ממוצעים שווים בשתי קבוצות מול אלטרנטיבה של ממוצעים לא שווים. לפיכך, למעט מקרים מיוחדים, מבחן Mann–Witney U ומבחן t אינם בודקים את אותן השערות ולכן יש להתחשב בכך.

נתונים מסולם סדר
מבחן מאן וויטני עדיף על מבחן t כאשר הנתונים הם מסולם סדר אך לא מסולם רווח, במקרה זה הרווח בין ערכים סמוכים של הסולם לא קבועים.
איתנות
כיוון שהוא משווה את סכומי הדרגות,[10] מבחן מאן וויטני פחות סביר שיוטה ממבחן t בגלל נוכחותם של ערכים חריגים. עם זאת, מבחן מאן וויטני עשוי לשגות יותר בשגיאות מסוג I כאשר הנתונים הם הטרוסקדסטיים וא-נורמליים.[11]
יְעִילוּת
כאשר הנורמליות מתקיימת, למבחן מאן וויטני יש יעילות (אסימפטוטית) של או בערך 0.95 בהשוואה למבחן t.[12] עבור התפלגויות רחוקות מספיק מהנורמלית ועבור גודלי מדגם גדולים מספיק, מבחן מאן וויטני יעיל הרבה יותר מ - t.[13] עם זאת, את ההשוואה הזו צריכים לקחת בערבון מוגבל, שכן מאן-וויטני ומבחן t אינם בודקים את אותם המדדים. אם, למשל, ההבדל בין הממוצעים של הקבוצות הוא המדד החשוב, מאן-וויטני אינו מבחן מתאים.[14]

מבחן מאן וויטני ייתן תוצאות דומות מאוד לביצוע של מבחן t פרמטרי רגיל בשני מדגמים על דירוג הנתונים.[15]

התפלגויות שונות[עריכת קוד מקור | עריכה]

מבחן מאן וויטני לא תקף לבדיקת השערת האפס כנגד ההשערה האלטרנטיבית ), מבלי להניח שההתפלגויות זהות תחת השערת האפס (כלומר, בהנחה ש- ).[2] כדי לבחון את ההשערות האלו, קיימים מבחנים טובים יותר. בינם ניתן למצוא את מבחן ברונר-מונצל ומבחן פלינר-פוליצ'ו.[16] ספציפית, תחת השערת אפס כללית יותר , מבחן מאן וויטני יכול להגדיל את שיעורי שגיאה מסוג I אפילו במדגמים גדולים (במיוחד אם השונות של שתי האוכלוסיות שונות וגודלי המדגם שונים), בעיה שהחלופות האחרות פותרות טוב יותר.[17] כתוצאה מכך, עדיף להשתמש באחת החלופות (במיוחד במבחן ברונר-מונזל) אם לא ניתן להניח שההתפלגויות זהות תחת השערת האפס.[17]

אלטרנטיבות[עריכת קוד מקור | עריכה]

כדאי לא להשתמש במבחן מאן וויטני כאשר ההתפלגות של שתי הדגימות שונות מאוד, מכיוון שהוא יכול לא לזהות נכון תוצאות מובהקות.[18] במצב כזה, גרסת השונויות הלא שוות של מבחן t עשויה לתת תוצאות אמינות יותר.

באופן דומה, ניתן להפוך את הנתונים למדורגים (אם הם עדיין לא מדורגים) ולאחר מכן לבצע את מבחן t על הנתונים המדורגים, הגרסה הזו של מבחן t ניתנת לשימוש כאשר יש חשד ששונות האוכלוסיות שונה. הדירוג אינו משמר את השונויות, אך השונות מחושבות מחדש מהדגימות לאחר הדירוג.

מבחן Brown-Forsythe יכול לשמש כמבחן א-פרמטרי מקביל למבחן F עבור שונויות שוות.[דרוש מקור]

מבחן חזק יותר הוא מבחן Brunner-Munzel, המבחן עדיף על פני מבחן מאן וויטני במקרה שלא מתקיימת הנחת החילופיות.[19]

מבחן מאן וויטני הוא מקרה פרטי של מודל הסיכויים הפרופורציונליים, המאפשר התאמת משתנים משותפים.[20]

ראה גם מבחן קולמוגורוב-סמירנוב.

מבחנים סטטיסטים קשורים[עריכת קוד מקור | עריכה]

הטאו של קנדל[עריכת קוד מקור | עריכה]

מבחן מאן וויטני קשור למספר תהליכים סטטיסטים א-פרמטריים אחרים. לדוגמה, הוא שקול למקדם המתאם tau של קנדל אם אחד המשתנים הוא בינארי (כלומר, הוא יכול לקבל רק שני ערכים).[דרוש מקור]

מימושים תוכנתיים[עריכת קוד מקור | עריכה]

בחבילות תוכנה רבות, מבחן מאן וויטני (של ההשערה של התפלגויות שוות מול חלופות מתאימות) לא ממומש בצורה טובה. חלק מהחבילות מטפלות באופן שגוי במקרים של שוויון או לא מצליחות לממש התנהגויות אסימפטוטיות (למשל, תיקון לרציפות). סקירה משנת 2000 דנה בכמה מהחבילות הבאות:[21]

  • MATLAB מכילה ranksum בארגז הכלים הסטטיסטיים שלה.
  • חבילת הבסיס הסטטיסטית של R מממשת את המבחן[2] בחבילת ה-"stats" שלה.
  • חבילת wilcoxonZ ב-R[3]תחשב את הסטטיסטי z עבור מבחן Wilcoxon לשני מדגמים, מדגם מזווג או מדגם אחד.
  • SAS מממשת את המבחן בפרוצדורה שלה PROC NPAR1WAY.
  • לפייתון (שפת תכנות) יש מימוש של המבחן שמסופק על ידי SciPy[22]
  • SigmaStat (SPSS Inc., שיקגו, IL)
  • SYSTAT (SPSS Inc., שיקגו, IL)
  • ל-Java (שפת תכנות) יש מימוש של המבחן שמסופק על ידי Apache Commons[23]
  • לג'וליה (שפת תכנות) מממשת את מבחן זה באמצעות מספר חבילות. בחבילה HypothesisTests.jl, זה נמצא כ-pvalue(MannWhitneyUTest(X,Y))[24]
  • JMP (SAS Institute Inc., Cary, NC)
  • S-Plus (MathSoft, Inc., סיאטל, וושינגטון)
  • STATISTICA (StatSoft, Inc., Tulsa, OK)
  • UNISTAT (Unistat Ltd, לונדון)
  • SPSS (SPSS Inc, שיקגו)
  • StatsDirect (StatsDirect Ltd, מנצ'סטר, בריטניה) מממשת את כל הגרסאות הנפוצות.
  • Stata (Stata Corporation, College Station, TX) מממשת את המבחן בפקודת ranksum שלה.
  • StatXact (Cytel Software Corporation, קיימברידג', מסצ'וסטס)
  • PSPP מממשת את המבחן בפונקציית WILCOXON שלה.
  • KNIME מממשת את הבדיקה בצומת מבחן Wilcoxon-Mann-Witney.

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Mann, Henry B.; Whitney, Donald R. (1947). "On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other". Annals of Mathematical Statistics. 18 (1): 50–60. doi:10.1214/aoms/1177730491. MR 0022058. Zbl 0041.26103.
  2. ^ 1 2 Fay, Michael P.; Proschan, Michael A. (2010). "Wilcoxon–Mann–Whitney or t-test? On assumptions for hypothesis tests and multiple interpretations of decision rules". Statistics Surveys. 4: 1–39. doi:10.1214/09-SS051. MR 2595125. PMC 2857732. PMID 20414472.
  3. ^ [1], See Table 2.1 of Pratt (1964) "Robustness of Some Procedures for the Two-Sample Location Problem." Journal of the American Statistical Association. 59 (307): 655–680. If the two distributions are normal with the same mean but different variances, then Pr[X > Y] = Pr[Y < X] but the size of the Mann–Whitney test can be larger than the nominal level. So we cannot define the null hypothesis as Pr[X > Y] = Pr[Y < X] and get a valid test.
  4. ^ Divine, George W.; Norton, H. James; Barón, Anna E.; Juarez-Colunga, Elizabeth (2018). "The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians". The American Statistician. 72 (3): 278–286. doi:10.1080/00031305.2017.1305291.
  5. ^ Conroy, Ronán (2012). "What Hypotheses do "Nonparametric" Two-Group Tests Actually Test?". Stata Journal. 12 (2): 182–190. doi:10.1177/1536867X1201200202. נבדק ב-24 במאי 2021. {{cite journal}}: (עזרה)
  6. ^ Hart, Anna (2001). "Mann–Whitney test is not just a test of medians: differences in spread can be important". BMJ. 323 (7309): 391–393. doi:10.1136/bmj.323.7309.391.
  7. ^ Zar, Jerrold H. (1998). Biostatistical Analysis. New Jersey: Prentice Hall International, INC. p. 147. ISBN 978-0-13-082390-8.
  8. ^ 1 2 Siegal, Sidney (1956). Nonparametric statistics for the behavioral sciences. McGraw-Hill. p. 121.
  9. ^ Lehmann, Erich; D'Abrera, Howard (1975). Nonparametrics: Statistical Methods Based on Ranks. Holden-Day. p. 20.
  10. ^ Motulsky, Harvey J.; Statistics Guide, San Diego, CA: GraphPad Software, 2007, p. 123
  11. ^ Zimmerman, Donald W. (1998-01-01). "Invalidation of Parametric and Nonparametric Statistical Tests by Concurrent Violation of Two Assumptions". The Journal of Experimental Education. 67 (1): 55–68. doi:10.1080/00220979809598344. ISSN 0022-0973.
  12. ^ Lehamnn, Erich L.; Elements of Large Sample Theory, Springer, 1999, p. 176
  13. ^ Conover, William J.; Practical Nonparametric Statistics, John Wiley & Sons, 1980 (2nd Edition), pp. 225–226
  14. ^ Lumley, Thomas; Diehr, Paula; Emerson, Scott; Chen, Lu (במאי 2002). "The Importance of the Normality Assumption in Large Public Health Data Sets". Annual Review of Public Health. 23 (1): 151–169. doi:10.1146/annurev.publhealth.23.100901.140546. ISSN 0163-7525. PMID 11910059. {{cite journal}}: (עזרה)
  15. ^ Conover, William J.; Iman, Ronald L. (1981). "Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics". The American Statistician. 35 (3): 124–129. doi:10.2307/2683975. JSTOR 2683975.
  16. ^ Brunner, Edgar; Bathke, Arne C.; Konietschke, Frank (2018). Rank and pseudo-rank procedures for independent observations in factorial designs: Using R and SAS. Springer Series in Statistics. Cham: Springer International Publishing. doi:10.1007/978-3-030-02914-2. ISBN 978-3-030-02912-8.
  17. ^ 1 2 Karch, Julian D. (2021). "Psychologists Should Use Brunner–Munzel's Instead of Mann–Whitney's U Test as the Default Nonparametric Procedure". Advances in Methods and Practices in Psychological Science. 4 (2). doi:10.1177/2515245921999602. ISSN 2515-2459.
  18. ^ Kasuya, Eiiti (2001). "Mann–Whitney U test when variances are unequal". Animal Behaviour. 61 (6): 1247–1249. doi:10.1006/anbe.2001.1691.
  19. ^ Karch, Julian (2021). "Psychologists Should Use Brunner–Munzel's Instead of Mann–Whitney's U Test as the Default Nonparametric Procedure". Advances in Methods and Practices in Psychological Science. 4 (2). doi:10.1177/2515245921999602.
  20. ^ Harrell, Frank (20 בספטמבר 2020). "Violation of Proportional Odds is Not Fatal". {{cite journal}}: (עזרה); Cite journal requires |journal= (עזרה)
  21. ^ Bergmann, Reinhard; Ludbrook, John; Spooren, Will P.J.M. (2000). "Different Outcomes of the Wilcoxon–Mann–Whitney Test from Different Statistics Packages". The American Statistician. 54 (1): 72–77. doi:10.1080/00031305.2000.10474513. JSTOR 2685616.
  22. ^ "scipy.stats.mannwhitneyu". SciPy v0.16.0 Reference Guide. The Scipy community. 24 ביולי 2015. נבדק ב-11 בספטמבר 2015. scipy.stats.mannwhitneyu(x, y, use_continuity=True): Computes the Mann–Whitney rank test on samples x and y. {{cite web}}: (עזרה)
  23. ^ "MannWhitneyUTest (Apache Commons Math 3.3 API)". commons.apache.org.
  24. ^ "JuliaStats/HypothesisTests.jl". GitHub. 30 במאי 2021. {{cite web}}: (עזרה)

קטגוריה:מבחנים סטטיסטיים