מבחן כי בריבוע

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

מבחן כי בריבוע הוא מבחן סטטיסטי המבוסס על סטטיסטיים בעלי התפלגות כי בריבוע (במדויק או בקירוב), שיש לו שלושה שימושים בסיסיים: השוואת הפרופורציות של תכונה מסוימת באוכלוסייה להסתברויות נתונות; השוואת הפרופורציות של תכונה בשתי אוכלוסיות שונות; ובדיקת התלות של שתי תכונות באוכלוסייה. לשימושים אלה יש מגוון רחב של הכללות.

בהשוואה למבחנים סטטיסטיים מקובלים אחרים, מבחן כי בריבוע מיועד להתפלגויות בדידות (ובפרט לגרסאות של ההתפלגות המולטינומית). הסטטיסטי מתקבל בכל המקרים מסיכום ערכים מהצורה \ \frac{(E-O)^2}{E}, כאשר O הוא מספר ההופעות הנצפה (Observed), ו- E הוא המספר הצפוי (Expected).

דוגמאות[עריכת קוד מקור | עריכה]

  • קוביית משחק הוגנת היא כזו שהסיכויים שלה ליפול על כל פאה הם שווים. אם מטילים את הקוביה 100 פעמים ומתקבלת ההתפלגות 13,17,25,12,10,23 (כלומר, הקוביה מציגה את הפאה "1" 13 פעמים, וכן הלאה), מבחן כי בריבוע קובע ברמת מובהקות של 5% שהקוביה אינה הוגנת. פורמלית, המשתנה המקרי המציג את תוצאת הקוביה מתפלג מולטינומית (עם הסתברויות לא ידועות), והשערת האפס קובעת שזו התפלגות אחידה. המבחן בודק את ההשערה על ידי בניה של סטטיסטי מתאים, כפי שיוסבר בהמשך.
  • בסקר על העדפת מוצרים מתברר שמבין 57 המשיבים הגברים מעדיפים 20, 19 ו-18 את המוצרים א', ב' ו-ג', בהתאמה, ואילו בין 53 המשיבות הנשים, ההתפלגות היא 13, 29 ו-11. במקרה זה קובע מבחן כי בריבוע שאין הבדל בין העדפות הגברים לנשים. השערת האפס אינה מתייחסת כאן להתפלגות של הגברים או הנשים בנפרד, אלא רק לכך שההתפלגויות שוות זו לזו.
  • בשמורת טבע גדולה לוכדים עורבים כדי להשוות בין צבע הנוצות (שחור, לבן או ירוק) לצורת המקור (ארוך, קצר או מפוצל). חוקר הטבע יאסוף את הנתונים במטריצה בת שלוש שורות ושלושה טורים, וישתמש במבחן כי בריבוע כדי לקבוע שיש קשר בין הצבע לצורת המקור, או שאין די נתונים להוכיח קשר כזה. כמו בדוגמה הקודמת, השערת האפס אינה עוסקת בהתפלגות של הצבע בין ארוכי המקור, או בהתפלגות של צורת המקור בין ירוקי הנוצות, אלא רק בטענה ששני הפרמטרים אינם תלויים זה בזה.

תאוריה[עריכת קוד מקור | עריכה]

התפלגות כי בריבוע מתקבלת מסיכום הריבועים של משתנים מקריים נורמליים סטנדרטיים. אם \ Z_i \sim N(0,1) עבור \ i =1,\dots,n והם בלתי תלויים, אז למשתנה \ X = \sum Z_i^2 יש התפלגות כי בריבוע עם n דרגות חופש. מבחני כי בריבוע מבוססים כולם על בניית סטטיסטיים המתפלגים כך, בקירוב, ואת אלו בונים באמצעות סיכום של ריבועי משתנים שהם בלתי תלויים (בקירוב) ומתפלגים (בקירוב) נורמלית.

לדוגמה, אם תוצאת הקוביה מתפלגת מולטינומית עם סיכוי \ p_i ליפול על הערך i, ובמדגם בן n הטלות התקבלה התוצאה i \ X_i פעמים, אז \ X_i \sim \operatorname{Bin}(n,p_i). לפי הקירוב הנורמלי להתפלגות בינומית, \ (X_i-np_i)/\sqrt{p_i(1-p_i)} מתפלג, בקירוב, נורמלית. בשקלול מתאים, סכום המשתנים האלה הוא אפס, ולכן סכום הריבועים שלהם מתפלג, בקירוב, כי בריבוע עם n-1 (ולא n) דרגות חופש. כדי לבחון את השערת האפס \ (p_1,\dots,p_6) = (a_1,\dots,a_6) (כאשר \ a_1,\dots,a_6 הם מספרים כלשהם שסכומם 1), בונים את הסטטיסטי \ X = \sum \frac{(X_i-a_i n)^2}{a_in}, ומשווים את הערך שהוא מקבל להתפלגות \ \chi^2_{n-1} (אם הערך הוא גבוה במידה כזו שהסיכוי לקבל אותו נמוך מ-5%, נאמר, אז דוחים את ההשערה ופוסקים שהקוביה אינה מתפלגת לפי הווקטור \ (a_1,\dots,a_6)).

כשבודקים את התלות בין שני משתנים מקריים בדידים A,B (שהם א-פריורי תלויים), העשויים לקבל a ו-b ערכים, בהתאמה, אז ידוע שההתפלגות המשותפת היא מולטינומית, המוגדרת על ידי מטריצה \ (p_{ij})_{i=1,\dots,a,\, j=1,\dots,b} של הסתברויות (שסכומן 1). השערת האפס (שלפיה המשתנים בלתי תלויים) אינה מתארת באופן חד-משמעי את ההסתברויות, אלא קובעת שאפשר לחשב אותן מן ההתפלגויות של A ו-B. במלים אחרות, לפי השערת האפס קיימים וקטורים \ p_1,\dots,p_a ו- \ q_1,\dots,q_b (שסכום כל אחד מהם 1, והמתארים את ההתפלגויות של A ו-B בהתאמה), כך ש- \ p_{ij} = p_i q_j. כדי לאמוד את הערכים \ p_i,q_j יש לסכם את השורות והעמודות במטריצת התצפיות \ X_{ij}, כלומר, להשתמש בערכים \ X_{i\cdot} = \sum_{j}X_{ij} ו- \ X_{\cdot j} = \sum_{i}X_{ij}; לפי אותו מינוח, \ X_{\cdot \cdot} = n. הערך הצפוי במשבצת ה-i,j, בהנחה של אי-תלות, הוא \ E_{ij} = \frac{X_{i\cdot}X_{\cdot j}}{X_{\cdot \cdot}}, והסטטיסטי \ \sum_{ij} \frac{(X_{ij}-E_{ij})^2}{E_{ij}} הוא, בקירוב, בעל התפלגות כי-בריבוע, עם \ (a-1)(b-1) דרגות חופש.