מבחן Z
בהסקה סטטיסטית, מבחן Z הוא כל מבחן לבדיקת השערות שבו סטטיסטי המבחן מתפלגת נורמלית תחת השערת האפס, בקירוב או במדויק. בזכות משפט הגבול המרכזי הרבה מבחנים סטטיסטיים הם בקירוב בעלי התפלגות נורמלית, עבור גודלי מדגם גדולים. לכן, כאשר שונות האוכלוסייה ידועה או שגודל המדגם גדול מספיק, ניתן לחשב מבחנים סטטיסטיים רבים כמבחני-Z בקירוב. אם, לעומת זאת, שונות האוכלוסייה איננה ידועה (וצריך לאמוד אותה מהמדגם עצמו), גודל המדגם איננו גדול (), והנתונים מהם מחושב הממוצע מגיעים מהתפלגות נורמלית, אזי מבחן t יתאים יותר.
ביצוע מבחן Z
[עריכת קוד מקור | עריכה]אם T הוא סטטיסטי אשר מתפלג בקירוב נורמלי תחת השערת האפס, השלב הבא בביצוע מבחן Z הוא לחשב את התוחלת μ ואת סטיית התקן σ של T תחת השערת האפס. לאחר מכן מחושב ציון התקן , ממנו ניתן לחשב את ערך-p, אשר מחושב אחרת עבור מבחן חד-צדדי או דו-צדדי:
- עבור השערה חד-צדדית עליונה ("ימנית")
- עבור השערה חד-צדדית תחתונה ("שמאלית")
- עבור השערה דו-צדדית
כאשר היא פונקציית ההסתברות המצטברת של ההתפלגות הנורמלית הסטנדרטית.
שימוש עבור בדיקת השערות פשוטות
[עריכת קוד מקור | עריכה]שימוש נפוץ במבחן Z מצוי בבדיקת השערות פשוטות, כלומר, כאשר ההשערות קובעות במפורש את התוחלת של התפלגות מסוימת לקבוע כלשהו. אם אוסף התצפיות X1,...,Xn הן (i) בלתי תלויות, (ii) בעלות תוחלת זהה ו-(iii) בעלות שונות זהה , אזי ממוצע המדגם X מתפלג נורמלית (בקירוב או במדויק, כתלות בהתפלגות הנתונים) עם תוחלת ושונות . על מנת לחשב את הסטטיסטי המתוקנן , צריך לדעת את השונות. אם השונות איננה ידועה, וגודל המדגם מספיק גדול, ניתן להחליף את השונות בשונות המדגם. המבחן לא יהיה בדיוק מבחן Z, מאחר שאנו לא מתחשבים באי-הוודאות כתוצאה משונות המדגם, אך הוא יהיה קירוב טוב, אלא אם כן גודל המדגם הוא קטן.
דוגמה
[עריכת קוד מקור | עריכה]נניח שבמדינה מסוימת התוחלת של ציוני מבחנים בלשון היא 90 נקודות, וסטיית התקן שלהם היא 12 נקודות. המדגם שלנו מורכב מ-55 תלמידים בבית ספר מסוים שקיבלו ציון ממוצע של 86. האם ממוצע זה נמוך משמעותית מממוצע הציונים במדינה? השערת האפס שלנו היא כי 55 התלמידים ניתנים להשוואה לאוכלוסיית כל תלמידי המדינה (כלומר, ממוצע זה אינו נמוך משמעותית מממוצע הציונים במדינה). נתחיל על ידי חישוב שגיאת התקן של הממוצע:
כאשר היא סטיית התקן של האוכלוסייה. לאחר מכן נחשב את ציון התקן Z:
בדוגמה זו, אנו מתייחסים לתוחלת ושונות האוכלוסייה כאל ידועים, דבר שהיה יכול להתרחש אם כל התלמידים במדינה היו נבדקים. כאשר פרמטרי האוכלוסייה אינם ידועים, ניתן לבצע מבחן t במקום. כאשר בודקים את התוצאה של ציון התקן Z בטבלה של ההתפלגות הנורמלית הסטנדרטית, אנו מוצאים כי ההסתברות למצוא ערך מתחת ל-2.47- היא בערך 0.0068=0.5-0.4932. זוהי תוצאה עבור ערך-p חד-צדדי. ערך-p דו-צדדי הוא בערך 0.014 (פי שניים מהערך החד-צדדי).