בבדיקת השערות סטטיסטית , הלמה של ניימן-פירסון היא למה שפותחה על ידי הסטטיסטיקאים יז'י ניימן ואגון פירסון , והיא מצביעה על מבחן בין השערות פשוטות, אשר לו העוצמה הגדולה ביותר מבין כל המבחנים בעלי אותה רמת המובהקות
α
{\displaystyle \alpha }
(או נמוכה יותר). במילים אחרות, היא מבטיחה את קיומו של מבחן שהוא טוב יותר מכל ה"מתחרים" שלו, ומציעה דרך לבנות אותו.
נתונים מדגם
X
=
(
X
1
,
…
,
X
n
)
{\displaystyle \mathbf {X} =(X_{1},\dots ,X_{n})}
, פונקציית נראות
L
(
X
;
θ
)
{\displaystyle L(\mathbf {X} ;\theta )}
התלויה בפרמטר
θ
{\displaystyle \theta }
, ושתי השערות פשוטות: השערת האפס ,
H
0
:
θ
=
θ
0
{\displaystyle H_{0}\,:\theta =\theta _{0}}
וההשערה החלופית,
H
1
:
θ
=
θ
1
{\displaystyle H_{1}\,:\theta =\theta _{1}}
. תחת תנאים אלה, מבחן יחס הנראות , שאזור הדחייה שלו הוא:
R
k
=
{
X
:
L
(
X
;
θ
1
)
L
(
X
;
θ
0
)
>
k
α
}
{\displaystyle {\mathcal {R}}_{k}=\left\{\mathbf {X} :{\frac {L(\mathbf {X} ;\theta _{1})}{L(\mathbf {X} ;\theta _{0})}}>k_{\alpha }\right\}}
הוא המבחן בעל העוצמה הגדולה ביותר (Uniformly Most Powerful; UMP) מבין כל המבחנים ברמת מובהקות
α
{\displaystyle \alpha }
(כלומר, מתקיים
Pr
(
X
∈
R
k
)
=
α
{\displaystyle \operatorname {Pr} (\mathbf {X} \in {\mathcal {R}}_{k})=\alpha }
, אם
H
0
{\displaystyle H_{0}}
נכונה).
למעשה, פעמים רבות ניתן למצוא מבחן שקול (כלומר, בעל אותו אזור דחייה), שסטטיסטי המבחן שלו פשוט יותר – ראו דוגמה להלן.
נניח מודל סטטיסטי שבו הנתונים מתפלגים נורמלית עם שונות ידועה
σ
2
{\displaystyle \sigma ^{2}}
ותוחלת לא ידועה
μ
{\displaystyle \mu }
. נניח גם כי קיימות שתי השערות חלופיות פשוטות באשר לתוחלת:
H
0
:
μ
=
0
H
1
:
μ
=
1
{\displaystyle {\begin{array}{lcl}H_{0}:&\mu =0\\H_{1}:&\mu =1\end{array}}}
הנראות לפי השערת האפס היא
L
(
X
;
θ
0
)
=
1
2
π
σ
2
exp
(
−
1
2
σ
2
∑
i
=
1
n
X
i
2
)
{\displaystyle L(\mathbf {X} ;\theta _{0})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}{X_{i}}^{2}\right)}
ובאופן דומה, הנראות לפי ההשערה החלופית היא
L
(
X
;
θ
1
)
=
1
2
π
σ
2
exp
(
−
1
2
σ
2
∑
i
=
1
n
(
X
i
−
1
)
2
)
{\displaystyle L(\mathbf {X} ;\theta _{1})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left(X_{i}-1\right)^{2}\right)}
ויחס הנראות הוא
L
(
X
;
θ
1
)
L
(
X
;
θ
0
)
=
1
2
π
σ
2
exp
(
−
1
2
σ
2
∑
i
=
1
n
(
X
i
−
1
)
2
)
1
2
π
σ
2
exp
(
−
1
2
σ
2
∑
i
=
1
n
X
i
2
)
=
exp
(
−
1
2
σ
2
∑
i
=
1
n
(
X
i
2
−
2
X
i
+
1
)
)
exp
(
−
1
2
σ
2
∑
i
=
1
n
X
i
2
)
=
exp
[
−
1
2
σ
2
∑
i
=
1
n
(
X
i
2
−
2
X
i
+
1
−
X
i
2
)
]
=
exp
(
∑
i
=
1
n
X
i
−
n
/
2
σ
2
)
{\displaystyle {\begin{alignedat}{2}{\frac {L(\mathbf {X} ;\theta _{1})}{L(\mathbf {X} ;\theta _{0})}}&={\frac {{\cancel {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left(X_{i}-1\right)^{2}\right)}{{\cancel {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}{X_{i}}^{2}\right)}}\\&={\frac {\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left({X_{i}}^{2}-2X_{i}+1\right)\right)}{\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}{X_{i}}^{2}\right)}}\\&=\exp \left[-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left({\cancel {{X_{i}}^{2}}}-2X_{i}+1-{\cancel {{X_{i}}^{2}}}\right)\right]\\&=\exp \left({\frac {\sum _{i=1}^{n}X_{i}-n/2}{\sigma ^{2}}}\right)\\\end{alignedat}}}
נרצה להשוות את יחס הנראות הזה לערך קריטי התלוי במובהקות, ולדחות את השערת האפס אם
exp
(
∑
i
=
1
n
X
i
−
n
/
2
σ
2
)
>
k
α
∗
{\displaystyle \exp \left({\frac {\sum _{i=1}^{n}X_{i}-n/2}{\sigma ^{2}}}\right)>k_{\alpha }^{*}}
עם זאת, ניתן לשים לב כי תנאי הזה שקול לדחייה של השערת האפס אם
X
¯
n
=
d
e
f
1
n
∑
i
=
1
n
X
i
>
k
α
{\displaystyle {\bar {X}}_{n}{\overset {\mathrm {def} }{=}}{\frac {1}{n}}\sum _{i=1}^{n}X_{i}>k_{\alpha }}
עבור ערך קריטי
k
α
{\displaystyle k_{\alpha }}
מתאים.
במילים אחרות, מבחן יחס הנראות שקול למבחן שבודק האם ממוצע המדגם
X
¯
n
{\displaystyle {\bar {X}}_{n}}
גדול מערך קריטי, ולמבחן כזה יש עוצמה מקסימלית. היתרון בהצגה זו היא שממוצע המדגם הוא סטטיסטי מבחן פשוט יותר לניתוח מאשר יחס הנראות עצמו. בפרט, ניתן לחשב ממנו (בעזרת מעט טרנספורציות פשוטות) מבחן Z .
דיאגרמת ון הממחישה את ההוכחה ללמה של ניימן ופירסון: אזורי הדחייה אם מתקיימת השערת האפס
אזורי הדחייה אם מתקיימת ההשערה האלטרנטיבית
יהי
R
N
P
{\displaystyle {\mathcal {R}}_{NP}}
אזור הדחייה אשר מוגדר על פי הלמה, כלומר:
R
N
P
=
{
X
:
L
(
X
;
θ
1
)
L
(
X
;
θ
0
)
>
k
α
}
{\displaystyle {\mathcal {R}}_{NP}=\left\{\mathbf {X} :{\frac {L(\mathbf {X} ;\theta _{1})}{L(\mathbf {X} ;\theta _{0})}}>k_{\alpha }\right\}}
ויהי מבחן אחר בעל אותה רמת מובהקות, שאזור הדחייה שלו,
R
A
{\displaystyle {\mathcal {R}}_{A}}
, שונה מ-
R
N
P
{\displaystyle {\mathcal {R}}_{NP}}
,
ומתקיים
Pr
(
X
∈
R
N
P
)
=
Pr
(
X
∈
R
A
)
=
α
{\displaystyle \operatorname {Pr} \left(\mathbf {X} \in {\mathcal {R}}_{NP}\right)=\operatorname {Pr} \left(\mathbf {X} \in {\mathcal {R}}_{A}\right)=\alpha }
, אם ההשערה
H
0
{\displaystyle H_{0}}
נכונה.
נוסחת ההסתברות השלמה קובע כי לכל
θ
{\displaystyle \theta }
,
Pr
θ
(
R
N
P
)
=
Pr
θ
(
R
N
P
∖
R
A
)
+
Pr
θ
(
R
N
P
∩
R
A
)
{\displaystyle \operatorname {Pr} _{\theta }\left({\mathcal {R}}_{NP}\right)=\operatorname {Pr} _{\theta }\left({\mathcal {R}}_{NP}\backslash {\mathcal {R}}_{A}\right)+\operatorname {Pr} _{\theta }\left({\mathcal {R}}_{NP}\cap {\mathcal {R}}_{A}\right)}
Pr
θ
(
R
A
)
=
Pr
θ
(
R
A
∖
R
N
P
)
+
Pr
θ
(
R
N
P
∩
R
A
)
{\displaystyle \ \ \operatorname {Pr} _{\theta }\left({\mathcal {R}}_{A}\right)=\operatorname {Pr} _{\theta }\left({\mathcal {R}}_{A}\backslash {\mathcal {R}}_{NP}\right)+\operatorname {Pr} _{\theta }\left({\mathcal {R}}_{NP}\cap {\mathcal {R}}_{A}\right)}
ולכן,
Pr
θ
(
R
N
P
∖
R
A
)
−
Pr
θ
(
R
A
∖
R
N
P
)
=
[
Pr
θ
(
R
N
P
)
−
Pr
θ
(
R
N
P
∩
R
A
)
]
−
[
Pr
θ
(
R
A
)
−
Pr
θ
(
R
N
P
∩
R
A
)
]
=
Pr
θ
(
R
N
P
)
−
Pr
θ
(
R
A
)
{\displaystyle {\begin{aligned}\operatorname {Pr} _{\theta }\left({\mathcal {R}}_{NP}\backslash {\mathcal {R}}_{A}\right)-\operatorname {Pr} _{\theta }\left({\mathcal {R}}_{A}\backslash {\mathcal {R}}_{NP}\right)&=\left[\operatorname {Pr} _{\theta }\left({\mathcal {R}}_{NP}\right)-\color {magenta}{\operatorname {Pr} _{\theta }\left({\mathcal {R}}_{NP}\cap {\mathcal {R}}_{A}\right)}\right]-\left[\operatorname {Pr} _{\theta }\left({\mathcal {R}}_{A}\right)-\color {magenta}{\operatorname {Pr} _{\theta }\left({\mathcal {R}}_{NP}\cap {\mathcal {R}}_{A}\right)}\right]\\&=\operatorname {Pr} _{\theta }\left({\mathcal {R}}_{NP}\right)-\operatorname {Pr} _{\theta }\left({\mathcal {R}}_{A}\right)\end{aligned}}}
(1)
ובפרט, אם
θ
=
θ
0
{\displaystyle \theta =\theta _{0}}
, למבחנים רמת מובהקות זהה, ולכן,
Pr
θ
0
(
R
N
P
∖
R
A
)
−
Pr
θ
0
(
R
A
∖
R
N
P
)
=
Pr
θ
0
(
R
N
P
)
−
Pr
θ
0
(
R
A
)
=
α
−
α
=
0
{\displaystyle {\begin{aligned}\operatorname {Pr} _{\theta _{0}}\left({\mathcal {R}}_{NP}\backslash {\mathcal {R}}_{A}\right)-\operatorname {Pr} _{\theta _{0}}\left({\mathcal {R}}_{A}\backslash {\mathcal {R}}_{NP}\right)&=\operatorname {Pr} _{\theta _{0}}\left({\mathcal {R}}_{NP}\right)-\operatorname {Pr} _{\theta _{0}}\left({\mathcal {R}}_{A}\right)\\&=\ \alpha -\alpha \\&=0\end{aligned}}}
כלומר:
Pr
θ
0
(
R
N
P
∖
R
A
)
=
Pr
θ
0
(
R
A
∖
R
N
P
)
{\displaystyle \operatorname {Pr} _{\theta _{0}}\left({\mathcal {R}}_{NP}\backslash {\mathcal {R}}_{A}\right)=\operatorname {Pr} _{\theta _{0}}\left({\mathcal {R}}_{A}\backslash {\mathcal {R}}_{NP}\right)}
(2)
המשפט מבקש להוכיח כי
Pr
θ
1
(
R
N
P
)
>
Pr
θ
1
(
R
A
)
{\displaystyle \operatorname {Pr} _{\theta _{1}}\left({\mathcal {R}}_{NP}\right)>\operatorname {Pr} _{\theta _{1}}\left({\mathcal {R}}_{A}\right)}
, אך מטענה (1) נובע כי לשם כך מספיק להוכיח כי
Pr
θ
1
(
R
N
P
∖
R
A
)
>
Pr
θ
1
(
R
A
∖
R
N
P
)
{\displaystyle \operatorname {Pr} _{\theta _{1}}\left({\mathcal {R}}_{NP}\backslash {\mathcal {R}}_{A}\right)>\operatorname {Pr} _{\theta _{1}}\left({\mathcal {R}}_{A}\backslash {\mathcal {R}}_{NP}\right)}
לשם הוכחת הטענה האחרונה, ניתן לשים לב כי מההנחה, בתוך
R
N
P
∖
R
A
{\displaystyle {\mathcal {R}}_{NP}\backslash {\mathcal {R}}_{A}}
מתקיים
L
(
X
;
θ
1
)
>
k
α
L
(
X
;
θ
0
)
{\displaystyle L(\mathbf {X} ;\theta _{1})>k_{\alpha }\ L(\mathbf {X} ;\theta _{0})}
, ובפרט,
Pr
θ
1
(
R
N
P
∖
R
A
)
>
Pr
θ
0
(
R
N
P
∖
R
A
)
{\displaystyle \operatorname {Pr} _{\theta _{1}}\left({\mathcal {R}}_{NP}\backslash {\mathcal {R}}_{A}\right)>\operatorname {Pr} _{\theta _{0}}\left({\mathcal {R}}_{NP}\backslash {\mathcal {R}}_{A}\right)}
(3)
באופן דומה, בתוך
R
A
∖
R
N
P
{\displaystyle {\mathcal {R}}_{A}\backslash {\mathcal {R}}_{NP}}
,
Pr
θ
1
(
R
A
∖
R
N
P
)
<
Pr
θ
0
(
R
A
∖
R
N
P
)
{\displaystyle \operatorname {Pr} _{\theta _{1}}\left({\mathcal {R}}_{A}\backslash {\mathcal {R}}_{NP}\right)<\operatorname {Pr} _{\theta _{0}}\left({\mathcal {R}}_{A}\backslash {\mathcal {R}}_{NP}\right)}
(4)
ועל כן,
Pr
θ
1
(
R
N
P
∖
R
A
)
>
(
3
)
Pr
θ
0
(
R
N
P
∖
R
A
)
=
(
2
)
Pr
θ
0
(
R
A
∖
R
N
P
)
>
(
4
)
Pr
θ
1
(
R
A
∖
R
N
P
)
{\displaystyle {\begin{aligned}\operatorname {Pr} _{\theta _{1}}\left({\mathcal {R}}_{NP}\backslash {\mathcal {R}}_{A}\right)&{\overset {(3)}{>}}\operatorname {Pr} _{\theta _{0}}\left({\mathcal {R}}_{NP}\backslash {\mathcal {R}}_{A}\right)\\&{\overset {(2)}{=}}\operatorname {Pr} _{\theta _{0}}\left({\mathcal {R}}_{A}\backslash {\mathcal {R}}_{NP}\right)\\&{\overset {(4)}{>}}\operatorname {Pr} _{\theta _{1}}\left({\mathcal {R}}_{A}\backslash {\mathcal {R}}_{NP}\right)\end{aligned}}}
כנדרש.