אי-שוויון צ'רנוף
בערך זה |
בתורת ההסתברות, אי-שוויון צ'רנוף או חסם צ'רנוף הוא אי-שוויון המתאר את הקשר בין סכום של משתני ברנולי לבין התוחלת של סכום זה. אי-שוויון צ'רנוף מראה דעיכה מעריכית (אקספוננציאלית) של ההסתברות לכך שסכום המשתנים יהיה רחוק מהתוחלת הצפויה כפונקציה של המרחק הנמדד בסטיות תקן. במילים אחרות, ההסתברות שהסכום יהיה רחוק t סטיות תקן מהתוחלת קטנה כפונקציה מעריכית ב-t.
באופן פורמלי, יהיו
מאורעות בלתי תלויים אשר מתרחשים בהסתברות
(כלומר,
) אזי מתקיים
.![\Pr \left[\sum_{i=1}^n X_i - np > t\sqrt{np(1-p)}\right] < e^{-t^2/2}](http://upload.wikimedia.org/math/c/d/4/cd4482ffb436eb3a612b39f980c1ebd5.png)
מכיוון שסכום המאורעות מפולג בינומית,
, תוחלת סכום המאורעות הינה
, וסטיית התקן הינה
.
מכיוון שהחסם המתקבל הינו מעריכי, אי שוויון צ'רנוף חזק יותר מאשר אי-שוויון צ'בישב, ואי-שוויון מרקוב, בהם דעיכת הזנב הינה פולינומית. אי השוויון קרוי על שם המתמטיקאי הרמן צ'רנוף (Herman Chernoff), שהוכיח את אי-השוויון בשנת 1952. כיום משמש השם "אי שוויון צ'רנוף" לתיאור משפחה של אי שיוויונות המבוססים על אי שוויון זה או על אי-שיוויונות דומים לו כגון אי שוויון הופדינג ואי שוויון ברנשטיין (שניתן לראותם כמקרה פרטי של אי-שוויון זה).
תוכן עניינים |
מוטיבציה ודוגמאות [עריכה]
אי שוויון צ'רנוף נפוץ בתחומים רבים של המדעים בעיקר בחישובים סטטיסטיים של מדגמים וכן באנליזה של אלגוריתמים אקראיים במדעי המחשב, על מנת לחסום את הסתברות השגיאה של מדגם/אלגוריתם נתון. למשל, נניח כי קיים אלגוריתם אקראי A שעונה את התשובה הנכונה בהסתברות 0.6 (ובהסתברות 0.4 עונה תשובה אחרת). דרך אפשרית לבניית אלגוריתם "משופר" הינה להריץ את האלגוריתם A מספר רב של פעמים, ולענות את התשובה שחזרה על עצמה הכי הרבה פעמים. למשל, אם האלגוריתם A מחשב בעיה מסוימת שהתשובה עבורה הינה "כן/לא", נגדיר אלגוריתם חדש B שפעולתו הינה להריץ את האלגוריתם A מספר רב של פעמים (נניח, 100 פעמים) ולענות לפי הרוב. נצפה שכ-60 מההרצות יענו תשובה אחת (התשובה הנכונה), ושאר 40 ההרצות יענו תשובה אחרת. ונשאלת השאלה: מה ההסתברות של אלגוריתם B לטעות?
אי השוויון של צ'רנוף נותן נוסחא פשוטה המגדירה את הסתברות הכישלון של B כפונקציה של מספר ההרצות. נשים לב שאלגוריתם B טועה אם התשובה הנכונה הופיעה פחות מ-50 פעמים, כלומר, סטיה של 10 הרצות מן התוחלת הצפויה של 60 פעמים (כ-2 סטיות תקן). כמובן שאם היינו מריצים 1000 פעמים, אלגוריתם B יטעה כאשר התשובה הנכונה תופיע פחות מ-500 פעמים, כלומר סטייה של 100 מהתוחלת הצפויה (כ-6.5 סטיות תקן). מכאן ניתן להעריך שהסתברות השגיאה של B במקרה הראשון (100 הרצות) הינה מסדר גודל של
ואילו במקרה שני (1000 הרצות) הסתברות השגיאה של B קטנה באופן משמעותי (עקב הדעיכה המעריכית) והינה מסדר גודל של
. באופן שקול, אם נתונה הסתברות השגיאה הרצויה מאלגוריתם B, ניתן לחשב את מספר ההרצות החוזרות של אלגוריתם A הנדרשות על מנת לעמוד בהסתברות זו.
הגדרה פורמלית [עריכה]
יהיו
משתנים אקראיים מפולגים זהה ובלתי תלויים (i.i.d), כך ש־
. נסמן
, ונסמן את התוחלת של
ב־
. אי השוויון קובע כי לכל 
![\begin{align}
&\Pr\left[ \frac 1 n \sum X_i \geq \mu + \varepsilon \right]
&\qquad\leq \left ( {\left (\frac{\mu}{\mu + \varepsilon}\right )}^{\mu+\varepsilon} {\left (\frac{1 - \mu}{1 -\mu - \varepsilon}\right )}^{1 - \mu- \varepsilon}\right ) ^n = e^{ - D(\mu+\varepsilon\|\mu) n}
\end{align}](http://upload.wikimedia.org/math/9/4/a/94a7a294015936fffe958706c59e701e.png)
וכן,
![\begin{align}
&\Pr\left[ \frac 1 n \sum X_i \leq \mu - \varepsilon \right]
&\qquad\leq \left ( {\left (\frac{\mu}{\mu - \varepsilon}\right )}^{\mu-\varepsilon} {\left (\frac{1 - \mu}{1 -\mu + \varepsilon}\right )}^{1 - \mu+ \varepsilon}\right ) ^n = e^{ - D(\mu-\varepsilon\|\mu) n},
\end{align}](http://upload.wikimedia.org/math/e/d/9/ed9b6409af992aa74825fb6cf9dcc832.png)
כאשר
הינו דיברגנס קולבק-ליבלר.
ואריאנטים נוספים [עריכה]
ואריאנט זה חוסם את ההסתברות שסכום המשתנים שונה מהתוחלת הצפויה, כאשר המרחק נמדד בכפולות של התוחלת (לעומת כפולות של סטיית התקן, כפי שמתקיים באי-שוויון לעיל). יהיו
אינדיקטורים בלתי תלויים (משתנים אקראיים המקבלים ערך 0 או 1), ונניח שהסתברות כל מאורע הינה נתונה
. נסמן את הסכום בתור
ואת התוחלת של הסכום
אזי מתקיים לכל 
![\Pr \left[ X > (1+\delta)\mu \right] < \left(\frac{e^\delta}{(1+\delta)^{(1+\delta)}}\right)^\mu](http://upload.wikimedia.org/math/d/b/5/db5265423cf18728722f51ab88951349.png)
![\Pr \left[ X < (1-\delta)\mu \right] < \left(\frac{e^\delta}{(1-\delta)^{(1-\delta)}}\right)^\mu](http://upload.wikimedia.org/math/6/4/c/64c16675681ff5f23d577fcd44a007f8.png)
או באופן מעט פחות הדוק (אבל יותר נוח לשימוש)
![\Pr \left[ X > (1+\delta)\mu \right] < e^{-\delta^2\mu/3} \quad\quad\mbox{for }0<\delta<1](http://upload.wikimedia.org/math/c/2/0/c204c48d43cebe253ee8c2c4fcb72524.png)
![\Pr \left[ X < (1-\delta)\mu \right] < e^{-\delta^2\mu/2}\quad\quad\mbox{for }\delta>0](http://upload.wikimedia.org/math/1/c/7/1c7d56902039643101ad22257788410e.png)
אי-שוויון צ'רנוף עבור משתנים תלויים [עריכה]
אי תלות בין משתנים הוא תנאי מספיק אך לא הכרחי. הכללה של אי השוויון מתקיימת לכל קבוצה של
משתנים בינאריים המקיימת לכל תת-קבוצה
,
![\Pr\left[\bigwedge_{i\in S}X_{i}=1\right]\leq \delta^{\left|S\right|}](http://upload.wikimedia.org/math/1/6/d/16d7ad2c8b5b558c407a2e8672431e87.png)
כאשר
הוא קבוע כלשהו
, ו- |S| הוא מספר האיברים בקבוצה. במקרה זה נקבל:
.אי-שוויון צ'רנוף מתקיים גם עבור משתנים שהם negatively related.
ראו גם [עריכה]
קישורים חיצוניים [עריכה]
- Herman Chernoff (1952). "A Measure of Asymptotic Efficiency for Tests of a Hypothesis Based on the sum of Observations". Annals of Mathematical Statistics 23 (4): 493–507. doi:.