מתוך ויקיפדיה, האנציקלופדיה החופשית
מספר הקופונים (בציר האנכי) כנגד מספר הדגימות הנדרש בתוחלת (בציר האופקי)
בתורת ההסתברות , בעיית אוסף הקופונים היא בעיה קלאסית הדנה במשחק שבו נאספים קופונים מתוך תיבה עם
n
{\displaystyle n}
קופונים שונים, בהסתברות שווה עם החזרה, והמטרה היא לאסוף את כל הקופונים. מהי ההסתברות שנדרשות לפחות
t
{\displaystyle t}
דגימות כדי לצפות בכל
n
{\displaystyle n}
הקופונים לפחות פעם אחת? ניתוח מתמטי מראה שתוחלת מספר הדגימות הנדרש כדי לצפות בכל קופון לפחות פעם אחת גדלה כתלות ב-
n
{\displaystyle n}
לפי
Θ
(
n
log
(
n
)
)
{\displaystyle \Theta (n\log(n))}
(לדוגמה כאשר מספר הקופונים הוא n = 50, נדרשות בממוצע כ-225[ 1] דגימות).
עיקרון חשוב להבנת הבעיה הוא שנדרש מספר דגימות מועט מאוד כדי לאסוף את הקופונים הראשונים, ואילו כדי לצפות בקופונים האחרונים (אלו שלא נצפו קודם לאחר שכמעט כל הקופונים נצפו) נדרש מספר גדול של דגימות. למשל כאשר יש 50 קופונים ו-49 מהם כבר נצפו, ידרשו 50 דגימות בממוצע כדי לצפות בקופון האחרון.
נסמן
T
{\displaystyle T}
כזמן הנדרש (או מספר הדגימות) לאיסוף
n
{\displaystyle n}
קופונים, נסמן ב
t
i
{\displaystyle t_{i}}
את הזמן הנדרש לאיסוף הקופון ה-
i
{\displaystyle i}
לאחר שנאספו
i
−
1
{\displaystyle i-1}
קופונים. נתייחס אל
T
{\displaystyle T}
ו-
t
i
{\displaystyle t_{i}}
כאל משתנים מקריים . נשים לב שההסתברות לאיסוף קופון חדש (לא אחד מתוך ה-
i
−
1
{\displaystyle i-1}
שכבר נצפו) היא
p
i
=
n
−
(
i
−
1
)
n
{\displaystyle p_{i}={\frac {n-(i-1)}{n}}}
. הזמן הנדרש לאיסוף הקופון ה-
i
{\displaystyle i}
(
t
i
{\displaystyle t_{i}}
) מתפלג לפי התפלגות גאומטרית עם תוחלת של
1
p
i
{\displaystyle {\frac {1}{p_{i}}}}
. באמצעות ליניאריות התוחלת ניתן למצוא את תוחלת הזמן הנדרש לאיסוף כל הקופונים,
T
{\displaystyle T}
:
E
(
T
)
=
E
(
∑
i
=
1
n
t
i
)
=
E
(
t
1
)
+
E
(
t
2
)
+
⋯
+
E
(
t
n
)
=
1
p
1
+
1
p
2
+
⋯
+
1
p
n
=
n
n
+
n
n
−
1
+
⋯
+
n
1
=
n
⋅
(
1
1
+
1
2
+
⋯
+
1
n
)
=
n
⋅
H
n
.
{\displaystyle {\begin{aligned}\operatorname {E} (T)&=\operatorname {E} \left(\sum _{i=1}^{n}t_{i}\right)=\operatorname {E} (t_{1})+\operatorname {E} (t_{2})+\cdots +\operatorname {E} (t_{n})={\frac {1}{p_{1}}}+{\frac {1}{p_{2}}}+\cdots +{\frac {1}{p_{n}}}\\&={\frac {n}{n}}+{\frac {n}{n-1}}+\cdots +{\frac {n}{1}}=n\cdot \left({\frac {1}{1}}+{\frac {1}{2}}+\cdots +{\frac {1}{n}}\right)\,=\,n\cdot H_{n}.\end{aligned}}}
כאשר
H
n
{\displaystyle H_{n}}
הוא המספר ההרמוני ה-
n
{\displaystyle n}
. בניתוח אסימפטוטי מקבלים שכאשר
n
→
∞
{\displaystyle n\to \infty }
:
E
(
T
)
=
n
⋅
H
n
=
n
log
n
+
γ
n
+
1
2
+
o
(
1
)
{\displaystyle \operatorname {E} (T)=n\cdot H_{n}=n\log n+\gamma n+{\frac {1}{2}}+o(1)}
כאשר
γ
≈
0.5772156649
{\displaystyle \gamma \approx 0.5772156649}
הוא קבוע אוילר-מסקרוני . באמצעות אי-שוויון מרקוב ניתן לחסום את ההסתברות שהזמן הנדרש לאיסוף כל הקלפים יעלה על
c
n
H
n
{\displaystyle \ c\,nH_{n}}
:
P
(
T
≥
c
n
H
n
)
≤
1
c
.
{\displaystyle \operatorname {P} (T\geq c\,nH_{n})\leq {\frac {1}{c}}.}
ניתן לקבל חסם למספר התצפיות הנדרש לפי השונות. תוך שימוש בכך שהמשתנים המקרים
t
i
{\displaystyle t_{i}}
בלתי תלויים:
Var
(
T
)
=
Var
(
t
1
)
+
Var
(
t
2
)
+
⋯
+
Var
(
t
n
)
=
1
−
p
1
p
1
2
+
1
−
p
2
p
2
2
+
⋯
+
1
−
p
n
p
n
2
=
(
n
2
n
2
+
n
2
(
n
−
1
)
2
+
⋯
+
n
2
1
2
)
−
(
n
n
+
n
n
−
1
+
⋯
+
n
1
)
=
n
2
⋅
(
1
1
2
+
1
2
2
+
⋯
+
1
n
2
)
−
n
⋅
H
n
=
n
2
⋅
(
π
2
6
−
1
n
+
1
2
n
2
)
−
(
n
log
n
+
γ
n
+
1
2
)
+
o
(
1
)
<
π
2
6
n
2
.
{\displaystyle {\begin{aligned}\operatorname {Var} (T)&=\operatorname {Var} (t_{1})+\operatorname {Var} (t_{2})+\cdots +\operatorname {Var} (t_{n})\\&={\frac {1-p_{1}}{p_{1}^{2}}}+{\frac {1-p_{2}}{p_{2}^{2}}}+\cdots +{\frac {1-p_{n}}{p_{n}^{2}}}\\&=\left({\frac {n^{2}}{n^{2}}}+{\frac {n^{2}}{(n-1)^{2}}}+\cdots +{\frac {n^{2}}{1^{2}}}\right)-\left({\frac {n}{n}}+{\frac {n}{n-1}}+\cdots +{\frac {n}{1}}\right)\\&=n^{2}\cdot \left({\frac {1}{1^{2}}}+{\frac {1}{2^{2}}}+\cdots +{\frac {1}{n^{2}}}\right)-n\cdot H_{n}\\&=n^{2}\cdot \left({\frac {\pi ^{2}}{6}}-{\frac {1}{n}}+{\frac {1}{2n^{2}}}\right)-\left(n\log n+\gamma n+{\frac {1}{2}}\right)+o(1)\\&<{\frac {\pi ^{2}}{6}}n^{2}.\end{aligned}}}
כאשר
π
2
/
6
{\displaystyle \pi ^{2}/6}
הוא ערך של פונקציית זטא של רימן . (ראו בעיית בזל ). באמצעות אי-שוויון צ'בישב מתקבל החסם:
P
(
|
T
−
n
H
n
|
≥
c
n
)
≤
π
2
6
c
2
.
{\displaystyle \operatorname {P} \left(|T-nH_{n}|\geq c\,n\right)\leq {\frac {\pi ^{2}}{6c^{2}}}.}
^ E(50)=50(1 + 1/2 + 1/3 + ... + 1/50) = 224.9603, מספר הניסויים הצפוי לאיסוף כל 50 הקופונים. בקירוב:
n
log
n
+
γ
n
+
1
/
2
{\displaystyle n\log n+\gamma n+1/2}
כאשר במקרה זה מתקבלת התוצאה המקורבת:
50
log
50
+
50
γ
+
1
/
2
≈
195.6011
+
28.8608
+
0.5
≈
224.9619
{\displaystyle 50\log 50+50\gamma +1/2\approx 195.6011+28.8608+0.5\approx 224.9619}
.