מודל (סטטיסטיקה)

בסטטיסטיקה, מודל הוא תיאור מתמטי של תהליך הסתברותי שממנו התקבל מדגם, המגלם בתוכו אוסף של הנחות לגבי התהליך. במקרים רבים, המודל הסטטיסטי מייצג את התהליך שייצר את הנתונים במידה ניכרת של הפשטה.

המודל הסטטיסטי מורכב ממשפחה של התפלגויות הסתברות התואמות להנחות המגולמות בו, מתוך הנחה שלפחות חלק מההתפלגויות דומות מספיק להתפלגות שממנה נדגמו הנתונים. התפלגויות ההסתברות הכרוכות במודלים סטטיסטיים הן מה שמבדיל בין מודלים סטטיסטיים לבין מודלים מתמטיים אחרים, שאינם סטטיסטיים.

המודל הסטטיסטי מוגדר בדרך כלל על ידי משוואות מתמטיות שמעורב בהם משתנה מקרי אחד או יותר ואולי גם משתנים שאינם מקריים. מתוך כך אומרים לפעמים כי המודל הסטטיסטי הוא "ייצוג פורמלי של תאוריה"^[1]

מודל סטטיסטי עומד בבסיסה של כל בדיקת השערות וכל אמידה סטטיסטית. באופן כללי יותר, מודלים סטטיסטיים הם אחד מיסודותיה של ההסקה הסטטיסטית.

הגדרה

באופן פורמלי, מקובל להגדיר מודל כזוג הסדור $(S,{\mathcal {P}})$ , כאשר $S$ הוא מרחב כל התצפיות האפשריות (או: מרחב הנתונים), ו- ${\mathcal {P}}$ הוא אוסף התפלגויות הסתברות על $S$ .^[2] בהקשרים מסוימים, עשויים לוותר על הציון המפורש של $S$ , וקוראים מודל סטטיסטי לאוסף ${\mathcal {P}}$ .

ניתן להבין הגדרה זו, תחת ההנחה שיש התפלגות הסתברות "אמיתית" המשויכת לתהליך שיצר את הנתונים שהתקבלו. במקרה זה, מסמנים ב- ${\mathcal {P}}$ קבוצה (של התפלגויות) אשר מכילה התפלגות שהיא קירוב מספיק טוב של ההתפלגות האמיתית. ${\mathcal {P}}$ לא חייבת בהכרח להכיל את ההתפלגות האמיתית, ובפועל היא מכילה אותה רק לעיתים נדירות. אכן, כפי שטענו ברנהם ואנדרסון, "מודל הוא הפשטה או קירוב של המציאות, ולכן איננו משקף את כלל המציאות"^[3] – ומכאן מגיעה גם האמרה: "כל המודלים שגויים".

לקבוצה ${\mathcal {P}}$ כמעט תמיד יש פרמטר סטטיסטי שמשמש לה כאינדקס: ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ . הקבוצה $\Theta$ מגדירה את הפרמטרים האפשריים של המודל. בדרך כלל, דורשים מהפרמטריזציה של ${\mathcal {P}}$ שתהיה חד-חד-ערכית: כל זוג פרמטרים השונים זה מזה מהווים אינדקס להתפלגויות שונות. כלומר, בהכרח $P_{\theta _{1}}=P_{\theta _{2}}\Rightarrow \theta _{1}=\theta _{2}$ . במקרה כזה אומרים שהמודל ניתן לזיהוי.

דוגמה

נניח אוכלוסייה של תלמידי בית ספר, כך שגילם של הילדים באוכלוסייה מתפלג באופן אחיד. גובהו של כל ילד קשור באופן סטוכסטי לגילו: למשל, אם ילד הוא בן 7, זה משפיע על הסיכוי של הגובה שלו להיות מטר וחצי. ניתן להציג את מערכת היחסים הזו בצורת מודל רגרסיה ליניארית, למשל:

h_{i}=b_{0}+b_{1}\cdot a_{i}+\epsilon _{i},

כאשר $h_{i}$ הוא גובהו של התלמיד ה- $i$ ,‏ $a_{i}$ הוא גילו, $b_{0}$ הוא החיתוך של קו הרגרסיה עם הציר האנכי (הקו $a=0$ )‏, $b_{1}$ הוא פרמטר שיש להכפיל בו את הגיל כדי לקבל תחזית לגובה, ו- $\epsilon _{i}$ הוא איבר שגיאה. המודל מניח שניתן לנבא את גובהו של תלמיד על ידי גילו, עד כדי שגיאה כלשהי.

מודל קביל חייב להיות עקבי עם כל הנתונים. לפיכך, הקו ישר ( $h_{i}=b_{0}+b_{1}\cdot a_{i}$ ) לא יכול להיות המשוואה עבור מודל הנתונים, כי הוא אינו מתאים בדיוק לכל הנתונים – התאמה תתקיים רק אם כל הנתונים נמצאים בדיוק על הקו. לכן, כדי שהמודל יהיה תואם לכל הנתונים, משוואת המודל כוללת גם איבר שגיאה $\epsilon _{i}$ .

כדי לבצע הסקה סטטיסטית, יש קודם כל להניח לאיזו משפחה של התפלגויות הסתברות שייך איבר השגיאה $\epsilon _{i}$ . למשל, ניתן (ולפעמים מקובל) להניח כי $\epsilon _{i}$ הם משתנים מקריים נורמליים שווי-התפלגות בלתי-תלויים (לשם הקיצור: ש"ה ב"ת), בעלי תוחלת 0. במקרה זה, למודל יש 3 פרמטרים: $b_{0}$ , $b_{1}$ , והשונות של ההתפלגות הנורמלית ( $\sigma ^{2}$ ).

ניתן להגדיר את המודל באופן רשמי בצורה $S$ כדלקמן: מרחב הנתונים של המודל, $(S,{\mathcal {P}})$ , הוא קבוצת כל הזוגות (גיל, גובה) האפשריים. כל ערך אפשרי של $\theta =\left(b_{0},b_{1},\sigma ^{2}\right)$ קובע התפלגות על $S$ ; נסמן את התפלגות זו ב- ${\mathcal {P}}$ . אם $\Theta$ היא קבוצת כל הערכים האפשריים של $\theta$ , אז ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ . קל לבדוק שפרמטריזציה כזו היא ניתנת לזיהוי.

המודל נקבע על ידי: (א) קביעה של $S$ , (ב) קביעת כמה הנחות רלוונטיות עבור ${\mathcal {P}}$ . בדוגמה לעיל, מניחים כי ניתן לקרב את הגובה כפונקציה ליניארית של הגיל וכי השגיאות של הקירוב מתפלגות נורמלית והן בלתי-תלויות. הנחות אלו מספיקות כדי לקבוע את ${\mathcal {P}}$ , כנדרש.

ממדי המודל

נניח מודל סטטיסטי $(S,{\mathcal {P}})$ ונסמן ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ . נאמר כי המודל הוא פרמטרי אם הממד של $\Theta$ סופי. באופן פורמלי, מסמנים $\Theta \subseteq \mathbb {R} ^{k}$ , כאשר k הוא מספר חיובי ( $\mathbb {R}$ מציין את שדה המספרים הממשיים; באופן עקרוני, ניתן להשתמש גם בקבוצות אחרות במקומו). כאן, k נקרא הממד של המודל.

למשל, אם נניח כי הנתונים מגיעים מהתפלגות גאוסית חד־ממדית, אז אנו מניחים כי

{\mathcal {P}}=\left\{P_{\mu ,\sigma }(x)\equiv {\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right):\mu \in \mathbb {R} ,\sigma >0\right\}

.

בדוגמה זו, הממד k שווה ל-2.

כדוגמה נוספת, נניח כי הנתונים הם אוסף של נקודות (x, y), אנחנו מניחים שההתפלגות שלהם מתוארת על ידי קו ישר עם סטיות נורמליות שוות-התפלגות בלתי-תלויות (עם תוחלת אפס). במקרה כזה, הממד של המודל הסטטיסטי הוא 3: נקודת החיתוך של הקו, השיפוע של הקו, והשונות של הסטיות.

אם הממד של $\Theta$ אינו סופי, אומרים שהמודל הוא לא-פרמטרי או א-פרמטרי. למשל, במודל שמניח שלנתונים יש צפיפות הסתברות רציפה על קטע ${\mathcal {I}}$ , אז $\Theta$ היא קבוצת כל הפונקציות הרציפות על הקטע ( $C^{0}\left({\mathcal {I}}\right)$ ), שהיא בעלת ממד אינסופי.

סטטיסטי מספיק

ערך מורחב – סטטיסטי מספיק

כל פונקציה של המדגם שאינה תלויה בפרמטר נקראת סטטיסטי. אומרים שסטטיסטי $T$ הוא מספיק, אם ההתפלגות המותנית של הנתונים בסטטיסטי היא קבועה ביחס לפרמטרים של המודל.

אינטואיטיבית, סטטיסטי הוא מספיק עבור מודל, אם הערך של הסטטיסטי מכיל את כל המידע לגבי ההתפלגות שממנה נלקח המדגם.

משפחות מודלים

מודלים מעריכיים

ערך מורחב – משפחה מעריכית

מודלים רבים ניתן לכתוב בצורה

f_{X}(x\mid \theta )=\exp \left(\eta (\theta )\cdot T(x)-A(\theta )+B(x)\right)

ובכלל זה, מודלים שמבוססים על הרבה התפלגויות "מפורסמות", כמו ההתפלגות הנורמלית והתפלגות פואסון.

מודל רגרסיה

מודל שמטרתו לזהות יחס בין קבוצת משתנים ("מסבירים") למשתנה אחר ("מוסבר") נקרא מודל רגרסיה. לרגרסיה צורות רבות, אבל הנפוצה והמפורסמת מביניהן היא רגרסיה ליניארית (ראו דוגמה לעיל), שמניחה שהמשתנה המוסבר הוא פונקציה ליניארית של המשתנים המסבירים.

מקורות

Adèr, H.J. (2008), "Modelling", in Adèr, H.J.; Mellenbergh, G.J. (eds.), Advising on Research Methods: a consultant's companion, Huizen, The Netherlands: Johannes van Kessel Publishing, pp. 271–304
Burnham, K. P.; Anderson, D. R. (2002), Model Selection and Multimodel Inference (2nd ed.), Springer-Verlag, ISBN 0-387-95364-7
McCullagh, P. (2002), "What is a statistical model?" (PDF), Annals of Statistics, 30: 1225–1310, doi:10.1214/aos/1035844977

לקריאה נוספת

Davison A.C. (2008), Statistical Models, Cambridge University Press.
Freedman D.A. (2009), Statistical Models, Cambridge University Press.
Helland I.S. (2010), Steps Towards a Unified Basis for Scientific Models and Methods, World Scientific.
Kroese D.P., Chan J.C.C. (2014), Statistical Modeling and Computation, Springer.
Stapleton J.H. (2007), Models for Probability and Statistical Inference, Wiley-Interscience.

קישורים חיצוניים

מדיה וקבצים בנושא מודל בוויקישיתוף

הערות שוליים

^ קנת בולן (Kenneth A. Bollen), לפי ציטוט של הרמן אדר [Herman J. Adèr]).‏(Adèr 2008, p. 280)
^ McCullagh 2002.
^ Burnham & Anderson 2002, §1.2.5

[1] קנת בולן (Kenneth A. Bollen), לפי ציטוט של הרמן אדר [Herman J. Adèr]).‏(Adèr 2008, p. 280)

[McCullagh-2] McCullagh 2002.

[3] Burnham & Anderson 2002, §1.2.5

[1]

[2]

[3]