מודל לוג-ליניארי

מתוך ויקיפדיה, האנציקלופדיה החופשית
(הופנה מהדף מודל לוג-לינארי)

מודל לוג ליניארי משמש בסטטיסטיקה לבחינת מבנה הקשר בין מספר משתנים איכותיים. המודל הוצג לראשונה בשנות ה-60 של המאה העשרים על ידי איבון בישופ.

מוטיבציה ומודל ללוח שכיחות דו־ממדי[עריכת קוד מקור | עריכה]

יהיו ו- שני משתנים מקריים איכותיים כאשר ללא הגבלת הכלליות המשתנה יכול לקבל את הערכים והמשתנה יכול לקבל את הערכים .

נתבונן במדגם בגודל מתוך אוכלוסייה כלשהי, ונסמן ב- את מספר הפרטים במדגם עבורם ו-. נאמר כי היא השכיחות של התצפיות במדגם עבורן ו-. הטבלה שבה יש שורות ו- עמודות, ובהצטלבות השורה ה- והעמודה ה- נמצא המספר נקראת לוח השכיחות של המשתנים ו-. מכיוון שלטבלה יש שני ממדים (אורך ורוחב) לוח השכיחות הוא דו-ממדי. לוח השכיחות הוא למעשה הנתונים שיש לנתח.

כן נסמן ב- את מספר הפרטים במדגם עבורם , וב- נסמן את מספר הפרטים במדגם עבורם .

אם אין לנו שום ידיעה על ההתפלגות המשותפת של ושל -, אז , תוחלת מספר הפרטים במדגם שעבורם ו- היא .

אם לעומת זאת נניח כי ו- הם משתנים מקריים בלתי תלויים, אז לכל ולכל , ולכן .

אמדים להסתברויות אלה הם ו-, ולכן, תחת הנחת אי התלות:

על ידי הפעלת פונקציית הלוגריתם נקבל כי .

באגף ימין יש שלושה מחוברים, אחד מהם תלוי ב- וב-, השני תלוי ב- וב-, והשלישי אינו תלוי במשתנים או בערכים אלא רק בגודל המדגם.

לכן, מודל מתקבל על הדעת עבור אי התלות בין ו- (בהנחה כי היא מתקיימת) הוא: לכל ולכל .

אם לעומת זאת המשתנים אינם בלתי תלויים אז השוויון האחרון אינו נכון, והמודל המתאים הוא כאשר לפחות עבור זוג אחד. מודל זה מכונה "המודל הרווי", מכיוון שהוא תמיד מתאים לנתונים התאמה מלאה. הביטוי מבטא את האינטראקציה (יחסי הגומלין) בין ו-.

מכאן ש- ו- הם בלתי תלויים אם ורק אם לכל ולכל .

אמידת הפרמטרים וטיב ההתאמה[עריכת קוד מקור | עריכה]

קל לראות כי כפי שהמודל הרווי הוגדר עבור לוח השכיחות הדו־ממדי, מספר הפרמטרים גדול באופן משמעותי ממספר הנתונים. יתרה מזו, הערכים הנאמדים של אינם יכולים לקבל כל ערך אפשרי מכיוון שניתן לבטא בעזרתם את ההסתברויות והסתברויות אלה חייבות להסתכם ל-1. גם ההסתברויות חייבות להסתכם ל-1 וכן ההסתברויות .

לכן יש להשית אילוצים מתאימים על הערכים של ה--ות.

מערכת אילוצים אפשרית עבור מודל אי תלות ללוח שכיחות דו־ממדי היא: ו- . אילוצים אלה הם אנלוגיים לאילוצים ו-. בהינתן אילוצים אלו, למודל יש דרגות חופש.

כדי לאמוד את הפרמטרים של המודל הרווי יש צורף באילוצים נוספים: לכל ו- לכל . בהינתן אילוצים אלה, למודל הרווי יש 0 דרגות חופש. מאילוצים אלה נובע כי השערת אי התלות בין המשתנים ניתנת לניסוח כ-.

אמידת הפרמטרים נעשית בשיטת הנראות המרבית[1]. לאחר מכן ניתן לבחון את טיב ההתאמה של המודל לנתונים בעזרת מבחן חי בריבוע.

בתוכנת R ניתן לאמוד את הפרמטרים של המודלים הלוג ליניאריים בעזרת הפונקציה loglin הזמינה בחבילת הבסיס של התוכנה.

מודלים ללוח שכיחות תלת־ממדי[עריכת קוד מקור | עריכה]

באופן דומה להגדרת לוח השכיחות הדו־ממדי, נוכל להגדיר את לוח השכיחות התלת־ממדי על ידי האוסף , כאשר זהו מספר התצפיות במדגם עבורן הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "http://localhost:6011/he.wikipedia.org/v1/":): {\displaystyle Z=k} , , וכאשר הם משתנים מקריים המקבלים ערכים בהתאמה.

המודל הרווי ללוח שכיחות תלת־ממדי הוא:

ניתן לגזור מודלים שונים עבור ההתפלגות המשותפת של , ו- על ידי איפוס גורמי אינטראקציה.

מודל אי תלות[עריכת קוד מקור | עריכה]

מודל אי תלות מתקבל על ידי איפוס כל האינטראקציות:

מודל אי תלות בין Y ו-Z בהינתן X[עריכת קוד מקור | עריכה]

מודל זה מתקבל על ידי איפוס האינטראקציה מסדר 3 , וכן על ידי איפוס , האינטראקציה בין ו-.

המודל הוא

מודל בו X בלתי תלוי ב-(Y,Z)[עריכת קוד מקור | עריכה]

מודל זה מתקבל על ידי איפוס האינטראקציה מסדר 3 , וכן על ידי איפוס האינטראקציה בין ל- - והאינטראקציה בין ל- - .

המודל הוא

אי תלות בזוגות[עריכת קוד מקור | עריכה]

על פי מודל זה ו- בלתי תלויים, ו- בלתי תלויים, וגם ו- בלתי תלויים, אבל , ו- יחדיו אינם בלתי תלויים.

מודל זה מתקבל על ידי איפוס האינטראקציות מסדר 2 אך מותיר את האינטראקציה מסדר 3. המודל הוא

מודל עם כל האינטראקציות מסדר 2[עריכת קוד מקור | עריכה]

מודל זה מתקבל על ידי איפוס האינטראקציה מסדר 3. למודל אין אינטרפרטציה הסתברותית ברורה. המודל הוא

הקשר בין המודל הלוג ליניארי ומודל הרגרסיה הלוגיסטית[עריכת קוד מקור | עריכה]

קיימת חפיפה בין המודל הלוג ליניארי ומודל הרגרסיה הלוגיסטית במובן שבמקרים מסוימים שני המודלים שקולים. נדגים זאת בעזרת לוח שכיחות דו־ממדי מסדר , כלומר המשתנה מקבל שני ערכים והמשתנה מקבל ערכים.

בהנחה כי ו- בלתי תלויים, מתקיים כי לכל ולכל , ובפרט יחס הסיכויים של בהינתן הוא קבוע, כלומר .

על פי המודל הלוג ליניארי לאי תלות:

ואכן, קיבלנו כי לוג יחס הסיכויים אינו תלוי ב-. יתרה מזאת, מצאנו כי ניתן לבטא את פרמטר הרגרסיה הלוגיסטית בעזרת הפרמטרים של המודל הלוג ליניארי: .

כאשר ו- אינם בלתי תלויים, מודל הרגרסיה הלוגיסטית הוא כלומר לוג יחס הסיכויים תלוי ב-.

באופן דומה לפיתוח שנעשה עבור מודל אי התלות, נוכל למצוא כי עבור המודל הרווי:

כלומר לוג יחס הסיכויים הוא סכום של שני מחוברים, אחד מהם אינו תלוי ב- והשני תלוי ב-.

לקריאה נוספת[עריכת קוד מקור | עריכה]

  • Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. ISBN 978-0-262-02113-5. MR 0381130.
  • Agresti, Alan (2007). An introduction to categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN 978-0-471-22618-5.
  • Agresti, Alan (2002). Categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN 0-471-36093-7.

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Stephen E. Fienberg and Alessandro Rinaldo, Maximum likelihood estimation in log-linear models, Annals of Statistics, 2 40, Institute of Mathematical Statistics, 2012, עמ' 996-1023 doi: 10.1214/12-AOS986