המודל הליניארי הכללי

רגרסיה ליניארית כללית, לחלופין המודל הליניארי הכללי (או המוכלל), או מודל רגרסיה רב-משתני הוא דרך קומפקטית לכתוב בו-זמנית מספר מודלים של רגרסיה ליניארית. במובן זה המודל אינו מודל ליניארי סטטיסטי נפרד. מודלים שונים של רגרסיה ליניארית מרובים עשויים להיכתב בצורה קומפקטית כ-^[1]

\mathbf {Y} =\mathbf {X} \mathbf {B} +\mathbf {U}

כאשר Y היא מטריצה עם סדרה של מדידות מרובות משתנים (כל עמודה היא קבוצת מדידות על אחד המשתנים התלויים), X היא מטריצה של תצפיות על משתנים בלתי תלויים שעשויים להיות מטריצת עיצוב (כל עמודה היא קבוצה של תצפיות על אחד המשתנים הבלתי תלויים), B היא מטריצה המכילה פרמטרים שבדרך כלל יש להעריך ו-U היא מטריצה המכילה שגיאות (רעש). בדרך כלל מניחים כי השגיאות אינן מתואמות על פני מדידות, והן מתנהגות לפי התפלגות רב-נורמלית. אם השגיאות אינן תואמות התפלגות נורמלית רב-משתנית, ניתן להשתמש במודלים ליניאריים מוכללים כדי "לשחרר" הנחות לגבי Y ו-U.

המודל הליניארי המוכלל משלב מספר מודלים סטטיסטיים שונים: ANOVA, ANCOVA, MANOVA, MANCOVA, רגרסיה ליניארית רגילה, t-test ו-F-test. המודל הליניארי המוכלל הוא הכללה של רגרסיה ליניארית מרובה למקרה של יותר ממשתנה תלוי אחד. אם Y, B ו-U היו וקטורים של עמודות, משוואת המטריצה למעלה הייתה מייצגת רגרסיה ליניארית מרובה.

מבחני השערה עם המודל הליניארי הכללי יכולים להתבצע בשתי דרכים: רב משתנים או כמספר מבחנים חד משתנים בלתי תלויים. במבחנים רב-משתנים בודקים את העמודות של Y יחד, בעוד שבמבחנים חד-משתנים, העמודות של Y נבדקות באופן עצמאי, כלומר, כמבחנים חד-משתנים מרובים עם אותה מטריצת עיצוב.

השוואה לרגרסיה ליניארית מרובת משתנים

רגרסיה ליניארית מרובת משתנים היא הכללה של רגרסיה ליניארית פשוטה למקרה של יותר ממשתנה בלתי תלוי אחד, ומקרה פרטי של מודלים ליניאריים כלליים, מוגבלים למשתנה תלוי אחד. המודל הבסיסי לרגרסיה ליניארית מרובה הוא

Y_{i}=\beta _{0}+\beta _{1}X_{i1}+\beta _{2}X_{i2}+\ldots +\beta _{p}X_{ip}+\epsilon _{i}

עבור כל תצפית i = 1, ..., n .

בנוסחה לעיל אנו רואים n תצפיות של משתנה תלוי אחד ו-p משתנים בלתי תלויים. לפיכך, Y_i הוא התצפית ה-i של המשתנה התלוי, X_ij הוא התצפית ה- i של המשתנה הבלתי תלוי J כאשר, j = 1, 2, ..., p. הערכים β_j מייצגים פרמטרים שיש להעריך, ו- ε_i היא השגיאה הנורמלית הבלתי תלויה המפוזרת באופן זהה ה-I.

ברגרסיה הליניארית הרב-משתנית הכללית יותר, יש משוואה אחת מהצורה לעיל עבור כל אחד מ-m > 1 משתנים תלויים החולקים את אותה קבוצה של משתנים מסבירים, ולכן נאמדים בו-זמנית זה עם זה:

Y_{ij}=\beta _{0j}+\beta _{1j}X_{i1}+\beta _{2j}X_{i2}+\ldots +\beta _{pj}X_{ip}+\epsilon _{ij}

עבור כל התצפיות באינדקס כ- i = 1, ..., n ולכל המשתנים התלויים באינדקס כ- j = 1, ... , m .

יש לשים לב שמכיוון שלכל משתנה תלוי יש קבוצה משלו של פרמטרי רגרסיה שיש להתאים, מנקודת מבט חישובית הרגרסיה הרב-משתנית הכללית היא פשוט רצף של רגרסיות ליניאריות סטנדרטיות תוך שימוש באותם משתנים מסבירים.

השוואה למודל הליניארי המוכלל

המודל הליניארי הכללי והמודל הליניארי המוכלל (GLM) ^[2] ^[3] הן שתי משפחות נפוצות של שיטות סטטיסטיות לקשור מספר מסוים של מנבאים רציפים ו/או קטגוריים, למשתנה תוצאה בודד.

ההבדל העיקרי בין שתי הגישות הוא שהמודל הליניארי הכללי מניח בקפדנות שהשאריות ילכו לפי התפלגות נורמלית מותנית,^[4] בעוד שה-GLM משחרר הנחה זו ומאפשר מגוון התפלגויות אחרות מהמשפחה האקספוננציאלית עבור השאריות.^[5] יש לציין, המודל הליניארי הכללי הוא מקרה מיוחד של GLM שבו ההתפלגות של השאריות עוקבת אחר התפלגות נורמלית מותנית.

התפלגות השאריות תלויה במידה רבה בסוג והתפלגות של משתנה התוצאה; סוגים שונים של משתני תוצאה מובילים למגוון המודלים בתוך משפחת GLM. מודלים נפוצים במשפחת ה-GLM כוללים רגרסיה לוגיסטית בינארית ^[6] לתוצאות בינאריות או דיכוטומיות, רגרסית פואסון^[7] עבור תוצאות ספירה, ורגרסיה ליניארית עבור תוצאות רציפות, בהתפלגות נורמלית. משמעות הדבר היא שניתן לדבר על GLM כעל משפחה כללית של מודלים סטטיסטיים או כמודלים ספציפיים לסוגי תוצאות ספציפיים.

יישומים

יישום של המודל הליניארי הכללי מופיע בניתוח של סריקות מוח מרובות בניסויים מדעיים שבהם Y מכיל נתונים מסורקי מוח, X מכיל משתני עיצוב ניסויים ומגבילים. זה מנוסה בדרך כלל בצורה חד-משתנית, ולעיתים קרובות הוא מכונה מיפוי פרמטרי סטטיסטי.^[8]

לקריאה נוספת

Christensen, Ronald (2002). Plane Answers to Complex Questions: The Theory of Linear Models (Third ed.). New York: Springer. ISBN 0-387-95361-2.
Wichura, Michael J. (2006). The coordinate-free approach to linear models. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge: Cambridge University Press. pp. xiv+199. ISBN 978-0-521-86842-6. MR 2283455.
Applied Regression Analysis. Springer Texts in Statistics. 1998. doi:10.1007/b98890. ISBN 0-387-98454-2.

הערות שוליים

^ K. V. Mardia, J. T. Kent and J. M. Bibby (1979). Multivariate Analysis. Academic Press. ISBN 0-12-471252-5.
^ McCullagh, P.; Nelder, J. A. (1989), "An outline of generalized linear models", Generalized Linear Models, Springer US: 21–47, doi:10.1007/978-1-4899-3242-6_2, ISBN 9780412317606
^ Fox, J. (2015). Applied regression analysis and generalized linear models. Sage Publications.
^ Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences.
^ McCullagh, P.; Nelder, J. A. (1989), "An outline of generalized linear models", Generalized Linear Models, Springer US: 21–47, doi:10.1007/978-1-4899-3242-6_2, ISBN 9780412317606
^ Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (Vol. 398). John Wiley & Sons.
^ Gardner, W.; Mulvey, E. P.; Shaw, E. C. (1995). "Regression analyses of counts and rates: Poisson, overdispersed Poisson, and negative binomial models". Psychological Bulletin. 118 (3): 392–404. doi:10.1037/0033-2909.118.3.392.
^ K.J. Friston; A.P. Holmes; K.J. Worsley; J.-B. Poline; C.D. Frith; R.S.J. Frackowiak (1995). "Statistical Parametric Maps in functional imaging: A general linear approach". Human Brain Mapping. 2 (4): 189–210. doi:10.1002/hbm.460020402.

[MardiaK1979Multivariate-1] K. V. Mardia, J. T. Kent and J. M. Bibby (1979). Multivariate Analysis. Academic Press. ISBN 0-12-471252-5.

[2] McCullagh, P.; Nelder, J. A. (1989), "An outline of generalized linear models", Generalized Linear Models, Springer US: 21–47, doi:10.1007/978-1-4899-3242-6_2, ISBN 9780412317606

[3] Fox, J. (2015). Applied regression analysis and generalized linear models. Sage Publications.

[:1-4] Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences.

[:0-5] McCullagh, P.; Nelder, J. A. (1989), "An outline of generalized linear models", Generalized Linear Models, Springer US: 21–47, doi:10.1007/978-1-4899-3242-6_2, ISBN 9780412317606

[6] Hosmer Jr, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (Vol. 398). John Wiley & Sons.

[7] Gardner, W.; Mulvey, E. P.; Shaw, E. C. (1995). "Regression analyses of counts and rates: Poisson, overdispersed Poisson, and negative binomial models". Psychological Bulletin. 118 (3): 392–404. doi:10.1037/0033-2909.118.3.392.

[8] K.J. Friston; A.P. Holmes; K.J. Worsley; J.-B. Poline; C.D. Frith; R.S.J. Frackowiak (1995). "Statistical Parametric Maps in functional imaging: A general linear approach". Human Brain Mapping. 2 (4): 189–210. doi:10.1002/hbm.460020402.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]