רגרסיה לינארית

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

רגרסיה לינארית היא שיטה סטטיסטית, המשמשת לבדיקה וניצול של קשרים לינאריים בין שני משתנים או יותר. שיטה זו, על הגרסאות השונות שלה, נמצאת בשימוש נפוץ ביותר במחקרים כמותיים, בכל תחומי המדע.

משתנה מסביר יחיד[עריכת קוד מקור | עריכה]

המקרה הפשוט ביותר הוא זה שבו קיימים שני משתנים: משתנה מסביר, X, ומשתנה מוסבר, Y. לדוגמה, אפשר לנסות להסביר ולנבא באמצעות המודל את גובהו של עץ תפוחים (Y, במטרים), על-פי משקלו של הזרע ממנו הוא צומח (X, בגרמים).

בבסיס השיטה עומדת ההנחה כי המודל המסביר את הקשר בין המשתנים הוא מודל לינארי, כלומר, שמשוואה מסוג \ Y = aX+b+error תתאר נכונה את הקשר. ליתר דיוק, מניחים שבמדגם הכולל n דגימות \ (X_1,Y_1),\dots,(X_n,Y_n), מתקיים הקשר \ Y_i = a X_i + b + \epsilon_i, כאשר a ו- b הם פרמטרים קבועים (שאינם ידועים), ואילו גורמי השגיאה \ \epsilon_1,\dots,\epsilon_n הם משתנים בלתי תלויים בעלי התפלגות נורמלית, שהתוחלת שלה 0, והשונות שלה, \ \sigma^2, קבועה (אין זה חשוב אם השונות ידועה, אם לאו).

המטרה הראשונה של הרגרסיה הלינארית היא לסייע באמידת Y, כאשר X ידוע. לדוגמה, אם ידוע שגובהם הממוצע של עצי תפוח הוא 6 מטרים, אז ההערכה הטובה ביותר שאפשר לתת לגובהו העתידי של עץ שטרם צמח, היא (מן הסתם) 6 מטרים. לעומת זאת, אם אכן קיים בין משקל הזרע לבין גובה העץ קשר לינארי, אפשר לנסות להעריך את מקדמי הקשר באמצעות מדגם גדול מספיק. אם שיטת הרגרסיה מנבאת את הקשר \ Y=2X+4, פירושו של דבר שהשתיל שנבט מזרע במשקל 1.5 גרם יצמח לגובה 7 מטרים - ההערכה משתפרת, באמצעות ניצול המידע הנוסף שבמשתנה המסביר X.

הקו \ y=\hat{a}x+\hat{b} תמיד עובר דרך נקודת הממוצעים

את ערכי הפרמטרים a ו- b אומדים, מתוך המדגם, באמצעות שיטת הריבועים הפחותים: מחפשים את המספרים \ \hat{a},\hat{b} שעבורם סכום הריבועים \ \sum_{i=1}^n (Y_i - (\hat{a}X_i+\hat{b}))^2 הוא הקטן ביותר. (מן ההנחה שהשגיאה מתפלגת נורמלית, נובע שמספרים אלה מהווים אומד נראות מקסימלית של a ו- b). לקו המתקבל מן האומדים יש תכונה שימושית - הוא תמיד עובר דרך נקודת הממוצעים \ (\bar{X},\bar{Y}), כלומר, \ \hat{a}\bar{X}+\hat{b}=\bar{Y}.

חישוב הפרמטרים היסודיים של המדגם (לרבות סטיות התקן של X ושל Y) מאפשר גם לבדוק השערות סטטיסטיות על a ו- b. לדוגמה, אפשר לבדוק את ההשערה \ a=0, שממנה נובע כי Y אינו תלוי (לינארית) ב- X. למרות שבכל מדגם מעשי יופיע קשר מסוים בין X ל- Y, התורה של בדיקת השערות מאפשרת לזהות מתי קשר זה הוא מקרי בלבד, ומתי הוא מובהק ואינו מקרי.

רגרסיה מרובה[עריכת קוד מקור | עריכה]

במקרים רבים מבקשים להסביר משתנה יחיד, Y, באמצעות מספר משתנים מסבירים, \ X(1),\dots,X(m). לדוגמה, ייתכן שכדי להסביר את גובהו של עץ תפוח, יש להתחשב לא רק במשקל הזרע, אלא גם בכמות המשקעים השנתית במקום בו הוא גדל, בגובהו של העץ ממנו הגיע הזרע, ובמליחות הקרקע. אם ההשפעה של משתנים אלה על Y היא לינארית, מודל הרגרסיה יוכל למצוא (כמקודם), את הפרמטרים המגדירים את הקשר הלינארי, ובכך יסייע לשפר את ההערכה של Y עוד יותר.

המודל הבסיסי של הרגרסיה הלינארית גמיש מספיק כדי לאפשר תלות בין המשתנים המסבירים, וניתן לכלול בו גם גורמים שאינם לינארים (כמו במודל \ Y = aX(1)+bX(1)^2+cX(2)+dX(1)X(2)+error). אחד השימושים העיקריים של המודל הוא במדידת הרלוונטיות של משתנה מסביר, באמצעות השוואת המודל הכולל אותו, למודל המסביר את אותה תופעה בלעדיו. הוספת משתנים משפרת את יכולת ההערכה כמעט ללא יוצא מן הכלל, אבל במקרים רבים השיפור הוא אקראי, ואינו נובע מקשר אמיתי בין המשתנים. גורם עיקרי במענה על שאלות מסוג זה מהווה מקדם המתאם המרובה, המסומן \ R^2, ומתפלג (לאחר תיקון) התפלגות F.

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]