רגרסיה לינארית

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

רגרסיה לינארית היא שיטה סטטיסטית, המשמשת לבדיקה וניצול של קשרים לינאריים בין שני משתנים או יותר. שיטה זו, על הגרסאות השונות שלה, נמצאת בשימוש נפוץ ביותר במחקרים כמותיים, בכל תחומי המדע.

משתנה מסביר יחיד[עריכת קוד מקור | עריכה]

המקרה הפשוט ביותר הוא זה שבו קיימים שני משתנים: משתנה מסביר, X, ומשתנה מוסבר, Y. לדוגמה, אפשר לנסות להסביר ולנבא באמצעות המודל את גובהו של עץ תפוחים (Y, במטרים), על-פי משקלו של הזרע ממנו הוא צומח (X, בגרמים).

בבסיס השיטה עומדת ההנחה כי המודל המסביר את הקשר בין המשתנים הוא מודל לינארי, כלומר, שמשוואה מסוג \ Y = aX+b+error תתאר נכונה את הקשר. ליתר דיוק, מניחים שבמדגם הכולל n דגימות \ (X_1,Y_1),\dots,(X_n,Y_n), מתקיים הקשר \ Y_i = a X_i + b + \epsilon_i, כאשר a ו- b הם פרמטרים קבועים (שאינם ידועים), ואילו גורמי השגיאה \ \epsilon_1,\dots,\epsilon_n הם משתנים בלתי תלויים בעלי התפלגות נורמלית, שהתוחלת שלה 0, והשונות שלה, \ \sigma^2, קבועה (אין זה חשוב אם השונות ידועה, אם לאו).

המטרה הראשונה של הרגרסיה הלינארית היא לסייע באמידת Y, כאשר X ידוע. לדוגמה, אם ידוע שגובהם הממוצע של עצי תפוח הוא 6 מטרים, אז ההערכה הטובה ביותר שאפשר לתת לגובהו העתידי של עץ שטרם צמח, היא (מן הסתם) 6 מטרים. לעומת זאת, אם אכן קיים בין משקל הזרע לבין גובה העץ קשר לינארי, אפשר לנסות להעריך את מקדמי הקשר באמצעות מדגם גדול מספיק. אם שיטת הרגרסיה מנבאת את הקשר \ Y=2X+4, פירושו של דבר שהשתיל שנבט מזרע במשקל 1.5 גרם יצמח לגובה 7 מטרים - ההערכה משתפרת, באמצעות ניצול המידע הנוסף שבמשתנה המסביר X.

הקו \ y=\hat{a}x+\hat{b} תמיד עובר דרך נקודת הממוצעים

את ערכי הפרמטרים a ו- b אומדים, מתוך המדגם, באמצעות שיטת הריבועים הפחותים: מחפשים את המספרים \ \hat{a},\hat{b} שעבורם סכום הריבועים \ \sum_{i=1}^n (Y_i - (\hat{a}X_i+\hat{b}))^2 הוא הקטן ביותר. (מן ההנחה שהשגיאה מתפלגת נורמלית, נובע שמספרים אלה מהווים אומד נראות מקסימלית של a ו- b). לקו המתקבל מן האומדים יש תכונה שימושית - הוא תמיד עובר דרך נקודת הממוצעים \ (\bar{X},\bar{Y}), כלומר, \ \hat{a}\bar{X}+\hat{b}=\bar{Y}.

חישוב הפרמטרים היסודיים של המדגם (לרבות סטיות התקן של X ושל Y) מאפשר גם לבדוק השערות סטטיסטיות על a ו- b. לדוגמה, אפשר לבדוק את ההשערה \ a=0, שממנה נובע כי Y אינו תלוי (לינארית) ב- X. למרות שבכל מדגם מעשי יופיע קשר מסוים בין X ל- Y, התורה של בדיקת השערות מאפשרת לזהות מתי קשר זה הוא מקרי בלבד, ומתי הוא מובהק ואינו מקרי.

רגרסיה מרובה[עריכת קוד מקור | עריכה]

במקרים רבים מבקשים להסביר משתנה יחיד, Y, באמצעות מספר משתנים מסבירים, \ X(1),\dots,X(m). לדוגמה, ייתכן שכדי להסביר את גובהו של עץ תפוח, יש להתחשב לא רק במשקל הזרע, אלא גם בכמות המשקעים השנתית במקום בו הוא גדל, בגובהו של העץ ממנו הגיע הזרע, ובמליחות הקרקע. אם ההשפעה של משתנים אלה על Y היא לינארית, מודל הרגרסיה יוכל למצוא (כמקודם), את הפרמטרים המגדירים את הקשר הלינארי, ובכך יסייע לשפר את ההערכה של Y עוד יותר.

המודל הבסיסי של הרגרסיה הלינארית גמיש מספיק כדי לאפשר תלות בין המשתנים המסבירים, וניתן לכלול בו גם גורמים שאינם לינארים (כמו במודל \ Y = aX(1)+bX(1)^2+cX(2)+dX(1)X(2)+error). אחד השימושים העיקריים של המודל הוא במדידת הרלוונטיות של משתנה מסביר, באמצעות השוואת המודל הכולל אותו, למודל המסביר את אותה תופעה בלעדיו. הוספת משתנים משפרת את יכולת ההערכה כמעט ללא יוצא מן הכלל, אבל במקרים רבים השיפור הוא אקראי, ואינו נובע מקשר אמיתי בין המשתנים. גורם עיקרי במענה על שאלות מסוג זה מהווה מקדם המתאם המרובה, המסומן \ R^2, ומתפלג (לאחר תיקון) התפלגות F.

שימושים של רגרסיה ליניארית[עריכת קוד מקור | עריכה]

לרגרסיה ליניארית שימוש נרחב במדעי החיים,חברה והתנהגות לתיאור קשרים אפשריים בין משתנים. היא נחשבת כאחד מהכלים החשובים שנעשה בהם שימוש בדיסציפלינות הללו.

קו מגמה

קו זה מייצג מגמה, תנועה לטווח ארוך לאורך נתונים על ציר הזמן לאחר התחשבות בגורמים אחרים. הוא אומר לנו האם אוסף נתונים מסויים (לדוגמא תמ"ג, מחירי נפט או מחירי מניה) עלה או ירד לאורך תקופת זמן מסויימת. ניתן לצייר קו מגמה בצורה פשוטה יחסית על ידי מבט בתצפיות, אך ליתר דיוק יש לחשב את מיקום הנק' והשיפוע על ידי כלים סטטיסטיים כמו רגרסיה ליניארית. בדרך כלל קווי מגמה הם קווים ישרים אולם יש ווריאציות המשתמשות בפולינומים מדרגה גבוהה התלויים ברמת הקעירות הרצויה. לעיתים משמשים קווי מגמה בניתוחים עסקיים כדי להראות שינויים במידע לאורך זמן. יש לכך יתרון של פשטות. קווי מגמה משמשים לרוב כדי לטעון שפעולה או אירוע (כמו אימון או מסע פרסום) גרמו לשינויים שניתנים להבחנה בנק' זמן. זו טכניקה פשוטה שאינה דורשת קבוצת בקרה, תכנון ניסויי או אנליזה מתוחכמת. למרות זאת, הם סובלים מחוסר אמינות מדעית במקרה ששינויים אחרים יכולים להשפיע על הנתונים.


ערך ראשי: אפידמיולוגיה

ראיות מוקדמות המקשרות עישון טבק (קישור) למוות ותחלואה הגיעו מניסויים שהופעלו בהם ניתוחים רגרסיביים. במטרה להנמיך קורלציות מקריות בניתוח נתונים מדגמיים, חוקרים בדרך כלל כוללים מספר משתנים במודל הרגרסיה שלהם בנוסף למשתנה העיקרי שנחקר. לדוגמא, נניח שיש לנו מודל רגרסיה שבו עישון סיגריות הוא משתנה המחקר המבוקש הבלתי תלוי, והמשתנה התלוי הוא תוחלת חיים הנמדד בשנים. חוקרים עלולים לכלול מעמד סוציו-אקונומי כמשתנה בלתי תלוי נוסף, כדי להבטיח שכל השפעה שהובחנה של עישון על תוחלת החיים אינו עקב השפעה על החינוך או ההכנסה. למרות זאת, לעולם לא אפשרי לכלול את כל המשתנים המשתלבים בניתוח אמפירי. לדוגמא, גן היפותטי עלול להגדיל תמותה ובנוסף לגרום לאנשים לעשן יותר. מסיבה זו, ניסויים מבוקרים ארעיים מסוגלים לרוב לייצר ראיה משכנעת יותר של קשרי סיבתיות שניתן להשיג על ידי שימוש באנליזה רגרסיבית של אוסף נתונים. כשניסויים מבוקרים לא אפשריים, דרכים שונות של אנליזה רגרסיבית כגון רגרסיית משתני עזר, יכולים לשמש לניסיון להעריך קשרי סיבתיות מתוך אוסף נתונים.

פיננסים

מודל לתמחור נכסי הון (CAPM) משתמש ברגרסיה ליניארית כמו גם ברעיון של בטא לניתוח וכימות הסיכון השיטתי של השקעה. זה נובע ישירות ממקדם בטא של מודל הרגרסיה הליניארית שמקשר את תשואת ההשקעה לתשואה מכל הנכסים עם אופי סיכון גבוה.

כלכלה

ערך ראשי: אקונומטריקה

רגרסיה ליניארית הכלי האמפירי המרכזי בכלכלה. לדוגמא, הוא משמש לחיזוי הוצאות צריכה, הוצאות השקעה קבועות, השקעה באגירת מלאי, רכישות של יצוא של מדינה, הוצאות על יבוא, הדרישה להחזיק בנכנסים נזילים, ביקוש והיצע לעבודה.

מדעי הסביבה

ברגרסיה ליניארית נעשה שימוש במגוון רחב של יישומי מדעי הסביבה. בקנדה, "תוכנית הבקרה על ההשפעות הסביבתיות " משתמשת בניתוח סטטיסטי של מחקרים של דגים וקרקעית הים למדידת ההשפעות של שפכי עיסה טחונה או מתכות על המערכת הימית האקולוגית.

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]