רגרסיה לינארית

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

רגרסיה לינארית היא שיטת אמידה סטטיסטית, לכימות הקשר בין ערכי משתנה תלוי, לערכי משתנים בלתי תלויים. המטרה של אמידה זו היא להסביר את השינוי בערכי המשתנה התלוי, באמצעות השינוי בערכי המשתנים הבלתי תלויים.

הגדרה[עריכת קוד מקור | עריכה]

תהי Y:=\{y_i\}^{n}_{i=1} סדרה בת n איברים של ערכי משתנה Y, ו \bigcup_{j=1}^k\{X_j\} משפחה של קבוצות שאיבריהן הסדרות: X_j:=\{x_{j_i}\}^{n}_{i=1} , \forall{j=1,2,...,n}. לכל אינדקס i נגדיר את הווקטור: (y_i,x_{1_i},x_{2_i},...,x_{k_i}).

תחת הנחת הלינאריות נאמר כי רכיבי הווקטור מקיימים את הקשר הלינארי הבא:

y_i=\beta_1x_{1_i}+\beta_2x_{2_i}+...+\beta_kx_{k_i}+\varepsilon_i, i=1,2,...,n

כאשר:

  • \varepsilon_i הוא משתנה מקרי שערכו הנקודתי נגזר מהפער בין הקשר הלינארי בין ערכי הסדרות X_j באינדקס ה-iי, ובין ערך הסדרה Y בנקודה זו. משתנה זה נקרא ההפרעה המקרית, או השונות המקרית של המודל ומבטא את השינוי בערכי Y, שאינם מוסברים על ידי שינוי בערכי \bold{X}_1,\dots,\bold{X}_k.
  • \beta_i הוא המקדם של x_{j_i} במשוואה.

המודל הלינארי המלא הינו מערכת של n משוואות ב-k נעלמים, המסומן:

\bold{y=X}\bold{\beta+\varepsilon}

כאשר:

  • \bold{y}\in F^n וקטור n-ממדי של ערכי הסדרה Y
  • X\in F^{n\times{k}} מטריצה מסדר n\times k המבטאת את ההרכבה הבאה:

\bold{X}=\begin{pmatrix} \bold{x_1^{T}} \\ \bold{x_2^{T}} \\.\\.\\.\\ \bold{x_k^{T}}\\ \end{pmatrix}=\begin{pmatrix} x_{11} & ... & x_{1k}\\ x_{21} & ... & x_{2k}\\ \vdots & \ddots & \vdots\\ x_{n1} & ... & x_{nk}\\ \end{pmatrix}

  • \bold{\beta,\varepsilon}\in F^n וקטורים n-ממדיים.

משוואת המודל הלינארי[עריכת קוד מקור | עריכה]

בהינתן מערכת המשוואות הלינארית: \bold{y=X}\bold{\beta+\varepsilon}, וקטור פתרונות המערכת, \bold \beta
, נגדיר העתקה: P:\mathbb{F}^k\rightarrow \mathbb{F} באופן הבא:

P(\bold{x})=a+\bold{\beta}\cdot\bold{x}.

ברדוקציה על הגדרה זו, אנו למעשה מייצרים פולינום k- משתני ממעלה 1, שמקדמיו הם פתרונות המערכת, בתוספת גורם קבוע:

P(x_1,...,x_n)=a+\beta_1x_1+\cdots+\beta_kx_k

פולינום זה מאפשר לנו לקבל אומדן לכל ערך של משתנה y בטווח הדגימה, דהיינו: \underset{i\in[n]}{min\{y_i\}}\leq y\leq \underset{i\in [n]}{max\{y_i\}}, בהינתן כל k ערכים שנבחר למשתנים: x_1,\dots,x_k.

משוואת הניבוי של המודל הלינארי[עריכת קוד מקור | עריכה]

המודל המוצג לעיל הינו תאורטי בלבד, ומניח למעשה כי דגמנו מאוכלוסייה בת n פרטים, את כלל הפרטים. במציאות, דגימה של כלל האוכלוסייה לרב אינה אפשרית, ועל כן אנו בונים את משוואת הניבוי באמצעות אומדים למודל הלינארי של האוכלוסייה. במקרה זה, נחפש וקטור פתרונות \bold{b}, עבור המשוואה: \bold{y=X}\bold{b+\varepsilon}.

אומדים חסרי הטיה[עריכת קוד מקור | עריכה]

מכיוון שהווקטור \bold{b} מקיים את השוויון: \bold{y=X}\bold{b+\varepsilon} ולא את השוויון: \bold{y=X}\bold{b}, בכל מקרה בו \varepsilon_i\neq0 נקבל: P(x_{1_i},\dots,x_{k_i})=y\neq y_i ועל כן נשאף למצוא וקטור \bold{b} כך ש: argmin_\bold{b} P(|y_i-y|).

מכיוון שדגמנו n ערכים של המשתנה Y, נדרוש את הדרישה השקולה: argmin_{\bold{b}}\sum_{i=1}^N[y_i-P(x_{1_i},\dots,x_{k_i})]^2

וקטור שעומד בדרישה זו נקרא אומד ל- \bold{\beta} בשיטת הריבועים הפחותים, יקיים את התכונות הבאות:

  • אומד לינארי- וקטור זה הוא פתרון של מערכת משוואות לינארית
  • שונות נגזרת משונות האוכלוסייה- השונות של \bold{b} מקיימת: V(\bold{b})={{\sigma^2}\over{\sum{x_i^2}}}
  • הנחת נורמליות- אנו מניחים כי \bold{b} \thicksim N(\beta,{{\sigma^2}\over{\sum{x_i^2}}})
  • אומד חסר הטיה- עבור \beta, וקטור מקדמי המערכת הלינארית התאורטית של האוכלוסייה, תוחלת הווקטור \bold{b} תקיים: E(\bold{b})=\beta
  • הנחת השונות המינימלית- לכל אומד \bold{\widehat{b}} \neq \bold{b} מתקיים: V(\bold{\widehat{b}})>V(\bold{b})

שתי התכונות האחרונות ניתנות להרחבה במודל בו מניחים n \rightarrow \infty ושקולות, בהתאמה, לשתי התכונות הבאות:

  • אומד חסר הטיה באופן אסימפטוטי- יקיים: \lim_{n \to \infty} ({E(\bold{b}})-\beta)=0
  • עקיבות- אומד חסר הטיה באופן אסימפטוטי המקיים גם: \lim_{n\rightarrow \infty}V(\bold{b})=0

תכונות אלו יחדיו, מבטיחות כי הגדלת גודל המדגם עליו מבוססת משוואת האמידה, תקרב אותנו לפרמטרים האמיתיים של האוכלוסייה, דהיינו, אל \beta

ההנחות הקלאסיות[עריכת קוד מקור | עריכה]

קיומו של אומד חסר הטיה, אינו מובטח עבור כל סדרת תצפיות שנבחר, ועל כן עלינו לודא כי מתקיימות בנוסף ההנחות הבאות:

  • תוחלת 0 של ההפרעה המקרית- לכל \varepsilon_i, נדרוש שיתקיים: E(\varepsilon_i)=0
  • הומוסקדסטיות (הנחת השונות הקבועה)- לכל \varepsilon_i, נדרוש שיתקיים: V(\varepsilon_i)=\sigma^2, הווה אומר- עבור זוג וקטורים: (x_1,\dots,x_k)\neq (x'_1,\dots,x'_k), שונות ההפרעה המקרית קבועה, וזהה.
  • ההפרעה המקרית מתפלגת נורמלית- לכל \varepsilon_i מתקיים: \varepsilon_i\sim N(0,\sigma^2) הנחה זו נובעת ישירות משתי ההנחות הקודמות, אך בגלל חשיבותה הקדשנו לה סעיף נפרד.
  • חוסר מתאם סדרתי- אין תלות בין ההפרעות המקריות, דהיינו: \forall{i\neq j}, Cov(\varepsilon_i,\varepsilon_j)=0
  • \bold{X_j} אינו משתנה מקרי- מהנחה זו משתמע כי אין מתאם בין השונות המקרית למשתנה המסביר, כלומר: Cov(x_{j_i},\varepsilon_i)=0
  • איסור מולטיקולינאריות מושלמת- לכל משתנה מסביר \bold{X_j}, נניח כי: V(\bold{X_j})\neq 0.

אמידה במקרים בהם לא מתקיימות ההנחות הקלאסיות[עריכת קוד מקור | עריכה]

לא בכל מדגם שנאסוף יתקיימו כלל ההנחות שמנינו לעיל, לרב בעקבות תכונות של האוכלוסייה ממנה נלקחו התצפיות, או מגבלות באיסוף התצפיות עצמן. במקרים כאלו, לא ניתן להשתמש בשיטת הריבועים הפחותים לאמידת המודל, ונדרש להשתמש בשיטות אמידה אחרות, שמניבות אומדים חסרי הטיה, תחת הנחות מקלות יותר. במציאות, סדרות נתונים לרב לא יקיימו את כלל ההנחות הקלאסיות, ועל כן לאורך השנים התפתחו שיטות אמידה רבות, אשר קצרה היריעה מלאזכר. את השיטות השונות ניתן לחלק למספר קטגוריות, בהתאם להנחות שהן מתירות להפר:

  • אמידה של סדרות עתיות- שיטות המטפלות בסדרות בהן קיים מתאם סדרתי. השיטה הנפוצה, והפשוטה ביותר, לטפל בסדרות נתונים מסוג זה היא באמצעות החלקה מעריכית- התמרה של ערכי הסדרות בהן קיים מתאם סדרתי לערכי הלוגריתם הטבעי של הפרש התצפיות.
  • אמידה של סדרות בהן המשתנה המוסבר מקבל ערכים בדידים- במקרים אלו המשתנה המוסבר שלנו איכותני, ולא כמותי, ועל כן התפלגותו תהיה בינומית, ברנולי, או פואסונית. השיטה הנפוצה ביותר להתמודד עם משתנים מסוג זה היא שימוש ברגרסיה ממשפחת LOGIT, בה פתרונות המערכת הלינארית תמיד יקבלו ערכים המתיישבים עם ההסתברות לקבל את ערכי המשתנה המוסבר, בהתפלגויות בדידות.
  • אמידה בייזיאנית- נועדה להתמודד עם משתנים מסבירים מקריים. במקרים אלו, האומדים שנקבל לא ינבעו מוקטור פתרונות יחיד, אלא משפחה של התפלגויות פוסטריוריות, המחילות את אי-הודאות סביב קבלת ערכי המסבירים האפשריים.

דוגמאות[עריכת קוד מקור | עריכה]

רגרסיה לינארית עם משתנה מסביר יחיד[עריכת קוד מקור | עריכה]

המקרה הפשוט ביותר הוא זה שבו קיימים שני משתנים: משתנה מסביר, X, ומשתנה מוסבר, Y. לדוגמה, אפשר לנסות להסביר ולנבא באמצעות המודל את גובהו של עץ תפוחים (Y, במטרים), על פי משקלו של הזרע שממנו הוא צומח (X, בגרמים).

בבסיס השיטה עומדת ההנחה כי המודל המסביר את הקשר בין המשתנים הוא מודל לינארי, כלומר, שמשוואה מסוג \ Y = aX+b+error תתאר נכונה את הקשר. ליתר דיוק, מניחים שבמדגם הכולל n דגימות \ (X_1,Y_1),\dots,(X_n,Y_n), מתקיים הקשר \ Y_i = a X_i + b + \epsilon_i, כאשר a ו-b הם פרמטרים קבועים (שאינם ידועים), ואילו גורמי השגיאה \ \epsilon_1,\dots,\epsilon_n הם משתנים בלתי תלויים בעלי התפלגות נורמלית, שהתוחלת שלה 0, והשונות שלה, \ \sigma^2, קבועה (אין זה חשוב אם השונות ידועה, אם לאו).

המטרה הראשונה של הרגרסיה הלינארית היא לסייע באמידת Y, כאשר X ידוע. לדוגמה, אם ידוע שגובהם הממוצע של עצי תפוח הוא 6 מטרים, אז ההערכה הטובה ביותר שאפשר לתת לגובהו העתידי של עץ שטרם צמח, היא (מן הסתם) 6 מטרים. לעומת זאת, אם אכן קיים בין משקל הזרע לבין גובה העץ קשר לינארי, אפשר לנסות להעריך את מקדמי הקשר באמצעות מדגם גדול מספיק. אם שיטת הרגרסיה מנבאת את הקשר \ Y=2X+4, פירושו של דבר שהשתיל שנבט מזרע במשקל 1.5 גרם יצמח לגובה 7 מטרים - ההערכה משתפרת, באמצעות ניצול המידע הנוסף שבמשתנה המסביר X.

הקו \ y=\hat{a}x+\hat{b} תמיד עובר דרך נקודת הממוצעים

את ערכי הפרמטרים a ו-b אומדים, מתוך המדגם, באמצעות שיטת הריבועים הפחותים: מחפשים את המספרים \ \hat{a},\hat{b} שעבורם סכום הריבועים \ \sum_{i=1}^n (Y_i - (\hat{a}X_i+\hat{b}))^2 הוא הקטן ביותר. (מן ההנחה שהשגיאה מתפלגת נורמלית, נובע שמספרים אלה מהווים אומד נראות מקסימלית של a ו-b). לקו המתקבל מן האומדים יש תכונה שימושית - הוא תמיד עובר דרך נקודת הממוצעים \ (\bar{X},\bar{Y}), כלומר, \ \hat{a}\bar{X}+\hat{b}=\bar{Y}.

חישוב הפרמטרים היסודיים של המדגם (לרבות סטיות התקן של X ושל Y) מאפשר גם לבדוק השערות סטטיסטיות על a ו-b. לדוגמה, אפשר לבדוק את ההשערה \ a=0, שממנה נובע כי Y אינו תלוי (לינארית) ב-X. למרות שבכל מדגם מעשי יופיע קשר מסוים בין X ל-Y, התורה של בדיקת השערות מאפשרת לזהות מתי קשר זה הוא מקרי בלבד, ומתי הוא מובהק ואינו מקרי.

רגרסיה מרובה[עריכת קוד מקור | עריכה]

במקרים רבים מבקשים להסביר משתנה יחיד, Y, באמצעות מספר משתנים מסבירים, \ X(1),\dots,X(m). לדוגמה, ייתכן שכדי להסביר את גובהו של עץ תפוח, יש להתחשב לא רק במשקל הזרע, אלא גם בכמות המשקעים השנתית במקום שבו הוא גדל, בגובהו של העץ שממנו הגיע הזרע, ובמליחות הקרקע. אם ההשפעה של משתנים אלה על Y היא לינארית, מודל הרגרסיה יוכל למצוא (כמקודם), את הפרמטרים המגדירים את הקשר הלינארי, ובכך יסייע לשפר את ההערכה של Y עוד יותר.

המודל הבסיסי של הרגרסיה הלינארית גמיש מספיק כדי לאפשר תלות בין המשתנים המסבירים, וניתן לכלול בו גם גורמים שאינם לינאריים (כמו במודל \ Y = aX(1)+bX(1)^2+cX(2)+dX(1)X(2)+error). אחד השימושים העיקריים של המודל הוא במדידת הרלוונטיות של משתנה מסביר, באמצעות השוואת המודל הכולל אותו, למודל המסביר את אותה תופעה בלעדיו. הוספת משתנים משפרת את יכולת ההערכה כמעט ללא יוצא מן הכלל, אבל במקרים רבים השיפור הוא אקראי, ואינו נובע מקשר אמיתי בין המשתנים. גורם עיקרי במענה על שאלות מסוג זה מהווה מקדם המתאם המרובה, המסומן \ R^2, ומתפלג (לאחר תיקון) התפלגות F.

שימושים של רגרסיה לינארית[עריכת קוד מקור | עריכה]

לרגרסיה לינארית שימוש נרחב במדעי החיים, מדעי החברה ומדעי ההתנהגות לתיאור קשרים אפשריים בין משתנים. היא נחשבת כאחד מהכלים החשובים שנעשה בהם שימוש בדיסציפלינות הללו.

קו מגמה

קו זה מייצג מגמה, תנועה לטווח ארוך לאורך נתונים על ציר הזמן לאחר התחשבות בגורמים אחרים. הוא אומר לנו האם אוסף נתונים מסוים (לדוגמה תמ"ג, מחירי נפט או מחירי מניה) עלה או ירד לאורך תקופת זמן מסוימת. ניתן לצייר קו מגמה בצורה פשוטה יחסית על ידי מבט בתצפיות, אך ליתר דיוק יש לחשב את מיקום הנקודה והשיפוע על ידי כלים סטטיסטיים כמו רגרסיה לינארית. בדרך כלל קווי מגמה הם קווים ישרים אולם יש וריאציות המשתמשות בפולינומים מדרגה גבוהה התלויים ברמת הקעירות הרצויה. לעתים משמשים קווי מגמה בניתוחים עסקיים כדי להראות שינויים במידע לאורך זמן. יש לכך יתרון של פשטות. קווי מגמה משמשים לרוב כדי לטעון שפעולה או אירוע (כמו אימון או מסע פרסום) גרמו לשינויים שניתנים להבחנה בנקודת זמן. זו טכניקה פשוטה שאינה דורשת קבוצת בקרה, תכנון ניסויי או אנליזה מתוחכמת. למרות זאת, הם סובלים מחוסר אמינות מדעית במקרה ששינויים אחרים יכולים להשפיע על הנתונים.


ערך ראשי: אפידמיולוגיה

ראיות מוקדמות המקשרות עישון טבק למוות ולתחלואה[דרוש מקור] הגיעו מניסויים שהופעלו בהם ניתוחים רגרסיביים. במטרה להקטין השפעה של קורלציות עם משתנים אחרים, חוקרים בדרך כלל כוללים מספר משתנים במודל הרגרסיה שלהם, בנוסף למשתנה העיקרי שנחקר. לדוגמה, נניח שיש מודל רגרסיה שבו שיעור העישון של סיגריות הוא משתנה המחקר הבלתי תלוי, והמשתנה התלוי הוא תוחלת חיים, הנמדדת בשנים. חוקרים עלולים לכלול מעמד סוציו-אקונומי כמשתנה בלתי תלוי נוסף, כדי להבטיח שכל שינוי בתוחלת החיים אינו מושפע מגורמים אחרים, כמו: החינוך או ההכנסה. למרות זאת, לעולם לא אפשרי לכלול את כל המשתנים המשתלבים בניתוח אמפירי. לדוגמה, גן כלשהו עלול להגדיל תמותה, ובנוסף לגרום לאנשים לעשן יותר. מסיבה זו, ניסויים מבוקרים אקראיים מסוגלים לרוב לספק ראיה משכנעת יותר של קשרי סיבתיות, שניתן להשיג על ידי שימוש באנליזה רגרסיבית של אוסף נתונים. כשניסויים מבוקרים לא אפשריים, ניתן להשתמש בדרכים שונות של אנליזה רגרסיבית, כגון רגרסיית משתני עזר, כדי לנסות להעריך קשרי סיבתיות מתוך אוסף נתונים.

פיננסים

מודל לתמחור נכסי הון (CAPM) משתמש ברגרסיה לינארית, כמו גם במושג בטא, לניתוח וכימות שיטתיים של הסיכון בהשקעה. הקשר נובע ישירות ממקדם בטא של מודל הרגרסיה הלינארית, שמקשר את תשואת ההשקעה לתשואה מכל הנכסים עם אופי סיכון גבוה.

כלכלה

ערך ראשי: אקונומטריקה

רגרסיה לינארית היא הכלי האמפירי המרכזי בכלכלה. לדוגמה, הוא משמש לחיזוי הוצאות צריכה, הוצאות השקעה קבועות, השקעה באגירת מלאי, רכישות של יצוא של מדינה, הוצאות על יבוא, הדרישה להחזיק בנכנסים נזילים, ביקוש והיצע לעבודה.

מדעי הסביבה

ברגרסיה לינארית נעשה שימוש במגוון רחב של יישומים במדעי הסביבה. בקנדה, "תוכנית הבקרה על ההשפעות הסביבתיות" משתמשת בניתוח סטטיסטי של מחקרים של דגים ושל קרקעית הים למדידת ההשפעות של שפכי עיסה טחונה או מתכות על המערכת הימית האקולוגית.

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]