רגרסיה ליניארית פשוטה

מתוך ויקיפדיה, האנציקלופדיה החופשית
חוק אוקון במקרו-כלכלה הוא דוגמה לרגרסיה ליניארית פשוטה. בדוגמה זו ההנחה היא שהמשתנה התלוי (גדילת התמ"ג) נמצא בקשר ליניארי עם השינויים בשיעור האבטלה.

רגרסיה ליניארית פשוטה בסטטיסטיקה היא מודל רגרסיה ליניארית עם משתנה תלוי או בלתי תלוי יחיד. [1][2][3][4]

כלומר, עבור נקודות מדגם דו-ממדיות, , עם משתנה בלתי תלוי אחד ומשתנה תלוי אחד (כמקובל, קואורדינטות ו- במערכת קואורדינטות קרטזית, כאשר המשתנה הבלתי תלוי, ו- המשתנה התלוי), מוצאים פונקציה ליניארית (קו ישר לא אנכי) שבדיוק אפשרי ככל הניתן, מנבאת את ערכי המשתנה התלוי כפונקציה של המשתנה הבלתי תלוי. שם התואר "פשוטה" מתייחס לכך שמשתנה התוצאה קשור לפרדיקטור יחיד. לפעמים, המשתנה נקרא המשתנה המסביר, והמשתנה נקרא המשתנה המוסבר.

שימושים בשיטות רגרסיה נוספות[עריכת קוד מקור | עריכה]

מקובל לקבוע את הקביעה הנוספת כי יש להשתמש בשיטת הריבועים הפחותים הרגילים (אנ') (OLS) המסבירה שהדיוק של כל ערך חזוי נמדד לפי ריבוע השאריות שלו (מרחק אנכי בין נקודת מערך הנתונים לקו המותאם), כשהמטרה היא להפוך את סכום הסטיות בריבוע לקטן ככל הניתן. שיטות רגרסיה אחרות שניתן להשתמש בהן במקום ריבועים קטנים רגילים כוללות סטיות פחותות מוחלטות (אנ') (מזעור סכום הערכים המוחלטים של השאריות) ואת אומדן Theil-Sen (אנ') (הבוחר קו שהשיפוע שלו הוא החציון של השיפועים שנקבע על ידי זוגות של נקודות לדוגמה). רגרסיית דמינג (אנ') (סה"כ הריבועים הקטנים ביותר) מוצאת גם קו שמתאים לקבוצה של נקודות דגימה דו-ממדיות, אבל (בניגוד לריבועים הפחותים הרגילים, סטיות הכי פחותות מוחלטות ורגרסיית שיפוע חציוני) זה לא באמת מופע של רגרסיה ליניארית פשוטה, כי הוא לא מפריד את הקואורדינטות למשתנה אחד תלוי ואחד בלתי תלוי ויכול להחזיר קו אנכי כהתאמה שלו.

שאר המאמר מתייחס לרגרסיה רגילה של הריבועים הפחותים. בתרחיש זה, השיפוע של הקו המותאם שווה למתאם בין ל - אשר מתוקן על ידי היחס בין סטיות התקן של משתנים אלה. החותך של הקו המותאם הוא כזה שהקו עובר דרך מרכז המסה של נקודות הנתונים.[5]

התאמת קו הרגרסיה[עריכת קוד מקור | עריכה]

נניח תחילה כי קיים קשר ליניארי בין המשתנה הבלתי תלוי והמשתנה התלוי . לכן נוכל להגדיר את הקשר כפונקציה הבאה:

המתאר ישר עם שיפוע ו-חותך . באופן כללי קשר כזה עשוי שלא להתקיים בדיוק עבור האוכלוסייה הכללית של המשתנים הבלתי תלויים והתלויים; אנו מכנים את הסטיות שלא נצפו מהמשוואה לעיל, שגיאות (אנ'). נניח שאנו צופים ב זוגות נתונים ונקרא להם . אנו יכולים לתאר את הקשר הבסיסי בין ו- הכולל את מונח השגיאה הזה על ידי:

קשר זה בין הפרמטרים הבסיסיים האמתיים (אך לא נצפים) לבין נקודות הנתונים נקרא מודל רגרסיה ליניארית.

המטרה היא לאמוד את ו עבור הפרמטרים אשר יספקו את ההתאמה ה"מיטבית" במובן מסוים לנקודות הנתונים. כפי שהוזכר בהקדמה, במאמר זה ההתאמה ה"טובה ביותר" תהיה מובנת כמו בגישת הריבועים הפחותים: קו הממזער את סכום השאריות בריבוע (ראה גם שגיאות ושאריות ) (הבדלים בין ערכים בפועל וחזוי של המשתנה התלוי y ), שכל אחד מהם נתון על ידי

עבור ו כלשהם.

במילים אחרות, ו פותר את בעיית האופטימיזציה הבאה:

מציאת אומדנים [עריכת קוד מקור | עריכה]

תחילה נגדיר את הסימון - הממוצע של המדגם , כלומר .

על מנת למצוא את , נגזור את הפונקציה: [6][7]

נראה כי תלוי ב . נמצא כעת את :

כאשר בנקודות אנחנו עושים פישוט אלגברי לביטוי. לכן נקבל סה"כ:

כאן הצגנו

על ידי החלפה של הביטויים לעיל עבור ו ל

נקבל

זה מראה ש-rxy הוא השיפוע של קו הרגרסיה של נקודות הנתונים הסטנדרטיות (ושהקו הזה עובר דרך המקור).

נראה כי נקבל:

מקדם המתאם ("R בריבוע") שווה ל כאשר המודל הוא ליניארי עם משתנה בלתי תלוי בודד. ראה מקדם מתאם לדוגמה לפרטים נוספים.

רגרסיה ליניארית פשוטה ללא חותך (רגרסור בודד)[עריכת קוד מקור | עריכה]

לפעמים ראוי להכריח את קו הרגרסיה לעבור דרך המוצא, כי מניחים ש - ו- הם פרופורציונליים. עבור המודל ללא החותך, , אומדן OLS עבור β מפושט ל-

שימוש בהתמרה נותנת את הרגרסיה דרך :

כאשר מתייחסים לשונות המשותפת והשונות (covariance and variance) של נתוני המדגם (לא מתוקן עבור הטיה).

הצורה האחרונה שלמעלה מדגימה כיצד הרחקת הקו ממרכז המסה של נקודות הנתונים משפיעה על השיפוע.

מאפיינים מבוססי מודל[עריכת קוד מקור | עריכה]

תיאור המאפיינים הסטטיסטיים של אומדנים מאומדני הרגרסיה הליניארית הפשוטים מחייב שימוש במודל סטטיסטי. להלן מבוסס על הנחת תקפותו של מודל לפיו האומדנים אופטימליים. אפשר גם להעריך את המאפיינים תחת הנחות אחרות, כגון חוסר הומוגניות, אבל זה נדון במקום אחר.

אי הטיה[עריכת קוד מקור | עריכה]

האומדים ו הם אינם מוטים (unbiased)

כדי לבסס קביעה זו עלינו להגדיר מסגרת שבה האומדנים הללו הם משתנים אקראיים. אנו מחשיבים את השאריות כמשתנים אקראיים הנדגמים באופן בלתי תלוי מהתפלגות כלשהי עם תוחלת 0. במילים אחרות, עבור כל ערך של , הערך המתאים של נוצר כתגובה ממוצעת בתוספת משתנה אקראי נוסף הנקרא מונח השגיאה, השווה לאפס בממוצע. לפי פרשנות כזו, האומדנים הקטנים ביותר בריבועים ו יהיו עצמם משתנים אקראיים שהאמצעים שלהם ישתווה ל"ערכים האמתיים" . זוהי ההגדרה של אומדן חסר הטיה.

רווחי סמך[עריכת קוד מקור | עריכה]

הנוסחאות שניתנו בסעיף הקודם מאפשרות לחשב את אומדני הנקודות של α ו-β - כלומר, המקדמים של קו הרגרסיה עבור קבוצת הנתונים הנתונה. עם זאת, הנוסחאות הללו אינן אומרות לנו עד כמה ההערכות מדויקות, כלומר, כמה האומדנים ו להשתנות ממדגם למדגם עבור גודל המדגם שצוין. רווחי סמך נוצרו כדי לתת קבוצה סבירה של ערכים לאומדנים שיכולים להיות אם יחזור על הניסוי מספר רב מאוד של פעמים.

השיטה הסטנדרטית לבניית רווחי סמך עבור מקדמי רגרסיה ליניארית מסתמכת על הנחת הנורמליות, המוצדקת אם אחת מהן:

  1. השגיאות ברגרסיה מחולקות באופן נורמאלי (מה שנקרא הנחת רגרסיה קלאסית ), או
  2. מספר התצפיות n גדול מספיק, ובמקרה זה האומדן (the estimator) מתפלג נורמלית בערך.

המקרה האחרון מוצדק על ידי משפט הגבול המרכזי.

הנחת נורמליות[עריכת קוד מקור | עריכה]

על פי ההנחה הראשונה לעיל, זו של נורמליות איברי השגיאה, האומדן של מקדם השיפוע יתחלק באופן נורמלי עם ממוצע β ושונות כאשר σ2 היא השונות של איברי השגיאה (ראה הוכחות הכוללות ריבועים קטנים רגילים ). באותו זמן סכום השיירים בריבוע Q מתחלק באופן יחסי ל - χ2 עם n − 2 דרגות חופש, ובאופן בלתי תלוי מ . זה מאפשר לנו לבנות ערך t

כאשר

היא שגיאת התקן של האומדן .

לערך t זה יש התפלגות t t תלמיד עם n − 2 דרגות חופש. באמצעותו נוכל לבנות רווח סמך עבור β:

ברמת ביטחון (1 − γ), שבו הוא ה quantile של התפלגות tn−2. לדוגמה, אם γ = 0.05 אז רמת הביטחון היא 95%.

באופן דומה, רווח הסמך עבור מקדם החותך α ניתן על ידי

ברמת ביטחון (1 − γ ), שבו

רגרסיה של ארצות הברית בעקומה: "השינויים באבטלה - צמיחת התמ"ג" עם רווח סמך ברמת ביטחון של 95%.

רווחי הסמך עבור α ו-β נותנים לנו את הרעיון הכללי היכן יש סבירות גבוהה ביותר להיות מקדמי רגרסיה אלו. לדוגמה, ברגרסיית חוק האוקון המוצגת כאן, ההערכות הנקודתיות הן

רווחי הסמך של 95% לאומדנים אלה הם

על מנת לייצג מידע זה בצורה גרפית, בצורת פסי הביטחון סביב קו הרגרסיה, יש להתקדם בזהירות ולהתחשב בהתפלגות המשותפת של האומדנים. ניתן להראות [8] שברמת ביטחון (1-γ ) לרצועת הביטחון יש צורה היפרבולית הניתנת על ידי המשוואה

כאשר המודל הניח ש , השגיאה הסטנדרטית של המדרון הופכת ל:

עם:

הנחה אסימפטוטית[עריכת קוד מקור | עריכה]

ההנחה השנייה החלופית קובעת שכאשר מספר הנקודות במערך הנתונים "גדול מספיק", חוק המספרים הגדולים ומשפט הגבול המרכזי הופכים לישימים, ואז ההתפלגות של האומדנים היא נורמלית בקירוב. בהנחה זו כל הנוסחאות שנגזרו מהסעיף הקודם נשארות תקפות, למעט החריג היחיד שהquantile t* n −2 של התפלגות t-student מוחלף ב*quantile q של ההתפלגות הנורמלית הסטנדרטית.

דוגמה מספרית[עריכת קוד מקור | עריכה]

מערך נתונים זה נותן מסות ממוצעות לנשים כפונקציה של גובהן במדגם של נשים אמריקאיות בגילאי 30-39. למרות שהמאמר של OLS טוען שיהיה נכון יותר להפעיל רגרסיה ריבועית עבור נתונים אלה, מודל הרגרסיה הליניארי הפשוט מיושם כאן במקום זאת.

גובה (מ'), xi 1.47 1.50 1.52 1.55 1.57 1.60 1.63 1.65 1.68 1.70 1.73 1.75 1.78 1.80 1.83
מסה (ק"ג), yi 52.21 53.12 54.48 55.84 57.20 58.57 59.93 61.29 63.11 64.47 66.28 68.10 69.92 72.19 74.46
1 1.47 52.21 2.1609 76.7487 2725.8841
2 1.50 53.12 2.2500 79.6800 2821.7344
3 1.52 54.48 2.3104 82.8096 2968.0704
4 1.55 55.84 2.4025 86.5520 3118.1056
5 1.57 57.20 2.4649 89.8040 3271.8400
6 1.60 58.57 2.5600 93.7120 3430.4449
7 1.63 59.93 2.6569 97.6859 3591.6049
8 1.65 61.29 2.7225 101.1285 3756.4641
9 1.68 63.11 2.8224 106.0248 3982.8721
10 1.70 64.47 2.8900 109.5990 4156.3809
11 1.73 66.28 2.9929 114.6644 4393.0384
12 1.75 68.10 3.0625 119.1750 4637.6100
13 1.78 69.92 3.1684 124.4576 4888.8064
14 1.80 72.19 3.2400 129.9420 5211.3961
15 1.83 74.46 3.3489 136.2618 5544.2916
24.76 931.17 41.0532 1548.2453 58498.5439

ישנן n = 15 נקודות במערך הנתונים הזה. חישובי ידיים יתחילו על ידי מציאת חמשת הסכומים הבאים:

כמויות אלה ישמשו לחישוב האומדנים של מקדמי הרגרסיה, ושגיאות התקן שלהם.

גרף של נקודות וקווי ריבועים קטנים ליניאריים בדוגמה המספרית של רגרסיה ליניארית פשוטה

השברון 0.975 של התפלגות t-student עם 13 דרגות חופש הוא , ולפיכך רווחי הסמך של 95% עבור α ו-β הם

ניתן גם לחשב את מקדם המתאם של מוצר-רגע:

דוגמה זו גם מדגימה שחישובים מתוחכמים לא יתגברו על השימוש בנתונים שהוכנו בצורה גרועה. הגבהים ניתנו במקור באינצ'ים, והוסבו לסנטימטר הקרוב ביותר. מכיוון שההמרה הציגה שגיאת עיגול, זו אינה המרה מדויקת. ניתן לשחזר את האינצ'ים המקוריים על ידי Round(x/0.0254) ולאחר מכן להמיר מחדש לשיטה מטרית ללא עיגול: אם זה נעשה, התוצאות הופכות

לפיכך לשונות קטנה לכאורה בנתונים יש השפעה ממשית.

ראו גם[עריכת קוד מקור | עריכה]

לקריאה נוספת[עריכת קוד מקור | עריכה]

  • Bangdiwala, S. I. (2018). Regression: simple linear. International journal of injury control and safety promotion, 25(1), 113-115.
  • Daniya, T., Geetha, M., Kumar, B. S., & Cristin, R. (2020). Least square estimation of parameters for linear regression. International Journal of Control and Automation, 13(2), 447-452.
  • Hanley, J. A. (2016). Simple and multiple linear regression: sample size considerations. Journal of clinical epidemiology, 79, 112-119.

קישורים חיצוניים[עריכת קוד מקור | עריכה]

הסבר של Wolfram MathWorld's על הריבועים הפחותים וחישובם (אנגלית)[1]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Howard J. Seltman, Experimental Design and Analysis https://www.stat.cmu.edu/~hseltman/309/Book/Book.pdf, 2018
  2. ^ David M. Lane, Introduction to Statistics, https://onlinestatbook.com
  3. ^ Kelly H. Zou, Kemal Tuncali, Stuart G. Silverman, Correlation and Simple Linear Regression https://pubs.rsna.org/doi/10.1148/radiol.2273011499, Radiology Vol. 227, No. 3
  4. ^ Altman, Naomi; Krzywinski, Martin, Simple linear regression https://www.nature.com/articles/nmeth.3627, Nature Methods
  5. ^ פרופ' אור צוק, רגרסיה ומודלים ליניאריים http://math.huji.ac.il/~nachi/Files/Regresia.pdf, 2015
  6. ^ Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285
  7. ^ Thomas J. Quirk, Meghan H. Quirk & Howard F. Horton, Correlation and Simple Linear Regression, Excel 2019 for Environmental Sciences Statistics https://link-springer-com.rproxy.tau.ac.il/chapter/10.1007/978-3-030-66277-6_6: pp 113-155, 10 April 2021
  8. ^ Casella, G. and Berger, R. L. (2002), "Statistical Inference" (2nd Edition), Cengage, מסת"ב 978-0-534-24312-8, pp. 558–559.