רגרסיה ליניארית פשוטה

רגרסיה ליניארית פשוטה בסטטיסטיקה היא מודל רגרסיה ליניארית עם משתנה מסביר יחיד. ^[1]^[2]^[3]^[4]

בפשטות, נניח שנדגמו פריטים מתוך אוכלוסייה, ונמדדו לכל אחד מהפריטים שתי תכונות מספריות (אותן שתי תכונות בכל פעם). ניתן לשרטט את הנתונים על מערכת צירים קרטזית, כך שהגודל של אחת התכונות הוא שיעור x – המרחק מהציר האנכי – והגודל האחר הוא שיעור y – המרחק מהציר האופקי. עבור שרטוט כזה, רגרסיה ליניארית פשוטה מבקשת לתאר את אוסף הנקודות באמצעות קו מגמה ישר אחד, כך שהמרחק בין הנקודות לקו הוא הקטן ביותר האפשרי (במובן מסוים, שיוסבר בהמשך).

באופן יותר פורמלי, עבור מדגם דו-ממדי, $\{(x_{i},y_{i})\mid i=1,...,n\}$ – כך ש-x נקרא המשתנה המנבא, או המשתנה הבלתי תלוי, ו-y נקרא משתנה התוצאה, או המשתנה התלוי – ביצוע הרגרסיה מסתכם במציאת פונקציה ליניארית ( $y=a+bx$ ) שאמורה לנבא, בדיוק גבוה ככל הניתן, את ערכי המשתנה התלוי כפונקציה של המשתנה הבלתי תלוי. שם התואר "פשוטה" מתייחס לכך שמשתנה התוצאה מוסבר באמצעות משתנה מסביר יחיד.

שיטות רגרסיה שונות[עריכת קוד מקור | עריכה]

מקובל להשתמש בשיטת הריבועים הפחותים הרגילים (אנ') (OLS) המגדירה את גודל השגיאה בין קו התחזית (קו הרגרסיה) לבין כל אחת מנקודות המדגם לפי ריבוע השארית שלה (דהיינו, המרחק האנכי בין הנקודה לבין הקו המותאם), והמטרה היא לצמצם ככל הניתן את סכום השאריות בריבוע.

בין שיטות הרגרסיה האחרות שניתן להשתמש בהן, במקום שיטת הריבועים הפחותים, ניתן למנות את שיטת הסטיות המוחלטות הפחותות (אנ') (ממזערת את סכום הערכים המוחלטים של השאריות) ואת אומדן Theil-Sen (אנ') (הבוחר קו שהשיפוע שלו הוא החציון של השיפועים שנקבע על ידי זוגות של נקודות המדגם). גם רגרסיית דמינג (אנ') מוצאת קו שמתאים לקבוצה של מדגם דו-ממדי, אבל (בניגוד לשיטות הקודמות שהוצגו עד כה) היא איננה באמת רגרסיה ליניארית פשוטה, כי הוא לא מחלקת את המשתנים למשתנה תלוי ובלתי-תלויה, ויכול גם להתאים לנתונים קו אנכי.

שאר המאמר מתייחס לרגרסיה בשיטת הריבועים הפחותים הרגילים. בתרחיש זה, השיפוע של הקו המותאם שווה למכפלה של מתאם פירסון בין המשתנים עם היחס בין סטיות התקן שלהם. בנוסף, החותך של קו המגמה מתקבל כך שהקו יעבור דרך מרכז המסה של נקודות הנתונים.^[5]

התאמת קו הרגרסיה[עריכת קוד מקור | עריכה]

באופן פשטני, ניתן להניח קשר בין המשתנה הבלתי תלוי $x$ והמשתנה התלוי $y$ אשר נתון בנוסחה:

y=\alpha +\beta x

המתארת ישר עם שיפוע $\beta$ ו-חותך $\alpha$ . הבעיה במודל כזה היא שבאופן כללי, קשר כזה עשוי שלא להתקיים בדיוק עבור האוכלוסייה הכללית של המשתנים הבלתי תלויים והתלויים. הסטיות בין הערך שמתקבל מהנוסחה לבין הערך האמיתי נקראות "שגיאות" (אנ'). נניח שנצפו $n$ זוגות של נתונים, $\{(x_{i},y_{i})\mid i=1,...,n\}$ . ניתן לתאר את הקשר הבסיסי בין $x_{i}$ לבין $y_{i}$ הכולל את איבר השגיאה הזה, $\varepsilon _{i}$ , בנוסחה:

y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}

קשר זה בין הפרמטרים האמתיים (אך לא נצפים) $\alpha ,\beta$ לבין הנתונים נקרא מודל רגרסיה ליניארית.

המטרה היא למצוא שני אומדנים, ${\widehat {\alpha }}$ ו- ${\widehat {\beta }}$ , עבור הפרמטרים $\alpha$ ו- $\beta$ (בהתאמה), אשר יספקו התאמה לנקודות הנתונים, כך שההתאמה תהיה "מיטבית" במובן מסוים. כאמור לעיל, יש יותר מדרך אחת להגדיר את טיב ההתאמה, אבל לשם ההמשך תוגדר ההתאמה המיטבית בשיטת הריבועים הפחותים: על קו המגמה למזער את סכום השאריות בריבוע, ${\widehat {\varepsilon }}_{i}$ (ההפרשים בין הערכים הנצפים והערכים החזויים של המשתנה התלוי y), שכל אחד מהם נתון בנוסחה:

{\widehat {\varepsilon }}_{i}=y_{i}-\alpha -\beta x_{i}.

עבור $\alpha$ ו $\beta$ כלשהם.

במילים אחרות, ${\widehat {\alpha }}$ ו- ${\widehat {\beta }}$ פותרים את בעיית האופטימיזציה הבאה:

”מצאו את

\min _{\alpha ,\,\beta }f(\alpha ,\beta )

, בהינתן

f(\alpha ,\beta )=\sum _{i=1}^{n}{\widehat {\varepsilon }}_{i}^{\,2}=\sum _{i=1}^{n}(y_{i}-\alpha -\beta x_{i})^{2}

”

מציאת אומדנים ${\hat {\alpha }},{\hat {\beta }}$ [עריכת קוד מקור | עריכה]

תחילה נגדיר את הסימון ${\bar {x}}$ - הממוצע של המדגם $x$ , כלומר ${\bar {x}}={\frac {\sum _{i=1}^{n}{x_{i}}}{n}}$ .

על מנת למצוא את ${\hat {\alpha }}$ , נגזור את הפונקציה: ^[6]^[7]

${\begin{aligned}{\frac {\partial f}{\partial \alpha }}=\sum _{i=1}^{n}{-2(y_{i}-\alpha -\beta x_{i})}=0\\\sum _{i=1}^{n}{(y_{i}-\alpha -\beta x_{i})}=0\\\sum _{i=1}^{n}{y_{i}}-\sum _{i=1}^{n}{\alpha }-\sum _{i=1}^{n}{\beta x_{i}}=0\\\sum _{i=1}^{n}{y_{i}}-na-\sum _{i=1}^{n}{\beta x_{i}}=0\\\alpha ={\frac {\sum _{i=1}^{n}{y_{i}}-\beta \sum _{i=1}^{n}{x_{i}}}{n}}\\{\hat {\alpha }}={\bar {y}}-{\hat {\beta }}{\bar {x}}\end{aligned}}$

נראה כי ${\hat {\alpha }}$ תלוי ב ${\hat {\beta }}$ . נמצא כעת את ${\hat {\beta }}$ :

${\begin{aligned}{\frac {\partial f}{\partial \beta }}=\sum _{i=1}^{n}{-2x_{i}(y_{i}-\alpha -\beta x_{i})}=0\\\sum _{i=1}^{n}{x_{i}(y_{i}-\alpha -\beta x_{i})}=0\\\sum _{i=1}^{n}{(x_{i}y_{i}-\alpha x_{i}-\beta x_{i}^{2})}=0\\\sum _{i=1}^{n}{(x_{i}y_{i}-({\bar {y}}-\beta {\bar {x}})x_{i}-\beta x_{i}^{2})}=0\\\sum _{i=1}^{n}{(x_{i}y_{i}-{\bar {y}}x_{i}+\beta {\bar {x}}x_{i}-\beta x_{i}^{2})}=0\\\sum _{i=1}^{n}{(x_{i}y_{i}-{\bar {y}}x_{i})}+\sum _{i=1}^{n}{(\beta {\bar {x}}x_{i}-\beta x_{i}^{2})}=0\\\sum _{i=1}^{n}{(x_{i}y_{i}-{\bar {y}}x_{i})}-\beta \sum _{i=1}^{n}{(x_{i}^{2}-{\bar {x}}x_{i})}=0\\\beta ={\frac {\sum _{i=1}^{n}{(x_{i}y_{i}-{\bar {y}}x_{i})}}{\sum _{i=1}^{n}{(x_{i}^{2}-{\bar {x}}x_{i})}}}\\.\\.\\.\\{\hat {\beta }}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}$

כאשר בנקודות אנחנו עושים פישוט אלגברי לביטוי. לכן נקבל סה"כ:

{\textstyle {\begin{aligned}{\widehat {\alpha }}&={\bar {y}}-({\widehat {\beta }}\,{\bar {x}}),\\[5pt]{\widehat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\\[6pt]&={\frac {s_{x,y}}{s_{x}^{2}}}\\[5pt]&=r_{xy}{\frac {s_{y}}{s_{x}}}.\\[6pt]\end{aligned}}}

כאן הצגנו

על ידי החלפה של הביטויים לעיל עבור ${\widehat {\alpha }}$ ו ${\widehat {\beta }}$ ל

$f={\widehat {\alpha }}+{\widehat {\beta }}x,$ נקבל

{\frac {f-{\bar {y}}}{s_{y}}}=r_{xy}{\frac {x-{\bar {x}}}{s_{x}}}.

זה מראה ש- $r xy$ הוא השיפוע של קו הרגרסיה של נקודות הנתונים הסטנדרטיות (ושהקו הזה עובר דרך המקור).

נראה כי נקבל:

r_{xy}={\frac {{\overline {xy}}-{\bar {x}}{\bar {y}}}{\sqrt {\left({\overline {x^{2}}}-{\bar {x}}^{2}\right)\left({\overline {y^{2}}}-{\bar {y}}^{2}\right)}}}.

מקדם המתאם ("R בריבוע") שווה ל $r_{xy}^{2}$ כאשר המודל הוא ליניארי עם משתנה בלתי תלוי בודד. ראה מקדם מתאם לדוגמה לפרטים נוספים.

רגרסיה ליניארית פשוטה ללא חותך (רגרסור בודד)[עריכת קוד מקור | עריכה]

לפעמים ראוי להכריח את קו הרגרסיה לעבור דרך המוצא, כי מניחים ש - $x$ ו- $y$ הם פרופורציונליים. עבור המודל ללא החותך, $y=\beta x$ , אומדן OLS עבור $β$ מפושט ל-

{\widehat {\beta }}={\frac {\sum _{i=1}^{n}x_{i}y_{i}}{\sum _{i=1}^{n}x_{i}^{2}}}={\frac {\overline {xy}}{\overline {x^{2}}}}

שימוש בהתמרה $(x,y)\rightarrowtail (x-h,y-k)$ נותנת את הרגרסיה דרך $(h,k)$ :

{\begin{aligned}{\widehat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-h)(y_{i}-k)}{\sum _{i=1}^{n}(x_{i}-h)^{2}}}={\frac {\overline {(x-h)(y-k)}}{\overline {(x-h)^{2}}}}\\[6pt]&={\frac {{\overline {xy}}-k{\bar {x}}-h{\bar {y}}+hk}{{\overline {x^{2}}}-2h{\bar {x}}+h^{2}}}\\[6pt]&={\frac {{\overline {xy}}-{\bar {x}}{\bar {y}}+({\bar {x}}-h)({\bar {y}}-k)}{{\overline {x^{2}}}-{\bar {x}}^{2}+({\bar {x}}-h)^{2}}}\\[6pt]&={\frac {\operatorname {Cov} (x,y)+({\bar {x}}-h)({\bar {y}}-k)}{\operatorname {Var} (x)+({\bar {x}}-h)^{2}}},\end{aligned}}

כאשר $\operatorname {Cov} ,\operatorname {Var}$ הם השונות המשותפת והשונות (covariance and variance) של נתוני המדגם (ללא תיקון בסל).

הצורה האחרונה שלמעלה מדגימה כיצד הרחקת הקו ממרכז המסה של נקודות הנתונים משפיעה על השיפוע.

מאפיינים מבוססי מודל[עריכת קוד מקור | עריכה]

תיאור המאפיינים הסטטיסטיים של אומדנים מאומדני הרגרסיה הליניארית הפשוטים מחייב שימוש במודל סטטיסטי. להלן מבוסס על הנחת תקפותו של מודל לפיו האומדנים אופטימליים. אפשר גם להעריך את המאפיינים תחת הנחות אחרות, כגון חוסר הומוגניות, אבל זה נדון במקום אחר.

היעדר הטיה[עריכת קוד מקור | עריכה]

האומדים ${\widehat {\alpha }}$ ו- ${\widehat {\beta }}$ הם בלתי-מוטים (unbiased).

כדי לבסס קביעה זו יש להגדיר מסגרת שבה האומדנים הללו הם משתנים אקראיים. אנו מחשיבים את השאריות $\varepsilon _{i}$ כמשתנים אקראיים הנדגמים באופן בלתי תלוי מהתפלגות כלשהי עם תוחלת 0. במילים אחרות, עבור כל ערך של $x$ , הערך המתאים של $y$ נוצר כתגובה ממוצעת $\alpha +\beta x$ בתוספת משתנה אקראי נוסף $\varepsilon$ הנקרא "איבר השגיאה", השווה לאפס בממוצע. לפי פרשנות כזו, האומדנים הקטנים ביותר בריבועים ${\widehat {\alpha }}$ ו ${\widehat {\beta }}$ יהיו עצמם משתנים אקראיים שהאמצעים שלהם ישתווה ל"ערכים האמתיים" $\alpha ,\beta$ . זוהי ההגדרה של אומדן חסר הטיה.

רווחי סמך[עריכת קוד מקור | עריכה]

הנוסחאות שניתנו בסעיף הקודם מאפשרות לחשב את האומדים הנקודתיים של $α$ ו- $β$ - כלומר, המקדמים של קו הרגרסיה עבור קבוצת הנתונים הנתונה. עם זאת, הנוסחאות הללו אינן אומרות לנו עד כמה ההערכות מדויקות, כלומר, כמה האומדנים ${\widehat {\alpha }}$ ו ${\widehat {\beta }}$ להשתנות ממדגם למדגם עבור גודל המדגם שצוין. רווחי סמך נוצרו כדי לתת קבוצה סבירה של ערכים לאומדנים שיכולים להיות אם יחזור על הניסוי מספר רב מאוד של פעמים.

השיטה הסטנדרטית לבניית רווחי סמך עבור מקדמי רגרסיה ליניארית מסתמכת על הנחת הנורמליות, המוצדקת אם אחת מהן:

השגיאות ברגרסיה מתפלגות נורמלית (מה שנקרא "הנחת רגרסיה קלאסית"), או
מספר התצפיות $n$ גדול מספיק, ובמקרה זה האומד (estimator) מתפלג נורמלית בערך.

המקרה האחרון מוצדק על ידי משפט הגבול המרכזי.

הנחת נורמליות[עריכת קוד מקור | עריכה]

על פי ההנחה הראשונה לעיל, זו של נורמליות איברי השגיאה, האומדן של מקדם השיפוע יתחלק באופן נורמלי עם ממוצע $β$ ושונות $\sigma ^{2}\left/\sum (x_{i}-{\bar {x}})^{2}\right.,$ כאשר $σ 2$ היא השונות של איברי השגיאה (ראה הוכחות הכוללות ריבועים קטנים רגילים ). באותו זמן סכום השיירים בריבוע $Q$ מתחלק באופן יחסי ל - $χ 2$ עם $n - 2$ דרגות חופש, ובאופן בלתי תלוי מ ${\widehat {\beta }}$ . זה מאפשר לנו לבנות ערך $t$

t={\frac {{\widehat {\beta }}-\beta }{s_{\widehat {\beta }}}}\ \sim \ t_{n-2},

כאשר

s_{\widehat {\beta }}={\sqrt {\frac {{\frac {1}{n-2}}\sum _{i=1}^{n}{\widehat {\varepsilon }}_{i}^{\,2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}

היא "שגיאת התקן" של האומד ${\widehat {\beta }}$ .

לערך $t$ זה יש התפלגות t t של סטודנט עם $n - 2$ דרגות חופש. באמצעותו נוכל לבנות רווח סמך עבור $β$ :

\beta \in \left[{\widehat {\beta }}-s_{\widehat {\beta }}t_{n-2}^{*},\ {\widehat {\beta }}+s_{\widehat {\beta }}t_{n-2}^{*}\right],

ברמת ביטחון $(1 - γ)$ , שבו $t_{n-2}^{*}$ הוא ה $\scriptstyle \left(1\;-\;{\frac {\gamma }{2}}\right){\text{-th}}$ quantile של התפלגות $t n -2$ . לדוגמה, אם $γ = 0.05$ אז רמת הביטחון היא 95%.

באופן דומה, רווח הסמך עבור מקדם החותך $α$ ניתן על ידי

\alpha \in \left[{\widehat {\alpha }}-s_{\widehat {\alpha }}t_{n-2}^{*},\ {\widehat {\alpha }}+s_{\widehat {\alpha }}t_{n-2}^{*}\right],

ברמת ביטחון (1 − γ ), שבו

s_{\widehat {\alpha }}=s_{\widehat {\beta }}{\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}}}={\sqrt {{\frac {1}{n(n-2)}}\left(\sum _{i=1}^{n}{\widehat {\varepsilon }}_{i}^{\,2}\right){\frac {\sum _{i=1}^{n}x_{i}^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}}

רווחי הסמך עבור $α$ ו- $β$ נותנים לנו את הרעיון הכללי היכן יש סבירות גבוהה ביותר להיות מקדמי רגרסיה אלו. לדוגמה, ברגרסיית חוק האוקון המוצגת כאן, ההערכות הנקודתיות הן

{\widehat {\alpha }}=0.859,\qquad {\widehat {\beta }}=-1.817.

רווחי הסמך של 95% לאומדנים אלה הם

\alpha \in \left[\,0.76,0.96\right],\qquad \beta \in \left[-2.06,-1.58\,\right].

על מנת לייצג מידע זה בצורה גרפית, בצורת פסי הביטחון סביב קו הרגרסיה, יש להתקדם בזהירות ולהתחשב בהתפלגות המשותפת של האומדנים. ניתן להראות ^[8] שברמת ביטחון (1-γ ) לרצועת הביטחון יש צורה היפרבולית הניתנת על ידי המשוואה

(\alpha +\beta \xi )\in \left[\,{\widehat {\alpha }}+{\widehat {\beta }}\xi \pm t_{n-2}^{*}{\sqrt {\left({\frac {1}{n-2}}\sum {\widehat {\varepsilon }}_{i}^{\,2}\right)\cdot \left({\frac {1}{n}}+{\frac {(\xi -{\bar {x}})^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}\right)}}\,\right].

כאשר המודל הניח ש $\alpha =0$ , השגיאה הסטנדרטית של המדרון הופכת ל:

s_{\widehat {\beta }}={\sqrt {{\frac {1}{n-1}}{\frac {\sum _{i=1}^{n}{\widehat {\varepsilon }}_{i}^{\,2}}{\sum _{i=1}^{n}x_{i}^{2}}}}}

עם: ${\hat {\varepsilon }}_{i}=y_{i}-{\hat {y}}_{i}$

הנחה אסימפטוטית[עריכת קוד מקור | עריכה]

ההנחה השנייה החלופית קובעת שכאשר מספר הנקודות במערך הנתונים "גדול מספיק", חוק המספרים הגדולים ומשפט הגבול המרכזי הופכים לישימים, ואז ההתפלגות של האומדנים היא נורמלית בקירוב. בהנחה זו כל הנוסחאות שנגזרו מהסעיף הקודם נשארות תקפות, למעט החריג היחיד שהquantile t* _{n −2} של התפלגות t-student מוחלף ב*quantile q של ההתפלגות הנורמלית הסטנדרטית.

דוגמה מספרית[עריכת קוד מקור | עריכה]

במערך הנתונים להלן מופיע משקלן הממוצע של נשים כפונקציה של גובהן, במדגם של נשים אמריקאיות בגילאי 30–39. על אף שהמאמר של OLS טוען שיהיה נכון יותר להפעיל רגרסיה ריבועית עבור נתונים אלה, מודל הרגרסיה הליניארי הפשוט מיושם כאן במקום זאת.

גובה (מ'), x_i	1.47	1.50	1.52	1.55	1.57	1.60	1.63	1.65	1.68	1.70	1.73	1.75	1.78	1.80	1.83
מסה (ק"ג), y_i	52.21	53.12	54.48	55.84	57.20	58.57	59.93	61.29	63.11	64.47	66.28	68.10	69.92	72.19	74.46

$i$	$x_{i}$	$y_{i}$	$x_{i}^{2}$	$x_{i}y_{i}$	$y_{i}^{2}$
1	1.47	52.21	2.1609	76.7487	2725.8841
2	1.50	53.12	2.2500	79.6800	2821.7344
3	1.52	54.48	2.3104	82.8096	2968.0704
4	1.55	55.84	2.4025	86.5520	3118.1056
5	1.57	57.20	2.4649	89.8040	3271.8400
6	1.60	58.57	2.5600	93.7120	3430.4449
7	1.63	59.93	2.6569	97.6859	3591.6049
8	1.65	61.29	2.7225	101.1285	3756.4641
9	1.68	63.11	2.8224	106.0248	3982.8721
10	1.70	64.47	2.8900	109.5990	4156.3809
11	1.73	66.28	2.9929	114.6644	4393.0384
12	1.75	68.10	3.0625	119.1750	4637.6100
13	1.78	69.92	3.1684	124.4576	4888.8064
14	1.80	72.19	3.2400	129.9420	5211.3961
15	1.83	74.46	3.3489	136.2618	5544.2916
$\Sigma$	24.76	931.17	41.0532	1548.2453	58498.5439

ישנן n = 15 נקודות במערך הנתונים הזה. חישובי ידיים יתחילו על ידי מציאת חמשת הסכומים הבאים:

{\begin{aligned}S_{x}&=\sum x_{i}\,=24.76,\qquad S_{y}=\sum y_{i}\,=931.17,\\[5pt]S_{xx}&=\sum x_{i}^{2}=41.0532,\;\;\,S_{yy}=\sum y_{i}^{2}=58498.5439,\\[5pt]S_{xy}&=\sum x_{i}y_{i}=1548.2453\end{aligned}}

כמויות אלה ישמשו לחישוב האומדנים של מקדמי הרגרסיה, ושגיאות התקן שלהם.

{\begin{aligned}{\widehat {\beta }}&={\frac {nS_{xy}-S_{x}S_{y}}{nS_{xx}-S_{x}^{2}}}=61.272\\[8pt]{\widehat {\alpha }}&={\frac {1}{n}}S_{y}-{\widehat {\beta }}{\frac {1}{n}}S_{x}=-39.062\\[8pt]s_{\varepsilon }^{2}&={\frac {1}{n(n-2)}}\left[nS_{yy}-S_{y}^{2}-{\widehat {\beta }}^{2}(nS_{xx}-S_{x}^{2})\right]=0.5762\\[8pt]s_{\widehat {\beta }}^{2}&={\frac {ns_{\varepsilon }^{2}}{nS_{xx}-S_{x}^{2}}}=3.1539\\[8pt]s_{\widehat {\alpha }}^{2}&=s_{\widehat {\beta }}^{2}{\frac {1}{n}}S_{xx}=8.63185\end{aligned}}

השברון 0.975 של התפלגות t-student עם 13 דרגות חופש הוא $t_{1}^{*}3=t_{13,0.975}=2.1604$ , ולפיכך רווחי הסמך של 95% עבור $α$ ו- $β$ הם

{\begin{aligned}&\alpha \in [\,{\widehat {\alpha }}\mp t_{13}^{*}s_{\alpha }\,]=[\,{-45.4},\ {-32.7}\,]\\[5pt]&\beta \in [\,{\widehat {\beta }}\mp t_{13}^{*}s_{\beta }\,]=[\,57.4,\ 65.1\,]\end{aligned}}

ניתן גם לחשב את מקדם המתאם של מכפלת המומנטים:

{\widehat {r}}={\frac {nS_{xy}-S_{x}S_{y}}{\sqrt {(nS_{xx}-S_{x}^{2})(nS_{yy}-S_{y}^{2})}}}=0.9946

דוגמה זו גם מדגימה שחישובים מתוחכמים לא יתגברו על השימוש בנתונים שהוכנו בצורה גרועה. הגבהים ניתנו במקור באינצ'ים, והוסבו לסנטימטר הקרוב ביותר. מכיוון שההמרה הציגה שגיאת עיגול, זו אינה המרה מדויקת. ניתן לשחזר את האינצ'ים המקוריים על ידי Round(x/0.0254) ולאחר מכן להמיר מחדש לשיטה מטרית ללא עיגול: אם זה נעשה, התוצאות הופכות

{\widehat {\beta }}=61.6746,\qquad {\widehat {\alpha }}=-39.7468.

לפיכך לשונות קטנה לכאורה בנתונים יש השפעה ממשית.

ראו גם[עריכת קוד מקור | עריכה]

לקריאה נוספת[עריכת קוד מקור | עריכה]

Bangdiwala, S. I. (2018). Regression: simple linear. International journal of injury control and safety promotion, 25(1), 113-115.
Daniya, T., Geetha, M., Kumar, B. S., & Cristin, R. (2020). Least square estimation of parameters for linear regression. International Journal of Control and Automation, 13(2), 447-452.
Hanley, J. A. (2016). Simple and multiple linear regression: sample size considerations. Journal of clinical epidemiology, 79, 112-119.

קישורים חיצוניים[עריכת קוד מקור | עריכה]

מדיה וקבצים בנושא רגרסיה ליניארית פשוטה בוויקישיתוף

הערות שוליים[עריכת קוד מקור | עריכה]

^ Howard J. Seltman, Experimental Design and Analysis https://www.stat.cmu.edu/~hseltman/309/Book/Book.pdf, 2018
^ David M. Lane, Introduction to Statistics, https://onlinestatbook.com
^ Kelly H. Zou, Kemal Tuncali, Stuart G. Silverman, Correlation and Simple Linear Regression https://pubs.rsna.org/doi/10.1148/radiol.2273011499, Radiology Vol. 227, No. 3
^ Altman, Naomi; Krzywinski, Martin, Simple linear regression https://www.nature.com/articles/nmeth.3627, Nature Methods
^ נחי אברהם (על בסיס הרצאות מפי פרופ' אור צוק), רגרסיה ומודלים ליניאריים, 2015
^ Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285
^ Thomas J. Quirk, Meghan H. Quirk & Howard F. Horton, Correlation and Simple Linear Regression, Excel 2019 for Environmental Sciences Statistics https://link-springer-com.rproxy.tau.ac.il/chapter/10.1007/978-3-030-66277-6_6: pp 113-155, 10 April 2021
^ Casella, G. and Berger, R. L. (2002), "Statistical Inference" (2nd Edition), Cengage, ISBN 978-0-534-24312-8, pp. 558–559.

[1] Howard J. Seltman, Experimental Design and Analysis https://www.stat.cmu.edu/~hseltman/309/Book/Book.pdf, 2018

[2] David M. Lane, Introduction to Statistics, https://onlinestatbook.com

[3] Kelly H. Zou, Kemal Tuncali, Stuart G. Silverman, Correlation and Simple Linear Regression https://pubs.rsna.org/doi/10.1148/radiol.2273011499, Radiology Vol. 227, No. 3

[4] Altman, Naomi; Krzywinski, Martin, Simple linear regression https://www.nature.com/articles/nmeth.3627, Nature Methods

[5] נחי אברהם (על בסיס הרצאות מפי פרופ' אור צוק), רגרסיה ומודלים ליניאריים, 2015

[6] Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285

[7] Thomas J. Quirk, Meghan H. Quirk & Howard F. Horton, Correlation and Simple Linear Regression, Excel 2019 for Environmental Sciences Statistics https://link-springer-com.rproxy.tau.ac.il/chapter/10.1007/978-3-030-66277-6_6: pp 113-155, 10 April 2021

[8] Casella, G. and Berger, R. L. (2002), "Statistical Inference" (2nd Edition), Cengage, ISBN 978-0-534-24312-8, pp. 558–559.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

	יש לשכתב ערך זה. הסיבה היא: תרגמת חמורה.
	אתם מוזמנים לסייע ולתקן את הבעיות, אך אנא אל תורידו את ההודעה כל עוד לא תוקן הדף. ייתכן שתמצאו פירוט בדף השיחה.	שכתוב

יש לשכתב ערך זה. הסיבה היא: תרגמת חמורה.
אתם מוזמנים לסייע ולתקן את הבעיות, אך אנא אל תורידו את ההודעה כל עוד לא תוקן הדף. ייתכן שתמצאו פירוט בדף השיחה.