שיטת הריבועים הפחותים

שיטת הריבועים הפחותים (מכונה גם "שיטת הריבועים המזעריים", "שיטת הריבועים המינימליים", "שיטת מינימום ריבועים") היא שיטת אמידה סטטיסטית, שבה אומדים גודל לא ידוע מתוך קבוצת תוצאות מדודות כלשהן. הראשון שתיאר את השיטה הוא קרל פרידריך גאוס, בתחילת המאה ה-19 בעת שניסה לאמוד את מקומו של כוכב הלכת הננסי קרס. אומדן זה מאפשר השוואה בין ההתאמה של מודלים סטטיסטיים שונים לבין המדידות שהללו מנסים להסביר, כל זמן שהמודלים השונים מציעים נוסחאות מתמטיות שונות מאותו סוג (כגון פולינומים בני אותה מעלה).

מטרת השיטה[עריכת קוד מקור | עריכה]

לעיתים רוצים למצוא קשר מתמטי בין שני משתנים שהתקבלו במדידות נסיוניות, אך הקשר בין שני המשתנים אינו נראה לעין באופן מיידי. הסיבה לכך היא שעבור כל ערך של משתנה אחד, נמדד במשתנה השני טווח שלם של ערכים, ולא ערך בודד ויחיד. הסיבות לכך רבות ומגוונות, למשל במדידת גודל פיזיקלי: ייתכן שהמשתנה הראשון עצמו אינו קבוע אלא משתנה בתחום מסוים, ייתכן שהוא אינו המשתנה היחיד המשפיע על המשתנה השני (למשל, אם המשתנה השני תלוי גם בטמפרטורה), ואף ייתכן שיש מגבלות בציוד המדידה. לכן, כדי לעמוד על טיב הקשר בין המשתנים באופן המדויק ביותר משתמשים בכלים סטטיסטיים. שיטת הריבועים הפחותים היא אחד הכלים הסטטיסטיים הללו.

מקרה חשוב שבו שיטת הריבועים הפחותים בשימוש נפוץ הוא מקרה ליניארי. כאשר נתונות m דוגמאות ולכל דוגמה משויכות n תכונות, אם קיים קשר ליניארי בין התכונות למשתנה, ניתן לייצגו כמערכת משוואות:

\sum _{j=1}^{n}X_{ij}\beta _{j}=Y_{i},\ (i=1,2,\dots ,m)

עם m משוואות, ומקדמים לא ידועים β₁,β₂,…,β_n, כאשר m > n, ובייצוג מטריציוני:

\mathbf {X} {\boldsymbol {\beta }}=\mathbf {Y}

כאשר

\mathbf {X} ={\begin{bmatrix}X_{11}&X_{12}&\cdots &X_{1n}\\X_{21}&X_{22}&\cdots &X_{2n}\\\vdots &\vdots &\ddots &\vdots \\X_{m1}&X_{m2}&\cdots &X_{mn}\end{bmatrix}},\qquad {\boldsymbol {\beta }}={\begin{bmatrix}\beta _{1}\\\beta _{2}\\\vdots \\\beta _{n}\end{bmatrix}},\qquad \mathbf {Y} ={\begin{bmatrix}Y_{1}\\Y_{2}\\\vdots \\Y_{m}\end{bmatrix}}

כיוון שלמערכת המשוואות אין בהכרח פתרון, המטרה היא למצוא את הערכים של β שנותנים את התוצאה ה"קרובה" במובן של מינימיזציה ריבועית:

{\hat {\boldsymbol {\beta }}}={\underset {\boldsymbol {\beta }}{\operatorname {arg\,min} }}\,S({\boldsymbol {\beta }})

והפונקציה שאותה ממזערים S היא:

S({\boldsymbol {\beta }})=\sum _{i=1}^{m}{\bigl |}Y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}{\bigr |}^{2}={\bigl \|}\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}{\bigr \|}^{2}

כאשר n העמודות של המטריצה X אינן תלויות ליניארית, משפט גאוס-מרקוב קובע כי קיים לבעיית מזעור זו פתרון יחיד. ניתן לראות זאת באמצעות חישוב הנגזרות החלקיות והשוואתן ל-0:

L(X,Y;{\boldsymbol {\beta }})=\left\|X{\boldsymbol {\beta }}-Y\right\|^{2}=(X{\boldsymbol {\beta }}-Y)^{\mathsf {T}}(X{\boldsymbol {\beta }}-Y)=Y^{\mathsf {T}}Y-Y^{\mathsf {T}}X{\boldsymbol {\beta }}-{\boldsymbol {\beta }}^{\mathsf {T}}X^{\mathsf {T}}Y+{\boldsymbol {\beta }}^{\mathsf {T}}X^{\mathsf {T}}X{\boldsymbol {\beta }}

{\frac {\partial L(X,Y;{\boldsymbol {\beta }})}{\partial {\boldsymbol {\beta }}}}={\frac {\partial \left(Y^{\mathsf {T}}Y-Y^{\mathsf {T}}X{\boldsymbol {\beta }}-{\boldsymbol {\beta }}^{\mathsf {T}}X^{\mathsf {T}}Y+{\boldsymbol {\beta }}^{\mathsf {T}}X^{\mathsf {T}}X{\boldsymbol {\beta }}\right)}{\partial {\boldsymbol {\beta }}}}=-2X^{\mathsf {T}}Y+2X^{\mathsf {T}}X{\boldsymbol {\beta }}

-2X^{\mathsf {T}}Y+2X^{\mathsf {T}}X{\boldsymbol {\beta }}=0\Rightarrow X^{\mathsf {T}}Y=X^{\mathsf {T}}X{\boldsymbol {\beta }}

{\boldsymbol {\hat {\beta }}}=(X^{T}X)^{-1}X^{T}{\boldsymbol {Y}}

דוגמאות[עריכת קוד מקור | עריכה]

דוגמה א'[עריכת קוד מקור | עריכה]

כאשר מניחים שיש קשר בין משתנה מסוים (X) לבין משתנה אחר (Y), אולם מעריכים שבנוסף ל-X גם משתנים אחרים משפיעים על Y ושלא כל המשתנים האלה ידועים. מציאת מודל סטטיסטי מאפשר הערכה מראש מיטבית של ערכו של Y, על פי ערכו של X. דוגמה למשתנים כאלה היא X = גילו של ילד בשנים ו-Y= גובהו בסנטימטרים. המודל הסטטיסטי שאנו מחפשים הוא נוסחה המקשרת את X ל-Y. נעשית השוואה של הנוסחאות המוצעות השונות, שיש להן אותה מעלה חזקתית בעזרת שיטת הריבועים הפחותים. הנוסחה שנותנת את ערך סכום הריבועים הנמוך ביותר היא זו שמייצגת את הקשר בין המשתנים באופן המיטבי. (השוואה של נוסחאות מסוגים שונים נעשית על ידי מדדים אחרים ולוקחת בחשבון לא רק את דיוק הצפי אלא גם את פשטות הנוסחה. ההנחה היא שעדיף אומדן פשוט ומדויק ושפשטות ודיוק עשויים לבוא זה על חשבון זה).

המחשב משתמש במדד שקרוי R² להערכת דיוק האומדן שהוא אחת מינוס מנת סכום ריבועי שגיאות האמידה בסכום ריבועי הפרשי ערכי המדידה מהממוצע שלהם^[1]. היתרון של השימוש במדד זה על מדד הריבועים הפחותים הוא שניתן לתת הערכה לאיכות האומדן המיטבי על פיו. אם האומדן הטוב ביותר שמצאנו נותן R² = 1 אזי לא ייתכן בכלל אומדן טוב ממנו. אם R² = 0 אזי לא ייתכן אומדן רע ממנו.

דוגמה ב'[עריכת קוד מקור | עריכה]

כאשר מנסים לאמוד גודל מסוים $x$ על פי $n$ תוצאות מדידה כלשהן, $x_{1},x_{2},...,x_{n}$ , גורס עקרון הריבועים הפחותים כי האומדן הטוב ביותר, x, הוא הערך שעבורו סכום ריבועי הסטיות של המדידות מ-x יהיה מינימלי. במקרה כללי יותר, מנסים להתאים פונקציה מסוימת $y=f({\vec {x}},{\vec {a}})$ לסדרה של מדידות $(y_{i},{\vec {x}}_{i})$ . כאן ${\vec {a}}$ הוא אוסף של פרמטרים.

דוגמה לכך היא ניסיון מציאת קשר בין הזרם החשמלי והמתח על נגד, בודקים בסדרה של מדידות של המתח בהתאם לשינוי בזרם: $(I_{i},V_{i})$ . אם מניחים שהקשר בין המתח והזרם הוא לפי חוק אוהם, $V=IR$ , הבעיה היא מציאת הערך של $R$ שייתן את ההתאמה המיטבית לאוסף המדידות.

בניסוח מתמטי, נדרש למצוא את ${\vec {a}}$ שיביא את הסכום $S=\sum _{i=1}^{n}(y_{i}-f({\vec {x}}_{i},{\vec {a}}))^{2}$ לערכו המינימלי.

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

יוסי לוי, הכוכב הנעלם והאמד הכחול: משפט גאוס מרקוב ושיטת הריבועים הפחותים, באתר "נסיכת המדעים"

הערות שוליים[עריכת קוד מקור | עריכה]

^ סיכום 2: קו הריבועים הפחותים

[1] סיכום 2: קו הריבועים הפחותים

[1]

מיזמי קרן ויקימדיה
ספר לימוד בוויקיספר: אנליזה נומרית/אינטרפולציה: מינימום ריבועים
תמונות ומדיה בוויקישיתוף: שיטת הריבועים הפחותים