שיטת הריבועים הפחותים

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
Gnome-edit-clear.svg ערך זה זקוק לעריכה: הסיבה לכך היא: משלב נמוך.
אתם מוזמנים לסייע ולתקן את הבעיות, אך אנא אל תורידו את ההודעה כל עוד לא תוקן הדף. אם אתם סבורים כי אין בדף בעיה, ניתן לציין זאת בדף השיחה.

שיטת הריבועים הפחותים (גם "שיטת הריבועים המזעריים" או "שיטת הריבועים המינימליים") היא שיטת אומדן סטטיסטית, שבה משערכים גודל לא ידוע מתוך קבוצת תוצאות מדודות כלשהן. הראשון שתיאר את השיטה הוא קרל פרידריך גאוס, בתחילת המאה ה-19. אומדן זה מאפשר השוואה בין ההתאמה של מודלים סטטיסטיים שונים לבין המדידות שהללו מנסים להסביר, כל זמן שהמודלים השונים מציעים נוסחאות מתמטיות שונות מאותו סוג (כגון פולינומים בני אותה מעלה).

מטרת השיטה[עריכת קוד מקור | עריכה]

לעתים רוצים למצוא קשר מתמטי בין שני משתנים שהתקבלו במדידות נסיוניות, אך הקשר בין שני המשתנים אינו נראה לעין באופן מיידי. הסיבה לכך היא שעבור כל ערך של משתנה אחד, נמדד במשתנה השני טווח שלם של ערכים, ולא ערך בודד ויחיד. הסיבות לכך רבות ומגוונות, למשל במדידת גודל פיזיקלי: ייתכן שהמשתנה הראשון עצמו אינו קבוע אלא משתנה בתחום מסוים, ייתכן שהוא אינו המשתנה היחיד המשפיע על המשתנה השני (למשל, אם המשתנה השנוי תלוי גם בטמפרטורה), ואף ייתכן שיש מגבלות בציוד המדידה. לכן, כדי לעמוד על טיב הקשר בין המשתנים באופן המדויק ביותר משתמשים בכלים סטטיסטיים. שיטת הריבועים הפחותים היא אחד הכלים הסטטיסטיים הללו.

מקרה חשוב שבו שיטת הריבועים הפחותים בשימוש נפוץ הוא מקרה לינארי. כאשר נתונים m דוגמאות ולכל דוגמה משויכת n תכונות, אם קיים קשר לינארי בין התכונות למשתנה, ניתן לייצגו כמערכת משוואות:

\sum_{j=1}^{n} X_{ij}\beta_j = y_i,\ (i=1, 2, \dots, m),

עם m משוואות, ומקדמים לא ידועים β1,β2,…,βn, כאשר m > n, ובייצוג מטריציוני: \mathbf {X} \boldsymbol {\beta} = \mathbf {y},

כאשר

\mathbf {X}=\begin{bmatrix}
X_{11} & X_{12} & \cdots & X_{1n} \\
X_{21} & X_{22} & \cdots & X_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
X_{m1} & X_{m2} & \cdots & X_{mn}
\end{bmatrix} , 
\qquad \boldsymbol \beta = \begin{bmatrix} 
\beta_1 \\ \beta_2 \\ \vdots \\ \beta_n \end{bmatrix} , 
\qquad \mathbf y = \begin{bmatrix} 
y_1 \\ y_2 \\ \vdots \\ y_m
\end{bmatrix}.

כיוון שלמערכת המשוואות אין בהכרח פתרון, המטרה היא למצוא את הערכים של β שנותנים את התוצאה ה"קרובה"במובן של מינימיזציה ריבועית:

\hat{\boldsymbol{\beta}} = \underset{\boldsymbol{\beta}}{\operatorname{arg\,min}}\,S(\boldsymbol{\beta}),

והפונקציה שאותה ממזערים S היא:

S(\boldsymbol{\beta}) = \sum_{i=1}^{m}\bigl| y_i - \sum_{j=1}^{n} X_{ij}\beta_j\bigr|^2 = \bigl\|\mathbf y - \mathbf X \boldsymbol \beta \bigr\|^2.

כאשר n העמודות של המטריצה X אינן תלויות לינארית קיים לבעיית מזעור זו פתרון יחיד ניתן באמצעות פתרון:

 \boldsymbol{\hat\beta} =( X ^TX)^{-1}X^{T}\boldsymbol y.

דוגמאות[עריכת קוד מקור | עריכה]

דוגמה א'[עריכת קוד מקור | עריכה]

גיל כל ילד של משפחת סקורפי וגובהו מיוצגים בנקודות הגרף הכחולות. הקו השחור מיצג את המודל הסטטיסטי שנוסחאתו היא y = -0.0617x2 + 6.0388x + 84.415. הקו הצהוב הוא המרחק בין גובהה של הילה סקורפי לגובה שצופה המודל הסטטיסטי לילדים בגילה בני משפחתה. R2 הוא מדד הקשור למדד הריבועים הפחותים אך אינו שווה לו

כאשר מניחים שיש קשר בין משתנה מסוים (X) לבין משתנה אחר (Y), אולם מעריכים שבנוסף ל-X גם משתנים אחרים משפיעים על Y ושלא כל המשתנים האלה ידועים. מציאת מודל סטטיסטי מאפשר הערכה מראש מיטבית של ערכו של Y, על פי ערכו של X. דוגמה למשתנים כאלה היא X = גילו של ילד בשנים ו-Y= גובהו בסנטימטרים. המודל הסטטיסטי שאנו מחפשים הוא נוסחה המקשרת את X ל-Y. נעשית השוואה של הנוסחאות המוצעות השונות, שיש להן אותה מעלה חזקתית בעזרת שיטת הריבועים הפחותים. הנוסחה שנותנת את ערך סכום הריבועים הנמוך ביותר היא זו שמייצגת את הקשר בין המשתנים באופן המיטבי. (השוואה של נוסחאות מסוגים שונים נעשית על ידי מדדים אחרים ולוקחת בחשבון לא רק את דיוק הצפי אלא גם את פשטות הנוסחה. ההנחה היא שעדיף אומדן פשוט ומדויק ושפשטות ודיוק עשויים לבוא זה על חשבון זה).

המחשב משתמש במדד שקרוי R2 להערכת דיוק האומדן שהוא אחת מינוס מנת סכום ריבועי שגיאות האמידה בסכום ריבועי הפרשי ערכי המדידה מהממוצע שלהם ‏‏[1]. היתרון של השימוש במדד זה על מדד הריבועים הפחותים הוא שניתן לתת הערכה לאיכות האומדן המיטבי על פיו. אם האומדן הטוב ביותר שמצאנו נותן R2 = 1 אזי לא ייתכן בכלל אומדן טוב ממנו. אם R2 = 0 אזי לא ייתכן אומדן רע ממנו.

דוגמה ב'[עריכת קוד מקור | עריכה]

כאשר מנסים לאמוד גודל מסוים \ x על פי \ n תוצאות מדידה כלשהן, \ x_1, x_2,...,x_n, גורס עקרון הריבועים הפחותים כי האומדן הטוב ביותר, x, הוא הערך שעבורו סכום ריבועי הסטיות של המדידות מ-x יהיה מינימלי. במקרה כללי יותר, מנסים להתאים פונקציה מסוימת y=f(\vec{x},\vec{a}) לסדרה של מדידות (y_i,\vec{x}_i). כאן \ \vec{a} הוא אוסף של פרמטרים.

דוגמה לכך היא ניסיון מציאת קשר בין הזרם החשמלי והמתח על נגד, בודקים בסדרה של מדידות של המתח בהתאם לשינוי בזרם: \ (I_i,V_i). אם מניחים שהקשר בין המתח והזרם הוא לפי חוק אוהם, \ V=IR, הבעיה היא מציאת הערך של \ R שייתן את ההתאמה המיטבית לאוסף המדידות.

בניסוח מתמטי, נדרש למצוא את \vec{a} שיביא את הסכום  S = \sum_{i=1}^n (y_i - f(\vec{x}_i,\vec{a}))^2 לערכו המינימלי.

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]