מתאם

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

מִתאם או קורלציה הוא מדד סטטיסטי המעריך את העקביות ביחסים בין כמה משתנים, כלומר, האם ישנה עקביות בין שינוי במשתנה אחד מהם לבין שינוי במשתנה אחר. כאשר המתאם מלמד התאמה גבוהה ביחסים בין המשתנים לעתים הדבר רומז גם על קשר של סיבתיות אך לא בהכרח. ערכו של מתאם המבטא התאמה מוחלטת הוא 1+, ושל מתאם המבטא התאמה הפוכה – 1-.

קיימים כמה מדדי קשר, בהתאם לסולם המדידה של המשתנים הנמדדים. במקרה של אי-התאמה בין הסולמות של שני משתנים, יש להשתמש במדד המתאים לסולם הנמוך מבין השניים.

במחקרים רבים נעשה ניסיון למצוא מתאם בין שינוי שנעשה במשתנה בלתי תלוי לבין שינוי שנצפה במשתנה התלוי.

מקדם המתאם של פירסון[עריכת קוד מקור | עריכה]

Postscript-viewer-shaded.png ערך מורחב – מתאם פירסון

המדד המוכר ביותר למדידת התלות בין שתי כמויות הוא מתאם פירסון, או ״מקדם המתאם של פירסון״ (לעתים קרובות נקרא בפשטות ״מקדם המתאם״). הוא מתקבל כתוצאה של חילוק השונות משותפת של שני המשתנים במכפלת סטיית התקן שלהם. קרל פירסון פיתח את המקדם מתוך רעיון דומה אך מעט שונה של פרנסיס גולטון. מקדם המתאם ρX,Y בין שני משתנים אקראיים X ו-Y עם תוחלת μX ו-μY ועם סטיות תקן σX ו-σY מוגדר כך:



\rho_{X,Y}=\mathrm{corr}(X,Y)={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y},

E מסמל את אופרטור התוחלת, cov מסמל שונות משותפת, ו־corr הוא סימון מקובל למקדם המתאם.

מתאם פירסון מוגדר אך ורק אם שתי סטיות התקן הן סופיות ולא אפסיות. זוהי תוצאה ישירה מאי-שוויון קושי-שוורץ, שמוכיח כי המתאם חסום בין 1 ל־‎-1. מקדם המתאם הוא סימטרי, כלומר corr(X,Y) = corr(Y,X).

מתאם פירסון שווה 1+ במקרה של קורלציה – קשר לינארי ישיר (גדל) שלם. הוא שווה ל־‎-1 במקרה של אנטי-קורלציה – קשר לינארי הפוך (קטן) שלם. הוא שווה לערכים אחרים בין 1- ל-1+ בכל המקרים האחרים. הערך מצביע על מידת התלות הלינארית בין המשתנים. כאשר הוא שואף לאפס, יש פחות קשר (קרוב יותר לחוסר-קורלציה). ככל שהמקדם מתקרב ל-1+ או ל־‎-1, כך הקורלציה בין המשתנים גדלה.

אם המשתנים הם בלתי תלויים, מתאם פירסון שווה ל-0. ההפך אינו נכון, מכיוון שהמתאם מזהה תלותיות לינאריות בין שני משתנים בלבד. לדוגמה, נניח שהמשתנה האקראי X מפולג באופן סימטרי סביב 0, וY = X2. במקרה כזה Y נקבע לחלוטין לפי X , כך ש-X ו-Y תלויים זה בזה, אבל הקורלציה ביניהם היא 0; הם אינם מקושרים. עם זאת, במקרה הספציפי שבו X ו-Y הם בעלי התפלגות רב-נורמלית, חוסר קורלציה היא שוות ערך לחוסר תלות.

כאשר יש סדרה בת n מדדים ל־X ול־Y (מסומנים: xi ו-yi, ‏i יכול להיות כל ערך בין 1 ל־n), אז מקדם המתאם של המדגם מאפשר לשער את r, מתאם פירסון בין X לבין Y, לכלל האוכלוסייה. ערכו של מקדם המתאם של המדגם מחושב בנוסחה:

r_{xy}=\frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{(n-1) s_x s_y}

= \frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}

{\sqrt{\sum\limits_{i=1}^n (x_i-\bar{x})^2 \sum\limits_{i=1}^n (y_i-\bar{y})^2}},

\bar{x} ו־\bar{y} הם ממוצעי המדגם של X ושל Y, בהתאמה; sx ו־sy הן סטיות תקן נדגמות של X ושל Y, בהתאמה. אפשר לכתוב את הביטוי גם כך:

r_{xy}=\frac{\sum x_iy_i-n \bar{x} \bar{y}}{(n-1) s_x s_y}

=\frac{n\sum x_iy_i-\sum x_i\sum y_i}

{\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}}.

אם x ו-y הם תוצאות של המדדים שמכילים שגיאת מדידה, הגבולות הריאליסטיים של מקדם המתאם אינם בין 1- ל-1+ אלא בתחום קטן יותר. במקרה של מודל לינארי עם משתנה יחיד לא תלותי, מקדם הקביעה הוא הריבוע של r, מקדם המתאם של פירסון.

מקדמי דירוג המתאם[עריכת קוד מקור | עריכה]

מקדמי דירוג מתאם, כמו מקדם ספירמן ומקדם קנדל מודדים את מידת הנטייה של מקדם לגדול, כאשר המקדם השני גדל, בלי לדרוש שהגדילה תיוצג על ידי קשר לינארי. אם כאשר משתנה אחד גדל, השני קטן, מקדמי דירוג המקדם יהיו שליליים. שכיח להתייחס למקדמי דירוג המתאם האלה כתחלופה למקדם של פירסון, המשמש להפחתה של כמות החישובים או לחלופין להפיכה של המקדם לפחות רגיש לאי-נורמליות בהתפלגות. עם זאת, להנחה הזאת אין בסיס מתמטי ממשי, שכן מקדמי דירוג מתאם מודדים סוג קשר שונה מהקשר אותו מודד המקדם של פירסון.

כדי להדגים את טבע דירוג המתאם, ואת ההבדל ממתאם לינארי, בחנו את 4 זוגות המספרים (x, y): (0, 1), (10, 100), (101, 500), (102, 2000)

במעבר מזוג אחד להבא, ערך x גדל, וכך גם ערך y. קשר זה הוא מושלם, במובן שגידול בערך ה-x מלווה תמיד, ללא יוצא מן הכלל, בגידול בערך ה-y. כלומר, יש לנו דירוג מתאם מושלם, ומקדמי ספירמן וקנדל שווים בערכם ל-1, כאשר בדוגמה זו מקדם פירסון שווה בערכו ל-0.7544, ומצביע על כך שהנקודות רחוקות מלהיות על קו ישר. באופן זהה, אם הערך של y תמיד קטן ושל x תמיד גדל, דירוג המתאם יהיה 1-, ומתאם פירסון יהיה קרוב ל-1 או ל-1-, תלוי במיקום הנקודות ביחס לקו ישר. למרות שבמקרים קיצוניים של דירוג מתאם מושלם שני המקדמים שווים זה לזה, זהו לא המקרה בדרך כלל, ולכן ערכים של שני המקדמים לא יכולים להיות מושווים באופן משמעותי. למשל, עבור שלושת הזוגות (1, 1) (2, 3) (3, 2) מקדם ספירמן הוא 0.5, בעוד שמקדם קנדל הוא 1/3.

מדדים נוספים של תלות בקשר משתנים אקראיים[עריכת קוד מקור | עריכה]

המידע הניתן על ידי מקדם המתאם לא מספיק על מנת להגדיר את מבנה התלות בין משתנים אקראיים. מקדם המתאם מגדיר את מבנה התלות לחלוטין רק במקרים מאוד מסוימים, למשל כאשר ההתפלגות היא התפלגות רב-נורמלית (ראה דיאגרמה בתחילת העמוד). במקרה של התפלגות אליפטית הוא מאפיין את אליפסות הצפיפות השווה. עם זאת, הוא לא מאפיין לחלוטין את מבנה התלות.

מתאם מרחק ומתאם בראוני (Brownie coeffiecient) הובאו על מנת לטפל במחסור של מתאם פירסון שיוכל להיות אפס עבור משתנים תלויים אקראיים; מתאם מרחק אפסי ומתאם בראוני אפסי מצביעים על חוסר תלות.

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

Allianz AG.png ערך זה הוא קצרמר בנושא סטטיסטיקה. אתם מוזמנים לתרום לוויקיפדיה ולהרחיב אותו.