מתאם פירסון

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

מתאם פירסון, או בשמו המלא מקדם המתאם של פירסון, הוא מדד למתאם לינארי בין שתי קבוצות של מספרים. כאשר מדובר בעיבוד נתונים סטטיסטי, ההתייחסות בדרך כלל היא לקשר סימטרי בין שני משתנים. ערכי המדד נעים בין (1-) לבין (1+) והם מסומנים באות R או ב-\rho:

  • במתאם של 1+ מתקיים קשר חיובי מלא בין שני המשתנים.
  • במתאם של 1- מתקיים קשר שלילי מלא בין שני המשתנים.
  • מתאם של 0 פירושו שבין שני המשתנים אין שום קשר לינארי.

במקרים רבים ימצאו קשרים בערכי ביניים, לדוגמה: מתאם של 0.8+ פירושו שקיים קשר חיובי בעוצמה חזקה.

מקדם המתאם של פירסון מספק מידע בשני מישורים:

  1. עצמת הקשר בין המשתנים: ככל שהערך קרוב יותר ל 1+ או ל 1- הוא חזק יותר.
  2. כיוון הקשר בין המשתנים: ערך חיובי פירושו קשר חיובי. ערך שלילי פירושו קשר שלילי (הפוך).

מבחינה מתמטית, הקורלציה בין שני משתנים מקריים X ו-Y עם תוחלות μX ו-μY וסטיות תקן σX ו-σY מוגדרת על פי הנוסחה הבאה:


\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y}

כאשר E פירושה תוחלת ו-cov היא שונות משותפת (covariance). מאחר ש-\ \mu_X = E(X) ו-\ \sigma_X = \sqrt{E(X^2)-E^2(X)}, ובאופן דומה גם ל-Y, אפשר לרשום את מקדם המתאם בצורה:

\rho_{X,Y}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}~\sqrt{E(Y^2)-E^2(Y)}}

אם ידועים נתוני האוכלוסייה כולה, ניתן לחשב את מקדם המתאם של פירסון גם באופן הבא:

\rho = \frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_i (x_i-\bar{x})^2 \sum_i(y_i-\bar{y})^2}}

כאשר \bar{x} הינו ממוצע ערכי x ו-\bar{y} הינו ממוצע ערכי y.

נוסחה זו משמשת גם לאמידת מקדם המתאם של פירסון באוכלוסייה כולה, כאשר ברשותנו מדגם מתוכה בלבד