מתאם

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה לניווט קפיצה לחיפוש

מִתְאָם או קשראנגלית: Association) הוא תכונה של קשר סטטיסטי בין שני משתנים. קשר זה אינו חייב להיות סיבתי. בדרך כלל עוצמת הקשר נמדדת על ידי מדד סטטיסטי המכונה "מקדם מתאם" או "מקדם קשר". יש מספר רב של מקדמי קשר, השונים זה מזה באופן שבו מוגדר הקשר בין המשתנים. אופן הגדרת הקשר תלוי גם בסולמות המדידה של המשתנים.

בדרך כלל ערכיהם של מקדמי הקשר נעים בין 1- ל-1, או בין 0 ל-1. ערך של 0 מציין בדרך כלל חוסר קשר בין המשתנים (במובן שבו הוגדר הקשר), וערכים של 1 או של 1- מציינים בדרך כלל קשר מלא בין המשתנים.

היסטוריה[עריכת קוד מקור | עריכה]

מושג המתאם הופיע לראשונה במחקריו של סיר פרנסיס גאלטון. הוא התעניין אינטליגנציה האנושית וניסה לברר האם אינטליגנציה עוברת התורשה. לשם כך היה זקוק למדד שיבטא את הקשר המשותף (Co-relation) בין רמת האינטליגנציה של דור מסוים ורמת האינטליגנציה של הדור הקודם. קשר משותף חזק היה מספיק לדעתו להוכיח גם קשר סיבתי – האינטליגנציה מועברת בירושה מאבות לבנים. עם זאת, הבין כי החשיבות המדעית של מדידת הקשר בין שני משתנים משתרעת מעבר לבעיה הספציפית בה התעניין, ולכן פיתח את רעיונותיו גם על ידי מחקר של נתונים אחרים, כגון תכונות פיזיקליות של בני אדם ושל צמחים.

גאלטון פרסם את מסקנותיו בשלושה מאמרים שהופיעו בשנים 1885-1888. מקדם המתאם שהציע התבסס על ההנחה שלשני המשתנים הנמדדים יש התפלגות משותפת דו-נורמלית. החישוב שלו התבסס על שרטוט הנתונים בגרף, מדידה פיזית של שיפוע קו הרגרסיה בין המשתנים, וחישוב סטיות התקן שלהם (אם כי לא במפורש – מושג סטיית התקן הופיע והוגדר מאוחר יותר).

גאלטון עמד גם על תכונותיו של מקדם המתאם שחישב המוכרות לנו כיום: ערך של 1 מציין קשר חיובי מלא, ערך 0 מציין חוסר קשר, וכולי. הוא היה מודע לכך שהמקדם שחישב מודד קשר לינארי בלבד בין המשתנים, והבהיר כי אין להסיק קשר סיבתי בין המשתנים רק על סמך מתאם גבוה ביניהם.

קרל פירסון המשיך את עבודתו של גאלטון ובנה את המסגרת המתמטית שבה שולב מקדם המתאם, ביחד עם המושג של סטיית התקן, וזאת בשני מאמרים שפרסם ב-1893 וב-1896. במאמרים אלה הגדיר את מקדם המתאם המוכר לנו היום כ-"מקדם פירסון", והראה כי אין צורך בהנחת ההתפלגות הנורמלית של גאלטון.

מקדם המתאם של פירסון הוגדר למדידת הקשר בין שני משתנים כמותיים. פירסון ניסה לפתח מקדם דומה למדידת הקשר בין שני משתנים איכותיים (קטגוריים), שנתוניהם מוצגים בלוח שכיחות דו ממדי. ב-1900 הוא הציג את סטטיסטי חי-בריבוע, שמבטא רעיון דומה לרעיון של מקדם המתאם. מקדם המתאם התבסס על ההפרשים בין התצפיות והממוצע שלהן. סטטיסטי חי בריבוע מבוסס על ההפרש בין מספר התצפיות בתא מסוים בלוח השכיחות הדו ממדי, והמספר הצפוי של התצפיות באותו תא בהנחה כי יש אי תלות בין משתנים.

במקביל לפיתוח מדד החי בריבוע, ניסה פירסון גם להכליל את מקדם המתאם למדידת קשר בין שני משתנים איכותיים על ידי הכנסת הנחה על קיומו של משתנה נסתר (לטנטי). לדוגמה, אם יש משתנה המתאר את גובהו של אדם באוכלוסייה מסוימת כ-"נמוך" או "גבוה", ערכים אלה נקבעים על ידי התפלגות הגבהים של האנשים באוכלוסייה, וניתן להניח כי זוהי התפלגות נורמלית. כאשר דנים בשני משתנים, טען פירסון כי ניתן להניח שקיימים שני משתנים נסתרים עם התפלגות משותפת דו נורמלית. תחת הנחה זו פיתח את מקדם המתאם הטטרכורי, ומאוחר יותר את מקדם המתאם הפוליכורי.

הגישה הזו של פירסון נתקלה בהתנגדות של הסטטיסטיקאי אדני יול, שטען כי במקרים רבים ההנחה הבסיסית של פירסון לפיה מקורם של הנתונים האיכותיים נמצא בהתפלגות דו-נורמלית שאינה ניתנת לצפייה אינה נכונה. יול הציג גישה אלטרנטיבית שמבוססת על הערכים הנצפים בלוח השכיחות, ללא הנחה של התפלגות נסתרת או השוואה למצב של אי תלות. רוב הסטטיסטיקאים קיבלו את גישתו של יול, ופיתחו מדדי קשר שהתבססו על העקרונות שלו. עם זאת, גישתו של פירסון המניחה התפלגות נסתרת מהווה בסיס למודלים סטטיסטיים אחרים העוסקים בניתוח הקשר בין משתנים איכותיים למשתנים אחרים, כגון הרגרסיה הלוגיסטית.

דוגמאות[עריכת קוד מקור | עריכה]

מקדם המתאם של פירסון[עריכת קוד מקור | עריכה]

Postscript-viewer-shaded.png ערך מורחב – מתאם פירסון

המדד המוכר ביותר למדידת הקשר בין שני משתנים כמותיים הוא ״מקדם המתאם של פירסון״ (לעיתים קרובות נקרא בפשטות "מתאם פירסון" או אף ״מקדם המתאם״). מדד זה מודד את עוצמת הקשר הלינארי בין שני משתנים כמותיים, כאשר ערך של 1 מציין קשר לינארי חיובי מלא, וערך של 1- מציין קשר לינארי שלילי מלא. ערך של 0 מציין חוסר קשר לינארי. עם זאת ייתכנו מצבים בהם ערכו של מתאם פירסון שווה לאפס, ועדיין קיים קשר ואף תלות סטטיסטית בין המשתנים, אך הקשר אינו לינארי. זה קורה למשל כאשר ההתפלגות המשותפת של שני המשתנים סימטרית סביב אפס. מקדם זה נקרא באנגלית "correlation coeffcient", ובשפה יום יומית בעברית נהוג לכנות מתאם על פי מקדם זה כ-"קורלציה". עם זאת, חשוב להבהיר כי סוגי קשר אחרים בין משתנים אינם מכונים באנגלית במילה "correlation", ולכן אם רוצים להקפיד על שפה סטטיסטית מדוייקת אין להשתמש במילה "קורלציה" כביטוי כללי עבור קשר בין שני משתנים.

מקדם המתאם של ספירמן[עריכת קוד מקור | עריכה]

Postscript-viewer-shaded.png ערך מורחב – מתאם ספירמן

מקדם ספירמן הוא הכללה של מתאם פירסון שמתאימה למקרה בו לפחות אחד משני המשתנים נמדד בסולם סדר, והמשתנה השני יכול להימדד בסולם סדר, רווח או מנה. כדי לחשב את מתאם ספירמן מדרגים את הערכים של כל אחד מהמשתנים, כך שהתצפית שערכה הנמוך ביותר מקבלת דרגה השווה ל-1 וכן הלאה. לדוגמה, אם ערכי משתנה אחד הם "גבוה", "נמוך" ו-"בינוני", הדרגות יהיו 3, 1 ו-2 בהתאמה. לאחר מכן, מפעילים את נוסחת החישוב של מתאם פירסון על דרגות הערכים במקום על הערכים עצמם.

מקדם הקשר של קראמר[עריכת קוד מקור | עריכה]

Postscript-viewer-shaded.png ערך מורחב – מקדם הקשר של קראמר

מקדם הקשר של קראמר (המסומן בדרך כלל באות V) פותח על ידי הסטטיסטיקאי השוודי הראלד קראמר. מקדם זה מתאים למדידת עצמת הקשר בין שני משתנים קטגוריים. הוא מבוסס על ערכו של סטטיסטי חי-בריבוע המיועד לבדיקת ההשערה הסטטיסטית של אי תלות בין המשתנים, כאשר ערך זה מתוקנן לפי מגודל המדגם, מספר הקטגוריות של כל אחד מהמשתנים והוצאת שורש. ערכו של מקדם המתאם של קראמר נע בין 0 ל-1, כאשר ערך 0 מציין אי תלות סטטיסטית בין המשתנים.

מקדם המתאם התוך-אשכולי[עריכת קוד מקור | עריכה]

מקדם המתאם התוך-אשכולי (Intraclass correlation או ICC) מודד את עצמת הקשר בין משתנה כמותי ומשתנה קטגורי. המקדם, שפיתח רונלד פישר, מבוסס על הפרמטרים של מודל ניתוח שונות חד כיווני. מודל זה משווה בין הממוצעים של משתנה כמותי הנמדד באופן בלתי תלוי במספר קבוצות. המדד הוא היחס בין השונות שבין הקבוצות ובין השונות הכוללת, וערכו נע בין 0 ל-1.

מדדים נוספים של תלות בקשר משתנים אקראיים[עריכת קוד מקור | עריכה]

המידע הניתן על ידי מקדם המתאם לא מספיק על מנת להגדיר את מבנה התלות בין משתנים אקראיים. מקדם המתאם מגדיר את מבנה התלות לחלוטין רק במקרים מאוד מסוימים, למשל כאשר ההתפלגות היא התפלגות רב-נורמלית (ראה דיאגרמה בתחילת העמוד). במקרה של התפלגות אליפטית הוא מאפיין את אליפסות הצפיפות השווה. עם זאת, הוא לא מאפיין לחלוטין את מבנה התלות.

מתאם מרחק ומתאם בראוני (Brownie coeffiecient) הובאו על מנת לטפל במחסור של מתאם פירסון שיוכל להיות אפס עבור משתנים תלויים אקראיים; מתאם מרחק אפסי ומתאם בראוני אפסי מצביעים על חוסר תלות.

מתאם וסיבתיות[עריכת קוד מקור | עריכה]

מתאם גבוה המעיד על עוצמת קשר חזקה בין שני משתנים אינו בהכרח מעיד על קשר סיבתי בין שני המשתנים. מתאם גבוה בין שני משתנים יכול להתקבל באופן מקרי לחלוטין, במקרה שיש משתנה שלישי המשפיע על ערכי שני המשתנים שהמתאם נמדד ביניהם, ובמקרים נוספים.

עם זאת, מתאם גבוה יוביל בדרך כלל לבדיקה האם יש קשר סיבתי בין המשתנים, וקיומו של מתאם גבוה הוא אחד הקריטריונים של ברדפורד היל להסקת סיבתיות.

המסקנה ההפוכה נכונה: קשר סיבתי בין שני משתנים יגרום למתאם, גבוה בדרך כלל, בין שני המשתנים.[1] יש לציין כי המתאם הזה אינו חייב להיות מתאם לינארי.

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

ויקישיתוף מדיה וקבצים בנושא מתאם בוויקישיתוף

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Naomi Altman & Martin Krzywinski, Association, correlation and causation, Nature Methods, 10, 12, 201, עמ' 899-900