לדלג לתוכן

הבדלים בין גרסאות בדף "מתאם"

נוספו 5,424 בתים ,  לפני שנתיים
הוספת פרק על ההיסטוריה של פיתוח מקדמי המתאם
מ (בוט החלפות: \1ליניארי, דוגמה\1)
(הוספת פרק על ההיסטוריה של פיתוח מקדמי המתאם)
 
בדרך כלל ערכיהם של מקדמי הקשר נעים בין 1- ל-1, או בין 0 ל-1. ערך של 0 מציין בדרך כלל חוסר קשר בין המשתנים (במובן שבו הוגדר הקשר), וערכים של 1 או של 1- מציינים בדרך כלל קשר מלא בין המשתנים.
 
==היסטוריה==
מושג המתאם הופיע לראשונה במחקריו של [[פרנסיס גאלטון|סיר פרנסיס גאלטון]]. הוא התעניין אינטליגנציה האנושית וניסה לברר האם אינטליגנציה עוברת התורשה. לשם כך היה זקוק למדד שיבטא את הקשר המשותף (co-relation) בין רמת האינטליגנציה של דור מסויים ורמת האינטליגנציה של הדור הקודם. קשר משותף חזק היה מספיק לדעתו להוכיח גם קשר סיבתי – האינטליגנציה מועברת בירושה מאבות לבנים. עם זאת, הבין כי החשיבות המדעית של מדידת הקשר בין שני משתנים משתרעת מעבר לבעיה הספציפית בה התעניין, ולכן פיתח את רעיונותיו גם על ידי מחקר של נתונים אחרים, כגון תכונות פיזיקליות של בני אדם ושל צמחים.
 
גאלטון פירסם את מסקנותיו בשלושה מאמרים שהופיעו בשנים 1885-1888. מקדם המתאם שהציע התבסס על ההנחה שלשני המשתנים הנמדדים יש [[התפלגות רב-נורמלית|התפלגות משותפת דו-נורמלית]]. החישוב שלו התבסס על שרטוט הנתונים בגרף, מדידה פיזית של שיפוע [[רגרסיה ליניארית|קו הרגרסיה]] בין המשתנים, וחישוב [[סטיית תקן|סטיות התקן]] שלהם (אם כי לא במפורש – מושג סטיית התקן הופיע והוגדר מאוחר יותר).
 
גאלטון עמד גם על תכונותיו של מקדם המתאם שחישב המוכרות לנו כיום: ערך של 1 מציין קשר חיובי מלא, ערך םם מציין חוסר קשר, וכולי. הוא היה מודע לכך שהמקדם שחישב מודד קשר לינארי בלבד בין המשתנים, והבהיר כי אין להסיק קשר סיבתי בין המשתנים רק על סמך מתאם גבוה ביניהם.
 
[[קרל פירסון]] המשיך את עבודתו של גאלטון ובנה את המסגרת המתמטית שבה שולב מקדם המתאם, ביחד עם המושג של סטיית התקן, וזאת בשני מאמרים שפירסם ב-1893 וב-1896. במאמרים אלה הגדיר את מקדם המתאם המוכר לנו היום כ-"מקדם פירסון", והראה כי אין צורך בהנחת ההתפלגות הנורמלית של גאלטון.
 
מקדם המתאם הוגדר למדידת הקשר בין שני משתנים כמותיים. פירסון ניסה לפתח מקדם דומה למדידת הקשר בין שני משתנים איכותיים (קטגוריים), שנתוניהם מוצגים בלוח שכיחות דו מימדי. ב-1900 הוא הציג את סטטיסטי [[חי בריבוע|חי-בריבוע]], שמבטא רעיון דומה לרעיון של מקדם המתאם. מקדם המתאם התבסס על ההפרשים בין התצפיות והממוצע שלהן. סטטיסטי חי בריבוע מבוסס על ההפרש בין מספר התצפיות בתא מסויים בלוח השכיחות הדו מימדי, והמספר הצפוי של התצפיות באותו תא בהנחה כי יש אי תלות בין משתנים.
 
במקביל לפיתוח מדד החי בריבוע, ניסה פירסון גם להכליל את מקדם המתאם למדידת קשר בין שני משתנים איכותיים על ידי הכנסת הנחה על קיומו של [[משתנה נסתר]] (לטנטי). לדוגמא, אם יש משתנה המתאר את גובהו של אדם באוכלוסייה מסויימת כ-"נמוך" או "גבוה", ערכים אלה נקבעים על ידי התפלגות הגבהים של האנשים באוכלוסייה, וניתן להניח כי זוהי התפלגות נורמלית. כאשר דנים בשני משתנים, טען פירסון כי ניתן להניח שקיימים שני משתנים נסתרים עם התפלגות משותפת דו נורמלית. תחת הנחה זו פיתח את מקדם המתאם הטטרכורי, ומאוחר יותר את מקדם המתאם הפוליכורי.
 
הגישה הזו של פירסון נתקלה בהתנגדות של הסטטיסטיקאי [[אדני יול]], שטען כי במקרים רבים ההנחה הבסיסית של פירסון לפיה מקורם של הנתונים האיכותיים נמצא בהתפלגות דו-נורמלית שאינה ניתנת לצפייה אינה נכונה. יול הציג גישה אלטרנטיבית שמבוססת על הערכים הנצפים בלוח השכיחות, ללא הנחה של התפלגות נסתרת או השוואה למצב של אי תלות. רוב הסטטיסטיקאים קיבלו את גישתו של יול, ופיתחו מדדי קשר שהתבססו על העקרונות שלו. עם זאת, גישתו של פירסון המניחה התפלגות נסתרת מהווה בסיס למודלים סטטיסטיים אחרים העוסקים בניתוח הקשר בין משתנים איכותיים למשתנים אחרים, כגון [[רגרסיה לוגיסטית|הרגרסיה הלוגיסטית]].
 
== דוגמאות ==
 
=== מקדם הקשר של קרמר===
מקדם הקשר של קרמר (המסומן בדרך כלל באות V) פותח על ידי הסטטיסטיקאי השוודי [[הראלד קרמר]]. מקדם זה מתאים למדידת עצמת הקשר בין שני משתנים קטגוריים. הוא מבוסס על ערכו של סטטיסטי [[חי בריבוע|חי-בריבוע]] המיועד לבדיקת ההשערה הסטטיסטית של אי תלות בין המשתנים, כאשר ערך זה מתוקנן לפי מגודל המדגם, מספר הקטגוריות של כל אחד מהמשתנים והוצאת שורש. ערכו של מקדם המתאם של קרמר נע בין 0 ל-1, כאשר ערך 0 מציין אי תלות סטטיסטית בין המשתנים.
 
=== מקדם המתאם התוך-אשכולי ===