ניתוח גורמים ראשיים

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
דוגמה לניתוח גורמים ראשיים בשני ממדים. הווקטורים המאויירים מתאימים לגורם ראשי ראשון (הארוך) ולגורם ראשי שני (הקצר). הווקטורים הם וקטורים עצמיים של מטריצת הקווארינס שנורמלו על ידי שורשי הערכים העצמיים המתאימים, והוסטו כך שזנבם נמצא על ממוצע ההתפלגות. פיזור הנקודות בתמונה הוא לפי התפלגות גאוסיאנית דו-ממדית (עם ממוצע (1,3), סטית תקן 3 בכיוון (0.478, 0.878) וסטית תקן 1 בכיוון המאונך).

ניתוח גורמים ראשיים (או בשמה המקובל בלעז PCA, Principal Components Analysis) היא שיטה סטטיסטית למציאת יצוג מממד נמוך למידע רב-ממדי. שיטה זו הומצאה בשנת 1901 על ידי קרל פירסון והיא שימושית מאוד בסטטיסטיקה ובלמידה חישובית.

בהינתן מספר דגימות מממד d (שהממוצע שלהן הוא אפס), ניתן לחשב את d הגורמים הראשיים, שהינם וקטורים מממד d. הגורם הראשי הראשון יהיה הכיוון במרחב שלאורכו השונות של הדגימות היא מקסימלית. הגורם הראשי השני מאונך לגורם הראשי הראשון, ולאורכו השונות היא מקסימלית במרחב המאונך לגורם הראשון. הגורם הראשי השלישי גם הוא מאונך לראשון ולשני, וכך ניתן להמשיך ולמצוא גורמים ראשיים נוספים, כאשר כל אחד מאונך לכל הגורמים הקודמים, ובכיוונו השונות היא מקסימלית.

לדוגמה, נניח כי מבצעים ניסוי הבוחן פרמטרים שונים, למשל: מנת משכל, גובה וגיל. יש לנו מספר דגימות. דגימות אלו נמצאות למעשה במרחב תלת ממדי שהרכיבים של כל נקודה בה הם מנת משכל, גובה וגיל מסוימים. באותו אופן, אם ישנם n פרמטרים שונים אשר נחקרים אזי הם מגדירים מרחב מממד n. ניתוח גורמים ראשיים הינה שיטה למצוא מסקנות מעניינות מתוך המידע הרב שנאסף בניסוי שכזה. השיטה מנסה להוריד את הממד של המידע לממד נמוך יותר אשר יכול לגלות מידע רב יותר וקשרים בין המשתנים השונים אשר נחקרים. לשם כך היא מחפשת את ההטלה הלינארית האופטימלית אשר עבור צירים מסוימים, משמרת שונות רבה ככל הניתן של המידע, ואחר כך מצמצמת את המידע לקורדינאטות שלו רק על אותם צירים. כך מקבלים מידע מעניין אך בממד נמוך יותר, אשר באותו ממד ניתן להבחין בקשרים מעניינים.

למעשה התהליך (אשר הינו פשוט למעשה) מסובב את המידע סביב הצירים השונים ומחפש מרחק קטן ביותר של המידע מהמרחב הנפרש על ידי אותם צירים. כל ציר שכזה נקרא גורם ראשי.

PCA עושה שימוש בתהליך הבא כדי למצוא את הגורמים הראשיים:

  • לרוב עושים סטנדרטיזציה למידע לפני התהליך: כלומר דואגים שהתוחלת תהיה 0 ושונות 1.
  1. חישוב מטריצת השונות המשותפת (covariance) כך: כל תא i,j במטריצה הוא השונות המשותפת של משתנה i שנחקר ומשתנה j.
  2. לכסון המטריצה. המטריצה סימטרית וממשית (גם חיובית) ולכן כל ערכיה העצמיים ממשיים וחיוביים.
  3. כעת, לוקחים את הוקטור העצמי הגדול ביותר - הוא כנגד הגורם הראשי ביותר. אם אנחנו רוצים להסביר 80% מהמידע עלינו לבחור ע"ע מהגדול אל הקטן בכמות כזו שכסכום אותם ערכים עצמיים הוא מעל 80% מסכום כל הערכים העצמיים. לפי מספר הע"ע שנבחר, נקבל את הממד החדש של המידע.
  4. עבור אותם ע"ע שבחרנו, נמצא את הווקטורים העצמיים. המטריצה אשר שורותיה הם הווקטורים העצמיים המתאימים, היא ההעתקה הלינארית האופטמילית אשר מורידה את הממד לממד חדש, בו ניתן לראות מבנים מעניינים במידע.

יתרונות השיטה[עריכת קוד מקור | עריכה]

  • השיטה היא לינארית, ולכן היא פשוטה ומהירה.
  • ניתן להראות שתחת הנחות מסוימות PCA הינה השיטה הלינארית הטובה ביותר להורדת ממד.
  • השיטה משתמשת באבחנה השימושית ששונות גבוהה מעידה על ממד מעניין. אם ניקח לדוגמה מדגם של נקודות במישור המפוזרות על ציר ה-x (כך שערך ה-y של כולן הוא 0), אז ציר ה-y לא יעניין אותנו. ואכן זהו מקרה קיצוני שבו השונות בכיוון ציר ה-y היא אפס. במקרה זה כדאי יהיה להציג את הנקודות באמצעות קואורדינטה אחת בלבד (על ציר ה-x).

חסרונות השיטה[עריכת קוד מקור | עריכה]

  • ניתן להראות שתחת הנחות מסוימות PCA הינה השיטה הלינארית הטובה ביותר להורדת ממד. אך ייתכן כי ישנה העתקה אחרת שאינה לינארית ועוזרת להסביר את המידע טוב יותר. דוגמה פשוטה לכך היא מדגם אחיד של נקודות ממעגל היחידה. שימוש ב-PCA לא יועיל במקרה כזה כי השונות זהה בכל כיוון. אולם, המרת הדגימות לקואורדינטות קוטביות תאפשר לנו לזנוח את הגורם הראשי השני (שהוא הרדיוס הקבוע עם אפס שונות), ולשמר את הגורם הראשי הראשון - זווית הדגימות.
  • מקובל לזנוח את רוב הגורמים הראשיים מלבד הגדולים ביותר, אך ייתכן כי יש נקודות מבט מעניינות דווקא במידע שלא ניתן להסביר על ידי גורמים ראשיים גדולים ביותר.