הנדסת מאפיינים – הבדלי גרסאות

מתוך ויקיפדיה, האנציקלופדיה החופשית
תוכן שנמחק תוכן שנוסף
יצירה באמצעות תרגום הדף "Feature engineering"
תגיות: הוספת תבנית לשינויים בערך תרגום תוכן ContentTranslation2
(אין הבדלים)

גרסה מ־10:49, 27 באוקטובר 2021

הנדסת מאפיינים היא התהליך של שימוש בידע תחומי לחילוץ מאפיינים (תכונות, הגדרות, ערכים) מנתונים גולמיים.[1]

מאפיין היא תכונה משותפת ליחידות עצמאיות שעליהן יש לבצע ניתוח או חיזוי.[2]

מאפיינים משמשים במודלים חזויים ומשפיעות על התוצאות. [3]

הנדסת מאפיינים משמשת בתחרויות Kaggle[4] ובפרויקטים של למידת מכונה. [5]

תהליך

תהליך איטרטיבי של הנדסת המאפיינים הוא:[6]

  • סיעור מוחות או בדיקת מאפיינים[7]
  • החלטה אילו מאפיינים ליצור
  • יצירת המאפיינים
  • בדיקת ההשפעה של המאפיינים שזוהו על המשימה או היעד
  • שיפור המאפיינים במידת הצורך
  • חזרה לשלב הראשון

מאפיינים מהונדסים אופייניים

הרשימה הבאה [8] מספקת כמה דרכים טיפוסיות להנדסת מאפיינים שימושיים:

  • טרנספורמציות נומריות(כמו לקיחת שברים או שינוי קנה מידה)
  • מקודד קטגוריות כמו מקודד חם או יעד (למשתנים איכותיים) [9]
  • מקבוץ (Clustering)
  • קיבוץ ערכים מצטברים
  • ניתוח רכיבים עיקריים (Principal component) לנתונים נומריים

חשיבות

למאפיינים פרמטר חשיבות משתנה.[10] אפילו מאפיינים לא משמעותיים יחסית עשויים לתרום ליעילות המידול. בחירת מאפיין טובה יכולה להפחית את מספר המאפיינים כדי למנוע מדגם להפוך ספציפי מדי למערך נתוני האימון (התאמת יתר - overfitting).[11]

התפוצצות מאפיינים

"התפוצצות מאפיינים" מתרחשת כאשר מספר המאפיינים המזוהים גדל באופן לא הולם. הסיבות השכיחות כוללות:

  • תבניות מאפיינים - הטמעת תבניות מאפיינים במקום קידוד מאפיינים חדשים
  • שילובי מאפיינים - צירופים שלא ניתן לייצגם על ידי מערכת ליניארית

ניתן להגביל את פיצוץ מהאפיינים באמצעות טכניקות כגון: רגולריזציה, שיטת ליבה ובחירת מאפיינים.[12]

אוטומציה

אוטומציה של הנדסת מאפיינים היא נושא מחקר שראשיתו בשנות ה-90.[13] תוכנת למידת מכונה המשלבת הנדסת מאפיינים אוטומטית זמינה מסחרית מאז 2016.[14] ניתן להפריד באופן גס את הספרות האקדמית הקשורה לשני סוגים:

  • למידת עץ החלטות רב-יחסית (MRDTL) משתמשת באלגוריתם מפוקח הדומה לעץ החלטות .
  • Deep Feature Synthesis משתמש בשיטות פשוטות יותר.

למידת עץ החלטות רב-יחסיות (MRDTL)

MRDTL מייצר מאפיינים בצורה של שאילתות SQL על ידי הוספת סעיפים ברציפות לשאילתות. [15] לדוגמה, האלגוריתם עשוי להתחיל עם


שגיאות פרמטריות בתבנית:להשלים

פרמטרי חובה [ נושא ] חסרים

לאחר מכן ניתן לחדד את השאילתה ברציפות על ידי הוספת תנאים, כגון "WHERE t1.charge <= -0.392". [16]

עם זאת, רוב מחקרי MRDTL מבססים יישומים על מסדי נתונים יחסיים, מה שמביא לפעולות מיותרות רבות. ניתן לצמצם את היתירות הללו על ידי שימוש ב"טריקים" כגון הפצת tuple id. [17] [18] ניתן להגביר את היעילות באמצעות עדכונים מצטברים, אשר מבטל יתירות.

סינתזת מאפיינים עמוקה

אלגוריתם Deep Feature Synthesis ניצח 615 מתוך 906 צוותים אנושיים בתחרות.[19][20]

ספריות:

  • Featuretools. [21]
  • OneBM
  • ExploreKit. [22]

הערות שוליים

 

לקריאה נוספת

  • Boehmke, Bradley; Greenwell, Brandon (2019). "Feature & Target Engineering". Hands-On Machine Learning with R. Chapman & Hall. pp. 41–75. ISBN 978-1-138-49568-5.
  • Zheng, Alice; Casari, Amanda (2018). Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. O'Reilly. ISBN 978-1-4919-5324-2.
  • Zumel, Nina; Mount, John (2020). "Data Engineering and Data Shaping". Practical Data Science with R (2nd ed.). Manning. pp. 113–160. ISBN 978-1-61729-587-4.
  1. ^ "Machine Learning and AI via Brain simulations". Stanford University. נבדק ב-2019-08-01.
  2. ^ "Discover Feature Engineering, How to Engineer Features and How to Get Good at It - Machine Learning Mastery". Machine Learning Mastery. 25 בספטמבר 2014. נבדק ב-2015-11-11. {{cite web}}: (עזרה)
  3. ^ "Feature Engineering: How to transform variables and create new ones?". Analytics Vidhya. 2015-03-12. נבדק ב-2015-11-12.
  4. ^ "Q&A with Xavier Conort". kaggle.com. 2013-04-10. נבדק ב-12 בנובמבר 2015. {{cite web}}: (עזרה)
  5. ^ Domingos, Pedro (2012-10-01). "A few useful things to know about machine learning" (PDF). Communications of the ACM (באנגלית). 55 (10): 78–87. doi:10.1145/2347736.2347755.
  6. ^ "Big Data: Week 3 Video 3 - Feature Engineering". youtube.com.
  7. ^ Jalal, Ahmed Adeeb (1 בינואר 2018). "Big data and intelligent software systems". International Journal of Knowledge-based and Intelligent Engineering Systems. 22 (3): 177–193. doi:10.3233/KES-180383. {{cite journal}}: (עזרה)
  8. ^ "Creating Features". kaggle.com (באנגלית). נבדק ב-2021-09-30.
  9. ^ "Category Encoders — Category Encoders 2.2.2 documentation". contrib.scikit-learn.org. נבדק ב-2021-10-01.
  10. ^ "Feature Engineering" (PDF). 2010-04-22. נבדק ב-12 בנובמבר 2015. {{cite web}}: (עזרה)
  11. ^ "Feature engineering and selection" (PDF). Alexandre Bouchard-Côté. 1 באוקטובר 2009. נבדק ב-12 בנובמבר 2015. {{cite web}}: (עזרה)
  12. ^ "Feature engineering in Machine Learning" (PDF). Zdenek Zabokrtsky. אורכב מ-המקור (PDF) ב-4 במרץ 2016. נבדק ב-12 בנובמבר 2015. {{cite web}}: (עזרה)
  13. ^ Knobbe, Arno J.; Siebes, Arno; Van Der Wallen, Daniël (1999). "Multi-relational Decision Tree Induction" (PDF). Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 1704. pp. 378–383. doi:10.1007/978-3-540-48247-5_46. ISBN 978-3-540-66490-1.
  14. ^ "Its all about the features". Reality AI Blog. בספטמבר 2017. {{cite web}}: (עזרה)
  15. ^ "A Comparative Study Of Multi-Relational Decision Tree Learning Algorithm". {{cite journal}}: Cite journal requires |journal= (עזרה)
  16. ^ Leiva, Hector; Atramentov, Anna; Honavar, Vasant (2002). "Experiments with MRDTL – A Multi-relational Decision Tree Learning Algorithm" (PDF). {{cite journal}}: Cite journal requires |journal= (עזרה)
  17. ^ Yin, Xiaoxin; Han, Jiawei; Yang, Jiong; Yu, Philip S. (2004). "CrossMine: Efficient Classification Across Multiple Database Relations". Proceedings. 20th International Conference on Data Engineering. Proceedings of the 20th International Conference on Data Engineering. pp. 399–410. doi:10.1109/ICDE.2004.1320014. ISBN 0-7695-2065-0.
  18. ^ Frank, Richard; Moser, Flavia; Ester, Martin (2007). "A Method for Multi-relational Classification Using Single and Multi-feature Aggregation Functions". Knowledge Discovery in Databases: PKDD 2007. Lecture Notes in Computer Science. Vol. 4702. pp. 430–437. doi:10.1007/978-3-540-74976-9_43. ISBN 978-3-540-74975-2.
  19. ^ "Automating big-data analysis".
  20. ^ Kanter, James Max; Veeramachaneni, Kalyan (2015). "Deep Feature Synthesis: Towards Automating Data Science Endeavors". 2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA). IEEE International Conference on Data Science and Advanced Analytics. pp. 1–10. doi:10.1109/DSAA.2015.7344858. ISBN 978-1-4673-8272-4.
  21. ^ "Featuretools | An open source framework for automated feature engineering Quick Start". www.featuretools.com. נבדק ב-2019-08-22.
  22. ^ "ExploreKit: Automatic Feature Generation and Selection" (PDF).