עיבוד נתונים מקדים

מתוך ויקיפדיה, האנציקלופדיה החופשית

עיבוד נתונים מקדיםאנגלית: Data pre-processing) הוא מונח המתייחס לשלב הקודם לניתוח הנתונים, שמטרתו לשפר את יכולות הניתוח והסקת המידע מהנתונים באמצעות הפעלת כלים המשנים חלקים מסוימים במידע ובאמצעות הסרה של חלקי מידע לא נחוצים[1]. שלב עיבוד הנתונים המקדים הוא שלב חשוב של הכנת נתונים בתהליך כריית מידע.

כאשר אין בקרה הדוקה על הנתונים הנכנסים למאגר מידע, דבר הקרוי בעגה "זבל פנימה, זבל החוצה" (GIGO), נתונים שגויים או לא רלוונטיים נכנסים למאגר המידע. לדוגמה, עלולים להיכנס נתונים של משתנה מסוים מחוץ לטווח הרלוונטי (משקל: 900 קילו) או שילוב נתונים בלתי אפשרי בין כמה משתנים (למשל, מין: זכר, בהריון: כן). באופן מקביל ברישומי EEG המנסים לעקוב אחר פעילות המוח, ייתכן וייכנסו אותות אשר מקורם לא בקליפת המוח, אלא בשרירי הקרקפת. בהליך העיבוד המקדים, מפרקים את האותות באמצעות שיטות לזיהוי רכיבים בלתי תלויים כמו independent component analysis (ICA), תרים אחר אותות בעליי מאפיינים מיוחדים המזוהים עם פעילות שרירי הקרקפת, ומסירים אותם[2].

ניתוח הנתונים לפני שבוצע איתור בעיות מסוג זה, או ללא התייחסות מתאימה לאותן הבעיות בטרם הניתוח עלול להוביל להסקת מסקנות שגויות או פחות מדוייקות[3]. בשלב עיבוד הנתונים המקדים מטפלים בבעיות אלו. לעיתים הליך זה הוא כה חשוב בהתייחס למסד הנתונים הספציפי, עד שהוא הופך להיות השלב החשוב ביותר בהליך השימוש בנתונים בכללותו[4].

דוגמאות להליכים המבצעים בעיבוד נתונים מקדים הם: ניקוי, בחירת מופעים, נורמליזציה, One Hot Encoding, טרנספורמציה, חילוץ ובחירה של תכונות וכו'.

עיבוד הנתונים המקדים עשוי להשפיע על פרשנות התוצאות של הניתוח בכללותו[5]. לפיכך יש להפעיל שיקול דעת בהפעלת הכלים השונים כחלק מהליך זה, מתוך הבנה של המשמעויות שהכלים יוצרים על פרשנות התוצאות.

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ "Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data". Tableau (באנגלית אמריקאית). נבדק ב-2021-10-17.
  2. ^ Luck, S. J. (2014). An introduction to the event-related potential technique. MIT press.
  3. ^ Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.
  4. ^ "Ten quick tips for machine learning in computational biology". BioData Mining. 10 (35): 35. בדצמבר 2017. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465. {{cite journal}}: (עזרה)
  5. ^ Oliveri, Paolo; Malegori, Cristina; Simonetti, Remo; Casale, Monica (2019). "The impact of signal preprocessing on the final interpretation of analytical outcomes – A tutorial". Analytica Chimica Acta (באנגלית). 1058: 9–17. doi:10.1016/j.aca.2018.10.055. PMID 30851858.