טיוב נתונים

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

טיוב נתונים או טיוב מידע הוא שיפור איכות הנתונים האגורים בבסיסי נתונים. השיפור נדרש בנתונים שאינם שלמים, אינם מדויקים, אינם נכונים וכדומה. צורך בטיוב נתונים מתגלה במהלך מחזור החיים של מערכת המידע, ובפרט בעת מעבר למערכת מידע מתקדמת יותר.

נתונים בבסיסי נתונים משמשים לתפעול שוטף של הארגון וכבסיס לקבלת החלטות. נתונים באיכות ירודה יביאו לשיבושים בתפעול השוטף ולהחלטות שגויות, ולכן בטיובם תועלת רבה. דוגמאות:

  • במערכת לניהול משאבי אנוש נרשם מין העובדת כזכר במקום כנקבה. זו שגיאת הקלדה פשוטה, הגורמת לטעות בעלת ערך כספי ניכר בחישוב מס ההכנסה לעובדת, כמו גם בקביעת זכויות אחרות שלה התלויות במין.
  • במערכת לניהול מלאי תחמושת נוצר פער בין המלאי בפועל למלאי הרשום במערכת, וכתוצאה מכך מוצג למקבלי ההחלטות בעת מלחמה מידע על מחסור חריף בתחמושת.

שגיאות ואופן טיובן[עריכת קוד מקור | עריכה]

בעת הזנת נתונים למערכת מידע, נבדקת תקינותם של הנתונים, כדי להבטיח את אמינותם. חרף זאת, במהלך פעילותה של מערכת מידע, ובפרט במעבר למערכת מידע מתקדמת יותר, עולה צורך בטיוב הנתונים. צורך זה נובע בדרך כלל מטעויות או חוסרים בנתונים המקוריים, או מטעויות הקלדה שלא התגלו בעת הזנת בנתונים לשם אחסונם בבסיס נתונים. דוגמאות:

  • מאגר הנתונים הוקם באמצעות הקלדה של נתונים שנוהלו בכרטסת בכתב יד. בתהליך זה התקשה המקליד לעתים לזהות את כתב היד, והחליף בין אותיות דומות, כגון "צ" ו"ד", וכך השם הנשי "דבי" הפך לשם הגברי "צבי". בנוסף, לעתים המקליד החליף בין מקשים סמוכים במקלדת ושיבש שמות. טעות מסוג זה קשה לגלות בבדיקה ממוחשבת, משום שהשם "צבי" נראה תקין לא פחות מאשר השם "דבי".
  • שמו של עובד נרשם בשם החיבה שבו הוא מוכר, אך שם זה שונה משמו הרשמי, ולכן יוצר קושי בעת העברת נתונים ממערכת מידע זו למערכת מידע אחרת שבה העובד רשום בשמו הרשמי.
  • בעת איסוף הנתונים נרשמה בשדה "תאריך לידה" רק שנת הלידה של האדם, ומאוחר יותר התברר שנחוץ תאריך מלא, הכולל יום וחודש. מצב זה מצריך פנייה אל האדם, לקבלת המידע החסר.
  • בשדה "יישוב", העוסק בכתובת בישראל, יש מקום לכאלף ערכים, כמספר היישובים בישראל. בעת הקמת מערכת המידע הותר בשדה זה תוכן חופשי (ללא בדיקתו מול טבלת היישובים), ורק לאחר זמן התברר שחופש זה יוצר קושי, למשל כאשר אנו מבקשים לקבל את כל תושבי תל אביב, ומגלים ששם העיר נכתב בדרכים מגוונות: "תל אביב", "ת"א" "תל אביב יפו" ועוד. לטיפול בבעיה ניתן להפעיל תוכנת טיוב, שמטרתה לגלות את כל שמות היישובים שאינם תקניים. את השם "ת"א" קל לזהות כאופן המקובל לכתוב את שם העיר תל אביב-יפו, ולתקן את ערך השדה במאגר הנתונים. במקרים קשים יותר יש להפעיל שיטות אחרות, כגון הצלבה עם נתונים אחרים, וכאשר גם זה אינו אפשרי, יש לייצר רשימת שגיאות לטיפול ידני.
  • הצלבת מידע במאגר הנתונים עשויה לגלות בו סתירות פנימיות הדורשות תיקון. למשל במאגר מידע המייצג אוכלוסייה, ברשומה של אדם א' רשום שהוא נשוי לאדם ב'. הטיוב יוודא שאדם בשם המתאים קיים במערכת, והמידע תואם (כלומר ברשומה של אדם ב' רשום שהוא נשוי ל-א', תאריך הנישואים תואם בין הרשומות, וכדומה).
  • ניתוח סטטיסטי של הנתונים עשוי להצביע על קיומן של שגיאות. דוגמה:במערכת מרשם תושבים מתגלה ש-60% מהילדים הם זכרים, ורק 40% נקבות. ההנחה שהתפלגות המינים בין הילדים צריכה להיות זהה, מעידה שחל שיבוש ניכר ברישום מין הילדים (בלי להצביע על הילדים שברישומיהם חל השיבוש).