Big data

מתוך ויקיפדיה, האנציקלופדיה החופשית
(הופנה מהדף Big Data)
קפיצה אל: ניווט, חיפוש
החזיה (ויזואליזציה) של פעילות ויקיפדית שבוצעה על ידי המשתמש (בוט) "Pearle". המידע הקיים בוויקיפדיה הוא דוגמה לנתוני עתק.

Big Data (בִּיג דָּאטָה), או בעברית, נְתוּנֵי עָתֵק, הוא מונח המתייחס למאגר מידע הכולל נתונים מבוזרים, שאינם מאורגנים לפי שיטה כלשהי, שמגיעים ממקורות רבים, בכמויות גדולות, בפורמטים מגוונים, ובאיכויות שונות.

ניתן לאפיין נתוני עתק לפי חמישה מאפיינים (חמשת ה-V-ים):

  1. נפח (volume)
  2. מהירות (velocity)
  3. גיוון (variety)
  4. נדיפות (volatility)
  5. מהימנות (Veracity)

האתגר בניהול נתוני עתק הפך תחום זה לעניין מרכזי בטכנולוגיית מידע. מסדי הנתונים היחסיים הקיימים אינם בנויים לאחסון ולניתוח כמויות מידע גדולות, שרובן אינן מגיעות באופן מפורמט לפי תבניות אחידות וידועות מראש. העלות הזולה יחסית של אמצעי האחסון, מצד אחד, והכמות הגדולה של מידע המגיע משלל מקורות (אתרי אינטרנט, רשתות חברתיות, מכשירים סלולריים, מצלמות אבטחה, חיישנים ועוד), מצד שני, גורם לכך שמידע נאגר ללא מחיקה, ומאפשר יכולות ניתוח וזיהוי תבניות ומִתְאָמִים, הנדרשות בעולמות תוכן רבים.

דוגמאות ליישומים[עריכת קוד מקור | עריכה]

סוגיות[עריכת קוד מקור | עריכה]

אחסון[עריכת קוד מקור | עריכה]

עקב דרישת רוב הלקוחות לקבלת תשובות מורכבות בזמן אמת, או קרוב מאוד לכך, אמצעי האחסון המתקדמים, התומכים בכמויות מידע גדולות, נדרשים לאתגרים של כתיבה ושליפה מהירות מאוד. זאת מבלי לאבד יכולות של גיבוי ושחזור אמינים ואוטומטיים, גילוי ותיקון שגיאות, ביזור המידע על פני מספר אתרים גאוגרפיים ודחיסת מידע נבונה.

כתיבת מידע[עריכת קוד מקור | עריכה]

כתיבת המידע צריכה להעשות בדרך סטנדרטית, שקופה ויעילה, באופן מנותק מהרכיבים יצרני המידע. מידע זורם כל העת מהתקנים רבים, שונים, בקצבים משתנים וללא כל שליטה של צרכן המידע (בעל המאגר) על שום אספקט של זרם הנתונים שהוזכר לעיל.

על המאגרים לספק, מחד, תמיכה בתקנים של יצרני מידע מוכרים, ומאידך, גמישות רבה לשינויים ויצירה של מתאמים (adapters) חדשים.

שליפה, ניתוח ומציאת תבניות[עריכת קוד מקור | עריכה]

האתגר הגדול ביותר הוא ביצוע שליפות מהירות של מידע, הן בדרכים קבועות מראש (שאילתות), אך בעיקר בדרך של זיהוי מהיר של תבניות וקשרים שונים, בלתי ניתנים לחיזוי אנושי מראש, בין מיליוני פיסות מידע מרוחקות בזמן, במקום, בפורמט ובמקור הקליטה שלהן.

לשם זיהוי תבניות ופיתוח מערכות לומדות, מוכנסים לשימוש בתחום אלגוריתמים מתחומי האלגוריתמים האקראיים, האלגוריתמים האבולוציוניים, בינה מלאכותית, בינה עסקית ועוד, שהורחבו והותאמו לעבודה בכמויות ובקצבים הנדרשים.

פרטיות[עריכת קוד מקור | עריכה]

היקף המידע, מגוון המקורות של המידע והשימושים שנעשים בו מציבים אתגרים בקשר לפרטיות במידע. דיני הגנת הפרטיות הקיימים בתחילת המאה ה-21, בעיקר באיחוד האירופי, מבוססים ומותאמים לסוגיות של מאגרי מידע מקומיים, קטנים יותר בהיקפם, שהוקמו למטרה מסוימת. נתוני עתק לא בהכרח מותאמים לכללים אלה.

דוגמאות לפתרונות[עריכת קוד מקור | עריכה]

הפתרונות בתחום מגיעים מחברות מובילות ממספר תחומים:

פתרון כגון Google BigTable, מציע קובייה רב-ממדית, שכל "תא" בה מאחסן פיסת מידע בלתי מפורמטת (דף אינטרנט, תמונה, סרט וידאו, זרם נתונים בינאריים וכדומה). המפתח של התא הוא וקטור (רשימה) של שדות שמאפיינים את התא, שאחד מהם הוא חתימת-זמן מדויקת, לשם קבלת המימד ההיסטורי.

כיוונים אחרים באים מתחום החישוב המבוזר, וכוללים פתרונות כמו Goole MapReduce ו-Hadoop.

בינה עסקית ונתוני עתק[עריכת קוד מקור | עריכה]

קיים קשר הדוק בין בינה עסקית לבין נתוני עתק. הקשר נובע מהצורך להשתמש בכמויות מידע גדולות מאוד על מנת לבצע ניתוחי בינה עסקית תקפים ומשמעותיים. התחום של בינה עסקית מבוססת נתוני עתק מתפתח בקצב מהיר. יש הטוענים כי כלי בינה עסקית מסורתיים אינם בנויים באופן המאפשר להם להתמודד עם כמויות גדולות של נתונים. כתוצאה מכך, פותחו כלי בינה עסקית ייעודיים לנתוני עתק.

ראו גם[עריכת קוד מקור | עריכה]

לקריאה נוספת[עריכת קוד מקור | עריכה]

  • עופר דודזדה ואמיר סנדץ, (ביג דאטה) כלים מעשיים לניתוח בסיסי נתונים, הוצאת אוריון, אפריל 2014

קישורים חיצוניים[עריכת קוד מקור | עריכה]

ויקישיתוף מדיה וקבצים בנושא Big data בוויקישיתוף

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ אוריאל דסקל, והמספר הנוסף הוא..., באתר כלכליסט, 3 ביולי 2014