Big Data
Big Data הוא תחום טכנולוגי המיועד לטיפול בכמות גדולה מאד של נתונים (data) בנפח שמעל מאות טרה-בית, בקצבי הגעה מהירים מאד וממקורות רבים ושונים. מסדי הנתונים היחסיים הקיימים אינם בנויים לאיחסון ולניתוח כמויות מידע כה גדולות, שרובן אינן מגיעות באופן מפורמט לפי תבניות ידועות מראש. העלות הזולה יחסית של אמצעי האיחסון מצד אחד והכמות האדירה של מידע המגיע משלל מקורות (אתרי אינטרנט, רשתות חברתיות, מכשירים סלולריים, מצלמות אבטחה, סנסורים ועוד) מצד שני, גורם לכך שמידע נאגר ללא מחיקה ומאפשר יכולות ניתוח תבניות (patterns) וקורלציות הנדרשות בעולמות תוכן רבים. עקב כך התפתחו החל מסוף העשור הראשון של המאה ה-21 כלים ואמצעים לאיחסון, ניהול וניתוח של כמויות מידע עצומות אלה תחת הכותרת הכללית נתוני עתק ("Big Data").
תוכן עניינים |
דוגמאות ליישומים [עריכה]
- מחקר מודיעין צבאי ומשטרתי - איסוף והצלבת נתונים משלל מקורות גלויים (הודעות טוויטר, רשומות כניסה ויציאה של משטרת הגבולות, תנועות מכשירים סלולריים ומכשירי GPS ועוד) ויעודיים (סנסורים שונים, מצלמות) לשם זיהוי תבניות וקשרים שיכולים להצביע אל פשעים עתידיים או לנתח בדיעבד מידע היסטורי על מנת לאתר פעילות מחשידה שקדמה לאירועי טרור.
- ביולוגיה - מיפוי גנום, מציאת קורלציות ותבניות לאיתור פגמים והשפעה של תרופות. פתרון בעיות הדורשות רמה גבוהה של סימולציה על פני שדה של מאות נתונים כגון חיזוי של מבני קיפול חלבונים.
- מטאורולוגיה - ניבוי מזג אויר על סמך זרם של אלפי נתונים ממקורות מידע מגונים (סנסורים קרקעיים ומוטסים, תמונות ווידאו, מידע היסטורי וכדומה).
- פיזיקה - חישוב מבנים ותהליכים באסטרונומיה והתנהגות חלקיקים במערכות קוונטיות. אחסון וניתוח מיליוני אירועים והתנגשויות במאיצי חלקיקים וגלאי נייטרינו.
- מסחר - ניתוח תבניות ומגמות בסחר במניות בבורסה, בפרט בתחום האלגו טריידינג. כריית מידע ממיליוני טרנזקציות כספיות לשם זיהוי התנהגות צרכנים, תמחור, גביה וחיוב של לקוחות טלקום, גילוי הונאות וכן שימוש בסטטיסטיקות וכריית מידע לטובת ניבוי אירועים עתידיים.
- לוחמת סייבר - גילוי פרצות אבטחה, נהלים, הצפנות ומאידך - גילוי נסיונות פריצה ומעקב אחר מקור התוקפן.
- אינדוקס וחיפוש מידע טקסטואלי - חיפוש במיליוני דפי טקסט, ספרים אלקטרוניים, דברי דואר אלקטרוני, מסמכים ארגוניים וכדומה.
סוגיות [עריכה]
אחסון [עריכה]
עקב דרישת רוב הלקוחות לקבלת תשובות מורכבות בזמן אמת או קרוב מאד לכך, אמצעי האחסון המתקדמים התומכים בכמויות מידע גדולות נדרשים לאתגרים של כתיבה ושליפה מהירות מאד. זאת מבלי לאבד יכולות של גיבוי ושחזור אמינים ואוטומטיים, גילוי ותיקון שגיאות, ביזור המידע על פני מספר אתרים גאוגרפיים ודחיסת מידע נבונה.
כתיבת מידע [עריכה]
כתיבת המידע צריכה להעשות בדרך סטנדרטית, שקופה ויעילה, באופן מנותק מהרכיבים יצרני המידע. מידע זורם כל העת מהתקנים רבים, שונים, משתנים בקצבים משתנים וללא כל שליטה של צרכן המידע (בעל המאגר) על שום אספקט של זרם הנתונים שהוזכר לעיל.
על המאגרים לספק מחד תמיכה בסטנדרטים של יצרני מידע מוכרים ומאידך, גמישות רבה לשינויים ויצירה של מתאמים (adapters) חדשים.
שליפה, ניתוח ומציאת תבניות [עריכה]
האתגר הגדול ביותר הוא ביצוע שליפות מהירות של מידע הן בדרכים קבועות מראש, אך בעיקר בדרך של זיהוי מהיר של תבניות וקשרים שונים, בלתי ניתנים לחיזוי אנושי מראש, בין מילוני פיסות מידע מרוחקות בזמן, במקום, בפורמט ובמקור הקליטה שלהן.
לשם זיהוי תבניות מוכנסים לשימוש בתחום אלגורתימים מתחומי האלגוריתמים האקראיים, האלגוריתמים האבולוציוניים, בינה מלאכותית, Business intelligence ועוד, שהורחבו והותאמו לעבודה בכמויות ובקצבים הנדרשים.
פרטיות [עריכה]
היקף המידע, מגוון המקורות של המידע והשימושים שנעשים בו מציבים אתגרים בקשר לפרטיות במידע. דיני הגנת הפרטיות הקיימים כיום, בעיקר באיחוד האירופי, מותאמים לסוגיות של מאגרי מידע מקומיים, קטנים יותר בהיקפם, שהוקמו למטרה מסוימת. נתוני עתק לא בהכרח מותאמים לכללים אלה.
דוגמאות לפתרונות [עריכה]
הפתרונות בתחום מגיעים מחברות מובילות בתחום האיחסון כגון EMC, IBM ו-נטאפ, בתחום מסדי הנתונים הרלציוניים כגון טרהדטה או אורקל (על ידי Oracle Exadata)ו י.ב.מ (באמצעות Netezza) בצד פתרונות חדשניים לא-SQL-יים כגון מסד הנתונים קסנדרה המשמש את פייסבוק, בתחום החיפוש והמידע כגון גוגל או אמזון (שהיא גם מובילה בתחום מחשוב הענן, המשיק לתחום נתוני עתק), חברות מתחום הסטטיסטיקה, כריית הנתונים והמודיעין העסקי כגון SAS, SPSS, Cloudera ועוד.
פתרון כגון Google BigTable, מציע קובייה רב-ממדית שכל "תא" בה מאחסן פיסת מידע בלתי מפורמטת (דף אינטרנט, תמונה, סרט וידאו, זרם נתונים בינאריים וכדומה). המפתח של התא הוא וקטור (רשימה) של שדות שמאפיינים את התא, שאחד מהם הוא חתימת-זמן מדויקת, לשם קבלת המימד ההיסטורי.
כיוונים אחרים באים מתחום החישוב המבוזר וכוללים פתרונות כמו Google MapReduce ו-Hadoop.
בינה עסקית ו Big Data [עריכה]
קיים קשר הדוק בין בינה עסקית לבין נתוני עתק. הקשר הנובע מהצורך להשתמש בכמויות מידע גדולות מאד על מנת לבצע ניתוחי בינה עסקית. התחום של בינה עסקית מבוססת נתוני עתק, מתפתח בקצב מהיר. יש הטוענים כי כלי בינה עסקית מסורתיים אינם בנויים באופן המאפשר להם להתמודד עם כמויות גדולות של נתונים. כתוצאה מכך פותחו כלי בינה עסקית ייעודיים לנתוני עתק. התחום של ניתוח ודווח נתוני נתוני עתק נקרא: Big Data Analysis.
ראו גם [עריכה]
לקריאה נוספת [עריכה]
- אנדרו מקאפי ואריק בריניולפסון, "מה חייבים לדעת מנהלים על מהפכת נחשולי הנתונים", אקזקיוטיב, דצמבר 2012 - ינואר 2013.
קישורים חיצוניים [עריכה]
- Big Data University
- דוד בר, חוקרים חזו דפוסי התפשטות מגפת שפעת ע”י ניתוח מידע מרשתות חברתיות
- דוד בר, ביג דאטה משנה את תחום היחוס של ניתוח הנתונים
- Jeff Jonas, A Big Vision and a Journey Worth Being Part Of
- אור הירשאוגה, היכונו לעולם היוטה-בייט, TheMarker
- ניו-יורק טיימס, איך ה-Big Data נהייתה כל-כך גדולה, TheMarker
- ניו-יורק טיימס, ביג-דאטה, ביג ביזנס, TheMarker
- אור הירשאוגה, ממפים את אוקיינוס המידע, TheMarker
- מקבץ כתבות בעברית בנושא מבית pc.co.il
- Bringing big data to the enterprise אתר IBM
- Is the Relational Database Doomed?
- What is big data? - O'Reilly Radar
- What is "Big Data?" מאתר ZDNet
- Predicting Behavior With Big Data
- נעמי דרום, רוצים שירות? תהיו מוכנים שיעקבו אחריכם, באתר הארץ, 30 בינואר 2013
- אורי פסובסקי, מה הם כבר יודעים?, באתר כלכליסט, 16 במאי 2013