מחסן נתונים – הבדלי גרסאות

מתוך ויקיפדיה, האנציקלופדיה החופשית
תוכן שנמחק תוכן שנוסף
Yanivreg (שיחה | תרומות)
מ טעוית הקלדה
שורה 33: שורה 33:


== עיבודי מחסן הנתונים ועיבודי בסיסי נתונים תפעוליים ==
== עיבודי מחסן הנתונים ועיבודי בסיסי נתונים תפעוליים ==
המערכות האנליטיות והדיווחיות ממחסן הנתונים שונות באופן מהותי מ[[מערכת עיבוד תנועות|מערכות עיבוד תנועות]].
המערכות האנליטיות והדיווחיות ממחסן הנתונים שונות באופן מהותי מ[[מערכת עיבוד תנועות|מערכות עיבוד תנועות]]. ההבדלים הם:
<br /> ההבדלים המהותיים הם:
* '''זמני תגובה''' - מערכת עיבוד תנועות היא במקרים רבים מתבצע [[עיבוד תנועות מקוון]] המכתיב [[זמן תגובה|זמני תגובה]] קצרים ויציבים. במערכות אנליטיות העובדות מול מחסן נתונים מתבצעים עיבודים מורכבים העשויים לארוך זמן רב ולכן אינן מחיבות זמן תגובה קצר.
* '''זמני תגובה''' - מערכת עיבוד תנועות היא במקרים רבים מתבצע [[עיבוד תנועות מקוון]] המכתיב [[זמן תגובה|זמני תגובה]] קצרים ויציבים. במערכות אנליטיות העובדות מול מחסן נתונים מתבצעים עיבודים מורכבים העשויים לארוך זמן רב ולכן אינן מחיבות זמן תגובה קצר.
* '''כמות המידע''' - מערכת עיבוד תנועות במקרים רבים מבצעת טרנסקציות על מידע מועט. מערכות מחסן נתונים מתבצעות על כמויות גדולות של מידע.
* '''כמות המידע''' - מערכת עיבוד תנועות במקרים רבים מבצעת טרנסקציות על מידע מועט. מערכות מחסן נתונים מתבצעות על כמויות גדולות של מידע.
* '''[[יחס קריאה/כתיבה]]''' - במערכות עיבוד תנועות יחס זה הוא נמוך יותר - במערכות עיבוד תנועות מתבצעת כתיבה לבסיס הנתונים ועדכון בסיס הנתונים כחלק מהעבודה. במערכות מחסן נתונים נדיר מאד ביצוע פעולות כתיבה והן בעיקרן מערכות של קריאה בלבד. פעולות הכתיבה נעשות במרוכז כאשר נעשית טעינת נתונים תקופתית למחסן הנתונים.
* '''[[יחס קריאה/כתיבה]]''' - במערכות עיבוד תנועות יחס זה הוא נמוך יותר - במערכות עיבוד תנועות מתבצעת כתיבה לבסיס הנתונים ועדכון בסיס הנתונים כחלק מהעבודה. במערכות מחסן נתונים נדיר מאד ביצוע פעולות כתיבה והן בעיקרן מערכות של קריאה בלבד. פעולות הכתיבה נעשות במרוכז כאשר נעשית טעינת נתונים תקופתית למחסן הנתונים.
הבדלים אלה גורמים שמבחינה טכנית אופן העבודה בשתי הסביבות שונה. כך נוצרות [[סכימת נתונים|סכימות נתונים]] שונות בבסיס הנתונים התפעולי ובמחסן הנתונים. כמו כן בבסיסי נתונים של מחסן הנתונים לעתים לא נשמרים [[נירמול בסיס נתונים|חוקי הנרמול]] של [[בסיס נתונים יחסי|בסיסי הנתונים היחסיים]]. כמו כן, היות שבמערכות מחסן מידע אין [[Locality of Reference]] הן אינן יכולות להפיק תועלת מ[[זיכרון מטמון]] ומ[[SSD|דיסקים אלקטרוניים]].
<br /> הבדלים מהותיים אלה גורמים לכך שמבחינה טכנית אופן העבודה בשתי הסביבות שונה:
* אופן העבודה השונה יוצר [[סכימת נתונים|סכימות נתונים]] שונות בבסיס נתונים תפעולי ובמחסן נתונים. כמו כן בבסיסי נתונים של מחסן נתונים לעתים לא נשמרים [[נירמול בסיס נתונים|חוקי הנרמול]] של [[בסיס נתונים יחסי|בסיסי הנתונים היחסיים]].
* היות שבמערכות מחסן מידע אין [[Locality of Reference]] הן אינן יכולות להפיק תועלת מ[[זיכרון מטמון]] (Cache) ומדיסקים אלקטרוניים ([[SSD]]).


== מוצרי תוכנה ==
== מוצרי תוכנה ==

גרסה מ־12:07, 8 באוגוסט 2012

מחסן נתונים (אנגלית: Data Warehouse) הוא בסיס נתונים המשמש מערכות תומכות החלטה. הנתונים לרוב מיוצאים ממערכת אחת או מספר מערכות תפעוליות לשם הסקירה.

מחסן הנתונים לרוב משמר את היכולות שלו בעזרת שלוש שכבות: הצגה, היתוך וגישה. כל יכולות מחסן הנתונים נבנות כדי לשרת את משתמש הקצה. הצגה נועדה כדי לשמור את הנתונים הגולמיים לשימוש מאוחר יותר על ידי מפתחים (מנתחים ותומכים). שכבת ההיתוך נועדה כדי לחבר, להשוות ולהצליב בין מידע ממקומות ומסוגים שונים ובכדי שתהיה שכבת אבסטרקציה מהמשתמש. שכבת הגישה נועדה לייצא או להציג מידע למשתמש.

הגדרה זאת של מחסן נתונים מתמקדת בצד האיחסוני. מקורות המידע מטוהרים, עוברים עיבוד, קיטלוג ומובאים לשימוש על ידי מנהלים ובעלי מקצוע אחרים לשם בינה עסקית, כריית מידע ועיבוד אנליטי מקוון. אולם האמצעים הטכניים אותם משמישים כדי להביא את הנתונים למצב הזה (בפרט תהליך Extract, Transform, Load) וניהול ה-Metadata) נחשבים גם חלקים מרכזיים במושג מחסן נתונים. הפניות רבות למושג מחסן הנתונים מדברות על הגדרה זאת.

מדוע נדרש מחסן נתונים?

הצורך במחסן נתונים עולה כאשר ארגון זקוק לניתוח ודיווח אמין, משולב ואחיד של כלל הנתונים שלו ברמות צבירה שונות.

המציאות הפרקטית של ארגונים רבים היא שתשתיות המידע שלהם מנוהלות על ידי מספר מערכות מידע הטרוגניות. כך למשל לארגון מסוים עשויה להיות מערכת שמנהלת את קשרי הלקוחות, מערכת אחרת המנהלת את משאבי האנוש, מערכת שלישית שמנהלת את ניהול המכירות ומערכת רביעית המנהלת את הכספים בארגון. לעתים קרובות מערכות מתממשקות אחת עם השנייה בצורה לא מספקת אם בכלל ושאלות פשוטות כגון: "כמה זמן לקח לנציג לקוחות א' לעבוד מול לקוח ג'? כמה מוצרים מכרנו ללקוח ג'? האם לקוח ג' היה מרוצה מהשירות שסיפקנו לו? האם לקוח ג' שילם על מוצריו בזמן?" ונתינת תשובה לשאלות אלה עשויה להיות משימה קשה מאוד על אף שהמידע נמצא "אי שם" בין המערכות השונות.

בעיה נוספת היא שמערכות לתכנון משאבי ארגון מתוכננות כדי לענות על צרכים ספציפיים בתוך הארגון. לדוגמה מערכת כלכלית עשויה לעזור להבין מידע על מוצר מסוים; מתי הוא נקנה, מתי הועבר ללקוח, מתי שילמו עבורו ולעתים המערכת עשויה לספק שירותי חשבונאות נוספים כגון מניעה של תיעוד כפול. מידע כזה הוא שימושי מאוד עבור רואה החשבון של הארגון או עבור האחראי על הרכש אך מנכ"ל הארגון בהחלט לא מעוניין במידע ממוקד כ"כ. המנכ"ל לרוב מתעניין בשאלות כגון "מה היא העלות?" או "האם היוזמה האחרונה שלנו הורידה את ההוצאות שלנו?".

בכלליות ניתן לומר שזהו תפקידו של מחסן הנתונים לפתור בעיות אלה. בעולם מחסן הנתונים הנתונים במערכות האופרטיביות מקבלות יחס של מובן מאליו. על אף שהנתונים אולי נשמרים במערכות המקור בצורה שאינה מאפשרת אינטגרציה, בתפיסת מחסן הנתונים המטרה היא לייצר רצף של מידע. שיטת מחסן הנתונים מקדמת מטרה זאת במספר שיטות, בין השאר על ידי הקמת מאגרי נתונים חדשים התומכים בשאילתות רלוונטיות.

ארכיטקטורה

המילה ארכיטקטורה במובן של מחסן נתונים ארגוני משמעותה היא התפיסה שעל בסיסה בונים את מחסן הנתונים. אין ארכיטקטורה אחת נכונה, רק מספר גישות המתאימות לצרכים ארגוניים וסביבות עבודה שונות. מידת ההתאמה של ארכיטקטורה מסוימת ניתן לבחינה בכמה היא מסייעת בבניית, תחזוקת ושימוש במחסן הנתונים.

דוגמה אחת לארכיטקטורה של מחסן נתונים יכולה להיות כדלקמן:

שכבת מבני נתונים תפעוליים

נתוני המקור של מחסן הנתונים - מערכת לתכנון משאבי ארגון נופלת תחת הגדרה זאת.

שכבת גישה לנתונים

ממשק העברת המידע בין השכבה התפעולית לשכבת גישה למידע - כלים לייצוא, שינוי והעלאה של נתונים הם דוגמה לדברים שיופיעו בשכבה זאת.

שכבת נתוני מעטפת

מילון נתונים - מילון זה לרוב גדול יותר ממילונים הקיימים במערכות תפעוליות. לעתים קיימים מילונים גם עבור המחסן כולו וגם עבור נתונים מסוימים אליהם ניתן לגשת בעזרת כלים או דו"חות מסוימים.

שכבת גישה למידע

הנתונים אליהם ניגשים או הכלים בהם משתמשים כדי לקבל דיווחים או ניתוחים של נתוני המקור - כלי בינה עסקית כלולים בשכבה הזאת.

עיבודי מחסן הנתונים ועיבודי בסיסי נתונים תפעוליים

המערכות האנליטיות והדיווחיות ממחסן הנתונים שונות באופן מהותי ממערכות עיבוד תנועות. ההבדלים הם:

  • זמני תגובה - מערכת עיבוד תנועות היא במקרים רבים מתבצע עיבוד תנועות מקוון המכתיב זמני תגובה קצרים ויציבים. במערכות אנליטיות העובדות מול מחסן נתונים מתבצעים עיבודים מורכבים העשויים לארוך זמן רב ולכן אינן מחיבות זמן תגובה קצר.
  • כמות המידע - מערכת עיבוד תנועות במקרים רבים מבצעת טרנסקציות על מידע מועט. מערכות מחסן נתונים מתבצעות על כמויות גדולות של מידע.
  • יחס קריאה/כתיבה - במערכות עיבוד תנועות יחס זה הוא נמוך יותר - במערכות עיבוד תנועות מתבצעת כתיבה לבסיס הנתונים ועדכון בסיס הנתונים כחלק מהעבודה. במערכות מחסן נתונים נדיר מאד ביצוע פעולות כתיבה והן בעיקרן מערכות של קריאה בלבד. פעולות הכתיבה נעשות במרוכז כאשר נעשית טעינת נתונים תקופתית למחסן הנתונים.

הבדלים אלה גורמים שמבחינה טכנית אופן העבודה בשתי הסביבות שונה. כך נוצרות סכימות נתונים שונות בבסיס הנתונים התפעולי ובמחסן הנתונים. כמו כן בבסיסי נתונים של מחסן הנתונים לעתים לא נשמרים חוקי הנרמול של בסיסי הנתונים היחסיים. כמו כן, היות שבמערכות מחסן מידע אין Locality of Reference הן אינן יכולות להפיק תועלת מזיכרון מטמון ומדיסקים אלקטרוניים.

מוצרי תוכנה

בסיסי הנתונים המשמשים מחסן נתונים הם בסיסי נתונים יחסיים. גם בסביבות מחסן הנתונים נפוץ השימוש בשלושת בסיס הנתונים היחסיים הנפוצים: אורקל, DB2, Microsoft SQL Server ובנוסף להם Teradata. בסיס הנתונים האחרון שצוין הוא בסיס נתונים ייעודי למחסני נתונים והוא משולב עם חומרה ייעודית. Teradata משמש בעיקר ארגונים גדולים עם מחסני נתונים גדולים במיוחד.
החל משנת 2009 מציעה גם חברת אורקל מוצר המשלב חומרה ובסיס נתונים עבור מחסן נתונים. המוצר נקרא Exadata. המהדורה הראשונה מבוססת על חומרה של חברת HP והמהדורה השנייה על חומרה של חברת סאן.

קשיים ובעיות

  • פרויקטים של הקמת מחסני נתונים הם פרויקטים מורכבים האורכים זמן רב (בדרך כלל מספר שנים) ועלותם יקרה. זו הסיבה לכך שחלק מהארגונים אימצו גישה חלופית של הקמת הדרגתית של מאגרי נתונים חלקיים וקטנים יותר הנקראים Data Marts.
  • בנייה נכונה של היישומים. אחד הגורמים לאי-הצלחה ביישומים הוא שהם מכווני יחידת המחשוב במקום לאפשר למשתמש העסקי להיות הגורם המוביל בנושא זה.
  • עלויות תחזוקה גבוהות הנובעות מהצורך בטעינות תקופתיות של נתונים ומענה על שינויים עסקיים המחייבים שינויים בתכני ומבני הנתונים.
  • הצורך בסינכרון מתמשך בין המערכות התפעוליות לבין מערכות מחסן הנתונים. הקושי הולך וגדל כתוצאה מהדינאמיות העסקית הגדלה הגורמת להגדלת תדירות שינויי מבני ותכני הנתונים במערכות התפעוליות וכתוצאה מקצב הגידול הגבוה בכמות הנתונים והמערכות התפעוליות ובסוגי הנתונים הנדרשים,
  • איכות נתונים - איכות נתונים נמוכה מהווה גורם שכיח לכישלון פרויקטי מחסן נתונים.
  • אבטחת מידע ובעלות על הנתונים - המידע שעשוי להיות מוגן במערכות התפעוליות, עלול להיות חשוף לגישה לא מורשית. הדבר נכון במיוחד לקובצי הביננים (Staging).

ראו גם

לקריאה נוספת

  • Kimball, Ralph and Ross, Margy. The Data Warehouse Toolkit Second Edition (2002) John Wiley and Sons, Inc. ISBN 0-471-20024-7
  • Friedman, Ted and Strange, Kevin. Architecture: The Foundation of Business Intelligence April 2004, Gartner Group

קישורים חיצוניים