מחסן נתונים – הבדלי גרסאות

מתוך ויקיפדיה, האנציקלופדיה החופשית
תוכן שנמחק תוכן שנוסף
Yonidebot (שיחה | תרומות)
מ בוט החלפות: ארגון; קובצי; לעתים;
שורה 12: שורה 12:
* '''[[יחס קריאה/כתיבה]]''' - במערכות עיבוד תנועות יחס זה הוא נמוך יותר - במערכות עיבוד תנועות מתבצעת כתיבה לבסיס הנתונים ועדכון בסיס הנתונים כחלק מהעבודה. במערכות מחסן נתונים נדיר מאד ביצוע פעולות כתיבה והן בעיקרן מערכות של קריאה בלבד. פעולות הכתיבה נעשות במרוכז כאשר נעשית טעינת נתונים תקופתית למחסן הנתונים.
* '''[[יחס קריאה/כתיבה]]''' - במערכות עיבוד תנועות יחס זה הוא נמוך יותר - במערכות עיבוד תנועות מתבצעת כתיבה לבסיס הנתונים ועדכון בסיס הנתונים כחלק מהעבודה. במערכות מחסן נתונים נדיר מאד ביצוע פעולות כתיבה והן בעיקרן מערכות של קריאה בלבד. פעולות הכתיבה נעשות במרוכז כאשר נעשית טעינת נתונים תקופתית למחסן הנתונים.
<br /> הבדלים מהותיים אלה גורמים לכך שמבחינה טכנית אופן העבודה בשתי הסביבות שונה:
<br /> הבדלים מהותיים אלה גורמים לכך שמבחינה טכנית אופן העבודה בשתי הסביבות שונה:
* אופן העבודה השונה יוצר [[סכימת נתונים|סכימות נתונים]] שונות בבסיס נתונים תפעולי ובמחסן נתונים. כמו כן בבסיסי נתונים של מחסן נתונים לעיתים לא נשמרים [[חוקי הנרמול]] של [[בסיס נתונים יחסי|בסיסי הנתונים היחסיים]].
* אופן העבודה השונה יוצר [[סכימת נתונים|סכימות נתונים]] שונות בבסיס נתונים תפעולי ובמחסן נתונים. כמו כן בבסיסי נתונים של מחסן נתונים לעתים לא נשמרים [[חוקי הנרמול]] של [[בסיס נתונים יחסי|בסיסי הנתונים היחסיים]].
* היות שבמערכות מחסן מידע אין [[Locality of Reference]] הן אינן יכולות להפיק תועלת מ[[זיכרון מטמון]] (Cache) ומדיסקים אלקטרוניים ([[SSD]]).
* היות שבמערכות מחסן מידע אין [[Locality of Reference]] הן אינן יכולות להפיק תועלת מ[[זיכרון מטמון]] (Cache) ומדיסקים אלקטרוניים ([[SSD]]).


== מוצרי תוכנה ==
== מוצרי תוכנה ==
בסיסי הנתונים המשמשים מחסן נתונים הם בסיסי נתונים יחסיים. גם בסביבות מחסן הנתונים נפוץ השימוש בשלושת בסיס הנתונים היחסיים הנפוצים:
בסיסי הנתונים המשמשים מחסן נתונים הם בסיסי נתונים יחסיים. גם בסביבות מחסן הנתונים נפוץ השימוש בשלושת בסיס הנתונים היחסיים הנפוצים:
[[אורקל (בסיס נתונים)|אורקל]], [[DB2]], [[Microsoft SQL Server]] ובנוסף להם [[Teradata]]. בסיס הנתונים האחרון שצוין הוא בסיס נתונים ייעודי למחסני נתונים והוא משולב עם [[חומרה]] ייעודית. Teradata משמש בעיקר אירגונים גדולים עם מחסני נתונים גדולים במיוחד.
[[אורקל (בסיס נתונים)|אורקל]], [[DB2]], [[Microsoft SQL Server]] ובנוסף להם [[Teradata]]. בסיס הנתונים האחרון שצוין הוא בסיס נתונים ייעודי למחסני נתונים והוא משולב עם [[חומרה]] ייעודית. Teradata משמש בעיקר ארגונים גדולים עם מחסני נתונים גדולים במיוחד.
<br /> החל משנת 2009 מציעה גם חברת [[אורקל (חברה)|אורקל]] מוצר המשלב חומרה ובסיס נתונים עבור מחסן נתונים. המוצר נקרא [[Exadata]]. המהדורה הראשונה מבוססת על חומרה של חברת [[HP]] והמהדורה השניה על חומרה של חברת [[סאן]].
<br /> החל משנת 2009 מציעה גם חברת [[אורקל (חברה)|אורקל]] מוצר המשלב חומרה ובסיס נתונים עבור מחסן נתונים. המוצר נקרא [[Exadata]]. המהדורה הראשונה מבוססת על חומרה של חברת [[HP]] והמהדורה השניה על חומרה של חברת [[סאן]].


== קשיים ובעיות ==
== קשיים ובעיות ==
* פרויקטים של הקמת מחסני נתונים הם פרויקטים מורכבים האורכים זמן רב (בדרך כלל מספר שנים) ועלותם יקרה. זו הסיבה לכך שחלק מהאירגונים אימצו גישה חלופית של הקמת הדרגתית של מאגרי נתונים חלקיים וקטנים יותר הנקראים [[Data Mart|Data Marts]].
* פרויקטים של הקמת מחסני נתונים הם פרויקטים מורכבים האורכים זמן רב (בדרך כלל מספר שנים) ועלותם יקרה. זו הסיבה לכך שחלק מהארגונים אימצו גישה חלופית של הקמת הדרגתית של מאגרי נתונים חלקיים וקטנים יותר הנקראים [[Data Mart|Data Marts]].
* בנייה נכונה של ה[[יישם|יישומים]]. אחד הגורמים לאי-הצלחה ביישומים הוא שהם מכווני יחידת המחשוב במקום לאפשר למשתמש העסקי להיות הגורם המוביל בנושא זה.
* בנייה נכונה של ה[[יישם|יישומים]]. אחד הגורמים לאי-הצלחה ביישומים הוא שהם מכווני יחידת המחשוב במקום לאפשר למשתמש העסקי להיות הגורם המוביל בנושא זה.
* עלויות תחזוקה גבוהות הנובעות מהצורך בטעינות תקופתיות של נתונים ומענה על שינויים עסקיים המחייבים שינויים בתכני ומבני הנתונים.
* עלויות תחזוקה גבוהות הנובעות מהצורך בטעינות תקופתיות של נתונים ומענה על שינויים עסקיים המחייבים שינויים בתכני ומבני הנתונים.
* הצורך בסינכרון מתמשך בין המערכות התפעוליות לבין מערכות מחסן הנתונים. הקושי הולך וגדל כתוצאה מהדינאמיות העסקית הגדלה הגורמת להגדלת תדירות שינויי מבני ותכני הנתונים במערכות התפעוליות וכתוצאה מקצב הגידול הגבוה בכמות הנתונים והמערכות התפעוליות ובסוגי הנתונים הנדרשים,
* הצורך בסינכרון מתמשך בין המערכות התפעוליות לבין מערכות מחסן הנתונים. הקושי הולך וגדל כתוצאה מהדינאמיות העסקית הגדלה הגורמת להגדלת תדירות שינויי מבני ותכני הנתונים במערכות התפעוליות וכתוצאה מקצב הגידול הגבוה בכמות הנתונים והמערכות התפעוליות ובסוגי הנתונים הנדרשים,
* איכות נתונים - איכות נתונים נמוכה מהווה גורם שכיח לכישלון פרויקטי מחסן נתונים.
* איכות נתונים - איכות נתונים נמוכה מהווה גורם שכיח לכישלון פרויקטי מחסן נתונים.
* [[אבטחת מידע]] ובעלות על הנתונים - המידע שעשוי להיות מוגן במערכות התפעוליות, עלול להיות חשוף לגישה לא מורשית. הדבר נכון במיוחד לקבצי הביננים (Staging).
* [[אבטחת מידע]] ובעלות על הנתונים - המידע שעשוי להיות מוגן במערכות התפעוליות, עלול להיות חשוף לגישה לא מורשית. הדבר נכון במיוחד לקובצי הביננים (Staging).


==ראו גם==
==ראו גם==

גרסה מ־23:27, 25 בדצמבר 2009

מחסן נתונים הוא בדרך כלל בסיס נתונים המשמש מערכות תומכות החלטה ובכלל זה מערכות בינה עסקית, כריית מידע ועיבוד אנליטי מקוון. בסיס נתונים זה הוא בדרך כלל בסיס נתונים גדול יחסית הניזון מנתונים תפעוליים ממספר גדול של מקורות שונים, העוברים שינוי על מנת להתאים אותם לדווח וניתוח לצורך קבלת החלטות. הנתונים מועברים לבסיס הנתונים באמצעות תהליך ETL ‏(Extract, Transform, Load).

מדוע נדרש מחסן נתונים?

ארגונים מנהלים מערכות מחשוב שונות שנתוניהן עשויים להיות בבסיסי נתונים שונים ובסביבות טכנולוגיות שונות. כמו כן קיימים יישומים מחלקתיים של מחלקות כגון: שכר, ייצור, שיווק. כל מחלקה שומרת בדרך כלל את הנתונים של היישומים המחלקתיים (נתונים עכשוויים ונתונים היסטוריים) במאגרי מידע ייעודיים. כאשר מנהלים או עובדים מבקשים לקבל חתך של כל הנתונים המאוחסנים במחלקות השונות, הם נתקלים בבעיה של טיפול מרוכז בכמות גדולה מאד של מידע ובבעיות כגון: הצלבת הנתונים, כפילויות נתונים ואי-התאמה בין נתונים. כדי להתגבר על בעיות אלה, מעתיקים את הנתונים למחסן הנתונים, שם הנתונים ממקורות שונים מועברים לסטנדרט אחיד.

עיבודי מחסן הנתונים ועיבודי בסיסי נתונים תפעוליים

המערכות האנליטיות והדיווחיות ממחסן הנתונים שונות באופן מהותי ממערכות עיבוד תנועות.
ההבדלים המהותיים הם:

  • זמני תגובה - מערכת עיבוד תנועות היא במקרים רבים מתבצע עיבוד תנועות מקוון המכתיב זמני תגובה קצרים ויציבים. במערכות אנליטיות העובדות מול מחסן נתונים מתבצעים עיבודים מורכבים העשויים לארוך זמן רב ולכן אינן מחיבות זמן תגובה קצר.
  • כמות המידע - מערכת עיבוד תנועות במקרים רבים מבצעת טרנסקציות על מידע מועט. מערכות מחסן נתונים מתבצעות על כמויות גדולות של מידע.
  • יחס קריאה/כתיבה - במערכות עיבוד תנועות יחס זה הוא נמוך יותר - במערכות עיבוד תנועות מתבצעת כתיבה לבסיס הנתונים ועדכון בסיס הנתונים כחלק מהעבודה. במערכות מחסן נתונים נדיר מאד ביצוע פעולות כתיבה והן בעיקרן מערכות של קריאה בלבד. פעולות הכתיבה נעשות במרוכז כאשר נעשית טעינת נתונים תקופתית למחסן הנתונים.


הבדלים מהותיים אלה גורמים לכך שמבחינה טכנית אופן העבודה בשתי הסביבות שונה:

מוצרי תוכנה

בסיסי הנתונים המשמשים מחסן נתונים הם בסיסי נתונים יחסיים. גם בסביבות מחסן הנתונים נפוץ השימוש בשלושת בסיס הנתונים היחסיים הנפוצים: אורקל, DB2, Microsoft SQL Server ובנוסף להם Teradata. בסיס הנתונים האחרון שצוין הוא בסיס נתונים ייעודי למחסני נתונים והוא משולב עם חומרה ייעודית. Teradata משמש בעיקר ארגונים גדולים עם מחסני נתונים גדולים במיוחד.
החל משנת 2009 מציעה גם חברת אורקל מוצר המשלב חומרה ובסיס נתונים עבור מחסן נתונים. המוצר נקרא Exadata. המהדורה הראשונה מבוססת על חומרה של חברת HP והמהדורה השניה על חומרה של חברת סאן.

קשיים ובעיות

  • פרויקטים של הקמת מחסני נתונים הם פרויקטים מורכבים האורכים זמן רב (בדרך כלל מספר שנים) ועלותם יקרה. זו הסיבה לכך שחלק מהארגונים אימצו גישה חלופית של הקמת הדרגתית של מאגרי נתונים חלקיים וקטנים יותר הנקראים Data Marts.
  • בנייה נכונה של היישומים. אחד הגורמים לאי-הצלחה ביישומים הוא שהם מכווני יחידת המחשוב במקום לאפשר למשתמש העסקי להיות הגורם המוביל בנושא זה.
  • עלויות תחזוקה גבוהות הנובעות מהצורך בטעינות תקופתיות של נתונים ומענה על שינויים עסקיים המחייבים שינויים בתכני ומבני הנתונים.
  • הצורך בסינכרון מתמשך בין המערכות התפעוליות לבין מערכות מחסן הנתונים. הקושי הולך וגדל כתוצאה מהדינאמיות העסקית הגדלה הגורמת להגדלת תדירות שינויי מבני ותכני הנתונים במערכות התפעוליות וכתוצאה מקצב הגידול הגבוה בכמות הנתונים והמערכות התפעוליות ובסוגי הנתונים הנדרשים,
  • איכות נתונים - איכות נתונים נמוכה מהווה גורם שכיח לכישלון פרויקטי מחסן נתונים.
  • אבטחת מידע ובעלות על הנתונים - המידע שעשוי להיות מוגן במערכות התפעוליות, עלול להיות חשוף לגישה לא מורשית. הדבר נכון במיוחד לקובצי הביננים (Staging).

ראו גם

קישורים חיצוניים

לקריאה נוספת

  • Kimball, Ralph and Ross, Margy. The Data Warehouse Toolkit Second Edition (2002) John Wiley and Sons, Inc. ISBN 0-471-20024-7
  • Friedman, Ted and Strange, Kevin. Architecture: The Foundation of Business Intelligence April 2004, Gartner Group