המילון ההיסטורי ללשון העברית

מתוך ויקיפדיה, האנציקלופדיה החופשית
מאגרים מילון לוגו.png

המילון ההיסטורי ללשון העברית הוא מפעל מחקר רחב היקף של האקדמיה ללשון העברית, שמטרתו להעמיד מילון מדעי ללשון העברית על כל רבדיה ההיסטוריים.

בניגוד למילון שימושי מן הסוג המקובל, שתפקידו העיקרי להגדיר במדויק את משמעויותיהן של המילים המשמשות בשפה, מילון היסטורי מתמקד בשינויים שעברה כל מילה לאורך ההיסטוריה: גלגולי צורתה במהלך הדורות (כגון טֹפֶס > טְפוּס > טִפּוּס > דְּפוּס) וגיווני משמעיה, מהו התיעוד הראשון שלה בשפה ואימתי פסק השימוש בה, במקרה שפסק.

מענה על שאלות אלו מצריך מאגר גדול של טקסטים מתקופות הלשון השונות. בעוד שמילונים היסטוריים לשפות אירופה מסתמכים בדרך כלל על ציטוטים נבחרים מן הספרות של המאות הקודמות, המפעל הישראלי שואף להתבסס על כל הטקסטים העבריים שהגיעו לידינו מן העת העתיקה וראשית ימי הביניים, ועל מבחר גדול של חיבורים מן המאה ה־11 ועד קום המדינה. הטקסטים מוזנים למסד נתונים ממוחשב על פי עדי הנוסח הטובים ביותר שלהם, וכל מילה בהם מתויגת לערכה המילוני המתאים. כך מתאפשר לאחזר בסדר כרונולוגי את כלל מופעיו של כל ערך מילוני מבוקש, להשוות בין המופעים ולנסח באופן מדויק את גלגוליה של כל מילה עברית.

בשל היקפו ודיוקו הפך ברבות השנים מסד הנתונים של המילון ההיסטורי ממאגר פנימי שנועד לסייע בכתיבת ערכי המילון לארכיון ספרותי לאומי העומד בזכות עצמו, והוא כיום המאגר המקיף והמוסמך ביותר לטקסטים עבריים מכל תקופות הלשון.

הקמת מפעל המילון ההיסטורי[עריכת קוד מקור | עריכה]

יוזם מפעל המילון ההיסטורי היה נשיא ועד הלשון ונשיאהּ הראשון של האקדמיה ללשון העברית, פרופ' נפתלי הרץ טור־סיני. הוא העלה את הרעיון כבר בשנות השלושים, ועל פיו נקבע בתקנון האקדמיה משנת 1954 (כשנה לאחר הקמתה) כי אחת ממטרות המוסד היא "לעשות לכינוסו ולחקירתו של אוצר הלשון העברית לכל תקופותיה ושכבותיה". ההחלטה על כינון המפעל, בחסות כלכלית מלאה של מוסד ביאליק, אושרה במליאת האקדמיה בשלהי אותה שנה,[1] ובשנת 1955 הוקמה מועצת המערכת של המילון ההיסטורי. כחלוף השנים צומצמה ההתקשרות עם מוסד ביאליק עד שפסקה לגמרי.

בשנת 1956 נתמנה פרופ' זאב בן־חיים לעורך החטיבה של לשון חז"ל במילון. לשם קביעת אופייה של העבודה ביקר בן־חיים במערכות של מילונים חשובים באירופה, בהם המילון האנגלי של אוקספורד וה־Thesaurus Linguae Latinae. בסדרת ישיבות של מועצת מערכת המילון ההיסטורי במאי 1958 דיווח בן־חיים על ממצאיו והציג תוכנית מפורטת לארגון מחדש של מלאכת הכנת המילון.[2] הדוח וההמלצות פורסמו בשנת 1959,[3] ועוד באותה שנה התחיל בן־חיים ביישום תוכניתו. שנה זו נחשבת לשנת ייסודו של המילון ההיסטורי בפועל.

בהשראת מפעלו של רוברטו בוזה, הנחשב לחלוץ המחשוב בענף מדעי הרוח, הציע בן־חיים להשתית את עבודת ההכנה מראשיתה על "השיטה האוטומטית" (כלומר על מחשבים). בשנת 1961 החל הניסיון להיעזר ב"מכונות אוטומטיות" של חברת IBM לעיבוד החיבור התנאי ברייתא דמלאכת המשכן,[4][5] ובזה הפך המילון ההיסטורי למפעל הראשון בארץ (ומן הראשונים בעולם כולו) לעבד טקסט באמצעות מחשב.

ראשי המילון וחוקריו[עריכת קוד מקור | עריכה]

צוות עובדי המילון ההיסטורי מונה כשלושים חוקרים וחוקרות הנחלקים בין מדורים שונים על פי תחומי התמחותם. במהלך שנות קיומו של המפעל הטביעו בו את חותמם חוקרים רבים, חלקם לאורך תקופה של עשרות שנים, ובהם ראשי המדורים בעבר: פרופ' ישראל ייבין, ד"ר מרדכי מישור וד"ר בנימין אליצור בספרות העתיקה; ד"ר יחיאל קארה בספרות הגאונים; פרופ' ראובן מירקין ודורון רובינשטיין בספרות החדשה;  ד"ר אליקים וייסברג בספרות הרבנית; אהרן ברבריאן בפיוט הקדום ובשירת ספרד. ד"ר גבריאל בירנבאום היה מופקד על הכתיבה הניסיונית של ערכי המילון.

הכנת המילון[עריכת קוד מקור | עריכה]

איסוף המקורות[עריכת קוד מקור | עריכה]

בהכנתו של כל מילון יש להכריע קודם כול מה יהיו המקורות – היצירות הספרותיות שמהן יישאב החומר למילון. כבר בתחילת דרכו של המילון ההיסטורי נקבע העיקרון שלצד היצירות החשובות מבחינת השפעתן על האומה תיכללנה במסד הנתונים גם יצירות הנותנות ייצוג לתקופות השונות של היצירה העברית, למקומות גאוגרפיים שונים ולסוגות מגוונות, אף אם חשיבותן הספרותית של היצירות אינה רבה.

העבודות להכנת המילון החלו כצפוי בלשון המקרא, אך כעבור שנים אחדות שונתה מתכונת המילון, כאשר העורך בן־חיים החליט להתמקד במקורות העת העתיקה מחתימת המקרא ועד סוף תקופת הגאונים בלבד. ההחלטה שלא לכלול את המקרא בין מקורות אלו נומקה בעובדה שהחומר המקראי נתון לחוקרים בקונקורדנציות ובמילונים טובים, וניתן בקלות לשאוב אותו משם.

בהתאם לתוכנית זו הוציאה האקדמיה בשנת 1963 את "ספר המקורות" לספרות העתיקה, הכולל רשימה כרונולוגית מפורטת של המקורות למילון, ולגבי כל מקור – באילו מסירות נוסח (כתבי יד, קטעי גניזה, דפוסים ראשונים וכיו"ב) ומהדורות הוא נתון, ומהי המסירה העיקרית שעל פיה יובא במילון. מהדורה שנייה מתוקנת של ספר המקורות יצאה בשנת 1970, ומהדורה שלישית בשנת 1997.

בשנת 1977 פורסמה מחברת ראשונה של ספר המקורות לספרות החדשה, שכללה מבחר חיבורים מן השנים 1860–1920, ובשנת 2001 פורסם בשני כרכים ספר המקורות לספרות העברית בצפון־אפריקה משנת קנ"א ואילך.

עם הנגשתו של מאגר הטקסטים של המילון לציבור הרחב פסקה הוצאתם של ספרי המקורות בדפוס, והמידע על כל מקור מרוכז ב"פרטי החיבור" שבמאגר הממוחשב.

בניית מסד הנתונים[עריכת קוד מקור | עריכה]

השלב השני הוא הכנת מסד הנתונים הטקסטואליים שישמשו את המילון. כל המקורות הספרותיים שנקבעו כבסיס למילון מועתקים בקפידה למסד נתונים ממוחשב על פי עד הנוסח הטוב ביותר שלהם, תוך שימוש במנגנון מורכב של סימני התקנה, שנועדו להביע באופן השלם והמדויק ביותר את צורתו של הטקסט בעד הנוסח. לאחר מכן מתייגים עובדי המילון כל מילה עברית בטקסט לערך המילוני שלה (בצורות פועליות כולל התיוג מלבד השורש והבניין גם את הזמן הדקדוקי – עבר, עתיד וכדומה). באופן הזה הולכת ונוצרת מעין קונקורדנצייה ענקית של כל המקורות הנכללים במסד הנתונים, וזו מאפשרת לשלוף את כל הקטעים שבהם מופיעה מילה מסוימת (ערך מילוני או צורה נטויה).

העבודה על מסד הנתונים נמשכת כל העת, ולמן העשור השלישי של המאה ה־21 עיקר המאמץ הוא הרחבת המאגר בטקסטים מתקופת הביניים ומראשית העת החדשה.

בחיבורים שכבר עובדו כלולים כל המקורות מן העת העתיקה ובהם ספר בן סירא, החומר האפיגרפי מימי הבית השני ואילך (מגילות מדבר יהודה הלא מקראיות, איגרות בר כוכבא, כתובות ומטבעות), המשנה, התוספתא, התלמודים, מדרשי ההלכה ומדרשי האגדה (לרבות מדרשים קטנים ומאוחרים), ברכות ותפילות, ספרות ההיכלות וטקסטים מאגיים, פיוטים קדומים, כתבי הגאונים, חיבורים בענייני מסורה ודקדוק וחיבורים קראיים. כשישים שנה לאחר תחילת העבודה במילון, משנסתיים עיבודם של המקורות מן הספרות העתיקה שקבע בן־חיים, פנו עובדי המילון לטפל במקרא, ועיבודו (על פי כתר ארם צובה וכתב יד לנינגרד) הושלם בשנת 2022.

בשנת 2008 החל מפעל המילון לעבד חטיבות ספרותיות מתקופת הביניים שלמן סוף המאה ה־11 ועד לראשית המאה ה־16 – תחילה משירת ספרד, ובהמשך גם משתי חטיבות פרוזה המובחנות זו מזו במאפיינים הלשוניים שלהן: ספרות מקור (בעיקר ספרות רבנית – פירושים למקרא ולתלמוד, חיבורים הלכתיים, ספרי מוסר ושו"תים) וספרות התרגומים מערבית (ובראשם תרגומי התיבונים).

עוד בשנת 1969 הוחל בעיבוד מבחר מספרות החול של העת החדשה למן המאה ה־18 ועד שנות השלושים של המאה ה־20. ספרות ענפה זו כוללת חיבורים במדעי הטבע, ספרי היסטוריה וגאוגרפיה, מדריכים רפואיים, מסות, אוטוביוגרפיות, שבחי צדיקים, ספרות יפה (לרבות כל חיבוריהם של מנדלי מוכר ספרים, ביאליק ועגנון), מחזות ואף עיתונות עברית. בהמשך הורחבה היריעה גם לספרות שחוברה באיטליה ובאמסטרדם מתחילת המאה ה־16 ואילך.

שני חיבורים שעובדו לצורך שילובם במסד הנתונים יצאו לאור כמהדורות דפוס לעצמן: בשנת 1973 פרסם מפעל המילון ההיסטורי את ספר בן סירא העברי על פי כל עדי הנוסח הקדומים שלו, בצירוף הקונקורדנצייה ומפתחות שונים, ובשנת 2001 פורסם התלמוד הירושלמי על פי כתב יד ליידן (בצירוף מבוא מאת פרופ' יעקב זוסמן).

בסוף שנות השמונים הוחלט לפתוח לציבור הרחב בהדרגה את מסד הנתונים כולו, שעד אז היה זמין לעובדי המילון בלבד. בעקבות החלטה זו יצאו בשנת 1988 דפי זיעור (מיקרופיש) של נתוני חלק מספרות העת העתיקה, עד שנת 300 לסה"נ. כעבור עשר שנים הפיק מפעל המילון תקליטור בשם "מאגרים", הכולל את מסד הנתונים הממוחשב של ספרות העת העתיקה עד למאה ה־5 וכן תוכנה לחיפוש. מהדורה שנייה ומורחבת של התקליטור (עד המאה ה־11) יצאה בשנת 2001.

כמה שנים מאוחר יותר, עם שכלול האמצעים הטכנולוגיים ועקב הצורך לעדכן בהתמדה את מסד הנתונים שברשות הציבור לפי התקדמות העבודה במפעל, הוחלט לעבור לשיטה מקוונת. בשנת 2005, לאחר תקופת ניסיון קצרה, הועלה מסד הנתונים לאתר אינטרנט ייעודי של האקדמיה ללשון העברית, ושמו כשם התקליטור – "מאגרים". הגרסה המקוונת הראשונה של "מאגרים" נחנכה באופן רשמי במעמד ראש הממשלה אהוד אולמרט בעת ביקורו באקדמיה ב־19 ביוני 2006. אתר "מאגרים" הנוכחי, המציג את כל תקופות הלשון יחד,  עלה לאוויר בשנת 2014 ותוכנו מתעדכן אחת לכמה חודשים. נכון לשנת 2018 כולל "מאגרים" אלפי חיבורים, ובהם למעלה מ־16 מיליוני מילים המתויגות ליותר מ־55,000 ערכים מילוניים שונים. עם זה יש להדגיש שמסד הנתונים עדיין חסר חיבורים רבים וחשובים מימי הביניים, ונדרש שימוש זהיר ומושכל ב"מאגרים" כדי להימנע ממסקנות שגויות.

הגרסה המקוונת של "מאגרים" עד שנת 2014

כתיבת הערכים[עריכת קוד מקור | עריכה]

בחלוף השנים החלו ראשי המפעל לבחון אפשרויות שונות להתחיל בכתיבת גוף המילון במקביל להמשך העבודה השוטפת על מסד הנתונים. בשנת 1982 פורסמה מחברת לדוגמה: השורש ער"ב (למעשה מדובר במספר שורשי ער"ב הומונימיים) על כל ערכיו הנגזרים, כגון מערב, ערובה, עירב, התערב וכו'. השורש לערכיו נפרס על פני 88 עמודים, והוא התפרסם בכתב העת "לשוננו" בהוצאת האקדמיה ללשון העברית.[6]

בשנת 2005 החלה כתיבה ניסיונית נוספת של ערכים במילון על סמך הטקסטים מן הספרות העתיקה בלבד (עד המאה ה־11). בחוברת שיצאה ב־2006 הוצגו לדוגמה כמה שורשים מן האות ת' והערכים המשתלשלים מהם. לשם המחשה, ערכי השורש תרג"ם מחזיקים בחוברת זו 7 עמודים.

לקריאה נוספת[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ זכרונות האקדמיה ללשון העברית, כרך א, עמ' 45.
  2. ^ זכרונות האקדמיה ללשון העברית, כרך ה, עמ' 62.
  3. ^ ז' בן־חיים, "לעשייתו של המילון ההיסטורי ללשון העברית של האקדמיה ללשון העברית", לשוננו כג (תשי"ט), עמ' 102–123.
  4. ^ זכרונות האקדמיה ללשון העברית, כרך ט, עמ' 127.
  5. ^ דוגמאות לקונקורדנציה ולאוספי מלים של "ברייתא דמלאכת המשכן": ניסיון של אוטומאציה בחקר העברית במכונות IBM, ירושלים תשכ"א, באתר האקדמיה ללשון העברית.
  6. ^ לשוננו מו (תשמ"ב), חוברת 3–4.