תרגום מכונה

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

תרגום מכונה (Machine Translation – MT) הוא פעולת תרגום משפה אחת לשפה אחרת המבוצעת על ידי תוכנת מחשב. התוכנה קולטת נוסח (לרוב טקסט כתוב) בשפה אחת, הנקראת שפת המקור, ופולטת תרגום של נוסח זה בשפת היעד. תרגום מכונה נקרא גם "תרגום ממוחשב", "תרגום אוטומטי", או "תרגום באמצעות מחשב".

תרגום מכונה הוא אחד מהנושאים הראשונים שהתעניינו בהם במדעי המחשב. אף שתרגום באמצעות מכונה הוא יעד חמקמק, כיום ישנן כמה מערכות המועילות לצרכים מסוימים. הענף במדעי המחשב העוסק בתרגום מכונה ובסוגיות דומות נקרא "עיבוד שפה טבעית" (Natural Language Processing - NLP).

המונח תרגום מכונה מתייחס לתרגום של טקסטים שלמים, ולא של מילים בודדות. תוכנה לתרגום של מילים בודדות נקראת לעתים מילון ממוחשב, משום שהמבנה שלה דומה למילון דו-לשוני מודפס. תרגום מילים הוא מלאכה פשוטה יחסית, ותוכנות מסחריות כמו בבילון ואחרות מבצעות אותה בהצלחה רבה. התוכנות מציעות בדרך כלל מספר תרגומים אפשריים לכל מילה.

תרגום טקסטים שלמים הוא משימה קשה לאין שיעור, משום שלא די בו במציאת התרגומים האפשריים של כל מילה, אלא נדרשת הבנה של המשמעות הנכונה בהקשר. על הקושי שבביצוע משימה זו ניתן ללמוד מהסיפור (הבדיוני, כנראה) הבא:

תוכנת תרגום התבקשה לתרגם מאנגלית לרוסית את המשפט (שמקורו בברית החדשה) The spirit is willing but the flesh is weak ("הן הרוח חפצה והבשר רפה"). כדי לבדוק את נכונות התרגום התבקשה התוכנה לתרגם את פרי עמלה חזרה מרוסית לאנגלית, והתוצאה שפלט המחשב הייתה The vodka is good but the meat is rotten (הוודקה טובה אבל הבשר רקוב).

כיום, רוב מערכות תרגום המכונה מייצרות "תרגום גרעיני", כלומר תרגום שנותן את עיקרו של טקסט המקור, אך לבד מזה הוא אינו שמיש. על מנת להפוך את התרגום לטקסט שימושי בשפת היעד נדרשת התערבות אנושית - עריכה לפני התרגום ואחריו. אולם בתחומים שבהם אוצר המילים מוגבל ומבנה המשפטים פשוט, למשל בדיווחים מטאורולוגיים, תרגום מכונה יכול להניב תוצאות טובות.

Direct translation and transfer translation pyramind.svg

תרגום מכונה ותרגום בעזרת מכונה[עריכת קוד מקור | עריכה]

תחום קרוב לתרגום מכונה הוא תרגום בסיוע מכונה (Machine Aided Translation, MAT) או תרגום בסיוע מחשב (Computer Aided Translation, CAT). זהו כינוי לאוסף של גישות וכלים ממוחשבים, שנועדו לסייע למתרגמים אנושיים לבצע את עבודתם. כלים אלה מציעים, בדרך כלל, למתרגם האנושי אפשרויות לתרגום של מילה, קטע, או משפט. המתרגם האנושי בוחר בין ההצעות השונות, או בוחר לתרגם ללא שימוש בהצעות. מילון ממוחשב יכול להיחשב לסוג של כלי עזר כזה למתרגם. כלי אחר הוא ה"זיכרון התרגומי" (Translation Memory, TM): כלי שכולל מגוון של דוגמאות שתורגמו בעבר. כאשר יש לתרגם משפט חדש, הוא בודק האם המשפט או קטעים ממנו מוכרים לו, ואם כן, הוא מציע למתרגם את התרגום הקודם. כל משפט חדש שמתורגם מתווסף לזיכרון התרגומי.

אף על פי שתרגום מכונה ותרגום בעזרת מכונה הם תחומים דומים, בייחוד בהתחשב בעובדה שהתערבות אנושית נדרשת לעתים גם בתרגום מכונה, יש ביניהם הבדלים מהותיים:

  • מטרתו של תרגום מכונה היא למזער את ההתערבות האנושית, בעוד שמטרתו של תרגום בסיוע המכונה היא להקל את עבודת המתרגם האנושי.
  • תוכנת התרגום נדרשת להוציא פלט כמעט בכל מצב, גם אם היא מתקשה מאוד בתרגום. בתרגום בסיוע מכונה, התוכנה יכולה לבחור לא לתרגם בכלל, או להציע מספר אפשרויות תרגום ולהשאיר את הבחירה למתרגם האנושי.
  • תוכנת תרגום פועלת כקופסה סגורה, שמקבלת קלט בשפת המקור ומוציאה פלט בשפת היעד. ההתערבות האנושית מוגבלת בדרך כלל לשלב המקדים (הכנת טקסט המקור לתרגום) ולשלב הסופי (עריכת הטקסט המתורגם). תוכנות לסיוע בתרגום, הן תוכנות אינטרקאקטיביות שמבוססות על תקשורת מתמידה עם המשתמש.

הקדמה[עריכת קוד מקור | עריכה]

אפשר לומר שתהליך התרגום מורכב משני שלבים:

  1. הבנת משמעותו של טקסט המקור
  2. ניסוח מחדש בטקסט היעד

כאשר אדם מתרגם, מאחורי התהליך הפשוט הזה עומד מבצע קוגניטיבי מורכב. על מנת להבין את משמעות טקסט המקור כולו, על המתרגם לפרש ולנתח את כל המאפיינים של הטקסט, תהליך שמצריך ידע בדקדוק, בסמנטיקה, בתחביר ובביטויים של שפת המקור, וכן לעתים הכרה של התרבות של דוברי השפה. על מנת לנסח מחדש את הטקסט בשפת היעד, המתרגם זקוק לידע דומה בשפה זו.

כאן מצוי האתגר של תרגום מכונה: כיצד לתכנת מחשב, כך ש"יבין" את הטקסט כמו אדם, וגם יצור טקסט חדש בשפת היעד ש"נשמע" כאילו נכתב בידי אדם.

לבעיה זו אפשר לגשת בכמה צורות.

גישות בלשניות[עריכת קוד מקור | עריכה]

פעמים רבות נטען, כי ההצלחה של תרגום מכונה תלויה בפתירת הבעיה של הבנת שפה טבעית בידי אדם לפני כן. אולם, ישנן כמה שיטות המשמשות במציאת פתרון בתרגום מכונה, הכוללות:

  • שיטות חיפוש מילוניות
  • שיטות מבוססות לשון
  • שיטות מבוססות סמנטיקה (תרגום מכונה מבוסס ידע)
  • שיטות סטטיסטיות
  • שיטות המבוססות על דוגמאות
  • שיטות המבוססות על חוקים לשוניים

באופן כללי, שיטות המבוססות על חוקים (שלוש הראשונות) מנתחות את הטקסט, כשהן בדרך כלל משתמשות בייצוג סימבולי מגשר, שממנו הטקסט בשפת היעד מיוצר. שיטות אלה מצריכות לקסיקונים נרחבים עם מידע מורפולוגי, תחבירי וסמנטי, ועם חוקים רבים.

שיטות המבוססות על סטטיסטיקה ועל דוגמאות, אינן משתמשות בלקסיקונים ובחוקים, אלא מנסות ליצור תרגומים בהתבסס על טקסטים דו-לשוניים ארוכים, כגון הרשימות האנגליות-צרפתיות של הפרלמנט הקנדי. ניתן להגיע לתוצאות מרשימות בשיטות כאלה, אך טקסטים דו-לשוניים בגודל כזה נדירים מאוד.

אם יש להן די מידע, רוב תוכנות תרגום המכונה עובדות די טוב על מנת שדובר שפה אחת יוכל להבין בערך את משמעות דבריו של הדובר בשפה השנייה. עם זאת, קיים קושי להשיג את המידע הנדרש על מנת לתמוך בשיטה מסוימת. הכמות הגדולה של הטקסט הנדרשת לשיטות הסטטיסטיות אינה נצרכת בשיטות הלשוניות, אך הן מצריכות בלשן מומחה שיעצב את החוקים הלשוניים שהתוכנה משתמשת בהם.

היסטוריה של תרגום מכונה[עריכת קוד מקור | עריכה]

הניסיונות הראשונים לתרגום מכונה נעשו במחצית השנייה של שנות ה-40. הולדת התחום מיוחסת למזכר שהפיץ מתמטיקאי אמריקאי בשם וורן ויבר (Warren Weaver), שהתווה קוים למחקר בתחום. בין ראשוני התחום היה המתמטיקאי והלוגיקן הישראלי יהושע בר-הלל, שעסק בנושא זה ב-MIT, ושבשנת 1952 הוביל את הכנס הבינלאומי הראשון בנושא זה. הנחת העבודה הייתה שניתן יהיה לייצר, תוך זמן קצר, תוכנות שיתרגמו בצורה סבירה טקסטים בתחומים ממוקדים, כגון, טקסטים מדעיים וטכניים. הצלחת המחשב בפתרון בעיות לוגיות סבוכות, ובייחוד בפענוח צפנים, עודדה את העוסקים בתחום.

ב-7 בינואר 1954 ההצגה הראשונה של מערכת תרגום מכונה נערכה במשרד הראשי של יבמ בניו יורק. דווח עליה באופן רחב בעיתונות, והיא משכה תשומת לב ציבורית רבה. אך המערכת עצמה הייתה רק מערכת "צעצוע", במונחים של היום, וכללה 250 מילים בלבד. היא תרגמה 49 משפטים נבחרים מרוסית לאנגלית, בעיקר בתחום הכימיה. האירוע אושש את ההנחה שתרגום מכונה נמצא בהישג יד, והביא להגדלת המימון של מחקר תרגום מכונה בארצות הברית ובעולם כולו.

ההתקדמות המוגבלת של המחקר בתחום בשנים שלאחר מכן הביאה את ממשלת ארצות הברית למנות, בשנת 1966, ועדה מיוחדת לבדיקת הנושא. הוועדה הביעה ספק בקשר לאפשרויות ההצלחה של התחום, ובעקבות מסקנותיה קוצצו כמעט לחלוטין תקציבי המחקר בתחום בארצות הברית, והפעילות המחקרית והאקדמית ננטשה. עם זאת, במשך שנות ה-70 וה-80 פותחו תוכנות מסחריות בתחום, בעיקר באירופה וביפן. לדוגמה, מערכת התרגום Systran, שנמכרת מאז שנות ה-70 ונחשבת עדיין לאחת המערכות המצליחות בתחום. במקביל, נעשה שימוש בתרגום מכונה במערכות צבאיות ומודיעיניות. במערכות התרגום הרציניות הראשונות השתמשו במלחמה הקרה על מנת לנתח מאמרים מדעיים רוסיים. התרגומים הכלליים שהושגו, הספיקו על מנת להבין את נושא המאמר ואת עיקרו, ואם המאמר עסק בנושא שהיה עשוי להיות מעניין מבחינה ביטחונית, הוא הועבר למתרגם אנושי; אם לא, הוא הושלך.

בסוף שנות ה-80 של המאה ה-20 התחדשה הפעילות המחקרית בתחום במקומות שונים בעולם. ירידת המחירים הגדולה של המחשבים והשיפור הגדול בעוצמתם, העמידו לרשות החוקרים משאבי חישוב עצומים ביחס למה שהיה זמין בשנות ה-60. הדבר איפשר התפתחות גישות חדשות בתחום, בייחוד תרגום מכונה סטטיסטי וגישות דומות. ההישגים הראשונים שהושגו בגישות אלה, עודדו רבים לפנות לתחום ולתרום להתפתחותו. במקביל, התפתחות המחשבים האישיים הביאה את תרגום המכונה לציבור הרחב, והפופולריות של האינטרנט הגבירה מאוד את הביקוש לו.

מבחינה מחקרית, השנים האחרונות מתאפיינות בהתקדמות לשילוב של גישות שונות לתחום של תרגום מכונה, על מנת לשפר את ההישגים מעבר למה שהושג בכל תחום בנפרד. מבחינה מעשית, השנים האחרונות מתאפיינות בהרחבה של שירותי תרגום המכונה הזמינים באופן מסחרי או חופשי.

עתיד תרגום המכונה[עריכת קוד מקור | עריכה]

החוקרים חלוקים ביניהם בשאלה האם תרגום מכונה מושלם ללא סיוע אנושי יהיה אפשרי אי פעם בעתיד. לדוגמה, פרופ' יעקב שויקה מאוניברסיטת בר-אילן, מראשוני החוקרים בתחום הבלשנות החישובית בישראל, העריך שתרגום מכונה מלא אינו אפשרי, וכי ייתכן שבעתיד אף יימצא חוק מדעי שמגדיר את רמת הדיוק שאפשר להגיע אליה בתרגום אוטומטי. גם מי שאופטימי מעריך שייקחו עוד שנים רבות של מחקר לפתרון הבעיה. למרות זאת, יש צפי להתפתחות רבה של התחום שתשפר את יכולתו לסייע במצבים שבהם תרגום אנושי הוא יקר מדי, או איטי מדי.

בספרו של דאגלס אדמס מדריך הטרמפיסט לגלקסיה מוצג "דג בבל", שנעיצתו באוזן מאפשרת שמיעה חופשית של כל שפה. על שמו של יצור זה קרוי פרויקט Babel Fish של !Yahoo, המתרגם טקסטים שאותרו באינטרנט.

שימוש בתרגום מכונה כיום[עריכת קוד מקור | עריכה]

למרות מגבלותיהן, תוכנות תרגום מכונה נמצאות בשימוש על ידי ארגונים שונים בכל העולם. המשתמש הגדול ביותר הוא כנראה האיחוד האירופי, שמשתמש בגרסה משופרת של מערכת SYSTRAN, על מנת לעזור בתרגום אוטומטי של כמות גדולה של טיוטות ראשוניות של מסמכים לשימוש פנימי.

באפריל 2003 החלה מיקרוסופט להשתמש במערכת תרגום מורכבת, על מנת לתרגם את מאגר מסמכי התמיכה הטכנית שלה מאנגלית לספרדית. התוכנה פותחה על ידי קבוצת המחקר לשפה טבעית של מיקרוסופט. הקבוצה בוחנת מערכת אנגלית-יפנית ומעלה מערכות אנגלית-צרפתית ואנגלית-גרמנית. שתי המערכות האחרונות משתמשות ברכיב של למידה עצמית של שפה, ואילו לשתי הראשונות יש מערכות יצירת שפה שפותחו באופן ידני. המערכות פותחו והוכשרו על ידי מאגרי מידע של מעל למיליון משפטים כל אחת.

תרגום מכונה לעברית ומעברית[עריכת קוד מקור | עריכה]

בתוכנה בבילון משולבת החל מגרסה 6.0 תוכנה לתרגום מלא של טקסט מעברית לאנגלית ומאנגלית לעברית. התוכנה תרגומטיק מציעה תרגום אוטומטי מאנגלית לעברית. החל מספטמבר 2008, אתר גוגל תרגם מציע תרגום אוטומטי מכל שפה אשר מוצעת על ידי האתר לכל אחת מהשפות האלו (וביניהן עברית).

דוגמה של תרגום מכונה לעברית[עריכת קוד מקור | עריכה]

תרגום של תחילת הערך על הרב שלמה גורן מהוויקיפדיה האנגלית לעברית באמצעות תוכנת בבילון:

Goren, born Gorenchik, was born in Zambrow, Poland and immigrated to British administered Palestine with his family in 1925. He served in the Israel Defense Forces during three wars, wrote several award- winning books on Jewish law, and was appointed Chief Rabbi of Tel Aviv in 1968. Rabbi Goren served as Chief Rabbi of Israel from 1973- 1983, after which he established a yeshiva in Jerusalem, which he headed until his death.

גוראן, נולד בשם גוראנצ'יק, נולד בזאמברווו, פולין והיגר למנדט הבריטי של פלסטין עם המשפחה שלו ב-1925. הוא שירת בכוחות של הגנה של ישראל במשך שלוש מלחמות, כתב כמה פרס מנצח ספרים על חוק יהודי, והופקד רב ראשי של תל אביב ב-1968. רבי גוראן שירת כ/כפי שרב ראשי של ישראל מ-1973 ,1983 אחרי איזה הוא הקים ישיבה בירושלים, שהוא הוביל עד שהמוות שלו.

ניתן לראות שהתוכנה פה ושם שגתה שגיאות שגרמו לשינוי תוכן, ולעתים לשגיאות סגנוניות. במקרה הזה עיקר התוכן עבר, אולם יש כמה שגיאות שעלולות להכשיל אדם שאינו די בקיא בנושא המאמר:

  • British administered Palestine - ביטוי זה שמתייחס למעשה למנדט הבריטי על פלשׂתינה (א"י), תורגם באופן שמקשה מאוד על הבנתו. רק הכרות קרובה עם ההיסטוריה של ארץ ישראל מאפשרת לקורא לשחזר את הצירוף המקורי מתוך התרגום.
  • "כוחות של הגנה של ישראל" - הכוונה ל"צבא ההגנה לישראל" שנקרא באנגלית "Israel Defence Forces" ("כוחות ההגנה של ישראל"). המדובר למעשה בצירוף כבול שתורגם מילולית. קורא שאינו די בקיא בנושא עלול שלא להבין כי המדובר בצבאה של מדינת ישראל.

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]