גוגל תרגם

מתוך ויקיפדיה, האנציקלופדיה החופשית
(הופנה מהדף גוגל תרגום)
קפיצה אל: ניווט, חיפוש
גוגל תרגם
Google Translate icon.png
Google Translate screen.png
סוג: תרגום מכונה
מייסדים: לארי פייג' וסרגיי ברין
בעלות: גוגל
הרשמה: אופציונלי
translate.google.co.il

גוגל תרגם (או גוגל תרגום; באנגלית: Google Translate [גוגל טרנסלייט]) הוא שירות חינמי של תרגום מכונה סטטיסטי שניתן על ידי חברת גוגל, המאפשר לתרגם קטעי טקסט או דפי אינטרנט ל-80 שפות אנושיות.

ייסוד[עריכת קוד מקור | עריכה]

בשנת 2001 החלה גוגל לספק אפשרות תרגום מאנגלית לשמונה שפות ומשפות אלה לאנגלית, באמצעות שירות שהתבסס על תרגום מכונה סטנדרטי.[1] לאחר שאיכות התרגום לא השתפרה עם השנים הצטרף בשנת 2003 לצוות השירות מדען המחשב הגרמני פרנץ יוזף הוך (Och), שזכה באותה שנה במקום הראשון בתחרות DARPA לתרגום מכונה אוטומטי מהיר. מאז 2004 עומד הוך בראש מחלקת התרגום האוטומטי של גוגל,[2] והאלגוריתמים של השירות מבוססים על מחקריו. תחילה סבלה המערכת הניסויית שפיתח מאיטיות רבה, ותרגום של 1,000 משפטים ארך 40 שעות ונעשה על 1,000 מכונות, אך לאחר כשנה הצליחה המערכת לתרגם משפט בתוך פחות משנייה. בתחילת שנת 2006 הושק השירות המחודש, שאפשר בשלב ראשון לתרגם לסינית וערבית בלבד.

טכנולוגיה[עריכת קוד מקור | עריכה]

גוגל תרגם

מערכת "גוגל תרגם" פועלת בטכנולוגיית תרגום מכונה סטטיסטי. כאשר נשלחת בקשת תרגום, המערכת סורקת מיליוני תרגומים אפשריים, ובוחרת מהם את התרגום הסביר ביותר מבחינה סטטיסטית. זאת בניגוד לגישה המסורתית בחקר התרגום והשפה, של ניתוח על בסיס חוקים לשוניים. יחד עם זאת, עבור רוב השפות בשירות, עד לאוקטובר 2007 לא השתמשה גוגל באלגוריתם שפיתחה, אלא בטכנולוגיית התרגום של חברת "סיסטראן" (Systran), שבה עשו שימוש גם שירותי תרגום אחרים כגון Babel Fish‏ ,AOL ו-Yahoo.‏[3]

המודלים הסטטיסטיים לכל שפה בשירות מתבססים על נתונים ממאגר טקסטים דו-לשוניים של מעל מיליון מילים, ומשני מאגרים חד לשוניים המכילים מיליארדי מילים כל אחד.‏[4] בשלבים הראשונים של השקת השירות אספה גוגל את מאגרי הטקסט ממכוני מחקר לשפות ומהאו"ם, שמסמכיה מתורגמים ל-6 שפות. היותן של השפות ערבית וסינית שפות רשמיות של האו"ם, מהווה כנראה אחת הסיבות לכך שגוגל מיקדה תחילה את מאמציה בשפות אלה, ולא, לדוגמה, בשפה היפנית או הגרמנית, שאינן שפות רשמיות. לאחר מכן החלה גוגל להתבסס גם על טקסטים מהאינטרנט, על מסמכי האיחוד האירופי המתורגמים ל-23 שפות, וכן על גוגל ספרים, אם כי באופן חלקי בלבד בשל בעיות באיכות ה-OCR בספרים הסרוקים.

כמו כלי תרגום אוטומטי אחרים, "גוגל תרגם" מוגבל ביכולותיו. על אף שהוא מסייע לקורא להבין את הקשר התוכן הכללי של טקסט בשפה זרה, הוא אינו מספק תמיד תרגום מדויק, ולעתים קרובות מופיעות מילים חסרות הקשר או מילים שלא חלים עליהם כללי דקדוק. הדבר נובע בעיקר מהקושי לתרגם אוטומטית מילים בעלות כמה משמעויות ומבני משפטים המשתנים בין שפות. בחלק מהשפות השירות מציג תוצאות טובות יותר.‏[5]

ככל ששירות "גוגל תרגם" אוסף יותר תרגומים ביותר שפות, כך, באופן תאורטי, פוחתים הסיכויים לתרגומים שגויים בתרגום מכונה סטטיסטי. עם זאת, חוקר התרגום ועובד במחלקת התרגום של גוגל אנדראס זולמן טען כי על גוגל לחזור לניתוח מבוסס כללים, מאחר ש"כל הכפלה של כמות הנתונים הוביל לשיפור של 0.5% באיכות הפלט, ואילו אפשרויות ההכפלות אינן אינסופיות - אנו נמצאים כעת על סף שמעבר לו אין יותר טקסטים בעולם שאנחנו יכולים להשתמש בו". במאי 2012 הודה מנהל המוצר בגוגל, ג'ף צ'ין, כי "ייתכן כי לא נוכל להגיע לשלמות עד אשר ימציאו אינטליגנציה מלאכותית מלאה".[6]

אפשרויות[עריכת קוד מקור | עריכה]

למרות המחסור במאגרי טקסטים מקוונים בשפת היידיש, השירות מאפשר תרגום לשפה זו הודות לדמיונה הרב לגרמנית, וכן בשל המילים הרבות שהיא שואלת מעברית ופולנית.‏[7] השירות מאפשר לתעתק אותיות הנכתבות באלפבית לטיני, לאותיות המקבילות בכ-23 שפות, ובכללן יוונית, דוואנגרית, קירילית ערבית ועברית. ב-2012 נוספו לשירות מקלדות וירטואליות עם תווים ביפנית, וייטנאמית ועברית.

באוגוסט 2008 השיק השירות יישום ווב מבוסס HTML5 עבור משתמשי אייפון, ובפברואר 2011 יצא היישום הרשמי ב-Appstore. היישום מאפשר לקבל קלט שמע (באמצעות זיהוי קול) ב-15 שפות ולתרגם ליותר מ-50 שפות, וכן להשמיע את התרגום ב-23 שפות. היישום המקביל לאנדרואיד, שגירסתו הראשונה יצאה בינואר 2010, תומך ביותר מ-53 שפות תרגום ובקלט קולי עבור 15 שפות, וכולל תכונה של "מצב שיחה" המאפשרת למשתמשים לנהל שיחות קוליות מתורגמות עם דוברי שפות זרות ב-15 שפות.[8]

ב-9 ביוני 2009 הושק כלי התרגום של גוגל למתרגמים מקצועיים (Google translate toolkit), הכולל ממשק משתמש WYSIWYG, מונחונים, ושיתוף תרגומים. באותה שנה אפשרה גוגל לבעלי אתרים להוסיף לאתריהם את כלי התרגום האוטומטי Website Translator, המתרגם את האתר בשלמותו.

במאי 2011 הודיעה גוגל כי תפסיק להפעיל את ה-API של השירות בשל נטל כלכלי משמעותי, אך לאחר לחץ ציבורי חזרה בה והודיעה כי תוציא גרסה בתשלום.[9][10]

גוגל הטמיעה את תכונת התרגום במגוון שירותיה: בתוצאות החיפוש, בסרטונים ביוטיוב המכילים רצועת כתוביות, בדפדפן גוגל כרום, ב-Google Docs ,Google Groups, וכן בשירות הדואר מבוסס רשת שלה Gmail.

מטרות והשפעה[עריכת קוד מקור | עריכה]

נכון לשנת 2012 ניגשים לשירות כ-200 מיליון משתמשים מדי חודש, למעלה מ-92 אחוז מהם מגיעים מחוץ לארצות הברית. לפי ההערכה, השירות מתרגם ביום אחד את אותה כמות טקסט שמייצרים המתרגמים המקצועיים בעולם בשנה.

לפי אנשי השירות בגוגל, השאיפה העומדת מאחוריו היא שבירת מחסום השפה, על מנת לאפשר לכל אדם גישה לכלל המידע בעולם ועל מנת לקבל "עצמאות" מהשפה. יחד עם זאת, ישנם המאמינים כי באופן אירוני, שירות התרגום האוטומטי של גוגל למעשה מגביר את התלות בשפה בכך שהוא גורם לעצלנות לרכישת שפות חדשות. על פי דאגלס הופשטטר, אחד מהמבקרים הנוקבים ביותר של הפרסום המופרז סביב השירות, היכולת להתקיים בתוך שפה ולעבור בין שפות, להבין את ההברה ואת ההדהוד התרבותי, את הבדיחות, חידודי הלשון ואת הניב, הם הדברים שהופכים את בני האדם לאנושיים ולאינדיבידואלים יותר מכל. הופשטטר טוען כי "כולנו נכנע כנראה ללחצים להשתמש בשירות ברמה מסוימת, אך זה לעולם לא יקבל את התחושה של משפטים מנוסחים".‏[11]

ציוני דרך[עריכת קוד מקור | עריכה]

שלב ראשון:

אפריל 2006:

  • מאנגלית לערבית/מערבית לאנגלית
  • מאנגלית לרוסית/מרוסית לאנגלית

פברואר 2007:

  • מאנגלית לסינית מסורתית/מסינית מסורתית לאנגלית
  • מסינית פשוטה לסינית מסורתית/מסינית מסורתית לסינית פשוטה
  • מאנגלית להינדית/מהינדי לאנגלית

מאי 2008:

נוספה אפשרות לבצע תרגום בין כל זוג שפות, בתיווך השפה האנגלית במקרה הצורך.

2009:

נובמבר 2009:

  • סיום שלב הבטא
  • הוספת אפשרות תעתיק באותיות לטיניות עבור השפות הבאות: כתב סיני, יפנית, קוריאנית, רוסית, אוקראינית, בלארוסית, בולגרית, יוונית, הינדית ותאילנדית
  • עבור תרגומים מערבית, פרסית והינדית, המשתמש יכול להזין תעתיק לטיני של הטקסט, שיתורגם לתעתיק בשפות אלה
  • הוספת אפשרות הקראת הטקסט באנגלית, איטלקית, צרפתית וגרמנית

2010:

  • האיטית לקריאולית
  • ארמנית
  • אזרבייג'נית
  • בסקית
  • גאורגית
  • אורדו
  • לטינית
  • נוספה אפשרות הקראת הטקסט ב: אפריקנס, אלבנית, קטלאנית, סינית (מנדרין), קרואטית, צ'כית, דנית, הולנדית, פינית, יוונית, הונגרית, איסלנדית, אינדונזית, לטבית, מקדונית, נורבגית, פולנית, פורטוגזית, רומנית, רוסית, סרבית, סלובקית , סוואהילית, שבדית, טורקית, וולשית וייטנאמית, ערבית, יפנית וקוריאנית.
  • תעתיק לטיני עבור ערבית (הוסר מהשירות בסוף 2010)
  • אפשרות הקלדה פונטית בערבית, יוונית, הינדית, פרסית, רוסית, סרבית ואורדו
  • נוספה בדיקת איות

2011:

2012:

  • אספרנטו
  • לאו
  • תוכניות קול חדשות לשפות: אנגלית, צרפתית, ספרדית, גרמנית ואיטלקית.

2013:

קישורים חיצוניים[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]