לדלג לתוכן

גוגל תרגום

מתוך ויקיפדיה, האנציקלופדיה החופשית
גוגל תרגום
סוג תרגום מכונה
מייסדים חברת גוגל עריכת הנתון בוויקינתונים
בעלות גוגל
translate.google.co.il
לעריכה בוויקינתונים שמשמש מקור לחלק מהמידע בתבנית

גוגל תרגוםאנגלית: Google Translate) הוא שירות חינמי של תרגום מכונה סטטיסטי שפותח על ידי גוגל, המאפשר לתרגם מילים, קטעי טקסט או דפי אינטרנט בין 249 שפות (נכון לנובמבר 2024).

בשנת 2001 החלה גוגל לספק אפשרות תרגום מאנגלית לשמונה שפות ומשפות אלה לאנגלית, באמצעות שירות שהתבסס על תרגום מכונה סטנדרטי.[1] לאחר שאיכות התרגום לא השתפרה עם השנים הצטרף בשנת 2003 לצוות השירות מדען המחשב הגרמני פרנץ יוזף אוך (Och), שזכה באותה שנה במקום הראשון בתחרות DARPA לתרגום מכונה אוטומטי מהיר. מאז 2004 עומד אוך בראש מחלקת התרגום האוטומטי של גוגל,[2] והאלגוריתמים של השירות מבוססים על מחקריו. תחילה סבלה המערכת הניסויית שפיתח מאיטיות רבה, ותרגום של 1,000 משפטים ארך 40 שעות ונעשה על 1,000 מכונות, אך לאחר כשנה הצליחה המערכת לתרגם משפט בתוך פחות משנייה. בתחילת שנת 2006 הושק השירות המחודש, שאפשר בשלב ראשון לתרגם לסינית ולערבית בלבד.

מערכת "גוגל תרגום" פועלת בטכנולוגיית תרגום מכונה סטטיסטי. כאשר נשלחת בקשת תרגום, המערכת סורקת מיליוני תרגומים אפשריים, ובוחרת מהם את התרגום הסביר ביותר מבחינה סטטיסטית. זאת בניגוד לגישה המסורתית בחקר התרגום והשפה, של ניתוח על בסיס חוקים לשוניים. עם זאת, עבור רוב השפות בשירות, עד לאוקטובר 2007 לא השתמשה גוגל באלגוריתם שפיתחה, אלא בטכנולוגיית התרגום של חברת "סיסטראן" (Systran), שבה עשו שימוש גם שירותי תרגום אחרים כגון דג בבל ,AOL ו-Yahoo.[3]

המודלים הסטטיסטיים לכל שפה בשירות מתבססים על נתונים ממאגר טקסטים דו-לשוניים של מעל מיליון מילים, ומשני מאגרים חד לשוניים המכילים מיליארדי מילים כל אחד.[4] בשלבים הראשונים של השקת השירות אספה גוגל את מאגרי הטקסט ממכוני מחקר לשפות ומהאו"ם, שמסמכיה מתורגמים ל-6 שפות. היותן של השפות ערבית וסינית שפות רשמיות של האו"ם, מהווה כנראה אחת הסיבות לכך שגוגל מיקדה תחילה את מאמציה בשפות אלה, ולא, לדוגמה, בשפה היפנית או הגרמנית, שאינן שפות רשמיות. לאחר מכן החלה גוגל להתבסס גם על טקסטים מהאינטרנט, על מסמכי האיחוד האירופי המתורגמים ל-23 שפות, וכן על גוגל ספרים, אם כי באופן חלקי בלבד בשל בעיות באיכות ה-OCR בספרים הסרוקים.

כמו כלי תרגום אוטומטי אחרים, "גוגל תרגום" מוגבל ביכולותיו. על אף שהוא מסייע לקורא להבין את הקשר התוכן הכללי של טקסט בשפה זרה, הוא אינו מספק תמיד תרגום מדויק, ולעיתים קרובות מופיעות מילים חסרות הקשר או מילים שלא חלים עליהם כללי דקדוק. הדבר נובע בעיקר מהקושי לתרגם אוטומטית מילים בעלות כמה משמעויות ומבני משפטים המשתנים בין שפות. בחלק מהשפות השירות מציג תוצאות טובות יותר.[5]

ככל ששירות "גוגל תרגום" אוסף יותר תרגומים, כך, באופן תאורטי, פוחתים הסיכויים לתרגומים שגויים בתרגום מכונה סטטיסטי. עם זאת, חוקר התרגום ועובד במחלקת התרגום של גוגל, אנדראס זולמן, טען כי על גוגל לחזור לניתוח מבוסס כללים, מאחר ש"כל הכפלה של כמות הנתונים הובילה לשיפור של 0.5% באיכות הפלט, ואילו אפשרויות ההכפלות אינן אינסופיות. אנו נמצאים כעת על סף שמעבר לו אין יותר טקסטים בעולם שאנחנו יכולים להשתמש בהם". במאי 2012 הודה מנהל המוצר בגוגל, ג'ף צ'ין, כי "ייתכן כי לא נוכל להגיע לשלמות עד אשר ימציאו אינטליגנציה מלאכותית מלאה".[6]

מאז סוף 2016, מבוסס התרגום האוטומטי של גוגל תרגום על למידה עמוקה.[7]

באוגוסט 2008 השיק השירות יישום ווב מבוסס HTML5 עבור משתמשי אייפון, ובפברואר 2011 יצא היישום הרשמי ב-Appstore. היישום מאפשר לקבל קלט שמע באמצעות זיהוי קול ב־15 שפות ולתרגם ליותר מ-50 שפות, וכן להשמיע את התרגום ברוב השפות. היישום המקביל לאנדרואיד, שגרסתו הראשונה יצאה בינואר 2010, כולל תכונה של "מצב שיחה" המאפשרת למשתמשים לנהל שיחות קוליות מתורגמות עם דוברי שפות זרות ביותר מ-15 שפות.[8]

ב-9 ביוני 2009 הושק כלי התרגום של גוגל למתרגמים מקצועיים (Google translate Toolkit), הכולל ממשק משתמש WYSIWYG, מונחונים, ושיתוף תרגומים. באותה שנה אפשרה גוגל לבעלי אתרים להוסיף לאתריהם את כלי התרגום האוטומטי Website Translator, המתרגם את האתר בשלמותו.

במאי 2011 הודיעה גוגל כי תפסיק להפעיל את ה־API של השירות בשל נטל כלכלי משמעותי, אך לאחר לחץ ציבורי חזרה בה והודיעה כי תוציא גרסה בתשלום.[9][10]

בספטמבר 2019, הודיעה גוגל כי ב-4 בדצמבר אותה שנה היא תפסיק להפעיל את Google translate Toolkit. זאת, לפי ההודעה, לאור התמעטות המשתמשים בו בשעה שקיימים בשוק די כלים חלופיים.

השירות מאפשר לתעתק אותיות הנכתבות באלפבית לטיני לאותיות המקבילות בכ-23 שפות, ובכללן יוונית, דוואנגרית, קירילית, ערבית ועברית. ב-2012 נוספו לשירות מקלדות וירטואליות עם תווים ביפנית, בוייטנאמית ובעברית.

גוגל הטמיעה את תכונת התרגום במגוון שירותיה: בתוצאות החיפוש, בסרטונים ביוטיוב המכילים רצועת כתוביות, בדפדפן גוגל כרום, ב-Google Docs ,Google Groups, וכן בשירות הדואר מבוסס רשת שלה Gmail.

למרות המחסור במאגרי טקסטים מקוונים ביידיש, השירות מאפשר תרגום לשפה זו הודות לדמיונה הרב לגרמנית, וכן בשל המילים הרבות שהיא שואלת מעברית ומפולנית.[11]

מטרות והשפעה

[עריכת קוד מקור | עריכה]

נכון לשנת 2012 פונים לשירות כ-200 מיליון משתמשים מדי חודש, למעלה מ-92 אחוז מהם מגיעים מחוץ לארצות הברית. לפי ההערכה, השירות מתרגם ביום אחד את אותה כמות טקסט שמייצרים המתרגמים המקצועיים בעולם בשנה.[דרוש מקור]

לפי אנשי השירות בגוגל, השאיפה העומדת מאחוריו היא שבירת מחסום השפה, על מנת לאפשר לכל אדם גישה לכלל המידע בעולם ועל מנת לקבל "עצמאות" מהשפה. עם זאת, ישנם המאמינים כי באופן אירוני, שירות התרגום האוטומטי של גוגל למעשה מגביר את התלות בשפה בכך שהוא גורם לעצלנות לרכישת שפות חדשות. על פי דאגלס הופשטטר, אחד המבקרים הנוקבים ביותר של הפרסום המופרז סביב השירות, היכולת להתקיים בתוך שפה ולעבור בין שפות, להבין את ההברה ואת ההדהוד התרבותי, את הבדיחות, חידודי הלשון ואת הניב, הם הדברים שהופכים את בני האדם לאנושיים ולאינדיבידואלים יותר מכל. הופשטטר טוען כי "כולנו ניכנע כנראה ללחצים להשתמש בשירות ברמה מסוימת, אך זה לעולם לא יקבל את התחושה של משפטים מנוסחים".[12]

השירות הוקם. ניתן לתרגם מאנגלית ובחזרה לשפות הבאות:

שפות חדשות:

  1. ערבית
  2. רוסית

שפות חדשות:

  1. סינית מסורתית
  2. הינדי
  • סינית פשוטה לסינית מסורתית ובחזרה

נוספה אפשרות לבצע תרגום בין כל זוג שפות, בתיווך השפה האנגלית.

שפות חדשות:

סיום שלב הבטא.

הוספת אפשרות תעתיק באותיות לטיניות עבור השפות סינית, יפנית, קוריאנית, רוסית, אוקראינית, בלארוסית, בולגרית, יוונית, הינדית ותאילנדית, עבור תרגומים מערבית, פרסית והינדית, המשתמש יכול להזין תעתיק לטיני של הטקסט, שיתורגם לתעתיק בשפות אלה.

הוספת אפשרות הקראת טקסט באנגלית, איטלקית, צרפתית וגרמנית.

שפות חדשות:

נוספה אפשרות הקראת טקסט באפריקנס, אלבנית, קטלאנית, סינית, קרואטית, צ'כית, דנית, הולנדית, פינית, יוונית, הונגרית, איסלנדית, אינדונזית, לטבית, מקדונית, נורווגית, פולנית, פורטוגזית, רומנית, רוסית, סרבית, סלובקית, סוואהילית, שוודית, טורקית, וולשית וייטנאמית, ערבית, יפנית וקוריאנית. נוספה תמיכה בתעתיק לטיני עבור ערבית (הוסרה מהשירות בסוף 2010) ואפשרות הקלדה פונטית בערבית, יוונית, הינדית, פרסית, רוסית, סרבית ואורדו. כמו כן נוספה בדיקת איות.

שפות חדשות:

בלחיצה על מילה מתורגמת, מוצע למשתמש תרגומים חלופיים מהם ניתן לבחור.

שפות חדשות:

  • שמע חדש לשפות אנגלית, צרפתית, ספרדית, גרמנית ואיטלקית.

שפות חדשות:

  1. אספרנטו
  2. לאו

נוסף מילון שימור אותיות.

שפות חדשות:

שפות חדשות:

שפות חדשות:

שפות חדשות:

נוספה אפשרות הקראת טקסט בעברית, אלבנית, בוסנית וסווהילית.

שפות חדשות:

נוספה אפשרות הקראת טקסט באמהרית, קנטונזית, גליסית, האוסה ווולשית.

שפות חדשות:[13]

  1. אבחזית
  2. אצ'אית
  3. אקולית
  4. עפרית
  5. אלור
  6. אווארית
  7. אוודהית
  8. באלינזית
  9. בלוצ'ית
  10. באולה
  11. בשקירית
  12. באטאק קארו
  13. באטאק סימאלונגון
  14. באטאק טובא
  15. במבא
  16. בטאווי
  17. ברטונית
  18. בוריאטית
  19. קנטונזית תקנית
  20. צ'מורו
  21. צ'צ'נית
  22. צ'ילובה
  23. צ'וקזית
  24. חובשית
  25. טטרית של קרים (כתב קירילי)
  26. טטרית של קרים (כתב לטיני)
  27. דארית
  28. דיבהית
  29. דינקאית
  30. אנדומבה
  31. דיולה
  32. דזונגקה
  33. פארואזית
  34. פיג'ית
  35. צרפתית של קנדה
  36. פון
  37. פריזית מערבית
  38. פורלן
  39. פולה
  40. גא
  41. האקה צ'ין
  42. היליגאינון
  43. הונסריק
  44. איבן
  45. אינוקטיטוט (כתב לטיני)
  46. אינוקטיטוט (כתב אינוקטיטוט)
  47. פטואה ג'מייקנית
  48. ג'ינגפו
  49. כלשיסוט
  50. קנורי
  51. קפמפנגנית
  52. חאסית
  53. קיג'ה
  54. קיקונגו
  55. קיטובה
  56. קוקבורוק
  57. קומית
  58. לטגלית
  59. ליגורית
  60. לימבורגית
  61. לומברדית
  62. לאו
  63. מאדורית
  64. מאקאסאר
  65. מלאית (כתב ג'אווי)
  66. מאם
  67. מאנית
  68. מרשלית
  69. מארוואדית
  70. קריאולית של מאוריציוס
  71. מארית מזרחית
  72. מינאנקבאו
  73. נאוואטל (מזרח וואסטקה)
  74. נדאו
  75. נדבלה (דרום)
  76. נפאל בהאסה
  77. אנקו
  78. נוארית
  79. אוקסיטנית
  80. אוסטית
  81. פנגסינן
  82. פפיאמנטו
  83. פורטוגזית (ברזיל)
  84. פונג'אבית (שאהמוקי)
  85. קאקצ'יאית
  86. רומאני
  87. קירונדי
  88. צפון סאמית
  89. סנגו
  90. סנטאלית
  91. סנטאלית (כתב אול צ'יקי)
  92. קריאולית סיישלית
  93. שאן
  94. סיציליאנית
  95. שלזית
  96. סוסו
  97. סוואזית
  98. טהיטית
  99. תמזיגת
  100. טטום
  101. טיבטית
  102. טיב
  103. טוק פיסין
  104. טונגאית
  105. טסוואנה
  106. טולו
  107. טומבוקה
  108. טובאנית
  109. אודמורטית
  110. ונדה
  111. ונטית
  112. וואראי
  113. וולופית
  114. יקוטית
  115. יוקטן מאיה
  116. זפוטק

קישורים חיצוניים

[עריכת קוד מקור | עריכה]
ויקישיתוף מדיה וקבצים בנושא גוגל תרגום בוויקישיתוף

הערות שוליים

[עריכת קוד מקור | עריכה]
  1. ^ Breaking down the language barrier—six years in, בבלוג השירות
  2. ^ Franz Josef Och - Research at Google
  3. ^ באתר גוגל סיסטם
  4. ^ וועידה בנושא תרגום מכונה, פוקט, תאילנד
  5. ^ השוואה בין שירותי תרגום מקוון, באתר tcworld
  6. ^ Now you can polish up Google’s translation of your website, בבלוג השירות
  7. ^ Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation
  8. ^ Start the conversation with Google Translate for Android, בבלוג השירות
  9. ^ Feldman, Adam (3 ביוני 2011). "Spring cleaning for some of our APIs". Google Code. נבדק ב-3 ביוני 2011. {{cite web}}: (עזרה)
  10. ^ "Google cancels plan to shutdown Translate API. To start charging for translations". 4 ביוני 2011. נבדק ב-4 ביוני 2011. {{cite web}}: (עזרה)
  11. ^ באתר לוס אנג'לס טיימס (באנגלית)
  12. ^ באתר הגרדיאן (באנגלית)
  13. ^ רפאל בן זקרי, גוגל מכריזה על השינוי הגדול בתולדות שירות התרגום שלה, באתר אייס, 27 ביוני 2024