ISO 639-3

מתוך ויקיפדיה, האנציקלופדיה החופשית

תקן ISO 639-3:2007, "קודים לייצוג שמות של שפות – חלק 3: קוד אלפא-3 לכיסוי מקיף של שפות" (במקור: Codes for the representation of names of languages – Part 3: Alpha-3 code for comprehensive coverage of languages), הוא תקן בינלאומי לקודי שפה בסדרת ISO 639. תקן 3–639 מגדיר קודים בני שלוש אותיות לזיהוי שפות. התקן פורסם על ידי ארגון התקינה הבינלאומי (ISO) ב-1 בפברואר 2007.[1]

תקן ISO 639-3 מתווסף על הקודים בתקן "ISO 639-2 אלפא-3" במטרה לכסות את כל השפות הטבעיות המוכרות. הכיסוי המורחב הזה התבסס בעיקר על קודי השפה המשמשים במאגר אתנולוג (כרכים 10–14) שפורסם על ידי הארגון הבלשני הנוצרי SIL International, המשמש כיום כרשות הרישום לתקן ISO 639-3.[2] התקן מספק מִסְפּוּר מלא ככל האפשר של השפות, כולל שפות חיות וכאלה שנכחדו, שפות עתיקות ומתוכננות, שפות נפוצות ושפות מיעוט, שפות כתובות ושפות דבורות חסרות כתב.[1] עם זאת, התקן אינו כולל שפות משוחזרות כגון פרוטו-הודו-אירופית.[3]

הקודים בתקן 3–639 מיועדים לשימוש כקודי מטא-דאטה במגוון רחב של יישומים. הוא בשימוש נרחב במערכות מחשב ומידע, כמו האינטרנט, שדורשות תמיכה בשפות רבות. בארכיונים ובאחסוני מידע אחרים התקן משמש לקִטְלוּג מערכות, ומסייע לציין עבור כל משאב במערכת – באיזו שפה הוא או באיזו שפה הוא עוסק. הקודים משמשים לעיתים קרובות גם בכתיבת מחקרים בלשניים, למשל, כדי להבהיר שמות שפה רב-משמעיים או שאינם ייחודיים לשפה מסוימת.

קודי שפה[עריכת קוד מקור | עריכה]

ISO 639-3 כולל את כל השפות בתקן ISO 639-1 ואת כל השפות הפרטניות בתקן ISO 639-2. שני התקנים הראשונים בסדרה, 639-1 ו-2–639, התמקדו בשפות מרובות-הדוברים, המיוצגות רבות בספרות המחקר. מכיוון שתקן 2 כולל גם קבוצות שפות, וחלק 3 לא, הרי ש-ISO 639-3 אינו כולל בתוכו את כל ISO 639-2. במקרים שבהם תקן 2 מציע שני קודים לאותה שפה, האחד "B" ("ביבליוגרפי", השם הזר לשפה) והשני "T" ("טרמינולוגי", המונח הילידי לשפה), קוד 3–639 נוקט באופציית T הילידית (ראו דוגמאות בטבלה להלן).

קודי שפות של תקני ISO לדוגמה
שפה 639-1 639-2 (B/T) סוג 3–639 קוד 3–639
אנגלית en eng שפה יחידה eng
גרמנית de ger/deu שפה יחידה deu
ערבית ar ara מאקרו-שפה ara
ערבית סטנדרטית שפה יחידה arb
ערבית מצרית שפה יחידה arz
שפות סיניות zh chi/zho[4][5] מאקרו-שפה zho
מַנדרינית שפה יחידה cmn
קנטונזית שפה יחידה yue
מין דרומית שפה יחידה nan

נכון ל-18.2.21, התקן מכיל 7,893 ערכים.[6] מלאי השפות מבוסס על מספר מקורות, כולל: השפות הפרטניות הכלולות בתקן 2–639, שפות מודרניות ממאגר אתנולוג, וריאנטים היסטוריים, שפות עתיקות ושפות מתוכננות מלינגוויסט ליסט,[7] וכן שפות שהציבור ביקש להוסיפן.

רשות הרישום מספקת את קובצי הנתונים הקריאים למכונה.[8] ניתן למפות את הנתונים מתקן 1–639 או 2–639 אל 3–639 באמצעות קבצים אלה.

639-3 מאפשר להניח כהנחת מוצא הבחנות, המבוססות על קריטריונים שאינם אובייקטיביים לחלוטין.[9] הוא לא נועד לתעד או לספק מזהים לניבים או לווריאנטים אחרים שלא הוגדרו כשפות.[10] למרות זאת, הבחנה בין שפות עשויה להיות סובייקטיבית, במיוחד במקרה של וריאנטים לשוניים ללא ביסוס של מסורת כתיבה, שימוש בשפה במערכת החינוך, בתקשורת או גורמים אחרים התורמים להפיכת השפה לשגורה. לכן אין לראות בתקן סמכות בשאלה, אילו שפות מובחנות קיימות בעולם (בנושא זה עשויה להיות מחלוקות מהותיות), אלא פשוט דרך שימושית אחת לקודד במדויק וריאנטים לשוניים.

מרחב/עמדת קוד[עריכת קוד מקור | עריכה]

מכיוון שהקוד בן שלוש אותיות, תאורטית המספר המקסימלי של שפות הניתנות לייצוג הוא 26 × 26 × 26 = 17,576. עם זאת, מאחר שתקן 2–639 מגדיר קודים מיוחדים (4 כאלה), טווח שמור (ל-520) וקודים שעבורם יש רק סוג B (קיימים 22), 546 קודים לא ניתנים לשימוש בתקן 3–639. על כן, המקסימום המחמיר הוא 17,576 – 546 = 17,030 שפות.

הגבול העליון מחמיר עוד יותר אם מפחיתים את מקבצי השפות שהוגדרו בתקן 2–639 ואת אלה שטרם הוגדרו בתקן הבא, ISO 639-5.

מאקרו-שפות[עריכת קוד מקור | עריכה]

קיימות 58 שפות בתקן 2–639 הנחשבות, לצורך התקן, כ"מאקרו-שפות" בתקן 3–639.[11]

חלק מהמאקרו-שפות הללו לא כללו שפה פרטנית בהגדרה של תקן 3–639 במערך הקוד של 2–639, למשל "ara" (הקוד לערבית באופן כללי). אחרים פוצלו לשני קודים נפרדים כבר בתקן 2–639, דוגמת "nor" עבור נורווגית, שפוצל ל-"nno" עבור נורווגית חדשה ול-"nob" עבור נורווגית ספרותית.

המשמעות היא שכמה שפות (למשל 'arb', ערבית סטנדרטית) שנחשבו על פי ISO 639-2 לניבים של שפה אחת ('ארה') נמצאות כעת ב- ISO 639-3 בהקשרים מסוימים הנחשבים כשפות בודדות עצמן.

זה נעשה בניסיון להתמודד עם קידוד וריאנטים שעשויים להיות שונים זה מזה מבחינה לשונית, אך בעיני הדוברים שלהם הם שתי צורות של אותה שפה, למשל במקרים של דיגלוסיה.

לדוגמה, ערבית ספרותית/תקנית מתקיימת לצד ערבית מדוברת. תקן 2–639 מספק את קוד "ara" לערבית באופן כללי, ואילו תקן 3–639 מספק את קוד "arb" ספציפית לערבית תקנית.

לרשימה מלאה, ראו את מיפוי המאקרו-שפות באתר SIL.[12]

קוד שפה קולקטיבי[עריכת קוד מקור | עריכה]

ארגון SIL מגדיר אלמנט קוד-שפה קולקטיבי כ"מזהה המייצג קבוצה של שפות פרטניות, שאינן נחשבות שפה אחת בהקשר שימוש כלשהו."[13] קודים קולקטיביים כאלה אינם מייצגים במדויק שפה מסוימת או אף מאקרו-שפה.

בעוד שתקן 2–639 כולל מזהי שפות קולקטיביים בני שלוש אותיות, קודים אלה אינם נכללים בתקן 3–639. מכאן שתקן 3–639 אינו כולל בתוכו את כל קודי 2–639.

תקן ISO 639-5 מגדיר קודים קולקטיביים בני שלוש אותיות למשפחות-שפה ולקבוצות-שפות קטנות יותר, כולל קודי השפה הקולקטיביים מתקן 2–639.

קודים מיוחדים[עריכת קוד מקור | עריכה]

ארבעה קודים הושארו ללא שימוש בתקנים 2–639 ו-3–639, למקרים שבהם אף אחד מהקודים הספציפיים אינו מתאים. הקודים המיוחדים מיועדים בעיקר ליישומים כמו מסדי נתונים שבהם צריך לייצג קוד ISO שלא בהכרח קיים עדיין.

  • קוד mis (קיצור של miscellaneous "שוֹנוֹת") נועד לשפות שעדיין לא הוקצה להן קוד בתקן ISO.
  • קוד mul (קיצור של multiple, "שפות מרובות") מיועד למקרים שבהם הנתונים כוללים יותר משפה אחת אך נדרש קוד יחיד, למשל במקרה שמסד הנתונים צריך נתון בודד.
  • קוד und (קיצור של undetermined "לא הוכרע") מיועד למקרים שבהם השפה המופיעה בנתונים טרם זוהתה, למשל כשהיא מסומנת באופן שגוי, או שמעולם לא סומנה. הקוד אינו מיועד למקרים כמו לשון העיר טרויה שעדיין לא הוכרע לגביה מה הייתה ואם הייתה שפה יחידה.
  • קוד zxx מייצג מצב של "אין הקשר לשוני" או של "זיהוי לשוני אינו רלוונטי", ונועד לנתונים שאינם שפה אנושית כלל, כגון קריאות בעלי חיים.[14]

בנוסף, 520 קודים בטווח qaaqtz "שמורים לשימוש מקומי". לדוגמה, המתכנתת רבקה בטנקורט מנהלת הקצאת קודים לשפות מתכוננות בטווח זה.[15] לינגוויסט ליסט משתמש בהם לשפות שנכחדו, לדוגמה הם הקצו לאחת מהן ערך גנרי, qnp, פרוטו-שפה תאורטית כלשהי חסרת שם, בכדי שיוכלו לשבץ אותה בתוך עץ משפחה מוּצע תאורטי, עד שיוכרע מעמדה.

הליכי עבודה[עריכת קוד מקור | עריכה]

טבלת הקודים עבור ISO 639-3 פתוחה לשינויים. כדי להגן על יציבות השימוש הקיים, השינויים המותרים מוגבלים לפעולות האלה:[16]

  • שינויים במקורות המחקריים של הערך (כולל שמות או מיון בקטגוריות לפי סוג והיקף),
  • הוספת ערכים חדשים,
  • מחיקת ערכים כפולים או שגויים,
  • מיזוג ערך אחד או יותר לערך אחר,
  • ופיצול ערך שפה קיים למספר ערכי שפה חדשים.

הקוד המוקצה לשפה אינו משתנה, אלא אם כן ישנו שינוי בזיהוי השפה או בשמה.[17]

השינויים נעשים במועד שנתי קבוע מראש, וכל בקשה פתוחה לפחות שלושה חודשים להערות הציבור טרם קבלתה.

באתר של ISO 639-3 יש תיאורים של "תחומי הגדרה"[18] עבור ישויות לשוניות (לנגואיד) וסוגי שפות,[19] המסבירים אילו מושגים נמצאים בתחום המקודד ובאילו קריטריונים צריך לעמוד. לדוגמה, ניתן לקודד שפות מתוכננות, אך רק אם הן מיועדות לתקשורת אנושית ובעלות גוף ספרותי, ובכך נמנעות בקשות להקצאת קודים עבור המצאות אידיוסינקרטיות.

ביקורת[עריכת קוד מקור | עריכה]

הבלשנים מורי, פוסט ופרידמן העלו ביקורות שונות על תקן ISO 639 בכלל, ובפרט על 639-3:[17]

  • לטענתם, הקודים בתקן הם בעייתיים, כי בעוד שרשמית הם תוויות טכניות ושרירותיות, הם נגזרים לעיתים קרובות מקיצורים לשמות השפות – אשר לעיתים נובעים מכינויי גנאי לעם או לשפתו – ובכך לשמר או לקבע ביטויים פוגעניים. לדוגמה, השפה האומוטית יֵם (או יֵמְסָה), שדוברה בממלכת ג'אנג'רו (כיום אתיופיה) קיבלה את הקוד "jnj", שנגזר משם הממלכה בפי עמים אתיופים אחרים (שם חיצוני, אקסונים), שנעשה בו שימוש פוגעני, ולא על פי השם העצמי (אנדונים) של דוברי השפה עצמם, "יֵם" או "יֵמְסָה". (עם זאת, ניתן לשנות קודים באמצעות הגשת בקשה באתר SIL).
  • ניהול התקן נעשה באופן בעייתי, כיוון ש-SIL הוא ארגון דתי מיסיונרי, ורמת השקיפות והאחריות שלו אינ מספקת. ההחלטות בדבר מה ראוי לקידוד כשפה מתקבלות באופן פנימי בארגון. אמנם תרומה מבחוץ עשויה להתקבל בברכה, אך ההחלטות עצמן אינן שקופות, ובלשנים רבים ויתרו על הניסיון לשפר את התקן.
  • זיהוי קבוע של שפה אינו תואם את אחת התכונות המרכזיות של שפות אנוש: הן מִשְתנות.
  • לעיתים קרובות לא ניתן להבחין בין שפות לניבים בקפידה, וניתן לחלק רצף ניבים בדרכים רבות; בעוד שהתקן מתיר בחירה חד פעמית. הבחנות כאלה מבוססות לרוב על גורמים חברתיים ופוליטיים.
  • רשויות המקבלות החלטות לגבי זהותם ושפתם של אנשים, המשתמשות בתקן 3–639, אינן בקיאות בבלשנות, והן עלולות לא להבין ולעשות בו שימוש לרעה, ובכך לא להכיר – ואף לבטל – את זכותם של דוברי השפה להזדהות כקבוצה אתנית או להזדהות עם שפתם כייחודית. למרות שארגון SIL טוען שהוא רגיש לנושאים אלה, בעיה זו טמונה באופיו של תקן אחיד, אשר עשוי לשמש באופן שהארגונים ISO ו-SIL אינם מתכוונים לו.

מרטין הספלמאת הסכים עם ארבע מנקודות אלה, אך לא עם הנקודה בנושא השתנותה של שפה.[20] הוא חולק על כך, כי לטענתו כל מחקר תיאורי של שפה דורש זיהוי ומיון שלה, ושלבים שונים של שפה ניתנים לזיהוי בקלות. הוא מציע שבלשנים ישתמשו בקידוד כבר בשלב זיהוי הישות הלשונית, בטרם הבנת מעמדן (לנגואיד), שכן "רק לעיתים רחוקות זה משנה לבלשנים אם מה שהם מדברים עליו הוא שפה, ניב או משפחת שפות קרובות זו לזו". הוא גם מעלה את השאלה, האם תקן ISO מתאים לזיהוי שפות, שכן זהו ארגון תעשייתי, בעוד שהספלמאת רואה בתיעוד ובמינוח של השפה עבודה מדעית. הספלמאת מציין את הצורך המקורי במזהי שפה מתוקננים (שעברו סטנדרטיזציה) שכן הן בעלות "משמעות כלכלית לתרגום וללוקליזציה של תוכנות", אשר לשמם נוצרו תקני 1–639 ו-2–639. עם זאת, הוא מעלה ספקות לגבי השאלה, האם התעשייה זקוקה לכיסוי המקיף שמספק תקן 3–639, גם כיוון שהוא מטפל ב"שפות אשר בקושי מוכרות, של קהילות קטנות, שלעולם או כמעט אף פעם אינן נכתבות ולעיתים קרובות נמצאות בסכנת הכחדה".

מאגרים וגופים המשתמשים בתקן[עריכת קוד מקור | עריכה]

  • אתנולוג
  • לינגוויסט ליסט
  • OLAC: קהילת ארכיון השפות הפתוח[21]
  • Microsoft Windows 8:[22] מערכת ההפעלה תמכה בכל הקודים בתקן ISO 639-3 במועד יציאתה לשוק.
  • קרן ויקימדיה: פרויקטים חדשים מבוססי-שפה (למשל ויקיפדיה בשפות חדשות) חייבת להיות בעלת מזהה מתקן ISO 639-1/2/3. [23]
  • תקנים אחרים המסתמכים על ISO 639-3:
    • תגי שפה המוגדרים על ידי Internet Engineering Task Force (IETF), שמתועד ב-"Best Current Practice 47" (BCP 47),[24] וכולל את RFC 5646, שהחליף את RFC 4646, שבתורו החליף את RFC 3066. על כן, כל התקנים התלויים בכל אחד משלושת תקני IETF האלה – משתמשים כעת ב-ISO 639-3.
    • התקן ePub 3.0 (הוצאת ספרים אלקטרונית פתוחה) למטא-דאטה של שפה[25] משתמש ברכיבי מטא-דאטה של דבלין קור. רכיבי מטא-דאטה לשוניים אלה ב-ePubs חייבים להכיל קודי שפה RFC 5646 תקינים.[25] RFC 5646 מורה על ISO 639-3 עבור שפות ללא קודי IANA קצרים.
    • יוזמת דבלין קור מטא-דאטה: DCMI Metadata Term[26] לשפה, באמצעות RFC 4646 של IETF (לאחר מכן הוחלף ב-5646).
    • רשות הקצאת המספרים באינטרנט (IANA). צוות הבִּנְאוּם של W3C ממליץ להשתמש ברישום תגי-המשנה לשפות של IANA לבחירת קודים לשפות.[27] רישום תגים אלה[28] תלוי בקודי ISO 639-3 עבור שפות שלא היו להן בעבר קודים בתקן ISO 639.
    • HTML5:[29] באמצעות BCP 47 של IETF.
    • קודי ספריית תקני MARC.
    • קודי ספריית "Metadata Object Description Schema" (MODS):[30] קוד RFC 3066 של IETF (הוחלף ב-RFC 5646).
    • יוזמת קידוד טקסט (TEI):[31] באמצעות BCP 47 של IETF.
    • מסגרת סימון לקסיקלית: מפרט ISO לייצוג מילונים הקריאים למכונה.
    • מאגר נתוני האזורים הנפוצים של יוניקוד: משתמש בכמה מאות קודים מתֶקן ISO 639-3 שאינם כלולים בתקן ISO 639-2.

לקריאה נוספת[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ 1 2 "ISO 639-3 status and abstract". iso.org. 20 ביולי 2010. בדיקה אחרונה ב-14 ביוני 2012. 
  2. ^ "Maintenance agencies and registration authorities". ISO. 
  3. ^ "Types of individual languages – Ancient languages". sil.org. בדיקה אחרונה ב-11 ביוני 2018. 
  4. ^ Ethnologue report for ISO 639 code: zho (אורכב 12.09.2014 בארכיון Wayback Machine) on ethnologue.com
  5. ^ ISO639-3 on SIL.org
  6. ^ "ISO 639-3 Code Set". Sil.org. 18 בפברואר 2021. בדיקה אחרונה ב-7 באפריל 2021. 
  7. ^ "ISO 639-3". sil.org. 
  8. ^ "ISO 639-3 Code Set". Sil.org. 18 בפברואר 2021. בדיקה אחרונה ב-7 באפריל 2021. 
  9. ^ "Scope of Denotation: Individual Languages". sil.org. 
  10. ^ "Scope of Denotation: Dialects". sil.org. 
  11. ^ "Scope of denotation: Macrolanguages". sil.org. בדיקה אחרונה ב-14 ביוני 2012. 
  12. ^ "מיפוי מאקרו-שפות". אתר SIL International. sil.org. בדיקה אחרונה ב-14 ביוני 2012. 
  13. ^ "Scope of denotation: Collective languages". sil.org. בדיקה אחרונה ב-14 ביוני 2012. 
  14. ^ Field Recordings of Vervet Monkey Calls. Entry in the catalog of the Linguistic Data Consortium. Retrieved 2012-09-04.
  15. ^ Bettencourt, Rebecca. "ConLang Code Registry". KreativeKorp. בדיקה אחרונה ב-12 במרץ 2021. 
  16. ^ "Submitting ISO 639-3 Change Requests: Types of Changes". sil.org. 
  17. ^ 1 2 Morey, Stephen; Post, Mark W.; Friedman, Victor A. (2013). The language codes of ISO 639: A premature, ultimately unobtainable, and possibly damaging standardization. PARADISEC RRR Conference. אורכב מהמקור ב-2016-02-23.
  18. ^ "Scope of Denotation for Language Identifiers". sil.org. 
  19. ^ "Types of Languages". sil.org. 
  20. ^ Martin Haspelmath, "Can language identity be standardized? On Morey et al.'s critique of ISO 639-3", Diversity Linguistics Comment, 2013/12/04
  21. ^ "OLAC Language Extension". language-archives.org. בדיקה אחרונה ב-3 באוגוסט 2015. 
  22. ^ "Over 7,000 languages, just 1 Windows". Microsoft. 5 בפברואר 2014. 
  23. ^ "Language proposal policy". wikimedia.org. בדיקה אחרונה ב-3 באוגוסט 2015. 
  24. ^ "BCP 47 – Tags for Identifying Languages". ietf.org. בדיקה אחרונה ב-3 באוגוסט 2015. 
  25. ^ 1 2 "EPUB Publications 3.0". idpf.org. בדיקה אחרונה ב-3 באוגוסט 2015. 
  26. ^ "DCMI Metadata Terms". purl.org. בדיקה אחרונה ב-3 באוגוסט 2015. 
  27. ^ "Two-letter or three-letter ISO language codes". w3.org. בדיקה אחרונה ב-3 באוגוסט 2015. 
  28. ^ "Language Registry". Iana.org. בדיקה אחרונה ב-12 באוגוסט 2015. 
  29. ^ "3 Semantics, structure, and APIs of HTML documents — HTML5". w3.org. בדיקה אחרונה ב-3 באוגוסט 2015. 
  30. ^ "Elements – MODS User Guidelines: Metadata Object Description Schema: MODS (Library of Congress)". loc.gov. בדיקה אחרונה ב-3 באוגוסט 2015. 
  31. ^ "TEI element language". tei-c.org. בדיקה אחרונה ב-3 באוגוסט 2015.