לדלג לתוכן

מוג'יבאקי

מתוך ויקיפדיה, האנציקלופדיה החופשית
מאמר מוויקיפדיה היפנית המקודד ב-UTF-8 עבור Mojibake מוצג כאילו פורש כ-Windows-1252
המאמר בוויקיפדיה הרוסית המקודד ב-UTF-8 על הכנסייה הסלאבית מוצג כאילו הוא מתפרש כ-KOI8-R

מוג'יבאקייפנית: 文字化け, "היפוך תווים") הוא טקסט משובש – ג'יבריש – שהוא תוצאה של פענוח טקסט באמצעות קידוד תו לא מכוון.[1] התוצאה היא החלפה מערכתית של סמלים בסמלים שאינם קשורים לחלוטין, לרוב ממערכת כתיבה שונה. זו בעיה יותר שכיחה במערכות יותר ישנות, במיוחד בתצוגת תווים לא-לטיניים משפות לא אירופיות, כמו עברית.

תצוגה זו עשויה לכלול את תו ההחלפה הגנרי ("�") במקומות שבהם הייצוג הבינארי נחשב לא חוקי. החלפה יכולה לכלול גם מספר סמלים עוקבים, כפי שמוצגים בקידוד אחד, כאשר אותו קוד בינארי מהווה סמל אחד בקידוד השני. הסיבה לכך היא קידוד שונה באורך קבוע (כמו בקידוד 16 סיביות אסיה לעומת קידודים של 8 סיביות אירופיים), או שימוש בקידוד באורך משתנה (בעיקר UTF-8 ו-UTF-16).

מוג'יבאקי נראה לעיתים קרובות עם נתוני טקסט שתויגו בקידוד שגוי; ייתכן שהוא אפילו לא מתויג בכלל, אלא מועבר בין מחשבים עם קידודי ברירת מחדל שונים. מקור עיקרי לבעיות הם פרוטוקולי תקשורת המסתמכים על הגדרות בכל מחשב במקום לשלוח או לאחסן מטא נתונים יחד עם הנתונים.

האלפביתים של השפות הצפון גרמניות, קטלאנית, רומנית, פינית, צרפתית, גרמנית, איטלקית, פורטוגזית וספרדית הם כולם הרחבות של האלפבית הלטיני. התווים הנוספים הם בדרך כלל אלה שהופכים פגומים, מה שהופך את הטקסטים לבלתי קריאים במקצת עם מוג'יבאקי.

קישורים חיצוניים

[עריכת קוד מקור | עריכה]
ויקישיתוף מדיה וקבצים בנושא מוג'יבאקי בוויקישיתוף

הערות שוליים

[עריכת קוד מקור | עריכה]
  1. ^ King, Ritchie (2012). "Will unicode soon be the universal code? [The Data]". IEEE Spectrum. 49 (7): 60. doi:10.1109/MSPEC.2012.6221090.