מוג'יבאקי

מאמר מוויקיפדיה היפנית המקודד ב-UTF-8 עבור *Mojibake* מוצג כאילו פורש כ-Windows-1252

המאמר בוויקיפדיה הרוסית המקודד ב-UTF-8 על הכנסייה הסלאבית מוצג כאילו הוא מתפרש כ-KOI8-R

מוג'יבאקי (ביפנית: 文字化け, "היפוך תווים") הוא טקסט משובש – ג'יבריש – שהוא תוצאה של פענוח טקסט באמצעות קידוד תו לא מכוון.^[1] התוצאה היא החלפה מערכתית של סמלים בסמלים שאינם קשורים לחלוטין, לרוב ממערכת כתיבה שונה. זו בעיה יותר שכיחה במערכות יותר ישנות, במיוחד בתצוגת תווים לא-לטיניים משפות לא אירופיות, כמו עברית.

תצוגה זו עשויה לכלול את תו ההחלפה הגנרי ("�") במקומות שבהם הייצוג הבינארי נחשב לא חוקי. החלפה יכולה לכלול גם מספר סמלים עוקבים, כפי שמוצגים בקידוד אחד, כאשר אותו קוד בינארי מהווה סמל אחד בקידוד השני. הסיבה לכך היא קידוד שונה באורך קבוע (כמו בקידוד 16 סיביות אסיה לעומת קידודים של 8 סיביות אירופיים), או שימוש בקידוד באורך משתנה (בעיקר UTF-8 ו-UTF-16).

גורמים

מוג'יבאקי נראה לעיתים קרובות עם נתוני טקסט שתויגו בקידוד שגוי; ייתכן שהוא אפילו לא מתויג בכלל, אלא מועבר בין מחשבים עם קידודי ברירת מחדל שונים. מקור עיקרי לבעיות הם פרוטוקולי תקשורת המסתמכים על הגדרות בכל מחשב במקום לשלוח או לאחסן מטא נתונים יחד עם הנתונים.

האלפביתים של השפות הצפון גרמניות, קטלאנית, רומנית, פינית, צרפתית, גרמנית, איטלקית, פורטוגזית וספרדית הם כולם הרחבות של האלפבית הלטיני. התווים הנוספים הם בדרך כלל אלה שהופכים פגומים, מה שהופך את הטקסטים לבלתי קריאים במקצת עם מוג'יבאקי.

קישורים חיצוניים

מדיה וקבצים בנושא מוג'יבאקי בוויקישיתוף

הערות שוליים

^ King, Ritchie (2012). "Will unicode soon be the universal code? [The Data]". IEEE Spectrum. 49 (7): 60. doi:10.1109/MSPEC.2012.6221090.

[ieee-1] King, Ritchie (2012). "Will unicode soon be the universal code? [The Data]". IEEE Spectrum. 49 (7): 60. doi:10.1109/MSPEC.2012.6221090.

[1]