יוניקוד

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
סיווג פרוטוקולים על פי מודל ה-OSI
שכבת יישום HTTP, SMTP, FTP, RTP, IRC, SNMP, SIP, DNS, DHCP
שכבת ייצוג MIME, ASCII, Unicode, SSL
שכבת שיחה ASP, PPTP, SSH, NFS, RPC, SOCKS
שכבת תעבורה TCP, UDP, SCTP, DCCP
שכבת רשת IP (IPv4, IPv6), ICMP, IPX , ניתוב
שכבת קו Ethernet, Token ring, FDDI
שכבה פיזית E1, 10Base-T, RS-232, DSL, SONET

יוניקודאנגלית: Unicode) הוא תקן בינלאומי לייצוג טקסט במערכות מחשב. התקן מגדיר מערכת תווים המקיפה את כל מערכות הכתב הנמצאות כיום בשימוש פעיל בשפות העולם, וכן מערכות כתב ותווים נוספים שבהם נעשה שימוש בתחומים מדעיים וטכניים, כגון מתמטיקה ובלשנות. בנוסף מגדיר התקן כללים לייצוג צירופים של תווים שונים (כגון אות לטינית שעליה סימן אקצנט, או אות עברית שעליה סימן ניקוד), וכללים לייצוג והצגה של טקסט דו־כיווני (הכולל קטעים במערכת כתב הנכתבת משמאל לימין ובכזו הנכתבת מימין לשמאל). הגרסה הראשונה של התקן פורסמה בשנת 1988. נכון לשנת 2012 הגרסה האחרונה הינה 6.1 והיא כוללת 110 אלף תווים.

מערכות הפעלה מודרניות כדוגמת Windows החל מ-Windows 2000, הגרסאות החדשות של לינוקס ו-OSX, מערכת ההפעלה של אפל, כולן עושות שימוש בתקן יוניקוד. מערכות ההפעלה הראשונות שתמכו ב־Unicode היו Windows NT על כל גרסאותיהן ו־Plan9, שהיא מערכת מבוססת יוניקס.

תקן מקובל לייצוג טקסט לפני יוניקוד היה ASCII, שייצג את האלפבית הלטיני הפשוט (ללא אקצנטים וכו'), מספרים וסימני פיסוק בקידוד של 7 סיביות. כדי לתמוך בתווים נוספים הורחב ייצוג זה לקידוד של 8 סיביות, שכל אחד מהם הכיל 256 תווים: 128 תווי ASCII ו-128 תווים אחרים לפי האזור. כך למשל, המספר 224 הכיל את האות à בקידוד של מערב אירופה ואת האות א בקידוד העברי. דבר זה גרם לבעיות בהעברה של טקסט ממערכות שונות. ב־1990 התכנסו חברות תוכנה ותקשורת עולמיות כדי לפתור את הבעיה וכך החלה התקינה של יוניקוד.

תחילה (כלומר עד לגרסה 2.0) התבסס יוניקוד על קידוד של 16 סיביות, היכול להכיל 65,536 תווים. לאחר שתוקנו תווים רבים לצורכי תאימות (כגון הברות קוריאניות), היה ברור כי אין זה מספר מספיק לכל הצרכים העולמיים, וגרסה 2.0 של יוניקוד הורחבה להכיל 1,112,064 תווים באמצעות מנגנון UTF-16, שבו 2048 קודים מנוצלים כדי לייצג יותר ממיליון תווים. בגרסה 3.1 של יוניקוד הותקנו התווים הראשונים מעבר לתחום ה־65,536 העליונים (המשטח הרב־לשוני הבסיסי), וקידוד יוניקוד ניתן לבצע באחת משלוש צורות: UTF-8,‏ UTF-16 ו־UTF-32. הראשונה משמשת באינטרנט ובלינוקס, השנייה ב־Java ובחלונות, והאחרונה בתור קידוד פנימי (בתוך הזיכרון) של מערכות יוניקס מסוימות.

תקן ה-Unicode מוסיף נדבך קטן בהפיכתו של העולם לכפר גלובלי קטן בשל העובדה שיש מערכת קידוד אחידה שאפשר להשתמש בה בכל העולם. הדבר מקל במיוחד על אנשים הנוסעים ברחבי העולם, היכולים כמעט בכל מחשב לכתוב בשפתם. כמו גם החלפת תכתובות באינטרנט בין אנשים דוברי שפות שונות מרחבי העולם.

אוצר התווים של יוניקוד[עריכת קוד מקור | עריכה]

כל תו ביוניקוד הוא בעל שם ומספר סידורי (שאותו נהוג לציין בבסיס הקסדצימלי עם הקידומת U+‎). לדוגמה, האות העברית "א" ידועה בשם HEBREW LETTER ALEF או U+05D0.

כאשר קונסורציום Unicode מוסיף תו חדש לתקן, מספרו הסידורי מוקצה מתוך אחד מהבלוקים הבאים, בהתאם להשתייכותו. להלן הבלוקים נכון לגרסה 4.0 של התקן וטווחיהם המספריים (מצוינים בבסיס הקסדצימלי):

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]