לדלג לתוכן

משתמש:Shlomital~hewiki

מתוך ויקיפדיה, האנציקלופדיה החופשית

שם: שלומי טל

תחומי עניין: בלשנות משווה והיסטורית, דתות ואמונות, מחשבים, שימוש רב-לשוני במחשבים, הוצאה לאור באמצעות מחשבים וקידוד XHTML ו-CSS

עיסוק: סטודנט לערבית ואסלאם באוניברסיטת בר-אילן

דואר אלקטרוני: shlompi@hotmail.com

הוספת מידע טקסטואלי בעברית לקובצי PNG באמצעות pngcrush

[עריכת קוד מקור | עריכה]

פורמט התמונה PNG מכיל גוש בשם iTXt, למידע טקסטאולי בין-לאומי. בגוש הזה נשמר המידע בקידוד UTF-8 של יוניקוד, ויש בו ארבעה חלקים: מילת המפתח המקורית באנגלית, תג של השפה האחרת, תרגום של מילת המפתח לשפה האחרת וטקסט בשפה האחרת.

ואולם, המצב הוא כיום (אפריל 2006) שאין בנמצא, למיטב ידיעתי, שום תוכנה רגילה, בעלת ממשק גרפי, שאפשר לכתוב באמצעותה גושי iTXt. הרוצה לכתוב אותם ייאלץ, אפוא, להשתמש בתוכנת שורת הפקודה pngcrush. כאן אני מציג את ההוראות לכתיבת מידע טקסטואלי בעברית בתוכנה זו.

הורדת התוכנה

[עריכת קוד מקור | עריכה]

יש הפצות של לינוקס ש-pngcrush באה איתן מותקנת כברירת מחדל. למקרה שלא, אפשר להוריד אותה מהפורטל שלה ב-Sourceforge:

לבעלי Windows, אין ברירה אלא להוריד אותה. שימו לב שזוהי תוכנת שורת פקודה ל-Win32, כלומר לחלון שורת הפקודה של Windows XP (או גרסאות מבוססות NT שלפניו ואחריו), לא תוכנת DOS. היא זמינה הן בכתובת שלעיל והן באתר של פרויקט GNUWin32:

שימוש כללי

[עריכת קוד מקור | עריכה]

התיעוד של pngcrush לכתיבת גושי iTXt חסר. הערתי למפתח התוכנה על כך, והוא יתקן בגרסה הבאה. הניסיון לכתוב גוש iTXt באופן שהעזרה של pngcrush מתארת לא יעלה יפה. זוהי הדרך לכתיבת גושי tEXt (טקסט המוגבל לערכת התווים ISO 8859-1, כלומר מערב אירופה), אך לכתיבת גושי iTXt צריך ארבעה פרמטרים, לא שניים:

pngcrush -itxt "Keyword in English" "language tag" "Translated keyword" "translated text" source.png target.png

שני הפרמטרים האמצעיים אינם חובה ואפשר להשאיר במקומם שתי מרכאות כפולות ("").

הכתיבה הולכת כך: אם, למשל, מדובר בכותרת, אז כותבים תחילה "Title", אחרי כן "he", אחרי כן "כותרת" ולבסוף "כותרת התמונה בעברית" (מה שרוצים לכתוב בתור הכותרת של התמונה).

שימוש ב-Windows

[עריכת קוד מקור | עריכה]

אני מניח שאין בעיה מיוחדת לעשות זאת במסוף של לינוקס במצב יוניקוד (לא בדקתי). אבל יש בעיה ב-Windows XP. מצאתי שהדרך היחידה שזה יעבוד היא באמצעות קובץ אצווה (סיומת bat). כותבים את כל הפקודה שלמעלה בתוך קובץ כזה. לאחר מכן מריצים את חלון שורת הפקודה (cmd.exe) וכותבים:

chcp 1252

פקודה זו מעבירה את חלון שורת הפקודה לדף הקוד של "חלונות: מערב אירופה". הצעד הזה הכרחי, שאלמלא כן הבייטים של קידוד UTF-8 יומרו לערכים אחרים והקידוד יהיה לא חוקי. אחרי כתיבת הפקודה, מריצים את קובץ האצווה. אם בתחילת קובץ האצווה ישנה החותמת של UTF-8 (שלושת הבייטים, בהקסדצימאלית, בערכים EF BB BF), יש להסיר אותם לפני כן. יתקבל קובץ PNG חדש עם גוש iTXt כשר לחלוטין.

כדי להבין עד כמה המצב גרוע, ראוי לציין שאין כמעט תוכנה שיודעת אפילו לקרוא את גושי ה-iTXt, שלא לדבר על כתיבתם. אבל התמיכה לקריאה באה בדרך כלל לפני התמיכה לכתיבה, כך שאני מעז לומר שלא ירחק היום וגושי הטקסט העברי בקובצי PNG יהיו שימושיים.

כמה עצות טכניות להתמודדות עם שפתנו הקשה

[עריכת קוד מקור | עריכה]

הטמעת כיווניות

[עריכת קוד מקור | עריכה]

התוצאה המצויה: את שפת C מרחיבה שפת C++, שמקנה לה מבנים מונחי-עצמים.

התוצאה הרצויה: את שפת C מרחיבה שפת C++, שמקנה לה מבנים מונחי-עצמים.

התוצאה המצויה: יש להוסיף 1¼ כפיות סוכר לכוס.

התוצאה הרצויה: יש להוסיף כפיות סוכר לכוס.

איך הגעתי לתוצאה הרצויה: עטפתי את התווים הבעייתיים (השם של שפת סי פלוס פלוס, הספרות שמשמעותן אחת ורבע) בתג <span dir="ltr">.

מה זה עשה: דבר זה נקרא הטמעת כיווניות, directional embedding באנגלית. התג מורה שהתווים העטופים בו יוצגו בכיווניות של שמאל לימין. הדבר שווה בהשפעתו להוספת תו "הטמעת שמאל לימין" (תו 202A ביוניקוד) לפני הטקסט ותו ביטול ההוראה הדו-כיוונית (תו 202C ביוניקוד) אחריו, אלא שבשפות סימון כמו XHTML זוהי הדרך לעשות זאת.

הכנסת תווי הכוונה בלתי נראים

[עריכת קוד מקור | עריכה]

התוצאה המצויה: במחשבים נהוג לקודד את מידע השמע בפורמט PCM (Pulse-Code Modulation).

התוצאה הרצויה: במחשבים נהוג לקודד את מידע השמע בפורמט PCM‏ (Pulse-Code Modulation).

התוצאה המצויה: דוגמאות לפורמטים של קובץ תמונה שאינם משתמשים בדחיסה הן BMP, XPM ו-PPM.

התוצאה הרצויה: דוגמאות לפורמטים של קובץ תמונה שאינם משתמשים בדחיסה הן BMP,‏ XPM ו-PPM.

איך הגעתי לתוצאה הרצויה: אחרי כל מילה שנכתבת משמאל לימין, ולפני הרווח שבא אחריה, שמתי את התו הבלתי נראה "סימן ימין לשמאל" (תו 200F ביוניקוד). תו זה נכתב בשפת הסימון בתור &#x200F; או בתור &rlm;.

מה זה עשה: מכיוון שסימני הפיסוק יש להם כיווניות נייטראלית, סדרות של מילים בכיווניות מסוימת הולכים לפי הכיווניות הזו, וכדי לשנות את הסדר יש להכניס תו אחד שהכיווניות שלו היא האחרת. במקרה של "XPM ו-PPM" התו הזה הוא ו' החיבור, אבל במקרים האחרים איננו רוצים לכתוב סימן גרפי, נראה לעין. סימן ימין לשמאל מתפקד כמו כל אות עברית אך אינו נראה לעין, ולכן הוא טוב למטרה זו.

ענייני לשון

[עריכת קוד מקור | עריכה]

להלן כמה ממחשבותיי על השימוש בלשון, ובפרט עברית.

שפה חיה = שפה משתנה

[עריכת קוד מקור | עריכה]

סימן ההיכר של החיים הוא ההשתנות, ושל המוות הקיפאון. אין הדבר שונה בלשונות אדם. השפות החיות משתנות, בין שלאט כמו הליטאית ובין שמהר כמו האנגלית, ושפה כמו הלטינית לא תשתנה עוד, מכיוון שהיא אינה שפה טבעית ומדוברת בפי אדם.

המלינים על אי אילו שינויים שעוברת השפה העברית, יש להם דין ודברים עם אליעזר בן יהודה, שהחיה אותה. מן העברית המקראית לעברית של חז"ל השתנתה שפתנו מכיוון שהייתה שפה חיה, בעוד שהעברית של ימי הביניים לא השתנתה לאורך כל תקופת השימוש בה. העברית החדשה שפה חיה ועל כן מוכרח שהיא תשתנה.

יש תופעות לשוניות חדשות שהמדקדקים אינם רואים בעין יפה ונלחמים בהן. אני אישית לא סובל את השמטת מילת הזיקה ("זהו המקור ממנו לקחתי את הציטוט", שאני מקפיד שיהיה "זהו המקור שלקחתי ממנו את הציטוט"). ביכולתם וברשותם של המדקדקים לנסות להילחם בתופעות הללו, אבל הם צריכים להיות מודעים לאפשרות הסבירה ביותר שמאמציהם יהיו לשווא. הדקדקן הרומי פרובוס (Probus) כתב ספר שלם במבנה של "כך ולא כך", כדי לשרש חידושים לשוניים בשפה הלטינית של אז (המאה ה-4 לספירה). למשל, כתוב שם auris non oricla, למילה "אוזן". בלטינית הקלאסית auris, אך בפי העם כבר כיווצו את הדו-תנועה, הוסיפו למילה סיומת של הקטנה והשמיטו את התנועה של סיומת זו (במקור -ula). אבל השתדלותו של פרובוס לא הועילה, והמילה "אוזן" באיטלקית ובצרפתית היום גזורה מ-oricla ולא מ-auris. וגם היום, למרות ההבדל בידיעת קרוא וכתוב בקרב העם, אל למדקדק לצפות שהעם ישעה להלכותיו.

כך למשל אנו לומדים שהצורה הנכונה לעבר נסתרים היא כְּתַבְתֶּם, במלרע (מהצורה הפרוטו-עברית katabtímu). אבל הכל אומרים כיום כָּתַבְתֶּם, במלעיל, ככל הנראה בהשפעת שאר נטיית הפועל, ואולי גם השפה הערבית תרמה לכך. ודאי הוא שהצורה הראשונה היא המקורית, והיא הנכונה בקריאת התנ"ך. ואולם, על המדקדקים לדעת שהיא, כיום, בעברית החדשה, בחזקת צורה מיושנת, ממש כפי שהפכה ו' ההיפוך בימי חז"ל. הגיית הצורה המקורית בפי נכבדי ציבור בנאומיהם נשמעת מלאכותית ומנופחת. לא יועילו מאמצי אנשי הלשון לפסוק לטובתה; הצורה המלעילית היא הקיימת היום.

או תופעות הבידול למיניהן: אני רואה בכך שינוי חיובי שהדוברים מפצים על אובדן הבחנות מסוימות. למשל צורת נסתרים של מילת היחס אֶל היא, במקור, אֲלֵיהֶם, בחטף פתח. גם זו של עַל, הלא היא עֲלֵיהֶם, היא בחטף פתח. הן נבדלו בהגיית א' לעומת ע'. אבל ההגייה שלנו לעיצורים היא אשכנזית ואין אנו מבדילים ביניהן עוד. במצב כזה, שתי המילים שוות צליל (הומופונים), ודבר זה בלתי נסבל לגבי שתי המילים האלה (וכי אפשר לבטל הבדל קריטי כל כך כמו בין "אל" ל-"על"?). על כן בידלו הדוברים בין שתי המילים והם הוגים את הראשונה אֱלֵיהֶם, כאילו היא כתובה בחטף סגול. המדקדקים מוחים, אבל השינוי הזה היה הכרחי. הוא הדין לגבי הבידול בין מִמֶּנּוּ (מדברים) לבין מִמֶּנּוֹ (נסתר) - הצורה המקורית לנסתר היא מִמֶּנּוּ גם כן, בשורוק, אבל זו גזירה שאי אפשר לעמוד בה. וכן כ' קשה במילים הִכְּחִיש, מִכְּחוֹל וכדומה. כל אלה חידושים, סטיות מן המקור, אבל הם סימנים שהשפה חיה ונושמת כסדרה וכתיקונה.

לעניין תעתיק

[עריכת קוד מקור | עריכה]

דעתי היא שתמיד יש לכתוב מילים ושמות מלועזית לפי שמיעתן, עד כמה שהיד משגת. אף המכיר את הכתיב המקורי צריך להתעלם מכתיב זה בבואו לכתוב תעתיק. למשל, המילה שאנו מבטאים אותה /muzika/ - היא נכתבת ב-s בכתב לטיני, והיוונים (והערבים) עדיין מבטאים אותה בעיצור אטום, אך אנו מבטאים אותה בעיצור קולי, ולכן עלינו לכתוב "מוזיקה" ולא "מוסיקה". כך גם Rembrandt: רמברנט, ולא רמברנדט, שכן הצירוף dt בהולנדית מבוטא כאילו הוא t פשוטה; או המשחק bridge: בריג' ולא ברידג', כתיבת האות ד' אינה מוסיפה כלום, היא רק חיקוי לכתיב המקורי באנגלית.

אם הצליל אינו ניתן לכתיבה באותיות העבריות, כותבים את הקרוב ביותר. למשל ü בתור חיריק: lune (ירח בצרפתית) יהיה לִין. לעניין זה, בכתיבת גרמנית באותיות עבריות יש לתת את הדעת על כך שלצירוף ch יש שתי הגיות, ולא אחת כמו ביידיש. אחרי a,‏ o,‏ u ו-au כמו כ' רפה בעברית, אך בכל שאר המצבים זהו עיצור אטום החוכך כנגד החך הקדמי (גג הפה), שאמנם אינו קיים בעברית, אך יותר קרוב בצלילו לש' מאשר לכ' רפה. אז שמו של המלחין Richard Strauss צריך להיכתב "רישרט שטראוס" ולא "ריכרד..." (שימו לב גם שעיצור קולי בסוף במילה בגרמנית נהגה אטום).

קישורים שימושיים

[עריכת קוד מקור | עריכה]

מאמרים שהתחלתי:

מאמרים שעליי לכתוב: