נקדן טקסט

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
תמונת מסך של נקדן טקסט

נקדן טקסט הייתה תוכנת ניקוד אוטומטית שפותחה בשנת 1996 על ידי מט"ח (המרכז לטכנולוגיה חינוכית) כחלק מפרויקט "רב מילים" לניתוח צורני ממוחשב של השפה העברית, המאפשרת זיהוי של רוב המילים בעברית בנטיות שונות, כינויים ואותיות שימוש. הפרויקט בוצע בראשותו של פרופסור יעקב שויקה. כיום שייכת התוכנה לחברת מלינגו, אשר המשיכה לפתח אותה, ומפעילה גרסה עדכנית שלה באתר נקדן מורפיקס.

תוכנת נקדן-טקסט שהייתה תוסף למעבד התמלילים Word, איפשרה לנקד ממילה בודדת ועד מסמך מלא באופן אוטומטי, תוך שהיא בוחרת, במקרה של כמה אפשרויות, את המילה השכיחה ביותר והמתאימה ביותר להקשר. לתוכנה זו היה גם אשף ניקוד ידני, שאפשר לבחור מתוך רשימת מילים מנוקדות, ולנקד מילים באופן חופשי ובקלות. אחוזי ההצלחה בניקוד אוטומטי בתוכנה זו היו גבוהים (לטענת המפתחים: 90% - 95% הצלחה), והיא זכתה בפרס איל"א ליישומי מחשב.

בתוכנה זו יש מנגנון ניתוח צורני ופירוק למרכיבים של המילה, בשם "מלי"ם", כך שברשימת המילים המנוקדות ניתן לעשות אבחנה, בין שתי מילים זהות שמנוקדות אחרת, כך למשל כאשר המנקד ניתקל במילה וכשמחברותיכם הוא יודע האם הוא רוצה את הניקוד של ו + כאשר + מ + החברות שלכם (רבים), או את הניקוד של אם ו + כאשר + המחברות שלכם.

הגרסה העדכנית של התוכנה פועלת כאמור באתר נקדן מורפיקס, בתשלום דמי מינוי.

דוגמה לטקסט שנוקד על ידי התכנה[עריכת קוד מקור | עריכה]

נַקְדַן טֶקְסְט הִנָּהּ תָּכְנַת נִקּוּד אוֹטוֹמָטִית שֶׁפֻּתְּחָה עַל יְדֵי מָט"ח (הַמֶּרְכָּז לְטֶכְנוֹלוֹגְיָה חִנּוּכִית) כְּחֵלֶק מִפְּרוֹיֶקְט שֶׁל נִתּוּחַ מְמֻחְשָׁב שֶׁל הַשָּׂפָה הָעִבְרִית, בְּרָאשׁוּתוֹ שֶׁל פרופ' יַעֲקֹב שוייקה.

תָּכְנָהּ זוֹ שֶׁהָיְתָה תּוֹסָף לִמְעַבֵּד הַתַּמְלִילִים Word, אִפְשְׁרָה לְנַקֵּד מִמִּלָּה בּוֹדֶדֶת וְעַד מִסְמָךְ מָלֵא בְּאֹפֶן אוֹטוֹמָטִי, תּוֹךְ שֶׁהִיא בּוֹחֶרֶת, בְּמִקְרֶה שֶׁל כַּמָּה אֶפְשָׁרֻיּוֹת, אֶת הַמִּלָּה הַשְּׁכִיחָה בְּיוֹתֵר. לְתָכְנָהּ זוֹ יֵשׁ גַּם אַשַּׁף נִקּוּד, שֶׁמְּאַפְשֵׁר לְנַקֵּד מִלִּים בְּקַלּוּת וּבְאֹפֶן חָפְשִׁי. אֲחוּזֵי הַהַצְלָחָה בַּנִּקּוּד בְּתָכְנָהּ זוֹ גְּבוֹהִים, וְהִיא זָכְתָה בִּפְרַס אַיִל"א לְיִשּׂוּמֵי מַחְשֵׁב.

כַּיּוֹם הַתָּכְנָה נַקְדַן טֶקְסְט, שֶׁשָּׁמָּה הוּסַב לַנַּקְדָן, נִמְצָא בְּבַעֲלוּת שֶׁל חַבְרַת מלינגו, וְאֵינֶנָּה נִמְכַּרְתָּ כְּתָכְנָה עַצְמָאִית, וְהַשִּׁמּוּשׁ בָּהּ נַעֲשָׂה דֶּרֶךְ האינטרנט בַּתַּשְׁלוּם שֶׁל דָּמִי מָנוּי.

אפשר לשים לב שבטקסט, שיש בו 102 מילים, יש כתריסר טעויות מובהקות (מודגשות) ועוד כמה מילים לא מזוהות. למשל, כמה פעמים ניקדה התכנה את המילה "תכנה" עם מפיק באות ה'. בפעם הראשונה ("בתכנה זו") אין כל הצדקה מורפולוגית לכך, שכן לפי ניתוח הצירוף ע"פ ניקוד התכנה עולה כך: תוכן+שלה+זו. צירוף זה בלתי אפשרי בעברית, שכן היה צריך להיות תוכן+שלה+זה. לכן גם בכל הנוגע לזיהוי מורפו-סינטקטי התכנה איננה מושלמת כלל. מאז נרכשה "נקדן" על ידי חברת מלינגו כמעט לא פותחו בה שינויים ושיפורים לשוניים. שגיאות שונות שהיו עוד בתחילת הדרך נותרו בעינן. כפי שניתן לראות, הטעויות נובעות מניקודים אפשריים אך לא נכונים בהקשר הנתון. ניתוח ההקשר של התוכנה השתפר במהלך שנות פיתוחה. כיום באתר נקדן מורפיקס, בקטע המנוקד הנ"ל יש 3 טעויות מתוך 102 מילים.

דוגמה נוספת:

טקסט מקור הטקסט שהתקבל בנקדן הטקסט כפי שראוי לנקד
עוף גמל

מעלה על

על שבעת הימים טוס ופרח

דרוש בשלום

לאום ולאום

וברכם ביריד המזרח

עוֹף גָּמַל

מָעֳלֶה עַל

עַל שִׁבְעַת הַיָּמִים טוּס וּפֶרַח

דָּרוּשׁ בְּשָׁלוֹם

לְאֹם וּלְאֹם

וּבִרְכָּם בִּירִיד הַמִּזְרָח

עוּף גָּמָל

מַעֲלָה עָל

עַל שִׁבְעַת הַיַּמִּים טוּס וּפְרַח

דְּרֹשׁ בִּשְׁלוֹם

לְאֹם וּלְאֹם

וּבָרְכֵם בִּירִיד הַמִּזְרָח

בטקסט זה, שיר בן 15 מילים בלבד מאת חיים גורי, הציעה התכנה 9 מילים שגויות (60 אחוז שגיאות). מתוכן מילה אחת (וברכם) כלל לא מופיעה כאופציה לניקוד. ניקוד שירה הוא אתגר מיוחד לתוכנות ניקוד אוטומטי. כשיש כמה אפשרויות ניקוד למילה מסוימת בוחרת התוכנה במילה השכיחה יותר בשימוש והמתאימה להקשר התחבירי הנתון. אך השפה השירית בוחרת לרוב במילים הפחות שכיחות ובמבנים תחביריים בלתי שגרתיים. אתגר נוסף הוא צורת הציווי, שהיא נדירה סטטיסטית בטקסטים עבריים כלליים, אך עשויה להופיע בשיר מסוים מספר פעמים. בדרך כלל אתגר כזה נפתר על ידי בחירת צורת הציווי בממשק הגהה שמציע את כל אפשרויות הניקוד התקניות של המילה (כמו בנקדן מורפיקס).

מתחרים[עריכת קוד מקור | עריכה]

קיימים מספר מתחרים לתוכנה, אך אף אחד מהם אינו נוח ומדויק לשימוש כמו "נקדן".[דרוש מקור] תוכנה באתר "סנופי", אשר משווקת בשתי גרסאות (חינם עד 160 תווים ותוכנה בתשלום). תכנה זו ידועה בשגיאות הרבות שלה; תוכנת אוטו ניקוד המציעה ניקוד חצי אוטומטי, בעבר ניתנה לרכישה בנפרד וכיום משולבת במעבד התמלילים דגש תכנה זו מדויקת כמעט לגמרי בהצעות הניקוד שלה, אולם על המנקד לדעת את כללי הניקוד (השגיאה היחידה שנמצאה בה היא חוסר דגש באות ת' של המילה "מלאכתו"). תוכנת נקדנית, המציעה ניקוד ידני, חצי אוטומטי ואוטומטי, המבוססת על מאגר מילים מנוקדות ואיננה יודעת להתמודד עם תוספות של ו' החיבור וכל מילת יחס וקישור, ותוכנת נקדן של חברת "נזגול". בשנת 2010 עלתה לרשת תוכנת ניקוד חינמית בשם ניקודה שמשתמשת במאגר נתונים מבוסס על סריקת ניקוד מספרים מנוקדים ברשת ומשאירה את בחירת הניקוד הנכון למשתמש.

בשנת 2015 עלתה לרשת תוכנה חדשה בשם נקדן דגל, הפועלת בחינם ל-30 יום, ולאחר מכן צריך לקנות אותה. פעם בכמה שבועות עולה גרסה חדשה שלה, ונכון ליולי 2015 ניתן לעבוד דרכה על קובצי Word, txt, ו-rtf. יש לה מאגר משקלים ושורשים המכסים את רוב הפעלים, והמשתמש יכול להוסיף, לשנות או למחוק מתוך מאגרים אלה. שמות העצם כרגע מוכנסים ידנית. היא גם יודעת את חוקי תחיליות מש"ה וכל"ב, אולם היא אינה מנקדת אוטומטית אלא מציעה למשתמש את האפשרויות, והוא בוחר מתוכן בהקשת רווח.