זיהוי תווים אופטי

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
Gnome-colors-edit-find-replace.svg יש לשכתב ערך זה. הסיבה לכך היא: ניסוח אנציקלופדי, מקורות.
אתם מוזמנים לסייע ולתקן את הבעיות, אך אנא אל תורידו את ההודעה כל עוד לא תוקן הדף. אם אתם סבורים כי אין בדף בעיה, ניתן לציין זאת בדף השיחה.
באמצעות תוכנת HOCR לזיהוי תווים אופטי, המחשב יכול לפענח את התווים בקובץ תמונה, אך רואים במקרה זה שעדיין ישנה בעייה בהמרה לעברית של טקסט שאינו ברור לגמרי.

תוכנת זיהוי תווים אופטיאנגלית: Optical Character Recognition; בראשי תיבות: OCR) היא תוכנה הממירה תמונה הסרוקה במחשב למסמך תמליל ממוחשב.

נכון לשנת 2009 תוכנות כאלה מתמודדות בהצלחה עם המרה של תמונה בה מצולם או סרוק מסמך מודפס ורק לעתים נדירות גם בכתב יד. התהליך כרוך בזיהוי תו אחרי תו מבין התווים השונים המרכיבים את הטקסט. אולם, שיפור הברירה בין תווים שונים נעשה לרוב גם בעזרת שני כללים הקשורים להקשר התווים: הגבלת קטעי תמליל שונים לכאלה הכוללים רק תווים מקבוצה מסוימת (אותיות עבריות, אותיות לטיניות, אותיות ערביות וכיוצא בזה) והגדרת מילים ושפה לשם העדפת תווים היוצרים מילים בעלות כתיב מוכר (למשל, בקטע תמליל המוגדר ככתוב אנגלית יועדפו תווים היוצרים מילים עם כתיב אנגלי תקין אך בקטע תמליל המוגדר ככתוב בספרדית יועדפו תווים היוצרים מילים בעלות כתיב ספרדי תקין).

תוכן עניינים

[עריכה] שיטות של זיהוי תווים אופטי

את הזיהוי ניתן לבצע בשתי צורות שונות:

  • התאמה תבניתית - בשיטה זו שומרים על תבניות שונות של האותיות, ומנסים לבדוק איזה מהאותיות היא הדומה ביותר לתבנית.
  • תיאור מבני - בשיטה זו מחלקים את האות לחלקים שונים ויוצרים תיאור של חלקיה השונים של האות והיחסים שביניהם.

כדי למזער את כמות התווים השגויים שנוצרים בתהליך, מפעילה התוכנה לפעמים בדיקה מול מילון. במקרה זה התוכנה מכילה רובד נוסף שמרכיב את התווים המזוהים למילים שלמות, מחפש כל מילה במילון, ובמקרה שאינו מוצא אותה, מנסה לשנות תווים מסוימים (אלה שבהם ודאות הזיהוי נמוכה) עד שהמילה המזוהה נמצאת באוצר המילים של המילון.

[עריכה] שימושים

טופס לסקרים באמצעות OCR

שימוש בטכנולוגיה של זיהוי תווים אופטי, והמרת קובץ גרפי טקסטואלי לקובץ שמורכב מתוים, נעשית בדרך כלל לשם המטרות הבאות:

  • עיבוד מחדש וסידור של התמליל, שילובו בתמליל מודפס עתידי, או הדפסתו מחדש בעיצוב אחר.
  • אכסון נתונים טקסטואליים במחשב, תוך הנגשת האפשרות של חיפוש תוכנם לחיפוש, למשל בתוכנת החיפוש הפנימית או מנועי חיפוש כדוגמת גוגל.
  • הפצת תוכן טקסטואלי עם תוכנה לאחזור מידע.
  • העלאת הטקסט לאתרי אינטרנט, או שליחתו בדואר אלקטרוני
  • שינוי עיצוב התמליל לשם הפיכתו לנגיש עבור אנשים עם לקויות:
    • הדפסת התמליל או הצגתו על מרקע המחשב עבור אנשים עם לקות ראיה באותיות גדולות על דף צר, בצבעים בעלי ניגודיות חזקה (למשל צהוב על שחור), תוך הגדלת הרווחים בין המילים או בין השורות ביחס לגודל המילים, תוך ניקוי כתמים מהדף המקורי וכיוצא בזה.
    • הקראת התמליל על ידי המחשב בעזרת תוכנת הקראה (Text To Speech) עבור עיוורים ודיסלקטים קשים.
  • הזנה למחשב של טפסי נייר באופן ממוכן.
  • זיהוי של מספר רישוי של מכוניות בחניונים ובכבישי אגרה.

[עריכה] שלבי התהליך

  • זיהוי שורות הטקסט ויישור השורה כך שהאותיות יהיו אופקיות. שלב זה פותר בעיות של דפים שסריקתם נעשתה בזווית, מה שמקשה על התוכנה לזהות את צורת האותיות בצורה נכונה.
  • ניקוי של הרקע מלכלוך. במקרה של טקסט עברי מאותר גם הניקוד ונמחק, כדי להקל על זיהוי האותיות עצמן.
  • הפרדת השורות השלמות לאותיות ומילים על פי מרווחים.
  • זיהוי הגופן (פונט) שבו הודפס הטקסט, על ידי הפעלת אלגוריתם (איטי) המזהה מאפיינים של גופנים שונים, ובוחר את הגופן הקרוב ביותר.
  • זיהוי האותיות הבודדות לפי המאפיינים המפרידים בין האותיות בהתאם לגופן הנבחר (זהו שלב מהיר).
  • חיפוש המילים המזוהות במילון (אופציונלי). בכל מקרה של מילה שאיננה במילון, מבוצע ניסיון להחליף אותיות באותיות קרובות מבחינת מאפיינים, עד הגעה למילה שנמצאת במילון.
  • במקרה של מקור שמכיל גם תמונות, יצירת קובץ שבו משולב הטקסט עם התמונות הסרוקות.

חלק ממאפייני האותיות הם פשוטים, כדוגמת מיקומי קווים אופקיים ואנכיים, או משקל השחור בתתי האזורים השונים בתוך הריבוע המכיל את האות, רוחב האות וגובהה, חריגה מעל או מתחת לקו השורה וכדומה. במקרים בהם המרחק בין מאפייני אותיות דומות הוא גדול יחסית, ההפרדה היא אופטימלית.

במקרים בהם התוכנה היא כזו שמזהה מילים, ניתן להקטין את כמות השגיאות בתהליך אם ניתן לבדוק האם המילה הנבחרת מתאימה לתוכן, כלומר האם במיקום בו היא זוהתה, היא בהקשר סביר לטקסט. הבנת ההקשר היא מורכבת ונעשית על ידי בדיקה האם המילה ממלאת תפקיד חיבורי הגיוני במשפט, או בשיטות סטטיסטיות - האם המילים בקרבתה מופיעות במקום אחר או במסמכים אחרים ובאיזו הסתברות.

תוכנות זיהוי מתוחכמות בנויות כרשת עצבית, שהיא תהליך תכנותי המבוסס על התנסות ולמידה. תוכנה כזו מציגה את הטקסט המזוהה למשתמש, שמתקן שגיאות בזיהוי, והתוכנה לומדת את השגיאות ומנסה להקטין את הסיכוי שתחזורנה בעתיד. ליכולת זו שימוש רק אם סוג הטקסטים שעוברים זיהוי הם דומים מבחינות שונות - גופן הדפסה, גודל אות, אוצר מילים ועוד.

[עריכה] היסטוריה

בשנת 1929, גוסטב טאוצ'ק רשם פטנט על זיהוי התווים האופטי (OCR) בגרמניה, ולאחריו הנדל רשם גם הוא את הפטנט בארצות הברית בשנת 1933 (פטנט מס' 1,915,993). בשנת 1935 קיבל טאוצ'ק רישום פטנט גם על שיטתו הייחודית (פטנט מס' 2,026,329).

המכונה של טאוצ'ק פעלה בטכנולוגיה מיוחדת הבנויה מתבניות. גלאי תמונות הוצב ממול התבנית והדמות לזמן מדויק כאשר האור מכוון אליהם בצורה כזו שלא יגיע לגלאי.

בשנת 1950, פרנק רוולט, ששבר בעברו את הקוד ה"סגול" היפני ביקש מדיוויד שפרד, קריפטוגרף בסוכנות הביטחון הלאומי (סוכנות של ממשלת ארצות הברית העוסקת ביצירת צפנים ופיענוחם להגנת ולקריאת מידע מוצפן וכן בנושאי קומוניקציה שונים), לעבוד עם ד"ר לואיס טורדלה ולהמליץ על מידע מכוון פרוצדורי לסוכנות. בעבודה התגלתה בעיה בלקיחת הודעות מודפסות ושינויין לשפת המכונה. שפרד החליט שחייב להמצא לכך פתרון וזה אפשרי לבנות מכונה שתהיה מסוגלת לבצע את ההעברה הזו, ובעזרת חברו הארבי קוק הוא בנה את "גיזמו" בעליית הגג שבביתו, בעיקר בערבים ובסופי שבוע. הליך זה תועד לגיליון של ה-Washington Daily News ב-27 באפריל 1951 ובNew York Times ב-26 בדצמבר 1953. לאחר מכן, הקים שפרד את חברת IMR, שהיו הראשונים להביא את מערכות ה-OCR לשימוש מסחרי. בזמן שהמערכות המתקדמות של IMR השתמשו בטכנולוגיה של ניתוח תמונות כנגד התאמת דמויות, ויכלו להסכים על מספר גופנים שונים, "גיזמו" הייתה די מוגבלת ביחס אליהן בעיקר ברישום שמוצב במאונך למכונה שלא היווה בעיה למערכות של IMR.

המערכת לזיהוי תווים אופטי המסחרית הראשונה הותקנה ב"רידרס דייג'סט" (ירחון אמריקאי המפרסם גרסאות מתומצתות של מאמרים ותקצירי פרסומים ממקורות שונים) בשנת 1955, והיום היא מצויה ב- Smithsonian (המוזיאון הלאומי של ארצות הברית). המערכת השנייה נמכרה לחברת הנפט של קליפורניה לצורך סריקת כרטיסי אשראי לצורכי חיוב, ולאחר מכן נמכרו מערכות רבות נוספות לחברות נפט שונות. מערכות נוספות לצורכי חיוב נמכרו על ידי IMR בסוף שנות ה-50 לחברת הטלפון שבאוהיו, וסורק דפים נמכר לחיל האוויר של ארצות הברית לצורך קריאת והעברת מסמכים שנכתבו בטלפרינטר. IBM ואחרים הורשו מאוחר יותר להשתמש בפטנטים של שפרד.

בשנת 1965, "רידרס דייג'סט" ו-RCA שיתפו פעולה בבניית מזהה תווים אופטי שיעוצב כך שיהפוך את הנתונים האנלוגיים במספרים סידוריים שעל התלושים במודעות של ה"רידרס דייג'סט" לספרתיים. הגופן שהשתמשו בו היה על המסמכים מודפס באמצעות מדפסת של RCA תוך שימוש בOCR-A font. המפענח חובר ישירות למחשב (RCA 301), נעקב על ידי מסמך קריאה מיוחד שהותקן ב-TWA במקום שהמפענח עיבד מלאי של כרטיסי טיסה. המפענח עיבד מסמך בקצב של 1,500 מסמכים לדקה, בדק כל מסמך ודחה את אלו שלא הצליח לפענח. המוצר הפך לחלק מקו המוצרים של RCA כמפענח שעוצב לעיבוד ""Turn around Documents ביניהם ביטוח על גביית כספים.

בשרות הדואר של ארצות הברית משתמשים במכונות OCR לסווג מיילים מאז 1965, המכונות מבוססות על טכנולוגיה שהומצאה בעיקר על ידי הממציא ג'ייקוב רבינוב. השימוש הראשון ב-OCR באירופה היה של רשות הדואר של בריטניה. בשנת 1965 החל תכנון של מערכת בנקאות, מערכת ההסבה הלאומית, תוך שימוש בטכנולוגית ה-OCR, וזו הייתה לרבולוציה של מערכת התשלומים בבריטניה. ברשות הדואר בקנדה משתמשים במערכות OCR עוד משנת 1971. מערכות ה-OCR קוראות את השם והכתובת מספר הכתובות תוך מיון ממוכן, ומדפיסות ברקוד המובסס על מיקוד הדואר. לאחר-מכן המכתבים אמורים להתמיין במרכזי רשות הדואר השונים בפשטות על ידי מכונות שקוראות את הברקוד. למניעת תקלות בקריאת הכתובות, משתמשים בדיו מיוחד שנראה היטב תחת אור על-סגול.

בשנת 1974, ייסד ריי קורצוויל את חברתו "קורצוויל מוצרי מחשב בע"מ (Kurzweil Computer Products, Inc ), והיה למוביל בפיתוח המערכת הראשונה שקוראת בצורה אופטית כל גופן רגיל. הוא החליט שהאפליקציה הכי טובה של הטכנולוגיה הזו תהיה הכנת מכשיר קריאה לעיוורים, שיאפשר לעיוורים להבין טקסט כתוב תוך שהמחשב קורא להם אותו בקול. ההתקן גרר המצאה של שתי טכנולוגיות חדשות – הסורק השולחני וסינתיסייזר של טקסט-לשמיעה. ב-13 בינואר 1976 המוצר המוגמר נחשף בהיקף נרחב בעיתונות, כאשר האורות הכוונו לעבר קורצוויל ומובילי הפדרציה הלאומית לעיוורים. המוצר קיבל את השם "מכונת הקריאה קורצוויל" (Kurzweil Reading Machine). אמנם ההתקן כיסה שולחן עבודה שלם והוא היה יקר, אך הוא תפקד בצורה טובה דיה כדי לשמש כאביזר טכנולוגיה מסייעת אמין. מקור ההשראה של ריי קורצוויל היה ידידו הטוב סטיבי וונדר.

בשנת 1978 החלו "קורצוויל מוצרי מחשב" למכור גרסה מסחרית של המזהה תווים אופטי כתכנת מחשב. לקסיס נקסיס (מחלקה משפטית של חברת ריד אלסביר שהינה חברת אספקת שירותי מידע משפטי ועסקי ושירות מחשב מקוון) הייתה לאחת מהרוכשות הראשונות וקנתה את התכנה כדי להעלות מאמרים וקובצי חדשות על בסיסי הנתונים המקוונים. שנתים לאחר מכן קורצוויל מכר את חברתו לחברת זירוקס (Xerox) שהתעניינה בקידום המרת הטקסט הכתוב אל תוך המחשב. קורצוויל מוצרי מחשב הפכה להיות לחברת-בת של זירוקס תחת השם סקאנסופט (כיום היא נקראת ניואנס תקשורת - Nuance Communications).

[עריכה] OCR בעברית

זיהוי אופטי של כתב עברי היווה בעיה בקרב המפתחים, כיוון שישנן מספר אותיות בשפה העברית הדומות זו לזו (לדוגמה: "ם" - "ס", "ו" -"ן", "ב" - "כ", "ד" -"ך", "ג" - "נ", גרש וגרשיים ו"י"). בעיה נוספת שמעלה העברית היא זיהוי אופטי של טקסט מנוקד, והתעלמות מהניקוד או שילובו הנכון בטקסט המפוענח.

ישנן ניסיונות שונים במטרתה לפתור בעיה זו. אחת מהן מתבססת על טכנולוגית "רשתות הנוירונים". הטכנולוגיה בעצם בנוית מודל הסתברותי שמתקן את עצמו בלי תלות בפרמטרים שמזין המפתח ומכאן עצמתן של הרשתות. העצמה מתבטאת בכך שאין צורך להבין במדויק כל אות, אלא להסתברות שהיא תתקיים במילה/משפט. טכנולוגיה זו מאפשרת מזיהוי כתב עברי ברמה גבוהה מאוד.

כיום ישנן מספר תכנות שמאפשרות OCR בעברית, ביניהן ניתן לציין את חברת ליגטורה, אותיות פלוס של חברת קוטב, HOCR של הקוד הפתוח, OCR המשולב באדובי אקרובט, ABBYY FineReader, ו-Readiris.

[עריכה] טכנולוגית ה - OCR נכון לשנת 2009

הזיהוי המדויק של האלפבית הלטיני וכתבים מודפסים שונים הופך בימים אלו לפתרון שכיח. כיום ניתן לזהות כתבים במעל 99% דיוק, אך חלק מהאפליקציות דורשות מבט אנושי נוסף לאחר הזיהוי (לבדיקת מילים/אותיות שדיוקם בספק). שיפור הדיוק נעשה בכמה דרכים כדי להבטיח מינימום שגיאות. לדוגמה תוכנות ה- OCR המובחרות מחוברות למילון ובכך מצמצמות את הסיכוי לטעות (99% דיוק במקום 95% בלי מילון).

זיהוי תווים אופטי (OCR) עשוי להתקשר בטעות לזיהוי תווים "און-ליין". בעוד OCR הינו זיהוי תווים "אוף-ליין" בו המערכת מזהה את הצורה המתוקנת של האות, זיהוי תווים "און-ליין" מזהה את התנועה של היד בזמן הכתיבה. זיהוי תווים "און-ליין" מתקשר גם לזיהוי דינמי של תווים, זיהוי תווים בזמן-אמת וזיהוי תווים אינטלגנטי (ICR).

[עריכה] ראו גם

[עריכה] קישורים חיצוניים

מיזמי קרן ויקימדיה
כלים אישיים

גרסאות שפה
מרחבי שם
פעולות
ניווט
קהילה
תיבת כלים
דף זה בשפות אחרות
הדפסה/יצוא