זיהוי תווים אופטי
| יש לשכתב ערך זה. הסיבה לכך היא: ניסוח אנציקלופדי, מקורות. | |||
| אתם מוזמנים לסייע ולתקן את הבעיות, אך אנא אל תורידו את ההודעה כל עוד לא תוקן הדף. אם אתם סבורים כי אין בדף בעיה, ניתן לציין זאת בדף השיחה. | |||
תוכנת זיהוי תווים אופטי (באנגלית: Optical Character Recognition; בראשי תיבות: OCR) היא תוכנה הממירה תמונה הסרוקה במחשב למסמך תמליל ממוחשב.
נכון לשנת 2009 תוכנות כאלה מתמודדות בהצלחה עם המרה של תמונה בה מצולם או סרוק מסמך מודפס ורק לעתים נדירות גם בכתב יד. התהליך כרוך בזיהוי תו אחרי תו מבין התווים השונים המרכיבים את הטקסט. אולם, שיפור הברירה בין תווים שונים נעשה לרוב גם בעזרת שני כללים הקשורים להקשר התווים: הגבלת קטעי תמליל שונים לכאלה הכוללים רק תווים מקבוצה מסוימת (אותיות עבריות, אותיות לטיניות, אותיות ערביות וכיוצא בזה) והגדרת מילים ושפה לשם העדפת תווים היוצרים מילים בעלות כתיב מוכר (למשל, בקטע תמליל המוגדר ככתוב אנגלית יועדפו תווים היוצרים מילים עם כתיב אנגלי תקין אך בקטע תמליל המוגדר ככתוב בספרדית יועדפו תווים היוצרים מילים בעלות כתיב ספרדי תקין).
תוכן עניינים |
[עריכה] שיטות של זיהוי תווים אופטי
את הזיהוי ניתן לבצע בשתי צורות שונות:
- התאמה תבניתית - בשיטה זו שומרים על תבניות שונות של האותיות, ומנסים לבדוק איזה מהאותיות היא הדומה ביותר לתבנית.
- תיאור מבני - בשיטה זו מחלקים את האות לחלקים שונים ויוצרים תיאור של חלקיה השונים של האות והיחסים שביניהם.
כדי למזער את כמות התווים השגויים שנוצרים בתהליך, מפעילה התוכנה לפעמים בדיקה מול מילון. במקרה זה התוכנה מכילה רובד נוסף שמרכיב את התווים המזוהים למילים שלמות, מחפש כל מילה במילון, ובמקרה שאינו מוצא אותה, מנסה לשנות תווים מסוימים (אלה שבהם ודאות הזיהוי נמוכה) עד שהמילה המזוהה נמצאת באוצר המילים של המילון.
[עריכה] שימושים
שימוש בטכנולוגיה של זיהוי תווים אופטי, והמרת קובץ גרפי טקסטואלי לקובץ שמורכב מתוים, נעשית בדרך כלל לשם המטרות הבאות:
- עיבוד מחדש וסידור של התמליל, שילובו בתמליל מודפס עתידי, או הדפסתו מחדש בעיצוב אחר.
- אכסון נתונים טקסטואליים במחשב, תוך הנגשת האפשרות של חיפוש תוכנם לחיפוש, למשל בתוכנת החיפוש הפנימית או מנועי חיפוש כדוגמת גוגל.
- הפצת תוכן טקסטואלי עם תוכנה לאחזור מידע.
- העלאת הטקסט לאתרי אינטרנט, או שליחתו בדואר אלקטרוני
- שינוי עיצוב התמליל לשם הפיכתו לנגיש עבור אנשים עם לקויות:
- הדפסת התמליל או הצגתו על מרקע המחשב עבור אנשים עם לקות ראיה באותיות גדולות על דף צר, בצבעים בעלי ניגודיות חזקה (למשל צהוב על שחור), תוך הגדלת הרווחים בין המילים או בין השורות ביחס לגודל המילים, תוך ניקוי כתמים מהדף המקורי וכיוצא בזה.
- הקראת התמליל על ידי המחשב בעזרת תוכנת הקראה (Text To Speech) עבור עיוורים ודיסלקטים קשים.
- הזנה למחשב של טפסי נייר באופן ממוכן.
- זיהוי של מספר רישוי של מכוניות בחניונים ובכבישי אגרה.
[עריכה] שלבי התהליך
- זיהוי שורות הטקסט ויישור השורה כך שהאותיות יהיו אופקיות. שלב זה פותר בעיות של דפים שסריקתם נעשתה בזווית, מה שמקשה על התוכנה לזהות את צורת האותיות בצורה נכונה.
- ניקוי של הרקע מלכלוך. במקרה של טקסט עברי מאותר גם הניקוד ונמחק, כדי להקל על זיהוי האותיות עצמן.
- הפרדת השורות השלמות לאותיות ומילים על פי מרווחים.
- זיהוי הגופן (פונט) שבו הודפס הטקסט, על ידי הפעלת אלגוריתם (איטי) המזהה מאפיינים של גופנים שונים, ובוחר את הגופן הקרוב ביותר.
- זיהוי האותיות הבודדות לפי המאפיינים המפרידים בין האותיות בהתאם לגופן הנבחר (זהו שלב מהיר).
- חיפוש המילים המזוהות במילון (אופציונלי). בכל מקרה של מילה שאיננה במילון, מבוצע ניסיון להחליף אותיות באותיות קרובות מבחינת מאפיינים, עד הגעה למילה שנמצאת במילון.
- במקרה של מקור שמכיל גם תמונות, יצירת קובץ שבו משולב הטקסט עם התמונות הסרוקות.
חלק ממאפייני האותיות הם פשוטים, כדוגמת מיקומי קווים אופקיים ואנכיים, או משקל השחור בתתי האזורים השונים בתוך הריבוע המכיל את האות, רוחב האות וגובהה, חריגה מעל או מתחת לקו השורה וכדומה. במקרים בהם המרחק בין מאפייני אותיות דומות הוא גדול יחסית, ההפרדה היא אופטימלית.
במקרים בהם התוכנה היא כזו שמזהה מילים, ניתן להקטין את כמות השגיאות בתהליך אם ניתן לבדוק האם המילה הנבחרת מתאימה לתוכן, כלומר האם במיקום בו היא זוהתה, היא בהקשר סביר לטקסט. הבנת ההקשר היא מורכבת ונעשית על ידי בדיקה האם המילה ממלאת תפקיד חיבורי הגיוני במשפט, או בשיטות סטטיסטיות - האם המילים בקרבתה מופיעות במקום אחר או במסמכים אחרים ובאיזו הסתברות.
תוכנות זיהוי מתוחכמות בנויות כרשת עצבית, שהיא תהליך תכנותי המבוסס על התנסות ולמידה. תוכנה כזו מציגה את הטקסט המזוהה למשתמש, שמתקן שגיאות בזיהוי, והתוכנה לומדת את השגיאות ומנסה להקטין את הסיכוי שתחזורנה בעתיד. ליכולת זו שימוש רק אם סוג הטקסטים שעוברים זיהוי הם דומים מבחינות שונות - גופן הדפסה, גודל אות, אוצר מילים ועוד.
[עריכה] ראו גם
[עריכה] קישורים חיצוניים
| מיזמי קרן ויקימדיה |
|---|
- הכול אודות OCR, באתר של ליגטורה
- hocr, תוכנה חופשית לפיענוח אופטי עברי
- tesseract-ocr, תוכנה בקוד פתוח ל-OCR שפותחה על ידי HP וכעת על ידי גוגל
- OcrOpus, תוכנה בקוד פתוח ל-OCR