ראייה ממוחשבת

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
גילוי תנועה של אדם בשטח כפרי, על ידי טכנולוגיית ראייה ממוחשבת

ראייה ממוחשבתאנגלית: Computer Vision) היא ענף מחקר מרכזי של מדעי המחשב, העוסק בעיבוד אוטומטי של תמונות המבוססות על העולם האמיתי, במטרה לחלץ, ולפרש מידע חזותי הטמון בהם. כדיסציפלינה מדעית, ראייה ממוחשבת עוסקת בתאוריה שמאחורי חילוץ מידע מתמונות באמצעי ממוכן. בתחום הטכנולוגי, ראיית ממוחשבת בדרך כלל מתייחסת לתהליך של שילוב ניתוח אוטומטי של תמונה עם שיטות וטכנולוגיות אחרות כדי לספק בדיקות אוטומטיות והדרכת תהליך או רובוט ביישומים תעשייתיים. ברוב היישומים המעשיים בראייה ממוחשבת, מחשבים מתוכנתים מראש כדי לפתור משימה מסוימת וקונקרטית.

נתוני התמונה יכולה ללבוש צורות רבות, כגון רצפי וידאו, תצוגות ממצלמות מרובות, או נתונים רב ממדיים מסורק רפואי.

הקדמה[עריכת קוד מקור | עריכה]

תרשים מפושט מעט של חמש שכבות הרשתית, המבוסס על תרשים של רמון אי קחל. הרשתית היא אוסף של שכבות עצביות. אור מרוכז על ידי עדשת העין ועובר דרך שכבות אלו (מלמעלה למטה) עד שהוא פוגע בתאים קולטי אור (השכבה התחתונה ביותר). בכל תא קולט-אור (פוטורצפטור) מתחוללת תגובה פוטוכימית שבעקבותיה מתקדם אות חשמלי לתאים הדו-קטביים והאופקיים (שכבה צהובה במרכז). משם מתקדם האות לתאי האמקרין והגנגליון. האות מביא לשינוי דפוס הדחפים העצביים ששולחים תאי עצב אלה על הסיבים העצביים שלהם. דפוס זמני-מרחבי זה של אותות מרכיב את המידע שמועבר מהעין אל המוח. החוקרים קופלר וברלו גילו כי התגובה של תאי הגנגליון שונה מהתגובה של התאים הפוטורצפטורים, וכי למעשה מתחולל כבר שם תהליך של עיבוד תמונה.

העיניים האנושיות מתפקדות כמעין מצלמות וידאו צבעוניות ברזולוציה גבוהה ביותר (כ־120 מגהפיקסל וליתר דיוק 125 מיליון קנים בעלי רגישות גבוהה לעוצמות אור נמוכות, ו-6 מיליון מדוכים האחראים על תנאי תאורה חזקים וצבע) ובקצב של 20 תמונות בשנייה והמידע הרב שנקלט מעובד מנותח במהירות שיא, תוך ניפוי הטפל מהעיקר ופיענוח המושתת על בינה אנושית. אופן פעולתו של מנגנון זה - המאפשר לתינוק בן שנתיים לזהות את אמו, והמאפשר לזהות אדם שלא ראינוהו שנים ארוכות, או את היכולת לקרוא כל כתב יד, כמו גם את היכולת לזהות איום מכל גורם אפשרי, עדיין איננו ברור לחלוטין.

חוקרים של מדעי המוח והראייה הצליחו לפענח באופן חלקי את התהליך של ניתוח הראייה אצל חיות ובני אדם. כאשר תחילת העיבוד ודחיסת המידע מתרחש כבר בשכבות השונות של הרשתית (כמו למשל חידוד הבבואה, הדגשת גבולות האובייקטים (edge) וגילוי תנועה) וחלק אחר במרכזים שונים בקליפה האחורית של המוח, שמספרם הכולל איננו ברור. הבבואה שכבר עברה עיבוד תמונה ודחיסה, יוצאת מהרשתית ברזולוציה של 1.2 מגהפיסקל באמצעות עצב הראייה, עוברת דרך גרעין הברך הצדי (Lateral geniculate nucleus) שבתלמוס, וממשיכה בעיקר אל האזור הראשוני בקליפת המוח הראייתית (V1), ומשם משוכפלת בכל אחד מאזורי ניתוח הראיה פעם נוספת, ועוברת בכל אחד מהם תהליך של ניתוח ייחודי, כך למשל נראה כי התאים באזור המכונה V1 רגישים לאוריינטציה של קוים אנכים ואופקיים וכן לתנועה בכיוון מסוים. באזור שכונה V2 התגלתה רגישות לקוים מדומים, באזור המכונה V4 התגלתה רגישות לצבעים, ואילו באזור MT התגלתה רגישות לתנועה.

ענף זה מנסה ליצור כלים לוגיים כדי לחקות את הניתוח ועיבוד הנתונים שהמוח האנושי מבצע בעקבות הראייה, אך אף שישנן הצלחות יפות בעניין, נראה כי בהרבה תחומים המחקר עדיין בחיתוליו, וכי ידרשו עוד שנות מחקר רבות עד שיהיה אפשר להבין את מורכבותה של מערכת הראיה האנושית וחיקויה בכלים ממוחשבים. יתרון המיכון בעניין זה הוא ברור: המידע שמצלמות יכולות לקבל, לעבד ולנתח הוא לאין שיעור מדויק וכמותי מאשר העין והמוח האנושי מסוגלים לשאת, אף ברזולוציה יחסית נמוכה. כך למשל תוכנה לזיהוי טביעות אצבעות יכולה לסרוק בזמן קצר יחסית מאגר של מיליוני טביעות אצבעות כדי למצוא התאמה, סריקה שבבדיקה אנושית ידנית הייתה מבצע בלתי אפשרי.

אחת הדרכים העיקריות בניתוח התמונה נעשית בפירוק התמונה לאבני הבסיס שמרכיבות אותה. נקודות אלו נקראות פיקסלים. כך נעשה ניסיון להגדיר ולזהות דפוסים ותבניות של קבוצות פיקסלים ושינויים של צבעי הפיקסלים המתרחשים במעבר מתמונה לתמונה. כך למשל בגילוי תנועה מנסים לזהות שינויים בקבוצות פיקסלים מתמונה לתמונה ואף לנסות לאגד קבוצות פיקסלים קרובות לידי אובייקט אחד.

נושאים בראייה ממוחשבת[עריכת קוד מקור | עריכה]

יצירת הדמיה תלת ממדית ממפה דו ממדית
באמצעות תוכנת HOCR (Hebrew Optical Character Recognition) לזיהוי תווים אופטי, המחשב יכול לפענח את התווים בקובץ תמונה.
פענוח של QR Code המצפין בתוכו תווים והמיועד בין היתר לגלישה מהירה לכתובת באמצעות הסמארטפון. הקוד הבא מכיל את הכתובת של הוויקיפדיה העברית.

מדידת הסביבה[עריכת קוד מקור | עריכה]

  • הדמיית תלת ממד. הפקת תמונה תלת ממדית ממצלמה או מזוג מצלמות. ישנן מספר דרכים שניתן ליישם זאת. הראשונה באמצעות צילום סטריאוסקופי, שבו זוג מצלמות מצלמות את אותו אזור מזווית קצת שונה, וניתוח ההבדלים על מנת להפיק את ממד העומק בדומה לתהליך שעושות העיניים. דרך שנייה ניתוח האור וההצללה של אובייקטים ובאמצעותם חישובי עומק של העצמים. דרך שלישית היא באמצעות חישובי התנועה של העצמים. דרך רביעית היא יצירת מפת עומק באמצעות הקרנת אור אינפרא אדום וקליטתו באמצעות חיישן מיוחד, שמבצע את חישוב העומק.
  • מדידת עצמים. מערכות היכולות למדוד את צורתם, מיקומם וצבעיהם של עצמים. חישוב של פרספקטיבה והערכת מרחק של עצמים מהמצלמה. למשל מערכות רובוטיות הבונות מכונית, שצריכות לאתר אזורים מסוימים כדי לבצע בהן פעילות מסוימת. או מערכות רמזור המודדות את מהירותם של מכוניות המגיעות לרמזור.
  • ניווט אוטומטי. בתחום זה מנסים להקנות לרובוט או המכונית, אפשרות לפענח את השטח ולנוע בו באופן חופשי, באופן שלא יתקל בעצמים או במכשולים.

ניתוח תנועה[עריכת קוד מקור | עריכה]

  • גילוי וזיהוי תנועה - (VMD). מערכת המגלה תנועת עצם כפי שהוגדרה לה. בתחום זה יש לסנן רעשים, שינויי תאורה, ותנועות של עצמים לא רצויים, כדי לאבחן תנועה של העצמים המבוקשים. תחום זה הנו אחד הפופולריים בראיה הממוחשבת, וקיימות היום בעולם מספר רב של מערכות באיכויות מגוונות: ממערכות חובבניות ופשוטות המיועדות לתחום הביתי ועד מערכות מאוד מורכבות ומקצועיות המיועדות בעיקר לתחומים ביטחוניים וצבאיים.
    • עקיבת וידאו - (Video tracking). מערכת המאפשרת עקיבת המצלמה אחרי האובייקט. בתחום זה יש להניע את המצלמה בעקבות האובייקט, וצריך לוודא שהעיקוב מתבצע אחרי האובייקט שנבחר, כך שכאשר שהוא עובר מאחורי עצמים אחרים, או כאשר הוא נפגש בעצמים אחרים התכנה עדיין מתבייתת עליו, ולא טועה לעבור לאובייקט אחר.
    • בקרת תנועות חריגות - מערכת הלומדת תנועות שגרתיות של עצמים במרחב מסוים ומסוגלת לדווח כאשר התנועות של העצמים במרחב חריגות ויוצאות דופן. למשל בקרת תנועה חריגה של אנשים ורכבים בצומת, או כאשר רכבם יורדים מהכביש, בניגוד לתנועה השגרתית שבה כלי רכב נעים על הכביש.

זיהוי והכרה[עריכת קוד מקור | עריכה]

הבעיה הקלאסית של ראייה ממוחשבת, הינה לקבוע אם התמונה מכילה עצם או תכונה מסוימת, או פעילות. משימה זו שבדרך כלל יכול להיפתר ללא מאמץ בידי אדם, עדיין לא נפתרה באופן משביע רצון במקרים כלליים. בשיטות הקיימות להתמודדות עם בעיה זו ניתן לפתור אותה, במקרה הטוב, רק עבור אובייקטים ספציפיים, כגון אובייקטים בעלי גאומטריה פשוטה (למשל פּוֹלִיהֶדְרוֹן), פרצופים אנושיים, כתב יד מודפס, דמויות או כלי רכב, ובמצבים מסוימים, כמו תנאי תאורה המוגדרים היטב, רקע מסוים, ועמדה של האובייקט ביחס למצלמה.

  • סיווג עצמים (Object classification). הבנת סיווגו של עצם מסוים. לאחר שהמערכת מזהה שעצם מסוים הינו אובייקט שלם, היא יודעת להגדיר את טבעו, בהשוואה לתבניות מוכנות מראש, או באמצעות השוואה לווקטור מאפיינים של תבניות קיימות. בדרך כלל מדובר במספר טיפוסי עצמים קטן, המוגדר מראש בתחום מסוים.
  • ניתוח פעילות והתנהגות. הבנת פעילותם והתנהגותם של עצמים במרחב מסוים. כך למשל נעשה ניסיון להבין באמצעי ממוחשב כאשר מתרחשת פעילות אלימה בין בני אדם, רכב שלא נותן זכות קדימה להולך רגל שהתחיל לחצות כביש, או אדם שלא חוצה כביש במעבר חציה, ולהתריע על כך.
  • זיהוי אותות וסימנים
    • פענוח כתב אופטי - OCR. "הבנת" הכתב האופטי והמרתו לכתב מוקלד. תהליך שהאדם עושה בעיניו ומוחו. ההפך מהדפסה. דרך פשוטה היא באמצעות התאמה מבנית, שבה נעשית השוואה בין האות לבין דוגמאות של אותיות הנמצאות במאגר. מוגבלותה של שיטה זו בכך שהיא מוגבלת רק לצורות הקיימות במאגר. דרך שנייה היא באמצעות תיאור מבני שבה כל אות מתוארת באמצעות הקוים המרכיבים אותה והיחסים שביניהן. שיטה זו שמורכבת ליישום מקודמתה, הינה גם כוללנית, גמישה ומוצלחת יותר.
    • זיהוי אוטומטי של לוחיות רכב - (Automatic Number Plate Recognition) - תת-תחום ב-OCR.
    • פענוח ברקוד - פענוח של קווים וצורות מסוימות למספרים ותווים. בפענוח תווי ברקוד בשיטות שונות.
  • זיהוי תוואי שטח וקריאת מפות. דומה ל-OCR רק שהקריאה כאן היא של תמונת שטח והבנת הטופוגרפיה שלה.
  • זיהוי ביומטרי חזותי'. בדיקת התאמה בין בבואה חזותית של אובייקט פיזי לבין תמונות במאגר כמו פנים, רשתית, וטביעות אצבעות. בתחום של זיהוי פנים (Face recognition), צורת הפנים, גודל מרכיבי הפנים והיחס ביניהם ממוצים לנתונים שנשמרים במאגר (ווקטור שינויים), למשל המרחק בין העיניים, המרחק בין האוזניים, גודל הפה יחסית לפנים ומרחקו מהאף וכדומה, וכאשר מקבלים פנים חדשות שצריך לאתר הופכים אותם לווקטור שינויים ומחפשים התאמה במאגר. כמובן שהאלגוריתם הרבה יותר מורכב, מכיוון שהוא צריך לזהות פנים מכל מיני זויות, ויכולים להיות שינויים בהם כמו חבישת כובע, משקפיים או גידול שפם.
  • זיהוי פתולוגיות בתחום הרפואי.
  • מסיכה דינמית. חסימה של אותות וידאו מסוימים.

יישומי ראייה ממוחשבת[עריכת קוד מקור | עריכה]

  • שימושים אזרחיים ומסחריים:
    • ישומי ראייה ממוחשבת לקריאה:
    • ישומי ראייה ממוחשבת שלא לקריאה:
      • תנועה עצמאית של רובוטים לשאיבת אבק או גינון.
      • נהיגה אוטומטית של מכוניות: (בקרת שיוט: שמירת מרחק, בלימת חירום, זיהוי תוואי דרך, ניבוי והתכוננות לתאונה צפויה).
      • אזעקה ויזואלית שנעשית לפי זיהוי תמונה מסוימת או תנועה והגבה כלפיה.
      • הדמיית תלת ממד של שרטוטים טכניים של תוכנות שרטוט.
      • מיון וספירת דגי נוי.
      • ניטור התנהגות של בעלי חיים (למשל בדיקת השפעת תרופות על הפעלתנות של חיות מעבדה).
      • בדיקת איכות חזותית לאיתור פגמים במוצרי יצור.
      • אומדן מספר אנשים במקומות ציבוריים וספירת מכוניות בקטע כביש.
      • הנחיית עיוורים באמצעות מצלמה שתתאר את השטח באופן קולי, תבחין ברוחב של הדרך ותודיע האם הצבע התחלף ברמזור. שימוש זה עדיין נדיר (ראו גם טכנולוגיה מסייעת).
      • אינדיקציה ביציאה ובחזרה מפרסומות בטלוויזיה.
      • התרעה וצנזור של תמונות פורנוגרפיות בסרטים ובאינטרנט.
      • שתילת פרסומות במשחקי כדורגל וכדורסל.
      • ליטוש יהלומים מדויק, באופן שיחסוך מחומר הגלם של היהלום.
      • מערכת בקרה מרומזרת, המפעילה את הרמזורים לפי מספר המכוניות הממתינות בתור.
      • סיווג איכות של נתחי בשר בקר.
      • תוכנות מחשב שמפענחות ועוקבות אחר תנועות המשתמש ומחליפות שימוש בעכבר בתנועות יד, ראש או עין. סידור כזה מאפשר שימוש במחשב עבור נכי תנועה קשים מאוד שאינם יכולים לתפעל עכבר בשום דרך אחרת (ראו גם טכנולוגיה מסייעת).
      • תוכנה לזיהוי הבעות פנים ורגשות
  • שימושים בידוריים:
    • תוכנות מחשב שמפענחות ועוקבות אחר תנועות המשתמש, כגון 'PlayStation Eye Toy' - מצלמה שמתחברת לקונסולת המשחקים פלייסטיישן
    • קיימים מספר משחקים שניתן לשחק בהם בשילוב עם תנועה שמפוענחת על ידי המצלמה. כמו כן, ישנם מספר פיתוחים חופשיים של טכנולוגיה דומה למחשב האישי.
  • שימושים משטרתיים:
    • איתור מכוניות מבוקשות, על פי לוחיות הרישוי.
    • זיהוי אנשים לפי פניהם במאגרים.
    • זיהוי והתאמה של טביעות אצבעות לאלו שנמצאות במאגר ממוחשב.
  • שימושים צבאיים וביטחוניים:
    • תצפיות על תאי שטח גדולים.
    • הדמיית תמונת תלת ממד ממפות ומתצלומי אוויר ויצירת פנורמות מתצלומים או מסרט וידאו.
    • אבטחת מתקנים והתרעה על פריצה לאזורים מסווגים.
    • מידור אזורים בעזרת ביומטריה מבוססת זיהוי אובייקטים של קריאת רשתית העין למשל.
    • פיתוח אמצעי לחימה משולבי אוטומציה, כמו ניווט אוטומטי של טילים או כלי תעופה אחרים וכמו צידוד אוטומטי של טנקים לעבר מטרות ניידות.
    • זיהוי סיכונים באופן חזותי.
  • שימושים רפואיים:

אתגרים בתחום[עריכת קוד מקור | עריכה]

  • ראייה תלת ממדית ופרספקטיבה. היכולת להבחין בין עצמים קרובים לרחוקים, והיכולת לאמוד מרחק של עצמים.
  • סיווג עצמים. היכולת לאבחן עצמים ולסווגם, כך שהתוכנה תדע למשל להבדיל בין אדם לחיה, ובין מכונית לאופנוע. או למשל שהתוכנה תדע להבחין בין סוגים שונים של כלי רכב.
  • התגברות על זיופים. היכולת להבדיל בין פנים של אדם לתמונה המושמת לפני המצלמה.
  • פענוח כתב יד. תחום שעדיין אתגרי, בשל השוני הרב בין צורות האותיות של כתב היד, ובמיוחד בשפה העברית.
  • הגדרת יופי באופן ממוחשב. על פי הכלל הסימטרי של יחס הזהב, שעצמים יפים הם עצמים שמתקיים בינם לבין עצמם בהבטים שונים היחס הגאומטרי של 1.618
  • יצירת ממשקים חדשים עם המחשב, שיתבססו על ראייה ממוחשבת בנוסף לאמצעי הקלט המוכרים, למשל מיקום סמן העכבר בהתבסס על תנועת העיניים.

תחומים קרובים[עריכת קוד מקור | עריכה]

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]