מודל bag of words בראייה ממוחשבת

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

בתחום ראייה ממוחשבת, מודל bag-of-words (מודל BoW) מיושם בבעיות של סיווג תמונה, על ידי כך שמסתכלים על חלקים בתמונה כאל מילים ויזואליות. בסיווג מסמך, bag-of-words הוא וקטור דליל של ספירת מופעים של מילים. כלומר, היסטוגרמה דלילה על אוצר המילים הנתון (הנקרא מילון). בראייה ממוחשבת, bag-of-visual-words הוא וקטור דליל של ספירת מופעים של מילים ויזואליות מתוך אוצר מילים ויזואליות נתון.

ייצוג על בסיס מודל BoW[עריכת קוד מקור | עריכה]

ייצוג תמונה המבוסס על מודל BoW[עריכת קוד מקור | עריכה]

על מנת לייצג תמונה באמצעות מודל זה, ניתן להתייחס לתמונה כמו אל מסמך. באנלוגיה,יש צורך להגדיר מהן "מילים" בתמונות. הגדרת המילים והמילון תעשה באמצעות שלושה השלבים עיקריים: גילוי מאפיינים (ראייה ממוחשבת), תיאור מאפיינים יצירת מילון באמצעות המתארים.

ייצוג מאפיינים[עריכת קוד מקור | עריכה]

לאחר זיהוי מאפיינים, כל תמונה מיוצגת ע”י חלקים מקומיים באזור המאפיינם. שיטות לייצוג מאפיינים מתמודדות עם השאלה איך לייצג את המאפיינים באמצעות קטורים מספריים. וקטורים אלו נקראים מתארים (feature descriptors). מתאר טוב הוא מתאר שמסוגל להתמודד עם שינויי עצמה בתמונה, סיבוב, שינוי קנה מידה במידה מסוימת. אחד מהמתארים המפורסמים ביותר הוא SIFT Scale-invariant feature transform. SIFT מייצג כל אזור נבחר בתמונה כוקטור מספרי 128 ממדים.

לאחר שלב ייצוג המאפיינים, כל תמונה היא אוסף של וקטורים מאותו הממד (128 ל-SIFT), שבו הסדר של וקטורים שונים הוא חסר חשיבות.

יצירת המילון[עריכת קוד מקור | עריכה]

השלב האחרון במודל BoW הוא להמיר את האזורים שיוצגו באמצעות וקטורים לאוסף של "מילות קוד" או "מילים ויזואליות" (מילים באנלוגיה למסמכי טקסט), שגם מייצר codebook (אנלוגיה למילה במילון). מילת קוד יכולה לייצג מספר אזורים דומים. שיטה פשוטה אחת לקבלת המילים הויזולאיות היא ביצוע אשכול kmeans על כל הווקטורים. [5] מילות קוד לאחר מכן הן המרכזים של הצבירים שנלמדו. מספר האשכולות הוא מספר המילים במילון הוויזואלי (אנלוגיה לגודל של המילון בטקסט).

לפיכך, כל אזור מאפיין בתמונה ממופה למילת קוד מסוימת בתהליך האשכול, והתמונה יכולה להיות מיוצג על ידי היסטוגרמה של מילות הקוד. הסטוגרמה זו מיוצרת על ידי ספירה של המופעים של המילים הוויזואליות מתוך המילון, בתמונה.

לקריאה נוספת[עריכת קוד מקור | עריכה]

  • Szeliski, Richard. Computer vision: algorithms and applications. Springer, 2010.‏ פרק 14
  • Csurka, Gabriella, et al. "Visual categorization with bags of keypoints." Workshop on statistical learning in computer vision, ECCV. Vol. 1. 2004.‏