לדלג לתוכן

Tf–idf

מתוך ויקיפדיה, האנציקלופדיה החופשית

tf–idf, קיצור של term frequency–inverse document frequency, בעברית: תדירות מונח (tf) - תדירות מסמכים הופכית (idf), הוא מדד של עיבוד שפה טבעית, המצמד לכל מילה במסמך השייך לאוסף מסמכים ערך מספרי. ערך זה, משקף את מרכזיותה של המילה במסמך, ביחס למסמכים אחרים[1]. מדד זה נפוץ בתחומים של אחזור מידע, כריית טקסט ומידול משתמשים.

גרסאות של tf–idf משמשות מנועי חיפוש לניקוד ולדירוג רלוונטיות טקסטים כתגובה לשאילתת משתמש (כמה מסמך רלוונטי לבקשה שהמשתמש הזין במנוע חיפוש). שימושים מרכזיים נוספים ל-tf–idf הם סינון מילים עם משמעות נמוכה לזיהוי ועיבוד טקסטים (מילות עצירה), לסיכום טקסטים ולסיווג מסמכים.

הגדרות ואופן החישוב

[עריכת קוד מקור | עריכה]

tf–idf מחושב בנפרד לכל מונח בתוך כל מסמך, על ידי מכפלה של שני גורמים: תדירות מונח (tf) ותדירות מסמכים הופכית (idf).

תדירות מונח היא אחוז הפעמים שמופיע מונח t במסמך d:

,

כאשר ft,d היא הספירה הגולמית של מונח במסמך, כלומר, מספר הפעמים שמונח t מופיע במסמך d. המכנה הוא המספר הכולל של מונחים במסמך d (ספירת כל מופע של אותו מונח בנפרד). ישנן דרכים נוספות אחרות המגדירות מדד זה, אך הגדרה פשוטה ובעלת שימושים רבים.

תדירות מסמכים הופכית (idf) היא מדד לנדירות המילה בין מסמכים .מדד זה מחושב על ידי מציאת אחוז המסמכים בהם המונח מופיע מכלל המסמכים, והפעלת פונקציית הלוג על אחוז זה:

כאשר:

  • : המספר הכולל של המסמכים
  • : מספר המסמכים שבהם המונח מופיע (כלומר, ). אם המונח לא נמצא בקורפוס, הדבר יוביל לחלוקה באפס. לכן מקובל להתאים את המכנה ל .

מכפלת tf ב-idf מניבה את המדד tf–idf:

משקל גבוה ב-tf–idf מגיע על ידי תדירות מונח גבוהה (במסמך הנתון) ותדירות מסמכים נמוכה של המונח בכל אוסף המסמכים; לכן המשקולות נוטות לסנן מונחים נפוצים. מכיוון שהיחס בתוך הפונקציה הלוגריתמית של תדירות המסמכים ההופכית תמיד גדול או שווה ל-1, הערך של תדירות המסמכים ההופכית (ובהתאמה של tf–idf) גדול או שווה ל-0. ככל שמונח מופיע במסמכים נוספים, היחס בתוך הלוגריתם מתקרב ל-1, ומקרב את ה-idf ואת tf–idf ל-0.

מסמך 2
מונח תדירות
this 1
is 1
another 2
example 3
מסמך 1
מונח תדירות
this 1
is 1
a 2
sample 1

נניח שיש טבלאות ספירת מונחים של קורפוס המורכב משני מסמכים בלבד, כפי שהם מופיעים בטבלאות המוצגות בצד שמאל.

החישוב של tf–idf עבור המונח "this" מתבצעת באופן הבא:

בצורתו הגולמית, tf הוא רק התדירות של "this" עבור כל מסמך. בכל מסמך מופיעה המילה "this" פעם אחת; אבל ככל שלמסמך 2 יש יותר מילים (יש לשים לב שמילים מסוימות נספרות פעמיים), התדירות היחסית של אותו מונח קטנה יותר.

idf הוא קבוע לכל קורפוס, ומהווה את היחס בין המסמכים הכוללים את המילה "this". במקרה זה, ישנו קורפוס של שני מסמכים, ושניהם כוללים את המילה "this".

אז tf–idf הוא אפס עבור המילה "this", מה שמרמז שהמילה אינה אינפורמטיבית במיוחד מאחר שהיא מופיעה בכל המסמכים.

המילה "example" מעניינת יותר - היא מופיעה שלוש פעמים, אבל רק במסמך השני:

ולבסוף,

word embedding: הצמדת ערך מספרי למונחים מילוליים, כפי שמתאפשר באמצעות שימוש במדד tf-idf מאפשרת דרך פשוטה ונוחה לייצג מונחים מילוליים באמצעות וקטור. המרה זו, אשר קרויה גם word embedding, מאפשרת הפעלת מניפולציות מתמטיות על מונחים מילוליים, ומהווה את הבסיס לתחום של עיבוד שפה טבעית. במקרה בו משתמשים במדד tf-idf לword embedding, מילים שונות בעלות מרכזיות דומה בתוך כל מסמך יהיו קרובות זו לזו מבחינת ייצוגם המתמטי.

זיהוי מילות עצירה: מילים אשר מופיעות בכל המסמכים בניתוח מתאפיינות במדד idf=0, וכאלה אשר מופיעות ברובם מתאפיינות במדד idf קרוב יחסית לאפס. לפיכך, סינון מילים בעלות מדדי idf או tf-idf נמוכים יחסית מאפשרות לנפות מילים נפוצות, כמו "אֶת" "הוא" "אשר". מילים אלו לרוב אינן מכילות מידע משמעותי, ונהוג לכנותם בעגה של למידת מכונה "מילות עצירה". כתהליך קדם-עיבודי Pre-processing בעיבוד שפה טבעית נהוג להסיר מילות עצירה, מאחר והן עלולות לשבש ביצועי מודלים לניתוח שפה טבעית.

הערות שוליים

[עריכת קוד מקור | עריכה]
  1. ^ Rajaraman, A.; Ullman, J.D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. pp. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2.