Tf–idf

tf–idf, קיצור של term frequency–inverse document frequency, בעברית: תדירות מונח (tf) - תדירות מסמכים הופכית (idf), הוא מדד של עיבוד שפה טבעית, המצמד לכל מילה במסמך השייך לאוסף מסמכים ערך מספרי. ערך זה, משקף את מרכזיותה של המילה במסמך, ביחס למסמכים אחרים^[1]. מדד זה נפוץ בתחומים של אחזור מידע, כריית טקסט ומידול משתמשים.

גרסאות של tf–idf משמשות מנועי חיפוש לניקוד ולדירוג רלוונטיות טקסטים כתגובה לשאילתת משתמש (כמה מסמך רלוונטי לבקשה שהמשתמש הזין במנוע חיפוש). שימושים מרכזיים נוספים ל-tf–idf הם סינון מילים עם משמעות נמוכה לזיהוי ועיבוד טקסטים (מילות עצירה), לסיכום טקסטים ולסיווג מסמכים.

הגדרות ואופן החישוב[עריכת קוד מקור | עריכה]

tf–idf מחושב בנפרד לכל מונח בתוך כל מסמך, על ידי מכפלה של שני גורמים: תדירות מונח (tf) ותדירות מסמכים הופכית (idf).

תדירות מונח היא אחוז הפעמים שמופיע מונח t במסמך d:

\mathrm {tf} (t,d)={\frac {f_{t,d}}{\sum _{t'\in d}{f_{t',d}}}}

,

כאשר $f t, d$ היא הספירה הגולמית של מונח במסמך, כלומר, מספר הפעמים שמונח $t$ מופיע במסמך $d$ . המכנה הוא המספר הכולל של מונחים במסמך $d$ (ספירת כל מופע של אותו מונח בנפרד). ישנן דרכים נוספות אחרות המגדירות מדד זה, אך הגדרה פשוטה ובעלת שימושים רבים.

תדירות מסמכים הופכית (idf) היא מדד לנדירות המילה בין מסמכים .מדד זה מחושב על ידי מציאת אחוז המסמכים בהם המונח מופיע מכלל המסמכים, והפעלת פונקציית הלוג על אחוז זה:

\mathrm {idf} (t,D)=\log {\frac {N}{|\{d\in D:t\in d\}|}}

כאשר:

$N$ : המספר הכולל של המסמכים $N={|D|}$
$|\{d\in D:t\in d\}|$ : מספר המסמכים שבהם המונח $t$ מופיע (כלומר, $\mathrm {tf} (t,d)\neq 0$ ). אם המונח לא נמצא בקורפוס, הדבר יוביל לחלוקה באפס. לכן מקובל להתאים את המכנה ל $1+|\{d\in D:t\in d\}|$ .

מכפלת tf ב-idf מניבה את המדד tf–idf:

\mathrm {tfidf} (t,d,D)=\mathrm {tf} (t,d)\cdot \mathrm {idf} (t,D)

משקל גבוה ב-tf–idf מגיע על ידי תדירות מונח גבוהה (במסמך הנתון) ותדירות מסמכים נמוכה של המונח בכל אוסף המסמכים; לכן המשקולות נוטות לסנן מונחים נפוצים. מכיוון שהיחס בתוך הפונקציה הלוגריתמית של תדירות המסמכים ההופכית תמיד גדול או שווה ל-1, הערך של תדירות המסמכים ההופכית (ובהתאמה של tf–idf) גדול או שווה ל-0. ככל שמונח מופיע במסמכים נוספים, היחס בתוך הלוגריתם מתקרב ל-1, ומקרב את ה-idf ואת tf–idf ל-0.

דוגמה[עריכת קוד מקור | עריכה]

מסמך 2
מונח	תדירות
this	1
is	1
another	2
example	3

מסמך 1
מונח	תדירות
this	1
is	1
a	2
sample	1

נניח שיש טבלאות ספירת מונחים של קורפוס המורכב משני מסמכים בלבד, כפי שהם מופיעים בטבלאות המוצגות בצד שמאל.

החישוב של tf–idf עבור המונח "this" מתבצעת באופן הבא:

בצורתו הגולמית, tf הוא רק התדירות של "this" עבור כל מסמך. בכל מסמך מופיעה המילה "this" פעם אחת; אבל ככל שלמסמך 2 יש יותר מילים (יש לשים לב שמילים מסוימות נספרות פעמיים), התדירות היחסית של אותו מונח קטנה יותר.

\mathrm {tf} ({\mathsf {''this''}},d_{1})={\frac {1}{5}}=0.2

\mathrm {tf} ({\mathsf {''this''}},d_{2})={\frac {1}{7}}\approx 0.14

idf הוא קבוע לכל קורפוס, ומהווה את היחס בין המסמכים הכוללים את המילה "this". במקרה זה, ישנו קורפוס של שני מסמכים, ושניהם כוללים את המילה "this".

\mathrm {idf} ({\mathsf {''this''}},D)=\log \left({\frac {2}{2}}\right)=0

אז tf–idf הוא אפס עבור המילה "this", מה שמרמז שהמילה אינה אינפורמטיבית במיוחד מאחר שהיא מופיעה בכל המסמכים.

\mathrm {tfidf} ({\mathsf {''this''}},d_{1},D)=0.2\times 0=0

\mathrm {tfidf} ({\mathsf {''this''}},d_{2},D)=0.14\times 0=0

המילה "example" מעניינת יותר - היא מופיעה שלוש פעמים, אבל רק במסמך השני:

\mathrm {tf} ({\mathsf {''example''}},d_{1})={\frac {0}{5}}=0

\mathrm {tf} ({\mathsf {''example''}},d_{2})={\frac {3}{7}}\approx 0.429

\mathrm {idf} ({\mathsf {''example''}},D)=\log \left({\frac {2}{1}}\right)=0.301

ולבסוף,

\mathrm {tfidf} ({\mathsf {''example''}},d_{1},D)=\mathrm {tf} ({\mathsf {''example''}},d_{1})\times \mathrm {idf} ({\mathsf {''example''}},D)=0\times 0.301=0

\mathrm {tfidf} ({\mathsf {''example''}},d_{2},D)=\mathrm {tf} ({\mathsf {''example''}},d_{2})\times \mathrm {idf} ({\mathsf {''example''}},D)=0.429\times 0.301\approx 0.129

שימושים[עריכת קוד מקור | עריכה]

word embedding: הצמדת ערך מספרי למונחים מילוליים, כפי שמתאפשר באמצעות שימוש במדד tf-idf מאפשרת דרך פשוטה ונוחה לייצג מונחים מילוליים באמצעות וקטור. המרה זו, אשר קרויה גם word embedding, מאפשרת הפעלת מניפולציות מתמטיות על מונחים מילוליים, ומהווה את הבסיס לתחום של עיבוד שפה טבעית. במקרה בו משתמשים במדד tf-idf לword embedding, מילים שונות בעלות מרכזיות דומה בתוך כל מסמך יהיו קרובות זו לזו מבחינת ייצוגם המתמטי.

זיהוי מילות עצירה: מילים אשר מופיעות בכל המסמכים בניתוח מתאפיינות במדד idf=0, וכאלה אשר מופיעות ברובם מתאפיינות במדד idf קרוב יחסית לאפס. לפיכך, סינון מילים בעלות מדדי idf או tf-idf נמוכים יחסית מאפשרות לנפות מילים נפוצות, כמו "אֶת" "הוא" "אשר". מילים אלו לרוב אינן מכילות מידע משמעותי, ונהוג לכנותם בעגה של למידת מכונה "מילות עצירה". כתהליך קדם-עיבודי Pre-processing בעיבוד שפה טבעית נהוג להסיר מילות עצירה, מאחר והן עלולות לשבש ביצועי מודלים לניתוח שפה טבעית.

ראו גם[עריכת קוד מקור | עריכה]

כריית טקסט

הערות שוליים[עריכת קוד מקור | עריכה]

^ Rajaraman, A.; Ullman, J.D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. pp. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2.

[1] Rajaraman, A.; Ullman, J.D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. pp. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2.

[1]

בינה מלאכותית
כללי	מבחן טיורינג • היסטוריה של הבינה המלאכותית • ציר הזמן של בינה מלאכותית • התקדמות הבינה המלאכותית (אנ') • AI-שלמות מערכת מומחה • אסדרת בינה מלאכותית (אנ') • בינה מלאכותית צרה • בינה חישובית • הסברתיות בינה מלאכותית • הפרדוקס של מורבק • סוכן תבוני • אתיקה של בינה מלאכותית
תחומים	עיבוד שפה טבעית • ראייה ממוחשבת • בינה מלאכותית יוצרת • אומנות בינה מלאכותית
סוגי למידת מכונה	מערכת לומדת • למידה מונחית • למידה בלתי מונחית • למידה עמוקה • למידת חיזוק • סיווג בייסיאני נאיבי • רשת בייסיאנית
אלגוריתמי למידת מכונה קלאסית	פרספטרון • עץ החלטה • מכונת וקטורים תומכים • Bag of words • אלגוריתם k-מרכזים • אלגוריתם מיקסום התוחלת • הורדת ממד • אלגוריתם שכן קרוב • Q-learning •‏ T-SNE •‏ Tf–idf • חיזוק גרדיאנט
למידה עמוקה	רשת עצבית מלאכותית • רשת זרימה קדימה • רשת עצבית רקורסיבית • טרנספורמר • Attention •‏ GAN
עיבוד שפה טבעית	מודל שפה • שיכון מילים (אנ') • בלשנות חישובית • תרגום מכונה • חילוץ מידע (אנ') • ניתוח סנטימנט • זיהוי חלקי דיבר (אנ') • מערכת זיהוי דיבור • זיהוי ישויות • כריית טקסט • תיוג תפקידים סמנטי • Word2vec • מודל שפה גדול • GPT •‏ BERT (אנ') • מודל Bag-of-words (אנ') • יצירת טקסט בשפה טבעית (אנ') • מילת עצירה • ניתוח מחרוזות • Stemming (אנ') • למטיזציה (אנ')
יישומים לבינה מלאכותית (אנ')	צ'אטבוט • זיהוי דובר • זיהוי עצמים • זיהוי תבניות • עוזר וירטואלי • זיהוי תווים אופטי • מחולל תמונות (הזיות (אנ'))
מערכות בינה מלאכותית	אלייזה • ChatGPT •‏ DALL-E •‏ Midjourney •‏ Gemini •‏ Perplexity •‏ GitHub Copilot • דיפ־פייק • סירי • Google Assistant • אמזון אלכסה
סוגיות בטיחות בינה מלאכותית (אנ')	סכנה קיומית מבינה מלאכותית כללית • בינה מלאכותית חזקה • יישור בינה מלאכותית (אנ') • בקרת יכולות בינה מלאכותית (אנ') • השתלטות בינה מלאכותית (אנ') • בינה מלאכותית ידידותית (אנ') • התכנסות אינסטרומנטלית (אנ') • סינגולריות טכנולוגית
ספריות בשימוש נרחב	TensorFlow •‏ PyTorch •‏ Torch •‏ Hugging Face •‏ Keras •‏ spaCy (אנ') •‏ Caffe
לקטגוריית הבינה המלאכותית