מילת עצירה

מתוך ויקיפדיה, האנציקלופדיה החופשית
ענן מילים שמציג את המילים הנפוצות בטוויטר בעברית, מרביתן מילות עצירה.

בעיבוד שפה טבעית ובאחזור מידע (אנ'), מילות עצירהאנגלית: Stop words) הן מילים שמושמטות מהטקסט מכיוון שהן לא מוסיפות מידע למשפט.[1][2]

לא קיימת רשימה אוניברסלית מוסכמת של מילות עצירה המשמשת את כל כלי עיבוד השפה הטבעית, וכן לא קיימים כללים מוסכמים לזיהוי של מילים כאלו. ההגדרה של מילה כמילת עצירה יכולה להשתנות בהתאם לתחום שאליו שייך הטקסט ובהתאם למטרת העיבוד. גודל של רשימה כזו יכול לנוע בין מספר בודד של מילים, לבין כמה מאות מילים.[3]

היסטוריה[עריכת קוד מקור | עריכה]

קונספט דומה שימש ביצירת קונקורדנציות של התנ"ך. הקונקורדנציה העברית "יאיר נתיב" של יצחק נתן בן קלונימוס (אנ') כללה רשימת של מילות יחס ושל צירופים שאינם מוסיפים מידע, הדומים למילות עצירה מודרניות. מכיוון שהמילים הללו נפוצות מאוד, הרשימה לא כללה מראי מקום.[4]

המונח מיוחס להנס פיטר לוהן, אחד מחלוצי אחזור המידע. לוהן הציג את הקונספט בהרצאתו על מיון אוטומטי של מילות מפתח משנת 1959, אך לא השתמש במונח "stop word",[5] המונח החל להופיע בספרות זמן קצר לאחר מכן.[6]

בשנת 1979 הציע ואן רייסברגן (אנ') את הרשימה הסטנדרטית הראשונה שלא התבססה רק על תדירות של הופעת מילים. הרשימה שהציע כללה 250 מילים באנגלית.[7] בשנות ה-80 המציא מרטין פורטר (אנ') את תוכנת ה-Stemming שהתבססה על הרשימה שהציע ואן רייסברגן. הרשימה הזו משמשת כברירת מחדל במגוון יישומי תוכנה.[8]

בשנת 1990 הציע כריסטופר פוקס רשימה של כמיליון מילים, המבוססת על מידע אמפירי על תדרי מילים בקורפוס בראון (אנ').[9]

דוגמאות[עריכת קוד מקור | עריכה]

בעברית, מילות עצירה עשויות לכלול מילות קישור ומילות יחס כמו "את", "של", "לעומת", "גם", "אחרי", "כל" וכדומה. גם כינויי גוף כמו "אני" או "הוא" בדרך כלל נכללים ברשימה כזו.[10]

גם באנגלית ניתן לחלק את מילות העצירה לסוגים:[2][11]

  • מילות קביעה (Determiner), כמו the, a, an, another
  • מילות קישור כמו for, nor, but, or, yet, so, both, just
  • מילות יחס כמו in, under, towards, before

באחזור מידע[עריכת קוד מקור | עריכה]

בטרמינולוגיה של קידום אתרים במנועי חיפוש, מילות העצירה הן מילים נפוצות שמנועי חיפוש רבים נוהגים להשמיט בתהליך עיבוד הנתונים במהלך סריקה או אינדוקס, על מנת לחסוך במקום ובזמן.

מנועי חיפוש מסוימים משמיטים את המילים הללו משאילתת החיפוש. במקרים כאלו יכולה להיווצר בעיה בחיפוש ביטויים שכוללים מילות עצירה כמו "To be or not to be", ובפרט בשמות של להקות כמו "The Who", "The The" או "Take That". מנועי חיפוש אחרים מסירים גם מילים שנפוצות בחיפושים, כמו "רוצה", כדי לשפר את הביצועים.[12]

השימוש במילות עצירה לקידום אתרים התפתח ביחד עם טכניקות מתחום למידת המכונה ועיבוד שפה טבעית, והולך ומשתפר עם השנים.[13]

בעברית[עריכת קוד מקור | עריכה]

יצירת רשימה של מילות עצירה בעברית היא משימה פחות טריוויאלית מאשר בשפות אחרות, בגלל העושר המורפולוגי של השפה. פעמים רבות מצטרפות למילים מוספיות אשר משנות קלות את משמעות המילה. בניגוד לשפה האנגלית, שבה מילות עצירה הן ברוב המקרים מילים שלמות כמו The או And, בעברית יידוע מצטרף למילה המיודעת - בדרך כלל בצורה ה"א הידיעה, אך לעיתים באמצעות כינויי שייכות או באמצעות ניקוד מיודע של אותיות השימוש בכ"ל.[14] ו' החיבור גם היא מצטרפת כתחילית למילה.

ישנן מילים שבהיעדר ניקוד ניתן לקרוא במספר צורות. למשל, המילה "עם" - כאשר מדובר במילה "עִם", היא תהיה מושמטת כמילת עצירה, אך כאשר מדובר ב"עַם", היא לא תהיה מוגדרת כמילת עצירה במרבית הטקסטים.[15] כאשר היעדר הניקוד נוסף על העושר המורפולוגי, עשויים להיווצר מקרים בעלי דו-משמעות מבלבלת, שניתן לפתור רק באמצעות ניתוח מקדים של המשפט. מקרה לדוגמה הוא המילה "בצל", שיכולה להיות מנוקדת "בָּצָל" ולהתייחס לירק, או להיגזר מאות השימוש ב' בתוספת המילה "צל", וליצור את המילה המנוקדת "בְּצֵל". את האחרונה ניתן גם ליידע, ובכך ליצור משמעות נוספת - המילה "בַּצֵל", שנגזרת מהאות ב' בתוספת ה"א הידיעה שמתחברות כמוספיות למילה "צל". במקרה הזה, ניתוח מקדים של המשפט היה יכול לזהות את הצורך בהפרדת המילה ל-"ב + צל" למשל, ולהשמיט את התחילית ב' בתהליך השמטת מילות העצירה.

בשל העושר המורפולוגי, פעמים רבות השמטת מילות העצירה צריכה להיות מלווה בפעולה נוספת כמו Stemming (אנ'), למטיזציה (אנ'), זיהוי חלקי הדיבר במשפט או חלוקה מוקדמת למורפמות.[16]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Anand Rajaraman, Jeffrey David Ullman, Mining of Massive Datasets, Cambridge University Press, 1, 2011-10-27, מסת"ב 978-1-107-01535-7
  2. ^ 1 2 Kavita Ganesan, What are Stop Words?, באתר Kavita Ganesan, PhD, ‏2014-10-19 (בAmerican English)
  3. ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009, עמ' 27
  4. ^ Bella Hass Weinberg, Predecessors of Scientific Indexing Structures in the Domain of Religion, 2004
  5. ^ H. P. Luhn, Key word-in-context index for technical literature (kwic index), American Documentation 11, 1960-10, עמ' 288–295 doi: 10.1002/asi.5090110403
  6. ^ Barbara J. Flood, Historical note: The Start of a Stop List at Biological Abstracts, Journal of the American Society for Information Science, 2000
  7. ^ Antoine Blanchard, Understanding and customizing stopword lists for enhanced patent mapping, World Patent Information 29, 2007-12, עמ' 308–316 doi: 10.1016/j.wpi.2007.02.002
  8. ^ Peter Willett, The Porter stemming algorithm: then and now, Program 40, 2006-07, עמ' 219–223 doi: 10.1108/00330330610681295
  9. ^ Christopher Fox, A stop list for general text, ACM SIGIR Forum 24, 1989-09, עמ' 19–21 doi: 10.1145/378881.378888
  10. ^ Hilla Merhav, Roei Shlezinger, Stop-Words-Hebrew, באתר GitHub, ‏2022
  11. ^ All English Stopwords (700+), באתר www.kaggle.com (באנגלית)
  12. ^ Jeff Atwood Co-Founder, Podcast #32, באתר Stack Overflow Blog, ‏2008-12-04 (בAmerican English)
  13. ^ Google: Stop Worrying About Stop Words Just Write Naturally, באתר seroundtable.com
  14. ^ השפה העברית - אותיות השימוש בכ"ל, באתר www.safa-ivrit.org
  15. ^ כַּתְבָנִית, מילות עצירה – שימוש נכון בכתיבת תוכן, באתר כתבנית, ‏2015-11-29
  16. ^ Dror Kamir, Naama Soreq, Yoni Neeman, A comprehensive NLP system for Modern Standard Arabic and Modern Hebrew, Proceedings of the ACL-02 workshop on Computational approaches to semitic languages -, Association for Computational Linguistics, 2002, עמ' 1–9 doi: 10.3115/1118637.1118646