מילת עצירה

בעיבוד שפה טבעית ובאחזור מידע (אנ'), מילות עצירה (באנגלית: Stop words) הן מילים שמושמטות מהטקסט מכיוון שהן לא מוסיפות מידע למשפט.^[1]^[2]

לא קיימת רשימה אוניברסלית מוסכמת של מילות עצירה המשמשת את כל כלי עיבוד השפה הטבעית, וכן לא קיימים כללים מוסכמים לזיהוי של מילים כאלו. ההגדרה של מילה כמילת עצירה יכולה להשתנות בהתאם לתחום שאליו שייך הטקסט ובהתאם למטרת העיבוד. גודל של רשימה כזו יכול לנוע בין מספר בודד של מילים, לבין כמה מאות מילים.^[3]

היסטוריה[עריכת קוד מקור | עריכה]

קונספט דומה שימש ביצירת קונקורדנציות של התנ"ך. הקונקורדנציה העברית "יאיר נתיב" של יצחק נתן בן קלונימוס (אנ') כללה רשימת של מילות יחס ושל צירופים שאינם מוסיפים מידע, הדומים למילות עצירה מודרניות. מכיוון שהמילים הללו נפוצות מאוד, הרשימה לא כללה מראי מקום.^[4]

המונח מיוחס להנס פיטר לוהן, אחד מחלוצי אחזור המידע. לוהן הציג את הקונספט בהרצאתו על מיון אוטומטי של מילות מפתח משנת 1959, אך לא השתמש במונח "stop word",^[5] המונח החל להופיע בספרות זמן קצר לאחר מכן.^[6]

בשנת 1979 הציע ואן רייסברגן (אנ') את הרשימה הסטנדרטית הראשונה שלא התבססה רק על תדירות של הופעת מילים. הרשימה שהציע כללה 250 מילים באנגלית.^[7] בשנות ה-80 המציא מרטין פורטר (אנ') את תוכנת ה-Stemming שהתבססה על הרשימה שהציע ואן רייסברגן. הרשימה הזו משמשת כברירת מחדל במגוון יישומי תוכנה.^[8]

בשנת 1990 הציע כריסטופר פוקס רשימה של כמיליון מילים, המבוססת על מידע אמפירי על תדרי מילים בקורפוס בראון (אנ').^[9]

דוגמאות[עריכת קוד מקור | עריכה]

בעברית, מילות עצירה עשויות לכלול מילות קישור ומילות יחס כמו "את", "של", "לעומת", "גם", "אחרי", "כל" וכדומה. גם כינויי גוף כמו "אני" או "הוא" בדרך כלל נכללים ברשימה כזו.^[10]

גם באנגלית ניתן לחלק את מילות העצירה לסוגים:^[2]^[11]

מגדירים (Determiner), כמו the, a, an, another
מילות קישור כמו for, nor, but, or, yet, so, both, just
מילות יחס כמו in, under, towards, before

באחזור מידע[עריכת קוד מקור | עריכה]

בטרמינולוגיה של קידום אתרים במנועי חיפוש, מילות העצירה הן מילים נפוצות שמנועי חיפוש רבים נוהגים להשמיט בתהליך עיבוד הנתונים במהלך סריקה או אינדוקס, על מנת לחסוך במקום ובזמן.

מנועי חיפוש מסוימים משמיטים את המילים הללו משאילתת החיפוש. במקרים כאלו יכולה להיווצר בעיה בחיפוש ביטויים שכוללים מילות עצירה כמו "To be or not to be", ובפרט בשמות של להקות כמו "The Who", "‏The The‏" או "Take That". מנועי חיפוש אחרים מסירים גם מילים שנפוצות בחיפושים, כמו "רוצה", כדי לשפר את הביצועים.^[12]

השימוש במילות עצירה לקידום אתרים התפתח ביחד עם טכניקות מתחום למידת המכונה ועיבוד שפה טבעית, והולך ומשתפר עם השנים.^[13]

בעברית[עריכת קוד מקור | עריכה]

יצירת רשימה של מילות עצירה בעברית היא משימה פחות טריוויאלית מאשר בשפות אחרות, בגלל העושר המורפולוגי של השפה. פעמים רבות מצטרפות למילים מוספיות אשר משנות קלות את משמעות המילה. בניגוד לשפה האנגלית, שבה מילות עצירה הן ברוב המקרים מילים שלמות כמו The או And, בעברית יידוע מצטרף למילה המיודעת - בדרך כלל בצורה ה"א הידיעה, אך לעיתים באמצעות כינויי שייכות או באמצעות ניקוד מיודע של אותיות השימוש בכ"ל.^[14] ו' החיבור גם היא מצטרפת כתחילית למילה.

ישנן מילים שבהיעדר ניקוד ניתן לקרוא במספר צורות. למשל, המילה "עם" - כאשר מדובר במילה "עִם", היא תהיה מושמטת כמילת עצירה, אך כאשר מדובר ב"עַם", היא לא תהיה מוגדרת כמילת עצירה במרבית הטקסטים.^[15] כאשר היעדר הניקוד נוסף על העושר המורפולוגי, עשויים להיווצר מקרים בעלי דו-משמעות מבלבלת, שניתן לפתור רק באמצעות ניתוח מקדים של המשפט. מקרה לדוגמה הוא המילה "בצל", שיכולה להיות מנוקדת "בָּצָל" ולהתייחס לירק, או להיגזר מאות השימוש ב' בתוספת המילה "צל", וליצור את המילה המנוקדת "בְּצֵל". את האחרונה ניתן גם ליידע, ובכך ליצור משמעות נוספת - המילה "בַּצֵל", שנגזרת מהאות ב' בתוספת ה"א הידיעה שמתחברות כמוספיות למילה "צל". במקרה הזה, ניתוח מקדים של המשפט היה יכול לזהות את הצורך בהפרדת המילה ל-"ב + צל" למשל, ולהשמיט את התחילית ב' בתהליך השמטת מילות העצירה.

בשל העושר המורפולוגי, פעמים רבות השמטת מילות העצירה צריכה להיות מלווה בפעולה נוספת כמו Stemming (אנ'), למטיזציה (אנ'), זיהוי חלקי הדיבר במשפט או חלוקה מוקדמת למורפמות.^[16]

הערות שוליים[עריכת קוד מקור | עריכה]

^ Anand Rajaraman, Jeffrey David Ullman, Mining of Massive Datasets, 1, Cambridge University Press, 2011-10-27, ISBN 978-1-107-01535-7
^ ¹ ² Kavita Ganesan, What are Stop Words?, Kavita Ganesan, PhD, ‏2014-10-19 (באנגלית אמריקאית)
^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009, עמ' 27
^ Bella Hass Weinberg, Predecessors of Scientific Indexing Structures in the Domain of Religion, 2004
^ H. P. Luhn, Key word-in-context index for technical literature (kwic index), American Documentation 11, 1960-10, עמ' 288–295 doi: 10.1002/asi.5090110403
^ Barbara J. Flood, Historical note: The Start of a Stop List at Biological Abstracts, Journal of the American Society for Information Science, 2000
^ Antoine Blanchard, Understanding and customizing stopword lists for enhanced patent mapping, World Patent Information 29, 2007-12, עמ' 308–316 doi: 10.1016/j.wpi.2007.02.002
^ Peter Willett, The Porter stemming algorithm: then and now, Program 40, 2006-07, עמ' 219–223 doi: 10.1108/00330330610681295
^ Christopher Fox, A stop list for general text, ACM SIGIR Forum 24, 1989-09, עמ' 19–21 doi: 10.1145/378881.378888
^ Hilla Merhav, Roei Shlezinger, Stop-Words-Hebrew, GitHub, ‏2022
^ All English Stopwords (700+), www.kaggle.com (באנגלית)
^ Jeff Atwood Co-Founder, Podcast #32, Stack Overflow Blog, ‏2008-12-04 (באנגלית אמריקאית)
^ Google: Stop Worrying About Stop Words Just Write Naturally, seroundtable.com
^ השפה העברית - אותיות השימוש בכ"ל, באתר www.safa-ivrit.org
^ כַּתְבָנִית, מילות עצירה – שימוש נכון בכתיבת תוכן, באתר כתבנית, ‏2015-11-29
^ Dror Kamir, Naama Soreq, Yoni Neeman, A comprehensive NLP system for Modern Standard Arabic and Modern Hebrew, Proceedings of the ACL-02 workshop on Computational approaches to semitic languages -, Association for Computational Linguistics, 2002, עמ' 1–9 doi: 10.3115/1118637.1118646

[1] Anand Rajaraman, Jeffrey David Ullman, Mining of Massive Datasets, 1, Cambridge University Press, 2011-10-27, ISBN 978-1-107-01535-7

[:0-2] ¹ ² Kavita Ganesan, What are Stop Words?, Kavita Ganesan, PhD, ‏2014-10-19 (באנגלית אמריקאית)

[3] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009, עמ' 27

[4] Bella Hass Weinberg, Predecessors of Scientific Indexing Structures in the Domain of Religion, 2004

[5] H. P. Luhn, Key word-in-context index for technical literature (kwic index), American Documentation 11, 1960-10, עמ' 288–295 doi: 10.1002/asi.5090110403

[6] Barbara J. Flood, Historical note: The Start of a Stop List at Biological Abstracts, Journal of the American Society for Information Science, 2000

[7] Antoine Blanchard, Understanding and customizing stopword lists for enhanced patent mapping, World Patent Information 29, 2007-12, עמ' 308–316 doi: 10.1016/j.wpi.2007.02.002

[8] Peter Willett, The Porter stemming algorithm: then and now, Program 40, 2006-07, עמ' 219–223 doi: 10.1108/00330330610681295

[9] Christopher Fox, A stop list for general text, ACM SIGIR Forum 24, 1989-09, עמ' 19–21 doi: 10.1145/378881.378888

[10] Hilla Merhav, Roei Shlezinger, Stop-Words-Hebrew, GitHub, ‏2022

[11] All English Stopwords (700+), www.kaggle.com (באנגלית)

[12] Jeff Atwood Co-Founder, Podcast #32, Stack Overflow Blog, ‏2008-12-04 (באנגלית אמריקאית)

[13] Google: Stop Worrying About Stop Words Just Write Naturally, seroundtable.com

[14] השפה העברית - אותיות השימוש בכ"ל, באתר www.safa-ivrit.org

[15] כַּתְבָנִית, מילות עצירה – שימוש נכון בכתיבת תוכן, באתר כתבנית, ‏2015-11-29

[16] Dror Kamir, Naama Soreq, Yoni Neeman, A comprehensive NLP system for Modern Standard Arabic and Modern Hebrew, Proceedings of the ACL-02 workshop on Computational approaches to semitic languages -, Association for Computational Linguistics, 2002, עמ' 1–9 doi: 10.3115/1118637.1118646

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

בינה מלאכותית
כללי	מבחן טיורינג • היסטוריה של הבינה המלאכותית • ציר הזמן של בינה מלאכותית • התקדמות הבינה המלאכותית (אנ') • AI-שלמות מערכת מומחה • אסדרת בינה מלאכותית • בינה מלאכותית צרה • בינה חישובית • הסברתיות בינה מלאכותית • הפרדוקס של מורבק • סוכן תבוני • אתיקה של בינה מלאכותית
תחומים	עיבוד שפה טבעית • ראייה ממוחשבת • בינה מלאכותית יוצרת • אומנות בינה מלאכותית
סוגי למידת מכונה	מערכת לומדת • למידה מונחית • למידה בלתי מונחית • למידה עמוקה • למידת חיזוק • סיווג בייסיאני נאיבי • רשת בייסיאנית
אלגוריתמי למידת מכונה קלאסית	פרספטרון • עץ החלטה • מכונת וקטורים תומכים • Bag of words • אלגוריתם k-מרכזים • אלגוריתם מיקסום התוחלת • הורדת ממד • אלגוריתם שכן קרוב • Q-learning •‏ T-SNE •‏ Tf–idf • חיזוק גרדיאנט
למידה עמוקה	רשת עצבית מלאכותית • רשת זרימה קדימה • רשת עצבית רקורסיבית • טרנספורמר • Attention •‏ GAN
עיבוד שפה טבעית	מודל שפה • שיכון מילים (אנ') • בלשנות חישובית • תרגום מכונה • חילוץ מידע (אנ') • ניתוח סנטימנט • זיהוי חלקי דיבר (אנ') • מערכת זיהוי דיבור • זיהוי ישויות • כריית טקסט • תיוג תפקידים סמנטי • Word2vec • מודל שפה גדול • GPT •‏ BERT (אנ') • מודל Bag-of-words (אנ') • יצירת טקסט בשפה טבעית (אנ') • מילת עצירה • ניתוח מחרוזות • Stemming (אנ') • למטיזציה (אנ')
יישומים לבינה מלאכותית (אנ')	צ'אטבוט • זיהוי דובר • זיהוי עצמים • זיהוי תבניות • עוזר וירטואלי • זיהוי תווים אופטי • מחולל תמונות (הזיות (אנ'))
מערכות בינה מלאכותית	אלייזה • ChatGPT •‏ DALL-E •‏ Midjourney •‏ Gemini •‏ Perplexity •‏ GitHub Copilot • דיפ־פייק • סירי • Google Assistant • אמזון אלכסה
סוגיות בטיחות בינה מלאכותית (אנ')	סכנה קיומית מבינה מלאכותית כללית • בינה מלאכותית חזקה • יישור בינה מלאכותית (אנ') • בקרת יכולות בינה מלאכותית (אנ') • השתלטות בינה מלאכותית (אנ') • בינה מלאכותית ידידותית (אנ') • התכנסות אינסטרומנטלית (אנ') • סינגולריות טכנולוגית
ספריות בשימוש נרחב	TensorFlow •‏ PyTorch •‏ Torch •‏ Hugging Face •‏ Keras •‏ spaCy (אנ') •‏ Caffe
לקטגוריית הבינה המלאכותית