בלשנות חישובית

בלשנות חישובית (באנגלית: Computational Linguistics) היא ענף מחקר רב-תחומי, המשלב רעיונות וכלי מחקר מתחום הבלשנות, מדעי המחשב ותחומים קרובים. לבלשנות החישובית שתי מטרות מחקריות: תאורטית ומעשית.

בלשנות חישובית תאורטית מנסה להתמודד עם שאלות היסוד של מדע הבלשנות, כגון מהי שפה וכיצד בני אדם משתמשים בה ולומדים אותה, באמצעות עקרונות וכלים מתחום מדעי המחשב והבינה המלאכותית. החוקרים בתחום זה מפתחים מודלים של פנים שונות של תופעת השפה, שאפשר ליישם בתוכנה. מודלים אלה נחקרים בכלים תאורטיים של מדעי המחשב ובאמצעות סימולציות.

מטרתה של הבלשנות החישובית המעשית, לעומת זאת, היא לפתח יישומי מחשב התומכים בשימוש בשפה אנושית, כמו תוכנות לתרגום אוטומטי ותוכנות המסוגלות לענות על שאלות המנוסחות בעברית, אנגלית או סינית, לדוגמה. לתת-תחום זה של בלשנות חישובית קוראים גם עיבוד שפה טבעית (באנגלית: NLP – Natural Language Processing). זאת בניגוד לעיבוד שפות מלאכותיות, כמו שפות תכנות, שהיא משימה שמחשבים מבצעים בקלות יחסית.

לעיתים העיסוק בשתי המטרות משולב, וקיימת הפריה הדדית ביניהן. עם זאת, לצורך הבהירות ערך זה מתמקד בעיקר בבלשנות החישובית התאורטית; לקריאה נוספת על בלשנות חישובית מעשית, ראו את הערך עיבוד שפה טבעית.

מקורות[עריכת קוד מקור | עריכה]

שורשיה של הבלשנות החישובית התאורטית נטועים, מטבע הדברים, הן במחקר הבלשנות והן במדעי המחשב. תחילת העיסוק בשפה טבעית במחשב נטוע בניסיון ללמד מחשבים לתרגם משפטים וטקסטים שונים בין שפות אנושיות שונות. ניסיונות אלה החלו מיד לאחר פיתוח המחשבים הראשונים, בראשית שנות ה-50 של המאה ה-20. האופטימיות של העוסקים בתחום נשענה, בין השאר, על ההצלחה בשימוש במחשבים לפענוח צפנים בעת מלחמת העולם השנייה. מעבר בין שפה לשפה נתפס אז כסוג של פענוח צופן. אך ההצלחות בתחום היו מוגבלות מאוד, ובשנות ה-60 בעקבות דוח בדיקה שפורסם על ידי ועדה של ממשלת ארצות הברית, הוא ננטש למעשה למשך כ-20 שנה. כישלון זה הוביל להכרה באתגרים שמציב ניתוח חישובי של שפה טבעית, והמחיש את הצורך המעשי בנקודת מבט חישובית על הבלשנות.

גישות ותחומי מחקר[עריכת קוד מקור | עריכה]

דקדוקים פורמליים[עריכת קוד מקור | עריכה]

בשנת 1956 הציע הבלשן היהודי-אמריקאי נועם חומסקי את האפשרות לייצר קבוצת חוקים, שעל ידי הפעלתם אפשר לייצר את כל המשפטים החוקיים בשפה, ורק אותם. זוהי תחילתה של תורת השפות הפורמליות, שהפכה לכלי מרכזי במתמטיקה ומדעי המחשב. הניסיון ליצור מודלים פורמליים לתחביר (ואף לסמנטיקה) של שפות אנושיות הפך מאז לגביע הקדוש של הבלשנות החישובית התאורטית, ובמידה מסוימת של הבלשנות התאורטית בכלל.

חומסקי חילק את השפות הפורמליות לארבע רמות, הנבדלות ביניהן בכח ההבעה שלהן, כלומר במידת המורכבות של המשפטים שניתן להביע באמצעותן. הוא טען שהשפות הטבעיות הן שפות חסרות הקשר, כלומר הן שייכות לרמה השלישית בהיררכיה שלו.

בלשנות חישובית ובינה מלאכותית[עריכת קוד מקור | עריכה]

המחקר האינטנסיבי בתחום הבינה המלאכותית בשנות ה-50 וה-60 השפיע גם הוא על הבלשנות החישובית. המחקר התמקד בלוגיקה ובהסקת מסקנות, ובאמצעותו נבנו מודלים לסמנטיקה של שפה ומערכות מחשב ראשונות להבנת שפה טבעית.

גישות סטטיסטיות ומבוססות קורפוס[עריכת קוד מקור | עריכה]

בשנת 1932 פרסם הבלשן האמריקאי ג'ורג' קינגסלי זיף (אנ') את מה שנודע כחוק זיף. לפי חוק זה, באוסף גדול של משפטים או מבעים בשפה טבעית, יש מספר קטן מאוד של מילים שמופיעות מספר רב של פעמים; הרוב הגדול של המילים מופיעות מעט מאוד פעמים. חוק זיף מדגים את העובדה שיש בשפה תופעות שניתן לגלות ולחקור בכלים סטטיסטיים. כלומר, אם ניקח מדגם גדול מספיק של השפה הטבעית, שאותו מכנים הבלשנים קורפוס, נוכל למצוא בו מאפיינים בעלי מובהקות סטטיסטית.

השימוש בשיטות סטטיסטיות כאלה לפתרון בעיות יישומיות בתחום עיבוד השפה הטבעית ליווה את התחום מלידתו. בשנות ה-50 וה-60 נעשה בהן שימוש לפתרון בעיות של זיהוי תווים אופטי, ייחוס מחבר (אנ') וזיהוי דיבור. בשנת 1967 פורסם הקורפוס רחב ההיקף הראשון של השפה האנגלית, קורפוס בראון לאנגלית אמריקאית סטנדרטית (Brown Corpus), ביחד עם מידע סטטיסטי בסיסי עליו. בעשורים שחלפו מאז השיגו באמצעות שיטות אלה הישגים לא מבוטלים בעיבוד שפה טבעית.

למרות ההצלחה היחסית בתחום המעשי, הזרם המרכזי של הבלשנות החישובית התאורטית נמנע מהתייחסות לשיטות הסטטיסטיות עד לשנות ה-90 של המאה ה-20. הגישה החומסקיאנית, הדומיננטית בחוגי הבלשנות התאורטית, ראתה את השפה בעיקרה כמנגנון דטרמיניסטי. הסטטיסטיקה נתפסה לכל היותר ככלי יעיל לטיפול בשפה, כאשר ניסיון לניתוח שיטתי של עקרונות הפעולה שלה הוא קשה מדי לביצוע, אבל לא כעקרון פעולה בפני עצמו של המנגנונים הלשוניים. הדבר דומה למעמדה של המכניקה הסטטיסטית בפיזיקה: ענף מדעי זה מניח שהכוחות הפיזיקאליים הם דטרמיניסטיים, אבל משתמש בכלים סטטיסטיים לניתוחם במצבים מורכבים שבהם פועלים כוחות רבים. יתר על כן, שימוש בקורפוס ככלי מחקרי על המבנה הפנימי של השפה נוגד את ההבחנה בין יכולת לשונית (competence) לביצוע (performance), שהיא בסיסית בגישה החומסקיאנית.

החל משנות ה-90 של המאה ה-20 החלו בלשנים חישוביים תאורטיים לחקור את האפשרויות הגלומות במודלים הסתברותיים של השפה. מגמה זו התבססה על ראיות מתחום הפסיכובלשנות ומתחומים קוגניטיביים אחרים, שהצביעו על כך שהמח משתמש בהסתברויות לעיבודים קוגניטיביים.

ראו גם[עריכת קוד מקור | עריכה]

לקריאה נוספת[עריכת קוד מקור | עריכה]

Manning, Chris. Foundations of Statistical Natural Language Processing, 1999. אתר הספר
Jurafsky D., Martin G.H. Speech and Language Processing, 1999.

קישורים חיצוניים[עריכת קוד מקור | עריכה]

אורי אליאבייב, המהפכה הלשונית השנייה: עכשיו תורן של המכונות ללמוד לדבר, באתר Machine Learning Israel, תאריך 4 במאי 2016
נחמן גבעולי, בלשנות חישובית עברית
מרכז ידע לתקשוב השפה העברית - מרכז בלשנות חישובית לעברית
בלשנות חישובית, באתר אנציקלופדיה בריטניקה (באנגלית)
בלשנות חשובית, דף שער בספרייה הלאומית

תחומים במדעי המחשב
יסודות מתמטים	לוגיקה מתמטית • תורת הקבוצות • תורת המספרים • תורת הגרפים • תורת הטיפוסים • תורת הקטגוריות • אנליזה נומרית • תורת האינפורמציה
תורת החישוביות	תורת האוטומטים • תורת הרקורסיה • תורת הסיבוכיות • מחשוב קוונטי
אלגוריתמים ומבנה נתונים	אנליזה של אלגוריתמים • גאומטריה חישובית
שפות תכנות ומהדרים	מפרש • פרדיגמת תכנות (תכנות פרוצדורלי • תכנות מונחה עצמים • תכנות פונקציונלי • תכנות לוגי)
חישוב מבוזר ועיבוד מקבילי	עיבוד מקבילי • מחשוב סריגי • בקרת מקביליות
הנדסת תוכנה	ניתוח מערכות מידע • עיצוב תוכנה • תכנות מחשבים • שיטות פורמליות • בדיקות תוכנה • מתודולוגיית פיתוח תוכנה
תקשורת	ניתוב • טופולוגיית רשת • קריפטוגרפיה
מסד נתונים	מסד נתונים יחסי • SQL • תנועה • אינדקסים • כריית מידע • CAP theorem
בינה מלאכותית	חשיבה אוטומטית • בלשנות חישובית • ראייה ממוחשבת • עיבוד שפה טבעית • בינה חישובית • מערכת מומחה • למידה חישובית • רובוטיקה
גרפיקה	הדמיה ממוחשבת • הנפשה ממוחשבת • עיבוד תמונה
שפות פורמליות	שפה רגולרית • שפה חסרת הקשר • שפה תלוית הקשר • ההיררכיה של חומסקי
שימושים במדע	ביואינפורמטיקה • מדעים קוגניטיביים • כימיה חישובית • פיזיקה חישובית • אנליזה נומרית

בינה מלאכותית
כללי	מבחן טיורינג • היסטוריה של הבינה המלאכותית • ציר הזמן של בינה מלאכותית • התקדמות הבינה המלאכותית (אנ') • AI-שלמות מערכת מומחה • אסדרת בינה מלאכותית (אנ') • בינה מלאכותית צרה • בינה חישובית • הסברתיות בינה מלאכותית • הפרדוקס של מורבק • סוכן תבוני • אתיקה של בינה מלאכותית
תחומים	עיבוד שפה טבעית • ראייה ממוחשבת • בינה מלאכותית יוצרת • אומנות בינה מלאכותית
סוגי למידת מכונה	מערכת לומדת • למידה מונחית • למידה בלתי מונחית • למידה עמוקה • למידת חיזוק • סיווג בייסיאני נאיבי • רשת בייסיאנית
אלגוריתמי למידת מכונה קלאסית	פרספטרון • עץ החלטה • מכונת וקטורים תומכים • Bag of words • אלגוריתם k-מרכזים • אלגוריתם מיקסום התוחלת • הורדת ממד • אלגוריתם שכן קרוב • Q-learning •‏ T-SNE •‏ Tf–idf • חיזוק גרדיאנט
למידה עמוקה	רשת עצבית מלאכותית • רשת זרימה קדימה • רשת עצבית רקורסיבית • טרנספורמר • Attention •‏ GAN
עיבוד שפה טבעית	מודל שפה • שיכון מילים (אנ') • בלשנות חישובית • תרגום מכונה • חילוץ מידע (אנ') • ניתוח סנטימנט • זיהוי חלקי דיבר (אנ') • מערכת זיהוי דיבור • זיהוי ישויות • כריית טקסט • תיוג תפקידים סמנטי • Word2vec • מודל שפה גדול • GPT •‏ BERT (אנ') • מודל Bag-of-words (אנ') • יצירת טקסט בשפה טבעית (אנ') • מילת עצירה • ניתוח מחרוזות • Stemming (אנ') • למטיזציה (אנ')
יישומים לבינה מלאכותית (אנ')	צ'אטבוט • זיהוי דובר • זיהוי עצמים • זיהוי תבניות • עוזר וירטואלי • זיהוי תווים אופטי • מחולל תמונות (הזיות (אנ'))
מערכות בינה מלאכותית	אלייזה • ChatGPT •‏ DALL-E •‏ Midjourney •‏ Gemini •‏ Perplexity •‏ GitHub Copilot • דיפ־פייק • סירי • Google Assistant • אמזון אלכסה
סוגיות בטיחות בינה מלאכותית (אנ')	סכנה קיומית מבינה מלאכותית כללית • בינה מלאכותית חזקה • יישור בינה מלאכותית (אנ') • בקרת יכולות בינה מלאכותית (אנ') • השתלטות בינה מלאכותית (אנ') • בינה מלאכותית ידידותית (אנ') • התכנסות אינסטרומנטלית (אנ') • סינגולריות טכנולוגית
ספריות בשימוש נרחב	TensorFlow •‏ PyTorch •‏ Torch •‏ Hugging Face •‏ Keras •‏ spaCy (אנ') •‏ Caffe
לקטגוריית הבינה המלאכותית

מיזמי קרן ויקימדיה
ערך מילוני בוויקימילון: בלשנות חשובית
תמונות ומדיה בוויקישיתוף: בלשנות חישובית