שיחת ויקיפדיה:תחזוקה/שתי שקל/מילון

תוכן הדף אינו נתמך בשפות אחרות.
מתוך ויקיפדיה, האנציקלופדיה החופשית

מילים מוזרות במילון[עריכת קוד מקור]

1. יש במילון מילים שאינן שמות עצם, ובכל משפט תקני, אם יש לפניהן מספר אז הוא שייך לחלק אחר במשפט ולא אליהן. רשימה חלקית:

  • בזהירות
  • בתחרות
  • ובסירות

אני מנחש שהן נכנסו לרשימה בשל תהליך יצירה אוטומטי כלשהו. חיפשתי "ובסירות" בערכים, ומצאתי שהוא מופיע באיטליה במשחקים האולימפיים: "... ושתי קבוצות חותרים, בסירות לארבעה ובסירות לזוג עם הגאי." זהו משפט תקין, אבל אין סיבה להכניס את "ובסירות" לרשימת החריגים. מה הדרך הנכונה להתמודד עם זה?

2. כמו כן, שמתי לב שמילים אחדות נמצאות ברשימה כמה פעמים עם תחיליות שונות:

  • מהקורבנות
  • מקורבנות
  • קורבנות

האם זה תקין? איתמר ק. - שיחה 17:17, 9 במאי 2013 (IDT)[תגובה]

1. הרשימה נוצרה בדרך אוטומטית עם shell script לפי תקין/תוקן שצוין ליד (לנוחיות מי שירצה להוציא רשימה דומה בעתיד מובא בהמשך). נראה שבצורה הזו נכנסות יותר מדי מילים כמו שהזכרת לעיל, ולכן יצרתי את זה כרשימה בדף נפרד כך שמשתמשים יוכלו להצהיר בצורה יותר מפורשת על זכר/נקבה. הסרתי מהרשימה חלק מהמילים הנ"ל לפני שהעליתי אותה, אבל לא עברתי על כולה, ואם יש נוספים כדאי להוריד אותם.
curl "http://he.wikipedia.org/w/index.php?title=ויקיפדיה:תחזוקה/שתי_שקל&action=raw&section=2" > female.wiki
awk -F '-' '{if($2 ~ /\s*תקין *$/) print $1; else if($2~/תקין/) print "check\t" $1 "\t" $2}' female.wiki | sed 's/\*//;s/[ \t]$//' | sort> realMale.txt
awk -F '-' '{if($2 !~/תקין/ && $2 ~ /תוקן/) print $1}' female.wiki |sed 's/\*//;s/[ \t]$//' | sort> realFemale.txt
יצרתי פסקה נוספת לציון רשימת התעלמות, שבהן הבוט מדווח על טעות בצורה כוזבת
3. הבוט מסתמך על הרשימה הנ"ל וכן לאפשרות שהמילה ה' הידוע לפני. אני חושש שהוספה של תחיליות נוספות עלולה לשנות את המשמעות של מילים (למשל חוזות=>מחוזות), ואולי זה גם קורה עם ה' הידוע אבל כנראה לא מספיק שכיח. אני לא בטוח עד כמה שינוי משמעות (שכרוך גם בשינוי מין) נפוץ, ולכן הגדרתי שאפשר יהיה לציין בצורה ידנית תחיליות נוספות. אם זה לא נפוץ אפשר שהבוט יוסיף תחיליות נוספות.
ערן - שיחה 09:11, 11 במאי 2013 (IDT)[תגובה]

חיפוש בקישורים[עריכת קוד מקור]

שמתי לב שהבוט עושה חיפוש גם בקישורים הפנימיים. לדוגמה, אם מופיע בערך כלשהו קישור "אנדמית", הבוט יתייחס כאל מילה "אנדמיות" למרות שהיא לא כתובה במשפט. גיא - שיחה 15:08, 5 ביוני 2013 (IDT)[תגובה]

נכון. הכנסתי תיקון בבוט כך שבהרצה הבאה ההחלפה תנסה להתחשב בכך. בברכה, ערן - שיחה 23:44, 5 ביוני 2013 (IDT)[תגובה]
כל הכבוד על התגובה המהירה. גיא - שיחה 10:49, 6 ביוני 2013 (IDT)[תגובה]

התעלמות מביטוי[עריכת קוד מקור]

איך לכתוב ביטוי שיש להתעלם ממנו ? למשל "שלושת הרגלים" או "עששת שיניים" ? גיא - שיחה 15:39, 10 ביולי 2013 (IDT)[תגובה]

במקרה של עששת הוספתי כעת תיקון בבוט כך שלפני "ששת" לעולם לא יופיע "ע" (אם כן הבוט מתעלם מזה). במקרה של שלושת הרגלים - כנראה שהצורה הנכונה היא "שלוש רגלים" (ראה בשיחה:שלוש רגלים) וזה מוכנס במכוון בגלל הופעה של "רגלים" בנקבה במילון. ערן - שיחה 08:13, 11 ביולי 2013 (IDT)[תגובה]
יכןל להיות שהצורה התקנית היא "שלוש רגלים" אבל קיים שימוש נרחב בביטוי "שלושת הרגלים" ואנחנו צריכים ליצור אפשרות להחריג ביטוי זה וביטויים אחרים שקיימים. גיא - שיחה 16:14, 22 ביולי 2013 (IDT)[תגובה]

הרחבת המילים שבמילון[עריכת קוד מקור]

בנוסף לה' הידיעה במילים במילון, צריך גם להתעלם מתחילית של מ' (שלושה מזוגות המתמודדים) וגם "מהX" (מהזוגות). בריאן - שיחה 08:12, 18 ביולי 2013 (IDT)[תגובה]

הבעיה עם מ' היא שלעתים זה משנה את המשמעות של המילה (לדוגמה "שלושה דורות", "שלוש מדורות"). ערן - שיחה 15:12, 18 ביולי 2013 (IDT)[תגובה]
אז צריך אולי לחשוב על פתרון לסמן לבוט אם זו מ' שהיא חלק מהמילה או לא. ככל שננקה יותר בעיות אמיתיות, כך נראה יותר בעיות לא-אמיתיות, אלא אם כן נטפל בהן גם במקביל. בריאן - שיחה 17:08, 18 ביולי 2013 (IDT)[תגובה]

הסקריפט סיווג מילה זו כזכר, אולם לא ברור אם אכן כך הדבר. ראו איקונין בויקימילון. מה דעתכם? בריאן - שיחה 14:16, 13 באוגוסט 2015 (IDT)[תגובה]