שיחת ויקיפדיה:תחזוקה/שתי שקל/מילון
מילים מוזרות במילון[עריכת קוד מקור]
1. יש במילון מילים שאינן שמות עצם, ובכל משפט תקני, אם יש לפניהן מספר אז הוא שייך לחלק אחר במשפט ולא אליהן. רשימה חלקית:
- בזהירות
- בתחרות
- ובסירות
אני מנחש שהן נכנסו לרשימה בשל תהליך יצירה אוטומטי כלשהו. חיפשתי "ובסירות" בערכים, ומצאתי שהוא מופיע באיטליה במשחקים האולימפיים: "... ושתי קבוצות חותרים, בסירות לארבעה ובסירות לזוג עם הגאי." זהו משפט תקין, אבל אין סיבה להכניס את "ובסירות" לרשימת החריגים. מה הדרך הנכונה להתמודד עם זה?
2. כמו כן, שמתי לב שמילים אחדות נמצאות ברשימה כמה פעמים עם תחיליות שונות:
- מהקורבנות
- מקורבנות
- קורבנות
האם זה תקין? איתמר ק. - שיחה 17:17, 9 במאי 2013 (IDT)
- 1. הרשימה נוצרה בדרך אוטומטית עם shell script לפי תקין/תוקן שצוין ליד (לנוחיות מי שירצה להוציא רשימה דומה בעתיד מובא בהמשך). נראה שבצורה הזו נכנסות יותר מדי מילים כמו שהזכרת לעיל, ולכן יצרתי את זה כרשימה בדף נפרד כך שמשתמשים יוכלו להצהיר בצורה יותר מפורשת על זכר/נקבה. הסרתי מהרשימה חלק מהמילים הנ"ל לפני שהעליתי אותה, אבל לא עברתי על כולה, ואם יש נוספים כדאי להוריד אותם.
curl "http://he.wikipedia.org/w/index.php?title=ויקיפדיה:תחזוקה/שתי_שקל&action=raw§ion=2" > female.wiki
awk -F '-' '{if($2 ~ /\s*תקין *$/) print $1; else if($2~/תקין/) print "check\t" $1 "\t" $2}' female.wiki | sed 's/\*//;s/[ \t]$//' | sort> realMale.txt
awk -F '-' '{if($2 !~/תקין/ && $2 ~ /תוקן/) print $1}' female.wiki |sed 's/\*//;s/[ \t]$//' | sort> realFemale.txt
- יצרתי פסקה נוספת לציון רשימת התעלמות, שבהן הבוט מדווח על טעות בצורה כוזבת
- 3. הבוט מסתמך על הרשימה הנ"ל וכן לאפשרות שהמילה ה' הידוע לפני. אני חושש שהוספה של תחיליות נוספות עלולה לשנות את המשמעות של מילים (למשל חוזות=>מחוזות), ואולי זה גם קורה עם ה' הידוע אבל כנראה לא מספיק שכיח. אני לא בטוח עד כמה שינוי משמעות (שכרוך גם בשינוי מין) נפוץ, ולכן הגדרתי שאפשר יהיה לציין בצורה ידנית תחיליות נוספות. אם זה לא נפוץ אפשר שהבוט יוסיף תחיליות נוספות.
- ערן - שיחה 09:11, 11 במאי 2013 (IDT)
חיפוש בקישורים[עריכת קוד מקור]
שמתי לב שהבוט עושה חיפוש גם בקישורים הפנימיים. לדוגמה, אם מופיע בערך כלשהו קישור "אנדמית", הבוט יתייחס כאל מילה "אנדמיות" למרות שהיא לא כתובה במשפט. גיא - שיחה 15:08, 5 ביוני 2013 (IDT)
- נכון. הכנסתי תיקון בבוט כך שבהרצה הבאה ההחלפה תנסה להתחשב בכך. בברכה, ערן - שיחה 23:44, 5 ביוני 2013 (IDT)
- כל הכבוד על התגובה המהירה. גיא - שיחה 10:49, 6 ביוני 2013 (IDT)
התעלמות מביטוי[עריכת קוד מקור]
איך לכתוב ביטוי שיש להתעלם ממנו ? למשל "שלושת הרגלים" או "עששת שיניים" ? גיא - שיחה 15:39, 10 ביולי 2013 (IDT)
- במקרה של עששת הוספתי כעת תיקון בבוט כך שלפני "ששת" לעולם לא יופיע "ע" (אם כן הבוט מתעלם מזה). במקרה של שלושת הרגלים - כנראה שהצורה הנכונה היא "שלוש רגלים" (ראה בשיחה:שלוש רגלים) וזה מוכנס במכוון בגלל הופעה של "רגלים" בנקבה במילון. ערן - שיחה 08:13, 11 ביולי 2013 (IDT)
- יכןל להיות שהצורה התקנית היא "שלוש רגלים" אבל קיים שימוש נרחב בביטוי "שלושת הרגלים" ואנחנו צריכים ליצור אפשרות להחריג ביטוי זה וביטויים אחרים שקיימים. גיא - שיחה 16:14, 22 ביולי 2013 (IDT)
הרחבת המילים שבמילון[עריכת קוד מקור]
בנוסף לה' הידיעה במילים במילון, צריך גם להתעלם מתחילית של מ' (שלושה מזוגות המתמודדים) וגם "מהX" (מהזוגות). בריאן - שיחה 08:12, 18 ביולי 2013 (IDT)
- הבעיה עם מ' היא שלעתים זה משנה את המשמעות של המילה (לדוגמה "שלושה דורות", "שלוש מדורות"). ערן - שיחה 15:12, 18 ביולי 2013 (IDT)
- אז צריך אולי לחשוב על פתרון לסמן לבוט אם זו מ' שהיא חלק מהמילה או לא. ככל שננקה יותר בעיות אמיתיות, כך נראה יותר בעיות לא-אמיתיות, אלא אם כן נטפל בהן גם במקביל. בריאן - שיחה 17:08, 18 ביולי 2013 (IDT)
איקונות[עריכת קוד מקור]
הסקריפט סיווג מילה זו כזכר, אולם לא ברור אם אכן כך הדבר. ראו איקונין בויקימילון. מה דעתכם? בריאן - שיחה 14:16, 13 באוגוסט 2015 (IDT)