שכיחות אותיות בעברית

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

כבכל שפה, גם בעברית שכיחות האותיות אינה אחידה - יש אותיות הנמצאות בשימוש נרחב בשפה, ויש שהשימוש בהן מועט.

מידע על שכיחות האותיות שימושי לפענוח צפנים המבוססים על החלפת אותיות, מסייע למחקר בלשני וחיוני בבלשנות חישובית ובעיבוד שפה טבעית.

להלן שכיחות אותיות בשני קורפוסים (מאגרי טקסט) של עברית מודרנית, כ-40 מיליון אותיות בכל אחד. הראשון הוא קורפוס כתבות מעיתון הארץ מהשנים 1990-1991, והשני קורפוס פרוטוקולים של הכנסת משנת 2004. הקורפוסים נלקחו מ"מילה - מרכז ידע לתקשוב בשפה העברית" [1].

שכיחות האותיות בעברית באחוזים, מהנדירות לנפוצות


האות שכיחות (חדשות) שכיחות (כנסת)
א 6.25% 4.83%
ב 5.22% 5.27%
ג 1.15% 1.43%
ד 3.16% 2.66%
ה 9.22% 8.78%
ו 10.27% 10.87%
ז 1.11% 0.85%
ח 2.52% 2.47%
ט 0.90% 1.32%
י 11.22% 11.78%
ך 0.48% 0.38%
כ 2.62% 2.27%
ל 6.74% 6.68%
ם 3.00% 3.01%
מ 4.72% 5.31%
ן 1.48% 1.27%
נ 3.89% 3.37%
ס 1.69% 1.73%
ע 3.04% 3.21%
ף 0.16% 0.23%
פ 1.50% 2.05%
ץ 0.11% 0.16%
צ 1.37% 1.34%
ק 1.85% 2.31%
ר 5.56% 5.83%
ש 5.00% 4.77%
ת 5.65% 5.68%

סוגי כתיב[עריכת קוד מקור | עריכה]

בהקשר של שכיחות האותיות חשוב לציין שהכתיב העברי אינו אחיד - נהוגים כתיב חסר, וכתיב מלא. ההבדל בין צורות כתיבה אלו מתבטא בעיקר בשימוש באותיות יו"ד ווָ"ו, ולכן שכיחותן של אותיות אלו (ובמידה מועטה יותר, שכיחות כל האותיות האחרות) שונה באופן משמעותי בין טקסטים הכתובים בצורות השונות. הטקסטים ששימשו להכנת הטבלה שלעיל כתובים כולם בכתיב מלא. טקסט עברי מנוקד, כמו גם כל הטקסטים הישנים יותר, בין אם מנוקדים ובין אם לא, כתובים לפי כללי הכתיב החסר.

הבדלים נוספים צפויים בהשוואת טבלת שכיחויות מתקופות שונות של התפתחות העברית. עברית בת זמננו שאלה מלים רבות משפות לטיניות וגרמאניות, ויש הטוענים שגם מבנים דקדוקיים. ודאי הוא שאוצר המלים השתנה מאד, כמו גם חלק ניכר מאופן השימוש במלים שמקורן קודם לעברית המודרנית.

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]