שכיחות אותיות בעברית

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

כבכל שפה, גם בעברית שכיחות האותיות אינה אחידה - יש אותיות הנמצאות בשימוש נרחב בשפה, ויש שהשימוש בהן מועט.

מידע על שכיחות האותיות שימושי לפענוח צפנים המבוססים על החלפת אותיות, מסייע למחקר בלשני וחיוני בבלשנות חישובית ובעיבוד שפה טבעית.

להלן שכיחות האותיות בשלושה מאגרי טקסט (קורפוסים) של עברית מודרנית, כ-40 מיליון אותיות בשניים הראשונים וכ500 מיליון אותיות באחרון. הראשון הוא מאגר כתבות מעיתון הארץ מהשנים 1991-1990, השני מאגר פרוטוקולים של הכנסת משנת 2004 והשלישי הוא מוויקיפדיה עצמה. שני המאגרים הראשוניים נלקחו מ"מילה - מרכז ידע לתקשוב בשפה העברית" [1], והאחרון נלקח מוויקיפדיה העברית של מאי 2016.

שכיחות האותיות בעברית באחוזים, מהנדירות לנפוצות.
האות שכיחות (עיתון הארץ) שכיחות (כנסת) שכיחות (ויקיפדיה)
א 6.25% 4.83% 4.66%
ב 5.22% 5.27% 5.36%
ג 1.15% 1.43% 1.78%
ד 3.16% 2.66% 2.66%
ה 9.22% 8.78% 8.40%
ו 10.27% 10.87% 11.2%
ז 1.11% 0.85% 0.93%
ח 2.52% 2.47% 2.20%
ט 0.90% 1.32% 1.78%
י 11.22% 11.78% 11.7%
ך 0.48% 0.38% 0.38%
כ 2.62% 2.27% 1.88%
ל 6.74% 6.68% 6.20%
ם 3.00% 3.01% 2.63%
מ 4.72% 5.31% 5.13%
ן 1.48% 1.27% 1.36%
נ 3.89% 3.37% 3.65%
ס 1.69% 1.73% 2.23%
ע 3.04% 3.21% 2.65%
ף 0.16% 0.23% 0.22%
פ 1.50% 2.05% 2.29%
ץ 0.11% 0.16% 0.20%
צ 1.37% 1.34% 1.30%
ק 1.85% 2.31% 2.62%
ר 5.56% 5.83% 6.65%
ש 5.00% 4.77% 4.24%
ת 5.65% 5.68% 5.46%

סוגי כתיב[עריכת קוד מקור | עריכה]

כשעוסקים בשכיחות האותיות, חשוב להבחין כי הכתיב העברי אינו אחיד - נהוגים כתיב חסר, וכתיב מלא. ההבדל בין צורות כתיבה אלו מתבטא בעיקר בשימוש באותיות יו"ד ווָ"ו, ולכן שכיחותן של אותיות אלו (ובמידה מועטה יותר, שכיחות כל האותיות האחרות) שונה באופן משמעותי בין טקסטים הכתובים בצורות השונות. הטקסטים ששימשו להכנת הטבלה שלעיל כתובים כולם בכתיב מלא. טקסט עברי מנוקד, כמו גם כל הטקסטים הישנים יותר, בין אם מנוקדים ובין אם לא, כתובים לפי כללי הכתיב החסר.

הבדלים נוספים צפויים בהשוואת טבלת שכיחויות מתקופות שונות של התפתחות העברית. עברית בת זמננו שאלה מלים רבות משפות לטיניות וגרמניות, ויש הטוענים שגם מבנים דקדוקיים. ודאי הוא שאוצר המלים השתנה מאד, כמו גם חלק ניכר מאופן השימוש במלים שמקורן קודם לעברית המודרנית.

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]