חוק זיף

מתוך ויקיפדיה, האנציקלופדיה החופשית
Incomplete-document-purple.svg
יש להשלים ערך זה: בערך זה חסר תוכן מהותי. ייתכן שתמצאו פירוט בדף השיחה.
הנכם מוזמנים להשלים את החלקים החסרים ולהסיר הודעה זו. שקלו ליצור כותרות לפרקים הדורשים השלמה, ולהעביר את התבנית אליהם.

חוק זיףאנגלית: Zipf's Law) היא נוסחה אמפירית המתארת את התפלגות שכיחות המילים בטקסט בשפה טבעית. החוק התגלה ונוסח בשנות ה-30 של המאה ה-20, על ידי הבלשן האמריקאי ג'ורג' קינגסלי זיף (אנ'), אבי הבלשנות החישובית. התפלגות זו נקראת "התפלגות זיף". בעקבותיו בדקו חוקרים אחרים תופעות טבעיות ואנושיות אחרות וגילו תופעות נוספות המתפלגות לפי התפלגות זיף.

ניסוח החוק[עריכת קוד מקור | עריכה]

הדגמה לחוק זיף ב-30 שפות טבעיות: גרף המציג את שכיחויות המילים כתלות ליניארית בדרגתן, בשימוש בקנה מידה לוגריתמי בשני הצירים.

בהינתן טקסט טבעי, יוצרים טבלת שכיחות של המילים בטקסט, ומעניקים לכל מילה דירוג (rank) לפי מקומה בטבלה. כך נייחס למילה השכיחה ביותר דירוג 1, למילה השנייה בשכיחותה דירוג 2 וכן הלאה.

בהתאם לחוק זיף שכיחותה של מילה כלשהי בטקסט נקבעת על פי הנוסחה הבאה:

- שכיחות מילה מסוימת בטקסט.
- דירוג המילה (rank) בטקסט.
- שכיחות המילה בעלת התדירות הגבוהה ביותר בטקסט.

כך, לפי חוק זיף, המילה הנפוצה ביותר תופיע בטקסט כפליים מהמילה השנייה (כלומר בעלת דירוג 2), פי שלושה יותר מהמילה השלישית בתפוצתה וכן הלאה. טקסטים ברוב השפות הטבעיות נשמעים לחוק זיף, אם כי אין עדיין הסכמה בקרב הבלשנים לגבי הסיבה.

זיף הדגים את החוק באמצעות מחקר שערך יחד עם הסטודנטים שלו. המחקר בוצע באופן ידני, ובמסגרתו נספרו המופעים של המילים בספר "יוליסס" של ג'יימס ג'ויס.

תופעות נוספות[עריכת קוד מקור | עריכה]

קיימות תופעות נוספות שאינן קשורות לשפה, הנשמעות לחוק זיף. דירוג במערכות שנוצרו בידי אדם המקיימות ביטוי מתמטי קיימות גם בתופעות כגון דירוג של תווים במוזיקה, גודל אוכלוסייתן של ערים בארצות שונות, גודלן של חברות, התפלגות הכנסה ועוד. מחקר נוסף גילה שחוק זיף יכול לשמש גם למעקב אחר אמינות הדיווחים של רשויות מקומיות על התפשטות של מגפות. המחקר בדק דיווחים ברמת הרשויות המקומיות, במספר מדינות שונות, בנוגע להתפשטות התחלואה של נגיף קורונה, והראה כי ניתן לבצע ניתוח סטטיסטי כדי לזהות אילו רשויות אזוריות מדווחות על מספרי מקרים החורגים באופן משמעותי מחוק הסמכויות שנצפה. לאחר מכן ניתן לסמן אזורים החורגים באופן משמעותי לחקירה נוספת על ידי הרשויות הרלוונטיות.

חוקים קשורים[עריכת קוד מקור | עריכה]

בהמשך לחוק זיף אשר בדק התפלגות של נתונים באמצעות הנוסחה האמפירית, קיימת הכללה של חוקיות זו הנקראת חוק זיף-מנדלברוט, אשר הוצע על ידי בנואה מנדלברוט. בנוסף קיימות טענות שחוק בנפורד הוא מקרה ספציפי של חוק זיף, שני החוקים קשורים זה לזה בכך שהמקור של שניהם הוא ביחסים פונקציונליים בלתי משתנים. יחסי ההסתברויות בחוק בנפורד אינם קבועים, בשונה מחוק זיף.

ראו גם[עריכת קוד מקור | עריכה]

לקריאה נוספת[עריכת קוד מקור | עריכה]

  • Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort: An Introduction to Human Ecology. Addison-Wesley, Reading, MA.
  • Robert L. Axtell: Zipf Distribution of U.S. Firm Sizes,Science 7 September 2001 Vol. 293. no. 5536, pp. 1818 - 1820 DOI: 10.1126/science.1062081
  • Hill, B.M, Zipf's law and prior distributions for the composition of a population, Journal of the American Statistical Association Vol. 65, No. 331 (Sep., 1970), pp. 1220-1232
  • K Okuyama, M Takayasu, H Takayasu Zipf's law in income distribution of companies Physica A, 1999 [1](הקישור אינו פעיל)
  • Kennedy AP, Yam SCP. On the authenticity of COVID-19 case figures. PLoS One. 2020 Dec 8;15(12):e0243123. doi: 10.1371/journal.pone.0243123. PMID: 33290420; PMCID: PMC7723280.
  • Mark Levene, José Borges, George Loizou: Knowledge and Information Systems, Volume 3, Number 1, February, 2001 [2](הקישור אינו פעיל)

קישורים חיצוניים[עריכת קוד מקור | עריכה]

ויקישיתוף מדיה וקבצים בנושא חוק זיף בוויקישיתוף