לוג'יט

גרף של logit(p) בטווח 0 עד 1, כאשר בסיס הלוגריתם הוא e.

בסטטיסטיקה, לוג'יט או Logit היא פונקציית שברון הקשורה להתפלגות לוגיסטית סטנדרטית. יש לה שימושים רבים בניתוח מידע ולמידת מכונה, ובפרט בטרנספורמציות נתונים.

מבחינה מתמטית, הלוג'יט הוא היפוך של הפונקציה הלוגיסטית הסטנדרטית $\sigma (x)=1/(1+e^{-x})$ , כך שהלוגיט מוגדר כ

\operatorname {logit} (p)=\sigma ^{-1}(p)=\ln \left({\frac {p}{1-p}}\right)\quad {\text{for}}\quad p\in (0,1)

.

בגלל זה, הלוג'יט נקרא גם הלוג של הסיכויים (log-odds) מכיוון שהוא שווה ללוגריתם של יחס הסיכויים ${\frac {p}{1-p}}$ כאשר $p$ הוא הסתברות.^[1] לפיכך, הלוג'יט הוא סוג של פונקציה שממפה ערכי הסתברות מהמרחב $(0,1)$ למספרים ממשיים במרחב $(-\infty ,+\infty )$ ,^[2] בדומה לפונקציית פרוביט.

הגדרה[עריכת קוד מקור | עריכה]

אם $p$ הוא הסתברות, אז $p /(1 - p)$ הוא הסיכוי המתאים; לוג'יט של ההסתברות הוא הלוגריתם של הסיכויים, כלומר:

\operatorname {logit} (p)=\ln \left({\frac {p}{1-p}}\right)=\ln(p)-\ln(1-p)=-\ln \left({\frac {1}{p}}-1\right)\,.

לבסיס של פונקציית הלוגריתם בשימוש חשיבות מועטה במאמר הנוכחי, כל עוד הוא גדול מ-1, אך הלוגריתם הטבעי עם בסיס e הוא הלוגריתם הנפוץ ביותר. בחירת הבסיס מתאימה לבחירת היחידה הלוגריתמית עבור הערך: בסיס 2 מתאים ל"shannon", בסיס $e$ ל"nat", ובסיס 10 לhartley; יחידות אלו משמשות במיוחד בפירושים תאורטיים של מידע. עבור כל בחירה של בסיס, פונקציית לוג'יט לוקחת ערכים בין אינסוף שלילי לחיובי.

הפונקציה ה"לוגיסטית" של כל מספר $\alpha$ ניתן על ידי היפוך-לוג'יט:

\operatorname {logit} ^{-1}(\alpha )=\operatorname {logistic} (\alpha )={\frac {1}{1+\operatorname {exp} (-\alpha )}}={\frac {\operatorname {exp} (\alpha )}{\operatorname {exp} (\alpha )+1}}

ההבדל בין לוג'יט של שתי הסתברויות הוא הלוגריתם של יחס הסיכויים ( $R$ ), ובכך מספק קיצור לכתיבת הקומבינציה הנכונה של יחסי סיכויים רק על ידי חיבור והפחתה:

\operatorname {ln} (R)=\ln \left({\frac {{p_{1}}/(1-p_{1})}{{p_{2}}/(1-p_{2})}}\right)=\ln \left({\frac {p_{1}}{1-p_{1}}}\right)-\ln \left({\frac {p_{2}}{1-p_{2}}}\right)=\operatorname {logit} (p_{1})-\operatorname {logit} (p_{2})\,.

היסטוריה[עריכת קוד מקור | עריכה]

היו מספר מאמצים להתאים שיטות רגרסיה ליניאריות לתחום שבו הפלט הוא ערך הסתברות $(0,1)$ , במקום כל מספר ממשי $(-\infty ,+\infty )$ . במקרים רבים, מאמצים כאלה התמקדו במודלים של בעיה זו על ידי מיפוי הטווח $(0,1)$ ל $(-\infty ,+\infty )$ ולאחר מכן הפעלת הרגרסיה הליניארית על הערכים שעברו טרנספורמציה אלו. בשנת 1934 השתמש צ'סטר איטנר בליס בפונקציית ההתפלגות הנורמלית המצטברת כדי לבצע מיפוי זה וכינה את המודל שלו probit (קיצור של "probability unit").^[3] עם זאת, זה יקר יותר מבחינה חישובית. ב-1944, ג'וזף ברקסון השתמש ביומן הסיכויים וקרא לפונקציה הזו logit, קיצור של "logistic unit" בעקבות האנלוגיה של probit. צ'ארלס סנדרס פרס (סוף המאה ה-19) השתמש בהרחבה בלוגריתם הסיכויים.^[4] GA Barnard בשנת 1949 טבע את המונח הנפוץ "log-odds";^[5] לוגריתם הסיכויים של אירוע הוא הלוג'יט של ההסתברות לאירוע.^[6]

השוואה עם פרוביט[עריכת קוד מקור | עריכה]

השוואה של פונקציית הלוג'יט עם פרוביט בקנה מידה (כלומר ה-CDF ההפוך של ההתפלגות הנורמלית ), השוואה $\operatorname {logit} (x)$ לעומת. ${\tfrac {\Phi ^{-1}(x)}{\,{\sqrt {\pi /8\,}}\,}}$ , מה שהופך את השיפועים להיות זהים במקור ה- $y$

קשורים קשר הדוק לפונקציית $logit$ (ולמודל ה-logit) הם פונקציית probit ומודל probit. $logit$ $probit$ הן שתיהן פונקציות סיגמואידיות עם תחום בין 0 ל-1, מה שהופך את שתיהן לפונקציות קוונטיליות - כלומר, הפכים לפונקציית ההתפלגות המצטברת (CDF) של התפלגות הסתברות. למעשה, לוג'יט הוא הפונקציה הקוונטילית של ההתפלגות הלוגיסטית, בעוד $probit$ היא הפונקציה הכמותית של ההתפלגות הנורמלית. הפונקציה $probit$ $\Phi ^{-1}(x)$ , איפה $\Phi (x)$ היא ה-CDF של ההתפלגות הנורמלית, כאמור:

\Phi (x)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{x}e^{-{\frac {y^{2}}{2}}}dy.

כפי שמוצג בגרף בצד ימין, הלוג'יט והפרוביט דומות מאוד כאשר פרוביט בקנה מידה, כך שהשיפוע שלה ב- $y = 0$ תואם את שיפוע ה- $logit$ . כתוצאה מכך, מודלים של פרוביט משמשים לפעמים במקום מודלים של לוגיט, כי עבור יישומים מסוימים (למשל, בסטטיסטיקה בייסיאנית) היישום קל יותר.

לקריאה נוספת[עריכת קוד מקור | עריכה]

Ashton, Winifred D. (1972). The Logit Transformation: with special reference to its uses in Bioassay. Griffin's Statistical Monographs & Courses. Vol. 32. Charles Griffin. ISBN 978-0-85264-212-2.

קישורים חיצוניים[עריכת קוד מקור | עריכה]

מדיה וקבצים בנושא לוג'יט בוויקישיתוף

הערות שוליים[עריכת קוד מקור | עריכה]

^ "LOG ODDS RATIO". nist.gov.
^ "Logit/Probit" (PDF).
^ J. S. Cramer (2003). "The origins and development of the logit model" (PDF). Cambridge UP.
^ Stigler, Stephen M. (1986). The history of statistics : the measurement of uncertainty before 1900. Cambridge, Massachusetts: Belknap Press of Harvard University Press. ISBN 978-0-674-40340-6.
^ Hilbe, Joseph M. (2009), Logistic Regression Models, CRC Press, p. 3, ISBN 9781420075779.
^ Cramer, J. S. (2003), Logit Models from Economics and Other Fields, Cambridge University Press, p. 13, ISBN 9781139438193.

[1] "LOG ODDS RATIO". nist.gov.

[2] "Logit/Probit" (PDF).

[Cramer2003-3] J. S. Cramer (2003). "The origins and development of the logit model" (PDF). Cambridge UP.

[4] Stigler, Stephen M. (1986). The history of statistics : the measurement of uncertainty before 1900. Cambridge, Massachusetts: Belknap Press of Harvard University Press. ISBN 978-0-674-40340-6.

[5] Hilbe, Joseph M. (2009), Logistic Regression Models, CRC Press, p. 3, ISBN 9781420075779.

[6] Cramer, J. S. (2003), Logit Models from Economics and Other Fields, Cambridge University Press, p. 13, ISBN 9781139438193.

[1]

[2]

[3]

[4]

[5]

[6]