התפלגות נורמלית

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש
התפלגות נורמלית
פונקציית צפיפות ההסתברות
Normal distribution pdf.png
פונקציית ההסתברות המצטברת
Normal distribution cdf.png
מאפיינים
פרמטרים \ \mu הממוצע, \ \sigma סטיית התקן.
תומך \ \Bbb{R}
פונקציית הסתברות

(pmf)

פונקציית צפיפות הסתברות

(pdf)

\frac1{\sigma\sqrt{2\pi}}\; \exp\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2} \right) \!
פונקציית ההסתברות המצטברת

(cdf)

\frac12 \left(1 + \mathrm{erf}\,\frac{x-\mu}{\sigma\sqrt2}\right) \!
תוחלת \ \mu
חציון \ \mu
ערך שכיח \ \mu
שוֹנוּת \ \sigma ^2
אנטרופיה \ln\left(\sigma\sqrt{2\,\pi\,e}\right)\!
פונקציה יוצרת מומנטים

(mgf)

M_X(t)= \exp\left(\mu\,t+\frac{\sigma^2 t^2}{2}\right)
צידוד \ 0
גבנוניות \ 0

התפלגות נורמלית היא ככל הנראה ההתפלגות החשובה ביותר בסטטיסטיקה תאורטית ובישומיה בכל תחומי המדע. חשיבותה הרבה נובעת ממשפט הגבול המרכזי, לפיו הממוצע של משתנים בלתי תלויים בעלי אותה התפלגות, לאחר תקנון מתאים, מתכנס בהתפלגות אל ההתפלגות הנורמלית. לכן מופיעה התפלגות זו בכל מקום בו לוקחים ממוצע של משתנים רבים, כגון גובה ממוצע של אנשים באוכלוסייה, ממוצע טעויות מדידה מקריות במדידות חוזרות של אותו גודל, וכדומה. מדדים פסיכומטריים שונים, כגון מבחן מנת משכל, מתוכננים בכוונה תחילה להתפלג באופן נורמלי.

ההתפלגות הנורמלית הסטנדרטית (קרויה גם התפלגות Z) היא השימושית ביותר במשפחת ההתפלגויות הנורמליות. על ידי מתיחה (כלומר, הכפלה בקבוע) והזזה (הוספת קבוע) של משתנה מקרי בעל התפלגות נורמלית סטנדרטית, מתקבלת משפחה כללית יותר של התפלגויות, שכל אחת מהן היא התפלגות נורמלית. זוהי דוגמה למשפחה מעריכית של התפלגויות. בתוך המשפחה, אפשר לזהות התפלגות נורמלית מסוימת על-פי שני פרמטרים: התוחלת והשונות שלה. להתפלגות הנורמלית הסטנדרטית יש תוחלת 0, ושונותה 1.

ההתפלגות הנורמלית נקראת גם גאוסיאן על שמו של קרל פרידריך גאוס, וגם עקומת הפעמון משום שהגרף של פונקציית הצפיפות שלה מזכיר בצורתו פעמון.

היסטוריה[עריכת קוד מקור | עריכה]

המתמטיקאי אברהם דה-מואבר הציג את ההתפלגות הנורמלית לראשונה בשנת 1733 כקירוב להתפלגות הבינומית עבור מספר גדול של דגימות (מאמרו בעניין התגלה רק ב-1924). לפלס השתמש בעקומה הנורמלית לתאר "התפלגות של שגיאות" בשנת 1783. גאוס השתמש בהתפלגות הנורמלית לניתוח מידע אסטרונומי ב-1809. המדען הבלגי אדולף קטלה הראה כי התפלגותם של משתנים רבים (כגון גובהו של אדם) היא נורמלית.

מאפיינים מתמטיים[עריכת קוד מקור | עריכה]

פונקציית הצפיפות[עריכת קוד מקור | עריכה]

פונקציית הצפיפות של התפלגות נורמלית בעלת תוחלת \ \mu ושונות \ \sigma^2 היא :


\begin{align}
f(x) & =  \frac 1 {\sqrt{2\pi\sigma^2}} e^{\frac{-(x-\mu)^2}{2\sigma^2}} \\
& =  \frac 1 {\sigma\sqrt{2\pi}} \exp \left( {\frac{-(x-\mu)^2}{2\sigma^2}} \right)
\end{align}

זוהי פונקציה סימטרית סביב התוחלת, ובעלת שתי נקודות פיתול במרחק סטיית תקן אחת מן הממוצע, כלומר בנקודות \ \mu \pm \sigma. את העובדה שמשתנה מקרי  \ X הוא בעל התפלגות כזו, מקובל לציין בסימון \ X \sim N(\mu,\sigma^2).

במקרה המיוחד של ההתפלגות הנורמלית הסטנדרטית \ X \sim N(0,1), מתקבלת הפונקציה

f(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}

פונקציית ההתפלגות המצטברת[עריכת קוד מקור | עריכה]

פונקציית ההתפלגות המצטברת, או הסיכוי שמשתנה מקרי \ X יקבל ערך קטן או שווה ל-\ x נתון, שווה ל-

P(X \leq x) = \int_{-\infty}^xf(y)dy


כדי לחשב את ערכי פונקציית ההתפלגות המצטברת בעלת פרמטרים \ (\mu,\sigma^2) כלשהם, די בידיעת ערכיה של פונקציית ההתפלגות המצטברת הסטנדרטית, משום שאם \ X\sim N(\mu,\sigma^2) ניתן להגדיר משתנה מקרי חדש \ Z=\frac{X-\mu}{\sigma} ולגביו יתקיים \ Z\sim N(0,1). לכן, מתקיים:

\ P(X\le x)=P\left(\frac{X-\mu}{\sigma}\le\frac{x-\mu}{\sigma}\right)=\Phi\left(\frac{x-\mu}{\sigma}\right)

\ \Phi(x) - מסמל את פונקציית ההתפלגות המצטברת של משתנה נורמלי סטנדרטי.

בשל תכונות הסימטריה של ההתפלגות הנורמלית, בדרך כלל לא נתונים ערכיה השליליים של ההתפלגות הסטנדרטית בטבלאות המשמשות למציאתה. כדי למצוא אותם משתמשים בזהות: \ \Phi(-x)=1-\Phi(x).

הפונקציה \ \Phi(x) איננה פונקציה אלמנטרית (כלומר, היא אינה מתקבלת מהרכבה סופית של פולינומים, פונקציית האקספוננט והפונקציות הטריגונומטריות, והפונקציות ההפוכות להם). משום כך, כמעט כל ספר העוסק במבחנים סטטיסטיים כולל גם טבלה המכילה את הערכים המקורבים להתפלגות הנורמלית הסטנדרטית, שחושבו בשיטות נומריות. הקירוב הבא שימושי למדי כאשר z גדול:


\ 1-\Phi(z) = \int_{z}^{\infty} \frac{1}{\sqrt{2\pi}}e^{-x^2/2} dx \approx \frac{1}{z+1/2}e^{-z^2/2}

תכונות ההתפלגות[עריכת קוד מקור | עריכה]

  • ההתפלגות מתפרשת על פני כל הישר הממשי.
  • ההתפלגות הינה סימטרית וחד שיאית (יונימודלית).
  • הממוצע, החציון והשכיח מתלכדים בציר הסימטריה.
  • אם נתון משתנה מקרי X \sim N(\mu, \sigma^2) ו- \ a, b מספרים ממשיים, אזי: aX + b \sim N(a\mu+b,\, a^2\sigma^2).
  • אם X \sim N(\mu_X, \sigma^2_X) ו- Y \sim N(\mu_Y, \sigma^2_Y) משתנים מקריים, בלתי תלויים, אז סכומם מתפלג נורמלית עם הפרמטרים U = X + Y \sim N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y).
  • אם X,Y משתנים נורמליים סטנדרטיים ובלתי תלויים, אז הצירופים הלינאריים \ aX+bY, cX+dY בלתי-תלויים אם ורק אם וקטורי המקדמים מאונכים, כלומר \ ac+bd=0.
  • פיזור ערכי ההתפלגות: 68.26% מן הערכים נמצאים במרחק של לא יותר מציון תקן אחד מהממוצע (ציר הסימטריה). במרחק של עד שני ציוני תקן (z=2) נמצאים 95.44% מהערכים ובמרחק עד שלושה ציוני תקן נמצאים 99.74% מהערכים - רק ב-0.26% יהיה ציון התקן גבוה מ-3.
  • גרף ההתפלגות נודע גם בשם "גרף פעמון" או "פעמון גאוס", שכן כאשר הוא משורטט בתור גרף המציין את מספר הערכים בכל תחום, מקבלת העקומה צורה דמוית פעמון - גבוהה במרכזה ונמוכה בשני צדדיה. צורת הפעמון מוכתבת על ידי הממוצע וסטיית התקן של ההתפלגות.
אחוזי ההתפלגות הנורמלית מסביב לממוצע (ציר הסימטריה) לפי סטיות תקן

יצירת משתנים המתפלגים נורמלית[עריכת קוד מקור | עריכה]

הצורך ליצור משתנים המתפלגים התפלגות נורמלית עולה בתחומים רבים. בשפות תכנות רבות קיים מחולל פסבדו אקראי המייצר משתנים המתפלגים, בקירוב, התפלגות אחידה על הקטע \ [0,1], ולכן דרושה שיטה להפוך את המשתנה המקרי האחיד למשתנה המתפלג התפלגות נורמלית סטנדרטית. ישנן מספר דרכים לעשות זאת:

לאורך כל הדוגמאות המובאות בפסקה זו \ X יסמן משתנה מקרי המתפלג אחיד על קטע היחידה.
  • דרך אינטואיטיבית (אך לא יעילה) ליצור משתנה מקרי המתפלג נורמלית בקירוב היא על ידי שימוש במשפט הגבול המרכזי הקובע כי סכום של מספר גדול של משתנים מקריים אחידים שואף להתפלגות נורמלית. על מנת ליצור התפלגות נורמלית סטנדרטית יש לדאוג שתוחלת הסכום תהייה שווה לאפס וסטיית התקן לאחת. לכן, המשתנה המקרי

Y=\sqrt\frac{12}{N}\left(X_1+X_2+\dots+X_N-\frac{N}{2}\right)

מתפלג בקירוב התפלגות נורמלית סטנדרטית, וככל שמספר המחוברים גדל, כך גדל הדיוק.
  • שיטה כללית יותר, ומדויקת מבחינה מתמטית מתקבלת על ידי הפיכת פונקציית ההסתברות המצטברת. באופן כללי, אם \ F היא פונקציית ההסתברות המצטברת של התפלגות נתונה, אז \ F^{-1}(X) מתפלג בהתפלגות זו. לכן,

\ Y=\mbox{erf}^{-1}(2X-1)

מתפלג נורמלית, כאשר \ \mbox{erf} היא פונקציית השגיאה. על מנת להשתמש בשיטה זו יש לדעת לחשב את פונקציית השגיאה, שהיא אינה פונקציה אלמנטרית.
  • שיטה יעילה יותר שגם היא מדויקת מבחינה מתמטית נקראת טרנספורמצית בוקס-מולר. טרנספורמציה זו משתמש בעובדה שהתפלגות כי בריבוע עם שתי דרגות חופש היא התפלגות מעריכית, וקיימת נוסחה מדויקת להפיכת משתנה מקרי אחיד למשתנה המתפלג מעריכית. טרנספורמציית בוקס-מולר לוקחת שני משתנים מקריים אחידים \ X_1, X_2 ומחזירה שני משתנים מקריים בלתי תלויים \ Y_1 ,Y_2 המתפלגים נורמלית על ידי הנוסחה

\begin{align}Y_1 &=& \sqrt{- 2 \ln X_1} \, \cos(2 \pi X_2)\\Y_2 &=& \sqrt{- 2 \ln X_1} \, \sin(2 \pi X_2) \end{align}

מבחני נורמליות[עריכת קוד מקור | עריכה]

מבחני נורמליות מעריכים את הסבירות שאוסף נתונים {x1, …, xn} מגיע מהתפלגות נורמלית. בדרך כלל השערת האפס H0 היא שהתצפיות מתפלגות נורמלית עם ממוצע כלשהו μ ושונות σ2, מול ההשערה החלופית Ha שההתפלגות היא שרירותית. מבחנים רבים (מעל 40) הומצאו לבעיה זו, להלן הבולטים שבהם:

  • בדיקות חזותיות יותר מושכות מבחינה אינטואיטיבית, אבל בו בזמן הן סובייקטיביות מכיוון שנסמכות על שיפוט אנושי בלתי פורמלי על מנת לקבל או לדחות את השערת האפס.
    • תרשים צפיפות אמפירי - בדיקת ההיסטוגרמה או תרשים הצפיפות לראות האם התפלגות נראית נורמלית.
    • תרשים Q-Q של הערכים הממויינים של אוסף הנתונים כנגד הערכים הצפויים של השברונים המתאימים מההתפלגות הנורמלית הסטנדרטית. זהו תרשים של נקודות מהצורה (Φ−1(pk), x(k)) כאשר pk = (k − α)/(n + 1 − 2α) ו-α הוא קבוע ההתאמה, שיכול לקבל כל ערך בין 0 ל-1. אם השערת האפס נכונה, נקודות התרשים אמורות להיות בערך על הקו הישר.
    • תרשים P-P דומה לתרשים ה Q-Q אבל בשימוש נדיר הרבה יותר. בשיטה זו מייצגים בתרשים את הנקודות (Φ(z(k)), pk) כאשר \scriptstyle z_{(k)} = (x_{(k)}-\hat\mu)/\hat\sigma. בשביל הנתונים המתפלגים נורמלית, תרשים זה אמור להיות בערך על הקו הלינארי שבין (0,0) ובין (1,1).
    • מבחן שפירו-ווילק משתמש בעובדה שלקו בתרשים Q-Q יש שיפוע σ. המבחן משווה את הערכת הריבועים הפחותים של השיפוע עם ערך השונות המדגמית, ודוחה את השערת האפס אם שני הערכים האלה שונים משמעותית.


  • מבחני מומנט
    • מבחן K-ריבועי של ד'אגוסטינו
    • מבחן ז'רקה- ברה.
  • מבחני פונקצית התפלגות אמפירית
    • מבחן ליליאפורס (אדפטציה של מבחן קולמוגורוב-סמירנוב).
    • מבחן אנדרסון-דרלינג


ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]