Bootstrap (סטטיסטיקה)
Bootstrap או בוטסטראפ היא שיטה בסטטיסטיקה ובלמידת מכונה המשמשת לאמדן התפלגות דגימה של מדד, באמצעות דגימה מחדש של נתונים מתוך מדגם קיים. השיטה פותחה על ידי הסטטיסטיקאי האמריקאי ברדלי אפרון בשנת 1979. טכניקה זו היא אחד הטכניקות הסטטיסטיות הראשונות שהתבססו על סימולציות ממוחשבות, ולא על הסקה אלגברית ש לנוסחאות סגורות. יסודותיה התיאורטיים של השיטה נשענים על משפט גליבנקו-קנטלי (Glivenko–Cantelli theorem) ועל משפט משפט ברי-אסן (Berry–Esseen theorem).
שיטת הבוטסטראפ שימושית במיוחד לאמדן התפלגויות דגימה של סטטסיטים אשר לא מצוייה להם התפלגות דגימה ידועה, או לאמדן התפלגויות דגימה של סטטיטיסיטים מעל מדגמים החורגים מהנחות סטטיסטיות נפוצות כמו נורמליות השאריות או הומוסקדסטיות.
הסבר אינטואיטיבי לשיטה
[עריכת קוד מקור | עריכה]כאשר רוצים לאמוד התפלגות של פרמטר מסויים באוכלוסייה, למשל גובה ממוצע במדינה מסויימת, ניתן לאמוד אותו על סמך מדגם מייצג של אותה האוכלוסייה. עם זאת, מאחר והתפלגות הגבהים במדגם אינה זהה להתפלגות באוכלוסייה, התפלגות הפרמטר במדגם לא תהיה זהה לזו באוכלוסייה. משפט גליבנקו-קנטלי מבטיח כי תחת תנאים מסויימים ככל שהמדגם יהיה גדול יותר הבדל זה יקטן. פורמלית, המרחק בין פונקציית התפלגות מצטברת אמפירית , ופונקציית התפלגות מצטברת יקטן כאשר ישאף לאינסוף:
לפיכך, לפחות עבור מדגמים גדולים ניתן להתייחס להתפלגות המדגם כאומדן להתפלגות האוכלוסייה. שיטת הבוטסטראפ מתייחסת למדגם כאילו היה האוכלוסייה. בשיטה מסמלצים אלפי מדגמים, הנקראים מדגמי בוטסטראפ, עליהם מחושב סטטיסט מסויים. התפלגותו של הסטטיסט על פני מדגמי הבוטסטראפ אומדת את התפלגות הדגימה שלו באוכלוסייה.
ניתן להראות כי אסימפטוטית (כאשר מספר התצפיות שואף לאינסוף) תחת תנאים מסויימים אכן אמדן הבוטסטראפ להתפלגות הדגימה מתכנס להתפלגות באוכלוסייה, זאת לצד מחקרי סימולציה אשר מדגימים את כוחה של השיטה ועליונותה על פני שיטות אחרות בהתמודדות עם חריגות מהנחות כמו הומוסקדסטיסיות גם עבור מדגמים בעלי מספר תצפיות סופי.
מתודולוגיה
[עריכת קוד מקור | עריכה]שיטת הבוטסטראפ לאמדן התפלגות דגימה לסטטיסט מסויים מבוססת על מספר שלבים:
- דגימה מחדש עם החזרה (Resampling with Replacement):
- יצירת מדגם מתוך המדגם המקורי על ידי דגימה מחדש עם החזרה שייקרא מדגם בוטסטראפ. מספר התצפיות במדגם הבוטסטראפ זהה למספר התצפיות במדגם המקורי.
- חישוב המדד על מדגם הבוטסראפ.
- חזרה על ההליך מספר רב של פעמים (Repeated Resampling):
- על מנת לקבל הערכות מדויקות ואמינות, יש לחזור על תהליך מספר רב של פעמים. כל חזרה כזו יוצרת מדגם בוטסטראפ חדש ואמדן של הסטטיסט במדגם הבוטסטראפ.
- הפקת הערכות ורווחי ביטחון (Inference from the Bootstrap Distribution):
- על סמך ההתפלגות של המדד בכל מדגמי הבוטסראפ, ניתן להפיק רווח בר סמך ואף ערך-p.