חרטה (תורת ההחלטות)

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

בתורת ההחלטות, חרטה היא מונח המשמש להשוואת הביצועים של אלגוריתם מקוון (כזה הפועל בנסיבות שבו עליו לבחור בכל צעד פעולה, בניגוד לנסיבות שבהן אפשר לחכות לכל הקלט לפני שבוחרים פעולות), לבין ביצועים של הפעולות הטובות ביותר בדיעבד.

חרטה של סדרות תוצאות והחלטות[עריכת קוד מקור | עריכה]

נניח שתהליך מייצר סדרת תוצאות מספריות: ביחידת הזמן ה-i, התוצאה היא x_i. אלגוריתם מקוון משתמש במספרים שהתקבלו כדי לקבל החלטה b_i = b_i(x_1, \ldots, x_{i - 1}) בתחילת יחידת הזמן ה-i. לאחר שהאלגוריתם מכריז על b_i, מתבררת התוצאה x_i. נניח שישנה פונקציה P(x, b) המודדת את התועלת מהפעולה היא b של התוצאה x.

החרטה של סדרת ההחלטות b_1, b_2, \ldots, b_n יחסית לסדרת החלטות אפשרית אחרת \hat{b}_1, \hat{b}_2, \ldots, \hat{b}_n, מוגדרת כהפרש

\sum_{i = 1}^n \left[ P(x_i, \hat{b}_i) - P(x_i, b_i) \right]

.

דוגמאות[עריכת קוד מקור | עריכה]

השקעה בתיק מניות[עריכת קוד מקור | עריכה]

בשוק המניות יש m מניות. הווקטור x_i מציין את העלייה בערכי המניות ביום ה-i (למשל x_{i, j} = 2 אם המניה ה-j הכפילה את ערכה ביום i, ואילו x_{i, j} = 0 אם המניה ה-j אבדה את כל ערכה).

השקעה בשוק זה היא וקטור שבו כל איבר b_{i j} הוא החלק שנוטלת המניה ה-j מתיק ההשקעות ביום ה- i. התועלת היא קצב הצטברות הרווחים, \log(x_i \cdot b_i). נניח שאלגוריתם ההשקעה משקיע בכל יום לפי היסטוריית השוק, כלומר וקטור ההשקעה הוא b_i = b_i(x_1, \ldots, x_{i - 1}), ונשווה אותו לאלגוריתם השקעה פסיבי \hat{b}_1 = \hat{b}_2 = \cdots = \hat{b}, המשקיע כל יום לפי תיק קבוע \hat{b}. לפי הגדרות אלה, החרטה שבהשקעה לפי האלגוריתם יחסית בהשקעה הפסיבית היא \sum_{i = 1}^n \left[ \log(\hat{b} \cdot x_i) - \log(b_i \cdot x_i) \right]..

חיזוי תוצאת תנאי תוכנה[עריכת קוד מקור | עריכה]

במדעי המחשב המעשיים ישנה בעיה של חיזוי תנאי תוכנה. כאשר בתוכנה כתוב תנאי כלשהו, הפקודה הבאה שתתבצע עשויה להיות תלויה בתוצאת התנאי. מחשבים מודרניים מנסים לנחש מראש את תוצאת התנאי, כדי לטעון את הפקודות הבאות מהזיכרון. נוכל למדל זאת באופן הבא.

כל תוצאת תנאי היא x_i \in \{0, 1\}. אלגוריתם חוזה את התוצאה הבאה b_i = b_i(x_1, \ldots, x_{i - 1}) \in \{0, 1\}.

במקרה זה, נגדיר את תועלת הנחוש כ-p(x, b) = 1 - |b - x|, כלומר 1 אם הניחוש הצליח, ו-0 אם לא.

החרטה בהשוואה לסדרת ניחושים \hat{b}_1, \dots, \hat{b}_4 = 1 היא \sum_{i = 1}^n \left[ |b_i - x_i| - |\hat{b}_i - x_i|  \right]..

הגדרות נוספות[עריכת קוד מקור | עריכה]

חרטה אפשר למדוד בהשוואה לתוחלת של סדרת התוצאות (אם לתהליך X יש התפלגות המייצרת את סדרת התוצאות, החרטה היא E\left[ \sum_{i = 1}^n \left[ P(x_i, \hat{b}_i) - P(x_i, b_i) \right] \right].). אפשרות אחרת היא מדידה של התוצאה בהשוואה לסדרת התוצאות הגרועה ביותר: \max_{x_1, \ldots, x_n}\left[ \sum_{i = 1}^n \left[ P(x_i, \hat{b}_i) - P(x_i, b_i) \right] \right].

אפשרות נוספת היא להגדיר את החרטה כממוצע (בזמן) של אחד הביטויים הקודמים, דהיינו תוחלת או מקסימום של \frac{ \sum_{i = 1}^n \left[ P(x_i, \hat{b}_i) - P(x_i, b_i) \right]}{n}.

חרטה פנימית וחיצונית[עריכת קוד מקור | עריכה]

חרטה פנימית משווה את ההפסד של אלגוריתם מקוון להפסד של אלגוריתם מקוון ומותאם, שבו מוחלפת פעולה אחת באחרת באופן עקבי. חשיבות של החרטה הפנימית בתורת המשחקים טמונה בכך שבמשחק כללי אם כל שחקן ממזער את החרטה הפנימית שלו ההתפלגות האמפירית של המשחק מתכנסת לשווי משקל מתואם.

אם יש אלגוריתם לבעיית החרטה החיצונית ניתן להמירו, על ידי רדוקציה, לאלגוריתם מקוון ויעיל לבעיית החרטה הפנימית. הרדוקציה היא ממצב של מידע מלא, בו פעולה שנבחרה על ידי היריב נחשפת אחרי כל מקטע זמן, למצב של מידע חלקי, בו אחרי כל מקטע זמן ניתן לדעת רק עד כמה משתלמת הפעולה הנבחרת. רדוקציה זו אינה כרוכה בהגדלת החרטה החיצונית.

בהינתן רצף החלטות b_1, \ldots, b_n אשר כל אחת מהן יכולה לקבל m ערכים שונים, החרטה הפנימית מוגדרת כמקודם, אלא ששוקלים רק חרטה יחסית לסדרה \hat{b}_1, \ldots, \hat{b}_n הנקבעת באופן הבא. בוחרים שני סוגי פעולות i', j' \in \{1, \ldots, m\}, ומחליפים כל פעולה מסוג i' בסדרה המקורית בפעולה מסוג j'.

דוגמה: חרטה פנימית במירוץ סוסים[עריכת קוד מקור | עריכה]

באופן דומה לדוגמה בהשקעה בתיק מניות, נניח סדרת מרוצי סוסים שבכל אחד מהם יש (אותם) m סוסים. בכל מרוץ i, הווקטור x_i מציין את הניצחון: זהו וקטור שבו כל האיברים הם 0, למעט איבר יחיד שהוא 1 (האיבר המתאים לסוס הזוכה).

גם כאן נניח שהימור הוא וקטור שבו האיבר ה-j, כלומר b_{i j}, מציין את חלק ההשקעה של התיק ביום i בסוס j (כל רכיב כזה הוא לא-שלילי, וסכום הרכיבים בכל יום שווה ל1), ונגדיר את תועלת ההימור כקצב הכפלת הכסף, או \log(x_i \cdot b_i) (גם כאן זו אינה האפשרות היחידה).

החרטה הפנימית הינה

\sum_{i = 1}^n \left[ \log(\hat{b}_i \cdot x_i) - \log(b_i \cdot x_i) \right].

כאשר הסדרה \hat{b}_1, \ldots, \hat{b}_n מושגת על ידי החלפת כל הימור על סוס i' בהימור על סוס j'.

חרטה חיצונית[עריכת קוד מקור | עריכה]

בהינתן N פעולות, נתון אלגוריתם הבוחר באופן הסתברותי פעולה יחידה כל מקטע זמן. לאחר כל מקטע זמן מוצג מה הוא ההפסד בעקבות הבחירה הנ"ל. ננסה למצוא אלגוריתם אדפטיבי היכול ללמוד את דינמיקת המערכת רבת-המשתמשים.

טכניקה בסיסית של ניתוח בעיות שכאלו נקרא ניתוח החרטה וחשיבותו בכך שמאפשר, למשל, להפיק ולמכור אלגוריתם מקון, המתמודד עם מצבים של חוסר-ודאות ושל קבלת החלטות. לאלגוריתם סיבוכיות ריצה והפסד הכרוח בשימושו. ננסה להימנע מהמצב המביך בו רוכש האלגוריתם טוען שבדיעבד ניתן היה למזער את ההפסד על ידי שימוש במדיניות חלופית π. החרטה של האלגוריתם המקוון שמכרנו הוא ההפרש בין ההפסד של האלגוריתם הנ"ל לבין ההפסד בעת השימוש באלגוריתם לאחר נקיטת מדיניות π.

קטגוריה אחת למדיניות אלטרנטיבית פשוטה היא לנקוט באותה פעולה בכל מקטע זמן, בכך החרטה החיצונית מספקת מתודולוגיה כללית לפיתוח אלגוריתמים לא מקוונים (offline), סטאטיים ואופטימאליים (וזאת על ידי מיפוי פתרונות סטאטיים כפעולות שונות).

קטגוריה שנייה למדיניות חלופית היא זו המציעה שינוי פשוט לסדרת הפעולות המקוונות לפי חוק התאמה.החרטה החלופית מאפשרת לשנות את סדרת הפעולות המקוונת על ידי החלפת פעולה i לפעולה j. ההבדל בין החרטה החלופית לחרטה הפנימית היא שמדיניות החרטה הפנימית היא שניתן להחליף פעולה אחת בפעולה אחרת בעוד חרטה חלופית מאפשרת להחליף אוסף של N פעולות ב-N פעולות אחרות. החרטה החלופית חסומה על ידי O(\sqrt T \cdot N \cdot log(N)) כאשר T הוא מספר מקטעי הזמן.

שו"מ מתואם הינו התפלגות Q על פני מרחב הפעולות כך שלכל שחקן אין חרטות פנימיות.

מזעור חרטה חיצונית[עריכת קוד מקור | עריכה]

למזעור החרטה החיצונית יש השלכה חשובה בתחום בעיות הניתוב: אם כל שחקן ממזער את החרטה החיצונית שלו, מובטח כי התנועה הכוללת תתכנס בקירוב לשיווי משקל נאש. במצבים רבים יש צורך לקבל החלטות חוזרות בתנאי סביבה של אי־וודאות כמו, למשל, בבחירת הדרך לנסיעה לעבודה או בביצוע משחק חוזר נגד יריב שהאסטרטגיה שלו אינה ידועה. בהקשר זה יש אלגוריתמים לומדים, המסגלים את עצמם למצב ומניבים תוצאה טובה כמעט באותה מידה בהשוואה למצב בו ההחלטות מבוצעות בדיעבד, וזאת על ידי מזעור החרטה החיצונית.‏[1]

מודל[עריכת קוד מקור | עריכה]

נניח מודל מקוון בו N פעולות אפשריות: {X = {1,…,N. בכל מקטע זמן t אלגוריתם מקוון H בוחר התפלגות p^t מעל N הפעולות, לאחר-מכן היריב בוחר וקטור הפסד l^t \in [0,1]^N כאשר l^t_i \in [0,1] הוא ההפסד בפעולה ה-i-ית במקטע ה-t. במודל האינפורמציה המלאה האלגוריתם H מקבל את וקטור ההפסד l^t ומחשב את (l^t)_H = \sum_{i=1}^N p^t_i  \cdot l^t_i. במודל האינפורמציה החלקית האלגוריתם המקון מקבל (l^t, k^t) כאשר k^t מפולג לפי p^t ו-l^t_H = l^t_(k^t_) הוא ההפסד. ההפסד של הפעולה ה-i-ית במקטע הזמן T הוא L^T_i = \sum_{i=1}^T l^t_i וההפסד של האלגוריתם ה-H הוא L^T_H = \sum_{i=1}^T l^t_H. נגדיר את החרטה החיצונית באופן שתהיה האפשרות לבחור מבין אוסף אלגוריתמים A, הנקראת קבוצת הכיווץ, את האלגוריתם עם הביצועים הטובים ביותר כך שההפסד יהיה: L^T_A,min = \min L^T_a כאשר a \in A.


נרצה למזער את החרטה החיצונית R_A = L^T_H - L^T_A,min. בהינתן A = X וגם R = L^T_H - L^T,min, נחפש את האלגוריתם המקוון שהפסדו קרוב ל- L^T,min = \min _i L^T_i.

חרטה חיצונית משתמשת בקבוצת כיווץ A קבועה. נתייחס לחוקי ההתאמה כפעולות המשנות את הפעולות שנבחרו על ידי האלגוריתם המקוון. על ידי השינוי הנ"ל מתקבלת אסטרטגיה חלופית בה נרצה להשתמש כנגד היריב.

לחוק ההתאמה F מקבל כקלט את היסטוריית הבחירות ואת הבחירה הנוכחית שבוצעה על ידי האלגוריתם המקוון ומחזיר כפלט פעולה אופציונלית. נסמן ב- F^T את הפונקציה F בזמן t, כולל תלות בהיסטוריה.

בהינתן אוסף התפלגויות הסתברותיות p^t (בהן נעשה שימוש באלגוריתם המקוון H) וחוק ההתאמה F נגדיר סדרה חדשה של התפלגויות הסתברותיות f^t = F^t(p^t) כאשר f^t_i = \sum _i p^t_i כאשר j:F^t(j)=i. ההפסד של הסדרה המתואמת הוא L_H,_F = \sum _t \sum _i f^t_i \cdot l^t_i. חוק ההתאמה F מניב התפלגויות שונות.

בהינתן קבוצת חוקים סופית וחסרת זיכרון (=שאינה תלויה בהיסטוריה) Ғ ואוסף וקטורי הפסד, החרטה של האלגוריתם המקוון H הינה: R_F = \max L^T_H - L^T_h,_F כאשר ҒF \in .

ראו גם[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ במשחק סכום אפס אלגוריתם מעין זה מניב את ערך המינימקס של המשחק