דילמת האסיר

דילמת האסיר (אנגלית: Prisoner's dilemma) היא בעיה פרדוקסלית בתורת המשחקים, שפורסמה בשנת 1950 על ידי מריל פלאד (אנ') ומלווין דרשר (אנ') מ"תאגיד ראנד" בארצות הברית, לפיה במצב שבו שני אנשים אינם יכולים לתאם ביניהם, יש שלושה מצבים: הראשון - אם שניהם יבטחו זה בזה, אזי הם יצליחו במידת מה. השני - אם הם יבגדו זה בזה, אז שניהם ייענשו במידת מה. השלישי - אם האחד יאמין והשני יבגוד, אז הבוגד יזכה בכל והאחר יענש בחומרה. הדילמה מדגימה מצב בו התנהגות רציונלית לחלוטין, מנקודת מבטו של הפרט, תוביל לתוצאה שאינה אופטימלית לצמד, כלומר אינה יעילה פארטו. בשל פשטותה, משמשת הדילמה כדוגמה קלאסית לבעיות בהן עוסקת תורת המשחקים.

הדילמה הבסיסית[עריכת קוד מקור | עריכה]

גרסה נפוצה לבעיה זו: המשטרה עצרה שני עבריינים שביצעו פשע משותף, ומפרידה ביניהם לצורך חקירה. אם תצליח המשטרה להביא להרשעתם, ייכנס כל אחד מהם לכלא ל-15 שנה, אך בחוסר ראיות הם יועמדו לדין על עבירה משנית שבגינה ייכנס כל אחד מהם לכלא לשנה אחת. למשטרה אין די ראיות להעמידם לדין, ולכן היא מציעה לכל אחד מהם להעיד נגד רעהו, וכפרס מובטח לעד עונש מופחת: אם שני האסירים יקבלו את הצעת המשטרה, ייכנס כל אחד מהם לכלא לחמש שנים, ואם רק אחד מהם יעיד ורעהו ישתוק, העד יצא מיד לחופשי וחברו ייכלא ל-15 שנה. ניתן לסכם סיטואציה זו בטבלה הבאה, שמסכמת את העונשים שייגזרו על אסיר א (אדום) ואסיר ב (כחול) בהתאם לפעולתם:

		אסיר ב
		שותק	מלשין
אסיר א	שותק	שנה אחת, שנה אחת	15 שנה, אפס שנים
אסיר א	מלשין	אפס שנים, 15 שנה	חמש שנים, חמש שנים

כל העובדות הללו ידועות לשני האסירים, אך אין באפשרותם לתקשר האחד עם השני. הדילמה שעומדת בפני כל אחד מהם היא "איזו טקטיקה לנקוט - לשתוק או להעיד?". אסיר א' מסתכל בטבלה וחושב: "בלי תלות בטקטיקה שבה יבחר ב', כדאי לי להעיד, משום שבכל מקרה אם אעיד, עונשי יהיה קטן מאשר אם אשתוק" ולפיכך "הודאה" היא אסטרטגיה שלטת עבורו. גם אסיר ב' מנתח את המצב בצורה דומה. החלטה רציונלית של שניהם מובילה לכך ששניהם בוחרים להעיד, ונכנסים לכלא לחמש שנים. אילו שתקו שניהם, היה כל אחד מהם נכנס לכלא לשנה בלבד.

הפרדוקסליות שבדילמה נובעת מכך שהחלטה רציונלית מביאה לתוצאה שאינה הטובה ביותר. כדי להגיע לתוצאה הטובה ביותר עבור שניהם נדרשים השחקנים לשיתוף פעולה (קרי, שתיקה של שניהם), אך מכיוון שדרך הפעולה המשתלמת יותר לכל שחקן לבדו היא תמיד לא לשתף פעולה (כלומר, להעיד), בוחר כל אחד מהשחקנים לא לשתף פעולה.

גם אם יוכלו האסירים לתקשר זה עם זה, כל עוד אין הם חותמים על הסכם מחייב, שמבטיח שהחותמים עליו ינהגו בהתאם להצהרתם, דרך הפעולה הרציונלית ממשיכה להיות הלשנה הדדית. רק הסכם שהפרתו גוררת סנקציה שתהווה משקל נגד לרווח שבבגידה יבטיח שיתוף פעולה הדדי.

הדילמה ממחישה מצב שאינו נדיר, לפיו שיתוף פעולה יביא תועלת רבה יותר לשני הצדדים מאשר גישה שבה כל צד פועל על דעת עצמו. להלן מספר דוגמאות אקטואליות לנושא זה:

במדע המדינה משמשת דילמת האסיר להמחשת מצב שבו שתי מדינות נכנסות למרוץ חימוש (ובעיקר מרוץ לחימוש גרעיני). לכל מדינה יש שתי אפשרויות: להגדיל את תקציב הביטחון שלה או להגיע להסכם עם יריבתה לפירוק החימוש. בכל מדינה מקנן החשש שיריבתה תפר את ההסכם, ולכן כל אחת מהן נוטה לכיוון של מרוץ חימוש. כל מדינה נראית כפועלת באופן רציונלי, אך התוצאה היא בלתי רציונלית בעליל. דוגמה למרוץ חימוש מסוג זה הוא המלחמה הקרה.
בתחום הכלכלה, ניתן להוכיח, שכאשר הריבית הנומינלית במשק גדולה מ-0, וכל גורם במשק דואג רק לטובת עצמו, התוצאות עבור המשק כולו אינן אופטימליות. פתרון אפשרי לבעיה זו הוא להוריד את שער הריבית ל-0^[1].
דוגמה כללית מספרו של ויליאם פאונדסטון (אנ'): תארו לעצמכם מצב בו אין אכיפה על תשלום ברכבות. תמיד משתלם לנוסעים לא לשלם (כלומר גם אם השאר בוחרים לשלם או "לגנוב" נסיעות), אך מצב זה יוביל לפשיטת רגל וסגירת הרכבת, בעוד שעדיף לכל אחד לשלם כדי לשמור על קיומה של הרכבת.

דילמת האסיר האיטרטיבית[עריכת קוד מקור | עריכה]

כאשר ההחלטה שעל האסירים לקבל אינה חד-פעמית, כמו בדוגמה לעיל, אלא יש להם הזדמנות לחזור על ה"משחק" פעמים רבות, האסירים עשויים לנהוג אחרת, ואף לנקוט באסטרטגיה בה היו נוקטים לו היו משתפים פעולה, לצורך קבלת תוצאה טובה יותר מבחינתם. חזרה על הדילמה או במילים אחרות דילמת אסיר איטרטיבית (כלומר כזו שחוזרת על עצמה שוב ושוב), משמשת בסיס למחקרים פסיכולוגיים רבים, שבהם נבחנה התנהגותם של המשתתפים בדגם זה של ה"משחק".

אחד הניסויים המפורסמים בתחום זה הוא הניסוי שערך רוברט אקסלרוד מאוניברסיטת אן ארבור במישיגן. בניסוי זה התבקשו מומחים ממגוון דיסציפלינות (כלכלה, פסיכולוגיה, מדע המדינה, ביולוגיה, מדעי המחשב ועוד) לשלוח תוכניות מחשב שישחקו זו נגד זו בדילמת אסיר איטרטיבית במשך 200 משחקים לכל זוג תוכניות. התוכנית שתוכרז כזוכה היא זו שתזכה ברווח המצטבר הגבוה ביותר בכל 200 המשחקים.
תוכניות אלה נקטו באסטרטגיות שונות כדי להשיג מטרה זו, ובהן:

בגידה קבועה: ללא תלות במשחקים קודמים, תוכנית זו בגדה תמיד.
שיתוף פעולה קבוע: ללא תלות במשחקים קודמים, תוכנית זו שיתפה פעולה תמיד.
אקראית: התוכנית בוחרת בבגידה או בשיתוף פעולה באופן אקראי.
מידה כנגד מידה (Tit For Tat): במשחק הראשון התוכנית שיתפה פעולה, ובכל משחק אחר בחרה בדרך שבה בחר היריב במשחק הקודם.
אסטרטגיות אחרות, מורכבות יותר.

בטורניר שערך אקסלרוד השיגה מידה כנגד מידה את התוצאה הטובה ביותר. גם בטורנירים נוספים שנערכו, לאחר שנודעו תוצאות הטורניר הראשון, עדיין השיגה אסטרטגיה זו את הניקוד הגבוה ביותר. לעומת זאת, תוכניות שהיו בנויות על אסטרטגיות תוקפניות הגיעו להישגים נמוכים. הצלחתה של אסטרטגיה מסוימת תלויה באסטרטגיות האחרות. משמע - לו היו התוכניות שנשלחו לטורניר שונות, לא הייתה מידה כנגד מידה זוכה בטורניר. לא ניתן לכתוב תוכנה או אסטרטגיה שתזכה מול כל אסטרטגיה אחרת.

בתנאים מסוימים ההחלטה הרציונלית היא דווקא לשתף פעולה ולא לבגוד. תנאי יסוד הוא אכיפה של עונש. אכיפה מתקבלת באמצעות קיום משחקים חוזרים אינסופיים או בעלי אופק אירועים לא ידוע, דבר השקול לאופק אין סופי. משום שאם מספר המשחקים ידוע, במשחק שלפני האחרון כדאי לבגוד ואז ניתן להוכיח באינדוקציה לאחור שכדאי לבגוד מהמשחק הראשון: הרי במשחק האחרון שני הצדדים יבגדו, אין יותר למה לשתף פעולה. אם כך גם באחד-לפני-האחרון, כי גם אז אין למה לשתף פעולה (הרי באחרון בכל מקרה שניהם יבגדו) וכך הלאה עד למשחק הראשון. לשם אכיפה צריכים להתקיים תנאים כאלה שהסיכוי למפגש חוזר גבוה מספיק וכן שישנו עונש. העונש גם צריך להיות גבוה מהרווח של הבגידה. בתחומים ביולוגיים, כגון התנהגות בעלי חיים, ניתן לצפות לקיומם של תנאים אלה במקרים רבים ואז ההעדפה היא לשיתוף פעולה על-פני אי שיתוף, מסיבות רציונליות. כאשר ציפור פולה את נוצות חברתה כדי לסלק טפיל (ממקומות שהציפור השנייה אינה יכולה לגשת בעצמה, כגון פדחת הראש), עושה היא זאת כדי לקבל אותו הטיפול בעת צרה. אומנם, "עלות" פליית פדחת הציפור השותפה איננה גדולה, בהשוואה לתועלת שבסילוק טפיל, אבל אין היא זניחה לחלוטין, משום שהסילוק כרוך בהוצאת זמן ואנרגיה.

דילמת האסיר האיטרטיבית נתגלתה כיעילה לצורך בניית מודלים וסימולציות המתארות קבלת החלטות הקשורות למאזן האימה הגרעיני, וכמו כן לניתוח אופן הפעולה של מערכות מוניטין המשמשות באתרי מכירות פומביות ומסחר אלקטרוני.

דילמת האסיר האבולוציונית[עריכת קוד מקור | עריכה]

אחד מתחומי המחקר הפעילים ביותר בדילמת האסיר עוסק בגרסאות אבולוציוניות של המשחק^[2]. העניין בתחום נובע מכך שרבים מהקונפליקטים בחברה ובטבע תואמים את המודל של דילמת האסיר, כפי שאפשר להיווכח מהדוגמאות שהובאו לעיל. לכן ההנחה היא שמחקר אבולוציוני של דילמת האסיר עשוי לעזור לנו להבין את ההתפתחות הספונטנית של שיתוף פעולה בחברה ובטבע. המחקרים בנושא מתייחסים לשאלות כגון עד כמה התפתחות ספונטנית כזו אפשרית, אילו תבניות של שיתוף פעולה היינו מצפים לראות, ואיך משפיעים תנאי רעש ואי-וודאות.

הסכֶמה הכללית של דילמת האסיר האבולוציונית היא סימולציה של משחק איטרטיבי, בו אוכלוסיית שחקנים בעלי אסטרטגיות שונות משחקת בינה לבין עצמה. בכל צעד של הסימולציה מתקיימים משחקים בין זוגות שחקנים, כאשר תוצאות המשחקים משפיעות על הרכב האוכלוסייה בצעד הבא: חלקו היחסי של כל שחקן (אסטרטגיה) באוכלוסייה גדל או קטן בהתאם למידת ההצלחה שלו במשחקים האחרונים. במשחק איטרטיבי כזה, אסטרטגיות לא יציבות אבולוציונית צפויות להכחד, ואסטרטגיות יציבות צפויות לשגשג. הסכֶמה כוללת בדרך-כלל גם אקראיות, הנחוצה הן כדי להתאים לתנאים המציאותיים בטבע, והן כדי להימנע מתלות גדולה מדי בתנאי ההתחלה השרירותיים של הסימולציה. האקראיות עשויה להתבטא בהגרלת השחקנים המתמודדים זה מול זה בכל צעד, ובסיכוי קטן ל"מוטציה" (תשנית) באוכלוסייה, שמשמעותה הכנסת אסטרטגיות חדשות לאוכלוסייה בכל צעד בהסתברות קטנה. לעיתים נעשה שימוש גם באופרטורים גנטיים נוספים, כגון שחלוף (באינטרפרטציה המתאימה לסימולציה).

אחת הסימולציות הראשונות נערכה על ידי רוברט אקסלרוד במהלך שנות השמונים^[3], והתוצאות היו מובהקות לטובת מידה כנגד מידה: לאחר כאלף "דורות" של ריצת הסימולציה מידה כנגד מידה הייתה האסטרטגיה הדומיננטית באוכלוסייה, וגם זו שגדלה בקצב המהיר ביותר. כאמור, אקסלרוד הוא גם זה שערך את הטורניר בין תוכניות המחשב, שגם בו ניצחה אותה אסטרטגיה.

הסימולציה של אקסלרוד כללה יחסית מעט אסטרטגיות, ולא כללה תנאי רעש. בתחילת שנות התשעים שני חוקרים, מרטין נוואק (אנ') וקארל סיגמונד (אנ'), פרסמו תוצאות של סימולציות בתנאים יותר מציאותיים שכללו גם רעש ומוטציות. מהסימולציות האלה עלה שהאסטרטגיה היציבה ביותר היא מידה תחת מידה סלחנית (Generous Tit-for-Tat, ובקיצור GTfT או גם Forgiving Tit For Tat ובקיצור FTfT), שבסיכוי מסוים מגיבה בשיתוף פעולה גם על בגידה של היריב בצעד הקודם^[4]. ה"סלחנות" הזו מאפשרת ל-GTFT להתגבר על מצבים שבהם מידה כנגד מידה הייתה עשויה להיכנס לשרשרת של בגידות הדדיות, כתוצאה מהרעש (שאולי ניתן לפרש כאן כ"אי הבנה").

אלא שגם סימולציות אלה היו פשטניות יחסית, משום שהן כללו רק אסטרטגיות שפעלו רק בהתאם לפעולה האחרונה של היריב. לכן בהמשך עבודתם^[5], נוואק וסיגמונד שכללו את הסימולציות שלהם, כך שהן כללו אסטרטגיות שפעלו בהתאם לפעולה האחרונה של היריב ושל עצמן, או בהצגה אחרת, בהתאם לרווח האחרון שהתקבל. אסטרטגיות כאלה ניתנות לתיאור כווקטור ארבע-ממדי, $\left[R,S,T,P\right]$ , המייצג את ההסתברויות לשיתוף פעולה בהינתן שיתוף פעולה הדדי בצעד הקודם (Reward), שיתוף פעולה חד-צדדי שלי (Sucker), בגידה חד-צדדית שלי (Temptation), או בגידה הדדית (Punishment). המונחים בסוגריים הם המונחים המקובלים בספרות. בהצגה הזו, "תמיד בגידה" היא $\left[0,0,0,0\right]$ , מידה כנגד מידה היא $\left[1,0,1,0\right]$ , ומידה כנגד מידה סלחנית היא, למשל, $\left[1,0.3,1,0.3\right]$ . בסימולציות על מרחב האסטרטגיות הזה התקבלו תוצאות מפתיעות: לאחר 10 מיליון דורות, ביותר מ-80 אחוז מהסימולציות שלטה האסטרטגיה $\left[1,0,0,1\right]$ , אותה כינו החוקרים "פבלוב" (Pavlov) על שום התנהגותה הדומה להתניה פבלובית: כאשר היא מקבלת את אחת מהתשואות הנמוכות היא משנה את התנהגותה, וכאשר היא מקבלת את אחת מהתשואות הגבוהות היא נשארת עם אותה התנהגות. רק אחוז קטן מהסימולציות הסתיימו עם דומיננטיות של GTFT.

לאחר מכן פורסמו תוצאות נוספות בתחום, הן על ידי נוואק וסיגמונד והן על ידי חוקרים נוספים. בעבודות אלה הסתבר שישנם הבדלים לא זניחים באופי האסטרטגיות היציבות המתקבלות עבור ואריאציות שונות של סימולציות (קריטריונים מעט שונים ליציבות אבולוציונית, או אסטרטגיות דטרמיניסטיות לעומת הסתברותיות).

חרף ההבדלים באסטרטגיות היציבות שהתקבלו במחקרים השונים, אפיון משותף שלהם הוא שבסופו של דבר הסימולציות מתכנסות למצב שבו רוב הפעולות של השחקנים הן שיתוף פעולה. תכונה זו מתקיימת, למשל, גם כאשר האסטרטגיה השלטת היא "פבלוב" וגם כאשר היא מידה-כנגד-מידה או GTFT. אלא שההתכנסות לשיתוף-פעולה נובעת מתכונה מאוד לא טבעית של הסימולציות: בכל עימות השחקנים הם שווי-כוחות (מטריצת התשלום שלהם זהה), וכך נוצר ביניהם מאזן אימה. במציאות כמעט בכל עימות קיימת אסימטריה בין השחקנים, כך שהשחקן החזק יותר יכול "להעניש" באופן משמעותי יותר את יריבו. ב-2007 הראו חוקרים ממכון מקס פלאנק שניסויים בדילמת האסיר האסימטרית נותנים אחוז משמעותית נמוך יותר של שיתופי פעולה, וגם כאשר יש התכנסות למצב של שיתוף פעולה הדדי, מצב זה הרבה פחות יציב מאשר במשחק הסימטרי^[6].

דילמת האסיר מרובת-משתתפים[עריכת קוד מקור | עריכה]

ערך מורחב – דילמת הסועדים

דילמת האסיר כפי שהוצגה עד כה מיועדת לשני שחקנים בלבד. אולם יש אפשרות להרחיב אותה ליותר משחקן אחד: מספר שחקנים, שלכל אחד מהם אפשרות בחירה בין שתי אפשרויות כאשר אחת מהן בהכרח מביאה תוצאה טובה יותר לשחקן שבחר בה, אך ככל שאנשים רבים יותר בוחרים בה, המצב נהיה גרוע יותר עבור כלל השחקנים. דוגמה לדילמה כזאת היא דילמת הסועדים: כל אחד יכול להזמין מנה זולה או יקרה, כך שככל שיותר אנשים בוחרים מנה יקרה, ככה המחיר לסועד עולה, עד שעלול להיווצר מצב שכולם משלמים מחיר גבוה למנה יקרה אף על פי שזהו מצב גרוע יותר מאשר כשכולם מזמינים מנה זולה. מקרה אחר הוא השתמטות ממס: אנשים רבים בוחרים להשתמט מתשלום מסים, אף על פי שאם כולם היו משלמים זה היה מאפשר להוריד את גובה המיסים. במקרה זה נוסף גם אלמנט של פרדוקס הערימה: אין אדם שהשתמטותו מעלה את גובה המיסים, אך כאשר אנשים רבים משתמטים גובה המיסים עולה.

הבסה עצמית של הנחות הרציונליות[עריכת קוד מקור | עריכה]

יש מי שהשתמשו בתצפיות מסוג דילמת האסיר, בהם האסטרטגיה הדומיננטית והרציונלית היא לא לשתף פעולה, כדי לטעון שהנחות הרציונליות מביסות את עצמן. הטיעון נעשה באמצעות אינדוקציה על מספר המשחקים החוזרים. תחת מספר הנחות, דרך אחת של שחקן לבחון האם הוא רציונלי היא לערער על התנהגותו הקיימת ולפעול באופן אחר. בדילמת אסיר חוזרת באורך נתון, למשל, שחקן 1 עשוי להסיק שאם ינהג לפי אסטרטגיה "לא רציונלית" של מידה כנגד מידה למשל, השחקן השני יגיב באופן רציונלי בשיתוף פעולה הדדי כמעט בכל הסיבובים. כך, הנחת הרציונליות מראה שאנחנו מצדדים בכך ששחקן 1 גם ימשיך לא לשתף פעולה וגם לא ייבנה מכך. לטענת אותם כותבים, מכאן עולה שההנחות הסטנדרטיות לגבי רציונליות אינן עקביות וכי הן מביסות את עצמן. (ראו גם Skyrms, Brian, 1990, The Dynamics of Rational Deliberation, Cambridge, MA: Harvard University Press, pp 125-139, Bicchieri, Cristina, 1989, “Self-refuting Theories of Strategic Interaction,” Erkenntinis, 30: 69–85.)