AlphaGo Zero

**אלפא גו זירו**
**AlphaGo Zero**
מפתח	DeepMind
מחזור חיים	19 באוקטובר 2017 – הווה (6 שנים ו־26 שבועות)

AlphaGo Zero היא גרסה מתקדמת של תוכנת AlphaGo למשחק הגו שפותחה על ידי חברת DeepMind. בשונה מגרסאות קודמות, AlphaGo Zero אומנה ללא שימוש בנתוני משחקים של בני אדם, והצליחה להגיע לרמה גבוהה יותר מכל גרסה קודמת.

במאמר שפורסם בכתב העת Nature באוקטובר 2017, תיאר הצוות של DeepMind את תהליך האימון שעברה AlphaGo Zero: בשלושת הימים הראשונים היא הפסידה 100 משחקים לעצמה, ולאחר 21 יום הגיעה לרמת המשחק של AlphaGo Master. תוך 40 ימים נוספים היא עברה כל גרסה קודמת של AlphaGo.^[1]

שיטת האימון העצמי הזו, ללא נתוני משחקים אנושיים, יכולה להוביל לפריצות דרך בפיתוח בינה מלאכותית עם יכולות על-אנושיות. מייסד DeepMind, דמיס הסביס, אמר שמה שהוכיחה AlphaGo Zero שהיא אינה מוגבלת עוד על ידי הידע האנושי.

בהמשך פותחה גרסה כללית יותר, AlphaZero, שמסוגלת לשחק גם שחמט ושוגי ברמה גבוהה. AlphaZero הצליחה לנצח גרסאות קודמות של AlphaGo, וכן תוכנות מובילות בשחמט ובשוגי.

היכולת לאמן בינה מלאכותית ללא נתונים אנושיים עשויה להוביל להתקדמות משמעותית בתחום.

אימון המודל[עריכת קוד מקור | עריכה]

הרשת העצבית של AlphaGo Zero אומנה באמצעות TensorFlow, עם 64 מעבדי GPU ו-19 שרתי פרמטרים של CPU. רק ארבעה TPU שימשו להסקת המסקנות.

בתחילה, הרשת העצבית לא ידעה דבר על המשחק מעבר לכללים הבסיסיים. בניגוד לגרסאות קודמות של AlphaGo, Zero קיבל את המידע הבסיסי של האבנים על הלוח, ולא היו לו כמה מקרים נדירים מתוכנתים על ידי אדם כדי לעזור לזהות עמדות יוצאות דופן של לוח Go. הבינה המלאכותית עבדה עם למידת מכונה מסוג למידת חיזוק, וכך היא שיחקה נגד עצמה ולמדה מכישלונות עד שהצליחה להבין איך המהלכים שהיא ביצעה השפיעו על תוצאות המשחק.^[2] בשלושת הימים הראשונים AlphaGo Zero שיחק 4.9 מיליון משחקים מול עצמה ברצף מהיר.^[3] ונראה שהוא פיתח את הכישורים הנדרשים כדי לנצח את בני האדם המובילים בתוך ימים ספורים בלבד, בעוד שה-AlphaGo המוקדם יותר לקח חודשים של אימונים כדי להגיע לאותה רמה.^[4]

לשם השוואה, החוקרים הכשירו גם גרסה של AlphaGo Zero באמצעות משחקים אנושיים, AlphaGo Master, וגילו שהיא למדה מהר יותר, אך למעשה תפקדה באופן פחות טוב לטווח הארוך. DeepMind פרסמה את הממצאים הראשוניים שלה במאמר ל-Nature באוקטובר 2017.^[5]

עלות חומרה[עריכת קוד מקור | עריכה]

עלות החומרה עבור מערכת AlphaGo Zero יחידה בשנת 2017, כולל ארבעת ה-TPU, הוערכה בסכום של 25 מיליון דולר.^[6]

יישומים[עריכת קוד מקור | עריכה]

לפי חסביס, האלגוריתמים של AlphaGo עשויים להועיל ביותר לתחומים הדורשים חיפוש מושכל דרך מרחב עצום של אפשרויות, כמו קיפול חלבון או הדמיה מדויקת של תגובות כימיות.^[7] הטכניקות של AlphaGo כנראה פחות שימושיות בתחומים שקשה לדמות, כמו לימוד נהיגה במכונית.^[8] DeepMind הצהירה באוקטובר 2017 כי היא כבר החלה בעבודה אקטיבית על ניסיון להשתמש בטכנולוגיית AlphaGo Zero לקיפול חלבון, והצהירה כי בקרוב תפרסם ממצאים חדשים.^[9]^[10]

קבלה[עריכת קוד מקור | עריכה]

AlphaGo Zero נחשבה באופן נרחב כמקדמה משמעותית, גם בהשוואה לקודמו פורץ הדרך, AlphaGo. אורן עציוני ממכון אלן לבינה מלאכותית כינה את AlphaGo Zero "תוצאה טכנית מרשימה מאוד" וציין כי "גם היכולת שלהם לעשות זאת וגם היכולת שלהם לאמן את המערכת תוך 40 יום, על ארבעה TPU". ה"גרדיאן" כינה זאת "פריצת דרך גדולה לבינה מלאכותית", תוך ציטוט של אלני ואסילאקי מאוניברסיטת שפילד וטום מיטשל מאוניברסיטת קרנגי מלון, שכינו זאת הישג מרשים ו"הישג הנדסי יוצא דופן" בהתאמה. מארק פסה מאוניברסיטת סידני כינה את AlphaGo Zero "התקדמות טכנולוגית גדולה" שלוקחת אותנו ל"טריטוריה שלא התגלתה".^[11]

בתגובה לדיווחים על ביצועי המערכת, אמר המאמן גו הדרום קוריאני של לי סידול, "הגרסה הקודמת של AlphaGo לא הייתה מושלמת, ואני מאמין שבגלל זה נוצרה AlphaGo Zero". לגבי פוטנציאל הפיתוח של AlphaGo, לי אמר שהוא יצטרך לחכות ולראות אבל גם אמר שזה ישפיע על שחקני גו צעירים"

השוואה לתוכנות קודמות[עריכת קוד מקור | עריכה]

תצורה וחוזק^[12]
גרסאות	משחק חומרה^[13]	מד כושר	התאמות
AlphaGo fan	176 GPUs	3,144	5:0 מול פאן הואי
AlphaGo Lee	48 TPU	3,739	4:1 מול לי סידול
אלפאגו מאסטר	4 TPU, מכונה בודדת	4,858	60:0 מול שחקנים מקצועיים; Future of Go Summit
AlphaGo Zero (40 days)	4 TPU, מכונה בודדת	5,185	100:0 מול אלפאגו לי 89:11 מול אלפאגו מאסטר
AlphaZero (34 hours)	4 TPUs, מכונה אחת	4,430 (הערכה)	60:40 מול AlphaGo Zero של 3 ימים

AlphaZero[עריכת קוד מקור | עריכה]

ב-5 בדצמבר 2017, צוות DeepMind פרסם הדפסה מקדימה ב-arXiv, והציג את AlphaZero, תוכנית המשתמשת בגישה המוכללת של AlphaGo Zero, שהשיגה תוך 24 שעות רמה על-אנושית של משחק בשחמט, שוגי ו-Go, תוך ניצחון על תוכניות אלופי העולם, Stockfish, Elmo.

AlphaZero (AZ) הוא גרסה כללית יותר של אלגוריתם AlphaGo Zero (AGZ), והוא מסוגל לשחק שוגי ושחמט כמו גם Go. ההבדלים בין AZ ל-AGZ כוללים:

ל-AZ יש כללים מקודדים להגדרת היפרפרמטרים של חיפוש.
הרשת העצבית מתעדכנת כל הזמן.
שחמט (בניגוד לגו) יכול להסתיים בתיקו; לכן AZ יכולה לקחת בחשבון את האפשרות של משחק שוויון.

ישנה תוכנת קוד פתוח, Leela Zero, המבוססת על הרעיונות מהעיתונים של AlphaGo. הוא משתמש ב-GPU במקום ב-TPU שהגרסאות האחרונות של AlphaGo מסתמכות עליהן.

קישורים חיצוניים[עריכת קוד מקור | עריכה]

AlphaGo Zero Games

הערות שוליים[עריכת קוד מקור | עריכה]

^ Why DeepMind AlphaGo Zero is a game changer for AI research | Packt Hub, Packt Hub, ‏9 במאי 2019
^ AI versus AI: Self-Taught AlphaGo Zero Vanquishes Its Predecessor
^ Merrit Kennedy, Computer Learns To Play Go At Superhuman Levels 'Without Human Knowledge', NPR, ‏18 באוקטובר 2017
^ David Meyer, Google’s New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone, Fortune, ‏19 באוקטובר 2017
^ "This computer program can beat humans at Go—with no human instruction". Science | AAAS (באנגלית). 18 באוקטובר 2017. ארכיון מ-2 בפברואר 2022. נבדק ב-20 באוקטובר 2017. {{cite news}}: (עזרה)
^ Gibney, Elizabeth (18 באוקטובר 2017). "Self-taught AI is best yet at strategy game Go". Nature News (באנגלית). doi:10.1038/nature.2017.22858. ארכיון מ-1 במאי 2020. נבדק ב-10 במאי 2020. {{cite news}}: (עזרה)
^ "The latest AI can work things out without being taught". The Economist (באנגלית). ארכיון מ-19 באוקטובר 2017. נבדק ב-20 באוקטובר 2017. {{cite news}}: (עזרה)
^ Ian Sample, 'It's able to create knowledge itself': Google unveils AI that learns on its own, The Guardian, ‏18 באוקטובר 2017
^ "'It's able to create knowledge itself': Google unveils AI that learns on its own". The Guardian. 18 באוקטובר 2017. ארכיון מ-19 באוקטובר 2017. נבדק ב-26 בדצמבר 2017. {{cite news}}: (עזרה)
^ Sarah Knapton, ‏AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days, The Telegraph, 18 October 2017
^ "How Google's new AI can teach itself to beat you at the most complex games". Australian Broadcasting Corporation (בAustralian English). 19 באוקטובר 2017. ארכיון מ-20 באוקטובר 2017. נבדק ב-20 באוקטובר 2017. {{cite news}}: (עזרה)
^ "【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解" (בסינית). Sohu. 24 במאי 2017. ארכיון מ-17 בספטמבר 2017. נבדק ב-1 ביוני 2017. {{cite web}}: (עזרה)
^ Hardware used during training may be substantially more powerful

[1] Why DeepMind AlphaGo Zero is a game changer for AI research | Packt Hub, Packt Hub, ‏9 במאי 2019

[2] AI versus AI: Self-Taught AlphaGo Zero Vanquishes Its Predecessor

[3] Merrit Kennedy, Computer Learns To Play Go At Superhuman Levels 'Without Human Knowledge', NPR, ‏18 באוקטובר 2017

[4] David Meyer, Google’s New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone, Fortune, ‏19 באוקטובר 2017

[5] "This computer program can beat humans at Go—with no human instruction". Science | AAAS (באנגלית). 18 באוקטובר 2017. ארכיון מ-2 בפברואר 2022. נבדק ב-20 באוקטובר 2017. {{cite news}}: (עזרה)

[6] Gibney, Elizabeth (18 באוקטובר 2017). "Self-taught AI is best yet at strategy game Go". Nature News (באנגלית). doi:10.1038/nature.2017.22858. ארכיון מ-1 במאי 2020. נבדק ב-10 במאי 2020. {{cite news}}: (עזרה)

[7] "The latest AI can work things out without being taught". The Economist (באנגלית). ארכיון מ-19 באוקטובר 2017. נבדק ב-20 באוקטובר 2017. {{cite news}}: (עזרה)

[8] Ian Sample, 'It's able to create knowledge itself': Google unveils AI that learns on its own, The Guardian, ‏18 באוקטובר 2017

[9] "'It's able to create knowledge itself': Google unveils AI that learns on its own". The Guardian. 18 באוקטובר 2017. ארכיון מ-19 באוקטובר 2017. נבדק ב-26 בדצמבר 2017. {{cite news}}: (עזרה)

[10] Sarah Knapton, ‏AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days, The Telegraph, 18 October 2017

[11] "How Google's new AI can teach itself to beat you at the most complex games". Australian Broadcasting Corporation (בAustralian English). 19 באוקטובר 2017. ארכיון מ-20 באוקטובר 2017. נבדק ב-20 באוקטובר 2017. {{cite news}}: (עזרה)

[sohu0524-12] "【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解" (בסינית). Sohu. 24 במאי 2017. ארכיון מ-17 בספטמבר 2017. נבדק ב-1 ביוני 2017. {{cite web}}: (עזרה)

[13] Hardware used during training may be substantially more powerful

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]