AlphaZero
מפתח | DeepMind |
---|---|
מחזור חיים | 2017–הווה (כ־7 שנים) |
AlphaZero היא תוכנת מחשב, שפותחה על ידי DeepMind חברת מחקר בתחום הבינה המלאכותית, במטרה להגיע לרמות חשיבה גבוהות במשחקי שחמט, שוגי וגו. אלגוריתם זה משתמש בגישה הדומה ל-AlphaGo Zero.
ב-5 בדצמבר 2017, צוות DeepMind הציג את AlphaZero, אשר בתוך 24 שעות של אימונים השיג רמה על-אנושית (אנ') של משחק בשלושת המשחקים האלה על ידי הבסת תוכניות 0אלוף-העולם stockfish, אלמו, ואת גרסת של AlphaGo Zero. בכל אחד מהמקרים היא עשתה שימוש ביחידות עיבוד טנזורים מותאמות אישית (TPU), שתוכניות גוגל מותאמות לשימוש בהן. AlphaZero הוכשרה אך ורק באמצעות "משחק עצמי" תוך שימוש ב-5,000 מכשירי TPU מהדור הראשון כדי להפיק את המשחקים ו-64 דור שני של מכשירי TPU להכשרת רשתות נוירונים (אנ'), והכל במקביל, ללא גישה לספרות או שולחנות קצה. לאחר ארבע שעות של אימונים, העריכה DeepMind ש-AlphaZero שיחקה בשחמט הדירוג Elo גבוה יותר מ- Stockfish 8; לאחר 9 שעות אימונים, האלגוריתם ניצח את סטוקפיש 8 בטורניר מבוקר בזמן של 100 משחקים (28 ניצחונות, 0 הפסדים ו-72 תוצאות תיקו).[1][2] האלגוריתם המאומן שיחק במכונה אחת עם ארבעה TPU.
המאמר של DeepMind על AlphaZero פורסם בכתב העת "Science" ב-7 בדצמבר 2018.[3] בשנת 2019 פרסם DeepMind מאמר חדש המפרט את MuZero, אלגוריתם חדש המסוגל להכליל את עבודות AlphaZero, ומשחק הן את Atari והן את משחקי הלוח ללא ידיעת הכללים או ייצוגי המשחק.[4]
אימון
[עריכת קוד מקור | עריכה]AlphaZero התאמן אך ורק באמצעות משחק עם עצמו, תוך שימוש ב-5,000 TPUs מהדור הראשון להפקת המשחקים ו-64 מהדור השני של TPU להכשרת רשתות הנוירונים. במקביל, AlphaZero שבאימונים הותאמה מעת לעת מול מדד הביקורת שלה (Stockfish, elmo או AlphaGo Zero) בקצרה למשך שניות לכל מהלך כדי לקבוע עד כמה האימונים מתקדמים. DeepMind שפטה כי ביצועי AlphaZero התעלו על הרף שנקבע כביקורת לאחר כארבע שעות אימונים עבור סטוקפיש, שעתיים עבור אלמו ושמונה שעות עבור AlphaGo Zero.
הערות שוליים
[עריכת קוד מקור | עריכה]- ^ Sarah Knapton; Leon Watson, Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours, The Telegraph, 6 December 2017
- ^ Vincent, James (6 בדצמבר 2017). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". The Verge. נבדק ב-6 בדצמבר 2017.
{{cite news}}
: (עזרה) - ^ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan (7 בדצמבר 2018). "A general reinforcement learning algorithm that masters chess, shogi, and go through self-play". Science. 362 (6419): 1140–1144. Bibcode:2018Sci...362.1140S. doi:10.1126/science.aar6404. PMID 30523106free
{{cite journal}}
: (עזרה)תחזוקה - ציטוט: postscript (link) - ^ Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis (2020). "Mastering Atari, Go, chess and shogi by planning with a learned model". Nature. 588 (7839): 604–609. arXiv:1911.08265. Bibcode:2020Natur.588..604S. doi:10.1038/s41586-020-03051-4. PMID 33361790.