AlphaZero

מתוך ויקיפדיה, האנציקלופדיה החופשית
AlphaZero
מפתח DeepMind עריכת הנתון בוויקינתונים
תאריך השקה 2017 עריכת הנתון בוויקינתונים
לעריכה בוויקינתונים שמשמש מקור לחלק מהמידע בתבנית OOjs UI icon info big.svg

AlphaZero היא תוכנת מחשב, שפותחה על ידי DeepMind חברת מחקר בתחום הבינה המלאכותית, במטרה להגיע לרמות חשיבה גבוהות במשחקי שחמט, שוגי וגו. אלגוריתם זה משתמש בגישה הדומה ל-AlphaGo Zero.

ב-5 בדצמבר 2017, צוות DeepMind הציג את AlphaZero, אשר בתוך 24 שעות של אימונים השיג רמה על-אנושית (אנ') של משחק בשלושת המשחקים האלה על ידי הבסת תוכניות 0אלוף-העולם stockfish, אלמו, ואת גרסת של AlphaGo Zero. בכל אחד מהמקרים היא עשתה שימוש ביחידות עיבוד טנזורים מותאמות אישית (TPU), שתוכניות גוגל מותאמות לשימוש בהן. AlphaZero הוכשרה אך ורק באמצעות "משחק עצמי" תוך שימוש ב-5,000 מכשירי TPU מהדור הראשון כדי להפיק את המשחקים ו-64 דור שני של מכשירי TPU להכשרת רשתות נוירונים (אנ'), והכל במקביל, ללא גישה לספרות או שולחנות קצה. לאחר ארבע שעות של אימונים, העריכה DeepMind ש-AlphaZero שיחקה בשחמט הדירוג Elo גבוה יותר מ- Stockfish 8; לאחר 9 שעות אימונים, האלגוריתם ניצח את סטוקפיש 8 בטורניר מבוקר בזמן של 100 משחקים (28 ניצחונות, 0 הפסדים ו-72 תוצאות תיקו).[1][2] האלגוריתם המאומן שיחק במכונה אחת עם ארבעה TPU.

המאמר של DeepMind על AlphaZero פורסם בכתב העת "Science" ב-7 בדצמבר 2018.[3] בשנת 2019 פרסם DeepMind מאמר חדש המפרט את MuZero, אלגוריתם חדש המסוגל להכליל את עבודות AlphaZero, ומשחק הן את Atari והן את משחקי הלוח ללא ידיעת הכללים או ייצוגי המשחק.[4]

אימון[עריכת קוד מקור | עריכה]

AlphaZero התאמן אך ורק באמצעות משחק עם עצמו, תוך שימוש ב-5,000 TPUs מהדור הראשון להפקת המשחקים ו-64 מהדור השני של TPU להכשרת רשתות הנוירונים. במקביל, AlphaZero שבאימונים הותאמה מעת לעת מול מדד הביקורת שלה (Stockfish, elmo או AlphaGo Zero) בקצרה למשך שניות לכל מהלך כדי לקבוע עד כמה האימונים מתקדמים. DeepMind שפטה כי ביצועי AlphaZero התעלו על הרף שנקבע כביקורת לאחר כארבע שעות אימונים עבור סטוקפיש, שעתיים עבור אלמו ושמונה שעות עבור AlphaGo Zero.

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Knapton, Sarah; Watson, Leon (6 בדצמבר 2017). "Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours" (באנגלית). Telegraph.co.uk. בדיקה אחרונה ב-6 בדצמבר 2017. 
  2. ^ Vincent, James (6 בדצמבר 2017). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". The Verge. בדיקה אחרונה ב-6 בדצמבר 2017. 
  3. ^ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan (7 בדצמבר 2018). "A general reinforcement learning algorithm that masters chess, shogi, and go through self-play". Science 362 (6419): 1140–1144. Bibcode:2018Sci...362.1140S. PMID 30523106 Check |pmid= value (עזרה). doi:10.1126/science.aar6404free 
  4. ^ Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis (2020). "Mastering Atari, Go, chess and shogi by planning with a learned model". Nature 588 (7839): 604–609. Bibcode:2020Natur.588..604S. PMID 33361790 Check |pmid= value (עזרה). arXiv:1911.08265 Check |arxiv= value (עזרה). doi:10.1038/s41586-020-03051-4.