AlphaGo – הבדלי גרסאות

מתוך ויקיפדיה, האנציקלופדיה החופשית
תוכן שנמחק תוכן שנוסף
אין תקציר עריכה
אין תקציר עריכה
שורה 1: שורה 1:
'''AlphaGo''' היא [[תוכנית מחשב|תוכנת מחשב]] שיודעת לשחק [[משחק קופסה|במשחק הקופסא]] [[גו (משחק)|Go]]. התוכנה פותחה ע״י חברת [[DeepMind|DeepMind Technologies]] שבהמשך נרכשה ע״י חברת [[גוגל (חברה)|Google]]. פיתוח התוכנה החל בשנת 2014<ref>{{קישור כללי|כתובת=https://timelines.issarice.com/wiki/Timeline_of_AlphaGo|כותרת=Timeline of AlphaGo - Timelines|אתר=timelines.issarice.com|שפה=en|תאריך_וידוא=2021-05-05}}</ref>. מאז יוצרו מספר גרסאות של התוכנה, בין היתר כאלו שהתחרו מול שחקני Go מקצועיים. למשל גרסה בשם [[Master]] שזכתה להצלחה רבה ([[:en:Master_(software)|(Master (software]]). לאחר שפרש ממשחק תחרותי, AlphaGo Master הוחלף על ידי גרסה חזקה יותר המכונה [[AlphaGo Zero]], אשר הייתה אוטודידקטית לחלוטין – כלומר למדה לשחק מבלי ניתוח של משחקים אנושיים. AlphaGo Zero הוחלפה מאוחר יותר בתוכנת [[AlphaZero]], ששיחקה משחקים נוספים מלבד Go, כולל [[שחמט]] ו[[שוגי]]. בשנת 2019 שוחררה גרסה מתקדמת יותר בשם [[MuZero]] שביכולתה ללמוד לשחק באותם משחקים מבלי לדעת מראש את כללי המשחק.
[[en:Master (software)]]
[[en:Master (software)]]
'''AlphaGo''' היא [[תוכנית מחשב|תוכנת מחשב]] שמשחקת [[משחק קופסה|במשחק הקופסא]] [[גו (משחק)|Go]]. התוכנה פותחה ע״י חברת [[DeepMind|DeepMind Technologies]] שבהמשך נרכשה ע״י חברת [[גוגל (חברה)|Google]]. פיתוח התוכנה החל בשנת 2014<ref>{{קישור כללי|כתובת=https://timelines.issarice.com/wiki/Timeline_of_AlphaGo|כותרת=Timeline of AlphaGo - Timelines|אתר=timelines.issarice.com|שפה=en|תאריך_וידוא=2021-05-05}}</ref>. מאז יוצרו מספר גרסאות של התוכנה, בין היתר כאלו שהתחרו מול שחקני Go מקצועיים. למשל גרסה בשם[[Master]] שזכתה להצלחה רבה ([[:en:Master_(software)|Master software]]). לאחר שפרש ממשחק תחרותי, AlphaGo Master הוחלף על ידי גרסה חזקה יותר המכונה [[AlphaGo Zero]]<nowiki/>אשר הייתה אוטודידקטית לחלוטין – כלומר למדה לשחק מבלי ניתוח של משחקים אנושיים. AlphaGo Zero הוחלפה מאוחר יותר בתוכנת [[AlphaZero]], ששיחקה משחקים נוספים מלבד Go, כולל [[שחמט]] ו[[שוגי]]. בשנת 2019 שוחררה גרסה מתקדמת יותר בשם [[MuZero]] שביכולתה ללמוד לשחק באותם משחקים מבלי לדעת מראש את כללי המשחק.


AlphaGo משתמשת באלגוריתם [[חיפוש מונטה קרלו בעצים]] ([[:en:Monte_Carlo_tree_search|Monte Carlo tree search]]) על מנת למצוא את מהלכיה על סמך ידע שנרכש בעבר תוך שימוש ב[[למידת מכונה]] שנשענת על [[רשת עצבית מלאכותית]]. הרשת העצבית מאומנת לזהות את המהלכים הטובים ביותר ואת אחוזי הזכייה של המהלכים הללו. רשת עצבית זו משפרת את יעילות החיפוש בעץ, וכתוצאה מכך בחירת מהלכים נעשת טובה יותר מאיטרציה לאיטרציה.


באוקטובר 2015, תוכנת AlphaGo התחרתה מול שחקן ה Go [[פאן חוי]] ([[:en:Fan_Hui|Fan Hui]]) וניצחה. בכך הפכה התוכנה לראשונה שהצליחה לנצח שחקן Go מקצועי ללא [[פיצוי בגו|פיצוי]] ([[:en:Handicap_(go)|handicap]]) ועל לוח משחק מלא בגודל 19 על 19. במרץ 2016, התוכנית ניצחה את שחקן ה Go המקצועי [[לי סדול]] ([[:en:Lee_Sedol|Lee Sedol]]) בתחרות שכללה חמישה משחקים ([[:en:AlphaGo_versus_Lee_Sedol|AlphaGo versus Lee Sedol]]) עם תוצאה של 4-1 לטובתה. בכך הפכה התוכנה לראשונה שהצליחה לנצח שחקן  Go בדרגת דן 9<ref>{{צ-מאמר|שם=Go ranks and ratings|קישור=https://en.wikipedia.org/w/index.php?title=Go_ranks_and_ratings&oldid=1006894700|כתב עת=Wikipedia|שנת הוצאה=2021-02-15}}</ref> ללא פיצוי. על ניצחון זה צולם סרט בשם AlphaGo <ref>{{קישור כללי|כתובת=https://www.alphagomovie.com/|כותרת=AlphaGo Movie|אתר=AlphaGo Movie|שפה=en|תאריך_וידוא=2021-05-05}}</ref>. ב 22 בדצמבר, 2016, הניצחון של AlphaGo נבחר ע״י [[Science]] כאחת מפריצות השנה.
AlphaGo משתמשת באלגוריתם [[חיפוש מונטה קרלו בעצים]] ([[:en:Monte_Carlo_tree_search|Monte Carlo tree search]]) על מנת למצוא את מהלכיה על סמך ידע שנרכש בעבר תוך שימוש ב[[למידת מכונה]] שנשענת על [[רשת עצבית מלאכותית]]. הרשת העצבית מאומנת לזהות את המהלכים הטובים ביותר ואת אחוזי הזכייה של המהלכים הללו. רשת עצבית זו משפרת את יעילות החיפוש בעץ, וכתוצאה מכך בחירת מהלכים נעשת טובה יותר מאיטרציה לאיטרציה.


במאי של 2017, הגרסה AlphaGo Master ניצחה עם תוצאה של 2-1 את השחקן קה גיי ([[:en:Ke_Jie|Ke Jie]]) שנכון לקיום המשחק דורג ראשון בעולם. על ניצחון זה האסוציאציה הסינית [[:en:Chinese_Weiqi_Association|Chinese weiqi Association]] זיכתה אותה בדרגת דן 9.
לאחר הניצחון על קה גיי, הושקה AlphaGo Zero שלומדת לשחק באופן אוטודידקטי. AlphaGo Zero השיג ניצחון 100–0 מול גרסת ה Master. יורשו של AlphaGo Zero בשם AlphaZero נתפס נכון לשנת 2019 כשחקן בעל הדירוג הגבוה ביותר ב Go ואולי גם בשחמט<ref>{{קישור כללי|כתובת=https://www.chess.com/news/view/updated-alphazero-crushes-stockfish-in-new-1-000-game-match|הכותב=Pete (Pete)|כותרת=AlphaZero Crushes Stockfish In New 1,000-Game Match|אתר=Chess.com|שפה=en-US|תאריך_וידוא=2021-05-05}}</ref><ref>{{צ-מאמר|שם=A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play|קישור=https://science.sciencemag.org/content/362/6419/1140|כתב עת=Science|שנת הוצאה=2018-12-07|עמ=1140–1144|כרך=362|doi=10.1126/science.aar6404|מחבר=David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou}}</ref>.[[קובץ:Alphago_logo_Reversed.svg|טקסט=AlphaGo logo|שמאל|ממוזער| לוגו AlphaGo]]


== הִיסטוֹרִיָה ==
באוקטובר 2015, תוכנת AlphaGo התחרתה מול שחקן ה Go בשם [[פאן חוי]] ([[:en:Fan_Hui|Fan Hui]]) וזכתה. בכך הפכה התוכנה לראשונה שהצליחה לנצח שחקן Go מקצועי ללא [[פיצוי בגו|פיצוי]] ([[:en:Handicap_(go)|handicap]]) ועל לוח משחק מלא בגודל 19 x 19. במרץ 2016, התוכנית ניצחה את שחקן ה Go המקצועי [[לי סדול]] ([[:en:Lee_Sedol|Lee Sedol]]) בתחרות שכללה חמישה משחקים ([[:en:AlphaGo_versus_Lee_Sedol|AlphaGo versus Lee Sedol]]) עם תוצאה של 4-1 לטובתה. בכך הפכה התוכנה לראשונה שהצליחה לנצח שחקן  Go בדרגת דן 9<ref>{{צ-מאמר|שם=Go ranks and ratings|קישור=https://en.wikipedia.org/w/index.php?title=Go_ranks_and_ratings&oldid=1006894700|כתב עת=Wikipedia|שנת הוצאה=2021-02-15}}</ref> ללא פיצוי. על ניצחון זה צולם סרט בשם AlphaGo <ref>{{קישור כללי|כתובת=https://www.alphagomovie.com/|כותרת=AlphaGo Movie|אתר=AlphaGo Movie|שפה=en|תאריך_וידוא=2021-05-05}}</ref>. ב 22 בדצמבר, 2016, הניצחון של AlphaGo נבחר ע״י [[Science]] כאחת מפריצות השנה.
Go הינו משחק בעל כמות המשכים אפשריים גדולה מאוד אחרי כל מהלך. עובדה זו מקשה מאוד על המחשבים ללמוד את המשחק ע״י מתודות למידת המכונה המוכרות כמו [[גיזום אלפא-ביתא|גיזום אפלא-ביתא]] ושיטת [[היוריסטיקה]].


כמעט שנתיים לאחר שמחשב [[IBM|יבמ]] בשם [[כחול עמוק|DeepBlue]] ניצח את אלוף העולם דאז, [[גארי קספרוב]], בשחמט בשנת 1997, תוכנות המחשב החזקות ביותר שישיחקו Go הגיעו רק לרמה חובבנית (דן 5 ומטה) ועדיין לא יכלו לנצח שחקני Go מקצועיים ללא פיצוי בתחילת המשחק.


בשנת 2012, התוכנה [[Zen]] הצליחה לנצח פעמיים את [[מאסאקי טאקאמיה]] ([[:en:Masaki_Takemiya|Masaki Takemiya]]) שדירוגו היה דן 9. עם זאת ניחון זה הושג עם פיצוי של 4-5 אבנים לטובת התוכנה. בשנת 2013 התוכנה [[Crazy Stone]] ניצחה את [[יושיאו לשידא]] ([[:en:Yoshio_Ishida|Yoshio Ishida]]) שהיה בעל דן 9. גם במקרה זה הניצחון הושג עם פיצוי של 4 אבנים לטובת התוכנה.
בשנת 2017, בפסגת ׳[[העתיד של Go]]׳ ([[:en:Future_of_Go_Summit|Future of Go summit]]) הגרסה AlphaGo Master ניצחה עם תוצאה של 2-1 לטובתה את השחקן קה גיי ([[:en:Ke_Jie|Ke Jie]]) שנכון לקיום פסגה זו היה מדורג ראשון בעולם. על ניצחון זה האסוציאציה הסינית בשם [[:en:Chinese_Weiqi_Association|Chinese weiqi Association]] זיכתה אותה בדרגת דן 9.
לאחר הניצחון על קה גיי, שוחררה הגרסה AlphaGo Zero שלומדת לשחק באופן אוטודידקטי. AlphaGo Zero השיג ניצחון 100–0 מול הגרסה התחרותית המוקדמת של אלפא גו בשם Master. ויורשו של AlphaGo Zero בשם AlphaZero נתפס נכון לשנת 2019 כשחקן בעל הדירוג הגבוה ב Go ואולי גם בשחמט<ref>{{קישור כללי|כתובת=https://www.chess.com/news/view/updated-alphazero-crushes-stockfish-in-new-1-000-game-match|הכותב=Pete (Pete)|כותרת=AlphaZero Crushes Stockfish In New 1,000-Game Match|אתר=Chess.com|שפה=en-US|תאריך_וידוא=2021-05-05}}</ref><ref>{{צ-מאמר|שם=A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play|קישור=https://science.sciencemag.org/content/362/6419/1140|כתב עת=Science|שנת הוצאה=2018-12-07|עמ=1140–1144|כרך=362|doi=10.1126/science.aar6404|מחבר=David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou}}</ref>.[[קובץ:Alphago_logo_Reversed.svg|טקסט=AlphaGo logo|שמאל|ממוזער| לוגו AlphaGo]]


=== המשחק מול פאן חוי ===
== הִיסטוֹרִיָה ==
באוקטובר של שנת 2015, הגרסה הקיימת של AlphaGo ניצחה 5-0 את אלוף אירופאה דאז, פאן חוי. דירוגו נכון לזמן המשחק היה דן 2 (מתוך 9). זאת הייתה הפעם הראשונה בה תוכנת מחשב ניצחה שחקן Go מקצועי על לוח משחק מלא וללא פיצוי לטובת התוכנה. פרסום תוצאות המשחק התרחש רק בינואר 2016, במקביל לפרסום מאמר בכתב העת המדעי [[Nature]] המתאר את אלגוריתם הלמידה בו השתמשה התוכנה<ref>{{צ-מאמר|שם=Mastering the game of Go with deep neural networks and tree search|קישור=http://adsabs.harvard.edu/abs/2016Natur.529..484S|כתב עת=Nature|שנת הוצאה=2016-01-01|עמ=484–489|כרך=529|doi=10.1038/nature16961|מחבר=David Silver, Aja Huang, Chris J. Maddison, Arthur Guez}}</ref>.
Go נחשב למשחק שלמחשבים הרבה יותר קשה ללמוד בייחס למשחקים אחרים (אפילו שחמט) בגלל כמות האפשרויות הרבות שיש בכל מהלך במשחק. מספר ההמשכים האפשריים הרב אחרי כל מהלך מקשה על שימוש במתודות למידת מכונה מוכרות כמו [[גיזום אלפא-ביתא|גיזום אפלא-ביתא]] ושיטת [[היוריסטיקה]].

=== המשחק מול לי סדול ===
בשנת 2016, בתאריכים 9, 10, 12, 13 ו-15 במרץ, ב[[מלון ארבעת העונות]] ב[[סיאול]], נערכו חמישה משחקים בין AlphaGo לבין שחקן ה Go הדרום קוראני המקצועי בשם לי סדול. נכון לזמן התחרות דירוגו היה דן 9 (מתוך 9). המשחקים שודר בשידור חי בכלי תיקשורת רבים. AlphaGo ניצחה את לי בארבעת מתוך חמשת המשחקים: בשלושת המשחקים הראשונים ובמשחק החמישי. במשחק הרביעי הצליח לי לגבור על AlphaGo. המשחק היחיד בו ניצח לי הפך אותו לאדם היחיד בעולם שניצח אי-פעם את AlphaGo מתוך כל 74 משחקיה הרשמיים.

AlphaGo רצה על גבי הענן של גוגל תוך שימוש בשרתים הממוקמים בארצות הברית. המשחק עשה שימוש בחוקים סיניים עם 7.5 נקודות קומי ([[:en:Komi_(go)|komi]]), ולכל צד היו שעתיים של חשיבה בתוספת שלוש תקופות ביויומי ([[:en:Time_control#Byo-yomi|byoyomi]]) של 60 שניות. הגרסה של AlphaGo ששיחקה נגד לי השתמשה בכמות מחשוב דומה כמו שהייתה בשימוש במשחק מול פאן חוי. חשוב לציין ש AlphaGo לא אומנה באופן ספציפי לנצח את לי (כלומר לא אומנה ספציפית נגד סגנון המשחק של לי), אלה אומנה באופן באופן כללי, ללא מטרה ספציפית לנצח אדם ספציפי.

הפרס בתחרות היה מיליון דולר. מכיוון ש AlphaGo זכתה בארבעה מתוך חמשת המשחקים בסדרה, הפרס נתרם לעמותות, כולל [[יוניסף]]. לי קיבל 150 אלף דולר על השתתפות בכל חמשת המשחקים ותוספת של 20 אלף דולר עבור זכייתו במשחק 4.

ביוני 2016, בכנס שהתקיים באחת האוניברסיטאות בהולנד, חשף [[אג'ה הואנג]], אחד מצוות DeepMind, כי הם זיהו ותיקנו את נקודת התורפה של AlphaGo שגרמה לתוכנה להפסיד ללי במהלך המשחק הרביעי ביניהם.

=== 60 משחקים ברשת ===
ב- 29 בדצמבר 2016, חשבון חדש בשרת תיגי׳ם ([[:en:Tygem|Tygem]]) בשם "מגיסטר" (שהוצג כ 'מגיסט' בגרסה הסינית של השרת) מדרום קוריאה החל לשחק משחקים עם שחקנים מקצועיים. החשבון שינה את שמו ל- "Master" ב- 30 בדצמבר, ואז עברה לשרת [[FoxGo]] ב -1 בינואר 2017. ב -4 בינואר אישרה DeepMind כי "Magister" ו- "Master" הם חשבונות בהם משחקת הגרסה המעודכנת של AlphaGo, הנקראת AlphaGo Master. החל מה -5 בינואר 2017, AlphaGo Master קבע שיא של 60 ניצחונות ו- 0 הפסדים, כולל שלושה ניצחונות על השחקן בעל הדירוג הגבוה ביותר נכון לזמן המשחק, קה גיי. לאחר שנודע על ההפסדים של גיי לתוכנת המאסטר, שחקן ה Go [[גו לי]] ([[:en:Gu_Li_(Go_player)|Gu Li]]) הציע סכום של 100,000 יואן (14,400 דולר) לשחקן האנושי הראשון שיכול להביס את מאסטר.

במהלך שישים המשחקים ברשת, המאסטר שיחק בקצב של 10 משחקים ביום. רבים חשדו במהרה שמדובר בשחקן AI בגלל מנוחה מועטה בין המשחקים. יריביו כללו אלופי עולם רבים . כל 60 המשחקים פרט לאחד היו משחקים מהירים עם שלושה ביויומיים באורך 20 או 30 שניות. המאסטר הציע להאריך את הביויומי לדקה כאשר שיחק עם [[ני ווייפינג]] בהתחשב בגילו. לאחר שניצח במשחקו ה -59, מאסטר חשף את עצמו בחדר הצ'אט.


לאחר השלמת המשחקים הללו, מייסד שותף של Google DeepMind, [[דמיס חסביס]], אמר: "אנו מצפים לשחק בהמשך כמה משחקים רשמיים באורך מלא בשיתוף ארגוני Go ומומחים".
כמעט שנתיים לאחר שמחשב [[IBM|יבמ]] בשם [[כחול עמוק|DeepBlue]] ניצח את אלוף העולם דאז בשחמט [[גארי קספרוב]] בתחרות שהתקיימה בשנת 1997, תוכנות המחשב החזקות ביותר שישיחקו Go הגיעו רק לרמה חובבנית (דן 5 ומטה) ועדיין לא יכלו לנצח שחקני Go מקצועיים ללא פיצוי בתחילת המשחק.


מומחי Go התרשמו מביצועי התוכנית וסגנון המשחק הלא אנושי שלה; קה גיי הצהיר כי "אחרי שהאנושות השקיעה אלפי שנים בשיפור הטקטיקה שלה, מחשבים אומרים לנו שבני אדם טועים לחלוטין ... הייתי מרחיק לכת ואומר שאף בן אדם לא נגע בקצה האמת של Go.
בשנת 2012, התוכנה [[Zen]] הצליחה לנצח פעמיים את [[מאסאקי טאקאמיה]] ([[:en:Masaki_Takemiya|Masaki Takemiya]]) שדירוגו היה דן 9. עם זאת ניחון זה הושג עם פיצוי של 4-5 אבנים לטובת התוכנה. בשנת 2013 התוכנה [[Crazy Stone]] ניצחה את [[יושיאו לשידא]] () שהיה בעל דן 9. גם במקרה זה הניצחון הושג עם פיצוי של 4 אבנים לטובת התוכנה.


=== פסגת גו של 2017 ===
=== פסגת גו של 2017 ===

גרסה מ־12:45, 5 במאי 2021

AlphaGo היא תוכנת מחשב שמשחקת במשחק הקופסא Go. התוכנה פותחה ע״י חברת DeepMind Technologies שבהמשך נרכשה ע״י חברת Google. פיתוח התוכנה החל בשנת 2014[1]. מאז יוצרו מספר גרסאות של התוכנה, בין היתר כאלו שהתחרו מול שחקני Go מקצועיים. למשל גרסה בשםMaster שזכתה להצלחה רבה (Master software). לאחר שפרש ממשחק תחרותי, AlphaGo Master הוחלף על ידי גרסה חזקה יותר המכונה AlphaGo Zeroאשר הייתה אוטודידקטית לחלוטין – כלומר למדה לשחק מבלי ניתוח של משחקים אנושיים. AlphaGo Zero הוחלפה מאוחר יותר בתוכנת AlphaZero, ששיחקה משחקים נוספים מלבד Go, כולל שחמט ושוגי. בשנת 2019 שוחררה גרסה מתקדמת יותר בשם MuZero שביכולתה ללמוד לשחק באותם משחקים מבלי לדעת מראש את כללי המשחק.

AlphaGo משתמשת באלגוריתם חיפוש מונטה קרלו בעצים (Monte Carlo tree search) על מנת למצוא את מהלכיה על סמך ידע שנרכש בעבר תוך שימוש בלמידת מכונה שנשענת על רשת עצבית מלאכותית. הרשת העצבית מאומנת לזהות את המהלכים הטובים ביותר ואת אחוזי הזכייה של המהלכים הללו. רשת עצבית זו משפרת את יעילות החיפוש בעץ, וכתוצאה מכך בחירת מהלכים נעשת טובה יותר מאיטרציה לאיטרציה.

באוקטובר 2015, תוכנת AlphaGo התחרתה מול שחקן ה Go פאן חוי (Fan Hui) וניצחה. בכך הפכה התוכנה לראשונה שהצליחה לנצח שחקן Go מקצועי ללא פיצוי (handicap) ועל לוח משחק מלא בגודל 19 על 19. במרץ 2016, התוכנית ניצחה את שחקן ה Go המקצועי לי סדול (Lee Sedol) בתחרות שכללה חמישה משחקים (AlphaGo versus Lee Sedol) עם תוצאה של 4-1 לטובתה. בכך הפכה התוכנה לראשונה שהצליחה לנצח שחקן  Go בדרגת דן 9[2] ללא פיצוי. על ניצחון זה צולם סרט בשם AlphaGo [3]. ב 22 בדצמבר, 2016, הניצחון של AlphaGo נבחר ע״י Science כאחת מפריצות השנה.

במאי של 2017, הגרסה AlphaGo Master ניצחה עם תוצאה של 2-1 את השחקן קה גיי (Ke Jie) שנכון לקיום המשחק דורג ראשון בעולם. על ניצחון זה האסוציאציה הסינית Chinese weiqi Association זיכתה אותה בדרגת דן 9.

לאחר הניצחון על קה גיי, הושקה AlphaGo Zero שלומדת לשחק באופן אוטודידקטי. AlphaGo Zero השיג ניצחון 100–0 מול גרסת ה Master. יורשו של AlphaGo Zero בשם AlphaZero נתפס נכון לשנת 2019 כשחקן בעל הדירוג הגבוה ביותר ב Go ואולי גם בשחמט[4][5].

AlphaGo logo
לוגו AlphaGo

הִיסטוֹרִיָה

Go הינו משחק בעל כמות המשכים אפשריים גדולה מאוד אחרי כל מהלך. עובדה זו מקשה מאוד על המחשבים ללמוד את המשחק ע״י מתודות למידת המכונה המוכרות כמו גיזום אפלא-ביתא ושיטת היוריסטיקה.

כמעט שנתיים לאחר שמחשב יבמ בשם DeepBlue ניצח את אלוף העולם דאז, גארי קספרוב, בשחמט בשנת 1997, תוכנות המחשב החזקות ביותר שישיחקו Go הגיעו רק לרמה חובבנית (דן 5 ומטה) ועדיין לא יכלו לנצח שחקני Go מקצועיים ללא פיצוי בתחילת המשחק.

בשנת 2012, התוכנה Zen הצליחה לנצח פעמיים את מאסאקי טאקאמיה (Masaki Takemiya) שדירוגו היה דן 9. עם זאת ניחון זה הושג עם פיצוי של 4-5 אבנים לטובת התוכנה. בשנת 2013 התוכנה Crazy Stone ניצחה את יושיאו לשידא (Yoshio Ishida) שהיה בעל דן 9. גם במקרה זה הניצחון הושג עם פיצוי של 4 אבנים לטובת התוכנה.

המשחק מול פאן חוי

באוקטובר של שנת 2015, הגרסה הקיימת של AlphaGo ניצחה 5-0 את אלוף אירופאה דאז, פאן חוי. דירוגו נכון לזמן המשחק היה דן 2 (מתוך 9). זאת הייתה הפעם הראשונה בה תוכנת מחשב ניצחה שחקן Go מקצועי על לוח משחק מלא וללא פיצוי לטובת התוכנה. פרסום תוצאות המשחק התרחש רק בינואר 2016, במקביל לפרסום מאמר בכתב העת המדעי Nature המתאר את אלגוריתם הלמידה בו השתמשה התוכנה[6].

המשחק מול לי סדול

בשנת 2016, בתאריכים 9, 10, 12, 13 ו-15 במרץ, במלון ארבעת העונות בסיאול, נערכו חמישה משחקים בין AlphaGo לבין שחקן ה Go הדרום קוראני המקצועי בשם לי סדול. נכון לזמן התחרות דירוגו היה דן 9 (מתוך 9). המשחקים שודר בשידור חי בכלי תיקשורת רבים. AlphaGo ניצחה את לי בארבעת מתוך חמשת המשחקים: בשלושת המשחקים הראשונים ובמשחק החמישי. במשחק הרביעי הצליח לי לגבור על AlphaGo. המשחק היחיד בו ניצח לי הפך אותו לאדם היחיד בעולם שניצח אי-פעם את AlphaGo מתוך כל 74 משחקיה הרשמיים.

AlphaGo רצה על גבי הענן של גוגל תוך שימוש בשרתים הממוקמים בארצות הברית. המשחק עשה שימוש בחוקים סיניים עם 7.5 נקודות קומי (komi), ולכל צד היו שעתיים של חשיבה בתוספת שלוש תקופות ביויומי (byoyomi) של 60 שניות. הגרסה של AlphaGo ששיחקה נגד לי השתמשה בכמות מחשוב דומה כמו שהייתה בשימוש במשחק מול פאן חוי. חשוב לציין ש AlphaGo לא אומנה באופן ספציפי לנצח את לי (כלומר לא אומנה ספציפית נגד סגנון המשחק של לי), אלה אומנה באופן באופן כללי, ללא מטרה ספציפית לנצח אדם ספציפי.

הפרס בתחרות היה מיליון דולר. מכיוון ש AlphaGo זכתה בארבעה מתוך חמשת המשחקים בסדרה, הפרס נתרם לעמותות, כולל יוניסף. לי קיבל 150 אלף דולר על השתתפות בכל חמשת המשחקים ותוספת של 20 אלף דולר עבור זכייתו במשחק 4.

ביוני 2016, בכנס שהתקיים באחת האוניברסיטאות בהולנד, חשף אג'ה הואנג, אחד מצוות DeepMind, כי הם זיהו ותיקנו את נקודת התורפה של AlphaGo שגרמה לתוכנה להפסיד ללי במהלך המשחק הרביעי ביניהם.

60 משחקים ברשת

ב- 29 בדצמבר 2016, חשבון חדש בשרת תיגי׳ם (Tygem) בשם "מגיסטר" (שהוצג כ 'מגיסט' בגרסה הסינית של השרת) מדרום קוריאה החל לשחק משחקים עם שחקנים מקצועיים. החשבון שינה את שמו ל- "Master" ב- 30 בדצמבר, ואז עברה לשרת FoxGo ב -1 בינואר 2017. ב -4 בינואר אישרה DeepMind כי "Magister" ו- "Master" הם חשבונות בהם משחקת הגרסה המעודכנת של AlphaGo, הנקראת AlphaGo Master. החל מה -5 בינואר 2017, AlphaGo Master קבע שיא של 60 ניצחונות ו- 0 הפסדים, כולל שלושה ניצחונות על השחקן בעל הדירוג הגבוה ביותר נכון לזמן המשחק, קה גיי. לאחר שנודע על ההפסדים של גיי לתוכנת המאסטר, שחקן ה Go גו לי (Gu Li) הציע סכום של 100,000 יואן (14,400 דולר) לשחקן האנושי הראשון שיכול להביס את מאסטר.

במהלך שישים המשחקים ברשת, המאסטר שיחק בקצב של 10 משחקים ביום. רבים חשדו במהרה שמדובר בשחקן AI בגלל מנוחה מועטה בין המשחקים. יריביו כללו אלופי עולם רבים . כל 60 המשחקים פרט לאחד היו משחקים מהירים עם שלושה ביויומיים באורך 20 או 30 שניות. המאסטר הציע להאריך את הביויומי לדקה כאשר שיחק עם ני ווייפינג בהתחשב בגילו. לאחר שניצח במשחקו ה -59, מאסטר חשף את עצמו בחדר הצ'אט.

לאחר השלמת המשחקים הללו, מייסד שותף של Google DeepMind, דמיס חסביס, אמר: "אנו מצפים לשחק בהמשך כמה משחקים רשמיים באורך מלא בשיתוף ארגוני Go ומומחים".

מומחי Go התרשמו מביצועי התוכנית וסגנון המשחק הלא אנושי שלה; קה גיי הצהיר כי "אחרי שהאנושות השקיעה אלפי שנים בשיפור הטקטיקה שלה, מחשבים אומרים לנו שבני אדם טועים לחלוטין ... הייתי מרחיק לכת ואומר שאף בן אדם לא נגע בקצה האמת של Go.

פסגת גו של 2017

בפסגה גו שהתקיים בוווז'ן במאי 2017, AlphaGo Master שיחק שלושה משחקים עם Ke Jie, השחקן המדורג 1 בעולם, כמו גם שני משחקים עם כמה אנשי מקצוע סיניים מובילים, משחק גו זוג אחד ואחד נגד שיתוף פעולה צוות של חמישה שחקנים אנושיים. [7]

Google DeepMind הציעה פרסים זוכים של 1.5 מיליון דולר למשחק שלושת המשחקים בין Ke Jie ו- Master בעוד שהצד המפסיד לקח 300,000 דולר. [8] [9] מאסטר ניצח את שלושת המשחקים נגד Ke Jie, [10] [11] ולאחריו הוענק AlphaGo 9-dan מקצועי על ידי התאחדות Weiqi הסינית.[12]

לאחר שניצחה במשחק שלושת המשחקים שלה מול Ke Jie, שחקן ה- Go העולמי המדורג ביותר, אלפאגו פרש. DeepMind פירקה גם את הצוות שעבד על המשחק כדי להתמקד במחקר AI בתחומים אחרים.[13] לאחר הפסגה צוות Deepmind פרסם 50 משחקי AlphaGo נגד עצמו באורך מלא, כמתנה לקהילת ה- Go.[14]

AlphaGo Zero ו- AlphaZero

ב -19 באוקטובר 2017 הצוות של AlphaGo פרסם מאמר בכתב העת Nature, בו הציג את AlphaGo Zero, גרסה ללא נתונים אנושיים וחזקה יותר מכל גרסה קודמת שמנצחת אלוף אנושי. בכך שהיא שיחקה משחקים נגד עצמה, AlphaGo Zero עלתה על כוחה של AlphaGo Lee תוך שלושה ימים בכך שניצחה 100 משחקים ל -0, הגיעה לרמה של מסטר ב AlphaGo תוך 21 יום, ועברה את כל הגרסאות הישנות תוך 40 יום.[15]

במאמר שפורסם ב- arXiv ב -5 בדצמבר 2017, טען DeepMind כי היא היכללה את גישתו של AlphaGo Zero לאלגוריתם יחיד של AlphaZero, שהשיג תוך 24 שעות רמה של משחק על אנושי במשחקי השחמט, השוגי ו- Go על ידי ניצחון על התוכנות אלוף העולם Stockfish, Elmo, וגרסת 3 ימים ל- AlphaGo Zero בכל מקרה.

כלי הוראה

ב־11 בדצמבר 2017, DeepMind פרסמה את כלי ההוראה של AlphaGo באתר האינטרנט שלה [16] כדי לנתח את שיעורי הזכייה של פתחי Go שונים כפי שחושב על ידי AlphaGo Master .[17] כלי ההוראה אוסף 6,000 פתחי Go מ -230,000 משחקים אנושיים שכל אחד מהם נותח עם 10,000,000 סימולציות על ידי AlphaGo Master. רבים מהפתחים כוללים הצעות למהלך אנושי.

גרסאות

גרסה מוקדמת של AlphaGo נבדקה על חומרה עם מספר שונה של מעבדים ו- GPUs, הפועלים במצב אסינכרוני או מבוזר. שתי שניות של זמן חשיבה ניתנו לכל מהלך. דירוגי Elo המתקבלים מפורטים להלן. במשחקים עם יותר זמן לכל מהלך מושגים דירוגים גבוהים יותר.

תצורה וביצועים
תְצוּרָה מספר

תהליכונים

מספר המעבד מספר GPU דירוג Elo
יחיד עמ ' 10–11 40 48 1 2,181
יחיד 40 48 2 2,738
יחיד 40 48 4 2,850
יחיד 40 48 8 2,890
מופץ 12 428 64 2,937
מופץ 24 764 112 3,079
מופץ 40 1,202 176 3,140
מופץ 64 1,920 280 3,168

במאי 2016 חשפה גוגל " יחידות עיבוד טנזור " חומרה קנייניות משלה, שלדבריה כבר נפרסו במספר פרויקטים פנימיים בגוגל, כולל המשחק AlphaGo נגד לי סדול. [18] [19]

בפסגת העתיד של Go במאי 2017, DeepMind חשפה כי הגרסה של AlphaGo ששימשה בפסגה זו הייתה AlphaGo Master,[20] [21] וגילתה שהיא מדדה את חוזק הגרסאות השונות של התוכנה. AlphaGo Lee, הגרסה המשמשת נגד Lee, יכולה לתת ל- AlphaGo Fan, הגרסה המשמשת ב- AlphaGo vs. אוהד האו, שלוש אבנים, ו- AlphaGo Master היו אפילו שלוש אבנים חזקות יותר. [22]

תצורה ועוצמה[23]
גרסאות חוּמרָה דירוג Elo תַאֲרִיך תוצאות
אוהד AlphaGo 176 GPUs,[24] מופצים 3,144 [25] אוקטובר 2015 5: 0 נגד פאן הוי
AlphaGo Lee 48 TPUs, מופץ 3,739 מרץ 2016 4: 1 נגד לי סדול
מאסטר AlphaGo 4 TPU, מכונה אחת 4,858 מאי 2017 60: 0 נגד שחקנים מקצועיים;



</br> העתיד של פסגת גו
AlphaGo Zero (40 חסימות) 4 TPU, מכונה אחת 5,185 אוקטובר 2017 100: 0 נגד AlphaGo Lee

89:11 נגד AlphaGo Master

AlphaZero (20 חסימות) 4 TPU, מכונה אחת 5,018 דצמבר 2017 60:40 נגד AlphaGo Zero (20 חסימות)

אַלגוֹרִיתְם

החל משנת 2016, האלגוריתם של AlphaGo משתמש בשילוב של טכניקות למידת מכונה וחיפוש עצים, בשילוב אימונים נרחבים, הן ממשחק אנושי והן ממחשב. היא משתמשת בחיפוש עצים במונטה קרלו, המונחה על ידי "רשת ערכים" ו"רשת מדיניות ", שניהם מיושמים באמצעות טכנולוגיית רשת עצבית עמוקה.[26][27]כמות מוגבלת של עיבוד מקדים של זיהוי תכונות ספציפיות למשחק (למשל, כדי להדגיש אם מהלך תואם לתבנית nakade ) מוחל על הקלט לפני שהוא נשלח לרשתות העצביות.[27]

הרשתות העצביות של המערכת הושקו בתחילה ממומחיות משחק אנושית. בתחילה הוכשרה AlphaGo לחקות משחק אנושי על ידי ניסיון להתאים למהלכים של שחקנים מומחים ממשחקים היסטוריים מוקלטים, תוך שימוש במאגר של כ -30 מיליון מהלכים.[28] לאחר שהגיעה למידה מסוימת של בקיאות, היא הוכשרה בהמשך על ידי כך שהיא הוגדרה לשחק מספר רב של משחקים מול מקרים אחרים של עצמה, תוך שימוש בלמידת חיזוק לשיפור המשחק שלה.[29] כדי להימנע מבזבוז זמן "של כבוד" של יריבו, התוכנית מתוכנתת במיוחד להתפטר אם הערכת ההסתברות שלה לזכות נופלת מתחת לסף מסוים; למשחק נגד לי, סף ההתפטרות נקבע ל -20%. [30]

סגנון המשחק

טובי מאנינג, שופט המשחק של AlphaGo vs. Fan Hui, תיאר את סגנון התוכנית כ"שמרני ".[31] סגנון המשחק של AlphaGo תומך בחדות בהסתברות גדולה יותר לזכות בפחות נקודות לעומת בהסתברות נמוכה יותר לזכות בנקודות רבות יותר.[32] האסטרטגיה שלה למקסם את הסיכוי שלה לזכות נבדלת ממה שהשחקנים האנושיים נוטים לעשות שהוא למקסם את הרווחים הטריטוריאליים, ומסבירה כמה מהמהלכים המוזרים למראה. [33] זה עושה הרבה מהלכי פתיחה שמעולם או לעיתים רחוקות נעשו על ידי בני אדם, תוך הימנעות ממהלכי פתיחה רבים מהשורה השנייה ששחקנים אנושיים אוהבים לבצע. הוא אוהב להשתמש shoulder hits, במיוחד אם היריב מרוכז יתר על המידה.
שגיאות פרמטריות בתבנית:מקור

שימוש בפרמטרים מיושנים [ תאריך ]
[דרוש מקור]

  1. ^ Timeline of AlphaGo - Timelines, timelines.issarice.com (באנגלית)
  2. ^
    שגיאות פרמטריות בתבנית:צ-מאמר

    פרמטרי חובה [ מחבר ] חסרים
    {{{מחבר}}}, Go ranks and ratings, Wikipedia, 2021-02-15
  3. ^ AlphaGo Movie, AlphaGo Movie (באנגלית)
  4. ^ Pete (Pete), AlphaZero Crushes Stockfish In New 1,000-Game Match, Chess.com (באנגלית אמריקאית)
  5. ^ David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play, Science 362, 2018-12-07, עמ' 1140–1144 doi: 10.1126/science.aar6404
  6. ^ David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Mastering the game of Go with deep neural networks and tree search, Nature 529, 2016-01-01, עמ' 484–489 doi: 10.1038/nature16961
  7. ^ "Exploring the mysteries of Go with AlphaGo and China's top players". 2017-04-10.
  8. ^ "World No.1 Go player Ke Jie takes on upgraded AlphaGo in May". 2017-04-10.
  9. ^ "Ke Jie vs. AlphaGo: 8 things you must know". 2017-05-27.
  10. ^ "Revamped AlphaGo Wins First Game Against Chinese Go Grandmaster". 2017-05-23.
  11. ^ "Google's AlphaGo Continues Dominance With Second Win in China". 2017-05-25.
  12. ^ "中国围棋协会授予AlphaGo职业九段 并颁发证书" (בסינית). Sohu.com. 27 במאי 2017. נבדק ב-9 בדצמבר 2017. {{cite web}}: (עזרה)
  13. ^ "After Win in China, AlphaGo's Designers Explore New AI". 2017-05-27.
  14. ^ "Full length games for Go players to enjoy". Deepmind. נבדק ב-2017-05-28.
  15. ^ "AlphaGo Zero: Learning from scratch". DeepMind official website. 18 באוקטובר 2017. נבדק ב-19 באוקטובר 2017. {{cite web}}: (עזרה)
  16. ^ "AlphaGo teaching tool". DeepMind.
  17. ^ "AlphaGo教学工具上线 樊麾:使用Master版本" (בסינית). Sina.com.cn. 11 בדצמבר 2017. נבדק ב-11 בדצמבר 2017. {{cite web}}: (עזרה)
  18. ^ McMillan, Robert (18 במאי 2016). "Google Isn't Playing Games With New Chip". The Wall Street Journal. נבדק ב-26 ביוני 2016. {{cite news}}: (עזרה)
  19. ^ Jouppi, Norm (18 במאי 2016). "Google supercharges machine learning tasks with TPU custom chip". Google Cloud Platform Blog (באנגלית אמריקאית). נבדק ב-2016-06-26. {{cite web}}: (עזרה)
  20. ^ "AlphaGo官方解读让三子 对人类高手没这种优势" (בסינית). Sina. 25 במאי 2017. נבדק ב-2 ביוני 2017. {{cite web}}: (עזרה)
  21. ^ "各版alphago实力对比 master能让李世石版3子" (בסינית). Sina. 24 במאי 2017. נבדק ב-2 ביוני 2017. {{cite web}}: (עזרה)
  22. ^ "New version of AlphaGo self-trained and much more efficient". American Go Association. 24 במאי 2017. נבדק ב-1 ביוני 2017. {{cite web}}: (עזרה)
  23. ^ "【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解" (בסינית). Sohu. 24 במאי 2017. נבדק ב-1 ביוני 2017. {{cite web}}: (עזרה)
  24. ^ "AlphaGo Zero: Learning from scratch". DeepMind official website. 18 באוקטובר 2017. נבדק ב-19 באוקטובר 2017. {{cite web}}: (עזרה)
  25. ^ Zen computer Go program beats Takemiya Masaki with just 4 stones!, web.archive.org, ‏2016-02-01
  26. ^ "Research Blog: AlphaGo: Mastering the ancient game of Go with Machine Learning". Google Research Blog. 27 בינואר 2016. {{cite web}}: (עזרה)
  27. ^ 1 2 AlphaGo: Mastering the ancient game of Go with Machine Learning, Google AI Blog (באנגלית)
  28. ^ Metz, Cade (27 בינואר 2016). "In Major AI Breakthrough, Google System Secretly Beats Top Player at the Ancient Game of Go". WIRED (באנגלית אמריקאית). נבדק ב-1 בפברואר 2016. {{cite web}}: (עזרה)
  29. ^ "Research Blog: AlphaGo: Mastering the ancient game of Go with Machine Learning". Google Research Blog. 27 בינואר 2016. {{cite web}}: (עזרה)
  30. ^ Cade Metz (13 במרץ 2016). "Go Grandmaster Lee Sedol Grabs Consolation Win Against Google's AI". Wired News. נבדק ב-29 במרץ 2016. {{cite news}}: (עזרה)
  31. ^ Gibney, Elizabeth (27 בינואר 2016). "Google AI algorithm masters ancient game of Go". Nature. 529 (7587): 445–6. Bibcode:2016Natur.529..445G. doi:10.1038/529445a. PMID 26819021free {{cite journal}}: (עזרה)תחזוקה - ציטוט: postscript (link)
  32. ^ John Riberio (14 במרץ 2016). "AlphaGo's unusual moves prove its AI prowess, experts say". PC World. נבדק ב-18 במרץ 2016. {{cite news}}: (עזרה)
  33. ^ Chouard, Tanguy (12 במרץ 2016). "The Go Files: AI computer clinches victory against Go champion". Nature. doi:10.1038/nature.2016.19553. {{cite journal}}: (עזרה)