למידת חיזוק

מתוך ויקיפדיה, האנציקלופדיה החופשית
קפיצה אל: ניווט, חיפוש

למידה באמצעות חיזוקיםאנגלית: Reinforcement Learning), היא שיטת למידה חישובית (למידת מכונה) בתחום מדעי המחשב, המושפעת מהביהביוריזם, ומבוססת על ביצוע פעולות מגובשות אשר נסמכות על חיזוקים חיוביים או שליליים.

מודל הלמידה באמצעות חיזוקים מבוסס על למידה מתוך ניסוי ותעיה שמתבצעת בסדרת אינטראקציות בין סוכן לומד (רכיב תוכנה או רובוט) לבין סביבתו המיוצגת כמידע חושי (סנסורי) הזמין לסוכן הלומד. בכל אינטראקציה כזאת, מקבל הסוכן מידע מסביבתו לגבי המצב הנתון ובוחר לבצע פעולה ממרחב הפעולות הזמין לו בהתאם למדיניות הפעולה הנוכחית. בתגובה מתקבל אות תגמול שהוא ערך מספרי המבטא את חיוניות הפעולה בהתאם למצב ועל פיו מעדכן הסוכן את מדיניותו עבור האינטראקציות הבאות. מטרתו של הסוכן הלומד היא לגבש מדיניות פעולה הממפה בין מרחב המצבים האפשריים למרחב הפעולות כך שהתגמול הכולל (המבוטא כסכום משוקלל של אותות התגמול שהתקבלו החל מתחילת הניסוי) עבור ביצוע פעולות על סמך מדיניות זו יהיה גבוה ככל שניתן.

לרוב ניתן לתאר את בעיית הלמידה כתהליך החלטה מרקובי (Markov Decision Process), במקרה זה ניתן להפעיל בהתאם אלגוריתמים כגון:

כמו כן קיימות גרסאות של אלגוריתמים אלה עבור מקרים בהם התהליך המרקובי ניתן לצפיה חלקית בלבד (POMDP).

קישורים חיצוניים[עריכת קוד מקור | עריכה]

P Computer-science.png ערך זה הוא קצרמר בנושא מדעי המחשב. אתם מוזמנים לתרום לוויקיפדיה ולהרחיב אותו.