משתמש:האדם-החושב/SRGAN

super resolution generative adversarial network (ראשי תיבות: SRGAN) הינו מודל למידת מכונה שתוכנן על ידיי כריסטיאן לדג ועמיתיו מטוויטר בספטמבר 2016^[1].

המודל נודע לשיפור איכות של תמונות כאשר במחקר עצמו הוא שומש על מנת לשפר איכות תמונות פי ארבע כאשר הוא שומר על טקסטורות מהתמונה המקורית.

שימושים[עריכת קוד מקור | עריכה]

לsrgan יכולים להיות שימושים רבים למשל בענף הגיימינג לחסוך בכוח עיבוד וחשמל בשביל להריץ משחקי מחשב המעבד הגרפי יעבד את המשחק עד לרזולוציה hd (1080p) בלבד וsrgan ישלים את העיבוד משמה ל4k או אם המשתמש רוצה את האיכות הטובה ביותר הוא יכול לבחור בהרצת המשחק ברזולוצית 4k והעלאת הרזולוציה ל8k עם srgan.

שימוש נוסף יכול להיות בצילום כאשר srgan עוזר לשפר את איכות התמונה או אולי להעלות את האיכות של סרט לצורך הגדלת מרחב הטעות של העורך לאחר מכן.

מבנה המודל[עריכת קוד מקור | עריכה]

המודל הינו רשת מסוג GAN המחולקת למאבחן (discriminator) ומחולל (generator) למרות שבמחקר המקורי הזכירו את האפשרות להשתמש רק במחולל (כמובן במחיר של ביצועים מופחתים) וקראו לו SRResNet.

מחולל[עריכת קוד מקור | עריכה]

המחולל מורכב משכבת כינוס (באנגלית: convolution layers) בהתחלה שלאחריה באה שכבת PReLU לאחר מכן באים כ-16 גושים פנימיים לאחריהם תבאנה שכבת כינוס batch normalization ושכבת חיבור המחברת בין הטנזור הנוכחי לטנזור שהיה לפניי הכניסה ל-16 הגושים הפנימיים בעזרת קשר דילוג לאחר מכאן יבואו שני גושי upsampling ואז שכבת כינוס אחרונה.

גוש פנימי[עריכת קוד מקור | עריכה]

מורכב משכבת כינוס בהתחלה כאשר לאחריה תבאנה שכבות כינוס PReLU ,batch normalization , כינוס ו batch normalization לבסוף תבוא שכבת שכבת חיבור המחברת בין הטנזור הנוכחי לטנזור שהיה לפניי הכניסה לגוש הנוכחי בעזרת קשר דילוג.

גוש upsampling[עריכת קוד מקור | עריכה]

מורכב משכבת כינוס שכבת ערבוב פיקסלים ושכבת PReLU.

מאבחן[עריכת קוד מקור | עריכה]

מורכב משכבת כינוס (באנגלית: convolution layers) בהתחלה כאשר לאחריה יבואו שכבת LeakyReLU ו-7 גושים פנימיים לאחר מכן תבאנה שכבות fully connected LeakyReLU fully connected וסיגמואיד.

גוש פנימי[עריכת קוד מקור | עריכה]

מורכב משכבת כינוס בהתחלה כאשר לאחריה תבאנה שכבות כינוס, batch normalization ואז LeakyReLU .

הכנת הדאטה[עריכת קוד מקור | עריכה]

המחקר המקורי אומן על כ-350,000 תמונות מ-ImageNet כאשר לצורך האימון נלקחו מכל תמונה באקראיות חתיכות בגודל 96x96 נקרא להן hr (heigh resolution).

לאחר מכן עשו לתמונות הללו downsumpling ביחס של פי ארבעה כך שיצאו תמונות בגודל 24x24 נקרא להן lr (low resolution) לאחר מכן במהלך האימון הכניסו את התמונות lr למחולל שבתורו הוציא תמונות ברזולוציה 96x96 נקרא להן sr (super resolution) כאשר אנו מכוונים לsr שיהיה כמה שיותר דומה ל lr המקוריות.

הערות שוליים[עריכת קוד מקור | עריכה]

^ Christian Ledig, Lucas Theis, Ferenc Huszar, Jose Caballero, Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2017-07 doi: 10.1109/cvpr.2017.19

קטגוריה:בינה מלאכותית קטגוריה:אלגוריתמים קטגוריה:למידה חישובית

[1] Christian Ledig, Lucas Theis, Ferenc Huszar, Jose Caballero, Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2017-07 doi: 10.1109/cvpr.2017.19

[1]