למידה עמוקה

מתוך ויקיפדיה, האנציקלופדיה החופשית
Gnome-colors-emblem-development.svg
ערך זה נמצא בתהליך עבודה מתמשך ובפרט תיקון שגיאות תרגום, הרחבה ואיחוד קטעים מקבילים עם רשת עצבית מלאכותית. הערך פתוח לעריכה.
אתם מוזמנים לבצע עריכה לשונית, ויקיזציה וסגנון לפסקאות שנכתבו, וכמו כן לעזור להרחיב ולהשלים את הערך.

למידה עמוקהאנגלית: Deep Learning ולפעמים Deep Structured Learning) היא מחלקה של שיטות למידת מכונה המבוססות על רשתות עצביות מלאכותיות שמאפשרת למידת ייצוגים (אנ'). הלמידה עצמה יכולה להיות מונחית, מונחית למחצה או ללא הנחיה.[1][2]

ארכיטקטורות למידה עמוקה כגון רשתות עמוקות (deep neural networks), למידת חיזוקים עמוקה (deep reinforcement learning), רשתות עצביות חוזרות (recurrent neural networks), ורשתות קונבולוציה יושמו בתחומים מגוונים ביניהם: ראייה ממוחשבת, זיהוי דיבור, עיבוד שפה טבעית, תרגום מכונה, ביואינפורמטיקה, תכנון תרופות, ניתוח תמונות רפואיות, בדיקות חומרים ומשחקי לוח, שבהן הם הניבו תוצאות דומות למומחים אנושיים ובמקרים מסוימים אף עלו עליהן.[3][4]

מודל הרשת העצבית המלאכותית נוצר בהשראת עיבוד מידע וצמתי תקשורת מבוזרים המצויים במערכות ביולוגיות. אמנם, רשתות אלו שונות ממוח ביולוגי. באופן ספציפי, מבנה רשתות עצביות מלאכותיות נוטה להיות סטטי, בעוד שהמוח הביולוגי של רוב האורגניזמים החיים הוא דינמי. הבדל נוסף הוא שמחשבים פועלים בעיקר בעיבוד טורי, או עם כמות קטנה של עיבוד מקבילי, ואילו מוחות של יצורים פועלים בעיבוד מקבילי.

שם התואר "עמוק" בלמידה עמוקה מתייחס לשימוש במספר שכבות ברשת. מרווין מינסקי וסימור פפרט הראו שפרספטרון יחיד אינו יכול ליצור את השער הלוגי XOR,[5] אולם משפט הקירוב האוניברסלי הראה שרשת בעלת שכבה נסתרת אחת ברוחב לא מוגבל עם פונקציית הפעלה לא ליניארית יכולה להיות מסַוֶג אוניברסלי.[6] למידה עמוקה בדרך כלל עוסקת במספר גדול של שכבות בגודל מוגבל.

הגדרה[עריכת קוד מקור | עריכה]

Representing Images on Multiple Layers of Abstraction in Deep Learning
ייצוג תמונות על ריבוי שכבות של הפשטה בלמידה עמוקה[7]

למידה עמוקה היא מחלקה של אלגוריתמים בתחום הכולל יותר, למידת מכונה אשר[8]:  " משתמש במספר שכבות כדי לחלץ בהדרגה תכונות ברמה גבוהה יותר מהקלט הגולמי". לדוגמה, בעיבוד תמונה דיגיטלי, שכבות נמוכות עשויות לזהות קצוות, בעוד שכבות גבוהות יותר עשויות לזהות את המושגים הרלוונטיים לאדם כגון ספַרוֹת, אותיות או פרצופים.

סקירה כללית[עריכת קוד מקור | עריכה]

רוב המודלים המודרניים של למידה עמוקה מבוססים על רשתות עצביות מלאכותיות, במיוחד רשתות עצביות קונבולוציוניות (CNN), אם כי הם יכולים לכלול גם נוסחאות הצעה (פרופוזיציוניות) או משתנים סמויים המאורגנים בשכבה במודלים מחוּללים עמוקים (generative models) כמו הצמתים ברשת אמונה עמוקה ומכונת בולצמן עמוקה.[9]

בלמידה עמוקה, כל רמה לומדת להפוך את נתוני הקלט שלה לייצוג מופשט ומרוכב יותר. ביישום זיהוי תמונה, הקלט הגולמי עשוי להיות מטריצה של פיקסלים; שכבת הייצוג הראשונה עשויה להפשיט את הפיקסלים ולקודד את הקצוות, השכבה השנייה עשויה להרכיב ולקודד סידורים של קצוות; השכבה השלישית עשויה לקודד אף ועיניים; והשכבה הרביעית עשויה לזהות שהתמונה מכילה פנים. נקודה חשובה היא שתהליך למידה עמוק יכול ללמוד אילו תכונות למקם בצורה אופטימלית באיזו רמה בעצמו. אמנם, זה לא בהכרח מבטל את הצורך בהנחיה ידנית. לדוגמה, מספר משתנה של שכבות וגודלי שכבות יכולים לספק דרגות שונות של הפשטה.[10][11]

המילה "עמוקה" ב"למידה עמוקה" מתייחסת למספר השכבות שבאמצעותן הנתונים עוברים עיבוד או שינוי. ליתר דיוק, למערכות למידה עמוקה יש עומק CAP (או credit assignment path) משמעותי. ה-CAP הוא שרשרת הטרנספורמציות מקלט לפלט. CAPs מתארים קשרים סיבתיים פוטנציאליים בין קלט ופלט. עבור רשת זרימה קדימה, העומק של ה-CAPs הוא זה של הרשת והוא מספר השכבות הנסתרות פלוס אחת (כיוון שגם שכבת הפלט מותאמת לפרמטרים). עבור רשתות עצביות חוזרות, שבהן אות עשוי להתפשט בשכבה יותר מפעם אחת, עומק ה-CAP עשוי להיות בלתי מוגבל. אין סף מוסכמים אוניברסלי של עומק מפריד בין למידה "רדודה" ללמידה עמוקה, אבל רוב החוקרים מסכימים שלמידה עמוקה כוללת עומק CAP גבוה מ-2. CAP של עומק 2 הוכח כקירוב אוניברסלי במובן זה שהוא יכול לחקות כל פונקציה.[12] ירתה מכך, שכבות נוספות אינן מוסיפות ליכולת קירוב הפונקציות של הרשת. מודלים עמוקים (CAP > 2) מסוגלים לחלץ תכונות טובות יותר ממודלים רדודים ומכאן, שכבות נוספות עוזרות ללמוד את התכונות בצורה יעילה.

ניתן לבנות ארכיטקטורות למידה עמוקה בשיטה חמדנית שכבה אחר שכבה. למידה עמוקה עוזרת להפריד את ההפשטות הללו ולבחור אילו תכונות משפרות את הביצועים.[10][11]

עבור משימות למידה מפוקחות, שיטות למידה עמוקה מבטלות את הנדסת המאפיינים, על ידי תרגום הנתונים לייצוגי ביניים קומפקטיים הדומים לגורמים הראשיים, ומפיקות מבנים שכבתיים המסירים יתירות בייצוג.

ניתן ליישם אלגוריתמי למידה עמוקה על משימות למידה-ללא-פיקוח. זהו יתרון חשוב מכיוון שהנתונים שאינם מתויגים נמצאים בשפע רב יותר מהנתונים המסומנים. דוגמאות למבנים עמוקים שניתן לאמן באופן לא מפוקח הם מדחסי היסטוריה עצבית[13] ורשתות אמונה עמוקות.[10][11]

פרשנויות[עריכת קוד מקור | עריכה]

רשתות עצביות עמוקות מתפרשות בדרך כלל במונחים של משפט הקירוב האוניברסלי[19] או היסק הסתברותי או בייסיאני.

משפט הקירוב האוניברסלי הקלאסי נוגע ליכולתן של רשתות זרימה קדימה עם שכבה נסתרת יחידה בגודל סופי לקירוב פונקציות רציפות. בשנת 1989 פורסמה ההוכחה הראשונה על ידי ג'ורג' סיבנקו עבור פונקציות הפעלה סיגמואידיות והוכללה לארכיטקטורות רב-שכבתיותזרימהנה קדימה בשנת 1991 על ידי קורט הורני. עבה ודמאותחהראתה בנוסף ה שקירוב אוניברסלי מתקיים גם עבור פונקציות הפעלה לא מוגבלותגוןמו היחידה הליניארית המתוקנ.[20]

משפט הקירוב האוניברסלי עבור רשתות עצביות עמוקות נוגע לקיבולת של רשתות עם רוחב מוגבל אך עם עומק שעשוי לגדול. לוּ הוכיח שאם הרוחב של רשת עצבית עמוקה עם הפעלת ReLU גדול בהחלט מממד הקלט, אזי הרשת יכולה להעריך כל פונקציה הניתנת לשילוב של אינטגרל לבג, אם הרוחב קטן או שווה לממד הקלט, אז רשת עצבים עמוקה אינה קירוב אוניברסלי.

הפרשנות ההסתברותית נובעת מתחום למידת המכונה. הוא כולל מסקנות, וכן את מושגי האופטימיזצה של אימון ובדיקה, הקשורים להתאוה והכללה, בהתאמה. ליתר דיוק, הפרשנות ההסתברותית מחשיבה את אי-ליניאריות ההפעלה כפונקציית התפלגות מצטר. הפרשנות ההסתברותית הובילה להכנסת הנשירה (dropout) כמסדרת (regulazier) ת ברשתות עצביות. הפרשנות ההסתברותית הוצגה על ידי חוקרים כולל הופפילדuuhsru owו נרנדרה לפופולרי בסקרים כמו זה על ידברידטופר י בישף.[21]

היסטוריה[עריכת קוד מקור | עריכה]

מהפכת הלמידה העמוקה[עריכת קוד מקור | עריכה]

כיצד למידה עמוקה היא תת-קבוצה של למידת מכונה וכיצד למידת מכונה היא תת-קבוצה של בינה מלאכותית (AI).

בשנת 2012, צוות בראשות ג'ורג' א'דאהל זכה ב"אתגר הפעילות המולקולרית של מרק" באמצעות רשתות עצביות עמוקות רב-משימתיות כדי לחזות את היעד הביו-מולקולרי של תרופה אחת.[22][23] בשנת 2014, הקבוצה של הוכריטר השתמשה בלמידה עמוקה כדי לזהות השפעות מחוץ למטרה ורעילויות של כימיקלים סביבתיים ברכיבים תזונתיים, במוצרים ביתיים ובתרופות וזכתה ב"אתגר הנתונים של Tox21" של המכונים NIH, FDA ו-NCATS.[24][25][26]

השפעות נוספות משמעותיות בזיהוי תמונה או אובייקט הורגשו מ-2011 עד 2012. למרות ש-CNN שאומנו על-ידי הפצה לאחור היו הנמצא כבר עשרות שנים, והטמעות GPU של NNs במשך שנים, כולל CNNs, היה צורך בהטמעות מהירות משמעותית של CNNs על GPUs כדי להתקדם בראייה ממוחשבת.[27][28][29][30] בשנת 2011, גישה זו השיגה לראשונה ביצועים על אנושיים בתחרות זיהוי דפוסים חזותיים. כמו כן, ב-2011 היא זכתה בתחרות כתב היד הסיני של ICDAR, ובמאי 2012 היא זכתה בתחרות פילוח התמונות של ISBI.[31] עד 2011, רשתות CNN לא מילאו תפקיד מרכזי בכנסים של ראייה ממוחשבת, אבל ביוני 2012, מאמר של סיקסאן בכנס המוביל CVPR[32] הראה כיצד איגום מקסימלי של CNN ב-GPU יכול לשפר באופן דרמטי רשומות בנצ'מרק רבים של ראייה. באוקטובר 2012, מערכת דומה מאת קריזבסקי[33] זכתה בתחרות ImageNet בקנה מידה גדול בהפרש משמעותי על פני שיטות למידת מכונה רדודות. בנובמבר 2012, המערכת של Ciresan זכתה גם בתחרות ה-ICPR בנושא ניתוח תמונות רפואיות גדולות לגילוי סרטן, ובשנה שלאחר מכן גם ב-MICCAI Grand Challenge באותו נושא.[34] בשנים 2013 ו-2014, שיעור השגיאות במשימת ImageNet באמצעות למידה עמוקה הופחת עוד יותר, בעקבות מגמה דומה בזיהוי דיבור בקנה מידה גדול.

לאחר מכן הורחב סיווג התמונות למשימה המאתגרת יותר של יצירת תיאורים (כתוביות) לתמונות, לעיתים קרובות כשילוב של CNNs ו-LSTMs.[35]

כמה חוקרים קובעים שהניצחון ב-ImageNet באוקטובר 2012 עיגן את תחילתה של "מהפכת הלמידה העמוקה" ששינתה את תעשיית הבינה המלאכותית.[36]

במרץ 2019, יהושע בנג'יו, ג'פרי הינטון ויאן לקון זכו בפרס טיורינג על פריצות דרך מושגיות והנדסיות שהפכו רשתות עצביות עמוקות למרכיב קריטי במחשוב.

רשתות עצביות[עריכת קוד מקור | עריכה]

רשתות עצבים מלאכותיות[עריכת קוד מקור | עריכה]

רשתות עצביות מלאכותיות (ANNs) או מערכות מקושרות הן מערכות מחשוב בהשראת הרשתות העצביות הביולוגיות המהוות מוח חי. מערכות כאלה לומדות (משפרות בהדרגה את יכולתן) לבצע משימות על ידי בחינת דוגמאות, בדרך כלל ללא תכנות ספציפי למשימה. לדוגמה, בזיהוי תמונות, הם עשויים ללמוד לזהות תמונות המכילות חתולים על ידי ניתוח תמונות לדוגמה שסומנו באופן ידני כ"חתול" או "ללא חתול" ושימוש בתוצאות האנליטיות כדי לזהות חתולים בתמונות אחרות. הם מצאו את רוב השימוש ביישומים שקשה לבטא עם אלגוריתם מחשב מסורתי באמצעות תכנות לוגי "מסורתי".

ANN מבוסס על אוסף של יחידות מחוברות הנקראות נוירונים מלאכותיים, (בדומה לנוירונים ביולוגיים במוח). כל חיבור (סינפסה) בין נוירונים יכול להעביר אות לנוירון אחר. הנוירון הקולט (הפוסט-סינפטי) יכול לעבד את האות ואז לאותת לנוירונים במורד הזרם המחוברים אליו. לנוירונים יכול להיות מצב, המיוצג בדרך כלל על ידי מספרים ממשיים, בדרך כלל בין 0 ל-1. לנוירונים ולסינפסות עשוי להיות גם משקל שמשתנה ככל שהלמידה מתקדמת, מה שיכול להגביר או להקטין את עוצמת האות שהוא שולח במורד הזרם.

בדרך כלל, נוירונים מאורגנים בשכבות. שכבות שונות עשויות לבצע סוגים שונים של טרנספורמציות על הקלט שלהן. האותות עוברים מהשכבה הראשונה (הקלט עצמו), לשכבה האחרונה (הפלט), לפעמים לאחר חציית השכבות מספר פעמים.

המטרה המקורית של גישת הרשת העצבית הייתה לפתור בעיות באותו אופן שבו יעשה מוח אנושי. עם הזמן, תשומת הלב התמקדה בהתאמת יכולות מנטליות ספציפיות, מה שהוביל לסטיות מביולוגיה כגון התפשטות לאחור, או העברת מידע בכיוון ההפוך והתאמת הרשת לשקף מידע זה.

רשתות עצביות שימשו במגוון משימות, כולל ראייה ממוחשבת, זיהוי דיבור, תרגום מכונה, סינון רשתות חברתיות, משחקי לוח ווידאו ואבחון רפואי.

נכון לשנת 2017, לרשתות עצביות יש בדרך כלל כמה אלפים עד כמה מיליוני יחידות ומיליוני חיבורים. למרות שמספר זה הוא בכמה סדרי גודל פחות ממספר הנוירונים במוח אנושי, רשתות אלו יכולות לבצע משימות רבות ברמה גבוהה מעבר לזו של בני אדם (למשל, זיהוי פנים, משחק "Go"[37]).

רשתות עצביות עמוקות[עריכת קוד מקור | עריכה]

רשת עצבית עמוקה (DNN) היא רשת עצבית מלאכותית (ANN) עם שכבות מרובות בין שכבות הקלט והפלט.[9] ישנם סוגים שונים של רשתות עצביות אך הן תמיד מורכבות מאותם מרכיבים: נוירונים, סינפסות, משקלים, הטיות ותפקודים.[38] רכיבים אלו פועלים באופן יחסית דומה למוח האנושי וניתן לאמן אותם כמו כל אלגוריתם ML אחר.

לדוגמה, DNN שמאומן לזהות גזעי כלבים יעבור על התמונה הנתונה ויחשב את ההסתברות שהכלב בתמונה הוא גזע מסוים. המשתמש יכול לעיין בתוצאות ולבחור אילו הסתברויות הרשת צריכה להציג (מעל סף מסוים וכו') ולהחזיר את התווית המוצעת. כל מניפולציה מתמטית כשלעצמה נחשבת לשכבה, ול-DNN מורכב יש רבדים רבים, ומכאן השם רשתות "עמוקות".

DNNs יכולים למדל קשרים לא ליניאריים מורכבים. ארכיטקטורות DNN מייצרות מודלים מורכבים שבהם האובייקט מתבטא כקומפוזיציה מרובדת של פרימיטיבים.[39] השכבות הנוספות מאפשרות הרכבה של תכונות משכבות נמוכות יותר, ועשויות ליצור מודלים של נתונים מורכבים עם פחות יחידות מאשר רשת רדודה בעלת ביצועים דומים.[9] לדוגמה, הוכח כי קל יותר באופן אקספוננציאלי, לבצע קירוב לפולינומים דלילים רבי-משתנים עם DNNs מאשר עם רשתות רדודות.

ארכיטקטורות עמוקות כוללות גרסאות רבות של כמה גישות בסיסיות. כל ארכיטקטורה מצאה הצלחה בתחומים ספציפיים. לא תמיד ניתן להשוות את הביצועים של ארכיטקטורות מרובות, אלא אם כן הם הוערכו על אותם מערכי נתונים.

DNNs הם בדרך כלל רשתות הזנה קדימה שבהן נתונים זורמים משכבת הקלט לשכבת הפלט מבלי לחזור אחורה. בתחילה, ה-DNN יוצר מפה של נוירונים וירטואליים ומקצה ערכים מספריים אקראיים, או "משקלות", לקשרים ביניהם. המשקולות והכניסות מוכפלות ומחזירות פלט בין 0 ל-1. אם הרשת לא זיהתה במדויק דפוס מסוים, אלגוריתם יתאים את המשקולות.[40] כך האלגוריתם יכול להפוך פרמטרים מסוימים למשפיעים יותר, עד שהוא יקבע את המניפולציה המתמטית הנכונה לעיבוד מלא של הנתונים.

רשתות עצביות חוזרות (RNNs), שבהן נתונים יכולים לזרום לכל כיוון, משמשות ליישומים כמו מודלים של שפות.[41][42][43] זיכרון גדול לטווח-קצר יעיל במיוחד לשימוש זה.[44][45]

רשתות קונבולוציה (CNN) משמשות בראייה ממוחשבת.[46] CNNs יושמו גם למידול אקוסטי לזיהוי דיבור אוטומטי (ASR).[47]

אתגרים[עריכת קוד מקור | עריכה]

כמו ב-ANN, בעיות רבות יכולות להתעורר עם DNNs עם הכשרה "נאיבית". שתי בעיות נפוצות הן התאמת יתר וזמן חישוב.

DNNs נוטים להתאים יתר על המידה בגלל שכבות ההפשטה הנוספות, המאפשרות להם למדל תלויות נדירות בנתוני האימון. הסדרת (רגולריזציה) שיטות כגון "הגיזום היחיד" של איבננקו[48] או דעיכת משקל ( רגוליזציה) או דלילות ( - רגוליזציה) ניתן ליישם במהלך האימון כדי לטפל בחלק משמעותי מהתאמת היתר.[49] לחלופין, הסדרת נשירה משמיטה באופן אקראי יחידות מהשכבות הנסתרות במהלך האימון. זה עוזר לשלול תלות נדירה.[50] לבסוף, ניתן להגדיל את הנתונים באמצעות שיטות כגון חיתוך וסיבוב, כך שניתן להגדיל מערכי אימונים קטנים יותר כדי להקטין את הסיכוי להתאמת יתר.[51]

DNNs חייבים לקחת בחשבון פרמטרים רבים של אימון, כגון הגודל (מספר השכבות ומספר היחידות לשכבה), קצב הלמידה והמשקלים הראשוניים. סריקה של מרחב הפרמטרים בחיפוש עבור פרמטרים אופטימליים ייתכן שלא יהיה אפשרי בשל עלות הזמן ומשאבי החישוב. טריקים שונים, כגון batching (חישוב גרדיאנט על מספר דוגמאות אימון בו-זמנית ולא דוגמאות בודדות)[52] מאיצים את החישוב. יכולות עיבוד גדולות של ארכיטקטורות ליבות רבות (כגון GPUs או Intel Xeon Phi) הביאו להאצות משמעותיות באימון, בגלל ההתאמה של ארכיטקטורות עיבוד כאלה למטריצה ולחישובי וקטור.[53][54]

לחלופין, מהנדסים עשויים לחפש סוגים אחרים של רשתות עצביות עם אלגוריתמי אימון פשוטים ומתכנסים יותר. CMAC (בקר דגם articulation cerebellar) הוא סוג כזה של רשת עצבית. זה לא דורש שיעורי למידה או משקלים ראשוניים אקראיים עבור CMAC. ניתן להבטיח שתהליך האימון יתכנס בשלב אחד עם אצווה חדשה של נתונים, והמורכבות החישובית של אלגוריתם האימון היא ליניארית ביחס למספר הנוירונים המעורבים.[55]

חומרה[עריכת קוד מקור | עריכה]

מאז שנות ה-2010, התקדמות הן באלגוריתמי למידת מכונה והן בחומרת המחשבים הובילה לשיטות יעילות יותר לאימון רשתות עצביות עמוקות המכילות שכבות רבות של יחידות נסתרות לא ליניאריות ושכבת פלט גדולה מאוד באופן יחסי.[56] עד שנת 2019, יחידות עיבוד גרפי (GPUs), לעיתים קרובות עם שיפורים ספציפיים ל-AI, החליפו את המעבדים כשיטה הדומיננטית לאימון AI ענן מסחרי בקנה מידה גדול.[57] OpenAI העריכה את חישוב החומרה המשמש בפרויקטים הגדולים ביותר של למידה עמוקה מ-AlexNet (2012) ועד AlphaZero (2017), ומצאה עלייה של פי 300,000 בכמות החישוב הנדרשת, עם קו מגמה של זמן הכפל של 3.4 חודשים.[58][59]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

ויקישיתוף מדיה וקבצים בנושא למידה עמוקה בוויקישיתוף

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). "Deep Learning". Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442.
  2. ^ Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning, MIT Press, 2016
  3. ^ Silver, D., Schrittwieser, J., Simonyan, K. et al., Mastering the game of Go without human knowledge, Nature 550, 2017, עמ' 354–359
  4. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry, ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada, 2012
  5. ^ Papert, Seymour; Minsky, Marvin Lee, Perceptrons: an introduction to computational geometry, Cambridge, Massachusetts: MIT Press, 1988, ISBN 978-0-262-63111-2
  6. ^ Hornik, Kurt; Tinchcombe, Maxwell; White, Halbert, Multilayer Feedforward Networks are Universal Approximators, Neural Networks 2, Pergamon Press, 1989, עמ' 359–366
  7. ^ Schulz, Hannes; Behnke, Sven (1 בנובמבר 2012). "Deep Learning". KI - Künstliche Intelligenz (באנגלית). 26 (4): 357–363. doi:10.1007/s13218-012-0198-z. ISSN 1610-1987. {{cite journal}}: (עזרה)
  8. ^ Deng, L.; Yu, D. (2014). "Deep Learning: Methods and Applications" (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1–199. doi:10.1561/2000000039. אורכב מ-המקור (PDF) ב-2016-03-14. נבדק ב-2014-10-18.
  9. ^ 1 2 3 Bengio, Yoshua (2009). "Learning Deep Architectures for AI" (PDF). Foundations and Trends in Machine Learning. 2 (1): 1–127. doi:10.1561/2200000006. אורכב מ-המקור (PDF) ב-4 במרץ 2016. נבדק ב-3 בספטמבר 2015. {{cite journal}}: (עזרה)
  10. ^ 1 2 3 Bengio, Y.; Courville, A.; Vincent, P. (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338.
  11. ^ 1 2 3 LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (28 במאי 2015). "Deep learning". Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. {{cite journal}}: (עזרה)
  12. ^ Shigeki, Sugiyama (12 באפריל 2019). Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities (באנגלית). IGI Global. ISBN 978-1-5225-8218-2. {{cite book}}: (עזרה)
  13. ^ Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832. אורכב מ-המקור ב-2016-04-19. נבדק ב-2016-04-09free{{cite journal}}: תחזוקה - ציטוט: postscript (link)
  14. ^ Cybenko (1989). "Approximations by superpositions of sigmoidal functions" (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303–314. doi:10.1007/bf02551274. S2CID 3958369. אורכב מ-המקור (PDF) ב-10 באוקטובר 2015. {{cite journal}}: (עזרה)
  15. ^ Hornik, Kurt (1991). "Approximation Capabilities of Multilayer Feedforward Networks". Neural Networks. 4 (2): 251–257. doi:10.1016/0893-6080(91)90009-t.
  16. ^ Haykin, Simon S. (1999). [
    שגיאות פרמטריות בתבנית:Google book

    פרמטרים [ id, plainurl ] לא מופיעים בהגדרת התבנית

    פרמטרי חובה [ מזהה ] חסרים
    https://books.google.com/books?id=bX4pAQAAMAAJ Neural Networks: A Comprehensive Foundation]. Prentice Hall. ISBN 978-0-13-273350-2.
    {{cite book}}: Check |url= value (עזרה)
  17. ^ Hassoun, Mohamad H. (1995). [
    שגיאות פרמטריות בתבנית:Google book

    פרמטרים [ id, plainurl, page ] לא מופיעים בהגדרת התבנית

    פרמטרי חובה [ מזהה ] חסרים
    https://books.google.com/books?id=Otk32Y3QkxQC&pg=PA48 Fundamentals of Artificial Neural Networks]. MIT Press. p. 48. ISBN 978-0-262-08239-6.
    {{cite book}}: Check |url= value (עזרה)
  18. ^ Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width (אורכב 13.02.2019 בארכיון Wayback Machine). Neural Information Processing Systems, 6231-6239.
  19. ^ [14][15][16][17][18]
  20. ^ Sonoda, Sho; Murata, Noboru (2017). "Neural network with unbounded activation functions is universal approximator". Applied and Computational Harmonic Analysis. 43 (2): 233–268. arXiv:1505.03654. doi:10.1016/j.acha.2015.12.005.
  21. ^ Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF). Springer. ISBN 978-0-387-31073-2. אורכב מ-המקור (PDF) ב-2017-01-11. נבדק ב-2017-08-06.
  22. ^ "Merck Molecular Activity Challenge". kaggle.com. אורכב מ-המקור ב-2020-07-16. נבדק ב-2020-07-16.
  23. ^ "Multi-task Neural Networks for QSAR Predictions | Data Science Association". www.datascienceassn.org. אורכב מ-המקור ב-30 באפריל 2017. נבדק ב-14 ביוני 2017. {{cite web}}: (עזרה)
  24. ^ "Toxicology in the 21st century Data Challenge"
  25. ^ "NCATS Announces Tox21 Data Challenge Winners". אורכב מ-המקור ב-2015-09-08. נבדק ב-2015-03-05.
  26. ^ "Archived copy". אורכב מ-המקור ב-28 בפברואר 2015. נבדק ב-5 במרץ 2015. {{cite web}}: (עזרה); (עזרה)
  27. ^ Oh, K.-S.; Jung, K. (2004). "GPU implementation of neural networks". Pattern Recognition. 37 (6): 1311–1314. Bibcode:2004PatRe..37.1311O. doi:10.1016/j.patcog.2004.01.013.
  28. ^ Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), High performance convolutional neural networks for document processing, אורכב מ-המקור ב-2020-05-18, נבדק ב-2021-02-14
  29. ^ LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989.
  30. ^ Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L. M.; Schmidhuber, J. (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (PDF). International Joint Conference on Artificial Intelligence. doi:10.5591/978-1-57735-516-8/ijcai11-210. אורכב מ-המקור (PDF) ב-2014-09-29. נבדק ב-2017-06-13.
  31. ^ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q. (eds.). Advances in Neural Information Processing Systems 25 (PDF). Curran Associates, Inc. pp. 2843–2851. אורכב מ-המקור (PDF) ב-2017-08-09. נבדק ב-2017-06-13.
  32. ^ Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. pp. 3642–3649. arXiv:1202.2745. doi:10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8.
  33. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry (2012). "ImageNet Classification with Deep Convolutional Neural Networks" (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. אורכב מ-המקור (PDF) ב-2017-01-10. נבדק ב-2017-05-24.
  34. ^ Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. (2013). "Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks". Proceedings MICCAI. Lecture Notes in Computer Science. 7908 (Pt 2): 411–418. doi:10.1007/978-3-642-40763-5_51. ISBN 978-3-642-38708-1. PMID 24579167.
  35. ^ Zhong, Sheng-hua; Liu, Yan; Liu, Yang (2011). "Bilinear Deep Learning for Image Classification". Proceedings of the 19th ACM International Conference on Multimedia. MM '11. New York, NY, USA: ACM: 343–352. doi:10.1145/2072298.2072344. ISBN 9781450306164.
  36. ^ "Why Deep Learning Is Suddenly Changing Your Life". Fortune. 2016. אורכב מ-המקור ב-14 באפריל 2018. נבדק ב-13 באפריל 2018. {{cite news}}: (עזרה)
  37. ^ Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (בינואר 2016). "Mastering the game of Go with deep neural networks and tree search". Nature. 529 (7587): 484–489. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. ISSN 1476-4687. PMID 26819042. {{cite journal}}: (עזרה)
  38. ^ A Guide to Deep Learning and Neural Networks, אורכב מ-המקור ב-2020-11-02, נבדק ב-2020-11-16
  39. ^ Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). "Deep neural networks for object detection". Advances in Neural Information Processing Systems: 2553–2561. אורכב מ-המקור ב-2017-06-29. נבדק ב-2017-06-13.
  40. ^ Hof, Robert D. "Is Artificial Intelligence Finally Coming into Its Own?". MIT Technology Review. אורכב מ-המקור ב-31 במרץ 2019. נבדק ב-10 ביולי 2018. {{cite news}}: (עזרה)
  41. ^ Gers, Felix A.; Schmidhuber, Jürgen (2001). "LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages". IEEE Transactions on Neural Networks. 12 (6): 1333–1340. doi:10.1109/72.963769. PMID 18249962. אורכב מ-המקור ב-2020-01-26. נבדק ב-2020-02-25.
  42. ^ Sutskever, L.; Vinyals, O.; Le, Q. (2014). "Sequence to Sequence Learning with Neural Networks" (PDF). Proc. NIPS. arXiv:1409.3215. Bibcode:2014arXiv1409.3215S. אורכב מ-המקור (PDF) ב-2021-05-09. נבדק ב-2017-06-13.
  43. ^ Mikolov, T.; et al. (2010). "Recurrent neural network based language model" (PDF). Interspeech: 1045–1048. doi:10.21437/Interspeech.2010-343. אורכב מ-המקור (PDF) ב-2017-05-16. נבדק ב-2017-06-13.
  44. ^ Hochreiter, Sepp; Schmidhuber, Jürgen (1 בנובמבר 1997). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. {{cite journal}}: (עזרה)
  45. ^ "Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)". ResearchGate. אורכב מ-המקור ב-9 במאי 2021. נבדק ב-13 ביוני 2017. {{cite web}}: (עזרה)
  46. ^ LeCun, Y.; et al. (1998). "Gradient-based learning applied to document recognition". Proceedings of the IEEE. 86 (11): 2278–2324. doi:10.1109/5.726791.
  47. ^ Sainath, Tara N.; Mohamed, Abdel-Rahman; Kingsbury, Brian; Ramabhadran, Bhuvana (2013). "Deep convolutional neural networks for LVCSR". 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 8614–8618. doi:10.1109/icassp.2013.6639347. ISBN 978-1-4799-0356-6.
  48. ^ Ivakhnenko, Alexey (1971). "Polynomial theory of complex systems" (PDF). IEEE Transactions on Systems, Man and Cybernetics. SMC-1 (4): 364–378. doi:10.1109/TSMC.1971.4308320. אורכב מ-המקור (PDF) ב-2017-08-29. נבדק ב-2019-11-05.
  49. ^ Bengio, Yoshua; Boulanger-Lewandowski, Nicolas; Pascanu, Razvan (2013). "Advances in optimizing recurrent networks". 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 8624–8628. arXiv:1212.0901. CiteSeerX 10.1.1.752.9151. doi:10.1109/icassp.2013.6639349. ISBN 978-1-4799-0356-6.
  50. ^ Dahl, G.; et al. (2013). "Improving DNNs for LVCSR using rectified linear units and dropout" (PDF). ICASSP. אורכב מ-המקור (PDF) ב-2017-08-12. נבדק ב-2017-06-13.
  51. ^ "Data Augmentation - deeplearning.ai | Coursera". Coursera. אורכב מ-המקור ב-1 בדצמבר 2017. נבדק ב-30 בנובמבר 2017. {{cite web}}: (עזרה)
  52. ^ Hinton, G. E. (2010). "A Practical Guide to Training Restricted Boltzmann Machines". Tech. Rep. UTML TR 2010-003. אורכב מ-המקור ב-2021-05-09. נבדק ב-2017-06-13.
  53. ^ You, Yang; Buluç, Aydın; Demmel, James (בנובמבר 2017). "Scaling deep learning on GPU and knights landing clusters". Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis on - SC '17. SC '17, ACM. pp. 1–12. doi:10.1145/3126908.3126912. ISBN 9781450351140. אורכב מ-המקור ב-29 ביולי 2020. נבדק ב-5 במרץ 2018. {{cite book}}: (עזרה)
  54. ^ Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). "CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi". The Journal of Supercomputing. 75: 197–227. arXiv:1702.07908. Bibcode:2017arXiv170207908V. doi:10.1007/s11227-017-1994-x.
  55. ^ Ting Qin, et al. "A learning algorithm of CMAC based on RLS." Neural Processing Letters 19.1 (2004): 49-61.
  56. ^ Research, AI (23 באוקטובר 2015). "Deep Neural Networks for Acoustic Modeling in Speech Recognition". airesearch.com. אורכב מ-המקור ב-1 בפברואר 2016. נבדק ב-23 באוקטובר 2015. {{cite web}}: (עזרה)
  57. ^ "GPUs Continue to Dominate the AI Accelerator Market for Now". InformationWeek (באנגלית). בדצמבר 2019. אורכב מ-המקור ב-10 ביוני 2020. נבדק ב-11 ביוני 2020. {{cite news}}: (עזרה)
  58. ^ Ray, Tiernan (2019). "AI is changing the entire nature of computation". ZDNet (באנגלית). אורכב מ-המקור ב-25 במאי 2020. נבדק ב-11 ביוני 2020. {{cite news}}: (עזרה)
  59. ^ "AI and Compute". OpenAI (באנגלית). 16 במאי 2018. אורכב מ-המקור ב-17 ביוני 2020. נבדק ב-11 ביוני 2020. {{cite web}}: (עזרה)