למידה עמוקה – הבדלי גרסאות

מתוך ויקיפדיה, האנציקלופדיה החופשית
תוכן שנמחק תוכן שנוסף
בהמשך לבקשות ממפעילים
תגית: שינוי יעד הפניה
יצירה באמצעות תרגום הדף "Deep learning"
שורה 1: שורה 1:
'''למידה עמוקה''' (ב[[אנגלית]]: '''Deep Learning''' ולפעמים '''Deep Structured Learning''') היא חלק ממשפחה רחבה יותר של שיטות [[למידת מכונה]] המבוססות על [[רשת עצבית מלאכותית|רשתות עצביות מלאכותיות]] עם למידת ייצוג או [[למידת מאפיינים]]. הלמידה יכולה להיות [[למידה מונחית|בפיקוח]], בפיקוח חלקי או [[למידה בלתי מונחית|ללא פיקוח]].<ref name="BENGIO2012">{{Cite journal|title=Representation Learning: A Review and New Perspectives|last=Bengio|first=Y.|last2=Courville|first2=A.|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|issue=8|doi=10.1109/tpami.2013.50|year=2013|volume=35|pages=1798–1828|arxiv=1206.5538|pmid=23787338|last3=Vincent|first3=P.}}</ref><ref name="NatureBengio">{{Cite journal|title=Deep Learning|last=Bengio|first=Yoshua|last2=LeCun|first2=Yann|journal=Nature|issue=7553|doi=10.1038/nature14539|year=2015|volume=521|pages=436–444|bibcode=2015Natur.521..436L|pmid=26017442|last3=Hinton|first3=Geoffrey}}</ref>
#הפניה[[רשת עצבית מלאכותית#שנות האלפיים - למידה עמוקה]]

ארכיטקטורות למידה עמוקה כגון רשתות עצביות עמוקות (deep neural networks), רשתות אמונות עמוקות (deep belief networks), למידה בפיקוח עמוק (deep reinforcement learning), רשתות עצביות חוזרות (recurrent neural networks), ו[[רשת עצבית מתפתחת|רשתות עצביות מתפתחות]] יושמו בתחומים מגוונים ביניהם תחומי: [[ראייה ממוחשבת]], [[מערכת זיהוי דיבור|זיהוי דיבור]], [[עיבוד שפה טבעית]], [[תרגום מכונה]], [[ביואינפורמטיקה]], עיצוב תרופות, ניתוח תמונות רפואיות, בדיקות חומרים ו[[משחק לוח|משחקי לוח]], שבהן הם הניבו תוצאות דומות ובמקרים מסוימים עולים על ביצועי המומחים האנושיים.<ref>{{Cite journal|url=https://ieeexplore.ieee.org/document/9244647|title=Voronoi-Based Multi-Robot Autonomous Exploration in Unknown Environments via Deep Reinforcement Learning|last=Hu|first=J.|last2=Niu|first2=H.|date=2020|journal=IEEE Transactions on Vehicular Technology|issue=12|doi=10.1109/TVT.2020.3034800|volume=69|pages=14413–14423|last3=Carrasco|first3=J.|last4=Lennox|first4=B.|last5=Arvin|first5=F.|access-date=2021-05-04|archive-url=https://web.archive.org/web/20201116193020/https://ieeexplore.ieee.org/document/9244647|archive-date=2020-11-16}}</ref><ref name=":9">{{Cite book|title=2012 IEEE Conference on Computer Vision and Pattern Recognition|last=Ciresan|first=D.|last2=Meier|first2=U.|last3=Schmidhuber|first3=J.|year=2012|isbn=978-1-4673-1228-8|pages=3642–3649|chapter=Multi-column deep neural networks for image classification|arxiv=1202.2745|doi=10.1109/cvpr.2012.6248110}}</ref><ref name="krizhevsky2012">{{Cite journal|url=https://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|title=ImageNet Classification with Deep Convolutional Neural Networks|last=Krizhevsky|first=Alex|last2=Sutskever|first2=Ilya|date=2012|journal=NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada|last3=Hinton|first3=Geoffry|access-date=2017-05-24|archive-url=https://web.archive.org/web/20170110123024/http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|archive-date=2017-01-10}}</ref><ref>{{Cite web|title=Google's AlphaGo AI wins three-match series against the world's best Go player|url=https://techcrunch.com/2017/05/24/alphago-beats-planets-best-human-go-player-ke-jie/amp/|website=TechCrunch|date=25 May 2017|accessdate=17 June 2018|archivedate=17 June 2018|archiveurl=https://web.archive.org/web/20180617065807/https://techcrunch.com/2017/05/24/alphago-beats-planets-best-human-go-player-ke-jie/amp/}}</ref>

מודל [[רשת עצבית מלאכותית|רשת עצבים מלאכותית]] (ANN) נוצרו בהשראת עיבוד מידע וצמתי תקשורת מבוזרים המצויים במערכות ביולוגיות. אמנם, ל-ANN הבדלים שונים [[מוח|ממוח]] ביולוגי. באופן ספציפי, רשתות עצבים מלאכותיות נוטות להיות סטטיות וסמליות, בעוד שהמוח הביולוגי של רוב האורגניזמים החיים הוא דינמי (פלסטי) ואנלוגי.<ref>{{Cite journal|title=Toward an Integration of Deep Learning and Neuroscience|last=Marblestone|first=Adam H.|last2=Wayne|first2=Greg|date=2016|journal=Frontiers in Computational Neuroscience|doi=10.3389/fncom.2016.00094|volume=10|pages=94|arxiv=1606.03813|bibcode=2016arXiv160603813M|pmc=5021692|pmid=27683554|postscript=free|last3=Kording|first3=Konrad P.}}</ref><ref>{{Cite journal|title=Emergence of simple-cell receptive field properties by learning a sparse code for natural images|last=Olshausen|first=B. A.|journal=Nature|issue=6583|doi=10.1038/381607a0|year=1996|volume=381|pages=607–609|bibcode=1996Natur.381..607O|pmid=8637596}}</ref>

שם התואר "עמוק" בלמידה עמוקה מתייחס לשימוש במספר רבדים ברשת. עבודה מוקדמת הראתה ש[[פרספטרון|אלגוריתם קולטן]] ליניארי אינו יכול להיות מסַוֶג אוניברסלי, אולם היא הראתה גם שרשת עם פונקציית הפעלה לא פולינומית עם שכבה נסתרת אחת ברוחב לא מוגבל כן יכולה. למידה עמוקה היא וריאציה מודרנית העוסקת במספר בלתי מוגבל של שכבות בגודל מוגבל, המאפשרת יישום מעשי ויישום מיטבי, תוך שמירה על אוניברסליות תיאורטית בתנאים "מתונים". בלמידה עמוקה, גם מותר לשכבות להיות הטרוגניות ולסטות באופן ניכר ממודלים מקושרים ביולוגיים ([[:en:Connectionism|connectionism]]), לטובת יעילות, אימוניות (trainability) ובהירות (understandability), ומשם נובע התוספת "structured" שבשם "Deep Structured Learning".

== הגדרה ==
[[קובץ:Deep_Learning.jpg|טקסט=Representing Images on Multiple Layers of Abstraction in Deep Learning|ממוזער| ייצוג תמונות על ריבוי שכבות של הפשטה בלמידה עמוקה<ref>{{Cite journal|url=https://www.semanticscholar.org/paper/51a80649d16a38d41dbd20472deb3bc9b61b59a0|title=Deep Learning|last=Schulz|first=Hannes|last2=Behnke|first2=Sven|date=1 November 2012|journal=KI - Künstliche Intelligenz|issue=4|doi=10.1007/s13218-012-0198-z|volume=26|pages=357–363|language=en|issn=1610-1987}}</ref>]]
למידה עמוקה היא מחלקה של [[אלגוריתם|אלגוריתמים]] בתחום הכולל יותר, [[למידת מכונה]] אשר<ref name="BOOK2014">{{Cite journal|url=http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|title=Deep Learning: Methods and Applications|last=Deng|first=L.|last2=Yu|first2=D.|journal=Foundations and Trends in Signal Processing|issue=3–4|doi=10.1561/2000000039|year=2014|volume=7|pages=1–199|access-date=2014-10-18|archive-url=https://web.archive.org/web/20160314152112/http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|archive-date=2016-03-14}}</ref>:  " משתמש במספר שכבות כדי לחלץ בהדרגה תכונות ברמה גבוהה יותר מהקלט הגולמי". לדוגמה, ב[[עיבוד תמונה|עיבוד תמונה דיגיטלי]], שכבות נמוכות עשויות לזהות קצוות, בעוד שכבות גבוהות יותר עשויות לזהות את המושגים הרלוונטיים לאדם כגון ספַרוֹת, אותיות או פרצופים.

== סקירה כללית ==
רוב המודלים המודרניים של למידה עמוקה מבוססים על [[רשת עצבית מלאכותית|רשתות עצביות מלאכותיות]], במיוחד [[רשת עצבית מתפתחת|רשתות עצביות קונבולוציוניות]] (CNN), אם כי הם יכולים לכלול גם נוסחאות הצעה (פרופוזיציוניות) או משתנים סמויים המאורגנים בשכבה במודלים מחוּללים עמוקים (generative models) כמו הצמתים ב[[רשת אמונה עמוקה]] ו[[מכונת בולצמן]] עמוקה.<ref name="BENGIODEEP">{{Cite journal|url=http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20%282009%29.pdf|title=Learning Deep Architectures for AI|last=Bengio|first=Yoshua|journal=Foundations and Trends in Machine Learning|issue=1|doi=10.1561/2200000006|year=2009|volume=2|pages=1–127|access-date=3 September 2015|archive-url=https://web.archive.org/web/20160304084250/http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20(2009).pdf|archive-date=4 March 2016}}</ref>

בלמידה עמוקה, כל רמה לומדת להפוך את נתוני הקלט שלה לייצוג מופשט ומרוכב יותר. ביישום זיהוי תמונה, הקלט הגולמי עשוי להיות [[מטריצה]] של פיקסלים; שכבת הייצוג הראשונה עשויה להפשיט את הפיקסלים ולקודד את הקצוות, השכבה השנייה עשויה להרכיב ולקודד סידורים של קצוות; השכבה השלישית עשויה לקודד אף ועיניים; והשכבה הרביעית עשויה לזהות שהתמונה מכילה פנים. נקודה חשובה היא שתהליך למידה עמוק יכול ללמוד אילו תכונות למקם בצורה אופטימלית באיזו רמה '''בעצמו'''. אמנם, זה לא בהכרח מבטל את הצורך בהנחיה ידנית. לדוגמה, מספר משתנה של שכבות וגדלי שכבות יכולים לספק דרגות שונות של הפשטה.<ref name="BENGIO2012">{{Cite journal|title=Representation Learning: A Review and New Perspectives|last=Bengio|first=Y.|last2=Courville|first2=A.|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|issue=8|doi=10.1109/tpami.2013.50|year=2013|volume=35|pages=1798–1828|arxiv=1206.5538|pmid=23787338|last3=Vincent|first3=P.}}<cite class="citation journal cs1" data-ve-ignore="true" id="CITEREFBengioCourvilleVincent2013">Bengio, Y.; Courville, A.; Vincent, P. (2013). "Representation Learning: A Review and New Perspectives". ''IEEE Transactions on Pattern Analysis and Machine Intelligence''. '''35''' (8): 1798–1828. [[ArXiv (מזהה)|arXiv]]:<span class="cs1-lock-free" title="Freely accessible">[//arxiv.org/abs/1206.5538 1206.5538]</span>. [[מזהה עצם דיגיטלי|doi]]:[[doi:10.1109/tpami.2013.50|10.1109/tpami.2013.50]]. [[PubMed|PMID]]&nbsp;[//pubmed.ncbi.nlm.nih.gov/23787338 23787338]. [[S2CID (מזהה)|S2CID]]&nbsp;[https://api.semanticscholar.org/CorpusID:393948 393948].</cite></ref><ref>{{Cite journal|title=Deep learning|last=LeCun|first=Yann|last2=Bengio|first2=Yoshua|date=28 May 2015|journal=Nature|issue=7553|doi=10.1038/nature14539|volume=521|pages=436–444|bibcode=2015Natur.521..436L|pmid=26017442|last3=Hinton|first3=Geoffrey}}</ref>

המילה "עמוקה" ב"למידה עמוקה" מתייחסת למספר השכבות שבאמצעותן הנתונים עוברים עיבוד או שינוי. ליתר דיוק, למערכות למידה עמוקה יש עומק CAP (או credit assignment path) משמעותי. ה-CAP הוא שרשרת הטרנספורמציות מקלט לפלט. CAPs מתארים קשרים סיבתיים פוטנציאליים בין קלט ופלט. עבור [[רשת זרימה קדימה]], העומק של ה-CAPs הוא זה של הרשת והוא מספר השכבות הנסתרות פלוס אחת (כיוון שגם שכבת הפלט מותאמת לפרמטרים). עבור רשתות עצביות חוזרות, שבהן אות עשוי להתפשט בשכבה יותר מפעם אחת, עומק ה-CAP עשוי להיות בלתי מוגבל. אין סף מוסכמים אוניברסלי של עומק מפריד בין למידה "רדודה" ללמידה עמוקה, אבל רוב החוקרים מסכימים שלמידה עמוקה כוללת עומק CAP גבוה מ-2. CAP של עומק 2 הוכח כקירוב אוניברסלי במובן זה שהוא יכול לחקות כל פונקציה.<ref>{{Cite book|url=https://books.google.com/books?id=9CqQDwAAQBAJ&pg=PA15|title=Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities|last=Shigeki|first=Sugiyama|date=12 April 2019|publisher=IGI Global|isbn=978-1-5225-8218-2|language=en}}</ref> ירתה מכך, שכבות נוספות אינן מוסיפות ליכולת קירוב הפונקציות של הרשת. מודלים עמוקים (CAP > 2) מסוגלים לחלץ תכונות טובות יותר ממודלים רדודים ומכאן, שכבות נוספות עוזרות ללמוד את התכונות בצורה יעילה.

ניתן לבנות ארכיטקטורות למידה עמוקה [[אלגוריתם חמדן|בשיטה חמדנית]] שכבה אחר שכבה. למידה עמוקה עוזרת להפריד את ההפשטות הללו ולבחור אילו תכונות משפרות את הביצועים. <ref name="BENGIO2012">{{Cite journal|title=Representation Learning: A Review and New Perspectives|last=Bengio|first=Y.|last2=Courville|first2=A.|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|issue=8|doi=10.1109/tpami.2013.50|year=2013|volume=35|pages=1798–1828|arxiv=1206.5538|pmid=23787338|last3=Vincent|first3=P.}}<cite class="citation journal cs1" data-ve-ignore="true" id="CITEREFBengioCourvilleVincent2013">Bengio, Y.; Courville, A.; Vincent, P. (2013). "Representation Learning: A Review and New Perspectives". ''IEEE Transactions on Pattern Analysis and Machine Intelligence''. '''35''' (8): 1798–1828. [[ArXiv (מזהה)|arXiv]]:<span class="cs1-lock-free" title="Freely accessible">[//arxiv.org/abs/1206.5538 1206.5538]</span>. [[מזהה עצם דיגיטלי|doi]]:[[doi:10.1109/tpami.2013.50|10.1109/tpami.2013.50]]. [[PubMed|PMID]]&nbsp;[//pubmed.ncbi.nlm.nih.gov/23787338 23787338]. [[S2CID (מזהה)|S2CID]]&nbsp;[https://api.semanticscholar.org/CorpusID:393948 393948].</cite></ref>

עבור [[למידה מונחית|משימות למידה מפוקחות]], שיטות למידה עמוקה מבטלות את [[הנדסת מאפיינים|הנדסת המאפיינים]], על ידי תרגום הנתונים לייצוגי ביניים קומפקטיים הדומים ל[[ניתוח גורמים ראשיים|גורמים הראשיים]], ומפיקות מבנים שכבתיים המסירים יתירות בייצוג.

ניתן ליישם אלגוריתמי למידה עמוקה על משימות למידה-ללא-פיקוח. זהו יתרון חשוב מכיוון שהנתונים שאינם מתויגים נמצאים בשפע רב יותר מהנתונים המסומנים. דוגמאות למבנים עמוקים שניתן לאמן באופן לא מפוקח הם מדחסי היסטוריה עצבית<ref name="scholarpedia">{{Cite journal|url=http://www.scholarpedia.org/article/Deep_Learning|title=Deep Learning|last=Schmidhuber|first=Jürgen|journal=Scholarpedia|issue=11|doi=10.4249/scholarpedia.32832|year=2015|volume=10|page=32832|bibcode=2015SchpJ..1032832S|postscript=free|access-date=2016-04-09|archive-url=https://web.archive.org/web/20160419024349/http://www.scholarpedia.org/article/Deep_Learning|archive-date=2016-04-19}}</ref> ורשתות אמונה עמוקות.<ref name="BENGIO2012">{{Cite journal|title=Representation Learning: A Review and New Perspectives|last=Bengio|first=Y.|last2=Courville|first2=A.|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|issue=8|doi=10.1109/tpami.2013.50|year=2013|volume=35|pages=1798–1828|arxiv=1206.5538|pmid=23787338|last3=Vincent|first3=P.}}<cite class="citation journal cs1" data-ve-ignore="true" id="CITEREFBengioCourvilleVincent2013">Bengio, Y.; Courville, A.; Vincent, P. (2013). "Representation Learning: A Review and New Perspectives". ''IEEE Transactions on Pattern Analysis and Machine Intelligence''. '''35''' (8): 1798–1828. [[ArXiv (מזהה)|arXiv]]:<span class="cs1-lock-free" title="Freely accessible">[//arxiv.org/abs/1206.5538 1206.5538]</span>. [[מזהה עצם דיגיטלי|doi]]:[[doi:10.1109/tpami.2013.50|10.1109/tpami.2013.50]]. [[PubMed|PMID]]&nbsp;[//pubmed.ncbi.nlm.nih.gov/23787338 23787338]. [[S2CID (מזהה)|S2CID]]&nbsp;[https://api.semanticscholar.org/CorpusID:393948 393948].</cite></ref><ref name="SCHOLARDBNS">{{Cite journal|title=Deep belief networks|last=Hinton|first=G.E.|journal=Scholarpedia|issue=5|doi=10.4249/scholarpedia.5947|year=2009|volume=4|page=5947|bibcode=2009SchpJ...4.5947H|postscript=free}}</ref>

== פרשנויות ==
רשתות עצביות עמוקות מתפרשות בדרך כלל במונחים של משפט הקירוב האוניברסלי{{הערה|<ref name=cyb>{{cite journal | last1 = Cybenko | year = 1989 | title = Approximations by superpositions of sigmoidal functions | url = http://deeplearning.cs.cmu.edu/pdfs/Cybenko.pdf | journal = [[Mathematics of Control, Signals, and Systems]] | volume = 2 | issue = 4 | pages = 303–314 | doi = 10.1007/bf02551274 | s2cid = 3958369 | url-status = dead | archive-url = https://web.archive.org/web/20151010204407/http://deeplearning.cs.cmu.edu/pdfs/Cybenko.pdf | archive-date = 10 October 2015 }}</ref><ref name=horn>{{cite journal | last1 = Hornik | first1 = Kurt | year = 1991 | title = Approximation Capabilities of Multilayer Feedforward Networks | journal = Neural Networks | volume = 4 | issue = 2| pages = 251–257 | doi=10.1016/0893-6080(91)90009-t}}</ref><ref name="Haykin, Simon 1998">{{cite book|first=Simon S. |last=Haykin|title=Neural Networks: A Comprehensive Foundation|url={{google books |plainurl=y |id=bX4pAQAAMAAJ}}|year=1999|publisher=Prentice Hall|isbn=978-0-13-273350-2}}</ref><ref name="Hassoun, M. 1995 p. 48">{{cite book|first=Mohamad H. |last=Hassoun|title=Fundamentals of Artificial Neural Networks|url={{google books |plainurl=y |id=Otk32Y3QkxQC|page=48}}|year=1995|publisher=MIT Press|isbn=978-0-262-08239-6|page=48}}</ref><ref name=ZhouLu>Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). [http://papers.nips.cc/paper/7203-the-expressive-power-of-neural-networks-a-view-from-the-width The Expressive Power of Neural Networks: A View from the Width] {{Webarchive|url=https://web.archive.org/web/20190213005539/http://papers.nips.cc/paper/7203-the-expressive-power-of-neural-networks-a-view-from-the-width |date=2019-02-13 }}. Neural Information Processing Systems, 6231-6239.</ref>}} או [[הסקה בייסיאנית|היסק הסתברותי או בייסיאני]].

משפט הקירוב האוניברסלי הקלאסי נוגע [[רשת זרימה קדימה|ליכולתן של רשתות זרימה קדימה]] עם שכבה נסתרת יחידה בגודל סופי לקירוב [[פונקציה רציפה (טופולוגיה)|פונקציות רציפות]]. בשנת 1989 פורסמה ההוכחה הראשונה על ידי [[ג'ורג' סיבנקו]] עבור פונקציות הפעלה [[סיגמואיד (מתמטיקה)|סיגמואידיות]] והוכללה לארכיטקטורות רב-שכבתיות[[סיגמואיד (מתמטיקה)|זרימה]]<nowiki/>נה קדימה בשנת 1991 על ידי קורט הורני. עבה ודמאותחהראתה בנוסף ה שקירוב אוניברסלי מתקיים גם עבור פונקציות הפעלה לא מוגבלותגוןמו היחידה הליניארית המתוקנ. <ref name="sonoda17">{{Cite journal|title=Neural network with unbounded activation functions is universal approximator|last=Sonoda|first=Sho|last2=Murata|first2=Noboru|journal=Applied and Computational Harmonic Analysis|issue=2|doi=10.1016/j.acha.2015.12.005|year=2017|volume=43|pages=233–268|arxiv=1505.03654}}</ref>

משפט הקירוב האוניברסלי עבור רשתות עצביות עמוקות נוגע לקיבולת של רשתות עם רוחב מוגבל אך עם עומק שעשוי לגדול. לוּ הוכיח שאם הרוחב של רשת עצבית עמוקה עם הפעלת ReLU גדול בהחלט מממד הקלט, אזי הרשת יכולה להעריך כל פונקציה הניתנת לשילוב של [[אינטגרל לבג]], אם הרוחב קטן או שווה לממד הקלט, אז רשת עצבים עמוקה אינה קירוב אוניברסלי.

הפרשנות [[הסתברות|ההסתברותית]] נובעת מתחום [[למידת מכונה|למידת המכונה]]. הוא כולל מסקנות, וכן את מושגי [[אופטימיזציה (מתמטיקה)|האופטימיזצשל]][[אימון|של אימון]] [[מבחן|ובדיקה]], הקשורים להתא[[מבחן|ו]]<nowiki/>ה [[הכללה (מתמטיקה)|והכללה]], בהתאמה. ליתר דיוק, הפרשנות ההסתברותית מחשיבה את אי-ליניאריות ההפעלה כפונקציית [[פונקציית התפלגות|התפלגות מצטר]] . הפרשנות ההסתברותית הובילה להכנסהנשירה (dropout) כמסדרת (regulazier) ת ברשתות עצביות. הפרשנות ההסתברותית הוצגה על ידי חוקרים כולל [[ג'ון ג'וזף הופפילד|הופפילד]]<nowiki/>uuhsru owו נרנדרה לפופולרי בסקרים כמו זה על ידברידטופר י בישף. <ref name="prml">{{Cite book|url=http://users.isr.ist.utl.pt/~wurmd/Livros/school/Bishop%20-%20Pattern%20Recognition%20And%20Machine%20Learning%20-%20Springer%20%202006.pdf|title=Pattern Recognition and Machine Learning|last=Bishop, Christopher M.|publisher=Springer|year=2006|isbn=978-0-387-31073-2|access-date=2017-08-06|archive-url=https://web.archive.org/web/20170111005101/http://users.isr.ist.utl.pt/~wurmd/Livros/school/Bishop%20-%20Pattern%20Recognition%20And%20Machine%20Learning%20-%20Springer%20%202006.pdf|archive-date=2017-01-11}}</ref>

== היסטוריה ==

=== מהפכת הלמידה העמוקה ===
[[קובץ:AI-ML-DL.svg|ממוזער| כיצד למידה עמוקה היא תת-קבוצה של למידת מכונה וכיצד למידת מכונה היא תת-קבוצה של בינה מלאכותית (AI).]]
בשנת 2012, צוות בראשות ג'ורג' א'דאהל זכה ב"אתגר הפעילות המולקולרית של מרק" באמצעות רשתות עצביות עמוקות רב-משימתיות כדי לחזות את היעד הביו-מולקולרי של תרופה אחת.<ref name="MERCK2012">{{Cite web|url=https://kaggle.com/c/MerckActivity|title=Merck Molecular Activity Challenge|website=kaggle.com|accessdate=2020-07-16|archivedate=2020-07-16|archiveurl=https://web.archive.org/web/20200716190808/https://www.kaggle.com/c/MerckActivity}}</ref><ref name=":5">{{Cite web|url=http://www.datascienceassn.org/content/multi-task-neural-networks-qsar-predictions|title=Multi-task Neural Networks for QSAR Predictions {{!}} Data Science Association|website=www.datascienceassn.org|accessdate=14 June 2017|archivedate=30 April 2017|archiveurl=https://web.archive.org/web/20170430142049/http://www.datascienceassn.org/content/multi-task-neural-networks-qsar-predictions}}</ref> בשנת 2014, הקבוצה של הוכריטר השתמשה בלמידה עמוקה כדי לזהות השפעות מחוץ למטרה ורעילויות של כימיקלים סביבתיים ברכיבים תזונתיים, במוצרים ביתיים ובתרופות וזכתה ב"אתגר הנתונים של Tox21" של המכונים [[המכונים הלאומיים לבריאות|NIH]], [[מנהל המזון והתרופות האמריקאי|FDA]] ו- NCATS.<ref name="TOX21">"Toxicology in the 21st century Data Challenge"</ref><ref name="TOX21Data">{{Cite web|url=https://tripod.nih.gov/tox21/challenge/leaderboard.jsp|title=NCATS Announces Tox21 Data Challenge Winners|accessdate=2015-03-05|archivedate=2015-09-08|archiveurl=https://web.archive.org/web/20150908025122/https://tripod.nih.gov/tox21/challenge/leaderboard.jsp}}</ref><ref name=":11">{{Cite web|url=http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html|title=Archived copy|archiveurl=https://web.archive.org/web/20150228225709/http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html|archivedate=28 February 2015|accessdate=5 March 2015}}</ref>

השפעות נוספות משמעותיות בזיהוי תמונה או אובייקט הורגשו מ-2011 עד 2012. למרות ש-CNN שאומנו על-ידי הפצה לאחור היו הנמצא כבר עשרות שנים, והטמעות GPU של NNs במשך שנים, כולל CNNs, היה צורך בהטמעות מהירות משמעותית של CNNs על GPUs כדי להתקדם בראייה ממוחשבת.<ref name="jung2004">{{Cite journal|title=GPU implementation of neural networks|last=Oh|first=K.-S.|last2=Jung|first2=K.|journal=Pattern Recognition|issue=6|doi=10.1016/j.patcog.2004.01.013|year=2004|volume=37|pages=1311–1314|bibcode=2004PatRe..37.1311O}}</ref><ref name="chellapilla2006">{{Citation|first=Kumar|last=Chellapilla|first2=Sidd|last2=Puri|first3=Patrice|last3=Simard|title=High performance convolutional neural networks for document processing|url=https://hal.inria.fr/inria-00112631/document|date=2006|access-date=2021-02-14|archivedate=2020-05-18|archiveurl=https://web.archive.org/web/20200518193413/https://hal.inria.fr/inria-00112631/document}}</ref><ref name="LECUN1989">LeCun ''et al.'', "Backpropagation Applied to Handwritten Zip Code Recognition," ''Neural Computation'', 1, pp. 541–551, 1989.</ref><ref name=":6">{{Cite journal|url=http://ijcai.org/papers11/Papers/IJCAI11-210.pdf|title=Flexible, High Performance Convolutional Neural Networks for Image Classification|last=Ciresan|first=D. C.|last2=Meier|first2=U.|date=2011|journal=International Joint Conference on Artificial Intelligence|doi=10.5591/978-1-57735-516-8/ijcai11-210|last3=Masci|first3=J.|last4=Gambardella|first4=L. M.|last5=Schmidhuber|first5=J.|access-date=2017-06-13|archive-url=https://web.archive.org/web/20140929094040/http://ijcai.org/papers11/Papers/IJCAI11-210.pdf|archive-date=2014-09-29}}</ref> בשנת 2011, גישה זו השיגה לראשונה ביצועים על אנושיים בתחרות זיהוי דפוסים חזותיים. כמו כן, ב-2011 היא זכתה בתחרות כתב היד הסיני של ICDAR, ובמאי 2012 היא זכתה בתחרות פילוח התמונות של ISBI.<ref name=":8">{{Cite book|url=http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|title=Advances in Neural Information Processing Systems 25|last=Ciresan|first=Dan|last2=Giusti|first2=Alessandro|last3=Gambardella|first3=Luca M.|last4=Schmidhuber|first4=Juergen|date=2012|publisher=Curran Associates, Inc.|editor-last=Pereira|editor-first=F.|pages=2843–2851|access-date=2017-06-13|editor-last2=Burges|editor-first2=C. J. C.|editor-last3=Bottou|editor-first3=L.|editor-last4=Weinberger|editor-first4=K. Q.|archive-url=https://web.archive.org/web/20170809081713/http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|archive-date=2017-08-09}}</ref> עד 2011, רשתות CNN לא מילאו תפקיד מרכזי בכנסים של ראייה ממוחשבת, אבל ביוני 2012, מאמר של סיקסאן בכנס המוביל CVPR<ref name=":9">{{Cite book|title=2012 IEEE Conference on Computer Vision and Pattern Recognition|last=Ciresan|first=D.|last2=Meier|first2=U.|last3=Schmidhuber|first3=J.|year=2012|isbn=978-1-4673-1228-8|pages=3642–3649|chapter=Multi-column deep neural networks for image classification|arxiv=1202.2745|doi=10.1109/cvpr.2012.6248110}}<cite class="citation book cs1" data-ve-ignore="true" id="CITEREFCiresanMeierSchmidhuber2012">Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). "Multi-column deep neural networks for image classification". ''2012 IEEE Conference on Computer Vision and Pattern Recognition''. pp.&nbsp;3642–3649. [[ArXiv (מזהה)|arXiv]]:<span class="cs1-lock-free" title="Freely accessible">[//arxiv.org/abs/1202.2745 1202.2745]</span>. [[מזהה עצם דיגיטלי|doi]]:[[doi:10.1109/cvpr.2012.6248110|10.1109/cvpr.2012.6248110]]. [[מסת"ב|ISBN]]&nbsp;[[מיוחד:BookSources/978-1-4673-1228-8|<bdi>978-1-4673-1228-8</bdi>]]. [[S2CID (מזהה)|S2CID]]&nbsp;[https://api.semanticscholar.org/CorpusID:2161592 2161592].</cite></ref> הראה כיצד איגום מקסימלי של CNN ב-GPU יכול לשפר באופן דרמטי רשומות בנצ'מרק רבים של ראייה. באוקטובר 2012, מערכת דומה מאת קריזבסקי<ref name="krizhevsky2012">{{Cite journal|url=https://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|title=ImageNet Classification with Deep Convolutional Neural Networks|last=Krizhevsky|first=Alex|last2=Sutskever|first2=Ilya|date=2012|journal=NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada|last3=Hinton|first3=Geoffry|access-date=2017-05-24|archive-url=https://web.archive.org/web/20170110123024/http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|archive-date=2017-01-10}}<cite class="citation journal cs1" data-ve-ignore="true" id="CITEREFKrizhevskySutskeverHinton2012">Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry (2012). [https://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf "ImageNet Classification with Deep Convolutional Neural Networks"] <span class="cs1-format">(PDF)</span>. ''NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada''. [https://web.archive.org/web/20170110123024/http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf Archived] <span class="cs1-format">(PDF)</span> from the original on 2017-01-10<span class="reference-accessdate">. Retrieved <span class="nowrap">2017-05-24</span></span>.</cite></ref> זכתה בתחרות [[ImageNet]] בקנה מידה גדול בהפרש משמעותי על פני שיטות למידת מכונה רדודות. בנובמבר 2012, המערכת של Ciresan זכתה גם בתחרות ה-ICPR בנושא ניתוח תמונות רפואיות גדולות לגילוי סרטן, ובשנה שלאחר מכן גם ב-MICCAI Grand Challenge באותו נושא.<ref name="ciresan2013miccai">{{Cite journal|title=Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks|last=Ciresan|first=D.|last2=Giusti|first2=A.|date=2013|journal=Proceedings MICCAI|issue=Pt 2|doi=10.1007/978-3-642-40763-5_51|series=Lecture Notes in Computer Science|volume=7908|pages=411–418|isbn=978-3-642-38708-1|pmid=24579167|last3=Gambardella|first3=L.M.|last4=Schmidhuber|first4=J.}}</ref> בשנים 2013 ו-2014, שיעור השגיאות במשימת ImageNet באמצעות למידה עמוקה הופחת עוד יותר, בעקבות מגמה דומה בזיהוי דיבור בקנה מידה גדול.

לאחר מכן הורחב סיווג התמונות למשימה המאתגרת יותר של יצירת תיאורים (כתוביות) לתמונות, לעתים קרובות כשילוב של CNNs ו-LSTMs.<ref>{{Cite journal|title=Bilinear Deep Learning for Image Classification|last=Zhong|first=Sheng-hua|last2=Liu|first2=Yan|date=2011|journal=Proceedings of the 19th ACM International Conference on Multimedia|publisher=ACM|doi=10.1145/2072298.2072344|series=MM '11|location=New York, NY, USA|pages=343–352|isbn=9781450306164|last3=Liu|first3=Yang}}</ref>

כמה חוקרים קובעים שהניצחון ב-ImageNet באוקטובר 2012 עיגן את תחילתה של "מהפכת הלמידה העמוקה" ששינתה את תעשיית הבינה המלאכותית.<ref>{{Cite news|title=Why Deep Learning Is Suddenly Changing Your Life|url=http://fortune.com/ai-artificial-intelligence-deep-machine-learning/|access-date=13 April 2018|work=Fortune|date=2016|archive-date=14 April 2018|archive-url=https://web.archive.org/web/20180414031925/http://fortune.com/ai-artificial-intelligence-deep-machine-learning/}}</ref>

במרץ 2019, [[יהושע בנג'יו]], [[ג'פרי הינטון]] ויאן לקון זכו בפרס [[פרס טיורינג|טיורינג]] על פריצות דרך מושגיות והנדסיות שהפכו רשתות עצביות עמוקות למרכיב קריטי במחשוב.

== רשתות עצביות ==

=== רשתות עצבים מלאכותיות ===
 
'''רשתות עצביות מלאכותיות''' '''(ANNs)''' או '''מערכות מקושרות''' הן מערכות מחשוב בהשראת [[רשת עצבית|הרשתות העצביות הביולוגיות]] המהוות מוח חי. מערכות כאלה לומדות (משפרות בהדרגה את יכולתן) לבצע משימות על ידי בחינת דוגמאות, בדרך כלל ללא תכנות ספציפי למשימה. לדוגמה, בזיהוי תמונות, הם עשויים ללמוד לזהות תמונות המכילות חתולים על ידי ניתוח תמונות לדוגמה שסומנו באופן ידני כ"חתול" או "ללא חתול" ושימוש בתוצאות האנליטיות כדי לזהות חתולים בתמונות אחרות. הם מצאו את רוב השימוש ביישומים שקשה לבטא עם אלגוריתם מחשב מסורתי באמצעות [[תכנות לוגי]] "מסורתי".

ANN מבוסס על אוסף של יחידות מחוברות הנקראות נוירונים מלאכותיים, (בדומה לנוירונים ביולוגיים ב[[מוח]]). כל חיבור ([[סינפסה]]) בין נוירונים יכול להעביר אות לנוירון אחר. הנוירון הקולט (הפוסט-סינפטי) יכול לעבד את האות ואז לאותת לנוירונים במורד הזרם המחוברים אליו. לנוירונים יכול להיות מצב, המיוצג בדרך כלל על ידי [[מספר ממשי|מספרים ממשיים]], בדרך כלל בין 0 ל-1. לנוירונים ולסינפסות עשוי להיות גם משקל שמשתנה ככל שהלמידה מתקדמת, מה שיכול להגביר או להקטין את עוצמת האות שהוא שולח במורד הזרם.

בדרך כלל, נוירונים מאורגנים בשכבות. שכבות שונות עשויות לבצע סוגים שונים של טרנספורמציות על הקלט שלהן. האותות עוברים מהשכבה הראשונה (הקלט עצמו), לשכבה האחרונה (הפלט), לפעמים לאחר חציית השכבות מספר פעמים.

המטרה המקורית של גישת הרשת העצבית הייתה לפתור בעיות באותו אופן שבו יעשה מוח אנושי. עם הזמן, תשומת הלב התמקדה בהתאמת יכולות מנטליות ספציפיות, מה שהוביל לסטיות מביולוגיה כגון התפשטות לאחור, או העברת מידע בכיוון ההפוך והתאמת הרשת לשקף מידע זה.

רשתות עצביות שימשו במגוון משימות, כולל ראייה ממוחשבת, [[מערכת זיהוי דיבור|זיהוי דיבור]], [[תרגום מכונה]], סינון [[רשת חברתית|רשתות חברתיות]], משחקי לוח ווידאו ואבחון רפואי.

נכון לשנת 2017, לרשתות עצביות יש בדרך כלל כמה אלפים עד כמה מיליוני יחידות ומיליוני חיבורים. למרות שמספר זה הוא בכמה סדרי גודל פחות ממספר הנוירונים במוח אנושי, רשתות אלו יכולות לבצע משימות רבות ברמה גבוהה מעבר לזו של בני אדם (למשל, זיהוי פנים, משחק "Go"<ref>{{Cite journal|title=Mastering the game of Go with deep neural networks and tree search|last=Silver|first=David|last2=Huang|first2=Aja|date=January 2016|journal=Nature|issue=7587|doi=10.1038/nature16961|volume=529|pages=484–489|bibcode=2016Natur.529..484S|issn=1476-4687|pmid=26819042|last3=Maddison|first3=Chris J.|last4=Guez|first4=Arthur|last5=Sifre|first5=Laurent|last6=Driessche|first6=George van den|last7=Schrittwieser|first7=Julian|last8=Antonoglou|first8=Ioannis|last9=Panneershelvam|first9=Veda}}</ref>).

=== רשתות עצביות עמוקות ===
רשת עצבית עמוקה (DNN) היא [[רשת עצבית מלאכותית]] (ANN) עם שכבות מרובות בין שכבות הקלט והפלט.<ref name="BENGIODEEP">{{Cite journal|url=http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20%282009%29.pdf|title=Learning Deep Architectures for AI|last=Bengio|first=Yoshua|journal=Foundations and Trends in Machine Learning|issue=1|doi=10.1561/2200000006|year=2009|volume=2|pages=1–127|access-date=3 September 2015|archive-url=https://web.archive.org/web/20160304084250/http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20(2009).pdf|archive-date=4 March 2016}}<cite class="citation journal cs1" data-ve-ignore="true" id="CITEREFBengio2009">Bengio, Yoshua (2009). [https://web.archive.org/web/20160304084250/http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20(2009).pdf "Learning Deep Architectures for AI"] <span class="cs1-format">(PDF)</span>. ''Foundations and Trends in Machine Learning''. '''2''' (1): 1–127. [[CiteSeerX (מזהה)|CiteSeerX]]&nbsp;<span class="cs1-lock-free" title="Freely accessible">[//citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.701.9550 10.1.1.701.9550]</span>. [[מזהה עצם דיגיטלי|doi]]:[[doi:10.1561/2200000006|10.1561/2200000006]]. Archived from [http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20%282009%29.pdf the original] <span class="cs1-format">(PDF)</span> on 4 March 2016<span class="reference-accessdate">. Retrieved <span class="nowrap">3 September</span> 2015</span>.</cite></ref> ישנם סוגים שונים של רשתות עצביות אך הן תמיד מורכבות מאותם מרכיבים: נוירונים, סינפסות, משקלים, הטיות ותפקודים.<ref name="Nokkada">{{Citation|title=A Guide to Deep Learning and Neural Networks|url=https://serokell.io/blog/deep-learning-and-neural-network-guide#components-of-neural-networks|access-date=2020-11-16|archivedate=2020-11-02|archiveurl=https://web.archive.org/web/20201102151103/https://serokell.io/blog/deep-learning-and-neural-network-guide#components-of-neural-networks}}</ref> רכיבים אלו פועלים באופן יחסית דומה למוח האנושי וניתן לאמן אותם כמו כל אלגוריתם ML אחר.

לדוגמה, DNN שמאומן לזהות גזעי כלבים יעבור על התמונה הנתונה ויחשב את ההסתברות שהכלב בתמונה הוא גזע מסוים. המשתמש יכול לעיין בתוצאות ולבחור אילו הסתברויות הרשת צריכה להציג (מעל סף מסוים וכו') ולהחזיר את התווית המוצעת. כל מניפולציה מתמטית כשלעצמה נחשבת לשכבה, ול-DNN מורכב יש רבדים רבים, ומכאן השם רשתות "עמוקות".

DNNs יכולים למדל קשרים לא ליניאריים מורכבים. ארכיטקטורות DNN מייצרות מודלים מורכבים שבהם האובייקט מתבטא כקומפוזיציה מרובדת של פרימיטיבים.<ref>{{Cite journal|url=https://papers.nips.cc/paper/5207-deep-neural-networks-for-object-detection|title=Deep neural networks for object detection|last=Szegedy|first=Christian|last2=Toshev|first2=Alexander|date=2013|journal=Advances in Neural Information Processing Systems|pages=2553–2561|last3=Erhan|first3=Dumitru|access-date=2017-06-13|archive-url=https://web.archive.org/web/20170629172111/http://papers.nips.cc/paper/5207-deep-neural-networks-for-object-detection|archive-date=2017-06-29}}</ref> השכבות הנוספות מאפשרות הרכבה של תכונות משכבות נמוכות יותר, ועשויות ליצור מודלים של נתונים מורכבים עם פחות יחידות מאשר רשת רדודה בעלת ביצועים דומים.<ref name="BENGIODEEP">{{Cite journal|url=http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20%282009%29.pdf|title=Learning Deep Architectures for AI|last=Bengio|first=Yoshua|journal=Foundations and Trends in Machine Learning|issue=1|doi=10.1561/2200000006|year=2009|volume=2|pages=1–127|access-date=3 September 2015|archive-url=https://web.archive.org/web/20160304084250/http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20(2009).pdf|archive-date=4 March 2016}}<cite class="citation journal cs1" data-ve-ignore="true" id="CITEREFBengio2009">Bengio, Yoshua (2009). [https://web.archive.org/web/20160304084250/http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20(2009).pdf "Learning Deep Architectures for AI"] <span class="cs1-format">(PDF)</span>. ''Foundations and Trends in Machine Learning''. '''2''' (1): 1–127. [[CiteSeerX (מזהה)|CiteSeerX]]&nbsp;<span class="cs1-lock-free" title="Freely accessible">[//citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.701.9550 10.1.1.701.9550]</span>. [[מזהה עצם דיגיטלי|doi]]:[[doi:10.1561/2200000006|10.1561/2200000006]]. Archived from [http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20%282009%29.pdf the original] <span class="cs1-format">(PDF)</span> on 4 March 2016<span class="reference-accessdate">. Retrieved <span class="nowrap">3 September</span> 2015</span>.</cite></ref> לדוגמה, הוכח כי קל יותר באופן אקספוננציאלי, לבצע קירוב ל[[פולינום|פולינומים דלילים רבי-משתנים]] עם DNNs מאשר עם רשתות רדודות.

ארכיטקטורות עמוקות כוללות גרסאות רבות של כמה גישות בסיסיות. כל ארכיטקטורה מצאה הצלחה בתחומים ספציפיים. לא תמיד ניתן להשוות את הביצועים של ארכיטקטורות מרובות, אלא אם כן הם הוערכו על אותם מערכי נתונים.

DNNs הם בדרך כלל רשתות הזנה קדימה שבהן נתונים זורמים משכבת הקלט לשכבת הפלט מבלי לחזור אחורה. בתחילה, ה-DNN יוצר מפה של נוירונים וירטואליים ומקצה ערכים מספריים אקראיים, או "משקלות", לקשרים ביניהם. המשקולות והכניסות מוכפלות ומחזירות פלט בין 0 ל-1. אם הרשת לא זיהתה במדויק דפוס מסוים, אלגוריתם יתאים את המשקולות.<ref>{{Cite news|last=Hof|first=Robert D.|title=Is Artificial Intelligence Finally Coming into Its Own?|work=MIT Technology Review|url=https://www.technologyreview.com/s/513696/deep-learning/|access-date=10 July 2018|archive-url=https://web.archive.org/web/20190331092832/https://www.technologyreview.com/s/513696/deep-learning/|archive-date=31 March 2019}}</ref> כך האלגוריתם יכול להפוך פרמטרים מסוימים למשפיעים יותר, עד שהוא יקבע את המניפולציה המתמטית הנכונה לעיבוד מלא של הנתונים.

רשתות עצביות חוזרות (RNNs), שבהן נתונים יכולים לזרום לכל כיוון, משמשות ליישומים כמו מודלים של שפות.<ref name="gers2001">{{Cite journal|url=http://elartu.tntu.edu.ua/handle/lib/30719|title=LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages|last=Gers|first=Felix A.|last2=Schmidhuber|first2=Jürgen|journal=IEEE Transactions on Neural Networks|issue=6|doi=10.1109/72.963769|year=2001|volume=12|pages=1333–1340|pmid=18249962|access-date=2020-02-25|archive-url=https://web.archive.org/web/20200126045722/http://elartu.tntu.edu.ua/handle/lib/30719|archive-date=2020-01-26}}</ref><ref name="NIPS2014">{{Cite journal|url=https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf|title=Sequence to Sequence Learning with Neural Networks|last=Sutskever|first=L.|last2=Vinyals|first2=O.|date=2014|journal=Proc. NIPS|arxiv=1409.3215|bibcode=2014arXiv1409.3215S|last3=Le|first3=Q.|access-date=2017-06-13|archive-url=https://web.archive.org/web/20210509123145/https://papers.nips.cc/paper/2014/file/a14ac55a4f27472c5d894ec1c3c743d2-Paper.pdf|archive-date=2021-05-09}}</ref> <ref name="MIKO2010">{{Cite journal|url=http://www.fit.vutbr.cz/research/groups/speech/servite/2010/rnnlm_mikolov.pdf|title=Recurrent neural network based language model|last=Mikolov|first=T.|date=2010|journal=Interspeech|doi=10.21437/Interspeech.2010-343|pages=1045–1048|access-date=2017-06-13|archive-url=https://web.archive.org/web/20170516181940/http://www.fit.vutbr.cz/research/groups/speech/servite/2010/rnnlm_mikolov.pdf|archive-date=2017-05-16|displayauthors=etal}}</ref> זיכרון גדול לטווח-קצר יעיל במיוחד לשימוש זה.<ref name=":0">{{Cite journal|title=Long Short-Term Memory|last=Hochreiter|first=Sepp|last2=Schmidhuber|first2=Jürgen|date=1 November 1997|journal=Neural Computation|issue=8|doi=10.1162/neco.1997.9.8.1735|volume=9|pages=1735–1780|issn=0899-7667|pmid=9377276}}</ref><ref name=":10">{{Cite web|url=https://www.researchgate.net/publication/220320057|title=Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)|website=ResearchGate|accessdate=13 June 2017|archivedate=9 May 2021|archiveurl=https://web.archive.org/web/20210509123147/https://www.researchgate.net/publication/220320057_Learning_Precise_Timing_with_LSTM_Recurrent_Networks}}</ref>

[[רשת עצבית מתפתחת|רשתות עצביות מתפתחות]] (CNN) משמשות בראייה ממוחשבת.<ref name="LECUN86">{{Cite journal|title=Gradient-based learning applied to document recognition|last=LeCun|first=Y.|journal=Proceedings of the IEEE|issue=11|doi=10.1109/5.726791|year=1998|volume=86|pages=2278–2324|displayauthors=etal}}</ref> CNNs יושמו גם למידול אקוסטי לזיהוי דיבור אוטומטי (ASR).<ref name=":2">{{Cite book|title=2013 IEEE International Conference on Acoustics, Speech and Signal Processing|last=Sainath|first=Tara N.|last2=Mohamed|first2=Abdel-Rahman|last3=Kingsbury|first3=Brian|last4=Ramabhadran|first4=Bhuvana|year=2013|isbn=978-1-4799-0356-6|pages=8614–8618|chapter=Deep convolutional neural networks for LVCSR|doi=10.1109/icassp.2013.6639347}}</ref>

==== אתגרים ====
כמו ב-ANN, בעיות רבות יכולות להתעורר עם DNNs עם הכשרה "נאיבית". שתי בעיות נפוצות הן [[התאמת יתר]] וזמן חישוב.

DNNs נוטים להתאים יתר על המידה בגלל שכבות ההפשטה הנוספות, המאפשרות להם למדל תלויות נדירות בנתוני האימון. הסדרת (רגולריזציה) שיטות כגון "הגיזום היחיד" של איבננקו<ref name="ivak1971">{{Cite journal|url=http://gmdh.net/articles/history/polynomial.pdf|title=Polynomial theory of complex systems|last=Ivakhnenko|first=Alexey|date=1971|journal=IEEE Transactions on Systems, Man and Cybernetics|issue=4|doi=10.1109/TSMC.1971.4308320|volume=SMC-1|pages=364–378|access-date=2019-11-05|archive-url=https://web.archive.org/web/20170829230621/http://www.gmdh.net/articles/history/polynomial.pdf|archive-date=2017-08-29}}</ref> או דעיכת משקל (<math> \ell_2 </math> רגוליזציה) או [[מטריצה דלילה|דלילות]] ( <math> \ell_1 </math> -רגוליזציה) ניתן ליישם במהלך האימון כדי לטפל בחלק משמעותי מהתאמת היתר.<ref>{{Cite book|title=2013 IEEE International Conference on Acoustics, Speech and Signal Processing|last=Bengio|first=Yoshua|last2=Boulanger-Lewandowski|first2=Nicolas|last3=Pascanu|first3=Razvan|year=2013|isbn=978-1-4799-0356-6|pages=8624–8628|chapter=Advances in optimizing recurrent networks|arxiv=1212.0901|citeseerx=10.1.1.752.9151|doi=10.1109/icassp.2013.6639349}}</ref> לחילופין, הסדרת נשירה משמיטה באופן אקראי יחידות מהשכבות הנסתרות במהלך האימון. זה עוזר לשלול תלות נדירה.<ref name="DAHL2013">{{Cite journal|url=http://www.cs.toronto.edu/~gdahl/papers/reluDropoutBN_icassp2013.pdf|title=Improving DNNs for LVCSR using rectified linear units and dropout|last=Dahl|first=G.|date=2013|journal=ICASSP|access-date=2017-06-13|archive-url=https://web.archive.org/web/20170812140509/http://www.cs.toronto.edu/~gdahl/papers/reluDropoutBN_icassp2013.pdf|archive-date=2017-08-12|displayauthors=etal}}</ref> לבסוף, ניתן להגדיל את הנתונים באמצעות שיטות כגון חיתוך וסיבוב, כך שניתן להגדיל מערכי אימונים קטנים יותר כדי להקטין את הסיכוי להתאמת יתר.<ref>{{Cite web|url=https://www.coursera.org/learn/convolutional-neural-networks/lecture/AYzbX/data-augmentation|title=Data Augmentation - deeplearning.ai {{!}} Coursera|website=Coursera|accessdate=30 November 2017|archivedate=1 December 2017|archiveurl=https://web.archive.org/web/20171201032606/https://www.coursera.org/learn/convolutional-neural-networks/lecture/AYzbX/data-augmentation}}</ref>

DNNs חייבים לקחת בחשבון פרמטרים רבים של אימון, כגון הגודל (מספר השכבות ומספר היחידות לשכבה), קצב הלמידה והמשקלים הראשוניים. סריקה של מרחב הפרמטרים בחיפוש עבור פרמטרים אופטימליים ייתכן שלא יהיה אפשרי בשל עלות הזמן ומשאבי החישוב. טריקים שונים, כגון batching (חישוב גרדיאנט על מספר דוגמאות אימון בו-זמנית ולא דוגמאות בודדות)<ref name="RBMTRAIN">{{Cite journal|url=https://www.researchgate.net/publication/221166159|title=A Practical Guide to Training Restricted Boltzmann Machines|last=Hinton|first=G. E.|date=2010|journal=Tech. Rep. UTML TR 2010-003|access-date=2017-06-13|archive-url=https://web.archive.org/web/20210509123211/https://www.researchgate.net/publication/221166159_A_brief_introduction_to_Weightless_Neural_Systems|archive-date=2021-05-09}}</ref> מאיצים את החישוב. יכולות עיבוד גדולות של ארכיטקטורות ליבות רבות (כגון GPUs או Intel Xeon Phi) הביאו להאצות משמעותיות באימון, בגלל ההתאמה של ארכיטקטורות עיבוד כאלה למטריצה ולחישובי וקטור.<ref>{{Cite book|url=http://www.escholarship.org/uc/item/6ch40821|title=Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis on - SC '17|last=You|first=Yang|last2=Buluç|first2=Aydın|last3=Demmel|first3=James|date=November 2017|publisher=SC '17, ACM|isbn=9781450351140|pages=1–12|chapter=Scaling deep learning on GPU and knights landing clusters|doi=10.1145/3126908.3126912|access-date=5 March 2018|chapter-url=https://dl.acm.org/citation.cfm?doid=3126908.3126912|archive-url=https://web.archive.org/web/20200729133850/https://escholarship.org/uc/item/6ch40821|archive-date=29 July 2020}}</ref><ref>{{Cite journal|title=CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi|last=Viebke|first=André|last2=Memeti|first2=Suejb|journal=The Journal of Supercomputing|doi=10.1007/s11227-017-1994-x|year=2019|volume=75|pages=197–227|arxiv=1702.07908|bibcode=2017arXiv170207908V|last3=Pllana|first3=Sabri|last4=Abraham|first4=Ajith}}</ref>

לחלופין, מהנדסים עשויים לחפש סוגים אחרים של רשתות עצביות עם אלגוריתמי אימון פשוטים ומתכנסים יותר. CMAC (בקר דגם articulation cerebellar) הוא סוג כזה של רשת עצבית. זה לא דורש שיעורי למידה או משקלים ראשוניים אקראיים עבור CMAC. ניתן להבטיח שתהליך האימון יתכנס בשלב אחד עם אצווה חדשה של נתונים, והמורכבות החישובית של אלגוריתם האימון היא ליניארית ביחס למספר הנוירונים המעורבים.<ref name="Qin1">Ting Qin, et al. "A learning algorithm of CMAC based on RLS." Neural Processing Letters 19.1 (2004): 49-61.</ref>

== חומרה ==
מאז שנות ה-2010, התקדמות הן באלגוריתמי למידת מכונה והן ב[[חומרה|חומרת המחשבים]] הובילה לשיטות יעילות יותר לאימון רשתות עצביות עמוקות המכילות שכבות רבות של יחידות נסתרות לא ליניאריות ושכבת פלט גדולה מאוד באופן יחסי.<ref>{{Cite web|last=Research|first=AI|title=Deep Neural Networks for Acoustic Modeling in Speech Recognition|url=http://airesearch.com/ai-research-papers/deep-neural-networks-for-acoustic-modeling-in-speech-recognition/|website=airesearch.com|accessdate=23 October 2015|date=23 October 2015|archivedate=1 February 2016|archiveurl=https://web.archive.org/web/20160201033801/http://airesearch.com/ai-research-papers/deep-neural-networks-for-acoustic-modeling-in-speech-recognition/}}</ref> עד שנת 2019, יחידות עיבוד גרפי ([[מעבד גרפי|GPUs]]), לעתים קרובות עם שיפורים ספציפיים ל-AI, החליפו את המעבדים כשיטה הדומיננטית לאימון AI ענן מסחרי בקנה מידה גדול. <ref>{{Cite news|title=GPUs Continue to Dominate the AI Accelerator Market for Now|url=https://www.informationweek.com/big-data/ai-machine-learning/gpus-continue-to-dominate-the-ai-accelerator-market-for-now/a/d-id/1336475|access-date=11 June 2020|work=InformationWeek|date=December 2019|language=en|archive-date=10 June 2020|archive-url=https://web.archive.org/web/20200610094310/https://www.informationweek.com/big-data/ai-machine-learning/gpus-continue-to-dominate-the-ai-accelerator-market-for-now/a/d-id/1336475}}</ref> [[OpenAI]] העריכה את חישוב החומרה המשמש בפרויקטים הגדולים ביותר של למידה עמוקה מ-AlexNet (2012) ועד AlphaZero (2017), ומצאה עלייה של פי 300,000 בכמות החישוב הנדרשת, עם קו מגמה של זמן הכפל של 3.4 חודשים.<ref>{{Cite news|last=Ray|first=Tiernan|title=AI is changing the entire nature of computation|url=https://www.zdnet.com/article/ai-is-changing-the-entire-nature-of-compute/|access-date=11 June 2020|work=ZDNet|date=2019|language=en|archive-date=25 May 2020|archive-url=https://web.archive.org/web/20200525144635/https://www.zdnet.com/article/ai-is-changing-the-entire-nature-of-compute/}}</ref><ref>{{Cite web|title=AI and Compute|url=https://openai.com/blog/ai-and-compute/|website=OpenAI|accessdate=11 June 2020|language=en|date=16 May 2018|archivedate=17 June 2020|archiveurl=https://web.archive.org/web/20200617200602/https://openai.com/blog/ai-and-compute/}}</ref>

== יישומים ==

== הערות שוליים ==

== לקריאה נוספת ==
 
[[קטגוריה:בינה מלאכותית]]
[[קטגוריה:למידה עמוקה]]
[[קטגוריה:דפים עם תרגומים שלא נסקרו]]

גרסה מ־12:13, 28 באוקטובר 2021

למידה עמוקהאנגלית: Deep Learning ולפעמים Deep Structured Learning) היא חלק ממשפחה רחבה יותר של שיטות למידת מכונה המבוססות על רשתות עצביות מלאכותיות עם למידת ייצוג או למידת מאפיינים. הלמידה יכולה להיות בפיקוח, בפיקוח חלקי או ללא פיקוח.[1][2]

ארכיטקטורות למידה עמוקה כגון רשתות עצביות עמוקות (deep neural networks), רשתות אמונות עמוקות (deep belief networks), למידה בפיקוח עמוק (deep reinforcement learning), רשתות עצביות חוזרות (recurrent neural networks), ורשתות עצביות מתפתחות יושמו בתחומים מגוונים ביניהם תחומי: ראייה ממוחשבת, זיהוי דיבור, עיבוד שפה טבעית, תרגום מכונה, ביואינפורמטיקה, עיצוב תרופות, ניתוח תמונות רפואיות, בדיקות חומרים ומשחקי לוח, שבהן הם הניבו תוצאות דומות ובמקרים מסוימים עולים על ביצועי המומחים האנושיים.[3][4][5][6]

מודל רשת עצבים מלאכותית (ANN) נוצרו בהשראת עיבוד מידע וצמתי תקשורת מבוזרים המצויים במערכות ביולוגיות. אמנם, ל-ANN הבדלים שונים ממוח ביולוגי. באופן ספציפי, רשתות עצבים מלאכותיות נוטות להיות סטטיות וסמליות, בעוד שהמוח הביולוגי של רוב האורגניזמים החיים הוא דינמי (פלסטי) ואנלוגי.[7][8]

שם התואר "עמוק" בלמידה עמוקה מתייחס לשימוש במספר רבדים ברשת. עבודה מוקדמת הראתה שאלגוריתם קולטן ליניארי אינו יכול להיות מסַוֶג אוניברסלי, אולם היא הראתה גם שרשת עם פונקציית הפעלה לא פולינומית עם שכבה נסתרת אחת ברוחב לא מוגבל כן יכולה. למידה עמוקה היא וריאציה מודרנית העוסקת במספר בלתי מוגבל של שכבות בגודל מוגבל, המאפשרת יישום מעשי ויישום מיטבי, תוך שמירה על אוניברסליות תיאורטית בתנאים "מתונים". בלמידה עמוקה, גם מותר לשכבות להיות הטרוגניות ולסטות באופן ניכר ממודלים מקושרים ביולוגיים (connectionism), לטובת יעילות, אימוניות (trainability) ובהירות (understandability), ומשם נובע התוספת "structured" שבשם "Deep Structured Learning".

הגדרה

Representing Images on Multiple Layers of Abstraction in Deep Learning
ייצוג תמונות על ריבוי שכבות של הפשטה בלמידה עמוקה[9]

למידה עמוקה היא מחלקה של אלגוריתמים בתחום הכולל יותר, למידת מכונה אשר[10]:  " משתמש במספר שכבות כדי לחלץ בהדרגה תכונות ברמה גבוהה יותר מהקלט הגולמי". לדוגמה, בעיבוד תמונה דיגיטלי, שכבות נמוכות עשויות לזהות קצוות, בעוד שכבות גבוהות יותר עשויות לזהות את המושגים הרלוונטיים לאדם כגון ספַרוֹת, אותיות או פרצופים.

סקירה כללית

רוב המודלים המודרניים של למידה עמוקה מבוססים על רשתות עצביות מלאכותיות, במיוחד רשתות עצביות קונבולוציוניות (CNN), אם כי הם יכולים לכלול גם נוסחאות הצעה (פרופוזיציוניות) או משתנים סמויים המאורגנים בשכבה במודלים מחוּללים עמוקים (generative models) כמו הצמתים ברשת אמונה עמוקה ומכונת בולצמן עמוקה.[11]

בלמידה עמוקה, כל רמה לומדת להפוך את נתוני הקלט שלה לייצוג מופשט ומרוכב יותר. ביישום זיהוי תמונה, הקלט הגולמי עשוי להיות מטריצה של פיקסלים; שכבת הייצוג הראשונה עשויה להפשיט את הפיקסלים ולקודד את הקצוות, השכבה השנייה עשויה להרכיב ולקודד סידורים של קצוות; השכבה השלישית עשויה לקודד אף ועיניים; והשכבה הרביעית עשויה לזהות שהתמונה מכילה פנים. נקודה חשובה היא שתהליך למידה עמוק יכול ללמוד אילו תכונות למקם בצורה אופטימלית באיזו רמה בעצמו. אמנם, זה לא בהכרח מבטל את הצורך בהנחיה ידנית. לדוגמה, מספר משתנה של שכבות וגדלי שכבות יכולים לספק דרגות שונות של הפשטה.[1][12]

המילה "עמוקה" ב"למידה עמוקה" מתייחסת למספר השכבות שבאמצעותן הנתונים עוברים עיבוד או שינוי. ליתר דיוק, למערכות למידה עמוקה יש עומק CAP (או credit assignment path) משמעותי. ה-CAP הוא שרשרת הטרנספורמציות מקלט לפלט. CAPs מתארים קשרים סיבתיים פוטנציאליים בין קלט ופלט. עבור רשת זרימה קדימה, העומק של ה-CAPs הוא זה של הרשת והוא מספר השכבות הנסתרות פלוס אחת (כיוון שגם שכבת הפלט מותאמת לפרמטרים). עבור רשתות עצביות חוזרות, שבהן אות עשוי להתפשט בשכבה יותר מפעם אחת, עומק ה-CAP עשוי להיות בלתי מוגבל. אין סף מוסכמים אוניברסלי של עומק מפריד בין למידה "רדודה" ללמידה עמוקה, אבל רוב החוקרים מסכימים שלמידה עמוקה כוללת עומק CAP גבוה מ-2. CAP של עומק 2 הוכח כקירוב אוניברסלי במובן זה שהוא יכול לחקות כל פונקציה.[13] ירתה מכך, שכבות נוספות אינן מוסיפות ליכולת קירוב הפונקציות של הרשת. מודלים עמוקים (CAP > 2) מסוגלים לחלץ תכונות טובות יותר ממודלים רדודים ומכאן, שכבות נוספות עוזרות ללמוד את התכונות בצורה יעילה.

ניתן לבנות ארכיטקטורות למידה עמוקה בשיטה חמדנית שכבה אחר שכבה. למידה עמוקה עוזרת להפריד את ההפשטות הללו ולבחור אילו תכונות משפרות את הביצועים. [1]

עבור משימות למידה מפוקחות, שיטות למידה עמוקה מבטלות את הנדסת המאפיינים, על ידי תרגום הנתונים לייצוגי ביניים קומפקטיים הדומים לגורמים הראשיים, ומפיקות מבנים שכבתיים המסירים יתירות בייצוג.

ניתן ליישם אלגוריתמי למידה עמוקה על משימות למידה-ללא-פיקוח. זהו יתרון חשוב מכיוון שהנתונים שאינם מתויגים נמצאים בשפע רב יותר מהנתונים המסומנים. דוגמאות למבנים עמוקים שניתן לאמן באופן לא מפוקח הם מדחסי היסטוריה עצבית[14] ורשתות אמונה עמוקות.[1][15]

פרשנויות

רשתות עצביות עמוקות מתפרשות בדרך כלל במונחים של משפט הקירוב האוניברסלי[21] או היסק הסתברותי או בייסיאני.

משפט הקירוב האוניברסלי הקלאסי נוגע ליכולתן של רשתות זרימה קדימה עם שכבה נסתרת יחידה בגודל סופי לקירוב פונקציות רציפות. בשנת 1989 פורסמה ההוכחה הראשונה על ידי ג'ורג' סיבנקו עבור פונקציות הפעלה סיגמואידיות והוכללה לארכיטקטורות רב-שכבתיותזרימהנה קדימה בשנת 1991 על ידי קורט הורני. עבה ודמאותחהראתה בנוסף ה שקירוב אוניברסלי מתקיים גם עבור פונקציות הפעלה לא מוגבלותגוןמו היחידה הליניארית המתוקנ. [22]

משפט הקירוב האוניברסלי עבור רשתות עצביות עמוקות נוגע לקיבולת של רשתות עם רוחב מוגבל אך עם עומק שעשוי לגדול. לוּ הוכיח שאם הרוחב של רשת עצבית עמוקה עם הפעלת ReLU גדול בהחלט מממד הקלט, אזי הרשת יכולה להעריך כל פונקציה הניתנת לשילוב של אינטגרל לבג, אם הרוחב קטן או שווה לממד הקלט, אז רשת עצבים עמוקה אינה קירוב אוניברסלי.

הפרשנות ההסתברותית נובעת מתחום למידת המכונה. הוא כולל מסקנות, וכן את מושגי האופטימיזצשלשל אימון ובדיקה, הקשורים להתאוה והכללה, בהתאמה. ליתר דיוק, הפרשנות ההסתברותית מחשיבה את אי-ליניאריות ההפעלה כפונקציית התפלגות מצטר . הפרשנות ההסתברותית הובילה להכנסהנשירה (dropout) כמסדרת (regulazier) ת ברשתות עצביות. הפרשנות ההסתברותית הוצגה על ידי חוקרים כולל הופפילדuuhsru owו נרנדרה לפופולרי בסקרים כמו זה על ידברידטופר י בישף. [23]

היסטוריה

מהפכת הלמידה העמוקה

כיצד למידה עמוקה היא תת-קבוצה של למידת מכונה וכיצד למידת מכונה היא תת-קבוצה של בינה מלאכותית (AI).

בשנת 2012, צוות בראשות ג'ורג' א'דאהל זכה ב"אתגר הפעילות המולקולרית של מרק" באמצעות רשתות עצביות עמוקות רב-משימתיות כדי לחזות את היעד הביו-מולקולרי של תרופה אחת.[24][25] בשנת 2014, הקבוצה של הוכריטר השתמשה בלמידה עמוקה כדי לזהות השפעות מחוץ למטרה ורעילויות של כימיקלים סביבתיים ברכיבים תזונתיים, במוצרים ביתיים ובתרופות וזכתה ב"אתגר הנתונים של Tox21" של המכונים NIH, FDA ו- NCATS.[26][27][28]

השפעות נוספות משמעותיות בזיהוי תמונה או אובייקט הורגשו מ-2011 עד 2012. למרות ש-CNN שאומנו על-ידי הפצה לאחור היו הנמצא כבר עשרות שנים, והטמעות GPU של NNs במשך שנים, כולל CNNs, היה צורך בהטמעות מהירות משמעותית של CNNs על GPUs כדי להתקדם בראייה ממוחשבת.[29][30][31][32] בשנת 2011, גישה זו השיגה לראשונה ביצועים על אנושיים בתחרות זיהוי דפוסים חזותיים. כמו כן, ב-2011 היא זכתה בתחרות כתב היד הסיני של ICDAR, ובמאי 2012 היא זכתה בתחרות פילוח התמונות של ISBI.[33] עד 2011, רשתות CNN לא מילאו תפקיד מרכזי בכנסים של ראייה ממוחשבת, אבל ביוני 2012, מאמר של סיקסאן בכנס המוביל CVPR[4] הראה כיצד איגום מקסימלי של CNN ב-GPU יכול לשפר באופן דרמטי רשומות בנצ'מרק רבים של ראייה. באוקטובר 2012, מערכת דומה מאת קריזבסקי[5] זכתה בתחרות ImageNet בקנה מידה גדול בהפרש משמעותי על פני שיטות למידת מכונה רדודות. בנובמבר 2012, המערכת של Ciresan זכתה גם בתחרות ה-ICPR בנושא ניתוח תמונות רפואיות גדולות לגילוי סרטן, ובשנה שלאחר מכן גם ב-MICCAI Grand Challenge באותו נושא.[34] בשנים 2013 ו-2014, שיעור השגיאות במשימת ImageNet באמצעות למידה עמוקה הופחת עוד יותר, בעקבות מגמה דומה בזיהוי דיבור בקנה מידה גדול.

לאחר מכן הורחב סיווג התמונות למשימה המאתגרת יותר של יצירת תיאורים (כתוביות) לתמונות, לעתים קרובות כשילוב של CNNs ו-LSTMs.[35]

כמה חוקרים קובעים שהניצחון ב-ImageNet באוקטובר 2012 עיגן את תחילתה של "מהפכת הלמידה העמוקה" ששינתה את תעשיית הבינה המלאכותית.[36]

במרץ 2019, יהושע בנג'יו, ג'פרי הינטון ויאן לקון זכו בפרס טיורינג על פריצות דרך מושגיות והנדסיות שהפכו רשתות עצביות עמוקות למרכיב קריטי במחשוב.

רשתות עצביות

רשתות עצבים מלאכותיות

  רשתות עצביות מלאכותיות (ANNs) או מערכות מקושרות הן מערכות מחשוב בהשראת הרשתות העצביות הביולוגיות המהוות מוח חי. מערכות כאלה לומדות (משפרות בהדרגה את יכולתן) לבצע משימות על ידי בחינת דוגמאות, בדרך כלל ללא תכנות ספציפי למשימה. לדוגמה, בזיהוי תמונות, הם עשויים ללמוד לזהות תמונות המכילות חתולים על ידי ניתוח תמונות לדוגמה שסומנו באופן ידני כ"חתול" או "ללא חתול" ושימוש בתוצאות האנליטיות כדי לזהות חתולים בתמונות אחרות. הם מצאו את רוב השימוש ביישומים שקשה לבטא עם אלגוריתם מחשב מסורתי באמצעות תכנות לוגי "מסורתי".

ANN מבוסס על אוסף של יחידות מחוברות הנקראות נוירונים מלאכותיים, (בדומה לנוירונים ביולוגיים במוח). כל חיבור (סינפסה) בין נוירונים יכול להעביר אות לנוירון אחר. הנוירון הקולט (הפוסט-סינפטי) יכול לעבד את האות ואז לאותת לנוירונים במורד הזרם המחוברים אליו. לנוירונים יכול להיות מצב, המיוצג בדרך כלל על ידי מספרים ממשיים, בדרך כלל בין 0 ל-1. לנוירונים ולסינפסות עשוי להיות גם משקל שמשתנה ככל שהלמידה מתקדמת, מה שיכול להגביר או להקטין את עוצמת האות שהוא שולח במורד הזרם.

בדרך כלל, נוירונים מאורגנים בשכבות. שכבות שונות עשויות לבצע סוגים שונים של טרנספורמציות על הקלט שלהן. האותות עוברים מהשכבה הראשונה (הקלט עצמו), לשכבה האחרונה (הפלט), לפעמים לאחר חציית השכבות מספר פעמים.

המטרה המקורית של גישת הרשת העצבית הייתה לפתור בעיות באותו אופן שבו יעשה מוח אנושי. עם הזמן, תשומת הלב התמקדה בהתאמת יכולות מנטליות ספציפיות, מה שהוביל לסטיות מביולוגיה כגון התפשטות לאחור, או העברת מידע בכיוון ההפוך והתאמת הרשת לשקף מידע זה.

רשתות עצביות שימשו במגוון משימות, כולל ראייה ממוחשבת, זיהוי דיבור, תרגום מכונה, סינון רשתות חברתיות, משחקי לוח ווידאו ואבחון רפואי.

נכון לשנת 2017, לרשתות עצביות יש בדרך כלל כמה אלפים עד כמה מיליוני יחידות ומיליוני חיבורים. למרות שמספר זה הוא בכמה סדרי גודל פחות ממספר הנוירונים במוח אנושי, רשתות אלו יכולות לבצע משימות רבות ברמה גבוהה מעבר לזו של בני אדם (למשל, זיהוי פנים, משחק "Go"[37]).

רשתות עצביות עמוקות

רשת עצבית עמוקה (DNN) היא רשת עצבית מלאכותית (ANN) עם שכבות מרובות בין שכבות הקלט והפלט.[11] ישנם סוגים שונים של רשתות עצביות אך הן תמיד מורכבות מאותם מרכיבים: נוירונים, סינפסות, משקלים, הטיות ותפקודים.[38] רכיבים אלו פועלים באופן יחסית דומה למוח האנושי וניתן לאמן אותם כמו כל אלגוריתם ML אחר.

לדוגמה, DNN שמאומן לזהות גזעי כלבים יעבור על התמונה הנתונה ויחשב את ההסתברות שהכלב בתמונה הוא גזע מסוים. המשתמש יכול לעיין בתוצאות ולבחור אילו הסתברויות הרשת צריכה להציג (מעל סף מסוים וכו') ולהחזיר את התווית המוצעת. כל מניפולציה מתמטית כשלעצמה נחשבת לשכבה, ול-DNN מורכב יש רבדים רבים, ומכאן השם רשתות "עמוקות".

DNNs יכולים למדל קשרים לא ליניאריים מורכבים. ארכיטקטורות DNN מייצרות מודלים מורכבים שבהם האובייקט מתבטא כקומפוזיציה מרובדת של פרימיטיבים.[39] השכבות הנוספות מאפשרות הרכבה של תכונות משכבות נמוכות יותר, ועשויות ליצור מודלים של נתונים מורכבים עם פחות יחידות מאשר רשת רדודה בעלת ביצועים דומים.[11] לדוגמה, הוכח כי קל יותר באופן אקספוננציאלי, לבצע קירוב לפולינומים דלילים רבי-משתנים עם DNNs מאשר עם רשתות רדודות.

ארכיטקטורות עמוקות כוללות גרסאות רבות של כמה גישות בסיסיות. כל ארכיטקטורה מצאה הצלחה בתחומים ספציפיים. לא תמיד ניתן להשוות את הביצועים של ארכיטקטורות מרובות, אלא אם כן הם הוערכו על אותם מערכי נתונים.

DNNs הם בדרך כלל רשתות הזנה קדימה שבהן נתונים זורמים משכבת הקלט לשכבת הפלט מבלי לחזור אחורה. בתחילה, ה-DNN יוצר מפה של נוירונים וירטואליים ומקצה ערכים מספריים אקראיים, או "משקלות", לקשרים ביניהם. המשקולות והכניסות מוכפלות ומחזירות פלט בין 0 ל-1. אם הרשת לא זיהתה במדויק דפוס מסוים, אלגוריתם יתאים את המשקולות.[40] כך האלגוריתם יכול להפוך פרמטרים מסוימים למשפיעים יותר, עד שהוא יקבע את המניפולציה המתמטית הנכונה לעיבוד מלא של הנתונים.

רשתות עצביות חוזרות (RNNs), שבהן נתונים יכולים לזרום לכל כיוון, משמשות ליישומים כמו מודלים של שפות.[41][42] [43] זיכרון גדול לטווח-קצר יעיל במיוחד לשימוש זה.[44][45]

רשתות עצביות מתפתחות (CNN) משמשות בראייה ממוחשבת.[46] CNNs יושמו גם למידול אקוסטי לזיהוי דיבור אוטומטי (ASR).[47]

אתגרים

כמו ב-ANN, בעיות רבות יכולות להתעורר עם DNNs עם הכשרה "נאיבית". שתי בעיות נפוצות הן התאמת יתר וזמן חישוב.

DNNs נוטים להתאים יתר על המידה בגלל שכבות ההפשטה הנוספות, המאפשרות להם למדל תלויות נדירות בנתוני האימון. הסדרת (רגולריזציה) שיטות כגון "הגיזום היחיד" של איבננקו[48] או דעיכת משקל ( רגוליזציה) או דלילות ( -רגוליזציה) ניתן ליישם במהלך האימון כדי לטפל בחלק משמעותי מהתאמת היתר.[49] לחילופין, הסדרת נשירה משמיטה באופן אקראי יחידות מהשכבות הנסתרות במהלך האימון. זה עוזר לשלול תלות נדירה.[50] לבסוף, ניתן להגדיל את הנתונים באמצעות שיטות כגון חיתוך וסיבוב, כך שניתן להגדיל מערכי אימונים קטנים יותר כדי להקטין את הסיכוי להתאמת יתר.[51]

DNNs חייבים לקחת בחשבון פרמטרים רבים של אימון, כגון הגודל (מספר השכבות ומספר היחידות לשכבה), קצב הלמידה והמשקלים הראשוניים. סריקה של מרחב הפרמטרים בחיפוש עבור פרמטרים אופטימליים ייתכן שלא יהיה אפשרי בשל עלות הזמן ומשאבי החישוב. טריקים שונים, כגון batching (חישוב גרדיאנט על מספר דוגמאות אימון בו-זמנית ולא דוגמאות בודדות)[52] מאיצים את החישוב. יכולות עיבוד גדולות של ארכיטקטורות ליבות רבות (כגון GPUs או Intel Xeon Phi) הביאו להאצות משמעותיות באימון, בגלל ההתאמה של ארכיטקטורות עיבוד כאלה למטריצה ולחישובי וקטור.[53][54]

לחלופין, מהנדסים עשויים לחפש סוגים אחרים של רשתות עצביות עם אלגוריתמי אימון פשוטים ומתכנסים יותר. CMAC (בקר דגם articulation cerebellar) הוא סוג כזה של רשת עצבית. זה לא דורש שיעורי למידה או משקלים ראשוניים אקראיים עבור CMAC. ניתן להבטיח שתהליך האימון יתכנס בשלב אחד עם אצווה חדשה של נתונים, והמורכבות החישובית של אלגוריתם האימון היא ליניארית ביחס למספר הנוירונים המעורבים.[55]

חומרה

מאז שנות ה-2010, התקדמות הן באלגוריתמי למידת מכונה והן בחומרת המחשבים הובילה לשיטות יעילות יותר לאימון רשתות עצביות עמוקות המכילות שכבות רבות של יחידות נסתרות לא ליניאריות ושכבת פלט גדולה מאוד באופן יחסי.[56] עד שנת 2019, יחידות עיבוד גרפי (GPUs), לעתים קרובות עם שיפורים ספציפיים ל-AI, החליפו את המעבדים כשיטה הדומיננטית לאימון AI ענן מסחרי בקנה מידה גדול. [57] OpenAI העריכה את חישוב החומרה המשמש בפרויקטים הגדולים ביותר של למידה עמוקה מ-AlexNet (2012) ועד AlphaZero (2017), ומצאה עלייה של פי 300,000 בכמות החישוב הנדרשת, עם קו מגמה של זמן הכפל של 3.4 חודשים.[58][59]

יישומים

הערות שוליים

לקריאה נוספת

 

  1. ^ 1 2 3 4 Bengio, Y.; Courville, A.; Vincent, P. (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338. שגיאת ציטוט: תג <ref> בלתי־תקין; השם "BENGIO2012" הוגדר כמה פעמים עם תוכן שונה
  2. ^ Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). "Deep Learning". Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442.
  3. ^ Hu, J.; Niu, H.; Carrasco, J.; Lennox, B.; Arvin, F. (2020). "Voronoi-Based Multi-Robot Autonomous Exploration in Unknown Environments via Deep Reinforcement Learning". IEEE Transactions on Vehicular Technology. 69 (12): 14413–14423. doi:10.1109/TVT.2020.3034800. אורכב מ-המקור ב-2020-11-16. נבדק ב-2021-05-04.
  4. ^ 1 2 Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. pp. 3642–3649. arXiv:1202.2745. doi:10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. שגיאת ציטוט: תג <ref> בלתי־תקין; השם ":9" הוגדר כמה פעמים עם תוכן שונה
  5. ^ 1 2 Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry (2012). "ImageNet Classification with Deep Convolutional Neural Networks" (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. אורכב מ-המקור (PDF) ב-2017-01-10. נבדק ב-2017-05-24. שגיאת ציטוט: תג <ref> בלתי־תקין; השם "krizhevsky2012" הוגדר כמה פעמים עם תוכן שונה
  6. ^ "Google's AlphaGo AI wins three-match series against the world's best Go player". TechCrunch. 25 במאי 2017. אורכב מ-המקור ב-17 ביוני 2018. נבדק ב-17 ביוני 2018. {{cite web}}: (עזרה)
  7. ^ Marblestone, Adam H.; Wayne, Greg; Kording, Konrad P. (2016). "Toward an Integration of Deep Learning and Neuroscience". Frontiers in Computational Neuroscience. 10: 94. arXiv:1606.03813. Bibcode:2016arXiv160603813M. doi:10.3389/fncom.2016.00094. PMC 5021692. PMID 27683554free{{cite journal}}: תחזוקה - ציטוט: postscript (link)
  8. ^ Olshausen, B. A. (1996). "Emergence of simple-cell receptive field properties by learning a sparse code for natural images". Nature. 381 (6583): 607–609. Bibcode:1996Natur.381..607O. doi:10.1038/381607a0. PMID 8637596.
  9. ^ Schulz, Hannes; Behnke, Sven (1 בנובמבר 2012). "Deep Learning". KI - Künstliche Intelligenz (באנגלית). 26 (4): 357–363. doi:10.1007/s13218-012-0198-z. ISSN 1610-1987. {{cite journal}}: (עזרה)
  10. ^ Deng, L.; Yu, D. (2014). "Deep Learning: Methods and Applications" (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1–199. doi:10.1561/2000000039. אורכב מ-המקור (PDF) ב-2016-03-14. נבדק ב-2014-10-18.
  11. ^ 1 2 3 Bengio, Yoshua (2009). "Learning Deep Architectures for AI" (PDF). Foundations and Trends in Machine Learning. 2 (1): 1–127. doi:10.1561/2200000006. אורכב מ-המקור (PDF) ב-4 במרץ 2016. נבדק ב-3 בספטמבר 2015. {{cite journal}}: (עזרה) שגיאת ציטוט: תג <ref> בלתי־תקין; השם "BENGIODEEP" הוגדר כמה פעמים עם תוכן שונה
  12. ^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (28 במאי 2015). "Deep learning". Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. {{cite journal}}: (עזרה)
  13. ^ Shigeki, Sugiyama (12 באפריל 2019). Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities (באנגלית). IGI Global. ISBN 978-1-5225-8218-2. {{cite book}}: (עזרה)
  14. ^ Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832. אורכב מ-המקור ב-2016-04-19. נבדק ב-2016-04-09free{{cite journal}}: תחזוקה - ציטוט: postscript (link)
  15. ^ Hinton, G.E. (2009). "Deep belief networks". Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947free{{cite journal}}: תחזוקה - ציטוט: postscript (link)
  16. ^ Cybenko (1989). "Approximations by superpositions of sigmoidal functions" (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303–314. doi:10.1007/bf02551274. S2CID 3958369. אורכב מ-המקור (PDF) ב-10 באוקטובר 2015. {{cite journal}}: (עזרה)
  17. ^ Hornik, Kurt (1991). "Approximation Capabilities of Multilayer Feedforward Networks". Neural Networks. 4 (2): 251–257. doi:10.1016/0893-6080(91)90009-t.
  18. ^ Haykin, Simon S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall. ISBN 978-0-13-273350-2.
  19. ^ Hassoun, Mohamad H. (1995). [
    שגיאות פרמטריות בתבנית:Google book

    פרמטרים [ page ] לא מופיעים בהגדרת התבנית
    https://books.google.com/books?id=Otk32Y3QkxQC&pg=PA48 Fundamentals of Artificial Neural Networks]. MIT Press. p. 48. ISBN 978-0-262-08239-6.
    {{cite book}}: Check |url= value (עזרה)
  20. ^ Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width (אורכב 13.02.2019 בארכיון Wayback Machine). Neural Information Processing Systems, 6231-6239.
  21. ^ [16][17][18][19][20]
  22. ^ Sonoda, Sho; Murata, Noboru (2017). "Neural network with unbounded activation functions is universal approximator". Applied and Computational Harmonic Analysis. 43 (2): 233–268. arXiv:1505.03654. doi:10.1016/j.acha.2015.12.005.
  23. ^ Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF). Springer. ISBN 978-0-387-31073-2. אורכב מ-המקור (PDF) ב-2017-01-11. נבדק ב-2017-08-06.
  24. ^ "Merck Molecular Activity Challenge". kaggle.com. אורכב מ-המקור ב-2020-07-16. נבדק ב-2020-07-16.
  25. ^ "Multi-task Neural Networks for QSAR Predictions | Data Science Association". www.datascienceassn.org. אורכב מ-המקור ב-30 באפריל 2017. נבדק ב-14 ביוני 2017. {{cite web}}: (עזרה)
  26. ^ "Toxicology in the 21st century Data Challenge"
  27. ^ "NCATS Announces Tox21 Data Challenge Winners". אורכב מ-המקור ב-2015-09-08. נבדק ב-2015-03-05.
  28. ^ "Archived copy". אורכב מ-המקור ב-28 בפברואר 2015. נבדק ב-5 במרץ 2015. {{cite web}}: (עזרה); (עזרה)
  29. ^ Oh, K.-S.; Jung, K. (2004). "GPU implementation of neural networks". Pattern Recognition. 37 (6): 1311–1314. Bibcode:2004PatRe..37.1311O. doi:10.1016/j.patcog.2004.01.013.
  30. ^ Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), High performance convolutional neural networks for document processing, אורכב מ-המקור ב-2020-05-18, נבדק ב-2021-02-14
  31. ^ LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989.
  32. ^ Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L. M.; Schmidhuber, J. (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (PDF). International Joint Conference on Artificial Intelligence. doi:10.5591/978-1-57735-516-8/ijcai11-210. אורכב מ-המקור (PDF) ב-2014-09-29. נבדק ב-2017-06-13.
  33. ^ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q. (eds.). Advances in Neural Information Processing Systems 25 (PDF). Curran Associates, Inc. pp. 2843–2851. אורכב מ-המקור (PDF) ב-2017-08-09. נבדק ב-2017-06-13.
  34. ^ Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. (2013). "Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks". Proceedings MICCAI. Lecture Notes in Computer Science. 7908 (Pt 2): 411–418. doi:10.1007/978-3-642-40763-5_51. ISBN 978-3-642-38708-1. PMID 24579167.
  35. ^ Zhong, Sheng-hua; Liu, Yan; Liu, Yang (2011). "Bilinear Deep Learning for Image Classification". Proceedings of the 19th ACM International Conference on Multimedia. MM '11. New York, NY, USA: ACM: 343–352. doi:10.1145/2072298.2072344. ISBN 9781450306164.
  36. ^ "Why Deep Learning Is Suddenly Changing Your Life". Fortune. 2016. אורכב מ-המקור ב-14 באפריל 2018. נבדק ב-13 באפריל 2018. {{cite news}}: (עזרה)
  37. ^ Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (בינואר 2016). "Mastering the game of Go with deep neural networks and tree search". Nature. 529 (7587): 484–489. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. ISSN 1476-4687. PMID 26819042. {{cite journal}}: (עזרה)
  38. ^ A Guide to Deep Learning and Neural Networks, אורכב מ-המקור ב-2020-11-02, נבדק ב-2020-11-16
  39. ^ Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). "Deep neural networks for object detection". Advances in Neural Information Processing Systems: 2553–2561. אורכב מ-המקור ב-2017-06-29. נבדק ב-2017-06-13.
  40. ^ Hof, Robert D. "Is Artificial Intelligence Finally Coming into Its Own?". MIT Technology Review. אורכב מ-המקור ב-31 במרץ 2019. נבדק ב-10 ביולי 2018. {{cite news}}: (עזרה)
  41. ^ Gers, Felix A.; Schmidhuber, Jürgen (2001). "LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages". IEEE Transactions on Neural Networks. 12 (6): 1333–1340. doi:10.1109/72.963769. PMID 18249962. אורכב מ-המקור ב-2020-01-26. נבדק ב-2020-02-25.
  42. ^ Sutskever, L.; Vinyals, O.; Le, Q. (2014). "Sequence to Sequence Learning with Neural Networks" (PDF). Proc. NIPS. arXiv:1409.3215. Bibcode:2014arXiv1409.3215S. אורכב מ-המקור (PDF) ב-2021-05-09. נבדק ב-2017-06-13.
  43. ^ Mikolov, T. (2010). "Recurrent neural network based language model" (PDF). Interspeech: 1045–1048. doi:10.21437/Interspeech.2010-343. אורכב מ-המקור (PDF) ב-2017-05-16. נבדק ב-2017-06-13. {{cite journal}}: פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה)
  44. ^ Hochreiter, Sepp; Schmidhuber, Jürgen (1 בנובמבר 1997). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. {{cite journal}}: (עזרה)
  45. ^ "Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)". ResearchGate. אורכב מ-המקור ב-9 במאי 2021. נבדק ב-13 ביוני 2017. {{cite web}}: (עזרה)
  46. ^ LeCun, Y. (1998). "Gradient-based learning applied to document recognition". Proceedings of the IEEE. 86 (11): 2278–2324. doi:10.1109/5.726791. {{cite journal}}: פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה)
  47. ^ Sainath, Tara N.; Mohamed, Abdel-Rahman; Kingsbury, Brian; Ramabhadran, Bhuvana (2013). "Deep convolutional neural networks for LVCSR". 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 8614–8618. doi:10.1109/icassp.2013.6639347. ISBN 978-1-4799-0356-6.
  48. ^ Ivakhnenko, Alexey (1971). "Polynomial theory of complex systems" (PDF). IEEE Transactions on Systems, Man and Cybernetics. SMC-1 (4): 364–378. doi:10.1109/TSMC.1971.4308320. אורכב מ-המקור (PDF) ב-2017-08-29. נבדק ב-2019-11-05.
  49. ^ Bengio, Yoshua; Boulanger-Lewandowski, Nicolas; Pascanu, Razvan (2013). "Advances in optimizing recurrent networks". 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 8624–8628. arXiv:1212.0901. CiteSeerX 10.1.1.752.9151. doi:10.1109/icassp.2013.6639349. ISBN 978-1-4799-0356-6.
  50. ^ Dahl, G. (2013). "Improving DNNs for LVCSR using rectified linear units and dropout" (PDF). ICASSP. אורכב מ-המקור (PDF) ב-2017-08-12. נבדק ב-2017-06-13. {{cite journal}}: פרמטר לא ידוע |displayauthors= (הצעה: |display-authors=) (עזרה)
  51. ^ "Data Augmentation - deeplearning.ai | Coursera". Coursera. אורכב מ-המקור ב-1 בדצמבר 2017. נבדק ב-30 בנובמבר 2017. {{cite web}}: (עזרה)
  52. ^ Hinton, G. E. (2010). "A Practical Guide to Training Restricted Boltzmann Machines". Tech. Rep. UTML TR 2010-003. אורכב מ-המקור ב-2021-05-09. נבדק ב-2017-06-13.
  53. ^ You, Yang; Buluç, Aydın; Demmel, James (בנובמבר 2017). "Scaling deep learning on GPU and knights landing clusters". Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis on - SC '17. SC '17, ACM. pp. 1–12. doi:10.1145/3126908.3126912. ISBN 9781450351140. אורכב מ-המקור ב-29 ביולי 2020. נבדק ב-5 במרץ 2018. {{cite book}}: (עזרה)
  54. ^ Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). "CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi". The Journal of Supercomputing. 75: 197–227. arXiv:1702.07908. Bibcode:2017arXiv170207908V. doi:10.1007/s11227-017-1994-x.
  55. ^ Ting Qin, et al. "A learning algorithm of CMAC based on RLS." Neural Processing Letters 19.1 (2004): 49-61.
  56. ^ Research, AI (23 באוקטובר 2015). "Deep Neural Networks for Acoustic Modeling in Speech Recognition". airesearch.com. אורכב מ-המקור ב-1 בפברואר 2016. נבדק ב-23 באוקטובר 2015. {{cite web}}: (עזרה)
  57. ^ "GPUs Continue to Dominate the AI Accelerator Market for Now". InformationWeek (באנגלית). בדצמבר 2019. אורכב מ-המקור ב-10 ביוני 2020. נבדק ב-11 ביוני 2020. {{cite news}}: (עזרה)
  58. ^ Ray, Tiernan (2019). "AI is changing the entire nature of computation". ZDNet (באנגלית). אורכב מ-המקור ב-25 במאי 2020. נבדק ב-11 ביוני 2020. {{cite news}}: (עזרה)
  59. ^ "AI and Compute". OpenAI (באנגלית). 16 במאי 2018. אורכב מ-המקור ב-17 ביוני 2020. נבדק ב-11 ביוני 2020. {{cite web}}: (עזרה)