Жасанды жүйке желілерінің түрлері - Википедия - Types of artificial neural networks

Мұнда көптеген бар жасанды нейрондық желілердің түрлері (АНН).

Жасанды жүйке желілері болып табылады есептеу модельдері шабыттандырды биологиялық жүйке желілері, және үйреніп қалған шамамен функциялары жалпы белгісіз. Атап айтқанда, олар мінез-құлықтан шабыт алады нейрондар және олар электр көздерінің сигналдары (мысалы, көзден немесе қолдағы жүйке ұштарынан), өңдеу және мидан шығу (мысалы, жарыққа, жанасуға немесе жылуға реакция). Нейрондардың семантикалық қарым-қатынас жасау тәсілі - үнемі жүргізіліп келе жатқан зерттеу бағыты.[1][2][3][4] Жасанды нейрондық желілердің көпшілігі өздерінің күрделі биологиялық аналогтарымен біршама ұқсастықтарға ие, бірақ олардың белгіленген міндеттерінде өте тиімді (мысалы, жіктеу немесе сегменттеу).

Кейбір жасанды нейрондық желілер адаптивті жүйелер және мысалы үшін қолданылады популяциялар және үнемі өзгеріп отыратын орта.

Нейрондық желілер аппараттық болуы мүмкін (нейрондар физикалық компоненттермен ұсынылған) немесе бағдарламалық қамтамасыздандыруға негізделген (компьютерлік модельдер), және әртүрлі топологиялар мен оқыту алгоритмдерін қолдана алады.

Feedforward

Нервтік желі бірінші және қарапайым түрі болды. Бұл желіде ақпарат тек кіріс деңгейінен кез-келген жасырын қабаттар арқылы циклсыз / циклсыз шығыс деңгейге ауысады. Feedforward желілері әртүрлі типтегі қондырғылармен құрылуы мүмкін, мысалы, екілік Маккулох – Питтс нейрондары, оның ең қарапайымы перцептрон. Контекстінде үнемі сигмоидты активациямен жүретін үздіксіз нейрондар қолданылады көшіру.

Мәліметтерді өңдеудің топтық әдісі

Мәліметтерді өңдеудің топтық әдісі (GMDH)[5] толық автоматты құрылымдық және параметрлік модельді оңтайландыру ерекшеліктері. Түйінді белсендіру функциялары Колмогоров Қосуға және көбейтуге мүмкіндік беретін үлкен көпмүшеліктер. Ол терең көп қабатты қолданады перцептрон сегіз қабатпен.[6] Бұл бақыланатын оқыту әр қабат оқитын қабат-қабат өсетін желі регрессиялық талдау. Бекітілмеген элементтер тексеру жиынтығының көмегімен анықталады және кесіледі регуляция. Алынған желінің мөлшері мен тереңдігі тапсырмаға байланысты.[7]

Автоинкодер

Автоинкодер, автоассоциатор немесе Diabolo желісі[8]:19 ұқсас көп қабатты перцептрон (MLP) - кіріс қабаты, шығыс қабаты және оларды байланыстыратын бір немесе бірнеше жасырын қабаттары бар. Алайда, шығыс деңгейінде кіріс деңгейімен бірдей бірлік саны болады. Оның мақсаты - өзіндік кірістерді қалпына келтіру (мақсатты мәннің орнына). Демек, автоинкодерлер болып табылады бақылаусыз оқыту модельдер. Автоинкодер қолданылады бақылаусыз оқыту туралы тиімді кодтау,[9][10] әдетте мақсатында өлшемділіктің төмендеуі және оқу үшін генеративті модельдер мәліметтер.[11][12]

Ықтималдық

Ықтимал нейрондық желі (PNN) - төрт қабатты тамақтандыратын жүйке торы. Қабаттар - Кіріс, жасырын, өрнек / қорытынды және шығару. PNN алгоритмінде әр кластың ата-аналық ықтималдылықты үлестіру функциясы (PDF) а-ға жуықтайды Парцен терезесі және параметрлік емес функция. Содан кейін, әр кластың PDF-ін қолдана отырып, жаңа енгізудің сыныптық ықтималдығы бағаланады және оны артқы ықтималдығы ең жоғары сыныпқа бөлу үшін Байес ережесі қолданылады.[13] Ол алынған Байес желісі[14] және деп аталатын статистикалық алгоритм Ядро Фишерді дискриминантты талдау.[15] Ол жіктеу және үлгіні тану үшін қолданылады.

Уақытты кешіктіру

Уақытты кешеуілдететін жүйке желісі (TDNN) - бұл жүйенің орналасуына тәуелді емес ерекшеліктерді танитын дәйекті мәліметтерге арналған архитектура. Уақыт ауысымының инварианттылығына қол жеткізу үшін кірістерге кідірістер қосылады, осылайша бірнеше деректер нүктелері (уақыт бойынша нүктелер) бірге талданады.

Әдетте ол үлгіні тану жүйесінің үлкен бөлігін құрайды. Ол қолданылды перцептрон қосылу салмақтары артқа таратумен оқытылған желі (бақылаулы оқыту).[16]

Конволюциялық

Конволюциялық жүйке желісі (CNN, немесе ConvNet немесе ауысым инвариантты немесе кеңістіктік инвариант) - бұл бір немесе бірнеше құрамнан тұратын терең желі класы. конволюциялық толығымен қосылған қабаттары бар қабаттар (типтік ANN-де сәйкес келеді) жоғарыда.[17][18] Ол үшін байланған салмақ пен бассейн қабаттары қолданылады. Атап айтқанда, максималды пул.[19] Ол көбінесе Фукусиманың конволюциялық сәулеті арқылы құрылымдалады.[20] Олар вариациялар көп қабатты перцептрондар минималды қолданады алдын-ала өңдеу.[21] Бұл архитектура CNN-ге кіріс деректерінің 2D құрылымының артықшылығын алуға мүмкіндік береді.

Оның бірлікке қосылу үлгісі визуалды қыртысты ұйымдастырудан шабыт алады. Бөлімдер рецептивті өріс деп аталатын кеңістіктің шектеулі аймағында тітіркендіргіштерге жауап береді. Қабылдау өрістері ішінара қабаттасып, толығымен жабылады визуалды өріс. Бірліктің жауабын математикалық түрде a арқылы жуықтауға болады конволюция жұмыс.[22]

CNN визуалды және басқа екі өлшемді деректерді өңдеуге жарамды.[23][24] Олар имиджде де, сөйлеуде де жоғары нәтижелер көрсетті. Оларды стандартты backpropagation көмегімен үйретуге болады. CNN-ді үйрету басқа тұрақты, терең, алға бағытталған жүйке желілеріне қарағанда оңай және оларды бағалаудың параметрлері азырақ.[25]

Капсула жүйкелік желілері (CapsNet) CNN-ге капсула деп аталатын құрылымдарды қосып, тұрақты (әр түрлі толқуларға қатысты) көріністер қалыптастыру үшін бірнеше капсуладан шығуды қайта пайдаланады.[26]

Компьютерлік көрудегі қосымшалардың мысалдары жатады DeepDream[27] және робот навигациясы.[28] Олардың кең қосымшалары бар бейнені және бейнені тану, ұсынушы жүйелер[29] және табиғи тілді өңдеу.[30]

Терең қабаттасу желісі

Терең қабаттасу желісі (DSN)[31] (терең дөңес желі) жеңілдетілген нейрондық желі модульдерінің блоктар иерархиясына негізделген. Оны 2011 жылы Дэн мен Донг енгізген.[32] Бұл оқытуды а ретінде тұжырымдайды дөңес оңтайландыру мәселесі а жабық түрдегі шешім, механизмнің ұқсастығын баса отырып жинақталған жалпылау.[33] Әрбір DSN блогы - қарапайым модуль, оны а жетекшілік етеді бүкіл блоктар үшін артқы көшірмесіз сән.[34]

Әр блок жеңілдетілгеннен тұрады көп қабатты перцептрон (MLP) бір жасырын қабаты бар. Жасырын қабат сағ логистикасы бар сигмоидты бірлік, ал шығыс деңгейінде сызықтық бірліктер болады. Бұл қабаттар арасындағы байланыстар салмақ матрицасымен ұсынылған U; жасырын-кіру-қосылыстар салмақ матрицасына ие W. Мақсатты векторлар т матрицаның бағандарын құрайды Т, және енгізу векторлары х матрицаның бағандарын құрайды X. Жасырын бірліктердің матрицасы болып табылады . Модульдер тәртіппен оқытылады, сондықтан төменгі қабатты салмақ W әр кезеңде белгілі. Функция элементтерді дұрыстап орындайды логистикалық сигмоид жұмыс. Әр блок бірдей соңғы сыныпты бағалайды ж, және оның бағасы түпнұсқа кіріспен үйлеседі X келесі блок үшін кеңейтілген кірісті қалыптастыру. Осылайша, бірінші блокқа енгізу тек бастапқы деректерді қамтиды, ал төменгі блоктардың кірісі алдыңғы блоктардың шығуын қосады. Содан кейін жоғарғы қабатты салмақ матрицасын үйрену U желідегі басқа салмақтарды дөңес оңтайландыру мәселесі ретінде тұжырымдауға болады:

жабық пішінді шешімі бар.[31]

Басқа терең архитектуралардан, мысалы, DBN-ден айырмашылығы, өзгергенді табу емес ерекшелігі өкілдік. Сәулет түрінің иерархиясының құрылымы параллельді оқытуды пакеттік режимде оңтайландыру мәселесі ретінде қарапайым етеді. Таза түрде дискриминациялық міндеттер, DSN әдеттегіден асып түседі DBN.

Терең қабаттасуға арналған желілер

Бұл архитектура DSN кеңейтімі болып табылады. Ол екі маңызды жетілдіруді ұсынады: жоғары деңгейлі ақпаратты пайдаланады коварианс статистиканы өзгертеді дөңес емес мәселе төменгі қабаттың жоғарғы қабаттың дөңес ішкі мәселесіне дейін.[35] TDSN а-да коварианс статистикасын қолданады екі сызықты картографиялау бір қабаттағы екі жасырын бірліктің әрқайсысынан үшінші ретті арқылы болжамға дейін тензор.

Параллелизация мен масштабтау дәстүрлі түрде маңызды деп саналмайды DNN,[36][37][38] барлық оқыту DSNs және TDSNs параллелизацияға мүмкіндік беру үшін пакеттік режимде жасалады.[39][40] Параллелизация дизайнды масштабты архитектура мен мәліметтер жиынтығына (тереңірек) мүмкіндік береді.

Негізгі архитектура сияқты әр түрлі тапсырмалар үшін жарамды жіктеу және регрессия.

Нормативті кері байланыс

Нормативті кері байланыс желілері бүкіл тану кезінде кездесетін ми құбылыстарын түсіндіруге модель ретінде басталды жарылу және ұқсастықтың қиындығы сенсорлық тануда әмбебап түрде табылған. Тану кезінде оңтайландыруды жүзеге асыратын тетік оларды белсендіретін бірдей кірістерге кері байланыстың тежегіш байланысының көмегімен жасалады. Бұл оқыту кезінде талаптарды азайтады және күрделі тануды жүзеге асыра отырып, оқыту мен жаңартуды жеңілдетуге мүмкіндік береді.

Радиалды негіз функциясы (RBF)

Радиалды базистік функциялар - бұл центрге қатысты қашықтық критерийі бар функциялар. Радиалды негіз функциялары көп қабатты перцепрондарда сигмоидты жасырын қабатты беру сипаттамасын ауыстыру ретінде қолданылды. RBF желілерінің екі қабаты бар: біріншісінде «жасырын» қабаттағы әрбір RBF-ге кіріс салыстырылады. Таңдалған RBF әдетте гаусс болады. Регрессия проблемаларында шығыс деңгей дегеніміз - болжамды орташа нәтижені білдіретін жасырын деңгей мәндерінің сызықтық тіркесімі. Бұл шығыс деңгей мәнінің интерпретациясы а-мен бірдей регрессия моделі статистикада. Жіктеу мәселелерінде шығыс қабаты әдетте а болады сигмоидты функция Артқы ықтималдығын білдіретін жасырын қабат мәндерінің сызықтық тіркесімі. Екі жағдайда да өнімділік жиырылу әдістерімен жақсарады, олар белгілі жотаның регрессиясы классикалық статистикада. Бұл а параметріндегі кішігірім параметр мәндеріне (демек, шығу тегіс функциясына) деген алдыңғы сенімге сәйкес келеді Байес жақтау.

RBF желілерінің артықшылығы көп қабатты перкптрондар сияқты жергілікті минимумдарды болдырмауға мүмкіндік береді. Себебі, оқу процесінде тек жасырын қабаттан шығатын деңгейге сызықтық картографиялау параметрлері реттеледі. Сызықтық қателер бетінің квадратты болуын қамтамасыз етеді, сондықтан оңай табылатын минимумға ие болады. Регрессия мәселелерінде мұны бір матрицалық әрекеттен табуға болады. Жіктеу есептерінде сигмоидты шығару функциясы енгізілген тұрақты емес сызықтықты қолдану тиімді түрде шешіледі қайта өлшенген ең кіші квадраттар.

RBF желілерінің кемшіліктері бар, олар радиалды негіз функциялары арқылы кіріс кеңістігін жақсы қамтуды қажет етеді. RBF орталықтары кіріс деректерін таратуға сілтеме жасай отырып анықталады, бірақ болжау тапсырмасына сілтеме жасамай. Нәтижесінде, өкілдік ресурстар кіріс кеңістігінің тапсырмаға қатысы жоқ аймақтарына жұмсалуы мүмкін. Жалпы шешім - бұл әрбір деректер нүктесін өз орталығымен байланыстыру, бірақ бұл соңғы қабатта шешілетін сызықтық жүйені кеңейтіп, кішірейту әдістерін қажет етеді артық киім.

Әрбір енгізілген деректерді RBF-мен байланыстыру, әрине, ядро ​​әдістеріне әкеледі векторлық машиналар (SVM) және Гаусс процестері (RBF - бұл ядро функциясы ). Барлық үш тәсіл де сызықтық емес ядро ​​функциясын қолдана отырып, енгізу туралы мәліметтерді сызықтық модель көмегімен оқу мәселесін шешуге болатын кеңістікке шығарады. Гаусс процестері сияқты және SVM-ден айырмашылығы, RBF желілері әдетте ықтималдылықты жоғарылату (қатені азайту) арқылы максималды ықтималдық шеңберінде оқытылады. SVM-лер маржаны максимумға айналдыру арқылы артық келуден аулақ болады. SVM классификациясының көптеген қосымшаларында RBF желілерінен асып түседі. Регрессия қосымшаларында олар кіріс кеңістігінің өлшемдері салыстырмалы түрде аз болған кезде бәсекеге қабілетті бола алады.

RBF желілері қалай жұмыс істейді

RBF нейрондық желілері тұжырымдамалық тұрғыдан ұқсас K-жақын көрші (k-NN) модельдері. Негізгі идея - ұқсас кірістер ұқсас нәтижелерді шығарады.

Тренингтер жиынтығында екі болжамды айнымалылар болады, х және у, ал мақсатты айнымалы оң және теріс екі санатқа ие. X = 6, y = 5.1 болжамдық мәндері бар жаңа жағдай берілген, мақсатты айнымалы қалай есептеледі?

Осы мысалда орындалатын жақын көршілер классификациясы қанша көршілес пункттердің қарастырылуына байланысты. Егер 1-NN қолданылса және ең жақын нүкте теріс болса, онда жаңа нүкте теріс деп жіктелуі керек. Сонымен қатар, егер 9-NN классификациясы қолданылса және ең жақын 9 нүкте қарастырылса, онда қоршаған 8 оң нүктенің әсері ең жақын 9 (теріс) нүктеден асып түсуі мүмкін.

RBF желісі нейрондарды болжамдық айнымалылармен сипатталған кеңістікте орналастырады (осы мысалда x, y). Бұл кеңістіктің болжамдық айнымалылар сияқты өлшемдері бар. Евклид қашықтығы жаңа нүктеден бастап әр нейронның центріне дейін есептеледі және әр нейрон үшін салмақты (әсерді) есептеу үшін қашықтыққа радиалды негіз функциясы (RBF) қолданылады (ядро функциясы деп те аталады). Радиалды негіз функциясы осылай аталған, өйткені радиус қашықтығы функцияның аргументі болып табылады.

Салмақ = RBF (қашықтық)

Радиалды негіз функциясы

Жаңа нүктенің мәні RBF функцияларының шығыс мәндерін әр нейронға есептелген салмақтарға көбейту арқылы анықталады.

Нейрон үшін радиалды негіз функциясы центрі мен радиусына ие (оны спрэд деп те атайды). Әр нейрон үшін радиус әр түрлі болуы мүмкін, ал DTREG жасаған RBF желілерінде радиус әр өлшемде әр түрлі болуы мүмкін.

Үлкен таралу кезінде нүктеден қашықтықта орналасқан нейрондар үлкен әсер етеді.

Сәулет

RBF желілері үш қабаттан тұрады:

  • Кіріс қабаты: Әрбір болжамды айнымалы үшін кіріс қабатында бір нейрон пайда болады. Жағдайда категориялық айнымалылар, N-1 нейрондары қолданылады, мұнда N - санаттар саны. Кіріс нейрондары мәндер диапазонын азайту арқылы стандарттайды медиана және бөлу квартилалық ауқымы. Содан кейін кіріс нейрондар мәндерді жасырылған қабаттағы нейрондардың әрқайсысына береді.
  • Жасырын қабат: Бұл қабатта нейрондардың өзгермелі саны бар (жаттығу үдерісімен анықталады). Әрбір нейрон болжамды айнымалылар сияқты өлшемдері бар нүктеге бағытталған радиалды базалық функциядан тұрады. RBF функциясының таралуы (радиусы) әр өлшем үшін әр түрлі болуы мүмкін. Орталықтар мен спрэдтер оқыту арқылы анықталады. Кіріс қабатынан кіріс мәндерінің х векторымен ұсынылған кезде жасырын нейрон сынақ корпусының нейронның орталық нүктесінен эвклидтік арақашықтығын есептейді, содан кейін RBF ядросы функциясын осы қашықтыққа таралу мәндерін қолданады. Нәтиже жиынтық қабатына беріледі.
  • Жиынтық қабаты: Жасырын қабаттағы нейроннан шыққан шама нейронмен байланысты салмаққа көбейтіледі және басқа нейрондардың салмақталған мәндеріне қосылады. Бұл сома шығысқа айналады. Классификациялық есептер үшін әр мақсат категориясы үшін бір нәтиже шығарылады (салмақ пен жиынтықтың жеке жиынтығымен). Санат үшін шығарылатын мән - бұл істің осы санатқа ие болу ықтималдығы.

Тренинг

Оқыту процесінде келесі параметрлер анықталады:

  • Жасырын қабаттағы нейрондардың саны
  • Әрбір жасырын қабатты RBF функциясының центрінің координаттары
  • Әр өлшемдегі әрбір RBF функциясының радиусы (спрэд)
  • RBF функциясының нәтижелеріне қолданылатын салмақтар, олар қосынды қабатына өткен кезде

RBF желілерін оқытудың әртүрлі әдістері қолданылды. Алдымен бір тәсіл қолданылады K - кластерлеуді білдіреді кластерлік орталықтарды табу, содан кейін RBF функцияларының орталықтары ретінде қолданылады. Алайда, K-кластерлерін есептеу өте қарқынды және ол көбінесе орталықтардың оңтайлы санын құра алмайды. Басқа тәсіл - жаттығу пункттерінің кездейсоқ ішкі жиынтығын орталық ретінде пайдалану.

DTREG эволюциялық тәсілді қолдана отырып, әр нейрон үшін оңтайлы орталық нүктелер мен спрэдтерді анықтайтын жаттығу алгоритмін қолданады. Ол желіге нейрондардың қосылуын қашан тоқтату керектігін болжанған бір реттік (LOO) қатені бақылап, LOO қателігі шамадан тыс сәйкес келе бастағанда тоқтату арқылы анықтайды.

Жасырын қабаттағы және қосынды қабаттағы нейрондар арасындағы оңтайлы салмақтарды есептеу жоталардың регрессиясын қолдану арқылы жүзеге асырылады. Итерациялық процедура жалпыланған кросс-валидация (GCV) қатесін минимизациялайтын оңтайлы регуляризация Lambda параметрін есептейді.

Жалпы регрессиялық жүйке жүйесі

GRNN - бұл ассоциативті жадының жүйесіне ұқсас, ол ұқсас ықтималдық жүйке жүйесі бірақ ол жіктеуге қарағанда регрессия мен жуықтау үшін қолданылады.

Терең сенім желісі

A шектеулі Больцман машинасы (RBM) толық қосылған көрінетін және жасырын бірліктері бар. Жасырын-жасырын немесе көрінетін-көрінетін байланыстар жоқ екенін ескеріңіз.

Терең сенім желісі (DBN) - бұл ықтималдық, генеративті модель бірнеше жасырын қабаттардан тұрады. Мұны а деп санауға болады құрамы қарапайым модульдер.[41]

DBN-ді DNN бастапқы салмақтары ретінде үйренген DBN салмақтарын пайдалану арқылы терең нейрондық желіні (DNN) генеративті түрде алдын-ала дайындау үшін пайдалануға болады. Әр түрлі дискриминациялық алгоритмдер осы салмақтарды реттей алады. Бұл әсіресе жаттығулар туралы мәліметтер шектеулі болған кезде өте пайдалы, өйткені инициализацияланбаған салмақ оқуға айтарлықтай кедергі келтіруі мүмкін. Бұл алдын-ала дайындалған салмақтар кездейсоқ таңдауларға қарағанда оңтайлы салмақтарға жақын салмақ кеңістігінің аймағында аяқталады. Бұл жетілдірілген модельдеуге де, жылдам конвергенцияға да мүмкіндік береді.[42]

Қайталанатын нейрондық желі

Қайталанатын нейрондық желілер (RNN) кейінгі өңдеу кезеңдерінен бастап алдыңғы сатыларға дейін мәліметтерді алға, сонымен қатар кері таратады. RNN жалпы реттілік процессорлары ретінде қолданыла алады.

Толығымен қайталанатын

Бұл архитектура 1980 жылдары дамыған. Оның желісі бірліктердің әр жұбы арасында бағытталған байланыс жасайды. Әрқайсысының уақыт бойынша өзгеретін, нақты бағаланатын (нөлден немесе бірден көп) активациясы (шығысы) бар. Әрбір байланыс өзгертілетін нақты бағаланатын салмаққа ие. Кейбір түйіндер таңбаланған түйіндер, кейбір шығыс түйіндер, қалғаны жасырын түйіндер деп аталады.

Үшін бақыланатын оқыту дискретті уақыт параметрлерінде нақты бағаланатын кіріс векторларының жаттығу тізбегі бір уақытта бір кіріс векторы кіріс түйіндерінің активациясының тізбегіне айналады. Әрбір қадамда әрбір кірмейтін бірлік өзінің ағымдағы активациясын қосылыстар алатын барлық бірліктердің активацияларының салмақталған қосындысының сызықтық емес функциясы ретінде есептейді. Жүйе белгілі бір уақыт кезеңінде кейбір шығыс блоктарын (кіріс сигналдарына тәуелсіз) нақты түрде белсендіре алады. Мысалы, егер кіріс дәйектілігі айтылған цифрға сәйкес келетін сөйлеу сигналы болса, реттік соңындағы мақсатты қорытынды цифрды жіктейтін белгі болуы мүмкін. Әрбір дәйектілік үшін оның қателігі - бұл желі мақсатты сигналдардан есептелген барлық активациялардың ауытқуларының қосындысы. Көптеген тізбектердің жаттығулар жиынтығы үшін жалпы қателік - бұл барлық жеке тізбектердің қателіктерінің жиынтығы.

Жалпы қатені азайту үшін, градиенттік түсу сызықтық емес активация функциялары болған жағдайда, әрбір салмақты қателікке байланысты оның туындысына пропорционалды түрде өзгерту үшін қолдануға болады ажыратылатын. Стандартты әдіс «деп аталадыуақытты артқа көшіру «немесе BPTT, алдыңғы қатарлы желілер үшін артқа таралуды қорыту.[43][44] Есептеуге қарағанда қымбат онлайн нұсқасы «Нақты уақыттағы қайталама оқыту» немесе RTRL деп аталады.[45][46] Бұл алгоритм BPTT-ге қарағанда уақыт бойынша жергілікті, бірақ кеңістікте жергілікті емес.[47][48] Аралық күрделілігі бар BPTT және RTRL арасындағы онлайн гибрид бар,[49][50] үздіксіз уақытқа арналған нұсқалармен.[51] Стандартты RNN архитектурасы үшін градиентті түсірудің негізгі проблемасы - қателік градиенттері маңызды оқиғалар арасындағы уақыт артта қалу жылдамдығымен жылдам жоғалады.[52][53] The Ұзақ мерзімді жады сәулет бұл мәселелерді жеңеді.[54]

Жылы арматуралық оқыту параметрлер, ешбір мұғалім мақсатты сигналдарды бермейді. Оның орнына а фитнес функциясы немесе сыйақы функциясы немесе утилита функциясы кейде қоршаған ортаға әсер ететін атқарушы элементтерге қосылған шығыс блоктары арқылы оның кіріс ағынына әсер ететін өнімділікті бағалау үшін қолданылады. Нұсқалары эволюциялық есептеу салмақ матрицасын оңтайландыру үшін жиі қолданылады.

Хопфилд

The Хопфилд желісі (ұқсас аттракторларға негізделген желілер сияқты) тарихи қызығушылық тудырады, бірақ бұл жалпы РНН болмаса да, өйткені ол өрнектердің реттілігін өңдеуге арналмаған. Оның орнына стационарлық кірістер қажет. Бұл барлық қосылыстар симметриялы болатын RNN. Ол жақындасатынына кепілдік береді. Егер байланыстарды үйрету керек Хеббианды оқыту Hopfield желісі сенімді жұмыс істей алады мазмұнға бағытталған жад, қосылыстың өзгеруіне төзімді.

Больцман машинасы

The Больцман машинасы шулы Hopfield желісі деп санауға болады. Бұл жасырын айнымалыларды (жасырын бірліктер) үйренуді көрсететін алғашқы нейрондық желілердің бірі. Больцман машинасын үйрену алғашында баяу жүрді, бірақ қарама-қайшылықты алгоритм Больцман машиналарын оқытуды тездетеді және Сарапшылардың өнімі.

Өздігінен ұйымдастырылатын карта

Өздігінен ұйымдастырылатын карта (SOM) қолданылады бақылаусыз оқыту. Нейрондар жиынтығы кіріс кеңістігіндегі нүктелерді шығыс кеңістігіндегі координаттар үшін бейнелеуге үйренеді. Кіріс кеңістігі шығыс кеңістігінен әртүрлі өлшемдер мен топологияларға ие болуы мүмкін, және SOM оларды сақтауға тырысады.

Векторлық кванттауды үйрену

Векторлық кванттауды үйрену (LVQ) нейрондық желінің архитектурасы ретінде түсіндірілуі мүмкін. Сыныптардың прототиптік өкілдері тиісті арақашықтық өлшемімен бірге қашықтыққа негізделген классификация схемасында параметрлейді.

Қарапайым қайталанатын

Қарапайым қайталанатын желілерде үш деңгей болады, оған кіріс деңгейіне «контексттік бірліктер» жиыны қосылады. Бұл қондырғылар жасырылған қабаттан немесе шығу салмағынан бекітілген салмақпен қосылады.[55] Әрбір қадамда кіріс стандартты түрде таратылады, содан кейін оқытуға арналған ереже қолданылады (орындалмайды) градиенттік түсу ). Бекітілген артқы байланыстар контексттік бірліктерде жасырын бірліктердің алдыңғы мәндерінің көшірмесін қалдырады (өйткені олар оқыту ережесі қолданылғанға дейін байланыстар арқылы таралады).

Су қоймасын есептеу

Су қоймасын есептеу - бұл кеңейту ретінде қарастырылуы мүмкін есептеу негізі нейрондық желілер.[56] Әдетте кіріс сигналы бекітілген (кездейсоқ) беріледі динамикалық жүйе а деп аталады су қоймасы оның динамикасы кірісті үлкен өлшемге түсіреді. A дауыстап оқу су қоймасын қажетті шығысқа дейін бейнелейтін механизм үйретілген. Тренинг тек оқу кезеңінде жүргізіледі. Сұйық күйдегі машиналар[57] су қоймаларын есептеудің екі негізгі түрі болып табылады.[58]

Жаңғырық күйі

Эхо мемлекеттік желісі (ESN) сирек байланысқан кездейсоқ жасырын қабатты қолданады. Шығатын нейрондардың салмағы - бұл оқытылған желінің жалғыз бөлігі. ESN белгілі бір уақыт тізбегін жақсы шығарады.[59]

Ұзақ мерзімді жады

The ұзақ мерзімді жад (LSTM)[54] болдырмайды жоғалып бара жатқан градиент мәселесі. Ол кіріс арасындағы ұзақ кідірістер кезінде де жұмыс істейді және төмен және жоғары жиілікті компоненттерді араластыратын сигналдарды басқара алады. LSTM RNN басқа RNN-ден және басқа сабақтастықтағы оқыту әдістерінен асып түсті HMM тіл үйрену сияқты қосымшаларда[60] және байланысты қолжазбаны тану.[61]

Екі бағытты

Екі бағытты RNN немесе BRNN элементтің өткен және болашақ контекстіне негізделген дәйектіліктің әрбір элементін болжау немесе белгілеу үшін ақырлы реттілікті қолданады.[62] Бұл екі РНН-нің нәтижелерін қосу арқылы жасалады: біреуі тізбекті солдан оңға, екіншісі оңнан солға қарай өңдейді. Біріктірілген нәтижелер мұғалімнің мақсатты сигналдарының болжамдары болып табылады. Бұл әдіс LSTM-мен біріктірілген кезде әсіресе пайдалы болды.[63]

Иерархиялық

Иерархиялық RNN элементтерді пайдалы подпрограммаларға иерархиялық мінез-құлықты ыдырату үшін әртүрлі тәсілдермен қосады.[64][65]

Стохастикалық

Стохастикалық нейрондық желі желіге кездейсоқ вариацияларды енгізеді. Мұндай кездейсоқ вариацияларды формасы ретінде қарастыруға болады статистикалық іріктеу, сияқты Монте-Карлодан сынама алу.

Генетикалық масштаб

RNN (көбінесе LSTM), мұнда серия бірнеше масштабқа бөлінеді, мұнда әр масштаб екі қатарлы нүктелер арасындағы негізгі ұзындықты хабарлайды. Бірінші ретті шкала қалыпты RNN, екінші реттік екі индекспен бөлінген барлық нүктелерден және т.с.с. NN ретті RNN бірінші және соңғы түйінді байланыстырады. Барлық әр түрлі масштабтағы нәтижелер машиналар комитеті ретінде қарастырылады және онымен байланысты баллдар келесі қайталану үшін генетикалық түрде қолданылады.

Модульдік

Биологиялық зерттеулер адамның миы кішігірім желілер жиынтығы ретінде жұмыс істейтіндігін көрсетті. Бұл ұғым дүниеге келді модульдік жүйке желілері, онда бірнеше шағын желілер ынтымақтастықта болады немесе проблемаларды шешу үшін бәсекелеседі.

Машиналар комитеті

Машиналар комитеті (CoM) - бұл берілген мысалда бірге «дауыс беретін» әр түрлі нейрондық желілер жиынтығы. Бұл жалпы жеке желілерге қарағанда әлдеқайда жақсы нәтиже береді. Нейрондық желілер жергілікті минимумдардан зардап шегетіндіктен, бірдей архитектурадан және жаттығулардан басталады, бірақ кездейсоқ әртүрлі бастапқы салмақтарды қолдану көбінесе әртүрлі нәтижелер береді.[дәйексөз қажет ] CoM нәтижені тұрақтандыруға ұмтылады.

CoM жалпыға ұқсас машиналық оқыту пакет әдісі, тек комитет құрамындағы қажетті машиналар әр түрлі кездейсоқ таңдалған ішкі жиынтықтар бойынша жаттығулардан гөрі әр түрлі бастапқы салмақтардан жаттығу арқылы алынады.

Ассоциативті

Ассоциативті нейрондық желі (ASNN) - бірнеше жүйке желілері мен k-ең жақын көршілес техниканы біріктіретін машиналар кеңесінің кеңеюі. Ол ансамбльдің жауаптары арасындағы корреляцияны kNN үшін талданған жағдайлардың арақашықтық өлшемі ретінде қолданады. Бұл нейрондық желі ансамблінің жағымсыздығын түзетеді. Ассоциативті нейрондық желіде жаттығу жиынтығымен сәйкес келе алатын жады бар. Егер жаңа деректер пайда болса, желі дереу болжамдық қабілетін жақсартады және қайта даярлаусыз деректердің жуықтауын (өзін-өзі үйрену) қамтамасыз етеді. ASNN-нің тағы бір маңызды ерекшелігі - бұл модельдер кеңістігіндегі деректер жағдайлары арасындағы корреляцияны талдау арқылы жүйке желісінің нәтижелерін интерпретациялау мүмкіндігі.[66]

Физикалық

Физикалық нейрондық желіге жасанды синапстарды имитациялау үшін электрлік реттелетін қарсылық материалы кіреді. Мысалдарға АДАЛИН мемристор -негізгі желі.[67] Аноптикалық нейрондық желі физикалық іске асыру болып табыладыжасанды нейрондық желі біргеоптикалық компоненттер.

Басқа түрлері

Лезде дайындалған

Лезде оқытылатын нейрондық желілер (ITNN) лезде пайда болатын қысқа мерзімді оқыту құбылысы шабыттандырды. Бұл желілерде жасырын және шығыс қабаттарының салмақтары тікелей оқыту векторының мәліметтерімен салыстырылады. Әдетте, олар екілік деректермен жұмыс істейді, бірақ шағын қосымша өңдеуді қажет ететін үздіксіз деректерге арналған нұсқалар бар.

Тікенді

Нейрондық желілер (SNN) кіріс уақытын нақты қарастырады. Желілік кіріс және шығыс әдетте серпіліс (дельта функциясы немесе күрделі пішіндер) ретінде ұсынылады. SNN ақпарат өңдей алады уақыт домені (уақыт бойынша өзгеретін сигналдар). Олар жиі қайталанатын желілер ретінде жүзеге асырылады. SNN сонымен қатар импульстік компьютер.[68]

Аксональды өткізгіштікті кешіктіретін нейрондық желілер полихронизацияны көрсетеді, демек, есте сақтау қабілеті өте үлкен болуы мүмкін.[69]

SNN және осындай жүйелердегі жүйке жиындарының уақытша корреляциясы - визуалды жүйеде фигураны / жерді бөлуді және аймақты байланыстыруды модельдеу үшін қолданылған.

Нормативті кері байланыс

Реттелетін кері байланыс желісі көмегімен қорытынды жасайды кері байланыс.[70] Кері байланыс бірліктердің оңтайлы іске қосылуын табу үшін қолданылады. Бұл а-ға ұқсас параметрлік емес әдіс бірақ K-жақын көршісінен айырмашылығы, ол алдыңғы қатарлы желілерді математикалық түрде эмуляциялайды.

Неокогнитрон

The неокогнитрон модельденген иерархиялық, көп қабатты желі көру қабығы. Бұл бірліктердің бірнеше түрін қолданады, (бастапқыда екі, деп аталады қарапайым және күрделі ұяшықтар), үлгіні тану тапсырмаларында қолдануға арналған каскадтық модель ретінде.[71][72][73] Жергілікті ерекшеліктерді деформациясы С-жасушалары төзетін S-жасушалар алады. Кірістегі жергілікті ерекшеліктер біртіндеп интеграцияланып, жоғары қабаттарда жіктеледі.[74] Неокогитронның әртүрлі түрлерінің арасында[75] қол жеткізу үшін артқа тарату арқылы бір кірістегі бірнеше заңдылықтарды анықтай алатын жүйелер зейін.[76] Ол үшін қолданылған үлгіні тану міндеттер және шабыттандырылған конволюциялық жүйке желілері.[77]

Күрделі иерархиялық-терең модельдер

Күрделі иерархиялық-терең модельдер параметрлік емес терең желілерді құрайды Байес модельдері. Ерекшеліктер терең архитектураларды қолдану арқылы білуге ​​болады, мысалы, DBN,[78] терең Больцман машиналары (DBM),[79] терең автоинкодерлер,[80] конволюциялық нұсқалар,[81][82] ssRBMs,[83] терең кодтау желілері,[84] Сирек ерекшеліктері бар DBN,[85] РНН,[86] шартты DBN,[87] автоинкодерлерді шуды басу.[88] Бұл тезірек оқуға және жоғары өлшемді деректермен дәлірек жіктеуге мүмкіндік беретін жақсы көріністі қамтамасыз етеді. Алайда, бұл архитектуралар роман сабақтарын аз мысалдармен оқуда нашар, өйткені барлық желілік блоктар кірісті ұсынуға қатысады (а таратылған өкілдік) және бірге реттелуі керек (жоғары еркіндік дәрежесі ). Еркіндік дәрежесін шектеу бірнеше мысалдардан жаңа сыныптарды оқуды жеңілдетіп, оқытудың параметрлерін азайтады. Иерархиялық Байес (HB) модельдер мысалы, бірнеше мысалдан үйренуге мүмкіндік беру[89][90][91][92][93] компьютерлік көру үшін, статистика және когнитивті ғылым.

HD архитектурасы HB және терең желілердің сипаттамаларын біріктіруге бағытталған. HDP-DBM архитектурасы a иерархиялық дирихле процесі (HDP) ДБ архитектурасын қамтитын иерархиялық модель ретінде. Бұл толық генеративті модель, модельдік қабаттар арқылы ағып жатқан абстрактілі тұжырымдамалардан қорытылған, олар «ақылға қонымды» табиғи көрінетін роман класстарында жаңа мысалдарды синтездеуге қабілетті. Барлық деңгейлер буынды максимизациялау арқылы бірге үйренеді журнал ықтималдығы Гол.[94]

Үш жасырын қабаты бар ДБ-де көрінетін кіріс ықтималдығыν'' бұл:

қайда - бұл жасырын бірліктердің жиынтығы, және көрінетін-жасырын және жасырын-жасырын симметриялық өзара әрекеттесу шарттарын білдіретін модель параметрлері болып табылады.

Оқытылған МДБ моделі - бұл бірлескен үлестірімді анықтайтын бағытталмаған модель . Білінгенді білдірудің бір әдісі - бұл шартты модель және алдыңғы мерзім .

Мұнда шартты DBM моделін ұсынады, оны екі қабатты ДМ ретінде қарастыруға болады, бірақ күйлері берілген жағымсыз терминдермен :

Терең болжамдық кодтау желілері

Терең болжамдық кодтау желісі (DPCN) a болжамды төменнен жоғарыға қажетті басымдылықтарды эмпирикалық түрде түзету үшін жоғарыдан төмен ақпаратты қолданатын кодтау схемасы қорытынды терең, жергілікті байланыс арқылы рәсім, генеративті модель. Бұл сирек алу арқылы жұмыс істейді Ерекшеліктер сызықтық динамикалық модельді қолданатын уақыт бойынша бақылаулардан. Содан кейін, инвариантты сипаттамаларды үйрену үшін жинақтау стратегиясы қолданылады. Бұл қондырғылар терең архитектураны қалыптастыру үшін құрастырылған және оларды оқытады ашкөз қабатты бақылаусыз оқыту. Қабаттар өзіндік түрді құрайды Марков тізбегі кез келген қабаттағы күйлер тек алдыңғы және кейінгі қабаттарға тәуелді болатындай.

DPCN деңгейлері жоғарғы деңгейдегі ақпаратты және алдыңғы күйлердің уақыттық тәуелділіктерін қолдана отырып, жоғарыдан төмен қарай әдісті қолдану арқылы қабаттың көрінісін болжайды.[95]

DPCN а-ны қалыптастыру үшін кеңейтуге болады конволюциялық желі.[95]

Көп қабатты ядро ​​машинасы

Multilayer kernel machines (MKM) are a way of learning highly nonlinear functions by iterative application of weakly nonlinear kernels. Олар пайдаланады kernel principal component analysis (KPCA),[96] as a method for the бақылаусыз greedy layer-wise pre-training step of deep learning.[97]

Қабат learns the representation of the previous layer , extracting the негізгі компонент (PC) of the projection layer output in the feature domain induced by the kernel. Азайту үшін dimensionaliity of the updated representation in each layer, a supervised strategy selects the best informative features among features extracted by KPCA. The process is:

  • дәрежесін features according to their өзара ақпарат with the class labels;
  • for different values of Қ және , compute the classification error rate of a K-nearest neighbor (K-NN) classifier using only the most informative features on a validation set;
  • the value of with which the classifier has reached the lowest error rate determines the number of features to retain.

Some drawbacks accompany the KPCA method for MKMs.

A more straightforward way to use kernel machines for deep learning was developed for spoken language understanding.[98] The main idea is to use a kernel machine to approximate a shallow neural net with an infinite number of hidden units, then use жинақтау to splice the output of the kernel machine and the raw input in building the next, higher level of the kernel machine. The number of levels in the deep convex network is a hyper-parameter of the overall system, to be determined by cross validation.

Динамикалық

Dynamic neural networks address nonlinear multivariate behaviour and include (learning of) time-dependent behaviour, such as transient phenomena and delay effects. Techniques to estimate a system process from observed data fall under the general category of system identification.

Cascading

Cascade correlation is an architecture and бақыланатын оқыту алгоритм. Instead of just adjusting the weights in a network of fixed topology,[99] Cascade-Correlation begins with a minimal network, then automatically trains and adds new hidden units one by one, creating a multi-layer structure. Once a new hidden unit has been added to the network, its input-side weights are frozen. This unit then becomes a permanent feature-detector in the network, available for producing outputs or for creating other, more complex feature detectors. The Cascade-Correlation architecture has several advantages: It learns quickly, determines its own size and topology, retains the structures it has built even if the training set changes and requires no көшіру.

Бұлыңғыр

A neuro-fuzzy network is a бұлыңғыр inference system in the body of an artificial neural network. Depending on the FIS type, several layers simulate the processes involved in a fuzzy inference-like fuzzification, inference, aggregation and defuzzification. Embedding an FIS in a general structure of an ANN has the benefit of using available ANN training methods to find the parameters of a fuzzy system.

Compositional pattern-producing

Compositional pattern-producing networks (CPPNs) are a variation of artificial neural networks which differ in their set of белсендіру функциялары and how they are applied. While typical artificial neural networks often contain only sigmoid functions (and sometimes Гаусс функциялары ), CPPNs can include both types of functions and many others. Furthermore, unlike typical artificial neural networks, CPPNs are applied across the entire space of possible inputs so that they can represent a complete image. Since they are compositions of functions, CPPNs in effect encode images at infinite resolution and can be sampled for a particular display at whatever resolution is optimal.

Memory networks

Memory networks[100][101] қосу ұзақ мерзімді жад. The long-term memory can be read and written to, with the goal of using it for prediction. These models have been applied in the context of сұраққа жауап беру (QA) where the long-term memory effectively acts as a (dynamic) knowledge base and the output is a textual response.[102]

Жылы сирек бөлінген жады немесе hierarchical temporal memory, the patterns encoded by neural networks are used as addresses for content-addressable memory, with "neurons" essentially serving as address encoders and decoders. However, the early controllers of such memories were not differentiable.[103]

One-shot associative memory

This type of network can add new patterns without re-training. It is done by creating a specific memory structure, which assigns each new pattern to an orthogonal plane using adjacently connected hierarchical arrays.[104] The network offers real-time pattern recognition and high scalability; this requires parallel processing and is thus best suited for platforms such as wireless sensor networks, торлы есептеу, және GPGPUs.

Hierarchical temporal memory

Hierarchical temporal memory (HTM) models some of the structural and алгоритмдік қасиеттері неокортекс. HTM is a биомиметикалық model based on memory-prediction теория. HTM is a method for discovering and inferring the high-level causes of observed input patterns and sequences, thus building an increasingly complex model of the world.

HTM combines existing ideas to mimic the neocortex with a simple design that provides many capabilities. HTM combines and extends approaches used in Bayesian networks, spatial and temporal clustering algorithms, while using a tree-shaped hierarchy of nodes that is common in нейрондық желілер.

Голографиялық ассоциативті ес

Holographic Associative Memory (HAM) is an analog, correlation-based, associative, stimulus-response system. Information is mapped onto the phase orientation of complex numbers. The memory is effective for ассоциативті жады tasks, generalization and pattern recognition with changeable attention. Dynamic search localization is central to biological memory. In visual perception, humans focus on specific objects in a pattern. Humans can change focus from object to object without learning. HAM can mimic this ability by creating explicit representations for focus. It uses a bi-modal representation of pattern and a hologram-like complex spherical weight state-space. HAMs are useful for optical realization because the underlying hyper-spherical computations can be implemented with optical computation.[105]

LSTM-related differentiable memory structures

Басқа long short-term memory (LSTM), other approaches also added differentiable memory to recurrent functions. Мысалға:

  • Differentiable push and pop actions for alternative memory networks called neural stack machines[106][107]
  • Memory networks where the control network's external differentiable storage is in the fast weights of another network[108]
  • LSTM forget gates[109]
  • Self-referential RNNs with special output units for addressing and rapidly manipulating the RNN's own weights in differentiable fashion (internal storage)[110][111]
  • Learning to transduce with unbounded memory[112]

Neural Turing machines

Neural Turing machines[113] couple LSTM networks to external memory resources, with which they can interact by attentional processes. The combined system is analogous to a Тьюринг машинасы but is differentiable end-to-end, allowing it to be efficiently trained by градиенттік түсу. Preliminary results demonstrate that neural Turing machines can infer simple algorithms such as copying, sorting and associative recall from input and output examples.

Differentiable neural computers (DNC) are an NTM extension. They out-performed Neural turing machines, long short-term memory systems and memory networks on sequence-processing tasks.[114][115][116][117][118]

Semantic hashing

Approaches that represent previous experiences directly and use a similar experience to form a local model деп аталады nearest neighbour немесе k-nearest neighbors әдістер.[119] Deep learning is useful in semantic hashing[120] where a deep graphical model the word-count vectors[121] obtained from a large set of documents.[түсіндіру қажет ] Documents are mapped to memory addresses in such a way that semantically similar documents are located at nearby addresses. Documents similar to a query document can then be found by accessing all the addresses that differ by only a few bits from the address of the query document. Айырмашылығы жоқ сирек бөлінген жады that operates on 1000-bit addresses, semantic hashing works on 32 or 64-bit addresses found in a conventional computer architecture.

Pointer networks

Deep neural networks can be potentially improved by deepening and parameter reduction, while maintaining trainability. While training extremely deep (e.g., 1 million layers) neural networks might not be practical, Орталық Есептеуіш Бөлім -like architectures such as pointer networks[122] and neural random-access machines[123] overcome this limitation by using external жедел жад and other components that typically belong to a компьютерлік архитектура сияқты тіркеушілер, ALU және көрсеткіштер. Such systems operate on ықтималдықтың таралуы vectors stored in memory cells and registers. Thus, the model is fully differentiable and trains end-to-end. The key characteristic of these models is that their depth, the size of their short-term memory, and the number of parameters can be altered independently.

Гибридтер

Encoder–decoder networks

Encoder–decoder frameworks are based on neural networks that map highly құрылымдалған input to highly structured output. The approach arose in the context of machine translation,[124][125][126] where the input and output are written sentences in two natural languages. In that work, an LSTM RNN or CNN was used as an encoder to summarize a source sentence, and the summary was decoded using a conditional RNN language model to produce the translation.[127] These systems share building blocks: gated RNNs and CNNs and trained attention mechanisms.

Сондай-ақ қараңыз

Әдебиеттер тізімі

  1. ^ University Of Southern California. (2004, June 16). Gray Matters: New Clues Into How Neurons Process Information. ScienceDaily Quote: "... "It's amazing that after a hundred years of modern neuroscience research, we still don't know the basic information processing functions of a neuron," said Bartlett Mel..."
  2. ^ Вайцман Ғылым Институты. (2007, April 2). It's Only A Game Of Chance: Leading Theory Of Perception Called Into Question. ScienceDaily Quote: "..."Since the 1980s, many neuroscientists believed they possessed the key for finally beginning to understand the workings of the brain. But we have provided strong evidence to suggest that the brain may not encode information using precise patterns of activity."..."
  3. ^ University Of California – Los Angeles (2004, December 14). UCLA Neuroscientist Gains Insights Into Human Brain From Study Of Marine Snail. ScienceDaily Quote: "..."Our work implies that the brain mechanisms for forming these kinds of associations might be extremely similar in snails and higher organisms...We don't fully understand even very simple kinds of learning in these animals."..."
  4. ^ Йель университеті. (2006, April 13). Brain Communicates In Analog And Digital Modes Simultaneously. ScienceDaily Quote: "...McCormick said future investigations and models of neuronal operation in the brain will need to take into account the mixed analog-digital nature of communication. Only with a thorough understanding of this mixed mode of signal transmission will a truly in depth understanding of the brain and its disorders be achieved, he said..."
  5. ^ Ivakhnenko, Alexey Grigorevich (1968). "The group method of data handling – a rival of the method of stochastic approximation". Soviet Automatic Control. 13 (3): 43–55.
  6. ^ Ivakhnenko, A. G. (1971). "Polynomial Theory of Complex Systems". IEEE Transactions on Systems, Man, and Cybernetics. 1 (4): 364–378. дои:10.1109/TSMC.1971.4308320. S2CID  17606980.
  7. ^ Кондо, Т .; Ueno, J. (2008). "Multi-layered GMDH-type neural network self-selecting optimum neural network architecture and its application to 3-dimensional medical image recognition of blood vessels". International Journal of Innovative Computing, Information and Control. 4 (1): 175–187.
  8. ^ Bengio, Y. (2009). "Learning Deep Architectures for AI" (PDF). Машиналық оқытудың негіздері мен тенденциялары. 2: 1–127. CiteSeerX  10.1.1.701.9550. дои:10.1561/2200000006.
  9. ^ Liou, Cheng-Yuan (2008). "Modeling word perception using the Elman network". Нейрокомпьютерлік. 71 (16–18): 3150–3157. дои:10.1016/j.neucom.2008.04.030.
  10. ^ Liou, Cheng-Yuan (2014). "Autoencoder for words". Нейрокомпьютерлік. 139: 84–96. дои:10.1016/j.neucom.2013.09.055.
  11. ^ Auto-Encoding Variational Bayes, Kingma, D.P. and Welling, M., ArXiv e-prints, 2013 архив.org/abs/1312.6114
  12. ^ Generating Faces with Torch, Boesen A., Larsen L. and Sonderby S.K., 2015 алау.ch/blog/2015/11/13/gan.html
  13. ^ "Competitive probabilistic neural network (PDF Download Available)". ResearchGate. Алынған 2017-03-16.
  14. ^ «Мұрағатталған көшірме». Архивтелген түпнұсқа on 2010-12-18. Алынған 2012-03-22.CS1 maint: тақырып ретінде мұрағатталған көшірме (сілтеме)
  15. ^ «Мұрағатталған көшірме» (PDF). Архивтелген түпнұсқа (PDF) 2012-01-31. Алынған 2012-03-22.CS1 maint: тақырып ретінде мұрағатталған көшірме (сілтеме)
  16. ^ TDNN Fundamentals, Kapitel aus dem Online Handbuch des SNNS
  17. ^ Zhang, Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Қолданбалы оптика. 29 (32): 4790–7. Бибкод:1990ApOpt..29.4790Z. дои:10.1364/ao.29.004790. PMID  20577468.
  18. ^ Zhang, Wei (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of Annual Conference of the Japan Society of Applied Physics.
  19. ^ J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121–128, May, 1993.
  20. ^ Fukushima, K. (1980). "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". Биол. Cybern. 36 (4): 193–202. дои:10.1007/bf00344251. PMID  7370364. S2CID  206775608.
  21. ^ LeCun, Yann. "LeNet-5, convolutional neural networks". Алынған 16 қараша 2013.
  22. ^ "Convolutional Neural Networks (LeNet) – DeepLearning 0.1 documentation". DeepLearning 0.1. LISA Lab. Алынған 31 тамыз 2013.
  23. ^ LeCun т.б., "Backpropagation Applied to Handwritten Zip Code Recognition," Нейрондық есептеу, 1, pp. 541–551, 1989.
  24. ^ Янн ЛеКун (2016). Slides on Deep Learning Желіде
  25. ^ "Unsupervised Feature Learning and Deep Learning Tutorial". ufldl.stanford.edu.
  26. ^ Хинтон, Джеффри Э .; Krizhevsky, Alex; Wang, Sida D. (2011), "Transforming Auto-Encoders", Информатика пәнінен дәрістер, Springer Berlin Heidelberg, pp. 44–51, CiteSeerX  10.1.1.220.5099, дои:10.1007/978-3-642-21735-7_6, ISBN  9783642217340
  27. ^ Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2014). Going Deeper with Convolutions. Computing Research Repository. б. 1. arXiv:1409.4842. дои:10.1109/CVPR.2015.7298594. ISBN  978-1-4673-6964-0. S2CID  206592484.
  28. ^ Ran, Lingyan; Zhang, Yanning; Чжан, Цилинь; Yang, Tao (2017-06-12). "Convolutional Neural Network-Based Robot Navigation Using Uncalibrated Spherical Images" (PDF). Датчиктер. 17 (6): 1341. дои:10.3390/s17061341. ISSN  1424-8220. PMC  5492478. PMID  28604624.
  29. ^ van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013-01-01). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q. (eds.). Deep content-based music recommendation (PDF). Curran Associates, Inc. pp. 2643–2651.
  30. ^ Collobert, Ronan; Weston, Jason (2008-01-01). A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning. Proceedings of the 25th International Conference on Machine Learning. ICML '08. Нью-Йорк, Нью-Йорк, АҚШ: ACM. 160–167 беттер. дои:10.1145/1390156.1390177. ISBN  978-1-60558-205-4. S2CID  2617020.
  31. ^ а б Deng, Li; Yu, Dong; Platt, John (2012). "Scalable stacking and learning for building deep architectures" (PDF). 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 2133–2136. дои:10.1109/ICASSP.2012.6288333. ISBN  978-1-4673-0046-9. S2CID  16171497.
  32. ^ Deng, Li; Yu, Dong (2011). "Deep Convex Net: A Scalable Architecture for Speech Pattern Classification" (PDF). Proceedings of the Interspeech: 2285–2288.
  33. ^ David, Wolpert (1992). "Stacked generalization". Neural Networks. 5 (2): 241–259. CiteSeerX  10.1.1.133.8090. дои:10.1016/S0893-6080(05)80023-1.
  34. ^ Bengio, Y. (2009-11-15). «АИ үшін терең архитектураларды үйрену». Машиналық оқытудың негіздері мен тенденциялары. 2 (1): 1–127. CiteSeerX  10.1.1.701.9550. дои:10.1561/2200000006. ISSN  1935-8237.
  35. ^ Hutchinson, Brian; Deng, Li; Yu, Dong (2012). "Tensor deep stacking networks". Үлгіні талдау және машиналық интеллект бойынша IEEE транзакциялары. 1–15 (8): 1944–1957. дои:10.1109/tpami.2012.268. PMID  23267198. S2CID  344385.
  36. ^ Хинтон, Джеффри; Salakhutdinov, Ruslan (2006). «Нейрондық желілермен деректердің өлшемдерін азайту». Ғылым. 313 (5786): 504–507. Бибкод:2006Sci ... 313..504H. дои:10.1126/science.1127647. PMID  16873662. S2CID  1658773.
  37. ^ Dahl, G.; Yu, D.; Deng, L.; Acero, A. (2012). "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition". IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 30–42. CiteSeerX  10.1.1.227.8990. дои:10.1109/tasl.2011.2134090. S2CID  14862572.
  38. ^ Mohamed, Abdel-rahman; Dahl, George; Hinton, Geoffrey (2012). "Acoustic Modeling Using Deep Belief Networks". IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 14–22. CiteSeerX  10.1.1.338.2670. дои:10.1109/tasl.2011.2109382. S2CID  9530137.
  39. ^ Deng, Li; Yu, Dong (2011). "Deep Convex Net: A Scalable Architecture for Speech Pattern Classification" (PDF). Proceedings of the Interspeech: 2285–2288.
  40. ^ Deng, Li; Yu, Dong; Platt, John (2012). "Scalable stacking and learning for building deep architectures" (PDF). 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 2133–2136. дои:10.1109/ICASSP.2012.6288333. ISBN  978-1-4673-0046-9. S2CID  16171497.
  41. ^ Hinton, G.E. (2009). "Deep belief networks". Scholarpedia. 4 (5): 5947. Бибкод:2009SchpJ...4.5947H. дои:10.4249/scholarpedia.5947.
  42. ^ Larochelle, Hugo; Erhan, Dumitru; Courville, Aaron; Bergstra, James; Bengio, Yoshua (2007). An Empirical Evaluation of Deep Architectures on Problems with Many Factors of Variation. Proceedings of the 24th International Conference on Machine Learning. ICML '07. Нью-Йорк, Нью-Йорк, АҚШ: ACM. pp. 473–480. CiteSeerX  10.1.1.77.3242. дои:10.1145/1273496.1273556. ISBN  9781595937933. S2CID  14805281.
  43. ^ Werbos, P. J. (1988). «Газдың қайталанатын нарықтық моделін қолдана отырып, артқа көшіруді жалпылау». Neural Networks. 1 (4): 339–356. дои:10.1016 / 0893-6080 (88) 90007-x.
  44. ^ David E. Rumelhart; Geoffrey E. Hinton; Ronald J. Williams. Learning Internal Representations by Error Propagation.
  45. ^ A. J. Robinson and F. Fallside. The utility driven dynamic error propagation network. Technical Report CUED/F-INFENG/TR.1, Cambridge University Engineering Department, 1987.
  46. ^ R. J. Williams және D. Zipser. Қайталанатын желілер үшін градиент негізінде оқыту алгоритмдері және олардың есептеу қиындығы. Артқы таратуда: теория, архитектура және қолдану. Хиллсдейл, NJ: Эрлбаум, 1994.
  47. ^ Schmidhuber, J. (1989). "A local learning algorithm for dynamic feedforward and recurrent networks". Байланыс ғылымы. 1 (4): 403–412. дои:10.1080/09540098908915650. S2CID  18721007.
  48. ^ Neural and Adaptive Systems: Fundamentals through Simulation. J.C. Principe, N.R. Euliano, W.C. Лефевр
  49. ^ Schmidhuber, J. (1992). "A fixed size storage O(n3) time complexity learning algorithm for fully recurrent continually running networks". Нейрондық есептеу. 4 (2): 243–248. дои:10.1162/neco.1992.4.2.243. S2CID  11761172.
  50. ^ R. J. Williams. Complexity of exact gradient computation algorithms for recurrent neural networks. Technical Report Technical Report NU-CCS-89-27, Boston: Northeastern University, College of Computer Science, 1989.
  51. ^ Pearlmutter, B. A. (1989). "Learning state space trajectories in recurrent neural networks" (PDF). Нейрондық есептеу. 1 (2): 263–269. дои:10.1162/neco.1989.1.2.263. S2CID  16813485.
  52. ^ S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f. Informatik, Technische Univ. Munich, 1991.
  53. ^ S. Hochreiter, Y. Bengio, P. Frasconi, and J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
  54. ^ а б Hochreiter, S.; Schmidhuber, J. (1997). "Long short-term memory". Нейрондық есептеу. 9 (8): 1735–1780. дои:10.1162/neco.1997.9.8.1735. PMID  9377276. S2CID  1915014.
  55. ^ Neural Networks as Cybernetic Systems 2nd and revised edition, Holk Cruse[1]
  56. ^ Шраувен, Бенджамин, Дэвид Верстраетен, және Ян Ван Кампенхут «Су қоймаларын есептеу туралы шолу: теориясы, қолданылуы және іске асырылуы». Proceedings of the European Symposium on Artificial Neural Networks ESANN 2007, pp. 471–482.
  57. ^ Mass, Wolfgang; Nachtschlaeger, T.; Markram, H. (2002). "Real-time computing without stable states: A new framework for neural computation based on perturbations". Нейрондық есептеу. 14 (11): 2531–2560. дои:10.1162/089976602760407955. PMID  12433288. S2CID  1045112.
  58. ^ Echo мемлекеттік желісі, Scholarpedia
  59. ^ Jaeger, H.; Harnessing (2004). "Predicting chaotic systems and saving energy in wireless communication". Ғылым. 304 (5667): 78–80. Бибкод:2004Sci...304...78J. CiteSeerX  10.1.1.719.2301. дои:10.1126/science.1091277. PMID  15064413. S2CID  2184251.
  60. ^ F. A. Gers and J. Schmidhuber. LSTM recurrent networks learn simple context free andcontext sensitive languages IEEE жүйелеріндегі транзакциялар 12(6):1333–1340, 2001.
  61. ^ A. Graves, J. Schmidhuber. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Advances in Neural Information Processing Systems 22, NIPS'22, p 545-552, Vancouver, MIT Press, 2009.
  62. ^ Шустер, Майк; Paliwal, Kuldip K. (1997). "Bidirectional recurrent neural networks". IEEE сигналдарды өңдеу бойынша транзакциялар. 45 (11): 2673–2681. Бибкод:1997ITSP...45.2673S. CiteSeerX  10.1.1.331.9441. дои:10.1109/78.650093.
  63. ^ Graves, A.; Schmidhuber, J. (2005). "Framewise phoneme classification with bidirectional LSTM and other neural network architectures". Neural Networks. 18 (5–6): 602–610. CiteSeerX  10.1.1.331.5800. дои:10.1016/j.neunet.2005.06.042. PMID  16112549.
  64. ^ Schmidhuber, J. (1992). "Learning complex, extended sequences using the principle of history compression". Нейрондық есептеу. 4 (2): 234–242. дои:10.1162/neco.1992.4.2.234. S2CID  18271205.
  65. ^ Dynamic Representation of Movement Primitives in an Evolved Recurrent Neural Network
  66. ^ "Associative Neural Network". www.vcclab.org. Алынған 2017-06-17.
  67. ^ Андерсон, Джеймс А .; Rosenfeld, Edward (2000). Talking Nets: An Oral History of Neural Networks. ISBN  9780262511117.
  68. ^ Gerstner; Kistler. "Spiking Neuron Models: Single Neurons, Populations, Plasticity". icwww.epfl.ch. Алынған 2017-06-18. Freely available online textbook
  69. ^ Izhikevich EM (February 2006). "Polychronization: computation with spikes". Нейрондық есептеу. 18 (2): 245–82. дои:10.1162/089976606775093882. PMID  16378515. S2CID  14253998.
  70. ^ Achler T., Omar C., Amir E., "Shedding Weights: More With Less", IEEE Proc. International Joint Conference on Neural Networks, 2008
  71. ^ David H. Hubel and Torsten N. Wiesel (2005). Brain and visual perception: the story of a 25-year collaboration. АҚШ-тағы Оксфорд университеті. б. 106. ISBN  978-0-19-517618-6.
  72. ^ Hubel, DH; Wiesel, TN (October 1959). "Receptive fields of single neurones in the cat's striate cortex". Дж. Физиол. 148 (3): 574–91. дои:10.1113/jphysiol.1959.sp006308. PMC  1363130. PMID  14403679.
  73. ^ Fukushima 1987, p. 83.
  74. ^ Fukushima 1987, p. 84.
  75. ^ Fukushima 2007
  76. ^ Fukushima 1987, pp.81, 85
  77. ^ ЛеКун, Янн; Bengio, Yoshua; Hinton, Geoffrey (2015). "Deep learning". Табиғат. 521 (7553): 436–444. Бибкод:2015Natur.521..436L. дои:10.1038/nature14539. PMID  26017442. S2CID  3074096.
  78. ^ Hinton, G. E.; Osindero, S.; Teh, Y. (2006). "A fast learning algorithm for deep belief nets" (PDF). Нейрондық есептеу. 18 (7): 1527–1554. CiteSeerX  10.1.1.76.1541. дои:10.1162/neco.2006.18.7.1527. PMID  16764513. S2CID  2309950.
  79. ^ Хинтон, Джеффри; Salakhutdinov, Ruslan (2009). "Efficient Learning of Deep Boltzmann Machines" (PDF). 3: 448–455. Журналға сілтеме жасау қажет | журнал = (Көмектесіңдер)
  80. ^ Larochelle, Hugo; Bengio, Yoshua; Louradour, Jerdme; Lamblin, Pascal (2009). "Exploring Strategies for Training Deep Neural Networks". Машиналық оқыту журналы. 10: 1–40.
  81. ^ Пальшалар, Адам; Carpenter, Blake (2011). "Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning" (PDF): 440–445. Журналға сілтеме жасау қажет | журнал = (Көмектесіңдер)
  82. ^ Ли, Хонглак; Grosse, Roger (2009). Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. Машиналық оқыту бойынша 26-шы жыл сайынғы халықаралық конференция материалдары. 1-8 бет. CiteSeerX  10.1.1.149.6800. дои:10.1145/1553374.1553453. ISBN  9781605585161. S2CID  12008458.
  83. ^ Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). "Unsupervised Models of Images by Spike-and-Slab RBMs" (PDF). Proceedings of the 28th International Conference on Machine Learning. 10. 1-8 бет.
  84. ^ Lin, Yuanqing; Zhang, Tong; Zhu, Shenghuo; Yu, Kai (2010). "Deep Coding Network". Advances in Neural Information Processing Systems 23 (NIPS 2010). 1-9 бет.
  85. ^ Ranzato, Marc Aurelio; Boureau, Y-Lan (2007). "Sparse Feature Learning for Deep Belief Networks" (PDF). Нейрондық ақпаратты өңдеу жүйесіндегі жетістіктер. 23: 1–8.
  86. ^ Socher, Richard; Lin, Clif (2011). "Parsing Natural Scenes and Natural Language with Recursive Neural Networks" (PDF). Proceedings of the 26th International Conference on Machine Learning.
  87. ^ Тейлор, Грэм; Hinton, Geoffrey (2006). "Modeling Human Motion Using Binary Latent Variables" (PDF). Нейрондық ақпаратты өңдеу жүйесіндегі жетістіктер.
  88. ^ Vincent, Pascal; Larochelle, Hugo (2008). Extracting and composing robust features with denoising autoencoders. Proceedings of the 25th International Conference on Machine Learning – ICML '08. pp. 1096–1103. CiteSeerX  10.1.1.298.4083. дои:10.1145/1390156.1390294. ISBN  9781605582054. S2CID  207168299.
  89. ^ Kemp, Charles; Perfors, Amy; Tenenbaum, Joshua (2007). "Learning overhypotheses with hierarchical Bayesian models". Developmental Science. 10 (3): 307–21. CiteSeerX  10.1.1.141.5560. дои:10.1111/j.1467-7687.2007.00585.x. PMID  17444972.
  90. ^ Xu, Fei; Tenenbaum, Joshua (2007). "Word learning as Bayesian inference". Психол. Аян. 114 (2): 245–72. CiteSeerX  10.1.1.57.9649. дои:10.1037/0033-295X.114.2.245. PMID  17500627.
  91. ^ Chen, Bo; Polatkan, Gungor (2011). "The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning" (PDF). Proceedings of the 28th International Conference on International Conference on Machine Learning. Omnipress. pp. 361–368. ISBN  978-1-4503-0619-5.
  92. ^ Fei-Fei, Li; Fergus, Rob (2006). "One-shot learning of object categories". Үлгіні талдау және машиналық интеллект бойынша IEEE транзакциялары. 28 (4): 594–611. CiteSeerX  10.1.1.110.9024. дои:10.1109/TPAMI.2006.79. PMID  16566508. S2CID  6953475.
  93. ^ Rodriguez, Abel; Dunson, David (2008). "The Nested Dirichlet Process". Американдық статистикалық қауымдастық журналы. 103 (483): 1131–1154. CiteSeerX  10.1.1.70.9873. дои:10.1198/016214508000000553. S2CID  13462201.
  94. ^ Ruslan, Salakhutdinov; Joshua, Tenenbaum (2012). "Learning with Hierarchical-Deep Models". Үлгіні талдау және машиналық интеллект бойынша IEEE транзакциялары. 35 (8): 1958–71. CiteSeerX  10.1.1.372.909. дои:10.1109/TPAMI.2012.269. PMID  23787346. S2CID  4508400.
  95. ^ а б Chalasani, Rakesh; Principe, Jose (2013). "Deep Predictive Coding Networks". arXiv:1301.3541 [cs.LG ].
  96. ^ Scholkopf, B; Smola, Alexander (1998). "Nonlinear component analysis as a kernel eigenvalue problem". Нейрондық есептеу. 44 (5): 1299–1319. CiteSeerX  10.1.1.53.8911. дои:10.1162/089976698300017467. S2CID  6674407.
  97. ^ Cho, Youngmin (2012). "Kernel Methods for Deep Learning" (PDF): 1–9. Журналға сілтеме жасау қажет | журнал = (Көмектесіңдер)
  98. ^ Deng, Li; Tur, Gokhan; He, Xiaodong; Hakkani-Tür, Dilek (2012-12-01). "Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding". Microsoft Research.
  99. ^ Fahlman, Scott E.; Lebiere, Christian (August 29, 1991). "The Cascade-Correlation Learning Architecture" (PDF). Карнеги Меллон университеті. Алынған 4 қазан 2014.
  100. ^ Schmidhuber, Juergen (2014). "Memory Networks". arXiv:1410.3916 [cs.AI ].
  101. ^ Schmidhuber, Juergen (2015). "End-To-End Memory Networks". arXiv:1503.08895 [cs.NE ].
  102. ^ Schmidhuber, Juergen (2015). "Large-scale Simple Question Answering with Memory Networks". arXiv:1506.02075 [cs.LG ].
  103. ^ Hinton, Geoffrey E. (1984). "Distributed representations". Архивтелген түпнұсқа on 2016-05-02.
  104. ^ B.B. Nasution, A.I. Хан, A Hierarchical Graph Neuron Scheme for Real-Time Pattern Recognition, IEEE Transactions on Neural Networks, vol 19(2), 212–229, Feb. 2008
  105. ^ Sutherland, John G. (1 January 1990). "A holographic model of memory, learning and expression". Халықаралық жүйке жүйесі журналы. 01 (3): 259–267. дои:10.1142/S0129065790000163.
  106. ^ S. Das, C.L. Giles, G.Z. Sun, "Learning Context Free Grammars: Limitations of a Recurrent Neural Network with an External Stack Memory," Proc. 14th Annual Conf. of the Cog. Ғылыми. Soc., p. 79, 1992.
  107. ^ Mozer, M. C.; Das, S. (1993). A connectionist symbol manipulator that discovers the structure of context-free languages. NIPS 5. pp. 863–870.
  108. ^ Schmidhuber, J. (1992). "Learning to control fast-weight memories: An alternative to recurrent nets". Нейрондық есептеу. 4 (1): 131–139. дои:10.1162/neco.1992.4.1.131. S2CID  16683347.
  109. ^ Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). "Learning precise timing with LSTM recurrent networks" (PDF). JMLR. 3: 115–143.
  110. ^ Jürgen Schmidhuber (1993). "An introspective network that can learn to run its own weight change algorithm". In Proc. of the Intl. Конф. on Artificial Neural Networks, Brighton. IEE. 191–195 бб.
  111. ^ Hochreiter, Sepp; Younger, A. Steven; Conwell, Peter R. (2001). "Learning to Learn Using Gradient Descent". ICANN. 2130: 87–94. CiteSeerX  10.1.1.5.323.
  112. ^ Schmidhuber, Juergen (2015). "Learning to Transduce with Unbounded Memory". arXiv:1506.02516 [cs.NE ].
  113. ^ Schmidhuber, Juergen (2014). "Neural Turing Machines". arXiv:1410.5401 [cs.NE ].
  114. ^ Burgess, Matt. "DeepMind's AI learned to ride the London Underground using human-like reason and memory". WIRED UK. Алынған 2016-10-19.
  115. ^ "DeepMind AI 'Learns' to Navigate London Tube". PCMAG. Алынған 2016-10-19.
  116. ^ Mannes, John. "DeepMind's differentiable neural computer helps you navigate the subway with its memory". TechCrunch. Алынған 2016-10-19.
  117. ^ Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (2016-10-12). "Hybrid computing using a neural network with dynamic external memory". Табиғат. 538 (7626): 471–476. Бибкод:2016Natur.538..471G. дои:10.1038/nature20101. ISSN  1476-4687. PMID  27732574. S2CID  205251479.
  118. ^ "Differentiable neural computers | DeepMind". DeepMind. Алынған 2016-10-19.
  119. ^ Atkeson, Christopher G.; Schaal, Stefan (1995). "Memory-based neural networks for robot learning". Нейрокомпьютерлік. 9 (3): 243–269. дои:10.1016/0925-2312(95)00033-6.
  120. ^ Salakhutdinov, Ruslan, and Geoffrey Hinton. "Semantic hashing." International Journal of Approximate Reasoning 50.7 (2009): 969–978.
  121. ^ Le, Quoc V.; Mikolov, Tomas (2014). "Distributed representations of sentences and documents". arXiv:1405.4053 [cs.CL ].
  122. ^ Schmidhuber, Juergen (2015). "Pointer Networks". arXiv:1506.03134 [stat.ML ].
  123. ^ Schmidhuber, Juergen (2015). "Neural Random-Access Machines". arXiv:1511.06392 [cs.LG ].
  124. ^ Kalchbrenner, N.; Blunsom, P. (2013). "Recurrent continuous translation models". EMNLP'2013: 1700–1709. Журналға сілтеме жасау қажет | журнал = (Көмектесіңдер)
  125. ^ Sutskever, I.; Vinyals, O.; Le, Q. V. (2014). "Sequence to sequence learning with neural networks" (PDF). Twenty-eighth Conference on Neural Information Processing Systems. arXiv:1409.3215.
  126. ^ Schmidhuber, Juergen (2014). "Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation". arXiv:1406.1078 [cs.CL ].
  127. ^ Schmidhuber, Juergen; Courville, Aaron; Bengio, Yoshua (2015). "Describing Multimedia Content using Attention-based Encoder—Decoder Networks". IEEE Transactions on Multimedia. 17 (11): 1875–1886. arXiv:1507.01053. Бибкод:2015arXiv150701053C. дои:10.1109/TMM.2015.2477044. S2CID  1179542.