KR20180025125A - 하이브리드 피드 포워드-반복적 딥 네트워크에서 정보 하이웨이를 위한 시스템 및 방법 - Google Patents
하이브리드 피드 포워드-반복적 딥 네트워크에서 정보 하이웨이를 위한 시스템 및 방법 Download PDFInfo
- Publication number
- KR20180025125A KR20180025125A KR1020170026179A KR20170026179A KR20180025125A KR 20180025125 A KR20180025125 A KR 20180025125A KR 1020170026179 A KR1020170026179 A KR 1020170026179A KR 20170026179 A KR20170026179 A KR 20170026179A KR 20180025125 A KR20180025125 A KR 20180025125A
- Authority
- KR
- South Korea
- Prior art keywords
- output
- gate
- input
- coupled
- highway
- Prior art date
Links
Images
Classifications
-
- G06N3/0445—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Design And Manufacture Of Integrated Circuits (AREA)
- Logic Circuits (AREA)
Abstract
장치 및 방법이 제공된다. 장치는 제1 레이어(layer)의 제1 반복적 네트워크(recurrent network); 상기 제1 반복적 네트워크에 연결된 제2 레이어의 제2 반복적 네트워크; 상기 제2 반복적 네트워크에 연결된 원격 입력 게이트(distant input gate); 상기 원격 입력 게이트 및 상기 제2 반복적 네트워크에 연결된 제1 하이웨이 게이트(highway gate); 상기 원격 입력 게이트, 상기 제1 하이웨이 게이트 및 상기 제2 반복적 네트워크에 연결된 제1 원소 곱 투영 게이트(elementwise product projection gate); 상기 제1 반복적 네트워크 및 상기 제2 반복적 네트워크에 연결된 제2 하이웨이 게이트; 및 상기 제1 반복적 네트워크, 상기 제2 하이웨이 게이트 및 상기 제2 반복적 네트워크에 연결된 제2 원소 곱 투영 게이트를 포함한다.
Description
본 발명은 일반적으로 딥 뉴럴 네트워크(deep neural network)의 정보 하이웨이(information highway)를 위한 시스템 및 방법, 구체적으로 하이브리드 피드 포워드-반복적 딥 뉴럴 네트워크(hybrid feedforward-recurrent deep neural network)에서 정보 하이웨이를 위한 시스템 및 방법에 관한 것이다.
딥 러닝 방법(deep learning method)은 다중 처리 계층을 갖는 딥 그래프(deep graph)를 이용하여 데이터 표현을 학습하는 것에 기초하는 기계 학습 방법(machine learning method)의 일종이다. 이러한 심층 학습 아키텍처에는 심 신경 네트워크가 포함된다. DNN(Deep Neural Network)은 이미지 분류, 음성 인식 및 자연어 처리와 같은 다양한 기능을 제공한다. 예를 들어, DCNN(deep convolutional neural network, deep CNN)을 기반으로 한 보드 게임 "Go"를 플레이(play)하는 컴퓨터 프로그램인 Google의 ALPHAGO ™는 최근에 "Go"의 인간 세계 챔피언을 이겼으며, 이것은 인간에 의해서만 수행되는 것으로 간주되었던 복잡한 작업들이 딥 뉴럴 네트워크에 의해 해결될 수 있음을 시사한다.
뉴럴 네트워크의 깊이는 피드 포워드 네트워크에서 연속하는 레이어(layer)의 수를 나타낸다. 깊은 뉴럴 네트워크는 얕은 신경 네트워크에 비해 복잡성이 적은 입력 기능을보다 잘 나타낼 수 있다. 그러나 기울기 소멸/폭발 문제(vanishing/exploding gradient problem)로 인해 딥 네트워크를 학습하는 것은 어렵고, 기존의 최적화 솔버(optimization solver)는 레이어 수가 증가함에 따라 종종 실패한다. 또한, GRU(gated recurrent unit)과 LTSM(long term term memories)과 같은 반복 아키텍처(recurrent architecture)의 깊이가 증가함에 따라 RNN(recurrent neural network) 아키텍처의 훈련은 더 어려워진다. 왜냐하면 이러한 아키텍처는 이미 시간 도메인에서 기울기 소멸/폭발 문제를 더욱 악화시키는 매우 깊은 표현(deep representation)을 가지고 있기 때문이다.
본 발명이 해결하고자 하는 기술적 과제는, 하이브리드 피드 포워드-반복적 딥 뉴럴 네트워크에서 정보 하이웨이를 위한 시스템 및 방법을 제공하기 위한 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따르면, 장치는 제1 레이어(layer)의 제1 반복적 네트워크(recurrent network); 상기 제1 반복적 네트워크에 연결된 제2 레이어의 제2 반복적 네트워크; 상기 제2 반복적 네트워크에 연결된 원격 입력 게이트(distant input gate); 상기 원격 입력 게이트 및 상기 제2 반복적 네트워크에 연결된 제1 하이웨이 게이트(highway gate); 상기 원격 입력 게이트, 상기 제1 하이웨이 게이트 및 상기 제2 반복적 네트워크에 연결된 제1 원소 곱 투영 게이트(elementwise product projection gate); 상기 제1 반복적 네트워크 및 상기 제2 반복적 네트워크에 연결된 제2 하이웨이 게이트; 및 상기 제1 반복적 네트워크, 상기 제2 하이웨이 게이트 및 상기 제2 반복적 네트워크에 연결된 제2 원소 곱 투영 게이트를 포함한다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따르면, 방법은, 하이웨이 연결(highway connection)을 구비하는 하이브리드 반복적 네트워크(hybrid recurrent network) 방법에 있어서, 상기 하이웨이 연결을 위한 제1 하이웨이 게이트(highway gate)를 통해, 제1 레이어(layer)의 제1 반복적 네트워크(recurrent network)에서 제2 레이어의 제2 반복적 네트워크로 출력을 공급하고, 원격 입력 게이트(distant input gate) 및 제2 하이웨이 게이트를 통해, 상기 제2 반복적 네트워크의 원격 입력(distant input)을 수신하는 것을 포함한다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따르면, 장치는 제1 레이어(layer)의 제1 반복적 네트워크(recurrent network); 상기 제1 반복적 네트워크에 연결된 제2 레이어의 제2 반복적 네트워크; 상기 제2 반복적 네트워크에 연결된 제3 레이어의 제3 반복적 네트워크; 상기 제1 반복적 네트워크에 연결된 상기 제3 반복적 네트워크의 원격 입력 게이트(distant input gate); 상기 원격 입력 게이트에 연결된 상기 제3 반복적 네트워크의 제1 하이웨이 게이트(highway gate); 상기 제2 반복적 네트워크에 연결된 상기 제3 반복적 네트워크의 제2 하이웨이 게이트; 및 상기 제2 반복적 네트워크 및 상기 제2 하이웨이 게이트에 연결된 상기 제3 반복적 네트워크의 제1 원소 곱 투영 게이트(elementwise product projection gate)를 포함한다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따르면, 방법은, 다중 하이웨이 연결(multiple highway connection)을 구비하는 하이브리드 반복적 네트워크(hybrid recurrent network) 방법에 있어서, 상기 하이웨이 연결을 위한 제1 하이웨이 게이트(highway gate)를 통해, 제2 레이어(layer)의 제2 반복적 네트워크(recurrent network)에서 제3 레이어의 제3 반복적 네트워크로 출력을 공급하고, 원격 입력 게이트(distant input gate) 및 제2 하이웨이 게이트를 통해, 상기 제3 반복적 네트워크의 원격 입력(distant input)을 제1 레이어의 제1 반복적 네트워크로부터 수신하는 것을 포함한다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따르면, 방법은, 하이웨이 연결(highway connection)을 구비하는 하이브리드 반복적 네트워크(hybrid recurrent network) 방법에 있어서, 하이웨이 연결을 구비하는, 하나 이상의 다른 하이브리드 반복적 네트워크를 포함하는 패키지 또는 웨이퍼의 일부로서, 상기 하이웨이 연결을 구비하는 상기 하이브리드 반복적 네트워크를 형성하고, 상기 하이웨이 연결을 구비하는 상기 하이브리드 반복적 네트워크를 테스트하는 것을 포함하고, 상기 하이웨이 연결을 구비하는 상기 하이브리드 반복적 네트워크는, 상기 하이웨이 연결을 위한 제1 하이웨이 게이트(highway gate)를 통해, 제1 레이어(layer)의 제1 반복적 네트워크(recurrent network)에서 제2 레이어의 제2 반복적 네트워크로 출력을 공급하고, 원격 입력 게이트(distant input gate) 및 제2 하이웨이 게이트를 통해, 상기 제2 반복적 네트워크의 원격 입력(distant input)을 수신하고, 상기 하이웨이 연결을 구비하는 상기 하이브리드 반복적 네트워크를 테스트하는 것은, 하나 이상의 전기-광 변환기(electrical to optical converter), 단일 광학 신호를 2 이상의 광학 신호로 분배하는 하나 이상의 광 분배기(optical splitter) 및 하나 이상의 광-전기 변환기(optical to electrical converter)를 이용하여 상기 하이웨이 연결을 구비하는 상기 하이브리드 반복적 네트워크 및 상기 하이웨이 연결을 구비하는 상기 하나 이상의 다른 하이브리드 반복적 네트워크를 테스트하는 것을 포함한다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따르면, 방법은, 집적 회로의 구성 방법으로서, 상기 집적 회로의 레이어에 대한 피처(feature)의 세트(set)에 대한 마스크 레이아웃을 생성하고, 상기 마스크 레이아웃은 하이웨이 연결(highway connection)을 구비하는 하이브리드 반복적 네트워크(hybrid recurrent network)를 포함하는 하나 이상의 회로 피처(circuit feature)에 대한 스탠다드 셀 라이브러리 매크로(standard cell library macro)를 포함하고, 상기 마스크 레이아웃을 생성하는 동안 레이아웃 디자인 룰(layout design rule)을 준수하는 상기 매크로의 상대 위치를 배제하고, 상기 마스크 레이아웃을 생성한 후 레이아웃 디자인 룰을 준수하는 상기 매크로의 상기 상대 위치를 검사하고, 임의의 상기 매크로에 의해 상기 레이아웃 디자인 룰을 준수하지 않는 경우가 검출된 경우, 상기 준수하지 않는 매크로 각각을 상기 레이아웃 디자인 룰을 따르도록 수정함으로써 상기 마스크 레이아웃을 수정하고, 상기 집적 회로의 상기 레이어에 대한 상기 피처의 상기 세트와 상기 수정된 마스크 레이아웃에 따라 마스크를 생성하고, 상기 마스크에 따라 상기 집적 회로 레이어를 제조하는 것을 포함하고, 상기 하이웨이 연결을 구비하는 상기 하이브리드 반복적 네트워크는, 상기 하이웨이 연결을 위한 제1 하이웨이 게이트(highway gate)를 통해, 제1 레이어(layer)의 제1 반복적 네트워크(recurrent network)에서 제2 레이어의 제2 반복적 네트워크로 출력을 공급하고, 원격 입력 게이트(distant input gate) 및 제2 하이웨이 게이트를 통해, 상기 제2 반복적 네트워크의 원격 입력(distant input)을 수신한다.
본 개시의 임의의 실시예의 상기 및 다른 양상들, 특징들 및 장점들은 첨부된 도면들과 관련하여 취해진 다음의 상세한 설명으로부터보다 명확해질 것이다:
도 1은 LSTM 네트워크 아키텍처를 설명하기 위한 블록도이다.
도 2는 CNN 또는 DNN과, LSTM 네트워크 아키텍처의 결합(CNN/DNN-LSTM)을 설명하기 위한 블록도이다.
도 3은 하이브리드 CNN 또는 하이브리드 DNN과, LSTM 네트워크 아키텍처의 결합(하이브리드 CNN/DNN-LSTM)을 설명하기 위한 블록도이다.
도 4는 하이브리드 CNN 또는 하이브리드 DNN과, 하이웨이 연결(highway connection)을 구비한 LSTM 네트워크 아키텍처의 결합(하이브리드 CNN/DNN-HLSTM)을 설명하기 위한 블록도이다.
도 5는 본 발명의 일 실시예에 따른, 하이웨이 연결을 구비한 하이브리드 하이브리드 LSTM 네트워크 아키텍처(H2LSTM)를 설명하기 위한 블록도이다.
도 6은 GRU 네트워크 아키텍처를 설명하기 위한 블록도이다.
도 7은 하이웨이 연결을 구비한 GRU 네트워크 아키텍처(HGRU)를 설명하기 위한 블록도이다.
도 8은 하이브리드 CNN 또는 하이브리드 DNN과, GRU 네트워크 아키텍처의 결합(하이브리드 CNN/DNN-GRU)을 설명하기 위한 블록도이다.
도 9는 하이브리드 CNN 또는 하이브리드 DNN과, HGRU 네트워크 아키텍처의 결합(하이브리드 CNN/DNN-HGRU)을 설명하기 위한 블록도이다.
도 10은 인터-하이웨이 연결(inter-highway connection)을 구비한 GRU와 하이웨이 연결을 구비한 GRU 네트워크 아키텍처의 결합을 설명하기 위한 블록도이다.
도 11은 GRU를 구비한 하이브리드 CNN/DNN과, 하이웨이 연결을 구비한 GRU의 결합을 설명하기 위한 블록도이다.
도 12는 본 발명의 일 실시예에 따른, 인터 GRU(inter GRU)를 구비한 GRU와, 다중 하이웨이 연결을 구비한 GRU의 결합을 설명하기 위한 블록도이다.
도 13은 본 발명의 일 실시예에 따른, 하이웨이 연결을 구비한 하이브리드 반복적 네트워크 방법을 설명하기 위한 흐름도이다.
도 14는 본 발명의 일 실시예에 따른, 다중 하이웨이 연결을 구비한 하이브리드 반복적 네트워크 방법을 설명하기 위한 흐름도이다.
도 15는 본 발명의 일 실시예에 따른, 하이웨이 연결을 구비한 하이브리드 반복적 네트워크의 제조 방법을 설명하기 위한 흐름도이다.
도 16은 본 발명의 일 실시예에 따른, 집적 회로를 형성하는 방법을 설명하기 위한 흐름도이다.
도 1은 LSTM 네트워크 아키텍처를 설명하기 위한 블록도이다.
도 2는 CNN 또는 DNN과, LSTM 네트워크 아키텍처의 결합(CNN/DNN-LSTM)을 설명하기 위한 블록도이다.
도 3은 하이브리드 CNN 또는 하이브리드 DNN과, LSTM 네트워크 아키텍처의 결합(하이브리드 CNN/DNN-LSTM)을 설명하기 위한 블록도이다.
도 4는 하이브리드 CNN 또는 하이브리드 DNN과, 하이웨이 연결(highway connection)을 구비한 LSTM 네트워크 아키텍처의 결합(하이브리드 CNN/DNN-HLSTM)을 설명하기 위한 블록도이다.
도 5는 본 발명의 일 실시예에 따른, 하이웨이 연결을 구비한 하이브리드 하이브리드 LSTM 네트워크 아키텍처(H2LSTM)를 설명하기 위한 블록도이다.
도 6은 GRU 네트워크 아키텍처를 설명하기 위한 블록도이다.
도 7은 하이웨이 연결을 구비한 GRU 네트워크 아키텍처(HGRU)를 설명하기 위한 블록도이다.
도 8은 하이브리드 CNN 또는 하이브리드 DNN과, GRU 네트워크 아키텍처의 결합(하이브리드 CNN/DNN-GRU)을 설명하기 위한 블록도이다.
도 9는 하이브리드 CNN 또는 하이브리드 DNN과, HGRU 네트워크 아키텍처의 결합(하이브리드 CNN/DNN-HGRU)을 설명하기 위한 블록도이다.
도 10은 인터-하이웨이 연결(inter-highway connection)을 구비한 GRU와 하이웨이 연결을 구비한 GRU 네트워크 아키텍처의 결합을 설명하기 위한 블록도이다.
도 11은 GRU를 구비한 하이브리드 CNN/DNN과, 하이웨이 연결을 구비한 GRU의 결합을 설명하기 위한 블록도이다.
도 12는 본 발명의 일 실시예에 따른, 인터 GRU(inter GRU)를 구비한 GRU와, 다중 하이웨이 연결을 구비한 GRU의 결합을 설명하기 위한 블록도이다.
도 13은 본 발명의 일 실시예에 따른, 하이웨이 연결을 구비한 하이브리드 반복적 네트워크 방법을 설명하기 위한 흐름도이다.
도 14는 본 발명의 일 실시예에 따른, 다중 하이웨이 연결을 구비한 하이브리드 반복적 네트워크 방법을 설명하기 위한 흐름도이다.
도 15는 본 발명의 일 실시예에 따른, 하이웨이 연결을 구비한 하이브리드 반복적 네트워크의 제조 방법을 설명하기 위한 흐름도이다.
도 16은 본 발명의 일 실시예에 따른, 집적 회로를 형성하는 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 동일한 도면 부호가 상이한 도면에 도시되어 있다 하더라도, 동일한 요소는 동일한 도면 부호로 표시된다는 점에 유의해야 한다. 이하의 설명에서, 상세한 구성 및 구성 요소와 같은 특정 세부 사항은 본 발명의 실시예의 전반적인 이해를 돕기 위해 제공된다. 따라서, 본 명세서에 기재된 실시예의 다양한 변경 및 수정이 본 개시의 범위 및 사상을 벗어나지 않고 이루어질 수 있다는 것은 해당 기술 분야의 통상의 기술자에게 명백할 것이다. 또한, 공지된 기능 및 구성에 대한 설명은 명료성 및 간결성을 위해 생략되었다. 이하에서 설명되는 용어는 본 발명의 기능을 고려하여 정의된 용어로서, 사용자, 사용자의 의도 또는 관습에 따라 달라질 수있다. 그러므로 용어의 정의는 본 명세서 전반에 걸친 내용을 기반으로 결정되어야한다.
본 개시는, 첨부된 도면을 참조하여 이하에서 상세하게 설명되는 실시예들 중에서 다양한 변형례 및 다양한 실시예를 가질 수 있다. 그러나, 본 발명은 실시예에 한정되지 않으며, 본 발명의 사상 및 범위 내에서 모든 수정, 균등물 및 변형을 포함하는 것으로 이해되어야한다.
제1, 제2 등과 같은 서수를 포함하는 용어가 다양한 요소를 설명하기 위해 사용될 수 있지만, 구조적 요소는 용어에 의해 제한되지 않는다. 이 용어는 한 요소를 다른 요소와 구별하기 위해서만 사용된다. 예를 들어, 본 개시의 범위를 벗어나지 않으면서, 제 1 구조 요소는 제 2 구조 요소로 지칭될 수 있다. 이와 유사하게, 제2 구조 요소는 제1 구조 요소로 지칭될 수도 있다. 본 명세서에에 사용된 바와 같이, "및/또는"이라는 용어는 하나 이상의 관련 아이템의 임의의 조합 및 모든 조합을 포함한다.
본 명세서에서 사용 된 용어는 본 개시의 다양한 실시예를 설명하기 위해 사용되었지만, 본 개시를 제한하고자 하는 것은 아니다. 단수 형태는 문맥에 달리 명시되지 않는 한 복수 형태를 포함한다. 본 개시에서, 용어 "포함하는(include)"또는 "가지는(have)"은 특징, 숫자, 단계, 동작, 구조적 요소, 부품 또는 이들의 조합의 존재를 나타내며, 하나 이상의 특징, 숫자, 단계, 동작, 구조적 요소, 부품 또는 이들의 조합의 추가적인 존재 또는 확률을 배제하지 않는다는 것을 이해해야한다.
다르게 정의되지 않는 한, 본 명세서에서 사용되는 모든 용어는 본 개시가 속하는 기술 분야의 통상의 기술자에 의해 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의된 것과 같은 용어는 관련 분야의 문맥 상의 의미와 동일한 의미를 갖는 것으로 해석되어야 하며, 본 개시에서 명확하게 정의되지 않는 한 이상적이거나 과도하게 공식적인 의미를 갖는 것으로 해석되어서는 안된다.
본 발명은 하이브리드 피드 포워드-반복적 딥 뉴럴 네트워크(hybrid feedforward-recurrent deep neural network)의 정보 하이웨이를 위한 시스템 및 방법에 관한 것이다. 본 발명의 일 실시예는 반복적 하이브리드 뉴럴 네트워크 상의 기울기 소멸/폭발 문제(vanishing/exploding gradient issue)를 극복할 수 있다. 본 발명은 피드 포워드(완전 연결되거나(fully connected) 컨볼루션의(convolutional)) 및 RNN을 모두 구비하는 매우 깊은(very deep) 뉴럴 네트워크에서의 정보 흐름(information flows)을 제공한다. RNN은 반복적 유닛(recurrent unit)으로의 정보의 흐름과 반복적 유닛으로부터의 정보의 흐름을 제어하는 GRU 및/또는 LSTM으로서 구현될 수 있다.
본 발명의 일 실시예에 따르면, 본 발명은 여러 타입의 레이어로부터 들어오는 다중 입력으로부터의 다중 하이웨이 연결(multiple highway connection)을 제공한다.
본 발명의 일 실시예에 따르면, 본 발명은, 이전의 LSTM 레이어뿐만 아니라, 컨볼루션 레이어(convolutional layer) 또는 원격 입력 레이어(distant input layer)를 비롯한, 원격 입력(distant input)이 반드시 다른 반복적 네트워크로부터 제공될 필요가 없는 원격 레이어(distant layer)로부터 정보를 전달할 수 있는 하이웨이 게이트를 포함하는 LSTM 아키텍처(예컨대, H2LSTM)를 제공한다.
상대적으로 더 멀리 있는(relatively farther away) 하이웨이 연결(highway connection)은 기울기 소멸/폭발 문제를 회피할 수 있다. 이것은 특히 하이브리드 뉴럴 네트워크에 유용한데, 그 이유는 여러 컴포넌트로부터의 하이웨이 연결은 직접 피드백될 수 있기 때문이다.
네트워크로서 원하는 기능을 정교하게 학습하는 것을 제공하는 본 발명에 따른 다양한 실시예들은, 추가적인 딥 레이어(deep layer)의 가중치를 0으로 구동함으로써 이전 입력의 단순화된 기능을 학습할 수 있다.
인터 HGRU(inter highway GRU)는 결합되거나 적층된 GRU 네트워크에서, 하나의 GRU 레이어 내에서가 아니라, 이전의 또는 하위의 GRU 레이어로부터도 하이웨이 연결을 더 제공할 수 있다.
본 발명의 일 실시예에 따르면, GRU 아키텍처(예컨대, H2GRU)는 하이브리드 네트워크의 수정된 HGRU 아키텍처와, 원격 레이어(distant layer)로부터 HGRU 상태로의 정보의 전달 통로를 제어하기 위한 하이웨이 게이트를 결합한다.
본 발명의 일 실시예에 따르면, RNN은 다음과 같은 식 (1)로 표현될 수 있다.
도 1은 LSTM 네트워크 아키텍처(100)를 설명하기 위한 블록도이다.
도 1을 참조하면, 레이어(예컨대, 레이어 L+1)의 LSTM 네트워크 아키텍처(100)는 이전 레이어(예컨대, 레이어 L)의 셀 활성화(cell activation)를 홀드(hold)하기 위한 제1 셀 활성화 레지스터()(101), 이전 레이어의 출력을 홀드하기 위한 제1 출력 게이트()(103), 입력 레지스터()(105), 망각 게이트(forget gate)()(107), 입력 게이트()(109), 신규 입력 레지스터(new input register)()(111), 셀 출력 활성화 레지스터(cell output activation register)()(113), 제2 셀 활성화 레지스터()(115) 및 제2 출력 게이트()(117)를 포함한다.
제1 셀 활성화 레지스터()(101)는 제1 원소 곱 투영 게이트(elementwise product projection gate)(119)의 제1 입력에 연결된 출력을 포함하고, 제1 원소 곱 투영 게이트(119)는 제2 입력 및 출력을 포함한다. 제1 출력 게이트()(103)는 망각 게이트()(107), 입력 게이트()(109), 신규 입력 레지스터()(111) 및 셀 출력 활성화 레지스터()(113) 각각의 입력에 연결된 출력을 포함한다. 입력 레지스터()(105)는 망각 게이트()(107), 입력 게이트()(109), 신규 입력 레지스터()(111) 및 셀 출력 활성화 레지스터()(113) 각각의 입력에 연결된 출력을 포함한다. 망각 게이트()(107)는 제1 원소 곱 투영 게이트(119)의 제2 입력에 연결된 출력을 포함한다. 입력 게이트()(109)는 제2 원소 곱 투영 게이트(121)의 제1 입력에 연결된 출력을 포함하고, 제2 원소 곱 투영 게이트(121)는 제2 입력 및 출력을 포함한다. 신규 입력 레지스터()(111)는 제2 원소 곱 투영 게이트(121)의 제2 입력에 연결된 출력을 포함한다. 셀 출력 활성화 레지스터()(113)는 제3 원소 곱 투영 게이트(125)의 제1 입력에 연결된 출력을 포함하고, 제3 원소 곱 투영 게이트(125)는 제2 입력 및 출력을 포함한다. 원소 가산기(elementwise adder)(123)는 제1 원소 곱 투영 게이트(119)의 출력에 연결된 제1 입력, 제2 원소 곱 투영 게이트(121)의 출력에 연결된 제2 입력 및 출력을 포함한다. 제2 셀 활성화 레지스터()(115)는 원소 가산기(123)의 출력에 연결된 입력 및 제3 원소 곱 투영 게이트(125)의 제2 입력에 연결된 출력을 포함한다. 제2 출력 게이트()(117)는 제3 원소 곱 투영 게이트(125)의의 출력에 연결된 입력 및 출력을 포함한다.
망각 게이트()(107), 입력 게이트()(109), 신규 입력 레지스터()(111), 셀 출력 활성화 레지스터()(113), 제2 셀 활성화 레지스터()(115) 및 제2 출력 게이트()(117)는 다음과 같은 식 (2) 내지 식 (7)로 표현될 수 있다. 여기서 는 원소 곱(elementwise product)를 나타낸다.
입력 게이트()(109)는 신규 입력 레지스터()(111)로부터 얼마나 많은 정보를 리드(read)할 것인지를 제어한다. 망각 게이트()(107)는 제1 셀 활성화 레지스터()(101)로부터 얼마나 많은 정보를 망각할 것인지를 제어한다. 투영 레이어(projection layer)들이 무시되거나 추가될 수 있다.
본 발명의 일 실시예에서, LSTM 네트워크 아키텍처는 c에 의존적이지 않은 틈 연결 및 게이트 (peephole connections and gates)을 갖지 않으며, sigm과 tanh는 다음과 같은 식 (8) 내지 식 (13)으로 상호 교환될 수 있다.
적층된 LSTM 레이어는 다음과 같은 식 (14)로서 고려될 수 있다.
하이웨이, 또는 깊이, 게이트 는 하위 레이어 L의 제1 메모리 셀을 상위 레이어 L+1의 제2 메모리 셀에 연결하고, 다음과 같은 식 (15) 내지 식 (17)로서 직접 이동할 수 있는 정보를 제어한다.
본 발명의 일 실시예에 따르면, 본 시스템 및 방법은 추가 입력(extra input)으로부터의 정보를 전달 및 제어해야 한다. 추가 입력()은 다른 LSTM으로부터 훨씬 먼 이거나, 다른 서브 네트워크 이후이자 CNN 레이어로서의 LSTM 레이어 이전의 중간 출력(intermediate output)이거나, 네트워크에 대한 초기 입력일 수 있다.
본 발명의 일 실시예에 따르면, 적층된 DNN/CNN 및 LSTM 네트워크는 결합될 수 있다.
도 2는 CNN 또는 DNN과, LSTM 네트워크 아키텍처의 결합(CNN/DNN-LSTM)(200)을 설명하기 위한 블록도이다.
도 2를 참조하면, 레이어(예컨대, 레이어 L+1)의 CNN/DNN-LSTM 네트워크 아키텍처(200)는 이전 레이어(예컨대, 레이어 L)의 셀 활성화를 홀드하기 위한 제1 셀 활성화 레지스터()(201), 이전 레이어의 출력을 홀드하기 위한 제1 출력 게이트()(203), 입력 레지스터()(205), 망각 게이트()(207), 입력 게이트()(209), 신규 입력 레지스터()(211), 셀 출력 활성화 레지스터()(213), 제2 셀 활성화 레지스터()(215), 제2 출력 게이트()(217) 및 CNN 또는 DNN(227)을 포함한다.
제1 셀 활성화 레지스터()(201)는 제1 원소 곱 투영 게이트 (219)의 제1 입력에 연결된 출력을 포함하고, 제1 원소 곱 투영 게이트(219)는 제2 입력 및 출력을 포함한다. 제1 출력 게이트()(203)는 망각 게이트()(207), 입력 게이트()(209), 신규 입력 레지스터()(211) 및 셀 출력 활성화 레지스터()(213) 각각의 입력에 연결된 출력을 포함한다. 입력 레지스터()(205)는 망각 게이트()(207), 입력 게이트()(209), 신규 입력 레지스터()(211) 및 셀 출력 활성화 레지스터()(213) 각각의 입력에 연결된 출력을 포함한다. 망각 게이트()(207)는 제1 원소 곱 투영 게이트(219)의 제2 입력에 연결된 출력을 포함한다. 입력 게이트()(209)는 제2 원소 곱 투영 게이트(221)의 제1 입력에 연결된 출력을 포함하고, 제2 원소 곱 투영 게이트(221)는 제2 입력 및 출력을 포함한다. 신규 입력 레지스터()(211)는 제2 원소 곱 투영 게이트(221)의 제2 입력에 연결된 출력을 포함한다. 셀 출력 활성화 레지스터()(213)는 제3 원소 곱 투영 게이트(225)의 제1 입력에 연결된 출력을 포함하고, 제3 원소 곱 투영 게이트(225)는 제2 입력 및 출력을 포함한다. 원소 가산기(223)는 제1 원소 곱 투영 게이트(219)의 출력에 연결된 제1 입력, 제2 원소 곱 투영 게이트(221)의 출력에 연결된 제2 입력 및 출력을 포함한다. 제2 셀 활성화 레지스터()(215)는 원소 가산기(223)의 출력에 연결된 입력 및 제3 원소 곱 투영 게이트(225)의 제2 입력에 연결된 출력을 포함한다. 제2 출력 게이트()(217)는 제3 원소 곱 투영 게이트(225)의의 출력에 연결된 입력 및 출력을 포함한다. CNN 또는 DNN(277)은 입력 및 입력 레지스터()(205)의 입력에 연결된 출력을 포함한다.
LSTM은, 로 호칭되는 레이어 L에서의 DNN/CNN(227)로부터의 이전 출력과 함께 레이어 L+1에서 적층될 수 있고, 입력 레지스터(205)는 다음과 같은 식 (18)로서 결정될 수 있다.
본 발명의 일 실시예에 따르면, LSTM 네트워크를 구비한 하이브리드 DNN/CNN 및 잔여 연결(residual connection)은 결합될 수 있다.
도 3은 하이브리드 CNN 또는 하이브리드 DNN과, LSTM 네트워크 아키텍처의 결합(하이브리드 CNN/DNN-LSTM)(300)을 설명하기 위한 블록도이다. 도 3은 LSTM 네트워크를 구비한 하이브리드 DNN/CNN과 잔여 연결과의 결합을 나타낸다. 잔여 연결은 초기에 LSTM이 없는 피드 포워드 네트워크(feedforward network)용으로 개발되었을 수 있다. 도 3에 도시된 바와 같이, 원하는 원격 입력()은 을 네트워크(300)에 대한 보조 입력으로 사용한다.
도 3을 참조하면, 레이어(예컨대, 레이어 L+1)의 하이브리드 CNN/DNN-LSTM 네트워크 아키텍처(300)는 이전 레이어(예컨대, 레이어 L)의 셀 활성화를 홀드하기 위한 제1 셀 활성화 레지스터()(301), 이전 레이어의 출력을 홀드하기 위한 제1 출력 게이트()(303), 입력 레지스터()(305), 망각 게이트()(307), 입력 게이트()(309), 신규 입력 레지스터()(311), 셀 출력 활성화 레지스터()(313), 제2 셀 활성화 레지스터()(315), 제2 출력 게이트()(317) 및 CNN 또는 DNN(327)을 포함한다.
제1 셀 활성화 레지스터()(301)는 제1 원소 곱 투영 게이트 (319)의 제1 입력에 연결된 출력을 포함하고, 제1 원소 곱 투영 게이트(319)는 제2 입력 및 출력을 포함한다. 제1 출력 게이트()(303)는 망각 게이트()(307), 입력 게이트()(309), 신규 입력 레지스터()(311) 및 셀 출력 활성화 레지스터()(313) 각각의 입력에 연결된 출력을 포함한다. 입력 레지스터()(305)는 망각 게이트()(307), 입력 게이트()(309), 신규 입력 레지스터()(311) 및 셀 출력 활성화 레지스터()(313) 각각의 입력에 연결된 출력을 포함한다. 망각 게이트()(307)는 제1 원소 곱 투영 게이트(319)의 제2 입력에 연결된 출력을 포함한다. 입력 게이트()(309)는 제2 원소 곱 투영 게이트(321)의 제1 입력에 연결된 출력을 포함하고, 제2 원소 곱 투영 게이트(321)는 제2 입력 및 출력을 포함한다. 신규 입력 레지스터()(311)는 제2 원소 곱 투영 게이트(321)의 제2 입력에 연결된 출력을 포함한다. 셀 출력 활성화 레지스터()(313)는 제3 원소 곱 투영 게이트(325)의 제1 입력에 연결된 출력을 포함하고, 제3 원소 곱 투영 게이트(325)는 제2 입력 및 출력을 포함한다. 제1 원소 가산기(323)는 제1 원소 곱 투영 게이트(319)의 출력에 연결된 제1 입력, 제2 원소 곱 투영 게이트(321)의 출력에 연결된 제2 입력 및 출력을 포함한다. 제2 셀 활성화 레지스터()(315)는 제1 원소 가산기(323)의 출력에 연결된 입력 및 제3 원소 곱 투영 게이트(325)의 제2 입력에 연결된 출력을 포함한다. 제2 출력 게이트()(317)는 제3 원소 곱 투영 게이트(325)의의 출력에 연결된 입력 및 출력을 포함한다. CNN 또는 DNN(327)은 제2 원소 가산기(329)의 제1 입력에 연결된 입력, 제2 원소 가산기(329)의 제2 입력에 연결된 출력을 포함하고, 제2 원소 가산기(329)는 입력 레지스터()(305)의 입력에 연결된 출력을 포함한다.
CNN 또는 DNN(327)은 를 학습하도록 트레이닝될 수 있으며, 여기서 H는 원하는 기능이다. 다음과 같은 식 (19)에서와 같이 바로 가기 연결(shortcut connection)이 단순히 추가될 수 있다.
도 4는 하이브리드 CNN 또는 하이브리드 DNN과, 하이웨이 연결을 구비한 LSTM 네트워크 아키텍처의 결합(하이브리드 CNN/DNN-HLSTM)(400)을 설명하기 위한 블록도이다. 하이웨이 네트워크는 초기에 LSTM이 없는 단순 피드 포워드 네트워크(feedforward network)용으로 개발되었을 수 있다. 또한, 원격 입력()은 , 하이브리드 CNN/DNN-HLSTM(400)에 대한 초기 입력일 수 있다.
도 4를 참조하면, 레이어(예컨대, 레이어 L+1)의 하이브리드 CNN/DNN-HLSTM 네트워크 아키텍처(400)는 이전 레이어(예컨대, 레이어 L)의 셀 활성화를 홀드하기 위한 제1 셀 활성화 레지스터()(401), 이전 레이어의 출력을 홀드하기 위한 제1 출력 게이트()(403), 입력 레지스터()(405), 망각 게이트()(407), 입력 게이트()(409), 신규 입력 레지스터()(411), 셀 출력 활성화 레지스터()(413), 제2 셀 활성화 레지스터()(415), 제2 출력 게이트()(417), CNN 또는 DNN(427), 하이웨이 게이트(T)(431) 및 하이웨이 게이트(C)(433)을 포함한다.
제1 셀 활성화 레지스터()(401)는 제1 원소 곱 투영 게이트 (419)의 제1 입력에 연결된 출력을 포함하고, 제1 원소 곱 투영 게이트(419)는 제2 입력 및 출력을 포함한다. 제1 출력 게이트()(403)는 망각 게이트()(407), 입력 게이트()(409), 신규 입력 레지스터()(411) 및 셀 출력 활성화 레지스터()(413) 각각의 입력에 연결된 출력을 포함한다. 입력 레지스터()(405)는 망각 게이트()(407), 입력 게이트()(409), 신규 입력 레지스터()(411) 및 셀 출력 활성화 레지스터()(413) 각각의 입력에 연결된 출력을 포함한다. 망각 게이트()(407)는 제1 원소 곱 투영 게이트(419)의 제2 입력에 연결된 출력을 포함한다. 입력 게이트()(409)는 제2 원소 곱 투영 게이트(421)의 제1 입력에 연결된 출력을 포함하고, 제2 원소 곱 투영 게이트(421)는 제2 입력 및 출력을 포함한다. 신규 입력 레지스터()(411)는 제2 원소 곱 투영 게이트(421)의 제2 입력에 연결된 출력을 포함한다. 셀 출력 활성화 레지스터()(413)는 제3 원소 곱 투영 게이트(425)의 제1 입력에 연결된 출력을 포함하고, 제3 원소 곱 투영 게이트(425)는 제2 입력 및 출력을 포함한다. 제1 원소 가산기(423)는 제1 원소 곱 투영 게이트(419)의 출력에 연결된 제1 입력, 제2 원소 곱 투영 게이트(421)의 출력에 연결된 제2 입력 및 출력을 포함한다. 제2 셀 활성화 레지스터()(415)는 제1 원소 가산기(423)의 출력에 연결된 입력 및 제3 원소 곱 투영 게이트(425)의 제2 입력에 연결된 출력을 포함한다. 제2 출력 게이트()(417)는 제3 원소 곱 투영 게이트(425)의의 출력에 연결된 입력 및 출력을 포함한다. CNN 또는 DNN(427)은 하이웨이 게이트(C)(433)의 입력에 연결된 입력 및 출력을 포함하고, 하이웨이 게이트(C)(433)은 제2 원소 가산기(429)의 제1 입력에 연결된 출력을 포함한다. 하이웨이 게이트(T)(431)는 CNN 또는 DNN(427)의 출력에 연결된 입력 및 제2 가산기(429)의 제2 입력에 연결된 출력을 포함하고, 제2 가산기(429)는 입력 레지스터()(405)의 입력에 연결된 출력을 포함한다.
하이브리드 CNN/DNN-HLSTM(400)에 대해, 다음과 같은 식 (20) 및 식 (21)와 같이, 초기 입력()은 원하는 LSTM 레이어의 입력에서 하이웨이 게이트를 통해 전달된다.
도 5는 본 발명의 일 실시예에 따른, 하이웨이 연결을 구비한 하이브리드 하이브리드 LSTM 네트워크 아키텍처(H2LSTM)(500)를 설명하기 위한 블록도이다.
도 5를 참조하면, 제1 레이어(예컨대, 레이어 L)의 H2LSTM(500)은 이전 레이어(예컨대, 레이어 L-1)의 셀 활성화를 홀드하기 위한 제1 셀 활성화 레지스터( )(505), 이전 레이어의 출력을 홀드하기 위한 제1 출력 게이트()(507), 입력 레지스터()(509), 망각 게이트()(511), 입력 게이트()(513), 신규 입력 레지스터()(515), 셀 출력 활성화 레지스터()(517), 제2 셀 활성화 레지스터()(519) 및 제2 출력 게이트()(521)를 포함한다.
제1 셀 활성화 레지스터()(505)는 제1 원소 곱 투영 게이트(523)의 제1 입력에 연결된 출력을 포함하고, 제1 원소 곱 투영 게이트(523)는 제2 입력 및 출력을 포함한다. 제1 출력 게이트()(507)는 망각 게이트()(511), 입력 게이트()(513), 신규 입력 레지스터()(515) 및 셀 출력 활성화 레지스터()(517) 각각의 입력에 연결된 출력을 포함한다. 입력 레지스터()(509)는 망각 게이트()(511), 입력 게이트()(513), 신규 입력 레지스터()(515) 및 셀 출력 활성화 레지스터()(517) 각각의 입력에 연결된 출력을 포함한다. 망각 게이트()(511)는 제1 원소 곱 투영 게이트(523)의 제2 입력에 연결된 출력을 포함한다. 입력 게이트()(513)는 제2 원소 곱 투영 게이트(525)의 제1 입력에 연결된 출력을 포함하고, 제2 원소 곱 투영 게이트(525)는 제2 입력 및 출력을 포함한다. 신규 입력 레지스터()(515)는 제2 원소 곱 투영 게이트(525)의 제2 입력에 연결된 출력을 포함한다. 셀 출력 활성화 레지스터()(517)는 제3 원소 곱 투영 게이트(529)의 제1 입력에 연결된 출력을 포함하고, 제3 원소 곱 투영 게이트(529)는 제2 입력 및 출력을 포함한다. 원소 가산기(527)는 제1 원소 곱 투영 게이트(523)의 출력에 연결된 제1 입력, 제2 원소 곱 투영 게이트(525)의 출력에 연결된 제2 입력 및 출력을 포함한다. 제2 셀 활성화 레지스터()(519)는 원소 가산기(527)의 출력에 연결된 입력 및 제3 원소 곱 투영 게이트(529)의 제2 입력에 연결된 출력을 포함한다. 제2 출력 게이트()(511)는 제3 원소 곱 투영 게이트(529)의 출력에 연결된 입력 및 출력을 포함한다.
제2 레이어(예컨대, 레이어 L+1)의 H2LSTM(500)은 이전 레이어(예컨대, 레이어 L)의 셀 활성화를 홀드(hold)하기 위한 제1 셀 활성화 레지스터()(531), 이전 레이어의 출력을 홀드하기 위한 제1 출력 게이트()(533), 입력 레지스터()(535), 망각 게이트 ()(537), 입력 게이트()(539), 신규 입력 레지스터()(541), 셀 출력 활성화 레지스터()(543), 제2 셀 활성화 레지스터( )(545), 제2 출력 게이트( )(547), 원격 신호 레지스터(567), 추가 RNN 동작 블록(569), 제1 하이웨이 게이트(571) 및 제2 하이웨이 게이트(575)를 포함한다.
제2 레이어의 제1 셀 활성화 레지스터()(531)는 제1 원소 곱 투영 게이트(549)의 제1 입력에 연결된 제1 출력, 제1 하이웨이 게이트(571)의 제1 입력에 연결된 제2 출력 및 제2 하이웨이 게이트(575)의 제1 입력에 연결된 제3 출력을 포함하고, 제1 원소 곱 투영 게이트(549)는 제2 입력 및 출력을 포함한다. 제1 출력 게이트()(533)는 망각 게이트 ()(537), 입력 게이트()(539), 신규 입력 레지스터()(541) 및 셀 출력 활성화 레지스터()(543) 각각의 입력에 연결된 제1 출력 및 추가 RNN 동작 블록(569)의 제1 입력에 연결된 제2 출력을 포함한다. 입력 레지스터()(535)는 제1 레이어의 제2 출력 게이트()(521)의 출력에 연결된 입력, 망각 게이트 ()(537), 입력 게이트()(539), 신규 입력 레지스터()(541) 및 셀 출력 활성화 레지스터()(543) 각각의 입력에 연결된 제1 출력 및 제1 하이웨이 게이트(571)의 제2 입력에 연결된 제2 출력 및 제2 하이웨이 게이트(575)의 제2 입력에 연결된 제3 출력을 포함한다. 망각 게이트 ()(537)는 제1 원소 곱 투영 게이트(549)의 제2 입력에 연결된 출력을 포함한다. 입력 게이트( )(539)는 제2 원소 곱 투영 게이트(551)의 제1 입력에 연결된 출력을 포함하고, 제2 원소 곱 투영 게이트(551)는 제2 입력 및 출력을 포함한다. 신규 입력 레지스터()(541)는 제2 원소 곱 투영 게이트(551)의 제2 입력에 연결된 출력을 포함한다. 셀 출력 활성화 레지스터()(543)는 제3 원소 곱 투영 게이트(555)의 제1 입력에 연결된 출력을 포함하고, 제3 원소 곱 투영 게이트(555)는 제2 입력 및 출력을 포함한다. 제1 원소 가산기(553)는 제1 원소 곱 투영 게이트(549)의 출력에 연결된 제1 입력, 제2 원소 곱 투영 게이트(551)의 출력에 연결된 제2 입력 및 출력을 포함한다. 제2 원소 가산기(557)는 제1 원소 가산기(553)의 출력에 연결된 제1 입력, 제4 원소 곱 투영 게이트(573)의 출력에 연결된 제2 입력, 제3 입력 및 출력을 포함하고, 제4 원소 곱 투영 게이트(573)는 제1 입력 및 제2 입력을 포함한다. 제2 셀 활성화 레지스터()(545)는 제2 원소 가산기(557)의 출력에 연결된 입력 및 제3 원소 곱 투영 게이트(555)의 제2 입력에 연결된 출력을 포함한다. 제2 출력 게이트()(547)는 제3 원소 곱 투영 게이트(555)의 출력에 연결된 입력 및 출력을 포함한다. 원격 신호 레지스터(567)는 추가 RNN 동작 블록(569)의 입력에 연결된 출력을 포함한다. 추가 RNN 동작 블록(569)은 제1 하이웨이 게이트(571)의 제3 입력에 연결된 제1 출력 및 제4 원소 곱 투영 게이트(573)의 제1 입력에 연결된 제2 출력을 포함한다. 제1 하이웨이 게이트(571)는 제4 원소 곱 투영 게이트(573)의 제2 입력에 연결된 출력을 포함하고, 제4 원소 곱 투영 게이트(573)는 제2 원소 가산기(557)의 제2 입력에 연결된 출력을 포함한다. 제2 하이웨이 게이트(575)는 제1 레이어의 제2 셀 활성화 레지스터()(519)의 제2 출력에 연결된 제3 입력 및 제5원소 곱 투영 게이트(577)의 제1 입력에 연결된 출력을 포함하고, 제5원소 곱 투영 게이트(577)는 제1 레이어의 제2 셀 활성화 레지스터()(519)의 제3 출력에 연결된 제2 입력 및 제2 원소 가산기(557)의 제3 입력에 연결된 출력을 포함한다.
H2LSTM(500) 네트워크 아키텍처는, 다음과 같은 식 (22) 및 식 (23)으로 표현되는 레이어 L+k에서의 LSTM 셀로 직접 피딩(feed)할 수 있는 신규 하이웨이 게이트(new highway gate)를 포함한다.
다음과 같은 식 (24)로 표현되는 것과 같이, 이전 출력 및 추가 입력의 함수로서 추가 RNN 동작 블록(569)이 있다.
여기서, 는 하이웨이 출력 및 이전 레이어의 LSTM 출력의 함수로서의 추가 입력이다. sigmoid(s) 함수는 tanh 또는 RELU(rectified linear unit)으로 바뀔 수 있다. 는 레벨 L+k에서, 셀 치수(cell dimension)으로 투영(p)하는 것을 제공한다.
본 시스템 및 방법의 일 실시예에서, 는 초기 입력()일 수 있다. 이와 다르게, 제1 하이웨이 게이트(571)는 다음과 같은 식 (26)에서와 같이 직접적으로 에 기초하여 연산될 수 있다.
다음과 같은 식 (27)로 표현된 것과 같이, 제2 및 최종 셀 상태()(545)는, 망각 상태()(537)를 통한 제1 레이어로부터의 제1 셀 상태()(531), 입력 게이트()(539)를 통한 현재 LSTM 입력()(541)을 구비한 RNN, 제2 하이웨이 게이트 또는, 하이웨이 또는 깊이 게이트()(575)를 통한 제1 레이어의 제2 ()(519)의 하위 레이어 LSTM의 셀 상태, 제1 하이웨이 게이트()(571)을 통한 초기 입력 또는 추가 RNN 동작 블록()(569)으로부터의 하위 레이어 서브 네트워크 출력으로서의 원격 신호 레지스터(567)의 가중화된 결합이다.
본 시스템 및 방법의 일 실시예에 따르면, 추가 입력이 전달되는 LSTM 레이어는 다음과 같은 식 (28) 내지 식 (36)과 같이 변형될 수 있다.
본 시스템 및 방법의 일 실시예에 따르면, 다음과 같은 식 (38)과 같이, 다중의 추가 입력 의 P가 있는 경우, 다중 하이웨이 게이트 가 추가될 수 있고, 이들의 출력들은 대응하는 m을 갱신하고, 셀 값에 기여할 수 있다.
이전의 LSTM 레이어로부터 기초한 다중의 추가 입력들이, 다중의 제2 하이웨이 게이트, 또는 깊이 게이트()(575)를 통해 추가될 수 있다. 이것은 및 의 다중성을 통해 다중 하이웨이 입력에 대해 확장될 수 있다. 본 시스템 및 방법의 일 실시예에 따르면, 하위 LSTM 레이어로부터의 여러 셀 출력들은 이어질 수 있고, 이어진 벡터가 하이웨이 게이트(575)를 통해 전달될 수 있다. 본 시스템 및 방법은 직접적으로 를 제공하는 원격 신호 레지스터(567)로부터 제2 셀 활성화 레지스터()(545)로의 정보의 흐름을 제어한다.
도 6은 GRU 네트워크 아키텍처(600)를 설명하기 위한 블록도이다. GRU는 다음과 같은 식 (39) 내지 식 (42)로 정의될 수 있다.
도 6을 참조하면, 일 레이어(예컨대, 레이어 L+1)의 GRU 네트워크 아키텍처(600)는 입력 게이트()(601), 갱신 게이트(update gate)()(603), 리셋 게이트(reset gate)()(605), 후보 게이트(candidate gate)()(607), 이전 레이어(예컨대, 레이어 L)의 출력을 홀드하기 위한 제1 출력 게이트()(609) 및 제2 출력 게이트()(621)를 포함한다.
입력 게이트()(601)는 갱신 게이트()(603), 리셋 게이트()(605) 및 후보 게이트()(607) 각각의 제1 입력에 연결된 출력을 포함한다. 제1 출력 게이트()(609)는 갱신 게이트()(603)의 제2 입력에 연결된 제1 출력, 리셋 게이트()(605)의 제2 입력에 연결된 제2 출력, 제1 원소 곱 투영 게이트(617)의 제1 입력에 연결된 제3 출력 및 제2 원소 곱 투영 게이트(615)의 제1 입력에 연결된 제4 출력을 포함한다. 갱신 게이트()(603)는 제1 원소 곱 투영 게이트(617)의 제2 입력에 연결된 제1 출력 및 1 감산 기능 블록(subtract from 1 function block)(611)에 연결된 제2 출력을 포함한다. 리셋 게이트()(605)는 제2 원소 곱 투영 게이트(615)의 제2 입력에 연결된 출력을 포함한다. 후보 게이트()(607)는 제2 원소 곱 투영 게이트(615)의 출력에 연결된 제2 입력 및 제3 원소 곱 투영 게이트(613)의 제1 입력에 연결된 출력을 포함한다. 1 감산 기능 블록(611)은 제3 원소 곱 투영 게이트(613)의 제2 입력에 연결된 출력을 포함한다. 제1 원소 곱 투영 게이트(617)는 원소 가산기(619)의 제1 입력에 연결된 출력을 포함한다. 원소 가산기(619)는 제3 원소 곱 투영 게이트(613)의 출력에 연결된 제2 입력 및 제2 출력 게이트()(621)의 입력에 연결된 출력을 포함한다.
하이브리드 네트워크에 대해, LSTM에 대한 상술한 아키텍처는 또한 GRU, 예컨대, 입력 하이웨이(input highway)를 구비한 하이브리드 CNN-GRU에 적용 가능하다. 아하의 설명에서는, 원격 입력 는 네트워크에 대한 초기 입력 일 수 있다.
도 7은 하이웨이 연결을 구비한 GRU 네트워크 아키텍처(HGRU)(700)를 설명하기 위한 블록도이다.
도 7을 참조하면, 일 레이어(예컨대, 레이어 L+1)의 HGRU 네트워크 아키텍처(700)는 입력 게이트()(701), 갱신 게이트()(703), 리셋 게이트()(705), 후보 게이트()(707), 이전 레이어(예컨대, 레이어 L)의 출력을 홀드하기 위한 제1 출력 게이트()(709), 제2 출력 게이트()(721) 및 하이웨이 게이트()(723)를 포함한다.
입력 게이트()(701)는 갱신 게이트()(703), 리셋 게이트()(705) 및 후보 게이트()(707) 각각의 제1 입력에 연결된 제1 출력, 하이웨이 게이트()(723)의 제1 입력에 연결된 제2 출력 및 제4 원소 곱 투영 게이트(725)의 제1 입력에 연결된 제3 출력을 포함한다. 제1 출력 게이트()(709)는 갱신 게이트()(703)의 제2 입력에 연결된 제1 출력, 리셋 게이트()(705)의 제2 입력에 연결된 제2 출력, 제1 원소 곱 투영 게이트(717)의 제1 입력에 연결된 제3 출력, 제2 원소 곱 투영 게이트(715)의 제1 입력에 연결된 제4 출력 및 하이웨이 게이트()(723)의 입력에 연결된 제5 출력을 포함한다. 갱신 게이트()(703)는 제1 원소 곱 투영 게이트(717)의 제2 입력에 연결된 제1 출력 및 제1 1 감산 기능 블록(711)에 연결된 제2 출력을 포함한다. 리셋 게이트()(705)는 제2 원소 곱 투영 게이트(715)의 제2 입력에 연결된 출력을 포함한다. 후보 게이트()(707)는 제2 원소 곱 투영 게이트(715)의 출력에 연결된 제2 입력 및 제3 원소 곱 투영 게이트(713)의 제1 입력에 연결된 출력을 포함한다. 제1 1 감산 기능 블록(711)은 제3 원소 곱 투영 게이트(713)의 제2 입력에 연결된 출력을 포함한다. 제1 원소 곱 투영 게이트(717)는 원소 가산기(719)의 제1 입력에 연결된 출력을 포함한다. 하이웨이 게이트()(723)는 제4 원소 곱 투영 게이트(725)의 제2 입력에 연결된 제1 출력 및 제2 1 감산 기능 블록(727)의 입력에 연결된 제2 출력을 포함한다. 제5 원소 곱 투영 게이트(729)는 원소 가산기(719)의 출력에 연결된 입력, 제2 1 감산 기능 블록(727)의 출력에 연결된 제2 입력 및 제2 출력 게이트()(721)의 제1 입력에 연결된 출력을 포함한다. 제4 원소 곱 투영 게이트(725)의 출력은 제2 출력 게이트()(721)의 제2 입력에 연결된다.
하이웨이 게이트(723)는 HGRU 네트워크 아키텍처(700) 내에 존재하고, 현재 입력으로부터의 정보를 제어한다. HGRU 네트워크 아키텍처(700)는, 다음과 같은 식 (43) 내지 식 (47)과 같이 표현되는 하이웨이 게이트(723)를 통해 입력으로부터 출력으로의 연결을 포함하는 변형된 CPU이다.
도 8은 하이브리드 CNN 또는 하이브리드 DNN과, GRU 네트워크 아키텍처의 결합(하이브리드 CNN/DNN-GRU)(800)을 설명하기 위한 블록도이다.
도 8을 참조하면, 일 레이어(예컨대, 레이어 L+1)의 하이브리드 CNN/DNN-GRU 네트워크 아키텍처(800)는 입력 게이트()(801), 갱신 게이트()(803), 리셋 게이트()(805), 후보 게이트()(807), 이전 레이어(예컨대, 레이어 L)의 출력을 홀드하기 위한 제1 출력 게이트()(809), 제2 출력 게이트()(821), CNN 또는 DNN(831), 하이웨이 게이트(T)(833) 및 하이웨이 게이트(C)(837)를 포함한다.
입력 게이트()(801)는 갱신 게이트()(803), 리셋 게이트()(805) 및 후보 게이트()(807) 각각의 제1 입력에 연결된 출력을 포함한다. 제1 출력 게이트()(809)는 갱신 게이트()(803)의 제2 입력에 연결된 제1 출력, 리셋 게이트()(805)의 제2 입력에 연결된 제2 출력, 제1 원소 곱 투영 게이트(817)의 제1 입력에 연결된 제3 출력 및 제2 원소 곱 투영 게이트(815)의 제1 입력에 연결된 제4 출력을 포함한다. 갱신 게이트()(803)는 제1 원소 곱 투영 게이트(817)의 제2 입력에 연결된 제1 출력 및 1 감산 기능 블록(811)에 연결된 제2 출력을 포함한다. 리셋 게이트()(805)는 제2 원소 곱 투영 게이트(815)의 제2 입력에 연결된 출력을 포함한다. 후보 게이트()(807)는 제2 원소 곱 투영 게이트(815)의 출력에 연결된 제2 입력 및 제3 원소 곱 투영 게이트(813)의 제1 입력에 연결된 출력을 포함한다. 1 감산 기능 블록(811)은 제3 원소 곱 투영 게이트(813)의 제2 입력에 연결된 출력을 포함한다. 제1 원소 곱 투영 게이트(817)는 제1 원소 가산기(819)의 제1 입력에 연결된 출력을 포함한다. 제1 원소 가산기(819)는 제3 원소 곱 투영 게이트(813)의 출력에 연결된 제2 입력 및 제2 출력 게이트()(821)의 입력에 연결된 출력을 포함한다. CNN 또는 DNN(831)은 하이웨이 게이트(C)(837)의 입력에 연결된 입력 및 출력을 포함하고, 하이웨이 게이트(C)(837)는 제2 원소 가산기(835)의 제1 입력에 연결된 출력을 포함한다. 하이웨이 게이트(T)(833)는 CNN 또는 DNN(831)의 출력에 연결된 입력 및 제2 원소 가산기(835)의 제2 입력에 연결된 출력을 포함하고, 제2 원소 가산기(835)는 입력 레지스터()(801)의 입력에 연결된 출력을 포함한다.
입력 레지스터()(801)에 대한 초기 입력 은, 다음과 같은 식 (48) 및 식 (49)으로 표현된 것과 같은 LSTM 레이어의 입력에서 하이웨이 게이트를 통해 전달될 수 있다.
적층된 DNN/CNN 및 LSTM 네트워크 스킴 및 LSTM 네트워크를 구비한 하이브리드 DNN/CNN 및, LSTM에 대해 앞서 언급한 잔여 연결 스킴은 또한 GRU에 대해 수정될 수 있고, 하이웨이 게이트(T)(833) 및 하이웨이 게이트(C)(837)는 각각 잔여 네트워크(residual network)에 대해 간단히 추가됨으로써 교체될 수 있다. 하이웨이 게이트(T)(833)는 변형 게이트(transform gate)일 수 있는 한편 하이웨이 게이트(C)(837)는 캐리 게이트(carry gate)일 수 있다.
도 9는 하이브리드 CNN 또는 하이브리드 DNN과, HGRU 네트워크 아키텍처의 결합(하이브리드 CNN/DNN-HGRU)(900)을 설명하기 위한 블록도이다. 하이브리드 CNN/DNN-HGRU 네트워크 아키텍처(900)는 빌딩 블록으로서 HGRU를 포함하고, 원격 입력 는 입력 하이웨이의 캐리 게이트를 통해 HGRU 입력으로 전달될 수 있다.
도 9를 참조하면, 일 레이어(예컨대, 레이어 L+1)의 HGRU 네트워크 아키텍처(900)는 입력 게이트()(901), 갱신 게이트()(903), 리셋 게이트()(905), 후보 게이트()(907), 이전 레이어(예컨대, 레이어 L)의 출력을 홀드하기 위한 제1 출력 게이트()(909), 제2 출력 게이트()(921), 하이웨이 게이트()(923), CNN 또는 DNN(931), 하이웨이 게이트(T)(933) 및 하이웨이 게이트(C)(937)를 포함한다.
입력 게이트()(901)는 갱신 게이트()(903), 리셋 게이트()(905) 및 후보 게이트()(907) 각각의 제1 입력에 연결된 제1 출력, 하이웨이 게이트()(923)의 제1 입력에 연결된 제2 출력 및 제4 원소 곱 투영 게이트(925)의 제1 입력에 연결된 제3 출력을 포함한다. 제1 출력 게이트()(909)는 갱신 게이트()(903)의 제2 입력에 연결된 제1 출력, 리셋 게이트()(905)의 제2 입력에 연결된 제2 출력, 제1 원소 곱 투영 게이트(917)의 제1 입력에 연결된 제3 출력, 제2 원소 곱 투영 게이트(915)의 제1 입력에 연결된 제4 출력 및 하이웨이 게이트()(923)의 입력에 연결된 제5 출력을 포함한다. 갱신 게이트()(903)는 제1 원소 곱 투영 게이트(917)의 제2 입력에 연결된 제1 출력 및 제1 1 감산 기능 블록(911)에 연결된 제2 출력을 포함한다. 리셋 게이트()(905)는 제2 원소 곱 투영 게이트(915)의 제2 입력에 연결된 출력을 포함한다. 후보 게이트()(907)는 제2 원소 곱 투영 게이트(915)의 출력에 연결된 제2 입력 및 제3 원소 곱 투영 게이트(913)의 제1 입력에 연결된 출력을 포함한다. 제1 1 감산 기능 블록(911)은 제3 원소 곱 투영 게이트(913)의 제2 입력에 연결된 출력을 포함한다. 제1 원소 곱 투영 게이트(917)는 원소 가산기(919)의 제1 입력에 연결된 출력을 포함한다. 하이웨이 게이트()(923)는 제4 원소 곱 투영 게이트(925)의 제2 입력에 연결된 제1 출력 및 제2 1 감산 기능 블록(927)의 입력에 연결된 제2 출력을 포함한다. 제5 원소 곱 투영 게이트(929)는 원소 가산기(919)의 출력에 연결된 입력, 제2 1 감산 기능 블록(927)의 출력에 연결된 제2 입력 및 제2 출력 게이트()(921)의 제1 입력에 연결된 출력을 포함한다. 제4 원소 곱 투영 게이트(925)의 출력은 제2 출력 게이트()(921)의 제2 입력에 연결된다. CNN 또는 DNN(931)은 하이웨이 게이트(C)(937)의 입력에 연결된 입력 및 출력을 포함하고, 하이웨이 게이트(C)(937)는 제2 원소 가산기(935)의 제1 입력에 연결된 출력을 포함한다. 하이웨이 게이트(T)(933)는 CNN 또는 DNN(931)의 출력에 연결된 입력 및 제2 원소 가산기(935)의 제2 입력에 연결된 출력을 포함하고, 제2 원소 가산기(935)는 입력 레지스터()(901)의 입력에 연결된 출력을 포함한다.
도 10은 인터-하이웨이 연결(inter-highway connection)을 구비한 GRU와 하이웨이 연결을 구비한 GRU 네트워크 아키텍처의 결합(1000)을 설명하기 위한 블록도이다. 단일 레이어 하이웨이 GRU는, 하이웨이 입력이 이전의 GRU 레이어의 이전 입력으로부터가 되도록 (그리고 현재 GRU 레이어의 현재 입력으로부터가 되지 않도록) 변형될 수 있다. 그러나, 도 10은 또한 인터-하이웨이 연결을 구비한 HGRU(H2GRU)와, 하이웨이 연결을 구비한 GRU 네트워크 아키텍처의 결합(1000)를 설명하기 위한 블록도이기도 하다. 단일 레이어 하이웨이 GRU는, 하이웨이 입력이 이전의 GRU 레이어의 이전 입력으로부터가 되도록 (그리고 현재 GRU 레이어의 현재 입력으로부터가 되지 않도록) 변형될 수 있다. 이것은 하이웨이를 통해 원격 정보를 전달하고, 적층된 레이어의 가중치를 0으로 구동함으로써 네트워크가 이전 입력에 대한 더욱 간결한 기능을 학습하도록 한다.
도 10을 참조하면, 제1 레이어(예컨대, 레이어 L)의 인터-하이웨이 연결을 구비한 GRU와 하이웨이 연결을 구비한 GRU 네트워크 아키텍처의 결합(1000)은 입력 게이트()(1001), 갱신 게이트()(1003), 리셋 게이트()(1005), 후보 게이트()(1007), 이전 레이어(예컨대, 레이어 L-1)의 출력을 홀드하기 위한 제1 출력 게이트()(1009) 및 제2 출력 게이트()(1021)를 포함한다.
입력 게이트()(1001)는 갱신 게이트()(1003), 리셋 게이트()(1005) 및 후보 게이트( )(1007) 각각의 제1 입력에 연결된 제1 출력, 다른 레이어의 하이웨이 게이트에 연결하기 위한 제2 출력 및 다른 레이어의 원소 곱 투영 게이트에 연결하기 위한 제3 출력을 포함한다. 제1 출력 게이트()(1009)는 갱신 게이트()(1003)의 제2 입력에 연결된 제1 출력, 리셋 게이트()(1005)의 제2 입력에 연결된 제2 출력, 제1 원소 곱 투영 게이트(1017)의 제1 입력에 연결된 제3 출력 및 제2 원소 곱 투영 게이트(1015)의 제1 입력에 연결된 제4 출력을 포함한다. 갱신 게이트()(1003)는 제1 원소 곱 투영 게이트(1017)의 제2 입력에 연결된 제1 출력 및 1 감산 기능 블록(1011)에 연결된 제2 입력을 포함한다. 리셋 게이트()(1005)는 제2 원소 곱 투영 게이트(1015)의 제2 입력에 연결된 출력을 포함한다. 후보 게이트()(1007)는 제2 원소 곱 투영 게이트(1015)의 출력에 연결된 제2 입력 및 제3 원소 곱 투영 게이트(1013)의 제1 입력에 연결된 출력을 포함한다. 1 감산 기능 블록(1011)은 제3 원소 곱 투영 게이트(1013)의 제2 입력에 연결된 출력을 포함한다. 제1 원소 곱 투영 게이트(1017)는 원소 가산기(1019)의 제1 입력에 연결된 출력을 포함한다. 원소 가산기(1019)는 제3 원소 곱 투영 게이트(1013)의 출력에 연결된 제2 입력 및 제2 출력 게이트()(1021)의 입력에 연결된 출력을 포함한다. 제2 출력 게이트()(1021)의 출력은 다른 레이어의 입력 게이트의 입력에 연결된다.
제2 레이어(예컨대, 레이어 L+1)의 인터-하이웨이 연결을 구비한 GRU와 하이웨이 연결을 구비한 GRU 네트워크 아키텍처의 결합(1000)은 입력 게이트()(1031), 갱신 게이트()(1033), 리셋 게이트()(1035), 후보 게이트()(1037), 이전 레이어(예컨대, 레이어 L)의 출력을 홀드하기 위한 제1 출력 게이트()(1039), 제2 출력 게이트()(1051) 및 하이웨이 게이트()(1053)를 포함한다.
제2 레이어의 입력 게이트()(1031)는 제1 레이어의 제2 출력 게이트()(1021)의 출력에 연결된 입력, 갱신 게이트()(1033), 리셋 게이트()(1035) 및 후보 게이트()(1037) 각각의 제1 입력에 연결된 제1 출력 및 제4 원소 곱 투영 게이트(1055)의 제1 입력에 연결된 제2 출력을 포함한다. 제1 출력 게이트()(1039)는 갱신 게이트()(1033)의 제2 입력에 연결된 제1 출력, 리셋 게이트()(1035)의 제2 입력에 연결된 제2 출력, 제1 원소 곱 투영 게이트(1047)의 제1 입력에 연결된 제3 출력, 제2 원소 곱 투영 게이트(1045)의 제1 입력에 연결된 제4 출력 및 하이웨이 게이트()(1053)의 제1 입력에 연결된 제5 출력을 포함한다. 갱신 게이트()(1033)는 제1 원소 곱 투영 게이트(1047)의 제2 입력에 연결된 제1 출력 및 제1 1 감산 기능 블록(1041)에 연결된 제2 출력을 포함한다. 리셋 게이트( )(1035)는 제2 원소 곱 투영 게이트(1045)의 제2 입력에 연결된 출력을 포함한다. 후보 게이트()(1037)는 제2 원소 곱 투영 게이트(1045)의 출력에 연결된 제2 입력 및 제3 원소 곱 투영 게이트(1043)의 제1 입력에 연결된 출력을 포함한다. 제1 1 감산 기능 블록(1041)은 제3 원소 곱 투영 게이트(1043)의 제2 입력에 연결된 출력을 포함한다. 제1 원소 곱 투영 게이트(1047)는 제1 원소 가산기(1049)의 제1 입력에 연결된 출력을 포함한다. 하이웨이 게이트()(1053)는 제1 레이어의 입력 게이트()(1001)의 제2 출력에 연결된 제2 입력, 제4 원소 곱 투영 게이트(1055)의 제2 입력에 연결된 제1 출력 및 제2 1 감산 기능 블록(1057)의 입력에 연결된 제2 출력을 포함한다. 제5 원소 곱 투영 게이트(1059)는 제1 원소 가산기(1049)의 출력에 연결된 입력, 제2 1 감산 기능 블록(1057)의 출력에 연결된 제2 입력 및 제2 원소 가산기(1061)의 제1 입력에 연결된 출력을 포함한다. 제4 원소 곱 투영 게이트(1055)는 제1 레이어의 입력 게이트()(1001)의 제3 출력에 연결된 제3 입력 및 제2 원소 가산기(1061)의 제2 입력에 연결된 출력을 포함한다. 제2 원소 가산기(1061)는 제2 출력 게이트()(1051)의 입력에 연결된 출력을 포함한다.
인터-하이웨이 연결을 구비한 HGRU(H2GRU)와 하이웨이 연결을 구비한 GRU 네트워크 아키텍처의 결합(1000)은 다음과 같은 식 (50) 내지 식 (55)와 같이 설명될 수 있다.
도 11은 GRU를 구비한 하이브리드 CNN/DNN과, 하이웨이 연결을 구비한 GRU의 결합(1100)을 설명하기 위한 블록도이다. 그러나, 도 11은 H2GRU를 구비한 하이브리드 CNN/DNN과, 하이웨이 연결을 구비한 GRU의 결합(1100)을 설명하기 위한 블록도이기도 하다. H2GRU를 구비한 하이브리드 CNN/DNN과, 하이웨이 연결을 구비한 GRU의 결합(1100)은 레이어 L에 대한 입력이 피드 포워드 CNN 또는 DNN 네트워크를 통해 다른 하이웨이 연결로부터 제공될 수 있도록 한다.
도 11을 참조하면, 제1 레이어(예컨대, 레이어 L)의 GRU를 구비한 하이브리드 CNN/DNN과, 하이웨이 연결을 구비한 GRU의 결합(1100)은 입력 게이트()(1101), 갱신 게이트()(1103), 리셋 게이트()(1105), 후보 게이트()(1107), 이전 레이어(예컨대, 레이어 L-1)의 출력을 홀드하기 위한 제1 출력 게이트()(1109), 제2 출력 게이트()(1121), CNN 또는 DNN(1171), 하이웨이 게이트(T)(1173) 및 하이웨이 게이트(C)(1177)를 포함한다.
입력 게이트()(1101)는 입력, 갱신 게이트()(1103), 리셋 게이트()(1105) 및 후보 게이트()(1107) 각각의 제1 입력에 연결된 제1 출력, 다른 레이어의 하이웨이 게이트에 연결하기 위한 제2 출력 및 다른 레이어의 원소 곱 투영 게이트에 연결하기 위한 제3 출력을 포함한다. 제1 출력 게이트()(1109)는 갱신 게이트()(1103)의 제2 입력에 연결된 제1 출력, 리셋 게이트()(1105)의 제2 입력에 연결된 제2 출력, 제1 원소 곱 투영 게이트(1117)의 제1 입력에 연결된 제3 출력 및 제2 원소 곱 투영 게이트(1115)의 제1 입력에 연결된 제4 출력을 포함한다. 갱신 게이트()(1103)는 제1 원소 곱 투영 게이트(1117)의 제2 입력에 연결된 제1 출력 및 1 감산 기능 블록(1111)에 연결된 제2 입력을 포함한다. 리셋 게이트()(1105)는 제2 원소 곱 투영 게이트(1115)의 제2 입력에 연결된 출력을 포함한다. 후보 게이트()(1107)는 제2 원소 곱 투영 게이트(1115)의 출력에 연결된 제2 입력 및 제3 원소 곱 투영 게이트(1113)의 제1 입력에 연결된 출력을 포함한다. 1 감산 기능 블록(1111)은 제3 원소 곱 투영 게이트(1113)의 제2 입력에 연결된 출력을 포함한다. 제1 원소 곱 투영 게이트(1117)는 원소 가산기(1119)의 제1 입력에 연결된 출력을 포함한다. 원소 가산기(1119)는 제3 원소 곱 투영 게이트(1113)의 출력에 연결된 제2 입력 및 제2 출력 게이트()(1121)의 입력에 연결된 출력을 포함한다. 제2 출력 게이트()(1121)의 출력은 다른 레이어의 입력 게이트의 입력에 연결된다. CNN 또는 DNN(1171)은 하이웨이 게이트(C)(1177)의 입력에 연결된 입력 및 출력을 포함하고, 하이웨이 게이트(C)(1177)는 제2 원소 가산기(1175)의 제1 입력에 연결된 출력을 포함한다. 하이웨이 게이트(T)(1173)는 CNN 또는 DNN(1171)의 출력에 연결된 입력 및 제2 원소 가산기(1175)의 제2 입력에 연결된 출력을 포함하고, 제2 원소 가산기(1175)는 입력 레지스터()(1101)의 입력에 연결된 출력을 포함한다.
제2 레이어(예컨대, 레이어 L+1)의 GRU를 구비한 하이브리드 CNN/DNN과, 하이웨이 연결을 구비한 GRU의 결합(1100)은 입력 게이트()(1131), 갱신 게이트()(1133), 리셋 게이트()(1135), 후보 게이트()(1137), 이전 레이어(예컨대, 레이어 L)의 출력을 홀드하기 위한 제1 출력 게이트()(1139), 제2 출력 게이트()(1151) 및 하이웨이 게이트()(1153)를 포함한다.
제2 레이어의 입력 게이트( )(1131)는 제1 레이어의 제2 출력 게이트()(1121)의 출력에 연결된 입력, 갱신 게이트()(1133), 리셋 게이트()(1135) 및 후보 게이트()(1137) 각각의 제1 입력에 연결된 제1 출력 및 제4 원소 곱 투영 게이트(1155)의 제1 입력에 연결된 제2 출력을 포함한다. 제1 출력 게이트()(1139)는 갱신 게이트()(1133)의 제2 입력에 연결된 제1 출력, 리셋 게이트()(1135)의 제2 입력에 연결된 제2 출력, 제1 원소 곱 투영 게이트(1147)의 제1 입력에 연결된 제3 출력, 제2 원소 곱 투영 게이트(1145)의 제1 입력에 연결된 제4 출력 및 하이웨이 게이트()(1153)의 제1 입력에 연결된 제5 출력을 포함한다. 갱신 게이트()(1133)는 제1 원소 곱 투영 게이트(1147)의 제2 입력에 연결된 제1 출력 및 제1 1 감산 기능 블록(1141)에 연결된 제2 출력을 포함한다. 리셋 게이트()(1135)는 제2 원소 곱 투영 게이트(1145)의 제2 입력에 연결된 출력을 포함한다. 후보 게이트()(1137)는 제2 원소 곱 투영 게이트(1145)의 출력에 연결된 제2 입력 및 제3 원소 곱 투영 게이트(1143)의 제1 입력에 연결된 출력을 포함한다. 제1 1 감산 기능 블록(1141)은 제3 원소 곱 투영 게이트(1143)의 제2 입력에 연결된 출력을 포함한다. 제1 원소 곱 투영 게이트(1147)는 제1 원소 가산기(1149)의 제1 입력에 연결된 출력을 포함한다. 하이웨이 게이트()(1153)는 제1 레이어의 입력 게이트()(1101)의 제2 출력에 연결된 제2 입력, 제4 원소 곱 투영 게이트(1155)의 제2 입력에 연결된 제1 출력 및 제2 1 감산 기능 블록(1157)의 입력에 연결된 제2 출력을 포함한다. 제5 원소 곱 투영 게이트(1159)는 제1 원소 가산기(1149)의 출력에 연결된 입력, 제2 1 감산 기능 블록(1157)의 출력에 연결된 제2 입력 및 제2 원소 가산기(1161)의 제1 입력에 연결된 출력을 포함한다. 제4 원소 곱 투영 게이트(1155)는 제1 레이어의 입력 게이트( )(1101)의 제3 출력에 연결된 제3 입력 및 제2 원소 가산기(1161)의 제2 입력에 연결된 출력을 포함한다. 제2 원소 가산기(1161)는 제2 출력 게이트()(1151)의 입력에 연결된 출력을 포함한다.
도 12는 본 발명의 일 실시예에 따른, 인터 GRU(inter GRU)를 구비한 GRU와, 다중 하이웨이 연결을 구비한 GRU의 결합(1200)을 설명하기 위한 블록도이다. 그러나, 도 12는, 본 발명의 일 실시예에 따른, H2GRU를 구비한 GRU와, 다중 하이웨이 연결을 구비한 GRU의 결합(1200)을 설명하기 위한 블록도이기도 하다. HGRU는 소정의 레이어에서 2 개의 하이웨이 연결을 취하도록, 즉, 하나는 하위의 GRU 레이어에서, 그리고 하나는 더 먼 원격 신호 로부터 취하도록 변형될 수 있다.
도 12를 참조하면, 제1 레이어(예컨대, 레이어 L-1)의 GRU를 구비한 GRU와, 다중 하이웨이 연결을 구비한 GRU의 결합(1200)은 입력 게이트()(1201), 갱신 게이트()(1203), 리셋 게이트()(1205), 후보 게이트()(1207), 이전 레이어(예컨대, 레이어 L-2)의 출력을 홀드하기 위한 제1 출력 게이트()(1209) 및 제2 출력 게이트()(1221)를 포함한다.
제1 레이어의 입력 게이트()(1201)는 갱신 게이트()(1203), 리셋 게이트()(1205) 및 후보 게이트()(1207) 각각의 제1 입력에 연결된 출력을 포함한다. 제1 출력 게이트()(1209)는 제1 원소 곱 투영 게이트(1217)의 제1 입력에 연결된 제1 출력 및 제2 원소 곱 투영 게이트(1215)의 제1 입력에 연결된 제2 출력을 포함한다. 갱신 게이트()(1203)는 제1 원소 곱 투영 게이트(1217)의 제2 입력에 연결된 제1 출력 및 1 감산 기능 블록(1211)에 연결된 제2 출력을 포함한다. 리셋 게이트()(1205)는 제2 원소 곱 투영 게이트(1215)의 제2 입력에 연결된 출력을 포함한다. 후보 게이트()(1207)는 제2 원소 곱 투영 게이트(1215)의 출력에 연결된 제2 입력 및 제3 원소 곱 투영 게이트(1213)의 제1 입력에 연결된 출력을 포함한다. 1 감산 기능 블록(1211)은 제3 원소 곱 투영 게이트(1213)의 제2 입력에 연결된 출력을 포함한다. 제1 원소 곱 투영 게이트(1217)는 원소 가산기(1219)의 제1 입력에 연결된 출력을 포함한다. 원소 가산기(1219)는 제3 원소 곱 투영 게이트(1213)의 출력에 연결된 제2 입력 및 제2 출력 게이트()(1221)의 입력에 연결된 출력을 포함한다. 제2 출력 게이트()(1221)의 출력은 다른 레이어의 입력 게이트의 입력에 연결된다.
제2 레이어(예컨대, 레이어 L)의 GRU를 구비한 GRU와, 다중 하이웨이 연결을 구비한 GRU의 결합(1200)은 입력 게이트()(1231), 갱신 게이트()(1233), 리셋 게이트()(1235), 후보 게이트()(1237), 이전 레이어(예컨대, 레이어 L-1)의 출력을 홀드하기 위한 제1 출력 게이트()(1239) 및 제2 출력 게이트()(1251)를 포함한다.
제2 레이어의 입력 게이트()(1231)는 레이어 L-1의 제2 출력 게이트()(1221)의 출력에 연결된 입력, 갱신 게이트()(1233), 리셋 게이트()(1235) 및 후보 게이트()(1237) 각각의 제1 입력에 연결된 제1 출력, 다른 레이어의 하이웨이 게이트에 연결하기 위한 제2 출력 및 다른 레이어의 원소 곱 투영 게이트에 연결하기 위한 제3 출력을 포함한다. 제1 출력 게이트()(1239)는 갱신 게이트()(1233)의 제2 입력에 연결된 제1 출력, 리셋 게이트()(1235)의 제2 입력에 연결된 제2 출력, 제1 원소 곱 투영 게이트(1247)의 제1 입력에 연결된 제3 출력 및 제2 원소 곱 투영 게이트(1245)의 제1 입력에 연결된 제4 출력을 포함한다. 갱신 게이트()(1233)는 제1 원소 곱 투영 게이트(1247)의 제2 입력에 연결된 제1 출력 및 1 감산 기능 블록(1241)에 연결된 제2 출력을 포함한다. 리셋 게이트()(1235)는 제2 원소 곱 투영 게이트(1245)의 제2 입력에 연결된 출력을 포함한다. 후보 게이트()(1237)는 제2 원소 곱 투영 게이트(1245)의 출력에 연결된 제2 입력 및 제3 원소 곱 투영 게이트(1243)의 제1 입력에 연결된 출력을 포함한다. 1 감산 기능 블록(1241)은 제3 원소 곱 투영 게이트(1243)의 제2 입력에 연결된 출력을 포함한다. 제1 원소 곱 투영 게이트(1247)는 원소 가산기(1249)의 제1 입력에 연결된 출력을 포함한다. 원소 가산기(1249)는 제3 원소 곱 투영 게이트(1243)의 출력에 연결된 제2 입력 및 제2 출력 게이트()(1251)의 입력에 연결된 출력을 포함한다. 제2 출력 게이트()(1251)의 출력은 다른 레이어의 입력 게이트의 입력에 연결된다.
제3 레이어(예컨대, 레이어 L+1)의 GRU를 구비한 GRU와, 다중 하이웨이 연결을 구비한 GRU의 결합(1200)은 입력 게이트()(1261), 갱신 게이트()(1263), 리셋 게이트()(1265), 후보 게이트()(1267), 이전 레이어(예컨대, 레이어 L)의 출력을 홀드하기 위한 제1 출력 게이트()(1269), 제2 출력 게이트()(1281), 하이웨이 게이트()(1283), 원격 입력(1293)을 수신하기 위한 제1 입력을 포함하는 원격 입력 게이트(1291) 및 원격 입력(1295)을 위한 하이웨이 게이트를 포함한다.
제3 레이어의 입력 게이트()(1261)는 제2 레이어의 제2 출력 게이트()(1251)의 출력에 연결된 입력, 갱신 게이트()(1263), 리셋 게이트()(1265) 및 후보 게이트()(1267) 각각의 제1 입력에 연결된 제1 출력 및 원격 입력(1295)을 위한 하이웨이 게이트의 제1 입력에 연결된 제2 출력을 포함한다. 제1 출력 게이트()(1269)는 갱신 게이트()(1263)의 제2 입력에 연결된 제1 출력, 리셋 게이트()(1265)의 제2 입력에 연결된 제2 출력, 제1 원소 곱 투영 게이트(1277)의 제1 입력에 연결된 제3 출력, 제2 원소 곱 투영 게이트(1275)의 제1 입력에 연결된 제4 출력, 하이웨이 게이트()(1283)의 제1 입력에 연결된 제5 출력, 원격 입력 게이트(1291)의 제2 입력에 연결된 제6 출력 및 원격 입력(1295)을 위한 하이웨이 게이트의 제2 입력에 연결된 제7 출력을 포함한다. 갱신 게이트()(1263)는 제1 원소 곱 투영 게이트(1277)의 제2 입력에 연결된 제1 출력 및 제1 1 감산 기능 블록(1271)에 연결된 제2 출력을 포함한다. 리셋 게이트()(1265)는 제2 원소 곱 투영 게이트(1275)의 제2 입력에 연결된 출력을 포함한다. 후보 게이트()(1267)는 제2 원소 곱 투영 게이트(1275)의 출력에 연결된 제2 입력 및 제3 원소 곱 투영 게이트(1273)의 제1 입력에 연결된 출력을 포함한다. 제1 1 감산 기능 블록(1271)은 제3 원소 곱 투영 게이트(1273)의 제2 입력에 연결된 출력을 포함한다. 제1 원소 곱 투영 게이트(1277)는 제1 원소 가산기(1279)의 제1 입력에 연결된 출력을 포함한다. 하이웨이 게이트()(1283)는 제2 레이어의 입력 게이트()(1231)의 제2 출력에 연결된 제2 입력, 제4 원소 곱 투영 게이트(1285)의 제2 입력에 연결된 제1 출력 및 제2 원소 가산기(1299)의 제1 입력에 연결된 제2 출력을 포함한다. 원격 입력 게이트(1291)는 원격 입력(1295)을 위한 하이웨이 게이트의 제3 입력에 연결된 제1 출력 및 제6 원소 곱 투영 게이트(1297)의 제1 입력에 연결된 제2 출력을 포함한다. 원격 입력(1295)을 위한 하이웨이 게이트는 제2 원소 가산기(1299)의 제2 입력에 연결된 제1 출력 및 제6 원소 곱 투영 게이트(1297)의 제2 입력에 연결된 제2 출력을 포함한다. 제2 원소 가산기(1299)는 제2 1 감산 기능 블록(1298)의 입력에 연결된 출력을 포함한다. 제5 원소 곱 투영 게이트(1289)는 제1 원소 가산기(1279)의 출력에 연결된 제1 입력, 제2 1 감산 기능 블록(1298)의 출력에 연결된 제2 입력 및 제3 원소 가산기(1296)의 제1 입력에 연결된 출력을 포함한다. 제4 원소 곱 투영 게이트(1285)는 제2 레이어의 입력 게이트()(1231)의 제3 출력에 연결된 제2 입력 및 제3 원소 가산기(1296)의 제2 입력에 연결된 출력을 포함한다. 제3 원소 가산기(1296)는 제2 출력 게이트()(1281)의 입력에 연결된 출력을 포함한다.
다음으로, 원격 출력으로부터 게이팅된 반복적 정보(gated recurrent information)는, 하위의 GRU 레이어로부터의 것과 함께 하이웨이 게이트를 통해 전달될 수 있다. 여러 게이트는 다음과 같은 표 1와 같이 표현될 수 있다.
(1291)은 추가적인 원격 입력의 함수로서 추가된 반복적 동작일 수 있다. (1295)는 원격 입력 , 현재 입력 및 현재 입력 상태 대한 함수로서 원격 입력을 위한 하이웨이 게이트일 수 있다. 본 발명의 일 실시예에 따르면, 이전 레이어들로부터 다중 연결인 경우 다중 y 게이트가 초기화될 수 있고, 이것은 또한 다중 인터 GRU 레이어 하이웨이 연결과 결합된 것일 수 있다.
본 발명의 일 실시예에 따르면, 반복적 네트워크는 GRU들 또는 LSTM들로 구현될 수 있으며, 이들은 반복적 네트워크와 정보의 흐름을 주고 받는 것을 제어할 수 있다. H2LSTM 네트워크 아키텍처는 여러 타입의 레이어들로부터 수신되는 다중 입력으로부터 다중 하이웨이 연결을 제공할 수 있다. H2LSTM 네트워크는 또한 추가적인 딥 레이어의 가중치를 0으로 구동함으로써 이전 입력에 대한 단순화된 기능을 학습할 수 있다. H2GRU는 이전의 GRU 레이어들뿐 아니라, 단지 하나의 GRU 레이어 대신, 피드 포워드 레이어와 같은 다른 레이어들로부터의 하이웨이 연결을 제공할 수 있다. 반복적 네트워크는 피드 포워드(완전 연결되거나(fully connected) 컨볼루션의(convolutional)) 및 반복적 레이어 모두를 구비한 하이브리드 네트워크에서의 하이웨이 연결을 허용한다. LSTM 또는 GRU 반복적 유닛의 내부 상태는 여전히 현재의 입력과 이전의 상태에만 의존적이고, 추가적인 하이웨이 게이트는, 추가적인 반복적 셀을 이용한 원격 입력의 변형 이후, 원격 입력으로부터 셀로의 정보의 제어를 허용한다. 이것은 학습 프로세스를 돕는 원격 입력에 관한 추가적인 정보를 이용하여 각각의 LSTM 또는 GRU 유닛 출력을 보충한다.
도 13은 본 발명의 일 실시예에 따른, 하이웨이 연결을 구비한 하이브리드 반복적 네트워크 방법을 설명하기 위한 흐름도이다. 예를 들어, 하이웨이 연결을 구비한 하이브리드 LSTM 네트워크 아키텍처(H2LSTM)의 방법일 수 있다.
도 13을 참조하면, 상기 방법은, 단계(1301)에서 하이웨이 연결을 위한 하이웨이, 또는 깊이 게이트를 통해, 제1 레이어의 제1 반복적 네트워크로부터의 출력을 제2 레이어의 제2 반복적 네트워크로 공급하는 것을 포함한다.
단계(1303)에서, 상기 방법은, 원격 입력 게이트 및 하이웨이 게이트를 통해 제2 반복적 네트워크의 원격 입력을 수신하는 것을 포함한다.
도 14는 본 발명의 일 실시예에 따른, 다중 하이웨이 연결을 구비한 하이브리드 반복적 네트워크 방법을 설명하기 위한 흐름도이다.
도 14를 참조하면, 상기 방법은, 단계(1401)에서, 하이웨이 연결을 위한 하이웨이, 또는 깊이 게이트를 통해, 제2 레이어의 제2 반복적 네트워크로부터의 출력을 제3 레이어의 제3 반복적 네트워크로 공급하는 것을 포함한다.
단계(1403)에서, 상기 방법은, 원격 입력 게이트 및 하이웨이 게이트를 통해 제1 레이어의 제1 반복적 네트워크로부터 발생된 제3 반복적 네트워크의 원격 입력을 수신하는 것을 포함한다.
도 15는 본 발명의 일 실시예에 따른, 하이웨이 연결을 구비한 하이브리드 반복적 네트워크의 제조 방법을 설명하기 위한 흐름도이다.
도 15를 참조하면, 상기 방법은, 단계(1501)에서, 하이웨이 연결을 구비하는, 하나 이상의 다른 하이브리드 반복적 네트워크를 포함하는 패키지 또는 웨이퍼의 일부로서, 하이웨이 연결을 구비하는 하이브리드 반복적 네트워크를 형성하고, 하이웨이 연결을 구비하는 하이브리드 반복적 네트워크는, 하이웨이 연결을 위한 하이웨이, 또는 깊이 게이트를 통해, 제1 레이어의 제1 반복적 네트워크로부터의 출력을 제2 레이어의 제2 반복적 네트워크로 공급하고, 원격 입력 게이트 및 하이웨이 게이트를 통해, 제2 반복적 네트워크의 원격 입력을 수신하는 것을 포함한다.
단계(1503)에서, 상기 방법은 하이웨이 연결을 구비하는 하이브리드 반복적 네트워크를 테스트하는 것을 포함하고, 하이웨이 연결을 구비하는 하이브리드 반복적 네트워크를 테스트하는 것은, 하나 이상의 전기-광 변환기(electrical to optical converter), 단일 광학 신호를 2 이상의 광학 신호로 분배하는 하나 이상의 광 분배기(optical splitter) 및 하나 이상의 광-전기 변환기(optical to electrical converter)를 이용하여 하이웨이 연결을 구비하는 하이브리드 반복적 네트워크 및 하이웨이 연결을 구비하는 하나 이상의 다른 하이브리드 반복적 네트워크를 테스트하는 것을 포함한다.
도 16은 본 발명의 일 실시예에 따른, 집적 회로를 형성하는 방법을 설명하기 위한 흐름도이다.
도 16을 참조하면, 상기 방법은, 단계(1601)에서, 초기 레이아웃 데이터를 구성한다. 예를 들어, 상기 방법은 집적 회로의 레이어에 대한 피처(feature)의 세트(set)에 대한 마스크 레이아웃을 생성하고, 마스크 레이아웃은 하이웨이 연결(highway connection)을 구비하는 하이브리드 반복적 네트워크(hybrid recurrent network)를 포함하는 하나 이상의 회로 피처(circuit feature)에 대한 스탠다드 셀 라이브러리 매크로(standard cell library macro)를 포함하고, 마스크 레이아웃을 생성하는 동안 레이아웃 디자인 룰(layout design rule)을 준수하는 매크로의 상대 위치를 배제하는 것을 포함하되, 하이웨이 연결을 구비하는 하이브리드 반복적 네트워크는, 하이웨이 연결을 위한 하이웨이, 또는 깊이 게이트를 통해, 제1 레이어의 제1 반복적 네트워크로부터의 출력을 제2 레이어의 제2 반복적 네트워크로 공급하고, 원격 입력 게이트 및 하이웨이 게이트를 통해, 제2 반복적 네트워크의 원격 입력을 수신ㄹ하는 것을 포함한다.
단계(1603)에서, 상기 방법은 디자인 룰 검사를 수행하는 것을 포함한다. 예를 들어, 상기 방법은 마스크 레이아웃을 생성한 후 레이아웃 디자인 룰을 준수하는 매크로의 상대 위치를 검사할 수 있다.
단계(1605)에서, 상기 방법은 레이아웃을 조정하는 것을 포함한다. 예를 들어, 상기 방법은 임의의 매크로에 의해 레이아웃 디자인 룰을 준수하지 않는 경우가 검출된 경우, 준수하지 않는 매크로 각각을 레이아웃 디자인 룰을 따르도록 수정함으로써 마스크 레이아웃을 수정할 수 있다.
단계(1607)에서, 상기 방법은 새로운 레이아웃 디자인을 생성하는 것을 포함한다. 예를 들어, 상기 방법은 집적 회로의 레이어에 대한 피처의 세트와 수정된 마스크 레이아웃에 따라 마스크를 생성하고, 새생성된 마스크에 따라 집적 회로 레이어를 제조할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였으나, 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100: LSTM
200: CNN/DNN-LSTM
300: 하이브리드 CNN/DNN-LSTM
400: 하이브리드 CNN/DNN-HLSTM
500: H2LSTM
600: GRU
700: HGRU
800: 하이브리드 CNN/DNN-GRU
900: 하이브리드 CNN/DNN-HGRU
1000: 인터-하이웨이 연결을 구비한 GRU와 하이웨이 연결을 구비한 GRU 네트워크 아키텍처의 결합
1100: GRU를 구비한 하이브리드 CNN/DNN과 하이웨이 연결을 구비한 GRU의 결합
1200: 인터 GRU를 구비한 GRU와 다중 하이웨이 연결을 구비한 GRU의 결합
200: CNN/DNN-LSTM
300: 하이브리드 CNN/DNN-LSTM
400: 하이브리드 CNN/DNN-HLSTM
500: H2LSTM
600: GRU
700: HGRU
800: 하이브리드 CNN/DNN-GRU
900: 하이브리드 CNN/DNN-HGRU
1000: 인터-하이웨이 연결을 구비한 GRU와 하이웨이 연결을 구비한 GRU 네트워크 아키텍처의 결합
1100: GRU를 구비한 하이브리드 CNN/DNN과 하이웨이 연결을 구비한 GRU의 결합
1200: 인터 GRU를 구비한 GRU와 다중 하이웨이 연결을 구비한 GRU의 결합
Claims (10)
- 제1 레이어(layer)의 제1 반복적 네트워크(recurrent network);
상기 제1 반복적 네트워크에 연결된 제2 레이어의 제2 반복적 네트워크;
상기 제2 반복적 네트워크에 연결된 원격 입력 게이트(distant input gate);
상기 원격 입력 게이트 및 상기 제2 반복적 네트워크에 연결된 제1 하이웨이 게이트(highway gate);
상기 원격 입력 게이트, 상기 제1 하이웨이 게이트 및 상기 제2 반복적 네트워크에 연결된 제1 원소 곱 투영 게이트(elementwise product projection gate);
상기 제1 반복적 네트워크 및 상기 제2 반복적 네트워크에 연결된 제2 하이웨이 게이트; 및
상기 제1 반복적 네트워크, 상기 제2 하이웨이 게이트 및 상기 제2 반복적 네트워크에 연결된 제2 원소 곱 투영 게이트를 포함하는 장치. - 제1항에 있어서,
상기 제1 반복적 네트워크 및 상기 제2 반복적 네트워크는 각각 GRU(gated recurrent unit) 및 LSTM(long short term memory) 중 하나인 장치. - 제2항에 있어서,
상기 제1 반복적 네트워크는,
출력을 포함하는 제1 셀 활성화 레지스터(cell activation register)();
상기 제1 셀 활성화 레지스터()의 상기 출력에 연결된 제1 입력, 제2 입력 및 출력을 포함하는 제1 원소 곱 투영 게이트;
출력을 포함하는 제1 출력 게이트();
출력을 포함하는 입력 레지스터(input register)();
상기 제1 출력 게이트()의 상기 출력 및 상기 입력 레지스터()의 상기 출력에 연결된 입력과, 상기 제1 원소 곱 투영 게이트의 상기 제2 입력에 연결된 출력을 포함하는 망각 게이트(forget gate)();
상기 제1 출력 게이트()의 상기 출력 및 상기 입력 레지스터()의 상기 출력에 연결된 입력과, 출력을 포함하는 입력 게이트();
상기 제1 출력 게이트()의 상기 출력 및 상기 입력 레지스터()의 상기 출력에 연결된 입력과, 출력을 포함하는 신규 입력 레지스터(new input register)();
상기 제1 출력 게이트()의 상기 출력 및 상기 입력 레지스터()의 상기 출력에 연결된 입력과, 출력을 포함하는 셀 출력 활성화 레지스터(cell output activation register)( );
상기 입력 게이트()의 상기 출력에 연결된 제1 입력, 상기 신규 입력 레지스터()의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 제2 원소 곱 투영 게이트;
상기 제1 원소 곱 투영 게이트의 상기 출력에 연결된 제1 입력, 상기 제2 원소 곱 투영 게이트의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 가산기;
상기 가산기의 출력에 연결된 입력과, 출력을 포함하는 제2 셀 활성화 레지스터();
상기 제2 셀 활성화 레지스터()의 상기 출력에 연결된 제1 입력, 상기 셀 출력 활성화 레지스터()의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 제3 원소 곱 투영 게이트; 및
상기 제3 원소 곱 투영 게이트의 상기 출력에 연결된 입력과, 출력을 포함하는 제2 출력 게이트()를 포함하는 LSTM인 장치. - 제2항에 있어서,
상기 제2 반복적 네트워크는,
제1 출력, 제2 출력 및 제3 출력을 포함하는 제1 셀 활성화 레지스터();
상기 제1 셀 활성화 레지스터()의 상기 출력에 연결된 제1 입력, 제2 입력 및 출력을 포함하는 제1 원소 곱 투영 게이트;
출력을 포함하는 제1 출력 게이트();
출력을 포함하는 입력 레지스터();
상기 제1 출력 게이트()의 상기 출력 및 상기 입력 레지스터()의 상기 출력에 연결된 입력과, 상기 제1 원소 곱 투영 게이트의 상기 제2 입력에 연결된 출력을 포함하는 망각 게이트();
상기 제1 출력 게이트()의 상기 출력 및 상기 입력 레지스터()의 상기 출력에 연결된 입력과, 출력을 포함하는 입력 게이트();
상기 제1 출력 게이트()의 상기 출력 및 상기 입력 레지스터()의 상기 출력에 연결된 입력과, 출력을 포함하는 신규 입력 레지스터();
상기 제1 출력 게이트()의 상기 출력 및 상기 입력 레지스터()의 상기 출력에 연결된 입력과, 출력을 포함하는 셀 출력 활성화 레지스터();
상기 입력 게이트()의 상기 출력에 연결된 제1 입력, 상기 신규 입력 레지스터()의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 제2 원소 곱 투영 게이트;
상기 제1 원소 곱 투영 게이트의 상기 출력에 연결된 제1 입력, 상기 제2 원소 곱 투영 게이트의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 가산기;
상기 가산기의 출력에 연결된 입력과, 출력을 포함하는 제2 셀 활성화 레지스터();
상기 제2 셀 활성화 레지스터()의 상기 출력에 연결된 제1 입력, 상기 셀 출력 활성화 레지스터()의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 제3 원소 곱 투영 게이트; 및
상기 제3 원소 곱 투영 게이트의 상기 출력에 연결된 입력과, 출력을 포함하는 제2 출력 게이트()를 포함하는 LSTM인 장치. - 제1 레이어(layer)의 제1 반복적 네트워크(recurrent network);
상기 제1 반복적 네트워크에 연결된 제2 레이어의 제2 반복적 네트워크;
상기 제2 반복적 네트워크에 연결된 제3 레이어의 제3 반복적 네트워크;
상기 제1 반복적 네트워크에 연결된 상기 제3 반복적 네트워크의 원격 입력 게이트(distant input gate);
상기 원격 입력 게이트에 연결된 상기 제3 반복적 네트워크의 제1 하이웨이 게이트(highway gate);
상기 제2 반복적 네트워크에 연결된 상기 제3 반복적 네트워크의 제2 하이웨이 게이트; 및
상기 제2 반복적 네트워크 및 상기 제2 하이웨이 게이트에 연결된 상기 제3 반복적 네트워크의 제1 원소 곱 투영 게이트(elementwise product projection gate)를 포함하는 장치. - 제5항에 있어서,
상기 제1 반복적 네트워크, 상기 제2 반복적 네트워크 및 제3 반복적 네트워크는 각각 GRU(gated recurrent unit) 및 LSTM(long short term memory) 중 하나인 장치. - 제6항에 있어서,
상기 제1 반복적 네트워크는,
출력을 포함하는 입력 게이트();
상기 입력 게이트()의 상기 출력에 연결된 입력, 제1 출력 및 제2 출력을 포함하는 갱신 게이트(update gate)( );
상기 입력 게이트()의 상기 출력에 연결된 입력과, 출력을 포함하는 리셋 게이트(reset gate)( );
상기 입력 게이트()의 상기 출력에 연결된 제1 입력, 제2 입력 및 출력을 포함하는 후보 게이트(candidate gate)( );
제1 출력과 제2 출력을 포함하는 제1 출력 게이트();
상기 갱신 게이트( )의 상기 제1 출력에 연결된 제1 입력, 상기 제1 출력 게이트()의 상기 제1 출력에 연결된 제2 입력을 포함하는 제1 원소 곱 투영 게이트;
상기 리셋 게이트( )의 상기 출력에 연결된 제1 입력, 상기 제1 출력 게이트()의 상기 제2 출력에 연결된 제2 입력 및 상기 후보 게이트( )의 상기 제2 입력에 연결된 출력을 포함하는 제2 원소 곱 투영 게이트;
상기 갱신 게이트()의 상기 제2 출력에 연결된 입력과, 출력을 포함하는 1 감산 기능 블록(subtract from 1 function block);
상기 후보 게이트( )의 상기 출력에 연결된 제1 입력, 상기 1 감산 기능 블록의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 제3 원소 곱 투영 게이트;
상기 제1 원소 곱 투영 게이트의 상기 출력에 연결된 제1 입력, 상기 제3 원소 곱 투영 게이트의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 가산기; 및
상기 가산기의 출력에 연결된 입력과, 출력을 포함하는 제2 출력 게이트()를 포함하는 GRU인 장치. - 제6항에 있어서,
상기 제2 반복적 네트워크는,
상기 제1 반복적 네트워크의 상기 제2 출력 게이트()의 상기 출력에 연결된 입력, 제1 출력, 제2 출력 및 제3 출력을 포함하는 입력 게이트();
상기 입력 게이트()의 상기 제1 출력에 연결된 제1 입력, 제2 입력, 제1 출력 및 제2 출력을 포함하는 갱신 게이트();
상기 입력 게이트()의 상기 제1 출력에 연결된 제1 입력, 제2 입력 및 출력을 포함하는 리셋 게이트();
상기 입력 게이트()의 상기 제1 출력에 연결된 제1 입력, 제2 입력 및 출력을 포함하는 후보 게이트();
상기 갱신 게이트()의 상기 제2 입력에 연결된 제1 출력, 상기 리셋 게이트()의 상기 제2 입력에 연결된 제2 출력, 제3 출력 및 제4 출력을 포함하는 제1 출력 게이트();
상기 갱신 게이트()의 상기 제1 출력에 연결된 제1 입력, 상기 제1 출력 게이트()의 상기 제3 출력에 연결된 제2 입력 및 출력을 포함하는 제1 원소 곱 투영 게이트;
상기 리셋 게이트()의 상기 출력에 연결된 제1 입력, 상기 제1 출력 게이트()의 상기 제4 출력에 연결된 제2 입력 및 상기 후보 게이트()의 상기 제2 입력에 연결된 출력을 포함하는 제2 원소 곱 투영 게이트;
상기 갱신 게이트()의 상기 제2 출력에 연결된 입력과, 출력을 포함하는 1 감산 기능 블록;
상기 후보 게이트()의 상기 출력에 연결된 제1 입력, 상기 1 감산 기능 블록의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 제3 원소 곱 투영 게이트;
상기 제1 원소 곱 투영 게이트의 상기 출력에 연결된 제1 입력, 상기 제3 원소 곱 투영 게이트의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 가산기; 및
상기 가산기의 출력에 연결된 입력과, 출력을 포함하는 제2 출력 게이트()를 포함하는 GRU인 장치. - 제6항에 있어서,
상기 제3 반복적 네트워크는,
상기 제2 반복적 네트워크의 상기 제2 출력 게이트()의 상기 출력에 연결된 입력, 제1 출력 및 제2 출력을 포함하는 입력 게이트();
상기 입력 게이트()의 상기 제1 출력에 연결된 제1 입력, 제2 입력, 제1 출력 및 제2 출력을 포함하는 갱신 게이트();
상기 입력 게이트()의 상기 제1 출력에 연결된 제1 입력, 제2 입력 및 출력을 포함하는 리셋 게이트();
상기 입력 게이트()의 상기 제1 출력에 연결된 제1 입력, 제2 입력 및 출력을 포함하는 후보 게이트();
상기 갱신 게이트()의 상기 제2 입력에 연결된 제1 출력, 상기 리셋 게이트()의 상기 제2 입력에 연결된 제2 출력, 제3 출력, 제4 출력, 제5 출력, 제6 출력 및 제7 출력을 포함하는 제1 출력 게이트();
상기 제2 반복적 네트워크의 상기 입력 게이트()의 상기 제2 출력에 연결된 제1 입력, 상기 제1 출력 게이트()의 상기 제5 출력에 연결된 제2 입력, 제1 출력 및 제2 출력을 포함하는 제3 하이웨이 게이트(highway gate)( );
상기 갱신 게이트()의 상기 제1 출력에 연결된 제1 입력, 상기 제1 출력 게이트()의 상기 제3 출력에 연결된 제2 입력 및 출력을 포함하는 제1 원소 곱 투영 게이트;
상기 리셋 게이트()의 상기 출력에 연결된 제1 입력, 상기 제1 출력 게이트()의 상기 제4 출력에 연결된 제2 입력 및 상기 후보 게이트()의 상기 제2 입력에 연결된 출력을 포함하는 제2 원소 곱 투영 게이트;
상기 갱신 게이트()의 상기 제2 출력에 연결된 입력과, 출력을 포함하는 제1 1 감산 기능 블록;
상기 후보 게이트()의 상기 출력에 연결된 제1 입력, 상기 제1 1 감산 기능 블록의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 제3 원소 곱 투영 게이트;
상기 제1 원소 곱 투영 게이트의 상기 출력에 연결된 제1 입력, 상기 제3 원소 곱 투영 게이트의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 제1 가산기;
상기 제2 반복적 네트워크의 상기 입력 게이트()의 상기 제3 출력에 연결된 제1 입력, 상기 제3 하이웨이 게이트()의 상기 제1 출력에 연결된 제2 입력 및 출력을 포함하는 제4 원소 곱 투영 게이트;
상기 제1 출력 게이트()의 상기 제6 출력에 연결된 제1 입력, 원격 입력을 수신하기 위한 제2 입력, 제1 출력 및 제2 출력을 포함하는 원격 입력 게이트();
상기 입력 게이트()의 상기 제2 입력에 연결된 제1 입력, 상기 제1 출력 게이트()의 상기 제7 출력에 연결된 제2 입력, 상기 원격 입력 게이트()의 상기 제1 출력에 연결된 제3 입력, 제1 출력 및 제2 출력을 포함하는 제4 하이웨이 게이트();
상기 원격 입력 게이트()의 상기 제2 출력에 연결된 제1 입력, 상기 제4 하이웨이 게이트()의 상기 제1 출력에 연결된 제2 입력 및 출력을 포함하는 제5 원소 곱 투영 게이트;
상기 제1 원소 곱 투영 게이트의 상기 출력에 연결된 제1 입력, 상기 제3 원소 곱 투영 게이트의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 제1 가산기;
제3 하이웨이 게이트( )의 상기 제2 출력에 연결된 제1 입력, 상기 제4 하이웨이 게이트()의 상기 제2 출력에 연결된 제2 입력 및 출력;
상기 제2 가산기의 상기 출력에 연결된 입력과, 출력을 포함하는 제2 1 감산 기능 블록;
상기 제1 가산기의 상기 출력에 연결된 제1 입력, 상기 제2 1 감산 기능 블록의 상기 출력에 연결된 제2 입력 및 출력을 포함하는 제6 원소 곱 투영 게이트;
상기 제4 원소 곱 투영 게이트의 상기 출력에 연결된 제1 입력, 상기 제5 원소 곱 투영 게이트의 상기 출력에 연결된 제2 입력, 상기 제6 원소 곱 투영 게이트의 상기 출력에 연결된 제3 입력 및 출력을 포함하는 제3 가산기; 및
상기 제3 가산기의 상기 출력에 연결된 입력을 포함하는 제2 출력 게이트()를 포함하는, 다중 하이웨이 연결(multiple highway connection)을 구비하는 GRU인 장치. - 하이웨이 연결(highway connection)을 구비하는 하이브리드 반복적 네트워크(hybrid recurrent network) 방법에 있어서,
상기 하이웨이 연결을 위한 제1 하이웨이 게이트(highway gate)를 통해, 제1 레이어(layer)의 제1 반복적 네트워크(recurrent network)에서 제2 레이어의 제2 반복적 네트워크로 출력을 공급하고,
원격 입력 게이트(distant input gate) 및 제2 하이웨이 게이트를 통해, 상기 제2 반복적 네트워크의 원격 입력(distant input)을 수신하는 것을 포함하는 방법.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662381191P | 2016-08-30 | 2016-08-30 | |
US62/381,191 | 2016-08-30 | ||
US15/343,882 | 2016-11-04 | ||
US15/343,882 US10599974B2 (en) | 2016-08-30 | 2016-11-04 | System and method for information highways in a hybrid feedforward-recurrent deep network |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20180025125A true KR20180025125A (ko) | 2018-03-08 |
Family
ID=61242859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170026179A KR20180025125A (ko) | 2016-08-30 | 2017-02-28 | 하이브리드 피드 포워드-반복적 딥 네트워크에서 정보 하이웨이를 위한 시스템 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10599974B2 (ko) |
KR (1) | KR20180025125A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711540A (zh) * | 2018-12-20 | 2019-05-03 | 北京中科寒武纪科技有限公司 | 一种计算装置及板卡 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10855550B2 (en) * | 2016-11-16 | 2020-12-01 | Cisco Technology, Inc. | Network traffic prediction using long short term memory neural networks |
CN108510065A (zh) * | 2018-03-30 | 2018-09-07 | 中国科学院计算技术研究所 | 应用于长短时记忆神经网络的计算装置和计算方法 |
CN109376855B (zh) * | 2018-12-14 | 2021-04-06 | 中国科学院计算技术研究所 | 一种光神经元结构和包含该结构的神经网络处理系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7668966B2 (en) * | 2001-11-02 | 2010-02-23 | Internap Network Services Corporation | Data network controller |
US20040059695A1 (en) | 2002-09-20 | 2004-03-25 | Weimin Xiao | Neural network and method of training |
US7784015B2 (en) * | 2005-07-05 | 2010-08-24 | Texas Instruments Incorporated | Method for generating a mask layout and constructing an integrated circuit |
EP2221805B1 (en) | 2009-02-20 | 2014-06-25 | Nuance Communications, Inc. | Method for automated training of a plurality of artificial neural networks |
US20140310218A1 (en) | 2013-04-11 | 2014-10-16 | Nec Laboratories America, Inc. | High-Order Semi-RBMs and Deep Gated Neural Networks for Feature Interaction Identification and Non-Linear Semantic Indexing |
US9401148B2 (en) | 2013-11-04 | 2016-07-26 | Google Inc. | Speaker verification using neural networks |
US9400955B2 (en) | 2013-12-13 | 2016-07-26 | Amazon Technologies, Inc. | Reducing dynamic range of low-rank decomposition matrices |
WO2016037351A1 (en) | 2014-09-12 | 2016-03-17 | Microsoft Corporation | Computing system for training neural networks |
US9922272B2 (en) | 2014-09-25 | 2018-03-20 | Siemens Healthcare Gmbh | Deep similarity learning for multimodal medical images |
-
2016
- 2016-11-04 US US15/343,882 patent/US10599974B2/en active Active
-
2017
- 2017-02-28 KR KR1020170026179A patent/KR20180025125A/ko active Search and Examination
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711540A (zh) * | 2018-12-20 | 2019-05-03 | 北京中科寒武纪科技有限公司 | 一种计算装置及板卡 |
Also Published As
Publication number | Publication date |
---|---|
US10599974B2 (en) | 2020-03-24 |
US20180060720A1 (en) | 2018-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amer et al. | A review of modularization techniques in artificial neural networks | |
Yang et al. | Online approximate optimal control for affine non‐linear systems with unknown internal dynamics using adaptive dynamic programming | |
KR20180025110A (ko) | 잔여의 lstm 네트워크를 위한 시스템 및 방법 | |
KR20180025125A (ko) | 하이브리드 피드 포워드-반복적 딥 네트워크에서 정보 하이웨이를 위한 시스템 및 방법 | |
Zhang et al. | Dynamic extreme learning machine and its approximation capability | |
Gokmen et al. | Training LSTM networks with resistive cross-point devices | |
CN108304914B (zh) | 用于高阶长短期记忆网络的系统和方法 | |
Liu et al. | Synthesis of integrated passive components for high-frequency RF ICs based on evolutionary computation and machine learning techniques | |
WO2021190597A1 (zh) | 一种神经网络模型的处理方法以及相关设备 | |
Lu et al. | Finite‐time tracking for double‐integrator multi‐agent systems with bounded control input | |
US20210224640A1 (en) | Neural network circuit device, neural network processingmethod, and neural network execution program | |
Daskin | A simple quantum neural net with a periodic activation function | |
Xiao et al. | Finite-/fixed-time synchronization of delayed coupled discontinuous neural networks with unified control schemes | |
WO2022245502A1 (en) | Low-rank adaptation of neural network models | |
Ma et al. | Adaptive output feedback tracking control for non‐linear switched stochastic systems with unknown control directions | |
Wang et al. | Error-adaptive classifier boosting (EACB): Exploiting data-driven training for highly fault-tolerant hardware | |
CN115564026A (zh) | 模式识别装置以及模式识别方法 | |
KR20210064817A (ko) | 상이한 딥러닝 모델 간의 전이 학습방법 | |
Liang et al. | Decentralized learning of randomization-based neural networks with centralized equivalence | |
Merkel et al. | Neuromemristive extreme learning machines for pattern classification | |
Yue et al. | Neuro‐adaptive consensus strategy for a class of nonlinear time‐delay multi‐agent systems with an unmeasurable high‐dimensional leader | |
Sharma et al. | Machine learning guided curvilinear MPC | |
Zhao et al. | Highly-bespoke robust printed neuromorphic circuits | |
Parsa et al. | Observer‐based adaptive emotional command‐filtered backstepping for cooperative control of input‐saturated uncertain strict‐feedback multi‐agent systems | |
Dutta et al. | Automated deep learning platform for accelerated analog circuit design |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |