KR20210117331A - 회귀 신경망의 르장드르 메모리 유닛 - Google Patents
회귀 신경망의 르장드르 메모리 유닛 Download PDFInfo
- Publication number
- KR20210117331A KR20210117331A KR1020217026985A KR20217026985A KR20210117331A KR 20210117331 A KR20210117331 A KR 20210117331A KR 1020217026985 A KR1020217026985 A KR 1020217026985A KR 20217026985 A KR20217026985 A KR 20217026985A KR 20210117331 A KR20210117331 A KR 20210117331A
- Authority
- KR
- South Korea
- Prior art keywords
- node
- neural network
- lmu
- input
- output
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 58
- 230000015654 memory Effects 0.000 title claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 9
- 238000005316 response function Methods 0.000 claims description 3
- 238000012421 spiking Methods 0.000 abstract description 9
- 230000004913 activation Effects 0.000 abstract description 5
- 239000010410 layer Substances 0.000 description 45
- 210000004027 cell Anatomy 0.000 description 33
- 238000012549 training Methods 0.000 description 20
- 230000000306 recurrent effect Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000005183 dynamical system Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 241001441724 Tetraodontidae Species 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000009738 saturating Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000003245 working effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G06N3/0445—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
르장드르 메모리 유닛 방정식을 사용하여 결정되는 연결 가중치를 갖는 신경망 아키텍처는 선택적으로 결정된 가중치를 고정되게 유지하면서 훈련된다. 네트워크는 스파이킹 또는 논-스파이킹 활성화 함수를 사용할 수 있고, 적층되거나 다른 신경망 아키텍처와 회귀적으로 커플링될 수 있으며, 소프트웨어 및 하드웨어로 구현될 수 있다. 본 발명의 실시형태는 시간의 슬라이딩 윈도우에 걸치는 직교 다항식 기저 함수를 사용하여 계산하는 패턴 분류, 데이터 표현 및 신호 처리를 위한 시스템을 제공한다.
Description
본 발명은, 일반적으로 인공 지능 및 딥 러닝에 관한 것으로, 보다 구체적으로는 소프트웨어 및 하드웨어로 구현될 수 있는 회귀 신경망 아키텍처에 관한 것이다. 본 출원은 2019년 3월 6일 출원된 가출원 제62/814,767호 및 2019년 5월 6일 출원된 가출원 제62/844,090호에 대한 우선권을 주장하며, 상기 출원의 내용은 본원에 참조에 의해 포함되어 있다.
딥 러닝은 의심할 여지 없이 인공 지능 분야에 다수의 빠르고 인상적인 발전을 가져왔다. 그 블랙박스 특성으로 인해, 이미지 인식, 음성 인식, 자연 언어 이해, 질문 답변 및 언어 번역을 포함한, 많은 중요한 문제에 대한 최첨단 성능을 달성하기 위해, 도메인 전문 지식이나 신경망의 내부 기능에 대한 이해가 필요하지 않다(Y. LeCun, Y. Bengio and G. Hinton, Deep learning. Nature, vol. 521, no. 7553, pp. 436-444, 2015년 5월 참조). 기본 방안은 다음과 같다: 딥 러닝을 위한 소프트웨어 라이브러리를 설치하고, 망(network) 아키텍처를 선택하고, 그의 하이퍼파라미터를 설정하고, 이어서 하드웨어(예컨대, 그래픽 처리 유닛)가 메모리에 유지할 수 있는 만큼의 데이터를 사용하여 학습한다.
멀티-레이어 퍼셉트론(perceptron)과 같은 딥 러닝 아키텍처는, 당면한 작업에 가장 관련이 있는 "잠재적 표현"(즉, 숨겨진 피쳐)을 자동으로 발견함으로써, 새로운 예로 일반화하는 정적 벡터 함수를 구성하는 데 탁월하다. 그러나, 그의 최적화 절차의 불투명성은 양날의 검과 같다: 최소한의 수작업으로 많은 문제에 딥 러닝을 적용하는 것은 쉽지만, 대부분의 하이퍼파라미터 변경이 전체 성능에 어떤 영향을 미칠지는 전문가에게도 불분명하다.
획기적인 발전에도 불구하고, 피드-포워드(feed-forward) 아키텍처가, 긴-범위의 시간적 종속성으로 비디오, 음성 및 기타 순차적 시계열 데이터와 관련된 작업에 필요한, 시간에 따라 입력 데이터에 걸쳐 임의로 확장되는 관계를 학습할 수 없음을 잘 알고 있다. 네트워크의 깊이에 관계없이, 피드-포워드 네트워크는 항상 어떤 유한한 입력 응답을 가지며, 이는 네트워크의 상태 내에서 이전 입력의 유한한 "메모리"를 남긴다. 환언하면, 그러한 네트워크로 계산할 수 있는 함수는 당해 네트워크의 깊이를 넘어서는 입력에 액세스할 수 없다. 이 문제를 극복하기 위한 가장 일반적인 해결방안은 현재 상태 정보를 그 자신에게 다시 전송하는 회귀 연결을 네트워크에 도입하여, 네트워크가 이전 입력에 대한 정보를 캡처하고 미래에 재사용할 수 있도록 하는 것이다. 이러한 네트워크를 회귀 신경망(RNN; Recurrent Neural Network)이라 한다.
RNN은 물리적으로 구현하는 방법을 알고 있는 가장 연산적으로 강력한 신경망의 브랜드이다. 시간에 걸쳐 상태 정보를 유지하도록 회귀 연결을 사용함으로써, 따라서 네트워크에 내부 메모리를 부여함으로써, RNN은 딥 피드-포워드 네트워크에 의해 제공되는 연산 클래스 외부의 함수를 계산할 수 있다: 동적 시스템(dynamical systems) - 그의 입력의 이력에 따라 상태가 비선형적으로 진전되는 함수. 이는 네트워크가 임의의 시간적 스케일을 따라 시간에 걸치는 입력에서 패턴을 활용할 수 있도록 한다.
특히, RNN은 이산-시간 도메인(A.M. Schafer and H.G. Zimmermann, Recurrent neural networks are universal approximators. In International Conference on Artificial Neural Networks, Springer, pp. 632-640, Sept. 2006 참조)에서 그리고 연속-시간 도메인(K. Funahashi and Y. Nakamura, Approximation of dynamical systems by continuous time recurrent neural networks. Neural Networks, vol. 6, no. 6, pp. 801-806, Nov. 1992 참조)에서 임의의 유한-차원의, 인과관계의, 동적 시스템에 대한 보편적 근사기 역할을 한다. 실제로, RNN은 종종 음성 인식, 언어 번역, 비디오 처리, 캡션 생성 및 인간 감정 디코딩과 같은 순차적 입력을 포함하는 작업에 가장 적합한 모델이다.
RNN의 오랜 과제는 긴-범위의 시간(temporal) 종속성을 활용할 수 있도록 초기에 랜덤 회귀 가중치(weights)를 훈련하는 데 곤란함이 있다는 것이다(Y. Bengio, P. Simard and P. Frasconi, Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, vol. 5, no. 2, pp. 157-166, Mar. 1994 참조). LSTM(Long Short-Term Memory)(LSTM; S. Hochreiter and J. Schmidhuber, Long short-term memory. Neural Computation, vol. 9, no. 8, pp. 1735-1780, Nov. 1997 참조)를 역사적으로 가장 성공적인 것으로 하여, 다수의 아키텍처 솔루션이 제안되어 왔다. 예를 들어 GRU(Gated Recurrent Unit)(J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv:1412.3555, Dec. 2014 참조) 및 NRU(Non-Saturating Recurrent Unit)(S. Chandar, C. Sankar, E. Vorontsov, S.E. Kahou, and Y. Bengio, Towards non-saturating recurrent units for modelling long-term dependencies. In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, no. 1, pp. 3280-3287, Jul. 2017 참조)와 같이, 보다 최근이지만, 밀접하게 관련된 다양한 대안도 존재한다.
LSTM, GRU, NRU 및 기타 관련된 대안은 모두, 네트워크의 노드 간 연결을 구성하는 방법을 제공함으로써, RNN 훈련에 있어서의 곤란함을 완화하는 것을 목표로 하는 특정 RNN 아키텍처이다. 이러한 아키텍처는 전형적으로 동일한 사이즈의 무작위로 초기화된 RNN보다 더 나은 레벨의 정확도로 훈련한다. 그럼에도 불구하고, 이러한 아키텍처는, 현재, 약 100-5,000개 시간-스텝보다 많이 걸쳐 있는 시간적 종속성을 학습할 수 없으며, 이는 보다 긴 입력 시퀀스를 포함하는 애플리케이션에의 이러한 아키텍처의 확장성(scalability)을 심히 제한한다. 따라서 제안된 LMU(Legendre Memory Unit)에 동기를 부여하는, 시간 정보의 보다 긴(즉, 순차 시계열에서 100-5,000개 스텝보다 긴) 표현을 정확하게 유지하도록 훈련될 수 있는 개선된 RNN 아키텍처에 대한 요구가 남아 있다.
본 발명의 일 실시형태에서, 르장드르 메모리 유닛(LMU) 셀을 갖는 회귀 신경망을 생성하는 방법이 개시되며, 상기 방법은: 상기 회귀 신경망의, 노드 입력 및 노드 출력을 갖는 각 노드에 대한 노드 응답 함수를 정의하는 단계 - 상기 노드 응답 함수는 시간 경과에 따른 상태를 나타내며, 상기 상태는 이진(binary) 이벤트 또는 실수 값 중 하나로 인코딩 됨 - ; 각 노드 입력을 갖는 연결 가중치의 세트를 정의하는 단계; 각 노드 출력을 갖는 연결 가중치의 세트를 정의하는 단계; 이하의 공식에 기초하여 노드 연결 가중치를 결정하는 행렬로서 정의되는 회귀 연결의 세트를 갖는 하나 이상의 LMU 셀을 정의하는 단계를 포함하고,
여기서 q는 사용자에 의해 결정되는 정수이고, i와 j는 제로(zoero)보다 크거나 제로와 같다.
본 발명의 일 양태에서, 입력 연결 가중치의 상기 세트는 이하의 공식에 기초하여 노드 연결 가중치를 결정하는 행렬로서 정의된다.
본 발명의 다른 양태에서, 상기 LMU 노드 연결 가중치는 이하의 식에 기초하여 결정된다.
본 발명의 또 다른 양태에서, 상기 미리 결정된 파라미터는 사용자에 의해 선택되거나 상기 신경망의 노드의 상기 출력을 이용하여 결정된다.
본 발명의 또 다른 양태에서, 상기 LMU 노드 연결 가중치는 이하의 식에 기초하여 결정된다.
본 발명의 또 다른 양태에서, 상기 미리 결정된 파라미터 각각은 사용자에 의해 선택되거나 상기 신경망의 상기 출력을 이용하여 결정된다.
본 발명의 또 다른 양태에서, 노드 출력들로부터의 하나 이상의 연결 가중치는 르장드르 다항식을 평가함으로써 결정된다.
본 발명의 또 다른 양태에서, 상기 LMU 셀은 적층되고, 각각의 LMU 셀은 연결 가중치 행렬 또는 다른 신경망을 이용하여 다음 LMU 셀에 연결된다.
본 발명의 또 다른 양태에서, 하나 이상의 LMU 셀은 LSTM 셀, GRU 셀, NRU 셀, 다른 LMU 셀, 멀티-레이어 퍼셉트론(perceptron), 시그모이드(sigmoidal) 레이어, 및 다른 선형 또는 비선형 레이어로부터 선택되는 다른 네트워크 아키텍처의 입력 또는 출력에 대한 연결을 포함한다.
본 발명의 또 다른 양태에서, 상기 네트워크는 복수의 그의 파라미터를 업데이트함으로써 신경망으로서 훈련된다.
본 발명의 또 다른 양태에서, 상기 네트워크는 나머지 파라미터를 업데이트하는 동안 하나 이상의 파라미터를 고정함으로써 신경망으로서 훈련된다.
본 발명의 다른 실시형태에 따르면, 신경망에서 패턴 분류, 데이터 표현 또는 신호 처리를 위한 시스템이 제공되며, 상기 시스템은: 하나 이상의 차원의 벡터를 제공하는 하나 이상의 입력 레이어 - 각 차원은 외부 입력에 의해 또는 상기 네트워크로부터의 이전 출력을 사용함으로써 상기 네트워크에 제공됨 - ; 가중치 행렬을 통해, 입력 레이어, 다른 중간 레이어 또는 출력 레이어 중 적어도 하나에 커플링된 하나 이상의 중간 레이어; 시간 내에(in time) 또는 시간에 걸쳐 연속적으로 상기 입력 레이어에 제공된 데이터의 벡터 표현을 생성하거나 또는 하나 이상의 개별 포인트에서 해당 데이터의 함수를 계산하는 하나 이상의 출력 레이어를 포함하고, 상기 시스템은 본원에 설명된 바와 같이 회귀 신경망을 생성한다.
본 발명의 다른 실시형태에 따르면, 본원에 설명된 바와 같이 노드 연결 가중치를 결정하는 하나 이상의 회귀 연결을 갖는 하드웨어로 구현된 회로가 제공된다.
본 발명은, 예시적일 뿐이고 제한적이지 않은 것으로 의도된 첨부 도면의 도면에 의해 예시되며, 도면에서 유사한 참조 부호는 유사하거나 대응하는 부분을 지칭하도록 의도되며, 도면 중에서:
도 1은, 각 레이어가 입력 신호의 보다 점진적으로 저역통과 필터링된 버전을 인코드하도록 연결 가중치를 결정하는 피드-포워드 네트워크에 대한 소프트웨어의 일 실시형태를 나타낸다.
도 2는, 본 발명의 실시형태에 따른 각 레이어에서 저역통과 필터의 효과를 무효화(undo)하기 위해 연결 가중치를 결정하는 회귀 네트워크에 대한 소프트웨어의 일 실시형태를 나타낸다.
도 3은, 6차원 회귀 및 입력 가중치에 대한 연속-시간 LMU 방정식을 구현하는 회로 실시형태를 나타낸다.
도 4는, 본 발명의 일 실시형태에 따른 방법을 나타낸다.
도 5는, 본 발명의 실시형태가 구현될 수 있는 예시적인 신경망의 개략도이다.
도 1은, 각 레이어가 입력 신호의 보다 점진적으로 저역통과 필터링된 버전을 인코드하도록 연결 가중치를 결정하는 피드-포워드 네트워크에 대한 소프트웨어의 일 실시형태를 나타낸다.
도 2는, 본 발명의 실시형태에 따른 각 레이어에서 저역통과 필터의 효과를 무효화(undo)하기 위해 연결 가중치를 결정하는 회귀 네트워크에 대한 소프트웨어의 일 실시형태를 나타낸다.
도 3은, 6차원 회귀 및 입력 가중치에 대한 연속-시간 LMU 방정식을 구현하는 회로 실시형태를 나타낸다.
도 4는, 본 발명의 일 실시형태에 따른 방법을 나타낸다.
도 5는, 본 발명의 실시형태가 구현될 수 있는 예시적인 신경망의 개략도이다.
위에서는 본 발명을 요약하였으며, 이하에서는 특정한 예시적이고 상세한 실시형태가 설명되며, 종래 기술에 대한 대조 및 이점이 보다 명확하게 설명된다.
다른 구성, 하드웨어 등이 본 발명의 제품, 방법 및 시스템의 전술한 실시형태들 중 임의의 것에서 사용될 수 있음은 당업자에게 명백하다. 본 명세서는 본 발명을 예시하는 것이며 다른 실시형태가 그 자체로 당업자에게 제안된다는 것이 이해될 것이다. 여기에 인용된 모든 참조문헌은 참조에 의해 포함된다.
여기에 설명된 시스템 및 방법의 실시형태는 하드웨어 또는 소프트웨어, 또는 이 둘의 조합으로 구현될 수 있다. 이들 실시형태는 프로그래밍 가능한 컴퓨터 상에서 실행되는 컴퓨터 프로그램으로 구현될 수 있으며, 각각의 컴퓨터는 적어도 하나의 프로세서, (휘발성 메모리 또는 비휘발성 메모리 또는 다른 데이터 저장 요소 또는 이들의 조합을 포함하는) 데이터 저장 시스템, 및 적어도 하나의 통신 인터페이스를 포함한다.
본 발명에서, 르장드르 메모리 유닛(LMU) 방정식을 사용하여 결정되는 연결 가중치를 갖는 신경망 아키텍처는 선택적으로 결정된 가중치를 고정되게 유지하면서 훈련된다. 망(network)은 스파이킹 또는 넌-스파이킹 활성화 함수를 사용할 수 있고, 적층되거나 다른 신경망 아키텍처와 회귀적으로 커플링될 수 있으며, 소프트웨어 및 하드웨어로 구현될 수 있다. 본 발명의 실시형태는 시간의 슬라이딩 윈도우에 걸쳐 있는 직교 다항식 기저 함수를 사용하여 계산하는 패턴 분류, 데이터 표현 및 신호 처리를 위한 시스템을 제공한다. 회귀 신경망은 당업계에 잘 알려져 있으며, 그 설명 및 동작은 본 출원에서 알려진 것으로 가정된다. 본 발명은 르장드르 메모리 유닛(LMU) 접근법 및 알고리즘을 사용하여 회귀 네트워크 노드 가중치가 결정되는 개선된 방법 및 시스템을 제공한다. LMU 접근법이 적용된 각각의 노드는 본 명세서에서 LMU 셀로도 지칭된다.
르장드르 메모리 유닛 방정식을 사용하여 결정되는 연결 가중치를 갖는 신경망 아키텍처는 선택적으로 결정된 가중치를 고정되게 유지하면서 훈련된다. 네트워크는 스파이킹 또는 넌-스파이킹 활성화 함수를 사용할 수 있으며, 적층되거나 다른 신경망 아키텍처와 회귀적으로 커플링될 수 있으며, 소프트웨어 및 하드웨어로 구현될 수 있다. 본 발명의 실시형태는 시간의 슬라이딩 윈도우에 걸쳐 있는 직교 다항식 기저 함수를 사용하여 계산하는 패턴 분류, 데이터 표현 및 신호 처리를 위한 시스템을 제공한다.
θ를 사용자가 제공하거나 신경망에서의 노드의 출력을 사용하여 결정되는 파라미터라고 하자.
t를 연속적인 시점 또는 이산적인 시점이라고 하자. 이산 시간의 경우, Δt를 사용자가 제공하거나 신경망에서의 노드의 출력을 사용하여 결정되는 파라미터라고 하자.
LMU 회귀 연결은 다음 방정식을 평가함으로써 노드 연결 가중치를 결정한다.
노드 입력에 대한 LMU 연결 가중치는 다음 방정식을 평가함으로써 선택적으로 결정된다.
노드 출력으로부터의 LMU 연결은 르장드르 다항식을 평가함으로써 선택적으로 결정된다(A.M. Legendre, Recherches sur l'attraction des spheroides homogenes. Memoires de Mathematiques et de Physique, presentes a l'Academie Royale des Sciences pp. 411-435, 1782 참조).
회귀 연결 가중치를 결정하기 위한 이 접근법은 기술 분야에서 새로운 것이며, 아래에서 논의되는 바와 같이 개선된 회귀 신경망을 제공한다.
A 및 B 행렬의 유도
식 1과 식 2를 유도하기 위해, 는 어떤 LMU 셀에 의해 표현되는 상태 벡터의 어떤 하위집합에 대응하고, 는 앞서 언급한 LMU 셀에 입력으로서 제공되는 벡터의 어떤 하위집합에 대응한다. (A,B) 행렬을 선택하면, 다음과 같은 연속 시간 동적 시스템을 정의한다.
이 동적 시스템은 상태 x에 의해 주어진 계수와 함께 직교 르장드르 기저(basis)를 사용하여 길이 θ의 슬라이딩 시간-윈도우에 걸쳐서 u의 메모리를 나타낸다. 이는 임의의 다른 RNN 아키텍처에서 얻을 수 없는 계산 상의 이점을 제공한다.
q=6에 대한 (A,B)의 예는 다음과 같다.
연속 시간 회귀 및 입력 가중치 결정의 예
그러면 식 3은, 다음의 q 상미분 방정식(ODE)의 연속 시간 시스템에 대응한다.
여기서, 예를 들어, 회귀 가중치를 결정하기 위해 다음의 함수를 정의한다:
그리고 입력 가중치를 결정하기 위해 다음의 함수를 정의한다:
이산 시간 회귀 및 입력 가중치 결정의 예
식 3은 Δt의 시간-스텝으로 이산화된 다음의 q ODE의 이산 시간 동적 시스템에 대응한다.
여기서, 예를 들어 제로-오더 홀드(zero-order hold)(ZOH; W.L. Brogan, Modern Control Theory. 3rd Edition, Pearson, Oct. 1990 참조) 이산화를 고려하면, 회귀 가중치를 결정하기 위해 다음 함수를 정의한다:
그리고 입력 가중치를 결정하기 위해 다음 함수를 정의한다:
식 1 및 2에 대한 추가 고려
식 1 및 2를 각각 평가할 때 연결 가중치를 결정하기 위해 또는 및 또는 의 다른 가능한 정의를 허용한다. 예는 미분 방정식을 수치적으로 적분하고, 그리고 θ를 t 및 Δt의 함수로서 변환하는 대안적인 방법의 사용을 포함하지만 이로 한정되지 않는다.
불규칙한 간격의 입력 시퀀스("불균일한 간격의 시계열(unevenly spaced time series)"로도 알려짐)는 신경망에서의 입력 노드를 사용하여 Δt를 제공함으로써 지원된다.
식 1 또는 식 2의 출력이 일정하다면(즉, 그 파라미터들 중 어느 것도 가변적이지 않고 신경망에서의 임의의 노드의 출력에 의존하지 않는 경우), (예컨대, 가중치를 초기화 하도록) 그들은 한 번만 평가될 필요가 있다. 그렇지 않으면, 그들의 파라미터들이 변경될 때마다 재평가될 수 있다.
출력 가중치 결정의 예
르장드르 다항식을 사용하여 하나 이상의 노드로부터 출력 연결 가중치를 결정하기 위해, 예를 들어 시프팅된 르장드르 다항식에 대해 로드리게스(Rodrigues) 공식을 사용하여 제1 q 다항식을 평가할 수 있다(O. Rodrigues, De l'attraction des spheroides, Correspondence sur l'E-cole Imperiale Polytechnique. PhD Thesis, University of Paris, 1816 참조):
를 나타내는 노드로부터 투영되는 각 연결에 대해 θ'(0≤θ'≤θ)를 선택하고나서 를 설정하여 가중치를 결정하기 위해 식 6을 평가할 수 있다. 보다 일반적으로, 출력 노드가 u의 슬라이딩 윈도우의 함수를 근사치로 계산하도록 하기 위해 이들 다항식의 임의의 함수를 계산(예컨대, 푸리에 변환과 같은 적분 변환)할 수 있다.
도 1 및 도 2를 참조하면, θ'=0을 선택함으로써 레이어 간의 출력 연결 가중치를 결정하기 위해 이러한 방법을 적용한다. 이 예에서, 식 4는 회귀 연결 가중치를 결정하는 데 사용되며, 그리고 식 5는 입력 연결 가중치를 결정하는 데 사용된다. 이 예시적인 실시형태에서, 저역통과 필터는 각 레이어에서 동적 시스템에 의해 요구되는 적분을 구현하기 위해 이용되고, θ'=0의 선택은 각 저역통과 필터에 의해 수행된 시간적 컨볼루션을 효과적으로 무효화한다. 결과적으로, 이러한 LMU 가중치에 의해, 시스템은 도 2에 나타낸 것처럼 가장 깊은 레이어를 통해 그의 입력 신호를 즉시 전파한다. 이 가중치 선택이 없으면, 신호는, 도 1에 나타낸 바와 같이, 각 레이어에서 점진적으로 더 저역통과 필터링 된다.
신경망 훈련
신경망의 파라미터는 임의의 이용 가능한 방법, 예를 들어 시간을 통한 역전파(backpropagation)(BPTT; P.J. Werbos, Backpropagation through time: What it does and how to do it. Proceedings of the IEEE, vol. 78, no. 10, pp. 1550-1560, Oct. 1990 참조)를 사용하여 훈련될 수 있다.
훈련 동안, 식 1 또는 2 또는 르장드르 다항식을 평가함으로써 생성된 가중치 파라미터 중 하나 이상이 고정되게 유지될 수 있다. 대안적으로, 식 1 또는 2 또는 르장드르 다항식을 평가함으로써 생성된 가중치 중 하나 이상이 훈련될 수 있다. 두 경우 모두, BPTT를 사용할 때, 연결 가중치를 구현하는 적화연산 처리(multiply-accumulate operations)를 통해 오류가 역전파될 수 있다.
마찬가지로, 식 1 또는 2의 파라미터(예컨대, θ 또는 Δt, 또는 θ 또는 Δt를 결정하는 신경망의 파라미터)도, 예를 들어 식 1 또는 2의 그라디언트를 통해 오류를 역전파함으로써 훈련될 수 있다(T.Q. Chen, Y. Rubanova,J. Bettencourt, and D.K. Duvenaud, Neural Ordinary Differential Equations. In Advances in Neural Information Processing Systems, pp. 6571-6583, Dec. 2018을 또한 참조).
스파이킹 비선형성으로 구성된 노드를 갖는 아키텍처를 훈련하기 위해, 스파이킹 신경망을 훈련하는 임의의 이용 가능한 방법을 사용할 수 있다(E. Hunsberger, C. Eliasmith, Spiking deep network with LIF neurons, arXiv:1510.08829, Oct. 2015 참조).
소프트웨어 아키텍처
전술한 연결 가중치를 갖는 신경망은 소프트웨어로 구현될 수 있다. 식 1 또는 식 2 또는 르장드르 다항식을 평가함으로써 결정된 하나 이상의 연결 가중치를 갖는 레이어는 LMU 셀을 생성하기 위한 프로그램 코드를 사용하여 구현될 수 있다. 이들 레이어는 다른 신경망 아키텍처와 회귀적으로 커플링될 수 있다. 이들 레이어는 각 레이어를 다음 레이어에 연결하도록 연결 가중치 또는 다른 신경망을 사용함으로써 적층될 수도 있다.
프로그램 코드는 여기에 설명된 기능을 수행하고 출력 정보를 생성하기 위해 입력 데이터에 적용된다. 출력 정보는 알려진 방식으로 하나 이상의 출력 디바이스에 적용된다.
각 프로그램은, 컴퓨터 시스템과 통신하도록, 하이 레벨의 절차적 또는 객체-지향 프로그래밍 또는 스크립팅 언어 또는 양쪽 모두로 구현될 수 있다. 혹은, 원하는 경우 프로그램은 어셈블리 또는 기계어로 구현될 수 있다. 언어는 컴파일되거나 해석된 언어일 수 있다. 각각의 그러한 컴퓨터 프로그램은, 범용 또는 특수 목적의 프로그래머블 컴퓨터에 의해 판독가능한 저장 매체 또는 디바이스(예컨대, 읽기-전용 메모리(ROM), 자기 디스크, 광 디스크)에 저장될 수 있으며, 상기 저장 매체 또는 디바이스가 컴퓨터에 의해 읽혀질 때 컴퓨터를 컨피겨링하고 운용하여 본 명세서에 설명된 절차를 수행한다. 시스템의 실시형태는 컴퓨터 프로그램으로 구성된 비일시적 컴퓨터 판독가능 저장 매체로서 구현되는 것으로도 고려될 수 있으며, 여기서 그렇게 구성된 저장 매체는 컴퓨터가 특정하고 그리고 미리 정의된 방식으로 작동하여 본 명세서에 설명된 기능을 수행하도록 한다.
나아가, 설명된 실시형태의 시스템 및 방법은, 하나 이상의 프로세서에 대한 컴퓨터 사용가능 명령어를 갖는 물리적, 비일시적 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품으로 배포될 수 있다. 매체는 하나 이상의 디스켓, 콤팩트 디스크, 테이프, 칩, 자기 및 전자적 저장 매체 등을 포함하는 다양한 형태로 제공될 수 있다. 비일시적 컴퓨터 판독가능 매체는 일시적인 전파 신호를 제외하고 모든 컴퓨터 판독가능 매체를 포함한다. 비일시적이라는 용어는, 저장되는 데이터가 일시적으로만 저장되는 휘발성 메모리 또는 RAM(Random Access Memory)과 같은 컴퓨터 판독가능 매체를 배제하기 위한 것이 아니다. 컴퓨터 사용가능 명령어는 또한 컴파일된 코드 및 컴파일되지 않은 코드를 포함하는 다양한 형태일 수 있다.
도 5는 입력 레이어(508), 하나 이상의 중간 레이어(512) 및 출력 레이어(516)를 갖는, 하드웨어 또는 소프트웨어로 구현될 수 있는 신경망(500)의 개략도를 나타낸다. 입력 레이어는 복수의 노드(508, 530, 536)를 갖는다. 중간 레이어는 당해 중간 레이어에서 루프하는 회귀 노드(532)를 가지며, 입력 가중치(518) 및 출력 가중치(520)는 레이어 각각의 노드를 커플링한다. 회귀 가중치는 중간 레이어의 노드 내에서 피드백 루프를 제공한다. 출력 레이어는 노드(534)를 갖는다. 입력 레이어에 대한 입력은, 예를 들어, 외부 입력(502) 또는 ("528"에서 유도된) 이전 출력(504)으로부터의 입력으로서 나타내졌다.
하드웨어 아키텍처
전술한 연결 가중치를 갖는 신경망은 뉴로모픽(neuromorphic), 디지털, 또는 아날로그 하드웨어 및/또는 그들의 하이브리드를 포함하는 하드웨어로 구현될 수 있다. 보다 구체적으로, 이 아키텍처는 ASIC(application-specific integrated circuit), FPGA(field-programmable gate array), GPU(graphics processing unit)에서 구현되거나, 트랜지스터 및/또는 기타 병렬 컴퓨팅 시스템을 포함하지만 이에 한정되지 않는 다른 물리적 프리미티브(primitives) 및 아날로그 구성요소의 구성을 사용하여 구현될 수 있다.
도 3을 참조하면, 연결 가중치가 연속-시간의 경우에 q=6인 모듈(300)에 의해 식 1 및 식 2를 평가함으로써 결정되는 본 발명에 따른 신경망을 구현하는 예시적인 회로(300)를 도시한다. 큰 원은 x의 각 차원에 대응한다. 작은 원은 그들의 입력을 더하거나(화살표 머리) 빼는(원형 머리) 요소를 나타낸다. i'번째 차원은 (2i+1)/θ만큼 그의 입력(삼각형 머리)을 시간적으로 적분하고 스케일링 한다.
이 설계는 부호의 교대를 이용하고, 피드백 루프에 의해 결합된 두 개의 개별 계단식 합계의 체인으로 분해함으로써 A의 상단 및 하단 삼각형 내에서 중간 계산을 재사용한다. 이러한 동일한 계산은 적절한 중간 노드에 u를 제공함으로써 B의 연결 가중치를 구현하는 데에도 재사용된다.
시스템의 차원을 1만큼 증가시키는 것은 기존 회로에 O(1) 와이어(wires), 가산기(adders) 및 상태 변수(state-variables)를 추가하는 것을 필요로 한다. 전체적으로 이 회로는 O(q) 와이어, 가산기 및 상태 변수가 필요하므로, 회로를 공간 및 시간 양쪽 모두에서 선형으로 확장가능하게 한다.
시뮬레이션 결과
동등한 리소스 사용량을 가진 적층형 LMU와 비교하여 적층형 LSTM의 메모리 용량을 평가하도록 설계된 일련의 실험을 고려한다. 이를 위해, 적층형 LSTM의 기성(off-the-shelf) 케라스(Keras) 구현을 사용하고, 각각 50개의 셀을 갖는 3개의 레이어를 구성한다. 각 레이어는 다음 레이어에 완전히 연결되며, 모든 디폴트 설정(예컨대, tanh 활성화)을 사용한다. 최종 레이어는 마찬가지로 각 출력에 대한 tanh 활성화 유닛으로 구성된다. 연속-시간 메모리 용량을 평가하기 위해, 입력 데이터는 0에서 시작하여 30Hz로 대역제한되고 절대 범위 [-1,1]로 정규화된 백색 노이즈이다. 출력 데이터는 0-0.2초 사이의 지연된 입력의 균일한 배열을 나타내는 50차원 벡터이다. 데이터 세트는 각각 1초 길이의 256개 샘플로 구성된다. 이 데이터는 50% 훈련과 50% 테스트로 무작위로 분할된다. 훈련 데이터는 훈련 중에 검증 정확도를 보고하는 데 사용되는 별도의 무작위 25% 샘플로 더 분할된다. 시간을 통한 역전파는 MSE(mean-squared error) 손실 함수와 관련하여 Adam 옵티마이저를 사용하여 수행된다. 훈련은 4개의 Nvidia Titan Xp GPU(각각 12GB)에 걸쳐 케라스(Keras) 및 텐서플로(TensorFlow)를 사용하여 병렬화된다.
2ms의 시간 스텝에 대해서, 역전파가 이 작업을 해결하기 위한 적절한 파라미터를 찾을 수 있음을 발견하였으며 - 즉, LSTM은 실제로 약 10%의 정규화된 평균 제곱근 오차(NRMSE)로 θ=100 시간-스텝으로 구성된 전체 지연 간격을 정확하게 나타낼 수 있다. 그러나, 시간-단계를 200μs로 자릿수를 감소시킨 후 - 데이터의 길이를 동일한 팩터만큼 증가시켜 데이터가 여전히 정확히 동일한 1초 신호를 나타내면서 - 성능이 저하된다; 정확도는 θ=1,000 시간-스텝 윈도우에 걸쳐서 지연 길이의 함수로서 기하급수적으로(exponentially) 감소한다. 최악의 경우, LSTM은 NRMSE가 약 100%로, 랜덤 챈스보다 못하다. 따라서, 역사적으로 가장 성공적인 RNN 아키텍처라 할지라도 증가적으로 긴 시간의 윈도우를 분명히 표현할 수 없으며, 이는 더 유능한 RNN 아키텍처에 대한 필요성을 유발한다.
그런 다음, 정확히 동일한 훈련 코드와 네트워크 사양을 취했지만 - 각 LSTM 셀을 LMU 셀의 레이어로 교체했으며, 여기서 (시스템을 이산화하기 위해 오일러 방법을 사용하는 것과 동등하게) 연속-시간 경우에 대한 (A,B) 행렬이 사용되었다. 이러한 행렬은 (컨볼루션 신경망에서의 가중치-공유와 유사하게) 동일한 레이어 내의 각 셀에 걸쳐서 공유된다. 마지막으로 동일한 레이어에 걸쳐 모든 상태 변수로부터 입력을 수신하는 복수의 tanh 비선형성(각 셀에 대해 하나씩)이 포함되고, 따라서 스케일링된 르장드르 베이스의 혼합에 걸쳐 비선형 계산을 지원한다. q의 작은 값(예컨대, 9)에 대해, 이 네트워크는 전술한 LSTM에 비할만한 리소스 요구사항을 갖는다.
각 LMU 셀은 1차원 입력을 받는다. 훈련 가능한 파라미터는 레이어 간 가중치와 각 셀 내의 지연 길이 θ이다. 이 실험에서는 공유((A,B) 가중치에 대한 훈련을 불능(disable)으로 한다. LMU에는 3회 적층된 50개의 셀이 포함되어 있으므로 전체 아키텍처는 LSTM과 일치한다. 이 시점에서 tanh가 이미 적용되었기 때문에, 최종 출력 레이어는 선형 활성화 유닛으로 구성된다. 마지막으로, q=9로 설정하고, 제1 레이어에 대해 각 셀의 인코딩 가중치를 1로 초기화하고 모든 후속 레이어에 대해 1/50(즉, 팬-인(fan-in)의 역(reciprocal))로 초기화하고, U[100,1000]에 걸쳐 θ 값을 균일하게 배분하고, r=1에서 르장드르 다항식을 평가함으로써 각 tanh에 투영하는 가중치를 설정하고, 셀 외부로부터의 다른 모든 상태 변수에 대해 가중치를 0으로 한다. 환언하면, 각 셀은 tanh(u[t-θ])에 근사하도록 초기화되며, 여기서 u[·]는 셀의 평균 입력이다. 그런 다음 역전파는 θ 값을 훈련하고 레이어 간에 입력 및 출력의 가중치가 부여된 비선형 조합을 혼합하도록 학습한다.
정확히 동일한 훈련, 검증 및 테스트 데이터에 대해 정확히 동일한 코드와 분석을 행하면, 두 접근법 간의 훈련 시간에 있어 극적인 차이가 있음을 알 수 있다. 적층형 LMU는 훈련을 위한 에포크(epoch) 당 52.5초가 걸리는 반면 적층형 LSTM은 에포크 당 102.6초가 걸렸다. 또한 LMU는, 모든 정확도 측정에서 LSTM을 능가한다. 특히, 훈련과 검증 양쪽 모두에 걸쳐서 MSE가 세자릿수 감소하면서 이상적인 솔루션으로 훨씬 빠르게 수렴된다. LMU 아키텍처는 지연 간격에 걸쳐 일관된 3-4% 오류를 달성하는 반면, 대등한 사이즈의 LSTM 셀 아키텍처는 윈도우의 끝을 향해 100% 오류율에 접근한다. 이는 적층형 LSTM이 긴 시간 간격에 걸쳐 (시간-스텝에 비해) 저주파 신호를 기억하는 데 어려움을 겪고 있음을 보여준다. 대조적으로, 이 작업은, 그의 상태가 입력 이력의 q차 르장드르 확장을 나타내기 때문에, 적층형 LMU에 대해 자연스럽다.
역전파는 적층형 LMU가 네트워크의 초기 구성에 의해 쉽게 지원되지 않는 작업에서도 적층형 LSTM보다 성능이 뛰어나도록 한다. 연속-시간 예측 작업에서 각 네트워크의 성능을 평가하기 위해, MG(Mackey-Glass)라는 합성 데이터 세트를 고려한다: 이는 비선형 지연-미분 방정식으로 설명되는 혼돈 시계열이다. MG 데이터는 τ=17의 이산 시간-지연을 사용하여 생성된다(각 시간-스텝은 시간의 1 유닛). 원하는 출력은 미리 15개 시간-스텝의 미리보기(예측)이다(도 6.15 참조). 처음 100 스텝 과도 현상을 제거한 후 5,000 시간-스텝에 대해 이를 시뮬레이션한다. 이를 128회 반복하며, 매번 초기 랜덤 조건에서 시작한다. 이어서, 전체 데이터세트는 제로의 전역 평균을 갖도록 중심 맞춤된다. 다음으로, 데이터세트는 32개의 훈련 예, 32개의 검증 예, 및 64개의 테스트 예로 무작위로 분할된다.
이전 실험과 동일하지만 각 100개의 셀의 4개의 레이어를 갖는 네트워크를 사용한다. LMU 셀에 대해, (동일한 레이어 내의 셀에 걸쳐 공유되는 A,B 행렬을 포함하여) 모든 파라미터를 훈련 가능하게 만든다. q=6으로 설정하고 이 데이터세트의 더 짧은 시간-스케일을 설명하기 위해 θ∈U[25,50]을 초기화한다. 스탠다드 케라스(Keras) 가중치 초기화기를 사용하여 나머지 가중치를 초기화한다. 세 가지 방법 모두는 Adam 최적화기를 사용하여 500 에포크에 걸쳐 훈련된다. 이 경우, 오버피팅(overfitting)을 최소화하기 위해, 가장 높은 검증 점수를 갖는 에포크의 모델만을 유지한다.
테스트 수행 및 훈련 시간은 다음과 같이 요약된다. LSTM은 훈련 에포크 당 50.0초가 소요되는 동안 282,101개의 파라미터를 사용하여 7.084% 오류를 달성한다. LMU는 훈련 에포크 당 30.5초가 소요되는 동안 270,769개의 파라미터를 사용하여 6.783% 오류를 달성한다. 따라서 LMU는 정확도와 훈련 시간 면에서 LSTM을 능가한다. 이는 LMU가 그의 6차원 상태 내에서 지연-임베딩을 더 쉽게 지원하기 때문이라고 가정한다. 또한 LMU는, 더 긴 연속 시간-간격에 걸쳐 더 낮은 주파수와 관련하여 시간이 지남에 따라 향상된 스케일링을 제공한다.
예시적 애플리케이션
이러한 방법은 하드웨어 및 소프트웨어에서 패턴 분류, 데이터 표현, 또는 신호 처리를 위해 신경망을 사용하는 시스템을 생성하는 데 사용될 수 있다.
예를 들어, 자동 음성 인식(ASR)은 (오디오 입력 파형으로서의) 음성을 처리하고 (모델 출력으로서의) 텍스트를 생성하는 컴퓨터 음성 인식을 위한 시스템이다. 입력은 오디오 피쳐(예컨대, Mel-frequency cepstral coefficients, FilterBANK coefficients, 및 feature space Maximum Likelihood Linear Regression coefficients; M. Ravanelli, T. Parcollet and Y. Bengio, The pytorch-kaldi speech recognition toolkit. International Conference on Acoustics, Speech and Signal Processing, IEEE, pp. 6465-6469, May, 2019 참조)로 사전 처리되고 LMU 셀 방정식을 사용하여 결정된 연결 가중치를 갖는 레이어로 구성된 신경망에 제공될 수 있으며, 신경망의 출력 노드는 사용 가능한 텍스트 생성 방법(예컨대, 컨텍스트 빔 검색(contextual beam search))을 사용하여 후처리 된다. 따라서 이 시스템은 ASR 시스템을 구축하기 위한 신경망으로서 훈련될 수 있다.
다른 예를 제공하기 위해, 데이터세트에서 아웃라이어(outlier) 또는 "변칙(anomaly)"의 식별인 변칙 검출의 적용을 고려한다. 이 데이터는 LMU 셀 방정식을 사용하여 결정된 연결 가중치를 가진 레이어로 이루어진 신경망에 한 번에 하나의 입력 벡터를 순차적으로 제공할 수 있으며, 신경망의 출력 노드는 입력을 통상적인 것 또는 비정상적인 것으로서 분류한다. 따라서 이 시스템은 변칙 검출기를 구축하기 위해 (예컨대, 비감독, 반-감독 또는 완전 감독 학습 규칙을 이용하는) 이용 가능한 방법을 이용하여 훈련될 수 있다.
Claims (14)
- 르장드르 메모리 유닛(LMU) 셀을 갖는 회귀 신경망을 생성하는 방법으로서, 상기 방법은:
상기 회귀 신경망의, 노드 입력 및 노드 출력을 갖는 각 노드에 대한 노드 응답 함수를 정의하는 단계 - 상기 노드 응답 함수는 시간 경과에 따른 상태를 나타내며, 상기 상태는 이진(binary) 이벤트 또는 실수 값 중 하나로 인코딩 됨 - ;
각 노드 입력을 갖는 연결 가중치(weights)의 세트를 정의하는 단계;
각 노드 출력을 갖는 연결 가중치의 세트를 정의하는 단계;
이하의 공식에 기초하여 노드 연결 가중치를 결정하는 행렬로서 정의되는 회귀 연결의 세트를 갖는 하나 이상의 LMU 셀을 정의하는 단계를 포함하고,
여기서
여기서 q는 사용자에 의해 결정되는 정수이고, i와 j는 제로(zoero)보다 크거나 제로와 같은, 방법. - 제3항에 있어서,
상기 미리 결정된 파라미터는 사용자에 의해 선택되거나 상기 신경망의 노드의 상기 출력을 이용하여 결정되는 것인, 방법. - 제5항에 있어서,
상기 미리 결정된 파라미터 각각은 사용자에 의해 선택되거나 상기 신경망의 노드의 상기 출력을 이용하여 결정되는 것인, 방법. - 제1항에 있어서,
노드 출력들로부터의 하나 이상의 연결 가중치는 르장드르 다항식을 평가함으로써 결정되는, 방법. - 제1항에 있어서,
상기 LMU 셀은 적층되고, 각각의 LMU 셀은 연결 가중치 행렬 또는 다른 신경망을 이용하여 다음 LMU 셀에 연결되는, 방법. - 제1항에 있어서,
하나 이상의 LMU 셀은 LSTM 셀, GRU 셀, NRU 셀, 다른 LMU 셀, 멀티-레이어 퍼셉트론(perceptron), 시그모이드(sigmoidal) 레이어, 및 다른 선형 또는 비선형 레이어로부터 선택되는 다른 망(network) 아키텍처의 입력 또는 출력에 대한 연결을 포함하는, 방법. - 제1항에 있어서,
상기 망은 복수의 그의 파라미터를 업데이트함으로써 신경망으로서 훈련되는, 방법. - 제1항에 있어서,
상기 망은 나머지 파라미터를 업데이트하는 동안 하나 이상의 파라미터를 고정함으로써 신경망으로서 훈련되는, 방법. - 신경망에서 패턴 분류, 데이터 표현 또는 신호 처리를 위한 시스템으로서, 상기 시스템은:
하나 이상의 차원의 벡터를 제공하는 하나 이상의 입력 레이어 - 각 차원은 외부 입력에 의해 또는 상기 망으로부터의 이전 출력을 사용함으로써 상기 망에 제공됨 - ;
가중치 행렬을 통해, 입력 레이어, 다른 중간 레이어 또는 출력 레이어 중 적어도 하나에 커플링된 하나 이상의 중간 레이어;
시간 내에(in time) 또는 시간에 걸쳐 연속적으로 상기 입력 레이어에 제공된 데이터의 벡터 표현을 생성하거나 또는 하나 이상의 개별 포인트에서 해당 데이터의 함수를 계산하는 하나 이상의 출력 레이어
를 포함하고,
상기 시스템은 제1항의 방법을 사용하여 회귀 신경망을 생성하는, 시스템. - 제1항의 방법을 사용하여 노드 연결 가중치를 결정하는 하나 이상의 회귀 연결을 갖는 하드웨어로 구현되는, 회로.
- 제13항에 있어서,
노드 출력들로부터의 하나 이상의 연결 가중치는 상기 르장드르 다항식을 평가함으로써 결정되는, 회로.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962814767P | 2019-03-06 | 2019-03-06 | |
US62/814,767 | 2019-03-06 | ||
US201962844090P | 2019-05-06 | 2019-05-06 | |
US62/844,090 | 2019-05-06 | ||
PCT/CA2020/050303 WO2020176994A1 (en) | 2019-03-06 | 2020-03-06 | Legendre memory units in recurrent neural networks |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210117331A true KR20210117331A (ko) | 2021-09-28 |
KR102680978B1 KR102680978B1 (ko) | 2024-07-02 |
Family
ID=72337362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217026985A KR102680978B1 (ko) | 2019-03-06 | 2020-03-06 | 회귀 신경망의 르장드르 메모리 유닛 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11238345B2 (ko) |
EP (1) | EP3935568A4 (ko) |
JP (1) | JP7284825B2 (ko) |
KR (1) | KR102680978B1 (ko) |
CN (1) | CN113454648A (ko) |
CA (1) | CA3098085C (ko) |
WO (1) | WO2020176994A1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033538B (zh) * | 2021-03-25 | 2024-05-10 | 北京搜狗科技发展有限公司 | 一种公式识别方法及装置 |
CN114239418B (zh) * | 2021-12-24 | 2024-09-24 | 贵州大学 | 基于多种算法组合的滑坡位移预测方法 |
GB202412657D0 (en) * | 2022-02-24 | 2024-10-16 | Applied Brain Res Inc | Methods and systems for processing temporal data with linear artifical neural network layers |
CN116502774B (zh) * | 2023-06-26 | 2023-09-12 | 南京信息工程大学 | 一种基于时间序列分解和勒让德投影的时间序列预测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010036423A (ko) * | 1999-10-08 | 2001-05-07 | 손재익 | 일반 회귀 신경망을 이용한 고장 검출 방법 및 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2739804B2 (ja) * | 1993-05-14 | 1998-04-15 | 日本電気株式会社 | 双極子推定装置 |
JP2008287626A (ja) * | 2007-05-21 | 2008-11-27 | Sony Corp | 学習制御装置および方法、並びにプログラム |
US11126913B2 (en) * | 2015-07-23 | 2021-09-21 | Applied Brain Research Inc | Methods and systems for implementing deep spiking neural networks |
US11403479B2 (en) * | 2017-12-19 | 2022-08-02 | Intel Corporation | Feedback signaling to facilitate data classification functionality of a spiking neural network |
WO2019190340A1 (en) * | 2018-03-28 | 2019-10-03 | Intel Corporation | Channel pruning of a convolutional network based on gradient descent optimization |
-
2020
- 2020-03-06 CN CN202080014863.8A patent/CN113454648A/zh active Pending
- 2020-03-06 CA CA3098085A patent/CA3098085C/en active Active
- 2020-03-06 US US17/049,943 patent/US11238345B2/en active Active
- 2020-03-06 EP EP20767153.8A patent/EP3935568A4/en active Pending
- 2020-03-06 WO PCT/CA2020/050303 patent/WO2020176994A1/en active Application Filing
- 2020-03-06 KR KR1020217026985A patent/KR102680978B1/ko active IP Right Grant
- 2020-03-06 JP JP2021551888A patent/JP7284825B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010036423A (ko) * | 1999-10-08 | 2001-05-07 | 손재익 | 일반 회귀 신경망을 이용한 고장 검출 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
EP3935568A1 (en) | 2022-01-12 |
KR102680978B1 (ko) | 2024-07-02 |
CA3098085A1 (en) | 2020-10-09 |
US20210089912A1 (en) | 2021-03-25 |
WO2020176994A1 (en) | 2020-09-10 |
CN113454648A (zh) | 2021-09-28 |
US11238345B2 (en) | 2022-02-01 |
JP7284825B2 (ja) | 2023-05-31 |
CA3098085C (en) | 2021-07-06 |
EP3935568A4 (en) | 2023-01-25 |
JP2022522807A (ja) | 2022-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102680978B1 (ko) | 회귀 신경망의 르장드르 메모리 유닛 | |
Han et al. | Artificial neural network: understanding the basic concepts without mathematics | |
US10032498B2 (en) | Memory cell unit and recurrent neural network including multiple memory cell units | |
US20200272905A1 (en) | Artificial neural network compression via iterative hybrid reinforcement learning approach | |
Wedge et al. | On global–local artificial neural networks for function approximation | |
KR101700140B1 (ko) | 스파이킹 뉴럴 연산을 위한 방법들 및 장치 | |
Suliman et al. | A review on back-propagation neural networks in the application of remote sensing image classification | |
US9111225B2 (en) | Methods and apparatus for spiking neural computation | |
US20220383126A1 (en) | Low-Rank Adaptation of Neural Network Models | |
US20130204814A1 (en) | Methods and apparatus for spiking neural computation | |
JP2019502970A (ja) | 抵抗型処理ユニット | |
Lotfi et al. | A novel single neuron perceptron with universal approximation and XOR computation properties | |
Patel et al. | Liquid state machine on loihi: Memory metric for performance prediction | |
Vavra et al. | Optimization of the novelty detection model based on LSTM autoencoder for ICS environment | |
Discacciati | Controlling oscillations in high-order schemes using neural networks | |
Bashtova et al. | Application of the topological gradient to parsimonious neural networks | |
Huang et al. | Multiple Timescale and Gated Mechanisms for Action and Language Learning in Robotics | |
Sánchez Espunyes | Implementation of a multi-layer neural network | |
Desai et al. | A deep dive into deep learning | |
Youse'zadeh et al. | Neural Networks Modeling of Discrete Time Chaotic Maps | |
Bogdan | Learning and planning for autonomous systems with emergent hierarchical representations and decaying short-term memory | |
KR20240153348A (ko) | 선형 인공 신경망 계층을 사용하여 시간 데이터를 처리하기 위한 방법 및 시스템 | |
Boonto | Lecture 6: Artificial Neural Networks | |
Rizk et al. | Applied Computing and Informatics | |
Rohwer | Description and training of neural network dynamics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |