KR20180096779A

KR20180096779A - 압축된 순환 신경망 모델들

Info

Publication number: KR20180096779A
Application number: KR1020187021542A
Authority: KR
Inventors: 테라 엔. 세이나스; 비카스 신드화니
Original assignee: 구글 엘엘씨
Priority date: 2016-03-01
Filing date: 2016-12-07
Publication date: 2018-08-29
Also published as: EP3398115B1; US10515307B2; US20200134470A1; JP2019512760A; CN107145940B; US20170076196A1; WO2017151203A1; JP6666457B2; KR102177232B1; EP3955168B1; CN107145940A; US11741366B2; DE102016125838A1; EP3955168A1; DE202016008302U1; EP3398115A1

Abstract

압축 게이팅 함수들을 갖는 LSTM(long short-term memory) 계층을 구현하기 위한, 컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치들이 개시된다. 상기 시스템들 중 하나는 복수의 타임 스탭들 각각에 대해, 게이트 입력 벡터와 게이트 파라미터 행렬을 곱함으로써 각각의 중간 게이트 출력 벡터를 생성하도록 구성된 게이트들을 갖는 제1 LSTM 계층을 포함한다. 상기 게이트들 중 적어도 하나에 대한 게이트 파라미터 행렬은 구조 행렬이거나 압축 파라미터 행렬 및 투영 행렬에 의해 정의된다. 순환 신경망에 압축된 LSTM 계층을 포함시킴으로써, 순환 신경망은 보다 효율적으로 데이터를 프로세싱하고, 더 적은 데이터 저장소를 사용할 수 있도록 구성된다. 압축된 LSTM 계층을 갖는 순환 신경망은 전체 사이즈, 예를 들어 비압축 순환 신경망과 유사한 워드 에러율을 달성하도록 효과적으로 훈련될 수 있다.

Description

압축된 순환 신경망 모델들

본 명세서는 신경망 아키텍처들 및 압축 신경망들에 관한 것이다.

신경망들은 수신된 입력에 대한 출력을 예측하도록 하나 이상의 비선형 유닛 계층을 사용하는 기계 학습 모델들이다. 일부 신경망들은 출력층 외에도 하나 이상의 은닉층을 포함한다. 각 은닉층의 출력은 네트워크의 다음 계층에 대한 입력, 즉 다음 은닉층 또는 출력층으로 사용된다. 네트워크의 각 계층은 각각의 파라미터 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다. 일부 신경망들, 예를 들어, 시계열 문제 또는 시퀀스 간 학습(순환 신경망(RNN)들)을 위해 설계된 신경망들은 은닉 상태 변수의 형태로 메모리가 데이터 입력들 사이의 계층 내에서 지속되도록 하는 순환 루프들을 포함한다. RNN들의 변형인 LSTM(long short-term memory) 신경망들은 데이터 입력들 사이의 데이터 지속성을 제어하도록 각 계층 내에 다중 게이트들을 포함한다. 일부 신경망들, 예를 들어, 시계열 문제 또는 시퀀스간 학습을 위해 설계된 신경망들은 은닉된 상태 변수의 형태로 메모리가 데이터 입력들 사이의 계층 내에서 지속될 수 있게 하는 순환 루프들을 포함한다.

본 명세서는 순환 신경망 아키텍처들과 관련된 기술을 설명한다. 일반적으로, 순환 신경망은 적어도 하나의 압축된 LSTM(Long Short-Term Memory) 계층을 포함한다. LSTM 계층은 압축된 파라미터 행렬(matrices)을 갖는 적어도 하나의 게이트를 갖는다. 상기 LSTM 계층은 LSTM 계층의 게이트 파라미터 행렬들 중 하나 이상을 퇴플리츠 행렬(Toeplitz-like structured matrix)로 대체하거나 압축된 파라미터 행렬 및 투영 행렬로 상기 게이트 파라미터 행렬을 재정의함으로써 압축될 수 있다. 선택적으로, 하나의 LSTM 계층은 LSTM 계층의 게이트 파라미터 행렬들 중 하나를 퇴플리츠 행렬로 대체함으로써 압축될 수 있고, 그리고 다른 LSTM 계층은 압축된 파라미터 행렬 및 투영 행렬로 상기 게이트 파라미터 행렬을 재정의하여 그 다른 LSTM 계층에서의 상기 게이트 파라미터 행렬들 중 하나를 교체함으로써 압축될 수 있다.

특정 오퍼레이션들이나 액션들을 수행하도록 구성된 하나 이상의 컴퓨터의 시스템은 그 시스템으로 하여금 상기 오퍼레이션들 및 액션들을 수행하도록 하는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합이 설치된 시스템을 의미한다. 특정 오퍼레이션들 또는 액션들을 수행하도록 구성되는 하나 이상의 컴퓨터 프로그램은 데이터 처리 장치에 의해 실행될 때 그 장치로 하여금 오퍼레이션들 또는 액션들을 수행하게 하는 명령어들을 포함하는 하나 이상의 컴퓨터 프로그램을 의미한다.

본 명세서에서 설명된 요지는 다음의 장점들 중 하나 이상을 실현하도록 특정 실시예들에서 구현될 수 있다. 순환 신경망의 성능은 압축된 LSTM 계층을 순환 신경망에 포함시킴으로써 향상될 수 있다. 특히, 압축된 LSTM 계층을 순환 신경망에 포함시킴으로써, 순환 신경망은 보다 효율적으로 데이터를 처리하고, 더 적은 데이터 저장소를 사용할 수 있도록 구성된다. 압축된 LSTM 계층을 갖는 순환 신경망은 전체 크기, 예를 들어 비압축 순환 신경망과 비교되는 단어 에러율을 달성하도록 효과적으로 훈련될 수 있다.

본 명세서의 요지의 하나 이상의 실시예들의 세부사항은 첨부된 도면들 및 이하의 설명에서 설명된다. 상기 요지의 다른 특징들, 양태들 및 장점들은 상세한 설명, 도면들 및 청구 범위로부터 명백해질 것이다.

도 1은 예시적인 신경망 시스템을 나타낸다.
도 2a 및 2b는 예시적인 구조 행렬(structured matrices)들을 나타낸다.
도 3은 현재 계층 입력을 처리하여 다음 계층 출력을 생성하는 예시적인 프로세스의 흐름도이다.
도 4는 게이트 출력 벡터를 생성하도록 게이트 입력 벡터에 게이트를 인가하는 예시적인 프로세스의 흐름도이다.
도 5는 포화 LSTM 계층(saturating LSTM layer)을 포함하는 순환 신경망을 훈련시키기 위한 예시적인 프로세스의 흐름도이다.
다양한 도면들에서 유사한 참조 번호 및 명칭은 동일한 구성요소를 나타낸다.

도 1은 예시적인 신경망 시스템(100)을 도시한다. 상기 신경망 시스템(100)은 하나 이상의 위치에서 하나 이상의 컴퓨터상의 컴퓨터 프로그램들로서 구현되는 시스템의 예로서, 이하에서 설명되는 시스템들, 컴포넌트들 및 기술들이 구현된다.

신경망 시스템(100)은 다수의 타임 스텝들 각각에서 각각의 신경망 입력을 수신하고, 다수의 타임 스텝들 각각에서 각각의 신경망 출력을 생성하는 기계 학습 시스템이다. 즉, 다수의 타임 스텝들 각각에서, 신경망 시스템(100)은 신경망 입력을 수신하고, 그 신경망 입력을 처리하여 신경망 출력을 생성한다. 예를 들어, 소정의 타임 스텝에서, 신경망 시스템(100)은 신경망 입력(102)을 수신하여 신경망 출력(132)을 생성할 수 있다. 신경망 시스템(100)은 생성된 신경망 출력들을 출력 데이터 저장소에 저장하거나 일부 다른 즉시 사용 목적으로 신경망 출력들을 제공할 수 있다.

신경망 시스템(100)은 임의의 종류의 디지털 데이터 입력을 수신하고, 그 입력에 기초하여 임의의 종류의 스코어 또는 분류 출력을 생성하도록 구성될 수 있다. 예를 들어, 신경망 시스템(100)에 대한 입력들이 이미지들로부터 추출된 이미지들 또는 특징들이면, 소정의 이미지에 대해 신경망 시스템(100)에 의해 생성된 출력은 객체 카테고리들의 세트 각각에 대한 스코어일 수 있고, 각각의 스코어는 그 이미지가 그 카테고리에 속하는 객체의 이미지를 포함하는 추정 우도(estimated likelihood)를 나타낸다.

또 다른 예로서, 신경망 시스템(100)에 대한 입력들이 인터넷 자원들(예를 들어, 웹 페이지들), 문서들, 또는 인터넷 자원들, 문서들, 문서의 부분으로부터 추출된 특징들 또는 문서들의 부분인 경우, 소정의 인터넷 자원, 문서 또는 문서의 부분에 대해 신경망 시스템(100)에 의해 생성된 출력은 토픽들의 세트 각각에 대한 스코어일 수 있으며, 각 스코어는 인터넷 자원, 문서 또는 문서 부분이 그 토픽에 관한 것으로 추정되는 우도를 나타낸다.

또 다른 예로서, 신경망 시스템(100)에 대한 입력들이 사용자에 대한 개인화 된 추천의 특징들, 예를 들어, 추천에 대한 컨텍스트를 특징화하는 특징들, 예컨대 사용자에 의해 취해진 이전의 액션들을 특징화하는 특징들인 경우, 신경망 시스템(100)에 의해 생성된 출력은 콘텐츠 아이템들의 세트 각각에 대한 스코어일 수 있고, 각 스코어는 사용자가 그 콘텐츠 아이템을 추천하는 것에 호의적으로 응답할 것으로 추정되는 우도를 나타낸다. 이 예들 중 일부에서, 신경망 시스템(100)은 사용자들에게 컨텐츠 추천을 제공하는 강화 학습 시스템의 일부이다.

또 다른 예로서, 신경망 시스템(100)에 대한 입력이 하나의 언어로 된 텍스트인 경우, 신경망 시스템(100)에 의해 생성된 출력은 다른 언어로 된 텍스트의 피스 세트(set of pieces) 각각에 대한 스코어일 수 있고, 각 스코어는 다른 언어의 텍스트의 피스가 그 다른 언어로의 입력 텍스트의 적절한 번역인 것으로 추정되는 우도를 나타낸다.

또 다른 예로서, 신경망 시스템(100)에 대한 입력이 발언의 특징이면, 신경망 시스템(100)에 의해 생성된 출력은 텍스트의 피스 세트의 각각에 대한 스코어일 수 있고, 각각의 스코어는 텍스트의 피스가 발화에 대한 정확한 전사(transcription)인 것으로 추정되는 우도를 나타낸다.

또 다른 예로서, 신경망 시스템(100)에 대한 입력이 이미지들이면, 신경망 시스템(100)에 의해 생성된 출력은 텍스트의 피스 세트 각각에 대한 스코어일 수 있고, 각각의 스코어는 텍스트의 피스가 입력 이미지 내에 존재하는 텍스트인 것으로 추정되는 우도를 나타낸다.

특히, 신경망 시스템(100)은 차례로 압축된 LSTM(Long Short-Term Memory) 계층(120)을 포함하는 순환 신경망(110)을 포함한다. 순환 신경망(110)은 타임 스텝들 각각에서 신경망 입력을 수신하고, 그 타임 스텝에서 신경망 출력을 생성하도록 신경망 입력을 처리하도록 구성된다.

순환 신경망(110)은 압축된 LSTM 계층(120) 이외에, 하나 이상의 다른 컴포넌트들, 예컨대 다른 압축된 LSTM 계층, 종래의 LSTM 계층, 다른 순환 신경망 계층들, 다른 비순환 신경망 계층들 등을 포함할 수있다.

예를 들어, 순환 신경망(100)은, 입력층과; 서로의 상부에 하나의 정렬된(순서화된) 스택으로 배열된 압축된 LSTM 계층(120)을 포함하는 다수의 LSTM 계층들과; 각 타임 스탭에서, 상기 스택 내의 최상위 LSTM 계층 및 선택적으로 상기 스택 내의 다른 LSTM 계층으로부터의 계층 출력을 수신하고, 상기 타임 스탭에서 신경망 출력(132)을 생성하도록 상기 계층 출력을 프로세싱하는 출력층을 포함하는 심층 LSTM 네트워크일 수 있다.

압축된 LSTM 계층(120)은 상기 타임 스탭들 각각에서 현재 계층 입력(122)을 수신하고, 그 현재 계층 입력(122), 현재 계층 상태 및 현재 계층 출력을 프로세싱하여 새로운 계층 출력(126)을 생성하고, 상기 현재 계층 상태를 업데이트하여 새로운 계층 상태(124)를 생성한다.

순환 신경망(110)의 구성(configuration)에 의존하여, 현재 계층 입력(122)은 신경망 입력(102) 또는 순환 신경망(110)의 다른 컴포넌트에 의해 생성된 출력일 수 있다.

또한, 제1 스텝 이후의 각 타입 스탭에 대해, 상기 현재 계층 상태는 이전 타입 스탭에서 생성된 새로운 계층 상태이며, 상기 현재 계층 출력은 이전 타임 스탭에서의 새로운 계층 출력이다. 제1 타임 스텝에서, 상기 현재 계층 상태는 미리 결정된 초기 계층 상태일 수 있고, 상기 현재 계층 출력은 미리 결정된 초기 계층 출력일 수 있다.

순환 신경망(110)의 구성에 따라, 새로운 계층 출력(126)은, 다른 유형의 신경망 컴포넌트, 예를 들어 출력층 또는 다른 유형의 신경망 계층에 대한 입력으로서, 순환 신경망(110) 내의 다른 LSTM 계층에 입력으로 제공될 수 있고, 또는 순환 신경망(110)의 신경망 출력(132)으로서 제공될 수 있다.

특히, 압축된 LSTM 계층(120)은, 현재 계층 입력(122), 현재 계층 상태 및 현재 계층 출력에 다수 게이트들을 적용하고, 압축된 가중치 행렬을 포함하는 상기 게이트들 중 적어도 하나로 새로운 계층 출력(126)을 생성하고, 상기 현재 계층 상태를 업데이트하여 새로운 계층 상태(124)를 생성한다. 예를 들어, 상기 계층 스택의 적어도 하나의 계층은 계층 내의 하나 이상의 게이트 파라미터 행렬을 구조 행렬(structured matrices)("구조화된 행렬 압축")로 대체하거나 또는 압축 파라미터 행렬 및 투영 행렬("투영 압축")로 상기 게이트 파라미터 행렬들을 재정의함으로써 압축될 수 있다. 상기 게이트들은 예를 들어, 입력 게이트, 삭제 게이트(forget gate), 셀 상태 게이트 또는 출력 게이트를 포함할 수 있지만, 이에 한정되는 것은 아니다. 또한, 각 게이트는 인터-계층(inter-layer) 및 순환 파라미터 행렬들을 모두 포함할 수 있다.

구조 행렬은 mn 파라미터들 보다 적게 설명될 수 있는 m×n 행렬이다. 도 2a는 구조 행렬들의 예들을 나타낸다. 예를 들어, 구조 행렬들은 퇴플리츠 행렬들(Toeplitz matrices)(200), 방데르몽드 행렬들(Vandermonde matrices)(202) 및 코시 행렬들(Cauchy matrices)(204)와 같은 일반 클래스들을 포함한다. 특히, 퇴플리츠 행렬(200)는 파라미터들이 대각(diagonal)을 따라 묶인 행렬이다. 즉, 퇴플리츠 행렬들(200)은 그 대각들을 따라 각각 일정한 값을 갖는다. 반대각(anti-diagonals)에 대해 동일한 특성이 유지되면, 행렬들(200)은 행켈 행렬(Hankel matrices)라고 한다. 방데르몽드 행렬(202)는 제3열 내지 제 n 열의 행렬 엔트리들이 행렬의 제2열의 엔트리들의 멱승(elementwise powers)을 취함으로써 정의되는 행렬이다. 유사하게, 코시 행렬(204)는 두 벡터(U 및 V)에 의해 완전히 정의될 수 있는 것이다. 코시 행렬(204)의 각 요소(a_ij)는 (1/(u_i-v_j))에 의해 정의된다.

압축된 LSTM 계층들에서 게이트 행렬들을 나타내기 위해 이러한 구조 행렬들을 사용하면 LSTM 네트워크들의 메모리 요구량을 줄일 수 있는 데, 이는 mn 파라미터들보다 적은 수로 충분히 설명될 수 있기 때문이다. 또한, 구조 행렬들은 행렬-벡터 곱 및 그레디언트 계산을 더 빠르게 수행하게 하기 때문에 LSTM 네트워크들의 학습 및 프로세싱을 가속화할 수 있다.

상기 구조 행렬들의 일반적인 클래스들은 압축된 LSTM 계층(120)에서 사용하기 위한 구조화형 행렬(structured-like matrix)로 변형될 수 있다. 예를 들어, 퇴플리츠형 행렬들(Toeplitz-like matrices)은 퇴플리츠 행렬의 곱과 역행렬 및 선형 조합들을 포함하는 퇴플리츠 구조의 일반화이다. 퇴플리츠형 행렬들은 순환(r circulant)과 스큐 순환 행렬들(skew-circulant matrices)의 곱들에 대한 합으로 도 2b에 도시된 바와 같이 파라미터화될 수 있다.

다시 도 1을 참조하면, 편의상, 순환 신경망(110)의 압축된 LSTM 계층(120)에서의 구조 행렬들의 사용은 예로서 퇴플리츠형 행렬들을 사용하여 설명될 것이다. 퇴플리츠형 행렬들의 복잡성은 변위 랭크, 즉 도 2에 도시된 순환 및 스큐 순환 행렬들의 합과 같이 함께 합산되는 곱들의 수를 사용하여 제어될 수 있다. 낮은 변위 랭크(low displacement rank)는 순환과 퇴플리츠 행렬들 및 그 역행렬과 같은 고차원의 구조 행렬들에 해당한다. 높은 변위 랭크 행렬들은 비구조 행렬들(increasingly unstructured matrices)을 모델링하는 데 사용될 수 있다. 일부 예에서, 상기 변위 랭크는 압축 스키마에 대한 모델링 용량, 저장 요구량 및 계산 복잡도를 제어하는 데 사용될 수 있다. 일부 예에서, 상기 변위 랭크는 적용 요건들에 기초하여 조정될 수 있다.

일부 구현예들에서, 상기 퇴플리츠형 행렬 구조는 특정 압축된 LSTM 계층(120) 내의 모든 게이트들에 대한 순환 및 인터-계층 파라미터 행렬들에 적용된다. 일부 구현 예에서, 상기 퇴플리츠형 행렬 구조는 계층 스택(예를 들어, 계층 1 및 계층 2)의 하위 계층(들)에 적용된다.

순환 신경망 계층에 대한 투영 압축 모델에서, 압축된 LSTM 계층(120)은 특정 계층(예를 들어, 계층 l)으로부터의 사이즈 m×n의 비압축된 순환 파라미터 행렬을 투영 행렬 r×n 및 사이즈 m×r의 압축된 순환 파라미터 행렬로 대체함으로써 생성된다. 또한, 다음으로 높은 차수의 LSTM 계층(예를 들어, 계층 l+1)으로부터의 사이즈 m×n의 대응하는 인터-계층 파라미터 행렬은 상기 동일한 투영 행렬 및 사이즈 m×r의 압축된 인터-계층 행렬로 대체된다. 또한, 상기 투영 행렬 및 상기 압축된 순환 및 인터-계층 행렬들의 각 랭크들은 상기 대응하는 순환 및 인터-계층 파라미터 행렬들의 랭크보다 이하이다. 낮은 랭크의 투영 행렬은 2개의 대응하는 계층에서 공유된다. 상기 투영 압축 모델은 하나 이상의 다른 게이트에 적용될 수 있다. 일부 구현예들에서, 상기 투영 압축 모델은 계층 스택(예를 들어, 계층 2-N)의 상위 계층(들)에 적용된다.

일부 구현예들에서, 계층 또는 계층들의 세트는 구조 행렬들(또는 구조화형 행렬들)을 사용하여 압축될 수 있으며, 계층 또는 계층들의 세트는 투영 행렬을 사용하여 압축될 수 있다. 예를 들어, 순환 신경망(110)의 하위의 계층 또는 계층들의 세트(예를 들어, 계층 1 및 계층 2)는 게이트 파라미터 행렬들을 퇴플리츠형 행렬들로 대체함으로써 압축될 수 있고, 상위의 계층 또는 계층들의 세트(예를 들어, 계층 2-N)는 투영 행렬들을 사용하여 압축될 수 있다.

일부 구현예들에서, 상술한 압축 기술들은 LSTM 신경망에 대한 파라미터들의 적어도 75% 감소를 초래할 수 있다. 일부 구현예들에서, 상기 시스템이 음성 인식 모델인 경우, 상술한 압축 기술들은 상기 시스템의 비압축 버전(uncompressed version)의 워드 에러율(word error rate, WER)의 0.3 % 이내인 워드 에러율을 유지하면서, 상기 LSTM 신경망의 적어도 75% 압축을 초래할 수 있다. 일부 예들에서, 상술한 압축 기술들은 0.3% ~ 2.3%의 해당 워드 에러율로 75% - 83%의 범위인 상기 LSTM 신경망의 압축을 초래할 수 있다.

신경망 출력들을 생성하도록 순환 신경망(110)을 구성하기 위해, 신경망 시스템(100)은 포화 LSTM 계층(120)의 파라미터들의 훈련된 값들을 결정하는 것을 포함하여, 순환 신경망(110)의 파라미터들의 훈련된 값을 결정하도록 순환 신경망(110)을 훈련시킨다. 순환 신경망을 훈련시키는 것은 도 5를 참조하여 이하에서보다 상세하게 설명된다.

도 3은 현재 계층 입력을 프로세싱하여 다음 계층 출력을 생성하는 예시적인 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 구현되는 포화 LSTM 계층에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 신경망 시스템의 포화 LSTM 계층, 예를 들어, 본 명세서에 따라 적절하게 프로그램된 도 1의 신경망 시스템(100)의 압축된 LSTM 계층(120)은 프로세스(300)를 수행할 수 있다.

LSTM 계층은 삭제 게이트 출력 벡터를 생성하도록 게이트 입력 벡터에 삭제 게이트를 적용한다(단계 302). 상기 게이트 입력 벡터에 게이트를 적용하는 것에 대해서는 도 4를 참조하여보다 상세히 설명한다.

일부 구현예들에서, 상기 LSTM 계층은 현재 계층 입력 및 현재 계층 출력을 연결함으로써 게이트 입력 벡터를 생성한다. 일부 다른 구현예들에서, 상기 LSTM 계층은 현재 계층 입력, 현재 계층 출력 및 현재 계층 상태를 연결함으로써 상기 게이트 입력 벡터를 생성하는 피폴(peephole) LSTM 계층이다.

상기 LSTM 계층은 상기 게이트 입력 벡터에 입력 게이트를 적용하여 입력 게이트 출력 벡터를 생성한다(단계 304). 게이트 입력 벡터에 게이트를 적용하는 것에 대해서는 도 4를 참조하여보다 상세히 설명한다. 일부 구현예들에서, 상기 입력 게이트는 구조 파라미터 행렬, 예를 들어 퇴플리츠형 구조 파라미터 행렬을 포함한다. 일부 구현예들에서, 상기 입력 게이트는 압축된 순환 또는 인터-계층 행렬 및 해당 투영 행렬을 포함한다.

일부 구현예들에서, 상기 입력 게이트 출력 벡터를 생성하도록 상기 입력 게이트를 적용하는 대신에, 상기 시스템은 상기 입력 게이트 출력 벡터로서 상기 삭제 게이트 출력 벡터를 사용한다. 즉, 일부 구현예들에서, 상기 입력 게이트는 상기 삭제 게이트와 동일하다.

상기 LSTM 계층은 출력 게이트 출력 벡터를 생성하도록 상기 게이트 입력 벡터에 출력 게이트를 인가한다(단계 306). 상기 게이트 입력 벡터에 게이트를 적용하는 것에 대해서는 도 4를 참조하여보다 상세히 설명한다. 일부 구현예들에서, 상기 출력 게이트는 구조 파라미터 행렬, 예를 들어 퇴플리츠형 구조 파라미터 행렬을 포함한다. 일부 구현예들에서, 상기 출력 게이트는 압축된 순환 또는 인터-계층 행렬 및 해당 투영 행렬을 포함한다.

상기 LSTM 계층은 상기 현재 계층 입력 및 상기 현재 계층 출력으로부터 중간 셀 상태 업데이트 벡터를 생성한다(단계 308). 특히, 상기 LSTM 계층은 상기 중간 셀 상태 업데이트 벡터를 생성하도록 스쿼싱 함수(squashing function)인 활성화 함수를 갖는 신경망 계층을 사용하여 상기 현재 계층 입력 및 상기 현재 계층 출력을 프로세싱한다.

일반적으로, 스쿼싱 함수는 수신된 입력들을 -1에서 1까지의 범위로 매핑하는 함수이다. 예를 들어, 스쿼싱 함수는 하이퍼볼릭(hyperbolic) 탄젠트 함수일 수 있다.

상기 LSTM 계층은 최종 셀 상태 업데이트 벡터를 생성하도록 상기 중간 셀 상태 업데이트 벡터와 상기 입력 게이트 출력 벡터를 결합한다(단계 310). 특히, 상기 LSTM 계층은 상기 최종 셀 상태 업데이트 벡터를 생성하도록 상기 중간 셀 상태 업데이트 벡터와 상기 입력 게이트 출력 벡터 사이의 포인트별(point-wise) 곱셈을 계산한다.

상기 LSTM 계층은 현재 셀 상태와 상기 삭제 게이트 출력 벡터를 결합하여 중간 새로운 셀 상태를 생성한다(단계 312). 특히, 상기 LSTM 계층은 상기 중간 셀 상태를 생성하도록 상기 현재 셀 상태와 상기 삭제 출력 벡터 사이의 포인트별 곱셈을 계산한다. 일부 구현예들에서, 상기 삭제 게이트는 구조 파라미터 행렬, 예를 들어 퇴플리츠형 구조 파라미터 행렬을 포함한다. 일부 구현예들에서, 상기 삭제 게이트는 압축된 순환 또는 인터-계층 행렬 및 해당 투영 행렬을 포함한다.

상기 LSTM 계층은 최종 새로운 셀 상태를 생성하도록 상기 중간 새로운 셀 상태 및 상기 최종 셀 상태 업데이트 벡터를 결합(예를 들어 합산)한다(단계 314).

상기 LSTM 계층은 상기 최종 새로운 셀 상태로부터 새로운 계층 출력을 생성한다(단계 316). 상기 새로운 계층 출력을 생성하기 위해, 상기 LSTM 계층은 상기 최종 새로운 셀 상태의 각 컴포넌트에 스쿼싱 함수를 적용하여 중간 새로운 계층 출력을 생성한다.

그 다음 상기 LSTM 계층은 상기 출력 계층 출력 벡터와 상기 중간 새로운 계층 출력을 결합하여 새로운 계층 출력을 생성한다. 특히, 상기 LSTM 계층은 새로운 계층 출력을 생성하도록 상기 출력 게이트 출력 벡터와 상기 중간 새로운 계층 출력 간의 포인트별(pointwise) 곱셈을 수행한다.

상기 새로운 계층 출력을 생성할 때 상기 최종 새로운 계층 상태를 사용하는 것 외에도, 상기 LSTM 계층은 후속 타임 스탭에서 사용하기 위해 상기 새로운 계층 출력과 함께 상기 최종 새로운 셀 상태를 유지한다.

도 4는 게이트 출력 벡터를 생성하도록 게이트 입력 벡터에 게이트를 적용하는 예시적인 프로세스(400)의 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 구현되는 포화 LSTM 계층에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 신경망 시스템의 압축된 LSTM 계층, 예를 들어, 본 명세서에 따라 적절히 프로그램된 도 1의 신경망 시스템(100)의 LSTM 계층(120)은 프로세스(400)를 수행할 수 있다.

상기 LSTM 계층은 상기 게이트 입력 벡터를 결정한다(단계 402).

상기 LSTM 계층은 파라미터들의 세트에 따라 상기 게이트 입력 벡터로부터 각각의 중간 게이트 출력 벡터를 생성한다(단계 404). 일부 구현예들에서, 상기 LSTM 계층은 파라미터 행렬과 상기 게이트 입력 벡터 사이의 행렬 곱셈을 수행한 다음, 바이어스 벡터를 상기 행렬 곱셈의 출력에 더하여 상기 중간 게이트 출력 벡터를 생성하며, 게이트들 각각은 상이한 파라미터 행렬들 및 바이어스 벡터들을 갖는다. 즉, 상기 LSTM 계층이 고유한 입력 게이트, 삭제 게이트 및 출력 게이트를 갖는 구현예들에서, 이 게이트들 각각은 서로 다른 파라미터 행렬들 및 서로의 게이트로부터의 바이어스 벡터들을 가질 것이다.

상기 LSTM 계층은 각각의 중간 게이트 출력 벡터의 각 컴포넌트에 게이팅 함수를 적용하여 최종 게이트 출력 벡터를 생성한다(단계 406).

일반적으로, 게이팅 함수는 수신된 입력들을 0에서 1의 범위로 매핑하는 함수이다. 예를 들어, 게이팅 함수는 시그모이드(sigmoid) 함수일 수 있다.

그러나, 상기 LSTM 계층의 게이트들 중 적어도 하나에 대해, 단계(404)에서 참조된 상기 파라미터 행렬은 압축된 파라미터 행렬이다. 비압축 파라미터 행렬은 압축 파라마터 행렬로 대체된다. 그 다음 상기 LSTM 계층은 압축된 파라미터 행렬과 상기 게이트 입력 벡터 간의 행렬 곱을 수행한다. 예를 들어, 상기 압축된 행렬은 입력 게이트, 삭제 게이트, 셀 상태, 또는 출력 게이트 중 어느 하나의 파라미터 행렬을 대체할 수 있다. 일부 구현예들에서, 압축된 파라미터 행렬들은 상기 LSTM 계층의 다수 게이트들에 적용된다. 예를 들어, 압축된 파라미터 행렬들은 입력 및 출력 게이트 모두에 적용될 수 있다. 또 다른 예로서, 압축된 파라미터 행렬들은 입력, 출력 게이트 및 삭제 게이트에 적용될 수 있다.

일부 구현예들에서, 상기 압축된 파라미터 행렬은 구조화형 행렬, 예를 들어, 퇴플리츠형 구조 행렬이다. 일부 구현예들에서, 비압축 게이트 파라미터는 압축된 파라미터 행렬 및 해당 투영 행렬로 재정의된다.

도 5는 압축된 LSTM 계층을 포함하는 순환 신경망을 훈련시키기 위한 예시적인 프로세스(500)의 흐름도이다. 편의상, 프로세스(500)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 신경망 시스템, 예를 들어, 본 명세서에 따라 적절히 프로그램된 도 1의 신경망 시스템(100)은 프로세스(500)를 수행할 수 있다.

상기 시스템은 순환 신경망을 훈련시키기 위한 훈련 데이터를 획득한다(단계 502). 상기 훈련 데이터는 다수의 훈련 예시 쌍들을 포함하며, 각 훈련 예시 쌍은 훈련 신경망 입력 및 그 훈련 신경망 입력을 위한 목표 신경망 출력을 포함한다.

상기 시스템은 상기 학습 데이터에 대해 순환 신경망을 훈련시켜 목적 함수를 최적화, 예를 들어 최대화 또는 최소화함으로써 상기 파라미터들의 초기값들로부터 상기 순환 신경망의 파라미터들의 훈련된 값들을 결정한다(단계 504). 훈련 중에 상기 시스템은 상기 압축된 행렬 또는 행렬들의 값들에 제약을 가하여 상기 압축된 행렬에 대한 요구사항들을 계속 만족시킨다. 예를 들어, 상기 퇴플리츠형 구조 행렬에 대해, 상기 시스템은 각 압축된 행렬의 엔트리들이 항상 퇴플리츠형이 되도록 제약을 가하거나, 상기 투영 모델 압축 행렬들에 대해, 상기 시스템은 파라미터 행렬의 값들을 직접 조정하기보다는 상기 압축된 파라미터 행렬 및 투영 행렬의 값들을 조정할 수 있다.

상기 시스템은 종래의 기계 학습 훈련 기술, 예를 들어, 시간 훈련 기술을 통한 역전파(backpropagation)를 갖는 확률 그레디언트 디센트(stochastic gradient descent)를 사용하여 목적 함수를 최적화함으로써 순환 신경망을 훈련시킨다. 즉, 상기 시스템은 순환 신경망의 파라미터들의 값들을 조정함으로써 상기 목적 함수를 최적화하도록 훈련 기술의 다수 반복을 수행할 수 있다.

본 명세서에서 설명된 요지 및 기능적 동작들의 실시예들은, 본 명세서 및 구조적 등가물에 개시된 구조들을 포함하거나, 그들 중 하나 이상의 조합을 포함하여, 디지털 전자 회로, 유형적으로 수록된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어에서 구현될 수 있다. 본 명세서에서 설명된 요지의 실시예들은 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의해 실행되거나 또는 데이터 처리 장치의 동작을 제어하기 위한 유형의 비일시적 프로그램 캐리어상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈로서 구현될 수 있다. 대안으로 또는 부가적으로, 상기 프로그램 명령어들은 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 송신을 위해 정보를 인코딩하기 위해 생성되는 인위적으로 생성된 전파된 신호, 예를 들어, 기계-발생 전기, 광학 또는 전자기 신호상에 인코딩될 수 있다. 상기 컴퓨터 저장 매체는 기계 판독가능 저장 장치, 기계 판독가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 장치, 또는 이들 중 하나 이상의 조합일 수 있다.

"데이터 처리 장치"라는 용어는 데이터 처리 하드웨어를 의미하며, 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 복수의 프로세서 또는 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 이 장치는 또한 특수 목적 논리 회로, 예를 들어 FPGA (field programmable gate array) 또는 ASIC(application specific integrated circuit)일 수 있다. 상기 장치는 하드웨어 이외에, 컴퓨터 프로그램들의 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 이들 중 하나 이상의 조합을 구성하는 코드를 선택적으로 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 설명될 수 있음)은 컴파일된 또는 해석된 언어, 또는 선언적 또는 절차적 언어를 포함한 모든 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램이나 모듈, 컴포넌트, 서브루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 장치를 포함하여 어떤 형태로든 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있지만 반드시 그런 것은 아니다. 프로그램은 프로그램 전용 단일 파일, 여러 개의 조정된 파일(예를 들어, 하나 이상의 모듈, 하위 프로그램 또는 코드의 부분들을 저장하는 파일들), 또는 마크업 언어 문서에 저장된 하나 이상의 스크립트와 같은 다른 프로그램들 또는 데이터를 보유하고 있는 파일의 부분에 저장될 수 있다. 컴퓨터 프로그램은 한 사이트에 있거나 여러 사이트에 분산되어 있으며 통신 네트워크로 상호 연결된 여러 대의 컴퓨터 또는 하나의 컴퓨터에서 실행되도록 배포될 수 있다.

본 명세서에서 설명되는 프로세스들 및 로직 흐름은 입력 데이터를 조작하고 출력을 생성함으로써 기능을 수행하도록 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 상기 프로세스들 및 로직 흐름은 또한 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 특수 목적 논리 회로에 의해 수행될 수 있고, 장치는 또한 상기 특수 목적 논리 회로로 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들어 범용 또는 특수 목적 마이크로프로세서 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 포함하고, 이들에 기반할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성요소들은 명령어들을 수행하거나 실행하기 위한 중앙 처리 장치 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 장치이다. 일반적으로, 컴퓨터는 데이터(예를 들어, 자기, 광 자기 디스크 또는 광 디스크)를 저장하기 위한 하나 이상의 대용량 저장 장치를 포함하거나, 그 하나 이상의 대용량 저장 장치로부터 데이터를 수신하거나 전송하기 위해 동작 가능하게 결합될 것이다. 그러나, 컴퓨터는 그러한 장치들을 가질 필요는 없다. 또한, 컴퓨터는 다른 장치, 예를 들어, 이동 전화기, 개인 휴대 정보 단말기(PDA), 이동 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 휴대용 저장 장치(예를 들어, 범용 직렬 버스(USB) 플래시 드라이브)에 내장될 수 있다.

컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 장치와 같은 반도체 메모리 장치, 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크, 광 자기 디스크, 및 CD ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함한다. 상기 프로세서 및 메모리는 특수 목적 논리 회로가 부가되거나 그 안에 통합될 수 있다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 설명된 요지의 실시예들은 사용자에게 정보를 제공하기 위한 CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터와 같은 디스플레이 장치, 사용자가 입력을 컴퓨터에 제공할 수 있는 마우스 또는 트랙볼과 같은 키보드 및 포인팅 장치를 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 장치들은 사용자와의 상호 작용을 제공하는 데 사용될 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 장치로 문서를 보내고 문서를 수신하여 사용자와 상호 작용할 수 있으며, 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여 사용자의 클라이언트 장치상의 웹 브라우저에 웹 페이지를 전송함으로써 수행될 수 있다.

본 명세서에서 설명된 요지의 실시예들은 데이터 서버와 같은 백 엔드 컴포넌트; 애플리케이션 서버와 같은 미들웨어 컴포넌트; 예를 들어 관계 그래픽 사용자 인터페이스 또는 사용자가 본 명세서에 설명된 요지의 구현예와 상호 작용할 수 있는 웹 브라우저를 갖는 클라이언트 컴퓨터와 같은 프론트 엔트 컴포넌트; 또는 하나 이상의 백 엔드, 미들웨어, 프론트 엔트 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 상기 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 접속될 수 있다. 예시적인 통신 네트워크는 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어 인터넷을 포함한다.

상기 컴퓨팅 시스템은 클라이언트들과 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들로 인해 발생한다.

본 명세서는 다수의 특정 구현 세부 사항을 포함하지만, 이들은 임의의 발명 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정 발명의 특정 실시예에 특정될 수 있는 특징에 대한 설명으로 해석되어야 한다. 별도의 실시예들과 관련하여 본 명세서에서 설명되는 특정 특징들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 콘텍스트에서 설명된 다양한 특징들은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 서브조합으로 구현될 수 있다. 더욱이, 특징들은 소정의 조합으로 작용하고 상술한 바와 같이 초기에 청구된 것으로서 설명될 수 있지만, 청구된 조합의 하나 이상의 특징이 어떤 경우 그 조합으로부터 제거될 수 있고, 그 청구된 조합은 서브조합 또는 그 서브조합의 변형을 지향할 수 있다.

유사하게, 동작들이 특정 순서로 도면들에 도시되어 있지만, 이는 바람직한 동작들을 달성하기 위해, 그러한 동작들이 도시된 순서 또는 순차적인 순서로 수행되거나, 도시된 모든 동작들이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서 멀티 태스킹 및 병렬 처리가 유리할 수 있다. 또한, 상술한 실시 예에서 다양한 시스템 모듈 및 컴포넌트의 분리는 모든 실시예에서 그러한 분리를 필요로 하는 것으로 이해되어서는 안되며, 서술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다중 소프트웨어 제품들로 패키징될 수 있다는 것을 이해해야 한다.

본 발명의 특정 실시예들이 설명되었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구 범위에 열거된 동작들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과를 달성한다. 하나의 예로서, 첨부된 도면에 도시된 프로세스는 바람직한 결과를 얻기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 필요로 하지는 않는다. 특정 구현예들에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims

시스템에 있어서,
하나 이상의 컴퓨터들에 의해 구현되는 순환 신경망을 포함하며 -상기 순환 신경망은 복수의 타임 스탭들 각각에서 각 신경망 입력을 수신하고, 상기 복수의 타임 스탭들 각각에서 각 신경망 출력을 생성하도록 구성됨-;
상기 순환 신경망은,
제1 LSTM(long short-term memory) 계층을 포함하며 -상기 제1 LSTM 계층은 상기 복수의 타임 스탭들 각각에 대해 현재 계층 입력, 현재 계층 상태, 및 현재 계층 출력에 복수의 게이트들을 적용함으로써 새로운 계층 상태 및 새로운 계층 출력을 생성하도록 구성되며, 상기 복수의 게이트들 각각은 상기 복수의 타임 스탭들 각각에 대해 게이트 입력 벡터와 게이트 파라미터 행렬을 곱함으로써 각 중간 게이트 출력 벡터를 생성하도록 구성됨-; 그리고
상기 복수의 게이트들 중 적어도 하나에 대한 게이트 파라미터 행렬은 퇴플리츠형 구조 행렬(Toeplitz-like structured matrix)인 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 순환 신경망은 제2 LSTM 계층을 포함하며,
상기 제2 LSTM 계층은 상기 복수의 타임 스탭들 각각에 대해 제2 현재 계층 입력, 제2 현재 계층 상태 및 제2 현재 계층 출력에 제2 복수의 게이트들을 적용함으로써 제2 새로운 계층 상태 및 제2 새로운 계층 출력을 생성하도록 구성되며,
상기 제2 복수의 게이트들 각각은 상기 복수의 타임 스탭들 각각에 대해 제2 게이트 입력 벡터와 제2 게이트 파라미터 행렬을 곱함으로써 각각의 제2 중간 게이트 출력 벡터를 생성하도록 구성되며,
상기 제2 복수의 게이트들 중 적어도 하나에 대한 상기 게이트 파라미터 행렬은 압축 파라미터 행렬 및 투영 행렬에 의해 정의되는 것을 특징으로 하는 시스템.
제2항에 있어서,
상기 제1 LSTM 계층 및 상기 제2 LSTM 계층은 순서화된 계층들의 스택에서의 복수의 LSTM 계층들 중 각 하나인 것을 특징으로 하는 시스템.
제3항에 있어서, 상기 제1 LSTM 계층은 상기 스택에서 상기 제2 LSTM 계층보다 낮은 것을 특징으로 하는 시스템.
선행하는 어느 항에 있어서,
상기 복수의 게이트들 각각은 상기 복수의 타임 스탭들 각각에 대해, 각 최종 게이트 출력 벡터를 생성하도록 각 중간 게이트 출력 벡터의 각 컴포넌트에 각 게이팅 함수를 적용하도록 구성되는 것을 특징으로 하는 시스템.
선행하는 어느 항에 있어서, 상기 신경망은 음향 모델인 것을 특징으로 하는 시스템.
선행하는 어느 항에 있어서, 상기 신경망은 음성 인식 모델인 것을 특징으로 하는 시스템.
선행하는 어느 항에 있어서, 상기 신경망은 상기 신경망의 비압축 버전의 적어도 75%로 압축되는 것을 특징으로 하는 시스템.
선행하는 어느 항에 있어서, 상기 신경망의 워드 에러율은 상기 신경망의 비압축 버전의 워드 에러율의 0.3% 이내인 것을 특징으로 하는 시스템.
시스템에 있어서,
하나 이상의 컴퓨터들에 의해 구현되는 순환 신경망을 포함하며 -상기 순환 신경망은 복수의 타임 스탭들 각각에서 각 신경망 입력을 수신하고, 상기 복수의 타임 스탭들 각각에서 각 신경망 출력을 생성하도록 구성됨-;
상기 순환 신경망은,
제1 LSTM(long short-term memory) 계층을 포함하며 -상기 제1 LSTM 계층은 상기 복수의 타임 스탭들 각각에 대해 현재 계층 입력, 현재 계층 상태, 및 현재 계층 출력에 복수의 게이트들을 적용함으로써 새로운 계층 상태 및 새로운 계층 출력을 생성하도록 구성되며, 상기 복수의 게이트들 각각은 상기 복수의 타임 스탭들 각각에 대해 게이트 입력 벡터와 게이트 파라미터 행렬을 곱함으로써 각 중간 게이트 출력 벡터를 생성하도록 구성됨-; 그리고
상기 복수의 게이트들 중 적어도 하나에 대한 게이트 파라미터 행렬은 압축 파라미터 행렬 및 투영 행렬에 의해 정의되는 것을 특징으로 하는 시스템.
제10항에 있어서,
상기 순환 신경망은 제2 LSTM 계층을 포함하며,
상기 제2 LSTM 계층은 상기 복수의 타임 스탭들 각각에 대해 제2 현재 계층 입력, 제2 현재 계층 상태 및 제2 현재 계층 출력에 제2 복수의 게이트들을 적용함으로써 제2 새로운 계층 상태 및 제2 새로운 계층 출력을 생성하도록 구성되며,
상기 제2 복수의 게이트들 각각은 상기 복수의 타임 스탭들 각각에 대해 제2 게이트 입력 벡터와 제2 게이트 파라미터 행렬을 곱함으로써 각각의 제2 중간 게이트 출력 벡터를 생성하도록 구성되며,
상기 제2 복수의 게이트들 중 적어도 하나에 대한 상기 게이트 파라미터 행렬은 퇴플리츠형 구조 행렬(Toeplitz-like structured matrix)인 것을 특징으로 하는 시스템.
제11항에 있어서,
상기 제1 LSTM 계층 및 상기 제2 LSTM 계층은 순서화된 계층들의 스택에서의 복수의 LSTM 계층들 중 각 하나인 것을 특징으로 하는 시스템.
제12항에 있어서, 상기 제2 LSTM 계층은 상기 스택에서 상기 제1 LSTM 계층보다 낮은 것을 특징으로 하는 시스템.
제10항 내지 제13항 중 어느 항에 있어서,
상기 복수의 게이트들 각각은 상기 복수의 타임 스탭들 각각에 대해, 각각의 최종 게이트 출력 벡터를 생성하도록 각각의 중간 게이트 출력 벡터의 각 컴포넌트에 각각의 게이팅 함수를 적용하도록 구성되는 것을 특징으로 하는 시스템.
제10항 내지 제14항 중 어느 항에 있어서, 상기 신경망은 음향 모델인 것을 특징으로 하는 시스템.
제10항 내지 제15항 중 어느 항에 있어서, 상기 신경망은 음성 인식 모델인 것을 특징으로 하는 시스템.
제10항 내지 제16항 중 어느 항에 있어서, 상기 신경망은 상기 신경망의 비압축 버전의 적어도 75%로 압축되는 것을 특징으로 하는 시스템.
제10항 내지 제17항 중 어느 항에 있어서,
상기 신경망의 워드 에러율은 상기 신경망의 비압축 버전의 워드 에러율의 0.3% 이내인 것을 특징으로 하는 시스템.
컴퓨터 프로그램 제품으로 인코딩된 하나 이상의 비-일시적 컴퓨터 저장 매체에 있어서, 상기 컴퓨터 프로그램 제품은 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 상기 하나 이상의 컴퓨터에 의해 구현되는 순환 신경망을 구현하는 동작들을 수행하게 하는 명령어들을 포함하며,
상기 순환 신경망은 복수의 타임 스탭들 각각에서 각각의 신경망 입력을 수신하고, 상기 복수의 타임 스탭들 각각에서 각각의 신경망 출력을 생성하도록 구성되며;
상기 순환 신경망은,
제1 LSTM(long short-term memory) 계층을 포함하며 -상기 제1 LSTM 계층은 상기 복수의 타임 스탭들 각각에 대해 현재 계층 입력, 현재 계층 상태 및 현재 계층 출력에 복수의 게이트들을 적용함으로써 새로운 계층 상태 및 새로운 계층 출력을 생성하도록 구성되며, 상기 복수의 게이트들 각각은 상기 복수의 타임 스탭들 각각에 대해 게이트 입력 벡터와 게이트 파라미터 행렬을 곱함으로써 각각의 중간 게이트 출력 벡터를 생성하도록 구성됨-; 그리고
상기 복수의 게이트들 중 적어도 하나에 대한 게이트 파라미터 행렬은 퇴플리츠형 구조 행렬(Toeplitz-like structured matrix)인 것을 특징으로 하는 하나 이상의 비-일시적 컴퓨터 저장 매체.
컴퓨터 프로그램 제품으로 인코딩된 하나 이상의 비-일시적 컴퓨터 저장 매체에 있어서, 상기 컴퓨터 프로그램 제품은 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 상기 하나 이상의 컴퓨터에 의해 구현되는 순환 신경망을 구현하도록 하는 명령어들을 포함하며,
상기 순환 신경망은 복수의 타임 스탭들 각각에서 각각의 신경망 입력을 수신하고, 상기 복수의 타임 스탭들 각각에서 각각의 신경망 출력을 생성하도록 구성되며;
상기 순환 신경망은,
제1 LSTM(long short-term memory) 계층을 포함하며 -상기 제1 LSTM 계층은 상기 복수의 타임 스탭들 각각에 대해 현재 계층 입력, 현재 계층 상태, 및 현재 계층 출력에 복수의 게이트들을 적용함으로써 새로운 계층 상태 및 새로운 계층 출력을 생성하도록 구성되며, 상기 복수의 게이트들 각각은 상기 복수의 타임 스탭들 각각에 대해 게이트 입력 벡터와 게이트 파라미터 행렬을 곱함으로써 각각의 중간 게이트 출력 벡터를 생성하도록 구성됨-; 그리고
상기 복수의 게이트들 중 적어도 하나에 대한 게이트 파라미터 행렬은 압축 파라미터 행렬 및 투영 행렬에 의해 정의되는 것을 특징으로 하는 하나 이상의 비-일시적 컴퓨터 저장 매체.