KR20180082531A

KR20180082531A - Cgr 신경망들

Info

Publication number: KR20180082531A
Application number: KR1020187016385A
Authority: KR
Inventors: 루카즈 미치슬라우 카이저; 일리아 수츠케버
Original assignee: 구글 엘엘씨
Priority date: 2015-11-12
Filing date: 2016-11-11
Publication date: 2018-07-18
Also published as: JP2018533804A; JP6676165B2; US10977547B2; WO2017083752A1; KR102271262B1; US20170140263A1; CN108351982B; CN108351982A; EP3360081A1

Abstract

CGRN(convolutional gated recurrent neural network)을 구현하기 위해, 컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치가 개시된다. 상기 시스템들 중 하나에서, 상기 CGRN은 x×y×m 차원들을 갖는 상태 텐서를 유지하고 - x, y, m은 각각 1보다 크며 -, 복수의 타임 스텝들 각각에 대해, 복수의 콘볼루션 게이트들을 통해 상기 상태를 프로세싱함으로써 현재 유지된 상태를 업데이트하도록 구성된다. 상기 CGRN의 아키텍처는 CGRN이 고도로 병렬화되도록 하며, 즉, 상기 CGRN은 고도의 병렬 콘볼루션 오퍼레이터로부터 구성되므로 CGRN의 계산 집약도가 낮아지고, 추론을 계산하여 계산 효율이 높아진다. 상기 CGRN의 아키텍처는 CGRN이 다른 사이즈들의 입력으로 일반화하도록 허용하며, 예를 들어, 짧은(shorter) 입력들에 대해 훈련된 CGRN이 긴(longer) 입력들에 대한 추론들을 효율적으로 계산할 수 있게 한다.

Description

CGR 신경망들

본 명세서는 신경망 시스템 아키텍처들에 관한 것이다.

신경망들은 수신된 입력에 대한 출력을 예측하기 위해 하나 이상의 비선형 유닛 계층들(layers)을 사용하는 기계 학습 모델들이다. 일부 신경망들은 출력층 외에도 하나 이상의 은닉층들을 포함한다. 각각의 은닉층의 출력은 네트워크의 다음 계층, 즉 다음 은닉층 또는 출력층에 대한 입력으로 사용된다. 네트워크의 각 계층은 각각의 파라미터 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다.

일부 신경망들은 순환 신경망들이다. 순환 신경망은 입력 시퀀스를 그 수신하고, 그 입력 시퀀스로부터 출력 시퀀스를 생성하는 신경망이다. 특히, 순환 신경망은 현재 타임 스텝에서 출력을 계산할 때 이전 타임 스텝에서 네트워크의 내부 상태의 일부 또는 전부를 사용할 수 있다. 예시적인 순환 신경망은 하나 이상의 LSTM(Long Short-Term Memory) 셀들을 포함하는 LSTM 신경망으로서, 각 LSTM 셀들은, 예를 들어 LSTM 신경망의 다른 컴포넌트들에 제공되거나 현재 활성화를 생성하는데 사용하기 위해, 셀이 그 셀에 대한 이전 상태들을 저장할 수 있게 하는 출력 게이트, 삭제 게이트(forget gate) 및 입력 게이트를 포함한다.

본 명세서는 순환 신경망 아키텍처들과 관련된 기술을 설명한다.

일반적으로, CGRN(convolutional gated recurrent neural network)은 다수 CGRU(convolutional gated recurrent units)를 포함하고, x, y 및 m이 각각 1보다 큰 x×y×m 차원들을 갖는 상태 텐서를 유지한다.

다수의 타임 스템들 각각에서, 상기 CGRN은 각각의 CGRU를 통해 현재 유지된 상태 텐서를 프로세싱함으로써 상기 현재 유지된 상태 텐서를 업데이트하도록 구성된다. 마지막 타임 스텝 후에, 상기 상태 텐서는 시스템 출력을 생성하는 출력층에 의해 프로세싱된다.

특정 오퍼레이션들이나 액션들을 수행하도록 구성된 하나 이상의 컴퓨터의 시스템은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 사용하여 시스템으로 하여금 상기 오퍼레이션들 또는 액션들을 수행하도록 하는 시스템을 의미한다. 특정 오퍼레이션들 또는 액션들을 수행하도록 구성되는 하나 이상의 컴퓨터 프로그램은 데이터 처리 장치에 의해 실행될 때 그 장치로 하여금 오퍼레이션들 또는 액션들을 수행하게 하는 명령어들을 포함하는 하나 이상의 프로그램을 의미한다.

본 명세서에서 설명된 요지는 다음의 장점들 중 하나 이상을 실현하도록 특정 실시예들에서 구현될 수 있다. 본 명세에서 설명된 CGRN의 아키텍처는 CGRN이 고도로 병렬화되도록 하며, 즉, 상기 CGRN은 고도의 병렬 콘볼루션 오퍼레이터로부터 구성되므로 CGRN의 계산 집약도가 낮아지고, CGRN을 사용하여 추론(inference)을 계산하므로 계산 효율이 높아진다. 상기 CGRN의 아키텍처는 CGRN이 다른 사이즈들의 입력으로 일반화하도록 허용하며, 예를 들어, 짧은(shorter) 입력들에 대해 훈련된 CGRN이 긴(longer) 입력들에 대한 추론들을 효율적으로 계산할 수 있게 한다.

본 명세서의 요지의 하나 이상의 실시예들의 세부 사항은 첨부된 도면들 및 이하의 설명에서 설명된다. 상기 요지의 다른 특징들, 양태들 및 장점들은 상세한 설명, 도면들 및 청구 범위로부터 명백해질 것이다.

도 1은 예시적인 신경망 시스템을 나타낸다.
도 2는 CGRN을 사용하여 신경망 입력을 프로세싱하기 위한 예시적인 프로세스의 흐름도이다.
도 3은 현재 유지된 셀 상태 텐서를 업데이트하기 위해 CGRU를 사용하여 현재 타임 스텝에서 현재 유지된 상태 텐서를 프로세싱하기 위한 예시적인 프로세스의 흐름도이다.
다양한 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 구성요소들을 나타낸다.

도 1은 예시적인 신경망 시스템(100)을 도시한다. 상기 신경망 시스템(100)은 하나 이상의 위치에서 하나 이상의 컴퓨터상의 컴퓨터 프로그램들로 구현되는 시스템의 예로서, 이하에서 설명되는 시스템들, 컴포넌트들 및 기술들이 구현된다.

신경망 시스템(100)은 신경망 입력을 수신하고, 그 신경망 입력으로부터 시스템 출력을 생성하는 기계 학습 시스템이다. 예를 들어, 신경망 시스템(100)은 신경망 입력(102)을 수신하여 시스템 출력(132)을 생성할 수 있다. 일반적으로, 상기 신경망 입력은 수치 입력들의 시퀀스, 예를 들어, 벡터 또는 수치 값들의 다른 순서화된 집합들이며, 상기 시스템 출력은 단일 벡터 또는 다수의 벡터의 시퀀스일 수 있다.

신경망 시스템(100)은 상기 생성된 시스템 출력들을 출력 데이터 저장소에 저장하거나, 또는 예를 들어 사용자에게 프리젠테이션을 위한 상기 시스템 출력을 특징짓는 데이터를 제공함으로써 또는 추가 프로세싱을 위해 상기 시스템 출력의 일부 또는 전부를 다른 시스템에 제공함으로써 일부 즉각적인 목적으로 사용하기 위해 상기 시스템 출력을 제공할 수 있다.

신경망 시스템(100)은 임의의 종류의 디지털 데이터 입력을 수신하고, 임의의 종류의 스코어, 분류 또는 입력에 기초한 회귀 출력을 생성하도록 구성될 수 있다.

예로서, 신경망 시스템(100)으로의 입력이 하나의 언어로 텍스트를 나타내는 시퀀스라면, 신경망 시스템(100)에 의해 생성된 상기 출력은 상기 입력 텍스트의 다른 언어로의 번역인 다른 언어의 텍스트를 나타내는 시퀀스일 수 있다.

또 다른 예로서, 신경망 시스템(100)에 대한 입력이 발언된 발화의 특징들을 나타내는 시퀀스라면, 신경망 시스템(100)에 의해 생성된 상기 출력은 상기 발화를 위한 전사(transcription)인 텍스트를 나타내는 시퀀스일 수 있다.

또 다른 예로서, 신경망 시스템(100)에 대한 입력이 텍스트를 나타내는 시퀀스라면, 신경망 시스템(100)에 의해 생성된 출력은 토픽들의 세트 각각에 대한 스코어일 수 있다(스코어는 상기 해당 토픽이 텍스트 시퀀스의 토픽인 우도들을 나타냄).

또 다른 예로서, 신경망 시스템(100)에 대한 입력이 텍스트를 나타내는 시퀀스라면, 신경망 시스템(100)에 의해 생성된 출력은 입력 텍스트의 요약, 즉 입력 텍스트 시퀀스보다 짧은 텍스트를 나타내는 시퀀스일 수 있다.

특히, 신경망 시스템(100)은 CGRN(convolutional gated recurrent neural network)(110)을 포함한다. CGRN(110)은 출력층(130) 및 CGRU(convolutional gated recurrent unit)들(120)의 시퀀스를 포함한다.

일반적으로, 상기 CGRU들은 신경망 입력(102)으로부터 생성된 초기 상태 텐서(122)를 수신하고, 최종 상태 텐서(128)를 생성하도록 집합적이고(collectively) 반복적으로 상기 초기 상태 텐서(122)를 업데이트한다.

즉, CGRN(110)은 x, y, 및 m이 각각 1보다 큰 x×y×m 차원들을 가지며, 신경망 입력(102)으로부터 초기화되는 텐서인 상태를 유지한다. 신경망 입력(102)으로부터 상태 텐서를 초기화하는 것은 도 2를 참조하여 이하에서보다 상세히 설명된다. CGRU들(120)은 최종 상태 텐서(128)를 생성하도록 상기 유지된 상태 텐서를 집합적이고 반복적으로 업데이트한다.

보다 구체적으로, CGRU들(120)은 다수의 타임 스템들 각각에서 프로세싱을 수행한다. 각각의 타임 스텝에서, 각 CGRU는 입력 상태 텐서를 수신하고, 그 입력 상태 텐서를 업데이트하고, CGRN의 다른 컴포넌트, 즉 다른 CGRU 또는 출력 레이터에 상기 업데이트된 상태 텐서를 제공한다. 예를 들어, 다수의 타임 스템들 중 소정의 타임 스템에서, 상기 시퀀스 내의 CGRU(120a)는 현재 상태 텐서(122)를 수신하고, 업데이트된 상태 텐서(126)를 생성하도록 상기 현재 상태 텐서(122)를 프로세싱할 수 있다. 상기 최종 상태 텐서(126)는 다수의 타임 스템들 중 마지막 타임 스텝에 대한 시퀀스에서 최종 CGRU에 의해 생성된 상태 텐서이다.

출력층(130)은 최종 상태 텐서(126)를 프로세싱하여 상기 시스템 출력(132)을 생성한다. 최종 상태 텐서(126)를 프로세싱하는 것은 도 2를 참조하여 이하에보다 상세히 설명된다.

도 2는 CGRN을 사용하여 신경망 입력을 프로세싱하기 위한 예시적인 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 신경망 시스템, 예를 들어, 본 명세서에 따라 적절히 프로그램된 도 1의 신경망 시스템(100)은 프로세스(200)를 수행할 수 있다.

상기 시스템은 신경망 입력을 수신한다(단계 202). 일반적으로, 상기 신경망 입력은 길이 m를 각각 갖는 벡터들의 시퀀스이다. 예를 들어, 상기 시퀀스는 가능한 입력들의 어휘로부터의 각각의 입력을 각각 나타내는 임베딩(embedding) 벡터들의 시퀀스일 수 있다.

상기 시스템은 상기 신경망 입력을 사용하여 상기 CGRN의 상태 텐서를 초기화한다(단계 204). 특히, 상기 시스템은 각 입력 벡터를 상기 상태 텐서의 제1 열(column)로 연결하고, 상기 상태 텐서의 다른 모든 엔트리들을 0으로 설정한다. 즉, 상기 시퀀스의 k 번째 벡터는 엔트리들(0, k, 0)에서 (0, k, m)까지 상기 상태 텐서에 추가되고, 열 1에서 x-1의 엔트리들은 0으로 설정된다.

상기 시스템은 다수의 타임 스텝들에 대한 CGRU들의 시퀀스를 통해 상기 초기 상태 텐서를 프로세싱하여 최종 상태 텐서를 생성한다(단계 206). 특히, 상기 타임 스템들의 각각에서, 상기 시스템은 상기 시퀀스에 대한 업데이트된 상태 텐서를 생성하기 위해 상기 시퀀스 내의 상기 CGRU들 각각을 통해 현재 상태 텐서를 프로세싱한다. CGRU에 의한 입력 상태 텐서를 프로세싱하는 것은 도 3을 참조하여 아래에서보다 상세히 설명된다.

상기 시스템은 CGRN 출력, 즉 상기 수신된 신경망 입력에 대한 시스템 출력을 생성하기 위해 상기 출력층을 사용하여 상기 최종 상태 텐서를 프로세싱한다(단계 208).

특히, 상기 출력층은 상기 최종 상태 텐서의 상기 제1 열의 각 깊이 벡터에 출력 파라미터 매트릭스를 적용하도록 구성되며, 상기 제1 열의 k 번째 깊이 벡터는 상기 열의 각각의 깊이 벡터로부터 각각의 초기 출력 벡터를 생성하기 위한, 상기 최종 상태 텐서의 (0, k, 0)에서 (0, k, m)의 엔트리들이다.

일부 구현예들에서, 상기 출력층은 최종 출력 벡터를 생성하기 위해, 즉 최종 출력 벡터가 초기 출력 벡터들 각각으로부터의 각 최대 엔트리들의 벡터가 되도록 각 초기 출력 벡터로부터 최대 엔트리를 선택하도록 구성된다.

도 3은 현재 유지된 셀 상태 텐서를 업데이트하기 위해 CGRU를 사용하여 현재 타임 스텝에서 현재 유지된 상태 텐서를 프로세싱하기 위한 예시적인 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 구현되는 CGRU에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 상기 신경망 시스템의 CGRU, 예를 들어, 본 명세서에 따라 적절하게 프로그램된 도 1의 신경망 시스템(100)의 CGRU(120a)는 프로세스(300)를 수행할 수 있다.

상기 CGRU는 현재 유지된 상태 텐서를 수신한다(단계 302). 상기 현재 타임 스템이 제1 타임 스텝이고, 상기 CGRU가 상기 시퀀스의 제1 CGRU인 경우, 상기 상태 텐서는 상기 신경망 입력으로부터 초기화된 상태 텐서이다. 상기 현재 타임 스텝이 상기 제1 타임 스텝이 아니고, 상기 CGRU가 상기 시퀀스의 제1 CGRU인 경우, 상기 상태 텐서는 직전 타임 스텝(immediately preceding time step)에서 상기 시퀀스의 마지막 CGRU에 의해 생성된 상태 텐서이다. 상기 CGRU가 상기 시퀀스의 제1 CGRU가 아닌 경우, 상기 상태 텐서는 상기 현재 타임 스텝에 대한 상기 시퀀스에서의 이전의 CGRU에 의해 생성된 상태 텐서이다.

상기 CGRU는 메인 콘볼루션 게이트 출력을 생성하기 위해 상기 현재 유지된 상태 텐서에 메인 콘볼루션 게이트를 적용한다(단계 304). 특히, 상기 CGRU는 상기 CGRU에 대한 메인 커널 뱅크와 상기 현재 유지된 상태 텐서 사이에 콘볼루션을 수행한다. 커널 뱅크는 4차원 텐서 형태[kx, ky, m, m], 즉 kx·ky·m² 파라미터들을 포함하며, 여기서 kx 및 ky는 커널 폭 및 높이이다. 상태 텐서가 있는 커널 뱅크의 상기 콘볼루션은 상기 상태 텐서와 동일한 차원을 갖는 새로운 텐서를 생성한다.

형태[kx, ky, m, m]을 갖는 필터 뱅크와 멘탈 이미지(s)의 콘볼루션을 수행할 때, 결과적인 텐서의 엔트리[x, y, i]의 값은 수학식 1을 만족시킨다.

일부 구현예들에서, 삭제 콘볼루션 게이트 출력(g)은 수학식 2를 만족시킨다.

여기서, s는 상기 현재 유지된 상태 텐서이며,

는 상기 메인 콘벌루션 게이트의 메인 커널 뱅크와 상기 상태 텐서의 콘볼루션이며, B'는 메인 콘볼루션 게이트에 대한 바이어스 벡터이다.

상기 CGRU는 삭제 콘볼루션 게이트 출력을 생성하기 위해 상기 현재 유지된 상태 텐서에 삭제(forget) 콘볼루션 게이트를 적용한다(단계 306). 특히, 상기 CGRU는 상기 CGRU에 대한 삭제 커널 뱅크와 상기 현재 유지된 상태 텐서 사이에 콘볼루션을 수행한다. 일부 구현예들에서, 상기 삭제 콘볼루션 게이트 출력(r)은 수학식 3을 만족시킨다.

여기서,

는 상기 삭제 커널 뱅크와 상기 현재 유지된 상태 텐서의 콘볼루션이고, B''는 상기 삭제 콘볼루션 게이트에 대한 바이어스 벡터이다.

상기 CGRU는 상기 현재 유지된 상태 텐서, 상기 메인 콘볼루션 게이트 출력 및 상기 삭제 콘볼루션 게이트 출력을 조합하여 업데이트된 상태 텐서를 생성한다(단계 308). 즉, 상기 CGRU는 상기 메인 콘볼루션 게이트 출력과 상기 삭제 콘볼루션 게이트 출력을 상기 현재 유지된 상태 텐서에 적용하여 상기 업데이트된 상태 텐서를 생성한다. 일부 구현예들에서, 상기 업데이트된 상태 텐서는 수학식 4를 만족시킨다.

여기서, U는 GRU의 출력 커널 뱅크이며, B는 GRU의 출력에 대한 바이어스 벡터이며,

는 포인트별(pointwise) 벡터 곱셈을 나타낸다.

상기 CGRU는 상기 CGRN의 다음 컴포넌트에 상기 업데이트된 상태 텐서를 제공한다(단계 310). 특히, 상기 CGRU가 상기 시퀀스의 마지막 CGRU가 아닌 경우, 상기 CGRU는 상기 시퀀스의 다음 CGRU에 상기 업데이트된 상태 텐서를 제공한다.

상기 CGRU가 상기 시퀀스의 마지막 CGRU이고, 상기 현재 타임 스텝이 마지막 타임 스텝이 아닌 경우, 상기 CGRU는 다음 타임 스텝에서 프로세싱하기 위해 상기 시퀀스의 제1 CGRU에 상기 업데이트된 상태 텐서를 제공한다. 상기 CGRU가 상기 시퀀스의 마지막 CGRU이고 상기 현재 타임 스텝이 마지막 타임 스텝인 경우, 상기 CGRU는 상기 신경망 입력에 대한 시스템 출력의 생성을 위해 상기 업데이트된 상태 텐서를 상기 출력층에 제공한다.

상기 CGRN의 모든 컴포넌트들이 차별화될 수 있기 때문에, 상기 시스템은 종래의 기계 학습 훈련 기술, 예를 들어 타임 훈련 기술을 통한 역전파(backpropagation)와 함께 확률적 그라디언트 디센트(gradient descent)를 사용하여 목적 함수(objective function)를 최적화함으로써 CGRN을 훈련시킬 수 있다. 즉, 상기 시스템은 상기 CGRN의 파라미터들의 값들을 조정함으로써, 즉 CGRU들의 바이어스들 및 필터 뱅크들 그리고 상기 출력층의 출력 파라미터 매트릭스의 값들을 조정함으로써, 상기 목적 함수가 최적화되도록 상기 훈련 기술의 다중 반복을 수행할 수 있다.

일부 경우들에서, 상기 CGRN의 훈련 동안, 모든 타임 스텝들에 걸쳐 공유될 상기 CGRU들의 각 파라미터의 값을 제한(constrain)하기보다는, 상기 시스템은 상기 타임 스텝들을 다수의 서브세트들로 나누고, 그리고 서브세트 내에서 공유될 상기 CGRU들에 대한 각 파라미터의 값들만 제한한다. 즉, 타임 스텝들의 소정의 서브세트 및 소정의 CGRU의 소정의 파라미터에 대해, 상기 시스템은 상기 서브세트의 각 타임 스텝에서 동일한 값을 갖도록 상기 파라미터를 제한하지만, 다른 서브세트들에 대해 상기 값을 변경하도록 허용한다. 따라서, 훈련 후, 상기 CGRU는 한 세트의 파라미터 값들을 상기 타임 스텝들의 한 서브세트 내의 입력들에 적용하고, 다른 한 세트의 파라미터 값들을 상기 타임 스텝들의 다른 한 서브세트 내의 입력들에 적용한다.

본 명세서에서 설명된 요지 및 기능적 동작들의 실시예들은 본 명세서 및 구조적 등가물에 개시된 구조들을 포함하여, 디지털 전자 회로, 유형적으로 수록된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어 및 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 명세서에서 설명된 요지에 대한 실시예들은 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의해 실행되거나 또는 데이터 처리 장치의 동작을 제어하기 위한 유형의 비 일시적인 프로그램 캐리어상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈로 구현될 수 있다. 대안으로 또는 부가적으로, 상기 프로그램 명령어들은 인위적으로 생성된 전파된 신호, 예를 들어, 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 전송을 위해 정보를 인코딩하도록 생성된 기계-생성 전기, 광학 또는 전자기 신호에 인코딩될 수 있다. 상기 컴퓨터 저장 매체는 기계 판독가능 저장 장치, 기계 판독가능 저장 기판, 랜덤 또는 시리얼 액세스 메모리 장치, 또는 이들 중 하나 이상의 조합일 수 있다.

상기 "데이터 처리 장치"라는 용어는 데이터 처리 하드웨어를 의미하며, 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 복수의 프로세서 또는 컴퓨터들을 포함하여 데이터를 처리하기 위한 모든 종류의 장치, 디바이스들 및 기계들을 포함한다. 상기 장치는 또한 특수 목적 논리 회로, 예를 들어 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)이거나 이를 추가로 포함할 수 있다. 상기 장치는 하드웨어 이외에, 컴퓨터 프로그램들에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 이들 중 하나 이상의 조합을 구성하는 코드를 선택적으로 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 설명될 수 있음)은, 컴파일된 또는 해석된 언어들, 또는 선언적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있으며, 독립 실행형 프로그램이나 모듈, 컴포넌트, 서브루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함하는 모든 형태로 배포될 수 있다. 상기 컴퓨터 프로그램은 파일 시스템 내의 파일에 해당할 수 있지만 반드시 그런 것은 아니다. 프로그램은 마크업 언어 문서에 저장된 하나 이상의 스크립트와 같은 프로그램 또는 데이터를 보유하고 있는 파일의 일부분, 문제의 프로그램 전용 단일 파일, 또는 여러 개의 조정된 파일(예를 들어, 하나 이상의 모듈, 서브 프로그램들 또는 코드의 일부분들을 저장하는 파일들)에 저장될 수 있다. 컴퓨터 프로그램은, 하나의 컴퓨터 또는 한 사이트에 있거나 여러 사이트에 분산되어 있으며 통신 네트워크로 상호 연결된 여러 대의 컴퓨터에서 실행되도록 배포될 수 있다.

본 명세서에서 설명되는 프로세스들 및 로직 흐름은 입력 데이터를 오퍼레이팅하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 상기 프로세스들 및 로직 흐름은 또한 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 특수 목적 논리 회로에 의해 수행될 수 있고, 장치도 상기 특수 목적 논리 회로로 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터들은 예를 들어 범용 또는 특수 목적 마이크로프로세서들 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 포함하고, 이들에 기반될 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성요소들은 명령어들을 수행하거나 실행하기 위한 중앙 처리 장치 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 장치이다.

일반적으로, 컴퓨터는 데이터(예를 들어, 자기, 광 자기 디스크 또는 광 디스크)를 저장하기 위한 하나 이상의 대용량 저장 장치를 포함하거나, 그 하나 이상의 대용량 저장 장치로부터 데이터를 주고받기 위해 동작 가능하게 결합될 것이다. 그러나, 컴퓨터는 그러한 장치들을 가질 필요는 없다. 또한, 컴퓨터는 다른 장치, 예를 들어, 이동 전화기, 개인 휴대 정보 단말기(PDA), 이동 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 휴대용 저장 장치(예를 들어, 범용 직렬 버스(USB) 플래시 드라이브)에 내장될 수 있다.

컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 장치와 같은 반도체 메모리 장치들; 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크; 광 자기 디스크; 및 CD ROM 및 DVD-ROM 디스크와 같은 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함한다. 상기 프로세서 및 메모리는 특수 목적 논리 회로를 포함하거나 그 특수 목적 논리 회로에 통합될 수 있다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 설명된 요지에 대한 실시예들은 사용자에게 정보를 표시하기 위한 CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터와 같은 디스플레이 장치 및 사용자가 상기 컴퓨터에 입력을 제공할 수 있는 마우스 또는 트랙볼과 같은 키보드 및 포인팅 장치를 갖는 컴퓨터상에서 구현될 수 있다. 다른 종류의 장치들은 사용자와의 상호 작용을 제공하는 데 사용될 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백일 수 있으며, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 장치로 문서들을 보내고 그 장치로부터 문서들을 수신함으로써, 예를 들어, 웹 브라우저로부터 수신된 요청들에 응답하여 사용자의 클라이언트 장치상의 웹 브라우저에 웹 페이지들을 전송함으로써, 사용자와 상호 작용할 수 있다.

본 명세서에서 설명된 요지에 대한 실시예들은 예를 들어 데이터 서버로서 백엔드 컴포넌트, 또는 애플리케이션 서버와 같은 미들웨어 컴포넌트, 또는 예를 들어 관계 그래픽 사용자 인터페이스 또는 사용자가 본 명세서에 기술된 요지의 구현예와 상호 작용할 수 있는 웹 브라우저를 갖는 클라이언트 컴퓨터와 같은 프론트 엔드 컴포넌트, 또는 하나 이상의 백엔드, 미들웨어 또는 프론트 엔드 컴포넌트의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 상기 시스템의 상기 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호접속될 수 있다. 상기 통신 네트워크의 예들로서 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어 인터넷을 포함한다.

상기 컴퓨팅 시스템은 클라이언트들과 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들로 인해 발생한다.

본 명세서는 다수의 특정 구현 세부 사항을 포함하지만, 이들은 임의의 발명 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정 발명들의 특정 실시예들에 특정될 수 있는 특징들에 대한 설명으로 해석되어야 한다. 별도의 실시예들과 관련하여 본 명세서에서 설명되는 특정 특징들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 문맥에서 설명된 다양한 특징들은 다수의 실시예들에서 개별적으로 또는 임의의 적합한 서브조합으로 구현될 수 있다. 더욱이, 특징들은 특정 조합들로 작용하는 것으로 상술될 수 있으며, 청구된 조합으로부터의 하나 이상의 특징들이 어떤 경우 그 조합으로부터 제거될 수 있고, 그 청구된 조합은 서브 조합 또는 서브 조합의 변형으로 지향될 수 있다.

유사하게, 동작들은 도면들에 특정 순서로 도시되어 있지만, 이는 바람직한 결과들을 달성하기 위해 상기 동작들이 도시된 특정 순서 또는 순차적인 순서로 수행되거나 도시된 모든 동작들이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황들에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다. 더욱이, 상술한 실시예들에서 다양한 시스템 모듈들 및 컴포넌트들의 분리는 모든 실시예들에서 그러한 분리를 요구하는 것으로 이해되어서는 안되며, 상기 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품들로 패키징될 수 있는 것으로 이해되어야 한다.

상기 요지에 대한 특정 실시예들이 설명된다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 상기 청구항들에 열거된 액션들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과를 달성한다. 하나의 예로서, 첨부된 도면들에 도시된 프로세스들은 바람직한 결과들을 달성하기 위해, 도시된 특정 순서 또는 순차적 순서를 반드시 필요로 하지는 않는다. 특정 구현예들에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims

시스템으로서,
하나 이상의 컴퓨터들에 의해 구현되는 CGRN(convolutional gated recurrent neural network)을 포함하며, 상기 CGRN은,
x×y×m 차원들을 갖는 텐서인 상태를 유지하고 - x, y, m은 각각 1보다 큼 -;
복수의 타임 스텝들 각각에 대해, 현재 유지된 상태를 복수의 콘벌루션 게이트들을 통해 프로세싱함으로써 상기 현재 유지된 상태를 업데이트하고; 그리고
출력층을 통해 상기 복수의 타임 스텝들에서 마지막 타임 스텝 후에 상기 업데이트된 상태를 프로세싱하도록 구성되며,
상기 출력층은 상기 복수의 타임 스텝들에서 상기 마지막 타임 스텝 이후에 상기 업데이트된 상태를 수신하고, CGRN 출력을 생성하기 위해 상기 업데이트된 상태를 변경하도록 구성되는 것을 특징으로 하는 시스템.
제1항에 있어서, 상기 CGRN의 상태는 시스템 입력으로 초기화되는 것을 특징으로 하는 시스템.
제1항 또는 제2항에 있어서, 상기 CGRN은 시퀀스로 배열된 복수의 CGRU(convolutional gated recurrent unit)들을 포함하고, 각각의 타임 스텝에 대해, 상기 시퀀스 내의 최하위 CGRU는,
상기 현재 유지된 상태를 수신하고, 상기 현재 유지된 상태를 프로세싱하여 최하위의 업데이트된 상태를 생성하며, 상기 타임 스텝에서의 서로 다른 CGRU는,
상기 시퀀스 내의 이전 CGRU에 의해 업데이트된 상기 상태를 수신하고; 그리고
상기 수신된 상태를 업데이트하도록 구성되는 것을 특징으로 하는 시스템.
제3항에 있어서,
각각의 CGRU는 메인 콘볼루션 게이트를 포함하고, 그리고 상기 메인 콘볼루션 게이트는
를 만족하는 메인 콘볼루션 게이트 출력(g)을 생성하도록 구성되며, 여기서, s는 상기 CGRU에 의해 수신된 상기 상태이며,
는 상기 상태와 상기 메인 콘볼루션 게이트의 커널 뱅크의 콘볼루션이며, B'는 상기 메인 콘볼루션 게이트에 대한 바이어스 벡터인 것을 특징으로 하는 시스템.
제4항에 있어서,
각각의 CGRU는 삭제 콘볼루션 게이트를 더 포함하고, 상기 삭제 콘볼루션 게이트는
를 만족하는 삭제 콘볼루션 게이트 출력(r)을 생성하도록 구성되며,
여기서, s는 상기 CGRU에 의해 수신된 상기 상태이며,
는 상기 상태와 상기 삭제 콘볼루션 게이트의 커널 뱅크의 콘볼루션이며, B''는 상기 삭제 콘볼루션 게이트에 대한 바이어스 벡터인 것을 특징으로 하는 시스템.
제5항에 있어서, 상기 CGRU(CGRU(s))에 의해 업데이트되는 업데이트된 내부 상태는
식을 만족하며,
여기서, U는 GRU의 커널 뱅크이며, B는 바이어스 벡터이며,
는 포인트별 벡터 곱셈을 나타내는 것을 특징으로 하는 시스템.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 마지막 타임 스텝 후에 상기 업데이트된 상태를 변경하는 것은,
상기 마지막 타임 스텝 후에 상기 업데이트된 상태의 제1 열의 각 엔트리에 출력 파라미터 매트릭스를 적용하는 것을 포함하는 것을 특징으로 하는 시스템.
명령어들을 저장하는 하나 이상의 컴퓨터 저장 매체로서, 상기 명령어들은 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 선행하는 청구항들 중 어느 한 항의 상기 CGRN을 구현하게 하는 것을 특징으로 하는 명령어들을 저장하는 하나 이상의 컴퓨터 저장 매체.
방법으로서,
시스템 입력을 수신하는 단계; 그리고
제2항 내지 제7항 중 어느 한 항의 상기 CGRN을 사용하여 상기 시스템 입력에 대한 CGRN 출력을 생성하도록 상기 시스템 입력을 프로세싱하는 단계를 포함하는 것을 특징으로 하는 방법.
방법으로서,
단계들을 수행하도록 CGRN(convolutional gated recurrent neural network)을 오퍼레이팅하는 단계를 포함하며, 상기 단계들은,
x×y×m 차원들을 갖는 텐서인 상태를 유지하는 단계 - x, y, m은 각각 1보다 큼 -;
복수의 타임 스텝들 각각에 대해, 현재 유지된 상태를 복수의 콘벌루션 게이트들을 통해 프로세싱함으로써 상기 현재 유지된 상태를 업데이트하는 단계; 그리고
출력층을 통해 상기 복수의 타임 스텝들에서 마지막 타임 스텝 후에 상기 업데이트된 상태를 프로세싱하는 단계를 포함하며,
상기 출력층은 상기 복수의 타임 스텝들에서 상기 마지막 타임 스텝 이후에 상기 업데이트된 상태를 수신하고, CGRN 출력을 생성하기 위해 상기 업데이트된 상태를 변경하도록 구성되는 것을 특징으로 하는 방법.
제10항에 있어서, 상기 CGRN의 상태를 시스템 입력으로 초기화하는 단계를 포함하는 것을 특징으로 하는 방법.
제10항 또는 제11항에 있어서, 상기 CGRN은 시퀀스로 배열된 복수의 CGRU(convolutional gated recurrent unit)들을 포함하고,
상기 방법은 상기 현재 유지된 상태를 수신하고, 상기 현재 유지된 상태를 프로세싱하여 최하위의 업데이트된 상태를 생성하도록 상기 시퀀스 내의 최하위 CGRU를 오퍼레이팅하는 단계를 포함하며,
상기 타임 스텝에서의 서로 다른 CGRU는,
상기 시퀀스 내의 이전 CGRU에 의해 업데이트된 상기 상태를 수신하고; 그리고
상기 수신된 상태를 업데이트하도록 구성되는 것을 특징으로 하는 방법.
제12항에 있어서,
각각의 CGRU는 메인 콘볼루션 게이트를 포함하고, 그리고
상기 방법은
를 만족하는 메인 콘볼루션 게이트 출력(g)을 생성하도록 상기 메인 콘볼루션 게이트를 오퍼레이팅하는 단계를 포함하며,
여기서, s는 상기 CGRU에 의해 수신된 상기 상태이며,
는 상기 상태와 상기 메인 콘볼루션 게이트의 커널 뱅크의 콘볼루션이며, B'는 상기 메인 콘볼루션 게이트에 대한 바이어스 벡터인 것을 특징으로 하는 방법.
제13항에 있어서,
각각의 CGRU는 삭제 콘볼루션 게이트를 더 포함하고,
상기 방법은
를 만족하는 삭제 콘볼루션 게이트 출력(r)을 생성하도록 상기 삭제 콘볼루션 게이트를 오퍼레이팅하는 단계를 포함하며,
여기서, s는 상기 CGRU에 의해 수신된 상기 상태이며,
는 상기 상태와 상기 삭제 콘볼루션 게이트의 커널 뱅크의 콘볼루션이며, B''는 상기 삭제 콘볼루션 게이트에 대한 바이어스 벡터인 것을 특징으로 하는 방법.
제14항에 있어서, 상기 CGRU(CGRU(s))에 의해 업데이트되는 업데이트된 내부 상태는
식을 만족하며,
여기서, U는 GRU의 커널 뱅크이며, B는 바이어스 벡터이며,
는 포인트별 벡터 곱셈을 나타내는 것을 특징으로 하는 방법.
제10항 내지 제15항 중 어느 한 항에 있어서, 상기 마지막 타임 스텝 후에 상기 업데이트된 상태를 변경하는 단계는,
상기 마지막 타임 스텝 후에 상기 업데이트된 상태의 제1 열의 각 엔트리에 출력 파라미터 매트릭스를 적용하는 단계를 포함하는 것을 특징으로 하는 방법.
명령어들을 포함하는 컴퓨터 프로그램으로서, 상기 명령어들은 컴퓨팅 장치에 의해 실행될 때 상기 컴퓨팅 장치로 하여금 청구항 제10항 내지 제16항의 어느 항의 상기 방법을 수행하게 하는 것을 특징으로 하는 명령어들을 포함하는 컴퓨터 프로그램.