KR20190058636A

KR20190058636A - 신경망을 이용한 텍스트 시퀀스 처리

Info

Publication number: KR20190058636A
Application number: KR1020197013231A
Authority: KR
Inventors: 날 에머리히 칼크브레너; 카렌 시모냔; 라세 에스페홀트
Original assignee: 딥마인드 테크놀로지스 리미티드
Priority date: 2016-10-26
Filing date: 2017-10-24
Publication date: 2019-05-29
Also published as: WO2018081089A1; KR102359216B1; US20190286708A1; US10733390B2; JP6756916B2; JP2020502625A; US20180329897A1; US10354015B2; CN110023963A; KR20220020421A; US20200342183A1; EP3532998A1; CN110023963B; KR102458808B1; US11321542B2

Abstract

신경 기계 번역을 위한, 컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램을 포함하는 방법, 시스템 및 장치가 개시된다. 일 양태에서, 시스템은 소스 자연어로 된 단어들의 소스 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 수신하여, 소스 시퀀스의 타겟 자연어로의 번역인 단어들의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하도록 구성된다. 시스템은 소스 시퀀스의 인코딩된 표현을 생성하기 위해 소스 임베딩의 입력 시퀀스를 처리하도록 구성된 확장된 컨볼루션 신경망 및 타겟 임베딩의 출력 시퀀스를 생성하기 위해 소스 시퀀스의 인코딩된 표현을 처리하도록 구성된 마스킹된 확장 컨볼루션 신경망를 포함한다.

Description

신경망을 이용한 텍스트 시퀀스 처리

본 명세서는 신경망을 이용한 텍스트 시퀀스 처리에 관한 것이다.

기계 학습 모델은 입력을 수신하고, 수신된 입력에 기초하여 예측된 출력과 같은 출력을 생성한다. 일부 기계 학습 모델은 파라미터적 모델로서, 수신된 입력 및 모델 파라미터의 값에 기초하여 출력을 생성한다.

일부 기계 학습 모델은 다수의 모델 계층을 사용하여 수신된 입력에 대한 출력을 생성하는 심층 모델이다. 예를 들어, 심층 신경망는 수신된 입력에 비선형 변환을 각각 적용하여 출력을 생성하는 출력 계층과 하나 이상의 히든 계층을 포함하는 심층 기계 학습 모델이다.

본 명세서는, 예를 들어, 소스 언어의 텍스트를 타겟 언어로 번역하고, 텍스트 요약을 수행하고, 또는 음성 인식을 수행하는 시퀀스 변환 작업을 수행하는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로 구현되는 시스템을 기술한다.

제1양태에 따르면, 텍스트 시퀀스를 처리하기 위한 신경 기계 번역 시스템이 제공된다. 이 시스템은 소스 시퀀스, 예를 들어 소스 자연어의 워드 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 수신하고, 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스, 예를 들어, 소스 시퀀스의 인코딩된 표현을 생성하기 위해 소스 임베딩의 입력 시퀀스를 처리하도록 구성된 확장된 컨볼루션 신경망과 타겟 임베딩의 출력 시퀀스를 생성하기 위해 소스 시퀀스의 인코딩된 표현을 처리하도록 구성된 마스킹된 확장된 컨볼루션 신경망를 포함한다.

일부 구현예에서, 시스템의 마스킹된 확장 컨볼루션 신경망은 동적 전개 (dynamic unfolding)를 사용하여 출력 시퀀스를 생성하도록 구성된다. 예를 들어, 디코더는 이전에 생성된 타겟 임베딩 및 상기 인코딩된 소스 표현에 기초하여 타겟 임베딩을 반복적으로 생성한다.

일부 구현예에서, 상기 인코딩된 표현은 각 소스 임베딩에 대한 각각의 데이터 열을 포함하는 행렬이고, 출력 시퀀스의 각 시간 단계에서, 상기 마스킹된 확장 컨볼루션 네트워크는 상기 인코딩된 표현의 대응하는 열을 입력으로 취하여 타겟 임베딩을 생성하도록 구성된다.

일부 구현예에서, 상기 인코딩된 표현내의 대응하는 열을 갖지 않는 각 시간 단계에 대해, 시스템은 시간 단계에 대응하는 상기 인코딩된 표현에 새로운 열을 추가하고 상기 열의 값을 0으로 설정하도록 구성된다.

일부 구현예에서, 각 시간 단계에서, 상기 마스킹된 확장된 컨볼루션 신경망은 상기 시간 단계 이전의 시간 단계들에서 상기 인코딩된 표현 및 상기 타겟 임베딩을 조건으로 한다.

일부 구현예에서, 상기 확장 컨볼루션 신경망은 확장 컨볼루션 신경망 전체에 걸쳐 상기 소스 임베딩의 표현의 해상도를 보존하도록 구성된다.

일부 구현예에서, 상기 마스킹된 확장 컨볼루션 신경망는 복수의 1차원 마스킹된 확장 컨볼루션 신경망 계층을 포함한다.

일부 구현예에서, 특정 1차원 마스킹된 확장 컨볼루션 신경망 계층 다음에 서브-배치(sub-batch) 정규화 계층이 뒤따르고, 서브-배치 정규화 계층은 트레이닝 시퀀스의 배치에 대한 상기 신경 기계 번역 시스템의 트레이닝 중에, 상기 트레이닝 시퀀스들의 배치의 보조 서브-배치 내의 트레이닝 시퀀스에 대해 상기 특정 1차원 마스킹된 확장된 컨볼루션 신경망 계층에 의해 생성된 출력들의 배치 정규화 통계를 결정하고; 그리고 상기 배치 정규화 통계를 이용하여, 상기 보조 서브-배치와 상이한 트레이닝 시퀀스의 배치의 메인 서브-배치 내의 트레이닝 시퀀스에 대해 상기 특정 1차원 마스킹된 확장 컨볼루션 신경망 계층에 의해 생성된 출력을 정규화하한다.

일부 구현예에서, 상기 1차원의 마스킹된 확장된 컨볼루션 신경망 계층들 중 하나 이상은 하나 이상의 추가 컨볼루션 계층을 포함하는 잔여 블록으로 래핑 (wrapped)된다.

일부 구현예에서, 상기 잔여 블록은 정류된 선형 유닛(ReLU) 활성화 계층을 포함한다.

일부 구현예에서, 상기 잔여 블록은 승산 유닛 활성화 계층을 포함한다.

일부 구현예에서, 상기 복수의 1차원의 마스킹된 확장 컨볼루션 신경망 계층은 복수의 그룹으로 그룹화되고, 각 그룹 내에서 상기 그룹 내의 1차원의 마스킹된 확장 컨볼루션 신경망 계층의 확장율은 모든 계층마다 2배가 된다.

일부 구현예에서, 각 소스 임베딩은 n-그램(grams) 임베딩의 각각의 백(bag)이고, 상기 소스 시퀀스 내의 주어진 문자에 대해, 상기 문자에 대한 n-그램 임베딩 백은 소스 시퀀스의 주어진 문자에 대한 인접 토큰들의 n-그램 임베딩의 조합이다.

일부 구현예에서, 주어진 문자의 n-그램 임베딩 백은 1에서 k까지의 n에 대해 주어진 문자에 대한 인접 n-그램의 n-그램 임베딩의 합이고, 상기 k는 2보다 크거나 같은 사전 결정된 양의 정수이다.

일부 구현예에서, 상기 시스템은 소스 시퀀스를 수신하고, 상기 소스 시퀀스로부터 n-그램 임베딩 백의 시퀀스를 생성하도록 구성된 입력 서브 시스템을 더 포함한다.

일부 구현예에서, 상기 확장 컨볼루션 신경망은 마스킹되지 않은 복수의 1차원 확장 컨볼루션 신경망 계층을 포함한다.

제2양태에 따르면, 하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터로 하여금 상기 시스템을 구현하게 하는 명령들로 인코딩된 하나 이상의 컴퓨터 저장 매체가 제공된다.

제3양태에 따르면, 소스 시퀀스, 예를 들어 소스 자연어로 된 단어들의 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 획득하는 단계; 및 소스 시퀀스의 타겟 자연어로의 번역인 타겟 워드 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하기 위해 상기 시스템을 사용하여 입력 시퀀스를 처리하는 단계를 포함한다.

본 명세서에서 설명된 주제의 특정 실시예들은 다음의 이점들 중 하나 이상을 실현하도록 구현될 수 있다. 본 명세서에서 기술되는 신경 기계 번역 시스템은 시스템의 계산 시간이 최소화되도록, 즉 계산 시간이 소스 및 타겟 스트링의 길이에서 선형이 되도록 번역을 생성할 수 있다. 신경 기계 번역 시스템은 입력을 처리하여 시스템에 의해 계산된 표현의 해상도가 계산 전반에 걸쳐 최대한 유지되도록 하여 번역 품질을 향상시킨다. 컨볼루션 인코더 및 디코더를 사용함으로써, 신경 기계 번역 시스템은 최첨단 시스템의 것보다 적은 학습 및 추론 시간을 가지면서 최첨단과 일치하거나 초과하는 품질을 갖는 번역을 생성할 수 있다. 예를 들어, 장단기 메모리(LSTM:long-term-memory) 기반의 아키텍처와 같은 순환 신경망과 비교할 때, 컨벌루션 인코더 및 디코더는 각 시간 단계마다 롤아웃(rolled out)할 필요가 없으므로 트레이닝 및 추론에 필요한 계산 공간을 줄일 수 있다. n-그램 임베딩 백을 사용함으로써 신경망 번역 시스템은 개방형(open) 어휘를 유지하고, 드문 단어, 고유 이름, 숫자 등을 예측할 수 있다. 게다가, 입력들과 출력들 사이의 신경 기계 번역 시스템에서 순방향 및 역방향 신호에 의해 가로지르는 경로는 입력들과 출력들 사이의 시퀀스 거리에 독립적이므로 신호 전파 및 장거리 종속성 학습을 향상시켜 번역 품질을 향상시킨다.

본 명세서의 주제의 하나 이상의 실시예의 세부 사항은 첨부 도면 및 이하의 설명에서 설명된다. 주제의 다른 특징, 양상 및 장점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.

도 1은 예시적인 신경 기계 번역 시스템을 나타낸다.
도 2는 소스 시퀀스로부터 타겟 시퀀스를 생성하기 위한 예시적인 프로세스의 흐름도이다.
도 3은 디코더 네트워크를 사용하여 타겟 시퀀스를 생성하기 위한 예시적인 프로세스의 흐름도이다.
도 4는 서브-배치 정규화를 위한 예시적인 프로세스의 흐름도이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 요소를 나타낸다.

본 명세서는 언어 모델링 작업을 수행하거나 신경망을 사용하여 소스 언어의 텍스트를 타겟 언어로 번역하는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로 구현되는 시스템을 기술한다.

특히, 번역을 위해, 시스템은 소스 자연어로 된 단어들의 소스 시퀀스를 나타내는 소스 임베딩(source embeddings)의 입력 시퀀스를 수신하여, 소스 시퀀스의 타겟 자연어로의 번역인 단어들의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하도록 구성된다. 보다 일반적으로, 시스템은 소스 시퀀스가 타겟 시퀀스에 매핑되는 다른 시퀀스 변환 애플리케이션에 적용될 수 있다.

시스템은 소스 시퀀스의 인코딩된 표현을 생성하기 위해 소스 임베딩들의 입력 시퀀스를 처리하도록 구성된 컨볼루션 신경망 인코더를 포함한다.

시스템은 또한 타겟 임베딩의 출력 시퀀스를 생성하기 위해 소스 시퀀스의 인코딩된 표현을 처리하도록 구성된 마스킹된(masked) 컨볼루션 신경망 디코더를 포함한다.

도 1은 예시적인 신경 기계 번역 시스템(100)을 도시한다. 신경 기계 번역 시스템(100)은 후술되는 시스템, 컴포넌트 및 기술이 구현되는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로 구현되는 시스템의 예이다.

신경 기계 번역 시스템(100)은 소스 자연어로 소스 시퀀스(102)로부터 소스 임베딩 모델(104)에 의해 생성된 소스 임베딩 시퀀스(106)를 입력으로서 수신한다. 상기 시퀀스는 소스 언어로 된 단어들의 시퀀스(순서)이며, 각 단어는 하나 이상의 문자로 구성된다. ("단어"의 사용은 입력 시퀀스에 숫자가 포함될 가능성을 배제하지 않는다.) 일부 구현예에서, 소스 임베딩 모델(104)은 n-그램(grams) 임베딩 모델의 백(bag)일 수 있다. (즉, 소스 임베딩 모델은 소스 시퀀스(102)를 수신하여, 소스 임베딩 시퀀스(106) 예를 들어 소스 시퀀스로부터 n-그램 임베딩 백의 시퀀스를 생성하도록 구성된 입력 서브 시스템을 구성한다.)

신경 기계 번역 시스템(100)은 소스 임베딩 시퀀스(106)를 입력으로 취하여, 인코딩된 소스 표현(110)을 출력으로 생성하는 컨볼루션 신경망 인코더(108)를 포함한다.

인코더(108)는 확장된(dilated) 컨볼루션 아키텍쳐를 가지며 1차원(의) 컨볼루션을 소스 임베딩 시퀀스(106)에 적용한다. 일반적으로, 확장(된) 컨볼루션 아키텍쳐는 확장 없이 가능한 것보다 뉴런들 간의 더 긴 범위의 상호 작용을 허용하면서, 컨볼루션 네트워크에서 뉴런들의 수용 필드 크기를 증가시키는 효과를 갖는다. 확장된 1차원 컨볼루션 계층은 입력을 상기 계층에 대응하는 커널과 컨볼루션함으로써 출력을 생성하는데, 여기서 컨볼루션은 확장율(dilation rate)이라고 하는 스텝 사이즈에 따라 입력을 스킵한다. 확장된 컨볼루션 네트워크 내의 상이한 확장된 컨볼루션 계층은 상이한 확장율을 가질 수 있다. 만약 확장율이 계층간에 지수 함수적으로 증가하면, 컨볼루션 신경망에서의 뉴런들의 수용 필드 크기는 계층의 수에 따라 기하 급수적으로 증가한다. 일부 구현예에서, 인코더(108)의 계층들은 하나 이상의 그룹에 할당되고, 각 그룹 내에서, 그룹의 계층들의 확장율은 1의 확장율부터 시작하여 모든 계층마다 2배가 된다.

특히, 인코더(108)는 소스 임베딩 시퀀스(106)와 동일한 길이를 갖는 인코딩된 소스 표현(110)을 생성하여, 소스 임베딩 시퀀스의 해상도를 보존한다.

신경 기계 번역 시스템(100)은 인코딩된 소스 표현(110)을 입력으로 취하고 타겟 시퀀스(116)의 표현인 타겟 임베딩 시퀀스(114)를 출력으로 생성하는 마스킹된 컨볼루션 신경망 디코더(112)를 포함한다. 타겟 시퀀스(116)는 소스 시퀀스(102)의 타겟 자연어로의 번역인 단어들의 시퀀스이다.

인코더(108)와 유사하게, 디코더(112)는 확장된 1차원 컨볼루션 아키텍쳐를 가지며, 예를 들어 마스킹된 확장 컨볼루션 신경망 디코더(112)는 복수의 1차원 마스킹된 확장 컨볼루션 신경망 계층을 포함할 수 있다(반면에, 확장 컨볼루션 신경망 인코더(108)는 마스킹되지 않은 복수의 1차원 확장 컨볼루션 신경망 계층을 포함할 수 있다). 일반적으로, 디코더(112)의 마스킹된 컨볼루션 아키텍쳐는 주어진 시간 단계에서 타겟 임베딩을 생성하기 위해 상기 디코더가 장래의 시간 단계에서 생성된 타겟 임베딩에 의존하지 않도록 보장한다. 일부 구현예에서, 디코더(112)의 계층들은 하나 이상의 그룹에 할당되고, 각 그룹 내에서 그룹의 계층들의 확장율은1의 확장율에서 시작하여 모든 계층마다 2배가 된다.

디코더(112)는 동적 전개(dynamic unfolding)에 의해 가변 길이 타겟 임베딩 시퀀스(114)를 생성하는데, 여기서 디코더는 이전에 생성된 타겟 임베딩 및 인코딩된 소스 표현에 기초하여, 예를 들어 디코더가 시퀀스-종료(end-of-sequence:EOS) 토큰을 생성할 때까지 타겟 임베딩을 반복적으로 생성한다.

상기 확장된 마스킹된 컨볼루션 계층들에 부가하여, 디코더(112)는 또한 서브-배치(sub-batch) 정규화 계층들을 포함할 수 있다. 즉, 이러한 구현예에서, 디코더의 1차원 마스킹된 컨볼루션 계층들 중 하나 이상에 서브-배치 정규화 계층이 뒤 따른다. 서브-배치 정규화 계층들의 동작은 도 4의 프로세스(400)를 참조하여 아래에서 기술된다.

인코더 및 디코더 신경망을 사용하여 소스 시퀀스로부터 타겟 시퀀스를 생성하기 위한 예시적인 프로세스가 도 2를 참조하여 보다 상세히 설명된다.

도 2는 소스 시퀀스로부터 타겟 시퀀스를 생성하기 위한 예시적인 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절하게 프로그래밍된 신경 기계 번역 시스템, 예를 들어 도 1의 신경 기계 번역 시스템(100)은 프로세스(200)를 수행할 수 있다.

시스템은 소스 임베딩 모델을 사용하여 소스 자연어로 된 텍스트의 소스 시퀀스로부터 소스 임베딩의 시퀀스를 생성한다(단계 202). 특히, 시스템은 소스 자연어의 문자를 대응하는 소스 임베딩 벡터에 순차적으로 매핑한다.

일부 구현에서 소스 임베딩 모델은 소스 자연어의 문자를 단지 문자 자체에 기초하여 대응하는 소스 임베딩 벡터에 매핑한다. 일부 다른 구현예에서, 소스 임베딩 모델은 소스 시퀀스의 단어를 대응하는 소스 임베딩 벡터에 매핑한다. 일부 다른 구현예에서, 소스 임베딩 모델은 n-그램 임베딩 모델의 백이며, 1에서 k까지 범위의 n에 대해, 소스 자연어의 문자를 주어진 문자에 인접한 n-그램 문자들에 기초하여 대응하는 소스 임베딩 벡터에 매핑한다. 여기서 k는 2보다 크거나 같은 사전 결정된 양의 정수이다. 예를 들어, 소스 임베딩 모델은 우선 주어진 문자에 인접한 각 n-그램 문자를 각각의 n-그램 임베딩 벡터에 관련시키고, 각각의 n-그램 임베딩 벡터를 가산함으로써 소스 임베딩 벡터를 생성할 수 있다. 다른 예로서, 소스 임베딩 모델은 무선 주어진 문자에 인접한 각 n-그램 문자를 각각의 n-그램 임베딩 벡터에 관련시키고, 각각의 n-그램 임베딩 벡터를 연결함(concatenating)으로써 소스 임베딩 벡터를 생성할 수 있다.

다음으로, 시스템은 인코딩된 소스 표현을 출력으로 생성하는 컨볼루션 신경망 인코더에 소스 임베딩 시퀀스를 입력으로 제공한다(단계 204). 일반적으로, 인코더는 소스 임베딩 시퀀스와 동일한 길이를 갖는 인코딩된 소스 표현을 생성하도록 구성된다. 따라서, 인코딩된 소스 표현의 길이가 소스 시퀀스간에 변하는 소스 임베딩 시퀀스의 길이에 의해 결정되기 때문에, 인코딩된 소스 표현은 고정된 길이를 갖지 않는다. 일반적으로, 인코더는 소스 임베딩들의 시퀀스에 임베딩된 각 소스에 대한 각각의 데이터 열을 포함하는 행렬인 인코딩된 소스 표현을 생성하도록 구성된다.

특히, 컨볼루션 신경망 인코더는 확장된 컨볼루션 신경망 계층들의 스택을 포함하여, 확장된 컨볼루션 신경망 계층들의 스택을 통해 소스 임베딩의 시퀀스를 처리함으로써 인코딩된 소스 표현을 생성한다. 전술한 바와 같이, 일부 구현예에서, 인코더의 계층들은 하나 이상의 그룹에 할당되고, 각 그룹 내에서 그룹의 계층의 확장율은 1의 확장율에서 시작하여 모든 계층마다 2배가 된다. 소스 임베딩 모델이 소스 시퀀스 내의 주어진 문자에 인접한 각 n-그램 문자를 각각의 n-그램 임베딩 벡터에 관련시키고 상기 각각의 n-그램 임베딩 벡터를 연결함으로써 소스 임베딩 벡터를 생성하는 일부 구현예에서, 인코더의 제1 계층은 1×1 컨볼루션 계층이다.

다음으로, 시스템은 타겟 임베딩의 시퀀스를 출력으로서 생성하는 마스킹된 컨볼루션 신경망 디코더에 상기 인코딩된 소스 표현을 입력으로 제공한다(단계 206).

디코더는 동적 전개를 사용하여 타겟 임베딩의 출력 시퀀스를 생성한다. 동적 전개를 사용하여 타겟 임베딩의 출력 시퀀스를 생성하기 위한 예시적인 프로세스는 도 3의 프로세스(300)를 참조하여 아래에서 설명된다.

다음으로, 시스템은 소스 자연어로 된 소스 시퀀스의 번역인 타겟 자연어의 타겟 시퀀스를 생성하기 위해 타겟 임베딩의 시퀀스를 처리한다(단계 208). 일반적으로, 시스템은 타겟 자연어의 문자들 또는 단어들에 타겟 임베딩을 순차적으로 매핑함으로써 타겟 자연어로 된 타겟 시퀀스를 생성한다.

도 3은 디코더 네트워크를 사용하여 타겟 시퀀스를 생성하기 위한 예시적인 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절하게 프로그래밍된 신경 기계 번역 시스템, 예컨대 도 1의 신경 기계 번역 시스템(100)은 프로세스(300)를 수행할 수 있다.

프로세스(300)는 각 반복에서 각각의 타겟 임베딩을 순차적으로 생성하는 시스템에 의해 수행되는 반복 프로세스를 기술한다. 상기 반복들은 순차적으로 수행되므로 다음에서는 각 반복을 편의상 시간 단계라고 한다.

시스템은 소스 임베딩의 시퀀스에 대한 인코딩된 표현이 시간 단계에 대응하는 열을 갖는지를 결정한다(단계 302)(언급한 바와같이, 인코딩된 표현은 소스 임베딩의 시퀀스내의 각 소스 임베딩에 대한 각각의 데이터 열을 포함하는 행렬일 수 있다). 인코딩된 표현이 시간 단계에 대응하는 열을 갖지 않는다는 결정에 응답하여, 시스템은 0의 열을 시간 단계에 대한 인코딩된 표현의 대응하는 열로 식별한다(단계 304). 예를 들어, 타겟 임베딩 시퀀스가 소스 임베딩물 시퀀스보다 긴 경우, 인코딩된 표현은 시간 단계에 해당하는 열을 갖지 않을 수 있다. 인코딩된 표현이 시간 단계에 대응하는 열을 갖는다고 결정한 것에 응답하여, 시스템은 인코딩된 표현을 수정하지 않는다.

다음으로, 시스템은 이전의 시간 단계들에서 생성된 타겟 임베딩들을 연결하고, 연결된 타겟 임베딩들 및 시간 단계에 대한 소스 임베딩 시퀀스의 인코딩된 표현에 대응하는 열을 입력으로서 상기 현재 시간 단계에 대한 마스킹된 1차원 컨볼루션 신경망 디코더로 제공한다(단계 306). 디코더는 시간 단계에 대한 가능한 타겟 임베딩의 세트에 대한 출력 확률을 생성하도록 구성된다. 시스템은 확률에 따라 가능한 타겟 임베딩 세트로부터 타겟 임베딩을 샘플링하거나, 시간 단계에 대한 타겟 임베딩으로서 가장 높은 확률을 갖는 타겟 임베딩을 선택한다. 예를 들어, 디코더의 최종 계층은 상기 확률을 생성하는 소프트맥스 출력 계층일 수 있다.

일반적으로, 주어진 시간 단계에 대한 타겟 임베딩을 생성하기 위해 주어진 시간 단계에서 생성되지 않은 미래의 타겟 임베딩에 디코더가 의존하지 않도록 보장하기 위해, 디코더는 마스킹된 컨볼루션을 구현한다. 일부 구현예에서, 1차원 마스킹된 컨볼루션은 컨볼루션 커널들의 가중치 중 일부를 제로로 함으로써 구현된다.

제1 시간 단계에 대해, 이전 시간 단계에서 타겟 임베딩이 생성되지 않은 경우, 디코더 입력은 단지 소스 임베딩의 상기 인코딩된 표현의 대응 열이다.

시스템은 다양한 방식들 중 임의의 방식으로 디코더의 입력으로서 타겟 임베딩 및 상기 인코딩된 표현의 대응하는 열을 제공할 수 있다. 예를 들어, 시스템은 타겟 임베딩과 상기 인코딩된 표현의 대응 열을 연결할 수 있다. 다른 예로서, 시스템은 타겟 임베딩에 대응하는 열을 추가할 수 있다. 또 다른 예로서, 디코더는 하나 이상의 초기 신경망 계층, 예를 들어, 하나 이상의 1×1 컨볼루션 계층을 사용하여 타겟 임베딩을 먼저 처리한 다음 초기 신경망 계층들의 출력에 열을 추가할 수 있다.

다음으로, 시스템은 디코더에 의해 생성된 타겟 임베딩이 시퀀스-종료(EOS) 심볼인지 여부를 결정한다(단계 310). 상기 생성된 타겟 임베딩이 EOS 심볼이라고 결정하는 것에 응답하여, 타겟 임베딩들의 시퀀스가 출력된다(단계 312). 상기 생성된 타겟 임베딩이 EOS 심볼이 아니라고 결정하는 것에 응답하여, 프로세스(300)는 단계(302)로 돌아가 이전의 단계들을 반복한다.

시스템은 인코더와 디코더를 병렬로 실행할 수 있는데, 여기서 각 타임 스텝에서, 인코더는 인코딩된 소스 표현의 대응 열을 생성하고, 디코더는 소스 표현의 대응 열과 상기 이전에 생성된 타겟 임베딩을 처리하여 시간 단계에 대한 타겟 임베딩을 생성한다.

시스템은 원하는 출력이, 즉 소스 시퀀스를 소스 자연어에서 타겟 자연어로 번역하는 타겟 시퀀스가 알려지지 않은 소스 시퀀스 입력들에 대해 프로세스(200 및 300)를 수행할 수 있다. 시스템은 또한 인코더 및 디코더의 계층들의 파라미터에 대한 드레이닝된 값을 결정하기 위해 트레이닝 데이터 세트 내의, 즉 시스템에 의해 생성되어야 하는 타겟 시퀀스가 알려진 입력 세트 내의 소스 시퀀스 입력들에 대해 프로세스(200 및 300)를 수행할 수 있다. 프로세스(200 및 300)는 계층들을 트레이닝하기 위해 종래의 기계 학습 트레이닝 기술의 일부로서 트레이닝 데이터 세트로부터 선택된 입력들에 대해 반복적으로 수행된다.

상기 계층들을 트레이닝하기 위한 기계 학습 트레이닝 기술은 역전파에 의한 확률적 기울기 강하(gradient descent)일 수 있고, 여기서 시스템은 "배치 (batche)"라고 하는 트레이닝 데이터의 서브 세트를 선택하고, 시스템은 소스 시퀀스에 대응하는 예측된 타겟 시퀀스를 생성하고, 시스템은 역 전파에 의한 성능 측정치에 따라 시스템의 성능을 향상시키기 위해 인코더 및 디코더의 계층들의 파라미터 값을 조정한다.

일부 구현예에서, 디코더의 1차원 마스킹된 컨볼루션 계층들 중 하나 이상에 서브-배치 정규화 계층이 뒤따른다. 서브-배치 정규화 계층들의 동작은 이제 도 4의 프로세스(400)를 참조하여 기술된다.

도 4는 서브-배치 정규화를 위한 예시적인 프로세스(400)의 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절히 프로그래밍된 신경 기계 번역 시스템, 예를 들어 도 1의 신경 기계 번역 시스템(100)은 프로세스(400)를 수행할 수 있다.

트레이닝 반복 동안, 소스-타겟 시퀀스 쌍의 주어진 배치에 대해, 시스템은배치를 메인 서브-배치 및 보조 서브-배치로 분할한다(단계 402). 예를 들어, 배치는 메인 서브-배치 및 각각의 고정된 크기의 보조 서브-배치로 무작위로 또는 임의적으로 분할될 수 있다.

시스템은 시퀀스의 보조 서브-배치 내의 시퀀스들에 대한 서브-배치 정규화 계층으로의 입력들에 대한 배치 정규화 통계를 결정한다(단계 404). 상기 배치 정규화 통계는 서브-배치 정규화 계층에 대한 입력들의 평균 및 분산을 포함할 수 있다.

시스템은 보조 서브-배치에 대한 배치 정규화 통계를 사용하여, 보조 서브-배치 및 메인 서브-배치 모두에서 시퀀스들에 대한 서브-배치 정규화 계층에 대한 입력들을 정규화한다(단계 406).

시스템은 서브-배치 정규화 계층으로부터, 정규화된 입력을 서브-배치 정규화 계층으로 출력한다(단계 408). 즉, 디코더 내의 다른 계층, 예를 들어, 확장된 마스킹된 컨볼루션 계층에 대한 입력으로서 출력한다.

서브-배치 정규화로 시스템을 트레이닝 하는 동안, 역전파는 메인 서브-배치에 대한 예측된 타겟 시퀀스에 단지 기초하여 각 반복에서 수행되는 반면, 보조 서브-배치에 대한 예측된 타겟 시퀀스는 역 전파 수행시 무시된다.

서브-배치 정규화 계층들은 종래의 배치 정규화 계층과 상이하며, 이는 배치를 메인 서브-배치와 보조 서브-배치로 분할하지 않는 것이 아니라 오히려 전체 배치에 기초하여 배치 정규화 통계를 결정한다. 배치 정규화 통계의 계산은 타겟 임베딩 시퀀스내의 모든 타겟 임베딩을 따라 배치 정규화 계층에 대한 입력들을 고려하므로, 배치 정규화 통계로 배치 정규화 계층에 대한 입력들을 정규화하는 것은 디코더의 조건(conditioning) 구조에 위배된다. 그러나 서브-배치 정규화 계층을 사용하면, 배치 정규화 통계는 메인 서브-배치가 아닌 보조 서브-배치에 기초하여 계산되므로, 디코더의 조건 구조는 메인 서브-배치 내의 시퀀스들에 대해 보존되며 역 전파는 보조 서브-배치가 아닌 메인 서브-배치에 대한 예측된 시퀀스들에 기초하여 수행된다.

일부 구현예에서, 컨볼루션 신경망 인코더 및/또는 디코더의 하나 이상의 계층은 하나 이상의 추가 컨볼루션 계층을 포함하는 잔여 블록(residual blick)에 래핑된다. 일반적으로 잔여 블록들은 잔여 블록의 입력에 잔여 블록의 출력을 더함으로써 신경망의 보다 효과적인 트레이닝을 가능하게 하여, 잔여 블록내의 계층들이 증분 표현을 학습할 수 있게 한다. 일부 구현예에서, 잔여 블록은 정류된 선형 유닛(ReLU) 활성화 계층을 포함한다. 다른 구현들에서, 잔여 블록은 승산 유닛 활성화 계층을 포함한다.

본 명세서는 시스템 및 컴퓨터 프로그램 구성 요소와 관련하여 "구성된(configured)"이라는 용어를 사용한다. 특정 동작들 또는 액션들을 수행하도록 구성된 하나 이상의 컴퓨터의 시스템은, 동작시 시스템으로 하여금 동작들 또는 액션들을 수행하게 하는 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 조합을 시스템이 소프트웨어상에 설치했음을 의미한다. 특정 동작들 또는 액션들을 수행하도록 구성된 하나 이상의 컴퓨터 프로그램은, 하나 이상의 프로그램이 상기 데이터 처리 장치에 의해 실행될 때 상기 장치로 하여금 동작들 또는 액션들을 수행하게 하는 명령들을 포함함을 의미한다.

본 명세서에서 설명된 주제 및 기능적 동작들의 실시예는 본 명세서 및 그 구조적 등가물에 개시된 구조들 및 그들의 하나 이상의 조합을 포함하여, 디지털 전자 회로, 유형적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어로 구현될 수 있다. 본 명세서에서 설명된 주제의 실시예는 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의해 실행되거나 데이터 처리 장치의 동작을 제어하기 위한 유형의 비 일시적 저장 매체상에 인코딩된 컴퓨터 프로그램 명령들의 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터 저장 매체는 기계 판독 가능 저장 디바이스, 기계 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다. 대안적으로 또는 부가적으로, 프로그램 명령들은 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 송신을 위해 정보를 인코딩하기 위해 생성되는, 인위적으로 생성된 전파된 신호, 예를 들어, 기계-생성의 전기, 광학 또는 전자기 신호 상에 인코딩될 수 있다.

"데이터 처리 장치"라는 용어는 데이터 처리 하드웨어를 지칭하며, 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 복수의 프로세서 또는 컴퓨터를 포함하여, 데이터를 처리하기 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 상기 장치는 또한 특수 목적 논리 회로, 예를 들어, FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(주문형 집적 회로)일 수 있거나, 포함할 수 있다. 상기 장치는 하드웨어 이외에, 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 하나 이상의 이들의 조합을 구성하는 코드를 선택적으로 포함할 수 있다.

프로그램, 소프트웨어, 소프트웨어 애플리케이션, 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 기술될 수 있는 컴퓨터 프로그램은 컴파일된 또는 해석된 언어, 또는 선언적 또는 절차적 언어를 포함하여 임의의 형태의 프로그래밍 언어로 작성될 수 있고, 독립 실행형 프로그램 또는 모듈, 구성 요소, 서브 루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함하여 임의의 형태로 배포될 수 있다. 프로그램은 파일 시스템의 파일에 해당할 수도 있지만 그렇지 않을 수도 있다. 프로그램은 다른 프로그램이나 데이터(예컨대, 마크 업 언어 문서에 저장된 하나 이상의 스크립트)를 보유하고 있는 파일의 일부분, 문제의 프로그램 전용의 단일 파일 또는 다수의 조정 파일(예컨대, 하나 이상의 모듈, 서브 프로그램 또는 코드의 일부를 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 사이트에 있거나 여러 사이트에 분산되어 있으며 데이터 통신 네트워크로 상호 연결된 다수의 컴퓨터상에서 실행되도록 배포될 수 있다.

본 명세서에서, "엔진"이라는 용어는 하나 이상의 특정 기능을 수행하도록 프로그래밍된 소프트웨어 기반 시스템, 서브 시스템, 또는 프로세스를 지칭하도록 광범위하게 사용된다. 일반적으로 엔진은 하나 이상의 소프트웨어 모듈 또는 구성 요소로 구현되며 하나 이상의 위치에 있는 하나 이상의 컴퓨터상에 설치된다. 일부 경우, 하나 이상의 컴퓨터가 특정 엔진 전용으로 사용되고, 다른 경우에는 더수의 엔진이 동일한 컴퓨터 또는 컴퓨터들상에 설치되어 실행될 수 있다.

본 명세서에서 설명된 프로세스 및 논리 흐름은 입력 데이터를 조작하고 출력을 생성함으로써 기능을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 프로세스 및 논리 흐름은 또한 특수 목적 논리 회로, 예를 들어 FPGA 또는 ASIC에 의해, 또는 특수 목적 논리 회로와 하나 이상의 프로그래밍된 컴퓨터의 조합에 의해 수행될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터는 범용 또는 특수 목적 마이크로 프로세서 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 기반으로 할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성 요소는 명령을 수행하거나 실행하기 위한 중앙 처리 장치 및 명령 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 중앙 처리 장치 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 또는 그 안에 통합될 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스((예를 들어, 자기, 광 자기 디스크 또는 광 디스크)로부터 데이터를 수신하거나 전송하거나 둘 모두를 하기 위해 동작 가능하게 결합될 것이다. 그러나 컴퓨터에는 이러한 디바이스들이 있을 필요가 없다. 더욱이, 컴퓨터는 다른 디바이스, 예를 들어 이동 전화, 개인 휴대 정보 단말기(PDA), 모바일 오디오 또는 비디오 플계층, 게임 콘솔, 위성 위치 확인 시스템(GPS) 수신기 또는 휴대용 저장 디바이스(예컨대, 범용 직렬 버스(USB) 플래시 드라이브)에 내장될 수 있다.

컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 반도체 메모리 디바이스(예컨대, EPROM, EEPROM 및 플래시 메모리 디바이스); 자기 디스크(예컨대, 내부 하드 디스크 또는 이동식 디스크); 광 자기 디스크; 및 CD ROM 및 DVD-ROM 디스크를 포함하여, 모든 형태의 비 휘발성 메모리, 매체 및 메모리 디바이스를 포함한다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 기술된 본 발명의 실시예는 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 갖는 컴퓨터상에서 구현될 수 있다. 다른 종류의 디바이스가 사용자와의 상호 작용을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백 일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하여 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 디바이스와 문서를 주고 받음으로써, 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여 사용자 디바이스의 웹 브라우저에 웹 페이지를 전송함으로써 사용자와 상호 작용할 수 있다. 또한, 컴퓨터는 문자 메시지 또는 다른 형태의 메시지를 개인용 디바이스(예를 들어, 메시징 애플리케이션을 실행중인 스마트 폰)에 송신하고 사용자로부터 응답 메시지를 수신함으로써 사용자와 상호 작용할 수 있다.

기계 학습 모델을 구현하기 위한 데이터 처리 장치는 또한 예를 들어, 기계 학습 훈련 또는 생산, 즉 추론, 작업 부하의 공통적이고 계산 집중적인 부분을 처리하기 위한 특수 목적 하드웨어 가속기 유닛을 포함할 수 있다.

기계 학습 모델은 텐서플로우(TensorFlow) 프레임 워크, Microsoft Cognitive Toolkit 프레임 워크, Apache Singa 프레임 워크 또는 Apache MXNet 프레임 워크와 같은 기계 학습 프레임 워크를 사용하여 구현 및 배포될 수 있다.

본 명세서에서 기술된 발명의 실시예는 예를 들어 데이터 서버와 같은 백엔드 컴포넌트, 애플리케이션 서버와 같은 미들웨어 컴포넌트 또는 그래픽 사용자 인터페이스를 가지는 사용자 컴퓨터 또는 사용자가 본 명세서에 기술된 본 발명의 구현예와 인터렉션할 수 있는 웹 브라우저와 같은 프론트엔드 컴포넌트 또는 하나 이상의 상기 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 LAN(local area network) 및 WAN(wide area network) 예를 들어, 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다. 일부 실시예에서, 서버는 예를 들어, 클라이언트로서 동작하는 디바이스와 상호 작용하는 사용자에게 데이터를 디스플레이하고 사용자로부터 사용자 입력을 수신하기 위해 데이터, 예컨대 HTML 페이지를 사용자 디바이스로 전송한다. 사용자 디바이스에서 생성된 데이터, 예를 들어 사용자 상호 작용의 결과는 디바이스로부터 서버에서 수신될 수 있다.

본 명세서는 많은 특정 구현 세부 내용을 포함하지만, 이들은 임의의 발명의 범위 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정한 발명의 특정한 실시예에 특정적일 수 있는 구성들에 대한 설명으로 해석되어야 한다. 별개의 실시예의 맥락에서 본 명세서에서 기술되는 일정 구성들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 맥락에서 기술된 다양한 구성들은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 서브 조합으로 구현될 수 있다. 게다가, 구성들은 일정 조합으로 동작하고 심지어 초기적으로 그렇게 청구되는 것으로서 상기에서 기술될 수 있지만, 청구된 조합으로부터의 하나 이상의 구성들은 일부 경우, 조합으로부터 제거될 수 있고, 청구된 조합은 서브 조합 또는 서브 조합의 변형으로 안내될 수 있다.

유사하게, 동작들이 특정 순서로 도면에 도시되고 청구항들에 인용되어 있지만, 이는 바람직한 결과를 달성하기 위해 이러한 동작들이 도시된 순서 또는 시계열적 순서로 수행되거나 모든 도시된 동작이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 환경에서, 멀티태스킹과 병렬 처리가 유리할 수 있다. 게다가, 상술된 실시예에서 다양한 시스템 모듈들 및 컴포넌트들의 분리는 모든 실시예에서 그러한 분리가 필요한 것으로서 이해되어서는 안되며, 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일의 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품들에 패키징될 수 있음을 이해해야 한다.

주제의 특정 실시예들이 설명되었다. 다른 실시예들도 다음의 청구항들의 범위 내에 있다. 예를 들면, 청구항들에 인용된 액션들은 상이한 순서로 수행되고 여전히 원하는 결과를 달성할 수 있다. 일 예시로서, 첨부 도면들에 도시된 프로세스들은 원하는 결과를 달성하기 위해 도시된 특정 순서 또는 시계열적 순서를 반드시 필요로 하지는 않는다. 어떤 경우에는, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims

하나 이상의 컴퓨터에 의해 구현되는 신경 기계 번역 시스템으로서,
상기 신경 기계 번역 시스템은 소스 자연어로 된 단어들의 소스 시퀀스를 나타내는 소스 임베딩(source embeddings)의 입력 시퀀스를 수신하여, 소스 시퀀스의 타겟 자연어로의 번역인 단어들의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하도록 구성되고, 상기 신경 기계 번역 시스템은:
상기 소스 시퀀스의 인코딩된 표현을 생성하기 위해 상기 소스 임베딩의 입력 시퀀스를 처리하도록 구성된 확장 컨볼루션 신경망과; 그리고
상기 타겟 임베딩의 출력 시퀀스를 생성하기 위해 상기 소스 시퀀스의 인코딩된 표현을 처리하도록 구성된 마스킹된 확장(dilated) 컨볼루션 신경망를 포함하는 것을 특징으로 하는 신경 기계 번역 시스템.
제1항에 있어서,
상기 마스킹된 확장 컨볼루션 신경망은,
동적 전개(dynamic unfolding)를 사용하여 출력 시퀀스를 생성하도록 구성되는 것을 특징으로 하는 신경 기계 번역 시스템.
제2항에 있어서,
상기 인코딩된 표현은 각 소스 임베딩에 대한 각각의 데이터 열을 포함하는 행렬이고, 상기 마스킹된 확장 컨볼루션 네트워크는 출력 시퀀스의 각 시간 단계에서, 상기 인코딩된 표현내의 대응하는 열을 입력으로 취하여 타겟 임베딩을 생성하도록 구성되는 것을 특징으로 하는 신경 기계 번역 시스템.
제3항에 있어서,
상기 인코딩된 표현내의 대응하는 열을 갖지 않는 각 시간 단계에 대해, 상기 시스템은 시간 단계에 대응하는 상기 인코딩된 표현에 새로운 열을 추가하고 열의 값을 0으로 설정하도록 구성되는 것을 특징으로 하는 신경 기계 번역 시스템.
제3항 또는 제4항에 있어서,
각 시간 단계에서, 상기 마스킹된 확장된 컨볼루션 신경망은 상기 시간 단계 이전의 시간 단계들에서 상기 인코딩된 표현 및 상기 타겟 임베딩을 조건으로 하는 것을 특징으로 하는 신경 기계 번역 시스템.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 확장 컨볼루션 신경망은,
상기 확장된 컨볼루션 신경망 전체에 걸쳐 상기 소스 임베딩의 표현의 해상도를 보존하도록 구성되는 것을 특징으로 하는 신경 기계 번역 시스템.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 마스킹된 확장 컨볼루션 신경망는,
복수의 1차원 마스킹된 확장 컨볼루션 신경망 계층을 포함하는 것을 특징으로 하는 신경 기계 번역 시스템.
제7항에 있어서,
특정 1차원 마스킹된 확장 컨볼루션 신경망 계층 다음에 서브-배치(sub-batch) 정규화 계층이 뒤따르고, 상기 서브-배치 정규화 계층은 트레이닝 시퀀스의 배치에 대한 상기 신경 기계 번역 시스템의 트레이닝 동안:
상기 트레이닝 시퀀스들의 배치의 보조 서브-배치 내의 트레이닝 시퀀스에 대해 상기 특정 1차원 마스킹된 확장된 컨볼루션 신경망 계층에 의해 생성된 출력들의 배치 정규화 통계를 결정하고; 그리고
상기 배치 정규화 통계를 이용하여, 상기 보조 서브-배치와 상이한 트레이닝 시퀀스의 배치의 메인 서브-배치 내의 트레이닝 시퀀스에 대해 상기 특정 1차원 마스킹된 확장 컨볼루션 신경망 계층에 의해 생성된 출력을 정규화하는 것을 특징으로 하는 신경 기계 번역 시스템.
제7항 또는 제8항에 있어서,
상기 1차원 마스킹된 확장된 컨볼루션 신경망 계층들 중 하나 이상은 하나 이상의 추가 컨볼루션 계층을 포함하는 잔여 블록으로 래핑(wrapped)되는 것을 특징으로 하는 신경 기계 번역 시스템.
제9항에 있어서,
상기 잔여 블록은 정류된 선형 유닛(ReLU) 활성화 계층을 포함하는 것을 특징으로 하는 신경 기계 번역 시스템.
제9항에 있어서,
상기 잔여 블록은 승산 유닛 활성화 계층을 포함하는 것을 특징으로 하는 신경 기계 번역 시스템.
제7항 내지 제11항 중 어느 한 항에 있어서,
상기 복수의 1차원의 마스킹된 확장 컨볼루션 신경망 계층은 복수의 그룹으로 그룹화되고, 각 그룹 내에서 상기 그룹 내의 1차원의 마스킹된 확장 컨볼루션 신경망 계층의 확장율은 모든 계층마다 2배가 되는 것을 특징으로 하는 신경 기계 번역 시스템.
제1항 내지 제12항 중 어느 한 항에 있어서,
각 소스 임베딩은 n-그램(grams) 임베딩의 각각의 백(bag)이고,
상기 소스 시퀀스 내의 주어진 문자에 대해, 상기 문자에 대한 n-그램 임베딩 백은 소스 시퀀스 내의 상기 주어진 문자에 대한 인접 문자들의 n-그램 임베딩의 조합인 것을 특징으로 하는 신경 기계 번역 시스템.
제13항에 있어서,
상기 주어진 문자의 n-그램 임베딩 백은,
1에서 k까지의 n에 대해 상기 주어진 문자에 대한 인접 n-그램의 n-그램 임베딩의 합이고, 상기 k는 2보다 크거나 같은 사전 결정된 양의 정수인 것을 특징으로 하는 신경 기계 번역 시스템.
제13항 또는 제14항에 있어서,
상기 소스 시퀀스를 수신하고, 그리고
상기 소스 시퀀스로부터 n-그램 임베딩 백의 시퀀스를 생성하도록 구성된 입력 서브 시스템을 더 포함하는 것을 특징으로 하는 신경 기계 번역 시스템.
제1항 내지 제15항 중 어느 한 항에 있어서,
상기 확장 컨볼루션 신경망은,
마스킹되지 않은 복수의 1차원 확장 컨볼루션 신경망 계층을 포함하는 것을 특징으로 하는 신경 기계 번역 시스템.
하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터로 하여금 제1 항 내지 제16항 중 어느 한 항의 시스템을 구현하게 하는 명령들로 인코딩된 하나 이상의 컴퓨터 저장 매체.
방법으로서,
소스 자연어로 된 단어들의 소스 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 획득하는 단계; 및
상기 소스 시퀀스의 타겟 자연어로의 번역인 타겟 단어 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하기 위해 제1항 내지 제16항 중 어느 한 항의 시스템을 사용하여 입력 시퀀스를 처리하는 단계를 포함하는 것을 특징으로 하는 방법.