KR20220020421A - 신경망을 이용한 텍스트 시퀀스 처리 - Google Patents
신경망을 이용한 텍스트 시퀀스 처리 Download PDFInfo
- Publication number
- KR20220020421A KR20220020421A KR1020227003520A KR20227003520A KR20220020421A KR 20220020421 A KR20220020421 A KR 20220020421A KR 1020227003520 A KR1020227003520 A KR 1020227003520A KR 20227003520 A KR20227003520 A KR 20227003520A KR 20220020421 A KR20220020421 A KR 20220020421A
- Authority
- KR
- South Korea
- Prior art keywords
- sequence
- source
- neural network
- target
- embeddings
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 title claims description 33
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 37
- 230000001537 neural effect Effects 0.000 claims abstract description 28
- 238000010606 normalization Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 23
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000001143 conditioned effect Effects 0.000 claims description 2
- 238000013519 translation Methods 0.000 abstract description 30
- 230000014616 translation Effects 0.000 abstract description 30
- 238000004590 computer program Methods 0.000 abstract description 15
- 241000707255 Paralepididae Species 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G06N3/0454—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G06N3/0472—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Error Detection And Correction (AREA)
Abstract
신경 기계 번역을 위한, 컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램을 포함하는 방법, 시스템 및 장치가 개시된다. 일 양태에서, 시스템은 소스 자연어로 된 단어들의 소스 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 수신하여, 소스 시퀀스의 타겟 자연어로의 번역인 단어들의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하도록 구성된다. 시스템은 소스 시퀀스의 인코딩된 표현을 생성하기 위해 소스 임베딩의 입력 시퀀스를 처리하도록 구성된 확장된 컨볼루션 신경망 및 타겟 임베딩의 출력 시퀀스를 생성하기 위해 소스 시퀀스의 인코딩된 표현을 처리하도록 구성된 마스킹된 확장 컨볼루션 신경망를 포함한다.
Description
본 명세서는 신경망을 이용한 텍스트 시퀀스 처리에 관한 것이다.
기계 학습 모델은 입력을 수신하고, 수신된 입력에 기초하여 예측된 출력과 같은 출력을 생성한다. 일부 기계 학습 모델은 파라미터적 모델로서, 수신된 입력 및 모델 파라미터의 값에 기초하여 출력을 생성한다.
일부 기계 학습 모델은 다수의 모델 계층을 사용하여 수신된 입력에 대한 출력을 생성하는 심층 모델이다. 예를 들어, 심층 신경망는 수신된 입력에 비선형 변환을 각각 적용하여 출력을 생성하는 출력 계층과 하나 이상의 히든 계층을 포함하는 심층 기계 학습 모델이다.
본 명세서는, 예를 들어, 소스 언어의 텍스트를 타겟 언어로 번역하고, 텍스트 요약을 수행하고, 또는 음성 인식을 수행하는 시퀀스 변환 작업을 수행하는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로 구현되는 시스템을 기술한다.
제1양태에 따르면, 텍스트 시퀀스를 처리하기 위한 신경 기계 번역 시스템이 제공된다. 이 시스템은 소스 시퀀스, 예를 들어 소스 자연어의 워드 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 수신하고, 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스, 예를 들어, 소스 시퀀스의 인코딩된 표현을 생성하기 위해 소스 임베딩의 입력 시퀀스를 처리하도록 구성된 확장된 컨볼루션 신경망과 타겟 임베딩의 출력 시퀀스를 생성하기 위해 소스 시퀀스의 인코딩된 표현을 처리하도록 구성된 마스킹된 확장된 컨볼루션 신경망를 포함한다.
일부 구현예에서, 시스템의 마스킹된 확장 컨볼루션 신경망은 동적 전개 (dynamic unfolding)를 사용하여 출력 시퀀스를 생성하도록 구성된다. 예를 들어, 디코더는 이전에 생성된 타겟 임베딩 및 상기 인코딩된 소스 표현에 기초하여 타겟 임베딩을 반복적으로 생성한다.
일부 구현예에서, 상기 인코딩된 표현은 각 소스 임베딩에 대한 각각의 데이터 열을 포함하는 행렬이고, 출력 시퀀스의 각 시간 단계에서, 상기 마스킹된 확장 컨볼루션 네트워크는 상기 인코딩된 표현의 대응하는 열을 입력으로 취하여 타겟 임베딩을 생성하도록 구성된다.
일부 구현예에서, 상기 인코딩된 표현내의 대응하는 열을 갖지 않는 각 시간 단계에 대해, 시스템은 시간 단계에 대응하는 상기 인코딩된 표현에 새로운 열을 추가하고 상기 열의 값을 0으로 설정하도록 구성된다.
일부 구현예에서, 각 시간 단계에서, 상기 마스킹된 확장된 컨볼루션 신경망은 상기 시간 단계 이전의 시간 단계들에서 상기 인코딩된 표현 및 상기 타겟 임베딩을 조건으로 한다.
일부 구현예에서, 상기 확장 컨볼루션 신경망은 확장 컨볼루션 신경망 전체에 걸쳐 상기 소스 임베딩의 표현의 해상도를 보존하도록 구성된다.
일부 구현예에서, 상기 마스킹된 확장 컨볼루션 신경망는 복수의 1차원 마스킹된 확장 컨볼루션 신경망 계층을 포함한다.
일부 구현예에서, 특정 1차원 마스킹된 확장 컨볼루션 신경망 계층 다음에 서브-배치(sub-batch) 정규화 계층이 뒤따르고, 서브-배치 정규화 계층은 트레이닝 시퀀스의 배치에 대한 상기 신경 기계 번역 시스템의 트레이닝 중에, 상기 트레이닝 시퀀스들의 배치의 보조 서브-배치 내의 트레이닝 시퀀스에 대해 상기 특정 1차원 마스킹된 확장된 컨볼루션 신경망 계층에 의해 생성된 출력들의 배치 정규화 통계를 결정하고; 그리고 상기 배치 정규화 통계를 이용하여, 상기 보조 서브-배치와 상이한 트레이닝 시퀀스의 배치의 메인 서브-배치 내의 트레이닝 시퀀스에 대해 상기 특정 1차원 마스킹된 확장 컨볼루션 신경망 계층에 의해 생성된 출력을 정규화하한다.
일부 구현예에서, 상기 1차원의 마스킹된 확장된 컨볼루션 신경망 계층들 중 하나 이상은 하나 이상의 추가 컨볼루션 계층을 포함하는 잔여 블록으로 래핑 (wrapped)된다.
일부 구현예에서, 상기 잔여 블록은 정류된 선형 유닛(ReLU) 활성화 계층을 포함한다.
일부 구현예에서, 상기 잔여 블록은 승산 유닛 활성화 계층을 포함한다.
일부 구현예에서, 상기 복수의 1차원의 마스킹된 확장 컨볼루션 신경망 계층은 복수의 그룹으로 그룹화되고, 각 그룹 내에서 상기 그룹 내의 1차원의 마스킹된 확장 컨볼루션 신경망 계층의 확장율은 모든 계층마다 2배가 된다.
일부 구현예에서, 각 소스 임베딩은 n-그램(grams) 임베딩의 각각의 백(bag)이고, 상기 소스 시퀀스 내의 주어진 문자에 대해, 상기 문자에 대한 n-그램 임베딩 백은 소스 시퀀스의 주어진 문자에 대한 인접 토큰들의 n-그램 임베딩의 조합이다.
일부 구현예에서, 주어진 문자의 n-그램 임베딩 백은 1에서 k까지의 n에 대해 주어진 문자에 대한 인접 n-그램의 n-그램 임베딩의 합이고, 상기 k는 2보다 크거나 같은 사전 결정된 양의 정수이다.
일부 구현예에서, 상기 시스템은 소스 시퀀스를 수신하고, 상기 소스 시퀀스로부터 n-그램 임베딩 백의 시퀀스를 생성하도록 구성된 입력 서브 시스템을 더 포함한다.
일부 구현예에서, 상기 확장 컨볼루션 신경망은 마스킹되지 않은 복수의 1차원 확장 컨볼루션 신경망 계층을 포함한다.
제2양태에 따르면, 하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터로 하여금 상기 시스템을 구현하게 하는 명령들로 인코딩된 하나 이상의 컴퓨터 저장 매체가 제공된다.
제3양태에 따르면, 소스 시퀀스, 예를 들어 소스 자연어로 된 단어들의 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 획득하는 단계; 및 소스 시퀀스의 타겟 자연어로의 번역인 타겟 워드 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하기 위해 상기 시스템을 사용하여 입력 시퀀스를 처리하는 단계를 포함한다.
본 명세서에서 설명된 주제의 특정 실시예들은 다음의 이점들 중 하나 이상을 실현하도록 구현될 수 있다. 본 명세서에서 기술되는 신경 기계 번역 시스템은 시스템의 계산 시간이 최소화되도록, 즉 계산 시간이 소스 및 타겟 스트링의 길이에서 선형이 되도록 번역을 생성할 수 있다. 신경 기계 번역 시스템은 입력을 처리하여 시스템에 의해 계산된 표현의 해상도가 계산 전반에 걸쳐 최대한 유지되도록 하여 번역 품질을 향상시킨다. 컨볼루션 인코더 및 디코더를 사용함으로써, 신경 기계 번역 시스템은 최첨단 시스템의 것보다 적은 학습 및 추론 시간을 가지면서 최첨단과 일치하거나 초과하는 품질을 갖는 번역을 생성할 수 있다. 예를 들어, 장단기 메모리(LSTM:long-term-memory) 기반의 아키텍처와 같은 순환 신경망과 비교할 때, 컨벌루션 인코더 및 디코더는 각 시간 단계마다 롤아웃(rolled out)할 필요가 없으므로 트레이닝 및 추론에 필요한 계산 공간을 줄일 수 있다. n-그램 임베딩 백을 사용함으로써 신경망 번역 시스템은 개방형(open) 어휘를 유지하고, 드문 단어, 고유 이름, 숫자 등을 예측할 수 있다. 게다가, 입력들과 출력들 사이의 신경 기계 번역 시스템에서 순방향 및 역방향 신호에 의해 가로지르는 경로는 입력들과 출력들 사이의 시퀀스 거리에 독립적이므로 신호 전파 및 장거리 종속성 학습을 향상시켜 번역 품질을 향상시킨다.
본 명세서의 주제의 하나 이상의 실시예의 세부 사항은 첨부 도면 및 이하의 설명에서 설명된다. 주제의 다른 특징, 양상 및 장점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.
도 1은 예시적인 신경 기계 번역 시스템을 나타낸다.
도 2는 소스 시퀀스로부터 타겟 시퀀스를 생성하기 위한 예시적인 프로세스의 흐름도이다.
도 3은 디코더 네트워크를 사용하여 타겟 시퀀스를 생성하기 위한 예시적인 프로세스의 흐름도이다.
도 4는 서브-배치 정규화를 위한 예시적인 프로세스의 흐름도이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 요소를 나타낸다.
도 2는 소스 시퀀스로부터 타겟 시퀀스를 생성하기 위한 예시적인 프로세스의 흐름도이다.
도 3은 디코더 네트워크를 사용하여 타겟 시퀀스를 생성하기 위한 예시적인 프로세스의 흐름도이다.
도 4는 서브-배치 정규화를 위한 예시적인 프로세스의 흐름도이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 요소를 나타낸다.
본 명세서는 언어 모델링 작업을 수행하거나 신경망을 사용하여 소스 언어의 텍스트를 타겟 언어로 번역하는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로 구현되는 시스템을 기술한다.
특히, 번역을 위해, 시스템은 소스 자연어로 된 단어들의 소스 시퀀스를 나타내는 소스 임베딩(source embeddings)의 입력 시퀀스를 수신하여, 소스 시퀀스의 타겟 자연어로의 번역인 단어들의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하도록 구성된다. 보다 일반적으로, 시스템은 소스 시퀀스가 타겟 시퀀스에 매핑되는 다른 시퀀스 변환 애플리케이션에 적용될 수 있다.
시스템은 소스 시퀀스의 인코딩된 표현을 생성하기 위해 소스 임베딩들의 입력 시퀀스를 처리하도록 구성된 컨볼루션 신경망 인코더를 포함한다.
시스템은 또한 타겟 임베딩의 출력 시퀀스를 생성하기 위해 소스 시퀀스의 인코딩된 표현을 처리하도록 구성된 마스킹된(masked) 컨볼루션 신경망 디코더를 포함한다.
도 1은 예시적인 신경 기계 번역 시스템(100)을 도시한다. 신경 기계 번역 시스템(100)은 후술되는 시스템, 컴포넌트 및 기술이 구현되는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로 구현되는 시스템의 예이다.
신경 기계 번역 시스템(100)은 소스 자연어로 소스 시퀀스(102)로부터 소스 임베딩 모델(104)에 의해 생성된 소스 임베딩 시퀀스(106)를 입력으로서 수신한다. 상기 시퀀스는 소스 언어로 된 단어들의 시퀀스(순서)이며, 각 단어는 하나 이상의 문자로 구성된다. ("단어"의 사용은 입력 시퀀스에 숫자가 포함될 가능성을 배제하지 않는다.) 일부 구현예에서, 소스 임베딩 모델(104)은 n-그램(grams) 임베딩 모델의 백(bag)일 수 있다. (즉, 소스 임베딩 모델은 소스 시퀀스(102)를 수신하여, 소스 임베딩 시퀀스(106) 예를 들어 소스 시퀀스로부터 n-그램 임베딩 백의 시퀀스를 생성하도록 구성된 입력 서브 시스템을 구성한다.)
신경 기계 번역 시스템(100)은 소스 임베딩 시퀀스(106)를 입력으로 취하여, 인코딩된 소스 표현(110)을 출력으로 생성하는 컨볼루션 신경망 인코더(108)를 포함한다.
인코더(108)는 확장된(dilated) 컨볼루션 아키텍쳐를 가지며 1차원(의) 컨볼루션을 소스 임베딩 시퀀스(106)에 적용한다. 일반적으로, 확장(된) 컨볼루션 아키텍쳐는 확장 없이 가능한 것보다 뉴런들 간의 더 긴 범위의 상호 작용을 허용하면서, 컨볼루션 네트워크에서 뉴런들의 수용 필드 크기를 증가시키는 효과를 갖는다. 확장된 1차원 컨볼루션 계층은 입력을 상기 계층에 대응하는 커널과 컨볼루션함으로써 출력을 생성하는데, 여기서 컨볼루션은 확장율(dilation rate)이라고 하는 스텝 사이즈에 따라 입력을 스킵한다. 확장된 컨볼루션 네트워크 내의 상이한 확장된 컨볼루션 계층은 상이한 확장율을 가질 수 있다. 만약 확장율이 계층간에 지수 함수적으로 증가하면, 컨볼루션 신경망에서의 뉴런들의 수용 필드 크기는 계층의 수에 따라 기하 급수적으로 증가한다. 일부 구현예에서, 인코더(108)의 계층들은 하나 이상의 그룹에 할당되고, 각 그룹 내에서, 그룹의 계층들의 확장율은 1의 확장율부터 시작하여 모든 계층마다 2배가 된다.
특히, 인코더(108)는 소스 임베딩 시퀀스(106)와 동일한 길이를 갖는 인코딩된 소스 표현(110)을 생성하여, 소스 임베딩 시퀀스의 해상도를 보존한다.
신경 기계 번역 시스템(100)은 인코딩된 소스 표현(110)을 입력으로 취하고 타겟 시퀀스(116)의 표현인 타겟 임베딩 시퀀스(114)를 출력으로 생성하는 마스킹된 컨볼루션 신경망 디코더(112)를 포함한다. 타겟 시퀀스(116)는 소스 시퀀스(102)의 타겟 자연어로의 번역인 단어들의 시퀀스이다.
인코더(108)와 유사하게, 디코더(112)는 확장된 1차원 컨볼루션 아키텍쳐를 가지며, 예를 들어 마스킹된 확장 컨볼루션 신경망 디코더(112)는 복수의 1차원 마스킹된 확장 컨볼루션 신경망 계층을 포함할 수 있다(반면에, 확장 컨볼루션 신경망 인코더(108)는 마스킹되지 않은 복수의 1차원 확장 컨볼루션 신경망 계층을 포함할 수 있다). 일반적으로, 디코더(112)의 마스킹된 컨볼루션 아키텍쳐는 주어진 시간 단계에서 타겟 임베딩을 생성하기 위해 상기 디코더가 장래의 시간 단계에서 생성된 타겟 임베딩에 의존하지 않도록 보장한다. 일부 구현예에서, 디코더(112)의 계층들은 하나 이상의 그룹에 할당되고, 각 그룹 내에서 그룹의 계층들의 확장율은1의 확장율에서 시작하여 모든 계층마다 2배가 된다.
디코더(112)는 동적 전개(dynamic unfolding)에 의해 가변 길이 타겟 임베딩 시퀀스(114)를 생성하는데, 여기서 디코더는 이전에 생성된 타겟 임베딩 및 인코딩된 소스 표현에 기초하여, 예를 들어 디코더가 시퀀스-종료(end-of-sequence:EOS) 토큰을 생성할 때까지 타겟 임베딩을 반복적으로 생성한다.
상기 확장된 마스킹된 컨볼루션 계층들에 부가하여, 디코더(112)는 또한 서브-배치(sub-batch) 정규화 계층들을 포함할 수 있다. 즉, 이러한 구현예에서, 디코더의 1차원 마스킹된 컨볼루션 계층들 중 하나 이상에 서브-배치 정규화 계층이 뒤 따른다. 서브-배치 정규화 계층들의 동작은 도 4의 프로세스(400)를 참조하여 아래에서 기술된다.
인코더 및 디코더 신경망을 사용하여 소스 시퀀스로부터 타겟 시퀀스를 생성하기 위한 예시적인 프로세스가 도 2를 참조하여 보다 상세히 설명된다.
도 2는 소스 시퀀스로부터 타겟 시퀀스를 생성하기 위한 예시적인 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절하게 프로그래밍된 신경 기계 번역 시스템, 예를 들어 도 1의 신경 기계 번역 시스템(100)은 프로세스(200)를 수행할 수 있다.
시스템은 소스 임베딩 모델을 사용하여 소스 자연어로 된 텍스트의 소스 시퀀스로부터 소스 임베딩의 시퀀스를 생성한다(단계 202). 특히, 시스템은 소스 자연어의 문자를 대응하는 소스 임베딩 벡터에 순차적으로 매핑한다.
일부 구현에서 소스 임베딩 모델은 소스 자연어의 문자를 단지 문자 자체에 기초하여 대응하는 소스 임베딩 벡터에 매핑한다. 일부 다른 구현예에서, 소스 임베딩 모델은 소스 시퀀스의 단어를 대응하는 소스 임베딩 벡터에 매핑한다. 일부 다른 구현예에서, 소스 임베딩 모델은 n-그램 임베딩 모델의 백이며, 1에서 k까지 범위의 n에 대해, 소스 자연어의 문자를 주어진 문자에 인접한 n-그램 문자들에 기초하여 대응하는 소스 임베딩 벡터에 매핑한다. 여기서 k는 2보다 크거나 같은 사전 결정된 양의 정수이다. 예를 들어, 소스 임베딩 모델은 우선 주어진 문자에 인접한 각 n-그램 문자를 각각의 n-그램 임베딩 벡터에 관련시키고, 각각의 n-그램 임베딩 벡터를 가산함으로써 소스 임베딩 벡터를 생성할 수 있다. 다른 예로서, 소스 임베딩 모델은 무선 주어진 문자에 인접한 각 n-그램 문자를 각각의 n-그램 임베딩 벡터에 관련시키고, 각각의 n-그램 임베딩 벡터를 연결함(concatenating)으로써 소스 임베딩 벡터를 생성할 수 있다.
다음으로, 시스템은 인코딩된 소스 표현을 출력으로 생성하는 컨볼루션 신경망 인코더에 소스 임베딩 시퀀스를 입력으로 제공한다(단계 204). 일반적으로, 인코더는 소스 임베딩 시퀀스와 동일한 길이를 갖는 인코딩된 소스 표현을 생성하도록 구성된다. 따라서, 인코딩된 소스 표현의 길이가 소스 시퀀스간에 변하는 소스 임베딩 시퀀스의 길이에 의해 결정되기 때문에, 인코딩된 소스 표현은 고정된 길이를 갖지 않는다. 일반적으로, 인코더는 소스 임베딩들의 시퀀스에 임베딩된 각 소스에 대한 각각의 데이터 열을 포함하는 행렬인 인코딩된 소스 표현을 생성하도록 구성된다.
특히, 컨볼루션 신경망 인코더는 확장된 컨볼루션 신경망 계층들의 스택을 포함하여, 확장된 컨볼루션 신경망 계층들의 스택을 통해 소스 임베딩의 시퀀스를 처리함으로써 인코딩된 소스 표현을 생성한다. 전술한 바와 같이, 일부 구현예에서, 인코더의 계층들은 하나 이상의 그룹에 할당되고, 각 그룹 내에서 그룹의 계층의 확장율은 1의 확장율에서 시작하여 모든 계층마다 2배가 된다. 소스 임베딩 모델이 소스 시퀀스 내의 주어진 문자에 인접한 각 n-그램 문자를 각각의 n-그램 임베딩 벡터에 관련시키고 상기 각각의 n-그램 임베딩 벡터를 연결함으로써 소스 임베딩 벡터를 생성하는 일부 구현예에서, 인코더의 제1 계층은 1×1 컨볼루션 계층이다.
다음으로, 시스템은 타겟 임베딩의 시퀀스를 출력으로서 생성하는 마스킹된 컨볼루션 신경망 디코더에 상기 인코딩된 소스 표현을 입력으로 제공한다(단계 206).
디코더는 동적 전개를 사용하여 타겟 임베딩의 출력 시퀀스를 생성한다. 동적 전개를 사용하여 타겟 임베딩의 출력 시퀀스를 생성하기 위한 예시적인 프로세스는 도 3의 프로세스(300)를 참조하여 아래에서 설명된다.
다음으로, 시스템은 소스 자연어로 된 소스 시퀀스의 번역인 타겟 자연어의 타겟 시퀀스를 생성하기 위해 타겟 임베딩의 시퀀스를 처리한다(단계 208). 일반적으로, 시스템은 타겟 자연어의 문자들 또는 단어들에 타겟 임베딩을 순차적으로 매핑함으로써 타겟 자연어로 된 타겟 시퀀스를 생성한다.
도 3은 디코더 네트워크를 사용하여 타겟 시퀀스를 생성하기 위한 예시적인 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절하게 프로그래밍된 신경 기계 번역 시스템, 예컨대 도 1의 신경 기계 번역 시스템(100)은 프로세스(300)를 수행할 수 있다.
프로세스(300)는 각 반복에서 각각의 타겟 임베딩을 순차적으로 생성하는 시스템에 의해 수행되는 반복 프로세스를 기술한다. 상기 반복들은 순차적으로 수행되므로 다음에서는 각 반복을 편의상 시간 단계라고 한다.
시스템은 소스 임베딩의 시퀀스에 대한 인코딩된 표현이 시간 단계에 대응하는 열을 갖는지를 결정한다(단계 302)(언급한 바와같이, 인코딩된 표현은 소스 임베딩의 시퀀스내의 각 소스 임베딩에 대한 각각의 데이터 열을 포함하는 행렬일 수 있다). 인코딩된 표현이 시간 단계에 대응하는 열을 갖지 않는다는 결정에 응답하여, 시스템은 0의 열을 시간 단계에 대한 인코딩된 표현의 대응하는 열로 식별한다(단계 304). 예를 들어, 타겟 임베딩 시퀀스가 소스 임베딩물 시퀀스보다 긴 경우, 인코딩된 표현은 시간 단계에 해당하는 열을 갖지 않을 수 있다. 인코딩된 표현이 시간 단계에 대응하는 열을 갖는다고 결정한 것에 응답하여, 시스템은 인코딩된 표현을 수정하지 않는다.
다음으로, 시스템은 이전의 시간 단계들에서 생성된 타겟 임베딩들을 연결하고, 연결된 타겟 임베딩들 및 시간 단계에 대한 소스 임베딩 시퀀스의 인코딩된 표현에 대응하는 열을 입력으로서 상기 현재 시간 단계에 대한 마스킹된 1차원 컨볼루션 신경망 디코더로 제공한다(단계 306). 디코더는 시간 단계에 대한 가능한 타겟 임베딩의 세트에 대한 출력 확률을 생성하도록 구성된다. 시스템은 확률에 따라 가능한 타겟 임베딩 세트로부터 타겟 임베딩을 샘플링하거나, 시간 단계에 대한 타겟 임베딩으로서 가장 높은 확률을 갖는 타겟 임베딩을 선택한다. 예를 들어, 디코더의 최종 계층은 상기 확률을 생성하는 소프트맥스 출력 계층일 수 있다.
일반적으로, 주어진 시간 단계에 대한 타겟 임베딩을 생성하기 위해 주어진 시간 단계에서 생성되지 않은 미래의 타겟 임베딩에 디코더가 의존하지 않도록 보장하기 위해, 디코더는 마스킹된 컨볼루션을 구현한다. 일부 구현예에서, 1차원 마스킹된 컨볼루션은 컨볼루션 커널들의 가중치 중 일부를 제로로 함으로써 구현된다.
제1 시간 단계에 대해, 이전 시간 단계에서 타겟 임베딩이 생성되지 않은 경우, 디코더 입력은 단지 소스 임베딩의 상기 인코딩된 표현의 대응 열이다.
시스템은 다양한 방식들 중 임의의 방식으로 디코더의 입력으로서 타겟 임베딩 및 상기 인코딩된 표현의 대응하는 열을 제공할 수 있다. 예를 들어, 시스템은 타겟 임베딩과 상기 인코딩된 표현의 대응 열을 연결할 수 있다. 다른 예로서, 시스템은 타겟 임베딩에 대응하는 열을 추가할 수 있다. 또 다른 예로서, 디코더는 하나 이상의 초기 신경망 계층, 예를 들어, 하나 이상의 1×1 컨볼루션 계층을 사용하여 타겟 임베딩을 먼저 처리한 다음 초기 신경망 계층들의 출력에 열을 추가할 수 있다.
다음으로, 시스템은 디코더에 의해 생성된 타겟 임베딩이 시퀀스-종료(EOS) 심볼인지 여부를 결정한다(단계 310). 상기 생성된 타겟 임베딩이 EOS 심볼이라고 결정하는 것에 응답하여, 타겟 임베딩들의 시퀀스가 출력된다(단계 312). 상기 생성된 타겟 임베딩이 EOS 심볼이 아니라고 결정하는 것에 응답하여, 프로세스(300)는 단계(302)로 돌아가 이전의 단계들을 반복한다.
시스템은 인코더와 디코더를 병렬로 실행할 수 있는데, 여기서 각 타임 스텝에서, 인코더는 인코딩된 소스 표현의 대응 열을 생성하고, 디코더는 소스 표현의 대응 열과 상기 이전에 생성된 타겟 임베딩을 처리하여 시간 단계에 대한 타겟 임베딩을 생성한다.
시스템은 원하는 출력이, 즉 소스 시퀀스를 소스 자연어에서 타겟 자연어로 번역하는 타겟 시퀀스가 알려지지 않은 소스 시퀀스 입력들에 대해 프로세스(200 및 300)를 수행할 수 있다. 시스템은 또한 인코더 및 디코더의 계층들의 파라미터에 대한 드레이닝된 값을 결정하기 위해 트레이닝 데이터 세트 내의, 즉 시스템에 의해 생성되어야 하는 타겟 시퀀스가 알려진 입력 세트 내의 소스 시퀀스 입력들에 대해 프로세스(200 및 300)를 수행할 수 있다. 프로세스(200 및 300)는 계층들을 트레이닝하기 위해 종래의 기계 학습 트레이닝 기술의 일부로서 트레이닝 데이터 세트로부터 선택된 입력들에 대해 반복적으로 수행된다.
상기 계층들을 트레이닝하기 위한 기계 학습 트레이닝 기술은 역전파에 의한 확률적 기울기 강하(gradient descent)일 수 있고, 여기서 시스템은 "배치 (batche)"라고 하는 트레이닝 데이터의 서브 세트를 선택하고, 시스템은 소스 시퀀스에 대응하는 예측된 타겟 시퀀스를 생성하고, 시스템은 역 전파에 의한 성능 측정치에 따라 시스템의 성능을 향상시키기 위해 인코더 및 디코더의 계층들의 파라미터 값을 조정한다.
일부 구현예에서, 디코더의 1차원 마스킹된 컨볼루션 계층들 중 하나 이상에 서브-배치 정규화 계층이 뒤따른다. 서브-배치 정규화 계층들의 동작은 이제 도 4의 프로세스(400)를 참조하여 기술된다.
도 4는 서브-배치 정규화를 위한 예시적인 프로세스(400)의 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절히 프로그래밍된 신경 기계 번역 시스템, 예를 들어 도 1의 신경 기계 번역 시스템(100)은 프로세스(400)를 수행할 수 있다.
트레이닝 반복 동안, 소스-타겟 시퀀스 쌍의 주어진 배치에 대해, 시스템은배치를 메인 서브-배치 및 보조 서브-배치로 분할한다(단계 402). 예를 들어, 배치는 메인 서브-배치 및 각각의 고정된 크기의 보조 서브-배치로 무작위로 또는 임의적으로 분할될 수 있다.
시스템은 시퀀스의 보조 서브-배치 내의 시퀀스들에 대한 서브-배치 정규화 계층으로의 입력들에 대한 배치 정규화 통계를 결정한다(단계 404). 상기 배치 정규화 통계는 서브-배치 정규화 계층에 대한 입력들의 평균 및 분산을 포함할 수 있다.
시스템은 보조 서브-배치에 대한 배치 정규화 통계를 사용하여, 보조 서브-배치 및 메인 서브-배치 모두에서 시퀀스들에 대한 서브-배치 정규화 계층에 대한 입력들을 정규화한다(단계 406).
시스템은 서브-배치 정규화 계층으로부터, 정규화된 입력을 서브-배치 정규화 계층으로 출력한다(단계 408). 즉, 디코더 내의 다른 계층, 예를 들어, 확장된 마스킹된 컨볼루션 계층에 대한 입력으로서 출력한다.
서브-배치 정규화로 시스템을 트레이닝 하는 동안, 역전파는 메인 서브-배치에 대한 예측된 타겟 시퀀스에 단지 기초하여 각 반복에서 수행되는 반면, 보조 서브-배치에 대한 예측된 타겟 시퀀스는 역 전파 수행시 무시된다.
서브-배치 정규화 계층들은 종래의 배치 정규화 계층과 상이하며, 이는 배치를 메인 서브-배치와 보조 서브-배치로 분할하지 않는 것이 아니라 오히려 전체 배치에 기초하여 배치 정규화 통계를 결정한다. 배치 정규화 통계의 계산은 타겟 임베딩 시퀀스내의 모든 타겟 임베딩을 따라 배치 정규화 계층에 대한 입력들을 고려하므로, 배치 정규화 통계로 배치 정규화 계층에 대한 입력들을 정규화하는 것은 디코더의 조건(conditioning) 구조에 위배된다. 그러나 서브-배치 정규화 계층을 사용하면, 배치 정규화 통계는 메인 서브-배치가 아닌 보조 서브-배치에 기초하여 계산되므로, 디코더의 조건 구조는 메인 서브-배치 내의 시퀀스들에 대해 보존되며 역 전파는 보조 서브-배치가 아닌 메인 서브-배치에 대한 예측된 시퀀스들에 기초하여 수행된다.
일부 구현예에서, 컨볼루션 신경망 인코더 및/또는 디코더의 하나 이상의 계층은 하나 이상의 추가 컨볼루션 계층을 포함하는 잔여 블록(residual blick)에 래핑된다. 일반적으로 잔여 블록들은 잔여 블록의 입력에 잔여 블록의 출력을 더함으로써 신경망의 보다 효과적인 트레이닝을 가능하게 하여, 잔여 블록내의 계층들이 증분 표현을 학습할 수 있게 한다. 일부 구현예에서, 잔여 블록은 정류된 선형 유닛(ReLU) 활성화 계층을 포함한다. 다른 구현들에서, 잔여 블록은 승산 유닛 활성화 계층을 포함한다.
본 명세서는 시스템 및 컴퓨터 프로그램 구성 요소와 관련하여 "구성된(configured)"이라는 용어를 사용한다. 특정 동작들 또는 액션들을 수행하도록 구성된 하나 이상의 컴퓨터의 시스템은, 동작시 시스템으로 하여금 동작들 또는 액션들을 수행하게 하는 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 조합을 시스템이 소프트웨어상에 설치했음을 의미한다. 특정 동작들 또는 액션들을 수행하도록 구성된 하나 이상의 컴퓨터 프로그램은, 하나 이상의 프로그램이 상기 데이터 처리 장치에 의해 실행될 때 상기 장치로 하여금 동작들 또는 액션들을 수행하게 하는 명령들을 포함함을 의미한다.
본 명세서에서 설명된 주제 및 기능적 동작들의 실시예는 본 명세서 및 그 구조적 등가물에 개시된 구조들 및 그들의 하나 이상의 조합을 포함하여, 디지털 전자 회로, 유형적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어로 구현될 수 있다. 본 명세서에서 설명된 주제의 실시예는 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의해 실행되거나 데이터 처리 장치의 동작을 제어하기 위한 유형의 비 일시적 저장 매체상에 인코딩된 컴퓨터 프로그램 명령들의 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터 저장 매체는 기계 판독 가능 저장 디바이스, 기계 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다. 대안적으로 또는 부가적으로, 프로그램 명령들은 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 송신을 위해 정보를 인코딩하기 위해 생성되는, 인위적으로 생성된 전파된 신호, 예를 들어, 기계-생성의 전기, 광학 또는 전자기 신호 상에 인코딩될 수 있다.
"데이터 처리 장치"라는 용어는 데이터 처리 하드웨어를 지칭하며, 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 복수의 프로세서 또는 컴퓨터를 포함하여, 데이터를 처리하기 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 상기 장치는 또한 특수 목적 논리 회로, 예를 들어, FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(주문형 집적 회로)일 수 있거나, 포함할 수 있다. 상기 장치는 하드웨어 이외에, 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 하나 이상의 이들의 조합을 구성하는 코드를 선택적으로 포함할 수 있다.
프로그램, 소프트웨어, 소프트웨어 애플리케이션, 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 기술될 수 있는 컴퓨터 프로그램은 컴파일된 또는 해석된 언어, 또는 선언적 또는 절차적 언어를 포함하여 임의의 형태의 프로그래밍 언어로 작성될 수 있고, 독립 실행형 프로그램 또는 모듈, 구성 요소, 서브 루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함하여 임의의 형태로 배포될 수 있다. 프로그램은 파일 시스템의 파일에 해당할 수도 있지만 그렇지 않을 수도 있다. 프로그램은 다른 프로그램이나 데이터(예컨대, 마크 업 언어 문서에 저장된 하나 이상의 스크립트)를 보유하고 있는 파일의 일부분, 문제의 프로그램 전용의 단일 파일 또는 다수의 조정 파일(예컨대, 하나 이상의 모듈, 서브 프로그램 또는 코드의 일부를 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 사이트에 있거나 여러 사이트에 분산되어 있으며 데이터 통신 네트워크로 상호 연결된 다수의 컴퓨터상에서 실행되도록 배포될 수 있다.
본 명세서에서, "엔진"이라는 용어는 하나 이상의 특정 기능을 수행하도록 프로그래밍된 소프트웨어 기반 시스템, 서브 시스템, 또는 프로세스를 지칭하도록 광범위하게 사용된다. 일반적으로 엔진은 하나 이상의 소프트웨어 모듈 또는 구성 요소로 구현되며 하나 이상의 위치에 있는 하나 이상의 컴퓨터상에 설치된다. 일부 경우, 하나 이상의 컴퓨터가 특정 엔진 전용으로 사용되고, 다른 경우에는 더수의 엔진이 동일한 컴퓨터 또는 컴퓨터들상에 설치되어 실행될 수 있다.
본 명세서에서 설명된 프로세스 및 논리 흐름은 입력 데이터를 조작하고 출력을 생성함으로써 기능을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 프로세스 및 논리 흐름은 또한 특수 목적 논리 회로, 예를 들어 FPGA 또는 ASIC에 의해, 또는 특수 목적 논리 회로와 하나 이상의 프로그래밍된 컴퓨터의 조합에 의해 수행될 수 있다.
컴퓨터 프로그램의 실행에 적합한 컴퓨터는 범용 또는 특수 목적 마이크로 프로세서 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 기반으로 할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성 요소는 명령을 수행하거나 실행하기 위한 중앙 처리 장치 및 명령 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 중앙 처리 장치 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 또는 그 안에 통합될 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스((예를 들어, 자기, 광 자기 디스크 또는 광 디스크)로부터 데이터를 수신하거나 전송하거나 둘 모두를 하기 위해 동작 가능하게 결합될 것이다. 그러나 컴퓨터에는 이러한 디바이스들이 있을 필요가 없다. 더욱이, 컴퓨터는 다른 디바이스, 예를 들어 이동 전화, 개인 휴대 정보 단말기(PDA), 모바일 오디오 또는 비디오 플계층, 게임 콘솔, 위성 위치 확인 시스템(GPS) 수신기 또는 휴대용 저장 디바이스(예컨대, 범용 직렬 버스(USB) 플래시 드라이브)에 내장될 수 있다.
컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 반도체 메모리 디바이스(예컨대, EPROM, EEPROM 및 플래시 메모리 디바이스); 자기 디스크(예컨대, 내부 하드 디스크 또는 이동식 디스크); 광 자기 디스크; 및 CD ROM 및 DVD-ROM 디스크를 포함하여, 모든 형태의 비 휘발성 메모리, 매체 및 메모리 디바이스를 포함한다.
사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 기술된 본 발명의 실시예는 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 갖는 컴퓨터상에서 구현될 수 있다. 다른 종류의 디바이스가 사용자와의 상호 작용을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백 일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하여 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 디바이스와 문서를 주고 받음으로써, 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여 사용자 디바이스의 웹 브라우저에 웹 페이지를 전송함으로써 사용자와 상호 작용할 수 있다. 또한, 컴퓨터는 문자 메시지 또는 다른 형태의 메시지를 개인용 디바이스(예를 들어, 메시징 애플리케이션을 실행중인 스마트 폰)에 송신하고 사용자로부터 응답 메시지를 수신함으로써 사용자와 상호 작용할 수 있다.
기계 학습 모델을 구현하기 위한 데이터 처리 장치는 또한 예를 들어, 기계 학습 훈련 또는 생산, 즉 추론, 작업 부하의 공통적이고 계산 집중적인 부분을 처리하기 위한 특수 목적 하드웨어 가속기 유닛을 포함할 수 있다.
기계 학습 모델은 텐서플로우(TensorFlow) 프레임 워크, Microsoft Cognitive Toolkit 프레임 워크, Apache Singa 프레임 워크 또는 Apache MXNet 프레임 워크와 같은 기계 학습 프레임 워크를 사용하여 구현 및 배포될 수 있다.
본 명세서에서 기술된 발명의 실시예는 예를 들어 데이터 서버와 같은 백엔드 컴포넌트, 애플리케이션 서버와 같은 미들웨어 컴포넌트 또는 그래픽 사용자 인터페이스를 가지는 사용자 컴퓨터 또는 사용자가 본 명세서에 기술된 본 발명의 구현예와 인터렉션할 수 있는 웹 브라우저와 같은 프론트엔드 컴포넌트 또는 하나 이상의 상기 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 LAN(local area network) 및 WAN(wide area network) 예를 들어, 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다. 일부 실시예에서, 서버는 예를 들어, 클라이언트로서 동작하는 디바이스와 상호 작용하는 사용자에게 데이터를 디스플레이하고 사용자로부터 사용자 입력을 수신하기 위해 데이터, 예컨대 HTML 페이지를 사용자 디바이스로 전송한다. 사용자 디바이스에서 생성된 데이터, 예를 들어 사용자 상호 작용의 결과는 디바이스로부터 서버에서 수신될 수 있다.
본 명세서는 많은 특정 구현 세부 내용을 포함하지만, 이들은 임의의 발명의 범위 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정한 발명의 특정한 실시예에 특정적일 수 있는 구성들에 대한 설명으로 해석되어야 한다. 별개의 실시예의 맥락에서 본 명세서에서 기술되는 일정 구성들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 맥락에서 기술된 다양한 구성들은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 서브 조합으로 구현될 수 있다. 게다가, 구성들은 일정 조합으로 동작하고 심지어 초기적으로 그렇게 청구되는 것으로서 상기에서 기술될 수 있지만, 청구된 조합으로부터의 하나 이상의 구성들은 일부 경우, 조합으로부터 제거될 수 있고, 청구된 조합은 서브 조합 또는 서브 조합의 변형으로 안내될 수 있다.
유사하게, 동작들이 특정 순서로 도면에 도시되고 청구항들에 인용되어 있지만, 이는 바람직한 결과를 달성하기 위해 이러한 동작들이 도시된 순서 또는 시계열적 순서로 수행되거나 모든 도시된 동작이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 환경에서, 멀티태스킹과 병렬 처리가 유리할 수 있다. 게다가, 상술된 실시예에서 다양한 시스템 모듈들 및 컴포넌트들의 분리는 모든 실시예에서 그러한 분리가 필요한 것으로서 이해되어서는 안되며, 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일의 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품들에 패키징될 수 있음을 이해해야 한다.
주제의 특정 실시예들이 설명되었다. 다른 실시예들도 다음의 청구항들의 범위 내에 있다. 예를 들면, 청구항들에 인용된 액션들은 상이한 순서로 수행되고 여전히 원하는 결과를 달성할 수 있다. 일 예시로서, 첨부 도면들에 도시된 프로세스들은 원하는 결과를 달성하기 위해 도시된 특정 순서 또는 시계열적 순서를 반드시 필요로 하지는 않는다. 어떤 경우에는, 멀티태스킹 및 병렬 처리가 유리할 수 있다.
Claims (20)
- 하나 이상의 컴퓨터에 의해 구현되는 신경 시퀀스 변환 시스템으로서,
데이터 엘리먼트의 소스 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 수신하고; 그리고
소스 시퀀스의 인코딩(encoded) 표현을 생성하기 위해 소스 임베딩의 입력 시퀀스를 처리하도록 구성된 컨볼루션 인코더 신경망; 및
컨볼루션 인코더 신경망에 의해 생성된 소스 시퀀스의 인코딩 표현을 수신하고; 그리고
데이터 엘리먼트의 소스 시퀀스에 대응하는 데이터 엘리먼트의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하기 위해 소스 시퀀스의 인코딩 표현을 처리하도록 구성된 마스킹된(masked) 컨볼루션 디코더 신경망을 포함하는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제1항에 있어서,
데이터 엘리먼트의 소스 시퀀스는,
소스 자연어로 된 단어의 소스 시퀀스인 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제2항에 있어서,
데이터 엘리먼트의 타겟 시퀀스는,
단어의 소스 시퀀스를 타겟 자연어로 번역한 타겟 자연어로 된 단어의 타겟 시퀀스인 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제1항에 있어서,
디코더 신경망은 동적 전개(dynamic unfolding)를 사용하여 출력 시퀀스를 생성하도록 구성되는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제4항에 있어서,
인코딩 표현은 각 소스 임베딩에 대한 개별 데이터 열을 포함하는 행렬이고, 그리고
출력 시퀀스의 각 시간 단계에서, 디코더 신경망은 인코딩 표현의 대응하는 열을 입력으로 취하여 타겟 임베딩을 생성하도록 구성되는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제5항에 있어서,
인코딩 표현에서 대응하는 열을 갖지 않는 각 시간 단계에 대해, 시스템은 시간 단계에 대응하는 인코딩 표현에 새로운 열을 추가하고 열의 값을 0으로 설정하도록 구성되는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제5항에 있어서,
각 시간 단계에서, 디코더 신경망은 시간 단계 이전의 시간 단계에서 인코딩 표현 및 타겟 임베딩에 대해 조건화(conditioned)되는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제1항에 있어서,
인코더 신경망은 인코더 신경망 전체에 걸쳐 소스 임베딩의 표현의 해상도를 유지하도록 구성되는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제1항에 있어서,
디코더 신경망은 복수의 1차원 마스킹된 확장(dilated) 컨볼루션 신경망 계층을 포함하는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제9항에 있어서,
특정 1차원 마스킹된 확장 컨볼루션 신경망 계층 다음에 서브-배치(sub-batch) 정규화 계층이 오고, 상기 서브-배치 정규화 계층은 트레이닝 시퀀스의 배치에 대해 시스템을 트레이닝하는 동안:
트레이닝 시퀀스의 배치의 보조 서브-배치에서 트레이닝 시퀀스에 대한 특정 1차원 마스킹된 확장 컨볼루션 신경망 계층에 의해 생성된 출력의 배치 정규화 통계를 결정하고; 그리고
배치 정규화 통계를 이용하여, 보조 서브-배치와 상이한 트레이닝 시퀀스의 배치의 메인 서브-배치에서 트레이닝 시퀀스에 대한 특정 1차원 마스킹된 확장 컨볼루션 신경망 계층에 의해 생성된 출력을 정규화하는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제9항에 있어서,
1차원 마스킹된 확장 컨볼루션 신경망 계층들 중 하나 이상은,
하나 이상의 추가 컨볼루션 계층을 포함하는 잔여 블록으로 래핑(wrapped)되는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제11항에 있어서,
잔여 블록은 ReLU(Rectified Linear Unit) 활성화 계층을 포함하는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제11항에 있어서,
잔여 블록은 승산 유닛(multiplicative unit) 활성화 계층을 포함하는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제9항에 있어서,
복수의 1차원 마스킹된 확장 컨볼루션 신경망 계층은 복수의 그룹으로 그룹화되고, 그리고
각 그룹 내에서, 그룹 내의 1차원 마스킹된 확장 컨벌루션 신경망 계층의 확장율은 계층마다 2배가 되는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제2항에 있어서,
각 소스 임베딩은 n-그램(grams) 임베딩의 개별 백(bag)이고, 그리고
소스 시퀀스의 주어진 문자에 대해, 문자에 대한 n-그램 임베딩의 백은 소스 시퀀스에서 주어진 문자에 대한 인접 문자의 n-그램 임베딩의 조합인 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제15항에 있어서,
주어진 문자의 n-그램 임베딩의 백은,
1에서 k까지 범위의 n에 대해 상기 주어진 문자에 대한 인접 n-그램의 n-그램 임베딩의 합이고, k는 2보다 크거나 같은 사전 결정된 양의 정수인 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제15항에 있어서,
소스 시퀀스를 수신하고, 그리고
소스 시퀀스로부터 n-그램 임베딩의 백 시퀀스를 생성하도록 구성된 입력 서브 시스템을 더 포함하는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 제1항에 있어서,
데이터 엘리먼트의 소스 시퀀스는 단어의 소스 시퀀스이고 그리고 시스템은 텍스트 처리 기계 학습 태스크를 수행하도록 구성되고; 또는
데이터 엘리먼트의 소스 시퀀스는 음성의 소스 시퀀스이고 그리고 시스템은 음성 처리 기계 학습 태스크를 수행하도록 구성되는 것을 특징으로 하는 신경 시퀀스 변환 시스템. - 실행시 데이터 처리 장치로 하여금 동작들을 수행하게 하는 데이터 처리 장치에 의해 실행 가능한 명령들을 저장하는 비-일시적 컴퓨터 판독 가능 저장 매체로서, 상기 동작들은,
데이터 엘리먼트의 소스 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 수신하는 단계와; 그리고
데이터 엘리먼트의 소스 시퀀스에 대응하는 데이터 엘리먼트의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하기 위해 입력 시퀀스를 처리하는 단계를 포함하고, 상기 처리하는 단계는,
소스 시퀀스의 인코딩 표현을 생성하기 위해 컨볼루션 인코더 신경망을 사용하여 소스 임베딩의 입력 시퀀스를 처리하는 단계; 및
타겟 임베딩의 출력 시퀀스를 생성하기 위해 마스킹된 컨볼루션 디코더 신경망을 사용하여 소스 시퀀스의 인코딩 표현을 처리하는 단계를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 저장 매체. - 하나 이상의 데이터 처리 장치에 의해 수행되는 방법으로서, 상기 방법은,
데이터 엘리먼트의 소스 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 획득하는 단계와; 그리고
데이터 엘리먼트의 소스 시퀀스에 대응하는 데이터 엘리먼트의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하기 위해 입력 시퀀스를 처리하는 단계를 포함하고, 상기 처리하는 단계는,
소스 시퀀스의 인코딩 표현을 생성하기 위해 컨볼루션 인코더 신경망을 사용하여 소스 임베딩의 입력 시퀀스를 처리하는 단계; 및
타겟 임베딩의 출력 시퀀스를 생성하기 위해 마스킹된 컨볼루션 디코더 신경망을 사용하여 소스 시퀀스의 인코딩 표현을 처리하는 단계를 포함하는 것을 특징으로 하는 데이터 처리 장치에 의해 수행되는 방법.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662413366P | 2016-10-26 | 2016-10-26 | |
US62/413,366 | 2016-10-26 | ||
KR1020197013231A KR102359216B1 (ko) | 2016-10-26 | 2017-10-24 | 신경망을 이용한 텍스트 시퀀스 처리 |
PCT/US2017/058046 WO2018081089A1 (en) | 2016-10-26 | 2017-10-24 | Processing text sequences using neural networks |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197013231A Division KR102359216B1 (ko) | 2016-10-26 | 2017-10-24 | 신경망을 이용한 텍스트 시퀀스 처리 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220020421A true KR20220020421A (ko) | 2022-02-18 |
KR102458808B1 KR102458808B1 (ko) | 2022-10-25 |
Family
ID=60263120
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197013231A KR102359216B1 (ko) | 2016-10-26 | 2017-10-24 | 신경망을 이용한 텍스트 시퀀스 처리 |
KR1020227003520A KR102458808B1 (ko) | 2016-10-26 | 2017-10-24 | 신경망을 이용한 텍스트 시퀀스 처리 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197013231A KR102359216B1 (ko) | 2016-10-26 | 2017-10-24 | 신경망을 이용한 텍스트 시퀀스 처리 |
Country Status (6)
Country | Link |
---|---|
US (3) | US10354015B2 (ko) |
EP (1) | EP3532998A1 (ko) |
JP (1) | JP6756916B2 (ko) |
KR (2) | KR102359216B1 (ko) |
CN (1) | CN110023963B (ko) |
WO (1) | WO2018081089A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024128442A1 (ko) * | 2022-12-12 | 2024-06-20 | 숙명여자대학교산학협력단 | 트랜스포머 기반의 자연어 주석 자동 생성 방법 및 장치 |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10628735B2 (en) * | 2015-06-05 | 2020-04-21 | Deepmind Technologies Limited | Reading comprehension neural networks |
EP3497630B1 (en) | 2016-09-06 | 2020-11-04 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
US11080591B2 (en) | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
EP3822863B1 (en) | 2016-09-06 | 2022-11-02 | DeepMind Technologies Limited | Generating audio using neural networks |
US20180077689A1 (en) * | 2016-09-15 | 2018-03-15 | Qualcomm Incorporated | Multiple bandwidth operation |
WO2018081089A1 (en) | 2016-10-26 | 2018-05-03 | Deepmind Technologies Limited | Processing text sequences using neural networks |
US11423143B1 (en) | 2017-12-21 | 2022-08-23 | Exabeam, Inc. | Anomaly detection based on processes executed within a network |
CN110083448B (zh) * | 2018-01-25 | 2023-08-18 | 腾讯科技(深圳)有限公司 | 一种计算资源调整方法、装置以及相关设备 |
US10770063B2 (en) * | 2018-04-13 | 2020-09-08 | Adobe Inc. | Real-time speaker-dependent neural vocoder |
US11431741B1 (en) * | 2018-05-16 | 2022-08-30 | Exabeam, Inc. | Detecting unmanaged and unauthorized assets in an information technology network with a recurrent neural network that identifies anomalously-named assets |
CN108776832B (zh) * | 2018-06-05 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机设备和存储介质 |
AU2019284379A1 (en) | 2018-06-12 | 2021-01-28 | Intergraph Corporation | Artificial intelligence applications for computer-aided dispatch systems |
US11205121B2 (en) | 2018-06-20 | 2021-12-21 | Disney Enterprises, Inc. | Efficient encoding and decoding sequences using variational autoencoders |
CN109117483B (zh) * | 2018-07-27 | 2020-05-19 | 清华大学 | 神经网络机器翻译模型的训练方法及装置 |
JP7143677B2 (ja) * | 2018-08-24 | 2022-09-29 | 日本電信電話株式会社 | 単語符号化装置、解析装置、言語モデル学習装置、方法、及びプログラム |
CN109271646B (zh) * | 2018-09-04 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
CN109285111B (zh) * | 2018-09-20 | 2023-05-09 | 广东工业大学 | 一种字体转换的方法、装置、设备及计算机可读存储介质 |
CN109325103B (zh) * | 2018-10-19 | 2020-12-04 | 北京大学 | 一种序列学习的动态标识符表示方法、装置及系统 |
CN109543838B (zh) * | 2018-11-01 | 2021-06-18 | 浙江工业大学 | 一种基于变分自编码器的图像增量学习方法 |
CN109784149B (zh) * | 2018-12-06 | 2021-08-20 | 苏州飞搜科技有限公司 | 一种人体骨骼关键点的检测方法及系统 |
US11423251B2 (en) | 2019-01-03 | 2022-08-23 | Samsung Electronics Co., Ltd. | Method and system of performing convolution in neural networks with variable dilation rate |
CN111476039B (zh) * | 2019-01-04 | 2023-06-30 | 深圳永德利科技股份有限公司 | 智能车载系统的即时语言翻译方法及相关产品 |
US11313950B2 (en) | 2019-01-15 | 2022-04-26 | Image Sensing Systems, Inc. | Machine learning based highway radar vehicle classification across multiple lanes and speeds |
CN110222329B (zh) * | 2019-04-22 | 2023-11-24 | 平安科技(深圳)有限公司 | 一种基于深度学习的中文分词方法和装置 |
US11587552B2 (en) | 2019-04-30 | 2023-02-21 | Sutherland Global Services Inc. | Real time key conversational metrics prediction and notability |
US11625366B1 (en) | 2019-06-04 | 2023-04-11 | Exabeam, Inc. | System, method, and computer program for automatic parser creation |
US11663489B2 (en) * | 2019-06-24 | 2023-05-30 | Insurance Services Office, Inc. | Machine learning systems and methods for improved localization of image forgery |
US11862146B2 (en) * | 2019-07-05 | 2024-01-02 | Asapp, Inc. | Multistream acoustic models with dilations |
US11157705B2 (en) * | 2019-07-22 | 2021-10-26 | International Business Machines Corporation | Semantic parsing using encoded structured representation |
CN110807335B (zh) * | 2019-09-02 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 基于机器学习的翻译方法、装置、设备及存储介质 |
CN110600015B (zh) * | 2019-09-18 | 2020-12-15 | 北京声智科技有限公司 | 一种语音的密集分类方法及相关装置 |
CN110807336B (zh) * | 2019-09-19 | 2023-10-31 | 平安科技(深圳)有限公司 | 基于最优传输损失的序列模型的翻译方法及相关设备 |
US11341340B2 (en) * | 2019-10-01 | 2022-05-24 | Google Llc | Neural machine translation adaptation |
US11651209B1 (en) | 2019-10-02 | 2023-05-16 | Google Llc | Accelerated embedding layer computations |
CN110717345B (zh) * | 2019-10-15 | 2020-07-07 | 内蒙古工业大学 | 一种译文重对齐的循环神经网络跨语言机器翻译方法 |
CN111079450B (zh) * | 2019-12-20 | 2021-01-22 | 北京百度网讯科技有限公司 | 基于顺句驱动的语言转换方法和装置 |
CN111191709B (zh) * | 2019-12-25 | 2023-10-31 | 清华大学 | 深度神经网络的持续学习框架及持续学习方法 |
WO2021141576A1 (en) * | 2020-01-08 | 2021-07-15 | Google, Llc | Translation of text depicted in images |
KR102362532B1 (ko) * | 2020-03-16 | 2022-02-16 | 주식회사 로보볼트 | 신경망 기반의 배터리 잔존 수명 예측 방법 및 장치 |
US11263753B2 (en) * | 2020-04-07 | 2022-03-01 | Naver Corporation | Method for training a convolutional neural network for image recognition using image-conditioned masked language modeling |
CN111767723B (zh) * | 2020-05-14 | 2024-07-19 | 上海大学 | 一种基于bic的中文电子病历实体标注方法 |
CN111539223B (zh) * | 2020-05-29 | 2023-08-18 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
CN111737994B (zh) * | 2020-05-29 | 2024-01-26 | 北京百度网讯科技有限公司 | 基于语言模型获取词向量的方法、装置、设备及存储介质 |
CN111475658B (zh) * | 2020-06-12 | 2020-12-25 | 北京百度网讯科技有限公司 | 知识表示学习方法、装置、设备以及存储介质 |
US11956253B1 (en) | 2020-06-15 | 2024-04-09 | Exabeam, Inc. | Ranking cybersecurity alerts from multiple sources using machine learning |
US20220036245A1 (en) * | 2020-07-28 | 2022-02-03 | International Business Machines Corporation | EXTRACTING SEQUENCES FROM d-DIMENSIONAL INPUT DATA FOR SEQUENTIAL PROCESSING WITH NEURAL NETWORKS |
US11875131B2 (en) | 2020-09-16 | 2024-01-16 | International Business Machines Corporation | Zero-shot cross-lingual transfer learning |
US11281928B1 (en) * | 2020-09-23 | 2022-03-22 | Sap Se | Querying semantic data from unstructured documents |
US12063226B1 (en) | 2020-09-29 | 2024-08-13 | Exabeam, Inc. | Graph-based multi-staged attack detection in the context of an attack framework |
US11836438B2 (en) * | 2021-01-28 | 2023-12-05 | Microsoft Technology Licensing, Llc | ML using n-gram induced input representation |
US20230013370A1 (en) * | 2021-07-02 | 2023-01-19 | Google Llc | Generating audio waveforms using encoder and decoder neural networks |
CN114417841A (zh) * | 2021-12-28 | 2022-04-29 | 航天科工网络信息发展有限公司 | 一种基于扩张卷积神经网络的特征提取方法及装置 |
US12013958B2 (en) | 2022-02-22 | 2024-06-18 | Bank Of America Corporation | System and method for validating a response based on context information |
US12050875B2 (en) | 2022-02-22 | 2024-07-30 | Bank Of America Corporation | System and method for determining context changes in text |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140056368A (ko) * | 2011-08-31 | 2014-05-09 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 마이크로폰 배치들 및 워터마킹된 오디오 신호들을 이용한 도착 방향 추정 |
KR20160013710A (ko) * | 2014-07-28 | 2016-02-05 | 삼성전자주식회사 | 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치 |
KR101855597B1 (ko) * | 2015-10-29 | 2018-05-08 | 바이두 유에스에이 엘엘씨 | 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법 |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US1004910A (en) | 1911-01-07 | 1911-10-03 | Ohio Grease Lubricant Company | Grease-lubricator. |
JPH0450121Y2 (ko) | 1986-04-30 | 1992-11-26 | ||
US5377302A (en) | 1992-09-01 | 1994-12-27 | Monowave Corporation L.P. | System for recognizing speech |
AU675389B2 (en) | 1994-04-28 | 1997-01-30 | Motorola, Inc. | A method and apparatus for converting text into audible signals using a neural network |
JPH10333699A (ja) | 1997-06-05 | 1998-12-18 | Fujitsu Ltd | 音声認識および音声合成装置 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10018134A1 (de) | 2000-04-12 | 2001-10-18 | Siemens Ag | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen |
JP2002123280A (ja) | 2000-10-16 | 2002-04-26 | Seiko Epson Corp | 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体 |
US7062437B2 (en) | 2001-02-13 | 2006-06-13 | International Business Machines Corporation | Audio renderings for expressing non-audio nuances |
US20060064177A1 (en) | 2004-09-17 | 2006-03-23 | Nokia Corporation | System and method for measuring confusion among words in an adaptive speech recognition system |
US7747070B2 (en) | 2005-08-31 | 2010-06-29 | Microsoft Corporation | Training convolutional neural networks on graphics processing units |
KR100832556B1 (ko) | 2006-09-22 | 2008-05-26 | (주)한국파워보이스 | 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법 |
FR2950713A1 (fr) | 2009-09-29 | 2011-04-01 | Movea Sa | Systeme et procede de reconnaissance de gestes |
TWI413104B (zh) | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
CN102651217A (zh) | 2011-02-25 | 2012-08-29 | 株式会社东芝 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
US8527276B1 (en) | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
US9230550B2 (en) | 2013-01-10 | 2016-01-05 | Sensory, Incorporated | Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination |
CA3022052C (en) | 2013-03-25 | 2021-05-18 | Fluent.Ai Inc. | System and method for applying a convolutional neural network to speech recognition |
US9190053B2 (en) * | 2013-03-25 | 2015-11-17 | The Governing Council Of The Univeristy Of Toronto | System and method for applying a convolutional neural network to speech recognition |
US9953634B1 (en) * | 2013-12-17 | 2018-04-24 | Knowles Electronics, Llc | Passive training for automatic speech recognition |
US10181098B2 (en) * | 2014-06-06 | 2019-01-15 | Google Llc | Generating representations of input sequences using neural networks |
US9821340B2 (en) | 2014-07-28 | 2017-11-21 | Kolo Medical Ltd. | High displacement ultrasonic transducer |
ES2880316T3 (es) | 2014-08-29 | 2021-11-24 | Google Llc | Procesamiento de imágenes mediante redes neuronales profundas |
EP3889954B1 (en) | 2014-09-25 | 2024-05-08 | Sunhouse Technologies, Inc. | Method for extracting audio from sensors electrical signals |
US10783900B2 (en) | 2014-10-03 | 2020-09-22 | Google Llc | Convolutional, long short-term memory, fully connected deep neural networks |
US9542927B2 (en) | 2014-11-13 | 2017-01-10 | Google Inc. | Method and system for building text-to-speech voice from diverse recordings |
US11080587B2 (en) | 2015-02-06 | 2021-08-03 | Deepmind Technologies Limited | Recurrent neural networks for data item generation |
CN105096939B (zh) | 2015-07-08 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
CN105068998B (zh) * | 2015-07-29 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
CN105321525B (zh) | 2015-09-30 | 2019-02-22 | 北京邮电大学 | 一种降低voip通信资源开销的系统和方法 |
US10733979B2 (en) | 2015-10-09 | 2020-08-04 | Google Llc | Latency constraints for acoustic modeling |
US10319374B2 (en) | 2015-11-25 | 2019-06-11 | Baidu USA, LLC | Deployed end-to-end speech recognition |
CN105513591B (zh) | 2015-12-21 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
CN108780519B (zh) | 2016-03-11 | 2022-09-02 | 奇跃公司 | 卷积神经网络的结构学习 |
US10460747B2 (en) | 2016-05-10 | 2019-10-29 | Google Llc | Frequency based audio analysis using neural networks |
US11373672B2 (en) | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
US9984683B2 (en) | 2016-07-22 | 2018-05-29 | Google Llc | Automatic speech recognition using multi-dimensional models |
US11080591B2 (en) | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
EP3497630B1 (en) | 2016-09-06 | 2020-11-04 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
EP3822863B1 (en) | 2016-09-06 | 2022-11-02 | DeepMind Technologies Limited | Generating audio using neural networks |
WO2018081089A1 (en) * | 2016-10-26 | 2018-05-03 | Deepmind Technologies Limited | Processing text sequences using neural networks |
US10049106B2 (en) * | 2017-01-18 | 2018-08-14 | Xerox Corporation | Natural language generation through character-based recurrent neural networks with finite-state prior knowledge |
TWI767000B (zh) | 2017-05-20 | 2022-06-11 | 英商淵慧科技有限公司 | 產生波形之方法及電腦儲存媒體 |
US9959272B1 (en) * | 2017-07-21 | 2018-05-01 | Memsource a.s. | Automatic classification and translation of written segments |
US11227108B2 (en) * | 2017-09-11 | 2022-01-18 | Nec Corporation | Convolutional neural network architecture with adaptive filters |
US10489792B2 (en) * | 2018-01-05 | 2019-11-26 | Asapp, Inc. | Maintaining quality of customer support messages |
WO2019157257A1 (en) * | 2018-02-08 | 2019-08-15 | Cognizant Technology Solutions U.S. Corporation | System and method for pseudo-task augmentation in deep multitask learning |
CN109885842B (zh) * | 2018-02-22 | 2023-06-20 | 谷歌有限责任公司 | 处理文本神经网络 |
US10726858B2 (en) | 2018-06-22 | 2020-07-28 | Intel Corporation | Neural network for speech denoising trained with deep feature losses |
US10971170B2 (en) | 2018-08-08 | 2021-04-06 | Google Llc | Synthesizing speech from text using neural networks |
-
2017
- 2017-10-24 WO PCT/US2017/058046 patent/WO2018081089A1/en active Search and Examination
- 2017-10-24 KR KR1020197013231A patent/KR102359216B1/ko active IP Right Grant
- 2017-10-24 EP EP17794596.1A patent/EP3532998A1/en active Pending
- 2017-10-24 JP JP2019522499A patent/JP6756916B2/ja active Active
- 2017-10-24 KR KR1020227003520A patent/KR102458808B1/ko active IP Right Grant
- 2017-10-24 CN CN201780073530.0A patent/CN110023963B/zh active Active
-
2018
- 2018-07-11 US US16/032,971 patent/US10354015B2/en active Active
-
2019
- 2019-06-07 US US16/434,459 patent/US10733390B2/en active Active
-
2020
- 2020-07-13 US US16/927,267 patent/US11321542B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140056368A (ko) * | 2011-08-31 | 2014-05-09 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 마이크로폰 배치들 및 워터마킹된 오디오 신호들을 이용한 도착 방향 추정 |
KR20160013710A (ko) * | 2014-07-28 | 2016-02-05 | 삼성전자주식회사 | 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치 |
KR101855597B1 (ko) * | 2015-10-29 | 2018-05-08 | 바이두 유에스에이 엘엘씨 | 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법 |
Non-Patent Citations (1)
Title |
---|
Kalchbrenner et al., "Video Pixel Networks", arXiv:1610.00527v1, (2016.10.03.) 1부.* * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024128442A1 (ko) * | 2022-12-12 | 2024-06-20 | 숙명여자대학교산학협력단 | 트랜스포머 기반의 자연어 주석 자동 생성 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
EP3532998A1 (en) | 2019-09-04 |
KR102359216B1 (ko) | 2022-02-07 |
JP6756916B2 (ja) | 2020-09-16 |
US10354015B2 (en) | 2019-07-16 |
US10733390B2 (en) | 2020-08-04 |
US20190286708A1 (en) | 2019-09-19 |
WO2018081089A1 (en) | 2018-05-03 |
KR102458808B1 (ko) | 2022-10-25 |
CN110023963A (zh) | 2019-07-16 |
US20200342183A1 (en) | 2020-10-29 |
KR20190058636A (ko) | 2019-05-29 |
JP2020502625A (ja) | 2020-01-23 |
US20180329897A1 (en) | 2018-11-15 |
CN110023963B (zh) | 2023-05-30 |
US11321542B2 (en) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102359216B1 (ko) | 신경망을 이용한 텍스트 시퀀스 처리 | |
US11948066B2 (en) | Processing sequences using convolutional neural networks | |
KR102448389B1 (ko) | 어텐션-기반의 시퀀스 변환 신경망 | |
CN108205699B (zh) | 生成用于神经网络输出层的输出 | |
US10699182B2 (en) | Depth concatenation using a matrix computation unit | |
US10268671B2 (en) | Generating parse trees of text segments using neural networks | |
EP3312777B1 (en) | Recurrent neural network system for data item generation | |
US9691019B1 (en) | Depth concatenation using a matrix computation unit | |
JP2018533804A (ja) | 畳み込みゲート制御再帰型ニューラルネットワーク | |
JP2019512760A (ja) | リカレントニューラルネットワークモデルの圧縮 | |
JP6876814B2 (ja) | バッチ再正規化層 | |
US11488067B2 (en) | Training machine learning models using teacher annealing | |
US20200401874A1 (en) | Generating output examples using recurrent neural networks conditioned on bit values | |
US10402719B1 (en) | Generating output sequences from input sequences using neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |