KR20220020421A - 신경망을 이용한 텍스트 시퀀스 처리 - Google Patents

신경망을 이용한 텍스트 시퀀스 처리 Download PDF

Info

Publication number
KR20220020421A
KR20220020421A KR1020227003520A KR20227003520A KR20220020421A KR 20220020421 A KR20220020421 A KR 20220020421A KR 1020227003520 A KR1020227003520 A KR 1020227003520A KR 20227003520 A KR20227003520 A KR 20227003520A KR 20220020421 A KR20220020421 A KR 20220020421A
Authority
KR
South Korea
Prior art keywords
sequence
source
neural network
target
embeddings
Prior art date
Application number
KR1020227003520A
Other languages
English (en)
Other versions
KR102458808B1 (ko
Inventor
날 에머리히 칼크브레너
카렌 시모냔
라세 에스페홀트
Original Assignee
딥마인드 테크놀로지스 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 딥마인드 테크놀로지스 리미티드 filed Critical 딥마인드 테크놀로지스 리미티드
Publication of KR20220020421A publication Critical patent/KR20220020421A/ko
Application granted granted Critical
Publication of KR102458808B1 publication Critical patent/KR102458808B1/ko

Links

Images

Classifications

    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • G06N3/0472
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Error Detection And Correction (AREA)

Abstract

신경 기계 번역을 위한, 컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램을 포함하는 방법, 시스템 및 장치가 개시된다. 일 양태에서, 시스템은 소스 자연어로 된 단어들의 소스 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 수신하여, 소스 시퀀스의 타겟 자연어로의 번역인 단어들의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하도록 구성된다. 시스템은 소스 시퀀스의 인코딩된 표현을 생성하기 위해 소스 임베딩의 입력 시퀀스를 처리하도록 구성된 확장된 컨볼루션 신경망 및 타겟 임베딩의 출력 시퀀스를 생성하기 위해 소스 시퀀스의 인코딩된 표현을 처리하도록 구성된 마스킹된 확장 컨볼루션 신경망를 포함한다.

Description

신경망을 이용한 텍스트 시퀀스 처리{PROCESSING TEXT SEQUENCES USING NEURAL NETWORKS}
본 명세서는 신경망을 이용한 텍스트 시퀀스 처리에 관한 것이다.
기계 학습 모델은 입력을 수신하고, 수신된 입력에 기초하여 예측된 출력과 같은 출력을 생성한다. 일부 기계 학습 모델은 파라미터적 모델로서, 수신된 입력 및 모델 파라미터의 값에 기초하여 출력을 생성한다.
일부 기계 학습 모델은 다수의 모델 계층을 사용하여 수신된 입력에 대한 출력을 생성하는 심층 모델이다. 예를 들어, 심층 신경망는 수신된 입력에 비선형 변환을 각각 적용하여 출력을 생성하는 출력 계층과 하나 이상의 히든 계층을 포함하는 심층 기계 학습 모델이다.
본 명세서는, 예를 들어, 소스 언어의 텍스트를 타겟 언어로 번역하고, 텍스트 요약을 수행하고, 또는 음성 인식을 수행하는 시퀀스 변환 작업을 수행하는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로 구현되는 시스템을 기술한다.
제1양태에 따르면, 텍스트 시퀀스를 처리하기 위한 신경 기계 번역 시스템이 제공된다. 이 시스템은 소스 시퀀스, 예를 들어 소스 자연어의 워드 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 수신하고, 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스, 예를 들어, 소스 시퀀스의 인코딩된 표현을 생성하기 위해 소스 임베딩의 입력 시퀀스를 처리하도록 구성된 확장된 컨볼루션 신경망과 타겟 임베딩의 출력 시퀀스를 생성하기 위해 소스 시퀀스의 인코딩된 표현을 처리하도록 구성된 마스킹된 확장된 컨볼루션 신경망를 포함한다.
일부 구현예에서, 시스템의 마스킹된 확장 컨볼루션 신경망은 동적 전개 (dynamic unfolding)를 사용하여 출력 시퀀스를 생성하도록 구성된다. 예를 들어, 디코더는 이전에 생성된 타겟 임베딩 및 상기 인코딩된 소스 표현에 기초하여 타겟 임베딩을 반복적으로 생성한다.
일부 구현예에서, 상기 인코딩된 표현은 각 소스 임베딩에 대한 각각의 데이터 열을 포함하는 행렬이고, 출력 시퀀스의 각 시간 단계에서, 상기 마스킹된 확장 컨볼루션 네트워크는 상기 인코딩된 표현의 대응하는 열을 입력으로 취하여 타겟 임베딩을 생성하도록 구성된다.
일부 구현예에서, 상기 인코딩된 표현내의 대응하는 열을 갖지 않는 각 시간 단계에 대해, 시스템은 시간 단계에 대응하는 상기 인코딩된 표현에 새로운 열을 추가하고 상기 열의 값을 0으로 설정하도록 구성된다.
일부 구현예에서, 각 시간 단계에서, 상기 마스킹된 확장된 컨볼루션 신경망은 상기 시간 단계 이전의 시간 단계들에서 상기 인코딩된 표현 및 상기 타겟 임베딩을 조건으로 한다.
일부 구현예에서, 상기 확장 컨볼루션 신경망은 확장 컨볼루션 신경망 전체에 걸쳐 상기 소스 임베딩의 표현의 해상도를 보존하도록 구성된다.
일부 구현예에서, 상기 마스킹된 확장 컨볼루션 신경망는 복수의 1차원 마스킹된 확장 컨볼루션 신경망 계층을 포함한다.
일부 구현예에서, 특정 1차원 마스킹된 확장 컨볼루션 신경망 계층 다음에 서브-배치(sub-batch) 정규화 계층이 뒤따르고, 서브-배치 정규화 계층은 트레이닝 시퀀스의 배치에 대한 상기 신경 기계 번역 시스템의 트레이닝 중에, 상기 트레이닝 시퀀스들의 배치의 보조 서브-배치 내의 트레이닝 시퀀스에 대해 상기 특정 1차원 마스킹된 확장된 컨볼루션 신경망 계층에 의해 생성된 출력들의 배치 정규화 통계를 결정하고; 그리고 상기 배치 정규화 통계를 이용하여, 상기 보조 서브-배치와 상이한 트레이닝 시퀀스의 배치의 메인 서브-배치 내의 트레이닝 시퀀스에 대해 상기 특정 1차원 마스킹된 확장 컨볼루션 신경망 계층에 의해 생성된 출력을 정규화하한다.
일부 구현예에서, 상기 1차원의 마스킹된 확장된 컨볼루션 신경망 계층들 중 하나 이상은 하나 이상의 추가 컨볼루션 계층을 포함하는 잔여 블록으로 래핑 (wrapped)된다.
일부 구현예에서, 상기 잔여 블록은 정류된 선형 유닛(ReLU) 활성화 계층을 포함한다.
일부 구현예에서, 상기 잔여 블록은 승산 유닛 활성화 계층을 포함한다.
일부 구현예에서, 상기 복수의 1차원의 마스킹된 확장 컨볼루션 신경망 계층은 복수의 그룹으로 그룹화되고, 각 그룹 내에서 상기 그룹 내의 1차원의 마스킹된 확장 컨볼루션 신경망 계층의 확장율은 모든 계층마다 2배가 된다.
일부 구현예에서, 각 소스 임베딩은 n-그램(grams) 임베딩의 각각의 백(bag)이고, 상기 소스 시퀀스 내의 주어진 문자에 대해, 상기 문자에 대한 n-그램 임베딩 백은 소스 시퀀스의 주어진 문자에 대한 인접 토큰들의 n-그램 임베딩의 조합이다.
일부 구현예에서, 주어진 문자의 n-그램 임베딩 백은 1에서 k까지의 n에 대해 주어진 문자에 대한 인접 n-그램의 n-그램 임베딩의 합이고, 상기 k는 2보다 크거나 같은 사전 결정된 양의 정수이다.
일부 구현예에서, 상기 시스템은 소스 시퀀스를 수신하고, 상기 소스 시퀀스로부터 n-그램 임베딩 백의 시퀀스를 생성하도록 구성된 입력 서브 시스템을 더 포함한다.
일부 구현예에서, 상기 확장 컨볼루션 신경망은 마스킹되지 않은 복수의 1차원 확장 컨볼루션 신경망 계층을 포함한다.
제2양태에 따르면, 하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터로 하여금 상기 시스템을 구현하게 하는 명령들로 인코딩된 하나 이상의 컴퓨터 저장 매체가 제공된다.
제3양태에 따르면, 소스 시퀀스, 예를 들어 소스 자연어로 된 단어들의 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 획득하는 단계; 및 소스 시퀀스의 타겟 자연어로의 번역인 타겟 워드 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하기 위해 상기 시스템을 사용하여 입력 시퀀스를 처리하는 단계를 포함한다.
본 명세서에서 설명된 주제의 특정 실시예들은 다음의 이점들 중 하나 이상을 실현하도록 구현될 수 있다. 본 명세서에서 기술되는 신경 기계 번역 시스템은 시스템의 계산 시간이 최소화되도록, 즉 계산 시간이 소스 및 타겟 스트링의 길이에서 선형이 되도록 번역을 생성할 수 있다. 신경 기계 번역 시스템은 입력을 처리하여 시스템에 의해 계산된 표현의 해상도가 계산 전반에 걸쳐 최대한 유지되도록 하여 번역 품질을 향상시킨다. 컨볼루션 인코더 및 디코더를 사용함으로써, 신경 기계 번역 시스템은 최첨단 시스템의 것보다 적은 학습 및 추론 시간을 가지면서 최첨단과 일치하거나 초과하는 품질을 갖는 번역을 생성할 수 있다. 예를 들어, 장단기 메모리(LSTM:long-term-memory) 기반의 아키텍처와 같은 순환 신경망과 비교할 때, 컨벌루션 인코더 및 디코더는 각 시간 단계마다 롤아웃(rolled out)할 필요가 없으므로 트레이닝 및 추론에 필요한 계산 공간을 줄일 수 있다. n-그램 임베딩 백을 사용함으로써 신경망 번역 시스템은 개방형(open) 어휘를 유지하고, 드문 단어, 고유 이름, 숫자 등을 예측할 수 있다. 게다가, 입력들과 출력들 사이의 신경 기계 번역 시스템에서 순방향 및 역방향 신호에 의해 가로지르는 경로는 입력들과 출력들 사이의 시퀀스 거리에 독립적이므로 신호 전파 및 장거리 종속성 학습을 향상시켜 번역 품질을 향상시킨다.
본 명세서의 주제의 하나 이상의 실시예의 세부 사항은 첨부 도면 및 이하의 설명에서 설명된다. 주제의 다른 특징, 양상 및 장점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.
도 1은 예시적인 신경 기계 번역 시스템을 나타낸다.
도 2는 소스 시퀀스로부터 타겟 시퀀스를 생성하기 위한 예시적인 프로세스의 흐름도이다.
도 3은 디코더 네트워크를 사용하여 타겟 시퀀스를 생성하기 위한 예시적인 프로세스의 흐름도이다.
도 4는 서브-배치 정규화를 위한 예시적인 프로세스의 흐름도이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 요소를 나타낸다.
본 명세서는 언어 모델링 작업을 수행하거나 신경망을 사용하여 소스 언어의 텍스트를 타겟 언어로 번역하는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로 구현되는 시스템을 기술한다.
특히, 번역을 위해, 시스템은 소스 자연어로 된 단어들의 소스 시퀀스를 나타내는 소스 임베딩(source embeddings)의 입력 시퀀스를 수신하여, 소스 시퀀스의 타겟 자연어로의 번역인 단어들의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하도록 구성된다. 보다 일반적으로, 시스템은 소스 시퀀스가 타겟 시퀀스에 매핑되는 다른 시퀀스 변환 애플리케이션에 적용될 수 있다.
시스템은 소스 시퀀스의 인코딩된 표현을 생성하기 위해 소스 임베딩들의 입력 시퀀스를 처리하도록 구성된 컨볼루션 신경망 인코더를 포함한다.
시스템은 또한 타겟 임베딩의 출력 시퀀스를 생성하기 위해 소스 시퀀스의 인코딩된 표현을 처리하도록 구성된 마스킹된(masked) 컨볼루션 신경망 디코더를 포함한다.
도 1은 예시적인 신경 기계 번역 시스템(100)을 도시한다. 신경 기계 번역 시스템(100)은 후술되는 시스템, 컴포넌트 및 기술이 구현되는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로 구현되는 시스템의 예이다.
신경 기계 번역 시스템(100)은 소스 자연어로 소스 시퀀스(102)로부터 소스 임베딩 모델(104)에 의해 생성된 소스 임베딩 시퀀스(106)를 입력으로서 수신한다. 상기 시퀀스는 소스 언어로 된 단어들의 시퀀스(순서)이며, 각 단어는 하나 이상의 문자로 구성된다. ("단어"의 사용은 입력 시퀀스에 숫자가 포함될 가능성을 배제하지 않는다.) 일부 구현예에서, 소스 임베딩 모델(104)은 n-그램(grams) 임베딩 모델의 백(bag)일 수 있다. (즉, 소스 임베딩 모델은 소스 시퀀스(102)를 수신하여, 소스 임베딩 시퀀스(106) 예를 들어 소스 시퀀스로부터 n-그램 임베딩 백의 시퀀스를 생성하도록 구성된 입력 서브 시스템을 구성한다.)
신경 기계 번역 시스템(100)은 소스 임베딩 시퀀스(106)를 입력으로 취하여, 인코딩된 소스 표현(110)을 출력으로 생성하는 컨볼루션 신경망 인코더(108)를 포함한다.
인코더(108)는 확장된(dilated) 컨볼루션 아키텍쳐를 가지며 1차원(의) 컨볼루션을 소스 임베딩 시퀀스(106)에 적용한다. 일반적으로, 확장(된) 컨볼루션 아키텍쳐는 확장 없이 가능한 것보다 뉴런들 간의 더 긴 범위의 상호 작용을 허용하면서, 컨볼루션 네트워크에서 뉴런들의 수용 필드 크기를 증가시키는 효과를 갖는다. 확장된 1차원 컨볼루션 계층은 입력을 상기 계층에 대응하는 커널과 컨볼루션함으로써 출력을 생성하는데, 여기서 컨볼루션은 확장율(dilation rate)이라고 하는 스텝 사이즈에 따라 입력을 스킵한다. 확장된 컨볼루션 네트워크 내의 상이한 확장된 컨볼루션 계층은 상이한 확장율을 가질 수 있다. 만약 확장율이 계층간에 지수 함수적으로 증가하면, 컨볼루션 신경망에서의 뉴런들의 수용 필드 크기는 계층의 수에 따라 기하 급수적으로 증가한다. 일부 구현예에서, 인코더(108)의 계층들은 하나 이상의 그룹에 할당되고, 각 그룹 내에서, 그룹의 계층들의 확장율은 1의 확장율부터 시작하여 모든 계층마다 2배가 된다.
특히, 인코더(108)는 소스 임베딩 시퀀스(106)와 동일한 길이를 갖는 인코딩된 소스 표현(110)을 생성하여, 소스 임베딩 시퀀스의 해상도를 보존한다.
신경 기계 번역 시스템(100)은 인코딩된 소스 표현(110)을 입력으로 취하고 타겟 시퀀스(116)의 표현인 타겟 임베딩 시퀀스(114)를 출력으로 생성하는 마스킹된 컨볼루션 신경망 디코더(112)를 포함한다. 타겟 시퀀스(116)는 소스 시퀀스(102)의 타겟 자연어로의 번역인 단어들의 시퀀스이다.
인코더(108)와 유사하게, 디코더(112)는 확장된 1차원 컨볼루션 아키텍쳐를 가지며, 예를 들어 마스킹된 확장 컨볼루션 신경망 디코더(112)는 복수의 1차원 마스킹된 확장 컨볼루션 신경망 계층을 포함할 수 있다(반면에, 확장 컨볼루션 신경망 인코더(108)는 마스킹되지 않은 복수의 1차원 확장 컨볼루션 신경망 계층을 포함할 수 있다). 일반적으로, 디코더(112)의 마스킹된 컨볼루션 아키텍쳐는 주어진 시간 단계에서 타겟 임베딩을 생성하기 위해 상기 디코더가 장래의 시간 단계에서 생성된 타겟 임베딩에 의존하지 않도록 보장한다. 일부 구현예에서, 디코더(112)의 계층들은 하나 이상의 그룹에 할당되고, 각 그룹 내에서 그룹의 계층들의 확장율은1의 확장율에서 시작하여 모든 계층마다 2배가 된다.
디코더(112)는 동적 전개(dynamic unfolding)에 의해 가변 길이 타겟 임베딩 시퀀스(114)를 생성하는데, 여기서 디코더는 이전에 생성된 타겟 임베딩 및 인코딩된 소스 표현에 기초하여, 예를 들어 디코더가 시퀀스-종료(end-of-sequence:EOS) 토큰을 생성할 때까지 타겟 임베딩을 반복적으로 생성한다.
상기 확장된 마스킹된 컨볼루션 계층들에 부가하여, 디코더(112)는 또한 서브-배치(sub-batch) 정규화 계층들을 포함할 수 있다. 즉, 이러한 구현예에서, 디코더의 1차원 마스킹된 컨볼루션 계층들 중 하나 이상에 서브-배치 정규화 계층이 뒤 따른다. 서브-배치 정규화 계층들의 동작은 도 4의 프로세스(400)를 참조하여 아래에서 기술된다.
인코더 및 디코더 신경망을 사용하여 소스 시퀀스로부터 타겟 시퀀스를 생성하기 위한 예시적인 프로세스가 도 2를 참조하여 보다 상세히 설명된다.
도 2는 소스 시퀀스로부터 타겟 시퀀스를 생성하기 위한 예시적인 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절하게 프로그래밍된 신경 기계 번역 시스템, 예를 들어 도 1의 신경 기계 번역 시스템(100)은 프로세스(200)를 수행할 수 있다.
시스템은 소스 임베딩 모델을 사용하여 소스 자연어로 된 텍스트의 소스 시퀀스로부터 소스 임베딩의 시퀀스를 생성한다(단계 202). 특히, 시스템은 소스 자연어의 문자를 대응하는 소스 임베딩 벡터에 순차적으로 매핑한다.
일부 구현에서 소스 임베딩 모델은 소스 자연어의 문자를 단지 문자 자체에 기초하여 대응하는 소스 임베딩 벡터에 매핑한다. 일부 다른 구현예에서, 소스 임베딩 모델은 소스 시퀀스의 단어를 대응하는 소스 임베딩 벡터에 매핑한다. 일부 다른 구현예에서, 소스 임베딩 모델은 n-그램 임베딩 모델의 백이며, 1에서 k까지 범위의 n에 대해, 소스 자연어의 문자를 주어진 문자에 인접한 n-그램 문자들에 기초하여 대응하는 소스 임베딩 벡터에 매핑한다. 여기서 k는 2보다 크거나 같은 사전 결정된 양의 정수이다. 예를 들어, 소스 임베딩 모델은 우선 주어진 문자에 인접한 각 n-그램 문자를 각각의 n-그램 임베딩 벡터에 관련시키고, 각각의 n-그램 임베딩 벡터를 가산함으로써 소스 임베딩 벡터를 생성할 수 있다. 다른 예로서, 소스 임베딩 모델은 무선 주어진 문자에 인접한 각 n-그램 문자를 각각의 n-그램 임베딩 벡터에 관련시키고, 각각의 n-그램 임베딩 벡터를 연결함(concatenating)으로써 소스 임베딩 벡터를 생성할 수 있다.
다음으로, 시스템은 인코딩된 소스 표현을 출력으로 생성하는 컨볼루션 신경망 인코더에 소스 임베딩 시퀀스를 입력으로 제공한다(단계 204). 일반적으로, 인코더는 소스 임베딩 시퀀스와 동일한 길이를 갖는 인코딩된 소스 표현을 생성하도록 구성된다. 따라서, 인코딩된 소스 표현의 길이가 소스 시퀀스간에 변하는 소스 임베딩 시퀀스의 길이에 의해 결정되기 때문에, 인코딩된 소스 표현은 고정된 길이를 갖지 않는다. 일반적으로, 인코더는 소스 임베딩들의 시퀀스에 임베딩된 각 소스에 대한 각각의 데이터 열을 포함하는 행렬인 인코딩된 소스 표현을 생성하도록 구성된다.
특히, 컨볼루션 신경망 인코더는 확장된 컨볼루션 신경망 계층들의 스택을 포함하여, 확장된 컨볼루션 신경망 계층들의 스택을 통해 소스 임베딩의 시퀀스를 처리함으로써 인코딩된 소스 표현을 생성한다. 전술한 바와 같이, 일부 구현예에서, 인코더의 계층들은 하나 이상의 그룹에 할당되고, 각 그룹 내에서 그룹의 계층의 확장율은 1의 확장율에서 시작하여 모든 계층마다 2배가 된다. 소스 임베딩 모델이 소스 시퀀스 내의 주어진 문자에 인접한 각 n-그램 문자를 각각의 n-그램 임베딩 벡터에 관련시키고 상기 각각의 n-그램 임베딩 벡터를 연결함으로써 소스 임베딩 벡터를 생성하는 일부 구현예에서, 인코더의 제1 계층은 1×1 컨볼루션 계층이다.
다음으로, 시스템은 타겟 임베딩의 시퀀스를 출력으로서 생성하는 마스킹된 컨볼루션 신경망 디코더에 상기 인코딩된 소스 표현을 입력으로 제공한다(단계 206).
디코더는 동적 전개를 사용하여 타겟 임베딩의 출력 시퀀스를 생성한다. 동적 전개를 사용하여 타겟 임베딩의 출력 시퀀스를 생성하기 위한 예시적인 프로세스는 도 3의 프로세스(300)를 참조하여 아래에서 설명된다.
다음으로, 시스템은 소스 자연어로 된 소스 시퀀스의 번역인 타겟 자연어의 타겟 시퀀스를 생성하기 위해 타겟 임베딩의 시퀀스를 처리한다(단계 208). 일반적으로, 시스템은 타겟 자연어의 문자들 또는 단어들에 타겟 임베딩을 순차적으로 매핑함으로써 타겟 자연어로 된 타겟 시퀀스를 생성한다.
도 3은 디코더 네트워크를 사용하여 타겟 시퀀스를 생성하기 위한 예시적인 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절하게 프로그래밍된 신경 기계 번역 시스템, 예컨대 도 1의 신경 기계 번역 시스템(100)은 프로세스(300)를 수행할 수 있다.
프로세스(300)는 각 반복에서 각각의 타겟 임베딩을 순차적으로 생성하는 시스템에 의해 수행되는 반복 프로세스를 기술한다. 상기 반복들은 순차적으로 수행되므로 다음에서는 각 반복을 편의상 시간 단계라고 한다.
시스템은 소스 임베딩의 시퀀스에 대한 인코딩된 표현이 시간 단계에 대응하는 열을 갖는지를 결정한다(단계 302)(언급한 바와같이, 인코딩된 표현은 소스 임베딩의 시퀀스내의 각 소스 임베딩에 대한 각각의 데이터 열을 포함하는 행렬일 수 있다). 인코딩된 표현이 시간 단계에 대응하는 열을 갖지 않는다는 결정에 응답하여, 시스템은 0의 열을 시간 단계에 대한 인코딩된 표현의 대응하는 열로 식별한다(단계 304). 예를 들어, 타겟 임베딩 시퀀스가 소스 임베딩물 시퀀스보다 긴 경우, 인코딩된 표현은 시간 단계에 해당하는 열을 갖지 않을 수 있다. 인코딩된 표현이 시간 단계에 대응하는 열을 갖는다고 결정한 것에 응답하여, 시스템은 인코딩된 표현을 수정하지 않는다.
다음으로, 시스템은 이전의 시간 단계들에서 생성된 타겟 임베딩들을 연결하고, 연결된 타겟 임베딩들 및 시간 단계에 대한 소스 임베딩 시퀀스의 인코딩된 표현에 대응하는 열을 입력으로서 상기 현재 시간 단계에 대한 마스킹된 1차원 컨볼루션 신경망 디코더로 제공한다(단계 306). 디코더는 시간 단계에 대한 가능한 타겟 임베딩의 세트에 대한 출력 확률을 생성하도록 구성된다. 시스템은 확률에 따라 가능한 타겟 임베딩 세트로부터 타겟 임베딩을 샘플링하거나, 시간 단계에 대한 타겟 임베딩으로서 가장 높은 확률을 갖는 타겟 임베딩을 선택한다. 예를 들어, 디코더의 최종 계층은 상기 확률을 생성하는 소프트맥스 출력 계층일 수 있다.
일반적으로, 주어진 시간 단계에 대한 타겟 임베딩을 생성하기 위해 주어진 시간 단계에서 생성되지 않은 미래의 타겟 임베딩에 디코더가 의존하지 않도록 보장하기 위해, 디코더는 마스킹된 컨볼루션을 구현한다. 일부 구현예에서, 1차원 마스킹된 컨볼루션은 컨볼루션 커널들의 가중치 중 일부를 제로로 함으로써 구현된다.
제1 시간 단계에 대해, 이전 시간 단계에서 타겟 임베딩이 생성되지 않은 경우, 디코더 입력은 단지 소스 임베딩의 상기 인코딩된 표현의 대응 열이다.
시스템은 다양한 방식들 중 임의의 방식으로 디코더의 입력으로서 타겟 임베딩 및 상기 인코딩된 표현의 대응하는 열을 제공할 수 있다. 예를 들어, 시스템은 타겟 임베딩과 상기 인코딩된 표현의 대응 열을 연결할 수 있다. 다른 예로서, 시스템은 타겟 임베딩에 대응하는 열을 추가할 수 있다. 또 다른 예로서, 디코더는 하나 이상의 초기 신경망 계층, 예를 들어, 하나 이상의 1×1 컨볼루션 계층을 사용하여 타겟 임베딩을 먼저 처리한 다음 초기 신경망 계층들의 출력에 열을 추가할 수 있다.
다음으로, 시스템은 디코더에 의해 생성된 타겟 임베딩이 시퀀스-종료(EOS) 심볼인지 여부를 결정한다(단계 310). 상기 생성된 타겟 임베딩이 EOS 심볼이라고 결정하는 것에 응답하여, 타겟 임베딩들의 시퀀스가 출력된다(단계 312). 상기 생성된 타겟 임베딩이 EOS 심볼이 아니라고 결정하는 것에 응답하여, 프로세스(300)는 단계(302)로 돌아가 이전의 단계들을 반복한다.
시스템은 인코더와 디코더를 병렬로 실행할 수 있는데, 여기서 각 타임 스텝에서, 인코더는 인코딩된 소스 표현의 대응 열을 생성하고, 디코더는 소스 표현의 대응 열과 상기 이전에 생성된 타겟 임베딩을 처리하여 시간 단계에 대한 타겟 임베딩을 생성한다.
시스템은 원하는 출력이, 즉 소스 시퀀스를 소스 자연어에서 타겟 자연어로 번역하는 타겟 시퀀스가 알려지지 않은 소스 시퀀스 입력들에 대해 프로세스(200 및 300)를 수행할 수 있다. 시스템은 또한 인코더 및 디코더의 계층들의 파라미터에 대한 드레이닝된 값을 결정하기 위해 트레이닝 데이터 세트 내의, 즉 시스템에 의해 생성되어야 하는 타겟 시퀀스가 알려진 입력 세트 내의 소스 시퀀스 입력들에 대해 프로세스(200 및 300)를 수행할 수 있다. 프로세스(200 및 300)는 계층들을 트레이닝하기 위해 종래의 기계 학습 트레이닝 기술의 일부로서 트레이닝 데이터 세트로부터 선택된 입력들에 대해 반복적으로 수행된다.
상기 계층들을 트레이닝하기 위한 기계 학습 트레이닝 기술은 역전파에 의한 확률적 기울기 강하(gradient descent)일 수 있고, 여기서 시스템은 "배치 (batche)"라고 하는 트레이닝 데이터의 서브 세트를 선택하고, 시스템은 소스 시퀀스에 대응하는 예측된 타겟 시퀀스를 생성하고, 시스템은 역 전파에 의한 성능 측정치에 따라 시스템의 성능을 향상시키기 위해 인코더 및 디코더의 계층들의 파라미터 값을 조정한다.
일부 구현예에서, 디코더의 1차원 마스킹된 컨볼루션 계층들 중 하나 이상에 서브-배치 정규화 계층이 뒤따른다. 서브-배치 정규화 계층들의 동작은 이제 도 4의 프로세스(400)를 참조하여 기술된다.
도 4는 서브-배치 정규화를 위한 예시적인 프로세스(400)의 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절히 프로그래밍된 신경 기계 번역 시스템, 예를 들어 도 1의 신경 기계 번역 시스템(100)은 프로세스(400)를 수행할 수 있다.
트레이닝 반복 동안, 소스-타겟 시퀀스 쌍의 주어진 배치에 대해, 시스템은배치를 메인 서브-배치 및 보조 서브-배치로 분할한다(단계 402). 예를 들어, 배치는 메인 서브-배치 및 각각의 고정된 크기의 보조 서브-배치로 무작위로 또는 임의적으로 분할될 수 있다.
시스템은 시퀀스의 보조 서브-배치 내의 시퀀스들에 대한 서브-배치 정규화 계층으로의 입력들에 대한 배치 정규화 통계를 결정한다(단계 404). 상기 배치 정규화 통계는 서브-배치 정규화 계층에 대한 입력들의 평균 및 분산을 포함할 수 있다.
시스템은 보조 서브-배치에 대한 배치 정규화 통계를 사용하여, 보조 서브-배치 및 메인 서브-배치 모두에서 시퀀스들에 대한 서브-배치 정규화 계층에 대한 입력들을 정규화한다(단계 406).
시스템은 서브-배치 정규화 계층으로부터, 정규화된 입력을 서브-배치 정규화 계층으로 출력한다(단계 408). 즉, 디코더 내의 다른 계층, 예를 들어, 확장된 마스킹된 컨볼루션 계층에 대한 입력으로서 출력한다.
서브-배치 정규화로 시스템을 트레이닝 하는 동안, 역전파는 메인 서브-배치에 대한 예측된 타겟 시퀀스에 단지 기초하여 각 반복에서 수행되는 반면, 보조 서브-배치에 대한 예측된 타겟 시퀀스는 역 전파 수행시 무시된다.
서브-배치 정규화 계층들은 종래의 배치 정규화 계층과 상이하며, 이는 배치를 메인 서브-배치와 보조 서브-배치로 분할하지 않는 것이 아니라 오히려 전체 배치에 기초하여 배치 정규화 통계를 결정한다. 배치 정규화 통계의 계산은 타겟 임베딩 시퀀스내의 모든 타겟 임베딩을 따라 배치 정규화 계층에 대한 입력들을 고려하므로, 배치 정규화 통계로 배치 정규화 계층에 대한 입력들을 정규화하는 것은 디코더의 조건(conditioning) 구조에 위배된다. 그러나 서브-배치 정규화 계층을 사용하면, 배치 정규화 통계는 메인 서브-배치가 아닌 보조 서브-배치에 기초하여 계산되므로, 디코더의 조건 구조는 메인 서브-배치 내의 시퀀스들에 대해 보존되며 역 전파는 보조 서브-배치가 아닌 메인 서브-배치에 대한 예측된 시퀀스들에 기초하여 수행된다.
일부 구현예에서, 컨볼루션 신경망 인코더 및/또는 디코더의 하나 이상의 계층은 하나 이상의 추가 컨볼루션 계층을 포함하는 잔여 블록(residual blick)에 래핑된다. 일반적으로 잔여 블록들은 잔여 블록의 입력에 잔여 블록의 출력을 더함으로써 신경망의 보다 효과적인 트레이닝을 가능하게 하여, 잔여 블록내의 계층들이 증분 표현을 학습할 수 있게 한다. 일부 구현예에서, 잔여 블록은 정류된 선형 유닛(ReLU) 활성화 계층을 포함한다. 다른 구현들에서, 잔여 블록은 승산 유닛 활성화 계층을 포함한다.
본 명세서는 시스템 및 컴퓨터 프로그램 구성 요소와 관련하여 "구성된(configured)"이라는 용어를 사용한다. 특정 동작들 또는 액션들을 수행하도록 구성된 하나 이상의 컴퓨터의 시스템은, 동작시 시스템으로 하여금 동작들 또는 액션들을 수행하게 하는 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 조합을 시스템이 소프트웨어상에 설치했음을 의미한다. 특정 동작들 또는 액션들을 수행하도록 구성된 하나 이상의 컴퓨터 프로그램은, 하나 이상의 프로그램이 상기 데이터 처리 장치에 의해 실행될 때 상기 장치로 하여금 동작들 또는 액션들을 수행하게 하는 명령들을 포함함을 의미한다.
본 명세서에서 설명된 주제 및 기능적 동작들의 실시예는 본 명세서 및 그 구조적 등가물에 개시된 구조들 및 그들의 하나 이상의 조합을 포함하여, 디지털 전자 회로, 유형적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어로 구현될 수 있다. 본 명세서에서 설명된 주제의 실시예는 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의해 실행되거나 데이터 처리 장치의 동작을 제어하기 위한 유형의 비 일시적 저장 매체상에 인코딩된 컴퓨터 프로그램 명령들의 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터 저장 매체는 기계 판독 가능 저장 디바이스, 기계 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다. 대안적으로 또는 부가적으로, 프로그램 명령들은 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 송신을 위해 정보를 인코딩하기 위해 생성되는, 인위적으로 생성된 전파된 신호, 예를 들어, 기계-생성의 전기, 광학 또는 전자기 신호 상에 인코딩될 수 있다.
"데이터 처리 장치"라는 용어는 데이터 처리 하드웨어를 지칭하며, 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 복수의 프로세서 또는 컴퓨터를 포함하여, 데이터를 처리하기 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 상기 장치는 또한 특수 목적 논리 회로, 예를 들어, FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(주문형 집적 회로)일 수 있거나, 포함할 수 있다. 상기 장치는 하드웨어 이외에, 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 하나 이상의 이들의 조합을 구성하는 코드를 선택적으로 포함할 수 있다.
프로그램, 소프트웨어, 소프트웨어 애플리케이션, 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 기술될 수 있는 컴퓨터 프로그램은 컴파일된 또는 해석된 언어, 또는 선언적 또는 절차적 언어를 포함하여 임의의 형태의 프로그래밍 언어로 작성될 수 있고, 독립 실행형 프로그램 또는 모듈, 구성 요소, 서브 루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함하여 임의의 형태로 배포될 수 있다. 프로그램은 파일 시스템의 파일에 해당할 수도 있지만 그렇지 않을 수도 있다. 프로그램은 다른 프로그램이나 데이터(예컨대, 마크 업 언어 문서에 저장된 하나 이상의 스크립트)를 보유하고 있는 파일의 일부분, 문제의 프로그램 전용의 단일 파일 또는 다수의 조정 파일(예컨대, 하나 이상의 모듈, 서브 프로그램 또는 코드의 일부를 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 사이트에 있거나 여러 사이트에 분산되어 있으며 데이터 통신 네트워크로 상호 연결된 다수의 컴퓨터상에서 실행되도록 배포될 수 있다.
본 명세서에서, "엔진"이라는 용어는 하나 이상의 특정 기능을 수행하도록 프로그래밍된 소프트웨어 기반 시스템, 서브 시스템, 또는 프로세스를 지칭하도록 광범위하게 사용된다. 일반적으로 엔진은 하나 이상의 소프트웨어 모듈 또는 구성 요소로 구현되며 하나 이상의 위치에 있는 하나 이상의 컴퓨터상에 설치된다. 일부 경우, 하나 이상의 컴퓨터가 특정 엔진 전용으로 사용되고, 다른 경우에는 더수의 엔진이 동일한 컴퓨터 또는 컴퓨터들상에 설치되어 실행될 수 있다.
본 명세서에서 설명된 프로세스 및 논리 흐름은 입력 데이터를 조작하고 출력을 생성함으로써 기능을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 프로세스 및 논리 흐름은 또한 특수 목적 논리 회로, 예를 들어 FPGA 또는 ASIC에 의해, 또는 특수 목적 논리 회로와 하나 이상의 프로그래밍된 컴퓨터의 조합에 의해 수행될 수 있다.
컴퓨터 프로그램의 실행에 적합한 컴퓨터는 범용 또는 특수 목적 마이크로 프로세서 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 기반으로 할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성 요소는 명령을 수행하거나 실행하기 위한 중앙 처리 장치 및 명령 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 중앙 처리 장치 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 또는 그 안에 통합될 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스((예를 들어, 자기, 광 자기 디스크 또는 광 디스크)로부터 데이터를 수신하거나 전송하거나 둘 모두를 하기 위해 동작 가능하게 결합될 것이다. 그러나 컴퓨터에는 이러한 디바이스들이 있을 필요가 없다. 더욱이, 컴퓨터는 다른 디바이스, 예를 들어 이동 전화, 개인 휴대 정보 단말기(PDA), 모바일 오디오 또는 비디오 플계층, 게임 콘솔, 위성 위치 확인 시스템(GPS) 수신기 또는 휴대용 저장 디바이스(예컨대, 범용 직렬 버스(USB) 플래시 드라이브)에 내장될 수 있다.
컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 반도체 메모리 디바이스(예컨대, EPROM, EEPROM 및 플래시 메모리 디바이스); 자기 디스크(예컨대, 내부 하드 디스크 또는 이동식 디스크); 광 자기 디스크; 및 CD ROM 및 DVD-ROM 디스크를 포함하여, 모든 형태의 비 휘발성 메모리, 매체 및 메모리 디바이스를 포함한다.
사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 기술된 본 발명의 실시예는 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 갖는 컴퓨터상에서 구현될 수 있다. 다른 종류의 디바이스가 사용자와의 상호 작용을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백 일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하여 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 디바이스와 문서를 주고 받음으로써, 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여 사용자 디바이스의 웹 브라우저에 웹 페이지를 전송함으로써 사용자와 상호 작용할 수 있다. 또한, 컴퓨터는 문자 메시지 또는 다른 형태의 메시지를 개인용 디바이스(예를 들어, 메시징 애플리케이션을 실행중인 스마트 폰)에 송신하고 사용자로부터 응답 메시지를 수신함으로써 사용자와 상호 작용할 수 있다.
기계 학습 모델을 구현하기 위한 데이터 처리 장치는 또한 예를 들어, 기계 학습 훈련 또는 생산, 즉 추론, 작업 부하의 공통적이고 계산 집중적인 부분을 처리하기 위한 특수 목적 하드웨어 가속기 유닛을 포함할 수 있다.
기계 학습 모델은 텐서플로우(TensorFlow) 프레임 워크, Microsoft Cognitive Toolkit 프레임 워크, Apache Singa 프레임 워크 또는 Apache MXNet 프레임 워크와 같은 기계 학습 프레임 워크를 사용하여 구현 및 배포될 수 있다.
본 명세서에서 기술된 발명의 실시예는 예를 들어 데이터 서버와 같은 백엔드 컴포넌트, 애플리케이션 서버와 같은 미들웨어 컴포넌트 또는 그래픽 사용자 인터페이스를 가지는 사용자 컴퓨터 또는 사용자가 본 명세서에 기술된 본 발명의 구현예와 인터렉션할 수 있는 웹 브라우저와 같은 프론트엔드 컴포넌트 또는 하나 이상의 상기 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 LAN(local area network) 및 WAN(wide area network) 예를 들어, 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다. 일부 실시예에서, 서버는 예를 들어, 클라이언트로서 동작하는 디바이스와 상호 작용하는 사용자에게 데이터를 디스플레이하고 사용자로부터 사용자 입력을 수신하기 위해 데이터, 예컨대 HTML 페이지를 사용자 디바이스로 전송한다. 사용자 디바이스에서 생성된 데이터, 예를 들어 사용자 상호 작용의 결과는 디바이스로부터 서버에서 수신될 수 있다.
본 명세서는 많은 특정 구현 세부 내용을 포함하지만, 이들은 임의의 발명의 범위 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정한 발명의 특정한 실시예에 특정적일 수 있는 구성들에 대한 설명으로 해석되어야 한다. 별개의 실시예의 맥락에서 본 명세서에서 기술되는 일정 구성들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 맥락에서 기술된 다양한 구성들은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 서브 조합으로 구현될 수 있다. 게다가, 구성들은 일정 조합으로 동작하고 심지어 초기적으로 그렇게 청구되는 것으로서 상기에서 기술될 수 있지만, 청구된 조합으로부터의 하나 이상의 구성들은 일부 경우, 조합으로부터 제거될 수 있고, 청구된 조합은 서브 조합 또는 서브 조합의 변형으로 안내될 수 있다.
유사하게, 동작들이 특정 순서로 도면에 도시되고 청구항들에 인용되어 있지만, 이는 바람직한 결과를 달성하기 위해 이러한 동작들이 도시된 순서 또는 시계열적 순서로 수행되거나 모든 도시된 동작이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 환경에서, 멀티태스킹과 병렬 처리가 유리할 수 있다. 게다가, 상술된 실시예에서 다양한 시스템 모듈들 및 컴포넌트들의 분리는 모든 실시예에서 그러한 분리가 필요한 것으로서 이해되어서는 안되며, 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일의 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품들에 패키징될 수 있음을 이해해야 한다.
주제의 특정 실시예들이 설명되었다. 다른 실시예들도 다음의 청구항들의 범위 내에 있다. 예를 들면, 청구항들에 인용된 액션들은 상이한 순서로 수행되고 여전히 원하는 결과를 달성할 수 있다. 일 예시로서, 첨부 도면들에 도시된 프로세스들은 원하는 결과를 달성하기 위해 도시된 특정 순서 또는 시계열적 순서를 반드시 필요로 하지는 않는다. 어떤 경우에는, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims (20)

  1. 하나 이상의 컴퓨터에 의해 구현되는 신경 시퀀스 변환 시스템으로서,
    데이터 엘리먼트의 소스 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 수신하고; 그리고
    소스 시퀀스의 인코딩(encoded) 표현을 생성하기 위해 소스 임베딩의 입력 시퀀스를 처리하도록 구성된 컨볼루션 인코더 신경망; 및
    컨볼루션 인코더 신경망에 의해 생성된 소스 시퀀스의 인코딩 표현을 수신하고; 그리고
    데이터 엘리먼트의 소스 시퀀스에 대응하는 데이터 엘리먼트의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하기 위해 소스 시퀀스의 인코딩 표현을 처리하도록 구성된 마스킹된(masked) 컨볼루션 디코더 신경망을 포함하는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  2. 제1항에 있어서,
    데이터 엘리먼트의 소스 시퀀스는,
    소스 자연어로 된 단어의 소스 시퀀스인 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  3. 제2항에 있어서,
    데이터 엘리먼트의 타겟 시퀀스는,
    단어의 소스 시퀀스를 타겟 자연어로 번역한 타겟 자연어로 된 단어의 타겟 시퀀스인 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  4. 제1항에 있어서,
    디코더 신경망은 동적 전개(dynamic unfolding)를 사용하여 출력 시퀀스를 생성하도록 구성되는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  5. 제4항에 있어서,
    인코딩 표현은 각 소스 임베딩에 대한 개별 데이터 열을 포함하는 행렬이고, 그리고
    출력 시퀀스의 각 시간 단계에서, 디코더 신경망은 인코딩 표현의 대응하는 열을 입력으로 취하여 타겟 임베딩을 생성하도록 구성되는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  6. 제5항에 있어서,
    인코딩 표현에서 대응하는 열을 갖지 않는 각 시간 단계에 대해, 시스템은 시간 단계에 대응하는 인코딩 표현에 새로운 열을 추가하고 열의 값을 0으로 설정하도록 구성되는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  7. 제5항에 있어서,
    각 시간 단계에서, 디코더 신경망은 시간 단계 이전의 시간 단계에서 인코딩 표현 및 타겟 임베딩에 대해 조건화(conditioned)되는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  8. 제1항에 있어서,
    인코더 신경망은 인코더 신경망 전체에 걸쳐 소스 임베딩의 표현의 해상도를 유지하도록 구성되는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  9. 제1항에 있어서,
    디코더 신경망은 복수의 1차원 마스킹된 확장(dilated) 컨볼루션 신경망 계층을 포함하는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  10. 제9항에 있어서,
    특정 1차원 마스킹된 확장 컨볼루션 신경망 계층 다음에 서브-배치(sub-batch) 정규화 계층이 오고, 상기 서브-배치 정규화 계층은 트레이닝 시퀀스의 배치에 대해 시스템을 트레이닝하는 동안:
    트레이닝 시퀀스의 배치의 보조 서브-배치에서 트레이닝 시퀀스에 대한 특정 1차원 마스킹된 확장 컨볼루션 신경망 계층에 의해 생성된 출력의 배치 정규화 통계를 결정하고; 그리고
    배치 정규화 통계를 이용하여, 보조 서브-배치와 상이한 트레이닝 시퀀스의 배치의 메인 서브-배치에서 트레이닝 시퀀스에 대한 특정 1차원 마스킹된 확장 컨볼루션 신경망 계층에 의해 생성된 출력을 정규화하는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  11. 제9항에 있어서,
    1차원 마스킹된 확장 컨볼루션 신경망 계층들 중 하나 이상은,
    하나 이상의 추가 컨볼루션 계층을 포함하는 잔여 블록으로 래핑(wrapped)되는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  12. 제11항에 있어서,
    잔여 블록은 ReLU(Rectified Linear Unit) 활성화 계층을 포함하는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  13. 제11항에 있어서,
    잔여 블록은 승산 유닛(multiplicative unit) 활성화 계층을 포함하는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  14. 제9항에 있어서,
    복수의 1차원 마스킹된 확장 컨볼루션 신경망 계층은 복수의 그룹으로 그룹화되고, 그리고
    각 그룹 내에서, 그룹 내의 1차원 마스킹된 확장 컨벌루션 신경망 계층의 확장율은 계층마다 2배가 되는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  15. 제2항에 있어서,
    각 소스 임베딩은 n-그램(grams) 임베딩의 개별 백(bag)이고, 그리고
    소스 시퀀스의 주어진 문자에 대해, 문자에 대한 n-그램 임베딩의 백은 소스 시퀀스에서 주어진 문자에 대한 인접 문자의 n-그램 임베딩의 조합인 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  16. 제15항에 있어서,
    주어진 문자의 n-그램 임베딩의 백은,
    1에서 k까지 범위의 n에 대해 상기 주어진 문자에 대한 인접 n-그램의 n-그램 임베딩의 합이고, k는 2보다 크거나 같은 사전 결정된 양의 정수인 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  17. 제15항에 있어서,
    소스 시퀀스를 수신하고, 그리고
    소스 시퀀스로부터 n-그램 임베딩의 백 시퀀스를 생성하도록 구성된 입력 서브 시스템을 더 포함하는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  18. 제1항에 있어서,
    데이터 엘리먼트의 소스 시퀀스는 단어의 소스 시퀀스이고 그리고 시스템은 텍스트 처리 기계 학습 태스크를 수행하도록 구성되고; 또는
    데이터 엘리먼트의 소스 시퀀스는 음성의 소스 시퀀스이고 그리고 시스템은 음성 처리 기계 학습 태스크를 수행하도록 구성되는 것을 특징으로 하는 신경 시퀀스 변환 시스템.
  19. 실행시 데이터 처리 장치로 하여금 동작들을 수행하게 하는 데이터 처리 장치에 의해 실행 가능한 명령들을 저장하는 비-일시적 컴퓨터 판독 가능 저장 매체로서, 상기 동작들은,
    데이터 엘리먼트의 소스 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 수신하는 단계와; 그리고
    데이터 엘리먼트의 소스 시퀀스에 대응하는 데이터 엘리먼트의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하기 위해 입력 시퀀스를 처리하는 단계를 포함하고, 상기 처리하는 단계는,
    소스 시퀀스의 인코딩 표현을 생성하기 위해 컨볼루션 인코더 신경망을 사용하여 소스 임베딩의 입력 시퀀스를 처리하는 단계; 및
    타겟 임베딩의 출력 시퀀스를 생성하기 위해 마스킹된 컨볼루션 디코더 신경망을 사용하여 소스 시퀀스의 인코딩 표현을 처리하는 단계를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 저장 매체.
  20. 하나 이상의 데이터 처리 장치에 의해 수행되는 방법으로서, 상기 방법은,
    데이터 엘리먼트의 소스 시퀀스를 나타내는 소스 임베딩의 입력 시퀀스를 획득하는 단계와; 그리고
    데이터 엘리먼트의 소스 시퀀스에 대응하는 데이터 엘리먼트의 타겟 시퀀스를 나타내는 타겟 임베딩의 출력 시퀀스를 생성하기 위해 입력 시퀀스를 처리하는 단계를 포함하고, 상기 처리하는 단계는,
    소스 시퀀스의 인코딩 표현을 생성하기 위해 컨볼루션 인코더 신경망을 사용하여 소스 임베딩의 입력 시퀀스를 처리하는 단계; 및
    타겟 임베딩의 출력 시퀀스를 생성하기 위해 마스킹된 컨볼루션 디코더 신경망을 사용하여 소스 시퀀스의 인코딩 표현을 처리하는 단계를 포함하는 것을 특징으로 하는 데이터 처리 장치에 의해 수행되는 방법.
KR1020227003520A 2016-10-26 2017-10-24 신경망을 이용한 텍스트 시퀀스 처리 KR102458808B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662413366P 2016-10-26 2016-10-26
US62/413,366 2016-10-26
KR1020197013231A KR102359216B1 (ko) 2016-10-26 2017-10-24 신경망을 이용한 텍스트 시퀀스 처리
PCT/US2017/058046 WO2018081089A1 (en) 2016-10-26 2017-10-24 Processing text sequences using neural networks

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020197013231A Division KR102359216B1 (ko) 2016-10-26 2017-10-24 신경망을 이용한 텍스트 시퀀스 처리

Publications (2)

Publication Number Publication Date
KR20220020421A true KR20220020421A (ko) 2022-02-18
KR102458808B1 KR102458808B1 (ko) 2022-10-25

Family

ID=60263120

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020197013231A KR102359216B1 (ko) 2016-10-26 2017-10-24 신경망을 이용한 텍스트 시퀀스 처리
KR1020227003520A KR102458808B1 (ko) 2016-10-26 2017-10-24 신경망을 이용한 텍스트 시퀀스 처리

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020197013231A KR102359216B1 (ko) 2016-10-26 2017-10-24 신경망을 이용한 텍스트 시퀀스 처리

Country Status (6)

Country Link
US (3) US10354015B2 (ko)
EP (1) EP3532998A1 (ko)
JP (1) JP6756916B2 (ko)
KR (2) KR102359216B1 (ko)
CN (1) CN110023963B (ko)
WO (1) WO2018081089A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024128442A1 (ko) * 2022-12-12 2024-06-20 숙명여자대학교산학협력단 트랜스포머 기반의 자연어 주석 자동 생성 방법 및 장치

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10628735B2 (en) * 2015-06-05 2020-04-21 Deepmind Technologies Limited Reading comprehension neural networks
EP3497630B1 (en) 2016-09-06 2020-11-04 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
EP3822863B1 (en) 2016-09-06 2022-11-02 DeepMind Technologies Limited Generating audio using neural networks
US20180077689A1 (en) * 2016-09-15 2018-03-15 Qualcomm Incorporated Multiple bandwidth operation
WO2018081089A1 (en) 2016-10-26 2018-05-03 Deepmind Technologies Limited Processing text sequences using neural networks
US11423143B1 (en) 2017-12-21 2022-08-23 Exabeam, Inc. Anomaly detection based on processes executed within a network
CN110083448B (zh) * 2018-01-25 2023-08-18 腾讯科技(深圳)有限公司 一种计算资源调整方法、装置以及相关设备
US10770063B2 (en) * 2018-04-13 2020-09-08 Adobe Inc. Real-time speaker-dependent neural vocoder
US11431741B1 (en) * 2018-05-16 2022-08-30 Exabeam, Inc. Detecting unmanaged and unauthorized assets in an information technology network with a recurrent neural network that identifies anomalously-named assets
CN108776832B (zh) * 2018-06-05 2021-08-24 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机设备和存储介质
AU2019284379A1 (en) 2018-06-12 2021-01-28 Intergraph Corporation Artificial intelligence applications for computer-aided dispatch systems
US11205121B2 (en) 2018-06-20 2021-12-21 Disney Enterprises, Inc. Efficient encoding and decoding sequences using variational autoencoders
CN109117483B (zh) * 2018-07-27 2020-05-19 清华大学 神经网络机器翻译模型的训练方法及装置
JP7143677B2 (ja) * 2018-08-24 2022-09-29 日本電信電話株式会社 単語符号化装置、解析装置、言語モデル学習装置、方法、及びプログラム
CN109271646B (zh) * 2018-09-04 2022-07-08 腾讯科技(深圳)有限公司 文本翻译方法、装置、可读存储介质和计算机设备
CN109285111B (zh) * 2018-09-20 2023-05-09 广东工业大学 一种字体转换的方法、装置、设备及计算机可读存储介质
CN109325103B (zh) * 2018-10-19 2020-12-04 北京大学 一种序列学习的动态标识符表示方法、装置及系统
CN109543838B (zh) * 2018-11-01 2021-06-18 浙江工业大学 一种基于变分自编码器的图像增量学习方法
CN109784149B (zh) * 2018-12-06 2021-08-20 苏州飞搜科技有限公司 一种人体骨骼关键点的检测方法及系统
US11423251B2 (en) 2019-01-03 2022-08-23 Samsung Electronics Co., Ltd. Method and system of performing convolution in neural networks with variable dilation rate
CN111476039B (zh) * 2019-01-04 2023-06-30 深圳永德利科技股份有限公司 智能车载系统的即时语言翻译方法及相关产品
US11313950B2 (en) 2019-01-15 2022-04-26 Image Sensing Systems, Inc. Machine learning based highway radar vehicle classification across multiple lanes and speeds
CN110222329B (zh) * 2019-04-22 2023-11-24 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法和装置
US11587552B2 (en) 2019-04-30 2023-02-21 Sutherland Global Services Inc. Real time key conversational metrics prediction and notability
US11625366B1 (en) 2019-06-04 2023-04-11 Exabeam, Inc. System, method, and computer program for automatic parser creation
US11663489B2 (en) * 2019-06-24 2023-05-30 Insurance Services Office, Inc. Machine learning systems and methods for improved localization of image forgery
US11862146B2 (en) * 2019-07-05 2024-01-02 Asapp, Inc. Multistream acoustic models with dilations
US11157705B2 (en) * 2019-07-22 2021-10-26 International Business Machines Corporation Semantic parsing using encoded structured representation
CN110807335B (zh) * 2019-09-02 2023-06-30 腾讯科技(深圳)有限公司 基于机器学习的翻译方法、装置、设备及存储介质
CN110600015B (zh) * 2019-09-18 2020-12-15 北京声智科技有限公司 一种语音的密集分类方法及相关装置
CN110807336B (zh) * 2019-09-19 2023-10-31 平安科技(深圳)有限公司 基于最优传输损失的序列模型的翻译方法及相关设备
US11341340B2 (en) * 2019-10-01 2022-05-24 Google Llc Neural machine translation adaptation
US11651209B1 (en) 2019-10-02 2023-05-16 Google Llc Accelerated embedding layer computations
CN110717345B (zh) * 2019-10-15 2020-07-07 内蒙古工业大学 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN111079450B (zh) * 2019-12-20 2021-01-22 北京百度网讯科技有限公司 基于顺句驱动的语言转换方法和装置
CN111191709B (zh) * 2019-12-25 2023-10-31 清华大学 深度神经网络的持续学习框架及持续学习方法
WO2021141576A1 (en) * 2020-01-08 2021-07-15 Google, Llc Translation of text depicted in images
KR102362532B1 (ko) * 2020-03-16 2022-02-16 주식회사 로보볼트 신경망 기반의 배터리 잔존 수명 예측 방법 및 장치
US11263753B2 (en) * 2020-04-07 2022-03-01 Naver Corporation Method for training a convolutional neural network for image recognition using image-conditioned masked language modeling
CN111767723B (zh) * 2020-05-14 2024-07-19 上海大学 一种基于bic的中文电子病历实体标注方法
CN111539223B (zh) * 2020-05-29 2023-08-18 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111737994B (zh) * 2020-05-29 2024-01-26 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111475658B (zh) * 2020-06-12 2020-12-25 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
US11956253B1 (en) 2020-06-15 2024-04-09 Exabeam, Inc. Ranking cybersecurity alerts from multiple sources using machine learning
US20220036245A1 (en) * 2020-07-28 2022-02-03 International Business Machines Corporation EXTRACTING SEQUENCES FROM d-DIMENSIONAL INPUT DATA FOR SEQUENTIAL PROCESSING WITH NEURAL NETWORKS
US11875131B2 (en) 2020-09-16 2024-01-16 International Business Machines Corporation Zero-shot cross-lingual transfer learning
US11281928B1 (en) * 2020-09-23 2022-03-22 Sap Se Querying semantic data from unstructured documents
US12063226B1 (en) 2020-09-29 2024-08-13 Exabeam, Inc. Graph-based multi-staged attack detection in the context of an attack framework
US11836438B2 (en) * 2021-01-28 2023-12-05 Microsoft Technology Licensing, Llc ML using n-gram induced input representation
US20230013370A1 (en) * 2021-07-02 2023-01-19 Google Llc Generating audio waveforms using encoder and decoder neural networks
CN114417841A (zh) * 2021-12-28 2022-04-29 航天科工网络信息发展有限公司 一种基于扩张卷积神经网络的特征提取方法及装置
US12013958B2 (en) 2022-02-22 2024-06-18 Bank Of America Corporation System and method for validating a response based on context information
US12050875B2 (en) 2022-02-22 2024-07-30 Bank Of America Corporation System and method for determining context changes in text

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140056368A (ko) * 2011-08-31 2014-05-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 마이크로폰 배치들 및 워터마킹된 오디오 신호들을 이용한 도착 방향 추정
KR20160013710A (ko) * 2014-07-28 2016-02-05 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
KR101855597B1 (ko) * 2015-10-29 2018-05-08 바이두 유에스에이 엘엘씨 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1004910A (en) 1911-01-07 1911-10-03 Ohio Grease Lubricant Company Grease-lubricator.
JPH0450121Y2 (ko) 1986-04-30 1992-11-26
US5377302A (en) 1992-09-01 1994-12-27 Monowave Corporation L.P. System for recognizing speech
AU675389B2 (en) 1994-04-28 1997-01-30 Motorola, Inc. A method and apparatus for converting text into audible signals using a neural network
JPH10333699A (ja) 1997-06-05 1998-12-18 Fujitsu Ltd 音声認識および音声合成装置
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
DE10018134A1 (de) 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
JP2002123280A (ja) 2000-10-16 2002-04-26 Seiko Epson Corp 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
US7062437B2 (en) 2001-02-13 2006-06-13 International Business Machines Corporation Audio renderings for expressing non-audio nuances
US20060064177A1 (en) 2004-09-17 2006-03-23 Nokia Corporation System and method for measuring confusion among words in an adaptive speech recognition system
US7747070B2 (en) 2005-08-31 2010-06-29 Microsoft Corporation Training convolutional neural networks on graphics processing units
KR100832556B1 (ko) 2006-09-22 2008-05-26 (주)한국파워보이스 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
FR2950713A1 (fr) 2009-09-29 2011-04-01 Movea Sa Systeme et procede de reconnaissance de gestes
TWI413104B (zh) 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
CN102651217A (zh) 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
US8527276B1 (en) 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US9230550B2 (en) 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
CA3022052C (en) 2013-03-25 2021-05-18 Fluent.Ai Inc. System and method for applying a convolutional neural network to speech recognition
US9190053B2 (en) * 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
US9953634B1 (en) * 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US10181098B2 (en) * 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
US9821340B2 (en) 2014-07-28 2017-11-21 Kolo Medical Ltd. High displacement ultrasonic transducer
ES2880316T3 (es) 2014-08-29 2021-11-24 Google Llc Procesamiento de imágenes mediante redes neuronales profundas
EP3889954B1 (en) 2014-09-25 2024-05-08 Sunhouse Technologies, Inc. Method for extracting audio from sensors electrical signals
US10783900B2 (en) 2014-10-03 2020-09-22 Google Llc Convolutional, long short-term memory, fully connected deep neural networks
US9542927B2 (en) 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
US11080587B2 (en) 2015-02-06 2021-08-03 Deepmind Technologies Limited Recurrent neural networks for data item generation
CN105096939B (zh) 2015-07-08 2017-07-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
CN105068998B (zh) * 2015-07-29 2017-12-15 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
CN105321525B (zh) 2015-09-30 2019-02-22 北京邮电大学 一种降低voip通信资源开销的系统和方法
US10733979B2 (en) 2015-10-09 2020-08-04 Google Llc Latency constraints for acoustic modeling
US10319374B2 (en) 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
CN105513591B (zh) 2015-12-21 2019-09-03 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
CN108780519B (zh) 2016-03-11 2022-09-02 奇跃公司 卷积神经网络的结构学习
US10460747B2 (en) 2016-05-10 2019-10-29 Google Llc Frequency based audio analysis using neural networks
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
US9984683B2 (en) 2016-07-22 2018-05-29 Google Llc Automatic speech recognition using multi-dimensional models
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
EP3497630B1 (en) 2016-09-06 2020-11-04 Deepmind Technologies Limited Processing sequences using convolutional neural networks
EP3822863B1 (en) 2016-09-06 2022-11-02 DeepMind Technologies Limited Generating audio using neural networks
WO2018081089A1 (en) * 2016-10-26 2018-05-03 Deepmind Technologies Limited Processing text sequences using neural networks
US10049106B2 (en) * 2017-01-18 2018-08-14 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
TWI767000B (zh) 2017-05-20 2022-06-11 英商淵慧科技有限公司 產生波形之方法及電腦儲存媒體
US9959272B1 (en) * 2017-07-21 2018-05-01 Memsource a.s. Automatic classification and translation of written segments
US11227108B2 (en) * 2017-09-11 2022-01-18 Nec Corporation Convolutional neural network architecture with adaptive filters
US10489792B2 (en) * 2018-01-05 2019-11-26 Asapp, Inc. Maintaining quality of customer support messages
WO2019157257A1 (en) * 2018-02-08 2019-08-15 Cognizant Technology Solutions U.S. Corporation System and method for pseudo-task augmentation in deep multitask learning
CN109885842B (zh) * 2018-02-22 2023-06-20 谷歌有限责任公司 处理文本神经网络
US10726858B2 (en) 2018-06-22 2020-07-28 Intel Corporation Neural network for speech denoising trained with deep feature losses
US10971170B2 (en) 2018-08-08 2021-04-06 Google Llc Synthesizing speech from text using neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140056368A (ko) * 2011-08-31 2014-05-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 마이크로폰 배치들 및 워터마킹된 오디오 신호들을 이용한 도착 방향 추정
KR20160013710A (ko) * 2014-07-28 2016-02-05 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
KR101855597B1 (ko) * 2015-10-29 2018-05-08 바이두 유에스에이 엘엘씨 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kalchbrenner et al., "Video Pixel Networks", arXiv:1610.00527v1, (2016.10.03.) 1부.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024128442A1 (ko) * 2022-12-12 2024-06-20 숙명여자대학교산학협력단 트랜스포머 기반의 자연어 주석 자동 생성 방법 및 장치

Also Published As

Publication number Publication date
EP3532998A1 (en) 2019-09-04
KR102359216B1 (ko) 2022-02-07
JP6756916B2 (ja) 2020-09-16
US10354015B2 (en) 2019-07-16
US10733390B2 (en) 2020-08-04
US20190286708A1 (en) 2019-09-19
WO2018081089A1 (en) 2018-05-03
KR102458808B1 (ko) 2022-10-25
CN110023963A (zh) 2019-07-16
US20200342183A1 (en) 2020-10-29
KR20190058636A (ko) 2019-05-29
JP2020502625A (ja) 2020-01-23
US20180329897A1 (en) 2018-11-15
CN110023963B (zh) 2023-05-30
US11321542B2 (en) 2022-05-03

Similar Documents

Publication Publication Date Title
KR102359216B1 (ko) 신경망을 이용한 텍스트 시퀀스 처리
US11948066B2 (en) Processing sequences using convolutional neural networks
KR102448389B1 (ko) 어텐션-기반의 시퀀스 변환 신경망
CN108205699B (zh) 生成用于神经网络输出层的输出
US10699182B2 (en) Depth concatenation using a matrix computation unit
US10268671B2 (en) Generating parse trees of text segments using neural networks
EP3312777B1 (en) Recurrent neural network system for data item generation
US9691019B1 (en) Depth concatenation using a matrix computation unit
JP2018533804A (ja) 畳み込みゲート制御再帰型ニューラルネットワーク
JP2019512760A (ja) リカレントニューラルネットワークモデルの圧縮
JP6876814B2 (ja) バッチ再正規化層
US11488067B2 (en) Training machine learning models using teacher annealing
US20200401874A1 (en) Generating output examples using recurrent neural networks conditioned on bit values
US10402719B1 (en) Generating output sequences from input sequences using neural networks

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant