KR102353284B1 - 신경망을 사용하여 오디오 생성 - Google Patents

신경망을 사용하여 오디오 생성 Download PDF

Info

Publication number
KR102353284B1
KR102353284B1 KR1020197009838A KR20197009838A KR102353284B1 KR 102353284 B1 KR102353284 B1 KR 102353284B1 KR 1020197009838 A KR1020197009838 A KR 1020197009838A KR 20197009838 A KR20197009838 A KR 20197009838A KR 102353284 B1 KR102353284 B1 KR 102353284B1
Authority
KR
South Korea
Prior art keywords
audio
neural network
time
output
time step
Prior art date
Application number
KR1020197009838A
Other languages
English (en)
Other versions
KR20190042730A (ko
Inventor
덴 오드 애런 제라드 안토니우스 반
샌더 에티엔 레아 디엘레만
날 에메리히 칼크브레너
캐런 시몬얀
오리올 빈야알스
Original Assignee
딥마인드 테크놀로지스 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 딥마인드 테크놀로지스 리미티드 filed Critical 딥마인드 테크놀로지스 리미티드
Publication of KR20190042730A publication Critical patent/KR20190042730A/ko
Application granted granted Critical
Publication of KR102353284B1 publication Critical patent/KR102353284B1/ko

Links

Images

Classifications

    • G06N3/0454
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • G06N3/0481
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Complex Calculations (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

복수의 시간 단계들 각각에서 각 오디오 샘플을 포함하는 오디오 데이터의 출력 시퀀스를 생성하기 위한, 컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치가 개시된다. 방법들 중 하나는 상기 복수의 시간 단계들 각각에 대해, 컨볼루션 서브네트워크에 오디오 데이터의 현재 시퀀스를 입력으로서 제공하는 단계 - 상기 현재 시퀀스는 출력 시퀀스에서 시간 단계에 선행하는 각각의 시간 단계에서의 각 오디오 샘플을 포함하고; 상기 컨볼루션 서브네트워크는, 상기 오디오 데이터의 현재 시퀀스를 처리하여 상기 시간 단계에 대한 대체 표현을 생성하도록 구성됨-; 그리고 출력층에 대한 입력으로서 시간 단계에 대한 상기 대체 표현을 제공하는 단계를 포함하며, 상기 출력층은 시간 단계에 대한 복수의 가능한 오디오 샘플들을 통해 스코어 분포를 정의하는 출력을 생성하도록 상기 대체 표현을 처리하도록 구성된다.

Description

신경망을 사용하여 오디오 생성
본 명세서는 신경망을 사용하여 오디오를 처리하고 생성하는 것에 관한 것이다.
신경망은 수신된 입력에 대한 출력을 예측하기 위해 하나 이상의 비선형 유닛 계층을 사용하는 기계 학습 모델이다. 일부 신경망은 출력층 외에도 하나 이상의 은닉층을 포함한다. 각각의 은닉층의 출력은 네트워크의 다음 계층, 즉 다음 은닉층 또는 출력층에 대한 입력으로 사용된다. 네트워크의 각 계층은 각각의 파라미터 세트의 현재 값에 따라 수신된 입력으로부터 출력을 생성한다.
본 명세서는 하나 이상의 위치에 있는 하나 이상의 컴퓨터에서 컴퓨터 프로그램으로 구현된 시스템이 어떻게 여러 시간 단계의 각각에서 각 오디오 샘플을 포함하는 오디오 데이터의 시퀀스를 생성할 수 있는지를 설명한다. 예를 들어, 오디오 데이터의 시퀀스는 특정 자연어 또는 음악의 피스를 나타낼 수 있다.
하나의 혁신적인 양태에서, 하나 이상의 컴퓨터에 의해 구현되는 신경망 시스템은 복수의 시간 단계들 각각에서 각각의 오디오 샘플을 포함하는 오디오 데이터의 출력 시퀀스를 생성하도록 구성된다. 신경망 시스템은 하나 이상의 오디오 처리 컨볼루션 신경망 계층을 포함하는 컨볼루션 서브네트워크; 및 출력층을 포함한다. 컨볼루션 서브네트워크는, 복수의 시간 단계들 각각에 대해, 출력 시퀀스의 (현재) 시간 단계에 선행하는 각각의 시간 단계에서 각각의 오디오 샘플을 포함하는 오디오 데이터의 현재 시퀀스를 수신하도록 구성될 수 있다. 컨볼루션 서브네트워크는 또한 오디오 데이터의 현재 시퀀스를 처리하여 시간 (현재) 단계에 대한 대체 표현(alternative representation)을 생성하도록 구성될 수 있다. 이 대체 표현은 오디오 데이터의 현재 시퀀스가 예를 들어 현재 시퀀스의 인코딩 특징과 같은 컨볼루션 서브네트워크에 의해 인코딩된 수치 표현, 즉 수치 값의 순서화된 집합(collection)을 포함할 수 있다. 출력층은 복수의 시간 단계들 각각에 대해, 시간 단계에 대한 대체 표현을 수신하고, 시간 단계에 대한 복수의 가능한 오디오 샘플에 대한 스코어 분포를 정의하는 출력을 생성하기 위해 시간 단계에 대한 상기 대체 표현을 처리하도록 구성될 수 있다. 이러한 시스템의 많은 장점 중 일부는 나중에 설명된다. 시스템은 스코어 분포를 사용하여 그 분포에서 샘플링하여 현재 시간 단계에 대한 샘플을 선택할 수 있다. 출력은 가능한 모든 오디오 샘플 값에 대해 하나의 스코어, 예를 들어 256개의 가능한 값에 대한 256개의 스코어를 포함할 수 있지만 반드시 그런 것은 아니다. 따라서, 모델 출력의 수를 줄이기 위해 진폭 값일 수 있는 오디오 샘플 값을 압축하거나 컴팬딩(companding)하는 데 유용할 수 있다.
일부 구현 예에서, 컨볼루션 신경망 계층은 후술하는 바와 같이 인과(causal) 컨볼루션 신경망 계층이다. 특히, 오디오 처리 컨볼루션 신경망 계층은 하나 이상의 딜레이션(dilation)된 인과 컨볼루션 신경망 계층을 포함할 수 있다. 다시 더 상세하게 후술되는 바와 같이, 딜레이션된 컨볼루션 신경망 계층은 시퀀스에서 인접하지 않은 값, 즉 이전 계층으로부터의 출력에 의해 정의된 바와 같이 컨볼루션을 적용한다. 이는 입력 (시간) 분해능을 보존하고 계산 효율을 유지하면서 컨볼루션 서브네트워크의 수용 필드를 몇배 증가시킬 수 있다.
일부 구현예에서, 컨볼루션 신경망 계층은 딜레이션된 컨볼루션 신경망 계층의 복수의 스택된 블록(stacked block)을 포함한다. 각각의 블록은 증가하는 딜레이션을 갖는 복수의 딜레이션된 컨볼루션 신경망 계층을 포함할 수 있다. 예를 들어, 각 블록 내의 한계까지 각 연속적인 계층에 대한 팩터(factor)(n)만큼 딜레이션이 증가될 수 있다. 이는 수용 필드 크기를 추가로 증가시킬 수 있다.
일부 구현 예에서, 컨볼루션 신경망 계층들 중 하나 이상은 게이트된(gated) 활성화 유닛을 가질 수 있다. 예를 들어, 계층에 의해 구현된 컨볼루션 이후 정류된 선형 또는 다른 유닛은 게이트된 활성화 유닛으로 대체될 수 있다. 게이트된 활성화 유닛에서 출력은 두 가지 (인과) 컨볼루션, 메인 컨볼루션 및 게이트 컨볼루션의 조합이 될 수 있다. 컨볼루션은 각각 이전 계층의 동일한 출력의 일부 또는 전부에 적용될 수 있다. 이 조합은 게이트 컨볼루션에 적용되는 비선형 활성화 함수, 예를 들어 시그모이드(sigmoid)와 같은 (0,1) 범위의 활성화를 포함할 수 있다. 그러면 메인 컨볼루션의 값이 곱해질 수 있으며; 비선형 활성화 함수가 메인 컨볼루션에 적용될 수 있지만 반드시 그럴 필요는 없다. 이러한 방식은 데이터 내에서보다 복잡한 구조를 캡처하는 데 도움이 될 수 있다.
각 시간 단계에서 컨볼루션 서브네트워크로부터의 대체 표현은 신경망 입력, 예를 들어 컨디셔닝 입력의 잠재 표현에 따라 조절될 수 있다. 컨디셔닝 입력은 글로벌(실질적으로 시간 독립적) 및/또는 로컬(시간 의존적)일 수 있다. 컨디셔닝 입력은 예를 들어 텍스트, 이미지 또는 비디오 데이터, 또는 오디오 데이터(예를 들어 특정 화자 또는 언어 또는 음악의 사례)를 포함할 수 있다. 신경망 입력은 컨디셔닝 입력의 임베딩(embedding)을 포함할 수 있다. 예를 들어, 텍스트 음성 변환 시스템에서, 글로벌 컨디셔닝 입력은 화자 임베딩을 포함할 수 있고, 로컬 컨디셔닝 입력은 언어(linguistic) 특징을 포함할 수 있다. 시스템은 신경망을 사용하여 입력을 반복하거나 또는 입력을 업샘플링함으로써 낮은 샘플링 주파수로부터 오디오 샘플 생성 주파수로 신경망 입력 또는 컨디셔닝 입력을 맵핑하도록 구성될 수 있다. 따라서, 신경망 입력은 텍스트 세그먼트의 특징을 포함할 수 있고, 출력 시퀀스는 텍스트 세그먼트의 언어화(verbalization)를 나타낼 수 있으며, 및/또는 신경망 입력은 화자 또는 억양(intonation) 패턴 값을 포함할 수 있으며, 및/또는 신경망 입력은 화자 신원 정보, 언어 신원 정보 및 말하기 스타일 정보 중 하나 이상을 포함할 수 있다. 또는 출력 시퀀스가 음악의 피스를 나타낸다.
컨볼루션 서브네트워크는 레지듀얼(residual) 연결, 예를 들어 컨볼루션 계층의 입력으로부터 합산기로의 연결을 포함하여 이를 계층의 중간 출력과 합산할 수 있다. 이는 효과적으로 네트워크가 계층을 스킵하거나 부분적으로 스킵하도록 훈련되도록 허용하며, 따라서 컨버전스 속도를 높이고 심층 모델(deeper model)의 훈련을 용이하게 한다. 컨볼루션 서브네트워크는 부가적으로 또는 대안적으로, 예를 들어 컨볼루션 서브네트워크의 하나 이상의 중간 계층들 각각으로부터 출력층에 제공되는 대체 표현을 직접 생성하는 하나 이상의 동작들에 대한 스킵 연결들을 포함할 수 있다.
컨볼루션 서브네트워크를 사용하여 오디오 데이터의 현재 시퀀스를 처리하고, 시간 단계에 대한 대체 표현을 생성하는 일부 구현 예에서, 이전 시간 단계에 대해 계산된 값을 재사용한다. 재사용된 값은 오디오 샘플 데이터에 대한 컨볼루션 필터의 적용 또는 이로부터 유도된 데이터로부터 유도된 값을 포함할 수 있다. 재사용된 값은 하나의 시간 단계에서 저장될 수 있고, 동일한 필터가 동일한 오디오 샘플 데이터(또는 일부) 또는 그로부터 유도된 데이터에 적용될 때 나중의 시간 단계에서 검색될 수 있다. 이는 저장된 값을 다시 계산할 필요가 없기 때문에 시스템을 보다 효율적으로, 따라서 더 빠르게 연산할 수 있게 한다.
본 명세서에서 설명된 요지의 특정 실시 예는 다음의 장점 중 하나 이상을 실현하도록 구현될 수 있다. 신경망 시스템은 초당 수십만 개의 오디오 샘플을 생성할 수 있으므로 다른 신경망 기반 오디오 생성 시스템보다 세분화된 수준을 제공한다. 신경망 시스템은 예를 들어 첨단 기술보다 우수한 품질의 텍스트로부터 음성을 생성함으로써 오디오 생성 태스크에 대한 최신 기술보다 현저하게 뛰어난 결과를 달성할 수 있다. 단일 훈련된 신경망 시스템은 화자 신원을 조절하여 다른 목소리를 생성하는 데 사용할 수 있다. 순한 신경망 계층 eotlos, 예를 들어 LSTM(long short-term memory) 계층 대신 인과 컨볼루션 계층과 같은 컨볼루션 신경망 계층을 사용함으로써, 신경망 시스템은 순환 신경망 계층을 포함하는 다른 시스템과 같이 훈련하기 위한 많은 계산 자원을 필요로 하지 않는 유리한 결과를 얻을 수 있으므로 훈련 시간이 단축된다. 순환 계층보다는 컨볼루션 계층을 사용함으로써, 신경망 시스템의 계산은, 예를 들어, 네트워크의 계층들이 매시간 단계마다 전개될 필요가 없기 때문에, 보다 쉽게 일괄 처리되고 보다 쉽게 병렬화될 수 있어, 시스템의 계산이 보다 효율적으로 수행될 수 있게 한다. 또한 딜레이션된 인과 컨볼루션층을 사용함으로써, 컨볼루션 서브네트워크의 수용 필드와 시스템에 의해 생성된 오디오의 품질은 오디오 생성의 계산 비용을 크게 증가시키지 않고 향상될 수 있다.
본 명세서에 기술된 요지의 하나 이상의 실시 예의 세부 사항은 첨부된 도면들 및 이하의 설명에서 설명된다. 요지의 다른 특징, 양태 및 장점은 상세한 설명, 도면들 및 청구 범위로부터 명백해질 것이다.
도 1은 예시적인 신경망 시스템을 나타낸다.
도 2는 딜레이션된 인과 컨볼루션 계층들의 예시적인 블록의 시각화를 도시한다.
도 3은 컨볼루션 서브네트워크에 대한 예시적인 아키텍처를 도시한다.
도 4는 오디오 시퀀스의 소정의 시간 단계에서 오디오 샘플을 생성하기 위한 예시적인 프로세스의 흐름도이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 구성요소를 나타낸다.
도 1은 예시적인 신경망 시스템(100)을 도시한다. 신경망 시스템(100)은 하나 이상의 위치에서 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로서 구현되는 시스템의 예로서, 이하에서 설명되는 시스템, 컴포넌트 및 기술이 구현될 수 있다.
신경망 시스템(100)은 오디오 데이터의 시퀀스, 예를 들어 오디오 데이터(152)의 출력 시퀀스와 같은 다수의 시간 단계들 각각에서 각각의 오디오 샘플을 각각 포함하는 오디오 데이터의 시퀀스를 생성한다.
일반적으로, 소정의 오디오 시퀀스의 각 시간 단계는 오디오 파형의 각각의 시간에 대응하고, 시간 단계에서의 오디오 샘플은 해당 시간에서의 파형을 특성화한다. 일부 구현 예에서, 시퀀스 내의 각 시간 단계에서의 오디오 샘플은 해당 시간에서의 오디오 파형의 진폭, 즉 신경망 시스템(100)에 의해 생성된 시퀀스는 미가공(raw) 오디오 파형이다. 다른 구현 예에서, 시퀀스 내의 각 시간 단계에서의 오디오 샘플은 해당 시간에서의 파형의 압축된 또는 컴팬딩된(companded) 표현이다. 예를 들어, 오디오 샘플은 "μ-law"로 변환된 파형의 표현이 될 수 있다.
특히, 신경망 시스템(100)은 자동적으로 오디오 시퀀스를 생성한다. 즉, 출력 오디오 시퀀스의 각각의 특정 시간 스텝에 대해, 신경망 시스템(100)은 특정 시간 단계, 즉 오디오 시퀀스의 특정 시간 단계보다 빠른 시간 단계에서 오디오 샘플에 대해 이미 생성된 오디오 샘플에 컨디셔닝된(conditioned) 시간 단계에서 오디오 샘플을 생성한다.
신경망 시스템(100)은 컨볼루션 서브네트워크(110) 및 출력층(120)을 포함한다.
오디오 시퀀스의 생성 동안 각각의 시간 단계에서, 컨볼루션 서브네트워크(110)는 현재 오디오 시퀀스, 즉 시간 단계에서 이미 생성된 오디오 시퀀스를 수신하고, 현재 오디오 시퀀스를 처리하여 시간 단계 동안 대체 표현을 생성하도록 구성된다. 예를 들어, 오디오 시퀀스(152)에서 오디오 샘플(140)을 생성할 때, 컨볼루션 서브네트워크(110)는 오디오 시퀀스(152)에서 오디오 샘플(140)을 선행하는 오디오 샘플을 포함하는 현재 오디오 시퀀스(142)를 수신하고, 대체 표현(144)을 생성한다.
출력층(120)은 각각의 시간 단계에서, 대체 표현을 수신하고, 시간 단계에 대한 가능한 오디오 샘플에 대해 스코어 분포를 생성하도록 구성된다. 스코어 분포는 복수의 가능한 오디오 샘플 각각에 대한 각각의 스코어를 포함한다. 일부 구현 예에서, 출력층(120)은 소프트맥스(softmax) 출력층이다. 예를 들어, 출력층(120)은 대체 표현(144)을 수신하고, 대체 표현(144)을 처리하여 스코어 분포(146)를 생성할 수 있다.
특히, 신경망 시스템(100)이 미가공 오디오 데이터를 생성하도록 구성될 때, 스코어 분포는 복수의 가능한 진폭 값들 각각에 대한 각각의 스코어를 포함한다. 신경망 시스템(100)이 압축된 또는 컴팬딩된(companded) 값을 생성하도록 구성될 때, 스코어 분포는 복수의 가능한 압축된 또는 컴팬딩된 값 각각에 대한 각각의 스코어를 포함한다.
출력층(146)이 소정의 시간 간격 동안 스코어 분포를 생성하면, 신경망 시스템(100)은 소정의 시간 단계에 대한 스코어 분포에 따라 복수의 가능한 오디오 샘플들로부터 소정의 시간 단계에서 출력 시퀀스에 포함될 오디오 샘플을 선택할 수 있다. 예를 들어, 신경망 시스템(100)은 스코어 분포로부터 샘플링함으로써, 즉 스코어 분포 내의 스코어에 따라 가능한 오디오 샘플로부터 샘플링함으로써 오디오 샘플을 선택할 수 있으며, 이로 인해 각각의 오디오 샘플은 오디오 샘플에 대한 스코어에 대응하는 우도로 선택되거나 스코어 분포에 따라 가장 높은 스코어를 갖는 가능한 오디오 샘플을 선택할 수 있다.
컨볼루션 서브네트워크(110)는 일반적으로 복수의 오디오 처리 컨볼루션 신경망 계층을 포함한다. 보다 구체적으로, 오디오 처리 컨볼루션 신경망 계층은 복수의 인과 컨볼루션 계층을 포함한다.
인과 컨볼루션 계층은 각 시간 단계 동안에, 입력 시퀀스의 시간 단계 이전의 시간 단계에서 그리고 상기 시간 단계에서 입력에만 의존하는, 즉, 입력 시퀀스에서 시간 단계 이후의 모든 시간 단계에서 모든 입력에 작동하지 않는 출력을 생성함으로써, 복수의 시간 단계 각각에서 각각의 입력을 갖는 입력 시퀀스에 대해 작동하는 컨볼루션 계층이다. 일부 경우에, 인과 컨볼루션 계층은 노멀 컨볼루션을 적용한 다음 노널 컨볼루션의 각 출력을 몇 시간 단계만큼 시프트, 예를 들어 컨볼루션 계층에 대한 활성화 함수를 적용하기 전에, 각 출력을 (즉, 필터 길이 - 1) 시간 단계만큼 앞으로 시프트함으로써 구현되며, 여기서 "필터 길이"는 적용되는 컨볼루션의 필터의 길이이다.
과도한 길이의 필터 또는 과도한 수의 계층을 요구하지 않고 오디오 처리 컨볼루션 계층의 수용 필드를 증가시키기 위해, 오디오 처리 컨볼루션 계층의 일부 또는 전부는 딜레이션된 인과 컨볼루션 계층이 될 수 있다. 딜레이션된(dilated) 컨볼루션은 딜레이션된 컨볼루션에 대한 딜레이션 값으로 정의된 특정 단계로 입력 값을 스킵함으로써 필터가 길이보다 큰 영역에 적용되는 컨볼루션이다. 딜레이션된 인과(dilated causal) 컨볼루션을 통합함으로써, 오디오 처리 신경망 계층은 노멀 컨볼루션보다 거친(coarser) 스케일로 입력에 효과적으로 작용한다.
일부 구현 예에서, 오디오 처리 신경망 계층은 딜레이션된 인과 컨볼루션 계층들의 복수의 블록들의 스택을 포함한다. 스택의 각 블록은 증가하는 딜레이션을 갖는 다중 딜레이션된 컨볼루션 신경망 계층을 포함할 수 있다. 예를 들어, 블록 내에서,
딜레이션은 초기 딜레이션으로부터 시작하여 각 층에 대해 두 배가 될 수 있으며, 다음 블록의 첫 번째 계층에 대한 초기 딜레이션으로 리턴할 수 있다. 예시적인 예로서, 블록 내의 딜레이션된 컨볼루션 계층의 딜레이션은 1, 2, 4,. . . , 512 순서대로 이루어질 수 있다. 딜레이션된 인과 컨볼루션 계층들의 블록의 간략화된 예가 도 2를 참조하여 아래에서 설명된다.
일부 구현 예에서, 컨볼루션 서브네트워크는 레지듀얼(residual) 연결, 스킵 연결, 또는 둘 다를 포함한다. 레지듀얼 연결 및 스킵 연결 모두를 포함하는 컨볼 루션 서브네트워크의 예시적인 아키텍처가 도 3을 참조하여 아래에서 설명된다.
일부 구현 예에서, 신경망 시스템(100)은 신경망 입력에 컨디셔닝된 오디오 시퀀스를 생성한다. 예를 들어, 신경망 시스템(100)은 신경망 입력(102)상에서 컨디셔닝된 오디오 시퀀스(152)를 생성할 수 있다.
일부 경우에, 신경망 입력은 하나 이상의 로컬 특징, 즉 출력 시퀀스의 상이한 시간 단계에 대해 상이한 하나 이상의 특징을 포함한다. 예를 들어, 신경망 시스템(100)은 입력으로서 텍스트 세그먼트의 언어 특징을 획득할 수 있고, 텍스트 세그먼트의 언어화를 나타내는 오디오 시퀀스를 생성할 수 있으며, 즉, 신경망 시스템(100)은 작성된 텍스트를 말하기 음성(spoken speech)으로 변환하는 텍스트-음성 시스템의 일부로서 기능할 수 있고, 또한, 신경망 시스템(100)에 의해 생성된 오디오 시퀀스를 말로 표현하는 컴포넌트를 포함한다.
일부 다른 경우에, 신경망 입력은 하나 이상의 글로벌 특징, 즉 전체 출력 시퀀스에 걸쳐 동일한 하나 이상의 특징을 포함한다. 예를 들어, 신경망 시스템(100)은 화자의 신원에 따라 조절된 음성, 즉 음성이 화자의 음성처럼 들리게 생성되도록 음성을 생성할 수 있다. 이 예에서, 신경망 시스템(100)은 화자의 신원을 인코딩하는 벡터, 예를 들어, 화자를 식별하는 원-핫(one-hot) 인코딩된 벡터를 획득하고, 획득된 벡터에 생성된 음성을 조절(condition)할 수 있다.
일반적으로, 오디오 시퀀스는 컨볼루션 서브네트워크 내의 컨볼루션 계층의 일부 또는 전부의 활성화 함수를 컨디셔닝함으로써 신경망 입력에 컨디셔닝된다. 즉, 활성화 함수의 출력, 따라서 컨볼루션 계층의 출력은 계층에 의해 수행된 컨볼루션의 출력뿐만 아니라 신경망 입력에도 의존한다.
컨볼루션 계층의 활성화 함수를 신경망 입력에 컨디셔닝하는 것에 대해서는도 3을 참조하여보다 상세히 설명한다.
도 2는 딜레이션된 인과 컨볼루션 계층들의 예시적인 블록의 시각화(200)를 보여준다. 특히, 예시 블록은 딜레이션 1을 갖는 딜레이션된 인과 컨볼루션 계층(204), 딜레이션 2를 갖는 딜레이션된 인과 컨볼루션 계층(206), 딜레이션 4를 갖는 딜레이션된 인과 컨볼루션 계층(208) 및 딜레이션 8을 갖는 딜레이션된 인과 컨볼루션 계층(210)을 포함한다.
시각화(200)에서, 딜레이션된 인과 컨볼루션 계층들의 블록은 현재 입력 시퀀스(202)상에서 동작하여 출력 시퀀스를 생성한다. 특히, 시각화(200)는 굵은 화살표를 사용하여 블록이 현재 입력 시퀀스(202) 및 출력 시퀀스에서 현재의 최종 시간 단계인 시간 단계에서의 출력인 출력(212)을 생성하는 방법을 시각화한다.
시각화(200)로부터 알 수 있는 바와 같이, 블록 내의 각 계층은 블록 내의 첫번째 계층(즉 딜레이션 1을 갖는 딜레이션된 인과 컨볼루션 계층(204)) 및 블록 내의 마지막 계층(즉 딜레이션 8을 갖는 딜레이션된 인과 컨볼루션 계층(204))을 갖는 증가하는 딜레이션 순서로 배열된다. 특히, 시각화(200)의 굵은 화살표로 도시된 바와 같이, 딜레이션된 인과 컨볼루션 계층(204)이 딜레이션 1을 갖기 때문에, 계층(204)의 필터는 현재 입력 시퀀스(202)의 인접한 입력에 적용된다. 딜레이션된 인과 컨볼루션 계층(206)은 딜레이션 2를 가지므로, 계층(206)의 필터는 계층(204)에 의해 생성된 출력 시퀀스에서 하나의 출력에 의해 분리된 출력에 적용된다. 딜레이션된 인과 컨볼루션 계층(208)이 딜레이션 4를 갖기 때문에, 계층(208)의 필터는 계층(206)에 의해 생성된 출력 시퀀스에서 3개의 출력에 의해 분리된 출력에 적용된다. 딜레이션된 인과 컨볼루션 계층(210)은 딜레이션 8을 가지므로, 계층(210)의 필터는 계층(208)에 의해 생성된 출력 시퀀스에서 7개의 출력에 의해 분리된 출력에 적용된다.
도 3은 도 1의 컨볼루션 서브네트워크(110)에 대한 예시적인 아키텍처(300)를 도시한다. 상술한 바와 같이, 예시적인 아키텍처(300)에서, 컨볼루션 서브네트워크에 있는 딜레이션된 인과 컨볼루션 계층들은 레지듀얼 연결 및 스킵 연결을 갖는다.
특히, 아키텍처(300)에서, 컨볼루션 서브네트워크(110)는 즉 인과 컨볼루션을 현재의 출력 시퀀스(142)에 적용함으로써 현재 출력 시퀀스(142)를 처리하는 인과 컨볼루션 계층(Causal Conv)(302)을 포함한다.
그 다음, 컨볼루션 서브네트워크(110)는 딜레이션된 인과 컨볼루션 계층들의 스택을 통해 인과 컨볼루션 계층(302)의 출력을 처리한다.
스택 내의 각각의 딜레이션된 인과 컨볼루션 계층(304)은 딜레이션된 인과 컨볼루션(Dilated Conv)(308)을 딜레이션된 인과 컨볼루션 계층(304)에 대한 입력(306)에 적용한다. 전술한 바와 같이, 일부 구현 예에서, 스택 내의 딜레이션된 인과 컨볼루션 계층들은 블록으로 배열되고, 각 계층에 의해 적용된 딜레이션된 인과 컨볼루션의 딜레이션은 소정의 블록 내에서 증가하고, 다음 블록의 첫번째 계층에 대한 초기 값에서 재시작된다.
일부 구현 예에서, 스택 내의 딜레이션된 인과 컨볼루션 계층은 요소별 비선형성(element-wise non-linearity), 즉 종래의 활성화 함수의 출력이 요소별로 게이트 벡터와 곱해지는 게이트된 활성화 함수를 갖는다. 일부 구현예에서, 딜레이션된 인과 컨볼루션(308)은 계층 입력(302) 상에 2개의 딜레이션된 인과 컨볼루션(계층 입력(306) 및 계층(304)에 대한 메인 필터 사이의 제1 딜레이션된 인과 컨볼루션, 그리고 계층 입력(306) 및 계층(304)에 대한 게이트 필터 사이의 또 다른 딜레이션된 인과 컨볼루션)을 포함한다. 이러한 구현예의 다른 것들에서, 딜레이션된 인과 컨볼루션(308)은 단일 딜레이션된 인과 컨볼루션이고, 단일 컨볼루션의 출력의 절반은 계층 입력(306)과 계층(304)에 대한 메인 필터 사이의 딜레이션된 인과 컨볼루션의 출력으로서 제공되고, 단일 컨볼루션의 출력의 나머지 절반은 계층 입력(306)과 계층(304)에 대한 게이트 필터 사이의 딜레이션된 인과 컨볼루션의 출력으로서 제공된다.
그 다음 딜레이션된 인과 컨볼루션 계층(304)은 딜레이션된 인과 컨볼루션의 출력을 사용하여 계층(304)의 활성화 함수의 출력을 결정한다.
특히, 활성화 함수가 게이트된 활성화 함수이고, 생성되는 출력 시퀀스가 신경망 입력에 컨디셔닝되지 않으면, 계층(304)은 도 3의 예에서 탄젠트(tanh) 함수인 요소별 비선형 함수(310)를 메인 필터를 갖는 딜레이션된 컨볼루션의 출력에 적용하고, 게이트 필터를 갖는 딜레이션된 컨볼루션의 출력에 도 3의 예에서 시그모이드 함수인 요소별 게이팅 함수를 적용한다. 그 다음, 계층(304)은 비선형 함수(310)의 출력과 게이팅 함수(312)의 출력 사이의 요소별 곱셈(314)을 수행하여 활성화 함수 출력을 생성한다.
보다 구체적으로, 요소별 비선형성이 탄젠트(tanh)이고, 요소별 게이팅 함수가 시그모이드 함수인 경우, 계층 k에 대한 활성화 함수 z의 출력은 수학식 1을 만족한다.
Figure 112019035115414-pct00001
여기서,
Figure 112019035115414-pct00002
는 계층 k에 대한 메인 필터, x는 계층 입력, *는 인과 딜레이션된 컨볼루션,
Figure 112019035115414-pct00003
는 요소별 곱셈,
Figure 112019035115414-pct00004
는 계층 k에 대한 게이트 필터를 나타낸다.
생성되는 출력 시퀀스가 신경망 입력에 컨디셔닝되면, 계층(304)은 또한 신경망 입력에 대한 활성화 함수의 출력을 컨디셔닝한다. 특히, 비선형 함수 및 게이팅 함수는 해당 딜레이션된 컨볼루션 출력과 신경망 입력으로부터 생성된 입력의 조합을 입력으로 취한다.
더 구체적으로, 신경망 입력이 글로벌 특징들을 포함하고, 따라서 시퀀스의 모든 시간 단계들에 대해 동일할 때, 요소별 비선형성은 탄젠트이고, 요소별 게이팅 함수는 시그모이드 함수이고, 계층 k에 대한 활성화 함수 z의 출력은 수학식 2를 만족한다.
Figure 112019035115414-pct00005
여기서,
Figure 112019035115414-pct00006
는 계층 k에 대한 (활성화 함수의 메인 멈포넌트에 대한 h의)메인 학습 가능한 선형 프로젝션(projection)이고, h는 신경망 입력이고,
Figure 112019035115414-pct00007
는 계층 k에 대한 (활성화 함수의 게이트 컴포넌트에 대한 h의) 게이트 학습 가능한 선형 프로젝션이다.
또는, 신경망 입력이 로컬 특징들, 즉 시간 단계에서 시간 단계로 변화하는 특징들을 포함할 때, 시스템(100)은 출력 시퀀스에서 각 시간 단계에 대한 특징 세트를 포함하는 시퀀스 y를 획득한다. 계층 k에 대한 활성화 함수 z의 출력은 수학식 3을 만족한다.
Figure 112019035115414-pct00008
여기서,
Figure 112019035115414-pct00009
Figure 112019035115414-pct00010
는 각각 1x1 컨볼루션이다. 일부 구현 예에서, 시스템(100)은 신경망 입력으로서 시퀀스 y를 직접 수신하며, 즉, 출력 시퀀스와 동일한 해상도를 갖는 시퀀스를 직접 수신한다. 다른 구현예들에서, 시스템(100)은 출력 시퀀스보다 더 낮은 해상도, 즉 더 낮은 샘플링 주파수를 갖는 시퀀스를 수신한다. 이러한 경우, 상기 시스템은 시퀀스 y를 생성하기 위해 전치된(학습된 업샘플링) 컨볼루션 네트워크를 사용하여 저해상도 시퀀스를 처리함으로써 시퀀스 y를 생성할 수 있거나, 시퀀스 y를 생성하기 위해 저해상도 시퀀스로부터 시간에 걸쳐 값을 반복할 수 있다.
예로서, 로컬 특징들이 텍스트-음성 생성에 사용하기 위한 언어적 특징들일 때, 언어적 특징들은 폰, 음절, 단어, 문구 및 텍스트의 발화 수준 특징의 일부 또는 전부를 포함할 수 있다. 사용될 수 있는 언어적 함수 예제 세트는 "Zen", "Heiga"에 설명되어 있다(An example of context-dependent label format for HMM-based speech synthesis in English, 2006. URL http://hts.sp.nitech.ac.jp/?Download and Zen, Heiga, Senior, Andrew, and Schuster, Mike. Statistical parametric speech synthesis using deep neural networks. In Proc. ICASSP, pp. 7962-7966, 2013.)
아키텍처(300)가 딜레이션된 인과 컨볼루션 계층에 대한 스킵 연결 및 레지듀얼 연결을 포함하기 때문에, 계층(304)은 활성화 함수 출력에 대해 1x1 컨볼루션(316)을 수행한다.
계층(304)은 1x1 컨볼루션의 출력을 계층의 스킵 출력(318)으로서 제공하고, 계층(304)의 최종 출력(320)을 생성하기 위해 레지듀얼, 즉 계층 입력(306) 및 1x1 컨볼루션의 출력을 가산한다. 이어서, 컨볼루션 서브네트워크(110)는 최종 출력(320)을 계층 입력으로서 스택의 다음 딜레이션된 컨볼루션 계층에 제공한다.
일부 구현 예에서, 계층(304)은 활성화 함수 출력에서 2개의 1x1 컨볼루션을 수행하고, 하나는 레지듀얼 필터를 갖고, 다른 하나는 스킵 필터를 갖는다. 이러한 구현 예에서, 계층(304)은 계층의 스킵 출력(318)으로서 스킵 필터를 갖는 컨볼루션의 출력을 제공하고, 1x1 컨볼루션의 레지듀얼 및 출력을 레지듀얼 필터와 더하여 계층(304)의 최종 출력(320)을 생성한다.
이어서, 컨볼루션 서브네트워크(110)는 최종 출력(320)을 계층 입력으로서 스택의 다음 딜레이션된 컨볼루션 계층에 제공한다. 스택의 마지막 계층의 경우 다음 계층이 없기 때문에, 컨볼루션 서브네트워크(110)는 최종 계층에 의해 생성된 최종 출력(320)을 폐기(discard)하거나 최종 출력을 계산하는 것을 삼가할 수 있다(즉, 스택에서 최종 계층에 대한 레지듀얼 합과 1x1 컨볼루션을 수행하는 것을 삼가할 수 있다.).
딜레이션된 컨볼루션 계층들의 스택 내의 모든 계층들(304)의 처리(프로세싱)가 완료되면, 컨볼루션 서브네트워크(110)는 계층들(304)에 의해 생성된 스킵 출력들을 합산(가산)한다(322). 컨볼루션 서브네트워크(110)는 대체 표현(144)을 생성하기 위해 합산(322)에 하나 이상의 비선형 함수, 하나 이상의 1x1 컨볼루션 또는 둘 모두를 적용할 수 있다. 특히, 도 3의 예에서, 컨볼루션 서브네트워크(110)는 대체 표현(144)을 생성하기 위해 요소별 비선형성(ReLU)(324), 예를 들어 ReLU를 적용한 후 1x1 컨볼루션(326), 다른 요소별 비선형성(ReLU)(328), 최종 1x1 컨볼루션(330) 순으로 적용한다.
전술한 바와 같이, 그 다음 출력층(softmax)(120)은 대체 표현(144)을 처리하여 스코어 분포(146)를 생성한다.
도 4는 오디오 시퀀스에서 소정의 시간 단계에서 오디오 샘플을 생성하기 위한 예시적인 프로세스(400)의 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 신경망 시스템, 예를 들어 도 1의 신경망 시스템(100)은 적절하게 프로그램되어 프로세스(400)를 수행할 수 있다.
시스템은 컨볼루션 서브네트워크에 대한 입력으로서 현재 오디오 시퀀스를 제공한다(단계 402). 현재 오디오 시퀀스는 소정의 시간 단계, 즉 소정의 시간 단계 이전의 시간 단계에서 출력 오디오 샘플을 포함하는 시퀀스로서 이미 생성된 오디오 시퀀스이다. 상술한 바와 같이, 컨볼루션 서브네트워크는 오디오 처리 컨볼루션 신경망 계층, 예를 들어, 딜레이션된 인과 컨볼루션 계층을 포함하고, 소정의 시간 단계에 대한 대체 표현을 생성하기 위해 오디오 데이터의 현재 시퀀스를 처리하도록 구성된다.
시스템은 대체 표현을 출력층, 예를 들어, 소프트맥스(softmax) 출력층에 입력으로서 제공한다(단계 404). 출력층은 대체 표현(표상)을 처리하여 시간 단계에 대한 가능한 오디오 샘플를 통해 스코어 분포를 생성하도록 구성된다.
시스템은 스코어 분포에 따라 소정의 시간 단계에서 오디오 시퀀스에 포함시킬 오디오 샘플을 선택한다(단계 406). 예를 들어, 시스템은 스코어 분포에 따라 가능한 오디오 샘플을 샘플링할 수 있다.
상기 시스템은 미가공(raw) 또는 압축 및/또는 컴팬딩된 오디오 데이터 (예: 화자, 음악 등의 파형)에 대해 훈련(학습)받을 수 있다. 선택적으로 텍스트의 언어화를 위한 오디오 데이터와 쌍을 이루는 텍스트로부터 도출된 언어적 특징으로서 표현될 수 있는 텍스트-음성 데이터와 같은 컨디셔닝 데이터가 포함될 수 있다.
훈련 시간, 즉 컨볼루션 계층의 필터의 훈련된 값 및 시스템의 임의의 다른 파라미터를 결정하도록 컨볼루션 서브네트워크 및 출력층을 훈련(학습)하는 동안, 상기 시스템은 시스템에 의해 생성되어야 하는 그라운드 진리 출력의 모든 시간 단계가 알려지기 때문에, 모든 시간 단계에 대한 조건부 예측을 병렬로, 즉 자동 회귀(autoregressively) 대신에 생성할 수 있다. 일반적으로, 시스템은 종래의 감독(supervised) 학습 기술, 예를 들어 역전파 기반 기술을 갖는 확률적 구배 하강(stochastic gradient descent)을 사용하여 파라미터들의 훈련된 값들을 결정하기 위해 훈련을 수행할 수 있다. 상술한 바와 같이, 이러한 병렬화 및 인과 컨볼루션 계층의 사용으로 인해, 시스템은 다른 시스템, 예를 들어, 순환 신경망 계층을 포함하는 것과 같은 많은 컴퓨터 자원을 훈련시킬 필요가 없기 때문에, 훈련 시간이 단축된다.
또한, 시스템이 출력 시퀀스를 자동-회귀적으로 생성하기 때문에, 일부 구현 예에서, 컨볼루션 서브네트워크는 소정의 시간 단계에 대한 대체 표현을 계산할 때 이전 시간 단계들에 대해 계산된 값들을 재사용한다. 특히, 동일한 오디오 샘플이 서브네트워크에 대한 입력으로서 2회 이상 제공되기 때문에, 컨볼루션 서브 네트워크에 의해 수행되는 일부 계산은 다수의 상이한 시간 단계에서 동일할 것이다. 이러한 구현예에서, 매 시간 단계마다 이러한 계산을 다시 계산하기보다는, 컨볼루션 서브네트워크는 연산이 처음 수행될 때 계산의 출력 값을 저장할 수 있고 후속 시간 단계에서 상기 저장된 출력 값을 재사용할 수 있다. 간단한 예로서, 컨볼루션 서브네트워크의 제1 컨벌루션 계층은 오디오 시퀀스의 생성 중에 동일한 오디오 샘플 값에 동일한 필터 또는 필터를 여러 번 적용할 것이다. 매시간 단계마다 이러한 필터 적용의 출력을 다시 계산하는 대신 시스템은 이전 시간 단계에서 계산된 출력을 재사용할 수 있다.
일부 구현 예에서, 수용 필드를 증가시키는 또 다른 방법으로서, 매우 큰(긴) 수용 필드를 갖는 딜레이션된 인과 컨볼루션 계층의 하나의 스택, 그러나 바람직하게는 계층당보다 적은 유닛이 더 작은 수용 필드를 갖는 (더 큰) 스택을 컨디셔닝하는데 사용될 수 있다. 더 큰 스택은 오디오 신호의 짧은 부분을 처리할 수 있다(예: 끝에서 크롭됨(cropped)).
본 명세서는 시스템 및 컴퓨터 프로그램 구성 요소와 관련하여 "구성된"이라는 용어를 사용한다. 특정 동작이나 액션을 수행하도록 구성된 하나 이상의 컴퓨터 시스템은 시스템이 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로 인해 시스템이 동작 또는 액션을 수행하게 하는 것을 의미한다. 특정 동작 또는 액션을 수행하도록 구성된 하나 이상의 컴퓨터 프로그램은 하나 이상의 컴퓨터 프로그램이 데이터 처리 장치에 의해 실행될 때 장치로 하여금 동작 또는 액션을 수행하게 하는 명령어들을 포함함을 의미한다.
본 명세서에서 설명된 요지 및 기능적 동작의 실시 예는 본 명세서 및 그의 구조적 균등물에 개시된 구조들 또는 그들 중 하나 이상의 조합을 포함하여, 디지털 전자 회로, 유형적으로- 구현된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어에서 구현될 수 있다. 본 명세서에서 설명된 요지의 실시 예는 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의해 실행되거나 또는 데이터 처리 장치의 동작을 제어하기 위해 유형의 일시적 저장 매체상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈로서 구현될 수 있다. 상기 컴퓨터 저장 매체는 기계 판독가능 저장 장치, 기계 판독가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 장치, 또는 이들 중 하나 이상의 조합일 수 있다. 대안으로 또는 부가적으로, 상기 프로그램 명령어들은 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 송신을 위해 정보를 인코딩하기 위해 생성되는 인위적으로 생성된 전파된 신호, 예를 들어, 기계-발생 전기, 광학 또는 전자기 신호상에 인코딩될 수 있다.
"데이터 처리 장치"라는 용어는 데이터 처리 하드웨어를 의미하며, 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 복수의 프로세서 또는 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 이 장치는 또한 특수 목적 논리 회로, 예를 들어 FPGA (field programmable gate array) 또는 ASIC(application specific integrated circuit)일 수 있다. 상기 장치는 하드웨어 이외에, 컴퓨터 프로그램들의 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 이들 중 하나 이상의 조합을 구성하는 코드를 선택적으로 포함할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 설명될 수 있음)은 컴파일된 또는 해석된 언어, 또는 선언적 또는 절차적 언어를 포함한 모든 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램이나 모듈, 컴포넌트, 서브루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 장치를 포함하여 어떤 형태로든 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있지만 반드시 그런 것은 아니다. 프로그램은 프로그램 전용 단일 파일, 여러 개의 조정된 파일(예를 들어, 하나 이상의 모듈, 하위 프로그램 또는 코드의 부분들을 저장하는 파일들), 또는 마크업 언어 문서에 저장된 하나 이상의 스크립트와 같은 다른 프로그램들 또는 데이터를 보유하고 있는 파일의 부분에 저장될 수 있다. 컴퓨터 프로그램은 한 사이트에 있거나 여러 사이트에 분산되어 있으며 통신 네트워크로 상호 연결된 여러 대의 컴퓨터 또는 하나의 컴퓨터에서 실행되도록 배포될 수 있다.
본 명세서에서, "데이터베이스"라는 용어는 데이터의 임의의 집합을 나타내기 위해 광범위하게 사용되며, 그 데이터는 특정 방식으로 구조화되거나 전혀 구조화될 필요가 없으며 하나 이상의 위치에 있는 저장 장치에 저장할 수 있다. 따라서, 예를 들어, 인덱스 데이터베이스는 복수의 데이터 집합을 포함할 수 있으며, 각각의 집합은 다르게 구성되고 액세스될 수 있다.
본 명세서에서, 용어 "엔진"은 하나 이상의 특정 기능을 수행하도록 프로그램된 소프트웨어 기반 시스템, 서브 시스템 또는 프로세스를 지칭하기 위해 광범위하게 사용된다. 일반적으로 엔진은 하나 이상의 소프트웨어 모듈 또는 구성 요소로 구현되며 하나 이상의 위치에 있는 하나 이상의 컴퓨터에 설치된다. 일부 경우에 따라 하나 이상의 컴퓨터가 특정 엔진 전용으로 사용되며, 다른 경우에는 여러 대의 엔진을 동일한 컴퓨터나 컴퓨터들에 설치하여 실행할 수 있다.
본 명세서에서 설명되는 프로세스들 및 로직 흐름은 입력 데이터를 조작하고 출력을 생성함으로써 기능을 수행하도록 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 상기 프로세스들 및 로직 흐름은 또한 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 특수 목적 논리 회로에 의해 수행될 수 있고, 장치는 또한 상기 특수 목적 논리 회로로 구현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들어 범용 또는 특수 목적 마이크로프로세서 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 포함하고, 이들에 기반할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성요소들은 명령어들을 수행하거나 실행하기 위한 중앙 처리 장치 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 장치이다. 일반적으로, 컴퓨터는 데이터(예를 들어, 자기, 광 자기 디스크 또는 광 디스크)를 저장하기 위한 하나 이상의 대용량 저장 장치를 포함하거나, 그 하나 이상의 대용량 저장 장치로부터 데이터를 수신하거나 전송하기 위해 동작 가능하게 결합될 것이다. 그러나, 컴퓨터는 그러한 장치들을 가질 필요는 없다. 또한, 컴퓨터는 다른 장치, 예를 들어, 이동 전화기, 개인 휴대 정보 단말기(PDA), 이동 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 휴대용 저장 장치(예를 들어, 범용 직렬 버스(USB) 플래시 드라이브)에 내장될 수 있다.
컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 장치와 같은 반도체 메모리 장치, 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크, 광 자기 디스크, 및 CD ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함한다.
사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 설명된 요지의 실시예들은 사용자에게 정보를 제공하기 위한 CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터와 같은 디스플레이 장치, 사용자가 입력을 컴퓨터에 제공할 수 있는 마우스 또는 트랙볼과 같은 키보드 및 포인팅 장치를 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 장치들은 사용자와의 상호 작용을 제공하는 데 사용될 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 장치로 문서를 보내고 문서를 수신하여 사용자와 상호 작용할 수 있으며, 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여 사용자의 클라이언트 장치상의 웹 브라우저에 웹 페이지를 전송함으로써 수행될 수 있다. 또한, 컴퓨터는 문자 메시지 또는 다른 형태의 메시지를 개인용 장치(예를 들어, 메시징 애플리케이션을 실행중인 스마트폰)에 송신하고 사용자로부터 응답 메시지를 수신함으로써 사용자와 상호 작용할 수 있다.
기계 학습 모델을 구현하기 위한 데이터 처리 장치는 또한, 예를 들어, 기계 학습 훈련 또는 생산, 즉 추론, 작업부하의 공통 및 연산 중심 부분을 처리하기 위한 특수 목적 하드웨어 가속기 유닛을 포함할 수 있다.
기계 학습 모델은" TensorFlow" 프레임워크, "Microsoft Cognitive Toolkit" 프레임워크, "Apache Singa" 프레임워크 또는 "Apache MXNet" 프레임워크와 같은 기계 학습 프레임워크를 사용하여 구현 및 배치할 수 있다.
본 명세서에서 설명된 요지의 실시예들은 데이터 서버와 같은 백 엔드 컴포넌트; 애플리케이션 서버와 같은 미들웨어 컴포넌트; 예를 들어 관계 그래픽 사용자 인터페이스 또는 사용자가 본 명세서에 설명된 요지의 구현예와 상호 작용할 수 있는 웹 브라우저를 갖는 클라이언트 컴퓨터와 같은 프론트 엔트 컴포넌트; 또는 하나 이상의 백 엔드, 미들웨어, 프론트 엔트 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 상기 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 접속될 수 있다. 예시적인 통신 네트워크는 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어 인터넷을 포함한다.
상기 컴퓨팅 시스템은 클라이언트들과 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들로 인해 발생한다. 일부 실시 예에서, 서버는 데이터, 예를 들어, 데이터를 디스플레이하고, 클라이언트로서 동작하는 장치와 상호 작용하는 사용자로부터 사용자 입력을 수신하기 위해 HTML 페이지를 사용자 장치로 송신한다. 사용자 장치에서 생성된 데이터, 예를 들어 사용자 상호 작용의 결과는 상기 장치로부터 서버에서 수신될 수 있다.
본 명세서는 다수의 특정 구현 세부 사항을 포함하지만, 이들은 임의의 발명 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정 발명의 특정 실시예에 특정될 수 있는 특징에 대한 설명으로 해석되어야 한다. 별도의 실시예들과 관련하여 본 명세서에서 설명되는 특정 특징들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 콘텍스트에서 설명된 다양한 특징들은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 서브조합으로 구현될 수 있다. 더욱이, 특징들은 소정의 조합으로 작용하고 상술한 바와 같이 초기에 청구된 것으로서 설명될 수 있지만, 청구된 조합의 하나 이상의 특징이 어떤 경우 그 조합으로부터 제거될 수 있고, 그 청구된 조합은 서브조합 또는 그 서브조합의 변형을 지향할 수 있다.
유사하게, 동작들이 특정 순서로 도면들에 도시되어 있지만, 이는 바람직한 동작들을 달성하기 위해, 그러한 동작들이 도시된 순서 또는 순차적인 순서로 수행되거나, 도시된 모든 동작들이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서 멀티 태스킹 및 병렬 처리가 유리할 수 있다. 또한, 상술한 실시 예에서 다양한 시스템 모듈 및 컴포넌트의 분리는 모든 실시예에서 그러한 분리를 필요로 하는 것으로 이해되어서는 안되며, 서술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다중 소프트웨어 제품들로 패키징될 수 있다는 것을 이해해야 한다.
본 발명의 특정 실시예들이 설명되었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구 범위에 열거된 동작들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과를 달성한다. 하나의 예로서, 첨부된 도면에 도시된 프로세스는 바람직한 결과를 얻기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 필요로 하지는 않는다. 특정 구현예들에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims (37)

  1. 오디오 출력을 생성하기 위한 하나 이상의 컴퓨터에 의해 구현되는 신경망 시스템 -상기 신경망 시스템은 복수의 시간 단계들 각각에서 각 오디오 샘플을 포함하는 오디오 데이터의 출력 시퀀스를 생성하도록 구성되며, 각 시간 단계는 오디오 파형의 각 시간에 대응하고, 각 시간 단계에서의 오디오 샘플은 해당 시간에서의 파형을 특성화함-으로서, 상기 신경망 시스템은,
    하나 이상의 오디오 처리 컨볼루션 신경망 계층들을 포함하는 컨볼루션 서브네트워크와, 출력층, 서브시스템을 포함하며,
    상기 컨볼루션 서브네트워크는, 상기 복수의 시간 단계들 각각에 대해,
    출력 시퀀스에서 시간 단계에 선행하는 각 시간 단계에서 각 오디오 샘플을 포함하는 오디오 데이터의 현재 시퀀스를 수신하고,
    상기 오디오 데이터의 현재 시퀀스를 처리하여 상기 시간 단계에 대한 대체 표현(alternative representation)을 생성하고; 그리고
    상기 출력층은, 상기 복수의 시간 단계들 각각에 대해,
    시간 단계에 대한 상기 대체 표현을 수신하고,
    시간 단계에 대한 복수의 가능한 오디오 샘플들을 통해 스코어 분포를 정의하는 출력을 생성하도록 시간 단계에 대한 상기 대체 표현을 처리하고;
    상기 서브시스템은, 상기 복수의 시간 단계들 각각에 대해,
    시간 단계에 대한 스코어 분포에 따라 출력 시퀀스의 시간 단계에서 오디오 샘플을 선택하도록 구성되는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  2. 제1항에 있어서, 상기 오디오 샘플을 선택하는 것은,
    상기 스코어 분포에서 샘플링하는 것을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  3. 제1항에 있어서, 상기 오디오 샘플을 선택하는 것은,
    상기 스코어 분포에 따라 가장 높은 스코어를 갖는 오디오 샘플을 선택하는 것을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  4. 제1항에 있어서,
    상기 복수의 시간 단계들 각각은 오디오 파형의 각각의 시간에 대응하고,
    상기 복수의 시간 단계들 각각에서의 각 오디오 샘플은 해당 시간에서의 상기 오디오 파형의 진폭값인 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  5. 제1항에 있어서,
    상기 복수의 시간 단계들 각각은 오디오 파형의 각 시간에 대응하고,
    상기 복수의 시간 단계들 각각에서의 각 오디오 샘플은 해당 시간에서의 상기 오디오 파형의 압축된 또는 컴팬딩된(companded) 표현인 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  6. 제1항에 있어서,
    상기 오디오 처리 컨볼루션 신경망 계층들은 인과 컨볼루션 신경망 계층들인 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  7. 제1항에 있어서,
    상기 오디오 처리 컨볼루션 신경망 계층들은 하나 이상의 딜레이션된(dilated) 컨볼루션 신경망 계층들을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  8. 제7항에 있어서,
    상기 오디오 처리 컨볼루션 신경망 계층들은 딜레이션된 컨볼루션 신경망 계층들의 복수의 블록들을 포함하고, 각각의 블록은 증가하는 딜레이션을 갖는 복수의 딜레이션된 컨볼루션 신경망 계층들을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  9. 제1항에 있어서, 오디오 처리 컨볼루션 신경망 계층들 중 하나 이상은 게이트된 활성화 유닛들을 갖는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  10. 제1항에 있어서,
    상기 복수의 시간 단계들 각각에서, 상기 대체 표현은 신경망 입력상에서 컨디셔닝되는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  11. 제10항에 있어서, 상기 신경망 입력은 텍스트 세그먼트의 특징들을 포함하고, 출력 시퀀스는 상기 텍스트 세그먼트의 언어화(verbalization)를 나타내는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  12. 제11항에 있어서, 상기 신경망 입력은 억양(intonation) 패턴 값을 더 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  13. 제10항에 있어서,
    상기 신경망 입력은 화자 신원 정보, 언어 신원(identity) 정보 및 말하기 스타일 정보 중 하나 이상을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  14. 제1항에 있어서, 상기 출력 시퀀스는 음악의 일부분(piece)을 나타내는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  15. 제1항에 있어서, 상기 컨볼루션 서브네트워크는 레지듀얼 연결(residual connection)들을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  16. 제1항에 있어서, 상기 컨볼루션 서브네트워크는 스킵 연결들(skip connections)을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  17. 제1항에 있어서,
    상기 오디오 데이터의 현재 시퀀스를 처리하여 상기 시간 단계에 대한 대체 표현을 생성하는 것은 이전 시간 단계들에 대해 계산된 값들을 재사용하는 것을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
  18. 하나 이상의 컴퓨터들에 의해 실행될 때 상기 하나 이상의 컴퓨터들로 하여금 제1항 내지 제17항 중 어느 한 항의 각각의 신경망 시스템을 구현하게 하는 명령어들로 인코딩된 하나 이상의 컴퓨터 저장 매체.
  19. 복수의 시간 단계들 각각에서 각 오디오 샘플을 포함하는 오디오 데이터의 출력 시퀀스를 생성함으로써 오디오 출력을 생성하는 방법 -각 시간 단계는 오디오 파형의 각 시간에 대응하고, 각 시간 단계에서의 오디오 샘플은 해당 시간에서의 파형을 특성화함- 으로서,
    상기 방법은, 상기 복수의 시간 단계들 각각에 대해,
    하나 이상의 오디오 처리 컨볼루션 신경망 계층들을 포함하는 컨볼루션 서브네트워크에 오디오 데이터의 현재 시퀀스를 입력으로서 제공하는 단계 - 상기 현재 시퀀스는 출력 시퀀스에서 시간 단계에 선행하는 각각의 시간 단계에서의 각 오디오 샘플을 포함하고; 상기 컨볼루션 서브네트워크는, 상기 복수의 시간 단계들 각각에 대해, 오디오 데이터의 현재 시퀀스를 수신하고, 그리고 상기 오디오 데이터의 현재 시퀀스를 처리하여 상기 시간 단계에 대한 대체 표현(alternative representation)을 생성하도록 구성됨-;
    출력층에 대한 입력으로서 시간 단계에 대한 상기 대체 표현을 제공하는 단계 -상기 출력층은, 상기 복수의 시간 단계들 각각에 대해, 시간 단계에 대한 상기 대체 표현을 수신하고, 시간 단계에 대한 복수의 가능한 오디오 샘플들을 통해 스코어 분포를 정의하는 출력을 생성하도록 시간 단계에 대한 상기 대체 표현을 처리하도록 구성됨-;
    상기 복수의 시간 단계들 각각에 대해, 시간 단계에 대한 스코어 분포에 따라 출력 시퀀스의 시간 단계에서 오디오 샘플을 선택하는 단계를 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  20. 제19항에 있어서,
    상기 오디오 샘플을 선택하는 단계는 상기 스코어 분포로부터 샘플링하는 단계를 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  21. 제19항에 있어서, 상기 오디오 샘플을 선택하는 단계는 상기 스코어 분포에 따라 가장 높은 스코어를 갖는 오디오 샘플을 선택하는 단계를 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  22. 제19항에 있어서,
    상기 복수의 시간 단계들 각각은 오디오 파형의 각각의 시간에 대응하고,
    상기 복수의 시간 단계들 각각에서의 각 오디오 샘플은 해당 시간에서의 상기 오디오 파형의 진폭값인 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  23. 제19항에 있어서,
    상기 복수의 시간 단계들 각각은 오디오 파형의 각 시간에 대응하고,
    상기 복수의 시간 단계들 각각에서의 각 오디오 샘플은 해당 시간에서의 상기 오디오 파형의 압축된 또는 컴패닝된(companded) 표현인 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  24. 제19항에 있어서,
    상기 오디오 처리 컨볼루션 신경망 계층들은 인과(causal) 컨볼루션 신경망 계층들인 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  25. 제19항에 있어서, 상기 오디오 처리 컨볼루션 신경망 계층들은 하나 이상의 딜레이션된 컨볼루션 신경망 계층들을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  26. 제25항에 있어서,
    상기 오디오 처리 컨볼루션 신경망 계층들은 딜레이션된 컨볼루션 신경망 계층들의 복수의 블록들을 포함하고, 각각의 블록은 증가하는 딜레이션(increasing dilation)을 갖는 복수의 딜레이션된 컨볼루션 신경망 계층들을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  27. 제19항에 있어서, 상기 오디오 처리 컨볼루션 신경망 계층들 중 하나 이상은 게이트된 활성화 유닛들을 갖는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  28. 제19항에 있어서, 상기 복수의 시간 단계들 각각에서, 상기 대체 표현은 신경망 입력상에서 컨디셔닝되는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  29. 제28항에 있어서,
    상기 신경망 입력은 텍스트 세그먼트의 특징들을 포함하고,
    상기 출력 시퀀스는 상기 텍스트 세그먼트의 언어화(verbalization)를 나타내는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  30. 제29항에 있어서, 상기 신경망 입력은 억양 패턴 값들을 더 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  31. 제28항에 있어서,
    상기 신경망 입력은 화자 신원 정보, 언어 신원(identity) 정보 및 말하기 스타일 정보 중 하나 이상을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  32. 제19항에 있어서, 상기 출력 시퀀스는 음악의 일부분(piece)을 나타내는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  33. 제19항에 있어서, 상기 컨볼루션 서브네트워크는 레지듀얼 연결들(residual connections)을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  34. 제19항에 있어서, 상기 컨볼루션 서브네트워크는 스킵 연결들을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  35. 제19항에 있어서,
    상기 오디오 데이터의 현재 시퀀스를 처리하여 상기 시간 단계에 대한 대체 표현을 생성하는 것은 이전 시간 단계들에 대해 계산된 값들을 재사용하는 것을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  36. 제19항에 있어서,
    상기 오디오 출력은 음성 또는 음악을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
  37. 삭제
KR1020197009838A 2016-09-06 2017-09-06 신경망을 사용하여 오디오 생성 KR102353284B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662384115P 2016-09-06 2016-09-06
US62/384,115 2016-09-06
PCT/US2017/050320 WO2018048934A1 (en) 2016-09-06 2017-09-06 Generating audio using neural networks

Publications (2)

Publication Number Publication Date
KR20190042730A KR20190042730A (ko) 2019-04-24
KR102353284B1 true KR102353284B1 (ko) 2022-01-19

Family

ID=60022154

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197009838A KR102353284B1 (ko) 2016-09-06 2017-09-06 신경망을 사용하여 오디오 생성

Country Status (9)

Country Link
US (5) US10304477B2 (ko)
EP (2) EP3497629B1 (ko)
JP (3) JP6577159B1 (ko)
KR (1) KR102353284B1 (ko)
CN (2) CN109891434B (ko)
AU (1) AU2017324937B2 (ko)
BR (1) BR112019004524B1 (ko)
CA (2) CA3155320A1 (ko)
WO (1) WO2018048934A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023177145A1 (ko) * 2022-03-16 2023-09-21 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
WO2018048945A1 (en) * 2016-09-06 2018-03-15 Deepmind Technologies Limited Processing sequences using convolutional neural networks
CN109891434B (zh) 2016-09-06 2020-10-30 渊慧科技有限公司 使用神经网络生成音频
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
EP3532998A1 (en) 2016-10-26 2019-09-04 Deepmind Technologies Limited Processing text sequences using neural networks
EP3745394B1 (en) * 2017-03-29 2023-05-10 Google LLC End-to-end text-to-speech conversion
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
JP7209275B2 (ja) * 2017-08-31 2023-01-20 国立研究開発法人情報通信研究機構 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
KR102401512B1 (ko) * 2018-01-11 2022-05-25 네오사피엔스 주식회사 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11735028B2 (en) 2018-06-12 2023-08-22 Intergraph Corporation Artificial intelligence applications for computer-aided dispatch systems
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10971170B2 (en) * 2018-08-08 2021-04-06 Google Llc Synthesizing speech from text using neural networks
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US10671889B2 (en) * 2018-09-27 2020-06-02 Deepmind Technologies Limited Committed information rate variational autoencoders
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11024321B2 (en) 2018-11-30 2021-06-01 Google Llc Speech coding using auto-regressive generative neural networks
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
CN109771944B (zh) * 2018-12-19 2022-07-12 武汉西山艺创文化有限公司 一种游戏音效生成方法、装置、设备和存储介质
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11869529B2 (en) * 2018-12-26 2024-01-09 Nippon Telegraph And Telephone Corporation Speaking rhythm transformation apparatus, model learning apparatus, methods therefor, and program
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11587552B2 (en) 2019-04-30 2023-02-21 Sutherland Global Services Inc. Real time key conversational metrics prediction and notability
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
CN110136731B (zh) * 2019-05-13 2021-12-24 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
US11222621B2 (en) * 2019-05-23 2022-01-11 Google Llc Variational embedding capacity in expressive end-to-end speech synthesis
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110728991B (zh) * 2019-09-06 2022-03-01 南京工程学院 一种改进的录音设备识别算法
WO2021075994A1 (en) 2019-10-16 2021-04-22 Saudi Arabian Oil Company Determination of elastic properties of a geological formation using machine learning applied to data acquired while drilling
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
KR20210048310A (ko) 2019-10-23 2021-05-03 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102556096B1 (ko) * 2019-11-29 2023-07-18 한국전자통신연구원 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11373095B2 (en) * 2019-12-23 2022-06-28 Jens C. Jenkins Machine learning multiple features of depicted item
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US20210312258A1 (en) * 2020-04-01 2021-10-07 Sony Corporation Computing temporal convolution networks in real time
US20210350788A1 (en) * 2020-05-06 2021-11-11 Samsung Electronics Co., Ltd. Electronic device for generating speech signal corresponding to at least one text and operating method of the electronic device
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
EP3719711A3 (en) 2020-07-30 2021-03-03 Institutul Roman De Stiinta Si Tehnologie Method of detecting anomalous data, machine computing unit, computer program
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11796714B2 (en) 2020-12-10 2023-10-24 Saudi Arabian Oil Company Determination of mechanical properties of a geological formation using deep learning applied to data acquired while drilling
GB202106969D0 (en) * 2021-05-14 2021-06-30 Samsung Electronics Co Ltd Method and apparatus for improving model efficiency
CN113724683B (zh) * 2021-07-23 2024-03-22 阿里巴巴达摩院(杭州)科技有限公司 音频生成方法、计算机设备及计算机可读存储介质
WO2023219292A1 (ko) * 2022-05-09 2023-11-16 삼성전자 주식회사 장면 분류를 위한 오디오 처리 방법 및 장치
EP4293662A1 (en) * 2022-06-17 2023-12-20 Samsung Electronics Co., Ltd. Method and system for personalising machine learning models

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160093278A1 (en) 2014-09-25 2016-03-31 Sunhouse Technologies, Inc. Systems and methods for capturing and interpreting audio
US20160099010A1 (en) 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks

Family Cites Families (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2810457A (en) * 1953-04-10 1957-10-22 Gen Motors Corp Lubricator
JPH0450121Y2 (ko) 1986-04-30 1992-11-26
JP2522400B2 (ja) * 1989-08-10 1996-08-07 ヤマハ株式会社 楽音波形生成方法
US5377302A (en) 1992-09-01 1994-12-27 Monowave Corporation L.P. System for recognizing speech
WO1995030193A1 (en) * 1994-04-28 1995-11-09 Motorola Inc. A method and apparatus for converting text into audible signals using a neural network
JP3270668B2 (ja) * 1995-10-31 2002-04-02 ナショナル サイエンス カウンシル テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置
US6357176B2 (en) * 1997-03-19 2002-03-19 Mississippi State University Soilless sod
JPH10333699A (ja) * 1997-06-05 1998-12-18 Fujitsu Ltd 音声認識および音声合成装置
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
JPH11282484A (ja) * 1998-03-27 1999-10-15 Victor Co Of Japan Ltd 音声合成装置
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
DE10018134A1 (de) * 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
JP2002123280A (ja) * 2000-10-16 2002-04-26 Seiko Epson Corp 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
US7062437B2 (en) * 2001-02-13 2006-06-13 International Business Machines Corporation Audio renderings for expressing non-audio nuances
US20060064177A1 (en) 2004-09-17 2006-03-23 Nokia Corporation System and method for measuring confusion among words in an adaptive speech recognition system
US7747070B2 (en) * 2005-08-31 2010-06-29 Microsoft Corporation Training convolutional neural networks on graphics processing units
KR100832556B1 (ko) * 2006-09-22 2008-05-26 (주)한국파워보이스 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
WO2009144368A1 (en) * 2008-05-30 2009-12-03 Nokia Corporation Method, apparatus and computer program product for providing improved speech synthesis
FR2950713A1 (fr) 2009-09-29 2011-04-01 Movea Sa Systeme et procede de reconnaissance de gestes
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
EP2565667A1 (en) 2011-08-31 2013-03-06 Friedrich-Alexander-Universität Erlangen-Nürnberg Direction of arrival estimation using watermarked audio signals and microphone arrays
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US9141906B2 (en) * 2013-03-13 2015-09-22 Google Inc. Scoring concept terms using a deep network
US9147154B2 (en) 2013-03-13 2015-09-29 Google Inc. Classifying resources using a deep network
US9190053B2 (en) 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
CA3022052C (en) * 2013-03-25 2021-05-18 Fluent.Ai Inc. System and method for applying a convolutional neural network to speech recognition
US20150032449A1 (en) * 2013-07-26 2015-01-29 Nuance Communications, Inc. Method and Apparatus for Using Convolutional Neural Networks in Speech Recognition
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US10275704B2 (en) 2014-06-06 2019-04-30 Google Llc Generating representations of input sequences using neural networks
US10181098B2 (en) 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
US9821340B2 (en) * 2014-07-28 2017-11-21 Kolo Medical Ltd. High displacement ultrasonic transducer
KR102332729B1 (ko) 2014-07-28 2021-11-30 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
EP3186753B1 (en) 2014-08-29 2021-04-28 Google LLC Processing images using deep neural networks
US9824684B2 (en) 2014-11-13 2017-11-21 Microsoft Technology Licensing, Llc Prediction-based sequence recognition
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
US9607217B2 (en) * 2014-12-22 2017-03-28 Yahoo! Inc. Generating preference indices for image content
US11080587B2 (en) * 2015-02-06 2021-08-03 Deepmind Technologies Limited Recurrent neural networks for data item generation
US10403269B2 (en) 2015-03-27 2019-09-03 Google Llc Processing audio waveforms
US20160343366A1 (en) * 2015-05-19 2016-11-24 Google Inc. Speech synthesis model selection
US9595002B2 (en) 2015-05-29 2017-03-14 Sas Institute Inc. Normalizing electronic communications using a vector having a repeating substring as input for a neural network
CN105096939B (zh) * 2015-07-08 2017-07-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
CN106375231B (zh) * 2015-07-22 2019-11-05 华为技术有限公司 一种流量切换方法、设备及系统
KR102413692B1 (ko) 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
CN105068998B (zh) 2015-07-29 2017-12-15 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
CN105321525B (zh) * 2015-09-30 2019-02-22 北京邮电大学 一种降低voip通信资源开销的系统和方法
US10733979B2 (en) 2015-10-09 2020-08-04 Google Llc Latency constraints for acoustic modeling
US10395118B2 (en) 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
WO2017083695A1 (en) * 2015-11-12 2017-05-18 Google Inc. Generating target sequences from input sequences using partial conditioning
US10319374B2 (en) 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
CN105513591B (zh) * 2015-12-21 2019-09-03 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
US10402700B2 (en) 2016-01-25 2019-09-03 Deepmind Technologies Limited Generating images using neural networks
CN108780519B (zh) * 2016-03-11 2022-09-02 奇跃公司 卷积神经网络的结构学习
US10460747B2 (en) 2016-05-10 2019-10-29 Google Llc Frequency based audio analysis using neural networks
US9972314B2 (en) 2016-06-01 2018-05-15 Microsoft Technology Licensing, Llc No loss-optimization for weighted transducer
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
US9984683B2 (en) 2016-07-22 2018-05-29 Google Llc Automatic speech recognition using multi-dimensional models
WO2018048945A1 (en) 2016-09-06 2018-03-15 Deepmind Technologies Limited Processing sequences using convolutional neural networks
CN109891434B (zh) * 2016-09-06 2020-10-30 渊慧科技有限公司 使用神经网络生成音频
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
EP3532998A1 (en) 2016-10-26 2019-09-04 Deepmind Technologies Limited Processing text sequences using neural networks
US10049106B2 (en) 2017-01-18 2018-08-14 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
TWI767000B (zh) 2017-05-20 2022-06-11 英商淵慧科技有限公司 產生波形之方法及電腦儲存媒體
US10726858B2 (en) 2018-06-22 2020-07-28 Intel Corporation Neural network for speech denoising trained with deep feature losses
US10971170B2 (en) 2018-08-08 2021-04-06 Google Llc Synthesizing speech from text using neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160093278A1 (en) 2014-09-25 2016-03-31 Sunhouse Technologies, Inc. Systems and methods for capturing and interpreting audio
US20160099010A1 (en) 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023177145A1 (ko) * 2022-03-16 2023-09-21 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법

Also Published As

Publication number Publication date
CA3155320A1 (en) 2018-03-15
US20240135955A1 (en) 2024-04-25
CA3036067A1 (en) 2018-03-15
EP3822863B1 (en) 2022-11-02
US20200411032A1 (en) 2020-12-31
WO2018048934A1 (en) 2018-03-15
US10304477B2 (en) 2019-05-28
JP2021152664A (ja) 2021-09-30
US10803884B2 (en) 2020-10-13
JP6577159B1 (ja) 2019-09-18
US20180322891A1 (en) 2018-11-08
JP2019532349A (ja) 2019-11-07
CA3036067C (en) 2023-08-01
EP3497629B1 (en) 2020-11-04
US11386914B2 (en) 2022-07-12
EP3822863A1 (en) 2021-05-19
CN109891434B (zh) 2020-10-30
BR112019004524B1 (pt) 2023-11-07
AU2017324937A1 (en) 2019-03-28
US11869530B2 (en) 2024-01-09
CN109891434A (zh) 2019-06-14
BR112019004524A2 (pt) 2019-05-28
US20220319533A1 (en) 2022-10-06
JP2020003809A (ja) 2020-01-09
EP3497629A1 (en) 2019-06-19
CN112289342A (zh) 2021-01-29
JP7213913B2 (ja) 2023-01-27
CN112289342B (zh) 2024-03-19
US20190251987A1 (en) 2019-08-15
AU2017324937B2 (en) 2019-12-19
KR20190042730A (ko) 2019-04-24
JP6891236B2 (ja) 2021-06-18

Similar Documents

Publication Publication Date Title
KR102353284B1 (ko) 신경망을 사용하여 오디오 생성
KR102392094B1 (ko) 컨볼루션 신경망을 이용한 시퀀스 프로세싱
US11948066B2 (en) Processing sequences using convolutional neural networks
US20230252974A1 (en) End-to-end speech waveform generation through data density gradient estimation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right