KR102353284B1

KR102353284B1 - 신경망을 사용하여 오디오 생성

Info

Publication number: KR102353284B1
Application number: KR1020197009838A
Authority: KR
Inventors: 덴 오드 애런 제라드 안토니우스 반; 샌더 에티엔 레아 디엘레만; 날 에메리히 칼크브레너; 캐런 시몬얀; 오리올 빈야알스
Original assignee: 딥마인드 테크놀로지스 리미티드
Priority date: 2016-09-06
Filing date: 2017-09-06
Publication date: 2022-01-19
Also published as: CA3155320A1; US20240135955A1; CA3036067A1; EP3822863B1; US20200411032A1; WO2018048934A1; US10304477B2; JP2021152664A; US10803884B2; JP6577159B1; US20180322891A1; JP2019532349A; CA3036067C; EP3497629B1; US11386914B2; EP3822863A1; CN109891434B; BR112019004524B1; AU2017324937A1; US11869530B2

Abstract

복수의 시간 단계들 각각에서 각 오디오 샘플을 포함하는 오디오 데이터의 출력 시퀀스를 생성하기 위한, 컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치가 개시된다. 방법들 중 하나는 상기 복수의 시간 단계들 각각에 대해, 컨볼루션 서브네트워크에 오디오 데이터의 현재 시퀀스를 입력으로서 제공하는 단계 - 상기 현재 시퀀스는 출력 시퀀스에서 시간 단계에 선행하는 각각의 시간 단계에서의 각 오디오 샘플을 포함하고; 상기 컨볼루션 서브네트워크는, 상기 오디오 데이터의 현재 시퀀스를 처리하여 상기 시간 단계에 대한 대체 표현을 생성하도록 구성됨-; 그리고 출력층에 대한 입력으로서 시간 단계에 대한 상기 대체 표현을 제공하는 단계를 포함하며, 상기 출력층은 시간 단계에 대한 복수의 가능한 오디오 샘플들을 통해 스코어 분포를 정의하는 출력을 생성하도록 상기 대체 표현을 처리하도록 구성된다.

Description

신경망을 사용하여 오디오 생성

본 명세서는 신경망을 사용하여 오디오를 처리하고 생성하는 것에 관한 것이다.

신경망은 수신된 입력에 대한 출력을 예측하기 위해 하나 이상의 비선형 유닛 계층을 사용하는 기계 학습 모델이다. 일부 신경망은 출력층 외에도 하나 이상의 은닉층을 포함한다. 각각의 은닉층의 출력은 네트워크의 다음 계층, 즉 다음 은닉층 또는 출력층에 대한 입력으로 사용된다. 네트워크의 각 계층은 각각의 파라미터 세트의 현재 값에 따라 수신된 입력으로부터 출력을 생성한다.

본 명세서는 하나 이상의 위치에 있는 하나 이상의 컴퓨터에서 컴퓨터 프로그램으로 구현된 시스템이 어떻게 여러 시간 단계의 각각에서 각 오디오 샘플을 포함하는 오디오 데이터의 시퀀스를 생성할 수 있는지를 설명한다. 예를 들어, 오디오 데이터의 시퀀스는 특정 자연어 또는 음악의 피스를 나타낼 수 있다.

하나의 혁신적인 양태에서, 하나 이상의 컴퓨터에 의해 구현되는 신경망 시스템은 복수의 시간 단계들 각각에서 각각의 오디오 샘플을 포함하는 오디오 데이터의 출력 시퀀스를 생성하도록 구성된다. 신경망 시스템은 하나 이상의 오디오 처리 컨볼루션 신경망 계층을 포함하는 컨볼루션 서브네트워크; 및 출력층을 포함한다. 컨볼루션 서브네트워크는, 복수의 시간 단계들 각각에 대해, 출력 시퀀스의 (현재) 시간 단계에 선행하는 각각의 시간 단계에서 각각의 오디오 샘플을 포함하는 오디오 데이터의 현재 시퀀스를 수신하도록 구성될 수 있다. 컨볼루션 서브네트워크는 또한 오디오 데이터의 현재 시퀀스를 처리하여 시간 (현재) 단계에 대한 대체 표현(alternative representation)을 생성하도록 구성될 수 있다. 이 대체 표현은 오디오 데이터의 현재 시퀀스가 예를 들어 현재 시퀀스의 인코딩 특징과 같은 컨볼루션 서브네트워크에 의해 인코딩된 수치 표현, 즉 수치 값의 순서화된 집합(collection)을 포함할 수 있다. 출력층은 복수의 시간 단계들 각각에 대해, 시간 단계에 대한 대체 표현을 수신하고, 시간 단계에 대한 복수의 가능한 오디오 샘플에 대한 스코어 분포를 정의하는 출력을 생성하기 위해 시간 단계에 대한 상기 대체 표현을 처리하도록 구성될 수 있다. 이러한 시스템의 많은 장점 중 일부는 나중에 설명된다. 시스템은 스코어 분포를 사용하여 그 분포에서 샘플링하여 현재 시간 단계에 대한 샘플을 선택할 수 있다. 출력은 가능한 모든 오디오 샘플 값에 대해 하나의 스코어, 예를 들어 256개의 가능한 값에 대한 256개의 스코어를 포함할 수 있지만 반드시 그런 것은 아니다. 따라서, 모델 출력의 수를 줄이기 위해 진폭 값일 수 있는 오디오 샘플 값을 압축하거나 컴팬딩(companding)하는 데 유용할 수 있다.

일부 구현 예에서, 컨볼루션 신경망 계층은 후술하는 바와 같이 인과(causal) 컨볼루션 신경망 계층이다. 특히, 오디오 처리 컨볼루션 신경망 계층은 하나 이상의 딜레이션(dilation)된 인과 컨볼루션 신경망 계층을 포함할 수 있다. 다시 더 상세하게 후술되는 바와 같이, 딜레이션된 컨볼루션 신경망 계층은 시퀀스에서 인접하지 않은 값, 즉 이전 계층으로부터의 출력에 의해 정의된 바와 같이 컨볼루션을 적용한다. 이는 입력 (시간) 분해능을 보존하고 계산 효율을 유지하면서 컨볼루션 서브네트워크의 수용 필드를 몇배 증가시킬 수 있다.

일부 구현예에서, 컨볼루션 신경망 계층은 딜레이션된 컨볼루션 신경망 계층의 복수의 스택된 블록(stacked block)을 포함한다. 각각의 블록은 증가하는 딜레이션을 갖는 복수의 딜레이션된 컨볼루션 신경망 계층을 포함할 수 있다. 예를 들어, 각 블록 내의 한계까지 각 연속적인 계층에 대한 팩터(factor)(n)만큼 딜레이션이 증가될 수 있다. 이는 수용 필드 크기를 추가로 증가시킬 수 있다.

일부 구현 예에서, 컨볼루션 신경망 계층들 중 하나 이상은 게이트된(gated) 활성화 유닛을 가질 수 있다. 예를 들어, 계층에 의해 구현된 컨볼루션 이후 정류된 선형 또는 다른 유닛은 게이트된 활성화 유닛으로 대체될 수 있다. 게이트된 활성화 유닛에서 출력은 두 가지 (인과) 컨볼루션, 메인 컨볼루션 및 게이트 컨볼루션의 조합이 될 수 있다. 컨볼루션은 각각 이전 계층의 동일한 출력의 일부 또는 전부에 적용될 수 있다. 이 조합은 게이트 컨볼루션에 적용되는 비선형 활성화 함수, 예를 들어 시그모이드(sigmoid)와 같은 (0,1) 범위의 활성화를 포함할 수 있다. 그러면 메인 컨볼루션의 값이 곱해질 수 있으며; 비선형 활성화 함수가 메인 컨볼루션에 적용될 수 있지만 반드시 그럴 필요는 없다. 이러한 방식은 데이터 내에서보다 복잡한 구조를 캡처하는 데 도움이 될 수 있다.

각 시간 단계에서 컨볼루션 서브네트워크로부터의 대체 표현은 신경망 입력, 예를 들어 컨디셔닝 입력의 잠재 표현에 따라 조절될 수 있다. 컨디셔닝 입력은 글로벌(실질적으로 시간 독립적) 및/또는 로컬(시간 의존적)일 수 있다. 컨디셔닝 입력은 예를 들어 텍스트, 이미지 또는 비디오 데이터, 또는 오디오 데이터(예를 들어 특정 화자 또는 언어 또는 음악의 사례)를 포함할 수 있다. 신경망 입력은 컨디셔닝 입력의 임베딩(embedding)을 포함할 수 있다. 예를 들어, 텍스트 음성 변환 시스템에서, 글로벌 컨디셔닝 입력은 화자 임베딩을 포함할 수 있고, 로컬 컨디셔닝 입력은 언어(linguistic) 특징을 포함할 수 있다. 시스템은 신경망을 사용하여 입력을 반복하거나 또는 입력을 업샘플링함으로써 낮은 샘플링 주파수로부터 오디오 샘플 생성 주파수로 신경망 입력 또는 컨디셔닝 입력을 맵핑하도록 구성될 수 있다. 따라서, 신경망 입력은 텍스트 세그먼트의 특징을 포함할 수 있고, 출력 시퀀스는 텍스트 세그먼트의 언어화(verbalization)를 나타낼 수 있으며, 및/또는 신경망 입력은 화자 또는 억양(intonation) 패턴 값을 포함할 수 있으며, 및/또는 신경망 입력은 화자 신원 정보, 언어 신원 정보 및 말하기 스타일 정보 중 하나 이상을 포함할 수 있다. 또는 출력 시퀀스가 음악의 피스를 나타낸다.

컨볼루션 서브네트워크는 레지듀얼(residual) 연결, 예를 들어 컨볼루션 계층의 입력으로부터 합산기로의 연결을 포함하여 이를 계층의 중간 출력과 합산할 수 있다. 이는 효과적으로 네트워크가 계층을 스킵하거나 부분적으로 스킵하도록 훈련되도록 허용하며, 따라서 컨버전스 속도를 높이고 심층 모델(deeper model)의 훈련을 용이하게 한다. 컨볼루션 서브네트워크는 부가적으로 또는 대안적으로, 예를 들어 컨볼루션 서브네트워크의 하나 이상의 중간 계층들 각각으로부터 출력층에 제공되는 대체 표현을 직접 생성하는 하나 이상의 동작들에 대한 스킵 연결들을 포함할 수 있다.

컨볼루션 서브네트워크를 사용하여 오디오 데이터의 현재 시퀀스를 처리하고, 시간 단계에 대한 대체 표현을 생성하는 일부 구현 예에서, 이전 시간 단계에 대해 계산된 값을 재사용한다. 재사용된 값은 오디오 샘플 데이터에 대한 컨볼루션 필터의 적용 또는 이로부터 유도된 데이터로부터 유도된 값을 포함할 수 있다. 재사용된 값은 하나의 시간 단계에서 저장될 수 있고, 동일한 필터가 동일한 오디오 샘플 데이터(또는 일부) 또는 그로부터 유도된 데이터에 적용될 때 나중의 시간 단계에서 검색될 수 있다. 이는 저장된 값을 다시 계산할 필요가 없기 때문에 시스템을 보다 효율적으로, 따라서 더 빠르게 연산할 수 있게 한다.

본 명세서에서 설명된 요지의 특정 실시 예는 다음의 장점 중 하나 이상을 실현하도록 구현될 수 있다. 신경망 시스템은 초당 수십만 개의 오디오 샘플을 생성할 수 있으므로 다른 신경망 기반 오디오 생성 시스템보다 세분화된 수준을 제공한다. 신경망 시스템은 예를 들어 첨단 기술보다 우수한 품질의 텍스트로부터 음성을 생성함으로써 오디오 생성 태스크에 대한 최신 기술보다 현저하게 뛰어난 결과를 달성할 수 있다. 단일 훈련된 신경망 시스템은 화자 신원을 조절하여 다른 목소리를 생성하는 데 사용할 수 있다. 순한 신경망 계층 eotlos, 예를 들어 LSTM(long short-term memory) 계층 대신 인과 컨볼루션 계층과 같은 컨볼루션 신경망 계층을 사용함으로써, 신경망 시스템은 순환 신경망 계층을 포함하는 다른 시스템과 같이 훈련하기 위한 많은 계산 자원을 필요로 하지 않는 유리한 결과를 얻을 수 있으므로 훈련 시간이 단축된다. 순환 계층보다는 컨볼루션 계층을 사용함으로써, 신경망 시스템의 계산은, 예를 들어, 네트워크의 계층들이 매시간 단계마다 전개될 필요가 없기 때문에, 보다 쉽게 일괄 처리되고 보다 쉽게 병렬화될 수 있어, 시스템의 계산이 보다 효율적으로 수행될 수 있게 한다. 또한 딜레이션된 인과 컨볼루션층을 사용함으로써, 컨볼루션 서브네트워크의 수용 필드와 시스템에 의해 생성된 오디오의 품질은 오디오 생성의 계산 비용을 크게 증가시키지 않고 향상될 수 있다.

본 명세서에 기술된 요지의 하나 이상의 실시 예의 세부 사항은 첨부된 도면들 및 이하의 설명에서 설명된다. 요지의 다른 특징, 양태 및 장점은 상세한 설명, 도면들 및 청구 범위로부터 명백해질 것이다.

도 1은 예시적인 신경망 시스템을 나타낸다.
도 2는 딜레이션된 인과 컨볼루션 계층들의 예시적인 블록의 시각화를 도시한다.
도 3은 컨볼루션 서브네트워크에 대한 예시적인 아키텍처를 도시한다.
도 4는 오디오 시퀀스의 소정의 시간 단계에서 오디오 샘플을 생성하기 위한 예시적인 프로세스의 흐름도이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 구성요소를 나타낸다.

도 1은 예시적인 신경망 시스템(100)을 도시한다. 신경망 시스템(100)은 하나 이상의 위치에서 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로서 구현되는 시스템의 예로서, 이하에서 설명되는 시스템, 컴포넌트 및 기술이 구현될 수 있다.

신경망 시스템(100)은 오디오 데이터의 시퀀스, 예를 들어 오디오 데이터(152)의 출력 시퀀스와 같은 다수의 시간 단계들 각각에서 각각의 오디오 샘플을 각각 포함하는 오디오 데이터의 시퀀스를 생성한다.

일반적으로, 소정의 오디오 시퀀스의 각 시간 단계는 오디오 파형의 각각의 시간에 대응하고, 시간 단계에서의 오디오 샘플은 해당 시간에서의 파형을 특성화한다. 일부 구현 예에서, 시퀀스 내의 각 시간 단계에서의 오디오 샘플은 해당 시간에서의 오디오 파형의 진폭, 즉 신경망 시스템(100)에 의해 생성된 시퀀스는 미가공(raw) 오디오 파형이다. 다른 구현 예에서, 시퀀스 내의 각 시간 단계에서의 오디오 샘플은 해당 시간에서의 파형의 압축된 또는 컴팬딩된(companded) 표현이다. 예를 들어, 오디오 샘플은 "μ-law"로 변환된 파형의 표현이 될 수 있다.

특히, 신경망 시스템(100)은 자동적으로 오디오 시퀀스를 생성한다. 즉, 출력 오디오 시퀀스의 각각의 특정 시간 스텝에 대해, 신경망 시스템(100)은 특정 시간 단계, 즉 오디오 시퀀스의 특정 시간 단계보다 빠른 시간 단계에서 오디오 샘플에 대해 이미 생성된 오디오 샘플에 컨디셔닝된(conditioned) 시간 단계에서 오디오 샘플을 생성한다.

신경망 시스템(100)은 컨볼루션 서브네트워크(110) 및 출력층(120)을 포함한다.

오디오 시퀀스의 생성 동안 각각의 시간 단계에서, 컨볼루션 서브네트워크(110)는 현재 오디오 시퀀스, 즉 시간 단계에서 이미 생성된 오디오 시퀀스를 수신하고, 현재 오디오 시퀀스를 처리하여 시간 단계 동안 대체 표현을 생성하도록 구성된다. 예를 들어, 오디오 시퀀스(152)에서 오디오 샘플(140)을 생성할 때, 컨볼루션 서브네트워크(110)는 오디오 시퀀스(152)에서 오디오 샘플(140)을 선행하는 오디오 샘플을 포함하는 현재 오디오 시퀀스(142)를 수신하고, 대체 표현(144)을 생성한다.

출력층(120)은 각각의 시간 단계에서, 대체 표현을 수신하고, 시간 단계에 대한 가능한 오디오 샘플에 대해 스코어 분포를 생성하도록 구성된다. 스코어 분포는 복수의 가능한 오디오 샘플 각각에 대한 각각의 스코어를 포함한다. 일부 구현 예에서, 출력층(120)은 소프트맥스(softmax) 출력층이다. 예를 들어, 출력층(120)은 대체 표현(144)을 수신하고, 대체 표현(144)을 처리하여 스코어 분포(146)를 생성할 수 있다.

특히, 신경망 시스템(100)이 미가공 오디오 데이터를 생성하도록 구성될 때, 스코어 분포는 복수의 가능한 진폭 값들 각각에 대한 각각의 스코어를 포함한다. 신경망 시스템(100)이 압축된 또는 컴팬딩된(companded) 값을 생성하도록 구성될 때, 스코어 분포는 복수의 가능한 압축된 또는 컴팬딩된 값 각각에 대한 각각의 스코어를 포함한다.

출력층(146)이 소정의 시간 간격 동안 스코어 분포를 생성하면, 신경망 시스템(100)은 소정의 시간 단계에 대한 스코어 분포에 따라 복수의 가능한 오디오 샘플들로부터 소정의 시간 단계에서 출력 시퀀스에 포함될 오디오 샘플을 선택할 수 있다. 예를 들어, 신경망 시스템(100)은 스코어 분포로부터 샘플링함으로써, 즉 스코어 분포 내의 스코어에 따라 가능한 오디오 샘플로부터 샘플링함으로써 오디오 샘플을 선택할 수 있으며, 이로 인해 각각의 오디오 샘플은 오디오 샘플에 대한 스코어에 대응하는 우도로 선택되거나 스코어 분포에 따라 가장 높은 스코어를 갖는 가능한 오디오 샘플을 선택할 수 있다.

컨볼루션 서브네트워크(110)는 일반적으로 복수의 오디오 처리 컨볼루션 신경망 계층을 포함한다. 보다 구체적으로, 오디오 처리 컨볼루션 신경망 계층은 복수의 인과 컨볼루션 계층을 포함한다.

인과 컨볼루션 계층은 각 시간 단계 동안에, 입력 시퀀스의 시간 단계 이전의 시간 단계에서 그리고 상기 시간 단계에서 입력에만 의존하는, 즉, 입력 시퀀스에서 시간 단계 이후의 모든 시간 단계에서 모든 입력에 작동하지 않는 출력을 생성함으로써, 복수의 시간 단계 각각에서 각각의 입력을 갖는 입력 시퀀스에 대해 작동하는 컨볼루션 계층이다. 일부 경우에, 인과 컨볼루션 계층은 노멀 컨볼루션을 적용한 다음 노널 컨볼루션의 각 출력을 몇 시간 단계만큼 시프트, 예를 들어 컨볼루션 계층에 대한 활성화 함수를 적용하기 전에, 각 출력을 (즉, 필터 길이 - 1) 시간 단계만큼 앞으로 시프트함으로써 구현되며, 여기서 "필터 길이"는 적용되는 컨볼루션의 필터의 길이이다.

과도한 길이의 필터 또는 과도한 수의 계층을 요구하지 않고 오디오 처리 컨볼루션 계층의 수용 필드를 증가시키기 위해, 오디오 처리 컨볼루션 계층의 일부 또는 전부는 딜레이션된 인과 컨볼루션 계층이 될 수 있다. 딜레이션된(dilated) 컨볼루션은 딜레이션된 컨볼루션에 대한 딜레이션 값으로 정의된 특정 단계로 입력 값을 스킵함으로써 필터가 길이보다 큰 영역에 적용되는 컨볼루션이다. 딜레이션된 인과(dilated causal) 컨볼루션을 통합함으로써, 오디오 처리 신경망 계층은 노멀 컨볼루션보다 거친(coarser) 스케일로 입력에 효과적으로 작용한다.

일부 구현 예에서, 오디오 처리 신경망 계층은 딜레이션된 인과 컨볼루션 계층들의 복수의 블록들의 스택을 포함한다. 스택의 각 블록은 증가하는 딜레이션을 갖는 다중 딜레이션된 컨볼루션 신경망 계층을 포함할 수 있다. 예를 들어, 블록 내에서,

딜레이션은 초기 딜레이션으로부터 시작하여 각 층에 대해 두 배가 될 수 있으며, 다음 블록의 첫 번째 계층에 대한 초기 딜레이션으로 리턴할 수 있다. 예시적인 예로서, 블록 내의 딜레이션된 컨볼루션 계층의 딜레이션은 1, 2, 4,. . . , 512 순서대로 이루어질 수 있다. 딜레이션된 인과 컨볼루션 계층들의 블록의 간략화된 예가 도 2를 참조하여 아래에서 설명된다.

일부 구현 예에서, 컨볼루션 서브네트워크는 레지듀얼(residual) 연결, 스킵 연결, 또는 둘 다를 포함한다. 레지듀얼 연결 및 스킵 연결 모두를 포함하는 컨볼 루션 서브네트워크의 예시적인 아키텍처가 도 3을 참조하여 아래에서 설명된다.

일부 구현 예에서, 신경망 시스템(100)은 신경망 입력에 컨디셔닝된 오디오 시퀀스를 생성한다. 예를 들어, 신경망 시스템(100)은 신경망 입력(102)상에서 컨디셔닝된 오디오 시퀀스(152)를 생성할 수 있다.

일부 경우에, 신경망 입력은 하나 이상의 로컬 특징, 즉 출력 시퀀스의 상이한 시간 단계에 대해 상이한 하나 이상의 특징을 포함한다. 예를 들어, 신경망 시스템(100)은 입력으로서 텍스트 세그먼트의 언어 특징을 획득할 수 있고, 텍스트 세그먼트의 언어화를 나타내는 오디오 시퀀스를 생성할 수 있으며, 즉, 신경망 시스템(100)은 작성된 텍스트를 말하기 음성(spoken speech)으로 변환하는 텍스트-음성 시스템의 일부로서 기능할 수 있고, 또한, 신경망 시스템(100)에 의해 생성된 오디오 시퀀스를 말로 표현하는 컴포넌트를 포함한다.

일부 다른 경우에, 신경망 입력은 하나 이상의 글로벌 특징, 즉 전체 출력 시퀀스에 걸쳐 동일한 하나 이상의 특징을 포함한다. 예를 들어, 신경망 시스템(100)은 화자의 신원에 따라 조절된 음성, 즉 음성이 화자의 음성처럼 들리게 생성되도록 음성을 생성할 수 있다. 이 예에서, 신경망 시스템(100)은 화자의 신원을 인코딩하는 벡터, 예를 들어, 화자를 식별하는 원-핫(one-hot) 인코딩된 벡터를 획득하고, 획득된 벡터에 생성된 음성을 조절(condition)할 수 있다.

일반적으로, 오디오 시퀀스는 컨볼루션 서브네트워크 내의 컨볼루션 계층의 일부 또는 전부의 활성화 함수를 컨디셔닝함으로써 신경망 입력에 컨디셔닝된다. 즉, 활성화 함수의 출력, 따라서 컨볼루션 계층의 출력은 계층에 의해 수행된 컨볼루션의 출력뿐만 아니라 신경망 입력에도 의존한다.

컨볼루션 계층의 활성화 함수를 신경망 입력에 컨디셔닝하는 것에 대해서는도 3을 참조하여보다 상세히 설명한다.

도 2는 딜레이션된 인과 컨볼루션 계층들의 예시적인 블록의 시각화(200)를 보여준다. 특히, 예시 블록은 딜레이션 1을 갖는 딜레이션된 인과 컨볼루션 계층(204), 딜레이션 2를 갖는 딜레이션된 인과 컨볼루션 계층(206), 딜레이션 4를 갖는 딜레이션된 인과 컨볼루션 계층(208) 및 딜레이션 8을 갖는 딜레이션된 인과 컨볼루션 계층(210)을 포함한다.

시각화(200)에서, 딜레이션된 인과 컨볼루션 계층들의 블록은 현재 입력 시퀀스(202)상에서 동작하여 출력 시퀀스를 생성한다. 특히, 시각화(200)는 굵은 화살표를 사용하여 블록이 현재 입력 시퀀스(202) 및 출력 시퀀스에서 현재의 최종 시간 단계인 시간 단계에서의 출력인 출력(212)을 생성하는 방법을 시각화한다.

시각화(200)로부터 알 수 있는 바와 같이, 블록 내의 각 계층은 블록 내의 첫번째 계층(즉 딜레이션 1을 갖는 딜레이션된 인과 컨볼루션 계층(204)) 및 블록 내의 마지막 계층(즉 딜레이션 8을 갖는 딜레이션된 인과 컨볼루션 계층(204))을 갖는 증가하는 딜레이션 순서로 배열된다. 특히, 시각화(200)의 굵은 화살표로 도시된 바와 같이, 딜레이션된 인과 컨볼루션 계층(204)이 딜레이션 1을 갖기 때문에, 계층(204)의 필터는 현재 입력 시퀀스(202)의 인접한 입력에 적용된다. 딜레이션된 인과 컨볼루션 계층(206)은 딜레이션 2를 가지므로, 계층(206)의 필터는 계층(204)에 의해 생성된 출력 시퀀스에서 하나의 출력에 의해 분리된 출력에 적용된다. 딜레이션된 인과 컨볼루션 계층(208)이 딜레이션 4를 갖기 때문에, 계층(208)의 필터는 계층(206)에 의해 생성된 출력 시퀀스에서 3개의 출력에 의해 분리된 출력에 적용된다. 딜레이션된 인과 컨볼루션 계층(210)은 딜레이션 8을 가지므로, 계층(210)의 필터는 계층(208)에 의해 생성된 출력 시퀀스에서 7개의 출력에 의해 분리된 출력에 적용된다.

도 3은 도 1의 컨볼루션 서브네트워크(110)에 대한 예시적인 아키텍처(300)를 도시한다. 상술한 바와 같이, 예시적인 아키텍처(300)에서, 컨볼루션 서브네트워크에 있는 딜레이션된 인과 컨볼루션 계층들은 레지듀얼 연결 및 스킵 연결을 갖는다.

특히, 아키텍처(300)에서, 컨볼루션 서브네트워크(110)는 즉 인과 컨볼루션을 현재의 출력 시퀀스(142)에 적용함으로써 현재 출력 시퀀스(142)를 처리하는 인과 컨볼루션 계층(Causal Conv)(302)을 포함한다.

그 다음, 컨볼루션 서브네트워크(110)는 딜레이션된 인과 컨볼루션 계층들의 스택을 통해 인과 컨볼루션 계층(302)의 출력을 처리한다.

스택 내의 각각의 딜레이션된 인과 컨볼루션 계층(304)은 딜레이션된 인과 컨볼루션(Dilated Conv)(308)을 딜레이션된 인과 컨볼루션 계층(304)에 대한 입력(306)에 적용한다. 전술한 바와 같이, 일부 구현 예에서, 스택 내의 딜레이션된 인과 컨볼루션 계층들은 블록으로 배열되고, 각 계층에 의해 적용된 딜레이션된 인과 컨볼루션의 딜레이션은 소정의 블록 내에서 증가하고, 다음 블록의 첫번째 계층에 대한 초기 값에서 재시작된다.

일부 구현 예에서, 스택 내의 딜레이션된 인과 컨볼루션 계층은 요소별 비선형성(element-wise non-linearity), 즉 종래의 활성화 함수의 출력이 요소별로 게이트 벡터와 곱해지는 게이트된 활성화 함수를 갖는다. 일부 구현예에서, 딜레이션된 인과 컨볼루션(308)은 계층 입력(302) 상에 2개의 딜레이션된 인과 컨볼루션(계층 입력(306) 및 계층(304)에 대한 메인 필터 사이의 제1 딜레이션된 인과 컨볼루션, 그리고 계층 입력(306) 및 계층(304)에 대한 게이트 필터 사이의 또 다른 딜레이션된 인과 컨볼루션)을 포함한다. 이러한 구현예의 다른 것들에서, 딜레이션된 인과 컨볼루션(308)은 단일 딜레이션된 인과 컨볼루션이고, 단일 컨볼루션의 출력의 절반은 계층 입력(306)과 계층(304)에 대한 메인 필터 사이의 딜레이션된 인과 컨볼루션의 출력으로서 제공되고, 단일 컨볼루션의 출력의 나머지 절반은 계층 입력(306)과 계층(304)에 대한 게이트 필터 사이의 딜레이션된 인과 컨볼루션의 출력으로서 제공된다.

그 다음 딜레이션된 인과 컨볼루션 계층(304)은 딜레이션된 인과 컨볼루션의 출력을 사용하여 계층(304)의 활성화 함수의 출력을 결정한다.

특히, 활성화 함수가 게이트된 활성화 함수이고, 생성되는 출력 시퀀스가 신경망 입력에 컨디셔닝되지 않으면, 계층(304)은 도 3의 예에서 탄젠트(tanh) 함수인 요소별 비선형 함수(310)를 메인 필터를 갖는 딜레이션된 컨볼루션의 출력에 적용하고, 게이트 필터를 갖는 딜레이션된 컨볼루션의 출력에 도 3의 예에서 시그모이드 함수인 요소별 게이팅 함수를 적용한다. 그 다음, 계층(304)은 비선형 함수(310)의 출력과 게이팅 함수(312)의 출력 사이의 요소별 곱셈(314)을 수행하여 활성화 함수 출력을 생성한다.

보다 구체적으로, 요소별 비선형성이 탄젠트(tanh)이고, 요소별 게이팅 함수가 시그모이드 함수인 경우, 계층 k에 대한 활성화 함수 z의 출력은 수학식 1을 만족한다.

여기서,

는 계층 k에 대한 메인 필터, x는 계층 입력, *는 인과 딜레이션된 컨볼루션,

는 요소별 곱셈,

는 계층 k에 대한 게이트 필터를 나타낸다.

생성되는 출력 시퀀스가 신경망 입력에 컨디셔닝되면, 계층(304)은 또한 신경망 입력에 대한 활성화 함수의 출력을 컨디셔닝한다. 특히, 비선형 함수 및 게이팅 함수는 해당 딜레이션된 컨볼루션 출력과 신경망 입력으로부터 생성된 입력의 조합을 입력으로 취한다.

더 구체적으로, 신경망 입력이 글로벌 특징들을 포함하고, 따라서 시퀀스의 모든 시간 단계들에 대해 동일할 때, 요소별 비선형성은 탄젠트이고, 요소별 게이팅 함수는 시그모이드 함수이고, 계층 k에 대한 활성화 함수 z의 출력은 수학식 2를 만족한다.

여기서,

는 계층 k에 대한 (활성화 함수의 메인 멈포넌트에 대한 h의)메인 학습 가능한 선형 프로젝션(projection)이고, h는 신경망 입력이고,

는 계층 k에 대한 (활성화 함수의 게이트 컴포넌트에 대한 h의) 게이트 학습 가능한 선형 프로젝션이다.

또는, 신경망 입력이 로컬 특징들, 즉 시간 단계에서 시간 단계로 변화하는 특징들을 포함할 때, 시스템(100)은 출력 시퀀스에서 각 시간 단계에 대한 특징 세트를 포함하는 시퀀스 y를 획득한다. 계층 k에 대한 활성화 함수 z의 출력은 수학식 3을 만족한다.

여기서,

및

는 각각 1x1 컨볼루션이다. 일부 구현 예에서, 시스템(100)은 신경망 입력으로서 시퀀스 y를 직접 수신하며, 즉, 출력 시퀀스와 동일한 해상도를 갖는 시퀀스를 직접 수신한다. 다른 구현예들에서, 시스템(100)은 출력 시퀀스보다 더 낮은 해상도, 즉 더 낮은 샘플링 주파수를 갖는 시퀀스를 수신한다. 이러한 경우, 상기 시스템은 시퀀스 y를 생성하기 위해 전치된(학습된 업샘플링) 컨볼루션 네트워크를 사용하여 저해상도 시퀀스를 처리함으로써 시퀀스 y를 생성할 수 있거나, 시퀀스 y를 생성하기 위해 저해상도 시퀀스로부터 시간에 걸쳐 값을 반복할 수 있다.

예로서, 로컬 특징들이 텍스트-음성 생성에 사용하기 위한 언어적 특징들일 때, 언어적 특징들은 폰, 음절, 단어, 문구 및 텍스트의 발화 수준 특징의 일부 또는 전부를 포함할 수 있다. 사용될 수 있는 언어적 함수 예제 세트는 "Zen", "Heiga"에 설명되어 있다(An example of context-dependent label format for HMM-based speech synthesis in English, 2006. URL http://hts.sp.nitech.ac.jp/?Download and Zen, Heiga, Senior, Andrew, and Schuster, Mike. Statistical parametric speech synthesis using deep neural networks. In Proc. ICASSP, pp. 7962-7966, 2013.)

아키텍처(300)가 딜레이션된 인과 컨볼루션 계층에 대한 스킵 연결 및 레지듀얼 연결을 포함하기 때문에, 계층(304)은 활성화 함수 출력에 대해 1x1 컨볼루션(316)을 수행한다.

계층(304)은 1x1 컨볼루션의 출력을 계층의 스킵 출력(318)으로서 제공하고, 계층(304)의 최종 출력(320)을 생성하기 위해 레지듀얼, 즉 계층 입력(306) 및 1x1 컨볼루션의 출력을 가산한다. 이어서, 컨볼루션 서브네트워크(110)는 최종 출력(320)을 계층 입력으로서 스택의 다음 딜레이션된 컨볼루션 계층에 제공한다.

일부 구현 예에서, 계층(304)은 활성화 함수 출력에서 2개의 1x1 컨볼루션을 수행하고, 하나는 레지듀얼 필터를 갖고, 다른 하나는 스킵 필터를 갖는다. 이러한 구현 예에서, 계층(304)은 계층의 스킵 출력(318)으로서 스킵 필터를 갖는 컨볼루션의 출력을 제공하고, 1x1 컨볼루션의 레지듀얼 및 출력을 레지듀얼 필터와 더하여 계층(304)의 최종 출력(320)을 생성한다.

이어서, 컨볼루션 서브네트워크(110)는 최종 출력(320)을 계층 입력으로서 스택의 다음 딜레이션된 컨볼루션 계층에 제공한다. 스택의 마지막 계층의 경우 다음 계층이 없기 때문에, 컨볼루션 서브네트워크(110)는 최종 계층에 의해 생성된 최종 출력(320)을 폐기(discard)하거나 최종 출력을 계산하는 것을 삼가할 수 있다(즉, 스택에서 최종 계층에 대한 레지듀얼 합과 1x1 컨볼루션을 수행하는 것을 삼가할 수 있다.).

딜레이션된 컨볼루션 계층들의 스택 내의 모든 계층들(304)의 처리(프로세싱)가 완료되면, 컨볼루션 서브네트워크(110)는 계층들(304)에 의해 생성된 스킵 출력들을 합산(가산)한다(322). 컨볼루션 서브네트워크(110)는 대체 표현(144)을 생성하기 위해 합산(322)에 하나 이상의 비선형 함수, 하나 이상의 1x1 컨볼루션 또는 둘 모두를 적용할 수 있다. 특히, 도 3의 예에서, 컨볼루션 서브네트워크(110)는 대체 표현(144)을 생성하기 위해 요소별 비선형성(ReLU)(324), 예를 들어 ReLU를 적용한 후 1x1 컨볼루션(326), 다른 요소별 비선형성(ReLU)(328), 최종 1x1 컨볼루션(330) 순으로 적용한다.

전술한 바와 같이, 그 다음 출력층(softmax)(120)은 대체 표현(144)을 처리하여 스코어 분포(146)를 생성한다.

도 4는 오디오 시퀀스에서 소정의 시간 단계에서 오디오 샘플을 생성하기 위한 예시적인 프로세스(400)의 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 신경망 시스템, 예를 들어 도 1의 신경망 시스템(100)은 적절하게 프로그램되어 프로세스(400)를 수행할 수 있다.

시스템은 컨볼루션 서브네트워크에 대한 입력으로서 현재 오디오 시퀀스를 제공한다(단계 402). 현재 오디오 시퀀스는 소정의 시간 단계, 즉 소정의 시간 단계 이전의 시간 단계에서 출력 오디오 샘플을 포함하는 시퀀스로서 이미 생성된 오디오 시퀀스이다. 상술한 바와 같이, 컨볼루션 서브네트워크는 오디오 처리 컨볼루션 신경망 계층, 예를 들어, 딜레이션된 인과 컨볼루션 계층을 포함하고, 소정의 시간 단계에 대한 대체 표현을 생성하기 위해 오디오 데이터의 현재 시퀀스를 처리하도록 구성된다.

시스템은 대체 표현을 출력층, 예를 들어, 소프트맥스(softmax) 출력층에 입력으로서 제공한다(단계 404). 출력층은 대체 표현(표상)을 처리하여 시간 단계에 대한 가능한 오디오 샘플를 통해 스코어 분포를 생성하도록 구성된다.

시스템은 스코어 분포에 따라 소정의 시간 단계에서 오디오 시퀀스에 포함시킬 오디오 샘플을 선택한다(단계 406). 예를 들어, 시스템은 스코어 분포에 따라 가능한 오디오 샘플을 샘플링할 수 있다.

상기 시스템은 미가공(raw) 또는 압축 및/또는 컴팬딩된 오디오 데이터 (예: 화자, 음악 등의 파형)에 대해 훈련(학습)받을 수 있다. 선택적으로 텍스트의 언어화를 위한 오디오 데이터와 쌍을 이루는 텍스트로부터 도출된 언어적 특징으로서 표현될 수 있는 텍스트-음성 데이터와 같은 컨디셔닝 데이터가 포함될 수 있다.

훈련 시간, 즉 컨볼루션 계층의 필터의 훈련된 값 및 시스템의 임의의 다른 파라미터를 결정하도록 컨볼루션 서브네트워크 및 출력층을 훈련(학습)하는 동안, 상기 시스템은 시스템에 의해 생성되어야 하는 그라운드 진리 출력의 모든 시간 단계가 알려지기 때문에, 모든 시간 단계에 대한 조건부 예측을 병렬로, 즉 자동 회귀(autoregressively) 대신에 생성할 수 있다. 일반적으로, 시스템은 종래의 감독(supervised) 학습 기술, 예를 들어 역전파 기반 기술을 갖는 확률적 구배 하강(stochastic gradient descent)을 사용하여 파라미터들의 훈련된 값들을 결정하기 위해 훈련을 수행할 수 있다. 상술한 바와 같이, 이러한 병렬화 및 인과 컨볼루션 계층의 사용으로 인해, 시스템은 다른 시스템, 예를 들어, 순환 신경망 계층을 포함하는 것과 같은 많은 컴퓨터 자원을 훈련시킬 필요가 없기 때문에, 훈련 시간이 단축된다.

또한, 시스템이 출력 시퀀스를 자동-회귀적으로 생성하기 때문에, 일부 구현 예에서, 컨볼루션 서브네트워크는 소정의 시간 단계에 대한 대체 표현을 계산할 때 이전 시간 단계들에 대해 계산된 값들을 재사용한다. 특히, 동일한 오디오 샘플이 서브네트워크에 대한 입력으로서 2회 이상 제공되기 때문에, 컨볼루션 서브 네트워크에 의해 수행되는 일부 계산은 다수의 상이한 시간 단계에서 동일할 것이다. 이러한 구현예에서, 매 시간 단계마다 이러한 계산을 다시 계산하기보다는, 컨볼루션 서브네트워크는 연산이 처음 수행될 때 계산의 출력 값을 저장할 수 있고 후속 시간 단계에서 상기 저장된 출력 값을 재사용할 수 있다. 간단한 예로서, 컨볼루션 서브네트워크의 제1 컨벌루션 계층은 오디오 시퀀스의 생성 중에 동일한 오디오 샘플 값에 동일한 필터 또는 필터를 여러 번 적용할 것이다. 매시간 단계마다 이러한 필터 적용의 출력을 다시 계산하는 대신 시스템은 이전 시간 단계에서 계산된 출력을 재사용할 수 있다.

일부 구현 예에서, 수용 필드를 증가시키는 또 다른 방법으로서, 매우 큰(긴) 수용 필드를 갖는 딜레이션된 인과 컨볼루션 계층의 하나의 스택, 그러나 바람직하게는 계층당보다 적은 유닛이 더 작은 수용 필드를 갖는 (더 큰) 스택을 컨디셔닝하는데 사용될 수 있다. 더 큰 스택은 오디오 신호의 짧은 부분을 처리할 수 있다(예: 끝에서 크롭됨(cropped)).

본 명세서는 시스템 및 컴퓨터 프로그램 구성 요소와 관련하여 "구성된"이라는 용어를 사용한다. 특정 동작이나 액션을 수행하도록 구성된 하나 이상의 컴퓨터 시스템은 시스템이 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로 인해 시스템이 동작 또는 액션을 수행하게 하는 것을 의미한다. 특정 동작 또는 액션을 수행하도록 구성된 하나 이상의 컴퓨터 프로그램은 하나 이상의 컴퓨터 프로그램이 데이터 처리 장치에 의해 실행될 때 장치로 하여금 동작 또는 액션을 수행하게 하는 명령어들을 포함함을 의미한다.

본 명세서에서 설명된 요지 및 기능적 동작의 실시 예는 본 명세서 및 그의 구조적 균등물에 개시된 구조들 또는 그들 중 하나 이상의 조합을 포함하여, 디지털 전자 회로, 유형적으로- 구현된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어에서 구현될 수 있다. 본 명세서에서 설명된 요지의 실시 예는 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의해 실행되거나 또는 데이터 처리 장치의 동작을 제어하기 위해 유형의 일시적 저장 매체상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈로서 구현될 수 있다. 상기 컴퓨터 저장 매체는 기계 판독가능 저장 장치, 기계 판독가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 장치, 또는 이들 중 하나 이상의 조합일 수 있다. 대안으로 또는 부가적으로, 상기 프로그램 명령어들은 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 송신을 위해 정보를 인코딩하기 위해 생성되는 인위적으로 생성된 전파된 신호, 예를 들어, 기계-발생 전기, 광학 또는 전자기 신호상에 인코딩될 수 있다.

"데이터 처리 장치"라는 용어는 데이터 처리 하드웨어를 의미하며, 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 복수의 프로세서 또는 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 이 장치는 또한 특수 목적 논리 회로, 예를 들어 FPGA (field programmable gate array) 또는 ASIC(application specific integrated circuit)일 수 있다. 상기 장치는 하드웨어 이외에, 컴퓨터 프로그램들의 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 이들 중 하나 이상의 조합을 구성하는 코드를 선택적으로 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 설명될 수 있음)은 컴파일된 또는 해석된 언어, 또는 선언적 또는 절차적 언어를 포함한 모든 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램이나 모듈, 컴포넌트, 서브루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 장치를 포함하여 어떤 형태로든 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있지만 반드시 그런 것은 아니다. 프로그램은 프로그램 전용 단일 파일, 여러 개의 조정된 파일(예를 들어, 하나 이상의 모듈, 하위 프로그램 또는 코드의 부분들을 저장하는 파일들), 또는 마크업 언어 문서에 저장된 하나 이상의 스크립트와 같은 다른 프로그램들 또는 데이터를 보유하고 있는 파일의 부분에 저장될 수 있다. 컴퓨터 프로그램은 한 사이트에 있거나 여러 사이트에 분산되어 있으며 통신 네트워크로 상호 연결된 여러 대의 컴퓨터 또는 하나의 컴퓨터에서 실행되도록 배포될 수 있다.

본 명세서에서, "데이터베이스"라는 용어는 데이터의 임의의 집합을 나타내기 위해 광범위하게 사용되며, 그 데이터는 특정 방식으로 구조화되거나 전혀 구조화될 필요가 없으며 하나 이상의 위치에 있는 저장 장치에 저장할 수 있다. 따라서, 예를 들어, 인덱스 데이터베이스는 복수의 데이터 집합을 포함할 수 있으며, 각각의 집합은 다르게 구성되고 액세스될 수 있다.

본 명세서에서, 용어 "엔진"은 하나 이상의 특정 기능을 수행하도록 프로그램된 소프트웨어 기반 시스템, 서브 시스템 또는 프로세스를 지칭하기 위해 광범위하게 사용된다. 일반적으로 엔진은 하나 이상의 소프트웨어 모듈 또는 구성 요소로 구현되며 하나 이상의 위치에 있는 하나 이상의 컴퓨터에 설치된다. 일부 경우에 따라 하나 이상의 컴퓨터가 특정 엔진 전용으로 사용되며, 다른 경우에는 여러 대의 엔진을 동일한 컴퓨터나 컴퓨터들에 설치하여 실행할 수 있다.

본 명세서에서 설명되는 프로세스들 및 로직 흐름은 입력 데이터를 조작하고 출력을 생성함으로써 기능을 수행하도록 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 상기 프로세스들 및 로직 흐름은 또한 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 특수 목적 논리 회로에 의해 수행될 수 있고, 장치는 또한 상기 특수 목적 논리 회로로 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들어 범용 또는 특수 목적 마이크로프로세서 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 포함하고, 이들에 기반할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성요소들은 명령어들을 수행하거나 실행하기 위한 중앙 처리 장치 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 장치이다. 일반적으로, 컴퓨터는 데이터(예를 들어, 자기, 광 자기 디스크 또는 광 디스크)를 저장하기 위한 하나 이상의 대용량 저장 장치를 포함하거나, 그 하나 이상의 대용량 저장 장치로부터 데이터를 수신하거나 전송하기 위해 동작 가능하게 결합될 것이다. 그러나, 컴퓨터는 그러한 장치들을 가질 필요는 없다. 또한, 컴퓨터는 다른 장치, 예를 들어, 이동 전화기, 개인 휴대 정보 단말기(PDA), 이동 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 휴대용 저장 장치(예를 들어, 범용 직렬 버스(USB) 플래시 드라이브)에 내장될 수 있다.

컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 장치와 같은 반도체 메모리 장치, 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크, 광 자기 디스크, 및 CD ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함한다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 설명된 요지의 실시예들은 사용자에게 정보를 제공하기 위한 CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터와 같은 디스플레이 장치, 사용자가 입력을 컴퓨터에 제공할 수 있는 마우스 또는 트랙볼과 같은 키보드 및 포인팅 장치를 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 장치들은 사용자와의 상호 작용을 제공하는 데 사용될 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 장치로 문서를 보내고 문서를 수신하여 사용자와 상호 작용할 수 있으며, 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여 사용자의 클라이언트 장치상의 웹 브라우저에 웹 페이지를 전송함으로써 수행될 수 있다. 또한, 컴퓨터는 문자 메시지 또는 다른 형태의 메시지를 개인용 장치(예를 들어, 메시징 애플리케이션을 실행중인 스마트폰)에 송신하고 사용자로부터 응답 메시지를 수신함으로써 사용자와 상호 작용할 수 있다.

기계 학습 모델을 구현하기 위한 데이터 처리 장치는 또한, 예를 들어, 기계 학습 훈련 또는 생산, 즉 추론, 작업부하의 공통 및 연산 중심 부분을 처리하기 위한 특수 목적 하드웨어 가속기 유닛을 포함할 수 있다.

기계 학습 모델은" TensorFlow" 프레임워크, "Microsoft Cognitive Toolkit" 프레임워크, "Apache Singa" 프레임워크 또는 "Apache MXNet" 프레임워크와 같은 기계 학습 프레임워크를 사용하여 구현 및 배치할 수 있다.

본 명세서에서 설명된 요지의 실시예들은 데이터 서버와 같은 백 엔드 컴포넌트; 애플리케이션 서버와 같은 미들웨어 컴포넌트; 예를 들어 관계 그래픽 사용자 인터페이스 또는 사용자가 본 명세서에 설명된 요지의 구현예와 상호 작용할 수 있는 웹 브라우저를 갖는 클라이언트 컴퓨터와 같은 프론트 엔트 컴포넌트; 또는 하나 이상의 백 엔드, 미들웨어, 프론트 엔트 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 상기 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 접속될 수 있다. 예시적인 통신 네트워크는 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어 인터넷을 포함한다.

상기 컴퓨팅 시스템은 클라이언트들과 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들로 인해 발생한다. 일부 실시 예에서, 서버는 데이터, 예를 들어, 데이터를 디스플레이하고, 클라이언트로서 동작하는 장치와 상호 작용하는 사용자로부터 사용자 입력을 수신하기 위해 HTML 페이지를 사용자 장치로 송신한다. 사용자 장치에서 생성된 데이터, 예를 들어 사용자 상호 작용의 결과는 상기 장치로부터 서버에서 수신될 수 있다.

본 명세서는 다수의 특정 구현 세부 사항을 포함하지만, 이들은 임의의 발명 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정 발명의 특정 실시예에 특정될 수 있는 특징에 대한 설명으로 해석되어야 한다. 별도의 실시예들과 관련하여 본 명세서에서 설명되는 특정 특징들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 콘텍스트에서 설명된 다양한 특징들은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 서브조합으로 구현될 수 있다. 더욱이, 특징들은 소정의 조합으로 작용하고 상술한 바와 같이 초기에 청구된 것으로서 설명될 수 있지만, 청구된 조합의 하나 이상의 특징이 어떤 경우 그 조합으로부터 제거될 수 있고, 그 청구된 조합은 서브조합 또는 그 서브조합의 변형을 지향할 수 있다.

유사하게, 동작들이 특정 순서로 도면들에 도시되어 있지만, 이는 바람직한 동작들을 달성하기 위해, 그러한 동작들이 도시된 순서 또는 순차적인 순서로 수행되거나, 도시된 모든 동작들이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서 멀티 태스킹 및 병렬 처리가 유리할 수 있다. 또한, 상술한 실시 예에서 다양한 시스템 모듈 및 컴포넌트의 분리는 모든 실시예에서 그러한 분리를 필요로 하는 것으로 이해되어서는 안되며, 서술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다중 소프트웨어 제품들로 패키징될 수 있다는 것을 이해해야 한다.

본 발명의 특정 실시예들이 설명되었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구 범위에 열거된 동작들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과를 달성한다. 하나의 예로서, 첨부된 도면에 도시된 프로세스는 바람직한 결과를 얻기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 필요로 하지는 않는다. 특정 구현예들에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims

오디오 출력을 생성하기 위한 하나 이상의 컴퓨터에 의해 구현되는 신경망 시스템 -상기 신경망 시스템은 복수의 시간 단계들 각각에서 각 오디오 샘플을 포함하는 오디오 데이터의 출력 시퀀스를 생성하도록 구성되며, 각 시간 단계는 오디오 파형의 각 시간에 대응하고, 각 시간 단계에서의 오디오 샘플은 해당 시간에서의 파형을 특성화함-으로서, 상기 신경망 시스템은,
하나 이상의 오디오 처리 컨볼루션 신경망 계층들을 포함하는 컨볼루션 서브네트워크와, 출력층, 서브시스템을 포함하며,
상기 컨볼루션 서브네트워크는, 상기 복수의 시간 단계들 각각에 대해,
출력 시퀀스에서 시간 단계에 선행하는 각 시간 단계에서 각 오디오 샘플을 포함하는 오디오 데이터의 현재 시퀀스를 수신하고,
상기 오디오 데이터의 현재 시퀀스를 처리하여 상기 시간 단계에 대한 대체 표현(alternative representation)을 생성하고; 그리고
상기 출력층은, 상기 복수의 시간 단계들 각각에 대해,
시간 단계에 대한 상기 대체 표현을 수신하고,
시간 단계에 대한 복수의 가능한 오디오 샘플들을 통해 스코어 분포를 정의하는 출력을 생성하도록 시간 단계에 대한 상기 대체 표현을 처리하고;
상기 서브시스템은, 상기 복수의 시간 단계들 각각에 대해,
시간 단계에 대한 스코어 분포에 따라 출력 시퀀스의 시간 단계에서 오디오 샘플을 선택하도록 구성되는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제1항에 있어서, 상기 오디오 샘플을 선택하는 것은,
상기 스코어 분포에서 샘플링하는 것을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제1항에 있어서, 상기 오디오 샘플을 선택하는 것은,
상기 스코어 분포에 따라 가장 높은 스코어를 갖는 오디오 샘플을 선택하는 것을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제1항에 있어서,
상기 복수의 시간 단계들 각각은 오디오 파형의 각각의 시간에 대응하고,
상기 복수의 시간 단계들 각각에서의 각 오디오 샘플은 해당 시간에서의 상기 오디오 파형의 진폭값인 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제1항에 있어서,
상기 복수의 시간 단계들 각각은 오디오 파형의 각 시간에 대응하고,
상기 복수의 시간 단계들 각각에서의 각 오디오 샘플은 해당 시간에서의 상기 오디오 파형의 압축된 또는 컴팬딩된(companded) 표현인 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제1항에 있어서,
상기 오디오 처리 컨볼루션 신경망 계층들은 인과 컨볼루션 신경망 계층들인 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제1항에 있어서,
상기 오디오 처리 컨볼루션 신경망 계층들은 하나 이상의 딜레이션된(dilated) 컨볼루션 신경망 계층들을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제7항에 있어서,
상기 오디오 처리 컨볼루션 신경망 계층들은 딜레이션된 컨볼루션 신경망 계층들의 복수의 블록들을 포함하고, 각각의 블록은 증가하는 딜레이션을 갖는 복수의 딜레이션된 컨볼루션 신경망 계층들을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제1항에 있어서, 오디오 처리 컨볼루션 신경망 계층들 중 하나 이상은 게이트된 활성화 유닛들을 갖는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제1항에 있어서,
상기 복수의 시간 단계들 각각에서, 상기 대체 표현은 신경망 입력상에서 컨디셔닝되는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제10항에 있어서, 상기 신경망 입력은 텍스트 세그먼트의 특징들을 포함하고, 출력 시퀀스는 상기 텍스트 세그먼트의 언어화(verbalization)를 나타내는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제11항에 있어서, 상기 신경망 입력은 억양(intonation) 패턴 값을 더 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제10항에 있어서,
상기 신경망 입력은 화자 신원 정보, 언어 신원(identity) 정보 및 말하기 스타일 정보 중 하나 이상을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제1항에 있어서, 상기 출력 시퀀스는 음악의 일부분(piece)을 나타내는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제1항에 있어서, 상기 컨볼루션 서브네트워크는 레지듀얼 연결(residual connection)들을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제1항에 있어서, 상기 컨볼루션 서브네트워크는 스킵 연결들(skip connections)을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
제1항에 있어서,
상기 오디오 데이터의 현재 시퀀스를 처리하여 상기 시간 단계에 대한 대체 표현을 생성하는 것은 이전 시간 단계들에 대해 계산된 값들을 재사용하는 것을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터들에 의해 구현되는 신경망 시스템.
하나 이상의 컴퓨터들에 의해 실행될 때 상기 하나 이상의 컴퓨터들로 하여금 제1항 내지 제17항 중 어느 한 항의 각각의 신경망 시스템을 구현하게 하는 명령어들로 인코딩된 하나 이상의 컴퓨터 저장 매체.
복수의 시간 단계들 각각에서 각 오디오 샘플을 포함하는 오디오 데이터의 출력 시퀀스를 생성함으로써 오디오 출력을 생성하는 방법 -각 시간 단계는 오디오 파형의 각 시간에 대응하고, 각 시간 단계에서의 오디오 샘플은 해당 시간에서의 파형을 특성화함- 으로서,
상기 방법은, 상기 복수의 시간 단계들 각각에 대해,
하나 이상의 오디오 처리 컨볼루션 신경망 계층들을 포함하는 컨볼루션 서브네트워크에 오디오 데이터의 현재 시퀀스를 입력으로서 제공하는 단계 - 상기 현재 시퀀스는 출력 시퀀스에서 시간 단계에 선행하는 각각의 시간 단계에서의 각 오디오 샘플을 포함하고; 상기 컨볼루션 서브네트워크는, 상기 복수의 시간 단계들 각각에 대해, 오디오 데이터의 현재 시퀀스를 수신하고, 그리고 상기 오디오 데이터의 현재 시퀀스를 처리하여 상기 시간 단계에 대한 대체 표현(alternative representation)을 생성하도록 구성됨-;
출력층에 대한 입력으로서 시간 단계에 대한 상기 대체 표현을 제공하는 단계 -상기 출력층은, 상기 복수의 시간 단계들 각각에 대해, 시간 단계에 대한 상기 대체 표현을 수신하고, 시간 단계에 대한 복수의 가능한 오디오 샘플들을 통해 스코어 분포를 정의하는 출력을 생성하도록 시간 단계에 대한 상기 대체 표현을 처리하도록 구성됨-;
상기 복수의 시간 단계들 각각에 대해, 시간 단계에 대한 스코어 분포에 따라 출력 시퀀스의 시간 단계에서 오디오 샘플을 선택하는 단계를 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서,
상기 오디오 샘플을 선택하는 단계는 상기 스코어 분포로부터 샘플링하는 단계를 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서, 상기 오디오 샘플을 선택하는 단계는 상기 스코어 분포에 따라 가장 높은 스코어를 갖는 오디오 샘플을 선택하는 단계를 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서,
상기 복수의 시간 단계들 각각은 오디오 파형의 각각의 시간에 대응하고,
상기 복수의 시간 단계들 각각에서의 각 오디오 샘플은 해당 시간에서의 상기 오디오 파형의 진폭값인 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서,
상기 복수의 시간 단계들 각각은 오디오 파형의 각 시간에 대응하고,
상기 복수의 시간 단계들 각각에서의 각 오디오 샘플은 해당 시간에서의 상기 오디오 파형의 압축된 또는 컴패닝된(companded) 표현인 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서,
상기 오디오 처리 컨볼루션 신경망 계층들은 인과(causal) 컨볼루션 신경망 계층들인 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서, 상기 오디오 처리 컨볼루션 신경망 계층들은 하나 이상의 딜레이션된 컨볼루션 신경망 계층들을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제25항에 있어서,
상기 오디오 처리 컨볼루션 신경망 계층들은 딜레이션된 컨볼루션 신경망 계층들의 복수의 블록들을 포함하고, 각각의 블록은 증가하는 딜레이션(increasing dilation)을 갖는 복수의 딜레이션된 컨볼루션 신경망 계층들을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서, 상기 오디오 처리 컨볼루션 신경망 계층들 중 하나 이상은 게이트된 활성화 유닛들을 갖는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서, 상기 복수의 시간 단계들 각각에서, 상기 대체 표현은 신경망 입력상에서 컨디셔닝되는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제28항에 있어서,
상기 신경망 입력은 텍스트 세그먼트의 특징들을 포함하고,
상기 출력 시퀀스는 상기 텍스트 세그먼트의 언어화(verbalization)를 나타내는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제29항에 있어서, 상기 신경망 입력은 억양 패턴 값들을 더 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제28항에 있어서,
상기 신경망 입력은 화자 신원 정보, 언어 신원(identity) 정보 및 말하기 스타일 정보 중 하나 이상을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서, 상기 출력 시퀀스는 음악의 일부분(piece)을 나타내는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서, 상기 컨볼루션 서브네트워크는 레지듀얼 연결들(residual connections)을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서, 상기 컨볼루션 서브네트워크는 스킵 연결들을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서,
상기 오디오 데이터의 현재 시퀀스를 처리하여 상기 시간 단계에 대한 대체 표현을 생성하는 것은 이전 시간 단계들에 대해 계산된 값들을 재사용하는 것을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
제19항에 있어서,
상기 오디오 출력은 음성 또는 음악을 포함하는 것을 특징으로 하는 오디오 출력을 생성하는 방법.
삭제