KR102221260B1

KR102221260B1 - 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법

Info

Publication number: KR102221260B1
Application number: KR1020190033403A
Authority: KR
Inventors: 이수영; 김태호; 신영훈; 최신국; 김태훈; 아잠라비
Original assignee: 한국과학기술원
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2021-03-02
Also published as: KR20200113364A; WO2020196979A1

Abstract

다양한 실시예들에 따른 전자 장치 및 그의 동작 방법은 특징 제어 가능 음성 모사를 위한 것으로, 텍스트를 인코딩하고, 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하고, 인코딩된 텍스트를 추론된 임베딩 정보와 함께 디코딩하여, 음성 신호를 발생시키도록 구성될 수 있다.

Description

특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법{ELECTRONIC APPARATUS FOR FEATURE CONTROLLABLE VOICE IMITATING AND OPERATING METHOD THEREOF}

다양한 실시예들은 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법에 관한 것이다.

일반적으로, 음성은 인간의 의사 소통 수단으로서 이용되는 의미 있는 소리이다. 인간과 기계 사이의 음성을 통한 통신 구현에 대한 시도는 과거부터 꾸준히 있어 왔으며, 최근 음성을 효과적으로 처리하는 기술이 실생활에 적용되고 있다. 예를 들면, 음성을 처리하는 기술은 음성 인식(speech recognition), 음성 합성(speech synthesis), 화자 인증(speaker identification and verification) 등을 포함한다. 음성 인식은 화자로부터 발화된 음성을 인식하여 텍스트로 변환하는 기술이고, 음성 합성은 텍스트를 음성으로 변환하는 기술이며, 화자 인증은 음성에 기반하여 화자를 추정하거나 인증하는 기술이다.

그런데, 상기와 같은 음성 합성에 따르면, 텍스트가 미리 정해진 음성으로만 변환될 뿐이다. 즉 텍스트가 하나의 화자의 음색을 갖는 음성으로만 변환될 뿐이다. 따라서, 텍스트를 다양한 음성으로 변환할 수 있는 방안이 요구된다.

다양한 실시예들에 따른 전자 장치의 동작 방법은 특징 제어 가능 음성 모사를 위한 것으로, 텍스트를 인코딩하는 동작, 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하는 동작, 및 상기 인코딩된 텍스트를 상기 추론된 임베딩 정보와 함께 디코딩하여, 음성 신호를 발생시키는 동작을 포함할 수 있다.

다양한 실시예들에 따른 전자 장치는 특징 제어 가능 음성 모사를 위한 것으로, 텍스트를 인코딩하는 텍스트 인코더, 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하는 결합부, 상기 인코딩된 텍스트를 상기 추론된 임베딩 정보와 함께 디코딩하는 디코더, 및 상기 디코딩된 텍스트에 대응하는 음성 신호를 발생시키는 보코더를 포함할 수 있다.

다양한 실시예들에 따르면, 전자 장치는 텍스트를 다양한 음성으로 변환할 수 있다. 즉 전자 장치는 화자 음성 신호를 선택적으로 이용하여, 다수의 화자들의 음성을 모사할 수 있다. 아울러, 전자 장치는 화자 음성 신호의 특징을 선택적으로 제어하여, 화자들의 음성을 가변적으로 모사할 수 있다. 예를 들면, 전자 장치는 음성을 다양한 감정으로 표현할 수 있다.

도 1은 다양한 실시예들에 따른 전자 장치를 도시하는 도면이다.
도 2는 도 1의 프로세서를 도시하는 도면이다.
도 3은 다양한 실시예들에 따른 전자 장치의 동작 방법을 도시하는 도면이다.

이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.

도 1은 다양한 실시예들에 따른 전자 장치(100)를 도시하는 도면이다.

도 1을 참조하면, 다양한 실시예들에 따른 전자 장치(100)는, 입력 모듈(110), 출력 모듈(120), 메모리(130) 또는 프로세서(140) 중 적어도 어느 하나를 포함할 수 있다.

입력 모듈(110)은 전자 장치(100)의 구성 요소에 사용될 명령 또는 데이터를 전자 장치(100)의 외부로부터 수신할 수 있다. 입력 모듈(110)은, 사용자가 전자 장치(100)에 직접적으로 명령 또는 데이터를 입력하도록 구성되는 입력 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 명령 또는 데이터를 수신하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse), 키보드(keyboard) 또는 카메라(camera) 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다.

출력 모듈(120)은 전자 장치(100)의 외부로 정보를 제공할 수 있다. 출력 모듈(120)은 정보를 청각적으로 출력하도록 구성되는 오디오 출력 장치, 정보를 시각적으로 출력하도록 구성되는 표시 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 정보를 전송하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다.

메모리(130)는 전자 장치(100)의 구성 요소에 의해 사용되는 데이터를 저장할 수 있다. 데이터는 프로그램 또는 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 예를 들면, 메모리(130)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다.

프로세서(140)는 메모리(130)의 프로그램을 실행하여, 전자 장치(100)의 구성 요소를 제어할 수 있고, 데이터 처리 또는 연산을 수행할 수 있다. 프로세서(140)는 텍스트를 음성 신호로 변환할 수 있다. 여기서, 프로세서(140)는 딥러닝을 위한 신경 회로망을 기반으로, 텍스트를 음성 신호로 변환할 수 있다. 이 때 프로세서(140)는 텍스트를 음성 신호로 변환하는 데 있어서, 특정 화자의 음성을 모사할 수 있다. 예를 들면, 프로세서(140)는 텍스트를 화자의 음색을 갖는 음성 신호로 변환할 수 있다. 이를 통해, 프로세서(140)는, 특정 화자에 의해 텍스트가 발화되는 것과 같이, 음성 신호를 생성할 수 있다. 아울러, 프로세서(140)는 텍스트를 음성 신호로 변환하는 데 있어서, 특정 화자의 음성에서 적어도 하나의 특징을 제어할 수 있다. 이를 위해, 프로세서(140)는 텍스트를 음성 신호로 변환하는 데, 미리 저장된 화자 음성 신호와 미리 저장된 특징 정보를 이용할 수 있다. 이 때 프로세서(140)는 화자 음성 신호에서 특징 정보에 대응하는 특징 요소를 제거하고, 제거된 특징 요소를 대신하여 특징 정보를 적용할 수 있다. 이를 통해, 화자 음성 신호와 특징 정보 간 상관 관계가 제거될 수 있다. 예를 들면, 특징 정보는 감정, 성별 또는 연령 중 적어도 어느 하나를 포함할 수 있다.

도 2는 도 1의 프로세서(140)를 도시하는 도면이다.

도 2를 참조하면, 프로세서(140)는 텍스트 인코더(210), 화자 인코더(220), 특징 인코더(230), 결합부(240), 디코더(250) 또는 보코더(260) 중 적어도 어느 하나를 포함할 수 있다.

텍스트 인코더(210)는 텍스트를 인코딩할 수 있다. 이 때 텍스트는 입력 모듈(110)을 통해 입력될 수 있다. 일 예로, 텍스트는 입력 장치를 통해 사용자로부터 직접적으로 입력될 수 있다. 다른 예로, 텍스트는 통신 장치를 통해 외부 전자 장치로부터 수신될 수 있다. 또는 텍스트는 메모리(130)에 저장되어 있으며, 프로세서(140)에 의해 메모리(130)로부터 인출될 수 있다.

화자 인코더(220)는 화자 음성 신호를 인코딩할 수 있다. 여기서, 화자 음성 신호는 메모리(130)에 미리 저장되어 있으며, 가변적 길이를 가질 수 있다. 예를 들면, 화자 음성 신호는 발화 내용을 포함하지 않으며, 화자 음성 신호가 발화 내용을 포함하는 경우, 프로세서(140)가 화자 음성 신호로부터 발화 내용을 제거할 수 있다. 이를 통해, 화자 인코더(220)는 화자 음성 신호로부터 화자 임베딩 정보를 생성할 수 있다. 여기서, 화자 임베딩 정보는 고정된 길이를 가질 수 있다. 이 때 화자 인코더(220)는 RNN(recurrent neural network), GRU(gated recurrent unit), LSTM(long short term memory network) 또는 CNN(convolutional neural network) 중 적어도 어느 하나의 기법을 사용하여, 화자 임베딩 정보를 추론할 수 있다. 어떤 실시예에서는, 화자 인코더(220)는 화자 음성 신호의 화자 인식(speaker identification)을 위한 추가 학습을 수행할 수 있다. 화자 인코더(220)는 LDA(linear discriminate analysis)를 적용하여, 화자 음성 신호의 화자를 구분할 수 있다. 예를 들면, 동일한 화자에 의한 복수 개의 화자 음성 신호들로부터 동일한 화자 임베딩 정보가 생성될 수 있다.

특징 인코더(230)는 특징 정보를 인코딩할 수 있다. 여기서, 특징 정보는 메모리(130)에 미리 저장되어 있으며, 가변적 길이를 가질 수 있다. 예를 들면, 특징 정보는 이산적인 또는 연속적 특징 변수를 가질 수 있다. 이를 통해, 특징 인코더(230)는 특징 정보로부터 특징 임베딩 정보를 생성할 수 있다. 즉 특징 인코더(230)는 특징 정보와 관련된 이산적 또는 연속적 특징 변수를 기반으로, 특징 임베딩 정보를 추론할 수 있다. 여기서, 특징 임베딩 정보는 고정된 길이를 가질 수 있다. 이 때 특징 인코더(230)는 RNN, GRU, LSTM 또는 CNN 중 적어도 어느 하나의 기법을 사용하여, 특징 임베딩 정보를 추론할 수 있다. 예를 들면, 특징 인코더(230)는 특징 정보와 관련되는 하나의 제어 값의 곱을 사용하여, 특징 정보에 대한 세기 정도를 부여할 수 있으며, 특징 정보와 관련되는 복수 개의 제어 값들을에 대해 복합적인 결과를 획득할 수도 있다.

결합부(240)는 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론할 수 있다. 이 때 결합부(240)는 화자 임베딩 정보와 특징 임베딩 정보를 결합하여, 임베딩 정보를 생성할 수 있다. 결합부(240)는 가중치 합, 곱셈 또는 신경망(neural network) 중 적어도 어느 하나를 사용하여, 화자 임베딩 정보와 특징 임베딩 정보를 결합할 수 있다. 예를 들면, 신경망은 RNN, GRU, LSTM 또는 CNN 중 적어도 어느 하나를 포함할 수 있다.

디코더(250)는 인코딩된 텍스트를 임베딩 정보와 함께 디코딩할 수 있다. 즉 디코더(250)가 인코딩된 테스트와 임베딩 정보를 합성할 수 있다.

보코더(260)는 디코딩된 텍스트에 대응하는 음성 신호를 발생시킬 수 있다.

다양한 실시예들에 따른 전자 장치(100)는 특징 제어 가능 음성 모사를 위한 것으로, 텍스트를 인코딩하는 텍스트 인코더(210), 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하는 결합부(240), 인코딩된 텍스트를 추론된 임베딩 정보와 함께 디코딩하는 디코더(250), 및 디코딩된 텍스트에 대응하는 음성 신호를 발생시키는 보코더(260)를 포함할 수 있다.

다양한 실시예들에 따르면, 전자 장치(100)는, 화자 음성 신호를 인코딩하여, 화자 임베딩 정보를 추론하는 화자 인코더(220), 및 특징 정보를 인코딩하여, 특징 임베딩 정보를 추론하는 특징 인코더(230)를 더 포함할 수 있다.

다양한 실시예들에 따르면, 결합부(240)는, 화자 임베딩 정보와 특징 임베딩 정보를 결합하여, 임베딩 정보를 생성할 수 있다.

다양한 실시예들에 따르면, 결합부(240)는, 가중치 합, 곱셈 또는 신경망 중 적어도 어느 하나를 사용하여, 화자 임베딩 정보와 특징 임베딩 정보를 결합할 수 있다.

다양한 실시예들에 따르면, 전자 장치(100)는 화자 임베딩 정보와 특징 임베딩 정보 간 상과 관계가 제거되도록, 화자 음성 신호로부터 특징 정보에 대응하는 특징 요소를 제거하는 프로세서(140)를 더 포함할 수 있다.

다양한 실시예들에 따르면, 특징 정보는 감정, 성별 또는 연령 중 적어도 어느 하나를 포함할 수 있다.

다양한 실시예들에 따르면, 특징 인코더(230)는 특징 정보와 관련된 이산적 또는 연속적 특징 변수를 기반으로, 특징 임베딩 정보를 추론할 수 있다.

다양한 실시예들에 따르면, 화자 음성 신호는 가변적 길이를 갖고, 화자 임베딩 정보는 고정된 길이를 가질 수 있다.

다양한 실시예들에 따르면, 특징 정보는 가변적 길이를 갖고, 특징 임베딩 정보는 고정된 길이를 가질 수 있다.

도 3은 다양한 실시예들에 따른 전자 장치(100)의 동작 방법을 도시하는 도면이다.

도 3을 참조하면, 전자 장치(100)는 310 동작에서 텍스트를 인코딩할 수 있다. 이 때 프로세서(140)가 텍스트 인코더(210)를 통하여 텍스트를 인코딩할 수 있다. 이 때 텍스트는 입력 모듈(110)을 통해 입력될 수 있다. 일 예로, 텍스트는 입력 장치를 통해 사용자로부터 직접적으로 입력될 수 있다. 다른 예로, 텍스트는 통신 장치를 통해 외부 전자 장치로부터 수신될 수 있다. 또는 텍스트는 메모리(130)에 저장되어 있으며, 프로세서(140)가 메모리(130)로부터 텍스트를 읽어 올 수 있다.

전자 장치(100)는 320 동작에서 화자 임베딩 정보와 특징 임베딩 정보를 각각 추론할 수 있다. 메모리(130)에, 적어도 하나의 화자 음성 신호와 특징 정보와 관련된 적어도 하나의 제어 값이 저장되어 있을 수 있다. 여기서, 화자 음성 신호와 특징 정보와 관련된 제어 값은 가변적인 길이를 가질 수 있다. 메모리(130)의 화자 음성 신호는, 화자 음성 신호로부터 생성되는 화자 임베딩 정보의 분산이 최소가 되어야 하는 조건, 화자 음성 신호가 블록 단위로 분할되어 셔플(shuffle)을 통해 생성되는 화자 임베딩 정보가 동일한 값을 가져야 하는 조건 및 동일한 화자에 의한 복수 개의 화자 음성 신호들로부터 동일한 화자 임베딩 정보가 생성되어야 하는 조건을 충족할 수 있다. 프로세서(140)는 화자 음성 신호 중 어느 하나와 특징 정보와 관련된 제어 값 중 적어도 어느 하나를 선택할 수 있다. 프로세서(140)는 화자 인코더(220)를 통해 선택된 화자 음성 신호를 인코딩하여, 화자 임베딩 정보를 추론할 수 있다. 여기서, 화자 임베딩 정보는 고정된 길이를 가질 수 있다. 이 때 프로세서(140)는 화자 음성 신호에서 특징 정보에 대응하는 특징 요소를 제거한 다음, 화자 음성 신호를 인코딩할 수 있다. 이를 통해, 화자 음성 신호와 특징 정보 간 상관 관계가 제거될 수 있다. 화자 인코더(220)는 RNN, GRU, LSTM 또는 CNN 중 적어도 어느 하나의 기법을 사용하여, 화자 임베딩 정보를 추론할 수 있다. 프로세서(140)는 특징 인코더(230)를 통해 선택된 제어 값의 특징 정보를 인코딩하여, 특징 임베딩 정보를 추론할 수 있다. 여기서, 특징 임베딩 정보는 고정된 길이를 가질 수 있다. 특징 인코더(230)는 RNN, GRU, LSTM 또는 CNN 중 적어도 어느 하나의 기법을 사용하여, 특징 임베딩 정보를 추론할 수 있다.

전자 장치(100)는 330 동작에서 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론할 수 있다. 이 때 화자 음성 신호에서 제거된 특징 요소를 대신하여 특징 정보가 적용될 수 있다. 즉 전자 장치(100)는 화자 임베딩 정보와 특징 임베딩 정보로부터 임베딩 정보를 생성할 수 있다. 이를 위해, 프로세서(140)가 결합부(240)를 통해 화자 임베딩 정보와 특징 임베딩 정보를 결합하여, 임베딩 정보를 생성할 수 있다. 결합부(240)는 가중치 합, 곱셈 또는 신경망 중 적어도 어느 하나를 사용하여, 화자 임베딩 정보와 특징 임베딩 정보를 결합할 수 있다. 예를 들면, 신경망은 RNN, GRU, LSTM 또는 CNN 중 적어도 어느 하나를 포함할 수 있다.

전자 장치(100)는 340 동작에서 인코딩된 텍스트를 임베딩 정보와 함께 디코딩할 수 있다. 프로세서(140)는 디코더(250)를 통해 인코딩된 텍스트를 임베딩 정보와 함께 디코딩할 수 있다.

전자 장치(100)는 350 동작에서 디코딩된 텍스트에 대응하는 음성 신호를 발생시킬 수 있다. 프로세서(140)는 보코더(260)를 통해 음성 신호를 발생시킬 수 있다.

다양한 실시예들에 따른 전자 장치(100)의 동작 방법은 특징 제어 가능 음성 모사를 위한 것으로, 텍스트를 인코딩하는 동작, 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하는 동작, 및 인코딩된 텍스트를 추론된 임베딩 정보와 함께 디코딩하여, 음성 신호를 발생시키는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 임베딩 정보 추론 동작은, 화자 음성 신호를 인코딩하여, 화자 임베딩 정보를 추론하는 동작, 특징 정보를 인코딩하여, 특징 임베딩 정보를 추론하는 동작, 및 화자 임베딩 정보와 특징 임베딩 정보를 결합하여, 임베딩 정보를 생성하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 임베딩 정보 생성 동작은, 가중치 합, 곱셈 또는 신경망 중 적어도 어느 하나를 사용하여, 화자 임베딩 정보와 특징 임베딩 정보를 결합하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 화자 임베딩 정보 추론 동작은, 화자 임베딩 정보와 특징 임베딩 정보 간 상과 관계가 제거되도록, 화자 음성 신호로부터 특징 정보에 대응하는 특징 요소를 제거하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 특징 임베딩 정보 추론 동작은, 특징 정보와 관련된 이산적 또는 연속적 특징 변수를 기반으로, 특징 임베딩 정보를 추론하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 특징 정보는 가변적 길이를 갖고, 상기 특징 임베딩 정보는 고정된 길이를 가질 수 있다.

다양한 실시예들에 따르면, 전자 장치(100)는 텍스트를 다양한 음성으로 변환할 수 있다. 즉 전자 장치(100)는 화자 음성 신호를 선택적으로 이용하여, 다수의 화자들의 음성을 모사할 수 있다. 아울러, 전자 장치(100)는 화자 음성 신호의 특징을 선택적으로 제어하여, 화자들의 음성을 가변적으로 모사할 수 있다. 예를 들면, 전자 장치(100)는 한 화자의 음성을 다양한 감정으로 표현할 수 있다.

본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다.

본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(100))에 의해 읽을 수 있는 저장 매체(storage medium)(예: 메모리(130))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 기기의 프로세서(예: 프로세서(140))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체 는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.

다양한 실시예들에 따르면, 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 통합 이전에 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims

특징 제어 가능 음성 모사를 위한 전자 장치의 동작 방법에 있어서,
텍스트를 인코딩하는 동작;
화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하는 동작; 및
상기 인코딩된 텍스트를 상기 추론된 임베딩 정보와 함께 디코딩하여, 음성 신호를 발생시키는 동작을 포함하고,
상기 임베딩 정보 추론 동작은,
상기 화자 음성 신호를 인코딩하여, 화자 임베딩 정보를 추론하는 동작;
상기 특징 정보를 인코딩하여, 특징 임베딩 정보를 추론하는 동작; 및
상기 화자 임베딩 정보와 상기 특징 임베딩 정보를 결합하여, 상기 임베딩 정보를 생성하는 동작을 포함하고,
상기 화자 임베딩 정보 추론 동작은,
상기 화자 음성 신호로부터 상기 특징 정보에 대응하는 특징 요소를 제거하는 동작; 및
상기 특징 요소가 제거된 상기 화자 음성 신호를 인코딩하는 동작을 포함하고,
상기 특징 정보는 감정, 성별 및 연령을 포함하는 방법.
삭제
제 1 항에 있어서, 상기 임베딩 정보 생성 동작은,
가중치 합, 곱셈 또는 신경망 중 적어도 어느 하나를 사용하여, 상기 화자 임베딩 정보와 상기 특징 임베딩 정보를 결합하는 동작을 포함하는 방법.
삭제
삭제
제 1 항에 있어서, 상기 특징 임베딩 정보 추론 동작은,
상기 특징 정보와 관련된 이산적 또는 연속적 특징 변수를 기반으로, 상기 특징 임베딩 정보를 추론하는 동작을 포함하는 방법.
제 1 항에 있어서,
상기 화자 음성 신호와 상기 특징 정보는 각각 가변적 길이를 갖고,
상기 화자 임베딩 정보와 상기 특징 임베딩 정보는 각각 고정된 길이를 갖는 방법.
특징 제어 가능 음성 모사를 위한 전자 장치에 있어서,
텍스트를 인코딩하는 텍스트 인코더;
화자 음성 신호를 인코딩하여, 화자 임베딩 정보를 추론하는 화자 인코더;
특징 정보를 인코딩하여, 특징 임베딩 정보를 추론하는 특징 인코더;
상기 화자 임베딩 정보와 상기 특징 임베딩 정보를 결합하여, 임베딩 정보를 생성하는 결합부;
상기 인코딩된 텍스트를 상기 추론된 임베딩 정보와 함께 디코딩하는 디코더;
상기 디코딩된 텍스트에 대응하는 음성 신호를 발생시키는 보코더를 포함하고,
상기 화자 음성 신호로부터 상기 특징 정보에 대응하는 특징 요소를 제거하는 프로세서를 더 포함하고,
상기 화지 인코더는,
상기 특징 요소가 제거된 상기 화자 음성 신호를 인코딩하고,
상기 특징 정보는 감정, 성별 및 연령을 포함하는 전자 장치.
삭제
삭제
제 8 항에 있어서, 상기 결합부는,
가중치 합, 곱셈 또는 신경망 중 적어도 어느 하나를 사용하여, 상기 화자 임베딩 정보와 상기 특징 임베딩 정보를 결합하는 전자 장치.
삭제
삭제
제 8 항에 있어서, 상기 특징 인코더는,
상기 특징 정보와 관련된 이산적 또는 연속적 특징 변수를 기반으로, 상기 특징 임베딩 정보를 추론하는 전자 장치.
제 8 항에 있어서,
상기 화자 음성 신호와 상기 특징 정보는 각각 가변적 길이를 갖고,
상기 화자 임베딩 정보와 상기 특징 임베딩 정보는 각각 고정된 길이를 갖는 전자 장치.