KR20210136598A

KR20210136598A - 다언어 다화자 개성 표현 음성 합성을 위한 전자 장치 및 그의 동작 방법

Info

Publication number: KR20210136598A
Application number: KR1020200055061A
Authority: KR
Inventors: 김회린; 서영주; 최연주; 정성희
Original assignee: 한국과학기술원
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2021-11-17
Also published as: JP2021177228A

Abstract

다양한 실시예들에 따른 전자 장치 및 그의 동작 방법은, 텍스트, 화자 정보 및 스타일 정보를 각각 결정하고, 화자 정보 및 스타일 정보를 기반으로, 텍스트로부터 오디오 신호를 합성하도록 구성될 수 있다.

Description

다언어 다화자 개성 표현 음성 합성을 위한 전자 장치 및 그의 동작 방법{ELECTRONIC DEVICE FOR MULTI-LANGUAGE MULTI-SPEAKER PERSONALITY EXPRESSION TEXT-TO-SPEECH AND OPERATION METHOD THEREOF}

다양한 실시예들은 다언어 다화자 개성 표현 음성 합성을 위한 전자 장치 및 그의 동작 방법에 관한 것이다.

현재 음성 합성기의 기술 수준은 다언어 지원에 대해서는 아직 도입 시기이다. 아직까지는 언어마다, 해당 언어에 능숙한 1명 화자의 데이터베이스(database; DB)로 음성 합성기를 구현하는 것이 시장의 수준이다. 하지만, 이런 특성은 자원으로서의 말뭉치(corpus) 자체가 부족한(resource-deficient) 언어에 대한 음성 합성기의 개발을 어렵게 만든다. 이로 인해, 훈련 데이터에 사용된 화자의 목소리로 훈련 데이터에 사용된 언어만을 말할 수 있다. 따라서, 여러 언어를 말하는 여러 화자의 말뭉치를 사용해 하나의 통합된 음성 합성기를 만들어 유지 보수 비용을 줄이며, 언어 교육 시장 측면에서 또한, 훈련에 사용된 화자가 훈련 데이터에서 말한 것과 다른 여러 언어를 합성하게 하고자 하는 수요가 늘고 있다.

다양한 실시예들은, 다언어 다화자 개성 표현 음성 합성을 위한 전자 장치 및 그의 동작 방법을 제공한다.

다양한 실시예들에 따른 전자 장치의 동작 방법은, 텍스트, 화자 정보 및 스타일 정보를 각각 결정하는 동작, 및 상기 화자 정보 및 상기 스타일 정보를 기반으로, 상기 텍스트로부터 오디오 신호를 합성하는 동작을 포함할 수 있다.

다양한 실시예들에 따른 전자 장치는, 메모리, 및 상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서를 포함하고, 상기 프로세서는, 텍스트, 화자 정보 및 스타일 정보를 각각 결정하고, 상기 화자 정보 및 상기 스타일 정보를 기반으로, 상기 텍스트로부터 오디오 신호를 합성하도록 구성될 수 있다.

다양한 실시예들에 따르면, 전자 장치는 텍스트의 언어와 관계 없이, 화자 정보와 스타일 정보를 결정할 수 있다. 그리고, 전자 장치는 화자 정보와 스타일 정보를 기반으로, 텍스트로부터 오디오 신호를 생성할 수 있다. 이를 통해, 전자 장치는 다양한 언어들에 대해, 다양한 화자들에 대한 개성을 표현할 수 있다. 이 때 전자 장치는 화자 정보와 스타일 정보를 계속해서 학습함으로써, 보다 많은 수의 화자들에 대한 개성을 표현할 수 있다.

도 1은 다양한 실시예들에 따른 전자 장치를 도시하는 도면이다.
도 2a 및 도 2b는 도 1의 프로세서를 도시하는 도면이다.
도 3은 도 2b의 오디오 변환 모듈을 도시하는 도면이다.
도 4는 다양한 실시예들에 따른 전자 장치의 동작 방법을 도시하는 도면이다.

이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.

훈련에 사용된 화자가 훈련 데이터에서 말한 것과 다른 여러 언어를 합성하게 하고자 하는 수요를 충족시키기 위해서는 언어 정보와 화자 정보를 분리해 내야 한다. 또한 언어를 능숙하게 말하기 위해서는 언어의 내용 뿐만 아니라 스타일, 즉 운율(말의 높낮이, 강세, 빠르기)도 중요하므로 이 운율 정보 또한 분리되어 컨트롤 할 수 있어야 한다. 정리하면 음성 합성기에서 필요한 언어적 내용, 화자 정보, 운율 정보가 각각 분리되어 컨트롤되어야 한다. 이를 위해, 다양한 실시예들에서는, 'DANN(domain adversarial neural network)' 방법을 사용해 언어 정보(어느나라 언어인지)에 바이어스(bias) 없이 화자 정보와 스타일 정보가 학습되도록 한다. 따라서 훈련 데이터에 영어 화자 A가 말했어도 합성 데이터에서는 한국어 화자 B가 영어를 말할 수 있으며 그 스타일 또한 영어의 운율을 잘 살려 말할 수 있다.

다양한 실시예들에서는, '다언어 특징 벡터'를 제안한다. 다언어 특징 벡터의 목적은, 언어마다, 또는 같은 언어 안에서도 데이터베이스마다 문자 또는 음소 심볼의 집합이 다르게 정의되어 있는데, 이를 보편적 임베딩 공간에 통일적으로 표현하기 위한 것이 목적이다. 음성 합성기는 문자소(grapheme)/음소(phomene)에서 언어 특징 벡터로의 변환을 학습하는 인코더 단과 언어 특징 벡터에서 소리 특성 벡터로의 변환을 학습하는 디코더로 나뉜다. 다언어 특징 벡터를 사용하면, 하나의 인코더, 디코더만 사용해 여러 개의 언어를 변환할 수 있다. 이렇게 되면 훈련과 사용이 효율적일 뿐 아니라, 훈련 데이터가 부족한 언어가 있다 하더라도 디코더는 데이터가 풍부한 언어를 사용해 충분히 보편적 음소 임베딩 공간에서 소리 특성 벡터로의 학습을 하기 때문에, 훈련 데이터가 부족한 언어로 이 언어만의 디코더를 새로 만드느라 애쓸 필요 없이 잘 훈련된 디코더를 활용해 쉽게 말소리로 변환할 수 있다.

다양한 실시예들에서는, 다언어 특징 벡터 내부에 마스킹 벡터(masking vector)를 사용해, 훈련에 사용된 각 데이터에 해당되는 음소 집합을 인코더 학습과 추론에 사용한다. 마스킹 벡터의 역할은 멀티태스크 학습(multi-task learning)에서 출력층(output layer)을 태스크 별로 여러 개 두는 것과 동일한 목적을 추구한다. 그러나, 출력층이 언어의 갯수만큼 존재할 때보다 입력에 마스킹 벡터를 사용하는 것이 더 파라미터의 숫자를 줄일 수 있어, 네트워크를 파라미터를 줄이며 네트워크를 경량화할 수 있다.

다양한 실시예들에서는, 합성기의 텍스트에 해당하는 것이 문자소와 음소로 나뉘는데 '문자소'는 저렴하게 얻을 수 있지만 '음소'를 얻기 위해서는 G2P 등의 기술을 사용하거나 사람이 이를 전사해야 한다. 하지만, '다언어 특징 벡터'는 음소와 문자소가 구분 없이 하나의 언어 임베딩 공간에 표현되기 때문에 문자 표현이 음소 입력에 비해 갖는, 합성음의 발음이 덜 명확한 단점을 해결할 수 있다.

기존에 다언어 음성 합성을 하려는 접근들은 IPA(International Phonetic Alphabet)로 다언어 DB에서 사용하는 음소 심볼을 통일했어야 하는데, 다양한 실시예들에서는, 각 언어별로 자연스럽게 사용하는 문자소/음소 심볼을 입력으로 사용할 수 있어서 음소 통일을 위한 노력이 필요 없다.

도 1은 다양한 실시예들에 따른 전자 장치(100)를 도시하는 도면이다.

도 1을 참조하면, 다양한 실시예들에 따른 전자 장치(100)는 입력 모듈(110), 출력 모듈(120), 메모리(130) 또는 프로세서(140) 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 전자 장치(100)의 구성 요소들 중 적어도 어느 하나가 생략될 수 있으며, 적어도 하나의 다른 구성 요소가 추가될 수 있다. 어떤 실시예에서, 전자 장치(100)의 구성 요소들 중 적어도 어느 두 개가 하나의 통합된 회로로 구현될 수 있다. 예를 들면, 전자 장치(100)는 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, 또는 로봇(robot) 중 적어도 어느 하나를 포함할 수 있다.

입력 모듈(110)은 전자 장치(100)의 적어도 하나의 구성 요소에 사용될 신호를 입력할 수 있다. 입력 모듈(110)은, 사용자가 전자 장치(100)에 직접적으로 신호를 입력하도록 구성되는 입력 장치 또는 외부 기기로부터 신호를 수신하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse) 또는 키보드(keyboard) 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 센서 장치는 터치를 감지하도록 설정된 터치 회로(touch circuitry) 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 어느 하나를 포함할 수 있다. 통신 장치는 외부 기기에 유선으로 연결되어, 외부 기기로부터 유선으로 신호를 수신하기 위한 유선 통신 장치 또는 외부 기기에 무선으로 연결되어, 외부 기기로부터 무선으로 신호를 수신하기 위한 무선 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 무선 통신 장치는 근거리 통신 방식 또는 원거리 통신 방식 중 적어도 어느 하나를 기반으로, 외부 기기와 연결될 수 있다.

출력 모듈(120)은 전자 장치(100)의 신호를 출력할 수 있다. 출력 모듈(120)은 신호를 시각적으로 표시하도록 구성되는 표시 장치, 신호를 소리로 출력하도록 구성되는 오디오 장치, 또는 외부 기기로 신호를 송신하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 표시 장치는 디스플레이, 홀로그램 장치 또는 프로젝터 중 적어도 어느 하나를 포함할 수 있다. 일 예로, 표시 장치는 입력 장치의 터치 회로 또는 센서 회로 중 적어도 어느 하나와 조립되어, 터치 스크린으로 구현될 수 있다. 오디오 장치는 스피커(speaker) 또는 리시버(receiver) 중 적어도 어느 하나를 포함할 수 있다. 통신 장치는 외부 기기에 유선으로 연결되어, 외부 기기에 유선으로 신호를 송신하기 위한 유선 통신 장치 또는 외부 기기에 무선으로 연결되어, 외부 기기에 무선으로 신호를 송신하기 위한 무선 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 무선 통신 장치는 근거리 통신 방식 또는 원거리 통신 방식 중 적어도 어느 하나를 기반으로, 외부 기기와 연결될 수 있다.

메모리(130)는 전자 장치(100)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(130)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다. 데이터는 적어도 하나의 프로그램 및 이와 관련된 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(130)에 적어도 하나의 명령을 포함하는 소프트웨어로서 저장될 수 있으며, 예컨대 운영 체제, 미들 웨어 또는 어플리케이션 중 적어도 어느 하나를 포함할 수 있다.

프로세서(140)는 메모리(130)의 프로그램을 실행하여, 전자 장치(100)의 적어도 하나의 구성 요소를 제어할 수 있다. 이를 통해, 프로세서(140)는 데이터 처리 또는 연산을 수행할 수 있다. 이 때 프로세서(140)는 메모리(130)에 저장된 명령을 실행할 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는 화자 정보와 스타일 정보를 기반으로, 텍스트로부터 오디오 신호를 합성할 수 있다. 일 예로, 프로세서(140)는 입력 모듈(110)을 통해 입력되는 텍스트를 검출할 수 있다. 다른 예로, 프로세서(140)는 메모리(130)에 저장된 텍스트를 검출할 수 있다. 여기서, 프로세서(140)는 텍스트의 언어와 관계 없이, 화자 정보와 스타일 정보를 결정할 수 있다. 예를 들면, 화자 정보는 오디오 신호의 음색을 나타내고, 스타일 정보는 오디오 신호의 고저, 장단 또는 강약 중 적어도 어느 하나를 포함할 수 있다. 이에 따라, 프로세서(140)는 텍스트에 화자 정보와 스타일 정보를 결합하여, 오디오 신호를 생성할 수 있다. 일 예로, 프로세서(140)는 출력 모듈(120)을 통해 오디오 신호를 출력할 수 있다. 다른 예로, 프로세서(140)는 메모리(130)에 오디오 신호를 저장할 수 있다. 그리고, 프로세서(140)는 텍스트와 관련된 언어 정보, 화자 정보 및 스타일 정보를 상호로부터 분리시켜 학습할 수 있다.

도 2a 및 도 2b는 도 1의 프로세서(140)를 도시하는 도면이다. 이 때 도 2a는 프로세서(140) 내에서 오디오 신호의 학습 절차에 대한 신호 흐름을 나타내고, 도 2b는 프로세서(140) 내에서 오디오 신호의 합성 절차에 대한 신호 흐름을 나타내고 있다. 도 3은 도 2b의 오디오 변환 모듈(240)을 도시하는 도면이다.

도 2a 및 도 2b를 참조하면, 프로세서(140)는 텍스트 모듈(210), 스피커(speaker) 모듈(220), 스타일(style) 모듈(230), 오디오 변환 모듈(240) 또는 오디오 합성 모듈(250), 학습 분리 모듈(260) 또는 언어 분류 모듈(270) 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 프로세서(140)의 구성 요소들 중 적어도 어느 하나가 생략될 수 있으며, 적어도 하나의 다른 구성 요소가 추가될 수 있다. 어떤 실시예에서, 프로세서(140)의 구성 요소들 중 적어도 어느 두 개가 하나의 통합된 회로로 구현될 수 있다.

텍스트 모듈(210)은 텍스트에 대한 언어 특징 벡터(

)를 생성할 수 있다. 이 때 텍스트 모듈(210)은 다언어 특징 벡터(

)로부터 언어 특징 벡터(

)를 생성할 수 있다. 다언어 특징 벡터(

)는 언어와 관계 없이, 각 언어에 속하는 적어도 하나의 문자(character)에 대한 심볼의 집합을 하나의 임베딩 공간에 표현하기 위한 것일 수 있다. 여기서, 문자는 문자소(grapheme) 또는 음소(phomene) 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 다언어 특징 벡터(

)는, 하기 [수학식 1]과 같이 마스킹 벡터로 구현될 수 있다. 즉 텍스트 모듈(210)은 다언어 특징 벡터(

)를 기반으로, 텍스트를 구성하는 적어도 하나의 문자에 대해 언어 특징 벡터(

)를 생성할 수 있다. 여기서, 텍스트 모듈(210)은 텍스트 인코더(text encoder)를 포함하며, 하기 [수학식 3]과 같이 다언어 특징 벡터(

)로부터 언어 특징 벡터(

)를 생성할 수 있다. 그리고, 텍스트 모듈(210)은, 도 2a에 도시된 바와 같이 언어 특징 벡터(

)를 오디오 변환 모듈(240)에 제공할 수 있다.

스피커 모듈(220)은 화자 정보에 대한 화자 특징 벡터(

)를 생성할 수 있다. 일 예로, 스피커 모듈(220)은 화자 정보(

)를 화자 특징 벡터(

)로 변환할 수 있다. 여기서, 스피커 모듈(220)은 스피커 인코더(speaker encoder)를 포함하며, 하기 [수학식 2]과 같이 화자 정보(

)를 화자 특징 벡터(

)로 변환할 수 있다. 그리고, 스피커 모듈(220)은, 도 2a에 도시된 바와 같이 화자 특징 벡터(

)를 오디오 변환 모듈(240)에 제공할 수 있다.

스타일 모듈(230)은 스타일 정보에 대한 스타일 특징 벡터(

)를 생성할 수 있다. 일 예로, 스타일 모듈(230)은 스타일 정보를 나타내는 멜-스펙트로그램(

)을 스타일 특징 벡터(

)로 변환할 수 있다. 여기서, 스타일 모듈(230)은 스타일 인코더(style encoder)를 포함하며, 하기 [수학식 2]와 같이 멜-스펙트로그램(

)을 화자 특징 벡터(

)로 변환할 수 있다. 그리고, 스타일 모듈(230)은, 도 2a에 도시된 바와 같이 스타일 특징 벡터(

)를 오디오 변환 모듈(240)에 제공할 수 있다.

오디오 변환 모듈(240)은 텍스트에 대한 오디오 특징 벡터(

)를 생성할 수 있다. 이 때 오디오 변환 모듈(240)은 언어 특징 벡터(

), 화자 특징 벡터(

) 및 스타일 특징 벡터(

)를 결합하여, 오디오 특징 벡터(

)를 생성할 수 있다. 그리고, 오디오 변환 모듈(240)은 오디오 특징 벡터(

)를 오디오 합성 모듈(250)에 제공할 수 있다.

일 실시예에 따르면, 오디오 변환 모듈(240)은, 도 3에 도시된 바와 같이 결합(concatenation) 모듈(310), 어텐션(attention) 모듈(320) 또는 디코더(decoder)(330) 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 오디오 변환 모듈(240)의 구성 요소들 중 적어도 어느 하나가 생략될 수 있으며, 적어도 하나의 다른 구성 요소가 추가될 수 있다. 어떤 실시예에서, 오디오 변환 모듈(240)의 구성 요소들 중 적어도 어느 두 개가 하나의 통합된 회로로 구현될 수 있다.

결합 모듈(310)은 언어 특징 벡터(

), 화자 특징 벡터(

) 및 스타일 특징 벡터(

)를 결합할 수 있다. 이 때 결합 모듈(210)은 텍스트 모듈(210), 스피커 모듈(220) 및 스타일 모듈(230)로부터 언어 특징 벡터(

), 화자 특징 벡터(

) 및 스타일 특징 벡터(

)를 각각 수신하고, 언어 특징 벡터(

), 화자 특징 벡터(

) 및 스타일 특징 벡터(

)를 결합할 수 있다. 이를 통해, 결합 모듈(310)은, 하기 [수학식 3]과 같이 결합 특징 벡터(

)를 생성할 수 있다.

어텐션 모듈(320)은 언어 특징 벡터(

), 화자 특징 벡터(

) 및 스타일 특징 벡터(

)를 동기화할 수 있다. 이 때 어텐션 모듈(320)은 언어 특징 벡터(

), 화자 특징 벡터(

) 및 스타일 특징 벡터(

)를 디코더(330)에서 생성될 프레임에 각각 대응시킬 수 있다.

여기서,

는 시간 t에서의 컨텍스트 벡터(context vector)를 나타내고,

는 시간 (t-1)에서의 디코더(330) RNN(recurrent neural network)의 히든 상태(hidden state)를 나타내고,

는 시간 t에서의 디코더(330) RNN의 히든 상태를 나타내고,

는 시간 t에서의 멜-스펙트로그램을 나타낼 수 있다.

디코더(330)는 오디오 특징 벡터(

)를 생성할 수 있다. 이 때 디코더(330)는 결합 특징 벡터(

)를 기반으로, 오디오 특징 벡터(

)를 생성할 수 있다. 여기서, 디코더(330)는 화자 특징 벡터(

) 및 스타일 특징 벡터(

)를 이용하여, 언어 특징 벡터(

)를 오디오 특징 벡터(

)로 변환할 수 있다.

오디오 합성 모듈(250)은 오디오 특징 벡터(

)로부터 오디오 신호를 합성할 수 있다. 이를 통해, 화자 정보 및 스타일 정보를 기반으로, 텍스트로부터 오디오 신호가 합성될 수 있다. 예를 들면, 오디오 합성 모듈(250)은 보코더(vocoder)를 포함할 수 있다.

텍스트 모듈(210)은 언어 정보를 학습할 수 있다. 이 때 텍스트 모듈(210)은 언어 분류 모듈(270)로부터 언어 정보를 수신하고, 언어 정보를 학습할 수 있다. 이를 통해, 텍스트 모듈(210)은 언어 정보를 기반으로, 다언어 특징 벡터(

)를 업데이트할 수 있다.

스피커 모듈(220)은 화자 정보를 학습할 수 있다. 이 때 스피커 모듈(220)은 학습 분리 모듈(260)로부터 화자 정보를 수신하고, 화자 정보를 학습할 수 있다.

스타일 모듈(230)은 스타일 정보를 학습할 수 있다. 이 때 스타일 모듈(230)은 학습 분리 모듈(260)로부터 스타일 정보를 수신하고, 스타일 정보를 학습할 수 있다. 일 예로, 스타일 정보는 멜-스펙트로그램으로 표현될 수 있다.

학습 분리 모듈(260)은 화자 정보 및 스타일 정보를 텍스트와 관련된 언어 정보로부터 분리시켜, 스피커 모듈(220)과 스타일모듈(230)에서 각각 학습되도록 할 수 있다. 여기서, 화자 정보는 오디오 신호의 음색을 나타내고, 스타일 정보는 오디오 신호의 고저, 장단 또는 강약 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 학습 분리 모듈(260)은 그라디언트 리버설 레이어(gradient reversal layer; GRL)를 포함할 수 있다. 그리고, 학습 분리 모듈(260)은, 도 2b에 도시된 바와 같이 화자 정보를 스피커 모듈(220)에 제공하고, 스타일 정보를 스타일 모듈(230)에 제공할 수 있다.

언어 분류 모듈(270)은 텍스트와 관련된 언어 정보를 텍스트 모듈(210)에서 학습되도록 할 수 있다. 여기서, 언어 정보는 오디오 신호를 통해 전달하고자 하는 의미를 갖는 내용을 나타낼 수 있다. 예를 들면, 언어 정보는 텍스트, 화자 정보 및 스타일 정보를 기반으로 검출될 수 있다. 여기서, 언어 분류 모듈(270)의 동작은, 학습 분리 모듈(260)의 동작과 연관되어, 하기 [수학식 5]와 같이 표현될 수 있다. 그리고, 언어 분류 모듈(270)은, 도 2b에 도시된 바와 같이 언어 정보를 텍스트 모듈(210)에 제공할 수 있다.

다양한 실시예들에 따른 전자 장치(100)는, 메모리(130), 및 메모리(130)와 연결되고, 메모리(130)에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서(140)를 포함할 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 텍스트, 화자 정보 및 스타일 정보를 각각 결정하고, 화자 정보 및 스타일 정보를 기반으로, 텍스트로부터 오디오 신호를 합성할 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 화자 정보를 학습하도록 구성되는 스피커 모듈(220), 및 스타일 정보를 학습하도록 구성되는 스타일 모듈(230)을 포함할 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 텍스트에 대한 언어 특징 벡터(

), 화자 정보에 대한 화자 특징 벡터(

) 및 스타일 정보에 대한 스타일 특징 벡터(

)를 생성하고, 언어 특징 벡터(

), 화자 특징 벡터(

) 및 스타일 특징 벡터(

)를 결합하여, 오디오 특징 벡터(

)를 생성하고, 오디오 특징 벡터(

)로부터 오디오 신호를 합성하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 언어 특징 벡터(

)를 생성하도록 구성되는 텍스트 모듈(210), 화자 특징 벡터(

)를 생성하도록 구성되는 스피커 모듈(220), 스타일 특징 벡터(

)를 생성하도록 구성되는 스타일 모듈(230), 및 오디오 특징 벡터(

)를 생성하도록 구성되는 디코더(330)를 포함할 수 있다.

다양한 실시예들에 따르면, 텍스트 모듈(210), 스피커 모듈(220) 또는 스타일 모듈(230) 중 적어도 어느 하나는, 인코더를 포함할 수 있다.

다양한 실시예들에 따르면, 언어 특징 벡터(

)는 텍스트의 언어와 관계 없이, 텍스트와 관련되는 적어도 하나의 문자에 대한 심볼의 집합을 하나의 임베딩 공간에 표현하기 위한 다언어 특징 벡터(

)로부터 생성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 하나의 임베딩 공간의 심볼의 집합으로부터 오디오 신호를 합성하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 텍스트와 관련된 언어 정보를 학습하도록 구성되는 언어 분류 모듈(270)을 더 포함할 수 있다.

다양한 실시예들에 따르면, 프로세서(140)는, 화자 정보와 스타일 정보가 스피커 모듈(220)과 스타일 모듈(230)에서 각각 학습되도록 하기 위해, 언어 정보로부터 분리시키도록 구성되는 학습 분리 모듈(260)을 더 포함할 수 있다.

다양한 실시예들에 따르면, 학습 분리 모듈(220)은, 그라디언트 리버설 레이어(GRL)를 포함할 수 있다.

다양한 실시예들에 따르면, 화자 정보는 오디오 신호의 음색을 나타내고, 스타일 정보는 오디오 신호의 고저, 장단 또는 강약 중 적어도 어느 하나를 포함할 수 있다.

도 4는 다양한 실시예들에 따른 전자 장치(100)의 동작 방법을 도시하는 도면이다.

도 4를 참조하면, 전자 장치(100)는 410 동작에서 텍스트, 화자 정보 및 스타일 정보를 결정할 수 있다. 일 예로, 프로세서(140)는 입력 모듈(110)을 통해 입력되는 텍스트를 검출할 수 있다. 다른 예로, 프로세서(140)는 메모리(130)에 저장된 텍스트를 검출할 수 있다. 여기서, 프로세서(140)는 텍스트의 언어와 관계 없이, 화자 정보와 스타일 정보를 결정할 수 있다. 예를 들면, 화자 정보는 오디오 신호의 음색을 나타내고, 스타일 정보는 오디오 신호의 고저, 장단 또는 강약 중 적어도 어느 하나를 포함할 수 있다.

전자 장치(100)는 420 동작에서 화자 정보 및 스타일 정보를 기반으로, 텍스트로부터 오디오 신호를 합성할 수 있다. 프로세서(140)는 텍스트에 화자 정보와 스타일 정보를 결합하여, 오디오 신호를 생성할 수 있다. 텍스트 모듈(210)은 다언어 특징 벡터(

)를 생성할 수 있다. 스피커 모듈(220)은 화자 정보에 대한 화자 특징 벡터(

)를 생성할 수 있다. 스타일 모듈(230)은 스타일 정보에 대한 스타일 특징 벡터(

)를 생성할 수 있다. 그리고, 오디오 변환 모듈(240)은 언어 특징 벡터(

), 화자 특징 벡터(

) 및 스타일 특징 벡터(

)를 결합하여, 오디오 특징 벡터(

)를 생성할 수 있다. 오디오 합성 모듈(250)은 오디오 특징 벡터(

)로부터 오디오 신호를 합성할 수 있다. 이를 통해, 화자 정보 및 스타일 정보를 기반으로, 텍스트로부터 오디오 신호가 합성될 수 있다. 일 예로, 프로세서(140)는 출력 모듈(120)을 통해 오디오 신호를 출력할 수 있다. 다른 예로, 프로세서(140)는 메모리(130)에 오디오 신호를 저장할 수 있다.

전자 장치(100)는 430 동작에서 텍스트와 관련된 언어 정보, 화자 정보 및 스타일 정보를 각각 학습할 수 있다. 프로세서(140)는 언어 정보, 화자 정보 및 스타일 정보를 상호로부터 분리시켜 학습할 수 있다. 텍스트 모듈(210)은 언어 정보를 학습할 수 있다. 여기서, 언어 정보는 오디오 신호를 통해 전달하고자 하는 의미를 갖는 내용을 나타낼 수 있다. 예를 들면, 언어 정보는 텍스트, 화자 정보 및 스타일 정보를 기반으로 검출될 수 있다. 이를 통해, 텍스트 모듈(210)은 언어 정보를 기반으로, 다언어 특징 벡터(

)를 업데이트할 수 있다. 다언어 특징 벡터(

)는 언어와 관계 없이, 각 언어에 속하는 적어도 하나의 문자에 대한 심볼의 집합을 하나의 임베딩 공간에 표현하기 위한 것일 수 있다. 스피커 모듈(220)은 화자 정보를 학습할 수 있다. 스타일 모듈(230)은 스타일 정보를 학습할 수 있다.

다양한 실시예들에 따른 전자 장치(100)의 동작 방법은, 텍스트, 화자 정보 및 스타일 정보를 각각 결정하는 동작, 및 화자 정보 및 스타일 정보를 기반으로, 텍스트로부터 오디오 신호를 합성하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 상기 오디오 신호를 합성하는 동작은, 텍스트에 대한 언어 특징 벡터(

), 화자 정보에 대한 화자 특징 벡터(

) 및 스타일 정보에 대한 스타일 특징 벡터(

)를 생성하는 동작, 언어 특징 벡터(

), 화자 특징 벡터(

) 및 스타일 특징 벡터(

)를 결합하여, 오디오 특징 벡터(

)를 생성하는 동작, 및 오디오 특징 벡터(

)로부터 오디오 신호를 합성하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 언어 특징 벡터(

)로부터 생성될 수 있다.

다양한 실시예들에 따르면, 상기 오디오 신호를 합성하는 동작은, 임베딩 공간의 심볼의 집합을 기반으로, 오디오 신호를 합성할 수 있다.

다양한 실시예들에 따르면, 전자 장치(100)의 동작 방법은, 텍스트와 관련된 언어 정보, 화자 정보 및 스타일 정보를 상호로부터 분리시켜 학습하는 동작을 더 포함할 수 있다.

본 문서의 다양한 실시예들은 컴퓨터 장치(예: 전자 장치(100))에 의해 읽을 수 있는 기록 매체(storage medium)(예: 메모리(170))에 저장된 하나 이상의 명령들을 포함하는 컴퓨터 프로그램으로서 구현될 수 있다. 예를 들면, 컴퓨터 장치의 프로세서(예: 프로세서(180))는, 기록 매체로부터 저장된 하나 이상의 명령들 중 적어도 하나를 호출하고, 그것을 실행할 수 있다. 이것은 컴퓨터 장치가 호출된 적어도 하나의 명령에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 하나 이상의 명령들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 컴퓨터 장치로 읽을 수 있는 기록 매체는, 비일시적(non-transitory) 기록 매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 기록 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 기록 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.

다양한 실시예들에 따른 컴퓨터 프로그램은, 텍스트, 화자 정보 및 스타일 정보를 각각 결정하는 동작, 및 화자 정보 및 스타일 정보를 기반으로, 텍스트로부터 오디오 신호를 합성하는 동작을 실행할 수 있다.

다양한 실시예들에 따르면, 전자 장치(100)는 텍스트의 언어와 관계 없이, 화자 정보와 스타일 정보를 결정할 수 있다. 그리고, 전자 장치(100)는 화자 정보와 스타일 정보를 기반으로, 텍스트로부터 오디오 신호를 생성할 수 있다. 이를 통해, 전자 장치(100)는 다양한 언어들에 대해, 다양한 화자들에 대한 개성을 표현할 수 있다. 이 때 전자 장치(100)는 화자 정보와 스타일 정보를 계속해서 학습함으로써, 보다 많은 수의 화자들에 대한 개성을 표현할 수 있다.

본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성 요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성 요소를 다른 구성 요소와 구분하기 위해 사용될 뿐 해당 구성 요소들을 한정하지 않는다. 어떤(예: 제 1) 구성 요소가 다른(예: 제 2) 구성 요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소가 상기 다른 구성 요소에 직접적으로 연결되거나, 다른 구성 요소(예: 제 3 구성 요소)를 통하여 연결될 수 있다.

본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

다양한 실시예들에 따르면, 기술한 구성 요소들의 각각의 구성 요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성 요소들 중 하나 이상의 구성 요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성 요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성 요소들(예: 모듈 또는 프로그램)은 하나의 구성 요소로 통합될 수 있다. 이런 경우, 통합된 구성 요소는 복수의 구성 요소들 각각의 구성 요소의 하나 이상의 기능들을 통합 이전에 복수의 구성 요소들 중 해당 구성 요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims

전자 장치의 동작 방법에 있어서,
텍스트, 화자 정보 및 스타일 정보를 각각 결정하는 동작; 및
상기 화자 정보 및 상기 스타일 정보를 기반으로, 상기 텍스트로부터 오디오 신호를 합성하는 동작을 포함하는 방법.
제 1 항에 있어서, 상기 오디오 신호를 합성하는 동작은,
상기 텍스트에 대한 언어 특징 벡터, 상기 화자 정보에 대한 화자 특징 벡터 및 상기 스타일 정보에 대한 스타일 특징 벡터를 생성하는 동작;
상기 언어 특징 벡터, 상기 화자 특징 벡터 및 상기 스타일 특징 벡터를 결합하여, 오디오 특징 벡터를 생성하는 동작; 및
상기 오디오 특징 벡터로부터 오디오 신호를 합성하는 동작을 포함하는 방법.
제 2 항에 있어서,
상기 언어 특징 벡터는 상기 텍스트의 언어와 관계 없이, 상기 텍스트와 관련되는 적어도 하나의 문자에 대한 심볼의 집합을 하나의 임베딩 공간에 표현하기 위한 다언어 특징 벡터로부터 생성되며,
상기 오디오 신호를 합성하는 동작은,
상기 임베딩 공간의 상기 심볼의 집합을 기반으로, 오디오 신호를 합성하는 방법.
제 2 항에 있어서,
상기 텍스트와 관련된 언어 정보, 상기 화자 정보 및 상기 스타일 정보를 상호로부터 분리시켜 학습하는 동작을 더 포함하는 방법.
제 1 항에 있어서,
상기 화자 정보는 상기 오디오 신호의 음색을 나타내고,
상기 스타일 정보는 상기 오디오 신호의 고저, 장단 또는 강약 중 적어도 어느 하나를 포함하는 방법.
전자 장치에 있어서,
메모리; 및
상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서를 포함하고,
상기 프로세서는,
텍스트, 화자 정보 및 스타일 정보를 각각 결정하고,
상기 화자 정보 및 상기 스타일 정보를 기반으로, 상기 텍스트로부터 오디오 신호를 합성하도록 구성되는 장치.
제 6 항에 있어서, 상기 프로세서는,
상기 화자 정보를 학습하도록 구성되는 스피커 모듈; 및
상기 스타일 정보를 학습하도록 구성되는 스타일 모듈을 포함하는 장치.
제 6 항에 있어서, 상기 프로세서는,
상기 텍스트에 대한 언어 특징 벡터, 상기 화자 정보에 대한 화자 특징 벡터 및 상기 스타일 정보에 대한 스타일 특징 벡터를 생성하고,
상기 언어 특징 벡터, 상기 화자 특징 벡터 및 상기 스타일 특징 벡터를 결합하여, 오디오 특징 벡터를 생성하고,
상기 오디오 특징 벡터로부터 오디오 신호를 합성하도록 구성되는 장치.
제 8 항에 있어서, 상기 프로세서는,
상기 언어 특징 벡터를 생성하도록 구성되는 텍스트 모듈;
상기 화자 특징 벡터를 생성하도록 구성되는 스피커 모듈;
상기 스타일 특징 벡터를 생성하도록 구성되는 스타일 모듈; 및
상기 오디오 특징 벡터를 생성하도록 구성되는 디코더를 포함하는 장치.
제 7 항 또는 제 9 항에 있어서, 상기 텍스트 모듈, 상기 스피커 모듈 또는 상기 스타일 모듈 중 적어도 어느 하나는,
인코더를 포함하는 장치.
제 8 항에 있어서,
상기 언어 특징 벡터는 상기 텍스트의 언어와 관계 없이, 상기 텍스트와 관련되는 적어도 하나의 문자에 대한 심볼의 집합을 하나의 임베딩 공간에 표현하기 위한 다언어 특징 벡터로부터 생성되며,
상기 프로세서는,
상기 임베딩 공간의 상기 심볼의 집합으로부터 오디오 신호를 합성하도록 구성되는 장치.
제 7 항에 있어서, 상기 프로세서는,
상기 텍스트와 관련된 언어 정보를 학습하도록 구성되는 언어 분류 모듈을 더 포함하는 장치.
제 12 항에 있어서, 상기 프로세서는,
상기 화자 정보와 상기 스타일 정보가 상기 스피커 모듈과 상기 스타일 모듈에서 각각 학습되도록 하기 위해, 상기 언어 정보로부터 분리시키도록 구성되는 학습 분리 모듈을 더 포함하는 장치.
제 13 항에 있어서, 상기 학습 분리 모듈은,
그라디언트 리버설 레이어(gradient reversal layer)를 포함하는 장치.
컴퓨터 장치에 결합되어, 상기 컴퓨터 장치에 의해 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
텍스트, 화자 정보 및 스타일 정보를 각각 결정하는 동작; 및
상기 화자 정보 및 스타일 정보를 기반으로, 상기 텍스트로부터 오디오 신호를 합성하는 동작을 실행하기 위한 컴퓨터 프로그램.