WO2024090997A1

WO2024090997A1 - 감정을 고려하여 합성 음성을 획득하는 전자 장치 및 그 제어 방법

Info

Publication number: WO2024090997A1
Application number: PCT/KR2023/016677
Authority: WO
Inventors: 최희진; 배재성; 이준엽; 문성규; 이지환; 주기현
Original assignee: 삼성전자주식회사
Priority date: 2022-10-25
Filing date: 2023-10-25
Publication date: 2024-05-02

Abstract

전자 장치는 복수의 감정(Emotion) 각각에 대응되는 토큰 셋(Token Set)이 저장된 메모리 및 레퍼런스 음성(Reference Speech)이 수신되면, 복수의 감정 중 레퍼런스 음성에 대응되는 감정을 식별하고, 메모리에 저장된 복수의 토큰 셋 중 식별된 감정에 대응되는 토큰 셋을 획득하고, 레퍼런스 음성에 대한 정보 및 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득하며, 텍스트가 입력되면, 텍스트를 스타일 정보에 기초하여 획득된 디코더에 입력하여 텍스트에 대응되는 합성 음성을 획득하고, 텍스트에 대응되는 합성 음성을 출력하는 적어도 하나의 프로세서를 포함한다.

Description

감정을 고려하여 합성 음성을 획득하는 전자 장치 및 그 제어 방법

본 발명은 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는, 감정이 반영된 합성 음성을 획득하는 전자 장치 및 그 제어 방법에 관한 것이다.

음성 합성 기술은, 텍스트에 대응되는 음성을 합성하는 기술로, 최근 많은 영역에서 활용되는 추세이다.

딥러닝 기술의 활용에 따라 합성 음성의 품질에 많은 향상이 있었으나, 자연스러움이나, 생동감이 반영된 합성 음성을 출력하기에는 기술적인 미흡함이 많이 있었다.

특히, 중립(Neutral) 감정에 따른 합성 음성은, 어색함, 이질감이 적으나, 화나거나 기쁜 감정이 반영된 합성 음성은, 기계적이고, 자연스럽지 못하여 어색함이 느껴지는 문제가 있었다.

동일한 텍스트에 대응되는 합성 음성들일지라도, 감정의 반영 여부에 따라 의미가 상이할 수 있으므로, 활용성 등을 고려하여 감정이 적절하게 반영되어 사람이 실제로 발화한 것처럼 느껴지는 합성 음성을 획득하기 위한 음성 합성 기술에 대한 요구가 있어왔다.

다만, 다언어(Multi Language) 각각에 대응되며, 복수의 감정이 반영된 학습 데이터를 획득하기에 어려움이 있으며, 다언어 환경에서도, 텍스트에 대응되며, 감정이 전이된(Transferred) 합성 음성을 적절히 출력하는 음성 합성 기술에 대한 요구가 있어왔다.

본 개시의 일 실시 예에 따른 전자 장치는, 복수의 감정(Emotion) 각각에 대응되는 토큰 셋(Token Set)이 저장된 메모리 및 레퍼런스 음성(Reference Speech)이 수신되면, 상기 복수의 감정 중 상기 레퍼런스 음성에 대응되는 감정을 식별하고, 상기 메모리에 저장된 복수의 토큰 셋 중 상기 식별된 감정에 대응되는 토큰 셋을 획득하고, 상기 레퍼런스 음성에 대한 정보 및 상기 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 상기 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득하며, 텍스트가 입력되면, 상기 텍스트를 상기 스타일 정보에 기초하여 획득된 디코더에 입력하여 상기 텍스트에 대응되는 합성 음성을 획득하고, 상기 텍스트에 대응되는 합성 음성을 출력하는 적어도 하나의 프로세서를 포함한다.

본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 레퍼런스 음성(Reference Speech)이 수신되면, 복수의 감정 중 상기 레퍼런스 음성에 대응되는 감정을 식별하는 단계, 상기 복수의 감정 각각에 대응되는 토큰 셋 중 상기 식별된 감정에 대응되는 토큰 셋을 획득하는 단계, 상기 레퍼런스 음성에 대한 정보 및 상기 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 상기 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득하는 단계, 텍스트가 입력되면, 상기 텍스트를 상기 스타일 정보에 기초하여 획득된 디코더에 입력하여 상기 텍스트에 대응되는 합성 음성을 획득하는 단계 및 상기 텍스트에 대응되는 합성 음성을 출력하는 단계를 포함한다.

본 개시의 상술한 목적을 달성하기 위한 일 실시 예에 따르면 전자 장치의 제어 방법을 실행하는 프로그램을 포함하는 컴퓨터 판독 가능 기록매체에 있어서, 전자 장치의 제어 방법은, 레퍼런스 음성(Reference Speech)이 수신되면, 복수의 감정 중 상기 레퍼런스 음성에 대응되는 감정을 식별하는 단계, 상기 복수의 감정 각각에 대응되는 토큰 셋 중 상기 식별된 감정에 대응되는 토큰 셋을 획득하는 단계, 상기 레퍼런스 음성에 대한 정보 및 상기 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 상기 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득하는 단계, 텍스트가 입력되면, 상기 텍스트를 상기 스타일 정보에 기초하여 획득된 디코더에 입력하여 상기 텍스트에 대응되는 합성 음성을 획득하는 단계 및 상기 텍스트에 대응되는 합성 음성을 출력하는 단계를 포함한다.

도 1은 본 개시의 일 실시 예에 따른 스타일 인코더(encoder) 및 디코더(decoder)를 통해 합성 음성을 획득하는 전자 장치를 설명하기 위한 도면이다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다.

도 3은 본 개시의 일 실시 예에 따른 스타일 인코더를 통해 획득하는 스타일 정보를 설명하기 위한 도면이다.

도 4는 본 개시의 일 실시 예에 따른 감정에 대응되는 토큰 셋 및 언어 토큰을 이용하여 스타일 정보를 출력하는 스타일 인코더를 설명하기 위한 도면이다.

도 5는 본 개시의 일 실시 예에 따른 복수의 감정 각각에 대응되는 토큰 셋, 화자 토큰, 언어 토큰 및 잔차 토큰을 이용하여 스타일 정보를 출력하는 스타일 인코더를 설명하기 위한 도면이다.

도 6은 본 개시의 일 실시 예에 따른 스타일 인코더의 학습을 설명하기 위한 도면이다.

도 7은 본 개시의 일 실시 예에 따른 복수의 샘플 레퍼런스 음성, 합성 음성을 설명하기 위한 도면이다.

도 8은 본 개시의 일 실시 예에 따른 다국어 환경에서 디코더를 통해 획득하는 합성 음성을 설명하기 위한 도면이다.

도 9는 본 개시의 일 실시 예에 따른 사용자의 발화 특성을 포함하는 합성 음성을 출력하는 디코더를 설명하기 위한 도면이다.

도 10은 본 개시의 일 실시 예에 따른 디코더의 파인-튜닝(fine-tuning)을 설명하기 위한 도면이다.

도 11은 본 개시의 일 실시 예에 따른 디코더의 파인-튜닝 이후 합성하고자 하는 화자와, 복수의 샘플 레퍼런스 음성 각각에 대응되는 화자 토큰을 고려하여 합성 음성을 출력하는 디코더를 설명하기 위한 도면이다.

도 12는 본 개시의 일 실시 예에 따른 디스플레이 장치의 제어 방법을 설명하기 위한 흐름도이다.

이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.

본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.

본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.

본 명세서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

이하 첨부된 도면들을 참조하여 본 개시의 일 실시 예를 보다 상세하게 설명한다.

본 개시의 일 실시 예에 따른 전자 장치(100)는 스타일 인코더(A), 텍스트 인코더(Text encoder) 및 디코더(B)를 포함하는 음성 합성(Speech Synthesis 또는, Text-to-Speech, TTS) 장치를 나타낼 수 있다.

음성 합성 장치는, 텍스트가 입력되면, 입력된 텍스트에 대응되는 음성을 합성하여 출력할 수 있다.

종래의 음성 합성 장치가 출력하는 음성(예를 들어, 합성된 음성(synthesized speech))은, 사람의 실제 음성 대비, 기계적이고 상대적으로 단조로운 한계가 있었다. 예를 들어, 사람의 실제 음성은, 화자의 감정이 반영된 운율 특성을 포함하나, 종래의 음성 합성 장치가 출력하는 음성은, 텍스트를 음성으로 변환하는데 그치고, 감정이 반영된 운율 특성을 포함하지 못하므로, 자연스러움이나 생동감을 제공하는데 한계가 있었다.

일 예에 따라, 운율은, 성조(tone), 강세(accent), 리듬(rhythm) 등을 포함할 수 있고, 운율 특성은, 음의 높이(예, 높낮이), 길이(예, 빠르기), 크기(예, 강약) 등을 포함할 수 있다.

본 개시의 일 실시 예에 따른 전자 장치(100)는 스타일 인코더(A) 및 디코더(B)를 이용하여 텍스트에 대응되며, 감정이 반영된 음성을 합성하여 출력할 수 있다.

실시 예에 따라 전자 장치(100)는 스타일 인코더(A)를 이용하여, 디코더(B)가 합성하는 음성에 반영하고자 하는 감정에 대응되는 스타일 정보를 획득하고, 디코더(B)를 이용하여 텍스트에 대응되는 음성에 스타일 정보에 따른 감정을 반영(또는, 합성)하여 합성 음성을 획득(또는, 출력)할 수 있다.

일 예에 따라 스타일 정보는, 스타일 벡터(Style vector)로 불릴 수도 있으나, 이하에서는 설명의 편의를 위해 스타일 정보로 통칭하도록 한다.

본 개시의 일 실시 예에 따른 전자 장치(100)는. 복수의 감정(Emotion) 각각에 대응되는 토큰 셋(Token set)(10)을 포함할 수 있다.

일 예에 따른 전자 장치(100)는, 레퍼런스 음성(Reference speech)이 수신되면, 복수의 감정 중 레퍼런스 음성에 대응되는 감정을 식별할 수 있다. 다만, 이는 일 예시로 이에 한정되지 않는다. 예를 들어, 전자 장치(100)는 감정 식별자(Emotion ID)를 수신하고, 복수의 감정 중 감정 식별자에 대응되는 감정을 식별할 수 있다.

일 예에 따른 전자 장치(100)는 식별된 감정에 대응되는 토큰 셋 및 레퍼런스 음성을 스타일 인코더(A)에 입력하여, 디코더(B)를 통해 식별된 감정이 반영되고, 레퍼런스 음성과 스타일(Style)이 유사한 합성 음성을 획득하기 위한 스타일 정보를 획득할 수 있다.

일 예에 따른 전자 장치(100)는 텍스트와 스타일 정보를 디코더(B)에 입력하여, 텍스트에 대응되며, 감정이 반영되고, 레퍼런스 음성과 스타일이 유사한 음성을 합성 및 출력할 수 있다.

예를 들어, 사람들 마다 특정 감정(예를 들어, 분노(Angry))이 반영된 음성을 발화하는 스타일이 상이하므로, 디코더(B)는 레퍼런스 음성과 스타일(예를 들어, 발화 스타일)이 유사하며, 특정 감정이 반영된 음성을 합성하여 출력할 수 있다.

예를 들어, 복수의 사람들 각각이 동일한 감정을 반영하여 발화하여도, 성별, 나이, 지역, 구강 구조 등에 따라 발화 스타일이 상이하므로, 스타일 인코더(A)의 스타일 어텐션(Style Attention)은 레퍼런스 음성과 식별된 감정에 대응되는 토큰 셋이 입력되면, 레퍼런스 음성과 스타일이 유사하며, 감정이 반영된 음성을 합성하기 위한 스타일 정보를 출력하며, 디코더(B)는 스타일 정보에 기초하여 레퍼런스 음성과 스타일이 유사하며, 식별된 감정이 반영된 음성을 합성하여 출력할 수 있다.

도 2를 참조하면, 전자 장치(100)는 메모리(110) 및 적어도 하나의 프로세서(120)를 포함한다.

일 실시 예에 따른 메모리(110)는 다양한 실시 예를 위해 필요한 데이터를 저장할 수 있다.

메모리(110)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드된 메모리 형태로 구현되거나, 전자 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 전자 장치(100)의 구동을 위한 데이터의 경우 전자 장치(100)에 임베디드된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터의 경우 전자 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다. 한편, 전자 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현될 수 있다. 또한, 전자 장치(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.

일 예에 따라 메모리(110)는 전자 장치(100)를 제어하기 위한 적어도 하나의 인스트럭션(instruction) 또는 인스트럭션들을 포함하는 컴퓨터 프로그램을 저장할 수 있다.

일 예에 따라 메모리(110)는 외부 장치(예를 들어, 소스 장치), 외부 저장 매체(예를 들어, USB), 외부 서버(예를 들어 웹 하드) 등으로부터 수신된 다양한 데이터를 저장할 수 있다. 일 실시 예에 따르면, 메모리(110)는 본 개시에 따른 다양한 동작들에서 생성되는 데이터를 저장하는 단일 메모리로 구현될 수 있다. 다만, 다른 실시 예에 따르면, 메모리(110)는 상이한 타입의 데이터를 각각 저장하거나, 상이한 단계에서 생성되는 데이터를 각각 저장하는 복수의 메모리를 포함하도록 구현될 수도 있다.

또한, 메모리(110)는 전자 장치(100)를 구동/제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 특히, 본 개시의 일 실시 예에 따른 메모리(110)는 복수의 감정(Emotion)(10) 각각에 대응되는 토큰 셋(Token Set)을 저장할 수 있다.

여기서, 복수의 감정 각각은, 도 1에 도시된 바와 같이, 중립(Neutral)(10-1), 기쁨(Happy)(10-2), 슬픔(Sad)(10-3), 분노(Angry)(10-4)를 포함할 수 있다.

이는 일 예시이며, 복수의 감정 각각은, 존경(Admiration), 흠모(Adoration), 심미적 감상(Aesthetic Appreciation), 즐거움(Amusement), 걱정(Anxiety), 경외감(Awe), 어색함(Awkwardness), 지루함(Boredom), 차분함(Calmness), 혼란스러움(Confusion), 간절함(Craving), 역겨움(Disgust), 공감적 고통(Empathetic pain), 황홀경(Entrancement), 부러움, 질투(Envy), 흥분됨, 신남(Excitement), 두려움(Fear), 공포(Horror), 흥미, 호기심(Interest), 기쁨(Joy), 향수, 그리움(Nostalgia), 로맨스(Romance), 슬픔(Sadness), 만족(Satisfaction), 성적 욕구(Sexual desire), 공감(Sympathy), 승리감(Triumph) 등의 서로 다른 감정에 대응될 수도 있다.

본 개시의 일 예에 따라 메모리(110)(또는, 메모리(110)에 저장된 스타일 인코더(A))는, 복수의 감정(10) 각각에 대응되는 토큰 셋을 저장하며, 적어도 하나의 프로세서(120)는 복수의 감정(10) 중 하나의 감정을 식별하고, 식별된 감정에 대응되는 토큰 셋을 획득할 수 있다. 상술한 실시 예에서는 다양한 데이터가 적어도 하나의 프로세서(120)의 외부 메모리에 저장되는 것으로 설명하였으나, 상술한 데이터 중 적어도 일부는 적어도 하나의 프로세서(120)의 내부 메모리에 저장될 수도 있음은 물론이다.

적어도 하나의 프로세서(120)는 전자 장치(100)의 동작을 전반적으로 제어한다. 구체적으로, 적어도 하나의 프로세서(120)는 전자 장치(100)의 각 구성과 연결되어 전자 장치(100)의 동작을 전반적으로 제어할 수 있다.

적어도 하나의 프로세서(120)는 메모리(110)에 저장된 적어도 하나의 인스트럭션(instruction)을 실행함으로써, 다양한 실시 예에 따른 전자 장치(100)의 동작을 수행할 수 있다.

적어도 하나의 프로세서(120)는 CPU (Central Processing Unit), GPU (Graphics Processing Unit), APU (Accelerated Processing Unit), MIC (Many Integrated Core), DSP (Digital Signal Processor), NPU (Neural Processing Unit), 하드웨어 가속기 또는 머신 러닝 가속기 중 하나 이상을 포함할 수 있다. 적어도 하나의 프로세서(120)는 전자 장치의 다른 구성요소 중 하나 또는 임의의 조합을 제어할 수 있으며, 통신에 관한 동작 또는 데이터 처리를 수행할 수 있다. 적어도 하나의 프로세서(120)는 메모리(110)에 저장된 하나 이상의 프로그램 또는 명령어(instruction)을 실행할 수 있다. 예를 들어, 적어도 하나의 프로세서(120)는 메모리(110)에 저장된 하나 이상의 명령어를 실행함으로써, 본 개시의 일 실시 예에 따른 방법을 수행할 수 있다.

본 개시의 일 실시 예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 하나의 프로세서에 의해 수행될 수도 있고, 복수의 프로세서에 의해 수행될 수도 있다. 예를 들어, 일 실시 예에 따른 방법에 의해 제 1 동작, 제 2 동작, 제 3 동작이 수행될 때, 제 1 동작, 제 2 동작, 및 제 3 동작 모두 제 1 프로세서에 의해 수행될 수도 있고, 제 1 동작 및 제 2 동작은 제 1 프로세서(예를 들어, 범용 프로세서)에 의해 수행되고 제 3 동작은 제 2 프로세서(예를 들어, 인공지능 전용 프로세서)에 의해 수행될 수도 있다.

적어도 하나의 프로세서(120)는 하나의 코어를 포함하는 단일 코어 프로세서(single core processor)로 구현될 수도 있고, 복수의 코어(예를 들어, 동종 멀티 코어 또는 이종 멀티 코어)를 포함하는 하나 이상의 멀티 코어 프로세서(multicore processor)로 구현될 수도 있다. 적어도 하나의 프로세서(120)가 멀티 코어 프로세서로 구현되는 경우, 멀티 코어 프로세서에 포함된 복수의 코어 각각은 캐시 메모리, 온 칩(On-chip) 메모리와 같은 프로세서 내부 메모리를 포함할 수 있으며, 복수의 코어에 의해 공유되는 공통 캐시가 멀티 코어 프로세서에 포함될 수 있다. 또한, 멀티 코어 프로세서에 포함된 복수의 코어 각각(또는 복수의 코어 중 일부)은 독립적으로 본 개시의 일 실시 예에 따른 방법을 구현하기 위한 프로그램 명령을 판독하여 수행할 수도 있고, 복수의 코어 전체(또는 일부)가 연계되어 본 개시의 일 실시 예에 따른 방법을 구현하기 위한 프로그램 명령을 판독하여 수행할 수도 있다.

본 개시의 일 실시 예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 멀티 코어 프로세서에 포함된 복수의 코어 중 하나의 코어에 의해 수행될 수도 있고, 복수의 코어에 의해 수행될 수도 있다. 예를 들어, 일 실시 예에 따른 방법에 의해 제 1 동작, 제 2 동작, 및 제 3 동작이 수행될 때, 제 1 동작, 제2 동작, 및 제3 동작 모두 멀티 코어 프로세서에 포함된 제 1 코어에 의해 수행될 수도 있고, 제 1 동작 및 제 2 동작은 멀티 코어 프로세서에 포함된 제 1 코어에 의해 수행되고 제 3 동작은 멀티 코어 프로세서에 포함된 제 2 코어에 의해 수행될 수도 있다.

본 개시의 실시 예들에서, 프로세서는 적어도 하나의 프로세서 및 기타 전자 부품들이 집적된 시스템 온 칩(SoC), 단일 코어 프로세서, 멀티 코어 프로세서, 또는 단일 코어 프로세서 또는 멀티 코어 프로세서에 포함된 코어를 의미할 수 있으며, 여기서 코어는 CPU, GPU, APU, MIC, DSP, NPU, 하드웨어 가속기 또는 기계 학습 가속기 등으로 구현될 수 있으나, 본 개시의 실시 예들이 이에 한정되는 것은 아니다.

특히, 본 개시의 일 실시 예에 따른 적어도 하나의 프로세서(120)는 레퍼런스 음성(Reference Speech)가 수신되면, 복수의 감정 중 레퍼런스 음성에 대응되는 감정을 식별할 수 있다.

적어도 하나의 프로세서(120)는 식별된 감정에 대응되는 토큰 셋 및 레퍼런스 음성을 스타일 인코더(A)(또는, 스타일 인코더(A)의 스타일 어텐션(Style Attention))에 입력하여, 스타일 정보를 획득할 수 있다.

적어도 하나의 프로세서(120)는 텍스트와 스타일 정보를 디코더(B)에 입력하여, 텍스트에 대응되며, 감정이 반영되고, 레퍼런스 음성과 스타일이 유사한 음성을 합성 및 출력할 수 있다.

본 개시의 일 실시 예에 따른 스타일 인코더(A)는 복수의 감정(10) 각각에 대응되는 토큰 셋을 포함할 수 있다.

예를 들어, 스타일 인코더(A)가 복수의 감정(10) 각각을 구분하지 않고(예를 들어, 복수의 감정 각각을 서로 다른 카테고리로 분류하지 않고), 복수의 감정이 반영된 학습 데이터들(이하, 복수의 샘플 레퍼런스 음성)을 이용하여 학습하면, 감정을 나타내는 운율 특성(이하, 감정에 대응되는 토큰 셋)이 평균적인 운율 특성(예를 들어, 중립(Neutral) 감정이 반영된 음성의 운율 특성)을 나타내거나, 감정을 나타내는 운율 특성이 특정 감정(예를 들어, 기쁨)의 운율 특성에 과적합(Overfitting)되는 문제가 있다.

본 개시의 일 예에 따라 스타일 인코더(A)는 복수의 샘플 레퍼런스 음성을 이용하여 복수의 감정(10) 각각에 대응되는(즉, 복수의 감정(10) 각각으로 구분된) 토큰 셋을 획득하도록 학습할 수 있다.

본 개시의 일 예에 따른 스타일 인코더(A)의 학습 단계(또는, 훈련 단계)는 후술하도록 한다.

일 예에 따라 적어도 하나의 프로세서(120)는 추론(Inference) 단계에서 레퍼런스 음성이 수신되면, 레퍼런스 음성에 대한 정보를 획득할 수 있다. 예를 들어, 적어도 하나의 프로세서(120)는 멜-스펙트로그램(Mel-Spectrogram) 형태의 레퍼런스 음성이 수신되면, 레퍼런스 음성을 레퍼런스 인코더(Reference Encoder)에 입력하여 레퍼런스 임베딩(Reference Embedding)을 획득할 수 있다. 예를 들어, 적어도 하나의 프로세서(120)는 멜- 스펙트로그램을 기 설정된 길이의 벡터(fixed-length vector)로 임베딩하여 레퍼런스 임베딩(Reference Embedding)을 획득할 수 있다.

실시 예에 따라 멜-스펙트로그램은, 인간의 청감이 모든 주파수를 균일하게 수신하지 않으므로, 음성을 인간의 청감과 일치하도록 Mel-scale로 변환한 스펙트로그램을 포함할 수 있다.

본 개시의 일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성으로부터 감정을 식별할 수 있다. 예를 들어, 레퍼런스 음성은, 감정 식별자(Emotion ID)를 포함할 수도 있고, 적어도 하나의 프로세서(120)는 레퍼런스 음성을 분석하여, 레퍼런스 음성에 대응되는 감정을 식별할 수도 있다.

적어도 하나의 프로세서(120)는 복수의 감정 중 식별된 감정에 대응되는 토큰 셋을 포함할 수 있다. 여기서, 식별된 감정에 대응되는 토큰 셋은, 식별된 감정에 따른 운율 특성을 나타낼 수 있다.

본 개시의 일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성과 유사한 스타일의 합성 음성을 획득하기 위해, 레퍼런스 임베딩(Reference Embedding) 및 식별된 감정에 대응되는 토큰 셋을 스타일 인코더(A)의 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.

예를 들어, 스타일 인코더(A) 및 디코더(B)를 통해 합성 음성을 획득하는 추론(Inference) 단계에서는, 스타일 인코더(A)의 스타일 어텐션은, 레퍼런스 음성과 유사한 발화 스타일의 합성 음성을 획득하기 위해, 식별된 감정에 대응되는 토큰 셋에 포함된 스타일 토큰들 각각과 레퍼런스 임베딩(Reference Embedding) 간의 유사도에 기초하여, 스타일 토큰들의 가중 합(Weighted sum)을 나타낸 스타일 정보를 획득할 수 있다.

본 개시에서 레퍼런스 음성은, '어떠한 스타일의 합성 음성을 획득하고 싶은지'를 나타내는 음성(또는, 명령 등)을 포함할 수 있다.

도 3을 참조하면, 실시 예에 따라 합성하고자 하는 화자가 발화하는 음성의 언어(Language)와 텍스트(도 1의 음소 또는 낱소리(Phoneme))의 언어가 상이할 수 있다.

일 실시 예에 따라 적어도 하나의 프로세서(120)는 언어 룩업 테이블(look-up table)에 기초하여 언어를 식별하며, 식별된 언어에 대응되는 언어 토큰(language token)을 획득할 수 있다.

예를 들어, 도 1에 도시된 바와 같이 레퍼런스 언어에 대응되는 언어를 식별하며, 식별된 언어에 대응되는 언어 토큰(language token)(20)을 획득할 수 있다.

본 개시의 일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성과 유사한 스타일의 합성 음성을 획득하기 위해, 레퍼런스 인코더(Reference Encoder)가 출력한 레퍼런스 임베딩(Reference Embedding), 식별된 감정에 대응되는 토큰 셋 및 레퍼런스 음성에 대응되는 언어의 음형(Sound Patterns)을 나타내는 언어 토큰(30)을 스타일 인코더(A)의 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.

예를 들어, 스타일 인코더(A) 및 디코더(B)를 통해 합성 음성을 획득하는 추론(Inference) 단계에서는, 스타일 인코더(A)의 스타일 어텐션은, 레퍼런스 음성에 대응되는 언어의 음형(Sound Patterns)이 반영되고, 레퍼런스 음성과 유사한 발화 스타일의 합성 음성을 획득하기 위해, 언어 토큰(30) 및 식별된 감정에 대응되는 토큰 셋에 포함된 스타일 토큰들 각각과 레퍼런스 임베딩(Reference Embedding) 간의 유사도에 기초하여, 스타일 토큰들의 가중 합(Weighted sum)을 나타낸 스타일 정보를 획득할 수 있다.

일 실시 예에 따라 적어도 하나의 프로세서(120)는 화자(Speaker) 룩업 테이블에 기초하여 레퍼런스 음성(또는, 멜-스펙트로그램)에 대응되는 화자를 식별하고, 식별된 화자(Speaker ID)에 대응되는 화자 토큰(Speaker Token)(20)을 획득할 수 있다.

예를 들어, 레퍼런스 음성에 대응되는 화자가, 스타일 인코더(A)의 학습 데이터인, 복수의 샘플 레퍼런스 음성 중 적어도 하나의 샘플 레퍼런스 음성의 화자 토큰에 대응되면, 레퍼런스 음성(또는, 멜-스펙트로그램)에 대응되는 화자를 식별하고, 식별된 화자(Speaker ID)에 대응되는 화자 토큰(Speaker Token)을 획득할 수 있다.

일 실시 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성의 화자에 따른 발화 스타일을 보다 적절하게 반영한 합성 음성을 획득하기 위한 화자 토큰(20)을 획득하며, 레퍼런스 음성과 유사한 스타일의 합성 음성을 획득하기 위해, 레퍼런스 음성의 화자의 발화 스타일을 나타내는 화자 토큰(20), 레퍼런스 인코더(Reference Encoder)가 출력한 레퍼런스 임베딩(Reference Embedding), 및 식별된 감정에 대응되는 토큰 셋을 스타일 인코더(A)의 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.

본 개시의 실시 예에 따른 적어도 하나의 프로세서(120)는 레퍼런스 음성의 화자의 발화 스타일을 나타내는 화자 토큰(20), 레퍼런스 음성의 언어에 따른 음형(또는, 레퍼런스 음성에 대응되는 언어의 음성적 특징(phonetic feature))을 나타내는 언어 토큰(30)에 더하여, 잔차 토큰(Residual Token)(40)을 획득할 수도 있다.

일 예에 따른 스타일 인코더(A)는 학습 데이터인, 복수의 샘플 레퍼런스 음성 각각에서, 감정을 나타내는 토큰 셋(10), 화자의 발화 스타일을 나타내는 화자 토큰(20) 및 언어에 따른 음형을 나타내는 언어 토큰(30)을 제외한 나머지(예를 들어, 노이즈(noise))를 나타내는 잔차 토큰(40)을 획득할 수 있다. 예를 들어, 스타일 인코더(A)는, 복수의 샘플 레퍼런스 음성 각각에서 생동감, 자연스러움을 나타내는 잔차 토큰(40)을 획득할 수 있다.

일 실시 예에 따른 적어도 하나의 프로세서(120)는 레퍼런스 음성이 수신되면, i) 감정을 식별하고(또는, 감정을 선택하고), 복수의 감정 중 식별된 감정에 대응되는 토큰 셋(10)을 획득하며, ii) 레퍼런스 음성의 화자에 대응되는 화자 토큰(20)을 획득하고, iii) 레퍼런스 음성의 언어에 대응되는 언어 토큰(30)을 획득하고, iv) 잔차 토큰(40)을 획득할 수 있다.

일 예에 따른 적어도 하나의 프로세서(120)는 i) 식별된 감정에 대응되는 토큰 셋(10), ii) 화자 토큰(20), iii) 언어 토큰(30) 및 iv) 잔차 토큰(40) 및 v) 레퍼런스 음성에 대응되는 레퍼런스 임베딩(Reference Embedding)을 스타일 인코더(A)의 스타일 어텐션에 입력하여 스타일 정보를 획득할 수 있다.

실시 예에 따라 적어도 하나의 프로세서(120)는 i) 식별된 감정에 대응되는 토큰 셋(10), ii) 화자 토큰(20), iii) 언어 토큰(30) 및 iv) 잔차 토큰(40) 중 적어도 하나와, v) 레퍼런스 음성에 대응되는 레퍼런스 임베딩(Reference Embedding)을 스타일 인코더(A)의 스타일 어텐션에 입력하여 스타일 정보를 획득할 수 있다.

실시 예에 따른 적어도 하나의 프로세서(120)는 멜-스펙트로그램을 레퍼런스 인코더(Reference Encoder)에 입력하여 레퍼런스 임베딩(Reference Embedding)을 획득하고, 텍스트(Text)에 대응되는 음운(Phoneme)을 텍스트 인코더(Text Encoder)에 입력하여 텍스트 임베딩(Text embedding)을 획득할 수 있다.

도 6을 참조하면, 스타일 인코더(A)는, 학습 단계(또는, 훈련 단계)에서, 학습 데이터인, 복수의 샘플 레퍼런스 음성 중 적어도 하나의 샘플 레퍼런스 음성에 대응되는 멜-스펙트로그램이 입력되면, 레퍼런스 인코더(Reference Encoder)를 이용하여 멜-스펙트로그램에 대응되는 레퍼런스 임베딩(Reference Embedding)를 획득할 수 있다.

일 예에 따라, 스타일 인코더(A)는 적어도 하나의 샘플 레퍼런스 음성에 대응되는 화자를 식별하고, 식별된 화자(Speaker ID)를 룩업 임베딩 테이블(Lookup Embedding Table)에 입력하여 화자 임베딩 벡터(Speaker Embedding Vector)를 획득할 수 있다.

일 예에 따라, 스타일 인코더(A)는 적어도 하나의 샘플 레퍼런스 음성에 대응되는 언어를 식별하고, 식별된 언어(Language ID)를 룩업 임베딩 테이블(Lookup Embedding Table)에 입력하여 언어 임베딩 벡터(Language Embedding Vector)를 획득할 수 있다.

일 예에 따라, 스타일 인코더(A)는 복수의 감정 각각에 대응되는 토큰 셋에 포함된 복수의 스타일 토큰들을, 임의로 초기화된 벡터들(Randomly Initialized Embedding Vectors)로 설정할 수 있다.

일 예에 따라, 스타일 인코더(A)는 잔차 토큰(Residual Token)을 임의로 초기화된 벡터들(Randomly Initialized Embedding Vectors)로 설정할 수 있다.

일 예에 따라, 스타일 인코더(A)는 복수의 감정 중 적어도 하나의 샘플 레퍼런스 음성에 기초하여 식별된 감정에 대응되는 토큰 셋(10), 화자 임베딩 벡터(Speaker Embedding Vector)에 따른 화자 토큰(Speaker Token)(20), 언어 임베딩 벡터(Language Embedding Vector)에 따른 언어 토큰(Language Token)(30) 및 잔차 토큰(40)과, 적어도 하나의 샘플 레퍼런스 음성에 대응되는 멜-스펙트로그램 간의 유사도(Similarity)를 학습한 비지도 학습(Unsupervised Learning) 모델일 수 있다.

예를 들어, 스타일 인코더(A)는 적어도 하나의 샘플 레퍼런스 음성에 대응되는 레퍼런스 임베딩에 대해 Attention을 적용하여, 타겟 감정(예를 들어, 복수의 감정 중 적어도 하나의 샘플 레퍼런스 음성에 기초하여 식별된 감정)의 토큰 셋에 포함된 복수의 스타일 토큰 각각을 학습할 수 있다.

예를 들어, 스타일 인코더(A)는 적어도 하나의 샘플 레퍼런스 음성에 대응되는 레퍼런스 임베딩에 대해 Attention을 적용하여, 화자 토큰(Speaker Token)(20), 언어 토큰(Language Token)(30), 잔차 토큰(40) 각각을 학습할 수도 있다.

도 7의 상단은, 복수의 샘플 레퍼런스 음성을 도시하고 있다(Training 단계).

예를 들어, 복수의 샘플 레퍼런스 음성은, 중립(Neutral) 감정의 샘플 레퍼런스 음성들(도 7의 Neutral Speech DB), 복수의 감정 각각의 샘플 레퍼런스 음성들(도 7의 Emotional Speech DB)을 포함할 수 있다.

도 7의 하단은, 스타일 인코더(A) 및 디코더(B)를 통해 합성 음성을 획득하는 전자 장치(100)를 도시하고 있다(Inference 단계).

일 예에 따라, 적어도 하나의 프로세서(120)는, 영어의 'I feel sensitivity'를 텍스트로 수신하면, 언어(Language ID)를 식별할 수 있으며, 합성하고자 하는 화자를 수신하면, 화자(Speaker ID)를 식별할 수 있다.

일 예에 따라 텍스트 'I feel sensitivity'에 대응되는 음운(Phoneme)을 텍스트 인코더(Text Encoder)에 입력하여 텍스트 임베딩(Text embedding)을 획득하고, 언어(Language ID)를 언어 인코더(Language Encoder)에 입력하여 언어 토큰(30)을 획득할 수 있다.

일 예에 따라 합성하고자 하는 화자(예를 들어, 도 7의 중립 감정의 화자(Neutral Speaker)의 화자(Speaker ID)를 식별할 수 있다.

일 예에 따라 적어도 하나의 프로세서(120)는 복수의 감정 중 레퍼런스 음성에 대응되는 감정을 식별할 수도 있고, 도 7에 도시된 바와 같이, 감정 식별자(Emotion ID)가 수신되면, 복수의 감정 중 감정 식별자에 대응되는 감정을 식별할 수도 있다. 예를 들어, 적어도 하나의 프로세서(120)는 스타일 인코더(A)를 통해 감정 식별자에 따른 슬픈(Sad) 감정에 대응되는 토큰 셋(10-3)을 획득할 수 있다.

일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram)을 레퍼런스 인코더를 통해 획득한 레퍼런스 임베딩, 슬픈 감정에 대응되는 토큰 셋(10-3), 언어 토큰(30)을 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.

일 예에 따라 디코더(B)는, 텍스트에 대응되며, 스타일 정보에 기초하여 슬픈 감정이 전이된(Transferred) 합성 음성을 출력할 수 있다.

예를 들어, 디코더(B)가 출력하는 합성 음성은, 합성하고자 하는 화자(예를 들어, Speaker ID)와 발화 스타일이 유사하며, 슬픈 감정의 'I feel sensitivity'에 대응할 수 있다.

도 8의 상단은, 복수의 샘플 레퍼런스 음성을 도시하고 있다(Training 단계).

예를 들어, 복수의 샘플 레퍼런스 음성은, 중립(Neutral) 감정의 프랑스어(French) 샘플 레퍼런스 음성들(도 8의 French Neutral Speech DB), 중립(Neutral) 감정의 한국어(Korean) 샘플 레퍼런스 음성들(도 8의 Korean Neutral Speech DB), 및 복수의 감정 각각의 영어(English) 샘플 레퍼런스 음성들(도 8의 English Emotional Speech DB)을 포함할 수 있다.

도 8의 하단은, 스타일 인코더(A) 및 디코더(B)를 통해 합성 음성을 획득하는 전자 장치(100)를 도시하고 있다(Inference 단계).

일 예에 따라, 적어도 하나의 프로세서(120)는, 합성하고자 하는 화자 (예를 들어, 도 8의 중립 감정의 프랑스어 화자(Neutral French Speaker)를 수신하고, 한국어의 '시험에 떨어졌어'를 텍스트로 수신할 수 있다.

예를 들어, 도 8에 도시된 바와 같이, 적어도 하나의 프로세서(120)는 텍스트에 대응되는 음운(Phoneme)을 텍스트 인코더에 입력하여 텍스트 임베딩을 획득할 수도 있다.

예를 들어, 적어도 하나의 프로세서(120)는 한국어의 '시험에 떨어졌어'를 텍스트 인코더에 입력하여 텍스트 임베딩을 획득하고, 언어(Language ID)를 언어 인코더(Language Encoder)에 입력하여 언어 임베딩(예를 들어, 한국어(Korean))을 획득할 수 있다.

일 예에 따라 적어도 하나의 프로세서(120)는 도 8에 도시된 바와 같이, 감정 식별자(Emotion ID)가 수신되면, 복수의 감정 중 감정 식별자에 대응되는 감정을 식별할 수도 있다. 예를 들어, 적어도 하나의 프로세서(120)는 스타일 인코더(A)를 통해 감정 식별자에 따른 슬픈(Sad) 감정에 대응되는 토큰 셋(10-3)을 획득할 수 있다.

일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram)을 레퍼런스 인코더를 통해 획득한 레퍼런스 임베딩, 슬픈 감정에 대응되는 토큰 셋(10-3)을 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.

일 예에 따라 디코더(B)는, 중립 감정의 프랑스어 화자(Neutral French Speaker)의 발화 스타일과 유사하며, 한국어의 음형(Sound Patterns)이 반영되고, 슬픔 감정이 전이된, 한국어 텍스트에 대응되는 합성 음성을 출력할 수 있다.

예를 들어, 디코더(B)가 출력하는 합성 음성은, 합성하고자 하는 화자와 발화 스타일이 유사하며, 한국어의 음형이 반영된 슬픈 감정의 '시험에 떨어졌어'에 대응할 수 있다. 예를 들어, 디코더(B)가 출력하는 합성 음성은, 모국어가 프랑스어인 화자의 목소리로, 슬픈 감정의 '시험에 떨어졌어'에 대응할 수 있다.

도 8의 상단에 도시된 바와 같이, 스타일 인코더(A)의 학습 데이터인, 복수의 샘플 레퍼런스 음성이 복수의 감정 각각의 프랑스어(French) 샘플 레퍼런스 음성들(예를 들어, French Emotional Speech DB), 복수의 감정 각각의 한국어(Korean) 샘플 레퍼런스 음성들(예를 들어, Korean Emotional Speech DB) 등을 포함하지 않으나(즉, 복수의 감정 각각의 영어(English) 샘플 레퍼런스 음성들만을 포함하나), 스타일 인코더(A) 및 디코더(B)는 영어 외에도, 한국어 또는 프랑스어의 텍스트에 대응되며, 감정이 전이된(Transferred) 합성 음성을 생성할 수 있다.

도 9의 상단은, 복수의 샘플 레퍼런스 음성을 도시하고 있다(Training 단계).

예를 들어, 복수의 샘플 레퍼런스 음성은, 화자 1(예를 들어, 중립(Neutral) 감정의 여성(Female) 프랑스어(French) 화자)의 샘플 레퍼런스 음성들(도 9의 French Female Neutral Speech DB), 화자 2(예를 들어, 중립(Neutral) 감정의 여성 한국어(Korean) 화자)의 샘플 레퍼런스 음성들(도 9의 Korean Female Neutral Speech DB), 및 화자 3(예를 들어, 복수의 감정 각각의 영어(English) 화자)의 샘플 레퍼런스 음성들(도 9의 English Emotional Speech DB)을 포함할 수 있다.

예를 들어, 스타일 인코더(A)는, 화자 1(예, 여성 프랑스어 화자), 화자 2(예, 여성 한국어 화자) 또는, 화자 3(예, 영어 화자) 등을 화자 토큰(20)으로 포함하고, 언어 1(예, 프랑스어), 언어 2(예, 한국어), 언어 3(예, 영어) 등을 언어 토큰(30)으로 포함하고, 복수의 감정 각각에 대응되는 토큰 셋(10)을 포함할 수 있다.

일 예에 따라 전자 장치(100)의 사용자가 화자 1 내지 화자 3 외에, 화자 4(예, 남성 한국어 화자)에 대응할 수 있다.

본 개시의 일 예에 따라 전자 장치(100)는 사용자(즉, 화자 4)의 음성을 수신하여 스타일 인코더(A)를 파인 튜닝(fine-tuning)할 수 있다. 이에 대한 구체적인 설명은 도 10을 참조하여 후술하도록 한다.

도 9의 하단은, 스타일 인코더(A) 및 디코더(B)를 통해 합성 음성을 획득하는 전자 장치(100)를 도시하고 있다(Inference 단계).

일 예에 따라, 적어도 하나의 프로세서(120)는, 합성하고자 하는 화자 (예를 들어, 화자 4(예, 중립 감정의 남자(Male) 한국어 화자(Neutral Korean Speaker)))을 수신하고, 프랑스어의 '

'를 텍스트로 수신할 수 있다.

예를 들어, 적어도 하나의 프로세서(120)는 프랑스어의 '

'를 텍스트 인코더에 입력하여 텍스트 임베딩을 획득하고, 언어(Language ID)를 언어 인코더(Language Encoder)에 입력하여 언어 임베딩(예를 들어, 프랑스어(French))을 획득할 수 있다.

일 예에 따라 적어도 하나의 프로세서(120)는 도 10에 도시된 바와 같이, 감정 식별자(Emotion ID)가 수신되면, 복수의 감정 중 감정 식별자에 대응되는 감정을 식별할 수도 있다. 예를 들어, 적어도 하나의 프로세서(120)는 스타일 인코더(A)를 통해 감정 식별자에 따른 슬픈(Sad) 감정에 대응되는 토큰 셋(10-3)을 획득할 수 있다.

일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram), 슬픈 감정에 대응되는 토큰 셋(10-3)을 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다. 일 예에 따라 디코더(B)는, 텍스트에 대응되며, 스타일 정보에 기초하여 슬픈 감정이 전이된(Transferred) 합성 음성을 출력할 수 있다.

일 예에 따라 디코더(B)는, 중립 감정의 남성 한국어 화자(Neutral Male Korean Speaker)의 발화 스타일과 유사하며, 프랑스어의 음형(Sound Patterns)이 반영되고, 슬픔 감정이 전이된, 프랑스어 텍스트(예를 들어, '

')에 대응되는 합성 음성을 출력할 수 있다.

일 예에 따라, 화자(Speaker)(예를 들어, 화자 4(예, 남성 한국어 화자))가 스타일 인코더(A)의 학습 데이터인, 복수의 샘플 레퍼런스 음성 각각의 화자 토큰(예를 들어, 화자 1(예, 여성 프랑스어 화자), 화자 2(예, 여성 한국어 화자) 또는, 화자 3(예, 영어 화자)에 대응되지 않으면, 적어도 하나의 프로세서(120)는 레퍼런스 음성의 화자(또는, 전자 장치(100)의 사용자)가 발화하는 음성에 기초하여, 레퍼런스 음성의 화자의 발화 특성이 합성 음성이 포함되도록, 음성 합성 장치를 파인-튜닝(fine-tuning)할 수 있다.

도 10은 본 개시의 일 실시 예에 따른 음성 합성 장치의 파인-튜닝(fine-tuning)을 설명하기 위한 도면이다.

도 10을 참조하면, 적어도 하나의 프로세서(120)는 합성하고자 하는 화자(또는, 전자 장치(100)의 사용자)가 스타일 인코더(A)에 포함된 화자 토큰(20)에 대응되지 않으면, 레퍼런스 음성의 화자의 발화 특성이 보다 적절히 반영된 합성 음성을 획득하기 위해, 합성하고자 하는 화자가 추가적인 음성을 발화하도록 가이드할 수 있다.

예를 들어, 적어도 하나의 프로세서(120)는 합성하고자 하는 화자가 기 설정된 문장을 발화하도록 가이드하여 추가적인 음성(도 10의 User's Speech)을 수신할 수 있다.

합성하고자 하는 화자가 기 설정된 문장을 발화하면, 적어도 하나의 프로세서(120)는 수신된 추가적인 음성(즉, 레퍼런스 음성의 화자가 발화한 기 설정된 문장)에 기초하여 디코더(B)와 화자 인코더를 파인-튜닝하여 디코더(B)가 출력하는 합성 음성에 레퍼런스 음성의 화자의 발화 특성을 포함시킬 수 있다.

도 8로 돌아와서, 복수의 샘플 레퍼런스 음성은, 화자 1(예를 들어, 중립(Neutral) 감정의 프랑스어(French) 화자)의 샘플 레퍼런스 음성들(도 8의 French Neutral Speech DB), 화자 2(예를 들어, 중립(Neutral) 감정의 한국어(Korean) 화자)의 샘플 레퍼런스 음성들(도 8의 Korean Neutral Speech DB), 및 화자 3(예를 들어, 복수의 감정 각각의 영어(English) 화자)의 샘플 레퍼런스 음성들(도 8의 English Emotional Speech DB)을 포함할 수 있다.

예를 들어, 스타일 인코더(A)는, 화자 1(예, 프랑스어 화자), 화자 2(예, 한국어 화자) 또는, 화자 3(예, 영어 화자) 등을 화자 토큰(20)으로 포함하고, 언어 1(예, 프랑스어), 언어 2(예, 한국어), 언어 3(예, 영어) 등을 언어 토큰(30)으로 포함하고, 복수의 감정 각각에 대응되는 토큰 셋(10)을 포함할 수 있다.

일 예에 따라 합성하고자 하는 화자가 화자 1 내지 화자 3 중 어느 하나에 대응할 수 있다.

일 예에 따라 적어도 하나의 프로세서(120)는 합성하고자 하는 화자가 복수의 샘플 레퍼런스 음성 각각의 화자 중 어느 하나에 대응되면, 레퍼런스 음성의 화자에 대응되는 화자 토큰(20)을 획득할 수 있다.

예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram)을 레퍼런스 인코더를 통해 획득한 레퍼런스 임베딩, 슬픈 감정에 대응되는 토큰 셋(10-3)을 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.

일 예에 따라 디코더(B)는, 텍스트에 대응되며, 스타일 정보에 기초하여 합성하고자 하는 화자의 발화 스타일이 보다 적절히 반영되고, 슬픈 감정이 전이된(Transferred) 합성 음성을 출력할 수 있다.

도 11은 본 개시의 일 실시 예에 따른 디코더의 파인-튜닝 이후 레퍼런스 음성의 화자와, 복수의 샘플 레퍼런스 음성 각각에 대응되는 화자 토큰을 고려하여 합성 음성을 출력하는 디코더를 설명하기 위한 도면이다.

도 9에 도시된 Fine-Tuned 디코더(B')는, 전자 장치(100)의 사용자(예, 화자 4(예, 남성 한국어 화자)로부터 수신된 추가적인 음성(도 10의 User's Speech)에 기초하여, 전자 장치(100)의 사용자의 발화 특성(예를 들어, 목소리 등)이 반영된 합성 음성을 출력할 수 있다.

도 11의 하단은, Fine-Tuned 디코더(B')를 통해 합성 음성을 획득하는 전자 장치(100)를 도시하고 있다(Inference 단계).

일 예에 따라, 적어도 하나의 프로세서(120)는, 레퍼런스 음성을 수신하고, 프랑스어의 '

'를 텍스트로 수신할 수 있다. 여기서, 레퍼런스 음성의 화자는, 스타일 인코더(A)의 학습 데이터인, 복수의 샘플 레퍼런스 음성 각각의 화자인 화자 1 내지 화자 3 및, 전자 장치(100)의 사용자(예, Fine-Tuning을 위해 이용한 추가적인 음성(도 10의 User's Speech)의 화자, 화자 4)가 아닌, 화자 5(예를 들어, 유명 연예인 'A')일 수 있다.

일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram), 감정 식별자(Emotion ID)에 따른 감정에 대응되는 토큰 셋(10), 언어 토큰(30)을 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.

일 예에 따라 Fine-Tuned 디코더(B')는, 텍스트에 대응되며, 스타일 정보에 기초하여 감정이 전이된(Transferred) 합성 음성을 출력할 수 있다.

예를 들어, Fine-Tuned 디코더(B')는, 텍스트에 대응되며, 합성하고자 하는 화자(Speaker ID)에 대응하는 화자 임베딩에 따라 사용자(예를 들어, 화자 4)의 발화 특성을 포함하나(사용자의 목소리에 대응되나), 멜-스펙트로그램에 따라 레퍼런스 음성의 화자(예를 들어, 화자 5)의 발화 스타일(예를 들어, 성조(tone), 강세(accent), 리듬(rhythm) 등을 포함)이 반영되며, 식별된 감정이 전이된(Tranfered) 합성 음성을 출력할 수 있다.

예를 들어, 전자 장치(100)의 사용자의 목소리이며, 유명 연예인 'A'의 발화 스타일이 반영되며, 감정이 전이되어 운율 특성(예, 음의 높이(예, 높낮이), 길이(예, 빠르기), 크기(예, 강약)))이 전이된, 프랑스어 텍스트(예를 들어, '

')에 대응되는 합성 음성을 출력할 수 있다.

일 예에 따라, 합성하고자 하는 화자(Speaker)(예를 들어, 화자 4(예, 남성 한국어 화자))가 스타일 인코더(A)의 학습 데이터인, 복수의 샘플 레퍼런스 음성 각각의 화자 토큰(예를 들어, 화자 1(예, 여성 프랑스어 화자), 화자 2(예, 여성 한국어 화자) 또는, 화자 3(예, 영어 화자)에 대응되지 않으면, 적어도 하나의 프로세서(120)는 레퍼런스 음성의 화자(또는, 전자 장치(100)의 사용자)가 발화하는 음성에 기초하여, 레퍼런스 음성의 화자의 발화 특성이 합성 음성이 포함되도록, 디코더(B)를 파인-튜닝(fine-tuning)할 수 있다.

본 개시에 따른 인공지능과 관련된 기능은 전자 장치(100)의 적어도 하나의 프로세서(120)와 메모리(110)를 통해 동작된다.

적어도 하나의 프로세서(120)는 CPU(Central Processing Unit), GPU(Graphic Processing Unit), NPU(Neural Processing Unit) 중 적어도 하나를 포함할 수 있으나 전술한 프로세서의 예시에 한정되지 않는다.

CPU는 일반 연산뿐만 아니라 인공지능 연산을 수행할 수 있는 범용 프로세서로서, 다계층 캐시(Cache) 구조를 통해 복잡한 프로그램을 효율적으로 실행할 수 있다. CPU는 순차적인 계산을 통해 이전 계산 결과와 다음 계산 결과의 유기적인 연계가 가능하도록 하는 직렬 처리 방식에 유리하다. 범용 프로세서는 전술한 CPU로 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

GPU는 그래픽 처리에 이용되는 부동 소수점 연산 등과 같은 대량 연산을 위한 프로세서로서, 코어를 대량으로 집적하여 대규모 연산을 병렬로 수행할 수 있다. 특히, GPU는 CPU에 비해 컨볼루션(Convolution) 연산 등과 같은 병렬 처리 방식에 유리할 수 있다. 또한, GPU는 CPU의 기능을 보완하기 위한 보조 프로세서(co-processor)로 이용될 수 있다. 대량 연산을 위한 프로세서는 전술한 GPU로 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

NPU는 인공 신경망을 이용한 인공지능 연산에 특화된 프로세서로서, 인공 신경망을 구성하는 각 레이어를 하드웨어(예로, 실리콘)로 구현할 수 있다. 이때, NPU는 업체의 요구 사양에 따라 특화되어 설계되므로, CPU나 GPU에 비해 자유도가 낮으나, 업체가 요구하기 위한 인공지능 연산을 효율적으로 처리할 수 있다. 한편, 인공지능 연산에 특화된 프로세서로, NPU 는 TPU(Tensor Processing Unit), IPU(Intelligence Processing Unit), VPU(Vision processing unit) 등과 같은 다양한 형태로 구현 될 수 있다. 인공 지능 프로세서는 전술한 NPU로 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

또한, 적어도 하나의 프로세서(120)는 SoC(System on Chip)으로 구현될 수 있다. 이때, SoC에는 하나 또는 복수의 프로세서 이외에 메모리, 및 프로세서와 메모리 사이의 데이터 통신을 위한 버스(Bus)등과 같은 네트워크 인터페이스를 더 포함할 수 있다.

전자 장치(100)에 포함된 SoC(System on Chip)에 복수의 프로세서가 포함된 경우, 전자 장치(100)는 복수의 프로세서 중 일부 프로세서를 이용하여 인공지능과 관련된 연산(예를 들어, 인공지능 모델의 학습(learning)이나 추론(inference)에 관련된 연산)을 수행할 수 있다. 예를 들어, 전자 장치(100)는 복수의 프로세서 중 컨볼루션 연산, 행렬 곱 연산 등과 같은 인공지능 연산에 특화된 GPU, NPU, VPU, TPU, 하드웨어 가속기 중 적어도 하나를 이용하여 인공지능과 관련된 연산을 수행할 수 있다. 다만, 이는 일 실시예에 불과할 뿐, CPU 등과 범용 프로세서를 이용하여 인공지능과 관련된 연산을 처리할 수 있음은 물론이다.

또한, 전자 장치(100)는 하나의 프로세서에 포함된 멀티 코어(예를 들어, 듀얼 코어, 쿼드 코어 등)를 이용하여 인공지능과 관련된 기능에 대한 연산을 수행할 수 있다. 특히, 전자 장치(100)는 프로세서에 포함된 멀티 코어를 이용하여 병렬적으로 컨볼루션 연산, 행렬 곱 연산 등과 같은 인공 지능 연산을 수행할 수 있다.

하나 또는 복수의 프로세서는, 메모리(110)에 저장된 기정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 기정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다.

여기서, 학습을 통해 만들어진다는 것은, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 원하는 특성의 기정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다.

인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 적어도 하나의 레이어는 적어도 하나의 가중치(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 적어도 하나의 정의된 연산을 통해 레이어의 연산을 수행한다. 신경망의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network), GAN (Generative Adversarial Networks), NeRF 및 심층 Q-네트워크 (Deep Q-Networks), Transformer가 있으며, 본 개시에서의 신경망은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

학습 알고리즘은, 다수의 학습 데이터들을 이용하여 소정의 대상 기기(예컨대, 로봇)을 훈련시켜 소정의 대상 기기 스스로 결정을 내리거나 예측을 할 수 있도록 하는 방법이다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 본 개시에서의 학습 알고리즘은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

본 개시의 실시 예에 따른 전자 장치의 제어 방법은, 레퍼런스 음성(Reference Speech)이 수신되면, 복수의 감정 중 레퍼런스 음성에 대응되는 감정을 식별한다(S1210).

복수의 감정 각각에 대응되는 토큰 셋 중 식별된 감정에 대응되는 토큰 셋을 획득한다(S1220).

레퍼런스 음성에 대한 정보 및 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득한다(S1230).

텍스트가 입력되면, 텍스트를 스타일 정보에 기초하여 획득된 디코더에 입력하여 텍스트에 대응되는 합성 음성을 획득한다(S1240).

텍스트에 대응되는 합성 음성을 출력한다(S1250).

레퍼런스 음성에 대한 정보는, 레퍼런스 임베딩(Reference Embedding)을 포함하며, 인코더는, 획득된 토큰 셋에 포함된 적어도 하나의 스타일 토큰(Style Token)과 레퍼런스 임베딩 사이의 유사도에 기초하여, 적어도 하나의 스타일 토큰의 가중 합(Weighted Sum)을 나타낸 스타일 임베딩(Style Embedding)을 포함하는 스타일 정보를 출력할 수 있다.

본 개시의 실시 에에 따른 제어 방법은, 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram)을 레퍼런스 인코더(Reference Encoder)에 입력하여 레퍼런스 임베딩을 획득하는 단계 및 텍스트에 대응되는 음운(Phoneme)을 텍스트 인코더(Text Encoder)에 입력하여 텍스트 임베딩을 획득하는 단계를 더 포함할 수 있다.

실시 예에 따른 감정을 식별하는 S1210 단계는, 감정 식별자(ID)가 수신되면, 복수의 감정 중 감정 식별자에 대응되는 감정을 식별하는 단계를 포함할 수 있다.

스타일 인코더는, 복수의 샘플 레퍼런스 음성 중 적어도 하나의 샘플 레퍼런스 음성에 대응되는 샘플 레퍼런스 임베딩과, 적어도 하나의 샘플 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 적어도 하나의 스타일 토큰 사이의 유사도를 학습한 비지도 학습(unsupervised learning) 모델일 수 있다.

실시 예에 따른 제어 방법은, 적어도 하나의 샘플 레퍼런스 음성에 대응되는 언어 토큰(Language Token), 화자 토큰(Speaker Token) 및 잔차 토큰(Residual Token)을 획득하는 단계를 더 포함하며, 스타일 인코더는, 적어도 하나의 샘플 레퍼런스 음성에 대응되는 샘플 레퍼런스 임베딩과, 적어도 하나의 샘플 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 적어도 하나의 스타일 토큰, 언어 토큰, 화자 토큰 및 잔차 토큰 사이의 유사도를 학습한 비지도 학습 모델일 수 있다.

실시 예에 따른 스타일 정보를 획득하는 S1230 단계는, 레퍼런스 음성의 언어가 적어도 하나의 샘플 레퍼런스 음성의 언어 토큰에 대응되면, 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 적어도 하나의 스타일 토큰, 언어 토큰을 스타일 인코더에 입력하여 스타일 정보를 획득하는 단계를 포함할 수 있다.

실시 예에 따른 스타일 정보를 획득하는 S1230 단계는, 합성하고자 하는 화자가 적어도 하나의 샘플 레퍼런스 음성의 화자 토큰에 대응되면, 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 적어도 하나의 스타일 토큰, 화자 토큰을 인코더에 입력하여 스타일 정보를 획득하는 단계를 포함할 수 있다.

실시 예에 따른 제어 방법은, 사용자의 발화 음성을 수신하는 단계 및 수신된 발화 음성에 기초하여 디코더가 출력하는 텍스트에 대응되는 합성 음성이 사용자의 발화 특성을 포함하도록 디코더를 파인-튜닝(fine-tuning)하는 단계를 더 포함할 수 있다.

실시 예에 따른 획득된 토큰 셋에 포함된 적어도 하나의 스타일 토큰은, 음성의 운율 특성들 중 적어도 하나에 대응될 수 있다.

다만, 본 개시의 다양한 실시 예들은 다양한 유형의 전자 장치에 적용될 수 있음은 물론이다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치에서의 처리 동작을 특정 기기가 수행하도록 한다.

비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

복수의 감정(Emotion) 각각에 대응되는 토큰 셋(Token Set)이 저장된 메모리; 및

레퍼런스 음성(Reference Speech)이 수신되면, 상기 복수의 감정 중 상기 레퍼런스 음성에 대응되는 감정을 식별하고,

상기 메모리에 저장된 복수의 토큰 셋 중 상기 식별된 감정에 대응되는 토큰 셋을 획득하고,

상기 레퍼런스 음성에 대한 정보 및 상기 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 상기 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득하며,

텍스트가 입력되면, 상기 텍스트를 상기 스타일 정보에 기초하여 획득된 디코더에 입력하여 상기 텍스트에 대응되는 합성 음성을 획득하고,

상기 텍스트에 대응되는 합성 음성을 출력하는 적어도 하나의 프로세서;를 포함하는 전자 장치.
제1항에 있어서,

상기 레퍼런스 음성에 대한 정보는, 레퍼런스 임베딩(Reference Embedding)을 포함하며,

상기 스타일 인코더는,

상기 획득된 토큰 셋에 포함된 적어도 하나의 스타일 토큰(Style Token)과 상기 레퍼런스 임베딩 사이의 유사도에 기초하여, 상기 적어도 하나의 스타일 토큰의 가중 합(Weighted Sum)을 나타낸 스타일 임베딩(Style Embedding)을 포함하는 상기 스타일 정보를 출력하는, 전자 장치.
제2항에 있어서,

상기 적어도 하나의 프로세서는,

상기 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram)을 레퍼런스 인코더(Reference Encoder)에 입력하여 상기 레퍼런스 임베딩을 획득하며,

상기 텍스트에 대응되는 음운(Phoneme)을 텍스트 인코더(Text Encoder)에 입력하여 텍스트 임베딩(Text Embedding)을 획득하는, 전자 장치.
제1항에 있어서,

상기 적어도 하나의 프로세서는,

감정 식별자(ID)가 수신되면, 상기 복수의 감정 중 상기 감정 식별자에 대응되는 상기 감정을 식별하는, 전자 장치.
제1항에 있어서,

상기 스타일 인코더는,

복수의 샘플 레퍼런스 음성 중 적어도 하나의 샘플 레퍼런스 음성에 대응되는 샘플 레퍼런스 임베딩과, 상기 적어도 하나의 샘플 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 적어도 하나의 스타일 토큰 사이의 유사도를 학습한 비지도 학습(unsupervised learning) 모델인, 전자 장치.
제5항에 있어서,

상기 적어도 하나의 프로세서는,

상기 적어도 하나의 샘플 레퍼런스 음성에 대응되는 언어 토큰(Language Token), 화자 토큰(Speaker Token) 및 잔차 토큰(Residual Token)을 획득하며,

상기 스타일 인코더는,

상기 적어도 하나의 샘플 레퍼런스 음성에 대응되는 상기 샘플 레퍼런스 임베딩과, 상기 적어도 하나의 샘플 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 상기 적어도 하나의 스타일 토큰, 상기 언어 토큰, 상기 화자 토큰 및 상기 잔차 토큰 사이의 유사도를 학습한 비지도 학습 모델인, 전자 장치.
제6항에 있어서,

상기 적어도 하나의 프로세서는,

상기 레퍼런스 음성의 언어가 상기 적어도 하나의 샘플 레퍼런스 음성의 상기 언어 토큰에 대응되면, 상기 레퍼런스 음성의 감정에 대응되는 상기 토큰 셋에 포함된 적어도 하나의 스타일 토큰, 상기 언어 토큰을 상기 스타일 인코더에 입력하여 상기 스타일 정보를 획득하는, 전자 장치.
제6항에 있어서,

상기 적어도 하나의 프로세서는,

합성하고자 하는 화자가 상기 적어도 하나의 샘플 레퍼런스 음성의 상기 화자 토큰에 대응되면, 상기 레퍼런스 음성의 감정에 대응되는 상기 토큰 셋에 포함된 적어도 하나의 스타일 토큰, 상기 화자 토큰을 상기 인코더에 입력하여 상기 스타일 정보를 획득하는, 전자 장치.
제1항에 있어서,

상기 적어도 하나의 프로세서는,

사용자의 발화 음성을 수신하며,

상기 수신된 발화 음성에 기초하여 상기 디코더가 출력하는 상기 텍스트에 대응되는 상기 합성 음성이 상기 사용자의 발화 특성을 포함하도록 상기 디코더를 파인-튜닝(fine-tuning)하는, 전자 장치.
제1항에 있어서,

상기 획득된 토큰 셋에 포함된 적어도 하나의 스타일 토큰은, 음성의 운율 특성들 중 적어도 하나에 대응되는, 전자 장치.
전자 장치의 제어 방법에 있어서,

레퍼런스 음성(Reference Speech)이 수신되면, 복수의 감정 중 상기 레퍼런스 음성에 대응되는 감정을 식별하는 단계;

상기 복수의 감정 각각에 대응되는 토큰 셋 중 상기 식별된 감정에 대응되는 토큰 셋을 획득하는 단계;

상기 레퍼런스 음성에 대한 정보 및 상기 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 상기 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득하는 단계;

텍스트가 입력되면, 상기 텍스트를 상기 스타일 정보에 기초하여 획득된 디코더에 입력하여 상기 텍스트에 대응되는 합성 음성을 획득하는 단계; 및

상기 텍스트에 대응되는 합성 음성을 출력하는 단계;를 포함하는 제어 방법.
제11항에 있어서,

상기 레퍼런스 음성에 대한 정보는, 레퍼런스 임베딩(Reference Embedding)을 포함하며,

상기 스타일 인코더는,

상기 획득된 토큰 셋에 포함된 적어도 하나의 스타일 토큰(Style Token)과 상기 레퍼런스 임베딩 사이의 유사도에 기초하여, 상기 적어도 하나의 스타일 토큰의 가중 합(Weighted Sum)을 나타낸 스타일 임베딩(Style Embedding)을 포함하는 상기 스타일 정보를 출력하는, 제어 방법.
제12항에 있어서,

상기 제어 방법은,

상기 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram)을 레퍼런스 인코더(Reference Encoder)에 입력하여 상기 레퍼런스 임베딩을 획득하는 단계; 및

상기 텍스트에 대응되는 음운(Phoneme)을 텍스트 인코더(Text Encoder)에 입력하여 상기 텍스트 임베딩(Text Embedding)을 획득하는 단계;를 더 포함하는, 제어 방법.
제11항에 있어서,

상기 감정을 식별하는 단계는,

감정 식별자(ID)가 수신되면, 상기 복수의 감정 중 상기 감정 식별자에 대응되는 상기 감정을 식별하는 단계;를 포함하는, 제어 방법.
제11항에 있어서,

상기 스타일 인코더는,

복수의 샘플 레퍼런스 음성 중 적어도 하나의 샘플 레퍼런스 음성에 대응되는 샘플 레퍼런스 임베딩과, 상기 적어도 하나의 샘플 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 적어도 하나의 스타일 토큰 사이의 유사도를 학습한 비지도 학습(unsupervised learning) 모델인, 제어 방법.