KR102221260B1 - 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법 - Google Patents

특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법 Download PDF

Info

Publication number
KR102221260B1
KR102221260B1 KR1020190033403A KR20190033403A KR102221260B1 KR 102221260 B1 KR102221260 B1 KR 102221260B1 KR 1020190033403 A KR1020190033403 A KR 1020190033403A KR 20190033403 A KR20190033403 A KR 20190033403A KR 102221260 B1 KR102221260 B1 KR 102221260B1
Authority
KR
South Korea
Prior art keywords
feature
speaker
embedding information
information
embedding
Prior art date
Application number
KR1020190033403A
Other languages
English (en)
Other versions
KR20200113364A (ko
Inventor
이수영
김태호
신영훈
최신국
김태훈
아잠라비
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020190033403A priority Critical patent/KR102221260B1/ko
Priority to PCT/KR2019/004270 priority patent/WO2020196979A1/ko
Publication of KR20200113364A publication Critical patent/KR20200113364A/ko
Application granted granted Critical
Publication of KR102221260B1 publication Critical patent/KR102221260B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

다양한 실시예들에 따른 전자 장치 및 그의 동작 방법은 특징 제어 가능 음성 모사를 위한 것으로, 텍스트를 인코딩하고, 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하고, 인코딩된 텍스트를 추론된 임베딩 정보와 함께 디코딩하여, 음성 신호를 발생시키도록 구성될 수 있다.

Description

특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법{ELECTRONIC APPARATUS FOR FEATURE CONTROLLABLE VOICE IMITATING AND OPERATING METHOD THEREOF}
다양한 실시예들은 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법에 관한 것이다.
일반적으로, 음성은 인간의 의사 소통 수단으로서 이용되는 의미 있는 소리이다. 인간과 기계 사이의 음성을 통한 통신 구현에 대한 시도는 과거부터 꾸준히 있어 왔으며, 최근 음성을 효과적으로 처리하는 기술이 실생활에 적용되고 있다. 예를 들면, 음성을 처리하는 기술은 음성 인식(speech recognition), 음성 합성(speech synthesis), 화자 인증(speaker identification and verification) 등을 포함한다. 음성 인식은 화자로부터 발화된 음성을 인식하여 텍스트로 변환하는 기술이고, 음성 합성은 텍스트를 음성으로 변환하는 기술이며, 화자 인증은 음성에 기반하여 화자를 추정하거나 인증하는 기술이다.
그런데, 상기와 같은 음성 합성에 따르면, 텍스트가 미리 정해진 음성으로만 변환될 뿐이다. 즉 텍스트가 하나의 화자의 음색을 갖는 음성으로만 변환될 뿐이다. 따라서, 텍스트를 다양한 음성으로 변환할 수 있는 방안이 요구된다.
다양한 실시예들에 따른 전자 장치의 동작 방법은 특징 제어 가능 음성 모사를 위한 것으로, 텍스트를 인코딩하는 동작, 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하는 동작, 및 상기 인코딩된 텍스트를 상기 추론된 임베딩 정보와 함께 디코딩하여, 음성 신호를 발생시키는 동작을 포함할 수 있다.
다양한 실시예들에 따른 전자 장치는 특징 제어 가능 음성 모사를 위한 것으로, 텍스트를 인코딩하는 텍스트 인코더, 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하는 결합부, 상기 인코딩된 텍스트를 상기 추론된 임베딩 정보와 함께 디코딩하는 디코더, 및 상기 디코딩된 텍스트에 대응하는 음성 신호를 발생시키는 보코더를 포함할 수 있다.
다양한 실시예들에 따르면, 전자 장치는 텍스트를 다양한 음성으로 변환할 수 있다. 즉 전자 장치는 화자 음성 신호를 선택적으로 이용하여, 다수의 화자들의 음성을 모사할 수 있다. 아울러, 전자 장치는 화자 음성 신호의 특징을 선택적으로 제어하여, 화자들의 음성을 가변적으로 모사할 수 있다. 예를 들면, 전자 장치는 음성을 다양한 감정으로 표현할 수 있다.
도 1은 다양한 실시예들에 따른 전자 장치를 도시하는 도면이다.
도 2는 도 1의 프로세서를 도시하는 도면이다.
도 3은 다양한 실시예들에 따른 전자 장치의 동작 방법을 도시하는 도면이다.
이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.
도 1은 다양한 실시예들에 따른 전자 장치(100)를 도시하는 도면이다.
도 1을 참조하면, 다양한 실시예들에 따른 전자 장치(100)는, 입력 모듈(110), 출력 모듈(120), 메모리(130) 또는 프로세서(140) 중 적어도 어느 하나를 포함할 수 있다.
입력 모듈(110)은 전자 장치(100)의 구성 요소에 사용될 명령 또는 데이터를 전자 장치(100)의 외부로부터 수신할 수 있다. 입력 모듈(110)은, 사용자가 전자 장치(100)에 직접적으로 명령 또는 데이터를 입력하도록 구성되는 입력 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 명령 또는 데이터를 수신하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse), 키보드(keyboard) 또는 카메라(camera) 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다.
출력 모듈(120)은 전자 장치(100)의 외부로 정보를 제공할 수 있다. 출력 모듈(120)은 정보를 청각적으로 출력하도록 구성되는 오디오 출력 장치, 정보를 시각적으로 출력하도록 구성되는 표시 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 정보를 전송하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다.
메모리(130)는 전자 장치(100)의 구성 요소에 의해 사용되는 데이터를 저장할 수 있다. 데이터는 프로그램 또는 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 예를 들면, 메모리(130)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다.
프로세서(140)는 메모리(130)의 프로그램을 실행하여, 전자 장치(100)의 구성 요소를 제어할 수 있고, 데이터 처리 또는 연산을 수행할 수 있다. 프로세서(140)는 텍스트를 음성 신호로 변환할 수 있다. 여기서, 프로세서(140)는 딥러닝을 위한 신경 회로망을 기반으로, 텍스트를 음성 신호로 변환할 수 있다. 이 때 프로세서(140)는 텍스트를 음성 신호로 변환하는 데 있어서, 특정 화자의 음성을 모사할 수 있다. 예를 들면, 프로세서(140)는 텍스트를 화자의 음색을 갖는 음성 신호로 변환할 수 있다. 이를 통해, 프로세서(140)는, 특정 화자에 의해 텍스트가 발화되는 것과 같이, 음성 신호를 생성할 수 있다. 아울러, 프로세서(140)는 텍스트를 음성 신호로 변환하는 데 있어서, 특정 화자의 음성에서 적어도 하나의 특징을 제어할 수 있다. 이를 위해, 프로세서(140)는 텍스트를 음성 신호로 변환하는 데, 미리 저장된 화자 음성 신호와 미리 저장된 특징 정보를 이용할 수 있다. 이 때 프로세서(140)는 화자 음성 신호에서 특징 정보에 대응하는 특징 요소를 제거하고, 제거된 특징 요소를 대신하여 특징 정보를 적용할 수 있다. 이를 통해, 화자 음성 신호와 특징 정보 간 상관 관계가 제거될 수 있다. 예를 들면, 특징 정보는 감정, 성별 또는 연령 중 적어도 어느 하나를 포함할 수 있다.
도 2는 도 1의 프로세서(140)를 도시하는 도면이다.
도 2를 참조하면, 프로세서(140)는 텍스트 인코더(210), 화자 인코더(220), 특징 인코더(230), 결합부(240), 디코더(250) 또는 보코더(260) 중 적어도 어느 하나를 포함할 수 있다.
텍스트 인코더(210)는 텍스트를 인코딩할 수 있다. 이 때 텍스트는 입력 모듈(110)을 통해 입력될 수 있다. 일 예로, 텍스트는 입력 장치를 통해 사용자로부터 직접적으로 입력될 수 있다. 다른 예로, 텍스트는 통신 장치를 통해 외부 전자 장치로부터 수신될 수 있다. 또는 텍스트는 메모리(130)에 저장되어 있으며, 프로세서(140)에 의해 메모리(130)로부터 인출될 수 있다.
화자 인코더(220)는 화자 음성 신호를 인코딩할 수 있다. 여기서, 화자 음성 신호는 메모리(130)에 미리 저장되어 있으며, 가변적 길이를 가질 수 있다. 예를 들면, 화자 음성 신호는 발화 내용을 포함하지 않으며, 화자 음성 신호가 발화 내용을 포함하는 경우, 프로세서(140)가 화자 음성 신호로부터 발화 내용을 제거할 수 있다. 이를 통해, 화자 인코더(220)는 화자 음성 신호로부터 화자 임베딩 정보를 생성할 수 있다. 여기서, 화자 임베딩 정보는 고정된 길이를 가질 수 있다. 이 때 화자 인코더(220)는 RNN(recurrent neural network), GRU(gated recurrent unit), LSTM(long short term memory network) 또는 CNN(convolutional neural network) 중 적어도 어느 하나의 기법을 사용하여, 화자 임베딩 정보를 추론할 수 있다. 어떤 실시예에서는, 화자 인코더(220)는 화자 음성 신호의 화자 인식(speaker identification)을 위한 추가 학습을 수행할 수 있다. 화자 인코더(220)는 LDA(linear discriminate analysis)를 적용하여, 화자 음성 신호의 화자를 구분할 수 있다. 예를 들면, 동일한 화자에 의한 복수 개의 화자 음성 신호들로부터 동일한 화자 임베딩 정보가 생성될 수 있다.
특징 인코더(230)는 특징 정보를 인코딩할 수 있다. 여기서, 특징 정보는 메모리(130)에 미리 저장되어 있으며, 가변적 길이를 가질 수 있다. 예를 들면, 특징 정보는 이산적인 또는 연속적 특징 변수를 가질 수 있다. 이를 통해, 특징 인코더(230)는 특징 정보로부터 특징 임베딩 정보를 생성할 수 있다. 즉 특징 인코더(230)는 특징 정보와 관련된 이산적 또는 연속적 특징 변수를 기반으로, 특징 임베딩 정보를 추론할 수 있다. 여기서, 특징 임베딩 정보는 고정된 길이를 가질 수 있다. 이 때 특징 인코더(230)는 RNN, GRU, LSTM 또는 CNN 중 적어도 어느 하나의 기법을 사용하여, 특징 임베딩 정보를 추론할 수 있다. 예를 들면, 특징 인코더(230)는 특징 정보와 관련되는 하나의 제어 값의 곱을 사용하여, 특징 정보에 대한 세기 정도를 부여할 수 있으며, 특징 정보와 관련되는 복수 개의 제어 값들을에 대해 복합적인 결과를 획득할 수도 있다.
결합부(240)는 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론할 수 있다. 이 때 결합부(240)는 화자 임베딩 정보와 특징 임베딩 정보를 결합하여, 임베딩 정보를 생성할 수 있다. 결합부(240)는 가중치 합, 곱셈 또는 신경망(neural network) 중 적어도 어느 하나를 사용하여, 화자 임베딩 정보와 특징 임베딩 정보를 결합할 수 있다. 예를 들면, 신경망은 RNN, GRU, LSTM 또는 CNN 중 적어도 어느 하나를 포함할 수 있다.
디코더(250)는 인코딩된 텍스트를 임베딩 정보와 함께 디코딩할 수 있다. 즉 디코더(250)가 인코딩된 테스트와 임베딩 정보를 합성할 수 있다.
보코더(260)는 디코딩된 텍스트에 대응하는 음성 신호를 발생시킬 수 있다.
다양한 실시예들에 따른 전자 장치(100)는 특징 제어 가능 음성 모사를 위한 것으로, 텍스트를 인코딩하는 텍스트 인코더(210), 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하는 결합부(240), 인코딩된 텍스트를 추론된 임베딩 정보와 함께 디코딩하는 디코더(250), 및 디코딩된 텍스트에 대응하는 음성 신호를 발생시키는 보코더(260)를 포함할 수 있다.
다양한 실시예들에 따르면, 전자 장치(100)는, 화자 음성 신호를 인코딩하여, 화자 임베딩 정보를 추론하는 화자 인코더(220), 및 특징 정보를 인코딩하여, 특징 임베딩 정보를 추론하는 특징 인코더(230)를 더 포함할 수 있다.
다양한 실시예들에 따르면, 결합부(240)는, 화자 임베딩 정보와 특징 임베딩 정보를 결합하여, 임베딩 정보를 생성할 수 있다.
다양한 실시예들에 따르면, 결합부(240)는, 가중치 합, 곱셈 또는 신경망 중 적어도 어느 하나를 사용하여, 화자 임베딩 정보와 특징 임베딩 정보를 결합할 수 있다.
다양한 실시예들에 따르면, 전자 장치(100)는 화자 임베딩 정보와 특징 임베딩 정보 간 상과 관계가 제거되도록, 화자 음성 신호로부터 특징 정보에 대응하는 특징 요소를 제거하는 프로세서(140)를 더 포함할 수 있다.
다양한 실시예들에 따르면, 특징 정보는 감정, 성별 또는 연령 중 적어도 어느 하나를 포함할 수 있다.
다양한 실시예들에 따르면, 특징 인코더(230)는 특징 정보와 관련된 이산적 또는 연속적 특징 변수를 기반으로, 특징 임베딩 정보를 추론할 수 있다.
다양한 실시예들에 따르면, 화자 음성 신호는 가변적 길이를 갖고, 화자 임베딩 정보는 고정된 길이를 가질 수 있다.
다양한 실시예들에 따르면, 특징 정보는 가변적 길이를 갖고, 특징 임베딩 정보는 고정된 길이를 가질 수 있다.
도 3은 다양한 실시예들에 따른 전자 장치(100)의 동작 방법을 도시하는 도면이다.
도 3을 참조하면, 전자 장치(100)는 310 동작에서 텍스트를 인코딩할 수 있다. 이 때 프로세서(140)가 텍스트 인코더(210)를 통하여 텍스트를 인코딩할 수 있다. 이 때 텍스트는 입력 모듈(110)을 통해 입력될 수 있다. 일 예로, 텍스트는 입력 장치를 통해 사용자로부터 직접적으로 입력될 수 있다. 다른 예로, 텍스트는 통신 장치를 통해 외부 전자 장치로부터 수신될 수 있다. 또는 텍스트는 메모리(130)에 저장되어 있으며, 프로세서(140)가 메모리(130)로부터 텍스트를 읽어 올 수 있다.
전자 장치(100)는 320 동작에서 화자 임베딩 정보와 특징 임베딩 정보를 각각 추론할 수 있다. 메모리(130)에, 적어도 하나의 화자 음성 신호와 특징 정보와 관련된 적어도 하나의 제어 값이 저장되어 있을 수 있다. 여기서, 화자 음성 신호와 특징 정보와 관련된 제어 값은 가변적인 길이를 가질 수 있다. 메모리(130)의 화자 음성 신호는, 화자 음성 신호로부터 생성되는 화자 임베딩 정보의 분산이 최소가 되어야 하는 조건, 화자 음성 신호가 블록 단위로 분할되어 셔플(shuffle)을 통해 생성되는 화자 임베딩 정보가 동일한 값을 가져야 하는 조건 및 동일한 화자에 의한 복수 개의 화자 음성 신호들로부터 동일한 화자 임베딩 정보가 생성되어야 하는 조건을 충족할 수 있다. 프로세서(140)는 화자 음성 신호 중 어느 하나와 특징 정보와 관련된 제어 값 중 적어도 어느 하나를 선택할 수 있다. 프로세서(140)는 화자 인코더(220)를 통해 선택된 화자 음성 신호를 인코딩하여, 화자 임베딩 정보를 추론할 수 있다. 여기서, 화자 임베딩 정보는 고정된 길이를 가질 수 있다. 이 때 프로세서(140)는 화자 음성 신호에서 특징 정보에 대응하는 특징 요소를 제거한 다음, 화자 음성 신호를 인코딩할 수 있다. 이를 통해, 화자 음성 신호와 특징 정보 간 상관 관계가 제거될 수 있다. 화자 인코더(220)는 RNN, GRU, LSTM 또는 CNN 중 적어도 어느 하나의 기법을 사용하여, 화자 임베딩 정보를 추론할 수 있다. 프로세서(140)는 특징 인코더(230)를 통해 선택된 제어 값의 특징 정보를 인코딩하여, 특징 임베딩 정보를 추론할 수 있다. 여기서, 특징 임베딩 정보는 고정된 길이를 가질 수 있다. 특징 인코더(230)는 RNN, GRU, LSTM 또는 CNN 중 적어도 어느 하나의 기법을 사용하여, 특징 임베딩 정보를 추론할 수 있다.
전자 장치(100)는 330 동작에서 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론할 수 있다. 이 때 화자 음성 신호에서 제거된 특징 요소를 대신하여 특징 정보가 적용될 수 있다. 즉 전자 장치(100)는 화자 임베딩 정보와 특징 임베딩 정보로부터 임베딩 정보를 생성할 수 있다. 이를 위해, 프로세서(140)가 결합부(240)를 통해 화자 임베딩 정보와 특징 임베딩 정보를 결합하여, 임베딩 정보를 생성할 수 있다. 결합부(240)는 가중치 합, 곱셈 또는 신경망 중 적어도 어느 하나를 사용하여, 화자 임베딩 정보와 특징 임베딩 정보를 결합할 수 있다. 예를 들면, 신경망은 RNN, GRU, LSTM 또는 CNN 중 적어도 어느 하나를 포함할 수 있다.
전자 장치(100)는 340 동작에서 인코딩된 텍스트를 임베딩 정보와 함께 디코딩할 수 있다. 프로세서(140)는 디코더(250)를 통해 인코딩된 텍스트를 임베딩 정보와 함께 디코딩할 수 있다.
전자 장치(100)는 350 동작에서 디코딩된 텍스트에 대응하는 음성 신호를 발생시킬 수 있다. 프로세서(140)는 보코더(260)를 통해 음성 신호를 발생시킬 수 있다.
다양한 실시예들에 따른 전자 장치(100)의 동작 방법은 특징 제어 가능 음성 모사를 위한 것으로, 텍스트를 인코딩하는 동작, 화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하는 동작, 및 인코딩된 텍스트를 추론된 임베딩 정보와 함께 디코딩하여, 음성 신호를 발생시키는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 임베딩 정보 추론 동작은, 화자 음성 신호를 인코딩하여, 화자 임베딩 정보를 추론하는 동작, 특징 정보를 인코딩하여, 특징 임베딩 정보를 추론하는 동작, 및 화자 임베딩 정보와 특징 임베딩 정보를 결합하여, 임베딩 정보를 생성하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 임베딩 정보 생성 동작은, 가중치 합, 곱셈 또는 신경망 중 적어도 어느 하나를 사용하여, 화자 임베딩 정보와 특징 임베딩 정보를 결합하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 화자 임베딩 정보 추론 동작은, 화자 임베딩 정보와 특징 임베딩 정보 간 상과 관계가 제거되도록, 화자 음성 신호로부터 특징 정보에 대응하는 특징 요소를 제거하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 특징 정보는 감정, 성별 또는 연령 중 적어도 어느 하나를 포함할 수 있다.
다양한 실시예들에 따르면, 특징 임베딩 정보 추론 동작은, 특징 정보와 관련된 이산적 또는 연속적 특징 변수를 기반으로, 특징 임베딩 정보를 추론하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 화자 음성 신호는 가변적 길이를 갖고, 화자 임베딩 정보는 고정된 길이를 가질 수 있다.
다양한 실시예들에 따르면, 특징 정보는 가변적 길이를 갖고, 상기 특징 임베딩 정보는 고정된 길이를 가질 수 있다.
다양한 실시예들에 따르면, 전자 장치(100)는 텍스트를 다양한 음성으로 변환할 수 있다. 즉 전자 장치(100)는 화자 음성 신호를 선택적으로 이용하여, 다수의 화자들의 음성을 모사할 수 있다. 아울러, 전자 장치(100)는 화자 음성 신호의 특징을 선택적으로 제어하여, 화자들의 음성을 가변적으로 모사할 수 있다. 예를 들면, 전자 장치(100)는 한 화자의 음성을 다양한 감정으로 표현할 수 있다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(100))에 의해 읽을 수 있는 저장 매체(storage medium)(예: 메모리(130))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 기기의 프로세서(예: 프로세서(140))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체 는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
다양한 실시예들에 따르면, 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 통합 이전에 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims (15)

  1. 특징 제어 가능 음성 모사를 위한 전자 장치의 동작 방법에 있어서,
    텍스트를 인코딩하는 동작;
    화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하는 동작; 및
    상기 인코딩된 텍스트를 상기 추론된 임베딩 정보와 함께 디코딩하여, 음성 신호를 발생시키는 동작을 포함하고,
    상기 임베딩 정보 추론 동작은,
    상기 화자 음성 신호를 인코딩하여, 화자 임베딩 정보를 추론하는 동작;
    상기 특징 정보를 인코딩하여, 특징 임베딩 정보를 추론하는 동작; 및
    상기 화자 임베딩 정보와 상기 특징 임베딩 정보를 결합하여, 상기 임베딩 정보를 생성하는 동작을 포함하고,
    상기 화자 임베딩 정보 추론 동작은,
    상기 화자 음성 신호로부터 상기 특징 정보에 대응하는 특징 요소를 제거하는 동작; 및
    상기 특징 요소가 제거된 상기 화자 음성 신호를 인코딩하는 동작을 포함하고,
    상기 특징 정보는 감정, 성별 및 연령을 포함하는 방법.
  2. 삭제
  3. 제 1 항에 있어서, 상기 임베딩 정보 생성 동작은,
    가중치 합, 곱셈 또는 신경망 중 적어도 어느 하나를 사용하여, 상기 화자 임베딩 정보와 상기 특징 임베딩 정보를 결합하는 동작을 포함하는 방법.
  4. 삭제
  5. 삭제
  6. 제 1 항에 있어서, 상기 특징 임베딩 정보 추론 동작은,
    상기 특징 정보와 관련된 이산적 또는 연속적 특징 변수를 기반으로, 상기 특징 임베딩 정보를 추론하는 동작을 포함하는 방법.
  7. 제 1 항에 있어서,
    상기 화자 음성 신호와 상기 특징 정보는 각각 가변적 길이를 갖고,
    상기 화자 임베딩 정보와 상기 특징 임베딩 정보는 각각 고정된 길이를 갖는 방법.
  8. 특징 제어 가능 음성 모사를 위한 전자 장치에 있어서,
    텍스트를 인코딩하는 텍스트 인코더;
    화자 음성 신호를 인코딩하여, 화자 임베딩 정보를 추론하는 화자 인코더;
    특징 정보를 인코딩하여, 특징 임베딩 정보를 추론하는 특징 인코더;
    상기 화자 임베딩 정보와 상기 특징 임베딩 정보를 결합하여, 임베딩 정보를 생성하는 결합부;
    상기 인코딩된 텍스트를 상기 추론된 임베딩 정보와 함께 디코딩하는 디코더;
    상기 디코딩된 텍스트에 대응하는 음성 신호를 발생시키는 보코더를 포함하고,
    상기 화자 음성 신호로부터 상기 특징 정보에 대응하는 특징 요소를 제거하는 프로세서를 더 포함하고,
    상기 화지 인코더는,
    상기 특징 요소가 제거된 상기 화자 음성 신호를 인코딩하고,
    상기 특징 정보는 감정, 성별 및 연령을 포함하는 전자 장치.
  9. 삭제
  10. 삭제
  11. 제 8 항에 있어서, 상기 결합부는,
    가중치 합, 곱셈 또는 신경망 중 적어도 어느 하나를 사용하여, 상기 화자 임베딩 정보와 상기 특징 임베딩 정보를 결합하는 전자 장치.
  12. 삭제
  13. 삭제
  14. 제 8 항에 있어서, 상기 특징 인코더는,
    상기 특징 정보와 관련된 이산적 또는 연속적 특징 변수를 기반으로, 상기 특징 임베딩 정보를 추론하는 전자 장치.
  15. 제 8 항에 있어서,
    상기 화자 음성 신호와 상기 특징 정보는 각각 가변적 길이를 갖고,
    상기 화자 임베딩 정보와 상기 특징 임베딩 정보는 각각 고정된 길이를 갖는 전자 장치.
KR1020190033403A 2019-03-25 2019-03-25 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법 KR102221260B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190033403A KR102221260B1 (ko) 2019-03-25 2019-03-25 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법
PCT/KR2019/004270 WO2020196979A1 (ko) 2019-03-25 2019-04-10 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190033403A KR102221260B1 (ko) 2019-03-25 2019-03-25 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법

Publications (2)

Publication Number Publication Date
KR20200113364A KR20200113364A (ko) 2020-10-07
KR102221260B1 true KR102221260B1 (ko) 2021-03-02

Family

ID=72610636

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190033403A KR102221260B1 (ko) 2019-03-25 2019-03-25 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법

Country Status (2)

Country Link
KR (1) KR102221260B1 (ko)
WO (1) WO2020196979A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220080629A (ko) * 2020-12-07 2022-06-14 서울대학교산학협력단 화자 외 정보가 제거된 화자 임베딩 장치 및 방법
WO2024090711A1 (ko) * 2022-10-27 2024-05-02 삼성전자 주식회사 음성 신호 비식별화 처리 방법 및 그 전자 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003233388A (ja) * 2002-02-07 2003-08-22 Sharp Corp 音声合成装置および音声合成方法、並びに、プログラム記録媒体
JP4930584B2 (ja) * 2007-03-20 2012-05-16 富士通株式会社 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム
KR101097186B1 (ko) * 2010-03-03 2011-12-22 미디어젠(주) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
GB2516942B (en) * 2013-08-07 2018-07-11 Samsung Electronics Co Ltd Text to Speech Conversion
KR102137523B1 (ko) * 2017-08-09 2020-07-24 한국과학기술원 텍스트-음성 변환 방법 및 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RJ Skerry-Rtan et al., ‘Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron’, arXiv:1803.09047v1, [cs.CL], 24 March 218.*
Younggun Lee et al., ‘Emotional end-to-end neural speech synthesizer’, arXiv:1711.05447v2, [cs.SD], 28 November 2017.*

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220080629A (ko) * 2020-12-07 2022-06-14 서울대학교산학협력단 화자 외 정보가 제거된 화자 임베딩 장치 및 방법
KR102477444B1 (ko) 2020-12-07 2022-12-15 서울대학교산학협력단 화자 외 정보가 제거된 화자 임베딩 장치 및 방법
WO2024090711A1 (ko) * 2022-10-27 2024-05-02 삼성전자 주식회사 음성 신호 비식별화 처리 방법 및 그 전자 장치

Also Published As

Publication number Publication date
KR20200113364A (ko) 2020-10-07
WO2020196979A1 (ko) 2020-10-01

Similar Documents

Publication Publication Date Title
KR102199928B1 (ko) 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법
CN112599122B (zh) 基于自注意力机制和记忆网络的语音识别方法及装置
KR102221260B1 (ko) 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법
CN113886643A (zh) 数字人视频生成方法、装置、电子设备和存储介质
CN111128118A (zh) 语音合成方法、相关设备及可读存储介质
CN110544470B (zh) 语音识别方法、装置、可读存储介质和电子设备
US10971149B2 (en) Voice interaction system for interaction with a user by voice, voice interaction method, and program
CN113987269A (zh) 数字人视频生成方法、装置、电子设备和存储介质
KR102163862B1 (ko) 멀티스케일 음성 감정 인식을 위한 전자 장치 및 그의 동작 방법
KR102137523B1 (ko) 텍스트-음성 변환 방법 및 시스템
CN113886644A (zh) 数字人视频生成方法、装置、电子设备和存储介质
JP2008125815A (ja) 会話ロボットシステム
KR102183280B1 (ko) 멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반 전자 장치 및 그의 동작 방법
CN113178200B (zh) 语音转换方法、装置、服务器及存储介质
US11404045B2 (en) Speech synthesis method and apparatus
JP2020190605A (ja) 音声処理装置及び音声処理プログラム
CN113362858B (zh) 语音情感分类方法、装置、设备及介质
KR20190140803A (ko) 감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법
US12002475B2 (en) Electronic device performing speaker recognition and control method thereof
CN116711006A (zh) 电子装置及其控制方法
CN111562815A (zh) 无线头戴装置及语言翻译系统
CN117238275B (zh) 基于常识推理的语音合成模型训练方法、装置及合成方法
CN111354351A (zh) 控制装置、语音交互装置、语音识别服务器以及存储介质
WO2018139275A1 (ja) 機器、出力装置、出力方法および出力プログラム
KR102382191B1 (ko) 음성 감정 인식 및 합성의 반복 학습 방법 및 장치

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant