KR20230099934A - 복수의 화자음성을 이용한 음성 변환 장치 및 그 방법 - Google Patents

복수의 화자음성을 이용한 음성 변환 장치 및 그 방법 Download PDF

Info

Publication number
KR20230099934A
KR20230099934A KR1020210189386A KR20210189386A KR20230099934A KR 20230099934 A KR20230099934 A KR 20230099934A KR 1020210189386 A KR1020210189386 A KR 1020210189386A KR 20210189386 A KR20210189386 A KR 20210189386A KR 20230099934 A KR20230099934 A KR 20230099934A
Authority
KR
South Korea
Prior art keywords
voice
speaker
voices
text
language
Prior art date
Application number
KR1020210189386A
Other languages
English (en)
Inventor
유희조
권은지
Original Assignee
(주)스마일게이트엔터테인먼트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)스마일게이트엔터테인먼트 filed Critical (주)스마일게이트엔터테인먼트
Priority to KR1020210189386A priority Critical patent/KR20230099934A/ko
Publication of KR20230099934A publication Critical patent/KR20230099934A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building

Abstract

본 발명은, 복수의 화자음성 믹싱(mixing)함으로써 사용자의 의도에 따라 현실에 존재하지 않는 새로운 목소리에 기반한 음성을 출력시킬 수 있는 복수의 화자음성을 이용한 음성 변환 장치 및 그 방법에 관한 것으로, 상기 음성 변환 장치는, 복수의 화자 음성 중 N(N>1, N은 자연수)개의 화자 음성 및 가중치_설정값을 선택하기 위한 사용자 선택을 입력받는 사용자 입력부; 상기 사용자 선택에 따라 선택된 N개의 화자 음성 각각의 가중치를 상기 가중치_설정값에 따라 적용하고, 적용된 가중치_설정값에 따라 N개의 화자 음성을 믹싱하여 조합음성을 생성하는 화자음성 조합부; 텍스트가 입력되면 생성된 조합음성을 이용하여 텍스트를 음성 신호로 변환한 후 합성하는 TTS변환부; 및 합성된 음성을 증폭하여 스피커를 통해 출력시키는 음성출력부;를 포함한다.

Description

복수의 화자음성을 이용한 음성 변환 장치 및 그 방법 {THE TEXT-TO-SPEECH CONVERSION DEVICE AND THE METHOD THEREOF USING A PLURALITY OF SPEAKER VOICES}
본 발명은, 실제 존재하지 않는 목소리를 제작하는 음성 합성 기술에 관한 것으로서, 더욱 상세하게는, 복수의 화자음성 믹싱(mixing)함으로써 사용자의 의도에 따라 현실에 존재하지 않는 새로운 목소리에 기반한 음성을 출력시킬 수 있는 복수의 화자음성을 이용한 음성 변환 장치 및 그 방법에 관한 것이다.
텍스트 음성 변환(Text To Speech, TTS)은 문자(텍스트)를 사람 음성으로 변환하는 음성합성기술로, 거의 모든 단어와 문장의 음성을 쉽게 구현할 수 있다. 이러한 TTS는 고객센터에 전화를 걸면 나오는 자동응답시스템(ARS) 음성, 버스나 지하철의 안내 음성, 아파트 관리 사무소의 방송 목소리, AI 스피커 등 생활 속에서도 쉽게 접할 수 있다.
이러한 TTS는 미리 사람 목소리를 녹음해 일정한 음성 단위로 쪼개 모아 두고, 텍스트가 입력되면 화자음성 데이터베이스에서 문장에 걸맞은 목소리 조각을 찾아 조합해 내놓는 방식으로, 텍스트를 쉽게 음성으로 변환할 수 있다는 장점이 있으나, 미리 녹음된 분절음을 단순 조합하는 것이므로 억양이 부자연스럽고 발음이 어눌하다는 단점이 있었다.
그러나 최근 TTS에 빅데이터와 AI 기술이 결합하면서 더욱 자연스러운 음성을 생성하는 기술이 날로 발전하고 있다. 기존에는 녹음된 단어를 이어붙이는 방식이었다면, 최근에는 딥러닝을 통해 녹음된 발음을 기반으로 학습하고, 녹음되지 않은 소리까지 예상해 만들어내는 것이다.
하지만, 이러한 TTS의 발전에도 불구하고 현실에 존재하는 목소리만을 학습하고 출력해낼 수 있어 다양한 음성 지원을 원하는 사용자의 요구를 만족시키지 못하고 있다.
국내공개번호 10-2010-0000249 (2010.01.06)
본 발명은 상술한 종래의 문제점을 해결하기 위하여 제안된 것으로, 사용자 선택에 따른 복수의 화자음성 및 믹싱 비율을 이용해 새로운 조합음성을 생성하고, 입력되는 텍스트를 생성된 새로운 조합음성으로 변환하여 출력하는 음성 변환 장치 및 그 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은, 사용자 선택에 따른 복수의 화자음성 및 믹싱 비율을 이용해 새로운 조합음성을 생성하는 동시에, 새로운 조합음성과 감정음성을 이용해 텍스트를 변환하여 합성음성을 출력하는 음성 변환 장치 및 그 방법을 제공하는데 또 다른 목적이 있다.
또한, 본 발명은, 사용자 선택에 따른 복수의 화자음성 및 믹싱 비율을 이용해 새로운 조합음성을 생성하는 동시에, 생성된 조합음성의 화자특성을 유지한 상태로 다국어 발화가 가능하도록 텍스트를 변환하여 합성음성을 출력하는 음성 변환 장치 및 그 방법을 제공하는데 또 다른 목적이 있다.
상기와 같은 목적을 달성하기 위해, 본 발명의 복수의 화자음성을 이용한 음성 변환 장치는, 복수의 화자 음성 중 N(N>1, N은 자연수)개의 화자 음성 및 가중치_설정값을 선택하기 위한 사용자 선택을 입력받는 사용자 입력부; 상기 사용자 선택에 따라 선택된 N개의 화자 음성 각각의 가중치를 상기 가중치_설정값에 따라 적용하고, 적용된 가중치_설정값에 따라 N개의 화자 음성을 믹싱하여 조합음성을 생성하는 화자음성 조합부; 텍스트가 입력되면 생성된 조합음성을 이용하여 텍스트를 음성 신호로 변환한 후 합성하는 TTS변환부; 및 합성된 음성을 증폭하여 스피커를 통해 출력시키는 음성출력부;를 포함한다.
또한, 상기 화자음성 조합부는, 상기 사용자 선택에 따라 선택된 N개의 화자 음성을 화자음성DB로부터 검색하는 화자음성 검색부; 상기 가중치_설정값에 따라 상기 N개의 화자 음성 각각에 대한 가중치를 설정하는 가중치 설정부; 및 상기 가중치_설정값에 따라 N개의 화자 음성을 믹싱하고, 상기 N개의 화자 음성의 화자특성(음색)을 합성하여 조합음성을 생성하는 조합음성 생성부;를 포함하여 이루어진다.
또한, 상기 화자음성DB는, 서로 다른 음색(TIMBRE)을 가진 복수의 화자 음성이 성별, 나이 및 직업군에 따라 미리 분류되어 저장되며, 상기 직업군은 연예인, 아나운서, 성우 및 애니 캐릭터를 적어도 포함하는 것을 특징으로 한다.
또한, 상기 음성 변환 장치는, 감정에 대응하는 감정음성이 저장되는 감정음성DB; 및 상기 사용자 선택에 따른 감정에 대응하는 감정음성을 검색하는 감정음성 선택부;를 더 포함하며, 상기 감정은 기쁨, 슬픔, 화남, 공포, 놀람을 적어도 포함하며, 상기 감정음성은 감정의 종류 및 감정의 강도(세기)에 따라 출력되는 음의 크기, 속도 및 높낮이에 대한 설정정보가 포함된 음성신호이며, 상기 TTS변환부는, 선택된 조합음성으로 텍스트를 제1 음성 신호로 변환하고, 선택된 감정음성으로 텍스트를 제2 음성 신호로 변환한 후, 제1 음성 신호를 상기 선택된 감정음성의 음성의 크기, 속도 및 높낮이에 대한 설정정보가 포함된 상기 제2 음성 신호와 합성하여 상기 선택된 조합음성의 음성으로 변환하는 것을 특징으로 한다.
또한, 상기 음성 변환 장치는, 각 언어별 화자음성이 저장되는 다국어음성DB; 및 상기 사용자 선택에 따른 제1 언어의 화자음성을 검색하는 다국어음성 선택부;를 더 포함하며, 상기 TTS변환부는 선택된 조합음성으로 텍스트를 변환하여 음성 신호를 생성한 후 생성된 음성 신호로부터 선택된 조합음성의 화자특성을 추출하고, 상기 텍스트를 제1 언어의 텍스트로 변환한 후, 변환된 제1 언어의 텍스트를 상기 제1 언어의 화자음성으로 변환하여 제1 언어의 음성 신호를 생성하고, 추출한 조합음성의 화자특성을 상기 제1 언어의 음성 신호와 합성하여 상기 제1 언어의 텍스트에 대한 합성음성을 생성하는 것을 특징으로 한다.
또한, 상기 화자특성은 화자의 음색, 음높이, 발화 속도, 발음 강세 및 휴지 구간에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.
한편, 상기와 같은 목적을 달성하기 위해, 본 발명의 복수의 화자음성을 이용한 음성 변환 방법은, (a) 화자음성DB로부터 선택된 복수의 화자음성을 추출하는 단계; (b) 추출된 복수의 화자음성 각각에 대한 가중치_설정값을 입력받아 설정하는 단계; (c) 추출된 복수의 화자음성을 각 화자음성의 가중치_설정값에 따라 믹싱하여 조합음성을 생성하는 단계; 및 (d) 생성된 조합음성으로 입력된 텍스트를 변환하여 합성음성을 출력하는 단계;를 포함한다.
또한, 상기 가중치_설정값은 복수의 화자음성의 믹싱에 있어서 각 화자음성의 믹싱 비율이며, 상기 복수의 화자음성은 화자특성으로서 음색 및 운율정보를 포함하는 것을 특징으로 한다.
상기 음성 변환 방법은, 사용자 선택에 따른 감정 선택 정보를 입력받고, 선택된 감정에 대응하는 감정음성을 감정음성DB로부터 검색하여 추출하는 단계;를 더 포함하며, 상기 감정은 기쁨, 슬픔, 화남, 공포, 놀람을 적어도 포함하며, 상기 감정음성은 감정의 종류 및 감정의 강도(세기)에 따라 출력되는 음의 크기, 속도 및 높낮이에 대한 설정정보가 포함된 음성신호이며, 상기 (d)단계는, 선택된 조합음성으로 텍스트를 제1 음성 신호로 변환하고, 선택된 감정음성으로 텍스트를 제2 음성 신호로 변환한 후, 제1 음성 신호를 상기 선택된 감정음성의 음성의 크기, 속도 및 높낮이에 대한 설정정보가 포함된 상기 제2 음성 신호와 합성하여 상기 선택된 조합음성의 음성으로 변환하는 단계인 것을 특징으로 한다.
또한, 상기 음성 변환 방법은 사용자 선택에 따라 제1 언어에 대응하는 다국어음성을 다국어음성DB로부터 검색하여 추출하는 단계;를 더 포함하며, 상기 (d)단계는, 선택된 조합음성으로 텍스트를 변환하여 음성 신호를 생성한 후 생성된 음성 신호로부터 선택된 조합음성의 화자특성을 추출하고, 상기 텍스트를 제1 언어의 텍스트로 변환한 후, 변환된 제1 언어의 텍스트를 상기 제1 언어의 다국어음성으로 변환하여 제1 언어의 음성 신호를 생성하고, 추출한 조합음성의 화자특성을 상기 제1 언어의 음성 신호와 합성하여 상기 제1 언어의 텍스트에 대한 합성음성을 생성하고,
또한, 상기 화자특성은 화자의 음색, 음높이, 발화 속도, 발음 강세 및 휴지 구간에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 사용자가 원하는 새로운 화자음성으로 텍스트를 변환한 합성음성을 출력함으로써 실존하지 않는 새로운 음성을 출력할 수 있을 뿐만 아니라, 사용자의 요구를 만족시킬 수 있으며, 화자음성의 커스터마이징이 가능할 수 있는 효과가 있다.
또한, 본 발명에 따르면, 새로운 조합음성과 함께 감정음성을 이용하여 텍스트를 변환한 합성음성을 출력함으로써 사용자의 요구를 총족시키는 동시에 더욱 생동감있는 합성음성을 제공할 수 있는 효과가 있다.
또한, 본 발명에 따르면, 새로운 조합음성의 화자특성을 다국어음성에 합성함으로써 사용자가 원하는 음성의 화자특성을 유지한 상태로 다국어 발화가 가능한 효과가 있다.
도 1은 본 발명의 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치를 개략적으로 나타낸 전체 구성도이다.
도 2는 본 발명의 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치의 화자음성 조합부의 상세 구성도이다.
도 3은 본 발명의 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치의 화자음성 조합부의 동작을 설명하기 위한 흐름도이다.
도 4는 본 발명의 다른 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치를 개략적으로 나타낸 전체 구성도이다.
도 5는 도 4에 도시된 본 발명의 다른 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치를 이용하여 실제 음성 지원 서비스를 구현한 예를 나타낸 예시도이다.
도 6은 본 발명의 또 다른 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치를 개략적으로 나타낸 전체 구성도이다.
도 7은 본 발명의 또 다른 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 방법을 설명하기 위한 순서도이다.
도 8은 본 발명의 또 다른 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 방법을 설명하기 위한 순서도이다.
도 9는 본 발명의 또 다른 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 방법을 설명하기 위한 순서도이다.
이하 첨부된 도면을 참조하여 본 발명의 실시예를 본 발명이 속하는 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세하게 설명한다. 이하 설명에서 동일한 구성 요소에는 설명의 편의상 동일 명칭 및 동일 부호를 부여한다.
본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우는 해당되는 발명의 설명부분에서 상세히 그 의미를 기재하였으므로, 단순한 용어의 명칭이 아닌 용어가 가지는 의미로서 본 발명을 파악하여야 한다.
본 발명의 설명에서는 '기본 음성 또는 화자음성'과 '합성 음성'을 구별한다. '기본 음성 또는 화자음성'이란 음성 합성 방법에 의해 합성되는 1인의 가상의 인물의 기본적인 음성을 뜻한다. '합성 음성'이란 기쁨에 찬 음성 또는 분노에 찬 음성과 같은 감정(emotion)을 느낄 수 있도록 '기본 음성'에 약간의 변형을 가한 음성을 뜻한다. 하나의 가상의 인물에 대한 '기본 음성'과, 이를 변형한 '합성 음성'은 일반적인 사람이 들었을 때, 동일한 인물의 음성으로 판단되어야 한다.
도 1은 본 발명의 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치를 개략적으로 나타낸 전체 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치(1)는 사용자 입력부(10), 화자음성 조합부(20), 화자음성DB(30), 텍스트DB(50), TTS변환부(70) 및 합성음성 출력부(80)를 포함하여 구성된다.
구체적으로 설명하면, 사용자 입력부(10)는, 사용자의 조작을 통해 화자음성에 대한 선택을 입력받고, 이를 화자음성 조합부(20)로 전달한다. 여기서, 사용자는 복수의 화자음성 중 N(N≥1)개의 화자음성을 선택할 수 있다. 예를 들어, 사용자가 1개의 화자음성을 선택할 경우, 선택된 1개의 화자음성을 텍스트의 음성신호로 변환하고, 2개의 화자음성을 선택할 경우, 2개의 화자음성을 믹싱하여 새로운 화자음성을 생성한 후 생성된 새로운 화자음성을 텍스트의 음성신호로 변환한다. 본 발명에서는 새로운 화자음성을 생성하기 위해 2개 이상의 화자음성을 선택한다고 가정하여 구성을 설명하도록 한다.
또한, 사용자 입력부(10)는 선택된 복수의 화자음성 각각의 가중치에 대한 설정값(이하, 가중치_설정값)을 입력받고, 이를 화자음성 조합부(20)로 전달한다. 여기서, 가중치_설정값은 복수의 화자음성을 믹싱함에 있어 각 화자음성의 믹싱 비율을 설정한 값이며, 예를 들어, 선택된 복수의 화자음성이 A 화자음성, B 화자음성, C 화자음성인 경우, A 화자음성의 가중치_설정값은 10%, B 화자음성의 가중치_설정값은 30%, C 화자음성의 가중치_설정값은 60%로 사용자가 설정할 수 있다.
이러한 사용자 입력부(10)는 사용자의 조작에 따른 사용자 선택 정보를 입력받는 기능을 수행하도록 구현될 수 있으며, 예를 들어, 키보드, 터치스크린 등일 수 있다.
그리고, 화자음성 조합부(20)는, 선택된 복수의 화자음성을 화자음성DB(30)로부터 검색하고, 검색된 복수의 화자음성과 각 화자음성의 가중치_설정값을 이용해 선택된 복수의 화자음성을 믹싱하여 조합음성(40)을 생성한다. 이때, 조합음성(조합음성_set#1)은 선택된 복수의 화자음성과, 각 화자음성의 가중치_설정값에 대한 정보를 포함하며, 조합음성의 화자특성을 포함할 수 있다. 화자특성은, 화자의 음색, 음높이, 발화 속도, 발음 강세 및 휴지 구간에 대한 정보 중 적어도 하나를 포함할 수 있다.
본 발명의 실시예에 있어서, 조합음성은 기존 음성을 이용하여 조합된 새로운 음성으로, 가중치_설정값에 따른 믹싱 비율에 따라 복수의 기존 음성을 믹싱함으로써 사용자의 의도에 따라 현실에 존재하지 않는 새로운 음색(TIMBRE)을 가지는 목소리에 기반한 음성이다.
그리고, 화자음성DB(30)는 서로 다른 음색(TIMBRE)을 가진 복수의 화자 음성이 성별, 나이 및 직업군에 따라 미리 분류되어 저장된다. 여기서, 직업군은 연예인, 아나운서, 성우 및 애니 캐릭터를 적어도 포함할 수 있으며, 이 외에도, 사람들이 인지할 수 있는 유명인사, 운동선수 등을 더 포함할 수 있다.
즉, 화자음성DB(30)는 서로 다른 음색을 가진 복수의 화자음성을 남성과 여성, 노인이나 어린이의 음성 등과 같은 여러 형태의 음성이 미리 설정된 기준에 따라 분류되어 저장되는데, 예를 들어, 음색은 성별과 나이에 따라 분류될 수 있으며, 성별은 남성과 여성으로 구분되고, 나이는 어린이, 젊은이, 중년, 노인 또는, 10대, 20대, 30대, 40대 등 나이 그룹으로 구분될 수 있다. 나이 그룹은 사용자 또는 관리자의 선택에 따라 다양하게 분류되거나 세분화될 수 있다. 또, 다른 예를 들어, 성별 > 나이 > 직업군의 순서로 화자음성을 선택할 수 있다.
다시 말해, 화자음성DB(30)는 서로 다른 음색을 가진 다수의 음성이 성별 및/또는 나이에 따라 사전에 분류되어 저장되는데, 이러한 음성은 텍스트를 음성으로 전환하는 TTS변환부(70)에 사용되는 음성으로 음소 단위로 분리되어 각 화자별로 저장될 수 있다. 이후, TTS변환부(70)에서는 텍스트가 입력되면 해당하는 음성을 화자음성DB(30)로부터 선택해서 순서대로 합성한다.
그리고, 텍스트DB(50)는, 다양한 형태의 텍스트가 저장되며, 텍스트는 워드 프로세싱 문서, 스트레드 시트 문서, 프레젠테이션 문서, 이메일 메시지 또는 다른 유형의 문서와 같은 디지털 문서 전체이거나 문서의 일부분일 수 있으며, 숫자, 문자, 기호 등을 포함할 수 있다. 여기서, 텍스트는 TTS변환부(70)에서 변환될 수 있는 포맷으로 처리되어 저장될 수 있다.
본 발명의 실시예에 있어서, 텍스트(60)는 텍스트DB(50)로부터 검색을 통해 추출되거나 사용자에 의해 선택 또는 입력될 수 있다.
그리고, TTS변환부(70)는 텍스트(60)를 조합음성_set(40)을 이용해 음성 신호로 변환한 후 합성한다. 즉, TTS변환부(70)는 입력된 텍스트를 각 어절별로 발음법칙에 의거하여 조합음성_set(40)의 화자특성이 반영되도록 음성으로 변환한 후, 어절별로 변환된 음성을 합성한다.
그리고, 합성음성 출력부(80)는, TTS변환부(70)에서 출력되는 합성음성을 스피커를 통해 출력한다.
상기와 같이 본 발명의 복수의 화자 음성을 이용한 음성 변환 장치에 따르면, 언제든지 텍스트를 녹음없이 실시간으로 사용자가 선택하는 조건에 맞춰 새로운 음성(목소리)으로 재생할 수 있다.
이로써, 종래 기술에 있어서 현실에 존재하는 목소리만을 학습하고 출력하던 한계를 극복할 수 있으며, 고품질의 합성을을 위해 실제하는 음성 데이터를 지속적으로 구축해야 하는데 이에 소요되는 막대한 시간과 비용을 절감할 수 있다.
도 2는 본 발명의 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치의 화자음성 조합부의 상세 구성도이며, 도 3은 본 발명의 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치의 화자음성 조합부의 동작을 설명하기 위한 흐름도이다.
도 2 및 도 3에 도시된 바와 같이, 본 발명의 실시예에 따른 복수의 화자 음성을 이용한 음성 변환 장치(1)의 화자음성 조합부(20)는, 화자음성 검색부(21), 가중치 설정부(22) 및 조합음성 생성부(23)를 적어도 포함하여 구성될 수 있다.
구체적으로 설명하면, 화자음성 검색부(21)는 사용자 선택에 따라 선택된 N개의 화자 음성을 화자음성DB(30)로부터 검색하여 추출한다. 예를 들어, 선택된 N개의 화자 음성이 3개인 경우, 3개의 화자 음성을 화자음성DB(30)로부터 검색하여 화자음성_1, 화자음성_2, 화자음성_3을 추출한다.
그리고, 가중치 설정부(22)는 사용자 선택을 통해 입력받은 믹싱 비율에 따라 N개의 화자 음성 각각에 대한 가중치_설정값을 설정한다. 예를 들어, 추출된 화자음성_1, 화자음성_2, 화자음성_3 각각에 대한 가중치a, 가중치b, 가중치c를 설정하고, 각 화자음성은 가중치 설정값을 포함한다(화자음성_1_가중치a, 화자음성_1_가중치b, 화자음성_1_가중치c). 여기서, a+b+c=100%, a, b, c ≥ 0 이다.
그리고, 조합음성 생성부(23)는, 설정된 가중치_설정값에 따라 N개의 화자 음성을 믹싱하고, N개의 화자 음성의 음색을 합성하여 조합음성을 생성한다. 예를 들어, 각 화자음성별(화자음성_1, 화자음성_2, 화자음성_3)로 설정된 가중치_설정값(a, b, c)에 따라 세 화자음성의 음색을 합성하여 조합음성_set(40)을 생성한다. 여기서, 조합음성_set(40)은 조합된 화자음성 정보(화자음성_1, 화자음성_2, 화자음성_3)와 각 화자음성의 가중치_설정값 정보(화자음성_1_a, 화자음성_2_b, 화자음성_3_c)를 포함하며, 다수의 조합음성_set이 생성되면 이를 구분하고 화자특성을 추출하기 위한 정보로서 이용된다.
이러한 조합음성_set(40)은 사용자 요청이 있을 경우 실시간 조합을 통해 생성될 수 있으며, 또한, 사전에 미리 다양한 화자음성의 조합을 통해 생성되어 조합음성DB(미도시)에 저장될 수도 있다. 이처럼 미리 생성된 조합음성_set(40)은 음색에 따라 분류(예를 들어, 중후함, 귀여움, 자상함, 듬직함, 부드러움 등)되어 저장되며, 사용자에게 제안될 수도 있다.
이와 같이 본 발명은 화자음성 조합부(20)를 통해 복수의 화자음성을 설정된 가중치_설정값에 따라 하나의 음성으로 믹싱함으로써 동시에 여러 사람의 화자(話者)가 발성하는 것과 동일한 효과를 재현할 수 있어, 실제하지 않는 새로운 음색을 갖는 음성을 생성할 수 있다.
도 4는 본 발명의 다른 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치를 개략적으로 나타낸 전체 구성도이다. 도 1에 도시된 음성 변환 장치(1)와 도 4에 도시된 음성 변환 장치(100)를 비교하여, 도 4에 도시된 음성 변환 장치(100)는 도 1에 도시된 음성 변환 장치(1)에 감정음성을 추가 선택하여 TTS변환을 수행하는 구성이 차이가 있고, 다른 구성은 동일하므로 동일한 구성에 대한 상세한 설명은 생략하도록 한다.
도 4에 도시된 바와 같이, 본 발명의 실시예에 따른 복수의 화자 음성을 이용한 음성 변환 장치(100)는, 사용자 입력부(110), 감정음성 선택부(120), 화자음성 조합부(140), TTS변환부(170) 및 합성음성 출력부(180)를 포함하여 구성된다. 또한, 본 발명의 음성 변환 장치(100)는, 감정음성DB(130), 화자음성DB(150), 텍스트DB(160)를 포함하여 구성된다.
구체적으로 설명하면, 사용자 입력부(110)는, 사용자의 조작을 통해 화자음성 및 감정음성에 대한 선택을 입력받고, 이를 각각 화자음성 조합부(140) 및 감정음성 선택부(120)로 전달한다. 이러한 사용자 입력부(110)는 감정음성에 대한 사용자 선택을 입력받아 감정음성 선택부(120)로 전달하는 구성외에는, 도 1에 도시된 사용자 입력부(10)와 동일한 기능을 수행한다.
그리고, 감정음성 선택부(120)는, 입력받은 사용자 선택에 따른 감정에 대응하는 감정음성을 감정음성DB(130)로부터 검색하여 추출한다. 여기서, 감정은 기쁨/신남, 슬픔/우울, 화남, 공포 및 놀람을 적어도 포함하며, 감정음성은 감정의 종류 및 감정의 강도(세기)에 따라 출력되는 음성의 크기(음량), 속도, 길이(장단) 및 높낮이(고저)에 대한 설정정보가 포함된 음성신호일 수 있다.
그리고, 감정음성DB(130)는 감정에 대응하는 감정음성이 각 감정의 종류에 따라 분류되어 저장될 수 있다. 예를 들어, 감정이 기쁨이면, 기쁨의 강도에 상응하여 설정값이 다르게 설정될 수 있으며, 기쁨의 강도가 클수록 음성의 크기(음량)을 크게, 속도는 빠르게, 높낮이(고저)는 높게 설정될 수 있고, 이에 따른 복수의 감정음성이 기쁨 카테고리 아래 분류되어 저장될 수 있다.
그리고, 화자음성 조합부(140)는 사용자 선택에 따른 복수의 화자음성을 화자음성DB(150)로부터 검색하여 추출하고, 추출한 복수의 화자음성을 입력받은 가중치_설정값에 따라 믹싱하여 조합음성_set을 생성한다. 이러한 화자음성 조합부(140)는 도 1에 도시된 화자음성 조합부(23)와 그 기능 및 구성이 동일하므로 상세한 설명은 생략하도록 한다.
그리고, TTS변환부(170)는, 선택된 조합음성_set으로 텍스트를 제1 음성 신호로 변환하고, 선택된 감정음성으로 텍스트를 제2 음성 신호로 변환한 후, 제1 음성 신호를 선택된 감정음성의 음성의 크기, 속도 및 높낮이에 대한 설정정보가 포함된 제2 음성 신호와 합성하여 제2 음성 신호를 선택된 조합음성_set의 음성으로 변환을 수행한다.
이때, TTS변환부(170)는 제2 음성 신호를 선택된 조합음성_set의 음성으로 변환을 수행하면서 설정정보에 따라 화남의 감정의 경우 음량을 크게 하거나, 슬픔/우울의 감정의 경우 음량을 작게 조절하여 합성 음성을 생성하도록 할 수 있다.
또한, TTS변환부(170)는 기쁨/신남의 감정의 경우 주파수가 높은 음을 생성하도록 하거나, 우울/슬픔의 감정의 경우 주파수가 낮은 음을 생성하여 음의 높낮이를 변경하여 합성 음성을 생성하도록 할 수 있다.
또한, TTS변환부(170)는 기쁨/신남의 감정의 경우 음성 출력 속도를 빠르게 하거나, 우울/슬픔의 감정의 경우 음성 출력 속도를 느리게 하여 합성 음성을 생성하도록 할 수 있다.
그리고, 합성음성 출력부(180)는, TTS변환부(170)에서 생성된 합성음성을 스피커를 통해 출력시킨다.
이와 같이 본 실시예에 따른 복수의 화자 음성을 이용한 음성 변환 장치는, 복수의 화자 음성을 믹싱하여 새로운 음색의 화자 음성을 생성하는 동시에, 감정에 따른 표현을 포함하는 합성 음성을 생성함으로써 생동감있는 화자 음성을 얻을 수 있다.
도 5는 도 4에 도시된 본 발명의 다른 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치를 이용하여 실제 음성 지원 서비스를 구현한 예를 나타낸 예시도이다.
도 5에 도시된 바와 같이, 사용자가 PC 또는 스마트 단말과 같은 전자기기(미도신)를 이용해 인터넷 연결을 통해 AI TTS 서비스를 제공하는 웹페이지(190)에 접속할 수 있다.
해당 웹페이지(190)에는, 본 실시예에 따른 복수의 화자 음성을 이용한 음성 변환 장치를 이용해 새롭게 생성된 화자 음성을 게임 캐릭터의 화자 음성으로 설정하여 제공할 수 있다.
이러한 웹페이지(190)에 게임 캐릭턱(191), 감정 이모티콘(192)을 사용자가 쉽게 선택할 수 있도록 나열하여 표시한다. 또한, 웹페이지 하단에 텍스트 입력란(193)을 구비하여 사용자가 원하는 텍스트를 입력할 수 있도록 한다.
그런 다음, 사용자가 '재생하기' 항목(194)을 선택하면 입력된 텍스트를 선택된 게임 캐릭터의 화자 음성으로 합성하여 재생시킨다.
도시하지는 않았지만, 게임 캐릭터의 화자 음성을 사용자가 복수의 화자 음성을 선택하여 조합하고, 조합된 화자음성을 이용해 새로운 합성음성을 생성할 수도 있도록 웹페이지를 구현할 수도 있다.
도 6은 본 발명의 또 다른 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 장치를 개략적으로 나타낸 전체 구성도이다. 도 1에 도시된 음성 변환 장치(1)와 도 6에 도시된 음성 변환 장치(100)를 비교하여, 도 6에 도시된 음성 변환 장치(200)는 도 1에 도시된 음성 변환 장치(1)에 다국어음성을 추가 선택하여 TTS변환을 수행하는 구성이 차이가 있고, 다른 구성은 동일하므로 동일한 구성에 대한 상세한 설명은 생략하도록 한다.
도 6에 도시된 바와 같이, 본 발명의 실시예에 따른 복수의 화자 음성을 이용한 음성 변환 장치(200)는, 사용자 입력부(210), 다국어음성 선택부(220), 화자음성 조합부(240), TTS변환부(270) 및 합성음성 출력부(280)를 포함하여 구성된다. 또한, 본 발명의 음성 변환 장치(200)는, 다국어음성DB(230), 화자음성DB(250), 텍스트DB(260)를 포함하여 구성된다.
구체적으로 설명하면, 사용자 입력부(210)는, 사용자의 조작을 통해 화자음성 및 다국어음성에 대한 선택을 입력받고, 이를 각각 화자음성 조합부(240) 및 다국어음성 선택부(220)로 전달한다. 이러한 사용자 입력부(210)는 다국어음성에 대한 사용자 선택을 입력받아 다국어음성 선택부(220)로 전달하는 구성외에는, 도 1에 도시된 사용자 입력부(10)와 동일한 기능을 수행하므로, 상세한 설명은 생략한다.
그리고, 다국어음성 선택부(220)는 사용자 선택에 따른 언어의 다국어음성을 다국어음성DB(230)로부터 검색하여 추출한다. 여기서, 다국어는 각 나라별 사용되는 언어로, 제1 언어(언어1), 제2 언어(언어2), ..., 제N 언어(언어N)을 포함하며, 다국어음성은 해당 언어의 화장특성 정보를 포함하고 있다. 여기서, 화자특성은 화자의 음색, 음높이, 발화 속도, 발음 강세 및 휴지 구간에 대한 정보 중 적어도 하나를 포함할 수 있다.
그리고, 다국어음성DB(230)는 각 언어별 다국어음성이 저장된다. 이때, 다국어음성DB(230)는, TTS변환부(270)에서 복수의 상이한 언어에 대한 복수의 화자 음성을 수신하여 화자특성(음색), 운율 특성 등을 기계 학습함으로써 각 언어별로 구축될 수 있다.
그리고, 화자음성 조합부(240)는 사용자 선택에 따른 복수의 화자음성을 화자음성DB(250)로부터 검색하여 추출하고, 추출한 복수의 화자음성을 입력받은 가중치_설정값의 비율에 따라 믹싱하여 조합음성_set을 생성한다. 이러한 화자음성 조합부(240)는 도 1에 도시된 화자음성 조합부(23)와 그 기능 및 구성이 동일하므로 상세한 설명은 생략하도록 한다.
그리고, TTS변환부(270)는 텍스트를 선택된 조합음성-set으로 변환하여 음성 신호를 생성한 후, 생성된 음성 신호로부터 선택된 조합음성의 화자특성을 추출하고, 텍스트를 선택된 제1 언어의 텍스트로 변환한 후, 변환된 제1 언어의 텍스트를 제1 언어의 다국어음성으로 변환하여 제1 언어의 음성 신호를 생성하고, 추출한 조합음성의 화자특성을 상기 제1 언어의 음성 신호와 합성하여 상기 제1 언어의 텍스트에 대한 합성음성을 생성한다. 즉, TTS변환부(270)는 조합음성의 화자특성(스타일/음색)으로 제1 언어를 발음하는 음성을 합성할 수 있다. 다시 말해, TTS변환부(270)는 제1 언어 스타일로 제2 언어를 발음하는 음성을 합성할 수 있다.
그리고, 합성음성 출력부(280)는, 생성된 합성음성을 스피커를 통해 출력시킬 수 있다.
이와 같이 본 실시예에 따른 복수의 화자음성을 이용한 음성 변환 장치는, 복수의 화자 음성을 믹싱하여 새로운 음색의 조합음성을 생성하고, 생성된 조합음성의 화자특성(음색)을 갖는 합성 음성을 생성하는 동시에, 조합음성의 화자특성(음색)을 유지한 상태로 다국어 발화가 가능한 합성 음성을 생성함으로써 사용자가 원하는 다양한 목소리로 다국어 음성 지원 서비스를 수행할 수 있다.
이로써 조합음성의 화자특성을 유지한 상태로 다국어 발화가 가능하며, 해외 서비스를 위한 다국어음성 DB를 구축하는 데 소요되는 시간 및 비용을 줄일 수 있다.
도 7은 본 발명의 또 다른 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 방법을 설명하기 위한 순서도이다. 도 7에 도시된 음성 변환 방법은 도 1에 도시된 음성 변환 장치에 의해 구현될 수 있다.
도 7에 도시된 바와 같이, 본 발명의 실시예에 따른 음성 변환 방법은, 사용자 입력부(10)를 통해 사용자 조작에 따른 복수의 화자음성에 대한 사용자 선택 정보가 입력되면, 화자음성 조합부(20)가 입력된 복수의 화자음성을 화자음성DB(30)로부터 검색하여 추출한다(S710).
이에, 사용자 입력부(10)를 통해 사용자 조작에 따른 각 화자음성의 가중치_설정값을 입력받고, 화자음성 조합부(20)가 입력된 가중치_설정값을 각 화자음성에 설정한다(S711).
그런 다음, 화자음성 조합부(20)가 각 화자음성의 가중치_설정값에 따라 복수의 화자음성을 믹싱하여 조합음성을 생성한다(S712). 이때, 복수의 화자음성 각각의 화자특성은 믹싱을 통해 새로운 조합음성의 화자특성으로 합성된다.
이에, TTS변환부(70)가 생성된 조합음성으로 텍스트를 변환하여 합성음성을 출력한다(S713).
도 8은 본 발명의 또 다른 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 방법을 설명하기 위한 순서도이다. 도 8에 도시된 음성 변환 방법은 도 4에 도시된 음성 변환 장치에 의해 구현될 수 있다.
도 8에 도시된 바와 같이, 본 발명의 실시예에 따른 음성 변환 방법은, 사용자 입력부(110)를 통해 사용자 조작에 따른 복수의 화자음성에 대한 사용자 선택 정보가 입력되면, 화자음성 조합부(140)가 입력된 복수의 화자음성을 화자음성DB(130)로부터 검색하여 추출한다(S810).
이에, 사용자 입력부(110)를 통해 사용자 조작에 따른 각 화자음성의 가중치_설정값을 입력받고, 화자음성 조합부(140)가 입력된 가중치_설정값을 각 화자음성에 설정한다(S811).
그러면, 화자음성 조합부(140)가 각 화자음성의 가중치_설정값에 따라 복수의 화자음성을 믹싱하여 조합음성을 생성한다(S812).
그리고, 감정음성 선택부(120)가 사용자 입력부(110)를 통해 사용자 선택에 따른 감정 선택 정보를 입력받고, 선택된 감정에 대응하는 감정음성을 감정음성DB(130)로부터 검색 및 추출한다(S813). 여기서, 감정은 기쁨, 슬픔, 화남, 공포, 놀람을 적어도 포함하며, 감정음성은 감정의 종류 및 감정의 강도(세기)에 따라 출력되는 음의 크기, 속도 및 높낮이에 대한 설정정보가 포함된 음성신호이다.
그러면, TTS변환부(170)가 생성된 조합음성과 감정음성으로 텍스트를 변환하여 합성음성을 출력한다(S814). 즉, S814 단계는, 선택된 조합음성으로 텍스트를 제1 음성 신호로 변환하고, 선택된 감정음성으로 텍스트를 제2 음성 신호로 변환한 후, 제1 음성 신호를 상기 선택된 감정음성의 음성의 크기, 속도 및 높낮이에 대한 설정정보가 포함된 상기 제2 음성 신호와 합성하여 상기 선택된 조합음성의 음성으로 변환을 수행하여 합성음성을 출력시킨다.
도 9는 본 발명의 또 다른 일실시 예에 따른 복수의 화자 음성을 이용한 음성 변환 방법을 설명하기 위한 순서도이다. 도 9에 도시된 음성 변환 방법은 도 6에 도시된 음성 변환 장치에 의해 구현될 수 있다.
도 9에 도시된 바와 같이, 본 발명의 실시예에 따른 음성 변환 방법은, 사용자 입력부(210)를 통해 사용자 조작에 따른 복수의 화자음성에 대한 사용자 선택 정보가 입력되면, 화자음성 조합부(240)가 입력된 복수의 화자음성을 화자음성DB(130)로부터 검색하여 추출한다(S910).
이에, 사용자 입력부(210)를 통해 사용자 조작에 따른 각 화자음성의 가중치_설정값을 입력받고, 화자음성 조합부(240)가 입력된 가중치_설정값을 각 화자음성에 설정한다(S911).
그러면, 화자음성 조합부(240)가 각 화자음성의 가중치_설정값에 따라 복수의 화자음성을 믹싱하여 조합음성을 생성한다(S912).
그리고, 사용자 입력부(210)를 통해 사용자 선택에 따른 제1 언어 선택 정보를 입력받고, 다국어음성 선택부(220)가 선택된 제1 언어에 대응하는 다국어음성을 다국어음성DB(230)로부터 검색 및 추출한다(S913).
그러면, TTS변환부(270)가 입력된 텍스트를 선택된 제1 언어의 텍스트로 변환하고, 변환된 제1 언어의 텍스트를 제1 언어의 다국어음성으로 변환하여 제1 언어의 음성신호를 생성한 후, 조합음성을 제1 언어의 음성신호와 합성하여 합성음성을 출력한다(S914). 즉, TTS변환부(270)가 선택된 조합음성으로 텍스트를 변환하여 음성 신호를 생성한 후 생성된 음성 신호로부터 선택된 조합음성의 화자특성을 추출하고, 텍스트를 제1 언어의 텍스트로 변환한 후, 변환된 제1 언어의 텍스트를 제1 언어의 다국어음성으로 변환하여 제1 언어의 음성 신호를 생성하고, 추출한 조합음성의 화자특성을 제1 언어의 음성 신호와 합성하여 제1 언어의 텍스트에 대한 합성음성을 생성한다. 여기서, 화자특성은 화자의 음색, 음높이, 발화 속도, 발음 강세 및 휴지 구간에 대한 정보 중 적어도 하나를 포함할 수 있다.
이상에서 전술한 바와 같은 본 발명은 이를 구현하기 위한 프로그램 명령어로서 수행될 수 있으며, 이러한 프로그램 명령어를 기록한 컴퓨터로 읽힐 수 있는 기록매체는, 일 예로, ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 미디어 저장장치 등이 있다.
또한 전술한 바와 같은 프로그램을 기록한 컴퓨터로 읽힐 수 있는 기록매체는 네트워크로 커넥션된 컴퓨터 장치에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 이 경우, 다수의 분산된 컴퓨터 중 어느 하나 이상의 컴퓨터는 상기에 제시된 기능들 중 일부를 실행하고, 그 결과를 다른 분산된 컴퓨터들 중 하나 이상에 그 실행 결과를 전송할 수 있으며, 그 결과를 전송받은 컴퓨터 역시 상기에 제시된 기능들 중 일부를 실행하여, 그 결과를 역시 다른 분산된 컴퓨터들에 제공할 수 있다.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발 명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시 예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 등이 포함될 수 있다.
또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
1, 100, 200. 복수의 화자음성을 이용한 음성 변환 장치
10, 110, 210. 사용자 입력부 20, 140, 240. 화자음성 조합부
120. 감정음성 선택부 220. 다국어음성 선택부
70, 170, 270. TTS변환부 80, 180, 280. 합성음성 출력부

Claims (10)

  1. 복수의 화자 음성 중 N(N>1, N은 자연수)개의 화자 음성 및 가중치_설정값을 선택하기 위한 사용자 선택을 입력받는 사용자 입력부;
    상기 사용자 선택에 따라 선택된 N개의 화자 음성 각각의 가중치를 상기 가중치_설정값에 따라 적용하고, 적용된 가중치_설정값에 따라 N개의 화자 음성을 믹싱하여 조합음성을 생성하는 화자음성 조합부;
    텍스트가 입력되면 생성된 조합음성을 이용하여 텍스트를 음성 신호로 변환한 후 합성하는 TTS변환부; 및
    합성된 음성을 증폭하여 스피커를 통해 출력시키는 음성출력부;를 포함하는 복수의 화자 음성을 이용한 음성 변환 장치.
  2. 제1항에 있어서, 상기 화자음성 조합부는,
    상기 사용자 선택에 따라 선택된 N개의 화자 음성을 화자음성DB로부터 검색하는 화자음성 검색부;
    상기 가중치_설정값에 따라 상기 N개의 화자 음성 각각에 대한 가중치를 설정하는 가중치 설정부; 및
    상기 가중치_설정값에 따라 N개의 화자 음성을 믹싱하고, 상기 N개의 화자 음성의 화자특성(음색)을 합성하여 조합음성을 생성하는 조합음성 생성부;를 포함하여 이루어지는 것을 특징으로 하는 복수의 화자 음성을 이용한 음성 변환 장치.
  3. 제1항에 있어서, 상기 화자음성DB는,
    서로 다른 음색(TIMBRE)을 가진 복수의 화자 음성이 성별, 나이 및 직업군에 따라 미리 분류되어 저장되며, 상기 직업군은 연예인, 아나운서, 성우 및 애니 캐릭터를 적어도 포함하는 것을 특징으로 하는 복수의 화자 음성을 이용한 음성 변환 장치.
  4. 제1항에 있어서,
    감정에 대응하는 감정음성이 저장되는 감정음성DB; 및
    상기 사용자 선택에 따른 감정에 대응하는 감정음성을 검색하는 감정음성 선택부;를 더 포함하며,
    상기 감정은 기쁨, 슬픔, 화남, 공포, 놀람을 적어도 포함하며, 상기 감정음성은 감정의 종류 및 감정의 강도(세기)에 따라 출력되는 음의 크기, 속도 및 높낮이에 대한 설정정보가 포함된 음성신호이며,
    상기 TTS변환부는, 선택된 조합음성으로 텍스트를 제1 음성 신호로 변환하고, 선택된 감정음성으로 텍스트를 제2 음성 신호로 변환한 후, 제1 음성 신호를 상기 선택된 감정음성의 음성의 크기, 속도 및 높낮이에 대한 설정정보가 포함된 상기 제2 음성 신호와 합성하여 상기 선택된 조합음성의 음성으로 변환하는 것을 특징으로 하는 복수의 화자 음성을 이용한 음성 변환 장치.
  5. 제1항에 있어서,
    각 언어별 화자음성이 저장되는 다국어음성DB; 및
    상기 사용자 선택에 따른 제1 언어의 화자음성을 검색하는 다국어음성 선택부;를 더 포함하며,
    상기 TTS변환부는 선택된 조합음성으로 텍스트를 변환하여 음성 신호를 생성한 후 생성된 음성 신호로부터 선택된 조합음성의 화자특성을 추출하고, 상기 텍스트를 제1 언어의 텍스트로 변환한 후, 변환된 제1 언어의 텍스트를 상기 제1 언어의 화자음성으로 변환하여 제1 언어의 음성 신호를 생성하고, 추출한 조합음성의 화자특성을 상기 제1 언어의 음성 신호와 합성하여 상기 제1 언어의 텍스트에 대한 합성음성을 생성하는 것을 특징으로 하는 복수의 화자 음성을 이용한 음성 변환 장치.
  6. 제5항에 있어서,
    상기 화자특성은 화자의 음색, 음높이, 발화 속도, 발음 강세 및 휴지 구간에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 복수의 화자 음성을 이용한 음성 변환 장치.
  7. (a) 화자음성DB로부터 선택된 복수의 화자음성을 추출하는 단계;
    (b) 추출된 복수의 화자음성 각각에 대한 가중치_설정값을 입력받아 설정하는 단계;
    (c) 추출된 복수의 화자음성을 각 화자음성의 가중치_설정값에 따라 믹싱하여 조합음성을 생성하는 단계; 및
    (d) 생성된 조합음성으로 입력된 텍스트를 변환하여 합성음성을 출력하는 단계;를 포함하는 복수의 화자음성을 이용한 음성 변환 방법.
  8. 제7항에 있어서,
    상기 가중치_설정값은 복수의 화자음성의 믹싱에 있어서 각 화자음성의 믹싱 비율이며, 상기 복수의 화자음성은 화자특성으로서 음색 및 운율정보를 포함하는 것을 특징으로 하는 복수의 화자음성을 이용한 음성 변환 방법.
  9. 제7항에 있어서,
    사용자 선택에 따른 감정 선택 정보를 입력받고, 선택된 감정에 대응하는 감정음성을 감정음성DB로부터 검색하여 추출하는 단계;를 더 포함하며,
    상기 감정은 기쁨, 슬픔, 화남, 공포, 놀람을 적어도 포함하며, 상기 감정음성은 감정의 종류 및 감정의 강도(세기)에 따라 출력되는 음의 크기, 속도 및 높낮이에 대한 설정정보가 포함된 음성신호이며,
    상기 (d)단계는, 선택된 조합음성으로 텍스트를 제1 음성 신호로 변환하고, 선택된 감정음성으로 텍스트를 제2 음성 신호로 변환한 후, 제1 음성 신호를 상기 선택된 감정음성의 음성의 크기, 속도 및 높낮이에 대한 설정정보가 포함된 상기 제2 음성 신호와 합성하여 상기 선택된 조합음성의 음성으로 변환하는 단계인 것을 특징으로 하는 복수의 화자음성을 이용한 음성 변환 방법.
  10. 제7항에 있어서,
    사용자 선택에 따라 제1 언어에 대응하는 다국어음성을 다국어음성DB로부터 검색하여 추출하는 단계;를 더 포함하며,
    상기 (d)단계는, 선택된 조합음성으로 텍스트를 변환하여 음성 신호를 생성한 후 생성된 음성 신호로부터 선택된 조합음성의 화자특성을 추출하고, 상기 텍스트를 제1 언어의 텍스트로 변환한 후, 변환된 제1 언어의 텍스트를 상기 제1 언어의 다국어음성으로 변환하여 제1 언어의 음성 신호를 생성하고, 추출한 조합음성의 화자특성을 상기 제1 언어의 음성 신호와 합성하여 상기 제1 언어의 텍스트에 대한 합성음성을 생성하고,
    상기 화자특성은 화자의 음색, 음높이, 발화 속도, 발음 강세 및 휴지 구간에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 복수의 화자 음성을 이용한 음성 변환 방법.
KR1020210189386A 2021-12-28 2021-12-28 복수의 화자음성을 이용한 음성 변환 장치 및 그 방법 KR20230099934A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210189386A KR20230099934A (ko) 2021-12-28 2021-12-28 복수의 화자음성을 이용한 음성 변환 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210189386A KR20230099934A (ko) 2021-12-28 2021-12-28 복수의 화자음성을 이용한 음성 변환 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20230099934A true KR20230099934A (ko) 2023-07-05

Family

ID=87159225

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210189386A KR20230099934A (ko) 2021-12-28 2021-12-28 복수의 화자음성을 이용한 음성 변환 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR20230099934A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100000249A (ko) 2008-06-24 2010-01-06 이안재 Tts 엔진을 이용한 뉴스 청취용 단말기 및, 음성 뉴스제공 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100000249A (ko) 2008-06-24 2010-01-06 이안재 Tts 엔진을 이용한 뉴스 청취용 단말기 및, 음성 뉴스제공 방법

Similar Documents

Publication Publication Date Title
US7483832B2 (en) Method and system for customizing voice translation of text to speech
KR101274961B1 (ko) 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
KR100724868B1 (ko) 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템
EP3824461B1 (en) Method and system for creating object-based audio content
WO2005093713A1 (ja) 音声合成装置
JP3270356B2 (ja) 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
KR20230099934A (ko) 복수의 화자음성을 이용한 음성 변환 장치 및 그 방법
KR20180078197A (ko) 이 보이스북 편집장치 및 재생장치
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JPH08335096A (ja) テキスト音声合成装置
US11195511B2 (en) Method and system for creating object-based audio content
JP2014013340A (ja) 作曲支援装置、作曲支援方法、作曲支援プログラム、作曲支援プログラムを格納した記録媒体およびメロディ検索装置
JP3578961B2 (ja) 音声合成方法及び装置
Gahlawat et al. Integrating human emotions with spatial speech using optimized selection of acoustic phonetic units
JP2003099089A (ja) 音声認識・合成装置および方法
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
KR102267651B1 (ko) 오디오 컨텐츠 제공 방법 및 장치
JP7048141B1 (ja) プログラム、ファイル生成方法、情報処理装置、及び情報処理システム
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
KR20170018281A (ko) 이 보이스북 편집장치 및 재생장치
KR100363876B1 (ko) 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법
KR20100003574A (ko) 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법
JP2008275836A (ja) 読み上げ用ドキュメント処理方法及び装置
CN115410551A (zh) 歌曲转换方法、装置和存储介质及电子设备
JP2018088000A (ja) 作曲支援装置、作曲支援方法、作曲支援プログラム、作曲支援プログラムを格納した記録媒体