KR20200022592A - 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치 및 그 동작 방법 - Google Patents

음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR20200022592A
KR20200022592A KR1020180098363A KR20180098363A KR20200022592A KR 20200022592 A KR20200022592 A KR 20200022592A KR 1020180098363 A KR1020180098363 A KR 1020180098363A KR 20180098363 A KR20180098363 A KR 20180098363A KR 20200022592 A KR20200022592 A KR 20200022592A
Authority
KR
South Korea
Prior art keywords
option
parameter
speech synthesis
output
characters
Prior art date
Application number
KR1020180098363A
Other languages
English (en)
Other versions
KR102144344B1 (ko
Inventor
최보람
이지훈
최동희
Original Assignee
주식회사 한글과컴퓨터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한글과컴퓨터 filed Critical 주식회사 한글과컴퓨터
Priority to KR1020180098363A priority Critical patent/KR102144344B1/ko
Publication of KR20200022592A publication Critical patent/KR20200022592A/ko
Application granted granted Critical
Publication of KR102144344B1 publication Critical patent/KR102144344B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치 및 그 동작 방법이 개시된다. 본 발명은 파라미터 기반의 음성 합성에 있어서, 합성된 음성 출력 값에 대한 품질의 측정을 통해 음성 합성에 사용되는 각 파라미터들의 최적 옵션 값들을 결정할 수 있는 음성 합성 처리 장치 및 그 동작 방법을 제공함으로써, 최적의 음성 합성을 위한 환경을 제공할 수 있다.

Description

음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치 및 그 동작 방법{PARAMETER-BASED SPEECH SYNTHESIS PROCESSING APPARATUS CAPABLE OF DETERMINING PARAMETERS FOR SPEECH SYNTHESIS OPTIMIZATION AND OPERATING METHOD THEREOF}
본 발명은 텍스트를 음성으로 변환하기 위한 음성 합성 처리 기법에 대한 기술들과 관련된다.
최근, 텍스트를 음성으로 변환하는 텍스트 음성 변환(Text to Speech: TTS) 기술이 발전함에 따라, 이러한 기술을 이용한 다양한 서비스가 출시되고 있다.
특히, 텍스트 음성 변환 기술은 텍스트를 음성으로 변환하여 출력해줄 수 있기 때문에 시각 장애인들을 위한 보조 도구로서의 활용 가치가 아주 높은 기술이다.
텍스트를 음성으로 변환하기 위한 음성 합성 기술로는 파라미터 기반의 음성 합성 기법이 많이 사용된다. 파라미터 기반의 음성 합성 기법은 음성 신호의 주요 파라미터에 대한 데이터베이스를 구축한 후 이러한 파라미터를 기초로 음성 합성을 수행하는 것으로, 파라미터의 옵션 값을 조정함으로써, 감정이 들어간 음성을 합성하거나, 화자의 목소리를 변환하는 등의 다양한 음성 합성이 가능한 특징을 가지고 있다.
이렇게, 파라미터 기반의 음성 합성 기법에서는 음성 합성에 사용되는 각 파라미터의 옵션 값의 조정을 통해 합성된 음성의 품질도 변경될 수 있는데, 고품질의 음성 출력 값이 생성되어야 하는 음성 합성 시스템에서는 고품질의 음성 합성이 가능하도록 하기 위한 파라미터 옵션 값들이 결정되어야 할 필요가 있다.
따라서, 고품질의 음성 출력 값이 생성되어야 하는 환경에서 음성 합성 최적화를 달성하기 위한 파라미터의 옵션 값들을 결정할 수 있는 음성 합성 처리 기법에 대한 연구가 필요하다.
본 발명은 파라미터 기반의 음성 합성에 있어서, 합성된 음성 출력 값에 대한 품질의 측정을 통해 음성 합성에 사용되는 각 파라미터들의 최적 옵션 값들을 결정할 수 있는 음성 합성 처리 장치 및 그 동작 방법을 제공함으로써, 최적의 음성 합성을 위한 환경을 제공할 수 있도록 한다.
본 발명의 일실시예에 따른 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치는 사용자에 의해 음성 합성에 사용되는 복수의 파라미터들 각각에 대한 옵션 값들의 범위가 지정되면, 파라미터 결정에 사용하기 위한 서로 다른 복수의 옵션 값 세트들 - 상기 복수의 옵션 값 세트들 각각은 상기 복수의 파라미터들 각각에 대한 옵션 값들의 집합을 의미함 - 을 결정하는 옵션 값 세트 결정부, 상기 복수의 옵션 값 세트들 각각에 대해, 각 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 선정된(predetermined) 입력 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 합성 음성을 생성하고, 상기 합성 음성을 음성 인식 모듈에 입력으로 인가하여 상기 합성 음성에 대한 출력 텍스트를 생성한 후 상기 입력 텍스트와 상기 출력 텍스트 간의 유사도를 연산하는 유사도 연산부, 상기 복수의 옵션 값 세트들 중 상기 유사도가 최대로 연산된 제1 옵션 값 세트를 선택하는 선택부 및 상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 음성 합성 최적화 파라미터 값으로 결정하는 결정부를 포함한다.
또한, 본 발명의 일실시예에 따른 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치의 동작 방법은 사용자에 의해 음성 합성에 사용되는 복수의 파라미터들 각각에 대한 옵션 값들의 범위가 지정되면, 파라미터 결정에 사용하기 위한 서로 다른 복수의 옵션 값 세트들 - 상기 복수의 옵션 값 세트들 각각은 상기 복수의 파라미터들 각각에 대한 옵션 값들의 집합을 의미함 - 을 결정하는 단계, 상기 복수의 옵션 값 세트들 각각에 대해, 각 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 선정된 입력 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 합성 음성을 생성하고, 상기 합성 음성을 음성 인식 모듈에 입력으로 인가하여 상기 합성 음성에 대한 출력 텍스트를 생성한 후 상기 입력 텍스트와 상기 출력 텍스트 간의 유사도를 연산하는 단계, 상기 복수의 옵션 값 세트들 중 상기 유사도가 최대로 연산된 제1 옵션 값 세트를 선택하는 단계 및 상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 음성 합성 최적화 파라미터 값으로 결정하는 단계를 포함한다.
본 발명은 파라미터 기반의 음성 합성에 있어서, 합성된 음성 출력 값에 대한 품질의 측정을 통해 음성 합성에 사용되는 각 파라미터들의 최적 옵션 값들을 결정할 수 있는 음성 합성 처리 장치 및 그 동작 방법을 제공함으로써, 최적의 음성 합성을 위한 환경을 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치의 동작 방법을 도시한 순서도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
도 1은 본 발명의 일실시예에 따른 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명에 따른 음성 합성 처리 장치(110)는 옵션 값 세트 결정부(111), 유사도 연산부(112), 선택부(113) 및 결정부(114)를 포함한다.
옵션 값 세트 결정부(111)는 사용자에 의해 음성 합성에 사용되는 복수의 파라미터들 각각에 대한 옵션 값들의 범위가 지정되면, 파라미터 결정에 사용하기 위한 서로 다른 복수의 옵션 값 세트들을 결정한다.
여기서, 상기 복수의 옵션 값 세트들 각각은 상기 복수의 파라미터들 각각에 대한 옵션 값들의 집합을 의미한다.
이때, 본 발명의 일실시예에 따르면, 옵션 값 세트 결정부(111)는 상기 사용자에 의해 상기 복수의 파라미터들 각각에 대한 옵션 값들의 범위가 지정되면, 상기 복수의 파라미터들 각각에 대한 옵션 값들의 범위에 기초하여 상기 복수의 파라미터들 각각에 대해, 각 파라미터별로 동일한 크기 간격을 갖는 선정된 개수의 옵션 값들을 선택하고, 상기 복수의 파라미터들 각각에 대해서 선택된 상기 선정된 개수의 옵션 값들을 조합하여 그룹화함으로써, 상기 복수의 옵션 값 세트들을 결정할 수 있다.
예컨대, 음성 합성에 사용되는 상기 복수의 파라미터들로 '파라미터 a'와 '파라미터 b'가 존재한다고 가정하자.
우선, 사용자는 본 발명에 따른 파라미터의 결정 과정이 수행될 수 있도록 하기 위해, '파라미터 a'와 '파라미터 b' 각각에 대한 옵션 값의 범위를 지정할 수 있다.
관련해서, 상기 사용자가 '파라미터 a'에 대해 옵션 값 범위를 '0~20'으로 지정하였다고 하고, '파라미터 b'에 대해 옵션 값 범위를 '1~3'으로 지정하였다고 가정하자.
이때, 옵션 값 세트 결정부(111)는 '파라미터 a'와 '파라미터 b' 각각의 옵션 값들의 범위에 기초하여 '파라미터 a'와 '파라미터 b' 각각에 대해, 각 파라미터별로 동일한 크기 간격을 갖는 선정된 개수의 옵션 값들을 선택하고, '파라미터 a'와 '파라미터 b' 각각에 대해서 선택된 상기 선정된 개수의 옵션 값들을 조합하여 그룹화함으로써, 복수의 옵션 값 세트들을 결정할 수 있다.
관련해서, 상기 선정된 개수를 '3개'라고 하는 경우, 옵션 값 세트 결정부(111)는 '파라미터 a'에 대해 '0~20'이라는 옵션 값 범위에 기초하여 동일한 크기 간격을 갖는 3개의 옵션 값들을 선택할 수 있다. 본 실시예에서 동일한 크기 간격을 갖는 3개의 옵션 값들은 '0', '10', '20'이 되기 때문에 옵션 값 세트 결정부(111)는 '파라미터 a'에 대해 '0', '10', '20'이라는 3개의 옵션 값들을 선택할 수 있다.
이와 유사하게, 옵션 값 세트 결정부(111)는 '파라미터 b'에 대해서도 '1~3'이라는 옵션 값 범위에 기초하여 동일한 크기 간격을 갖는 3개의 옵션 값들을 선택할 수 있는데, 본 실시예에서 동일한 크기 간격을 갖는 3개의 옵션 값들은 '1', '2', '3'이 되기 때문에 옵션 값 세트 결정부(111)는 '파라미터 b'에 대해 '1', '2', '3'이라는 3개의 옵션 값들을 선택할 수 있다.
이렇게, '파라미터 a'에 대해 '0', '10', '20'이라는 옵션 값들이 선택되었고, '파라미터 b'에 대해 '1', '2', '3'이라는 옵션 값들이 선택되면, 옵션 값 세트 결정부(111)는 '0', '10', '20'과 '1', '2', '3'이라는 옵션 값들을 조합하여 그룹화함으로써, 하기의 표 1과 같이 '파라미터 a'와 '파라미터 b'에 대한 복수의 옵션 값 세트들을 결정할 수 있다.
순번 옵션 값 세트(파라미터 a, 파라미터 b)
1 (0, 1)
2 (0, 2)
3 (0, 3)
4 (10, 1)
5 (10, 2)
6 (10, 3)
7 (20, 1)
8 (20, 2)
10 (20, 3)
이렇게, 상기 복수의 옵션 값 세트들이 결정되면, 유사도 연산부(112)는 상기 복수의 옵션 값 세트들 각각에 대해, 각 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 선정된(predetermined) 입력 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 합성 음성을 생성하고, 상기 합성 음성을 음성 인식 모듈에 입력으로 인가하여 상기 합성 음성에 대한 출력 텍스트를 생성한 후 상기 입력 텍스트와 상기 출력 텍스트 간의 유사도를 연산할 수 있다.
관련해서, 전술한 예를 이용하여 유사도 연산부(112)의 동작을 설명하면, 상기 표 1과 같이 총 10개의 옵션 값 세트들이 결정되면, 유사도 연산부(112)는 10개의 옵션 값 세트들 각각에 대해, 각 옵션 값 세트에 포함되어 있는 '파라미터 a', '파라미터 b'에 대한 옵션 값들을 기초로 선정된(predetermined) 입력 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 합성 음성을 생성하고, 상기 합성 음성을 음성 인식 모듈에 입력으로 인가하여 상기 합성 음성에 대한 출력 텍스트를 생성한 후 상기 입력 텍스트와 상기 출력 텍스트 간의 유사도를 연산할 수 있다.
이때, 본 발명의 일실시예에 따르면, 유사도 연산부(112)는 유사 문자 테이블 유지부(115), 비율 연산부(116), 유사 문자 카운트부(117) 및 유사도 결정부(118)를 포함할 수 있다.
유사 문자 테이블 유지부(115)는 복수의 문자들과 상기 복수의 문자들 각각에 대한 미리 정해진 적어도 하나의 유사 문자가 서로 대응되어 기록되어 있는 유사 문자 테이블을 저장하여 유지한다.
예컨대, 상기 유사 문자 테이블에는 하기의 표 2와 같이 정보가 기록되어 있을 수 있다.
복수의 문자들 유사 문자
라, 르
휴, 호
낙, 낟
... ...
비율 연산부(116)는 상기 입력 텍스트를 구성하는 복수의 제1 문자들과 상기 출력 텍스트를 구성하는 복수의 제2 문자들을 각 문자의 위치별로 서로 일치하는지 비교하여 상기 복수의 제1 문자들의 개수를 기준으로 일치하는 문자의 개수에 대한 비율을 연산한다.
유사 문자 카운트부(117)는 상기 복수의 제2 문자들 중 상기 복수의 제1 문자들과 일치하지 않는 적어도 하나의 불일치 문자가 존재하는 경우, 상기 유사 문자 테이블을 참조하여 상기 적어도 불일치 문자 각각에 대응되는 유사 문자를 확인하고, 상기 복수의 제1 문자들에서 상기 적어도 하나의 불일치 문자 각각에 대응되는 유사 문자와 일치하는 문자의 개수를 카운트한다.
유사도 결정부(118)는 상기 카운트된 개수에 대해 선정된 보정 가중치를 곱하여 비율 보정 가중치를 연산하고, 상기 연산된 비율에 대해 상기 비율 보정 가중치를 곱한 결과 값을 상기 유사도로 결정한다.
관련해서, 상기 표 1에서 나타낸 옵션 값 세트들 중 '(0, 1)'이라는 옵션 값 세트에 대해 상기 유사도를 연산하는 과정에 대해 예를 들어 설명하면 다음과 같다.
먼저, 상기 입력 텍스트가 '휴대용 컴퓨터'라고 하는 경우, 유사도 연산부(112)는 '(0, 1)'이라는 옵션 값에 따라 '휴대용 컴퓨터'에 대해 파라미터 기반의 음성 합성을 수행하여 합성 음성을 생성할 수 있고, 상기 합성 음성을 다시 텍스트로 변환하는 음성 인식 모듈에 입력으로 인가하여 출력 텍스트를 생성할 수 있다.
만약, 상기 출력 텍스트가 '효대용 컴퓨러'라고 생성된 경우, 비율 연산부(116)는 입력 텍스트를 구성하는 '휴대용 컴퓨터'와 출력 텍스트를 구성하는 '효대용 컴퓨러'를 각 문자의 위치별로 서로 일치하는지 비교하여 입력 텍스트를 구성하는 문자의 개수를 기준으로 일치하는 문자의 개수에 대한 비율을 연산할 수 있다.
본 실시예에서는 '대용 컴퓨'만 일치하기 때문에 일치하는 문자의 개수가 총 4개이고, 이로 인해 상기 비율은 '66.7%'로 연산될 수 있다.
이때, '휴대용 컴퓨터'와 '효대용 컴퓨러'에서는 '휴'와 '효', '터'와 '러'가 서로 일치하지 않기 때문에, 유사 문자 카운트부(117)는 상기 유사 문자 테이블을 참조하여 '효'라는 문자에 대응되는 유사 문자인 '휴'와 '호' 및 '러'라는 문자에 대응되는 유사 문자인 '라'와 '르'를 확인한 후 '효'라는 문자에 대응되는 유사 문자인 '휴' 또는 '호'와 상기 입력 텍스트의 '휴'를 비교하여 서로 일치하는지 확인하고, '러'라는 문자에 대응되는 유사 문자인 '라' 또는 '르'와 상기 입력 텍스트의 '터'를 비교하여 서로 일치하는지 확인함으로써, 유사 문자의 일치 개수를 카운트할 수 있다.
본 실시예에서는 상기 입력 텍스트에서 '휴'만이 '효'에 대응되는 유사 문자와 일치하기 때문에 유사 문자 카운트부(117)는 유사 문자의 일치 개수를 '1개'로 카운트할 수 있다.
그 이후, 유사도 결정부(118)는 상기 카운트된 개수에 대해 선정된 보정 가중치를 곱하여 비율 보정 가중치를 연산하고, 상기 연산된 비율에 대해 상기 비율 보정 가중치를 곱한 결과 값을 상기 유사도로 결정할 수 있다.
관련해서, 상기 선정된 보정 가중치가 '1.01'이라고 하는 경우, 유사도 결정부(118)는 상기 카운트된 개수 '1'에 상기 선정된 보정 가중치인 '1.01'을 곱하여 '1.01'이라는 비율 보정 가중치를 연산한 후 상기 연산된 비율인 '66.7%'에 상기 비율 보정 가중치인 '1.01'을 곱한 결과 값인 '67.37%'를 '휴대용 컴퓨터'와 '효대용 컴퓨러' 간의 유사도로 결정할 수 있다.
여기서, 상기 선정된 보정 가중치는 두 텍스트 간의 문자가 완전히 일치하지 않더라도 해당 문자가 서로 유사한 문자라고 하는 경우, 두 텍스트 간의 유사도가 좀 더 높게 산정될 수 있도록 보정하기 위한 가중치로 사용자에 의해 임의로 미리 설정될 수 있다.
이러한 방식으로, 유사도 연산부(112)는 상기 표 1에 표시한 나머지 9개의 옵션 값 세트들 각각에 대해서도 '휴대용 컴퓨터'라는 입력 텍스트에 대한 출력 텍스트와의 유사도를 연산할 수 있다.
이렇게, 유사도 연산부(112)를 통해 복수의 옵션 값 세트들에 대한 유사도의 연산이 완료되면, 선택부(113)는 상기 복수의 옵션 값 세트들 중 상기 유사도가 최대로 연산된 제1 옵션 값 세트를 선택한다.
그리고, 결정부(114)는 상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 음성 합성 최적화 파라미터 값으로 결정한다.
예컨대, 상기 표 1에 표시한 10개의 옵션 값 세트들 각각에 대해서 연산된 유사도가 하기의 표 3과 같이 산출되었다고 가정하자.
순번 옵션 값 세트(파라미터 a, 파라미터 b) 유사도
1 (0, 1) 80%
2 (0, 2) 87%
3 (0, 3) 85%
4 (10, 1) 76%
5 (10, 2) 83%
6 (10, 3) 88%
7 (20, 1) 87%
8 (20, 2) 84%
10 (20, 3) 85%
이때, 선택부(113)는 10개의 옵션 값 세트들 중 유사도가 최대로 연산된 옵션 값 세트인 '(10, 3)'을 선택할 수 있고, 결정부(114)는 '(10, 3)'에 포함되어 있는 '파라미터 a', '파라미터 b' 각각에 대한 옵션 값인 '10', '3'을 음성 합성 최적화 파라미터 값으로 결정할 수 있다.
이렇게, '(10, 3)'이라는 옵션 값이 음성 합성 최적화 파라미터 값으로 결정된 경우, 음성 합성 처리 장치(110)는 텍스트를 음성으로 변환할 때, 최적의 파라미터 값으로 결정된 '(10, 3)'이라는 '파라미터 a', '파라미터 b'에 대한 옵션 값을 기초로 파라미터 기반의 음성 합성을 수행함으로써, 고품질의 합성 음성이 생성되도록 지원할 수 있다.
이때, 본 발명의 일실시예에 따르면, 음성 합성 처리 장치(110)는 '(10, 3)'이라는 옵션 값이 최적의 파라미터 값으로 결정된 경우, 사용자의 선택에 의해 '(10, 3)'이라는 옵션 값을 기준으로 소정의 범위까지의 옵션 값들을 새로운 옵션 값 세트들로 구성한 후 새로운 옵션 값 세트들에 대해서 유사도 연산을 수행함으로써, 최적의 옵션 값 세트를 선택하는 과정을 다시 수행할 수 있다.
예컨대, 음성 합성 처리 장치(110)는 '(10, 3)'이라는 옵션 값을 기준으로, '파라미터 a'의 옵션 값이 '-5'에 해당되는 '(5, 3)'이라는 옵션 값 세트와 '+5'에 해당되는 '(15, 3)'이라는 옵션 값 세트를 새로 구성한 후 '(5, 3)', '(10, 3)', '(15, 3)'이라는 옵션 값 세트들에 대해 다시 유사도 연산을 수행하여 가장 높은 유사도를 갖는 옵션 값 세트를 최적의 파라미터 값으로 결정하는 과정을 반복함으로써, 보다 세밀한 옵션 값의 선택이 가능하도록 지원할 수 있다.
본 발명의 일실시예에 따르면, 음성 합성 처리 장치(110)는 출력 음성 생성부(119)를 더 포함할 수 있다.
출력 음성 생성부(119)는 상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들이 상기 음성 합성 최적화 파라미터 값으로 결정된 이후, 상기 사용자에 의해 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환(Text to Speech) 명령이 인가되면, 상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 상기 제1 문장을 구성하는 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 출력 음성을 생성한다.
이때, 본 발명의 일실시예에 따르면, 출력 음성 생성부(119)는 서식 정보 테이블 유지부(120), 출력 음량 조정 값 추출부(121) 및 출력 음성 생성 처리부(122)를 포함할 수 있다.
서식 정보 테이블 유지부(120)는 음성의 출력 음량을 조정하기 위해서 미리 지정된 복수의 서식 정보들과, 상기 복수의 서식 정보들 각각에 대한 미리 정해진 서로 다른 출력 음량 조정 값이 서로 대응되어 기록되어 있는 서식 정보 테이블을 저장하여 유지한다.
예컨대, 상기 서식 정보 테이블에는 하기의 표 4와 같이 정보가 기록되어 있을 수 있다.
복수의 서식 정보들 출력 음량 조정 값
텍스트가 굵게 처리된 서식 조정 값 1
텍스트에 기울임 처리된 서식 조정 값 2
텍스트의 색상이 빨간색으로 처리된 서식 조정 값 3
... ...
출력 음량 조정 값 추출부(121)는 상기 제1 문장에 대한 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장에 적용되어 있는 서식 정보를 확인하여 상기 제1 문장에 적용되어 있는 서식 정보 중 상기 복수의 서식 정보들에 속하는 서식 정보로 제1 서식 정보가 존재하는 것으로 확인되는 경우, 상기 서식 정보 테이블을 참조하여 상기 제1 서식 정보에 대응하는 제1 출력 음량 조정 값을 추출한다.
관련해서, 상기 제1 문장 상에 텍스트의 색상이 빨간색으로 처리된 서식이 적용되어 있다고 하는 경우, 출력 음량 조정 값 추출부(121)는 상기 표 4와 같은 서식 정보 테이블을 참조하여 해당 서식에 대응하는 '조정 값 3'을 상기 제1 출력 음량 조정 값으로 추출할 수 있다.
이때, 출력 음성 생성 처리부(122)는 상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 상기 제1 문장을 구성하는 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 상기 출력 음성을 생성하되, 상기 제1 출력 음량 조정 값이 추출된 경우, 음성 출력을 위해서 미리 지정되어 있는 기본 출력 음량 값에 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 상기 출력 음성을 생성하고, 상기 제1 출력 음량 조정 값이 추출되지 않은 경우, 상기 기본 출력 음량 값에 따라 상기 출력 음성을 생성한다.
즉, 앞서 설명한 예시에 따라 상기 제1 문장 상에 텍스트의 색상이 빨간색으로 처리된 서식이 적용되어 있음으로 인해 출력 음량 조정 값 추출부(121)를 통해 '조정 값 3'이 상기 제1 출력 음량 조정 값으로 추출된 경우, 출력 음성 생성 처리부(122)는 상기 제1 옵션 값 세트에 따른 옵션 값들을 기초로 상기 제1 문장에 대한 출력 음성을 생성할 때, 미리 지정되어 있는 기본 출력 음량 값에 '조정 값 3'이라는 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 출력 음성을 생성할 수 있다.
하지만, 상기 제1 문장 상에 상기 표 4에서 나타낸 서식 정보 테이블 상에 기록되어 있는 상기 복수의 서식 정보들에 따른 서식 정보가 적용되어 있지 않음으로 인해, 출력 음량 조정 값 추출부(121)를 통해 어떠한 출력 음량 조정 값도 추출되지 않은 경우, 출력 음성 생성 처리부(122)는 상기 제1 옵션 값 세트에 따른 옵션 값들을 기초로 상기 제1 문장에 대한 출력 음성을 생성할 때, 미리 지정되어 있는 기본 출력 음량 값에 따라 음성 출력을 수행할 수 있다.
즉, 본 발명에 따른 음성 합성 처리 장치(110)는 최적의 파라미터 값을 기반으로 음성 합성을 수행하여 출력 음성을 생성할 때, 텍스트에 적용되어 있는 서식에 따라 서로 다른 출력 음량을 갖는 출력 음성이 생성되도록 처리함으로써, 텍스트 상에 문자가 굵게 처리되어 있는 등과 같은 중요한 텍스트에 대해서는 높은 음량의 음성이 출력되도록 하여 음성을 청취하는 청취자의 이해를 높일 수 있다.
도 2는 본 발명의 일실시예에 따른 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치의 동작 방법을 도시한 순서도이다.
단계(S210)에서는 사용자에 의해 음성 합성에 사용되는 복수의 파라미터들 각각에 대한 옵션 값들의 범위가 지정되면, 파라미터 결정에 사용하기 위한 서로 다른 복수의 옵션 값 세트들(상기 복수의 옵션 값 세트들 각각은 상기 복수의 파라미터들 각각에 대한 옵션 값들의 집합을 의미함)을 결정한다.
단계(S220)에서는 상기 복수의 옵션 값 세트들 각각에 대해, 각 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 선정된 입력 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 합성 음성을 생성하고, 상기 합성 음성을 음성 인식 모듈에 입력으로 인가하여 상기 합성 음성에 대한 출력 텍스트를 생성한 후 상기 입력 텍스트와 상기 출력 텍스트 간의 유사도를 연산한다.
단계(S230)에서는 상기 복수의 옵션 값 세트들 중 상기 유사도가 최대로 연산된 제1 옵션 값 세트를 선택한다.
단계(S240)에서는 상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 음성 합성 최적화 파라미터 값으로 결정한다.
이때, 본 발명의 일실시예에 따르면, 단계(S210)에서는 상기 사용자에 의해 상기 복수의 파라미터들 각각에 대한 옵션 값들의 범위가 지정되면, 상기 복수의 파라미터들 각각에 대한 옵션 값들의 범위에 기초하여 상기 복수의 파라미터들 각각에 대해, 각 파라미터별로 동일한 크기 간격을 갖는 선정된 개수의 옵션 값들을 선택하고, 상기 복수의 파라미터들 각각에 대해서 선택된 상기 선정된 개수의 옵션 값들을 조합하여 그룹화함으로써, 상기 복수의 옵션 값 세트들을 결정할 수 있다.
또한, 본 발명의 일실시예에 따르면, 단계(S220)에서는 복수의 문자들과 상기 복수의 문자들 각각에 대한 미리 정해진 적어도 하나의 유사 문자가 서로 대응되어 기록되어 있는 유사 문자 테이블을 저장하여 유지하는 단계, 상기 입력 텍스트를 구성하는 복수의 제1 문자들과 상기 출력 텍스트를 구성하는 복수의 제2 문자들을 각 문자의 위치별로 서로 일치하는지 비교하여 상기 복수의 제1 문자들의 개수를 기준으로 일치하는 문자의 개수에 대한 비율을 연산하는 단계, 상기 복수의 제2 문자들 중 상기 복수의 제1 문자들과 일치하지 않는 적어도 하나의 불일치 문자가 존재하는 경우, 상기 유사 문자 테이블을 참조하여 상기 적어도 불일치 문자 각각에 대응되는 유사 문자를 확인하고, 상기 복수의 제1 문자들에서 상기 적어도 하나의 불일치 문자 각각에 대응되는 유사 문자와 일치하는 문자의 개수를 카운트하는 단계 및 상기 카운트된 개수에 대해 선정된 보정 가중치를 곱하여 비율 보정 가중치를 연산하고, 상기 연산된 비율에 대해 상기 비율 보정 가중치를 곱한 결과 값을 상기 유사도로 결정하는 단계를 포함할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 음성 합성 처리 장치의 동작 방법은 상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들이 상기 음성 합성 최적화 파라미터 값으로 결정된 이후, 상기 사용자에 의해 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환 명령이 인가되면, 상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 상기 제1 문장을 구성하는 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 출력 음성을 생성하는 단계를 더 포함할 수 있다.
이때, 본 발명의 일실시예에 따르면, 상기 출력 음성을 생성하는 단계는 음성의 출력 음량을 조정하기 위해서 미리 지정된 복수의 서식 정보들과, 상기 복수의 서식 정보들 각각에 대한 미리 정해진 서로 다른 출력 음량 조정 값이 서로 대응되어 기록되어 있는 서식 정보 테이블을 저장하여 유지하는 단계, 상기 제1 문장에 대한 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장에 적용되어 있는 서식 정보를 확인하여 상기 제1 문장에 적용되어 있는 서식 정보 중 상기 복수의 서식 정보들에 속하는 서식 정보로 제1 서식 정보가 존재하는 것으로 확인되는 경우, 상기 서식 정보 테이블을 참조하여 상기 제1 서식 정보에 대응하는 제1 출력 음량 조정 값을 추출하는 단계 및 상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 상기 제1 문장을 구성하는 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 상기 출력 음성을 생성하되, 상기 제1 출력 음량 조정 값이 추출된 경우, 음성 출력을 위해서 미리 지정되어 있는 기본 출력 음량 값에 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 상기 출력 음성을 생성하고, 상기 제1 출력 음량 조정 값이 추출되지 않은 경우, 상기 기본 출력 음량 값에 따라 상기 출력 음성을 생성하는 단계를 포함할 수 있다.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 파라미터 기반의 음성 합성 처리 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 파라미터 기반의 음성 합성 처리 장치의 동작 방법은 도 1을 이용하여 설명한 파라미터 기반의 음성 합성 처리 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 파라미터 기반의 음성 합성 처리 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 파라미터 기반의 음성 합성 처리 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
110: 파라미터 기반의 음성 합성 처리 장치
111: 옵션 값 세트 결정부 112: 유사도 연산부
113: 선택부 114: 결정부
115: 유사 문자 테이블 유지부 116: 비율 연산부
117: 유사 문자 카운트부 118: 유사도 결정부
119: 출력 음성 생성부 120: 서식 정보 테이블 유지부
121: 출력 음량 조정 값 추출부 122: 출력 음성 생성 처리부

Claims (12)

  1. 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치에 있어서,
    사용자에 의해 음성 합성에 사용되는 복수의 파라미터들 각각에 대한 옵션 값들의 범위가 지정되면, 파라미터 결정에 사용하기 위한 서로 다른 복수의 옵션 값 세트들 - 상기 복수의 옵션 값 세트들 각각은 상기 복수의 파라미터들 각각에 대한 옵션 값들의 집합을 의미함 - 을 결정하는 옵션 값 세트 결정부;
    상기 복수의 옵션 값 세트들 각각에 대해, 각 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 선정된(predetermined) 입력 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 합성 음성을 생성하고, 상기 합성 음성을 음성 인식 모듈에 입력으로 인가하여 상기 합성 음성에 대한 출력 텍스트를 생성한 후 상기 입력 텍스트와 상기 출력 텍스트 간의 유사도를 연산하는 유사도 연산부;
    상기 복수의 옵션 값 세트들 중 상기 유사도가 최대로 연산된 제1 옵션 값 세트를 선택하는 선택부; 및
    상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 음성 합성 최적화 파라미터 값으로 결정하는 결정부
    를 포함하는 파라미터 기반의 음성 합성 처리 장치.
  2. 제1항에 있어서,
    상기 옵션 값 세트 결정부는
    상기 사용자에 의해 상기 복수의 파라미터들 각각에 대한 옵션 값들의 범위가 지정되면, 상기 복수의 파라미터들 각각에 대한 옵션 값들의 범위에 기초하여 상기 복수의 파라미터들 각각에 대해, 각 파라미터별로 동일한 크기 간격을 갖는 선정된 개수의 옵션 값들을 선택하고, 상기 복수의 파라미터들 각각에 대해서 선택된 상기 선정된 개수의 옵션 값들을 조합하여 그룹화함으로써, 상기 복수의 옵션 값 세트들을 결정하는 파라미터 기반의 음성 합성 처리 장치.
  3. 제1항에 있어서,
    상기 유사도 연산부는
    복수의 문자들과 상기 복수의 문자들 각각에 대한 미리 정해진 적어도 하나의 유사 문자가 서로 대응되어 기록되어 있는 유사 문자 테이블을 저장하여 유지하는 유사 문자 테이블 유지부;
    상기 입력 텍스트를 구성하는 복수의 제1 문자들과 상기 출력 텍스트를 구성하는 복수의 제2 문자들을 각 문자의 위치별로 서로 일치하는지 비교하여 상기 복수의 제1 문자들의 개수를 기준으로 일치하는 문자의 개수에 대한 비율을 연산하는 비율 연산부;
    상기 복수의 제2 문자들 중 상기 복수의 제1 문자들과 일치하지 않는 적어도 하나의 불일치 문자가 존재하는 경우, 상기 유사 문자 테이블을 참조하여 상기 적어도 불일치 문자 각각에 대응되는 유사 문자를 확인하고, 상기 복수의 제1 문자들에서 상기 적어도 하나의 불일치 문자 각각에 대응되는 유사 문자와 일치하는 문자의 개수를 카운트하는 유사 문자 카운트부; 및
    상기 카운트된 개수에 대해 선정된 보정 가중치를 곱하여 비율 보정 가중치를 연산하고, 상기 연산된 비율에 대해 상기 비율 보정 가중치를 곱한 결과 값을 상기 유사도로 결정하는 유사도 결정부
    를 포함하는 파라미터 기반의 음성 합성 처리 장치.
  4. 제1항에 있어서,
    상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들이 상기 음성 합성 최적화 파라미터 값으로 결정된 이후, 상기 사용자에 의해 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환(Text to Speech) 명령이 인가되면, 상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 상기 제1 문장을 구성하는 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 출력 음성을 생성하는 출력 음성 생성부
    를 더 포함하는 파라미터 기반의 음성 합성 처리 장치.
  5. 제4항에 있어서,
    상기 출력 음성 생성부는
    음성의 출력 음량을 조정하기 위해서 미리 지정된 복수의 서식 정보들과, 상기 복수의 서식 정보들 각각에 대한 미리 정해진 서로 다른 출력 음량 조정 값이 서로 대응되어 기록되어 있는 서식 정보 테이블을 저장하여 유지하는 서식 정보 테이블 유지부;
    상기 제1 문장에 대한 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장에 적용되어 있는 서식 정보를 확인하여 상기 제1 문장에 적용되어 있는 서식 정보 중 상기 복수의 서식 정보들에 속하는 서식 정보로 제1 서식 정보가 존재하는 것으로 확인되는 경우, 상기 서식 정보 테이블을 참조하여 상기 제1 서식 정보에 대응하는 제1 출력 음량 조정 값을 추출하는 출력 음량 조정 값 추출부; 및
    상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 상기 제1 문장을 구성하는 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 상기 출력 음성을 생성하되, 상기 제1 출력 음량 조정 값이 추출된 경우, 음성 출력을 위해서 미리 지정되어 있는 기본 출력 음량 값에 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 상기 출력 음성을 생성하고, 상기 제1 출력 음량 조정 값이 추출되지 않은 경우, 상기 기본 출력 음량 값에 따라 상기 출력 음성을 생성하는 출력 음성 생성 처리부
    를 포함하는 파라미터 기반의 음성 합성 처리 장치.
  6. 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치의 동작 방법에 있어서,
    사용자에 의해 음성 합성에 사용되는 복수의 파라미터들 각각에 대한 옵션 값들의 범위가 지정되면, 파라미터 결정에 사용하기 위한 서로 다른 복수의 옵션 값 세트들 - 상기 복수의 옵션 값 세트들 각각은 상기 복수의 파라미터들 각각에 대한 옵션 값들의 집합을 의미함 - 을 결정하는 단계;
    상기 복수의 옵션 값 세트들 각각에 대해, 각 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 선정된(predetermined) 입력 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 합성 음성을 생성하고, 상기 합성 음성을 음성 인식 모듈에 입력으로 인가하여 상기 합성 음성에 대한 출력 텍스트를 생성한 후 상기 입력 텍스트와 상기 출력 텍스트 간의 유사도를 연산하는 단계;
    상기 복수의 옵션 값 세트들 중 상기 유사도가 최대로 연산된 제1 옵션 값 세트를 선택하는 단계; 및
    상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 음성 합성 최적화 파라미터 값으로 결정하는 단계
    를 포함하는 파라미터 기반의 음성 합성 처리 장치의 동작 방법.
  7. 제6항에 있어서,
    상기 복수의 옵션 값 세트들을 결정하는 단계는
    상기 사용자에 의해 상기 복수의 파라미터들 각각에 대한 옵션 값들의 범위가 지정되면, 상기 복수의 파라미터들 각각에 대한 옵션 값들의 범위에 기초하여 상기 복수의 파라미터들 각각에 대해, 각 파라미터별로 동일한 크기 간격을 갖는 선정된 개수의 옵션 값들을 선택하고, 상기 복수의 파라미터들 각각에 대해서 선택된 상기 선정된 개수의 옵션 값들을 조합하여 그룹화함으로써, 상기 복수의 옵션 값 세트들을 결정하는 파라미터 기반의 음성 합성 처리 장치의 동작 방법.
  8. 제6항에 있어서,
    상기 유사도를 연산하는 단계는
    복수의 문자들과 상기 복수의 문자들 각각에 대한 미리 정해진 적어도 하나의 유사 문자가 서로 대응되어 기록되어 있는 유사 문자 테이블을 저장하여 유지하는 단계;
    상기 입력 텍스트를 구성하는 복수의 제1 문자들과 상기 출력 텍스트를 구성하는 복수의 제2 문자들을 각 문자의 위치별로 서로 일치하는지 비교하여 상기 복수의 제1 문자들의 개수를 기준으로 일치하는 문자의 개수에 대한 비율을 연산하는 단계;
    상기 복수의 제2 문자들 중 상기 복수의 제1 문자들과 일치하지 않는 적어도 하나의 불일치 문자가 존재하는 경우, 상기 유사 문자 테이블을 참조하여 상기 적어도 불일치 문자 각각에 대응되는 유사 문자를 확인하고, 상기 복수의 제1 문자들에서 상기 적어도 하나의 불일치 문자 각각에 대응되는 유사 문자와 일치하는 문자의 개수를 카운트하는 단계; 및
    상기 카운트된 개수에 대해 선정된 보정 가중치를 곱하여 비율 보정 가중치를 연산하고, 상기 연산된 비율에 대해 상기 비율 보정 가중치를 곱한 결과 값을 상기 유사도로 결정하는 단계
    를 포함하는 파라미터 기반의 음성 합성 처리 장치의 동작 방법.
  9. 제6항에 있어서,
    상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들이 상기 음성 합성 최적화 파라미터 값으로 결정된 이후, 상기 사용자에 의해 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환(Text to Speech) 명령이 인가되면, 상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 상기 제1 문장을 구성하는 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 출력 음성을 생성하는 단계
    를 더 포함하는 파라미터 기반의 음성 합성 처리 장치의 동작 방법.
  10. 제9항에 있어서,
    상기 출력 음성을 생성하는 단계는
    음성의 출력 음량을 조정하기 위해서 미리 지정된 복수의 서식 정보들과, 상기 복수의 서식 정보들 각각에 대한 미리 정해진 서로 다른 출력 음량 조정 값이 서로 대응되어 기록되어 있는 서식 정보 테이블을 저장하여 유지하는 단계;
    상기 제1 문장에 대한 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장에 적용되어 있는 서식 정보를 확인하여 상기 제1 문장에 적용되어 있는 서식 정보 중 상기 복수의 서식 정보들에 속하는 서식 정보로 제1 서식 정보가 존재하는 것으로 확인되는 경우, 상기 서식 정보 테이블을 참조하여 상기 제1 서식 정보에 대응하는 제1 출력 음량 조정 값을 추출하는 단계; 및
    상기 제1 옵션 값 세트에 포함되어 있는 상기 복수의 파라미터들 각각에 대한 옵션 값들을 기초로 상기 제1 문장을 구성하는 텍스트에 대해 파라미터 기반의 음성 합성을 수행하여 상기 출력 음성을 생성하되, 상기 제1 출력 음량 조정 값이 추출된 경우, 음성 출력을 위해서 미리 지정되어 있는 기본 출력 음량 값에 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 상기 출력 음성을 생성하고, 상기 제1 출력 음량 조정 값이 추출되지 않은 경우, 상기 기본 출력 음량 값에 따라 상기 출력 음성을 생성하는 단계
    를 포함하는 파라미터 기반의 음성 합성 처리 장치의 동작 방법.
  11. 제6항 내지 제10항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  12. 제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
KR1020180098363A 2018-08-23 2018-08-23 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치 및 그 동작 방법 KR102144344B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180098363A KR102144344B1 (ko) 2018-08-23 2018-08-23 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180098363A KR102144344B1 (ko) 2018-08-23 2018-08-23 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20200022592A true KR20200022592A (ko) 2020-03-04
KR102144344B1 KR102144344B1 (ko) 2020-08-13

Family

ID=69783129

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180098363A KR102144344B1 (ko) 2018-08-23 2018-08-23 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102144344B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100062825A (ko) * 2008-12-01 2010-06-10 한국전자통신연구원 음성합성장치 및 방법
KR20160128871A (ko) * 2015-04-29 2016-11-08 서울대학교산학협력단 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100062825A (ko) * 2008-12-01 2010-06-10 한국전자통신연구원 음성합성장치 및 방법
KR20160128871A (ko) * 2015-04-29 2016-11-08 서울대학교산학협력단 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치

Also Published As

Publication number Publication date
KR102144344B1 (ko) 2020-08-13

Similar Documents

Publication Publication Date Title
US8626489B2 (en) Method and apparatus for processing data
US20170068656A1 (en) System and method of recording utterances using unmanaged crowds for natural language processing
US20180277102A1 (en) System and Method for Optimizing Speech Recognition and Natural Language Parameters with User Feedback
US9460718B2 (en) Text generator, text generating method, and computer program product
US20140046666A1 (en) Information processing apparatus, computer program product, and information processing method
CN104008752A (zh) 语音识别装置及方法、以及半导体集成电路装置
CN113409827B (zh) 基于局部卷积块注意力网络的语音端点检测方法及系统
CN106782601B (zh) 一种多媒体数据处理方法及其装置
KR102036721B1 (ko) 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법
KR102087301B1 (ko) 개인 화자의 음성을 기반으로 하는 음성합성기를 구축하기 위한 음성합성 훈련용 문장 선정 장치 및 그 동작 방법
KR20200022592A (ko) 음성 합성 최적화를 위한 파라미터의 결정이 가능한 파라미터 기반의 음성 합성 처리 장치 및 그 동작 방법
KR20200050159A (ko) 문서에 대한 읽기 예측 시간의 산출이 가능한 전자 단말 장치 및 그 동작 방법
JP2009277071A (ja) 情報検索装置及びプログラム
KR20190080437A (ko) 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법
KR102643902B1 (ko) 회의록 관리 방법 및 장치
KR102187528B1 (ko) 도메인 기반의 음성 인식 모델의 최적화가 가능한 음성 인식 장치 및 그 동작 방법
CN112686041A (zh) 一种拼音标注方法及装置
KR102076565B1 (ko) 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법
JP5020763B2 (ja) 音声合成のための決定木を生成する装置、方法及びプログラム
KR20210138894A (ko) 스프레드시트 상에서 문장 단위로 줄바꿈이 가능한 전자 장치 및 그 동작 방법
JP2008064972A (ja) 音声合成装置、音声合成方法及び音声合成用プログラム
KR20210051355A (ko) 미세먼지 측정기를 통해 산출된 미세먼지 측정 데이터의 오류를 보정할 수 있는 원인 데이터 비교 기반의 미세먼지 측정 데이터 보정 장치
WO2017164216A1 (ja) 音響処理方法および音響処理装置
KR20240038271A (ko) 받아쓰기 연습용 문장에 기초하여 받아쓰기 연습을 수행할 수 있도록 지원하는 전자 단말 장치 및 그 동작 방법
JP6569343B2 (ja) 音声検索装置、音声検索方法及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right