KR102072627B1 - 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법 - Google Patents

음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법 Download PDF

Info

Publication number
KR102072627B1
KR102072627B1 KR1020170143286A KR20170143286A KR102072627B1 KR 102072627 B1 KR102072627 B1 KR 102072627B1 KR 1020170143286 A KR1020170143286 A KR 1020170143286A KR 20170143286 A KR20170143286 A KR 20170143286A KR 102072627 B1 KR102072627 B1 KR 102072627B1
Authority
KR
South Korea
Prior art keywords
frame
unit
phoneme unit
rhyme
phoneme
Prior art date
Application number
KR1020170143286A
Other languages
English (en)
Other versions
KR20190048371A (ko
Inventor
이창헌
박지훈
김종진
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020170143286A priority Critical patent/KR102072627B1/ko
Priority to PCT/KR2018/012967 priority patent/WO2019088635A1/ko
Publication of KR20190048371A publication Critical patent/KR20190048371A/ko
Application granted granted Critical
Publication of KR102072627B1 publication Critical patent/KR102072627B1/ko
Priority to US16/863,138 priority patent/US11170755B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성 합성 장치에 관한 것으로서, 더욱 상세하게는 임의의 텍스트에 대응하는 음소 유닛을 추출하고 추출된 음소 유닛을 합성하여 합성음 생성 시, 운율을 조절하고 불연속성을 제거함으로써 보다 안정적이고 자연스러운 합성음을 생성할 수 있는 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법에 관한 것이다.

Description

음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법{SPEECH SYNTHESIS APPARATUS AND METHOD THEREOF}
본 발명은 음성 합성 장치에 관한 것으로서, 더욱 상세하게는 임의의 텍스트에 대응하는 음소 유닛을 추출하고 추출된 음소 유닛을 합성하여 합성음 생성 시, 운율을 조절하고 불연속성을 제거하여 보다 자연스럽게 합성음을 생성할 수 있는 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
음성 합성 시스템(TTS; Text To Speech system)이란 임의의 텍스트가 주어질 때 그 텍스트를 읽어 음성의 형태로 출력하는 시스템을 의미한다. 이러한 음성 합성 시스템은 크기 훈련 과정과 합성 과정으로 구분될 수 있다. 훈련 과정은 합성 과정에서 사용될 언어 모델, 운율 모델, 신호 모델을 만드는 과정이며, 합성 과정은 임의의 텍스트에 대한 언어 처리, 운율 처리 및 신호 처리를 거쳐 합성음을 변환하여 생성하게 된다.
이때, 상기 합성 과정은 유닛 기반 합성 방식인 USS(Unit Selection Synthesis) 방식과 통계적 모델 기반 파라미터 합성 방식인 SPS(Statistical Parametric Synthesis)로 구분되어 진행될 수 있다. USS 방식은 한 음소당 여러 개의 유닛 후보가 존재하는 음소 데이터베이스에서 적합한 음소 유닛을 추출하고, 추출한 음소 유닛을 이어 붙여 합성음을 생성하는 방식으로 유닛 사이에 불연속성이 존재하여 발화가 부자연스러운 문제점이 있다.
반면, SPS 방식은 음성 신호를 파라미터로 변환하여 추출하고, 추출된 파라미터를 통계적인 방식으로 합성하여 합성음을 생성하는 방식으로, USS 방식에 비해 보다 안정적인 운율을 갖는 합성음을 생성할 수 있지만 기본 음질이 낮다는 문제점이 있다.
따라서, 불연속성을 제거함과 동시에 안정적인 운율을 갖는 고음질의 합성음을 생성할 수 있는 기술의 개발이 필요하다.
한국등록특허 제10-1056567호, 2011.08.11 공고(명칭: 코퍼스 기반 음성 합성기에서의 합성 유닛 선택 장치 및 그 방법)
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로서, USS 방식의 불연속성을 제거함과 동시에 SPS 방식에 비해 보다 안정적이고 고음질의 합성음을 생성할 수 있는 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법을 제공하는 데 목적이 있다.
특히, 본 발명은 입력된 텍스트에 대응하는 음소 유닛을 추출하고 추출된 음소 유닛을 합성하여 합성음 생성 시, 운율을 조절하고 불연속성을 제거하여 보다 자연스럽게 합성음을 생성할 수 있는 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법을 제공하는 데 그 목적이 있다.
그러나, 이러한 본 발명의 목적은 상기의 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 음성 합성 장치는 임의의 텍스트에 대응하여 운율 정보를 분석하는 운율 추출부; 상기 분석된 운율 정보를 기초로 해당하는 음소 유닛을 음소 데이터베이스에서 추출하는 유닛 추출부; 상기 추출된 음소 유닛의 운율 파라미터를 상기 운율 정보를 기초로 예측된 타겟 음소 유닛의 운율 파라미터가 되도록 변경하는 운율 조절부; 및 상기 변경된 음소 유닛 간의 불연속성을 제거하여 합성음을 생성하는 음성 합성부;를 포함하여 이뤄질 수 있다.
이때, 상기 운율 파라미터는 피치 주기(pitch, fundamental frequency), 에너지(energy), 신호 길이(duration)를 포함할 수 있다.
또한, 상기 운율 추출부는 상기 추출된 음소 유닛의 프레임 길이와 동일한 길이로 상기 타겟 음소 유닛을 예측할 수 있다.
또한, 상기 운율 조절부는 상기 추출된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 변경한 후, 상기 추출된 음소 유닛의 피치 주기 및 에너지 각각을 타겟 음소 유닛의 피치 주기 및 에너지가 되도록 변경할 수 있다.
또한, 상기 운율 조절부는 상기 추출된 음소 유닛의 신호 길이가 상기 타겟 음소 유닛의 신호 길이가 되도록 상기 추출된 음소 유닛의 프레임을 복사하거나 삭제할 수 있다.
또한, 상기 운율 조절부는 상기 추출된 음소 유닛이 음성 파라미터 셋의 형태인 경우, 상기 추출된 음소 유닛의 전체 프레임 수를 상기 타겟 음소 유닛의 전체 프레임 수로 나는 값을 반올림하여 상기 추출된 음소 유닛의 프레임 인덱스를 조절하고, 변경된 프레임 인덱스에 대응하는 음성 파라미터 셋을 상기 추출된 음소 유닛의 음성 파라미터 셋과 매칭시킨 후, 상기 프레임 인덱스가 조절된 음소 유닛의 음성 파라미터 셋이 상기 타겟 음소 유닛의 음성 파라미터 셋이 되도록 프레임별로 변경할 수 있다.
아울러, 상기 음성 합성부는 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임의 운율 파라미터를 확인하고, 상기 확인된 운율 파라미터의 평균값을 산출하여 상기 마지막 프레임 및 상기 시작 프레임 각각에 적용하거나, 상기 마지막 프레임 및 상기 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거할 수 있다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 음성 합성 방법은 음성 합성 장치가 임의의 텍스트에 대응하여 운율 정보를 분석하는 단계; 상기 분석된 운율 정보를 기초로 해당하는 음소 유닛을 음소 데이터베이스에서 추출하는 단계; 상기 추출된 음소 유닛의 운율 파라미터를 상기 분석된 운율 정보를 기초로 예측된 타겟 음소 유닛의 운율 파라미터가 되도록 변경하는 단계; 및 상기 변경된 음소 유닛 간의 불연속성을 제거하여 합성음을 생성하는 단계;를 포함하여 이뤄질 수 있다.
이때, 상기 변경하는 단계는 상기 추출된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 변경하는 단계; 및 상기 신호 길이를 변경한 후, 상기 추출된 음소 유닛의 피치 주기 및 에너지 각각을 타겟 음소 유닛의 피치 주기 및 에너지가 되도록 변경하는 단계;를 포함할 수 있다.
또한, 상기 추출된 음소 유닛이 음성 파라미터 셋의 형태인 경우, 상기 변경하는 단계는 상기 추출된 음소 유닛의 전체 프레임 수를 상기 타겟 음소 유닛의 전체 프레임 수로 나는 값을 반올림하여 상기 추출된 음소 유닛의 프레임 인덱스를 조절하는 단계; 변경된 프레임 인덱스에 대응하는 음성 파라미터 셋을 상기 추출된 음소 유닛의 음성 파라미터 셋과 매칭시키는 단계; 및 상기 프레임 인덱스가 조절된 음소 유닛의 음성 파라미터 셋이 상기 타겟 음소 유닛의 음성 파라미터 셋이 되도록 프레임별로 변경하는 단계;를 포함하여 이뤄질 수 있다.
또한, 상기 합성음을 생성하는 단계는 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임의 운율 파라미터를 확인하고, 상기 확인된 운율 파라미터의 평균값을 산출하여 상기 마지막 프레임 및 상기 시작 프레임 각각에 적용하거나, 상기 마지막 프레임 및 상기 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거할 수 있다.
추가로 본 발명은 상술한 바와 같은 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 제공할 수 있다.
본 발명의 실시 예에 따른 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법에 의하면, USS 방식의 불연속성을 제거함과 동시에 SPS 방식에 비해 보다 안정적이고 고음질의 합성음을 생성할 수 있게 된다.
또한 본 발명은 무제한 도메인과 같이 유닛의 최적 후보를 찾을 수 없는 상황에서도 불연속성을 제거함과 동시에 고음질의 합성음을 생성할 수 있게 된다.
아울러, 상술한 효과 이외의 다양한 효과들이 후술될 본 발명의 실시 예에 따른 상세한 설명에서 직접적 또는 암시적으로 개시될 수 있다.
도 1은 본 발명의 실시 예에 따른 음성 합성 장치를 이용한 음성 합성 방법을 개략적으로 설명하기 위한 예시도이다.
도 2는 본 발명의 실시 예에 따른 음성 합성 장치의 주요 구성을 도시한 블록도이다.
도 3 내지 도 5는 본 발명의 제1 실시 예에 따른 음성 합성 장치에서의 음성 합성 방법을 설명하기 위한 예시도이다.
도 6 내지 도 9는 본 발명의 제2 실시 예에 따른 음성 합성 장치에서의 음성 합성 방법을 설명하기 위한 예시도이다.
도 10은 본 발명의 실시 예에 따른 음성 합성 장치에서의 음성 합성 방법을 설명하기 위한 흐름도이다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작 원리를 상세하게 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 핵심을 흐리지 않고 더욱 명확히 전달하기 위함이다. 또한 본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 하나, 이는 본 발명을 특정한 실시 형태로 한정하려는 것은 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이제 본 발명의 실시 예에 따른 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법에 대하여 도면을 참조하여 상세하게 설명하도록 한다. 이때, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용하며, 이에 대한 중복되는 설명은 생략하기로 한다. 또한, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다.
이하, 본 발명의 실시 예에 따른 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법에 대해 설명하도록 한다.
도 1은 본 발명의 실시 예에 따른 음성 합성 장치를 이용한 음성 합성 방법을 개략적으로 설명하기 위한 예시도이다.
도 1을 참조하면, 본 발명의 음성 합성 장치(100)는 임의의 텍스트가 주어질 때 그 텍스트를 읽어 음성의 형태로 출력하는 음성 합성 시스템을 의미한다.
특히, 본 발명의 음성 합성 장치(100)는 임의의 텍스트에서 운율 정보를 추출하고 음소 유닛 단위로 저장된 음소 데이터베이스에서 상기 추출한 운율 정보에 해당하는 음소 유닛을 추출한 후, 추출한 음소 유닛의 운율 파라미터를 상기 운율 정보에 대응하는 타겟 음소 유닛의 운율 파라미터가 되도록 변경한 후, 변경된 음소 유닛을 합성하여 합성음을 생성할 수 있다. 이때, 본 발명의 음성 합성 장치(100)는 음소 유닛 간의 경계에 대한 불연속성을 제거한 후 음소 유닛을 합성하여 합성음을 생성하고, 이를 사용자가 인지할 수 있는 가청음의 형태로 출력하게 된다.
이러한 본 발명의 음성 합성 장치(100)는 은행, 증권, 보험, 카드 등 각종 서비스의 ARS(Automatic Response Service) 시스템에 적용될 수 있으며, 웹 페이지를 음성으로 안내하는 보이스 포탈 서비스, 음성 메시지 전송 기능을 지원하는 통합 메시징 시스템, 교육용 음성 솔루션 시스템 등 지정된 텍스트를 읽어 사용자에게 음성의 형태로 안내하는 각종 서비스에 적용될 수 있다.
또한, 본 발명의 음성 합성 장치(100)는 음성 인식 장치(미도시)와 결합하여 음성 시스템을 구축할 수 있으며, 음성 인식 장치(미도시)가 사용자의 음성을 인식하여 이에 대한 응답 텍스트를 구축하면, 음성 합성 장치(100)가 응답 텍스트를 합성음의 형태로 출력하는 역할을 수행할 수 있다. 이러한 음성 시스템의 대표적인 예는 인공 지능 스피커를 들 수 있다.
이 외에도 본 발명의 음성 합성 장치(100)는 합성음 출력을 지원하는 각종 서비스에 지원될 수 있으며, 사용자의 단말(미도시)에 장착되어 합성음을 출력하거나, 서버 형태로 구현되어 동작을 수행할 수 있다. 서버 형태로 구현되는 경우 통신망(미도시)을 경유하여 사용자의 단말(미도시)로 합성음을 제공하는 과정까지 지원할 수도 있다.
이러한 본 발명의 실시 예에 따른 음성 합성 장치(100)의 주요 구성 및 동작에 대해 보다 더 구체적으로 설명하도록 한다.
도 2는 본 발명의 실시 예에 따른 음성 합성 장치의 주요 구성을 도시한 블록도이다.
도 2를 참조하면, 본 발명의 실시 예에 따른 음성 합성 장치(100)는 언어 처리부(110), 운율 추출부(120), 유닛 추출부(130), 운율 조절부(140), 음성 합성부(150) 및 음소 데이터베이스(160)를 포함하여 구성된다.
각 구성 요소에 대해 구체적으로 설명하면, 먼저 언어 처리부(110)는 임의의 텍스트가 입력되면 입력된 텍스트에 대한 언어 처리를 수행하게 된다. 언어 처리부(110)는 입력된 텍스트에 대하여 구문 분석 및 형태소 분석을 수행하여 문장 구조 및 문장 종류에 대한 정보를 분석한다. 특히, 본 발명의 언어 처리부(110)는 실제 발음을 예측하여 문장 분석을 수행하게 되는데, 예컨대 출력하고자 하는 합성음의 언어를 확인하여, 해당 언어로 텍스트를 변환하는 과정, 실제 발음을 예측하는 과정 등을 수행할 수 있다. 언어 처리부(110)에서의 출력은 운율 추출부(120)로 전달되게 된다.
운율 추출부(120)는 언어 처리부(110)를 통해 전달되는 텍스트에 대한 운율 정보를 분석하게 된다. 예컨대, 운율 추출부(120)는 문장의 어디에서 끊어 읽을 지, 어디를 강하게 읽을 지, 문장 어미의 톤을 결정하는 것과 같이 문장 구조 및 문장 종류에 따라 억양, 강세와 같은 운율 정보를 분석할 수 있다. 그리고, 본 발명의 운율 추출부(120)는 분석된 운율 정보를 기반으로 타겟 음소 유닛을 예측 및 생성할 수 있다. 이때, 예측되는 타겟 음소 유닛은 상기 추출된 음소 유닛의 프레임 길이와 동일한 길이로 예측 및 생성될 수 있다.
그리고 본 발명의 운율 추출부(120)는 운율 정보를 기반으로 운율 파라미터를 추출하게 된다. 본 발명의 운율 추출부(120)가 추출하는 운율 파라미터는 피치 주기(pitch, fundamental frequency), 에너지(energy), 신호 길이(duration)이 될 수 있다.
유닛 추출부(130)는 운율 추출부(120)를 통해 분석된 운율 정보를 이용하여 해당하는 음소 유닛을 음소 데이터베이스(160)에서 추출하게 된다. 특히, 본 발명의 유닛 추출부(130)는 복수 개의 음소 데이터베이스(160)에서 분석된 운율 정보를 기초로 적합한 음소 데이터베이스(160)를 결정하고 결정된 음소 데이터베이스(160)에서 해당하는 음소 유닛을 추출할 수 있다. 예를 들어 설명하면, "안녕하세요"라는 문장이 있을 때, 이를 발화하는 사용자에 따라 음성의 톤, 분위기 등이 달라질 수 있다. 본 발명의 음소 데이터베이스(160)는 동일한 음소이더라도 운율 정보별로 대응하는 음소 데이터베이스(160)를 복수 개 구축할 수 있으며, 유닛 추출부(130)는 운율 정보를 기초로 적합한 음소 데이터베이스(160)를 결정하고, 결정된 음소 데이터베이스(160)에서 해당하는 음소 유닛을 추출하게 된다.
그리고 본 발명의 음성 합성 장치(100)는 추출된 음소 유닛의 운율을 조절하는 운율 조절부(140)를 포함하여 구성된다. 즉, 본 발명의 운율 조절부(140)는 유닛 추출부(130)를 통해 추출된 음소 유닛의 운율 파라미터를 운율 추출부(120)를 통해 예측된 타겟 음소 유닛의 운율 파라미터가 되도록 변경하는 과정을 수행하게 된다. 변경되는 운율 파라미터는 피치 주기, 에너지, 신호 길이이다. 특히, 본 발명의 운율 운율 조절부(140)는 먼저 추출된 음소 유닛의 신호 길이를 타겟 음소 유닛의 신호 길이로 변경한 후, 피치 주기 및 에너지를 각각 타겟 음소 유닛의 피치 주기 및 에너지로 변경하는 과정을 수행할 수 있다.
이후, 본 발명의 음성 합성부(150)는 운율 조절부(140)를 통해 운율이 조절된 음소 유닛을 합성하여 합성음을 생성하게 된다. 특히, 본 발명의 음성 합성부(150)는 음소 유닛 간의 불연속성을 제거하여 고품질의 합성음을 생성할 수 있다.
상술한 바와 같은 운율 조절부(140) 및 음성 합성부(150)는 음소 데이터베이스(160)의 종류에 따라 다르게 동작을 수행할 수 있다. 즉, 본 발명의 음소 데이터베이스(160)는 음소 유닛 단위로 정보를 저장하고 관리하되, 이때 저장되는 음소 유닛은 음성 파형의 형태로 구축되거나 파라미터 셋의 형태로 구축될 수 있으며, 운율 조절부(140) 및 음성 합성부(150)는 음성 파형의 형태로 추출된 음소 유닛의 운율을 조정하고 합성음을 생성하거나, 파라미터 셋의 형태로 추출된 음소 유닛의 운율을 조정하고 합성음을 생성할 수도 있다.
이러한 본 발명의 실시 예에 따른 음성 합성 장치(100)에서의 음성 합성 방법에 대해 음소 데이터베이스(160) 종류를 기준으로 각각 설명하도록 한다.
먼저, 본 발명의 제1 실시 예에 따른 음성 합성 장치(100)에서의 음성 합성 방법에 대해 설명하도록 한다.
도 3 내지 도 5는 본 발명의 제1 실시 예에 따른 음성 합성 장치에서의 음성 합성 방법을 설명하기 위한 예시도이다.
먼저, 도 3을 참조하면, 본 발명의 제1 실시 예에 따른 음성 합성 장치(100)는 음성 파형(waveform) 형태로 음소 유닛 단위로 저장된 음소 데이터베이스(160)를 포함한다.
본 발명의 음성 합성 장치(100)의 유닛 추출부(130)는 해당하는 음소 유닛을 음소 데이터베이스(160)에서 추출하고, 운율 조절부(140)는 추출된 음성 파형 형태의 음소 유닛을 입력된 텍스트를 기초로 추출된 운율 정보에 대응하는 타겟 음소 유닛이 되도록 운율 파라미터를 변경한 후, 음성 합성부(150)가 변경된 음성 파형 형태의 음소 유닛을 합성하여 합성음을 생성하게 된다. 이때, 본 발명의 음성 합성부(150)는 음소 유닛 간의 경계에서 발생되는 불연속성을 제거하여 보다 자연스러운 고품질의 합성음을 생성할 수 있다.
이러한 과정에 대해 보다 더 구체적으로 설명한다.
먼저 도 4의 (a)에서는 유닛 추출부(130)에 의해 추출된 하나의 음소 유닛을 예시하는 것으로, 5ms 프레임 단위로 4개의 프레임이 연속된 20ms 신호 길이(D, duration)를 가진 음소 유닛을 도시하고 있다. 이때, 하나의 음소 유닛은 각각의 프레임에 대응하여 에너지(e1, e2, e3, e4)를 포함하며, 하나의 프레임 내에서의 피치 간격(T1, T2, T3, T4)을 확인할 수 있으며, 이러한 피치 간격은 피치 주기(기본 주파수(fundamental frequency), F0)를 의미하게 된다.
운율 조절부(140)는 유닛 추출부(130)에서 추출된 음성 파형 형태의 음소 유닛을 입력된 텍스트를 기초로 추출된 운율 정보에 대응하는 타겟 음소 유닛이 되도록 운율 파라미터를 변경하는 과정을 수행하게 된다. 이때, 본 발명의 운율 조절부(140)는 신호 길이를 먼저 조절하고, 그 다음에 피치 주기 및 에너지 각각을 조절하게 된다. 예컨대, 도 4의 (b)에 도시된 바와 같이, 타겟 음소 유닛의 신호 길이(D)가 30ms라고 하면, 유닛 추출부(130)가 추출한 음소 유닛은 20ms이므로, 추출한 음소 유닛의 신호 길이(D) 20ms가 타겟 음소 유닛의 신호 길이(D') 30ms가 되도록 먼저 신호 길이를 늘려 조절하게 된다. 여기서 신호 길이를 조절하는 과정은 프레임을 복사하거나 삭제하는 과정을 통해 이뤄질 수 있다. 도 4의 (b)에서는 프레임을 복사하여 신호 길이를 늘린 상태이며, 신호 길이를 조절한 이후에 각각의 프레임의 에너지(e1, 32, e3, ...) 및 피치 주기(피치 간격, T1, T2, T3, ...)를 타겟 음성 유닛의 에너지(e1', e2', e3', ...) 및 피치 주기(피치 간격, T1', T2', T3', ...)가 되도록 각각을 조절하게 된다.
운율 조절부(140)에 의해 음소 유닛의 변경이 완료되면, 음성 합성부(150)는 변경된 음소 유닛 간의 불연속성을 제거하여 합성음을 제거한다.
도 5의 (a)에 도시된 바와 같이, 음소 유닛 1(unit 1)과 음소 유닛 2(unit 2)가 존재한다고 가정하면, 음성 합성부(150)가 단순히 음소 유닛 1과 음소 유닛 2를 결합하게 되면, (b)에 도시된 바와 같이 음소 유닛 간의 경계 부분에 불연속성이 발생하게 되어 부자연스러운 합성음이 생성되게 된다.
본 발명의 음성 합성부(150)는 이를 해결하기 위하여, (c)에 도시된 바와 같이, 이전 음소 유닛인 음소 유닛 1의 마지막 프레임과 다음 음소 유닛인 음소 유닛 2의 시작 프레임의 운율 파라미터(피치 간격, 에너지)를 확인하고, 확인된 운율 파라미터의 평균값을 산출하여 각각의 프레임에 적용하게 된다. 예컨대, 음소 유닛 1의 마지막 프레임 피치 간격(T1)과 음소 유닛 2의 시작 프레임 피치 간격(T2)의 평균값을 음소 유닛1의 마지막 프레임 및 음소 유닛2의 시작 프레임 각각에 적용할 수 있다.
또한, (d)에 도시된 바와 같이, 음소 유닛1의 마지막 프레임과 음소 유닛2의 시작 프레임을 중첩하거나, 중첩된 프레임의 운율 파라미터를 상술한 바와 같은 평균값이 되도록 조정할 수 있게 된다.
이러한 과정을 거쳐 보다 더 자연스러운 합성음을 생성하게 된다.
이하, 본 발명의 제2 실시 예에 따른 음성 합성 장치(100)에서의 음성 합성 방법에 대해 도 6 내지 도 9를 참고하여 설명하도록 한다.
도 6 내지 도 9는 본 발명의 제2 실시 예에 따른 음성 합성 장치에서의 음성 합성 방법을 설명하기 위한 예시도로, 먼저, 도 6을 참조하면, 본 발명의 제2 실시 예에 따른 음성 합성 장치(100)는 음성 파라미터 셋(parameter set) 형태로 저장된 음소 데이터베이스(160)를 포함한다. 음성 파라미터 셋(A, B, C, ...)이란 특정 음성 파형이 있을 경우, 프레임 단위로 해당 프레임 내에서 추출된 음성 파라미터 집합을 의미하는 것으로, 하모닉(harmonic) 모델에 따라 음성 파라미터를 추출하는 보코더(vocoder)의 형태로 모델링한 값을 의미할 수 있다.
본 발명의 음성 파라미터 셋은 피치 주기인 기본 주파수(F0, fundamental frequency), 에너지(energy), 신호 길이(duration)의 세트(set)를 의미할 수 있다. 또한, 본 발명의 음성 파라미터 셋은 에너지 산출을 위한 진폭, 위상 정보 등을 더 포함할 수도 있다. 이러한 음성 파라미터 셋은 프레임에 대응하여 저장될 수 있으며, 보다 정확하게는 해당 프레임에서의 특정한 시점(t0, t1, t2, t3)에 매핑되어 저장될 수 있다.
본 발명의 제2 실시 예에 따른 음소 데이터베이스(160)는 이와 같이 특정한 시점에 매핑하여 특정 프레임에 대한 음성 파라미터 셋을 저장하며, 본 발명의 유닛 추출부(130)는 음소 데이터베이스(160)에서 원하는 음성 파라미터 셋을 추출한 후, 운율 조절부(140)는 추출한 음성 파라미터 셋을 타겟 음성 파라미터 셋이 되도록 변경하고, 음성 합성부(150)는 변경된 음성 파라미터 셋을 합성하여 합성음을 생성하게 된다.
본 발명의 운율 조절부(140)에서의 동작에 대해 도 7을 참고하여 보다 더 구체적으로 설명하도록 한다.
먼저, 도 7의 (a)에서 유닛 추출부(130)가 추출한 음소 유닛이 8개의 프레임(프레임 인덱스 0, 1, 2, 3, 4, 5, 6, 7)으로 구성되어 있다고 가정한다. 각 프레임은 예컨대 5ms 단위이며, 추출된 음소 유닛의 전체 길이는 40ms이다. 반면 입력된 텍스트에 대한 운율 정보에 대응하는 타겟 음소 유닛이 10개의 프레임(프레임 인덱스 0, 1, 2, 3, 4, 5, 6, 7, 8, 9)으로 구성되어 있으며, 각 프레임의 길이는 동일하며 타겟 유닛의 전체 길이는 50ms이라 가정한다.
운율 조절부(140)는 추출한 음소 유닛을 타겟 음소 유닛이 되도록 변경하게 되는데, 먼저 길이(duration) 조절 과정을 수행한다.
전술한 예에서 추출한 음소 유닛이 40ms이고 변경하고자 하는 타겟 음소 유닛이 50ms이면, 10ms의 공백이 발생하게 된다. 이에 본 발명의 제2 실시 예에 따른 운율 조절부(140)는 공백에 해당하는 프레임을 다른 프레임의 음성 파라미터 셋을 복사하여 사용하고자 한다.
이를 위해 본 발명의 운율 조절부(140)는 하기 수학식에 따라 추출한 음소 유닛과 타겟 음소 유닛 간의 프레임 인덱스를 맞추는 과정을 수행한다.
Figure 112017107774637-pat00001
여기서, M은 타겟 음소 유닛의 전체 프레임 수를 의미하며, N은 추출 음소 유닛의 전체 프레임 수를 의미한다. 그리고 i는 프레임 인덱스를 의미하며, r은 반올림을 의미한다.
즉, 본 발명의 운율 조절부(140)는 도 7의 (b)에 도시된 바와 같이 추출한 음소 유닛이 타겟 음소 유닛이 되도록 타겟 음소 유닛의 프레임 인덱스별로 수학식 1을 적용하여 해당 프레임 인덱스에 대응하는 프레임을 확인한다. 예컨대, 변경된 음소 유닛 3번째 프레임 인덱스는 원래의 2번째 프레임 인덱스로 산출되었으므로, 원래의 음성 유닛 2번째 프레임의 음성 파라미터 셋을 복사하여 가져오게 되며, 변경된 음소 유닛 7번째 프레임 인덱스는 원래의 추출 음소 유닛 5번 프레임의 음성 파라미터 셋을 복사하여 가져오게 된다.
그리고 (c)에 도시된 바와 같이, 추출된 음소 유닛과 타겟 음소 유닛 간의 신호 길이가 일치하므로, 운율 조절부(140)는 각각의 프레임 단위로 타겟 음소 유닛의 음성 파라미터 셋이 적용되도록 원래의 음소 유닛을 변경하는 과정을 수행하게 된다.
또 다른 예를 들어, 도 8의 (a)에 도시된 바와 같이, 유닛 추출부(130)가 추출한 음소 유닛이 총 10개의 프레임으로 구성되고, 타겟 음소 유닛이 총 8개의 프레임으로 구성된다고 가정한다. 이때, 타겟 음소 유닛이 추출한 음소 유닛보다 짧으므로, 추출한 음소 유닛의 프레임 중 일부 프레임을 삭제해야 한다.
따라서, 도 8의 (b)에 도시된 바와 같이 프레임 인덱스를 새롭게 조절하는 과정을 수행하게 되며, 본 발명의 운율 조절부(140)는 전술한 수학식 1에 따라 타겟 음소 유닛 프레임 수에 맞추어 새롭게 프레임 인덱스를 정의하게 되며, 도 8의 (b)에서 확인할 수 있듯이 원래의 추출 음소 유닛에서 프레임 인덱스 2번째 프레임과 프레임 인덱스 7번째 프레임이 삭제된 것을 확인할 수 있다.
이러한 과정을 거쳐 운율 조절부(140)는 추출된 음소 유닛을 타겟 음소 유닛의 신호 길이(D)에 맞춰 변경을 수행하고, 신호 길이의 변경이 완료되면, (c)에 도시된 바와 같이 기본 주파수(F0) 및 에너지(E)에 대한 변경을 수행하게 된다. 이때, 운율 조절부(140)는 추출된 음소 유닛의 프레임별 기본 주파수를 타겟 음소 유닛의 프레임별 기본 주파수로 치환하여 변경하고, 추출된 음소 유닛의 프레임별 에너지는 타겟 음소 유닛의 프레임별 에너지가 되도록 진폭을 조절하는 과정을 수행한다.
이후, 음성 합성부(150)는 변경된 음소 유닛의 불연속성을 제거하여 합성음을 생성하게 된다.
상기 과정에 대해 도 9를 참조하여 설명하면, 먼저 (a)에 도시된 바와 같이 A, B, C 3개의 프레임으로 구성되는 음성 유닛 1(unit 1)과 D, E, F 3개의 프레임으로 구성되는 음성 유닛 2(unit 2)이 있다고 가정하면, 음성 합성부(150)는 각각의 음성 유닛을 결합하여 합성음을 생성할 수 있다. 이때, 음성 합성부(150)는 (b)에 도시된 바와 같이 이전 음소 유닛 1의 마지막 프레임 C와 다음 음소 유닛 2의 시작 프레임 D의 운율 파라미터의 평균값을 각각의 프레임에 적용하거나, (c)에 도시된 바와 같이 C 프레임과 D 프레임의 중첩된 새로운 프레임을 생성하고, 산출된 평균값을 해당 프레임의 운율 파라미터로 적용할 수 있다.
이와 같이, 본 발명의 실시 예에 따른 음성 합성 장치(100)는 음소 유닛 단위로 합성음을 생성하는 USS 방식에서의 불연속성을 제거함과 동시에 보다 안정적이고 고음질의 합성음을 생성할 수 있게 된다. 또한, 본 발명의 실시 예에 따른 음성 합성 장치(100)는 음성 파형 또는 음성 파라미터 셋의 집합으로 구성되는 음소 유닛 등 다양한 음소 유닛을 고려하여 합성음을 생성할 수 있게 된다.
이상으로 본 발명의 실시 예에 따른 음성 합성 장치(100)의 주요 구성 및 동작에 대해 설명하였다.
이러한 본 발명의 실시 예에 따른 음성 합성 장치(100)에 탑재되는 프로세서는 본 발명에 따른 방법을 실행하기 위한 프로그램 명령을 처리할 수 있다. 일 구현 예에서, 이 프로세서는 싱글 쓰레드(Single-threaded) 프로세서일 수 있으며, 다른 구현 예에서 본 프로세서는 멀티 쓰레드(Multithreaded) 프로세서일 수 있다. 나아가 본 프로세서는 메모리 혹은 저장 장치 상에 저장된 명령을 처리하는 것이 가능하다.
이하, 본 발명의 실시 예에 따른 음성 합성 장치에서의 음성 합성 방법에 대해 흐름도를 참고하여 설명하도록 한다.
도 10은 본 발명의 실시 예에 따른 음성 합성 장치에서의 음성 합성 방법을 설명하기 위한 흐름도이다.
도 10을 참조하면 본 발명의 실시 예에 따른 음성 합성 장치(100)는 임의의 텍스트가 입력되면, 텍스트에 대한 언어처리를 수행하게 된다(S10).
예컨대, 음성 합성 장치(100)는 입력된 텍스트에 대하여 구문 분석 및 형태소 분석을 수행하여 문장 구조 및 문장 종류에 대한 정보를 분석할 수 있다. 이때, 본 발명의 음성 합성 장치(100)는 실제 발음을 예측하여 문장 분석을 수행할 수 있으며, 예컨대 출력하고자 하는 합성음의 언어를 확인하여, 해당 언어로 텍스트를 변환하는 과정, 실제 발음을 예측하는 과정 등을 수행할 수 있다.
그리고, 음성 합성 장치(100)는 전달되는 텍스트에 대한 운율 정보를 분석하게 된다(S30). 예컨대, 음성 합성 장치(100)는 문장의 어디에서 끊어 읽을 지, 어디를 강하게 읽을 지, 문장 어미의 톤을 결정하는 것과 같이 문장 구조 및 문장 종류에 따라 억양, 강세와 같은 운율 정보를 분석할 수 있다. 그리고, 본 발명의 음성 합성 장치(100)는 분석된 운율 정보를 기반으로 타겟 음소 유닛을 예측 및 생성할 수 있다. 또한 본 발명의 음성 합성 장치(100)는 운율 정보를 이용하여 운율 파라미터를 추출할 수 있다.
이후, 본 발명의 음성 합성 장치(100)는 분석된 운율 정보를 이용하여 해당하는 음소 유닛을 음소 데이터베이스(160)에서 추출하게 된다(S50). 특히, 본 발명의 음성 합성 장치(100)는 복수 개의 음소 데이터베이스(160)에서 분석된 운율 정보를 기초로 적합한 음소 데이터베이스(160)를 결정하고 결정된 음소 데이터베이스(160)에서 해당하는 음소 유닛을 추출할 수 있다.
이후, 본 발명의 음성 합성 장치(100)는 추출된 음소 유닛의 운율을 조절하게 된다(S70). 즉, 본 발명의 음성 합성 장치(100)는 추출된 음소 유닛의 운율 파라미터를 S30 단계에서 예측된 타겟 음소 유닛의 운율 파라미터가 되도록 변경하는 과정을 수행하게 된다. 변경되는 운율 파라미터는 피치 주기, 에너지, 신호 길이이다. 이때, 본 발명의 음성 합성 장치(110)는 추출된 음소 유닛의 신호 길이를 타겟 음소 유닛의 신호 길이로 변경한 후, 피치 주기 및 에너지를 각각 타겟 음소 유닛의 피치 주기 및 에너지로 변경하는 과정을 수행할 수 있다.
그리고 본 발명의 음성 합성 장치(100)는 운율이 조절된 음소 유닛을 합성하여 합성음을 생성하게 된다(S90). 특히, 본 발명의 음성 합성 장치(100)는 음소 유닛 간의 불연속성을 제거하여 고품질의 합성음을 생성하게 되는 데, 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임의 운율 파라미터를 확인하고, 상기 확인된 운율 파라미터의 평균값을 산출하여 이전 음소 유닛의 마지막 프레임 및 다음 음소 유닛의 시작 프레임 각각에 적용하거나, 상기 이전 음소 유닛의 마지막 프레임 및 상기 다음 음소 유닛의 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거할 수 있다.
이후, 본 발명의 음성 합성 장치(100)는 생성된 합성음을 출력하게 된다(S110). 이때, 본 발명의 음성 합성 장치(100)가 사용자의 단말(미도시) 등의 일 모듈 형태로 구현되는 경우, 스피커 모듈로 합성음을 전달하여 스피커를 통해 출력되는 과정을 지원할 수 있으며, 음성 합성 장치(100)가 서버 형태로 구현되는 경우, 통신망을 통해 사용자의 단말(미도시)로 합성음을 전달하는 과정을 수행할 수 있게 된다.
이상으로 본 발명의 실시 예에 따른 음성 합성 장치에서의 음성 합성 방법에 대해 설명하였다.
특히, 본 발명의 실시 예에 따른 음성 합성 장치에서의 음성 합성 방법은 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체의 형태로 제공될 수도 있다.
특히, 본 발명의 컴퓨터 프로그램은 임의의 텍스트에 대응하여 운율 정보를 분석하는 단계, 상기 분석된 운율 정보를 기초로 해당하는 음소 유닛을 음소 데이터베이스에서 추출하는 단계, 상기 추출된 음소 유닛의 운율 파라미터를 상기 분석된 운율 정보를 기초로 예측된 타겟 음소 유닛의 운율 파라미터가 되도록 변경하는 단계 및 상기 변경된 음소 유닛 간의 불연속성을 제거하여 합성음을 생성하는 단계 등을 실행할 수 있다.
이러한, 컴퓨터가 읽을 수 있는 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media) 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다.
또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것은 아니며, 기술적 사상의 범주를 이탈함없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
본 발명은 음성 합성 장치에 관한 것으로서, 더욱 상세하게는 임의의 텍스트에 대응하는 음소 유닛을 추출하고 추출된 음소 유닛을 합성하여 합성음 생성 시, 운율을 조절하고 불연속성을 제거하여 보다 자연스럽게 합성음을 생성할 수 있는 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법에 관한 것이다.
이러한 본 발명에 의하면, USS 방식의 불연속성을 제거함과 동시에 SPS 방식에 비해 보다 안정적이고 고음질의 합성음을 생성할 수 있어, 음성 합성 기술에 이바지할 수 있다. 아울러, 본 발명은 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.
100: 음성 합성 장치
110: 언어 처리부
120: 운율 추출부
130: 유닛 추출부
140: 운율 조절부
150: 음성 합성부

Claims (12)

  1. 임의의 텍스트에 대응하여 운율 정보를 분석하는 운율 추출부;
    상기 분석된 운율 정보를 기초로 해당하는 음소 유닛을 음소 데이터베이스에서 추출하는 유닛 추출부;
    상기 추출된 음소 유닛의 운율 파라미터를 상기 운율 정보를 기초로 예측된 타겟 음소 유닛의 운율 파라미터가 되도록 변경하는 운율 조절부; 및
    상기 변경된 음소 유닛 간의 불연속성을 제거하여 합성음을 생성하는 음성 합성부;를 포함하고,
    상기 운율 조절부는
    상기 추출된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 변경한 후, 상기 추출된 음소 유닛의 피치 주기 및 에너지 각각을 타겟 음소 유닛의 피치 주기 및 에너지가 되도록 변경하되,
    상기 추출된 음소 유닛이 음성 파라미터 셋의 형태인 경우,
    상기 추출된 음소 유닛의 프레임 수가 상기 타겟 음소 유닛의 프레임 수가 되도록 조절하되, 변경된 각 프레임의 인덱스 별로 상기 추출된 음소 유닛의 전체 프레임 수에서 하나의 프레임을 뺀 값에서 상기 타겟 음소 유닛에서 하나의 프레임을 뺀 값을 나누고, 해당 타겟 음소 유닛의 프레임 인덱스 값을 곱한 후 반올림하여 각 프레임의 프레임 인덱스 값이 되도록 적용하고, 적용된 각 프레임의 프레임 인덱스 값이 매칭되는 상기 타겟 음소 유닛의 각 프레임의 프레임 인덱스 값이 되도록 변경하는 것을 특징으로 하는 음성 합성 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 운율 추출부는
    상기 추출된 음소 유닛의 프레임 길이와 동일한 길이로 상기 타겟 음소 유닛을 예측하는 것을 특징으로 하는 음성 합성 장치.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 제1항에 있어서,
    상기 음성 합성부는
    이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임의 운율 파라미터를 확인하고, 상기 확인된 운율 파라미터의 평균값을 산출하여 상기 마지막 프레임 및 상기 시작 프레임 각각에 적용하거나, 상기 마지막 프레임 및 상기 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거하는 것을 특징으로 하는 음성 합성 장치.
  8. 음성 합성 장치가
    임의의 텍스트에 대응하여 운율 정보를 분석하는 단계;
    상기 분석된 운율 정보를 기초로 해당하는 음소 유닛을 음소 데이터베이스에서 추출하는 단계;
    상기 추출된 음소 유닛의 운율 파라미터를 상기 분석된 운율 정보를 기초로 예측된 타겟 음소 유닛의 운율 파라미터가 되도록 변경하는 단계; 및
    상기 변경된 음소 유닛 간의 불연속성을 제거하여 합성음을 생성하는 단계;를 포함하고,
    상기 변경하는 단계는
    상기 추출된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 변경하는 단계;
    상기 신호 길이를 변경한 후, 상기 추출된 음소 유닛의 피치 주기 및 에너지 각각을 타겟 음소 유닛의 피치 주기 및 에너지가 되도록 변경하는 단계; 를 포함하되,
    상기 추출된 음소 유닛이 음성 파라미터 셋의 형태인 경우,
    상기 변경하는 단계는,
    상기 추출된 음소 유닛의 프레임 수가 상기 타겟 음소 유닛의 프레임 수가 되도록 조절하되, 변경된 각 프레임의 인덱스 별로 상기 추출된 음소 유닛의 전체 프레임 수에서 하나의 프레임을 뺀 값에서 상기 타겟 음소 유닛에서 하나의 프레임을 뺀 값을 나누고, 해당 타겟 음소 유닛의 프레임 인덱스 값을 곱한 후 반올림하여 각 프레임의 프레임 인덱스 값이 되도록 적용하는 단계;
    적용된 각 프레임의 프레임 인덱스 값이 매칭되는 상기 타겟 음소 유닛의 각 프레임의 프레임 인덱스 값이 되도록 변경하는 단계;
    를 포함하는 것을 특징으로 하는 음성 합성 방법.
  9. 삭제
  10. 제8항에 있어서,
    상기 추출된 음소 유닛이 음성 파라미터 셋의 형태인 경우,
    상기 변경하는 단계는
    상기 추출된 음소 유닛의 전체 프레임 수를 상기 타겟 음소 유닛의 전체 프레임 수로 나는 값을 반올림하여 상기 추출된 음소 유닛의 프레임 인덱스를 조절하는 단계;
    변경된 프레임 인덱스에 대응하는 음성 파라미터 셋을 상기 추출된 음소 유닛의 음성 파라미터 셋과 매칭시키는 단계; 및
    상기 프레임 인덱스가 조절된 음소 유닛의 음성 파라미터 셋이 상기 타겟 음소 유닛의 음성 파라미터 셋이 되도록 프레임별로 변경하는 단계;
    를 포함하는 것을 특징으로 하는 음성 합성 방법.
  11. 제8항에 있어서,
    상기 합성음을 생성하는 단계는
    이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임의 운율 파라미터를 확인하고, 상기 확인된 운율 파라미터의 평균값을 산출하여 상기 마지막 프레임 및 상기 시작 프레임 각각에 적용하거나, 상기 마지막 프레임 및 상기 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거하는 것을 특징으로 하는 음성 합성 방법.
  12. 제8항 및 제11항 중 어느 하나의 항에 기재된 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
KR1020170143286A 2017-10-31 2017-10-31 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법 KR102072627B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020170143286A KR102072627B1 (ko) 2017-10-31 2017-10-31 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
PCT/KR2018/012967 WO2019088635A1 (ko) 2017-10-31 2018-10-30 음성 합성 장치 및 방법
US16/863,138 US11170755B2 (en) 2017-10-31 2020-04-30 Speech synthesis apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170143286A KR102072627B1 (ko) 2017-10-31 2017-10-31 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법

Publications (2)

Publication Number Publication Date
KR20190048371A KR20190048371A (ko) 2019-05-09
KR102072627B1 true KR102072627B1 (ko) 2020-02-03

Family

ID=66332149

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170143286A KR102072627B1 (ko) 2017-10-31 2017-10-31 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법

Country Status (3)

Country Link
US (1) US11170755B2 (ko)
KR (1) KR102072627B1 (ko)
WO (1) WO2019088635A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102072627B1 (ko) * 2017-10-31 2020-02-03 에스케이텔레콤 주식회사 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
CN112420015B (zh) * 2020-11-18 2024-07-19 腾讯音乐娱乐科技(深圳)有限公司 一种音频合成方法、装置、设备及计算机可读存储介质
CN112802444B (zh) * 2020-12-30 2023-07-25 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US6625576B2 (en) * 2001-01-29 2003-09-23 Lucent Technologies Inc. Method and apparatus for performing text-to-speech conversion in a client/server environment
KR100438826B1 (ko) * 2001-10-31 2004-07-05 삼성전자주식회사 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
KR20040070505A (ko) * 2003-02-03 2004-08-11 엘지전자 주식회사 휴대폰에서의 음성 합성방법
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
KR20050088705A (ko) * 2004-03-02 2005-09-07 엘지전자 주식회사 음성합성 방법
KR101056567B1 (ko) 2004-09-23 2011-08-11 주식회사 케이티 코퍼스 기반 음성 합성기에서의 합성 유닛 선택 장치 및그 방법
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
US7269561B2 (en) * 2005-04-19 2007-09-11 Motorola, Inc. Bandwidth efficient digital voice communication system and method
US20070106513A1 (en) * 2005-11-10 2007-05-10 Boillot Marc A Method for facilitating text to speech synthesis using a differential vocoder
KR102072627B1 (ko) * 2017-10-31 2020-02-03 에스케이텔레콤 주식회사 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법

Also Published As

Publication number Publication date
KR20190048371A (ko) 2019-05-09
US20200335080A1 (en) 2020-10-22
US11170755B2 (en) 2021-11-09
WO2019088635A1 (ko) 2019-05-09

Similar Documents

Publication Publication Date Title
KR102677459B1 (ko) 2-레벨 스피치 운율 전송
JP7152791B2 (ja) クロスリンガル音声変換システムおよび方法
WO2017067206A1 (zh) 个性化多声学模型的训练方法、语音合成方法及装置
JP3588302B2 (ja) 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP2003150187A (ja) スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US11170755B2 (en) Speech synthesis apparatus and method
CN112102811B (zh) 一种合成语音的优化方法、装置及电子设备
GB2603776A (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
Panda et al. An efficient model for text-to-speech synthesis in Indian languages
KR20240122776A (ko) 뉴럴 음성 합성의 적응 및 학습
Yadav et al. Prosodic mapping using neural networks for emotion conversion in Hindi language
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
JP6669081B2 (ja) 音声処理装置、音声処理方法、およびプログラム
CN110517662A (zh) 一种智能语音播报的方法及系统
JP2016118722A (ja) 音声合成装置、方法、およびプログラム
KR20220070979A (ko) 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법
EP2062252B1 (en) Speech synthesis
CN116978381A (zh) 音频数据处理方法、装置、计算机设备和存储介质
CN113948062B (zh) 数据转换方法及计算机存储介质
KR102277205B1 (ko) 오디오 변환 장치 및 방법
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
CN114333758A (zh) 语音合成方法、装置、计算机设备、存储介质和产品
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant