KR20090061920A - 음성 합성 방법 및 장치 - Google Patents

음성 합성 방법 및 장치 Download PDF

Info

Publication number
KR20090061920A
KR20090061920A KR1020070128929A KR20070128929A KR20090061920A KR 20090061920 A KR20090061920 A KR 20090061920A KR 1020070128929 A KR1020070128929 A KR 1020070128929A KR 20070128929 A KR20070128929 A KR 20070128929A KR 20090061920 A KR20090061920 A KR 20090061920A
Authority
KR
South Korea
Prior art keywords
parameter
speech
hmm model
voice
speech parameter
Prior art date
Application number
KR1020070128929A
Other languages
English (en)
Other versions
KR100932538B1 (ko
Inventor
김상훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070128929A priority Critical patent/KR100932538B1/ko
Priority to US12/163,210 priority patent/US20090157408A1/en
Publication of KR20090061920A publication Critical patent/KR20090061920A/ko
Application granted granted Critical
Publication of KR100932538B1 publication Critical patent/KR100932538B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 은닉 마르코브 모델(Hidden Markov Model, HMM) 기반 음성 합성 방법 및 장치에 관한 것이다. HMM 모델의 상태별 음성 파라미터 인스턴스들이 양자화된 코드워드들 중에서, 입력된 텍스트로부터 종래의 방법으로 생성된 음성 파라미터와 가장 가까운 거리의 코드워드를 탐색한다. 탐색된 코드워드와 종래의 방법으로 생성된 음성 파라미터간의 거리가 임계치 이하이면, 탐색된 코드워드를 최종 음성 파라미터로서 출력하고, 그렇지 않으면 종래의 방법으로 생성된 음성 파라미터를 최종 음성 파라미터로서 그대로 출력한다. 최종 음성 파라미터를 처리하여 입력된 텍스트에 대한 최종 합성음을 생성한다.

Description

음성 합성 방법 및 장치{SPEECH SYNTHESIZING METHOD AND APPARATUS}
본 발명은 음성 합성 방법 및 장치에 관한 것으로서, 특히 은닉 마르코브 모델(Hidden Markov Model, HMM) 기반의 음성 합성 방법 및 장치에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-02, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
음성 합성 기술은 인간의 음성을 기계적으로 합성하는 기술을 말한다. 즉 음성 합성이란 기계적인 장치나 전자회로 또는 컴퓨터 시뮬레이션을 이용하여 자동으로 음성 파형을 생성해내는 것으로 정의할 수 있다. 음성 합성은 음성 합성기에 의해 소프트웨어 또는 하드웨어로 구현된다.
음성합성 기술은 응용 방식에 따라 자동 음성 응답 시스템(Automatic Response System, ARS)과 문자-음성 변환(Text-to-Speech, TTS) 시스템, 두 가지로 크게 구분할 수 있다. ARS는, 제한된 어휘 개수와 구문구조의 문장만을 합성하기 위한 음성 합성 시스템이고, TTS 시스템은, 어휘 개수에 제한없이 임의의 문장을 입력받아 음성을 합성하는 음성 합성 시스템이다.
특히, 문서-음성 변환(TTS) 시스템은 작은 합성 단위 음성과 언어 처리를 이용하여 임의의 문장에 대한 음성을 생성한다. 언어 처리를 이용하여 입력된 문장을 적당한 합성 단위의 조합으로 대응시키고, 문장으로부터 적당한 억양과 지속시간을 추출하여 합성음의 운율을 결정한다. 언어의 기본 단위인 음소, 음절 등의 조합에 의해 음성을 합성해 내므로 합성 대상어휘에 제한이 없다.
도 3은 종래의 은닉 마로크브 모델(Hidden Markov Model, HMM) 기반 음성 합성 시스템에 의한 음성 합성 과정을 보여준다. HMM은, 일련의 관찰값(observations)으로부터, 은닉되어 있는 상태(state)들의 열을 확률적으로 추정하는 통계학적 모델이다. HMM 기반 음성 합성에서, 입력 텍스트는 알려져 있으므로 HMM에서 관찰값에 해당하며, 그 텍스트가 어떻게 발음될 지는 알려져 있지 않기 때문에 HMM에서 상태에 해당한다고 할 수 있다. 따라서, HMM 기반 음성 합성 시스템은 HMM이라는 통계학적 모델을 적용하여, 입력 텍스트에 대한 합성음을 생성한다.
입력된 텍스트는, 텍스트 전처리 단계(S11), 품사 태깅 단계(S12), 운율 생성 단계(S13), HMM 모델 선정 단계(S14), 음성 파라미터 생성 단계(S15), 및 음성신호 생성 단계(S16)를 거쳐 합성음으로 출력된다. HMM 모델 DB(10)에는, 음성 파라미터 생성에 필요한 HMM 모델을 선정하는 데 기준이 되는 HMM 모델들이 저장되어 있으며, HMM 모델은 오프-라인 상의 훈련 과정을 통해 미리 준비되어 있다.
텍스트 전처리 단계(S11)에서는, 숫자, 기호, 한자, 및 영어 등을 한글로 변환한다. 품사 태깅 단계(S12)에서는, 문장 내 어절을 형태소 단위로 분리하고, 각 형태소마다 품사 정보를 부착한다. 운율 생성 단계(S13)에서는, 끊어읽기, 억양, 지속 시간 등의 정보를 생성한다. HMM 모델 생성 단계(S14)에서는, 음운 환경 및 운율 환경을 고려하여 HMM 모델 DB(10)로부터 적절한 HMM 모델을 선정하여 문장 단위로 연결한다.
음성 파라미터 생성 단계(S15)에서는, 보코더(vocoder)에서 음성 신호를 복원하기 위해 필요한 요소로서, 스펙트랄 파라미터(spectral parameter)와 여기 신호(excitation signal)를 포함하는 음성 파라미터를 생성한다. 여기 신호란, 소스/필터 보코더 모델에서 성대의 울림을 모델링한 소스에 해당하는 신호이고, 스펙트랄 파라미터는 혀 및 구강의 모양을 모델링한 필터를 나타내는 필터 계수에 해당한다고 할 수 있다.
음성 신호 생성 단계(S16)에서는, 음성 파라미터를 처리하여 음성 신호를 생성하고, 최종적으로 합성음을 출력한다.
그러나 종래의 HMM 기반 음성 합성 방식은 음성 파라미터의 생성 시에, 평균 값에 근거하여 HMM 모델을 선정하기 때문에, 음성 파라미터의 시간축 상 변화 궤적(trajectory)이 자연 음성과 다르게 과도하게 스무딩(oversmoothing)되는 문제가 있었다. 과도한 스무딩은 불명료한 합성음을 생성하는 주요 원인이 된다. 여기서 평균값에 근거한다는 의미는, HMM 모델의 상태(state)별 가우시안 확률분포의 평균 값을 음성 파라미터로 사용한다는 뜻입니다.
이러한 문제를 개선하기 위한 종래의 방법은, 실제 자연 음성으로부터 추출한 음성 파라미터의 GV(Global Variance) 변화를 가우시안 확률로 모델링하고, 이를 기존에 생성되어 있는 HMM 모델과 가중 결합한 비용함수로서 정의하여, 이로부터 최적 음성 파라미터를 생성함으로써, 자연 음성에 가까운 음성 파라미터를 얻었다. 그러나 이러한 개선된 방법에 의해서도, 최종 생성된 음성 파라미터는 여전히 인위적이고 자연 음성과는 다르기 때문에 합성음의 음질 개선에 한계가 있었다.
따라서 본 발명의 목적은, 자연 음성과 보다 유사한 음성 파라미터를 생성할 수 있는 HMM 기반 음성 합성 방법 및 장치를 제공하는 것이다.
상기 목적을 해결하기 위한 본 발명의 음성 합성 방법은, (a) HMM 모델 데이터베이스로부터 HMM 모델을 선정하여 음성 파라미터를 생성하는 단계와, (b) HMM 모델 데이터베이스 내의 HMM 모델로부터 추출된 음성 파라미터를 벡터 양자화한 코드워드들로 구성된 벡터 양자화 코드북으로부터 상기 생성된 음성 파라미터와 가장 가까운 거리를 갖는 코드워드를 탐색하는 단계와, (c) 상기 탐색된 코드워드와 상기 생성된 음성 파라미터 사이의 거리가 임계치 이하인 경우에는, 상기 탐색된 코드워드를 최종 음성 파라미터로서 출력하고, 상기 탐색된 코드워드와 상기 생성된 음성 파라미터 사이의 거리가 상기 임계치를 초과하는 경우에는, 상기 생성된 음성 파라미터를 최종 음성 파라미터로서 출력하는 단계와, (d) 상기 출력된 최종 음성 파라미터로부터 합성음을 생성하는 단계를 포함한다.
또한, 상기 목적을 해결하기 위해 본 발명의 음성 합성 방법은, (a) HMM 모델 데이터베이스로부터 HMM 모델을 선정하여 음성 파라미터를 생성하는 단계와, (b) HMM 모델 데이터베이스 내의 HMM 모델로부터 추출된 음성 파라미터를 벡터 양자화한 코드워드들로 구성된 벡터 양자화 코드북으로부터 상기 생성된 음성 파라미터와 가장 가까운 거리를 갖는 코드워드를 탐색하는 단계와, (c) 상기 생성된 음성 파라미터 대신에, 상기 탐색된 코드워드를 최종 음성 파라미터로서 출력하는 단계와, (d) 상기 출력된 최종 음성 파라미터로부터 합성음을 생성하는 단계를 포함한다.
상기 단계 (b)는, (b1) HMM 모델의 상태별 음성 파라미터 인스턴스들이 양자화된 상기 코드워드들로 상기 벡터 양자화 코드북을 구성하는 단계를 포함할 수 있다. 이때, 상기 단계 (b1)은, 상기 음성 파라미터 인스턴스들간의 거리의 분산 정도에 따라서, 또는 상기 음성 파라미터 인스턴스들의 개수에 따라서, 또는 상기 분산 정도 및 상기 개수에 따라서, 상기 벡터 양자화 코드북의 크기가 달라지도록 구성할 수 있다.
또한, 상기 음성 파라미터는 여기 신호와 스펙트럴 파라미터를 포함하며, 상기 단계 (b)는 상기 스펙트럴 파라미터를 이용하여 상기 벡터 양자화를 수행할 수 있다.
상기와 같은 목적을 달성하기 위해 본 발명의 음성 합성 방법은, HMM 모델로부터 추출된 음성 파라미터를 벡터 양자화한 코드워드들로 구성된 벡터 양자화 코 드북으로부터, 주어진 음성 파라미터와 가장 가까운 거리를 갖는 코드워드를 코드워드를 상기 주어진 음성 파라미터 대신에 최종 음성 파라미터로서 출력하고, 상기 출력된 음성 파라미터로부터 합성음을 생성하는 것을 특징으로 한다.
또한, 상기와 같은 목적을 달성하기 위해 본 발명의 음성 합성 장치는, HMM 모델 데이터베이스로부터 HMM 모델을 선정하여 음성 파라미터를 생성는 음성 파라미터 생성부와, HMM 모델 데이터베이스 내의 HMM 모델로부터 추출된 음성 파라미터를 벡터 양자화한 코드워드들로 구성된 벡터 양자화 코드북으로부터 상기 생성된 음성 파라미터와 가장 가까운 거리를 갖는 코드워드를 탐색하는 벡터 양자화 코드북 탐색부와, 상기 탐색된 코드워드와 상기 생성된 음성 파라미터 사이의 거리가 임계치 이하인 경우에는, 상기 탐색된 코드워드를 최종 음성 파라미터로서 출력하고, 상기 탐색된 코드워드와 상기 생성된 음성 파라미터 사이의 거리가 상기 임계치를 초과하는 경우에는, 상기 생성된 음성 파라미터를 최종 음성 파라미터로서 출력하는 음성 파라미터 비교부와, 상기 출력된 최종 음성 파라미터로부터 합성음을 생성하는 음성 신호 생성부를 포함한다.
본 발명에 따르면, 입력된 텍스트에 대한 보다 자연음에 가까운 음성 파라미터를 생성할 수 있으며, 따라서 합성음의 명료도가 개선되어 음질이 향상된다.
이하에서는, 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다.
우선 본 발명은 도 3에 도시된 공지의 음성 합성 과정의 음성 파라미터 생성 단계(S15) 이후의 과정에 관한 것이다. 따라서 도 1의 음성 파라미터 생성 단계(S15)까지의 설명은 생략한다. 즉 본 발명은, 도 1과 같은 공지의 음성 합성 과정에서 생성된 음성 파라미터를 그대로 출력할 것인지, 아니면 본 발명 특유의 자연 음성 파라미터를 출력할 것인지에 관한 것이다. 도 3과 동일한 단계에는 동일한 참조부호를 사용하였다.
도 1에는, 본 발명의 음성 합성 방법 중 음성 파라미터 생성의 과정이 도시되어 있다. 입력 텍스트에 대한 음성 파라미터가 생성되면(S15), 본 실시예의 음성 합성 방법은, HMM 상태별 VQ 코드북(20)으로부터, 생성된 음성 파라미터와 거리가 가장 가까운 코드워드를 탐색한다(S151). 탐색된 코드워드는 자연 음성으로부터 추출된 자연 음성 파라미터가 된다.
HMM 상태별 VQ 코드북(20)은, 오프 라인 상의 훈련에 의해 구축된 HMM 모델 DB(10)로부터 HMM 모델의 각 상태에 포함되는 음성 파라미터 인스턴스들을 추출하고(S21), 이 추출된 인스턴스들을 벡터 양자화(Vector Quantization, VQ)한 코드워드들로 구성되어 있다(S22). 음성 파라미터 인스턴스는 HMM 모델의 각 상태에 포함되어 있는 음성 파라미터들 각각을 의미한다. 또한, 벡터 양자화에는 여기 신호를 제외한 스펙트랄 파라미터만을 이용한다.
단계(S151)에서는, 탐색된 코드워드와 생성된 음성 파라미터의 거리가 임계치 이하이면, 탐색된 코드워드를 최종 음성 파라미터로서 출력한다(S155). 출력된 최종 음성 파라미터로부터 최종 합성음을 생성하는 것도 가능하지만, 본 실시예에서는, 탐색된 코드워드와 생성된 음성 파라미터의 거리가 임계치를 초과하면, 매핑 가능한 자연 음성 파라미터가 VQ 코드북(20)에 없는 것으로 판단하여, 종래 과정(S15)을 통해 생성된 생성된 음성 파라미터를 최종 음성 파라미터로서 출력한다(S157).
즉 두 음성 파라미터간 거리의 임계치가 초과했다는 것은, 탐색된 코드워드(음성 파라미터)가 생성된 음성 파라미터와 상당히 다른 특성의 스펙트럼 정보를 표현하기 때문에, 탐색된 코드워드를 최종 음성 파라미터로 출력할 경우 성능이 오히려 악화될 수 있다. 따라서 HMM 상태 내의 인스턴스들 간의 거리의 분산 정도나 인스턴스의 수에 따라 VQ 코드북(20)의 크기를 가변하여 적절히 결정한다. 즉 분산이 크거나 인스턴스의 수가 많으면 좀 더 많은 코드워드를 포함하도록 VQ 코드북(20)을 구성한다.
임계치는 실험에 의해 산출된다. 초기 임계치로 합성 음성을 생성하여 음질을 판단한 다음, 음질 열화가 발생하면 다시 임계치를 조정하여 음질을 판단하는 과정을 반복하여 최적의 임계치를 결정한다.
마지막으로, 여기 신호를 포함하는 최종 음성 파라미터를 처리하여 음성 신호를 생성하고, 입력 텍스트에 대한 최종 합성음을 출력한다(S16). 이때 여기 신호는 최종 음성 파라미터의 잔차 신호(residual signal)가 된다. 잔차 신호란, 스펙 트랄 파라미터(즉 필터 계수)를 이용하여 원래의 음성을 역필터링(inverse-filtering)할 때 생성되는 소스(즉 여기 신호)에 해당하는 신호를 말한다.
도 2에는 본 실시예에 따른 음성 합성 장치(30)가 도시되어 있다. 음성 파라미터 생성부(31)는, 도 1에 도시된 음성 파라미터 생성 단계(S15)를 수행하는 것에 의해 음성 파라미터를 생성한다. VQ 코드북 탐색부(32)는, 도 1에 도시된 VQ 코드북 탐색 단계(S151)를 수행하는 것에 의해, 생성된 음성 파라미터와 가장 거리가 가까운 코드워드를 탐색한다. 음성 파라미터 비교부(33)는, 도 1에 도시된 비교 단계(S153)을 수행하는 것에 의해, 탐색된 코드워드(즉 자연 음성 파라미터)와 생성된 음성 파라미터의 거리가 임계치를 이하인지를 비교하고, 비교 결과에 따라, 단계(S155)와 단계(S157)을 수행하여, 최종 음성 파라미터를 출력한다. 음성 신호 생성부(34)는, 도 1에 도시된 음성 신호 생성 단계(S16)를 수행하는 것에 의해, 입력 텍스트에 대한 최종 합성음을 출력한다.
앞서 설명한 본 발명의 실시예는 구체적인 구성과 도면에 의해 특정되었지만, 그러한 구체적인 실시예가 본 발명의 범위를 제한하는 것이 아니라는 점을 명확히 하고자 한다. 따라서, 본 발명은, 본 발명의 본질을 벗어나지 않는 다양한 변형예와 그 균등물들을 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 실시예에 따른 음성 합성 방법의 흐름도.
도 2는 본 발명의 실시예에 따른 음성 합성 장치의 구성도.
도 3은 종래의 음성 합성 방법의 과정의 흐름도.

Claims (7)

  1. (a) HMM 모델 데이터베이스로부터 HMM 모델을 선정하여 음성 파라미터를 생성하는 단계와,
    (b) HMM 모델 데이터베이스 내의 HMM 모델로부터 추출된 음성 파라미터를 벡터 양자화한 코드워드들로 구성된 벡터 양자화 코드북으로부터 상기 생성된 음성 파라미터와 가장 가까운 거리를 갖는 코드워드를 탐색하는 단계와,
    (c) 상기 탐색된 코드워드와 상기 생성된 음성 파라미터 사이의 거리가 임계치 이하인 경우에는, 상기 탐색된 코드워드를 최종 음성 파라미터로서 출력하고, 상기 탐색된 코드워드와 상기 생성된 음성 파라미터 사이의 거리가 상기 임계치를 초과하는 경우에는, 상기 생성된 음성 파라미터를 최종 음성 파라미터로서 출력하는 단계와,
    (d) 상기 출력된 최종 음성 파라미터로부터 합성음을 생성하는 단계를 포함하는 음성 합성 방법.
  2. (a) HMM 모델 데이터베이스로부터 HMM 모델을 선정하여 음성 파라미터를 생성하는 단계와,
    (b) HMM 모델 데이터베이스 내의 HMM 모델로부터 추출된 음성 파라미터를 벡터 양자화한 코드워드들로 구성된 벡터 양자화 코드북으로부터 상기 생성된 음성 파라미터와 가장 가까운 거리를 갖는 코드워드를 탐색하는 단계와,
    (c) 상기 생성된 음성 파라미터 대신에, 상기 탐색된 코드워드를 최종 음성 파라미터로서 출력하는 단계와,
    (d) 상기 출력된 최종 음성 파라미터로부터 합성음을 생성하는 단계를 포함하는 음성 합성 방법.
  3. 청구항 1 또는 2에 있어서, 상기 단계 (b)는, (b1) HMM 모델의 상태별 음성 파라미터 인스턴스들이 양자화된 상기 코드워드들로 상기 벡터 양자화 코드북을 구성하는 단계를 포함하는, 음성 합성 방법.
  4. 청구항 3에 있어서, 상기 단계 (b1)은, 상기 음성 파라미터 인스턴스들간의 거리의 분산 정도에 따라서, 또는 상기 음성 파라미터 인스턴스들의 개수에 따라서, 또는 상기 분산 정도 및 상기 개수에 따라서, 상기 벡터 양자화 코드북의 크기가 달라지도록 구성하는 것을 특징으로 하는 음성 합성 방법.
  5. 청구항 1 또는 2에 있어서, 상기 음성 파라미터는 여기 신호와 스펙트럴 파라미터를 포함하며, 상기 단계 (b)는 상기 스펙트럴 파라미터를 이용하여 상기 벡 터 양자화를 수행하는 것을 특징으로 하는 음성 합성 방법.
  6. HMM 모델로부터 추출된 음성 파라미터를 벡터 양자화한 코드워드들로 구성된 벡터 양자화 코드북으로부터, 주어진 음성 파라미터와 가장 가까운 거리를 갖는 코드워드를 상기 주어진 음성 파라미터 대신에 최종 음성 파라미터로서 출력하고, 상기 출력된 음성 파라미터로부터 합성음을 생성하는, 음성 합성 방법.
  7. HMM 모델 데이터베이스로부터 HMM 모델을 선정하여 음성 파라미터를 생성는 음성 파라미터 생성부와,
    HMM 모델 데이터베이스 내의 HMM 모델로부터 추출된 음성 파라미터를 벡터 양자화한 코드워드들로 구성된 벡터 양자화 코드북으로부터 상기 생성된 음성 파라미터와 가장 가까운 거리를 갖는 코드워드를 탐색하는 벡터 양자화 코드북 탐색부와,
    상기 탐색된 코드워드와 상기 생성된 음성 파라미터 사이의 거리가 임계치 이하인 경우에는, 상기 탐색된 코드워드를 최종 음성 파라미터로서 출력하고, 상기 탐색된 코드워드와 상기 생성된 음성 파라미터 사이의 거리가 상기 임계치를 초과하는 경우에는, 상기 생성된 음성 파라미터를 최종 음성 파라미터로서 출력하는 음성 파라미터 비교부와,
    상기 출력된 최종 음성 파라미터로부터 합성음을 생성하는 음성 신호 생성부를 포함하는, 음성 합성 장치.
KR1020070128929A 2007-12-12 2007-12-12 음성 합성 방법 및 장치 KR100932538B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070128929A KR100932538B1 (ko) 2007-12-12 2007-12-12 음성 합성 방법 및 장치
US12/163,210 US20090157408A1 (en) 2007-12-12 2008-06-27 Speech synthesizing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070128929A KR100932538B1 (ko) 2007-12-12 2007-12-12 음성 합성 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090061920A true KR20090061920A (ko) 2009-06-17
KR100932538B1 KR100932538B1 (ko) 2009-12-17

Family

ID=40754414

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070128929A KR100932538B1 (ko) 2007-12-12 2007-12-12 음성 합성 방법 및 장치

Country Status (2)

Country Link
US (1) US20090157408A1 (ko)
KR (1) KR100932538B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101145441B1 (ko) * 2011-04-20 2012-05-15 서울대학교산학협력단 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법
KR20180041114A (ko) * 2015-06-11 2018-04-23 인터랙티브 인텔리전스 그룹, 인코포레이티드 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
US10497362B2 (en) 2015-06-11 2019-12-03 Interactive Intelligence Group, Inc. System and method for outlier identification to remove poor alignments in speech synthesis

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110071835A1 (en) * 2009-09-22 2011-03-24 Microsoft Corporation Small footprint text-to-speech engine
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
US9390725B2 (en) 2014-08-26 2016-07-12 ClearOne Inc. Systems and methods for noise reduction using speech recognition and speech synthesis
JP6293912B2 (ja) 2014-09-19 2018-03-14 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US10902323B2 (en) * 2017-08-11 2021-01-26 Sap Se Bot framework
US10977442B2 (en) * 2018-12-13 2021-04-13 Sap Se Contextualized chat bot framework
US11087091B2 (en) * 2018-12-27 2021-08-10 Wipro Limited Method and system for providing contextual responses to user interaction
US11080490B2 (en) * 2019-03-28 2021-08-03 Servicenow, Inc. Pre-training of virtual chat interfaces

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI98162C (fi) * 1994-05-30 1997-04-25 Tecnomen Oy HMM-malliin perustuva puheentunnistusmenetelmä
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
JPH09258771A (ja) * 1996-03-25 1997-10-03 Canon Inc 音声処理方法及び装置
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
JP4048741B2 (ja) * 2001-07-24 2008-02-20 セイコーエプソン株式会社 Hmmの出力確率演算方法および音声認識装置
JP2003036097A (ja) * 2001-07-25 2003-02-07 Sony Corp 情報検出装置及び方法、並びに情報検索装置及び方法
TWI258731B (en) * 2004-11-04 2006-07-21 Univ Nat Cheng Kung Chinese speech synthesis unit selection module and method
US8195462B2 (en) * 2006-02-16 2012-06-05 At&T Intellectual Property Ii, L.P. System and method for providing large vocabulary speech processing based on fixed-point arithmetic

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101145441B1 (ko) * 2011-04-20 2012-05-15 서울대학교산학협력단 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법
KR20180041114A (ko) * 2015-06-11 2018-04-23 인터랙티브 인텔리전스 그룹, 인코포레이티드 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
US10497362B2 (en) 2015-06-11 2019-12-03 Interactive Intelligence Group, Inc. System and method for outlier identification to remove poor alignments in speech synthesis

Also Published As

Publication number Publication date
US20090157408A1 (en) 2009-06-18
KR100932538B1 (ko) 2009-12-17

Similar Documents

Publication Publication Date Title
KR100932538B1 (ko) 음성 합성 방법 및 장치
US10186252B1 (en) Text to speech synthesis using deep neural network with constant unit length spectrogram
JP4176169B2 (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
CA2351988C (en) Method and system for preselection of suitable units for concatenative speech
Tokuda et al. An HMM-based speech synthesis system applied to English
JP5768093B2 (ja) 音声処理システム
US5682501A (en) Speech synthesis system
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US7136816B1 (en) System and method for predicting prosodic parameters
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US11763797B2 (en) Text-to-speech (TTS) processing
JPH04313034A (ja) 合成音声生成方法及びテキスト音声合成装置
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
Phan et al. A study in vietnamese statistical parametric speech synthesis based on HMM
KR100720175B1 (ko) 음성합성을 위한 끊어읽기 장치 및 방법
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
Mullah A comparative study of different text-to-speech synthesis techniques
WO2008056604A1 (fr) Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
JP2007052166A (ja) 音響モデルの準備方法及び自動音声認識装置
KR102051235B1 (ko) 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
WO2012032748A1 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Yeh et al. A consistency analysis on an acoustic module for Mandarin text-to-speech
EP1589524A1 (en) Method and device for speech synthesis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee