KR100429978B1 - 음성합성시스템의음질저하방지장치 - Google Patents

음성합성시스템의음질저하방지장치 Download PDF

Info

Publication number
KR100429978B1
KR100429978B1 KR1019960072435A KR19960072435A KR100429978B1 KR 100429978 B1 KR100429978 B1 KR 100429978B1 KR 1019960072435 A KR1019960072435 A KR 1019960072435A KR 19960072435 A KR19960072435 A KR 19960072435A KR 100429978 B1 KR100429978 B1 KR 100429978B1
Authority
KR
South Korea
Prior art keywords
speech
voiceless
sounds
sound
synthesis
Prior art date
Application number
KR1019960072435A
Other languages
English (en)
Other versions
KR19980053336A (ko
Inventor
정준구
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1019960072435A priority Critical patent/KR100429978B1/ko
Publication of KR19980053336A publication Critical patent/KR19980053336A/ko
Application granted granted Critical
Publication of KR100429978B1 publication Critical patent/KR100429978B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 입력 문장(Text)을 받아서 이 것을 음성(Speech)으로 합성하여 출력하는 음성합성시스템(TTS:Text To Speech Systems)에 관한 것으로서 특히, 무성음에 대한 음질 저하를 방지하기 위해서 유성음과 무성음을 구분하여 음성합성필터의 입력 여기신호(Input Excitation Signal)가 구분되도록 한 음성합성 시스템의 음질저하 방지장치에 관한 것이다.
종래의 문장/음성 합성시스템에서는 데이터 베이스에서 제공하는 유성음 정보와 무성음 정보를 이용해서 음성 합성의 입력 제어를 수행하는데, 이때 무성음 구간에서의 음질이 저하되고, 합성음의 명료도가 떨어지는 단점이 수반된다.
본 발명에서는 도2에서와 같이, 무성음의 잔차신호를 데이터 베이스(206)로 구축해두고, 음성 합성필터(203)의 입력을 유성음 정보와 무성음 정보에 따라 제어할 때 상기 무성음 잔차 신호를 이용해서 원래의 신호와 동일한 무성음 합성이 이루어지도록 한 음성합성 시스템의 음질저하 방지장치를 제공한다.

Description

음성합성 시스템의 음질저하 방지장치
본 발명은 입력 문장(Text)을 받아서 이 것을 음성(Speech)으로 합성하여 출력하는 음성합성시스템(TTS: Text To Speech Systems)에 관한 것으로서 특히, 무성음에 대한 음질 저하를 방지하기 위해서 유성음과 무성음을 구분하여 음성합성필터의 입력여기신호(Input Excitation Signal)가 구분되도록 한 음성합성 시스템의 음질저하 방지장치에 관한 것이다.
종래의 음성 합성시스템의 구성은 도1에 도시한 바와같이, 입력 문장의 장음이나 불규칙 음운변동 등의 전처리를 수행하는 언어 처리부(101)와, 상기 언어 처리부(101)의 출력을 입력받아 합성 음성을 생성하는 수단으로서, 문장의 운율 구현과 음운 현상의 처리를 수행하는 운율 제어부(102) 및 그 운율제어부(102)에서 운율 제어된 신호를 입력받아 그 문장을 음성으로 합성하여 출력하는 음성합성 필터(103)와, 상기 음성 합성필터(103)에 의한 음성 합성을 위하여 합성필터의 특징계수, 유성음과 무성음 정보, 피치정보 등의 파라미터를 제공하는 데이터 베이스 (104)로 이루어지며, 그 동작은 다음과 같이 이루어진다.
언어 처리부(101)에 입력된 문장은 여러가지 음운학적 정보에 따라 입력 문장이 해석되어지고, 그 결과로써 합성단위 시이퀀스(열)가 생성된다.
언어 처리를 위한 문장처리 정보는 장음사전과 불규칙 음운변동사전, 조사 및 어미 사전 등의 데이터 베이스에서 제공되며, 상기 각 데이터 베이스에서 제공되는 정보를 기초로하여 입력 문장(Text)의 장음, 불규칙 처리 등을 수행하여 처리 결과를 운율 제어부(102)에 공급한다.
운율 제어부(102)는 상기 언어 처리부(101)의 처리 결과를 이용해서 자소의 구성에 따라 음운현상 및 강세, 음절의 길이, 어절내에서 억양의 변화 등을 처리하여 해당 언어에 대한 적절한 운율을 구현한다.
이 운율 구현에 필요한 정보는 데이터 베이스(104)로부터, 피치(pitch)궤적 정보를 입력받고 또 운율 구현의 에너지 정보도 입력받아 이것으로부터 운율을 제어하게 된다.
이와같이 운율 제어된 합성단위열은 합성필터(103)에 입력되어 입력된 문장 정보를 데이터 베이스(104)에서 제공하는 음성 데이터에 따라 소리로 만들어서 입력 문장에 대응하는 음성을 출력해 준다.
이때, 음성 합성필터(103)는 데이터 베이스(104)로부터 유성음 정보와 무성음 정보를 제어신호로 입력받아, 유성음 입력(103a)과 무성음 입력(103b)을 제어하고 특징계수를 입력받아 유성음과 무성음의 소리 합성을 수행하게 된다.
한편, 상기 합성단위 시이퀀스는 초기에 음소나 음절 등 간단한 음운학적 단위가 사용되어 왔으나 최근에는 유무성 구간이 혼합된 복잡한 합성단위가 사용되며, 이것은 합성 음질의 자연성을 높이기 위한 것이다.
그러나, 자연성이 향상될수록 합성음의 명료도는 떨어지게 된다.
종래의 문장/음성 합성시스템에서는 데이터 베이스에서 제공하는 유성음 정보와 무성음 정보를 이용해서 음성 합성의 입력 제어를 수행하는데, 이때 무성음 구간에서의 음질이 저하되고, 합성음의 명료도가 떨어지는 단점이 수반된다.
본 발명에서는 무성음의 잔차신호를 데이터 베이스로 구축해두고, 음성 합성필터의 입력을 유성음 정보와 무성음 정보에 따라 제어할 때 상기 무성음 잔차 신호를 이용해서 원래의 신호와 동일한 무성음 합성이 이루어지도록 한 음성합성 시스템의 음질저하 방지장치를 제공한다.
도 1은 종래의 문장/음성 합성시스템의 블럭 구성도
도 2는 본 발명의 문장/음성 합성시스템의 블럭 구성도
도2에 본 발명의 문장/음성 합성시스템의 구성을 나타내었다.
본 발명의 음성 합성 시스템은, 입력 문장을 처리하여 음성 합성을 위한 단위 시이퀀스를 출력하는 언어 처리부(201)와, 상기 언어처리부(201)에서 출력된 합성 단위열의 정보를 음성신호로 합성하여 출력하는 수단으로서, 합성 단위열에 대한 운율 처리를 수행하는 운율 제어부(202)와, 상기 운율 제어부(202)에서 처리된 합성단위 열의 정보를 입력받아 이것을 유성음과 무성음 합성 처리함과 함께 무성음의 잔차신호 데이터 베이스(206)로부터의 잔차신호 정보를 이용해서 무성음 합성을 수행하는 음성합성필터(203)와, 상기 운율 제어 및 음성 합성을 위한 파라미터들을 공급하는 합성 데이터 베이스(204)와, 상기 음성 합성필터(203)의 유성음 및 무성음 입력 제어를 위한 신호를 공급하는 유/무성음 제어 메모리(205)와, 상기 음성 합성 필터(203)에 의한 무성음 합성을 위한 무성음의 잔차신호를 공급하는 무성음 잔차신호 데이터베이스(206)를 포함하여 구성된다.
상기한 바와같이 구성된 본 발명의 음성 합성 시스템의 동작은 다음과 같이이루어진다.
언어처리부(201)에 입력된 문장은 음운학적 정보에 기초하여 입력 문장이 해석되고, 그 결과로써 합성단위열이 생성되고, 운율 제어부(202)에서는 입력되는 합성단위열에 대하여 운율 처리를 수행한다.
운율 처리에 필요한 피치 등의 파라미터는 합성 데이터 베이스(204)에서 제공된다.
운율 제어부(202)에서 운율 제어된 합성단위열은 음성 합성필터(203)에 입력되는데, 음성합성필터(203)로 입력되는 합성단위열은 음성 합성시에 필요한 합성단위의 순차적인 색인정보(Index)로서 이 색인 열(Index Sequence)에 따라 합성 데이터 베이스(204)로부터 해당 합성 단위를 합성하는데 필요한 피치값과 특징 계수값 등의 파라미터가 프레임 단위로 읽혀진다.
또한 합성단위열의 각 프레임들에 대해서 유/무성음 제어 메모리(TLB:Table Lookahead Buffer)(205)로부터 유성음 정보(U) 또는 무성음 정보(V) 입력된다.
이 유성음 정보(U)와 무성음 정보(V)에 의해서 음성합성필터(203)의 입력(203a)(203b)이 제어되어 입력 여기신호(input excitation signal)가 구분되는데, 현재 음성 합성필터(203)의 입력 프레임이 유성음인 경우에는 상기 합성 데이터 베이스(204)의 피치값의 주기에 따라 임펄스 시이퀀스 입력(203a)이 합성 필터(203)로 입력되어 유성음이 합성된다.
그러나, 음성 합성필터(203)의 입력 프레임이 무성음인 경우에는 무성음 잔차신호 데이터 베이스(206)에서 입력된 무성음의 잔차신호 입력(203b)이 합성필터(203)로 입력되어 원래의 신호와 동일한 무성음이 합성된다.
위와같이 합성된 음성신호는 디지털/아날로그 변환되어 최종적으로 상기 입력 문장에 대응하는 합성 음성신호로서 출력된다.
상기한 바와같이 본 발명에서는 무성음 합성시에 무성음의 잔차신호 데이터 베이스를 이용해서 무성음을 합성하므로 무성음 구간에서의 음질 저하를 방지할 수 있고, 또한 합성음의 명료도를 높일 수 있는 효과가 있다.

Claims (1)

  1. 입력 문장을 그 문장에 대응하는 음성신호로 합성하기 위하여 입력 문장을 음운학적 정보에 기초하여 합성 단위열로 변환하고 이것의 운율을 제어하는 수단과, 상기 운율 제어된 음성 합성단위열을 입력받아 합성 데이터 베이스수단으로부터의 합성 파라미터를 이용해서 유성음과 무성음으로 구분하여 합성하는 수단과, 상기 음성합성을 위해서 필요한 파라미터를 제공하는 데이터 베이스 수단으로서 무성음의 잔차신호를 포함하여 합성수단에 공급하는 수단을 포함하여 구성된 것을 특징으로 하는 음성합성 시스템의 음질저하 방지장치.
KR1019960072435A 1996-12-26 1996-12-26 음성합성시스템의음질저하방지장치 KR100429978B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960072435A KR100429978B1 (ko) 1996-12-26 1996-12-26 음성합성시스템의음질저하방지장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960072435A KR100429978B1 (ko) 1996-12-26 1996-12-26 음성합성시스템의음질저하방지장치

Publications (2)

Publication Number Publication Date
KR19980053336A KR19980053336A (ko) 1998-09-25
KR100429978B1 true KR100429978B1 (ko) 2004-07-27

Family

ID=37335288

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960072435A KR100429978B1 (ko) 1996-12-26 1996-12-26 음성합성시스템의음질저하방지장치

Country Status (1)

Country Link
KR (1) KR100429978B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01283600A (ja) * 1988-05-10 1989-11-15 Nec Corp 残差駆動型音声合成装置
JPH0467200A (ja) * 1990-07-09 1992-03-03 Matsushita Electric Ind Co Ltd 有音区間判定方法
JPH04125699A (ja) * 1990-09-18 1992-04-27 Sanyo Electric Co Ltd 残差駆動型音声合成装置
JPH0594199A (ja) * 1991-10-01 1993-04-16 Sanyo Electric Co Ltd 残差駆動型音声合成装置
KR970024628A (ko) * 1995-10-26 1997-05-30 이데이 노브유끼 음성부호화방법 및 장치와 음성복호화방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01283600A (ja) * 1988-05-10 1989-11-15 Nec Corp 残差駆動型音声合成装置
JPH0467200A (ja) * 1990-07-09 1992-03-03 Matsushita Electric Ind Co Ltd 有音区間判定方法
JPH04125699A (ja) * 1990-09-18 1992-04-27 Sanyo Electric Co Ltd 残差駆動型音声合成装置
JPH0594199A (ja) * 1991-10-01 1993-04-16 Sanyo Electric Co Ltd 残差駆動型音声合成装置
KR970024628A (ko) * 1995-10-26 1997-05-30 이데이 노브유끼 음성부호화방법 및 장치와 음성복호화방법 및 장치

Also Published As

Publication number Publication date
KR19980053336A (ko) 1998-09-25

Similar Documents

Publication Publication Date Title
Peterson et al. Segmentation techniques in speech synthesis
EP0821344A3 (en) Method and apparatus for synthesizing speech
JPH0632020B2 (ja) 音声合成方法および装置
KR100429978B1 (ko) 음성합성시스템의음질저하방지장치
Javkin et al. A multilingual text-to-speech system
van Rijnsoever A multilingual text-to-speech system
JPH07200554A (ja) 文章読み上げ装置
JP2703253B2 (ja) 音声合成装置
JP3113101B2 (ja) 音声合成装置
JP3397406B2 (ja) 音声合成装置及び音声合成方法
JPH0667685A (ja) 音声合成装置
JPS5854400A (ja) 音声出力編集方式
JP3034554B2 (ja) 日本語文章読上げ装置及び方法
JPH02293900A (ja) 音声合成装置
JPH06161490A (ja) 音声合成装置の韻律処理方式
JP2995814B2 (ja) 音声合成方法
Fujisaki et al. Analysis and Interpretation of fundamental frequency contours of British English in terms of a command-response model
Williams Diphone synthesis for Welsh
KR920003934B1 (ko) 음성합성기의 복합코딩방법
JPH06161493A (ja) 音声合成装置の長音処理方式
Horák et al. Automatic speech segmentation with the application of the Czech TTS system
JPH01200290A (ja) 音声合成装置
JPH07129188A (ja) 音声合成装置
JPH0553595A (ja) 音声合成装置
JPS62215299A (ja) 文章読み上げ装置

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee