KR100429978B1

KR100429978B1 - 음성합성시스템의음질저하방지장치

Info

Publication number: KR100429978B1
Application number: KR1019960072435A
Authority: KR
Inventors: 정준구
Original assignee: 엘지전자 주식회사
Priority date: 1996-12-26
Filing date: 1996-12-26
Publication date: 2004-07-27
Also published as: KR19980053336A

Abstract

본 발명은 입력 문장(Text)을 받아서 이 것을 음성(Speech)으로 합성하여 출력하는 음성합성시스템(TTS:Text To Speech Systems)에 관한 것으로서 특히, 무성음에 대한 음질 저하를 방지하기 위해서 유성음과 무성음을 구분하여 음성합성필터의 입력 여기신호(Input Excitation Signal)가 구분되도록 한 음성합성 시스템의 음질저하 방지장치에 관한 것이다.

종래의 문장/음성 합성시스템에서는 데이터 베이스에서 제공하는 유성음 정보와 무성음 정보를 이용해서 음성 합성의 입력 제어를 수행하는데, 이때 무성음 구간에서의 음질이 저하되고, 합성음의 명료도가 떨어지는 단점이 수반된다.

본 발명에서는 도2에서와 같이, 무성음의 잔차신호를 데이터 베이스(206)로 구축해두고, 음성 합성필터(203)의 입력을 유성음 정보와 무성음 정보에 따라 제어할 때 상기 무성음 잔차 신호를 이용해서 원래의 신호와 동일한 무성음 합성이 이루어지도록 한 음성합성 시스템의 음질저하 방지장치를 제공한다.

Description

음성합성 시스템의 음질저하 방지장치

본 발명은 입력 문장(Text)을 받아서 이 것을 음성(Speech)으로 합성하여 출력하는 음성합성시스템(TTS: Text To Speech Systems)에 관한 것으로서 특히, 무성음에 대한 음질 저하를 방지하기 위해서 유성음과 무성음을 구분하여 음성합성필터의 입력여기신호(Input Excitation Signal)가 구분되도록 한 음성합성 시스템의 음질저하 방지장치에 관한 것이다.

종래의 음성 합성시스템의 구성은 도1에 도시한 바와같이, 입력 문장의 장음이나 불규칙 음운변동 등의 전처리를 수행하는 언어 처리부(101)와, 상기 언어 처리부(101)의 출력을 입력받아 합성 음성을 생성하는 수단으로서, 문장의 운율 구현과 음운 현상의 처리를 수행하는 운율 제어부(102) 및 그 운율제어부(102)에서 운율 제어된 신호를 입력받아 그 문장을 음성으로 합성하여 출력하는 음성합성 필터(103)와, 상기 음성 합성필터(103)에 의한 음성 합성을 위하여 합성필터의 특징계수, 유성음과 무성음 정보, 피치정보 등의 파라미터를 제공하는 데이터 베이스 (104)로 이루어지며, 그 동작은 다음과 같이 이루어진다.

언어 처리부(101)에 입력된 문장은 여러가지 음운학적 정보에 따라 입력 문장이 해석되어지고, 그 결과로써 합성단위 시이퀀스(열)가 생성된다.

언어 처리를 위한 문장처리 정보는 장음사전과 불규칙 음운변동사전, 조사 및 어미 사전 등의 데이터 베이스에서 제공되며, 상기 각 데이터 베이스에서 제공되는 정보를 기초로하여 입력 문장(Text)의 장음, 불규칙 처리 등을 수행하여 처리 결과를 운율 제어부(102)에 공급한다.

운율 제어부(102)는 상기 언어 처리부(101)의 처리 결과를 이용해서 자소의 구성에 따라 음운현상 및 강세, 음절의 길이, 어절내에서 억양의 변화 등을 처리하여 해당 언어에 대한 적절한 운율을 구현한다.

이 운율 구현에 필요한 정보는 데이터 베이스(104)로부터, 피치(pitch)궤적 정보를 입력받고 또 운율 구현의 에너지 정보도 입력받아 이것으로부터 운율을 제어하게 된다.

이와같이 운율 제어된 합성단위열은 합성필터(103)에 입력되어 입력된 문장 정보를 데이터 베이스(104)에서 제공하는 음성 데이터에 따라 소리로 만들어서 입력 문장에 대응하는 음성을 출력해 준다.

이때, 음성 합성필터(103)는 데이터 베이스(104)로부터 유성음 정보와 무성음 정보를 제어신호로 입력받아, 유성음 입력(103a)과 무성음 입력(103b)을 제어하고 특징계수를 입력받아 유성음과 무성음의 소리 합성을 수행하게 된다.

한편, 상기 합성단위 시이퀀스는 초기에 음소나 음절 등 간단한 음운학적 단위가 사용되어 왔으나 최근에는 유무성 구간이 혼합된 복잡한 합성단위가 사용되며, 이것은 합성 음질의 자연성을 높이기 위한 것이다.

그러나, 자연성이 향상될수록 합성음의 명료도는 떨어지게 된다.

본 발명에서는 무성음의 잔차신호를 데이터 베이스로 구축해두고, 음성 합성필터의 입력을 유성음 정보와 무성음 정보에 따라 제어할 때 상기 무성음 잔차 신호를 이용해서 원래의 신호와 동일한 무성음 합성이 이루어지도록 한 음성합성 시스템의 음질저하 방지장치를 제공한다.

도 1은 종래의 문장/음성 합성시스템의 블럭 구성도

도 2는 본 발명의 문장/음성 합성시스템의 블럭 구성도

도2에 본 발명의 문장/음성 합성시스템의 구성을 나타내었다.

본 발명의 음성 합성 시스템은, 입력 문장을 처리하여 음성 합성을 위한 단위 시이퀀스를 출력하는 언어 처리부(201)와, 상기 언어처리부(201)에서 출력된 합성 단위열의 정보를 음성신호로 합성하여 출력하는 수단으로서, 합성 단위열에 대한 운율 처리를 수행하는 운율 제어부(202)와, 상기 운율 제어부(202)에서 처리된 합성단위 열의 정보를 입력받아 이것을 유성음과 무성음 합성 처리함과 함께 무성음의 잔차신호 데이터 베이스(206)로부터의 잔차신호 정보를 이용해서 무성음 합성을 수행하는 음성합성필터(203)와, 상기 운율 제어 및 음성 합성을 위한 파라미터들을 공급하는 합성 데이터 베이스(204)와, 상기 음성 합성필터(203)의 유성음 및 무성음 입력 제어를 위한 신호를 공급하는 유/무성음 제어 메모리(205)와, 상기 음성 합성 필터(203)에 의한 무성음 합성을 위한 무성음의 잔차신호를 공급하는 무성음 잔차신호 데이터베이스(206)를 포함하여 구성된다.

상기한 바와같이 구성된 본 발명의 음성 합성 시스템의 동작은 다음과 같이이루어진다.

언어처리부(201)에 입력된 문장은 음운학적 정보에 기초하여 입력 문장이 해석되고, 그 결과로써 합성단위열이 생성되고, 운율 제어부(202)에서는 입력되는 합성단위열에 대하여 운율 처리를 수행한다.

운율 처리에 필요한 피치 등의 파라미터는 합성 데이터 베이스(204)에서 제공된다.

운율 제어부(202)에서 운율 제어된 합성단위열은 음성 합성필터(203)에 입력되는데, 음성합성필터(203)로 입력되는 합성단위열은 음성 합성시에 필요한 합성단위의 순차적인 색인정보(Index)로서 이 색인 열(Index Sequence)에 따라 합성 데이터 베이스(204)로부터 해당 합성 단위를 합성하는데 필요한 피치값과 특징 계수값 등의 파라미터가 프레임 단위로 읽혀진다.

또한 합성단위열의 각 프레임들에 대해서 유/무성음 제어 메모리(TLB:Table Lookahead Buffer)(205)로부터 유성음 정보(U) 또는 무성음 정보(V) 입력된다.

이 유성음 정보(U)와 무성음 정보(V)에 의해서 음성합성필터(203)의 입력(203a)(203b)이 제어되어 입력 여기신호(input excitation signal)가 구분되는데, 현재 음성 합성필터(203)의 입력 프레임이 유성음인 경우에는 상기 합성 데이터 베이스(204)의 피치값의 주기에 따라 임펄스 시이퀀스 입력(203a)이 합성 필터(203)로 입력되어 유성음이 합성된다.

그러나, 음성 합성필터(203)의 입력 프레임이 무성음인 경우에는 무성음 잔차신호 데이터 베이스(206)에서 입력된 무성음의 잔차신호 입력(203b)이 합성필터(203)로 입력되어 원래의 신호와 동일한 무성음이 합성된다.

위와같이 합성된 음성신호는 디지털/아날로그 변환되어 최종적으로 상기 입력 문장에 대응하는 합성 음성신호로서 출력된다.

상기한 바와같이 본 발명에서는 무성음 합성시에 무성음의 잔차신호 데이터 베이스를 이용해서 무성음을 합성하므로 무성음 구간에서의 음질 저하를 방지할 수 있고, 또한 합성음의 명료도를 높일 수 있는 효과가 있다.

Claims

입력 문장을 그 문장에 대응하는 음성신호로 합성하기 위하여 입력 문장을 음운학적 정보에 기초하여 합성 단위열로 변환하고 이것의 운율을 제어하는 수단과, 상기 운율 제어된 음성 합성단위열을 입력받아 합성 데이터 베이스수단으로부터의 합성 파라미터를 이용해서 유성음과 무성음으로 구분하여 합성하는 수단과, 상기 음성합성을 위해서 필요한 파라미터를 제공하는 데이터 베이스 수단으로서 무성음의 잔차신호를 포함하여 합성수단에 공급하는 수단을 포함하여 구성된 것을 특징으로 하는 음성합성 시스템의 음질저하 방지장치.