KR100197203B1

KR100197203B1 - 음성의 가공 또는 강조를 위한 필터와 이것을 사용한 각종장치, 시스템 및 방법

Info

Publication number: KR100197203B1
Application number: KR1019960015305A
Authority: KR
Inventors: 히로히사 다사끼
Original assignee: 다니구찌 이찌로오, 기타오카 다카시; 미쓰비시덴키 가부시키가이샤
Priority date: 1995-05-12
Filing date: 1996-05-10
Publication date: 1999-06-15
Also published as: NO961894L; EP0742548A2; US5822732A; DE69614752T2; EP0742548A3; JPH08305397A; JP2993396B2; AR001928A1; CA2175617C; CN1148232A; NO311471B1; KR960043570A; CN1132153C; NO961894D0; TW303451B; CO4480730A1; EP0742548B1; DE69614752D1; MX9601755A; CA2175617A1

Abstract

일반적으로 입력음성신호에 비해 적은 정보량을 갖는 코드에 의해서 음성정보를 전송하거나 축적하는 시스템 및 방법에 관한 것으로, 합성음의 양자화잡음을 청감적으로 억제하거나 요해성 등을 개선하기 위해 사용되는 음성가공필터의 특성의 자유도를 높일 수 있고 허용되는 스펙트럼경사의 범위내에서 지각레벨의 왜곡을 발생시키지 않고 양호한 포먼트 강조효과를 얻기 위해, 필터계수로 규정되는 전달함수에 의해 합성음신호를 필터링하는 것에 의해서 가공합성음신호를 생성하는 필터링수단 및 다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음성신호에 관한 스펙트럼정보에 따라서, 스펙트럼정보에 따르고 또한 합성음신호에 비해 가공합성음신호의 포먼트 특성이 강조되도록 필터계수를 생성하는 필터계수 생성수단을 포함하는 구성으로 하였다.

이러한 구성으로 하는 것에 의해, 자유도가 높은 필터를 실현할 수 있고, 또 포먼트 근방의 왜곡이 적은 특성의 필터를 얻을 수 있게 된다.

Description

음성의 가공 또는 강조를 위한 필터와 이것을 사용한 각종 장치

제1도 및 제2도는 각각 본 발명의 바람직한 실시형태중 LSP를 이용한 실시형태에 따른 음성가공필터의 구성을 도시한 블록도.

제3도는 음성 분석/합성 시스템의 구성을 예로서 도시한 블록도.

제4도는 LSP보정방법의 1예를 도시한 블록도.

제5도는 비례 분할에 의해 보정LSP를 생성하는 방법의 설명도.

제6도 및 제7도는 각각 LSP보정방법의 1예를 도시한 블록도.

제8도는 본 발명의 바람직한 실시형태중 LSP를 이용한 실시형태의 대수파워 대 주파수스펙트럼 특성을 도시한 그래프로서, 제1도의 구성에 있어서 비례 분할에 의해 보정LSP를 생성하는 방법을 사용한 경우의 특성을 도시한 도면.

제9도는 LSP보정방법의 1예를 도시한 블록도.

제10도는 본 발명의 바람직한 실시형태중 LSP를 이용한 실시형태의 대수파워 대 주파수스펙트럼 특성을 도시한 그래프로서, 제2도의 구성에 있어서 인접한 차원간의 거리 확장에 의해 보정LSP를 생성하는 방법을 사용한 경우의 특성을 도시한 도면.

제11도, 제12도, 제13도, 제14도, 제15도 및 제16도는 각각 LSP보정방법의 1예를 도시한 블록도.

제17도 및 제18도는 각각 본 발명의 바람직한 실시형태중 LSP영역내에서 필터링을 실행하는 실시형태에 따른 음성가공필터의 구성을 도시한 블록도.

제19도는 본 발명의 바람직한 실시형태중 PARCOR를 이용한 실시형태에 따른 음성가공필터의 구성을 도시한 블록도.

제20도는 본 발명의 바람직한 실시형태중 PARCOR를 이용한 실시형태의 대수파워 대 주파수스펙트럼 특성을 도시한 그래프.

제21도 및 제22도는 각각 본 발명의 바람직한 실시형태중 PARCOR 영역내에서 필터링을 실행하는 실시형태에 따른 음성가공필터의 구성을 도시한 블록도.

제23도는 본 발명의 바람직한 실시형태중 LAR을 사용한 실시형태에 따른 음성가공필터의 구성을 도시한 블록도.

제24도는 본 발명의 바람직한 실시형태중 LAR을 사용한 실시형태의 대수파워 대 주파수스펙트럼 특성을 도시한 그래프.

제25도 및 제26도는 각각 본 발명의 바람직한 실시형태중 LAR영역 또는 PARCOR영역내에서 필터링을 실행하는 실시형태에 따른 음성가공필터의 구성을 도시한 블록도.

제27도는 본 발명의 바람직한 실시형태중 여러개의 파라미터를 이용한 실시형태에 따른 음성가공필터의 구성을 도시한 블록도.

제28도는 음성 분석/합성 시스템의 구성을 예로서 도시한 블록도.

제29도는 음성가공필터의 사용방법을 도시한 블록도.

제30도, 제31도 및 제32도는 각각 문헌1, 문헌2, 문헌3에 개시된 음성가공필터의 구성을 도시한 블럭도.

제33도, 제34도 및 제35도는 각각 문헌1, 문헌2, 문헌3에 개시된 음성가공필터의 대수파워 대 주파수스펙트럼 특성을 도시한 그래프.

제36도는 문헌4에 개시된 음성가공필터의 구성을 도시한 블럭도.

본 발명은 일반적으로 입력음성신호에 비해 적은 정보량을 갖는 코드에 의해서 음성정보를 전송하거나 축적하는 시스템 및 방법에 관한 것이다. 특히, 본 발명은 입력음성신호에서 그의 특성을 나타내는 파라미터를 추출하고, 추출된 파라미터를 전송하거나, 축적하고, 전송 또는 축적된 파라미터에 따라서 원음신호를 합성하는 시스템 및 방법에 관한 것이다. 보다 구체적으로, 본 발명은 합성된 음성신호에서 발생하는 양자화잡음을 청감적으로 억제하기 위한 음성가공필터에 관한 것이다. 또, 본 발명은 음성의 요해성(了解性) 등의 신호의 질을 개선하기 위한 시스템, 방법 및 필터에 관한 것이다. 특히, 본 발명은 난청 보조장치에 의해 수신한 신호 또는 아날로그전송에 의해 발생한 왜곡을 갖는 신호의 음성요해성을 개선하고, 또 확성기에 의해 출력 또는 방송되는 음성의 명료도를 개선하는데 적합한 음성 강조에 관한 것이다.

제28도에 음성 분석/합성 시스템의 구성을 예로서 도시한다. 이 도면의 시스템은 분석유닛(100) 및 합성유닛(200)으로 구성되어 있다. 분석유닛(100)은 분석부(101) 및 부호화부(102)를 포함하고, 합성유닛(200)은 복호화부(201) 및 합성부(202)를 포함한다. 유닛(100) 및 (200)은 어느 용도에서는 통신회선을 거쳐서 접속되고, 이 경우 일반적으로 양자의 유닛은 서로 거리를 두고 배치된다. 유닛(100) 및 (200)은 다른 용도에서는 기억매체를 거쳐서 정보를 송신하고, 이 경우 양자의 유닛은 단일의 장치를 구성하고 있는 것도 있고, 2개로 분리된 장치를 구성하고 있는 것도 있다. 분석부(101)은 사용자로부터 공급되는 입력음성신호에서 이 입력음성신호의 특성을 나타내는 스펙트럼정보를 포함하는 파라미터군을 추출한다. 추출된 파라미터군은 부호화부(102)에서 부호화되고, 이 부호화된 파라미터군은 통신회선 또는 기억매체를 거쳐서 합성유닛(200)으로 공급되어 복호화부(201)에서 복호화된다. 합성부(202)는 복호화된 파라미터군에 따라서 음성신호를 합성한다. 이와 같은 구성을 갖는 시스템의 하나의 이점은 전송 또는 축적되는 신호의 정보량이 적다는 것이다. 이것은 전송 또는 축적되는 신호 즉 부호화된 파라미터군이 입력음성신호에 비해 적은 정보량을 포함하고 있는 것에 기인하고 있다.

제29도에 합성유닛(200)의 변형예를 도시한다. 이 변형예는 합성부(202)에서 얻어지는 음성신호(이하, 합성음신호라 한다)에 대해 복호화된 파라미터군에 따라서 소정의 가공처리를 실행하는 것에 의해, 가공된 음성신호(이하, 가공합성음신호라 한다)를 생성하는 후처리필터(203)를 또 포함한다. 이 후처리필터(203)은 어느 용도에서는 합성음신호중의 양자화잡음을 청감적으로 억제하기 위해 사용되고, 다른 용도에서는 음성의 요해성 등의 주관적인 품질을 개선하기 위해 사용된다.

이하의 설명에서는 이러한 종류의 후처리필터를 음성가공필터 또는 음성강조필터라 하기로 한다. 이러한 필터(203)을 구비한 합성유닛(200)은 특히 음성부호화복호화시스템이나 음성대화시스템에 사용하는데 적합하다.

필터(203)으로서 사용할 수 있는 필터에는 여러 가지의 것이 있다. 그 중에서도 포먼트(formant) 특성을 강조하는 형태의 필터는 양자화잡음의 억제나 주관적인 품질개선의 면에서 매우 효과적이라는 이점을 갖고 있다. 이러한 필터를 개시한 선행기술문헌으로서는 예를 들어 다음과 같은 문헌이 있다.

일본국 특허공개공보 소화64-13200호(이하, 문헌1이라 한다)

일본국 특허공개공보 평성5-500573(이하, 문헌2라 한다)

일본국 특허공개공보 평성2-82710(이하, 문헌3이라 한다)

Speech Coding System Based on Adaptive Mel-Cepstram Analysis for Noisy Channel, 일본음향학회 춘계연구발표회 강연논문집, Vol. 1, pp.257∼pp.258(1994. 3)(이하, 문헌4라 한다)

문헌1 및 문헌2에 개시되어 있는 필터는 모두 분석유닛(100)에서 상술한 부호화된 파라미터군으로서 선형예측부호(LPC)를 받아들이는 합성유닛(200)에 있어서 음성가공필터(203)으로서 사용된다. 문헌3에 개시되어 있는 필터는 분석유닛(100)에서 상술한 부호화된 파라미터군으로서 자기상관계수를 입력하는 합성유닛(200)에 있어서 음성가공필터(203)으로서 사용된다. 마지막으로, 문헌4에 개시되어 있는 필터는 분석유닛(100)에서 상술한 파라미터군으로서 멜 켑스트럼(Mel-cepstrum) 또는 멜 스케일드 켑스트럼(Mel-scaled cepstrum)을 받아들이는 합성유닛(200)에 있어서 음성가공필터(203)으로서 사용된다.

제29도에 문헌1에 개시되어 있는 필터의 개략적인 구성을 도시한다. 이 필터(203)는 합성부(202)에서 공급되는 합성음신호 이외에도 복호화부(201)에서 복호화된 LPC를 입력한다. 여기에서 말하는 LPC는 제28도에 도시한 분석부(101)에서 실행되는 선형예측부호화에 의해 얻어지는 α파라미터이다. 선형예측부호화라는 것은 인간의 발성기구를 모델링한 예를들면 8차∼12차의 필터의 필터계수 즉 α파라미터를 입력음성신호파형의 샘플값에 따라서 또한 선형예측법에 따라서 결정하는 방법이다.

제30도에 도시한 필터(203)은 합성음신호를 필터링하는 것에 의해 반가공합성음성신호를 생성하는 필터(204)와 반가공합성음신호를 필터링하는 것에 의해 가공합성음신호를 생성하는 필터(205)를 갖고 있으며, 필터(204) 및 (205)는 모두 α파라미터를 필터계수로서 사용한다. 단, 필터(204)에 사용되는 α파라미터는 복호화부(201)에서 공급되는 α파라미터α_i(단, i=1, 2, … p; p는 예측차수)가 아니라 α파라미터α_i를 보정계수ν에 의해 보정된 α1_i=α_i/ν^-i이다. 마찬가지로, 필터(205)에 사용되는 α파라미터는 α파라미터α_i를 보정계수η에 의해 보정한 α2_i=α_i/η^-i이다. α파라미터α_i를 보정계수ν 및 η에 의해 보정하는 처리는 각각 LPC보정부(206) 및 (207)에서 실행된다.

여기에서는 필터(204) 및 (205)가 합성음신호를 가공합성음신호로 변환하기 위한 전달함수H(z)의 분모 및 분자를 각각 실현하는 것으로 한다. 즉, 필터(204)가 LPC필터이고, 필터(205)가 LPC역필터인 것으로 한다. 또, α파라미터α_i를 필터계수로서 사용한 필터링은 다음의 식으로서 주어지는 것으로 한다.

단, z는 z변환연산자이다. 필터(204) 및 (205)에서 사용하는 필터계수는 상술한 바와 같이 각각 α1_i=α_i/ν^-i및 α2_i=α_i/η^-i이므로, 필터(204) 및 (205)의 전달함수는 각각 1/A(z/ν) 및 A(z/η)로 표시된다. 따라서, 합성음신호를 가공합성음신호로 변환하기 위한 전달함수 H(z)는 다음의 식으로 나타낼 수 있다.

제31도는 문헌2에 개시되어 있는 필터의 구성을 개략적으로 도시한 도면이다. 이 필터(203)에 있어서는 LPC보정부(206)에서 생성된 α1_iLPC/ACC변환부(208)에 의해 LPC영역에서 자기상관영역으로 변환되고, ACC보정부(209)에 의해 자기상관영역내에서 대역폭 확장되고, ACC/LPC변환부(210)에 의해 레빈슨(Levinson)의 귀납법에 따라서 자기상관영역에서 LPC영역으로 변환된다. 필터(205)는 이와 같이 해서 얻어지는 α2_i를 입력한다. 또한, 이 도면에서는 제30도에 도시된 LPC보정부(207)을 폐지하고 있지만, 문헌2에는 LPC보정부(207)을 구비하고 그의 출력인 α2_i를 LPC/ACC변환부(208), ACC보정부(209) 및 ACC/LPC변환부(210)에 의해 재차 보정하는 구성도 시사되어 있다.

제32도는 문헌3에 개시되어 있는 필터의 구성을 개략적으로 도시한 도면이다. 이 필터(203)은 문헌1에 구성에 ACC/LPC변환부(211) 및 (212)를 추가한 구성으로 되어 있다. ACC/LPC변환부(211)은 복호화된 파라미터군에 포함되는 스펙트럼정보로서 자기상관계수를 입력하고 입력된 자기상관계수를 자기상관영역에서 LPC영역으로 변환한다. ACC/LPC변환부(212)는 ACC/LPC변환부(211)에 의해 입력되는 자기상관계수중 m차 이하의 부분(mp)을 입력하고, 입력된 자기상관계수를 자기상관영역에서 LPC영역으로 변환한다. LPC보정부(206) 및 (207)은 각각 ACC/LPC변환부(211) 및 (212)에서 얻어지는 α파라미터를 문헌1과 마찬가지의 방법으로 보정한다. 또한, 이러한 구성에 있어서 입력되는 자기상관계수는 복호화부(201)에서 복호화한 것(즉, 분석부(101)에서 산출되어 보호화부(102)에서 부호화된 자기상관계수)이라도 좋고, 또는 복호화부(201)에서 복호화된 다른 종류의 스펙트럼 파라미터에 따라서 복호화부(201) 또는 합성부(202)에서 산출된 것이라도 좋다.

제34도∼제35도는 문헌1∼문헌3에 개시되어 있는 음성가공(또는 강조) 필터의 대수파워(log power) 대 주파수스펙트럼 특성을 도시한 것이다. 이를 도면중, A∼D는 각각 합성부(202)의 특성, 필터(204)의 특성, 필터(205)의 역특성 및 전달함수 H(z)를 나타낸다. 예를들어, 제33도 및 제35도에 있어서, A는 1/A(z), B는 1/A(z/ν), C는 1/A(z/η), D는 H(z)=A(z/η)/A(z/ν)를 나타낸다. 문헌1에 관한 식(2)에서 명확한 바와 같이, 또 문헌1∼문헌3에 관한 제33도∼제35도에서도 명확한 바와 같이, 필터(204)는 합성음신호의 스펙트럼의 포먼트를 강조함과 동시에 그 스펙트럼의 골짜기(valley)를 억제하는 필터로서 기능하고, 필터(205)는 필터(204)에 의해서 도입되는 스펙트럼경사를 없애는 필터로서 기능한다. 필터(204)에 의한 강조 및 억제의 정도는 ν를 크게 할수록 강해지고, ν을 작게 할수록 약해진다. 또한, 문헌1에서는 η 및 ν이 0≤η≤ν1을 만족시키는 것으로 가정하고 있다. 또, 제33도는 ν=0.8, η=0.5인 예를, 제34도는 ν=0.8, 1200Hz 지연창(lag window)에 의한 대역폭 확장처리를 사용한 예를, 제35도는 p=10, m=4, ν=0.95, η=0.95인 예를 각각 도시한 것이다.

그리고, 제33도와 제34도의 비교에서 명확한 바와 같이, 또는 제33도와 제35도의 비교에서 명확한 바와 같이, 문헌2 또는 문헌3에 개시된 음성가공(또는 강조) 필터는 문헌1에 개시된 것에 비해 필터(205)를 사용하는 것에 의해 스펙트럼경사를 없애는 효과를 높일 수 있다. 즉, 문헌1에 개시되어 있는 기술에서는 필터(204)에 의해서 부여되는 스펙트럼경사를 필터(205)에 의해 충분히 없앨 수 없다. 또, 이 스팩트럼 경사는 시간의 변화와 함께 변화하므로, 고정적으로 고주파스펙트럼 강조처리에 의해서는 스펙트럼경사를 없애는 것이 어렵기 때문에 명료도가 시간과 함께 변화해 버린다. 이에 대해, 문헌2 및 문헌3에 개시되어 있는 기술에 의하면, 스펙트럼의 산골짜기구조의 강조효과를 강화하고 또한 스펙트럼경사를 보다 평탄하게 할 수 있다. 이것은 필터(203)에 의한 명료도(brightness) 및 자연성의 열화의 금지로 이어진다.

문헌2, 문헌3에 개시되어 있는 기술은 문헌1에 개시되어 있는 기술에 비해 어느면에서는 개량된 기술이지만, 다른 면에서는 그것에 비해 뒤떨어진다는 것을 알 수 있다. 예를들면, 문헌2에 개시되어 있는 기술은 분석유닛(101)의 구성이나 시스템의 준거방식에도 의존하지만, 얻어지는 가공합성음신호가 종종 독특한 왜곡을 수반한다는 문제를 갖고 있다. 이것은 자기상관영역내에서 매우 강한 스펙트럼 평활화처리를 실행하고 있고, 그 결과 강한 포먼트 근방에 있어서 스펙트럼이 현저하게 왜곡된다는 것에 기인하고 있다. 이것은 문헌1에 개시된 기술에 비해 가공합성음신호의 품질이 떨어지는 결과를 초래한다. 또, 문헌3에 개시되어 있는 기술의 경우, 자기상관영역에 있어서의 필터 차수의 저감에 기인해서 종종 포인트의 위치가 대폭으로 이동되거나 여러개의 포먼트가 1개로 집적된다는 불합리함이 발생한다. 이러한 불안정한 스펙트럼변화는 가공합성음신호에 왜곡을 발생시킨다. 예를들면, 제35도에 도시되어 있는 특성B와 특성C를 비교하면, B의 포먼트중 가장 낮은 주파수를 갖는 포먼트가 C에 있어서 더 낮은 주파수로 이동하는 현상과 한가운데로 2개의 포먼트의 집적현상이 나타나고 있는 것을 알 수 있다. 또 이러한 원인에 의한 대폭적인 포먼트이동은 시간과 함께 발생하거나 발생하지 않으므로, 얻어진 가공합성음성이 부자연스럽게 변화해 버린다.

또, 문헌1∼문헌3에 개시되어 있는 기술에는 공통된 문제점으로서 설계의 자유도(특성조작·조정의 자유도)가 낮다는 문제가 있다. 예를들면, 문헌1에 개시되어 있는 기술의 경우, 스펙트럼경사나 그의 시간 변동의 문제가 그다지 현저하게 되지 않는 범위내에서 ν과 η을 변화시키는 것만으로는 필터(203)의 특성을 크게 변화시키는 것을 곤란하다. 또, 문헌2에 개시되어 있는 기술의 경우, 필터(204)의 포먼트강조효과를 높이기 위해서 ν이나 지연창 주파수에 대해 가변범위를 크게 설정하면, 상기한 왜곡 즉 자기상관영역내에서의 스펙트럼 평활화처리에 기인한 왜곡이 더욱 크게 되어 버린다. 따라서, ν이나 지연창 주파수의 가변범위를 한정해야만 하므로, 필터(203)의 특성을 크게 변화시킬 수 없게 된다. 또, 문헌3에 개시되어 있는 기술의 경우, 필터 차수라고 하는 유한 정수값을 그의 제어변수로 하고 있으므로, 저절로 특성의 자유도가 낮아진다.

제36도에 문헌4에 의해 개시되어 있는 음성가공(또는 강조) 필터(203)의 구성을 개략적으로 도시한다. 제36도의 필터(203)이 상술한 각 종래기술과 크게 다른 점은 복호화부(201)로부터 스펙트럼정보로서 복호화된 파라미터군내의 멜 스케일드 켑스트럼을 입력하고 있는 점과 입력된 멜 스케일드 켑스트럼을 보정해서 얻어지는 보정 멜 스케일드 켑스트럼을 그의 필터계수로서 사용한 필터링에 의해서 합성음신호를 가공합성음신호로 변환하고 있는 점이다. 즉, 합성음신호는 멜 스케일드 켑스트럼 보정부(214)에서 생성된 보정 멜 스케일드 켑스트럼을 그의 필터계수로서 사용하는 필터(213)에 의해 필터링된다. 보다 구체적으로는 멜 스케일드 켑스트럼 보정부(214)는 입력된 멜 스케일드 켑스트럼의 1차성분을 0으로 치환하고 그 다른 성분을 β배하는 것에 의해서 보정 멜 스케일드 켑스트럼을 생성한다. 필터(213)은 이 보정 멜 스케일드 켑스트럼을 그의 필터계수로서 사용해서 합성음신호를 필터링하고, 얻어진 신호를 가공합성음신호의 형태로 출력한다. 또한, 필터(213)은 보정 멜 스케일드 켑스트럼을 그의 필터계수로서 사용하고 있기 때문에 멜 스케일드 대수 스펙트럼 근사(MLSA)필터라고 불린다.

여기에서 말하는 멜 스케일드 켑스트럼은 입력음성신호의 대수스펙트럼을 직교변환하는 것에 의해 분석부(101)에 의해서 산출되는 파라미터이다. 일반적으로, 음성정보를 멜 스케일드 켑스트럼으로 변환해서 전송 또는 축적하는 시스템에 문헌1∼문헌3의 기술을 그대로 적용할 수는 없다. 즉, 멜 스케일드 켑스트럼 등의 켑스트럼계 파라미터를 LPC영역으로 변환하면 스펙트럼 형상이 크게 왜곡되므로, 합성음신호의 재분석에 의한 LPC의 산출이 필요하게 된다. 또, 이와 같이 해서 산출된 LPC라도 원음을 분석해서 얻어지는 LPC와의 사이에는 왜곡이 있으므로, 그다지 양호한 음성가공특성을 확보할 수는 없다. 이에 반해, 문헌4의 방법을 사용한 경우에는 이러한 왜곡을 방지할 수 있다.

바꾸어 말하면, 문헌4에 개시되어 있는 기술은 접속성이 나쁘다는 문제 즉 켑스트럼계 파라미터 이외의 파라미터군을 사용해서 음성신호를 합성하도록 설계된 시스템에는 적용할 수 없다는 문제점이 있다. 이러한 시스템으로서는 대표적으로 예를 들면 LPC(linear prediction code), LSP(line spectrum pair), PARCOR(partial autocorrelation coefficients) 등의 파라미터군을 사용하는 시스템이 있다. 이러한 문제점은 LPC, LSP 및 PARCOR이 음성의 부호화 복호화에 자주 사용되기 때문에 중요하다. 가령, 파라미터의 하나로서 LPC를 입력하는 합성유닛(200)에 그의 필터계수로서 멜 스케일드 켑스트럼을 사용하는 음성가공필터를 사용하면, 상술한 바와 같이 LPC영역에서 멜 스케일드 켑스트럼영역으로의 변환에 따라 스펙트럼형상이 왜곡되게 된다. 물론, 합성음신호를 재분석해서 멜 스케일드 켑스트럼을 재차 산출하는 것에 의해 이러한 왜곡을 어느정도는 해소할 수 있다. 그러나, 이러한 방법으로 멜 스케일드 켑스트럼을 산출했다고 하더라도 원음에서 얻어지는 멜 스케일드 켑스트럼에 비해서 많은 왜곡을 포함하고 있다. 즉, 그다지 양호한 음성가공특성을 기대할 수는 없다.

본 발명의 목적은 허용가능한 스펙트럼경사의 범위내에서 양호한 포먼트 강조효과를 얻을 수 있는 음성가공(또는 강조, 이하 생략) 필터를 제공하는 것이다.

본 발명의 다른 목적은 포먼트구조내에서 예측할 수 있는 레벨의 왜곡을 발생시키지 않고 양호한 포먼트 강조효과를 얻을 수 있는 음성가공필터를 제공하는 것이다.

본 발명의 또 다른 목적은 종래와 마찬가지의 포먼트 강조효과를 종래보다 적은 구성수단을 사용하여 실현할 수 있는 음성가공필터를 제공하는 것이다.

본 발명의 또 다른 목적은 명료도의 제어, 처리량의 삭감, 요해성의 개선 등을 선택적으로 실행할 수 있는 음성가공필터를 제공하는 것이다.

본 발명의 또 다른 목적은 입력된 스펙트럼정보가 속하고 있는 영역과 특성이 다른 영역에서의 안정성 검사를 필요로 하지 않도록 하고, 이것에 의해 설계의 자유도가 높은 음성가공필터를 제공하는 것이다.

본 발명의 또 다른 목적은 LSP, PARCOR, LAR 등을 분석유닛측에서 스펙트럼정보로서 입력하는 합성유닛에 적합한 음성가공필터를 제공하는 것이다.

본 발명의 또 다른 목적은 LSP, PARCOR, LAR 등을 스펙트럼정보로서 입력할 때, 스펙트럼의 재분석이나 파라미터변환없이 양호한 접속성을 얻을 수 있는 음성가공필터를 제공하는 것이다.

본 발명의 또 다른 목적은 상기한 목적을 달성할 수 있는 음성가공 필터를 사용해서 음성합성시스템을 실현하는 것이다.

본 발명의 제1의 측면에 의하면, 필터계수로 규정되는 전달함수에 의해 합성음신호를 필터링하는 것에 의해서 가공합성음신호가 생성된다. 이 필터계수는 다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음신호에 관한 스펙트럼정보에 따라서, 스펙트럼정보에 따르고 또한 합성음신호에 비해 가공합성음신호의 포먼트특성이 강조되도록 생성된다. 또, 스펙트럼정보로서는 LSP정보, PARCOR정보 및 LAR정보 중의 어느 하나를 사용할 수 있다. 필터계수를 생성하기 위한 연산은 LSP정보, PARCOR정보 및 LAR정보의 특질상, 각각의 차원에 관한 연산이 다른 차원에 관한 연산에 종속하는 성질의 연산으로 된다. LSP정보, PARCOR정보 또는 LAR정보를 사용하여 필터계수를 생성하는 경우, LSP, PARCOR 또는 LAR영역에서 다른 영역으로 필터 계수를 전송하는 일 없이 필터의 안정성을 확보할 수 있다. 단, 예를들면, LPC정보에서 생성되는 필터계수를 사용하는 필터에 있어서는 필터의 안정성을 향상시키기 위해 필터계수를 LPC영역에서 다른 영역으로 전송해야 한다. 따라서, 본 발명의 제1의 측면에 따르면, LPC정보에서 생성된 필터계수를 사용하는 종래의 필터에 비해 안정하게 필터 또는 음성가공처리를 용이하게 설계할 수 있다. 또, LSP정보, PARCOR정보 또는 LAR정보를 전송 또는 축적하는 시스템에 본 특성을 적용한 경우, 스펙트럼의 재분석이나 파라미터변환이 필요없게 되기 때문에 양호한 접속성을 확보할 수 있다.

본 발명에 있어서의 필터링은 LPC영역, LSP영역, PARCOR영역 및 LAR영역 중의 어느 영역내에서 실행되어도 좋다. 즉, 본 발명에 있어서의 필터계수는 LPC영역, LSP영역 및 PARCOR영역중의 어느 영역에 속해 있어도 좋다.

본 발명의 제2의 측면에 의하면, 먼저 스펙트럼정보를 그의 소속영역내에서 보정하는 것에 의해 보정스펙트럼정보를 생성하고, 다음에 이 보정스펙트럼정보를 해당 소속영역에서 LPC영역으로 변환하는 것에 의해 필터계수를 생성하고, 얻어진 필터계수를 사용해서 LPC영역내에서 필터링한다. 이러한 보정에 있어서도 각종 보정계수를 사용할 수 있으므로, 본 측면에 의하면 사용자로부터 요구되는 필터링특성(합성음신호의 가공특성)에 따라서, 필터계수의 합성을 종래보다 자유롭게 조정하는 것이 가능하게 된다.

본 발명의 제3의 측면에 의하면, 가공합성음신호의 포먼트의 피크가 작아지도록 스펙트럼정보가 보정된다. 따라서, 허용가능한 스펙트럼 경사의 범위내에서 양호한 포먼트 강조효과를 얻을 수 있고, 또 포먼트 구조에 지각레벨의 왜곡을 발생시키는 일없이 양호한 포먼트 강조효과를 얻을 수 있다.

첫 번째의 보정 방법으로서는 입력음성신호에 관한 스펙트럼정보와 동일영역에 속하는 참조정보를 보정계수에 따라서 비례 분할하는 방법을 들 수 있다. 이 방법은 스펙트럼정보가 LSP정보일 때 유효하다. 이 방법에 의하면, 참조정보의 설정방법에 따라서 다음과 같은 보정을 실행하는 것이 가능하다. 즉, 고정된 스펙트럼경사를 가공합성음신호에 부여하는 보정, 평균잡음스펙트럼을 반영한 스펙트럼경사를 가공합성음신호에 부여하는 보정(즉, 잡음스펙트럼 이외의 음성스펙트럼을 약간 강조하는 보정), 스펙트럼정보가 과거에 거쳐온 이력을 반영한 스펙트럼경사를 가공합성음신호에 부여하는 보정(즉, 음성의 스펙트럼의 변동분을 강조하는 보정등) 등이 가능하게 된다. 이것에 의해, 명료도의 제어, 정보처리절차의 삭감, 요해성의 개선 등이 가능하게 된다. 또, 이 방법에 의하면, 다른 부수적인 필터링처리(예를들면, 고정적인 고주파강조처리)의 특성을 본 발명의 필터에 의해 아울러 실현가능하게 된다.

두 번째의 보정방법으로서는 입력음성신호에 관한 스펙트럼정보를 구성하는 여러 차원마다 스펙트럼정보에 보정계수 또는 보정계수의 멱승(power)을 곱하는 방법이 있다. 이방법은 스펙트럼정보가 PARCOR정보와 LAR정보 중의 어느 하나일 때 사용가능하다. 이 방법에 의해서도 예를들면 처리량의 삭감, 요해성 개선 등의 상기와 마찬가지의 효과를 얻을 수 있다. 또한, 스펙트럼정보가 PARCOR정보일 때에는 보정계수의 멱승을 스펙트럼정보에 곱하는 방법을 사용하고, 또한 상기 멱을 스펙트럼정보의 차원에 종속시킨다.

세 번째의 보정방법으로서는 입력음성신호에 관한 스펙트럼정보를 나타내는 여러 차원중 서로 인접하는 차원 사이의 거리를 확장하는 방법이 있다. 보다 구체적으로는 서로 인접하는 차원 사이의 거리가 참조거리를 하회할 때, 이 거리를 상기 참조거리 이상으로 확장하고, 그후 스펙트럼정보 전체의 크기가 확장 전과 동일한 정도로 되도록, 상기 거리를 모든 차원에 관하여 균등하게 압축하는 방법이다. 이 방법은 스펙트럼정보가 LSP정보일 때 사용가능하다. 이 방법에 의해서도 스펙트럼경사의 평탄화의 점에서 예를들면 처리량의 삭감, 요해성 개선 등의 상기와 마찬가지의 효과마찬가지의 효과를 얻을 수 있다. 또, 제1 및 제2의 방법에 관한 구성요소나 처리의 삭감을 실현할 수 있다.

또한, 제1 및 제3의 보정방법은 조합하는 것이 가능하다. 이 경우, 제1의 보정방법과 제3의 보정방법을 선택적으로 사용해도 좋고, 또는 양자를 함께 사용해도 좋다. 각 방법의 다른 2가지 방법에 대한 이점과 3가지 방법 사이의 다른 점에 관해서는 후술하는 실시예에 의해 당업자라면 알 수 있을 것이다.

제1∼제3의 보정방법의 실시형태로서는 첫째, 입력음성신호에 관한 스펙트럼정보를 보정스펙트럼정보에 대응시켜 기억하고, 스펙트럼정보가 부여되는 것에 따라서 보정스펙트럼정보를 생성하는 변환테이블이 있고, 둘째 입력음성신호에 관한 스펙트럼정보가 부여되었을 때 보정스펙트럼정보를 생성할 수 있도록, 스펙트럼정보를 보정스펙트럼정보로 변환하는 능력을 학습에 의해 체득한 뉴럴 네트워크가 있다. 이들 변환테이블 및 뉴럴 네트워크는 입력음성신호에 관한 스펙트럼정보의 소속영역을 분할해서 얻을 수 있고 서로 중복되지 않는 여러개의 카테고리마다 마련하고, 또는 카테고리마다 계수전환 등에 의해 그들의 동작을 전환하면서 사용하는 것이 바람직하다. 이와 같이 하면, 카테고리 분할에 의한 적응형 제어를 실현할 수 있음과 동시에 카테고리경계에 있어서의 왜곡을 저감할 수 있다. 또한, 제1∼제3의 보정방법 이외의 보정방법을 카테고리마다 사용하는 것도 가능하다.

LSP영역과 PARCOR영역중의 어느 하나의 영역내에서 필터링을 실행하는 본 발명의 제4의 측면에 의하면, 입력음성신호에 관한 스펙트럼정보가 그의 소속영역내에서 보정되고, 이것에 의해 얻어진 보정스펙트럼정보가 필터계수로서 사용된다. 이 측면에 의하면, 보정스펙트럼정보에 관한 영역변환에 대한 요구를 없앨 수 있으므로, 종래와 동등한 포먼트 강조효과를 종래보다 적은 수의 구성요소로 실현할 수 있게 된다.

본 발명의 제5의 측면에 의하면, 가공합성음신호의 포먼트가 합성음신호에 비해서 강조되도록 필터링이 실행된다. 본 발명의 제6의 측면에 의하면, 제5의 측면에 있어서, 가공합성음신호에 부여되는 스펙트럼경사가 억제된다.

본 발명의 제7의 측면에 의하면, 다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음성신호에 관한 스펙트럼정보에 따라서 합성음신호가 생성되며, 그 후 스펙트럼정보에 따라서 상술한 각 측면에 관한 처리가 실행된다. 본 발명의 제8의 측면에 의하면, 다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음성신호에 관한 제1스펙트럼정보에 따라서 합성음신호가 생성되며, 제1스펙트럼정보는 그의 소속영역과 다른 영역에 속하는 제2스펙트럼정보로 변환되고, 그후 제2스펙트럼정보에 따라서 상술한 각 측면에 관한 처리가 실행된다. 본 발명의 제9의 측면에 의하면, 다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음성신호에 관한 제1스펙트럼정보에 따라서 합성음신호가 생성되고, 합성음신호를 분석하는 것에 의해 제2스펙트럼정보가 생성되고, 그 후 제2스펙트럼정보에 따라서 상술한 각 측면에 관한 처리가 실행된다. 본 발명의 제10의 측면에 의하면, 제7∼제9의 측면에 관한 처리에 앞서서 입력음성신호를 분석하는 것에 의해서 스펙트럼정보 또는 제1스펙트럼정보가 생성되어 축적 또는 전송된다.

본 발명의 상기 및 그밖의 목적과 새로운 특징은 이하의 본원의 명세서 및 참조도면에 의해서 더욱 명확하게 될 것이다.

이하, 본 발명의 실시형태를 도면을 참조해서 설명한다. 또한, 제28∼제36도에 도시된 종래기술과 동일하거나 또는 대응하는 구성요소에는 동일 부호를 붙이고 그의 반복적인 설명을 생략한다. 또한, 각 실시형태에 공통인 구성요소에는 동일한 부호를 붙이고 그의 반복적인 설명을 생략한다.

a) LSP를 이용한 실시형태

제1도 및 제2도에 본 발명에 따른 필터(203)의 바람직한 실시형태중 복호화된 파라미터군내의 스펙트럼정보로서 LSP를 입력하는 2개의 실시형태를 도시한다. 제1도 도시한 실시형태는 필터(204) 및 (205) 이외에 LSP보정부(216) 및 (217)과, LSP/LPC변환부(218) 및 (219)를 포함한다. 또, 제2도에 도시한 실시형태는 필터(204) 및 (205) 이외에 LSP보정부(216) 및 LSP/LPC변환부(218)을 포함한다.

이들 실시형태는 제29도에 도시한 구성의 합성유닛(200)이나 제3도에 도시한 구성의 합성유닛(200)에 사용할 수 있다. 즉, 파라미터군의 요소로서 LSP를 출력할 수 있는 복호화부(201)을 사용하고 있는 경우에는 제29도에 도시한 바와 같이 복호화부(201)의 출력을 필터(203)에 직접 공급할 수 있는데 반해, 파라미터군의 요소로서 LSP정보를 출력할 수 없는 복호화부(201)을 사용하고 있는 경우에는 제3도에 도시한 바와 같이 변환부(215)에서 복호화부(201)의 출력을 LSP영역으로 변환한 후에 필터(203)으로 공급해야 한다. 또한, 변환부(215)를 복호화부(201)이나 합성부(202)에 조립하는 것도 가능하다.

LSP보정부(216) 및 (217)은 복호화부(201) 또는 변환부(215)에서 다차원벡터 형태로 LSPω_i를 입력하고, 이 ω_i를 소정의 방법에 준거하여 보정하는 것에 의해, 보정된 LSPωh1_i및 ωh2_i를 생성한다. LSP/LPC변환부(218) 및 (219)는 각각 ωh1_i및 ωh2_i를 LSP영역에서 LPC영역으로 변환하는 것에 의해, 보정된 α파라미터α1_i및 α2_i를 생성한다. 필터(204) 및 (205)는 각각 α1_i및 α2_i를 그들 각각의 필터계수로서 사용해서 차례로 합성음신호를 필터링한다. 그 결과, 필터(205)에서는 가공합성음신호가 출력된다. 여기에서, 필터(204) 및 (205)의 전달함수의 각각 1/A₁(z) 및 A₂(z)로 나타내면, 제1도의 필터(203)의 전달함수 H(z)는 다음의 식

으로 되고, 제2도의 필터(203)의 전달함수 H(z)는 다음의 식

로 된다.

이와같이, 본 발명의 LSP를 이용한 실시형태에서는 파라미터의 하나로서 입력되는 LSPω_i를 보정하고, 보정된 LSPωh1_i( 및 ωh2_i)를 LSP영역에서 LPS영역으로 변환하는 것에 의해서 보정된 α파라미터인 필터계수 α1_i( 및 α2_i)를 생성하고 있다. 이렇게 해서 얻어진 LSP를 이용한 실시형태의 첫 번째의 이점은 LSP영역내의 안정성을 체크할 수 있기 때문에 안정된 필터(203)를 용이하게 보증하고 확보할 수 있다는 것이다. 특히, LSPω_i이 다음과 같은 순서관계를 만족시키는 경우 LSPω_i를 이용한 필터가 안정하게 된다는 것을 알 수 있다.

따라서, 식(5)을 만족시키는 LSP를 필터계수로서 사용하면, 각 i마다 독립적으로 α1_i및 α2_i의 생성 처리를 실행할 수 있게 되어 필터가 불안정하게 되는 일이 없다. 그 결과, 설계의 자유도가 높은 필터를 실현할 수 있다. 예를들면, 고차원의 차수의 강조의 정도를 비교적 큰 값으로 설정하는 것에 의해, 고주파성분을 향상시킬 수 있는 필터를 실현할 수 있게 된다. 반면, 자기상관계수 또는 α파라미터를 사용하여 필터계수를 생성하는 경우, 문헌1∼문헌3에 개시되어 있는 바와 같이, 자기상관영역 또는 α파라미터영역에 있어서는 이러한 파라미터에 따른 필터계수를 사용한 필터의 안정성을 보증 및 확보하기 어렵기 때문에, α1_i및 α2_i을 생성하기 위해서는 필터를 불안정하게 하지 않는다고 보증된 처리만 이용할 수 있다. 따라서, α파라미터 또는 자기상관을 사용한 필터계수를 사용하는 경우, 주파수축에 따른 강조의 정도의 조정 또는 각 i마다 실행된 보정처리를 실행하는 것에 의해 필터가 불안정하게 되게 된다.

LSP를 이용한 실시형태의 두 번째의 이점은 스펙트럼정보로서 LSP를 전송 또는 축적하는 시스템에 적용하기 쉽다는 것이다. 특히, 최근 개발되어 있는 음성부호화복호화시스템의 대부분은 LSP를 스펙트럼정보로서 사용하고 있다. 본 발명의 LSP를 이용한 실시형태는 이러한 종류의 음성부호화복호화시스템에 적용하기 쉽다. 즉, 스펙트럼의 재분석이나 파라미터의 변환이 필요없기 때문에, 문헌4에 개시되어 있는 바와 같이 멜 스케일드 켑스트럼의 입력에 따라서 필터계수를 결정하는 종래기술과는 달리, 이러한 종류의 시스템에 대한 양호한 접속성을 얻을 수 있다.

또, 상술한 설명에서 명확한 바와 같이, 본 발명의 LSP를 이용한 실시형태에 있어서의 필터(203)의 전달함수 H(z)는 필터계수 α1_i및 α2_i를 얻기 위한 LSP보정연산 및 LSP/LPC변환연산의 실행방법에 따라서 좌우된다. LSP보정연산의 바람직한 방법으로서는 첫째로 비례 분할보정을, 둘째로 인접차원간 거리확장을 각각 들 수 있다.

먼저, 비례분할보정은 0≤ν≤η1을 만족시키는 보정계수, ν, η을 비레분할비로서 사용해서 ω_i를 비례분할하는 방법이다. 제1도의 구성에 있어서 이 방법을 실시하는 경우, LSP보정부(216) 및 (217)은 예를들면 제4도에 도시한 바와 같이 비례분할연산부(220) 및 경사설정부(221)을 포함하는 기능구성으로 된다. 비례분할연산부(220)은 다음의 비례분할식

에 따라서, ωh1_i또는 ωh2_i를 생성한다. 경사설정부(221)은 선형 예측차수p에 따라서 비례분할연산부(220)에 ωf_i를 설정한다 또한, LSP보정부(216)에 사용하는 ωf_i와 LSP보정부(217)에 사용하는 ωf_i가 서로 다른 값이라도 상관없다. 또, 비례분할에 의한 ω_i의 보정을 제2도의 구성에 적용해도 좋다.

비례분할보정의 첫 번째의 이점은 양호한 포먼트 강조효과가 얻어진다는 것이다. 즉, 비례분할보정에 의해 생성된 ωh1_i및 ωh2_i를 LSP영역에서 LPC영역으로 변환하면, 포먼트가 완화되기 때문에 양호한 포먼트 강조효과가 얻어진다. 여기에서 포먼트가 완화된다라는 것은 포먼트의 피크가 작아진다, 즉 어느 정도의 산골짜기구조를 갖는 스펙트럼을 남긴 채 스펙트럼특성이 평탄화된다는 것을 의미한다.

비례분할보정의 두 번째의 이점은 각 주파수대역마다 합성음신호의 가공 정도를 변경하는 등, 사용자의 요구에 따른 자유도가 높은 설계특성을 확보하는 것이 가능하게 된다는 것이다. 특히, 사용자로 부터의 요구에 맞도록 ν 및 η에 부가해서 ωf_i을 설계하는 것에 의해, 필터(203)의 특성을 변경할 수 있다. 이 자유도의 높이는 허용가능한 스펙트럼경사의 범위내에서 종래의 기술을 상회하는 양호한 포먼트 강조효과를 용이하게 얻을 수 있다는 효과로 이어진다.

ωf_i의 설정방법으로는 몇가지의 방법이 있다. 첫 번째의 방법으로 평탄스펙트럼을 나타내는 LSP를 ωf_i로 설정하는 방법이 있다. 이 방법에 따라서 실현된 경사설정부(221)은 다음의 식

에 따라, ωf_i의 인접차원간 거리(=ωf_i-ωf_i-1)가 π/(p+1)이라는 일정값으로 되도록 ωf_i을 설정한다. 제5도에 식(7)을 따라서 ωf_i을 설정했을 때 일어날 수 있는 비례분할보정동작을 예로 해서 ωh1_i의 생성을 개념적으로 도시한 것이다. 단, 여기에서는 p=10을 가정하고 있다. 이 방법에는 경사설정부(221)의 기능이 간소된다는 이점이 있다.

두 번째의 방법으로서는 고정경사스펙트럼을 나타내는 LSP를 ωf_i로 설정하는 방법이 있다. 이 방법에 따라서 실현된 경사설정부(221)은 식(7)의 우변에 i에 의존하는 항 δ(i)를 부가한 다음의 식

에 따라, ωf_i의 인접차원간 거리가 선형적으로 증가내지 감소하도록 ωf_i를 설정한다. 이 경우, 비례분할보정동작이 어떻게 실행될지는 상술한 설명 및 제5도에 의한 개시로부터 당업자라면 용이하게 알 수 있을 것이다. 이 방법은 다음과 같은 이점을 갖는다. 첫째, 필터(203)의 특성에 대략 고정의 경사를 부여할 수 있기 때문에 ωf_i의 비례계수를 설정하는 것에 의한 명료도의 제어가 가능하게 된다는 이점이 있다. 둘째, 통상의 포먼트 강조처리와 거의 동시에 실행되는 고정적인 고주파강조처리의 특성을 이 필터(203)의 전달함수 H(z)에 포함시킬 수 있기 때문에 처리절차를 삭감할 수 있다는 이점이 있다. 셋째, 제4도에 있어서 점선으로 그의 기능블럭을 보정하고 δ(i)∼δ(ω_i)를 변경하는 것에 의해 명료도의 변동을 억제할 수 있다는 이점이 있다.

세 번째의 방법으로서는 평균잡음 스펙트럼을 나타내는 LSP를 예를들어 비례분할처리에 의해 보정한 LSP를 ωf_i로 설정하는 방법이 있다.

이러한 방법에 따라서 실현된 경사설정부(221)은 제6도에 도시한 바와 같이 다음의 식

에 따라, 평균잡음스펙트럼을 나타내는 LSPω_i'를 비례분할비 ν' 또는 η'에 따라서 보정하는 것에 의해 ωf_i를 설정한다. 이 방법의 이점은 잡음스펙트럼 이외의 음성스펙트럼을 약간 강조할 수 있기 때문에 요해성이 좋아진다는 것이다. 또한, ω_i'은 제6도에 도시한 판정부(222)에 의해 잡음구간이라 판정된 구간내의 ω_i를 평균연산부(223)에 의해 평균화하는 것에 의해 얻을 수 있다. 또, ω_i'에 실시하는 보정처리는 매우 극단적인 스펙트럼변동이 가공합성음신호에 부여되지 않도록 설정하는 것이 바람직하다. 예를들어, ωf_i가 매우 완화되면, 가공합성음신호에 극단적이 스펙트럼변동이 발생하지 않도록 할 수 있다.

네 번째의 방법으로서는 동작개시후 현재까지의 기간 또는 과거 소정 시간동안의 ω_i의 평균값을 비례분할처리등에 의해 보정한 LSP를 ωf_i로 설정하는 방법이다. 이 방법에 따라서 실현된 경사설정부(221)은 제7도에 도시한 바와 같이 과거의 LSPω_i의 평균값 ω_i'을 평균연산부(223)에 의해 구하고, 이 ω_i' 및 비례분할비 ν' 또는 η'에 따라서 또한 식(7b)에 따라서 ωf_i를 설정한다. 이 방법의 이점은 음성의 스펙트럼의 변동을 강조할 수 있기 때문에 요해성이 향상된다는 것이다. 또한, 이 방법을 실시할 때에도 너무 극단적인 스펙트럼변동이 가공합성음신호에 부여되지 않도록 ω_i'를 보정하는 것등을 고려하는 것이 바람직하다.

제8도는 식(6) 및 식(7)에 따라서 ω_i를 보정했을 때의 제1도의 필터(203)의 대수파워 대 주파수 스펙트럼특성을 도시한 것이다. 도면중, A∼D는 각각 합성부(202)의 특성=1/A(z), 필터(204)의 특성=1/A₁(z), 필터(205)의 역특성=1/A₂(z), 필터(203)의 전달함수 H(z)=A₂(z)/A₁(z)이고, ν=0.5, η=0.8로 하고 있다. 제8도에 도시한 바와 같이, 이 도면의 특성D는 제33도의 특성D에 비해서 스펙트럼의 산골짜기구조를 어느정도 남긴 채 평탄화시킨 것이다. 이와 같이 해서, 제8도에서는 제33도에 비해 양호한 포먼트강조효과를 얻을 수 있게 된다. 또, 이 도면의 특성D는 제34도의 특성D에 비해 스펙트럼의 산골짜기구조에 관한 왜곡이 적다. 또, 이 도면의 특성D에는 제35도의 특성B 및 C에서 관측된 최저주파수에서의 포먼트의 이동 및 중앙 2포먼트의 집적이라는 2종류의 현상은 나타나고 있지 않다. 또한, LSP영역에서 포먼트를 완화시키는 효과를 갖는 다른 처리를 비례분할처리 대신에 사용해도 마찬가지의 이점이 발생한다.

또, 본 발명자는 식(6) 및 (7)에 나타낸 방법에 따라서 ω_i를 보정한 이 실시형태의 필터(203)에서 얻어지는 가공합성음과 상술한 종래기술의 필터(203)에서 얻어지는 가공합성음을 청취해서 비교하였다. 그 결과, 이 실시형태의 음성가공필터 쪽이 명료도 열하의 억제면에서 종래의 필터보다 우수하고, 독특한 왜곡음이나 음색의 떨림도 발생하지 않는다는 것을 확인하였다.

LSP보정연산의 두 번째의 바람직한 방법인 인접차원간 거리확장은 제9도에 도시한 바와 같이 확장부(224)와 균등압축부(225)에 의해서 실시할 수 있다. 확장부(224)는 인접차원간 거리 s_i-s_i-1이 인접차원간 거리 ω_i-ω_i-1(제5도 참조)보다 넓게 되도록 ω_i를 시프트시켜 s_i를 생성한다(여기에서 s_i와 ω_i는 모두 LSP영역에 속한다). 균등압축부(225)는 s_i에서 ωh1_i를 구한다. 단, ω_i과 마찬가지로 s_i도 다차원 벡터인 점에 유의해야 한다. 이 방법을 제2도의 구성에 있어서 실시한 경우, 균등압축부(225)는 다음의 식

에 따라 ωh1_i를 구하고, 확장부(224)는 다음의 식

에 따라서 s_i를 구한다.

상기한 식(8)에서 알 수 있는 바와 같이, 인접차원간 거리확장은 식(9)의 특히 우변 제2항에 정의되어 있는 바와 같이, ω_i-ω_i-1과 th와의 비교결과에 따라서 i-1번째 차원과 i번째의 차원 사이에 적어도 거리 th를 확보하는 처리이다.이 처리에 의해 th-(ω_i-ω_i-1)에 상당하는 거리만큼 위쪽으로 i+1 이상의 차원에 관한 LSP가 일괄해서 시프트된다. 또, 식(8)의 우변에 포함되어 있는 인자 π/s_p+1은 ω_i에서의 LSP의 범위 0∼π와 s_i에서의 LSP의 범위 0∼s_p+1의 비에 따라서 인접차원간 거리를 균등압축하기 위한 인자이다. 또한, 본 발명은 이 정의식에 의해 한정되는 것은 아니고, 인접차원간 거리가 작은 부분을 확장하는 처리이면 다른 정의식도 채용할 수 있다. 또, 인접차원간 거리확장에 의한 ω_i을 제1도의 구성에 적용해도 좋다. 이 경우 필터(203)의 특성에 설계 자유도를 한층 증가시킬 수 있다.

제10도에는 이 방법을 제2도의 필터(203)에 적용한 경우의 대수파워대 주파수 스펙트럼특성을 도시한다. 도면중, A∼C는 각각 합성부(202)의 특성=1/A(z), 필터(204)(th=0.3)의 특성=1/A1(z;th=0.3), 필터(204)(th=0.4)의 특성=1/A1(z;th=0.4)이다. 이 도면에서 알 수 있는 바와 같이, 이 방법에 의하면 필터(204)만으로(즉, 필터(205) 또는 이것에 대응하는 구성요소 없이) 제33도 및 제34도에 비해 특별히 손색이 없는 특성이 얻어진다. 즉, 종래의 필터보다 적은 필터차수에서도 양호한 음성가공필터를 실현할 수 있고, 또 종래의 필터와 마찬가지의 포먼트 강조효과를 보다 적은 수의 구성요소로 실현할 수 있다. 또, 본 발명자는 이 실시형태에서 얻어지는 가공합성음과 각 종래기술에서 얻어지는 그것을 청취해서 비교하였다. 그 결과, 이 실시형태의 음성가공필터를 사용한 경우 종래의 필터에 비해 손색이 없는 음질이 얻어지는 것을 확인하였다.

비례분할보정 및 인접차원간 거리확장이라는 2종류의 보정방법은 서로 배타적이지 않으므로, 양자를 병용할 수 있다. 예를들면, LSP보정부(216) 및 (217)중 한쪽이 비례분할보정을 실행하고, 다른 쪽이 인접차원간 거리확장을 제어하도록 해도 좋다. 또는 제11도에 도시한 바와 같이, ω_i를 비례분할에 의해 보정하는 비례분할보정부(226) 및 LSP의 인접차원간 거리를 확장하는 인접차원간 거리확장부(227)을 전환수단(228) 및 (229)에 의해 선택적으로 사용하는 구성으로 해도 좋다. 비례분할보정부(226)은 상술한 제4도, 제6도, 제7도 중의 어떠한 구성이라도 좋다. 또는 제12도에 도시한 바와 같이, 비례분할보정부(226)과 인접차원간 거리확장부(227)을 캐스케이드 접속하는 구성이라도 좋다.

단일의 LSP보정부가 비례분할보정부(226) 및 인접차원간 거리확장부(227)을 병용하는 구성으로 하는 것에 의해, 필터(203)의 특성 설계의 자유도를 한층 증가시킬 수 있다. 또한, 제12도에 도시한 비례분할보정부(226) 및 인접차원간 거리확장부(227)의 순서를 바꾸어도 좋다. 물론, 비례분할보정 및 인접차원간 거리확장의 쌍방 또는 어느 한쪽과 다른 처리를 조합하는 것도 가능하다.

또, LSP보정부(216) 및 (217)에서 ω_i적응처리를 실행해도 좋다. 비례분할을 사용한 ω_i보정부처리를 ω_i적응으로 하는 방법으로서는 예를들면 ω_i공간을 서로 중복하지 않도록 여러개의 부분공간(이하, 카테고리라 한다)로 분할하고, 각 카테고리마다 ν, η을 마련하는(전환하는) 방법이 있다. 이 경우, 제1카테고리에 대응하는 LSP보정부(216-1)(또는 (217-1)), 제2카테고리에 대응하는 LSP보정부(216-2)(또는 (217-2)), … 및 제N 카테고리에 대응하는 LSP보정부(216-N)(또는 (217-N))과 같이, 각 카테고리마다 LSP보정부를 마련해도 좋다(제13도 참조). 또는, 단일의 LSP보정부(216)(또는 (217))을 카테고리 또는 i에 따라 ν, η을 전환하는 보정계수전환부(230)과 함께 마련해도 좋다(제14도 참조). ω_i적응처리의 이점은, 예를들어 포먼트강조를 강화하는 경우에 왜곡을 발생하는 카테고리와 같은 특정 카테고리에 대해서만 포먼트강조를 약하게 한다고 하는 유연한 처리가 가능하게 되는 것이다. 이것에 의해, 필터(203)의 특성을 균등하게 또는 왜곡을 거의 발생하지 않고 개선할 수 있게 된다. 또한, ω_i는 다차원 벡터이므로 여기에서 말하는 카테고리는 다차원벡터공간이다.

LSP보정부(216) 및 (217)에 있어서의 ω_i보정처리는 제15도에 도시한 바와같이 변환테이블(231)을 이용해서 실현하는 것이 바람직하다. 즉, ω_i와 ωh1_i또는 ωh2_i를 상관시키는 변환테이블(231)을 마련해 두고, ω_i가 부여되었을 때 LSP보정부(216) 또는 (217)이 ωh1_i또는 ωh2_i를 출력하도록 한다. 변환테이블(231)을 이용하는 경우의 이점은 처리시간의 단축이며, 이 이점은 ω_i보정처리의 원리식으로서 비교적 복잡한 식을 사용한 경우에 다소 현저하게 된다.

LSP보정부(216) 및 (217)에 있어서의 ω_i보정처리는 제16도에 도시한 바와 같이, 식(6)등에 의해 부여되는 ω_i보정특성을 이미 학습한 뉴럴네트워크(232)에 의해 실현해도 좋다. 뉴럴네트워크(232)를 이용하는 경우의 첫 번째의 이점은 처리시간의 단축이며, 이 이점은 ω_i보정처리의 원리식으로 비교적 복잡한 식을 사용한 경우에 더 현저하게 된다. 뉴럴네트워크(232)를 이용하는 경우의 두 번째의 이점은 변환테이블(231)을 이용하는 경우에 비해 변환테이블(231)을 기억할 필요가 없기 때문에 메모리용량을 절약할 수 있다는 것이다.

뉴럴네트워크(232)를 이용하는 경우의 세번째의 이점은 왜곡의 저하에 있다. 예를들면, 제13도 및 제14도에 도시한 ω_i적응실시형태에서는 카테고리경계에서의 ω_i의 약간의 변동에 기인한 ν, η의 급격한 변화에 의해, 가공합성음신호 또는 반가공합성음신호의 카테고리의 경계에 자주 왜곡이 나타난다. 이 왜곡은 특히 ω_i공간의 분할이 비교적 거친 경우에 현저하게 되기 쉽다. 제15도에 도시한 변환테이블에 있어서도 제13도 및 제14도의 실시형태에서와 마찬가지로 테이블 어드레스의 경계에 자주 왜곡이 발생한다. 반면, 제16도에 도시한 뉴럴 네트워크의 실시형태에 있어서는 ν, η에 급격한 변화를 일으키는 카테고리가 없기 때문에 왜곡이 발생하지 않는다.

본 발명의 LSP를 이용한 실시형태는 LSP필터링 및 LPC 역필터링만을 실행하는 구성에 한정되는 것은 아니고, LPC 이외의 파라미터를 필터계수로서 사용해도 좋다. 예를 들면, 제17도 및 제18도에 도시하는 바와 같이, ωh1_i( 및 ωh2_i)를 그대로 필터계수로서 사용하는 LSP필터(233)(및 LSP 역필터(234))를 사용해서 본 발명을 실현해도 좋다. 이러한 구성의 이점은 LSP/LPC 변환부(218) 및 (219)를 필요로 하지 않는다는 것이다.

b) PARCOR을 이용한 실시형태

제19도에 스펙트럼정보로서 PARCOR을 입력하는 실시형태를 도시한다. 이 실시형태는 LPC 합성필터(204) 및 LPC 역필터(205) 이외에 PARCOR보정부(235) 및 (236)과 PARCOR/LPC변환부(237) 및 (238)을 포함한다. PARCOR보정부(235)는 복호화부(201) 또는 변환부(215)에서 스펙트럼정보로서 PARCORψ1을 입력하고, 이 ψ_i를 보정하는 것에 의해 보정PARCORψh1_i을 생성한다. 마찬가지 방법으로, PARCOR보정부(236)도 보정된 PARCORψh2_i를 생성한다. PARCOR/LPC변환부(237)은 ψh1_i를 PARCOR영역에서 LPC영역으로 변환하는 것에 의해 LPC합성필터(204)의 필터계수 α1_i를 생성한다. PARCOR/LPC변환부(238)도 ψh2_i를 PARCOR영역에서 LPC영역으로 변환하는 것에 의해 LPC 역필터(205)의 필터계수 α2_i를 생성한다.

PARCOR보정부(235) 및 (236)은 예를 들면 0≤η≤ν1을 만족시키는 보정계수 ν 및 η을 사용해서, 다음의 식

에 따라, 각각 ψh1_i및 ψh2_i를 생성한다. 이와 같은 보정에 의해 PARCOR영역상에서 포먼트를 완화시킬 수 있다.

따라서, 이 실시형태에 의하면, 상기한 LPC를 이용한 실시형태와 마찬가지의 특성개선효과(포먼트강조효과나 상기 강조의 정도의 조정능력 등의 개선)를 얻을 수 있고, 또 사용자의 요구에 따라서 필터(203)의 특성을 자유롭게 조작하고 설정할 수 있게 된다. 물론, 본 발명은 식(10)에 의해 한정되는 것은 아니고, PARCOR영역내에서 포먼트를 완화시키는 것이라면 다른 처리를 채용해도 좋다. 또, PARCOR에 따라서 생성된 파라미터 또는 PARCOR을 필터계수로서 사용하는 필터에 대해서, 다음의 식

에 의해 안정 상태가 주어지므로, PARCOR영역의 안정성을 비교적 용이하게 보증하고 확보할 수 있게 된다.

즉, 식(11)이 안정하게 있으면, PARCOR이용 실시형태를 사용한 필터가 안정하게 된다. 따라서, 본 실시예에 따르면 필터의 설계자유도를 향상시킬 수 있게 된다. 예를들면, PARCOR보정처리로서 각 i마다 독립적으로 PARCORψ_i를 보정하는 처리를 사용할 수 있다. 게다가, 스펙트럼정보으로서 PARCOR을 전송내지 축적하는 시스템에 적용하는 경우에 스펙트럼의 재분석이나 파라미터의 변환이 불필요하므로, 양호한 접속성을 얻을 수 있다. 제20도에 제19도의 필터(203)의 대수파워 대 주파수 스펙트럼특성을 도시한다. 이 도면중, A∼D는 각각 합성부(202)의 특성=1/A(z), 필터(204)의 특성=1/A1(z), 필터(205)의 역특성=1/A2(z), 필터(203)의 특성=A2(z)/A1(z)이고, ν=0.98, η=0.9로 하고 있다. 제20도 및 제33도의 비교에서 알 수 있는 바와 같이, 이 실시형태에 의하면, 문헌1에 도시되어 있는 구성에 비해, 약간 스펙트럼의 산골짜기구조가 강하게 나타난다. 또, 본 발명자는 가공합성음의 청취비교에 의해서 이 실시형태의 필터(203)을 사용한 경우 독특한 왜곡음이나 음색의 떨림도 발생하지 않고 양호한 포먼트강조효과가 얻어지는 것을 확인하였다.

이 PARCOR을 이용한 실시형태의 세부적인 것은 LSP를 이용한 실시형태와 동일한 관점에서 구성할 수 있다는 것을 당업자라면 본원의 개시로부터 알 수 있을 것이다. 또, 제21도에 도시한 바와 같이 LPC 역필터링 및 이것에 관련된 구성요소를 생략하는 것이나 제22도에 도시한 바와 같이 PARCOR필터(239) 및 PARCOR 역필터(240)을 마련하고자 보정된 PARCORψh1_i및 ψh2_i를 그 필터계수로서 사용하는 구성으로 하는 것도 당업자라면 본원의 개시로부터 용이하게 생각해낼 수 있을 것이다.

c) LAR을 이용한 실시형태

제23도에 스펙트럼정보로서 LAR을 입력하는 실시형태를 도시한다. 이 실시형태는 LPC필터(204) 및 (205) 이외에 LAR보정부(241) 및 (242)와 LAR/LPC변환부(243) 및 (244)를 포함한다. LAR보정부(241)는 복호화부(201) 또는 변환부(215)로부터 스펙트럼정보로서 LARψ_i를 입력하고, 이 ψ_i을 보정하는 것에 의해 보정 LARψh1_i을 생성한다. 마찬가지의 방법으로, LAR보정부(242)도 보정LARψh2_i를 생성한다. LAR/LPC변환부(243)은 ψh1_i을 LAR영역에서 LPC영역으로 변환하는 것에 의해 LPC합성필터(204)의 필터계수 α1_i를 생성한다. LAR/LPC변환부(244)도 ψh2_i을 LAR영역에서 LPC영역으로 변환하는 것에 의해 LPC역필터(205)의 필터계수 α2_i를 생성한다.

LAR보정부(241) 및 (242)은 예를 들면 0≤η≤ν1을 만족시키는 보정계수 ν 및 η을 사용해서, 다음의 식

에 따라, 각각 ψh1_i및 ψh2_i를 생성한다. 이와 같은 보정에 의해 LAR영역상에서 포먼트를 완화시킬 수 있다.

따라서, 이 실시형태에 의하면, 상술한 LPC를 이용한 실시형태 및 PARCOR을 이용한 실시형태와 마찬가지의 특성개선효과(포먼트강조효과나 상기 강조의 정도의 조정능력 등의 개선)을 얻을 수 있고, 또 사용자의 요구에 따라서 필터(203)의 특성을 자유롭게 조작하고 설정할 수 있다. 물론, 본 발명은 식(12)에 의해 한정되는 것은 아니고, LAR영역내에서 포먼트를 완화시키는 것이라면 다른 처리를 채용해도 좋다. 또, LAR에 따라서 생성된 필터계수를 사용하면 필터의 안정성이 보증되고 확보되므로, 이 실시형태의 LAR보정처리는 필터의 안정성을 측면에 국한되지 않는다. 따라서, 이 실시형태에서는 필터의 설계 자유도가 종래의 것보다 높게 된다. 게다가, 스펙트럼정보으로서 PARCOR을 전송내지 축적하는 시스템에 적용하는 경우에 스펙트럼의 재분석이나 파라미터의 변환이 불필요하게 되므로, 양호한 접속성을 얻을 수 있다.

제24도는 제23도의 필터(203)의 대수파워 대 주파수 스펙트럼특성을 도시한 것이다. 이 도면중, A∼D는 각각 합성부(202)의 특성=1/A(z), 필터(204)의 특성=1/A1(z), 필터(205)의 역특성=1/A2(z), 필터(203)의 특성=A2(z)/A1(z)이고, ν=0.9, η=0.7로 하고 있다. 제24도 및 제33도의 비교에서 알 수 있는 바와 같이, 이 실시형태에 의하면, 스펙트럼의 산골짜기구조를 어느정도 남긴채 스펙트럼을 평탄화할 수 있어 문헌1에 도시되어 있는 구성에 비해 양호한 포먼트강조효과가 얻어진다. 또, 제34도에 비해서도 제24도는 스펙트럼의 산골짜기구조에 관한 왜곡이 적다. 또, 제35도의 특성B와 C의 비교에서 명백하게 되는 중앙 2포인트의 집적이라는 현상은 제24도에서는 나타나지 않는다. 본 발명자는 가공합성음의 청취비교에 의해서, 이 실시형태의 필터(203)을 사용한 경우 독특한 왜곡음이나 어떠한 음색의 떨림도 발생하지 않고 양호한 포먼트강조효과가 얻어지는 것을 확인하였다.

이 LAR를 이용한 실시형태의 세부적인 것을 LSP를 이용한 실시형태나 PARCOR을 이용한 실시형태와 동일한 관점에서 구성할 수 있다는 것은 당업자라면 본원의 개시로부터 알 수 있을 것이다. 또, 제26도에 도시한 바와 같이 LPC 역필터링 및 이것에 관련된 구성요소를 생략하는 것이나 LAR필터(239) 및 PARCOR역필터(240)을 마련하고 보정된 LARψh1_i및 ψh2_i를 그 필터계수로서 사용하는 구성으로 하는 것도 당업자라면 본원의 개시로부터 용이하게 생각해낼 수 있을 것이다. 또한, 제26도에는 보정LARψh1_i및 ψh2_i를 LAR영역에서 PARCOR영역으로 변환하기 위해, LPC/PARCOR변환부(246), (247)이 마련되어 있다. 일반적으로, LAR/PARCOR변환처리는 LAR/LPC변환보다 비교적 간단하고 용이하게 실행되므로, LAR/LPC변환부(243), (244)보다 적은 수의 회로 또는 적은 처리공정으로 LAR/PARCOR변환부(246), (247)을 실현할 수 있다. 따라서, 제27도의 실시형태에 따르면, 보다 짧은 기간내에 필터계수 α1_i및 α2_i를 전송할 수 있고, 또 제23도 및 제25도의 실시형태로부터 필터(203)에 의한 전체 처리를 감소시키는 것이 가능하게 된다.

d) 보유

상술한 LSP를 이용한 실시형태, PARCOR을 이용한 실시형태 및 LAR을 이용한 실시형태를 선택적으로 조합하는 것은 본원의 개시로부터 당업자라면 용이하게 생각해낼 수 있을 것이다. 또, 본 발명의 각 실시형태를 종래의 LPC를 이용한 장치와 조합하는 것도 본원의 개시로부터 당업자라면 용이하게 생각해낼 수 있을 것이다. 이들의 여러 가지 조합은 각 실시형태 단독으로는 실현할 수 없는 특성의 설계 자유도가 높은 필터(203)을 실현하는데 도움이 된다. 예를들면, 제27도에 도시한 바와 같이 필터(204)의 필터계수 α1_i를 문헌1과 마찬가지의 방법으로 규정해도 좋고, 필터(205)의 필터계수 α2_i를 PARCOR을 이용한 실시형태와 마찬가지의 방법으로 규정해도 좋다. 이러한 구성에서는 제33도의 특성D보다 스펙트럼경사가 적고, 제34도의 특성D보다 포먼트 근방의 왜곡이 적은 특성의 필터(203)이 얻어진다.

또, 필터(203)의 전 또는 후에 또는 필터(203)과 병렬로 다른 필터를 배치하고, 피치강조처리, 고주파수강조처리, 포먼트강조처리 등을 실행하는 구성을 채용해도 좋다.

이상, 본 발명은 상기 실시예에 따라서 구체적으로 설명하였지만, 이것에 한정되는 것은 아니고, 본 발명의 요지를 이탈하지 않는 범위내에서 여러 가지로 변경가능한 것은 물론이다.

Claims

필터계수로 규정되는 전달함수에 의해 합성음신호를 필터링하는 것에 의해 가공합성음신호를 생성하는 필터링수단 및 다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음성신호에 관한 스펙트럼정보에 따라서, 상기 스펙트럼정보에 따르고 또한 상기 합성음신호에 비해 상기 가공합성음신호의 포먼트특성이 강조되도록 상기 필터계수를 생성하는 필터계수생성수단을 포함하며, 상기 스펙트럼정보는 LSP정보, PARCOR정보 및 LAR정보중의 어느 것인가 하나인 것을 특징으로 하는 필터.
제1항에 있어서, 상기 필터계수가 LPC영역에 속하는 것을 특징으로 하는 필터.
제2항에 있어서, 상기 필터계수 생성수단은 상기 스펙트럼정보를 상기 소정영역내에서 보정하는 것에 의해 보정스펙트럼정보를 생성하는 보정수단 및 상기 보정스펙트럼정보를 상기 소정영역에서 LPC영역으로 변환하는 것에 의해 필터계수를 생성하는 수단을 포함하는 것을 특징으로 하는 필터.
제3항에 있어서, 상기 보정수단은 상기 가공합성음신호의 포먼트의 피크가 작게 되도록 상기 스펙트럼정보를 보정하는 평탄화수단을 포함하는 것을 특징으로 하는 필터.
제4항에 있어서, 상기 스펙트럼정보가 LSP정보이고, 상기 평탄화수단은 상기 스펙트럼정보가 속하는 영역과 동일한 영역에 속하는 참조정보와 상기 스펙트럼정보를 보정계수에 따라서 비례분할하는 것에 의해서 상기 보정스팩트럼정보를 생성하는 비례분할수단을 포함하는 것을 특징으로 하는 필터.
제5항에 있어서, 상기 비례분할수단은 고정된 스펙트럼경사가 상기 가공합성음신호에 부여되도록 상기 참조정보와 상기 스펙트럼정보를 비례 분할하는 것을 특징으로 하는 필터.
제5항에 있어서, 상기 비례분할수단은 평균잡음 스펙트럼을 반영한 스펙트럼경사가 상기 가공합성음신호에 부여되도록 상기 참조정보와 상기 스펙트럼정보를 비례 분할하는 것을 특징으로 하는 필터.
제5항에 있어서, 상기 비례분할수단은 상기 스펙트럼정보가 과거에 거쳐온 이력을 반영한 스펙트럼경사를 상기 가공합성음신호에 부여하기 위해 상기 참조 정보와 상기 스펙트럼정보를 비례 분할하는 것을 특징으로 하는 필터.
제4항에 있어서, 상기 스펙트럼정보가 PARCOR정보 또는 LAR정보 중의 어느 하나이고, 상기 평탄화수단은 상기 스펙트럼정보를 구성하는 여러 차원마다 상기 스펙트럼정보에 보정계수 또는 보정계수의 멱승을 곱하는 것에 의해서 상기 보정스펙트럼정보를 생성하는 수단을 포함하는 것을 특징으로 하는 필터.
제9항에 있어서, 상기 멱승이 상기 차원에 종속하는 것을 특징으로 하는 필터.
제3항에 있어서, 상기 스펙트럼정보가 LSP정보이고, 상기 보정수단은 상기 스펙트럼정보를 나타내는 여러 차원중 서로 인접하는 차원간의 거리를 확장하는 것에 의해서 상기 보정스펙트럼정보를 생성하는 거리확장수단을 포함하는 것을 특징으로 하는 필터.
제11항에 있어서, 상기 거리확장수단은 상기 서로 인접하는 차원간의 거리가 참조거리를 하회할 때, 이 거리를 상기 참조거리 이상으로 확장하는 확장수단 및 상기 서로 인접하는 차원간의 거리를 상기 확장수단에 의해 확장한 후, 상기 스펙트럼정보 전체의 크기가 확장전의 크기와 동일하게 되도록, 상기 거리를 상기 모든 인접하는 차원에 관하여 균등하게 압축하는 압축수단을 포함하는 것을 특징으로 하는 필터.
제3항에 있어서, 상기 스펙트럼정보가 LSP정보이고, 상기 보정수단은 상기 스펙트럼정보가 속하는 영역과 동일한 영역에 속하는 참조정보와 상기 스펙트럼정보를 보정계수에 따라서 비례분할하는 비례분할수단, 상기 스펙트럼정보를 나타내는 여러 차원중 서로 인접하는 차원간의 거리를 확장하는 거리확장수단 및 상기 비례분할수단 또는 상기 확장수단중의 어느 하나를 선택적으로 사용하는 것에 의해서 상기 보정스펙트럼정보를 생성하는 전환수단을 포함하는 것을 특징으로 하는 필터.
제3항에 있어서, 상기 스펙트럼정보가 LSP정보이고, 상기 보정수단은 상기 스펙트럼정보가 속하는 영역과 동일한 영역에 속하는 참조정보와 상기 스펙트럼정보를 보정계수에 따라서 비례분할하는 비례분할 수단, 상기 스펙트럼정보를 나타내는 여러 차원중 서로 인접하는 차원간의 거리를 확장하는 거리확장수단 및 상기 비례분할수단과 상기 확장수단을 병용하는 것에 의해 상기 보정스펙트럼정보를 생성하는 캐스케이드 접속수단을 포함하는 것을 특징으로 하는 필터.
제3항에 있어서, 상기 보정수단은 상기 스펙트럼정보를 상기 보정스펙트럼정보에 상관시켜 기억하는 변환테이블을 포함하고, 상기 변환테이블은 상기 스펙트럼정보의 공급에 따라서 생성될 보정스펙트럼정보를 생성하는 것을 특징으로 하는 필터.
제3항에 있어서, 상기 보정수단은 상기 스펙트럼정보를 상기 보정스펙트럼정보로 변환하는 능력을 학습에 의해 습득한 뉴럴 네트워크를 포함하고, 상기 뉴럴네트워크는 상기 스펙트럼정보의 공급에 따라서 생성될 보정스펙트럼정보를 생성하는 것을 특징으로 하는 필터.
제3항에 있어서, 상기 보정수단은 상기 소정영역을 분할해서 얻어지고 서로 중복되지 않는 여러개의 카테고리마다 각각 마련된 여러개의 카테고리 특정보정수단을 포함하고, 상기 여러개의 카테고리 특정보정수단의 각각은 상기 스펙트럼정보를 대응하는 카테고리내에서 보정하는 것에 의해서 보정스펙트럼정보를 생성하는 수단 및 상기 보정스펙트럼정보를 상기 소정영역에서 LPC영역으로 변환하는 것에 의해서 필터계수를 생성하는 수단을 포함하는 것을 특징으로 하는 필터.
제3항에 있어서, 상기 보정수단은 상기 스펙트럼정보를 보정계수에 따라 상기 소정영역내에서 보정하는 것에 의해서 보정스펙트럼정보를 생성하는 수단, 상기 보정스펙트럼정보를 상기 소정영역에서 LPC영역으로 변환하는 것에 의해서 상기 필터계수를 생성하는 수단 및 상기 소정영역을 분할해서 얻어지고 서로 중복하지 않는 상기 여러개의 카테고리중의 어느 곳에 상기 스펙트럼정보가 속하는지에 따라서 상기 보정계수를 조정하는 수단을 포함하는 것을 특징으로 하는 필터.
제1항에 있어서, 상기 필터계수는 LSP영역과 PARCOR영역 중의 어느 하나에 속하는 것을 특징으로 하는 필터.
제19항에 있어서, 상기 필터계수생성수단은 상기 스펙트럼정보를 상기 소정영역내에서 보정하는 것에 의해서 보정스펙트럼정보를 생성하는 보정수단 및 상기 보정스펙트럼정보를 상기 필터계수로서 상기 필터링수단에 공급하는 수단을 포함하는 것을 특징으로 하는 필터.
제1항에 있어서, 상기 필터링수단은 상기 가공합성음신호의 포먼트특성이 상기 합성음신호에 비해서 강조되도록 상기 전달함수의 분모를 실현하는 합성필터를 포함하는 것을 특징으로 하는 필터.
제21항에 있어서, 상기 필터링수단은 상기 합성필터에 의해서 상기 가공합성음신호에 부여되는 스펙트럼경사를 억제하는 역필터를 또 포함하는 것을 특징으로 하는 필터.
다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음성신호에 관한 스펙트럼정보에 따라서 합성음신호를 생성하는 수단, 필터계수로 규정되는 전달함수에 의해 합성음신호를 필터링하는 것에 의해서 가공합성신호를 생성하는 수단 및 상기 스펙트럼정보에 따라서, 상기 스펙트럼정보에 따르고 또한 상기 합성음신호에 비해 상기 가공합성음신호의 포먼트특성이 강조되도록, 상기 필터계수를 생성하는 수단을 포함하고, 상기 스펙트럼정보는 LSP정보, PARCOR정보 및 LAR정보 중의 어느 하나인 것을 특징으로 하는 음성합성장치.
다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음성신호에 관한 제1 스펙트럼정보에 따라서 합성음신호를 생성하는 수단, 상기 제1스펙트럼정보를 상기 소정영역과는 다른 영역에 속하는 제2스펙트럼정보를 변환하는 수단, 필터계수를 규정되는 전달함수에 의해 합성음신호를 필터링하는 것에 의해서 가공합성음신호를 생성하는 수단 및 상기 제2스펙트럼정보에 따라서, 상기 제2스펙트럼정보에 따르고 또한 상기 합성음신호에 비해 상기 가공합성음신호의 포먼트특성이 강조되도록, 상기 필터계수를 생성하는 수단을 포함하고, 상기 스펙트럼정보는 LSP정보, PARCOR정보 및 LAR정보 중의 어느 하나인 것을 특징으로 하는 음성합성장치.
다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음성신호에 관한 제1스펙트럼정보에 따라서 합성음신호를 생성하는 수단, 상기 합성음신호를 분석하는 것에 의해서 제2스펙트럼정보를 생성하는 수단, 필터계수로 규정되는 전달함수에 의해 합성음신호를 필터링하는 것에 의해서 가공합성음신호를 생성하는 수단 및 상기 제2스펙트럼정보에 따라서, 상기 제2스펙트럼정보에 따르고 또한 상기 합성음신호에 비해 상기 가공합성음신호의 포먼트특성이 강조되도록, 상기 필터계수를 생성하는 수단을 포함하고, 상기 스펙트럼정보가 LSP정보, PARCOR정보 및 LAR정보 중의 어느 하나인 것을 특징으로 하는 음성합성장치.
입력음성신호를 분석하는 것에 의해서, 다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음성신호에 관한 스펙트럼정보를 생성하는 수단, 상기 스펙트럼정보를 축적 또는 전송하는 수단, 축적 또는 전송된 상기 스펙트럼정보에 따라서 합성음신호를 생성하는 수단, 필터계수로 규정되는 전달함수에 의해 상기 합성음신호를 필터링하는 것에 의해서 가공합성음신호를 생성하는 수단 및 상기 스펙트럼정보에 따라서, 상기 스펙트럼정보에 따르고 또한 상기 합성음신호에 비해 상기 가공합성신호의 포먼트특성이 강조되도록, 상기 필터계수를 생성하는 수단을 포함하고, 상기 스펙트럼정보는 LSP정보, PARCOR정보 및 LAR정보 중의 어느 하나인 것을 특징으로 하는 음성축적전송시스템.
입력음성신호를 분석하는 것에 의해서, 다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음성신호에 관한 제1스펙트럼정보를 생성하는 수단, 상기 제1스펙트럼정보를 축적 또는 전송하는 수단, 축적 또는 전송된 상기 제1스펙트럼정보에 따라서 합성음신호를 생성하는 수단, 상기 제1스펙트럼정보를 상기 소정영역과는 다른 영역에 속하는 제2스펙트럼정보로 변환하는 수단, 필터계수로 규정되는 전달함수에 의해 상기 합성음신호를 필터링하는 것에 의해서 가공합성음신호를 생성하는 수단 및 상기 제2스펙트럼정보에 따라서, 상기 제2스펙트럼정보에 따르고 또한 상기 합성음신호에 비해 상기 가공합성음신호의 포먼트 특성이 강조되도록, 상기 필터계수를 생성하는 수단을 포함하고, 상기 스펙트럼정보는 LSP정보, PARCOR정보 및 LAR정보 중의 어느 하나인 것을 특징으로 하는 음성축적전송시스템.
입력음성신호를 분석하는 것에 의해서, 다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음성신호에 관한 제1스펙트럼정보를 생성하는 수단, 상기 제1스펙트럼정보를 축적 또는 전송하는 수단, 축적 또는 전송된 상기 제1스펙트럼정보에 따라서 합성음신호를 생성하는 수단, 상기 합성음신호를 분석하는 것에 의해서 제2스펙트럼정보를 생성하는 수단, 필터계수로 규정되는 전달함수에 의해 상기 합성음신호를 필터링하는 것에 의해서 가공합성음신호를 생성하는 수단 및 상기 제2스펙트럼정보에 따라서, 상기 제2스펙트럼정보에 따르고 또한 상기 합성음신호에 비해 상기 가공합성음신호의 포먼트특성이 강조되도록, 상기 필터계수를 생성하는 수단을 포함하고, 상기 스펙트럼정보는 LSP정보, PARCOR정보 및 LAR정보 중의 어느 하나인 것을 특징으로 하는 음성축적전송시스템.
필터계수로 규정되는 전달함수에 의해 합성음신호를 필터링하는 것에 의해서 가공합성음신호를 생성하는 제1스텝 및 상기 제1스텝 이전에 실행되며, 다차원 벡터의 형태로 표현되고 소정영역에 속하며 또한 입력음성신호에 관한 스펙트럼정보에 따라서, 상기 스펙트럼정보에 따르고 또한 상기 합성음신호에 비해 상기 가공합성음신호의 포먼트특성이 강조되도록, 상기 필터계수를 생성하는 제2스텝을 포함하고, 상기 스펙트럼정보는 LSP정보, PARCOR정보 및 LAR정보 중의 어느 하나인 것을 특징으로 하는 음성가공방법.