KR100477224B1

KR100477224B1 - 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소코딩 방법

Info

Publication number: KR100477224B1
Application number: KR10-2002-0059058A
Authority: KR
Inventors: 이재형
Original assignee: 에스엘투 주식회사
Priority date: 2002-09-28
Filing date: 2002-09-28
Publication date: 2005-03-17
Also published as: KR20040028008A

Abstract

본 발명은 위상 정보 저장 및 검색 방법 및 이를 이용한 음소 코딩 방법에 관한 것으로서, 보다 상세하게는 유닛 접합 방식 음성 합성기에 의한 음성 합성에 있어서 음소의 코딩 시에 그 음소의 위상 정보를 보존하고, 디코딩 시에 보존된 위상 정보를 복원함으로써 음소 간 경계면에서의 위상 불연속을 방지하여 단위음 데이터베이스의 크기를 대폭 감소시키면서도 고품질의 합성음을 제공할 수 있는 위상 정보 저장 및 검색 방법 및 이를 이용한 음소 코딩 방법에 관한 것이다.

Description

위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소 코딩 방법{METHOD FOR STORING AND SEARCHING PHASE INFORMATION AND CODING A SPEECH UNIT USING PHASE INFORMATION}

본 발명은 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소 코딩 방법에 관한 것으로서, 보다 상세하게는 유닛 접합 방식 음성 합성기에 의한 음성 합성에 있어서 음소의 코딩 시에 그 음소의 위상 정보를 보존하고, 디코딩 시에 보존된 위상 정보를 복원함으로써 음소 간 경계면에서의 위상 불연속을 방지하여 단위음 데이터베이스의 크기를 대폭 감소시키면서도 고품질의 합성음을 제공할 수 있는 위상 정보 저장 및 검색 방법 및 이를 이용한 음소 코딩 방법에 관한 것이다.

음성은 인간의 가장 자연스러운 의사 소통 수단이면서 정보 전달 수단이자, 언어를 구현하는 수단으로서 인간이 내는 의미 있는 소리이다.

인간과 기계 사이의 음성을 통한 통신 구현에 대한 시도는 과거부터 꾸준히 발전되어 왔는 바, 더욱이 최근 음성 정보를 효과적으로 처리하기 위한 음성 정보 처리 기술(speech information technology;SIT) 분야가 괄목할 만한 발전을 이룩함에 따라 실생활에도 속속 적용이 되고 있다.

이러한 음성 정보 처리 기술을 크게 분류하면, 음성 인식(speech recognition), 음성 합성(speech synthesis), 화자 인증(speaker identification and verification), 음성 코딩(speech coding) 등의 카테고리로 분류될 수 있다.

음성 인식은 발화된 음성을 인식하여 문자열로 변환하는 기술이고, 음성 합성은 문자열을 음성 분석에서 얻어진 데이터나 파라미터를 이용하여 원래의 음성으로 변환하는 기술이며, 화자 인증은 발화된 음성을 통하여 발화자를 추정하거나 인증하는 기술이며 음성 코딩은 음성 신호를 효과적으로 압축하여 부호화하는 기술이다.

이 중에서, 음성 합성 기술의 발전 과정을 간단히 살펴보면, 초기의 음성 합성은 대부분 기계 장치 또는 전자회로를 이용하여 인간의 발성기관을 흉내내는 구조를 채택하였다. 예를 들어, 18세기 볼프강 폰 켐펠렌(Wolfgang von Kempelen)이라는 자는 고무로 만들어진 입과 콧구멍을 가지며 성도의 변화를 흉내낼 수 있도록 한, 풀무로 만든 음성 합성 기계를 고안한 바 있다. 이후, 전기적 분석 방법을 이용한 음성 합성 기술로 발전하여, 1930년대에는 더들리(Dudley)가 초기 형태의 보코더(vocoder)를 선보이기도 하였다.

오늘날에는 컴퓨터의 급속한 발달에 힘입어, 컴퓨터 기반 음성 합성 방식이 음성 합성 방식의 주류를 이루게 되었으며, 시스템 모델 방식(조음 합성 (articulary synthesis) 등)이나 신호 모델 방식(규칙기반 포만트 합성 또는 단위음 결합 합성) 등의 다양한 방식이 개발되고 있다.

특히, 최근의 음성 합성 기술에서는 고품질의 음성을 생성하기 위하여, 미리 대규모의 단위음 데이터베이스를 구축하여 두고, 각각의 주어진 텍스트에 대하여 가장 적절한 음성 단위음들을 이 데이터베이스에서 선택하여 연결함으로써 음성을 합성하는 유닛 접합 방식 음성 합성기(Unit Selection-Based TTS)가 주로 사용되고 있다.

도 1은 전형적인 유닛 접합 방식 음성 합성기에 의한 음성 합성 과정을 나타낸 흐름도이다.

유닛 접합 방식 음성 합성기는 최근들어 각광받고 있는 음성 합성기로서, 작은 음성 신호의 단편, 즉 음소(unit) 또는 단위음을 단위음 데이터베이스로 구축하여 저장하고, 특정 문서의 음성으로의 변환을 위하여 음성 합성을 수행하여야 하는 경우에, 합성의 대상이 되는 문서를 언어처리부 및 운율생성부의 처리에 의하여 생성된 운율 정보를 바탕으로 상기 단위음 데이터베이스에 저장된 단위음 중에서 최적의 단위음들을 선택하고 이들을 결합함으로써 합성음을 생성하는 방식의 음성합성기이다.

유닛 접합 방식 음성 합성기에 있어서는 단위음 데이터베이스의 크기, 즉 저장된 단위음 데이터의 수가 증가할수록 더욱 고품질의 자연스러운 합성음을 생성할 수 있으므로, 종래의 규칙 기반 음성 합성기에 비하여 월등한 성능을 가지는 장점이 있다. 그러나, 이와 같은 장점은 동시에, 유닛 접합 방식 음성 합성기에서 보다 나은 품질의 자연스러운 합성음을 생성하기 위하여는 더욱 많은 기억장치 공간을 필요로 한다는 단점으로 작용하기도 한다. 예를 들어, 오늘날 상용화되어 있는 유닛 접합 방식 음성 합성기의 경우에는 적어도 400메가바이트에서 많게는 2기가바이트까지 이르는 단위음 데이터베이스를 사용하고 있다.

따라서, 초보적인 수준을 넘어선 본격적인 고품질의 음성 합성기를 구현하기 위하여는 아직까지 워크스테이션 등의 고성능 컴퓨터 시스템의 지원이 필수적이므로, 개인용 컴퓨터(PC) 또는 개인 휴대 정보 단말기(PDA) 등의 소규모 컴퓨터 시스템 또는 전자사전 등 기타 소형 전자 기기에 장착되기에는 큰 무리가 따르고 있다.

한편, 유닛 접합 방식 음성 합성기의 이와 같은 문제점, 즉 데이터베이스의 크기가 지나치게 크다는 문제점을 해결하기 위한 방편의 한 가지로서 데이터베이스에 저장되는 각 단위음 데이터의 크기를 줄이는 방법이 있는 바, 이는 곧 음성 코딩 기술의 문제와 관련된다.

음성 코딩 기술(Speech Coding Technology)은 수많은 음성 정보 처리 기술(Speech Information Technology;SIT) 중에서 비교적 오랜 역사를 가지고 있는 기술이다. 또한, 실생활에서도 이동통신기기의 음성데이터 송수신, 대용량 음성 데이터베이스의 압축, 인터넷을 통한 음성데이터 전송(Voice over Internet Protocol;VoIP) 등의 다양한 분야에서 일찍부터 적용되어 왔다.

특히, 음성 코딩 분야는 음성 데이터의 압축율 및 그 용도에 따라 이를 규율하는 다양한 국제표준이 제정되어 있다는 점에서, 음성 인식(Speech Recognition) 또는 음성 합성(Speech Synthesis) 등의 다른 분야와 다른 특성을 가지고 있다.

압축율의 관점에서 본 주요한 음성 코딩 표준으로는 2:1의 압축율을 가지는 G.711 A0law & ??-law 표준, 최대 8:1의 압축율을 가지는 G.726 ADPCM 표준, 8:1의 압축율을 가지는 G.728 LD-CELP, 16:1의 압축율을 가지는 G.729 CS- ACELP 표준, 24:1의 압축율을 가지는 MPC-MLQ 표준, 27:1의 압축율을 가지는 FS-1016 DoD-CELP 표준 및 53:1의 압축율을 가지는 FS-1015 LPC-10E 표준 등이 현재까지 제정된 바 있다.

일반적으로 대부분의 음성 정보 처리 분야에서는 음성 신호로부터 원하는 모델 파라미터를 정확하게 추정하는 부분이 공통적으로 적용된다. 음성 코딩 분야의 경우, 음성 코딩에서는 전송율을 최소화함으로써 압축율을 높이는 것이 가장 중요한 목표이기 때문에, 음성 신호로부터 정확한 모델 파라미터를 추정하는 것은 물론, 추정된 모델 파라미터를 최소한의 비트(bit) 수만으로 양자화(quantization)하는 것이 매우 중요하다.

대개, 음성 신호는 이를 언어 정보 및 음원 정보의 요소로 나누어, 이들 각각이 스펙트럼 포락(spectral envelope) 및 여기신호(excitation signal)에 대응되도록 모델링하고, 이 두 가지 정보를 각각 다른 형태의 모델 파라미터로 변환하여 양자화함으로써 음성 코딩이 수행된다.

먼저, 스펙트럼 포락의 경우에는 주로 본래의 음성신호(original speech signal)에 선형예측(Linear Prediction;LP) 분석을 적용하여 선형예측계수(Linear Prediction Coefficient;LPC) 또는 LSF(Line Spectrum Frequency) 계수로 나타내어지거나, 또는 고속 푸리에 변환 (Fast Fourier Transform;FFT), 이산 코사인 변환(Discrete Cosine Transform;DCT) 등의 직접적인 주파수 영역으로의 변환을 사용하여, 이로부터 직접 포락(envelope)을 구하게 된다. 이 포락은 인간의 성도를 모델링하는 것으로 생각할 수 있으며, 인간의 성도는 입력 신호의 위상이 시스템을 통과한 후에도 본래의 위상에서 거의 변하지 않는 최소 위상(Minimum Phase) 모델로 가정하는 것이 타당한 것으로 간주되어왔다. 따라서, 스펙트럼 포락을 구할 경우, 각 주파수 성분의 크기 정보는 중요하게 다루게 되지만, 위상(phase) 정보는 중요한 파라미터로 취급되지 아니하고 흔히 무시되어 왔다.

다음으로, 여기 신호의 경우는 음성신호가 유성음인 경우와 무성음인 경우를 나누어 생각해 볼 수 있다.

유성음의 경우에는 폐에서 생성된 공기압이 성대를 통과하며 만들어지는 주기적인 공기의 펄스를, 무성음의 경우에는 벌어진 성대를 통과하는 공기의 마찰음으로 해석할 수 있다. 이 신호는 이상적인 경우 일정 주기의 펄스의 연속 또는 백색 잡음으로 나타내어지며, 많은 코딩 알고리즘의 경우 이 펄스 역시 Long Term Prediction 등의 방법을 사용하여 표현에 필요한 비트(bit) 수를 감소시킨다. 여기 신호는 결국 펄스의 주기, 각 펄스의 크기와 위상 정보로 표현할 수 있는데, 인간의 청각기관(귀)은 위상 정보가 연속되어 있기만 하면 소리의 인지에 영향을 받지 않는 특성을 가지고 있으므로, 대부분의 방법들에서 위상 정보는 별도의 공간을 할당하여 인코딩하지 않고 연속된 프레임 상에서 자연스럽게 연속되게 하거나, 또는 디코딩 시에 임의로 연속된 위상 정보를 생성하여 왔다.

이러한 종래 기술에 의한 음성 코딩 방법들의 가장 주요한 목적은 음질의 손실을 최소화하면서 전송에 필요한 비트 수를 줄이는 것이었다. 따라서, 대부분의 코딩 방법의 경우, 음질에 큰 영향을 주지 않는 위상 정보를 인코딩 과정에서 제거하였던 것이다.

그러나, 대용량의 단위음 데이터베이스에서는 이처럼 단위음에서 위상 정보를 제거하고 인코딩을 하게 되면, 이들 단위음을 각각 독립적으로 디코딩하여 접합하는 경우에 단위음 간의 경계면에서 위상의 불연속이 일어나게 되며, 이는 유닛 접합 방식 음성 합성기에 의하여 생성된 합성음에서 울렁이는 소리 또는 클릭 소리를 유발시키는 문제점을 야기하였다. 결국, 대용량 단위음 데이터베이스를 가지는 음성 합성기에 있어서 단위음 데이터베이스에 음성 코딩 기술을 적용시키는 것이 곤란하여, 단위음 데이터베이스의 정보를 적절히 압축할 수가 없는 문제점이 대두된 것이다.

이에, 유닛 접합 방식 음성 합성기에 의한 음성 합성에 있어서, 단위음 데이터베이스에 음성 코딩 기술을 적용하여 데이터베이스의 크기를 압축하면서도 음소 간의 경계면에서 위상의 불연속이 일어나지 않는 고품질의 합성음을 생성할 수 있는 음소 코딩 방법의 발명에 대한 요청이 그동안 꾸준히 제기되어 왔다.

본 발명은 상기와 같은 요청에 부응하여 착안된 것으로서, 단위음 데이터베이스에 저장되어 있는 각 음소로부터 위상정보를 추출하여 저장한 후 이를 검색하여 다시 손실없이 복원할 수 있는 단위 음소의 위상 정보 저장 및 검색 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 상기 단위 음소의 위상 정보 저장 및 검색 방법을 이용하여, 서브밴드 코드여기 선형예측 부호화 기반의 음성 합성에 있어서 음소의 코딩 시에 그 음소의 위상 정보를 보존하고, 디코딩 시에 보존된 위상 정보를 복원함으로써 음소 간 경계면에서의 위상 불연속을 방지하여 단위음 데이터베이스의 크기를 대폭 감소시키면서도 고품질의 합성음을 제공할 수 있는 위상 정보를 이용한 음소 코딩 방법을 제공하는 것을 다른 목적으로 한다.

상기와 같은 목적을 달성하기 위하여 본 발명에 의한 단위 음소의 위상 정보 저장 및 검색 방법은, 위상 정보 저장단계와 위상 정보 검색단계를 포함하며,

상기 위상 정보 저장단계는, 원본 단위음 데이터베이스에 저장되어 있는 각 음소에 대하여, 각 음소를 구성하는 프레임 중 최초 프레임과 최후 프레임으로부터 이산 푸리에 변환에 의하여 위상 정보를 추출하는 단계와, 추출된 상기 위상 정보 중에서 저주파수 대역의 위상 정보를 선택하는 단계와, 상기 최초 프레임의 데이터 중 최초의 약 8ms의 데이터의 위상 정보 및 상기 최후 프레임의 데이터 중 최후의 약 8ms의 위상 정보를 저장하는 단계를 더 포함하며,

상기 위상 정보 검색단계는, 디코딩된 음소 데이터에 저장된 각 음소에 대한 상기 위상 정보를 검색하는 단계와, 상기 각 음소에 대하여 검색된 상기 위상 정보를 손실 없이 복원하는 단계를 더 포함하여 이루어지는 것을 특징으로 한다.

또한, 본 발명에 의한 위상 정보를 이용한 음소 코딩 방법은, 음소 인코딩 단계와 음소 디코딩 단계를 포함하며,

상기 음소 인코딩 단계는, 원본 단위음 데이터베이스에 저장되어 있는 각 음소에서 포락(envelope) 정보를 추출하는 포락압축 단계와, 상기 음소에서 PSSM 방법을 이용하여 위상 정보를 추출하는 위상추출 단계 및 각 음소 별로 상기 포락 정보 및 상기 위상 정보를 압축 단위음 데이터베이스에 저장하는 음소저장 단계를 더 포함하고,

상기 음소 디코딩 단계는, 상기 압축 단위음 데이터베이스에 저장된 각 음소마다의 상기 포락 정보를 이용하여 음소의 포락을 복원하는 포락복원 단계와, 상기 위상 정보로부터 PSSM 방법을 이용하여 위상을 복원하는 위상복원 단계 및 음소 간 인접부의 음성 신호의 에너지를 보간하는 음소보간 단계를 더 포함하여 이루어진다.

이 때, 상기 음소 인코딩 단계의 상기 포락압축 단계는, 각 음소를 구성하는 프레임 중 최초 프레임의 피치 정보를 어댑티브 코드북에 추가하여 상기 최초 프레임의 피치 정보가 주 펄스의 위치 정보와 크기 정보를 포함하고, 각 음소를 구성하는 프레임 중 최후 프레임의 피치 정보가 그 음소에 연결되는 다음 음소에 관한 정보를 포함하도록 하여 포락을 압축하는 것이 바람직하다.

또한, 상기 음소 디코딩 단계의 상기 포락복원 단계는, 어댑티브 코드북의 초기값에 별도 저장된 피치 정보를 입력하고, 압축된 포락의 최후 프레임에 연결되는 다음 음소에 관한 정보까지 복원하는 것이 바람직하다.

나아가, 상기 음소 디코딩 단계의 상기 음소보간 단계는, 연속하는 두 음소가 모두 유성음인 경우에, 두 음소의 에너지 비율을 구하고, 보간 함수에 의한 보간 에너지값을 구하여 두 음소가 연결되는 부분의 음성 신호의 에너지를 보간하는 것이 바람직하다.

이하 첨부된 도면을 참조하여 더욱 상세하게 설명하기로 한다.

본 발명에 의한 위상 정보를 이용한 음소 코딩 방법은, 별도로 저장되어 있는 위상 정보를 이용하여 디코딩된 신호의 시작 부분과 끝 부분의 위상 정보를 원래 신호의 위상과 동일하게 맞추어 주는 원리를 이용하고 있다.

이를 위하여, 신호의 위상을 직접 조절하거나 생성하는 방법을 생각할 수도 있으나, 신호의 위상을 직접 조절,변경하거나 생성함으로써 구현된 합성음은 음질이 저하되는 문제가 발생하게 된다.

따라서 본 발명에서는 위상을 직접 조절하거나 생성하지 않고, 원래의 음소보다도 앞뒤로 약간씩 더 데이터를 인코딩하여, 이 부가적인 데이터로부터 원하는 위상을 가지는 부분의 위치를 정확히 찾아내도록 하였고, 이를 단위 음소의 위상 정보 저장 및 검색 방법(Phrase Store and Search Method:PSSM 방법)이라 명명하였다. 이 방법을 사용하면, 1 프레임 정도의 추가 데이터를 인코딩하는 것만으로도 음질의 저하 없이 위상 데이터를 보존할 수 있게 된다.

이하, 본 명세서에서는 본 발명에 의한 단위 음소의 위상 정보 저장 및 검색 방법을 단지 PSSM 방법이라 칭하기로 한다.

도 2는 본 발명에 의한 위상 정보를 이용한 음소 코딩 방법이 적용된 음성 합성 방법의 일례를 나타낸 흐름도이다.

도 2에 나타난 바와 같이, 본 발명에 의한 위상 정보를 이용한 음소 코딩 방법은, 독립적으로 쓰이는 것이기보다는 종래의 유닛 접합 방식 음성 합성기가 가지는 단위음 데이터베이스의 데이터를 압축하기 위하여 부가적으로 적용되는 형식으로 실시된다.

즉, 본 발명에 의한 위상 정보를 이용한 음소 코딩 방법(20)은, 종래의 단위음 데이터베이스, 즉 원본 단위음 데이터베이스(200)에 저장된 각각의 음소를 그 음소의 위상 정보를 제거하지 아니하는 상태로 인코딩하여(21), 원본 단위음 데이터베이스(200)보다 크기가 대폭 저감된 압축된 단위음 데이터베이스(210)에 저장하였다가, 유닛 접합 방식 음성 합성의 과정에서의 특정 음소 요청에 응답하여, 압축된 단위음 데이터베이스(210)에 저장된 압축된 음소를 디코딩하고(221) 이를 출력하도록 하고 있다.

즉, 본 발명에 의한 위상 정보를 이용한 음소 코딩 방법은 크게 음소 인코딩 단계와 음소 디코딩 단계로 구분되며, 각각의 단계를 더욱 구체적으로 설명하면 이하와 같다.

도 3은 음소 인코딩 단계를 더욱 구체적으로 나타낸 흐름도이다.

음소 인코딩 단계는, 원본 단위음 데이터베이스에 저장되어 있는 각 음소에서 포락(envelope) 정보를 추출하는 포락압축 단계(30)와, 상기 음소의 여기 신호(excitation signal)의 위상 정보를 추출하는 위상추출 단계(31) 및 각 음소 별로 상기 포락 정보 및 상기 위상 정보를 압축 단위음 데이터베이스에 저장하는 음소저장 단계(32)를 포함하여 이루어진다.

상기 포락압축 단계(30)에서는, 고음질의 16000Hz 음성 데이터를 압축하기 위하여 서브밴드 코드여기 선형예측 방식 부호화(sub-band code excited linear predictive coding;sub-band CELP) 방식을 사용한다.

기존의 음성 코딩 방법은 대부분 전화 회선을 통한 음성 데이터를 압축하는 것이 목표였기 때문에 8000Hz의 음성 데이터를 압축하는 데에 최적화되어 있었다. 그러나, 고품질의 합성음을 생성하기 위해서는 16000Hz 이상의 샘플링 레이트(sampling rate)가 필수적이다.

따라서, 적절한 대역 통과 필터(band-pass filter)를 이용하여 입력된 음성 데이터를 0Hz ~ 4kHz 부분과 4kHz ~ 8kHz 부분으로 분리하고, 이들을 각각 압축하게 된다. 분석 프레임의 크기는 20ms로 한다.

0 ~ 4kHz 대역의 음성 데이터는 종래의 코드여기 선형예측 부호화(code excited linear predictive coding;CELP) 방법을 그대로 사용하여 10차 LSF 계수를 구하고, 또한 3-tap 선형예측 부호화 방법을 이용하여 5ms 단위의 서브프레임으로 피치를 예측하여, 이 피치 정보를 어댑티브 코드북(adaptive codebook)을 이용하여 별도로 저장한 후, 남은 여기 신호를 구한다.

4kHz ~ 8kHz 대역의 음성 데이터는, 0 ~ 4kHz 대역의 음성 데이터에서와 마찬가지로 10차 LSF 계수를 구하되, 고주파수 대역이므로 피치 정보는 중요하지 않으므로 예측할 필요가 없이 나머지를 모두 여기 신호로 취급한다.

각 주파수대 별로 LSF 계수, 피치 정보를 양자화하고, 각각의 여기 신호는 코드북을 이용하여 양자화(quantization)한다.

본 발명에 의한 포락압축 단계(30)에서 특기할 만한 점은, 첫째, 기존의 음소 코딩 방법에서와 달리 압축되는 음성 데이터의 대상이 묵음 구간으로부터 시작하는 음성이 아니고, 둘째, 압축의 대상이 되는 음성 데이터가 불과 50ms ~ 500ms의 지속시간을 가지는 약 3 ~ 25프레임의 짧은 음소인 점으로 인하여, 인코딩되는 음소의 시작 부분과 끝 부분에서 특별한 처리를 해준다는 점이다.

일반적인 종래의 코딩 방법에 의하면, 묵음 구간에서 시작하지 않는 음성 신호를 인코딩하는 경우에는 특히 피치 예측부에서 오류가 발생하게 되고, 결국 디코딩 결과에서 마치 음소의 처음 부분이 묵음에서 시작한 것과 같은 결과를 내게 된다. 또한, 최후 프레임의 경우 분석에 필요한 충분한 길이의 음성이 제공되지 않는데, 이 구간을 묵음으로 채우는 경우에도 역시 디코딩된 음성 신호의 마지막 부분에서 신호의 길이가 줄어들고 오류가 커지게 된다.

이를 해결하기 위하여, 음소의 최초 프레임의 피치 정보의 경우, 어댑티브 코드북을 사용하여 인코딩하지 않고, 다중 펄스 선형예측 부호화(multi-pulse linear predictive coding; multi-pulse LPC) 방식에서와 마찬가지로 주 펄스의 위치와 그 크기를 기억해 놓는다. 또한, 최후 프레임의 경우, 프레임의 남는 공간에 실제 그 음소에 연결되는 다음 음소의 정보를 채워서 인코딩하도록 하였다.

다음으로, 위상추출 단계(31)에서는 음소의 여기 신호(excitation signal)의 위상 정보를 추출한다.

앞서 설명한 바와 같이, 본 발명에 의한 위상 정보를 이용한 음소 코딩 방법은, 별도로 저장되어 있는 위상 정보를 이용하여 디코딩된 신호의 시작 부분과 끝 부분의 위상 정보를 원래 신호의 위상과 동일하게 맞추어 주는 원리를 이용하고 있으며, 이를 위하여 본 발명에 의한 위상 정보를 이용한 음소 코딩 방법에서는, PSSM 방법에 의하여 1 프레임 정도의 추가 데이터를 인코딩하는 것만으로도 음질의 저하 없이 위상 데이터를 보존할 수 있도록 하고 있다.

이를 위하여는 신호로부터 위상 정보를 추출하는 과정이 필요하며, 본 위상추출 단계(Phase Storation Step)(31)가 이를 담당하게 된다.

신호의 특정 프레임으로부터 위상 정보를 추출하기 위해서는 다음과 같이 이산 푸리에 변환(discrete fourier transform;DFT)을 사용한다.

한편, 정보량을 줄이기 위해, 위와 같이 얻어지는 정보 중에서 실제로 가장 유의미한 부분인 저주파수 대역의 위상 정보만을 보존하도록 한다. 즉, 전체 8kHz의 대역 중에서 하위 4kHz 대역의 위상 정보만을 저장하는 것이다.

결과적으로, 위상추출 단계(31)에서는 주어진 음소로부터 음소의 처음 부분 데이터 약 8ms(이하 s _i (t)라 한다) 및 음소의 끝 부분 약 8ms의 위상 정보(이하 P _e (??)라 한다)를 추출하여 인코딩하게 된다.

음소저장 단계(32)에서는, 각 음소 별로 상기 포락압축 단계에서 압축된 포락 정보 및 상기 위상추출 단계에서 추출된 위상 정보를 압축 단위음 데이터베이스에 저장하게 된다.

도 4는 음소 디코딩 단계를 더욱 구체적으로 나타낸 흐름도이다.

음소 디코딩 단계는, 압축 단위음 데이터베이스에 저장된 각 음소마다의 포락 정보를 이용하여 음소의 포락을 복원하는 포락복원 단계(40)와, 위상 정보를 이용하여 위상을 복원하는 위상복원 단계(41) 및 음소 간 인접부의 음성 신호의 에너지를 보간하는 음소보간 단계(42)를 포함하여 이루어진다.

포락복원 단계(40)에서는 포락압축 단계(30)에서 포락 정보를 압축하는 과정과 반대의 순서를 진행함으로써 포락 정보를 복원하게 된다. 다만, 어댑티브 코드북의 초기 값은, 별도로 저장한 피치 정보로 채우고, 음소의 끝 부분에서는 압축된 포락의 최후 프레임에 연결되는 다음 음소에 관한 정보까지 복원한다. 이 때, 여전히 첫 프레임에서 다소 간의 신호 손실은 있으며, 뒷 부분은 추가로 디코딩되어 나온 데이터에서 어디까지가 원하는 음소인지를 찾아야 하는 문제가 있는데, 이는 위상복원 단계를 통하여 해결하도록 하고 있다.

위상복원 단계(41)에서는 포락복원 단계(40)에서 복원된 신호 s _d (t) (t=0, …,L)의 위상을, 위상추출 단계(31)에서 인코딩된 s _i( t) 및 P _e (??)의 위상 정보를 이용하여 복원하게 된다.

이를 위해서, 먼저 두 위상 정보 P,Q 간의 거리 D(P,Q)를 아래와 같이 정의한다.

이제 다음과 같은 과정을 거쳐서 위상 복원기에 저장된 음소의 끝 부분과 위상이 일치하는 복원된 음소의 위치를 검색(Phase Search Step)한다.

다음, 위 결과 T _i 를 이용하여, 복원된 음소의 앞 부분의 위상을 복원한 음소 s _r1 (t)를 구한다.

그 다음, 음소의 끝 부분 위상을 복원하기 위해서, 기저장된 음소의 끝 부분 위상 정보와 일치하는 위상 정보를 음소 s _r1 (t)에서 찾는다.

결국, T _e 를 이용하여 위상이 완전히 복구된 최종적인 음소 s _r2 (t)를 다음과 같이 얻을 수 있게 된다.

음소보간 단계(42)에서는 음소 간 인접부의 음성 신호의 에너지를 보간하는 과정을 수행하게 된다.

음성 신호가 위성 복원기를 통과하여 나오게 되더라도, 서로 다른 문맥(context)에서 온 음소들의 경우에는 전후 음소 간의 에너지 차이로 인하여 신호의 불연속이 존재할 수 있게 된다. 따라서, 연속하는 두 음소의 연결부에 해당하는 음성 신호의 에너지를 보간하여, 음소가 부드럽게 이어질 수 있도록 할 필요가 있다. 이러한 보간의 필요는 연속하는 두 음소가 모두 유성음인 경우에만 해당된다.

보간을 위하여는 먼저 다음과 같이 양 음소의 에너지 비율과 보간 함수를 구하게 된다.

그 후, 다음 식을 적용함으로써 실제 음성 신호를 보간할 수 있게 된다.

도 5(a)는 일반적인 코드여기 선형예측 부호화(CELP) 방법에 의하여 단위음 데이터베이스의 음소를 인코딩 및 디코딩한 후 생성한 합성음의 파형을 나타낸 그래프이고, 도 5(b)는 본 발명의 PSSM 방법을 이용한 음소 코딩 방법에 의하여 단위음 데이터베이스의 음소를 인코딩 및 디코딩한 후 생성한 합성음의 파형을 나타낸 그래프이다.

본 발명의 PSSM 방법을 적용한 음소 코딩 방법이 기존의 음소 코딩 방법에 대하여 가지는 장점을 확인하기 위하여, 도 5(a),(b)에 나타낸 바와 같이 실험을 수행하였다.

도 5(a) 및 도 5(b)는 모두 여성 화자가 발성한 '나라없는'이라는 발화의 결과에 들어있는 음소 중 '없는([엄는]으로 발음됨)'의 'ㅁ','ㅡ','ㄴ(종성)' 각 음소에 대한 인코딩 결과를 나타내고 있다.

도면에 나타나는 바와 같이, 기존의 방법을 사용한 경우에는 음소의 인접 부분에서 위상 정보의 불일치로 인하여 신호의 왜곡이 발생하는 것을 볼 수 있으며, 이는 실제로 잡음이나 클릭 소리로 나타난다. 반면, 본 발명의 PSSM 방법에 의하면 이와 같은 문제가 해결되었음을 확인할 수 있다.

또한, 다음의 표는 본 발명에 의한 위상 정보를 이용한 음소 코딩 방법에 의하여 단위음 데이터베이스를 압축하기 전과 후의 데이터베이스의 크기를 비교한 표이다.

	압축 전(16000Hz, 16bit PCM)	압축 후
남성 화자	725,792kB	97,359kB
여성 화자	1,143,952kB	147,803kB

즉, 본 발명에 의한 위상 정보를 이용한 음소 코딩 방법에 의하면, 압축 전에 비하여 무려 1/7.6의 크기로 데이터베이스를 줄일 수 있음을 확인할 수 있다.

상술한 바와 같은 본 발명의 PSSM 방법을 이용한 음소 코딩 방법을 사용하면, 유닛 접합 방식 음성 합성기에 의한 음성 합성에 있어서, 단위음 데이터베이스의 크기를 대폭 감소시키면서도 고품질의 합성음을 제공할 수 있는 위상 정보 저장 및 검색 방법 및 이를 이용한 음소 코딩 방법을 구현할 수 있다.

도 1은 전형적인 유닛 접합 방식 음성 합성기에 의한 음성 합성 방법을 나타낸 흐름도,

도 2는 본 발명에 의한 위상 정보를 이용한 단위 음소 코딩 방법이 적용된 음성 합성 방법의 일례를 나타낸 흐름도,

도 3은 음소 인코딩 단계를 더욱 구체적으로 나타낸 흐름도,

도 4는 음소 디코딩 단계를 더욱 구체적으로 나타낸 흐름도,

도 5(a)는 일반적인 코드여기 선형예측 부호화(CELP) 방법에 의하여 단위음 데이터베이스의 음소를 인코딩 및 디코딩한 후 생성한 합성음의 파형을 나타낸 그래프,

도 5(b)는 본 발명에 의한 위상 정보를 이용한 단위 음소 코딩에 의하여 단위음 데이터베이스의 음소를 인코딩 및 디코딩한 후 생성한 합성음의 파형을 나타낸 그래프이다.

Claims

위상 정보 저장단계와 위상 정보 검색단계를 포함하여 이루어지는 단위 음소의 위상 정보 저장 및 검색 방법으로서,

상기 위상 정보 저장단계는, 원본 단위음 데이터베이스에 저장되어 있는 각 음소에 대하여, 각 음소를 구성하는 프레임 중 최초 프레임과 최후 프레임으로부터 이산 푸리에 변환에 의하여 위상 정보를 추출하는 단계와,

추출된 상기 위상 정보 중에서 저주파수 대역의 위상 정보를 선택하는 단계와,

상기 최초 프레임의 데이터 중 최초의 약 8ms의 데이터의 위상 정보 및 상기 최후 프레임의 데이터 중 최후의 약 8ms의 위상 정보를 저장하는 단계를 더 포함하며,

상기 위상 정보 검색단계는, 디코딩된 음소 데이터에 저장된 각 음소에 대한 상기 위상 정보를 검색하는 단계와,

상기 각 음소에 대하여 검색된 상기 위상 정보를 손실 없이 복원하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 단위 음소의 위상 정보 저장 및 검색 방법.
음소 인코딩 단계와 음소 디코딩 단계를 포함하여 이루어지는 위상 정보를 이용한 음소 코딩 방법으로서,

상기 음소 인코딩 단계는, 원본 단위음 데이터베이스에 저장되어 있는 각 음소에서 포락(envelope) 정보를 추출하는 포락압축 단계와, 상기 음소에서 PSSM 방법을 이용하여 위상 정보를 추출하는 위상추출 단계 및 각 음소 별로 상기 포락 정보 및 상기 위상 정보를 압축 단위음 데이터베이스에 저장하는 음소저장 단계를 더 포함하고,

상기 음소 디코딩 단계는, 상기 압축 단위음 데이터베이스에 저장된 각 음소마다의 상기 포락 정보를 이용하여 음소의 포락을 복원하는 포락복원 단계와, 상기 위상 정보로부터 PSSM 방법을 이용하여 위상을 복원하는 위상복원 단계 및 음소 간 인접부의 음성 신호의 에너지를 보간하는 음소보간 단계를 더 포함하여 이루어지는 위상 정보를 이용한 음소 코딩 방법.
제 2항에 있어서,

상기 음소 인코딩 단계의 상기 포락압축 단계는, 각 음소를 구성하는 프레임 중 최초 프레임의 피치 정보를 어댑티브 코드북에 추가하여 상기 최초 프레임의 피치 정보가 주 펄스의 위치 정보와 크기 정보를 포함하고, 각 음소를 구성하는 프레임 중 최후 프레임의 피치 정보가 그 음소에 연결되는 다음 음소에 관한 정보를 포함하도록 하여 포락을 압축하는 것을 특징으로 하는 음소 코딩 방법.
제 2항에 있어서,

상기 음소 디코딩 단계의 상기 포락복원 단계는, 어댑티브 코드북의 초기값에 별도 저장된 피치 정보를 입력하고, 압축된 포락의 최후 프레임에 연결되는 다음 음소에 관한 정보까지 복원하는 것을 특징으로 하는 위상 정보를 이용한 음소 코딩 방법.
제 2항에 있어서,

상기 음소 디코딩 단계의 상기 음소보간 단계는, 연속하는 두 음소가 모두 유성음인 경우에, 두 음소의 에너지 비율을 구하고, 보간 함수에 의한 보간 에너지값을 구하여 두 음소가 연결되는 부분의 음성 신호의 에너지를 보간하는 것을 특징으로 하는 위상 정보를 이용한 음소 코딩 방법.