KR100310930B1

KR100310930B1 - 음성합성장치및그방법

Info

Publication number: KR100310930B1
Application number: KR1019960054320A
Authority: KR
Inventors: 배성근
Original assignee: 박종섭; 주식회사 하이닉스반도체
Priority date: 1996-11-15
Filing date: 1996-11-15
Publication date: 2001-12-17
Also published as: KR19980035870A

Abstract

본 발명은 디지털 통신 시스템의 음성신호 처리에 있어서, 음의 변화량을 비선형적으로 모델링하는 피치 동기 방식에 의한 피치 매트릭싱 방법과 선형 예측 방법을 이용한 이차원 비선형 인터폴레이션/데시메이션 기술을 통하여 음성을 합성함으로써 음의 자연성 및 명료성이 우수한 고음질의 음성 데이터 서비스를 제공할 수 있으며, 간단한 구조의 하드웨어 및 소프트웨어의 구현이 가능한 음성 합성장치 및 그 방법에 관한 것으로, 입력되는 음성신호가 유성음인 경우 자기상관관계를 이용하여 음성신호의 피치를 검출하고, 이 검출된 피치를 단위로 이차원 피치 매트릭싱 과정을 수행하여 피치주기와 피치갯수를 갖는 피치집합군을 형성하는 제1과정과, 상기 제1과정에서 형성된 각 피치집합군에 대한 상관관계계수를 검출하고, 이 검출된 상관관계 계수를 평균하여 예측 계수를 산출하는 제2과정과, 상기 제2과정에서 산출된 예측 계수와 상기 제1과정에서 형성된 피치집합군의 피치주기를 통해 비선형적인 인터폴레이션을 수행하여 음성신호를 합성하는 제3과정과, 입력되는 음성신호가 무성음인 경우 이 음성신호를 가우시안 잡음으로 대치하여 처리하는 제4과정으로 이루어지는 것을 특징으로 한다.

Description

음성 합성장치 및 그 방법

제1도는 본 발명에 의한 음성 합성장치의 블록 구성도.

제2도는 본 발명에 의한 음성 합성 제어흐름도.

제3도는 본 발명에 의한 이차원 비선형 인터폴레이션 기술의 원리를 나타낸 도면.

제4도의 (a)는 한 프래임내의 음성신호 파형도.

(b)는 본 발명의 합성장치에 의해 합성된 음성신호 파형도.

* 도면의 주요부분에 대한 부호의 설명

10 : 유/무성음 검출부 20 : 피치주기 검출부

30 : 피치집합군 형성부 40 : 상관관계계수 검출부

50 : 선형 예측 적용부 60 : 예측 계수 합성부

70 : 가우시안 잡음 처리부

본 발명은 디지털 통신 시스템의 음성신호 처리에 있어서, 음의 변화량을 비선형적으로 모델링하는 피치 동기 방식에 의한 피치 매트릭싱(pitch matrixing) 방법과 선형 예측 방법을 이용한 이차원 비선형 인터폴레이션/데시메이션(interpolation/decimation)기술을 통하여 음성을 합성함으로써 음의 자연성(naturality) 및 명료성(intelligibility)이 우수한 고음질의 음성데이터 서비스를 제공할 수 있으며, 간단한 구조의 하드웨어 및 소프트웨어의 구현이 가능한 음성 합성장치 및 그 방법에 관한 것이다.

일반적으로 급속히 변화하는 산업사회에서 쏟아지는 많은 정보들은 영상이나 음성을 통해서 전달되게 되며, 특히 상기 음성을 사용한 정보전달방법은 통신수단이나 대화수단으로서 가장 오랫동안 사용되어 온 통신방법이다.

최근, 통신방식이 아날로그에서 디지털화 되어가는 시점에서 음성신호를 디지털화하여 송수신하는 디지털 통신 시스템의 음성신호 처리에 있어서, 많은 음성 합성 기술 및 부호화, 복호화 기술이 대두되고 있다.

이러한 음성 합성 기술에 있어서, 그 합성 방법으로는 대역제한된 신호 표본화(sampling)와 양자화를 거쳐 반복적이고 불필요한 잉여성분을 제거한 후에 합성하는 시간영역 합성법(time domain method)과 음성 생성과정(speech production model)에 근거한 주파수별로 각 독립된 필터를 사용하여 합성하는 주파수영역 합성법(frequency domain method) 및 상기 시간영역 합성법과 주파수영역 합성법의 장점을 이용하여 합성하는 혼성 합성법(hybrid method)이 있다.

상기 시간영역 합성법은 잉여성분만을 제거하여 합성하므로 음질의 자연성 및 명료성이 매우 높으나, 많은 양의 정보가 필요하여 메모리의 효율성이 저하되는 단점이 있으며, 이런 합성법으로는 PCM(pulse code modulation), DM(delta modulation), ADM(adaptive modulation), DPCM(differential pulse code modulation)등이 있다.

그리고, 음성 생성과정에 근거하여 음성은 음원(source)과 성도필터(vocal tract)에 의하여 생성되고 이를 모델링하여 인위적으로 합성하는 상기 주파수영역 합성법은 시간영역에서 주파수영역으로 변환하여 여기성분(excitation)과 포만트성분(formant)을 분리한 후 독립적으로 합성하는 것으로서, 이 방법에는 LPC(linear prediction coding), LSP(linear spectrum pair), PARCOR 등이 있으며, 특징 파라미터만으로 합성함에 따라 메모리 사용이 효율적인 장점이 있다.

그러나, 음의 전이, 음의 시작/끝, 유/무성음의 반복시에는 상기 특징 파라미터만으로는 모델링을 할 수 없기 때문에 음질의 열화가 발생하고, 특히 비음이나 마찰음을 모델링하는 데는 전극형모델(all-pole model)에서 극-영형모델(zero-pole model)이 요구되어 음의 자연성과 명료성이 떨어지는 결점이 있다.

또한, 상기 시간영역 합성법의 장점인 고음질과 주파수영역 합성법의 장점인 메모리 효율성을 취한 혼성 합성법은 반복적인 분석에 의한 합성(synthesis by analysis) 또는 규칙에 의한 합성(synthesis by rule)을 적용함에 따라 낮은 비트율로서 고음질을 보장받기 위해서는 반복적인 계산과정과 비교과정이 필요하게 되고, 이로 인하여 계산량이 방대해짐은 물론 구조가 복잡해지는 단점이 있다.

상기와 같은 시간영역 합성법, 주파수영역 합성법 및 혼성 합성법은 대부분 분석 후에 다시 합성하는 분석에 의한 합성과 임의의 규칙에 따라 합성하여 출력하는 규칙에 의한 합성에 의한 것으로서, 독립된 데이터를 데이터 베이스로 사용하기 때문에 음과 음의 연결이 부드럽지 않으며, 음의 자연스러운 변화를 추정하지 않고 합성함에 따라 음의 자연성이 떨어지게 된다.

특히, 음의 변화가 심하고 피치가 변화하는 구간, 강세와 억양의 변화가 심한 음에서는 자연성이 열화되어 반복해서 듣지 않으면 음을 확실히 구별할 수가 없게 되고, 고음질을 서비스하기 위해 혼성 합성법을 사용하는 경우에도 복잡한 구조와 방대한 계산시간이 요구되게 되는 등 많은 문제점이 있었다.

본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 그 목적은 피치 동기 인터폴레이션(Pitch Synchronous Interpolation; PSI)을 이용한 피치 매트릭싱 방법과 선형 예측 방법을 이용한 비선형 인터폴레이션/데시메이션 기술을 통해 음의 상관관계에 의한 변화를 추정하여 음성을 합성함으로써 음의 자연성 및 명료성을 향상시킴은 물론 고음질의 음성 데이터 서비스를 제공할 수 있도록 한 음성 합성장치 및 그 방법을 제공함에 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 음성 합성장치는, 입력되는 음성신호가 유성음인지 무성음인지를 검출하는 유/무성음 검출부와, 상기 유/무 검출부에서 검출된 입력음성이 유성음인 경우 자기상관관계를 이용하여 음성신호의 피치를 검출하는 피치 검출부와, 상기 피치 검출부에서 검출된 피치를 단위로 이차원 피치 매트릭싱 과정을 수행하여 피치주기와 피치 갯수를 갖는 피치집합군을 형성하는 피치집합군 형성부와, 상기 피치집합군 형성부에서 형성된 각 피치집합군에 대한 상관관계계수를 검출하는 상관관계계수 검출부와, 상기 상관관계계수 검출부에서 검출된 상관관계계수를 평균하여 예측 계수를 산출하는 선형 예측 적용부와, 상기 선형 예측 적용부에서 산출된 예측 계수와 상기 피치집합군 형성부에서 형성된 피치집합군의 피치 주기를 통해 비선형적인 인터폴레이션을 수행하여 음성신호를 합성하는 예측계수 합성부와, 상기 유/무성음 검출부에서 검출된 음성신호가 무성음인 경우 음성신호를 가우시안 잡음으로 대치하여 처리하는 가우시안 잡음 처리부로 구성되는 것을 특징으로 한다.

그리고, 본 발명에 의한 음성 합성방법은 입력되는 음성신호가 유성음인 경우 자기상관관계를 이용하여 음성신호의 피치를 검출하고, 이 검출된 0피치를 단위로 이차원 피치 매트릭싱 과정을 수행하여 피치주기와 피치갯수를 갖는 피치집합군을 형성하는 제1과정과, 상기 제1과정에서 형성된 각 피치집합군에 대한 상관관계계수를 검출하고, 이 검출된 상관관계계수를 평균하여 예측 계수를 산출하는 제2과정과, 상기 제2과정에서 산출된 예측 계수와 상기 제1과정에서 형성된 피치집합군의 피치주기를 통해 비선형적인 인터폴레이션을 수행하여 음성신호를 합성하는 제3과정과, 입력되는 음성신호가 무성음인 경우 이 음성신호를 가우시안 잡음으로 대치하여 처리하는 제4과정으로 이루어지는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명에 의한 음성 합성장치 및 그 방법을 상세히 설명한다.

도1은 본 발명의 음성 합성장치의 블록 구성도로서, 입력되는 음성신호가 유성음인지 무성음인지를 검출하는 유/무성음 검출부(10)와, 상기 유/무 검출부(10)에서 검출된 입력음성이 유성음인 경우 자기상관관계를 이용하여 음성신호의 피치를 검출하는 피치 검출부(20)와, 상기 피치 검출부(20)에서 검출된 피치를 단위로 이차원 피치 매트릭싱 과정을 수행하여 피치주기와 피치갯수를 갖는 피치집합군을 형성하는 피치집합군 형성부(30)와, 상기 피치집합군 형성부(30)에서 형성된 피치집합군에 대한 상관관계계수를 검출하는 상관관계계수 검출부(40)와, 상기 상관관계계수 검출부(40)에서 검출된 상관관계계수를 평균하여 예측 계수를 산출하는 선형 예측 적용부(50)와, 상기 선형 예측 적용부(50)에서 산출된 예측 계수와 상기 피치집합군 형성부(30)에서 형성된 피치집합군의 피치주기를 통해 비선형적인 인터폴레이션을 수행하여 음성신호를 합성하는 예측 계수 합성부(60)와, 상기 유/무성음 검출부(10)에서 검출된 음성신호가 무성음인 경우 음성신호를 가우시안 잡음으로 대치하여 처리하는 가우시안 잡음 처리부(70)로 구성된다.

상기와 같이 구성되는 음성 합성장치의 합성 방법을 도2에 도시된 흐름도를 참고하여 설명하면 다음과 같다.

먼저, 유/무성음 검출부(10)는 입력되는 음성신호가 유성음인지 무성음인지를 판단하여(S₁) 유성음인 경우에는 피치 검출부(20)를 통해 한 프래임내 음성신호 샘플에 대한 피치를 검출하고, 이어 피치집합군 형성부(30)를 통해 상기 검출된 피치를 단위로 이차원 피치 매트릭싱 과정을 수행하여 피치주기와 피치갯수를 갖는 피치집합군을 형성한다(S₂).

상기 피치집합군을 형성하는 단계(S₂)는 이차원 벡터형성(two dimension vector) 과정으로서, 피치를 단위로 1차원 음성신호 샘플을 프래임내의 피치주기와 피치갯수인 2차원 신호로 변환하는 피치 매트릭싱을 수행하는 것이다.

즉, 음성신호의 경우 아날로그 입력에 대한 디지털 변환을 통해 한 프래임을 256샘플로 나누면, 각 프래임이 피치를 단위로 매트릭싱을 수행하도록 프래임별 피치를 검출해야 한다.

음성신호에 있어서 피치(pitch)는 두드러진 봉우리(peak)와 봉우리 혹은 골(valey)과 골 사이의 한 주기(fundamental frequency)를 말하는데, 상기 피치 검출부(20)는 정확성이 높은 자기상관관계(autocorrelation method)를 사용하여 식 1과 같이 피치를 검출한다.

[식 1]

여기서 s(.)는 입력 디지털 음성이고, k는 지연인자이다.

그리고, 상기 피치집합군 형성부(30)에서 형성되는 피치집합군은 i축이 프래임내의 피치주기(P_k)이고 j축이 피치개수(K_p)로 식 2와 같은 행렬(P_ij)로 구성된다.

[식 2]

여기서, P는 피치주기이고, K는 피치갯수이다.

이어, 상관관계계수 검출부(40)는 상기 단계(S₂)에서 형성된 피치집합군에 대한 상관관계계수를 식 3을 통해 검출한다(S₃).

[식 3]

여기서, α는 상관관계계수이고, P는 피치집합군이다.

그리고 나서, 선형 예측 적용부(50)는 상기 단계(S₃)내 상관관계계수 검출부(40)에서 검출된 상관관계계수를 평균하여 예측 계수를 산출하고(S₄), 예측 계수 합성부(60)는 상기 단계(S₄)내 선형 예측 적용부(50)에서 산출된 예측 계수와 상기 단계(S₂)내 피치집합군 형성부(3O)에서 형성된 피치집합군의 피치주기를 통해 비선형적인 인터폴레이션을 수행하여 음성신호를 합성한다.

한편, 음성신호가 무성음일 때는 가우시안 잡음 처리부(70)를 통해 잡음신호를 발생하여 일반적인 가우시안 잡음으로 대치하여 처리한다(S₆).

상기 단계(S₃) 이후의 과정은 상기 피치집합군에서 샘플 대 샘플에 대한 선형 예측 적용 과정과 예측 계수에 의한 합성 과정이다.

예를 들어, 한 프래임 내에 5개의 피치주기(50 samples)가 있다면 상관관계계수는 50*5개의 갯수를 가지게 된다.

그리고 각 피치집합군에 대한 상관관계계수의 평균치를 구하면 5개의 계수를 가지게 된다.

따라서, 선형 예측 방법을 적용하여 5개의 예측 계수를 산출하게 되고, 이에 따라 50샘플의 한 피치주기와 5개의 예측 계수를 이용하여 합성음을 비선형적으로 인터폴레이션하게 된다.

즉, 도3에 도시된 바와 같이 실제적인 합성에 필요한 샘플(●) 사이에 샘플(○)이 비선형적으로 인터폴레이션됨으로써 음의 명료성과 자연성을 유지시켜 줄 수 있는 하나의 음성을 완전하게 합성하게 된다.

제4도(a)(b)에 도시된 바와 같이, (a)는 본 발명의 음성 합성장치를 사용하기 전의 한 프래임내의 음성신호 파형도이고, (b)는 본 발명의 음성 합성장치에 의해 합성된 음성신호의 파형도로서 자연성 및 명료성이 우수한 고음질을 출력하고 있다.

상기와 같은 본 발명의 음성 합성과정에 있어서, 합성에 필요한 데이터가 피치주기와 피치갯수에 의존하기 때문에 주파수영역 합성법의 장점인 메모리 효율성을 가지며 음의 변화를 비선형적으로 추적하여 복원함에 따라 자연성과 명료성이 우수하게 된다.

그리고, 상기 선형 예측을 통한 예측 계수 검출과 예측 계수에 의한 합성과정은 음의 상관관계에 의한 변화를 추적하여 합성하기 때문에 음의 변화에 적응할 수 있고 음의 전이구간에서도 매우 용이하다.

이상 설명에서와 같이, 본 발명은 음성신호가 단시간(short term)에는 느린 변화를 하며 준주기적인 특성을 가진다는 것을 이용하여 불필요한 데이터를 줄일 수 있고, 2차원 피치행렬과 비선형적인 변화의 추적으로 음의 변화를 잘 추적하여 합성함으로써 자연성 및 명료성이 우수함은 물론 계산량이 적고 간단한 구조를 갖는 장점이 있다.

Claims

(정정) 입력되는 음성신호가 유성음인지 무성음인지를 검출하는 유/무성음 검출부(10)와, 상기 유/무성음 검출부(10)에서 검출된 입력음성이 유성음인 경우 자기상관관계를 이용하여 음성신호의 피치를 검출하는 피치 검출부(20)와, 상기 피치 검출부(20)에서 검출된 피치를 단위로 이차원 피치 매트릭싱 과정을 수행하여 피치주기와 피치갯수를 갖는 피치집합군을 형성하는 피치집합군 형성부(30)와, 상기 피치집합군 형성부(30)에서 형성된 각 피치집합군에 대한 상관관계계수를 검출하는 상관관계계수 검출부(40)와, 상기 상관관계계수 검출부(40)에서 검출된 상관관계계수를 평균하여 예측 계수를 산출하는 선형 예측 적용부(50)와, 상기 선형 예측 적용부(50)에서 산출된 예측 계수와 상기 피치집합군 형성부(30)에서 형성된 피치집합군의 피치주기를 통해 비선형적인 인더폴레이션을 수행하여 음성신호를 합성하는 예측 계수 합성부(60)와, 상기 유/무성음 검출부(10)에서 검출된 음성신호가 무성음인 경우 음성신호를 가우시안 잡음으로 대치하여 처리하는 가우시안 잡음 처리부(70)로 구성되는 것을 특징으로 하는 음성 합성장치.
(정정) 입력되는 음성신호가 유성음인 경우 자기상관관계를 이용하여 음성신호의 피치를 검출하고, 이 검출된 피치를 단위로 이차원 피치 매트릭싱 과정을 수행하여 피치주기와 피치갯수를 갖는 피치집합군을 형성하는 제1과정과, 상기 제1과정에서 형성된 각 피치집합군에 대한 상관관계계수를 검출하고, 이 검출된 상관관계계수를 평균하여 예측 계수를 산출하는 제2과정과, 상기 제2과정에서 산출된 예측 계수와 상기 제1과정에서 형성된 피치집합군의 피치주기를 통해 비선형적인 인터폴레이션을 수행하여 음성신호를 합성하는 제3과정과, 입력되는 음성신호가 무성음인 경우 이 음성신호를 가우시안 잡음으로 대치하여 처리하는 제4과정으로 이루어지는 것을 특징으로 하는 음성 합성방법.