KR100487645B1

KR100487645B1 - 유사주기 파형들을 이용한 음성 인코딩 방법

Info

Publication number: KR100487645B1
Application number: KR10-2001-0070193A
Authority: KR
Inventors: 양후앙-린
Original assignee: 인벤텍 베스타 컴파니 리미티드
Priority date: 2001-11-12
Filing date: 2001-11-12
Publication date: 2005-05-03
Also published as: KR20030046528A

Abstract

유사주기 파형들을 이용한 음성 인코딩 방법이 개시된다. 표본 주기가 유사주기 파형으로부터 추출된다. 다른 주기들은 복제에 의해 생성된다. 데이터 압축을 위해서 진폭의 변화들과 작은 주기 변화들 만이 저장된다. 실시간 압축해제는 Z80 마이크로프로세서 상에서 수행될 수 있으며, 간단한 DAC(디지탈/아날로그 변환기)는 DSP(디지털 신호 프로세서) 및 음성 합성기 없이 상기 압축해제된 데이터를 재생할 수 있다. 이는 중-저 수준의 실제 인간 음성 제품에 대단히 유용하다.

Description

유사주기 파형들을 이용한 음성 인코딩 방법{SPEECH ENCODING METHOD USING QUASIPERIODIC WAVEFORMS}

본 발명은 음성 인코딩 방법에 관한 것으로, 특히 유사주기 파형들을 이용한 음성 인코딩 방법에 관한 것이다.

음성 압축은 원본(original) 음성 신호들을 나타내기위해 최소 디지털 데이터를 이용한다. 상기 디지털 데이터의 크기는 일반적으로 저장된 신호 품질을 결정한다. 예를 들어, 음성 파형 코딩에서의 ADPCM(적응성 델타 펄스 코드 변조) 방법은 재생신호들을 가능한한 원본 신호 파형에 가깝게 만든다. 수학적 관점에서, 이는 최소 제곱 자승 오차 기준을 이용한다. 그러나, 24kbps(초당 킬로 비트) 보다 작은 비트율을 갖는 ADPCM은 음향 품질을 저하시키거나 동작부하를 가중시킨다. 상기 음성 파라메터 코딩의 LPC(선형 예측 코딩)는 압축 데이터의 목적을 달성하기위해 음계(vocal tract) 필터 파라메터들과 신호의 기본 피치를 설정하는 음성 제조 모델(making model)을 기반으로 하며, 이는 대단히 낮은 비트율을 달성할 수 있다. 그럼에도 불구하고, 그에 대한 동작부하가 증가한다. 신호 대역폭의 변화 없이, 상기 신호 압축 비율은 만일 더 많은 데이터가 임의의 시간 주기 내에 전송될 필요가 있는 경우 높이져야만 한다. 그래서, 상기 ADPCM과 LPC 방법들은 높은 품질, 낮은동작 부하들, 및 24kbps 보다 낮은 비트율을 동시에 갖기가 불가능하다.

음성 압축은 음성 신호 처리에서 대단히 중요한 기법이다. 대부분의 목소리 음성에서는 음성 압축 기법을 사용한다. 전자 사전들(electronic dictionaries)을 예로 들면, 실제-인간 발음 기능은 이미 표준 특징이 되었다. 중-소형 수준의 전자 사전들의 경쟁력 증대, 음성 데이터 메모리 감소 및 음향 품질 증대를 위해서, 간단한 DAC를 이용하여 실-시간 압축해제 및 재생을 실현할 수 있는 음성 압축 기법이 점점 중요한 연구 과제가 되고 있다.

본 발명은 유사주기 파형들을 이용한 음성 코딩 방법을 제공한다. 그 기본적 원리는, 음성 신호들은 짧은 주기(약 20-25ms) 내에서 그의 신호 스팩트럼이 많이 변하지 않아 정지된 것으로 보여질 수 있다는 사실을 이용한다. 그 다음, 상기 주기 내의 음성 신호는 몇개의 유사주기 음성 파형들을 포함한다. 몇몇 유사주기 음성 파형들은 이러한 파형들로부터 추출되는 하나의 표본 주기로 나타내어질 수 있으며, 다른 파형들은 상기 표본 주기를 복제함으로써 생성될 수 있다. 단지 진폭(amplitude)만 변화하며, 작은 주기의 변화 만이 데이터 압축의 목적을 달성하기위해 기록된다. 연속적 주기에서 변화들이 적을 수록, 압축 품질은 높아지게된다. 복제된 주기들이 많이 존재할 수록, 비트율이 낮아져야함이 필요로된다.

상기 설명된 음성 코딩 방법은 다양한 비트율을 사용한다. 그의 평균 비트율은 필요한 압축 품질에 따라 정해진다. 서로 상이한 음성들은 약 12kbps 정도로 낮은 서로 상이한 압축 파라메터들을 가질 수 있다. 이러한 경우에서, 요구되는 메모리는 원본 음성(8KHz 샘플링 비율, 16비트, 모노, 128kbps)의 약 1/10 이고, 평균 SNR(신호-대-잡음 비율)은 약 7~10dB이다. 또한, 압축 해제에서의 동작 부하는 극히 낮다. 현재, 본 발명자는 Z80 마이크로프로세서를 이용하여 실시간 압축해제를 실현하는데 성공했다. 간단한 DAC는 상기 압축 해제된 데이터를 DSP와 음성 합성기 없이도 재생할 수 있다. 이는 중-저 수준의 실제 인간 음성 제품들에서의 어플리케이션들에 이상적이다.

본 발명은 하기의 상세한 설명으로부터 잘 이해될 것이며, 본 설명은 단지 예시적일뿐, 본 발명이 이 설명으로만 한정되는 것은 아니다. 본 발명은 유사주기 파형들을 이용한 음성 인코딩 방법을 개시한다. 표본 주기가 유사주기 음성 파형에서 추출된다. 다른 주기들은 복제에 의해 생성된다. 데이터 압축을 위해서 진폭의 변화들과 작은 주기 변화들 만이 저장된다.

도 1에서, 단계(100)에서 음성 x가 입력된다. 단계(102)는 최소 복제(D_min)를 설정한다. 단계(104)는 왜곡 임계(DistThrd)를 설정한다. 단계(106)는 코드화된 음성 길이(Ms)를 0으로 설정한다. 단계(108)는 복제(Duplicate)를 0으로 설정한다. x(Ms)로부터 시작하는 약 20~25ms의 음성 프레임 길이(M)를 단계(110)에서 획득한다. 그 다음, 단계(120)는 표본 주기 길이(P)를 검색하기위해 AMDF(절대 진폭 차이 함수(Absolute Magnitude Difference Function))를 이용하며, 여기서 k는 가능한 주기 범위이다. 음성에 있어서, 샘플링 율은 8kHz이며, 여기서 k=20, 21...150이다. M은 x의 음성 길이이다.

단계(130)는 표본 주기 x_p=x'(c1:c2)를 검색한다. 먼저, 상기 x'의 최대값 (AMPmax)이 획득된다. 절단 위치(c1)가 상기 AMPmax 이전의 1/2~3/4 주기에서 검색되고, 절단 조건들은 x'(c1)>0 그리고 x'(c1-1)<=0과 같이 설정된다. 그 다음, 다른 절단 위치(c2)는 상기 AMPmax 이후의 1/2~3/4 주기에서 검색되고, 절단 조건들은 x'(c2+1)>0 그리고 x'(c2)<=0과 같이 설정된다.

단계(130) (길이(L)= c2-c1+1) 이후, D번째 주기의 최대값(AmpD)이 단계(140)에서 연산된다. 단계(150)는 상기 주기 변이(ShiftD)와 그의 오류(DistD)를 연산한다.

실행 단계들은 다음과 같다:

(a) D=D+1로 설정(단계(135)),

(b) x_p ^'=x(Ms:Ms+L-1)로 설정,

(c) x_p ^'의 최대값, AmpD 검색,

(d) 주기 변이(ShiftD)와 그에 대한 오류(DistD)를 검출하기위해 x_p'=x'*AMPmax/AmpD로 설정하며, 여기서,

변이(shift)~=-P/4~P/4,

(e) 코드화된 음성 길이(Ms)=Ms+L+ShiftD 를 계산(단계(154)),

(f) 만일 D<D_min 이면, 단계(a)로 돌아감(단계(156)),

(g) DistD가 DistThrd보다 클때 까지 단계(a)를 반복하고,

마지막으로, 단계(160)는 코드 비트 구성 테이블에 따라서 파라메터 코딩을 수행한다. 각 음성 프레임의 코드 비트 구성 테이블은 표 1에 도시된다.

1.만일 D>0 이면, DFFH:

D	L	데이터	Amp1	Shift1	...	AmpD	ShiftD
1바이트	1바이트	L바이트	1바이트	1바이트	...	1바이트	1바이트

여기서

D(복제):복제 사본들의 수,

L: 복제된 데이터 길이,

Data: 복제된 데이터,

Amp1: 제 1복제된 주기의 진폭,

Shift1: 제 1복제된 주기의 변이,

AmpD: D번째 복제된 주기의 진폭,

ShiftD: D번째 복제된 주기 변이.

만일 상기 원본 데이터의 각 샘플이 16비트라면, 이는 16비트에서 8비트로 변환되어야한다. 만일 최종적으로 압축해제된 음성이 8비트가 아니라면 상기 8비트 샘플은 상기 테이블을 참조하는 것으로 실제 비트 수로 변환될 수 있다. 만일 상기 원본 데이터의 각 샘플이 8비트라면, 상기 압축률=데이터 길이/테이블 길이=[LD+(shift1+...+shiftD)]/(2+L+2D)이다. 만일 상기 원본 데이터의 각 샘플이 16비트라면, 상기 압축률=[LD+(shift1+...+shiftD)]*2/(2+L+2D)이다.

원본 음성(8kHz 샘플링율, 16비트, 일반적으로 약 128kbps)을 예로들면, L=50, D=6 및 Shift1~ShiftD=0이다. 압축률은 50*6*2/(2+50+12)=9.375~13.6533kbps이다.

만일 D=0이면, 상기 음성 프레임의 데이터는 모두 0이다.

D	L
1바이트	1바이트

여기서 L은 0들의 수이다.

D=FFH는 다음과 같이 상기 음성 코드의 종단(end)을 의미한다.

D

1바이트

그래서, 상기 설명된 음성 코딩 방법은 복제들의 수(D), x_p의 길이(L),데이터=x_p, AmpD, ShiftD, 그리고 종료 코드로서의 종단값 FFH를 삽입하기위한 코드 비트 구성 테이블을 따른다. 이렇게해서, 음성 압축에 대한 코딩 절차가 완성된다.

도 2에 도시한 바와 같이, 상기 음성 디코딩 절차는 단계(200)에서 음성 압축 코드(xc)가 입력됨으로써 시작된다. 단계(210)는 복제를 읽고, 단계(220)는 복제가 FFH인지를 결정한다. 만일 복제가 FFH라면, 상기 코드는 종료되며, 그렇지 아으면 단계(230)에서 길이(L)를 읽어들인다. 단계(240)는 복제가 0H인지를 결정한다. 만일 복제가 0H이면, 다음 바이트는 L이며, L 음성 0들이 단계(245)에서 생성되고, 그렇치않으면 단계(250)에서 음성 길이(L)를 읽어들인다.

복제>0이면, 상기 다음 바이트는 L이고, L 바이트=x_p(n), n=0,1,...,L-1은 단계(250)에서 읽혀진다. 단계(260)는 진폭(AmpD)를 읽어들이고, 단계(270)는 ShiftD를 읽어들인다. 상기 음성 길이(L)가 상기 진폭(AmpD)와 곱해진 후, ShiftD 샘플들은 단계(280)에서 지연된다. ShiftD는 0보다 크거나 같거나, 혹은 작을 수 있다. 만일 0보다 크면, 상기 음성의 길이(L)는 역방향으로 변이되고 변이된 비트들은 0들로 채워진다. 만일 0보다 작으면, 상기 음성의 길이(L)는 순방향으로 변이되고, 상기 이전 음성과 겹치는 부분은 잘려진다. 마지막으로, 단계(290)는 합성된 음성 길이(L+ShiftD)를 가진다. 수학식으로 나타내자면, 다음과 같은 식을 얻을 수 있다.

x_s(n)=x_p(n+ShiftD)*AmpD, 그리고

n=-ShiftD,...,0,1,...,L-1

단계(292)는 복제를 복제-1로 설정하고, 단계(295)는 복제=0H인지를 판단한다. 만일 복제=0H이면, 단계(210)로 진행하고, 그렇지 않으면, 단계(260)가 복제=FFH가 될때 까지 실행된다.

다음 문단은 본 발명에 따른 유사주기 파형들을 이용한 음성 코딩 방법을 설명하기위해 두개의 실시예들을 이용한다. 음성[a](8kHz 샘플링율, 16비트, 모노, 411ms 길이)를 예로 들어보자. 제 1실시예에서, DistThrd=0.1, D_min=6, 그리고 압축해제 데이터 SNR~=10dB, 그리고 비트율~=13.25kbps이다. 도 3은 원본 음성 파형과 상기 압축 해제된 음성의 파형들을 비교한 것이다. 처음 500개 샘플을 보면, 적색 선은 원본 음성이고 청색 선은 압축해제된 음성이며, 적색 선과 청색 선 간의 겹침 주기는 (복제를 위한)표본 주기이다.

제 2실시예에서, DistThrd=0.5, D_min=6, 그리고 압축해제 데이터 SNR~=7dB, 그리고 비트율~=6.4kbps이다. 도 4는 원본 음성 파형과 상기 압축 해제된 음성의 파형들을 비교한 것이다. 처음 500개 샘플을 보면, 적색 선은 원본 음성이고 청색 선은 압축해제된 음성이며, 적색 선과 상기 청색 선 간의 겹침 주기는 (복제를 위한)표본 주기이다.

상기 설명된 유사주기 파형들을 이용한 음성 코딩 방법은 음성 신호들을 처리한다. 본 방법은 먼저 음성 신호에 대한 파형 코딩을 PC의 오프라인 상태에서 수행한다. 음성 파형들의 유사주기 특징과 인접한 파형들 간의 유사성을 이용함으로써 몇몇 주기들은 동일한 파형 주기로 대체된다. 진폭 변화들과 주기 변동들이 데이터 압축의 목적을 달성하기위해 저장된다. 상기 압축된 데이터는 저-수준 마이크로프로세서(예를 들어 Z80) 상에서 DSP(디지털 신호 프로세서) 및 음성 합성기 없이도 온라인에서 실시간으로 압축해제 및 재생될 수 있다. 이는 중-저 수준의 실제 인간 음성 제품에 이상적이다.

본 압축 방법은 음성 합성의 음소 압축에 성공적으로 적용되었다. 모든 자음들(예를 들어 파(fa),페(fe) 그리고 파이(fai)의 에프(f))은 먼저 이러한 자음들이 공유될 수 있기 때문에 제거되며 압축될 필요가 없다. 이들은 대단히 작은 공간만을 차지한다. 모음 부분들이 인코딩된 후, 상기 원본 음성은 약 15kbps의 비트율로 7~10의 요소로 압축될 수 있다. 그로인해 70메가바이트 음소 파일은 7~10메가바이트로 압축되며, 그 음성 품질은 7~20dB 이상을 유지한다.

도 1은 유사주기 파형들을 이용한 음성 코딩 방법을 나타내는 흐름도이다.

도 2는 유사주기 파형들을 이용한 음성 디코딩 방법을 나타내는 흐름도이다.

도 3은 원본 음성과 제 1실시예에 의해 압축된 음성의 파형들을 비교한 것이다.

도 4는 원본 음성과 제 2실시예에 의해 압축된 음성의 파형들을 비교한 것이다.

Claims

유사주기 파형들을 이용한 음성 코딩 방법에 있어서,

음성(x)을 제공하고 상기 음성으로부터 음성 프레임(x')를 획득하는 단계와;

주기 복제들의 수를 결정하기위해 상기 음성 프레임의 주기를 연산하는 단계와;

상기 주기로부터 표본 주기를 획득하고 상기 표본 주기의 길이(L), 데이터, 그리고 최대값(AMPmax)을 연산하는 단계와;

상기 각 주기들의 최대값(AmpD)과 변이(ShiftD)를 연산하는 단계와; 그리고

코드 비트 구성 표에 따라서 파라메터 코딩을 수행하는 단계를 포함하며,

상기 주기들의 코딩은 상기 표본 주기를 복제함과 아울러, 길이, 데이터, 그리고 복제 주기를 이용함으로써 생성되며, 상기 각 주기들의 최대값과 변동들이 기록되고, 종료 코드로서 FFH가 뒤따르는 것을 특징으로 하는 유사주기 파형들을 이용한 음성 코딩 방법.
제 1항에 있어서, 상기 유사주기 파형들의 스팩트럼 변화들은 정지된 것으로 여겨지는 것을 특징으로 하는 유사주기 파형들을 이용한 음성 코딩 방법.
제 1항에 있어서, 상기 음성 프레임은 약 20~25ms 길이인 것을 특징으로 하는 유사주기 파형들을 이용한 음성 코딩 방법.
제 1항에 있어서, 상기 표본 주기는 AMDF(절대 진폭 차이 함수)를 이용하여 연산되는 것을 특징으로 하는 유사주기 파형들을 이용한 음성 코딩 방법.
제 1항에 있어서, 상기 각 주기들의 최대 및 최소 변이들을 연산하는 단계는,

(a) D=D+1로 설정하는 단계와;

(b) x_p=x'(Ms:Ms+L-1)로 설정하는 단계와;

(c) x_p의 최대값, AmpD를 검색하는 단계와;

(d) 주기 변이(ShiftD)와 그에 대한 오류(DistD)를 검출하기위해 x_p'=x'*AMPmax/AmpD로 설정하는 단계와, 여기서

변이(shift)~=-P/4~P/4;

(e) 코드화된 음성길이(Ms)=Ms+L+ShiftD를 연산하는 단계와;

(f) 만일 D<D_min 이면, 단계(a)로 돌아가는 단계와;

(g) DistD가 DistThrd보다 클때 까지 상기 단계(a)로 돌아가는 단계를 포함하는 것을 특징으로 하는 유사주기 파형들을 이용한 음성 코딩 방법.
제 1항에 있어서, 상기 코드 비트 구성 표는,

1.만일 D>0 이면, DFFH:

D L 데이터 Amp1 Shift1 ... AmpD ShiftD 1바이트 1바이트 L바이트 1바이트 1바이트 ... 1바이트 1바이트

여기서, D(복제)는 복제 사본들의 수, L은 복제된 데이터 길이, 데이터는 복제된 데이터, Amp1는 제 1복제된 주기의 진폭, Shift1는 제 1복제된 주기의 변이, AmpD는 D번째 복제된 주기의 진폭, 그리고 ShiftD는 D번째 복제된 주기 변이이며,

(2)만일 D=0이면, 상기 음성 프레임의 데이터는 모두 0이고,

D L 1바이트 1바이트

여기서 L은 0들의 수이며,

(3)D=FFH는 상기 음성 코드의 종단

D 1바이트

을 의미하는 것을 특징으로 하는 유사주기 파형들을 이용한 음성 코딩 방법.
제 6항에 있어서, 상기 원본 데이터의 각 샘플이 16비트라면, 압축률=데이터 길이/테이블 길이=[LD+(shift1+...+shiftD)]*2/(2+L+2D)인 것을 특징으로 하는 유사주기 파형들을 이용한 음성 코딩 방법.
제 6항에 있어서, 상기 원본 데이터의 각 샘플이 8비트라면, 압축률=데이터 길이/테이블 길이=[LD+(shift1+...+shiftD)]/(2+L+2D)인 것을 특징으로 하는 유사주기 파형들을 이용한 음성 코딩 방법.
제 1항에 있어서, 모든 공유 자음들은 음성 합성의 음소 압축에서 제거되는 것을 특징으로 하는 유사주기 파형들을 이용한 음성 코딩 방법.
제 1항에 있어서, 저-수준의 Z80 마이크로프로세서 상에서 온라인 실시간으로 압축해제를 수행함과 아울러 압축해제된 데이터를 재생하는 것을 특징으로 하는 유사주기 파형들을 이용한 음성 코딩 방법.