KR100354747B1

KR100354747B1 - 다중펄스 최대 유사 양자화기에 구비되는 고정 코드북 이득 테이블 생성방법

Info

Publication number: KR100354747B1
Application number: KR10-1998-0050042A
Authority: KR
Inventors: 김남시
Original assignee: 삼성전자 주식회사
Priority date: 1998-11-18
Filing date: 1998-11-18
Publication date: 2003-01-24
Also published as: KR20000033263A

Abstract

본 발명은 음성 부호화기인 다중펄스 최대 유사 양자화기를 고정 소숫점 범용 디지털 신호 처리기에 실시간으로 구현할 때 발생되는 계산량을 줄이기 위한 변형된 형태의 다중펄스 최대 유사 양자화기에 구비되는 고정 코드북 이득 테이블 생성방법에 관한 것이다.

본 발명에 의한 실시간 음성 부호화를 위해 14비트의 입력신호를 부호화하는 음성부호화기에 구비된 다중펄스 최대 유사 양자화기에 구비된 고정 코드북 이득 테이블을 생성하는 방법은 소정의 수 N개의 인덱스 i(여기서, i=1,…,N)에 대하여 각각, 인덱스 i에 2.65 내지 2.75 사이에서 선택된 소정의 값 K를 곱하고, 그 곱한 값을 20으로 나누고, 그 나눈 값을 10의 지수로 한 값을 그 인덱스에서의 테이블값으로 정하는 것을 특징으로 한다.

실험결과, 변형된 다중펄스 최대 유사 양자화기의 세그먼트 신호 대비 노이즈 비율은 0.040325dB 향상되었으며, 계산량에 있어서도 17.7%의 처리속도가 향상되었다. 따라서 고정 소숫점 범용 디지털 신호 처리기에 변형된 다중펄스 최대 유사 양자화기를 실시간 구현하는 것이 가능하다.

Description

다중펄스 최대 유사 양자화기에 구비되는 고정 코드북 이득 테이블 생성방법

본 발명은 음성부호화기에 관한 것으로서, 특히 다중펄스 최대 유사 양자화기에 구비되는 고정 코드북 이득 테이블 생성방법에 관한 것이다.

정보 및 통신문화가 급속히 발달함에 따라 의사전달의 중요한 수단인 음성처리에 관한 연구가 활발히 진행되고 있다. 음성처리에 관한 연구는 크게 음성부호화, 음성인식, 음성변환으로 나눌 수 있다. 이 중, 음성부호화는 최근의 멀티미디어 환경에서 크게 부각되는 기술분야 중 하나이다.

음성부호화에서 가장 크게 고려하는 문제는 적은 수의 비트를 할당하여 원래의 음성에 가까운 음질을 얻는 것이다. 대역폭이 좁은 통신 채널을 통한 장거리 음성통신은 이러한 능력을 요구한다. 장거리 상에서 아날로그 음성의 전송은 일반적으로 많은 노이즈 때문에 음질이 급속히 저하된다. 비록, 디지털 음성의 전송은 이러한 음질의 저하를 극복할 수는 있지만, 아날로그를 디지털로 표현한 펄스 부호 변조(Pulse Code Modulation:이하 PCM이라 한다) 형태에서 전화 수준의 디지털 음성은 64Kbits/s가 요구된다. 따라서, 전화 수준의 디지털 음성은 6KHz 채널인 고주파수(High Frequency:이하 HF라 한다)와 30KHz 채널인 초단파(Very High Frequency:이하 VHF라 한다) 밴드를 통해서는 실시간으로 전송할 수 없게 된다. 여기서 실시간 전송이란 세그먼트 단위 시간 이내에 처리하고, 전송지연을 포함한 총 전송시간이 50msec를 넘지 않아야 한다.

이러한 필요성에 의해 나타난 선형 예측 부호화(Linear Predictive Coding:이하 LPC라 한다)와 같은 기술은 음성을 2.4 kbits/s까지 줄일 수 있다. 그러나, LPC 기술은 심한 음질 저하로 인하여 일반적인 통신에서는 제외되고 있다. 더욱이, 음성편지, 화상회의, 인터넷 폰, 멀티미디어와 같은 통합된 서비스에서는 자연스러운 음질을 유지하면서 음성표현의 비트수를 줄일 수 있는 음성부호화 기술의 중요성이 더욱 증가하고 있다. 음성편지와 멀티미디어는 음성을 저장하는 효과적인 방법이 요구되는 음성저장장치를 필요로 하고, 화상회의는 이미지 전송과 함께 채널에 음성을 효과적으로 표현하는 기술이 요구된다.

오늘날의 이러한 요구에 의해 8 kbits/s 이하의 음성부호화기에 관한 연구가 활발히 진행되고 있다. 8 kbits/s 이하의 음성부호화에 대한 최근 연구의 대부분은 예측부호화(Predictive Coding) 기술을 근간으로 하고 있다. 이 기술이 바탕이 된 가장 일반적인 기술은 1985년 쉬로에더(M.R. Schroeder)와 아탈(B. S. Atal)에 의해 처음 제안된 코드 여기 부호 예측(Code Excited Linear Prediction:이하에서 CELP라 한다)와 1983년 아라제키(T. Arazeki), 오자와(K. Ozawa), 오노(S. Ono), 오치아이(K. Ochiai)에 의해 제안된 다중 펄스 여기(Multi Pulse Excitation:이하에서 MPE라 한다)이다. 이 두가지 방법은 전체 구조와 수행되어지는 방법에 있어 매우 유사하지만 여기신호를 표현하는 방법에 있어 예측 필터에 다소 차이가 있다.

CELP가 코드북으로부터 선택된 랜덤 노이즈 형태의 여기신호를 사용하는 반면, MPE는 임펄스 여기신호를 사용한다. MPE와 CELP는 7.2 kbits/s 이상에서는 뛰어난 성능을 발휘하지만, 4.8 kbits/s 이하에서는 상당한 음질의 손실을 가지고 있다. CELP 시스템은 귀에 거슬리는 쉰 소리와 노이즈가 생기고, MPE 시스템은 거친 소리가 나며 무성음을 잘 처리하지 못한다.

CELP 기술은 4.8 kbits/s에서 가장 뛰어난 음질을 얻을 수 있고, 압축률도 13:1이나 된다. 이러한 개념 정립에도 불구하고 CELP 구현에는 아직 복잡한 문제가 있다. CELP 알고리듬은 코드북을 탐색하는데 있어서 분석·생성 방법인 폐회로 프로시져를 채택하고 있다. 이것은 모든 후보의 여기신호들을 필터링한 후, 생성필터의 출력과 원 입력신호를 비교하여 평균 자승(mean square) 에러를 최소화하는 후보의 열을 찾는 방법으로 탐색을 수행한다. 그런데, 이것은 매우 많은 곱셈과 덧셈 연산을 필요로 하게 된다. 따라서, 이 프로시져를 직접 구현하는데에는 실시간보다 너무 많은 계산시간을 요구한다. 실시간 프로시져는 음성부호화기가 처리하고자 하는 프레임 단위 분량의 데이터를 프레임 단위시간 이내에 처리해야만 한다. 따라서, 실제적인 CELP 시스템은 CELP 계산구조를 지닌 빠른 알고리듬을 사용하여야 한다. 그러나, 빠른 알고리듬을 구현하기 위해서는 계산의 복잡성이 크게 늘어나게 된다.

반면에, MPE는 분석·생성 모드 또는 상관 탐색 모드에서 수행되어질 수 있다. 연산량은 CELP에 비해 약 10배 정도 적다. 그러나 여기신호의 표현에 있어 CELP 덜 정교하기 때문에 CELP에 비해 음질이 다소 떨어진다.

최근 수년간 이 두가지 기술의 문제점을 극복하기 위한 연구가 활발히 진행되고 있다. 또한 디지털 시대의 도래와 함께 디지털 통신을 위해 국제 통신 표준화 기구인 아이.티.유(Internation Telecommunication Union:ITU)에 의해 표준화 작업 또한 활발히 진행되어 왔다. CELP를 기본으로 한 연구들로는 적응 CELP(Adaptive CELP)(7.2 kbits/s), 저지연 CELP(Low-Delay CELP)(16 kbits/s), 대수 CELP(Algebraic CELP)(5.3 kbits/s), 공액 구조 CELP(Conjugate-Structure CELP)(8 kbits/s) 등이 있다. 그리고, MPE를 기본으로 한 연구들로는 다중 펄스 선형 예측 부호화(Multipulse Linear Predictive Coding)(4.8 kbits/s), 다중 펄스 최대 유사 양자화(Multipulse Maximum Likelihood Quantization:이하에서 MPMLQ라 한다)(6.3 kbits/s), 정규 펄스 여기(Regular Pulse Excitation) 등이 있다.

최근 화상회의와 인터넷 폰에서 사용되는 압축율이 6.3 kbits/s인 음성부호화기 MPMLQ가 ITU-T에 의해 권고되고 있다. MPMLQ는 좋은 음질을 유지하면서도 높은 압축율을 지니고 있어 적은 양의 저장장치에 많은 양의 음성을 저장할 수 있는 음성부호화기이다.

그런데, MPMLQ는 음성신호에서 선형 예측 계수와 피치 정보를 추출하고 남은 잔여신호와 가장 유사한 여기신호를 표현할 때 상관법을 이용한다. 상관법은 그것이 디지털 신호처리기 상에 구현될 때 계수 승산 오버플로우를 발생시킬 수 있으므로 연산 후 항상 오버플로우 발생 여부를 점검하여야 한다. 이와 같은 오버플로우 점검 과정은 MPMLQ 구현시 전체 계산량의 많은 부분을 차지하여 실시간 음성 부호화에 어려움을 준다.

본 발명은 상기의 문제점들을 해결하기 위하여 창작된 것으로서, 16비트의 입력신호를 부호화하는 음성부호화기의 성능에 떨어지지 않으면서 실시간 음성 부호화를 위해 14비트의 입력신호를 부호화하는 음성부호화기에 구비된 다중펄스 최대 유사 양자화기에 구비된 고정 코드북 이득 테이블을 생성하는 방법을 제공함을 그 목적으로 한다.

도 1은 코드 여기 선형 예측 부호화기/복호화기의 기본적인 블록도이다.

도 2는 다중 펄스 벡터 생성기의 기본적인 블록도이다.

도 3은 G.723.1 부호화기의 기본적인 블록도이다.

도 4는 원래의 다중펄스 최대 유사 양자화기와 본 발명에 의해 생성된 고정 코드북 이득 테이블을 구비한 변형된 다중펄스 최대 유사 양자화기의 대수적 양자화기들을 비교한 그래프이다.

상기의 목적을 달성하기 위하여, 본 발명에 의한 실시간 음성 부호화를 위해 14비트의 입력신호를 부호화하는 음성부호화기에 구비된 다중펄스 최대 유사 양자화기에 구비된 고정 코드북 이득 테이블을 생성하는 방법은 소정의 수 N개의 인덱스 i(여기서, i=1,…,N)에 대하여 각각, 상기 인덱스 i에 2.65 내지 2.75 사이에서 선택된 소정의 값 K를 곱하고, 그 곱한 값을 20으로 나누고, 그 나눈 값을 10의 지수로 한 값을 그 인덱스에서의 테이블값으로 정하는 것을 특징으로 한다.

이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

먼저, CELP에 대하여 설명한다.

CELP 알고리듬은 적은 비트수를 할당하여 좋은 음질의 음성부호화기를 구현하기 위하여 벡터 양자화(Vector Quantization)를 이용한다.

도 2.1은 CELP의 기본적인 블록도이다.

도 2.1에 도시된 바와 같이 음성 S(n)은 N개의 샘플단위로 블록화되어 분석된다. 각 블록에 대한 분석에 의해 코드북에 저장되어 있는 K 코드북 열 xi(n)(n=1,…,N; i=1,…,K)로부터 가중된 평균 자승 오차(Mean Squared Error:MSE) 기준에 따라 최적의 여기신호를 생성하는 인덱스 k와 이득 G_k를 얻는다.

CELP는 전체 코드북을 탐색하여 최소의 평균 자승 오차(Mean Square Error:MSE)를 출력하는 여기신호 xk(n)을 선택한다. 선택된 여기신호에 해당하는 이득 G_k와 인덱스 k가 선형 예측 필터 1/A(z)의 계수와 함께 수신단으로 전송된다. 이러한 프로시져는 코드북의 모든 열들을 선형 예측 필터와 가중 필터에 통과시켜야 하기 때문에 많은 계산상의 부담이 요구된다.

다음, MPE에 대하여 설명한다.

MPE의 기본적인 구조는 CELP와 같지만 잔여신호를 코드북에서 조사하여 최적의 여기신호를 찾아 그 인덱스를 보내는 것이 아니라, 원 입력 음성신호에서의 선형예측계수와 피치정보를 추출하고 남은 잔여신호를 이용하여 상관 탐색모드에서 수행하며, 완벽하지는 않지만 대표하는 큰 값들이 비슷하게 표현된 여기신호의 펄스들의 위치와 이득을 보내는 것이다. 도 2.2는 MPE가 CELP의 코드북 대신에 여기신호를 표현하는 다중펄스 벡터생성기의 기본적인 구조를 도시하고 있다. CELP가 잔여신호를 최적으로 표현하는 여기신호의 코드북 인덱스를 수신단으로 전송하는 반면에, MPE는 다중펄스 벡터생성기로부터 나온 여기신호에서의 펄스들의 위치와 이득을 수신단으로 전송한다. 이것은 CELP가 코드북 내의 모든 열들을 조사함으로써 요구되는 계산상의 부담을 가지지 않으므로 계산상 많은 이득을 볼 수 있다.

다음, ITU-T 표준안 G.723.1을 설명한다.

G.723.1은 매우 낮은 비트율을 위한 멀티미디어 서비스(ITU-T 권고안 H.324)에서 음성이나 오디오를 압축하기 위한 음성부호화기에 관한 것이다. 이 부호화기는 5.3kbps와 6.3kbps를 지원하며, 30ms 프레임 간격으로 선택적으로 사용가능하다. 또한 불연속 전송과 비 음성구간 동안 노이즈를 채워 전송하는 가변전송은 선택사양으로 되어있다. 이 코더는 제한된 양의 복잡성을 이용하는 상기 두 비트율들에서 높은 질의 음성을 표현하도록 최적화되어 있다. 음악이나 다른 오디오 신호들은 음성만큼 충실하게 표현하지 못하지만, 부호화기와 복호화기가 가능하다. 이 부호화기는 30ms 프레임의 음성이나 다른 오디오 신호들을 부호화한다. 추가적으로 여기에 7.5ms 분량의 선행 데이터가 있어 결과적으로 전체 알로리듬 지연은 37.5ms이다. 이 부호화기의 구현과 수행에 있어 모든 추가적인 지연은 부호화와 복호화에서 데이터를 처리하는데 걸린 실제시간, 통신 링크에서의 전송시간 그리고 멀티플렉싱 프로토콜을 위한 추가적인 버퍼링 지연에서 기인한다. 입력신호는 먼저 아날로그 입력을 전화대역으로 필터링(ITU-T 권고안 G.712)한 다음, 8000Hz로 샘플링하고, 16비트 선형 PCM으로 변환한 디지털신호이다. 이것은 인코딩 전에 16비트 선형 PCM 데이터로 변환되어야 한다. 출력신호는 위와 비슷한 방법에 의해 반대로 변환하여 아날로그 신호를 생성한다.

도 2.3은 G.723.1의 전체 블록도이다.

프레이머(Framer)는 연속적인 음성신호 y[n]을 버퍼링하여 코더가 처리하는 240 샘플의 프레임 s[n]으로 만든다. 각 프레임은 피치 평가(Pitch Estimation)를 위해 120 샘플씩 두 부분으로 나뉘어진다. 각 부분은 다시 두 개로 나뉘어 결국 각 60 샘플씩의 4개의 서브프레임으로 나뉘어진다.

하이패스필터(High Pass Filter)는 입력음성 s[n]으로부터 직류(DC) 성분을 제거한다. 이 필터의 출력은 x[n](n=0,…,239)이다.

선형 예측 부호화 분석(LPC analysis)에서는 음성 부호화기들에서 주로 사용되는 10차 선형분석을 이용한다. 이것은 우선 각 서브프레임에 대해 180 샘플의 해밍(Hamming) 윈도우를 중앙에 씌어 11개의 자기상관계수(autocorrelation coefficient)를 계산한다. 선형 예측계수들은 레빈손-듀빈 회귀(Levinson-Durbin recurrsion) 방법에 의해 모든 입력 프레임에 대해 각 서브프레임마다 하나씩 모두 4개의 선형 예측계수 세트가 계산된다. 이 선형 예측계수들은 단기의(short-term) 인지 가중필터를 만드는데 이용된다. 선형 예측생성필터는 다음과 같다.

여기에서 i는 서브프레임 인덱스이다.

LSP 양자화기(Line Spectrum Pair Quantizer)는 먼저 LPC계수들에 대해 7.5Hz 만큼의 대역 확장을 수행한다. 이것은 계수 0.994로 LPC 생성필터의 폴(pole)을 스케일한다. 그 다음, A₃(z) 선형 예측필터의 결과는 세 개의 서브벡터로 구성된 8비트 코드북 형태의 예측 분할 벡터 양자화기(Predictive Split Vector Quantizer)를 이용하여 양자화한다. 여기서 얻어진 인덱스들은 채널을 통해 전송된다.

LSP 디코더는 우선 세 개의 서브벡터를 10차 벡터형태로 디코드한다. 예측된 벡터에 디코드된 벡터와 직류 벡터를 더하여 디코드된 LSP 벡터를 구한다. 디코드된 LSP 벡터를 수학식 2의 조건에 따라 안전성을 점검한다.

여기서, Δ_min은 31.25Hz이고, 은 n번째 디코드된 LSP벡터이다. 만약 수학식 2의 조건에 만족하지 않으면, 와 을 아래 방법으로 수정한다.

조건을 만족할 때까지 수정하며 계속 수행하고, 10번 반복해서도 안정성 검사조건에 만족하기 못하면 이전의 LSP 벡터를 사용한다.

선형 보간법(Linear Interpolation)은 각 서브프레임에 대해 디코드된 LSP 벡터와 이전의 LSP 벡터 사이에서 수행된다. 보간된 4개의 LSP 벡터들은 LPC 벡터로 변환된다. 양자화된 LPC 생성필터는 디코드된 음성신호를 만드는데 이용된다.

포먼트 인지(Formant Perceptual) 가중필터는 양자화되지 않은 LPC계수를 이용하여 각 서브프레임에 대하여 만들어진다. 입력 음성프레임 x[n]_n=0..239는 4개의 서브프레임으로 나뉘어진 다음, 이 필터를 이용하여 필터링되어져서 가중된 음성신호 f[n]_n=0..239가 얻어진다.

피치추정(Pitch Estimation)은 매 프레임마다 앞의 두 서브프레임에서 하나, 뒤의 두 서브프레임에서 하나의 총 2개의 피치 추정값이 계산된다. 이 추정 피치주기는 가중된 음성신호 f[n]을 이용하여 계산된다. 피치주기는 상호상관기준(Crosscorrelation criterion) C_OL(j)를 최대로 하는 인덱스 j가 된다. 이 식은 다음과 같다.

피치주기는 일반적인 실험 결과에 의해 18에서 145 범위에서 찾는다. 최상의 피치주기를 찾기 위하여 다음과 같은 조건에서 찾아진다. C_OL(j)의 최대값 조사는 j=18에서부터 시작한다. 찾아진 모든 최대값 C_OL(j)에 대해, 이 값은 이전에 찾아진 최대값 C_OL(j')과 비교한다. 만약, 인덱스 j와 j'의 차가 18보다 작고 C_OL(j)>C_OL(j')이면, 새로운 최대값이 선택되고 인덱스의 차가 18보다 크거나 같으면 C_OL(j')이 C_OL(j)보다 1.5dB 큰 경우에만 새로운 최대값이 선택된다. 여기서부터의 모든 계산은 서브프레임을 기본단위로 수행한다.

하모닉 노이즈표현(Harmonic Noise Shaping)은 인코드된 음성의 질을 개선하기 위하여 이용된다. 하모닉 노이즈 필터계수를 계산한 후 가중된 음성 f[n]은 통과시켜 결과벡터 w[n]을 얻는다.

임펄스 응답계산기는 폐회로 분석에서 다음과 같은 결합필터 S_i(z)을 사용한다. 이 필터는 다음과 같다.

임펄스 응답은 {h_i[n]}_{n=0..59,i=0..3}으로 된다.

결합필터 S_i(z)의 영 입력응답(Zero input response)은 입력신호가 모두 영인 샘플일 경우, 그 필터의 출력값을 계산함으로써 얻어진다. 공명 뺄셈(Ringing subtraction)은 하모닉 가중 음성벡터에서 영 입력응답을 뺌으로써 얻는다.

여기서 피치 예측기(Pitch predictor)는 5차 피치 예측기이며 피치 추정기에서 찾은 추정 피치값을 기본으로 하여 서브프레임 각각에 대해 좀 더 정확한 피치값을 예측한다. 서브프레임 0과 2에 대해서는 피치 추정값 주위의 +1, -1 범위에서 선택되고, 7비트를 이용하여 코딩한다(피치 추정값은 전송되지 않음). 서브프레임 1과 3에 대해서는 이전 서브프레임에서 계산된 예측값과 단지 -1, 0, +1, +2 만큼만 다르기 때문에 별도로 2비트를 이용하여 코딩한다. 피치 예측기에서 찾은 피치의 이득은 85개로 구성된 코드북이나 170개로 구성된 코드북 중 적절한 코드북을 선정 벡터양자화한다. 코드북은 서브프레임 0과 1에 대한 피치 예측값(양자화되고 디코드된 피치 래그)이 만약 58보다 작거나, 서브프레임 2와 3에 대한 피치 예측값이 58보다 작으면 피치 이득 양자화에 85개로 구성된 코드북을 사용한다. 피치 예측기에서 만든 출력값을 공명 뺄셈의 결과값에서 뺌으로써 잔여신호 {r[n]}_n=0..59을 얻는다.

MPMLQ는 피치 예측기를 통과하여 나온 잔여신호 {r[n]}_n=0..59를 양자화한다. 양자화 과정은 잔여신호 r[n]을 r'[n]으로 근사화하는 것이다.

여기서 v[n]은 임펄스 응답 h[n]을 가진 결합필터 S(z)에 대한 여기이고, 다음과 같이 정의한다.

여기서 G는 이득인수이고, δ[n]은 디라크 함수, {α_k}_k=0..M-1은 부호(±1)이고, {mk}_k=0..M-1은 디라크 함수의 위치들이고, M은 펄스의 수로 짝수 서브프레임은 6, 홀수 서브프레임은 5이다. 펄스의 위치는 모두 짝수이거나 모두 홀수라는 제한이 있고, 이것을 그리드 비트(grid bit)로 나타낸다. 모르는 파라메터 G, {α_k}_k=0..M-1와 {mk}_k=0..M-1을 추정하는 것은 에러신호 err[n]의 평균 제곱을 최소화하여 구할 수 있다.

파라메타 추정과 양자화 방법은 분석생성(analysis by synthesis) 방법을 기본으로 한다. G_max파라메타는 다음과 같이 추정되고 양자화된다. 먼저 상호 상관함수 d[j]는 임펄스 응답 h[n]과 잔여신호 r[n] 사이에서 계산된다.

추정된 이득은 다음에 의해 주어진다.

그 다음 추정된 이득 G_max는 대수적 양자화기(logarithmic quantizer)에 의해 양자화된다. 이 이득 양자화기는 3.2dB 간격으로 24단계로 구성된다. 이렇게 양자화된 값 G_max주위에서 추가적인 이득값들이 범위 [G_max-3.2, G_max+6.4] 내에서 선택된다. 이 이득값들 각각에 대해 펄스의 부호와 위치가 순차적으로 최적화된다. 이 프로시져는 음과 양 그리고 모두에 대해 반복된다. 그리고 최종적으로 err[n]의 최소의 평균 제곱이 되는 양자화된 파라메터의 조합이 선택된다. 펄스의 위치와 이득이 최적인 조합이 전송된다. 짧은 피치주기를 가진 음성의 질을 개선하기 위해 다음과 같은 추가적인 프로시져를 사용한다. 만약 서브프레임 0과 1에 대해 L₀가 58보다 작거나 서브프레임 2와 3에 대해 L₂가 58보다 작으면, 각각의 위치 m_k를 위해 위의 양자화 프로시져에서의 단일 디라크 함수 대신에 피치 인덱스 L₀나 L₂의 주기인 디라크 함수의 열이 사용된다. 잔여신호를 표현하는데 있어 단일 디라크 함수 또는 디라크 함수들의 열 중 하나를 선택하는 것은 평균 제곱 에러 계산을 근간으로 한다. 최소의 평균 제곱 에러가 되는 구성요소가 선택되면 이것의 파라메타 인덱스들이 전송된다.

MPMLQ 이전에 선형 예측 계수나 피치정보의 추출은 일반적으로 상관법을 이용한다. 뿐만 아니라, MPMLQ는 앞장에서 언급한 것과 같이 잔여신호를 이용하여 상호상관법(Crosscorrelation Method)에 의해 가장 큰 이득을 가지는 펄스의 위치부터 순차적으로 짝수 프레임에서는 6개 홀수는 5개를 찾는다. 이렇게 찾아진 펄스의 조합이 여기신호가 된다. 여기서 상호상관법은 계수승산연산이 루프 안에서 계산된다. 이것은 저렴한 가격대의 16비트 고정 소숫점 범용 DSP에서 쉽게 구현할 수 있다. 그러나, 이 범용 DSP는 가산기만을 추가적인 파워없이 오버플로우를 자동 점검한다. 32비트 결과 레지스터를 가진 계수승산의 경우 16비트 × 16비트 × 60 샘플의 32비트가 가질 수 있는 값을 크게 넘어서기 때문에 항상 오버플로우를 점검하여야 계산 결과값의 변형을 막을 수 있다. 즉, 이것은 계수 승산에 있어서는 프로그래머가 직접 오버플로우를 점검할 수 있도록 프로그램을 구현해야 한다는 의미가 된다. 대부분의 범용 DSP가 한 싸이클로 계수승산을 수행하지만 오버플로우 점검을 위해 한 싸이클 이상을 할당해야 하고, 이것이 실제 구현에 있어 많은 계산량을 차지하여 실시간 구현에 장애요인이 될 수 있다. 본 발명에서는 상호상관법 구현시 오버플로우 점검을 하지 않으면서 권고된 MPMLQ와 같은 음질이 유지되는 변형된 MPMLQ를 창작하였다.

원 MPMLQ의 입력은 16비트 크기의 PCM 데이터이다. 이것이 표현할 수 있는 범위는 -32768 ~ +32767이다. 본 발명에 의한 변형된 MPMLQ에서는 입력신호의 크기에 14비트를 할당하여 입력값의 범위를 -8192 ~ +8191로 한다. 이것은 14비트 × 14비트 × 60 샘플의 결과가 32비트가 표현할 수 있는 수의 범위를 넘지 않는다. 이 경우, 원 MPMLQ에 입력된 음성과 변형된 MPMLQ에 입력된 음성은 값의 범위에서 차이가 있을 뿐이지 음성 파형 형태에서는 변화가 없다.

원 MPMLQ와 변형된 MPMLQ에서 음성신호가 지님 특징적인 파라메터 즉 선형예측계수와 피치정보를 축출하는 방법은 동일하고, 축출된 파라메타의 값을 보면 거의 동일함을 알 수 있다. 결국 선형 예측계수로 만든 선형 예측필터와 피치정보로 만든 장기간(long-term) 필터를 통과시켜 나온 잔여신호는 입력음성값의 LSB 성분이 2비트 줄어들었기 때문에 다소의 손실이 예상되는 신호가 된다.

결국 변형된 MPMLQ에 입력될 잔여신호는 입력음성과 마찬가지로 값의 범위가 2비트 줄어있음을 알 수 있다. 결국 잔여신호에 대부분 포함되어 있는 노이즈 성분과 무성음의 양적인 손실이 예상된다.

원 MPMLQ는 앞에서 언급한 것과 같이 3.2dB 간격으로 24개의 고정 코드북 이득 테이블을 가지고 있다. 이 테이블은 아래 수식과 같은 대수적 양자화기(logarithmic quantizer)의 값을 가지고 있다.

20×log10(x)=3.2×i, i=1,…,24

여기서 x가 테이블을 구성하는 값이 된다. 이것은 잔여신호 중 가장 큰 값부터 찾아진 펄스(짝수 샘플은 6개, 홀수 샘플은 5개)의 대표 이득을 표현하는데 사용된다. 대표 이득은 최초 가장 큰 펄스의 이득을 찾고, 찾은 이득에서 -3.2dB에서 +6.4dB 구간의 이득값을 펄스의 이득으로 하여 잔여신호와의 차가 최소인 이득을 최종 이득으로 하고 있다.

변형된 MPMLQ는 줄어든 펄스의 값을 표현하는데 사용되는 고정 코드북 이득 테이블을 변형시켜 보다 자세하게 펄스의 값을 표현하였다. 실험을 통하여 얻어진 2.7dB를 간격이 2비트 줄어든 입력 음성신호의 잔여신호를 최적으로 함을 알 수 있고, 따라서 수학식 13은 아래와 같은 식으로 변형되어 24단계의 새로운 고정 코드북 이득 테이블이 만들어지고, 최종 이득을 찾는 범위도 실험을 통하여 -2.7dB에서 +5.4dB로 최적화하였다.

20×log10(x)=2.7×i, i=1,…,24

도 4는 원 MPMLQ와 변형된 MPMLQ에서 사용된 대수적 양자화기의 테이블값을 그래프로 나타낸 것이다.

본 발명에 의해 변형된 MPMLQ가 원 MPMLQ에 비하여 계산량은 많이 줄이면서 음질의 저하는 최소가 되도록 하기 위해 변형시킨 고정 코드북 이득 테이블을 3.2dB에서 0.05dB씩 변화시켜 보면서 테이블을 만들고, C 언어로 구현한 시뮬레이션 프로그램에 적용하여 각각의 SSNR(Segment Signal to Noise Ratio)를 계산하여 원 MPMLQ와 최소의 SSNR의 차를 보이는 고정 코드북 이득 테이블을 선정하였다. 실험에 적용한 음성은 남자 2명, 여자 2명이다. 그리고, 이것을 실제 16비트 고정 소숫점 범용 DSP인 ADSP2181에 실시간 구현하였다.

고정 코드북 이득 테이블은 대수적 양자화기로써 수학식 13과 같다. 여기서 3.2는 간격 dB이고, i는 고정 코드북 이득 테이블 원소의 수이다. x가 테이블을 이루는 원소이다.

원 MPMLQ에서 이 테이블의 최대값은 13246으로 이 값은 잔여신호가 가질 수 있는 최대 범위를 나타내므로, 2비트 범위가 줄어든 변형된 MPMLQ에서는 이 값을 2비트 만큼 줄인 3312를 최대로 하여 고정 코드북 이득 테이블을 구성하였다. 표 1과 표 2는 3.2dB 간격을 0.05dB 만큼 차를 두도록 하여 새로운 간격을 만들고 이 간격을 이용하여 실험을 위한 새롭게 구성한 고정 코드북 이득 테이블이다.

실험을 위한 고정 코드북 이득 테이블 1

간격	3.30	3.20	3.15	3.10	3.05	3.00	2.95
0	1	1	1	1	1	1	1
1	1	1	1	1	1	2	2
2	1	1	2	2	2	2	3
3	2	2	2	3	3	3	4
4	2	3	3	4	4	5	5
5	4	4	5	5	6	7	7
6	5	6	7	8	8	9	10
7	8	9	10	11	12	13	14
8	11	13	14	16	17	19	20
9	16	19	21	22	24	26	29
10	24	28	30	32	34	37	40
11	35	40	43	46	49	52	56
12	51	58	61	65	70	74	79
13	74	83	88	93	99	105	111
14	108	120	127	133	140	148	156
15	158	174	182	191	200	209	219
16	232	251	262	272	283	295	307
17	339	363	376	389	403	417	432
18	495	525	540	556	572	589	606
19	724	759	776	794	813	832	851
20	1059	1096	1116	1135	1155	1175	1195
21	1549	1585	1603	1622	1641	1660	1679
22	2265	2291	2304	2317	2331	2344	2358
23	3311	3311	3311	3311	3311	3311	3311

실험을 위한 고정 코드북 이득 테이블 2

간격	2.90	2.85	2.80	2.75	2.70	2.62	2.60
0	2	2	2	2	3	3	3
1	2	2	3	3	4	4	5
2	3	3	4	4	5	5	6
3	4	5	5	6	7	7	8
4	6	6	7	8	9	10	11
5	8	9	10	11	12	14	15
6	11	13	14	15	17	19	20
7	16	17	19	21	23	25	28
8	22	24	26	29	31	34	37
9	31	33	36	39	43	46	50
10	43	47	50	54	58	63	68
11	60	65	69	74	79	85	91
12	84	90	95	102	108	115	123
13	117	124	132	140	148	157	166
14	164	173	182	192	202	213	224
15	229	240	251	263	275	288	302
16	320	333	347	361	376	391	407
17	447	462	479	495	513	531	550
18	624	642	661	680	700	720	741
19	871	891	912	933	955	977	1000
20	1216	1237	1259	1281	1303	1326	1349
21	1698	1718	1738	1758	1778	1799	1820
22	2371	2385	2399	2413	2427	2441	2455
23	3311	3311	3311	3311	3311	3311	3311

본 발명에 의하여 변형된 MPMLQ를 실시간에 구현하고자 한다. 고정 소숫점 범용 DSP는 부동 소숫점 범용 DSP에 비해 저가이므로 가능하다면 고정 소숫점 범용 DSP에 구현하는 것이 상용화를 위한 시스템들에서 효율적이다. 따라서, 본 발명에서는 고정 소숫점 범용 DSP를 이용하여 구현하고자 한다. 현재 시중에는 다수의 고정 소숫점 범용 DSP가 출시되어 있다. 본 실험에서 선택한 고정 소숫점 범용 DSP는 Analog Device사의 ADSP2181이다. 이 DSP는 33MIPS로 동작하며, 32K 데이터 메모리를 내부에 구비한 범용 DSP이다. ADSP2181은 33MIPS의 처리속도를 가지므로 음성을 30ms 프레임 단위로 버퍼링하여 처리하는 MPMLQ는 990,000싸이클 이내에 연산을 마쳐야 한다. 나눗셈을 제외한 모든 명령이 1싸이클에 끝나는 ADSP2181은 최대 990,000개의 명령을 30ms의 음성을 처리해야 실시간 처리가 되는 것이다. 실시간 구현의 제약조건은 결국 DSP가 가지는 최대 처리속도 이내에 구현이 가능해야 하고, 이와 더불어 시스템의 가격측면을 고려하여 어셈블 소스의 코드 크기를 가능한 최소로 하여 구현하여야 한다.

본 실시간 구현 실험에서는 계산량과 코드 크기를 줄이는 것을 동시에 고려하여 구현하였다.

고정 소숫점 DSP를 이용하여, 원 MPMLQ에 의해 수학식 15를 실시간 구현한 예를 보면 다음과 같다.

m1=1;

i0=^h; l0=0;

i1=^h; l1=0;

mr=0;

cntr=60;

do until sum;

mx0=dm(i0,m1);

my0=dm(i1,m1);

sum: mr=mr+mx0*my0(ss);

sum: if mv sat mr;

한편, 고정 소숫점 DSP를 이용하여, 변형된 MPMLQ에 의해 수학식 15를 실시간 구현한 예를 보면 다음과 같다.

m1=1;

i0=^h; l0=0;

i1=^h; l1=0;

mr=0;

cntr=60;

do until sum;

mx0=dm(i0,m1);

my0=dm(i1,m1);

sum: mr=mr+mx0*my0(ss);

이와 같이 본 발명에 의하면, 서브프레임 하나에 대한 구현에서만 약 60개의 명령이 절감됨을 알 수 있다.

원 MPMLQ와 가장 적은 차이의 SSNR을 가지는 고정 코드북 이득 테이블을 선정하기 위한 실험으로 표 1 및 표 2의 값을 각 간격마다 테이블로 하여 시뮬레이션 프로그램에 적용하여 SSNR을 구했다. 입력 음성으로 남성 2명과 여성 2명의 총 4명의 테스트 음성을 입력하였다. 표 3은 실험에 사용된 입력 음성 데이터의 특성을 나타낸 표이다.

실험에 사용된 입력 음성신호의 특성

입력 음성신호 형태	프레임 수(프레임:30ms)
남 1	512
남 2	656
여 1	983
여 2	674

여기에서 남 1과 여 1은 각각 20dB의 남 2와 여 2는 각각 18dB의 배경 노이즈를 갖는다.

16비트 범위의 입력음성과 14비트 범위의 입력 음성으로만 하였을 경우에는 LPC계수와 피치 등에 아주 적은 값의 변화를 가지고 있다. 이것은 실제 입력 파형의 변화 즉 입력신호의 크기 변화는 있지만 선형 예측의 특성은 거의 변화하지 않음을 알 수 있다. 표 4는 입력신호에 따른 LPC 계수의 변화를 보이고 있다.

입력 신호에 따른 LPC 계수

프레임번호	서브번호	입력데이터형태	0'	1'	2'	3'	4'	5'	6'	7'	8'	9'
프레임1	서브1	16비트	1.16	-0.28	0.14	-0.07	0.05	-0.06	-0.01	0.02	0.01	-0.01
	서브1	14비트	1.16	-0.28	0.14	-0.07	0.05	-0.07	-0.00	0.02	0.01	-0.01
	서브2	16비트	1.19	-0.25	0.12	-0.07	0.04	-0.07	-0.01	0.04	0.00	-0.02
	서브2	14비트	1.19	-0.25	0.12	-0.06	0.04	-0.07	-0.01	0.03	0.01	-0.02
프레임2	서브1	16비트	1.04	0.01	0.04	-0.01	-0.05	0.00	-0.02	0.04	-0.02	-0.03
	서브1	14비트	1.03	0.02	0.04	-0.01	-0.05	-0.01	-0.02	0.04	-0.02	-0.03
	서브2	16비트	0.98	0.06	0.07	-0.25	-0.02	-0.02	0.07	0.17	-0.09	0.00
	서브2	14비트	0.98	0.06	0.08	-0.26	-0.03	-0.02	0.07	0.16	-0.08	0.00
프레임3	서브1	16비트	1.04	-0.07	0.07	-0.23	0.25	-0.17	-0.01	0.06	-0.11	0.14
	서브1	14비트	1.04	-0.07	0.07	-0.23	0.25	-0.16	-0.01	0.06	-0.10	0.14
	서브2	16비트	1.17	-0.34	0.03	0.02	0.15	-0.31	0.25	0.05	-0.17	0.11
	서브2	14비트	1.17	-0.34	0.04	0.01	0.15	-0.31	0.25	0.06	-0.16	0.10
프레임4	서브1	16비트	1.03	-0.41	0.47	-0.37	0.39	-0.36	0.15	-0.04	-0.03	0.02
	서브1	14비트	1.02	-0.40	0.47	-0.38	0.39	-0.35	0.15	-0.04	-0.03	0.02
	서브2	16비트	0.76	0.10	-0.09	-0.15	0.25	-0.18	0.01	0.05	0.18	-0.16
	서브2	14비트	0.75	0.11	-0.10	-0.15	0.25	-0.17	0.01	0.05	0.18	-0.16

MPMLQ와 변형된 MPMLQ 음질 비교

구분	남 1	남 2	여 1	여 2	평균
원 MPMLQ	18.960831	18.528168	19.805878	19.143625	19.109626
변형된 MPMLQ	18.960623	18.704473	19.792524	19.142183	19.149951
차	-0.000208	0.176305	-0.013354	-0.001442	0.04032525

고정 코드북 이득 테이블 변경 실험 결과

간격	남 1	남 2	여 1	여 2	평균
3.30	18.930483	18.504933	19.015878	19.083725	18.883755
3.20	18.862725	18.431285	19.696878	19.060795	19.012921
3.15	18.885565	18.440141	19.001210	18.984715	18.827908
3.10	18.838737	18.360917	18.899321	18.975052	18.768507
3.05	18.880138	18.401235	18.881705	19.010492	18.793393
3.00	18.895964	18.400103	18.991735	18.945787	18.808397
2.95	18.800673	18.398784	19.015147	19.002738	18.804336
2.90	18.665758	18.331247	18.892154	19.022310	18.727867
2.85	18.768745	18.339046	19.412915	19.038763	18.889867
2.80	18.882442	18.411210	19.431759	18.996191	18.930151
2.75	18.834839	18.691732	19.518333	19.122577	19.041870
2.70	18.960623	18.704473	19.792524	19.142183	19.149951
2.65	18.780226	18.500174	19.703118	19.035414	19.004733
2.60	18.911410	18.314914	18.766943	18.775210	18.692119

음질의 측면에서 입력신호의 다운 스케일링은 실험데이터의 경우에 있어 원 MPMLQ에서 약 0.1dB의 음질 저하가 발생한다. 표 6의 실험결과표에서 보는 바와 같이 변형된 MPMLQ에서 2.70dB의 간격을 지닌 고정 코드북 이득 테이블을 적용한 경우가 원 MPMLQ 와 가장 근사한 SSNR을 보인다. 따라서, 본 발명에서는 변형된 MPMLQ의 고정 코드북 이득 테이블로 2.7dB 간격을 채택한다. 표 5에 나타난 결과는 2.7dB 간격을 채택한 변형된 MPMLQ와 원 MPMLQ의 SSNR을 비교한 것이다. 이 결과에 의하면, 변형된 MPMLQ는 실험 데이터에 있어서 약 0.0403252dB(평균)의 음질 향상을 보였다.

G.723.1 각 모듈량의 계산량

모듈	프로필(%)	구현
모듈	프로필(%)	%	MIPS
하이패스 필터	0.416	0.418	0.117
LPC 분석	4.009	4.008	1.122
LSP 양자화기	3.495	3.493	0.978
LSP 부호화기	0.022	0.020	0.006
LSP 보간	0.275	0.274	0.077
포만트 인식 가중화	1.705	1.708	0.478
피치 추정기	9.559	9.560	2.677
하모닉 노이즈 표현	1.345	1.348	0.387
임펄스 응답 계산	2.789	2.787	0.780
영 입력 응답	2.840	2.839	0.795
피치 예측기	33.661	32.640	9.139
MPMLQ	36.302	37.303	10.445
여기 복호화기	0.523	0.533	0.149
피치 복호화기	0.109	0.108	0.030
메모리 갱신	2.950	2.970	0.832
전체	100	100	28.012

실시간 구현 결과

구분	계산량	구현된 알고리듬의 실시간 처리여부	프로그램 메모리의 크기	데이터 메모리의 크기
원 MPMLQ	34MIPS	불가능	8852워드	13497워드
변형된 MPMLQ	28MIPS	가능	8814워드	13497워드

MPMLQ를 시뮬레이션하여 각 모듈을 예측한 결과는 표 7에 보인다. 표 7은 도 3의 블록도를 기본으로 G.723.1 전체에서 MPMLQ의 계산량을 백분율로 나타낸 것과 각 모듈을 실제 ADSP2181에 구현하였을 때의 계산량과 백분율을 나타내고 있다.

표 7의 결과는 실험에 사용된 입력 음성 데이터 모두를 실험하여 얻는 평균값이고, 얻어진 계산량 즉 MIPS는 표 8의 구현 결과인 28MIPS를 기본으로 하고 있다. 표 8은 구현된 MPMLQ의 계산량과 사용된 메모리 양을 보여주고 있다.

표 8에서 보는 것과 같이 원 MPMLQ에서 모든 오버플로우를 점검하도록 하여 구현하였을 경우에는 34MIPS의 계산량을 가지므로 실험에서 구현코자한 ADSP2181에서 실시간 구현이 불가능하였다. 그러나, 제안된 MPMLQ의 결과는 28MIPS로 실시간 구현이 가능함을 알 수 있다. 실제로 다른 최적화 알고리듬으로 구현한다면, 실시간 구현이 가능하나 본 실험에서는 MPMLQ의 코드북 테이블을 입력 데이터의 범위에 맞도록 수정하여 오버플로우 연산을 줄임으로써 쉽게 17.7%의 계산량 성능 향상이 가능하다.

조정되어 최적의 고정 코드북 이득 테이블이 선택된 2.7dB 간격의 테이블에서 시험 데이터의 평균 SSNR은 원 MPMLQ와 거의 같은 수준의 음질을 유지하였다. 남 1, 여 1 그리고 여 2 데이터는 원 MPMLQ의 SSNR보다 아주 적은 정도(0.005dB)의 음질 저하를 안고 있지만, 거의 같은 수준으로 볼 수 있었다. 그러나, 남 2에서는 조정된 MPMLQ에서의 SSNR이 특별히 좋아져 전체 실험 데이터의 평균은 좋아진 것으로 나타났다. 그 원인은 입력 데이터의 특징으로 살펴본 결과, 남 2의 데이터는 음성 데이터의 크기 즉 전체적인 에너지 레벨이 타 실험 데이터보다 상당히 높았고, 이것은 고정 코드북 이득 테이블의 표현 범위가 줄어들게 됨으로써 원 MPMLQ 보다 적은 음질저하를 나타낸 것으로 분석된다.

본 실험에서 입력 음성 데이터의 범위를 줄여 17.7%의 처리속도 향상을 얻어 실시간 구현을 쉽게 할 수 있도록 하고, 이로 인한 음질의 손실흔 최소로 하기 위해 조정한 고정 코드북 이득 테이블을 가진 MPMLQ의 음질이 0.040325dB의 성능 향상을 가져온 것은 다른 음성부호화기의 설계 시에도 충분히 고려하여 설계할 수 있는 방법을 제시하였다.

본 발명에 의하면, 16비트의 입력신호를 부호화하는 음성부호화기의 성능에 떨어지지 않으면서 고정 소숫점 범용 디지털 신호 처리기에 다중펄스 최대 유사 양자화기를 실시간 구현하는 것이 가능하다.

Claims

실시간 음성 부호화를 위해 14비트의 입력신호를 부호화하는 음성부호화기에 구비된 다중펄스 최대 유사 양자화기에 구비된 고정 코드북 이득 테이블을 생성하는 방법에 있어서,

소정의 수 N개의 인덱스 i(여기서, i=1,…,N)에 대하여 각각, 상기 인덱스 i에 2.65 내지 2.75 사이에서 선택된 소정의 값 K를 곱하고, 그 곱한 값을 20으로 나누고, 그 나눈 값을 10의 지수로 한 값을 그 인덱스에서의 테이블값으로 정하는 것을 특징으로 하는 다중펄스 최대 유사 양자화기에 구비되는 고정 코드북 이득 테이블 생성방법.
제1항에서, 상기 소정의 수 N은

24임을 특징으로 하는 다중펄스 최대 유사 양자화기에 구비되는 고정 코드북 이득 테이블 생성방법.