KR101029398B1

KR101029398B1 - 벡터 양자화 장치 및 방법

Info

Publication number: KR101029398B1
Application number: KR1020087019303A
Authority: KR
Inventors: 가즈토시 야스나가; 도시유키 모리이
Original assignee: 파나소닉 주식회사
Priority date: 1997-10-22
Filing date: 1998-10-22
Publication date: 2011-04-14
Also published as: KR20000069562A; DE69838305D1; HK1103843A1; CA2275266A1; US7925501B2; KR20080078924A; EP1755227A3; EP1746582A1; US7499854B2; EP1746582B1; KR100651438B1; HK1097637A1; KR20040005928A; KR20050090026A; US20050203734A1; CN1632864A; EP0967594A1; KR20070087152A; US20060080091A1; EP1734512A2

Abstract

음원 벡터를 생성하는 장치에 있어서, 펄스 벡터를 생성하는 채널을 N 채널(N≥1) 갖는 펄스 벡터 생성부와, N 개의 채널에 대응하여 채널마다 M 종류(M≥1)의 확산 패턴이 저장된 저장부와, 저장부로부터 확산 패턴을 채널마다 선택적으로 취출하는 선택부와, 취출된 확산 패턴과 생성된 펄스 벡터와의 컨볼루션 연산을 채널마다 행하여 N 개의 확산 벡터를 생성하는 확산부와, 생성된 N 개의 확산 벡터로부터 음원 벡터를 생성하는 음원 벡터 생성부를 구비한다.

Description

벡터 양자화 장치 및 방법{VECTOR QUANTIZATION APPARATUS AND VECTOR QUANTIZATION METHOD}

도 1은 종래의 CELP형 음성 부호화 장치의 기능 블럭도,

도 2는 종래의 CELP형 음성 복호화 장치의 기능 블럭도,

도 3은 본 발명의 실시예 1에 관한 음원 벡터 생성 장치의 기능 블럭도,

도 4는 본 발명의 실시예 2에 관한 CELP형 음성 부호화 장치의 기능 블럭도,

도 5는 본 발명의 실시예 2에 관한 CELP형 음성 복호화 장치의 기능 블럭도,

도 6은 본 발명의 실시예 3에 관한 CELP형 음성 부호화 장치의 기능 블럭도,

도 7은 본 발명의 실시예 4에 관한 CELP형 음성 부호화 장치의 기능 블럭도,

도 8은 본 발명의 실시예 5에 관한 CELP형 음성 부호화 장치의 기능 블럭도,

도 9는 실시예 5에 있어서의 벡터 양자화 기능의 블럭도,

도 10은 실시예 5에 있어서의 타겟 추출의 알고리즘을 설명하기 위한 도면,

도 11은 실시예 5에 있어서의 예측 양자화의 기능 블럭도,

도 12는 실시예 6에 있어서의 예측 양자화의 기능 블럭도,

도 13은 실시예 7에 있어서의 CELP형 음성 부호화 장치의 기능 블럭도,

도 14는 실시예 7에 있어서의 왜곡 계산부의 기능 블럭도.

본 발명은, 음성 정보를 효율적으로 부호화 및 복호화하기 위한 음성 부호화 장치 및 음성 복호화 장치에 관한 것이다.

현재, 음성 정보를 효율적으로 부호화 및 복호화하기 위한 음성 부호화 기술이 개발되어 있다. Code Excited Linear Prediction : "High Quality Speech at Low Bit Rate", M. R. Schroeder, Proc. ICASSP'85, pp.937-940에는, 이러한 음성 부호화 기술에 기초를 둔 CELP형 음성 부호화 장치가 기재되어 있다. 이 음성 부호화 장치는, 입력 음성을 일정 시간으로 구분한 프레임마다 선형 예측하여, 프레임마다 선형 예측에 의해 예측 잔차(여진(勵振) 신호)를 구하고, 이 예측 잔차를 과거의 구동 음원이 저장된 적응 코드북(adaptive codebook)과 복수의 잡음 부호 벡터가 저장된 잡음 코드북을 이용하여 부호화한다.

도 1에 종래의 CELP형 음성 부호화 장치의 기능 블럭을 도시한다.

이 CELP형 음성 부호화 장치에 입력된 음성 신호(11)가 선형 예측 분석부(12)에서 선형 예측 분석된다. 이 선형 예측 분석에 의해 선형 예측 계수가 얻어진다. 선형 예측 계수는, 음성 신호(11)의 주파수 스펙트럼의 포락(包絡) 특성을 나타내는 파라미터이다. 선형 예측 분석부(12)에서 얻어진 선형 예측 계수는, 선형 예측 계수 부호화부(13)에 있어서 양자화되고, 양자화된 선형 예측 계수가 선형 예측 계수 복호화부(14)로 보내어진다. 또, 양자화에 의해 얻어지는 양자화 번 호는, 선형 예측 부호로서 부호 출력부(24)로 출력된다. 선형 예측 계수 복호화부(14)는 선형 예측 계수 부호화부(13)에서 양자화된 선형 예측 계수를 복호화하여 합성 필터의 계수를 얻는다. 선형 예측 계수 복호화부(14)는 합성 필터의 계수를 합성 필터(15)로 출력한다.

적응 코드북(17)은, 적응 부호 벡터의 후보를 복수 종류 출력하는 코드북으로서, 구동 음원을 과거의 수 프레임분만큼 저장하는 버퍼에 의해 구성된다. 적응 부호 벡터는 입력 음성내의 주기 성분을 표현하는 시계열(時系列) 벡터이다.

잡음 코드북(18)은, 잡음 부호 벡터의 후보를 복수 종류(할당된 비트수에 대응하는 종류) 저장한 코드북이다. 잡음 부호 벡터는 입력 음성내의 비주기 성분을 표현하는 시계열 벡터이다.

적응 코드북 이득 가중부(19) 및 잡음 부호 이득 가중부(20)는, 적응 코드북(17) 및 잡음 코드북(18)으로부터 출력되는 후보 벡터 각각에 대하여, 가중치 코드북(21)으로부터 판독한 적응 코드북 이득과 잡음 부호 이득을 각각 승산하여, 가산부(22)로 출력한다.

가중치 코드북이란, 적응 부호 벡터 후보에게 승산하는 가중치와, 잡음 부호 벡터 후보에게 승산하는 가중치를 각각 복수 종류(할당된 비트수에 대응하는 종류)씩 저장한 메모리이다.

가산부(22)는, 적응 코드북 이득 가중부(19), 잡음 부호 이득 가중부(20)에 있어서 각각 가중된 적응 부호 벡터 후보와 잡음 부호 벡터 후보를 가산해서 구동 음원 벡터 후보를 생성하여, 합성 필터(15)로 출력한다.

합성 필터(15)는 선형 예측 계수 복호화부(14)에서 얻어진 합성 필터의 계수에 의해 구성되는 전극(全極)형 필터이다. 합성 필터(15)에서는, 가산부(22)로부터의 구동 음원 벡터 후보가 입력되면, 합성 음성 벡터 후보를 출력하는 기능을 가지고 있다.

왜곡 계산부(16)는 합성 필터(15)의 출력인 합성 음성 벡터 후보와 입력 음성(11)의 왜곡을 계산하여, 얻어진 왜곡의 값을 부호 번호 특정부(23)에 출력한다. 부호 번호 특정부(23)는, 왜곡 계산부(16)에서 산출하는 왜곡을 최소화할 것 같은 3 종류의 부호 번호(적응 부호 번호, 잡음 부호 번호, 가중치 부호 번호)를, 3 종류의 코드북(적응 코드북, 잡음 코드북, 가중치 코드북) 각각에 대하여 특정한다. 그리고, 부호 번호 특정부(23)에서 특정된 3 종류의 부호 번호는, 부호 출력부(24)로 출력된다. 부호 출력부(24)는, 선형 예측 계수 부호화부(13)에서 얻어진 선형 예측 부호 번호와, 부호 번호 특정부(23)에서 특정된 적응 부호 번호, 잡음 부호 번호, 가중치 부호 번호를 정리하여, 전송로로 출력한다.

도 2에 상기 부호화 장치에서 부호화된 신호를 복호화하는 CELP형 음성 복호화 장치의 기능 블럭을 도시한다. 이 음성 복호화 장치에서는, 부호 입력부(31)가, 음성 부호화 장치(도 1)로부터 송신된 부호를 수신하여, 수신한 부호를 선형 예측 부호 번호, 적응 부호 번호, 잡음 부호 번호, 가중치 부호 번호로 분해하고, 분해하여 얻어진 부호를 각각, 선형 예측 계수 복호화부(32), 적응 코드북(33), 잡음 코드북(34), 가중치 코드북(35)으로 출력한다.

다음에, 선형 예측 계수 복호화부(32)가 부호 입력부(31)에서 얻어진 선형 예측 부호 번호를 복호화하여 합성 필터의 계수를 얻어, 합성 필터(39)로 출력한다. 그리고, 적응 코드북내의 적응 부호 번호와 대응하는 위치로부터 적응 부호 벡터가 판독되고, 잡음 코드북으로부터 잡음 부호 번호와 대응하는 잡음 부호 벡터가 판독되며, 또한, 가중치 코드북으로부터 가중치 부호 번호와 대응한 적응 코드북 이득과 잡음 부호 이득이 판독된다. 그리고, 적응 부호 벡터 가중부(36)에 있어서, 적응 부호 벡터에 적응 코드북 이득이 승산되어 가산부(38)로 보내어진다. 또한 마찬가지로, 잡음 부호 벡터 가중부(37)에 있어서, 잡음 부호 벡터에 잡음 부호 이득이 승산되어 가산부(38)로 보내어진다.

가산부(38)는, 상기 2개의 부호 벡터가 가산되어 구동 음원 벡터를 생성하고, 생성된 구동 음원은, 버퍼 갱신을 위해 적응 코드북(33)으로, 또한, 필터를 구동하기 위해 합성 필터(39)로 보내어진다. 합성 필터(39)는, 가산부(38)에서 얻어진 구동 음원 벡터로 구동되고, 선형 예측 계수 복호화부(32)의 출력을 이용하여 합성 음성을 재생한다.

또, CELP형 음성 부호화 장치의 왜곡 계산부(16)에서는, 일반적으로, 다음 수학식(수학식 1)에 의해 구해지는 왜곡 E가 계산된다.

v : 입력 음성 신호(벡터)

H : 합성 필터의 임펄스 응답 중첩 행렬

단, h는 합성 필터의 임펄스 응답(벡터), L은 프레임 길이

p : 적응 부호 벡터

c : 잡음 부호 벡터

ga : 적응 코드북 이득

gc : 잡음 부호 이득

여기서, 수학식 1의 왜곡 E를 최소화하기 위해서는, 적응 부호 번호, 잡음 부호 번호, 가중치 부호 번호의 전(全) 조합에 대하여 폐루프로 왜곡을 산출하여, 각 부호 번호를 특정할 필요가 있다.

그러나, 수학식 1에 대하여 폐루프 탐색하면 연산 처리량이 지나치게 커지기 때문에, 일반적으로는, 우선, 적응 코드북을 이용하여 벡터 양자화에 의해 적응 부호 번호를 특정하고, 다음에 잡음 코드북을 이용한 벡터 양자화에 의해 잡음 부호 번호를 특정하며, 최후에, 가중치 코드북을 이용한 벡터 양자화에 의해 가중치 부호 번호를 특정한다. 여기서는, 이 경우에 대하여, 잡음 코드북을 이용한 벡터 양자화 처리를 더 상세히 설명한다.

적응 부호 번호 및 적응 코드북 이득이, 사전에 또는 잠정적으로 결정되어 있는 경우에는, 수학식 1의 왜곡 평가식은 다음 수학식 2로 변형된다.

단, 수학식 2중의 벡터 x는, 사전에 또는 잠정적으로 특정한 적응 부호 번호와 적응 코드북 이득을 이용한, 다음 수학식 3에 의해 구해지는 잡음 음원 정보(잡음 부호 번호 특정용의 타겟 벡터)이다.

ga : 적응 코드북 이득

v : 음성 신호(벡터)

H : 합성 필터의 임펄스 응답 중첩 행렬

p : 적응 부호 벡터

잡음 부호 번호를 특정한 후에 잡음 부호 이득 gc를 특정하는 경우에는, 수학식 2중의 gc가 임의의 값을 취할 수 있다고 가정할 수 있기 때문에, 수학식 2를 최소화하는 잡음 부호 벡터의 번호를 특정하는 처리(잡음 음원 정보의 벡터 양자화 처리)는, 다음 수학식 4의 분수식을 최대화하는 잡음 부호 벡터의 번호 특정으로 치환되는 것이 일반적으로 알려져 있다.

즉, 적응 부호 번호 및 적응 코드북 이득이 사전에 또는 잠정적으로 특정되어 있는 경우, 잡음 음원 정보의 벡터 양자화 처리란, 왜곡 계산부(16)에서 산출하는 수학식 4의 분수식을 최대화하는 잡음 부호 벡터 후보의 번호를 특정하는 처리로 된다.

초기의 CELP형 부호화 장치/복호화 장치로는, 할당된 비트수에 대응하는 종류의 랜덤 수열을 메모리에 저장한 것이 잡음 코드북으로서 되어 있었다. 그러나, 대단히 많은 메모리 용량이 필요하게 됨과 동시에, 잡음 부호 벡터 후보 각각에 대하여 수학식 4의 왜곡을 계산하기 위한 연산 처리량이 방대하게 된다고 하는 과제가 있었다.

이 과제를 해결하는 하나의 방법으로서는, "8KBIT/S ACELP CODING OF SPEECH WITH 10 MS SPEECHFRAME : A CANDIDATE FOR CCITT STANDARDIZATION" : R. Salami, C. Laflamme, JP. Adoul, ICASSP'94, pp.Ⅱ97∼Ⅱ100, 1994 등에 기재된 바와 같이, 대수적으로 음원 벡터를 생성하는 대수적 음원 벡터 생성부를 이용한 CELP형 음성 부호화 장치/복호화 장치를 들 수 있다.

그러나, 상기 대수적 음원 생성부를 잡음 코드북에 이용한 CELP형 음성 부호화 장치/복호화 장치로는, 수학식 3에 의해 구한 잡음 음원 정보(잡음 부호 번호 특정용의 타겟)를, 소수(少數)개의 펄스로 항상 근사 표현하고 있기 때문에, 음성 품질의 향상을 도모하는 데에 있어서 한계가 있다. 이것은, 수학식 3의 잡음 음원 정보 x의 요소를 실제로 조사하면, 그것이 소수개의 펄스만에 의해 구성되는 경우가 거의 없는 것으로부터 명확하다.

본 발명은, 음성 신호를 실제로 분석하였을 때에 얻어지는 음원 벡터의 형상과, 통계적으로 유사성이 높은 형상의 음원 벡터를 생성할 수 있는 새로운 음원 벡터 생성 장치를 제공하는 것을 목적으로 한다.

또한 본 발명은, 상기 음원 벡터 생성 장치를 잡음 코드북으로서 이용하는 것으로, 대수적 음원 생성부를 잡음 코드북으로서 이용하는 경우보다 품질이 높은 합성 음성을 얻는 것이 가능한 CELP 음성 부호화 장치/복호화 장치, 음성 신호 통신 시스템, 음성 신호 기록 시스템을 제공하는 것을 목적으로 한다.

본 발명의 제 1 형태는, 벡터축상의 임의의 1 요소에 극성 부여 단위 펄스가 배치된 펄스 벡터를 생성하는 채널을 N 개(N≥1) 구비한 펄스 벡터 생성부와, 상기 N 개의 채널마다 M 종류(M≥1)의 확산 패턴을 저장하는 기능과, 저장한 M 종류의 확산 패턴으로부터 임의의 1 종류의 확산 패턴을 선택하는 기능을 더불어 갖는 확산 패턴 저장·선택부와, 상기 펄스 벡터 생성부로부터 출력되는 펄스 벡터와 상기 확산 패턴 저장·선택부로부터 선택되는 확산 패턴과의 컨볼루션 연산(중첩 연산) 을 채널마다 실행하여, N 개의 확산 벡터를 생성하는 기능을 갖는 펄스 벡터 확산부와, 상기 펄스 벡터 확산부에 의해 생성되는 N 개의 확산 벡터를 가산하여 음원 벡터를 생성하는 기능을 갖는 확산 벡터 가산부를 구비하는 것을 특징으로 하는 음원 벡터 생성 장치로서, 상기 펄스 벡터 생성부에, N 개(N≥1)의 펄스 벡터를 대수적으로 생성하는 기능을 갖게 하는 것, 또한, 상기 확산 패턴 저장·선택부가, 실제의 음원 벡터의 형상(특성)을 사전에 학습하는 것에 의해 얻어진 확산 패턴을 저장해 놓음으로써, 종래의 대수적 음원 생성부보다도, 실제의 음원 벡터의 형상에 매우 유사한 형상의 음원 벡터를 생성하는 것이 가능하게 된다.

또한 본 발명의 제 2 형태는, 상기의 음원 벡터 생성 장치를 잡음 코드북에 이용하는 것을 특징으로 하는 CELP 음성 부호화 장치/복호화 장치로서, 종래의 대수적 음원 생성부를 잡음 코드북에 이용한 음성 부호화 장치/복호화 장치보다도, 보다 실제의 형상에 가까운 음원 벡터를 생성할 수 있고, 따라서, 보다 품질이 높은 합성 음성을 출력하는 것이 가능한 음성 부호화 장치/복호화 장치, 음성 신호 통신 시스템, 음성 신호 기록 시스템을 얻을 수 있다.

이하, 본 발명의 실시예에 대하여, 도면을 이용하여 설명한다.

(실시예 1)

도 3에 본 실시예에 관한 음원 벡터 생성 장치의 기능 블럭을 도시한다. 이 음원 벡터 생성 장치는, 복수의 채널을 갖는 펄스 벡터 생성부(101)와, 확산 패턴 저장부와 스위치를 갖는 확산 패턴 저장·선택부(102)와, 펄스 벡터를 확산하는 펄 스 벡터 확산부(103)와, 확산된 복수 채널의 펄스 벡터를 가산하는 확산 벡터 가산부(104)를 구비한다.

펄스 벡터 생성부(101)는 벡터축상의 임의의 1 요소에 극성 부여 단위 펄스가 배치된 벡터(이하 : 펄스 벡터라고 칭함)를 생성하는 채널을 N 개(본 실시예에서는, N=3의 경우에 대하여 설명함) 구비하고 있다.

확산 패턴 저장·선택부(102)는, 채널마다 M 종류(본 실시예에서는, M=2의 경우에 대하여 설명함)의 확산 패턴을 저장하는 저장부 M1∼M3과, 개개의 저장부 M1∼M3으로부터 M 종류의 확산 패턴으로부터 임의의 1 종류의 확산 패턴을 각각 선택하는 스위치 SW1∼SW3을 갖는다.

펄스 벡터 확산부(103)는, 펄스 벡터 생성부(101)로부터 출력되는 펄스 벡터와 확산 패턴 저장·선택부(102)로부터 출력되는 확산 패턴의 컨볼루션 연산을 채널마다 실행하여, N 개의 확산 벡터를 생성한다.

확산 벡터 가산부(104)는, 펄스 벡터 확산부(103)에서 생성되는 N 개의 확산 벡터를 가산하여 음원 벡터(105)를 생성한다.

또, 본 실시예에서는, 펄스 벡터 생성부(101)가, 하기의 표 1에 기재된 규칙에 따라서 N 개(N=3)의 펄스 벡터를 대수적으로 생성하는 경우에 대하여 설명한다.

이상과 같이 구성된 음원 벡터 생성 장치의 동작에 대하여 설명한다. 확산 패턴 저장·선택부(102)는, 채널마다 2 종류씩 저장한 확산 패턴으로부터 1 종류씩 선택하여, 펄스 벡터 확산부(103)로 출력한다. 단, 선택된 확산 패턴의 조합(조합 총수 : M^N=8개)에 대응하여, 번호가 할당되는 것으로 한다.

다음에, 펄스 벡터 생성부(101)가, 표 1에 기재된 규칙에 따라서 대수적으로 펄스 벡터를 채널수만큼(본 실시예에서는 3개) 생성한다.

펄스 벡터 확산부(103)는, 확산 패턴 저장·선택부(102)에서 선택된 확산 패턴과, 펄스 벡터 생성부(101)에서 생성된 펄스를, 수학식 5에 의한 컨볼루션 연산에 의해, 채널마다 확산 벡터를 생성한다.

단, n : 0∼L-1

L : 확산 벡터 길이

i : 채널 번호

j : 확산 패턴 번호(j=1∼M)

ci : 채널 i의 확산 벡터

wij : 채널 i, j 종째의 확산 패턴

wij(m)의 벡터 길이는 2L-1(m : -(L-1)∼L-1)

단, 2L-1개의 요소 중 값을 특정할 수 있는 것은 Lij 요소,

그 밖의 요소는 영(zero)

di : 채널 i의 펄스 벡터

di=±δ(n-pi), n=0∼L-1,

pi : 채널 i의 펄스 위치 후보

확산 벡터 가산부(104)는, 펄스 벡터 확산부(103)에서 생성된 3개의 확산 벡터를, 수학식 6에 의해 가산하여, 음원 벡터(105)를 생성한다.

c : 음원 벡터

ci : 확산 벡터

i : 채널 번호(i=1∼N)

n : 벡터 요소 번호(n=0∼L-1 : 단, L은 음원 벡터 길이)

이와 같이 구성된 음원 벡터 생성 장치로는, 확산 패턴 저장·선택부(102)가 선택하는 확산 패턴의 조합법이나, 펄스 벡터 생성부(101)가 생성하는 펄스 벡터내의 펄스의 위치 및 극성에 변화를 갖게 함으로써, 다양한 음원 벡터를 생성하는 것이 가능하게 된다.

그리고, 이와 같이 구성된 음원 벡터 생성 장치로는, 확산 패턴 저장·선택부(102)가 선택하는 확산 패턴의 조합법과, 펄스 벡터 생성부(101)가 생성하는 펄스 벡터의 형상(펄스 위치 및 펄스 극성) 조합법 2 종류의 정보에 대하여, 각각 1 대 1로 대응하는 번호를 할당하여 놓을 수 있다. 또한, 확산 패턴 저장·선택부(102)에는, 실제의 음원 정보를 바탕으로 사전에 학습을 행하여, 그 학습의 결과 얻어지는 확산 패턴을 저장해 놓는 것이 가능하다.

또한, 상기 음원 벡터 생성 장치를 음성 부호화 장치/복호화 장치의 음원 정보 생성부에 이용하면, 확산 패턴 저장·선택부가 선택한 확산 패턴의 조합 번호와, 펄스 벡터 생성부가 생성한 펄스 벡터의 조합 번호(펄스 위치 및 펄스 극성을 특정할 수 있음) 2 종류의 번호를 전송함으로써, 잡음 음원 정보의 전송을 실현할 수 있게 된다.

또한, 상기한 바와 같이 구성한 음원 벡터 생성부를 이용하면, 대수적으로 생성한 펄스 음원을 이용하는 경우보다도, 실제의 음원 정보와 유사한 형상(특성)의 음원 벡터를 생성하는 것이 가능하게 된다.

또, 본 실시예에서는, 확산 패턴 저장·선택부(102)가 1 채널당 2 종류의 확산 패턴을 저장하고 있는 경우에 대하여 설명하였지만, 각 채널에 대하여 2 종류 이외의 확산 패턴을 할당한 경우에도, 마찬가지의 작용·효과가 얻어진다.

또한, 본 실시예에서는, 펄스 벡터 생성부(101)가 3 채널 구성 또한 표 1에 기재된 펄스 생성 규칙에 근거하고 있는 경우에 대하여 설명하였지만, 채널수가 다른 경우나, 펄스 생성 규칙으로서 표 1 기재 이외의 펄스 생성 규칙을 이용한 경우에도, 마찬가지의 작용·효과가 얻어진다.

또한, 상기 음원 벡터 생성 장치 또는 음성 부호화 장치/복호화 장치를 갖는, 음성 신호 통신 시스템 또는 음성 신호 기록 시스템을 구성함에 의해, 상기 음원 벡터 생성 장치가 갖는 작용·효과를 얻을 수 있다.

(실시예 2)

도 4에 본 실시예에 관한 CELP형 음성 부호화 장치의 기능 블럭을 도시하고, 도 5에 CELP형 음성 복호화 장치의 기능 블럭을 도시한다.

본 실시예에 관한 CELP형 음성 부호화 장치는, 상기한 도 1의 CELP형 음성 부호화 장치의 잡음 코드북에, 실시예 1에서 설명한 음원 벡터 생성 장치를 적용한 것이다. 또한, 본 실시예에 관한 CELP형 음성 복호화 장치는, 상기한 도 2의 CELP 음성 복호화 장치의 잡음 코드북, 상기 실시예 1의 음원 벡터 생성 장치를 적용한 것이다. 따라서 잡음 음원 정보의 벡터 양자화 처리 이외의 처리는, 상기한 도 1, 2의 장치와 마찬가지이다. 본 실시예에서는, 잡음 음원 정보의 벡터 양자화 처리를 중심으로, 음성 부호화 장치, 음성 복호화 장치의 설명을 행한다. 또한, 실시예 1과 마찬가지로, 채널수 N=3, 1 채널의 확산 패턴수 M=2, 펄스 벡터의 생성은 표 1에 의한 것으로 한다.

도 4의 음성 부호화 장치에 있어서의 잡음 음원 정보의 벡터 양자화 처리는, 수학식 4의 기준치를 최대화할 것 같은 2 종류의 번호(확산 패턴의 조합 번호, 펄스 위치와 펄스 극성의 조합 번호)를 특정하는 처리이다.

도 3의 음원 벡터 생성 장치를 잡음 코드북으로서 이용한 경우, 확산 패턴의 조합 번호(8 종류)와 펄스 벡터의 조합 번호(극성을 고려한 경우 : 16384 종류)를 폐루프로 특정한다.

이 때문에, 확산 패턴 저장·선택부(215)가, 우선 처음에, 스스로 저장하고 있는 2 종류의 확산 패턴 중, 어느쪽이던지 한쪽의 확산 패턴을 선택하여, 펄스 벡터 확산부(217)로 출력한다. 그 후, 펄스 벡터 생성부(216)가, 표 1의 규칙에 따라서 대수적으로 펄스 벡터를 채널수만큼(본 실시예에서는 3개) 생성하여, 펄스 벡터 확산부(217)로 출력한다.

펄스 벡터 확산부(217)는 확산 패턴 저장·선택부(215)에서 선택된 확산 패턴과, 펄스 벡터 생성부(216)에서 생성된 펄스 벡터를, 수학식 5에 의한 컨볼루션 연산에 이용하여, 채널마다 확산 벡터를 생성한다.

확산 벡터 가산부(218)는, 펄스 벡터 확산부(217)에서 얻어진 확산 벡터를 가산하여, 음원 벡터(잡음 부호 벡터의 후보로 됨)를 생성한다.

그리고, 왜곡 계산부(206)가, 확산 벡터 가산부(218)에서 얻어진 잡음 부호 벡터 후보를 이용한 수학식 4의 값을 산출한다. 이 수학식 4의 값의 산출을, 표 1의 규칙에 의해 생성되는 펄스 벡터의 조합 모두에 대하여 실행하고, 그 중에서 수 학식 4의 값이 최대로 될 때의 확산 패턴의 조합 번호, 펄스 벡터의 조합 번호(펄스 위치와 그 극성의 조합), 및 그 때의 최대값을 부호 번호 특정부(213)로 출력한다.

다음에, 확산 패턴 저장·선택부(215)는, 저장하고 있는 확산 패턴으로부터, 앞서와는 다른 조합의 확산 패턴을 선택한다. 그리고 새롭게 고쳐 선택한 확산 패턴의 조합에 대하여, 상기와 같이 표 1의 규칙에 따라서 펄스 벡터 생성부(216)에서 생성되는 펄스 벡터의 전(全) 조합에 대하여, 수학식 4의 값을 산출한다. 그리고, 그 중에서, 수학식 4를 최대로 할 때의, 확산 패턴의 조합 번호, 펄스 벡터의 조합 번호, 및 최대값을 부호 번호 특정부(213)로 다시 출력한다.

이 처리를, 확산 패턴 저장·선택부(215)가 저장하고 있는 확산 패턴으로부터 선택할 수 있는 전 조합(본 실시예의 설명에서는, 조합 총수는 8)에 대하여 반복한다.

부호 번호 특정부(213)는, 왜곡 계산부(206)에 의해 산출된 총수 8개의 최대값을 비교해서, 그 중에서 제일 큰 것을 선택하여, 그 최대값을 생성하였을 때의 2 종류의 조합 번호(확산 패턴의 조합 번호, 펄스 벡터의 조합 번호)를 특정하여, 잡음 부호 번호로서 부호 출력부(214)로 출력한다.

한편, 도 5의 음성 복호화 장치에서는, 부호 입력부(301)가, 음성 부호화 장치(도 4)로부터 송신되는 부호를 수신하여, 수신한 부호를 대응하는 선형 예측 부호 번호와, 적응 부호 번호, 잡음 부호 번호(확산 패턴의 조합 번호, 펄스 벡터의 조합 번호의 2 종류로 구성되어 있음), 및 가중치 부호 번호로 분해하고, 분해하여 얻어진 부호를 각각, 선형 예측 계수 복호화부(302), 적응 코드북(303), 잡음 코드북(304), 가중치 부호죽(305)으로 출력한다.

또, 잡음 부호 번호 중, 확산 패턴의 조합 번호는 확산 패턴 저장·선택부(311)로 출력되고, 펄스 벡터의 조합 번호는 펄스 벡터 생성부(312)로 출력되는 것으로 한다.

그리고, 선형 예측 계수 복호화부(302)가 선형 예측 부호 번호를 복호화하여 합성 필터의 계수를 얻어, 합성 필터(309)로 출력한다. 적응 코드북(303)에서는, 적응 부호 번호와 대응하는 위치로부터 적응 부호 벡터가 판독된다.

잡음 코드북(304)에서는, 확산 패턴 저장·선택부(311)가 확산 펄스의 조합 번호에 대응하는 확산 패턴을 채널마다 판독하여 펄스 벡터 확산부(313)로 출력하고, 펄스 벡터 생성부(312)가 펄스 벡터의 조합 번호에 대응한 펄스 벡터를 채널수만큼 생성해서 펄스 벡터 확산부(313)로 출력하며, 펄스 벡터 확산부(313)가 확산 패턴 저장·선택부(311)로부터 받은 확산 패턴과 펄스 벡터 생성부(312)로부터 받은 펄스 벡터를 수학식 5에 의한 컨볼루션 연산에 의해 확산 벡터를 생성하여, 확산 벡터 가산부(314)로 출력한다. 확산 벡터 가산부(314)가 펄스 벡터 확산부(313)에서 생성한 각 채널의 확산 벡터를 가산하여 잡음 부호 벡터를 생성한다.

그리고, 가중치 코드북(305)으로부터 가중치 부호 번호와 대응한 적응 코드북 이득과 잡음 부호 이득이 판독되고, 적응 부호 벡터 가중부(306)에 있어서 적응 부호 벡터에 적응 코드북 이득이 승산되며, 마찬가지로 잡음 부호 벡터 가중부(307)에 있어서 잡음 부호 벡터에 잡음 부호 이득이 승산되어, 가산부(308)로 보내어진다.

가산부(308)는, 이득이 승산된 상기 2개의 부호 벡터를 가산하여 구동 음원 벡터를 생성하고, 생성한 구동 음원 벡터를, 버퍼 갱신를 위해 적응 코드북(303)으로, 또한, 합성 필터를 구동하기 위해 합성 필터(309)로 출력한다.

합성 필터(309)는 가산부(308)에서 얻어진 구동 음원 벡터로 구동되고, 합성 음성(310)을 재생한다. 또한 적응 코드북(303)은, 가산부(308)로부터 받은 구동 음원 벡터로 버퍼를 갱신한다.

단, 도 4 및 도 5중의 확산 패턴 저장·선택부에는, 수학식 6에 기재된 음원 벡터를 수학식 2중의 c에 대입한 수학식 7의 왜곡 평가 기준식을 비용 함수로 하고, 해당 비용 함수의 값이 보다 작아지도록 사전에 학습하여 얻어진 확산 패턴이 각 채널마다 저장되어 있는 것으로 한다.

이와 같이 함으로써, 실제의 잡음 음원 정보(수학식 4중의 벡터 x)의 형상과 유사한 형상의 음원 벡터를 생성할 수 있게 되기 때문에, 대수적 음원 벡터 생성부를 잡음 코드북에 이용한 CELP 음성 부호화 장치/복호화 장치보다도, 품질이 높은 합성 음성을 얻는 것이 가능하게 된다.

x : 잡음 부호 번호 특정용의 타겟 벡터

gc : 잡음 부호 이득

H : 합성 필터의 임펄스 응답 중첩 행렬

c : 잡음 부호 벡터

i : 채널 번호(i=1∼N)

j : 확산 패턴 번호(j=1∼M)

ci : 채널 i의 확산 벡터

wij : 채널 i, j 종째의 확산 패턴

di : 채널 i의 펄스 벡터

L : 음원 벡터 길이(n=0∼L-1)

또, 본 실시예에서는, 확산 패턴 저장·선택부가, 수학식 7의 비용 함수의 값을 보다 작게 하도록 사전에 학습하여 얻어진 확산 패턴을 채널마다 M개씩 저장해 놓은 경우에 대하여 설명하였지만, 실제로는 M개의 확산 패턴 모두가 학습에 의해 얻어진 것일 필요는 없고, 학습에 의해 얻어진 확산 패턴을 각 채널마다 적어도 1 종류 저장해 놓도록 하면, 그와 같은 경우에도 합성 음성의 품질을 향상시키는 작용·효과를 얻을 수 있다.

또한, 본 실시예에서는, 확산 패턴 저장·선택부가 저장하는 확산 패턴의 전(全) 조합, 및 펄스 벡터 생성부(6)가 생성하는 펄스 벡터의 위치 후보의 전 조합으로부터, 수학식 4의 기준치를 최대화하는 조합 번호를 폐루프로 특정하는 경우에 대하여 설명하였지만, 잡음 코드북의 번호 특정 이전에 구한 파라미터(적응 부호 벡터의 이상 이득 등)를 기초로 예비 선택을 행하거나, 개방 루프로 탐색하는 등을 행하더라도 마찬가지의 작용·효과를 얻을 수 있다.

또한, 상기 음성 부호화 장치/복호화 장치를 갖는, 음성 신호 통신 시스템 또는 음성 신호 기록 시스템을 구성함에 의해, 실시예 1에서 기재한 음원 벡터 생성 장치가 갖는 작용·효과를 얻을 수 있다.

(실시예 3)

도 6에 본 실시예에 관한 CELP형 음성 부호화 장치의 기능 블럭을 도시한다. 본 실시예는, 상기 실시예 1의 음원 벡터 생성 장치를 잡음 코드북에 이용한 CELP 음성 부호화 장치에 있어서, 잡음 코드북을 탐색하기 이전에 구하고 있는 이상 적응 코드북 이득의 값을 이용하여, 확산 패턴 저장·선택부에 저장된 확산 패턴의 예비 선택을 실행한다. 잡음 코드북 주변부 이외에는 도 4의 CELP형 음성 부호화 장치와 동일하다. 따라서 본 실시예의 설명은, 도 6의 CELP형 음성 부호화 장치에 있어서의 잡음 음원 정보의 벡터 양자화 처리에 대해서의 설명이다.

이 CELP형 음성 부호화 장치는, 적응 코드북(407), 적응 코드북 이득 가중부(409), 실시예 1에서 설명한 음원 벡터 생성 장치에 의해 구성된 잡음 코드북(408), 잡음 부호 이득 가중부(410), 합성 필터(405), 왜곡 계산부(406), 부호 번호 특정부(413), 확산 패턴 저장·선택부(415), 펄스 벡터 생성부(416), 펄스 벡터 확산부(417), 확산 벡터 가산부(418), 적응 이득 판정부(419)를 구비하고 있다.

단, 본 실시예에 있어서, 상기 확산 패턴 저장·선택부(415)가 저장하는 M 종류(M≥2)의 확산 패턴중 적어도 1 종류는, 잡음 음원 정보를 벡터 양자화할 때에 발생하는 양자화 왜곡을 보다 작게 하도록 사전에 학습하여, 해당 학습의 결과 얻어진 확산 패턴인 것으로 한다.

본 실시예에서는, 설명의 간단화를 위해, 펄스 벡터 생성부의 채널수 N은 3, 확산 패턴 저장·선택부가 저장하고 있는 채널당 확산 펄스의 종류수 M은 2로 하고, 또한, M 종류(M=2)의 확산 패턴은 1개가 상기 학습에 의해 얻어진 확산 패턴으로, 이미 한쪽은, 난수 벡터 생성 장치에 의해 생성되는 난수 벡터열(이하:랜덤 패턴이라고 칭함)인 경우로서 설명을 행한다. 덧붙여서 말하면, 상기 학습에 의해 얻어지는 확산 패턴은, 도 3중의 w11과 같이, 길이는 비교적 짧고, 펄스적인 형상의 확산 패턴으로 되는 것을 알 수 있다.

도 6의 CELP형 음성 부호화 장치에 있어서는, 잡음 음원 정보의 벡터 양자화 전에 적응 코드북의 번호를 특정하는 처리가 실행된다. 따라서, 잡음 음원 정보의 벡터 양자화 처리를 실행하는 시점에서는, 적응 코드북의 벡터 번호(적응 부호 번호) 및, 이상 적응 코드북 이득(잠정적으로 정해져 있음)을 참조하는 것이 가능하다. 본 실시예에서는, 이 중 이상 적응 코드북 이득의 값을 사용하여, 확산 펄스의 예비 선택을 실행한다.

구체적으로는 우선, 적응 코드북 탐색의 종료 직후에 부호 번호 특정부(413)에 유지되어 있는 적응 코드북 이득의 이상값이, 왜곡 계산부(406)로 출력된다. 왜곡 계산부(406)는, 부호 번호 특정부(413)로부터 받은 적응 코드북 이득을 적응 이득 판정부(419)로 출력한다.

적응 이득 판정부(419)는, 왜곡 계산부(409)로부터 받은 이상 적응 이득의 값과 사전에 설정된 임계값과의 대소 비교를 행한다. 다음에 적응 이득 판정부(419)는, 상기 대소 비교의 결과에 근거하여, 확산 패턴 저장·선택부(415)에 예비 선택용의 제어 신호를 전송한다. 제어 신호의 내용은, 상기 대소 비교에 있어서 적응 코드북 이득이 큰 경우에는, 잡음 음원 정보를 벡터 양자화할 때에 발생하는 양자화 왜곡을 보다 작게 하도록 사전에 학습하여 얻어진 확산 패턴을 선택하도록 지시하고, 또한 상기 대소 비교에 있어서 적응 코드북 이득이 크지 않은 경우에는, 학습의 결과 얻어진 확산 패턴과는 별도의 확산 패턴을 예비 선택하도록 지시한다.

그 결과, 확산 패턴 저장부·선택부(415)에 있어서, 적응 이득의 크기에 적응하여, 각 채널이 저장하고 있는 M 종류(M=2)의 확산 패턴을 예비 선택하는 것이 가능하게 되어, 확산 패턴의 조합 수를 대폭 삭감할 수 있게 된다. 그 결과, 확산 패턴의 전 조합 번호에 대한 왜곡 계산을 실행할 필요가 없어져, 잡음 음원 정보의 벡터 양자화 처리를 적은 연산량으로 효율적으로 실행하는 것이 가능하게 된다.

그리고, 또한, 잡음 부호 벡터의 형상은, 적응 이득의 값이 클 때(유성성(有聲性)이 강할 때)에는 펄스적인 형상으로 되고, 적응 이득의 값이 작을 때(유성성이 약할 때)에는 랜덤적인 형상으로 된다. 따라서, 음성 신호의 유성 구간 및 무성 구간에 대하여, 각각 적절한 형상의 잡음 부호 벡터를 이용할 수 있게 되기 때문에, 합성 음성의 품질을 향상시키는 것이 가능하게 된다.

또, 본 실시예에서는 설명의 간단화를 위해, 펄스 벡터 생성부의 채널수 N은 3, 확산 패턴 저장·선택부가 저장하고 있는 채널당 확산 펄스의 종류수 M은 2의 경우에 한정하여 설명을 행하였지만, 펄스 벡터 생성부의 채널수, 확산 패턴 저장·선택부내의 채널당 확산 패턴수가 상기 설명과 다른 경우에 대해서도, 마찬가지의 효과·작용이 얻어진다.

또한, 본 실시예에서는 설명의 간단화를 위해, 각 채널당 저장하는 M 종류(M=2)의 확산 패턴 중, 1 종류는 상기 학습에 의해 얻어진 확산 패턴, 다른 1 종류는 랜덤 패턴인 경우에 대하여 설명을 행하였지만, 학습에 의해 얻어진 확산 패턴을 각 채널마다 적어도 1 종류 저장해 놓도록 하면, 상기한 바와 같은 경우가 아니더라도, 마찬가지의 효과·작용을 기대할 수 있다.

또한, 본 실시예에서는, 확산 패턴을 예비 선택하기 위한 수단으로서, 적응 코드북 이득의 대소 정보를 이용하는 경우에 대하여 설명하였지만, 적응 이득의 대소 정보 이외의 음성 신호의 단시간적 특징을 나타내는 파라미터를 병용하면, 한층 더 효과·작용을 기대할 수 있다.

또한, 상기 음성 부호화 장치를 갖는, 음성 신호 통신 시스템 또는 음성 신호 기록 시스템을 구성함에 의해, 실시예 1에서 기재한 음원 벡터 생성 장치가 갖는 작용·효과를 얻을 수 있다.

또, 본 실시예의 설명에서는, 잡음 음원 정보의 양자화를 실행하는 시점에서 참조 가능한 현 처리 프레임의 이상 적응 음원 이득을 이용하여 확산 패턴을 예비 선택하는 방법에 대하여 설명하였지만, 현 프레임의 이상 적응 음원 이득 대신에, 직전의 프레임에서 구한 복호화 적응 음원 이득을 이용하는 경우에도 마찬가지의 구성을 취하는 것이 가능하여, 그 경우에도 마찬가지의 효과를 얻을 수 있다.

(실시예 4)

도 7은 본 실시예에 관한 CELP형 음성 부호화 장치의 기능 블럭도이다. 본 실시예는, 실시예 1의 음원 벡터 생성 장치를 잡음 코드북에 이용한 CELP형 음성 부호화 장치에 있어서, 잡음 음원 정보를 벡터 양자화하는 시점에서 이용 가능한 정보를 사용하여 확산 패턴 저장·선택부에 저장된 복수의 확산 패턴을 예비 선택한다. 이 예비 선택의 기준으로서 적응 코드북의 번호 특정을 행하였을 때에 발생하는 부호화 왜곡(S/N 비로 표현)의 대소를 사용하는 것을 특징으로 하고 있다.

또, 잡음 코드북 주변부 이외에는 도 4의 CELP형 음성 부호화 장치와 동일하다. 따라서 본 실시예의 설명에서는, 잡음 음원 정보의 벡터 양자화 처리에 대하여 자세히 설명한다.

도 7에 도시하는 바와 같이, 본 실시예의 CELP형 음성 부호화 장치는, 적응 코드북(507), 적응 코드북 이득 가중부(509), 실시예 1에서 설명한 음원 벡터 생성 장치에 의해 구성된 잡음 코드북(508), 잡음 부호 이득 가중부(510), 합성 필터(505), 왜곡 계산부(506), 부호 번호 특정부(513), 확산 패턴 저장·선택부(515), 펄스 벡터 생성부(516), 펄스 벡터 확산부(517), 확산 벡터 가산부(518), 왜곡 파워 판정부(519)를 구비한다.

단, 본 실시예에 있어서, 상기 확산 패턴 저장·선택부(515)가 저장하는 M 종류(M≥2)의 확산 패턴 중 적어도 1 종류는, 랜덤 패턴인 것으로 한다.

본 실시예에서는, 설명의 간단화를 위해, 펄스 벡터 생성부의 채널수 N은 3, 확산 패턴 저장·선택부가 저장하고 있는 채널당 확산 펄스의 종류수 M은 2로 하고, 또한, M 종류(M=2)의 확산 패턴 중 1 종류는 랜덤 패턴, 다른 1 종류는 잡음 음원 정보를 벡터 양자화함으로써 발생하는 양자화 왜곡을 보다 작게 하도록 사전에 학습하여, 해당 학습의 결과 얻어진 확산 패턴인 것으로 한다.

도 7의 CELP형 음성 부호화 장치에 있어서는, 잡음 음원 정보의 벡터 양자화 처리 전에 적응 코드북의 번호 특정 처리가 실행된다. 따라서, 잡음 음원 번호의 벡터 양자화 처리를 행하는 시점에서는, 적응 코드북의 벡터 번호(적응 부호 번호), 이상 적응 코드북 이득(잠정적으로 정해져 있음) 및, 적응 코드북 탐색용 타겟 벡터를 참조할 수 있다. 본 실시예에서는, 상기 3가지의 정보로부터 산출할 수 있는 적응 코드북의 부호화 왜곡(S/N 비로 표현)을 사용하여, 확산 패턴의 예비 선택을 행한다.

구체적으로는, 적응 코드북 탐색의 종료 직후에 부호 번호 특정부(513)에 유지되어 있는 적응 부호 번호 및 적응 코드북 이득(이상(理想) 이득)의 값이 왜곡 계산부(506)로 출력된다. 왜곡 계산부(506)는 부호 번호 특정부(513)로부터 받은 적응 부호 번호 및 적응 코드북 이득과 적응 코드북 탐색용 타겟 벡터를 이용하여, 적응 코드북의 번호 특정에 의해 발생한 부호화 왜곡(S/N 비)을 산출한다. 산출한 S/N 비를 왜곡 파워 판정부(519)로 출력한다.

왜곡 파워 판정부(519)는, 우선 처음에, 왜곡 계산부(506)로부터 받은 S/N 비와 사전에 설정된 임계값과의 대소 비교를 행한다. 다음에 왜곡 파워 판정부(519)는, 상기 대소 비교의 결과에 근거하여, 확산 패턴 저장·선택부(515)에 예비 선택용의 제어 신호를 전송한다. 제어 신호의 내용은, 상기 대소 비교에 있어서 S/N 비가 큰 경우에는, 잡음 코드북 탐색용 타겟 벡터를 부호화함으로써 발생하는 부호화 왜곡을 보다 작게 하도록 사전에 학습한 결과 얻어지는 확산 패턴을 선택하도록 지시하고, 또한 상기 대소 비교에 있어서 S/N 비가 작은 경우에는, 랜덤 패턴의 확산 패턴을 선택하도록 지시하는 것이다.

이 결과, 확산 패턴 저장·선택부(515)에 있어서, 각 채널이 저장하고 있는 M 종류(M=2)의 확산 패턴으로부터 1 종류만이 예비 선택되는 것으로 되어, 확산 패턴의 조합을 대폭 삭감할 수 있게 된다. 그 결과, 확산 패턴의 전 조합 번호에 대한 왜곡 계산을 실행할 필요가 없어져, 잡음 부호 번호의 특정을 적은 연산량으로 효율적으로 실행할 수 있는 것으로 된다. 그리고, 또한, 잡음 부호 벡터의 형상은, S/N 비가 클 때에는 펄스적인 형상으로 되고, S/N 비가 작을 때에는 랜덤적인 형상으로 된다. 따라서, 음성 신호의 단(短) 시간적인 특징에 따라서, 잡음 부호 벡터의 형상을 변화시키는 것이 가능하게 되기 때문에, 합성 음성의 품질을 향상시키는 것이 가능하게 된다.

또, 본 실시예에서는 설명의 간단화를 위해, 펄스 벡터 생성부의 채널수 N은 3, 확산 패턴 저장·선택부가 저장하고 있는 채널당 확산 펄스의 종류수 M은 2의 경우에 한정하여 설명을 행하였지만, 펄스 벡터 생성부의 채널수, 채널당 확산 패턴의 종류수가 상기 설명과 다른 경우에 대해서도, 마찬가지의 효과·작용이 얻어진다.

또, 본 실시예에서는 설명의 간단화를 위해, 또한, 각 채널당 저장하는 M 종류(M=2)의 확산 패턴 중, 1 종류는 상기 학습에 의해 얻어진 확산 패턴, 다른 1 종류는 랜덤 패턴인 경우에 대하여 설명을 행하였지만, 랜덤 패턴의 확산 패턴을 각 채널마다 적어도 1 종류 저장해 놓도록 하면, 상기한 바와 같은 경우가 아니더라도, 마찬가지의 효과·작용을 기대할 수 있다.

또한, 본 실시예에서는, 확산 패턴을 예비 선택하기 위한 수단으로서, 적응 부호 번호의 특정에 의해 발생하는 부호화 왜곡(S/N 비로 표현)의 대소 정보만을 이용하였지만, 음성 신호의 단 시간적 특징을 더욱 정확하게 나타낼 수 있는 정보를 병용하면, 한층 더 효과·작용을 기대할 수 있다.

(실시예 5)

도 8에, 본 발명의 실시예 5에 관한 CELP형 음성 부호화 장치의 기능 블럭을 도시한다. 이 CELP형 음성 부호화 장치로는, LPC 분석부(600)에 있어서, 입력된 음성 데이터(601)에 대하여 자기 상관 분석과 LPC 분석을 실행하는 것에 의해 LPC 계수를 얻는다. 또한, 얻어진 LPC 계수의 부호화를 실행하여 LPC 부호를 얻음과 동시에, 얻어진 LPC 부호를 복호화하여 복호화 LPC 계수를 얻는다.

다음에, 음원 작성부(602)에 있어서, 적응 코드북(603)과 잡음 코드북(604)에 저장된 음원 샘플(각각 적응 코드 벡터(또는, 적응 음원)와 잡음 코드 벡터(또는, 잡음 음원)라고 칭함)을 취출하여, 각각을 LPC 합성부(605)로 보낸다.

LPC 합성부(605)에 있어서, 음원 작성부(602)에서 얻어진 2개의 음원에 대하여, LPC 분석부(600)에서 얻어진 복호화 LPC 계수에 의해 필터링을 실행하여 2개의 합성음을 얻는다.

비교부(606)에 있어서는, LPC 합성부(605)에서 얻어진 2개의 합성음과 입력 음성(601)과의 관계를 분석하여, 2개의 합성음의 최적값(최적 이득)을 구하고, 그 최적 이득에 의해 파워 조정한 각각의 합성음을 가산하여 종합 합성음을 얻어, 그 종합 합성음과 입력 음성의 거리 계산을 실행한다.

또한, 적응 코드북(603)과 잡음 코드북(604)의 모든 음원 샘플에 대하여 음원 작성부(602), LPC 합성부(605)를 구동시킴으로써 얻어지는 많은 합성음과 입력 음성(601)의 거리 계산을 실행하여, 그 결과 얻어지는 거리 중에서 가장 작을 때의 음원 샘플의 인덱스를 구한다.

또한, 얻어진 최적 이득과, 음원 샘플의 인덱스, 또한 그 인덱스에 대응하는 2개의 음원을 파라미터 부호화부(607)로 보낸다. 파라미터 부호화부(607)에서는, 최적 이득의 부호화를 실행하는 것에 의해 이득 부호를 얻어, LPC 부호, 음원 샘플의 인덱스를 정리하여 전송로(608)로 보낸다.

또한, 이득 부호와 인덱스에 대응하는 2개의 음원으로부터 실제의 음원 신호를 작성하여, 그것을 적응 코드북(603)에 저장함과 동시에 오래된 음원 샘플을 파기한다.

또, LPC 합성부(605)에 있어서는, 선형 예측 계수나 고역 강조 필터나 장기 예측 계수(입력 음성의 장기 예측 분석을 실행하는 것에 의해 얻어짐)를 이용한 청감 가중 필터를 병용하는 것이 일반적이다. 또한, 적응 코드북과 잡음 코드북에 대한 음원 탐색은, 분석 구간을 더욱 잘게 나눈 구간(서브 프레임이라고 칭함)으로 실행되는 것이 일반적이다.

이하, 본 실시예에서는 LPC 분석부(600)에 있어서의 LPC 계수의 벡터 양자화에 대하여 자세히 설명한다.

도 9에 LPC 분석부(600)에 있어서 실행되는 벡터 양자화 알고리즘을 실현하기 위한 기능 블럭을 도시한다. 도 9에 도시하는 벡터 양자화 블럭은, 타겟 추출부(702), 양자화부(703), 왜곡 계산부(704), 비교부(705), 복호화 벡터 저장부(707), 벡터 평활화부(708)로 구성되어 있다.

타겟 추출부(702)에 있어서, 입력 벡터(701)를 기초로 양자화 타겟을 산출한다. 여기서, 타겟 추출 방법에 대하여 상세히 설명한다.

여기서, 본 실시예에 있어서의 「입력 벡터」는, 부호화 대상 프레임을 분석하여 얻어지는 파라미터 벡터와, 1개의 미래의 프레임으로부터 마찬가지로 해서 얻어지는 파라미터 벡터와의 계(計) 2 종류의 벡터에 의해 구성한다. 타겟 추출부(702)는 상기 입력 벡터와, 복호화 벡터 저장부(707)에 저장되기 전의 프레임의 복호화 벡터를 이용하여 양자화 타겟을 산출한다. 산출 방법의 예를 수학식 8에 나타낸다.

X(i) : 타겟 벡터

i : 벡터의 요소 번호

S_t(i), S_t+1(i) : 입력 벡터

t : 시간(프레임 번호)

p : 가중 계수(고정)

d(i) : 전(前) 프레임의 복호화 벡터

상기 타겟 추출 방법의 사고 방식을 이하에 나타낸다. 전형적인 벡터 양자화에서는, 현 프레임의 파라미터 벡터 S_t(i)를 타겟 X(i)로서, 수학식 9에 의해 매칭을 실행한다.

En : n 번째의 코드 벡터와의 거리

X(i) : 양자화 타겟

Cn(i) : 코드 벡터

n : 코드 벡터의 번호

i : 벡터의 차수

I : 벡터의 길이

따라서, 지금까지의 벡터 양자화에서는, 부호화 왜곡이 그대로 음질의 열화에 연결되었다. 이것은, 예측 벡터 양자화 등의 대책을 취하더라도 어느 정도의 부호화 왜곡을 피할 수 없는 초저(超低) 비트 레이트의 부호화에서는 큰 문제로 되어 있었다.

그래서, 본 실시예에서는, 청감적으로 오류를 느끼기 어려운 방향으로서 전후의 복호화 벡터의 중점(中点)에 착안하여, 이것에 복호화 벡터를 유도함으로써 청감적 향상을 실현한다. 이것은, 파라미터 벡터의 보간 특성이 양호한 경우, 시간적인 연속성이 청감적 열화로 듣기 어려운 특성을 이용한 것이다. 이하에, 이 모양을 벡터 공간을 도시하는 도 10을 참조하여 설명한다.

우선, 1개 전의 프레임의 복호화 벡터를 d(i)로 하고, 미래의 파라미터 벡터를 S_t+1(i)로 하면(실제는 미래의 복호화 벡터가 바람직하지만, 현 프레임에서는 부호화할 수 없기 때문에, 파라미터 벡터를 대용함), 코드 벡터 Cn(i) : (1)은 코드 벡터 Cn(i) : (2)보다도 파라미터 벡터 S_t(i)에 가깝지만, 실제는 Cn(i) : (2)는 d(i)와 St+1(i)를 연결한 선상에 가깝기 때문에 Cn(i) : (1) 보다도 열화가 듣기 어렵다. 따라서 이 성질을 이용하여, 타겟 X(i)를 S_t(i)로부터 d(i)와 S_t+1(i)의 중점에 어느정도 접근한 위치의 벡터로 하면, 복호화 벡터는 청감적으로 변형이 적은 방향으로 유도된다.

그리고, 본 실시예에서는, 이 타겟의 이동을 이하의 평가식인 수학식 9를 도 입함으로써 실현한다.

X(i) : 양자화 타겟 벡터

i : 벡터의 요소 번호

S_t(i), S_t+1(i) : 입력 벡터

t : 시간(프레임 번호)

p : 가중 계수(고정)

d(i) : 전 프레임의 복호화 벡터

수학식 10의 전반은 일반적인 벡터 양자화의 평가식이고, 후반은 청감 가중치의 성분이다. 상기 평가식으로 양자화를 실행하기 위해 각 X(i)로 평가식을 미분하여, 미분한 것을 0으로 하면, 수학식 8이 얻어진다.

또, 가중 계수 p는 정(正)의 정수이고, 0의 시간은 일반적인 벡터 양자화와 마찬가지이고, 무한대의 시간은 타겟은 완전히 중점으로 된다. p가 너무나 크면 타겟이 현 프레임의 파라미터 벡터 St(i)로부터 크게 벗어나, 청감적으로 명료도가 저하한다. 복호화 음성의 시청 실험에 의해, 0.5<p<1.0에서 양호한 성능이 얻어지는 것을 확인하고 있다.

다음에, 양자화부(703)에 있어서 타겟 추출부(702)에서 얻어진 양자화 타겟 의 양자화를 실행하여, 벡터의 부호를 구함과 동시에, 복호화 벡터를 구하여, 부호와 더불어 왜곡 계산부(704)로 보낸다.

또, 본 실시예에서는, 양자화 방법으로서 예측 벡터 양자화를 이용한다. 이하에 예측 벡터 양자화에 대하여 설명한다.

도 11에 예측 벡터 양자화의 기능 블럭을 도시한다. 예측 벡터 양자화는, 과거에 부호화 및 복호화하여 얻어진 벡터(합성 벡터)를 이용하여 예측을 실행하고, 그 예측 오차를 벡터 양자화하는 알고리즘이다.

사전에, 예측 오차 벡터의 중심적 샘플(코드 벡터)이 복수개 저장된 벡터 코드북(800)을 작성해 놓는다. 이것은, 일반적으로는, 많은 음성 데이터를 분석하여 얻어진 다수의 벡터를 기초로, LBG 알고리즘(IEEE TRANSACTIONS ON COMMUNICATIONS, VOL. COM-28, NO. 1, PP84-95, JANUARY 1980)에 의해 작성한다,

양자화 타겟의 벡터(801)에 대하여 예측부(802)에서 예측을 행한다. 예측은 상태 저장부(803)에 저장된 과거의 합성 벡터를 이용하여 실행하고, 얻어진 예측 오차 벡터를 거리 계산부(804)로 보낸다. 여기서는, 예측의 형태로서, 예측 차수 1차로 고정 계수에 의한 예측을 든다. 이 예측을 이용한 경우의 예측 오차 벡터 산출의 수학식을 이하의 수학식 11에 나타낸다.

Y(i) : 예측 오차 벡터

X(i) : 양자화 타겟

β : 예측 계수(스칼라량)

D(i) : 1개 전의 프레임의 합성 벡터

i : 벡터의 차수

상기 수학식에 있어서, 예측 계수 β는 0<β<1의 값인 것이 일반적이다.

다음에, 거리 계산부(804)에 있어서, 예측부(802)에서 얻어진 예측 오차 벡터와 벡터 코드북(800)에 저장된 코드 벡터와의 거리를 계산한다. 거리의 수학식을 이하의 수학식 12에 나타낸다.

En : n 번째의 코드 벡터와의 거리

Y(i) : 예측 오차 벡터

Cn(i) : 코드 벡터

n : 코드 벡터의 번호

i : 벡터의 차수

I : 벡터의 길이

다음에, 탐색부(805)에 있어서, 각 코드 벡터와의 거리를 비교하여, 가장 거리가 작은 코드 벡터의 번호를 벡터의 부호(806)로서 출력한다. 즉, 벡터 코드북(800)과 거리 계산부(804)를 제어하여, 벡터 코드북(800)에 저장된 모든 코드 벡터 중에서 가장 거리가 작아지는 코드 벡터의 번호를 구하여, 이것을 벡터의 부호(806)로 한다.

또한, 최종적 부호에 근거하여 벡터 코드북(800)으로부터 얻어진 코드 벡터와 상태 저장부(803)에 저장된 과거의 복호화 벡터를 이용하여 벡터의 복호화를 실행하고, 얻어진 합성 벡터를 이용하여 상태 저장부(803)의 내용을 갱신한다. 따라서, 다음 부호화를 실행할 때에는, 여기서 복호화한 벡터가 예측에 사용된다.

상기의 예측 형태의 예(예측 차수 1차, 고정 계수)의 복호화는 이하의 수학식 13에 의해 행한다.

Z(i) : 복호화 벡터(다음 부호화시에 D(i)로서 사용됨)

N : 벡터의 부호

CN(i) : 코드 벡터

β : 예측 계수(스칼라량)

D(i) : 1개 전의 프레임의 합성 벡터

i : 벡터의 차수

한편, 복호기(디코더)에서는, 전송되어 온 벡터의 부호에 근거하여 코드 벡터를 구하는 것에 의해 복호화한다. 복호기에는 사전에 부호기와 동일한 벡터 코드북과 상태 저장부를 준비하고, 상기 부호화 알고리즘에 있어서의 탐색부의 복호화 기능과 마찬가지의 알고리즘으로 복호화를 행한다. 이상이 양자화부(703)에 있어서 실행되는 벡터 양자화이다.

다음에, 왜곡 계산부(704)에 있어서는, 양자화부(703)에서 얻어진 복호화 벡터와 입력 벡터(701)와 복호화 벡터 저장부(707)에 저장되기 전의 프레임의 복호화 벡터로부터, 청감 가중 부호화 왜곡을 계산한다. 계산식을 이하의 수학식 14에 나타낸다.

Ew : 가중 부호화 왜곡

S_t(i), S_t+1(i) : 입력 벡터

t : 시간(프레임 번호)

i : 벡터의 요소 번호

V(i) : 복호화 벡터

p : 가중 계수(고정)

d(i) : 전 프레임의 복호화 벡터

수학식 14에 있어서, 가중 계수 p는 타겟 추출부(702)에서 이용한 타겟의 산출식의 계수와 동일하다. 그리고, 상기 가중 부호화 왜곡의 값과 복호화 벡터와 벡터의 부호를 비교부(705)로 보낸다.

비교부(705)는, 왜곡 계산부(704)로부터 보내어진 벡터의 부호를 전송로(608)로 보내고, 또한 왜곡 계산부(704)로부터 보내어진 복호화 벡터를 이용하여 복호화 벡터 저장부(707)의 내용을 갱신한다.

이와 같은 실시예에 의하면, 타겟 추출부(702)에 있어서 타겟 벡터를 S_t(i)로부터 d(i)와 S_t+1(i)의 중점에 어느정도 접근한 위치의 벡터로 수정하고 있기 때문에, 청감상 열화를 느끼지 않도록 가중 탐색을 실행하는 것이 가능하게 된다.

또, 지금까지는 본 발명을 휴대 전화 등에서 이용되는 저 비트 레이트 음성 부호화 기술에 적응한 경우의 설명을 실행하였지만, 본 발명은 음성 부호화뿐만 아니라, 음악음 부호화 장치나 화상 부호화 장치에 있어서의 비교적 보간성이 좋은 파라미터의 벡터 양자화에도 이용할 수 있다.

또, 상기 알고리즘에 있어서의 LPC 분석부에서의 LPC의 부호화는, 통상 LSP(선스펙트럼쌍) 등의 부호화하기 쉬운 파라미터 벡터로 변환하여, 유클리드 거리나 가중 유클리드 거리에 의해 벡터 양자화(VQ)하는 것이 일반적이다.

또한 본 실시예에서는, 타겟 추출부(702)가 비교부(705)의 제어를 받아 벡터 평활화부(708)로 입력 벡터(701)을 보내고, 벡터 평활화부(708)에서 변경된 입력 벡터를 타겟 추출부(702)가 받아 타겟의 재추출을 행한다.

이 경우, 비교부(705)에서는, 왜곡 계산부(704)로부터 보내어진 가중 부호화 왜곡의 값과 비교부 내부에 준비되어 있는 기준치를 비교한다. 이 비교 결과에 의 해 처리는 2가지로 나뉜다.

기준치 미만의 경우에는, 왜곡 계산부(704)로부터 보내어진 벡터의 부호를 전송로(608)로 보내고, 또한, 왜곡 계산부(704)로부터 보내어진 복호화 벡터를 이용하여 복호화 벡터 저장부(707)의 내용을 갱신한다. 이 갱신은 복호화 벡터 저장부(707)의 내용을, 얻어진 복호화 벡터로 리라이트하는 것에 의해 실행한다. 그리고, 다음 프레임의 파라미터의 부호화로 처리를 이행한다.

한편, 기준치 이상의 경우에는, 벡터 평활화부(708)를 제어하여, 입력 벡터에 변경을 가하고, 타겟 추출부(702), 양자화부(703), 왜곡 계산부(704)를 다시 기능시켜 재 부호화를 행한다.

비교부(705)에 있어서 기준치 미만으로 될 때까지, 부호화 처리는 반복된다. 단, 몇번 반복하더라도 기준치 미만으로 되지 않는 경우가 있기 때문에, 비교부(705)는 내부에 카운터를 보유하고, 기준치 이상이라고 판정된 회수를 카운트하여, 일정수 이상으로 되면 부호화의 반복을 중지하며, 기준치 미만의 경우의 처리와 카운터의 클리어를 실행한다.

벡터 평활화부(708)에서는, 비교부(705)의 제어를 수신하여, 타겟 추출부(702)로부터 얻은 입력 벡터와 복호화 벡터 저장부(707)로부터 얻은 전(前) 프레임의 복호화 벡터로부터, 입력 벡터의 1개의 현(現) 프레임의 파라미터 벡터 S_t(i)를 이하의 수학식 15에 의해 변경하고, 변경된 입력 벡터를 타겟 추출부(702)로 보낸다.

상기 q는 평활화 계수이고, 현 프레임의 파라미터 벡터를 전 프레임의 복호화 벡터와 미래의 프레임의 파라미터 벡터의 중점에 접근시키는 정도를 나타낸다. 부호화 실험에 의해, 0.2<q<0.4에서 비교부(705) 내부의 반복수의 상한값이 5∼8회로 양호한 성능이 얻어지는 것을 확인하고 있다.

여기서, 본 실시예에서는 양자화부(703)에 예측 벡터 양자화를 이용하지만, 상기 평활화에 의해, 왜곡 계산부(704)에서 얻어지는 가중 부호화 왜곡은 작아질 가능성이 높다. 그 이유는, 평활화에 의해 양자화 타겟은 전 프레임의 복호화 벡터에 의해 접근하기 때문이다. 따라서 비교부(705)의 제어에 의한 부호화의 반복에 의해, 비교부(705)의 왜곡의 비교에 의해 기준치 미만으로 될 가능성이 증가하고 있다.

또한, 복호기(디코더)에서는, 사전에 부호기의 양자화부에 대응하는 복호부를 준비해 두고, 전송로로부터 보내어져 온 벡터의 부호에 근거하여 복호화를 실행한다.

또한, 본 실시예를 CELP 방식의 부호화에 의해 나타내어지는 LSP 파라미터의 양자화(양자화부는 예측 VQ)에 적용하여 음성의 부호화·복호화 실험을 행한다. 그 결과, 청감적으로 음질이 향상하는 것은 물론이고, 객관값(S/N 비)을 향상시킬 수 있는 것을 확인하였다. 이것은, 벡터 평활화를 갖는 부호화의 반복 처리에 의해, 스펙트럼이 심히 변화하는 경우라도 예측 VQ의 부호화 왜곡을 억제할 수 있다 고 하는 효과가 있기 때문이다. 종래의 예측 VQ는 과거의 합성 벡터로부터 예측하기 위해, 언두 부분 등의 스펙트럼이 급격히 변화하는 부분의 스펙트럼 왜곡은 오히려 커진다고 하는 결점을 가지고 있다. 그러나, 본 실시예를 적용하면, 변형이 큰 경우에는 변형이 적어질 때까지 평활화를 실행하기 위해, 타겟은 실제의 파라미터 벡터로부터는 다소 떨어지지만, 부호화 왜곡은 작아지기 때문에, 전체적으로 음성을 복호화할 때의 열화가 적어진다고 하는 효과가 얻어진다. 따라서, 본 실시예에 의해, 청감적 음질 향상뿐만 아니라, 객관값도 향상시킬 수 있다.

따라서, 본 실시예에서는, 비교부와 벡터 평활화부의 특징에 의해 벡터 양자화 변형이 큰 경우에 그 열화의 방향을 청감적으로 느껴지지 않는 방향으로 제어하는 것이 가능하게 되고, 또한, 양자화부에 예측 벡터 양자화를 이용한 경우에는 부호화 왜곡이 작아질 때까지 평활화 + 부호화를 반복하는 것에 의해 객관값도 향상시킬 수 있다.

또, 지금까지는 본 발명을 휴대 전화 등에서 이용되는 저 비트 레이트 음성 부호화 기술에 적응한 경우의 설명을 실행하였지만, 본 발명은 음성 부호화뿐만 아니라, 음악음 부호화 장치나 화상 부호화 장치에 있어서의 비교적 보간성이 좋은 파라미터의 벡터 양자화에 이용할 수도 있다.

(실시예 6)

다음에, 본 발명의 실시예 6에 관한 CELP형 음성 부호화 장치에 대해 설명한다. 본 실시예는, 양자화 방법으로서 다단 예측 벡터 양자화를 이용하는 양자화부의 양자화 알고리즘을 제외하고, 그 밖의 구성은 상기 실시예 5와 동일 구성이다. 즉, 잡음 코드북으로서 상술한 실시예 1의 음원 벡터 생성 장치를 이용하고 있다. 여기서는, 양자화부의 양자화 알고리즘에 대하여 자세히 설명한다.

도 12에 양자화부의 기능 블럭을 도시한다. 다단 벡터 양자화에서는, 타겟의 벡터 양자화를 행한 후, 양자화한 타겟의 부호어로 그 코드북을 이용하여 복호화를 실행하고, 부호화된 벡터와 본래의 타겟과의 차(부호화 왜곡 벡터라고 칭함)를 구하여, 구한 부호화 왜곡 벡터를 또한 벡터 양자화한다.

사전에, 예측 오차 벡터의 중심적 샘플(코드 벡터)이 복수개 저장된 벡터 코드북(899), 벡터 부호부(900)를 작성하여 놓는다. 이들은, 많은 학습용의 예측 오차 벡터에 대하여, 전형적인 「다단 벡터 양자화」의 코드북 작성 방법과 마찬가지의 알고리즘을 적용하는 것에 의해 작성한다. 「즉, 일반적으로는, 많은 음성 데이터를 분석하여 얻어진 다수의 벡터를 기초로, LBG 알고리즘(IEEE TRANSACTIONS ON COMMUNICATIONS, VOL. COM-28, NO. 1, PP84-95, JANUARY 1980)에 의해 작성한다. 단, 벡터 코드북(899)의 학습용 모집단은 많은 양자화 타겟의 집합이지만, 벡터 부호부(900)의 학습용 모집단은 상기 많은 양자화 타겟에 대하여 벡터 코드북(899)으로 부호화를 실행할 때의 부호화 왜곡 벡터의 집합이다.

우선, 양자화 타겟의 벡터(901)에 대하여 예측부(902)에서 예측을 행한다. 예측은 상태 저장부(903)에 저장된 과거의 합성 벡터를 이용하여 실행하고, 얻어진 예측 오차 벡터를 거리 계산부(904)와 거리 계산부(905)로 보낸다.

본 실시예에서는, 예측의 형태로서, 예측 차수 1차로 고정 계수에 의한 예측 을 든다. 이 예측을 이용한 경우의 예측 오차 벡터 산출의 수학식을 이하의 수학식 16에 나타낸다.

Y(i) : 예측 오차 벡터

X(i) : 양자화 타겟

β : 예측 계수(스칼라량)

D(i) : 1개 전의 프레임의 합성 벡터

i : 벡터의 차수

다음에, 거리 계산부(904)에 있어서, 예측부(902)에서 얻어진 예측 오차 벡터와 벡터 코드북(899)에 저장된 코드 벡터 A와의 거리를 계산한다. 거리의 수학식을 이하의 수학식 17에 나타낸다.

En : n번의 코드 벡터 A와의 거리

Y(i) : 예측 오차 벡터

C1n(i) : 코드 벡터 A

n : 코드 벡터 A의 번호

i : 벡터의 차수

I : 벡터의 길이

그리고, 탐색부(906)에 있어서, 각 코드 벡터 A와의 거리를 비교하여 가장 거리가 작은 코드 벡터 A의 번호를 코드 벡터 A의 부호로 한다. 즉, 벡터 코드북(899)과 거리 계산부(904)를 제어하여, 벡터 코드북(899)에 저장된 모든 코드 벡터 중에서 가장 거리가 작아지는 코드 벡터 A의 번호를 구해서, 이것을 코드 벡터 A의 부호로 한다. 그리고, 코드 벡터 A의 부호와, 이것을 참조하여 벡터 코드북(899)으로부터 얻어진 복호화 벡터 A를 거리 계산부(905)로 보낸다. 또한, 코드 벡터 A의 부호를 전송로, 탐색부(907)로 보낸다.

거리 계산부(905)는 예측 오차 벡터와, 탐색부(906)로부터 얻어진 복호화 벡터 A로부터 부호화 왜곡 벡터를 얻고, 또한, 탐색부(906)로부터 얻어진 코드 벡터 A의 부호를 참조하여 앰프 저장부(908)로부터 앰프리츄드를 얻으며, 그리고, 상기 부호화 왜곡 벡터와 벡터 부호부(900)에 저장된 코드 벡터 B에 상기 앰프리츄드를 승산한 것과의 거리를 계산하여, 그 거리를 탐색부(907)로 보낸다. 거리의 수학식을 이하의 수학식 18에 나타낸다.

Z(i) : 복호화 왜곡 벡터

Y(i) : 예측 오차 벡터

C1N(i) : 복호화 벡터 A

N : 코드 벡터 A의 부호

Em : m번째의 코드 벡터 B와의 거리

aN : 코드 벡터 A의 부호에 대응하는 앰프리츄드

C2m(i) : 코드 벡터 B

m : 코드 벡터 B의 번호

i : 벡터의 차수

I : 벡터의 길이

그리고, 탐색부(907)에 있어서, 각 코드 벡터 B와의 거리를 비교하여 가장 거리가 작은 코드 벡터 B의 번호를 코드 벡터 B의 부호로 한다. 즉, 벡터 부호부(900)와 거리 계산부(905)를 제어하여, 벡터 부호부(900)에 저장된 모든 코드 벡터 B 중에서 가장 거리가 작아지는 코드 벡터 B의 번호를 구해서, 이것을 코드 벡터 B의 부호로 한다. 그리고, 코드 벡터 A와 코드 벡터 B의 부호를 일치시켜, 벡터의 부호(909)로 한다.

또한 탐색부(907)는, 코드 벡터 A, B의 부호에 근거하여 벡터 코드북(899)과 벡터 부호부(900)로부터 얻어진 복호화 벡터 A, B와, 앰프 저장부(908)로부터 얻어진 앰프리츄드와, 상태 저장부(903)에 저장된 과거의 복호화 벡터를 이용하여 벡터의 복호화를 실행하고, 얻어진 합성 벡터를 이용하여 상태 저장부(903)의 내용을 갱신한다. (따라서, 다음 부호화를 실행할 때에는, 여기서 복호화한 벡터가 예측에 사용됨) 본 실시예의 예측(예측 차수 1차, 고정 계수)에 있어서의 복호화는 이하의 수학식 19에 의해 실행한다.

Z(i) : 복호화 벡터(다음 부호화시에 D(i)로서 사용됨)

N : 코드 벡터 A의 부호

M : 코드 벡터 B의 부호

C1N(i) : 복호화 벡터 A

C2M(i) : 복호화 벡터 B

aN : 코드 벡터 A의 부호에 대응하는 앰프리츄드

β : 예측 계수(스칼라량)

D(i) : 1개 전의 프레임의 합성 벡터

i : 벡터의 차수

또한, 앰프 저장부(908)에 저장하는 앰프리츄드는 사전에 설정해 놓지만, 이 설정 방법에 대하여 이하에 나타낸다. 앰프리츄드는 많은 음성 데이터에 대하여 부호화를 실행하고, 1 단째의 코드 벡터의 각 부호에 대하여 이하의 수학식 20의 부호화 왜곡의 합계를 구하여, 이것이 최소로 되도록 학습하는 것에 의해 설정한다.

EN : 코드 벡터 A의 부호가 N인 경우의 부호화 왜곡

N : 코드 벡터 A의 부호

t : 코드 벡터 A의 부호가 N인 시간

Y_t(i) : 시간 t에 있어서의 예측 오차 벡터

C1N(i) : 복호화 벡터 A

aN : 코드 벡터 A의 부호에 대응하는 앰프리츄드

C2m_t(i) : 코드 벡터 B

m_t : 코드 벡터 B의 번호

i : 벡터의 차수

I : 벡터의 길이

즉, 부호화후, 상기 수학식 20의 변형을 각 앰프리츄드로 미분한 값이 영(zero)으로 되도록 고쳐 설정함으로써 앰프리츄드의 학습을 행한다. 그리고, 상기 부호화 + 학습을 반복하는 것에 의해, 가장 적당한 앰프리츄드의 값을 구한다.

한편, 복호기(디코더)에서는, 전송되어 온 벡터의 부호에 근거하여 코드 벡터를 구하는 것에 의해 복호화한다. 복호기는 부호기와 동일한 벡터 코드북(코드 벡터 A, B에 대응)와 앰프 저장부와 상태 저장부를 갖고, 상기 부호화 알고리즘에 있어서의 탐색부(코드 벡터 B에 대응)의 복호화 기능과 마찬가지의 알고리즘으로 복호화를 행한다.

따라서, 본 실시예에서는, 앰프 저장부와 거리 계산부의 특징에 의해 비교적 적은 계산량으로 2 단째의 코드 벡터를 1 단째에 적응시킴으로써 부호화 왜곡을 보다 작게 할 수 있다.

또, 지금까지는 본 발명을 휴대 전화 등에서 이용되는 저 비트 레이트 음성 부호화 기술에 적응한 경우의 설명을 행하였지만, 본 발명은 음성 부호화뿐만 아니라, 음악음 부호화 장치나 화상 부호화 장치에 있어서의 비교적 보간성이 좋은 파라미터의 벡터 양자화에 이용할 수도 있다.

(실시예 7)

다음에 본 발명의 실시예 7에 관한 CELP형 음성 부호화 장치에 대하여 설명한다. 본 실시예는, ACELP타입의 잡음 코드북을 이용하는 경우에 있어서의 부호 탐색 연산량을 삭감 가능한 부호화 장치의 예이다. 도 13에, 본 실시예에 관한 CELP형 음성 부호화 장치의 기능 블럭을 도시한다. 이 CELP형 음성 부호화 장치로는, 입력 음성 신호(1001)에 대하여 필터 계수 분석부(1002)는, 선형 예측 분석 등을 행하여 합성 필터의 계수를 얻고, 얻어진 합성 필터의 계수를 필터 계수 양자화부(1003)로 출력한다. 필터 계수 양자화부(1003)는, 입력된 합성 필터의 계수를 양자화하여 합성 필터(1004)로 출력한다.

합성 필터(1004)는, 필터 계수 양자화부(1003)로부터 공급되는 필터 계수에 의해 구축되는 것으로, 적응 코드북(1005)으로부터의 출력인 적응 벡터(1006)에 적응 이득(1007)을 승산한 것과, 잡음 코드북(1008)으로부터의 출력인 잡음 벡터(1009)에 잡음 이득(1010)을 승산한 것을 가산하여 얻어지는 여진 신호(1011)에 의해 구동된다.

여기서, 적응 코드북(1005)이란 합성 필터에 대한 과거의 여진 신호를 피치 주기마다 출력한 적응 벡터를 복수개 저장한 코드북이고, 잡음 코드북(1008)이란 잡음 벡터를 복수개 저장한 코드북이다. 잡음 코드북(1008)은 상술한 실시예 1의 음원 벡터 생성 장치를 이용할 수 있다.

왜곡 계산부(1013)는, 여진 신호(1011)에 의해 구동된 합성 필터(1004)의 출력인 합성 음성 신호(1012)와 입력 음성 신호(1001) 사이의 왜곡을 산출하여, 부호 탐색 처리를 행한다. 부호 탐색 처리란, 왜곡 계산부(1013)에서 산출되는 왜곡을 최소화하기 위한 적응 벡터(1006)의 번호와 잡음 벡터(1009)의 번호를 특정함과 동시에, 각 출력 벡터에 승산하는 적응 이득(1007)과 잡음 이득(1010)의 최적값을 산출하는 처리이다.

부호 출력부(1014)는, 필터 계수 양자화부(1003)로부터 얻어지는 필터 계수의 양자화값과, 왜곡 계산부(1013)에 있어서 선택된 적응 벡터(1006)의 번호 및 잡음 벡터(1009)의 번호와, 각각에 승산하는 적응 이득(1007) 및 잡음 이득(1010)을 부호화한 것을 출력한다. 부호 출력부(1014)로부터 출력된 것이 전송 또는 축적된다.

또, 왜곡 계산부(1013)에서의 부호 탐색 처리에서는, 통상, 우선 여진 신호중의 적응 코드북 성분의 탐색이 행해지고, 다음에 여진 신호중의 잡음 코드북 성분의 탐색이 실행된다.

상기 잡음 코드북 성분의 탐색은, 이하에 설명하는 직교화 탐색을 사용한다.

직교화 탐색에서는, 수학식 21의 탐색 기준치 Eort(=Nort/Dort)를 최대화하는 잡음 벡터 c를 특정한다.

Nort : Eort의 분자항

Dort : Eort의 분모항

p : 이미 특정되어 있는 적응 벡터

H : 합성 필터의 계수 행렬

H^t : H의 전치 행렬

X : 타겟 신호(입력 음성 신호로부터 합성 필터의 제로 입력 응답을 차분한 것)

c : 잡음 벡터

직교화 탐색은, 사전에 특정된 적응 벡터에 대하여 후보로 되는 잡음 벡터를 각각 직교화하여, 직교화한 복수의 잡음 벡터로부터 왜곡을 최소로 하는 것을 1개 특정하는 탐색 방법으로, 비직교화 탐색에 비해서 잡음 벡터의 특정 정밀도를 높일 수 있어, 합성 음성 신호의 품질을 향상시킬 수 있다고 하는 점에 특징을 갖고 있다.

ACELP 방식에 있어서는, 잡음 벡터가 소수개의 극성 부여 펄스만에 의해 구성되어 있다. 이것을 이용하여, 수학식 21에서 나타내어지는 탐색 기준치의 분자항(Nort)을 이하의 수학식 22로 변형함으로써 분자항의 연산을 삭감할 수 있다.

a_i : 1개째 펄스의 극성

l_i : i개째 펄스의 위치

N : 펄스 개수

ψ : {(p^tH^tHp)x-(x^tHp)Hp}H

수학식 22의 ψ의 값을 전(前) 처리로서 사전에 계산하여 배열로 전개해 놓으면, 수학식 21의 분자항을, 배열 ψ중의 (N-1)개의 요소를 부호 부여 가산하여, 그 결과를 2승하는 것에 의해 계산할 수 있다.

다음에, 분모항에 대하여 연산량을 삭감 가능한 왜곡 계산부(1013)에 대하여 구체적으로 설명한다.

도 14에 왜곡 계산부(1013)의 기능 블럭을 도시한다. 또, 본 실시예에 있어서의 음성 부호화 장치는, 도 13의 구성에 있어서 적응 벡터(1006) 및 잡음 벡터(1009)를 왜곡 계산부(1013)에 입력하는 구성이다.

도 14에 있어서는, 입력되는 잡음 벡터에 대하여 왜곡을 산출할 때의 전 처리로서, 이하의 3가지의 처리를 행한다.

(1) 제 1 행렬(N)의 산출 : 적응 벡터를 합성 필터에 의해 합성한 벡터의 파워(p^tH^tHp)와, 합성 필터의 필터 계수의 자기 상관 행렬(H^tH)을 계산하여, 상기 자기 상관 행렬의 각 요소에 상기 파워를 승산하여 행렬 N(=(p^tH^tHp)H^tH)을 산출한다.

(2) 제 2 행렬(M)의 산출 : 적응 벡터를 합성 필터에 의해 합성한 벡터를 시간 역순화 합성하여, 그 결과 얻어진 신호(p^tH^tH)의 외적을 취해 행렬 M을 산출한다.

(3) 제 3 행렬(L)의 생성: (1)에서 산출한 행렬 N에서, (2)에서 산출한 행렬 M을 차분하여 행렬 L을 생성한다.

또, 수학식 21의 분모항(Dort)은 수학식 23과 같이 전개할 수 있다.

N : (p^tH^tHp)H^tH ← 상기 전 처리(1)

r : p^tH^tH ← 상기 전 처리(2)

M : rr^t ← 상기 전 처리(2)

L : N-M ← 상기 전 처리(3)

c : 잡음 벡터

이에 따라, 수학식 21의 탐색 기준치(Eort)를 계산할 때의 분모항(Dort)의 계산 방법이 수학식 23으로 치환되고, 보다 적은 연산량으로 잡음 코드북 성분을 특정하는 것이 가능하게 된다.

상기 전 처리에 의해 얻어진 행렬 L과, 잡음 벡터(1009)를 이용하여, 분모항의 계산을 행한다.

여기서는, 간단화를 위해, 입력 음성 신호의 샘플링 주파수를 8000Hz, Algebraic 구조의 잡음 코드북 탐색의 단위 시간폭(프레임 시간)을 10ms, 잡음 벡터가 10ms당 5개의 단위 펄스(+1/-1)의 규칙적인 조합으로 작성되는 경우에 대하여, 수학식 23에 근거하는 분모항의 계산 방법을 설명한다.

또, 잡음 벡터를 구성하는 5개의 단위 펄스는, 표 2에 나타낸 제 0으로부터 제 4 그룹마다 규정되는 위치로부터 1개씩 선택된 위치에 배치된 펄스에 의해 구성되어 있고, 잡음 벡터 후보 c는 이하의 수학식 24에 의해 기술할 수 있는 것으로 한다.

a_i : 그룹 i에 속한 펄스의 극성(+1/-1)

l_i : 그룹 i에 속한 펄스의 위치

이 때, 수학식 23에서 나타내어지는 분모항(Dort)을, 이하의 수학식 25에 의해 구하는 것이 가능하게 된다.

a_i : 그룹 i에 속한 펄스의 극성(+1/-1)

l_i : 그룹 i에 속한 펄스의 위치

L(l_i, l_j) : 행렬 L의 l_i행 l_j열 요소

이상의 설명에 의해, ACELP타입의 잡음 코드북을 이용한 경우, 수학식 21의 부호 탐색 기준치의 분자항(Nort)은 수학식 22에 의해 계산 가능하고, 한편, 분모항(Dort)은 수학식 25에 의해 계산 가능한 것을 알 수 있다. 따라서, ACELP타입의 잡음 코드북을 이용한 경우, 수학식 21의 기준치를 그대로 계산하는 것은 아니고, 분자항은 수학식 22에 의해, 분모항은 수학식 25에 의해 각각 계산하는 것으로, 대폭 부호 탐색 연산량을 삭감하는 것이 가능하게 된다.

또, 지금까지 설명한 본 실시예는, 예비 선택을 따르지 않은 잡음 코드북 탐색에 대한 설명이지만, 수학식 22의 값을 크게 하는 것 같은 잡음 벡터를 예비 선택하고, 예비 선택에 의해 복수 후보로 좁혀진 잡음 벡터에 대하여 수학식 21을 계산하여, 그 값을 최대화하는 잡음 벡터를 선택하는 경우에 본 발명을 적용하더라도, 동일한 효과가 얻어진다.

본 발명에 따르면, 종래의 대수적 음원 생성부보다도, 실제의 음원 벡터의 형상에 매우 유사한 형상의 음원 벡터를 생성하는 것이 가능하게 된다.

또한, 본 발명에 따르면, 보다 품질이 높은 합성 음성을 출력하는 것이 가능한 음성 부호화 장치/복호화 장치, 음성 신호 통신 시스템, 음성 신호 기록 시스템을 얻을 수 있다.

Claims

입력 음성 신호의 LPC 분석에 의해 획득된 파라미터 벡터에 대한 벡터 양자화 장치에 있어서,

상기 입력 음성 신호를 분석하여 선형 예측 계수를 획득하는 LPC 분석부와,

상기 선형 예측 계수를 상기 파라미터 벡터로 변환하는 변환부와,

상기 파라미터 벡터로부터 타겟 벡터를 추출하는 타겟 벡터 추출부와,

제 1 코드북에 저장된 제 1 코드 벡터를 이용하여 상기 타겟 벡터의 제 1 단계의 부호화(a first stage of the coding)를 수행하는 제 1 양자화부와,

스칼라(a scalar)를 저장하는 앰플리파이어 저장부(amplifier storing section)와,

제 2 코드북에 저장된 제 2 코드 벡터와 상기 스칼라를 함께 승산함으로써 제 3 코드 벡터를 결정하고, 상기 타겟 벡터, 상기 제 1 코드 벡터 및 상기 제 3 코드 벡터를 이용해서 거리 계산을 수행하고, 상기 거리 계산의 결과를 이용해서 상기 타겟 벡터의 제 2 단계의 부호화를 수행하여, 양자화된 파라미터 벡터를 생성하는 제 2 양자화부

를 포함하되,

상기 앰플리파이어 저장부는, 상기 제 2 양자화부에서 상기 제 1 코드 벡터가 이용되는 경우에, 이용되는 것이 미리 정해져 있는 스칼라를 출력하는 벡터 양자화 장치.
제 1 항에 있어서,

상기 제 2 코드북에 저장된 제 2 코드 벡터는 학습용 샘플 벡터의 양을 이용하여 계산함으로써 얻어지는 벡터 양자화 장치.
입력 음성 신호의 LPC 분석에 의해 획득된 파라미터 벡터에 대한 벡터 양자화 방법에 있어서,

선형 예측 계수를 얻기 위해 상기 입력 음성 신호를 분석하는 단계와,

상기 선형 예측 계수를 상기 파라미터 벡터로 변환하는 단계와,

상기 파라미터 벡터로부터 타겟 벡터를 추출하는 단계와,

제 1 코드북으로부터 제 1 코드 벡터를 판독하여, 상기 제 1 코드 벡터를 이용해서 상기 타겟 벡터의 제 1 단계의 부호화를 수행하는 단계와,

메모리로부터 스칼라를 판독하는 단계와,

제 2 코드북으로부터 제 2 코드 벡터를 판독하여, 상기 제 2 코드 벡터와 상기 스칼라를 함께 승산함으로써 제 3 코드 벡터를 결정하는 단계와,

상기 타겟 벡터, 상기 제 1 코드 벡터 및 상기 제 3 코드 벡터를 이용해서 거리 계산을 수행하는 단계와,

상기 거리 계산의 결과를 이용해서 상기 타겟 벡터의 제 2 단계의 부호화를 수행하여, 양자화된 파라미터 벡터를 생성하는 단계

를 포함하되,

상기 제 3 코드 벡터를 결정하는 단계에서 이용되는 스칼라는, 상기 거리 계산을 수행하는 단계에서 상기 제 1 코드 벡터가 이용되는 경우에, 이용되는 것이 미리 정해져 있는 것인 벡터 양자화 방법.
제 3 항에 있어서,

상기 제 2 코드북에 저장된 상기 제 2 코드 벡터는 학습용 샘플 벡터의 양을 이용하여 계산함으로써 얻어지는 벡터 양자화 방법.