KR20030096444A

KR20030096444A - 음원 벡터 생성 장치 및 방법

Info

Publication number: KR20030096444A
Application number: KR1020017010774A
Authority: KR
Inventors: 야스나가가즈토시; 모리이도시유키; 와타나베다이스케; 에하라히로유키
Original assignee: 마쯔시다덴기산교 가부시키가이샤
Priority date: 1996-11-07
Filing date: 1997-11-06
Publication date: 2003-12-31
Also published as: DE69712538D1; US6345247B1; CN1338725A; DE69711715T2; DE69712539T2; EP1071079B1; DE69730316D1; US8036887B2; DE69710794D1; DE69715478T2; US20090012781A1; DE69708693C5; DE69712537D1; EP1136985A3; DE69710505D1; EP1071081A3; DE69712535T2; CN1503223A; EP1094447A2; DE69713633T2

Abstract

종래의 CELP형 음성 부호화/복호화 장치의 잡음 벡터 판독부 및 잡음 부호 리스트를, 입력되는 시드의 값에 따라 상이한 벡터 계열을 출력하는 발진기 및 복수개의 시드(발진기의 시드)를 저장하는 시드 저장부로 각각 치환한다. 이에 따라, 고정 벡터를 그대로 고정 부호 리스트(ROM)에 저장해 놓을 필요가 없어져 메모리 용량을 대폭 삭감한다.

Description

음원 벡터 생성 장치 및 방법{EXCITATION VECTOR GENERATOR AND METHOD FOR GENERATING AN EXCITATION VECTOR}

본 발명은 고품질의 합성 음성을 얻을 수 있는 음원 벡터 생성 장치와, 저(低)비트 속도로 고품질의 음성 신호를 부호화/복호화할 수 있는 음성 부호화 장치 및 음성 복호화 장치에 관한 것이다.

CELP(Code Excited Linear Prediction)형의 음성 부호화 장치는 음성을 일정 시간으로 구분한 프레임마다 선형(線形) 예측을 행하여, 프레임마다의 선형 예측에 의한 예측 잔차(여진 신호)를, 과거의 구동 음원을 저장한 적응 부호 리스트와 복수의 잡음 부호 벡터를 저장한 잡음 부호 리스트를 이용하여 부호화하는 방식이다. 예를 들면, "High Quality Speech at Low Bit Rate", M. R. Schroeder, Proc. ICASSP'85, pp.937-940에 CELP형 음성 부호화 장치가 개시되어 있다.

도 1에 CELP형 음성 부호화 장치의 개략 구성을 도시하고 있다. CELP형 음성 부호화 장치는 음성 정보를 음원(音源) 정보와 음성 경로 정보로 분리하여 부호화한다. 음성 경로 정보에 대해서는, 입력 음성 신호(10)를 필터 계수 분석부(11)에 입력하여 선형 예측한 다음, 선형 예측 계수(LPC)를 필터 계수 양자화부(12)에서 부호화한다. 선형 예측 계수를 합성 필터(13)로 전달함으로써 합성 필터(13)에서 음성 경로 정보를 음원 정보에 가미시킬 수 있다. 음원 정보에 대해서는, 프레임을 더욱 세밀하게 나눈 구간(서브 프레임(subframe)이라고 함)마다 적응 부호 리스트(14)와 잡음 부호 리스트(15)의 음원 탐색이 실행된다. 적응 부호 리스트(14)의 탐색과 잡음 부호 리스트(15)의 탐색은, 수학식 1의 부호화 왜곡을 최소화하는 적응 부호 벡터의 코드 번호와 그 이득(피치 이득), 잡음 부호 벡터의 코드 번호와 그 이득(잡음 부호 이득)을 결정하는 처리이다.

그러나, 수학식 1을 최소로 하는 상기 부호를 폐루프 탐색하면, 부호 탐색에 소요되는 연산량이 방대하게 되기 때문에, 일반적인 CELP형 음성 부호화 장치에서는 우선 적응 부호 리스트 탐색을 행하여, 적응 코드 벡터의 코드 번호를 특정하고, 다음에 그 결과를 수신하여 잡음 부호 리스트 탐색을 실행해 잡음 코드 벡터의 코드 번호를 특정한다.

여기서, CELP형 음성 부호화 장치의 잡음 부호 리스트 탐색에 대하여, 도 2a∼도 2c를 이용하여 설명한다. 도면중, 부호 x는 수학식 2에 의해 구한 잡음 부호 리스트 탐색용 타겟 벡터이다. 적응 부호 리스트 탐색은 이미 종료되어 있는 것으로 한다.

잡음 부호 리스트 탐색은, 도 2a에 도시하는 바와 같이 왜곡 계산부(16)에 있어서 수학식 3으로 정의되는 부호화 왜곡을 최소화하는 잡음 부호 벡터 c를 특정하는 처리이다.

왜곡 계산부(16)는 잡음 부호 벡터 c를 특정할 때까지 제어 스위치(21)를 제어하여 잡음 부호 리스트(15)로부터 판독되는 잡음 코드 벡터를 전환한다.

실제의 CELP형 음성 부호화 장치는 계산 비용을 삭감하기 위해서 도 2b의 구성으로 되어 있으며, 왜곡 계산부(16')에서는 수학식 4의 왜곡 평가값을 최대화하는 코드 번호를 특정하는 처리가 실행된다.

구체적으로는, 잡음 부호 리스트 제어 스위치(21)가 잡음 부호 리스트(15)의 임의의 1 단자에 접속되어, 그 단자에 대응한 어드레스로부터 잡음 코드 벡터 c가 판독된다. 판독된 잡음 코드 벡터 c가 합성 필터(13)에 의해 음성 경로 정보와 합성되어 합성 벡터 Hc가 생성된다. 다음에, 타겟 x를 시간 역순화(逆順化), 합성, 시간 역순화하여 얻어진 벡터 x'과, 잡음 코드 벡터를 합성 필터에 의해 합성한 벡터 Hc 및 잡음 코드 벡터 c를 이용하여 왜곡 계산부(16')가 수학식 4의 왜곡 평가값을 산출한다. 그리고, 잡음 부호 리스트 제어 스위치(21)를 전환함으로써 상기 왜곡 평가값의 잡음 부호 리스트내의 모든 잡음 벡터에 대하여 산출해 간다.

최종적으로, 수학식 4의 왜곡 평가값이 최대로 될 때 접속되어 있던 잡음 부호 리스트 제어 스위치(21)의 번호가 잡음 코드 벡터의 코드 번호로서 부호 출력부(17)로 출력된다.

도 2c에 음성 복호화 장치의 부분적 구성이 도시되어 있다. 전송되어 온 코드 번호의 잡음 코드 벡터가 판독되도록 잡음 부호 리스트 제어 스위치(21)가 전환 제어된다. 또한, 전송되어 온 잡음 부호 이득 gc 및 필터 계수를 증폭 회로(23) 및 합성 필터(24)에 설정한 다음, 잡음 코드 벡터를 판독하여 합성 음성을 복원한다.

상술한 음성 부호화 장치/복호화 장치에 있어서는, 잡음 부호 리스트(15)에 음원 정보로서 저장되는 잡음 부호 벡터의 수가 많을수록 실제 음성의 음원에 가까운 잡음 부호 벡터를 탐색할 수 있게 된다. 그러나, 잡음 부호 리스트(ROM)의 용량에는 제한이 있기 때문에, 모든 음원에 대응한 무수한 잡음 부호 벡터를 잡음 부호 리스트에 저장해 놓을 수는 없다. 이 때문에 음성 품질의 향상을 도모하는 데에 있어서 한계가 있었다.

또한, 왜곡 계산부에 있어서의 부호화 왜곡의 계산 비용을 대폭 삭감할 수 있고, 또한 잡음 부호 리스트(ROM)를 삭감할 수 있도록 한 대수적(代數的) 구조 음원이 제안되어 있다("8KBIT/S ACELP CODING OF SPEECH WITH 10 MS SPEECH-FRAME : A CANDIDATE FOR CCITT STANDARDIZATION" : R. Salami, C. Laflamme, J-P. Adoul, ICASSP'94, pp.Ⅱ-97∼Ⅱ-100, 1994에 기재).

대수적 구조 음원은 합성 필터의 임펄스 응답과 시간 역순화한 타겟의 콘볼루션(convolution) 연산 결과 및 합성 필터의 자기(自己) 상관을 미리 계산하여 메모리에 전개시켜 놓음으로써, 부호화 왜곡 계산의 비용을 대폭 삭감하고 있다. 또한, 대수적으로 잡음 부호 벡터를 생성함으로써 잡음 부호 벡터를 저장하고 있는 ROM을 삭감하고 있다. 상기 대수적 구조 음원을 잡음 부호 리스트에 사용한 CS-ACELP 및 ACELP가 ITU-T로부터 각각 G.729 및 G.723.1로서 권고되어 있다.

그러나, 상기 대수적 구조 음원을 잡음 부호 리스트부에 구비한 CELP형 음성 부호화 장치/음성 복호화 장치에서는, 잡음 부호 리스트 탐색용 타겟을 항상 펄스열 벡터로 부호화하기 때문에, 음성 품질의 향상을 도모하는 데에 있어서 한계가 있었다.

본 발명은 이상과 같은 실정을 감안하여 이루어진 것으로, 본 발명의 제 1 목적은 잡음 부호 리스트에 잡음 부호 벡터를 그대로 저장하는 경우에 비해서 대폭 메모리 용량을 억제할 수 있고, 음성 품질의 향상을 도모할 수 있는 음원 벡터 생성 장치 및 음성 부호화 장치 및 음성 복호화 장치를 제공하는 것이다.

본 발명의 제 2 목적은 대수적 구조 음원을 잡음 부호 리스트부에 구비하여, 잡음 부호 리스트 탐색용 타겟을 펄스열 벡터로 부호화하는 경우에 비해 복잡한 잡음 부호 벡터를 생성할 수 있고, 음성 품질의 향상을 도모할 수 있는 음원 벡터 생성 장치 및 음성 부호화 장치 및 음성 복호화 장치를 제공하는 것이다.

본 발명은 종래의 CELP형 음성 부호화/복호화 장치의 고정 벡터 판독부 및 고정 부호 리스트를, 입력되는 시드(seed)의 값에 따라 다른 벡터 계열을 출력하는발진기 및 복수개의 시드(발진기의 시드)를 저장하는 시드 저장부에 각각 치환한다. 이에 따라, 고정 벡터를 그대로 고정 부호 리스트(ROM)에 저장해 둘 필요가 없어져 메모리 용량을 대폭 삭감할 수 있다.

또한, 본 발명은 종래의 CELP형 음성 부호화/복호화 장치의 잡음 벡터 판독부 및 잡음 부호 리스트를 발진기 및 시드 저장부에 치환한다. 이에 따라, 잡음 벡터를 그대로 잡음 부호 리스트(ROM)에 저장해 둘 필요가 없어져 메모리 용량을 대폭 삭감할 수 있다.

또한, 본 발명은 복수개의 고정 파형을 저장하여, 개시단 후보 위치 정보에 근거해 각각의 고정 파형을 각 개시단 위치에 배치하고, 이들 고정 파형을 가산하여 음원 벡터를 생성하도록 구성한 음원 벡터 생성 장치이다. 이에 따라, 실제 음성에 가까운 음원 벡터를 생성할 수 있다.

또한, 본 발명은 잡음 부호 리스트로서 상기 음원 벡터 생성 장치를 이용하여 구성한 CELP형 음성 부호화/복호화 장치이다. 또한, 고정 파형 배치부가 고정 파형의 개시단 후보 위치 정보를 대수적으로 생성하여도 좋다.

또한, 본 발명은 복수개의 고정 파형을 저장하여, 고정 파형마다의 개시단 후보 위치 정보에 대한 임펄스를 생성하고, 합성 필터의 임펄스 응답과 각각의 고정 파형을 콘볼루션하여 파형별 임펄스 응답을 생성하며, 상기 파형별 임펄스 응답의 자기 상관 및 상호 상관을 계산하여 상관 행렬 메모리에 전개하도록 한 CELP형 음성 부호화/복호화 장치이다. 이에 따라, 대수적 구조 음원을 잡음 부호 리스트로서 사용하는 경우와 동일한 정도의 계산 비용이면서, 합성 음성의 품질이 향상된음성 부호화/복호화 장치를 얻을 수 있다.

또한, 본 발명은 복수의 잡음 부호 리스트와, 상기 복수의 잡음 부호 리스트 중에서 하나를 선택하는 전환 수단을 구비한 CELP형 음성 부호화/복호화 장치로서, 적어도 하나의 잡음 부호 리스트를 상기 음원 벡터 생성 장치로 하여도 무방하고, 또한 적어도 하나의 잡음 부호 리스트를 복수의 랜덤 수열을 저장한 벡터 저장부 또는 복수의 펄스열을 저장한 펄스열 저장부로 하여도 무방하며, 또는 상기 음원 벡터 생성 장치를 갖는 잡음 부호 리스트를 적어도 두개 갖고, 저장하는 고정 파형의 개수를 각각의 잡음 부호 리스트에 있어서 상이하도록 하여도 무방하며, 전환 수단을, 잡음 부호 리스트 탐색시의 부호화 왜곡이 최소로 되도록 어느 하나의 잡음 부호 리스트를 선택하든가, 혹은 음성 구간의 분석 결과에 따라 적응적으로 어느 하나의 잡음 부호 리스트를 선택하도록 하여도 무방하다.

도 1은 종래의 CELP형 음성 부호화 장치의 개략도,

도 2a는 도 1의 음성 부호화 장치에 있어서의 음원 벡터 생성부의 블럭도,

도 2b는 계산 비용 삭감을 도모하는 변형된 음원 벡터 생성부의 블럭도,

도 2c는 도 1의 음성 부호화 장치와 한 세트로 사용하는 음성 복호화 장치에 있어서의 음원 벡터 생성부의 블럭도,

도 3은 실시예 1에 관한 음성 부호화 장치의 주요부 블럭도,

도 4는 실시예 1의 음성 부호화 장치에 구비한 음원 벡터 생성 장치의 블럭도,

도 5는 실시예 2에 관한 음성 부호화 장치의 주요부 블럭도,

도 6은 실시예 2의 음성 부호화 장치에 구비한 음원 벡터 생성 장치의 블럭도,

도 7은 실시예 3 및 4에 관한 음성 부호화 장치의 주요부 블럭도,

도 8은 실시예 3의 음성 부호화 장치에 구비한 음원 벡터 생성 장치의 블럭도,

도 9는 실시예 4의 음성 부호화 장치에 구비한 비(非)선형 디지탈 필터의 블럭도,

도 10은 도 9에 도시한 비선형 디지탈 필터의 가산 특성도,

도 11은 실시예 5에 관한 음성 부호화 장치의 주요부 블럭도,

도 12는 실시예 6에 관한 음성 부호화 장치의 주요부 블럭도,

도 13a는 실시예 7에 관한 음성 부호화 장치의 주요부 블럭도,

도 13b는 실시예 7에 관한 음성 부호화 장치의 주요부 블럭도,

도 14는 실시예 8에 관한 음성 복호화 장치의 주요부 블럭도,

도 15는 실시예 9에 관한 음성 부호화 장치의 주요부 블럭도,

도 16은 실시예 9의 음성 부호화 장치에 구비한 양자화 대상 LSP 추가부의 블럭도,

도 17은 실시예 9의 음성 부호화 장치에 구비한 LSP 양자화·복호화부의 블럭도,

도 18은 실시예 10에 관한 음성 부호화 장치의 주요부 블럭도,

도 19a는 실시예 11에 관한 음성 부호화 장치의 주요부 블럭도,

도 19b는 실시예 11에 관한 음성 복호화 장치의 주요부 블럭도,

도 20은 실시예 12에 관한 음성 부호화 장치의 주요부 블럭도,

도 21은 실시예 13에 관한 음성 부호화 장치의 주요부 블럭도,

도 22는 실시예 14에 관한 음성 부호화 장치의 주요부 블럭도,

도 23은 실시예 15에 관한 음성 부호화 장치의 주요부 블럭도,

도 24는 실시예 16에 관한 음성 부호화 장치의 주요부 블럭도,

도 25는 실시예 16에 있어서의 벡터 양자화 부분의 블럭도,

도 26은 실시예 17에 관한 음성 부호화 장치의 파라미터 부호화부의 블럭도,

도 27은 실시예 18에 관한 노이즈 삭감 장치의 블럭도.

발명을 실시하기 위한 최선의 형태

이하, 본 발명의 실시예에 대하여 도면을 참조하여 구체적으로 설명한다.

(실시예 1)

도 3은 본 실시예에 의한 음성 부호화 장치의 주요부 블럭도이다. 이 음성 부호화 장치는, 시드(seed) 저장부(31) 및 발진기(32)를 갖는 음원 벡터 생성 장치(30)와, LPC 합성 필터부(33)를 구비하고 있다.

시드 저장부(31)로부터 출력되는 시드(seed;발진의 시드)(34)가 발진기(32)에 입력된다. 발진기(32)는 입력되는 시드의 값에 따라 상이한 벡터 계열을 출력하는 것이다. 발진기(32)는 시드(발진의 시드)(34)의 값에 따른 내용으로 발진하여 벡터 계열인 음원 벡터(35)를 출력한다. 또한, LPC 합성 필터부(33)는 음성 경로 정보가 합성 필터의 임펄스 응답 콘볼루션 행렬의 형태로 주어져 있고, 음원 벡터(35)를 임펄스 응답으로 콘볼루션 연산함으로써 합성음(36)을 출력한다. 음원 벡터(35)를 임펄스 응답으로 콘볼루션 연산하는 것을 LPC 합성이라고 부른다.

도 4에 음원 벡터 생성 장치(30)의 구체적인 구성이 도시되어 있다. 시드 저장부(31)로부터 판독하는 시드를 시드 저장부 제어 스위치(41)가 왜곡 계산부로부터 인가되는 제어 신호에 따라 전환하고 있다.

이와 같이, 발진기(32)로부터 서로 다른 벡터 계열을 출력시키는 복수의 시드를 시드 저장부(31)에 저장해 놓는 것만으로, 복잡한 잡음 부호 벡터를 잡음 부호 리스트에 그대로 저장해 놓는 경우에 비해 적은 용량으로 보다 많은 잡음 부호 벡터를 발생시킬 수 있다.

또, 본 실시예에서는 음성 부호화 장치에 대하여 설명하였지만, 음원 벡터 생성 장치(30)를 음성 복호화 장치에 적용하는 것도 가능하다. 이 경우, 음성 복호화 장치에는 음성 부호화 장치의 시드 저장부(31)와 동일한 내용의 시드 저장부를 구비하고, 시드 저장부 제어 스위치(41)에는 부호화시에 선택한 시드 번호가 인가된다.

(실시예 2)

도 5는 본 실시예에 따른 음성 부호화 장치의 주요부 블럭도이다. 이 음성 부호화 장치는, 시드 저장부(51)와 비선형(非線形) 발진기(52)를 갖는 음원 벡터 생성 장치(50)와, LPC 합성 필터부(53)를 구비하고 있다.

시드 저장부(51)로부터 출력되는 시드(54)는 비선형 발진기(52)에 입력된다. 비선형 발진기(52)로부터 출력된 벡터 계열인 음원 벡터(55)는 LPC 합성 필터부(53)에 입력된다. LPC 합성 필터부(53)의 출력은 합성음(56)이다.

비선형 발진기(52)는 입력되는 시드(54)의 값에 따라 상이한 벡터 계열을 출력하는 것이며, LPC 합성 필터부(53)는 입력된 음원 벡터(55)를 LPC 합성하여 합성음(56)을 출력한다.

도 6에 음원 벡터 생성 장치(50)의 기능 블럭이 도시되어 있다. 시드 저장부(51)로부터 판독하는 시드를 시드 저장부 제어 스위치(41)가 왜곡 계산부로부터 인가되는 제어 신호에 따라서 전환하고 있다.

이와 같이, 음원 벡터 생성 장치(50)의 발진기에 비선형 발진기(52)를 이용함으로써, 비선형 특성에 따른 발진에 의해 발산을 억제할 수 있어 실용적인 음원 벡터를 얻을 수 있다.

또, 본 실시예에서는 음성 부호화 장치에 대하여 설명하였지만, 음원 벡터 생성 장치(50)를 음성 복호화 장치에 적용하는 것도 가능하다. 이 경우, 음성 복호화 장치에는 음성 부호화 장치의 시드 저장부(51)와 동일한 내용의 시드 저장부를 구비하고, 시드 저장부 제어 스위치(41)에는 부호화시에 선택한 시드 번호가 인가된다.

(실시예 3)

도 7은 본 실시예에 의한 음성 부호화 장치의 주요부 블럭도이다. 이 음성 부호화 장치는, 시드 저장부(71) 및 비선형 디지탈 필터(72)를 갖는 음원 벡터 생성 장치(70)와, LPC 합성 필터부(73)를 구비하고 있다. 도면중 부호(74)는 시드 저장부(71)로부터 출력되어 비선형 디지탈 필터(72)에 입력되는 시드(발진의 시드), 부호 (75)는 비선형 디지탈 필터(72)로부터 출력된 벡터 계열인 음원 벡터, 부호 (76)은 LPC 합성 필터부(73)로부터 출력되는 합성음이다.

음원 벡터 생성 장치(70)는, 도 8에 도시하는 바와 같이 왜곡 계산부로부터 인가되는 제어 신호에 의해 시드 저장부(71)로부터 판독되는 시드(74)를 전환하는 시드 저장부 제어 스위치(41)를 갖는다.

비선형 디지탈 필터(72)는 입력되는 시드의 값에 따라 상이한 벡터 계열을 출력하는 것이며, LPC 합성 필터부(73)는 입력된 음원 벡터(75)를 LPC 합성하여 합성음(76)을 출력한다.

이와 같이 음원 벡터 생성 장치(70)의 발진기에 비선형 디지탈 필터(72)를 이용함으로써, 비선형 특성에 따른 발진에 의해 발산을 억제할 수 있어 실용적인 음원 벡터를 얻을 수 있다. 또, 본 실시예에서는 음성 부호화 장치에 대하여 설명하였지만, 음원 벡터 생성 장치(70)를 음성 복호화 장치에 적용하는 것도 가능하다. 이 경우, 음성 복호화 장치에는 음성 부호화 장치의 시드 저장부(71)와 동일한 내용의 시드 저장부를 구비하고, 시드 저장부 제어 스위치(41)에는 부호화시에 선택한 시드 번호가 인가된다.

(실시예 4)

본 실시예에 관한 음성 부호화 장치는, 도 7에 도시하는 바와 같이 시드 저장부(71) 및 비선형 디지탈 필터(72)를 갖는 음원 벡터 생성 장치(70)와, LPC 합성 필터부(73)를 구비하고 있다.

특히, 비선형 디지탈 필터(72)는 도 9에 도시한 구성으로 되어 있다. 이 비선형 디지탈 필터(72)는 도 10에 도시한 비선형 가산 특성을 갖는 가산기(91)와, 디지탈 필터의 상태(y(k-1)∼y(k-N)의 값)를 보존하는 작용을 갖는 상태 변수 유지부(92∼93)와, 각 상태 변수 유지부(92∼93)의 출력에 병렬로 접속되어 상태 변수에 이득을 승산해 가산기(91)로 출력하는 승산기(94∼95)를 갖고 있다. 상태 변수 유지부(92∼93)는, 상태 변수의 초기값이 시드 저장부(71)로부터 판독된 시드에 의해 설정된다. 승산기(94∼95)는 디지탈 필터의 극(極)이 Z 평면에 있어서의 단위원 밖에 존재하도록 이득의 값이 고정되어 있다.

도 10은 비선형 디지탈 필터(72)에 구비된 가산기(91)의 비선형 가산 특성의 개념도로서, 부호 (2)의 보수 특성을 갖는 가산기(91)의 입출력 관계를 나타낸 도면이다. 가산기(91)는, 우선 가산기(91)로의 입력값의 총합인 가산기 입력합을 구하고, 다음에 그 입력합에 대한 가산기 출력을 산출하기 위해 도 10에 도시한 비선형 특성을 이용한다.

특히, 비선형 디지탈 필터(72)는 2차 전극(全極) 구조를 채용하고 있기 때문에, 2개의 상태 변수 유지부(92, 93)를 직렬 접속하고 있으며, 상태 변수 유지부(92, 93)의 출력에 대하여 승산기(94, 95)가 접속된다. 또한, 가산기(91)의 비선형 가산 특성이 2의 보수(補數) 특성으로 되어 있는 디지탈 필터를 이용하고 있다. 또한, 시드 저장부(71)는 특히 표 1에 기재한 32words의 시드 벡터를 저장하고 있다.

이상과 같이 구성된 음성 부호화 장치에서는, 시드 저장부(71)로부터 판독된 시드 벡터가 비선형 디지탈 필터(72)의 상태 변수 유지부(92, 93)에 초기값으로서 인가된다. 비선형 디지탈 필터(72)는 가산기(91)에 입력 벡터(0(zero) 계열)로부터 0이 입력될 때마다 1 샘플(y(k))씩 출력하고, 상태 변수로서 상태 변수 유지부(92, 93)에 순차적으로 전송된다. 이 때, 각각에 상태 변수 유지부(92, 93)로부터 출력되는 상태 변수에 대하여 각 승산기(94, 95)에 의해 이득 a1, a2가 곱해진다. 가산기(91)에서 승산기(94, 95)의 출력을 가산하여 가산기 입력합을 구하고, 도 10의 특성에 근거하여 +1∼-1 사이로 억제된 가산기 출력을 발생시킨다.이 가산기 출력(y(k+1))이 음원 벡터로서 출력됨과 동시에, 상태 변수 유지부(92, 93)에 순차적으로 전송되어 새로운 샘플(y(k+2))이 생성된다.

본 실시예는, 비선형 디지탈 필터로서, 특히 극(極)이 Z 평면에 있어서의 단위원 밖에 존재하도록 승산기(94∼95)의 계수 1∼N를 고정하여, 가산기(91)에 비선형 가산 특성을 갖도록 하고 있기 때문에, 비선형 디지탈 필터(72)의 입력이 커지더라도 출력이 발산하는 것을 억제할 수 있어, 실제 사용에 견딜 수 있는 음원 벡터를 계속하여 생성할 수 있다. 또한, 생성하는 음원 벡터의 랜덤성을 확보할 수 있다.

또, 본 실시예에서는 음성 부호화 장치에 대하여 설명하였지만, 음원 벡터 생성 장치(70)를 음성 복호화 장치에 적용하는 것도 가능하다. 이 경우, 음성 복호화 장치에는 음성 부호화 장치의 시드 저장부(71)와 동일한 내용의 시드 저장부를 구비하고, 시드 저장부 제어 스위치(41)에는 부호화시에 선택한 시드 번호가 인가된다.

(실시예 5)

도 11은 본 실시예에 의한 음성 부호화 장치의 주요부 블럭도이다. 이 음성 부호화 장치는, 음원 저장부(111) 및 음원 가산 벡터 생성부(112)를 갖는 음원 벡터 생성 장치(110)와, LPC 합성 필터부(113)를 구비하고 있다.

음원 저장부(111)는 과거의 음원 벡터가 저장되어 있어, 도시하지 않은 왜곡 계산부로부터의 제어 신호를 수신한 제어 스위치에 의해 음원 벡터가 판독된다.

음원 가산 벡터 생성부(112)는 음원 저장부(111)로부터 판독된 과거의 음원 벡터에 대하여 생성 벡터 특정 번호에 의해 지시된 소정의 처리를 실시하여 새로운 음원 벡터를 생성한다. 음원 가산 벡터 생성부(112)는 생성 벡터 특정 번호에 따라 과거의 음원 벡터에 대한 처리 내용을 전환하는 기능을 갖고 있다.

이상과 같이 구성된 음성 부호화 장치에서는, 예를 들면 음원 탐색을 실행하고 있는 왜곡 계산부로부터 생성 벡터 특정 번호가 인가된다. 음원 가산 벡터 생성부(112)는 입력된 생성 벡터 특정 번호의 값에 따라 과거의 음원 벡터에 서로 다른 처리를 실시해 서로 다른 음원 가산 벡터를 생성하고, LPC 합성 필터부(113)는 입력된 음원 벡터를 LPC 합성하여 합성음을 출력한다.

이러한 본 실시예에 따르면, 적은 수의 과거 음원 벡터를 음원 저장부(111)에 저장해 두고, 음원 가산 벡터 생성부(112)에서의 처리 내용을 전환하는 것만으로, 랜덤한 음원 벡터를 생성할 수 있어 잡음 벡터를 그대로 잡음 부호 리스트(ROM)에 저장해 둘 필요가 없어지기 때문에, 메모리 용량을 대폭 삭감할 수 있다.

또, 본 실시예에서는 음성 부호화 장치에 대하여 설명하였지만, 음원 벡터 생성 장치(110)를 음성 복호화 장치에 적용하는 것도 가능하다. 이 경우, 음성 복호화 장치에는 음성 부호화 장치의 음원 저장부(111)와 동일한 내용의 음원 저장부를 구비하고, 음원 가산 벡터 생성부(112)에 대하여 부호화시에 선택한 생성 벡터 특정 번호가 인가된다.

(실시예 6)

도 12에 본 실시예에 관한 음원 벡터 생성 장치의 기능 블럭을 나타내고 있다. 이 음원 벡터 생성 장치는, 음원 가산 벡터 생성부(120)와, 복수의 요소 벡터 1∼N이 저장된 음원 저장부(121)를 구비하고 있다.

음원 가산 벡터 생성부(120)는, 음원 저장부(121)의 서로 다른 위치로부터 서로 다른 길이의 요소 벡터를 복수개 판독하는 처리를 실시하는 판독 처리부(122)와, 판독 처리후의 복수개 요소 벡터를 역순으로 재배열하는 처리를 실시하는 역순화 처리부(123)와, 역순화 처리후의 복수개 벡터에 각각 서로 다른 이득을 곱하는 처리를 실시하는 승산 처리부(124)와, 승산 처리후의 복수개 벡터의 벡터 길이를 짧게 하는 처리를 실시하는 추출(thinning) 처리부(125)와, 추출 처리후의 복수개 벡터의 벡터 길이를 길게 하는 처리를 실시하는 내삽 처리부(126)와, 내삽 처리후의 복수개 벡터를 서로 더하는 처리를 실시하는 가산 처리부(127)와, 입력된 생성 벡터 특정 번호의 값에 따른 구체적인 처리 방법을 결정하여 각 처리부에 지시하는 기능 및 그 구체적 처리 내용을 결정할 때 참조하는 번호 변환 대응 맵(표 2)을 유지하는 기능을 아울러 갖는 처리 결정·지시부(128)에 의해 구성된다.

여기서, 음원 가산 벡터 생성부(120)에 대하여 더욱 상세히 설명한다. 음원 가산 벡터 생성부(120)는 판독 처리부(122), 역순화 처리부(123), 승산 처리부(124), 추출 처리부(125), 내삽 처리부(126), 가산 처리부(127) 각각의 구체적인 처리 방법을 입력된 생성 벡터 특정 번호(7 비트의 비트열로 0 내지 127의 정수값을 취함)에 의해 번호 변환 대응 맵(표 2)을 비교하여 결정하고, 그 구체적 처리 방법을 각 처리부로 출력한다.

판독 처리부(122)는, 우선 입력된 생성 벡터 특정 번호의 하위 4 비트열(n1:0 내지 15의 정수값)에 주목하여, 음원 저장부(121)의 끝에서부터 n1의 위치까지 길이 100의 요소 벡터 1(V1)을 절단한다. 다음에, 입력된 생성 벡터 특정 번호의 하위 2 비트열과 상위 3 비트열을 결합한 5 비트열(n2:0 내지 31의 정수값)에 주목하여, 음원 저장부(121)의 끝에서부터 n2+14(14 내지 45의 정수값)의 위치까지 길이 78의 요소 벡터 2(V2)를 절단한다. 또한, 입력된 생성 벡터 특정 번호의 상위 5 비트열(n3:0 내지 31의 정수값)에 주목하여, 음원 저장부(121)의 끝에서부터 n3+46(46 내지 77의 정수값)의 위치로부터 길이 Ns(=52)의 요소 벡터 3(V3)을 절단하여, V1, V2, V3을 역순화 처리부(123)로 출력하는 처리를 실행한다.

역순화 처리부(123)는, 생성 벡터 특정 번호의 최하위 1 비트가 '0'이면 V1과 V2와 V3을 역순으로 재배열한 벡터를 새롭게 V1, V2, V3으로서 승산 처리부(124)로 출력하고, '1'이면 V1과 V2와 V3을 그대로 승산 처리부(124)로 출력하는 처리를 실행한다.

승산 처리부(124)는 생성 벡터 특정 번호의 상위 7 비트째와 상위 6 비트째를 결합한 2 비트열에 주목하여, 그 비트열이 '00'이면 V2의 진폭을 -2배하고, '01'이면 V3의 진폭을 -2배하며, '10'이면 V1의 진폭을 -2배하고, '11'이면 V2의 진폭을 2배한 벡터를 새로운 V1, V2, V3으로서 추출부(125)로 출력한다.

추출 처리부(125)는 입력된 생성 벡터 특정 번호의 상위 4 비트째와 상위 3 비트째를 결합한 2 비트열에 주목하여, 그 비트열이

(a) '00'이면 V1, V2, V3으로부터 1샘플 걸러 26샘플 취출한 벡터를 새로운 V1, V2, V3으로서 내삽 처리부(126)로 출력하고,

(b) '01'이면 V1, V3으로부터는 1샘플 걸러, V2로부터는 2샘플 걸러 26샘플 취출한 벡터를 새로운 V1, V3, V2로서 내삽 처리부(126)로 출력하며,

(c) '10'이면 V1로부터는 3샘플 걸러, V2, V3으로부터는 1샘플 걸러 26샘플 취출한 벡터를 새로운 V1, V2, V3으로서 내삽 처리부(126)로 출력하고,

(d) '11'이면 V1로부터는 3샘플 걸러, V2로부터는 2샘플 걸러, V3으로부터는 1샘플 걸러 26샘플 취출한 벡터를 새로운 V1, V2, V3으로서 내삽 처리부(126)로 출력한다.

내삽 처리부(126)는 생성 벡터 특정 번호의 상위 3 비트째에 주목하여, 그 값이

(a) '0'이면 V1, V2, V3을 각각 길이 Ns(=52)의 0 벡터의 우수번째 샘플에 대입한 벡터를 새로운 V1, V2, V3으로서 가산 처리부(127)로 출력하고,

(b) '1'이면 V1, V2, V3을 각각 길이 Ns(=52)의 0 벡터의 기수번째 샘플에 대입한 벡터를 새로운 V1, V2, V3으로서 가산 처리부(127)로 출력한다.

가산 처리부(127)는 내삽 처리부(126)로부터 생성된 3개의 벡터(V1, V2, V3)를 가산하여 음원 가산 벡터를 생성해 출력한다.

이와 같이 본 실시예는 생성 벡터 특정 번호에 따라 복수의 처리를 랜덤하게 조합하여 랜덤한 음원 벡터를 생성하기 때문에, 잡음 벡터를 그대로 잡음 부호 리스트(ROM)에 저장해 둘 필요가 없게 되어 메모리 용량을 대폭 삭감할 수 있다.

또, 실시예 5의 음성 부호화 장치에 있어서 본 실시예의 음원 벡터 생성 장치를 이용함으로써, 대용량의 잡음 부호 리스트를 갖는 일 없이 복잡하고 랜덤한 음원 벡터를 생성할 수 있다.

(실시예 7)

일본 국내의 PDC 디지탈 휴대 전화에 있어서의 음성 부호화/복호화 표준 방식인 PSI-CELP를 기초로 한 CELP형 음성 부호화 장치에 상기한 실시예 1∼실시예 6 중 하나의 실시예에 나타낸 음원 벡터 생성 장치를 이용하는 예를 실시예 7로서 설명한다.

도 13에 실시예 7에 관한 음성 부호화 장치의 블럭도가 도시되어 있다. 이 음성 부호화 장치에 있어서, 디지탈의 입력 음성 데이터(1300)는 프레임 단위(프레임 길이 Nf(=104)로 버퍼(1301)에 공급된다. 이 때, 버퍼(1301)내의 오래된 데이터는 공급되는 새로운 데이터에 의해 갱신되게 된다. 프레임 파워 양자화·복호부(1302)는, 우선 버퍼(1301)로부터 길이 Nf(=104)의 처리 프레임 s(i)(0≤i≤Nf-1)를 판독하고, 그 처리 프레임내 샘플의 평균 파워 amp를 수학식 5에 의해 구한다.

구한 처리 프레임내 샘플의 평균 파워 amp를 수학식 6에 의해 대수 변환값 amplog로 변환한다.

구한 amplog를 파워 양자화 테이블 저장부(1303)에 저장된 (표 3)으로 나타내는 바와 같은 10words의 스칼라 양자화용 테이블 Cpow를 이용하여 스칼라 양자화함으로써 4bits의 파워 인덱스 Ipow를 얻고, 얻어진 파워 인덱스 Ipow로부터 복호화 프레임 파워 spow를 구하여, 파워 인덱스 Ipow와 복호화 프레임 파워 spow를 파라미터 부호화부(1331)로 출력한다. 파워 양자화 테이블 저장부(1303)는 16words의 파워 스칼라 양자화 테이블(표 3)을 저장하고 있으며, 이 테이블은 프레임 파워 양자화·복호부(1302)가 처리 프레임내 샘플의 평균 파워의 대수 변환값을 스칼라 양자화할 때 참조된다.

LPC 분석부(1304)는, 우선 버퍼(1301)로부터 분석 구간 길이 Nw(=256)의 분석 구간 데이터를 판독하여, 판독한 분석 구간 데이터에 윈도우 길이 Nw(=256)의 해밍(hamming) 윈도우 Wh를 거쳐 해밍 윈도우 처리가 완료된 분석 구간 데이터를 얻고, 얻어진 해밍 윈도우 처리가 완료된 분석 구간 데이터의 자기 상관 함수를 예측 차수 Np(=10)차까지 구한다. 구한 자기 상관 함수에 래그 윈도우 저장부(1305)에 저장한 10words의 래그 윈도우 테이블(표 4)을 곱해 래그 윈도우 승산 완료된 자기 상관 함수를 얻고, 얻어진 래그 윈도우 승산 완료된 자기 상관 함수에 대하여 선형 예측 분석을 실행함으로써 LPC 파라미터 α(i)(1≤i≤Np)를 산출하여 피치 예비 선택부(1308)로 출력한다.

다음에, 구한 LPC 파라미터 α(i)를 LSP(선 스펙트럼쌍) ω(i)(1≤i≤Np)로 변환하여 LSP 양자화·복호화부(1306)로 출력한다. 래그 윈도우 저장부(1305)는 LPC 분석부가 참조하는 래그 윈도우 테이블을 저장하고 있다.

LSP 양자화·복호화부(1306)는, 우선 LSP 양자화 테이블 저장부(1307)에 저장한 LSP의 벡터 양자화용 테이블을 참조하여, LPC 분석부(1304)로부터 수신한 LSP를 벡터 양자화하여 최적의 인덱스를 선택하고, 선택한 인덱스를 LSP 부호 Ilsp로서 파라미터 부호화부(1331)로 출력한다. 다음에, LSP 양자화 테이블 저장부(1307)로부터 LSP 부호에 대응하는 중심(centroid)을 복호화 LSP ωq(i)(1≤i≤Np)로서 판독하고, 판독한 복호화 LSP를 LSP 보간부(1311)로 출력한다. 또한, 복호화 LSP를 LPC로 변환함으로써 복호화 LPC αq(i)(1≤i≤Np)를 얻고, 얻어진 복호화 LPC를 스펙트럼 가중 필터 계수 산출부(1312) 및 청감 가중 LPC 합성 필터 계수 산출부(1314)로 출력한다. LSP 양자화 테이블 저장부(1307)는 LSP 양자화·복호화부(1306)가 LSP를 벡터 양자화할 때 참조하는 LSP 벡터 양자화 테이블을 저장하고 있다.

피치 예비 선택부(1308)는, 우선 버퍼(1301)로부터 판독한 처리 프레임 데이터 s(i)(0≤i≤Nf-1)에 대하여, LPC 분석부(1304)로부터 수신한 LPCα(i)(1≤i≤Np)에 의해 구성한 선형 예측 역(逆)필터링을 실시해 선형 예측 잔차 신호 res(i)(0≤i≤Nf-1)를 얻고, 얻어진 선형 예측 잔차 신호 res(i)의 파워를 계산하여 계산한 잔차 신호의 파워를 처리 서브 프레임의 음성 샘플 파워에 의해 정규화한 값인 정규화 예측 잔차 파워 resid를 구해 파라미터 부호화부(1331)로 출력한다. 다음에, 선형 예측 잔차 신호 res(i)에 길이 Nw(=256)의 해밍 윈도우를 곱해 해밍 윈도우 승산 완료된 선형 예측 잔차 신호 resw(i)(0≤i≤Nw-1)를 생성하고, 생성한 resw(i)의 자기 상관 함수 φint(i)를 Lmin-2≤i≤Lmax+2(단, Lmin은 장기 예측 계수의 최단 분석 구간으로서 16, Lmax는 장기 예측 계수의 최장 분석 구간으로서 128로 함)의 범위에서 구한다. 구한 자기 상관 함수 φint(i)에 다위상 계수 저장부(1309)에 저장된 28words의 다위상 필터의 계수 Cppf(표 5)를 콘볼루션하여, 정수 래그 int에 있어서의 자기 상관 φint(i), 정수 래그 int로부터 -1/4 어긋난 분수 위치에 있어서의 자기 상관 φdq(i), 정수 래그 int로부터 +1/4 어긋난 분수 위치에 있어서의 자기 상관 φaq(i), 정수 래그 int로부터 +1/2 어긋난 분수 위치에 있어서의 자기 상관 φah(i)를 각각 구한다.

또한, Lmin-2≤i≤Lmax+2의 범위내에 있는 인수(引數) i 각각에 대하여φint(i), φdq(i), φaq(i), φah(i) 중 최대인 것을 φmax(i)에 대입하는 수학식 7의 처리를 실행함으로써 (Lmax-Lmin+1)개의 φmax(i)를 구한다.

구한 (Lmax-Lmin+1)개의 φmax(i)로부터, 값이 큰 것을 상위에서부터 순서대로 6개 골라 내어 피치 후보 psel(i)(0≤i≤5)로서 보존하고, 선형 예측 잔차 신호 res(i)와 피치 제 1 후보 psel(0)을 피치 강조 필터 계수 산출부(1310)로, psel(i)(0≤i≤5)을 적응 벡터 생성부(1319)로 출력한다.

다위상 계수 저장부(1309)는, 피치 예비 선택부(1308)가 선형 예측 잔차 신호의 자기 상관을 분수 래그 정밀도에 의해 구할 때와, 적응 벡터 생성부(1319)가 적응 벡터를 분수 정밀도에 의해 생성할 때 참조하는 다위상 필터의 계수를 저장하고 있다.

피치 강조 필터 계수 산출부(1310)는 피치 예비 선택부(1308)에서 구한 선형 예측 잔차 res(i)와 피치 제 1 후보 psel(0)로부터 3차 피치 예측 계수 cov(i)(0≤i≤2)를 구한다. 구한 피치 예측 계수 cov(i)(0≤i≤2)를 이용한 수학식 8에 의해 피치 강조 필터 Q(z)의 임펄스 응답을 구하고, 스펙트럼 가중 필터 계수 산출부(1312) 및 청감 가중 필터 계수 산출부(1313)로 출력한다.

LSP 보간부(1311)는, 우선 LSP 양자화·복호화부(1306)에 있어서 구한 현 처리 프레임에 대한 복호화 LSP ωq(i)와 이전에 구하여 유지해 놓은 이전 처리 프레임의 복호화 LSP ωqp(i)를 이용한 수학식 9에 의해 복호화 보간 LSP ωintp(n, i)(1≤i≤Np)를 서브 프레임마다 구한다.

구한 ωintp(n, i)를 LPC로 변환함으로써 복호화 보간 LPC αq(n, i)(1≤i≤Np)를 얻고, 얻어진 복호화 보간 LPC αq(n, i)(1≤i≤Np)를 스펙트럼 가중 필터 계수 산출부(1312) 및 청감 가중 LPC 합성 필터 계수 산출부(1314)로 출력한다.

스펙트럼 가중 필터 계수 산출부(1312)는 수학식 10의 MA형 스펙트럼 가중 필터 I(z)를 구성하여 그 임펄스 응답을 청감 가중 필터 계수 산출부(1313)로 출력한다.

단, 수학식 10 중의 임펄스 응답 αfir(i)(1≤i≤Nfir)은, 수학식 11에서 전달되는 ARMA형 스펙트럼 강조 필터 G(z)의 임펄스 응답을 Nfir(=11)항까지로 절단한 것이다.

청감 가중 필터 계수 산출부(1313)는, 우선 스펙트럼 가중 필터 계수 산출부(1312)로부터 수신한 스펙트럼 가중 필터 I(z)의 임펄스 응답과 피치 강조 필터 계수 산출부(1310)로부터 수신한 피치 강조 필터 Q(z)의 임펄스 응답을 콘볼루션한 결과를 임펄스 응답으로서 갖는 청감 가중 필터 W(z)를 구성하고, 구성한 청감 가중 필터 W(z)의 임펄스 응답을 청감 가중 LPC 합성 필터 계수 산출부(1314) 및 청감 가중부(1315)로 출력한다.

청감 가중 LPC 합성 필터 계수 산출부(1314)는 LSP 보간부(1311)로부터 수신한 복호화 보간 LPC αq(n, i)와 청감 가중 필터 계수 산출부(1313)로부터 수신한 청감 가중 필터 W(z)에 의해 청감 가중 LPC 합성 필터 H(z)를 수학식 12에 의해 구성한다.

구성한 청감 가중 LPC 합성 필터 H(z)의 계수를 타겟 생성부 A(1316), 청감 가중 LPC 역순 합성부 A(1317), 청감 가중 LPC 합성부 A(1321), 청감 가중 LPC 역순 합성부 B(1326) 및 청감 가중 LPC 합성부 B(1329)로 출력한다.

청감 가중부(1315)는 버퍼(1301)로부터 판독한 서브 프레임 신호를 0(zero) 상태의 청감 가중 LPC 합성 필터 H(z)에 입력하고, 그 출력을 청감 가중 잔차 spw(i)(0≤i≤Ns-1)로서 타겟 생성부 A(1316)로 출력한다.

타겟 생성부 A(1316)는 청감 가중부(1315)에서 구한 청감 가중 잔차spw(i)(0≤i≤Ns-1)로부터, 청감 가중 LPC 합성 필터 계수 산출부(1314)에서 구한 청감 가중 LPC 합성 필터 H(z)에 0 계열을 입력했을 때의 출력인 0 입력 응답 Zres(i)(0≤i≤Ns-1)를 감산하고, 감산 결과를 음원 선택용 타겟 벡터 r(i)(0≤i≤Ns-1)로서 청감 가중 LPC 역순 합성부 A(1317) 및 타겟 생성부 B(1325)로 출력한다.

청감 가중 LPC 역순 합성부 A(1317)는 타겟 생성부 A(1316)로부터 수신한 타겟 벡터 r(i)(0≤i≤Ns-1)을 시간 역순으로 재배열하고, 재배열하여 얻어진 벡터를 초기 상태가 0인 청감 가중 LPC 합성 필터 H(z)에 입력한 다음, 그 출력을 다시 재차 시간 역순으로 재배열함으로써 타겟 벡터의 시간 역(逆)합성 벡터 rh(k)(0≤i≤Ns-1)를 얻어 비교부 A(1322)로 출력한다.

적응 부호 리스트(1318)는 적응 벡터 생성부(1319)가 적응 벡터를 생성할 때 참조하는 과거의 구동 음원을 저장하고 있다. 적응 벡터 생성부(1319)는 피치 예비 선택부(1308)로부터 수신한 6개의 피치 후보 psel(j)(0≤j≤5)을 바탕으로, Nac 개의 적응 벡터 Pacb(i, k)(0≤i≤Nac-1, 0≤k≤Ns-1, 6≤Nac≤24)를 생성하여 적응/고정 선택부(1320)로 출력한다. 구체적으로는, 표 6에 나타내는 바와 같이 16≤psel(j)≤44의 경우에는 하나의 정수 래그 위치당 4종류의 분수 래그 위치에 대하여 적응 벡터를 생성하고, 45≤psel(j)≤64의 경우에는 하나의 정수 래그 위치당 2종류의 분수 래그 위치에 대하여 적응 벡터를 생성하며, 65≤psel(j)≤128의 경우에는 정수 래그 위치에 대하여 적응 벡터를 생성한다. 이로써, psel(j)(0≤j≤5)의 값에 따라 적응 벡터의 후보수 Nac는 최소 6후보, 최다 24후보로 된다.

또한, 분수 정밀도의 적응 벡터를 생성할 때에는, 적응 부호 리스트(1318)로부터 정수 정밀도에 의해 판독한 과거의 음원 벡터에, 다위상 계수 저장부(1309)에 저장되어 있는 다위상 필터의 계수를 콘볼루션하는 보간 처리에 의해 실행하고 있다.

여기서, lagf(i)의 값에 대응하는 보간이란, lagf(i)=0의 경우에는 정수 래그 위치, lagf(i)=1의 경우에는 정수 래그 위치로부터 -1/2 어긋난 분수 래그 위치, lagf(i)=2의 경우에는 정수 래그 위치로부터 +1/4 어긋난 분수 래그 위치, lagf(i)=3의 경우에는 정수 래그 위치로부터 -1/4 어긋난 분수 래그 위치에 대응한 보간을 실행하는 것이다.

적응/고정 선택부(1320)는, 우선 적응 벡터 생성부(1319)가 생성한 Nac(6∼24) 후보의 적응 벡터를 수신하여, 청감 가중 LPC 합성부 A(1321) 및 비교부 A(1322)로 출력한다.

비교부 A(1322)는, 우선 처음에 적응 벡터 생성부(1319)가 생성한 적응 벡터 Pacb(i, k)(0≤i≤Nac-1, 0≤k≤Ns-1, 6≤Nac≤24)를 Nac(6∼24) 후보로부터 Nacb(=4) 후보로 예비 선택하기 위해서, 청감 가중 LPC 역순 합성부 A(1317)로부터수신한 타겟 벡터의 시간 역합성 벡터 rh(k)(0≤k≤Ns-1)와 적응 벡터 Pacb(i, k)의 내적 prac(i)를 수학식 13에 의해 구한다.

구한 내적 prac(i)를 비교하여, 그 값이 커질 때의 인덱스 및 그 인덱스를 인수(引數)로 했을 때의 내적을 상위 Nacb(=4)번째까지 선택하고, 적응 벡터 예비 선택후 인덱스 apsel(j)(0≤j≤Nacb-1) 및 적응 벡터 예비 선택후 기준값 prac(apsel(j))로서 각각 보존해 가서, 적응 벡터 예비 선택후 인덱스 apsel(j)(0≤j≤Nacb-1)을 적응/고정 선택부(1320)로 출력한다.

청감 가중 LPC 합성부 A(1321)는 적응 벡터 생성부(1319)에서 생성되어 적응/고정 선택부(1320)를 통과한 예비 선택후 적응 벡터 Pacb(apsel(j), k)에 대하여 청감 가중 LPC 합성을 실시하고, 합성 적응 벡터 SYNacb(apsel(j), k)를 생성하여 비교부 A(1322)로 출력한다. 다음에, 비교부 A(1322)는 비교부 A(1322) 자신에 있어서 예비 선택한 Nacb(=4)개의 예비 선택후 적응 벡터 Pacb(apsel(j), k)를 본(本) 선택하기 위하여 적응 벡터 본선택 기준값 sacbr(j)을 수학식 14에 의해 구한다.

수학식 14의 값이 커질 때 인덱스 및 그 인덱스를 인수로 했을 때의 수학식 14의 값을 각각, 적응 벡터 본 선택후 인덱스 ASEL 및 적응 벡터 본 선택후 기준값 sacbr(ASEL)로서 적응/고정 선택부(1320)로 출력한다.

고정 부호 리스트(1323)는 고정 벡터 판독부(1324)가 판독할 벡터를 Nfc(=16) 후보 저장하고 있다. 여기서, 비교부 A(1322)는 고정 벡터 판독부(1324)가 판독한 고정 벡터 Pfcb(i, k)(0≤i≤Nfc-1, 0≤k≤Ns-1)를, Nfc(=16) 후보로부터 Nfcb(=2) 후보로 예비 선택하기 위하여, 청감 가중 LPC 역순 합성부 A(1317)로부터 수신한 타겟 벡터의 시간 역합성 벡터 rh(k)(0≤k≤Ns-1)과 고정 벡터 Pfcb(i, k)의 내적의 절대값 |prfc(i)|를 수학식 15에 의해 구한다.

수학식(15))의 값 |prac(i)|를 비교하여, 그 값이 커질 때의 인덱스 및 그 인덱스를 인수로 했을 때의 내적의 절대값을 상위 Nfcb(=2)번째까지 선택하고, 고정 벡터 예비 선택후 인덱스 fpsel(j)(0≤j≤Nfcb-1) 및 고정 벡터 예비 선택후 기준값 |prfc(fpsel(j))|로서 각각 보존해 가서, 고정 벡터 예비 선택후 인덱스 fpsel(j)(0≤j≤Nfcb-1)을 적응/고정 선택부(1320)로 출력한다.

청감 가중 LPC 합성부 A(1321)는 고정 벡터 판독부(1324)에서 판독되어 적응/고정 선택부(1320)를 통과한 예비 선택후 고정 벡터 Pfcb(fpsel(j), k)에 대하여 청감 가중 LPC 합성을 실시하고, 합성 고정 벡터 SYNfcb(fpsel(j), k)를 생성하여 비교부 A(1322)로 출력한다.

또한, 비교부 A(1322)는 비교부 A(1322) 자신에 있어서 예비 선택한 Nfcb(=2)개의 예비 선택후 고정 벡터 Pfcb(fpsel(j), k)로부터 최적의 고정 벡터를 본 선택하기 위하여 고정 벡터 본 선택 기준값 sfcbr(j)을 수학식 16에 의해 구한다.

수학식 16의 값이 커질 때의 인덱스 및 그 인덱스를 인수로 했을 때의 수학식 16의 값을 각각 고정 벡터 본 선택후 인덱스 FSEL 및 고정 벡터 본 선택후 기준값 sacbr(FSEL)로서 적응/고정 선택부(1320)로 출력한다.

적응/고정 선택부(1320)는 비교부 A(1322)로부터 수신한 prac(ASEL), sacbr(ASEL), |prfc(FSEL)| 및 sfcbr(FSEL)의 대소 및 정부(正負) 관계에 의해(수학식 17에 기재), 본 선택후 적응 벡터와 본 선택후 고정 벡터 중 어느 한쪽을 적응/고정 벡터 AF(k)(0≤k≤Ns-1)로서 선택한다.

선택한 적응/고정 벡터 AF(k)를 청감 가중 LPC 합성부 A(1321)에 출력하여, 선택한 적응/고정 벡터 AF(k)를 생성한 번호를 나타내는 인덱스를 적응/고정 인덱스 AFSEL로서 파라미터 부호화부(1331)로 출력한다. 또 여기서는, 적응 벡터와 고정 벡터의 총 벡터수가 255개로 되도록 설계되어 있기 때문에(표 6 참조), 적응/고정 인덱스 AFSEL은 8bits 부호로 되어 있다.

청감 가중 LPC 합성부 A(1321)는 적응/고정 선택부(1320)에서 선택된 적응/고정 벡터 AF(k)에 대하여 청감 가중 LPC 합성 필터링을 실시하고, 합성 적응/고정 벡터 SYNaf(k)(0≤k≤Ns-1)를 생성하여 비교부 A(1322)로 출력한다.

여기서, 비교부 A(1322)는, 우선 청감 가중 LPC 합성부 A(1321)로부터 수신한 합성 적응/고정 벡터 SYNaf(k)(0≤k≤Ns-1)의 파워 powp를 수학식 18에 의해 구한다.

다음에, 타겟 생성부 A(1316)로부터 수신한 타겟 벡터와 합성 적응/고정 벡터 SYNaf(k)의 내적 pr을 수학식 19에 의해 구한다.

또한, 적응/고정 선택부(1320)로부터 수신한 적응/고정 벡터 AF(k)를 적응 부호 리스트 갱신부(1333)로 출력하여 AF(k)의 파워 POWaf를 계산하고, 합성 적응/고정 벡터 SYNaf(k)와 POWaf를 파라미터 부호화부(1331)로 출력하여 powp와 pr과 r(k)과 rh(k)를 비교부 B(1330)로 출력한다.

타겟 생성부 B(1325)는, 타겟 생성부 A(1316)로부터 수신한 음원 선택용 타겟 벡터 r(i)(0≤i≤Ns-1)에서 비교부 A(1322)로부터 수신한 합성 적응/고정 벡터SYNaf(k)(0≤k≤Ns-1)를 감산해 새로운 타겟 벡터를 생성하고, 생성한 새로운 타겟 벡터를 청감 가중 LPC 역순 합성부 B(1326)로 출력한다.

청감 가중 LPC 역순 합성부 B(1326)는 타겟 생성부 B(1325)에서 생성한 새로운 타겟 벡터를 시간 역순으로 재배열하고, 재배열한 벡터를 0 상태의 청감 가중 LPC 합성 필터에 입력한 다음, 그 출력 벡터를 재차 시간 역순으로 재배열함으로써 새로운 타겟 벡터의 시간 역합성 벡터 ph(k)(0≤k≤Ns-1)를 생성해 비교부 B(1330)로 출력한다.

음원 벡터 생성 장치(1337)는, 예를 들면 실시예 3에서 설명한 음원 벡터 생성 장치(70)와 동일한 것을 이용한다. 음원 벡터 생성 장치(70)는 시드 저장부(71)로부터 1번째의 시드가 판독되어 비선형 디지탈 필터(72)로 입력하여 잡음 벡터가 생성된다. 음원 벡터 생성 장치(70)에서 생성된 잡음 벡터가 청감 가중 LPC 합성부 B(1329) 및 비교부 B(1330)로 출력된다. 다음에, 시드 저장부(71)로부터 2번째의 시드가 판독되어 비선형 디지탈 필터(72)로 입력하여 잡음 벡터가 생성되고, 청감 가중 LPC 합성부 B(1329) 및 비교부 B(1330)로 출력한다.

비교부 B(1330)는 1번째 시드에 근거하여 생성된 잡음 벡터를 Nst(=64) 후보로부터 Nstb(=6) 후보로 예비 선택하기 위하여, 1번째 잡음 벡터 예비 선택 기준값 cr(i1)(0≤i1≤Nstb1-1)을 수학식 20에 의해 구한다.

구한 cr(i1)의 값을 비교하여, 그 값이 커질 때의 인덱스 및 그 인덱스를 인수로 했을 때의 수학식 20의 값을 상위 Nstb(=6)번째까지 선택하고, 1번째 잡음 벡터 예비 선택후 인덱스 s1psel(j1)(0≤j1≤Nstb-1) 및 예비 선택후 1번째 잡음 벡터 Pstb1(s1psel(j1), k)(0≤j1≤Nstb-1, 0≤k≤Ns-1)로서 각각 보존해 간다. 다음에, 2번째 잡음 벡터에 대해서도 1번째와 마찬가지의 처리를 실행하여 2번째 잡음 벡터 예비 선택후 인덱스 s2psel(j2)(0≤j2≤Nstb-1) 및 예비 선택후 2번째 잡음 벡터 Pstb2(s2psel(j2), k)(0≤j2≤Nstb-1, 0≤k≤Ns-1)로서 각각 보존해 간다.

청감 가중 LPC 합성부 B(1329)는, 예비 선택후 1번째 잡음 벡터 Pstb1(s1psel(j1), k)에 대하여 청감 가중 LPC 합성을 실시하고, 합성 1번째 잡음 벡터 SYNstb1(s1psel(j1), k)을 생성하여 비교부 B(1330)로 출력한다. 다음에, 예비 선택후 2번째 잡음 벡터 Pstb2(s2psel(j2), k)에 대하여 청감 가중 LPC 합성을 실시하고, 합성 2번째 잡음 벡터 SYNstb2(s2psel(j2), k)를 생성하여 비교부B(1330)로 출력한다.

비교부 B(1330)는 비교부 B(1330) 자신에 있어서 예비 선택한 예비 선택후 1번째 잡음 벡터와 예비 선택후 2번째 잡음 벡터의 본(本) 선택을 행하기 위하여, 청감 가중 LPC 합성부 B(1329)에 있어서 계산한 합성 1번째 잡음 벡터 SYNstb1(s1psel(j1), k)에 대하여 수학식 21의 계산을 수행한다.

직교화 합성 1번째 잡음 벡터 SYNOstb1(s1psel(j1), k)을 구하고, 합성 2번째 잡음 벡터 SYNstb2(s2psel(j2), k)에 대해서도 마찬가지의 계산을 행하여 직교화 합성 2번째 잡음 벡터 SYNOstb2(s2psel(j2), k)를 구한 다음, 1번째 잡음 벡터 본 선택 기준값 s1cr과 2번째 잡음 벡터 본 선택 기준값 s2cr을 각각 수학식 22와 수학식 23을 이용하여 (s1psel(j1), s2psel(j2))의 전체 조합(36 가지)에 대하여 폐루프(closed loop)로 계산한다.

단, 수학식 22의 cs1cr 및 수학식 23의 cs2cr은 각각 수학식 24 및 수학식 25에 의해 미리 계산해 놓은 정수이다.

또한, 비교부 B(1330)는, s1cr의 최대값을 MAXs1cr에 대입하고, s2cr의 최대값을 MAXs2cr에 대입한 다음, MAXs1cr과 MAXs2cr 중 큰 쪽을 scr로 하여, scr이 얻어졌을 때에 참조하고 있는 s1psel(j1)의 값을 1번째 잡음 벡터 본 선택후 인덱스 SSEL1로서 파라미터 부호화부(1331)로 출력한다. SSEL1에 대응한 잡음 벡터를 본선택후 1번째 잡음 벡터 Pstb1(SSEL1, k)로서 보존하고, Pstb1(SSEL1, k)에 대응한 본 선택후 합성 1번째 잡음 벡터 SYNstb1(SSEL1, k)(0≤k≤Ns-1)을 구하여 파라미터 부호화부(1331)로 출력한다.

마찬가지로, scr이 얻어졌을 때에 참조하고 있는 s2psel(j2)의 값을 2번째 잡음 벡터 본 선택후 인덱스 SSEL2로서 파라미터 부호화부(1331)로 출력하고, SSEL2에 대응한 잡음 벡터를 본 선택후 2번째 잡음 벡터 Pstb2(SSEL2, k)로서 보존한 다음, Pstb2(SSEL2, k)에 대응한 본 선택후 합성 2번째 잡음 벡터 SYNstb2(SSEL2, k)(0≤k≤Ns-1)를 구하여 파라미터 부호화부(1331)로 출력한다.

비교부 B(1330)는, Pstb1(SSEL1, k)과 Pstb2(SSEL2, k) 각각에 곱하는 부호 S1과 S2를 수학식 26에 의해 구하고, 구한 S1과 S2의 정부(正負) 정보를 이득 정부(正負) 인덱스 Is1s2(2bits 정보)로서 파라미터 부호화부(1331)로 출력한다.

수학식 27에 의해 잡음 벡터 ST(k)(0≤k≤Ns-1)를 생성하여 적응 부호 리스트 갱신부(1333)로 출력함과 동시에, 그 파워 POWsf를 구하여 파라미터부호화부(1331)로 출력한다.

수학식 28에 의해 합성 잡음 벡터 SYNst(k)(0≤k≤Ns-1)를 생성하여 파라미터 부호화부(1331)로 출력한다.

파라미터 부호화부(1331)는, 우선 프레임 파워 양자화·복호부(1302)에서 구한 복호화 프레임 파워 spow, 피치 예비 선택부(1308)에서 구한 정규화 예측 잔차 파워 resid를 이용한 수학식 29에 의해 서브 프레임 추정 잔차 파워 rs를 구한다.

구한 서브 프레임 추정 잔차 파워 rs, 비교부 A(1322)에서 계산한 적응/고정 벡터의 파워 POWaf, 비교부 B(1330)에서 구한 잡음 벡터의 파워 POWst, 표 7에 나타내는 이득 양자화 테이블 저장부(1332)에 저장된 256words의 이득 양자화용 테이블(CGaf[i], CGst[i])(0≤i≤127) 등을 이용하여, 수학식 30에 의해 양자화 이득 선택 기준값 STDg를 구한다.

구한 양자화 이득 선택 기준값 STDg가 최소로 될 때의 인덱스를 이득 양자화 인덱스 Ig로서 1개 선택하고, 선택한 이득 양자화 인덱스 Ig를 바탕으로 이득 양자화용 테이블로부터 판독한 적응/고정 벡터측 선택후 이득 CGaf(Ig), 선택한 이득 양자화 인덱스 Ig를 바탕으로 이득 양자화용 테이블로부터 판독한 잡음 벡터측 선택후 이득 CGst(Ig) 등을 이용한 수학식 31에 의해, AF(k)에 실제로 적용하는 적응/고정 벡터측 본 이득 Gaf 및 ST(k)에 실제로 적용하는 잡음 벡터측 본 이득 Gst를 구하여 적응 부호 리스트 갱신부(1333)로 출력한다.

파라미터 부호화부(1331)는, 프레임 파워 양자화·복호부(1302)에서 구한 파워 인덱스 Ipow, LSP 양자화·복호화부(1306)에서 구한 LSP 부호 Ilsp, 적응/고정 선택부(1320)에서 구한 적응/고정 인덱스 AFSEL, 비교부 B(1330)에서 구한 1번째 잡음 벡터 본 선택후 인덱스 SSEL1과 2번째 잡음 벡터 본 선택후 인덱스 SSEL2과 이득 정부 인덱스 Is1s2, 파라미터 부호화부(1331) 자신에서 구한 이득 양자화 인덱스 Ig를 정리하여 음성 부호로 하고, 정리한 음성 부호를 전송부(1334)로 출력한다.

적응 부호 리스트 갱신부(1333)는, 비교부 A(1322)에서 구한 적응/고정 벡터 AF(k)와 비교부 B(1330)에서 구한 잡음 벡터 ST(k)에, 파라미터 부호화부(1331)에서 구한 적응/고정 벡터측 본 이득 Gaf와 잡음 벡터측 본 이득 Gst를 각각 곱한 후 가산하는 수학식 32의 처리를 행하여 구동 음원 ex(k)(0≤k≤Ns-1)를 생성하고, 생성한 구동 음원 ex(k)(0≤k≤Ns-1)를 적응 부호 리스트(1318)에 출력한다.

이 때, 적응 부호 리스트(1318)내의 오래된 구동 음원은 파기되고, 적응 부호 리스트 갱신부(1333)로부터 수신한 새로운 구동 음원 ex(k)으로 갱신되게 된다.

(실시예 8)

다음에, 디지탈 휴대 전화에 있어서의 음성 부호화/복호화 표준 방식인 PSI-CELP에 의해 개발한 음성 복호화 장치에, 상술한 실시예 1∼실시예 6에서 설명한 음원 벡터 생성 장치를 적용한 실시예에 대하여 설명한다. 이 복호화 장치는 전술한 실시예 7과 쌍을 이루는 장치이다.

도 14에 실시예 8에 관한 음성 복호화 장치의 기능 블럭도가 도시되어 있다. 파라미터 복호화부(1402)는, 도 13에 도시한 CELP형 음성 부호화 장치로부터 송출되는 음성 부호(파워 인덱스 Ipow, LSP 부호 Ilsp, 적응/고정 인덱스 AFSEL, 1번째 잡음 벡터 본 선택후 인덱스 SSEL1, 2번째 잡음 벡터 본 선택후 인덱스 SSEL2, 이득 양자화 인덱스 Ig, 이득 정부 인덱스 Is1s2)를 전송부(1401)를 통해 획득한다.

다음에, 파워 양자화 테이블 저장부(1405)에 저장된 파워 양자화용 테이블(표 3 참조)로부터 파워 인덱스 Ipow가 나타내는 스칼라값을 판독 복호화 프레임 파워 spow로서 파워 복원부(1417)로 출력하고, LSP 양자화 테이블 저장부(1404)에 저장된 LSP 양자화용 테이블로부터 LSP 부호 Ilsp가 나타내는 벡터를 판독 복호화 LSP로서 LSP 보간부(1406)에 출력한다. 적응/고정 인덱스 AFSEL을 적응 벡터 생성부(1408)와 고정 벡터 판독부(1411)와 적응/고정 선택부(1412)로 출력하고, 1번째 잡음 벡터 본 선택후 인덱스 SSEL1과 2번째 잡음 벡터 본 선택후 인덱스 SSEL2를 음원 벡터 생성 장치(1414)로 출력한다. 이득 양자화 테이블 저장부(1403)에 저장된 이득 양자화용 테이블(표 7 참조)로부터 이득 양자화 인덱스 Ig가 나타내는 벡터(CAaf(Ig), CGst(Ig))를 판독하여, 부호화 장치측과 마찬가지로 수학식 31에 의해 AF(k)에 실제로 적용하는 적응/고정 벡터측 본 이득 Gaf 및 ST(k)에 실제로 적용하는 잡음 벡터측 본 이득 Gst를 구하고, 구한 적응/고정 벡터측 본 이득 Gaf와 잡음 벡터측 본 이득 Gst를 이득 정부 인덱스 Is1s2와 함께 구동 음원 생성부(1413)로 출력한다.

LSP 보간부(1406)는 부호화 장치와 동일한 방법으로, 파라미터 복호화부(1402)로부터 수신한 복호화 LSP로부터 복호화 보간 LSP ωintp(n, i)(1≤i≤Np)를 서브 프레임마다 구하고, 구한 ωintp(n, i)를 LPC로 변환함으로써 복호화 보간 LPC을 얻은 다음, 얻어진 복호화 보간 LPC를 LPC 합성 필터부(1416)로 출력한다.

적응 벡터 생성부(1408)는, 파라미터 복호화부(1402)로부터 수신한 적응/고정 인덱스 AFSEL에 근거하여, 적응 부호 리스트(1407)로부터 판독한 벡터에 다위상 계수 저장부(1409)에 저장된 다위상 계수(표 5 참조)의 일부를 콘볼루션하고, 분수 래그 정밀도의 적응 벡터를 생성하여 적응/고정 선택부(1412)로 출력한다. 고정벡터 판독부(1411)는, 파라미터 복호화부(1402)로부터 수신한 적응/고정 인덱스 AFSEL에 근거하여, 고정 부호 리스트(1410)로부터 고정 벡터를 판독해 적응/고정 선택부(1412)로 출력한다.

적응/고정 선택부(1412)는, 파라미터 복호화부(1402)로부터 수신한 적응/고정 인덱스 AFSEL에 근거하여, 적응 벡터 생성부(1408)로부터 입력된 적응 벡터와 고정 벡터 판독부(1411)로부터 입력된 고정 벡터 중 어느 한쪽의 벡터를 선택하여 적응/고정 벡터 AF(k)로 하고, 선택한 적응/고정 벡터 AF(k)를 구동 음원 생성부(1413)로 출력한다. 음원 벡터 생성 장치(1414)는, 파라미터 복호화부(1402)로부터 수신한 1번째 잡음 벡터 본 선택후 인덱스 SSEL1과 2번째 잡음 벡터 본 선택후 인덱스 SSEL2에 근거하여, 시드 저장부(71)로부터 1번째 시드 및 2번째 시드를 취출해 비선형 디지탈 필터(72)에 입력하여 1번째 잡음 벡터와 2번째 잡음 벡터를 각각 발생시킨다. 이렇게하여 재생한 1번째 잡음 벡터와 2번째 잡음 벡터 각각에 이득 정부(正負) 인덱스의 1단째 정보 S1과 2단째 정보 S2를 곱해 음원 벡터 ST(k)를 생성하고, 생성한 음원 벡터를 구동 음원 생성부(1413)로 출력한다.

구동 음원 생성부(1413)는, 적응/고정 선택부(1412)로부터 수신한 적응/고정 벡터 AF(k)와 음원 벡터 생성 장치(1414)로부터 수신한 음원 벡터 ST(k)에, 파라미터 복호화부(1402)에서 구한 적응/고정 벡터측 본 이득 Gaf와 잡음 벡터측 본 이득 Gst를 각각 곱하고, 이득 정부 인덱스 Is1s2에 근거하여 가산 또는 감산하여 구동 음원 ex(k)을 얻은 다음, 얻어진 구동 음원을 LPC 합성 필터부(1416)와 적응 부호리스트(1407)로 출력한다. 여기서, 적응 부호 리스트(1407)내의 오래된 구동 음원은 구동 음원 생성부(1413)로부터 입력된 새로운 구동 음원으로 갱신된다.

LPC 합성 필터부(1416)는, 구동 음원 생성부(1413)에서 생성한 구동 음원에 대하여, LSP 보간부(1406)로부터 수신한 복호화 보간 LPC에 의해 구성한 합성 필터를 이용해 LPC 합성을 행하여, 필터의 출력을 파워 복원부(1417)로 출력한다. 파워 복원부(1417)는, 우선 LPC 합성 필터부(1416)에서 구한 구동 음원의 합성 벡터의 평균 파워를 구하고, 다음에 파라미터 복호화부(1402)로부터 수신한 복호화 파워 spow를 구한 평균 파워로 제산한 후, 제산 결과를 구동 음원의 합성 벡터에 곱해서 합성음(1418)을 생성한다.

(실시예 9)

도 15는 실시예 9에 의한 음성 부호화 장치의 주요부 블럭도이다. 이 음성 부호화 장치는 도 13에 도시하는 음성 부호화 장치에 양자화 대상 LSP 추가부(151), LSP 양자화·복호화부(152), LSP 양자화 오차 비교부(153)를 추가 또는 기능의 일부를 변경한 것이다.

LPC 분석부(1304)는 버퍼(1301)내 처리 프레임에 대하여 선형 예측 분석을 행하여 LPC를 얻고, 얻은 LPC를 변환하여 양자화 대상 LSP를 생성하여, 생성한 양자화 대상 LSP를 양자화 대상 LSP 추가부(151)로 출력한다. 특히, 버퍼내의 선(先) 판독 구간에 대하여 선형 예측 분석을 행하여 선 판독 구간에 대한 LPC를 얻고, 얻어진 LPC를 변환하여 선 판독 구간에 대한 LSP를 생성해 양자화 대상 LSP 추가부(151)로 출력하는 기능을 아울러 갖는다.

양자화 대상 LSP 추가부(151)는 LPC 분석부(1304)에 있어서 처리 프레임의 LPC를 변환함으로써 직접적으로 얻어진 양자화 대상 LSP 이외에, 복수의 양자화 대상 LSP를 생성한다.

LSP 양자화 테이블 저장부(1307)는 LSP 양자화·복호화부(152)가 참조하는 양자화 테이블을 저장하고, LSP 양자화·복호화부(152)는 생성된 양자화 대상 LSP를 양자화·복호화하여, 각각의 복호화 LSP를 생성한다.

LSP 양자화 오차 비교부(153)는 생성한 복수의 복호화 LSP를 비교하여, 가장 이음(異音)이 적어지는 복호화 LSP를 폐루프에서 1개 선택하고, 선택한 복호화 LSP를 처리 프레임에 대한 복호화 LSP로서 새롭게 채용하는 것이다.

도 16에, 양자화 대상 LSP 추가부(151)의 블럭도를 나타낸다.

양자화 대상 LSP 추가부(151)는, LPC 분석부(1304)에서 구한 처리 프레임의 양자화 대상 LSP를 기억하는 현(現) 프레임 LSP 기억부(161)와, LPC 분석부(1304)에서 구한 선 판독 구간의 LSP를 기억하는 선 판독 구간 LSP 기억부(162)와, 이전 처리 프레임의 복호화 LSP를 기억하는 이전 프레임 LSP 기억부(163)와, 상기 3개의 기억부에서 판독한 LSP에 대해 선형 보간 계산을 수행하여 양자화 대상 LSP를 복수개 추가하는 선형 보간부(164)에 의해 구성되어 있다.

처리 프레임의 양자화 대상 LSP와 선 판독 구간의 LSP와 이전 처리 프레임의 복호화 LSP에 대하여 선형 보간 계산을 수행함으로써 양자화 대상 LSP를 복수개 추가 생성하고, 생성한 양자화 대상 LSP를 모두 LSP 양자화·복호화부(152)로 출력한다.

여기서, 양자화 대상 LSP 추가부(151)에 대하여, 더욱 상세히 설명한다. LPC 분석부(1304)가 버퍼내의 처리 프레임에 대해 선형 예측 분석을 행하여 예측 차수 Np(=10)차 LPC α(i)(1≤i≤Np)를 얻고, 얻어진 LPC를 변환하여 양자화 대상 LSP ω(i)(1≤i≤Np)를 생성한 다음, 생성한 양자화 대상 LSP ω(i)(1≤i≤Np)를 양자화 대상 LSP 추가부(151)내의 현 프레임 LSP 기억부(161)에 저장한다. 또한, 버퍼내의 선 판독 구간에 대해 선형 예측 분석을 행하여 선 판독 구간에 대한 LPC를 얻고, 얻어진 LPC를 변환하여 선 판독 구간에 대한 LSP ωf(i)(1≤i≤Np)를 생성한 다음, 생성한 선 판독 구간에 대한 LSP ωf(i)(1≤i≤Np)를 양자화 대상 LSP 추가부(151)내의 선 판독 구간 LSP 기억부(162)에 저장한다.

다음에, 선형 보간부(164)가 현 프레임 LSP 기억부(161)로부터 처리 프레임에 대한 양자화 대상 LSP ω(i)(1≤i≤Np)를, 선 판독 구간 LSP 기억부(162)로부터 선 판독 구간에 대한 LSP ωf(i)(1≤i≤Np)를, 이전 프레임 LSP 기억부(163)로부터 이전 처리 프레임에 대한 복호화 LSP ωqp(i)(1≤i≤Np)를 각각 판독하여, 수학식 33에 나타낸 변환을 수행함으로써, 양자화 대상 추가 제 1 LSP ω1(i)(1≤i≤Np), 양자화 대상 추가 제 2 LSP ω2(i)(1≤i≤Np), 양자화 대상 추가 제 3 LSP ω3(i)(1≤i≤Np)을 각각 생성한다.

생성한 ω1(i), ω2(i), ω3(i)을 LSP 양자화·복호화부(152)로 출력하고, LSP 양자화·복호화부(152)가 4개의 양자화 대상 LSP ω(i), ω1(i), ω2(i), ω3(i)을 모두 벡터 양자화·복호화한 다음, ω(i)에 대한 양자화 오차의 파워 Epow(ω), ω1(i)에 대한 양자화 오차의 파워 Epow(ω1), ω2(i)에 대한 양자화 오차의 파워 Epow(ω2), 및 ω3(i)에 대한 양자화 오차의 파워 Epow(ω3)를 각각 구하고, 구한 각각의 양자화 오차 파워에 대하여 수학식 34의 변환을 실시하여 복호화 LSP 선택 기준값 STDlsp(ω), STDlsp(ω1), STDlsp(ω2) 및 STDlsp(ω3)를 구한다.

구한 복호화 LSP 선택 기준값을 비교하여, 그 값이 최소로 되는 양자화 대상 LSP에 대한 복호화 LSP를 처리 프레임에 대한 복호화 LSP ωq(i)(1≤i≤Np)로서 선택·출력함과 동시에, 다음 프레임의 LSP를 벡터 양자화할 때 참조할 수 있도록 이전 프레임 LSP 기억부(163)에 저장한다.

본 실시예는 LSP가 갖는 보간 특성의 높이(보간한 LSP를 이용하여 합성하더라도 이음(異音)이 발생하지 않음)를 효율적으로 이용하여, 어두(語頭)와 같이 스펙트럼이 크게 변동하는 구간에 대해서도 이음이 발생하지 않도록 LSP를 벡터 양자화할 수 있도록 한 것으로서, LSP의 양자화 특성이 불충분하게 된 경우 발생할 가능성이 있는 합성음중의 이음을 저감시킬 수 있다.

또한, 도 17에 본 실시예에 있어서의 LSP 양자화·복호화부(152)의 블럭도를 나타낸다. LSP 양자화·복호화부(152)는 이득 정보 저장부(171), 적응 이득 선택부(172), 이득 승산부(173), LSP 양자화부(174), LSP 복호화부(175)를 구비하고 있다.

이득 정보 저장부(171)는 적응 이득 선택부(172)에 있어서 적응 이득을 선택할 때 참조하는 복수의 이득 후보를 저장한다. 이득 승산부(173)는 LSP 양자화 테이블 저장부(1307)로부터 판독한 코드 벡터에 적응 이득 선택부(172)에서 선택한 적응 이득을 곱한다. LSP 양자화부(174)는 적응 이득을 곱한 코드 벡터를 이용하여 양자화 대상 LSP를 벡터 양자화한다. LSP 복호화부(175)는 벡터 양자화한 LSP를 복호화하여 복호화 LSP를 생성·출력하는 기능과, 양자화 대상 LSP와 복호화 LSP의 차분인 LSP 양자화 오차를 구하여 적응 이득 선택부(172)로 출력하는 기능을 갖는다. 적응 이득 선택부(172)는 이전 처리 프레임의 LSP를 벡터 양자화했을 때 코드 벡터에 곱한 적응 이득의 크기와 이전 프레임에 대한 LSP 양자화 오차의 크기를 기준으로 하여, 처리 프레임의 양자화 대상 LSP를 벡터 양자화할 때 코드 벡터에 곱하는 적응 이득을 이득 정보 저장부(171)에 저장된 이득 생성 정보를 바탕으로 적응적으로 조절하면서 구하고, 구한 적응 이득을 이득 승산부(173)에 출력한다.

이와 같이 LSP 양자화·복호화부(152)는 코드 벡터에 곱하는 적응 이득을 적응적으로 조절하면서 양자화 대상 LSP를 벡터 양자화 및 복호화하는 것이다.

여기서, LSP 양자화·복호화부(152)에 대하여 더욱 상세히 설명한다. 이득 정보 저장부(171)는 적응 이득 선택부(172)가 참조하는 4개의 이득 후보(0.9, 1.0, 1.1, 1.2)를 저장하고 있으며, 적응 이득 선택부(172)는 이전 프레임의 양자화 대상 LSP를 양자화하였을 때 발생한 파워 ERpow를, 이전 처리 프레임의 양자화 대상LSP를 벡터 양자화했을 때 선택한 적응 이득 Gqlsp의 2승으로 제산하는 수학식 35에 의해 적응 이득 선택 기준값 Slsp를 구한다.

구한 적응 이득 선택의 기준값 Slsp를 이용한 수학식 36에 의해, 이득 정보 저장부(171)로부터 판독한 4개의 이득 후보(0.9, 1.0, 1.1, 1.2)로부터 1개의 이득을 선택한다. 그리고, 선택한 적응 이득 Gqlsp의 값을 이득 승산부(173)로 출력함과 동시에, 선택한 적응 이득이 4개 중 어느 것인지를 특정하기 위한 정보(2 비트 정보)를 파라미터 부호화부로 출력한다.

선택한 적응 이득 Glsp 및 양자화에 따라 발생한 오차를, 다음 프레임의 양자화 대상 LSP를 벡터 양자화할 때까지 변수 Gqlsp 및 변수 ERpow로 보존해 놓는다.

이득 승산부(173)는 LSP 양자화 테이블 저장부(1307)로부터 판독한 코드 벡터에 적응 이득 선택부(172)에서 선택한 적응 이득 Glsp를 곱하여 LSP 양자화부(174)로 출력한다. LSP 양자화부(174)는 적응 이득을 곱한 코드 벡터를 이용해 양자화 대상 LSP를 벡터 양자화하여 그 인덱스를 파라미터 부호화부로 출력한다. LSP 복호화부(175)는 LSP 양자화부(174)에서 양자화한 LSP를 복호화해 복호화 LSP를 얻어, 얻어진 복호화 LSP를 출력함과 동시에, 얻어진 복호화 LSP를 양자화 대상 LSP로 감산하여 LSP 양자화 오차를 구하고, 구한 LSP 양자화 오차의 파워 ERpow를 계산하여 적응 이득 선택부(172)로 출력한다.

본 실시예는 LSP의 양자화 특성이 불충분하게 된 경우 발생할 가능성이 있는 합성음중의 이음을 저감시킬 수 있다.

(실시예 10)

도 18은 본 실시예에 있어서의 음원 벡터 생성 장치의 구성 블럭을 나타낸다. 이 음원 벡터 생성 장치는 채널 CH1, CH2, CH3의 3개의 고정 파형(V1(길이:L1), V2(길이:L2), V3(길이:L3))을 저장하는 고정 파형 저장부(181)와, 각 채널에 있어서의 고정 파형 개시단 후보 위치 정보를 갖고, 고정 파형 저장부(181)로부터 판독한 고정 파형(V1, V2, V3)을 각각 P1, P2, P3의 위치에 배치하는 고정 파형 배치부(182)와, 고정 파형 배치부(182)에 의해 배치된 고정 파형을 가산하여 음원 벡터를 출력하는 가산부(183)를 구비하고 있다.

이상과 같이 구성된 음원 벡터 생성 장치의 동작에 대하여 설명한다.

고정 파형 저장부(181)에는 3개의 고정 파형 V1, V2, V3이 미리 저장되어 있다. 고정 파형 배치부(182)는 표 8에 도시하는 바와 같은 자신이 갖는 고정 파형 개시단 후보 위치 정보에 근거하여, 고정 파형 저장부(181)로부터 판독한 고정 파형 V1을 CH1용 개시단 후보 위치로부터 선택한 위치 P1에 배치(시프트)하고, 마찬가지로 고정 파형 V2, V3을 CH2, CH3용 개시단 후보 위치로부터 선택한 위치 P2, P3에 각각 배치한다.

가산부(183)는 고정 파형 배치부(182)에 의해 배치된 고정 파형을 가산하여 음원 벡터를 생성한다.

단, 고정 파형 배치부(182)가 갖는 고정 파형 개시단 후보 위치 정보에는, 선택될 수 있는 각 고정 파형의 개시단 후보 위치의 조합 정보(P1로서 어느 위치가 선택되고, P2로서 어느 위치가 선택되며, P3으로서 어느 위치가 선택되는가를 나타내는 정보)와 일대일 대응하는 코드 번호를 할당해 놓은 것으로 한다.

이와 같이 구성된 음원 벡터 생성 장치에 따르면, 고정 파형 배치부(182)가갖는 고정 파형 개시단 후보 위치 정보와 대응 관계가 있는 코드 번호의 전송에 의해 음성 정보를 전송하는 것이 가능해짐과 동시에, 코드 번호는 각 개시단 후보수의 곱만큼 존재하게 되어, 계산이나 필요 메모리를 그다지 증가시키는 일 없이, 실제 음성에 가까운 음원 벡터를 생성할 수 있게 된다.

또한, 코드 번호의 전송에 의해 음성 정보를 전송하는 것이 가능해지기 때문에, 상기 음원 벡터 생성 장치를 잡음 부호 리스트로서 음성 부호화/복호화 장치에 이용하는 것이 가능해진다.

또, 본 실시예에서는, 도 18에 도시하는 바와 같이 3개의 고정 파형을 이용하는 경우에 대하여 설명하였지만, 고정 파형의 개수(도 18 및 표 8의 채널수와 일치함)를 그 밖의 개수로 한 경우에도 마찬가지의 작용·효과를 얻을 수 있다.

또한, 본 실시예에서는, 고정 파형 배치부(182)가 표 8에 나타내는 고정 파형 개시단 후보 위치 정보를 갖는 경우에 대하여 설명하였지만, 표 8 이외의 고정 파형 개시단 후보 위치 정보를 갖는 경우에 대해서도 마찬가지의 작용·효과를 얻을 수 있다.

(실시예 11)

도 19a는 본 실시예에 관한 CELP형 음성 부호화 장치의 구성 블럭도, 도 19b는 CELP형 음성 부호화 장치와 쌍을 이루는 CELP형 음성 복호화 장치의 구성 블럭도이다.

본 실시예에 관한 CELP형 음성 부호화 장치는, 고정 파형 저장부(181A)와 고정 파형 배치부(182A) 및 가산기(183A)로 이루어지는 음원 벡터 생성 장치를 구비한다. 고정 파형 저장부(181A)는 복수 라인의 고정 파형을 저장하고, 고정 파형 배치부(182A)는 스스로 갖는 고정 파형 개시단 후보 위치 정보에 근거하여 고정 파형 저장부(181A)에서 판독한 고정 파형을 각각 선택한 위치에 배치(시프트)하며, 가산기(183A)는 고정 파형 배치부(182A)에 의해 배치된 고정 파형을 가산하여 음원 벡터 C를 생성한다.

또한, 이 CELP형 음성 부호화 장치는 입력되는 잡음 부호 리스트 탐색용 타겟 X를 시간 역순화하는 시간 역순화부(191), 시간 역순화부(191)의 출력을 합성하는 합성 필터(192), 합성 필터(192)의 출력을 다시 재차 시간 역순화하여 시간 역합성 타겟 X'을 출력하는 시간 역순화부(193), 잡음 부호 벡터 이득 gc를 곱한 음원 벡터 C를 합성하여 합성 음원 벡터 S를 출력하는 합성 필터(194), X', C, S를 입력하여 왜곡을 계산하는 왜곡 계산부(195) 및 전송부(196)를 갖고 있다.

본 실시예에 있어서, 고정 파형 저장부(181A), 고정 파형 배치부(182A) 및 가산부(183A)는 도 18에 도시하는 고정 파형 저장부(181), 고정 파형 배치부(182) 및 가산부(183)와 대응하는 것으로 하고, 각 채널에 있어서의 고정 파형 개시단 후보 위치는 표 8에 대응하는 것으로 하고, 이하 채널 번호, 고정 파형 번호와 그 길이 및 위치를 나타내는 기호는 도 18 및 표 8에 나타내는 것을 사용한다.

한편, 도 19b의 CELP형 음성 복호화 장치는 복수개의 고정 파형을 저장하는 고정 파형 저장부(181B), 스스로 갖는 고정 파형 개시단 후보 위치 정보에 근거하여 고정 파형 저장부(181B)에서 판독한 고정 파형을 각각 선택한 위치에 배치(시프트)하는 고정 파형 배치부(182B), 고정 파형 배치부(182B)에 의해 배치된 고정 파형을 가산하여 음원 벡터 C를 생성하는 가산부(183B), 잡음 부호 벡터 이득 gc를 곱하는 이득 승산부(197), 음원 벡터 C를 합성하여 합성 음원 벡터 S를 출력하는 합성 필터(198)를 구비하고 있다.

음성 복호화 장치에 있어서의 고정 파형 저장부(181B) 및 고정 파형 배치부(182B)는 음성 부호화 장치에 있어서의 고정 파형 저장부(181A) 및 고정 파형 배치부(182A)와 동일한 구성을 가지며, 고정 파형 저장부(181A) 및 고정 파형 저장부(181B)가 저장하는 고정 파형은 잡음 부호 리스트 탐색용 타겟을 이용한 수학식 3의 부호화 왜곡의 계산식을 비용 함수로 한 학습에 의해, 수학식 3의 비용 함수를 통계적으로 최소화하는 특성을 갖는 고정 파형인 것으로 한다.

이상과 같이 구성된 음성 부호화 장치의 동작을 설명한다.

잡음 부호 리스트 탐색용 타겟 X는, 시간 역순화부(191)에서 시간 역순화된 다음, 합성 필터(192)에서 합성되고, 다시 시간 역순화부(193)에서 시간 역순화되어 잡음 부호 리스트 탐색용 시간 역합성 타겟 X'으로서 왜곡 계산부(195)에 출력된다.

다음에, 고정 파형 배치부(182A)가 표 8에 나타내는 자신이 갖는 고정 파형 개시단 후보 위치 정보에 근거하여, 고정 파형 저장부(181A)에서 판독한 고정 파형 V1을 CH1용 개시단 후보 위치로부터 선택한 위치 P1에 배치(시프트)하고, 마찬가지로 고정 파형 V2, V3를 CH2, CH3용 개시단 후보 위치로부터 선택한 위치 P2, P3에 각각 배치한다. 배치된 각 고정 파형은 가산기(183A)로 출력돼 가산되고, 음원 벡터 C로 되어 합성 필터부(194)에 입력된다. 합성 필터(194)는 음원 벡터 C를 합성하여 합성 음원 벡터 S를 생성하고, 왜곡 계산부(195)로 출력한다.

왜곡 계산부(195)는 시간 역합성 타겟 X', 음원 벡터 C, 합성 음원 벡터 S를 입력하여 수학식 4의 부호화 왜곡을 계산한다.

왜곡 계산부(195)는, 왜곡을 계산한 후 고정 파형 배치부(182A)로 신호를 보내어, 고정 파형 배치부(182A)가 3개의 채널 각각에 대응하는 개시단 후보 위치를 선택하고나서 왜곡 계산부(195)에서 왜곡을 계산하기까지의 상기 처리를, 고정 파형 배치부(182A)가 선택할 수 있는 개시단 후보 위치의 전체 조합에 대하여 반복적으로 실행한다.

그 후, 부호화 왜곡이 최소화되는 개시단 후보 위치의 조합을 선택하여, 그 개시단 후보 위치의 조합과 일대일로 대응하는 코드 번호와, 그 때의 최적의 잡음 부호 벡터 이득 gc를 잡음 부호 리스트의 부호로서 전송부(196)로 전송한다.

다음에, 도 19b의 음성 복호화 장치의 동작을 설명한다.

고정 파형 배치부(182B)는 전송부(196)로부터 전송되어 오는 정보에 근거하여 표 8에 나타내는 자신이 갖는 고정 파형 개시단 후보 위치 정보로부터 각 채널에 있어서의 고정 파형의 위치를 선택하고, 고정 파형 저장부(181B)에서 판독한 고정 파형 V1을 CH1용 개시단 후보 위치로부터 선택한 위치 P1에 배치(시프트)하며, 마찬가지로 고정 파형 V2, V3을 CH2, CH3용 개시단 후보 위치로부터 선택한 위치 P2, P3에 각각 배치한다. 배치된 각 고정 파형은 가산기(183B)에 출력돼 가산되어 음원 벡터 C로 되고, 전송부(196)로부터의 정보에 의해 선택된 잡음 부호 벡터 이득 gc를 곱해 합성 필터(198)로 출력된다. 합성 필터(198)는 gc를 곱한 음원 벡터 C를 합성해 합성 음원 벡터 S를 생성하여 출력한다.

이와 같이 구성된 음성 부호화 장치/복호화 장치에 따르면, 음원 벡터가 고정 파형 저장부, 고정 파형 배치부 및 가산기로 이루어지는 음원 벡터 생성부에 의해 생성되기 때문에, 실시예 10의 효과를 갖는 것에 부가하여, 이 음원 벡터를 합성 필터에 의해 합성한 합성 음원 벡터가 실제의 타겟과 통계적으로 가까운 특성을 갖게 되어 품질높은 합성 음성을 얻을 수 있다.

또, 본 실시예에서는, 학습에 의해 얻어진 고정 파형을 고정 파형 저장부(181A) 및 고정 파형 저장부(181B)에 저장하는 경우를 나타내었지만, 그 밖에 잡음 부호 리스트 탐색용 타겟 X를 통계적으로 분석하여, 그 분석 결과에 근거해 작성한 고정 파형을 이용하는 경우나, 식견에 근거하여 작성한 고정 파형을 이용하는 경우에도 마찬가지로 품질높은 합성 음성을 얻을 수 있다.

또한, 본 실시예에서는, 고정 파형 저장부가 3개의 고정 파형을 저장하는 경우에 대하여 설명하였지만, 고정 파형의 개수를 그 이외의 개수로 한 경우에도 마찬가지의 작용·효과를 얻을 수 있다.

또한, 본 실시예에서는, 고정 파형 배치부가 표 8에 나타내는 고정 파형 개시단 후보 위치 정보를 갖는 경우에 대하여 설명하였지만, 표 8 이외의 고정 파형 개시단 후보 위치 정보를 갖는 경우에 대해서도 마찬가지의 작용·효과를 얻을 수 있다.

(실시예 12)

도 20은 본 실시예에 관한 CELP형 음성 부호화 장치의 구성 블럭도를 나타낸다.

이 CELP형 음성 부호화 장치는, 복수개의 고정 파형(본 실시예에서는 CH1:W1, CH2:W2, CH3:W3의 3개)을 저장하는 고정 파형 저장부(200)와, 고정 파형 저장부(200)에 저장된 고정 파형의 개시단 위치에 대하여 대수적(代數的) 규칙에 의해 생성하기 위한 정보인 고정 파형 개시단 후보 위치 정보를 갖는 고정 파형 배치부(201)를 갖고 있다. 또한, 이 CELP형 음성 부호화 장치는 파형별 임펄스 응답 산출부(202), 임펄스 발생기(203), 상관 행렬 산출기(204)를 구비하고, 또한 시간 역순화부(191), 파형별 합성 필터(192'), 시간 역순화부(193) 및 왜곡 계산부(205)를 구비한다.

파형별 임펄스 응답 산출부(202)는 고정 파형 저장부(200)로부터의 3개 고정 파형과 합성 필터의 임펄스 응답 h(길이 L=서브 프레임 길이)를 콘볼루션하여, 3 종류의 파형별 임펄스 응답(CH1:h1, CH2:h2, CH3:h3, 길이 L=서브 프레임 길이)을 산출하는 기능을 갖는다.

파형별 합성 필터(192')는 입력되는 잡음 부호 리스트 탐색용 타겟 X를 시간 역순화한 시간 역순화부(191)의 출력과 파형별 임펄스 응답 산출부(202)로부터의 파형별 임펄스 응답 h1, h2, h3 각각을 콘볼루션하는 기능을 갖는다.

임펄스 발생기(203)는 고정 파형 배치부(201)에서 선택된 개시단 후보 위치 P1, P2, P3에 있어서만 각각 진폭 1(극성 있음)의 펄스를 발생하여, 채널별 임펄스(CH1:d1, CH2:d2, CH3:d3)를 발생시킨다.

상관 행렬 산출부(204)는 파형별 임펄스 응답 산출부(202)로부터의 파형별 임펄스 응답 h1, h2, h3 각각의 자기 상관과, h1과 h2, h1과 h3, h2와 h3의 상호 상관을 계산하여, 구한 상관값을 상관 행렬 메모리 RR에 전개한다.

왜곡 계산부(205)는 3개의 파형별 시간 역합성 타겟(X'1, X'2, X'3), 상관 행렬 메모리 RR, 3개의 채널별 임펄스(d1, d2, d3)를 이용하여, 수학식 4를 변형한 수학식 37에 의해 부호화 왜곡을 최소화하는 잡음 부호 벡터를 특정한다.

여기서는, 수학식 4로부터 수학식 37로의 식 변형에 대하여, 분모항(수학식 38), 분자항(수학식 39)마다 나타내어 둔다.

이상과 같이 구성된 CELP형 음성 부호화 장치에 대하여 그 동작을 설명한다.

우선 먼저, 파형별 임펄스 응답 산출부(202)가 저장하고 있는 3개의 고정 파형 W1, W2, W3, 임펄스 응답 h를 콘볼루션하여 3종류의 파형별 임펄스 응답 h1, h2, h3를 산출하고, 파형별 합성 필터(192') 및 상관 행렬 산출기(204)에 출력한다.

다음에, 파형별 합성 필터(192')가, 시간 역순화부(191)에 의해 시간 역순화된 잡음 부호 리스트 탐색용 타겟 X와, 입력된 3종류의 파형별 임펄스 응답 h1, h2, h3 각각을 콘볼루션하여, 시간 역순화부(193)에서 파형별 합성 필터(192')로부터의 3종류의 출력 벡터를 다시 재차 시간 역순화하고, 3개의 파형별 시간 역합성 타겟 X'1, X'2, X'3을 각각 생성하여 왜곡 계산부(205)로 출력한다.

다음에, 상관 행렬 산출부(204)가, 입력된 3종류의 파형별 임펄스 응답 h1, h2, h3 각각의 자기 상관과, h1과 h2, h1과 h3, h2와 h3의 상호 상관을 계산하여, 구한 상관값을 상관 행렬 메모리 RR에 전개한 다음, 왜곡 계산부(205)로 출력해 놓는다.

이상의 처리를 이전 처리로서 실행한 다음, 고정 파형 배치부(201)가 채널마다 고정 파형의 개시단 후보 위치를 1개소씩 선택하여 임펄스 발생기(203)에 그 위치 정보를 출력한다.

임펄스 발생기(203)는, 고정 파형 배치부(201)로부터 얻은 선택 위치에 각각 진폭 1(극성 있음)의 펄스를 발생하여 채널별 임펄스 d1, d2, d3을 발생시키고, 왜곡 계산부(205)로 출력한다.

그리고, 왜곡 계산부(205)가 3개의 파형별 시간 역합성 타겟 X'1, X'2, X'3과 상관 행렬 메모리 RR과 3개의 채널별 임펄스 d1, d2, d3을 이용하여, 수학식 37의 부호화 왜곡 최소화의 기준값을 계산한다.

고정 파형 배치부(201)가 3개의 채널 각각에 대응하는 개시단 후보 위치를 선택하고나서 왜곡 계산부(205)에 의해 왜곡을 계산하기까지의 상기 처리를 고정 파형 배치부(201)가 선택할 수 있는 개시단 후보 위치의 전체 조합에 대하여 반복적으로 실행한다. 그리고, 수학식 37의 부호화 왜곡 탐색 기준값을 최소화하는 개시단 후보 위치의 조합 번호와 대응하는 코드 번호와, 그 때의 최적의 잡음 부호 벡터 이득 gc를 잡음 부호 리스트의 부호로서 특정한 다음, 전송부로 전송한다.

또, 본 실시예에 있어서의 음성 복호화 장치는 실시예 10의 도 19b와 마찬가지의 구성으로서, 음성 부호화 장치에 있어서의 고정 파형 저장부 및 고정 파형 배치부와 음성 복호화 장치에 있어서의 고정 파형 저장부 및 고정 파형 배치부는 동일한 구성을 갖는다. 고정 파형 저장부가 저장하는 고정 파형은 잡음 부호 리스트 탐색용 타겟을 이용한 수학식 3의 부호화 왜곡의 계산식을 비용 함수로 한 학습에 의해, 수학식 3의 비용 함수를 통계적으로 최소화하는 특성을 갖는 고정 파형인 것으로 한다.

이와 같이 구성된 음성 부호화/복호화 장치에 따르면, 고정 파형 배치부내의 고정 파형 개시단 후보 위치를 대수적으로 산출할 수 있는 경우, 이전 처리 단계에서 구한 파형별 시간 역합성 타겟의 3항을 가산하고, 그 결과를 2승함으로써 수학식 37의 분자항을 계산할 수 있다. 또한, 또한 이 전(前)처리 단계에서 구한 파형별 임펄스 응답의 상관 행렬의 9항을 가산함으로써, 수학식 37의 분자항을 계산할수 있다. 이 때문에, 종래의 대수적 구조 음원(진폭 1의 펄스 수 개로 음원 벡터를 구성)을 잡음 부호 리스트에 이용하는 경우와 동일한 정도의 연산량으로 탐색할 수 있게 된다.

또한, 합성 필터에 의해 합성한 합성 음원 벡터가 실제의 타겟과 통계적으로 가까운 특성을 갖게 되어 품질높은 합성 음성을 얻을 수 있다.

또, 본 실시예에서는, 학습에 의해 얻어진 고정 파형을 고정 파형 저장부에 저장하는 경우를 나타내었지만, 그 밖에 잡음 부호 리스트 탐색용 타겟 X를 통계적으로 분석하여, 그 분석 결과에 근거해 작성한 고정 파형을 이용하는 경우나, 식견에 근거하여 작성한 고정 파형을 이용하는 경우에도 마찬가지로 품질높은 합성 음성을 얻을 수 있다.

또한, 본 실시예에서는, 고정 파형 배치부가 표 8에 나타내는 고정 파형 개시단 후보 위치 정보를 갖는 경우에 대하여 설명하였지만, 대수적으로 생성할 수 있는 것이면 표 8 이외의 고정 파형 개시단 후보 위치 정보를 갖는 경우에 대해서도 마찬가지의 작용·효과를 얻을 수 있다.

(실시예 13)

도 21은 본 실시예에 관한 CELP형 음성 부호화 장치의 구성 블럭도를 나타낸다. 본 실시예의 음성 부호화 장치는, 2종류의 잡음 부호 리스트 A(211), 잡음 부호 리스트 B(212)와, 2종류의 잡음 부호 리스트를 전환하는 스위치(213)와, 잡음 부호 벡터에 이득을 곱하는 승산기(214)와, 스위치(213)에 의해 접속된 잡음 부호 리스트가 출력하는 잡음 부호 벡터를 합성하는 합성 필터(215)와, 수학식 2의 부호화 왜곡을 계산하는 왜곡 계산부(216)를 구비하고 있다.

잡음 부호 리스트 A(211)는 실시예 10의 음원 벡터 생성 장치의 구성을 갖고 있으며, 또 하나의 잡음 부호 리스트 B(212)는 난수열로부터 작성한 복수의 랜덤 벡터를 저장한 랜덤 수열 저장부(217)에 의해 구성되어 있다. 잡음 부호 리스트의 전환은 폐루프로 실행한다. X는 잡음 부호 리스트 탐색용 타겟이다.

먼저, 스위치(213)는 잡음 부호 리스트 A(211)측에 접속되고, 고정 파형 배치부(182)가 표 8에 나타내는 스스로 갖는 고정 파형 개시단 후보 위치 정보에 근거하여, 고정 파형 저장부(181)로부터 판독한 고정 파형을 개시단 후보 위치로부터 선택한 위치에 각각 배치(시프트)한다. 배치된 각 고정 파형은 가산기(183)에서 가산되어 잡음 부호 벡터로 되고, 잡음 부호 벡터 이득을 곱한 다음 합성 필터(215)에 입력된다. 합성 필터(215)는 입력된 잡음 부호 벡터를 합성하여 왜곡 계산부(216)로 출력한다.

왜곡 계산부(216)는 잡음 부호 리스트 탐색용 타겟 X와 합성 필터(215)로부터 얻은 합성 벡터를 이용하여 수학식 2의 부호화 왜곡의 최소화 처리를 실행한다.

왜곡 계산부(216)는 왜곡을 계산한 후, 고정 파형 배치부(182)로 신호를 보내어, 고정 파형 배치부(182)가 개시단 후보 위치를 선택하고나서 왜곡 계산부(216)에서 왜곡을 계산하기까지의 상기 처리를, 고정 파형 배치부(182)가 선택할 수 있는 개시단 후보 위치의 전체 조합에 대하여 반복적으로 실행한다.

그 후, 부호화 왜곡이 최소화되는 개시단 후보 위치의 조합을 선택하여, 그 개시단 후보 위치의 조합과 일대일로 대응하는 잡음 부호 벡터의 코드 번호, 그 때의 잡음 부호 벡터 이득 gc 및 부호화 왜곡 최소값을 기억해 놓는다.

다음에, 스위치(213)는 잡음 부호 리스트 B(212)측에 접속되고, 랜덤 수열 저장부(217)로부터 판독된 랜덤 수열이 잡음 부호 벡터로 되어, 잡음 부호 벡터 이득이 곱해진 다음, 합성 필터(215)에 입력된다. 합성 필터(215)는 입력된 잡음 부호 벡터를 합성하여 왜곡 계산부(216)로 출력한다.

왜곡 계산부(216)는 잡음 부호 리스트 탐색용 타겟 X와 합성 필터(215)로부터 얻은 합성 벡터를 이용하여 수학식 2의 부호화 왜곡을 계산한다.

왜곡 계산부(216)는 왜곡을 계산한 후, 랜덤 수열 저장부(217)로 신호를 보내어, 랜덤 수열 저장부(217)가 잡음 부호 벡터를 선택하고나서 왜곡 계산부(216)에서 왜곡을 계산하기까지의 상기 처리를, 랜덤 수열 저장부(217)가 선택할 수 있는 모든 잡음 부호 벡터에 대하여 반복적으로 실행한다.

그 후, 부호화 왜곡이 최소화되는 잡음 부호 벡터를 선택하여, 그 잡음 부호 벡터의 코드 번호, 그 때의 잡음 부호 벡터 이득 gc 및 부호화 왜곡 최소값을 기억해 놓는다.

다음에, 왜곡 계산부(216)는, 스위치(213)를 잡음 부호 리스트 A(211)에 접속했을 때 얻어진 부호화 왜곡 최소값과, 스위치(213)를 잡음 부호 리스트 B(212)에 접속했을 때 얻어진 부호화 왜곡 최소값을 비교하여, 작은 쪽의 부호화 왜곡이 얻어졌을 때의 스위치 접속 정보, 및 그 때의 코드 번호와 잡음 부호 벡터 이득을 음성 부호로서 결정하여, 도시하지 않은 전송부로 전송한다.

또, 본 실시예에 관한 음성 부호화 장치와 쌍을 이루는 음성 복호화 장치는, 잡음 부호 리스트 A, 잡음 부호 리스트 B, 스위치, 잡음 부호 벡터 이득 및 합성 필터를 도 21과 마찬가지의 구성으로 배치한 것을 가지고 이루어진 것으로서, 전송부로부터 입력되는 음성 부호에 근거하여, 사용되는 잡음 부호 리스트와 잡음 부호 벡터 및 잡음 부호 벡터 이득이 결정되어 합성 필터의 출력으로서 합성 음원 벡터가 얻어진다.

이와 같이 구성된 음성 부호화 장치/복호화 장치에 따르면, 잡음 부호 리스트 A에 의해 생성되는 잡음 부호 벡터와 잡음 부호 리스트 B에 의해 생성되는 잡음 부호 벡터 중에서, 수학식 2의 부호화 왜곡을 최소화하는 것을 폐루프 선택할 수 있기 때문에, 보다 실제 음성에 가까운 음원 벡터를 생성하는 것이 가능해짐과 동시에 품질이 높은 합성 음성을 얻을 수 있다.

또, 본 실시예에서는, 종래의 CELP형 음성 부호화 장치인 도 2의 구성을 기초로 한 음성 부호화/복호화 장치를 나타내었지만, 도 19a, 도 19b 또는 도 20의 구성을 기초로 한 CELP형 음성 부호화 장치/복호화 장치에 본 실시예를 적용하더라도 마찬가지의 작용·효과를 얻을 수 있다.

또, 본 실시예에 있어서, 잡음 부호 리스트 A(211)는 도 18의 구조를 갖는것으로 하였지만, 고정 파형 저장부(181)가 그 이외의 구조를 갖는 경우(예를 들면, 고정 파형을 4개 갖는 경우 등)에 대해서도 마찬가지의 작용·효과를 얻을 수 있다.

또, 본 실시예에서는, 잡음 부호 리스트 A(211)의 고정 파형 배치부(182)가 표 8에 나타내는 고정 파형 개시단 후보 위치 정보를 갖는 경우에 대하여 설명하였지만, 그 밖의 고정 파형 개시단 후보 위치 정보를 갖는 경우에 대해서도 마찬가지의 작용·효과를 얻을 수 있다.

또한, 본 실시예에서는, 잡음 부호 리스트 B(212)가 복수의 랜덤 수열을 직접 메모리에 저장하는 랜덤 수열 저장부(217)에 의해 구성된 경우에 대하여 설명하였지만, 잡음 부호 리스트 B(212)가 그 밖의 음원 구성을 갖는 경우(예를 들면, 대수적 구조 음원 생성 정보에 의해 구성되는 경우)에 대해서도 마찬가지의 작용·효과를 얻을 수 있다.

또, 본 실시예에서는, 2종류의 잡음 부호 리스트를 갖는 CELP형 음성 부호화/복호화 장치에 대하여 설명하였지만, 잡음 부호 리스트가 3종류 이상인 CELP형 음성 부호화/복호화 장치를 이용한 경우에도 마찬가지의 작용·효과를 얻을 수 있다.

(실시예 14)

도 22는 본 실시예에 있어서의 CELP형 음성 부호화 장치의 구성 블럭도를 나타낸다. 본 실시예에 있어서의 음성 부호화 장치는, 잡음 부호 리스트를 2종류 갖는데, 한쪽 잡음 부호 리스트는 실시예 10의 도 18에 나타내는 음원 벡터 생성 장치의 구성이고, 또 다른 한쪽의 잡음 부호 리스트는 복수의 펄스열을 저장한 펄스열 저장부에 의해 구성되며, 잡음 부호 리스트 탐색 이전에 이미 얻어져 있는 양자화 피치 이득을 이용하여 잡음 부호 리스트를 적응적으로 전환해 이용한다.

잡음 부호 리스트 A(211)는, 고정 파형 저장부(181), 고정 파형 배치부(182), 가산부(183)에 의해 구성되며, 도 18의 음원 벡터 생성 장치에 대응한다. 잡음 부호 리스트 B(221)는 복수의 펄스열을 저장한 펄스열 저장부(222)에 의해 구성되어 있다. 잡음 부호 리스트 A(211)와 잡음 부호 리스트 B(221)를 스위치(213')가 전환한다. 또한, 승산기(224)는 적응 부호 리스트(223)의 출력에 잡음 부호 리스트 탐색시에 이미 얻어져 있는 피치 이득을 곱한 적응 부호 벡터를 출력한다. 피치 이득 양자화기(225)의 출력은 스위치(213')에 인가된다.

종래의 CELP형 음성 부호화 장치에서는, 우선 적응 부호 리스트(223)의 탐색이 행해지고, 다음에 그 결과를 수신하여 잡음 부호 리스트 탐색이 행해진다. 이 적응 부호 리스트 탐색은 적응 부호 리스트(223)에 저장되어 있는 복수의 적응 부호 벡터(적응 부호 벡터와 잡음 부호 벡터를, 각각의 이득을 곱한 후에 가산하여 얻어진 벡터)로부터 최적의 적응 부호 벡터를 선택하는 처리로서, 결과적으로 적응 부호 벡터의 코드 번호 및 피치 이득이 생성된다.

본 실시예의 CELP형 음성 부호화 장치에서는, 이 피치 이득을 피치 이득 양자화부(225)에서 양자화하여, 양자화 피치 이득을 생성한 후에 잡음 부호 리스트탐색이 실행된다. 피치 이득 양자화부(225)에서 얻어진 양자화 피치 이득은 잡음 부호 리스트 전환용 스위치(213')로 보내진다.

스위치(213')는, 양자화 피치 이득의 값이 작을 때에는 입력 음성이 무성성(無聲性)이 강하다고 판단하여 잡음 부호 리스트 A(211)를 접속하고, 양자화 피치 이득의 값이 클 때에는 입력 음성이 유성성(有聲性)이 강하다고 판단하여 잡음 부호 리스트 B(221)를 접속한다.

스위치(213')가 잡음 부호 리스트 A(211)측에 접속되었을 때, 고정 파형 배치부(182)가 표 8에 나타내는 자신이 갖는 고정 파형 개시단 후보 위치 정보에 근거하여, 고정 파형 저장부(181)로부터 판독한 고정 파형을 개시단 후보 위치로부터 선택한 위치에 각각 배치(시프트)한다. 배치된 각 고정 파형은 가산기(183)에 출력돼 가산되어 잡음 부호 벡터로 되고, 잡음 부호 벡터 이득이 곱해지고 나서 합성 필터(215)에 입력된다. 합성 필터(215)는 입력된 잡음 부호 벡터를 합성하여 왜곡 계산부(216)로 출력한다.

그 후, 부호화 왜곡이 최소화되는 개시단 후보 위치의 조합을 선택하여, 그개시단 후보 위치의 조합과 일대일로 대응하는 잡음 부호 벡터의 코드 번호, 그 때의 잡음 부호 벡터 이득 gc 및 양자화 피치 이득을 음성 부호로서 전송부에 전송한다. 본 실시예에서는, 음성 부호화를 하기 전에, 고정 파형 저장부(181)에 저장하는 고정 파형 패턴에 대하여 사전에 무성음의 성질을 반영시켜 둔다.

한편, 스위치(213')가 잡음 부호 리스트 B(221)측에 접속되었을 때에는, 펄스열 저장부(222)로부터 판독된 펄스열이 잡음 부호 벡터로 되어, 스위치(213'), 잡음 부호 벡터 이득의 승산 공정을 거쳐 합성 필터(215)에 입력된다. 합성 필터(215)는 입력된 잡음 부호 벡터를 합성하여 왜곡 계산부(216)에 출력한다.

왜곡 계산부(216)는 왜곡을 계산한 후, 펄스열 저장부(222)로 신호를 보내어, 펄스열 저장부(222)가 잡음 부호 벡터를 선택하고나서 왜곡 계산부(216)에서 왜곡을 계산하기까지의 상기 처리를, 펄스열 저장부(222)가 선택할 수 있는 모든 잡음 부호 벡터에 대하여 반복적으로 실행한다.

그 후, 부호화 왜곡이 최소화되는 잡음 부호 벡터를 선택하여, 그 잡음 부호 벡터의 코드 번호, 그 때의 잡음 부호 벡터 이득 gc 및 양자화 피치 이득을 음성 부호로서 전송부에 전송한다.

또, 본 실시예의 음성 부호화 장치와 쌍을 이루는 음성 복호화 장치는, 잡음 부호 리스트 A, 잡음 부호 리스트 B, 스위치, 잡음 부호 벡터 이득 및 합성 필터를 도 22와 마찬가지의 구성으로 배치한 것을 가지고 이루어진 것으로서, 우선 전송되어 온 양자화 피치 이득을 수신하여, 그 대소에 따라 부호화 장치측에서는 스위치(213')가 잡음 부호 리스트 A(211)측에 접속되어 있었는지, 잡음 부호 리스트 B(221)측에 접속되어 있었는지를 판단한다. 다음에, 코드 번호 및 잡음 부호 벡터 이득의 부호에 근거하여 합성 필터의 출력으로서 합성 음원 벡터가 얻어진다.

이와 같이 구성된 음원 부호화/복호화 장치에 따르면, 입력 음성의 특징(본 실시예에서는, 양자화 피치 이득의 크기를 유성성/무성성의 판단 재료로서 이용하고 있음)에 따라, 2종류의 잡음 부호 리스트를 적응적으로 전환할 수 있어, 입력 음성의 유성성이 강한 경우에는 펄스열을 잡음 부호 벡터로서 선택하고, 무성성이 강한 경우에는 무성음의 성질을 반영한 잡음 부호 벡터를 선택할 수 있게 되어, 보다 실제 음성에 가까운 음원 벡터를 생성하는 것이 가능해짐과 동시에, 합성음의 품질 향상을 실현할 수 있다. 본 실시예에서는, 상기한 바와 같이 스위치의 전환을 폐루프에 의해 실행하기 때문에, 전송하는 정보량을 증가시키는 일 없이 해당 작용·효과를 향상시킬 수 있다.

또, 본 실시예에서는, 종래의 CELP형 음성 부호화 장치인 도 2의 구성을 기초로 한 음성 부호화/복호화 장치를 나타내었지만, 도 19a, 도 19b 또는 도 20의 구성을 기초로 한 CELP형 음성 부호화/복호화 장치에 본 실시예를 적용하더라도 마찬가지의 효과를 얻을 수 있다.

또한, 본 실시예에서는, 스위치(213')를 전환하기 위한 파라미터로서, 피치 이득 양자화기(225)에서 적응 부호 벡터의 피치 이득을 양자화하여 얻은 양자화 피치 이득을 이용하였지만, 그 대신에 피치 주기 산출기를 구비하여 적응 부호 벡터로부터 산출한 피치 주기를 이용하여도 무방하다.

또, 본 실시예에서는, 잡음 부호 리스트 A(211)는 도 18의 구조를 갖는 것으로 하였지만, 고정 파형 저장부(181)가 그 이외의 구조를 갖는 경우(예를 들면, 고정 파형을 4개 갖는 경우 등)에 대해서도 마찬가지의 작용·효과를 얻을 수 있다.

또한, 본 실시예에서는, 잡음 부호 리스트 B(221)가 펄스열을 직접 메모리에 저장하는 펄스열 저장부(222)에 의해 구성된 경우에 대하여 설명하였지만, 잡음 부호 리스트 B(221)가 그 밖의 음원 구성을 갖는 경우(예를 들면, 대수적 구조 음원 생성 정보에 의해 구성되는 경우)에 대해서도 마찬가지의 작용·효과를 얻을 수 있다.

(실시예 15)

도 23은 본 실시예에 관한 CELP형 음성 부호화 장치의 구성 블럭을 나타낸다. 본 실시예에 있어서의 음성 부호화 장치는, 잡음 부호 리스트를 2종류 갖는데, 한쪽 잡음 부호 리스트는 실시예 10의 도 18에 도시하는 음원 벡터 생성 장치의 구성에 의해 3개의 고정 파형을 고정 파형 저장부에 저장한 것이며, 또 다른 한쪽의 잡음 부호 리스트는 마찬가지로 도 18에 도시하는 음원 벡터 생성 장치의 구성이지만, 고정 파형 저장부에 저장한 고정 파형은 2개이며, 상기 2종류의 잡음 부호 리스트의 전환을 폐루프에 의해 실행한다.

잡음 부호 리스트 A(211)는, 3개의 고정 파형을 저장한 고정 파형 저장부 A(181), 고정 파형 배치부 A(182), 가산부(183)에 의해 구성되며, 도 18의 음원 벡터 생성 장치의 구성에 의해 3개의 고정 파형을 고정 파형 저장부에 저장한 것에 대응한다.

잡음 부호 리스트 B(230)는, 2개의 고정 파형을 저장한 고정 파형 저장부 B(231), 표 9에 나타내는 고정 파형 개시단 후보 위치 정보를 구비한 고정 파형 배치부 B(232), 고정 파형 배치부 B(232)에 의해 배치된 2개의 고정 파형을 가산하여 잡음 부호 벡터를 생성하는 가산부(233)로 구성되며, 도 18의 음원 벡터 생성 장치의 구성에 의해 2개의 고정 파형을 고정 파형 저장부에 저장한 것에 대응한다.

그 밖의 구성은 상술한 실시예 13과 동일하다.

먼저, 스위치(213)는 잡음 부호 리스트 A(211)측에 접속되고, 고정 파형 저장부 A(181)가 표 8에 나타내는 자신이 갖는 고정 파형 개시단 후보 위치 정보에 근거하여, 고정 파형 저장부 A(181)로부터 판독한 3개의 고정 파형을 개시단 후보 위치로부터 선택한 위치에 각각 배치(시프트)한다. 배치된 3개의 고정 파형은 가산기(183)로 출력돼 가산되어 잡음 부호 벡터로 되고, 스위치(213), 잡음 부호 벡터의 이득을 곱하는 승산기(214)를 거쳐 합성 필터(215)에 입력된다. 합성 필터(215)는 입력된 잡음 부호 벡터를 합성하여 왜곡 계산부(216)로 출력한다.

왜곡 계산부(216)는 왜곡을 계산한 후, 고정 파형 배치부 A(182)로 신호를 보내어, 고정 파형 배치부 A(182)가 개시단 후보 위치를 선택하고나서 왜곡 계산부(216)에서 왜곡을 계산하기까지의 상기 처리를, 고정 파형 배치부 A(182)가 선택할 수 있는 개시단 후보 위치의 전체 조합에 대하여 반복적으로 실행한다.

본 실시예에서는, 음성 부호화를 실행하기 전에, 고정 파형 저장부 A(181)에 저장하는 고정 파형 패턴이, 고정 파형이 3개라는 조건을 기초로 가장 왜곡이 작아지도록 학습하여 얻어진 것을 이용한다.

다음에 스위치(213)는 잡음 부호 리스트 B(230)측에 접속되고, 고정 파형 저장부 B(231)가 표 9에 나타내는 자신이 갖는 고정 파형 개시단 후보 위치 정보에 근거하여, 고정 파형 저장부 B(231)로부터 판독한 2개의 고정 파형을 개시단 후보 위치로부터 선택한 위치에 각각 배치(시프트)한다. 배치된 2개의 고정 파형은 가산기(233)로 출력돼 가산되어 잡음 부호 벡터로 되고, 스위치(213), 잡음 부호 벡터 이득을 승산하는 승산기(214)를 거쳐 합성 필터(215)에 입력된다. 합성 필터(215)는 입력된 잡음 부호 벡터를 합성하여 왜곡 계산부(216)로 출력한다.

왜곡 계산부(216)는 왜곡을 계산한 후, 고정 파형 배치부 B(232)로 신호를 보내어, 고정 파형 배치부 B(232)가 개시단 후보 위치를 선택하고나서 왜곡 계산부(216)에서 왜곡을 계산하기까지의 상기 처리를, 고정 파형 배치부 B(232)가 선택할 수 있는 개시단 후보 위치의 전체 조합에 대하여 반복적으로 실행한다.

그 후, 부호화 왜곡이 최소화되는 개시단 후보 위치의 조합을 선택하여, 그 개시단 후보 위치의 조합과 일대일로 대응하는 잡음 부호 벡터의 코드 번호, 그 때의 잡음 부호 벡터 이득 gc 및 부호화 왜곡 최소값을 기억해 놓는다. 본 실시예에서는, 음성 부호화를 하기 전에, 고정 파형 저장부 B(231)에 저장하는 고정 파형 패턴이, 고정 파형이 2개라는 조건을 기초로 가장 왜곡이 작아지도록 학습하여 얻어진 것을 이용한다.

다음에, 왜곡 계산부(216)는, 스위치(213)를 잡음 부호 리스트 A(211)에 접속했을 때 얻어진 부호화 왜곡 최소값과, 스위치(213)를 잡음 부호 리스트 B(230)에 접속했을 때 얻어진 부호화 왜곡 최소값을 비교하여, 작은 쪽의 부호화 왜곡이 얻어졌을 때의 스위치의 접속 정보, 및 그 때의 코드 번호와 잡음 부호 벡터 이득을 음성 부호로서 결정하여 전송부로 전송한다.

또, 본 실시예에 있어서의 음성 복호화 장치는, 잡음 부호 리스트 A, 잡음 부호 리스트 B, 스위치, 잡음 부호 벡터 이득 및 합성 필터를 도 23과 마찬가지의 구성으로 배치한 것을 가지고 이루어지는 것으로서, 전송부로부터 입력되는 음성 부호에 근거하여, 사용되는 잡음 부호 리스트와 잡음 부호 벡터 및 잡음 부호 벡터 이득이 결정되어 합성 필터의 출력으로서 합성 음원 벡터를 얻을 수 있다.

이와 같이 구성된 음성 부호화/복호화 장치에 따르면, 잡음 부호 리스트 A에 의해 생성되는 잡음 부호 벡터와 잡음 부호 리스트 B에 의해 생성되는 잡음 부호 벡터 중에서, 수학식 2의 부호화 왜곡을 최소화하는 것을 폐루프 선택할 수 있기 때문에, 보다 실제 음성에 가까운 음원 벡터를 생성하는 것이 가능해짐과 동시에, 품질높은 합성 음성을 얻을 수 있다.

또, 본 실시예에서는, 잡음 부호 리스트 A(211)의 고정 파형 저장부 A(181)가 3개의 고정 파형을 저장하는 경우에 대하여 설명하였지만, 고정 파형 저장부 A(181)가 그 이외의 개수의 고정 파형을 갖는 경우(예를 들면, 고정 파형을 4개 갖는 경우 등)에 대해서도 마찬가지의 작용·효과를 얻을 수 있다. 잡음 부호 리스트 B(230)에 대해서도 마찬가지이다.

또한, 본 실시예에서는, 잡음 부호 리스트 A(211)의 고정 파형 배치부 A(182)가 표 8에 나타내는 고정 파형 개시단 후보 위치 정보를 갖는 경우에 대하여 설명하였지만, 그 밖의 고정 파형 개시단 후보 위치 정보를 갖는 경우에 대해서도 마찬가지의 작용·효과를 얻을 수 있다. 잡음 부호 리스트 B(230)에 대해서도 마찬가지이다.

(실시예 16)

도 24에 본 실시예에 관한 CELP형 음성 부호화 장치의 기능 블럭도를 나타내고 있다. 이 음성 부호화 장치는, LPC 분석부(242)에 있어서, 입력된 음성 데이터(241)에 대하여 자기 상관 분석과 LPC 분석을 실행함으로써 LPC 계수를 얻고, 또한 얻어진 LPC 계수의 부호화를 실행하여 LPC 부호를 얻으며, 또한 얻어진 LPC 부호를 복호화하여 복호화 LPC 계수를 얻는다.

다음에, 음원 작성부(245)에 있어서 적응 부호 리스트(243)와 음원 벡터 생성 장치(244)로부터 적응 코드 벡터와 잡음 코드 벡터를 취출하여, 각각을 LPC 합성부(246)로 보낸다. 음원 벡터 생성 장치(244)에는 상술한 실시예 1∼4, 10 중 어느 일례의 음원 벡터 생성 장치를 이용하는 것으로 한다. 또한, LPC 합성부(246)에 있어서 음원 작성부(245)에서 얻어진 2개의 음원에 대하여, LPC 분석부(242)에서 얻어진 복호화 LPC 계수에 의해 필터링을 실행하여 2개의 합성음을 얻는다.

또한, 비교부(247)에 있어서는, LPC 합성부(246)에서 얻어진 2개의 합성음과 입력 음성의 관계를 분석하여 2개 합성음의 최적값(최적 이득)을 구하고, 그 최적 이득에 의해 파워 조정한 각각의 합성음을 가산하여 종합 합성음을 얻은 다음, 그 종합 합성음과 입력 음성의 거리 계산을 행한다.

또한, 적응 부호 리스트(243)와 음원 벡터 생성 장치(244)가 발생시키는 모든 음원 샘플에 대하여 음원 작성부(245), LPC 합성부(246)를 기능시킴으로써 얻어지는 많은 합성음과 입력 음성의 거리 계산을 행하고, 그 결과 얻어지는 거리중에서도 가장 작을 때의 음원 샘플의 인덱스를 구한다. 얻어진 최적 이득과, 음원 샘플의 인덱스, 또한 그 인덱스에 대응하는 2개의 음원을 파라미터 부호화부(248)로 보낸다.

파라미터 부호화부(248)에서는, 최적 이득의 부호화를 실행함으로써 이득 부호를 얻고, LPC 부호, 음원 샘플의 인덱스를 정리하여 전송로(249)로 보낸다. 또한, 이득 부호와 인덱스에 대응하는 2개의 음원으로부터 실제의 음원 신호를 작성하여, 그것을 적응 부호 리스트(243)에 저장함과 동시에 오래된 음원 샘플을 파기시킨다.

도 25에 파라미터 부호화부(248)에 있어서의 이득의 벡터 양자화에 관한 부분의 기능 블럭이 도시되어 있다.

파라미터 부호화부(248)는, 입력되는 최적 이득(2501)의 요소의 합과 그 합에 대한 비율로 변환하여 양자화 대상 벡터를 구하는 파라미터 변환부(2502)와, 복호화 벡터 저장부에 저장된 과거의 복호화된 코드 벡터와 예측 계수 저장부에 저장된 예측 계수를 이용하여 타겟 벡터를 구하는 타겟 추출부(抽出部)(2503)와, 과거의 복호화된 코드 벡터가 저장되어 있는 복호화 벡터 저장부(2504)와, 예측 계수가 저장되어 있는 예측 계수 저장부(2505)와, 예측 계수 저장부에 저장된 예측 계수를 이용하여 벡터 부호 리스트에 저장되어 있는 복수의 코드 벡터와 타겟 추출부에서 얻어진 타겟 벡터의 거리를 계산하는 거리 계산부(2506)와, 복수의 코드 벡터가 저장되어 있는 벡터 부호 리스트(2507)와, 벡터 부호 리스트와 거리 계산부를 제어하여 거리 계산부로부터 얻어진 거리의 비교에 의해 가장 적합하다고 하는 코드 벡터의 번호를 구하고, 구한 번호로부터 벡터 저장부에 저장된 코드 벡터를 취출하여 동일 벡터를 이용해 복호화 벡터 저장부의 내용을 갱신하는 비교부(2508)를 구비하고 있다.

이상과 같이 구성된 파라미터 부호화부(248)의 동작에 대하여 상세히 설명한다. 미리, 양자화 대상 벡터의 대표적 샘플(코드 벡터)이 복수 저장된 벡터 부호 리스트(2507)를 작성해 놓는다. 일반적으로 이것은, 많은 음성 데이터를 분석하여얻어진 다수의 벡터를 기초로 하여, LBG 알고리즘(IEEE TRANSACTIONS ON COMMUNICATIONS, VOL.COM-28, NO.1, PP84-95, JANUARY 1980)에 의해 작성한다.

또한, 예측 계수 저장부(2505)에는 예측 부호화를 실행하기 위한 계수를 저장해 놓는다. 이 예측 계수에 대해서는 알고리즘을 설명한 후에 설명하기로 한다. 또한, 복호화 벡터 저장부(2504)에는 초기값으로서 무음 상태를 나타내는 값을 저장해 놓는다. 그 예로서, 가장 파워가 작은 코드 벡터를 들 수 있다.

먼저, 입력된 최적 이득(2501)(적응 음원의 이득과 잡음 음원의 이득)을 파라미터 변환부(2502)에 있어서 합과 비율 요소의 벡터(입력)로 변환한다. 변환 방법을 수학식 40에 나타낸다.

단, 상기에 있어서 Ga는 반드시 포지티브의 값인 것은 아니다. 따라서, R이 네가티브의 값으로 되는 경우도 있다. 또한, Ga+Gs가 네가티브로 된 경우에는 미리 준비한 고정값을 대입해 놓는다.

다음에, 타겟 추출부(2503)에 있어서, 파라미터 변환부(2502)에서 얻어진 벡터를 기초로 하여, 복호화 벡터 저장부(2504)에 저장된 과거의 복호화 벡터와 예측계수 저장부(2505)에 저장된 예측 계수를 이용하여 타겟 벡터를 얻는다. 타겟 벡터의 산출식을 수학식 41에 나타낸다.

다음에, 거리 계산부(2506)에 있어서는, 예측 계수 저장부(2505)에 저장된 예측 계수를 이용하여 타겟 추출부(2503)에서 얻어진 타겟 벡터와 벡터 부호 리스트(2507)에 저장된 코드 벡터의 거리를 계산한다. 거리의 계산식을 수학식 42에 나타낸다.

다음에, 비교부(2508)는 벡터 부호 리스트(2507)와 거리 계산부(2506)를 제어하여, 벡터 부호 리스트(2507)에 저장된 복수의 코드 벡터 중에서 거리 계산부(2506)에 의해 산출된 거리가 가장 작아지는 코드 벡터의 번호를 구하고, 이것을 이득의 부호(2509)로 한다. 또한, 얻어진 이득의 부호(2509)를 기초로 복호화 벡터를 구하고, 이것을 이용하여 복호화 벡터 저장부(2504)의 내용을 갱신한다. 복호화 벡터를 구하는 방법을 수학식 43에 나타낸다.

또한, 갱신 방법을 수학식 44에 나타낸다.

한편, 복호화 장치(디코더)에서는, 미리 부호화 장치와 마찬가지의 벡터 부호 리스트, 예측 계수 저장부, 복호화 벡터 저장부를 준비해 두고, 부호화 장치로부터 전송되어 온 이득의 부호에 근거하여, 부호화 장치의 비교부의 복호화 벡터 작성과 복호화 벡터 저장부의 갱신 기능에 의해 복호화를 실행한다.

여기서, 예측 계수 저장부(2505)에 저장하는 예측 계수의 설정 방법에 대하여 설명한다.

예측 계수는, 우선 많은 학습용 음성 데이터에 대하여 양자화를 실행하여, 그 최적 이득으로부터 구한 입력 벡터와 양자화시의 복호화 벡터를 수집해 모집단(母集團)을 작성하고, 그 모집단에 대하여 이하의 수학식 45에 나타내는 총합 왜곡을 최소화함으로써 구한다. 구체적으로는, 각 Upi, Uri에 의해 총합 왜곡의 식을 편미분(偏微分)하여 얻어지는 연립 방정식을 푸는 것에 의해 Upi, Uri의 값을 구한다.

이러한 벡터 양자화법에 따르면, 최적 이득을 그대로 벡터 양자화할 수 있어, 파라미터 변환부의 특징에 따라 파워와 각 이득의 상대적 크기의 상관을 이용할 수 있게 되고, 복호화 벡터 저장부, 예측 계수 저장부, 타겟 추출부, 거리 계산부의 특징에 따라 파워와 2개 이득의 상대적 관계 사이의 상관을 이용한 이득의 예측 부호화를 실현할 수 있으며, 이들 특징에 의해 파라미터끼리의 상관을 충분히 이용하는 것이 가능해진다.

(실시예 17)

도 26에 본 실시예에 관한 음성 부호화 장치의 파라미터 부호화부의 기능 블럭도를 나타낸다. 본 실시예에서는, 음원의 인덱스에 대응하는 2개의 합성음과 청감 가중 입력 음성으로부터 이득의 양자화에 의한 왜곡을 평가하면서 벡터 양자화를 실행한다.

도 26에 도시하는 바와 같이 이 파라미터 부호화부는, 입력되는 청감 가중 입력 음성과 청감 가중 LPC 합성 완료 적응 음원과 청감 가중 LPC 합성 완료 잡음 음원(2601)인 입력 데이터와 복호화 벡터 저장부에 저장된 복호화 벡터와 예측 계수 저장부에 저장된 예측 계수로부터 거리 계산에 필요한 파라미터를 계산하는 파라미터 계산부(2602)와, 과거의 복호화된 코드 벡터가 저장되어 있는 복호화 벡터 저장부(2603)와, 예측 계수가 저장되어 있는 예측 계수 저장부(2604)와, 예측 계수 저장부에 저장된 예측 계수를 이용하여 벡터 부호 리스트에 저장되어 있는 복수의 코드 벡터로 복호화했을 때의 부호화 왜곡을 계산하는 거리 계산부(2605)와, 복수의 코드 벡터가 저장되어 있는 벡터 부호 리스트(2606)와, 벡터 부호 리스트와 거리 계산부를 제어하여 거리 계산부로부터 얻어진 부호화 왜곡의 비교에 의해 가장 적당하다고 하는 코드 벡터의 번호를 구하고, 구한 번호로부터 벡터 저장부에 저장된 코드 벡터를 취출하여 동일 벡터를 이용해 복호화 벡터 저장부의 내용을 갱신하는 비교부(2607)를 구비하고 있다.

이상과 같이 구성된 파라미터 부호화부의 벡터 양자화 동작에 대하여 설명한다. 미리, 양자화 대상 벡터의 대표적 샘플(코드 벡터)이 복수 저장된 벡터 부호 리스트(2606)를 작성해 놓는다. 일반적으로는 LBG 알고리즘(IEEE TRANSACTIONS ON COMMUNICATIONS, VOL. COM-28, NO.1, PP84-95, JANUARY 1980) 등에 의해 작성한다.또한, 예측 계수 저장부(2604)에는 예측 부호화를 실행하기 위한 계수를 저장해 놓는다. 이 계수는 실시예 16에서 설명한 예측 계수 저장부(2505)에 저장하는 예측 계수와 동일한 것을 이용한다. 또한, 복호화 벡터 저장부(2603)에는 초기값으로서 무음 상태를 나타내는 값을 저장해 놓는다.

먼저, 파라미터 계산부(2602)에 있어서, 입력된, 청감 가중 입력 음성, 청감 가중 LPC 합성 완료 적응 음원, 청감 가중 LPC 합성 완료 잡음 음원(2601), 또한 복호화 벡터 저장부(2603)에 저장된 복호화 벡터, 예측 계수 저장부(2604)에 저장된 예측 계수로부터 거리 계산에 필요한 파라미터를 계산한다. 거리 계산부에 있어서의 거리는 다음 수학식 46에 근거한다.

따라서, 파라미터 계산부(2602)에서는 코드 벡터의 번호에 의존하지 않는 부분의 계산을 실행한다. 계산해 놓은 것은 상기 예측 벡터와 3개의 합성음 사이의 상관, 파워이다. 계산식을 수학식 47에 나타낸다.

다음에, 거리 계산부(2605)에 있어서 파라미터 계산부(2602)에 의해 계산한 각 파라미터, 예측 계수 저장부(2604)에 저장된 예측 계수, 벡터 부호 리스트(2606)에 저장된 코드 벡터로부터 부호화 왜곡을 산출한다. 산출식을 다음 수학식 48에 나타낸다.

또한, 실제로 Dxx는 코드 벡터의 번호 n에 의존하지 않기 때문에, 그 가산을 생략할 수 있다.

다음에, 비교부(2607)는 벡터 부호 리스트(2606)와 거리 계산부(2605)를 제어하여, 벡터 부호 리스트(2606)에 저장된 복수의 코드 벡터 중에서 거리 계산부(2605)에 의해 산출된 거리가 가장 작아지는 코드 벡터의 번호를 구하고, 이것을 이득의 부호(2608)로 한다. 또한, 얻어진 이득의 부호(2608)를 기초로 하여 복호화 벡터를 구하고, 이것을 이용하여 복호화 벡터 저장부(2603)의 내용을 갱신한다. 복호화 벡터는 수학식 43에 의해 구한다.

또한, 갱신 방법은 수학식 44를 이용한다.

한편, 음성 복호화 장치기에서는, 미리 음성 부호화 장치와 마찬가지의 벡터 부호 리스트, 예측 계수 저장부, 복호화 벡터 저장부를 준비해 두고, 부호기로부터 전송되어 온 이득의 부호에 근거하여, 부호기의 비교부의 복호화 벡터 작성과 복호화 벡터 저장부의 갱신 기능에 의해 복호화를 실행한다.

이렇게 구성된 실시예에 따르면, 음원의 인덱스에 대응하는 2개의 합성음과 입력 음성으로부터 이득의 양자화에 의한 왜곡을 평가하면서 벡터 양자화할 수 있어, 파라미터 변환부의 특징에 따라 파워와 각 이득의 상대적 크기의 상관을 이용할 수 있게 되고, 복호화 벡터 저장부, 예측 계수 저장부, 타겟 추출부, 거리 계산부의 특징에 따라 파워와 2개 이득의 상대적 관계 사이의 상관을 이용한 이득의 예측 부호화를 실현할 수 있으며, 이에 따라 파라미터끼리의 상관을 충분히 이용할 수 있다.

(실시예 18)

도 27은 본 실시예에 있어서의 노이즈 삭감 장치의 주요부 기능 블럭도이다. 이 노이즈 삭감 장치를 상술한 음성 부호화 장치에 장비한다. 예를 들면, 도 13에 도시한 음성 부호화 장치에 있어서 버퍼(1301)의 전단(前段)에 설치한다.

도 27에 도시하는 노이즈 삭감 장치는, A/D 변환부(272), 노이즈 삭감 계수 저장부(273), 노이즈 삭감 계수 조절부(274), 입력 파형 설정부(275), LPC 분석부(276), 퓨리에 변환부(277), 노이즈 삭감/스펙트럼 보상부(278), 스펙트럼 안정화부(279), 역(逆)퓨리에 변환부(280), 스펙트럼 강조부(281), 파형정합부(282), 노이즈 추정부(284), 노이즈 스펙트럼 저장부(285), 이전 스펙트럼 저장부(286), 난수 위상 저장부(287), 이전 파형 저장부(288), 최대 파워 저장부(289)를 구비하고 있다.

처음에 초기 설정에 대하여 설명한다. 표 10에 고정 파라미터의 명칭과 설정예를 나타낸다.

또한, 난수 위상 저장부(287)에는 위상을 조정하기 위한 위상 데이터를 저장해 놓는다. 이들은 스펙트럼 안정화부(279)에 있어서 위상을 회전시키기 위해 이용된다. 위상 데이터가 8종류인 경우의 예를 표 11에 나타낸다.

또한, 상기 위상 데이터를 이용하기 위한 카운터(난수 위상 카운터)도 난수 위상 저장부(287)에 저장해 놓는다. 이 값은 미리 0으로 초기화하여 저장해 놓는다.

다음에, 스태틱 RAM 영역을 설정한다. 즉, 노이즈 삭감 계수 저장부(273), 노이즈 스펙트럼 저장부(285), 이전 스펙트럼 저장부(286), 이전 파형 저장부(288), 최대 파워 저장부(289)를 소거(clear)한다. 이하에, 각 저장부의 설명과 설정예를 설명한다.

노이즈 삭감 계수 저장부(273)는 노이즈 삭감 계수를 저장하는 영역으로서, 초기값으로 20.0을 저장해 놓는다. 노이즈 스펙트럼 저장부(285)는 평균 노이즈 파워와, 평균 노이즈 스펙트럼과, 1위 후보의 보상용 노이즈 스펙트럼과 2위 후보의 보상용 노이즈 스펙트럼과 각각의 주파수의 스펙트럼값이, 몇 프레임전에 변화했는지를 나타내는 프레임수(지속수(持續數))를 각 주파수마다 저장하는 영역으로서, 평균 노이즈 파워에 충분히 큰 값, 평균 노이즈 스펙트럼에 지정 최소 파워, 보상용 노이즈 스펙트럼과 지속수로서 각각 충분히 큰 수를 초기값으로 저장해 놓는다.

이전 스펙트럼 저장부(286)는 보상용 노이즈 파워, 이전 프레임의파워(전역(前域), 중역(中域))(이전 프레임 파워), 이전 프레임의 평활화(平滑化) 파워(전역, 중역)(이전 프레임 평활화 파워) 및 노이즈 연속수를 저장하는 영역으로서, 보상용 노이즈 파워로서 충분히 큰 값을, 이전 프레임 파워, 전체 프레임 평활화 파워로서 모두 0.0을, 또한 노이즈 연속수로서 노이즈 기준 연속수를 저장해 놓는다.

이전 파형 저장부(288)는 출력 신호를 정합시키기 위한, 이전 프레임의 출력 신호의, 최후의 선(先) 판독 데이터 길이분의 데이터를 저장하는 영역으로서, 초기값으로 모두 0을 저장해 놓는다. 스펙트럼 강조부(281)는 ARMA 및 고역 강조 필터링을 실행하는데, 그를 위한 각각의 필터 상태를 모두 0으로 소거(clear)해 놓는다. 최대 파워 저장부(289)는 입력된 신호의 파워의 최대를 저장하는 영역으로서, 최대 파워로서 0을 저장해 놓는다.

다음에 노이즈 삭감 알고리즘에 대하여 도 27을 이용해 블럭마다 설명한다.

우선, 음성을 포함하는 아날로그 입력 신호(271)를 A/D 변환부(272)에서 A/D 변환하여, 1 프레임 길이+선 판독 데이터 길이(상기 설정예에서는, 160+80=240 포인트)분만큼 입력한다. 노이즈 삭감 계수 조절부(274)는 노이즈 삭감 계수 저장부(273)에 저장된 노이즈 삭감 계수와 지정 노이즈 삭감 계수와 노이즈 삭감 계수 학습 계수와 보상 파워 상승 계수를 기초로 하여 수학식 49에 의해 노이즈 삭감 계수 및 보상 계수를 산출한다. 그리고, 얻어진 노이즈 삭감 계수를 노이즈 삭감 계수 저장부(273)에 저장함과 동시에, A/D 변환부(272)에서 얻어진 입력 신호를 입력 파형 설정부(275)로 보내고, 또한 보상 계수와 노이즈 삭감 계수를 노이즈 추정부(284)와 노이즈 삭감/스펙트럼 보상부(278)로 보낸다.

또, 노이즈 삭감 계수는 노이즈를 감소시키는 비율을 나타낸 계수, 지정 노이즈 삭감 계수는 미리 지정된 고정 삭감 계수, 노이즈 삭감 계수 학습 계수는 노이즈 삭감 계수의 지정 노이즈 삭감 계수에 접근시키는 비율을 나타낸 계수, 보상 계수는 스펙트럼 보상에 있어서의 보상 파워를 조절하는 계수, 보상 파워 상승 계수는 보상 계수를 조절하는 계수이다.

입력 파형 설정부(275)에 있어서는, A/D 변환부(272)로부터의 입력 신호를 FFT(고속 퓨리에 변환)할 수 있도록, 2의 지수승 길이를 갖는 메모리 배열에, 뒤로부터 채워서 기입한다. 앞 부분은 0을 채워 놓는다. 전술한 설정예에서는, 256 길이의 배열에 0∼15까지 0을 기입하고, 16∼255까지 입력 신호를 기입한다. 이 배열은 8차 FFT시에 실수부로서 이용된다. 또한, 허수부로서 실수부와 동일한 길이의 배열을 준비하여 모두 0을 기입해 놓는다.

LPC 분석부(276)에 있어서는, 입력 파형 설정부(275)에서 설정한 실수부 영역에 대하여 해밍 윈도우를 부가하여, 윈도우 부가후의 파형에 대해 자기 상관 분석을 행하여 자기 상관 계수를 구하고, 자기 상관법에 근거한 LPC분석을 행하여 선형 예측 계수를 얻는다. 또한, 얻어진 선형 예측 계수를 스펙트럼 강조부(281)로 보낸다.

퓨리에 변환부(277)는 입력 파형 설정부(275)에서 얻어지는 실수부, 허수부의 메모리 배열을 이용하여 FFT에 의한 이산 퓨리에 변환을 실행한다. 얻어진 복 소(複素) 스펙트럼의 실수부와 허수부의 절대값의 합을 계산함으로써, 입력 신호의 의사 진폭 스펙트럼(이하, 입력 스펙트럼)을 구한다. 또한, 각 주파수의 입력 스펙트럼값의 총합(이하, 입력 파워)을 구해 노이즈 추정부(284)로 보낸다. 또한, 복소 스펙트럼 그 자체를 스펙트럼 안정화부(279)로 보낸다.

다음에, 노이즈 추정부(284)에 있어서의 처리를 설명한다.

노이즈 추정부(284)는, 퓨리에 변환부(277)에서 얻어진 입력 파워와 최대 파워 저장부(289)에 저장된 최대 파워의 값을 비교하여, 최대 파워쪽이 작은 경우에는 최대 파워값을 입력 파워값으로 하고, 그 값을 최대 파워 저장부(289)에 저장한다. 그리고, 이하 3가지 중 적어도 하나에 해당하는 경우에는 노이즈 추정을 실행하고, 모두 만족하지 않는 경우에는 노이즈 추정을 실행하지 않는다.

(1) 입력 파워가 최대 파워에 무음 검출 계수를 곱한 값보다 작다.

(2) 노이즈 삭감 계수가 지정 노이즈 삭감 계수에 0.2를 더한 것보다 크다.

(3) 입력 파워가 노이즈 스펙트럼 저장부(285)로부터 얻어지는 평균 노이즈 파워에 1.6을 곱한 것보다 작다.

여기서, 노이즈 추정부(284)에 있어서의 노이즈 추정 알고리즘을 설명한다.

우선, 노이즈 스펙트럼 저장부(285)에 저장되어 있는 1위 후보, 2위 후보의 모든 주파수의 지속수를 갱신한다(1을 가산함). 그리고, 1위 후보의 각 주파수의 지속수를 조사하여, 미리 설정한 노이즈 스펙트럼 기준 지속수보다 큰 경우에는 2위 후보의 보상용 스펙트럼과 지속수를 1위 후보로 하며, 2위 후보의 보상용 스펙트럼을 3위 후보의 보상용 스펙트럼으로 하고 지속수를 0으로 한다. 단, 이 2위 후보의 보상용 스펙트럼의 교체에 있어서는, 3위 후보를 저장하지 않고서 2위 후보를 약간 크게 한 것으로 대용함으로써 메모리를 절약할 수 있다. 본 실시예에서는, 2위 후보의 보상용 스펙트럼을 1.4배한 것을 대용하는 것으로 한다.

지속수 갱신후, 각 주파수마다, 보상용 노이즈 스펙트럼과 입력 스펙트럼을 비교한다. 우선, 각 주파수의 입력 스펙트럼을 1위 후보의 보상용 노이즈 스펙트럼과 비교하여, 만일 입력 스펙트럼쪽이 작은 경우에는 1위 후보의 보상용 노이즈 스펙트럼과 지속수를 2위 후보로 하며, 입력 스펙트럼을 1위 후보의 보상용 스펙트럼으로 하고, 1위 후보의 지속수는 0으로 한다. 상기한 조건 이외의 경우에는 입력 스펙트럼과 2위 후보의 보상용 노이즈 스펙트럼을 비교하여, 만일 입력 스펙트럼쪽이 작은 경우에는 입력 스펙트럼을 2위 후보의 보상용 스펙트럼으로 하고 2위 후보의 지속수는 0으로 한다. 그리고, 얻어진 1, 2위 후보의 보상용 스펙트럼과 지속수를 보상용 노이즈 스펙트럼 저장부(285)에 저장한다. 또한, 동시에 평균 노이즈 스펙트럼도 다음 수학식 50에 따라 갱신한다.

또한, 평균 노이즈 스펙트럼은 의사적으로 구한 평균의 노이즈 스펙트럼이고, 수학식 50에 있어서의 계수 g는 평균 노이즈 스펙트럼의 학습의 빠르기를 조절하는 계수이다. 즉, 입력 파워가 노이즈 파워와 비교하여 작은 경우에는, 노이즈만의 구간일 가능성이 높다고 보아 학습 속도를 높이고, 그렇지 않은 경우에는 음성 구간 중일 가능성이 있다고 보아 학습 속도를 낮추는 효과를 갖는 계수이다.

그리고, 평균 노이즈 스펙트럼의 각 주파수의 값의 총합을 구하여, 이것을 평균 노이즈 파워로 한다. 보상용 노이즈 스펙트럼, 평균 노이즈 스펙트럼, 평균 노이즈 파워는 노이즈 스펙트럼 저장부(285)에 저장한다.

또한, 상기 노이즈 추정 처리에 있어서, 1개의 주파수의 노이즈 스펙트럼을 복수의 주파수의 입력 스펙트럼과 대응시키면, 노이즈 스펙트럼 저장부(285)를 구성하기 위한 RAM 용량을 절약할 수 있다. 그 예로서, 본 실시예의 256 포인트의 FFT를 이용하는 경우, 1개의 주파수의 노이즈 스펙트럼을 4개의 주파수의 입력 스펙트럼으로부터 추정할 때의 노이즈 스펙트럼 저장부(285)의 RAM 용량을 나타낸다. (의사)진폭 스펙트럼이 주파수축상에서 좌우 대칭인 것을 고려하면, 모든 주파수에 있어서 추정하는 경우에는 128개의 주파수 스펙트럼과 지속수를 저장하기 때문에,128(주파수)×2(스펙트럼과 지속수)×3(보상용 1, 2위 후보, 평균)으로 합계 768W의 RAM 용량이 필요하게 된다.

이에 반하여, 1개의 주파수의 노이즈 스펙트럼을 4개의 주파수의 입력 스펙트럼과 대응시키는 경우에는, 32(주파수)×2(스펙트럼과 지속수)×3(보상용 1, 2위 후보, 평균)으로 합계 192W의 RAM 용량이면 된다. 이 경우, 노이즈 스펙트럼의 주파수 해상도는 저하하게 되지만, 상기 1대 4의 경우에는, 거의 성능 열화가 없는 것을 실험에 의해 확인하고 있다. 또한, 이 연구는 1개 주파수의 스펙트럼으로 노이즈 스펙트럼을 추정하는 것은 아니므로, 정상음(정현파(sine wave), 모음 등)이 장시간 계속된 경우 그 스펙트럼을 노이즈 스펙트럼으로 잘못 추정하는 것을 방지하는 효과도 있다.

다음에, 노이즈 삭감/스펙트럼 보상부(278)에 있어서의 처리에 대하여 설명한다.

입력 스펙트럼으로부터, 노이즈 스펙트럼 저장부(285)에 저장되어 있는 평균 노이즈 스펙트럼에 노이즈 삭감 계수 조절부(274)에 의해 얻어진 노이즈 삭감 계수를 곱한 것을 감산한다(이하, 차(差) 스펙트럼). 상기 노이즈 추정부(284)의 설명에 있어서 나타낸 노이즈 스펙트럼 저장부(285)의 RAM 용량을 절약한 경우에는, 입력 스펙트럼에 대응하는 주파수의 평균 노이즈 스펙트럼에 노이즈 삭감 계수를 곱한 것을 감산한다. 그리고, 차 스펙트럼이 네가티브로 된 경우에는, 노이즈 스펙트럼 저장부(285)에 저장된 보상용 노이즈 스펙트럼의 1위 후보에게 노이즈 삭감 계수 조정부(274)에서 구한 보상 계수를 곱한 것을 대입함으로써 보상한다. 이것을 모든 주파수에 대하여 실행한다. 또한, 차 스펙트럼을 보상한 주파수를 알 수 있도록, 주파수마다 플래그 데이터를 작성한다. 예를 들면, 각 주파수마다 1개의 영역이 있어, 보상하지 않을 때에는 0, 보상했을 때에는 1을 대입한다. 이 플래그 데이터는 차 스펙트럼과 더불어 스펙트럼 안정화부(279)로 보내진다. 또한, 플래그 데이터의 값을 조사함으로써 보상한 총수(보상수)를 구하여 이것도 스펙트럼 안정화부(279)로 보낸다.

다음에, 스펙트럼 안정화부(279)에 있어서의 처리에 대하여 설명한다. 또, 이 처리는 주로 음성이 포함되어 있지 않은 구간의 이음감(異音感) 저감을 위해 기능한다.

우선, 노이즈 삭감/스펙트럼 보상부(278)로부터 얻어진 각 주파수의 차 스펙트럼의 합을 계산하여, 현 프레임 파워를 구한다. 현 프레임 파워는 전역(全域)과 중역(中域)의 2종류를 구한다. 전역은 모든 주파수(전역이라고 함, 본 실시예에서는 0∼128까지)에 대하여 구하고, 중역은 청감적으로 중요한 중간 대역(중역이라고 함, 본 실시예에서는 16∼79까지)에 대하여 구한다.

마찬가지로, 노이즈 스펙트럼 저장부(285)에 저장된 보상용 노이즈 스펙트럼의 1위 후보에 대한 합을 구하여 이것을 현 프레임 노이즈 파워(전역, 중역)로 한다. 여기서, 노이즈 삭감/스펙트럼 보상부(278)로부터 얻어진 보상수의 값을 조사하여, 충분히 큰 경우, 또한 이하의 3 조건 중 적어도 1개를 만족하는 경우, 현 프레임이 노이즈만의 구간인 것으로 판단하여, 스펙트럼의 안정화 처리를 행한다.

(2) 현 프레임 파워(중역)가 현 프레임 노이즈 파워(중역)에 5.0을 곱한 값보다 작다.

(3) 입력 파워가 노이즈 기준 파워보다 작다.

안정화 처리를 실행하지 않는 경우에는, 이전 스펙트럼 저장부(286)에 저장된 노이즈 연속수가 포지티브일 때 1을 감산하고, 또한 현 프레임 노이즈 파워(전역, 중역)를 이전 프레임 파워(전역, 중역)로 하며, 각각을 이전 스펙트럼 저장부(286)에 저장하여 위상 확산 처리로 진행한다.

여기서, 스펙트럼 안정화 처리에 대하여 설명한다. 이 처리의 목적은, 무음구간(음성이 없는 노이즈만의 구간)의 스펙트럼의 안정화와 파워 저감을 실현하는 것이다. 처리는 2종류가 있으며, 노이즈 연속수가 노이즈 기준 연속수보다 작은 경우에는 (처리 1)을, 이상인 경우는 (처리 2)를 실행한다. 2가지 처리를 이하에 나타낸다.

(처리 1)

이전 스펙트럼 저장부(286)에 저장된 노이즈 연속수에 1을 가산하고, 또한 현 프레임 노이즈 파워(전역, 중역)를 이전 프레임 파워(전역, 중역)로 하며, 각각을 이전 스펙트럼 저장부(286)에 저장하여 위상 조정 처리로 진행한다.

(처리 2)

이전 스펙트럼 저장부(286)에 저장된 이전 프레임 파워, 이전 프레임 평활화 파워, 또한 고정 계수인 무음 파워 감소 계수를 참조하여 수학식 51에 따라 각각을 변경한다.

다음에, 이들의 파워를 차 스펙트럼에 반영시킨다. 그 때문에, 중역에 곱하는 계수(이후, 계수 1)와 전역에 곱하는 계수(이후, 계수 2), 2개의 계수를 산출한다. 우선, 이하의 수학식 52에 나타내는 식에 의해 계수 1을 산출한다.

계수 2는 계수 1의 영향을 받기 때문에, 구하는 방법이 다소 복잡하게 된다. 순서를 이하에 나타낸다.

(1) 이전 프레임 평활화 파워(전역)가 이전 프레임 파워(중역)보다 작은 경우, 또는 현 프레임 노이즈 파워(전역)가 현 프레임 노이즈 파워(중역)보다 작은경우는 (2)로. 그 이외의 경우는 (3)으로.

(2) 계수 2는 0.0으로 하고, 이전 프레임 파워(전역)를 이전 프레임 파워(중 역)로 하여, (6)으로.

(3) 현 프레임 노이즈 파워(전역)가 현 프레임 노이즈 파워(중역)과 동일한 경우는 (4)로. 다른 경우는 (5)로.

(4) 계수 2를 1.0으로 하여, (6)으로.

(5) 이하의 수학식 53에 의해 계수 2를 구하여, (6)으로.

(6) 계수 2 산출 처리 종료.

상기 알고리즘에 의해 얻어진 계수 1, 2는 모두 상한을 1.0으로, 하한을 무음 파워 감소 계수로 고정(clipping)한다. 그리고, 중역의 주파수(본 예에서는 16∼79)의 차 스펙트럼에 계수 1을 곱해 얻어진 값을 차 스펙트럼으로 하고, 또한 그 차 스펙트럼의 전역에서 중역을 제외한 주파수(본 예에서는 0∼15, 80∼128)의 차 스펙트럼에 계수 2를 곱해 얻어진 값을 차 스펙트럼으로 한다. 이에 따라, 이전 프레임 파워(전역, 중역)를 이하의 수학식 54에 의해 변환한다.

이렇게 하여 얻어진 각종 파워 데이터 등을 모두 이전 스펙트럼 저장부(286)에 저장하고, (처리 2)를 종료한다.

이상과 같은 요령으로, 스펙트럼 안정화부(279)에 있어서의 스펙트럼 안정화가 실행된다.

다음에, 위상 조정 처리에 대하여 설명한다. 종래의 스펙트럼 삭감(subtraction)에 있어서는 위상을 원칙적으로 변경하지 않지만, 본 실시예에서는 그 주파수의 스펙트럼이 삭감시에 보상된 경우, 위상을 랜덤하게 변경하는 처리를 실행한다. 이 처리에 의해, 잔여 노이즈의 랜덤성이 강하게 되기 때문에, 청감적으로 나쁜 인상을 주지 않게 된다고 하는 효과를 얻을 수 있다.

우선, 난수 위상 저장부(287)에 저장된 난수 위상 카운터를 얻는다. 그리고, 모든 주파수의 플래그 데이터(보상 유무를 나타낸 데이터)를 참조하여, 보상하고 있는 경우에는 이하의 수학식 55에 의해 퓨리에 변환부(277)에서 얻어진 복소 스펙트럼의 위상을 회전시킨다.

수학식 55에 있어서는, 2개의 난수 위상 데이터를 한 쌍으로 사용하고 있다. 따라서, 상기 처리를 1회 실행할 때마다 난수 위상 카운터를 2씩 증가시켜, 상한(본 실시예에서는 16)으로 된 경우에는 0으로 한다. 또, 난수 위상 카운터는 난수 위상 저장부(287)에 저장하고, 얻어진 복소 스펙트럼은 역퓨리에 변환부(280)로 보낸다. 또한, 차 스펙트럼의 총합을 구하여(이하, 차 스펙트럼 파워), 이것을 스펙트럼 강조부(281)로 보낸다.

역퓨리에 변환부(280)에서는, 스펙트럼 안정화부(279)에서 얻어진 차 스펙트럼의 진폭과 복소 스펙트럼의 위상에 근거하여, 새로운 복소 스펙트럼을 구성해 FFT를 이용하여 역퓨리에 변환을 행한다(얻어진 신호를 제 1 차 출력 신호라고 함). 그리고, 얻어진 제 1 차 출력 신호를 스펙트럼 강조부(281)로 보낸다.

다음에, 스펙트럼 강조부(281)에 있어서의 처리에 대하여 설명한다.

우선, 노이즈 스펙트럼 저장부(285)에 저장된 평균 노이즈 파워와, 스펙트럼 안정화부(279)에서 얻어진 차 스펙트럼 파워와, 상수인 노이즈 기준 파워를 참조하여, MA 강조 계수와 AR 강조 계수를 선택한다. 선택은 이하의 2개 조건을 평가하는 것에 의해 실행한다.

(조건 1)

차 스펙트럼 파워가 노이즈 스펙트럼 저장부(285)에 저장된 평균 노이즈 파워에 0.6을 곱한 값보다 크고, 또한 평균 노이즈 파워가 노이즈 기준 파워보다 크다.

(조건 2)

차 스펙트럼 파워가 평균 노이즈 파워보다 크다.

조건 1을 만족하는 경우에는, 이것을 「유성(有聲) 구간」으로 하여, MA 강조 계수를 MA 강조 계수 1-1로 하고, AR 강조 계수를 AR 강조 계수 1-1로 하며, 고역 강조 계수를 고역 강조 계수 1로 한다. 또한, 조건 1을 만족하지 않고, 조건 2을 만족하는 경우에는, 이를 「무성 자음 구간」으로 하여, MA 강조 계수를 MA 강조 계수 1-0으로 하고, AR 강조 계수를 AR 강조 계수 1-0으로 하며, 고역 강조 계수를 0으로 한다. 또한, 조건 1을 만족하지 않고, 조건 2를 만족하지 않는 경우에는 이를 「무음 구간, 노이즈만의 구간」으로 하여, MA 강조 계수를 MA 강조 계수 0으로 하고, AR 강조 계수를 AR 강조 계수 0으로 하며, 고역 강조 계수를 고역 강조 계수 0으로 한다.

그리고, LPC 분석부(276)로부터 얻어진 선형 예측 계수와, 상기 MA 강조 계수, AR 강조 계수를 이용하여, 이하의 수학식 56의 식에 근거해 극(極) 강조 필터의 MA 계수와 AR 계수를 산출한다.

그리고, 역퓨리에 변환부(280)에 있어서 얻어진 제 1 차 출력 신호에 대하여, 상기 MA 계수와 AR 계수를 이용해 극 강조 필터를 가한다. 이 필터의 전달 함수를 이하의 수학식 57에 나타낸다.

또한, 고역 성분을 강조하기 위하여, 상기 고역 강조 계수를 이용해 고역 강조 필터를 가한다. 이 필터의 전달 함수를 이하의 수학식 58에 나타낸다.

상기 처리에 의해 얻어진 신호를 제 2 차 출력 신호라고 부른다. 또, 필터의 상태는 스펙트럼 강조부(281)의 내부에 보존된다.

마지막으로, 파형 정합부(282)에 있어서, 스펙트럼 강조부(281)에서 얻어진 제 2 차 출력 신호와 이전 파형 저장부(288)에 저장된 신호를, 삼각 윈도우에 의해 서로 중첩(overlap)시켜 출력 신호를 얻는다. 또한, 이 출력 신호 최후의 선 판독 데이터 길이분의 데이터를 이전 파형 저장부(288)에 저장한다. 이 때의 정합 방법을 이하의 수학식 59에 나타낸다.

여기서 주의할 것은, 출력 신호로서는 선 판독 데이터 길이+프레임 길이분의 데이터가 출력되지만, 이 중 신호로서 취급할 수 있는 것은 데이터의 개시단으로부터 프레임 길이의 길이 구간뿐이라는 것이다. 왜냐하면, 뒤쪽 선 판독 데이터 길이의 데이터는 다음 출력 신호를 출력할 때 리라이트(rewrite)되기 때문이다. 단, 출력 신호의 전체 구간내에서는 연속성이 보상되기 때문에, LPC 분석이나 필터 분석 등의 주파수 분석에는 사용할 수 있다.

이러한 실시예에 따르면, 음성 구간중에서나 음성 구간외에서나 노이즈 스펙트럼 추정이 가능하여, 음성이 어떤 타이밍에서 데이터중에 존재하는지가 명확하지 않은 경우에 있어서도 노이즈 스펙트럼을 추정할 수 있다.

또한, 입력의 스펙트럼 포락(包絡)의 특징을 선형 예측 계수에 의해 강조할 수 있어, 노이즈 레벨이 높은 경우에도 음질의 열화를 방지할 수 있다.

또한, 노이즈의 스펙트럼을 평균과 최저의 2개 방향으로부터 추정할 수 있어, 보다 적확(的確)한 삭감 처리를 실행할 수 있다.

또한, 노이즈의 평균 스펙트럼을 삭감에 이용함으로써, 노이즈 스펙트럼을 보다 크게 삭감할 수 있으며, 또한 보상용 스펙트럼을 별도로 추정함으로써 보다 적확한 보상이 가능하다.

그리고, 음성이 포함되어 있지 않은 노이즈만의 구간의 스펙트럼을 평활(smoothing)하게 할 수 있어, 동일 구간의 스펙트럼이, 노이즈 삭감을 위해 극단적인 스펙트럼 변동에 의한 이음감을 방지할 수 있다.

그리고, 보상된 주파수 성분의 위상에 랜덤성을 갖게 할 수 있어, 삭감할 수 없어서 남은 노이즈를 청감적으로 이음감이 적은 노이즈로 변환시킬 수 있다.

또한, 음성 구간에 있어서는 청감적으로 보다 적절한 가중을 실행할 수 있게 되며, 무음 구간이나 무성 자음 구간에 있어서는 청감 가중에 의한 이음감을 억제할 수 있다.

이상과 같이, 본 발명에 따른 음원 벡터 생성 장치 및 음성 부호화 장치 및 음성 복호화 장치는 음원 벡터의 탐색에 유용하고, 음성 품질의 향상에 적합하다.

Claims

각각이 미리 결정된 위치 및 미리 결정된 극성을 갖는 적어도 하나의 펄스를 구비한 입력 벡터를 제공하는 제공 시스템과,

복수의 고정 파형을 저장하는 저장 시스템과,

상기 입력 벡터의 파형을 변환하기 위해 상기 복수의 고정 파형 중 하나의 고정 파형으로 상기 입력 벡터를 변형시키는 콘볼루션 시스템을 포함하되,

상기 콘볼루션 시스템은 잡음 부호 벡터(a random code vector)가 상기 입력 벡터로 복호화될 때 음질을 개선하기 위해, 음원 벡터로서 상기 변환 입력 벡터를 출력하는

음원 벡터 생성 장치.
복수의 비제로(non-zero) 샘플들을 갖는 입력 벡터를 제공하는 제공 시스템과,

복수의 고정 파형을 저장하는 저장 시스템과,

상기 입력 벡터의 에너지 분포를 변형시키기 위해, 상기 복수의 고정 파형 중 하나의 고정 파형으로 상기 입력 벡터를 변환하는 콘볼루션 시스템을 포함하되,

상기 콘볼루션 시스템은 잡음 부호 벡터가 상기 입력 벡터로 복호화될 때 음질을 개선하기 위해, 음원 벡터로서 상기 변환 입력 벡터를 출력하는

음원 벡터 생성 장치.
각각이 미리 결정된 위치 및 미리 결정된 극성을 갖는 적어도 하나의 펄스를 구비한 입력 임펄스 벡터를 제공하는 단계와,

기저장된 복수의 고정 파형 중 하나를 판독해 내는 단계와,

변환 음원 벡터가 생성되도록 적어도 하나의 상기 고정 파형으로 상기 입력 벡터를 콘볼루션하는 단계를 포함하되,

잡음 부호 벡터가 상기 입력 벡터로 복호화될 때 음질을 개선하기 위해, 상기 변환 음원 벡터가 출력되는

음원 벡터 생성 방법.