WO2000000963A1

WO2000000963A1 - Codeur vocal

Info

Publication number: WO2000000963A1
Application number: PCT/JP1999/003492
Authority: WO
Inventors: Kazunori Ozawa
Original assignee: Nec Corporation
Priority date: 1998-06-30
Filing date: 1999-06-29
Publication date: 2000-01-06
Also published as: CA2336360C; CA2336360A1; EP1093230A1; US6973424B1; EP1093230A4

Description

明細書音声符号化装置技術分野

本発明は、音声符号化装置に関し、特に音声信号を低いビットレートで高品質に符号化するための音声符号化装置に関する。背景技術

従来、音声信号を高能率に符号化する方式として、 CELP Code Ex c i t ed L i nea r Pr ed i c t i ve Cod i ng) が知られている。 CEL Pは、例えば、 M. Schr o ede r及び B. A t a 1氏による論文 "Code— exc i t ed l i near p r ed i c t i on ; H i gh qua l i ty sp e e ch a t ve ry l ow b i t r a t e s" (P r o c. I CASS P, pp. 937— 940, 1985 ：以下、参考文献 1) や、 K 1 e i j n氏らによる論文 "Imp r oved s p e e ch qua l i ty and e f f i c i ent ve c t o r q u ant i za t i on i n CELP" (P r o c. I CAS S P, PP. 155-158, 1988：以下参考文献 2) などに記載されている。

この CELP符号化方式において、送信側は、まず、フレーム毎（例えば 20 ms) に音声信号から線形予測（LPC) 分析を用いて、音声信号のスペクトル特性を表すスペクトルパラメータを抽出する。次いで、フレームをさらにサブフレーム（例えば 5ms) に分割し、サブフレーム毎に過去の音源信号を基に適応コードブックにおけるパラメ一夕（ピツチ周期に対応する遅延パラメ一夕とゲインパラメータ）を抽出し、適応コードブックにより前記サブフレームの音声信号をピッチ予測する。

ピッチ予測して求めた音源信号に対して、予め定められた種類の雑音信号からなる音源コ一ブック（ベクトル量子化コードブック）から最適な音源コードべクトルを選択し、最適なゲインを計算すると、量子化した音源信号が得られる。音源コードべクトルの選択は、その選択された雑音信号により合成した信号と、前記残差信号との誤差電力を最小化するようにして、行われる。そして、選択されたコードベクトルの種類を表すインデクス及びゲイン、並びに、前記スぺクトルパラメ一タ及び適応コードブックのパラメータをマルチプレクサ部により組み合わせて伝送する。なお、受信側の説明は省略する。

しかしながら、上述の従来の符号化方式によると、大別して、 2つの問題が生じていた。

そのうちの一つは、音源コードブックから最適な音源コードべクトルを選択するのに多大な演算量を要するという問題である。これは、上記参考文献 1や参考文献 2記載の方法では、音源コードベクトルを選択するために、各コードべクトルに対して、一旦フィルタリングもしくは畳み込み演算を行ない、この演算をコ —ドブックに格納されているコードべクトルの個数だけ繰り返すことに起因する。例えば、コードブックのビット数が Bビットで、次元数が Nの場合に、フィルタリングあるいは畳み込み演算のときのフィルタあるいはィンパルス応答長をとすると、演算量は 1秒当たり、 NxKx 2B X 8000ZNだけ必要となる。一例として、 B= 10、 N=40、 k= 10の場合を考慮すると、 1秒当たり 81, 920， 000回の演算が必要であり、極めて膨大であることが理解される。

音源コードブック探索に必要な演算量の低減を図るための方法として、従来より、種々の方法が提案されている。例えば、 ACELP (Ar g e b r a i c Co d e Exc i t e d L i ne a r Pr e d i c t i on) 方式が提案されている。これは、例えば、 C. L a f 1 amme氏らによる論文 "16 kb p s w i d e b a nd s p e e c h c o d i ng t e c hn i q u e ba s e d on a l geb r a i c CELP" (P r o c. I C AS S P, PP. 13-16, 1991 ：以下、参考文献 3) 等に記載されている。

上記参考文献 3の方法によれば、音源信号は、複数個のパルスで表され、更に各パルスの位置が予め定められたビット数で表されて、伝送される。ここで、各パルスの振幅は、 + 1. 0もしくは一 1..0に限定されている。従って、参考文献 3に記載された方法によれば、パルス探索の演算量は大幅に低減化され得る。他の一つは、 8 k b/s以上のビットレートでは良好な音質が得られるが、それ未満のビットレートでは、特に音声に背景雑音が重畳している場合に、符号化音声の背景雑音部分の音質が極めて劣化する、という問題である。

この理由は、次の通りである。音源信号は、複数個のパルスの組合せで表される。そのため、音声の母音区間においては、パルスがピッチの開始点であるピッチパルスの近辺に集中することとなる。従って、音声信号を少ない個数のパルスで効率的に表すことは可能である。一方、背景雑音のようなランダム信号に対しては、パルスをランダムに立てる必要があるため、少ない個数のパルスで、背景雑音を良好に表すことは困難である。従って、ビットレートを低減化し、パルスの個数を削減してしまうと、背景雑音に対する音質が急激に劣化することとなる。それ故、本発明の目的は、上記問題点を解決し、ビットレートが低い場合にも、比較的少ない演算量で、特に背景雑音に対する音質の劣化の少ない音声符号化装置を提供することにある。発明の開示

前記目的を達成するため、本発明の第一の側面による音声符号化装置は、音声信号を入力されスぺクトルパラメータを求めて量子化するスぺクトルパラメータ計算部と、過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め音声信号を予測して残差を求める適応コードブック部と、前記スぺクトルパラメータを用いて前記音声信号の音源信号を量子化して出力する音源量子化部と、を備える音声符号化装置において、前記音声信号からその特徴を抽出してモードを判別する判別部と、前記判別部の出力が予め定められたモードである場合に音源信号を複数個の非零のパルスの組合せで表わし、前記パルスの振幅もしくは極性をまとめて量子化するコードブックを有し、前記コードブックに格納されるコ一ドべクトルと前記パルスの位置をシフトする複数のシフト量とを組み合わせて探索し、入力音声との歪みを最小にするコ一ドべクトルとシフト量の組合せを出力する音源量子化部と、前記スペクトルパラメータ計算部の出力と、前記判別部の出力と、前記適応コードブック部の出力と、前記音源量子化部の出力と、を組み合わせて出力するマルチプレクサ部と、を備える。

本発明の第二の側面による音声符号化装置は、前記音声信号から特徴を抽出してモードを判別する判別部と、前記判別部の出力が予め定められたモードである場合に、音源信号を複数個の非零のパルスの組合せで表わし、前記パルスの振幅もしくは極性をまとめて量子化するコードブックを有し、予め定められた規則により前記パルスの位置を発生し入力音声との歪みを最小にするコードべクトルを出力する音源量子化部と、前記スぺクトルパラメータ計算部の出力と前記判別部の出力と前記適応コ一ドブック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチプレクサ部と、を有する。

本発明の第三の側面による音声符号化装置は、前記音声信号から特徴を抽出してモードを判別する判別部と、前記判別部の出力が予め定められたモードである場合に音源信号を複数個の非零のパルスの組合せで表わし、前記パルスの振幅もしくは極性をまとめて量子化するコードブックとゲインを量子化するゲインコードブックを有し、前記コードブックに格納されるコードベクトルと、前記パルスの位置をシフトする複数のシフト量と、前記ゲインコードブックに格納されるゲィンコードべクトルとを組み合わせて探索し、入力音声との歪みを最小にするコ一ドべクトルとシフト量とゲインコ一ドべクトルの組合せを出力する音源量子化部と、前記スペクトルパラメータ計算部の出力と、前記判別部の出力と、前記適応コードブック部の出力と、前記音源量子化部の出力と、を組み合わせて出力するマルチプレクサ部と、を有する。

本発明の第四の側面による音声符号化装置は、前記音声信号から特徴を抽出してモードを判別する判別部と、前記判別部の出力が予め定められたモードである場合に音源信号を複数個の非零のパルスの組合せで表わし、前記パルスの振幅もしくは極性をまとめて量子化するコードブックとゲインを量子化するゲインコードブックを有し、予め定められた規則により前記パルスの位置を発生し入力音声との歪みを最小にするコ一ドべクトルとゲインコードべクトルの組合せを出力する音源量子化部と、前記スペクトルパラメータ計算部の出力と、前記前記判別部の出力と、前記適応コードブック部の出力と、前記音源量子化部の出力と、を組み合わせて出力するマルチプレクサ部と、を有する。図面の簡単な説明第 1図は、本発明の第 1の実施例の構成を示すプロック図であり、

第 2図は、本発明の第 2の実施例の構成を示すブロック図であり、

第 3図は、本発明の第 3の実施例の構成を示すプロック図であり、

第 4図は、本発明の第 4の実施例の構成を示すブロック図であり、

第 5図は、本発明の第 5の実施例の構成を示すブロック図である。発明を実施するための最良の形態

本発明の実施の形態について以下に説明する。

本発明の一の実施の形態による音声符号化装置において、モード判別回路（第 1図の 8 0 0 ) は、音声信号から特徴量を抽出し、その特徴量をもとに、モードを判別する。音源量子化回路（第 1図の 3 5 0 ) は、判別されたモードが予め定められたモードの場合、複数個のパルスの振幅もしくは極性をまとめて量子化するコードブック（第 1図の 3 5 1、 3 5 2 ) に格納されるコードベクトルと、予め定められたパルスの位置を時間的にシフ卜する複数のシフト量の各々とを組み合わせて探索し、入力音声との歪みを最小にするコードべクトルとシフト量の組合せを選択する。ゲイン量子化回路（第 1図の 3 6 5 ) は、ゲインコードブック (第 1図の 3 8 0 ) を用いてゲインを量子化する。マルチプレクサ部（第 1図の 4 0 0 ) は、スペクトルパラメ一夕計算部（第 1図の 2 1 0 ) の出力と、モード判別部（第 1図の 8 0 0 ) の出力と、適応コードブック回路（第 1図の 5 0 0 ) の出力と、音源量子化部（第 1図の 3 5 0 ) の出力と、ゲイン量子化回路の出力とを組み合わせて出力する。

本発明の好ましい一の実施の形態による音声復号化装置において、デマルチプレクサ部 5 1 0は、入力端子から入力された符号系列を分離し、スペクトルパラメータ、適応コードブックの遅延、適応コードベクトル、及び音源のゲイン、音源情報としての振幅若しくは極性コードベクトル及びパルスの位置を表す符号とを分離して出力する。モード判別部（第 5図の 5 3 0 ) は、適応コードブックにおける過去の量子化されたゲインを用いてモードを判別する。音源信号復元部

(第 5図の 5 4 0 ) は、モード判別部の出力が予め定められたモードの場合、量子化された音源情報から非零のパルスを発生して音源信号を復元する。このような音声復号化装置は、合成フィルタ部（第 5図の 560) に前記音源信号を通して音声信号を再生する。本発明の実施例について図面を参照して以下に説明する。

第 1図は、本発明の音声符号化装置の一実施例の構成を示すプロック図である。第 1図を参照すると、入力端子 100から音声信号が入力されると、フレーム分割回路 1 10は音声信号をフレーム（例えば 20 m) 単位に分割し、サブフレーム分割回路 120はそのフレーム信号としての音声信号をフレームよりも短いサブフレーム（例えば 5ms) 単位に分割する。

スぺクトルパラメ一タ計算回路 200では、少なくとも一つのサブフレームの音声信号に対して、サブフレーム長よりも長い窓（例えば 24ms) をかけて音声を切り出し、それにより、スペクトルパラメータを予め定められた次数（例えば P= 10次）計算する。ここで、スペクトルパラメータの計算には、周知の L PC (線形予測符号化）分析や、 Bu r g分析等を用いることができる。本実施例においては、 Bu r g分析を用いることとする。なお、 Bu r g分析の詳細については、中溝著による「信号解析とシステム同定」（コロナ社 1988年刊）の第 82〜87頁（以下、参考文献 4) 等の記載を参照されたい。この参考文献 4 の記載は、それを参照することにより、本明細書の一部をなす。

さらに、スペクトルパラメ一タ計算部 210では、 Bu r g法により計算された線形予測係数 ct i (i = 1, ···, 10) を量子化や補間に適した LSPパラメ一夕に変換する。ここで、線形予測係数から LSPへの変換は、菅村他による論文

"線スペクトル対（LSP) 音声分析合成方式による音声情報圧縮" （電子通信学会論文誌、 J 64— A、 p p. 599— 606、 1 981年：以下、参考文献 5) を参照することができる。例えば、第 2、 4サブフレームで Bu r g法により求めた線形予測係数を、 LSPパラメータに変換し、第 1、 3サブフレームの LSPを直線補間により求めて、第 1、 3サブフレームの LSPを逆変換して線形予測係数に戻し、第 1—4サブフレームの線形予測係数 H (i =1, -·, 1 0 ； 1 =1, ···, 5) を聴感重み付け回路 230に出力する。また、第 4サブフレームの LSPをスぺクトルパラメータ量子化回路 210へ出力する。スぺクトルパラメータ量子化回路 210では、予め定められたサブフレームの LSPパラメータを効率的に量子化し、次式（1) の歪みを最小化する量子化値を出力する。

ここで、 LSP (i), QLSP (i ) j、 W (i) はそれぞれ、量子化前の i 次目の LSP、量子化後の j番目の結果、重み係数である。

以下では、量子化法として、ベクトル量子化を用いるものとし、第 4サブフレームの LSPパラメータを量子化するものとする。 LSPパラメータのべクトル量子化の手法は周知の手法を用いることができる。具体的な方法は、例えば、特開平 4— 171500号公報（特願平 2_297600号：以下、参考文献 6)、特開平 4 -363000号公報（特願平 3— 261 925号：以下、参考文献

7)、特開平 5 -6199号公報（特願平 3— 155049号：以下、参考文献

8) や、 T. Nomu r a e t a 1 による論文 "LSP Co d i ng Us i ng VQ- S VQ Wi t h I n t e r p o l a t i on i n 4. 075 k b p s M-LCELP S e e c h C o d e r" (P r o c. Mob i l e Mu l t ime d i a Co mm un i c a t i ons, pp. B. 2. 5， 1993 ：以下、参考文献 9) 等に開示されている。これら参考文献に記載された内容は、それを参照することにより、本明細書の一部をなす。スぺクトルパラメ一夕量子化回路 210は、第 4サブフレームで量子化した L S Pパラメータをもとに、第 1〜第 4サブフレームの L S Pパラメータを復元する。ここでは、スペクトルパラメータ量子化回路 210は、現フレームの第 4サブフレームの量子化 LSPパラメータと 1つ過去のフレームの第 4サブフレームめ量子化 L S Pを直線補間して、第 1〜第 3サブフレームの L S Pを復元する。ここで、スペクトルパラメータ量子化回路 210は、量子化前の LSPと量子化後の L S Pとの誤差電力を最小化するコードベクトルを 1種類選択した後に、直線補間により第 1〜第 4サブフレームの LSFを復元できる。さらに性能を向上させるために、スぺクトルパラメータ量子化回路 210が、前記誤差電力を最小化するコードベクトルを複数候補選択したのちに、各々の候補について、累積歪を評価し、累積歪を最小化する候補と補間 L S Pの組を選択するようにすることができる。これに関連する技術の詳細は、例えば、特願平 5— 8737号明細書 (以下、参考文献 10) に開示されている。この参考文献 10に記載された内容は、それを参照することにより、本明細書の一部をなす。

スぺクトルパラメータ量子化回路 210は、このようにして復元した第 1 ~3 サブフレームの L S Pと第 4サブフレームの量子化 L S Fをサブフレーム毎に線形予測係数 ( i = 1, ···, 10 ; 1 = 1, ···, 5) に変換し、インパルス応答計算回路 310へ出力する。また、スぺクトルパラメータ量子化回路 210は、第 4サブフレームの量子化 L S Pのコ一ドべクトルを表すインデクスをマルチプレクサ 400に出力する。

聴感重み付け回路 230は、スペクトルパラメ一夕計算回路 200から、各サブフレーム毎に量子化前の線形予測係数 i (i = l， ···, 10 : 1 = 1, '··, 5) を入力されると、前記参考文献 1にもとづき、サブフレームの音声信号に対して聴感重み付けを行い、聴感重み付け信号を出力する。

応答信号計算回路 240は、スペクトルパラメ一タ計算回路 200から、各サブフレーム毎に線形予測係数 α； iを入力され、スぺクトルパラメータ量子化回路 210から、量子化、補間して復元した線形予測係数をサブフレーム毎に入力されて、保存されているフィルタメモリの値を用いて、入力信号を零 d (n) =0とした応答信号を 1サブフレーム分計算し、減算器 235へ出力する。ここで、応答信号 x_z (n) は下式で表される。

10 10 10

xAⁿ) = ("） - > , ("一 t yin— !·)+〉， x_x{n-i) (2)

/=1 】 ' 1

但し、 n— i≤0のときは

y(n-i) = p(N + (n-i)) (3)

^("—り = + ("— )) (4)

ここで、 Nはサブフレーム長を示す。アは、聴感重み付け量を制御する重み係数であり、下記の式（7) と同一の値である。 s_w (n)、 p (n) は、それぞれ、重み付け信号計算回路の出力信号、後述の式（7) における右辺第 1項のフィル夕の分母の項の出力信号をそれぞれ示す。

減算器 235は、次式（5) により、聴感重み付け信号から応答信号を 1サブフレーム分減算し、 x' _w (n) を適応コードブック回路 300へ出力する。 '，,,（"） = （"）— "） (5)

インパルス応答計算回路 310は、 z変換が次式（6) で表される伝達函数 H_w (z) を有する聴感重み付けフィルタのインパルス応答 h_w (n) を予め定められた点数 Lだけ計算し、適応コードブック回路 500、音源量子化回路 350へ出力する。

10

卜 ",ζ- '

H_w (Z) =— # · —— (6)

7=1 /=1

モード判別回路 800は、サブフレーム分割回路 120の出力信号を用いて、特徴量を抽出し、サブフレーム毎に有声か無声かの判別を行う。ここで、特徴としては、ピッチ予測ゲインを用いることができる。モード判別回路 800は、サブフレーム毎に求めたピッチ予測ゲインの値と予め定められたしきい値を比較し、ピッチ予測ゲインがしきい値より大きければ有声、さもなければ無声と判断する。モ一ド判別回路 800は、有声 ·無声判別情報を音源量子化回路 350とゲイン量子化回路 365とマルチプレクサ 400へ出力する。

適応コードブック回路 500は、ゲイン量子化回路 365から過去の音源信号 V (η) を、減算器 235から出力信号 X' _w (n) を、インパルス応答計算回路 310から聴感重み付けインパルス応答 h_w (n) を入力される。これらの信号を受けると、適応コードブック回路 500は、ピッチに対応する遅延 Tを次式 (7) の歪み D_Tを最小化するように求め、遅延を表すインデクスをマルチプレクサ 400に出力する。 D_T =∑ (")一 [∑ '_w (n)y_w (n― T)f — Γ)] (7)

«=0 n- w=0

y_w{n-T) = v(n-T)*h_w{n) (8)

式（8) において、記号ネは畳み込み演算を表す。

そしてゲイン /3を次式（9) に従い求める。

N - N-1

β =∑ ( , (" - Γ) /∑ (" - Γ) (9) ここで、女性音や、子供の声に対して、遅延の抽出精度を向上させるために、遅延を整数サンプルではなく、小数サンプル値で求めてもよい。具体的な方法は、例えば、 P. K r ο ο ηらによる論文 "P i t c h p r e— d i c t o r s w i t h h i gh t emp o r a l r e s o l u t i o n (P r o c. I CASS P, p p. 661—664， 1990年：以下、参考文献 1 1 ) 等に開示されている。この参考文献 1 1は、それを参照することにより、本明細書の一部をなす。

さらに、適応コードブック回路 500は、次式（10) に従いピッチ予測を行ない、予測残差信号 e_w (n) を音源量子化回路 350へ出力する。 e_w{n) = x _t (η)-βν(η-Τ)*Κ(η)

音源量子化回路 350は、モード判別回路 800からの有声 ·無声判別情報を入力され、有声と無声でパルスを切替える。

有声では、 Μ個のパルスをたてるとする。

有声では、パルスの振幅を Μパルス分まとめて量子化するための、 Βビットの振幅コードブック、もしくは極性コードブックを有しているものとする。以下では、極性コードブックを用いる場合について説明する。

この極性コードブックは、有声の場合は音源コードブック 351に、無声の場合は音源コードブック 352に格納されている。

有声では、音源量子化回路 350は、音源コードブック 351から極性コードベクトルを読みだし、各コードベクトルに対して位置をあてはめ、次式（1 1) の D_Kを最小化するコ一ドべクトルと位置の組合せを選択する ₍

ここで、 h_w (n) は、聴感重み付けインパルス応答である。

上式（1 1) を最小化するには、次式（12) の D (_k. uを最大化する振幅コ一ドべクトル kと位置 miの組合せを求めれば良い。

D_{(k )} = [ （ , ) •(12)

ここで、 s_wk (_mi) は、式（11) の右辺の総和における第 2項、即ち g' i _kh_w (n-rrii) の総和で計算される。

または、次式（13) の D (_k, i)を最大化するように選択しても良い。この方が分子に計算に要する演算量が低減化される。

N-l

Φ(η) = X e_w {ι) (— ")," = 0,〜.. ,Ν - \ (14) ここで、有声の場合の各パルスのとり得る位置は、演算量削減のため、上記参考文献 3に示すように、拘束することができる。一例として、 Ν=40、 Μ=5 とすると、各パルスのとり得る位置は、表 1のようになる。

表 1

0， 5， 10, 15, 20, 25， 30, 35，

1, 6, 11， 16, 21, 26, 31, 36,

2, 7, 12, 17, 22, 27, 32, 37,

3, 8, 13. 18, 23, 28, 33, 38,

4, 9, 14, 19, 24, 29, 34, 39，そして、音源量子化回路 350は、コードベクトルを表すインデクスをマルチプレクサ 400に出力する。さらに、音源量子化回路 350は、パルスの位置を予め定められたビット数で量子化し、位置を表すィンデクスをマルチプレクサ 400に出力する。

無声では、表 2に示すように、パルスの位置を一定の間隔で定め、パルス全体の位置をシフトさせるためのシフト量を定めておく。以下の例の場合、音源量子化回路 350は、 1サンプルずつシフトさせるとして、 4種類のシフト量（シフト 0、シフト 1、シフト 2、シフト 3) を用いることができる。また、この場合、音源量子化回路 350は、シフト量を 2ビットで量子化して伝送する。

表 2

パルスの位置

0, 4, 8, 12， 16， 20, 24, 28, さらに、音源量子化回路 350は、各々のシフト量に対して、極性コードブック 352から極性コードべクトルを入力し、全てのシフト量と全てのコ一ドべクトルの組合せ探索を行ない、次式（15) の歪み D_k. jを最小化するシフト量 (5 ( j ) とコードベクトル g_kの組合せを選択する。

N-\ M

D_kj =∑ [e_w (n) - X g _k K ("― m, - ^ゾ) )]² .(15)

«=0 =1

音源量子化回路 350は、選択されたコ一ドべクトルを表すィンデタスとシフト量を表す符号をマルチプレクサ 400に出力する。

なお、複数パルスの振幅を量子化するためのコードブックを、音声信号を用いて予め学習して格納しておくようにしてもよい。コードブックの学習法は、例えば、 L i n d e氏らによる論文 "An a l g o r i t hm f o r ve c t o r q u a n t i z a t i o n d e s i gn, (I EEE Tr a n s. C ommu n., pp. 84— 95, J a nu r y, 1980 ：以下、参考文献 12) 等に開示されている。この参考文献 12は、それを参照することにより、本明細書の一部をなす。

有声 ·無声の場合の振幅、位置の情報は、ゲイン量子化回路 365に出力される。

ゲイン量子化回路 365は、音源量子化回路 350から振幅、位置情報を入力され、モード判別回路 8 0 0から有声 ·無声判別情報を入力される。

また、ゲイン量子化回路 3 6 5は、ゲインコードブック 3 8 0からゲインコードべクトルを読み出し、選択された振幅コードべクトルもしくは極性コードべクトルと位置に対して、次式（1 6 ) の D_Kを最小化するようにゲインコードべクトルを選択する。

ここでは、ゲイン量子化回路 3 6 5が、適応コードブックのゲインとパルスで表した音源のゲインの両者を同時にべクトル量子化する例について示す。

ゲイン量子化回路 3 6 5は、判別情報が有声の場合には、次式（1 6 ) の D _Kを最小化するようにゲインコードべクトルを求める。

N-] M

D_k =∑ [x_w {n)― β ν(η - Τ) * h、、, (η) - G ∑ g'，_k K (" - " )]² ·… ·ひ 6)

n=0 ;=1

ここで、 j3 _k、 G _kは、ゲインコードブック 3 5 5に格納された 2次元ゲインコ一ドブックにおける k番目のコードべクトルである。ゲイン量子化回路 3 6 5は、選択されたゲインコードべクトルを表すィンデクスをマルチプレクサ 4 0 0に出力する。

一方、判別情報が無声の場合、ゲイン量子化回路 3 6 5は、次式（1 7 ) の D _K を最小化するよう、ゲインコードベクトルを探索する。

D_k =∑ [x_w(n)― β ν{η― Γ) * h_w(n)― G ∑ g _k K{n - m,― S(j)) …… (17) n=0 ;=1

ゲイン量子化回路 3 6 5は、選択されたゲインコードべクトルを表すィンデクスをマルチプレクサ 4 0 0に出力する。

重み付け信号計算回路 3 6 0は、有声 ·無声判別情報とそれぞれのィンデクスを入力され、インデクスからそれに対応するコードベクトルを読み出す。有声の場合、重み付け信号計算回路 3 6 0は、次式（1 8 ) に基づき駆動音源信号 V

(n) を求める。 M

v(n) = ^_iv(n-T) + G^g _kS(n-m_i) (18)

;=1

v (n) は適応コードブック回路 500に出力される。

無声の場合、重み付け信号計算回路 360は、次式（1 9) に基づき駆動音源信号 V (n) を求める。

M

ν(η) = β ν(η -Τ) + σ,^ g _k δ{η -m_t -S(j)) (19)

=1

v (η) は適応コードブック回路 500に出力される。

次に、重み付け信号計算回路 360は、スペクトルパラメータ計算回路 200 の出力パラメ一タ、及びスぺクトルパラメータ量子化回路 210の出力パラメ一タを用いて、次式（20) により、応答信号 s_w (n) をサブフレーム毎に計算し、応答信号計算回路 240へ出力する。

10 10 10

s_w (") = v(") - Z a_tv n - Ϊ) ρ{η - ) +∑ '^("- (²⁰)

=1 /'=1 ;=1

次に本発明の第 2の実施例について説明する。第 2図は、本発明の第 2の実施例の構成を示すプロック図である。

第 2図を参照すると、本発明の第 2の実施例においては、前記第 1の実施例と、音源量子化回路 355の動作が相違している。すなわち、本発明の第 2の実施例では、有声 .無声判別情報が無声の場合に、パルスの位置として、あらかじ定められた規則に従い発生した位置を使用する。

例えば、予め定められた個数（例えば Ml) のパルスの位置を乱数発生回路 6 00により発生させる。つまり、乱数発生器 600により発生された Ml個の数値をパルスの位置と考える。これにより発生された Ml個の位置を音源量子化回路 355に出力する。

音源量子化回路 355は、判別情報が有声の場合は、第 1図の音源量子化回路 350と同一の動作を行ない、無声の場合は、乱数発生回路 600から出力された位置に対して、音源コードブック 352を用いてパルスの振幅もしくは極性をまとめて量子化する。次に、本発明の第 3の実施例について説明する。第 3図は、本発明の第 3の実施例の構成を示すブロック図である。

第 3図を参照すると、音源量子化回路 3 5 6は、有声 ·無声判別情報が無声の場合、音源コ一ドブック 3 5 2の全てのコ一ドべクトルとパルスの位置のシフト量との全ての組合せについて、次式による歪みを計算し、次式（2 1 ) の D _k. j を最小にする順に、複数個の組合せを選択し、ゲイン量子化回路 3 6 6へ出力する。

D_kJ =∑[e_w (n) ~∑g _k KXn - m, - S(j))]² (21)

"=0 i=l

ゲイン量子化回路 3 6 6は、音源量子化回路 3 5 6に複数セッ卜の出力の各々に対し、ゲインコードブック 3 8 0を用いてゲインを量子化し、次式（2 2 ) の D _k. jを最小化するシフト量、音源コードベクトル、ゲインコードベクトルの組合せを選択する。

D_kJ =∑ [x_w (n) - β v(n - T) * h_w (") - J] g'_ik h_w ("― m, - S(j))]²…… (22) w=0 ;'=1

次に本発明の第 4の実施例について説明する。第 4図は、本発明の第 4の実施例の構成を示すプロック図である。

第 4図を参照すると、音源量子化回路 3 5 7は、有声 ·無声判別情報が無声の場合に、乱数発生器 6 0 0において発生されたパルスの位置に対して、音源コ一ドブック 3 5 2を用いてパルスの振幅もしくは極性をまとめて量子化し、全てのコードべクトル、もしくはコードべクトルの複数個の候補をゲイン量子化回路 3 6 7に出力する。

ゲイン量子化回路 3 6 7は、音源量子化回路 3 5 7から出力された候補の各々に対してゲインコードブック 3 8 0により、ゲインを量子化し、歪みを最小化するコードべクトルとゲインコードべクトルの組合せを出力する。次に本発明の第 5の実施例について説明する。第 5図は、本発明の第 5の実施例の構成を示すブロック図である。

第 5図を参照すると、デマルチプレクサ 5 1 0は、入力端子 5 0 0から入力された符号系列を分離し、スペクトルパラメータ、適応コードブックの遅延、適応コードベクトル、及び音源のゲインと、音源情報としての振幅若しくは極性コードべクトル及びパルスの位置とを表す符号を分離して、出力する。

ゲイン復号回路 5 1 0は、ゲインコードブック 3 8 0を用いて適応コードブックと音源のゲインを復号して出力する。

適応コードブック回路 5 2 0は、遅延と適応コ一ドべクトルのゲインを復号化し、過去のサブフレームでの合成フィルタ入力信号を用いて適応コードブック再生信号を発生する。

モード判別回路 5 3 0は、過去のサブフレームで復号した適応コードブックゲインを用いて、予め定められたしきい値と比較し、現在のサブフレームが有声か無声かを判別し、有声 ·無声判別情報を音源信号復元回路 5 4 0に出力する。音源信号復元回路 5 4 0は、有声 ·無声判別情報を入力されて、有声のときは、パルスの位置を復号し、音源コードブック 3 5 1からコードべクトルを読み出して振幅もしくは極性を与えて、サブフレーム当たり定められた個数のパルスを発生させて、音源信号を復元する。

一方、音源信号復元回路 5 4 0は、無声のときは、予め定められたパルスの位置とシフト量と振幅もしくは極性コードべクトルからパルスを発生させて、音源信号を復元する。

スペクトルパラメータ復号回路 5 7 0は、スペクトルパラメータを復号し、合成フィルタ回路 5 6 0へ出力する。

加算器 5 5 0は、適応コードブック出力信号と音源信号復号回路 5 4 0の出力信号を加算して、合成フィルタ回路 5 6 0へ出力する。

合成フィルタ回路 5 6 0は、加算器 5 5 0の出力を入力されて、音声を再生して端子 5 8 0から出力する。産業上の利用可能性

以上説明したように、本発明によれば、適応コードブックの過去の量子化ゲインをもとに、モードを判別し、予め定められたモードの場合に、複数個のパルスの振幅もしくは極性をまとめて量子化するコードブックに格納されるコードべクトルと予め定められたパルスの位置を時間的にシフトする複数のシフト量の各々とを組み合わせて探索し、入力音声との歪みを最小にするコードべクトルとシフト量の組合せを選択する構成としたことにより、ビットレートが低い場合にも、比較的少ない演算量で、背景雑音部分を良好に符号化することができる。

また、本発明によれば、コードベクトルと複数のシフト量の各々とゲインを量子化するためのゲインコ一ドブックに格納されるゲインコードべクトルとを組み合わせて探索し、入力音声との歪みを最小にするコードべクトルとシフト量とゲインコードべクトルの組合せを選択しているので、背景雑音の重畳された音声を低ビットレートで符号化した場合であっても、背景雑音部分を良好に符号化することができる。

Claims

請求の範囲

1 . 音声信号を入力され、スペクトルパラメータを求めて量子化するスペクトルパラメータ計算部と、

過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め、音声信号を予測して、残差を求める適応コードブック部と、

前記スぺクトルパラメータを用いて、前記音声信号の音源信号を量子化して出力する音源量子化部と、

を備える音声符号化装置において、

前記音声信号から特徴を抽出してモードを判別する判別部と、

前記判別部の出力が予め定められたモードである場合に、音源信号を複数個の非零のパルスの組合せで表わし、前記パルスの振幅もしくは極性をまとめて量子化するコードブックを有し、

前記コードプックに格納されるコードべクトルと前記パルスの位置をシフ卜する複数のシフト量とを組み合わせて探索し、入力音声との歪みを最小にするコードべクトルとシフト量の組合せを出力する音源量子化部と、

前記スぺクトルバラメータ計算部の出力と前記判別部の出力と前記適応コードブック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチプレクサ部と、を更に備えたことを特徴とする音声符号化装置。

2. 音声信号を入力され、スペクトルパラメータを求めて量子化するスペクトルパラメ一夕計算部と、

を備える音声符号化装置において、

前記音声信号から特徴を抽出してモードを判別する判別部と、前記判別部の出力が予め定められたモードである場合に、音源信号を複数個の非零のパルスの組合せで表わし、前記パルスの振幅もしくは極性をまとめて量子化するコ一ドブックを有し、

予め定められた規則により前記パルスの位置を発生し、入力音声との歪みを最小にするコードべクトルを出力する音源量子化部と、

前記スペクトルパラメータ計算部の出力と前記判別部の出力と前記適応コードブック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチプレクサ部と、

を更に有することを特徴とする音声符号化装置。

3 . 音声信号を入力され、スペクトルパラメ一タを求めて量子化するスペクトルパラメータ計算部と、

過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め、音声信号を予測して残差を求める適応コードブック部と、

前記スペクトルパラメータを用いて前記音声信号の音源信号を量子化して出力する音源量子化部と、

を備える音声符号化装置において、

前記判別部の出力が予め定められたモードである場合に、音源信号を複数個の非零のパルスの組合せで表わし、前記パルスの振幅もしくは極性をまとめて量子化するコードブックとゲインを量子化するゲインコードブックを有し、

前記コードブックに格納されるコードべクトルと、前記パルスの位置をシフトする複数のシフト量と、前記ゲインコードブックに格納されるゲインコードべクトルとを組み合わせて探索し、入力音声との歪みを最小にするコードべクトルとシフト量とゲインコードべクトルの組合せを出力する音源量子化部と、

前記スペクトルパラメータ計算部の出力と、前記判別部の出力と、前記適応コードブック部の出力と、前記音源量子化部の出力と、を組み合わせて出力するマルチプレクサ部と、

を備えることを特徴とする音声符号化装置。

4 . 音声信号を入力され、スペクトルパラメータを求めて量子化するスペクトルパラメ一タ計算部と、

を備える音声符号化装置において、

前記判別部の出力が予め定められたモ一ドである場合に、音源信号を複数個の非零のパルスの組合せで表わし、前記パルスの振幅もしくは極性をまとめて量子化するコードブックとゲインを量子化するゲインコードプックを有し、

予め定められた規則により前記パルスの位置を発生し、入力音声との歪みを最小にするコ一ドべクトルとゲインコードべクトルの組合せを出力する音源量子化部と、

前記スぺクトルバラメータ計算部の出力と前記前記判別部の出力と前記適応コ一ドブック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチプレクサ部と、

を備えることを特徴とする音声符号化装置。

5 . 音声信号を入力され、スペクトルパラメータを求めて量子化するスペクトルパラメータ計算手段と、

過去の量子化された音源信号から適応コ一ドブックにより遅延とゲインを求め、音声信号を予測して、残差を求める適応コードブック手段と、

前記音声信号からその特徴量を抽出し有声 ·無声等に関するモード判別を行なうモード判別手段と、

を備え、さらに、

前記スぺクトルパラメータを用いて前記音声信号の音源信号を量子化して出力する音源量子化手段であって、予め定められたモードの場合に、複数個のパルスの振幅もしくは極性をまとめて量子化するコードブックに格納されるコードべクトルと、予め定められたパルスの位置を時間的にシフトする複数のシフト量の各々とを組み合わせて探索し、入力音声との歪みを最小にするコ一ドべクトルのインデクスとシフト量の組合せを選択する音源量子化手段と、

ゲインコードブックを用いてゲインを量子化するゲイン量子化手段と、前記スペクトルパラメータ計算手段と前記適応コードブック手段と前記音源量子化手段と前記ゲイン量子化手段の各出力とを組み合わせて出力するマルチプレタス手段と、を備えることを特徴とする音声符号化装置。

6. 前記モード判別手段での判別が予め定められたモードの場合、前記音源量子化手段は、パルスの位置として、予め定められた規則に従い発生した位置を用いる

ことを特徴とする請求の範囲第 5項記載の音声符号化装置。

7. 予め定められた個数のパルスの位置を発生する乱数発生手段であって、前記モード判別手段での判別が予め定められたモードの場合に、前記発生された個数の位置を前記音源量子化手段に出力する乱数発生手段を更に備える、

8. 前記モード判別手段での判別が予め定められたモードの場合、前記音源量子化手段は、前記コードブックの全てのコードべクトルとパルスの位置のシフト量との全ての組合せについて所定の歪み量を最小にする順に複数個の組合せを選択してゲイン量子化手段へ出力し、

前記ゲイン量子化手段は、前記音源量子化手段からの複数セットの出力の各々に対し、ゲインコードブックを用いてゲインを量子化し、所定の歪み量を最小化するシフト量、音源コードベクトル、ゲインコードベクトルの組合せを選択する、ことを特徴とする請求の範囲第 5項記載の音声符号化装置。

9. 前記モード判別手段が、音声信号の前記特徴量としてピッチ予測ゲインを用い、サブフレーム毎に求めたピッチ予測ゲインの値と、予め定められたしきい値とを比較し、前記ピッチ予測ゲインが前記しきい値より大であれば有声、しきい値未満であれば無声と判断する、ことを特徴とする請求の範囲第 5項記載の音声符号化装置。

1 0. 前記予め定められたモードが無音であることを特徴とする請求の範囲第 5 項記載の音声符号化装置。

1 1 . 音声信号を入力され、スペクトルパラメータを求めて量子化するスぺクトルパラメータ計算部と、

前記判別部の出力が予め定められたモードである場合に、音源信号を複数個の非零のパルスの組合せで表わし、前記パルスの振幅もしくは極性をまとめて量子化するコ一ドブックと、

前記コードブックに格納されるコードべクトルと前記パルスの位置をシフトする複数のシフト量とを組み合わせて探索し、入力音声との歪みを最小にするコードべクトルとシフト量の組合せを出力する音源量子化部と、

前記スペクトルパラメータ計算部の出力と前記判別部の出力と前記適応コードブック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチプレクサ部と、を備えた音声符号化装置と、

前記音声符号化装置の符号化出力を入力され、スペクトルパラメータ、適応コ一ドブックの遅延、適応コードベクトル、及び音源のゲインと、音源情報としての、振幅若しくは極性コードベクトル、及びパルスの位置を表す符号とを分離して、出力するデマルチプレクサ手段と、

適応コードブックにおける過去の量子化されたゲインを用いてモードを判別するモード判別手段と、

前記モード判別手段の出力が予め定められたモ一ドの場合に、予め定められた規則によりパルスの位置を発生し、コードべクトルから前記パルスの振幅もしくは極性を発生して、音源信号を復元する音源信号復元手段と、

前記音源信号を通して音声信号を再生する合成フィルタ部と、

を備えたことを特徴とする音声符号化復号化装置。

1 2. 音声信号を入力され、スペクトルパラメータを求めて量子化するスぺクトルパラメータ計算部と、

前記スペクトルパラメ一タ計算部の出力と前記判別部の出力と前記適応コードブック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチプレクサ部と、を有する音声符号化装置と、

前記音声符号化装置の符号化出力を入力され、スペクトルパラメータ、適応コ —ドブックの遅延、適応コードベクトル、及び音源のゲインと、音源情報としての、振幅若しくは極性コードベクトル、及びパルスの位置を表す符号とを分離して、出力するデマルチプレクサ手段と、

前記モード判別手段の出力が予め定められたモードの場合に、予め定められた規則によりパルスの位置を発生し、コードべクトルから前記パルスの振幅もしくは極性を発生して、音源信号を復元する音源信号復元手段と、

を備えたことを特徴とする音声符号化復号化装置。

1 3. 音声信号を入力され、スペクトルパラメータを求めて量子化するスぺクトルパラメ一タ計算部と、

前記スぺクトルパラメータを用いて前記音声信号の音源信号を量子化して出力する音源量子化部と、

前記判別部の出力が予め定められたモードである場合に、音源信号を複数個の非零のパルスの組合せで表わし、前記パルスの振幅もしくは極性をまとめて量子化するコ一ドブックとゲインを量子化するゲインコードブックと、

前記コ一ドブックに格納されるコードべクトノレと、前記パルスの位置をシフトする複数のシフト量と、前記ゲインコードブックに格納されるゲインコードべクトルとを組み合わせて探索し、入力音声との歪みを最小にするコードべクトルとシフト量とゲインコードべクトルの組合せを出力する音源量子化部と、

前記スペクトルパラメータ計算部の出力と、前記判別部の出力と、前記適応コードブック部の出力と、前記音源量子化部の出力と、を組み合わせて出力するマルチプレクサ部と、を有する音声符号化装置と、

前記音声符号化装置の符号化出力を入力され、スペクトルパラメータ、適応コードブックの遅延、適応コードベクトル、及び音源のゲインと、音源情報としての、振幅若しくは極性コードベクトル、及びパルスの位置を表す符号とを分離して、出力するデマルチプレクサ手段と、

適応コ一ドブックにおける過去の量子化されたゲインを用いて、モードを判別するモード判別手段と、

を備えたことを特徴とする音声符号化復号化装置。

1 4. 音声信号を入力され、スペクトルパラメータを求めて量子化するスぺクトルパラメ一タ計算部と、

前記スぺクトルパラメ一タを用いて前記音声信号の音源信号を量子化して出力する音源量子化部と、

前記スぺクトルパラメータ計算部の出力と前記前記判別部の出力と前記適応コ一ドプック部の出力と前記音源量子化部の出力とを組み合わせて出力するマルチプレクサ部と、を有する音声符号化装置と、

前記音声符号化装置の符号化出力を入力され、スペクトルパラメータ、適応コ ―ドブックの遅延、適応コードべクトル、及び音源のゲインと、音源情報としての、振幅若しくは極性コードベクトル、及びパルスの位置を表す符号とを分離して、出力するデマルチプレクサ手段と、

適応コードブックにおける過去の量子化されたゲインを用いてモ一ドを判別するモード判別手段と、

を備えたことを特徴とする音声符号化復号化装置。

1 5. 音声信号を入力され、スペクトルパラメ一タを求めて量子化するスぺクトルパラメータ計算手段と、

過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め、音声信号を予測して、残差を求める適応コードブック手段と、

前記スぺクトルパラメ一タを用いて前記音声信号の音源信号を量子化して出力する音源量子化手段であって、予め定められたモードの場合に、複数個のパルスの振幅もしくは極性をまとめて量子化するコードブックに格納されるコードべクトルと、予め定められたパルスの位置を時間的にシフ卜する複数のシフト量の各々とを組み合わせて探索し、入力音声との歪みを最小にするコードべクトルのィンデタスとシフト量の組合せを選択する音源量子化手段と、

ゲインコードブックを用いてゲインを量子化するゲイン量子化手段と、前記スペクトルパラメータ計算手段と前記適応コードブック手段と前記音源量子化手段と前記ゲイン量子化手段の各出力とを組み合わせて出力するマルチプレクス手段と、を備える音声符号化装置と、

適応コードブックにおける過去の量子化されたゲインを用いて、モードを判別するモード判別手段と、

前記モ一ド判別手段の出力が予め定められたモードの場合に、予め定められた規則によりパルスの位置を発生し、コードべクトルから前記パルスの振幅もしくは極性を発生して、音源信号を復元する音源信号復元手段と、前記音源信号を通して音声信号を再生する合成フィルタ部と、を備えたことを特徴とする音声符号化復号化装置。