WO2004112256A1

WO2004112256A1 - 音声符号化装置

Info

Publication number: WO2004112256A1
Application number: PCT/JP2003/007380
Authority: WO
Inventors: Hitoshi Sasaki; Yasuji Ota
Original assignee: Fujitsu Limited
Priority date: 2003-06-10
Filing date: 2003-06-10
Publication date: 2004-12-23
Also published as: JP4245606B2; US7072830B2; JPWO2004112256A1; US20050278174A1

Abstract

　量子化誤差を抑制して音声品質の向上を図る。符号候補格納部（１１）は、音声信号のサンプル値に対する符号を求める際に、サンプル値の近傍区間での符号候補のすべての組み合わせを格納する。ローカルデコーダ（１２）は、符号候補格納部（１１）で格納されている符号を復号化して再生信号を生成する。誤差評価部（１３）は、１つの符号候補毎に入力サンプル値と再生信号との差分の自乗和を算出して、量子化誤差を最小とする、自乗和が最小値の符号候補を検出し、検出した符合候補の中の符号を出力する。

Description

明細書音声符号化装置技術分野

本発明は、音声符号化装置に関し、特に音声信号の情報を圧縮して符号化を行う音声符号化装置に関する。背景技術

移動体通信や CDなどでは、音声のディジタル処理が行われ、ディジタル化された音声信号は、ユーザにとっても身近な存在となっている。ディジタル音声信号を効率よく圧縮 ·伝送するためには、高能率符号化が行われる。

高能率符号化は、情報量の冗長度を除去して圧縮し、人間の感覚で歪ができるだけ感知されないようにして伝送容量の節約を図る技術であり、様々な方式が提案されている。音声信号の高能率符号化アルゴリズムとしては、 ITU-T G.726 で標準化されている A D P C M ( Adaptive Differential Pulse Code Modulation：適応的差分パルス符号変調）が広く使用されている。

図 18、図 19は ADPCMコーデックのブロック構成を示す図である。 AD PCM符号器 110は、 AZD部 1 1 1、適応量子化部 1 12、適応逆量子化部 1 13、適応予測部 1 14、減算器 1 15、加算器 116から構成される。なお、点線枠内をローカルデコーダと呼ぶ。 ADPCM復号器 120は、適応逆量子化部 121、適応予測部 122、 DZA部 123、加算器 124から構成される (符号器側のローカルデコーダがそのまま復号器となる）。

ADPCM符号器 110に対し、 AZD部 1 1 1は、入力音声をディジタル信号 Xに変換する。減算器 1 15は、現在の入力信号 Xと、適応予測部 114で過去の入力信号にもとづいて生成した予測信号 yとの差分をとつて予測残差信号 r を生成する。

適応量子化部 1 12は、量子化誤差が小さくなるように、予測残差信号 rの過去の量子化値に応じて量子化ステップ幅（ステップサイズ）を増減して量子化を行う。すなわち、直前の標本（サンプル）の量子化値の振幅が一定値以下のときは変化が少ないとみて、量子化ステップサイズに 1よりも小さい係数（スケーリングファクタと呼ばれる）を乗じて、量子化ステップサイズを狭めて量子化する。また、直前のサンプルの量子化値の振幅が一定値を越えるときは変化が大きいとみて、量子化ステップサイズに 1よりも大きい係数を乗じて、量子化ステップサイズを広げて粗く量子化する。

ここで、適応量子化部 1 12の量子化レベル数は、符号化ビット数によって決まり、例えば、 4ビット符号化であれば 16レベルに量子化される。 AZD部 1 1 1のサンプリング周波数を 8 H zとすれば、適応量子化部 1 12のディジ夕ル出力（ADPCM符号） zは、 32 kb i tZs (=8 kHz x 4ビット）となる（AZD部 1 1 1が出力するディジタル音声信号が 64 kb i t/sならば圧縮率は 1 2である）。

また、 ADPCM符号 zは、ローカルデコーダの適応逆量子化部 1 13に入力される。適応逆量子化部 1 13は、 ADPCM符号 zを逆量子化して、量子化予測残差信号 r aを生成する。加算器 1 16は、予測信号 yと量子化予測残差信号 r aとを加算して、再生信号（局部再生信号） X aを生成する。

適応予測部 1 14は、内部に適応フィル夕を含み、適応フィルタの予測係数を予測残差信号の電力が最小になるように逐次修正しながら、再生信号 X と量子化予測残差信号 r aにもとづいて、次の入力のサンプル値に対する予測信号 yを生成し、減算器 1 15へ送信する。

一方、 ADPCM復号器 120では、伝送された ADP CM符号 zに対し、 A DP CM符号器 1 10のローカルデコーダと全く同一の処理を行って再生信号 x aを生成し、 DZA部 123でアナログ信号に変換して音声出力を得る。

ADPCMの利用分野としては、近年、携帯電話機に ADPCM音源を内蔵して、サンプリングした動物の鳴き声や人の話し声などを着信メロディとして流したり、リアルな再生音を利用して、ゲームの音楽に効果音を挿入するなど、多様な音声サービスに盛んに使われており、さらなる音声品質の向上が求められている。

ADPCMによる音声品質向上を図った従来技術としては、入力音声と予測値との差分値に単位量子化幅の 1 2を加算または減算した信号を、適応量子化して符号を求め、その符号から次ステップの単位量子化幅を更新して、予測値、逆量子化値から次の予測値を求める技術が提案されている（例えば、特許文献 1参照）。

特許文献 1

特開平 10— 233696号公報（段落番号〔0049〕〜〔0089〕，第 1図）

図 18で上述した ITU-T G.726の AD PCM符号器 1 10のループ制御では、現在（時刻 n) の 1つのサンプルのみの量子化の情報によって、 ADPCM符号を生成している。このため、時刻（n+ 1) で急に振幅が増加するような、予測した値よりも大きな信号 x_{n + 1}が入力すると、時刻（n+ 1) の量子化ステップサイズ Δ_{η + 1}は小さいままなので、変化に追随できずに大きな量子化誤差が生じてしまう。これを再生すると聴覚的に聞き苦しい音（主観的にはカサカサした音）となり、音質劣化を引き起こすといった問題があった。

また、従来技術（特開平 10— 233696号公報）では、単位量子化幅を更新するために必要なテーブルを、符号器と復号器の両方に用意して置かなければならず、実用面において必ずしも好適とはいえない。発明の開示

本発明はこのような点に鑑みてなされたものであり、量子化誤差を抑制して音声品質の向上を図った音声符号化装置を提供することを目的とする。

本発明では上記課題を解決するために、図 1に示すような、音声信号の符号化を行う音声符号化装置 10において、音声信号のサンプル値に対する符号を求める際に、サンプル値の近傍区間での符号候補の複数の組み合わせを格納する符号候補格納部 1 1と、符号候補格納部 11で格納されている符号を復号化して再生信号を生成する復号信号生成部 12と、 1つの符号候補毎に入力サンプル値と再生信号との差分の自乗和を算出して、量子化誤差を最小とする、自乗和が最小値の符号候補を検出し、検出した符号候補の中の符号を出力する誤差評価部 13と、を有することを特徴とする音声符号化装置 10が提供される。ここで、符号候補格納部 1 1は、音声信号のサンプル値に対する符号を求める際に、サンプル値の近傍区間での符号候補の複数の組み合わせを格納する。復号信号生成部 1 2は、符号候補格納部 1 1で格納されている符号を復号化して再生信号を生成する。誤差評価部 1 3は、 1つの符号候補毎に入力サンプル値と再生信号との差分の自乗和を算出して、量子化誤差を最小とする、自乗和が最小値の符号候補を検出し、検出した符号候補の中の符号を出力する。

本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。図面の簡単な説明

図 1は、本発明の音声符号化装置の原理図である。

図 2は、再生信号を求めている様子を示す図である。

図 3は、振幅変動に追随できずに大きな量子化誤差が発生する様子を示す図である。

図 4は、符号候補格納部で格納される符号候補の概念を説明するための図である。

図 5は、本発明の動作を説明するための図である。

図 6は、本発明の動作を説明するための図である。

図 7は、本発明の動作を説明するための図である。

図 8は、本発明の動作を説明するための図である。

図 9は、本発明の動作を説明するための図である。

図 1 0は、本発明の動作を説明するための図である。

図 1 1は、本発明を適用しない場合の符号選択を示す図である。

図 1 2は、音声符号化装置の構成を示す図である。

図 1 3は、音声符号化装置の動作概要を示すフローチャートである。

図 1 4は、従来の処理を行った場合の波形を示す図である。

図 1 5は、本発明の処理を行った場合の波形を示す図である。

図 1 6は、本発明の変形例を示す図である。

図 1 7は、変形例の動作を説明するための図である。図 18は、 ADPCMコ- ロック構成を示す図である。

図 19は、 ADPCMコ- ロック構成を示す図である。発明を実施するための最良の形態

以下、本発明の実施の形態を図面を参照して説明する。図 1は本発明の音声符号化装置の原理図である。音声符号化装置 10は、音声信号の情報を圧縮して符号化を行う装置である。

符号候補格納部 1 1は、音声信号のサンプル値に対する符号を求める際に、後述の先読みサンプル数 P rまでを近傍区間とした、時刻（n + k) (0≤k≤p r) までの符号候補 {j 1、 j 2、 ···、 j (p r + 1) }の複数（すべて）の組み合わせを格納する。図では、先読みサンプルの p rを 1として、時刻 nの符号 j 1と時刻（n+ 1) の符号 j 2の符号候補の組み合わせを格納している例を示している。

復号信号生成部（ローカルデコーダ） 12は、符号候補格納部 11で格納されている符号を順次復号化して再生信号 s rを生成する。誤差評価部 13は、 1つの符号候補毎に、入力音声信号の入力サンプル値 i nと再生信号 s rとの差分の自乗和を算出し、自乗和が最小値の符号候補（=量子化誤差が最小とみなせる）を検出し、検出した符号候補の中の符号 i dxを出力する。

なお、図中ベクトル表記してあるのは、順次処理が行われることを示すものである。すなわち、符号候補のベクトル表記は、符号候補格納部 1 1からローカルデコーダ 12へ符号候補 {1、 1}、 {1、 2}、 ···が順次入力されることを示し、再生信号のベクトル表記は、ローカルデコーダ 12で順次生成されて誤差評価部 13へ入力することを示し、入力サンプル値のベクトル表記は、誤差評価部 13 へ順次入力されることを示している。

ここで、時刻 nのサンプル値に対する符号 i d x[n]を求める場合、従来では上述したように、現在時刻 nの 1つのサンプルのみの量子化によって符号化を行つていたが、本発明では、時刻 nだけでなく時刻 n周辺のサンプル区間（=近傍区間）の情報も誤差評価の対象として利用して、符号 i d x[n]を求めるものである。すなわち、現在のサンプル値だけでなく、未来のサンプル（先読みサンプルと本発明では呼ぶ）も利用するということであり、例えば、先読みサンプルを 1としたら、時刻 n及び時刻（n+ 1) の 2サンプルの情報までを考慮して、時刻 n の符号 i d x[n]を求めることになる。

また、先読みサンプルを 2としたら、時刻 n、時刻 n+ 1) 、時刻（n + 2) の 3サンプルの情報までを考慮して、時刻 nの符号 i d x[n]を求めることになる。なお、本装置の詳細動作については図 4以降で説明する。

次に本発明が解決すべき問題点について図 2、図 3を用いて詳しく説明する。図 2は再生信号を求めている様子を示す図である。説明を簡略にするために、予測なし（単に入力サンプルと再生信号との差分を量子化）として、 1サンプルあたり 2ビット（量子化レベルは 4通り）で量子化するものとする。

音声信号に対して、時刻（n— 1) でサンプルしたサンプル値を Xn— 1、時刻 nでサンプルしたサンプル値を Xnとする。また、時刻（n— 1) で復号された再生信号が Sn— 1であったとする。

ここで、時刻 nにおける再生信号を求める場合、まず、時刻 nのサンプル値 X nと、時刻（n— 1) の再生信号 Sn— 1との差分をとつて差分信号 Enを生成する（予測処理を行うのであれば同一時刻での差分を求めるが、ここでは予測なしとしたので、 1つ前の再生信号と現在の入力サンプル値との差分が求められる）。

そして、この差分信号 Enに量子化を施して、時刻 nにおける量子化値を選択する。ここでは 2ビットの量子化としたので、量子化値は h l〜h 4の 4通りあり、これら 4候補の中から、差分信号 Enの値を最も正しく表現できるもの（サンプル値 Xnに最も近接するもの）が選択されることになる（なお、ドットの間隔が量子化ステップサイズに対応する）。

図では、差分信号 Enを最も正しく表現できるものは量子化値 h 3である（すなわち、サンプル値 Xnと最も近接なドットは h 3) 。したがって、時刻 nにおける再生信号として、量子化値 h 3 (Snとする）を選択し、量子化値 h 3を示す ADP CM符号が符号器から出力することになる。

図 3は振幅変動に追随できずに大きな量子化誤差が発生する様子を示す図である。従来の AD PCM符号器の問題点を示している。図 2で示した音声信号に対して、時刻（n+ 1) でサンプルしたサンプル値を Xn+ 1、時刻（n + 2) でサンプルしたサンプル値を Xn + 2とする。また、時刻 nで復号された再生信号は図 2で示した S nである。なお、音声信号は、時刻（n+ 1) 付近で急に振幅が増加する波形とする。

時刻（n+ 1) における再生信号を求める場合を考える。まず、時刻（n + 1) のサンプル値 Xn+ 1と、時刻 nの再生信号 Snとの差分をとつて差分信号 En+ 1を生成する。

そして、差分信号 En + 1に量子化を施して、時刻（n+ 1) の量子化値を選択する。 2ビットの量子化なので、量子化値の候補は、 h 5〜h 8の 4通りある。また、これら量子化値の量子化ステップサイズは、直前で選択された量子化値によって決まる。

すなわち、直前で選択された量子化値が、 4つあるドットの真ん中 2つのいずれかが選ばれているなら、時刻（n— 1) から時刻 nへの振幅変動は少ないため、時刻 nから時刻（n+ 1) への振幅変動も少ないであろうとみなして、時刻（n + 1) の量子化ステップサイズは小さくする。

，また、直前で選択された量子化値が、 4つあるドットの両端のいずれかが選ばれた場合には、時刻（n— 1) から時刻 nへの振幅変動は大きいため、時刻 nから時刻（n+ 1) への振幅変動も大きいであろうとみなして、時刻（n+ 1) の量子化ステップサイズは大きくする。

ここの例では、時刻 nの再生信号 Snは、再生信号候補 h 1〜h 4の中の h 3 を選択したものであるから（真ん中 2つの内の 1つである）、振幅変動が少ないとみなせるので、時刻（n+ 1) の量子化値の量子化ステップサイズは（つまり h 5〜h 8のドット間隔は）、小さくする（時刻 nで用いた 1より小さいスケ一リングファクタを時刻（n+ 1) でも用いて、 h l〜h 4のドット間隔と同じとしている）。

その後、量子化値の候補 h 5〜h 8の中から、差分信号 En+ 1を最も正しく表現できるものを選択することになる。ところが、時刻（n+ 1) で音声信号の振幅が急に立ち上がつているため、量子化ステップサイズが大きくない再生信号候補 h 5〜！ i 8の中から差分信号 En + 1をもっとも正しく表現できるもの（サンプル値 Xn+ 1に最も近接なドット）を選ぶとしてもせいぜい h 5しかない。したがって、時刻（n+ 1) における再生信号は、量子化値 h 5 (Sn+ 1) が選択され、量子化値 h 5を示す A D P C M符号が符号器から出力されることになる。しかし、図からわかるように、量子化誤差が大きくなつてしまい、音質劣化を招くことになる。

次に時刻（n + 2) での量子化に対し、時刻（n+ 1) の再生信号 Sn+ 1は、再生信号候補 h 5〜h 8の中の h 5を選択したものであるから（両端の内の 1つである）、振幅変動が大きいとみなし、時刻（n+2) の量子化値の量子化ステップサイズは（つまり h 9〜！ 112のドット間隔は）、時刻（n+ 1) の量子化ステップサイズよりも大きくなつている。そして、上述と同様な処理を行って、再生信号としては h 9が選択されることになる。

このように、従来の ADPCMでは、音声の急なレベル変化があった場合でも、変化量が小さい振幅増加前の量子化ステップサイズで、振幅変動の大きいサンプルの量子化値を求めているために、大きな量子化誤差が発生してしまい、音質劣化が生じていた。本発明は、音声の振幅変動が大きい場合でも、量子化誤差を効率よく抑制して音声品質の向上を図るものである。

次に本発明の音声符号化装置 10の構成及び動作について以降詳しく説明する。最初に符号候補格納部 11について説明する。図 4は符号候補格納部 1 1で格納される符号候補の概念を説明するための図である。今、時刻 nにおける音声信号のサンプル値の符号 i d x[n]を求める場合を考える。また、時刻（n+ 1) のサンプル値までを、時刻 nのサンプル値の近傍区間とし（すなわち、先読みサンプル 1とする）、 1サンプルあたり 2ビットの量子化と仮定する。

時刻 nのサンプル値に対する量子化値の符号 j 1は、 # 1〜#4の 4通りの候補があり、符号〗 1の # 1〜#4それぞれに対して、時刻（n + 1) の符号 j 2 も # 1〜# 4の 4通りの候補がある。

ここで、例えば、時刻 nのサンプル値に対する符号 j 1に # 1を選択して、時刻（n+ 1) の符号 j 2に # 1を選択した場合を {1、 1}のように表記すると、符号候補のすべての組み合わせは、 {1、 1}、 {1、 2}、 ·'·{4、 3}、 {4、 4} の 1 6通りあることになる。

したがって、現在時刻 nの符号を 2ビットの量子化で求める際に、先読みサンプル 1として、時刻（n+ 1) のサンプル値までを使用すると、符号候補格納部 1 1では、時刻 nの符号 j 1と時刻（n+ 1) の符号 j 2の符号のすべての 16 通りの組み合わせ {j 1、 j 2} = {1、 1}、 ···、 {4、 4}が格納されることになる。

また、符号候補格納部 1 1は、これら符号候補をローカルデコーダ 12に順次入力し、 16通りすベて入力し終わると、次は装置内では現在時刻（n+ 1) の符号を求めることになるので、時刻（n + 2) のサンプル値までを使用することになり、符号候補格納部 1 1には、時刻（n+ 1) の符号 j 1と、時刻（n + 2) の符号 j 2とのすベての 16通りの組み合わせが格納され、再びローカルデコーダ 12へ入力することになる。以下、このような動作が繰り返される。

なお、上記の例では、時刻 nの符号 i d x[n]を求める際に、先読みサンプル 1として時刻（n+ 1) までを含めたが、 2ビット量子化で先読みサンプル 2とすれば、符号候補格納部 1 1には、時刻 nの符号 j 1、時刻（n+ 1) の符号 j 2、時刻（n + 2) の符号 j 3のすベての符号の組み合わせ {j 1、 j 2、 j 3} = {1、 1、 1}、 ···、 {4、 4、 4}の 64通りの候補が格納されることになる (以降、同様な考え方である）。

次に符号化時に量子化誤差を抑制する本発明の動作について図 5〜図 1 1を用いて説明する。なお、時刻 nの符号 i d x[n]を求めるものとし、先読みサンプル 1として時刻（n+ 1) の情報を利用する。また、説明を簡略化するために、予測なしとし、量子化は 2ビッ卜で行うものとする。

図 5〜図 10は本発明の動作を説明するための図である。音声信号に対して、時刻 nでサンプルしたサンプル値を Xn、時刻（n+ 1) でサンプルしたサンプル値を Xn+ 1とする。また、音声信号は、時刻（n+ 1) 付近で急に振幅が増加する波形とする。

図 5に対し、時刻 nにおける符号候補 j 1を復号した際の符号候補は # 1〜# 4の 4通りある。ここで、時刻 nにおいて、符号候補 # 1を最初に選択したとする。すると、符号候補 # 1に対応する、時刻（n+ 1) において選択可能な符号候補は、量子化ステップサイズの広い # (1— 1) 〜# (1—4) の 4通りある。図 6に対し、時刻（n+ 1) の符号候補として、 # (1— 1) を選択したとする。このとき、時刻 nのサンプル値 Xnと、符号候補 # 1との差分 d iを求め、時刻（n+ 1) のサンプル値 Xn+ 1と、符号候補 # (1 _ 1) との差分を求める。そして、これらの差分の自乗和を算出して誤差評価値 e ({1、 1}) を求める。

e ({1、 1}) = (d ,) ² + (d _1→) ² … (1) 図 7に対し、時刻（n+ 1) の符号候補として、 # (1— 2) を選択したとする。このとき、時刻 nのサンプル値 Xnと、符号候補 # 1との差分は dェであり、また、時刻（n+ 1) のサンプル値 Xn+ 1と、符号候補 # (1 _2) との差分が求められる。そして、これらの差分の自乗和を算出して誤差評価値 e ({1、 2}) を求める。

e ({1、 1}) = (ά_χ) ²+ (ά ,_₂) ² … (2) 以下、時刻（n+ 1) の符号候補として、 # (1一 3) 、 # (1 _4) を選択した場合も同様の処理を行って、誤差評価値 e ({1、 3}) 、 e ({1、 4}) を求める。

図 8に対し、時刻 nにおいて、符号候補 #2を選択したとする。すると、符号候補 #2に対応する、時刻（n+ 1) において選択可能な符号候補は、量子化ステツプサイズの狭い # (2— 1) 〜# (2— 4) の 4通りある。

図 9に対し、時刻（n+ 1) の符号候補として、 # (2— 1) を選択したとする。このとき、時刻 nのサンプル値 Xnと、符号候補 # 2との差分 d₂を求め、また、時刻（n+ 1) のサンプル値 Xn+ 1と、符号候補 # (2_ 1) との差分が求められる。そして、これら差分の自乗和を算出して誤差評価値 e ({2、 1}) を求める。

e ({2、 1}) = (d₂) ²+ (d _2→) ² … (3) 図 10に対し、時刻（n+ 1) の符号候補として、 # (2— 2) を選択したとする。このとき、時刻 nのサンプル値 Xnと、再生信号候補 # 1との差分は d₂ であり、また、時刻（n+ 1) のサンプル値 Xn+ 1と、符号候補 # (2— 2) との差分 d₂— ₂が求められる。そして、これら差分の自乗和を算出して誤差評価値 e ({2 2}) を求める。

e ({2 2}) (d₂) ²+ (d₂_₂) ² （4) 以下、時刻（n+ 1) の符号候補として、 # (2— 3) # (2— 4) を選択した場合も同様の処理を行って、誤差評価値 e ({2 3}) e ({2 4}) を求める。

このような処理を時刻 nにおける符号候補 # 3 #4についても行い、結局、 16個の誤差評価値 e ({1 1}) e ({4 4}) を求める。そして、誤差評価値 e ({1 1}) e ({4 4}) の中から最小値を選択する。この例の場合、図 6で説明した誤差評価値 e ({1 1}) が最小値になることが、図から判別できる。したがって、時刻 nの符号候補 # 1が最終的に選択決定され、符号候補 # 1を表す符号 i d x[n]が伝送路上へ出力されることになる。

ここで、従来技術と比較しながら本発明の特徴について説明する。図 1 1は本発明を適用しない場合の符号選択を示す図である。もし、上記の図 5〜図 10の例に対して、図 3で説明したような従来技術の処理を行ったとすると、時刻 nでは、サンプル値 Xnに最も近接な位置にある候補 #2が選択され、時刻（n + 1) では、サンプル値 Xn+ 1に最も近接な位置にある候補 # (2— 1) が選択されることになる。すると、時刻 nでは量子化誤差 e _{l a}が小さくても、時刻 (n+ 1) では大きな量子化誤差 e_2aが発生してしまうことになる。

ここで、量子化ステップサイズを決めるには、直前で選択された値によって決めることは従来、本発明ともに同じであるが、従来の処理では、過去に決定された符号にもとづいて、次の量子化ステップサイズを決めている。したがって、時刻 nでは、時刻 nのサンプル値に最も近い符号を決定できたとしても、次のサンプリング時刻（n+ 1) で振幅変動が急激に増加したような場合、変化量が小さい振幅増加前の量子化ステップサイズで、時刻（n+ 1) の符号を求めてしまうことが起こるため、時刻（n+ 1) では大きな量子化誤差 e_2aが発生してしまう。

一方、本発明の場合、近傍サンプル区間内の符号候補すべてに対して発生する量子化誤差をあらかじめ求めておき、量子化誤差が最小となる符号候補の組み合わせを選択する。このため、振幅変動が急激に増加する場合であっても、その振幅変動が近傍区間内にあれば、従来のように 1つのサンプル地点のみ大きな量子化誤差を発生する符号を選択するようなことがなくなる。

例えば、図 6は、誤差評価値が最小となる符号候補 # 1、 # (1— 1) を示しており、時刻 nでは候補 # 1を選択決定しているため、時刻 nの量子化誤差だけについて見ると、量子化誤差 (= d ,) は、図 1 1の従来処理と比べて大きくはなっている（e i>e _la) 。

ただし、時刻 nで候補 # 1を選択することで、時刻（n+ 1) では量子化ステップサイズを広げることができる。このため、時刻（n+ 1) ではステップサイズが広がった候補 # 1〜# 4の中でサンプル値 Xn + 1に近接な候補を選択することになるので、結局、（e i + e ₂ (= 6 ^,) ) < (e _{l a}+ e _{2 a}) となり、本発明の方が量子化誤差を小さくできることがわかる。

このように、振幅変動前は量子化誤差を小さくできても、振幅変動後に大きな量子化誤差を発生させてしまう従来技術に対して、本発明では、振幅変動前後で量子化誤差を総体的に小さくする構成としたので、 S の向上を図ることが可能になる。

次にローカルデコーダ 1 2の詳細ブロックを示した音声符号化装置 1 0について説明する。図 1 2は音声符号化装置 1 0の構成を示す図である。音声符号化装置 1 0は、符号候補格納部 1 1、ローカルデコーダ 1 2、誤差評価部 1 3を含む。ローカルデコーダ 1 2は、適応逆量子化部 1 2 a、加算器 1 2 b、遅延部 1 2 c から構成され、誤差評価部 1 3は、差分自乗和算出部 1 3 a、最小値検出部 1 3 bから構成される。符号候補格納部 1 1については上述したので、ローカルデコーダ 1 2、誤差評価部 1 3について説明する。なお、符号候補格納部 1 1では、時刻 nの符号 j 1、時刻（n+ 1) の符号 j 2の {j 1、 j 2}の組み合わせを格納しているものとする。

ローカルデコーダ 1 2に対し、適応逆量子化部 1 2 aは、符号候補 {1、 1}を受信すると、前回の時刻（n— 1) で処理した結果から量子化ステップサイズを更新する。そして、最初に時刻 nの j 1 =# 1の符号に対応する量子化値を認識した後、その量子化値を逆量子化して、逆量子化信号 d q[n]を出力する。

加算器 1 2 bは、遅延部 1 2 cから出力される遅延信号 s e[n] (時刻（n_ 1) の処理で 1サンプル時間遅延した信号である）と、逆量子化信号 dq[n]とを加算して、再生信号 s r [n] (=d q[n]+ s e[n]) を生成し、遅延部 12 c及び誤差評価部 13へ出力する。遅延部 12 cは、再生信号 s r[n]を受信すると、 1サンプル時間遅延させて遅延信号 s e[n+ 1]を出力し、加算器 12 b へフィードバックする。

次に適応逆量子化部 12 aは、時刻（n+ 1) の」' 2 = # 1の符号に対応する量子化値を認識した後、その量子化値を逆量子化して、逆量子化信号 dq[n]を出力する。そして、加算器 12 b、遅延部 12 cでは、上述と同様な処理が行われて、符号」' 2に対する再生信号が生成される。

誤差評価部 13に対し、差分自乗和算出部 13 aは、入力サンプル値 i n[n] と、再生信号 s r [n]とを受信して、以下の式にもとづいて差分自乗和を算出する。ただし、 0≤k≤p rである（p rは先読みサンプル数）。 p^r ₂

e (J ) =2 (in[n+k]-sr[n+k]) ··· (5)

k=0

最小値検出部 13 bは、すべての符号候補に対する式（5) の値から最小値を検出する。そして、最小値である符号候補の中から時刻 nの符号候補（再生信号）を認識し、その符号候補に対応する符号 i dx[n]を伝送路上へ出力する。なお、上記の構成に対して、予測を行う場合には、遅延部 12 cを適応予測部に置き換え、この適応予測部に再生信号および逆量子化信号を入力する構成とすれば、適応予測方式に対応することができる。

図 13は音声符号化装置 10の動作概要を示すフローチャートである。符号候補は {j 1、 j 2}とし、 j 1は時刻 nの符号、 j 2は時刻（n+ 1) の符号である。

〔S 1〕符号候補格納部 1 1は、符号候補 {j 1、 j 2}を格納する。

(S 2) ローカルデコーダ 12は、時刻 nの符号 j 1の再生信号を生成する。〔S 3〕ローカルデコーダ 12は、時刻（n+ 1) の符号 j 2の再生信号を生成する。

〔S 4〕誤差評価部 1 3は、式（5) にもとづき、誤差評価値 e ({ j 1、 j 2}) を算出する。

〔S 5〕すべての符号候補 {j 1、 j 2} = {1、 1}〜、 f}に対する誤差を算出したならばステップ S 6へいき、そうでなければステップ S 2へ戻る。

〔S 6〕誤差評価部 13は、誤差評価値 e ({j 1、 j 2}) の最小値を検出し、最小値となった {j 1、 j 2}の j 1を時刻 nの符号 i d x[n]として出力する。〔S 7〕ローカルデコーダ 12は、ステップ S 6で決定された時刻 nの j 1にもとづいて、時刻（n+ 1) における量子化ステップサイズの更新を行う。

〔S 8〕時刻 ηを更新し、時刻（n+ 1) の符号を求める処理に入る（符号候補格納部 1 1には、時刻（n+ 1) の符号 j 1、時刻（n + 2) の符号 j 2の符号候補 {j 1、 j 2}が格納されることになる）。

以上説明したように、本発明によれば、音声信号のサンプル値に対する符号を求める際に、サンプル値の近傍区間でのすべての符号候補の組み合わせを格納し、符号候補から再生信号を生成し、入力サンプル値と再生信号との差分の自乗和を算出して、自乗和が最小となる符号候補の中の符号を出力する構成とした。これにより、音声の振幅変動が大きい場合でも、量子化誤差を効率よく抑制することができ、音声品質の向上を図ることが可能になる。また、符号器側の構成変更のみで本発明を実現できるので容易に実用化が可能である。

次に本発明の効果について説明する。図 14は従来の処理を行った場合の波形であり、図 15は本発明の処理を行った場合の波形を示す図である。縦軸は振幅、横軸は時間であり、男女の自然音（肉声）ファイルについて測定した結果である。図 14の上側の波形 Wl aは、従来の ADP CM符号器で符号化した信号を再生した信号（ADP CM復号器の出力波形）であり、下側の波形 Wl bは元の入力音声と波形 Wl aとのレベル差分である。また、図 15の上側の波形 W 2 aは、本発明の音声符号化装置 10で符号化した信号を再生した信号（ADPCM復号器の出力波形）であり、下側の波形 W 2 bは元の入力音声と波形 W 2 aとのレべル差分である（レベル差分を示す誤差信号の倍率は 4倍にした）。

波形 Wl b、波形 W 2 bを比較すると、本発明の波形 W 2 bの方が平坦であり、量子化誤差が抑制されていることがわかる。また、 SZNについては従来は 28. 37 d Bであったが、本発明では 34. 50 dBとなり、 6. 13dBの改善が見られ、本発明が有効であることがわかる。

次に本発明の変形例について説明する。図 16は本発明の変形例を示す図である。音声符号化装置 10 aは、あらたに符号選択部 14を含む。その他の構成要素は図 12と同じである。

符号選択部 14では、近傍区間の最終段のサンプル時刻を時刻（n + k) とした場合、時刻（n + k) における符号候補に対し、入力サンプル値 i n [n + k] に最も近い値を表す符号を選択し、適応逆量子化部 12 aへ出力する。そして、ローカルデコーダ 12では、時刻（n + k) の再生信号に対しては、符号選択部 14で選択された符号のみを再生して再生信号を生成する。

図 17は変形例の動作を説明するための図である。時刻 nの符号を求める際に、先読みサンプル 1とすると、最終段時刻は時刻（n+ 1) となる（先読みサンプルが 2なら、最終段時刻は時刻（n + 2) である）。

ここで、図 15以前に上述した本発明の動作では、符号候補格納部 11から入力した符号をすベて復号化して再生信号を生成し、誤差評価を行うものであった。一方、変形例の場合は、最終段時刻（n + k) の符号候補に対しては、最終段時刻（n + k) の入力サンプル値 i n[n + k]と最も近接な 1つの符号を符号選択部 14であらかじめ選択し（通常の符号化が行われている）、最終段時刻（n + k) に関しては、その符号だけをローカルデコーダ 12で復号化して再生信号を生成して、その後、誤差評価部 13で誤差評価が行われるものである。

したがって、図の場合、 # (1 _ 1) が符号選択部 14で選択されることになるので、ローカルデコーダ 12では、 # (1— 1) のみ復号化し、 # (1— 2) 〜# (1—4) に関しては、復号化は行わない。このような構成にすることで、変形例の場合では、計算量を低減することができ、処理速度の向上を図ることが可能になる。

このように、本発明によれば、現在のサンプルだけでなく、近傍のサンプル区間での量子化誤差を考慮して符号を選択することで、量子化誤差を抑制し、音質を向上させることができる。なお、上記では、符号化を行う信号として、音声信号を対象にして説明したが、音声信号に限らず、本発明は高能率符号化の一方式として、多様な分野に広く適用することが可能である。以上説明したように、本発明の音声符号化装置は、音声信号のサンプル値に対する符号を求める際に、サンプル値の近傍区間でのすべての符号候補の組み合わせを格納し、格納されている符号を復号化して再生信号を生成し、入力サンプル値と再生信号との差分の自乗和を算出して、自乗和が最小となる符号候補を量子化誤差最小とみなして、符号候補の中の符号を出力する構成とした。これにより、音声の振幅変動が大きい場合でも、量子化誤差を効率よく抑制することができ、音声品質の向上を図ることが可能になる。

上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

Claims

請求の範囲

1. 音声信号の符号化を行う音声符号化装置において、

音声信号のサンプル値に対する符号を求める際に、前記サンプル値の近傍区間での符号候補の複数の組み合わせを格納する符号候補格納部と、

前記符号候補格納部で格納されている符号を復号化して再生信号を生成する復号信号生成部と、

1つの符号候補毎に入力サンプル値と再生信号との差分の自乗和を算出して、量子化誤差を最小とする、自乗和が最小値の符号候補を検出し、検出した符号候補の中の符号を出力する誤差評価部と、

を有することを特徴とする音声符号化装置。

2. 時刻 nのサンプル値に対する符号を求める際に、先読みサンプル数 p rまでを近傍区間とした、時刻（n + k) を設定した場合（0≤k≤p r) 、前記符号候補格納部は、時刻 nのサンプル値の符号 j 1から時刻（n + k) までのサンプル値に対する符号 j kの符号候補 J{j 1、 j 2、 ···、 j k}の複数の組み合わせを格納し、前記復号信号生成部は、符号 j 1、 j 2、 ···、 j kから再生信号 s r (J) を逐次生成し、前記誤差評価部は、入力サンプル値を i nとした場 e ( J) =∑ ( i n[n + k]- s r [n + k]) ² (0≤k≤p r)

の誤差評価値 e (J) を最小とする符号候補 {j 1、 j 2、 ···、 j k}を検出し、検出した符号候補 {j 1、 j 2、 ···、 j k}の j 1を時刻 nでの符号として出力することを特徴とする請求の範囲第 1項記載の音声符号化装置。

3. 時刻 nのサンプル値に対する符号を求める際に、先読みサンプル数 p rまでを近傍区間とした、近傍区間の最終段のサンプル時刻を時刻（n + k) とした場合（k = p r) 、最終段時刻（n + k) の入力サンプル値 i n [n + k]に最も近接な符号を選択する符号選択部をさらに有し、前記復号信号生成部は、最終段時刻（n + k) の再生信号に対しては、前記符号選択部で選択された符号のみを再生して再生信号を生成することを特徴とする請求の範囲第 1項記載の音声符号化装置。

4. 信号の符号化を行う符号化方法において、

時刻 nのサンプル値に対する符号を求める際に、先読みサンプル数 p rまでを近傍区間とした、時刻（n + k) を設定した場合（0≤k≤p r) 、

時刻 nのサンプル値の符号 j 1から時刻（n + k) までのサンプル値に対する符号 j kの符号候補 J{j 1、 j 2、 ···、 j k}の複数の組み合わせを格納し、符号 j 1、 j 2、 ···、 j kから再生信号 s r (J) を逐次生成し、

入力サンプル値を i nとした場合に、

e (J) =∑ ( i n[n + k]- s r [n + k]) ² (0≤k≤p r)

の誤差評価値 e (J) を最小とする符号候補 {j 1、 j 2、 ···、 j k}を検出し、検出した符号候補 {j 1、 j 2、 ···、 j k}の j 1を時刻 nでの符号として出力することを特徴とする符号化方法。

5. 時刻 nのサンプル値に対する符号を求める際に、先読みサンプル数 p rまでを近傍区間とした、近傍区間の最終段のサンプル時刻を時刻（n + k) とした場合（k = p r) 、最終段時刻（n + k) の入力サンプル値 i n[n + k]に最も近接な符号を選択して、最終段時刻（n + k) の再生信号に対しては、選択された前記符号のみを再生して再生信号を生成することを特徴とする請求の範囲第 4 項記載の符号化方法。