JPS6333025A

JPS6333025A - 音声符号化法

Info

Publication number: JPS6333025A
Application number: JP61177089A
Authority: JP
Inventors: Takehiro Moriya; 健弘守谷; Masaaki Yoda; 雅彰誉田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1986-07-28
Filing date: 1986-07-28
Publication date: 1988-02-12
Anticipated expiration: 2010-06-28
Also published as: JPH0761044B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】「産業上の利用分野」この発明は音声信号をスペクトル包絡の形状を示すスペ
クトル包絡情報と波形を示す波形情報符号とに分離して
符号化する方法に関するものである。

「従来の技術」従来から音声波形を能率よく符号化するために、音声信
号の近接サンプル値間の統計的相関を利用することが考
えられており、特に線形予測の手法が有効とされている
。この手法は基本的に音声信号を複数サンプル数ごとに
区間に区切りその区間ごとに音声信号のスペクトル包絡
の形状を反映する予測係数を求め、その係数をスペクト
ル包絡情報符号として符号化し、その区間における音声
信号の予測残差をその区間の音声信号の波形を示す波形
情報符号として符号化し、これら両符号を復号器で合成
するものである。

第６図にそのブロック図を示す。入力端子１１から音声
信号の一定時間ごとのサンプル値を示すディジタル音声
信号が予測係数抽出部１２及び予測残差抽出部１３にそ
れぞれ入力され、それぞれ一定サンプル数ごとの分析区
間に区切られ、その各分析区間ごとに予測係数抽出部１
２で音声信号のスペクトル包絡の形状を示す予測係数が
抽出され、その抽出された予測係数が量子化部１４で量
子化され、スペクトル包絡情報符号１５が出力される。

このスペクトル包絡情報符号は逆量子化部１６で復号さ
れ、復号された予測係数で予測残差抽出部１３が制御さ
れ、対応分析区内の予測残差が抽出される。予測残差抽
出部１３は音声合成フィルタと逆特性のいわゆる逆フィ
ルタである。この予測残差信号は量子化部１７で量子化
されて波形情報符号１８が得られる。

スペクトル包絡情報符号１５及び波形情報符号１８はそ
れぞれ復号器側の復号部２１及び２２で復号され、復号
部２２で復号された予測残差信号を合成フィルタの合成
部２３に駆動音源信号として供給され、合成部２３のフ
ィルタ特性が復号部２１で復号された予測係数で制御さ
れ、合成部２３から音声信号が合成出力される。

予測係数すなわちスペクトル包絡情報の表現；去、量子
化法、予測残差信号、すなわち波形情報の表現法、量子
化法に関しては従来よりさまざまな工夫がなされ、各種
符号化法が提案されている。例えば適応予測符号化（電
子通信学会編「ディジタル信号処理の応用」コロナ社１
９８１年刊１８３ｐ〜）。

マルチパルス符号化（米国特許４４７２８３２“Ｄｉｇ
ｉｔａｌＳｐｅｅｃｈ　Ｃｏｄｅｒ”　　１９８４年９
月）、適応変換符号化（日本特許１２５８０２５号「音
声の適応変換符号化方式」）等はすべて第７図に示す構
成が基本となっている。

これらの従来方式ではすべてスペクトル包絡情報符号１
５と波形情報符号１８とに配分される情報量は、平均的
に最も望ましいように固定されていた。

しかし、現実の音声においては時々刻々波形のもつ統計
的性質が変化することや、量子化歪が変動することで最
適な情報量配分は分析区間ごとに変化している。つまり
ある二つの分析区間Ａ、　Ｂについてスペクトル包絡情
報符号と波形情報符号と総情報量を一定とし、１ビツト
きざみでスペクトル包絡情報符号の情報量を変化させた
ときのその分析区間Ａ、　Ｈの符号化音声のＳＮＲはそ
れぞれ第７図の曲線２５．２６となった。（２５６サン
プル／分析区間、総計２５６ビツト／分析区間）。

曲線２５はスペクトル包絡符号の情報量を増加するとＳ
ＮＲは増加する傾向にあるが、スペクトル包絡符号の情
１１１１１６ビツトに対し１９ビツトで２ｄＢ以上も低
下している。曲線２６は比較的平坦であるが、１ビツト
の差でも１ｄＢ程度の変動があり、ピント数が比較的大
きく異なると２ｄＢ程度異なっている。このようにもと
もとＳＮＲは１０〜２０ｄＢ程度であるから、１ｄＢ、
　　２ｄＢの差は可成り大きなものである。

しかし従来の符号化法では、このような両符号に対する
情報量の配分によるＳＮＲの変動を考慮しておらず、こ
のことは符号化による歪をさらに小さくできる余地が残
されていると云える。

この発明の目的は総情報量一定のもとでできるだけ波形
歪、あるいは聴感的重み付けされた波形歪を小さくする
音声符号化法を提供することにある。

［問題点を解決するための手段」この発明は分析区間毎に、刻々変化していく音声信号に
追随させて、スペクトル包絡情報符号の情報量と波形情
報符号の情報量を適応的に配分する。

つまりこの発明ではスペクトル包絡情報を符号化する量
子化器及び波形情報を符号化する量子化器の両者を複数
種類の悄１４量で量子化できるようにし、またスペクト
ル包絡情報の符号の情報量と波形情報符号の情報量との
配分を予め複数種類設定しておき、分析区間における量
子化歪が小さくなるように、設定された複数の配分から
１つを適応的に決定する。

「実施例」第１図はこの発明の実施例を示す。この例では第６図に
示した予測係数抽出部１２、予測残差抽出部１３、量子
化部１４．１７、逆量子化部１６よりなる符号器３１．
３２．３３の三つが設けられ、これら符号器３１，３２
．３３において、例えば第２図に示すような予め設定さ
れた３種類の情報配分方法で、入力端子１１からの音声
信号がそれぞれ量子化される。ここでは１分析区間あた
りの総情報量Ｔは固定とし、この例では２５６ビツトと
し、つまりＴ（総情報量）＝Ｅ（スペクトル包絡符号情報量）＋Ｗ
（波形符号情報ｉｔ）　＋　Ｄ　（配分情報量）である
。符号器３１，３２．３３はそれぞれ第２図中の第１．
第２．第３情報配分方法で符号化される。

これら符号器３１，３２．３３の各符号化出力は局部復
号化判定部３４でそれぞれ復号化し、最も望ましい配分
方法を求め、そのスペクトル包絡情報符号３５と波形情
報符号３６と配分情報符号３７とを復号側に伝送する。

ここでいう最も望ましいとは局部復号信号と局部信号と
を比較して量子化歪を求め、これが最小となるものを意
味する。

その場合用途によって聴感的重みづけを行った量子化歪
を用いてもよい、第３図Ａに示すようにまず配分情報符
号３７を送出し、これに続き、スペクトル包絡情報符号
３５、波形情報符号３６を順次送出する。なお配分情報
符号としては第２図の例のような一意解読可能な可変長
符号をその頻度に合わせて使うとさらに効果的である。

つまり第２図では３種類の配分方法があるから、各配分
方法を表示するには２ビツト必要であるが、この３種類
のうち、発生頻度が最も多い第３種類の配分方法を示す
配分情報符号を“１”の１ビ・７トとし、他の２種類の
配分情報符号には２ピントを用いる。

一方、復号化側ではまず配分情報符号３７を復号部４１
で復号する。この復号された配分情報に従ってスペクト
ル包絡情報符号３５、波形情報符号３６をそれぞれ復号
部４２，４３で復号化され、これら復号出力を合成部４
４へ供給して合成し出力音声を得る。

情報配分のひな型を決定するには音声信号サンプルを使
って平均的に歪が小さくなるスペクトル包絡情報符号の
ビット数を選ぶ。この際次の２点で生じるトレード・オ
フを考慮すればよい。

■　配分情報符号をｍビットとすると２一種類の配分ひ
な型を設定することができる。

■　配分情報符号をｍビットとすると総情報量Ｔが一定
のため、例えば波形情報符号がｍビット減少する。この
際１分析区間Ｎサンプルの場合、ＳＮＲは平均的に１０
　　ｌｏｇ＋ｏ（２””）　ＣｄＢ）　＝６、０２　ｍ
／　Ｎ　（ｄＢ）減少する。

第１図ではスペクトル包絡情報及び波形情報についてそ
れらをそれぞれ複数種類の情報量で量子化する量子化器
として、その各情報量の量子化器をそれぞれ設けたが、
両量子化器を各１つ設けそれぞれその情報量を情報配分
に応じて変更してもよい。このためには任意のビット数
に対応できる量子化器を必要とするが、これには例えば
ベクトル量子化とスカラ量子化とを組み合わせたベクト
ル・スカラ量子化（特願昭５７−２０４８４９″ベクト
ル量子化法”）をスペクトル包絡情報量子化と、波形情
報量子化に適用すればよい。

前記特許出願“ベクトル量子化法”に示すようにまずベ
クトル量子化し、次にスカラ量子化するように２段階の
量子化器を用いる場合には例えば第４図に第１図と対応
する部分に同一符号を付けて示すように抽出されたスペ
クトル包絡情報を量子化部１４でまずベクトル量子化し
、量子化値から得られる暫定的スペクトル包絡特性から
、判定部５１でスペクトル包絡情報符号の情報量を決定
する。例えばベクトル量子化による暫定スペクトル包絡
特性が平坦であれば、スペクトル包絡に対する情報量を
少ない予め決めた値に設定し、その対応情報量でスペク
トル包絡情報に対する第２段階目の量子化、この例では
スカラ量子化を行う。

また判定部５１は予め決められた情報量Ｔの残りの情報
量を量子化器１７に与えてその情報量に、波形情報を量
子化する。従ってこの場合は第３図Ｂ、Ｃに示すように
、スペクトル包絡情報符号３５中の最初から一定のビッ
ト数が第１段階目の量子化（この例ではベクトル量子化
）符号であり、スペクトル包絡特性が平坦な場合は第３
図已に示すように第２段目の量子化の情報量は少ない予
め決めた値とされ、スペクトル包絡特性が変化の太きい
場合は第３図Ｃに示すように第２段目の量子化情報量は
大きい予め決めた値となる。このように第１段階目の量
子化でスペクトル包絡情報符号の情報量が決るため、配
分情報は送出する必要はない。

第２段階量子化の情報量の設定は同一の暫定スペク）ル
特性を持つ学習サンプルを集めて統計処理をすればよい
。

復号化側では受信された符号列中の最初から一定長の符
号、つまりスペクトル包絡情報の第２段階量子化符号か
ら判定部５２でその第２段階目の量子化符号の情報量（
符号長）を知り、これに応じて復号部４２で第２段階目
の復号を行う。もちろんその前に第１段階目の復号を行
う。これと共に判定部５２は波形情報符号３６の情報量
を復号部４３に与えてその復号を行う。

このようにスペクトル包絡情報を２段階で量子化する場
合にその１段階の量子化符号からスペクトル包絡情報符
号の情報量を制御するには次のようにしてもよい。すな
わち、スペクトル包絡特性に応じた情報配分表を例えば
第５図Ａ、Ｂに示すように予め用意しておき、第５図中
Ａは平坦スペクトル特性に対するもの、Ｂは変化のある
スペクトル特性に対するものである。スペクトル包絡情
報に対する第１段階量子化（ベクトル量子化）で得られ
た符号３５１で第５図Ａ、　Ｂの何れの情報配分表を用
いるかを決定し、その決定された情報配分表を用いて、
この例ではその３通りの情報配分を行って、スペクトル
包絡情報に対する第２段階目の量子化（スカラ量子化）
及び波形情報の量子化を行い、この３通りの量子化符号
中の量子化歪が最も小さいものを判定し、その符号を、
第３図り、Ｈに示すようにスペクトル包絡情報の第２段
階量子化符号３５．．配分情報符号３７、スペクトル包
絡情報の第１段階量子化符号３５□、波形情報符号３６
の順に送出する。復号側では符号３５、から使用する情
報配分表を決定し、配分情報符号３７からその情報配分
表中の情報配分を知って、符号３５□、３６を取出して
それぞれ復号する。

なおスペクトル包絡情報を多段階に量子化する場合、ベ
クトル量子化とスカラ量子化に限らず、ベクトル量子化
又はスカラ量子化のみで多段階量子化を行ってもよい。

「発明の効果」以上説明したようにこの発明の方法によれば一定の情報
量のもとで、最終的な歪のより小さい符号化が実現され
る。

８　ｋＨｚサンプル、１分析区間２５６サンプルの音声
信号に対し、配分情報符号を３ビツトとする４、８〜９
．６キロビツト／秒の符号化は、固定配分の符号化より
０．５〜１．０ｄＢＳＮＲが向上することが確かめられ
た。ＳＮＲはもともと１０〜２０ｄＢ程度であるからこ
の向上は可成りよいものである。

第７図に示したようなＳＮＨの変動の中で、配分情報符
号３ビツトを使えば８種の中で最適のものを使うことが
できることと、波形情報符号が３ビツト減少することで
最終的ＳＮＲが平均的に約１０　　Ｉｏｔａ　（２””
”’）＝０．０７　　（ｄＢ）　Ｌか減少しないことか
らも前記ＳＮＲの向上は予想できることである。

【図面の簡単な説明】

第１図はこの発明の符号化法の実施例を示すブロック図
、第２図は情報配分例を示す図、第３図はこの発明の符
号化法による符号化出力の各種例を示す図、第４図はこ
の発明の符号化法の他の実施例を示すブロック図、第５
図は情報配分例を示す図、第６図は線形予測を用いる従
来の符号化法を示すブロック図、第７図は総情報量一定
でスペクトル包絡情報符号量によるＳＮＨの変化例を示
す図である。

Claims

【特許請求の範囲】

（１）音声信号を複数サンプル数ごとの分析区間に区切
り、その分析区間の音声信号のスペクトル包絡の形状を
示すスペクトル包絡情報符号と、その分析区間の音声信
号の波形を示す波形情報符号とに分離して符号化する方
法において、予め設定された複数種類の情報量で量子化できる上記ス
ペクトル包絡情報符号のための量子化器と、予め設定さ
れた複数種類の情報量で量子化できる上記波形情報符号
のための量子化器とを備え、これら両量子化器に対する
情報量の配分を予め複数種類設定しておき、上記各分析区間ごとに量子化歪が小さくなるように上記
情報量の配分を上記設定した複数の値から適応的に決定
することを特徴とする音声符号化法。