JPS6358500A

JPS6358500A - 副帯域音声コ−ダ用ビツト割振り方法

Info

Publication number: JPS6358500A
Application number: JP62117250A
Authority: JP
Inventors: ウイリアム・ジョージ・クローズ; マルコーム・スコット・ウェア
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-08-25
Filing date: 1987-05-15
Publication date: 1988-03-14
Also published as: EP0259553B1; DE3784120D1; DE3784120T2; US4899384A; EP0259553A2; EP0259553A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野この発明はアナログ・ディジタル変換器およびディジタ
ル・アナログ変換器に関するものであり、詳細にいえば
受信側のディジタル・アナログ変換器による再構成のた
め、ディジタル・リンクにおける送信用にひとつまたは
それ以上の音声信号を処理するためのディジタル音声サ
ンプリングおよびエンコーディング手段に関するもので
ある。この発明は伝送用の多重音声チャネル圧縮に特に
適するものである。

Ｂ、従来技術各種の副帯域（サブバンド）音声コーダが公知である。

音声コーダ・システムは、このようなシステムで通常発
生するディジタル・エネルギー・レベルのサンプルの処
理を行なうためのディジタル・マイクロプロセッサに基
づくものである。

ｒ１９７７年５月９日ないし１１日に開催された１９７
７年、音響、音声および信号処理に関するＩ　ＥＥＥ国
際会議記録（１９７７ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎ
ａ！　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃ
ｓ。

５ｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓ
ｉｎｇ　Ｒｅｃｏｒｄ　ｏｆ　Ｍａｙ９−１１．１９７
７）Ｊ　１９１−１９５ページおよびｒ１９８０年４月
９日ないし１１日に開催されたＩ　ＥＥＥ音響、音声お
よび信号処理学会議事録（ＩＥＥＥ　Ａｃｏｕｓｔｉｃ
ｓ、　５ｐｅｅｃｈ　ａｎｄ　Ｓｉ８ｎａｌｓＰｒｏｃ
ｅｓｓｉｎｇ　５ｏｃｔｅｔｙ　Ｐｒｏｃｅｅｄｉｎｇ
ｓ　ｏｆ　Ａｐｒｉ１９−１１．１９８０）Ｊ　Ｖｏ　
ｌ　、　１．３３２−３３５ページを参照されたい。こ
れらは多重チャネル音声伝送用の典型的なディジタル副
帯域音声コーダおよびデコーダの構成を示している。

上記の文献に記載されているようなシステムにおいて、
受信器の聴取者が感じる副帯域音声コーダの性能の主観
的な品質は、副帯域コーグの個々の周波数帯域に対する
、伝送媒体において利用可能なビットの割振りに大きく
依存するものである。

これまでに行なわれた主な改良は、動的なビットの割振
りを使用することを含んでおり、この場合利用可能なビ
ットが各帯域サンプルに存在するエネルギーにしたがっ
て、周波数帯域の間に動的に分散される。この手法は可
変ビット・レート・システムに拡張されたが、このシス
テムにおいては、他のすべての周波数帯域に対する関係
での、各周波数帯域におけるエネルギーにしたがって、
すべてのコーダのすべての帯域にビットを割り当てるこ
とによって、多くの音声コーダが共通ビット速度資源、
すなわち伝送チャネルを共用することができる。

典型的な副帯域音声コーダはＯないし４　ｋ　Ｈｚの音
声スペクトルを取り、通常は毎秒ｓ、ｏｏ。

サンプルのサンプリング速度でこれをサンプルする。フ
ィルタリングおよびサブサンプリングによって、音声ス
ペクトルは、通常はそれぞれが５００Ｈｚの帯域幅の８
つの副帯域の副スペクトルに分割される。第１図に略示
されているこのようなシステムにおいて、アナログ線１
の入力アナログ信号はアナログ・ディジタル変換器２に
よって、ディジタル・サンプル・ストリームに変換され
、このストリームのサンプルはクロック４の制御の下に
線３を介して、通常は８ｋＨｚのサンプリング速度で並
列フィルタ・パンク５へ転送される。

フィルタ・パンク５は人力ディジタル・ストリームを、
０ないし４，０ＯＯＨｚのスペクトルにおよぶ、通常は
８つの周波数の副帯域に分割する。

それ故、出力は一連の８つの独立したチャネルであって
、各々は線７上のフィルタ・パンク５の出力を制御する
クロック６によって略示されているように、１０００サ
ンプル／秒の速度で発生するサンプルを有している。

個々の周波数副帯域のピークおよび全体的なピークはピ
ーク量子化器９によって測定され、量子化器はタイム・
フレーム内の信号サンプルを正規化する。フォワード誤
り訂正コード発生器１０により、また動的ビット割振り
手法、すなわち動的ビット割振り回路１１によって示さ
れているように通常マイクロプロセッサに実施されてい
るアルゴリズムによって、正エラー補正および動的ビッ
ト割振りが量子化されたサンプルに適用される。次いで
、フィルタ・パンク５の出力はコンパンダ８によって標
準値に圧伸または正規化され、回路１１によって割り振
られたビット数に量子化される。

コンパンダの出力は通常、約１３，０ＯＯｂｐＳの信号
ストリームであり、フォワード誤り訂正コード発生器は
ピーク量子化器の出力データを含む約３　＋　ＯＯＯｂ
　ｐ　ｓの出力ストリームを発生する。従って、並−直
列変換器１３は、クロック１５の制御の下にディジタル
・チャネル１４上での約１６，０ＯＯｂｐｓの伝送を行
なう。この直列信号ストリームは実際の圧伸信号ならび
に側チャネルの情報を含んでおり、この情報は各周波数
副帯域ならびにフォワード誤り訂正コードに与えられた
ビット割振りを示している。

第１図は従来技術を示すものであって、線１」；の０な
いし４　ｋ　Ｈｚの人カスベクトルはアナログ・ディジ
タル変換器２から出たのち、通常毎３′８゜０００サン
プルの速度でサンプルされる。これは線３上のアナログ
・ディジタル変換器２からの出力を制御するサンプル・
クロック４によって示されている。フィルタリングおよ
び副サンプリングが並列フィルタ・バンク５で行なわれ
、フィルタ・バンク５は全スペクトルの人力サンプル列
を、通常８つの副スペクトルに区切る。図示の例におい
て、０ないし４　ｋ　Ｈｚの入カスベクトルは各々幅が
５００　Ｈｚの８つの副帯域に区切られる。最初の帯域
は０ないし０．５ｋｔ（ｚの帯域であり、第２の帯域は
０．５ないし１　ｋ　Ｉ（ｚの帯域であるというように
なっている。副帯域の各々の個々の時間波形はフィルタ
・バンク５の出力における、クロック６によって制御さ
れる毎秒Ｌ　０００サンプルのビット・ストリームによ
って表わされている。その他のさまざまな帯域幅が使用
されることがあり、それぞれ２５０　Ｈｙ、のり１１の
ＩＧの帯域せ〕珍しいことで１よない。幅が等しくない
副帯域が用いられることもしばしばある。

通常、８つの個々の副帯域時間波形はマイクロプロでツ
サの形で具現化されることが典型的なものである信号処
理装置において、１１ないし３２ミリ秒の範囲の時間ブ
ロック長で処理される。第１図は１６ミリ秒のサンプル
・ブロック時Ｉｎ長を想定したものである。第１図のピ
ーク量子化器９は所定の時間ブロックないし一連のサン
プル内の各副帯域の信号のピーク強度を決定する。個々
の副帯域の周波数のピークは対数的１こ、典型的な場合
は、２ないし４　ｄ　Ｂ程度の解像度に量子化される。

次いで、情報は動的ビット割振り回路１１、および誤り
訂正のだめのフォワード誤り訂正コード発生器１０に渡
される。結果は次いで、並−直列変換器１３に渡され、
この変換器は並列フィルタ・バンク５から人力されるサ
ンプルの伝送ストリームからの実際のビットを多重化す
る。ビット割振りは動的ビット割振り回路１１で実施さ
れるビット割振り手法によって、低いレベルで割り当て
られる。ビットの削減はコンパンダ８で発生するレベル
に対する七のであって、コンパンダは１６ミリ秒のこの
サンプル・ブロック中に用いられる特定のビット割振り
を受信器に通知する側チャネル情報における多重化も行
なう。

第１図において、動的ビット割振り回路１１は１６ミリ
秒の所定のブロックに対して利用可能な帯域幅ビットを
、通常６ｄＢのピーク信号ごと（こ１ビツトの速度で、
個々の周波数副帯域に割り当てる。

第２の副帯域のピーク値の２倍のピーク値を有する所定
の周波数の副帯域は、第２の副帯域よりもひとつ多いビ
ットを得る。ピーク・エネルギーが４倍の帯域は他の副
帯域よりも２つ多いビットを得ることになり、以下同様
である。実際には、固定数の利用できる帯域幅ビットを
このような態様で、すべての利用できるｍｊＪ帯なの間
に正確に分割することができないので、理想的な割当て
上行なうことができない。実際の方法：より３期ビット
の割当てを行なうが、この割当ては負数および小数を含
むある種のきわめて大きな数を含む可能性がある。これ
らは次いで、整数に丸められ、最小値はＯ，最大値は大
体５ビツトに制限される。このことは通常、割当てに必
要なビットの合計値を正しくないものとするので、ビッ
トの反復再分配が必要となる。このことはすべて、時間
およびハードウェアをきわめて大量に必要とする方法で
あって、その精度は理想的とはまったくいえないもので
ある。

サンプル・コンパンダおよび量子化器８は量子化された
ピーク・エネルギー↑１１報を使用して、各・；１７域
における時間波形を圧縮若しくは正規化する。

サンプル・コンパンダおよび量子化器８は次いで、周波
数副帯域に対するビット’ｉ’ｉ！ｌ振り手法によって
割り当てられるビット数を用いて、各周波数副帯域の各
サンプルを量子化する。圧縮およびビットの割振りに使
用されるすべての情報は、システムの他端にある受信器
またはデモシュレータに利用できるようになるので、受
信器は最初の時間ゼ皮形を再構成し、これらを再構成デ
ィジタル・アナログ・フィルタを介して送り、最初のＯ
ないし４ｋｔｉ　ｚの人力信号を近似する。受信側は第
１図には示されていないが、上述のｒｌＥＥＥ音響、音
声および信号処理学会議事録ＪＶｏ１．１に明確に示さ
れている。

この方法においては、音声の品質に若干の劣化が生じる
が、これは利用できるビット、すなわち伝送システムの
このコーダに割り当てられた帯域幅が、入力信号を最初
の形試に正確に再構成するに十分なものではないからで
ある。

Ｃ１発明が解決しようとする問題点この型式のシステムに関連する問題は主として、ビット
割振りの問題である。上述のビット割振りの手法は必要
な関数を近似し、コーダに与えられた所定の、許容され
た固定数のビットまたは帯域幅に対して最適な信号対雑
音比を達成しようというものである。第１の問題は割り
当てられた毎秒当りの固定数のビットのため、信号対雑
音比が各音声スペクトルにおいて影響をきわめて受けや
すいということである。均一なスペクトルはその副帯域
のすべてに割り当てられるビットがきわめて少ないのに
対し、粗いスペクトルでは少数の高エネルギーの副帯域
に多くのビットがあり、それ故均−なスペクトルにおけ
る低い信号対雑音比に比較して高い信号対雑音比をもた
らす。第２に、人間に聞こえる雑音が、信号対雑音比に
比例していないことが認められている。さらに、すべて
の人間に同じものが聞こえるわけではなく、また公知の
公式または数学的モデルにしたがった聞こえ方をするわ
けでもない。音声コーダの出力の品質は音声が再構成さ
れた場合の音声の品質の専門家の評価に基づく、コーダ
の主観的な等画信号対雑音比に関して、専門家によって
評価される。通常、全体的な信号対雑音比に関する専門
家の推定値は、存在している実際の定量的な信号対雑音
比と大幅に異なっている。

幾つかの部分的な解決策が上述の問題に対して提案され
ている。６ｄＢの入力ピーク信号当り１ビット未満のレ
ートでビットを割り振ることが、役立つ。非線形量子化
器も役立つ。ビット・レートの割当てを変更する方法を
決定することができれば、可変ビット・レート割当てが
役立つ。これらの試みはすべて、人間が聞くことによっ
て音の質を実際には、どのように認識するかを推測しよ
うとするものである。これらの手法はすべて、真に必要
なものに対立するものとして、有利、または実施しやす
い何らかの公式を使用するものである。

副帯域音声コーダに関する上記の公知の問題に鑑み、こ
の発明の目的は量子化された全帯域のピーク情報を、各
時間ブロックの信号のレベルおよび゛スペクトルの両方
を表わすのに十分な有限で、包含可能な数の状態に減少
させる改善された方法を提供し、かつビット割振りを、
希望する客観的で全体的な音声品質出力と一致した副帯
域に割当てる手段を提供することである。

この発明の他の目的は、各時間ブロックに対する信号レ
ベルと信号エネルギー・レベル分布スペクトルを利用し
て、音声出力の所定の品質に必要なビット割当てのテー
ブルにアクセスする、改善されたビット割当て手段を提
供することである。

この発明のさらに他の目的は、多重ビツト割当てテーブ
ルを使用して、ビット・レート割当てを全体的な知覚さ
れる音声品質出力に変換し、多くのユーザが存在する場
合のビット・レートの低下に適合するか、あるいはひと
りまたはそれ以上のユーザに、所定のビット・レートに
対して他のユーザに与えられるものよりも高い品質のサ
ービスを提供するかのいずれかを行なうことを可能とす
ることである。

Ｄ１問題点を解決するための手段この発明の上述の目的に合致した、上記の問題の解決策
を、もつとも一般的な形態で、以下に記載する。量子化
された副帯域ピーク情報全体が、処理される信号の各時
間ブロック内の絶対ピーク・エネルギー・レベルと、ス
ペクトル・エネルギー・レベル分布の両方を表わすに十
分な、有限で、包含可能な数の状態に減少される。エネ
ルギー・レベルとスペクトル分布（ヨ、テーブル参照用
のアドレスとして使用できる信号状態の所定の順列を表
わす。アクセスされるテーブルは主観的な音声品質出力
に必要なビット割振りを含んでいる。テーブルの値は希
望する主観的な実験に基づいて割り当てられ、さまざま
な性能の品質対平均ビット速度スループットの複数のテ
ーブルを提供することができる。客観的なレベルの品質
のみを必要とするモデムに対する信号などの信号に対し
て、異なるテーブルを提供することもできる。

４ミリ秒で、８ｋＨｚのサンプリング速度を有する処理
スロット時間が選択されるので、各４ミリ秒の間に、３
２のサンプルが分割帯域フィルタによってもたらされる
。このようにして、４つの信号サンプルがそれぞれの副
帯域に得られ、８つの副帯域が想定される。ブロック処
理遅れを減らし、かつ行なわれている電話の会話に対す
る往復エコー路を最少限のものとするために、４ミリ秒
の時間ブロックが選択される。ブロックが長ければ、必
要な側チャネル・ビット・レート情報の全体の量が減少
するが、より重要なエコー遅れが多くなる。

ブロックに対する帯域のピークは、各副帯域の４つのサ
ンプルの強さを計算し、かつ各副帯域のブロック内で生
じる最も大きな帯域ピークを選択することによって決定
される。全体的なブロックのピークも、４ミリ秒のブロ
ック中のサンプルのグループでもつとも大きな帯域ピー
クを求めることによって決定される。ブロックのピーク
は量子化され、それぞれ２ｄ１３の間隔の３２のレベル
のひとつに入れられる。すなわち、求められたブロック
のピークは３２のレベルのブロック・ピーク・エネルギ
ーの尺度と比較され、ブロックに対する所定のピーク測
定値がレベルのひとつで識別される。ピークの測定値は
次いで、５ビツト、の２進数としてコードされる。この
２進数はブロックのピークに対して求められた、取るこ
とのできる３２のレベルのひとつであるこのレベルの番
号である。

この５ビツトの２進数はデモシュレータへの伝送用の側
チャネル情報に収められ、このブロックのデータの最大
ピークの全体的な尺度を識別する。

次いで、全体的なブロックのピークすなわちブロックの
絶対最大エネルギー・レベルを使用して、乗算器すなわ
ち各種の周波数副帯域のすべてのサンプルを、正規化さ
れた範囲に圧縮するための倍数として使用される圧縮値
を検索する。圧縮されたサンプルは次いで、線形の６ビ
ツト量子化器で量子化され、量子化されたサンプルとし
て一時的に保管される。サンプルの値はＯｆ！：含む−
３２から＋３１までの６４個の整数である。６ビツトの
情報は多くのサンプルを表わすに必要なものよりも多い
ものであり、削減は後で行なわれる。

個々の副帯域ピーク・エネルギーもブロック・ピーク尺
度によって圧縮されるが、これらは次いで個々のサンプ
ルとして２倍の解像度で量子化される。帯域ピーク値は
正の数値だけであるから、取りうるレベルは６４だけで
ある。これらはレベル０ないし６３であって、６３が最
大レベルである。

２進数の性質を考慮した場合、サンプルがＯないし６３
の尺度に入るレベルを表わすには、３１を超えるピーク
値を有する帯域！こ６ビツトのデータが必要なことは明
らかである。しかしながら、レベル１６ないし３１の範
囲のピーク値を有するこれらの周波数副帯域は、同一の
２つの高位ビットを有しており、また８ないし１５の範
囲内にある副帯域周波数ピークは等しい３つの高位ビッ
トを有しており、以下同様である。それ故、サンプルに
含まれている最初の情報のすべてを保持するには、最初
の６ビツトの量子化されたサンプル情報のうちどれ位を
保存しなければならないかを示す、測定された個々の帯
域ピーク・エネルギーに基づいて迅速にアドレスされる
テーブルを作成することができる。レベル３２ないし６
３に入る帯域ピーク・レベルには６ビツトが必要であり
、１Ｇおよび３１の間の帯域ピーク・レベルでは最そり
の６ビツトのうち、５ピツ）・を保存する必要があり、
レベル８ないし１５には４ピツ■・が、レベル４ないし
７には３ビツトが、レベル２および３には２ビツトが必
要であり、レベル１には１ビツトだけが必要であり、レ
ベルＯには伺も必要ない。

必要なビット数の表記を３ビツトを利用してコード化で
きるが、これは３ビツトが０ないし７の数値を表わすこ
とができ、これが必要なビットの表記０ないし６をコー
ド化するのに十二分なものだからである。この情報は受
信側のデコーダＬこ送られる側チャネルの情報に対する
ものである。８つの周波数副帯域を用いて、各周波数副
帯域に対する３ビツトによって受信１１；］に、個々の
帯域ピーク・レベルをコード化するのにサンプル・スト
リーム内のビットを幾つ割り振らなければならないかを
通知することを可能とし、それぞれ３ビツトの８つの周
波数副帯域を与えた場合、デコーダまたはデモシュレー
タに、各帯域の各サンプルに幾つのビットが必要である
かを伝えるため、側チャネルに２４ビツトが必要となる
。このことは各サンプルの高位ビットがどこにあるかと
、示しているだけである。

時間ブロック・サンプルにおけるエネルギー・スペクト
ルおよび絶対全体エネルギー・レベルの所見に基づいて
、副帯域に均一に印加されるビットの削減に基づいて、
品質を損なうが、ノｊ゛害な程度まではいかないビット
・レートのこれ以上の削減がもたらされる。適用される
ビット・レートの削減は、以下で詳述する品質テーブル
に収められる。

）ミ、実施例上記したところに示すように、上述のコーグは電話サー
ビスに対し、はぼ透明な音声品質を与えることができる
。しかしながら、必要なビット・レートはきわめて高く
、アイドル期間中に５０゜０００ビツトを超える。主観
的な音声品質の劣化をきわめて少なくして、この必要ピ
ッＩ・・レートを削減するために、８番目の副帯域を完
全に落とすことが可能である。しかしながら、以下に説
明するように、個々のサンプル・ブロックの全体的なス
ペクトルおよびエネルギー・レベルに基づいて、ビット
・レートをさらに削減することができる。

上述のように、音声コーグはブロック内に、周波数にし
たがった８つの副帯域を有しノており、５ビツトの２進
数にコード化できる０ないし３１の範囲にあるブロック
・ピーク・レベルを記述するため、各々には０ないし６
ビツトのデータが割り振られている。通常の音声会話の
際の時間の大部分においては、きわめて高い品質を保存
するのに実際に必要なものよりもはるかに多くのビット
が、サンプル内に存在している。はとんどの場合、ビッ
トの幾つか、特にディジタル信号が再構成された場合に
、僅かなアナログ出力の変動のみを表わす低位ビットが
省かれる。総括的な高レベルの音声の再構成全体を保存
しながら、低位ビットまたは少なくとも幾つかの低位ビ
ットを省くことができる。これらのビット金貨＜ことの
できる条件は、側チャネル情報によって、すなわちブロ
ックのピーク値の最大値から、および→ナンプルのスペ
クトルに対するエネルギーの分イ１ｊを示す個ヤの副帯
域ピーク・スペクトル分イ１ｊから区別される。

希望する受は入れ５される出力音声再構成の品質によっ
て設定される、主観に基づいて確立されるテーブル属性
の頂目との２！１１　：！ヤネル試エバの組合せの各々
に対する独自のアドレスによって、テーブルを構成する
ことができる。テーブルの項目は、各状態条件に対して
省かれる多数のビットを含んでいる。しかしながら、８
番目の副帯域が省がれても、アドレスの全数は２，６０
０万を超えることがある。副帯域が７つだけであり、そ
ｎぞれの副帯域がエネルギー・レベルを識別するのに必
要な、６つまでのビットを有している場合、周波数の７
つの副帯域との、副帯域のエネルギー・スペクトル分布
の組合せには、８３２，５４２通りが可能である。３２
のエネルギー・レベルが可能なブロックにおける全体的
なエラ、ルギー・レベル・スペクトルにより、テーブル
全体は２６　＋　３　：３３　＋３４４項目の大きさに
なる。このようなテーブル項目は１空目にいっても、上
置ねしいものであり、この実施例に可能な１７１８通り
の釦合せまで項「ｊ数を削減するには、多数のよる！が
取られることになる。

幾つかの副帯域を組み合わせる、あるいはグループ化す
ること；２よって、テーブルをζＪ捨てることができる
。８つまたは７つの副帯域は音声の全体的な特性を良好
に表わすには、十二分な数である。

したがって、テーブルの大きさ、およびその結果生じる
アドレスの問題を軽減するには、８つの副帯域を公知の
明瞭度指数にある程度したがって、３つの副帯域グルー
プにまとめる。帯域グループ０は周波数副帯域０および
１を含む。帯域グループ１は周波数副帯域２および３を
含み、帯域グループ２は残っている副帯域４．５．６お
よび７を含む。各帯域グループにはこれに含まれている
帯域のうち最大のビット割振りの値が指定される。

各帯域グループに割り当てられるレベルまたはビットの
数を削減することによって、テーブルの大きさをさらに
削減することができる。当初のレベルは０ないし６ビツ
トである。まとめることによって、これらを異なるもの
とすることもできる。

その場合、当初のレベルＯ１１および２のいずれかを、
新しいレベルＯとｔｆｆ’、Ｅことができる。当初のレ
ベル３および４を１で表わし、当初のレベル５を２で表
わし、当初のレベル６を８で表わすことができる。この
時点で、ビット割振りの再定義は行なわれず、情報の粗
いセグメントへのグループ化だけを行なって、テーブル
内のアドレスされる状態の数を削減する。

これらの削減によって、３つの帯域グループだけが存在
し、そのそれぞれが４つのレベルだけを有する試況がも
たらされる。すべての組合せが可能であると想定した場
合にも、この情報の６４−の状態または順列が依然存在
する。少なくともひとつの帯域グループの割り当てられ
ている３つのレベルに、６ビツトが割り振られていると
想定した場合、使用しなければならない状態は３７だけ
となる。きわめて低いエネルギー・レベルにおいては、
副帯域のいずれにも６つのビット全部が割り振られない
ことがあるが、これは信号レベルが圧縮レベルよりも低
くなるからである。この場合、精度はさほど重要なもの
ではなくなるので、帯域グループ２のレベルがレベル３
であり、それ故、上述した当初の６４の順列のうち、３
７種類の１項列のみを使用することが維持されると考え
られる。

これらの３７の状態をスペクトルに基ついたテーブル・
アドレスとして利用できるが、これはこれらが圧縮され
た形態で、当初の７つまたは８つの周波数副帯域でのピ
ーク・レベル分布、すなわち当初のサンプルのブロック
におけるエネルギーのスペクトルを表わすからである。

スペクトル・アドレスとしてこれらの３７の状態を利用
して構成された品質テーブルは、大きさが限定されたも
のであり、また重要なものであるが、これは人間の聴力
が聞いた信号のエネルギーのスペクトル分イロに基づい
ているからである。しかしながら、ブロックのピークに
対して取ることのできるレベルがまだ８２残っている。

これらのレベル全部が保存されているのであれば、各品
質テーブルには全部で３７Ｘ３２、すなわち１１８４の
アドレスが存在することになる。このレベルが人間の主
観的な音声認識品質において有効なのは、人間の限定さ
れた聴覚の範囲においてだけである。このことは歪みの
知覚が音の低いレベルにおいては低くなることを意味す
る。この特定の実施例において、３２のレベルを４つの
一般的な範囲だけに分割することができる。これらはレ
ベル・テーブルによって、主観的に選択できる。５ビツ
トのブロック・ピークの最下位のビットを省くと、範囲
は４ｄＢ離れた１６のレベルだけに減少する。

残りの４ビツトの２進数を、０．３７．７４および１１
１という数値だけを含んでいる１６アドレスのテーブル
に対するアドレスとして使用することができる。

完全なアドレスを得るには、測定したブロックのピーク
値を使用して、レベルのアドレスを求める。すなわち、
最下位のビットを省いた５ビツトのブロック・ピークは
、上述の４つの範囲のひとつに相関させることのできる
４ビツトの数である。

アドレスのこの部分プラス上述したようにして生成され
たスペクトル・アドレスが、品質テーブル・アドレス人
口ポインタとなる。品質テーブル自体はこの場合、全部
で３７×４の記憶値すなわち１４８のアドレス位置を有
することになる。品質テーブルは、並列フィルタ・バン
クから実際に入力する各サンプルから省かれるビットの
数を表わす値を含むことになる。省かれるビット数を被
験者のグループによる選好テストによって、識別するこ
とが理想的である。被験者がこの発明の手法を利用して
コード化された音声を聞いている際に、各アドレスまた
はアドレスの選択されたグループは、省略ビットの敬を
変化させる。あるいは、各々が８つの副帯域の各々に対
応している８つの独自の省略ビットを各アドレスが保持
することもできる。

聴取者の主観的な意見を比較することによって、少なく
とも希望するレベルの品質を維持しながら、各々の所定
のアドレスは省略ビットを最大のものとすることができ
る。各々が異なる品質レベルの、１４８個のアドレスの
複数のテーブルを容易に生成することができる。最低限
のビット・レートのみを必要とする最低限の許容品質ま
で、歪みが知覚されないほぼ透明な妥当な範囲をカバー
するには、４つのテーブルで十分である。

このようにして、人間の聴覚神経と脳とがどのように影
響しあって、コード化された音声の性能に関する聴取者
の主観的な評価を識別するのかという複雑な問題に対す
る解決策を、品質テーブルが与える。これまでの屏決策
は、何らかの固定等式を使用し、信号対雑音比を含む数
種類のパラメータを最適化するという定義に基づいてい
た。極端に単純イヒされた固定等式を想定する代わりに
、品質テーブルの手法によって、大グループの聴取者が
どのようにビットを音声ブロックから除去して、グルー
プ内の音声品質の主観的な希望を最適化するかを定義す
ることが可能となる。それ故、品質テーブルは統計的に
定義された音声コーダであって、与えられた解像度に対
する定義は２つの異なる品質テーブルの間の好みを選択
する大り゛ループの聴取者の主観的な結果に基づいたも
のである。

第２図はテーブルの手法を略示するものであって、０な
いし３，５００Ｈｚの範囲の７つの副帯域からもたらさ
れるすべての可能な組合せからどのように切捨てるかの
方法、および３２の絶対ブロック・エネルギー・レベル
を示している。この例では、３１０００ないし４，００
０の他のものは省かれている。各テーブルは副帯域ピー
ク・エネルギー決定位相で求められる７つの副帯域エネ
ルギー・レベル番号によってアドレスされる。他の項目
は上述の３２のレベルのひとつに入る全体的な絶対エネ
ルギー・レベルである。

テーブル全体を以下の規則を遵守することによって、１
４８項目のテーブルに圧縮することができる。副帯域０
および１のエネルギー・レベルの最大値を帯域グループ
のエネルギー・レベルと呼ぶ。

副帯域２および３のエネルギー・レベルの最大値を帯域
グループ１のエネルギー・レベルと呼ぶ。

帯域番号４．５および６のエネルギー・レベルの最大値
をグループ２のエネルギー・レベルと呼ぶ。

上述の粗いグループ化がこのテーブルで実施され、副帯
域のエネルギー・ピーク・レベルに対する、以下のよう
な生のスペクトル分布を与えるウ　１つの例として、エ
ネルギー副帯域Ｏないし６に対するエネルギー・ピーク
を４．６．２、］、３．１および０と表わすことができ
、絶対ブロック・ピーク・エネルギー・レベルを１０進
数の４、すなわち２進数の００１００とすることができ
る。副帯域をグループ化する規則を想定した場合、４つ
の任意の状態Ａ、Ｂ、ＣまたはＤが各帯域グループに存
在し、かつ次のように割り当てられる。帯域グループ０
のレベルがＯｌｌまたは２の場合、状５７　Ａ、帯域グ
ループＯのレベルが３または４の場合、状態Ｂ、帯域グ
ループＯのレベルが５の場合、状態Ｃ１帯域グループ０
のレベルが６の場合、状ｆ３１）である。他の帯域グル
ープ１および２にも、同じことがあてはまる。帯域グル
ープＯがエネルギー副帯域Ｏおよび１の測定値がらなっ
ており、帯域グループ１が周波数副帯域２および３のエ
ネルギー・ピークからなっており、かつ帯域グループ２
が周波数副帯域４．５および６のエネルギー・ピークか
らなっていることを想起されたい。

絶対エネルギー・レベルも、幾つかの異なる試Ｉフを取
ることができるが、これは上述の８２ではなく、４つの
状態に削減されたものである。Ｏないし７の絶対エネル
ギー・レベルの値は、状態Ａ１こ割り当てられる。状態
Ｂはレベル８ないし１５を含んでおり、状態Ｃは１６な
いし２３の絶対エネルギー・レベルを含んでおり、状態
りはエネルギー・レベル２４ないし３１を含んでいる。

絶対エネルギー・レベル・ピークが４つのブロックにな
っており、４．６．２．１．３．１．０という生のスペ
クトル分布が求められる上述の例に戻ると、テーブル２
に定義される独自のエネルギー状態は次のようになる。

最大値が４および６である帯域グループＯは６に等しく
、状態りに対応している。最大値が２および１である帯
域グループ１は２であり、状態Ａに対応している。３．
１および０という最大値を有する帯域グループ２は３で
あり、状態Ｂに対応している。絶対エネルギー・レベル
は４であり、状態Ａに対応している。それ故、テーブル
内の最終位置は座標ＤＡＢＡによって定義される位置と
なる。多数のスペクトル帯域番号の順列および多数のエ
ネルギー・レベルの順列がこのように、テーブル内の単
一の領域にグループ化され、ブロック全体における７つ
のエネルギー副帯域ピーク・レベルの測定値および絶対
エネルギー・レベルの測定値の順列に基づいた特定の項
目が所定の範囲に入り、かつテーブル内で同じ値が与え
られることに留意されたい。テーブルのアドレスされた
部分における内容は、任意数のビット、たとえば０．１
．２または３であり、これらは伝送されるサンプルから
省かれる。

最高品質の音声伝送の場合、高品質テーブル索引には、
サンプルからビットが省かれないということを示す０内
容位置がロードされ、当初の信号サンプルが通常の１６
ビツトの２の補数のサンプルであるとみなされる。最下
位ビットを省き、かつ受信器に対し所定のブロック伝送
期間中に各サンプルから幾つの最下位ビットが省かれた
かを示すことによって、周波数副帯域の各々における４
一つの信号サンプルの各々に対し、全体的な伝送チャネ
ルのローディングを大幅に削減することができる。各サ
ンプルから２つまたは３つのビットを省くことは、最終
的に受信され、再構成される信号に認識可能な歪みをほ
とんど、あるいはまったく生じさせないが、あと高位の
ビットひとつでも削除すると、重大な歪みが生じる。受
入れ可能な歪みのレベルは、被験者にとって知覚される
全体的な信号の受入れ可能度に基づいた主観的な基準で
ある。最低限受入れ可能な解像度の典型的な品質テーブ
ルでは、各サンプルからＯないし６つのビットを削除す
ることを必要とするが、最高品質のテーブルでは各サン
プルから削除するビットを０個とすることを要求する可
能性がある。

品質テーブルを最も高い受入れ可能品質レベルから最も
低いものまでの任意の品質の範囲に対して確立できるこ
とがわかろう。特定のユーザに対する特定の音声回線で
の操作が優先通信に対する高レベルの品質に合致するも
のと指示されるが、同じ回線上のモデムなどの機桟には
、きわめて（Ｅｉい客観的なレベルの品質だけが与えら
れることがあるということも、同様に明らかである。構
成の相違は、人力の性質によって、異なる品質性能が利
用されるということだけである。このような通信システ
ムでサービスを受けることを希望するユーザは、高品質
で、高信号対雑音比伝送を選択し、価格が比較的高い、
ビットの削除がほとんど、あるいはまったくない性能品
質のテーブルを割り当てられる可能性がある。これは高
品質のサービスを供給するのに、比例して大きな総帯域
幅が利用され、かつ高い品質を発生するために必要な、
これにしたがった数のビットがより多くのチャネル・ス
ペースを占めるからである。同様に、ユーザがもつと費
用がかからず、これに応じて狭いチャネル帯域幅を要求
し、モデムで使用するようにしてもよい。実際には、こ
れらの品質テーブルが取りうる範囲全体を考えた場合、
可能なサービスの範囲とその品質には、はとんど限界は
ない。

より有用なシナリオは第１図に示すようなシステムに利
用できるチャネル帯域幅を与えた場合に、このシステム
がすべてのユーザに対して、存在している多数のユーザ
がシステムに対して行なった全体的な要求と合致した最
高の品質のサービスを実現することである。チャネル帯
域幅が限定されたり、削減されたりした場合、あるいは
ユーザの数が増加した場合、品質の低い伝送テーブルに
依存すること、すなわち各ユーザに対して割り当てるビ
ット数を少なくすることは、ユーザの要求が減少するま
で、あるいはチャネルの容量が増加するまで、次以降の
サンプル・ブロックに対し異なる音声品質テーブルに切
り換えることによって、容易に達成可能である。

品質テーブルの例は上述のように、経験的に決定される
。以下に２つの例、すなわち中程度の品質に対するもの
と、低品質のものとを説明する。

テーブルに対するスペクトル・アドレスが上述のように
して生成され、３７の取りつる状態のうちのひとつをも
たらす。アドレス生成の規則は次のように簡単なもので
ある。帯域グループＯの帯域グループ・レベルの値が３
未満であり、帯域グループ１のレベルの値が３未満であ
る場合には、スペクトル・アドレスは帯域グループ０の
レベル＋帯域グループ１のレベルの３倍となり、これは
Ｏないし８のスペクトル・アドレスを生成する。帯域グ
ループ０のレベルが３未満であり、帯域グループ１のレ
ベルが３である場合には、スペクトル・アドレスは帯域
グループＯのレベル士帯域グループ２のレベル＋９の４
倍となり、これは９ない１ノ２０のスペクトル・アドレ
スを生成する。また、帯域グループ０のレベルが３の場
合には、スペクトル・アドレスは帯域グループ１のレベ
ル＋帯域グループ２のレベル＋２１の４倍となり、これ
は２１ないし３６のスペクトル・アドレスを生成する。

テーブルの他の項目はブロック・ピークの８２の取りう
るレベルからのものである。３２のレベルは５ビツトの
ブロック・ピーク・レベルの最下位ビットを省くことに
よって４つの範囲に圧縮され、これは範囲をそれぞれの
離隔距離が４．　ｄ　１３の１６だけのレベルに削減す
る。残余の４ビツトの値を使用して、上述のように０１
３７．７・１および１１１という値のみを含んでいる１
６−アドレス・テーブルをアドレスする。０．３７．７
４および１１１という値の間のテーブルにおける分割点
の間の実際の範囲は、ユーザに結果を知覚させ、かつ知
覚された最大限受入れ可能な品質を選択させることによ
って、決定される。しかしながら、高いエネルギー・レ
ベルの場合、全体的な知覚される品質が、信号対雑音比
歪みの影響を強く受けること、およびきわめてレベルに
おいては、信号対雑音比が音声について知覚される品質
に対してさほど重要ではないことが認められる。それ故
、取りつる４つの範囲を可能性の間で等分することで、
必要以上に高い品質がきわめて低いレベルに割り当てら
れることになる。したがって、上記の例において、１６
の取りつるアドレスのうち２つだけが最も低いエネルギ
ー状態に割り当てられ、３つが次に低いものに割り当て
られ、５つが次のもの、６つが最後のもの、すなわち最
も高いエネルギー・レベルの範囲に割り当てられる。そ
れ故、この明細書記載の特定の実施例においては、絶対
エネルギー・レベル・ピークに可能な３２のレベル全部
を利用するのではなく、３２のレベルが４つのみの範囲
に分割され、所定の絶対エネルギー・レベルの測定値が
属する範囲が、アクセスされるテーブル値の範囲を決定
する。

コーディング工程全体を再検討すると、その工程は次の
ようになる。先ず、人力信号のサンプルはブロックに分
割される。この発明の実施例においては、４ミリ秒の期
間に発生するすべてのサンプルがブロックとなる。ブロ
ック内のピーク、すなわち副帯域当り４つの信号のサン
プルを有する８つの副帯域の３２の信号のサンプル全部
のピーク強度が求められる。３２の対数的な大きさにさ
れたセグメントが、ブロック・ピークの範囲に対して確
立される。所定のブロック・ピークが求められたセグメ
ントは、これが求められた３２個のセグメントの中のセ
グメントを表わす５ビツトの２進値としてコード化され
る。次に、所定のブロック・ピークに対して識別された
ブロック・ピーク・セグメントの上限にある信号のサン
プルの範囲が求められる。ブロック・ピークが属する範
囲に対して、６４個の線形サブセグメントが定義され、
所定の信号のサンプルが属する特定の→ナブセグメント
が６ビツトの２の補数の２進値によって定義され、ピー
クの範囲内で、特定の信号のサンプルがどのレベルを占
めているかを識別する。各副帯域に対する個々の周波数
副帯域の強さが求められ、かつ取りうる６４の値の特定
のサブセグメントとして、これらの６ビツトの２の補数
の２進値によって表わされる。次いで、以下の形式を有
する固定された２９のビットを有する側チャネル情報が
伝送される。

５ビツトの２進値（取りうる３２のセグメント内のブロ
ック・ピーク・セグメント数全体をコード化する）の後
に、個々の周波数副帯域が求められた、識別されたブロ
ック・ピーク・レベル・セグメントの取りうる６４のセ
グメント内のセグメントを示す８つの周波数副帯域の各
々に対する３つのビット（計２４ビットの２進数）。上
述したように、各周波数副帯域のピークを表わすのに必
要なビット数が、取りつる６つのビットのうちの幾つか
を識別するのには、３つの２進ビツトのみが利用される
ということを、想起されたい。所定の副帯域ピーク・サ
ンプルが占める６４の取りつるレベルからのレベルを２
進数でコード化するには、Ｏないし６のビットが必要で
あるが、Ｏないし６ビツトのうちどれが、この副帯域内
のピークに割り当てられているかを、受信器に伝えるに
は、２進値の３つのビットだけが必要となる。

上述の形式の側チャネル情報の伝送後、主チャネル情報
、すなわち個々の信号のサンプル（全部で３２のサンプ
ル）が伝送される。各サンプルを表わすために使用され
るビット数は、この発明にしたがって利用されるテーブ
ルで求められる値にしたがって切捨てられる。全体的に
単純化した場合、最低限受入れ可能な品質が提供される
と、これは伝送される信号のサンプルで、最も低いビッ
トＸ個が省かれたことを決定する。ただし、Ｘは最低限
受入れ可能な品質のサービスに関連したテーブルで求め
られる値である。実際には、省かれるビットの数は、４
ミリ秒ごとに異なっている。さまざまな品質は省かれる
ビットの平均値をもたらすだけである。

容易に理解できるように、処理全体が４ミリ秒のサンプ
ルの次の信号ブロックに対して繰り返される。

Ｆ１発明の効果副帯域音声コーダにおいて、複数の副帯域に対するビッ
トの割振りを簡単且つ迅速に行うことができる。

【図面の簡単な説明】

第１図は、この発明のビット割振り手法を利用すること
のできる副帯域音声コーダの従来技術の略図である。第２図は、個々の副帯域のエネルギー・レベルのスペク
トルおよびサンプルの全体的なブロックにおける絶対エ
ネルギー・レベルを、どれ位のビットがそれぞれの信号
サンプルから省くかを定義するビット割振り状態を含む
テーブルをアドレスするテーブル・アドレスとして、利
用する方法を略示する、切捨てられたテーブルを示す図
面である。２・・・・アナログ・ディジタル変換器、４．６、ＩＳ
・・・・クロック、５・・・・並列フィルタ・バンク、
８・・・・サンプル・コンバンク゛および量子化器、９
・・・・ピーク量子化器、１０・・・・フォワード誤り
訂正コード発生器、１］・・・・動的ビット割振り回路
、１３・・・・並−直列変換器。出願人　　インターナショナル・ビジネス・マシーンズ
・コーポレーション代理人　　弁理士　　岡　　［ａ　　次　　生（外１名
）

Claims

【特許請求の範囲】

（１）入力音声信号のサンプリングを行つてディジタル
・サンプル信号を生じる手段と、該ディジタル・サンプ
ル信号を複数の副帯域における複数のディジタル成分信
号に分ける手段と、該ディジタル成分信号を圧縮若しく
は正規化したものを表わすコード信号を、圧縮若しくは
正規化の態様を示す標識と共に送信する手段とを有する
型の副帯域音声コーダにおいて、上記ディジタル成分信
号を相次ぐ時間ブロックに区分し、各時間ブロック毎の
ディジタル成分信号全体に関するブロック・ピーク・エ
ネルギー・レベルを測定すると共に、各副帯域毎のディ
ジタル成分信号に関する副帯域ピーク・エネルギー・レ
ベルを測定し、ブロック・ピーク・エネルギー・レベル
測定値及び副帯域ピーク・エネルギー・レベル測定値に
応じて、各時間ブロックにおける上記ディジタル成分信
号のコード化のためのビットの数を削減することを特徴
とする副帯域音声コーダ用ビット割振り方法。
（２）削減すべきビットの数を表わす数値を記憶してい
るテーブルを、上記ブロック・ピーク・エネルギー・レ
ベル測定値および副帯域ピーク・エネルギー・レベル測
定値に従ってアクセスすることを含む特許請求の範囲第
（１）項記載の副帯域音声コーダ用ビット割振り方法。