WO1992017942A1

WO1992017942A1 - Procede de codage de signaux numeriques

Info

Publication number: WO1992017942A1
Application number: PCT/JP1992/000237
Authority: WO
Inventors: Kenzo Akagiri
Original assignee: Sony Corporation
Priority date: 1991-03-29
Filing date: 1992-02-28
Publication date: 1992-10-15
Also published as: EP0531538B1; HU213592B; KR100312664B1; FI925400A; BR9204799A; NO924552D0; FI925400A0; US5311561A; PL168474B1; CN1065565A; ATE165198T1; HUT63278A; DK0531538T3; CS92692A3; CA2083709A1; AU654533B2; EP0531538A4; EP0531538A1; RU2090973C1; HU9203759D0

Description

明細書ディジタル信号符号化方法技術分野本発明は、入力ディジタル信号の符号化を行うディジタル信号の高能率符号化方法あるいは装置に関するものである。 i o 背景技術オーディオ. 音声等の信号の高能率符号化においては、オーディオ，音声等の入力信号を時間軸又は周波数軸上の複数のチャンネルの信号成分に分割すると共に、各チャンネル毎にビット数を適応的に割当てるビットアロケーション（ビット割当て）による符号化技術がある。例えば、オーディオ信号等の上記ビット割当てによる符号化技術には、時間軸上のオーディオ信号等を複数の周波数帯域にの信号成分に分割して符号化する帯域分割符号化（サブ ·バンド · コ一ディング： SBC) や、時間軸の信号を周波数軸上の信号に変換（直交変換）して複数の周波数帯域に分割し各帯域毎で適応的に符号化するいわゆる適応変換符号化（A

20 TC)、或いは、上記 SB Cといわゆる適応予測符号化（APC) とを組み合わせ、時間軸の信号を帯域分割して各帯域信号をベースバンド（低域）に変換した後複数次の線形予測分析を行って予測符号化するいわゆる適応ビット割当て（A PC-AB)符号化等の符号化技術がある。

上記高能率符号化においては、時間軸上のオーディオ信号等を、所定の単位時 5 間毎に例えば高速フーリエ変換（FFT)又は DCT等の直交変換によって時間軸に直交する軸（周波数軸）に変換し、その後複数の帯域に分割して、これら分割された各帯域の係数データを適応的なビット割り当てによって符号化している。この符号化データが伝送される。

ところで、この各帯域毎の係数データを上記適応ビット割り当てにより符号化する際には、例えば、上記周波数軸上の係数データをブロック化し、このブロック毎にいわゆるブロックフローティング処理を施すことで、更にビット圧縮を行う場合が多い。このため、後の復号化のための構成には、上記帯域分割されると共に上記プロック毎にプロックフ口一ティング処理された係数データと、当該各プロック毎のフローティング係数及び割り当てビット数に応じたヮ一ド長情報か i o らなるサブ情報とが伝送されるシステム構成が採用されることになる。

し力、し、上記高能率符号化においては、更に圧縮効率を高めることが望まれている。

そこで、本発明は、上述のような実情に鑑みて提案されたものであり、より高いビット圧縮が可能なディジタル信号符号化方法を提供することを目的とするも 5 のである。

本発明のディジタル信号符号化方法は、上述の目的を達成するために提案されたものであり、入力ディジタル信号を直交変換して臨界帯域に分割し、当該臨界帯域毎のエネルギに基づいて設定した各臨界帯域毎の許容ノイズレベルと当該各臨界帯域毎のエネルギとの差分のレベルに応じたビット数で上記各臨界帯域の信 0 号成分を符号化すると共に、上記直交変換後の信号成分をプロック化してこのブロック毎にブロックフローテイング処理を行レ、当該ブロック毎のフローテイング係数を伝送するディジタル信号符号化方法である。上記ブロックフローティング処理を上記臨界帯域よりも狭い帯域の小プロック単位で行う場合には、上記臨界帯域毎のフローテイング係数の代わりに許容ノイズレベルに関する情報を伝送すると共に、上記小ブロック毎に割り当てられるビット数に応じたワード長の情報を伝送するようにしたものである。また、本発明は、上記ブロックフローテイング処理を上記臨界帯域よりも広い帯域の大ブロック単位で行う場合には、上記大ブロック毎のフローティング係数に関する情報を伝送すると共に、上記臨界帯域毎に割り当てられるビット数に応じたヮード長の情報を伝送するようにしたものである。

更に上記プロックフローティング処理を上記臨界帯域よりも狭い帯域の小プロックで行う場合には、各臨界帯域内の小プロックのうち 1つの小プロックについての割り当てビット数に応じたヮ一ド長情報を伝送するようにしたものである。一方、上記ブロックフローティング処理を上記臨界帯域よりも広い帯域の大ブロックで行う場合には、大ブロック内の臨界帯域のうち 1つの臨界帯域のヮード長情報と、各臨界帯域の許容ノイズレベルに関する情報とを伝送することを伝送することも可能である。

更に、上記臨界帯域毎のフローティング係数に関する情報を伝送する代わりに上記臨界帯域内の信号レベル範囲から所定レベル分だけ低い指定範囲をずらした許容ノイズレベルに関する情報を伝送するようにしてもよい。

ここで、上記割当ビット数決定の際には、例えば、各臨界帯域毎のエネルギから人間の聴覚特性を考慮していわゆるマスキング量を求め、このマスキング量に基づく許容ノイズレベルを用いて各臨界帯域の割当ビット数を決定することが望ましい。発明の開示本発明によれば、ブロックフローティング処理が臨界帯域よりも狭い帯域の小プロックについて行われる場合は、 1つの臨界帯域内に複数の小プロックが存在することになり、この場合、各小ブロック毎のフローティング係数を伝送せずに、臨界帯域毎の許容ノイズレベルに関する情報及びワード長情報を送るようにすることで、フローティング係数のためのビット数を減らすことができる。また、臨界帯域よりも広い大ブロックでフローティング処理を行う場合は、 1つの大ブロック内に複数の臨界帯域が存在することになり、この場合、各臨界帯域毎のフローティング係数の情報を送らずに、大ブロックで 1つのフローティング係数に関する情報を伝送するようにすることで、各臨界帯域毎のフローティング係数の情報を伝送するためのビット数を低減することができる。

又は、 1つの臨界帯域内の全ての小プロックのヮード長の情報を伝送せずに、 1つの小プロックのヮード長情報のみを伝送するようにすることで、この臨界帯域内の他の小プロックのヮ一ド長情報を伝送するためのビット数を減らすことができる。

更に、許容ノイズレベルの指定範囲を臨界帯域内の信号レベル範囲から所定レベル分だけ低い方へずらすことで、この許容ノイズレベルに関する情報を更に低減することが可能となる。

】 5

図面の簡単な説明図 1 Aは、本発明のフローティング処理を臨界帯域よりも狭いプロックで行う場合を説明するための図である。

0 図 1 Bは、本発明のフローティング処理を臨界帯域よりも広いブロックで行う場合を説明するための図である。

図 2は、本発明実施例のフローチャートである。

図 3は、許容ノイズレベル設定のための具体的構成を示すプロック回路図である。

5 図 4は、バークスペクトルを示す図である。図 5は、マスキングスペクトルを示す図である。

図 6は、最小可聴カーブ，マスキングスペクトルを合成した図である。

図 7は、本実施例の各プロックの伝送される許容ノイズレベルを説明するための図である。発明を実施するための最良の形態以下、本発明を適用した実施例について図面を参照しながら説明する。

本発明のディジタル信号符号化方法は、図 1 A、 Bに示すように、入力ディジタル信号を例えば高速フーリエ変換（F F T) 又は D C Tで直交変換して人間の聴覚特性を考慮した高域ほど帯域幅が広くなるようないわゆる臨界帯域（クリテイカルバンド） B ( B 1〜B 4 ) に分割し、当該臨界帯域毎のエネルギに基づいて設定した各臨界帯域毎の許容ノィズレベル N Lと当該各臨界帯域毎のエネルギとの差分のレベルに応じたビット数で上記各臨界帯域の信号成分（係数データ）を符号化すると共に、上記直交変換後の信号成分をプロック毎の信号成分にしてこのブロック b毎にブロックフローテイング処理を行、当該ブロック b毎のフ口一ティング係数 F cを伝送するディジタル信号符号化方法である。

換言すれば、本実施例では、図 2のフローチャートに示すような処理を行う。先ず、ステップ S 1では上記直交変換後の信号成分をブロック化してこのブロック毎にブロックフローティング処理を行い当該ブロック毎のフローティング係数 (フローティングレベル）を決定する。ステップ S 2では後述するような臨界帯域毎のエネルギに基づレ、て設定した各臨界帯域毎の許容ノィズレベルを決定し、ステップ S 3では上記各臨界帯域毎の許容ノィズレベルと当該各臨界帯域毎のェネルギとの差分のレベルに基づいて設定される割り当てビット数に応じたヮード長の情報を決定するようにしている。ここで、本実施例は、例えば図 1 Aのように、上記ブロックフローティング処理を上記臨界帯域 Bよりも狭い帯域の小プロック単位（小プロック b 1〜b 4 ) で行う場合には、上記臨界帯域 B毎のフローティング係数の代わりに、許容ノィズレベル NLに関する情報を伝送すると共に、上記小ブロック b l〜b 4毎に割り当てられるビット数に応じたヮ一ド長 W 1〜W 4の情報を伝送するようにしたものである。

また、例えば図 1 Bに示すように、上記ブロックフローティング処理を臨界帯域 B 1〜B 4よりも広い帯域の大ブロック単位（大ブロック b ) で行う場合には、当該大ブロック b毎のフローティング係数に関する情報を伝送すると共に、上記臨界帯域 B 1〜B 4毎に割り当てられるビット数に応じたワード長 W 1〜W 4 の情報を伝送するようにしたものである。

なお、図 1 Aの例は、当該臨界帯域の帯域幅の広い高域側の 1つの臨界帯域 B を抜き出して示したものであり、図 1 Bの例は、帯域幅の狭い低域側の各帯域を示したものである。また、図 1 A、 Bには、上記割り当てビット数を求めるためのレベル差とヮード長 W 1〜W 4とが対応するものであるため、該ヮ一ド長 W 1 〜W 4を便宜的に図中に示している。

また、本実施例では前述したように、適応的なビット割り当てによる F F T係数データの符号化処理を行うようにしている。すなわち、本実施例での適応的なビット割り当てによる符号化処理は、各臨界帯域毎のエネルギに基づいて後述するような人間の聴覚特性を考慮したレ、わゆるマスキング量を求め、このマスキング量に基づいて設定される許容ノイズレベル（すなわち各臨界帯域毎に略一定の許容ノイズレベル）と各臨界帯域のエネルギとの差分のレベルに応じた割り当てビット数を求めて、当該各臨界帯域毎の割り当てビット数に応じて符号化を行う更に、本実施例においては上記各臨界帯域内の複数の係数デ一夕の一定数毎にプロックを構成し、このブロック毎にいわゆるプロックフローテイング処理を施して、ビット圧縮を行うようにしている。したがって、上記図 1 Aの例のように、臨界帯域の高域すなわち帯域幅の広い臨界帯域 B内には複数の上記ブロック（例えば 4つの上記小プロック b 1〜b 4 ) が存在するようになり、また図 1 Bの例のように帯域幅が狭い（臨界帯域の低域）場合には、 1つの大ブロック b内に複数臨界帯域（例えば 4つの臨界帯域 B 1〜B 4 ) が存在するようになる。

ところで、通常、このようにブロックフローティング処理を施すようにすると、後の復号化処理の際には、該フローティング処理のフローティング係数と、上記割り当てビット数に応じたワード長の情報とが必要となる。すなわち、後の復号化のための構成に対しては、通常、上記ブロック毎のフローティング係数の情

】 o

報及び、該フローティング係数のレベルと該臨界帯域の許容ノイズレベルとのレベル差に基づく割り当てビット数に応じたヮード長の情報を伝送するシステム構成が必要となる。換言すれば、後の復号化の際には、上記フローティング係数の情報から、上記ブロックフローティング処理における最上位ビット（MS B) が 5 決まり、上記ワード長の情報から最下位ビット（L S B) が決まって上記許容ノィズレベルが決定される。更に各ブロックの係数データ（メインデータ）力、ら信号の大きさが決まるようになる。

ここで、通常、上記フローティング係数の情報は例えば 6ビットで表され、上記ヮード長の情報はそれぞれ例えば 4ビットで表される。なお、直交変換が D F 0 T (離散的フーリエ変換）の場合、上記ワード長情報は、大きさ（振幅）と位相若しくは実数部と虚数部を上記 4ビットで表すことになる。このため、例えば、 1つの臨界帯域を複数のフローティングブ口ックで分割した場合、当該プロックフローティング処理のブロック数（すなわち帯域の分割数）に応じた当該臨界帯域の全体の伝送ビット数は、表 1に示すようになる。

5 【表 1】

この表 1において、臨界帯域を 1つのブロックで表した場合（1分割）は、フローティング係数に 6ビットで、ヮ一ド長に 4ビットの合計 1 0ビッ卜が伝送されることになる。また、臨界帯域を 2つのブロックで表した場合（2分割）は、フローティング係数に 6 X 2 (= 1 2ビット）、ワード長に 4 X 2 (= 8ビット ) で合計 2 0ビットが伝送されることになる。以下同様に、 3分割した場合はフ口一ティング係数に 6 X 3 (= 1 8ビット）でヮード長に 4 X 3 (= 1 2ビット ) の合計 3 0ビット、また、 4分割（図 1 Aの例）の場合はフローティング係数に 6 X 4 (= 2 4ビット）でヮ一ド長に 4 X 4 (= 1 6ビット）の合計 4 0ビットが伝送される。上述のように、 1つの臨界帯域内のプロック数が増加するほど伝送されるビット数も増加することになる。

これに対し、本発明実施例の上記図 1 Aの例においては、臨界帯域 B内の上記各小プロックのフローティング係数 F c 1〜F c 4の情報を伝送せずに、臨界帯域 Bに対して 1つのみ設定される上記許容ノイズレベル N Lの情報と上記割り当てビット数に応じたワード長 W 1〜W 4の情報を伝送するようにしている。すなわち、後の復号化処理の際には、上記臨界帯域 Bの許容ノイズレベル N Lの情報が伝送されて来れば、当該許容ノイズレベル N Lの情報と上記各小ブロック b 1 〜b 4のヮード長 W 1〜W 4の情報とに基づいて、上記各小プロック b 1〜b 4 毎のフローティング係数 F c 1〜F c 4の情報を求めることができる。このため、このフローティング係数 F c l〜F c 4の情報を伝送しないようにしている。これにより、上記臨界帯域 Bに対して 4つ必要な上記フローティング係数 F c 1 〜F c 4を伝送するためのビット数が低減できるようになる。

ここで、上記許容ノイズレベル N Lは、上述したように、人間の聴覚特性を考慮した臨界帯域毎に求められており、当該臨界帯域では、 1つの臨界帯域内で許容ノイズレベルが略一定と考えることができるものである。したがって、上記図 1 Aの臨界帯域 B内の各小ブロック b l〜b 4においても、許容ノイズレベル N Lは同レベルであると考えることができる。ただし、全体のダイナミックレンジを例えば 1 2 0 d Bとし、上記フローティング係数を上記 6ビットで表すと、該フローティング係数は約 2 d Bの精度を持つことになり、また、上記ワード長情報を上記 4ビットで表すと、該ヮード長情報は約 6 d Bの精度となる。このため、上記図 1 Aの各小プロック b 1〜b 4において、後の復号化の際には、フローティング係数 F c 1〜F c 4と、上記ヮード長 W 1〜W 4の情報とから決まる許容ノィズレベル N Lは、図 7に示すように約 2 d Bステツプのズレを持つようになる。し力、し、許容ノイズレベル NLは、通常、略 ± 3 d Bの範囲内に収まる。このようなことから、本実施例では、許容ノイズレベル N Lを臨界帯域内で共通の荒い量子化と、臨界帯域内のフローティング処理の各小プロックそれぞれの持つ細かレ、量子化との 2段階量子化で表して当該許容ノイズレベル N Lを精度高く共通値として設定している。すなわち、本実施例では、許容ノイズレベル N Lが 4ビット 1 o gレベルであるため、この 4ビット 1 0 gで表しきれなかった許容ノイズレベル N Lを 2ビット 1 0 gで細かく表すようにしている。したがって本実施例では、約 6 d Bを 4分割して 1 . 5 d B精度とすることが可能となる。このように、上記許容ノイズレベル N Lが複数の小プロックに渡って略等しいことを利用して、上記高精度のパラメータを上記フローティング係数と許容ノイズレベルから選択する事でビット数を低減することがてきることになる。このような図 1 Aの例におけるビット数低減の様子を上記表 1と比較して表 2に示す。

【表 2】

この表 2において、臨界帯域 Bを 1つのブロックで表した場合（1分割）は、上記許容ノイズレベル N Lに対して 4ビットで、ヮード長 Wに対して 4ビッ卜で伝送する。ただし、上記許容ノイズレベル N Lにおいては、上述したように、 2 d B分のズレを補償するための 2ビットを加えて（4 + 2ビット）いる。このため、該 1分割では合計 1 0ビットカ伝送されることになる。同じく、臨界帯域 B を 2つの小ブロックで表した場合（2分割）は、許容ノイズレベル NLに 4 + 2 X 2 = 8ビット、ヮ一ド長 Wに 4 X 2 = 8ビットで合計 1 6ビッ卜が伝送されることになる。以下同様に、 3分割した場合は許容ノイズレベル N Lに 4 + 2 X 3 二 1 0ビット、ヮード長 Wに 4 X 3= 1 2ビットの合計 22ビット、 4分割（図 1 Aの例）の場合は許容ノイズレベル NLに 4 + 2 X 4 = 1 2ビット、ワード長 Wに 4 X 4 = 1 6ビットの合計 28ビットが伝送されることになる。このため、表 1の例の伝送ビット数を 1 00%としてこの表 2の例と比較すると、表 2の例の場合、 1分割では同じく 1 00%となるのに対し、 2分割では 80%、 3分割では 73%、 4分割では 70%のように、分割数（ブロック数）が増加する程、ビット低減率が向上するようになる。したがって、本実施例の方法は非常に有効であることが理解できる。

なお、ヮ一ド長の W 1〜W の情報の量子化は適応的でなく一様な量子化とされている。

また、上述した図 1 Aのように臨界帯域よりも狭い帯域の小プロックでフローティング処理を行う場合に比較して、例えば、ブロックフローティング処理を上記臨界帯域よりも広い帯域の大ブロックで行う場合には、後の復号化の際にも、通常は、各臨界帯域毎のブロックフローティング係数と、各臨界帯域毎に求められる上記ワード長の情報が必要となる。これに対し、本実施例においては、図 1 Bのようにブロックフローテイング処理を臨界帯域よりも広い帯域の大ブロック bで行う場合には、前記フローティング係数に関する情報として当該 1つの大ブロック bのフローティング係数 F cの情報と、臨界帯域 B 1〜B 4毎に求められるワード長 W1〜W4の情報とを伝送するようにする。なお、各臨界帯域 B l〜 B4の許容ノイズレベル NL 1〜NL4の情報は伝送しない。すなわち、各臨界帯域 B 1〜B 4ではフローティング係数 F cが等しいため、該 1つのフローティング係数 F cの情報と各臨界帯域毎のヮード長 W 1〜W4の情報から、上記許容ノイズレベル NL 1〜NL 4を求めることができる。したがって上記フローティング係数 F cの情報と各ヮード長 W 1〜W 4の情報のみをサブ情報として伝送することにより、通常よりもサブ情報のためのビット数を減らすことが可能となる — 1 —

/17942 ^Αώ PCT/JP92/00237

更に、上記図 1 Αの例においては、 1つの臨界帯域 B内の上記各ヮ一ド長 W 1 〜W 4の情報のうちで伝送するのをヮ一ド長 W 1の情報のみとし、他のヮ一ド長 W2〜W4の情報を伝送しないようにすることも可能である。すなわち、伝送するのは、該臨界帯域 B内の各フローティング係数 Fc l〜Fc 4の情報と、上記ワード長 W1の情報とする。換言すれば、後の複号化処理の際には、 1つのヮード長 W1の情報が伝送されて来れば、各フローティング係数 Fc l〜Fc 4の情報に基づいて、残りのワード長 W2〜W4の情報を求めることができる。具体的には、上記フローティング係数 F c 1とワード長 W1とで許容ノイズレベル NL を求めることができれば、許容レベル NLと上記フローティング係数 F c 2〜F c 4とから、上記残りのワード長 W2〜W4を知ることができるようになる。このようなことから、上記残りのヮード長 W 2〜W 4の情報を伝送しないような高能率方採を採用することができ、したがって、臨界帯域 Bに対して上記 3つのヮ ―ド長 W 2〜W 4の情報の伝送のためのビット数が低減できるようになる。

該図 1 Bの例の場合のビット数低減の様子を上記表 1と比較して表 3に示す。

【表 3】

この表 3において、 1つのブロック b内に統合される臨界帯域の数（統合数）用いて説明すると、 1ブロック b内に統合される帯域が 1つの場合（1帯域）は、上記フローティング係数 F cのレベルに対する情報に 6ビット、ワード長 Wに 4ビットとして合計 1 0ビットを伝送する。同じく、臨界帯域数が 2つ（2帯域 ) の場合は、フローティング係数 F cに 6ビット、ワード長 Wに 4 X 2 = 8ビッ卜で合計 1 4ビットが伝送されることになる。以下同様に、 3帯域とした場合はフローティング係数 F cに 6ビット、ヮード長 Wに 4 X 3 = 1 2ビットの合計 1 8ビット、 4帯域（図 1 Bの例）の場合はフローティング係数 F cに 6ビット、ヮード長 Wに 4 X 4 = 1 6ビッ卜の合計 2 2ビットが伝送されることになる。このため、表 2の例の伝送ビット数を 1 0 0 %としてこの表 3の例と比較すると、表 3の例の場合、 1帯域は同じく 1 0 0 %となるのに対し、 2帯域では 7 0 %、 3帯域では 6 0 %、 4帯域では 5 5 %のように、帯域数が増加する程、ビット低減率が向上するようになる。したがって、本実施例の方法は非常に有効であることが理解できる。

ここで、本発明実施例において上記プロックフローティング処理を上記臨界帯域よりも狭い帯域の小プロック単位で行う場合には、上記ステップ S 4では上記小プロック毎に割り当てられるビット数に応じたヮ一ド長の情報を求めて伝送すると共に、ステップ S 5及びステップ S 6においては上記臨界帯域毎のフローティング係数の代わりに上記臨界帯域内の信号レベル範囲から所定レベル分（後述するマスキング量に基づくレベル分）だけ低い方へ指定範囲をずらすようになされた許容ノィズレベルに関する情報を求めて伝送するようにしている。具体的に

】 o いうと、上記臨界帯域内の信号レベル範囲から上記所定レベル分だけ低い方に指定範囲をシフトするような値が格納された量子化テーブルを用い、この量子化テ —ブルから上記ステップ S 2で求められた許容ノイズレベルに対応する値を出力して伝送するようにしている。

上述のように、許容ノイズレベルの指定範囲をシフトさせるのは、次のような ί 5 理由からである。先ず、上記ステップ S 2で求めた許容ノイズレベルに関する情報をそのまま伝送するようにした場合、実際の信号の取り得るダイナミックレンジと同じ指標を当該許容ノイズレベルに対して用いるのはムダが多い。すなわち、許容ノイズレベルというのは、後述するように、人間の聴覚特性を考慮したマスキング量に基づいて求められるものであるため、上記実際の信号レベルの最大 0 値に対して必ずある一定レベル低いものとなるものである。例えば、上記許容ノィズレベルは、上記信号レベルに対して薬 2 6 d B程度低く取られるのもである。このように、上記信号レベルよりも、必ずある一定レベル低く取られる許容ノィズレベルに対して、当該信号レベルの取りうるダイナミックレンジをそのまま用いることは、非常にムダであり、ビット数低減の観点からも好ましくない。こ 5 のようなことから、本実施例では、上述したように、上記臨界帯域内の信号レべル範囲から所定レベル分だけ低レ、方へ措定範囲をずらすようになされた量子化テ一ブルを用いるようにしている。これにより、少ないビット数でも許容ノイズレベルを表現することが可能となる。換言すれば、少ないビット数でも上記シフトを行わない場合と同じ分解能（精度）で許容ノイズレベルを表すことができるようになる。したがって、許容ノイズレベルの伝送のためのビット数を低減することが可能となる。

ところで後の復号化処理のために、上記ヮード長 W 1を与えた小ブロック b 1 の伝送ノィズレベルと、上記許容ノィズレベル N Lに一番近レ、レベルとの差を一緖に転送するようにする。すなわち、上記許容ノイズレベル NLに一番近いレべルとの差を示す情報として、上記図 7の略 ±3 dBの範囲内の何れのレベルか各小ブロックの伝送ノイズレベルが来るかを示す情報を、例えば 2ビットの判定ビッ卜の判定ビット情報を用いて伝送するようにすることもできる。例えば、当該 2ビットのん判定ビット "00" のときに +側にズレている（+ 1) ことを示し、 "0 1 " のときズレがない（0) ことを示し、 " 1 0" —側にズレている（一 1) のことを示すようにする。なお、 " 1 1 " は用いないか或いは変わらないことを示す。

これにより、上記フローティング係数 Fc 1とワード長 W1の情報から、小ブロック b 1の伝送ノイズレベルが求められ、更に、上記許容ノイズレベル Nしに一番近いレベルとの差（判定ビットにより表されるレベル差）を加算して、上記許容ノイズレベル NLに一番近いレベルを得ることができる。この時、上述したように、各小ブロック b l〜b 4の伝送されるノイズレベルは、上記許容ノイズレベル N Lに一番近レ、レベルのレベル以上には離れないので、上記各フ口一ティング係数 F c 2〜F c 4力、ら、各ワード長 W2〜W4を求めることが可能となる図 1の例におけるビット数低減の様子を上記表 1と比較して表 4に示す。【表 4】

この表 4において、臨界帯域 Bを 1つの小ブロックで表した場合（1分割）は、上記フローティング係数を 6ビットで、ヮード長 Wを 4ビッ卜で伝送する。ただし、この場合上記判定ビット（2ビット）は用いない。このため、該 1分割では合計 1 0ビットが伝送されることになる。同じく、臨界帯域 Bを 2つの小プロック bで表した場合（2分割）は、フローティング係数に 6 X 2 = 1 2ビット、ヮ一ド長 Wに 4ビット、判定ビットに 2ビッ卜で合計 1 8ビットが伝送されることになる。以下同様に、 3分割した場合はフローティング係数に 6 X 3 = 1 8ビット、ワード長 Wに 4ビット、判定ビットに 2ビットの合計 2 4ビット、 4分割 (図 1の例）の場合はフローティング係数に 6 X 4 = 2 4ビット、ワード長 Wに 4ビット、判定ビットに 2ビットの合計 3 0ビットが伝送されることになる。このため、表 1の例に伝送ビット数を 1 0 0 %としてこの表 4の例と比較すると、表 4の例の場合、 1分割では同じく 1 0 0 %となるのに対し、 2分割では 9 0 % 、 3分割では 8 0 %、 4分割では 7 5 %のように、分割数（小ブロック数）が増加する程、ビット低減率が向上するようになる。したがって、本実施例の方法は非常に有効であることが理解できる。

なお、上記各実施例において、許容ノイズレベル N Lとして取り得るレベルはダイナミックレンジよりも小さい。すなわち、 SZNの最小値が約 3 0 d B程度なのでダイナミックレンジのピーク値（0 d B ) から約 3 0 d Bの領域には、許容ノィズレベルが来ることがなく、ェンコ一ダではこのように設定することが可倉 gとなる。

上述した許容ノィズレベルを求め、更にこの許容ノィズレベルに基づし、た上記割当ビット数で信号を符号化する本実施例の符号化方法が適用される構成の例を図 3に示す。

すなわちこの図 3において、入力端子 1に供給された時間軸上のディジタルォ一ディォデータが、直交変換回路 1 1に伝送される。この直交変換回路 1 1では、上記時間軸上のオーディオデータが単位時間毎（単位ブロック）に周波数軸上のデ一夕に変換され、実数成分値 R eと虚数成分値 I mとからなる係数データが得られる。これら係数データは振幅位相情報発生回路 1 2に伝送され、当該振幅位相情報発生回路 1 2では上記実数成分値 R eと虚数成分値 I mとから振幅情報 Amと位相情報 P hとが得られて、該振幅情報 Amの情報のみが出力されるようになる。すなわち、一般に人間の聴覚は周波数領域の振幅（パワー）には敏感であるが、位相についてはかなり鈍感であるため、本実施例では上記振幅情報 Am のみを用いて上記割当ビット数情報を得るようにしている。

上記振幅情報 Amは、先ず帯域分割回路 1 3に伝送される。該帯域分割回路 1 3では、上記振幅情報 Amで表現された入力ディジタル信号をいわゆる臨界帯域幅（クリティカルバンド）に分割している。この臨界帯域幅とは、人間の聴覚特性（周波数分析能力）を考慮したものであり、例えば 0〜2 2 k H zの周波数帯域を 2 5帯域に分け、高い周波数帯域ほど帯域幅を広く選定しているものである。すなわち人間の聴覚は、一種のバンドパスフィルタのような特性を有していて、この各フィル夕によって分けられたバンドを臨界帯域と呼んでいる。

上記帯域分割回路 1 3で臨界帯域に分割された各帯域毎の上記振幅情報 Amは、各々上記総和検出回路 1 4に伝送される。この総和検出回路 1 4では、各帯域毎のエネルギ（各帯域でのスぺクトル強度）が、各帯域内のそれぞれの振幅情報 Amの総和（振幅情報 Amのピーク又は平均或いはエネルギ総和）をとることにより求められる。該総和検出回路 1 4の出力すなわち各帯域の総和のスぺクトル o

は、一般にバークスペクトルと呼ばれ、この各帯域のバークスペクトル S Bは例えば図 4に示すようになる。ただし、図 4では図示を簡略化するため、上記クリティカルバンドのバンド数を 1 2の帯域 ( B > 〜B _{1 2}) で表現している。

ここで、上記バークスぺクトル S Bのいわゆるマスキングに於ける影響を考慮するため、該バークスぺクトル S Bに所定の重みづけの関数を畳込む（コンポリユーシヨン）。このため、上記総和検出回路 1 4の出力すなわち該バークスぺクトル S Bの各値は、フィルタ回路 1 5に送られる。該フィルタ回路 1 5は、例えば、入力データを順次遅延させる複数の遅延素子と、これら遅延素子からの出力にフィルタ係数（重みづけの関数）を乗算する複数の乗算器（例えば各帯域に対応する 2 5個の乗算器）と、各乗算器出力の総和をとる総和加算器とから構成されるものである。このフィルタ回路 1 5の各乗算器において以下のような乗算が行われる。例えば、任意の帯域に対応する乗算器 Mでフィルタ係数 1を、乗算器 M— 1でフィルタ係数 0 . 1 5を、乗算器 M— 2でフィルタ係数 0 . 0 0 1 9を、乗算器 M— 3でフィルタ係数 0 . 0 0 0 0 0 8 6を、乗算器 M+ 1でフィル夕係数 0 . 4を、乗算器 M+ 2でフィル夕係数 0 . 0 6を、乗算器 M+ 3でフィル夕係数 0 . 0 0 7を各遅延素子の出力に乗算することにより、上記バークスぺクトル S Bの畳込み処理が行われる。ただし、 Mは 1〜2 5の任意の整数である。この畳込み処理により、図 4中点線で示す部分の総和がとられる。なお、上記マスキングとは、人間の聴覚上の特性により、ある信号によって他の信号がマスクされて聞こえなくなる現象をいうものであり、このマスキング効果には、時間軸上のオーディオ信号に対するマスキング効果と周波数軸上の信号に対するマスキング効果とがある。すなわち、該マスキング効果により、マスキングされる部分にノイズがあつたとしても、このノイズは聞こえないことになる。このため、実際のオーディォ信号では、このマスキングされる部分内のノィズは許容可能なノィズとされる。

その後、上記フィル夕回路 1 5の出力は引算器 1 6に送られる。該引算器 1 6 は、上記畳込んだ領域での後述する許容可能なノイズレベルに対応するレベルひを求めるものである。なお、当該許容可能なノイズレベル（許容ノイズレベル）に対応するレベルひは、後述するように、逆コンボリューシヨン処理を行うことによって、臨界帯域の各帯域毎の許容ノイズレベルとなるようなレベルである。ここで、上記引算器 1 6には、上記レベルひを求めるための許容関数（マスキングレベルを表現する関数）が供給される。この許容関数を増減させることで上記レベルひの制御を行っている。当該許容関数は、後述する関数発生回路 2 9から供給されているものである。

すなわち、許容ノイズレベルに対応するレベルひは、臨界帯域幅の帯域の低域から順に与えられる番号を iとすると、次の式で求めることができる。

a = S - ( n - a i

この式において、 n， aは定数で a > 0、 Sは畳込み処理されたバークスぺクトルの強度であり、該式中（n— a i ) が許容関数となる。本実施例では n = 3 8 ， a = lとしており、この時の音質劣化はなく、良好な符号化が行えた。このようにして、上記レベルが求められ、このデータは、割算器 1 7に伝送される。当該割算器 1 7では、上記畳込みされた領域での上記レベル αを逆コンポリューションするためのものである。したがって、この逆コンポリューシヨン処理を行うことにより、上記レベルひからマスキングスぺクトルが得られるようになる。すなわち、このマスキングスペクトルが許容ノイズスペクトルとなる。なお、上記逆コンボリューシヨン処理は、複雑な演算を必要とするが、本実施例では簡略化した割算器 1 7を用いて逆コンボリューシヨンを行っている。

次に、上記マスキングスペクトルは、合成回路 1 8を介して減算器 1 9に伝送される。ここで、当該減算器 1 9には、上記総和検出回路 1 4の出力すなわち前述した総和検出回路 1 4からのバークスぺクトル S Bが、遅延回路 2 1を介して供給されている。この減算器 1 9で上記マスキングスペクトルとバークスぺク下ル S Bとの減算演算が行われることで、図 5に示すように、上記バークスぺクトル S Bは、該マスキングスぺクトル MSのレベルで示すレベル以下がマスキングされることになる。

当該減算器 1 9の出力は、上記許容ノイズレベル補正回路 2 0を介して R OM 3 0に送られる。該 R OM 3 0には、上記振幅情報 Amの量子化に用いる複数の割当ビット数情報が格納されており、上記減算回路 1 9の出力（上記各帯域のェネルギと上記ノイズレベル設定手段の出力との差分のレベル）に応じた割当ビット数情報を出力するようになっている。したがって、量子化回路 2 4では、この割当ビット数情報に基づいて、上記振幅情報 Amの量子化処理が行われ、この出力が出力端子 2から出力される。なお、遅延回路 2 1は上記合成回路 1 8以前の各回路での遅延量を考慮して上記総和検出回路 1 4からのバークスぺクトル S B を遅延させ、上記遅延回路 2 3は上記 R OM 3 0以前の各回路での遅延量を考慮して上記振幅情報 Amを遅延させるために設けられている。

また、上述した合成回路 1 8での合成の際には、最小可聴カーブ発生回路 2 2 から供給される図 6に示すような人間の聴覚特性であるレ、わゆる最小可聴力一ブ R Cを示すデータと、上記マスキングスぺクトル M Sとを合成することができる。この最小可聴カーブにおいて、雑音絶対レベルがこの最小可聴カーブ以下ならば該雑音は聞こえないことになる。更に、該最小可聴カーブは、コーディングが同じであっても例えば再生時の再生ボリユームの違いで異なるものとなる。ただし、現実的なディジ夕ルシステムでは、例えば 1 6ビットダイナミックレンジへの音楽のはいり方にはさほど違いがないので、例えば 4 k H z付近の最も耳に聞こえやすレ、周波数帯域の量子化雑音が聞こえないとすれば、他の周波数帯域ではこの最小可聴カーブのレベル以下の量子化雑音は聞こえないと考えられる。したがって、このように例えばシステムの持つヮードレングスの 4 k H z付近の雑音が閬こえない使レ、方をすると仮定し、この最小可聴カーブ R Cとマスキングスぺクトル MSとを共に合成することで許容ノイズレベルを得るようにすると、この場合の許容ノィズレベルは、図中斜線で示す部分までとすることができるようになる。なお、本実施例では、上記最小可聴カーブの 4 k H zのレベルを、例えば 2 0ビット相当の最低レベルに合わせている。また、この図 6は、信号スぺクトル S Sも同時に示している。

ここで、上記許容ノイズレベル補正回路 2 0では、補正値決定回路 2 8から送られてくるいわゆる等ラウドネス曲線の情報に基づいて、上記減算器 1 9からの許容ノイズレベルを補正している。すなわち、上記補正値決定回路 2 8からは、上記減算器 1 9からの許容ノイズレベルを、いわゆる等ラウドネス曲線の情報に基づ、て補正するための補正値デー夕が出力され、この補正値デー夕が上記許容ノイズレベル補正回路 2 0に伝送される。このように、上記減算器 1 9からの許容ノイズレベルの等ラウドネス曲線を考慮した補正がなされるようになる。なお、上記等ラウドネス曲線とは、人間の聴覚特性に関するものであり、例えば 1 k H zの純音と同じ大きさに聞こえる各周波数での音の音圧を求めて曲線で結んだ — 9—

/17942 ^{L L} PCT/JP92/00237

もので、ラウドネスの等感度曲線とも呼ばれる。また、該等ラウドネス曲線は、図 6に示した最小可聴カーブ R Cと略同じ曲線である。該等ラウドネス曲線においては、例えば 4 k H z付近では 1 k H zのところより音圧が 8〜1 0 d B下がつても 1 k H zと同じ大きさに聞こえ、逆に 5 0 k H z付近では 1 k H zでの音圧よりも約 1 5 d B高くないと同じ大きさに聞こえない。このため、上記最小可聴カーブのレベルを越えた雑音（許容ノイズレベル）は、該等ラウドネス曲線に応じたカーブで与えられる周波数特性を持つようにするのが良いことがわかる。このようなことから、上記等ラウドネス曲線を考慮して上記許容ノイズレベルを補正することは、人間の聴覚特性に適合していることがわかる。

なお、本実施例においては、上述した最小可聴カーブの合成処理を行わない構成とすることもできる。すなわち、この場合には、最小可聴カーブ発生回路 2 2 ，合成回路 1 8が不要となり、上記引算器 1 6からの出力は、割算器 1 7で逆コンポリューションされた後、すぐに減算器 1 9に伝送されることになる。

本発明のディジタル信号符号化方法においては、入力ディジタル信号を直交変換して臨界帯域に分割し、各臨界帯域毎の許容ノイズレベルに基づいた適応的な割り当てビット数で各臨界帯域の信号成分を符号化すると共に、直交変換後の信号成分をプロックフ口一ティング処理して得たフローテイング係数を伝送するものであり、フローティング処理を臨界帯域よりも狭い帯域の小ブロックで行う場合には、各臨界帯域毎のフローティング係数の代わりに、各臨界帯域毎の許容ノィズレベルに関する情報及び各小プロックのヮード長情報を伝送するようにしたことにより、フローティング係数のためのビット数を減らすことができ、また、ブロックフローティング処理を臨界帯域よりも広い帯域の大ブロックで行う場合には、大ブロック毎のフローティング係数に関する情報を伝送するようにしたことにより、伝送ビット数を低減することができるようになる。

また、フローティング処理を臨界帯域よりも狭い帯域の小ブロックで行う場合には、各臨界帯域内の小プロックのうち 1つの小プロックのヮード長情報を伝送することにより、ワード長情報のためのビット数を減らすことができ、したがつて、より高いビット圧縮が可能となる。

更に、フローティング処理を臨界帯域よりも狭い帯域の小ブロックで行う場合には、小ブロック毎に割り当てられるビット数に応じたワード長の情報を伝送すると共に、臨界帯域毎のフローティング係数の代わりに臨界帯域内の信号レベル範囲から所定レベル分だけ低い方へ指定範囲をずらした許容ノイズレベルに関する情報を伝送するようにしたことで、許容ノィズレベルに関する情報伝送のためのビット数を減らすことができ、したがって、より高いビット圧縮が可能となる o

Claims

請求の範囲 . 入力ディジ夕ル信号を直交変換して臨界帯域に分割し、当該臨界帯域毎の信号の大きさに基づいて設定した各臨界帯域毎の許容ノイズレベルと当該各臨界帯域毎の信号の大きさとの差分のレベルに応じたビット数で上記各臨界帯域の信号成分を符号化すると共に、上記直交変換後の信号成分をプロック化してこのブロック毎にブロックフローテイング処理を行レ、当該プロック毎のフローティング係数を伝送するディジタル信号符号化方法であって、

上記ブロックフローティング処理を上記臨界帯域よりも狭い帯域の小ブロック単位で行う場合には、上記臨界帯域毎のフローティング係数の代わりに許容ノイズレベルに関する情報を伝送すると共に、上記小ブロック毎に割り当てられるビット数に応じたヮ一ド長の情報を伝送することを特徴とするディジタル信号符号化方法。

. 入力ディジ夕ル信号を直交変換して臨界帯域に分割し、当該臨界帯域毎の信号の大きさに基づいて設定した各臨界帯域毎の許容ノイズレベルと当該各臨界帯域毎の信号の大きさとの差分のレベルに応じたビット数で上記各臨界帯域の信号成分を符号化すると共に、上記直交変換後の信号成分をプロック化してこのプロック毎にプロックフ口一ティング処理を行い当該ブロック毎のフローティング係数を伝送するディジタル信号符号化方法であって、

上記プロックフ口一ティング処理を上記臨界帯域よりも広い帯域の大ブロック単位で行う場合には、上記大ブロック毎のフローティング係数に関する情報を伝送すると共に、上記臨界帯域毎に割り当てられるビット数に応じたワード長の情報を伝送することを特徵とするディジタル信号符号化方法。

. 入力ディジ夕ル信号を直交変換して臨界帯域に分割し、当該臨界帯域毎の信号の大きさに基づいて設定した各臨界帯域毎の許容ノイズレベルと当該各臨界帯域毎の信号の大きさとの差分のレベルに応じたビット数で上記各臨界帯域の信号成分を符号化すると共に、上記直交変換後の信号成分をプロック化してこのブロック毎にプロックフローティング処理を行い当該ブロック毎のフローティング係数を伝送するディジタル信号符号化方法であって、

上記プロックフローテイング処理を上記臨界帯域よりも狭い帯域の小プロック単位で行う場合には、各記臨界帯域内の小プロックのうち 1つの小プロックについての割り当てビット数に応じたヮ一ド長情報を伝送することを特徴とするディジタル信号符号化方法。

4 . 入力ディジタル信号を直交変換して臨界帯域に分割し、当該臨界帯域毎の

I 0 信号の大きさに基づレ、て設定した各臨界帯域毎の許容ノイズレベルと当該各臨界帯域毎の信号の大きさとの差分のレベルに応じたビット数で上記各臨界帯域の信号成分を符号化すると共に、上記直交変換後の信号成分をプロック化してこのブロック毎にプロックフローティング処理を行い当該ブロック毎のフローティング係数を伝送するディジタル信号符号化方法であって、

1 5 上記プロックフローティング処理を上記臨界帯域よりも狭い帯域の小プロック単位で行う場合には、上記小ブロック毎に割り当てられるビット数に応じたワード長の情報を伝達すると共に、上記臨界帯域のフローティング係数の代わりに上記臨界帯域内の信号レベル範囲から所定レベル分だけ低レ、方へ指定範囲をずらした許容ノイズレベルに関する情報を伝送することを特徴とするディジ 0 夕ル信号符号化方法。

5 . 上記直交変換は D C Tであることを特徵とする、上記請求項 1乃至 4記載のディジタル信号符号化方法。

6 . 上記臨界帯域は、 0〜2 2 k H zを 2 5の帯域に分割してあり、高い周波数帯域程、帯域幅を広く選定してあることを特徴とする、上記請求項 1乃至 4 5 記載のディジ夕ル信号符号化方法。

7 . 上記臨界帯域毎の信号の大きさは、各帯域毎でのスペクトル強度の振幅情報の総和であることを特徴とする、上記請求項 1乃至 4記載のディジタル信号符号化方法。

8 . 上記振幅情報の総和は、更に所定の重み付けの関数が畳み込まれ、聴覚のマスキング効果が加味されていることを特徵とする、上記請求項 7記載のディジタル信号符号化方法。

o