WO2005004113A1

WO2005004113A1 - オーディオ符号化装置

Info

Publication number: WO2005004113A1
Application number: PCT/JP2003/008329
Authority: WO
Inventors: Hiroaki Yamashita
Original assignee: Fujitsu Limited
Priority date: 2003-06-30
Filing date: 2003-06-30
Publication date: 2005-01-13
Also published as: JP4212591B2; US7613603B2; US20060074693A1; JPWO2005004113A1

Abstract

　量子化／符号化の演算量を大幅に削減し、演算効率の向上を図る。空間変換部（１１）は、音声信号のサンプル値に空間変換を施して変換係数を算出する。量子化ステップサイズ演算部（１２）は、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズ（ｑ）を近似的に算出する。量子化部（１３）は、量子化ステップサイズ（ｑ）にもとづき、変換係数を量子化して量子化値（Ｉ）を求める。スケールファクタ算出部（１４）は、量子化ステップサイズ（ｑ）から、コモンスケールファクタ（ｃｓｆ）と、スケールファクタ（ｓｆ）とを求める。符号化部（１５）は、量子化値（Ｉ）、コモンスケールファクタ（ｃｓｆ）、スケールファクタ（ｓｆ）の少なくとも１つを符号化する。

Description

明細書オーディォ符号化装置技術分野

本発明は、オーディオ符号化装置に関し、特に音声信号の情報を圧縮して符号化を行うォ一ディォ符号化装置に関する。背景技術

移動体通信や CDなどでは、音声のディジタル処理が行われ、ディジタル化された音声信号は、ユーザにとっても身近な存在となっている。ディジタル音声信号を効率よく圧縮，伝送するためには、高能率符号化が行われており、音声圧縮のアルゴリズムは、 MPEG (Moving Picture Expert Group) で標準規格化されている。

MPEGの音声圧縮アルゴリズムの代表的なものには、 MP 3 (MPEGl-Aud io layer3) や MPEG2—AAC (Advanced Audio Codec) がある。 MP 3 は、モノラルまたは 2チャネルの音声信号を符号化の対照とする MPEG— 1ォ —ディォのレイヤ 3の圧縮方式であり（レイヤ 3方式は、レイヤ 1、 2の圧縮方式よりも高品質で高圧縮率）、インタ一ネット上の音楽配信などに広く使用されている。

また、 MPEG2— AACは、 MP E G— 1オーディオとの互換性を排除し、マルチチャネルの音声信号を符号化の対照として、より高音質 ·高圧縮率を達成した圧縮規格である。 MPEG2— AACは、携帯電話を使った音楽配信に向いており、またディジタル（衛星 ·地上波）放送などに採用されることが検討されている。

MP 3及び MP EG 2— AACの符号化アルゴリズムでは、いずれの場合も、入力した P CM (Pulse Code Modulation) 信号をフレーム単位で切り出して空間変換を施し、変換係数を量子化した後に符号化を行なってビットストリームを生成する、という共通のアルゴリズムが使用されている。一方、従来の技術として、量子化歪み及び符号量の適切な値が得られるまで、スケジユーリング係数及び量子化ステップの更新処理を行うォ一ディォ符号化技術が提案されている（例えば、特許文献 1参照）。

特許文献 1

特開 2000— 347679号公報（段落番号〔0059〕〜〔0085

〕，第 1図）

上記のような MP 3及び MP EG 2 _AACの符号化アルゴリズムは、高音質で、最も情報量を減らすことができるように、人間の聴覚特性を考慮しながら、量子化時の量子化ステップサイズ（スケールファクタ）を算出している。しかし、その演算量は非常に大きなものであり、演算効率が悪いため、低コストで演算量の少ない、リアルタイムエンコーダの実現が強く望まれている。

また、従来技術（特開 2000— 347679号公報）でも演算量の削減を目的としているが、スケジユーリング係数及び量子化ステップを更新しながらの反復処理を行って、目標符号量に収束させる制御なので、収束時間の大幅な短縮化とはならず、演算量削減のための最良な技術とはいえない。発明の開示

本発明はこのような点に鑑みてなされたものであり、人間の聴覚特性に応じて行われる、変換係数の量子化演算に対し、演算量の大幅な削減を可能にしたォ一ディォ符号化装置を提供することを目的とする。

本発明では上記課題を解決するために、図 1に示すような、音声信号の符号化を行うオーディオ符号化装置 10において、音声信号のサンプル値に空間変換を施して変換係数を算出する空間変換部 11と、変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブパンド内の変換係数の代表値から、量子ィ匕ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズ qを近似的に算出する量子ィヒステツプサイズ演算部 12と、量子化ステップサイズ Qにもとづき、変換係数を量子化して量子化値 Iを求める量子化部 13と、量子化ステップサイズ qから、フレーム全体のオフセット値であるコモンスケールファクタ c s f と、サブバンド毎のスケールファクタ s f とを求めるスケールファクタ算出部 1 4と、量子化値 I、コモンスケールファクタ c s ί、スケールファクタ s fの少なくとも 1つを符号化する符号化部 1 5と、を有することを特徴とするオーディォ符号化装置 1 0が提供される。

ここで、空間変換部 1 1は、音声信号のサンプル値に空間変換を施して変換係数を算出する。量子ィ匕ステップサイズ演算部 1 2は、変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノィズとから、各サブバンドの量子化ステップサイズ Qを近似的に算出する。量子化部 1 3は、量子化ステップサイズ qにもとづき、変換係数を量子化して量子ィ匕値 Iを求める。スケールファクタ算出部 1 4は、量子化ステップサイズ qから、フレ一ム全体のオフセット値であるコモンスケ一ルファクタ _c s f と、サブバンド毎のスケールファクタ s f とを求める。符号化部 1 5は、量子化値 I、コモンスケ一ルファクタ c s ί、スケールファクタ s ： fの少なくとも 1つを符号化する。本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。図面の簡単な説明

図 1は、本発明のオーディオ符号化装置の原理図である。

図 2は、フレームの概念を示す図である。

図 3は、変換係数とサブバンドのィメージを示す図である。

図 4は、フレームに対するコモンスケールファクタ Zスケールファクタの対応関係を示す図である。

図 5は、量子化の概念を示す図である。

図 6は、可聴限界グラフを示す図である。

図 7は、マスキングパワーしきい値を示す図である。

図 8は、量子化 Z符号化のフロ一チャートを示す図である。

図 9は、量子化 Z符号化のフローチャートを示す図である。

図 1 0は、平均量子化ノイズを説明するための図である。図 11は、 Aと X aの関係を示す図である

図 12は、補正係数の算出概念を示す図である。

図 13は、本発明の全体動作を示すフローチャートである。

図 14は、本発明の全体動作を示すフローチャートである。

図 15は、 MPEG2— AACエンコーダの構成を示す図である。発明を実施するための最良の形態

以下、本発明の実施の形態を図面を参照して説明する。図 1は本発明のオーディォ符号化装置の原理図である。オーディオ符号化装置 10は、音声信号の情報を圧縮して符号化を行う装置（エンコーダ）である。

空間変換部 1 1は、音声信号のサンプル値に空間変換である MD CT (Modified Discrete Cosine Transform) を施して変換係数を算出する。量子化ステップサイズ演算部 12は、変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出する。そして、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステツプサイズ Qを近似的に算出する。

量子化部 13は、近似的に算出した量子化ステップサイズ Qにもとづき、変換係数を量子ィ匕して量子ィ匕値 Iを求める。スケールファクタ算出部 14は、量子化ステップサイズから、フレーム全体のオフセッ卜値であるコモンスケールファクタ c s f と、サブパンド毎のスケールファクタ s f とを求める。符号化部 15 は、量子化値 I、コモンスケールファクタ c s f、スケールファクタ s fの少なくとも 1つを符号化する。符号化の種類としては、例えば、出現率の高いものには短い符号を、出現率の低いものには長い符号を割り当てるハフマン符号化を行う。なお、本発明に関する量子化ノイズの推定算出や量子化ステップサイズの近似算出などの動作については図 10以降で詳しく説明する。

次に本発明に関係する音声情報圧縮の基本的な概念と、従来のエンコーダの量子化手順を示しながら、本発明が解決すべき問題点について詳しく説明する。従来のエンコーダとしては、 MPEG 2—AACのエンコーダを対象にする（MP 3及び MP EG 2—AACにおける量子化の方法は、 I SO (International Organization for Standardization) の規格書、例えば、 MP 3は ISO/IEC 11172-3、 MPEG 2— AACは ISO/IEC 13818-7に記載されている）。

MPEG2 -AAC (以下、単に AACとも呼ぶ）のエンコーダでは、まず P CM信号をフレーム単位で切り出して、 PCM信号に空間変換としてMDCTを施し、 P CMの時間軸上における電力を、空間（周波数）軸上における電力の表現に変換する。

そして、 MDCTの演算結果である MDCT変換係数（以下、単に変換係数）に、人間の聴覚特性に合わせた量子化処理を施し、その後に、ハフマン符号化を行なつて、ビットストリームを生成して伝送路上から出力する。

ここで、 A ACにおいて、変換係数を量子化する式は、以下の式（1) で定義されている（MP 3も同じ式である）。

I = floor ( ( I X I * 2^Λ (-q/4) ) ^Λ (3/4) - 0. 0946)

… (1) ただし、 Iは量子化値、 Xは量子化対象の MDCTの変換係数、 qは量子化ステツプサイズである。なお、 "f l oo r" は、 C言語の関数表記であり、小数点以下切捨てを意味する。また、 Α^ΛΒとは、 Α^Βのことである。

一方、量子化ステップサイズ Qは、以下の式（2) で定義される。

Q =scaleiactor— common _ scalefactor … { Δ ) ただし、 scalefactor (スケールファクタ）は、サブバンド毎のスケールファク夕値であり、 common— scalefactor (コモンスケールファクタ）は、 1つのフレーム全体の量子化ステップサイズのオフセット値である。

ここで、フレームとは符号化処理の単位であり、 AACでは、 2048個の P

CMのサンプル値に MDCTを施して得られる 1024個の変換係数を 1フレームとする。

図 2はフレームの概念を示す図である。アナログ音声をディジタル化して、 2 048個の P CMサンプル値を得た後に、これらサンプル値に MDCTを施して、 1024個の変換係数を 1フレームとする。

一方、サブパンドとは、 1024個の変換係数を、 50個程度にグループ分けした帯域のことである。各帯域には、少なくて 1個、最も多くて 96個の変換係数が含まれ、聴覚特性にもとづき、高帯域になるにしたがって、括る変換係数の

.

数を増やしている。

図 3は変換係数とサブバンドのイメージを示す図である。縦軸はレベル、横軸は周波数である。 1024個の変換係数は、周波数軸上、サブバンド s b 0〜s b 49の 50個の各帯域にグループ分けされている。図からわかるように、帯域の低い側では、 1つのサブバンド内の変換係数の個数は少なく（サブパンドの帯域幅が狭く）、帯域の高い側では、 1つのサブバンド内の変換係数の個数は多く (サブバンドの帯域幅が広く）なっている。

これは、人間の聴覚特性として、低帯域（低音）側は、周波数の差を敏感に感じることができるが（例えば、図の場合、変換係数 x l、 X 2に対応する音の違いは感知できるということ）、高帯域（高音）側は、周波数の差を敏感に感じることができずに、同じ音のように感じてしまうという理由からである（すなわち、人間の聴覚は、低周波の音の方が周波数分解能が高いということである）。

このため、周波数の違いを敏感に感じることができる低い帯域側の信号に対しては、細かいサブバンドで分けるようにし、周波数の違いを感じることが鈍感な高い帯域側の信号に対しては、サブバンドを広くとるようにすることで、人間の聴覚特性に合わせたサブバンドのグループ分けを行っている。

図 4はフレームに対するコモンスケ一ルファクタ Zスケールファクタの対応関係を示す図である。コモンスケールファクタ c s f及ぴスケールファクタ s f 0 〜s f 49を、図 3に対応させた様子を示しており、 1フレームのサブバンド s b 0〜s b49全体で 1つのコモンスケールファクタ c s fが存在する。また、サブバンド s b 0〜s b 49のそれぞれに対応したスケールファクタ s f 0〜s f 49 (全部で 50個）が存在することになる。

したがって、式（2) から例えば、サブパンド s b 0の量子化ステップサイズ Q[s b 0]は、 q[s b 0]= (スケールファクタ s f 0 ) — （コモンスケールファクタ c s f) で求まり、サブバンド s b 1の量子化ステップサイズ Q [S b 1] は、 q[s b 1]= (スケールファクタ s f 1) 一（コモンスケールファクタ c s f) で求まる（以下、同様）。

図 5は量子化の概念を示す図である。ある変換係数 mのレベル（大きさ）を X とする。変換係数 mに量子化を施すということは、式（1 ) からわかるように、単純化すれば、 Xを量子化ステップサイズ Qで割つて余りを捨てている割り算を行うことを意味している（·.· I = I X I ÷ 2 ^{q /4}) 。

図はこの量子化の様子を示すものであり、大きさ Xの変換係数 mを、量子化ステツプサイズとして 2 ^{Q /4}で割って、余りを捨てた結果が 2 * 2 ^{q /4}となっている。したがって、この割り算の商（2 * 2 ^{q /4}) が変換係数 mの量子化値となる。簡単な例でいえば、量子化ステップサイズが 1 0として、 Xを 1 0で割ったときの商が 9 . 6だったとすると、 Xを量子化ステップサイズ 1 0で量子化した際の量子化値は 9となる。

図 5で示した内容からわかるように、量子化の誤差を小さくして、音声品質の向上を図るためには、量子化ステップサイズ（図で示すステップ幅）が、量子ィ匕対象の信号に対して、適切な値であることが重要である。また、この量子化ステップサイズは、上述のようにスケールファク夕とコモンスケールファクタから算出されるものである。

すなわち、量子化及び符号化の処理として、最も音質に影響を与える重要な箇所は、各サブバンドのスケールファクタと、フレームのコモンスケールファクタとの最適値を決定することであるといえる。この 2種類のスケールファクタの最適値が決定してしまえば、その後は式（2 ) からサブバンド毎の量子化ステップサイズがわかり、これを式（1 ) の量子化式に代入することで（サブバンド s b 内の各変換係数の値を、サブバンド s b対応の量子化ステップサイズで割り算することで）、変換係数を量子化した値が求まる。

そして、量子化値をィンデックスとしたハフマンテ一ブルで八フマンコードに符号化して伝送路上へ送信することになる。ところが、ここで問題となるのが、 I S Oで規定されている方法では、スケールファクタとコモンスケールファクタの最適値を決定するためには、多大な演算量を必要としているということである。以降演算量が多大となる従来の処理について説明する。スケールファクタとコモンスケールファクタを決定する際には、人間の聴覚特性の 1つであるマスキングパワーしきい値にもとづいて決定される。マスキングパワーしきい値とは、人間が聞こえる最小の音圧値のことである。図 6は可聴限界グラフを示す図である。可聴限界グラフ Gの縦軸は音圧（d B ) 、横軸は周波数（H z ) である。人間の可聴範囲（2 0〜2 0，0 0 0 H z ) における聴覚の感度は、均一ではなく周波数によって違っており、 3〜4 k H zをピークに低域と高域の感度が急激に落ち込む。このことは、低い周波数及び高い周波数側の音は、音量を大きくしないとよく聞こえないということである。図のグラフ Gは、斜線部分が可聴範囲である。低域側または高域側では、音圧 (音量）が高くないと聞こえにくく、 3〜4 k H zでは、音圧が小さくてもよく聞こえることがわかる（老人の場合では、可聴範囲の領域が狭くなつてくる）。マスキングパワーしきい値は、この可聴限界グラフ Gにもとづいて、ある周波数 fではレベル L以下は聞こえないといったしきい値を、フ一リエ変換（F F T : Fast Fourier Transform) の演算によって求めたものである。

図 7はマスキングパワーしきい値を示す図である。縦軸はしきい値のパワーであり、横軸は周波数である。 1フレームの周波数帯域は、サブバンド s b 0〜 s b 4 9でグループ分けされており、サブバンド毎に求められたマスキングパワーしきい値が示されている。

ここで、サブパンド s b 0のマスキングパワーしきい値は M 0となっている。これは、サブバンド s b 0の帯域においては、パワー M 0以下の信号（音）は、聞こえづらいということである。このため、信号処理を行う上では、しきい値 M 0以下の信号はノイズとみなしてよい（これにより、マスキングパワーしきい値は許容ノイズしきい値とも呼ばれる）。

したがって、量子化処理を行う場合では、すべてのサブバンドに対し、サブバンド毎の量子化誤差（量子化誤差のパワー）が、それぞれのサブバンドに対応するマスキングパワーしきい値以下になるような量子化を施せばよいことがわかる。このことは、サブバンド s b 0についていえば、マスキングパワーしきい値 M 0よりも量子化誤差パワーが小さくなるような、スケールファクタ及びコモンスケールファクタを決定すればよいということである。

一方、サブバンド s b 0のマスキングパワーしきい値 M 0とサブバンド s b 1 のマスキングパワーしきい値 M lとを比較すると、 M 0 >M 1である。このように、許容できるノイズの大きさはサブバンド毎に異なっている。したがって、サブパンド s b Oでは、サブバンド s b 1よりも許容できるノィズレベルが大きいので、サブバンド s b 1よりも量子化誤差は大きくてよい（サブバンド s b 0は、サブバンド s b 1よりも粗く量子化してよい）。

また、サブパンド s b 1は、サブバンド s b 0よりも許容できるノイズレベルが小さいので、サブバンド s b 0よりも量子化誤差は小さくする必要がある（サブバンド s b 1は、サブバンド s b 0よりも細かく量子化する）。

なお、図に示す 1フレーム中、サブパンド s b 4のマスキングパワーしきい値が一番小さく、サブバンド s b 4 9のマスキングパワーしきい値が一番高い値だとすると、サブバンド s b 4は、許容できるノイズレベルが小さく、聴覚に最も敏感な箇所ということになるため、 1フレ一ム中の量子化誤差が最も小さくなるように量子化しないと、音質劣化が感知されてしまう。また、サブバンド s b 4 9は、許容できるノイズレベルが大きく、 1フレーム中、最も粗く量子化してよい。

このように、各サブバンドに対するスケールファクタ及びフレームのコモンスケ一ルファクタを決める際には、上記のようなマスキングパワーしきい値との兼ね合いを見ていくことになるが、この他に、符号化に必要なビットレートは決められているので、使用可能な全体のビット数も満たすようにしなければならない

(例えば、 1 2 8 k b p sの符号化レートというように、符号化のビットレートはあらかじめ決められているので、そのビットレートから設定される情報量（ビット量）を守る必要がある）。

なお、 AA Cでは、フレーム間のビット数を適応的に可変できるように、ピットリザーバという一時的なビット貯蔵庫をもっている。符号化に使用可能なビット数は、設定されたビットレートと、聴覚モデルの聴覚エントロピ一と、ビットリザ一バにあるビット量とから算出される（聴覚エントロピーとは、フレームの入力音声信号を F F Tした周波数スペクトルから求められるもので、リスナーが雑音を知覚することがないように、そのフレームを量子化するのに必要な総ビット数とみなしてよい。例えば、広い帯域に渡ってスペクトルが延びるインパルス音やホワイトノイズなどでは大きな値を示し、このような場合には、符号化ピッ卜が多く必要であると判断される）。このように、 2種類のスケールファクタを求めるには、マスキングパワーしきい値及び符号化使用可能ビット数の両方を満たすように決定することになるが、 I S Oによる従来の技術では、 2種類のスケールファクタを 1つずつ更新しながら量子化と逆量子化を繰り返す反復処理を行つて求めている。

従来処理の流れについて記すと、まず最初に、コモンスケールファクタ及びスケールファクタに初期値を設定する。そして、初期値を設定したコモンスケールファクタ及びスケールファクタで、変換係数を量子ィヒしてみる。そして、量子ィ匕値を逆量子化してから、量子化誤差を求める（量子化誤差は、量子化する前の値 (変換係数の値）と、逆量子化値の差分値のことである）。

その後、サブバンド内の最大の量子化誤差とマスキングパワーしきい値とを比較して、量子ィ匕誤差パワーがマスキングパヮ一しきい値よりも大きければ、スケールファクタをカウントアツプして次のスケールファクタで再び、量子化—逆量子化→ノイズパワー評価を行う。また、サブバンド内の量子化誤差パワーの最大値がマスキングパワーしきい値よりも小さければ、次のサブバンドへ移る。

このようにして、すべてのサブバンドに対して、量子化誤差がマスキングパヮ一しきい値よりも小さくなつた後に（この時点でスケールファク夕はすべて算出されている）、ハフマン符号化してビット量を換算し、そのビット量が符号化レ一トで設定される所定のビット量以下であるか否かを判断する。

このとき、換算ビット量が所定ビット量よりも小さければ終了できるが、所定ビット量を超えてしまう場合には、コモンスケールファクタを 1つカウントアツプして、最初に戻り、 1つカウントアップしたコモンスケールファクタとスケールファクタの初期値とから、あらためて量子化、逆量子化を行って、再び量子化誤差とマスキングパワーしきい値との評価演算を行っていく。

図 8、図 9は量子化 Z符号化のフローチャートを示す図である。上記の従来の反復処理による動作をフローチャートで示している。

〔 S 1〕 common— scalefactor の初期値を算出する。なお、 AA Cの規格書には、初期値の算出式として以下の式（3 ) が定義されている。ただし、 Xmaxは、フレーム内の変換係数の最大値である。

common_scalefactor=(l6/3)*(log₂(Xmax^A(3/4)/819l)) · · · ( 3 ) 〔S 2〕処理対象のサブバンドを示す変数 s bを初期化する（s b=0) 。

〔S 3〕 scalefactor[sb]を初期化（scalefactoi'[sb]=0) する。

〔S 4〕量子化処理対象の MDCTの変換係数を表す変数 iを初期化する。

〔S 5〕変換係数 X[i]を量子化する。量子化の式は以下の式（4 a) 、 (4 b) である（式（1) 、（2) に変数要素 [i]を入れただけである）。 QX[i] は量子化値を表す。

q= common _ scale iactor - scalefactor [SDJ … 、4 a)

QX[i]=floor ((IXtiJl *2^A(-q/4))^A3/4 - 0.0946) … （4b)

〔S 6〕量子化した変換係数を逆量子化する。逆量子化の式は、以下の式（5) である。 X_ i]は逆量子化値を表す。

X"¹ [i] = QX[i]^A(4/3)*2^A(-l/4*q) … (5)

〔S 7〕変換係数の量子化および逆量子化による量子化誤差パワー（ノイズパヮ ―) N[i]を以下の式（6) で算出する。

N[i] = (X-i [i] - QX[i])^A2 … (6) 〔S 8〕サブバンド内のすベての変換係数の処理が完了したか否かを判断する。完了していればステップ S 10へいき、完了してなければステップ S 9へいく。〔S 9〕変数 iを更新し、ステップ S 5へ戻る。

CS 10〕サブバンド内の量子ィヒ誤差パワーの最大値 MaxNを求める。

〔S 1 1〕量子化誤差パワーの最大値 MaxN と、聴覚モデルのマスキングパヮ —しきい値 M[sb]とを比較する。 MaxN<M[sb]である場合（ノイズの最大値がマスキングパワーしきい値を下回っている場合）、該当サブバンドの量子化はとりあえず完了としてステップ S 13へいき、そうでなければもっと細かく量子化する必要があるということでステップ S 12へいく。

〔S 12〕 scalefactor [sb]を更新し、ステップ S 4からやり直す。

CS 13〕すべてのサブバンドの処理が完了したか否かを判断する。完了していればステップ S 1 5へいき、完了してなければステップ S 14へいく。

〔S 14〕サブバンドを示す変数 s bを更新して、ステップ S 3へ戻る。

〔S 1 5〕すべての変換係数の量子化が完了したので、量子化値をもとにハフマン符号化を行う。〔S 16〕ハフマン符号化値から、消費するビット数を算出する。

〔S 1 7〕消費ビット数があらかじめ決められた許容ビット数に収まっているか否かを判断する。収まっているならば量子ィヒ /符号化処理を終了し、そうでなければステップ S 18へいく。

〔 S 18〕 common— scalefoctorを更新して、ステップ S 2からやり直す。以上説明したように、従来の技術では、処理を完了させるために、 1つの変換係数に関して、最適な量子化ステップサイズ値（2つのスケールファクタ値）を探すために、総当りで何度も何度も量子化と逆量子化処理及び符号化処理を行なう必要があった。このため、演算処理量が非常に大きくなり、また処理が収束せずに無限ループに入ってしまう場合もあり（このようなことが起きたときには、許容値を緩める処理が起動される）、演算効率が非常に悪いものであった。本発明ではこのような問題点を解決し、演算量を削減して演算効率の向上を実現したオーディォ符号化装置を提供するものである。

次に本発明の量子化ステップサイズ演算部 12で行われる、量子化ノイズの推定算出及び量子化ステップサイズの近似算出について詳しく説明する。本発明では、低演算量のエンコーダを実現するために、 2種類のスケールファクタの算出を、一回の演算で近似する。

まず、量子化値 Iを求める上述の式（1) の量子化式を以下のように変形する (式中、 floorの記号は省略）。なお、 X aは各サブバンド内の変換係数の代表値とする。例えば、該当サブバンド内に含まれる複数の変換係数の平均値を代表値としてもよいし、該当サブバンド内に含まれる複数の変換係数の中の最大値を代表値としてもよい。また、量子化ステップサイズを Qとおく。

I = ( I Xa I * 2^Λ (一 dZ4) ) ^Λ (3/4) —0. 0946

= I Xa Γ (3/4) * 2^Λ ( (-q/4) * (3/4) ) — 0. 0946 = I Xa Γ (3/4) * 2^Λ (- 3 q/16) _0. 0946 ··· (7) ここで、式 (7) 中の I Xa (3/4) に対して、 I Xa (3/4) =Aとすると、以下の式（8) となる。

I =Α* 2^Λ (- 3 q/16) - 0. 0946 ·'· (8) 式（8) から、 Αは 2^Λ (3 q/16) の割り算（ = A/2 ^(3q/16) ) であるから、 Aは 2 ( ハ⁶⁾で量子化されているということであり、この割り算の分母（_{= 2} (3 Q/16) ) が量子化精度に影響を与えるパラメ一夕となっている（A を丸める際の幅、すなわち、量子化ステップサイズである）。そして、この分母を 2で割って平均すると以下の式（9) となる。

2^Λ (3 q/16) /2-2^Λ ( (3 q/16) -1) ■·· (9) この式（9) は、 Aの量子化ノイズを平均した値（平均量子化ノイズ）を表している。図 10は平均量子化ノイズを説明するための図である。例えば、量子化ステップサイズである 2 ^(3Q/16)に対して、 Aの値（大きさ）が図に示すような位置にあるとする。このとき、間隔 bが、 Aを量子化ステップサイズ 2 ^(3q/1 ⁶⁾で量子化した際の量子ィ匕ノイズ（量子化誤差）となる。

Aがちょうど P 1の位置にあれば、 Aは 2 ^(3Q/16)で割り切れるということなので、間隔 bはゼロであり、量子化ノイズは最小値 0になる。また、 Aが P2 の位置にあれば、間隔 bは 2 ^(3Q/16)となって、このときは量子化ノイズは最大値の 2 ^(3Q/16)になる。

量子化ノイズは、 0〜2 ^(3q/16)で一様に分布すると考える。したがって、 2 ^(3Q/16)を 2で割る式（9) は、この分布の平均値（分布の真ん中の値）を Aの平均量子化ノイズとすることを意味している。

このように、 Aの平均の量子化ノイズは式（9) として求まるが、実際に必要なものは、 X aの量子化ノイズである。ここで、 Aと X aの関係が、もし線形であったならば（A=k* I Xa I)、式（9) で求めた Aの平均量子化ノイズを、 X aの平均量子ィ匕ノイズとしてよい。

しかし、実際は A= I Xa (3/4) であって、 Xaに 3/4の累乗がかかっているので、 Aと X aの関係は非線形の関係にあり（X aは非線形圧縮信号である）、式（9) をそのまま Xaの平均量子化ノイズとすることはできない。図 11は Aと X aの関係を示す図である。縦軸に A、横軸に Xaをとり、 A= Xa^A (3/4) の指数関数のグラフを示している。 Aを等間隔に区切った A 1、 Α2、 · · ·に対応する X aを X a 1、 X a 2、 ···とすると、 X a l、 X a 2、 ···のそれぞれの間隔は、等間隔ではなく広がってくることがわかる。

X aの量子化は、 X aの振幅に応じて量子化ステップサイズも可変にする非線形量子化であって、 X aの量子ィヒノイズを求める場合にも、 X aの振幅に応じて、量子化ステップサイズである 2 ^<3q/16)を補正する必要がでてくる。補正係数 (非線形圧縮係数）を rとすると、補正係数 rは以下の式（10) となる。

r = I Xa I / ( I Xa I ^Λ (3/4) ) = | Xa (1/4)

… （10) 図 12は補正係数 rの算出概念を示す図である。 Aの量子化ステップサイズ 2 (^3q/16)による量子化に対し、 A= I Xa I ^Λ (3/4) なので Αを Χ_Αに伸張させる場合を考える。 Αを Χ_Αに伸張させるには、伸張の比率 rを 2 ^(3q/16)に乗算する必要がある。 r=X_A/Aであって、式（10) のように求まることがわかる。

例えば、 7の 2による量子化に対して、 7を 10. 5に伸張させた場合の量子化ステップサイズを求めると、比率 rは 1. 5 (=10. 5/7) なので、 2に 1. 5を掛けた 3が、 7を 10. 5に伸張させた場合の量子化ステップサイズになる。

したがって以上の説明により、 I Xa ]の平均量子化ノイズは、式（9) の A の平均量子化ノイズ（量子化ノイズ概算値）に式（10) の補正係数 rを乗算したものとなり、以下の式（1 1) となる。

2^Λ ( (3 q/16) - 1) * I Xa に (1/4) … （1 1) 式（1 1) は要するに、 I Xa (3/4) の 2 ^(3q/16)による量子化、すなわち Π Xa (3/4) } ÷2 ^(3q/16)という割り算に対して、この割り算の分母の 2 ^(3Q/16)を 2で割って、それに補正係数 rを乗算したものである。次に X aの平均量子化ノィズを用いて量子ィ匕ステツプサイズ qを求めるが、 X aの平均量子化ノイズは 1つのサブパンドに対応するものであって、この平均量子化ノィズが該当サブバンドのマスキングパワーしきい値 Mを超えないような Q を決定すればよいことになる。すなわち、マスキングパワーしきい値 Mを振幅に直したもの（平方根をとつたもの）と、式（11) との等号をとつて qを算出する。

M八 (1/2) =2^Λ ( (3 q/16) — 1) * I Xa |八 (1/4)

… (12) 式（12) を以下のように展開していくと、各サブバンドの量子化ステップサィズ qは式（13 c) となる。

2^Λ ( (3 q/16) - 1) =Μ^Λ (1/2) * I Xa （—1,4)

… （13 a) (3 q/16) - 1= 1 o g₂ (Μ^Λ (1/2) * I Xa (- 1/4) )

… （13 b) q=[ l o g₂ {Μ^Λ (1/2) * I Xa （一 1,4) } + 1]* 16/3

… (13 c) なお、上記では、量子化ノイズの平均値から量子化ステップサイズを近似的に算出したが、量子化ノイズの最大値から求めてもよい。この場合、 Aの最大量子化ノイズは 2^Λ (3 q/16) であり、これに補正係数 rを掛けて、 | Xa |の最大量子化ノイズは式（14) となる。

2^Λ (3 q/16) * I Xa I ^Λ (1/4) ··· (14) このときの量子化ステップサイズ Qは、上記と同様にして、マスキングパワーしきい値 Mを振幅に直したものと式（14) とを等しいとおいて計算すると、式 (15) となる。

q=[ l o g₂ {Μ^Λ (1/2) * I Xa (- 1/4) } ]* 16/3

… (1 5) なお、上記の平均量子化ノイズは 2 (^3Q/16)を 2¹で割ったもの、最大量子化ノイズは 2 ^(3Q/16)を 2。で割ったものとみなせるので、 2 ^(3q/16)を 2ⁿで割つたものを量子化ノイズの一般値とすると、量子化ステップサイズは式（16) と書くことができる。 n=0、 1、 2、 ' であり、 n = 0の場合が最大量子化ノイズとマスキングパワーしきい値とを評価したときの Qであり、 n= 1の場合が平均量子化ノイズとマスキングパワーしきい値とを評価したときの qである。

q=[ l ο g₂ {Μ^Λ (1/2) * I Xa I ^Λ (一 1,4) } +n]* 16/3

(n=0、 1、 2、 ···) … (16) そして、量子化部 1 3では、このように近似的に求めた量子化ステップサイズ Qを、式（1) に代入することで、個々の変換係数 Xにおける量子化値を算出する。その後、量子化値は、符号化部 1 5でハフマン符号化されて送信される。また、デコーダ側に送信する情報は、量子化値だけでなく、コモンスケールファク夕及びスケールファクタの値も送信することになつている。したがって、量子化ステップサイズ Qからコモンスケールファク夕及びスケールファクタを求める必要がある。

従来では、コモンスケールファクタを算出する場合は式（3 ) を使用していたが、本発明では 1フレームのすべてのサブバンドに対応する複数の量子化ステツプサイズの中の最大の量子化ステツプサイズを、コモンスケールファクタと設定する（すなわち、近似的に算出した、サブバンド毎の量子化ステップサイズの最大値をコモンスケールファクタとする) 。また、各サブバンドのスケールファク夕は式（2 ) を変形して以下の式（1 7 ) から算出される。式中の max. cjは量子化ステップサイズ最大値を表す。

scale factor L s b]=common _ scalefactor— q [ s b] =max. Q— q [ s bj

… ( 1 7 ) このように、量子化ステップサイズ Qからコモンスケールファクタ及びスケ一ルファクタを求める。符号化部 1 5では、これらをハフマン符号化して、コモンスケ一ルファクタ及びスケールファク夕もデコ一ダ側に送信する。

なお、コモンスケールファクタを量子化ステップサイズの最大値としたのは、スケールファクタ値の符号化に要するビット数をできるだけ小さくして、符号化部 1 5での符号化効率を上げるためである。

次に本発明の動作をフローチャートを用いて説明する。図 1 3、図 1 4は本発明の全体動作を示すフローチャートである。

C S 2 1〕空間変換部 1 1は、 P C Mサンプル値に MD C Tを施し、変換係数を算出する。

〔S 2 2〕量子化ステップサイズ演算部 1 2は、サブバンド毎に変換係数の代表値を求める（空間変換部 1 1でこの処理を行ってもよい）。

C S 2 3〕量子化ステップサイズ演算部 1 2は、式（1 3 c ) を用いて、該当サブバンドの量子化ステップサイズ Qを算出する。

C S 2 4〕量子化ステップサイズ演算部 1 2は、 1フレーム中のすべてのサブバンドに対する量子化ステップサイズを求めたか否かを判断する。すべて求めた場合はステップ S 2 5へいき、そうでなければステップ S 2 3へ戻る。

〔S 2 5〕スケールファクタ算出部 1 4は、量子化ステップサイズの最大値をコモンスケ一ルファクタと設定する。

C S 2 6 ] スケールファクタ算出部 1 4は、式（1 7 ) からサブバンド毎のスケールファクタを算出する。

C S 2 7 ] 量子化対象のサブバンドを示す変数 s bを初期化する（s b = 0 ) 。 C S 2 8〕量子化部 1 3は、サブバンド毎に求めた量子化ステップサイズで、式 ( 1 ) を用いて、サブバンド内の変換係数を量子化する。

〔S 2 9〕符号化部 1 5は、量子化値、コモンスケールファクタ、スケールファクタをハフマン符号化し、現在のサブバンドまでの消費ビット数を算出する。

〔S 3 0〕符号化部 1 5は、消費ビット数（量子化値、コモンスケールファクタ、スケールファクタのそれぞれに対する符号化割り当てビット）があらかじめ決められた許容ビット数を超えているか否かを判断する。超えていればステップ S 3 1へいき、超えていなければステップ S 3 2へいく。

〔S 3 1〕処理対象のサブバンドのビットを加算することで、許容ビット数がォ —バすることになつたので、符号化部 1 5は、該当サブパンドを符号化対象から外す（符号化処理を停止する）。

〔S 3 2〕符号化部 1 5は、すべてのサブバンドの処理を行ったか否かを判断する。すべて行った場合は終了し、そうでなければステップ S 3 3へいく。

〔S 3 3〕サブパンドを示す変数 s bを更新して、ステップ S 2 8へ戻る。

以上説明したように、本発明によれば、各変換係数につき 1回の量子化処理を行うだけですみ、また逆量子化を行っての量子化誤差パワー算出処理なども不要となるため、大幅に演算量が削減できることになる。

また、上記のフローチャートからわかるように、低いサブパンドから、次々とより高いサブバンドに対して処理を行って、許容ビット数をオーバするところで処理を止めている。許容ビット数は、ビットリザーパにあるビット数と設定ビットレートを加算したものとし、聴覚エントロピーなどは必ずしも算出する必要がない。このため、本発明は周波数特性が広いフレームについては、多くビットをアサインし、狭いフレームについては、少なくビットをアサインする動作となる。すなわち、聴覚エントロピーの大小にしたがって自動的に必要なビット数をアサインする結果となり、処理の簡素化が実現でき、プログラムメモリ量や演算量をより削減することが可能になる。

ここで、従来と本発明との演算速度の違いについて説明する。従来の音声圧縮のアルゴリズムで、リアルタイムエンコーダを実現する場合には、組み込み型のプロセッサの処理能力として 3 GHz程度のクロックが必要である。一方、本発明のアルゴリズムでは、 60 MHz程度のクロックでリアルタイムエンコーダを実現することができ、 1Z50以下に演算量を削減した測定結果を得た。

次に本発明のオーディオ符号化装置 10を適用した MP EG 2—AACェンコーダについて説明する。図 15は本発明を適用した MP EG 2—AACェンコ一ダの構成を示す図である。 MPEG2— AACエンコーダ 20は、心理聴覚分析部 21、ゲインコント口一ラ 22、フィルタバンク 23、 TNS (Temporal Noise Shaping) 24、インテンシティ/カツプリング部 25、予測部 26、 M / S (Middle/Side) 27、量子化ノ符号化部 10 a、ビットリザーバ 28、ビットストリーム生成部 29から構成される。量子化 Z符号化部 10 aは、図 1 で示した量子化部 13、スケールファクタ算出部 14、符号化部 15の構成要素を含んでいる。

なお、 AACアルゴリズムには、複雑度 ·構造に応じて 3つのプロファイルが用意されており、ここでは最も高音質の得られる Mainプロファイルの処理を中心に説明する。

入力されたオーディオ信号は、所定のサンプル数毎にブロック化され、それを 1フレームとして処理される。心理聴覚分析部 21は、入力フレームをフ一リエ変換して周波数スペクトルを求め、それを元に聴覚のマスキングを計算し、マスキングパワーしきい値と、そのフレームに対する聴覚ェントロピーのパラメ一夕を求める。

ゲインコントローラ 2 2は、 3つのプロファイルの S S R ( Scalable Sampling Rate) のみで使用されるツールであり、入力時間信号を帯域分割フィル夕で 4分割して、最も低いバンド以外の信号のゲインをコントロールする。フィル夕バンク 2 3は、 MD C T部に該当し、入力時間信号に MD C Tを施して変換係数を算出する。 TN S 2 4は、変換係数を時間軸上の信号であるかのように見立てて線形予測を行い、変換係数に対して予測フィルタリングを行う。この処理により、デコーダ側で逆 MD C Tして得られる波形に含まれる量子化ノィズは、信号レベルの大きなところに集まるようになる。なお、ゲインコントローラ 2 2、 TN S 2 4は、特に打楽器などの切れのよい音を効率よく符号化するために用いられるツールである。

インテンシティ Zカップリング部 2 5及ぴ MZ S 2 7は、 2チャンネル以上のチャネル構成の場合に、チャネル間の相関を利用して符号化効率を上げるツールである（ステレオのオーディオ信号を効率よく符号化するために用いられるツールである）。

インテンシティステレオは、左 (L) と右 (R) のチャネル信号の和信号とパヮ一の比を符号化する。カップリングは、背景音の中に定位させたい音をカップリングチャネルとして符号化する。 M/ S 2 7は、左 (L ) チャネルと右 (R) チャネルの信号の符号化、またはそれぞれの和（L + R) と差（L一 R) の信号の符号化のいずれかをサブバンド毎に選択して行う。

予測部 2 6は、 Main プロファイルだけで使用される。変換係数 1つ毎に、過去 2フレームにおける量子化された変換係数から現在の変換係数の値を予測し、その予測残差を求める。特に入力信号が定常的である場合、非常に大きな予測ゲインが得られ、変換係数の電力（分散）が小さくなる。同じ量子化雑音電力が許容されるならば、量子ィヒ対象の分散が小さい方が必要なビット数を少なくできるので、圧縮する際に有利となる。

上記の各ツールで処理された変換係数は、本発明の主要部である量子化 Z符号化部 1 0 aに入力される。量子化 Z符号化部 1 0 aでは、サブパンド毎にグループ分けした変換係数に対して、 1回の演算で高速に量子化 Z符号化を行う。詳細動作は上述したので説明は省略する（量子化 Z符号化部 1 0 aに相当する従来の AA Cエンコーダの構成部分は、 Iteration Loops と呼ばれ反復処理を行うブロックで構成されている。従来の量子化 ·ハフマン符号化の処理は反復ループで行われ、実際に生成される符号量がフレームに割当てられたビット数を下回るまで繰返される効率の悪いものであった）。

ビットリザーバ 2 8は、ハフマン符号化する際に、フレームの割り当てビット数を適応的に可変するためのビットをバッファリングしておくものである。ビットリザ一パ 2 8によって擬似的な可変ビットレートを設定することができる。ビットストリ一ム生成部 2 9は各ツールからの符号化データをまとめて 1つの AA Cビットストリームとして伝送路から出力する。

このように、本発明によれば、マスキングパワーしきい値を下回るスケールファクタを算出するために従来のような試行錯誤をする必要がなく、 1回の演算で近似できるために、演算量を大幅に削減することが可能になる。また、演算負荷を軽減できることから装置の小型化、低コスト化も可能になる。なお、上記では、本発明を M P E G 2—AA Cエンコーダに適用した例を示したが、これ以外にも M P E G 4— AA Cエンコーダや M P 3エンコーダ、またはその他の音声符号化エンコーダに対して幅広く本発明を適用することが可能である。

以上説明したように、本発明のオーディオ符号化装置は、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズを近似的に算出する。そして、量子化ステップサイズにもとづき、変換係数を量子化して量子化値を求め、コモンスケールファクタ及びスケールファクタを求めて、これらを符号化する構成とした。これにより、人間の聴覚特性に応じて行われる、変換係数の量子化演算に対して、演算量の大幅な削減を実現することができ、演算効率の向上を図ることが可能になる。

上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

Claims

請求の範囲

1. 音声信号の符号化を行うオーディォ符号化装置において、

音声信号のサンプル値に空間変換を施して変換係数を算出する空間変換部と、変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブパンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズを近似的に算出する量子化ステップサイズ演算部と、

量子化ステップサイズにもとづき、変換係数を量子化して量子化値を求める量子化部と、

量子化ステップサイズから、フレーム全体のオフセット値であるコモンスケールファクタと、サブバンド毎のスケールファク夕とを求めるスケールファクタ算出部と、

量子化値、コモンスケールファクタ、スケールファクタの少なくとも 1っを符号化する符号化部と、

を有することを特徴とするオーディォ符号化装置。

2. 前記量子化ステップサイズ演算部は、変換係数の代表値の量子化ノイズ概算値を求めた後に、量子化ノイズ概算値に補正係数を乗算して、非線形圧縮に対応した量子化ノイズを推定算出することを特徴とする請求の範囲第 1項記載のォ一ディォ符号化装置。

3. 前記量子化ステップサイズ演算部は、変換係数の代表値を Xa、量子化ステツプサイズを Qとした場合の量子化式

I Xa (3/4) * 2^Λ (- 3 q/16) —0. 0946

に対して、 I Xa （3/4) の量子化ノイズ概算値 N aを

Na = 2^A (3 q/16) / 2ⁿ (n=0、 1、 2、 ···)

によって求め、

補正係数 rを

r= | Xa | Z | Xa (3/4) = I Xa I ^Λ (1/4)

によって求めて、量子化ノイズ Νを N = Na * r = 2^Λ ( (3 q/16) 一 n) * I Xa I ^Λ (1/4)

で算出することを特徴とする請求の範囲第 2項記載のオーディォ符号化装置。

4. 前記量子化ステップサイズ演算部は、マスキングパワーしきい値を Μ、変換係数の代表値を X aとした場合に、

q=[ l o g₂ {Μ^Λ (1/2) * I Xa I ^Λ (—1,4) } +n]* 16Z3

(n = 0、 1、 2、 ···）の式から量子化ステップサイズ Qを近似的に算出することを特徴とする請求の範囲第 1項記載のオーディォ符号化装置。

5. 前記スケールファクタ算出部は、各サブバンドの量子化ステップサイズの最大値をコモンスケールファクタと設定し、コモンスケールファクタから量子化ステツプサイズを減算して、サブバンド毎のスケ一ルファクタを求めることを特徵とする請求の範囲第 1項記載のオーディォ符号化装置。

6. 前記符号化部は、低い帯域のサブバンドから符号化を行って符号化に使用した消費ビット数を算出し、消費ビット数が許容ビット数を上回る場合は、上回る手前のサブバンドで符号化処理を完了し、下回っている場合は継続して次のサブバンドの符号化処理を行うことを特徴とする請求の範囲第 1項記載のオーディォ符号化装置。

7. マルチチャネル対応の音声信号の符号化を行う MPEG— AACェンコ一ダにおいて、

音声信号のサンプル値を、フーリエ変換を用いて分析して、マスキングパワーしきい値を算出する心理聴覚分析部と、

音声信号のサンプル値に MD C Tを施して、変換係数を算出する MD C T部と、変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブパンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパヮ一しきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズを近似的に算出する量子化ステップサイズ演算部と、量子化ステップサイズにもとづき、変換係数を量子化して量子化値を求める量子化部と、量子化ステップサィズから、フレーム全体のオフセット値であるコモンスケールファクタと、サブバンド毎のスケールファクタとを求めるスケールファクタ算出部と、量子化値、コモンスケールファクタ、スケールファクタの少なくとも 1つをハフマン符号化する符号化部と、から構成される量子化ノ符号化制御部と、

ハフマン符号化する際に、フレームの割り当てビット数を適応的に可変するためのビットをバッファリングしておくビットリザ一バと、

を有することを特徴とする MPEG— AACエンコーダ。

8. 前記量子化ステップサイズ演算部は、変換係数の代表値の量子化ノイズ概算値を求めた後に、量子化ノイズ概算値に補正係数を乗算して、非線形圧縮に対応した量子化ノィズを推定算出することを特徴とする請求の範囲第 7項記載の M PEG— AACエンコーダ。

9. 前記量子化ステップサイズ演算部は、変換係数の代表値を Xa、量子化ステップサイズを Qとした場合の量子化式

I Xa I ^Λ (3/4) * 2^Λ (- 3 q/16) —0. 0946

に対して、 I Xa I ^Λ (3/4) の量子化ノイズ概算値 Naを

Na = 2^A (3 q/16) /2ⁿ (n=0、 1、 2、 ···)

によって求め、

補正係数 rを

r = I Xa I Z l Xa (3/4) = I Xa (1/4)

によって求めて、量子化ノイズ Nを

N = Na * r = 2^A ( (3 q/16) — n) * I Xa I ^Λ (1/4)

で算出することを特徴とする請求の範囲第 8項記載の M PEG— AACェンコ一ダ。

1 0. 前記量子化ステップサイズ演算部は、マスキングパワーしきい値を Μ、変換係数の代表値を X aとした場合に、

Q=[l o g₂ {Μ^Λ (1/2) * I Xa (- 1/4) } +n]* 16/3

(n=0、 1、 2、 ··■) の式から量子化ステップサイズ qを近似的に算出することを特徴とする請求の範囲第 7項記載の MP EG— A ACエンコーダ。

1 1. 前記スケールファクタ算出部は、各サブバンドの量子化ステップサイズの最大値をコモンスケールファクタと設定し、コモンスケールファクタから量子化ステップサイズを減算して、サブバンド毎のスケールファクタを求めることを特徴とする請求の範囲第 7項記載の MP EG— A ACエンコーダ。

12. 前記符号化部は、低い帯域のサブバンドから符号化を行って符号化に使用した消費ビット数を算出し、前記ビットリザーバにあるビット数と、設定ビットレートとを加算した値である許容ビット数に対して、消費ビット数が上回る場合は、上回る手前のサブパンドで符号化処理を完了し、下回っている場合は、継続して次のサブバンドの符号化処理を行うことを特徴とする請求の範囲第 7項記載の MP EG— A ACエンコーダ。

13. 音声信号の量子化処理に対して、量子化ステップサイズを決めるパラメ一夕であるコモンスケールファクタ及びスケールファクタを算出するスケールファクタ算出方法において、

音声信号のサンプル値に空間変換を施して変換係数を算出し、

変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、

聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステツプサイズを近似的に算出し、

各サブバンドの量子化ステップサイズの最大値を、フレーム全体のオフセット値であるコモンスケールファクタと設定し、

コモンスケールファクタから量子化ステップサイズを減算して、サブバンド毎のスケールファクタを算出することを特徴とするスケールファク夕算出方法。

14. 変換係数の代表値を Xa、量子化ステップサイズを qとした場合の量子化式

I Xa (3/4) * 2^Λ (- 3 q/16) 一 0. 0946

に対して、 i Xa （3Z4) の量子化ノイズ概算値 Naを

Na = 2^A (3 q/16) / 2ⁿ (n=0、 1、 2、 ···)

によって求め、

補正係数 rを

r = I Xa I / I Xa | ^Λ (3/4) = I Xa (1/4)

によって求めて、量子化ノイズ Nを N = Na* r = 2^A ( (3 q/16) — n) * I Xa I ^Λ (1/4)

で算出することを特徴とする請求の範囲第 1 3項記載のスケ一ルファクタ算出方法。

1 5. マスキングパワーしきい値を Μ、変換係数の代表値を X aとした場合に、 q=[ l o g₂ {Μ^Λ (1/2) * I X a (- 1/4) } +n]* 16Z3

(n = 0、 1、 2、 ···) の式から量子化ステップサイズ Qを近似的に算出することを特徴とする請求の範囲第 1 3項記載のスケールファクタ算出方法。