JPWO2008072524A1

JPWO2008072524A1 - オーディオ信号符号化方法及び復号化方法

Info

Publication number: JPWO2008072524A1
Application number: JP2008549262A
Authority: JP
Inventors: 津島　峰生; 峰生津島; 明久川村
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2006-12-13
Filing date: 2007-12-05
Publication date: 2010-03-25
Anticipated expiration: 2027-12-05
Also published as: WO2008072524A1; US20100042415A1; JP5238512B2; US8160890B2

Abstract

低遅延を実現することができるだけでなく、符号化効率を高め、かつ、符号化に伴う音質の劣化を削減する。オーディオ信号を符号化するオーディオ信号符号化方法であって、複数のサンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、フレームを２以上に分割したサブフレーム毎に符号化すべきか否かをフレーム毎に判断する判断ステップと、サブフレーム毎に符号化すべきと判断された場合に、サブフレーム毎に、該サブフレームのオーディオ信号の特性を示す値を決定し、決定された値を用いてオーディオ信号を符号化するサブフレーム処理ステップとを含み、サブフレーム処理ステップでは、サブフレーム毎に決定された値が全て同じであるか否かを判定し、値が全て同じである場合、例外処理として決定された値が示すオーディオ信号の特性とは異なる特性を用いて、前記オーディオ信号を符号化する。

Description

本発明は、オーディオ信号の符号化方法及び復号化方法に関するものである。

従来のオーディオ信号符号化方法及び復号化方法としては、公知なものとしてＩＳＯ／ＩＥＣの国際標準方式、通称ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）方式などが挙げられる。現在、幅広い応用を持ち、低ビットレート時でも高音質な符号化方式として、ＩＳＯ／ＩＥＣ１４４９６−３、通称ＭＰＥＧ−４ＧＡ（ＧｅｎｅｒａｌＡｕｄｉｏＣｏｄｉｎｇ）（非特許文献１参照）などがあげられる。本方式の拡張規格も複数規格化が現在なされている。

その一つとして、符号化及び復号化における遅延を小さくする低遅延技術がある。例えば、ＩＳＯ／ＩＥＣ国際標準規格であるＭＰＥＧ−４Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ１４４９６−３）において定められたＬｏｗＤｅｌａｙＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）方式がある。また、別の例としては、特許文献１及び非特許文献２に記載の技術がある。

以下では、非特許文献２に記載された従来のオーディオ信号符号化方法及び復号化方法について説明する。

図１は、従来のオーディオ信号符号化装置の構成図である。同図のオーディオ信号符号化装置１００は、特に、処理にかかる遅延を小さくすることを特徴とする装置である。オーディオ信号符号化装置１００は、聴覚的冗長性除去部１０１と、情報量的冗長性除去部１０２とを備える。

聴覚的冗長性除去部１０１は、入力されたオーディオ信号から、聴覚的な冗長性を除去する。すなわち、人が有する聴覚の特性に基づいてオーディオ信号から人が知覚しない成分を除去する。聴覚的冗長性除去部１０１は、聴覚モデル１０３と、プレフィルタ部１０４と、量子化部１０５とを備える。

聴覚モデル１０３は、符号化されたオーディオ信号の音質劣化を決定する重要な要素であり、継時マスキングや同時マスキングなど当業者には公知な技術を用いて、人に知覚されない周波数成分の音及びそのレベルを選別する。その結果、人に知覚される周波数成分の音が各周波数帯域においてどのレベルであるのかを入力されたオーディオ信号に対して適応的に算出する。聴覚モデル１０３は、算出した結果に基づいてプレフィルタ部１０４がいかなるフィルタを用いるかを示す情報をプレフィルタ部１０４に出力する。同時に、この情報をオーディオ信号符号化装置の出力信号であるオーディオ信号の符号化列に含めて出力する。聴覚モデル１０３は、例えば、ＭＰＥＧ−１Ｌａｙｅｒ III（通称ＭＰ３）の規格書に記載のある聴覚モデルである。入力されるデジタルオーディオ信号列は、まず聴覚モデル１０３に入力される。

プレフィルタ部１０４は、聴覚モデル１０３から入力されるいかなるフィルタを用いるかを示す情報、具体的には、人に知覚される周波数成分の音が各帯域においてどのレベルであるかを示す値を基に、入力されたデジタルオーディオ信号列から人に知覚されないレベルの成分の音をフィルタによって除去する。これにより、プレフィルタ部１０４は、人が知覚しない成分を除去したオーディオ信号列を出力する。プレフィルタ部１０４は、非特許文献２にあるように、複数の線形予測フィルタで構成する。

量子化部１０５は、プレフィルタ部１０４から入力されるオーディオ信号列に対して、整数値以下の値を四捨五入することで量子化を行い、整数値のオーディオ信号列を出力する。

以上のように、聴覚的冗長性除去部１０１は、入力されるオーディオ信号列に対して、人が知覚しない成分を除去し、整数値に量子化したオーディオ信号列を出力する。

情報量的冗長性除去部１０２は、聴覚的冗長性除去部１０１から入力されるオーディオ信号列から、情報量的な冗長性を除去することによって、符号化効率を高める。情報量的冗長性除去部１０２は、ロスレス符号化部１０６を備える。

ロスレス符号化部１０６は、従来から提案されており、当業者には公知の技術であるハフマン符号化などの手法で構成される。ロスレス符号化部１０６へ入力されるオーディオ信号列は、前段の量子化部１０５によって、整数値化されている。このため、ハフマン符号化などのロスレス符号化部１０６は、その整数値化された値に対して、情報量的な冗長性を取り除くことによって符号化効率が高まることになる。

以上の構成により、従来のオーディオ信号符号化装置１００は、プレフィルタ部１０４でいかなるプレフィルタが使用されたか、具体的には、どのような線形予測係数で構成されたのかを示す情報と、ロスレス符号化部１０６で符号化されたオーディオ信号列（情報）との両方を符号化列として出力する。

続いて、従来のオーディオ信号復号化装置について説明する。

図２は、従来のオーディオ信号復号化装置の構成図である。同図のオーディオ信号復号化装置２００は、符号化されたオーディオ信号を復号化する。オーディオ信号復号化装置２００は、ロスレス復号化部２０１と、ポストフィルタ部２０２とを備える。

ロスレス復号化部２０１は、ロスレス符号化部１０６が出力する符号化列に対してロスレス復号によりオーディオ信号列を復号化する。

ポストフィルタ部２０２では、復号化された線形予測係数列から、ポストフィルタ（プレフィルタ部１０４で用いられたフィルタの逆フィルタ）を構成する。ロスレス復号化部２０１でロスレス復号されたオーディオ信号列に対してポストフィルタを施すことで得られた結果であるオーディオ信号列を最終的に出力する。

以上のように図１及び図２に示すオーディオ信号符号化装置及びオーディオ信号復号化装置を用いることで、ＡＡＣ等の符号化及び復号化方法を用いるよりも遅延が小さくなる。これは、ＡＡＣ等の方式が有する１フレームが１０２４サンプルなどの一括直交変換部分に要する遅延がなくなり、対して、プレフィルタやポストフィルタの消費する遅延が小さいことから、結果的に低遅延化することが可能になるためである。
ＷＯ２００５／０７８７０５号公報ＩＳＯ／ＩＥＣ１４４９６−３：２００５"ＧｅｎｅｒａｌＡｕｄｉｏＣｏｄｉｎｇ" 学会論文"ＰｅｒｃｅｐｔｕａｌＡｕｄｉｏＣｏｄｉｎｇＵｓｉｎｇＡｄａｐｔｉｖｅＰｒｅ− ａｎｄＰｏｓｔ−ＦｉｌｔｅｒｓａｎｄＬｏｓｓｌｅｓｓＣｏｍｐｒｅｓｓｉｏｎ"（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．１０，Ｎｏ．６，Ｓｅｐｔｅｍｂｅｒ２００２）

しかしながら、上記従来のオーディオ信号符号化方法及び復号化方法では、以下の課題がある。

例えば、ＭＰＥＧ規格であるＬｏｗＤｅｌａｙＡＡＣなどでは、ＡＡＣ方式を用いた技術としては低遅延であるが、それでも遅延は６０ｍｓ程度であり、さらなる改良を加えたものでも４０ｍｓ程度である。双方向のコミュニケーションで使用する際には、遅延が十分に小さいとは言えないという課題があった。

一方、非特許文献２に記載の技術では、遅延は１０数ｍｓ程度に抑えられるが、低レート化が難しいという課題がある。さらに、入力されるオーディオ信号に対して、量子化部１０５が量子化する処理は、フレーム毎に処理される。このため、時間的に大きな変動を有するオーディオ信号列が入力された場合、量子化部１０５による量子化ノイズ（符号化にともなう音質劣化）が適切に制御できないという課題がある。また、十分な符号化効率をロスレス符号化部１０６で確保できないという課題がある。

そこで、本発明は、上記課題を解決するためになされたものであり、低遅延を実現することができるだけでなく、さらに、符号化効率を高め、かつ、符号化に伴う音質の劣化を削減することができるオーディオ信号符号化方法及び復号化方法を提供することを目的とする。

上記課題を解決するため、本発明のオーディオ信号符号化方法は、オーディオ信号を符号化するオーディオ信号符号化方法であって、前記オーディオ信号を複数のサンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、前記フレームを２以上に分割したサブフレーム毎に符号化すべきか否かを前記フレーム毎に判断する判断ステップと、前記サブフレーム毎に符号化すべきでないと判断された場合に、前記フレーム毎に、該フレームのオーディオ信号の特性を示す第１の値を決定し、決定された前記第１の値を用いて前記オーディオ信号を符号化するフレーム処理ステップと、前記サブフレーム毎に符号化すべきと判断された場合に、前記サブフレーム毎に、該サブフレームのオーディオ信号の特性を示す第２の値を決定し、決定された前記第２の値を用いて前記オーディオ信号を符号化するサブフレーム処理ステップとを含み、前記サブフレーム処理ステップでは、前記サブフレーム毎に決定された前記第２の値が全て同じであるか否かを判定し、前記第２の値が全て同じである場合、例外処理として前記第２の値の少なくとも１つは異なる値とすることで、前記オーディオ信号を符号化する。

これにより、低遅延を実現することができるだけでなく、さらに、符号化効率を高め、かつ、符号化に伴う音質の劣化を削減することができる。さらに、例外的な処理を実行させる機能を有しており、符号化の無駄を活用することができる。ここで、符号化の無駄とは、サブフレーム毎に分割して得られた符号化データと、フレーム毎に分割して得られた符号化データとが同一の意味を示していることをいう。サブフレーム毎に分割して得られた符号化データは、フレーム毎に分割して得られた符号化データよりビット数が、通常、多くなる。すなわち、同一のことを示すのであれば、フレーム毎に分割して得られた符号化データの方が、ビット数が少なくすむので好ましい。

また、前記サブフレーム処理ステップでは、隣接するサブフレーム間で前記第２の値が同じ値であるか異なる値であるかを識別する識別符号を、全てのサブフレーム間に対して符号化し、全ての前記識別符号が、全ての前記第２の値が同じであることを示す場合に、前記例外処理として前記第２の値の少なくとも１つは異なる値とすることで、前記オーディオ信号を符号化してもよい。

これにより、符号化効率を高めることができる。

また、前記例外処理では、前記第２の値が、隣接するサブフレーム間において単調増加又は単調減少するものとみなすことで、前記オーディオ信号を符号化してもよい。

また、前記第１の値及び前記第２の値は、前記オーディオ信号の正規化に用いられるゲイン値、又は、量子化精度を決定する値としてもよい。

また、本発明のオーディオ信号復号化方法は、上述のオーディオ信号符号化方法によって符号化されたオーディオ信号の符号化列を復号化するオーディオ信号復号化方法であって、前記符号化列が前記サブフレーム処理で符号化されている場合、前記例外処理が実行されていることを識別することで、前記符号化列を復号化する復号化ステップを含む。

これにより、例外処理を含んだ符号化処理が実行された符号化列に対して、適した復号化を実施することができる。

また、本発明のオーディオ信号符号化方法及び復号化方法は、装置として実現することができる。さらに、本発明は、それぞれの方法の各ステップをコンピュータに実行させるプログラム、及び、該プログラムを記録するコンピュータ読み取り可能な記録媒体として実現することができる。

本発明のオーディオ信号符号化方法及び復号化方法では、低遅延を実現することができるだけでなく、さらに、符号化効率を高め、かつ、符号化に伴う音質の劣化を削減することができる。

図１は、従来のオーディオ信号符号化装置の構成図である。図２は、従来のオーディオ信号復号化装置の構成図である。図３は、本実施の形態のオーディオ信号符号化装置の構成図である。図４は、入力された１フレームのオーディオ信号列をサブフレームに分割したことを示す図である。図５は、符号ストリーム構造の一例を示す図である。図６は、ビットストリームシンタックスの一例を示す図である。図７は、本実施の形態のオーディオ信号符号化装置の動作を示すフローチャートである。図８は、例外処理となりうるオーディオ信号列の一例を示す図である。図９は、本実施の形態のオーディオ信号復号化装置の構成図である。図１０は、従来のビットストリームシンタックスの一例を示す図である。図１１は、ビットストリームシンタックスの一例を示す図である。図１２は、例外処理となりうるオーディオ信号列の一例を示す図である。図１３は、例外処理となりうるオーディオ信号列の一例を示す図である。

符号の説明

１００、３００オーディオ信号符号化装置
１０１、３１１、３２１聴覚的冗長性除去部
１０２、３１２、３２２情報量的冗長性除去部
１０３、３１３、３２３聴覚モデル
１０４、３１４、３２４プレフィルタ部
１０５、３１５量子化部
１０６、３１６、３２６ロスレス符号化部
２００、４００オーディオ信号復号化装置
２０１、４０１ロスレス復号化部
２０２、４０２ポストフィルタ部
３０１判断部
３１０フレーム処理部
３２０サブフレーム処理部
３２５サブフレーム量子化部
４０３ゲイン増幅部

以下、本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
本実施の形態のオーディオ信号符号化装置は、フレーム毎に符号化するフレーム符号化モードと、フレームをさらに２以上に分割したサブフレーム毎に符号化するサブフレーム符号化モードとを選択することができる。さらに、サブフレーム符号化モードにおいて、サブフレーム毎に決定されたゲイン値が、時間的に連続するサブフレーム間で同じ値であるか、異なる値であるかを示す情報を符号化する。決定されたゲイン値が全てのサブフレームで同じ値である場合、フレーム毎に１つのゲイン値を決定した場合と同様であるため、通常の処理（全てのサブフレームでゲイン値を同じ値であるとみなした場合の符号化処理）とは異なる例外処理を行う。なお、本実施の形態において、ゲインは、オーディオ信号のある振幅を１としたときの比を表すものであり、オーディオ信号の正規化に用いられる値である。

図３は、本実施の形態のオーディオ信号符号化装置の構成図である。

同図のオーディオ信号符号化装置３００は、判断部３０１と、フレーム処理部３１０と、サブフレーム処理部３２０とを備える。なお、フレーム処理部３１０は、図１に示す従来のオーディオ信号符号化装置１００に相当する。フレーム処理部３１０が備える聴覚的冗長性除去部３１１と、情報量的冗長性除去部３１２とは、それぞれ、図１の聴覚的冗長性除去部１０１と、情報量的冗長性除去部１０２とに相当する。また、聴覚的冗長性除去部３１１が備える聴覚モデル３１３と、プレフィルタ部３１４と、量子化部３１５とは、それぞれ、図１の聴覚モデル１０３と、プレフィルタ部１０４と、量子化部１０５とに相当する。情報量的冗長性除去部３１２が備えるロスレス符号化部３１６は、図１のロスレス符号化部１０６に相当する。したがって、ここでは同じ構成要素については説明を省略し、異なる点を中心に説明する。

判断部３０１は、フレームに含まれるオーディオ信号に基づいて、サブフレーム毎に符号化するべきか否かを判断することで、フレーム処理部３１０とサブフレーム処理部３２０とのいずれにオーディオ信号列を出力するかを決定する。

具体的には、判断部３０１は、入力されたオーディオ信号列に対して、サブフレーム毎に最大振幅（エネルギー）を検出することで、フレーム毎に符号化を行うべき（フレーム符号化モード）か、サブフレーム毎に符号化を行うべき（サブフレーム符号化モード）かを判断する。フレーム符号化モードが選択された場合は、入力されたオーディオ信号列をフレーム処理部３１０に出力する。サブフレーム符号化モードが選択された場合は、入力されたオーディオ信号列をサブフレーム処理部３２０に出力する。

サブフレーム処理部３２０は、入力されたオーディオ信号列に対して、サブフレーム毎に符号化を実行する。サブフレーム処理部３２０は、聴覚的冗長性除去部３２１と、情報量的冗長性除去部３２２とを備える。なお、情報量的冗長性除去部３２２、及び、該情報量的冗長性除去部３２２が備えるロスレス符号化部３２６は、図１の情報量的冗長性除去部１０２とロスレス符号化部１０６とに相当する。したがって、ここでは、情報量的冗長性除去部１０２とロスレス符号化部１０６とについては説明を省略し、聴覚的冗長性除去部３２１について説明する。

聴覚的冗長性除去部３２１は、サブフレーム毎に聴覚的な冗長性を除去する。聴覚的冗長性除去部３２１は、聴覚モデル３２３と、プレフィルタ部３２４と、サブフレーム量子化部３２５とを備える。なお、聴覚モデル３２３とプレフィルタ部３２４とは、それぞれ、図１の聴覚モデル１０３とプレフィルタ部１０４と同じ構成である。したがって、ここでは、聴覚モデル３２３とプレフィルタ部３２４とについては説明を省略し、サブフレーム量子化部３２５について説明する。

サブフレーム量子化部３２５は、プレフィルタ部３２４から入力されるオーディオ信号列に対して、１フレームのオーディオ信号を２以上のサブフレームに分けて、サブフレーム毎に、ゲインを乗じて量子化を実施する。

サブフレーム量子化部３２５に入力されるオーディオ信号列をｙ（ｉ）として、ゲインをＧｐとした場合、量子化の対象となる値ｘ（ｉ）について、式１で示すような関係が得られる。

（式１）ｙ（ｉ）＝Ｇｐ × ｘ（ｉ）

式１のような関係から、ゲインＧｐを決定することで、ｘ（ｉ）が導出される。一般に、ｘ（ｉ）は実数値であり、サブフレーム量子化部３２５は、実数値であるｘ（ｉ）を整数値に量子化する。そして、量子化されたｘ（ｉ）をロスレス符号化部３２６へ出力する。

図４は、入力された１フレームのオーディオ信号列を４つのサブフレームに分割したことを示す図である。図４において、横軸に時間、縦軸にオーディオ信号の振幅を示した。１フレームのサンプル数を、特に限定しないが一例として、１２８個のサンプルとした。１フレームのオーディオ信号列を、３２個のサンプル毎に４つのサブフレームに均一に分割した場合を示した。なお、本発明は、サブフレームの数や各サブフレームの長さが均一であることに拘らない。

図４の場合、サブフレーム２及びサブフレーム３の振幅がサブフレーム１及びサブフレーム４の振幅と比較して大きい。このため、全てのサブフレームを均一に整数値に量子化する場合、サブフレーム２及びサブフレーム３の振幅値を小さくするようなゲインの値を取ると、サブフレーム１及びサブフレーム４の振幅値にゼロが頻出して、音質劣化が発生する可能性がある。また、サブフレーム１及びサブフレーム４の振幅値を確保するようにゲインの値を取ると、サブフレーム２及びサブフレーム３の値が大きくなることで、符号化効率が悪くなり、結果的にビットレートが高くなる可能性がある。

以上のことから、図４の場合は、サブフレーム１及びサブフレーム４に対して、サブフレーム２及びサブフレーム３のサブフレーム量子化（設定すべきゲインの値）を切り替えた方が音質劣化を抑え、かつ、符号化効率を高められる可能性がある。

音質劣化を抑え、かつ、符号化効率を高める符号化を実施可能とするため、図３に示すように、サブフレーム量子化部３２５は、入力された原音に相当するオーディオ信号列、プレフィルタ部３２４の出力結果、及び、聴覚モデル３２３の出力のいずれか、又は、全てを参照として用いてもよい。例えば、プレフィルタ部３２４から入力されたオーディオ信号列の振幅値の大小に関わらず、原音の振幅値に基づいて大振幅の前にある小振幅を有するサブフレームでは、音質向上のために十分に大きなゲインを確保してもよい。

図５は、符号化ストリーム構造の一例を示す図である。

ゲイン情報を格納するストリームの最初は、ゲインがどのように格納されるかを示すゲインコンフィグレーション情報を示す。同図に示す例では、値が“０”の場合には、複数のサブフレームに対して、ゲインがただ１つの値を与える場合を示す。値が“１”の場合には、複数のサブフレームに対して、ゲインが２つ以上の値が与えられる場合を示す。ゲインコンフィグレーション情報の設定は、判断部３０１によって行われる。判断部３０１は、入力された１フレームのオーディオ信号に対して、サブフレームで共通のゲインの値を利用するか（値を“０”に設定）、サブフレーム毎に異なるゲインの値を利用するか（値を“１”に設定）を選択する。

すなわち、ゲインコンフィグレーション情報の先頭の値が“０”であることは、フレーム符号化モードを実行することを示す。ゲインコンフィグレーション情報の先頭の値が“１”であることは、サブフレーム符号化モードを実行することを示す。

ゲインコンフィグレーション情報の先頭の値が“１”である場合に“１”に続く値として、図５に示すように、サブフレームの数が４つである場合、サブフレームより１つ少ない３つの値“ｘ”、“ｙ”、“ｚ”を格納する構造を有する。これらの“ｘ”、“ｙ”、“ｚ”は、サブフレーム間の相互関係を示す値である。当然ながらサブフレームの数は４に限定されない。“ｘ”はサブフレーム１とサブフレーム２のゲインの値が同じ値である場合に、“０”を値としてとる。サブフレーム１とサブフレーム２のゲインの値が異なる場合には“１”を値としてとる。“ｙ”はサブフレーム２とサブフレーム３のゲインの値が同じ値である場合に“０”を値としてとる。サブフレーム２とサブフレーム３のゲインの値が異なる場合には“１”を値としてとる。“ｚ”はサブフレーム３とサブフレーム４のゲインの値が同じ値である場合に“０”を値としてとる。サブフレーム３とサブフレーム４のゲインの値が異なる場合には“１”を値としてとる。ゲインコンフィグレーション情報の先頭の値が“１”である場合に続くサブフレーム間の相互関係を示す値の設定は、サブフレーム量子化部３２５によって行われる。なお、当然ながら、“０”と“１”は反対の意味を持たせてもよい。すなわち、“０”が時間的に連続するサブフレーム間でのゲインの値が異なる場合を示し、“１”が時間的に連続するサブフレーム間でのゲインの値が同じ値である場合を示してもよい。

以上のようにしてゲインコンフィグレーション情報を設定する。ゲインのコンフィグレーション情報が“０”の場合は、ゲインのパラメタは全部で１つしかない。また、ゲインのコンフィグレーション情報が、例えば“１０１０”の場合は、ゲインのパラメタは２つである。具体的には、サブフレーム１とサブフレーム２のゲインの値が同じ値で、サブフレーム２とサブフレーム３のゲインの値は異なる値で、サブフレーム３とサブフレーム４のゲインの値が同じ値となる。

なお、特異的に、ゲインのコンフィグレーション情報が“１０００”となる場合が考えられる。この場合、通常の処理とは異なる例外的な処理を実行するものとする。このように例外的な処理を設けた理由は、以下の通りである。

ゲインのコンフィグレーション情報が“１０００”となる場合は、上記に述べた通常の意味として捉えるとゲインの値が２以上あり、しかしながら、サブフレーム１からサブフレーム４の全てのゲインの値が同じと定義されてしまう。つまり、ゲインコンフィグレーション情報が“０”と“１０００”とは、１つのフレーム（全てのサブフレーム）で単一のゲインを有することを意味する。つまり、同じ情報を示すために、少なくとも３ビットが無駄になる。このように、判断部３０１がサブフレーム符号化モードを選択し、サブフレーム毎に分割して処理を行った場合であっても、フレーム符号化モードを実行した場合と、同様の結果が出力されることがある。この場合、結果的に、符号化効率が悪くなってしまうためである。

通常の処理とは異なる例外的な処理として、サブフレームのゲインは、例えば、単調増加（又は、単調減少）と定義する。

なお、符号化ストリームにおいて、ゲインコンフィグレーション情報に続く、実際のサブフレームのゲインを導出する符号化列については、まず、値ｇ１が続き、さらに、値ｄｅｌｔａ＿ｇｘが続く。値ｇ１は、サブフレーム１に含まれるオーディオ信号の最大振幅などを利用して求められたゲインを符号化することで得られる値である。値ｄｅｌｔａ＿ｇｘは、サブフレームｘ−１のゲインとサブフレームｘのゲインとの差を符号化することで得られる値である。ｘは２以上の整数値であり、ｘの最大値はサブフレーム数（図５では４）である。

値ｇ１及び値ｄｅｌｔａ＿ｇｘに対して、後述する復号化処理を行うことで、それぞれ、Ｇ１及びｄｅｌｔａ＿Ｇｘが導出される。Ｇ１は、サブフレーム１のゲインを示す値である。ｄｅｌｔａ＿Ｇｘは、サブフレームｘ−１のゲインとサブフレームｘのゲインとの差を示す値である。

１つのフレームでゲインの値が１つの場合は、符号化処理では、符号化された値ｇ１のみがゲインコンフィグレーション情報に続く。復号化処理では、値ｇ１からゲインＧ１を導出し、Ｇ１＝Ｇ２＝Ｇ３＝Ｇ４とする。１つのフレームでゲインの値が２つ以上の異なる値である場合は、符号化処理では、値ｇ１に続いて、値ｄｅｌｔａ＿ｇ２、ｄｅｌｔａ＿ｇ３、ｄｅｌｔａ＿ｇ４が続く。復号化処理では、まず、値ｇ１からゲインＧ１を導出する。続いて、ｄｅｌｔａ＿ｇ２を復号化した値であるｄｅｌｔａ＿Ｇ２から、Ｇ２＝Ｇ１＋ｄｅｌｔａ＿Ｇ２を算出する。以下、ｄｅｌｔａ＿ｇ３及びｄｅｌｔａ＿ｇ４を復号化し、順次、ゲインＧ３及びＧ４を算出する。

図６はビットストリームシンタックスの一例であり、図５の符号化ストリーム構造例をより具体的に示したものである。“ｓｙｎｔａｘ”側に書かれたものがビットストリームシンタックスの一例で、“ｎｕｍｂｅｒｏｆｂｉｔｓ”がその際に使用されるビット数の一例である。ｓｙｎｔａｘにボールドフォントのイタリック体で記載されたものが、ビットストリームとして符号化されるべきものである。ボールドフォントでないイタリック体で記載されたものは、一度ビットストリームとして読み込まれた場合にその値を保持した変数である。ビット数で記載のあるｎｕｍＧａｉｎＢｉｔｓ、ｎｕｍＭｏｎｏＤｅｌｔａＢｉｔｓ及びｎｕｍＤｅｌｔａＢｉｔｓは、実装の際に、ある整数値があてがわれる。

図６において、ｂｓ＿ｍｕｌｔｉ＿ｇａｉｎは、ゲインが単一であるのか、複数のサブフレームで少なくとも２つ以上の異なる値からなるのかを識別するフラグ情報である。すなわち、図５のゲインコンフィグレーション情報の先頭の値を示す。例として、図５と同様に、ｂｓ＿ｍｕｌｔｉ＿ｇａｉｎが０であれば、ゲインは単一であることを示す。ｂｓ＿ｍｕｌｔｉ＿ｇａｉｎが１であれば複数のサブフレームで少なくとも２つ以上の異なる値からなることを示す。

ｂｓ＿ｓａｍｅ＿ｇａｉｎ［ｎｕｍ］は、ｎｕｍ−１番目のサブフレーム（以下、ｎｕｍ−１サブフレームと記す）のゲインと、ｎｕｍ番目のサブフレーム（以下、ｎｕｍサブフレームと記す）のゲインとが同一であるかどうかを識別するフラグ情報である。すなわち、図５のゲインコンフィグレーション情報の“ｘ”、“ｙ”、“ｚ”を示す。例として、ｂｓ＿ｓａｍｅ＿ｇａｉｎ［ｎｕｍ］が０である場合は、ｎｕｍ−１サブフレームとｎｕｍサブフレームのゲインが同一であることを示す。ｂｓ＿ｓａｍｅ＿ｇａｉｎ［ｎｕｍ］が１である場合は、違う値のゲインであることを示す。

ｂｓ＿ｇａｉｎ［０］は、ゲインを導出するために用いられる値である。ゲインが単一である（ｂｓ＿ｍｕｌｔｉ＿ｇａｉｎが０である）場合は、ｂｓ＿ｇａｉｎ［０］を用いて導出されるゲイン値が、全てのサブフレームのゲイン値である。複数のサブフレームで少なくとも２つ以上の異なる値からなる（ｂｓ＿ｍｕｌｔｉ＿ｇａｉｎが１である）場合は、ｂｓ＿ｇａｉｎ［０］を用いて導出されるゲイン値は、最初のサブフレームのゲイン値である。

ｂｓ＿ｓａｍｅ＿ｇａｉｎ［ｎｕｍ］が０であるフレームにおいては、ｎｕｍが小さなフレームから順に、ｎｕｍ−１サブフレームとｎｕｍサブフレームのゲインの差を導出（又は、ｎｕｍサブフレームのゲイン値を導出）する値を、ｂｓ＿ｄｅｌｔａ［ｎｕｍ］として符号化している。

図６に示すｓｙｎｔａｘでは、ｂｓ＿ｓａｍｅ＿ｇａｉｎ［ｎｕｍ］が全て０である場合に備え、例外処理を行う記載がなされている。ここでは、例外処理として、ゲインが単調増加することを意味している。したがって、あるサブフレームとその直前のサブフレームとの差分を導出する値をｂｓ＿ｍｏｎｏ＿ｄｅｌｔａとして符号化している。すなわち、ｂｓ＿ｍｏｎｏ＿ｄｅｌｔａは、単調増加の増加割合を導出するための値である。よって、単調増加の増加量を直接符号化してもよく、また、間接的にテーブルなどから導出してもよい。

次に、本実施の形態のオーディオ信号符号化装置の動作について説明する。

図７は、本実施の形態のオーディオ信号符号化装置の動作を示すフローチャートである。

判断部３０１は、オーディオ信号列が入力されると、フレーム符号化処理モード及びサブフレーム符号化モードのいずれかを選択する（Ｓ１０１）。すなわち、図６のｂｓ＿ｍｕｌｔｉ＿ｇａｉｎを決定する。フレーム符号化モードが選択された場合（Ｓ１０１でＮｏ）、オーディオ信号列をフレーム処理部３１０へ出力する。この場合、フレーム処理部３１０において、ｂｓ＿ｍｕｌｔｉ＿ｇａｉｎが０と設定される。サブフレーム符号化モードが選択された場合（Ｓ１０１でＹｅｓ）、オーディオ信号列をサブフレーム処理部３２０へ出力する。この場合、サブフレーム処理部３２０において、ｂｓ＿ｍｕｌｔｉ＿ｇａｉｎが１と設定される。

具体的には、判断部３０１は、オーディオ信号列の最大振幅を用いてオーディオ信号列の変動を検出する。オーディオ信号に変動がほとんどない場合、例えば、最大振幅がある閾値以下である場合は、フレーム毎で量子化及び符号化するべきであり、オーディオ信号列をフレーム処理部３１０へ出力する。逆に、最大振幅がある閾値より大きい場合は、サブフレーム毎で量子化及び符号化するべきであり、オーディオ信号列をサブフレーム処理部３２０へ出力する。図４の例のオーディオ信号列は変動が大きいために、サブフレーム処理部３２０へ出力され、サブフレーム毎に量子化及び符号化される。

サブフレーム符号化モードが選択された場合（Ｓ１０１でＹｅｓ）、サブフレーム量子化部３２５は、サブフレーム毎にゲインを決定し、決定されたゲインの相互関係を検出する（Ｓ１０２）。具体的には、サブフレーム毎に決定されたゲイン値が同じ値であるか、異なる値であるかを検出する。すなわち、図５の“ｘ”、“ｙ”、“ｚ”に相当する値を検出する。

次に、検出された相互関係（サブフレーム毎のゲインの値）を判断する（Ｓ１０３）。決定されたゲインが、複数のサブフレームで少なくとも２つ以上の異なる値である場合（Ｓ１０３でＹｅｓ）、サブフレーム毎にゲインを導出する（Ｓ１０４）。

具体的には、サブフレーム毎に決定されたゲインの値に対して、１番目のサブフレームのゲインの値との差を算出する。

決定されたゲインが、全てのサブフレームで同じ値である場合（Ｓ１０３でＮｏ）、例外処理を実行する（Ｓ１０５）。ここでは、例外処理の一例として、決定されたゲインが単調増加（又は単調減少）するものとみなす。

図８は、例外処理が起こる可能性があるオーディオ信号列の一例を示す図である。なお、このようなオーディオ信号列は、ノイズに近い音から楽音などにフェードインする場合などに生じる。

同図に示すオーディオ信号列が入力されると、判断部３０１は、サブフレーム毎の最大振幅を用いることでオーディオ信号の変動が大きいと判断することができ、サブフレーム符号化モードを選択する。このとき、サブフレーム量子化部３２５は、サブフレームに含まれるオーディオ信号列をエネルギーレベルで判断することでゲイン値を決定するものとする。図８に示す例では、サブフレーム１〜サブフレーム４のエネルギーは、ほぼ等しい。したがって、ゲイン値は全てのサブフレームで単一の等しい値となる。つまり、ゲインコンフィグレーション情報は“１０００”となる。

なお、仮に図８に示すオーディオ信号列に対して、判断部３０１でフレーム符号化モードが選択されたとすると、サブフレーム１〜サブフレーム４を１つのフレームとして判断され、単一のゲイン値が決定される。これにより、サブフレーム符号化モードを選択したにもかかわらず、フレーム符号化モードが選択された場合と同じ結果が出力される。すなわち、サブフレーム符号化モードが選択されたことが無駄になる。

以上のように、サブフレーム符号化モードが選択されたことが無駄になることを防ぐために、ゲインコンフィグレーション情報が“１０００”となった場合に、例外処理として、ゲインが単調増加するものとみなして、サブフレーム毎にゲインの量子化及び符号化処理を実行する。

なお、選択処理（Ｓ１０１）において、フレーム符号化モードが選択された場合（Ｓ１０１でＮｏ）、フレーム毎で１つのゲインを決定し、決定されたゲインを量子化及び符号化する（Ｓ１０６）。

１つのフレームに対して、上記の処理（Ｓ１０１〜Ｓ１０６）が終了すると、次のフレームに対して、同じ処理を繰り返す。

以上のように、本実施の形態では、サブフレーム符号化モードが選択された場合であっても、フレーム符号化モードが選択された場合と同様の結果が生じる場合に、例外的な処理を行う。これにより、処理が無駄になることを防ぐことができる。

ここで、本実施の形態との違いを明確にするために、従来のビットストリームシンタックスを示す。

図１０は、従来のビットストリームシンタックスの一例であり、このシンタックスはＡＡＣ方式における複数のグルーピングと呼ばれるモジュールを構成するものである。このシンタックスにおいて、ｗｉｎｄｏｗ＿ｓｅｑｕｅｎｃｅがＥＩＧＨＴ＿ＳＨＯＲＴ＿ＳＥＱＵＥＮＣＥと同値になった場合に、８つのＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）係数列を何組かにグルーピングする構成である。いかにグループが構成されるかはビットストリーム変数であるｓｃａｌｅ＿ｆａｃｔｏｒ＿ｇｒｏｕｐｉｎｇ（７ビット）で示される。具体的には、８つのＭＤＣＴ係数列が１つ前のＭＤＣＴ係数列とグループを構成するか否かを示す情報が各１ビットずつの計７ビットで符号化されるものである。全てのビットで同じグループとして構成される情報が示された場合では、８つのＭＤＣＴ係数列が１つのグループとされ符号化及び復号化される定義となっているだけである。すなわち、ゲインの単調増加などの別の処理に移ることはない。本実施の形態のように、結果的に無駄が生じる場合に、無駄の発生を防ぐための例外処理を実行することはない。

続いて、本実施の形態のオーディオ信号復号化方法を用いた装置について説明する。

図９は、本実施の形態のオーディオ信号復号化装置の構成図である。同図のオーディオ信号復号化装置４００は、符号化されたオーディオ信号を復号化する。オーディオ信号復号化装置４００は、ロスレス復号化部４０１と、ポストフィルタ部４０２と、ゲイン増幅部４０３とを備える。なお、ロスレス復号化部４０１と、ポストフィルタ部４０２とは、図１のロスレス復号化部２０１と、ポストフィルタ部２０２とに相当する。したがって、ロスレス復号化部４０１と、ポストフィルタ部４０２とについては説明を省略し、ゲイン増幅部４０３について説明する。

ゲイン増幅部４０３は、ポストフィルタ部４０２から入力されるオーディオ信号に対して、サブフレーム毎に、復号化されたオーディオ信号を増幅する。

以上のように、本実施の形態のオーディオ信号符号化方法及び復号化方法によれば、符号化時に無駄となりうる符号化パターンに対して例外処理を行うことで、有効に利用することができる。これにより、低遅延処理の利点を維持しつつ、音質劣化を抑え、かつ、高効率な符号化を達成することが可能となる。

以上、本実施の形態のオーディオ信号符号化方法及び復号化方法について説明したが、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

例えば、例外処理として、サブフレームが単調増加するとみなせる場合において、図１１に示すように、単調増加するサブフレームの個数を符号化してもよい。

図１１は、図６とは異なる形態のビットストリームシンタックスの一例であり、図５の符号化ストリーム構造例をより具体的に示したものである。“ｓｙｎｔａｘ”側に書かれたものがビットストリームシンタックスの一例で、“ｎｕｍｂｅｒｏｆｂｉｔｓ”がその際に使用されるビット数の一例である。ｓｙｎｔａｘに、ボールドフォントのイタリック体で記載されたものが、ビットストリームとして符号化されるべきものである。ボールドフォントでないイタリック体で記載されたものは、一度ビットストリームとして読み込まれた場合にその値を保持した変数である。ビット数で記載のあるｎｕｍＧａｉｎＢｉｔｓ、ｎｕｍＳｕｂＦｒＢｉｔｓ、ｎｕｍＭｏｎｏＤｅｌｔａＢｉｔｓ及びｎｕｍＤｅｌｔａＢｉｔｓは、実装の際に、ある整数値があてがわれる。

図１１において、ｂｓ＿ｍｕｌｔｉ＿ｇａｉｎ、ｂｓ＿ｓａｍｅ＿ｇａｉｎ［ｎｕｍ］及びｂｓ＿ｇａｉｎ［０］は、図６のｂｓ＿ｍｕｌｔｉ＿ｇａｉｎ、ｂｓ＿ｓａｍｅ＿ｇａｉｎ［ｎｕｍ］及びｂｓ＿ｇａｉｎ［０］と同じである。よって、これらについての説明は省略する。

図１１において、図６と同様にｂｓ＿ｓａｍｅ＿ｇａｉｎ［ｎｕｍ］がすべて０である場合においては、単調増加を意味している。ｂｓ＿ｎｕｍ＿ｃｏｎｔは、いくつのサブフレームが単調増加するのかを導出する値である。そして、単調増加する個数のサブフレームにおいては、あるサブフレームとその直前にサブフレームとの差分を導出する値をｂｓ＿ｍｏｎｏ＿ｄｅｌｔａとして符号化している。例えば、全サブフレーム数が８つで、ｂｓ＿ｎｕｍ＿ｃｏｎｔによって３つが単調増加であると導出される場合、サブフレーム１からサブフレーム２、サブフレーム２からサブフレーム３、サブフレーム３からサブフレーム４とｂｓ＿ｍｏｎｏ＿ｄｅｌｔａで導出される差分値でゲインは単調増加する。それ以降のサブフレーム、つまり、サブフレーム５からサブフレーム８は、例えば、サブフレーム４と同一の値をとるとする。

一方、ｂｓ＿ｓａｍｅ＿ｇａｉｎ［ｎｕｍ］が０であるフレームにおいては、ｎｕｍが小さなフレームから順に、ｎｕｍ−１サブフレームのゲインとｎｕｍサブフレームのゲインとの差を導出（又は、ｎｕｍサブフレームのゲイン値を導出）する値を、ｂｓ＿ｄｅｌｔａ［ｎｕｍ］として符号化している。

以上のように、図１１のビットストリームシンタックスでは、例外処理を実施する場合において単調増加するサブフレームの個数を符号化することができる。これにより、符号化効率を高めることができる。

また、本実施の形態では、判断部３０１は、オーディオ信号の最大振幅を用いて、フレーム符号化モードとサブフレーム符号化モードとを選択したが、最大振幅ではなく、オーディオ信号のエネルギーを用いてもよい。

この場合であっても、図１２に示すようなオーディオ信号列が入力された場合、例外処理を行う必要がある。図１２は、例外処理が起こる可能性があるオーディオ信号列の一例を示す図であり、例えば、弦楽器又は打楽器で演奏された音源の場合のオーディオ信号列をしめす。弦楽器又は打楽器の場合、一音あたりの強度（最大振幅）は同じであるが、サブフレームに入る数が違うため、図１２に示すようなオーディオ信号列が得られる。

図１２に示すように、判断部３０１は、サブフレーム毎のエネルギーの変動が大きいことから、サブフレーム符号化モードを選択する。このとき、サブフレーム量子化部３２５は、サブフレームに含まれるオーディオ信号列を最大振幅で判断することでゲイン値を決定するものとする。図１２に示す例では、サブフレーム１〜サブフレーム４の最大振幅はほぼ等しい。したがって、ゲイン値は全てのサブフレームで単一の等しい値となる。つまり、ゲインコンフィグレーション情報は“１０００”となる。これにより、サブフレーム量子化部３２５は、図８の場合と同様に、例外処理を実行することとなる。

また、判断部３０１は、エネルギーを用いて判定し、サブフレーム符号化モードを選択した場合であっても、制限によりビットレートを上げることができない場合が考えられる。この場合、結果的に、各サブフレームでビット消費の小さいものを選択せざるを得なくなり、各サブフレームで同じ符号化処理を選択する。この場合も、ゲインコンフィグレーション情報は“１０００”となる。これにより、図８及び図１２の場合と同様に、サブフレーム量子化部３２５は、例外処理を実行することになる。

また、図１３に示すように、ＡＡＣなどの方式では、フレーム間の接続における連続性確保のため、時間的に前後するフレームがサブフレーム符号化モードで符号化されている場合、符号化の規程により現フレームもサブフレーム符号化を選択せざるを得なくなる。これにより、現フレームのオーディオ信号列に変動がほとんどないのであれば、ゲインコンフィグレーション情報は“１０００”となる。これにより、サブフレーム量子化部３２５は、例外処理を実行することとなる。

また、本実施の形態では、ゲインの値を導出する際に、ゲインの値が予め用意されたテーブルなどで定義されていてもよい。この場合は、Ｇ１＝ｔａｂｌｅ（ｇ１）などの方法で復号化される場合もあり、その場合は、Ｇ２＝ｔａｂｌｅ（ｇ１＋ｇ２）や、Ｇ２＝ｔａｂｌｅ（ｇ１）＋ｔａｂｌｅ２（ｇ２）などとして復号化される場合もある。

ゲインのコンフィグレーション情報によって、単調増加（単調減少）と定義された場合においては、Ｇ２からＧ４の値は、Ｇｐ＝Ｇｐ−１＋ｄｅｌｔａＧｐ、Ｇｐ＝ｔａｂｌｅ（ｇｐ−１＋ｇｐ）、又は、Ｇｐ＝ｔａｂｌｅ（ｇｐ−１）＋ｔａｂｌｅｐ（ｇｐ）などのように復号化される。この場合ｐは２以上の整数である。

また、２つ以上のゲインの符号化において、差分符号化などを用いたが、差分情報を用いず、２つ目以降のゲインについて、前サブフレームの値を用いずにそのサブフレームの値を直接復号化できる値を用いてもよい。

また、本実施の形態では、フレーム毎での処理とサブフレーム毎の処理とを明確に分けて示すために、オーディオ信号符号化装置３００は、図３に示すようにフレーム処理部３１０とサブフレーム処理部３２０とを備えるとしたが、例えば、聴覚モデル３１３と聴覚モデル３２３、プレフィルタ部３１４とプレフィルタ部３２４、及び、ロスレス符号化部３１６とロスレス符号化部３２６とは、それぞれ共通としてもよい。

（実施の形態２）
本実施の形態のオーディオ信号符号化方法及び復号化方法では、ロスレス符号化を行う際の符号化効率に影響を与える量子化精度情報に対して、符号化及び復号化を行う。すなわち、符号化及び復号化の対象がゲインではなく、量子化精度情報であるのが実施の形態１と異なる点である。本実施の形態では、実施の形態１と同じ点は説明を省略し、異なる点を中心に説明する。

本実施の形態のオーディオ信号符号化方法を実施する装置は、実施の形態１と同様に図３に示すオーディオ信号符号化装置である。

本実施の形態において、サブフレーム量子化部３２５は、量子化精度情報を量子化する。例えば、聴感上、重要なサンプルのオーディオ信号に対しては、十分な量子化精度を保持するために、量子化精度情報Ｒｐを小さな値に設定する。

サブフレーム量子化部３２５に入力されるオーディオ信号を、ｙ（ｉ）として、量子化精度情報をＲｐとした場合、量子化の対象となるｚ（ｉ）について、式２で示すような関係が得られる。

（式２）ｙ（ｉ）＝Ｒｐ × ｚ（ｉ）

式２のような関係から、量子化精度情報Ｒｐを決定することで、ｚ（ｉ）が導出される。一般に、ｚ（ｉ）は実数値であるので、サブフレーム量子化部３２５は、実数値であるｚ（ｉ）を整数値に量子化する。そして、量子化されたｚ（ｉ）をロスレス符号化部３２６へ出力する。

実施の形態１に示した式１と式２を比較して判るように、ゲインＧｐが量子化精度情報Ｒｐになり、それに伴いｘ（ｉ）がｚ（ｉ）になっただけである。それ以外のモジュール、例えばロスレス符号化部３２６や聴覚モデル３２３などに変更はない。

以上のように、本実施の形態のオーディオ信号符号化方法及び復号化方法では、音質劣化を抑え、聴感上、重要なサンプルのオーディオ信号に対して、量子化精度情報Ｒｐを小さな値に設定することで、結果ｚ（ｉ）の絶対値を大きくすることができる。これにより、実数から整数値に変換する量子化の過程で生じる量子化誤差の影響を小さくすることが可能となる。

（実施の形態３）
本実施の形態のオーディオ信号符号化方法及び復号化方法は、時間周波数変換を有するオーディオ信号符号化及び復号化方法へ適用することができる。この点が、実施の形態１及び２が、主に時間周波数変換処理を伴わない、いわゆる時間領域の符号化及び復号化方法であったこととの相違点である。

１つ目の適用は、ＭＰＥＧ２−ＡＡＣに代表される、複数の変換長を有する一括直交変換方式における系への適用である。

この系では、入力されたオーディオ信号をあるサンプルごとにフレームを構成し、そのフレームのサンプルを一括直交変換して周波数スペクトル列を生成し、そのスペクトルを量子化及び符号化するものである。１フレームに対して１つの一括直交変換する場合と、１フレームに対して時間的に連続な複数の一括直交変換する場合とを切り替えて使用する。

１フレームに対して、時間的に連続な複数の一括直交変換をして、各々の一括直交変換から周波数スペクトル列を得るとき、各々の周波数スペクトル列に対する代表ゲインに対して、実施の形態１で述べた符号化方法を適用することで、符号化効率を高めることが可能となる。

２つ目の適用は、ＬｏｗＤｅｌａｙＡＡＣに代表される、単一の変換長を有する一括直交変換方式における系への適用である。

この系では、入力されたオーディオ信号をあるサンプルごとにフレームを構成し、そのフレームのサンプルを一括直交変換して周波数スペクトル列を生成し、そのスペクトルを量子化及び符号化するものである。１フレームに対して１つの直交変換を施すものである。

したがって、１フレームに対して１つの直交変換しかないため、１フレーム内の時間的な変動を得られない。この場合は、時間的な変動情報を直交変換とは関係なく、別途、予め時間的な複数のサブフレームを構成しておいて、その時間的なゲイン情報を量子化し符号化するのに複数のサブフレームを用いる。復号化のプロセスでは、一括直交変換で復号化された１フレームのオーディオ信号に対して、前記の時間的なゲイン情報で補正するなどに複数のサブフレームを用いてもよい。

若しくは、１つの直交変換から得られる周波数スペクトル列に対して、周波数軸上で、複数のサブバンド（時間軸上のサブフレームに相当する）に分割して、各々のサブバンドに対する代表ゲインに対して、実施の形態１で述べた符号化方法を適用することで、符号化効率を高めることも可能である。

３つ目の適用は、ＱＭＦ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒ）フィルタに代表される、時間周波数マトリクスを構成するポリフェーズフィルター方式における系への適用である。

この系では、複数の周波数サブバンドにおける複数サンプルからなる時間信号列が得られるものである。したがって、ある時間サンプルにおける複数の周波数サブバンドの信号のゲインに対して、実施の形態１で述べた符号化方法を適用してもよい。また、ある周波数サブバンドを選んで、その周波数サブバンドの複数サンプルからなる時間信号列に対して、１つ毎又は幾つか毎に、グルーピングした代表ゲインに対して、実施の形態１で述べた符号化方法を適用してもよい。

４つ目の適用は、３つ目の適用であるポリフェーズフィルター方式に加えて、追加処理として、ＤＣＴに代表される一括直交変換を加えた系における適用である。

この系では、ポリフェーズフィルター方式での出力は３つ目の適用と同様であるが、サブバンドの周波数間隔が大きい場合などにおいては、特に低域成分の周波数分解能が不足する。したがって、低域周波数成分の周波数分解能を向上させるため、ポリフェーズフィルターからの出力のうち、低域周波数成分に相当する時間信号列に対して、離散コサイン変換（ＤＣＴ変換）などの直交変換を用いて、時間周波数変換し、低域の周波数分解能を向上させるものである。

この４つ目の適用では、前記２つ目と３つ目の適用の組み合わせで実現でき、例えば、低域においては、２つ目の適用と同様の手法をとり、高域においては、３つ目の手法を適用することができ、同様に符号化効率を高めることができる。

以上、オーディオ信号符号化方法及び復号化方法における時間周波数変換を有する様々な系においても、基本的に実施の形態１と同様の符号化方法及び復号化方法を用いれば、符号化効率を高めることができる。上記ではゲインの符号化について、述べたが、量子化精度に置き換えて実施の形態２と同様の符号化方法及び復号化方法を実施しても、同じように符号化効率の向上が期待できる。

以上のように、本実施の形態のオーディオ信号符号化方法及び復号化方法は、符号化対象をいくつかのグループ（例えば、時間軸上のフレーム及び周波数軸上のバンド）に分割して符号化する場合に、さらに、１つのグループを複数のサブグループ（例えば、時間軸上のサブフレーム及び周波数軸上のサブバンド）に分割して、サブグループ毎に符号化する場合に適用することができる。

以上、本発明のオーディオ信号符号化方法及び復号化方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。

例えば、本実施の形態では、例外処理としてゲイン値などを単調増加又は単調減少するものとみなす処理を用いたが、通常の処理でなければいかなる処理であってもよい。例えば、サブフレーム毎にゲイン値などが大小２つの値を交互にとるとみなす処理でもよい。また、サブフレーム毎にゲイン値などがあらかじめ定められた規則に従って変動するとみなす処理でもよい。

また、本実施の形態では、ゲイン値又は量子化精度を決定する値を量子化及び符号化するとしたが、量子化及び符号化の対象はこれらに限られない。オーディオ信号の符号化に関する他の値を量子化及び符号化するとしてもよい。

本発明のオーディオ信号符号化方法及び復号化方法に含まれるステップをコンピュータに実行させるプログラムとして実現したり、そのプログラムを記録したコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体として実現したり、そのプログラムを示す情報、データ又は信号として実現したりすることもできる。そして、それらプログラム、情報、データ及び信号は、インターネット等の通信ネットワークを介して配信してもよい。

本発明のオーディオ信号符号化方法及び復号化方法は、従来からオーディオ符号化及び復号化方法が適用されていたあらゆるアプリケーションにおいて、適用可能である。特に放送コンテンツの伝送、ＤＶＤやＳＤカードなどの蓄積媒体に記録され再生される応用、携帯電話に代表される通信機器にＡＶコンテンツを伝送する場合などに用いることができる。また、インターネット上でやりとりされる電子データとして、オーディオ信号を伝送する場合においても有用である。

以上のように図１及び図２に示すオーディオ信号符号化装置及びオーディオ信号復号化装置を用いることで、ＡＡＣ等の符号化及び復号化方法を用いるよりも遅延が小さくなる。これは、ＡＡＣ等の方式が有する１フレームが１０２４サンプルなどの一括直交変換部分に要する遅延がなくなり、対して、プレフィルタやポストフィルタの消費する遅延が小さいことから、結果的に低遅延化することが可能になるためである。
国際公開第２００５／０７８７０５号ＩＳＯ／ＩＥＣ１４４９６−３：２００５"ＧｅｎｅｒａｌＡｕｄｉｏＣｏｄｉｎｇ" 学会論文"ＰｅｒｃｅｐｔｕａｌＡｕｄｉｏＣｏｄｉｎｇＵｓｉｎｇＡｄａｐｔｉｖｅＰｒｅ− ａｎｄＰｏｓｔ−ＦｉｌｔｅｒｓａｎｄＬｏｓｓｌｅｓｓＣｏｍｐｒｅｓｓｉｏｎ"（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．１０，Ｎｏ．６，Ｓｅｐｔｅｍｂｅｒ２００２）

これにより、符号化効率を高めることができる。

（式１）ｙ（ｉ）＝Ｇｐ × ｘ（ｉ）

図５は、符号化ストリーム構造の一例を示す図である。

（式２）ｙ（ｉ）＝Ｒｐ × ｚ（ｉ）

Claims

オーディオ信号を符号化するオーディオ信号符号化方法であって、
前記オーディオ信号を複数のサンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、前記フレームを２以上に分割したサブフレーム毎に符号化すべきか否かを前記フレーム毎に判断する判断ステップと、
前記サブフレーム毎に符号化すべきと判断された場合に、前記サブフレーム毎に、該サブフレームのオーディオ信号の特性を示す値を決定し、決定された前記値を用いて前記オーディオ信号を符号化するサブフレーム処理ステップとを含み、
前記サブフレーム処理ステップでは、
前記サブフレーム毎に決定された前記値が全て同じであるか否かを判定し、前記値が全て同じである場合、例外処理として前記値が示すオーディオ信号の特性とは異なる特性を用いて、前記オーディオ信号を符号化する
ことを特徴とするオーディオ信号符号化方法。
前記サブフレーム処理ステップでは、
隣接するサブフレーム間で前記値が同じ値であるか異なる値であるかを識別する識別符号を、全てのサブフレーム間に対して符号化し、
全ての前記識別符号が、全ての前記値が同じであることを示す場合に、前記例外処理として前記値が示すオーディオ信号の特性とは異なる特性を用いて、前記オーディオ信号を符号化する
ことを特徴とする請求項１記載のオーディオ信号符号化方法。
前記例外処理では、前記値が、隣接するサブフレーム間において単調増加するものとみなすことで、前記オーディオ信号を符号化する
ことを特徴とする請求項１記載のオーディオ信号符号化方法。
前記例外処理では、前記値が、隣接するサブフレーム間において単調減少するものとみなすことで、前記オーディオ信号を符号化する
ことを特徴とする請求項１記載のオーディオ信号符号化方法。
前記値は、前記オーディオ信号の正規化に用いられるゲイン値である
ことを特徴とする請求項１〜４のいずれか１項に記載のオーディオ信号符号化方法。
前記値は、量子化精度を決定する値である
ことを特徴とする請求項１〜４のいずれか１項に記載のオーディオ信号符号化方法。
請求項１記載のオーディオ信号符号化方法によって符号化されたオーディオ信号の符号化列を復号化するオーディオ信号復号化方法であって、
前記符号化列が前記サブフレーム処理で符号化されている場合、前記例外処理が実行されていることを識別することで、前記符号化列を復号化する復号化ステップを含む
ことを特徴とするオーディオ信号復号化方法。
オーディオ信号を符号化するオーディオ信号符号化装置であって、
前記オーディオ信号を複数のサンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、前記フレームを２以上に分割したサブフレーム毎に符号化すべきか否かを前記フレーム毎に判断する判断手段と、
前記サブフレーム毎に符号化すべきと判断された場合に、前記サブフレーム毎に、該サブフレームのオーディオ信号の特性を示す値を決定し、決定された前記値を用いて前記オーディオ信号を符号化するサブフレーム処理手段とを備え、
前記サブフレーム処理手段は、
前記サブフレーム毎に決定された前記値が全て同じであるか否かを判定し、前記値が全て同じである場合、例外処理として前記値が示すオーディオ信号の特性とは異なる特性を用いて、前記オーディオ信号を符号化する
ことを特徴とするオーディオ信号符号化装置。
請求項９記載のオーディオ信号符号化装置によって符号化されたオーディオ信号の符号化列を復号化するオーディオ信号復号化装置であって、
前記符号化列が前記サブフレーム処理で符号化されている場合、前記例外処理が実行されていることを識別することで、前記符号化列を復号化する復号化手段を備える
ことを特徴とするオーディオ信号復号化装置。
オーディオ信号を符号化するオーディオ信号符号化方法をコンピュータに実行させるプログラムであって、
前記オーディオ信号を複数のサンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、前記フレームを２以上に分割したサブフレーム毎に符号化すべきか否かを前記フレーム毎に判断する判断ステップと、
前記サブフレーム毎に符号化すべきと判断された場合に、前記サブフレーム毎に、該サブフレームのオーディオ信号の特性を示す値を決定し、決定された前記値を用いて前記オーディオ信号を符号化するサブフレーム処理ステップとを含み、
前記サブフレーム処理ステップでは、
前記サブフレーム毎に決定された前記値が全て同じであるか否かを判定し、前記値が全て同じである場合、例外処理として前記値が示すオーディオ信号の特性とは異なる特性を用いて、前記オーディオ信号を符号化する
ことを特徴とするプログラム。
請求項１０記載のプログラムを記録するコンピュータ読み取り可能な記録媒体。