WO2021260825A1

WO2021260825A1 - 音信号符号化方法、音信号符号化装置、プログラム及び記録媒体

Info

Publication number: WO2021260825A1
Application number: PCT/JP2020/024774
Authority: WO
Inventors: 健弘守谷; 亮介杉浦; 優鎌本
Original assignee: 日本電信電話株式会社
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2021-12-30
Also published as: US20230178086A1; CN115917644A; EP4175270A1; JPWO2021260825A1; EP4175270A4

Abstract

ステレオ符号化／復号のアルゴリズム遅延がモノラル符号化／復号のアルゴリズム遅延よりも大きくない複数チャネルの音信号とモノラルの音信号のエンベデッド符号化を提供する。符号化装置（１００）は、複数チャネルの音信号をフレーム単位で符号化する。ステレオ符号化部（１１０）は、複数チャネルの音信号のチャネル間の差分の特徴を表すパラメータである特徴パラメータを表すステレオ符号を得て出力する。ダウンミックス部（１５０）は、複数チャネルの音信号を混合した信号をダウンミックス信号として得る。モノラル符号化部（１２０）は、フレーム間でオーバーラップのある窓をかける処理が含まれる符号化方式で、ダウンミックス信号を符号化してモノラル符号を得て出力する。追加符号化部（１３０）は、ダウンミックス信号のうちの現在のフレームと直後のフレームとのオーバーラップの区間の信号を符号化して追加符号を得て出力する。

Description

音信号符号化方法、音信号符号化装置、プログラム及び記録媒体

　本発明は、複数チャネルの音信号と１チャネルの音信号をエンベデッド符号化／復号する技術に関する。

　複数チャネルの音信号とモノラルの音信号をエンベデッド符号化／復号する技術としては、非特許文献１の技術がある。非特許文献１の技術の概要を、図５に例示する符号化装置５００と図６に例示する復号装置６００で説明する。符号化装置５００のステレオ符号化部５１０は、所定の時間区間であるフレームごとに、入力された複数チャネルの音信号であるステレオ入力音信号から、ステレオ入力音信号におけるチャネル間の差分の特徴を表すパラメータである特徴パラメータを表すステレオ符号ＣＳと、ステレオ入力音信号を混合した信号であるダウンミックス信号と、を得る。符号化装置５００のモノラル符号化部５２０は、フレームごとに、ダウンミックス信号を符号化してモノラル符号ＣＭを得る。復号装置６００のモノラル復号部６１０は、フレームごとに、モノラル符号ＣＭを復号してダウンミックス信号の復号信号であるモノラル復号音信号を得る。復号装置６００のステレオ復号部６２０は、フレームごとに、ステレオ符号ＣＳを復号してチャネル間の差分の特徴を表すパラメータである特徴パラメータを得て、モノラル復号音信号と特徴パラメータからステレオ復号音信号を得る処理（いわゆるアップミックス処理）を行う。

　高音質なモノラル復号音信号を得られるモノラル符号化／復号方式としては、非特許文献２に記載された3GPP EVS規格の符号化／復号方式がある。非特許文献１のモノラル符号化／復号方式として非特許文献２のような高音質のモノラル符号化／復号方式を用いれば、複数チャネルの音信号とモノラルの音信号のより高音質なエンベデッド符号化／復号を実現できる可能性がある。

Jeroen Breebaart et al., "Parametric Coding of Stereo Audio", EURASIP Journal on Applied Signal Processing, pp. 1305-1322, 2005:9. 3GPP, "Codec for Enhanced Voice Services (EVS); Detailed algorithmic description", TS 26.445.

　非特許文献１のアップミックス処理は、モノラル復号音信号に対して隣接するフレーム間でオーバーラップのある窓をかける処理を含む周波数領域での信号処理である。一方、非特許文献２のモノラル符号化／復号方式にも、隣接するフレーム間でオーバーラップのある窓をかける処理が含まれる。すなわち、非特許文献１のステレオ符号化／復号方式の復号側と、非特許文献２のモノラル符号化／復号方式の復号側と、の両方で、フレームの境界部分の所定の範囲については、前側のフレームの符号を復号して得た信号に減衰する形の傾斜窓をかけた信号と、後側のフレームの符号を復号して得た信号に増加する形の傾斜窓をかけた信号と、を合成することで復号音信号を得る。これらのことから、非特許文献１のようなエンベデッド符号化／復号のモノラル符号化／復号方式として非特許文献２のようなモノラル符号化／復号方式を用いると、アップミックス処理における窓の分だけモノラル復号音信号よりもステレオ復号音信号が遅れてしまう課題、すなわち、ステレオ符号化／復号のアルゴリズム遅延がモノラル符号化／復号よりも大きくなってしまう課題がある。

　例えば、多地点で電話会議をするための多地点制御装置（Multipoint Control Unit, MCU）では、どの地点からの信号をどの地点に出力するかを所定時間区間ごとに切り替える制御を行うのが一般的であり、モノラル復号音信号よりもアップミックス処理における窓の分だけステレオ復号音信号が遅れた状態での制御をするのは難しく、モノラル復号音信号よりもステレオ復号音信号を１フレーム遅延させた状態で制御をする実装となることが想定される。すなわち、多地点制御装置を含む通信システムにおいては、上述した課題が更に顕著となってしまい、ステレオ符号化／復号のアルゴリズム遅延がモノラル符号化／復号のアルゴリズム遅延よりも１フレーム大きくなってしまう可能性がある。また、モノラル復号音信号よりもステレオ復号音信号を１フレーム遅延させれば切り替える制御を所定時間区間ごとにすること自体は可能となるものの、各時間区間についてどの地点からのモノラル復号音信号とどの地点からのステレオ復号音信号とを組み合わせて出力するかの制御は、モノラル復号音信号とステレオ復号音信号の遅延が異なることで複雑になってしまう可能性がある。

　本発明は、このような課題を鑑みてなされたものであり、ステレオ符号化／復号のアルゴリズム遅延がモノラル符号化／復号のアルゴリズム遅延よりも大きくない複数チャネルの音信号とモノラルの音信号のエンベデッド符号化／復号を提供することを目的とする。

　上記の課題を解決するために、本発明の一態様の音信号符号化方法は、入力されたＣ個（Ｃは２以上の整数）のチャネルの音信号をフレーム単位で符号化する音信号符号化方法であって、現在のフレームの処理として、Ｃ個のチャネルの音信号のチャネル間の差分の特徴を表すパラメータである特徴パラメータを表すステレオ符号を得て出力するステレオ符号化ステップと、Ｃ個のチャネルの音信号を混合した信号をダウンミックス信号として得るダウンミックスステップと、ダウンミックス信号を符号化してモノラル符号を得て出力するモノラル符号化ステップと、を含み、モノラル符号化ステップは、フレーム間でオーバーラップのある窓をかける処理が含まれる符号化方式で、ダウンミックス信号を符号化してモノラル符号を得て、ダウンミックス信号のうちの現在のフレームと直後のフレームとのオーバーラップの区間の信号を符号化して追加符号を得て出力する追加符号化ステップを更に含むことを特徴とする。

　本発明によれば、ステレオ符号化／復号のアルゴリズム遅延がモノラル符号化／復号のアルゴリズム遅延よりも大きくない複数チャネルの音信号とモノラルの音信号のエンベデッド符号化／復号を提供することができる。

各実施形態の符号化装置の例を示すブロック図である。各実施形態の符号化装置の処理の例を示す流れ図である。各実施形態の復号装置の例を示すブロック図である。各実施形態の復号装置の処理の例を示す流れ図である。従来の符号化装置の例を示すブロック図である。従来の復号装置の例を示すブロック図である。非特許文献２の符号化装置の各信号を模式的に示した図である。非特許文献２の復号装置の各信号とアルゴリズム遅延を模式的に示した図である。モノラル符号化／復号方式として非特許文献２のモノラル符号化／復号方式を用いた場合の非特許文献１の復号装置の各信号とアルゴリズム遅延を模式的に示した図である。本発明の復号装置の各信号とアルゴリズム遅延を模式的に示した図である。本発明の符号化装置の各信号を模式的に示した図である。各実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。

　各実施形態を説明する前に、まず、背景技術と第１実施形態の符号化／復号の各信号とアルゴリズム遅延について、フレーム長が20msである場合の各信号を模式的に例示した図７から図１１を参照して説明する。図７から図１１の各図の横軸は時間軸である。以下では、時刻がt7の時点で現在のフレームの処理を行う例を説明することから、各図の最上部に配置した軸には、左端に「過去」、右端に「未来」、との記載を付してあり、現在のフレームの処理を行う時刻であるt7のところに上向きの矢印を付してある。図７から図１１では、各信号について、どの時間区間のものであるか、窓がけされているときにはその窓が増加する形であるか平坦な形であるか減衰する形であるか、を模式的に示してある。より具体的には、窓関数が厳密にどのようなものであるのかはここでの説明においては重要ではないことから、図７から図１１では、窓が増加する形の区間と窓が減少する形の区間については、合成すると窓がけされていない信号になることを視覚的に表現するために、窓が増加する形の区間は右上がりの直線を含む三角形状で表してあり、窓が減少する形の区間は右下がりの直線を含む三角形状で表してある。また、以降では、複雑な文言表現を避けるために、各区間の始端の時刻を「から」「以降」などの文言を用いて特定しているが、当業者が理解し得る通り、各区間の実際の始端は表記してある時刻の直後の時刻であり、各区間のディジタル信号の実際の始端は表記してある時刻の直後のサンプルである。

　図７は、t7の時点で現在のフレームの処理を行う非特許文献２の符号化装置の各信号を模式的に示した図である。非特許文献２の符号化装置が現在のフレームの処理に用いることができるのは、t7までのモノラルの音信号である信号1aである。非特許文献２の符号化装置は、現在のフレームの処理では、信号1aのうちのt6からt7までの8.75msの区間をいわゆる「先読み区間」として分析に用いて、信号1aのうちのt1からt6までの23.25msの区間の信号に窓をかけた信号である信号1bを符号化して、モノラル符号を得て出力する。窓の形状は、t1からt2までの3.25msの区間が増加する形であり、t2からt5までの16.75msの区間が平坦であり、t5からt6までの3.25msの区間が減衰する形である。すなわち、この信号1bが現在のフレームの処理で得られるモノラル符号に対応するモノラルの音信号である。非特許文献２の符号化装置は、直前のフレームの処理として、t3までのモノラルの音信号が入力された時点で同様の処理を済ませており、t2までの23.25msの区間のモノラルの音信号にt1からt2までの区間に減衰する形の窓をかけた信号である信号1cの符号化を済ませている。すなわち、この信号1cが直前のフレームの処理で得られるモノラル符号に対応するモノラルの音信号であり、t1からt2までの区間は現在のフレームと直前のフレームとのオーバーラップ区間である。また、非特許文献２の符号化装置は、直後のフレームの処理として、t5以降の23.25msの区間のモノラルの音信号にt5からt6までの区間に増加する形の窓をかけた信号である信号1dを符号化することになる。すなわち、この信号1dが直後のフレームの処理で得られるモノラル符号に対応するモノラルの音信号であり、t5からt6までの区間は現在のフレームと直後のフレームとのオーバーラップ区間である。

　図８は、非特許文献２の符号化装置から現在のフレームのモノラル符号が入力された時点であるt7の時点で現在のフレームの処理を行う非特許文献２の復号装置の各信号を模式的に示した図である。非特許文献２の復号装置は、現在のフレームの処理では、現在のフレームのモノラル符号から、t1からt6までの区間の復号音信号である信号2aを得る。この信号2aは、信号1bに対応する復号音信号であり、t1からt2までの区間が増加する形であり、t2からt5までの区間が平坦であり、t5からt6までの区間が減衰する形の窓がけがされた信号である。非特許文献２の復号装置は、直前のフレームの処理として、直前のフレームのモノラル符号から、t1からt2までの区間が減衰する形の窓がけがされたt2までの23.25msの区間の復号音信号である信号2bを、直前のフレームのモノラル符号が入力された時点であるt3の時点で既に得ている。また、非特許文献２の復号装置は、直後のフレームの処理として、直後のフレームのモノラル符号から、t5からt6までの区間が増加する形の窓がけがされたt5以降の23.25msの区間の復号音信号である信号2cを得ることになる。ただし、t7の時点では信号2cは得られないので、t7の時点ではt5からt6までの区間については不完全な復号音信号は得られるものの完全な復号音信号は得られない。そこで、非特許文献２の復号装置は、t7の時点では、t1からt2までの区間については直前のフレームの処理で得られた信号2bと現在のフレームの処理で得られた信号2aとを合成し、t2からt5までの区間については現在のフレームの処理で得られた信号2aをそのまま用いることで、t1からt5まで20msの区間のモノラルの復号音信号である信号2dを得て出力する。非特許文献２の復号装置はt7の時点でt1から始まる区間の復号音信号を得ることから、非特許文献２のモノラル符号化／復号方式のアルゴリズム遅延はt1からt7までの時間長である32msである。

　図９は、モノラル復号部６１０が非特許文献２のモノラル復号方式を用いる場合の非特許文献１の復号装置６００の各信号を模式的に示した図である。ステレオ復号部６２０は、t7の時点で、モノラル復号部６１０で完全に得られているt5までのモノラル復号音信号である信号3aを用いて現在のフレームのステレオ復号処理（アップミックス処理）を行う。具体的には、ステレオ復号部６２０は、信号3aに対して、t0からt1までの3.25msの区間が増加する形であり、t1からt4までの16.75msの区間が平坦であり、t4からt5までの3.25msの区間が減衰する形の窓がけをしたt0からt5までの23.25msの区間の信号である信号3bを用いて、各チャネルについて信号3bと同じ形の窓がけがされたt0からt5までの復号音信号である信号3c-i（iはチャネル番号）を得る。ステレオ復号部６２０は、直前のフレームの処理として、t0からt1までの区間が減衰する形の窓がけがされたt1までの23.25msの区間の各チャネルの復号音信号である信号3d-iをt3の時点で既に得ている。また、ステレオ復号部６２０は、直後のフレームの処理として、t4からt5までの区間が増加する形の窓がけがされたt4以降の23.25msの区間の各チャネルの復号音信号である信号3e-iを得ることになる。ただし、t7の時点では信号3e-iは得られないので、t7の時点ではt4からt5までの区間については不完全な復号音信号は得られるものの完全な復号音信号は得られない。そこで、ステレオ復号部６２０は、t7の時点では、各チャネルについて、t0からt1までの区間については直前のフレームの処理で得られた信号3d-iと現在のフレームの処理で得られた信号3c-iとを合成し、t1からt4までの区間については現在のフレームの処理で得られた信号3c-iをそのまま用いることで、t0からt4まで20msの区間の完全な復号音信号である信号3f-iを得て出力する。復号装置６００はt7の時点で各チャネルのt0から始まる区間の復号音信号を得ることから、モノラル符号化／復号方式として非特許文献２のモノラル符号化／復号方式を用いた非特許文献１のステレオ符号化／復号のアルゴリズム遅延はt0からt7までの時間長である35.25msである。すなわち、このエンベデッド符号化／復号におけるステレオ符号化／復号のアルゴリズム遅延は、モノラル符号化／復号によるアルゴリズム遅延よりも大きくなってしまう。

　図１０は、後述する第１実施形態の復号装置２００の各信号を模式的に示した図である。第１実施形態の復号装置２００は、図３に示す構成であり、第１実施形態で詳述する通りの動作を行うモノラル復号部２１０と追加復号部２３０とステレオ復号部２２０を含む。ステレオ復号部２２０は、t7の時点で、完全に得られているt6までのモノラル復号音信号である信号4cを用いて現在のフレームの処理を行う。図９の説明箇所において上述した通り、t7の時点でモノラル復号部２１０で完全に得られているのはt5までのモノラル復号音信号である信号3aである。そこで、復号装置２００では、追加復号部２３０が、追加符号ＣＡを復号してt5からt6まで3.25msの区間のモノラル復号音信号である信号4bを得て（追加復号処理）、ステレオ復号部２２０は、モノラル復号部２１０で得られたt5までのモノラル復号音信号である信号3aと、追加復号部２３０で得られたt5からt6までの区間のモノラル復号音信号である信号4bと、を連結した信号4cを用いて現在のフレームのステレオ復号処理（アップミックス処理）を行う。すなわち、ステレオ復号部２２０は、信号4cに対して、t1からt2までの3.25msの区間が増加する形であり、t2からt5までの16.75msの区間が平坦であり、t5からt6までの3.25msの区間が減衰する形の窓がけをしたt1からt6までの23.75msの区間の信号4dを用いて、各チャネルについて信号4dと同じ形の窓がけがされたt1からt6までの区間の復号音信号である信号4e-iを得る。ステレオ復号部２２０は、直前のフレームの処理として、t1からt2までの区間が減衰する形の窓がけがされたt2までの23.75msの区間の各チャネルの復号音信号である信号4f-iをt3の時点で既に得ている。また、ステレオ復号部２２０は、直後のフレームの処理として、t5からt6までの区間が増加する形の窓がけがされたt5以降の23.75msの区間の各チャネルの復号音信号である信号4g-iを得ることになる。ただし、t7の時点では信号4g-iは得られないので、t7の時点ではt5からt6までの区間については不完全な復号音信号は得られるものの完全な復号音信号は得られない。そこで、ステレオ復号部２２０は、t7の時点では、各チャネルについて、t1からt2までの区間については直前のフレームの処理で得られた信号4f-iと現在のフレームの処理で得られた信号4e-iとを合成し、t2からt5までの区間については現在のフレームの処理で得られた信号4e-iをそのまま用いることで、t1からt5まで20msの区間の完全な復号音信号である信号4h-iを得て出力する。復号装置２００はt7の時点で各チャネルのt1から始まる区間の復号音信号を得ることから、第１実施形態のエンベデッド符号化／復号におけるステレオ符号化／復号のアルゴリズム遅延は、t1からt7までの時間長である32msである。すなわち、第１実施形態のエンベデッド符号化／復号によるステレオ符号化／復号のアルゴリズム遅延は、モノラル符号化／復号によるアルゴリズム遅延よりも大きくならない。

　図１１は、後述する第１実施形態の符号化装置１００、すなわち、各信号が図１０に模式的に示したものとなるようにする復号装置である第１実施形態の復号装置２００に対応した符号化装置、の各信号について模式的に示した図である。第１実施形態の符号化装置１００は、図１に示す構成であり、符号化装置５００のステレオ符号化部５１０と同様の処理を行うステレオ符号化部１１０と、符号化装置５００のモノラル符号化部５２０と同様にt7までのモノラルの音信号である信号1aのうちのt1からt6までの区間の信号に窓をかけた信号である信号1bを符号化してモノラル符号ＣＭを得るモノラル符号化部１２０と、に加えて、モノラルの音信号である信号1aのうちの現在のフレームと直後のフレームとのオーバーラップ区間であるt5からt6までの区間の信号である信号5cを符号化して追加符号ＣＡを得る処理を行う追加符号化部１３０を含む。

　以降では、現在のフレームと直後のフレームとのオーバーラップ区間であるt5からt6までの区間のことを「区間Ｘ」と呼ぶ。すなわち、符号化側では、区間Ｘは、モノラル符号化部１２０が、現在のフレームの処理と直後のフレームの処理の両方で、窓がけされたモノラルの音信号を符号化する区間である。より詳しくは、区間Ｘは、モノラル符号化部１２０が現在のフレームの処理で符号化する音信号のうちの終端を含む所定の長さの区間であり、モノラル符号化部１２０が現在のフレームの処理で減衰する形の窓がけをした音信号を符号化する区間であり、モノラル符号化部１２０が直後のフレームの処理で符号化する区間のうちの始端を含む所定の長さの区間であり、モノラル符号化部１２０が直後のフレームの処理で増加する形の窓がけをした音信号を符号化する区間である。また、復号側では、区間Ｘは、モノラル復号部２１０が、現在のフレームの処理と直後のフレームの処理の両方で、モノラル符号ＣＭを復号して窓がけされた復号音信号を得る区間である。より詳しくは、区間Ｘは、モノラル復号部２１０が現在のフレームの処理でモノラル符号ＣＭを復号して得た復号音信号のうちの終端を含む所定の長さの区間であり、モノラル復号部２１０が現在のフレームの処理でモノラル符号ＣＭを復号して得た復号音信号のうちの減衰する形の窓がけがされた区間であり、モノラル復号部２１０が直後のフレームの処理でモノラル符号ＣＭを復号して得る復号音信号のうちの始端を含む所定の長さの区間であり、モノラル復号部２１０が直後のフレームの処理でモノラル符号ＣＭを復号して得る復号音信号のうちの増加する形の窓がけがされた区間であり、モノラル復号部２１０が直後のフレームの処理で、現在のフレームの処理でモノラル符号ＣＭを復号して既に得られている復号音信号と、当該直後のフレームの処理でモノラル符号ＣＭを復号して得る復号音信号と、を合成して復号音信号を得る区間である。

　また、以降では、現在のフレームの処理でモノラル符号化／復号される区間のうち区間Ｘ以外の区間であるt1からt5までの区間のことを「区間Ｙ」と呼ぶ。すなわち、区間Ｙは、符号化側では、モノラル符号化部１２０において現在のフレームの処理でモノラルの音信号が符号化される区間のうちの直後のフレームとのオーバーラップ区間以外の区間であり、復号側では、モノラル復号部２１０において現在のフレームの処理でモノラル符号ＣＭを復号して復号音信号が得られる区間のうちの直後のフレームとのオーバーラップ区間以外の区間である。区間Ｙは、現在のフレームのモノラル符号ＣＭと直前のフレームのモノラル符号ＣＭでモノラルの音信号が表される区間と、現在のフレームのモノラル符号ＣＭのみでモノラルの音信号が表される区間と、を連結した区間であるので、現在のフレームの処理まででモノラル復号音信号を完全に得られる区間である。

＜第１実施形態＞
　第１実施形態の符号化装置と復号装置について説明する。

≪符号化装置１００≫
　第１実施形態の符号化装置１００は、図１に示す通り、ステレオ符号化部１１０とモノラル符号化部１２０と追加符号化部１３０を含む。符号化装置１００は、例えば20msの所定の時間長のフレーム単位で、入力された２チャネルステレオの時間領域の音信号（２チャネルステレオ入力音信号）を符号化して、後述するステレオ符号ＣＳとモノラル符号ＣＭと追加符号ＣＡを得て出力する。符号化装置１００に入力される２チャネルステレオ入力音信号は、例えば、音声や音楽などの音を２個のマイクロホンそれぞれで収音してＡＤ変換して得られたディジタルの音声信号又は音響信号であり、第１チャネルである左チャネルの入力音信号と第２チャネルである右チャネルの入力音信号から成る。符号化装置１００が出力する符号、すなわち、ステレオ符号ＣＳとモノラル符号ＣＭと追加符号ＣＡ、は後述する復号装置２００へ入力される。符号化装置１００は、各フレーム単位で、すなわち、上記の所定の時間長分の２チャネルステレオ入力音信号が入力されるごとに、図２に例示するステップＳ１１１とステップＳ１２１とステップＳ１３１の処理を行う。上述した例であれば、符号化装置１００は、t3からt7までの20ms分の２チャネルステレオ入力音信号が入力されると、現在のフレームについてのステップＳ１１１とステップＳ１２１とステップＳ１３１の処理を行う。

［ステレオ符号化部１１０］
　ステレオ符号化部１１０は、符号化装置１００に入力された２チャネルステレオ入力音信号から、入力された２個のチャネルの音信号の差分の特徴を表すパラメータである特徴パラメータを表すステレオ符号ＣＳと、２個のチャネルの音信号を混合した信号であるダウンミックス信号と、を得て出力する（ステップＳ１１１）。

〔ステレオ符号化部１１０の例〕
　ステレオ符号化部１１０の例として、入力された２個のチャネルの音信号の周波数帯域ごとの強度差を表す情報を特徴パラメータとする場合のステレオ符号化部１１０のフレームごとの動作を説明する。なお、以下では複素DFT(Discrete Fourier Transformation)を用いる具体例を説明しているが、複素DFT以外の周知の周波数領域への変換手法を用いてもよい。なお、サンプルの個数が２のべき乗ではないサンプル列を周波数領域に変換する場合には、サンプルの個数が２のべき乗となるようにゼロ詰めをしたサンプル列を用いるなどの周知技術を用いればよい。

　ステレオ符号化部１１０は、まず、入力された２個のチャネルの音信号それぞれを複素DFTして複素DFT係数列を得る（ステップＳ１１１－１）。複素DFT係数列は、フレーム間でオーバーラップのある窓をかけて、複素DFTにより得られる複素数の対称性を考慮した処理を用いて得る。例えば、サンプリング周波数が32kHzである場合には、20ms分のサンプルである640サンプルずつの２個のチャネルの音信号が入力されるごとに処理を行うようにして、各チャネルについて、直前のフレームの最後にあるサンプル群とオーバーラップする104点のサンプル（上述した例であれば、t1からt2の区間のサンプル）と直後のフレームの最初にあるサンプル群とオーバーラップする104点のサンプル（上述した例であれば、t5からt6の区間のサンプル）を含む連続する744点のディジタル音信号のサンプル列（上述した例であれば、t1からt6の区間のサンプル列）を複素DFTして得られる744個の複素数による系列のうちの前半の372個の複素数による系列を複素DFT係数列として得ればよい。以降では、fを1以上372以下の各整数とし、第１チャネルの複素DFT係数列の各複素DFT係数をV1(f)とし、第２チャネルの複素DFT係数列の各複素DFT係数をV2(f)とする。ステレオ符号化部１１０は、次に、２個のチャネルの複素DFT係数列から、各複素DFT係数の複素面上での半径の値による系列を得る（ステップＳ１１１－２）。各チャネルの各複素DFT係数の複素面上での半径の値は、各チャネルの音信号の周波数ビンごとの強度に相当する。以降では、第１チャネルの複素DFT係数V1(f)の複素面上での半径の値をV1r(f)とし、第２チャネルの複素DFT係数V2(f)の複素面上での半径の値をV2r(f)とする。ステレオ符号化部１１０は、次に、周波数帯域それぞれについて一方のチャネルの半径の値と他方のチャネルの半径の値との比の平均値を得て、平均値による系列を特徴パラメータとして得る（ステップＳ１１１－３）。この平均値による系列が、入力された２個のチャネルの音信号の周波数帯域ごとの強度差を表す情報に相当する特徴パラメータである。例えば、４個の帯域とする場合であれば、fが1から93まで、94から186まで、187から279まで、280から372まで、の４個の帯域それぞれについての、第１チャネルの半径の値V1r(f)を第２チャネルの半径の値V2r(f)で除算して得た93個の値の平均値Mr(1), Mr(2), Mr(3), Mr(4)を得て、平均値による系列{Mr(1), Mr(2), Mr(3), Mr(4)}を特徴パラメータとして得る。

　なお、帯域数は周波数ビンの数以下の値であればよく、帯域数として周波数ビン数と同じ値を用いてもよいし、1を用いてもよい。帯域数として周波数ビン数と同じ値を用いる場合には、ステレオ符号化部１１０は、各周波数ビンの一方のチャネルの半径の値と他方のチャネルの半径の値との比の値を得て、得た比の値による系列を特徴パラメータとして得ればよい。帯域数として1を用いる場合には、ステレオ符号化部１１０は、各周波数ビンの一方のチャネルの半径の値と他方のチャネルの半径の値との比の値を得て、得た比の値の全帯域の平均値を特徴パラメータとして得ればよい。また、帯域数を複数とする場合の各周波数帯域に含める周波数ビン数は任意であり、例えば、周波数が低い帯域に含める周波数ビン数を周波数が高い帯域に含める周波数ビン数よりも少なくしてもよい。

　また、ステレオ符号化部１１０は、一方のチャネルの半径の値と他方のチャネルの半径の値との比に代えて、一方のチャネルの半径の値と他方のチャネルの半径の値との差を用いてもよい。すなわち、上述した例であれば、第１チャネルの半径の値V1r(f)を第２チャネルの半径の値V2r(f)で除算して得た値に代えて、第１チャネルの半径の値V1r(f)から第２チャネルの半径の値V2r(f)を減算して得た値を用いてもよい。

　ステレオ符号化部１１０は、更に、特徴パラメータを表す符号であるステレオ符号ＣＳを得る（ステップＳ１１１－４）。特徴パラメータを表す符号であるステレオ符号ＣＳは周知の方法で得ればよい。例えば、ステレオ符号化部１１０は、ステップＳ１１１－３で得た値の系列をベクトル量子化して符号を得て、得た符号をステレオ符号ＣＳとして出力する。または、例えば、ステレオ符号化部１１０は、ステップＳ１１１－３で得た値の系列に含まれる値それぞれをスカラ量子化して符号を得て、得た符号を合わせたものをステレオ符号ＣＳとして出力する。なお、ステレオ符号化部１１０は、ステップＳ１１１－３で得たのが１つの値である場合には、その１つの値をスカラ量子化して得た符号をステレオ符号ＣＳとして出力すればよい。

　ステレオ符号化部１１０は、また、第１チャネルと第２チャネルの２個のチャネルの音信号を混合した信号であるダウンミックス信号を得る（ステップＳ１１１－５）。例えば、ステレオ符号化部１１０は、現在のフレームの処理においては、t3からt7までの20msについて、２個のチャネルの音信号を混合したモノラルの信号であるダウンミックス信号を得るようにすればよい。ステレオ符号化部１１０は、後述するステップＳ１１１－５Ａのように２個のチャネルの音信号を時間領域で混合してもよいし、後述するステップＳ１１１－５Ｂのように２個のチャネルの音信号を周波数領域で混合してもよい。時間領域で混合する場合には、例えば、ステレオ符号化部１１０は、第１チャネルの音信号のサンプル列と第２チャネルの音信号のサンプル列との対応するサンプル同士の平均値による系列を２個のチャネルの音信号を混合したモノラルの信号であるダウンミックス信号として得る（ステップＳ１１１－５Ａ）。周波数領域で混合する場合には、例えば、ステレオ符号化部１１０は、第１チャネルの音信号のサンプル列を複素DFTして得られる複素DFT係数列の各複素DFT係数と第２チャネルの音信号のサンプル列を複素DFTして得られる複素DFT係数列の各複素DFT係数の半径の平均値VMr(f)と角度の平均値VMθ(f)とを得て、複素面上での半径がVMr(f)であり角度がVMθ(f)である複素数VM(f)による系列を逆複素DFTして得たサンプル列を、２個のチャネルの音信号を混合したモノラルの信号であるダウンミックス信号として得る（ステップＳ１１１－５Ｂ）。

　なお、図１に二点鎖線で示すように符号化装置１００にダウンミックス部１５０も備えて、ダウンミックス信号を得るステップＳ１１１－５の処理を、ステレオ符号化部１１０内ではなくダウンミックス部１５０が行うようにしてもよい。この場合には、ステレオ符号化部１１０は、符号化装置１００に入力された２チャネルステレオ入力音信号から入力された２個のチャネルの音信号の差分の特徴を表すパラメータである特徴パラメータを表すステレオ符号ＣＳを得て出力し（ステップＳ１１１）、ダウンミックス部１５０は、符号化装置１００に入力された２チャネルステレオ入力音信号から２個のチャネルの音信号を混合した信号であるダウンミックス信号を得て出力する（ステップＳ１５１）。すなわち、ステレオ符号化部１１０が上述したステップＳ１１１―１からステップＳ１１１－４までをステップＳ１１１として行い、ダウンミックス部１５０が上述したステップＳ１１１―５をステップＳ１５１として行うようにしてもよい。

［モノラル符号化部１２０］
　モノラル符号化部１２０には、ステレオ符号化部１１０が出力したダウンミックス信号が入力される。符号化装置１００がダウンミックス部１５０を備える場合には、モノラル符号化部１２０には、ダウンミックス部１５０が出力したダウンミックス信号が入力される。モノラル符号化部１２０は、ダウンミックス信号を所定の符号化方式で符号化してモノラル符号ＣＭを得て出力する（ステップＳ１２１）。符号化方式としては、例えば非特許文献２の3GPP EVS規格（3GPP TS26.445）の13.2kbpsモードのような、フレーム間でオーバーラップのある窓をかける処理が含まれる符号化方式を用いる。上述した例であれば、モノラル符号化部１２０は、現在のフレームの処理においては、ダウンミックス信号である信号1aに、現在のフレームと直前のフレームとがオーバーラップするt1からt2までの区間は増加する形、現在のフレームと直後のフレームとがオーバーラップするt5からt6までの区間は減衰する形、これらの区間の間にあるt2からt5までの区間は平坦な形の窓をかけて得たt1からt6までの区間の信号である信号1bを、「先読み区間」である信号1aのt6からt7までの区間も分析処理に用いて符号化してモノラル符号ＣＭを得て出力する。

　このように、モノラル符号化部１２０が用いる符号化方式がオーバーラップのある窓をかける処理や「先読み区間」を用いた分析処理を含む場合には、現在のフレームの処理でステレオ符号化部１１０またはダウンミックス部１５０が出力したダウンミックス信号のみならず、過去のフレームの処理でステレオ符号化部１１０またはダウンミックス部１５０が出力したダウンミックス信号も符号化処理に用いることから、モノラル符号化部１２０には図示しない記憶部を備えておき、過去のフレームの処理で入力されたダウンミックス信号を記憶部に記憶しておくようにして、モノラル符号化部１２０は、記憶部に記憶されたダウンミックス信号も用いて現在のフレームの符号化処理を行えばよい。または、ステレオ符号化部１１０またはダウンミックス部１５０に図示しない記憶部を備えておき、ステレオ符号化部１１０またはダウンミックス部１５０が、モノラル符号化部１２０が現在のフレームの符号化処理で用いるダウンミックス信号を、過去のフレームの処理で得たダウンミックス信号も含んで現在のフレームの処理で出力するようにして、モノラル符号化部１２０は、現在のフレームの処理においてステレオ符号化部１１０またはダウンミックス部１５０から入力されたダウンミックス信号を用いるようにしてもよい。なお、これらの処理のような、過去のフレームの処理で得た信号を図示しない記憶部に記憶しておいて現在のフレームの処理で用いることは、必要に応じて後述する各部でも行うが、符号化の技術分野においては周知の処理であるので、冗長を避けるために以降では説明を省略する。

［追加符号化部１３０］
　追加符号化部１３０には、ステレオ符号化部１１０が出力したダウンミックス信号が入力される。符号化装置１００がダウンミックス部１５０を備える場合には、追加符号化部１３０には、ダウンミックス部１５０が出力したダウンミックス信号が入力される。追加符号化部１３０は、入力されたダウンミックス信号のうちの区間Ｘのダウンミックス信号を符号化して追加符号ＣＡを得て出力する（ステップＳ１３１）。上述した例であれば、追加符号化部１３０は、t5からt6までの区間のダウンミックス信号である信号5cを符号化して追加符号ＣＡを得て出力する。符号化には周知のスカラ量子化やベクトル量子化などの符号化方式を用いればよい。

≪復号装置２００≫
　第１実施形態の復号装置２００は、図３に示す通り、モノラル復号部２１０と追加復号部２３０とステレオ復号部２２０を含む。復号装置２００は、符号化装置１００と同じ所定の時間長のフレーム単位で、入力されたモノラル符号ＣＭと追加符号ＣＡとステレオ符号ＣＳを復号して２チャネルステレオの時間領域の音信号（２チャネルステレオ復号音信号）を得て出力する。復号装置２００に入力される符号、すなわち、モノラル符号ＣＭと追加符号ＣＡとステレオ符号ＣＳ、は符号化装置１００が出力したものである。復号装置２００は、各フレーム単位で、すなわち、上述した所定の時間長の間隔で、モノラル符号ＣＭと追加符号ＣＡとステレオ符号ＣＳが入力されるごとに、図２に例示するステップＳ２１１とステップＳ２２１とステップＳ２３１の処理を行う。上述した例であれば、復号装置２００は、直前のフレームについての処理を行ったt3から20ms経過したt7の時点で、現在のフレームのモノラル符号ＣＭと追加符号ＣＡとステレオ符号ＣＳが入力されると、現在のフレームについてのステップＳ２１１とステップＳ２２１とステップＳ２３１の処理を行う。なお、図３に破線で示す通り、復号装置２００は、必要な場合にはモノラルの時間領域の音信号であるモノラル復号音信号も出力する。

［モノラル復号部２１０］
　モノラル復号部２１０には、復号装置２００に入力された符号に含まれるモノラル符号ＣＭが入力される。モノラル復号部２１０は、入力されたモノラル符号ＣＭを用いて区間Ｙのモノラル復号音信号を得て出力する（ステップＳ２１１）。所定の復号方式としては、符号化装置１００のモノラル符号化部１２０が用いた符号化方式に対応する復号方式を用いる。上述した例であれば、モノラル復号部２１０は、現在のフレームのモノラル符号ＣＭを所定の復号方式で復号して、t1からt2までの3.25msの区間が増加する形であり、t2からt5までの16.75msの区間が平坦であり、t5からt6までの3.25msの区間が減衰する形の窓がけがされたt1からt6までの23.25msの区間の信号2aを得て、t1からt2までの区間については直前のフレームの処理で直前のフレームのモノラル符号ＣＭから得た信号2bと現在のフレームのモノラル符号ＣＭから得た信号2aとを合成し、t2からt5までの区間については現在のフレームのモノラル符号ＣＭから得た信号2aをそのまま用いることで、t1からt5まで20msの区間のモノラル復号音信号である信号2dを得て出力する。なお、現在のフレームのモノラル符号ＣＭから得たt5からt6までの区間の信号2aは直後のフレームの処理で「直前のフレームの処理で得られた信号2b」として用いられるので、モノラル復号部２１０は、現在のフレームのモノラル符号ＣＭから得たt5からt6までの区間の信号2aをモノラル復号部２１０内の図示しない記憶部に記憶する。

［追加復号部２３０］
　追加復号部２３０には、復号装置２００に入力された符号に含まれる追加符号ＣＡが入力される。追加復号部２３０は、追加符号ＣＡを復号して区間Ｘのモノラルの復号音信号である追加復号信号を得て出力する（ステップＳ２３１）。復号には、追加符号化部１３０が用いた符号化方式に対応する復号方式を用いる。上述した例であれば、追加復号部２３０は、現在のフレームの追加符号ＣＡを復号してt5からt6までの3.25msの区間のモノラル復号音信号である信号4bを得て出力する。

［ステレオ復号部２２０］
　ステレオ復号部２２０には、モノラル復号部２１０が出力したモノラル復号音信号と、追加復号部２３０が出力した追加復号信号と、復号装置２００に入力された符号に含まれるステレオ符号ＣＳと、が入力される。ステレオ復号部２２０は、入力されたモノラル復号音信号と追加復号信号とステレオ符号ＣＳとから、２個のチャネルの復号音信号であるステレオ復号音信号を得て出力する（ステップＳ２２１）。より詳しくは、ステレオ復号部２２０は、区間Ｙのモノラル復号音信号と区間Ｘの追加復号信号とを連結した信号である区間Ｙ＋Ｘ（すなわち、区間Ｙと区間Ｘを連結した区間）の復号ダウンミックス信号を得て（ステップＳ２２１－１）、ステレオ符号ＣＳから得られる特徴パラメータを用いたアップミックス処理によりステップＳ２２１－１で得た復号ダウンミックス信号から２個のチャネルの復号音信号を得て出力する（ステップＳ２２１－２）。後述する各実施形態でも同様であるが、アップミックス処理とは、復号ダウンミックス信号が２個のチャネルの復号音信号が混合された信号であると見做し、ステレオ符号ＣＳから得られる特徴パラメータが２個のチャネルの復号音信号の差分の特徴を表す情報であると見做して、２個のチャネルの復号音信号を得る処理である。上述した例であれば、まず、ステレオ復号部２２０は、モノラル復号部２１０が出力したt1からt5までの20msの区間のモノラル復号音信号（信号2d、信号3aのt1からt5までの区間）と、追加復号部２３０が出力したt5からt6までの3.25msの区間の追加復号信号（信号4b）とを連結して、t1からt6までの23.25msの区間の復号ダウンミックス信号（信号4cのt1からt6までの区間）を得る。次に、ステレオ復号部２２０は、t1からt6までの区間の復号ダウンミックス信号が２個のチャネルの復号音信号が混合された信号であると見做し、ステレオ符号ＣＳから得られる特徴パラメータが２個のチャネルの復号音信号の差分の特徴を表す情報であると見做して、t1からt5までの20msの区間の２個のチャネルの復号音信号（信号4h-1と信号4h-2）を得て出力する。

〔ステレオ復号部２２０が行うステップＳ２２１－２の例〕
　ステレオ復号部２２０が行うステップＳ２２１－２の例として、特徴パラメータが２個のチャネルの音信号の周波数帯域ごとの強度差を表す情報である場合のステレオ復号部２２０が行うステップＳ２２１－２について説明する。ステレオ復号部２２０は、まず、入力されたステレオ符号ＣＳを復号して周波数帯域ごとの強度差を表す情報を得る（Ｓ２２１－２１）。ステレオ復号部２２０は、符号化装置１００のステレオ符号化部１１０が周波数帯域ごとの強度差を表す情報からステレオ符号ＣＳを得た方式に対応する方式で、ステレオ符号ＣＳから特徴パラメータを得る。例えば、ステレオ復号部２２０は、入力されたステレオ符号ＣＳをベクトル復号して、入力されたステレオ符号ＣＳに対応するベクトルの各要素値を複数個の周波数帯域ごとの強度差を表す情報として得る。または、例えば、ステレオ復号部２２０は、入力されたステレオ符号ＣＳに含まれる符号それぞれをスカラ復号して周波数帯域ごとの強度差を表す情報を得る。なお、帯域数が１の場合には、ステレオ復号部２２０は、入力されたステレオ符号ＣＳをスカラ復号して１つの周波数帯域すなわち全帯域の強度差を表す情報を得る。

　ステレオ復号部２２０は、次に、ステップＳ２２１－１で得た復号ダウンミックス信号とステップＳ２２１－２１で得た特徴パラメータとから、復号ダウンミックス信号が２個のチャネルの復号音信号が混合された信号であると見做し、特徴パラメータが２個のチャネルの復号音信号の周波数帯域ごとの強度差を表す情報であると見做して、２個のチャネルの復号音信号を得て出力する（ステップＳ２２０－２２）。符号化装置１００のステレオ符号化部１２０が複素DFTを用いた上述した具体例の動作をした場合であれば、ステレオ復号部２２０のステップＳ２２１－２２は以下の動作となる。

　ステレオ復号部２２０は、まず、t1からt6までの23.25msの区間の744サンプルの復号ダウンミックス信号に対して、t1からt2までの3.25msの区間が増加する形であり、t2からt5までの16.75msの区間が平坦であり、t5からt6までの3.25msの区間が減衰する形の窓がけをした信号4dを得る（ステップＳ２２１－２２１）。ステレオ復号部２２０は、次に、信号4dを複素DFTして得られる744個の複素数による系列のうちの前半の372個の複素数による系列を複素DFT係数列（モノラルの複素DFT係数列）として得る（ステップＳ２２１－２２２）。以降では、ステレオ復号部２２０が得たモノラルの複素DFT係数列の各複素DFT係数をMQ(f)とする。ステレオ復号部２２０は、次に、モノラルの複素DFT係数列から、各複素DFT係数の複素面上での半径の値MQr(f)と、各複素DFT係数の複素面上での角度の値MQθ(f)と、を得る（ステップＳ２２１－２２３）。ステレオ復号部２２０は、次に、各半径の値MQr(f)に特徴パラメータのうちの対応する値の平方根を乗算した値を第１チャネルの各半径の値VLQr(f)として得て、各半径の値MQr(f)を特徴パラメータのうちの対応する値の平方根で除算した値を第２チャネルの各半径の値VRQr(f)として得る（ステップＳ２２１－２２４）。各周波数ビンについての特徴パラメータのうちの対応する値は、上述した４個の帯域の例であれば、fが1から93まではMr(1)であり、fが94から186まではMr(2)であり、fが187から279まではMr(3)であり、fが280から372まではMr(4)である。なお、符号化装置１００のステレオ符号化部１１０が、第１チャネルの半径の値と第２チャネルの半径の値との比に代えて、第１チャネルの半径の値と第２チャネルの半径の値との差を用いた場合には、ステレオ復号部２２０は、各半径の値MQr(f)に特徴パラメータのうちの対応する値を２で除算した値を加算した値を第１チャネルの各半径の値VLQr(f)として得て、各半径の値MQr(f)から特徴パラメータのうちの対応する値を２で除算した値を減算した値を第２チャネルの各半径の値VRQr(f)として得ればよい。ステレオ復号部２２０は、次に、複素面上での半径がVLQr(f)であり角度がMQθ(f)である複素数による系列を逆複素DFTしてt1からt6までの23.25msの区間の744サンプルの第１チャネルの窓がけがされた復号音信号（信号4e-1）を得て、複素面上での半径がVRQr(f)であり角度がMQθ(f)である複素数による系列を逆複素DFTしてt1からt6までの23.25msの区間の744サンプルの第２チャネルの窓がけがされた復号音信号（信号4e-2）を得る（ステップＳ２２１－２２５）。ステップＳ２２１－２２５で得られた各チャネルの窓がけがされた復号音信号（信号4e-1と信号4e-2）は、t1からt2までの3.25msの区間が増加する形であり、t2からt5までの16.75msの区間が平坦であり、t5からt6までの3.25msの区間が減衰する形の窓がけがされた信号である。ステレオ復号部２２０は、次に、第１チャネルと第２チャネルのそれぞれについて、t1からt2までの区間については直前のフレームのステップＳ２２１－２２５で得られた信号（信号4f-1、信号4f-2）と現在のフレームのステップＳ２２１－２２５で得られた信号（信号4e-1、信号4e-2）とを合成し、t2からt5までの区間については現在のフレームのステップＳ２２１－２２５で得られた信号（信号4e-1、信号4e-2）をそのまま用いることで、t1からt5まで20msの区間の復号音信号（信号4h-1、信号4h-2）を得て出力する（ステップＳ２２１－２２６）。

＜第２実施形態＞
　モノラル復号部２１０でモノラル符号ＣＭから完全なモノラル復号音信号を得られる時間区間である区間Ｙについてのダウンミックス信号とモノラル符号化の局部復号信号との差分も、追加符号化部１３０での符号化の対象としてもよい。この形態を第２実施形態として、第１実施形態と異なる点を説明する。

　［モノラル符号化部１２０］
　モノラル符号化部１２０は、ダウンミックス信号を所定の符号化方式で符号化してモノラル符号ＣＭを得て出力することに加えて、モノラル符号ＣＭを復号して得られる信号、すなわち、ダウンミックス信号の区間Ｙの局部復号信号であるモノラル局部復号信号も得て出力する（ステップＳ１２２）。上述した例であれば、モノラル符号化部１２０は、現在のフレームのモノラル符号ＣＭを得ることに加えて、現在のフレームのモノラル符号ＣＭに対応する局部復号信号、すなわち、t1からt2までの3.25msの区間が増加する形であり、t2からt5までの16.75msの区間が平坦であり、t5からt6までの3.25msの区間が減衰する形の窓がけがされた局部復号信号を得て、t1からt2までの区間については直前のフレームのモノラル符号ＣＭに対応する局部復号信号と現在のフレームのモノラル符号ＣＭに対応する局部復号信号とを合成し、t2からt5までの区間については現在のフレームのモノラル符号ＣＭに対応する局部復号信号をそのまま用いることで、t1からt5まで20msの区間の局部復号信号を得て出力する。t1からt2までの区間の直前のフレームのモノラル符号ＣＭに対応する局部復号信号は、モノラル符号化部１２０内の図示しない記憶部に記憶されている信号を用いる。現在のフレームのモノラル符号ＣＭに対応する局部復号信号のうちのt5からt6までの区間の信号は、直後のフレームの処理で「直前のフレームのモノラル符号ＣＭに対応する局部復号信号」として用いられるので、モノラル符号化部１２０は、現在のフレームのモノラル符号ＣＭから得たt5からt6までの区間の局部復号信号をモノラル符号化部１２０内の図示しない記憶部に記憶する。

　［追加符号化部１３０］
　追加符号化部１３０には、ダウンミックス信号に加えて、図１に破線で示す通り、モノラル符号化部１２０が出力したモノラル局部復号信号も入力される。追加符号化部１３０は、第１実施形態の追加符号化部１３０で符号化の対象としていた区間Ｘのダウンミックス信号だけではなく、区間Ｙのダウンミックス信号とモノラル局部復号信号との差信号（対応するサンプル同士のサンプル値の減算により構成される信号）も符号化して、追加符号ＣＡを得て出力する（ステップＳ１３２）。例えば、追加符号化部１３０は、区間Ｘのダウンミックス信号と区間Ｙの差信号のそれぞれを符号化して符号を得て、得た符号を連結したものを追加符号ＣＡとして得ればよい。符号化には第１実施形態の追加符号化部１３０と同様の符号化方式を用いればよい。また例えば、追加符号化部１３０は、区間Ｙの差信号と区間Ｘのダウンミックス信号とを連結した信号を符号化して追加符号ＣＡを得てもよい。また例えば、下記の［［追加符号化部１３０の具体例１］］のように、追加符号化部１３０は、区間Ｘのダウンミックス信号を符号化して符号（第１追加符号ＣＡ１）を得る第１追加符号化と、区間Ｙの差信号（すなわち、モノラル符号化部１２０の量子化誤差信号）と区間Ｘのダウンミックス信号と第１追加符号化の局部復号信号との差信号（すなわち、第１追加符号化の量子化誤差信号）とを連結した信号を符号化して符号（第２追加符号ＣＡ２）を得る第２追加符号化と、を行い、第１追加符号ＣＡ１と第２追加符号ＣＡ２を合わせたものを追加符号ＣＡとするとよい。［［追加符号化部１３０の具体例１］］によれば、区間Ｙの差信号と区間Ｘのダウンミックス信号よりも２つの区間の振幅の異なりが小さいであろう信号を連結したものを符号化の対象として第２追加符号化することになり、ダウンミックス信号そのものは短い時間区間のみを符号化の対象として第１追加符号化するので、効率の良い符号化が期待できる。

　［［追加符号化部１３０の具体例１］］
　追加符号化部１３０は、まず、入力された区間Ｘのダウンミックス信号を符号化して第１追加符号ＣＡ１を得て（ステップＳ１３２－１、以下では「第１追加符号化」ともいう）、第１追加符号ＣＡ１に対応する区間Ｘの局部復号信号、すなわち、区間Ｘの第１追加符号化の局部復号信号を得る（ステップＳ１３２－２）。第１追加符号化には周知のスカラ量子化やベクトル量子化などの符号化方式を用いればよい。追加符号化部１３０は、次に、入力された区間Ｘのダウンミックス信号とステップＳ１３２－２で得た区間Ｘの局部復号信号との差信号（対応するサンプル同士のサンプル値の減算により構成される信号）を得る（ステップＳ１３２－３）。追加符号化部１３０は、また、区間Ｙのダウンミックス信号とモノラル局部復号信号との差信号（対応するサンプル同士のサンプル値の減算により構成される信号）を得る（ステップＳ１３２－４）。追加符号化部１３０は、次に、ステップＳ１３２－４で得た区間Ｙの差信号とステップＳ１３２－３で得た区間Ｘの差信号とを連結した信号を符号化して第２追加符号ＣＡ２を得る（ステップＳ１３２－５、以下では「第２追加符号化」ともいう）。第２追加符号化には、ステップＳ１３２－４で得た区間Ｙの差信号のサンプル列とステップＳ１３１－３で得た区間Ｘの差信号のサンプル列とを連結したサンプル列を纏めて符号化する符号化方式、例えば、時間領域での予測を用いた符号化方式、周波数領域での振幅の偏りに適応した符号化方式、を用いる。追加符号化部１３０は、次に、ステップＳ１３２－１で得た第１追加符号ＣＡ１とステップＳ１３２－５で得た第２追加符号ＣＡ２を合わせたものを追加符号ＣＡとして出力する（ステップＳ１３２－６）。

　なお、追加符号化部１３０は、上述した差信号に代えて重み付き差信号を符号化の対象としてもよい。すなわち、追加符号化部１３０は、区間Ｙのダウンミックス信号とモノラル局部復号信号との重み付き差信号（対応するサンプル同士のサンプル値の重み付き減算により構成される信号）と、区間Ｘのダウンミックス信号と、を符号化して追加符号ＣＡを得て出力してもよい。［［追加符号化部１３０の具体例１］］であれば、追加符号化部１３０は、ステップＳ１３２－４の処理として、区間Ｙのダウンミックス信号とモノラル局部復号信号との重み付き差信号（対応するサンプル同士のサンプル値の重み付き減算により構成される信号）を得ればよい。同様に、追加符号化部１３０は、［［追加符号化部１３０の具体例１］］のステップＳ１３２－３の処理として、入力された区間Ｘのダウンミックス信号とステップＳ１３２－２で得た区間Ｘの局部復号信号との重み付き差信号（対応するサンプル同士のサンプル値の重み付き減算により構成される信号）を得てもよい。これらの場合には、それぞれの重み付き差信号の生成に用いる重みを周知の符号化技術で符号化して符号を得て、得た符号（重みを表す符号）を追加符号ＣＡに含めればよい。これらのことは後述する各実施形態における各差信号についても同様であるが、差信号に代えて重み付き差信号を符号化の対象とすることやその際には重みも符号化することは符号化の技術分野においては周知のことであるので、後述する実施形態では冗長とならないように個別の説明を省略して、差信号と重み付き差信号を「または」を用いて併記した説明、減算と重み付き減算を「または」を用いて併記した説明、のみを行うこととする。

　［追加復号部２３０］
　追加復号部２３０は、追加符号ＣＡを復号して、第１実施形態の追加復号部２３０で得られる追加復号信号である区間Ｘの追加復号信号だけではなく、区間Ｙの追加復号信号も得て出力する（ステップＳ２３２）。復号には、追加符号化部１３０がステップＳ１３２で用いた符号化方式に対応する復号方式を用いる。すなわち、追加符号化部１３０がステップＳ１３２で［［追加符号化部１３０の具体例１］］を用いた場合には、追加復号部２３０は下記の［［追加復号部２３０の具体例１］］の処理を行う。

　［［追加復号部２３０の具体例１］］
　追加復号部２３０は、まず、追加符号ＣＡに含まれる第１追加符号ＣＡ１を復号して区間Ｘの第１復号信号を得る（ステップＳ２３２－１、以下では「第１追加復号」ともいう）。第１追加復号には、追加符号化部１３０が第１追加符号化に用いた符号化方式に対応する復号方式を用いる。追加復号部２３０は、また、追加符号ＣＡに含まれる第２追加符号ＣＡ２を復号して区間Ｙと区間Ｘの第２復号信号を得る（ステップＳ２３２－２、以下では「第２追加復号」ともいう）。第２追加復号には、追加符号化部１３０が第２追加符号化に用いた符号化方式に対応する復号方式、すなわち、符号から区間Ｙの追加復号信号のサンプル列と区間Ｘの第２復号信号のサンプル列が連結された一纏まりのサンプル列が得られる復号方式、例えば、時間領域での予測を用いた復号方式、周波数での振幅の偏りに適応した復号方式、を用いる。追加復号部２３０は、次に、ステップＳ２３２－２で得た第２復号信号のうちの区間Ｙの第２復号信号を区間Ｙの追加復号信号として得て、ステップＳ２３２－１で得た区間Ｘの第１復号信号とステップＳ２３２－２で得た第２復号信号のうちの区間Ｘの第２復号信号を加算した信号（対応するサンプル同士のサンプル値の加算により構成される信号）を区間Ｘの追加復号信号として得て、区間Ｙと区間Ｘの追加復号信号を出力する（ステップＳ２３２－４）。

　なお、追加符号化部１３０が差信号ではなく重み付き差信号を符号化の対象とした場合には、追加符号ＣＡには重みを表す符号も含まれているので、追加復号部２３０は、上述したステップＳ２３２では追加符号ＣＡのうちの重みを表す符号以外の符号を復号して追加復号信号を得て出力し、追加符号ＣＡに含まれる重みを表す符号を復号して重みを得て出力すればよい。［［追加復号部２３０の具体例１］］であれば、追加符号ＣＡに含まれる区間Ｘの重みを表す符号を復号して区間Ｘの重みを得て、追加復号部２３０は、ステップＳ２３２－４では、ステップＳ２３２－２で得た第２復号信号のうちの区間Ｙの第２復号信号を区間Ｙの追加復号信号として得て、ステップＳ２３２－１で得た区間Ｘの第１復号信号とステップＳ２３２－２で得た第２復号信号のうちの区間Ｘの第２復号信号を重み付き加算した信号（対応するサンプル同士のサンプル値の重み付き加算により構成される信号）を区間Ｘの追加復号信号として得て、区間Ｙと区間Ｘの追加復号信号と、追加符号ＣＡに含まれる区間Ｙの重みを表す符号を復号して得られる区間Ｙの重みと、を出力すればよい。これらのことは後述する各実施形態における信号の加算についても同様であるが、加算（和信号の生成）に代えて重み付き加算（重み付き和信号の生成）をすることやその際には符号から重みも得ることは符号化の技術分野においては周知のことであるので、後述する実施形態では冗長とならないように個別の説明を省略して、加算と重み付き加算を「または」を用いて併記した説明、和信号と重み付き和信号を「または」を用いて併記した説明、のみを行うこととする。

　［ステレオ復号部２２０］
　ステレオ復号部２２０は、以下のステップＳ２２２－１とステップＳ２２２－２を行う（ステップＳ２２２）。ステレオ復号部２２０は、第１実施形態のステレオ復号部２２０が行ったステップＳ２２１－１に代えて、区間Ｙのモノラル復号音信号と区間Ｙの追加復号信号との和信号（対応するサンプル同士のサンプル値の加算により構成される信号）と、区間Ｘの追加復号信号と、を連結した信号を区間Ｙ＋Ｘの復号ダウンミックス信号として得て（ステップＳ２２２－１）、ステップＳ２２１－１で得た復号ダウンミックス信号に代えてステップＳ２２２－１で得た復号ダウンミックス信号を用いて、ステレオ符号ＣＳから得られる特徴パラメータを用いたアップミックス処理によりステップＳ２２１－２で得た復号ダウンミックス信号から２個のチャネルの復号音信号を得て出力する（ステップＳ２２２－２）。

　なお、追加符号化部１３０が差信号ではなく重み付き差信号を符号化の対象とした場合には、ステレオ復号部２２０は、ステップＳ２２２－１では、区間Ｙのモノラル復号音信号と区間Ｙの追加復号信号との重み付き和信号（対応するサンプル同士のサンプル値の重み付き加算により構成される信号）と、区間Ｘの追加復号信号と、を連結した信号を区間Ｙ＋Ｘの復号ダウンミックス信号として得ればよい。区間Ｙのモノラル復号音信号と区間Ｙの追加復号信号との重み付き和信号の生成（対応するサンプル同士のサンプル値の重み付き加算）には、追加復号部２３０が出力した区間Ｙの重みを用いればよい。これは後述する各実施形態における信号の加算についても同様であるが、追加復号部２３０の説明箇所においても説明した通り、加算（和信号の生成）に代えて重み付き加算（重み付き和信号の生成）をすることやその際には符号から重みも得ることは符号化の技術分野においては周知のことであるので、後述する実施形態では冗長とならないように個別の説明を省略して、加算と重み付き加算を「または」を用いて併記した説明、和信号と重み付き和信号を「または」を用いて併記した説明、のみを行うこととする。

　第２実施形態によれば、ステレオ符号化／復号のアルゴリズム遅延がモノラル符号化／復号のアルゴリズム遅延よりも大きくないことに加えて、ステレオ復号に用いる復号ダウンミックス信号を第１実施形態より高品質にすることができることから、ステレオ復号により得られる各チャネルの復号音信号を高音質にすることもできる。すなわち、第２実施形態では、モノラル符号化部１２０が行うモノラル符号化処理と追加符号化部１３０が行う追加符号化処理とをダウンミックス信号を高品質に符号化するための符号化処理として用い、モノラル符号ＣＭと追加符号ＣＡとをダウンミックス信号を良好に表すための符号として得て、モノラル復号部２１０が行うモノラル復号処理と追加復号部２３０が行う追加復号処理とを高品質な復号ダウンミックス信号を得るための復号処理として用いている。モノラル符号ＣＭと追加符号ＣＡのそれぞれに割り当てる符号量は用途に応じて任意に決定すればよく、標準品質のモノラル符号化／復号に加えてより高品質なステレオ符号化／復号を実現したい場合にはより多くの符号量を追加符号ＣＡに割り当てればよい。すなわち、ステレオ符号化／復号の観点では、「モノラル符号」と「追加符号」はあくまでも便宜的な呼称であり、モノラル符号ＣＭも追加符号ＣＡもそれぞれダウンミックス信号を表す符号の一部であることからすれば、何れか一方を「第１ダウンミックス符号」と呼んで他方を「第２ダウンミックス符号」と呼んでもよいし、より多くの符号量を追加符号ＣＡに割り当てることを想定するのであれば、追加符号ＣＡを「ダウンミックス符号」「ダウンミックス信号符号」などと呼んでもよい。以上のことは、第３実施形態やそれ以降で説明する第２実施形態に基づく各実施形態でも同様である。

＜第３実施形態＞
　ステレオ復号部２２０では２個のチャネルの音信号が周波数領域で混合されたダウンミックス信号に対応する復号ダウンミックス信号を用いたほうが高音質な２個のチャネルの復号音信号を得ることができ、モノラル符号化部１２０では２個のチャネルの音信号が時間領域で混合された信号を符号化したほうがモノラル復号部２１０で高音質なモノラル復号音信号を得ることができる場合がある。このような場合には、ステレオ符号化部１１０は符号化装置１００に入力された２個のチャネルの音信号を周波数領域で混合してダウンミックス信号を得て、モノラル符号化部１２０は符号化装置１００に入力された２個のチャネルの音信号を時間領域で混合した信号を符号化して、追加符号化部１３０では２個のチャネルの音信号を周波数領域で混合した信号と時間領域で混合した信号の差分も符号化するとよい。この形態を第３実施形態として、第２実施形態と異なる点を中心に説明する。

　［ステレオ符号化部１１０］
　ステレオ符号化部１１０は、第２実施形態のステレオ符号化部１１０と同様に第１実施形態で説明した動作を行うが、２個のチャネルの音信号を混合した信号であるダウンミックス信号を得る処理は、例えばステップＳ１１１－５Ｂのような２個のチャネルの音信号を周波数領域で混合する処理により行う（ステップＳ１１３）。すなわち、ステレオ符号化部１１０は、２個のチャネルの音信号を周波数領域で混合したダウンミックス信号を得る。例えば、ステレオ符号化部１１０は、現在のフレームの処理においては、t1からt6までの区間について、２個のチャネルの音信号を周波数領域で混合したモノラルの信号であるダウンミックス信号を得るようにすればよい。符号化装置１００にダウンミックス部１５０も備える場合には、ステレオ符号化部１１０は、符号化装置１００に入力された２チャネルステレオ入力音信号から入力された２個のチャネルの音信号の差分の特徴を表すパラメータである特徴パラメータを表すステレオ符号ＣＳを得て出力し（ステップＳ１１３）、ダウンミックス部１５０は、符号化装置１００に入力された２チャネルステレオ入力音信号から２個のチャネルの音信号を周波数領域で混合した信号であるダウンミックス信号を得て出力する（ステップＳ１５３）。

　［モノラル符号化対象信号生成部１４０］
　第３実施形態の符号化装置１００は、図１に一点鎖線で示すように、モノラル符号化対象信号生成部１４０も含む。モノラル符号化対象信号生成部１４０には、符号化装置１００に入力された２チャネルステレオ入力音信号が入力される。モノラル符号化対象信号生成部１４０は、入力された２チャネルステレオ入力音信号から、２個のチャネルの音信号を時間領域で混合する処理によってモノラルの信号であるモノラル符号化対象信号を得る（ステップＳ１４３）。例えば、モノラル符号化対象信号生成部１４０は、第１チャネルの音信号のサンプル列と第２チャネルの音信号のサンプル列との対応するサンプル同士の平均値による系列を、２個のチャネルの音信号を混合した信号であるモノラル符号化対象信号として得る。すなわち、モノラル符号化対象信号生成部１４０が得るモノラル符号化対象信号は、２個のチャネルの音信号を時間領域で混合した信号である。例えば、モノラル符号化対象信号生成部１４０は、現在のフレームの処理においては、t3からt7までの20msについて、２個のチャネルの音信号を時間領域で混合したモノラルの信号であるモノラル符号化対象信号を得るようにすればよい。

　［モノラル符号化部１２０］
　モノラル符号化部１２０には、ステレオ符号化部１１０またはダウンミックス部１５０が出力したダウンミックス信号に代えて、モノラル符号化対象信号生成部１４０が出力したモノラル符号化対象信号が入力される。モノラル符号化部１２０は、モノラル符号化対象信号を符号化してモノラル符号ＣＭを得て出力する（ステップＳ１２３）。例えば、モノラル符号化部１２０は、現在のフレームの処理においては、モノラル符号化対象信号に、現在のフレームと直前のフレームとがオーバーラップするt1からt2までの区間は増加する形、現在のフレームと直後のフレームとがオーバーラップするt5からt6までの区間は減衰する形、これらの区間の間にあるt2からt5までの区間は平坦な形の窓をかけて得たt1からt6までの区間の信号を、「先読み区間」であるモノラル符号化対象信号のt6からt7までの区間も分析処理に用いて符号化してモノラル符号ＣＭを得て出力する。

　［追加符号化部１３０］
　追加符号化部１３０は、第２実施形態の追加符号化部１３０と同様に、区間Ｙのダウンミックス信号とモノラル局部復号信号との差信号または重み付き差信号（対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号）と区間Ｘのダウンミックス信号とを符号化して、追加符号ＣＡを得て出力する（ステップＳ１３３）。ただし、区間Ｙのダウンミックス信号は２個のチャネルの音信号を周波数領域で混合した信号であり、区間Ｙのモノラル局部復号信号は２個のチャネルの音信号を時間領域で混合した信号を局部復号した信号である。

　なお、第３実施形態の追加符号化部１３０は、第２実施形態の追加符号化部１３０と同様に、［［追加符号化部１３０の具体例１］］で説明したように、区間Ｘのダウンミックス信号を符号化して第１追加符号ＣＡを得る第１追加符号化と、区間Ｙの差信号または重み付き差信号と、区間Ｘのダウンミックス信号と第１追加符号化の局部復号信号との差信号または重み付き差信号と、を連結した信号を符号化して第２追加符号ＣＡ２を得る第２追加符号化と、を行い、第１追加符号ＣＡ１と第２追加符号ＣＡ２を合わせたものを追加符号ＣＡとするとよい。

　［モノラル復号部２１０］
　モノラル復号部２１０は、第２実施形態のモノラル復号部２１０と同様に、モノラル符号ＣＭを用いて区間Ｙのモノラル復号音信号を得て出力する（ステップＳ２１３）。ただし、第３実施形態のモノラル復号部１２０が得たモノラル復号音信号は、２個のチャネルの音信号を時間領域で混合した信号の復号信号である。

　［追加復号部２３０］
　追加復号部２３０は、第２実施形態の追加復号部２３０と同様に、追加符号ＣＡを復号して、区間Ｙと区間Ｘの追加復号信号を得て出力する（ステップＳ２３３）。ただし、区間Ｙの追加復号信号には、２個のチャネルの音信号を時間領域で混合した信号とモノラル復号音信号との差分と、２個のチャネルの音信号を周波数領域で混合した信号と２個のチャネルの音信号を時間領域で混合した信号との差分と、が含まれる。

　［ステレオ復号部２２０］
　ステレオ復号部２２０は、以下のステップＳ２２３－１とステップＳ２２３－２を行う（ステップＳ２２３）。ステレオ復号部２２０は、第２実施形態の追加復号部２３０と同様に、区間Ｙのモノラル復号音信号と区間Ｙの追加復号信号との和信号または重み付き和信号（対応するサンプル同士のサンプル値の加算または重み付き加算により構成される信号）と、区間Ｘの追加復号信号と、を連結した信号を区間Ｙ＋Ｘの復号ダウンミックス信号として得て（ステップＳ２２３－１）、ステレオ符号ＣＳから得られる特徴パラメータを用いたアップミックス処理によりステップＳ２２３－１で得た復号ダウンミックス信号から２個のチャネルの復号音信号を得て出力する（ステップＳ２２３－２）。ただし、区間Ｙの和信号には、２個のチャネルの音信号を時間領域で混合した信号をモノラル符号化／復号して得たモノラル復号音信号と、２個のチャネルの音信号を時間領域で混合した信号とモノラル復号音信号との差分と、２個のチャネルの音信号を周波数領域で混合した信号と２個のチャネルの音信号を時間領域で混合した信号との差分と、が含まれる。

＜第４実施形態＞
　区間Ｘについては、モノラル符号化部１２０やモノラル復号部２１０では、直後のフレームの信号や符号がないと正しい局部復号信号や復号信号を得られないものの、現在のフレームまでの信号や符号だけでも不完全な局部復号信号や復号信号は得られる。そこで、第１から第３の各実施形態を、区間Ｘについて、ダウンミックス信号そのものではなく、ダウンミックス信号と現在のフレームまでの信号から得たモノラル局部復号信号との差分を追加符号化部１３０で符号化するように変更してもよい。この形態を第４実施形態として説明する。

＜＜第４実施形態Ａ＞＞
　まず、第２実施形態を変更した第４実施形態である第４実施形態Ａについて、第２実施形態と異なる点を中心に説明する。

　［モノラル符号化部１２０］
　モノラル符号化部１２０には、第２実施形態のモノラル符号化部１２０と同様に、ステレオ符号化部１１０またはダウンミックス部１５０が出力したダウンミックス信号が入力される。モノラル符号化部１２０は、ダウンミックス信号を符号化して得られるモノラル符号ＣＭと、現在のフレームまでのモノラル符号ＣＭを復号して得られる信号、すなわち、区間Ｙ＋Ｘのダウンミックス信号の局部復号信号であるモノラル局部復号信号と、を得て出力する（ステップＳ１２４）。より具体的には、モノラル符号化部１２０は、現在のフレームのモノラル符号ＣＭを得ることに加えて、現在のフレームのモノラル符号ＣＭに対応する局部復号信号、すなわち、t1からt2までの3.25msの区間が増加する形であり、t2からt5までの16.75msの区間が平坦であり、t5からt6までの3.25msの区間が減衰する形の窓がけがされた局部復号信号を得て、t1からt2までの区間については直前のフレームのモノラル符号ＣＭに対応する局部復号信号と現在のフレームのモノラル符号ＣＭに対応する局部復号信号とを合成し、t2からt6までの区間については現在のフレームのモノラル符号ＣＭに対応する局部復号信号をそのまま用いることで、t1からt6まで23.25msの区間の局部復号信号を得て出力する。ただし、t5からt6までの区間の局部復号信号は、直後のフレームの処理で得られる増加する形の窓がけがされた局部復号信号と合成することで完全な局部復号信号となる局部復号信号であり、減衰する形の窓がけがされた不完全な局部復号信号である。

　［追加符号化部１３０］
　追加符号化部１３０には、第２実施形態の追加符号化部１３０と同様に、ステレオ符号化部１１０またはダウンミックス部１５０が出力したダウンミックス信号と、モノラル符号化部１２０が出力したモノラル局部復号信号と、が入力される。追加符号化部１３０は、区間Ｙ＋Ｘのダウンミックス信号とモノラル局部復号信号との差信号または重み付き差信号（対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号）を符号化して、追加符号ＣＡを得て出力する（ステップＳ１３４）。

　［モノラル復号部２１０］
　モノラル復号部２１０には、第２実施形態のモノラル復号部２１０と同様に、モノラル符号ＣＭが入力される。モノラル復号部２１０は、モノラル符号ＣＭを用いて区間Ｙ＋Ｘのモノラル復号音信号を得て出力する（ステップＳ２１４）。ただし、区間Ｘすなわちt5からt6までの区間の復号信号は、直後のフレームの処理で得られる増加する形の窓がけがされた復号信号と合成することで完全な復号信号となる復号信号であり、減衰する形の窓がけがされた不完全な復号信号である。

　［追加復号部２３０］
　追加復号部２３０には、第２実施形態の追加復号部２３０と同様に、追加符号ＣＡが入力される。追加復号部２３０は、追加符号ＣＡを復号して、区間Ｙ＋Ｘの追加復号信号を得て出力する（ステップＳ２３４）。

　［ステレオ復号部２２０］
　ステレオ復号部２２０には、第２実施形態のステレオ復号部２２０と同様に、モノラル復号部２１０が出力したモノラル復号音信号と、追加復号部２３０が出力した追加復号信号と、復号装置２００に入力されたステレオ符号ＣＳと、が入力される。ステレオ復号部２２０は、区間Ｙ＋Ｘのモノラル復号音信号と追加復号信号との和信号または重み付き和信号（対応するサンプル同士のサンプル値の加算または重み付き加算により構成される信号）を復号ダウンミックス信号として得て、ステレオ符号ＣＳから得られる特徴パラメータを用いたアップミックス処理により復号ダウンミックス信号から２個のチャネルの復号音信号を得て出力する（ステップＳ２２４）。

＜＜第４実施形態Ｂ＞＞
　なお、第４実施形態Ａの説明におけるモノラル符号化部１２０の「ステレオ符号化部１１０またはダウンミックス部１５０が出力したダウンミックス信号」と「ダウンミックス信号」のそれぞれを「モノラル符号化対象信号生成部１４０が出力したモノラル符号化対象信号」と「モノラル符号化対象信号」に置き換えれば、第３実施形態を変更した第４実施形態である第４実施形態Ｂについての第３実施形態と異なる点を中心とした説明となる。

＜＜第４実施形態Ｃ＞＞
　また、第４実施形態Ａの説明におけるモノラル符号化部１２０が得るモノラル局部復号信号、追加符号化部１３０が符号化する差信号または重み付き差信号、追加復号部２３０が得る追加復号信号、のそれぞれを区間Ｘのものとし、ステレオ復号部２２０が区間Ｙのモノラル復号音信号と、区間Ｘのモノラル復号音信号と追加復号信号との和信号または重み付き和信号と、を連結した信号を復号ダウンミックス信号として得るようにすれば、第１実施形態を変更した第４実施形態である第４実施形態Ｃとなる。

＜第５実施形態＞
　区間Ｘのダウンミックス信号には、区間Ｙのモノラル局部復号信号から予測できる部分が含まれている。そこで、第１から第４の各実施形態において、区間Ｘについて、ダウンミックス信号と区間Ｙのモノラル局部復号信号からの予測信号との差分を追加符号化部１３０で符号化してもよい。この形態を第５実施形態として説明する。

＜＜第５実施形態Ａ＞＞
　まず、第２実施形態、第３実施形態、第４実施形態Ａ、第４実施形態Ｂ、の各実施形態を変更した第５実施形態を第５実施形態Ａとして、第２実施形態、第３実施形態、第４実施形態Ａ、第４実施形態Ｂ、の各実施形態と異なる点を説明する。

　［追加符号化部１３０］
　追加符号化部１３０は、以下のステップＳ１３５Ａ－１とステップＳ１３５Ａ－２を行う（ステップＳ１３５Ａ）。追加符号化部１３０は、まず、所定の周知の予測技術を用いて、入力された区間Ｙまたは区間Ｙ＋Ｘのモノラル局部復号信号（ただし、上述した通り区間Ｘは不完全なモノラル局部復号信号）からモノラル局部復号信号についての区間Ｘの予測信号を得る（ステップＳ１３５Ａ－１）。なお、第４実施形態Ａを変更した第５実施形態または第４実施形態Ｂを変更した第５実施形態の場合には、入力された区間Ｘの不完全なモノラル局部復号信号を区間Ｘの予測信号に含むようにする。追加符号化部１３０は、次に、区間Ｙのダウンミックス信号とモノラル局部復号信号との差信号または重み付き差信号（対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号）と、区間Ｘのダウンミックス信号とステップＳ１３５Ａ－１で得た予測信号との差信号または重み付き差信号（対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号）と、を符号化して、追加符号ＣＡを得て出力する（ステップＳ１３５Ａ－２）。例えば、区間Ｙの差信号と区間Ｘの差信号とを連結した信号を符号化して追加符号ＣＡを得てもよいし、また例えば、区間Ｙの差信号と区間Ｘの差信号のそれぞれを符号化して符号を得て、得た符号を連結したものを追加符号ＣＡとして得てもよい。符号化には第２実施形態、第３実施形態、第４実施形態Ａ、第４実施形態Ｂ、の各実施形態の追加符号化部１３０と同様の符号化方式を用いればよい。

　［ステレオ復号部２２０］
　ステレオ復号部２２０は、以下のステップＳ２２５Ａ－０からステップＳ２２５Ａ－２を行う（ステップＳ２２５Ａ）。ステレオ復号部２２０は、まず、追加符号化部１３０がステップＳ１３５で用いたのと同じ予測技術を用いて、区間Ｙまたは区間Ｙ＋Ｘのモノラル復号音信号から区間Ｘの予測信号を得る（ステップＳ２２５Ａ－０）。ステレオ復号部２２０は、次に、区間Ｙのモノラル復号音信号と追加復号信号との和信号または重み付き和信号（対応するサンプル同士のサンプル値の加算または重み付き加算により構成される信号）と、区間Ｘの追加復号信号と予測信号との和信号または重み付き和信号（対応するサンプル同士のサンプル値の加算または重み付き加算により構成される信号）、を連結した信号を区間Ｙ＋Ｘの復号ダウンミックス信号として得る（ステップＳ２２５Ａ－１）。ステレオ復号部２２０は、次に、ステレオ符号ＣＳから得られる特徴パラメータを用いたアップミックス処理によりステップＳ２２５Ａ－１で得た復号ダウンミックス信号から２個のチャネルの復号音信号を得て出力する（ステップＳ２２５Ａ－２）。

　＜＜第５実施形態Ｂ＞＞
　次に、第１実施形態と第４実施形態Ｃの各実施形態を変更した第５実施形態を第５実施形態Ｂとして、第１実施形態と第４実施形態Ｃの各実施形態と異なる点を説明する。

　［モノラル符号化部１２０］
　モノラル符号化部１２０は、ダウンミックス信号を符号化して得られるモノラル符号ＣＭに加えて、区間Ｙまたは区間Ｙ＋Ｘについて、現在のフレームまでのモノラル符号ＣＭを復号して得られる信号、すなわち、入力されたダウンミックス信号の局部復号信号であるモノラル局部復号信号も得て出力する（ステップＳ１２５Ｂ）。ただし、上述した通り区間Ｘのモノラル局部復号信号は不完全なモノラル局部復号信号である。

　［追加符号化部１３０］
　追加符号化部１３０は、以下のステップＳ１３５Ｂ－１とステップＳ１３５Ｂ－２を行う（ステップＳ１３５Ｂ）。追加符号化部１３０は、まず、所定の周知の予測技術を用いて、入力された区間Ｙまたは区間Ｙ＋Ｘのモノラル局部復号信号（ただし、上述した通り区間Ｘは不完全なモノラル局部復号信号）からモノラル局部復号信号についての区間Ｘの予測信号を得る（ステップＳ１３５Ｂ－１）。第４実施形態Ｃを変更した第５実施形態の場合には、入力された区間Ｘのモノラル局部復号信号を区間Ｘの予測信号に含むようにする。追加符号化部１３０は、次に、区間Ｘのダウンミックス信号とステップＳ１３５Ｂ－１で得た予測信号との差信号または重み付き差信号（対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号）を符号化して追加符号ＣＡを得て出力する（ステップＳ１３５Ｂ－２）。例えば、符号化には第１実施形態と第４実施形態Ｃの各実施形態の追加符号化部１３０と同様の符号化方式を用いればよい。

　［ステレオ復号部２２０］
　ステレオ復号部２２０は、以下のステップＳ２２５Ｂ－０からステップＳ２２５Ｂ－２を行う（ステップＳ２２５Ｂ）。ステレオ復号部２２０は、まず、追加符号化部１３０が用いたのと同じ予測技術を用いて、区間Ｙまたは区間Ｙ＋Ｘのモノラル復号音信号から、区間Ｘの予測信号を得る（ステップＳ２２５Ｂ－０）。ステレオ復号部２２０は、次に、区間Ｙのモノラル復号音信号と、区間Ｘの追加復号信号と予測信号との和信号または重み付き和信号（対応するサンプル同士のサンプル値の加算または重み付き加算により構成される信号）と、を連結した信号を区間Ｙ＋Ｘの復号ダウンミックス信号として得る（ステップＳ２２５Ｂ－１）。ステレオ復号部２２０は、次に、ステレオ符号ＣＳから得られる特徴パラメータを用いたアップミックス処理によりステップＳ２２５Ｂ－１で得た復号ダウンミックス信号から２個のチャネルの復号音信号を得て出力する（ステップＳ２２５Ｂ－２）。

＜第６実施形態＞
　第１実施形態から第５実施形態は、符号化装置１００が得た追加符号ＣＡを復号装置２００が用いることで、ステレオ復号部２２０で用いる区間Ｘの復号ダウンミックス信号を少なくとも追加符号ＣＡを復号して得るものであったが、復号装置２００が追加符号ＣＡを用いずに、区間Ｙのモノラル復号音信号からの予測信号をステレオ復号部２２０で用いる区間Ｘの復号ダウンミックス信号としてもよい。この形態を第６実施形態として、第１実施形態と異なる点を説明する。

≪符号化装置１００≫
　第６実施形態の符号化装置１００が第１実施形態の符号化装置１００と異なるのは、追加符号化部１３０を含まず、区間Ｘのダウンミックス信号を符号化せず、追加符号ＣＡを得ないことである。すなわち、第６実施形態の符号化装置１００は、ステレオ符号化部１１０とモノラル符号化部１２０を含み、ステレオ符号化部１１０とモノラル符号化部１２０のそれぞれは、第１実施形態のステレオ符号化部１１０とモノラル符号化部１２０のそれぞれと同じ動作をする。

≪復号装置２００≫
　第６実施形態の復号装置２００は、追加符号ＣＡを復号する追加復号部２３０を含まずに、モノラル復号部２１０とステレオ復号部２２０を含む。第６実施形態のモノラル復号部２１０は、第１実施形態のモノラル復号部２１０と同じ動作をするが、ステレオ復号部２２０が区間Ｙ＋Ｘのモノラル復号音信号を用いる場合には区間Ｘのモノラル復号音信号も出力する。また、第６実施形態のステレオ復号部２２０は、第１実施形態のステレオ復号部２２０とは異なる下記の動作をする。

［ステレオ復号部２２０］
　ステレオ復号部２２０は、以下のステップＳ２２６－０からステップＳ２２６－２を行う（ステップＳ２２６）。ステレオ復号部２２０は、まず、第５実施形態と同様の所定の周知の予測技術を用いて、区間Ｙまたは区間Ｙ＋Ｘのモノラル復号音信号から区間Ｘの予測信号を得る（ステップＳ２２６－０）。ステレオ復号部２２０は、次に、区間Ｙのモノラル復号音信号と区間Ｘの予測信号を連結した信号を区間Ｙ＋Ｘの復号ダウンミックス信号として得て（ステップＳ２２６－１）、ステレオ符号ＣＳから得られる特徴パラメータを用いたアップミックス処理によりステップＳ２２６－１で得た復号ダウンミックス信号から２個のチャネルの復号音信号を得て出力する（ステップＳ２２６－２）。

＜第７実施形態＞
　上述した各実施形態では、説明を簡単化するために、２個のチャネルの音信号を扱う例で説明した。しかし、チャネル数はこの限りではなく２以上であればよい。このチャネル数をＣ（Ｃは２以上の整数）とすると、上述した各実施形態は、２個のチャネルをＣ個（Ｃは２以上の整数）のチャネルと読み替えて実施することができる。

　例えば、第１実施形態から第５実施形態の符号化装置１００は、入力されたＣ個のチャネルの音信号からステレオ符号ＣＳとモノラル符号ＣＭと追加符号ＣＡを得るようにすればよく、第６実施形態の符号化装置１００は、入力されたＣ個のチャネルの音信号からステレオ符号ＣＳとモノラル符号ＣＭを得るようにすればよく、ステレオ符号化部１１０は、入力されたＣ個のチャネルの音信号におけるチャネル間の差分に相当する情報を表す符号をステレオ符号ＣＳとして得て出力し、ステレオ符号化部１１０またはダウンミックス部１５０は、入力されたＣ個のチャネルの音信号を混合した信号をダウンミックス信号として得て出力し、モノラル符号化対象信号生成部１４０は、入力されたＣ個のチャネルの音信号を時間領域で混合した信号をモノラル符号化対象信号として得て出力するようにすればよい。Ｃ個のチャネルの音信号におけるチャネル間の差分に相当する情報とは、例えば、基準とするチャネル以外のＣ－１個のチャネルそれぞれについての、当該チャネルの音信号と基準とするチャネルの音信号との差分に相当する情報である。

　同様に、第１実施形態から第５実施形態の復号装置２００は、入力されたモノラル符号ＣＭと追加符号ＣＡとステレオ符号ＣＳとに基づいてＣ個のチャネルの復号音信号を得て出力するようにすればよく、第６実施形態の復号装置２００は、入力されたモノラル符号ＣＭとステレオ符号ＣＳとに基づいてＣ個のチャネルの復号音信号を得て出力するようにすればよく、ステレオ復号部２２０は、入力されたステレオ符号ＣＳに基づいて得られる特徴パラメータを用いたアップミックス処理により復号ダウンミックス信号からＣ個のチャネルの復号音信号を得て出力するようにすればよい。より詳しくは、ステレオ復号部２２０は、復号ダウンミックス信号がＣ個のチャネルの復号音信号が混合された信号であると見做し、入力されたステレオ符号ＣＳに基づいて得られる特徴パラメータがＣ個のチャネルの復号音信号におけるチャネル間の差分の特徴を表す情報であると見做して、Ｃ個のチャネルの復号音信号を得て出力するようにすればよい。

＜プログラム及び記録媒体＞
　上述した各符号化装置と各復号装置の各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図１２に示すコンピュータの記憶部１０２０に読み込ませ、演算処理部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部１０５０に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部１０５０に格納されたプログラムを記憶部１０２０に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部１０２０に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

　その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

Claims

　入力されたＣ個（Ｃは２以上の整数）のチャネルの音信号をフレーム単位で符号化する音信号符号化方法であって、
　現在のフレームの処理として、
　Ｃ個のチャネルの前記音信号のチャネル間の差分の特徴を表すパラメータである特徴パラメータを表すステレオ符号を得て出力するステレオ符号化ステップと、
　Ｃ個のチャネルの前記音信号を混合した信号をダウンミックス信号として得るダウンミックスステップと、
　前記ダウンミックス信号を符号化してモノラル符号を得て出力するモノラル符号化ステップと、
を含み、
　前記モノラル符号化ステップは、フレーム間でオーバーラップのある窓をかける処理が含まれる符号化方式で、前記ダウンミックス信号を符号化して前記モノラル符号を得て、
　前記ダウンミックス信号のうちの現在のフレームと直後のフレームとの前記オーバーラップの区間（以下、「区間Ｘ」という）の信号を符号化して追加符号を得て出力する追加符号化ステップを更に含む
ことを特徴とする音信号符号化方法。
　請求項１に記載の音信号符号化方法であって、
　前記モノラル符号化ステップは、前記モノラル符号に対応するモノラル局部復号信号も得て、
　前記追加符号化ステップは、前記ダウンミックス信号のうちの前記区間Ｘを除く区間（以下、「区間Ｙ」という）の信号と、区間Ｙの前記モノラル局部復号信号と、の対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号と、区間Ｘの前記ダウンミックス信号と、を符号化して追加符号を得る
ことを特徴とする音信号符号化方法。
　請求項２に記載の音信号符号化方法であって、
　前記ダウンミックスステップは、前記Ｃ個のチャネルの音信号を周波数領域で混合した信号を前記ダウンミックス信号として得て、
　前記Ｃ個のチャネルの音信号を時間領域で混合した信号をモノラル符号化対象信号として得るモノラル符号化対象信号生成ステップを更に含み、
　前記モノラル符号化ステップは、フレーム間でオーバーラップのある窓をかける処理が含まれる符号化方式で、前記モノラル符号化対象信号を符号化して前記モノラル符号を得る
ことを特徴とする音信号符号化方法。
　請求項２または３に記載の音信号符号化方法であって、
　前記追加符号化ステップは、
　前記ダウンミックス信号のうちの区間Ｘの信号を符号化して、第１追加符号と前記第１追加符号に対応する区間Ｘの局部復号信号（以下、「第１追加局部復号信号」という）を得て、
　区間Ｙの前記ダウンミックス信号と前記モノラル局部復号信号との対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号と、区間Ｘの前記ダウンミックス信号と前記第１追加局部復号信号との対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号と、を連結した信号を、サンプル列を纏めて符号化する符号化方式により符号化して第２追加符号を得て、
前記第１追加符号と前記第２追加符号を合わせたものを前記追加符号とする
ことを特徴とする音信号符号化方法。
　請求項２または３に記載の音信号符号化方法であって、
　前記追加符号化ステップは、
区間Ｙの前記モノラル局部復号信号または区間Ｙと区間Ｘの前記モノラル局部復号信号から、モノラル局部復号信号の区間Ｘの予測信号を得て、
区間Ｙの前記ダウンミックス信号と前記モノラル局部復号信号との対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号と、区間Ｘの前記ダウンミックス信号と前記予測信号との対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号と、を符号化して追加符号を得る
ことを特徴とする音信号符号化方法。
　入力されたＣ個（Ｃは２以上の整数）のチャネルの音信号をフレーム単位で符号化する音信号符号化装置であって、
　現在のフレームの処理として、
　Ｃ個のチャネルの前記音信号のチャネル間の差分の特徴を表すパラメータである特徴パラメータを表すステレオ符号を得て出力するステレオ符号化部と、
　Ｃ個のチャネルの前記音信号を混合した信号をダウンミックス信号として得るダウンミックス部と、
　前記ダウンミックス信号を符号化してモノラル符号を得て出力するモノラル符号化部と、
を含み、
　前記モノラル符号化部は、フレーム間でオーバーラップのある窓をかける処理が含まれる符号化方式で、前記ダウンミックス信号を符号化して前記モノラル符号を得るものであり、
　前記ダウンミックス信号のうちの現在のフレームと直後のフレームとの前記オーバーラップの区間（以下、「区間Ｘ」という）の信号を符号化して追加符号を得て出力する追加符号化部を更に含む
ことを特徴とする音信号符号化装置。
　請求項６に記載の音信号符号化装置であって、
　前記モノラル符号化部は、前記モノラル符号に対応するモノラル局部復号信号も得て、
　前記追加符号化部は、前記ダウンミックス信号のうちの前記区間Ｘを除く区間（以下、「区間Ｙ」という）の信号と、区間Ｙの前記モノラル局部復号信号と、の対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号と、区間Ｘの前記ダウンミックス信号と、を符号化して追加符号を得る
ことを特徴とする音信号符号化装置。
　請求項７に記載の音信号符号化装置であって、
　前記ダウンミックス部は、前記Ｃ個のチャネルの音信号を周波数領域で混合した信号を前記ダウンミックス信号として得て、
　前記Ｃ個のチャネルの音信号を時間領域で混合した信号をモノラル符号化対象信号として得るモノラル符号化対象信号生成部を更に含み、
　前記モノラル符号化部は、フレーム間でオーバーラップのある窓をかける処理が含まれる符号化方式で、前記モノラル符号化対象信号を符号化して前記モノラル符号を得る
ことを特徴とする音信号符号化装置。
　請求項７または８に記載の音信号符号化装置であって、
　前記追加符号化部は、
　前記ダウンミックス信号のうちの区間Ｘの信号を符号化して、第１追加符号と前記第１追加符号に対応する区間Ｘの局部復号信号（以下、「第１追加局部復号信号」という）を得て、
　区間Ｙの前記ダウンミックス信号と前記モノラル局部復号信号との対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号と、区間Ｘの前記ダウンミックス信号と前記第１追加局部復号信号との対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号と、を連結した信号を、サンプル列を纏めて符号化する符号化方式により符号化して第２追加符号を得て、
前記第１追加符号と前記第２追加符号を合わせたものを前記追加符号とする
ことを特徴とする音信号符号化装置。
　請求項７または８に記載の音信号符号化装置であって、
　前記追加符号化部は、
区間Ｙの前記モノラル局部復号信号または区間Ｙと区間Ｘの前記モノラル局部復号信号から、モノラル局部復号信号の区間Ｘの予測信号を得て、
区間Ｙの前記ダウンミックス信号と前記モノラル局部復号信号との対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号と、区間Ｘの前記ダウンミックス信号と前記予測信号との対応するサンプル同士のサンプル値の減算または重み付き減算により構成される信号と、を符号化して追加符号を得る
ことを特徴とする音信号符号化装置。
　請求項１から５の何れかに記載の音信号符号化方法の各ステップをコンピュータに実行させるためのプログラム。
　請求項１から５の何れかに記載の音信号符号化方法の各ステップをコンピュータに実行させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。