JPWO2010084756A1

JPWO2010084756A1 - ステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法

Info

Publication number: JPWO2010084756A1
Application number: JP2010547441A
Authority: JP
Inventors: ゾンシアンリウ; コックセンチョン
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2009-01-22
Filing date: 2010-01-21
Publication date: 2012-07-19
Anticipated expiration: 2030-01-21
Also published as: EP2381439B1; JP5269914B2; US8504378B2; WO2010084756A1; CN102292767A; CN102292767B; EP2381439A4; EP2381439A1; US20110288872A1

Abstract

複数の音源が存在する場合でも信号の品質劣化を防ぐことができるステレオ音響信号符号化装置。この装置では、ピーク追跡部（４０１）は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割したサブフレームの波形のピークを検出するとともに、検出したピークの位置を比較することにより、右チャンネル信号及び左チャンネル信号の各フレームのフレーム時間遅延Ｄを推定する。時間調整部（４０２）は、フレーム時間遅延Ｄに基づいて右チャンネル信号の時間調整を行う。時間調整後の右チャンネル信号と左チャンネル信号を用いてダウンミックス処理を行い、モノラル信号と副信号を生成する。モノラル符号化部（４０３）は、モノラル信号を符号化する。副信号符号化部（４０４）は、副信号を符号化する。時間遅延符号化部（４０５）は、フレーム時間遅延Ｄを符号化する。

Description

本発明は、ステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法に関する。

世界的にブロードバンドの方向に進むにつれて、通信システムに対する利用者の期待が、単なる明瞭性からステレオ感や自然性へと高まっており、傾向としてステレオ音響信号が提供されるようになっている。結果として、ステレオ音響信号を蓄積および送信するための効果的な符号化方式が望まれている。

ステレオ符号化方式としては、例えば、ＡＭＲ−ＷＢ＋（Extended adaptive multi-rate - Wideband）のように、「ミッドサイド（和差）」（以下「Ｍ／Ｓ」と記載する）を採用して、ステレオ信号に含まれているステレオの冗長性を利用するステレオ符号化が多数存在している（例えば、非特許文献１）。

Ｍ／Ｓステレオ符号化では、多くの場合、２つのチャンネルの相関がかなり高くなることから、２つの信号（左チャンネル信号と右チャンネル信号）の和と差を算出する。この結果、２つの信号の冗長性が取り除かれ、その後に和（モノラルまたはミッド）信号および差（副またはサイド）信号が符号化される。これにより、信号エネルギーの大きいモノラル信号に対して、信号エネルギーの小さい副信号よりも（相対的に）多くのビットを割り当てることができ、高品質なステレオ音響信号を実現することができる。

ステレオ音響信号の冗長性を利用するＭ／Ｓ方法における問題は、２つの成分の位相がずれている（一方が他方に対して時間的に遅れている）場合、Ｍ／Ｓ符号化のメリットが消失することである。実際のオーディオ信号においては、時間遅延は頻繁に生じるため、これは根本的な問題である。また、ステレオ信号を聴いたときに知覚される立体感は、（特に低周波数における）左チャンネル信号と右チャンネル信号との間の時間差によるところが大きい。

この問題を解決するため、非特許文献２では、位相をそろえた（time-aligned）信号成分に基づく、適応Ｍ／Ｓステレオ符号化方法が提案されている。

図１は、ステレオ信号のための適応Ｍ／Ｓステレオ符号化方法の原理に基づく符号化装置の構成を示すブロック図である。

図１に示した符号化装置における符号化処理においては、時間遅延推定部１０１は、ステレオ信号の左チャンネルＬ（ｎ）と右チャンネルＲ（ｎ）の間の時間遅延に対応する時間遅延Ｄを、（１）式のように、時間領域相互相関手法（time domain cross correlation technique）を使用して推定する。

（１）式において、［ａ，ｂ］は所定の範囲であり、Ｎはフレームサイズである。

時間遅延符号化部１０５は、時間遅延Ｄを符号化し、多重化部１０６は、符号化パラメータを多重化してビットストリームを形成する。

次に、時間調整部１０２は、右チャンネル信号Ｒ（ｎ）を時間遅延Ｄに従って調整する（aligned）。調整された右チャンネル信号をＲ_ａ（ｎ）と表す。

調整された信号成分に対して、（２）式のようにダウンミックスを行い、モノラル信号Ｍ（ｎ）と副信号Ｓ（ｎ）を求める。

（２）式から、時間的に調整された信号を（３）式に従って生成することができる。

モノラル符号化部１０３は、モノラル信号Ｍ（ｎ）を符号化し、副信号符号化部１０４は、副信号Ｓ（ｎ）を符号化する。多重化部１０６は、モノラル符号化部１０３および副信号符号化部１０４の両方から入力した符号化パラメータを多重化してビットストリームを形成する。

図２は、ステレオ信号のための適応Ｍ／Ｓステレオ符号化方法の原理に基づく復号装置の構成を示すブロック図である。

図２に示した復号処理においては、分離部２０１は、すべての符号化パラメータおよび量子化パラメータをビットストリームから分離する。具体的には、モノラル復号部２０２は、モノラル信号の符号化パラメータを復号して復号モノラル信号を得る。また、副信号復号部２０３は、副信号の符号化パラメータを復号して復号副信号を得る。また、時間遅延復号部２０４は、符号化された時間遅延を復号して復号時間遅延Ｄを得る。

次に、復号されたモノラル信号および副信号を使用し、（４）式に従ってステレオ信号を生成する。

時間復元部２０５は、復号された時間遅延Ｄを用いて、時間復元部２０５の入力信号の位相を逆方向に調整する（de-aligning）ことにより、時間復元部２０５の出力信号を得る。

Extended AMR Wideband Speech Codec (AMR-WB+): Transcoding functions, 3GPP TS 26.290. Jonas Lindblom, Jan H.Plasberg and Renat Vafin "Flexible Sum-difference Stereo Coding Based on Time-aligned Signal Components," IEEE Workshop on Application of Signal Processing to Audio and Acoustics. 2005. C. Faller and F. Baumgarte, "Binaural cue coding-part II: Schemes and applications," IEEE Trans. Speech Audio Processing, vol. 11, no.6, pp.520-531, 2003

非特許文献２における方法では、入力信号に単一音源を想定すれば良好に機能するが、複数の音源が存在する場合（例えば、複数の話し手による音声、複数の異なる楽器による音楽、または背景雑音のある音声や音楽など）には良好に機能しない。

複数の音源が存在する場合、相互相関方法によって算出される時間遅延が正しく求められなくなることにより、信号の品質劣化を生じ得る。最悪の場合、ステレオ感が不安定になる。非特許文献２によると、いくつかのテストにおいてステレオ感が不安定であったことも報告されている。

ここで、単一音源の場合において、この音源の信号がｓ_１（ｎ）であるとする。このとき、ステレオ信号は（５）式のように表すことができる。

（５）式から、左チャンネル録音装置および右チャンネル録音装置の両方において背景雑音を無視できるとすると、ステレオ信号は（６）式のように表すことができる。

この場合、Ｒ（ｎ）は、Ｌ（ｎ）を用いて（７）式のように表すことができる。

（７）式から、単一音源の場合、背景雑音を無視できるならば、ステレオ信号の一方のチャンネル（例えばＲ（ｎ））は、他方のチャンネル（Ｌ（ｎ））を遅延および減衰させたものと考えることができ、したがって、適応Ｍ／Ｓ符号化方法が効果的に機能すると言える。

一方、複数の音源が存在する場合、Ｍ個の音源が存在し、各音源の信号をｓ_１（ｎ）〜ｓ_Ｍ（ｎ）と表すものとする。この場合、ステレオ信号は（８）式のように表すことができる。

（８）式から、左チャンネル録音装置および右チャンネル録音装置の両方において背景雑音を無視できるとすると、ステレオ信号は（９）式のように表すことができる。

（９）式から、複数の音源が存在する場合には単一音源の場合とは異なり、たとえ背景雑音を無視できる場合でも、ステレオ信号の一方のチャンネル（例えば右チャンネルＲ（ｎ））を、他方のチャンネル（左チャンネルＬ（ｎ））を遅延および減衰させたものと考えることはできない。したがって、適応Ｍ／Ｓ符号化方法は、複数の音源が存在する場合に対しては有効ではないと言える。

本発明の目的は、ピーク情報のみを利用するので、相互相関を利用する従来の時間推定方法、または時間から周波数への変換を利用する従来の時間推定方法と比較して、処理演算量を極めて少なくすることができるステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法を提供することである。

本発明のステレオ音響信号符号化装置は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定するピーク追跡手段と、前記フレーム時間遅延に基づいて前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行う時間調整手段と、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とを符号化する符号化手段と、を具備する構成を採る。

本発明のステレオ音響信号復号装置は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定し、前記フレーム時間遅延に基づいて、前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うとともに、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とが符号化されて多重化されたビットストリームを前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とに分離する分離手段と、分離した前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とを復号する復号手段と、分離した前記フレーム時間遅延に基づいて、前記右チャンネル信号に対して前記時間調整を行う前の時間に復元する時間復元手段と、を具備する構成を採る。

本発明のステレオ音響信号符号化方法は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定するステップと、前記フレーム時間遅延に基づいて前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うステップと、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とを符号化するステップと、を具備するようにした。

本発明のステレオ音響信号復号方法は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定し、前記フレーム時間遅延に基づいて、前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うとともに、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とが符号化されて多重化されたビットストリームを前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とに分離するステップと、分離した前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とを復号するステップと、分離した前記フレーム時間遅延に基づいて、前記右チャンネル信号に対して前記時間調整を行う前の時間に復元する時間復元ステップと、を具備するようにした。

本発明によれば、ピーク情報のみを利用するので、相互相関を利用する従来の時間推定方法、または時間から周波数への変換を利用する従来の時間推定方法と比較して、処理演算量を極めて少なくすることができる。

従来の符号化装置の構成を示すブロック図従来の復号装置の構成を示すブロック図ｅｘｃ_Ｌ（ｎ）のパターンがｅｘｃ_Ｒ（ｎ）のパターンとは異なる一例を説明する図本発明の実施の形態１に係る符号化装置の構成を示すブロック図本発明の実施の形態１に係る復号装置の構成を示すブロック図本発明の実施の形態１に係るピーク追跡部の構成を示すブロック図本発明の実施の形態１に係るピーク追跡部の構成を示すブロック図本発明の実施の形態１に係るピーク追跡部の処理の詳細を説明する図本発明の実施の形態１に係る無効ピーク破棄部の構成を示すブロック図本発明の実施の形態１に係る無効ピーク破棄部の動作を説明するための図本発明の実施の形態１に係る符号化装置の変形例を示すブロック図本発明の実施の形態１に係る復号装置の構成の変形例を示すブロック図本発明の実施の形態１に係る符号化装置の構成の変形例を示すブロック図本発明の実施の形態１に係る符号化装置の構成の変形例を示すブロック図本発明の実施の形態１に係るピーク追跡部の構成の変形例を示すブロック図本発明の実施の形態１に係るピーク追跡部の構成の変形例を示すブロック図本発明の実施の形態２に係る符号化装置の構成を示すブロック図本発明の実施の形態２に係るピーク追跡部の構成を示すブロック図本発明の実施の形態２に係るピーク追跡部の構成の変形例を示すブロック図本発明の実施の形態３に係る符号化装置の構成を示すブロック図本発明の実施の形態３に係るスイッチの構成を示すブロック図本発明の実施の形態４に係る符号化装置の構成を示すブロック図本発明の実施の形態４に係るスイッチの構成を示すブロック図本発明の実施の形態４に係るスイッチの構成の他の例を示すブロック図本発明の実施の形態５に係る符号化装置の構成を示すブロック図本発明の実施の形態５に係るスイッチの構成を示すブロック図本発明の実施の形態５に係る時間遅延選択部の構成を示すブロック図

本発明は、ピーク追跡（Peak Tracking）方法に関するものである。ピーク追跡は、ステレオ入力信号の波形特性を利用して左チャンネル信号と右チャンネル信号との間の時間遅延を推定する方法である。さらに、ピーク追跡は、相互相関方法またはその他の時間遅延推定方法から導かれる時間遅延の有効性を確認する目的に使用することもできる。

発話音声は、時変励起信号によって時変性の発声機構（time-varying vocal tract system）が励起された結果出力される信号としてモデル化できる。一般に、発声機構を励起する重要な形態は、声帯の振動（声門振動（glottal vibration）と称する）である。声門振動によって生成される励起信号はインパルス列で近似することができる。

単一音源の場合、「発明が解決しようとする課題」において示したように、背景雑音を無視できれば、ステレオ信号の一方のチャンネル（例えば右チャンネル信号Ｒ（ｎ））は、他方のチャンネル（左チャンネル信号Ｌ（ｎ））を遅延および減衰させた信号とみなすことができる。

したがって、右チャンネル信号Ｒ（ｎ）の時変励起信号（第一のインパルス列とする）は、左チャンネル信号Ｌ（ｎ）の時変励起信号（第二のインパルス列とする）が遅延および減衰した信号と考えることができる。

上記の原理に基づき、ピーク追跡方法では、第一のインパルス列と第二のインパルス列における対応するパルスの位置を比較することによって時間遅延を推定する。

しかしながら、複数音源のほとんどの場合、「発明が解決しようとする課題」において示したように、ステレオ信号の一方のチャンネル（例えばＲ（ｎ））を、他方のチャンネル（Ｌ（ｎ））を遅延および減衰させた信号とみなすことはできない。このことを図３を用いて詳細に説明する。

ここで、同時に話す２人の話し手が存在する場合を考える。２つの信号をｓ_１（ｎ）およびｓ_２（ｎ）と表し、それらの励起信号をｅｘｃ_１（ｎ）およびｅｘｃ_２（ｎ）と表す。この場合、ステレオ信号は（１０）式のように表すことができる。

左チャンネル励起信号ｅｘｃ_Ｌ（ｎ）および右チャンネル励起信号ｅｘｃ_Ｒ（ｎ）は、第１話者の励起信号ｅｘｃ_１（ｎ）および第２話者の励起信号ｅｘｃ_２（ｎ）を用いて（１１）式のように表すことができる。

一般的に、（１１）式において、ｅｘｃ_Ｌ（ｎ）のパターンはｅｘｃ_Ｒ（ｎ）のパターンと異なるものになる。励起信号をインパルス列とみなし、インパルスの大きさを無視すると、図３を用いて次のように説明できる。

図３は、ｅｘｃ_Ｌ（ｎ）のパターンがｅｘｃ_Ｒ（ｎ）のパターンとは異なる一例を示している。各図の内容は次のとおりである。

図３（ａ）は、ｅｘｃ_１（ｎ）のパターンを示している。

図３（ｂ）は、ｅｘｃ_２（ｎ）のパターンを示している。

図３（ｃ）は、ｅｘｃ_１（ｎ−Ｄ_Ｌ１）とｅｘｃ_２（ｎ−Ｄ_Ｌ２）を混合した信号の様子を示している（説明を分かりやすくするため、ここでは、ｅｘｃ_１（ｎ−Ｄ_Ｌ１）のパルスが立つパルス位置とｅｘｃ_２（ｎ−Ｄ_Ｌ２）のパルスが立つパルス位置は同一であるとする）。

図３（ｄ）は、ｅｘｃ_１（ｎ−Ｄ_Ｒ１）とｅｘｃ_２（ｎ−Ｄ_Ｒ２）を混合した信号の様子を示している。

図３（ｅ）は、最終的に得られる左チャンネル励振信号ｅｘｃ_Ｌ（ｎ）の様子を示している（ｅｘｃ_１（ｎ−Ｄ_Ｌ１）のパルスが立つパルス位置とｅｘｃ_２（ｎ−Ｄ_Ｌ２）のパルスが立つパルス位置は同一であるため、ここではｅｘｃ_２（ｎ−Ｄ_Ｌ２）のパルスのみ表記している）。

図３（ｆ）は、最終的に得られる右チャンネル励振信号ｅｘｃ_Ｒ（ｎ）の様子を示している。

これらの図から、複数音源の場合においては、ｅｘｃ_Ｌ（ｎ）のパターン（図３（ｅ））がｅｘｃ_Ｒ（ｎ）のパターン（図３（ｆ））と全く異なったものになり得ることが分かる。このような複数音源環境で入力された２つのチャネルの信号に対して非特許文献２に示されるような従来技術を適用しても、求められる時間遅延は無効であり、復号信号の音質劣化の原因となる。このような場合、本発明で開示するピーク追跡方法は、時間遅延をゼロまたは前のフレームから導かれた時間遅延に設定することにより、無効な時間遅延を破棄する。ピーク追跡方法を用いて無効な時間遅延を破棄することにより、音質劣化を回避することができる。ここで、無効な時間遅延に対してゼロを設定するか前のフレームから導かれる時間遅延を設定するかは、入力信号の特性によって決定することができる。例えば、入力信号のステレオ感が大きく変化していない場合、時間遅延を前のフレームから導かれた時間遅延に設定する。一方、入力信号のステレオ感が大きく変化している場合、時間遅延をゼロに設定する。

複数音源であっても、単一音源とみなしてよい場合もある。例えば、異なる信号源であるにも関わらず左チャンネル信号と右チャンネル信号との間の時間遅延が同じである場合や、複数音源のうち１つの音源のみが優勢である場合などを挙げることができる。このような場合、ピーク追跡は、単一音源シナリオの場合と同じ原理を用いて、時間遅延を推定する。

以下に、本発明における各実施の形態について説明する。当業者は、本発明の範囲から逸脱することなく、本発明を修正および適合化することができる。

（実施の形態１）
図４は、ピーク追跡方式を適用して時間遅延を推定する符号化装置の構成を示すブロック図である。また、図５は、ピーク追跡方式を適用して時間遅延を推定する復号装置の構成を示すブロック図である。

図４に示した符号化処理においては、ピーク追跡部４０１は、ステレオ信号の左チャンネル信号Ｌ（ｎ）と右チャンネル信号Ｒ（ｎ）の間の時間遅延に対応する時間遅延Ｄを、ピーク追跡方式を使用して推定する。

時間遅延符号化部４０５は、時間遅延Ｄを符号化し、多重化部４０６は、符号化パラメータを多重化してビットストリームを形成する。

時間調整部４０２は、右チャンネル信号Ｒ（ｎ）を時間遅延Ｄに従って調整する。時間的に調整された右チャンネル信号をＲ_ａ（ｎ）と表す。

時間的に調整された信号に対して、（１２）式に従ってダウンミックスを行う。

（１２）式から、時間的に調整された信号を、次の（１３）式に従って生成することができる。

時間的に調整された信号を、（１４）式に従ってダウンミックスすることも可能である。

（１４）式から、時間的に調整された信号を、（１５）式に従って生成することができる。

モノラル符号化部４０３は、モノラル信号Ｍ（ｎ）を符号化し、副信号符号化部４０４は、副信号Ｓ（ｎ）を符号化する。多重化部４０６は、モノラル符号化部４０３および副信号符号化部４０４の両方から入力した符号化パラメータを多重化してビットストリームを形成する。

図５に示した復号処理においては、分離部５０１は、ビットストリームから、すべての符号化パラメータおよび量子化パラメータを分離する。モノラル復号部５０２は、モノラル信号の符号化パラメータを復号して復号モノラル信号を得る。副信号復号部５０３は、副信号の符号化パラメータを復号して復号副信号を得る。時間遅延復号部５０４は、符号化された時間遅延を復号してＤを得る。

復号されたモノラル信号および副信号を使用し、（１６）式に従って、ステレオ信号を生成する。

また、次の（１７）式に従ってダウンミックスを行う場合には（１８）式にしたがってアップミックスを行う。

時間復元部５０５は、復号された時間遅延Ｄによって時間復元部５０５の入力信号の位相を逆方向に調整することによって、時間復元部５０５の出力信号を生成する。

図６は、ピーク追跡部４０１の構成を示すブロック図であり、ピーク追跡方法の原理を示している。フレーム分割部６０１は、フレーム毎に入力される左チャンネル信号Ｌ（ｎ）および右チャンネル信号Ｒ（ｎ）の入力フレームを複数のサブフレームに分割する。ここでサブフレームの数をＮとする。

ピーク追跡部６０２、６０３、６０４は、各サブフレームに対してピーク追跡を適用し、サブフレーム時間遅延（Ｄ_０〜Ｄ_Ｎ−１）を得る。フレーム遅延推定部６０５は、これらのサブフレーム時間遅延（Ｄ_０〜Ｄ_Ｎ−１）を使用して、フレーム時間遅延Ｄを推定する。

フレーム時間遅延を推定する方法の１つは、次のようにサブフレームにおける時間遅延の平均を計算することである。

別の方法としては、フレーム時間遅延を、出現回数が最大のサブフレーム時間遅延に等しいものとする方法が挙げられる。例えば、サブフレーム時間遅延（Ｄ_０〜Ｄ_Ｎ−１）のうち、１つの時間遅延のみが２であり、残りの時間遅延すべてが０である場合には、フレーム時間遅延として０を選択する（Ｄ＝０）。なお、次式で示すように、ＤをＤ_ｉの中央値としても良い。

なお、フレーム時間遅延推定方法は、上記の２つの例に限定されない。

次いで、時間遅延有効性確認部６０６は、フレーム時間遅延Ｄの有効性を確認する。

時間遅延有効性確認部６０６は、時間遅延Ｄと各サブフレーム時間遅延とを比較し、その差が所定の範囲を超えるサブフレーム数をカウントする。時間遅延有効性確認部６０６は、所定の範囲を超えるサブフレーム数が、しきい値Ｍを超える場合、時間遅延Ｄを無効とみなす。ここで、しきい値Ｍは所定の値、または信号特性に従って適応的に算出される値として定義される。時間遅延有効性確認部６０６は、時間遅延が有効である場合、現在のフレームで算出された時間遅延を出力する。一方、時間遅延有効性確認部６０６は、時間遅延が有効ではない場合（無効の場合）、前のフレームの時間遅延を出力する。なお、時間遅延が無効の場合、現在のフレームで算出された時間遅延の代わりに、ゼロ値（この場合、左チャンネル信号Ｌ（ｎ）と右チャンネル信号Ｒ（ｎ）の位相差は無いとみなされる）、または過去数フレームの時間遅延の平均値などを用いても良い。また、これらの値をフレーム毎に切替えて出力しても良い。

図７は、ピーク追跡部６０２、６０３、６０４の構成を示すブロック図であり、各サブフレームに適用されるピーク追跡の詳しいステップを示している。例としてサブフレームｉの場合を説明する。

サブフレームｉの入力信号Ｌ_ｉ（ｎ）は、Ｌ（ｎ）のｉ番目のサブフレームの入力信号であり、サブフレームｉの入力信号Ｒ_ｉ（ｎ）は、Ｒ（ｎ）のｉ番目のサブフレームの入力信号である。また、出力信号Ｄ_ｉは、ｉ番目のサブフレームのサブフレーム時間遅延である。

ピーク分析部７０１は、サブフレームの入力Ｌ_ｉ（ｎ）およびＲ_ｉ（ｎ）のピークの位置を求める。無効ピーク破棄部７０２は、そのピークが有効であるかを示すインジケータＦ_ｉを出力する。ピークが有効である場合、ピーク位置比較部７０３は、２つのチャンネルのピークの位置を比較し、サブフレーム時間遅延Ｄ_ｉを出力する。

図８は、ピーク分析部７０１の処理の詳細を説明する図である。

まず、ピーク追跡部６０２、６０３、６０４は、処理の前に、Ｌ（ｎ）およびＲ（ｎ）の絶対値を算出する。

また、ピーク追跡部６０２、６０３、６０４は、絶対値｜Ｌ（ｎ）｜および｜Ｒ（ｎ）｜を、Ｎ個のサブフレームに分割する。図８には、例として３個のサブフレームを示してある。ピーク追跡部６０２、６０３、６０４は、各サブフレームにおいて、最大値の位置を見つける（Ｐ_Ｌ（０）〜Ｐ_Ｌ（Ｎ−１）、Ｐ_Ｒ（０）〜Ｐ_Ｒ（Ｎ−１））。次いで、ピーク追跡部６０２、６０３、６０４は、ピーク値の位置の差によって、サブフレーム時間遅延（Ｄ_０〜Ｄ_Ｎ−１）を推定する。サブフレームｉを例にとると、次のように時間遅延Ｄ_ｉを推定する。

図９は、無効ピーク破棄部７０２の構成を示すブロック図である。

いくつかのサブフレームにおいて励起インパルスが存在しないことがあり、その場合、そのサブフレームで特定されるピークは励起インパルスに対応していない。この場合においては、サブフレームから導かれる時間遅延は適切な時間遅延ではない。

無効ピーク破棄部７０２は、このような時間遅延がフレーム時間遅延推定において使用されないようにする。

サブフレームにおけるピークが励起インパルスに対応しているか否かを確認する方法の１つは、ピークの値を所定のしきい値と比較することである。このしきい値は、前のフレームからのピーク値、または同じフレーム内の別のサブフレームにおけるピーク値から決定することができる。

図９において、ピーク値抽出部９０１は、サブフレームの入力Ｌ_ｉ（ｎ）およびＲ_ｉ（ｎ）と、ピーク位置Ｐ_Ｌ（ｉ）およびＰ_Ｒ（ｉ）とを使用して、ピーク値｜Ｌ（Ｐ_Ｌ（ｉ））｜および｜Ｒ（Ｐ_Ｒ（ｉ））｜を得る。次に、しきい値比較部９０２は、これらの２つのピーク値を所定のしきい値と比較する。ピーク値がしきい値より大きい場合、しきい値比較部９０２から出力される出力フラグＦ_ｉはＦ_ｉ＝１（ピークが有効であることを示す）となる。ピーク値がしきい値より小さい場合、しきい値比較部９０２から出力される出力フラグＦ_ｉはＦ_ｉ＝０（ピークが無効であることを示す）となり、この場合、サブフレーム時間遅延Ｄ_ｉをフレーム時間遅延推定において使用しない。

図１０は、無効ピーク破棄部７０２の動作を説明するための図である。

この図においては、２番目のサブフレームに励起インパルスが存在しないため、２番目のサブフレーム（サブフレームインデックスは１）におけるピーク値は、他のサブフレームにおけるピーク値と比較して非常に小さい。したがって、無効ピーク破棄部７０２により、２番目のサブフレームのサブフレーム時間遅延を破棄する。

本実施の形態によれば、ステレオ入力信号フレームを複数のサブフレームに分割し、各サブフレームにおいてピークの位置を求める。また、ピークの位置を比較して、推定されるサブフレーム時間遅延を求める。さらに、複数のサブフレーム時間遅延を使用して、最終的な推定時間遅延を求める。このようなピーク追跡は、入力信号の波形特性を利用する信号依存の方法であり、有効かつ正確な時間遅延推定方法である。従って、本実施の形態によれば、ピーク追跡はピーク情報のみを利用するので、相互相関を利用する従来の時間推定方法、または時間から周波数への変換を利用する従来の時間推定方法に比べて、処理演算量を極めて少なくすることができる。

また、本実施の形態によれば、無効なピークを破棄する処理を追加する。無効なピークの破棄とは、サブフレームにおいて求められるピークが必ず励起インパルスに対応するように、ピークの値を所定のしきい値と比較することにより行われる。所定のしきい値と比べてピークの値が小さいときに、そのピークは破棄される。従って、無効なピークを破棄することにより、励起インパルスに対応するピークのみがフレーム時間遅延推定において使用される。これにより、より正確な時間遅延を求めることができる。

なお、本実施の形態において、右チャンネル信号を時間調整したが、本実施の形態はこれに限らず、左チャンネル信号を時間調整しても良い。また、本実施の形態における変形例として、以下のバリエーション１〜バリエーション６が考えられる。

（バリエーション１）
時間遅延は、時間遅延の符号に応じて、左チャンネル信号または右チャンネル信号のどちらに対しても調整することができる。

図１１は、本実施の形態の符号化装置の構成の変形例１を示すブロック図であり、図１２は、本実施の形態の復号装置の構成の変形例１を示すブロック図である。このコーデックは、本実施の形態において提案する符号化装置（図４）および復号装置（図５）とは別の構成を有している。

図１１に示した符号化装置においては、時間調整部１１０３は、ピーク追跡部１１０１により算出される時間遅延が正、すなわち、右チャンネル信号Ｒ（ｎ）が左チャンネル信号Ｌ（ｎ）より遅れている場合、右チャンネル信号Ｒ（ｎ）の位相を調整する。時間調整部１１０２は、ピーク追跡部１１０１により算出される時間遅延が負、すなわち左チャンネル信号Ｌ（ｎ）が右チャンネル信号Ｒ（ｎ）より遅れている場合、Ｌ（ｎ）の位相を調整する。なお、時間調整部１１０３は、時間調整部４０２と同様の処理を行うので、その説明を省略する。また、モノラル符号化部１１０４は、モノラル符号化部４０３と同様の処理を行うので、その説明を省略する。また、副信号符号化部１１０５は、副信号符号化部４０４と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部１１０６は、時間遅延符号化部４０５と同様の処理を行うので、その説明を省略する。また、多重化部１１０７は、多重化部４０６と同様の処理を行うので、その説明を省略する。

図１２に示した復号装置においては、時間復元部１２０６は、復号された時間遅延が正である場合、右チャンネル信号Ｒ（ｎ）の位相を逆方向に調整する。時間復元部１２０５は、復号された時間遅延が負である場合、左チャンネル信号Ｌ（ｎ）の位相を逆方向に調整する。なお、分離部１２０１は、分離部５０１と同様の処理を行うので、その説明を省略する。また、モノラル復号部１２０２は、モノラル復号部５０２と同様の処理を行うので、その説明を省略する。また、副信号復号部１２０３は、副信号復号部５０３と同様の処理を行うので、その説明を省略する。また、時間遅延復号部１２０４は、時間遅延復号部５０４と同様の処理を行うので、その説明を省略する。

本バリエーションによる効果は以下の通りである。まず、ステレオ信号は次のように表すことができる。

ここで、Ｄ_ＬとＤ_Ｒの関係には、「Ｄ_Ｌ＞Ｄ_Ｒ」と「Ｄ_Ｌ＝Ｄ_Ｒ」と「Ｄ_Ｌ＜Ｄ_Ｒ」の３つの場合がある。

Ｄ_Ｌ＝Ｄ_Ｒである場合、２つのチャンネル信号の間の時間遅延は０である。

Ｄ_Ｌ＞Ｄ_Ｒである場合、左チャンネル信号Ｌ（ｎ）が右チャンネル信号Ｒ（ｎ）より遅れているため、左チャンネル信号Ｌ（ｎ）を調整する。

Ｄ_Ｌ＜Ｄ_Ｒである場合、右チャンネル信号Ｒ（ｎ）が左チャンネル信号Ｌ（ｎ）より遅れているため、右チャンネル信号Ｒ（ｎ）を調整する。

したがって、本バリエーションを適用することによって、入力信号の時間遅延に従って柔軟に右チャンネル信号および左チャンネル信号の時間遅延を調整することができる。

（バリエーション２）
ピーク追跡部にて時間遅延Ｄを算出する前に、左チャンネル信号Ｌ（ｎ）および右チャンネル信号Ｒ（ｎ）に対して線形予測処理を行う。

図１３は、本実施の形態の符号化装置の構成の変形例２を示すブロック図である。

図１３に示した符号化装置においては、線形予測（ＬＰ）分析部１３０１、１３０４は、左チャンネル信号Ｌ（ｎ）および右チャンネル信号Ｒ（ｎ）の各々に対して線形予測処理を行う。ピーク追跡部１３０５は、線形予測（ＬＰ）逆フィルタ部１３０２、１３０３より求められる残差信号ｒｅｓ_Ｌ（ｎ）およびｒｅｓ_Ｒ（ｎ）を使用して時間遅延を推定する。

なお、ピーク追跡部１３０５は、ピーク追跡部４０１と同様の処理を行うので、その説明を省略する。また、時間調整部１３０６は、時間調整部４０２と同様の処理を行うので、その説明を省略する。また、モノラル符号化部１３０７は、モノラル符号化部４０３と同様の処理を行うので、その説明を省略する。また、副信号符号化部１３０８は、副信号符号化部４０４と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部１３０９は、時間遅延符号化部４０５と同様の処理を行うので、その説明を省略する。また、多重化部１３１０は、多重化部４０６と同様の処理を行うので、その説明を省略する。また、復号装置については、図５に記載の復号装置と同じであるので、その説明を省略する。

この構成により、線形予測係数（ＬＰ係数）を使用して、入力信号から線形予測残差を導き、線形予測によって、信号のサンプル間の相関が除去され、大きな励起の瞬間付近における大きな振幅変動を得られる。したがって、線形予測残差によってピークの位置を良好に検出することができる。

（バリエーション３）
ピーク追跡部から時間遅延を推定する前に、左チャンネル信号Ｌ（ｎ）および右チャンネル信号Ｒ（ｎ）を低域通過フィルタによって処理する。

図１４は、本実施の形態の符号化装置の構成の変形例３を示すブロック図である。

図１４に示した符号化装置においては、左チャンネル信号Ｌ（ｎ）および右チャンネル信号Ｒ（ｎ）を低域通過フィルタ１４０１、１４０２に通して処理する。ピーク追跡部１４０３は、左チャンネル信号の低域通過フィルタ１４０１の出力信号Ｌ_ＬＦ（ｎ）および右チャンネル信号の低域通過フィルタ１４０２の出力信号Ｒ_ＬＦ（ｎ）を使用して時間遅延を推定する。

なお、ピーク追跡部１４０３は、ピーク追跡部４０１と同様の処理を行うので、その説明を省略する。また、時間調整部１４０４は、時間調整部４０２と同様の処理を行うので、その説明を省略する。また、モノラル符号化部１４０５は、モノラル符号化部４０３と同様の処理を行うので、その説明を省略する。また、副信号符号化部１４０６は、副信号符号化部４０４と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部１４０７は、時間遅延符号化部４０５と同様の処理を行うので、その説明を省略する。また、多重化部１４０８は、多重化部４０６と同様の処理を行うので、その説明を省略する。また、復号装置については、図５に記載の復号装置と同じであるので、その説明を省略する。

この構成により、低周波信号においてはピークの位置を良好に検出することができる。

（バリエーション４）
サブフレームの数をフレームごとに可変にする。サブフレームの数は、モノラル符号化部から得られるピッチ周期に応じて決定する。

図１５は、本実施の形態のピーク追跡部の構成の変形例１を示すブロック図である。

図１５に示した符号化装置においては、適応フレーム分割部１５０１は、左チャンネル信号Ｌ（ｎ）および右チャンネル信号Ｒ（ｎ）を、可変数のサブフレームに分割する。サブフレームの数は、モノラル符号化部からの前フレームのピッチ周期によって決定する。なお、ピーク追跡部１５０２、１５０３は、ピーク追跡部６０２、６０３、６０４と同様の処理を行うので、その説明を省略する。また、フレーム遅延推定部１５０４は、フレーム遅延推定部６０５と同様の処理を行うので、その説明を省略する。また、時間遅延有効性確認部１５０５は、時間遅延有効性確認部６０６と同様の処理を行うので、その説明を省略する。

従って、モノラル符号器から得られるピッチ周期を利用することによって、ピッチ周期に同期したサブフレームからピッチの位置をより正確に検出することができるため、時間遅延を良好に推定することができる。

（バリエーション５）
サブフレームの境界をフレームごとに可変にする。サブフレームの境界は、モノラル符号化装置から得られるピッチ周期に応じて定義する。

図１６は、本実施の形態のピーク追跡部の構成の変形例２を示すブロック図である。

図１６に示したピーク追跡部においては、適応フレーム分割部１６０１は、左チャンネル信号Ｌ（ｎ）および右チャンネル信号Ｒ（ｎ）を、複数のサブフレームに分割する。サブフレームの数は、モノラル符号化部からの前フレームのピッチ周期によって決定する。なお、ピーク追跡部１６０２、１６０３、１６０４は、ピーク追跡部６０２、６０３、６０４と同様の処理を行うので、その説明を省略する。また、フレーム遅延推定部１６０５は、フレーム遅延推定部６０５と同様の処理を行うので、その説明を省略する。また、時間遅延有効性確認部１６０６は、時間遅延有効性確認部６０６と同様の処理を行うので、その説明を省略する。

これより、モノラル符号化器から得られるピッチ周期を利用することによって、ピッチ周期に同期したサブフレームからピッチの位置をより正確に検出することができるため、時間遅延を良好に推定することができる。

（バリエーション６）
複数のサブフレーム長を定義し、サブフレーム長の設定それぞれにおいてピーク追跡を並列に実行する。各サブフレーム長においてピーク追跡から得られるすべての時間遅延Ｄによって、時間遅延Ｄを決定する。

これより、複数のサブフレーム長を利用することによって、時間遅延をより良好に推定することができる。

（実施の形態２）
ピーク追跡方法は、別の時間遅延推定方法（例えば、相互相関方法）から導かれる時間遅延の有効性を確認する目的にも使用することができる。

図１７は、本発明の実施の形態２に係る符号化装置の構成を示すブロック図であり、この符号化装置は、図４に示した実施の形態１の符号化装置と大部分が同じである。図１７において、時間遅延推定部１７０１は、ピーク追跡方式を適用して時間遅延を推定する符号化方式以外の符号化方式により時間遅延を推定する。また、ピーク追跡部１７０２は、時間遅延推定部１７０１において算出された時間遅延の有効性を確認する。

図１８は、時間遅延推定部１７０１で算出された時間遅延の有効性の確認にピーク追跡部１７０２を適用した際のピーク追跡部１７０２の構成を示すブロック図である。

はじめに、フレーム分割部１８０１は、左チャンネル信号Ｌ（ｎ）および右チャンネル信号Ｒ（ｎ）の入力フレームを複数のサブフレームに分割する。サブフレームの数をＮと表す。

次に、ピーク追跡部１８０２、１８０３、１８０４は、Ｎ個のサブフレームのサブフレーム時間遅延（Ｄ_０〜Ｄ_Ｎ−１）を得る。時間遅延有効性確認部１８０５は、これらのサブフレーム時間遅延（Ｄ_０〜Ｄ_Ｎ−１）を使用して、時間遅延推定部１７０１で算出されたフレーム時間遅延Ｄの有効性を確認する。なお、時間調整部１７０３は、時間調整部４０２と同様の処理を行うので、その説明を省略する。また、モノラル符号化部１７０４は、モノラル符号化部４０３と同様の処理を行うので、その説明を省略する。また、副信号符号化部１７０５は、副信号符号化部４０４と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部１７０６は、時間遅延符号化部４０５と同様の処理を行うので、その説明を省略する。また、多重化部１７０７は、多重化部４０６と同様の処理を行うので、その説明を省略する。

時間遅延有効性確認部１８０５は、時間遅延推定部１７０１で算出された時間遅延Ｄと各サブフレーム時間遅延（Ｄ_０〜Ｄ_Ｎ−１）とを比較し、その差が所定の範囲を超えるサブフレーム数をカウントする。所定の範囲を超えるサブフレーム数が、しきい値Ｍを超える場合、時間遅延有効性確認部１８０５は、時間遅延推定部１７０１で算出された時間遅延Ｄを無効とみなす。ここで、しきい値Ｍは所定の値、または信号特性に従って適応的に算出される値として定義される。

時間遅延Ｄが無効と判断された場合、時間遅延有効性確認部１８０５は、前のフレームの時間遅延を出力する。一方、時間遅延有効性確認部１８０５は、時間遅延Ｄが有効と判断された場合、時間遅延推定部１７０１で算出された時間遅延Ｄを出力する。なお、時間遅延が無効と判断された場合、現在のフレームで算出された時間遅延の代わりに、ゼロ値（この場合、左チャンネル信号Ｌ（ｎ）と右チャンネル信号Ｒ（ｎ）の位相差は無いとみなされる）、または過去数フレームの時間遅延の平均値などを用いても良い。また、これらの値をフレーム毎に切替えて出力しても良い。

＜実施の形態２の変形例＞
本実施の形態の変形例では、Ｌ（ｎ）およびＲ（ｎ）を、複数のサブフレームに分割する前に、導かれた時間遅延Ｄに従って調整する。

図１９は、本実施の形態のピーク追跡部の構成の変形例を示すブロック図である。

図１９において、調整部１９０１は、入力信号Ｌ（ｎ）およびＲ（ｎ）を、導かれた時間遅延Ｄに従って調整する（図１９において、一例としてＲ（ｎ）を調整する）。フレーム分割部１９０２は、調整された信号Ｌ（ｎ）およびＲａ（ｎ）を複数のサブフレームに分割する。ここで、サブフレームの数をＮと表す。

ピーク追跡部１９０３、１９０４、１９０５は、ピーク追跡を適用し、サブフレーム時間遅延（Ｄ_０〜Ｄ_Ｎ−１）を得る。時間遅延有効性確認部１９０６は、これらのサブフレーム時間遅延（Ｄ_０〜Ｄ_Ｎ−１）を使用して、フレーム時間遅延Ｄの有効性を確認する。時間遅延有効性確認部１９０６は、所定の値を超えるサブフレーム時間遅延の数がＭ（Ｍは、所定の値、または信号特性に従って適応的に導くことができる）より大きい場合、Ｄは無効であると判定し、この場合には前のフレームの時間遅延を出力する。また、時間遅延有効性確認部１９０６は、所定の値を超えるサブフレーム時間遅延の数がＭ以下の場合、Ｄを有効とみなし、現在のフレームからのＤを出力する。

本実施の形態によれば、ステレオ入力信号フレームを複数のサブフレームに分割し、各サブフレームにおいてピークの位置を求める。ピークの位置を比較して、推定されるサブフレーム時間遅延を求める。複数のサブフレーム時間遅延を使用して別の時間遅延推定方法にて算出された時間遅延の有効性を確認する。有効であると確認されればそのまま使用し、有効で無いと判断された場合にはその時間遅延を破棄する。従って、本実施の形態によれば、上記の実施の形態１の効果に加えて、複数音源環境において、入力信号のステレオ感を歪ませることなく、単一音源環境用の別の時間遅延推定方法の有効性を維持することができる。また、本実施の形態によれば、ピーク追跡方法を別の時間遅延推定方法と組み合わせることによって、ステレオ入力間の時間遅延をより正確に導くことができる。また、この時、ピーク追跡によって元の方法の処理演算量が大幅に増加することはない。また、入力信号Ｌ（ｎ）およびＲ（ｎ）を、導かれた時間遅延Ｄに従って調整する場合には、対応するピーク（例えば、Ｌ（ｎ）におけるＰ_Ｌ（１）、Ｒ（ｎ）におけるＰ_Ｒ（１））が２つの異なるサブフレームに分割されることを回避することができる。また、入力信号Ｌ（ｎ）およびＲ（ｎ）を、導かれた時間遅延Ｄに従って調整する場合には、時間遅延を考慮する必要がないため、フレーム分割部の実装が極めて容易である。

（実施の形態３）
本実施の形態では、２つの異なる時間遅延を導く。一方の時間遅延は、時間遅延を瞬時的に追跡するピーク追跡方法によって導く。他方の時間遅延は、より安定的に時間遅延を追跡する別の時間遅延推定方法（例えば、非特許文献３に紹介されている低域通過相互相関方法（low-passed cross correlation method））によって導く。ピーク追跡方法とそれ以外の方法との間で、最終的な時間遅延を選択する。

図２０は、本実施の形態の符号化装置の構成を示すブロック図である。図２０に示した符号化装置は、図４に示した実施の形態１の符号化装置と大部分が同じである。なお、図２０において、図４と同一構成の部分については同一符号を付して、その説明を省略する。ピーク追跡部２００２は、ピーク追跡方法によって時間遅延Ｄ’を推定し、別の時間遅延推定部２００１は、別の時間遅延推定方法によって時間遅延Ｄ’’を導く。スイッチ２００３は、Ｄ’とＤ’’のうちの良好な方の時間遅延を選択して出力する。

図２１は、スイッチ２００３の構成を示すブロック図である。遅延有効性確認部２１０１は、図６の時間遅延有効性確認部６０６において適用した時間遅延有効性確認方法と同様の方法によって時間遅延Ｄ’を確認する。そして、遅延有効性確認部２１０１は、時間遅延Ｄ’が有効である場合、最終時間遅延Ｄとして時間遅延Ｄ’を出力する。また、遅延有効性確認部２１０１は、時間遅延Ｄ’が無効である場合、最終時間遅延ＤとしてＤ’’を出力する。

本実施の形態によれば、入力時間遅延を瞬時的に追跡するピーク追跡方法と、入力時間遅延を安定的に追跡する別の時間遅延推定方法との間で時間遅延を選択することによって、高速かつ安定的な時間遅延推定を達成することができる。

（実施の形態４）
本実施の形態では、ピーク追跡方法ではない２つの時間遅延推定方法を使用して、２つの異なる時間遅延を導く。一方の方法は入力時間遅延を瞬時的に追跡できるのに対し、他方の方法は入力時間遅延を安定的に追跡する。また、スイッチモジュールにおける有効性確認方法としてピーク追跡を使用する。

図２２は、本実施の形態の符号化装置を示すブロック図である。本実施の形態の符号化装置は、図２０の符号化装置と大部分が同じである。なお、図２２において、図４及び図２０と同一構成である部分については同一番号を付して、その説明を省略する。時間遅延推定部２２０２は、ピーク追跡方法ではなく別の時間遅延推定方法によって時間遅延Ｄ’を推定する。

この符号化装置においては、時間遅延推定部２２０２は、時間遅延を瞬時的に追跡できる方法である。１つの例は、単一フレーム相互相関方法である。相互相関係数は、現在のフレームのみにおいて導く。最大の相互相関係数を見つけて、対応する時間遅延を得る。

時間遅延推定部２２０１は、時間遅延をゆっくりではあるが安定的に更新する方法である。１つの例は、非特許文献３に紹介されている低域通過相互相関方法であり、相互相関係数を現在のフレームおよび過去のフレームに基づいて計算する。低域通過相互相関方法では、最大の相互相関係数を見つけて、対応する時間遅延を得る。したがって、導かれる時間遅延は、入力時間遅延を極めて安定的に追跡する。スイッチ２２０３は、Ｄ’とＤ’’のうちの良好な方の時間遅延を選択して出力する。

図２３は、スイッチ２２０３の構成を示すブロック図である。ピーク追跡部２３０１は、ピーク追跡方法（実施の形態２における図１８または図１９の場合と同じである）によって時間遅延Ｄ’を確認する。ピーク追跡部２３０１は、時間遅延Ｄ’が有効である場合、最終時間遅延ＤとしてＤ’を出力する。また、ピーク追跡部２３０１は、時間遅延Ｄ’が無効である場合、最終時間遅延ＤとしてＤ’’を出力する。

図２４は、本実施の形態のスイッチの構成の他の例を示すブロック図である。ピーク追跡部２４０１は、時間遅延Ｄ’および時間遅延Ｄ’’の両方をピーク追跡方法（実施の形態２における図１８または図１９の場合と同じである）によって確認する。ピーク追跡部２４０１は、２つの時間遅延の一方が有効である場合、その有効な時間遅延を最終時間遅延Ｄとして出力する。また、ピーク追跡部２４０１は、２つの時間遅延の両方が有効である場合、ピーク追跡方法により適合する方の時間遅延を最終時間遅延として出力する。また、ピーク追跡部２４０１は、２つの時間遅延のいずれも有効ではない場合、前のフレームの時間遅延を最終時間遅延として出力する。

本実施の形態によれば、入力時間遅延を瞬時的に追跡する１つの時間遅延推定方法と、入力時間遅延を安定的に追跡する別の時間遅延推定方法との間で時間遅延を選択することによって、高速かつ安定的な時間遅延推定を達成することができる。

（実施の形態５）
本実施の形態では、複数の異なる方法によって複数の時間遅延を導く。また、本実施の形態では、スイッチモジュールにおける有効性確認方法としてピーク追跡を使用し、時間遅延候補のうち最良の時間遅延を選択する。

図２５は、本実施の形態の符号化装置の構成を示すブロック図である。この符号化装置は、図２２に示した実施の形態４の符号化装置と大部分が同じである。なお、図２５において、図４、図２０及び図２２と同一構成である部分には同一番号を付して、その説明を省略する。各時間遅延推定部２５０１、２５０２、２５０３は、複数の各々異なる方法からＫ（Ｋ＞＝２）個の時間遅延を導く。導いた時間遅延は、その符号に応じて左信号または右信号の調整に用いることができる。

この符号化装置においては、時間遅延推定部２５０１、２５０２、２５０３は、推定特性が異なるものであることが推奨される。

時間遅延推定部２５０１は、時間遅延を最も瞬時的に追跡できる方法により時間遅延を得る。時間遅延を最も瞬時的に追跡できる方法の１つの例は、単一フレーム相互相関方法である。単一フレーム相互相関方法は、相互相関係数を現在のフレームのみにおいて導く。そして、単一フレーム相互相関方法は、最大の相互相関係数を見つけて、対応する時間遅延を得る。

時間遅延推定部２５０３は、時間遅延をゆっくりではあるが安定的に更新する方法により時間遅延を得る。時間遅延をゆっくりではあるが安定的に更新する方法の１つの例は、非特許文献３に紹介されている低域通過相互相関方法である。低域通過相互相関方法は、相互相関係数を現在のフレームおよび過去のフレームに基づいて計算する。そして、低域通過相互相関方法は、最大の相互相関係数を見つけて、対応する時間遅延を得る。したがって、導かれる時間遅延は、入力時間遅延を極めて安定的に追跡する。スイッチ２５０４は、時間遅延候補Ｄ_１〜Ｄ_Ｋのうちの最良の時間遅延を選択して出力する。調整部２５０５は、スイッチ２５０４により選択した時間遅延を用いて、その符号に応じて左信号または右信号の調整を行う。例えば、調整部２５０５は、時間遅延が正である場合は左信号を調整し、時間遅延が負である場合は右信号を調整する。

図２６は、スイッチ２５０４の構成を示すブロック図である。例として時間遅延Ｄ_ｋを用いる。調整部２６０１は、入力信号Ｌ（ｎ）およびＲ（ｎ）を、導かれた時間遅延Ｄ_ｋに従って調整する。フレーム分割部２６０２は、調整された信号Ｌ_ｋａ（ｎ）およびＲ_ｋａ（ｎ）を複数のサブフレームに分割する。サブフレームの数をＮと表す。

各サブフレームに、ピーク追跡（ピーク分析部２６０３、２６０６、２６０９、無効ピーク破棄部２６０４、２６０８、２６１１、およびピーク位置比較部２６０５、２６０７、２６１０を用いる）を適用し、サブフレームピーク差｜Ｐ_Ｌｋ（０）−Ｐ_Ｒｋ（０）｜〜｜Ｐ_Ｌｋ（Ｎ−１）−Ｐ_Ｒｋ（Ｎ−１）｜を得る。加算部２６１２は、これらのサブフレームピーク差を合計する。

図２７は、時間遅延選択部２７０１の構成を示すブロック図である。

時間遅延選択部２７０１は、時間遅延Ｄ_１〜時間遅延Ｄ_Ｋのサブフレームピーク差の合計を入力し、（２３）式に従って時間遅延を選択することができる。

なお、基準は上記のみに限定されず、別の基準も可能である。

本実施の形態によれば、複数の時間遅延推定方法の間で最良の時間遅延候補を選択することによって、時間遅延を良好に推定することができる。

以上の説明は本発明の好適な実施の形態の例証であり、本発明の範囲はこれに限定されることはない。本発明は、ステレオ音響信号符号化装置またはステレオ音響信号復号装置を有するシステムであればどのような場合にも適用することができる。

また、本発明に係るステレオ音響信号符号化装置およびステレオ音響信号復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能である。これにより、上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。

また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶し、情報処理手段によってプログラムを実行させることにより、本発明に係るステレオ音響信号符号化装置等と同様の機能を実現することができる。

また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。

２００９年１月２２日出願の特願２００９−１２４０７の日本出願、及び２００９年２月２０日出願の特願２００９−３８６４６の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。

本発明にかかるステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法は、特にステレオ音響信号を蓄積および送信するのに好適である。

本発明のステレオ音響信号復号装置は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び
前記左チャンネル信号の各フレームのフレーム時間遅延を推定し、前記フレーム時間遅延に基づいて、前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うとともに、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とが符号化されて多重化されたビットストリームを前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とに分離する分離手段と、分離した前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とを復号する復号手段と、分離した前記フレーム時間遅延に基づいて、前記右チャンネル信号に対して前記時間調整を行う前の時間に復元する時間復元手段と、を具備する構成を採る。

図３（ａ）は、ｅｘｃ_１（ｎ）のパターンを示している。

図３（ｂ）は、ｅｘｃ_２（ｎ）のパターンを示している。

図３（ｆ）は、最終的に得られる右チャンネル励振信号ｅｘｃ_Ｒ（ｎ）の様子を示して
いる。

時間遅延有効性確認部６０６は、時間遅延Ｄと各サブフレーム時間遅延とを比較し、その差が所定の範囲を超えるサブフレーム数をカウントする。時間遅延有効性確認部６０６は、所定の範囲を超えるサブフレーム数が、しきい値Ｍを超える場合、時間遅延Ｄを無効とみなす。ここで、しきい値Ｍは所定の値、または信号特性に従って適応的に算出される値として定義される。時間遅延有効性確認部６０６は、時間遅延が有効である場合、現在のフレームで算出された時間遅延を出力する。一方、時間遅延有効性確認部６０６は、時間遅延が有効ではない場合（無効の場合）、前のフレームの時間遅延を出力する。なお、
時間遅延が無効の場合、現在のフレームで算出された時間遅延の代わりに、ゼロ値（この場合、左チャンネル信号Ｌ（ｎ）と右チャンネル信号Ｒ（ｎ）の位相差は無いとみなされる）、または過去数フレームの時間遅延の平均値などを用いても良い。また、これらの値をフレーム毎に切替えて出力しても良い。

図９において、ピーク値抽出部９０１は、サブフレームの入力Ｌ_ｉ（ｎ）およびＲ_ｉ（
ｎ）と、ピーク位置Ｐ_Ｌ（ｉ）およびＰ_Ｒ（ｉ）とを使用して、ピーク値｜Ｌ（Ｐ_Ｌ（ｉ））｜および｜Ｒ（Ｐ_Ｒ（ｉ））｜を得る。次に、しきい値比較部９０２は、これらの２つのピーク値を所定のしきい値と比較する。ピーク値がしきい値より大きい場合、しきい値比較部９０２から出力される出力フラグＦ_ｉはＦ_ｉ＝１（ピークが有効であることを示す）となる。ピーク値がしきい値より小さい場合、しきい値比較部９０２から出力される出力フラグＦ_ｉはＦ_ｉ＝０（ピークが無効であることを示す）となり、この場合、サブフレーム時間遅延Ｄ_ｉをフレーム時間遅延推定において使用しない。

図１１に示した符号化装置においては、時間調整部１１０３は、ピーク追跡部１１０１により算出される時間遅延が正、すなわち、右チャンネル信号Ｒ（ｎ）が左チャンネル信号Ｌ（ｎ）より遅れている場合、右チャンネル信号Ｒ（ｎ）の位相を調整する。時間調整部１１０２は、ピーク追跡部１１０１により算出される時間遅延が負、すなわち左チャンネル信号Ｌ（ｎ）が右チャンネル信号Ｒ（ｎ）より遅れている場合、Ｌ（ｎ）の位相を調整する。なお、時間調整部１１０３は、時間調整部４０２と同様の処理を行うので、その
説明を省略する。また、モノラル符号化部１１０４は、モノラル符号化部４０３と同様の処理を行うので、その説明を省略する。また、副信号符号化部１１０５は、副信号符号化部４０４と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部１１０６は、時間遅延符号化部４０５と同様の処理を行うので、その説明を省略する。また、多重化部１１０７は、多重化部４０６と同様の処理を行うので、その説明を省略する。

（バリエーション４）
サブフレームの数をフレームごとに可変にする。サブフレームの数は、モノラル符号化
部から得られるピッチ周期に応じて決定する。

図１７は、本発明の実施の形態２に係る符号化装置の構成を示すブロック図であり、この符号化装置は、図４に示した実施の形態１の符号化装置と大部分が同じである。図１７
において、時間遅延推定部１７０１は、ピーク追跡方式を適用して時間遅延を推定する符号化方式以外の符号化方式により時間遅延を推定する。また、ピーク追跡部１７０２は、時間遅延推定部１７０１において算出された時間遅延の有効性を確認する。

ピーク追跡部１９０３、１９０４、１９０５は、ピーク追跡を適用し、サブフレーム時間遅延（Ｄ_０〜Ｄ_Ｎ−１）を得る。時間遅延有効性確認部１９０６は、これらのサブフレ
ーム時間遅延（Ｄ_０〜Ｄ_Ｎ−１）を使用して、フレーム時間遅延Ｄの有効性を確認する。時間遅延有効性確認部１９０６は、所定の値を超えるサブフレーム時間遅延の数がＭ（Ｍは、所定の値、または信号特性に従って適応的に導くことができる）より大きい場合、Ｄは無効であると判定し、この場合には前のフレームの時間遅延を出力する。また、時間遅延有効性確認部１９０６は、所定の値を超えるサブフレーム時間遅延の数がＭ以下の場合、Ｄを有効とみなし、現在のフレームからのＤを出力する。

（実施の形態４）
本実施の形態では、ピーク追跡方法ではない２つの時間遅延推定方法を使用して、２つ
の異なる時間遅延を導く。一方の方法は入力時間遅延を瞬時的に追跡できるのに対し、他方の方法は入力時間遅延を安定的に追跡する。また、スイッチモジュールにおける有効性確認方法としてピーク追跡を使用する。

図２５は、本実施の形態の符号化装置の構成を示すブロック図である。この符号化装置は、図２２に示した実施の形態４の符号化装置と大部分が同じである。なお、図２５において、図４、図２０及び図２２と同一構成である部分には同一番号を付して、その説明を省略する。各時間遅延推定部２５０１、２５０２、２５０３は、複数の各々異なる方法からＫ（Ｋ＞＝２）個の時間遅延を導く。導いた時間遅延は、その符号に応じて左信号また
は右信号の調整に用いることができる。

Claims

右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定するピーク追跡手段と、
前記フレーム時間遅延に基づいて前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行う時間調整手段と、
前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とを符号化する符号化手段と、
を具備するステレオ音響信号符号化装置。
前記ピーク追跡手段は、前記サブフレームのサブフレーム時間遅延を求めるとともに、各フレームにおいて、前記フレーム時間遅延と前記サブフレーム時間遅延との差が所定の値以上である前記サブフレームの数がしきい値以上の場合に、推定した前記フレーム時間遅延を無効にする請求項１記載のステレオ音響信号符号化装置。
前記ピーク追跡手段は、前記ピークの値がしきい値より小さい前記サブフレームの前記ピークを除いて前記フレーム時間遅延を推定する請求項１記載のステレオ音響信号符号化装置。
前記ピーク追跡手段において推定した前記フレーム時間遅延とは異なる手法により前記フレームの時間遅延を推定する時間遅延推定手段をさらに具備し、
前記ピーク追跡手段は、前記サブフレームのサブフレーム時間遅延を求めるとともに、各フレームにおいて、前記時間遅延推定手段において推定した時間遅延と前記サブフレーム時間遅延との差が所定の値以上である前記サブフレームの数がしきい値未満の場合に、前記フレーム時間遅延の代わりに前記時間遅延推定手段において推定した時間遅延を出力する請求項１記載のステレオ音響信号符号化装置。
前記時間調整手段は、前記フレーム時間遅延に基づいて、前記右チャンネル信号と前記左チャンネル信号の双方の時間調整を行い、
前記符号化手段は、時間調整した前記左チャンネル信号及び前記右チャンネル信号と、前記フレーム時間遅延とを符号化する請求項１記載のステレオ音響信号符号化装置。
右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定し、前記フレーム時間遅延に基づいて、前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うとともに、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とが符号化されて多重化されたビットストリームを前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とに分離する分離手段と、
分離した前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とを復号する復号手段と、
分離した前記フレーム時間遅延に基づいて、前記右チャンネル信号に対して前記時間調整を行う前の時間に復元する時間復元手段と、
を具備するステレオ音響信号復号装置。
右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定するステップと、
前記フレーム時間遅延に基づいて前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うステップと、
前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とを符号化するステップと、
を具備するステレオ音響信号符号化方法。
右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定し、前記フレーム時間遅延に基づいて、前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うとともに、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とが符号化されて多重化されたビットストリームを前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とに分離するステップと、
分離した前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とを復号するステップと、
分離した前記フレーム時間遅延に基づいて、前記右チャンネル信号に対して前記時間調整を行う前の時間に復元する時間復元ステップと、
を具備するステレオ音響信号復号方法。