本発明は、ステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法に関する。
世界的にブロードバンドの方向に進むにつれて、通信システムに対する利用者の期待が、単なる明瞭性からステレオ感や自然性へと高まっており、傾向としてステレオ音響信号が提供されるようになっている。結果として、ステレオ音響信号を蓄積および送信するための効果的な符号化方式が望まれている。
ステレオ符号化方式としては、例えば、AMR−WB+(Extended adaptive multi-rate - Wideband)のように、「ミッドサイド(和差)」(以下「M/S」と記載する)を採用して、ステレオ信号に含まれているステレオの冗長性を利用するステレオ符号化が多数存在している(例えば、非特許文献1)。
M/Sステレオ符号化では、多くの場合、2つのチャンネルの相関がかなり高くなることから、2つの信号(左チャンネル信号と右チャンネル信号)の和と差を算出する。この結果、2つの信号の冗長性が取り除かれ、その後に和(モノラルまたはミッド)信号および差(副またはサイド)信号が符号化される。これにより、信号エネルギーの大きいモノラル信号に対して、信号エネルギーの小さい副信号よりも(相対的に)多くのビットを割り当てることができ、高品質なステレオ音響信号を実現することができる。
ステレオ音響信号の冗長性を利用するM/S方法における問題は、2つの成分の位相がずれている(一方が他方に対して時間的に遅れている)場合、M/S符号化のメリットが消失することである。実際のオーディオ信号においては、時間遅延は頻繁に生じるため、これは根本的な問題である。また、ステレオ信号を聴いたときに知覚される立体感は、(特に低周波数における)左チャンネル信号と右チャンネル信号との間の時間差によるところが大きい。
この問題を解決するため、非特許文献2では、位相をそろえた(time-aligned)信号成分に基づく、適応M/Sステレオ符号化方法が提案されている。
図1は、ステレオ信号のための適応M/Sステレオ符号化方法の原理に基づく符号化装置の構成を示すブロック図である。
図1に示した符号化装置における符号化処理においては、時間遅延推定部101は、ステレオ信号の左チャンネルL(n)と右チャンネルR(n)の間の時間遅延に対応する時間遅延Dを、(1)式のように、時間領域相互相関手法(time domain cross correlation technique)を使用して推定する。
(1)式において、[a,b]は所定の範囲であり、Nはフレームサイズである。
時間遅延符号化部105は、時間遅延Dを符号化し、多重化部106は、符号化パラメータを多重化してビットストリームを形成する。
次に、時間調整部102は、右チャンネル信号R(n)を時間遅延Dに従って調整する(aligned)。調整された右チャンネル信号をRa(n)と表す。
調整された信号成分に対して、(2)式のようにダウンミックスを行い、モノラル信号M(n)と副信号S(n)を求める。
(2)式から、時間的に調整された信号を(3)式に従って生成することができる。
モノラル符号化部103は、モノラル信号M(n)を符号化し、副信号符号化部104は、副信号S(n)を符号化する。多重化部106は、モノラル符号化部103および副信号符号化部104の両方から入力した符号化パラメータを多重化してビットストリームを形成する。
図2は、ステレオ信号のための適応M/Sステレオ符号化方法の原理に基づく復号装置の構成を示すブロック図である。
図2に示した復号処理においては、分離部201は、すべての符号化パラメータおよび量子化パラメータをビットストリームから分離する。具体的には、モノラル復号部202は、モノラル信号の符号化パラメータを復号して復号モノラル信号を得る。また、副信号復号部203は、副信号の符号化パラメータを復号して復号副信号を得る。また、時間遅延復号部204は、符号化された時間遅延を復号して復号時間遅延Dを得る。
次に、復号されたモノラル信号および副信号を使用し、(4)式に従ってステレオ信号を生成する。
時間復元部205は、復号された時間遅延Dを用いて、時間復元部205の入力信号の位相を逆方向に調整する(de-aligning)ことにより、時間復元部205の出力信号を得る。
非特許文献2における方法では、入力信号に単一音源を想定すれば良好に機能するが、複数の音源が存在する場合(例えば、複数の話し手による音声、複数の異なる楽器による音楽、または背景雑音のある音声や音楽など)には良好に機能しない。
複数の音源が存在する場合、相互相関方法によって算出される時間遅延が正しく求められなくなることにより、信号の品質劣化を生じ得る。最悪の場合、ステレオ感が不安定になる。非特許文献2によると、いくつかのテストにおいてステレオ感が不安定であったことも報告されている。
ここで、単一音源の場合において、この音源の信号がs
1(n)であるとする。このとき、ステレオ信号は(5)式のように表すことができる。
(5)式から、左チャンネル録音装置および右チャンネル録音装置の両方において背景雑音を無視できるとすると、ステレオ信号は(6)式のように表すことができる。
この場合、R(n)は、L(n)を用いて(7)式のように表すことができる。
(7)式から、単一音源の場合、背景雑音を無視できるならば、ステレオ信号の一方のチャンネル(例えばR(n))は、他方のチャンネル(L(n))を遅延および減衰させたものと考えることができ、したがって、適応M/S符号化方法が効果的に機能すると言える。
一方、複数の音源が存在する場合、M個の音源が存在し、各音源の信号をs
1(n)〜s
M(n)と表すものとする。この場合、ステレオ信号は(8)式のように表すことができる。
(8)式から、左チャンネル録音装置および右チャンネル録音装置の両方において背景雑音を無視できるとすると、ステレオ信号は(9)式のように表すことができる。
(9)式から、複数の音源が存在する場合には単一音源の場合とは異なり、たとえ背景雑音を無視できる場合でも、ステレオ信号の一方のチャンネル(例えば右チャンネルR(n))を、他方のチャンネル(左チャンネルL(n))を遅延および減衰させたものと考えることはできない。したがって、適応M/S符号化方法は、複数の音源が存在する場合に対しては有効ではないと言える。
本発明の目的は、ピーク情報のみを利用するので、相互相関を利用する従来の時間推定方法、または時間から周波数への変換を利用する従来の時間推定方法と比較して、処理演算量を極めて少なくすることができるステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法を提供することである。
本発明のステレオ音響信号符号化装置は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定するピーク追跡手段と、前記フレーム時間遅延に基づいて前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行う時間調整手段と、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とを符号化する符号化手段と、を具備する構成を採る。
本発明のステレオ音響信号復号装置は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定し、前記フレーム時間遅延に基づいて、前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うとともに、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とが符号化されて多重化されたビットストリームを前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とに分離する分離手段と、分離した前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とを復号する復号手段と、分離した前記フレーム時間遅延に基づいて、前記右チャンネル信号に対して前記時間調整を行う前の時間に復元する時間復元手段と、を具備する構成を採る。
本発明のステレオ音響信号符号化方法は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定するステップと、前記フレーム時間遅延に基づいて前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うステップと、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とを符号化するステップと、を具備するようにした。
本発明のステレオ音響信号復号方法は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定し、前記フレーム時間遅延に基づいて、前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うとともに、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とが符号化されて多重化されたビットストリームを前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とに分離するステップと、分離した前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とを復号するステップと、分離した前記フレーム時間遅延に基づいて、前記右チャンネル信号に対して前記時間調整を行う前の時間に復元する時間復元ステップと、を具備するようにした。
本発明によれば、ピーク情報のみを利用するので、相互相関を利用する従来の時間推定方法、または時間から周波数への変換を利用する従来の時間推定方法と比較して、処理演算量を極めて少なくすることができる。
従来の符号化装置の構成を示すブロック図
従来の復号装置の構成を示すブロック図
excL(n)のパターンがexcR(n)のパターンとは異なる一例を説明する図
本発明の実施の形態1に係る符号化装置の構成を示すブロック図
本発明の実施の形態1に係る復号装置の構成を示すブロック図
本発明の実施の形態1に係るピーク追跡部の構成を示すブロック図
本発明の実施の形態1に係るピーク追跡部の構成を示すブロック図
本発明の実施の形態1に係るピーク追跡部の処理の詳細を説明する図
本発明の実施の形態1に係る無効ピーク破棄部の構成を示すブロック図
本発明の実施の形態1に係る無効ピーク破棄部の動作を説明するための図
本発明の実施の形態1に係る符号化装置の変形例を示すブロック図
本発明の実施の形態1に係る復号装置の構成の変形例を示すブロック図
本発明の実施の形態1に係る符号化装置の構成の変形例を示すブロック図
本発明の実施の形態1に係る符号化装置の構成の変形例を示すブロック図
本発明の実施の形態1に係るピーク追跡部の構成の変形例を示すブロック図
本発明の実施の形態1に係るピーク追跡部の構成の変形例を示すブロック図
本発明の実施の形態2に係る符号化装置の構成を示すブロック図
本発明の実施の形態2に係るピーク追跡部の構成を示すブロック図
本発明の実施の形態2に係るピーク追跡部の構成の変形例を示すブロック図
本発明の実施の形態3に係る符号化装置の構成を示すブロック図
本発明の実施の形態3に係るスイッチの構成を示すブロック図
本発明の実施の形態4に係る符号化装置の構成を示すブロック図
本発明の実施の形態4に係るスイッチの構成を示すブロック図
本発明の実施の形態4に係るスイッチの構成の他の例を示すブロック図
本発明の実施の形態5に係る符号化装置の構成を示すブロック図
本発明の実施の形態5に係るスイッチの構成を示すブロック図
本発明の実施の形態5に係る時間遅延選択部の構成を示すブロック図
本発明は、ピーク追跡(Peak Tracking)方法に関するものである。ピーク追跡は、ステレオ入力信号の波形特性を利用して左チャンネル信号と右チャンネル信号との間の時間遅延を推定する方法である。さらに、ピーク追跡は、相互相関方法またはその他の時間遅延推定方法から導かれる時間遅延の有効性を確認する目的に使用することもできる。
発話音声は、時変励起信号によって時変性の発声機構(time-varying vocal tract system)が励起された結果出力される信号としてモデル化できる。一般に、発声機構を励起する重要な形態は、声帯の振動(声門振動(glottal vibration)と称する)である。声門振動によって生成される励起信号はインパルス列で近似することができる。
単一音源の場合、「発明が解決しようとする課題」において示したように、背景雑音を無視できれば、ステレオ信号の一方のチャンネル(例えば右チャンネル信号R(n))は、他方のチャンネル(左チャンネル信号L(n))を遅延および減衰させた信号とみなすことができる。
したがって、右チャンネル信号R(n)の時変励起信号(第一のインパルス列とする)は、左チャンネル信号L(n)の時変励起信号(第二のインパルス列とする)が遅延および減衰した信号と考えることができる。
上記の原理に基づき、ピーク追跡方法では、第一のインパルス列と第二のインパルス列における対応するパルスの位置を比較することによって時間遅延を推定する。
しかしながら、複数音源のほとんどの場合、「発明が解決しようとする課題」において示したように、ステレオ信号の一方のチャンネル(例えばR(n))を、他方のチャンネル(L(n))を遅延および減衰させた信号とみなすことはできない。このことを図3を用いて詳細に説明する。
ここで、同時に話す2人の話し手が存在する場合を考える。2つの信号をs
1(n)およびs
2(n)と表し、それらの励起信号をexc
1(n)およびexc
2(n)と表す。この場合、ステレオ信号は(10)式のように表すことができる。
左チャンネル励起信号exc
L(n)および右チャンネル励起信号exc
R(n)は、第1話者の励起信号exc
1(n)および第2話者の励起信号exc
2(n)を用いて(11)式のように表すことができる。
一般的に、(11)式において、excL(n)のパターンはexcR(n)のパターンと異なるものになる。励起信号をインパルス列とみなし、インパルスの大きさを無視すると、図3を用いて次のように説明できる。
図3は、excL(n)のパターンがexcR(n)のパターンとは異なる一例を示している。各図の内容は次のとおりである。
図3(a)は、exc1(n)のパターンを示している。
図3(b)は、exc2(n)のパターンを示している。
図3(c)は、exc1(n−DL1)とexc2(n−DL2)を混合した信号の様子を示している(説明を分かりやすくするため、ここでは、exc1(n−DL1)のパルスが立つパルス位置とexc2(n−DL2)のパルスが立つパルス位置は同一であるとする)。
図3(d)は、exc1(n−DR1)とexc2(n−DR2)を混合した信号の様子を示している。
図3(e)は、最終的に得られる左チャンネル励振信号excL(n)の様子を示している(exc1(n−DL1)のパルスが立つパルス位置とexc2(n−DL2)のパルスが立つパルス位置は同一であるため、ここではexc2(n−DL2)のパルスのみ表記している)。
図3(f)は、最終的に得られる右チャンネル励振信号excR(n)の様子を示している。
これらの図から、複数音源の場合においては、excL(n)のパターン(図3(e))がexcR(n)のパターン(図3(f))と全く異なったものになり得ることが分かる。このような複数音源環境で入力された2つのチャネルの信号に対して非特許文献2に示されるような従来技術を適用しても、求められる時間遅延は無効であり、復号信号の音質劣化の原因となる。このような場合、本発明で開示するピーク追跡方法は、時間遅延をゼロまたは前のフレームから導かれた時間遅延に設定することにより、無効な時間遅延を破棄する。ピーク追跡方法を用いて無効な時間遅延を破棄することにより、音質劣化を回避することができる。ここで、無効な時間遅延に対してゼロを設定するか前のフレームから導かれる時間遅延を設定するかは、入力信号の特性によって決定することができる。例えば、入力信号のステレオ感が大きく変化していない場合、時間遅延を前のフレームから導かれた時間遅延に設定する。一方、入力信号のステレオ感が大きく変化している場合、時間遅延をゼロに設定する。
複数音源であっても、単一音源とみなしてよい場合もある。例えば、異なる信号源であるにも関わらず左チャンネル信号と右チャンネル信号との間の時間遅延が同じである場合や、複数音源のうち1つの音源のみが優勢である場合などを挙げることができる。このような場合、ピーク追跡は、単一音源シナリオの場合と同じ原理を用いて、時間遅延を推定する。
以下に、本発明における各実施の形態について説明する。当業者は、本発明の範囲から逸脱することなく、本発明を修正および適合化することができる。
(実施の形態1)
図4は、ピーク追跡方式を適用して時間遅延を推定する符号化装置の構成を示すブロック図である。また、図5は、ピーク追跡方式を適用して時間遅延を推定する復号装置の構成を示すブロック図である。
図4に示した符号化処理においては、ピーク追跡部401は、ステレオ信号の左チャンネル信号L(n)と右チャンネル信号R(n)の間の時間遅延に対応する時間遅延Dを、ピーク追跡方式を使用して推定する。
時間遅延符号化部405は、時間遅延Dを符号化し、多重化部406は、符号化パラメータを多重化してビットストリームを形成する。
時間調整部402は、右チャンネル信号R(n)を時間遅延Dに従って調整する。時間的に調整された右チャンネル信号をRa(n)と表す。
時間的に調整された信号に対して、(12)式に従ってダウンミックスを行う。
(12)式から、時間的に調整された信号を、次の(13)式に従って生成することができる。
時間的に調整された信号を、(14)式に従ってダウンミックスすることも可能である。
(14)式から、時間的に調整された信号を、(15)式に従って生成することができる。
モノラル符号化部403は、モノラル信号M(n)を符号化し、副信号符号化部404は、副信号S(n)を符号化する。多重化部406は、モノラル符号化部403および副信号符号化部404の両方から入力した符号化パラメータを多重化してビットストリームを形成する。
図5に示した復号処理においては、分離部501は、ビットストリームから、すべての符号化パラメータおよび量子化パラメータを分離する。モノラル復号部502は、モノラル信号の符号化パラメータを復号して復号モノラル信号を得る。副信号復号部503は、副信号の符号化パラメータを復号して復号副信号を得る。時間遅延復号部504は、符号化された時間遅延を復号してDを得る。
復号されたモノラル信号および副信号を使用し、(16)式に従って、ステレオ信号を生成する。
また、次の(17)式に従ってダウンミックスを行う場合には(18)式にしたがってアップミックスを行う。
時間復元部505は、復号された時間遅延Dによって時間復元部505の入力信号の位相を逆方向に調整することによって、時間復元部505の出力信号を生成する。
図6は、ピーク追跡部401の構成を示すブロック図であり、ピーク追跡方法の原理を示している。フレーム分割部601は、フレーム毎に入力される左チャンネル信号L(n)および右チャンネル信号R(n)の入力フレームを複数のサブフレームに分割する。ここでサブフレームの数をNとする。
ピーク追跡部602、603、604は、各サブフレームに対してピーク追跡を適用し、サブフレーム時間遅延(D0〜DN−1)を得る。フレーム遅延推定部605は、これらのサブフレーム時間遅延(D0〜DN−1)を使用して、フレーム時間遅延Dを推定する。
フレーム時間遅延を推定する方法の1つは、次のようにサブフレームにおける時間遅延の平均を計算することである。
別の方法としては、フレーム時間遅延を、出現回数が最大のサブフレーム時間遅延に等しいものとする方法が挙げられる。例えば、サブフレーム時間遅延(D
0〜D
N−1)のうち、1つの時間遅延のみが2であり、残りの時間遅延すべてが0である場合には、フレーム時間遅延として0を選択する(D=0)。なお、次式で示すように、DをD
iの中央値としても良い。
なお、フレーム時間遅延推定方法は、上記の2つの例に限定されない。
次いで、時間遅延有効性確認部606は、フレーム時間遅延Dの有効性を確認する。
時間遅延有効性確認部606は、時間遅延Dと各サブフレーム時間遅延とを比較し、その差が所定の範囲を超えるサブフレーム数をカウントする。時間遅延有効性確認部606は、所定の範囲を超えるサブフレーム数が、しきい値Mを超える場合、時間遅延Dを無効とみなす。ここで、しきい値Mは所定の値、または信号特性に従って適応的に算出される値として定義される。時間遅延有効性確認部606は、時間遅延が有効である場合、現在のフレームで算出された時間遅延を出力する。一方、時間遅延有効性確認部606は、時間遅延が有効ではない場合(無効の場合)、前のフレームの時間遅延を出力する。なお、時間遅延が無効の場合、現在のフレームで算出された時間遅延の代わりに、ゼロ値(この場合、左チャンネル信号L(n)と右チャンネル信号R(n)の位相差は無いとみなされる)、または過去数フレームの時間遅延の平均値などを用いても良い。また、これらの値をフレーム毎に切替えて出力しても良い。
図7は、ピーク追跡部602、603、604の構成を示すブロック図であり、各サブフレームに適用されるピーク追跡の詳しいステップを示している。例としてサブフレームiの場合を説明する。
サブフレームiの入力信号Li(n)は、L(n)のi番目のサブフレームの入力信号であり、サブフレームiの入力信号Ri(n)は、R(n)のi番目のサブフレームの入力信号である。また、出力信号Diは、i番目のサブフレームのサブフレーム時間遅延である。
ピーク分析部701は、サブフレームの入力Li(n)およびRi(n)のピークの位置を求める。無効ピーク破棄部702は、そのピークが有効であるかを示すインジケータFiを出力する。ピークが有効である場合、ピーク位置比較部703は、2つのチャンネルのピークの位置を比較し、サブフレーム時間遅延Diを出力する。
図8は、ピーク分析部701の処理の詳細を説明する図である。
まず、ピーク追跡部602、603、604は、処理の前に、L(n)およびR(n)の絶対値を算出する。
また、ピーク追跡部602、603、604は、絶対値|L(n)|および|R(n)|を、N個のサブフレームに分割する。図8には、例として3個のサブフレームを示してある。ピーク追跡部602、603、604は、各サブフレームにおいて、最大値の位置を見つける(P
L(0)〜P
L(N−1)、P
R(0)〜P
R(N−1))。次いで、ピーク追跡部602、603、604は、ピーク値の位置の差によって、サブフレーム時間遅延(D
0〜D
N−1)を推定する。サブフレームiを例にとると、次のように時間遅延D
iを推定する。
図9は、無効ピーク破棄部702の構成を示すブロック図である。
いくつかのサブフレームにおいて励起インパルスが存在しないことがあり、その場合、そのサブフレームで特定されるピークは励起インパルスに対応していない。この場合においては、サブフレームから導かれる時間遅延は適切な時間遅延ではない。
無効ピーク破棄部702は、このような時間遅延がフレーム時間遅延推定において使用されないようにする。
サブフレームにおけるピークが励起インパルスに対応しているか否かを確認する方法の1つは、ピークの値を所定のしきい値と比較することである。このしきい値は、前のフレームからのピーク値、または同じフレーム内の別のサブフレームにおけるピーク値から決定することができる。
図9において、ピーク値抽出部901は、サブフレームの入力Li(n)およびRi(n)と、ピーク位置PL(i)およびPR(i)とを使用して、ピーク値|L(PL(i))|および|R(PR(i))|を得る。次に、しきい値比較部902は、これらの2つのピーク値を所定のしきい値と比較する。ピーク値がしきい値より大きい場合、しきい値比較部902から出力される出力フラグFiはFi=1(ピークが有効であることを示す)となる。ピーク値がしきい値より小さい場合、しきい値比較部902から出力される出力フラグFiはFi=0(ピークが無効であることを示す)となり、この場合、サブフレーム時間遅延Diをフレーム時間遅延推定において使用しない。
図10は、無効ピーク破棄部702の動作を説明するための図である。
この図においては、2番目のサブフレームに励起インパルスが存在しないため、2番目のサブフレーム(サブフレームインデックスは1)におけるピーク値は、他のサブフレームにおけるピーク値と比較して非常に小さい。したがって、無効ピーク破棄部702により、2番目のサブフレームのサブフレーム時間遅延を破棄する。
本実施の形態によれば、ステレオ入力信号フレームを複数のサブフレームに分割し、各サブフレームにおいてピークの位置を求める。また、ピークの位置を比較して、推定されるサブフレーム時間遅延を求める。さらに、複数のサブフレーム時間遅延を使用して、最終的な推定時間遅延を求める。このようなピーク追跡は、入力信号の波形特性を利用する信号依存の方法であり、有効かつ正確な時間遅延推定方法である。従って、本実施の形態によれば、ピーク追跡はピーク情報のみを利用するので、相互相関を利用する従来の時間推定方法、または時間から周波数への変換を利用する従来の時間推定方法に比べて、処理演算量を極めて少なくすることができる。
また、本実施の形態によれば、無効なピークを破棄する処理を追加する。無効なピークの破棄とは、サブフレームにおいて求められるピークが必ず励起インパルスに対応するように、ピークの値を所定のしきい値と比較することにより行われる。所定のしきい値と比べてピークの値が小さいときに、そのピークは破棄される。従って、無効なピークを破棄することにより、励起インパルスに対応するピークのみがフレーム時間遅延推定において使用される。これにより、より正確な時間遅延を求めることができる。
なお、本実施の形態において、右チャンネル信号を時間調整したが、本実施の形態はこれに限らず、左チャンネル信号を時間調整しても良い。また、本実施の形態における変形例として、以下のバリエーション1〜バリエーション6が考えられる。
(バリエーション1)
時間遅延は、時間遅延の符号に応じて、左チャンネル信号または右チャンネル信号のどちらに対しても調整することができる。
図11は、本実施の形態の符号化装置の構成の変形例1を示すブロック図であり、図12は、本実施の形態の復号装置の構成の変形例1を示すブロック図である。このコーデックは、本実施の形態において提案する符号化装置(図4)および復号装置(図5)とは別の構成を有している。
図11に示した符号化装置においては、時間調整部1103は、ピーク追跡部1101により算出される時間遅延が正、すなわち、右チャンネル信号R(n)が左チャンネル信号L(n)より遅れている場合、右チャンネル信号R(n)の位相を調整する。時間調整部1102は、ピーク追跡部1101により算出される時間遅延が負、すなわち左チャンネル信号L(n)が右チャンネル信号R(n)より遅れている場合、L(n)の位相を調整する。なお、時間調整部1103は、時間調整部402と同様の処理を行うので、その説明を省略する。また、モノラル符号化部1104は、モノラル符号化部403と同様の処理を行うので、その説明を省略する。また、副信号符号化部1105は、副信号符号化部404と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部1106は、時間遅延符号化部405と同様の処理を行うので、その説明を省略する。また、多重化部1107は、多重化部406と同様の処理を行うので、その説明を省略する。
図12に示した復号装置においては、時間復元部1206は、復号された時間遅延が正である場合、右チャンネル信号R(n)の位相を逆方向に調整する。時間復元部1205は、復号された時間遅延が負である場合、左チャンネル信号L(n)の位相を逆方向に調整する。なお、分離部1201は、分離部501と同様の処理を行うので、その説明を省略する。また、モノラル復号部1202は、モノラル復号部502と同様の処理を行うので、その説明を省略する。また、副信号復号部1203は、副信号復号部503と同様の処理を行うので、その説明を省略する。また、時間遅延復号部1204は、時間遅延復号部504と同様の処理を行うので、その説明を省略する。
本バリエーションによる効果は以下の通りである。まず、ステレオ信号は次のように表すことができる。
ここで、DLとDRの関係には、「DL>DR」と「DL=DR」と「DL<DR」の3つの場合がある。
DL=DRである場合、2つのチャンネル信号の間の時間遅延は0である。
DL>DRである場合、左チャンネル信号L(n)が右チャンネル信号R(n)より遅れているため、左チャンネル信号L(n)を調整する。
DL<DRである場合、右チャンネル信号R(n)が左チャンネル信号L(n)より遅れているため、右チャンネル信号R(n)を調整する。
したがって、本バリエーションを適用することによって、入力信号の時間遅延に従って柔軟に右チャンネル信号および左チャンネル信号の時間遅延を調整することができる。
(バリエーション2)
ピーク追跡部にて時間遅延Dを算出する前に、左チャンネル信号L(n)および右チャンネル信号R(n)に対して線形予測処理を行う。
図13は、本実施の形態の符号化装置の構成の変形例2を示すブロック図である。
図13に示した符号化装置においては、線形予測(LP)分析部1301、1304は、左チャンネル信号L(n)および右チャンネル信号R(n)の各々に対して線形予測処理を行う。ピーク追跡部1305は、線形予測(LP)逆フィルタ部1302、1303より求められる残差信号resL(n)およびresR(n)を使用して時間遅延を推定する。
なお、ピーク追跡部1305は、ピーク追跡部401と同様の処理を行うので、その説明を省略する。また、時間調整部1306は、時間調整部402と同様の処理を行うので、その説明を省略する。また、モノラル符号化部1307は、モノラル符号化部403と同様の処理を行うので、その説明を省略する。また、副信号符号化部1308は、副信号符号化部404と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部1309は、時間遅延符号化部405と同様の処理を行うので、その説明を省略する。また、多重化部1310は、多重化部406と同様の処理を行うので、その説明を省略する。また、復号装置については、図5に記載の復号装置と同じであるので、その説明を省略する。
この構成により、線形予測係数(LP係数)を使用して、入力信号から線形予測残差を導き、線形予測によって、信号のサンプル間の相関が除去され、大きな励起の瞬間付近における大きな振幅変動を得られる。したがって、線形予測残差によってピークの位置を良好に検出することができる。
(バリエーション3)
ピーク追跡部から時間遅延を推定する前に、左チャンネル信号L(n)および右チャンネル信号R(n)を低域通過フィルタによって処理する。
図14は、本実施の形態の符号化装置の構成の変形例3を示すブロック図である。
図14に示した符号化装置においては、左チャンネル信号L(n)および右チャンネル信号R(n)を低域通過フィルタ1401、1402に通して処理する。ピーク追跡部1403は、左チャンネル信号の低域通過フィルタ1401の出力信号LLF(n)および右チャンネル信号の低域通過フィルタ1402の出力信号RLF(n)を使用して時間遅延を推定する。
なお、ピーク追跡部1403は、ピーク追跡部401と同様の処理を行うので、その説明を省略する。また、時間調整部1404は、時間調整部402と同様の処理を行うので、その説明を省略する。また、モノラル符号化部1405は、モノラル符号化部403と同様の処理を行うので、その説明を省略する。また、副信号符号化部1406は、副信号符号化部404と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部1407は、時間遅延符号化部405と同様の処理を行うので、その説明を省略する。また、多重化部1408は、多重化部406と同様の処理を行うので、その説明を省略する。また、復号装置については、図5に記載の復号装置と同じであるので、その説明を省略する。
この構成により、低周波信号においてはピークの位置を良好に検出することができる。
(バリエーション4)
サブフレームの数をフレームごとに可変にする。サブフレームの数は、モノラル符号化部から得られるピッチ周期に応じて決定する。
図15は、本実施の形態のピーク追跡部の構成の変形例1を示すブロック図である。
図15に示した符号化装置においては、適応フレーム分割部1501は、左チャンネル信号L(n) および右チャンネル信号R(n)を、可変数のサブフレームに分割する。サブフレームの数は、モノラル符号化部からの前フレームのピッチ周期によって決定する。なお、ピーク追跡部1502、1503は、ピーク追跡部602、603、604と同様の処理を行うので、その説明を省略する。また、フレーム遅延推定部1504は、フレーム遅延推定部605と同様の処理を行うので、その説明を省略する。また、時間遅延有効性確認部1505は、時間遅延有効性確認部606と同様の処理を行うので、その説明を省略する。
従って、モノラル符号器から得られるピッチ周期を利用することによって、ピッチ周期に同期したサブフレームからピッチの位置をより正確に検出することができるため、時間遅延を良好に推定することができる。
(バリエーション5)
サブフレームの境界をフレームごとに可変にする。サブフレームの境界は、モノラル符号化装置から得られるピッチ周期に応じて定義する。
図16は、本実施の形態のピーク追跡部の構成の変形例2を示すブロック図である。
図16に示したピーク追跡部においては、適応フレーム分割部1601は、左チャンネル信号L(n)および右チャンネル信号R(n)を、複数のサブフレームに分割する。サブフレームの数は、モノラル符号化部からの前フレームのピッチ周期によって決定する。なお、ピーク追跡部1602、1603、1604は、ピーク追跡部602、603、604と同様の処理を行うので、その説明を省略する。また、フレーム遅延推定部1605は、フレーム遅延推定部605と同様の処理を行うので、その説明を省略する。また、時間遅延有効性確認部1606は、時間遅延有効性確認部606と同様の処理を行うので、その説明を省略する。
これより、モノラル符号化器から得られるピッチ周期を利用することによって、ピッチ周期に同期したサブフレームからピッチの位置をより正確に検出することができるため、時間遅延を良好に推定することができる。
(バリエーション6)
複数のサブフレーム長を定義し、サブフレーム長の設定それぞれにおいてピーク追跡を並列に実行する。各サブフレーム長においてピーク追跡から得られるすべての時間遅延Dによって、時間遅延Dを決定する。
これより、複数のサブフレーム長を利用することによって、時間遅延をより良好に推定することができる。
(実施の形態2)
ピーク追跡方法は、別の時間遅延推定方法(例えば、相互相関方法)から導かれる時間遅延の有効性を確認する目的にも使用することができる。
図17は、本発明の実施の形態2に係る符号化装置の構成を示すブロック図であり、この符号化装置は、図4に示した実施の形態1の符号化装置と大部分が同じである。図17において、時間遅延推定部1701は、ピーク追跡方式を適用して時間遅延を推定する符号化方式以外の符号化方式により時間遅延を推定する。また、ピーク追跡部1702は、時間遅延推定部1701において算出された時間遅延の有効性を確認する。
図18は、時間遅延推定部1701で算出された時間遅延の有効性の確認にピーク追跡部1702を適用した際のピーク追跡部1702の構成を示すブロック図である。
はじめに、フレーム分割部1801は、左チャンネル信号L(n)および右チャンネル信号R(n)の入力フレームを複数のサブフレームに分割する。サブフレームの数をNと表す。
次に、ピーク追跡部1802、1803、1804は、N個のサブフレームのサブフレーム時間遅延(D0〜DN−1)を得る。時間遅延有効性確認部1805は、これらのサブフレーム時間遅延(D0〜DN−1)を使用して、時間遅延推定部1701で算出されたフレーム時間遅延Dの有効性を確認する。なお、時間調整部1703は、時間調整部402と同様の処理を行うので、その説明を省略する。また、モノラル符号化部1704は、モノラル符号化部403と同様の処理を行うので、その説明を省略する。また、副信号符号化部1705は、副信号符号化部404と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部1706は、時間遅延符号化部405と同様の処理を行うので、その説明を省略する。また、多重化部1707は、多重化部406と同様の処理を行うので、その説明を省略する。
時間遅延有効性確認部1805は、時間遅延推定部1701で算出された時間遅延Dと各サブフレーム時間遅延(D0〜DN−1)とを比較し、その差が所定の範囲を超えるサブフレーム数をカウントする。所定の範囲を超えるサブフレーム数が、しきい値Mを超える場合、時間遅延有効性確認部1805は、時間遅延推定部1701で算出された時間遅延Dを無効とみなす。ここで、しきい値Mは所定の値、または信号特性に従って適応的に算出される値として定義される。
時間遅延Dが無効と判断された場合、時間遅延有効性確認部1805は、前のフレームの時間遅延を出力する。一方、時間遅延有効性確認部1805は、時間遅延Dが有効と判断された場合、時間遅延推定部1701で算出された時間遅延Dを出力する。なお、時間遅延が無効と判断された場合、現在のフレームで算出された時間遅延の代わりに、ゼロ値(この場合、左チャンネル信号L(n)と右チャンネル信号R(n)の位相差は無いとみなされる)、または過去数フレームの時間遅延の平均値などを用いても良い。また、これらの値をフレーム毎に切替えて出力しても良い。
<実施の形態2の変形例>
本実施の形態の変形例では、L(n)およびR(n)を、複数のサブフレームに分割する前に、導かれた時間遅延Dに従って調整する。
図19は、本実施の形態のピーク追跡部の構成の変形例を示すブロック図である。
図19において、調整部1901は、入力信号L(n)およびR(n)を、導かれた時間遅延Dに従って調整する(図19において、一例としてR(n)を調整する)。フレーム分割部1902は、調整された信号L(n)およびRa(n)を複数のサブフレームに分割する。ここで、サブフレームの数をNと表す。
ピーク追跡部1903、1904、1905は、ピーク追跡を適用し、サブフレーム時間遅延(D0〜DN−1)を得る。時間遅延有効性確認部1906は、これらのサブフレーム時間遅延(D0〜DN−1)を使用して、フレーム時間遅延Dの有効性を確認する。時間遅延有効性確認部1906は、所定の値を超えるサブフレーム時間遅延の数がM(Mは、所定の値、または信号特性に従って適応的に導くことができる)より大きい場合、Dは無効であると判定し、この場合には前のフレームの時間遅延を出力する。また、時間遅延有効性確認部1906は、所定の値を超えるサブフレーム時間遅延の数がM以下の場合、Dを有効とみなし、現在のフレームからのDを出力する。
本実施の形態によれば、ステレオ入力信号フレームを複数のサブフレームに分割し、各サブフレームにおいてピークの位置を求める。ピークの位置を比較して、推定されるサブフレーム時間遅延を求める。複数のサブフレーム時間遅延を使用して別の時間遅延推定方法にて算出された時間遅延の有効性を確認する。有効であると確認されればそのまま使用し、有効で無いと判断された場合にはその時間遅延を破棄する。従って、本実施の形態によれば、上記の実施の形態1の効果に加えて、複数音源環境において、入力信号のステレオ感を歪ませることなく、単一音源環境用の別の時間遅延推定方法の有効性を維持することができる。また、本実施の形態によれば、ピーク追跡方法を別の時間遅延推定方法と組み合わせることによって、ステレオ入力間の時間遅延をより正確に導くことができる。また、この時、ピーク追跡によって元の方法の処理演算量が大幅に増加することはない。また、入力信号L(n)およびR(n)を、導かれた時間遅延Dに従って調整する場合には、対応するピーク(例えば、L(n)におけるPL(1)、R(n)におけるPR(1))が2つの異なるサブフレームに分割されることを回避することができる。また、入力信号L(n)およびR(n)を、導かれた時間遅延Dに従って調整する場合には、時間遅延を考慮する必要がないため、フレーム分割部の実装が極めて容易である。
(実施の形態3)
本実施の形態では、2つの異なる時間遅延を導く。一方の時間遅延は、時間遅延を瞬時的に追跡するピーク追跡方法によって導く。他方の時間遅延は、より安定的に時間遅延を追跡する別の時間遅延推定方法(例えば、非特許文献3に紹介されている低域通過相互相関方法(low-passed cross correlation method))によって導く。ピーク追跡方法とそれ以外の方法との間で、最終的な時間遅延を選択する。
図20は、本実施の形態の符号化装置の構成を示すブロック図である。図20に示した符号化装置は、図4に示した実施の形態1の符号化装置と大部分が同じである。なお、図20において、図4と同一構成の部分については同一符号を付して、その説明を省略する。ピーク追跡部2002は、ピーク追跡方法によって時間遅延D’を推定し、別の時間遅延推定部2001は、別の時間遅延推定方法によって時間遅延D’’を導く。スイッチ2003は、D’とD’’のうちの良好な方の時間遅延を選択して出力する。
図21は、スイッチ2003の構成を示すブロック図である。遅延有効性確認部2101は、図6の時間遅延有効性確認部606において適用した時間遅延有効性確認方法と同様の方法によって時間遅延D’を確認する。そして、遅延有効性確認部2101は、時間遅延D’が有効である場合、最終時間遅延Dとして時間遅延D’を出力する。また、遅延有効性確認部2101は、時間遅延D’が無効である場合、最終時間遅延DとしてD’’を出力する。
本実施の形態によれば、入力時間遅延を瞬時的に追跡するピーク追跡方法と、入力時間遅延を安定的に追跡する別の時間遅延推定方法との間で時間遅延を選択することによって、高速かつ安定的な時間遅延推定を達成することができる。
(実施の形態4)
本実施の形態では、ピーク追跡方法ではない2つの時間遅延推定方法を使用して、2つの異なる時間遅延を導く。一方の方法は入力時間遅延を瞬時的に追跡できるのに対し、他方の方法は入力時間遅延を安定的に追跡する。また、スイッチモジュールにおける有効性確認方法としてピーク追跡を使用する。
図22は、本実施の形態の符号化装置を示すブロック図である。本実施の形態の符号化装置は、図20の符号化装置と大部分が同じである。なお、図22において、図4及び図20と同一構成である部分については同一番号を付して、その説明を省略する。時間遅延推定部2202は、ピーク追跡方法ではなく別の時間遅延推定方法によって時間遅延D’を推定する。
この符号化装置においては、時間遅延推定部2202は、時間遅延を瞬時的に追跡できる方法である。1つの例は、単一フレーム相互相関方法である。相互相関係数は、現在のフレームのみにおいて導く。最大の相互相関係数を見つけて、対応する時間遅延を得る。
時間遅延推定部2201は、時間遅延をゆっくりではあるが安定的に更新する方法である。1つの例は、非特許文献3に紹介されている低域通過相互相関方法であり、相互相関係数を現在のフレームおよび過去のフレームに基づいて計算する。低域通過相互相関方法では、最大の相互相関係数を見つけて、対応する時間遅延を得る。したがって、導かれる時間遅延は、入力時間遅延を極めて安定的に追跡する。スイッチ2203は、D’とD’’のうちの良好な方の時間遅延を選択して出力する。
図23は、スイッチ2203の構成を示すブロック図である。ピーク追跡部2301は、ピーク追跡方法(実施の形態2における図18または図19の場合と同じである)によって時間遅延D’を確認する。ピーク追跡部2301は、時間遅延D’が有効である場合、最終時間遅延DとしてD’を出力する。また、ピーク追跡部2301は、時間遅延D’が無効である場合、最終時間遅延DとしてD’’を出力する。
図24は、本実施の形態のスイッチの構成の他の例を示すブロック図である。ピーク追跡部2401は、時間遅延D’および時間遅延D’’の両方をピーク追跡方法(実施の形態2における図18または図19の場合と同じである)によって確認する。ピーク追跡部2401は、2つの時間遅延の一方が有効である場合、その有効な時間遅延を最終時間遅延Dとして出力する。また、ピーク追跡部2401は、2つの時間遅延の両方が有効である場合、ピーク追跡方法により適合する方の時間遅延を最終時間遅延として出力する。また、ピーク追跡部2401は、2つの時間遅延のいずれも有効ではない場合、前のフレームの時間遅延を最終時間遅延として出力する。
本実施の形態によれば、入力時間遅延を瞬時的に追跡する1つの時間遅延推定方法と、入力時間遅延を安定的に追跡する別の時間遅延推定方法との間で時間遅延を選択することによって、高速かつ安定的な時間遅延推定を達成することができる。
(実施の形態5)
本実施の形態では、複数の異なる方法によって複数の時間遅延を導く。また、本実施の形態では、スイッチモジュールにおける有効性確認方法としてピーク追跡を使用し、時間遅延候補のうち最良の時間遅延を選択する。
図25は、本実施の形態の符号化装置の構成を示すブロック図である。この符号化装置は、図22に示した実施の形態4の符号化装置と大部分が同じである。なお、図25において、図4、図20及び図22と同一構成である部分には同一番号を付して、その説明を省略する。各時間遅延推定部2501、2502、2503は、複数の各々異なる方法からK(K>=2)個の時間遅延を導く。導いた時間遅延は、その符号に応じて左信号または右信号の調整に用いることができる。
この符号化装置においては、時間遅延推定部2501、2502、2503は、推定特性が異なるものであることが推奨される。
時間遅延推定部2501は、時間遅延を最も瞬時的に追跡できる方法により時間遅延を得る。時間遅延を最も瞬時的に追跡できる方法の1つの例は、単一フレーム相互相関方法である。単一フレーム相互相関方法は、相互相関係数を現在のフレームのみにおいて導く。そして、単一フレーム相互相関方法は、最大の相互相関係数を見つけて、対応する時間遅延を得る。
時間遅延推定部2503は、時間遅延をゆっくりではあるが安定的に更新する方法により時間遅延を得る。時間遅延をゆっくりではあるが安定的に更新する方法の1つの例は、非特許文献3に紹介されている低域通過相互相関方法である。低域通過相互相関方法は、相互相関係数を現在のフレームおよび過去のフレームに基づいて計算する。そして、低域通過相互相関方法は、最大の相互相関係数を見つけて、対応する時間遅延を得る。したがって、導かれる時間遅延は、入力時間遅延を極めて安定的に追跡する。スイッチ2504は、時間遅延候補D1〜DKのうちの最良の時間遅延を選択して出力する。調整部2505は、スイッチ2504により選択した時間遅延を用いて、その符号に応じて左信号または右信号の調整を行う。例えば、調整部2505は、時間遅延が正である場合は左信号を調整し、時間遅延が負である場合は右信号を調整する。
図26は、スイッチ2504の構成を示すブロック図である。例として時間遅延Dkを用いる。調整部2601は、入力信号L(n)およびR(n)を、導かれた時間遅延Dkに従って調整する。フレーム分割部2602は、調整された信号Lka(n)およびRka(n)を複数のサブフレームに分割する。サブフレームの数をNと表す。
各サブフレームに、ピーク追跡(ピーク分析部2603、2606、2609、無効ピーク破棄部2604、2608、2611、およびピーク位置比較部2605、2607、2610を用いる)を適用し、サブフレームピーク差|PLk(0)−PRk(0)|〜|PLk(N−1)−PRk(N−1)|を得る。加算部2612は、これらのサブフレームピーク差を合計する。
図27は、時間遅延選択部2701の構成を示すブロック図である。
時間遅延選択部2701は、時間遅延D
1〜時間遅延D
Kのサブフレームピーク差の合計を入力し、(23)式に従って時間遅延を選択することができる。
なお、基準は上記のみに限定されず、別の基準も可能である。
本実施の形態によれば、複数の時間遅延推定方法の間で最良の時間遅延候補を選択することによって、時間遅延を良好に推定することができる。
以上の説明は本発明の好適な実施の形態の例証であり、本発明の範囲はこれに限定されることはない。本発明は、ステレオ音響信号符号化装置またはステレオ音響信号復号装置を有するシステムであればどのような場合にも適用することができる。
また、本発明に係るステレオ音響信号符号化装置およびステレオ音響信号復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能である。これにより、上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶し、情報処理手段によってプログラムを実行させることにより、本発明に係るステレオ音響信号符号化装置等と同様の機能を実現することができる。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2009年1月22日出願の特願2009−12407の日本出願、及び2009年2月20日出願の特願2009−38646の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明にかかるステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法は、特にステレオ音響信号を蓄積および送信するのに好適である。
本発明は、ステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法に関する。
世界的にブロードバンドの方向に進むにつれて、通信システムに対する利用者の期待が、単なる明瞭性からステレオ感や自然性へと高まっており、傾向としてステレオ音響信号が提供されるようになっている。結果として、ステレオ音響信号を蓄積および送信するための効果的な符号化方式が望まれている。
ステレオ符号化方式としては、例えば、AMR−WB+(Extended adaptive multi-rate - Wideband)のように、「ミッドサイド(和差)」(以下「M/S」と記載する)を採用して、ステレオ信号に含まれているステレオの冗長性を利用するステレオ符号化が多数存在している(例えば、非特許文献1)。
M/Sステレオ符号化では、多くの場合、2つのチャンネルの相関がかなり高くなることから、2つの信号(左チャンネル信号と右チャンネル信号)の和と差を算出する。この結果、2つの信号の冗長性が取り除かれ、その後に和(モノラルまたはミッド)信号および差(副またはサイド)信号が符号化される。これにより、信号エネルギーの大きいモノラル信号に対して、信号エネルギーの小さい副信号よりも(相対的に)多くのビットを割り当てることができ、高品質なステレオ音響信号を実現することができる。
ステレオ音響信号の冗長性を利用するM/S方法における問題は、2つの成分の位相がずれている(一方が他方に対して時間的に遅れている)場合、M/S符号化のメリットが消失することである。実際のオーディオ信号においては、時間遅延は頻繁に生じるため、これは根本的な問題である。また、ステレオ信号を聴いたときに知覚される立体感は、(特に低周波数における)左チャンネル信号と右チャンネル信号との間の時間差によるところが大きい。
この問題を解決するため、非特許文献2では、位相をそろえた(time-aligned)信号成分に基づく、適応M/Sステレオ符号化方法が提案されている。
図1は、ステレオ信号のための適応M/Sステレオ符号化方法の原理に基づく符号化装置の構成を示すブロック図である。
図1に示した符号化装置における符号化処理においては、時間遅延推定部101は、ステレオ信号の左チャンネルL(n)と右チャンネルR(n)の間の時間遅延に対応する時間遅延Dを、(1)式のように、時間領域相互相関手法(time domain cross correlation technique)を使用して推定する。
(1)式において、[a,b]は所定の範囲であり、Nはフレームサイズである。
時間遅延符号化部105は、時間遅延Dを符号化し、多重化部106は、符号化パラメータを多重化してビットストリームを形成する。
次に、時間調整部102は、右チャンネル信号R(n)を時間遅延Dに従って調整する(aligned)。調整された右チャンネル信号をRa(n)と表す。
調整された信号成分に対して、(2)式のようにダウンミックスを行い、モノラル信号M(n)と副信号S(n)を求める。
(2)式から、時間的に調整された信号を(3)式に従って生成することができる。
モノラル符号化部103は、モノラル信号M(n)を符号化し、副信号符号化部104は、副信号S(n)を符号化する。多重化部106は、モノラル符号化部103および副信号符号化部104の両方から入力した符号化パラメータを多重化してビットストリームを形成する。
図2は、ステレオ信号のための適応M/Sステレオ符号化方法の原理に基づく復号装置の構成を示すブロック図である。
図2に示した復号処理においては、分離部201は、すべての符号化パラメータおよび量子化パラメータをビットストリームから分離する。具体的には、モノラル復号部202は、モノラル信号の符号化パラメータを復号して復号モノラル信号を得る。また、副信号復号部203は、副信号の符号化パラメータを復号して復号副信号を得る。また、時間遅延復号部204は、符号化された時間遅延を復号して復号時間遅延Dを得る。
次に、復号されたモノラル信号および副信号を使用し、(4)式に従ってステレオ信号を生成する。
時間復元部205は、復号された時間遅延Dを用いて、時間復元部205の入力信号の位相を逆方向に調整する(de-aligning)ことにより、時間復元部205の出力信号を得る。
非特許文献2における方法では、入力信号に単一音源を想定すれば良好に機能するが、複数の音源が存在する場合(例えば、複数の話し手による音声、複数の異なる楽器による音楽、または背景雑音のある音声や音楽など)には良好に機能しない。
複数の音源が存在する場合、相互相関方法によって算出される時間遅延が正しく求められなくなることにより、信号の品質劣化を生じ得る。最悪の場合、ステレオ感が不安定になる。非特許文献2によると、いくつかのテストにおいてステレオ感が不安定であったことも報告されている。
ここで、単一音源の場合において、この音源の信号がs
1(n)であるとする。このとき、ステレオ信号は(5)式のように表すことができる。
(5)式から、左チャンネル録音装置および右チャンネル録音装置の両方において背景雑音を無視できるとすると、ステレオ信号は(6)式のように表すことができる。
この場合、R(n)は、L(n)を用いて(7)式のように表すことができる。
(7)式から、単一音源の場合、背景雑音を無視できるならば、ステレオ信号の一方のチャンネル(例えばR(n))は、他方のチャンネル(L(n))を遅延および減衰させたものと考えることができ、したがって、適応M/S符号化方法が効果的に機能すると言える。
一方、複数の音源が存在する場合、M個の音源が存在し、各音源の信号をs
1(n)〜s
M(n)と表すものとする。この場合、ステレオ信号は(8)式のように表すことができる。
(8)式から、左チャンネル録音装置および右チャンネル録音装置の両方において背景雑音を無視できるとすると、ステレオ信号は(9)式のように表すことができる。
(9)式から、複数の音源が存在する場合には単一音源の場合とは異なり、たとえ背景雑音を無視できる場合でも、ステレオ信号の一方のチャンネル(例えば右チャンネルR(n))を、他方のチャンネル(左チャンネルL(n))を遅延および減衰させたものと考えることはできない。したがって、適応M/S符号化方法は、複数の音源が存在する場合に対しては有効ではないと言える。
本発明の目的は、ピーク情報のみを利用するので、相互相関を利用する従来の時間推定方法、または時間から周波数への変換を利用する従来の時間推定方法と比較して、処理演算量を極めて少なくすることができるステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法を提供することである。
本発明のステレオ音響信号符号化装置は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定するピーク追跡手段と、前記フレーム時間遅延に基づいて前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行う時間調整手段と、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とを符号化する符号化手段と、を具備する構成を採る。
本発明のステレオ音響信号復号装置は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び
前記左チャンネル信号の各フレームのフレーム時間遅延を推定し、前記フレーム時間遅延に基づいて、前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うとともに、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とが符号化されて多重化されたビットストリームを前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とに分離する分離手段と、分離した前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とを復号する復号手段と、分離した前記フレーム時間遅延に基づいて、前記右チャンネル信号に対して前記時間調整を行う前の時間に復元する時間復元手段と、を具備する構成を採る。
本発明のステレオ音響信号符号化方法は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定するステップと、前記フレーム時間遅延に基づいて前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うステップと、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とを符号化するステップと、を具備するようにした。
本発明のステレオ音響信号復号方法は、右チャンネル信号及び左チャンネル信号のフレームを複数のサブフレームに分割し、分割した前記サブフレームの波形のピークを検出するとともに、検出した前記ピークの位置を比較することにより前記右チャンネル信号及び前記左チャンネル信号の各フレームのフレーム時間遅延を推定し、前記フレーム時間遅延に基づいて、前記右チャンネル信号と前記左チャンネル信号の何れか一方の時間調整を行うとともに、前記右チャンネル信号と前記左チャンネル信号の何れか他方と、時間調整した前記右チャンネル信号と前記左チャンネル信号の何れか一方と、前記フレーム時間遅延とが符号化されて多重化されたビットストリームを前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とに分離するステップと、分離した前記右チャンネル信号と前記左チャンネル信号と前記フレーム時間遅延とを復号するステップと、分離した前記フレーム時間遅延に基づいて、前記右チャンネル信号に対して前記時間調整を行う前の時間に復元する時間復元ステップと、を具備するようにした。
本発明によれば、ピーク情報のみを利用するので、相互相関を利用する従来の時間推定方法、または時間から周波数への変換を利用する従来の時間推定方法と比較して、処理演算量を極めて少なくすることができる。
従来の符号化装置の構成を示すブロック図
従来の復号装置の構成を示すブロック図
excL(n)のパターンがexcR(n)のパターンとは異なる一例を説明する図
本発明の実施の形態1に係る符号化装置の構成を示すブロック図
本発明の実施の形態1に係る復号装置の構成を示すブロック図
本発明の実施の形態1に係るピーク追跡部の構成を示すブロック図
本発明の実施の形態1に係るピーク追跡部の構成を示すブロック図
本発明の実施の形態1に係るピーク追跡部の処理の詳細を説明する図
本発明の実施の形態1に係る無効ピーク破棄部の構成を示すブロック図
本発明の実施の形態1に係る無効ピーク破棄部の動作を説明するための図
本発明の実施の形態1に係る符号化装置の変形例を示すブロック図
本発明の実施の形態1に係る復号装置の構成の変形例を示すブロック図
本発明の実施の形態1に係る符号化装置の構成の変形例を示すブロック図
本発明の実施の形態1に係る符号化装置の構成の変形例を示すブロック図
本発明の実施の形態1に係るピーク追跡部の構成の変形例を示すブロック図
本発明の実施の形態1に係るピーク追跡部の構成の変形例を示すブロック図
本発明の実施の形態2に係る符号化装置の構成を示すブロック図
本発明の実施の形態2に係るピーク追跡部の構成を示すブロック図
本発明の実施の形態2に係るピーク追跡部の構成の変形例を示すブロック図
本発明の実施の形態3に係る符号化装置の構成を示すブロック図
本発明の実施の形態3に係るスイッチの構成を示すブロック図
本発明の実施の形態4に係る符号化装置の構成を示すブロック図
本発明の実施の形態4に係るスイッチの構成を示すブロック図
本発明の実施の形態4に係るスイッチの構成の他の例を示すブロック図
本発明の実施の形態5に係る符号化装置の構成を示すブロック図
本発明の実施の形態5に係るスイッチの構成を示すブロック図
本発明の実施の形態5に係る時間遅延選択部の構成を示すブロック図
本発明は、ピーク追跡(Peak Tracking)方法に関するものである。ピーク追跡は、ステレオ入力信号の波形特性を利用して左チャンネル信号と右チャンネル信号との間の時間遅延を推定する方法である。さらに、ピーク追跡は、相互相関方法またはその他の時間遅延推定方法から導かれる時間遅延の有効性を確認する目的に使用することもできる。
発話音声は、時変励起信号によって時変性の発声機構(time-varying vocal tract system)が励起された結果出力される信号としてモデル化できる。一般に、発声機構を励起する重要な形態は、声帯の振動(声門振動(glottal vibration)と称する)である。声門振動によって生成される励起信号はインパルス列で近似することができる。
単一音源の場合、「発明が解決しようとする課題」において示したように、背景雑音を無視できれば、ステレオ信号の一方のチャンネル(例えば右チャンネル信号R(n))は、他方のチャンネル(左チャンネル信号L(n))を遅延および減衰させた信号とみなすことができる。
したがって、右チャンネル信号R(n)の時変励起信号(第一のインパルス列とする)は、左チャンネル信号L(n)の時変励起信号(第二のインパルス列とする)が遅延および減衰した信号と考えることができる。
上記の原理に基づき、ピーク追跡方法では、第一のインパルス列と第二のインパルス列における対応するパルスの位置を比較することによって時間遅延を推定する。
しかしながら、複数音源のほとんどの場合、「発明が解決しようとする課題」において示したように、ステレオ信号の一方のチャンネル(例えばR(n))を、他方のチャンネル(L(n))を遅延および減衰させた信号とみなすことはできない。このことを図3を用いて詳細に説明する。
ここで、同時に話す2人の話し手が存在する場合を考える。2つの信号をs
1(n)およびs
2(n)と表し、それらの励起信号をexc
1(n)およびexc
2(n)と表す。この場合、ステレオ信号は(10)式のように表すことができる。
左チャンネル励起信号exc
L(n)および右チャンネル励起信号exc
R(n)は、第1話者の励起信号exc
1(n)および第2話者の励起信号exc
2(n)を用いて(11)式のように表すことができる。
一般的に、(11)式において、excL(n)のパターンはexcR(n)のパターンと異なるものになる。励起信号をインパルス列とみなし、インパルスの大きさを無視すると、図3を用いて次のように説明できる。
図3は、excL(n)のパターンがexcR(n)のパターンとは異なる一例を示している。各図の内容は次のとおりである。
図3(a)は、exc1(n)のパターンを示している。
図3(b)は、exc2(n)のパターンを示している。
図3(c)は、exc1(n−DL1)とexc2(n−DL2)を混合した信号の様子を示している(説明を分かりやすくするため、ここでは、exc1(n−DL1)のパルスが立つパルス位置とexc2(n−DL2)のパルスが立つパルス位置は同一であるとする)。
図3(d)は、exc1(n−DR1)とexc2(n−DR2)を混合した信号の様子を示している。
図3(e)は、最終的に得られる左チャンネル励振信号excL(n)の様子を示している(exc1(n−DL1)のパルスが立つパルス位置とexc2(n−DL2)のパルスが立つパルス位置は同一であるため、ここではexc2(n−DL2)のパルスのみ表記している)。
図3(f)は、最終的に得られる右チャンネル励振信号excR(n)の様子を示して
いる。
これらの図から、複数音源の場合においては、excL(n)のパターン(図3(e))がexcR(n)のパターン(図3(f))と全く異なったものになり得ることが分かる。このような複数音源環境で入力された2つのチャネルの信号に対して非特許文献2に示されるような従来技術を適用しても、求められる時間遅延は無効であり、復号信号の音質劣化の原因となる。このような場合、本発明で開示するピーク追跡方法は、時間遅延をゼロまたは前のフレームから導かれた時間遅延に設定することにより、無効な時間遅延を破棄する。ピーク追跡方法を用いて無効な時間遅延を破棄することにより、音質劣化を回避することができる。ここで、無効な時間遅延に対してゼロを設定するか前のフレームから導かれる時間遅延を設定するかは、入力信号の特性によって決定することができる。例えば、入力信号のステレオ感が大きく変化していない場合、時間遅延を前のフレームから導かれた時間遅延に設定する。一方、入力信号のステレオ感が大きく変化している場合、時間遅延をゼロに設定する。
複数音源であっても、単一音源とみなしてよい場合もある。例えば、異なる信号源であるにも関わらず左チャンネル信号と右チャンネル信号との間の時間遅延が同じである場合や、複数音源のうち1つの音源のみが優勢である場合などを挙げることができる。このような場合、ピーク追跡は、単一音源シナリオの場合と同じ原理を用いて、時間遅延を推定する。
以下に、本発明における各実施の形態について説明する。当業者は、本発明の範囲から逸脱することなく、本発明を修正および適合化することができる。
(実施の形態1)
図4は、ピーク追跡方式を適用して時間遅延を推定する符号化装置の構成を示すブロック図である。また、図5は、ピーク追跡方式を適用して時間遅延を推定する復号装置の構成を示すブロック図である。
図4に示した符号化処理においては、ピーク追跡部401は、ステレオ信号の左チャンネル信号L(n)と右チャンネル信号R(n)の間の時間遅延に対応する時間遅延Dを、ピーク追跡方式を使用して推定する。
時間遅延符号化部405は、時間遅延Dを符号化し、多重化部406は、符号化パラメータを多重化してビットストリームを形成する。
時間調整部402は、右チャンネル信号R(n)を時間遅延Dに従って調整する。時間的に調整された右チャンネル信号をRa(n)と表す。
時間的に調整された信号に対して、(12)式に従ってダウンミックスを行う。
(12)式から、時間的に調整された信号を、次の(13)式に従って生成することができる。
時間的に調整された信号を、(14)式に従ってダウンミックスすることも可能である。
(14)式から、時間的に調整された信号を、(15)式に従って生成することができる。
モノラル符号化部403は、モノラル信号M(n)を符号化し、副信号符号化部404は、副信号S(n)を符号化する。多重化部406は、モノラル符号化部403および副信号符号化部404の両方から入力した符号化パラメータを多重化してビットストリームを形成する。
図5に示した復号処理においては、分離部501は、ビットストリームから、すべての符号化パラメータおよび量子化パラメータを分離する。モノラル復号部502は、モノラル信号の符号化パラメータを復号して復号モノラル信号を得る。副信号復号部503は、副信号の符号化パラメータを復号して復号副信号を得る。時間遅延復号部504は、符号化された時間遅延を復号してDを得る。
復号されたモノラル信号および副信号を使用し、(16)式に従って、ステレオ信号を生成する。
また、次の(17)式に従ってダウンミックスを行う場合には(18)式にしたがってアップミックスを行う。
時間復元部505は、復号された時間遅延Dによって時間復元部505の入力信号の位相を逆方向に調整することによって、時間復元部505の出力信号を生成する。
図6は、ピーク追跡部401の構成を示すブロック図であり、ピーク追跡方法の原理を示している。フレーム分割部601は、フレーム毎に入力される左チャンネル信号L(n)および右チャンネル信号R(n)の入力フレームを複数のサブフレームに分割する。ここでサブフレームの数をNとする。
ピーク追跡部602、603、604は、各サブフレームに対してピーク追跡を適用し、サブフレーム時間遅延(D0〜DN−1)を得る。フレーム遅延推定部605は、これらのサブフレーム時間遅延(D0〜DN−1)を使用して、フレーム時間遅延Dを推定する。
フレーム時間遅延を推定する方法の1つは、次のようにサブフレームにおける時間遅延の平均を計算することである。
別の方法としては、フレーム時間遅延を、出現回数が最大のサブフレーム時間遅延に等しいものとする方法が挙げられる。例えば、サブフレーム時間遅延(D
0〜D
N−1)のうち、1つの時間遅延のみが2であり、残りの時間遅延すべてが0である場合には、フレーム時間遅延として0を選択する(D=0)。なお、次式で示すように、DをD
iの中央値としても良い。
なお、フレーム時間遅延推定方法は、上記の2つの例に限定されない。
次いで、時間遅延有効性確認部606は、フレーム時間遅延Dの有効性を確認する。
時間遅延有効性確認部606は、時間遅延Dと各サブフレーム時間遅延とを比較し、その差が所定の範囲を超えるサブフレーム数をカウントする。時間遅延有効性確認部606は、所定の範囲を超えるサブフレーム数が、しきい値Mを超える場合、時間遅延Dを無効とみなす。ここで、しきい値Mは所定の値、または信号特性に従って適応的に算出される値として定義される。時間遅延有効性確認部606は、時間遅延が有効である場合、現在のフレームで算出された時間遅延を出力する。一方、時間遅延有効性確認部606は、時間遅延が有効ではない場合(無効の場合)、前のフレームの時間遅延を出力する。なお、
時間遅延が無効の場合、現在のフレームで算出された時間遅延の代わりに、ゼロ値(この場合、左チャンネル信号L(n)と右チャンネル信号R(n)の位相差は無いとみなされる)、または過去数フレームの時間遅延の平均値などを用いても良い。また、これらの値をフレーム毎に切替えて出力しても良い。
図7は、ピーク追跡部602、603、604の構成を示すブロック図であり、各サブフレームに適用されるピーク追跡の詳しいステップを示している。例としてサブフレームiの場合を説明する。
サブフレームiの入力信号Li(n)は、L(n)のi番目のサブフレームの入力信号であり、サブフレームiの入力信号Ri(n)は、R(n)のi番目のサブフレームの入力信号である。また、出力信号Diは、i番目のサブフレームのサブフレーム時間遅延である。
ピーク分析部701は、サブフレームの入力Li(n)およびRi(n)のピークの位置を求める。無効ピーク破棄部702は、そのピークが有効であるかを示すインジケータFiを出力する。ピークが有効である場合、ピーク位置比較部703は、2つのチャンネルのピークの位置を比較し、サブフレーム時間遅延Diを出力する。
図8は、ピーク分析部701の処理の詳細を説明する図である。
まず、ピーク追跡部602、603、604は、処理の前に、L(n)およびR(n)の絶対値を算出する。
また、ピーク追跡部602、603、604は、絶対値|L(n)|および|R(n)|を、N個のサブフレームに分割する。図8には、例として3個のサブフレームを示してある。ピーク追跡部602、603、604は、各サブフレームにおいて、最大値の位置を見つける(P
L(0)〜P
L(N−1)、P
R(0)〜P
R(N−1))。次いで、ピーク追跡部602、603、604は、ピーク値の位置の差によって、サブフレーム時間遅延(D
0〜D
N−1)を推定する。サブフレームiを例にとると、次のように時間遅延D
iを推定する。
図9は、無効ピーク破棄部702の構成を示すブロック図である。
いくつかのサブフレームにおいて励起インパルスが存在しないことがあり、その場合、そのサブフレームで特定されるピークは励起インパルスに対応していない。この場合においては、サブフレームから導かれる時間遅延は適切な時間遅延ではない。
無効ピーク破棄部702は、このような時間遅延がフレーム時間遅延推定において使用されないようにする。
サブフレームにおけるピークが励起インパルスに対応しているか否かを確認する方法の1つは、ピークの値を所定のしきい値と比較することである。このしきい値は、前のフレームからのピーク値、または同じフレーム内の別のサブフレームにおけるピーク値から決定することができる。
図9において、ピーク値抽出部901は、サブフレームの入力Li(n)およびRi(
n)と、ピーク位置PL(i)およびPR(i)とを使用して、ピーク値|L(PL(i))|および|R(PR(i))|を得る。次に、しきい値比較部902は、これらの2つのピーク値を所定のしきい値と比較する。ピーク値がしきい値より大きい場合、しきい値比較部902から出力される出力フラグFiはFi=1(ピークが有効であることを示す)となる。ピーク値がしきい値より小さい場合、しきい値比較部902から出力される出力フラグFiはFi=0(ピークが無効であることを示す)となり、この場合、サブフレーム時間遅延Diをフレーム時間遅延推定において使用しない。
図10は、無効ピーク破棄部702の動作を説明するための図である。
この図においては、2番目のサブフレームに励起インパルスが存在しないため、2番目のサブフレーム(サブフレームインデックスは1)におけるピーク値は、他のサブフレームにおけるピーク値と比較して非常に小さい。したがって、無効ピーク破棄部702により、2番目のサブフレームのサブフレーム時間遅延を破棄する。
本実施の形態によれば、ステレオ入力信号フレームを複数のサブフレームに分割し、各サブフレームにおいてピークの位置を求める。また、ピークの位置を比較して、推定されるサブフレーム時間遅延を求める。さらに、複数のサブフレーム時間遅延を使用して、最終的な推定時間遅延を求める。このようなピーク追跡は、入力信号の波形特性を利用する信号依存の方法であり、有効かつ正確な時間遅延推定方法である。従って、本実施の形態によれば、ピーク追跡はピーク情報のみを利用するので、相互相関を利用する従来の時間推定方法、または時間から周波数への変換を利用する従来の時間推定方法に比べて、処理演算量を極めて少なくすることができる。
また、本実施の形態によれば、無効なピークを破棄する処理を追加する。無効なピークの破棄とは、サブフレームにおいて求められるピークが必ず励起インパルスに対応するように、ピークの値を所定のしきい値と比較することにより行われる。所定のしきい値と比べてピークの値が小さいときに、そのピークは破棄される。従って、無効なピークを破棄することにより、励起インパルスに対応するピークのみがフレーム時間遅延推定において使用される。これにより、より正確な時間遅延を求めることができる。
なお、本実施の形態において、右チャンネル信号を時間調整したが、本実施の形態はこれに限らず、左チャンネル信号を時間調整しても良い。また、本実施の形態における変形例として、以下のバリエーション1〜バリエーション6が考えられる。
(バリエーション1)
時間遅延は、時間遅延の符号に応じて、左チャンネル信号または右チャンネル信号のどちらに対しても調整することができる。
図11は、本実施の形態の符号化装置の構成の変形例1を示すブロック図であり、図12は、本実施の形態の復号装置の構成の変形例1を示すブロック図である。このコーデックは、本実施の形態において提案する符号化装置(図4)および復号装置(図5)とは別の構成を有している。
図11に示した符号化装置においては、時間調整部1103は、ピーク追跡部1101により算出される時間遅延が正、すなわち、右チャンネル信号R(n)が左チャンネル信号L(n)より遅れている場合、右チャンネル信号R(n)の位相を調整する。時間調整部1102は、ピーク追跡部1101により算出される時間遅延が負、すなわち左チャンネル信号L(n)が右チャンネル信号R(n)より遅れている場合、L(n)の位相を調整する。なお、時間調整部1103は、時間調整部402と同様の処理を行うので、その
説明を省略する。また、モノラル符号化部1104は、モノラル符号化部403と同様の処理を行うので、その説明を省略する。また、副信号符号化部1105は、副信号符号化部404と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部1106は、時間遅延符号化部405と同様の処理を行うので、その説明を省略する。また、多重化部1107は、多重化部406と同様の処理を行うので、その説明を省略する。
図12に示した復号装置においては、時間復元部1206は、復号された時間遅延が正である場合、右チャンネル信号R(n)の位相を逆方向に調整する。時間復元部1205は、復号された時間遅延が負である場合、左チャンネル信号L(n)の位相を逆方向に調整する。なお、分離部1201は、分離部501と同様の処理を行うので、その説明を省略する。また、モノラル復号部1202は、モノラル復号部502と同様の処理を行うので、その説明を省略する。また、副信号復号部1203は、副信号復号部503と同様の処理を行うので、その説明を省略する。また、時間遅延復号部1204は、時間遅延復号部504と同様の処理を行うので、その説明を省略する。
本バリエーションによる効果は以下の通りである。まず、ステレオ信号は次のように表すことができる。
ここで、DLとDRの関係には、「DL>DR」と「DL=DR」と「DL<DR」の3つの場合がある。
DL=DRである場合、2つのチャンネル信号の間の時間遅延は0である。
DL>DRである場合、左チャンネル信号L(n)が右チャンネル信号R(n)より遅れているため、左チャンネル信号L(n)を調整する。
DL<DRである場合、右チャンネル信号R(n)が左チャンネル信号L(n)より遅れているため、右チャンネル信号R(n)を調整する。
したがって、本バリエーションを適用することによって、入力信号の時間遅延に従って柔軟に右チャンネル信号および左チャンネル信号の時間遅延を調整することができる。
(バリエーション2)
ピーク追跡部にて時間遅延Dを算出する前に、左チャンネル信号L(n)および右チャンネル信号R(n)に対して線形予測処理を行う。
図13は、本実施の形態の符号化装置の構成の変形例2を示すブロック図である。
図13に示した符号化装置においては、線形予測(LP)分析部1301、1304は、左チャンネル信号L(n)および右チャンネル信号R(n)の各々に対して線形予測処理を行う。ピーク追跡部1305は、線形予測(LP)逆フィルタ部1302、1303より求められる残差信号resL(n)およびresR(n)を使用して時間遅延を推定する。
なお、ピーク追跡部1305は、ピーク追跡部401と同様の処理を行うので、その説明を省略する。また、時間調整部1306は、時間調整部402と同様の処理を行うので、その説明を省略する。また、モノラル符号化部1307は、モノラル符号化部403と同様の処理を行うので、その説明を省略する。また、副信号符号化部1308は、副信号符号化部404と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部1309は、時間遅延符号化部405と同様の処理を行うので、その説明を省略する。また、多重化部1310は、多重化部406と同様の処理を行うので、その説明を省略する。また、復号装置については、図5に記載の復号装置と同じであるので、その説明を省略する。
この構成により、線形予測係数(LP係数)を使用して、入力信号から線形予測残差を導き、線形予測によって、信号のサンプル間の相関が除去され、大きな励起の瞬間付近における大きな振幅変動を得られる。したがって、線形予測残差によってピークの位置を良好に検出することができる。
(バリエーション3)
ピーク追跡部から時間遅延を推定する前に、左チャンネル信号L(n)および右チャンネル信号R(n)を低域通過フィルタによって処理する。
図14は、本実施の形態の符号化装置の構成の変形例3を示すブロック図である。
図14に示した符号化装置においては、左チャンネル信号L(n)および右チャンネル信号R(n)を低域通過フィルタ1401、1402に通して処理する。ピーク追跡部1403は、左チャンネル信号の低域通過フィルタ1401の出力信号LLF(n)および右チャンネル信号の低域通過フィルタ1402の出力信号RLF(n)を使用して時間遅延を推定する。
なお、ピーク追跡部1403は、ピーク追跡部401と同様の処理を行うので、その説明を省略する。また、時間調整部1404は、時間調整部402と同様の処理を行うので、その説明を省略する。また、モノラル符号化部1405は、モノラル符号化部403と同様の処理を行うので、その説明を省略する。また、副信号符号化部1406は、副信号符号化部404と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部1407は、時間遅延符号化部405と同様の処理を行うので、その説明を省略する。また、多重化部1408は、多重化部406と同様の処理を行うので、その説明を省略する。また、復号装置については、図5に記載の復号装置と同じであるので、その説明を省略する。
この構成により、低周波信号においてはピークの位置を良好に検出することができる。
(バリエーション4)
サブフレームの数をフレームごとに可変にする。サブフレームの数は、モノラル符号化
部から得られるピッチ周期に応じて決定する。
図15は、本実施の形態のピーク追跡部の構成の変形例1を示すブロック図である。
図15に示した符号化装置においては、適応フレーム分割部1501は、左チャンネル信号L(n) および右チャンネル信号R(n)を、可変数のサブフレームに分割する。サブフレームの数は、モノラル符号化部からの前フレームのピッチ周期によって決定する。なお、ピーク追跡部1502、1503は、ピーク追跡部602、603、604と同様の処理を行うので、その説明を省略する。また、フレーム遅延推定部1504は、フレーム遅延推定部605と同様の処理を行うので、その説明を省略する。また、時間遅延有効性確認部1505は、時間遅延有効性確認部606と同様の処理を行うので、その説明を省略する。
従って、モノラル符号器から得られるピッチ周期を利用することによって、ピッチ周期に同期したサブフレームからピッチの位置をより正確に検出することができるため、時間遅延を良好に推定することができる。
(バリエーション5)
サブフレームの境界をフレームごとに可変にする。サブフレームの境界は、モノラル符号化装置から得られるピッチ周期に応じて定義する。
図16は、本実施の形態のピーク追跡部の構成の変形例2を示すブロック図である。
図16に示したピーク追跡部においては、適応フレーム分割部1601は、左チャンネル信号L(n)および右チャンネル信号R(n)を、複数のサブフレームに分割する。サブフレームの数は、モノラル符号化部からの前フレームのピッチ周期によって決定する。なお、ピーク追跡部1602、1603、1604は、ピーク追跡部602、603、604と同様の処理を行うので、その説明を省略する。また、フレーム遅延推定部1605は、フレーム遅延推定部605と同様の処理を行うので、その説明を省略する。また、時間遅延有効性確認部1606は、時間遅延有効性確認部606と同様の処理を行うので、その説明を省略する。
これより、モノラル符号化器から得られるピッチ周期を利用することによって、ピッチ周期に同期したサブフレームからピッチの位置をより正確に検出することができるため、時間遅延を良好に推定することができる。
(バリエーション6)
複数のサブフレーム長を定義し、サブフレーム長の設定それぞれにおいてピーク追跡を並列に実行する。各サブフレーム長においてピーク追跡から得られるすべての時間遅延Dによって、時間遅延Dを決定する。
これより、複数のサブフレーム長を利用することによって、時間遅延をより良好に推定することができる。
(実施の形態2)
ピーク追跡方法は、別の時間遅延推定方法(例えば、相互相関方法)から導かれる時間遅延の有効性を確認する目的にも使用することができる。
図17は、本発明の実施の形態2に係る符号化装置の構成を示すブロック図であり、この符号化装置は、図4に示した実施の形態1の符号化装置と大部分が同じである。図17
において、時間遅延推定部1701は、ピーク追跡方式を適用して時間遅延を推定する符号化方式以外の符号化方式により時間遅延を推定する。また、ピーク追跡部1702は、時間遅延推定部1701において算出された時間遅延の有効性を確認する。
図18は、時間遅延推定部1701で算出された時間遅延の有効性の確認にピーク追跡部1702を適用した際のピーク追跡部1702の構成を示すブロック図である。
はじめに、フレーム分割部1801は、左チャンネル信号L(n)および右チャンネル信号R(n)の入力フレームを複数のサブフレームに分割する。サブフレームの数をNと表す。
次に、ピーク追跡部1802、1803、1804は、N個のサブフレームのサブフレーム時間遅延(D0〜DN−1)を得る。時間遅延有効性確認部1805は、これらのサブフレーム時間遅延(D0〜DN−1)を使用して、時間遅延推定部1701で算出されたフレーム時間遅延Dの有効性を確認する。なお、時間調整部1703は、時間調整部402と同様の処理を行うので、その説明を省略する。また、モノラル符号化部1704は、モノラル符号化部403と同様の処理を行うので、その説明を省略する。また、副信号符号化部1705は、副信号符号化部404と同様の処理を行うので、その説明を省略する。また、時間遅延符号化部1706は、時間遅延符号化部405と同様の処理を行うので、その説明を省略する。また、多重化部1707は、多重化部406と同様の処理を行うので、その説明を省略する。
時間遅延有効性確認部1805は、時間遅延推定部1701で算出された時間遅延Dと各サブフレーム時間遅延(D0〜DN−1)とを比較し、その差が所定の範囲を超えるサブフレーム数をカウントする。所定の範囲を超えるサブフレーム数が、しきい値Mを超える場合、時間遅延有効性確認部1805は、時間遅延推定部1701で算出された時間遅延Dを無効とみなす。ここで、しきい値Mは所定の値、または信号特性に従って適応的に算出される値として定義される。
時間遅延Dが無効と判断された場合、時間遅延有効性確認部1805は、前のフレームの時間遅延を出力する。一方、時間遅延有効性確認部1805は、時間遅延Dが有効と判断された場合、時間遅延推定部1701で算出された時間遅延Dを出力する。なお、時間遅延が無効と判断された場合、現在のフレームで算出された時間遅延の代わりに、ゼロ値(この場合、左チャンネル信号L(n)と右チャンネル信号R(n)の位相差は無いとみなされる)、または過去数フレームの時間遅延の平均値などを用いても良い。また、これらの値をフレーム毎に切替えて出力しても良い。
<実施の形態2の変形例>
本実施の形態の変形例では、L(n)およびR(n)を、複数のサブフレームに分割する前に、導かれた時間遅延Dに従って調整する。
図19は、本実施の形態のピーク追跡部の構成の変形例を示すブロック図である。
図19において、調整部1901は、入力信号L(n)およびR(n)を、導かれた時間遅延Dに従って調整する(図19において、一例としてR(n)を調整する)。フレーム分割部1902は、調整された信号L(n)およびRa(n)を複数のサブフレームに分割する。ここで、サブフレームの数をNと表す。
ピーク追跡部1903、1904、1905は、ピーク追跡を適用し、サブフレーム時間遅延(D0〜DN−1)を得る。時間遅延有効性確認部1906は、これらのサブフレ
ーム時間遅延(D0〜DN−1)を使用して、フレーム時間遅延Dの有効性を確認する。時間遅延有効性確認部1906は、所定の値を超えるサブフレーム時間遅延の数がM(Mは、所定の値、または信号特性に従って適応的に導くことができる)より大きい場合、Dは無効であると判定し、この場合には前のフレームの時間遅延を出力する。また、時間遅延有効性確認部1906は、所定の値を超えるサブフレーム時間遅延の数がM以下の場合、Dを有効とみなし、現在のフレームからのDを出力する。
本実施の形態によれば、ステレオ入力信号フレームを複数のサブフレームに分割し、各サブフレームにおいてピークの位置を求める。ピークの位置を比較して、推定されるサブフレーム時間遅延を求める。複数のサブフレーム時間遅延を使用して別の時間遅延推定方法にて算出された時間遅延の有効性を確認する。有効であると確認されればそのまま使用し、有効で無いと判断された場合にはその時間遅延を破棄する。従って、本実施の形態によれば、上記の実施の形態1の効果に加えて、複数音源環境において、入力信号のステレオ感を歪ませることなく、単一音源環境用の別の時間遅延推定方法の有効性を維持することができる。また、本実施の形態によれば、ピーク追跡方法を別の時間遅延推定方法と組み合わせることによって、ステレオ入力間の時間遅延をより正確に導くことができる。また、この時、ピーク追跡によって元の方法の処理演算量が大幅に増加することはない。また、入力信号L(n)およびR(n)を、導かれた時間遅延Dに従って調整する場合には、対応するピーク(例えば、L(n)におけるPL(1)、R(n)におけるPR(1))が2つの異なるサブフレームに分割されることを回避することができる。また、入力信号L(n)およびR(n)を、導かれた時間遅延Dに従って調整する場合には、時間遅延を考慮する必要がないため、フレーム分割部の実装が極めて容易である。
(実施の形態3)
本実施の形態では、2つの異なる時間遅延を導く。一方の時間遅延は、時間遅延を瞬時的に追跡するピーク追跡方法によって導く。他方の時間遅延は、より安定的に時間遅延を追跡する別の時間遅延推定方法(例えば、非特許文献3に紹介されている低域通過相互相関方法(low-passed cross correlation method))によって導く。ピーク追跡方法とそれ以外の方法との間で、最終的な時間遅延を選択する。
図20は、本実施の形態の符号化装置の構成を示すブロック図である。図20に示した符号化装置は、図4に示した実施の形態1の符号化装置と大部分が同じである。なお、図20において、図4と同一構成の部分については同一符号を付して、その説明を省略する。ピーク追跡部2002は、ピーク追跡方法によって時間遅延D’を推定し、別の時間遅延推定部2001は、別の時間遅延推定方法によって時間遅延D’’を導く。スイッチ2003は、D’とD’’のうちの良好な方の時間遅延を選択して出力する。
図21は、スイッチ2003の構成を示すブロック図である。遅延有効性確認部2101は、図6の時間遅延有効性確認部606において適用した時間遅延有効性確認方法と同様の方法によって時間遅延D’を確認する。そして、遅延有効性確認部2101は、時間遅延D’が有効である場合、最終時間遅延Dとして時間遅延D’を出力する。また、遅延有効性確認部2101は、時間遅延D’が無効である場合、最終時間遅延DとしてD’’を出力する。
本実施の形態によれば、入力時間遅延を瞬時的に追跡するピーク追跡方法と、入力時間遅延を安定的に追跡する別の時間遅延推定方法との間で時間遅延を選択することによって、高速かつ安定的な時間遅延推定を達成することができる。
(実施の形態4)
本実施の形態では、ピーク追跡方法ではない2つの時間遅延推定方法を使用して、2つ
の異なる時間遅延を導く。一方の方法は入力時間遅延を瞬時的に追跡できるのに対し、他方の方法は入力時間遅延を安定的に追跡する。また、スイッチモジュールにおける有効性確認方法としてピーク追跡を使用する。
図22は、本実施の形態の符号化装置を示すブロック図である。本実施の形態の符号化装置は、図20の符号化装置と大部分が同じである。なお、図22において、図4及び図20と同一構成である部分については同一番号を付して、その説明を省略する。時間遅延推定部2202は、ピーク追跡方法ではなく別の時間遅延推定方法によって時間遅延D’を推定する。
この符号化装置においては、時間遅延推定部2202は、時間遅延を瞬時的に追跡できる方法である。1つの例は、単一フレーム相互相関方法である。相互相関係数は、現在のフレームのみにおいて導く。最大の相互相関係数を見つけて、対応する時間遅延を得る。
時間遅延推定部2201は、時間遅延をゆっくりではあるが安定的に更新する方法である。1つの例は、非特許文献3に紹介されている低域通過相互相関方法であり、相互相関係数を現在のフレームおよび過去のフレームに基づいて計算する。低域通過相互相関方法では、最大の相互相関係数を見つけて、対応する時間遅延を得る。したがって、導かれる時間遅延は、入力時間遅延を極めて安定的に追跡する。スイッチ2203は、D’とD’’のうちの良好な方の時間遅延を選択して出力する。
図23は、スイッチ2203の構成を示すブロック図である。ピーク追跡部2301は、ピーク追跡方法(実施の形態2における図18または図19の場合と同じである)によって時間遅延D’を確認する。ピーク追跡部2301は、時間遅延D’が有効である場合、最終時間遅延DとしてD’を出力する。また、ピーク追跡部2301は、時間遅延D’が無効である場合、最終時間遅延DとしてD’’を出力する。
図24は、本実施の形態のスイッチの構成の他の例を示すブロック図である。ピーク追跡部2401は、時間遅延D’および時間遅延D’’の両方をピーク追跡方法(実施の形態2における図18または図19の場合と同じである)によって確認する。ピーク追跡部2401は、2つの時間遅延の一方が有効である場合、その有効な時間遅延を最終時間遅延Dとして出力する。また、ピーク追跡部2401は、2つの時間遅延の両方が有効である場合、ピーク追跡方法により適合する方の時間遅延を最終時間遅延として出力する。また、ピーク追跡部2401は、2つの時間遅延のいずれも有効ではない場合、前のフレームの時間遅延を最終時間遅延として出力する。
本実施の形態によれば、入力時間遅延を瞬時的に追跡する1つの時間遅延推定方法と、入力時間遅延を安定的に追跡する別の時間遅延推定方法との間で時間遅延を選択することによって、高速かつ安定的な時間遅延推定を達成することができる。
(実施の形態5)
本実施の形態では、複数の異なる方法によって複数の時間遅延を導く。また、本実施の形態では、スイッチモジュールにおける有効性確認方法としてピーク追跡を使用し、時間遅延候補のうち最良の時間遅延を選択する。
図25は、本実施の形態の符号化装置の構成を示すブロック図である。この符号化装置は、図22に示した実施の形態4の符号化装置と大部分が同じである。なお、図25において、図4、図20及び図22と同一構成である部分には同一番号を付して、その説明を省略する。各時間遅延推定部2501、2502、2503は、複数の各々異なる方法からK(K>=2)個の時間遅延を導く。導いた時間遅延は、その符号に応じて左信号また
は右信号の調整に用いることができる。
この符号化装置においては、時間遅延推定部2501、2502、2503は、推定特性が異なるものであることが推奨される。
時間遅延推定部2501は、時間遅延を最も瞬時的に追跡できる方法により時間遅延を得る。時間遅延を最も瞬時的に追跡できる方法の1つの例は、単一フレーム相互相関方法である。単一フレーム相互相関方法は、相互相関係数を現在のフレームのみにおいて導く。そして、単一フレーム相互相関方法は、最大の相互相関係数を見つけて、対応する時間遅延を得る。
時間遅延推定部2503は、時間遅延をゆっくりではあるが安定的に更新する方法により時間遅延を得る。時間遅延をゆっくりではあるが安定的に更新する方法の1つの例は、非特許文献3に紹介されている低域通過相互相関方法である。低域通過相互相関方法は、相互相関係数を現在のフレームおよび過去のフレームに基づいて計算する。そして、低域通過相互相関方法は、最大の相互相関係数を見つけて、対応する時間遅延を得る。したがって、導かれる時間遅延は、入力時間遅延を極めて安定的に追跡する。スイッチ2504は、時間遅延候補D1〜DKのうちの最良の時間遅延を選択して出力する。調整部2505は、スイッチ2504により選択した時間遅延を用いて、その符号に応じて左信号または右信号の調整を行う。例えば、調整部2505は、時間遅延が正である場合は左信号を調整し、時間遅延が負である場合は右信号を調整する。
図26は、スイッチ2504の構成を示すブロック図である。例として時間遅延Dkを用いる。調整部2601は、入力信号L(n)およびR(n)を、導かれた時間遅延Dkに従って調整する。フレーム分割部2602は、調整された信号Lka(n)およびRka(n)を複数のサブフレームに分割する。サブフレームの数をNと表す。
各サブフレームに、ピーク追跡(ピーク分析部2603、2606、2609、無効ピーク破棄部2604、2608、2611、およびピーク位置比較部2605、2607、2610を用いる)を適用し、サブフレームピーク差|PLk(0)−PRk(0)|〜|PLk(N−1)−PRk(N−1)|を得る。加算部2612は、これらのサブフレームピーク差を合計する。
図27は、時間遅延選択部2701の構成を示すブロック図である。
時間遅延選択部2701は、時間遅延D
1〜時間遅延D
Kのサブフレームピーク差の合計を入力し、(23)式に従って時間遅延を選択することができる。
なお、基準は上記のみに限定されず、別の基準も可能である。
本実施の形態によれば、複数の時間遅延推定方法の間で最良の時間遅延候補を選択することによって、時間遅延を良好に推定することができる。
以上の説明は本発明の好適な実施の形態の例証であり、本発明の範囲はこれに限定されることはない。本発明は、ステレオ音響信号符号化装置またはステレオ音響信号復号装置を有するシステムであればどのような場合にも適用することができる。
また、本発明に係るステレオ音響信号符号化装置およびステレオ音響信号復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能である。これにより、上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶し、情報処理手段によってプログラムを実行させることにより、本発明に係るステレオ音響信号符号化装置等と同様の機能を実現することができる。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2009年1月22日出願の特願2009−12407の日本出願、及び2009年2月20日出願の特願2009−38646の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明にかかるステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法は、特にステレオ音響信号を蓄積および送信するのに好適である。