JPWO2007088853A1

JPWO2007088853A1 - 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Info

Publication number: JPWO2007088853A1
Application number: JP2007556867A
Authority: JP
Inventors: チュンオエイテオ
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2006-01-31
Filing date: 2007-01-30
Publication date: 2009-06-25
Also published as: WO2007088853A1; US20090018824A1

Abstract

スペクトル波形をモデル化し、スペクトル波形を正確に復元する音声符号化装置。この音声符号化装置では、ＦＦＴ部（１０４）が、駆動音源信号のスペクトル振幅にＦＦＴ処理を施してＦＦＴ変換係数を求め、第２スペクトル振幅算出部（１０５）が、ＦＦＴ変換係数の第２スペクトル振幅を算出する。ピークポイント位置特定部（１０６）が、第２スペクトル振幅のピークを上位Ｎ個について位置を特定し、係数選択部（１０７）が、特定した位置に対応するＦＦＴ変換係数を選択する。量子化部１０８が、選択されたＦＦＴ変換係数を量子化する。

Description

本発明は、音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法に関する。

音声信号のモノラル表現を符号化する音声コーデック（モノラルコーデック）は、現在の標準となっている。そのようなモノラルコーデックは、人の音声などの単一音源を想定する携帯電話やテレビ会議用機器などの通信機器で一般に使用されている。

従来、通信機器の送信帯域やＤＳＰの処理速度の制限のためモノラル信号でも十分な音質であったが、技術及び帯域の向上に伴い、これらの制限はなくなりつつあり、より高い音質が求められている。

モノラル音声の弱点の一つは、話し手のサウンドイメージ、または位置などの空間情報が得られないことである。このため、できるだけ低いビットレートでよりよい音声認識が得られるように良好なステレオ音質を実現することが要求されている。

ステレオ音声信号の符号化方法の一つに、信号予測または信号推定技術を用いる方法が知られている。具体的には、一つのチャネルを既知の音声符号化器で符号化し、他のチャネルの副次的情報を用いて、符号化したチャネルから他のチャネルを予測または推定するものである。

このような方法は、非特許文献１に記載のバイノーラル・キュー・コーディングの一部として、特許文献１に記載されており、基準チャネルを基準として一つのチャネルのレベルを調整するためにチャネル間のレベル差（ＩＬＤ）の計算に適用されている。

ところが、予測信号または推定信号は元の信号に比較してあまり正確ではないことが多い。このため、予測信号または推定信号を強調し、これらの信号を元の信号にできるだけ近づける必要がある。

ここで、オーディオ、音声信号は一般に周波数領域で処理される。この周波数領域データは、一般に変換領域における「スペクトル係数」と呼ばれる。したがって、上記のような予測および推定は、周波数領域で行われる。例えば、左および／または右チャネルのスペクトルデータからその副次情報の一部が抽出され、抽出された副次情報の一部をモノラルチャネルに適用することによって推定することができる（特許文献１参照）。

その他の方法として、例えば右チャネルから左チャネルを推定できるように、一つのチャネルを別のチャネルから推定する方法がある。このような推定は、オーディオ、音声処理においてスペクトルエネルギーまたはスペクトル振幅を推定することにより行われる。これは、スペクトルエネルギー予測またはスケーリングとも呼ばれる。

代表的なスペクトルエネルギー予測では、時間領域信号が周波数領域信号に変換される。この周波数領域信号は、通常、臨界帯域に従って周波数帯域に分割される。この分割は、基準チャネルおよび推定の対象となるチャネルの双方に対して行われる。そして、両チャネルの周波数帯域ごとにエネルギーを計算し、両チャネルのエネルギー比を用いてスケールファクタを計算する。このスケールファクタは受信機側に送信され、そこで基準チャネルは変換領域で推定信号が検索されるため、このスケールファクタを用いて周波数帯域ごとに拡大または縮小される。この後、周波数の逆変換を施して推定変換領域スペクトルデータに対応する時間領域信号を得る。

上述した非特許文献１に記載の方法では、周波数領域スペクトル係数は臨界帯域に分割され、各帯域のエネルギーおよびスケールファクタは、直接計算される。この先行技術による方法の基本概念は、同様に分割したときに元の信号のエネルギーとほぼ同じになるように各帯域のエネルギーを調整することである。
国際公開第０３／０９０２０８号パンフレット C. Faller and F. Baumgarte, "Binaural cue coding: A novel and efficient representation of spatial audio", Proc. ICASSP, Orlando, Florida, Oct. 2002.

しかしながら、上述した非特許文献１に記載の方法は容易に実現可能であり、各帯域のエネルギーは元の信号に近いが、さらに精密なスペクトル波形をモデル化することは不可能であり、通常、スペクトル波形の細部は元の信号とは異なる。

本発明の目的は、スペクトル波形をモデル化し、スペクトル波形を正確に復元する音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法を提供することである。

本発明の音声符号化装置は、第１入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、前記周波数領域信号の第１スペクトル振幅を算出する第１算出手段と、前記第１スペクトル振幅に周波数変換を施し、第２スペクトル振幅を算出する第２算出手段と、前記第２スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、特定された前記ピーク位置に該当する前記第２スペクトル振幅の変換係数を選択する選択手段と、選択された前記変換係数を量子化する量子化手段と、を具備する構成を採る。

本発明の音声復号装置は、入力信号に２回の周波数変換を施して得られた変換係数のうち、上位複数の量子化された変換係数を取得し、取得した変換係数を逆量子化する逆量子化手段と、前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、を具備する構成を採る。

本発明の音声符号化システムは、入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、前記周波数領域信号の第１スペクトル振幅を算出する第１算出手段と、前記第１スペクトル振幅に周波数変換を施し、第２スペクトル振幅を算出する第２算出手段と、前記第２スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、特定された前記ピーク位置に該当する前記第２スペクトル振幅の変換係数を選択する選択手段と、選択された前記変換係数を量子化する量子化手段と、を有する音声符号化装置と、量子化された前記変換係数を逆量子化する逆量子化手段と、前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、を具備する音声復号装置と、を具備する構成を採る。

本発明によれば、スペクトル波形をモデル化し、スペクトル波形を正確に復元することができる。

本発明の実施の形態１に係る音声信号用スペクトル振幅推定装置の構成を示すブロック図本発明の実施の形態１に係るスペクトル振幅推定復号装置の構成を示すブロック図定常信号のスペクトルを示す図非定常信号のスペクトルを示す図本発明の実施の形態１に係る音声符号化システムの構成を示すブロック図本発明の実施の形態２に係る残差信号推定装置の構成を示すブロック図本発明の実施の形態２に係る推定残差信号推定復号装置の構成を示すブロック図分割したサブフレームに係数を割り当てる様子を示す図本発明の実施の形態２に係るステレオ音声符号化システムの構成を示すブロック図

以下、本発明の実施の形態について、図面を参照して詳細に説明する。ただし、実施の形態において、同一の構成には同一の符号を付し、重複する説明は省略する。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声信号用スペクトル振幅推定装置１００の構成を示すブロック図である。このスペクトル振幅推定装置１００は、主として音声符号化装置に用いられる。この図において、ＦＦＴ（Fast Fourier Transform）部１０１は、駆動音源信号ｅを入力とし、駆動音源信号ｅを順方向周波数変換によって周波数領域信号に変換し、第１スペクトル振幅算出部１０２に出力する。なお、この入力信号は信号源のモノラル、左または右チャネルのいずれかが考えられる。

第１スペクトル振幅算出部１０２は、ＦＦＴ部１０１から出力された周波数領域における駆動音源信号ｅのスペクトル振幅Ａを算出し、算出したスペクトル振幅Ａを対数変換部１０３に出力する。

対数変換部１０３は、第１スペクトル振幅算出部１０２から出力されたスペクトル振幅Ａを対数目盛に変換し、ＦＦＴ部１０４に出力する。なお、対数目盛への変換は必須ではなく、対数目盛を使用しない場合には、これ以降の処理においてスペクトル振幅の絶対値を使用してもよい。

ＦＦＴ部１０４は、対数変換部１０３から出力された対数目盛のスペクトル振幅に対して、第２の順方向周波数変換を施すことによってスペクトル振幅の周波数表現（複素係数Ｃ_Ａ）を取得し、取得した複素係数Ｃ_Ａを第２スペクトル振幅算出部１０５及び係数選択部１０７に出力する。

第２スペクトル振幅算出部１０５は、ＦＦＴ部１０４から出力された複素係数Ｃ_Ａを用いて、スペクトル振幅Ａのスペクトル振幅Ａ_Ａを算出し、算出したスペクトル振幅Ａ_Ａをピークポイント位置特定部１０６に出力する。なお、ＦＦＴ部１０４及び第２スペクトル振幅算出部１０５を一つの算出手段として機能させてもよい。

ピークポイント位置特定部１０６は、第２スペクトル振幅算出部１０５から出力されたスペクトル振幅Ａ_Ａにおいて、１番目に高いピークからＮ番目に高いピークまでを検索すると共に、１〜Ｎ番目のピークの位置Ｐｏｓ_Ｎをそれぞれ検索する。検索された１〜Ｎ番目のピーク位置Ｐｏｓ_Ｎが係数選択部１０７に出力される。

係数選択部１０７は、ピークポイント位置特定部１０６から出力されたピーク位置Ｐｏｓ_Ｎに基づいて、ＦＦＴ部１０４から出力された複素係数Ｃ_ＡのうちＮ個を選択し、選択したＮ個の複素係数Ｃを量子化部１０８に出力する。

量子化部１０８は、係数選択部１０７から出力された複素係数Ｃをスカラー量子化方法又はベクター量子化方法によって量子化し、量子化係数Ｃ＾を出力する。

なお、量子化係数Ｃ＾およびピーク位置Ｐｏｓ_Ｎは後述する復号器側のスペクトル振幅推定復号装置に送信され、復号器側において再構成される。

図２は、本発明の実施の形態１に係るスペクトル振幅推定復号装置１５０の構成を示すブロック図である。このスペクトル振幅推定復号装置１５０は、主として音声復号装置に用いられる。この図において、逆量子化部１５１は、図１に示したスペクトル振幅推定装置１００から送信された量子化係数Ｃ＾を逆量子化して係数を取得し、取得した係数をスペクトル係数形成部１５２に出力する。

スペクトル係数形成部１５２は、逆量子化部１５１から出力された係数を図１に示したスペクトル振幅推定装置１００から送信されたピーク位置Ｐｏｓ_Ｎのそれぞれに配置し、残りの位置には係数０を配置する。これにより逆方向周波数変換に必要なスペクトル係数（複素係数）が形成される。なお、これらの係数のサンプル数は符号化器側の係数のサンプル数と同じである。例えば、スペクトル振幅Ａ_Ａの長さが６４サンプルでＮが２０の場合、係数は実数値、虚数値のいずれに対してもＰｏｓ_Ｎによって指定された２０箇所に配置され、残り４４箇所には係数０が配置される。このようにして形成されたスペクトル係数はＩＦＦＴ（Inverse Fast Fourier Transform）部１５３に出力される。

ＩＦＦＴ部１５３は、スペクトル係数形成部１５２から出力されたスペクトル係数に逆周波数変換を施すことによって対数目盛でスペクトル振幅の推定値を再構成する。再構成された対数目盛のスペクトル振幅推定値は逆対数変換部１５４に出力される。

逆対数変換部１５４は、ＩＦＦＴ部１５３から出力されたスペクトル振幅推定値の逆対数をとり、線形目盛でスペクトル振幅Ａ＾を取得する。なお、前述したように、対数目盛への変換は必須ではないので、スペクトル振幅推定装置１００が対数変換部１０３を備えない場合、逆対数変換部１５４も備えない。この場合、ＩＦＦＴ部１５３における逆周波数変換の結果は、線形目盛におけるスペクトル振幅の推定値を再構成したものになる。

図３は、定常信号のスペクトルを示す図である。図３Ａは、駆動音源信号の定常部分に対する時間領域信号の１フレームを示す。図３Ｂは、駆動音源信号を時間領域から周波数領域に変換したスペクトル振幅を示す。定常信号に対して、スペクトル振幅は図３Ｂのグラフに示すように一定の周期性を示す。

スペクトル振幅を任意の信号として扱い、それに対して周波数変換を行うと、図３Ｃのグラフにピークで示されるように、変換スペクトルの振幅を計算するときにこの周期性が示される。この特徴を利用してより少ない数の係数（実数および虚数）をとるだけで、図３（ｂ）のグラフからスペクトル振幅を推定することができる。例えば、図３Ｂのグラフのポイント３１のピークを符号化することによってスペクトル振幅の周期性を獲得したことになる。

黒丸のピークポイントで示した位置に該当する縮小した係数の集合を図３Ｃに示す。少数の係数のみを用いて逆変換を行うことによって、図３Ｄの点線で示すようなスペクトル振幅の推定値を得ることができる。

効率をさらに向上させるため、ポイント３１などの主要なピーク位置およびその隣接ポイントは、周期性または信号のピッチ周期から導き出すことができるので送信する必要はない。

図４は、非定常信号のスペクトル示すものである。図４Ａは、駆動音源信号の非定常部分に対する時間領域信号の１フレームを示す。非定常信号についても、定常信号と同様に、スペクトル振幅を推定することができる。

図４Ｂは、駆動音源信号を時間領域から周波数領域に変換したスペクトル振幅を示す。非定常信号の場合、スペクトル振幅は図４Ｂに示すように周期性をまったく示さない。また、信号の非定常部分に適用されるため、図４Ｃに示すようにどの部分においても信号の集中は見られず、ポイントが分散している。

一方、図３Ｃのグラフでは、ポイント３１にピークが存在し、このポイントを符号化することによって図３Ｂのグラフでスペクトル振幅の周期性を獲得したことになり、他のポイントを符号化することによってスペクトル振幅の精密度が向上する。したがって、処理対象の信号長に比較してより少ない数の係数を用いて信号のスペクトル振幅を推定することができる。

これに対し、通常、図４Ｃのグラフに示すような黒丸のピークポイントである正しいポイントを注意深く選択することによって、図４Ｄの点線で示すようなスペクトル振幅の推定値を得ることができる。

このように、特に、定常信号のように安定した構造の信号では、情報は通常、あるＦＦＴ変換係数で伝達される。この係数は、他の係数と比較して大きな値を持っており、このような係数を選択して信号を表現することができる。したがって、より少ない数の係数を用いて信号のスペクトル振幅を表現することができる。すなわち、より少ないビット数で係数を表現することになり、ビットレートを低減することができる。ちなみに、スペクトル振幅の表現に使用する係数の数が増加するに従ってスペクトル振幅をより高精度に復元することができる。

図５は、本発明の実施の形態１に係る音声符号化システム２００の構成を示すブロック図である。ここでは、まず、符号化器側について説明する。

ＬＰＣ分析フィルタ２０１は、入力音声信号Ｓをフィルタにかけ、ＬＰＣ係数および駆動音源信号ｅを得る。ＬＰＣ係数は復号器側のＬＰＣ合成フィルタ２１０に送信され、駆動音源信号ｅは符号化器２０２及びＦＦＴ部２０３に出力される。

符号化器２０２は、図１に示したスペクトル振幅推定装置の構成を有し、ＬＰＣ分析フィルタ２０１から出力された駆動音源信号ｅのスペクトル振幅を推定し、係数Ｃ＾およびそれぞれのピーク位置Ｐｏｓ_Ｎを取得し、量子化係数Ｃ＾およびピーク位置Ｐｏｓ_Ｎを復号器側の復号器２０６に送信する。

ＦＦＴ部２０３は、ＬＰＣ分析フィルタ２０１から出力された駆動音源信号ｅを周波数領域に変換し、複素スペクトル係数（Ｒ_ｅ，Ｉ_ｅ）を生成し、複素スペクトル係数を位相データ算出部２０４に出力する。

位相データ算出部２０４は、ＦＦＴ部２０３から出力された複素スペクトル係数を用いて、駆動音源信号ｅの位相データΘを算出し、算出した位相データΘを位相量子化部２０５に出力する。

位相量子化部２０５は、位相データ算出部２０４から出力された位相データΘを量子化し、量子化位相データΦを復号器側の位相逆量子化部２０７に送信する。

次に、復号器側について説明する。

復号器２０６は、図２に示したスペクトル振幅推定復号装置の構成を有し、符号化器側の符号化器２０２から送信された量子化係数Ｃ＾およびピーク位置Ｐｏｓ_Ｎを用いて、駆動音源信号ｅのスペクトル振幅推定値Ａ＾を取得し、取得したスペクトル振幅推定値Ａ＾を極矩変換部２０８に出力する。

位相逆量子化部２０７は、符号化器側の位相量子化部２０５から送信された量子化位相データΦを逆量子化し、位相データΘ’を取得し、極矩変換部２０８に出力する。

極矩変換部２０８は、位相逆量子化部２０７から出力された位相データΘ’を用いて、復号器２０６から出力されたスペクトル振幅推定値Ａ＾を実数および虚数形式の複素スペクトル係数（Ｒ’_ｅ，Ｉ’_ｅ）に変換し、ＩＦＦＴ部２０９に出力する。

ＩＦＦＴ部２０９は、極矩変換部２０８から出力された複素スペクトル係数を周波数領域信号から時間領域信号に変換し、推定駆動音源信号ｅ＾を取得する。取得された推定駆動音源信号ｅ＾はＬＰＣ合成フィルタ２１０に出力される。

ＬＰＣ合成フィルタ２１０は、ＩＦＦＴ部２０９から出力された推定駆動音源信号ｅ＾と符号化器側のＬＰＣ分析フィルタ２０１から出力されたＬＰＣ係数とを用いて推定入力信号Ｓ’が合成される。

このように実施の形態１によれば、符号化器側において、駆動音源信号のスペクトル振幅にＦＦＴ処理を施してＦＦＴ変換係数を求め、求めたＦＦＴ変換係数のスペクトル振幅のピークを上位Ｎ個について位置を特定し、特定した位置に対応するＦＦＴ変換係数を選択し、復号器側において、符号化器側によって選択されたＦＦＴ変換係数を、同じく符号化器側によって特定された位置に配置してスペクトル係数を形成し、形成したスペクトル係数にＩＦＦＴ処理を施すことによって、スペクトル振幅を復元することができるので、少ないＦＦＴ変換係数を用いてスペクトル振幅を表現することができる。したがって、ＦＦＴ変換係数を少ないビット数で表現することができるので、ビットレートを低減することができる。

（実施の形態２）
実施の形態１では、スペクトル振幅を推定する場合について説明したが、本発明の実施の形態２では、基準信号と基準信号の推定値との差（残差信号）を符号化する場合について説明する。残差信号は、非定常状態になる傾向があるランダム信号に近いので、図４に示したスペクトルと類似している。よって、実施の形態１において説明したスペクトル振幅推定方法を応用して残差信号を推定することができる。

図６は、本発明の実施の形態２に係る残差信号推定装置３００の構成を示すブロック図である。この残差信号推定装置３００は、主として音声符号化装置に用いられる。この図において、ＦＦＴ部３０１ａは基準駆動音源信号ｅを順方向周波数変換によって周波数領域信号に変換し、第１スペクトル振幅算出部３０２ａに出力する。

第１スペクトル振幅算出部３０２ａは、ＦＦＴ部３０１ａから出力された周波数領域における基準駆動音源信号のスペクトル振幅Ａを算出し、算出したスペクトル振幅Ａを第１対数変換部３０３ａに出力する。

第１対数変換部３０３ａは、第１スペクトル振幅算出部３０２ａから出力されたスペクトル振幅Ａを対数目盛に変換し、加算器３０４に出力する。

ＦＦＴ部３０１ｂはＦＦＴ部３０１ａと、第３スペクトル振幅算出部３０２ｂは第１スペクトル振幅算出部３０２ａと、第２対数変換部３０３ｂは第１対数変換部３０３ａとそれぞれ同様の処理を推定駆動音源信号ｅ＾に対して行う。

加算器３０４は、第１対数変換部３０３ａから出力されたスペクトル振幅を基準値として、第２対数変換部３０３ｂから出力された推定スペクトル振幅値との差スペクトル振幅Ｄ（残差信号）を計算し、差スペクトル振幅ＤをＦＦＴ部１０４に出力する。

図７は、本発明の実施の形態２に係る推定残差信号推定復号装置３５０の構成を示すブロック図である。この推定残差信号推定復号装置３５０は、主として音声復号装置に用いられる。この図において、ＩＦＦＴ部１５３は、スペクトル係数形成部１５２から出力されたスペクトル係数に逆周波数変換を施すことによって、対数目盛における差スペクトル振幅の推定値Ｄ’を再構成する。再構成された差スペクトル振幅の推定値Ｄ’は加算器３５４に出力される。

ＦＦＴ部３５１は、推定駆動音源信号ｅ＾を順方向周波数変換によって変換係数Ｃ_ｅ＾を形成し、スペクトル振幅算出部３５２に出力する。

スペクトル振幅算出部３５２は、ＦＦＴ部３５１から出力された変換係数Ｃ_ｅ＾を用いて、推定駆動音源信号のスペクトル振幅Ａ、すなわち、推定スペクトル振幅Ａ＾を算出し、算出した推定スペクトル振幅Ａ＾を対数変換部３５３に出力する。

対数変換部３５３は、スペクトル振幅算出部３５２から出力された推定スペクトル振幅Ａ＾を対数目盛に変換し、加算器３５４に出力する。

加算器３５４は、ＩＦＦＴ部１５３から出力された差スペクトル振幅の推定値Ｄ’と対数変換部３５３から出力された対数目盛のスペクトル振幅の推定値とを加算し、スペクトル振幅の強調された推定値を得る。加算器３５４はスペクトル振幅の強調された推定値を逆対数変換部１５４に出力する。

逆対数変換部１５４は、加算器３５４から出力されたスペクトル振幅の強調された推定値の逆対数をとり、スペクトル振幅を線形目盛のベクトル振幅Ａ~に変換する。

なお、図６において差スペクトル振幅Ｄが対数目盛の場合、図７において、スペクトル振幅算出部３５２から出力されるスペクトル振幅の推定値Ａ＾をＩＦＦＴ部１５３で求めた差スペクトル振幅の推定値Ｄ’に加算する前に対数変換部３５３で対数目盛に変換し、対数目盛でスペクトル振幅の強調された推定値を得るようにしなければならない。ところが、図６において差スペクトル振幅Ｄに対数目盛を使用しない場合、対数変換部３５３および逆対数変換部１５４を使用しないようにする。したがって、ＩＦＦＴ部１５３によって再構成された差スペクトル振幅Ｄ’をスペクトル振幅算出部３５２から出力されたスペクトル振幅推定値Ａ＾に直接加算してスペクトル振幅の強調推定値Ａ~を得る。

本実施の形態では、差スペクトル振幅信号Ｄを全フレームに適用できるが、全フレームに適用する代わりに、差スペクトル振幅信号Ｄの各フレームをＭサブフレームに分割し、各サブフレームに差スペクトル振幅信号Ｄを適用する。各サブフレームのサイズは、等分してもよいし、非線形的に分割してもよい。

ここでは、図８に示すように、低い周波数領域が小さなサブフレームを有し、高い周波数領域が大きなサブフレームを有するように１フレームを４つのサブフレームに非線形的に分割した場合を示している。このように分割した各サブフレームに差スペクトル振幅信号Ｄを適用する。

サブフレームを使用する利点の一つは異なる数の係数を、その重要性に基づいて異なるサブフレームに割り当てることができる点である。例えば、低い周波数領域に該当する低サブフレームは重要であるとみなされるので、高い周波数領域である高サブフレームと比較してこの領域により多くの係数を割り当てることができる。なお、図８では、低サブフレームよりも高サブフレームにより多くの係数を割り当てた場合を示している。

図９は、本発明の実施の形態２に係るステレオ音声符号化システム４００の構成を示すブロック図である。このシステムの基本概念は、基準モノラルチャネルを符号化し、モノラルチャネルから左チャネルを予測または推定し、そして、右チャネルをモノラルおよび左チャネルから導き出すものである。ここでは、まず、符号化器側について説明する。

図９において、ＬＰＣ分析フィルタ４０１は、モノラルチャネル信号Ｍをフィルタにかけ、モノラル駆動音源信号ｅ_Ｍ、モノラルチャネルＬＰＣ係数および駆動音源パラメータを求め、モノラル駆動音源信号ｅ_Ｍを共分散推定部４０３に出力し、モノラルチャネルＬＰＣ係数を復号器側のＬＰＣ復号器４０５に送信し、駆動音源パラメータを復号器側の駆動音源信号発生器４０６に送信する。なお、モノラル駆動音源信号ｅ_Ｍは、左駆動音源信号の予測のためのターゲット信号となる。

ＬＰＣ分析フィルタ４０２は左チャネル信号Ｌをフィルタにかけ、左駆動音源信号ｅ_Ｌおよび左チャネルＬＰＣ係数を求め、左駆動音源信号ｅ_Ｌを共分散推定部４０３および符号化器４０４に出力し、左チャネルＬＰＣ係数を復号器側のＬＰＣ復号器４１３に送信する。なお、左駆動音源信号ｅ_Ｌは、左チャネル駆動音源信号の予測のための基準信号として機能する。

共分散推定部４０３は、ＬＰＣ分析フィルタ４０１から出力されたモノラル駆動音源信号ｅ_ＭおよびＬＰＣ分析フィルタ４０２から出力された左駆動音源信号ｅ_Ｌを用いて、以下の式（１）を最小化することによって左駆動音源信号を推定し、推定した左駆動音源信号ｅ＾_Ｌを符号化器４０４に出力する。

ただし、Ｐはフィルタ長、Ｌは処理する信号長、βはフィルタ係数である。フィルタ係数βは復号器側の信号推定部４０８に送信されて左駆動音源信号の推定に使用される。

符号化器４０４は、図６に示した残差信号推定装置の構成を有し、ＬＰＣ分析フィルタ４０２から出力された基準駆動音源信号ｅ_Ｌおよび共分散推定部４０３から出力された推定駆動音源信号ｅ＾_Ｌを用いて、変換係数Ｃ＾およびピーク位置Ｐｏｓ_Ｎを求め、求めた変換係数Ｃ＾およびピーク位置Ｐｏｓ_Ｎを復号器側の復号器４０９に送信する。

次に、復号器側について説明する。

ＬＰＣ復号器４０５は、符号化器側のＬＰＣ分析フィルタ４０１から送信されたモノラルチャネルＬＰＣ係数を復号し、復号したモノラルチャネルＬＰＣ係数をＬＰＣ合成フィルタ４０７に出力する。

駆動音源信号発生器４０６は、符号化器側のＬＰＣ分析フィルタ４０１から送信された駆動音源パラメータを用いて、モノラル駆動音源信号ｅ_Ｍ’を発生し、ＬＰＣ合成フィルタ４０７および信号推定部４０８に出力する。

ＬＰＣ合成フィルタ４０７は、ＬＰＣ復号器４０５から出力されたモノラルチャネルＬＰＣ係数と駆動音源信号発生器４０６から出力されたモノラル駆動音源信号ｅ_Ｍ’とを用いて、出力モノラル音声Ｍ’を合成し、右チャネル導出部４１５に出力する。

信号推定部４０８は、駆動音源信号発生器４０６から出力されたモノラル駆動音源信号ｅ_Ｍ’を符号化器側の共分散推定部４０３から送信されたフィルタ係数βでフィルタにかけることにより、左駆動音源信号を推定し、推定左駆動音源信号ｅ＾_Ｌを復号器４０９および位相算出部４１０に出力する。

復号器４０９は、図７に示した推定残差信号推定復号装置の構成を有し、信号推定部４０８から出力された推定左駆動音原信号ｅ＾_Ｌ、符号化器側の符号化器４０４から送信された変換係数Ｃ＾及びピーク位置Ｐｏｓ_Ｎを用いて、左駆動音源信号の強調スペクトル振幅Ａ~_Ｌを取得し、取得した強調スペクトル振幅Ａ~_Ｌを極矩変換部４１１に出力する。

位相算出部４１０は、信号推定部４０８から出力された推定左駆動音源信号ｅ＾_Ｌから位相データΦ_Ｌを算出し、算出した位相データΦ_Ｌを極矩変換部４１１に出力する。この位相データΦ_Ｌは振幅Ａ＾_Ｌと共にスペクトル強調駆動音源信号の極形式を形成する。

極矩変換部４１１は、位相算出部４１０から出力された位相データΦ_Ｌを用いて、復号器４０９から出力された強調スペクトル振幅Ａ~_Ｌを極形式から矩形形式に変換し、ＩＦＦＴ部４１２に出力する。

ＩＦＦＴ部４１２は、極矩変換部４１１から出力された矩形形式の強調スペクトル振幅を逆方向周波数変換によって周波数領域信号から時間領域信号に変換し、スペクトル強調駆動音源信号e'_Ｌを形成する。スペクトル強調駆動音源e'_ＬはＬＰＣ合成フィルタ４１４に出力される。

ＬＰＣ復号器４１３は、符号化器側のＬＰＣ分析フィルタ４０２から送信された左チャネルＬＰＣ係数を復号し、復号した左チャネルＬＰＣ係数をＬＰＣ合成フィルタ４１４に出力する。

ＬＰＣ合成フィルタ４１４は、ＩＦＦＴ部４１２から出力されたスペクトル強調駆動音源信号e'_ＬおよびＬＰＣ復号器４１３から出力された左チャネルＬＰＣ係数を用いて左チャネル信号Ｌ’を合成し、右チャネル導出部４１５に出力する。

右チャネル導出部４１５は、モノラル信号Ｍが符号化器側でＭ＝１／２（Ｌ＋Ｒ）によって導き出されると仮定した場合、ＬＰＣ合成フィルタ４０７から出力された出力モノラル音声Ｍ’と、ＬＰＣ合成フィルタ４１４から出力された左チャネル信号Ｌ’との関係から右チャネル信号Ｒ’を導き出せる。すなわち、Ｒ’＝２Ｍ’−Ｌ’の関係式によって右チャネル信号Ｒ’を求めることができる。

このように実施の形態２によれば、符号化器側において、基準駆動音源信号のスペクトル振幅と、推定駆動音源信号のスペクトル振幅の残差信号を符号化し、復号器側において、残差信号を復元し、復元した残差信号をスペクトル振幅推定値に加算することにより、スペクトル振幅推定値を強調し、符号化前の基準駆動音源信号のスペクトル振幅に近づけることができる。

以上、実施の形態について説明した。

上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

２００６年１月３１日出願の特願２００６−０２３７５６の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明にかかる音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法は、スペクトル波形をモデル化し、スペクトル波形を正確に復元することができ、携帯電話やテレビ会議用機器などの通信機器に適用できる。

代表的なスペクトルエネルギー予測では、時間領域信号が周波数領域信号に変換される。この周波数領域信号は、通常、臨界帯域に従って周波数帯域に分割される。この分割は、基準チャネルおよび推定の対象となるチャネルの双方に対して行われる。そして、両チャネルの周波数帯域ごとにエネルギーを計算し、両チャネルのエネルギー比を用いてスケールファクタを計算する。このスケールファクタは受信機側に送信され、そこで基準チャ
ネルは変換領域で推定信号が検索されるため、このスケールファクタを用いて周波数帯域ごとに拡大または縮小される。この後、周波数の逆変換を施して推定変換領域スペクトルデータに対応する時間領域信号を得る。

ピークポイント位置特定部１０６は、第２スペクトル振幅算出部１０５から出力されたスペクトル振幅Ａ_Ａにおいて、１番目に高いピークからＮ番目に高いピークまでを検索す
ると共に、１〜Ｎ番目のピークの位置Ｐｏｓ_Ｎをそれぞれ検索する。検索された１〜Ｎ番目のピーク位置Ｐｏｓ_Ｎが係数選択部１０７に出力される。

次に、復号器側について説明する。

図６は、本発明の実施の形態２に係る残差信号推定装置３００の構成を示すブロック図である。この残差信号推定装置３００は、主として音声符号化装置に用いられる。この図において、ＦＦＴ部３０１ａは基準駆動音源信号ｅを順方向周波数変換によって周波数領
域信号に変換し、第１スペクトル振幅算出部３０２ａに出力する。

符号化器４０４は、図６に示した残差信号推定装置の構成を有し、ＬＰＣ分析フィルタ４０２から出力された基準駆動音源信号ｅ_Ｌおよび共分散推定部４０３から出力された推
定駆動音源信号ｅ＾_Ｌを用いて、変換係数Ｃ＾およびピーク位置Ｐｏｓ_Ｎを求め、求めた変換係数Ｃ＾およびピーク位置Ｐｏｓ_Ｎを復号器側の復号器４０９に送信する。

次に、復号器側について説明する。

右チャネル導出部４１５は、モノラル信号Ｍが符号化器側でＭ＝１／２（Ｌ＋Ｒ）によって導き出されると仮定した場合、ＬＰＣ合成フィルタ４０７から出力された出力モノラ
ル音声Ｍ’と、ＬＰＣ合成フィルタ４１４から出力された左チャネル信号Ｌ’との関係から右チャネル信号Ｒ’を導き出せる。すなわち、Ｒ’＝２Ｍ’−Ｌ’の関係式によって右チャネル信号Ｒ’を求めることができる。

以上、実施の形態について説明した。

Claims

第１入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、
前記周波数領域信号の第１スペクトル振幅を算出する第１算出手段と、
前記第１スペクトル振幅に周波数変換を施し、第２スペクトル振幅を算出する第２算出手段と、
前記第２スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、
特定された前記ピーク位置に該当する前記第２スペクトル振幅の変換係数を選択する選択手段と、
選択された前記変換係数を量子化する量子化手段と、
を具備する音声符号化装置。
前記第１スペクトル振幅は、対数値である請求項１に記載の音声符号化装置。
前記第１スペクトル振幅は、絶対値である請求項１に記載の音声符号化装置。
前記量子化手段は、スカラー量子化又はベクター量子化によって量子化する請求項１に記載の音声符号化装置。
入力信号に２回の周波数変換を施して得られた変換係数のうち、上位複数の量子化された変換係数を取得し、取得した変換係数を逆量子化する逆量子化手段と、
前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、
前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、
を具備する音声復号装置。
前記スペクトル係数形成手段は、入力信号に２回の周波数変換を施して得られた変換係数から選択された上位複数の変換係数の位置に前記変換係数を配置し、残りの位置に０を配置する請求項５に記載の音声復号装置。
入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、
前記周波数領域信号の第１スペクトル振幅を算出する第１算出手段と、
前記第１スペクトル振幅に周波数変換を施し、第２スペクトル振幅を算出する第２算出手段と、
前記第２スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、
特定された前記ピーク位置に該当する前記第２スペクトル振幅の変換係数を選択する選択手段と、
選択された前記変換係数を量子化する量子化手段と、
を有する音声符号化装置と、
量子化された前記変換係数を逆量子化する逆量子化手段と、
前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、
前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、
を具備する音声復号装置と、
を具備する音声符号化システム。
入力信号に周波数変換を施し、周波数領域信号を形成する変換工程と、
前記周波数領域信号の第１スペクトル振幅を算出する第１算出工程と、
前記第１スペクトル振幅に周波数変換を施し、第２スペクトル振幅を算出する第２算出工程と、
前記第２スペクトル振幅の上位複数のピークのピーク位置を特定する特定工程と、
特定された前記ピーク位置に該当する前記第２スペクトル振幅の変換係数を選択する選択工程と、
選択された前記変換係数を量子化する量子化工程と、
を具備する音声符号化方法。
入力信号に２回の周波数変換を施して得られた変換係数のうち、上位複数の量子化された変換係数を取得し、取得した変換係数を逆量子化する逆量子化工程と、
前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成工程と、
前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換工程と、
を具備する音声復号方法。