JPWO2006121101A1

JPWO2006121101A1 - 音声符号化装置およびスペクトル変形方法

Info

Publication number: JPWO2006121101A1
Application number: JP2007528311A
Authority: JP
Inventors: チュンオエイテオ; スアホンネオ; 吉田　幸司; 幸司吉田; 道代後藤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-05-13
Filing date: 2006-05-11
Publication date: 2008-12-18
Anticipated expiration: 2026-05-11
Also published as: US8296134B2; US20080177533A1; JP4982374B2; EP1881487A4; CN101176147A; EP1881487A1; DE602006010687D1; CN101176147B; EP1881487B1; WO2006121101A1

Abstract

信号推定および予測の効率を向上させ、スペクトルをより効率的に符号化することができるスペクトル変形方法等を開示する。この方法では、参照信号である原信号からピッチ周期を算出し、基本ピッチ周波数ｆ０を算出する。次に、スペクトル変形の対象であるターゲット信号のスペクトルを、複数のパーティションに分割する。ここで、各パーティションの幅は、基本ピッチ周波数とする。そして、振幅が類似する複数のピークが１つのグループにまとまるように、各帯域のスペクトルをインタリーブする。インタリーブ間隔として基本ピッチ周波数が用いられる。

Description

本発明は、音声符号化装置およびスペクトル変形方法に関する。

モノラル音声信号を符号化する音声符号化技術が、現在では標準となっている。このようなモノラル符号化は、信号が、例えば人間の発声等の単一音源から来るような、携帯電話およびテレコンファレンス機器等の通信機器において一般に用いられる。

従来は、送信信号の帯域幅およびＤＳＰの処理速度等の理由に、そのようなモノラル信号に制限されていた。しかし、技術が進歩し、帯域幅が改善されるにつれ、この制約は、次第に重要性を有しないものとなってきている。一方で、音声品質が、より重要な考慮すべきファクターとなっている。モノラル音声の短所の一つは、立体的な音感または発話者の位置等のような空間情報を提供しないことである。従って、今後は、より良いサウンドを実現するために、可能な限り低いビットレートで、良好な品質のステレオ音声を達成することを考慮すべきである。

ステレオ音声信号を符号化する一つの方法は、信号の予測またはその推定技術を利用する。すなわち、一方のチャネルは公知のオーディオ符号化技術を用いて符号化し、他方のチャネルは、このチャネルを分析および抽出することによって得られるサイド情報の幾つかを用いて、既に符号化されたチャネルから予測または推定を行う。

このような方法は、バイノーラル・キュー・コーディング・システム（例えば、非特許文献１参照）の一部として、特許文献１にこれに関する記載がなされているところであり、その記載においては、この方法は、参照チャネルを基準として一方のチャネルのレベルを調整する目的において行われるチャネル間レベル差（ＩＬＤ：ｉｎｔｅｒｃｈａｎｎｅｌｌｅｖｅｌｄｉｆｆｅｒｅｎｃｅ）の算出に適用されている。

予測または推定された信号というものは、原音と比べて忠実でなくなることも多い。このため、予測または推定された信号に対しては、それが元のものに可能な限り類似したものとなるようにエンハンスメントがなされる必要がある。

オーディオ信号および音声信号は、一般に周波数領域において処理される。この周波数領域データは、一般に変換された領域におけるスペクトル係数と称される。よって、このような予測および推定方法は、周波数領域において、これを行うことができる。例えば、ＬチャネルおよびＲチャネルのスペクトルデータは、そのサイド情報の幾つかを抽出して、これをモノラルチャネルに適用することにより推定することができる（特許文献１参照）。他の変形例には、ＬチャネルがＲチャネルから推定可能であるように、一方のチャネルを他方のチャネルから推定するもの等が含まれる。

オーディオ処理および音声処理におけるエンハンスメントが適用される一つの分野として、スペクトルエネルギー推定がある。これは、スペクトルエネルギー予測またはスケーリングとも呼ばれる。典型的なスペクトルエネルギー推定演算では、時間領域信号が、周波数領域信号に変換される。この周波数領域信号は、通常は、臨界帯域に合わせて、複数の周波数帯域にパーティション化される。この処理は、参照チャネルと、推定されるチャネルとの双方に対してなされる。両方のチャネルの各々の周波数帯域について、エネルギーが算出され、両チャネルのエネルギー比率を用いてスケールファクタが算出される。このスケールファクタは、受信装置に対し送信され、この受信装置において、このスケールファクタを用いて参照信号がスケーリングされ、各周波数帯域に対しての変換された領域における推定信号が得られる。その後、逆周波数変換処理が施され、推定変換領域スペクトルデータに相当する時間領域信号が得られる。
国際公開第０３／０９０２０８号パンフレットＣ．ＦａｌｌｅｒａｎｄＦ．Ｂａｕｍｇａｒｔｅ，"Ｂｉｎａｕｒａｌｃｕｅｃｏｄｉｎｇ：Ａｎｏｖｅｌａｎｄｅｆｆｉｃｉｅｎｔｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｓｐａｔｉａｌａｕｄｉｏ"，Ｐｒｏｃ．ＩＣＡＳＳＰ，Ｏｒｌａｎｄｏ，Ｆｌｏｒｉｄａ，Ｏｃｔ．２００２．

図１は、駆動音源信号のスペクトル（駆動音源スペクトル）の一例を表わしている。この周波数スペクトルは、周期的なピークを示し、周期性を有し、かつ定常性を有するスペクトルである。また、図２は、臨界帯域によるパーティション化の例を示す図である。

従来の方法においては、図２に示す周波数領域のスペクトル係数は、複数の臨界帯域に分割されて、エネルギーおよびスケールファクタの算出がなされる。この方法は、非駆動音源信号を処理するのに一般に用いられる方法であるが、駆動音源スペクトルには繰り返しパターンが現れることから、この方法を駆動音源信号に用いるのは、あまり適切ではない。ここで、非駆動音源信号とは、駆動音源信号を生成するＬＰＣ分析等の信号処理に用いられる信号を意味する。

このように、単に駆動音源スペクトルを臨界帯域に分割するというのでは、図２に示すような臨界帯域によるパーティション化においては、各帯域の帯域幅が不均等であることにより、駆動音源スペクトルの各ピークの立ち上がりおよび立ち下がりを精度良く表わすスケールファクタを算出することができない。

よって、本発明の目的は、信号推定および予測の効率を向上させ、スペクトルをより効率的に表現することができる音声符号化装置およびスペクトル変形方法を提供することである。

上記課題を解決するために本発明は、音声信号のうちの周期性を有する部分についてピッチ周期を求める。このピッチ周期は、音声信号の基本ピッチ周波数または繰り返しパターン（調波構造）を求めるのに用いられる。スペクトルの規則的な間隔または周期性パターンを利用してインタリーブを施し、振幅が類似する複数のピーク（スペクトル係数）を１つのグループにまとめることにより複数のグループを生成した後、スケールファクタを算出する。駆動音源スペクトルは、基本ピッチ周波数をインタリーブ間隔として用い、スペクトルをインタリーブすることにより並び方が変更される。

これにより、振幅が類似した複数のスペクトル係数が１つのグループにまとめられるので、ターゲット信号のスペクトルを正しい振幅レベルに調整するのに用いられるスケールファクタの量子化効率を向上させることができる。

また、上記課題を解決するために本発明は、インタリーブが必要かどうかを選択する。この判断基準は、処理されている信号のタイプに依存する。音声信号のうちの周期性を有する部分は、スペクトルにおいて繰り返しパターンを示す。そのような場合には、基本ピッチ周波数をインタリーブ単位（インタリーブ間隔）として用いて、スペクトルがインタリーブされる。一方、音声信号のうちの周期性を有しない部分は、スペクトル波形において繰り返しパターンを有しない。従って、この場合、インタリーブを用いないスペクトル変形が実行される。

これにより、信号のタイプが異なる場合に、この相違に対応した適切なスペクトル変形方法を選択する柔軟なシステムを構築でき、全体の符号化効率が向上する。

本発明によれば、信号推定および予測の効率を向上させ、スペクトルをより効率的に表現することができる。

駆動音源スペクトルの一例を表す図臨界帯域によるパーティション化の例を示す図本発明に係る等間隔の帯域パーティション化が施されたスペクトルの一例を示す図本発明に係るインタリーブ処理の概要を示した図実施の形態１に係る音声符号化装置および音声復号装置の基本的な構成を示すブロック図実施の形態１に係る周波数変換部およびスペクトル差演算部内部の主要な構成を示すブロック図帯域分割の例を示す図実施の形態１に係るスペクトル変形部の内部を表した図実施の形態２に係る音声符号化システム（符号化側）を示す図実施の形態２に係る音声符号化システム（復号側）を示す図実施の形態２に係るステレオタイプの音声符号化システムを示す図

本発明に係る音声符号化装置は、入力されるスペクトルに対し変形処理を施し、変形後のスペクトルを符号化する。まず、符号化装置において、変形対象となるターゲット信号は、周波数領域のスペクトル成分に変換される。このターゲット信号は、通常は、原信号とは類似していない信号である。なお、ターゲット信号は、原信号を予測または推定したものであっても良い。

原信号は、スペクトル変形処理において、参照信号として用いられる。参照信号は、周期性を含むものであるか否か判断される。参照信号が周期性を有するものと判断された場合、ピッチ周期Ｔが算出される。このピッチ周期Ｔから、参照信号の基本ピッチ周波数ｆ_０が算出される。

スペクトルインタリーブ処理が、周期性を有すると判断されたフレームに対して実行される。スペクトルインタリーブ処理の対象であることを示すには、フラグ（以下、インタリーブ・フラグという）が用いられる。まず、ターゲット信号のスペクトルおよび参照信号のスペクトルは、複数のパーティションに分割される。各パーティションの幅は、基本ピッチ周波数ｆ_０の間隔幅に相当する。図３は、本発明に係る等間隔の帯域パーティション化が施されたスペクトルの一例を示す図である。そして、各帯域のスペクトルは、基本ピッチ周波数ｆ_０をインタリーブ間隔として、インタリーブされる。図４は、上記のインタリーブ処理の概要を示した図である。

インタリーブされたスペクトルは、さらに幾つかの帯域に分割される。そして、各帯域のエネルギーが算出される。さらに各帯域について、ターゲットチャネルのエネルギーと参照チャネルのエネルギーとが比較される。これらの二つのチャネルの間のエネルギーの差または比が算出され、これがスケールファクタの表現形式を取って量子化される。このスケールファクタは、スペクトル変形処理のために、ピッチ周期およびインタリーブ・フラグと共に復号装置に送信される。

一方、復号装置では、主復号器で合成されるターゲット信号が、符号化装置から送信された符号化パラメータを用いて、変形される。まず、ターゲット信号が周波数領域に変換される。そして、インタリーブ・フラグがアクティブに設定されている場合には、基本ピッチ周波数をインタリーブ間隔として用い、スペクトル係数がインタリーブされる。この基本ピッチ周波数は、符号化装置から送信されたピッチ周期から算出される。インタリーブを施されたスペクトル係数は、符号化装置におけるものと同数の帯域に分割され、各々の帯域に対して、スケールファクタを用いて、そのスペクトルが参照信号のスペクトルに近いものとなるように上記スペクトル係数の振幅が調整される。その後、調整されたスペクトル係数は、デインタリーブされて、インタリーブされていた状態のスペクトル係数が元の並び方に配列し直される。上記調整されたデインタリーブ後のスペクトルに対して、逆周波数変換が施され、時間領域の駆動音源信号が得られる。上述の処理にあっては、信号が周期性を有しないものであると判断された場合には、インタリーブの処理が省略され、他の処理が続けられる。

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、同様の機能を有する構成に対しては、基本的に同じ符号を付し、複数存在する場合には、符号の後にａ、ｂを付して区別する。

（実施の形態１）
図５は、本実施の形態に係る符号化装置１００および復号装置１５０の基本的な構成を示すブロック図である。

符号化装置１００において、周波数変換部１０１は、参照信号ｅ_ｒおよびターゲット信号ｅ_ｔを周波数領域信号に変換する。ターゲット信号ｅ_ｔは、参照信号ｅ_ｒに相似するように変形されるターゲットである。また、参照信号ｅ_ｒは、入力信号ｓを、ＬＰＣ係数を用いて逆フィルタリング処理することにより得ることができ、ターゲット信号ｅ_ｔは、駆動音源符号化処理の結果として得られる。

スペクトル差演算部１０２は、周波数変換後に得られたスペクトル係数に対して、周波数領域における参照信号とターゲット信号とのスペクトル差を算出する処理を施す。この算出には、スペクトル係数のインタリーブ処理、この係数の複数の帯域へのパーティション化処理、各帯域に対する参照チャネルとターゲットチャネルとの間の差の算出処理、さらに、これらの差を復号装置に送信されるＧ’_ｂとして量子化する処理等の一連の処理が伴われる。インタリーブ処理は、このスペクトル差演算の重要な一部ではあるものの、全ての信号フレームについて、インタリーブが施される必要があるわけではない。インタリーブが必要かどうかは、インタリーブ・フラグであるＩ＿ｆｌａｇによって示されており、フラグがアクティブかどうかは、現フレームにおいて処理がなされている信号のタイプに依存する。ある特定のフレームについてインタリーブがなされる必要がある場合には、現在の音声フレームのピッチ周期であるＴから算出されるインタリーブ間隔が用いられる。これらの処理は、音声コーデックの符号化装置で行われる。

復号装置１５０において、スペクトル変形部１０３は、ターゲット信号ｅ_ｔを得た後に、インタリーブ・フラグＩ＿ｆｌａｇおよびピッチ周期Ｔ等の他の情報と共に量子化情報Ｇ’_ｂを得る。そして、スペクトル変形部１０３は、これらのパラメータによって得られるスペクトルが、参照信号のスペクトルに近いものとなるように、ターゲット信号のスペクトルを変形する。

図６は、上記の周波数変換部１０１およびスペクトル差演算部１０２内部の主要な構成を示すブロック図である。

ＦＦＴ部２０１は、ＦＦＴ等の変換方法を用いて、変形対象となるターゲット信号ｅ_ｔおよび参照信号ｅ_ｒを周波数領域の信号に変換する。ＦＦＴ部２０１は、Ｉ＿ｆｌａｇをフラグとして用い、信号の特定フレームがインタリーブを施されるに適するかどうかを判断する。インタリーブ部２０２におけるインタリーブ処理に先立ち、現在の音声フレームが周期性かつ定常性を有する信号であるかどうかを判定するためのピッチ検出が実行される。処理されるフレームが周期性かつ定常性を有する信号である場合には、インタリーブ・フラグは、アクティブに設定される。周期性かつ定常性を有する信号の場合、駆動音源処理により、通常は、スペクトル波形において、あるインターバルでの特徴的なピークを有する周期性パターンが生じる（図１参照）。このインターバルは、信号のピッチ周期Ｔまたは周波数領域における基本ピッチ周波数ｆ_０により特定される。

インタリーブ部２０２は、インタリーブ・フラグがアクティブに設定されている場合、参照信号とターゲット信号との両方について、変換されたスペクトル係数に対するサンプルインタリーブ処理を実行する。このサンプルインタリーブでは、全帯域内のある特定の領域が予め選択される。通常は、スペクトル波形において、３ｋＨｚまたは４ｋＨｚまでの低周波領域の方が、よりはっきりと明確なピークが生じる。従って、インタリーブ領域として低周波領域が選択されることが多い。例えば、図４を再度参照すると、Ｎサンプルのスペクトルがインタリーブされる低周波領域として選択されている。そして、インタリーブ後に、大きさの近似したエネルギー係数がグループ化してまとめられるように、現フレームの基本ピッチ周波数ｆ_０がインタリーブ間隔として用いられる。そして、Ｎ個のサンプルは、Ｋ個のパーティションに分割され、インタリーブが施される。このインタリーブ処理は、次式（１）に従って、各帯域のスペクトル係数を算出することによって行われる。ここでＪは、各帯域のサンプル数、すなわち、各パーティションのサイズを表している。

本実施の形態に係るインタリーブ処理は、全ての入力音声フレームに対して固定のインタリーブ間隔値を用いることはしない。すなわち、参照信号の基本ピッチ周波数ｆ_０を算出することにより、インタリーブ間隔を適応的に調整する。この基本ピッチ周波数ｆ_０は、参照信号のピッチ周期Ｔから直接算出される。

パーティション化部２０３は、スペクトル係数がインタリーブされた後に、図７に示すように、Ｎサンプル領域のスペクトルをＢ個の帯域（バンド）に分割し、各帯域が同数のスペクトル係数を有するようにする。この帯域数は、８、１０、１２等の任意の数に設定することができる。帯域数は、望ましくは、各々のピッチ高調波の同位置から抽出される各帯域のスペクトル係数が振幅において類似したものとなるような数が設定される。すなわち、インタリーブ処理におけるパーティション数と同数またはその倍数となるように、すなわち、Ｂ＝Ｋの帯域、またはＢ＝ＬＫ（Ｌは整数）の帯域となるように設定される。各ピッチ周期におけるｊ＝０のサンプルは、各々のインタリーブされた帯域の最初のサンプルにあたり、各ピッチ周期におけるｊ＝Ｊ−１のサンプルは、各々のインタリーブされた帯域の最後のサンプルにあたる。

帯域数がＫの倍数にならない場合には、スペクトル係数の個数が等しく分配されないこともある。そのような場合には、パーティション化部２０３は、等しく分配可能なサンプルは、次式（２ａ）に従って割り当て、残りのサンプルは、次式（２ｂ）に従って最後の帯域（ｂ＝Ｂ−１）に割り当てる。

ある特定のフレームに対してインタリーブが用いられない場合、上記の残りのサンプルに対する帯域割り当てと同様の方法でインタリーブを施されていない係数に帯域が割り当てられ、パーティション化される。

エネルギー算出部２０４は、次式（３）に従って、帯域ｂのエネルギーを算出する。

上記のエネルギー演算は、参照信号とターゲット信号との双方の各帯域についてなされ、参照信号エネルギーｅｎｅｒｇｙ＿ｒｅｆ_ｂおよびターゲット信号エネルギーｅｎｅｒｇｙ＿ｔｇｔ_ｂが生成される。

Ｎサンプルの中に含まれない領域については、インタリーブ処理が施されない。インタリーブされない領域のサンプルもまた、式（２ａ）および（２ｂ）を用いて、２から８まで等の複数の帯域によるパーティションに分けられ、さらに式（３）を用いて、それらのインタリーブされない帯域のエネルギーが算出される。

ゲイン算出部２０５は、インタリーブが施された領域とインタリーブが施されなかった領域との両方についての参照信号とターゲット信号とのエネルギーデータを用いて、帯域ｂのゲインＧ_ｂを算出する。このゲインＧ_ｂは、復号装置において、ターゲット信号のスペクトルをスケーリングし、変形するためのゲインである。ゲインＧ_ｂは、次式（４）に従って算出される。

ここで、Ｂ_Ｔは、インタリーブされた領域とインタリーブされなかった領域との双方の領域における帯域の総数である。

ゲイン量子化部２０６は、ゲインＧ_ｂを、量子化分野において一般に知られるスカラー量子化またはベクトル量子化を用いて量子化し、量子化ゲインＧ’_ｂを得る。量子化ゲインＧ’_ｂは、ピッチ周期Ｔおよびインタリーブ・フラグＩ＿ｆｌａｇと併せて、復号装置で信号のスペクトルを変形するために、復号装置１５０に対して送信される。

復号装置１５０における処理は、参照信号と比較したターゲット信号の差が算出された符号化装置の処理に対する逆処理となる。すなわち、復号装置においては、スペクトル変形によるものが参照信号に可能な限り近いものとなるように、この差がターゲット信号に対して、適用される。

図８は、上記の復号装置１５０が備えるスペクトル変形部１０３の内部を表した図である。

変形がなされる必要のある、符号化装置１００のものと同一のターゲット信号ｅ_ｔは、復号装置１５０において、この段階では既に合成がなされていて、スペクトル変形が実行できる状態にあるものと仮定する。また、スペクトル変形部１０３での処理を実行することができるように、量子化ゲインＧ’_ｂ、ピッチ周期Ｔおよびインタリーブ・フラグＩ＿ｆｌａｇもビットストリームから復号される。

ＦＦＴ部３０１は、ターゲット信号ｅ_ｔを、符号化装置１００で用いられたものと同一の変換処理を用いて、周波数領域に変換する。

インタリーブ部３０２は、インタリーブ・フラグＩ＿ｆｌａｇがアクティブに設定されている場合、ピッチ周期Ｔから算出される基本ピッチ周波数ｆ_０をインタリーブ間隔として用い、式（１）に従って、スペクトル係数をインタリーブする。このインタリーブ・フラグＩ＿ｆｌａｇは、現フレームに対しインタリーブ処理を施す必要があるか否かを示すフラグである。

パーティション化部３０３は、これらの係数を符号化装置１００で用いられたのと同数の帯域に分割する。インタリーブが用いられる場合には、インタリーブされた係数がパーティションに分けられ、そうでなければ、インタリーブされていない係数がパーティション化される。

スケーリング部３０４は、量子化ゲインＧ’_ｂを用いて次式（５）に従って、スケーリング後の各帯域のスペクトル係数を算出する。

ここで、ｂａｎｄ（ｂ）は、ｂで表わされる帯域内のスペクトル係数の数である。上記式（５）は、スペクトル係数値を調整して、各帯域のエネルギーが参照信号と類似したものとなるようにすることを表しており、この式（５）に従って、信号のスペクトルは変形される。

デインタリーブ部３０５は、スペクトル係数がインタリーブ部３０２においてインタリーブされている場合には、スペクトル係数をデインタリーブして、これらのインタリーブされた係数が元のインタリーブされる前の順序に戻るよう再配列する。一方、インタリーブ部３０２においてインタリーブが行われていない場合には、デインタリーブ部３０５はデインタリーブ処理を実行しない。その後、調整されたスペクトル係数は、ＩＦＦＴ部３０６において、逆ＦＦＴ等の逆周波数変換を介して、時間領域信号に戻される。この時間領域信号は、予測または推定された駆動音源信号ｅ’_ｔであって、そのスペクトルは、参照信号ｅ_ｒのスペクトルに類似したものとなるように変形されている。

このように、本実施の形態によれば、周波数スペクトルにおける周期性パターン（繰り返しパターン）を利用し、インタリーブ処理を用いて信号スペクトルを変形し、スペクトル係数のうちの類似したものをグループ化するので、音声符号化装置の符号化効率を向上させることができる。

また、本実施の形態は、ターゲット信号のスペクトルを正しい振幅レベルに調整するのに用いられるスケールファクタの量子化効率を向上させるのに役立つ。また、インタリーブ・フラグにより、スペクトル変形方法が適切な音声フレームのみに対して適用されるような、よりインテリジェントなシステムが提供される。

（実施の形態２）
図９は、実施の形態１に係る符号化装置１００を、典型的な音声符号化システム（符号化側）１０００に適用した例を示す図である。

ＬＰＣ分析部４０１は、入力音声信号ｓをフィルタリングして、ＬＰＣ係数および駆動音源信号を得るために用いられる。このＬＰＣ係数は、ＬＰＣ量子化部４０２において、量子化および符号化され、一方、駆動音源信号は、駆動音源符号化部４０３において符号化されて、駆動音源パラメータが得られる。これらの構成要素は、典型的な音声符号化器の主符号化器４００を構成する。

符号化装置１００は、符号化品質を向上させるべく、この主符号化器４００に対して追加して設けられるものである。ターゲット信号ｅ_ｔは、駆動音源符号化部４０３より、符号化された駆動音源信号から得られる。参照信号ｅ_ｒは、入力音声信号ｓを、ＬＰＣ逆フィルタ４０４においてＬＰＣ係数を用いて逆フィルタリング処理することにより得られる。ピッチ周期Ｔおよびインタリーブ・フラグＩ＿ｆｌａｇは、ピッチ周期抽出・有声／無声判定部４０５において入力音声信号ｓを用いて算出される。符号化装置１００は、これらの入力を受けて、上述の通りの処理を行い、復号装置においてスペクトル変形処理に用いられるスケールファクタＧ’_ｂを得る。

図１０は、実施の形態１に係る復号装置１５０を、典型的な音声符号化システム（復号側）１５００に適用した例を示す図である。

音声符号化システム１５００では、駆動音源生成部５０１、ＬＰＣ復号部５０２、およびＬＰＣ合成フィルタ５０３が、典型的な音声復号器の主復号器５００を構成する。駆動音源生成部５０１において駆動音源信号が生成され、ＬＰＣ復号部５０２において送信された駆動音源パラメータを用いて量子化されたＬＰＣ係数が復号される。この駆動音源信号および復号されたＬＰＣ係数は、出力音声を合成するのに直接は用いられない。これに先立ち、生成された駆動音源信号は、上述した処理に従って、復号装置１５０においてピッチ周期Ｔ、インタリーブ・フラグＩ＿ｆｌａｇおよびスケールファクタＧ’_ｂ等の送信されたパラメータを用いてスペクトルを変形することによりエンハンスされる。駆動音源生成部５０１から生成された駆動音源信号は、変形されるターゲット信号ｅ_ｔとしての役割を果たす。復号装置１５０のスペクトル変形部１０３からの出力は、そのスペクトルが参照信号ｅ_ｒのスペクトルに近いものとなるように変形されている駆動音源信号ｅ’_ｔである。変形された駆動音源信号ｅ’_ｔおよび復号されたＬＰＣ係数は、ＬＰＣ合成フィルタ５０３において、出力音声ｓ’を合成するのに用いられる。

また、以上の記載から、実施の形態１に係る符号化装置１００および復号装置１５０は、図１１に示されるようなステレオタイプの音声符号化システムに対しても適用可能であることが明らかである。このステレオ音声符号化システムにおいては、ターゲットチャネルは、モノラルチャネルであり得る。このモノラル信号Ｍは、ステレオチャネルのＬチャネルとＲチャネルとの平均を取ることにより、モノラル信号を合成する。参照チャネルは、ＬチャネルまたはＲチャネルの何れであっても良い。なお、図１１においては、Ｌチャネル信号Ｌが参照チャネルとして用いられている。

符号化装置において、Ｌチャネル信号Ｌとモノラル信号Ｍとは、それぞれ分析部４００ａ、４００ｂにおいて処理される。この処理の目的は、それぞれのチャネルについて、ＬＰＣ係数、駆動音源パラメータおよび駆動音源信号を取得することである。Ｌチャネルの駆動音源信号は参照信号ｅ_ｒとして、一方、モノラルの駆動音源信号はターゲット信号ｅ_ｔとして機能する。符号化装置における残りの処理は、上述の通りである。この適用例における唯一の相違は、参照チャネル音声信号を合成するために用いられるための参照チャネル自身のＬＰＣ係数のセットが復号装置に対して送られる点である。

復号装置においては、駆動音源生成部５０１においてモノラルの駆動音源信号が生成され、ＬＰＣ係数がＬＰＣ復号部５０２ｂにおいて復号化される。出力モノラル音声Ｍ’は、ＬＰＣ合成フィルタ５０３ｂにおいて、モノラルの駆動音源信号およびモノラルチャネルのＬＰＣ係数を用いて合成される。また、モノラルの駆動音源信号ｅ_Ｍは、ターゲット信号ｅ_ｔとしても機能する。ターゲット信号ｅ_ｔは、復号装置１５０において変形され、推定または予測されたＬチャネルの駆動音源信号ｅ’_Ｌが得られる。変形された駆動音源信号ｅ’_ＬおよびＬＰＣ復号部５０２ａで復号されたＬチャネルのＬＰＣ係数を用いて、Ｌチャネル信号Ｌ’がＬＰＣ合成フィルタ５０３ａにおいて合成される。Ｌ信号Ｌ’およびモノラル信号Ｍ’が生成されれば、Ｒチャネル算出部６０１において、次式（６）を用いてＲチャネル信号Ｒ’を算出することができる。

なお、モノラル信号の場合、Ｍは符号化側でＭ＝（Ｌ＋Ｒ）／２によって算出される。

このように、本実施の形態によれば、実施の形態１に係る符号化装置１００および復号装置１５０をステレオ音声符号化システムに適用することにより、駆動音源信号の精度が高まる。よって、スケールファクタを導入することによりビットレートは僅かながら高くなってしまうこととなるものの、予測または推定された信号をエンハンスし、原信号に可能な限り類似したものとすることができるので、「ビットレート」対「音声品質」の点で見れば、符号化効率を向上させることができる。

以上、本発明の各実施の形態について説明した。

本発明に係る音声符号化装置およびスペクトル変形方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。

本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。

なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るスペクトル変形方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。

本明細書は、２００５年５月１３日出願の特願２００５−１４１３４３に基づく。この内容はすべてここに含めておく。

本発明に係る音声符号化装置およびスペクトル変形方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用できる。

このような方法は、バイノーラル・キュー・コーディング・システム（例えば、非特許文献１参照）の一部として、特許文献１にこれに関する記載がなされているところであり、その記載においては、この方法は、参照チャネルを基準として一方のチャネルのレベルを調整する目的において行われるチャネル間レベル差（ＩＬＤ：interchannel level difference）の算出に適用されている。

オーディオ処理および音声処理におけるエンハンスメントが適用される一つの分野として、スペクトルエネルギー推定がある。これは、スペクトルエネルギー予測またはスケーリングとも呼ばれる。典型的なスペクトルエネルギー推定演算では、時間領域信号が、周波数領域信号に変換される。この周波数領域信号は、通常は、臨界帯域に合わせて、複数の周波数帯域にパーティション化される。この処理は、参照チャネルと、推定されるチャネルとの双方に対してなされる。両方のチャネルの各々の周波数帯域について、エネルギーが算出され、両チャネルのエネルギー比率を用いてスケールファクタが算出される。このスケールファクタは、受信装置に対し送信され、この受信装置において、このスケール
ファクタを用いて参照信号がスケーリングされ、各周波数帯域に対しての変換された領域における推定信号が得られる。その後、逆周波数変換処理が施され、推定変換領域スペクトルデータに相当する時間領域信号が得られる。
国際公開第０３／０９０２０８号パンフレット C. Faller and F. Baumgarte, "Binaural cue coding: A novel and efficient representation of spatial audio", Proc. ICASSP, Orlando, Florida, Oct. 2002.

インタリーブされたスペクトルは、さらに幾つかの帯域に分割される。そして、各帯域のエネルギーが算出される。さらに各帯域について、ターゲットチャネルのエネルギーと参照チャネルのエネルギーとが比較される。これらの二つのチャネルの間のエネルギーの差または比が算出され、これがスケールファクタの表現形式を取って量子化される。このスケールファクタは、スペクトル変形処理のために、ピッチ周期およびインタリーブ・フ
ラグと共に復号装置に送信される。

スペクトル差演算部１０２は、周波数変換後に得られたスペクトル係数に対して、周波数領域における参照信号とターゲット信号とのスペクトル差を算出する処理を施す。この算出には、スペクトル係数のインタリーブ処理、この係数の複数の帯域へのパーティション化処理、各帯域に対する参照チャネルとターゲットチャネルとの間の差の算出処理、さらに、これらの差を復号装置に送信されるＧ’_ｂとして量子化する処理等の一連の処理が伴われる。インタリーブ処理は、このスペクトル差演算の重要な一部ではあるものの、全ての信号フレームについて、インタリーブが施される必要があるわけではない。インタリーブが必要かどうかは、インタリーブ・フラグであるＩ_ｆｌａｇによって示されており、フラグがアクティブかどうかは、現フレームにおいて処理がなされている信号のタイプに依存する。ある特定のフレームについてインタリーブがなされる必要がある場合には、現在の音声フレームのピッチ周期であるＴから算出されるインタリーブ間隔が用いられる。これらの処理は、音声コーデックの符号化装置で行われる。

復号装置１５０において、スペクトル変形部１０３は、ターゲット信号ｅ_ｔを得た後に、インタリーブ・フラグＩ_ｆｌａｇおよびピッチ周期Ｔ等の他の情報と共に量子化情報Ｇ’_ｂを得る。そして、スペクトル変形部１０３は、これらのパラメータによって得られるスペクトルが、参照信号のスペクトルに近いものとなるように、ターゲット信号のスペクトルを変形する。

図６は、上記の周波数変換部１０１およびスペクトル差演算部１０２内部の主要な構成
を示すブロック図である。

ＦＦＴ部２０１は、ＦＦＴ等の変換方法を用いて、変形対象となるターゲット信号ｅ_ｔおよび参照信号ｅ_ｒを周波数領域の信号に変換する。ＦＦＴ部２０１は、Ｉ_ｆｌａｇをフラグとして用い、信号の特定フレームがインタリーブを施されるに適するかどうかを判断する。インタリーブ部２０２におけるインタリーブ処理に先立ち、現在の音声フレームが周期性かつ定常性を有する信号であるかどうかを判定するためのピッチ検出が実行される。処理されるフレームが周期性かつ定常性を有する信号である場合には、インタリーブ・フラグは、アクティブに設定される。周期性かつ定常性を有する信号の場合、駆動音源処理により、通常は、スペクトル波形において、あるインターバルでの特徴的なピークを有する周期性パターンが生じる（図１参照）。このインターバルは、信号のピッチ周期Ｔまたは周波数領域における基本ピッチ周波数ｆ_０により特定される。

帯域数がＫの倍数にならない場合には、スペクトル係数の個数が等しく分配されないこともある。そのような場合には、パーティション化部２０３は、等しく分配可能なサンプ
ルは、次式（２ａ）に従って割り当て、残りのサンプルは、次式（２ｂ）に従って最後の帯域（ｂ＝Ｂ−１）に割り当てる。

上記のエネルギー演算は、参照信号とターゲット信号との双方の各帯域についてなされ、参照信号エネルギーｅｎｅｒｇｙ_ｒｅｆ_ｂおよびターゲット信号エネルギーｅｎｅｒｇｙ_ｔｇｔ_ｂが生成される。

ゲイン量子化部２０６は、ゲインＧ_ｂを、量子化分野において一般に知られるスカラー量子化またはベクトル量子化を用いて量子化し、量子化ゲインＧ’_ｂを得る。量子化ゲインＧ’_ｂは、ピッチ周期Ｔおよびインタリーブ・フラグＩ_ｆｌａｇと併せて、復号装置で信号のスペクトルを変形するために、復号装置１５０に対して送信される。

復号装置１５０における処理は、参照信号と比較したターゲット信号の差が算出された符号化装置の処理に対する逆処理となる。すなわち、復号装置においては、スペクトル変
形によるものが参照信号に可能な限り近いものとなるように、この差がターゲット信号に対して、適用される。

変形がなされる必要のある、符号化装置１００のものと同一のターゲット信号ｅ_ｔは、復号装置１５０において、この段階では既に合成がなされていて、スペクトル変形が実行できる状態にあるものと仮定する。また、スペクトル変形部１０３での処理を実行することができるように、量子化ゲインＧ’_ｂ、ピッチ周期Ｔおよびインタリーブ・フラグＩ_ｆｌａｇもビットストリームから復号される。

インタリーブ部３０２は、インタリーブ・フラグＩ_ｆｌａｇがアクティブに設定されている場合、ピッチ周期Ｔから算出される基本ピッチ周波数ｆ_０をインタリーブ間隔として用い、式（１）に従って、スペクトル係数をインタリーブする。このインタリーブ・フラグＩ_ｆｌａｇは、現フレームに対しインタリーブ処理を施す必要があるか否かを示すフラグである。

このように、本実施の形態によれば、周波数スペクトルにおける周期性パターン（繰り返しパターン）を利用し、インタリーブ処理を用いて信号スペクトルを変形し、スペクト
ル係数のうちの類似したものをグループ化するので、音声符号化装置の符号化効率を向上させることができる。

符号化装置１００は、符号化品質を向上させるべく、この主符号化器４００に対して追加して設けられるものである。ターゲット信号ｅ_ｔは、駆動音源符号化部４０３より、符号化された駆動音源信号から得られる。参照信号ｅ_ｒは、入力音声信号ｓを、ＬＰＣ逆フィルタ４０４においてＬＰＣ係数を用いて逆フィルタリング処理することにより得られる。ピッチ周期Ｔおよびインタリーブ・フラグＩ_ｆｌａｇは、ピッチ周期抽出・有声／無声判定部４０５において入力音声信号ｓを用いて算出される。符号化装置１００は、これらの入力を受けて、上述の通りの処理を行い、復号装置においてスペクトル変形処理に用いられるスケールファクタＧ’_ｂを得る。

音声符号化システム１５００では、駆動音源生成部５０１、ＬＰＣ復号部５０２、およびＬＰＣ合成フィルタ５０３が、典型的な音声復号器の主復号器５００を構成する。駆動音源生成部５０１において駆動音源信号が生成され、ＬＰＣ復号部５０２において送信された駆動音源パラメータを用いて量子化されたＬＰＣ係数が復号される。この駆動音源信号および復号されたＬＰＣ係数は、出力音声を合成するのに直接は用いられない。これに先立ち、生成された駆動音源信号は、上述した処理に従って、復号装置１５０においてピッチ周期Ｔ、インタリーブ・フラグＩ_ｆｌａｇおよびスケールファクタＧ’_ｂ等の送信されたパラメータを用いてスペクトルを変形することによりエンハンスされる。駆動音源生成部５０１から生成された駆動音源信号は、変形されるターゲット信号ｅ_ｔとしての役割を果たす。復号装置１５０のスペクトル変形部１０３からの出力は、そのスペクトルが参照信号ｅ_ｒのスペクトルに近いものとなるように変形されている駆動音源信号ｅ’_ｔである。変形された駆動音源信号ｅ’_ｔおよび復号されたＬＰＣ係数は、ＬＰＣ合成フィルタ５０３において、出力音声ｓ’を合成するのに用いられる。

また、以上の記載から、実施の形態１に係る符号化装置１００および復号装置１５０は、図１１に示されるようなステレオタイプの音声符号化システムに対しても適用可能であることが明らかである。このステレオ音声符号化システムにおいては、ターゲットチャネルは、モノラルチャネルであり得る。このモノラル信号Ｍは、ステレオチャネルのＬチャネルとＲチャネルとの平均を取ることにより、モノラル信号を合成する。参照チャネルは、ＬチャネルまたはＲチャネルの何れであっても良い。なお、図１１においては、Ｌチャ
ネル信号Ｌが参照チャネルとして用いられている。

以上、本発明の各実施の形態について説明した。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

Claims

音声信号の周波数スペクトルのピッチ周波数または繰り返しパターンを取得する取得手段と、
前記周波数スペクトルの複数のスペクトル係数が、類似するスペクトル係数同士で密集するように、前記ピッチ周波数または繰り返しパターンに基づいて前記複数のスペクトル係数をインターリーブするインターリーブ手段と、
インターリーブされた前記スペクトル係数を符号化する符号化手段と、
を具備する音声符号化装置。
インターリーブされた前記スペクトル係数を複数の帯域に分割する分割手段と、
前記複数の帯域のエネルギーと参照信号のエネルギーとの比を算出する算出手段と、
前記エネルギーの比を符号化するゲイン符号化手段と、
をさらに具備する請求項１記載の音声符号化装置。
前記音声信号において前記ピッチ周波数または繰り返しパターンが存在する区間を検出する検出手段をさらに具備し、
前記インターリーブ手段は、
検出された前記区間にインターリーブ処理を施す、
請求項１記載の音声符号化装置。
請求項１記載の音声符号化装置を具備する通信端末装置。
請求項１記載の音声符号化装置を具備する基地局装置。
音声信号の周波数スペクトルのピッチ周波数または繰り返しパターンを取得するステップと、
前記ピッチ周波数または繰り返しパターンに基づいて、前記周波数スペクトルの複数のスペクトル係数のうち、類似するスペクトル係数同士を複数のグループに分類するステップと、
前記各グループで前記複数のスペクトル係数同士が密集するように、前記複数のスペクトル係数をインターリーブするステップと、
を具備するスペクトル変形方法。