JPWO2008155919A1

JPWO2008155919A1 - 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法

Info

Publication number: JPWO2008155919A1
Application number: JP2009520334A
Authority: JP
Inventors: 佐藤　薫; 薫佐藤; 利幸森井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-06-21
Filing date: 2008-06-20
Publication date: 2010-08-26
Also published as: WO2008155919A1; US20100185442A1

Abstract

サブフレーム毎に行う適応音源ベクトル量子化の量子化精度を向上することができる適応音源ベクトル量子化装置等を開示する。この装置において、ピッチ周期指示部（１０１）は、フルサーチ範囲を第１サブフレームのピッチ周期探索範囲として出力し、ピッチ周期記憶部（１０７）は、各サブフレームのピッチ周期を記憶し、ピッチ周期比較部（１０８）は、現フレームの第１サブフレームのピッチ周期が過去フレームの第２サブフレームのピッチ周期を含む所定範囲に存在するか否かを判定し、判定結果として「１」または「２」を出力し、ピッチ周期指示部（１０１）は、ピッチ周期比較部（１０８）の出力が「１」である場合には、上記の所定範囲を現フレームの第２サブフレームのピッチ周期探索範囲として出力し、ピッチ周期比較部（１０８）の出力が「２」である場合には、上記のフルサーチ範囲を現フレームの第２サブフレームのピッチ周期探索範囲として出力する。

Description

本発明は、ＣＥＬＰ方式の音声符号化において適応音源のベクトル量子化を行う適応音源ベクトル量子化装置および適応音源ベクトル量子化方法に関し、特にインターネット通信に代表されるパケット通信システムや、移動通信システムなどの分野で、音声信号の伝送を行う音声符号化／復号装置に用いられ適応音源のベクトル量子化を行う適応音源ベクトル量子化装置および適応音源ベクトル量子化方法に関する。

ディジタル無線通信や、インターネット通信に代表されるパケット通信、あるいは音声蓄積などの分野においては、電波などの伝送路容量や記憶媒体の有効利用を図るため、音声信号の符号化／復号技術が不可欠である。特に、ＣＥＬＰ方式の音声符号化／復号技術が主流の技術となっている（例えば、非特許文献１参照）。

ＣＥＬＰ方式の音声符号化装置は、予め記憶された音声モデルに基づいて入力音声を符号化する。具体的には、ＣＥＬＰ方式の音声符号化装置は、ディジタル化された音声信号を１０〜２０ｍｓ程度の一定時間間隔のフレームに区切り、各フレーム内の音声信号に対して線形予測分析を行い線形予測係数（ＬＰＣ：Linear Prediction Coefficient）と線形予測残差ベクトルを求め、線形予測係数および線形予測残差ベクトルをそれぞれ個別に符号化する。ＣＥＬＰ方式の音声符号化／復号装置において、線形予測残差ベクトルは、過去に生成された駆動音源信号を格納している適応音源符号帳と、固定の形状のベクトル（固定コードベクトル）を特定数個格納している固定符号帳を用いて、符号化／復号される。そのうち、適応音源符号帳は、線形予測残差ベクトルが有する周期的成分を表現するために用いられる一方、固定符号帳は、線形予測残差ベクトルのうち適応音源符号帳では表現できない非周期的成分を表現するために用いられる。

なお、線形予測残差ベクトルの符号化／復号処理においては、フレームをさらに短い時間単位(５ｍｓ〜１０ｍｓ程度)に分割したサブフレーム単位で行われるのが一般的である。非特許文献２に記載されているＩＴＵ−Ｔ勧告Ｇ．７２９では、フレームを２つのサブフレームに分割し、２つのサブフレーム各々に対し適応音源符号帳を用いてピッチ周期を探索することにより適応音源のベクトル量子化を行う。具体的には、第１サブフレームでは固定の範囲内からピッチ周期を求め、第２サブフレームでは第１サブフレームで求められたピッチ周期の近傍の範囲内からピッチ周期を求めるという「デルタラグ」と呼ばれる方法が挙げられる。このような、サブフレーム単位の適応音源ベクトル量子化方法は、フレーム単位の適応音源ベクトル量子化方法よりも計算量を低減することができる。
M.R.Schroeder、B.S.Atal著、「IEEE proc. ICASSP」、１９８５、「Code Excited Linear Prediction: High Quality Speech at Low Bit Rate」、ｐ．９３７−９４０ "ITU-T Recommendation G.729", ITU-T, 1996/3, pp.17-19

しかしながら、上記のような第１サブフレームのピッチ周期の近傍の範囲を第２サブフレームのピッチ周期探索範囲とする「デルタラグ」という適応音源ベクトル量子化においては、第１サブフレームと第２サブフレームとの間のピッチ周期の連続性は考慮されるものの、過去フレームの第２サブフレームと現フレームの第１サブフレームとの間のピッチ周期の連続性は考慮されず、さらに現フレームの第１サブフレームと第２サブフレームと間にピッチ周期の変動が大きく、第２サブフレームのピッチ周期を第１サブフレームのピッチ周期のデルタラグで正確に表せない場合には、適応音源ベクトル量子化の精度が劣化するという問題が生じる。

本発明の目的は、サブフレーム単位で線形予測符号化を行うＣＥＬＰ音声符号化装置において、過去フレームの第２サブフレームと現フレームの第１サブフレームとの間のピッチ周期の連続性、および現フレームの第１サブフレームと第２サブフレームとの間のピッチ周期の連続性の両方を考慮し、現フレームの第１サブフレームと第２サブフレームと間にピッチ周期の変動が大きい場合でも、適応音源ベクトル量子化の精度を向上することができる適応音源ベクトル量子化装置および適応音源ベクトル量子化方法を提供することである。

本発明の適応音源ベクトル量子化装置は、１フレームを複数のサブフレームに分割して行われた線形予測分析により求められた、サブフレーム毎の線形予測残差ベクトルおよび線形予測係数を用いて適応音源のベクトル量子化を行う適応音源ベクトル量子化装置であって、現フレームの第１サブフレームの線形予測残差ベクトルおよび線形予測係数を用いて所定のフルサーチ範囲において前記現フレームの第１サブフレームのピッチ周期を探索する探索手段と、前記各サブフレームのピッチ周期を記憶するピッチ周期記憶手段と、前記現フレームの第１サブフレームのピッチ周期が前記過去フレームの第２サブフレームのピッチ周期を含む所定範囲に存在するか否かを判定する判定手段と、前記現フレームの第１サブフレームのピッチ周期が前記所定範囲に存在する場合には、前記現フレームの第１サブフレームのピッチ周期と前記過去フレームの第２サブフレームのピッチ周期との差分を算出する差分算出手段と、前記差分と現フレームの第２サブフレームのピッチ周期とをそれぞれ符号化する符号化手段と、を具備する構成を採る。

本発明の適応音源ベクトル量子化方法は、１フレームを複数のサブフレームに分割して行われた線形予測分析により求められた、サブフレーム毎の線形予測残差ベクトルおよび線形予測係数を用いて適応音源のベクトル量子化を行う適応音源ベクトル量子化方法であって、現フレームの第１サブフレームの線形予測残差ベクトルおよび線形予測係数を用いて所定のフルサーチ範囲において前記現フレームの第１サブフレームのピッチ周期を探索するステップと、前記各サブフレームのピッチ周期を記憶するステップと、前記現フレームの第１サブフレームのピッチ周期が前記過去フレームの第２サブフレームのピッチ周期を含む所定範囲に存在するか否かを判定するステップと、前記現フレームの第１サブフレームのピッチ周期が前記所定範囲に存在する場合には、前記現フレームの第１サブフレームのピッチ周期と前記過去フレームの第２サブフレームのピッチ周期との差分を算出するステップと、前記差分と現フレームの第２サブフレームのピッチ周期とをそれぞれ符号化するステップと、を具備するようにした。

本発明によれば、サブフレーム単位で線形予測符号化を行うＣＥＬＰ音声符号化装置において、過去フレームの第２サブフレームと現フレームの第１サブフレームとの間のピッチ周期の連続性、および現フレームの第１サブフレームと第２サブフレームとの間のピッチ周期の連続性の両方を考慮し、現フレームの第１サブフレームと第２サブフレームと間にピッチ周期の変動が大きい場合でも、適応音源ベクトル量子化の精度を向上することができる。

本発明の一実施の形態に係る適応音源ベクトル量子化装置の主要な構成を示すブロック図本発明の一実施の形態に係る適応音源符号帳が備える駆動音源を示す図本発明の一実施の形態に係る適応音源ベクトル逆量子化装置の主要な構成を示すブロック図

本発明の各実施の形態では、適応音源ベクトル量子化装置を含むＣＥＬＰ音声符号化装置において、１６ｋＨｚの音声信号を構成する各フレームをそれぞれ２つのサブフレームに分割し、各サブフレームに対し線形予測分析を行ってサブフレーム毎の線形予測係数および線形予測残差ベクトルを求める場合を例にとる。なお、以下の説明では、フレーム長をｎと記し、サブフレーム長をｍと記す。

以下、本発明の一実施の形態について、添付図面を参照して詳細に説明する。

図１は、本発明の一実施の形態に係る適応音源ベクトル量子化装置１００の主要な構成を示すブロック図である。

図１において、適応音源ベクトル量子化装置１００は、ピッチ周期指示部１０１、適応音源符号帳１０２、適応音源ベクトル生成部１０３、合成フィルタ１０４、評価尺度算出部１０５、評価尺度比較部１０６、ピッチ周期記憶部１０７、ピッチ周期比較部１０８、デルタラグ算出部１０９、およびピッチ周期符号化部１１０を備え、サブフレームインデックス、線形予測係数、およびターゲットベクトルがサブフレーム毎に入力される。そのうち、サブフレームインデックスは、本実施の形態に係る適応音源ベクトル量子化装置１００を含むＣＥＬＰ音声符号化装置において得られた各サブフレームがフレーム内において何番目のサブフレームであるかを表し、線形予測係数およびターゲットベクトルは、ＣＥＬＰ音声符号化装置において各サブフレームに対し線形予測分析を行って求められたサブフレーム毎の線形予測係数および線形予測残差（励振信号）ベクトルを表す。線形予測係数としては、ＬＰＣパラメータ、もしくは、ＬＰＣパラメータと一対一で相互変換可能な周波数領域のパラメータであるＬＳＦ（Line Spectral Frequency）パラメータ、ＬＳＰ（Line Spectral Pairs）パラメータなどを用いる。

ピッチ周期指示部１０１は、サブフレーム毎に入力されるサブフレームインデックス、ピッチ周期記憶部１０７から入力される第１サブフレームのピッチ周期、およびピッチ周期比較部１０８から入力される比較結果、すなわち現フレームの第１サブフレームを過去フレームの第２サブフレームのデルタラグとして表現できるか否かの判定結果に基づき、予め設定されているピッチ周期探索範囲内のピッチ周期を適応音源ベクトル生成部１０３へ順次指示する。

適応音源符号帳１０２は、駆動音源を格納するバッファを内蔵しており、サブフレーム単位でのピッチ周期探索が終了する度に、評価尺度比較部１０６からフィードバックされるピッチ周期を用いて駆動音源を更新する。

適応音源ベクトル生成部１０３は、ピッチ周期指示部１０１から指示されるピッチ周期候補を有する適応音源ベクトルを適応音源符号帳１０２からサブフレーム長ｍだけ切り出し、評価尺度算出部１０５に出力する。

合成フィルタ１０４は、サブフレーム毎に入力される線形予測係数を用いて合成フィルタを構成し、サブフレーム毎に入力されるサブフレームインデックスに基づき合成フィルタのインパルス応答行列を生成して評価尺度算出部１０５に出力する。

評価尺度算出部１０５は、適応音源ベクトル生成部１０３から入力される適応音源ベクトル、合成フィルタ１０４から入力されるインパルス応答行列、およびフレーム毎に入力されるターゲットベクトルを用いて、ピッチ周期探索用の評価尺度を算出して評価尺度比較部１０６に出力する。

評価尺度比較部１０６は、フレーム毎に入力されるサブフレームインデックスに基づき、各サブフレームにおいて、評価尺度算出部１０５から入力される評価尺度が最大となる時のピッチ周期候補を対応するサブフレームのピッチ周期として求め、適応音源符号帳１０２、ピッチ周期記憶部１０７、ピッチ周期比較部１０８、デルタラグ算出部１０９、およびピッチ周期符号化部１１０に出力する。

ピッチ周期記憶部１０７は、評価尺度比較部１０６から入力される第１サブフレームのピッチ周期を記憶し、記憶している過去１サブフレームのピッチ周期をピッチ周期指示部１０１、ピッチ周期比較部１０８およびデルタラグ算出部１０９に出力する。

ピッチ周期比較部１０８は、ピッチ周期記憶部１０７に記憶されている過去フレームの第２サブフレームのピッチ周期と、評価尺度比較部１０６から入力される現フレームの第１サブフレームのピッチ周期とを比較し、現フレームの第１サブフレームを過去フレームの第２サブフレームのデルタラグとして表現できるか否かを判定し、ピッチ周期をデルタラグで表すサブフレームの番号を比較結果としてピッチ周期指示部１０１、デルタラグ算出部１０９、およびピッチ周期符号化部１１０に出力する。すなわち、ピッチ周期比較部１０８は、現フレームの第１サブフレームを過去フレームの第２サブフレームのデルタラグとして表現できると判定した場合には、ピッチ周期をデルタラグで表すサブフレームの番号として「１」を出力し、現フレームの第１サブフレームを過去フレームの第２サブフレームのデルタラグとして表現できないと判定した場合には、ピッチ周期をデルタラグで表すサブフレームの番号として「２」を出力する。

デルタラグ算出部１０９は、ピッチ周期比較部１０８から入力される比較結果に基づき、すなわち現フレームの第１サブフレームを過去フレームの第２サブフレームのデルタラグとして表現できるか否かの判定結果に基づき、評価尺度比較部１０６から入力される現フレームの第１サブフレームのピッチ周期と、ピッチ周期記憶部１０７から入力される過去フレームの第２サブフレームのピッチ周期との差分、または評価尺度比較部１０６から入力される第２サブフレームのピッチ周期と、ピッチ周期記憶部１０７から入力される現フレームの第１サブフレームのピッチ周期との差分をデルタラグとして算出し、ピッチ周期符号化部１１０に出力する。

ピッチ周期符号化部１１０は、ピッチ周期比較部１０８から入力される比較結果と、デルタラグ算出部１０９から入力されるデルタラグと、評価尺度比較部１０６から入力されるインデックスとを符号化し、得られるピッチ周期符号化データを出力する。

適応音源ベクトル量子化装置１００の各部は、以下の動作を行う。

ピッチ周期指示部１０１は、サブフレーム毎に入力されるサブフレームインデックスが第１サブフレームを示す場合、予め設定されているピッチ周期探索範囲内のピッチ周期Ｔ＿ｉｎｔ、例えば「３２」から「２８７」までの８ビットに対応する２５６通りのピッチ周期Ｔ＿ｉｎｔ（Ｔ＿ｉｎｔ＝３２、３３、…、２８７）を適応音源ベクトル生成部１０３へ順次指示する。ここで、「３２」から「２８７」まではピッチ周期を示すインデックスである。また、ピッチ周期指示部１０１は、サブフレーム毎に入力されるサブフレームインデックスが第２サブフレームを示す場合には、ピッチ周期比較部１０８から入力される比較結果に応じたピッチ周期Ｔ＿ｉｎｔを適応音源ベクトル生成部１０３に順次指示する。具体的には、ピッチ周期比較部１０８から入力される比較結果に基づき、ピッチ周期をデルタラグで表すサブフレームの番号が「１」である場合には、ピッチ周期指示部１０１は、第２サブフレームのピッチ周期の探索範囲としてピッチ周期Ｔ＿ｉｎｔ（Ｔ＿ｉｎｔ＝３２、３３、…、２８７）を適応音源ベクトル生成部１０３に順次指示し、ピッチ周期をデルタラグで表すサブフレームの番号が「２」である場合には、第２サブフレームのピッチ周期の探索範囲としてピッチ周期Ｔ＿ｉｎｔ（Ｔ＿ｉｎｔ＝Ｔ１’−７、Ｔ１’−６、…、Ｔ１’、…、Ｔ１’＋８）を適応音源ベクトル生成部１０３に順次指示する。ここで、Ｔ１’は、ピッチ周期記憶部１０７から入力される第１サブフレームのピッチ周期である。

適応音源符号帳１０２は、駆動音源を格納するバッファを内蔵しており、サブフレーム単位でピッチ周期探索が終了する度に、評価尺度比較部１０６からフィードバックされるピッチ周期Ｔ’を有する適応音源ベクトルを用いて駆動音源を更新する。

適応音源ベクトル生成部１０３は、ピッチ周期指示部１０１から指示されるピッチ周期候補Ｔを有する適応音源ベクトルを適応音源符号帳１０２からサブフレーム長ｍだけ切り出し、適応音源ベクトルＰ（Ｔ）として評価尺度算出部１０５に出力する。例えば、適応音源符号帳１０２がｅｘｃ（０），ｅｘｃ（１），…，ｅｘｃ（ｅ−１）で表されるようにｅの長さを持つベクトルからなる場合、適応音源ベクトル生成部１０３において生成される適応音源ベクトルＰ（Ｔ）は、下記の式（１）で表される。

図２は、適応音源符号帳１０２が備える駆動音源を示す図である。

図２において、ｅは駆動音源１２１の長さを表し、ｍは適応音源ベクトルＰ（Ｔ）の長さを示し、Ｔはピッチ周期指示部１０１から指示されるピッチ周期候補を示す。図２に示すように、適応音源ベクトル生成部１０３は、駆動音源１２１（適応音源符号帳１０２）の末尾（ｅの位置）からＴだけ離れた位置を起点とし、ここから末尾ｅの方向へサブフレーム長ｍの部分１２２を切り出し、適応音源ベクトルＰ（Ｔ）を生成する。ここで、Ｔの値がｍより小さい場合、適応音源ベクトル生成部１０３は、切り出した区間をサブフレーム長ｍになるまで反復して充足させると良い。なお、適応音源ベクトル生成部１０３は、上記の式（１）で表される切り出し処理を、ピッチ周期指示部１０１から指示される探索範囲内のすべてのＴに対し繰り返す。

合成フィルタ１０４は、サブフレーム毎に入力される線形予測係数を用いて合成フィルタを構成し、サブフレーム毎に入力されるサブフレームインデックスが第１サブフレームを示す場合は、下記の式（２）で表されるインパルス応答行列を生成する一方、サブフレームインデックスが第２サブフレームを示す場合は、下記の式（３）で表されるインパルス応答行列を生成して評価尺度算出部１０５に出力する。

式（２）および式（３）に示すように、サブフレームインデックスが第１サブフレームを示す場合のインパルス応答行列Ｈ、およびサブフレームインデックスが第２サブフレームを示す場合のインパルス応答行列Ｈ＿ａｈｅａｄは、何れもサブフレーム長ｍだけ求められる。

評価尺度算出部１０５は、サブフレーム毎に入力されるサブフレームインデックスが第１サブフレームを示す場合には、下記の式（４）に示すターゲットベクトルＸが入力されるとともに、合成フィルタ１０４からインパルス応答行列Ｈが入力され、下記の式（５）に従ってピッチ周期探索用の評価尺度Ｄｉｓｔ（Ｔ）を算出し評価尺度比較部１０６に出力する。また、評価尺度算出部１０５は、適応音源ベクトル量子化装置１００にフレーム毎に入力されるサブフレームインデックスが第２サブフレームを示す場合には、下記の式（６）に示すターゲットベクトルＸ＿ａｈｅａｄが入力されるとともに、合成フィルタ１０４からインパルス応答行列Ｈ＿ａｈｅａｄが入力され、下記の式（７）に従ってピッチ周期探索用の評価尺度Ｄｉｓｔ（Ｔ）を算出し評価尺度比較部１０６に出力する。

式（５）および式（７）に示すように、評価尺度算出部１０５は、合成フィルタ１０４で生成されたインパルス応答行列ＨまたはＨ＿ａｈｅａｄと、適応音源ベクトル生成部１０３で生成された適応音源ベクトルＰ（Ｔ）とを畳み込んで得られる再生ベクトルと、ターゲットベクトルＸまたはＸ＿ａｈｅａｄとの二乗誤差を評価尺度として求める。なお、評価尺度算出部１０５において評価尺度Ｄｉｓｔ（Ｔ）を算出する際は、上記の式（５）または式（７）中のインパルス応答行列ＨまたはＨ＿ａｈｅａｄの代わりに、インパルス応答行列ＨまたはＨ＿ａｈｅａｄと、ＣＥＬＰ音声符号化装置に含まれる聴覚重み付けフィルタのインパルス応答行列Ｗとを乗算して得られる行列Ｈ’（＝Ｈ×Ｗ）またはＨ’＿ａｈｅａｄ（＝Ｈ＿ａｈｅａｄ×Ｗ）を用いることが一般的である。ただし、以下の説明では、ＨまたはＨ＿ａｈｅａｄと、Ｈ’またはＨ’＿ａｈｅａｄとを区別せずＨまたはＨ＿ａｈｅａｄと記載することとする。

評価尺度比較部１０６は、サブフレーム毎に入力されるサブフレームインデックスに基づき、各サブフレームにおいて、評価尺度算出部１０５から入力される評価尺度Ｄｉｓｔ（Ｔ）が最大となる時のピッチ周期候補Ｔを各サブフレームのピッチ周期Ｔ’として求め、適応音源符号帳１０２、ピッチ周期記憶部１０７、ピッチ周期比較部１０８、デルタラグ算出部１０９、およびピッチ周期符号化部１１０に出力する。

ピッチ周期記憶部１０７は、第１サブフレームのピッチ周期を記憶するバッファからなり、サブフレーム単位でのピッチ周期探索が終了する度に、評価尺度比較部１０６からフィードバックされるピッチ周期Ｔ’を用いて内蔵のバッファを更新する。

ピッチ周期比較部１０８は、ピッチ周期記憶部１０７から入力される過去フレームの第２サブフレームのピッチ周期Ｔ２’＿ｐｒｅと、評価尺度比較部１０６から入力される現フレームの第１サブフレームのピッチ周期Ｔ１’とを比較し、現フレームの第１サブフレームのピッチ周期Ｔ１’を過去フレームの第２サブフレームのピッチ周期Ｔ２’＿ｐｒｅのデルタラグで表現できるか否か判定する。具体的には、Ｔ１’がＴ２’＿ｐｒｅ−７からＴ２’＿ｐｒｅ＋８までの範囲（Ｔ２’＿ｐｒｅ−７、Ｔ２’＿ｐｒｅ−６、…、Ｔ２’＿ｐｒｅ、Ｔ２’＿ｐｒｅ＋１、…、Ｔ２’＿ｐｒｅ＋８）に含まれていれば、ピッチ周期比較部１０８は、Ｔ１’をＴ２’＿ｐｒｅのデルタラグとして表現できると判定する。現フレームの第１サブフレームのピッチ周期Ｔ１’を過去フレームの第２サブフレームのピッチ周期Ｔ２’＿ｐｒｅのデルタラグで表現できれば、現フレームの第１サブフレームのピッチ周期を４ビットの情報量で符号化することができ、その代わりに現フレームの第２サブフレームにおいて８ビットの情報量でピッチ周期のフルサーチを行うことができる。

一方、現フレームの第１サブフレームのピッチ周期Ｔ１’を過去フレームの第２サブフレームのピッチ周期Ｔ２’＿ｐｒｅのデルタラグで表現できない場合には、現フレームの第１サブフレームのピッチ周期を符号化するには８ビットの情報量が必要となり、現フレームの第２サブフレームにおいては４ビットの情報量で「デルタラグ」のピッチ周期探索を行うこととなる。ピッチ周期比較部１０８は、比較結果として、ピッチ周期をデルタラグで表すサブフレームの番号「１」または「２」をピッチ周期指示部１０１、デルタラグ算出部１０９、およびピッチ周期符号化部１１０に出力する。

デルタラグ算出部１０９は、ピッチ周期比較部１０８から入力される比較結果が「１」である場合には、評価尺度比較部１０６から入力される現フレームの第１サブフレームのピッチ周期Ｔ１’と、ピッチ周期記憶部１０７から入力される過去フレームの第２サブフレームのピッチ周期Ｔ２’＿ｐｒｅとの差分をデルタラグとして算出し、ピッチ周期符号化部１１０に出力する。例えば、デルタラグ算出部１０９は、現フレームの第１サブフレームのピッチ周期Ｔ１’と、過去フレームの第２サブフレームのピッチ周期Ｔ２’＿ｐｒｅとの差分（Ｔ１’−Ｔ２’＿ｐｒｅ）を表す「−７、−６、…、０、…、７、８」の１６通りの候補のうちの１つをピッチ周期符号化部１１０に出力する。

一方、デルタラグ算出部１０９は、ピッチ周期比較部１０８から入力される比較結果が「２」である場合には、評価尺度比較部１０６から入力される現フレームの第２サブフレームのピッチ周期Ｔ２’と、ピッチ周期記憶部１０７から入力される現フレームの第１サブフレームのピッチ周期Ｔ１’との差分をデルタラグとして算出し、ピッチ周期符号化部１１０に出力する。例えば、デルタラグ算出部１０９は、現フレームの第２サブフレームのピッチ周期Ｔ２’と、現フレームの第１サブフレームのピッチ周期Ｔ１’との差分（Ｔ２’−Ｔ１’）を表す「−７、−６、…、０、…、７、８」の１６通りの候補のうちの１つをピッチ周期符号化部１１０に出力する。

ピッチ周期符号化部１１０は、ピッチ周期比較部１０８から入力される比較結果が「１」である場合には、現フレームの第１サブフレームのピッチ周期Ｔ’を表すパラメータ、すなわち、デルタラグ算出部１０９から入力されるデルタラグを４ビットの情報量で符号化するとともに、評価尺度比較部１０６から入力される現フレームの第２サブフレームのピッチ周期Ｔ２’を８ビットの情報量で符号化する。例えば、ピッチ周期符号化部１１０は、現フレームの第１サブフレームのピッチ周期Ｔ１’と、過去フレームの第２サブフレームのピッチ周期Ｔ２’＿ｐｒｅとの差分（Ｔ１’−Ｔ２’＿ｐｒｅ）を表す「−７、−６、…、０、…、７、８」の１６通りの候補のうちの１つを４ビットで符号化し、「３２、３３、…、２８７」の２５６通りの候補のうちの１つで表される現フレームの第２サブフレームのピッチ周期Ｔ２’を８ビットで符号化する。

一方、ピッチ周期符号化部１１０は、ピッチ周期比較部１０８から入力される比較結果が「２」である場合には、評価尺度比較部１０６から入力される現フレームの第１サブフレームのピッチ周期Ｔ１’を８ビットの情報量で符号化し、現フレームの第２サブフレームのピッチ周期Ｔ２’を表すパラメータ、すなわち、デルタラグ算出部１０９から入力されるデルタラグを４ビットの情報量で符号化する。例えば、ピッチ周期符号化部１１０は、「３２、３３、…、２８７」の２５６通りの候補のうちの１つで表される現フレームの第１サブフレームのピッチ周期Ｔ１’を８ビットで符号化し、現フレームの第２サブフレームのピッチ周期Ｔ２’と、現フレームの第１サブフレームのピッチ周期Ｔ１’との差分（Ｔ２’−Ｔ１’）を表す「−７、−６、…、０、…、７、８」の１６通りの候補のうちの１つを４ビットで符号化する。

また、ピッチ周期符号化部１１０は、ピッチ周期比較部１０８から入力される比較結果、すなわち、ピッチ周期をデルタラグで表すサブフレームの番号を１ビットの情報量で符号化する。

ピッチ周期符号化部１１０は、符号化された各サブフレームのピッチ周期またはデルタラグと、符号化された比較結果とをピッチ周期符号化データとしてＣＥＬＰ音声符号化装置に出力する。

以上、本実施の形態に係る適応音源ベクトル量子化装置１００の構成および動作について説明した。

適応音源ベクトル量子化装置１００を含むＣＥＬＰ音声符号化装置は、ピッチ周期符号化部１１０において生成されたピッチ周期符号化データを含む音声符号化情報を、本実施の形態に係る適応音源ベクトル逆量子化装置を含むＣＥＬＰ音声復号装置に送信する。ＣＥＬＰ音声復号装置は、受信した音声符号化情報を復号し各サブフレームのピッチ周期のインデックスまたはデルタラグと、比較結果とを含むピッチ周期復号データを得て、本実施の形態に係る適応音源ベクトル逆量子化装置へ出力する。なお、ＣＥＬＰ音声復号装置における音声復号処理も、ＣＥＬＰ音声符号化装置における音声符号化処理と同様にサブフレームに単位で行われ、ＣＥＬＰ音声復号装置はサブフレームインデックスを本実施の形態に係る適応音源ベクトル逆量子化装置へ出力する。

図３は、本実施の形態に係る適応音源ベクトル逆量子化装置２００の主要な構成を示すブロック図である。

図３において、適応音源ベクトル逆量子化装置２００は、分離部２０１、ピッチ周期生成部２０２、ピッチ周期記憶部２０３、適応音源符号帳２０４、および適応音源ベクトル生成部２０５を備え、ＣＥＬＰ音声復号装置において生成されたサブフレームインデックス、およびピッチ周期復号データが入力される。

分離部２０１は、入力されるピッチ周期復号データから各サブフレームのピッチ周期のインデックスまたはデルタラグと、比較結果とを分離してピッチ周期生成部２０２に出力する。

ピッチ周期生成部２０２は、分離部２０１から入力される比較結果に基づき各サブフレームのピッチ周期Ｔ’’を生成してピッチ周期記憶部２０３、適応音源符号帳２０４および適応音源ベクトル生成部２０５に出力する。具体的には、比較結果が「１」である場合には、ピッチ周期生成部２０２は、分離部２０１から入力される現フレームの第１サブフレームのピッチ周期のデルタラグと、ピッチ周期記憶部２０３から読み出す過去フレームの第２サブフレームのピッチ周期のインデックスとを加算し、得られるインデックスが示すピッチ周期を現フレームの第１サブフレームのピッチ周期Ｔ１’’とし、分離部２０１から入力される現フレームの第２サブフレームのインデックスが示すピッチ周期を直接現フレームの第２サブフレームのピッチ周期Ｔ２’’とする。

一方、比較結果が「２」である場合には、ピッチ周期生成部２０２は、分離部２０１から入力される現フレームの第１サブフレームのインデックスが示すピッチ周期を直接現フレームの第１サブフレームのピッチ周期Ｔ１’’とし、分離部２０１から入力される現フレームの第２サブフレームのピッチ周期のインデックスと、ピッチ周期記憶部２０３から読み出す現フレームの第１サブフレームのピッチ周期を表すインデックスとを加算し、得られるインデックスが示すピッチ周期を現フレームの第２サブフレームのピッチ周期Ｔ２’’とする。

ピッチ周期記憶部２０３は、ピッチ周期生成部２０２から入力される各サブフレームのピッチ周期Ｔ’’を記憶し、後続のサブフレームの処理においてピッチ周期生成部２０２により読み出される。

適応音源符号帳２０４は、適応音源ベクトル量子化装置１００の適応音源符号帳１０２が備える駆動音源と同様な駆動音源を格納するバッファを内蔵しており、サブフレーム毎の適応音源復号処理が終わる度に、ピッチ周期生成部２０２から入力されるピッチ周期Ｔ’’を有する適応音源ベクトルを用いて駆動音源を更新する。

適応音源ベクトル生成部２０５は、ピッチ周期生成部２０２から入力されるピッチ周期Ｔ’’を有する適応音源ベクトルＰ’（Ｔ’’）を適応音源符号帳２０４からサブフレーム長ｍだけ切り出し、サブフレーム毎の適応音源ベクトルとして出力する。適応音源ベクトル生成部２０５において生成される適応音源ベクトルＰ’（Ｔ’’）は、下記の式（８）で表される。

このように、本実施の形態によれば、現フレームの第１サブフレームのピッチ周期と過去フレームの第２サブフレームとを比較した結果に基づき、現フレームの第１サブフレームのピッチ周期を過去フレームの第２サブフレームのデルタラグとして表し符号化するため、過去フレームの第２サブフレームのピッチ周期と第１サブフレームのピッチ周期との時間的な連続性を考慮することができ、また、第２サブフレームのピッチ周期探索をフルサーチに変更することにより、第１サブフレームと第２サブフレームとの間のピッチ周期の変動が大きい場合でも第２サブフレームにおいてフルサーチにより変動の大きさに対応することができ、より効率的なピッチ周期探索を行うことができる。

すなわち、現フレームの第１サブフレームのピッチ周期と過去フレームの第２サブフレームとを比較した結果に基づき、ピッチ周期をデルタラグで表すサブフレームを判定するため、過去フレームの第２サブフレームのピッチ周期と第１サブフレームのピッチ周期との時間的な連続性、および現フレームの第１サブフレームのピッチ周期と第２サブフレームのピッチ周期との時間的な連続性の両方を考慮することができ、現フレームの第１サブフレームと第２サブフレームと間にピッチ周期の変動が大きい場合でも、適応音源ベクトル量子化の精度を向上することができる。

なお、本実施の形態では、線形予測残差ベクトルを入力とし、適応音源符号帳を用いて線形予測残差ベクトルのピッチ周期を探索する場合を例にとって説明したが、本発明はこれに限定されず、音声信号そのものを入力とし、音声信号そのもののピッチ周期を直接探索しても良い。

また、本実施の形態では、ピッチ周期の候補として「２０」から「２３７」までの範囲を例にとって説明したが、本発明はこれに限定されず、他の範囲をピッチ周期の候補としても良い。

また、本実施の形態では、適応音源ベクトル量子化装置１００を含むＣＥＬＰ音声符号化装置において１つのフレームを２つのサブフレームに分割して各々のサブフレームに対し線形予測分析を行うことを前提として説明したが、本発明はこれに限定されず、ＣＥＬＰ方式の音声符号化装置において、１つのフレームを３つ以上のサブフレームに分割して各々のサブフレームに対し線形予測分析を行うことを前提としても良い。例えば、３つのサブフレームに分割して本発明を適用する場合、第１サブフレームのピッチ周期探索をフルサーチに固定し、第２サブフレームのピッチ周期探索と第３サブフレームのピッチ周期探索との間でフルサーチとデルタラグとを切り替える構成にしても良い。この構成によれば、第１サブフレームが常にフルサーチでピッチ周期探索を行うため、現フレームにおいて前フレームのピッチ周期の情報を必要とせず、フレーム損失等の伝送誤りが発生するような場合においても誤り伝播の影響を受けないことが可能である。

本発明に係る適応音源ベクトル量子化装置および適応音源ベクトル逆量子化装置は、音声伝送を行う移動体通信システムにおける通信端末装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置を提供することができる。

なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る適応音源ベクトル量子化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る適応音源ベクトル量子化装置と同様の機能を実現することができる。

また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。

２００７年６月２１日出願の特願２００７−１６３７７２の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明に係る適応音源ベクトル量子化装置、および適応音源ベクトル量子化方法は、音声符号化および音声復号等の用途に適用することができる。

しかしながら、上記のような第１サブフレームのピッチ周期の近傍の範囲を第２サブフレームのピッチ周期探索範囲とする「デルタラグ」という適応音源ベクトル量子化においては、第１サブフレームと第２サブフレームとの間のピッチ周期の連続性は考慮されるものの、過去フレームの第２サブフレームと現フレームの第１サブフレームとの間のピッチ周期の連続性は考慮されず、さらに現フレームの第１サブフレームと第２サブフレームと間にピッチ周期の変動が大きく、第２サブフレームのピッチ周期を第１サブフレームのピ
ッチ周期のデルタラグで正確に表せない場合には、適応音源ベクトル量子化の精度が劣化するという問題が生じる。

評価尺度算出部１０５は、適応音源ベクトル生成部１０３から入力される適応音源ベクトル、合成フィルタ１０４から入力されるインパルス応答行列、およびフレーム毎に入力
されるターゲットベクトルを用いて、ピッチ周期探索用の評価尺度を算出して評価尺度比較部１０６に出力する。

ピッチ周期指示部１０１は、サブフレーム毎に入力されるサブフレームインデックスが第１サブフレームを示す場合、予め設定されているピッチ周期探索範囲内のピッチ周期Ｔ＿ｉｎｔ、例えば「３２」から「２８７」までの８ビットに対応する２５６通りのピッチ周期Ｔ＿ｉｎｔ（Ｔ＿ｉｎｔ＝３２、３３、…、２８７）を適応音源ベクトル生成部１０３へ順次指示する。ここで、「３２」から「２８７」まではピッチ周期を示すインデックスである。また、ピッチ周期指示部１０１は、サブフレーム毎に入力されるサブフレームインデックスが第２サブフレームを示す場合には、ピッチ周期比較部１０８から入力される比較結果に応じたピッチ周期Ｔ＿ｉｎｔを適応音源ベクトル生成部１０３に順次指示する。具体的には、ピッチ周期比較部１０８から入力される比較結果に基づき、ピッチ周期をデルタラグで表すサブフレームの番号が「１」である場合には、ピッチ周期指示部１０
１は、第２サブフレームのピッチ周期の探索範囲としてピッチ周期Ｔ＿ｉｎｔ（Ｔ＿ｉｎｔ＝３２、３３、…、２８７）を適応音源ベクトル生成部１０３に順次指示し、ピッチ周期をデルタラグで表すサブフレームの番号が「２」である場合には、第２サブフレームのピッチ周期の探索範囲としてピッチ周期Ｔ＿ｉｎｔ（Ｔ＿ｉｎｔ＝Ｔ１’−７、Ｔ１’−６、…、Ｔ１’、…、Ｔ１’＋８）を適応音源ベクトル生成部１０３に順次指示する。ここで、Ｔ１’は、ピッチ周期記憶部１０７から入力される第１サブフレームのピッチ周期である。

式（５）および式（７）に示すように、評価尺度算出部１０５は、合成フィルタ１０４で生成されたインパルス応答行列ＨまたはＨ＿ａｈｅａｄと、適応音源ベクトル生成部１０３で生成された適応音源ベクトルＰ（Ｔ）とを畳み込んで得られる再生ベクトルと、ターゲットベクトルＸまたはＸ＿ａｈｅａｄとの二乗誤差を評価尺度として求める。なお、評価尺度算出部１０５において評価尺度Ｄｉｓｔ（Ｔ）を算出する際は、上記の式（５）または式（７）中のインパルス応答行列ＨまたはＨ＿ａｈｅａｄの代わりに、インパルス
応答行列ＨまたはＨ＿ａｈｅａｄと、ＣＥＬＰ音声符号化装置に含まれる聴覚重み付けフィルタのインパルス応答行列Ｗとを乗算して得られる行列Ｈ’（＝Ｈ×Ｗ）またはＨ’＿ａｈｅａｄ（＝Ｈ＿ａｈｅａｄ×Ｗ）を用いることが一般的である。ただし、以下の説明では、ＨまたはＨ＿ａｈｅａｄと、Ｈ’またはＨ’＿ａｈｅａｄとを区別せずＨまたはＨ＿ａｈｅａｄと記載することとする。

一方、デルタラグ算出部１０９は、ピッチ周期比較部１０８から入力される比較結果が「２」である場合には、評価尺度比較部１０６から入力される現フレームの第２サブフレームのピッチ周期Ｔ２’と、ピッチ周期記憶部１０７から入力される現フレームの第１サ
ブフレームのピッチ周期Ｔ１’との差分をデルタラグとして算出し、ピッチ周期符号化部１１０に出力する。例えば、デルタラグ算出部１０９は、現フレームの第２サブフレームのピッチ周期Ｔ２’と、現フレームの第１サブフレームのピッチ周期Ｔ１’との差分（Ｔ２’−Ｔ１’）を表す「−７、−６、…、０、…、７、８」の１６通りの候補のうちの１つをピッチ周期符号化部１１０に出力する。

図３は、本実施の形態に係る適応音源ベクトル逆量子化装置２００の主要な構成を示す
ブロック図である。

また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬ
ＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

Claims

１フレームを複数のサブフレームに分割して行われた線形予測分析により求められた、サブフレーム毎の線形予測残差ベクトルおよび線形予測係数を用いて適応音源のベクトル量子化を行う適応音源ベクトル量子化装置であって、
現フレームの第１サブフレームの線形予測残差ベクトルおよび線形予測係数を用いて所定のフルサーチ範囲において前記現フレームの第１サブフレームのピッチ周期を探索する探索手段と、
前記各サブフレームのピッチ周期を記憶するピッチ周期記憶手段と、
前記現フレームの第１サブフレームのピッチ周期が前記過去フレームの第２サブフレームのピッチ周期を含む所定範囲に存在するか否かを判定する判定手段と、
前記現フレームの第１サブフレームのピッチ周期が前記所定範囲に存在する場合には、前記現フレームの第１サブフレームのピッチ周期と前記過去フレームの第２サブフレームのピッチ周期との差分を算出する差分算出手段と、
前記差分と現フレームの第２サブフレームのピッチ周期とをそれぞれ符号化する符号化手段と、
を具備する適応音源ベクトル量子化装置。
前記探索手段は、
前記現フレームの第１サブフレームのピッチ周期が前記所定範囲に存在する場合には、前記フルサーチ範囲において前記現フレームの第２サブフレームのピッチ周期を探索し、前記現フレームの第１サブフレームのピッチ周期が前記所定範囲に存在しない場合には、前記所定範囲において前記現フレームの第２サブフレームのピッチ周期を探索する、
請求項１記載の適応音源ベクトル量子化装置。
１フレームを複数のサブフレームに分割して行われた線形予測分析により求められた、サブフレーム毎の線形予測残差ベクトルおよび線形予測係数を用いて適応音源のベクトル量子化を行う適応音源ベクトル量子化方法であって、
現フレームの第１サブフレームの線形予測残差ベクトルおよび線形予測係数を用いて所定のフルサーチ範囲において前記現フレームの第１サブフレームのピッチ周期を探索するステップと、
前記各サブフレームのピッチ周期を記憶するステップと、
前記現フレームの第１サブフレームのピッチ周期が前記過去フレームの第２サブフレームのピッチ周期を含む所定範囲に存在するか否かを判定するステップと、
前記現フレームの第１サブフレームのピッチ周期が前記所定範囲に存在する場合には、前記現フレームの第１サブフレームのピッチ周期と前記過去フレームの第２サブフレームのピッチ周期との差分を算出するステップと、
前記差分と現フレームの第２サブフレームのピッチ周期とをそれぞれ符号化するステップと、
を具備する適応音源ベクトル量子化方法。