JPWO2008108080A1

JPWO2008108080A1 - 音声符号化装置及び音声復号装置

Info

Publication number: JPWO2008108080A1
Application number: JP2009502458A
Authority: JP
Inventors: 河嶋　拓也; 拓也河嶋; 江原　宏幸; 宏幸江原; 吉田　幸司; 幸司吉田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-03-02
Filing date: 2008-02-29
Publication date: 2010-06-10
Anticipated expiration: 2028-02-29
Also published as: US20100049509A1; EP2128854A4; EP3301672A1; EP2128854B1; BRPI0808200A2; BRPI0808200A8; WO2008108080A1; EP2128854A1; US9129590B2; JP5489711B2; ES2642091T3; EP3301672B1

Abstract

フレーム消失時の隠蔽処理によって生じる、復号信号のパワー不整合に起因する復号信号の主観品質の劣化を低減する音声符号化装置及び音声復号装置を開示する。フレーム消失があると、過去の符号化パラメータを用いて、現フレームの隠蔽ＬＰＣ、隠蔽音源パラメータを得る。得られた隠蔽音源パラメータから通常のＣＥＬＰ型復号を行い、隠蔽音源信号を得る。得られた隠蔽ＬＰＣ及び隠蔽音源信号に対して、隠蔽用パラメータを用いて補正を行い、補正された隠蔽音源信号のパワーを参照音源パワーに合うように調整する。そして、合成フィルタのフィルタゲインを調整して、復号音声信号のパワーをエラーフリー時の復号音声信号のパワーに合わせる。また、隠蔽ＬＰＣを用いて構成される合成フィルタのフィルタゲインがエラーフリー時のフィルタゲインになるように、正規化予測残差パワーを用いて合成フィルタゲイン調整係数を算出する。

Description

本発明は、音声符号化装置及び音声復号装置に関する。

ＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩＰ）用音声コーデックには、高いパケットロス耐性が要求される。例えば、次世代ＶｏＩＰ向けコーデックとしてＩＴＵ−Ｔ（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ−ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＳｔａｎｄａｒｄｉｚａｔｉｏｎＳｅｃｔｏｒ）において標準化作業が進められているエンベデッド可変ビットレート音声符号化（ＥＶ−ＶＢＲ）では、フレーム消失条件において要求される復号音声の主観品質が、エラーフリーの復号音声の主観品質を基準として定められている。

フレーム消失によって発生する復号音声信号の品質劣化のうち、受聴品質に最も影響を与えるのが、音切れや過大音といったパワー変動に関連した劣化である。よって、フレーム消失補償性能を向上させるためには、音声復号装置が適切なパワー情報を消失フレームで復号できるようにすることが重要である。

フレーム消失が発生しても音声復号装置が正しいパワー情報を復号できるようにするため、消失したフレームのパワー情報を冗長情報として音声符号化装置から音声復号装置に送信することにより、消失したパワー情報の隠蔽性能を向上させる取り組みが行われている。例えば、特許文献１に記載の技術では、冗長情報として復号音声信号パワーを送信することにより、隠蔽処理によって生成される復号音声のパワーを、冗長情報として受信した復号音声信号パワーに合わせるようにしている。復号音声信号パワーに合わせるために、受信した復号音声信号パワーと、隠蔽処理によって得られる線形予測係数で構成した合成フィルタのインパルス応答パワーとを用いて、音源パワーを逆算している。

このように、特許文献１に記載の技術によれば、復号音声信号パワーを隠蔽処理のための冗長情報として使用するため、フレーム消失隠蔽処理時の復号音声信号パワーをエラーフリー時の復号音声信号パワーに合わせることが可能である。
特表２００５−５３４９５０号公報

しかしながら、特許文献１に記載の技術を用いても、フレーム消失隠蔽処理時の音源パワーをエラーフリー時の音源パワーに合わせることは保証できない。そのため、適応符号帳に格納される音源信号のパワーがフレーム消失隠蔽処理時とエラーフリー時と異なってしまい、フレーム消失後の符号化データを正しく受信できたフレーム（復帰フレーム）にこの誤差が伝播し、復号音声信号の品質劣化につながる場合がある。以下、この問題を具体的に説明する。

図１Ａは、エラーフリー時のＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ）フィルタのフィルタゲイン（図１Ａにおいて白丸で示す）、復号音源信号のパワー（図１Ａにおいて白三角で示す）、復号音声信号パワー（図１Ａにおいて白四角で示す）の時間的変化を示している。なお、横軸は、時間軸であり、フレーム単位で表しており、縦軸は、パワーの大きさを表している。

また、図１Ｂは、フレーム消失隠蔽処理時のパワー調整の例を示している。Ｋ１フレームと、Ｋ２フレームでフレーム消失しており、その他のフレームでは符号化データを正常に受信している。エラーフリー時の各パワーのプロット点表示は図１Ａと同一であり、エラーフリー時のプロット点をつなぐ直線は破線で示されている。また、Ｋ１フレームとＫ２フレームでフレーム消失した場合のパワーの変移が実線で示されている。なお、黒三角は音源パワーを、黒丸はフィルタゲインを、それぞれ示す。

まず、Ｋ１フレームが消失する場合について説明する。復号音声信号パワーは、隠蔽処理用冗長情報として音声符号化装置から送信されており、Ｋ１フレームが消失してもＫ１フレームの次のフレームのデータから正しく復号できる。この正しい復号音声信号パワーに、隠蔽処理によって生成される復号音声信号パワーを合わせることができる。

次に、フィルタゲインと音源パワーについて説明する。フィルタゲインは、隠蔽処理用冗長情報として音声符号化装置から送信されない。また、隠蔽処理によって生成されるフィルタは、過去に復号した線形予測係数を用いたものである。そのため、隠蔽処理によって生成される合成フィルタのゲイン（以下、「隠蔽フィルタゲイン」という）は過去に復号した合成フィルタのフィルタゲインに近くなる。しかしながら、エラーフリー時のフィルタゲインは必ずしも過去に復号した合成フィルタのフィルタゲインに近くなるわけではない。このため、隠蔽フィルタゲインはエラーフリー時のフィルタゲインと大きく異なる可能性がある。

例えば、図１ＢのＫ１フレームでは、エラーフリー時のフィルタゲインに対して、隠蔽フィルタゲインが大きくなっている。この場合、復号音声信号パワーを音声符号化装置から送信された復号音声信号パワーに合わせるには、エラーフリー時の音源パワーに比べてフレーム消失隠蔽処理時の音源パワーを下げる必要がある。この結果、エラーフリー時の音源パワーよりも小さくなるようにパワー調整された音源信号が適応符号帳へ入力される。こうなると、次フレーム以降で符号化データを正しく受信できても適応符号帳内の音源信号のパワーが減少しているため、復帰フレーム以降において音源パワーがエラーフリー時と比較して小さい状態になる。このため、復号音声信号パワーが小さくなってしまい、音が痩せて聞こえたり、音切れ感につながったりする可能性がある。

次に、Ｋ２フレームが消失する場合について説明する。Ｋ２フレームはＫ１フレームとは逆のケースである。すなわち、消失フレームではエラーフリー時と比べて、隠蔽フィルタゲインが小さく、音源パワーが大きいケースである。この場合は、復帰フレームにおいて音源パワーがエラーフリー時と比較して大きい状態となるため、復号音声信号のパワーが大きくなってしまい、異音感を生じる原因となる可能性がある。

特許文献１に記載の技術において、これらの問題を解決する簡単な方法は、復帰フレームにおいて音源信号のパワーを調整することであるが、適応符号帳に格納される復号音源信号が復帰フレームと消失フレームとの間で不連続になるという別の問題を生じてしまう。

本発明はかかる点に鑑みてなされたものであり、フレーム消失時の隠蔽処理によって生じる、パワー変動に起因する復号信号の主観品質の劣化を低減する音声符号化装置及び音声復号装置を提供することを目的とする。

本発明の音声符号化装置は、音源信号のパワーを算出する音源パワー算出手段と、正規化予測残差パワーを算出する正規化予測残差パワー算出手段と、算出された音源信号のパワーと正規化予測残差パワーを含む隠蔽処理用パラメータを他のパラメータと多重化する多重化手段と、具備する構成を採る。

本発明の音声復号装置は、受信した音源信号のパワーと一致するように、フレーム消失時に隠蔽処理によって生成された音源信号のパワーを調整する音源パワー調整手段と、フレーム消失時に隠蔽処理によって生成された線形予測係数の正規化予測残差パワーを算出する正規化予測残差パワー算出手段と、算出された前記正規化予測残差パワーと受信した正規化予測残差パワーとの比から合成フィルタのフィルタゲイン調整係数を算出する調整係数算出手段と、隠蔽処理によって生成された前記音源信号に前記フィルタゲイン調整係数を乗算し、合成フィルタのフィルタゲインを調整する調整手段と、隠蔽処理によって生成された前記線形予測係数と、前記フィルタゲイン調整係数が乗算された前記音源信号とを用いて、復号音声信号を合成する合成フィルタ手段と、を具備する構成を採る。

本発明によれば、フレーム消失時の隠蔽処理によって生じる、パワー変動に起因する復号信号の主観品質の劣化を低減することができる。

エラーフリー時のＬＰＣフィルタのフィルタゲイン、復号音源信号のパワー、復号音声信号パワーの時間的変化を示す図フレーム消失隠蔽処理時のパワー調整の例を示す図本発明の実施の形態に係る音声符号化装置の構成を示すブロック図図２に示したパワーパラメータ符号化部の内部構成を示すブロック図本発明の実施の形態に係る音声復号装置の構成を示すブロック図図４に示したパワーパラメータ復号部の内部構成を示すブロック図

以下、本発明の実施の形態について、図面を参照して詳細に説明する。

（実施の形態）
図２は、本発明の実施の形態に係る音声符号化装置１００の構成を示すブロック図である。以下、音声符号化装置１００を構成する各部について説明する。

ＬＰＣ分析部１０１は、入力音声信号に対して線形予測分析（ＬＰＣ分析）を行い、得られる線形予測係数（以下、「ＬＰＣ」という）をＬＰＣ符号化部１０２、聴感重み付け部１０４、聴感重み付け部１０６、正規化予測残差パワー算出部１１１に出力する。

ＬＰＣ符号化部１０２は、ＬＰＣ分析部１０１から出力されたＬＰＣを量子化及び符号化し、得られた量子化ＬＰＣをＬＰＣ合成フィルタ部１０３に、符号化ＬＰＣパラメータを多重化部１１３にそれぞれ出力する。

ＬＰＣ合成フィルタ部１０３は、ＬＰＣ符号化部１０２から出力された量子化ＬＰＣをフィルタ係数とし、音源生成部１０７から出力される音源信号によってＬＰＣ合成フィルタを駆動し、合成された信号を聴感重み付け部１０４に出力する。

聴感重み付け部１０４は、ＬＰＣ分析部１０１から出力されたＬＰＣに重み係数を乗じたフィルタ係数により聴感重み付けフィルタを構成し、ＬＰＣ合成フィルタ部１０３から出力された合成信号に対して聴覚的な重み付けを施し、符号化歪み算出部１０５に出力する。

符号化歪み算出部１０５は、聴感重み付け部１０４から出力された聴覚的な重み付けが施された合成信号と、聴感重み付け部１０６から出力される聴覚的な重みづけが施された入力音声信号との差を算出し、算出した差を符号化歪みとして音源生成部１０７に出力する。

聴感重み付け部１０６は、ＬＰＣ分析部１０１から出力されたＬＰＣに重み係数を乗じたフィルタ係数により聴感重み付けフィルタを構成し、入力音声信号に対して聴覚的な重み付けを施し、符号化歪み算出部１０５に出力する。

音源生成部１０７は、符号化歪み算出部１０５から出力された符号化歪みが最小となる音源信号をＬＰＣ合成フィルタ部１０３及び音源パワー算出部１１０に出力する。また、音源生成部１０７は、符号化歪みが最小となるときの音源信号及びピッチラグをピッチパルス抽出部１０９に出力し、符号化歪みが最小となるときの雑音符号帳インデックス、雑音符号帳ゲイン、ピッチラグ及びピッチゲインなどの音源パラメータを音源パラメータ符号化部１０８に出力する。図２では、雑音符号帳ゲインとピッチゲインとはベクトル量子化等により一つのゲイン情報として出力される。なお、雑音符号帳ゲインとピッチゲインを別々に出力する形態であってもよい。

音源パラメータ符号化部１０８は、音源生成部１０７から出力された雑音符号帳インデックス、ゲイン（雑音符号帳ゲインとピッチゲインを含む）及びピッチラグなどの音源パラメータを符号化し、得られた符号化音源パラメータを多重化部１１３に出力する。

ピッチパルス抽出部１０９は、音源生成部１０７から出力されたピッチラグ情報を用いて、音源生成部１０７から出力された音源信号のピッチパルスを検出し、ピッチパルスの位置と振幅を算出する。ここで、ピッチパルスとは、音源信号の１ピッチ周期長の中で振幅が極大となっているサンプルのことを指す。ピッチパルスの位置は符号化され、得られた符号化ピッチパルス位置パラメータを多重化部１１３に出力する。一方、ピッチパルスの振幅はパワーパラメータ符号化部１１２に出力される。ピッチパルスは、例えば、フレーム後端からピッチラグ長の範囲に存在する振幅最大の点を探索することによって検出される。この場合、振幅の絶対値が最大となる振幅を有するサンプルの位置と振幅がそれぞれピッチパルス位置とピッチパルス振幅となる。

音源パワー算出部１１０は、音源生成部１０７から出力された現フレームの音源パワーを算出し、算出した現フレームの音源パワーをパワーパラメータ符号化部１１２に出力する。ｎ番フレームにおける音源パワーＰｅ（ｎ）は以下の式（１）により算出される。

ここで、Ｌ＿ＦＲＡＭＥはフレーム長を、ｅｘｃ_ｎ［］は音源信号を、ｉはサンプル番号をそれぞれ示す。

正規化予測残差パワー算出部１１１は、ＬＰＣ分析部１０１から出力されたＬＰＣから正規化予測残差パワーを算出し、算出した正規化予測残差パワーをパワーパラメータ符号化部１１２に出力する。ｎ番フレームの正規化予測残差パワーＰｚ（ｎ）は、例えば、ＬＰＣから反射係数に変換し、式（２）を用いて算出される。

ここで、Ｍは予測次数、ｒ［ｊ］はｊ次の反射係数である。なお、正規化予測残差パワーは、レビンソンダービン法により、線形予測係数を算出する過程でも算出される。この場合、ＬＰＣ分析部１０１から正規化予測残差パワーがパワーパラメータ符号化部１１２に出力される。

パワーパラメータ符号化部１１２は、音源パワー算出部１１０から出力された音源パワー、正規化予測残差パワー算出部１１１から出力された正規化予測残差パワー、ピッチパルス抽出部１０９から出力されたピッチパルス振幅をベクトル量子化し、得られたインデックスを符号化パワーパラメータとして多重化部１１３に出力する。ピッチパルス振幅の正負は別途符号化され、符号化ピッチパルス振幅極性として多重化部１１３に出力される。ここで、音源信号パワー、正規化予測残差パワー、ピッチパルス振幅は、音声復号装置における隠蔽処理に用いられる隠蔽処理用パラメータである。なお、パワーパラメータ符号化部１１２の詳細については後述する。

多重化部１１３は、音声符号化装置１００に入力される音声信号のフレーム番号をｎ（ただし、ｎ＞０の整数である）と記す場合、ＬＰＣ符号化部１０２から出力されたｎ番フレームの符号化ＬＰＣパラメータ、音源パラメータ符号化部１０８から出力されたｎ番フレームの符号化音源パラメータ、ピッチパルス抽出部１０９から出力されたｎ−１番フレームの符号化ピッチパルス位置パラメータ、パワーパラメータ符号化部１１２から出力されたｎ−１番フレームの符号化パワーパラメータ及び符号化ピッチパルス振幅極性を多重化し、得られた多重化データをｎ番フレームの符号化音声データとして出力する。

このように、音声符号化装置１００によれば、各符号化パラメータがＣＥＬＰ（Ｃｏｄｅ−ＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）型音声符号化方式により入力音声から算出され、音声符号化データとして出力される。また、フレーム誤り耐性を高めるために、前フレームの隠蔽処理用パラメータを符号化したデータと現フレームの音声符号化データを多重化して送信する。

図３は、図２に示したパワーパラメータ符号化部１１２の内部構成を示すブロック図である。以下、パワーパラメータ符号化部１１２を構成する各部について説明する。

振幅領域変換部１２１は、正規化予測残差パワー算出部１１１から出力された正規化予測残差パワーの平方根を算出することにより、正規化予測残差パワーをパワー領域から振幅領域に変換し、対数変換部１２２に出力する。

対数変換部１２２は、振幅領域変換部１２１から出力された正規化予測残差振幅に対して、底を１０とする対数をとり、対数変換を行う。対数変換された正規化予測残差振幅は対数正規化予測残差振幅平均除去部１２３に出力される。

対数正規化予測残差振幅平均除去部１２３は、対数変換部１２２から出力された対数正規化予測残差振幅からその平均値を減算し、減算結果をベクトル量子化部１４４に出力する。なお、対数正規化予測残差振幅の平均値は、大規模な入力信号データベースを用いて事前に算出しておくものとする。

振幅領域変換部１３１は、音源パワー算出部１１０から出力された音源パワーの平方根を算出することにより、音源パワーをパワー領域から振幅領域に変換し、対数変換部１３２に出力する。

対数変換部１３２は、振幅領域変換部１３１から出力された音源振幅に対して、底を１０とする対数をとり、対数変換を行う。対数変換された音源振幅は対数音源振幅平均除去部１３３に出力される。

対数音源振幅平均除去部１３３は、対数変換部１３２から出力された対数音源振幅からその平均値を減算し、減算結果をベクトル量子化部１４４に出力する。なお、対数音源振幅の平均値は、大規模な入力信号データベースを用いて事前に算出しておくものとする。

絶対値化部１４１は、ピッチパルス抽出部１０９から出力されたピッチパルス振幅の絶対値をとり、ピッチパルス振幅の絶対値を対数変換部１４２に出力し、ピッチパルス振幅の極性を極性符号化部１４５に出力する。

対数変換部１４２は、絶対値化部１４１から出力されたピッチパルス振幅の絶対値に対して、底を１０とする対数をとり、対数変換を行う。対数変換されたピッチパルス振幅は対数ピッチパルス振幅平均除去部１４３に出力される。

対数ピッチパルス振幅平均除去部１４３は、対数変換部１４２から出力された対数ピッチパルス振幅からその平均値を減算し、減算結果をベクトル量子化部１４４に出力する。なお、対数ピッチパルス振幅の平均値は、大規模な入力信号データベースを用いて事前に算出しておくものとする。

ベクトル量子化部１４４は、対数正規化予測残差振幅、対数音源振幅、対数ピッチパルス振幅を３次元ベクトルとしてベクトル量子化を行い、得られたインデックスを符号化パワーパラメータとして多重化部１１３に出力する。

極性符号化部１４５は、絶対値化部１４１から出力されたピッチパルス振幅の正負を符号化し、符号化ピッチパルス振幅極性として多重化部１１３に出力する。

このように、パワーパラメータ符号化部１１２は、パラメータ領域を統一して、平均値の除去を行い、ダイナミックレンジを合わせた上でベクトル量子化を行うことにより、入力されるパワーパラメータを効率よく量子化している。

図４は、本発明の実施の形態に係る音声復号装置２００の構成を示すブロック図である。以下、音声復号装置２００を構成する各部について説明する。

逆多重化部２０１は、音声符号化装置１００から伝送された符号化音声データを受信し、符号化パワーパラメータ、符号化ピッチパルス振幅極性、符号化音源パラメータ、符号化ピッチパルス位置パラメータ及び符号化ＬＰＣパラメータを分離する。また、逆多重化部２０１は、得られた符号化パワーパラメータ及び符号化ピッチパルス振幅極性をパワーパラメータ復号部２０２に出力し、符号化音源パラメータを音源パラメータ復号部２０３に出力し、符号化ピッチパルス位置パラメータをピッチパルス情報復号部２０５に出力し、符号化ＬＰＣパラメータをＬＰＣ復号部２０９に出力する。また、逆多重化部２０１はフレーム消失情報を受信し、フレーム消失情報を音源パラメータ復号部２０３、音源選択部２０８、ＬＰＣ復号部２０９及び合成フィルタゲイン調整係数算出部２１１に出力する。

パワーパラメータ復号部２０２は、逆多重化部２０１から出力された符号化パワーパラメータ及び符号化ピッチパルス振幅極性を復号し、音声符号化装置１００において符号化された、音源パワー、正規化予測残差パワー、ピッチパルス振幅を得る。以下、混同を避けるため、これら復号したパワーパラメータは、それぞれ参照音源パワー、参照正規化予測残差パワー、参照ピッチパルス振幅、と呼ぶこととする。パワーパラメータ復号部２０２は、得られた参照ピッチパルス振幅を位相補正部２０６に出力し、参照音源パワーを音源パワー調整部２０７に出力し、参照正規化予測残差パワーを合成フィルタゲイン調整係数算出部２１１に出力する。パワーパラメータ復号部２０２の詳細については後述する。

音源パラメータ復号部２０３は、逆多重化部２０１から出力された符号化音源パラメータを復号して雑音符号帳インデックス、ゲイン（雑音符号帳ゲイン及びピッチゲイン）、ピッチラグなどの音源パラメータを得る。得られた音源パラメータは復号音源生成部２０４に出力される。

復号音源生成部２０４は、音源パラメータ復号部２０３から出力された音源パラメータ、及び、音源選択部２０８からフィードバックされた音源信号を用いて、ＣＥＬＰモデルに基づく復号処理またはフレーム消失隠蔽処理を行い、復号音源信号を生成し、生成した復号音源信号を位相補正部２０６及び音源選択部２０８に出力する。

ピッチパルス情報復号部２０５は、逆多重化部２０１から出力された符号化ピッチパルス位置パラメータを復号し、得られたピッチパルス位置を位相補正部２０６に出力する。

位相補正部２０６は、復号音源生成部２０４から出力された復号音源信号に対して、ピッチパルス情報復号部２０５から出力されたピッチパルス位置及びパワーパラメータ復号部２０２から出力された参照ピッチパルス振幅を用いて、隠蔽処理によって生成された音源信号の位相を補正し、位相補正音源信号を音源パワー調整部２０７に出力する。位相補正部２０６では、受信したピッチパルス位置にピッチパルス振幅の値を有するサンプルが位置するように、隠蔽処理によって生成された音源信号の位相を補正する。本実施の形態では、簡単のためピッチパルス位置にピッチパルス振幅の値を有するインパルスで音源信号の該当部を置換する。これにより、後続するフレームで正確なピッチラグが受信できた場合に、適応符号帳から出力されるピッチ波形の位相を正しい位相に合わせることができる。

音源パワー調整部２０７は、位相補正部２０６から出力された位相補正音源信号のパワーを、パワーパラメータ復号部２０２から出力された参照音源パワーに合うように調整し、パワー調整後の位相補正音源信号をパワー調整音源信号として音源選択部２０８に出力する。具体的には、音源パワー調整部２０７は、ｎ番フレームの位相補正音源信号パワーＤＰｅ（ｎ）を式（３）により算出する。

ここで、ｄｐｅｘｃ_ｎ［］はピッチパルス補正音源信号を、ｉはサンプル番号を表す。

次に、音源パワー調整部２０７は、音声符号化装置１００から受信した参照音源パワーに合わせる音源パワー調整係数を算出する。ｎ番フレームの音源パワー調整係数ｒｅ（ｎ）は式（４）により算出される。

ここで、Ｐｅ（ｎ）はｎ番フレームの参照音源パワーを表す。

音源パワー調整部２０７は、上式（４）により得られた音源パワー調整係数ｒｅ（ｎ）を、位相補正音源信号ＤＰｅ（ｎ）に乗じることにより、位相補正音源信号パワーを参照音源パワーに合わせる。

音源選択部２０８は、逆多重化部２０１から出力されたフレーム消失情報がフレーム消失を示す場合は、音源パワー調整部２０７から出力されたパワー調整音源信号を選択し、フレーム消失情報がフレーム消失を示していない場合は、復号音源生成部２０４から出力された復号音源信号を選択する。音源選択部２０８は、選択した音源信号を復号音源生成部２０４及び合成フィルタゲイン調整部２１２に出力する。なお、復号音源生成部２０４に出力された音源信号は、復号音源生成部２０４内の適応符号帳に格納される。

ＬＰＣ復号部２０９は、逆多重化部２０１から出力された符号化ＬＰＣパラメータを復号し、得られたＬＰＣを正規化予測残差パワー算出部２１０及び合成フィルタ部２１３に出力する。また、ＬＰＣ復号部２０９は、逆多重化部２０１から出力されたフレーム消失情報によって、現フレームが消失フレームであることを知った場合には、過去のＬＰＣから現フレームのＬＰＣを隠蔽処理によって生成する。以下、隠蔽処理によって生成されたＬＰＣを隠蔽ＬＰＣと呼ぶ。

正規化予測残差パワー算出部２１０は、ＬＰＣ復号部２０９から出力されたＬＰＣ（又は隠蔽ＬＰＣ）から正規化予測残差パワーを算出し、算出した正規化予測残差パワーを合成フィルタゲイン調整係数算出部２１１に出力する。正規化予測残差パワーは、隠蔽ＬＰＣから求める場合には、隠蔽ＬＰＣから反射係数に変換する過程で得られる。ｎ番フレームの正規化予測残差パワーＤＰｚ（ｎ）は式（５）によって算出される。

ここで、Ｍは予測次数、ｄｒ［ｊ］はｊ次の反射係数である。なお、正規化予測残差パワー算出部２１０は音声符号化装置１００の正規化予測残差パワー算出部１１１で算出した方法と同じ方法を用いればよい。

合成フィルタゲイン調整係数算出部２１１は、正規化予測残差パワー算出部２１０から出力された正規化予測残差パワー、パワーパラメータ復号部２０２から出力された参照正規化予測残差パワー、逆多重化部２０１から出力されたフレーム消失情報に基づいて、合成フィルタゲイン調整係数を算出し、算出した合成フィルタゲイン調整係数を合成フィルタゲイン調整部２１２に出力する。ｎ番フレームの合成フィルタゲイン調整係数ｒｚ（ｎ）は式（６）により算出される。

ここで、Ｐｚ（ｎ）はｎ番フレームの参照正規化予測残差パワーを表す。なお、合成フィルタゲイン調整係数算出部２１１は、フレーム消失情報により現フレームが消失フレームでないことが分かった場合には、計算せずに１．０を合成フィルタゲイン調整部２１２に出力してもよい。

合成フィルタゲイン調整部２１２は、音源選択部２０８から出力された音源信号に合成フィルタゲイン調整係数算出部２１１から出力された合成フィルタゲイン調整係数を乗算することにより、音源信号のエネルギーを調整し、合成フィルタゲイン調整音源信号として合成フィルタ部２１３に出力する。

合成フィルタ部２１３は、合成フィルタゲイン調整部２１２から出力された合成フィルタゲイン調整音源信号及びＬＰＣ復号部２０９から出力されたＬＰＣ（又は隠蔽ＬＰＣ）を用いて、復号音声信号を合成して出力する。

このように、音声復号装置２００によれば、音源信号のパワーと合成フィルタのゲインとを別々に調整することにより、音源信号のパワーと復号音声信号のパワーの双方をフレーム消失隠蔽処理時とエラーフリー時とで合わせることが可能となる。このため、適応符号帳に格納される音源信号のパワーがエラーフリー時の音源信号のパワーと大きく異ならないようにすることができるので、復帰フレーム以降で発生しうる音切れや異音を低減することができる。また、合成フィルタのフィルタゲインもエラーフリー時のゲインに合わせることが可能となるので、復号音声信号のパワーもエラーフリー時のパワーに合わせることができる。

図５は、図４に示したパワーパラメータ復号部２０２の内部構成を示すブロック図である。以下、パワーパラメータ復号部２０２を構成する各部について説明する。

ベクトル量子化復号部２２０は、逆多重化部２０１から出力された符号化パワーパラメータを復号し、平均除去されている対数正規化予測残差振幅、平均除去されている対数音源振幅、平均除去されている対数ピッチパルス振幅を得て、それぞれ対数正規化予測残差振幅平均加算部２２１、対数音源振幅平均加算部２３１、対数ピッチパルス振幅平均加算部２４１に出力する。

対数正規化予測残差振幅平均加算部２２１は、予め記憶している対数正規化予測残差振幅平均値をベクトル量子化復号部２２０から出力された平均除去されている対数正規化予測残差振幅に加算し、加算結果を対数逆変換部２２２に出力する。ここで、記憶されている対数正規化予測残差振幅平均値はパワーパラメータ符号化部１１２の対数正規化予測残差振幅平均除去部１２３に記憶されている平均値と同一である。

対数逆変換部２２２は、対数正規化予測残差振幅平均加算部２２１から出力された対数正規化予測残差振幅を指数とする１０のべき乗を算出することにより、パワーパラメータ符号化部１１２で対数領域に変換された振幅を線形領域に戻す。得られた正規化予測残差振幅はパワー領域変換部２２３に出力される。

パワー領域変換部２２３は、対数逆変換部２２２から出力された正規化予測残差振幅の自乗を算出することにより、振幅領域からパワー領域に変換し、参照正規化予測残差パワーとして合成フィルタゲイン調整係数算出部２１１に出力する。

対数音源振幅平均加算部２３１は、予め記憶している対数音源振幅平均値をベクトル量子化復号部２２０から出力された平均除去されている対数音源振幅に加算し、加算結果を対数逆変換部２３２に出力する。ここで、記憶されている対数音源振幅平均値はパワーパラメータ符号化部１１２の対数音源振幅平均除去部１３３に記憶されている平均値と同一である。

対数逆変換部２３２は、対数音源振幅平均加算部２３１から出力された対数音源振幅を指数とする１０のべき乗を算出することにより、パワーパラメータ符号化部１１２で対数領域に変換された振幅を線形領域に戻す。得られた音源振幅はパワー領域変換部２３３に出力される。

パワー領域変換部２３３は、対数逆変換部２３２から出力された音源振幅の自乗を算出することにより、振幅領域からパワー領域に変換し、参照音源パワーとして音源パワー調整部２０７に出力する。

対数ピッチパルス振幅平均加算部２４１は、予め記憶している対数ピッチパルス振幅平均値をベクトル量子化復号部２２０から出力された平均除去されている対数ピッチパルス振幅に加算し、加算結果を対数逆変換部２４２に出力する。ここで、記憶されている対数ピッチパルス振幅平均値はパワーパラメータ符号化部１１２の対数ピッチパルス振幅平均除去部１４３に記憶されている平均値と同一である。

対数逆変換部２４２は、対数ピッチパルス振幅平均加算部２４１から出力された対数ピッチパルス振幅を指数とする１０のべき乗を算出することにより、パワーパラメータ符号化部１１２で対数領域に変換された振幅を線形領域に戻す。得られたピッチパルス振幅は極性付加部２４４に出力される。

極性復号部２４３は、逆多重化部２０１から出力された符号化ピッチパルス振幅極性を復号し、ピッチパルス振幅極性を極性付加部２４４に出力する。

極性付加部２４４は、対数逆変換部２４２から出力されたピッチパルス振幅に極性復号部２４３から出力されたピッチパルス振幅の正負を付与し、結果を参照ピッチパルス振幅として位相補正部２０６に出力する。

次に、図４に示した音声復号装置２００の動作について説明する。音声復号装置２００は、フレーム消失がない場合は、通常のＣＥＬＰ型復号を行い、復号音声信号を得る。

一方、音声復号装置２００は、フレームが消失し、かつ、当該フレームを隠蔽するための隠蔽処理情報が得られる時は、通常のＣＥＬＰ型復号とは異なる動作をする。以下、この動作について具体的に説明する。

まず、フレーム消失があると、ＬＰＣ復号部２０９、音源パラメータ復号部２０３は、過去の符号化パラメータを用いて、現フレームのパラメータを隠蔽処理する。これにより、隠蔽ＬＰＣ、隠蔽音源パラメータが得られる。得られた隠蔽音源パラメータから通常のＣＥＬＰ型復号を行うことにより、隠蔽音源信号が得られる。

ここで得られた隠蔽ＬＰＣ及び隠蔽音源信号に対して、隠蔽用パラメータを用いて補正を行う。本実施の形態における隠蔽用パラメータの目的は、フレーム消失時における復号音声信号のパワーとエラーフリー時のパワーとの差を小さくすること、かつ、隠蔽音源信号のパワーとエラーフリー時の復号音源信号のパワーとの差を小さくすることである。ただし、単純に、隠蔽音源信号のパワーをエラーフリー時の復号音源信号のパワーに合わせると、異音が発生しやすくなる。そのため、ピッチパルスの位置及び振幅をあわせて隠蔽用パラメータとして用いることにより、音源の最大振幅及び位相を調整し、隠蔽音源信号の品質を高めている。

このようにして調整された隠蔽音源信号に対して、得られた隠蔽音源信号のパワーを参照音源パワーに合うようにパワー調整する。そして、合成フィルタのフィルタゲインを調整することにより、復号音声信号のパワーをエラーフリー時の復号音声信号のパワーに合わせる。本実施の形態では、合成フィルタのフィルタゲインは正規化予測残差パワーを用いて表現している。すなわち、隠蔽ＬＰＣを用いて構成される合成フィルタのフィルタゲインがエラーフリー時のフィルタゲインになるように、正規化予測残差パワーを用いて合成フィルタゲイン調整係数を算出する。

得られた合成フィルタゲイン調整係数をパワー調整された隠蔽音源信号に乗じたうえで、合成フィルタに入力し、復号音声信号を得る。このようにして、復号音源パワー及び合成フィルタのフィルタゲインをエラーフリー時と合うように調整することによって、エラーフリー時の復号音声信号パワーと誤差の少ない復号音声信号を得ることができる。

このように本実施の形態によれば、参照音源パワー及び参照正規化予測残差パワーを隠蔽処理用冗長情報として用いることにより、消失フレームにおける復号音声信号のパワーをエラーフリー時の復号音声信号のパワーに合わせることから、音切れや過大音といった復号信号パワーの不整合に起因する主観品質の劣化を回避することができる。また、参照音源パワーを用いることにより、復号音声信号パワーだけでなく、復号音源パワーも参照音源パワーに合わせることができるので、復帰フレーム以降における復号音声のパワー不整合に起因する主観品質の劣化を抑制することができる。さらに、パワー関連パラメータをベクトル量子化によって量子化して伝送することにより、いずれか一方の情報を送信する場合に比べて同等〜数ビットの増加ですむことから、パワーに関する隠蔽処理用冗長情報を少ない情報量で送信することができる。

なお、本実施の形態では、隠蔽処理用冗長情報として、正規化予測残差パワーを送信する場合について説明したが、本発明はこれに限らず、ＬＰＣ予測ゲイン（合成フィルタゲイン）、インパルス応答パワー等のＬＰＣ合成フィルタのフィルタゲインを等価的に表すパラメータを送信してもよい。

また、音源パワーや正規化予測残差パワーは、サブフレーム単位でベクトル量子化し、送信するようにしてもよい。

また、本実施の形態では、隠蔽処理用冗長情報として、ピッチパルス情報（振幅及び位置）も合わせて送信する場合について説明したが、ピッチパルス情報を使用しない形態も可能である。また、隠蔽音源信号の位相を一致させる構成となっていればどのような形態でもよい。

また、本実施の形態ではフレーム消失時に、復号音源生成部２０４で隠蔽処理を行った後、ピッチパルスによる位相補正、音源パワーの調整を行う場合について説明したが、ピッチパルス情報や参照音源パワーを使って復号音源生成部２０４で隠蔽音源信号を生成するようにしてもよい。すなわち、ピッチパルス位置に隠蔽音源信号のピッチパルスが位置するようにピッチラグを修正し、参照音源パワーに隠蔽音源パワーが合うように、ピッチゲイン、雑音符号帳ゲインを調整するようにしてもよい。

また、本実施の形態では、音源のパワーを調整するために、音源エネルギーをバッファ長で正規化した音源パワーを用いて調整する場合について説明したが、正規化せずにエネルギーのまま調整するようにしてもよい。

また、本実施の形態では、パワーパラメータについて、パワー領域から振幅領域に変換した後に対数変換しているが（平方根を算出してから底を１０とする対数変換を行っている）、対数変換したものを２で除算しても同じことである（１０を底とした対数変換を行ってから２で除算しても等価）。

また、本実施の形態では、本実施の形態に係る音声復号装置が、本実施の形態に係る音声符号化装置から送信された符号化音声データを受信して処理する場合を例に説明した。しかし、本発明はこれに限定されず、本実施の形態に係る音声復号装置が受信して処理する符号化音声データは、この音声復号装置が処理可能である符号化音声データを生成可能な、異なる構成の音声符号化装置が送信したものであってもよい。

なお、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

２００７年３月２日出願の特願２００７−０５３５０３の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。

本発明にかかる音声符号化装置及び音声復号装置は、フレーム消失時の隠蔽処理を行っても、復号信号のパワー不整合に起因する主観品質の劣化を回避することができ、例えば、移動通信システムの無線通信基地局装置及び無線通信端末装置等に適用できる。

本発明は、音声符号化装置及び音声復号装置に関する。

VoIP(Voice over IP）用音声コーデックには、高いパケットロス耐性が要求される。例えば、次世代VoIP向けコーデックとしてＩＴＵ−Ｔ（International Telecommunication Union - Telecommunication Standardization Sector）において標準化作業が進められているエンベデッド可変ビットレート音声符号化（EV-VBR）では、フレーム消失条件において要求される復号音声の主観品質が、エラーフリーの復号音声の主観品質を基準として定められている。

図１Ａは、エラーフリー時のＬＰＣ（Linear Prediction Coefficient）フィルタのフィルタゲイン（図１Ａにおいて白丸で示す）、復号音源信号のパワー（図１Ａにおいて白三角で示す）、復号音声信号パワー（図１Ａにおいて白四角で示す）の時間的変化を示している。なお、横軸は、時間軸であり、フレーム単位で表しており、縦軸は、パワーの大きさを表している。

また、図１Ｂは、フレーム消失隠蔽処理時のパワー調整の例を示している。Ｋ１フレームと、Ｋ２フレームでフレーム消失しており、その他のフレームでは符号化データを正常
に受信している。エラーフリー時の各パワーのプロット点表示は図１Ａと同一であり、エラーフリー時のプロット点をつなぐ直線は破線で示されている。また、Ｋ１フレームとＫ２フレームでフレーム消失した場合のパワーの変移が実線で示されている。なお、黒三角は音源パワーを、黒丸はフィルタゲインを、それぞれ示す。

符号化歪み算出部１０５は、聴感重み付け部１０４から出力された聴覚的な重み付けが施された合成信号と、聴感重み付け部１０６から出力される聴覚的な重みづけが施された入力音声信号との差を算出し、算出した差を符号化歪みとして音源生成部１０７に出力す
る。

ここで、Ｌ＿ＦＲＡＭＥはフレーム長を、ｅｘｃ_ｎ[]は音源信号を、ｉはサンプル番号をそれぞれ示す。

ここで、Ｍは予測次数、r［ｊ］はｊ次の反射係数である。なお、正規化予測残差パワーは、レビンソンダービン法により、線形予測係数を算出する過程でも算出される。この場合、ＬＰＣ分析部１０１から正規化予測残差パワーがパワーパラメータ符号化部１１２
に出力される。

このように、音声符号化装置１００によれば、各符号化パラメータがＣＥＬＰ（Code-Excited Linear Prediction）型音声符号化方式により入力音声から算出され、音声符号化データとして出力される。また、フレーム誤り耐性を高めるために、前フレームの隠蔽処理用パラメータを符号化したデータと現フレームの音声符号化データを多重化して送信する。

対数音源振幅平均除去部１３３は、対数変換部１３２から出力された対数音源振幅から
その平均値を減算し、減算結果をベクトル量子化部１４４に出力する。なお、対数音源振幅の平均値は、大規模な入力信号データベースを用いて事前に算出しておくものとする。

ここで、ｄｐｅｘｃ_ｎ[]はピッチパルス補正音源信号を、ｉはサンプル番号を表す。

音源選択部２０８は、逆多重化部２０１から出力されたフレーム消失情報がフレーム消失を示す場合は、音源パワー調整部２０７から出力されたパワー調整音源信号を選択し、
フレーム消失情報がフレーム消失を示していない場合は、復号音源生成部２０４から出力された復号音源信号を選択する。音源選択部２０８は、選択した音源信号を復号音源生成部２０４及び合成フィルタゲイン調整部２１２に出力する。なお、復号音源生成部２０４に出力された音源信号は、復号音源生成部２０４内の適応符号帳に格納される。

このように、音声復号装置２００によれば、音源信号のパワーと合成フィルタのゲイン
とを別々に調整することにより、音源信号のパワーと復号音声信号のパワーの双方をフレーム消失隠蔽処理時とエラーフリー時とで合わせることが可能となる。このため、適応符号帳に格納される音源信号のパワーがエラーフリー時の音源信号のパワーと大きく異ならないようにすることができるので、復帰フレーム以降で発生しうる音切れや異音を低減することができる。また、合成フィルタのフィルタゲインもエラーフリー時のゲインに合わせることが可能となるので、復号音声信号のパワーもエラーフリー時のパワーに合わせることができる。

対数ピッチパルス振幅平均加算部２４１は、予め記憶している対数ピッチパルス振幅平均値をベクトル量子化復号部２２０から出力された平均除去されている対数ピッチパルス振幅に加算し、加算結果を対数逆変換部２４２に出力する。ここで、記憶されている対数
ピッチパルス振幅平均値はパワーパラメータ符号化部１１２の対数ピッチパルス振幅平均除去部１４３に記憶されている平均値と同一である。

このように本実施の形態によれば、参照音源パワー及び参照正規化予測残差パワーを隠
蔽処理用冗長情報として用いることにより、消失フレームにおける復号音声信号のパワーをエラーフリー時の復号音声信号のパワーに合わせることから、音切れや過大音といった復号信号パワーの不整合に起因する主観品質の劣化を回避することができる。また、参照音源パワーを用いることにより、復号音声信号パワーだけでなく、復号音源パワーも参照音源パワーに合わせることができるので、復帰フレーム以降における復号音声のパワー不整合に起因する主観品質の劣化を抑制することができる。さらに、パワー関連パラメータをベクトル量子化によって量子化して伝送することにより、いずれか一方の情報を送信する場合に比べて同等〜数ビットの増加ですむことから、パワーに関する隠蔽処理用冗長情報を少ない情報量で送信することができる。

また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含
むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

Claims

音源信号のパワーを算出する音源パワー算出手段と、
正規化予測残差パワーを算出する正規化予測残差パワー算出手段と、
算出された音源信号のパワーと正規化予測残差パワーを含む隠蔽処理用パラメータを他のパラメータと多重化する多重化手段と、
を具備する音声符号化装置。
ピッチパルスを検出するピッチパルス検出手段を具備し、
前記多重化手段は、検出されたピッチパルスの振幅情報をさらに含む前記隠蔽処理用パラメータを多重化する、
請求項１に記載の音声符号化装置。
前記隠蔽処理用パラメータをベクトル量子化するベクトル量子化手段を具備する、
請求項１に記載の音声符号化装置。
前記ベクトル量子化手段は、前記音源信号のパワーと前記正規化予測残差パワーと前記ピッチパルスの振幅情報のうち、いずれか２以上の情報を組み合わせてベクトルとして量子化する、
請求項３に記載の音声符号化装置。
受信した音源信号のパワーと一致するように、フレーム消失時に隠蔽処理によって生成された音源信号のパワーを調整する音源パワー調整手段と、
フレーム消失時に隠蔽処理によって生成された線形予測係数の正規化予測残差パワーを算出する正規化予測残差パワー算出手段と、
算出された前記正規化予測残差パワーと受信した正規化予測残差パワーとの比から合成フィルタのフィルタゲイン調整係数を算出する調整係数算出手段と、
隠蔽処理によって生成された前記音源信号に前記フィルタゲイン調整係数を乗算し、合成フィルタのフィルタゲインを調整する調整手段と、
隠蔽処理によって生成された前記線形予測係数と、前記フィルタゲイン調整係数が乗算された前記音源信号とを用いて、復号音声信号を合成する合成フィルタ手段と、
を具備する音声復号装置。