JPWO2008108080A1 - 音声符号化装置及び音声復号装置 - Google Patents

音声符号化装置及び音声復号装置 Download PDF

Info

Publication number
JPWO2008108080A1
JPWO2008108080A1 JP2009502458A JP2009502458A JPWO2008108080A1 JP WO2008108080 A1 JPWO2008108080 A1 JP WO2008108080A1 JP 2009502458 A JP2009502458 A JP 2009502458A JP 2009502458 A JP2009502458 A JP 2009502458A JP WO2008108080 A1 JPWO2008108080 A1 JP WO2008108080A1
Authority
JP
Japan
Prior art keywords
power
unit
sound source
output
prediction residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009502458A
Other languages
English (en)
Other versions
JP5489711B2 (ja
Inventor
河嶋 拓也
拓也 河嶋
江原 宏幸
宏幸 江原
吉田 幸司
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2009502458A priority Critical patent/JP5489711B2/ja
Publication of JPWO2008108080A1 publication Critical patent/JPWO2008108080A1/ja
Application granted granted Critical
Publication of JP5489711B2 publication Critical patent/JP5489711B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

フレーム消失時の隠蔽処理によって生じる、復号信号のパワー不整合に起因する復号信号の主観品質の劣化を低減する音声符号化装置及び音声復号装置を開示する。フレーム消失があると、過去の符号化パラメータを用いて、現フレームの隠蔽LPC、隠蔽音源パラメータを得る。得られた隠蔽音源パラメータから通常のCELP型復号を行い、隠蔽音源信号を得る。得られた隠蔽LPC及び隠蔽音源信号に対して、隠蔽用パラメータを用いて補正を行い、補正された隠蔽音源信号のパワーを参照音源パワーに合うように調整する。そして、合成フィルタのフィルタゲインを調整して、復号音声信号のパワーをエラーフリー時の復号音声信号のパワーに合わせる。また、隠蔽LPCを用いて構成される合成フィルタのフィルタゲインがエラーフリー時のフィルタゲインになるように、正規化予測残差パワーを用いて合成フィルタゲイン調整係数を算出する。

Description

本発明は、音声符号化装置及び音声復号装置に関する。
VoIP(Voice over IP)用音声コーデックには、高いパケットロス耐性が要求される。例えば、次世代VoIP向けコーデックとしてITU−T(International Telecommunication Union−Telecommunication Standardization Sector)において標準化作業が進められているエンベデッド可変ビットレート音声符号化(EV−VBR)では、フレーム消失条件において要求される復号音声の主観品質が、エラーフリーの復号音声の主観品質を基準として定められている。
フレーム消失によって発生する復号音声信号の品質劣化のうち、受聴品質に最も影響を与えるのが、音切れや過大音といったパワー変動に関連した劣化である。よって、フレーム消失補償性能を向上させるためには、音声復号装置が適切なパワー情報を消失フレームで復号できるようにすることが重要である。
フレーム消失が発生しても音声復号装置が正しいパワー情報を復号できるようにするため、消失したフレームのパワー情報を冗長情報として音声符号化装置から音声復号装置に送信することにより、消失したパワー情報の隠蔽性能を向上させる取り組みが行われている。例えば、特許文献1に記載の技術では、冗長情報として復号音声信号パワーを送信することにより、隠蔽処理によって生成される復号音声のパワーを、冗長情報として受信した復号音声信号パワーに合わせるようにしている。復号音声信号パワーに合わせるために、受信した復号音声信号パワーと、隠蔽処理によって得られる線形予測係数で構成した合成フィルタのインパルス応答パワーとを用いて、音源パワーを逆算している。
このように、特許文献1に記載の技術によれば、復号音声信号パワーを隠蔽処理のための冗長情報として使用するため、フレーム消失隠蔽処理時の復号音声信号パワーをエラーフリー時の復号音声信号パワーに合わせることが可能である。
特表2005−534950号公報
しかしながら、特許文献1に記載の技術を用いても、フレーム消失隠蔽処理時の音源パワーをエラーフリー時の音源パワーに合わせることは保証できない。そのため、適応符号帳に格納される音源信号のパワーがフレーム消失隠蔽処理時とエラーフリー時と異なってしまい、フレーム消失後の符号化データを正しく受信できたフレーム(復帰フレーム)にこの誤差が伝播し、復号音声信号の品質劣化につながる場合がある。以下、この問題を具体的に説明する。
図1Aは、エラーフリー時のLPC(Linear Prediction Coefficient)フィルタのフィルタゲイン(図1Aにおいて白丸で示す)、復号音源信号のパワー(図1Aにおいて白三角で示す)、復号音声信号パワー(図1Aにおいて白四角で示す)の時間的変化を示している。なお、横軸は、時間軸であり、フレーム単位で表しており、縦軸は、パワーの大きさを表している。
また、図1Bは、フレーム消失隠蔽処理時のパワー調整の例を示している。K1フレームと、K2フレームでフレーム消失しており、その他のフレームでは符号化データを正常に受信している。エラーフリー時の各パワーのプロット点表示は図1Aと同一であり、エラーフリー時のプロット点をつなぐ直線は破線で示されている。また、K1フレームとK2フレームでフレーム消失した場合のパワーの変移が実線で示されている。なお、黒三角は音源パワーを、黒丸はフィルタゲインを、それぞれ示す。
まず、K1フレームが消失する場合について説明する。復号音声信号パワーは、隠蔽処理用冗長情報として音声符号化装置から送信されており、K1フレームが消失してもK1フレームの次のフレームのデータから正しく復号できる。この正しい復号音声信号パワーに、隠蔽処理によって生成される復号音声信号パワーを合わせることができる。
次に、フィルタゲインと音源パワーについて説明する。フィルタゲインは、隠蔽処理用冗長情報として音声符号化装置から送信されない。また、隠蔽処理によって生成されるフィルタは、過去に復号した線形予測係数を用いたものである。そのため、隠蔽処理によって生成される合成フィルタのゲイン(以下、「隠蔽フィルタゲイン」という)は過去に復号した合成フィルタのフィルタゲインに近くなる。しかしながら、エラーフリー時のフィルタゲインは必ずしも過去に復号した合成フィルタのフィルタゲインに近くなるわけではない。このため、隠蔽フィルタゲインはエラーフリー時のフィルタゲインと大きく異なる可能性がある。
例えば、図1BのK1フレームでは、エラーフリー時のフィルタゲインに対して、隠蔽フィルタゲインが大きくなっている。この場合、復号音声信号パワーを音声符号化装置から送信された復号音声信号パワーに合わせるには、エラーフリー時の音源パワーに比べてフレーム消失隠蔽処理時の音源パワーを下げる必要がある。この結果、エラーフリー時の音源パワーよりも小さくなるようにパワー調整された音源信号が適応符号帳へ入力される。こうなると、次フレーム以降で符号化データを正しく受信できても適応符号帳内の音源信号のパワーが減少しているため、復帰フレーム以降において音源パワーがエラーフリー時と比較して小さい状態になる。このため、復号音声信号パワーが小さくなってしまい、音が痩せて聞こえたり、音切れ感につながったりする可能性がある。
次に、K2フレームが消失する場合について説明する。K2フレームはK1フレームとは逆のケースである。すなわち、消失フレームではエラーフリー時と比べて、隠蔽フィルタゲインが小さく、音源パワーが大きいケースである。この場合は、復帰フレームにおいて音源パワーがエラーフリー時と比較して大きい状態となるため、復号音声信号のパワーが大きくなってしまい、異音感を生じる原因となる可能性がある。
特許文献1に記載の技術において、これらの問題を解決する簡単な方法は、復帰フレームにおいて音源信号のパワーを調整することであるが、適応符号帳に格納される復号音源信号が復帰フレームと消失フレームとの間で不連続になるという別の問題を生じてしまう。
本発明はかかる点に鑑みてなされたものであり、フレーム消失時の隠蔽処理によって生じる、パワー変動に起因する復号信号の主観品質の劣化を低減する音声符号化装置及び音声復号装置を提供することを目的とする。
本発明の音声符号化装置は、音源信号のパワーを算出する音源パワー算出手段と、正規化予測残差パワーを算出する正規化予測残差パワー算出手段と、算出された音源信号のパワーと正規化予測残差パワーを含む隠蔽処理用パラメータを他のパラメータと多重化する多重化手段と、具備する構成を採る。
本発明の音声復号装置は、受信した音源信号のパワーと一致するように、フレーム消失時に隠蔽処理によって生成された音源信号のパワーを調整する音源パワー調整手段と、フレーム消失時に隠蔽処理によって生成された線形予測係数の正規化予測残差パワーを算出する正規化予測残差パワー算出手段と、算出された前記正規化予測残差パワーと受信した正規化予測残差パワーとの比から合成フィルタのフィルタゲイン調整係数を算出する調整係数算出手段と、隠蔽処理によって生成された前記音源信号に前記フィルタゲイン調整係数を乗算し、合成フィルタのフィルタゲインを調整する調整手段と、隠蔽処理によって生成された前記線形予測係数と、前記フィルタゲイン調整係数が乗算された前記音源信号とを用いて、復号音声信号を合成する合成フィルタ手段と、を具備する構成を採る。
本発明によれば、フレーム消失時の隠蔽処理によって生じる、パワー変動に起因する復号信号の主観品質の劣化を低減することができる。
エラーフリー時のLPCフィルタのフィルタゲイン、復号音源信号のパワー、復号音声信号パワーの時間的変化を示す図 フレーム消失隠蔽処理時のパワー調整の例を示す図 本発明の実施の形態に係る音声符号化装置の構成を示すブロック図 図2に示したパワーパラメータ符号化部の内部構成を示すブロック図 本発明の実施の形態に係る音声復号装置の構成を示すブロック図 図4に示したパワーパラメータ復号部の内部構成を示すブロック図
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(実施の形態)
図2は、本発明の実施の形態に係る音声符号化装置100の構成を示すブロック図である。以下、音声符号化装置100を構成する各部について説明する。
LPC分析部101は、入力音声信号に対して線形予測分析(LPC分析)を行い、得られる線形予測係数(以下、「LPC」という)をLPC符号化部102、聴感重み付け部104、聴感重み付け部106、正規化予測残差パワー算出部111に出力する。
LPC符号化部102は、LPC分析部101から出力されたLPCを量子化及び符号化し、得られた量子化LPCをLPC合成フィルタ部103に、符号化LPCパラメータを多重化部113にそれぞれ出力する。
LPC合成フィルタ部103は、LPC符号化部102から出力された量子化LPCをフィルタ係数とし、音源生成部107から出力される音源信号によってLPC合成フィルタを駆動し、合成された信号を聴感重み付け部104に出力する。
聴感重み付け部104は、LPC分析部101から出力されたLPCに重み係数を乗じたフィルタ係数により聴感重み付けフィルタを構成し、LPC合成フィルタ部103から出力された合成信号に対して聴覚的な重み付けを施し、符号化歪み算出部105に出力する。
符号化歪み算出部105は、聴感重み付け部104から出力された聴覚的な重み付けが施された合成信号と、聴感重み付け部106から出力される聴覚的な重みづけが施された入力音声信号との差を算出し、算出した差を符号化歪みとして音源生成部107に出力する。
聴感重み付け部106は、LPC分析部101から出力されたLPCに重み係数を乗じたフィルタ係数により聴感重み付けフィルタを構成し、入力音声信号に対して聴覚的な重み付けを施し、符号化歪み算出部105に出力する。
音源生成部107は、符号化歪み算出部105から出力された符号化歪みが最小となる音源信号をLPC合成フィルタ部103及び音源パワー算出部110に出力する。また、音源生成部107は、符号化歪みが最小となるときの音源信号及びピッチラグをピッチパルス抽出部109に出力し、符号化歪みが最小となるときの雑音符号帳インデックス、雑音符号帳ゲイン、ピッチラグ及びピッチゲインなどの音源パラメータを音源パラメータ符号化部108に出力する。図2では、雑音符号帳ゲインとピッチゲインとはベクトル量子化等により一つのゲイン情報として出力される。なお、雑音符号帳ゲインとピッチゲインを別々に出力する形態であってもよい。
音源パラメータ符号化部108は、音源生成部107から出力された雑音符号帳インデックス、ゲイン(雑音符号帳ゲインとピッチゲインを含む)及びピッチラグなどの音源パラメータを符号化し、得られた符号化音源パラメータを多重化部113に出力する。
ピッチパルス抽出部109は、音源生成部107から出力されたピッチラグ情報を用いて、音源生成部107から出力された音源信号のピッチパルスを検出し、ピッチパルスの位置と振幅を算出する。ここで、ピッチパルスとは、音源信号の1ピッチ周期長の中で振幅が極大となっているサンプルのことを指す。ピッチパルスの位置は符号化され、得られた符号化ピッチパルス位置パラメータを多重化部113に出力する。一方、ピッチパルスの振幅はパワーパラメータ符号化部112に出力される。ピッチパルスは、例えば、フレーム後端からピッチラグ長の範囲に存在する振幅最大の点を探索することによって検出される。この場合、振幅の絶対値が最大となる振幅を有するサンプルの位置と振幅がそれぞれピッチパルス位置とピッチパルス振幅となる。
音源パワー算出部110は、音源生成部107から出力された現フレームの音源パワーを算出し、算出した現フレームの音源パワーをパワーパラメータ符号化部112に出力する。n番フレームにおける音源パワーPe(n)は以下の式(1)により算出される。
Figure 2008108080
ここで、L_FRAMEはフレーム長を、exc[]は音源信号を、iはサンプル番号をそれぞれ示す。
正規化予測残差パワー算出部111は、LPC分析部101から出力されたLPCから正規化予測残差パワーを算出し、算出した正規化予測残差パワーをパワーパラメータ符号化部112に出力する。n番フレームの正規化予測残差パワーPz(n)は、例えば、LPCから反射係数に変換し、式(2)を用いて算出される。
Figure 2008108080
ここで、Mは予測次数、r[j]はj次の反射係数である。なお、正規化予測残差パワーは、レビンソンダービン法により、線形予測係数を算出する過程でも算出される。この場合、LPC分析部101から正規化予測残差パワーがパワーパラメータ符号化部112に出力される。
パワーパラメータ符号化部112は、音源パワー算出部110から出力された音源パワー、正規化予測残差パワー算出部111から出力された正規化予測残差パワー、ピッチパルス抽出部109から出力されたピッチパルス振幅をベクトル量子化し、得られたインデックスを符号化パワーパラメータとして多重化部113に出力する。ピッチパルス振幅の正負は別途符号化され、符号化ピッチパルス振幅極性として多重化部113に出力される。ここで、音源信号パワー、正規化予測残差パワー、ピッチパルス振幅は、音声復号装置における隠蔽処理に用いられる隠蔽処理用パラメータである。なお、パワーパラメータ符号化部112の詳細については後述する。
多重化部113は、音声符号化装置100に入力される音声信号のフレーム番号をn(ただし、n>0の整数である)と記す場合、LPC符号化部102から出力されたn番フレームの符号化LPCパラメータ、音源パラメータ符号化部108から出力されたn番フレームの符号化音源パラメータ、ピッチパルス抽出部109から出力されたn−1番フレームの符号化ピッチパルス位置パラメータ、パワーパラメータ符号化部112から出力されたn−1番フレームの符号化パワーパラメータ及び符号化ピッチパルス振幅極性を多重化し、得られた多重化データをn番フレームの符号化音声データとして出力する。
このように、音声符号化装置100によれば、各符号化パラメータがCELP(Code−Excited Linear Prediction)型音声符号化方式により入力音声から算出され、音声符号化データとして出力される。また、フレーム誤り耐性を高めるために、前フレームの隠蔽処理用パラメータを符号化したデータと現フレームの音声符号化データを多重化して送信する。
図3は、図2に示したパワーパラメータ符号化部112の内部構成を示すブロック図である。以下、パワーパラメータ符号化部112を構成する各部について説明する。
振幅領域変換部121は、正規化予測残差パワー算出部111から出力された正規化予測残差パワーの平方根を算出することにより、正規化予測残差パワーをパワー領域から振幅領域に変換し、対数変換部122に出力する。
対数変換部122は、振幅領域変換部121から出力された正規化予測残差振幅に対して、底を10とする対数をとり、対数変換を行う。対数変換された正規化予測残差振幅は対数正規化予測残差振幅平均除去部123に出力される。
対数正規化予測残差振幅平均除去部123は、対数変換部122から出力された対数正規化予測残差振幅からその平均値を減算し、減算結果をベクトル量子化部144に出力する。なお、対数正規化予測残差振幅の平均値は、大規模な入力信号データベースを用いて事前に算出しておくものとする。
振幅領域変換部131は、音源パワー算出部110から出力された音源パワーの平方根を算出することにより、音源パワーをパワー領域から振幅領域に変換し、対数変換部132に出力する。
対数変換部132は、振幅領域変換部131から出力された音源振幅に対して、底を10とする対数をとり、対数変換を行う。対数変換された音源振幅は対数音源振幅平均除去部133に出力される。
対数音源振幅平均除去部133は、対数変換部132から出力された対数音源振幅からその平均値を減算し、減算結果をベクトル量子化部144に出力する。なお、対数音源振幅の平均値は、大規模な入力信号データベースを用いて事前に算出しておくものとする。
絶対値化部141は、ピッチパルス抽出部109から出力されたピッチパルス振幅の絶対値をとり、ピッチパルス振幅の絶対値を対数変換部142に出力し、ピッチパルス振幅の極性を極性符号化部145に出力する。
対数変換部142は、絶対値化部141から出力されたピッチパルス振幅の絶対値に対して、底を10とする対数をとり、対数変換を行う。対数変換されたピッチパルス振幅は対数ピッチパルス振幅平均除去部143に出力される。
対数ピッチパルス振幅平均除去部143は、対数変換部142から出力された対数ピッチパルス振幅からその平均値を減算し、減算結果をベクトル量子化部144に出力する。なお、対数ピッチパルス振幅の平均値は、大規模な入力信号データベースを用いて事前に算出しておくものとする。
ベクトル量子化部144は、対数正規化予測残差振幅、対数音源振幅、対数ピッチパルス振幅を3次元ベクトルとしてベクトル量子化を行い、得られたインデックスを符号化パワーパラメータとして多重化部113に出力する。
極性符号化部145は、絶対値化部141から出力されたピッチパルス振幅の正負を符号化し、符号化ピッチパルス振幅極性として多重化部113に出力する。
このように、パワーパラメータ符号化部112は、パラメータ領域を統一して、平均値の除去を行い、ダイナミックレンジを合わせた上でベクトル量子化を行うことにより、入力されるパワーパラメータを効率よく量子化している。
図4は、本発明の実施の形態に係る音声復号装置200の構成を示すブロック図である。以下、音声復号装置200を構成する各部について説明する。
逆多重化部201は、音声符号化装置100から伝送された符号化音声データを受信し、符号化パワーパラメータ、符号化ピッチパルス振幅極性、符号化音源パラメータ、符号化ピッチパルス位置パラメータ及び符号化LPCパラメータを分離する。また、逆多重化部201は、得られた符号化パワーパラメータ及び符号化ピッチパルス振幅極性をパワーパラメータ復号部202に出力し、符号化音源パラメータを音源パラメータ復号部203に出力し、符号化ピッチパルス位置パラメータをピッチパルス情報復号部205に出力し、符号化LPCパラメータをLPC復号部209に出力する。また、逆多重化部201はフレーム消失情報を受信し、フレーム消失情報を音源パラメータ復号部203、音源選択部208、LPC復号部209及び合成フィルタゲイン調整係数算出部211に出力する。
パワーパラメータ復号部202は、逆多重化部201から出力された符号化パワーパラメータ及び符号化ピッチパルス振幅極性を復号し、音声符号化装置100において符号化された、音源パワー、正規化予測残差パワー、ピッチパルス振幅を得る。以下、混同を避けるため、これら復号したパワーパラメータは、それぞれ参照音源パワー、参照正規化予測残差パワー、参照ピッチパルス振幅、と呼ぶこととする。パワーパラメータ復号部202は、得られた参照ピッチパルス振幅を位相補正部206に出力し、参照音源パワーを音源パワー調整部207に出力し、参照正規化予測残差パワーを合成フィルタゲイン調整係数算出部211に出力する。パワーパラメータ復号部202の詳細については後述する。
音源パラメータ復号部203は、逆多重化部201から出力された符号化音源パラメータを復号して雑音符号帳インデックス、ゲイン(雑音符号帳ゲイン及びピッチゲイン)、ピッチラグなどの音源パラメータを得る。得られた音源パラメータは復号音源生成部204に出力される。
復号音源生成部204は、音源パラメータ復号部203から出力された音源パラメータ、及び、音源選択部208からフィードバックされた音源信号を用いて、CELPモデルに基づく復号処理またはフレーム消失隠蔽処理を行い、復号音源信号を生成し、生成した復号音源信号を位相補正部206及び音源選択部208に出力する。
ピッチパルス情報復号部205は、逆多重化部201から出力された符号化ピッチパルス位置パラメータを復号し、得られたピッチパルス位置を位相補正部206に出力する。
位相補正部206は、復号音源生成部204から出力された復号音源信号に対して、ピッチパルス情報復号部205から出力されたピッチパルス位置及びパワーパラメータ復号部202から出力された参照ピッチパルス振幅を用いて、隠蔽処理によって生成された音源信号の位相を補正し、位相補正音源信号を音源パワー調整部207に出力する。位相補正部206では、受信したピッチパルス位置にピッチパルス振幅の値を有するサンプルが位置するように、隠蔽処理によって生成された音源信号の位相を補正する。本実施の形態では、簡単のためピッチパルス位置にピッチパルス振幅の値を有するインパルスで音源信号の該当部を置換する。これにより、後続するフレームで正確なピッチラグが受信できた場合に、適応符号帳から出力されるピッチ波形の位相を正しい位相に合わせることができる。
音源パワー調整部207は、位相補正部206から出力された位相補正音源信号のパワーを、パワーパラメータ復号部202から出力された参照音源パワーに合うように調整し、パワー調整後の位相補正音源信号をパワー調整音源信号として音源選択部208に出力する。具体的には、音源パワー調整部207は、n番フレームの位相補正音源信号パワーDPe(n)を式(3)により算出する。
Figure 2008108080
ここで、dpexc[]はピッチパルス補正音源信号を、iはサンプル番号を表す。
次に、音源パワー調整部207は、音声符号化装置100から受信した参照音源パワーに合わせる音源パワー調整係数を算出する。n番フレームの音源パワー調整係数re(n)は式(4)により算出される。
Figure 2008108080
ここで、Pe(n)はn番フレームの参照音源パワーを表す。
音源パワー調整部207は、上式(4)により得られた音源パワー調整係数re(n)を、位相補正音源信号DPe(n)に乗じることにより、位相補正音源信号パワーを参照音源パワーに合わせる。
音源選択部208は、逆多重化部201から出力されたフレーム消失情報がフレーム消失を示す場合は、音源パワー調整部207から出力されたパワー調整音源信号を選択し、フレーム消失情報がフレーム消失を示していない場合は、復号音源生成部204から出力された復号音源信号を選択する。音源選択部208は、選択した音源信号を復号音源生成部204及び合成フィルタゲイン調整部212に出力する。なお、復号音源生成部204に出力された音源信号は、復号音源生成部204内の適応符号帳に格納される。
LPC復号部209は、逆多重化部201から出力された符号化LPCパラメータを復号し、得られたLPCを正規化予測残差パワー算出部210及び合成フィルタ部213に出力する。また、LPC復号部209は、逆多重化部201から出力されたフレーム消失情報によって、現フレームが消失フレームであることを知った場合には、過去のLPCから現フレームのLPCを隠蔽処理によって生成する。以下、隠蔽処理によって生成されたLPCを隠蔽LPCと呼ぶ。
正規化予測残差パワー算出部210は、LPC復号部209から出力されたLPC(又は隠蔽LPC)から正規化予測残差パワーを算出し、算出した正規化予測残差パワーを合成フィルタゲイン調整係数算出部211に出力する。正規化予測残差パワーは、隠蔽LPCから求める場合には、隠蔽LPCから反射係数に変換する過程で得られる。n番フレームの正規化予測残差パワーDPz(n)は式(5)によって算出される。
Figure 2008108080
ここで、Mは予測次数、dr[j]はj次の反射係数である。なお、正規化予測残差パワー算出部210は音声符号化装置100の正規化予測残差パワー算出部111で算出した方法と同じ方法を用いればよい。
合成フィルタゲイン調整係数算出部211は、正規化予測残差パワー算出部210から出力された正規化予測残差パワー、パワーパラメータ復号部202から出力された参照正規化予測残差パワー、逆多重化部201から出力されたフレーム消失情報に基づいて、合成フィルタゲイン調整係数を算出し、算出した合成フィルタゲイン調整係数を合成フィルタゲイン調整部212に出力する。n番フレームの合成フィルタゲイン調整係数rz(n)は式(6)により算出される。
Figure 2008108080
ここで、Pz(n)はn番フレームの参照正規化予測残差パワーを表す。なお、合成フィルタゲイン調整係数算出部211は、フレーム消失情報により現フレームが消失フレームでないことが分かった場合には、計算せずに1.0を合成フィルタゲイン調整部212に出力してもよい。
合成フィルタゲイン調整部212は、音源選択部208から出力された音源信号に合成フィルタゲイン調整係数算出部211から出力された合成フィルタゲイン調整係数を乗算することにより、音源信号のエネルギーを調整し、合成フィルタゲイン調整音源信号として合成フィルタ部213に出力する。
合成フィルタ部213は、合成フィルタゲイン調整部212から出力された合成フィルタゲイン調整音源信号及びLPC復号部209から出力されたLPC(又は隠蔽LPC)を用いて、復号音声信号を合成して出力する。
このように、音声復号装置200によれば、音源信号のパワーと合成フィルタのゲインとを別々に調整することにより、音源信号のパワーと復号音声信号のパワーの双方をフレーム消失隠蔽処理時とエラーフリー時とで合わせることが可能となる。このため、適応符号帳に格納される音源信号のパワーがエラーフリー時の音源信号のパワーと大きく異ならないようにすることができるので、復帰フレーム以降で発生しうる音切れや異音を低減することができる。また、合成フィルタのフィルタゲインもエラーフリー時のゲインに合わせることが可能となるので、復号音声信号のパワーもエラーフリー時のパワーに合わせることができる。
図5は、図4に示したパワーパラメータ復号部202の内部構成を示すブロック図である。以下、パワーパラメータ復号部202を構成する各部について説明する。
ベクトル量子化復号部220は、逆多重化部201から出力された符号化パワーパラメータを復号し、平均除去されている対数正規化予測残差振幅、平均除去されている対数音源振幅、平均除去されている対数ピッチパルス振幅を得て、それぞれ対数正規化予測残差振幅平均加算部221、対数音源振幅平均加算部231、対数ピッチパルス振幅平均加算部241に出力する。
対数正規化予測残差振幅平均加算部221は、予め記憶している対数正規化予測残差振幅平均値をベクトル量子化復号部220から出力された平均除去されている対数正規化予測残差振幅に加算し、加算結果を対数逆変換部222に出力する。ここで、記憶されている対数正規化予測残差振幅平均値はパワーパラメータ符号化部112の対数正規化予測残差振幅平均除去部123に記憶されている平均値と同一である。
対数逆変換部222は、対数正規化予測残差振幅平均加算部221から出力された対数正規化予測残差振幅を指数とする10のべき乗を算出することにより、パワーパラメータ符号化部112で対数領域に変換された振幅を線形領域に戻す。得られた正規化予測残差振幅はパワー領域変換部223に出力される。
パワー領域変換部223は、対数逆変換部222から出力された正規化予測残差振幅の自乗を算出することにより、振幅領域からパワー領域に変換し、参照正規化予測残差パワーとして合成フィルタゲイン調整係数算出部211に出力する。
対数音源振幅平均加算部231は、予め記憶している対数音源振幅平均値をベクトル量子化復号部220から出力された平均除去されている対数音源振幅に加算し、加算結果を対数逆変換部232に出力する。ここで、記憶されている対数音源振幅平均値はパワーパラメータ符号化部112の対数音源振幅平均除去部133に記憶されている平均値と同一である。
対数逆変換部232は、対数音源振幅平均加算部231から出力された対数音源振幅を指数とする10のべき乗を算出することにより、パワーパラメータ符号化部112で対数領域に変換された振幅を線形領域に戻す。得られた音源振幅はパワー領域変換部233に出力される。
パワー領域変換部233は、対数逆変換部232から出力された音源振幅の自乗を算出することにより、振幅領域からパワー領域に変換し、参照音源パワーとして音源パワー調整部207に出力する。
対数ピッチパルス振幅平均加算部241は、予め記憶している対数ピッチパルス振幅平均値をベクトル量子化復号部220から出力された平均除去されている対数ピッチパルス振幅に加算し、加算結果を対数逆変換部242に出力する。ここで、記憶されている対数ピッチパルス振幅平均値はパワーパラメータ符号化部112の対数ピッチパルス振幅平均除去部143に記憶されている平均値と同一である。
対数逆変換部242は、対数ピッチパルス振幅平均加算部241から出力された対数ピッチパルス振幅を指数とする10のべき乗を算出することにより、パワーパラメータ符号化部112で対数領域に変換された振幅を線形領域に戻す。得られたピッチパルス振幅は極性付加部244に出力される。
極性復号部243は、逆多重化部201から出力された符号化ピッチパルス振幅極性を復号し、ピッチパルス振幅極性を極性付加部244に出力する。
極性付加部244は、対数逆変換部242から出力されたピッチパルス振幅に極性復号部243から出力されたピッチパルス振幅の正負を付与し、結果を参照ピッチパルス振幅として位相補正部206に出力する。
次に、図4に示した音声復号装置200の動作について説明する。音声復号装置200は、フレーム消失がない場合は、通常のCELP型復号を行い、復号音声信号を得る。
一方、音声復号装置200は、フレームが消失し、かつ、当該フレームを隠蔽するための隠蔽処理情報が得られる時は、通常のCELP型復号とは異なる動作をする。以下、この動作について具体的に説明する。
まず、フレーム消失があると、LPC復号部209、音源パラメータ復号部203は、過去の符号化パラメータを用いて、現フレームのパラメータを隠蔽処理する。これにより、隠蔽LPC、隠蔽音源パラメータが得られる。得られた隠蔽音源パラメータから通常のCELP型復号を行うことにより、隠蔽音源信号が得られる。
ここで得られた隠蔽LPC及び隠蔽音源信号に対して、隠蔽用パラメータを用いて補正を行う。本実施の形態における隠蔽用パラメータの目的は、フレーム消失時における復号音声信号のパワーとエラーフリー時のパワーとの差を小さくすること、かつ、隠蔽音源信号のパワーとエラーフリー時の復号音源信号のパワーとの差を小さくすることである。ただし、単純に、隠蔽音源信号のパワーをエラーフリー時の復号音源信号のパワーに合わせると、異音が発生しやすくなる。そのため、ピッチパルスの位置及び振幅をあわせて隠蔽用パラメータとして用いることにより、音源の最大振幅及び位相を調整し、隠蔽音源信号の品質を高めている。
このようにして調整された隠蔽音源信号に対して、得られた隠蔽音源信号のパワーを参照音源パワーに合うようにパワー調整する。そして、合成フィルタのフィルタゲインを調整することにより、復号音声信号のパワーをエラーフリー時の復号音声信号のパワーに合わせる。本実施の形態では、合成フィルタのフィルタゲインは正規化予測残差パワーを用いて表現している。すなわち、隠蔽LPCを用いて構成される合成フィルタのフィルタゲインがエラーフリー時のフィルタゲインになるように、正規化予測残差パワーを用いて合成フィルタゲイン調整係数を算出する。
得られた合成フィルタゲイン調整係数をパワー調整された隠蔽音源信号に乗じたうえで、合成フィルタに入力し、復号音声信号を得る。このようにして、復号音源パワー及び合成フィルタのフィルタゲインをエラーフリー時と合うように調整することによって、エラーフリー時の復号音声信号パワーと誤差の少ない復号音声信号を得ることができる。
このように本実施の形態によれば、参照音源パワー及び参照正規化予測残差パワーを隠蔽処理用冗長情報として用いることにより、消失フレームにおける復号音声信号のパワーをエラーフリー時の復号音声信号のパワーに合わせることから、音切れや過大音といった復号信号パワーの不整合に起因する主観品質の劣化を回避することができる。また、参照音源パワーを用いることにより、復号音声信号パワーだけでなく、復号音源パワーも参照音源パワーに合わせることができるので、復帰フレーム以降における復号音声のパワー不整合に起因する主観品質の劣化を抑制することができる。さらに、パワー関連パラメータをベクトル量子化によって量子化して伝送することにより、いずれか一方の情報を送信する場合に比べて同等〜数ビットの増加ですむことから、パワーに関する隠蔽処理用冗長情報を少ない情報量で送信することができる。
なお、本実施の形態では、隠蔽処理用冗長情報として、正規化予測残差パワーを送信する場合について説明したが、本発明はこれに限らず、LPC予測ゲイン(合成フィルタゲイン)、インパルス応答パワー等のLPC合成フィルタのフィルタゲインを等価的に表すパラメータを送信してもよい。
また、音源パワーや正規化予測残差パワーは、サブフレーム単位でベクトル量子化し、送信するようにしてもよい。
また、本実施の形態では、隠蔽処理用冗長情報として、ピッチパルス情報(振幅及び位置)も合わせて送信する場合について説明したが、ピッチパルス情報を使用しない形態も可能である。また、隠蔽音源信号の位相を一致させる構成となっていればどのような形態でもよい。
また、本実施の形態ではフレーム消失時に、復号音源生成部204で隠蔽処理を行った後、ピッチパルスによる位相補正、音源パワーの調整を行う場合について説明したが、ピッチパルス情報や参照音源パワーを使って復号音源生成部204で隠蔽音源信号を生成するようにしてもよい。すなわち、ピッチパルス位置に隠蔽音源信号のピッチパルスが位置するようにピッチラグを修正し、参照音源パワーに隠蔽音源パワーが合うように、ピッチゲイン、雑音符号帳ゲインを調整するようにしてもよい。
また、本実施の形態では、音源のパワーを調整するために、音源エネルギーをバッファ長で正規化した音源パワーを用いて調整する場合について説明したが、正規化せずにエネルギーのまま調整するようにしてもよい。
また、本実施の形態では、パワーパラメータについて、パワー領域から振幅領域に変換した後に対数変換しているが(平方根を算出してから底を10とする対数変換を行っている)、対数変換したものを2で除算しても同じことである(10を底とした対数変換を行ってから2で除算しても等価)。
また、本実施の形態では、本実施の形態に係る音声復号装置が、本実施の形態に係る音声符号化装置から送信された符号化音声データを受信して処理する場合を例に説明した。しかし、本発明はこれに限定されず、本実施の形態に係る音声復号装置が受信して処理する符号化音声データは、この音声復号装置が処理可能である符号化音声データを生成可能な、異なる構成の音声符号化装置が送信したものであってもよい。
なお、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
2007年3月2日出願の特願2007−053503の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明にかかる音声符号化装置及び音声復号装置は、フレーム消失時の隠蔽処理を行っても、復号信号のパワー不整合に起因する主観品質の劣化を回避することができ、例えば、移動通信システムの無線通信基地局装置及び無線通信端末装置等に適用できる。
本発明は、音声符号化装置及び音声復号装置に関する。
VoIP(Voice over IP)用音声コーデックには、高いパケットロス耐性が要求される。例えば、次世代VoIP向けコーデックとしてITU−T(International Telecommunication Union - Telecommunication Standardization Sector)において標準化作業が進められているエンベデッド可変ビットレート音声符号化(EV-VBR)では、フレーム消失条件において要求される復号音声の主観品質が、エラーフリーの復号音声の主観品質を基準として定められている。
フレーム消失によって発生する復号音声信号の品質劣化のうち、受聴品質に最も影響を与えるのが、音切れや過大音といったパワー変動に関連した劣化である。よって、フレーム消失補償性能を向上させるためには、音声復号装置が適切なパワー情報を消失フレームで復号できるようにすることが重要である。
フレーム消失が発生しても音声復号装置が正しいパワー情報を復号できるようにするため、消失したフレームのパワー情報を冗長情報として音声符号化装置から音声復号装置に送信することにより、消失したパワー情報の隠蔽性能を向上させる取り組みが行われている。例えば、特許文献1に記載の技術では、冗長情報として復号音声信号パワーを送信することにより、隠蔽処理によって生成される復号音声のパワーを、冗長情報として受信した復号音声信号パワーに合わせるようにしている。復号音声信号パワーに合わせるために、受信した復号音声信号パワーと、隠蔽処理によって得られる線形予測係数で構成した合成フィルタのインパルス応答パワーとを用いて、音源パワーを逆算している。
このように、特許文献1に記載の技術によれば、復号音声信号パワーを隠蔽処理のための冗長情報として使用するため、フレーム消失隠蔽処理時の復号音声信号パワーをエラーフリー時の復号音声信号パワーに合わせることが可能である。
特表2005−534950号公報
しかしながら、特許文献1に記載の技術を用いても、フレーム消失隠蔽処理時の音源パワーをエラーフリー時の音源パワーに合わせることは保証できない。そのため、適応符号帳に格納される音源信号のパワーがフレーム消失隠蔽処理時とエラーフリー時と異なってしまい、フレーム消失後の符号化データを正しく受信できたフレーム(復帰フレーム)にこの誤差が伝播し、復号音声信号の品質劣化につながる場合がある。以下、この問題を具体的に説明する。
図1Aは、エラーフリー時のLPC(Linear Prediction Coefficient)フィルタのフィルタゲイン(図1Aにおいて白丸で示す)、復号音源信号のパワー(図1Aにおいて白三角で示す)、復号音声信号パワー(図1Aにおいて白四角で示す)の時間的変化を示している。なお、横軸は、時間軸であり、フレーム単位で表しており、縦軸は、パワーの大きさを表している。
また、図1Bは、フレーム消失隠蔽処理時のパワー調整の例を示している。K1フレームと、K2フレームでフレーム消失しており、その他のフレームでは符号化データを正常
に受信している。エラーフリー時の各パワーのプロット点表示は図1Aと同一であり、エラーフリー時のプロット点をつなぐ直線は破線で示されている。また、K1フレームとK2フレームでフレーム消失した場合のパワーの変移が実線で示されている。なお、黒三角は音源パワーを、黒丸はフィルタゲインを、それぞれ示す。
まず、K1フレームが消失する場合について説明する。復号音声信号パワーは、隠蔽処理用冗長情報として音声符号化装置から送信されており、K1フレームが消失してもK1フレームの次のフレームのデータから正しく復号できる。この正しい復号音声信号パワーに、隠蔽処理によって生成される復号音声信号パワーを合わせることができる。
次に、フィルタゲインと音源パワーについて説明する。フィルタゲインは、隠蔽処理用冗長情報として音声符号化装置から送信されない。また、隠蔽処理によって生成されるフィルタは、過去に復号した線形予測係数を用いたものである。そのため、隠蔽処理によって生成される合成フィルタのゲイン(以下、「隠蔽フィルタゲイン」という)は過去に復号した合成フィルタのフィルタゲインに近くなる。しかしながら、エラーフリー時のフィルタゲインは必ずしも過去に復号した合成フィルタのフィルタゲインに近くなるわけではない。このため、隠蔽フィルタゲインはエラーフリー時のフィルタゲインと大きく異なる可能性がある。
例えば、図1BのK1フレームでは、エラーフリー時のフィルタゲインに対して、隠蔽フィルタゲインが大きくなっている。この場合、復号音声信号パワーを音声符号化装置から送信された復号音声信号パワーに合わせるには、エラーフリー時の音源パワーに比べてフレーム消失隠蔽処理時の音源パワーを下げる必要がある。この結果、エラーフリー時の音源パワーよりも小さくなるようにパワー調整された音源信号が適応符号帳へ入力される。こうなると、次フレーム以降で符号化データを正しく受信できても適応符号帳内の音源信号のパワーが減少しているため、復帰フレーム以降において音源パワーがエラーフリー時と比較して小さい状態になる。このため、復号音声信号パワーが小さくなってしまい、音が痩せて聞こえたり、音切れ感につながったりする可能性がある。
次に、K2フレームが消失する場合について説明する。K2フレームはK1フレームとは逆のケースである。すなわち、消失フレームではエラーフリー時と比べて、隠蔽フィルタゲインが小さく、音源パワーが大きいケースである。この場合は、復帰フレームにおいて音源パワーがエラーフリー時と比較して大きい状態となるため、復号音声信号のパワーが大きくなってしまい、異音感を生じる原因となる可能性がある。
特許文献1に記載の技術において、これらの問題を解決する簡単な方法は、復帰フレームにおいて音源信号のパワーを調整することであるが、適応符号帳に格納される復号音源信号が復帰フレームと消失フレームとの間で不連続になるという別の問題を生じてしまう。
本発明はかかる点に鑑みてなされたものであり、フレーム消失時の隠蔽処理によって生じる、パワー変動に起因する復号信号の主観品質の劣化を低減する音声符号化装置及び音声復号装置を提供することを目的とする。
本発明の音声符号化装置は、音源信号のパワーを算出する音源パワー算出手段と、正規化予測残差パワーを算出する正規化予測残差パワー算出手段と、算出された音源信号のパワーと正規化予測残差パワーを含む隠蔽処理用パラメータを他のパラメータと多重化する多重化手段と、具備する構成を採る。
本発明の音声復号装置は、受信した音源信号のパワーと一致するように、フレーム消失時に隠蔽処理によって生成された音源信号のパワーを調整する音源パワー調整手段と、フレーム消失時に隠蔽処理によって生成された線形予測係数の正規化予測残差パワーを算出する正規化予測残差パワー算出手段と、算出された前記正規化予測残差パワーと受信した正規化予測残差パワーとの比から合成フィルタのフィルタゲイン調整係数を算出する調整係数算出手段と、隠蔽処理によって生成された前記音源信号に前記フィルタゲイン調整係数を乗算し、合成フィルタのフィルタゲインを調整する調整手段と、隠蔽処理によって生成された前記線形予測係数と、前記フィルタゲイン調整係数が乗算された前記音源信号とを用いて、復号音声信号を合成する合成フィルタ手段と、を具備する構成を採る。
本発明によれば、フレーム消失時の隠蔽処理によって生じる、パワー変動に起因する復号信号の主観品質の劣化を低減することができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(実施の形態)
図2は、本発明の実施の形態に係る音声符号化装置100の構成を示すブロック図である。以下、音声符号化装置100を構成する各部について説明する。
LPC分析部101は、入力音声信号に対して線形予測分析(LPC分析)を行い、得られる線形予測係数(以下、「LPC」という)をLPC符号化部102、聴感重み付け部104、聴感重み付け部106、正規化予測残差パワー算出部111に出力する。
LPC符号化部102は、LPC分析部101から出力されたLPCを量子化及び符号化し、得られた量子化LPCをLPC合成フィルタ部103に、符号化LPCパラメータを多重化部113にそれぞれ出力する。
LPC合成フィルタ部103は、LPC符号化部102から出力された量子化LPCをフィルタ係数とし、音源生成部107から出力される音源信号によってLPC合成フィルタを駆動し、合成された信号を聴感重み付け部104に出力する。
聴感重み付け部104は、LPC分析部101から出力されたLPCに重み係数を乗じたフィルタ係数により聴感重み付けフィルタを構成し、LPC合成フィルタ部103から出力された合成信号に対して聴覚的な重み付けを施し、符号化歪み算出部105に出力する。
符号化歪み算出部105は、聴感重み付け部104から出力された聴覚的な重み付けが施された合成信号と、聴感重み付け部106から出力される聴覚的な重みづけが施された入力音声信号との差を算出し、算出した差を符号化歪みとして音源生成部107に出力す
る。
聴感重み付け部106は、LPC分析部101から出力されたLPCに重み係数を乗じたフィルタ係数により聴感重み付けフィルタを構成し、入力音声信号に対して聴覚的な重み付けを施し、符号化歪み算出部105に出力する。
音源生成部107は、符号化歪み算出部105から出力された符号化歪みが最小となる音源信号をLPC合成フィルタ部103及び音源パワー算出部110に出力する。また、音源生成部107は、符号化歪みが最小となるときの音源信号及びピッチラグをピッチパルス抽出部109に出力し、符号化歪みが最小となるときの雑音符号帳インデックス、雑音符号帳ゲイン、ピッチラグ及びピッチゲインなどの音源パラメータを音源パラメータ符号化部108に出力する。図2では、雑音符号帳ゲインとピッチゲインとはベクトル量子化等により一つのゲイン情報として出力される。なお、雑音符号帳ゲインとピッチゲインを別々に出力する形態であってもよい。
音源パラメータ符号化部108は、音源生成部107から出力された雑音符号帳インデックス、ゲイン(雑音符号帳ゲインとピッチゲインを含む)及びピッチラグなどの音源パラメータを符号化し、得られた符号化音源パラメータを多重化部113に出力する。
ピッチパルス抽出部109は、音源生成部107から出力されたピッチラグ情報を用いて、音源生成部107から出力された音源信号のピッチパルスを検出し、ピッチパルスの位置と振幅を算出する。ここで、ピッチパルスとは、音源信号の1ピッチ周期長の中で振幅が極大となっているサンプルのことを指す。ピッチパルスの位置は符号化され、得られた符号化ピッチパルス位置パラメータを多重化部113に出力する。一方、ピッチパルスの振幅はパワーパラメータ符号化部112に出力される。ピッチパルスは、例えば、フレーム後端からピッチラグ長の範囲に存在する振幅最大の点を探索することによって検出される。この場合、振幅の絶対値が最大となる振幅を有するサンプルの位置と振幅がそれぞれピッチパルス位置とピッチパルス振幅となる。
音源パワー算出部110は、音源生成部107から出力された現フレームの音源パワーを算出し、算出した現フレームの音源パワーをパワーパラメータ符号化部112に出力する。n番フレームにおける音源パワーPe(n)は以下の式(1)により算出される。
Figure 2008108080
ここで、L_FRAMEはフレーム長を、exc[]は音源信号を、iはサンプル番号をそれぞれ示す。
正規化予測残差パワー算出部111は、LPC分析部101から出力されたLPCから正規化予測残差パワーを算出し、算出した正規化予測残差パワーをパワーパラメータ符号化部112に出力する。n番フレームの正規化予測残差パワーPz(n)は、例えば、LPCから反射係数に変換し、式(2)を用いて算出される。
Figure 2008108080
ここで、Mは予測次数、r[j]はj次の反射係数である。なお、正規化予測残差パワーは、レビンソンダービン法により、線形予測係数を算出する過程でも算出される。この場合、LPC分析部101から正規化予測残差パワーがパワーパラメータ符号化部112
に出力される。
パワーパラメータ符号化部112は、音源パワー算出部110から出力された音源パワー、正規化予測残差パワー算出部111から出力された正規化予測残差パワー、ピッチパルス抽出部109から出力されたピッチパルス振幅をベクトル量子化し、得られたインデックスを符号化パワーパラメータとして多重化部113に出力する。ピッチパルス振幅の正負は別途符号化され、符号化ピッチパルス振幅極性として多重化部113に出力される。ここで、音源信号パワー、正規化予測残差パワー、ピッチパルス振幅は、音声復号装置における隠蔽処理に用いられる隠蔽処理用パラメータである。なお、パワーパラメータ符号化部112の詳細については後述する。
多重化部113は、音声符号化装置100に入力される音声信号のフレーム番号をn(ただし、n>0の整数である)と記す場合、LPC符号化部102から出力されたn番フレームの符号化LPCパラメータ、音源パラメータ符号化部108から出力されたn番フレームの符号化音源パラメータ、ピッチパルス抽出部109から出力されたn−1番フレームの符号化ピッチパルス位置パラメータ、パワーパラメータ符号化部112から出力されたn−1番フレームの符号化パワーパラメータ及び符号化ピッチパルス振幅極性を多重化し、得られた多重化データをn番フレームの符号化音声データとして出力する。
このように、音声符号化装置100によれば、各符号化パラメータがCELP(Code-Excited Linear Prediction)型音声符号化方式により入力音声から算出され、音声符号化データとして出力される。また、フレーム誤り耐性を高めるために、前フレームの隠蔽処理用パラメータを符号化したデータと現フレームの音声符号化データを多重化して送信する。
図3は、図2に示したパワーパラメータ符号化部112の内部構成を示すブロック図である。以下、パワーパラメータ符号化部112を構成する各部について説明する。
振幅領域変換部121は、正規化予測残差パワー算出部111から出力された正規化予測残差パワーの平方根を算出することにより、正規化予測残差パワーをパワー領域から振幅領域に変換し、対数変換部122に出力する。
対数変換部122は、振幅領域変換部121から出力された正規化予測残差振幅に対して、底を10とする対数をとり、対数変換を行う。対数変換された正規化予測残差振幅は対数正規化予測残差振幅平均除去部123に出力される。
対数正規化予測残差振幅平均除去部123は、対数変換部122から出力された対数正規化予測残差振幅からその平均値を減算し、減算結果をベクトル量子化部144に出力する。なお、対数正規化予測残差振幅の平均値は、大規模な入力信号データベースを用いて事前に算出しておくものとする。
振幅領域変換部131は、音源パワー算出部110から出力された音源パワーの平方根を算出することにより、音源パワーをパワー領域から振幅領域に変換し、対数変換部132に出力する。
対数変換部132は、振幅領域変換部131から出力された音源振幅に対して、底を10とする対数をとり、対数変換を行う。対数変換された音源振幅は対数音源振幅平均除去部133に出力される。
対数音源振幅平均除去部133は、対数変換部132から出力された対数音源振幅から
その平均値を減算し、減算結果をベクトル量子化部144に出力する。なお、対数音源振幅の平均値は、大規模な入力信号データベースを用いて事前に算出しておくものとする。
絶対値化部141は、ピッチパルス抽出部109から出力されたピッチパルス振幅の絶対値をとり、ピッチパルス振幅の絶対値を対数変換部142に出力し、ピッチパルス振幅の極性を極性符号化部145に出力する。
対数変換部142は、絶対値化部141から出力されたピッチパルス振幅の絶対値に対して、底を10とする対数をとり、対数変換を行う。対数変換されたピッチパルス振幅は対数ピッチパルス振幅平均除去部143に出力される。
対数ピッチパルス振幅平均除去部143は、対数変換部142から出力された対数ピッチパルス振幅からその平均値を減算し、減算結果をベクトル量子化部144に出力する。なお、対数ピッチパルス振幅の平均値は、大規模な入力信号データベースを用いて事前に算出しておくものとする。
ベクトル量子化部144は、対数正規化予測残差振幅、対数音源振幅、対数ピッチパルス振幅を3次元ベクトルとしてベクトル量子化を行い、得られたインデックスを符号化パワーパラメータとして多重化部113に出力する。
極性符号化部145は、絶対値化部141から出力されたピッチパルス振幅の正負を符号化し、符号化ピッチパルス振幅極性として多重化部113に出力する。
このように、パワーパラメータ符号化部112は、パラメータ領域を統一して、平均値の除去を行い、ダイナミックレンジを合わせた上でベクトル量子化を行うことにより、入力されるパワーパラメータを効率よく量子化している。
図4は、本発明の実施の形態に係る音声復号装置200の構成を示すブロック図である。以下、音声復号装置200を構成する各部について説明する。
逆多重化部201は、音声符号化装置100から伝送された符号化音声データを受信し、符号化パワーパラメータ、符号化ピッチパルス振幅極性、符号化音源パラメータ、符号化ピッチパルス位置パラメータ及び符号化LPCパラメータを分離する。また、逆多重化部201は、得られた符号化パワーパラメータ及び符号化ピッチパルス振幅極性をパワーパラメータ復号部202に出力し、符号化音源パラメータを音源パラメータ復号部203に出力し、符号化ピッチパルス位置パラメータをピッチパルス情報復号部205に出力し、符号化LPCパラメータをLPC復号部209に出力する。また、逆多重化部201はフレーム消失情報を受信し、フレーム消失情報を音源パラメータ復号部203、音源選択部208、LPC復号部209及び合成フィルタゲイン調整係数算出部211に出力する。
パワーパラメータ復号部202は、逆多重化部201から出力された符号化パワーパラメータ及び符号化ピッチパルス振幅極性を復号し、音声符号化装置100において符号化された、音源パワー、正規化予測残差パワー、ピッチパルス振幅を得る。以下、混同を避けるため、これら復号したパワーパラメータは、それぞれ参照音源パワー、参照正規化予測残差パワー、参照ピッチパルス振幅、と呼ぶこととする。パワーパラメータ復号部202は、得られた参照ピッチパルス振幅を位相補正部206に出力し、参照音源パワーを音源パワー調整部207に出力し、参照正規化予測残差パワーを合成フィルタゲイン調整係数算出部211に出力する。パワーパラメータ復号部202の詳細については後述する。
音源パラメータ復号部203は、逆多重化部201から出力された符号化音源パラメータを復号して雑音符号帳インデックス、ゲイン(雑音符号帳ゲイン及びピッチゲイン)、ピッチラグなどの音源パラメータを得る。得られた音源パラメータは復号音源生成部204に出力される。
復号音源生成部204は、音源パラメータ復号部203から出力された音源パラメータ、及び、音源選択部208からフィードバックされた音源信号を用いて、CELPモデルに基づく復号処理またはフレーム消失隠蔽処理を行い、復号音源信号を生成し、生成した復号音源信号を位相補正部206及び音源選択部208に出力する。
ピッチパルス情報復号部205は、逆多重化部201から出力された符号化ピッチパルス位置パラメータを復号し、得られたピッチパルス位置を位相補正部206に出力する。
位相補正部206は、復号音源生成部204から出力された復号音源信号に対して、ピッチパルス情報復号部205から出力されたピッチパルス位置及びパワーパラメータ復号部202から出力された参照ピッチパルス振幅を用いて、隠蔽処理によって生成された音源信号の位相を補正し、位相補正音源信号を音源パワー調整部207に出力する。位相補正部206では、受信したピッチパルス位置にピッチパルス振幅の値を有するサンプルが位置するように、隠蔽処理によって生成された音源信号の位相を補正する。本実施の形態では、簡単のためピッチパルス位置にピッチパルス振幅の値を有するインパルスで音源信号の該当部を置換する。これにより、後続するフレームで正確なピッチラグが受信できた場合に、適応符号帳から出力されるピッチ波形の位相を正しい位相に合わせることができる。
音源パワー調整部207は、位相補正部206から出力された位相補正音源信号のパワーを、パワーパラメータ復号部202から出力された参照音源パワーに合うように調整し、パワー調整後の位相補正音源信号をパワー調整音源信号として音源選択部208に出力する。具体的には、音源パワー調整部207は、n番フレームの位相補正音源信号パワーDPe(n)を式(3)により算出する。
Figure 2008108080
ここで、dpexc[]はピッチパルス補正音源信号を、iはサンプル番号を表す。
次に、音源パワー調整部207は、音声符号化装置100から受信した参照音源パワーに合わせる音源パワー調整係数を算出する。n番フレームの音源パワー調整係数re(n)は式(4)により算出される。
Figure 2008108080
ここで、Pe(n)はn番フレームの参照音源パワーを表す。
音源パワー調整部207は、上式(4)により得られた音源パワー調整係数re(n)を、位相補正音源信号DPe(n)に乗じることにより、位相補正音源信号パワーを参照音源パワーに合わせる。
音源選択部208は、逆多重化部201から出力されたフレーム消失情報がフレーム消失を示す場合は、音源パワー調整部207から出力されたパワー調整音源信号を選択し、
フレーム消失情報がフレーム消失を示していない場合は、復号音源生成部204から出力された復号音源信号を選択する。音源選択部208は、選択した音源信号を復号音源生成部204及び合成フィルタゲイン調整部212に出力する。なお、復号音源生成部204に出力された音源信号は、復号音源生成部204内の適応符号帳に格納される。
LPC復号部209は、逆多重化部201から出力された符号化LPCパラメータを復号し、得られたLPCを正規化予測残差パワー算出部210及び合成フィルタ部213に出力する。また、LPC復号部209は、逆多重化部201から出力されたフレーム消失情報によって、現フレームが消失フレームであることを知った場合には、過去のLPCから現フレームのLPCを隠蔽処理によって生成する。以下、隠蔽処理によって生成されたLPCを隠蔽LPCと呼ぶ。
正規化予測残差パワー算出部210は、LPC復号部209から出力されたLPC(又は隠蔽LPC)から正規化予測残差パワーを算出し、算出した正規化予測残差パワーを合成フィルタゲイン調整係数算出部211に出力する。正規化予測残差パワーは、隠蔽LPCから求める場合には、隠蔽LPCから反射係数に変換する過程で得られる。n番フレームの正規化予測残差パワーDPz(n)は式(5)によって算出される。
Figure 2008108080
ここで、Mは予測次数、dr[j]はj次の反射係数である。なお、正規化予測残差パワー算出部210は音声符号化装置100の正規化予測残差パワー算出部111で算出した方法と同じ方法を用いればよい。
合成フィルタゲイン調整係数算出部211は、正規化予測残差パワー算出部210から出力された正規化予測残差パワー、パワーパラメータ復号部202から出力された参照正規化予測残差パワー、逆多重化部201から出力されたフレーム消失情報に基づいて、合成フィルタゲイン調整係数を算出し、算出した合成フィルタゲイン調整係数を合成フィルタゲイン調整部212に出力する。n番フレームの合成フィルタゲイン調整係数rz(n)は式(6)により算出される。
Figure 2008108080
ここで、Pz(n)はn番フレームの参照正規化予測残差パワーを表す。なお、合成フィルタゲイン調整係数算出部211は、フレーム消失情報により現フレームが消失フレームでないことが分かった場合には、計算せずに1.0を合成フィルタゲイン調整部212に出力してもよい。
合成フィルタゲイン調整部212は、音源選択部208から出力された音源信号に合成フィルタゲイン調整係数算出部211から出力された合成フィルタゲイン調整係数を乗算することにより、音源信号のエネルギーを調整し、合成フィルタゲイン調整音源信号として合成フィルタ部213に出力する。
合成フィルタ部213は、合成フィルタゲイン調整部212から出力された合成フィルタゲイン調整音源信号及びLPC復号部209から出力されたLPC(又は隠蔽LPC)を用いて、復号音声信号を合成して出力する。
このように、音声復号装置200によれば、音源信号のパワーと合成フィルタのゲイン
とを別々に調整することにより、音源信号のパワーと復号音声信号のパワーの双方をフレーム消失隠蔽処理時とエラーフリー時とで合わせることが可能となる。このため、適応符号帳に格納される音源信号のパワーがエラーフリー時の音源信号のパワーと大きく異ならないようにすることができるので、復帰フレーム以降で発生しうる音切れや異音を低減することができる。また、合成フィルタのフィルタゲインもエラーフリー時のゲインに合わせることが可能となるので、復号音声信号のパワーもエラーフリー時のパワーに合わせることができる。
図5は、図4に示したパワーパラメータ復号部202の内部構成を示すブロック図である。以下、パワーパラメータ復号部202を構成する各部について説明する。
ベクトル量子化復号部220は、逆多重化部201から出力された符号化パワーパラメータを復号し、平均除去されている対数正規化予測残差振幅、平均除去されている対数音源振幅、平均除去されている対数ピッチパルス振幅を得て、それぞれ対数正規化予測残差振幅平均加算部221、対数音源振幅平均加算部231、対数ピッチパルス振幅平均加算部241に出力する。
対数正規化予測残差振幅平均加算部221は、予め記憶している対数正規化予測残差振幅平均値をベクトル量子化復号部220から出力された平均除去されている対数正規化予測残差振幅に加算し、加算結果を対数逆変換部222に出力する。ここで、記憶されている対数正規化予測残差振幅平均値はパワーパラメータ符号化部112の対数正規化予測残差振幅平均除去部123に記憶されている平均値と同一である。
対数逆変換部222は、対数正規化予測残差振幅平均加算部221から出力された対数正規化予測残差振幅を指数とする10のべき乗を算出することにより、パワーパラメータ符号化部112で対数領域に変換された振幅を線形領域に戻す。得られた正規化予測残差振幅はパワー領域変換部223に出力される。
パワー領域変換部223は、対数逆変換部222から出力された正規化予測残差振幅の自乗を算出することにより、振幅領域からパワー領域に変換し、参照正規化予測残差パワーとして合成フィルタゲイン調整係数算出部211に出力する。
対数音源振幅平均加算部231は、予め記憶している対数音源振幅平均値をベクトル量子化復号部220から出力された平均除去されている対数音源振幅に加算し、加算結果を対数逆変換部232に出力する。ここで、記憶されている対数音源振幅平均値はパワーパラメータ符号化部112の対数音源振幅平均除去部133に記憶されている平均値と同一である。
対数逆変換部232は、対数音源振幅平均加算部231から出力された対数音源振幅を指数とする10のべき乗を算出することにより、パワーパラメータ符号化部112で対数領域に変換された振幅を線形領域に戻す。得られた音源振幅はパワー領域変換部233に出力される。
パワー領域変換部233は、対数逆変換部232から出力された音源振幅の自乗を算出することにより、振幅領域からパワー領域に変換し、参照音源パワーとして音源パワー調整部207に出力する。
対数ピッチパルス振幅平均加算部241は、予め記憶している対数ピッチパルス振幅平均値をベクトル量子化復号部220から出力された平均除去されている対数ピッチパルス振幅に加算し、加算結果を対数逆変換部242に出力する。ここで、記憶されている対数
ピッチパルス振幅平均値はパワーパラメータ符号化部112の対数ピッチパルス振幅平均除去部143に記憶されている平均値と同一である。
対数逆変換部242は、対数ピッチパルス振幅平均加算部241から出力された対数ピッチパルス振幅を指数とする10のべき乗を算出することにより、パワーパラメータ符号化部112で対数領域に変換された振幅を線形領域に戻す。得られたピッチパルス振幅は極性付加部244に出力される。
極性復号部243は、逆多重化部201から出力された符号化ピッチパルス振幅極性を復号し、ピッチパルス振幅極性を極性付加部244に出力する。
極性付加部244は、対数逆変換部242から出力されたピッチパルス振幅に極性復号部243から出力されたピッチパルス振幅の正負を付与し、結果を参照ピッチパルス振幅として位相補正部206に出力する。
次に、図4に示した音声復号装置200の動作について説明する。音声復号装置200は、フレーム消失がない場合は、通常のCELP型復号を行い、復号音声信号を得る。
一方、音声復号装置200は、フレームが消失し、かつ、当該フレームを隠蔽するための隠蔽処理情報が得られる時は、通常のCELP型復号とは異なる動作をする。以下、この動作について具体的に説明する。
まず、フレーム消失があると、LPC復号部209、音源パラメータ復号部203は、過去の符号化パラメータを用いて、現フレームのパラメータを隠蔽処理する。これにより、隠蔽LPC、隠蔽音源パラメータが得られる。得られた隠蔽音源パラメータから通常のCELP型復号を行うことにより、隠蔽音源信号が得られる。
ここで得られた隠蔽LPC及び隠蔽音源信号に対して、隠蔽用パラメータを用いて補正を行う。本実施の形態における隠蔽用パラメータの目的は、フレーム消失時における復号音声信号のパワーとエラーフリー時のパワーとの差を小さくすること、かつ、隠蔽音源信号のパワーとエラーフリー時の復号音源信号のパワーとの差を小さくすることである。ただし、単純に、隠蔽音源信号のパワーをエラーフリー時の復号音源信号のパワーに合わせると、異音が発生しやすくなる。そのため、ピッチパルスの位置及び振幅をあわせて隠蔽用パラメータとして用いることにより、音源の最大振幅及び位相を調整し、隠蔽音源信号の品質を高めている。
このようにして調整された隠蔽音源信号に対して、得られた隠蔽音源信号のパワーを参照音源パワーに合うようにパワー調整する。そして、合成フィルタのフィルタゲインを調整することにより、復号音声信号のパワーをエラーフリー時の復号音声信号のパワーに合わせる。本実施の形態では、合成フィルタのフィルタゲインは正規化予測残差パワーを用いて表現している。すなわち、隠蔽LPCを用いて構成される合成フィルタのフィルタゲインがエラーフリー時のフィルタゲインになるように、正規化予測残差パワーを用いて合成フィルタゲイン調整係数を算出する。
得られた合成フィルタゲイン調整係数をパワー調整された隠蔽音源信号に乗じたうえで、合成フィルタに入力し、復号音声信号を得る。このようにして、復号音源パワー及び合成フィルタのフィルタゲインをエラーフリー時と合うように調整することによって、エラーフリー時の復号音声信号パワーと誤差の少ない復号音声信号を得ることができる。
このように本実施の形態によれば、参照音源パワー及び参照正規化予測残差パワーを隠
蔽処理用冗長情報として用いることにより、消失フレームにおける復号音声信号のパワーをエラーフリー時の復号音声信号のパワーに合わせることから、音切れや過大音といった復号信号パワーの不整合に起因する主観品質の劣化を回避することができる。また、参照音源パワーを用いることにより、復号音声信号パワーだけでなく、復号音源パワーも参照音源パワーに合わせることができるので、復帰フレーム以降における復号音声のパワー不整合に起因する主観品質の劣化を抑制することができる。さらに、パワー関連パラメータをベクトル量子化によって量子化して伝送することにより、いずれか一方の情報を送信する場合に比べて同等〜数ビットの増加ですむことから、パワーに関する隠蔽処理用冗長情報を少ない情報量で送信することができる。
なお、本実施の形態では、隠蔽処理用冗長情報として、正規化予測残差パワーを送信する場合について説明したが、本発明はこれに限らず、LPC予測ゲイン(合成フィルタゲイン)、インパルス応答パワー等のLPC合成フィルタのフィルタゲインを等価的に表すパラメータを送信してもよい。
また、音源パワーや正規化予測残差パワーは、サブフレーム単位でベクトル量子化し、送信するようにしてもよい。
また、本実施の形態では、隠蔽処理用冗長情報として、ピッチパルス情報(振幅及び位置)も合わせて送信する場合について説明したが、ピッチパルス情報を使用しない形態も可能である。また、隠蔽音源信号の位相を一致させる構成となっていればどのような形態でもよい。
また、本実施の形態ではフレーム消失時に、復号音源生成部204で隠蔽処理を行った後、ピッチパルスによる位相補正、音源パワーの調整を行う場合について説明したが、ピッチパルス情報や参照音源パワーを使って復号音源生成部204で隠蔽音源信号を生成するようにしてもよい。すなわち、ピッチパルス位置に隠蔽音源信号のピッチパルスが位置するようにピッチラグを修正し、参照音源パワーに隠蔽音源パワーが合うように、ピッチゲイン、雑音符号帳ゲインを調整するようにしてもよい。
また、本実施の形態では、音源のパワーを調整するために、音源エネルギーをバッファ長で正規化した音源パワーを用いて調整する場合について説明したが、正規化せずにエネルギーのまま調整するようにしてもよい。
また、本実施の形態では、パワーパラメータについて、パワー領域から振幅領域に変換した後に対数変換しているが(平方根を算出してから底を10とする対数変換を行っている)、対数変換したものを2で除算しても同じことである(10を底とした対数変換を行ってから2で除算しても等価)。
また、本実施の形態では、本実施の形態に係る音声復号装置が、本実施の形態に係る音声符号化装置から送信された符号化音声データを受信して処理する場合を例に説明した。しかし、本発明はこれに限定されず、本実施の形態に係る音声復号装置が受信して処理する符号化音声データは、この音声復号装置が処理可能である符号化音声データを生成可能な、異なる構成の音声符号化装置が送信したものであってもよい。
なお、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含
むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
2007年3月2日出願の特願2007−053503の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明にかかる音声符号化装置及び音声復号装置は、フレーム消失時の隠蔽処理を行っても、復号信号のパワー不整合に起因する主観品質の劣化を回避することができ、例えば、移動通信システムの無線通信基地局装置及び無線通信端末装置等に適用できる。
エラーフリー時のLPCフィルタのフィルタゲイン、復号音源信号のパワー、復号音声信号パワーの時間的変化を示す図 フレーム消失隠蔽処理時のパワー調整の例を示す図 本発明の実施の形態に係る音声符号化装置の構成を示すブロック図 図2に示したパワーパラメータ符号化部の内部構成を示すブロック図 本発明の実施の形態に係る音声復号装置の構成を示すブロック図 図4に示したパワーパラメータ復号部の内部構成を示すブロック図

Claims (5)

  1. 音源信号のパワーを算出する音源パワー算出手段と、
    正規化予測残差パワーを算出する正規化予測残差パワー算出手段と、
    算出された音源信号のパワーと正規化予測残差パワーを含む隠蔽処理用パラメータを他のパラメータと多重化する多重化手段と、
    を具備する音声符号化装置。
  2. ピッチパルスを検出するピッチパルス検出手段を具備し、
    前記多重化手段は、検出されたピッチパルスの振幅情報をさらに含む前記隠蔽処理用パラメータを多重化する、
    請求項1に記載の音声符号化装置。
  3. 前記隠蔽処理用パラメータをベクトル量子化するベクトル量子化手段を具備する、
    請求項1に記載の音声符号化装置。
  4. 前記ベクトル量子化手段は、前記音源信号のパワーと前記正規化予測残差パワーと前記ピッチパルスの振幅情報のうち、いずれか2以上の情報を組み合わせてベクトルとして量子化する、
    請求項3に記載の音声符号化装置。
  5. 受信した音源信号のパワーと一致するように、フレーム消失時に隠蔽処理によって生成された音源信号のパワーを調整する音源パワー調整手段と、
    フレーム消失時に隠蔽処理によって生成された線形予測係数の正規化予測残差パワーを算出する正規化予測残差パワー算出手段と、
    算出された前記正規化予測残差パワーと受信した正規化予測残差パワーとの比から合成フィルタのフィルタゲイン調整係数を算出する調整係数算出手段と、
    隠蔽処理によって生成された前記音源信号に前記フィルタゲイン調整係数を乗算し、合成フィルタのフィルタゲインを調整する調整手段と、
    隠蔽処理によって生成された前記線形予測係数と、前記フィルタゲイン調整係数が乗算された前記音源信号とを用いて、復号音声信号を合成する合成フィルタ手段と、
    を具備する音声復号装置。
JP2009502458A 2007-03-02 2008-02-29 音声符号化装置及び音声復号装置 Expired - Fee Related JP5489711B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009502458A JP5489711B2 (ja) 2007-03-02 2008-02-29 音声符号化装置及び音声復号装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007053503 2007-03-02
JP2007053503 2007-03-02
PCT/JP2008/000404 WO2008108080A1 (ja) 2007-03-02 2008-02-29 音声符号化装置及び音声復号装置
JP2009502458A JP5489711B2 (ja) 2007-03-02 2008-02-29 音声符号化装置及び音声復号装置

Publications (2)

Publication Number Publication Date
JPWO2008108080A1 true JPWO2008108080A1 (ja) 2010-06-10
JP5489711B2 JP5489711B2 (ja) 2014-05-14

Family

ID=39737978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009502458A Expired - Fee Related JP5489711B2 (ja) 2007-03-02 2008-02-29 音声符号化装置及び音声復号装置

Country Status (6)

Country Link
US (1) US9129590B2 (ja)
EP (2) EP3301672B1 (ja)
JP (1) JP5489711B2 (ja)
BR (1) BRPI0808200A8 (ja)
ES (1) ES2642091T3 (ja)
WO (1) WO2008108080A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155144A1 (ja) 2010-06-11 2011-12-15 パナソニック株式会社 復号装置、符号化装置及びこれらの方法
ES2727748T3 (es) * 2010-11-22 2019-10-18 Ntt Docomo Inc Dispositivo y método de codificación de audio
WO2012144128A1 (ja) 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
EP3301677B1 (en) * 2011-12-21 2019-08-28 Huawei Technologies Co., Ltd. Very short pitch detection and coding
JP5981408B2 (ja) 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
EP2922056A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384891A (en) * 1988-09-28 1995-01-24 Hitachi, Ltd. Vector quantizing apparatus and speech analysis-synthesis system using the apparatus
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
CA2242610C (en) * 1996-11-11 2003-01-28 Matsushita Electric Industrial Co., Ltd. Sound reproducing speed converter
US6775649B1 (en) * 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US6826527B1 (en) * 1999-11-23 2004-11-30 Texas Instruments Incorporated Concealment of frame erasures and method
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP4331928B2 (ja) 2002-09-11 2009-09-16 パナソニック株式会社 音声符号化装置、音声復号化装置、及びそれらの方法
US7302385B2 (en) * 2003-07-07 2007-11-27 Electronics And Telecommunications Research Institute Speech restoration system and method for concealing packet losses
US7324937B2 (en) * 2003-10-24 2008-01-29 Broadcom Corporation Method for packet loss and/or frame erasure concealment in a voice communication system
KR20070061818A (ko) * 2004-09-17 2007-06-14 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치, 음성 복호 장치, 통신 장치 및 음성부호화 방법
JP2007053503A (ja) 2005-08-16 2007-03-01 Kaneka Corp アンテナおよびその製造方法
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US20090018824A1 (en) * 2006-01-31 2009-01-15 Matsushita Electric Industrial Co., Ltd. Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method
WO2008007700A1 (fr) * 2006-07-12 2008-01-17 Panasonic Corporation Dispositif de décodage de son, dispositif de codage de son, et procédé de compensation de trame perdue
WO2008007699A1 (en) * 2006-07-12 2008-01-17 Panasonic Corporation Audio decoding device and audio encoding device

Also Published As

Publication number Publication date
ES2642091T3 (es) 2017-11-15
EP2128854A4 (en) 2013-08-28
BRPI0808200A8 (pt) 2017-09-12
EP3301672B1 (en) 2020-08-05
EP3301672A1 (en) 2018-04-04
EP2128854B1 (en) 2017-07-26
JP5489711B2 (ja) 2014-05-14
US20100049509A1 (en) 2010-02-25
WO2008108080A1 (ja) 2008-09-12
US9129590B2 (en) 2015-09-08
EP2128854A1 (en) 2009-12-02
BRPI0808200A2 (pt) 2014-07-08

Similar Documents

Publication Publication Date Title
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
JP5052514B2 (ja) 音声復号装置
US9020813B2 (en) Speech enhancement system and method
EP2382622B1 (en) Method and apparatus for generating an enhancement layer within a multiple-channel audio coding system
US8175888B2 (en) Enhanced layered gain factor balancing within a multiple-channel audio coding system
JP5489711B2 (ja) 音声符号化装置及び音声復号装置
EP2382626B1 (en) Selective scaling mask computation based on peak detection
US20020077812A1 (en) Voice code conversion apparatus
ES2707888T3 (es) Sistemas y procedimientos para mitigar la inestabilidad potencial de tramas
JPH0353300A (ja) 音声符号化装置
US20230178087A1 (en) Audio Encoding/Decoding based on an Efficient Representation of Auto-Regressive Coefficients
KR20070118170A (ko) 스펙트럼 엔벨로프 표현의 벡터 양자화를 위한 방법 및장치
WO2008007698A1 (fr) Procédé de compensation des pertes de blocs, appareil de codage audio et appareil de décodage audio
WO2010077587A1 (en) Selective scaling mask computation based on peak detection
KR20070085532A (ko) 스테레오 부호화 장치, 스테레오 복호 장치 및 그 방법
JP6109968B2 (ja) 補間係数セットを決定するためのシステムおよび方法
Gomez et al. Recognition of coded speech transmitted over wireless channels
US20100153099A1 (en) Speech encoding apparatus and speech encoding method
KR20120032444A (ko) 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치
KR20120032443A (ko) 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치
JP2001100797A (ja) 音声符号化復号装置
Gardner et al. Survey of speech-coding techniques for digital cellular communication systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140225

R151 Written notification of patent or utility model registration

Ref document number: 5489711

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees