WO2017094203A1

WO2017094203A1 - 音声信号復号装置及び音声信号復号方法

Info

Publication number: WO2017094203A1
Application number: PCT/JP2016/002509
Authority: WO
Inventors: 江原　宏幸; 河嶋　拓也
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2015-12-02
Filing date: 2016-05-24
Publication date: 2017-06-08
Also published as: US20200152214A1; US10811020B2; JP2017102299A; JP6611042B2

Abstract

音声信号復号装置は、第１のデコーダ（１１３）と、第２のデコーダ（１２３）と、信号切替部（１３２）と、雑音付加部（１３３）と、を備える。第１のデコーダ（１１３）は、第１の符号化方式によって符号化され伝送された第１の符号化データを復号する。第２のデコーダ（１２３）は、第２の符号化方式によって符号化され伝送された、第１の符号化データよりも帯域の狭い第２の符号化データを復号する。信号切替部（１３２）は、第１のデコーダ（１１３）の出力信号と、第２のデコーダ（１２３）の出力信号とを切り替えて出力する。雑音付加部（１３３）は、信号切替部（１３２）が第１のデコーダ（１１３）の出力信号から第２のデコーダ（１２３）の出力信号へと出力信号を切り替える場合に、第２のデコーダ（１２３）の出力信号において第１のデコーダ（１１３）の出力信号に比して信号成分が不足している高域帯域に雑音信号を付加する。

Description

音声信号復号装置及び音声信号復号方法

　本開示は、異なるコーデックを用いたデュアルコーデック音声伝送システムに用いられる音声信号復号装置及び音声信号復号方法に関する。

　従来、伝送路の状態などに応じて使用するコーデックを切り替える音声伝送システムがある。このような音声伝送システムにおいては、例えば、広帯域のコーデックを使用できる場合には広帯域のコーデックを使用し、広帯域のコーデックを使用できない場合には狭帯域のコーデックを使用する。

　コーデックを切り替えるにあたっては、切り替え時に生じる雑音等を低減して聴覚上の違和感を抑制する必要がある。その一つの方法として、特許文献１には、符号化手段（コーデック）の切り替えを無音期間において行うことで、符号化手段（コーデック）の切り替えに伴う雑音の発生を防止する技術が開示されている。

特開２００２－６２８９７号公報

　ところで、特許文献１のように無音期間でコーデックの切り替えを行おうとすると、無音期間となるまではコーデックの切り替えを行うことができなく、実用上不都合である。

　本開示の一態様は、コーデック切り替え時の聴覚上の違和感を抑制し得る音声信号復号装置及び音声信号復号方法を提供する。

　本開示の一態様に係る音声信号復号装置は、第１のデコーダと、第２のデコーダと、信号切替部と、雑音付加部と、を具備する。第１のデコーダは、第１の符号化方式によって符号化され伝送された第１の符号化データを復号する。第２のデコーダは、第２の符号化方式によって符号化され伝送された、第１の符号化データよりも帯域の狭い第２の符号化データを復号する。信号切替部は、第１のデコーダの出力信号と、第２のデコーダの出力信号とを切り替えて出力する。雑音付加部は、信号切替部が第１のデコーダの出力信号から第２のデコーダの出力信号へと出力信号を切り替える場合に、第２のデコーダの出力信号において第１のデコーダの出力信号に比して信号成分が不足している高域帯域に雑音信号を付加する。

　本開示の一態様に係る音声信号復号方法は、第１の復号ステップと、第２の復号ステップと、信号切替ステップと、雑音付加ステップと、を含む。第１の復号ステップは、第１の符号化方式によって符号化され伝送された第１の符号化データを復号する。第２の復号ステップは第２の符号化方式によって符号化され伝送された、第１の符号化データよりも帯域の狭い第２の符号化データを復号する。信号切替ステップは、第１の復号ステップで得られた第１の復号信号と、第２の復号ステップで得られた第２の復号信号とを切り替えて出力する。雑音付加ステップは、信号切替ステップによって第１の復号信号から第２の復号信号へと出力信号を切り替える場合に、第２の復号信号において第１の復号信号に比して信号成分が不足している高域帯域に雑音信号を付加する。

　なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又は記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　本開示の一態様における更なる利点及び効果は、明細書及び図面から明らかにされる。かかる利点及び効果は、いくつかの実施形態並びに明細書及び図面に記載された特徴によってそれぞれ提供されるが、１つ又はそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。

図１は、実施の形態の原理の説明に供する図である。図２は、高域信号の消失、及び、低域信号の不連続に起因する異音発生の説明に供する図である。図３は、クロスフェード処理による、低域での不連続感の解消の説明に供する図である。図４は、実施の形態の音声信号復号装置が適用されたデュアルコーデック音声伝送システムの主要構成を示すブロック図である。図５は、他の実施の形態の構成を示すブロック図である。

　以下、本開示の実施の形態について、図面を参照して詳細に説明する。

　（１）原理
　先ず、本実施の形態の原理について説明する。

　図１は、実施の形態による復号方法の原理を示す図である。図１では、第１の符号化方式を用いた第１のコーデックから、第２の符号化方式を用いた第２のコーデックに切り替える場合の原理を示す。第１のコーデックとして、Ｇ．７２２．１Ｃに準拠したコーデックが用いられている。第２のコーデックとして、ＡＭＲ－ＷＢに準拠したコーデックが用いられている。図からも分かるように、第１のコーデック（Ｇ．７２２．１Ｃ）は第２のコーデック（ＡＭＲ－ＷＢ）よりも帯域が広い。

　第１のコーデックと第２のコーデックとを比較した場合、第２のコーデックは高域帯域の信号成分が不足している。本実施の形態の復号方法においては、信号成分が不足している高域帯域に、第１のコーデックから第２のコーデックへと切り替えられる時点ｔ２から時間とともに次第に減衰する雑音信号Ｎ０を付加する。このようにすることで、第１のコーデックから、第１のコーデックと比較して高域成分が欠落している第２のコーデックに切り替える際の、異音の発生を抑制できる。なお、雑音信号Ｎ０としては、例えば白色ノイズを用いればよい。

　加えて、本実施の形態の場合には、クロスフェード処理を行う。具体的には、第１のコーデックから第２のコーデックへと切り替えられる時点ｔ２から、第１のコーデックの出力レベルを徐々に下げるとともに第２のコーデックの出力レベルを徐々に上げるようになっている。

　因みに、図２に示すように、雑音信号Ｎ０を付加しない場合には、コーデックの切り替え時点ｔ２以降で高域帯域の信号が消失するので、切り替え時点ｔ２で異音が発生する。本実施の形態の場合には、このような高域帯域の信号の消失に起因する異音の発生を抑制できる。

　また、図３に示すようなクロスフェード処理を行えば、コーデックが切り替わることに伴う低域帯域における聴覚上の不連続感を解消できる。加えて、高域帯域においても切り替え時点ｔ２で第１のコーデックの信号が急に消失するわけではないので異音の発生は抑制される。しかし、帯域感が急速に消失するので、やはり聴覚上の違和感が残ることになる。

　本実施の形態の音声信号復号方法では、コーデックの切り替えによって信号成分が消失する高域帯域に、切り替え時点ｔ２から時間とともに次第に減衰する雑音信号Ｎ０を付加するようにしたことにより、聴覚上の違和感を抑制できる。

　（２）構成
　図４は、本実施の形態の音声信号復号装置が適用されたデュアルコーデック音声伝送システムの主要構成を示すブロック図である。

　サンプリング周波数Ｆｓ＝３２ｋＨｚの入力音声信号は、ダウンサンプラー１２１及びＡＭＲ－ＷＢエンコーダ／デコーダ１２２によって符号化されることにより、ＶｏＬＴＥ（ベアラ１）に適応した信号とされ伝送される。一方で、入力音声信号は、遅延回路１１１及びＧ．７２２．１Ｃエンコーダ１１２によって符号化されることにより、ＶｏＩＰ（ベアラ２）に適応した信号とされ伝送される。

　ＶｏＬＴＥ（ベアラ１）の信号は、ＡＭＲ－ＷＢデコーダ１２３によってデコードされてＡＭＲ－ＷＢ復号信号とされた後、アップサンプリング回路１２４を介してバッファ１２５及び遅延検出部１３１に入力される。一方で、ＶｏＩＰ（ベアラ２）の信号は、Ｇ．７２２．１Ｃデコーダ１１３によってデコードされてＧ．７２２．１Ｃ復号信号とされた後、バッファ１１４、遅延検出部１３１及びエネルギー算出部１３４に入力される。

　遅延検出部１３１は、ＡＭＲ－ＷＢ復号信号とＧ．７２２．１Ｃ復号信号との位相差を検出し、検出結果をバッファ１２５、１１４に出力する。バッファ１２５、１１４は、ＡＭＲ－ＷＢ復号信号とＧ．７２２．１Ｃ復号信号との位相差がなくなるように制御される。具体的には、バッファ１２５、１１４は、ＡＭＲ－ＷＢ復号信号とＧ．７２２．１Ｃ復号信号の少なくともいずれか一方を遅延させることで位相をずらして位相補正を行う。このように補正によって同期されたＡＭＲ－ＷＢ復号信号及びＧ．７２２．１Ｃ復号信号は、切替／混合部１３２に入力される。

　切替／混合部１３２は、Ｇ．７２２．１Ｃ復号信号及びＡＭＲ－ＷＢ復号信号における信号の有無や信号品質に応じて、出力信号を切り替える。切替／混合部１３２は、ＡＭＲ－ＷＢ復号信号よりも高品質であるＧ．７２２．１Ｃ復号信号が存在する場合（つまりＧ．７２２．１Ｃ復号信号が伝送されている場合）には、Ｇ．７２２．１Ｃ復号信号を選択して出力する。これに対して、切替／混合部１３２は、Ｇ．７２２．１Ｃ復号信号が存在しなくなる場合（つまり伝送路の状態によってＧ．７２２．１Ｃ復号信号の伝送が途切れるような場合）には、図１に示すように、出力信号をＧ．７２２．１Ｃ復号信号からＡＭＲ－ＷＢ復号信号に切り替える。

　加えて、切替／混合部１３２は、図１及び図３に示したように、Ｇ．７２２．１Ｃ復号信号からＡＭＲ－ＷＢ復号信号に出力信号を切り替える場合に、切り替え直後のフレームにおいて、両信号をクロスフェードして混合する。切替／混合部１３２からの出力信号は加算部１３３に入力される。

　エネルギー算出部１３４は、Ｇ．７２２．１Ｃ復号信号のエネルギーを算出する。実際には、Ｇ．７２２．１Ｃ復号信号のエネルギーは変動するので、エネルギー算出部１３４はＧ．７２２．１Ｃ復号信号の複数フレームに亘る長期エネルギー平均値を算出する。

　エネルギー制御部１３６は、雑音生成部１３５から入力した雑音信号のエネルギーを、エネルギー算出部１３４の算出結果に応じて調整して加算部１３３に出力する。これにより、加算部１３３では、図１に示したように、Ｇ．７２２．１Ｃ復号信号の切り替えによる高域の信号消失部分に、Ｇ．７２２．１Ｃ復号信号の切り替え前の長期エネルギー平均値に応じた雑音信号が付加される。例えば長期エネルギー平均値の大きさに比例したエネルギーの雑音信号を付加すればよい。また、エネルギー制御部１３６によって、雑音信号の減衰率をクロスフェードの減衰率よりも小さくするとよい。要は、切り替えのタイミングでＧ．７２２．１Ｃ復号信号の高域でのエネルギーが急激に変動しないようなエネルギーの雑音信号を付加すればよい。また、長期エネルギー平均値にマッチングするようなエネルギーの雑音信号を付加することにより、時点ｔ２でＡＭＲ－ＷＢ復号信号に切り替えた後の数フレーム後に再びＧ．７２２．１Ｃ復号信号に切り替えた場合の、聴覚上の違和感も低減できるようになる。

　以上説明したように、本実施の形態によれば、Ｇ．７２２．１Ｃ復号信号からそれよりも帯域の狭いＡＭＲ－ＷＢ復号信号へと出力信号を切り替える場合に、ＡＭＲ－ＷＢ復号信号においてＧ．７２２．１Ｃ復号信号に比して信号成分が不足している高域帯域に雑音信号を付加するようにした。これにより、コーデック切り替え時の聴覚上の違和感を抑制し得る音声信号復号装置を実現できる。

　また、Ｇ．７２２．１Ｃ復号信号からそれよりも帯域の狭いＡＭＲ－ＷＢ復号信号へと出力信号を切り替える場合に、切り替え直後のフレームにおいて、Ｇ．７２２．１Ｃ復号信号及びＡＭＲ－ＷＢ復号信号をクロスフェードして混合した。これにより、低域帯域での聴覚上の違和感も抑制できるようになる。

　かくして、位相の連続性が聴覚上重要となる低域成分をクロスフェードによって短期間で滑らかにつなげる一方、エネルギー変動が聴覚上重要となる高域成分を雑音信号の付加によって長期的に緩やかに減衰させる。これにより、位相と帯域感の双方の不連続を同時に解消できる。これによって、任意のコーデックをプライマリコーデックとセカンダリコーデックとして組み合わせたデュアルコーデック音声伝送システムを構築することが可能となる。

　なお、上述の実施の形態では、図４に示したように、遅延検出部１３１とバッファ１１４、１２５を用いて、ＡＭＲ－ＷＢ復号信号とＧ．７２２．１Ｃ復号信号との位相補正を行うことで、これらの信号を同期させたが、同期させるための構成はこれに限らず、例えば図５に示すような構成を用いてもよい。図４との対応部分に同一符号を付して示す図５では、適応フィルタ１４４を用いて同期を実現する。Ｇ．７２２．１Ｃ復号信号がローパスフィルタ（ＬＰＦ）１４１を介して適応フィルタ１４３に入力される。適応フィルタ１４３は、差分回路１４２から入力される誤差信号がゼロになるようなフィルタ係数を求める。適応フィルタ１４４は、適応フィルタ１４３で求められたフィルタ係数を用いてＧ．７２２．１Ｃ復号信号をフィルタリングする。これにより、適応フィルタ１４４からは、ＡＭＲ－ＷＢ復号信号に同期したＧ．７２２．１Ｃ復号信号が出力される。因みに、図５の構成は、エコーフィルタの原理を応用したものである。

　また、上述の実施の形態では、第１のコーデックとしてＧ．７２２．１Ｃに準拠したコーデックを用い、第２のコーデックとしてＡＭＲ－ＷＢに準拠したコーデックを用いた場合について述べたが、第１のコーデック及び第２のコーデックはこれに限らない。本開示の音声信号復号装置及び方法は、要は、帯域の広い第１のコーデックと、それよりも帯域の狭い第２のコーデックとを用いたデュアルコーデック音声伝送において、第１のコーデックから第２のコーデックへと切り替える場合に広く適用可能である。

　上記実施の形態では、本開示の一態様をハードウェアで構成する場合を例にとって説明したが、本開示はハードウェアとの連携においてソフトウェアで実現することも可能である。

　また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。集積回路は、上記実施の形態の説明に用いた各機能ブロックを制御し、入力と出力を備えてもよい。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

　また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

　さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

　上述の実施の形態は、本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することの無い範囲で、様々な形で実施することができる。

　本開示の音声信号復号装置は、第１のデコーダと、第２のデコーダと、信号切替部と、雑音付加部と、を具備する構成を採る。第１のデコーダは、第１の符号化方式によって符号化され伝送された第１の符号化データを復号する。第２のデコーダは、第２の符号化方式によって符号化され伝送された、第１の符号化データよりも帯域の狭い第２の符号化データを復号する。信号切替部は、第１のデコーダの出力信号と、第２のデコーダの出力信号とを切り替えて出力する。雑音付加部は、信号切替部が第１のデコーダの出力信号から第２のデコーダの出力信号へと出力信号を切り替える場合に、第２のデコーダの出力信号において第１のデコーダの出力信号に比して信号成分が不足している高域帯域に雑音信号を付加する。

　また、本開示の音声信号復号装置において、混合部を、さらに具備する構成を採るようにしてもよい。混合部は、信号切替部が第１のデコーダの出力信号から第２のデコーダの出力信号へと出力信号を切り替える場合に、切り替え直後のフレームにおいて、第１及び第２のデコーダの出力信号をクロスフェードして混合する。

　また、本開示の音声信号復号装置において、エネルギー算出部を、さらに具備する構成を採るようにしてもよい。エネルギー算出部は、複数フレームに亘る第１のデコーダの出力信号のエネルギーの平均値を算出する。雑音付加部は、エネルギー算出部によって算出された平均値に応じたエネルギーの雑音信号を付加するようにしてもよい。

　また、本開示の音声信号復号装置において、位相補正部を、さらに具備する構成を採るようにしてもよい。位相補正部は、第１のデコーダの出力信号と第２のデコーダの出力信号との位相差がなくなるように、第１のデコーダの出力信号と第２のデコーダの出力信号の少なくともいずれか一方の位相をずらして位相補正を行う。

　本開示の音声信号復号方法は、第１の復号ステップと、第２の復号ステップと、信号切替ステップと、雑音付加ステップと、を含む。第１の復号ステップは、第１の符号化方式によって符号化され伝送された第１の符号化データを復号する。第２の復号ステップは、第２の符号化方式によって符号化され伝送された、第１の符号化データよりも帯域の狭い第２の符号化データを復号する。信号切替ステップは、第１の復号ステップで得られた第１の復号信号と、第２の復号ステップで得られた第２の復号信号とを切り替えて出力する。雑音付加ステップは、信号切替ステップによって第１の復号信号から第２の復号信号へと出力信号を切り替える場合に、第２の復号信号において第１の復号信号に比して信号成分が不足している高域帯域に雑音信号を付加する。

　本開示の音声信号復号装置及び音声信号復号方法は、異なるコーデックを用いたデュアルコーデック音声伝送システムに用いられる音声信号復号装置及び音声信号復号方法として有用である。

　１１３　Ｇ．７２２．１Ｃデコーダ（第１のデコーダ）
　１１４，１２５　バッファ（位相補正部）
　１２３　ＡＭＲ－ＷＢデコーダ（第２のデコーダ）
　１２４　アップサンプリング回路
　１３１　遅延検出部
　１３２　切替／混合部（信号切替部／混合部）
　１３３　加算部（雑音付加部）
　１３４　エネルギー算出部
　１３５　雑音生成部
　１３６　エネルギー制御部
　１４１　ローパスフィルタ（ＬＰＦ）
　１４２　差分回路
　１４３，１４４　適応フィルタ

Claims

　第１の符号化方式によって符号化され伝送された第１の符号化データを復号する第１のデコーダと、
　第２の符号化方式によって符号化され伝送された、前記第１の符号化データよりも帯域の狭い第２の符号化データを復号する第２のデコーダと、
　前記第１のデコーダの出力信号と、前記第２のデコーダの出力信号とを切り替えて出力する信号切替部と、
　前記信号切替部が前記第１のデコーダの出力信号から前記第２のデコーダの出力信号へと出力信号を切り替える場合に、前記第２のデコーダの出力信号において前記第１のデコーダの出力信号に比して信号成分が不足している高域帯域に雑音信号を付加する雑音付加部と、
　を具備する音声信号復号装置。
　前記信号切替部が前記第１のデコーダの出力信号から前記第２のデコーダの出力信号へと出力信号を切り替える場合に、切り替え直後のフレームにおいて、前記第１及び第２のデコーダの出力信号をクロスフェードして混合する混合部を、さらに具備する、
　請求項１に記載の音声信号復号装置。
　複数フレームに亘る前記第１のデコーダの出力信号のエネルギーの平均値を算出するエネルギー算出部を、さらに具備し、
　前記雑音付加部は、前記エネルギー算出部によって算出された前記平均値に応じたエネルギーの雑音信号を付加する、
　請求項１又は請求項２に記載の音声信号復号装置。
　前記第１のデコーダの出力信号と前記第２のデコーダの出力信号との位相差がなくなるように、前記第１のデコーダの出力信号と前記第２のデコーダの出力信号の少なくともいずれか一方の位相をずらして位相補正を行う位相補正部を、さらに具備する、
　請求項１から請求項３のいずれか一項に記載の音声信号復号装置。
　第１の符号化方式によって符号化され伝送された第１の符号化データを復号する第１の復号ステップと、
　第２の符号化方式によって符号化され伝送された、前記第１の符号化データよりも帯域の狭い第２の符号化データを復号する第２の復号ステップと、
　前記第１の復号ステップで得られた第１の復号信号と、前記第２の復号ステップで得られた第２の復号信号とを切り替えて出力する信号切替ステップと、
　前記信号切替ステップによって前記第１の復号信号から前記第２の復号信号へと出力信号を切り替える場合に、前記第２の復号信号において前記第１の復号信号に比して信号成分が不足している高域帯域に雑音信号を付加する雑音付加ステップと、
　を含む音声信号復号方法。