WO2013108343A1

WO2013108343A1 - 音声復号装置及び音声復号方法

Info

Publication number: WO2013108343A1
Application number: PCT/JP2012/008156
Authority: WO
Inventors: 勝統大毛; 押切　正浩
Original assignee: パナソニック株式会社
Priority date: 2012-01-20
Filing date: 2012-12-20
Publication date: 2013-07-25
Also published as: EP2806423A4; EP2806423B1; JPWO2013108343A1; US9390721B2; JP6082703B2; US20140343932A1; EP2806423A1

Abstract

　出力信号（復号信号）のスペクトルの傾きを調整することに伴う音質劣化を防ぎ、高域部の減衰による帯域感の損失を知覚され難くすることができる音声復号装置。第１レイヤ復号部（３０２）は、第１レイヤ符号化データを復号して第１レイヤ復号信号を生成する。帯域拡張レイヤ復号部（３０３）は、帯域拡張レイヤ符号化データを復号して帯域拡張レイヤ復号信号を生成する。フィルタ判断部（３０４）は、帯域拡張レイヤ復号信号のエネルギー変化に基づいて、帯域拡張レイヤ復号信号に対する低域通過フィルタの適用と非適用とを帯域拡張レイヤ復号信号のフレーム毎に判定する。低域通過フィルタ処理部（３０６）は、フィルタ判断部（３０４）により低域通過フィルタを適用すると判定したフレームの帯域拡張レイヤ復号信号を、低域通過フィルタでフィルタ処理する。

Description

音声復号装置及び音声復号方法

　本発明は、例えばスケーラブル構成を有する音声復号装置及び音声復号方法に関する。

　移動体通信システムでは、電波資源等の有効利用のために、音声信号を低ビットレートに圧縮して伝送することが要求されている。その一方で、通話音声の品質向上あるいは臨場感の高い通話サービスの実現も望まれており、その実現には、より帯域の広い音声信号または音楽信号等を高品質に符号化することが望ましい。

　このように相反する２つの要求に対し、複数の符号化技術を階層的に統合する技術が有望視されている。この技術は、入力信号を広帯域（０～７ｋＨｚ）まで符号化する第１レイヤと、入力信号と第１レイヤの復号信号とを用いて超広帯域（０～１４ｋＨｚ）まで符号化を行う帯域拡張レイヤとを階層的に組み合わせるものである。

　以下の説明では、第１レイヤで符号化される信号帯域（０～７ｋＨｚ）を広帯域部、帯域拡張レイヤで符号化される信号帯域（７ｋＨｚ～１４ｋＨｚ）を拡張帯域部と呼ぶ。図１は、入力信号スペクトルにおける広帯域部及び拡張帯域部を示す図である。このように階層的に符号化を行う技術は、符号化装置から得られるビットストリームにスケーラビリティ性、すなわち、ビットストリームの一部の情報からでも復号信号を得ることができる性質を有するため、一般的にスケーラブル符号化（階層符号化）と呼ばれている。

　スケーラブル符号化方式は、その性質から、ビットレートの異なるネットワーク間の通信に柔軟に対応することができるので、ＩＰプロトコルで多様なネットワークが統合されていく今後のネットワーク環境に適したものと言える。

　ＩＴＵ－Ｔ（International Telecommunication Union Telecommunication Standardization Sector）で規格化された技術を用いてスケーラブル符号化を実現する例として、例えば、非特許文献１に開示されている技術がある。この技術は、第１レイヤにおいて、広帯域部の信号を符号化し、帯域拡張レイヤにおいては、広帯域部の信号を用いて拡張帯域部の信号を拡張することによって符号化を行う。

　このようなスケーラブル構成を用いることにより、音声信号や、音声信号よりも帯域の広い音楽信号等の高品質化を図ることが可能となる。

　しかしながら、低ビットレートで符号化する場合には、帯域拡張レイヤに割り当てられるビットが少ないために、出力信号（復号信号）が非常に耳障りな音質（異音感）になってしまう。このような、ある周波数帯域に対して少ないビットしか割り当てられない場合には、ビットレートに応じて出力信号の周波数帯域を制限し、残った帯域に集中的にビットを割当てることで異音を低減する方式を取ることがある（非特許文献２）。しかし同時に、帯域を制限することで音の明瞭感（帯域感）が損なわれ、主観的な品質を下げてしまうというデメリットも生じる。つまり、上記のような帯域制限方式を取る場合、異音感と帯域感とはトレードオフの関係にある。

　このような問題を避けるため、上記出力信号の帯域幅を完全に制限するのではなく、出力信号に対して緩やかな特性を持つ低域通過フィルタを適用し、高域エネルギーを減衰させることによって、帯域感を維持しながら異音感を低減させる方式が考えられる。その際、フィルタ係数を（出力）信号の特徴に応じて適応的に切り替えることが望ましい。フィルタ係数を適応的に切替える方式としては、例えば特許文献１などが挙げられる。これは、ポストフィルタの高域強調処理において、高域の持つエネルギーの割合に応じて高域強調フィルタの係数を調整し、エネルギーの割合が高い場合には高域の強調を弱める方式である。これによって、フィルタへの入力信号（復号信号）の特徴に応じて適切な強度のフィルタを設計することができ、帯域感をある程度維持しながら異音感を抑えることができる。

特開平８－２０２３９９号公報

Recommendation ITU-T G.718 AnnexB,2010年3月 3GPP TS 26.290 (2005年6月)(AMR-WB+規格書)

　しかしながら、特許文献１においては、出力信号のスペクトルの全体的な傾きを調整するため、低域部の信号のスペクトル傾斜を変えてしまうことになる。つまり、スケーラブル符号化方式にこの構成を適用する場合、広帯域部と拡張帯域部との両方のスペクトル傾斜を変化させてしまうことになる。一般にスケーラブル符号化方式では、聴感的に重要な広帯域部に多くのビットを割り当てることによって、広帯域部の符号化品質を良くしているので、広帯域部のスペクトル傾斜が調整されると音質劣化を招く恐れがある。

　また、特許文献１においては、高域エネルギーの割合でフィルタ係数を調整し、全てのフレームでフィルタ処理を行なうので、高域エネルギーの割合が全体的に高い信号が入力されると、高域強調の強度が弱い状態が長く続いてしまう。よって、高域部の減衰に伴う帯域感の損失が知覚されやすくなり、こもった音に聴こえてしまうという問題がある。特に、女性の声は高域エネルギーの割合が比較的高いために、音質の劣化が顕著である。

　本発明の目的は、出力信号（復号信号）のスペクトルの傾きを調整することに伴う音質劣化を防ぐことができ、高域部の減衰による帯域感の損失を知覚され難くすることができる音声復号装置及び音声復号方法を提供することである。

　本発明の音声復号装置は、広帯域部の音声信号を符号化した第１レイヤ符号化データと、前記広帯域部より高域の拡張帯域部の音声信号を符号化した帯域拡張レイヤ符号化データとを取得する取得手段と、前記取得手段により取得した前記第１レイヤ符号化データを復号して第１レイヤ復号信号を生成するとともに、前記取得手段により取得した前記帯域拡張レイヤ符号化データを復号して帯域拡張レイヤ復号信号を生成する復号手段と、前記帯域拡張レイヤ復号信号のエネルギー変化に基づいて、前記帯域拡張レイヤ復号信号に対する低域通過フィルタの適用と非適用とを前記帯域拡張レイヤ復号信号の所定区間毎に判定する判定手段と、前記判定手段により前記低域通過フィルタを適用すると判定した前記所定区間の前記帯域拡張レイヤ復号信号を、前記低域通過フィルタでフィルタ処理するフィルタ処理手段と、を具備する構成を採る。

　本発明の音声復号方法は、広帯域部の音声信号を符号化した第１レイヤ符号化データと、前記広帯域部より高域の拡張帯域部の音声信号を符号化した帯域拡張レイヤ符号化データとを取得するステップと、取得した前記第１レイヤ符号化データを復号して第１レイヤ復号信号を生成するとともに、取得した前記帯域拡張レイヤ符号化データを復号して帯域拡張レイヤ復号信号を生成するステップと、前記帯域拡張レイヤ復号信号のエネルギー変化に基づいて、前記帯域拡張レイヤ復号信号に対する低域通過フィルタの適用と非適用とを前記帯域拡張レイヤ復号信号の所定区間毎に判定するステップと、前記低域通過フィルタを適用すると判定した前記所定区間の前記帯域拡張レイヤ復号信号を、前記低域通過フィルタでフィルタ処理するステップと、を具備するようにした。

　本発明によれば、出力信号のスペクトルの傾きを調整することに伴う音質劣化を防ぐことができ、高域部の減衰による帯域感の損失を知覚され難くすることができる。

入力信号スペクトルにおける広帯域部及び拡張帯域部を示す図本発明の実施の形態における通信システムの構成を示すブロック図本発明の実施の形態における音声符号化装置の構成を示すブロック図本発明の実施の形態に係る音声復号装置の構成を示すブロック図本発明の実施の形態におけるフィルタ判断部の構成を示すブロック図本発明の実施の形態におけるフィルタ係数調整部の構成を示すブロック図本発明の実施の形態における低域通過フィルタ処理部の構成を示すブロック図

　以下、本発明の実施の形態について、図面を参照して詳細に説明する。

　（実施の形態）
　＜本発明の概要＞
　本発明は、低ビットレートスケーラブル符号化方式に対する復号方式における、低域通過フィルタ処理の必要性の有無の判断法と、拡張帯域部の減衰量の適応的調整法とに係るものである。スケーラブル符号化方式では、聴感的に重要である広帯域部に多くのビットを割り当てて符号化するのが一般的であるため、既に品質のよい広帯域部の信号に低域通過フィルタを適用することは好ましくない。従って、本発明では、スケーラブル符号化方式に対する復号方式が広帯域部の復号信号と拡張帯域部の復号信号とをそれぞれ独立に生成することを利用して、異音が生じやすい拡張帯域部の復号信号のみに低域通過フィルタを適用する。

　この際、全てのフレームに対して低域通過フィルタを適用するのではなく、異音の発生する可能性があるフレームに対してのみフィルタ処理を行う。フィルタ処理の対象となるフレームの選択法については、拡張帯域部のエネルギーが急激に変化することで異音感に繋がるという知見を利用する。具体的には、時間追従性の緩やかな拡張帯域部の平均エネルギーを算出し、フレーム毎に、拡張帯域部のエネルギーと算出した平均エネルギーとを比較することによって拡張帯域部のエネルギーの急激な変化を検出する。このエネルギーの急激な変化を検出し、異音が発生する可能性が高いと判断されたフレームに対してのみ低域通過フィルタを適用することによって、帯域感の損失を最小限に抑えることができる。

　また、低域通過フィルタの減衰量については、復号信号の全帯域のエネルギーに占める拡張帯域部のエネルギーの割合（以下、「拡張帯域エネルギー比」と記載する）を用いて決定する。拡張帯域エネルギー比が高いほど異音が聴こえやすいと考えられるため、現在のフレームにおける復号信号の拡張帯域エネルギー比を用いて、低域通過フィルタのフィルタ係数はフレーム毎に適応的に調整される。

　これにより、スケーラブル符号化方式における広帯域信号の品質に影響を与えることなく、拡張帯域部における異音の低減と帯域感の維持との両立を図ることによって、音質を向上させることができる。

　＜通信システムの構成＞
　図２は、本発明の実施の形態における通信システム１００の構成を示すブロック図である。

　図２より、通信システム１００は、音声符号化装置１０１及び音声復号装置１０３を備えている。音声符号化装置１０１と音声復号装置１０３とは、それぞれ伝送路１０２を介して通信可能な状態となっている。

　音声符号化装置１０１は、入力信号を符号化することによりビットストリームを生成し、生成したビットストリームを、伝送路１０２を介して音声復号装置１０３に送信する。

　音声復号装置１０３は、音声符号化装置１０１から送信されたビットストリームを伝送路１０２を介して受信し、受信したビットストリームを復号して出力信号として出力する。

　なお、音声符号化装置１０１及び音声復号装置１０３はいずれも、通常、基地局装置あるいは通信端末装置等に搭載されて用いられる。

　＜音声符号化装置の構成＞
　図３は、本発明の実施の形態における音声符号化装置１０１の構成を示すブロック図である。

　第１レイヤ符号化部２０１は、入力信号の符号化処理を行い、第１レイヤ符号化データを生成する。第１レイヤ符号化部２０１は、生成した第１レイヤ符号化データを帯域拡張レイヤ符号化部２０２及び多重化部２０３に出力する。

　帯域拡張レイヤ符号化部２０２は、入力信号と第１レイヤ符号化部２０１から受け取った第１レイヤ符号化データとを用いて拡張帯域部の符号化処理を行い、帯域拡張レイヤ符号化データを生成する。帯域拡張レイヤ符号化部２０２は、帯域拡張レイヤ符号化データを多重化部２０３に出力する。

　多重化部２０３は、第１レイヤ符号化部２０１から受け取った第１レイヤ符号化データと、帯域拡張レイヤ符号化部２０２から受け取った帯域拡張レイヤ符号化データとを多重化してビットストリームを生成し、生成したビットストリームを伝送路１０２へ出力する。

　＜音声復号装置の構成＞
　図４は、本発明の実施の形態に係る音声復号装置１０３の構成を示すブロック図である。

　分離部３０１は、伝送路１０２から受け取ったビットストリーム（すなわち、音声符号化装置１０１から受信した符号化データ）の中から第１レイヤ符号化データと帯域拡張レイヤ符号化データとを分離する。そして、分離部３０１は、第１レイヤ符号化データを第１レイヤ復号部３０２に出力し、帯域拡張レイヤ符号化データを帯域拡張レイヤ復号部３０３に出力する。

　第１レイヤ復号部３０２は、分離部３０１から受け取った第１レイヤ符号化データに対して復号を行って第１レイヤ復号信号を生成し、生成した第１レイヤ復号信号をフィルタ係数調整部３０５及び加算部３０７に出力する。

　帯域拡張レイヤ復号部３０３は、分離部３０１から受け取った帯域拡張レイヤ符号化データの復号を行って帯域拡張レイヤ復号信号を生成し、生成した帯域拡張レイヤ復号信号をフィルタ判断部３０４及び低域通過フィルタ処理部３０６に出力する。

　フィルタ判断部３０４は、帯域拡張レイヤ復号部３０３から受け取った帯域拡張レイヤ復号信号のエネルギー（拡張帯域エネルギー）を算出する。フィルタ判断部３０４は、帯域拡張レイヤ復号部３０３から受け取った帯域拡張レイヤ復号信号のエネルギー変化に基づいて、現在のフレームにおけるフィルタ処理の必要性を判断する。フィルタ判断部３０４は、フィルタ処理の必要性の有無の判断結果を示すフィルタフラグをフィルタ係数調整部３０５及び低域通過フィルタ処理部３０６に出力し、算出した拡張帯域エネルギーをフィルタ係数調整部３０５に出力する。フィルタフラグは、現在のフレームにおいてフィルタ処理を行なうか否かを表す情報であり、例えばフィルタ処理を行なうと判断した場合には「１」、行なわないと判断した場合には「０」が設定される。フィルタ判断部３０４の詳細については後述する。

　フィルタ係数調整部３０５は、第１レイヤ復号部３０２から受け取った第１レイヤ復号信号と、フィルタ判断部３０４から受け取ったフィルタフラグ及び拡張帯域エネルギーとを用いて、フィルタ係数の調整を行なう。フィルタ係数調整部３０５は、フィルタ判断部３０４から入力したフィルタフラグが「１」の場合には、低域通過フィルタ処理部３０６にフィルタ係数を出力するが、フィルタ判断部３０４から入力したフィルタフラグが「０」の場合には何も出力しない。フィルタ係数調整部３０５の詳細に関しては後述する。

　低域通過フィルタ処理部３０６は、帯域拡張レイヤ復号部３０３から受け取った帯域拡張レイヤ復号信号と、フィルタ判断部３０４から受け取ったフィルタフラグと、フィルタ係数調整部３０５から受け取ったフィルタ係数とを用いて、帯域拡張レイヤ復号信号に対してフィルタ処理を行なう。低域通過フィルタ処理部３０６は、フィルタ判断部３０４から受け取ったフィルタフラグが「１」の場合には、帯域拡張レイヤ復号信号に対してフィルタ処理を行うことにより帯域拡張レイヤ減衰信号を生成し、生成した帯域拡張レイヤ減衰信号を加算部３０７に出力する。一方、低域通過フィルタ処理部３０６は、フィルタ判断部３０４から受け取ったフィルタフラグが「０」の場合には、フィルタ処理を行なわず、帯域拡張レイヤ復号部３０３から受け取った帯域拡張レイヤ復号信号をそのまま加算部３０７へ出力する。低域通過フィルタ処理部３０６の詳細に関しては後述する。

　加算部３０７は、第１レイヤ復号部３０２から受け取った第１レイヤ復号信号と、低域通過フィルタ処理部３０６から受け取った、帯域拡張レイヤ減衰信号または帯域拡張レイヤ復号信号とを加算し、出力信号を生成して出力する。

　＜フィルタ判断部の構成＞
　図５は、本発明の実施の形態におけるフィルタ判断部３０４の構成を示すブロック図である。

　拡張帯域エネルギー算出部４０１は、帯域拡張レイヤ復号部３０３から受け取った帯域拡張レイヤ復号信号のエネルギーを算出し、算出したエネルギーを拡張帯域エネルギーＥhbとして拡張帯域平均エネルギー算出部４０２、エネルギー比較部４０３及びフィルタ係数調整部３０５へ出力する。

　拡張帯域平均エネルギー算出部４０２は、拡張帯域エネルギー算出部４０１から受け取った拡張帯域エネルギーＥhbと、現在のフレームよりも前のフレームで算出された拡張帯域平均エネルギーＥhb_ave（ｎ－１）（ｎは、現在のフレームを表すフレームインデックス、つまり、この場合、１つ前のフレームに対する拡張帯域平均エネルギー）とを用いて、現在のフレームの拡張帯域平均エネルギーＥhb_ave（ｎ）を再帰的に算出し、算出した現在のフレームの拡張帯域平均エネルギーＥhb_ave（ｎ）をエネルギー比較部４０３に出力する。

　具体的には、拡張帯域平均エネルギー算出部４０２は、（１）式により現在のフレームの拡張帯域平均エネルギーＥhb_ave（ｎ）を算出する。

　ただし、αは、拡張帯域平均エネルギーの平滑化の度合いを決める平滑化係数であり、０から１までの値を取る。本発明ではα＝０．１５程度の時間追従性の低い平滑化係数を用いる。

　エネルギー比較部４０３は、拡張帯域エネルギー算出部４０１から受け取った拡張帯域エネルギーＥhbと、拡張帯域平均エネルギー算出部４０２から受け取った拡張帯域平均エネルギーＥhb_ave（ｎ）とを比較する。ここで、拡張帯域エネルギーＥhbを、（１）式で求めた時間追従性の低い拡張帯域平均エネルギーと比較することによって、拡張帯域エネルギーＥhbの急激な変動を検出できる。

　具体的には、（２）式に示すように、エネルギー比較部４０３は、拡張帯域エネルギーから拡張帯域平均エネルギーを差し引いた値が閾値ＴＨ以上の場合には、フィルタフラグＦＦを「１」に設定し、閾値ＴＨより小さい場合にはフィルタフラグＦＦを「０」に設定する。

　（２）式において、閾値ＴＨを導入することにより、拡張帯域エネルギーの変化が定常的で、拡張帯域平均エネルギーとほぼ等しい値を取る場合（つまり、（２）式において、ＦＦ＝０となる場合）には、低域通過フィルタの適用を除外することができる。これにより、不必要な帯域感の損失を防ぐことができる。

　エネルギー比較部４０３は、設定したフィルタフラグをフィルタ係数調整部３０５及び低域通過フィルタ処理部３０６に出力する。

　＜フィルタ係数調整部の構成＞
　図６は、本発明の実施の形態におけるフィルタ係数調整部３０５の構成を示すブロック図である。

　第１レイヤエネルギー算出部５０１は、第１レイヤ復号部３０２から受け取った第１レイヤ復号信号のエネルギーを算出し、算出したエネルギーを第１レイヤエネルギーＬＢenergyとしてフィルタ係数算出部５０２に出力する。

　フィルタ係数算出部５０２は、第１レイヤエネルギー算出部５０１から受け取った第１レイヤエネルギーＬＢenergyと、フィルタ判断部３０４から受け取った拡張帯域エネルギーＨＢenergy（ＨＢenergy＝Ｅhb）とを用いて、拡張帯域エネルギー比ＨＢＲを求め、求めた拡張帯域エネルギー比ＨＢＲを用いてフィルタ係数を調整する。

　ＨＢＲは、（３）式により求められる。

　（３）式で求められたＨＢＲは、母音区間ではおよそ０．３７から０．４３程度の値を取る。無声区間では０．３７よりも小さな値を取る場合があり、また、子音区間では０．４３よりも高い値を取り得る。

　フィルタ係数算出部５０２は、調整したフィルタ係数をスイッチ部５０３に出力する。なお、フィルタ係数の調整方法については後述する。

　スイッチ部５０３は、フィルタ判断部３０４から受け取ったフィルタフラグが「１」の場合のみオンとなり、フィルタ係数算出部５０２から受け取ったフィルタ係数を低域通過フィルタ処理部３０６に出力する。一方、スイッチ部５０３は、フィルタ判断部３０４から受け取ったフィルタフラグが「０」の場合はオフとなり、何も出力しない。

　＜低域通過フィルタ処理部の構成＞
　図７は、本発明の実施の形態における低域通過フィルタ処理部３０６の構成を示すブロック図である。

　フィルタリング部６０１は、フィルタ係数調整部３０５から受け取ったフィルタ係数を用いて、帯域拡張レイヤ復号部３０３から受け取った帯域拡張レイヤ復号信号に対して低域通過フィルタ処理を行なう。この際、フィルタリング部６０１は、フィルタ判断部３０４から受け取ったフィルタフラグが「１」の場合には、低域通過フィルタ処理を行なって帯域拡張レイヤ減衰信号を生成し、生成した拡張帯域レイヤ減衰信号を加算部３０７に出力する。一方、フィルタリング部６０１は、フィルタ判断部３０４から受け取ったフィルタフラグが「０」の場合には、低域通過フィルタ処理を行なわず、帯域拡張レイヤ復号部３０３から受け取った帯域拡張レイヤ復号信号をそのまま加算部３０７に出力する。

　＜フィルタ係数調整部で調整されるフィルタについて＞
　フィルタ係数調整部３０５で調整されるフィルタは、例えば１次のＦＩＲ（Finite Impulse Response）フィルタであり、（４）式のようなフィルタ係数β,γの構成になっている。

　これらフィルタ係数β,γは、例えば（５）式及び（６）式より求められる。

　よって、上述したＨＢＲとＴＨ_ＬＯＷとの取り得る値を考慮すると、母音区間におけるフィルタ係数βはおよそ０．５５から１の値を取り、フィルタ係数γは０から０．４６程度の値を取る。よって、（４）式で表されるフィルタは低域通過フィルタとなる。

　（５）式及び（６）式より、フィルタ係数βはＨＢＲが大きくなるほど小さい値になり、フィルタ係数γはＨＢＲが大きくなるほど大きい値になるように調整される。よって、ＨＢＲが大きくなるほど、設計される低域通過フィルタのゲインは小さくなり、かつ減衰量は大きくなる。つまり、ＨＢＲが大きい値になるほど、拡張帯域エネルギーは強く減衰されることを意味する。

　上記のように、フィルタ係数β,γを組み合わせて低域通過フィルタのフィルタ特性を調整する意図は、低次のフィルタを用いた際にも所望の減衰量を得られるようにするためである。１次のＦＩＲフィルタを用いた低域通過フィルタ処理は、低演算処理であるものの、低次であるためフィルタ係数γの調整のみでは減衰量が不十分である。そこで、フィルタ係数βを導入し、ＨＢＲが大きい程フィルタ係数βが小さくなるように調整する。これにより、フィルタ係数γでフィルタの傾き（減衰特性）を調整し、更にフィルタ係数βで全体的なゲインを落とすことができるため、所望の減衰量を得ることができる。

　＜本実施の形態の効果＞
　本実施の形態によれば、出力信号（復号信号）のスペクトルの傾きを調整することに伴う音質劣化を防ぐことができ、高域部の減衰に伴う帯域感の損失を知覚され難くすることができる。

　また、本実施の形態によれば、低域通過フィルタを適用する際には拡張帯域部の復号信号のみに低域通過フィルタ処理を行なうことにより、広帯域部の復号信号の品質を維持することができる。

　また、本実施の形態によれば、全てのフレームにおいて低域通過フィルタ処理を行なわず、選択されたフレームに対してのみ低域通過フィルタ処理を行なうことにより、低域通過フィルタ処理による帯域感の損失は、選択されたフレームに限定することができる。

　また、本実施の形態によれば、低域通過フィルタの特性は、フレーム毎の拡張帯域エネルギー比によって適応的に調整されるため、低域通過フィルタ処理が適用されたフレームにおける帯域感の損失を最小限に抑えることができる。

　＜本実施の形態の変形例＞
　上記実施の形態において、ＨＢＲが大きくなるほど強く減衰するようにフィルタ係数を調整したが、本発明はこれに限らず、ＨＢＲの値に上限値ＴＨ_ＨＩＧＨを設定し、ＨＢＲがＴＨ_ＬＯＷからＴＨ_ＨＩＧＨの値を取る場合にのみ、フィルタ係数を求めてもよい。一般に、子音の発声の際にはＨＢＲが高くなるため、ＨＢＲがＴＨ_ＨＩＧＨを超える際には子音区間と判定する。子音区間と判定された場合には低域通過フィルタが動作しないようにすることにより、出力音声（復号信号）の明瞭感を維持することができる。

　また、上記実施の形態において、（１）式における平滑化係数を定数にしたが、本発明はこれに限らず、（１）式における平滑化係数を、音声の立上り区間（onset period）、立下り区間（offset period）、定常区間（stationary period）、及び無音区間（inactive period）などによって変化させてもよい。具体的には、立上り区間及び立下り区間などの音声のエネルギーが急激に変化する区間では、拡張帯域平均エネルギーの時間追従性を上げるため平滑化係数を高く設定し、定常区間では平滑化係数を低く設定する。無音区間において拡張帯域平均エネルギーを更新した場合、拡張帯域平均エネルギーが小さくなり、次に続く音声の立上り区間において必ずフィルタ処理が行なわれてしまう。これを防ぐために、平滑化係数を「０」に設定し、拡張帯域平均エネルギーを更新しない。

　また、音声の母音区間または子音区間によって平滑化係数を切替えてもよい。具体的には、母音区間ではある一定値に平滑化係数を設定し、子音区間では平滑化係数を「０」に設定し、拡張帯域平均エネルギーを更新しない。これにより、子音区間における一時的な拡張帯域エネルギーの増加を拡張帯域平均エネルギーの算出から除外することができる。

　また、上記実施の形態において、（２）式における閾値ＴＨを定数にしたが、本発明はこれに限らず、（２）式における閾値ＴＨを、例えばＨＢＲに応じて適応的に変化させてもよい。具体的には、ＨＢＲが大きいほど閾値ＴＨを小さくし、ＨＢＲが小さいほど閾値ＴＨを大きくするように閾値ＴＨを設定する。

　また、上記実施の形態において、フィルタ係数を（５）式及び（６）式より求めたが、本発明はこれに限らず、フィルタ係数をＨＢＲに対応するテーブルを用いて求めてもよい。この際、ＨＢＲの値が大きいほどフィルタ係数βは大きくかつフィルタ係数γは小さくなるようにテーブルを設定する。

　また、上記実施の形態において、フィルタ調整部３０５で設計されるフィルタは１次のフィルタにしたが、本発明はこれに限らず、１次より高次のフィルタを用いてもよい。また、フィルタの種類もＦＩＲに限らず、ＩＩＲ（Infinite Impulse Response）フィルタを用いてもよい。

　また、本発明では、フィルタ係数調整部３０５は、フィルタフラグが「０」の場合にはフィルタ係数β＝１及びフィルタ係数γ＝０に設定し、低域通過フィルタ処理部３０６へ出力してもよい。

　また、上記実施の形態において、スケーラブル符号化方式に対する復号方式に適用したが、本発明はこれに限らず、スケーラブル構成ではない符号化方式に対する復号方式も適用可能である。

　また、本発明は、階層数が３以上のスケーラブル構成にも適用可能である。

　また、上記実施の形態では、入力信号として音声信号と音楽信号との双方を含むこととしたが、本発明は、特に音声信号に対して好適である。

　また、上記実施の形態において、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連携においてソフトウェアでも実現することも可能である。

　また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

　また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）、または、ＬＳＩ内部の回路セルの接続または設定を再構成可能なリコンフィギュラブルプロセッサを利用してもよい。

　さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

　２０１２年１月２０日出願の特願２０１２－０１０２６４の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。

　本発明は、例えばスケーラブル構成を有する音声復号装置及び音声復号方法に好適である。

　１０３　音声復号装置
　３０１　分離部
　３０２　第１レイヤ復号部
　３０３　帯域拡張レイヤ復号部
　３０４　フィルタ判断部
　３０５　フィルタ係数調整部
　３０６　低域通過フィルタ処理部
　３０７　加算部

Claims

　広帯域部の音声信号を符号化した第１レイヤ符号化データと、前記広帯域部より高域の拡張帯域部の音声信号を符号化した帯域拡張レイヤ符号化データとを取得する取得手段と、
　前記取得手段により取得した前記第１レイヤ符号化データを復号して第１レイヤ復号信号を生成するとともに、前記取得手段により取得した前記帯域拡張レイヤ符号化データを復号して帯域拡張レイヤ復号信号を生成する復号手段と、
　前記帯域拡張レイヤ復号信号のエネルギー変化に基づいて、前記帯域拡張レイヤ復号信号に対する低域通過フィルタの適用と非適用とを前記帯域拡張レイヤ復号信号の所定区間毎に判定する判定手段と、
　前記判定手段により前記低域通過フィルタを適用すると判定した前記所定区間の前記帯域拡張レイヤ復号信号を、前記低域通過フィルタでフィルタ処理するフィルタ処理手段と、
　を具備する音声復号装置。
　前記判定手段は、
　前記所定区間毎に前記帯域拡張レイヤ復号信号のエネルギーを算出し、現在の前記所定区間の前記帯域拡張レイヤ復号信号のエネルギーと、現在の前記所定区間までの前記帯域拡張レイヤ復号信号の平均エネルギーとの差が閾値以上の場合に、現在の前記所定区間の前記帯域拡張レイヤ復号信号に対して前記低域通過フィルタを適用すると判定する、
　請求項１記載の音声復号装置。
　前記第１レイヤ復号信号のエネルギーと前記帯域拡張レイヤ復号信号のエネルギーとを用いて、前記低域通過フィルタのフィルタ係数を適応的に変化させるフィルタ係数調整手段をさらに具備し、
　前記フィルタ処理手段は、
　前記フィルタ係数を用いて前記フィルタ処理を行う、
　請求項１記載の音声復号装置。
　広帯域部の音声信号を符号化した第１レイヤ符号化データと、前記広帯域部より高域の拡張帯域部の音声信号を符号化した帯域拡張レイヤ符号化データとを取得するステップと、
　取得した前記第１レイヤ符号化データを復号して第１レイヤ復号信号を生成するとともに、取得した前記帯域拡張レイヤ符号化データを復号して帯域拡張レイヤ復号信号を生成するステップと、
　前記帯域拡張レイヤ復号信号のエネルギー変化に基づいて、前記帯域拡張レイヤ復号信号に対する低域通過フィルタの適用と非適用とを前記帯域拡張レイヤ復号信号の所定区間毎に判定するステップと、
　前記低域通過フィルタを適用すると判定した前記所定区間の前記帯域拡張レイヤ復号信号を、前記低域通過フィルタでフィルタ処理するステップと、
　を具備する音声復号方法。