WO2015151451A1

WO2015151451A1 - 符号化装置、復号装置、符号化方法、復号方法、およびプログラム

Info

Publication number: WO2015151451A1
Application number: PCT/JP2015/001601
Authority: WO
Inventors: スリカンスナギセティ; ゾンシアンリウ; 江原　宏幸
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2014-03-31
Filing date: 2015-03-23
Publication date: 2015-10-08
Also published as: CN111710342A; US20160336017A1; EP3128513A4; EP3128513A1; US10269361B2; US20220130402A1; JPWO2015151451A1; US20190251979A1; EP3550563A1; EP3550563C0; PL3128513T3; CN111710342B; CN105874534A; MX2016010595A; RU2016138694A; BR112016019838A2; US11232803B2; KR102121642B1; EP3128513B1; KR20160138373A

Abstract

　本開示の符号化装置は、音声またはオーディオの入力信号の所定周波数以下の低域信号を含む信号を符号化した第１符号化信号と低域復号信号とを生成する第１符号化部と、前記低域復号信号に基づいて、前記低域信号より高域の信号を符号化して高域符号化信号を生成する第２符号化部と、前記第１符号化信号と前記高域符号化信号とを多重化して符号化信号を出力する第１の多重化部、とを有する。前記第２符号化部は、前記高域信号の雑音成分である高域雑音成分と、前記低域復号信号から生成された高域復号信号のうちの高域非トーナル信号とのエネルギー比率を算出して、高域符号化信号として出力する。

Description

符号化装置、復号装置、符号化方法、復号方法、およびプログラム

　本開示は、音声信号やオーディオ信号（以下、音声信号等とする。）を符号化する装置、復号化する装置に関する。

　音声信号等を低ビットレートで圧縮する音声符号化技術は、移動体通信における電波等の有効利用を実現する重要な技術である。さらに、近年通話音声の品質向上に対する期待が高まっており、臨場感の高い通話サービスの実現が望まれている。これを実現するためには、周波数帯域の広い音声信号等を高ビットレートで符号化すればよい。しかし、このアプローチは電波や周波数帯域の有効利用と相反する。

　周波数帯域の広い信号を低ビットレートで高品質に符号化する方法として、入力信号のスペクトルを低域部と高域部の２つのスペクトルに分割し、高域スペクトルは低域スペクトルを複製しこれと置換する、つまり高域スペクトルを低域スペクトルで代用することにより、全体のビットレートを低減させる技術がある（特許文献１）。この技術は、低域スペクトルの符号化に多くのビットを配分して高品質に符号化し、一方高域スペクトルは符号化後の低域スペクトルを複製することを基本の処理として、少ないビット配分で符号化が行われる。

　特許文献１の技術をそのまま用いた場合、低域スペクトルに見られるピーク性の強い信号が高域にそのまま複製されることにより、鈴が鳴るように聞こえるノイズが発生し、主観的な品質が低下する。そこで、低域スペクトルのダイナミックレンジを適切に調整したものを高域スペクトルとする、という技術がある（特許文献２）。

特表２００１－５２１６４８号公報国際公開第２００５／１１１５６８号

　特許文献２の技術によれば、ダイナミックレンジは低域スペクトルを構成する要素全体を考慮して定めている。しかし、音声信号等のスペクトルは、ピーク性の強い成分、すなわち振幅が大きい成分（トーナル成分）と、ピーク性の弱い成分、すなわち振幅が小さい成分（非トーナル成分）とからなっており、特許文献２の技術によれば両者を合わせた全体での評価となるため、必ずしも最良の結果を得られるわけではなかった。

　本開示の一態様は、全体のビットレートを低減させつつも、トーナル成分と非トーナル成分とを分離し、独立して符号化に用いることにより、さらなる高品質の音声信号等を符号化、復号化できる装置を提供する。

　本開示の符号化装置は、音声またはオーディオの入力信号の所定の周波数以下の低域信号を符号化して生成した第１符号化信号と、第１符号化信号を復号した低域復号信号とを生成する第１符号化部と、低域復号信号に基づいて、低域信号より高域の信号を符号化して高域符号化信号を生成する第２符号化部と、第１符号化信号と前記高域符号化信号とを多重化して符号化信号を出力する第１の多重化部、とを備え、第２符号化部は、高域信号の雑音成分である高域雑音成分と、低域復号信号から生成された高域復号信号の高域非トーナル成分とのエネルギー比率を算出して、高域符号化信号として出力する、構成を採る。

　なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本開示の一態様の符号化装置および復号装置によれば、さらなる高品質の音声信号等を符号化、復号化することができる。

本開示の符号化装置の全体構成図本開示の実施形態１における符号化装置の第２レイヤ符号化部の構成図本開示の実施形態２における符号化装置の第２レイヤ符号化部の構成図本開示の実施形態における他の符号化装置の全体構成図本開示の復号装置の全体構成図本開示の実施形態３における復号装置の第２レイヤ復号部の構成図本開示の実施形態４における復号装置の第２レイヤ復号部の構成図本開示の実施形態における他の復号装置の全体構成図本開示の実施形態における他の符号化装置の全体構成図本開示の実施形態における他の復号装置の全体構成図

　以下、本開示の実施形態の構成および動作について、図面を参照して説明する。なお、本開示の符号化装置へ入力される入力信号、および復号装置からの出力される出力信号は、狭義の音声信号のみの場合の他、より帯域の広いオーディオ信号の場合、さらに、これらが混在する場合も包含するものとする。

　（実施形態１）
　図１は、実施形態１にかかる音声信号等の符号化装置の構成を示すブロック図である。ここでは、符号化信号が複数のレイヤからなる階層構造を有する場合、すなわち階層符号化（スケーラブル符号化）を行う場合を例として説明する。階層符号化以外を含む例としては、後述の図４で説明する。図１に示す符号化装置１００は、ダウンサンプリング部１０１、第１レイヤ符号化部１０２、多重化部１０３、第１レイヤ復号部１０４、遅延部１０５、第２レイヤ符号化部１０６より構成される。また、多重化部１０３には図示しないアンテナが接続されている。

　ダウンサンプリング部１０１は、入力信号からサンプリングレートの低い信号を生成し、所定の周波数以下の低域信号として第１レイヤ符号化部１０２に出力する。

　第１レイヤ符号化部１０２は、第１符号化部を構成する要素の一形態であり、低域信号を符号化する。符号化の例として、ＣＥＬＰ符号化や変換符号化が挙げられる。符号化された低域信号は、第１符号化信号たる低域符号化信号として第１レイヤ復号部１０４および多重化部１０３に出力する。

　第１レイヤ復号部１０４は、同じく第１符号化部を構成する要素の一形態であり、低域符号化信号を復号し、低域復号信号を生成する。そして、第１レイヤ復号部１０４は、低域復号信号Ｓ１を第２レイヤ符号化部１０６に出力する。

　一方、遅延部１０５は、入力信号に対し所定の時間、遅延させる。この遅延時間は、ダウンサンプリング部１０１、第１レイヤ符号化部１０２、および第１レイヤ復号部１０４で生じる時間遅れを補正するためのものである。遅延部１０５は、遅延させた入力信号Ｓ２を第２レイヤ符号化部１０６に出力する。

　第２レイヤ符号化部１０６は、第２符号化部の一形態であり、第１レイヤ復号部１０４で生成された低域復号信号Ｓ１に基づいて、入力信号Ｓ２のうち所定の周波数以上の高域信号を符号化して高域符号化信号を生成する。第２レイヤ符号化部に入力される低域復号信号Ｓ１、入力信号Ｓ２は、ＭＤＣＴ等の周波数変換を施されて入力される。そして、第２レイヤ符号化部１０６は、高域符号化信号を多重化部１０３に出力する。第２レイヤ符号化部１０６の詳細は後述する。

　多重化部１０３は、低域符号化信号および高域符号化信号を多重化して符号化信号を生成し、これを図示しないアンテナを通じて復号装置に送信する。

　図２は、本実施形態における第２レイヤ符号化部１０６の構成を示すブロック図である。第２レイヤ符号化部１０６は、雑音加算部２０１、分離部２０２、帯域拡張部２０３、雑音成分エネルギー算出部２０４（第１計算部）、ゲイン算出部２０５（第２計算部）、エネルギー計算部２０６、多重化部２０７、帯域拡張部２０８より構成される。

　雑音加算部２０１は、第１レイヤ復号部１０４から入力された低域復号信号Ｓ１に対し、雑音信号を加算する。なお、雑音信号は、ランダムな性質を持つ信号をいい、例えば時間軸あるいは周波数軸に対し不規則に信号強度の振幅が上下している信号である。雑音信号の生成は、乱数に基づいて都度生成してもよいし、予め生成した雑音信号（例えば、ホワイトノイズ、ガウスノイズ、ピンクノイズ等）をメモリ等の記憶装置に保存しておき、これを呼び出して出力してもよい。また、雑音信号は一つに限らず、所定の条件に従い複数の雑音信号の中から１つを選択して出力してもよい。

　入力信号を符号化するに際し、割り当て可能なビット数が少ないと、ごく一部の周波数成分しか量子化できず、主観品質が劣化するという問題があるが、雑音加算部２０１で雑音を加算することにより、量子化されずにゼロになってしまう成分を雑音信号で埋めることで劣化を緩和するという効果が期待できる。

　なお、雑音加算部２０１は任意の構成である。そして、雑音加算部２０１は、雑音信号が加算された低域復号信号を分離部２０２に出力する。

　分離部２０２は、雑音信号が加算された低域復号信号を、非トーナル成分である低域非トーナル信号と、トーナル成分である低域トーナル信号とに分離する。ここで、トーナル成分とは、所定の閾値よりも振幅の大きい成分、あるいはパルス量子化器で量子化された成分をいう。また、非トーナル成分とは、所定の閾値以下の振幅を有する成分、あるいはパルス量子化器で量子化されずゼロとなっている成分をいう。

　トーナル成分と非トーナル成分とを所定の閾値を用いて区別する場合は、低域復号信号を構成する成分について所定の閾値よりも振幅が大きいかどうかで分離する。トーナル成分と非トーナル成分とをパルス量子化器で量子化されたか否かで区別する場合は、所定の閾値がゼロの場合に相当するので、雑音加算部２０１で雑音が加算された低域復号信号から、低域復号信号Ｓ１を減算することにより、低域トーナル信号を生成することができる。

　そして、分離部２０２は、低域非トーナル信号を帯域拡張部２０３に、低域トーナル信号を帯域拡張部２０８に出力する。

　帯域拡張部２０８は、入力信号Ｓ２の高域信号をターゲットとして、帯域拡張用に生成された低域トーナル信号との間の相関を最大とする低域トーナル信号の特定の帯域を探索する。探索は、予め準備した特定の候補位置の中から前記相関を最大とする候補を選択することによって行ってもよい。帯域拡張用に生成された低域トーナル信号は、分離部２０２で分離した（量子化された）低域トーナル信号をそのまま用いてもよいし、平滑化ないし正規化されたトーナル信号を用いてもよい。

　そして、帯域拡張部２０８は、探索した特定の帯域の位置を示す情報、すなわち拡張帯域の生成に用いられる低域スペクトルの位置（周波数）を特定する情報であるラグ情報を多重化部２０７、および帯域拡張部２０３に出力する。なお、ラグ情報は、すべての拡張帯域に対応するものが揃っている必要はなく、一部の拡張帯域に対応するものだけを送るようにしてもよい。例えば、帯域拡張によって生成されるサブバンドのうち一部についてはラグ情報が符号化され、残りは符号化されず、復号装置側でラグ情報を用いて生成されたスペクトルを折り返して生成するようにしてもよい。

　また、帯域拡張部２０８は、入力信号Ｓ２の高域信号の中から振幅の大きいものを選択し、この選択した成分のみを用いて前記相関の計算を行うことで、相関演算の計算量を削減するとともに、選択した成分の周波数位置情報を高域トーナル成分周波数位置情報として雑音成分エネルギー算出部２０４（第１計算部）に出力する。

　帯域拡張部２０３は、ラグ情報で特定される特定の帯域の位置を基準に、低域非トーナル信号を切り出して高域非トーナル信号とし、この高域非トーナル信号をゲイン算出部２０５に出力する。

　雑音成分エネルギー算出部２０４は、高域トーナル成分周波数位置情報を用いて、入力信号Ｓ２の高域信号の雑音成分である高域雑音成分のエネルギーを算出して、ゲイン算出部２０５に出力する。具体的には、入力信号Ｓ２の高域部分全体のエネルギーから高域部分のうち高域トーナル成分周波数位置の成分のエネルギーを減算することにより高域トーナル成分でない成分のエネルギーを求め、これを高域雑音成分エネルギーとしてゲイン算出部２０５に出力する。

　ゲイン算出部２０５は、帯域拡張部２０３から出力された高域非トーナル信号のエネルギーを算出し、このエネルギーと、雑音成分エネルギー算出部２０４から出力された高域雑音成分のエネルギーとの間の比率を算出し、これをスケールファクタとして多重化部２０７に出力する。

　エネルギー計算部２０６は、入力信号Ｓ２のサブバンド毎のエネルギーを計算する。例えば、入力信号Ｓ２をサブバンドに分割した場合の、サブバンド内のスペクトルの２乗和で計算することができる。例えば、次式で定義することができる。

　ここで、ＸはＭＤＣＴ係数であり、ｂはサブバンドの番号であり、Epsilonはスカラー量子化のための定数、である。

　そして、エネルギー計算部２０６は、求めた量子化バンドエネルギーの大きさを示す指標を量子化バンドエネルギーとして多重化部２０７に出力する。

　多重化部２０７は、ラグ情報、スケールファクタ、および量子化バンドエネルギーを符号化し、これを多重化する。そして、多重化により得られた信号を高域符号化信号として出力する。なお、多重化部２０７と多重化部１０３は別に設けてもよいし、一体として設けてもよい。

　このように、本実施形態では、ゲイン算出部２０５（第２計算部）で、入力信号の高域信号のうちの高域非トーナル（雑音）成分のエネルギーと、低域復号信号から生成された高域復号信号のうちの高域非トーナル（雑音）信号のエネルギーとの比率を求めているので、復号信号における非トーナル（雑音）成分のエネルギーをより正確に再現できるという効果を有する。

　つまり、トーナル成分に比べて小さく、誤差が出やすい非トーナル成分のエネルギーをより正確に再現でき、復号信号における非トーナル成分のエネルギーが安定する。また、バンドエネルギーと非トーナル成分のエネルギーを用いて計算されるトーナル成分のエネルギーもより正確に再現できる。そして、高域符号化信号を少ないビット数で符号化できる。

　（実施形態２）
　次に、本開示の実施形態２における符号化装置の構成について、図３を用いて説明する。なお、本実施形態における符号化装置１００全体の構成は、実施形態１と同様、図１の構成を有している。

　図３は、本実施形態における第２レイヤ符号化部１０６の構成を示すブロック図である。実施形態１の第２レイヤ符号化部１０６との違いは、雑音加算部と分離部の位置関係が逆転して、分離部３０２、雑音加算部３０１を有することである。

　分離部３０２は、低域復号信号を、非トーナル成分である低域非トーナル信号と、トーナル成分である低域トーナル信号とに分離する。分離方法は、実施形態１で説明したものと同様、所定の閾値を基準に振幅の大小で分離する。閾値をゼロに設定してもよい。

　雑音加算部３０１は、分離部３０２から出力された低域非トーナル信号に対し、雑音信号を加算する。既に振幅を有している成分には雑音信号を加算しないようにするために、低域復号信号Ｓ１を参照してもよい。

　なお、実施形態１、２について階層符号化を用いた例を説明したが、実施形態１、２は階層符号化以外を用いたものにも適用することができる。図４および図９は、その他の符号化装置１１０，６１０の例である。まず図４の符号化装置１１０について説明する。

　図４に示す符号化装置１１０は、時間―周波数変換部１１１、第１符号化部１１２、多重化部１１３、バンドエネルギー正規化部１１４、第２符号化部１１５より構成される。

　時間―周波数変換部１１１は、入力信号に対しＭＤＣＴ等を用いて周波数変換を行う。

　バンドエネルギー正規化部１１４は、周波数変換を施された入力信号である入力スペクトルに対し、所定のバンド毎にバンドエネルギーの算出・量子化・符号化を行い、バンドエネルギー符号化信号を多重化部１１３に出力する。また、バンドエネルギー正規化部１１４は、量子化されたバンドエネルギーを用いて、第１符号化部および第２符号化部に割り当てるビット配分情報Ｂ１およびＢ２を計算し、第１符号化部１１２および第２符号化部１１５へそれぞれ出力する。また、さらに，バンドエネルギー正規化部１１４は、量子化されたバンドエネルギーで各バンドの入力スペクトルの正規化を行い、正規化入力スペクトルＳ２を第１符号化部１１２および第２符号化部１１５へ出力する。

　第１符号化部１１２は、入力したビット配分情報Ｂ１に基づき、所定の周波数以下の低域信号を含む正規化入力スペクトルＳ２に対し、第１の符号化を行う。そして、第１符号化部１１２は、符号化の結果生成された第１符号化信号を多重化部１１３に出力する。また、第１符号化部１１２は、符号化の過程で得られる低域復号信号Ｓ１を第２符号化部１１５へ出力する。

　第２符号化部１１５は、正規化入力スペクトルＳ２のうち第１符号化部１１２で符号化できていない部分につき、第２の符号化を行う。第２符号化部１１５は、図２、３で説明した第２レイヤ符号化部１０６の構成を用いることが可能である。

　次に、図９の符号化装置６１０について説明する。図９に示す符号化装置６１０は、時間―周波数変換部６１１、第１符号化部６１２、多重化部６１３、第２符号化部６１４より構成される。

　時間―周波数変換部６１１は、入力信号に対しＭＤＣＴ等を用いて周波数変換を行う。

　第１符号化部６１２は、周波数変化を施された入力信号である入力スペクトルに対し、所定のバンド毎にバンドエネルギーの算出と量子化と符号化を行い、バンドエネルギー符号化信号を多重化部６１３に出力する。また，第１符号化部６１２は、量子化されたバンドエネルギーを用いて、第１符号化信号および第２符号化信号に割り当てるビット配分情報を計算し、ビット配分情報に基づき，所定の周波数以下の低域信号を含む正規化入力スペクトルＳ２に対し、第1の符号化を行う。そして、第１符号化部６１２は、第１符号化信号を多重化部６１３へ出力するとともに、第1符号化信号の復号信号のうち、低域成分である低域復号信号を第２符号化部６１４へ出力する。ここで，第1の符号化は入力信号を量子化バンドエネルギーで正規化したものに対して行っても良い。この場合、第１符号化信号の復号化信号は量子化バンドエネルギーで逆正規化したものになる。また、第１符号化部６１２は、第２符号化信号に割り当てるビット配分情報、および、高域の量子化バンドエネルギー情報を第２符号化部６１４へ出力する。

　第２符号化部６１４は、入力スペクトルＳ２のうち第１符号化部６１２で符号化できていない部分につき、第２の符号化を行う。第２符号化部６１４は、図２、３で説明した第２レイヤ符号化部１０６の構成を用いることが可能である。なお，図２，３では明記していないが、ビット配分情報は、ラグ情報を符号化する帯域拡張部２０８、および、スケールファクタを符号化するゲイン算出部に入力される。また、図２，３では、入力信号を用いてバンドエネルギーを算出、量子化するエネルギー計算部２０６が示されているが、図９では、第１符号化部６１２にてこの処理を行っているので必要ない。

　（実施形態３）
　図５は、実施形態３にかかる音声信号復号装置の構成を示すブロック図である。ここでは、符号化信号が複数のレイヤからなる階層構造を有する符号化装置から送信された信号であり、この符号化信号を復号する復号装置を例として説明する。なお、階層構造を有さない例については、図８で説明する。

　図５に示す復号装置４００は、分離部４０１、第１レイヤ復号部４０２、第２レイヤ復号部４０３より構成される。また、分離部４０１には、図示しないアンテナが接続されている。

　分離部４０１は、図示しないアンテナを介して入力された符号化信号を、第１符号化信号たる低域符号化信号、および高域符号化信号に分離する。分離部４０１は、低域符号化信号を第１レイヤ復号部４０２に、高域符号化信号を第２レイヤ復号部４０３に出力する。

　第１レイヤ復号部４０２は、第１復号部の一形態であり、低域符号化信号を復号して、低域復号信号Ｓ１を生成する。第１レイヤ復号部４０２の復号の例として、ＣＥＬＰ復号が挙げられる。第１レイヤ復号部４０２は、低域復号信号を第２レイヤ復号部４０３に出力する。

　第２レイヤ復号部４０３は、第２復号部の一形態であり、高域符号化信号を復号し、低域復号信号を用いて広帯域復号信号を生成、出力する。第２レイヤ復号部４０３の詳細は後述する。

　そして、低域復号信号、または／および、広帯域復号信号は、図示しない増幅器やスピーカを通じて再生される。

　図６は、本実施形態における第２レイヤ復号部４０３の構成を示すブロック図である。第２レイヤ復号部４０３は、復号・分離部５０１、雑音加算部５０２、分離部５０３、帯域拡張部５０４、スケーリング部５０５、結合部５０６、加算部５０７、帯域拡張部５０８、結合部５０９、トーナル信号エネルギー推定部５１０、スケーリング部５１１より構成される。

　復号・分離部５０１は、高域符号化信号を復号し、量子化バンドエネルギーＡ、スケールファクタＢ、およびラグ情報Ｃに分離する。なお、分離部４０１と復号・分離部５０１は別に設けてもよいし、一体として設けてもよい。

　雑音加算部５０２は、第１レイヤ復号部４０２から入力された低域復号信号Ｓ１に対し、雑音信号を加算する。雑音信号は、符号化装置１００の雑音加算部２０１で加算した雑音信号と同じものを用いる。そして、雑音加算部５０２は、雑音信号が加算された低域復号信号を分離部５０３に出力する。

　分離部５０３は、雑音信号が加算された低域復号信号から、非トーナル成分とトーナル成分を分離し、それぞれ低域非トーナル信号および低域トーナル信号として出力する。低域非トーナル信号と低域トーナル信号に分離する方法は、符号化装置１００の分離部２０２で説明したものと同様である。

　帯域拡張部５０４は、ラグ情報Ｃを用いて特定の帯域の低域非トーナル信号を高域にコピーして高域非トーナル信号を生成する。

　スケーリング部５０５は、帯域拡張部５０４で生成した高域非トーナル信号に対し、スケールファクタＢを乗算することにより高域非トーナル信号の振幅を調整する。

　そして、結合部５０６で、低域非トーナル信号と、スケーリング部５０５で振幅を調整された高域非トーナル信号とを結合し、広帯域非トーナル信号を生成する。

　一方、分離部５０３で分離された低域トーナル信号は、帯域拡張部５０８に入力される。そして、帯域拡張部５０８は、帯域拡張部５０４と同じく、ラグ情報Ｃを用いて特定の帯域の低域トーナル信号を高域にコピーして高域トーナル信号を生成する。

　トーナル信号エネルギー推定部５１０は、スケーリング部５０５から入力される振幅を調整された高域非トーナル信号のエネルギーを算出するとともに、量子化バンドエネルギーＡの値から高域非トーナル信号のエネルギーを減算して高域トーナル信号のエネルギーを求める。そして、高域非トーナル信号のエネルギーと高域トーナル信号のエネルギーとの比をスケーリング部５１１に出力する。

　スケーリング部５１１は、高域トーナル信号に、高域非トーナル信号のエネルギーと高域トーナル信号のエネルギーとの比を乗算することにより、高域トーナル信号の振幅を調整する。

　そして、結合部５０９で、低域トーナル信号と、振幅を調整された高域トーナル信号とを結合し、広帯域トーナル信号を生成する。

　最後に、加算部５０７で広帯域非トーナル信号と広帯域トーナル信号とを加算し、広帯域復号信号を生成、出力する。

　このように、本実施形態では、低域量子化スペクトルを用いて非トーナル成分を少ないビットで生成し、スケールファクタで適切なエネルギーを持つよう調整し、この調整した非トーナル成分のエネルギーを用いて高域トーナル信号のエネルギーを調整する構成を有しているので、少ない情報量で音楽信号等を符号化、伝送、復号化し、高域の非トーナル成分のエネルギーを適切に再現できるものである。また、量子化バンドエネルギー情報と非トーナル成分のエネルギー情報とを用いてトーナル成分のエネルギーを決定することにより、適正なトーナル成分のエネルギーも再現することができるものである。

　（実施形態４）
　次に、本開示の実施形態４における復号装置の構成を図７を用いて説明する。なお、本実施形態における復号装置４００全体の構成は、実施形態１と同様、図４の構成を有している。

　図７は、本実施形態における第２レイヤ復号部４０３の構成を示すブロック図である。実施形態３の第２レイヤ復号部４０３との違いは、実施形態１と実施形態２との関係と同様、雑音加算部と分離部の位置関係が逆転して、分離部６０３、雑音加算部６０２を有することである。なお、図７において、復号・分離部５０１は記載を省略している。

　分離部６０３は、低域復号信号を、非トーナル成分である低域非トーナル信号と、トーナル成分である低域トーナル信号とに分離する。

　雑音加算部６０２は、分離部６０３から出力された低域非トーナル信号に対し、雑音信号を加算する。

　なお、実施形態３、４について階層符号化を用いた例を説明したが、実施形態３、４は階層符号化以外を用いたものにも適用することができる。図８および図１０、その他の復号装置４１０、６２０の例である。まず、図８に示す復号装置４１０について説明する。

　図８に示す復号装置４１０は、分離部４１１、第１復号部４１２、第２復号部４１３、周波数―時間変換部４１４、バンドエネルギー逆正規化部４１５、合成部１１６より構成される。

　分離部４１１は、図示しないアンテナを介して入力された符号化信号を、第１符号化信号，高域符号化信号およびバンドエネルギー符号化信号に分離する。分離部４１１は、第１符号化信号を第１復号部４１２に、高域符号化信号を第２復号部４１３に，バンドエネルギー符号化信号をバンドエネルギー逆正規化部４１５に出力する。

　バンドエネルギー逆量子化部４１５は、バンドエネルギー符号化信号を復号して、量子化バンドエネルギーを生成する。バンドエネルギー逆量子化部４１５は、量子化バンドエネルギーに基づいて、第１復号部および第２復号部へのビット配分情報Ｂ１およびＢ２を計算し、それぞれ出力する。また、バンドエネルギー逆量子化部４１５は、生成した量子化バンドエネルギーを、合成部４１６から入力する正規化広帯域復号信号に乗算して逆正規化を行い、最終的な広帯域復号信号を生成し、周波数－時間変換部４１４へ出力する。

　第１復号部４１２は、ビット配分情報Ｂ１に従って第１符号化信号を復号して、低域復号信号Ｓ１および高域復号信号を生成する。第１復号部４１２は、低域復号信号を第２復号部４１３に、高域復号信号を合成部４１６に、それぞれ出力する。

　第２復号部４１３は、ビット配分情報Ｂ２に従って高域符号化信号を復号し、低域復号信号を用いて広帯域復号信号を生成、出力する。第２復号部４１３は、図６、図７で説明した第２レイヤ復号部４０３と同じ構成を用いることが可能である。

　合成部４１６は、第１復号部で復号された高域復号信号を第２復号部から入力した広帯域復号信号に加えて、正規化広帯域復号信号を生成し、バンドエネルギー逆正規化部４１５へ出力する。

　そして、バンドエネルギー逆正規化部４１５から出力された広帯域復号信号は、周波数―時間変換部４１４で時間領域の信号に変換されて、図示しない増幅器やスピーカを通じて再生される。

　次に、図１０に示す復号装置６２０について説明する。図１０は、その他の復号装置６２０の例である。図１０に示す復号装置６２０は、第１復号部６２１、第２復号部６２２、合成部６２３，周波数―時間変換部６２４より構成される。

　第１復号部６２１は、図示しないアンテナを介して入力された符号化信号（第１符号化信号、高域符号化信号およびバンドエネルギー符号化信号を含む）を入力し、まずバンドエネルギーを分離、復号する。復号したバンドエネルギーの高域部を高域バンドエネルギー（Ａ）として第２復号部６２２へ出力する。次に、第１復号部６２１は復号したバンドエネルギーに基づいてビット配分情報を計算し、第１符号化信号を分離、復号する。この復号処理は、前記復号したバンドエネルギーを用いた逆正規化処理を含んでいても良い。復号した第１復号信号の低域部を低域復号信号として第２復号部６２１へ出力する。続いて、第１復号部６２１は前記ビット配分情報に基づいて高域符号化信号を分離、復号する。復号した高域復号信号は、スケールファクタ（Ｂ）とラグ情報（Ｃ）を含み、これらを第２復号部６２２へ出力する。また，第１復号部６２１は、前記第１復号信号の高域部を高域復号信号として合成部６２３へ出力する。高域復号信号がゼロになる場合もある。

　第２復号部６２２は、第１復号部６２１から入力した、低域復号信号、復号した量子化バンドエネルギー、スケールファクタ、ラグ情報を用いて広帯域復号信号を生成、出力する。第２復号部６２２は、図６，図７で説明した第２レイヤ復号部４０３と同じ構成を用いてもよい。

　合成部６２３は、第１復号部６２１で復号された高域復号信号を第２復号部６２２から入力した広帯域復号信号に加えて、広帯域復号信号を生成し、周波数―時間変換部６２４で時間領域の信号に変換されて、図示しない増幅器やスピーカを通じて再生される。

　（総括）
　以上、実施形態１から４で本開示の符号化装置および復号装置を説明した。本開示の符号化装置および復号装置は、システムボードや半導体素子に代表されるような半完成品や部品レベルの形態でもよいし、端末装置や基地局装置のような完成品レベルの形態も含む概念である。本開示の復号装置および符号化装置が半完成品や部品レベルの形態の場合は、アンテナ、ＤＡ／ＡＤコンバータ、増幅器、スピーカ、およびマイク等と組み合わせることにより完成品レベルの形態となる。

　なお、図１から図１０のブロック図は、専用に設計されたハードウェアの構成および動作（方法）を表すとともに、汎用のハードウェアに本開示の動作（方法）を実行するプログラムをインストールしてプロセッサで実行することにより実現する場合も含む。汎用のハードウェアたる電子計算機として、例えばパーソナルコンピュータ、スマートフォンなどの各種携帯情報端末、および携帯電話などが挙げられる。

　また、専用に設計されたハードウェアは、携帯電話や固定電話などの完成品レベル（コンシューマエレクトロニクス）に限らず、システムボードや半導体素子など、半完成品や部品レベルをも含むものである。

　なお、本開示を基地局で用いる場合の例として、基地局で音声符号化方式を変更するトランスコーディングを行う場合が挙げられる。なお、基地局とは、通信回線の途中に存在する各種ノードを包含する概念である。

　本開示にかかる符号化装置および復号装置は、音声信号やオーディオ信号の記録、伝送、再生に関係する機器に応用が可能である。

　１００，１１０，６１０　符号化装置
　１０１　ダウンサンプリング部
　１０２　第１レイヤ符号化部
　１０３，１１３，６１３　多重化部
　１０４　第１レイヤ復号部
　１０５　遅延部
　１０６　第２レイヤ符号化部
　２０１，３０１　雑音加算部
　２０２，３０２　分離部
　２０３　帯域拡張部
　２０４　雑音成分エネルギー算出部（第１計算部）
　２０５　ゲイン算出部（第２計算部）
　２０６　エネルギー計算部
　２０７　多重化部
　２０８　帯域拡張部
　４００，４１０，６２０　復号装置
　４０１，４１１　分離部
　４０２　第１レイヤ復号部
　４０３　第２レイヤ復号部
　５０１　復号・分離部
　５０２，６０２　雑音加算部
　５０３，６０３　分離部
　５０４　帯域拡張部
　５０５　スケーリング部
　５０６　結合部
　５０７　加算部
　５０８　帯域拡張部
　５０９　結合部
　５１０　トーナル信号エネルギー推定部
　５１１　スケーリング部
　１１２，６１２　第１符号化部
　１１５，６１４　第２符号化部
　４１２，６２１　第１復号部
　４１３，６２２　第２復号部

Claims

　音声またはオーディオ入力信号の所定周波数以下の低域信号を符号化して第１符号化信号を生成し、前記第１符号化信号を復号して低域復号信号を生成する第１符号化部と、
　前記低域復号信号に基づいて、前記低域信号より高域の信号を符号化して高域符号化信号を生成する第２符号化部と、
　前記第１符号化信号と前記高域符号化信号とを多重化して符号化信号を出力する第１の多重化部、とを有し、
　前記第２符号化部は、
　　前記高域信号の雑音成分である高域雑音成分と、前記低域復号信号から生成された高域復号信号の高域非トーナル成分とのエネルギー比率を算出して、高域符号化信号として出力する、
　符号化装置。
　前記音声またはオーディオ入力信号のエネルギーを計算して量子化バンドエネルギーとして出力するエネルギー計算部と、を更に備え、
　前記第１の多重化部は、前記量子化バンドエネルギーと前記第１符号化信号と前記高域符号化信号とを多重化して出力する、
　請求項１に記載の符号化装置。
前記第２符号化部は、
　　前記低域復号信号を、前記低域復号信号の非トーナル成分である低域非トーナル信号と、前記低域復号信号のトーナル成分である低域トーナル信号と、に分離する分離部と、
　　前記高域信号と前記低域トーナル信号との間の相関を最大とする特定の帯域の位置情報をラグ情報として出力する第１の帯域拡張部と、
　　前記ラグ情報に対応する前記低域非トーナル信号を高域非トーナル信号として出力する第２の帯域拡張部と、
　　前記ラグ情報に対応する前記高域信号から、雑音成分である高域雑音成分のエネルギーを計算する第１計算部と、
　　前記比率を前記高域雑音成分と前記高域非トーナル信号とのエネルギー比率から算出し、スケールファクタとして出力する第２計算部と、
　　前記ラグ情報および前記スケールファクタを多重化して高域符号化信号として出力する第２の多重化部と、を有する、
　請求項２記載の符号化装置。
　前記第２符号化部は、
　　前記低域復号信号に雑音信号を加算する雑音加算部をさらに有する、
　請求項３記載の符号化装置。
　前記第２符号化部は、
　　前記分離部から出力された前記低域非トーナル信号に雑音信号を加算する雑音加算部をさらに有する、
　請求項３記載の符号化装置。
　符号化装置において、音声またはオーディオ入力信号の所定周波数以下の低域信号を符号化した第１符号化信号、および前記低域信号より高域の信号を符号化した高域符号化信号が入力される復号装置であって、
　前記第１符号化信号および前記高域符号化信号に分離する分離部と、
　前記第１符号化信号を復号して低域復号信号を生成する第１復号部と、
　前記高域符号化信号を復号し、前記低域復号信号を用いて広帯域復号信号を生成する第２復号部と、を有し、
　前記高域符号化信号は、雑音成分である高域雑音成分と、前記低域復号信号から生成された高域復号信号の高域非トーナル成分とのエネルギー比率を含み、
　前記第２復号部は、
　　復号された前記比率を参照して前記低域復号信号の非トーナル成分である低域非トーナル信号の振幅を調整する、
　復号装置。
　符号化装置において、音声またはオーディオ入力信号の所定周波数以下の低域信号を符号化した第１符号化信号、前記低域信号よりも高域の信号を符号化した高域符号化信号、およびバンドエネルギー符号化信号が入力される復号装置であって、
　前記第１符号化信号を復号して低域復号信号を生成する第１復号部と、
　前記高域符号化信号を復号し、前記低域復号信号を用いて広帯域復号信号を生成する第２復号部と、
前記バンドエネルギー符号化信号を復号して量子化バンドエネルギーを生成する第３復号部と、を有し、
　前記第２復号部は、
　前記低域復号信号を、前記低域復号信号の非トーナル成分である低域非トーナル信号と、前記低域復号信号のトーナル成分である低域トーナル信号とに分離する分離部と、
　前記高域符号化信号を復号して得られるラグ情報を用いて前記低域非トーナル信号を高域にコピーして高域非トーナル信号を生成する第１の帯域拡張部と、
　前記高域符号化信号を復号して得られるスケールファクタを用いて前記高域非トーナル信号の振幅を調整する第１のスケーリング部と、
　前記高域非トーナル信号のエネルギーと前記量子化バンドエネルギーとから、高域トーナル信号のエネルギーを推定するトーナル信号エネルギー推定部と、
　前記低域非トーナル信号と前記高域非トーナル信号を結合して広帯域非トーナル信号を生成する第１の結合部と、
　前記ラグ情報を用いて前記低域トーナル信号を高域にコピーして高域トーナル信号を生成する第２の帯域拡張部と、
　前記高域トーナル信号のエネルギーに基づき、前記高域トーナル信号の振幅を調整する第２のスケーリング部と、
　前記低域トーナル信号と振幅を調整された前記高域トーナル信号を結合して広帯域トーナル信号を生成する第２の結合部と、
　前記広帯域非トーナル信号と前記広帯域トーナル信号とを加算して広帯域復号信号を生成する加算部と、を有し、
　前記ラグ情報は、高域信号と低域トーナル信号との間の相関を最大とする特定の帯域の位置情報であり、
　前記スケールファクタは、前記ラグ情報に対応する高域信号の雑音成分である高域雑音成分と高域非トーナル信号とのエネルギー比率である、
　復号装置。
　前記第２復号部は、
　　前記低域復号信号に雑音信号を加算する雑音加算部をさらに有する、
　請求項６記載の復号装置。
　前記第２復号部は、
　　前記分離部から出力された前記低域非トーナル信号に雑音信号を加算する雑音加算部をさらに有する、
　請求項６記載の復号装置。
　請求項１に記載の符号化装置を有する端末装置。
　請求項６に記載の復号装置を有する端末装置。
　音声またはオーディオ入力信号の所定周波数以下の低域信号を符号化して第１符号化信号を生成し、
　前記第１符号化信号を復号して低域復号信号を生成し、
　前記低域復号信号に基づいて、前記低域信号より高域の信号を符号化して高域符号化信号を生成し、
　前記高域信号の雑音成分である高域雑音成分と、前記低域復号信号から生成された高域復号信号の高域非トーナル成分とのエネルギー比率を算出し、
　前記第１符号化信号と、前記比率を含む高域符号化信号とを多重化して符号化信号を出力する、
　符号化方法。
　請求項１２に記載の符号化方法は、
　前記音声またはオーディオ入力信号のエネルギーを計算して量子化バンドエネルギーとして出力し、
　　前記低域復号信号を、前記低域復号信号の非トーナル成分である低域非トーナル信号と、前記低域復号信号のトーナル成分である低域トーナル信号と、に分離し、
　　前記高域信号と前記低域トーナル信号との間の相関を最大とする特定の帯域の位置情報をラグ情報として出力し、
　　前記ラグ情報に対応する前記低域非トーナル信号を高域非トーナル信号として出力し、
　　前記ラグ情報に対応する前記高域信号から、雑音成分である高域雑音成分のエネルギーを計算し、
　　前記高域雑音成分と前記高域非トーナル信号とのエネルギー比率を算出してスケールファクタとして出力する、
符号化方法。
　符号化装置において音声またはオーディオ入力信号の所定周波数以下の低域信号を符号化した第１符号化信号、および前記低域信号より高域の信号を符号化した高域符号化信号について、
　前記第１符号化信号および前記高域符号化信号に分離し、
　前記第１符号化信号を復号して低域復号信号を生成し、
　前記高域符号化信号を復号し、前記低域復号信号を用いて広帯域復号信号を生成し、
　前記高域符号化信号は、雑音成分である高域雑音成分と、前記低域復号信号から生成された高域復号信号の高域非トーナル成分とのエネルギー比率を含み、
　　復号された前記比率を生成し、前記比率を参照して前記低域復号信号の非トーナル成分である低域非トーナル信号の振幅を調整する、
　復号方法。
　符号化装置において音声またはオーディオ入力信号の所定周波数以下の低域信号を符号化した第１符号化信号、前記低域信号より高域の信号を符号化した高域符号化信号、およびバンドエネルギー符号化信号について、
　前記第１符号化信号を復号して低域復号信号を生成し、
　前記高域符号化信号を復号し、前記低域復号信号を用いて広帯域復号信号を生成し、
前記バンドエネルギー符号化信号を復号して量子化バンドエネルギーを生成し、
　前記低域復号信号を、前記低域復号信号の非トーナル成分である低域非トーナル信号と、前記低域復号信号のトーナル成分である低域トーナル信号と、に分離し、
　　前記高域符号化信号を復号して得られるラグ情報を用いて前記低域非トーナル信号を高域にコピーして高域非トーナル信号を生成し、
　　前記高域符号化信号を復号して得られるスケールファクタを用いて前記高域非トーナル信号の振幅を調整し、
　　前記高域非トーナル信号のエネルギーと前記量子化バンドエネルギーとから、高域トーナル信号のエネルギーを推定し、
　　前記低域非トーナル信号と前記高域非トーナル信号を結合して広帯域非トーナル信号を生成し、
　　前記ラグ情報を用いて前記低域トーナル信号を高域にコピーして高域トーナル信号を生成し、
　　前記高域トーナル信号のエネルギーに基づき、前記高域トーナル信号の振幅を調整し、
　　前記低域トーナル信号と振幅を調整された前記高域トーナル信号を結合して広帯域トーナル信号を生成し、
　　前記広帯域非トーナル信号と前記広帯域トーナル信号とを加算して広帯域復号信号を生成し、
　前記ラグ情報は、高域信号と低域トーナル信号との間の相関を最大とする特定の帯域の位置情報であり、
　前記スケールファクタは、前記ラグ情報に対応する高域信号の雑音成分である高域雑音成分と高域非トーナル信号とのエネルギー比率である、
　復号方法。
　音声またはオーディオの入力信号の所定周波数以下の低域信号を符号化して第１符号化信号を生成する処理と、
前記第１符号化信号を復号して低域復号信号を生成する処理と、
　前記低域復号信号に基づいて、前記低域信号より高域の信号を符号化して高域符号化信号を生成する処理と、
　前記高域信号の雑音成分である高域雑音成分と、前記低域復号信号から生成された高域復号信号の高域非トーナル成分とのエネルギー比率を算出する処理と、
　前記第１符号化信号と、前記比率を含む高域符号化信号とを多重化して符号化信号を出力する処理と、をプロセッサに実行させるプログラム。
符号化装置において音声またはオーディオの入力信号の所定周波数以下の低域信号を符号化した第１符号化信号、および前記低域信号より高域の信号を符号化した高域符号化信号について、
　前記第１符号化信号および前記高域符号化信号に分離する処理と、
　前記第１符号化信号を復号して低域復号信号を生成する処理と、
　前記高域符号化信号を復号し、前記低域復号信号を用いて広帯域復号信号を生成する処理と、
　前記高域符号化信号は、雑音成分である高域雑音成分と、前記低域復号信号から生成された高域復号信号の高域非トーナル成分とのエネルギー比率を含み、
　　復号された前記比率を生成し、前記比率を参照して前記低域復号信号の非トーナル成分である低域非トーナル信号の振幅を調整する処理と、をプロセッサに実行させるプログラム。