WO2016013164A1

WO2016013164A1 - 音響信号符号化装置、音響信号復号装置、音響信号符号化方法および音響信号復号方法

Info

Publication number: WO2016013164A1
Application number: PCT/JP2015/003358
Authority: WO
Inventors: 河嶋　拓也; 江原　宏幸
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2014-07-25
Filing date: 2015-07-03
Publication date: 2016-01-28
Also published as: US20200219518A1; RU2669706C2; KR20170035827A; MX2016015786A; PL3413307T3; JP6717746B2; EP3174050A1; US20170069328A1; BR112017000629B1; PL3174050T3; RU2017102311A; JPWO2016013164A1; CA2958429C; US11521625B2; AU2015291897B2; CN106133831B; EP3723086B1; CN114023341A; CN106133831A; EP3174050B1

Abstract

音響信号符号化装置（１００）は、入力信号からサブバンドスペクトルを出力する時間周波数変換部（１０１）と、サブバンドエネルギー量子化部（１０２）と、サブバンドスペクトルのトーナル性を分析するトーナリティ計算部（１０３）と、トーナル性の分析結果及び量子化サブバンドエネルギーに基づき、第２量子化部で量子化する第２サブバンドを選択し、第１量子化部で量子化する第１サブバンドに配分される第１ビット数を決定するビット配分部（１０４）と、第１ビット数からなるビットを用いて符号化する第１量子化部（１０６）と、ピッチフィルタを用いて符号化する第２量子化部（１０７）と、多重化部（１０８）と、を有する。

Description

音響信号符号化装置、音響信号復号装置、音響信号符号化方法および音響信号復号方法

　本開示は、音声信号や音楽信号等の音響信号の音質を改善する符号化技術、および復号技術に関する。

　音響信号を低ビットレートで圧縮する符号化技術は、移動体通信における電波等の有効利用を実現する重要な技術である。さらに、近年通話音声の品質向上に対する期待が高まっており、臨場感の高い通話サービスの実現が望まれている。これを実現するためには、周波数帯域の広い音響信号を高ビットレートで符号化すればよい。しかし、このアプローチは電波や周波数帯域の有効利用と相反する。

　ここで、例としてＧ．７１９規格（非特許文献１）に採用されている音響信号符号化技術について検討する。

　Ｇ．７１９規格では、音響信号を符号化するに際し、音響信号を周波数変換したスペクトルに対し所定のビットを割り当てる。具体的には、スペクトルを所定の周波数帯域幅を有するサブバンドに分割し、エネルギーの大きいサブバンドから順にラティスベクトル量子化により量子化を行うためのユニット（必要ビット数の単位）を以下の通り配分する。

　（１）
　全サブバンドの中からエネルギーが最大のサブバンドに１ユニットを配分する。

　１スペクトル当たり１ビットずつ配分するので、例えばサブバンド内のスペクトルサンプル数が８なら、１ユニットは８ビットとなる（なお、１スペクトル当たりに配分可能なビット数は最大で９ビットで、例えばサブフレームのスペクトルサンプル数が８なら最終的に７２ビットまで割り当てが可能）。

　（２）
　１ユニットを配分したサブバンドは、量子化サブバンドエネルギーを２レベル（6dB）下げる。もし、１ユニットを配分したサブバンドへのビット割り当てが最大値（９ビット）を超えていたら、次回以降のループで量子化対象から外す。

　（３）
　上記（１）に戻って同じ処理を繰り返す。

　図６は、各サブバンドにおけるサブバンドエネルギーを示す。横軸は周波数、縦軸は対数目盛の振幅を表す。図中、サブバンドエネルギーは点ではなく横線で表されているが、この一つ一つの幅が、各サブバンドの周波数帯域幅を表している。

　図７、図８は、Ｇ．７１９規格で定められた符号化方法を用いた場合の各サブバンドへのビット配分結果例を示す図である。各図の横軸は周波数、縦軸は割り当てられたビット数を表す。そして、図７は、ビットレートが１２８ｋｂｉｔ／ｓ、図８は、ビットレートが６４ｋｂｉｔ／ｓの場合である。

　１２８ｋｂｉｔ／ｓの場合は割り当て可能なビット資産が豊富にあるので、多くのサブバンド（スペクトル）に、最大値である９ビットを割り当てることが可能であり、音響信号を高品質に保つことができる。

　これに対し、６４ｋｂｉｔ／ｓの場合は、最大値である９ビットが割り当てられたサブバンドがなくなるが、逆にビットが割り当てられていないサブバンドもなく、音響信号の品質の劣化を抑えつつ電波や周波数帯域の有効利用を両立できているといえる。

特表２０１３－５３４３２８号公報国際公開第２００５／０２７０９５号

ＩＴＵ―Ｔ　Ｓｔａｎｄａｒｄ　Ｇ．７１９、２００８年

　しかし、さらなる電波や周波数帯域の有効利用を図る必要がある。ここで、Ｇ．７１９規格で採用されている上記方法を用いて２０ｋｂｐ／ｓ以下程度の低ビットレートで３２ｋＨｚ程度のサンプリング周波数の音響信号を符号化する場合には、全てのサブバンドを量子化するためのユニット（ビット数）を確保できなくなるという問題がある。

　図９は、２０ｋｂｉｔ／ｓでのＧ．７１９規格で定められた符号化方法を用いた場合の各サブバンドへのビット配分結果例を示す図である。このように、高周波数域部分はもちろん、場合によっては聴覚上重要な低周波数域部分についてもビットを割り当てることができなくなる結果、そのサブバンドにおけるスペクトルは符号化できないこととなり、音響信号の品質の劣化が著しくなる。

　これに対し、ビットの割り当て方法をダイナミックに変更する方法を採用することも考えられる（特許文献１）。

　しかし、符号化方法（量子化方法）を変更せずに単一の符号化方法（量子化方法）でビット割り当て方法を変更することにより、音響信号の品質劣化を対策するにも限界がある。

　本開示は、全体のビットレートを低減させつつも、高品質の音響信号を実現するための符号化技術および復号技術を提供する。

　本開示の音響信号符号化装置は、入力音響信号を周波数領域に変換してスペクトルを生成し、スペクトルを所定の周波数帯域毎のサブバンドに分割してサブバンドスペクトルを出力する時間周波数変換部と、サブバンド毎に量子化サブバンドエネルギーを求めるサブバンドエネルギー量子化部と、サブバンドスペクトルのトーナル性を分析して分析結果を出力するトーナリティ計算部と、トーナル性の分析結果および量子化サブバンドエネルギーに基づき、サブバンドの中から第２量子化部で量子化する第２サブバンドを選択し、第１量子化部で量子化する第１サブバンドに配分される第１のビット数を決定する、ビット配分部と、第１量子化部及び第２量子化部から出力された符号化情報、量子化サブバンドエネルギー、およびトーナル性の分析結果を含む情報を多重化し、出力する多重化部と、を構成する。第１量子化部は、第１サブバンドに含まれるサブバンドスペクトルを、第１のビット数からなるビットを用いてパルス符号化し、第２量子化部は、第２サブバンドに含まれるサブバンドスペクトルを、ピッチフィルタを用いて符号化する。

　なお、これらの包括的または具体的な態様は、システム、方法、集積回路、またはコンピュータプログラムで実現されてもよく、システム、装置、方法、集積回路、およびコンピュータプログラムの任意な組み合わせで実現されてもよい。

　本開示の符号化装置、復号装置等によれば、全体のビットレートを低減させつつも、高品質な音響信号を符号化および復号することができる。

本開示の実施形態１における符号化装置の構成図本開示の実施形態１における符号化装置のビット配分部の詳細構成図本開示の実施形態１における符号化装置の動作を示す説明図本開示の実施形態２における復号装置の構成図本開示の実施形態２における復号装置のビット配分部の詳細構成図従来技術の符号化装置におけるサブバンドエネルギーを説明する説明図従来技術の符号化装置におけるサブバンドへのビット配分結果を説明する説明図従来技術の符号化装置におけるサブバンドへのビット配分結果を説明する説明図従来技術の符号化装置におけるサブバンドへのビット配分結果を説明する説明図

　以下、本開示の実施形態の構成および動作について、図面を参照して説明する。なお、本開示の符号化装置への入力信号、および復号装置からの出力信号である音響信号は、音声信号、より帯域の広い音楽信号、さらにはこれらが混在する信号も包含する概念である。

　本開示において、「入力音響信号」とは、音楽信号や音声信号、あるいは両者が混在した信号も包含する概念である。また、「量子化サブバンドエネルギー」とは、サブバンド内のサブバンドスペクトルのエネルギーの総和または平均であるサブバンドエネルギーを量子化したものであり、サブバンドエネルギーは例えばサブバンド内のサブバンドスペクトルの二乗和で求めることができる。「トーナル性」とは、特定の周波数成分にスペクトルのピークが立っている度合いをいい、その分析結果は、数値や符号などで表現することができる。「パルス符号化」とは、パルスを用いてスペクトルを近似する符号化をいう。

　「相対的に低い」とは、サブバンド間を比較してより低いものをいい、例えば全サブバンドの平均よりも低い場合や、所定の値よりも低い場合がこれにあたる。「高周波数域のサブバンド」とは、複数のサブバンドのうち、高周波数側に位置するサブバンドをいう。

　なお、実施形態や特許請求の範囲に記載の、第１（スペクトル）量子化部、第２（スペクトル）量子化部、第１（スペクトル）復号部、第２（スペクトル）復号部、第１サブバンド、第２サブバンド、第３サブバンド、第４サブバンド、第１のビット数、第２のビット数、第３のビット数、第４のビット数は、それぞれカテゴリーを意味するものであり、順序を意味するものではない。

　（実施形態１）
　図１は、実施形態１にかかる音響信号符号化装置１００の構成、および動作を示すブロック図である。図１に示す音響信号符号化装置１００は、時間―周波数変換部１０１、サブバンドエネルギー量子化部１０２、トーナリティ計算部１０３、ビット配分部１０４、正規化部１０５、第１スペクトル量子化部１０６、第２スペクトル量子化部１０７、多重化部１０８により構成される。また、多重化部１０８には、アンテナＡが接続されている。そして、音響信号符号化装置１００とアンテナＡとを合わせて、端末装置または基地局装置を構成する。

　時間―周波数変換部１０１は、時間領域の入力音響信号を周波数領域に変換して入力音響信号スペクトル（以下、「スペクトル」とする。）を生成する。時間―周波数変換の例としてＭＤＣＴ（修正離散コサイン変換）が挙げられるが、これに限定されず、例えば、ＤＣＴ（離散コサイン変換）、ＤＦＴ（離散フーリエ変換）、フーリエ変換等を用いてもよい。

　また、時間―周波数変換部１０１は、スペクトルを所定の周波数帯域であるサブバンドに分割する。所定の周波数帯域は、等間隔である場合の他、例えば高周波数域では広く低周波数域では狭くするなど、異なる間隔であってもよい。

　そして、時間―周波数変換部１０１は、サブバンド毎に分割したスペクトルを、サブバンドスペクトルとしてサブバンドエネルギー量子化部１０２、トーナリティ計算部１０３、および正規化部１０５に出力する。

　サブバンドエネルギー量子化部１０２は、サブバンド毎にサブバンドスペクトルのエネルギーであるサブバンドエネルギーを求め、これを量子化して量子化サブバンドエネルギーを求める。具体的には、サブバンド内のサブバンドスペクトルの二乗和でサブバンドエネルギーを求めることができるが、これに限らない。例えば、サブバンド毎にサブバンドスペクトルの振幅を積分してサブバンドエネルギーを求めることができる。また、サブバンドエネルギーを平均化する場合は、二乗和をサブバンド内のスペクトル数（サブバンド幅）で除算する。そして、このようにして求めたサブバンドエネルギーを所定の刻み幅で量子化する。

　そして、求めた量子化サブバンドエネルギーを、正規化部１０５、およびビット配分部１０４に出力するとともに、量子化サブバンドエネルギーを符号化した符号化量子化サブバンドエネルギーを多重化部１０８に出力する。

　トーナリティ計算部１０３は、各サブバンドに含まれるサブバンドスペクトルを分析して、トーナル性を判定する。トーナル性とは、特定の周波数成分にスペクトルのピークが立っている度合いをいい、際立ったピークが存在することを意味するピーク性を含む概念である。定量的には、例えば、対象とするサブバンド内の平均スペクトルの振幅と、そのサブバンド内に存在する最大スペクトルの振幅との比で求めることができ、この値が所定の閾値を超える場合、そのサブバンドのスペクトルはトーナル性（ピーク性）を有すると定義する。本実施形態では、所定の閾値を超えている場合はピーク／トーナルフラグとして１を、所定の閾値以下の場合はピーク／トーナルフラグとして０を生成し、これを分析結果としてビット配分部１０４、および多重化部１０８に出力する。もちろん、上記比を直接分析結果として出力してもよい。

　トーナリティ計算部の意義は次の通りである。

　低ビットレート条件下においては、雑音的なスペクトルのようにスペクトルのエネルギーがサブバンド全体に分散しているスペクトルの効率的な量子化には、ピッチフィルタに基づく方法（つまり、低周波数域スペクトルを利用して高周波数域スペクトルを表現する方法）を用いることが有効である。それゆえ、サブバンド内のスペクトルのピーク性／トーナル性の尺度（ピークパワーと平均パワーの比など）からサブバンド内のエネルギー分散度合を判定して、ピーク性／トーナル性が高くないスペクトルのサブバンドはピッチフィルタに基づく量子化の対象にする。

　ビット配分部１０４は、サブバンド毎の量子化サブバンドエネルギー、およびピーク／トーナルフラグを参照して、各サブバンドにおけるサブバンドスペクトルに対し、符号化に用いることができる総ビット数を意味する、ビット資産からビットを割り当てる。具体的には、第１スペクトル量子化部で量子化するサブバンドである第１サブバンドに割り当てるビット数である、第１のビット数を計算・決定し、これを第１スペクトル量子化部１０６に、配分ビット情報として出力する。また、第２スペクトル量子化部１０７で量子化するサブバンドである、第２サブバンドを選択・特定し、これを第２スペクトル量子化部１０７に量子化モードとして出力する。

　ビット配分部１０４の構成及び動作の詳細は後述する。

　なお、ビット配分部１０４は、本実施形態では、ピーク／トーナルフラグおよびサブバンド毎の量子化サブバンドエネルギーの順で参照するが、参照の順序は任意である。

　また、第２スペクトル量子化部１０７で量子化の対象となる第２サブバンドは、全帯域を候補としてもよいが、一般的に量子化サブバンドエネルギーが低い帯域、およびトーナル性が低い帯域は、主として高周波数域であるから、特定の高周波数域に存在するサブバンドのみを対象としてもよい。例えば、高周波数域の４つまたは５つのサブバンドのみを対象とすることができる。

　あるいは、音響信号は通常、低周波数域側がトーナル性が高く、高周波数域側はトーナル性が低いため、実質的には高周波数域側のサブバンドがピッチフィルタに基づく量子化の対象となる。このため、トーナル性で選択されたサブバンドから高周波数域側は全てピッチフィルタによる量子化の対象とし、このサブバンドの番号だけを量子化モードとして送信する方法でもよい。

　正規化部１０５は、入力された量子化サブバンドエネルギーで各サブバンドスペクトルを正規化（除算）することにより、正規化サブバンドスペクトルを生成する。これにより、サブバンド間での振幅の大きさの違いが正規化される。そして、正規化部１０５は、正規化サブバンドスペクトルを第１スペクトル量子化部１０６、および第２スペクトル量子化部１０７に出力される。

　なお、正規化部１０５は任意の構成である。

　また、正規化部１０５は、本実施形態では１つの構成であるが、第１スペクトル量子化部１０６、および第２スペクトル量子化部１０７のそれぞれの前段に配置して２つとしてもよい。

　第１スペクトル量子化部１０６は、第１量子化部の一例であって、ビット配分部１０４で配分された第１のビット数からなるビットを用いて、入力された正規化サブバンドスペクトルのうち第１スペクトル量子化部１０６で量子化すべき第１サブバンドに属するサブバンドスペクトルを量子化する。そして、量子化の結果を、量子化スペクトルとして第２スペクトル量子化部１０７に出力するとともに、量子化スペクトルを符号化して生成した第１符号化情報を多重化部１０８に出力する。

　第１スペクトル量子化部１０６はパルス符号部を用いるが、パルス符号部の例として、ラティスベクトル量子化を行うラティスベクトル量子化部、少数のパルスでサブバンドスペクトルを近似するパルス符号化を行うパルス符号化部が挙げられる。つまり、トーナル性の高いスペクトルの量子化に適した量子化方法、少数のパルスで量子化する方法であれば、任意の量子化部を用いることができる。

　なお、非常に低いビットレートでは、ラティスベクトル量子化よりも少数のパルスでサブバンドスペクトルを近似するパルス符号化による量子化の方がより音質を維持する効果が期待できる。

　第２スペクトル量子化部１０７は、第２量子化部の一例であって、例えば以下のような拡張帯域（ピッチフィルタによる予測モデル）による量子化法を採ることができる。

　ここで、ピッチフィルタとは、以下の式１で表される処理を行う処理ブロックである。

　一般的にピッチフィルタとは、時間軸の信号に対してピッチ周期（Ｔ）を強調する（周波数軸上でピッチ成分を強調する）フィルタのことを指し、タップ数が１の場合、離散信号ｘ［ｉ］に対して例えば式１で表されるデジタルフィルタである。しかしながら、本実施形態におけるピッチフィルタは、式１で表される処理を行う処理ブロックとして定義され、必ずしも時間軸の信号に対してピッチ強調を行うものではない。

　本実施形態では、前記ピッチフィルタ（式１で表される処理ブロック）を量子化ＭＤＣＴ係数列Ｍｑ［ｉ］に適用する。具体的には式１において、ｘ［ｉ］＝０（ｉ≧Ｋ，Ｋは符号化対象とするＭＤＣＴ係数の周波数下限）、ｙ［ｉ］＝Ｍｑ［ｉ］（ｉ＜Ｋ）としてｙ［ｉ］（Ｋ≦ｉ≦Ｋ’，Ｋ’は符号化対象とするＭＤＣＴ係数の周波数上限）を算出する。符号化対象とするＭＤＣＴ係数Ｍｔ［ｉ］と算出されたｙ［ｉ］との誤差を最小とするＴをラグ情報として符号化する．このようなピッチフィルタに基づくスペクトル符号化は、特許文献２などに開示されている。

　第２スペクトル量子化部１０７は、量子化モードを参照して第２スペクトル量子化部１０７で量子化すべき第２サブバンド（正規化サブバンドスペクトル）を特定する。これにより、前記ＫおよびＫ’が特定される。そして、特定した第２サブバンド（周波数Ｋ～Ｋ’）にかかる正規化サブバンドスペクトル（前記Ｍｔ［ｉ］，Ｋ≦ｉ≦Ｋ’　に相当）が、量子化スペクトル（前記Ｍｑ［ｉ］，ｉ＜Ｋ　に相当）との関係で相関が最大となる量子化スペクトルのサブバンドもしくは帯域を探索し、その位置をラグ情報（前記Ｔに相当）として生成する。ラグ情報は、サブバンドや帯域の絶対位置や相対位置、あるいはサブバンドの番号が例として挙げられる。そして、第２スペクトル量子化部１０７は、ラグ情報を符号化して、第２符号化情報として多重化部１０８に出力する。

　なお、本実施形態では、符号化量子化サブバンドエネルギーを多重化部１０８で多重化して送信しており、復号部側でゲインを生成できることから、ゲインは符号化していない。しかし、ゲインを符号化して送るようにしてもよい。その際は、量子化すべき第２サブバンドと相関が最大となる量子化スペクトルのサブバンドとの間のゲインを算出し、第２スペクトル量子化部１０７は、ラグ情報およびゲインを符号化して、第２符号化情報として多重化部１０８に出力する。

　なお、高周波数域のサブバンドは低周波数域のサブバンドよりバンド幅を広く設定するのが一般的だが、コピーされる低周波数域のサブバンドの一部について、エネルギーが小さいため、ラティスベクトル量子化の対象となっていない場合もあり得る。このような場合には、そのようなサブバンドはゼロスペクトルと見なすか、雑音付加を行ってサブバンド間のスペクトルの急変を回避すればよい。

　多重化部１０８は、量子化サブバンドエネルギー、第１符号化情報、第２符号化情報、およびピーク／トーナルフラグを多重化して符号化情報としてアンテナＡに出力する。

　そして、アンテナＡは、符号化情報を音響信号復号装置に向けて送信する。符号化情報は、各種ノードや基地局を経由して音響信号復号装置に至る。

　次に、ビット配分部１０４の詳細について説明する。

　図２は、実施形態１にかかる音響信号符号化装置１００のビット配分部１０４の詳細な構成、および動作を示すブロック図である。図２に示すビット配分部１０４は、ビットリザーバー１１１、ビットリザーバー１１２、ビット配分計算部１１３、量子化モード決定部１１４から構成される。

　ビットリザーバー１１１は、トーナリティ計算部１０３の出力であるピーク／トーナルフラグを参照して、ピーク／トーナルフラグが０の場合、第２スペクトル量子化部１０７で行われる第２スペクトル量子化に必要なビット数を確保する。

　本実施形態では、ピッチフィルタに基づき、ラグ情報の符号化に必要なビット数を確保する。そして、確保されたビット数は、量子化に用いることができる総ビット数であるビット資産から除かれ、残ったビット資産がビットリザーバー１１２に出力される。なお、ビット資産はサブバンドエネルギー量子化部１０２から供給されているが、これは量子化サブバンドエネルギーを可変長符号化するために必要なビット数を除いたビットが、第１スペクトル量子化部１０６、第２スペクトル量子化部１０７、およびピーク／トーナルフラグの量子化（符号化）に用いることができることを表現したものである。サブバンドエネルギー量子化部１０２がビット資産の情報を生成するとは限らない。

　ビットリザーバー１１２は、ピーク／トーナルフラグに用いるビット数を確保する。例えば、本実施形態では、ピーク／トーナルフラグを高周波数域の５サブバンドで送るので、ビットリザーバー１１２は５ビットを確保する。

　そして、ビットリザーバー１１２は、ビットリザーバー１１１から入力されたビット資産からビットリザーバー１１２で確保されたビット数を除いたビット数を、適応ビット配分部中のビット配分計算部１１３に出力する。なお、ビットリザーバー１１１およびビットリザーバー１１２で確保されたビット数の合計が、第３ビット数となる。また、ピーク／トーナルフラグがゼロであるサブバンドが、第３サブバンドに該当する。

　なお、ビットリザーバー１１１とビットリザーバー１１２は順序を入れ替えてもよい。また、本実施形態では、ビットリザーバー１１１とビットリザーバー１１２ブロックを分けているが、これを一つのブロックで同時に行ってもよい。あるいは、これらの動作を、ビット配分計算部１１３の中で行ってもよい。

　ビット配分計算部１１３は、第１スペクトル量子化部１０６で量子化するサブバンドへのビット配分を計算する。具体的には、まず、ビットリザーバー１１２から出力されたビット数を、量子化サブバンドエネルギーを参照して各サブバンドに配分する。配分方法は、従来技術の項で説明した通り、量子化サブバンドエネルギーの大小で聴覚的に重要かどうかを判断し、重要と思われるサブバンドにビット配分を重点的に行う。結果として、量子化サブバンドエネルギーがゼロ、またはゼロ及び所定の値よりも低いサブバンドにビットが配分されない。

　また、配分の際、入力されるピーク／トーナルフラグを参照し、ピーク／トーナルフラグが０のサブバンド（第３サブバンド）はビット配分の対象から外す。つまり、ピーク性が高いサブバンド（ここではピーク/トーナルフラグが１に設定されているサブバンド）のみをビット配分の対象サブバンドとしてビットを配分していく。そして、ビットが配分されるべきサブバンド（第１サブバンド）を特定するとともに各サブバンドに配分されるビット数を合わせて配分ビット情報とし、これをまず量子化モード決定部１１４に出力する。

　量子化モード決定部１１４は、ビット配分計算部１１３から出力された配分ビット情報およびピーク／トーナルフラグを受信する。そして、トーナル性が高い（第1スペクトル量子化部１０６の量子化対象である）のにビット配分されていない高周波数域サブバンドがある場合は、このサブバンドは第２スペクトル量子化部１０７で量子化するサブバンド（第４サブバンド）に定義し直し、第２スペクトル量子化部での量子化に必要なビット数（第４のビット数）を配分ビット情報から減算するためにビット配分計算部１１３に出力する。すなわち、その帯域に第２スペクトル量子化部１０７で量子化するのに必要なビット数を割り当て、その割り当てたビット数（第４のビット数）を出力する。これに代えて、割り当てたビット数だけ第１スペクトル量子化部１０６で使えるビット資産から減じて、これをビット配分計算部１１３に出力してもよい。

　また、量子化モード決定部１１４は、第２スペクトル量子化部１０７で量子化するサブバンドを特定し、これを第２スペクトル量子化部１０７に量子化モードとして出力する。具体的には、トーナリティが低い（ピーク／トーナルフラグが０）である高周波数域サブバンド（第３サブバンド）、およびビットが配分されていない高周波数域サブバンド（第４サブバンド）を、第２スペクトル量子化部１０７で量子化するサブバンド（第２サブバンド）と定め、量子化モードとして出力する。

　再びビット配分計算部１１３において、ビットリザーバー１１２から入力されたビット数（ビット資産）から量子化モード決定部１１４から受信したビット数（第４のビット数）を減じることによりビット資産を更新し、第１スペクトル量子化部１０６で量子化するサブバンドへのビット配分を再計算する。更新されたビット資産を量子化モード決定部から受け取る場合は、更新されたビット資産を用いて、第１スペクトル量子化部１０６で量子化するサブバンドへのビット配分を再計算する。最終的に、第１のビット数は、総ビット数（ビット資産）から、第３のビット数および第４のビット数を減じた値となる。

　そして、再計算後のビット数（第１のビット数）および第１スペクトル量子化部１０６で量子化するサブバンド（第１サブバンド）の情報を、配分ビット情報として、今度は第１スペクトル量子化部１０６に出力する。

　なお、第１回目にビット配分計算部１１３でビット配分を計算した結果、何れのサブバンドもビット配分されているなど再計算の必要がない場合は、直接配分ビット情報を第１スペクトル量子化部１０６に出力してもよい。

　図３は、実施形態１にかかる音響信号符号化装置１００の動作、具体的には、ビット配分部１０４の動作を示すフロー図である。

　まず、ビット配分部１０４は、サブバンドエネルギー量子化部１０２から、量子化サブバンドエネルギーを取得する（Ｓ１）。

　次に、ビット配分部１０４は、高周波数域におけるピーク／トーナルフラグをトーナリティ計算部１０３から取得する（Ｓ２）。

　そして、ビット配分部１０４は、ピーク／トーナルフラグに基づき、第２スペクトル量子化部１０７で量子化すべきサブバンド（第３サブバンド）を特定するとともに、ビットリザーバー１１１およびビットリザーバー１１２において、第２スペクトル量子化部１０７で量子化するためのビット（第３のビット数）を確保する（Ｓ３）。

　ビット配分部１０４は、ビット配分計算部１１３において、量子化サブバンドエネルギーに基づき、第１スペクトル量子化部１０６の量子化対象となっているサブバンドへ配分するビット数を決定する（Ｓ４）。

　ビット配分部１０４は、量子化モード決定部１１４において、ビット配分計算部１１３で決定された高周波数域サブバンドへの配分ビットをチェックし、必要に応じて第２スペクトル量子化部１０７で量子化すべきサブバンド（第２サブバンド）を再特定し、第１サブバンド量子化部１０６のためのビット資産を更新する（Ｓ５）。

　そして、最後に、ビット配分部１０４は、再びビット配分計算部１１３において、更新したビット資産を用いて、第１スペクトル量子化部１０６へのビット配分（第１のビット数）を再計算する（Ｓ６）。

　以上、本実施形態の音響信号符号化装置によれば、全体のビットレートを低減させつつも、高品質な音響信号の符号化を実現することができる。

　特に、図２、図３の構成、および動作によれば、サブバンド幅が特に広くなる高周波数域に、量子化をしない（ビット配分が０となる）サブバンドを発生させることなく、第１量子化部で量子化するサブバンド数を最大とするビット配分を実現できる。したがって、限られたビットレートにおいてベストパフォーマンスを引き出すことができる、適応ビット配分を実現できる。

　（実施形態２）
　図４は、実施形態２にかかる音響信号復号装置２００の構成、および動作を示すブロック図である。図４に示す音響信号復号装置２００は、分離部２０１、サブバンドエネルギー復号部２０２、ビット配分部２０３、第１スペクトル復号部２０４、第２スペクトル復号部２０５、逆正規化部２０６、周波数―時間変換部２０７により構成される。また、分離部２０１には、アンテナＡが接続されている。そして、音響信号復号装置２００およびアンテナＡを合わせて、端末装置または基地局装置を構成する。

　分離部２０１は、アンテナＡで受信された符号化情報を受信し、符号化量子化サブバンドエネルギー、第１符号化情報、第２符号化情報、およびピーク／トーナルフラグを分離する。そして、符号化量子化サブバンドエネルギーはサブバンドエネルギー復号部２０２、第１符号化情報は第１スペクトル復号部２０４、第２符号化情報は第２スペクトル復号部２０５、そしてピーク／トーナルフラグはビット配分部２０３、へと出力される。

　サブバンドエネルギー復号部２０２は、符号化量子化サブバンドエネルギーを復号して、復号量子化サブバンドエネルギーを生成し、ビット配分部２０３および逆正規化部２０６に出力される。

　ビット配分部２０３は、サブバンド毎の復号量子化サブバンドエネルギー、およびピーク／トーナルフラグを参照して、第１スペクトル復号部２０４および第２スペクトル復号部２０５で割り当てるビットの配分を決定する。具体的には、第１スペクトル復号部２０４で第１符号化情報を復号した際に割り当てるビット数（第１のビット数）およびビットを割り当てられるサブバンド（第１サブバンド）を決定し、配分ビット情報として出力するとともに、第２スペクトル復号部２０５で復号される第２符号化情報が復号されるべきサブバンド（第２サブバンド）を特定・選択し、これを第２スペクトル復号部２０５に量子化モードとして出力する。

　ビット配分部２０３は、図５で示した通り、符号化装置側で説明したビット配分部１０４の構成および動作と同じであるので、動作の詳細は符号化装置側のビット配分部１０４の説明を引用する。

　第１スペクトル復号部２０４は、配分ビット情報に示された第１のビット数を用いて第１符号化情報を復号して第１復号スペクトルを生成し、第２スペクトル復号部２０５に出力する。

　第２スペクトル復号部２０５は、量子化モードで特定されたサブバンドに第１復号スペクトルを用いて第２符号化情報を復号して第２復号スペクトルを生成し、当該第２復号スペクトルと第１復号スペクトルと結合して再生スペクトルを生成し、出力する。

　逆正規化部２０６は、復号量子化サブバンドエネルギーを参照して再生スペクトルの振幅（ゲイン）を調整し、これを周波数―時間変換部２０７に出力する。

　周波数―時間変換部２０７は、周波数領域の再生スペクトルを時間領域の出力音響信号に変換して出力する。周波数―時間変換の例として、周波数―時間で挙げた変換の逆変換が挙げられる。

　以上、本実施形態の音響信号復号装置によれば、全体のビットレートを低減させつつも、高品質な音響信号の復号を実現することができる。

　（総括）
　以上、実施形態１、２で本開示の音響信号符号化装置および音響信号復号装置を説明した。本開示の符号化装置および復号装置は、システムボードや半導体素子に代表されるような半完成品や部品レベルの形態でもよいし、端末装置や基地局装置のような完成品レベルの形態も含む概念である。本開示の符号化装置および復号装置が半完成品や部品レベルの形態の場合は、アンテナ、ＤＡ／ＡＤコンバータ、増幅部、スピーカ、およびマイク等と組み合わせることにより完成品レベルの形態となる。

　なお、図１、図２、図４、図５のブロック図は、専用に設計されたハードウェアの構成および動作（方法）を表すとともに、汎用のハードウェアに本開示の動作（方法）を実行するためのプログラムをインストールしてプロセッサで実行することにより実現する場合も含む。汎用のハードウェアたる電子計算機として、例えばパーソナルコンピュータ、スマートフォンなどの各種携帯情報端末、および携帯電話などが挙げられる。

　また、専用に設計されたハードウェアは、携帯電話や固定電話などの完成品レベル（コンシューマエレクトロニクス）に限らず、システムボードや半導体素子など、半完成品や部品レベルをも含むものである。

　本開示にかかる音響信号符号化装置および音響信号復号装置は、音響信号の記録、伝送、再生に関係する機部に応用が可能である。

　１００　音響信号符号化装置
　１０１　時間―周波数変換部
　１０２　サブバンドエネルギー量子化部
　１０３　トーナリティ計算部
　１０４　ビット配分部
　１０５　正規化部
　１０６　第１スペクトル量子化部
　１０７　第２スペクトル量子化部
　１０８　多重化部
　１１１　ビットリザーバー
　１１２　ビットリザーバー
　１１３　ビット配分計算部
　１１４　量子化モード決定部
　２００　音響信号復号装置
　２０１　分離部
　２０２　サブバンドエネルギー復号部
　２０３　ビット配分部
　２０４　第１スペクトル復号部
　２０５　第２スペクトル復号部
　２０６　逆正規化部
　２０７　周波数―時間変換部
　２１１　ビットリザーバー
　２１２　ビットリザーバー
　２１３　ビット配分計算部
　２１４　量子化モード決定部

Claims

　入力音響信号を周波数領域に変換してスペクトルを生成し、前記スペクトルを所定の周波数帯域毎のサブバンドに分割してサブバンドスペクトルを出力する時間周波数変換部と、
　前記サブバンド毎に量子化サブバンドエネルギーを求めるサブバンドエネルギー量子化部と、
　前記サブバンドスペクトルのトーナル性を分析して分析結果を出力するトーナリティ計算部と、
　前記トーナル性の分析結果および前記量子化サブバンドエネルギーに基づき、前記サブバンドの中から第２量子化部で量子化する第２サブバンドを選択し、第１量子化部で量子化する第１サブバンドに配分される第１のビット数を決定する、ビット配分部と、
　前記第１量子化部及び前記第２量子化部から出力された符号化情報、前記量子化サブバンドエネルギー、および前記トーナル性の分析結果を含む情報を多重化し、出力する多重化部と、を備え、
　前記第１量子化部は、前記第１サブバンドに含まれるサブバンドスペクトルを、前記第１のビット数からなるビットを用いてパルス符号化し、
　前記第２量子化部は、前記第２サブバンドに含まれるサブバンドスペクトルを、ピッチフィルタを用いて符号化する、音響信号符号化装置。
　前記ビット配分部は、
　高周波数域の前記サブバンドから前記第２サブバンドを選択する、
　請求項１に記載の音響信号符号化装置。
　前記ビット配分部は、
　前記トーナル性が所定の閾値より低い前記サブバンドを、前記第２サブバンドとして選択する、
　請求項２に記載の音響信号符号化装置。
　前記ビット配分部は、
　前記量子化サブバンドエネルギーがゼロまたは所定の値より低い前記サブバンドを、前記第２サブバンドとして選択する、
　請求項２に記載の音響信号符号化装置。
　前記ビット配分部は、
　量子化に用いることのできる総ビット数から、前記第２サブバンドに配分される第２のビット数を減じたものを、前記第１のビット数として決定する、
　請求項１に記載の音響信号符号化装置。
　前記ビット配分部は、
　前記総ビット数の中から、前記トーナル性の分析結果に基づいて選択された第３サブバンドに配分される第３のビット数を計算し、
　前記総ビット数から前記第３のビット数を減じたビット数を前記量子化サブバンドエネルギーに基づいて前記第１サブバンドに割り当てた際に、ビットが割り当てられない前記サブバンドを第４サブバンドとして選択し、前記第４サブバンドを前記第２量子化部で符号化する場合に配分される第４のビット数を計算し、
　前記第３サブバンドおよび前記第４サブバンドを前記第２量子化部で量子化する前記第２サブバンドとして新たに選択し、前記総ビット数から前記第３のビット数および前記第４のビット数を減じたビット数を前記第１量子化部で量子化する前記第１サブバンドに配分する前記第１のビット数として決定する、
　請求項５に記載の音響信号符号化装置。
　前記トーナリティ計算部の分析結果は、トーナル性が所定の閾値より高いか否かを示すフラグとして出力される、
　請求項１に記載の音響信号符号化装置。
　音響信号符号化装置から出力された符号化情報を復号する音響信号復号装置であって、
　前記符号化情報を、第１符号化情報、第２符号化情報、サブバンド毎に求められたエネルギーが量子化された量子化サブバンドエネルギー、およびサブバンド毎に計算されるトーナル性の分析結果、に分離する分離部と、
　前記トーナル性の分析結果および前記量子化サブバンドエネルギーに基づき、前記サブバンドの中から第２復号部で復号する前記第２サブバンドを選択し、第１復号部で復号する第１サブバンドに配分される前記第１のビット数を決定するビット配分部と、
　前記第２復号部から出力されるスペクトルを時間領域に変換して出力音響信号を生成し出力する周波数時間変換部と、を備え、
　前記第１復号部は、前記第１符号化情報を、前記第１のビット数からなるビットを用いて復号することにより第１復号スペクトルを生成し、
　前記第２復号部は、前記第２符号化情報を復号して第２復号スペクトルを生成し、前記第２復号スペクトルと前記第１復号スペクトルを用いて復号することにより再生スペクトルを生成する、
　音響信号復号装置。
　請求項１に記載の音響信号符号化装置と、
　前記符号化情報を送信するアンテナと、
　を有する端末装置。
　請求項１に記載の音響信号符号化装置と、
　前記符号化情報を送信するアンテナと、
　を有する基地局装置。
　前記符号化情報を受信して前記分離部に出力するアンテナと、
　請求項８に記載の音響信号復号装置と、
　を有する端末装置。
　前記符号化情報を受信して前記分離部に出力するアンテナと、
　請求項８に記載の音響信号復号装置と、
　を有する基地局装置。
　入力音響信号を周波数領域に変換してスペクトルを生成し、
　前記スペクトルを所定の周波数帯域毎のサブバンドに分割してサブバンドスペクトルを出力し、
　前記サブバンド毎に量子化サブバンドエネルギーを求め、
　前記サブバンドスペクトルのトーナル性を分析して分析結果を出力し、
　前記トーナル性の分析結果および前記量子化サブバンドエネルギーに基づき、前記サブバンドの中から第２サブバンドを選択し、
　第１サブバンドに配分される第１のビット数を決定し、
　前記第１サブバンドに含まれる前記サブバンドスペクトルを、前記第１のビット数からなるビットを用いて符号化して第１符号化情報を生成し、
　前記第２サブバンドに含まれる前記サブバンドスペクトルを、ピッチフィルタを用いて符号化して第２符号化情報を生成し、
　前記第１符号化情報および前記第２符号化情報を多重化して出力する、
　音響信号符号化方法。
　音響信号符号化装置から出力された符号化情報を復号する音響信号復号方法であって、
　前記符号化情報を、第１符号化情報、第２符号化情報、サブバンド毎に求められたエネルギーが量子化された量子化サブバンドエネルギー、およびサブバンド毎に計算されるトーナル性の分析結果、に分離し、
　前記トーナル性の分析結果および前記量子化サブバンドエネルギーに基づき、前記サブバンドの中から第２サブバンドを選択し、
　第１サブバンドに配分される第１のビット数を決定し、
　前記第１符号化情報を、前記第１のビット数からなるビットを用いて復号して第１復号スペクトルを生成し、
　前記第２符号化情報を復号して第２復号スペクトルを生成し、前記第２復号スペクトルと前記第１復号スペクトルを用いて復号して再生スペクトルを生成し、
　前記再生スペクトルを時間領域に変換して出力音響信号を生成し出力する、
　音響信号復号方法。