JPWO2012144128A1

JPWO2012144128A1 - 音声音響符号化装置、音声音響復号装置、およびこれらの方法

Info

Publication number: JPWO2012144128A1
Application number: JP2013510856A
Authority: JP
Inventors: 河嶋　拓也; 拓也河嶋; 押切　正浩; 正浩押切
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2011-04-20
Filing date: 2012-03-19
Publication date: 2014-07-28
Anticipated expiration: 2032-03-19
Also published as: US20170076728A1; US10446159B2; US20130339012A1; US9536534B2; WO2012144128A1; JP5648123B2

Abstract

重要帯域を高精度に符号化することができるとともに、高音質化を可能にすることができる音声音響符号化装置。音声音響符号化装置（１００）は、線形予測係数を符号化する。重要帯域検出部（１０６）は、線形予測係数から聴感的に重要な帯域を特定する。符号化帯域再配置部（１０７）は、重要帯域検出部（１０６）により特定された重要な帯域を再配置する。ビット配分算出部（１０８）は、符号化帯域再配置部（１０７）により再配置された重要な帯域に基づいて符号化のビット配分を決定する。

Description

本発明は、音声信号及び／又は音響信号を符号化する音声音響符号化装置、符号化された信号を復号する音声音響復号装置、およびこれらの方法に関する。

音声を、低ビットレート及び高品質に圧縮できる方式として、ＣＥＬＰ(Code Excited Linear Prediction)がある。しかしながら、ＣＥＬＰは音声信号に対しては高効率に符号化できるが、音楽信号に対しては音質が低下してしまうという課題がある。この課題を解決するため、ＬＰＣ(Linear Prediction Coefficients)逆フィルタにより生成されるＬＰＣ残差信号を周波数領域に変換して符号化するＴＣＸ(Transform Coded Excitation)が提案されている（例えば、非特許文献１）。ＴＣＸでは、周波数領域に変換された変換係数を直接量子化するため、スペクトルの微細な形状を表すことができ、音楽信号に対して高音質化を図ることができる。このように、音楽信号を符号化する場合には、ＴＣＸのように周波数領域で符号化する手法が主流になっている。ここで、周波数領域で符号化される対象の信号をターゲット信号と呼ぶこととする。

非特許文献１では、ＴＣＸによる広帯域信号の符号化について述べており、入力信号をＬＰＣ逆フィルタに通し、ＬＰＣ残差信号を得て、ＬＰＣ残差信号から長期相関成分を除いた後で重み付け合成フィルタを通す。重み付け合成フィルタを通した信号を周波数領域に変換し、ＬＰＣ残差スペクトル信号を得る。ここで得たＬＰＣ残差スペクトル信号を周波数領域で符号化する。音楽信号の場合には、高域で時間的な相関性が高い傾向にあるため前フレームとの差分を一括してベクトル量子化により符号化する手法をとっている。

また、特許文献１では、ＡＣＥＬＰとＴＣＸを組み合わせた方式をベースに非特許文献１と同様に得たＬＰＣ残差スペクトル信号に対して、低周波数を強調して符号化する方法を提案している。ターゲットベクトルを８サンプル毎のサブバンドに区切り、サブバンド毎の利得と周波数形状の符号化を行っている。利得は、最大エネルギーのサブバンドに多くのビットを割り当てるが、最大サブバンドよりも低域側のサブバンドに対してビット割り当てが少なくなりすぎないようにすることで全体の音質を向上させている。周波数形状に関しては、格子ベクトル量子化により符号化している。

非特許文献１では、ターゲット信号に対して前フレームとの相関性を利用して情報量の圧縮を図った上で、振幅の大きい順にビットを割り当てている。特許文献１では、８サンプル毎にサブバンドを区切り、特に低域側に十分にビットが割り当たるように配慮しつつエネルギーの大きいサブバンドにビットを多く割り当てている。

特表２００７−５２５７０７号公報

R.Lefebvre, R.Salami, C.Laflamme, J.P.Adoul,"Highquality coding of wideband audio signals using transform coded excitation(TCX)", Proc. ICASSP 1994, pp.I-193 - I-196,1994年

しかしながら、従来の方式においては、ターゲット信号のみに着目し振幅の大きい周波数の振幅を高精度で符号化するので、復号信号で考えた場合、必ずしも聴感的に重要な帯域の符号化精度が上がらないという問題がある。また、どの帯域にどの程度ビットを割り当てたかの付加情報が必要になるという問題がある。

本発明の目的は、聴感的に重要な帯域を、符号化単位であるサブバンドとは独立して自由に特定し、前記重要な帯域に含まれるスペクトル（または変換係数）を再配置することにより、聴感的に重要ではない帯域の影響を受けずに重要帯域を高精度に符号化し、高音質化を可能にする音声音響符号化装置、音声音響復号装置を提供することである。

本発明の音声音響符号化装置は、線形予測係数を符号化する音声音響符号化装置であって、前記線形予測係数から聴感的に重要な帯域を特定する特定手段と、特定された前記重要な帯域を再配置する再配置手段と、再配置された前記重要な帯域に基づいて符号化のビット配分を決定する決定手段と、を有する構成を採る。

本発明の音声音響復号装置は、聴感的に重要な帯域を再配置するとともに、再配置された前記重要な帯域に基づいて符号化のビット配分を決定する際に、前記重要な帯域を特定する線形予測係数を符号化した線形予測係数符号化データを取得する取得手段と、取得された前記線形予測係数符号化データを復号して得た前記線形予測係数から前記重要な帯域を特定する特定手段と、特定された前記重要な帯域の配置を再配置される前の配置に戻す再配置手段と、を有する構成を採る。

本発明の音声音響符号化方法は、線形予測係数を符号化する音声音響符号化装置における音声音響符号化方法であって、前記線形予測係数から聴感的に重要な帯域を特定するステップと、特定された前記重要な帯域を再配置するステップと、再配置された前記重要な帯域に基づいて符号化のビット配分を決定するステップと、を有するようにした。

本発明の音声音響復号方法は、聴感的に重要な帯域を再配置するとともに、再配置された前記重要な帯域に基づいて符号化のビット配分を決定する際に、前記重要な帯域を特定する線形予測係数を符号化した線形予測係数符号化データを取得するステップと、取得された前記線形予測係数符号化データを復号して得た前記線形予測係数から前記重要な帯域を特定するステップと、特定された前記重要な帯域の配置を再配置される前の配置に戻すステップと、を有するようにした。

本発明によれば、重要帯域を高精度に符号化することができるとともに、高音質化を可能にすることができる。

本発明の実施の形態１に係る音声音響符号化装置の構成を示すブロック図本発明の実施の形態１における重要帯域の抽出を示す図本発明の実施の形態１における重要帯域の再配置を示す図本発明の実施の形態１における音声音響復号装置の構成を示すブロック図本発明の実施の形態１の変形例に係る音声音響符号化装置の構成を示すブロック図本発明の実施の形態１の変形例における音声音響復号装置の構成を示すブロック図本発明の実施の形態２に係る音声音響符号化装置の構成を示すブロック図本発明の実施の形態２における音声音響復号装置の構成を示すブロック図従来の方式における課題を示す図本発明の実施の形態３における再配置後の符号化の様子を示す図本発明の実施の形態３における音声音響復号装置における再配置処理の復号結果を示す図

本発明は、音声音響符号化装置と音声音響復号装置の両者で参照可能な量子化された線形予測係数を用いて、聴感的に重要な帯域を、符号化単位であるサブバンドとは独立して自由に特定し、前記重要な帯域に含まれるスペクトル（または変換係数）を再配置する。これにより、聴感的に重要ではない帯域に影響を受けることなくビット配分を決定することができる。また、これにより、聴感的に重要な帯域に含まれるスペクトル（または変換係数）の周波数振幅及び利得等の符号化を行うことできる。すなわち、この発明により、重要帯域を高精度に符号化することが可能となり、高音質化が可能になる。

たとえば、符号化データの一つである線形予測係数から重要帯域を特定し、重要帯域を集約したうえでビット配分を決定することにより、聴感的に重要な周波数に多くのビットが配分されるような適切なビット配分にすることができる。また、符号化の処理単位であるサブバンド幅またはビット配分があらかじめ固定されている従来技術に対して、聴感上重要な帯域を前記処理単位となるサブバンドとは独立に自由に特定し、特定された帯域に含まれるスペクトル（または変換係数）を集約してから高いビットレートで符号化を行うことで、聴感上重要な帯域を高精度に符号化することが可能となり、高音質化を図ることができる。さらに、線形予測係数を用いて重要帯域の特定またはビット割り当てを算出できるため付加情報が不要となり、その分をターゲット信号の符号化に使うことができるため、復号信号の主観品質を向上させることができる。

本発明の音声音響符号化装置及び音声音響復号装置は、基地局装置または端末装置に各々適用することができる。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。なお、本発明に係る音声音響符号化装置の入力信号および音声音響復号装置の出力信号は、音声信号、楽音信号、及び、これらが混在した信号、のいずれでもよい。

（実施の形態１）
＜音声音響符号化装置の構成＞
図１は、本発明の実施の形態１に係る音声音響符号化装置１００の構成を示すブロック図である。

図１に示すように、音響信号符号化装置１００は、線形予測分析部１０１、線形予測係数符号化部１０２、ＬＰＣ逆フィルタ部１０３、時間-周波数変換部１０４、サブバンド分割部１０５、重要帯域検出部１０６、符号化帯域再配置部１０７、ビット配分算出部１０８、音源符号化部１０９及び多重化部１１０より構成される。

線形予測分析部１０１は、入力信号が入力され、線形予測分析を行い、線形予測係数を算出する。線形予測分析部１０１は、線形予測係数を線形予測係数符号化部１０２に出力する。

線形予測係数符号化部１０２は、線形予測分析部１０１より出力される線形予測係数が入力され、線形予測係数符号化データを多重化部１１０に出力する。また、線形予測係数符号化部１０２は、線形予測係数符号化データを復号して得られる復号線形予測係数をＬＰＣ逆フィルタ部１０３と重要帯域検出部１０６とに出力する。線形予測係数は、一般的にはそのまま符号化されることはなく、反射係数、ＰＡＲＣＯＲ、ＬＳＰまたはＩＳＰ等のパラメータに変換を行ったうえで符号化されるのが一般的である。

ＬＰＣ逆フィルタ部１０３は、入力信号と線形予測係数符号化部１０２より出力される復号線形予測係数とが入力され、ＬＰＣ残差信号を時間―周波数変換部１０４に出力する。ＬＰＣ逆フィルタ部１０３は、入力された復号線形予測係数によりＬＰＣ逆フィルタを構成し、入力信号をＬＰＣ逆フィルタに通すことで入力信号のスペクトル包絡を取り除き、周波数特性的が平坦化されたＬＰＣ残差信号を得る。

時間―周波数変換部１０４は、ＬＰＣ逆フィルタ部１０３より出力されるＬＰＣ残差信号が入力され、周波数領域に変換して得られるＬＰＣ残差スペクトル信号をサブバンド分割部１０５に出力する。周波数領域に変換する方法として、ＤＦＴ(Discrete Fourier Transform)、ＦＦＴ(Fast Fourier Transform)、ＤＣＴ(Discrete Cosine Transform)またはＭＤＣＴ(Modified Discrete Cosine Transform)等がある。

サブバンド分割部１０５は、時間−周波数変換部１０４より出力されるＬＰＣ残差スペクトル信号が入力され、残差スペクトル信号をサブバンドに分割して符号化帯域再配置部１０７に出力する。サブバンドの帯域幅は、低域では狭く、高域では広くとるのが一般的であるが、音源符号化部で用いられる符号化方式にも依存するため、全て同じ長さのサブバンド幅で区切られる場合もある。ここでは、低域から順次サブバンドを区切っていくものとし、サブバンド幅も高域ほど長くなるものとする。

重要帯域検出部１０６は、線形予測係数符号化部１０２より出力される復号線形予測係数が入力され、そこから重要帯域を算出し、その情報を重要帯域情報として符号化帯域再配置部１０７に出力する。詳細は後述する。

符号化帯域再配置部１０７は、サブバンド分割部１０５より出力されるサブバンドに分割されたＬＰＣ残差スペクトル信号と、重要帯域検出部１０６より出力される重要帯域情報が入力される。符号化帯域再配置部１０７は、重要帯域情報に基づいて、サブバンドに分割されたＬＰＣ残差スペクトル信号を並べ替え、再配置サブバンド信号としてビット配分算出部１０８と音源符号化部１０９とに出力する。詳細は後述する。

ビット配分算出部１０８は、符号化帯域再配置部１０７より出力される再配置サブバンド信号が入力され、各サブバンドに配分する符号化ビット数を算出する。ビット配分算出部１０８は、算出した符号化ビット数をビット配分情報として音源符号化部１０９に出力し、さらにビット配分情報を復号装置へ送信するために符号化し、ビット配分符号化データとして多重化部１１０に出力する。具体的には、ビット配分算出部１０８は、再配置サブバンド信号のサブバンド毎に１周波数当たりのエネルギーを算出し、各サブバンドの対数エネルギー比でビットを分配する。

音源符号化部１０９は、符号化帯域再配置部１０７より出力される再配置サブバンド信号と、ビット配分算出部１０８より出力されるビット配分情報とが入力され、サブバンド毎に配分された符号化ビット量を使って再配置サブバンド信号を符号化し、音源符号化データとして多重化部１１０に出力する。符号化は、ベクトル量子化、ＡＶＱ(Algebraic Vector Quantization)、またはＦＰＣ(Factorial Pulse Coding)等を用いてスペクトル形状や利得を符号化する。一般的には、振幅の大きい周波数が符号化対象となるように符号化され、使えるビットが多い程符号化対象となる周波数が増え、利得の精度を向上させることができる。

多重化部１１０は、線形予測係数符号化部１０２より出力される線形予測係数符号化データと、音源符号化部１０９より出力される音源符号化データと、ビット配分算出部１０８より出力されるビット配分符号化データとが入力され、これらのデータを多重化して符号化データとして出力する。

＜重要帯域検出部における処理＞
重要帯域検出部１０６は、入力信号において聴感的に重要な帯域を検出するのが目的である。ＬＰＣを符号化する音声符号化方式であればＬＰＣから概ね重要な帯域が算出できるため、本発明では線形予測係数からのみ算出する方法で説明する。符号化した線形予測係数を復号した復号線形予測係数を用いれば、符号化装置で算出した重要帯域が復号装置でも同様に得ることができる。

まず、線形予測係数から、ＬＰＣ包絡を得る。ＬＰＣ包絡は入力信号のおおよそのスペクトル包絡を表しており、形状的に鋭いピークを構成している部分は聴感的に非常に重要である。このようなピークは次のようにすれば取得できる。周波数軸方向にＬＰＣ包絡の移動平均をとり、調整のためのオフセットを加えて移動平均線を得る。このように求めた移動平均線をＬＰＣ包絡が超える部分をピーク部として検出することで、重要帯域を抽出することが可能となる。

図２は、重要帯域の抽出を示す図である。図２において、横軸は周波数を示し、縦軸はスペクトルのパワーを示す。細実線はＬＰＣ包絡を表し、太実線は移動平均線を表す。図２では、Ｐ１からＰ５の区間で、ＬＰＣ包絡が移動平均線を上回っており、この区間を重要帯域として検出したことを示している。重要帯域以外の区間を低域側からＮＰ１からＮＰ６で表している。なお、残差スペクトル信号は、サブバンド分割部１０５によって低域側からサブバンドＳ１からサブバンドＳ５まで分割されているものとし、この例では低域側ほど狭い帯域になっている。

＜符号化帯域再配置部における処理＞
重要帯域検出部１０６において重要帯域が検出された場合には、重要帯域とされた帯域を低域から詰めて配置し、その後、重要帯域検出部１０６において重要帯域と判定されなかった帯域を低域から詰めて配置する。

上記の処理を図２及び図３を用いて説明する。図３は、重要帯域の再配置を示す図である。図３において、横軸は周波数を示し、縦軸はスペクトルパワーを示し、符号化帯域再配置部１０７によって再配置されたことを示している。

重要帯域検出部１０６によって図２のようにＰ１〜Ｐ５までの重要帯域が検出された場合、図３に示すように低域側に重要帯域をＰ１からＰ５の順に再配置していく。検出された重要帯域を再配置し終えると、その高域側に重要帯域に判定されなかった帯域をＮＰ１からＮＰ６を低域側から再配置していく。ここで、重要帯域は、図２に示すように、ＬＰＣ包絡のスペクトルパワーが移動平均線のスペクトルパワーよりも大きい（ＬＰＣ包絡のスペクトルパワー＞移動平均線のスペクトルパワー）帯域Ｐ１〜Ｐ５である。

＜ビット配分算出部における処理＞
図２のサブバンドＳ１を例に考える。サブバンドＳ１では、重要帯域Ｐ１の一部が含まれている。サブバンドＳ１への符号化ビットは、このサブバンド全体のエネルギーに従って配分されるものとすると、重要帯域Ｐ１以外の帯域のエネルギーは必ずしも高くないため、サブバンドＳ１へは十分なビットが割り当てられない。

一方、符号化帯域再配置部１０７によって、重要帯域が再配置された配置サブバンド信号におけるビット配分を考える。図３に示すように、重要帯域を低域側に集約していることからサブバンドＳ１には重要帯域Ｐ１と重要帯域Ｐ２の一部が含まれている。この例から明らかなように、サブバンドＳ１には重要帯域しか含まれないため、聴感的に重要ではない帯域に影響されることなく適切なビット数を算出することができる。

＜音声音響復号装置の構成＞
図４は、本発明の実施の形態１における音声音響復号装置４００の構成を示すブロック図である。音声音響復号装置４００は、分離部４０１、線形予測係数復号部４０２、重要帯域検出部４０３、ビット配分復号部４０４、音源復号部４０５、復号帯域再配置部４０６、周波数―時間変換部４０７及びＬＰＣ合成フィルタ部４０８より構成される。

分離部４０１は、音声音響符号化装置１００より符号化データを受信し、線形予測係数符号化データを線形予測係数復号部４０２に出力し、ビット配分符号化データをビット配分復号部４０４に出力し、音源符号化データを音源復号部４０５に出力する。

線形予測係数復号部４０２は、分離部４０１より出力された線形予測係数符号化データが入力され、線形予測係数符号化データを復号して得られた復号線形予測係数を、重要帯域検出部４０３とＬＰＣ合成フィルタ部４０８とに出力する。

重要帯域検出部４０３は、音声音響符号化装置１００の重要帯域検出部１０６と同一である。重要帯域検出部４０３は、入力される復号線形予測係数も重要帯域検出部１０６と同一であるため、得られる重要帯域情報も重要帯域検出部１０６と同一である。

ビット配分復号部４０４は、分離部４０１より出力されるビット配分符号化データが入力され、ビット配分符号化データを復号して得られたビット配分情報を音源復号部４０５に出力する。ビット配分情報は、サブバンド毎に符号化に使用したビット数を示す情報である。

音源復号部４０５は、分離部４０１より出力された音源符号化データと、ビット配分復号部４０４より出力されたビット配分情報とが入力され、サブバンド毎に符号化ビット数をビット配分情報に従って確定し、その情報を使ってサブバンド毎に音源符号化データを復号し、再配置サブバンド信号を得る。音源復号部４０５は、得られた再配置サブバンド信号を復号帯域再配置部４０６に出力する。

復号帯域再配置部４０６は、音源復号部４０５より出力された再配置サブバンド信号と、重要帯域検出部４０３より出力された重要帯域情報とが入力され、再配置サブバンド信号の最も低域の信号を、検出された最も低域側の重要帯域の位置に戻す処理を行う。復号帯域再配置部４０６は、高域側にさらに重要帯域がある場合は、順次低域側の再配置サブバンド信号を検出された重要帯域に戻す処理を行っていく。復号帯域再配置部４０６は、重要帯域における処理が完了したら、重要帯域と判定されなかった再配置サブバンド信号を、順次重要帯域以外の帯域に低域側から移していく。復号帯域再配置部４０６は、以上の動作によって復号スペクトルを得ることができ、得た復号スペクトルを復号ＬＰＣ残差スペクトル信号として周波数−時間変換部４０７に出力する。

周波数―時間変換部４０７は、復号帯域再配置部４０６より出力された復号ＬＰＣ残差スペクトル信号が入力され、入力した復号ＬＰＣ残差スペクトル信号を時間領域の信号に変換して、復号ＬＰＣ残差信号を得る。この処理は、音声音響符号化装置１００の時間―周波数変換部１０４の逆変換を行う。周波数−時間変換部４０７は、得られた復号ＬＰＣ残差信号をＬＰＣ合成フィルタ部４０８に出力する。

ＬＰＣ合成フィルタ部４０８は、線形予測係数復号部４０２より出力された復号線形予測係数と、周波数−時間変換部４０７より出力された復号ＬＰＣ残差信号とが入力され、復号線形予測係数により、ＬＰＣ合成フィルタを構成し、そのフィルタに復号ＬＰＣ残差信号を入力することで復号信号を得ることができる。ＬＰＣ合成フィルタ部４０８は、得られた復号信号を出力する。

以上の音声音響符号化装置及び音声音響復号装置の構成及び動作により、入力信号の聴感上重要帯域に着目し、非重要帯域の影響を受けることなく重要帯域の最適なビット配分を算出できるため、音源の符号化ビット数が同じ場合であってもより良好な音質を実現できる。

＜本実施の形態の効果＞
このように、本実施の形態によれば、聴感的に重要な帯域のみでビット配分を行うため、聴感的に重要な帯域内の個々の周波数に配分するビットを増やすことができることから、聴感的に重要な周波数成分を高精度に符号化することができ、主観品質を向上させることができる。

また、本実施の形態によれば、符号化の処理単位であるサブバンド幅やビット配分があらかじめ固定されている従来技術に対して、聴感上重要な帯域を前記処理単位となるサブバンドとは独立に自由に特定し、特定された帯域に含まれるスペクトル（または変換係数）を集約してから高いビットレートで符号化を行うことで、聴感上重要な帯域を高精度に符号化することが可能となり、高音質化を図ることができる。

また、本実施の形態によれば、線形予測係数を用いて重要帯域の特定やビット割り当てを算出できるため付加情報が不必要となり、その分をターゲット信号の符号化に使うことができるため復号信号の主観品質を向上させることができる。

＜実施の形態１の変形例＞
上記の説明では、重要帯域を集約したうえで、再配置サブバンド信号からビット配分を決定したが、この場合ビット配分情報を符号化して音声音響復号装置４００側で送信する必要がある。しかしながら、ＬＰＣ包絡自体が入力信号の大まかなスペクトルのエネルギー分布を示すものと考えられることから、ＬＰＣ包絡からビット配分を決定することも妥当な方法であると考えられる。ＬＰＣ包絡からビット配分を直接決定することで、ビット配分情報を符号化して送信することなく音声音響符号化装置１００と音声音響復号装置４００とでビット配分情報を共有することが可能になる。

図５は、本実施の形態の変形例に係る音声音響符号化装置５００の構成を示すブロック図である。

図５に示す音声音響符号化装置５００は、図１に示す音声音響符号化装置１００に対して、ビット配分算出部１０８の代わりにビット配分算出部５０１を有する。なお、図５において、図１と同一構成である部分には同一の符号を付してその説明を省略する。

線形予測係数符号化部１０２は、線形予測係数符号化データを復号して得られる復号線形予測係数をＬＰＣ逆フィルタ部１０３と重要帯域検出部１０６とビット配分算出部５０１とに出力する。なお、線形予測係数符号化部１０２における他の構成及び処理は上記で説明したものと同一であるので、その説明を省略する。

ビット配分算出部５０１は、線形予測係数符号化部１０２より出力される復号線形予測係数が入力され、復号線形予測係数からビット配分を算出する。ビット配分算出部５０１は、算出したビット配分をビット配分情報として音源符号化部１０９に出力する。

音源符号化部１０９は、符号化帯域再配置部１０７より出力される再配置サブバンド信号と、ビット配分算出部５０１より出力されるビット配分情報とが入力され、サブバンド毎に配分された符号化ビット量を使って再配置サブバンド信号を符号化し、音源符号化データとして多重化部１１０に出力する。

多重化部１１０は、線形予測係数符号化部１０２より出力される線形予測係数符号化データと、音源符号化部１０９より出力される音源符号化データとが入力され、これらのデータを多重化して符号化データとして出力する。

このように、本実施の形態の変形例では、ビット配分算出部５０１の入力信号が重要帯域情報から復号線形予測係数に代わり、復号線形予測係数からビット配分を算出する。ここで算出したビット配分情報は、図１と同様に音源符号化部１０９に出力されるが、ビット配分情報は音声音響復号装置に送る必要が無いため、ビット配分情報を符号化する必要が無い。

図６は、本実施の形態の変形例における音声音響復号装置６００の構成を示すブロック図である。図６に示す音声音響復号装置６００は、図４に示す音声音響復号装置４００に対して、ビット配分復号部４０４を除き、ビット配分算出部６０１を追加する。なお、図６において、図４と同一構成である部分には同一の符号を付してその説明を省略する。

分離部４０１は、音声音響符号化装置５００からの符号化データを受信し、線形予測係数符号化データを線形予測係数復号部４０２に出力し、音源符号化データを音源復号部４０５に出力する。

線形予測係数復号部４０２は、分離部４０１より出力された線形予測係数符号化データが入力され、線形予測係数符号化データを復号して得られた復号線形予測係数を、重要帯域検出部４０３と、ＬＰＣ合成フィルタ部４０８と、ビット配分算出部６０１とに出力する。

ビット配分算出部６０１は、線形予測係数復号部４０２より出力される復号線形予測係数が入力され、復号線形予測係数からビット配分を算出する。ビット配分算出部６０１は、算出したビット配分をビット配分情報として音源復号部４０５に出力する。ビット配分算出部６０１は、音声音響符号化装置５００のビット配分算出部５０１と同一の入力信号を用いて同一の動作をするため、音声音響符号化装置５００と同一のビット配分情報を得ることができる。

このような構成にすることで、ビット配分情報を符号化して送信する必要がなくなるため、ビット配分に当てていた情報量を音源の周波数形状や利得の符号化に当てることが可能となるため、より高音質な符号化を行うことができる。

（実施の形態２）
本実施の形態では、サブバンド毎のビット配分があらかじめ規定されている場合について説明する。ビット配分情報を符号化して送信する程にはビットレートが十分に高くない場合に、ビット配分をあらかじめ規定しておく。この場合、低域にビットを多く配分し、高域のビット配分は少なくする。

＜音声音響符号化装置の構成＞
図７は、本発明の実施の形態２に係る音声音響符号化装置７００の構成を示すブロック図である。

図７に示す音声音響符号化装置７００は、図１に示す実施の形態１に係る音声音響符号化装置１００に対して、ビット配分算出部１０８を除く。なお、図７において、図１と同一構成である部分には同一の符号を付してその説明を省略する。

符号化帯域再配置部１０７は、サブバンド分割部１０５より出力されるサブバンドに分割されたＬＰＣ残差スペクトル信号と、重要帯域検出部１０６より出力される重要帯域情報とが入力される。符号化帯域再配置部１０７は、重要帯域情報に基づいて、サブバンドに分割されたＬＰＣ残差スペクトル信号を並べ替え、再配置サブバンド信号として音源符号化部１０９に出力する。具体的には、符号化帯域再配置部１０７は、重要帯域検出部１０６によって検出された重要帯域を、最低域部から詰めて再配置する。この場合、低域程ビットを多く配分しているので、重要帯域の中でも、低域のもの程符号化の際に多くの符号化ビットが割り当てられる可能性が高まる。

音源符号化部１０９は、符号化帯域再配置部１０７より出力される再配置サブバンド信号が入力され、あらかじめ規定されているサブバンド毎のビット配分を使って再配置サブバンド信号を符号化し、音源符号化データとして多重化部１１０に出力する。

＜音声音響復号装置の構成＞
図８に示す音声音響復号装置８００は、図４に示す実施の形態１に係る音声音響復号装置４００に対して、ビット配分復号部４０４を除く。なお、図８において、図４と同一構成である部分には同一の符号を付してその説明を省略する。

分離部４０１は、音声音響符号化データ７００より符号化データを受信し、線形予測係数符号化データを線形予測係数復号部４０２に出力し、音源符号化データを音源復号部４０５に出力する。

音源復号部４０５は、分離部４０１より出力された音源符号化データが入力され、サブバンド毎に符号化ビット数を、あらかじめ規定されているサブバンド毎のビット配分に従って確定し、その情報を使ってサブバンド毎に音源符号化データを復号し、再配置サブバンド信号を得る。

＜本実施の形態の効果＞
このように、本実施の形態によれば、上記の実施の形態１の効果に加えて、聴感的に重要な帯域のみで符号化対象である、聴感的に重要な周波数成分を高精度に符号化することが可能となり、主観品質を向上させることができる。

また、本実施の形態によれば、低域以外に聴感的に重要なエネルギーが分布している信号であっても音源の周波数形状や利得をより精細に符号化することができ、復号信号の高音質化を図ることができる。

また、本実施の形態によれば、ビット配分情報に割り当てる符号化ビットを音源の周波数形状や利得の符号化に使うことができる。

（実施の形態３）
本実施の形態では、符号化帯域再配置部１０７における上記の実施の形態１及び実施の形態２とは異なる動作について説明する。本実施の形態は、ビットレートが低くサブバンドの一部の信号しか符号化できないため、限られたビットしか各サブバンドに配分されないケースを改善するものである。サブバンド幅は固定であり、各サブバンドに配分する符号化ビットはあらかじめ規定されている場合を例に説明する。

なお、本実施の形態において、音声音響符号化装置は図１と同一構成であり、音声音響復号装置は図４と同一構成であるので、その説明を省略する。

図９は、従来の方式における課題を示す図である。図９において、横軸は周波数を示し、縦軸はスペクトルパワーを示し、黒細実線はＬＰＣ包絡を示す。

高域側のサブバンドとして、Ｓ６、Ｓ７が設定されている。Ｓ６、Ｓ７には、２本のスペクトルのみを表現できるだけの符号化ビットしか割り当てていないとする。Ｓ６には重要帯域Ｐ６、Ｐ７が検出され、Ｓ７には重要帯域は検出されないとし、Ｓ７でパワーの大きい周波数はＳ７内の最低域の２本の周波数であるとする。Ｓ６で検出されたＰ６とＰ７における周波数のパワーにおいて、Ｐ６内にある周波数２本のパワーがＰ７内の最も大きな周波数パワーよりも大きいものとする。

この場合、従来の方式では、Ｓ６においてはＰ６の２本のスペクトルが符号化され、Ｐ７のスペクトルは符号化されない。Ｓ７においては、最低域にある２本のスペクトルが符号化される。このように一つの符号化単位であるサブバンド内に重要帯域が複数ある場合、十分に符号化できない可能性がある。

上記を解決するため、符号化帯域再配置部１０７は、符号化単位であるサブバンド内に所定数の重要帯域しか存在しないように再配置を行う。符号化帯域再配置部１０７は、符号化に使えるビット数から表現可能な周波数の数を推定し、重要帯域が複数あるために表現しきれないと判断した場合には、高域側の重要帯域を、より高域側のサブバンドに移すようにする。手順を以下に示す。

まず、サブバンドＳ（ｎ）の割り当てビットから符号化が可能な重要帯域の数を推測する。Ｓはサブバンドに分割されたスペクトルを表し、ｎは低域側から増分するサブバンド番号を表すものとする。

次に、サブバンドＳ（ｎ）において重要帯域がＳｐ（ｎ）個検出されるとする。

この際、Ｓｐ（ｎ）＜＝Ｓｐｐ（ｎ）の場合は、Ｓ（ｎ）を符号化する。ここで、Ｓｐｐ（ｎ）はサブバンドＳ（ｎ）において符号化が可能な重要帯域の数を表す。

一方、符号化帯域再配置部１０７は、Ｓｐ（ｎ）＞Ｓｐｐ（ｎ）の場合は、重要帯域の再配置処理を行う。

具体的には、符号化帯域再配置部１０７は、Ｓｐ（ｎ）からＳｐｐ（ｎ）を減じた数の重要帯域をＳ（ｎ＋１）に再配置する。その際、符号化帯域再配置部１０７は、Ｓ（ｎ＋１）において、再配置する重要帯域と同一幅において、最もエネルギーが少ない帯域と交換する。簡略化のため、Ｓ（ｎ）の最高帯域と交換するようにしても良い。

このように、重要帯域を再配置してから再配置サブバンド信号を符号化する。上記処理を、重要帯域が検出されるサブバンドが存在するまで繰り返す。

図１０Ａは、再配置後の符号化の様子を示す図である。図１０Ｂは、音声音響復号装置における再配置処理の復号結果を示す図である。

前述したように、Ｓ６においては重要帯域Ｐ６とＰ７の２つが検出され、Ｓ７においては重要帯域が検出されていない。本実施の形態では、Ｐ７はＰ６よりも高域側にあるので、Ｓ７への再配置対象になる。Ｓ７ではＮＰ７の帯域が最もエネルギーが低い帯域であるので、ＮＰ７とＰ７の区間を入れ替える。Ｓ７のＮＰ７の帯域にＰ７が再配置されてＰ７’になる。一方、Ｓ７のＮＰ７はＳ６に移ってＮＰ７’になる。この結果、再配置後のＳ６では重要帯域が一つしかないため、Ｐ６が符号化される。次に、Ｓ７の再配置処理を行う。Ｓ７では、Ｓ６から再配置されたＰ７’のみが重要帯域として存在しているため、Ｐ７’の符号化を行う。

図１０Ｂの配置は、図１０ＡのＮＰ７’とＰ７’の位置を重要帯域情報に基いて戻すことで実現できる。よって、再配置処理を行うことにより、重要帯域であるＰ６とＰ７を符号化することができる。

以上の動作より、一つのサブバンド内に複数の重要帯域があって十分に符号化できなかった場合においても、重要帯域の再配置を行うことにより、より多くの重要帯域を符号化できるようになる。

このように、本実施の形態では、ビットレートが低くサブバンドの一部の信号しか符号化できないため、限られたビットしか各サブバンドに配分されない場合でも、一つのサブバンドに重要帯域が一定数以下になるようにターゲット信号を再配置する。これにより、本実施の形態によれば、上記の実施の形態１の効果に加えて、聴感的に重要な周波数成分が符号化対象に選択されやすくなり、主観品質を向上させることができる。

＜実施の形態３の変形例＞
本実施の形態において、あるサブバンドに複数の重要帯域があり、十分に符号化できないと推定される場合に高域側の重要帯域を、より高帯域側のサブバンドに再配置したが、本発明はこれに限らず、よりエネルギーの少ない重要帯域をより高域のサブバンドに再配置するようにしてもよい。また、同様の状況において、低域側の重要帯域もしくはよりエネルギーの大きい重要帯域を、低域側のサブバンドに再配置するようにしても良い。また、必ずしも再配置するサブバンドが隣り合っている必要は無い。

＜実施の形態１〜実施の形態３に共通の変形例＞
上記の実施の形態１〜実施の形態３において、重要帯域を同じ重要度で扱ったが、本発明はこれに限らず、重要帯域に重み付けをしてもよい。たとえば、最重要帯域は実施の形態１に示したように最低域側に集約し、次に重要な重要帯域は実施の形態３で示したように一つのサブバンドに一つの重要帯域が含まれるように再配置するようにしても良い。重要度の程度は、入力信号若しくはＬＰＣ包絡で計算してもよく、または音源スペクトル信号の当該区間のエネルギーで計算してもよい。また、例えば４ｋＨｚ未満の重要帯域を最重要に、４ｋＨｚ以上の重要帯域をそれよりも重要度を低下するようにしてもよい。

また、上記の実施の形態１〜実施の形態３において、ＬＰＣ包絡の移動平均よりも大きい帯域を重要帯域として検出したが、本発明はこれに限らず、ＬＰＣ包絡と移動平均との差異等を使って重要帯域の幅や重要度を適応的に決めるようにしても良い。例えば、ＬＰＣ包絡と移動平均との差異が少ない帯域の重要度を一段低くしたり、需要帯域の幅を狭くする、というように適応的に決定するようにしてもよい。

また、上記の実施の形態１〜実施の形態３において、線形予測係数からＬＰＣ包絡を求め、そのエネルギー分布によって重要帯域を算出したが、本発明はこれに限らず、ＬＳＰまたはＩＳＰには近接する係数間の距離が短い程その帯域におけるエネルギーが大きい傾向にあることから、係数間の距離が短い帯域を重要帯域として直接求めてもよい。

また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連携においてソフトウェアでも実現することも可能である。

また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル／プロセッサを利用してもよい。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

２０１１年４月２０日出願の特願２０１１−９４４４６の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。

本発明は、音声信号及び／又は音楽信号の符号化、復号を行う符号化装置、復号装置等として有用である。

１００音声音響符号化装置
１０１線形予測分析部
１０２線形予測係数符号化部
１０３ＬＰＣ逆フィルタ部
１０４時間−周波数変換部
１０５サブバンド分割部
１０６重要帯域検出部
１０７符号化帯域再配置部
１０８ビット配分算出部
１０９音源符号化部
１１０多重化部

また、特許文献１では、ＡＣＥＬＰとＴＣＸを組み合わせた方式をベースに非特許文献１と同様に得たＬＰＣ残差スペクトル信号に対して、低周波数を強調して符号化する方法を提案している。ターゲットベクトルを８サンプル毎のサブバンドに区切り、サブバンド毎にスペクトルの形状と利得を符号化している。利得は、最大エネルギーのサブバンドに多くのビットを割り当てるが、最大サブバンドよりも低域側のサブバンドに対してビット割り当てが少なくなりすぎないようにすることで全体の音質を向上させている。スペクトルの形状に関しては、格子ベクトル量子化により符号化している。

本発明の音声音響復号装置は、聴感的に重要な帯域を特定するために用いられる線形予測係数を符号化した線形予測係数符号化データを取得する取得手段と、取得された前記線形予測係数符号化データを復号して得た前記線形予測係数から前記重要な帯域を特定する特定手段と、サブバンド毎に符号化に使用したビット数を示すビット配分情報を使ってサブバンド毎に音源符号化データを復号し、再配置サブバンド信号を得る復号手段と、特定された前記重要な帯域の再配置サブバンド信号を再配置される前の配置に戻す再配置手段と、を有する構成を採る。

本発明の音声音響復号方法は、聴感的に重要な帯域を特定するために用いられる線形予測係数を符号化した線形予測係数符号化データを取得するステップと、取得された前記線形予測係数符号化データを復号して得た前記線形予測係数から前記重要な帯域を特定するステップと、サブバンド毎に符号化に使用したビット数を示すビット配分情報を使ってサブバンド毎に音源符号化データを復号し、再配置サブバンド信号を得るステップと、特定された前記重要な帯域の再配置サブバンド信号を再配置される前の配置に戻すステップと、を有するようにした。

本発明は、音声音響符号化装置と音声音響復号装置の両者で参照可能な量子化された線形予測係数を用いて、聴感的に重要な帯域を、符号化単位であるサブバンドとは独立して自由に特定し、前記重要な帯域に含まれるスペクトル（または変換係数）を再配置する。これにより、聴感的に重要ではない帯域に影響を受けることなくビット配分を決定することができる。また、これにより、聴感的に重要な帯域に含まれるスペクトル（または変換係数）の形状及び利得等の符号化を行うことできる。すなわち、この発明により、重要帯域を高精度に符号化することが可能となり、高音質化が可能になる。

たとえば、符号化データの一つである線形予測係数から重要帯域を特定し、重要帯域を集約したうえでビット配分を決定することにより、聴感的に重要な周波数に多くのビットが配分されるような適切なビット配分にすることができる。また、符号化の処理単位であるサブバンド幅またはビット配分があらかじめ固定されている従来技術に対して、聴感上重要な帯域を前記処理単位となるサブバンドとは独立に自由に特定し、特定された帯域に含まれるスペクトル（または変換係数）を集約してから高いビットレートで符号化を行うことで、聴感上重要な帯域を高精度に符号化することが可能となり、高音質化を図ることができる。さらに、線形予測係数を用いて重要帯域の特定またはビット割り当ての算出をすることができるため、どの帯域にどの程度ビットを割り当てたかの付加情報が不要となり、その分をターゲット信号の符号化に使うことができるため、復号信号の主観品質を向上させることができる。

また、本実施の形態によれば、線形予測係数を用いて重要帯域の特定またはビット割り当ての算出をすることができるため、どの帯域にどの程度ビットを割り当てたかの付加情報が不必要となり、その分をターゲット信号の符号化に使うことができるため復号信号の主観品質を向上させることができる。

このような構成にすることで、ビット配分情報を符号化して送信する必要がなくなるため、ビット配分に当てていた情報量を音源のスペクトルの形状や利得の符号化に当てることが可能となるため、より高音質な符号化を行うことができる。

また、本実施の形態によれば、低域以外に聴感的に重要なエネルギーが分布している信号であっても音源のスペクトルの形状や利得をより精細に符号化することができ、復号信号の高音質化を図ることができる。

また、本実施の形態によれば、ビット配分情報に割り当てる符号化ビットを音源のスペクトルの形状や利得の符号化に使うことができる。

また、上記の実施の形態１〜実施の形態３において、ＬＰＣ包絡の移動平均よりも大きい帯域を重要帯域として検出したが、本発明はこれに限らず、ＬＰＣ包絡と移動平均との差異等を使って重要帯域の幅や重要度を適応的に決めるようにしても良い。例えば、ＬＰＣ包絡と移動平均との差異が少ない帯域の重要度を一段低くしたり、重要帯域の幅を狭くしたりする、というように適応的に決定するようにしてもよい。

Claims

線形予測係数を符号化する音声音響符号化装置であって、
前記線形予測係数から聴感的に重要な帯域を特定する特定手段と、
特定された前記重要な帯域を再配置する再配置手段と、
再配置された前記重要な帯域に基づいて符号化のビット配分を決定する決定手段と、
を有する音声音響符号化装置。
前記再配置手段は、
前記重要な帯域を特定の帯域に集約する、
請求項１記載の音声音響符号化装置。
前記再配置手段は、
特定された前記重要な帯域が一つのサブバンドに一定数以下になるように前記重要な帯域の再配置を行う、
請求項１記載の音声音響符号化装置。
再配置された前記重要な帯域を符号化単位であるサブバンドに分割して周波数振幅または利得を符号化する符号化手段を更に有する、
請求項１記載の音声音響符号化装置。
聴感的に重要な帯域を再配置するとともに、再配置された前記重要な帯域に基づいて符号化のビット配分を決定する際に、前記重要な帯域を特定する線形予測係数を符号化した線形予測係数符号化データを取得する取得手段と、
取得された前記線形予測係数符号化データを復号して得た前記線形予測係数から前記重要な帯域を特定する特定手段と、
特定された前記重要な帯域の配置を再配置される前の配置に戻す再配置手段と、
を有する音声音響復号装置。
前記再配置手段は、
特定の帯域に集約された前記重要な帯域の配置を再配置される前の配置に戻す、
請求項５記載の音声音響復号装置。
前記再配置手段は、
特定された前記重要な帯域が一つのサブバンドに一定数以下になるように再配置された前記重要な帯域を再配置される前の配置に戻す、
請求項５記載の音声音響復号装置。
再配置された前記重要な帯域を符号化単位であるサブバンドに分割して周波数振幅または利得を符号化した符号化データを復号する復号手段を更に有する、
請求項５記載の音声音響復号装置。
請求項１記載の音声音響符号化装置を有する基地局装置。
請求項５記載の音声音響復号装置を有する基地局装置。
請求項１記載の音声音響符号化装置を有する端末装置。
請求項５記載の音声音響復号装置を有する端末装置。
線形予測係数を符号化する音声音響符号化装置における音声音響符号化方法であって、
前記線形予測係数から聴感的に重要な帯域を特定するステップと、
特定された前記重要な帯域を再配置するステップと、
再配置された前記重要な帯域に基づいて符号化のビット配分を決定するステップと、
を有する音声音響符号化方法。
聴感的に重要な帯域を再配置するとともに、再配置された前記重要な帯域に基づいて符号化のビット配分を決定する際に、前記重要な帯域を特定する線形予測係数を符号化した線形予測係数符号化データを取得するステップと、
取得された前記線形予測係数符号化データを復号して得た前記線形予測係数から前記重要な帯域を特定するステップと、
特定された前記重要な帯域の配置を再配置される前の配置に戻すステップと、
を有する音声音響復号方法。