JPWO2008084688A1

JPWO2008084688A1 - 符号化装置、復号装置及びこれらの方法

Info

Publication number: JPWO2008084688A1
Application number: JP2008553063A
Authority: JP
Inventors: 押切　正浩; 正浩押切; 智史山梨
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2006-12-27
Filing date: 2007-12-26
Publication date: 2010-04-30
Also published as: US20100017199A1; WO2008084688A1

Abstract

帯域拡張方式において、スペクトルの減衰処理をサブバンドに施す場合でも、スペクトルエネルギーの不連続を緩和し、復号信号の品質を向上させることができる復号装置等を提供する。この装置の置換部（１８１）では、サブバンド情報が示すサブバンドの第３レイヤ復号誤差スペクトルでサブバンド情報が示すサブバンドの第２レイヤ復号スペクトルが置換され、調整部（１８５）では、置換後の第２レイヤ復号スペクトルのエネルギーが置換前のスペクトルのエネルギーに近づくよう調整される。

Description

本発明は、スケーラブル符号化を用いた符号化装置、復号装置及びこれらの方法に関する。

移動体通信システムにおける電波資源等の有効利用のために、音声信号を低ビットレートで圧縮することが要求されている。一方で、通話音声の品質向上や臨場感の高い通話サービスの実現が望まれている。この実現には、音声信号の高品質化のみならず、より帯域の広いオーディオ信号等の音声信号以外の信号をも高品質に符号化できることが望ましい。

このように相反する要求に対し、複数の符号化技術を階層的に統合するアプローチが有望視されている。具体的には、音声信号に適したモデルで入力信号を低ビットレートで符号化する第１レイヤ部と、入力信号と第１レイヤ復号信号の差分信号を音声信号以外の信号にも適したモデルで符号化する第２レイヤ部とを階層的に組み合わせる符号化方式が考えられている。

このような階層構造を有する符号化方式は、符号化されたビットストリームの一部が廃棄されても、残りの情報から復号信号が得られる特徴（スケーラビリティ性）を有するため、スケーラブル符号化と呼ばれる。スケーラブル符号化は、その特徴から、ビットレートの異なるネットワーク間の通信にも柔軟に対応することできるので、ＩＰ（インターネットプロトコル）で多様なネットワークが統合されていく今後のネットワーク環境に適したものといえる。

従来のスケーラブル符号化としては、非特許文献１に記載の技術がある。非特許文献１では、ＭＰＥＧ−４（Moving Picture Experts Group phase-4）で規格化された技術を用いてスケーラブル符号化を構成する方法について述べられている。具体的には、音声信号に適したＣＥＬＰ（Code Excited Linear Prediction; 符号励振線形予測）を第１レイヤに用い、原信号から第１レイヤ復号信号を減じた残差信号に対してＡＡＣ（Advanced Audio Coder）又はＴｗｉｎＶＱ（Transform Domain Weighted Interleave Vector Quantization;周波数領域重み付きインターリーブベクトル量子化）のような変換符号化を第２レイヤに用いる方法について記載されている。

一般に、第１レイヤ（ＣＥＬＰ）は帯域の狭い信号（例えば、狭帯域信号）を符号化し、第２レイヤ（変換符号化）は第１レイヤよりも帯域の広い信号（例えば、広帯域信号）を符号化する。この場合、第２レイヤは第１レイヤ復号信号の信号帯域を拡張する機能を併せ持つことになる。このような構成では、ＡＡＣやＴｗｉｎＶＱなどの変換符号化は残差信号を忠実に表すことができる反面、帯域の広い信号を変換符号化にて高音質に符号化するには十分に高いビットレートが必要となる。

一方、第１レイヤにて符号化処理を行った後に、低ビットレートで第１レイヤ復号信号の信号帯域を拡張する符号化方式が報告されている（以下、この符号化方式を「帯域拡張方式」という）。例えば、非特許文献２では、スペクトルの低域部の鏡像を高域部に配置する手法（ミラーリング）が述べられている。また、非特許文献３では、スペクトルの低域部をピッチフィルタのフィルタ状態として利用し、スペクトルの高域部をピッチフィルタの出力信号として表すことにより、低ビットレートで信号帯域を拡張する手法が述べられている。これらの帯域拡張方式は、拡張帯域のスペクトルを忠実に表す代わりに、擬似的なスペクトルを拡張帯域に配置することにより、低ビットレート化を実現している。
三木弼一編著、"MPEG-4の全て（初版）"、（株）工業調査会、1998年9月30日、p.126-127 Balazs Kobesi他、"A scalable speech and audio coding scheme with continuous bitrate flexibility," Proc. IEEE ICASSP 2004, pp.I-273-I-276. 押切他，"ピッチフィルタリングによる帯域拡張技術を用いた7/10/15kHz帯域スケーラブル音声符号化方式"，音講論集3-11-4, pp.327-328 (2004年3月).

ネットワークの伝送レートの変化に対して柔軟に適応する符号化を実現するには、ビットレート刻みの小さい多数のレイヤを階層化する必要がある。前述の変換符号化にてビットレート刻みの小さいレイヤを構成するには、信号帯域を徐々に広げるなどの構成上の制限が必要になる。

図１は、この構成における信号帯域（横軸）と復号信号の品質（縦軸）との関係の一例を示している。この構成では、帯域の狭い信号（信号帯域０≦ｋ＜ＦＬ）に対しては第１レイヤで符号化を行い、第２〜第５レイヤにて帯域の広い信号（信号帯域０≦ｋ＜ＦＨ）の符号化を行う。各レイヤのビットレートが低いため、第２〜第５レイヤは拡張帯域（ＦＬ≦ｋ＜ＦＨ）のサブバンドを各々符号化し、レイヤが増える程に信号帯域が広がっていく。この構成では、ネットワークの伝送レートが時間的に変動したときに復号信号の信号帯域が変化し、主観品質の劣化を招いてしまう。

ビットレート刻みの小さいスケーラブル符号化を実現するには、前述の帯域拡張方式の適用が有効である。その構成は、まず第１レイヤで帯域の狭い信号を符号化した後に、第１レイヤ復号信号に対して前述の帯域拡張方式を適用して擬似的なスペクトルを拡張帯域に配置して信号帯域を拡張する。次に、ビットレート刻みの小さい複数のレイヤ（これらのレイヤは変換符号化）にて符号化を行うというものである。

図２は、この構成における信号帯域（横軸）と復号信号の品質（縦軸）との関係の一例を示している。この構成では、少なくとも第２レイヤ（帯域拡張方式）までの符号化データが復号されれば、一定の音質を有する帯域の広い信号が復号される。このため、ネットワークの伝送レートが変動しても、少なくとも第２レイヤまでの符号化データが復号されれば、復号信号の信号帯域の変化は発生しなくなり、主観品質の劣化を回避することができる。

ところで、帯域拡張方式はあくまでも擬似的なスペクトルを生成するのみであり、スペクトルの形状は入力信号のスペクトルと大きく異なる場合がある。このような場合、復号信号に異音が生じ、主観品質を低下させてしまう。

そこで、帯域拡張方式により生成されたスペクトルを所定の手法に基づき減衰させて（例えば、一定の割合で減衰させるなど）、異音の発生を抑制している。一方、このレイヤよりも高位のレイヤ（図２に示す第３〜第５レイヤ）では、変換符号化によりスペクトルを忠実に表すことができるため、上述したようなスペクトルの減衰処理は必要ない。すなわち、拡張帯域において、スペクトルの減衰処理が施されるサブバンドと減衰処理が施されないサブバンドが混在する。

図３は、スペクトル減衰処理の施されるサブバンドと施されないサブバンドとが混在する様子を示している。図３では、拡張帯域を３つのサブバンドに分割し、聴感的に重要度の高いサブバンドから順に第３レイヤ、第４レイヤ、第５レイヤにて符号化する場合を例として挙げている。

また、ここでは、時刻ｎ＝１のとき、聴感的に重要度の高いサブバンドの順がＡ，Ｂ，Ｃと判断されるため、第３レイヤはサブバンドＡ、第４レイヤはサブバンドＢ、第５レイヤはサブバンドＣを符号化する。また、時刻ｎ＝２のとき、聴感的に重要度の高いサブバンドの順がＡ，Ｃ，Ｂと判断されるため、第３レイヤはサブバンドＡ、第４レイヤはサブバンドＣ、第５レイヤはサブバンドＢを符号化する。また、時刻ｎ＝３のとき、聴感的に重要度の高いサブバンドの順がＣ，Ｂ，Ａと判断されるため、第３レイヤはサブバンドＣ、第４レイヤはサブバンドＢ、第５レイヤはサブバンドＡを符号化する。

仮に、時刻ｎ＝１〜３において、復号部が第１〜第４レイヤの符号化データを受信した場合（第５レイヤの符号化データが廃棄される場合）、図中の斜線で示す箇所、すなわち、時刻ｎ＝１ではサブバンドＣにおいて、時刻ｎ＝２ではサブバンドＢにおいて、時刻ｎ＝３ではサブバンドＡにおいてそれぞれスペクトルの減衰処理が施される。

スペクトルの減衰処理が施されるサブバンドと施されないサブバンドが、時間領域又は周波数領域で隣接する場合にスペクトルのエネルギーに不連続が生じる。図３に示す矢印（ａ）は時間領域での不連続の発生を示し、矢印（ｂ）は周波数領域での不連続の発生を示している。すなわち、この部分でスペクトルエネルギーの不連続による音質劣化が発生してしまう。

本発明の目的は、帯域拡張方式において、スペクトルの減衰処理をサブバンドに施す場合でも、スペクトルエネルギーの不連続を緩和し、復号信号の品質を向上させる符号化装置、復号装置及びこれらの方法を提供することである。

本発明の符号化装置は、入力信号の周波数低域部を符号化して第１レイヤの符号化データを生成する第１符号化手段と、前記第１レイヤの符号化データを復号して第１復号信号を生成する第１復号手段と、前記入力信号と前記第１復号信号とを用いて、前記入力信号の周波数高域部を符号化して第２レイヤの符号化データを生成する第２符号化手段と、前記第２レイヤの符号化データを復号して第２復号信号を生成する第２復号手段と、前記入力信号のスペクトルと前記第２復号信号のスペクトルとの誤差スペクトルを符号化して第３レイヤの符号化データを生成する第３レイヤ処理手段と、を具備する構成を採る。

また、本発明の符号化装置は、上記の符号化装置において、前記第３レイヤ処理手段の代わりに、前記入力信号のスペクトルと第（ｎ−１）復号信号（３≦ｎ≦Ｎ−１，Ｎ≧４，ｎとＮは整数）のスペクトルとの誤差スペクトルを符号化して第ｎレイヤの符号化データを生成し、前記第ｎレイヤの符号化データと前記第（ｎ−１）復号信号のスペクトルとを用いて第ｎ復号信号を生成する第ｎレイヤ処理手段と（ｎが３からＮ−１までの個数分、配置）、前記入力信号のスペクトルと第（Ｎ−１）復号信号のスペクトルとの誤差スペクトルを符号化して第Ｎレイヤの符号化データを生成する第Ｎレイヤ処理手段と、を具備する構成を採る。

本発明の復号装置は、スケーラブル符号化を用いて符号化された符号化データを復号する復号装置であって、前記符号化データのうち第１レイヤの符号化データを復号して第１復号信号を生成する第１復号手段と、前記第１復号信号を用いて、前記符号化データのうち第２レイヤの符号化データを復号して第２復号信号を生成する第２復号手段と、第（ｎ＋１）復号信号（ｎ≧１、ｎは整数）を用いて、前記符号化データのうち第（ｎ＋２）レイヤの符号化データを復号し、前記第（ｎ＋２）レイヤで復号したスペクトルのエネルギーを前記第（ｎ＋１）復号信号のスペクトルのエネルギーに近づくように調整して第（ｎ＋２）復号信号を生成する第（ｎ＋２）レイヤ復号手段と（ｎの個数分、配置）、を具備する構成を採る。

本発明によれば、帯域拡張方式において、スペクトルの減衰処理をサブバンドに施す場合でも、スペクトルエネルギーの不連続を緩和し、復号信号の品質を向上させることができる。

信号帯域と復号信号の品質との関係の一例を示す図信号帯域と復号信号の品質との関係の一例を示す図スペクトル減衰処理の施されるサブバンドと施されないサブバンドとが混在する様子を示す図本発明の実施の形態１に係る音声符号化装置の構成を示すブロック図図４に示した第２レイヤ符号化部の内部構成を示すブロック図図５に示したフィルタリング部の動作説明に供する図図４に示した第３レイヤ符号化部の内部構成を示すブロック図本発明の実施の形態１に係る音声復号装置の構成を示すブロック図図８に示した第２レイヤ復号部の内部構成を示すブロック図図８に示した第３レイヤ復号部の内部構成を示すブロック図図１０に示した第３レイヤ復号スペクトル生成部の内部構成を示すブロック図図１１に示した第３レイヤ復号スペクトル生成部の動作説明に供する図図１１に示した第３レイヤ復号スペクトル生成部のその他の動作説明に供する図図１０に示した第３レイヤ復号スペクトル生成部のその他の内部構成を示すブロック図本発明の実施の形態２に係る第３レイヤ復号スペクトル生成部の内部構成を示すブロック図本発明の実施の形態２に係る第３レイヤ復号スペクトル生成部のその他の内部構成を示すブロック図本発明の実施の形態３に係る音声符号化装置の構成を示すブロック図本発明の実施の形態３に係る第ｎ（３≦ｎ≦Ｎ）レイヤ処理部の内部構成を示すブロック図本発明の実施の形態３に係る音声復号装置の構成を示すブロック図

以下、本発明の実施の形態について、図面を参照して詳細に説明する。以下の実施の形態では、符号化装置・復号装置の例として、音声符号化装置・音声復号装置について説明する。ただし、実施の形態において、同一の構成には同一の符号を付し、重複する説明は省略する。

本実施の形態では、周波数０≦ｋ＜ＦＬの帯域を低域部、周波数ＦＬ≦ｋ＜ＦＨの帯域を高域部、周波数０≦ｋ＜ＦＨの帯域を全帯域と呼ぶ。また、周波数ＦＬ≦ｋ＜ＦＨの帯域は、低域部を基に帯域拡張されていることから、拡張帯域と呼ぶこともある。

また、実施の形態１及び２では、第１レイヤ〜第３レイヤに階層化したスケーラブル符号化を用いた場合について説明する。第１レイヤは入力信号の低域部（０≦ｋ＜ＦＬ）を符号化し、第２レイヤは第１レイヤ復号信号の信号帯域を全帯域（０≦ｋ＜ＦＨ）に低ビットレートで拡張し、第３レイヤは入力信号と第２レイヤ復号信号の誤差成分を符号化するものとする。

（実施の形態１）
図４は、本発明の実施の形態１に係る音声符号化装置１００の構成を示すブロック図である。この図において、ダウンサンプリング部１０１は、時間領域の入力音声信号をダウンサンプリングして、所望のサンプリングレートに変換する。ダウンサンプリングした時間領域信号を第１レイヤ符号化部１０２に出力する。

第１レイヤ符号化部１０２は、ダウンサンプリング部１０１から出力されたダウンサンプリング後の時間領域信号に対し、ＣＥＬＰ符号化を用いて符号化を行い、第１レイヤ符号化データを生成する。生成された第１レイヤ符号化データは第１レイヤ復号部１０３及び多重化部１１２に出力される。

第１レイヤ復号部１０３は、第１レイヤ符号化部１０２から出力された第１レイヤ符号化データを復号して第１レイヤ復号信号を生成する。生成された第１レイヤ復号信号は周波数領域変換部１０４に出力される。

周波数領域変換部１０４は、第１レイヤ復号部１０３から出力された第１レイヤ復号信号の周波数分析を行って第１レイヤ復号スペクトルＳ１（ｋ）を生成する。生成された第１レイヤ復号スペクトルＳ１（ｋ）は第２レイヤ符号化部１０７及び第２レイヤ復号部１０８に出力される。

遅延部１０５は、ダウンサンプリング部１０１、第１レイヤ符号化部１０２、第１レイヤ復号部１０３及び周波数領域変換部１０４における処理時間に相当する遅延を入力音声信号に与える。遅延が与えられた入力音声信号は周波数領域変換部１０６に出力される。

周波数領域変換部１０６は、遅延部１０５から出力された入力音声信号の周波数分析を行って入力スペクトルＳ２（ｋ）を生成する。生成された入力スペクトルＳ２（ｋ）は第２レイヤ符号化部１０７及び誤差スペクトル生成部１０９に出力される。

第２レイヤ符号化部１０７は、周波数領域変換部１０４から出力された第１レイヤ復号スペクトルＳ１（ｋ）及び周波数領域変換部１０６から出力された入力スペクトルＳ２（ｋ）を用いて第２レイヤ符号化データを生成する。生成された第２レイヤ符号化データは第２レイヤ復号部１０８及び多重化部１１２に出力される。なお、第２レイヤ符号化部１０７の詳細については後述する。

第２レイヤ復号部１０８は、周波数領域変換部１０４から出力された第１レイヤ復号スペクトルＳ１（ｋ）と第２レイヤ符号化部１０７から出力された第２レイヤ符号化データとを用いて、第２レイヤ復号スペクトルＳ３（ｋ）を生成する。生成された第２レイヤ復号スペクトルＳ３（ｋ）は誤差スペクトル生成部１０９に出力される。なお、第２レイヤ復号部１０８は、音声復号装置における第２レイヤ復号部１５５（後述）と同一の構成であるため、ここではその詳細については省略し、後述する音声復号装置１５０の第２レイヤ復号部１５５の詳細説明（図９参照）で代用する。

誤差スペクトル生成部１０９は、周波数領域変換部１０６から出力された入力スペクトルＳ２（ｋ）と第２レイヤ復号部１０８から出力された第２レイヤ復号スペクトルＳ３（ｋ）との差信号（誤差スペクトル）を算出する。ここで、誤差スペクトルをＳｅ（ｋ）と表したとき、誤差スペクトルＳｅ（ｋ）は次式（１）に従い算出される。

また、第２レイヤ復号スペクトルＳ３（ｋ）における高域部のスペクトルは、擬似的なスペクトルであるため、スペクトルの形状は入力スペクトルＳ２（ｋ）と大きく異なることがある。よって、第２レイヤ復号スペクトルＳ３（ｋ）の高域部のスペクトルをゼロとおいたときの入力スペクトルＳ２（ｋ）との差を誤差スペクトルとしてもよい。その場合、誤差スペクトルＳｅ（ｋ）は次式（２）のように求められる。

算出された誤差スペクトルＳｅ（ｋ）はサブバンド決定部１１０及び第３レイヤ符号化部１１１に出力される。

サブバンド決定部１１０は、誤差スペクトル生成部１０９から出力された誤差スペクトルＳｅ（ｋ）に基づいて、第３レイヤで符号化を行うサブバンドを決定する。このサブバンドの決定は、誤差スペクトルＳｅ（ｋ）のエネルギーを各サブバンドで求め、サブバンドエネルギーの最も大きいサブバンドを選択することにより行われる。

ここで、全帯域をＪ個のサブバンドに分割し、第ｊサブバンドの最低周波数をＳＢＬ（ｊ）、最高周波数をＳＢＨ（ｊ）と表したとき、サブバンドエネルギーＥｓｂ（ｊ）は次式（３）のように算出される。

または、聴感的に重要なスペクトルに大きな重みを与えることにより、聴感的に重要なスペクトルの影響を大きくしてサブバンドエネルギーを求めてもよい。その場合、サブバンドエネルギーは次式（４）のように算出される。

ここで、ｗ（ｋ）は重み係数を表す。

サブバンド決定部１１０は、このようにして算出したサブバンドエネルギーのうち、最大となるサブバンドを選択し、選択したサブバンド情報ｊを第３レイヤ符号化部１１１及び多重化部１１２に出力する。

第３レイヤ符号化部１１１は、サブバンド決定部１１０から出力されたサブバンド情報によって特定されるサブバンドに含まれる誤差スペクトルＳｅ（ｋ）を符号化し、その符号化データを第３レイヤ符号化データとして多重化部１１２に出力する。

多重化部１１２は、サブバンド決定部１１０から出力されたサブバンド情報ｊ、第１レイヤ符号化部１０２から出力された第１レイヤ符号化データ、第２レイヤ符号化部１０７から出力された第２レイヤ符号化データ、及び、第３レイヤ符号化部１１１から出力された第３レイヤ符号化データを多重化し、符号化データとして出力する。

このように符号化を行うサブバンドを選択することにより、誤差スペクトルの大きいサブバンドを優先して符号化することができるようになる。これにより、このレイヤに与えられるビットレートが小さい場合でも、主観品質を改善することができる。また、このような低ビットレートのレイヤを数多く階層化することにより、ビットレート刻みの小さいスケーラブル符号化を実現することができる。その場合、この符号化方式は、通信路のビットレートの変化に柔軟に適応することができる。

図５は、図４に示した第２レイヤ符号化部１０７の内部構成を示すブロック図である。この図において、内部状態設定部１２１には、周波数領域変換部１０４から第１レイヤ復号スペクトルＳ１（ｋ）（０≦ｋ＜ＦＬ）が入力される。内部状態設定部１２１は、入力された第１レイヤ復号スペクトルＳ１（ｋ）を用いて、フィルタリング部１２３において用いられるフィルタの内部状態を設定する。

ピッチ係数設定部１２２は、後述する探索部１２４からの制御に従って、ピッチ係数Ｔを予め定められた探索範囲Ｔ_ｍｉｎ〜Ｔ_ｍａｘの中で少しずつ変化させながら、フィルタリング部１２３に順次出力する。

フィルタリング部１２３は、内部状態設定部１２１によって設定されたフィルタの内部状態と、ピッチ係数設定部１２２から出力されたピッチ係数Ｔとに基づいて、周波数領域変換部１０４から入力された第１レイヤ復号スペクトルＳ１（ｋ）のフィルタリングを行い、入力スペクトルの推定値Ｓ２’（ｋ）を算出する。算出された入力スペクトルの推定値Ｓ２’（ｋ）は探索部１２４に出力される。このフィルタリング処理の詳細については後述する。

探索部１２４は、周波数領域変換部１０６から出力された入力スペクトルＳ２（ｋ）（０≦ｋ＜ＦＨ）とフィルタリング部１２３から出力された入力スペクトルの推定値Ｓ２’（ｋ）との類似性を示すパラメータである類似度を算出する。この類似度の算出処理は、ピッチ係数設定部１２２からフィルタリング部１２３へピッチ係数Ｔが与えられるたびに行われ、算出された類似度が最大となるピッチ係数（最適なピッチ係数）Ｔ’（Ｔ_ｍｉｎ〜Ｔ_ｍａｘの範囲）が多重化部１２６に出力される。また、探索部１２４は、このピッチ係数Ｔ’を用いて生成される入力スペクトルの推定値Ｓ２’（ｋ）をゲイン符号化部１２５に出力する。

ゲイン符号化部１２５は、周波数領域変換部１０６から出力された入力スペクトルＳ２（ｋ）（０≦ｋ＜ＦＨ）に基づいて、入力スペクトルＳ２（ｋ）のゲイン情報を算出する。なお、ここでは、このゲイン情報をサブバンド毎のスペクトルパワで表し、周波数帯域ＦＬ≦ｋ＜ＦＨをＪ個のサブバンドに分割する場合を例に説明する。このとき、第ｊサブバンドのスペクトルパワＢ（ｊ）は式（５）で表される。式（５）において、ＢＬ（ｊ）は第ｊサブバンドの最小周波数、ＢＨ（ｊ）は第ｊサブバンドの最大周波数を表す。このようにして求めた入力スペクトルのサブバンド情報を入力スペクトルのゲイン情報とみなす。

また、ゲイン符号化部１２５は、同様に、入力スペクトルの推定値Ｓ２’（ｋ）のサブバンド情報Ｂ’（ｊ）を式（６）に従い算出し、サブバンド毎の変動量Ｖ（ｊ）を式（７）に従い算出する。

次に、ゲイン符号化部１２５は、変動量Ｖ（ｊ）を符号化して符号化後の変動量Ｖ_ｑ（ｊ）を求め、そのインデックスを多重化部１２６に出力する。

多重化部１２６は、探索部１２４から出力された最適なピッチ係数Ｔ’とゲイン符号化部１２５から出力された変動量Ｖq（ｊ）のインデックスとを多重化して、第２レイヤ符号化データとして多重化部１１２に出力する。なお、多重化部１２６を設けずに、探索部１２４から出力された最適なピッチ係数Ｔ’とゲイン符号化部１２５から出力された変動量Ｖq（ｊ）のインデックスとを第２レイヤ復号部１０８および多重化部１１２に直接入力し、多重化部１１２にてこれらを第１レイヤ符号化データ、サブバンド情報、および第３レイヤ符号化データと多重してもよい。

次いで、図５に示したフィルタリング部１２３でのフィルタリング処理の詳細について説明する。フィルタリング部１２３が、ピッチ係数設定部１２２から出力されたピッチ係数Ｔを用いて、帯域ＦＬ≦ｋ＜ＦＨのスペクトルを生成する様子を図６に示す。ここでは、全帯域（０≦ｋ＜ＦＨ）のスペクトルを便宜的にＳ（ｋ）と呼び、フィルタ関数Ｐ（ｚ）は式（８）で表されるものを使用する。この式において、Ｔはピッチ係数設定部１２２より与えられたピッチ係数を表しており、またＭ＝１とする。

Ｓ（ｋ）の０≦ｋ＜ＦＬの帯域には、第１レイヤ復号スペクトルＳ１（ｋ）がフィルタの内部状態として格納される。一方、Ｓ（ｋ）のＦＬ≦ｋ＜ＦＨの帯域には、以下の手順により求められた入力スペクトルの推定値Ｓ２’（ｋ）が格納される。

Ｓ２’（ｋ）には、フィルタリング処理により、ｋよりＴだけ低い周波数のスペクトルＳ（ｋ−Ｔ）に、このスペクトルを中心としてｉだけ離れた近傍のスペクトルＳ（ｋ−Ｔ−ｉ）に所定の重み付け係数β_ｉを乗じたスペクトルβ_ｉ・Ｓ（ｋ−Ｔ−ｉ）を全て加算したスペクトル、すなわち、式（９）により表されるスペクトルが代入される。そしてこの演算を、周波数の低い方（ｋ＝ＦＬ）から順にｋをＦＬ≦ｋ＜ＦＨの範囲で変化させて行うことにより、ＦＬ≦ｋ＜ＦＨにおける入力スペクトルの推定値Ｓ２’（ｋ）が算出される。

以上のフィルタリング処理は、ピッチ係数設定部１２２からピッチ係数Ｔが与えられるたびに、ＦＬ≦ｋ＜ＦＨの範囲において、その都度Ｓ（ｋ）をゼロクリアして行われる。すなわち、ピッチ係数Ｔが変化するたびにＳ（ｋ）は算出され、探索部１２４に出力される。

図７は、図４に示した第３レイヤ符号化部１１１の内部構成を示すブロック図である。ただし、本実施の形態では、第３レイヤ符号化部１１１に形状利得ベクトル量子化を用いる場合について説明する。

図７において、サブバンドスペクトル抽出部１４１には、誤差スペクトル生成部１０９から誤差スペクトルＳｅ（ｋ）が入力される。サブバンドスペクトル抽出部１４１は、サブバンド決定部１１０から出力されたサブバンド情報に基づいて、サブバンド情報で表される帯域を誤差スペクトルＳｅ（ｋ）から抽出し、抽出した誤差スペクトルをサブバンドスペクトルＳｔ（ｋ）として誤差算出部１４４に出力する。

第３レイヤ符号化部１１１は、スペクトルの形状を表す候補（形状候補）が多数格納された形状符号帳１４２と、スペクトルのゲインを表す候補（ゲイン候補）が多数格納されたゲイン符号帳１４３とを有する。第ｉ番目の形状候補と第ｍ番目のゲイン候補、そしてターゲットとなるサブバンドスペクトルが誤差算出部１４４に入力され、誤差算出部１４４では次式（１０）で表される誤差Ｅを算出する。

ここで、ｓｈ（ｉ，ｋ）は第ｉ番目の形状候補、ｇａ（ｍ）は第ｍ番目のゲイン候補を表す。算出された誤差Ｅは探索部１４５に出力される。

探索部１４５は、誤差算出部１４４から出力された誤差Ｅに基づいて、誤差Ｅが最も小さくなるときの形状候補とゲイン候補の組み合わせを探索する。これは、形状候補とゲイン候補の乗算結果がサブバンドスペクトルに最も類似するときの形状候補とゲイン候補の組み合わせを求めることを意味する。形状候補とゲイン候補を同時に決定してもよいし、形状候補を決定してからゲイン候補を決定もしくはゲイン候補を決定してから形状候補を決定してもよい。また、聴感的に重要なスペクトルに大きな重みを与えることにより、聴感的に重要なスペクトルの影響を大きくして、次式（１１）のように誤差Ｅを求めてもよい。

ここで、ｗ（ｋ）は重み係数を表す。

このようにして求めた形状候補とゲイン候補を表すインデックス（ｉとｍ）は、第３レイヤ符号化データとして多重化部１１２に出力される。

次いで、図４に示した音声符号化装置１００に対応する本実施の形態に係る音声復号装置１５０について説明する。図８は、音声復号装置１５０の構成を示すブロック図である。この音声復号装置１５０は、図４に示した音声符号化装置１００により生成された符号化データを復号するものである。

図８において、分離部１５１は、音声符号化装置１００により生成された符号化データを、第１レイヤ符号化データ、第２レイヤ符号化データ、サブバンド情報、第３レイヤ符号化データ（形状候補とゲイン候補を表すインデックス（ｉとｍ））に分離する。分離部１５１は、分離した第１レイヤ符号化データを第１レイヤ復号部１５２に、第２レイヤ符号化データを第２レイヤ復号部１５５に、サブバンド情報及びインデックス（ｉとｍ）を第３レイヤ復号部１５６に出力する。また、分離部１５１は、入力された符号化データがどのレイヤの符号化データかを表すレイヤ情報を取得し、取得したレイヤ情報を判定部１５７及び判定部１５９に出力する。

第１レイヤ復号部１５２は、分離部１５１から出力された第１レイヤ符号化データを復号して第１レイヤ復号信号を得る。第１レイヤ復号信号はアップサンプリング部１５３及び周波数領域変換部１５４に出力される。

アップサンプリング部１５３は、第１レイヤ復号部１５２から出力された第１レイヤ復号信号のサンプリングレートを入力信号と同じサンプリングレートに変換（アップサンプリング）する。アップサンプリングされた第１レイヤ復号信号は判定部１５９に出力される。

周波数領域変換部１５４は、第１レイヤ復号部１５２から出力された第１レイヤ復号信号を周波数分析して第１レイヤ復号スペクトルＳ１（ｋ）を生成する。生成された第１レイヤ復号スペクトルＳ１（ｋ）は第２レイヤ復号部１５５に出力される。

第２レイヤ復号部１５５は、分離部１５１から出力された第２レイヤ符号化データを、周波数領域変換部１５４から出力された第１レイヤ復号スペクトルＳ１（ｋ）を用いて復号し、第２レイヤ復号スペクトルＳ３（ｋ）を得る。得られた第２レイヤ復号スペクトルＳ３（ｋ）は第３レイヤ復号部１５６及び判定部１５７に出力される。

第３レイヤ復号部１５６は、第２レイヤ復号部１５５から出力された第２レイヤ復号スペクトルＳ３（ｋ）、分離部１５１から出力された形状候補とゲイン候補を表すインデックス及びサブバンド情報を用いて、第３レイヤ復号スペクトルＳ４（ｋ）を生成する。生成された第３レイヤ復号スペクトルＳ４（ｋ）は判定部１５７に出力される。

判定部１５７は、分離部１５１から出力されたレイヤ情報に基づいて、第２レイヤ復号部１５５から出力された第２レイヤ復号スペクトルＳ３（ｋ）又は第３レイヤ復号部１５６から出力された第３レイヤ復号スペクトルＳ４（ｋ）の一方を時間領域変換部１５８に出力する。

時間領域変換部１５８は、判定部１５７から出力された第２レイヤ復号スペクトルＳ３（ｋ）又は第３レイヤ復号スペクトルＳ４（ｋ）を時間領域信号に変換し、得られた信号を判定部１５９に出力する。

判定部１５９は、分離部１５１から出力されたレイヤ情報に基づいて、符号化データに第２レイヤ符号化データと第３レイヤ符号化データが含まれているか否か判定する。ここで、音声符号化装置１００を搭載する無線送信装置は、ビットストリームに第１レイヤ符号化データ〜第３レイヤ符号化データを含めて送信するが、通信経路の途中において符号化データの全てまたは一部が廃棄される場合がある。

そこで、判定部１５９は、レイヤ情報に基づいて、ビットストリームに第２レイヤ符号化データ及び第３レイヤ符号化データが含まれているか否かを判定する。判定部１５９は、ビットストリームに第２レイヤ符号化データ及び第３レイヤ符号化データが含まれていない場合、時間領域変換部１５８によって信号が生成されないため、第１レイヤ復号信号を復号信号として出力する。一方、ビットストリームに第２レイヤ符号化データが含まれている場合、または第２レイヤ符号化データ及び第３レイヤ符号化データの双方が含まれている場合、判定部１５９は、時間領域変換部１５８によって生成される信号を復号信号として出力する。

図９は、図８に示した第２レイヤ復号部１５５の内部構成を示すブロック図である。なお、この構成は音声符号化装置１００の第２レイヤ復号部１０８と同一である。この図において、内部状態設定部１６１には、周波数領域変換部１５４から第１レイヤ復号スペクトルＳ１（ｋ）が入力される。内部状態設定部１６１は、第１レイヤ復号スペクトルＳ１（ｋ）を用いて、フィルタリング部１６３で用いられるフィルタの内部状態を設定する。

分離部１６２には、分離部１５１から第２レイヤ符号化データが入力される。分離部１６２は、第２レイヤ符号化データをフィルタリング係数に関する情報（最適なピッチ係数Ｔ’）とゲインに関する情報（変動量Ｖ（ｊ）のインデックス）とに分離し、フィルタリング係数に関する情報をフィルタリング部１６３に出力すると共に、ゲインに関する情報をゲイン復号部１６４に出力する。なお、最適なピッチ係数Ｔ’とゲインに関する変動量Ｖ（ｊ）のインデックスとが分離部１５１で分離され、それぞれフィルタリング部１６３とゲイン復号部１６４に入力される場合は、分離部１６２は不要である。

フィルタリング部１６３は、内部状態設定部１６１によって設定されたフィルタの内部状態と、分離部１６２から出力されたピッチ係数Ｔ’とに基づいて、第１レイヤ復号スペクトルＳ１（ｋ）のフィルタリングを行い、入力スペクトルの推定値Ｓ２’（ｋ）（復号スペクトルＳ’（ｋ））を算出する。算出された復号スペクトルＳ’（ｋ）はスペクトル調整部１６５に出力される。なお、フィルタリング部１６３では、式（８）で示すフィルタ関数が用いられる。

ゲイン復号部１６４は、分離部１６２から出力されたゲイン情報を復号し、変動量Ｖ（ｊ）を符号化して得られる変動量Ｖ_ｑ（ｊ）を求める。求められた変動量Ｖ_ｑ（ｊ）はスペクトル調整部１６５に出力される。

スペクトル調整部１６５は、フィルタリング部１６３から出力された復号スペクトルＳ'（ｋ）に、ゲイン復号部１６４から出力されたサブバンド毎の変動量Ｖ_ｑ（ｊ）を式（１２）に従い乗じることにより、復号スペクトルＳ’（ｋ）の周波数帯域ＦＬ≦ｋ＜ＦＨにおけるスペクトル形状を調整し、調整後の復号スペクトルＳ３（ｋ）を生成する。この調整後の復号スペクトルＳ３（ｋ）は、第２レイヤ復号スペクトルＳ３（ｋ）として判定部１５７に出力される。

図１０は、図８に示した第３レイヤ復号部１５６の内部構成を示すブロック図である。この図において、形状符号帳１７１は、分離部１５１から出力された形状候補とゲイン候補とのインデックスに基づいて、形状候補ｓｈ（ｉ，ｋ）を選択し、選択した形状候補ｓｈ（ｉ，ｋ）を乗算部１７３に出力する。

ゲイン符号帳１７２は、分離部１５１から出力された形状候補とゲイン候補とのインデックスに基づいて、ゲイン候補ｇａ（ｍ）を選択し、選択したゲイン候補ｇａ（ｍ）を乗算部１７３に出力する。

乗算部１７３は、形状符号帳１７１から出力された形状候補ｓｈ（ｉ，ｋ）にゲイン符号帳１７２から出力されたゲイン候補ｇａ（ｍ）を乗算し、乗算結果（第３レイヤ復号誤差スペクトル）を第３レイヤ復号スペクトル生成部１７４に出力する。

第３レイヤ復号スペクトル生成部１７４は、分離部１５１から出力されたサブバンド情報、第２レイヤ復号部１５５から出力された第２レイヤ復号スペクトルＳ３（ｋ）、乗算部１７３から出力された第３レイヤ復号誤差スペクトルを用いて、第３レイヤ復号スペクトルＳ４（ｋ）を生成する。

具体的には、第３レイヤ復号スペクトル生成部１７４は、第２レイヤ復号スペクトルＳ３（ｋ）のうち、サブバンド情報で特定されるサブバンドに第３レイヤ復号誤差スペクトルを加算又は置換する。加算又は置換のいずれを用いるかは、音声符号化装置１００にて誤差スペクトルＳｅ（ｋ）がどのように生成されたかに依存する。誤差スペクトルＳｅ（ｋ）が、入力スペクトルＳ２（ｋ）から復号スペクトルＳ３（ｋ）を減じて求められた場合（すなわち、式（１）が用いられた場合）には加算を行い、第２レイヤ復号スペクトルＳ３（ｋ）をゼロとおいて誤差スペクトルから減じた場合（すなわち、入力スペクトルそのものであり、式（２）が用いられた場合）には置換を行う。加算又は置換した後のスペクトルのエネルギーを第２レイヤ復号スペクトルのエネルギーに近づけ、第３レイヤ復号スペクトルＳ４（ｋ）として出力する。

図１１は、図１０に示した第３レイヤ復号スペクトル生成部１７４の内部構成を示すブロック図である。図１１では、第２レイヤ復号スペクトルＳ３（ｋ）のうち、サブバンド情報で特定されるサブバンドにゲイン候補乗算後の形状候補を置換する場合について示す。

図１１において、置換部１８１は、分離部１５１から出力されたサブバンド情報が示すサブバンドに対して、第２レイヤ復号部１５５から出力された第２レイヤ復号スペクトルＳ３（ｋ）を乗算部１７３から出力された第３レイヤ復号誤差スペクトルで置換する。置換された第２レイヤ復号スペクトルはエネルギー算出部１８３及び調整部１８５に出力される。

エネルギー算出部１８２は、分離部１５１から出力されたサブバンド情報が示すサブバンドに対して、第２レイヤ復号部１５５から出力された第２レイヤ復号スペクトルＳ３（ｋ）（すなわち、置換前のスペクトル）のエネルギーを算出し、算出したエネルギーを調整係数算出部１８４に出力する。

エネルギー算出部１８３は、分離部１５１から出力されたサブバンド情報が示すサブバンドに対して、置換部１８１から出力された置換後の第２レイヤ復号スペクトルのエネルギーを算出し、算出したエネルギーを調整係数算出部１８４に出力する。

調整係数算出部１８４は、エネルギー算出部１８２及び１８３から出力されたスペクトルエネルギーに基づいて、調整係数を算出し、算出した調整係数を調整部１８５に出力する。調整係数は、置換後の第２レイヤ復号スペクトルのサブバンド情報が示すサブバンドに乗じる係数であり、置換後の第２レイヤ復号スペクトルのエネルギーが置換前の第２レイヤ復号スペクトルのエネルギーに近づくように決定される。

例えば、調整係数は、置換前のスペクトルのエネルギーと置換後のスペクトルのエネルギーの加重平均値を基にして求める。置換前の第２レイヤ復号スペクトルのエネルギーをＥ１、置換後の第２レイヤ復号スペクトルのエネルギーをＥ２とし、加重平均値を求めるための置換前の第２レイヤ復号スペクトルのエネルギーの重みをｗ、置換後の第２レイヤ復号スペクトルのエネルギーの重みを（１−ｗ（ただし、０≦ｗ≦１））とする。このとき、第２レイヤ復号スペクトルのエネルギーの加重平均値Ｅａｖｅ、及び、調整係数ｃは次のように表される。

調整部１８５は、分離部１５１から出力されたサブバンド情報が示すサブバンドに対して、置換部１８１から出力された置換後の第２レイヤ復号スペクトルに調整係数算出部１８４から出力された調整係数を乗じることにより、置換後の第２レイヤ復号スペクトルのエネルギーを置換前の第２レイヤ復号スペクトルのエネルギーに近づける。調整部１８５は、調整係数乗算後のスペクトルを第３レイヤ復号スペクトルとして出力する。

次いで、図１１に示した第３レイヤ復号スペクトル生成部１７４の動作について図１２を用いて説明する。図１２Ａは、入力スペクトルに対する第２レイヤ復号スペクトルのエネルギーの相対値（以下、「相対値」という）を図式化したものである。仮に、第２レイヤ復号スペクトルが入力スペクトルと同等のエネルギーを有する場合、１．０の相対値を得ることになる。

第２レイヤ復号スペクトルの低域部のスペクトルは第１レイヤ復号部１５２、高域部のスペクトルは第２レイヤ復号部１５５によって生成されたものである。第２レイヤ復号部１５５は、擬似的なスペクトルを生成しており、異音の発生を抑制するために所定の手法（例えば一定割合で減衰）に基づいて、高域部のスペクトルを減衰させている。従って、図１２Ａの高域部の相対値は低域部の相対値に比べ小さな値となっている。

第３レイヤ復号部１５６は、サブバンド情報が示すサブバンド（ここでは第６サブバンド）の第３レイヤ復号誤差スペクトルを生成し、第３レイヤ復号スペクトル生成部１７４の置換部１８１では、第３レイヤ復号誤差スペクトルで第６サブバンドの第２レイヤ復号スペクトルを置換する。

第３レイヤ復号スペクトル生成部１７４の調整部１８５では、図１２Ｂに示すように、置換後の第２レイヤ復号スペクトルのエネルギーが置換前の第６サブバンドのスペクトルのエネルギーに近づくようスペクトルを調整する。これにより、時間領域又は周波数領域で発生するスペクトルのエネルギーの不連続を緩和し、かつ、スペクトルの形状が入力信号により近づくため、音質を向上させることができる。

このように実施の形態１によれば、音声符号化装置において、第３レイヤで符号化を行うサブバンドを決定し、音声復号装置において、サブバンド情報が示すサブバンドの第３レイヤ復号誤差スペクトルを生成し、生成した第３レイヤ復号誤差スペクトルでサブバンド情報が示すサブバンドの第２レイヤ復号スペクトルを置換し、置換後の第２レイヤ復号スペクトルのエネルギーが置換前のスペクトルのエネルギーに近づくよう調整することにより、時間領域又は周波数領域で発生するスペクトルのエネルギーの不連続を緩和し、かつ、スペクトルの形状が入力信号により近づくため、音質を向上させることができる。

なお、本実施の形態では、図１２に示したように、置換後の第２レイヤ復号スペクトルのエネルギーを置換前の第６サブバンドのスペクトルのエネルギーに近づくように、調整部１８５が第６サブバンド全域に対して調整するものとして説明したが、次のように調整してもよい。すなわち、図１３に示すように、周波数領域で第６サブバンドの両端に近いほど、第２レイヤ復号スペクトルのエネルギーにより近づくように置換後の第２レイヤ復号スペクトルのエネルギーを調整するようにしてもよい。これにより、周波数領域で発生するスペクトルのエネルギーの不連続を滑らかに緩和することが可能となり、かつ、スペクトルの形状がより入力信号に近づくため音質をより向上させることができる。

この調整部１８５の処理は、図１１に示した調整係数算出部１８４において、周波数領域でサブバンドの両端に近いほど、置換前の第２レイヤ復号スペクトルのエネルギーの重みｗが大きくなるように設定し、調整係数を算出することにより実現することができる。

なお、本実施の形態では、図１１に示したように、第２レイヤ復号スペクトルを第３レイヤ復号誤差スペクトルで置換する場合について説明したが、図１４に示すように、置換部１８１を加算部１９１に代えて、加算部１９１が、サブバンド情報が示すサブバンドに対して、第２レイヤ復号スペクトルに第３レイヤ復号誤差スペクトルを加算するようにしてもよい。

（実施の形態２）
図１５は、本発明の実施の形態２に係る第３レイヤ復号スペクトル生成部２００の内部構成を示すブロック図である。図１５が図１１と異なる点は、サブバンド情報記憶部２０１及び重み決定部２０２を追加した点である。

図１５において、サブバンド情報記憶部２０１は、分離部１５１から出力された前フレームのサブバンド情報を記憶し、分離部１５１から現フレームのサブバンド情報が出力されると、記憶していた前フレームのサブバンド情報を重み決定部２０２に出力すると共に、記憶していた前フレームのサブバンド情報を現フレームのサブバンド情報に更新する。

重み決定部２０２は、サブバンド情報記憶部２０１から出力されたサブバンド情報、すなわち、前フレームのサブバンド情報と、分離部１５１から出力された現フレームのサブバンド情報とを比較し、両者が一致しない場合には所定の重みを調整係数算出部１８４’に出力する。両者が一致する場合には、置換後のスペクトルのエネルギーが大きくなるように、置換後のスペクトルのエネルギーの重み（１．０−ｗ）、すなわち、加重平均値の比率を大きくして調整係数算出部１８４’に出力する。

このように実施の形態２によれば、前フレームにおいて第３レイヤの符号化対象として選択されたサブバンド情報と、現フレームのサブバンド情報とが一致するか否かに応じて、置換後のスペクトルのエネルギーの重みを決定することにより、時間領域のスペクトルのエネルギーの不連続を緩和しつつ、原スペクトルと類似の形状を持つ置換後のスペクトルのエネルギーの比率を大きくすることができるので、音質の向上を図ることができる。

なお、本実施の形態では、サブバンド情報記憶部２０１は前フレームのサブバンド情報を記憶する場合について説明したが、過去複数フレーム分のサブバンド情報を記憶してもよい。この場合、現フレームで選択されたサブバンドが連続して数多く選択されているほど、置換後のスペクトルのエネルギーの重み（１．０−ｗ）が大きくなるように設定する。これにより、時間領域のスペクトルのエネルギーの不連続を緩和しつつ、原スペクトルと類似の形状を有する第３レイヤ復号スペクトルのエネルギーの比率を大きくすることができるので、音質をより向上させることができる。

また、本実施の形態においても、図１５に示したように、第２レイヤ復号スペクトルを第３レイヤ復号誤差スペクトルで置換する場合について説明したが、図１６に示すように、置換部１８１を加算部１９１に代えて、加算部１９１が、サブバンド情報が示すサブバンドに対して、第２レイヤ復号スペクトルに第３レイヤ復号誤差スペクトルを加算するようにしてもよい。

（実施の形態３）
本発明の実施の形態３では、実施の形態１及び２において説明した３階層のスケーラブル符号化をＮ（Ｎ≧４）階層に拡張したスケーラブル符号化を適用した場合の音声符号化装置及び音声復号装置について説明する。

図１７は、本発明の実施の形態３に係る音声符号化装置３００の構成を示すブロック図である。図１７が図１と異なる点は、誤差スペクトル生成部１０９、サブバンド決定部１１０及び第３レイヤ符号化部１１１を第３レイヤ処理部３０３とし、さらに、第４〜第Ｎレイヤ処理部３０４〜３０Ｎを追加した点である。

ここで、第ｎ（３≦ｎ≦Ｎ）レイヤ処理部３０ｎの内部構成を図１８に示す。図１８Ａは、最高位以外のレイヤ（すなわち、３≦ｎ≦Ｎ−１）の第ｎレイヤ処理部の構成を示すブロック図であり、図１８Ｂは、最高位のレイヤ（すなわち、ｎ＝Ｎ）の第Ｎレイヤ処理部３０Ｎの構成を示すブロック図である。

図１８Ａに示す第ｎレイヤ処理部３０ｎ（３≦ｎ≦Ｎ−１）と、図１８Ｂに示す第Ｎレイヤ処理部３０Ｎとが異なる点は、第ｎレイヤ復号部３４ｎを含むか否かという点である。すなわち、第ｎレイヤ（３≦ｎ≦Ｎ−１）では、さらに高位のレイヤ処理部が存在するため、その高位のレイヤ処理部において用いられる第ｎレイヤ復号スペクトルを生成する必要がある。よって、第ｎレイヤ処理部３０ｎには第ｎレイヤ復号部３４ｎが含まれる。

一方、第Ｎレイヤ処理部３０Ｎには、それより高位のレイヤ処理部が存在しないため、第ｎレイヤ復号スペクトルを生成する必要がない。よって、第Ｎレイヤ処理部３０Ｎには第ｎレイヤ復号部３４ｎが含まれない。

ちなみに、実施の形態１において説明した図４の音声符号化装置１００は、図１７におけるＮ＝３の構成に相当する。

図１８Ａに示す第ｎレイヤ処理部３０ｎの第ｎレイヤ復号部３４ｎは、図１０に示した第３レイヤ復号部１５６と同一の構成を有し、サブバンド決定部３２ｎから出力された第ｎレイヤサブバンド情報、第（ｎ−１）レイヤ処理部３０（ｎ−１）から出力された第（ｎ−１）レイヤ復号スペクトル、及び、第ｎレイヤ符号化部３３ｎから出力された第ｎレイヤ符号化データ（形状情報とゲイン情報のインデックス）を用いて、第ｎレイヤ復号スペクトルを生成する。生成された第ｎレイヤ復号スペクトルは第（ｎ＋１）レイヤ処理部３０（ｎ＋１）に出力される。

第ｎレイヤ復号部３４ｎは、サブバンド情報が示すサブバンドの第ｎレイヤ復号スペクトルを生成し、生成した第ｎレイヤ復号スペクトルでサブバンド情報が示すサブバンドの第（ｎ−１）レイヤ復号スペクトルを置換する。その結果得られるスペクトルのエネルギーを第（ｎ−１）レイヤ復号スペクトルのエネルギーに近づけて第ｎレイヤ復号スペクトルとする。

図１９は、本発明の実施の形態３に係る音声復号装置３５０の構成を示すブロック図である。図１９が図８と異なる点は、第４レイヤ復号部３５４〜第Ｎレイヤ復号部３５Ｎを追加した点である。図１９において、第ｎレイヤ復号部３５ｎ（４≦ｎ≦Ｎ）は、図１０に示した第３レイヤ復号部１５６と同一の構成を有する。

このように実施の形態３によれば、音声符号化装置において、第ｎレイヤで符号化を行うサブバンドを決定し、音声復号装置において、サブバンド情報が示すサブバンドの第ｎレイヤ復号誤差スペクトルを生成し、生成した第ｎレイヤ復号誤差スペクトルでサブバンド情報が示すサブバンドの第（ｎ−１）レイヤ復号スペクトルを置換し、置換後の第（ｎ−１）レイヤ復号スペクトルのエネルギーが置換前のスペクトルのエネルギーに近づくよう調整することにより、階層数が３以上のスケーラブル符号化にも適用可能であって、時間領域又は周波数領域で発生するスペクトルのエネルギーの不連続を緩和し、かつ、スペクトルの形状が入力信号により近づくため、音質を向上させることができる。

以上、本発明の実施の形態について説明した。

なお、上記各実施の形態においては、音声復号装置１５０、３５０は、それぞれ音声符号化装置１００、３００より伝送された符号化データを入力して処理するという例を示したが、同様の構成を有する符号化データを生成可能な他の構成の符号化装置が出力した符号化データを入力して処理しても良い。

また、上記各実施の形態において、周波数変換として、ＤＦＴ（Discrete Fourier Transform）、ＦＦＴ（Fast Fourier Transform）、ＤＣＴ（Discrete Cosine Transform）、ＭＤＣＴ（Modified Discrete Cosine Transform）、フィルタバンクなどを使用できる。

また、上記各実施の形態では、入力信号として、主に音声信号を適用した場合について説明したが、本発明はこれに限らず、オーディオ信号を適用してもよい。また、入力音声信号の代わりにＬＰＣ予測残差信号を適用してもよい。

また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。例えば、本発明に係る符号化方法／復号方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリ等の記録媒体に記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置／復号装置と同様の機能を実現することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

２００６年１２月２７日出願の特願２００６−３５１７０４の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明にかかる符号化装置、復号装置及びこれらの方法は、移動体通信システムにおける無線通信端末装置、基地局装置等に適用することができる。

一方、第１レイヤにて符号化処理を行った後に、低ビットレートで第１レイヤ復号信号の信号帯域を拡張する符号化方式が報告されている（以下、この符号化方式を「帯域拡張方式」という）。例えば、非特許文献２では、スペクトルの低域部の鏡像を高域部に配置する手法（ミラーリング）が述べられている。また、非特許文献３では、スペクトルの低域部をピッチフィルタのフィルタ状態として利用し、スペクトルの高域部をピッチフィルタの出力信号として表すことにより、低ビットレートで信号帯域を拡張する手法が述べられている。これらの帯域拡張方式は、拡張帯域のスペクトルを忠実に表す代わりに、擬似
的なスペクトルを拡張帯域に配置することにより、低ビットレート化を実現している。
三木弼一編著、"MPEG-4の全て（初版）"、（株）工業調査会、1998年9月30日、p.126-127 Balazs Kobesi他、"A scalable speech and audio coding scheme with continuous bitrate flexibility," Proc. IEEE ICASSP 2004, pp.I-273-I-276. 押切他，"ピッチフィルタリングによる帯域拡張技術を用いた7/10/15kHz帯域スケーラブル音声符号化方式"，音講論集3-11-4, pp.327-328 (2004年3月).

図３は、スペクトル減衰処理の施されるサブバンドと施されないサブバンドとが混在する様子を示している。図３では、拡張帯域を３つのサブバンドに分割し、聴感的に重要度の高いサブバンドから順に第３レイヤ、第４レイヤ、第５レイヤにて符号化する場合を例
として挙げている。

本発明の復号装置は、スケーラブル符号化を用いて符号化された符号化データを復号する復号装置であって、前記符号化データのうち第１レイヤの符号化データを復号して第１復号信号を生成する第１復号手段と、前記第１復号信号を用いて、前記符号化データのうち第２レイヤの符号化データを復号して第２復号信号を生成する第２復号手段と、第（ｎ＋１）復号信号（ｎ≧１、ｎは整数）を用いて、前記符号化データのうち第（ｎ＋２）レイヤの符号化データを復号し、前記第（ｎ＋２）レイヤで復号したスペクトルのエネルギーを前記第（ｎ＋１）復号信号のスペクトルのエネルギーに近づくように調整して第（ｎ
＋２）復号信号を生成する第（ｎ＋２）レイヤ復号手段と（ｎの個数分、配置）、を具備する構成を採る。

ここで、ｗ（ｋ）は重み係数を表す。

以上のフィルタリング処理は、ピッチ係数設定部１２２からピッチ係数Ｔが与えられるたびに、ＦＬ≦ｋ＜ＦＨの範囲において、その都度Ｓ（ｋ）をゼロクリアして行われる。
すなわち、ピッチ係数Ｔが変化するたびにＳ（ｋ）は算出され、探索部１２４に出力される。

ここで、ｗ（ｋ）は重み係数を表す。

図８において、分離部１５１は、音声符号化装置１００により生成された符号化データを、第１レイヤ符号化データ、第２レイヤ符号化データ、サブバンド情報、第３レイヤ符号化データ（形状候補とゲイン候補を表すインデックス（ｉとｍ））に分離する。分離部
１５１は、分離した第１レイヤ符号化データを第１レイヤ復号部１５２に、第２レイヤ符号化データを第２レイヤ復号部１５５に、サブバンド情報及びインデックス（ｉとｍ）を第３レイヤ復号部１５６に出力する。また、分離部１５１は、入力された符号化データがどのレイヤの符号化データかを表すレイヤ情報を取得し、取得したレイヤ情報を判定部１５７及び判定部１５９に出力する。

そこで、判定部１５９は、レイヤ情報に基づいて、ビットストリームに第２レイヤ符号化データ及び第３レイヤ符号化データが含まれているか否かを判定する。判定部１５９は、ビットストリームに第２レイヤ符号化データ及び第３レイヤ符号化データが含まれていない場合、時間領域変換部１５８によって信号が生成されないため、第１レイヤ復号信号を復号信号として出力する。一方、ビットストリームに第２レイヤ符号化データが含まれている場合、または第２レイヤ符号化データ及び第３レイヤ符号化データの双方が含まれ
ている場合、判定部１５９は、時間領域変換部１５８によって生成される信号を復号信号として出力する。

なお、本実施の形態では、図１２に示したように、置換後の第２レイヤ復号スペクトルのエネルギーを置換前の第６サブバンドのスペクトルのエネルギーに近づくように、調整部１８５が第６サブバンド全域に対して調整するものとして説明したが、次のように調整してもよい。すなわち、図１３に示すように、周波数領域で第６サブバンドの両端に近い
ほど、第２レイヤ復号スペクトルのエネルギーにより近づくように置換後の第２レイヤ復号スペクトルのエネルギーを調整するようにしてもよい。これにより、周波数領域で発生するスペクトルのエネルギーの不連続を滑らかに緩和することが可能となり、かつ、スペクトルの形状がより入力信号に近づくため音質をより向上させることができる。

また、本実施の形態においても、図１５に示したように、第２レイヤ復号スペクトルを第３レイヤ復号誤差スペクトルで置換する場合について説明したが、図１６に示すように、置換部１８１を加算部１９１に代えて、加算部１９１が、サブバンド情報が示すサブバンドに対して、第２レイヤ復号スペクトルに第３レイヤ復号誤差スペクトルを加算するよ
うにしてもよい。

このように実施の形態３によれば、音声符号化装置において、第ｎレイヤで符号化を行
うサブバンドを決定し、音声復号装置において、サブバンド情報が示すサブバンドの第ｎレイヤ復号誤差スペクトルを生成し、生成した第ｎレイヤ復号誤差スペクトルでサブバンド情報が示すサブバンドの第（ｎ−１）レイヤ復号スペクトルを置換し、置換後の第（ｎ−１）レイヤ復号スペクトルのエネルギーが置換前のスペクトルのエネルギーに近づくよう調整することにより、階層数が３以上のスケーラブル符号化にも適用可能であって、時間領域又は周波数領域で発生するスペクトルのエネルギーの不連続を緩和し、かつ、スペクトルの形状が入力信号により近づくため、音質を向上させることができる。

以上、本発明の実施の形態について説明した。

Claims

入力信号の周波数低域部を符号化して第１レイヤの符号化データを生成する第１符号化手段と、
前記第１レイヤの符号化データを復号して第１復号信号を生成する第１復号手段と、
前記入力信号と前記第１復号信号とを用いて、前記入力信号の周波数高域部を符号化して第２レイヤの符号化データを生成する第２符号化手段と、
前記第２レイヤの符号化データを復号して第２復号信号を生成する第２復号手段と、
前記入力信号のスペクトルと前記第２復号信号のスペクトルとの誤差スペクトルを符号化して第３レイヤの符号化データを生成する第３レイヤ処理手段と、
を具備する符号化装置。
前記第３レイヤ処理手段の代わりに、
前記入力信号のスペクトルと第（ｎ−１）復号信号（３≦ｎ≦Ｎ−１，Ｎ≧４，ｎとＮは整数）のスペクトルとの誤差スペクトルを符号化して第ｎレイヤの符号化データを生成し、前記第ｎレイヤの符号化データと前記第（ｎ−１）復号信号のスペクトルとを用いて第ｎ復号信号を生成する第ｎレイヤ処理手段と、
前記入力信号のスペクトルと第（Ｎ−１）復号信号のスペクトルとの誤差スペクトルを符号化して第Ｎレイヤの符号化データを生成する第Ｎレイヤ処理手段と、
を具備する、請求項１記載の符号化装置。
前記第ｎレイヤ処理手段は、
前記入力信号のスペクトルと前記第（ｎ−１）復号信号のスペクトルとの誤差スペクトルを生成する誤差スペクトル生成手段と、
前記誤差スペクトルに基づいて、第ｎレイヤの符号化対象とするサブバンドを決定するサブバンド決定手段と、
決定された前記サブバンドについて前記誤差スペクトルを符号化して第ｎレイヤの符号化データを生成する第ｎ符号化手段と、
前記第ｎレイヤの符号化データと前記第（ｎ−１）復号信号のスペクトルとを用いて第ｎ復号信号を生成する第ｎ復号手段と、
を具備する請求項２に記載の符号化装置。
スケーラブル符号化を用いて符号化された符号化データを復号する復号装置であって、
前記符号化データのうち第１レイヤの符号化データを復号して第１復号信号を生成する第１復号手段と、
前記第１復号信号を用いて、前記符号化データのうち第２レイヤの符号化データを復号して第２復号信号を生成する第２復号手段と、
第（ｎ＋１）復号信号（ｎ≧１、ｎは整数）を用いて、前記符号化データのうち第（ｎ＋２）レイヤの符号化データを復号し、前記第（ｎ＋２）レイヤで復号したスペクトルのエネルギーを前記第（ｎ＋１）復号信号のスペクトルのエネルギーに近づくように調整して第（ｎ＋２）復号信号を生成する第（ｎ＋２）レイヤ復号手段と、
を具備する復号装置。
前記第（ｎ＋２）レイヤ復号手段は、
前記第（ｎ＋２）レイヤで復号したスペクトルのエネルギーと前記第（ｎ＋１）復号信号のスペクトルのエネルギーとの加重平均値を用いて、前記第（ｎ＋２）レイヤで復号したスペクトルのエネルギーを調整する、
請求項４に記載の復号装置。
前記第（ｎ＋２）レイヤ復号手段は、
前記第（ｎ＋２）レイヤで復号したスペクトルのうち、第（ｎ＋２）レイヤの符号化対象となったサブバンドの周波数領域における境界に近いスペクトルほど、前記第（ｎ＋１）復号信号のスペクトルのエネルギーに近づくように、さらに調整する、
請求項５に記載の復号装置。
前記第（ｎ＋２）レイヤ復号手段は、
第（ｎ＋２）レイヤの符号化対象となったサブバンドの情報を記憶する記憶手段と、
記憶されたサブバンド情報の履歴に基づいて、前記加重平均値の比率を決定する決定手段と、
を具備する請求項５に記載の復号装置。
入力信号をスケーラブル符号化によって符号化して符号化データを生成する符号化方法であって、
入力信号の周波数低域部を符号化して第１レイヤの符号化データを生成する第１符号化ステップと、
前記第１レイヤの符号化データを復号して第１復号信号を生成する第１復号ステップと、
前記入力信号と前記第１復号信号とを用いて、前記入力信号の周波数高域部を符号化して第２レイヤの符号化データを生成する第２符号化ステップと、
前記第２レイヤの符号化データを復号して第２復号信号を生成する第２復号ステップと、
前記入力信号のスペクトルと前記第２復号信号のスペクトルとの誤差スペクトルを符号化して第３レイヤの符号化データを生成する第３レイヤ処理ステップと、
を具備する符号化方法。
スケーラブル符号化を用いて符号化された符号化データを復号する復号方法であって、
前記符号化データのうち第１レイヤの符号化データを復号して第１復号信号を生成する第１復号ステップと、
前記第１復号信号を用いて、前記符号化データのうち第２レイヤの符号化データを復号して第２復号信号を生成する第２復号ステップと、
第（ｎ＋１）復号信号（ｎ≧１、ｎは整数）を用いて、前記符号化データのうち第（ｎ＋２）レイヤの符号化データを復号し、前記第（ｎ＋２）レイヤで復号したスペクトルのエネルギーを前記第（ｎ＋１）復号信号のスペクトルのエネルギーに近づくように調整して第（ｎ＋２）復号信号を生成する第（ｎ＋２）レイヤ復号ステップと、
を具備する復号方法。