JPWO2008084688A1 - 符号化装置、復号装置及びこれらの方法 - Google Patents

符号化装置、復号装置及びこれらの方法 Download PDF

Info

Publication number
JPWO2008084688A1
JPWO2008084688A1 JP2008553063A JP2008553063A JPWO2008084688A1 JP WO2008084688 A1 JPWO2008084688 A1 JP WO2008084688A1 JP 2008553063 A JP2008553063 A JP 2008553063A JP 2008553063 A JP2008553063 A JP 2008553063A JP WO2008084688 A1 JPWO2008084688 A1 JP WO2008084688A1
Authority
JP
Japan
Prior art keywords
layer
spectrum
decoding
encoded data
decoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008553063A
Other languages
English (en)
Inventor
押切 正浩
正浩 押切
智史 山梨
智史 山梨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPWO2008084688A1 publication Critical patent/JPWO2008084688A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders

Abstract

帯域拡張方式において、スペクトルの減衰処理をサブバンドに施す場合でも、スペクトルエネルギーの不連続を緩和し、復号信号の品質を向上させることができる復号装置等を提供する。この装置の置換部(181)では、サブバンド情報が示すサブバンドの第3レイヤ復号誤差スペクトルでサブバンド情報が示すサブバンドの第2レイヤ復号スペクトルが置換され、調整部(185)では、置換後の第2レイヤ復号スペクトルのエネルギーが置換前のスペクトルのエネルギーに近づくよう調整される。

Description

本発明は、スケーラブル符号化を用いた符号化装置、復号装置及びこれらの方法に関する。
移動体通信システムにおける電波資源等の有効利用のために、音声信号を低ビットレートで圧縮することが要求されている。一方で、通話音声の品質向上や臨場感の高い通話サービスの実現が望まれている。この実現には、音声信号の高品質化のみならず、より帯域の広いオーディオ信号等の音声信号以外の信号をも高品質に符号化できることが望ましい。
このように相反する要求に対し、複数の符号化技術を階層的に統合するアプローチが有望視されている。具体的には、音声信号に適したモデルで入力信号を低ビットレートで符号化する第1レイヤ部と、入力信号と第1レイヤ復号信号の差分信号を音声信号以外の信号にも適したモデルで符号化する第2レイヤ部とを階層的に組み合わせる符号化方式が考えられている。
このような階層構造を有する符号化方式は、符号化されたビットストリームの一部が廃棄されても、残りの情報から復号信号が得られる特徴(スケーラビリティ性)を有するため、スケーラブル符号化と呼ばれる。スケーラブル符号化は、その特徴から、ビットレートの異なるネットワーク間の通信にも柔軟に対応することできるので、IP(インターネットプロトコル)で多様なネットワークが統合されていく今後のネットワーク環境に適したものといえる。
従来のスケーラブル符号化としては、非特許文献1に記載の技術がある。非特許文献1では、MPEG−4(Moving Picture Experts Group phase-4)で規格化された技術を用いてスケーラブル符号化を構成する方法について述べられている。具体的には、音声信号に適したCELP(Code Excited Linear Prediction; 符号励振線形予測)を第1レイヤに用い、原信号から第1レイヤ復号信号を減じた残差信号に対してAAC(Advanced Audio Coder)又はTwinVQ(Transform Domain Weighted Interleave Vector Quantization;周波数領域重み付きインターリーブベクトル量子化)のような変換符号化を第2レイヤに用いる方法について記載されている。
一般に、第1レイヤ(CELP)は帯域の狭い信号(例えば、狭帯域信号)を符号化し、第2レイヤ(変換符号化)は第1レイヤよりも帯域の広い信号(例えば、広帯域信号)を符号化する。この場合、第2レイヤは第1レイヤ復号信号の信号帯域を拡張する機能を併せ持つことになる。このような構成では、AACやTwinVQなどの変換符号化は残差信号を忠実に表すことができる反面、帯域の広い信号を変換符号化にて高音質に符号化するには十分に高いビットレートが必要となる。
一方、第1レイヤにて符号化処理を行った後に、低ビットレートで第1レイヤ復号信号の信号帯域を拡張する符号化方式が報告されている(以下、この符号化方式を「帯域拡張方式」という)。例えば、非特許文献2では、スペクトルの低域部の鏡像を高域部に配置する手法(ミラーリング)が述べられている。また、非特許文献3では、スペクトルの低域部をピッチフィルタのフィルタ状態として利用し、スペクトルの高域部をピッチフィルタの出力信号として表すことにより、低ビットレートで信号帯域を拡張する手法が述べられている。これらの帯域拡張方式は、拡張帯域のスペクトルを忠実に表す代わりに、擬似的なスペクトルを拡張帯域に配置することにより、低ビットレート化を実現している。
三木弼一編著、"MPEG-4の全て(初版)"、(株)工業調査会、1998年9月30日、p.126-127 Balazs Kobesi他 、"A scalable speech and audio coding scheme with continuous bitrate flexibility," Proc. IEEE ICASSP 2004, pp.I-273-I-276. 押切他,"ピッチフィルタリングによる帯域拡張技術を用いた7/10/15kHz帯域スケーラブル音声符号化方式",音講論集3-11-4, pp.327-328 (2004年3月).
ネットワークの伝送レートの変化に対して柔軟に適応する符号化を実現するには、ビットレート刻みの小さい多数のレイヤを階層化する必要がある。前述の変換符号化にてビットレート刻みの小さいレイヤを構成するには、信号帯域を徐々に広げるなどの構成上の制限が必要になる。
図1は、この構成における信号帯域(横軸)と復号信号の品質(縦軸)との関係の一例を示している。この構成では、帯域の狭い信号(信号帯域0≦k<FL)に対しては第1レイヤで符号化を行い、第2〜第5レイヤにて帯域の広い信号(信号帯域0≦k<FH)の符号化を行う。各レイヤのビットレートが低いため、第2〜第5レイヤは拡張帯域(FL≦k<FH)のサブバンドを各々符号化し、レイヤが増える程に信号帯域が広がっていく。この構成では、ネットワークの伝送レートが時間的に変動したときに復号信号の信号帯域が変化し、主観品質の劣化を招いてしまう。
ビットレート刻みの小さいスケーラブル符号化を実現するには、前述の帯域拡張方式の適用が有効である。その構成は、まず第1レイヤで帯域の狭い信号を符号化した後に、第1レイヤ復号信号に対して前述の帯域拡張方式を適用して擬似的なスペクトルを拡張帯域に配置して信号帯域を拡張する。次に、ビットレート刻みの小さい複数のレイヤ(これらのレイヤは変換符号化)にて符号化を行うというものである。
図2は、この構成における信号帯域(横軸)と復号信号の品質(縦軸)との関係の一例を示している。この構成では、少なくとも第2レイヤ(帯域拡張方式)までの符号化データが復号されれば、一定の音質を有する帯域の広い信号が復号される。このため、ネットワークの伝送レートが変動しても、少なくとも第2レイヤまでの符号化データが復号されれば、復号信号の信号帯域の変化は発生しなくなり、主観品質の劣化を回避することができる。
ところで、帯域拡張方式はあくまでも擬似的なスペクトルを生成するのみであり、スペクトルの形状は入力信号のスペクトルと大きく異なる場合がある。このような場合、復号信号に異音が生じ、主観品質を低下させてしまう。
そこで、帯域拡張方式により生成されたスペクトルを所定の手法に基づき減衰させて(例えば、一定の割合で減衰させるなど)、異音の発生を抑制している。一方、このレイヤよりも高位のレイヤ(図2に示す第3〜第5レイヤ)では、変換符号化によりスペクトルを忠実に表すことができるため、上述したようなスペクトルの減衰処理は必要ない。すなわち、拡張帯域において、スペクトルの減衰処理が施されるサブバンドと減衰処理が施されないサブバンドが混在する。
図3は、スペクトル減衰処理の施されるサブバンドと施されないサブバンドとが混在する様子を示している。図3では、拡張帯域を3つのサブバンドに分割し、聴感的に重要度の高いサブバンドから順に第3レイヤ、第4レイヤ、第5レイヤにて符号化する場合を例として挙げている。
また、ここでは、時刻n=1のとき、聴感的に重要度の高いサブバンドの順がA,B,Cと判断されるため、第3レイヤはサブバンドA、第4レイヤはサブバンドB、第5レイヤはサブバンドCを符号化する。また、時刻n=2のとき、聴感的に重要度の高いサブバンドの順がA,C,Bと判断されるため、第3レイヤはサブバンドA、第4レイヤはサブバンドC、第5レイヤはサブバンドBを符号化する。また、時刻n=3のとき、聴感的に重要度の高いサブバンドの順がC,B,Aと判断されるため、第3レイヤはサブバンドC、第4レイヤはサブバンドB、第5レイヤはサブバンドAを符号化する。
仮に、時刻n=1〜3において、復号部が第1〜第4レイヤの符号化データを受信した場合(第5レイヤの符号化データが廃棄される場合)、図中の斜線で示す箇所、すなわち、時刻n=1ではサブバンドCにおいて、時刻n=2ではサブバンドBにおいて、時刻n=3ではサブバンドAにおいてそれぞれスペクトルの減衰処理が施される。
スペクトルの減衰処理が施されるサブバンドと施されないサブバンドが、時間領域又は周波数領域で隣接する場合にスペクトルのエネルギーに不連続が生じる。図3に示す矢印(a)は時間領域での不連続の発生を示し、矢印(b)は周波数領域での不連続の発生を示している。すなわち、この部分でスペクトルエネルギーの不連続による音質劣化が発生してしまう。
本発明の目的は、帯域拡張方式において、スペクトルの減衰処理をサブバンドに施す場合でも、スペクトルエネルギーの不連続を緩和し、復号信号の品質を向上させる符号化装置、復号装置及びこれらの方法を提供することである。
本発明の符号化装置は、入力信号の周波数低域部を符号化して第1レイヤの符号化データを生成する第1符号化手段と、前記第1レイヤの符号化データを復号して第1復号信号を生成する第1復号手段と、前記入力信号と前記第1復号信号とを用いて、前記入力信号の周波数高域部を符号化して第2レイヤの符号化データを生成する第2符号化手段と、前記第2レイヤの符号化データを復号して第2復号信号を生成する第2復号手段と、前記入力信号のスペクトルと前記第2復号信号のスペクトルとの誤差スペクトルを符号化して第3レイヤの符号化データを生成する第3レイヤ処理手段と、を具備する構成を採る。
また、本発明の符号化装置は、上記の符号化装置において、前記第3レイヤ処理手段の代わりに、前記入力信号のスペクトルと第(n−1)復号信号(3≦n≦N−1,N≧4,nとNは整数)のスペクトルとの誤差スペクトルを符号化して第nレイヤの符号化データを生成し、前記第nレイヤの符号化データと前記第(n−1)復号信号のスペクトルとを用いて第n復号信号を生成する第nレイヤ処理手段と(nが3からN−1までの個数分、配置)、前記入力信号のスペクトルと第(N−1)復号信号のスペクトルとの誤差スペクトルを符号化して第Nレイヤの符号化データを生成する第Nレイヤ処理手段と、を具備する構成を採る。
本発明の復号装置は、スケーラブル符号化を用いて符号化された符号化データを復号する復号装置であって、前記符号化データのうち第1レイヤの符号化データを復号して第1復号信号を生成する第1復号手段と、前記第1復号信号を用いて、前記符号化データのうち第2レイヤの符号化データを復号して第2復号信号を生成する第2復号手段と、第(n+1)復号信号(n≧1、nは整数)を用いて、前記符号化データのうち第(n+2)レイヤの符号化データを復号し、前記第(n+2)レイヤで復号したスペクトルのエネルギーを前記第(n+1)復号信号のスペクトルのエネルギーに近づくように調整して第(n+2)復号信号を生成する第(n+2)レイヤ復号手段と(nの個数分、配置)、を具備する構成を採る。
本発明によれば、帯域拡張方式において、スペクトルの減衰処理をサブバンドに施す場合でも、スペクトルエネルギーの不連続を緩和し、復号信号の品質を向上させることができる。
信号帯域と復号信号の品質との関係の一例を示す図 信号帯域と復号信号の品質との関係の一例を示す図 スペクトル減衰処理の施されるサブバンドと施されないサブバンドとが混在する様子を示す図 本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図 図4に示した第2レイヤ符号化部の内部構成を示すブロック図 図5に示したフィルタリング部の動作説明に供する図 図4に示した第3レイヤ符号化部の内部構成を示すブロック図 本発明の実施の形態1に係る音声復号装置の構成を示すブロック図 図8に示した第2レイヤ復号部の内部構成を示すブロック図 図8に示した第3レイヤ復号部の内部構成を示すブロック図 図10に示した第3レイヤ復号スペクトル生成部の内部構成を示すブロック図 図11に示した第3レイヤ復号スペクトル生成部の動作説明に供する図 図11に示した第3レイヤ復号スペクトル生成部のその他の動作説明に供する図 図10に示した第3レイヤ復号スペクトル生成部のその他の内部構成を示すブロック図 本発明の実施の形態2に係る第3レイヤ復号スペクトル生成部の内部構成を示すブロック図 本発明の実施の形態2に係る第3レイヤ復号スペクトル生成部のその他の内部構成を示すブロック図 本発明の実施の形態3に係る音声符号化装置の構成を示すブロック図 本発明の実施の形態3に係る第n(3≦n≦N)レイヤ処理部の内部構成を示すブロック図 本発明の実施の形態3に係る音声復号装置の構成を示すブロック図
以下、本発明の実施の形態について、図面を参照して詳細に説明する。以下の実施の形態では、符号化装置・復号装置の例として、音声符号化装置・音声復号装置について説明する。ただし、実施の形態において、同一の構成には同一の符号を付し、重複する説明は省略する。
本実施の形態では、周波数0≦k<FLの帯域を低域部、周波数FL≦k<FHの帯域を高域部、周波数0≦k<FHの帯域を全帯域と呼ぶ。また、周波数FL≦k<FHの帯域は、低域部を基に帯域拡張されていることから、拡張帯域と呼ぶこともある。
また、実施の形態1及び2では、第1レイヤ〜第3レイヤに階層化したスケーラブル符号化を用いた場合について説明する。第1レイヤは入力信号の低域部(0≦k<FL)を符号化し、第2レイヤは第1レイヤ復号信号の信号帯域を全帯域(0≦k<FH)に低ビットレートで拡張し、第3レイヤは入力信号と第2レイヤ復号信号の誤差成分を符号化するものとする。
(実施の形態1)
図4は、本発明の実施の形態1に係る音声符号化装置100の構成を示すブロック図である。この図において、ダウンサンプリング部101は、時間領域の入力音声信号をダウンサンプリングして、所望のサンプリングレートに変換する。ダウンサンプリングした時間領域信号を第1レイヤ符号化部102に出力する。
第1レイヤ符号化部102は、ダウンサンプリング部101から出力されたダウンサンプリング後の時間領域信号に対し、CELP符号化を用いて符号化を行い、第1レイヤ符号化データを生成する。生成された第1レイヤ符号化データは第1レイヤ復号部103及び多重化部112に出力される。
第1レイヤ復号部103は、第1レイヤ符号化部102から出力された第1レイヤ符号化データを復号して第1レイヤ復号信号を生成する。生成された第1レイヤ復号信号は周波数領域変換部104に出力される。
周波数領域変換部104は、第1レイヤ復号部103から出力された第1レイヤ復号信号の周波数分析を行って第1レイヤ復号スペクトルS1(k)を生成する。生成された第1レイヤ復号スペクトルS1(k)は第2レイヤ符号化部107及び第2レイヤ復号部108に出力される。
遅延部105は、ダウンサンプリング部101、第1レイヤ符号化部102、第1レイヤ復号部103及び周波数領域変換部104における処理時間に相当する遅延を入力音声信号に与える。遅延が与えられた入力音声信号は周波数領域変換部106に出力される。
周波数領域変換部106は、遅延部105から出力された入力音声信号の周波数分析を行って入力スペクトルS2(k)を生成する。生成された入力スペクトルS2(k)は第2レイヤ符号化部107及び誤差スペクトル生成部109に出力される。
第2レイヤ符号化部107は、周波数領域変換部104から出力された第1レイヤ復号スペクトルS1(k)及び周波数領域変換部106から出力された入力スペクトルS2(k)を用いて第2レイヤ符号化データを生成する。生成された第2レイヤ符号化データは第2レイヤ復号部108及び多重化部112に出力される。なお、第2レイヤ符号化部107の詳細については後述する。
第2レイヤ復号部108は、周波数領域変換部104から出力された第1レイヤ復号スペクトルS1(k)と第2レイヤ符号化部107から出力された第2レイヤ符号化データとを用いて、第2レイヤ復号スペクトルS3(k)を生成する。生成された第2レイヤ復号スペクトルS3(k)は誤差スペクトル生成部109に出力される。なお、第2レイヤ復号部108は、音声復号装置における第2レイヤ復号部155(後述)と同一の構成であるため、ここではその詳細については省略し、後述する音声復号装置150の第2レイヤ復号部155の詳細説明(図9参照)で代用する。
誤差スペクトル生成部109は、周波数領域変換部106から出力された入力スペクトルS2(k)と第2レイヤ復号部108から出力された第2レイヤ復号スペクトルS3(k)との差信号(誤差スペクトル)を算出する。ここで、誤差スペクトルをSe(k)と表したとき、誤差スペクトルSe(k)は次式(1)に従い算出される。
Figure 2008084688
また、第2レイヤ復号スペクトルS3(k)における高域部のスペクトルは、擬似的なスペクトルであるため、スペクトルの形状は入力スペクトルS2(k)と大きく異なることがある。よって、第2レイヤ復号スペクトルS3(k)の高域部のスペクトルをゼロとおいたときの入力スペクトルS2(k)との差を誤差スペクトルとしてもよい。その場合、誤差スペクトルSe(k)は次式(2)のように求められる。
Figure 2008084688
算出された誤差スペクトルSe(k)はサブバンド決定部110及び第3レイヤ符号化部111に出力される。
サブバンド決定部110は、誤差スペクトル生成部109から出力された誤差スペクトルSe(k)に基づいて、第3レイヤで符号化を行うサブバンドを決定する。このサブバンドの決定は、誤差スペクトルSe(k)のエネルギーを各サブバンドで求め、サブバンドエネルギーの最も大きいサブバンドを選択することにより行われる。
ここで、全帯域をJ個のサブバンドに分割し、第jサブバンドの最低周波数をSBL(j)、最高周波数をSBH(j)と表したとき、サブバンドエネルギーEsb(j)は次式(3)のように算出される。
Figure 2008084688
または、聴感的に重要なスペクトルに大きな重みを与えることにより、聴感的に重要なスペクトルの影響を大きくしてサブバンドエネルギーを求めてもよい。その場合、サブバンドエネルギーは次式(4)のように算出される。
Figure 2008084688
ここで、w(k)は重み係数を表す。
サブバンド決定部110は、このようにして算出したサブバンドエネルギーのうち、最大となるサブバンドを選択し、選択したサブバンド情報jを第3レイヤ符号化部111及び多重化部112に出力する。
第3レイヤ符号化部111は、サブバンド決定部110から出力されたサブバンド情報によって特定されるサブバンドに含まれる誤差スペクトルSe(k)を符号化し、その符号化データを第3レイヤ符号化データとして多重化部112に出力する。
多重化部112は、サブバンド決定部110から出力されたサブバンド情報j、第1レイヤ符号化部102から出力された第1レイヤ符号化データ、第2レイヤ符号化部107から出力された第2レイヤ符号化データ、及び、第3レイヤ符号化部111から出力された第3レイヤ符号化データを多重化し、符号化データとして出力する。
このように符号化を行うサブバンドを選択することにより、誤差スペクトルの大きいサブバンドを優先して符号化することができるようになる。これにより、このレイヤに与えられるビットレートが小さい場合でも、主観品質を改善することができる。また、このような低ビットレートのレイヤを数多く階層化することにより、ビットレート刻みの小さいスケーラブル符号化を実現することができる。その場合、この符号化方式は、通信路のビットレートの変化に柔軟に適応することができる。
図5は、図4に示した第2レイヤ符号化部107の内部構成を示すブロック図である。この図において、内部状態設定部121には、周波数領域変換部104から第1レイヤ復号スペクトルS1(k)(0≦k<FL)が入力される。内部状態設定部121は、入力された第1レイヤ復号スペクトルS1(k)を用いて、フィルタリング部123において用いられるフィルタの内部状態を設定する。
ピッチ係数設定部122は、後述する探索部124からの制御に従って、ピッチ係数Tを予め定められた探索範囲Tmin〜Tmaxの中で少しずつ変化させながら、フィルタリング部123に順次出力する。
フィルタリング部123は、内部状態設定部121によって設定されたフィルタの内部状態と、ピッチ係数設定部122から出力されたピッチ係数Tとに基づいて、周波数領域変換部104から入力された第1レイヤ復号スペクトルS1(k)のフィルタリングを行い、入力スペクトルの推定値S2’(k)を算出する。算出された入力スペクトルの推定値S2’(k)は探索部124に出力される。このフィルタリング処理の詳細については後述する。
探索部124は、周波数領域変換部106から出力された入力スペクトルS2(k)(0≦k<FH)とフィルタリング部123から出力された入力スペクトルの推定値S2’(k)との類似性を示すパラメータである類似度を算出する。この類似度の算出処理は、ピッチ係数設定部122からフィルタリング部123へピッチ係数Tが与えられるたびに行われ、算出された類似度が最大となるピッチ係数(最適なピッチ係数)T’(Tmin〜Tmaxの範囲)が多重化部126に出力される。また、探索部124は、このピッチ係数T’を用いて生成される入力スペクトルの推定値S2’(k)をゲイン符号化部125に出力する。
ゲイン符号化部125は、周波数領域変換部106から出力された入力スペクトルS2(k)(0≦k<FH)に基づいて、入力スペクトルS2(k)のゲイン情報を算出する。なお、ここでは、このゲイン情報をサブバンド毎のスペクトルパワで表し、周波数帯域FL≦k<FHをJ個のサブバンドに分割する場合を例に説明する。このとき、第jサブバンドのスペクトルパワB(j)は式(5)で表される。式(5)において、BL(j)は第jサブバンドの最小周波数、BH(j)は第jサブバンドの最大周波数を表す。このようにして求めた入力スペクトルのサブバンド情報を入力スペクトルのゲイン情報とみなす。
Figure 2008084688
また、ゲイン符号化部125は、同様に、入力スペクトルの推定値S2’(k)のサブバンド情報B’(j)を式(6)に従い算出し、サブバンド毎の変動量V(j)を式(7)に従い算出する。
Figure 2008084688
Figure 2008084688
次に、ゲイン符号化部125は、変動量V(j)を符号化して符号化後の変動量V(j)を求め、そのインデックスを多重化部126に出力する。
多重化部126は、探索部124から出力された最適なピッチ係数T’とゲイン符号化部125から出力された変動量Vq(j)のインデックスとを多重化して、第2レイヤ符号化データとして多重化部112に出力する。なお、多重化部126を設けずに、探索部124から出力された最適なピッチ係数T’とゲイン符号化部125から出力された変動量Vq(j)のインデックスとを第2レイヤ復号部108および多重化部112に直接入力し、多重化部112にてこれらを第1レイヤ符号化データ、サブバンド情報、および第3レイヤ符号化データと多重してもよい。
次いで、図5に示したフィルタリング部123でのフィルタリング処理の詳細について説明する。フィルタリング部123が、ピッチ係数設定部122から出力されたピッチ係数Tを用いて、帯域FL≦k<FHのスペクトルを生成する様子を図6に示す。ここでは、全帯域(0≦k<FH)のスペクトルを便宜的にS(k)と呼び、フィルタ関数P(z)は式(8)で表されるものを使用する。この式において、Tはピッチ係数設定部122より与えられたピッチ係数を表しており、またM=1とする。
Figure 2008084688
S(k)の0≦k<FLの帯域には、第1レイヤ復号スペクトルS1(k)がフィルタの内部状態として格納される。一方、S(k)のFL≦k<FHの帯域には、以下の手順により求められた入力スペクトルの推定値S2’(k)が格納される。
S2’(k)には、フィルタリング処理により、kよりTだけ低い周波数のスペクトルS(k−T)に、このスペクトルを中心としてiだけ離れた近傍のスペクトルS(k−T−i)に所定の重み付け係数βを乗じたスペクトルβ・S(k−T−i)を全て加算したスペクトル、すなわち、式(9)により表されるスペクトルが代入される。そしてこの演算を、周波数の低い方(k=FL)から順にkをFL≦k<FHの範囲で変化させて行うことにより、FL≦k<FHにおける入力スペクトルの推定値S2’(k)が算出される。
Figure 2008084688
以上のフィルタリング処理は、ピッチ係数設定部122からピッチ係数Tが与えられるたびに、FL≦k<FHの範囲において、その都度S(k)をゼロクリアして行われる。すなわち、ピッチ係数Tが変化するたびにS(k)は算出され、探索部124に出力される。
図7は、図4に示した第3レイヤ符号化部111の内部構成を示すブロック図である。ただし、本実施の形態では、第3レイヤ符号化部111に形状利得ベクトル量子化を用いる場合について説明する。
図7において、サブバンドスペクトル抽出部141には、誤差スペクトル生成部109から誤差スペクトルSe(k)が入力される。サブバンドスペクトル抽出部141は、サブバンド決定部110から出力されたサブバンド情報に基づいて、サブバンド情報で表される帯域を誤差スペクトルSe(k)から抽出し、抽出した誤差スペクトルをサブバンドスペクトルSt(k)として誤差算出部144に出力する。
第3レイヤ符号化部111は、スペクトルの形状を表す候補(形状候補)が多数格納された形状符号帳142と、スペクトルのゲインを表す候補(ゲイン候補)が多数格納されたゲイン符号帳143とを有する。第i番目の形状候補と第m番目のゲイン候補、そしてターゲットとなるサブバンドスペクトルが誤差算出部144に入力され、誤差算出部144では次式(10)で表される誤差Eを算出する。
Figure 2008084688
ここで、sh(i,k)は第i番目の形状候補、ga(m)は第m番目のゲイン候補を表す。算出された誤差Eは探索部145に出力される。
探索部145は、誤差算出部144から出力された誤差Eに基づいて、誤差Eが最も小さくなるときの形状候補とゲイン候補の組み合わせを探索する。これは、形状候補とゲイン候補の乗算結果がサブバンドスペクトルに最も類似するときの形状候補とゲイン候補の組み合わせを求めることを意味する。形状候補とゲイン候補を同時に決定してもよいし、形状候補を決定してからゲイン候補を決定もしくはゲイン候補を決定してから形状候補を決定してもよい。また、聴感的に重要なスペクトルに大きな重みを与えることにより、聴感的に重要なスペクトルの影響を大きくして、次式(11)のように誤差Eを求めてもよい。
Figure 2008084688
ここで、w(k)は重み係数を表す。
このようにして求めた形状候補とゲイン候補を表すインデックス(iとm)は、第3レイヤ符号化データとして多重化部112に出力される。
次いで、図4に示した音声符号化装置100に対応する本実施の形態に係る音声復号装置150について説明する。図8は、音声復号装置150の構成を示すブロック図である。この音声復号装置150は、図4に示した音声符号化装置100により生成された符号化データを復号するものである。
図8において、分離部151は、音声符号化装置100により生成された符号化データを、第1レイヤ符号化データ、第2レイヤ符号化データ、サブバンド情報、第3レイヤ符号化データ(形状候補とゲイン候補を表すインデックス(iとm))に分離する。分離部151は、分離した第1レイヤ符号化データを第1レイヤ復号部152に、第2レイヤ符号化データを第2レイヤ復号部155に、サブバンド情報及びインデックス(iとm)を第3レイヤ復号部156に出力する。また、分離部151は、入力された符号化データがどのレイヤの符号化データかを表すレイヤ情報を取得し、取得したレイヤ情報を判定部157及び判定部159に出力する。
第1レイヤ復号部152は、分離部151から出力された第1レイヤ符号化データを復号して第1レイヤ復号信号を得る。第1レイヤ復号信号はアップサンプリング部153及び周波数領域変換部154に出力される。
アップサンプリング部153は、第1レイヤ復号部152から出力された第1レイヤ復号信号のサンプリングレートを入力信号と同じサンプリングレートに変換(アップサンプリング)する。アップサンプリングされた第1レイヤ復号信号は判定部159に出力される。
周波数領域変換部154は、第1レイヤ復号部152から出力された第1レイヤ復号信号を周波数分析して第1レイヤ復号スペクトルS1(k)を生成する。生成された第1レイヤ復号スペクトルS1(k)は第2レイヤ復号部155に出力される。
第2レイヤ復号部155は、分離部151から出力された第2レイヤ符号化データを、周波数領域変換部154から出力された第1レイヤ復号スペクトルS1(k)を用いて復号し、第2レイヤ復号スペクトルS3(k)を得る。得られた第2レイヤ復号スペクトルS3(k)は第3レイヤ復号部156及び判定部157に出力される。
第3レイヤ復号部156は、第2レイヤ復号部155から出力された第2レイヤ復号スペクトルS3(k)、分離部151から出力された形状候補とゲイン候補を表すインデックス及びサブバンド情報を用いて、第3レイヤ復号スペクトルS4(k)を生成する。生成された第3レイヤ復号スペクトルS4(k)は判定部157に出力される。
判定部157は、分離部151から出力されたレイヤ情報に基づいて、第2レイヤ復号部155から出力された第2レイヤ復号スペクトルS3(k)又は第3レイヤ復号部156から出力された第3レイヤ復号スペクトルS4(k)の一方を時間領域変換部158に出力する。
時間領域変換部158は、判定部157から出力された第2レイヤ復号スペクトルS3(k)又は第3レイヤ復号スペクトルS4(k)を時間領域信号に変換し、得られた信号を判定部159に出力する。
判定部159は、分離部151から出力されたレイヤ情報に基づいて、符号化データに第2レイヤ符号化データと第3レイヤ符号化データが含まれているか否か判定する。ここで、音声符号化装置100を搭載する無線送信装置は、ビットストリームに第1レイヤ符号化データ〜第3レイヤ符号化データを含めて送信するが、通信経路の途中において符号化データの全てまたは一部が廃棄される場合がある。
そこで、判定部159は、レイヤ情報に基づいて、ビットストリームに第2レイヤ符号化データ及び第3レイヤ符号化データが含まれているか否かを判定する。判定部159は、ビットストリームに第2レイヤ符号化データ及び第3レイヤ符号化データが含まれていない場合、時間領域変換部158によって信号が生成されないため、第1レイヤ復号信号を復号信号として出力する。一方、ビットストリームに第2レイヤ符号化データが含まれている場合、または第2レイヤ符号化データ及び第3レイヤ符号化データの双方が含まれている場合、判定部159は、時間領域変換部158によって生成される信号を復号信号として出力する。
図9は、図8に示した第2レイヤ復号部155の内部構成を示すブロック図である。なお、この構成は音声符号化装置100の第2レイヤ復号部108と同一である。この図において、内部状態設定部161には、周波数領域変換部154から第1レイヤ復号スペクトルS1(k)が入力される。内部状態設定部161は、第1レイヤ復号スペクトルS1(k)を用いて、フィルタリング部163で用いられるフィルタの内部状態を設定する。
分離部162には、分離部151から第2レイヤ符号化データが入力される。分離部162は、第2レイヤ符号化データをフィルタリング係数に関する情報(最適なピッチ係数T’)とゲインに関する情報(変動量V(j)のインデックス)とに分離し、フィルタリング係数に関する情報をフィルタリング部163に出力すると共に、ゲインに関する情報をゲイン復号部164に出力する。なお、最適なピッチ係数T’とゲインに関する変動量V(j)のインデックスとが分離部151で分離され、それぞれフィルタリング部163とゲイン復号部164に入力される場合は、分離部162は不要である。
フィルタリング部163は、内部状態設定部161によって設定されたフィルタの内部状態と、分離部162から出力されたピッチ係数T’とに基づいて、第1レイヤ復号スペクトルS1(k)のフィルタリングを行い、入力スペクトルの推定値S2’(k)(復号スペクトルS’(k))を算出する。算出された復号スペクトルS’(k)はスペクトル調整部165に出力される。なお、フィルタリング部163では、式(8)で示すフィルタ関数が用いられる。
ゲイン復号部164は、分離部162から出力されたゲイン情報を復号し、変動量V(j)を符号化して得られる変動量V(j)を求める。求められた変動量V(j)はスペクトル調整部165に出力される。
スペクトル調整部165は、フィルタリング部163から出力された復号スペクトルS'(k)に、ゲイン復号部164から出力されたサブバンド毎の変動量V(j)を式(12)に従い乗じることにより、復号スペクトルS’(k)の周波数帯域FL≦k<FHにおけるスペクトル形状を調整し、調整後の復号スペクトルS3(k)を生成する。この調整後の復号スペクトルS3(k)は、第2レイヤ復号スペクトルS3(k)として判定部157に出力される。
Figure 2008084688
図10は、図8に示した第3レイヤ復号部156の内部構成を示すブロック図である。この図において、形状符号帳171は、分離部151から出力された形状候補とゲイン候補とのインデックスに基づいて、形状候補sh(i,k)を選択し、選択した形状候補sh(i,k)を乗算部173に出力する。
ゲイン符号帳172は、分離部151から出力された形状候補とゲイン候補とのインデックスに基づいて、ゲイン候補ga(m)を選択し、選択したゲイン候補ga(m)を乗算部173に出力する。
乗算部173は、形状符号帳171から出力された形状候補sh(i,k)にゲイン符号帳172から出力されたゲイン候補ga(m)を乗算し、乗算結果(第3レイヤ復号誤差スペクトル)を第3レイヤ復号スペクトル生成部174に出力する。
第3レイヤ復号スペクトル生成部174は、分離部151から出力されたサブバンド情報、第2レイヤ復号部155から出力された第2レイヤ復号スペクトルS3(k)、乗算部173から出力された第3レイヤ復号誤差スペクトルを用いて、第3レイヤ復号スペクトルS4(k)を生成する。
具体的には、第3レイヤ復号スペクトル生成部174は、第2レイヤ復号スペクトルS3(k)のうち、サブバンド情報で特定されるサブバンドに第3レイヤ復号誤差スペクトルを加算又は置換する。加算又は置換のいずれを用いるかは、音声符号化装置100にて誤差スペクトルSe(k)がどのように生成されたかに依存する。誤差スペクトルSe(k)が、入力スペクトルS2(k)から復号スペクトルS3(k)を減じて求められた場合(すなわち、式(1)が用いられた場合)には加算を行い、第2レイヤ復号スペクトルS3(k)をゼロとおいて誤差スペクトルから減じた場合(すなわち、入力スペクトルそのものであり、式(2)が用いられた場合)には置換を行う。加算又は置換した後のスペクトルのエネルギーを第2レイヤ復号スペクトルのエネルギーに近づけ、第3レイヤ復号スペクトルS4(k)として出力する。
図11は、図10に示した第3レイヤ復号スペクトル生成部174の内部構成を示すブロック図である。図11では、第2レイヤ復号スペクトルS3(k)のうち、サブバンド情報で特定されるサブバンドにゲイン候補乗算後の形状候補を置換する場合について示す。
図11において、置換部181は、分離部151から出力されたサブバンド情報が示すサブバンドに対して、第2レイヤ復号部155から出力された第2レイヤ復号スペクトルS3(k)を乗算部173から出力された第3レイヤ復号誤差スペクトルで置換する。置換された第2レイヤ復号スペクトルはエネルギー算出部183及び調整部185に出力される。
エネルギー算出部182は、分離部151から出力されたサブバンド情報が示すサブバンドに対して、第2レイヤ復号部155から出力された第2レイヤ復号スペクトルS3(k)(すなわち、置換前のスペクトル)のエネルギーを算出し、算出したエネルギーを調整係数算出部184に出力する。
エネルギー算出部183は、分離部151から出力されたサブバンド情報が示すサブバンドに対して、置換部181から出力された置換後の第2レイヤ復号スペクトルのエネルギーを算出し、算出したエネルギーを調整係数算出部184に出力する。
調整係数算出部184は、エネルギー算出部182及び183から出力されたスペクトルエネルギーに基づいて、調整係数を算出し、算出した調整係数を調整部185に出力する。調整係数は、置換後の第2レイヤ復号スペクトルのサブバンド情報が示すサブバンドに乗じる係数であり、置換後の第2レイヤ復号スペクトルのエネルギーが置換前の第2レイヤ復号スペクトルのエネルギーに近づくように決定される。
例えば、調整係数は、置換前のスペクトルのエネルギーと置換後のスペクトルのエネルギーの加重平均値を基にして求める。置換前の第2レイヤ復号スペクトルのエネルギーをE1、置換後の第2レイヤ復号スペクトルのエネルギーをE2とし、加重平均値を求めるための置換前の第2レイヤ復号スペクトルのエネルギーの重みをw、置換後の第2レイヤ復号スペクトルのエネルギーの重みを(1−w(ただし、0≦w≦1))とする。このとき、第2レイヤ復号スペクトルのエネルギーの加重平均値Eave、及び、調整係数cは次のように表される。
Figure 2008084688
Figure 2008084688
調整部185は、分離部151から出力されたサブバンド情報が示すサブバンドに対して、置換部181から出力された置換後の第2レイヤ復号スペクトルに調整係数算出部184から出力された調整係数を乗じることにより、置換後の第2レイヤ復号スペクトルのエネルギーを置換前の第2レイヤ復号スペクトルのエネルギーに近づける。調整部185は、調整係数乗算後のスペクトルを第3レイヤ復号スペクトルとして出力する。
次いで、図11に示した第3レイヤ復号スペクトル生成部174の動作について図12を用いて説明する。図12Aは、入力スペクトルに対する第2レイヤ復号スペクトルのエネルギーの相対値(以下、「相対値」という)を図式化したものである。仮に、第2レイヤ復号スペクトルが入力スペクトルと同等のエネルギーを有する場合、1.0の相対値を得ることになる。
第2レイヤ復号スペクトルの低域部のスペクトルは第1レイヤ復号部152、高域部のスペクトルは第2レイヤ復号部155によって生成されたものである。第2レイヤ復号部155は、擬似的なスペクトルを生成しており、異音の発生を抑制するために所定の手法(例えば一定割合で減衰)に基づいて、高域部のスペクトルを減衰させている。従って、図12Aの高域部の相対値は低域部の相対値に比べ小さな値となっている。
第3レイヤ復号部156は、サブバンド情報が示すサブバンド(ここでは第6サブバンド)の第3レイヤ復号誤差スペクトルを生成し、第3レイヤ復号スペクトル生成部174の置換部181では、第3レイヤ復号誤差スペクトルで第6サブバンドの第2レイヤ復号スペクトルを置換する。
第3レイヤ復号スペクトル生成部174の調整部185では、図12Bに示すように、置換後の第2レイヤ復号スペクトルのエネルギーが置換前の第6サブバンドのスペクトルのエネルギーに近づくようスペクトルを調整する。これにより、時間領域又は周波数領域で発生するスペクトルのエネルギーの不連続を緩和し、かつ、スペクトルの形状が入力信号により近づくため、音質を向上させることができる。
このように実施の形態1によれば、音声符号化装置において、第3レイヤで符号化を行うサブバンドを決定し、音声復号装置において、サブバンド情報が示すサブバンドの第3レイヤ復号誤差スペクトルを生成し、生成した第3レイヤ復号誤差スペクトルでサブバンド情報が示すサブバンドの第2レイヤ復号スペクトルを置換し、置換後の第2レイヤ復号スペクトルのエネルギーが置換前のスペクトルのエネルギーに近づくよう調整することにより、時間領域又は周波数領域で発生するスペクトルのエネルギーの不連続を緩和し、かつ、スペクトルの形状が入力信号により近づくため、音質を向上させることができる。
なお、本実施の形態では、図12に示したように、置換後の第2レイヤ復号スペクトルのエネルギーを置換前の第6サブバンドのスペクトルのエネルギーに近づくように、調整部185が第6サブバンド全域に対して調整するものとして説明したが、次のように調整してもよい。すなわち、図13に示すように、周波数領域で第6サブバンドの両端に近いほど、第2レイヤ復号スペクトルのエネルギーにより近づくように置換後の第2レイヤ復号スペクトルのエネルギーを調整するようにしてもよい。これにより、周波数領域で発生するスペクトルのエネルギーの不連続を滑らかに緩和することが可能となり、かつ、スペクトルの形状がより入力信号に近づくため音質をより向上させることができる。
この調整部185の処理は、図11に示した調整係数算出部184において、周波数領域でサブバンドの両端に近いほど、置換前の第2レイヤ復号スペクトルのエネルギーの重みwが大きくなるように設定し、調整係数を算出することにより実現することができる。
なお、本実施の形態では、図11に示したように、第2レイヤ復号スペクトルを第3レイヤ復号誤差スペクトルで置換する場合について説明したが、図14に示すように、置換部181を加算部191に代えて、加算部191が、サブバンド情報が示すサブバンドに対して、第2レイヤ復号スペクトルに第3レイヤ復号誤差スペクトルを加算するようにしてもよい。
(実施の形態2)
図15は、本発明の実施の形態2に係る第3レイヤ復号スペクトル生成部200の内部構成を示すブロック図である。図15が図11と異なる点は、サブバンド情報記憶部201及び重み決定部202を追加した点である。
図15において、サブバンド情報記憶部201は、分離部151から出力された前フレームのサブバンド情報を記憶し、分離部151から現フレームのサブバンド情報が出力されると、記憶していた前フレームのサブバンド情報を重み決定部202に出力すると共に、記憶していた前フレームのサブバンド情報を現フレームのサブバンド情報に更新する。
重み決定部202は、サブバンド情報記憶部201から出力されたサブバンド情報、すなわち、前フレームのサブバンド情報と、分離部151から出力された現フレームのサブバンド情報とを比較し、両者が一致しない場合には所定の重みを調整係数算出部184’に出力する。両者が一致する場合には、置換後のスペクトルのエネルギーが大きくなるように、置換後のスペクトルのエネルギーの重み(1.0−w)、すなわち、加重平均値の比率を大きくして調整係数算出部184’に出力する。
このように実施の形態2によれば、前フレームにおいて第3レイヤの符号化対象として選択されたサブバンド情報と、現フレームのサブバンド情報とが一致するか否かに応じて、置換後のスペクトルのエネルギーの重みを決定することにより、時間領域のスペクトルのエネルギーの不連続を緩和しつつ、原スペクトルと類似の形状を持つ置換後のスペクトルのエネルギーの比率を大きくすることができるので、音質の向上を図ることができる。
なお、本実施の形態では、サブバンド情報記憶部201は前フレームのサブバンド情報を記憶する場合について説明したが、過去複数フレーム分のサブバンド情報を記憶してもよい。この場合、現フレームで選択されたサブバンドが連続して数多く選択されているほど、置換後のスペクトルのエネルギーの重み(1.0−w)が大きくなるように設定する。これにより、時間領域のスペクトルのエネルギーの不連続を緩和しつつ、原スペクトルと類似の形状を有する第3レイヤ復号スペクトルのエネルギーの比率を大きくすることができるので、音質をより向上させることができる。
また、本実施の形態においても、図15に示したように、第2レイヤ復号スペクトルを第3レイヤ復号誤差スペクトルで置換する場合について説明したが、図16に示すように、置換部181を加算部191に代えて、加算部191が、サブバンド情報が示すサブバンドに対して、第2レイヤ復号スペクトルに第3レイヤ復号誤差スペクトルを加算するようにしてもよい。
(実施の形態3)
本発明の実施の形態3では、実施の形態1及び2において説明した3階層のスケーラブル符号化をN(N≧4)階層に拡張したスケーラブル符号化を適用した場合の音声符号化装置及び音声復号装置について説明する。
図17は、本発明の実施の形態3に係る音声符号化装置300の構成を示すブロック図である。図17が図1と異なる点は、誤差スペクトル生成部109、サブバンド決定部110及び第3レイヤ符号化部111を第3レイヤ処理部303とし、さらに、第4〜第Nレイヤ処理部304〜30Nを追加した点である。
ここで、第n(3≦n≦N)レイヤ処理部30nの内部構成を図18に示す。図18Aは、最高位以外のレイヤ(すなわち、3≦n≦N−1)の第nレイヤ処理部の構成を示すブロック図であり、図18Bは、最高位のレイヤ(すなわち、n=N)の第Nレイヤ処理部30Nの構成を示すブロック図である。
図18Aに示す第nレイヤ処理部30n(3≦n≦N−1)と、図18Bに示す第Nレイヤ処理部30Nとが異なる点は、第nレイヤ復号部34nを含むか否かという点である。すなわち、第nレイヤ(3≦n≦N−1)では、さらに高位のレイヤ処理部が存在するため、その高位のレイヤ処理部において用いられる第nレイヤ復号スペクトルを生成する必要がある。よって、第nレイヤ処理部30nには第nレイヤ復号部34nが含まれる。
一方、第Nレイヤ処理部30Nには、それより高位のレイヤ処理部が存在しないため、第nレイヤ復号スペクトルを生成する必要がない。よって、第Nレイヤ処理部30Nには第nレイヤ復号部34nが含まれない。
ちなみに、実施の形態1において説明した図4の音声符号化装置100は、図17におけるN=3の構成に相当する。
図18Aに示す第nレイヤ処理部30nの第nレイヤ復号部34nは、図10に示した第3レイヤ復号部156と同一の構成を有し、サブバンド決定部32nから出力された第nレイヤサブバンド情報、第(n−1)レイヤ処理部30(n−1)から出力された第(n−1)レイヤ復号スペクトル、及び、第nレイヤ符号化部33nから出力された第nレイヤ符号化データ(形状情報とゲイン情報のインデックス)を用いて、第nレイヤ復号スペクトルを生成する。生成された第nレイヤ復号スペクトルは第(n+1)レイヤ処理部30(n+1)に出力される。
第nレイヤ復号部34nは、サブバンド情報が示すサブバンドの第nレイヤ復号スペクトルを生成し、生成した第nレイヤ復号スペクトルでサブバンド情報が示すサブバンドの第(n−1)レイヤ復号スペクトルを置換する。その結果得られるスペクトルのエネルギーを第(n−1)レイヤ復号スペクトルのエネルギーに近づけて第nレイヤ復号スペクトルとする。
図19は、本発明の実施の形態3に係る音声復号装置350の構成を示すブロック図である。図19が図8と異なる点は、第4レイヤ復号部354〜第Nレイヤ復号部35Nを追加した点である。図19において、第nレイヤ復号部35n(4≦n≦N)は、図10に示した第3レイヤ復号部156と同一の構成を有する。
このように実施の形態3によれば、音声符号化装置において、第nレイヤで符号化を行うサブバンドを決定し、音声復号装置において、サブバンド情報が示すサブバンドの第nレイヤ復号誤差スペクトルを生成し、生成した第nレイヤ復号誤差スペクトルでサブバンド情報が示すサブバンドの第(n−1)レイヤ復号スペクトルを置換し、置換後の第(n−1)レイヤ復号スペクトルのエネルギーが置換前のスペクトルのエネルギーに近づくよう調整することにより、階層数が3以上のスケーラブル符号化にも適用可能であって、時間領域又は周波数領域で発生するスペクトルのエネルギーの不連続を緩和し、かつ、スペクトルの形状が入力信号により近づくため、音質を向上させることができる。
以上、本発明の実施の形態について説明した。
なお、上記各実施の形態においては、音声復号装置150、350は、それぞれ音声符号化装置100、300より伝送された符号化データを入力して処理するという例を示したが、同様の構成を有する符号化データを生成可能な他の構成の符号化装置が出力した符号化データを入力して処理しても良い。
また、上記各実施の形態において、周波数変換として、DFT(Discrete Fourier Transform)、FFT(Fast Fourier Transform)、DCT(Discrete Cosine Transform)、MDCT(Modified Discrete Cosine Transform)、フィルタバンクなどを使用できる。
また、上記各実施の形態では、入力信号として、主に音声信号を適用した場合について説明したが、本発明はこれに限らず、オーディオ信号を適用してもよい。また、入力音声信号の代わりにLPC予測残差信号を適用してもよい。
また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。例えば、本発明に係る符号化方法/復号方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリ等の記録媒体に記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置/復号装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
2006年12月27日出願の特願2006−351704の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明にかかる符号化装置、復号装置及びこれらの方法は、移動体通信システムにおける無線通信端末装置、基地局装置等に適用することができる。
本発明は、スケーラブル符号化を用いた符号化装置、復号装置及びこれらの方法に関する。
移動体通信システムにおける電波資源等の有効利用のために、音声信号を低ビットレートで圧縮することが要求されている。一方で、通話音声の品質向上や臨場感の高い通話サービスの実現が望まれている。この実現には、音声信号の高品質化のみならず、より帯域の広いオーディオ信号等の音声信号以外の信号をも高品質に符号化できることが望ましい。
このように相反する要求に対し、複数の符号化技術を階層的に統合するアプローチが有望視されている。具体的には、音声信号に適したモデルで入力信号を低ビットレートで符号化する第1レイヤ部と、入力信号と第1レイヤ復号信号の差分信号を音声信号以外の信号にも適したモデルで符号化する第2レイヤ部とを階層的に組み合わせる符号化方式が考えられている。
このような階層構造を有する符号化方式は、符号化されたビットストリームの一部が廃棄されても、残りの情報から復号信号が得られる特徴(スケーラビリティ性)を有するため、スケーラブル符号化と呼ばれる。スケーラブル符号化は、その特徴から、ビットレートの異なるネットワーク間の通信にも柔軟に対応することできるので、IP(インターネットプロトコル)で多様なネットワークが統合されていく今後のネットワーク環境に適したものといえる。
従来のスケーラブル符号化としては、非特許文献1に記載の技術がある。非特許文献1では、MPEG−4(Moving Picture Experts Group phase-4)で規格化された技術を用いてスケーラブル符号化を構成する方法について述べられている。具体的には、音声信号に適したCELP(Code Excited Linear Prediction; 符号励振線形予測)を第1レイヤに用い、原信号から第1レイヤ復号信号を減じた残差信号に対してAAC(Advanced Audio Coder)又はTwinVQ(Transform Domain Weighted Interleave Vector Quantization;周波数領域重み付きインターリーブベクトル量子化)のような変換符号化を第2レイヤに用いる方法について記載されている。
一般に、第1レイヤ(CELP)は帯域の狭い信号(例えば、狭帯域信号)を符号化し、第2レイヤ(変換符号化)は第1レイヤよりも帯域の広い信号(例えば、広帯域信号)を符号化する。この場合、第2レイヤは第1レイヤ復号信号の信号帯域を拡張する機能を併せ持つことになる。このような構成では、AACやTwinVQなどの変換符号化は残差信号を忠実に表すことができる反面、帯域の広い信号を変換符号化にて高音質に符号化するには十分に高いビットレートが必要となる。
一方、第1レイヤにて符号化処理を行った後に、低ビットレートで第1レイヤ復号信号の信号帯域を拡張する符号化方式が報告されている(以下、この符号化方式を「帯域拡張方式」という)。例えば、非特許文献2では、スペクトルの低域部の鏡像を高域部に配置する手法(ミラーリング)が述べられている。また、非特許文献3では、スペクトルの低域部をピッチフィルタのフィルタ状態として利用し、スペクトルの高域部をピッチフィルタの出力信号として表すことにより、低ビットレートで信号帯域を拡張する手法が述べられている。これらの帯域拡張方式は、拡張帯域のスペクトルを忠実に表す代わりに、擬似
的なスペクトルを拡張帯域に配置することにより、低ビットレート化を実現している。
三木弼一編著、"MPEG-4の全て(初版)"、(株)工業調査会、1998年9月30日、p.126-127 Balazs Kobesi他 、"A scalable speech and audio coding scheme with continuous bitrate flexibility," Proc. IEEE ICASSP 2004, pp.I-273-I-276. 押切他,"ピッチフィルタリングによる帯域拡張技術を用いた7/10/15kHz帯域スケーラブル音声符号化方式",音講論集3-11-4, pp.327-328 (2004年3月).
ネットワークの伝送レートの変化に対して柔軟に適応する符号化を実現するには、ビットレート刻みの小さい多数のレイヤを階層化する必要がある。前述の変換符号化にてビットレート刻みの小さいレイヤを構成するには、信号帯域を徐々に広げるなどの構成上の制限が必要になる。
図1は、この構成における信号帯域(横軸)と復号信号の品質(縦軸)との関係の一例を示している。この構成では、帯域の狭い信号(信号帯域0≦k<FL)に対しては第1レイヤで符号化を行い、第2〜第5レイヤにて帯域の広い信号(信号帯域0≦k<FH)の符号化を行う。各レイヤのビットレートが低いため、第2〜第5レイヤは拡張帯域(FL≦k<FH)のサブバンドを各々符号化し、レイヤが増える程に信号帯域が広がっていく。この構成では、ネットワークの伝送レートが時間的に変動したときに復号信号の信号帯域が変化し、主観品質の劣化を招いてしまう。
ビットレート刻みの小さいスケーラブル符号化を実現するには、前述の帯域拡張方式の適用が有効である。その構成は、まず第1レイヤで帯域の狭い信号を符号化した後に、第1レイヤ復号信号に対して前述の帯域拡張方式を適用して擬似的なスペクトルを拡張帯域に配置して信号帯域を拡張する。次に、ビットレート刻みの小さい複数のレイヤ(これらのレイヤは変換符号化)にて符号化を行うというものである。
図2は、この構成における信号帯域(横軸)と復号信号の品質(縦軸)との関係の一例を示している。この構成では、少なくとも第2レイヤ(帯域拡張方式)までの符号化データが復号されれば、一定の音質を有する帯域の広い信号が復号される。このため、ネットワークの伝送レートが変動しても、少なくとも第2レイヤまでの符号化データが復号されれば、復号信号の信号帯域の変化は発生しなくなり、主観品質の劣化を回避することができる。
ところで、帯域拡張方式はあくまでも擬似的なスペクトルを生成するのみであり、スペクトルの形状は入力信号のスペクトルと大きく異なる場合がある。このような場合、復号信号に異音が生じ、主観品質を低下させてしまう。
そこで、帯域拡張方式により生成されたスペクトルを所定の手法に基づき減衰させて(例えば、一定の割合で減衰させるなど)、異音の発生を抑制している。一方、このレイヤよりも高位のレイヤ(図2に示す第3〜第5レイヤ)では、変換符号化によりスペクトルを忠実に表すことができるため、上述したようなスペクトルの減衰処理は必要ない。すなわち、拡張帯域において、スペクトルの減衰処理が施されるサブバンドと減衰処理が施されないサブバンドが混在する。
図3は、スペクトル減衰処理の施されるサブバンドと施されないサブバンドとが混在する様子を示している。図3では、拡張帯域を3つのサブバンドに分割し、聴感的に重要度の高いサブバンドから順に第3レイヤ、第4レイヤ、第5レイヤにて符号化する場合を例
として挙げている。
また、ここでは、時刻n=1のとき、聴感的に重要度の高いサブバンドの順がA,B,Cと判断されるため、第3レイヤはサブバンドA、第4レイヤはサブバンドB、第5レイヤはサブバンドCを符号化する。また、時刻n=2のとき、聴感的に重要度の高いサブバンドの順がA,C,Bと判断されるため、第3レイヤはサブバンドA、第4レイヤはサブバンドC、第5レイヤはサブバンドBを符号化する。また、時刻n=3のとき、聴感的に重要度の高いサブバンドの順がC,B,Aと判断されるため、第3レイヤはサブバンドC、第4レイヤはサブバンドB、第5レイヤはサブバンドAを符号化する。
仮に、時刻n=1〜3において、復号部が第1〜第4レイヤの符号化データを受信した場合(第5レイヤの符号化データが廃棄される場合)、図中の斜線で示す箇所、すなわち、時刻n=1ではサブバンドCにおいて、時刻n=2ではサブバンドBにおいて、時刻n=3ではサブバンドAにおいてそれぞれスペクトルの減衰処理が施される。
スペクトルの減衰処理が施されるサブバンドと施されないサブバンドが、時間領域又は周波数領域で隣接する場合にスペクトルのエネルギーに不連続が生じる。図3に示す矢印(a)は時間領域での不連続の発生を示し、矢印(b)は周波数領域での不連続の発生を示している。すなわち、この部分でスペクトルエネルギーの不連続による音質劣化が発生してしまう。
本発明の目的は、帯域拡張方式において、スペクトルの減衰処理をサブバンドに施す場合でも、スペクトルエネルギーの不連続を緩和し、復号信号の品質を向上させる符号化装置、復号装置及びこれらの方法を提供することである。
本発明の符号化装置は、入力信号の周波数低域部を符号化して第1レイヤの符号化データを生成する第1符号化手段と、前記第1レイヤの符号化データを復号して第1復号信号を生成する第1復号手段と、前記入力信号と前記第1復号信号とを用いて、前記入力信号の周波数高域部を符号化して第2レイヤの符号化データを生成する第2符号化手段と、前記第2レイヤの符号化データを復号して第2復号信号を生成する第2復号手段と、前記入力信号のスペクトルと前記第2復号信号のスペクトルとの誤差スペクトルを符号化して第3レイヤの符号化データを生成する第3レイヤ処理手段と、を具備する構成を採る。
また、本発明の符号化装置は、上記の符号化装置において、前記第3レイヤ処理手段の代わりに、前記入力信号のスペクトルと第(n−1)復号信号(3≦n≦N−1,N≧4,nとNは整数)のスペクトルとの誤差スペクトルを符号化して第nレイヤの符号化データを生成し、前記第nレイヤの符号化データと前記第(n−1)復号信号のスペクトルとを用いて第n復号信号を生成する第nレイヤ処理手段と(nが3からN−1までの個数分、配置)、前記入力信号のスペクトルと第(N−1)復号信号のスペクトルとの誤差スペクトルを符号化して第Nレイヤの符号化データを生成する第Nレイヤ処理手段と、を具備する構成を採る。
本発明の復号装置は、スケーラブル符号化を用いて符号化された符号化データを復号する復号装置であって、前記符号化データのうち第1レイヤの符号化データを復号して第1復号信号を生成する第1復号手段と、前記第1復号信号を用いて、前記符号化データのうち第2レイヤの符号化データを復号して第2復号信号を生成する第2復号手段と、第(n+1)復号信号(n≧1、nは整数)を用いて、前記符号化データのうち第(n+2)レイヤの符号化データを復号し、前記第(n+2)レイヤで復号したスペクトルのエネルギーを前記第(n+1)復号信号のスペクトルのエネルギーに近づくように調整して第(n
+2)復号信号を生成する第(n+2)レイヤ復号手段と(nの個数分、配置)、を具備する構成を採る。
本発明によれば、帯域拡張方式において、スペクトルの減衰処理をサブバンドに施す場合でも、スペクトルエネルギーの不連続を緩和し、復号信号の品質を向上させることができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。以下の実施の形態では、符号化装置・復号装置の例として、音声符号化装置・音声復号装置について説明する。ただし、実施の形態において、同一の構成には同一の符号を付し、重複する説明は省略する。
本実施の形態では、周波数0≦k<FLの帯域を低域部、周波数FL≦k<FHの帯域を高域部、周波数0≦k<FHの帯域を全帯域と呼ぶ。また、周波数FL≦k<FHの帯域は、低域部を基に帯域拡張されていることから、拡張帯域と呼ぶこともある。
また、実施の形態1及び2では、第1レイヤ〜第3レイヤに階層化したスケーラブル符号化を用いた場合について説明する。第1レイヤは入力信号の低域部(0≦k<FL)を符号化し、第2レイヤは第1レイヤ復号信号の信号帯域を全帯域(0≦k<FH)に低ビットレートで拡張し、第3レイヤは入力信号と第2レイヤ復号信号の誤差成分を符号化するものとする。
(実施の形態1)
図4は、本発明の実施の形態1に係る音声符号化装置100の構成を示すブロック図である。この図において、ダウンサンプリング部101は、時間領域の入力音声信号をダウンサンプリングして、所望のサンプリングレートに変換する。ダウンサンプリングした時間領域信号を第1レイヤ符号化部102に出力する。
第1レイヤ符号化部102は、ダウンサンプリング部101から出力されたダウンサンプリング後の時間領域信号に対し、CELP符号化を用いて符号化を行い、第1レイヤ符号化データを生成する。生成された第1レイヤ符号化データは第1レイヤ復号部103及び多重化部112に出力される。
第1レイヤ復号部103は、第1レイヤ符号化部102から出力された第1レイヤ符号化データを復号して第1レイヤ復号信号を生成する。生成された第1レイヤ復号信号は周波数領域変換部104に出力される。
周波数領域変換部104は、第1レイヤ復号部103から出力された第1レイヤ復号信号の周波数分析を行って第1レイヤ復号スペクトルS1(k)を生成する。生成された第1レイヤ復号スペクトルS1(k)は第2レイヤ符号化部107及び第2レイヤ復号部108に出力される。
遅延部105は、ダウンサンプリング部101、第1レイヤ符号化部102、第1レイヤ復号部103及び周波数領域変換部104における処理時間に相当する遅延を入力音声信号に与える。遅延が与えられた入力音声信号は周波数領域変換部106に出力される。
周波数領域変換部106は、遅延部105から出力された入力音声信号の周波数分析を行って入力スペクトルS2(k)を生成する。生成された入力スペクトルS2(k)は第2レイヤ符号化部107及び誤差スペクトル生成部109に出力される。
第2レイヤ符号化部107は、周波数領域変換部104から出力された第1レイヤ復号スペクトルS1(k)及び周波数領域変換部106から出力された入力スペクトルS2(k)を用いて第2レイヤ符号化データを生成する。生成された第2レイヤ符号化データは第2レイヤ復号部108及び多重化部112に出力される。なお、第2レイヤ符号化部107の詳細については後述する。
第2レイヤ復号部108は、周波数領域変換部104から出力された第1レイヤ復号スペクトルS1(k)と第2レイヤ符号化部107から出力された第2レイヤ符号化データとを用いて、第2レイヤ復号スペクトルS3(k)を生成する。生成された第2レイヤ復号スペクトルS3(k)は誤差スペクトル生成部109に出力される。なお、第2レイヤ復号部108は、音声復号装置における第2レイヤ復号部155(後述)と同一の構成であるため、ここではその詳細については省略し、後述する音声復号装置150の第2レイヤ復号部155の詳細説明(図9参照)で代用する。
誤差スペクトル生成部109は、周波数領域変換部106から出力された入力スペクトルS2(k)と第2レイヤ復号部108から出力された第2レイヤ復号スペクトルS3(k)との差信号(誤差スペクトル)を算出する。ここで、誤差スペクトルをSe(k)と表したとき、誤差スペクトルSe(k)は次式(1)に従い算出される。
Figure 2008084688
また、第2レイヤ復号スペクトルS3(k)における高域部のスペクトルは、擬似的なスペクトルであるため、スペクトルの形状は入力スペクトルS2(k)と大きく異なることがある。よって、第2レイヤ復号スペクトルS3(k)の高域部のスペクトルをゼロとおいたときの入力スペクトルS2(k)との差を誤差スペクトルとしてもよい。その場合、誤差スペクトルSe(k)は次式(2)のように求められる。
Figure 2008084688
算出された誤差スペクトルSe(k)はサブバンド決定部110及び第3レイヤ符号化部111に出力される。
サブバンド決定部110は、誤差スペクトル生成部109から出力された誤差スペクトルSe(k)に基づいて、第3レイヤで符号化を行うサブバンドを決定する。このサブバンドの決定は、誤差スペクトルSe(k)のエネルギーを各サブバンドで求め、サブバンドエネルギーの最も大きいサブバンドを選択することにより行われる。
ここで、全帯域をJ個のサブバンドに分割し、第jサブバンドの最低周波数をSBL(j)、最高周波数をSBH(j)と表したとき、サブバンドエネルギーEsb(j)は次式(3)のように算出される。
Figure 2008084688
または、聴感的に重要なスペクトルに大きな重みを与えることにより、聴感的に重要なスペクトルの影響を大きくしてサブバンドエネルギーを求めてもよい。その場合、サブバンドエネルギーは次式(4)のように算出される。
Figure 2008084688
ここで、w(k)は重み係数を表す。
サブバンド決定部110は、このようにして算出したサブバンドエネルギーのうち、最大となるサブバンドを選択し、選択したサブバンド情報jを第3レイヤ符号化部111及び多重化部112に出力する。
第3レイヤ符号化部111は、サブバンド決定部110から出力されたサブバンド情報によって特定されるサブバンドに含まれる誤差スペクトルSe(k)を符号化し、その符号化データを第3レイヤ符号化データとして多重化部112に出力する。
多重化部112は、サブバンド決定部110から出力されたサブバンド情報j、第1レイヤ符号化部102から出力された第1レイヤ符号化データ、第2レイヤ符号化部107から出力された第2レイヤ符号化データ、及び、第3レイヤ符号化部111から出力された第3レイヤ符号化データを多重化し、符号化データとして出力する。
このように符号化を行うサブバンドを選択することにより、誤差スペクトルの大きいサブバンドを優先して符号化することができるようになる。これにより、このレイヤに与えられるビットレートが小さい場合でも、主観品質を改善することができる。また、このような低ビットレートのレイヤを数多く階層化することにより、ビットレート刻みの小さいスケーラブル符号化を実現することができる。その場合、この符号化方式は、通信路のビットレートの変化に柔軟に適応することができる。
図5は、図4に示した第2レイヤ符号化部107の内部構成を示すブロック図である。この図において、内部状態設定部121には、周波数領域変換部104から第1レイヤ復号スペクトルS1(k)(0≦k<FL)が入力される。内部状態設定部121は、入力された第1レイヤ復号スペクトルS1(k)を用いて、フィルタリング部123において用いられるフィルタの内部状態を設定する。
ピッチ係数設定部122は、後述する探索部124からの制御に従って、ピッチ係数Tを予め定められた探索範囲Tmin〜Tmaxの中で少しずつ変化させながら、フィルタリング部123に順次出力する。
フィルタリング部123は、内部状態設定部121によって設定されたフィルタの内部状態と、ピッチ係数設定部122から出力されたピッチ係数Tとに基づいて、周波数領域変換部104から入力された第1レイヤ復号スペクトルS1(k)のフィルタリングを行い、入力スペクトルの推定値S2’(k)を算出する。算出された入力スペクトルの推定値S2’(k)は探索部124に出力される。このフィルタリング処理の詳細については後述する。
探索部124は、周波数領域変換部106から出力された入力スペクトルS2(k)(0≦k<FH)とフィルタリング部123から出力された入力スペクトルの推定値S2’(k)との類似性を示すパラメータである類似度を算出する。この類似度の算出処理は、ピッチ係数設定部122からフィルタリング部123へピッチ係数Tが与えられるたびに行われ、算出された類似度が最大となるピッチ係数(最適なピッチ係数)T’(Tmin〜Tmaxの範囲)が多重化部126に出力される。また、探索部124は、このピッチ係数T’を用いて生成される入力スペクトルの推定値S2’(k)をゲイン符号化部125に出力する。
ゲイン符号化部125は、周波数領域変換部106から出力された入力スペクトルS2(k)(0≦k<FH)に基づいて、入力スペクトルS2(k)のゲイン情報を算出する。なお、ここでは、このゲイン情報をサブバンド毎のスペクトルパワで表し、周波数帯域FL≦k<FHをJ個のサブバンドに分割する場合を例に説明する。このとき、第jサブバンドのスペクトルパワB(j)は式(5)で表される。式(5)において、BL(j)は第jサブバンドの最小周波数、BH(j)は第jサブバンドの最大周波数を表す。このようにして求めた入力スペクトルのサブバンド情報を入力スペクトルのゲイン情報とみなす。
Figure 2008084688
また、ゲイン符号化部125は、同様に、入力スペクトルの推定値S2’(k)のサブバンド情報B’(j)を式(6)に従い算出し、サブバンド毎の変動量V(j)を式(7)に従い算出する。
Figure 2008084688
Figure 2008084688
次に、ゲイン符号化部125は、変動量V(j)を符号化して符号化後の変動量V(j)を求め、そのインデックスを多重化部126に出力する。
多重化部126は、探索部124から出力された最適なピッチ係数T’とゲイン符号化部125から出力された変動量Vq(j)のインデックスとを多重化して、第2レイヤ符号化データとして多重化部112に出力する。なお、多重化部126を設けずに、探索部124から出力された最適なピッチ係数T’とゲイン符号化部125から出力された変動量Vq(j)のインデックスとを第2レイヤ復号部108および多重化部112に直接入力し、多重化部112にてこれらを第1レイヤ符号化データ、サブバンド情報、および第3レイヤ符号化データと多重してもよい。
次いで、図5に示したフィルタリング部123でのフィルタリング処理の詳細について説明する。フィルタリング部123が、ピッチ係数設定部122から出力されたピッチ係数Tを用いて、帯域FL≦k<FHのスペクトルを生成する様子を図6に示す。ここでは、全帯域(0≦k<FH)のスペクトルを便宜的にS(k)と呼び、フィルタ関数P(z)は式(8)で表されるものを使用する。この式において、Tはピッチ係数設定部122より与えられたピッチ係数を表しており、またM=1とする。
Figure 2008084688
S(k)の0≦k<FLの帯域には、第1レイヤ復号スペクトルS1(k)がフィルタの内部状態として格納される。一方、S(k)のFL≦k<FHの帯域には、以下の手順により求められた入力スペクトルの推定値S2’(k)が格納される。
S2’(k)には、フィルタリング処理により、kよりTだけ低い周波数のスペクトルS(k−T)に、このスペクトルを中心としてiだけ離れた近傍のスペクトルS(k−T−i)に所定の重み付け係数βを乗じたスペクトルβ・S(k−T−i)を全て加算したスペクトル、すなわち、式(9)により表されるスペクトルが代入される。そしてこの演算を、周波数の低い方(k=FL)から順にkをFL≦k<FHの範囲で変化させて行うことにより、FL≦k<FHにおける入力スペクトルの推定値S2’(k)が算出される。
Figure 2008084688
以上のフィルタリング処理は、ピッチ係数設定部122からピッチ係数Tが与えられるたびに、FL≦k<FHの範囲において、その都度S(k)をゼロクリアして行われる。
すなわち、ピッチ係数Tが変化するたびにS(k)は算出され、探索部124に出力される。
図7は、図4に示した第3レイヤ符号化部111の内部構成を示すブロック図である。ただし、本実施の形態では、第3レイヤ符号化部111に形状利得ベクトル量子化を用いる場合について説明する。
図7において、サブバンドスペクトル抽出部141には、誤差スペクトル生成部109から誤差スペクトルSe(k)が入力される。サブバンドスペクトル抽出部141は、サブバンド決定部110から出力されたサブバンド情報に基づいて、サブバンド情報で表される帯域を誤差スペクトルSe(k)から抽出し、抽出した誤差スペクトルをサブバンドスペクトルSt(k)として誤差算出部144に出力する。
第3レイヤ符号化部111は、スペクトルの形状を表す候補(形状候補)が多数格納された形状符号帳142と、スペクトルのゲインを表す候補(ゲイン候補)が多数格納されたゲイン符号帳143とを有する。第i番目の形状候補と第m番目のゲイン候補、そしてターゲットとなるサブバンドスペクトルが誤差算出部144に入力され、誤差算出部144では次式(10)で表される誤差Eを算出する。
Figure 2008084688
ここで、sh(i,k)は第i番目の形状候補、ga(m)は第m番目のゲイン候補を表す。算出された誤差Eは探索部145に出力される。
探索部145は、誤差算出部144から出力された誤差Eに基づいて、誤差Eが最も小さくなるときの形状候補とゲイン候補の組み合わせを探索する。これは、形状候補とゲイン候補の乗算結果がサブバンドスペクトルに最も類似するときの形状候補とゲイン候補の組み合わせを求めることを意味する。形状候補とゲイン候補を同時に決定してもよいし、形状候補を決定してからゲイン候補を決定もしくはゲイン候補を決定してから形状候補を決定してもよい。また、聴感的に重要なスペクトルに大きな重みを与えることにより、聴感的に重要なスペクトルの影響を大きくして、次式(11)のように誤差Eを求めてもよい。
Figure 2008084688
ここで、w(k)は重み係数を表す。
このようにして求めた形状候補とゲイン候補を表すインデックス(iとm)は、第3レイヤ符号化データとして多重化部112に出力される。
次いで、図4に示した音声符号化装置100に対応する本実施の形態に係る音声復号装置150について説明する。図8は、音声復号装置150の構成を示すブロック図である。この音声復号装置150は、図4に示した音声符号化装置100により生成された符号化データを復号するものである。
図8において、分離部151は、音声符号化装置100により生成された符号化データを、第1レイヤ符号化データ、第2レイヤ符号化データ、サブバンド情報、第3レイヤ符号化データ(形状候補とゲイン候補を表すインデックス(iとm))に分離する。分離部
151は、分離した第1レイヤ符号化データを第1レイヤ復号部152に、第2レイヤ符号化データを第2レイヤ復号部155に、サブバンド情報及びインデックス(iとm)を第3レイヤ復号部156に出力する。また、分離部151は、入力された符号化データがどのレイヤの符号化データかを表すレイヤ情報を取得し、取得したレイヤ情報を判定部157及び判定部159に出力する。
第1レイヤ復号部152は、分離部151から出力された第1レイヤ符号化データを復号して第1レイヤ復号信号を得る。第1レイヤ復号信号はアップサンプリング部153及び周波数領域変換部154に出力される。
アップサンプリング部153は、第1レイヤ復号部152から出力された第1レイヤ復号信号のサンプリングレートを入力信号と同じサンプリングレートに変換(アップサンプリング)する。アップサンプリングされた第1レイヤ復号信号は判定部159に出力される。
周波数領域変換部154は、第1レイヤ復号部152から出力された第1レイヤ復号信号を周波数分析して第1レイヤ復号スペクトルS1(k)を生成する。生成された第1レイヤ復号スペクトルS1(k)は第2レイヤ復号部155に出力される。
第2レイヤ復号部155は、分離部151から出力された第2レイヤ符号化データを、周波数領域変換部154から出力された第1レイヤ復号スペクトルS1(k)を用いて復号し、第2レイヤ復号スペクトルS3(k)を得る。得られた第2レイヤ復号スペクトルS3(k)は第3レイヤ復号部156及び判定部157に出力される。
第3レイヤ復号部156は、第2レイヤ復号部155から出力された第2レイヤ復号スペクトルS3(k)、分離部151から出力された形状候補とゲイン候補を表すインデックス及びサブバンド情報を用いて、第3レイヤ復号スペクトルS4(k)を生成する。生成された第3レイヤ復号スペクトルS4(k)は判定部157に出力される。
判定部157は、分離部151から出力されたレイヤ情報に基づいて、第2レイヤ復号部155から出力された第2レイヤ復号スペクトルS3(k)又は第3レイヤ復号部156から出力された第3レイヤ復号スペクトルS4(k)の一方を時間領域変換部158に出力する。
時間領域変換部158は、判定部157から出力された第2レイヤ復号スペクトルS3(k)又は第3レイヤ復号スペクトルS4(k)を時間領域信号に変換し、得られた信号を判定部159に出力する。
判定部159は、分離部151から出力されたレイヤ情報に基づいて、符号化データに第2レイヤ符号化データと第3レイヤ符号化データが含まれているか否か判定する。ここで、音声符号化装置100を搭載する無線送信装置は、ビットストリームに第1レイヤ符号化データ〜第3レイヤ符号化データを含めて送信するが、通信経路の途中において符号化データの全てまたは一部が廃棄される場合がある。
そこで、判定部159は、レイヤ情報に基づいて、ビットストリームに第2レイヤ符号化データ及び第3レイヤ符号化データが含まれているか否かを判定する。判定部159は、ビットストリームに第2レイヤ符号化データ及び第3レイヤ符号化データが含まれていない場合、時間領域変換部158によって信号が生成されないため、第1レイヤ復号信号を復号信号として出力する。一方、ビットストリームに第2レイヤ符号化データが含まれている場合、または第2レイヤ符号化データ及び第3レイヤ符号化データの双方が含まれ
ている場合、判定部159は、時間領域変換部158によって生成される信号を復号信号として出力する。
図9は、図8に示した第2レイヤ復号部155の内部構成を示すブロック図である。なお、この構成は音声符号化装置100の第2レイヤ復号部108と同一である。この図において、内部状態設定部161には、周波数領域変換部154から第1レイヤ復号スペクトルS1(k)が入力される。内部状態設定部161は、第1レイヤ復号スペクトルS1(k)を用いて、フィルタリング部163で用いられるフィルタの内部状態を設定する。
分離部162には、分離部151から第2レイヤ符号化データが入力される。分離部162は、第2レイヤ符号化データをフィルタリング係数に関する情報(最適なピッチ係数T’)とゲインに関する情報(変動量V(j)のインデックス)とに分離し、フィルタリング係数に関する情報をフィルタリング部163に出力すると共に、ゲインに関する情報をゲイン復号部164に出力する。なお、最適なピッチ係数T’とゲインに関する変動量V(j)のインデックスとが分離部151で分離され、それぞれフィルタリング部163とゲイン復号部164に入力される場合は、分離部162は不要である。
フィルタリング部163は、内部状態設定部161によって設定されたフィルタの内部状態と、分離部162から出力されたピッチ係数T’とに基づいて、第1レイヤ復号スペクトルS1(k)のフィルタリングを行い、入力スペクトルの推定値S2’(k)(復号スペクトルS’(k))を算出する。算出された復号スペクトルS’(k)はスペクトル調整部165に出力される。なお、フィルタリング部163では、式(8)で示すフィルタ関数が用いられる。
ゲイン復号部164は、分離部162から出力されたゲイン情報を復号し、変動量V(j)を符号化して得られる変動量V(j)を求める。求められた変動量V(j)はスペクトル調整部165に出力される。
スペクトル調整部165は、フィルタリング部163から出力された復号スペクトルS'(k)に、ゲイン復号部164から出力されたサブバンド毎の変動量V(j)を式(12)に従い乗じることにより、復号スペクトルS’(k)の周波数帯域FL≦k<FHにおけるスペクトル形状を調整し、調整後の復号スペクトルS3(k)を生成する。この調整後の復号スペクトルS3(k)は、第2レイヤ復号スペクトルS3(k)として判定部157に出力される。
Figure 2008084688
図10は、図8に示した第3レイヤ復号部156の内部構成を示すブロック図である。この図において、形状符号帳171は、分離部151から出力された形状候補とゲイン候補とのインデックスに基づいて、形状候補sh(i,k)を選択し、選択した形状候補sh(i,k)を乗算部173に出力する。
ゲイン符号帳172は、分離部151から出力された形状候補とゲイン候補とのインデックスに基づいて、ゲイン候補ga(m)を選択し、選択したゲイン候補ga(m)を乗算部173に出力する。
乗算部173は、形状符号帳171から出力された形状候補sh(i,k)にゲイン符号帳172から出力されたゲイン候補ga(m)を乗算し、乗算結果(第3レイヤ復号誤差スペクトル)を第3レイヤ復号スペクトル生成部174に出力する。
第3レイヤ復号スペクトル生成部174は、分離部151から出力されたサブバンド情報、第2レイヤ復号部155から出力された第2レイヤ復号スペクトルS3(k)、乗算部173から出力された第3レイヤ復号誤差スペクトルを用いて、第3レイヤ復号スペクトルS4(k)を生成する。
具体的には、第3レイヤ復号スペクトル生成部174は、第2レイヤ復号スペクトルS3(k)のうち、サブバンド情報で特定されるサブバンドに第3レイヤ復号誤差スペクトルを加算又は置換する。加算又は置換のいずれを用いるかは、音声符号化装置100にて誤差スペクトルSe(k)がどのように生成されたかに依存する。誤差スペクトルSe(k)が、入力スペクトルS2(k)から復号スペクトルS3(k)を減じて求められた場合(すなわち、式(1)が用いられた場合)には加算を行い、第2レイヤ復号スペクトルS3(k)をゼロとおいて誤差スペクトルから減じた場合(すなわち、入力スペクトルそのものであり、式(2)が用いられた場合)には置換を行う。加算又は置換した後のスペクトルのエネルギーを第2レイヤ復号スペクトルのエネルギーに近づけ、第3レイヤ復号スペクトルS4(k)として出力する。
図11は、図10に示した第3レイヤ復号スペクトル生成部174の内部構成を示すブロック図である。図11では、第2レイヤ復号スペクトルS3(k)のうち、サブバンド情報で特定されるサブバンドにゲイン候補乗算後の形状候補を置換する場合について示す。
図11において、置換部181は、分離部151から出力されたサブバンド情報が示すサブバンドに対して、第2レイヤ復号部155から出力された第2レイヤ復号スペクトルS3(k)を乗算部173から出力された第3レイヤ復号誤差スペクトルで置換する。置換された第2レイヤ復号スペクトルはエネルギー算出部183及び調整部185に出力される。
エネルギー算出部182は、分離部151から出力されたサブバンド情報が示すサブバンドに対して、第2レイヤ復号部155から出力された第2レイヤ復号スペクトルS3(k)(すなわち、置換前のスペクトル)のエネルギーを算出し、算出したエネルギーを調整係数算出部184に出力する。
エネルギー算出部183は、分離部151から出力されたサブバンド情報が示すサブバンドに対して、置換部181から出力された置換後の第2レイヤ復号スペクトルのエネルギーを算出し、算出したエネルギーを調整係数算出部184に出力する。
調整係数算出部184は、エネルギー算出部182及び183から出力されたスペクトルエネルギーに基づいて、調整係数を算出し、算出した調整係数を調整部185に出力する。調整係数は、置換後の第2レイヤ復号スペクトルのサブバンド情報が示すサブバンドに乗じる係数であり、置換後の第2レイヤ復号スペクトルのエネルギーが置換前の第2レイヤ復号スペクトルのエネルギーに近づくように決定される。
例えば、調整係数は、置換前のスペクトルのエネルギーと置換後のスペクトルのエネルギーの加重平均値を基にして求める。置換前の第2レイヤ復号スペクトルのエネルギーをE1、置換後の第2レイヤ復号スペクトルのエネルギーをE2とし、加重平均値を求めるための置換前の第2レイヤ復号スペクトルのエネルギーの重みをw、置換後の第2レイヤ復号スペクトルのエネルギーの重みを(1−w(ただし、0≦w≦1))とする。このとき、第2レイヤ復号スペクトルのエネルギーの加重平均値Eave、及び、調整係数cは次のように表される。
Figure 2008084688
Figure 2008084688
調整部185は、分離部151から出力されたサブバンド情報が示すサブバンドに対して、置換部181から出力された置換後の第2レイヤ復号スペクトルに調整係数算出部184から出力された調整係数を乗じることにより、置換後の第2レイヤ復号スペクトルのエネルギーを置換前の第2レイヤ復号スペクトルのエネルギーに近づける。調整部185は、調整係数乗算後のスペクトルを第3レイヤ復号スペクトルとして出力する。
次いで、図11に示した第3レイヤ復号スペクトル生成部174の動作について図12を用いて説明する。図12Aは、入力スペクトルに対する第2レイヤ復号スペクトルのエネルギーの相対値(以下、「相対値」という)を図式化したものである。仮に、第2レイヤ復号スペクトルが入力スペクトルと同等のエネルギーを有する場合、1.0の相対値を得ることになる。
第2レイヤ復号スペクトルの低域部のスペクトルは第1レイヤ復号部152、高域部のスペクトルは第2レイヤ復号部155によって生成されたものである。第2レイヤ復号部155は、擬似的なスペクトルを生成しており、異音の発生を抑制するために所定の手法(例えば一定割合で減衰)に基づいて、高域部のスペクトルを減衰させている。従って、図12Aの高域部の相対値は低域部の相対値に比べ小さな値となっている。
第3レイヤ復号部156は、サブバンド情報が示すサブバンド(ここでは第6サブバンド)の第3レイヤ復号誤差スペクトルを生成し、第3レイヤ復号スペクトル生成部174の置換部181では、第3レイヤ復号誤差スペクトルで第6サブバンドの第2レイヤ復号スペクトルを置換する。
第3レイヤ復号スペクトル生成部174の調整部185では、図12Bに示すように、置換後の第2レイヤ復号スペクトルのエネルギーが置換前の第6サブバンドのスペクトルのエネルギーに近づくようスペクトルを調整する。これにより、時間領域又は周波数領域で発生するスペクトルのエネルギーの不連続を緩和し、かつ、スペクトルの形状が入力信号により近づくため、音質を向上させることができる。
このように実施の形態1によれば、音声符号化装置において、第3レイヤで符号化を行うサブバンドを決定し、音声復号装置において、サブバンド情報が示すサブバンドの第3レイヤ復号誤差スペクトルを生成し、生成した第3レイヤ復号誤差スペクトルでサブバンド情報が示すサブバンドの第2レイヤ復号スペクトルを置換し、置換後の第2レイヤ復号スペクトルのエネルギーが置換前のスペクトルのエネルギーに近づくよう調整することにより、時間領域又は周波数領域で発生するスペクトルのエネルギーの不連続を緩和し、かつ、スペクトルの形状が入力信号により近づくため、音質を向上させることができる。
なお、本実施の形態では、図12に示したように、置換後の第2レイヤ復号スペクトルのエネルギーを置換前の第6サブバンドのスペクトルのエネルギーに近づくように、調整部185が第6サブバンド全域に対して調整するものとして説明したが、次のように調整してもよい。すなわち、図13に示すように、周波数領域で第6サブバンドの両端に近い
ほど、第2レイヤ復号スペクトルのエネルギーにより近づくように置換後の第2レイヤ復号スペクトルのエネルギーを調整するようにしてもよい。これにより、周波数領域で発生するスペクトルのエネルギーの不連続を滑らかに緩和することが可能となり、かつ、スペクトルの形状がより入力信号に近づくため音質をより向上させることができる。
この調整部185の処理は、図11に示した調整係数算出部184において、周波数領域でサブバンドの両端に近いほど、置換前の第2レイヤ復号スペクトルのエネルギーの重みwが大きくなるように設定し、調整係数を算出することにより実現することができる。
なお、本実施の形態では、図11に示したように、第2レイヤ復号スペクトルを第3レイヤ復号誤差スペクトルで置換する場合について説明したが、図14に示すように、置換部181を加算部191に代えて、加算部191が、サブバンド情報が示すサブバンドに対して、第2レイヤ復号スペクトルに第3レイヤ復号誤差スペクトルを加算するようにしてもよい。
(実施の形態2)
図15は、本発明の実施の形態2に係る第3レイヤ復号スペクトル生成部200の内部構成を示すブロック図である。図15が図11と異なる点は、サブバンド情報記憶部201及び重み決定部202を追加した点である。
図15において、サブバンド情報記憶部201は、分離部151から出力された前フレームのサブバンド情報を記憶し、分離部151から現フレームのサブバンド情報が出力されると、記憶していた前フレームのサブバンド情報を重み決定部202に出力すると共に、記憶していた前フレームのサブバンド情報を現フレームのサブバンド情報に更新する。
重み決定部202は、サブバンド情報記憶部201から出力されたサブバンド情報、すなわち、前フレームのサブバンド情報と、分離部151から出力された現フレームのサブバンド情報とを比較し、両者が一致しない場合には所定の重みを調整係数算出部184’に出力する。両者が一致する場合には、置換後のスペクトルのエネルギーが大きくなるように、置換後のスペクトルのエネルギーの重み(1.0−w)、すなわち、加重平均値の比率を大きくして調整係数算出部184’に出力する。
このように実施の形態2によれば、前フレームにおいて第3レイヤの符号化対象として選択されたサブバンド情報と、現フレームのサブバンド情報とが一致するか否かに応じて、置換後のスペクトルのエネルギーの重みを決定することにより、時間領域のスペクトルのエネルギーの不連続を緩和しつつ、原スペクトルと類似の形状を持つ置換後のスペクトルのエネルギーの比率を大きくすることができるので、音質の向上を図ることができる。
なお、本実施の形態では、サブバンド情報記憶部201は前フレームのサブバンド情報を記憶する場合について説明したが、過去複数フレーム分のサブバンド情報を記憶してもよい。この場合、現フレームで選択されたサブバンドが連続して数多く選択されているほど、置換後のスペクトルのエネルギーの重み(1.0−w)が大きくなるように設定する。これにより、時間領域のスペクトルのエネルギーの不連続を緩和しつつ、原スペクトルと類似の形状を有する第3レイヤ復号スペクトルのエネルギーの比率を大きくすることができるので、音質をより向上させることができる。
また、本実施の形態においても、図15に示したように、第2レイヤ復号スペクトルを第3レイヤ復号誤差スペクトルで置換する場合について説明したが、図16に示すように、置換部181を加算部191に代えて、加算部191が、サブバンド情報が示すサブバンドに対して、第2レイヤ復号スペクトルに第3レイヤ復号誤差スペクトルを加算するよ
うにしてもよい。
(実施の形態3)
本発明の実施の形態3では、実施の形態1及び2において説明した3階層のスケーラブル符号化をN(N≧4)階層に拡張したスケーラブル符号化を適用した場合の音声符号化装置及び音声復号装置について説明する。
図17は、本発明の実施の形態3に係る音声符号化装置300の構成を示すブロック図である。図17が図1と異なる点は、誤差スペクトル生成部109、サブバンド決定部110及び第3レイヤ符号化部111を第3レイヤ処理部303とし、さらに、第4〜第Nレイヤ処理部304〜30Nを追加した点である。
ここで、第n(3≦n≦N)レイヤ処理部30nの内部構成を図18に示す。図18Aは、最高位以外のレイヤ(すなわち、3≦n≦N−1)の第nレイヤ処理部の構成を示すブロック図であり、図18Bは、最高位のレイヤ(すなわち、n=N)の第Nレイヤ処理部30Nの構成を示すブロック図である。
図18Aに示す第nレイヤ処理部30n(3≦n≦N−1)と、図18Bに示す第Nレイヤ処理部30Nとが異なる点は、第nレイヤ復号部34nを含むか否かという点である。すなわち、第nレイヤ(3≦n≦N−1)では、さらに高位のレイヤ処理部が存在するため、その高位のレイヤ処理部において用いられる第nレイヤ復号スペクトルを生成する必要がある。よって、第nレイヤ処理部30nには第nレイヤ復号部34nが含まれる。
一方、第Nレイヤ処理部30Nには、それより高位のレイヤ処理部が存在しないため、第nレイヤ復号スペクトルを生成する必要がない。よって、第Nレイヤ処理部30Nには第nレイヤ復号部34nが含まれない。
ちなみに、実施の形態1において説明した図4の音声符号化装置100は、図17におけるN=3の構成に相当する。
図18Aに示す第nレイヤ処理部30nの第nレイヤ復号部34nは、図10に示した第3レイヤ復号部156と同一の構成を有し、サブバンド決定部32nから出力された第nレイヤサブバンド情報、第(n−1)レイヤ処理部30(n−1)から出力された第(n−1)レイヤ復号スペクトル、及び、第nレイヤ符号化部33nから出力された第nレイヤ符号化データ(形状情報とゲイン情報のインデックス)を用いて、第nレイヤ復号スペクトルを生成する。生成された第nレイヤ復号スペクトルは第(n+1)レイヤ処理部30(n+1)に出力される。
第nレイヤ復号部34nは、サブバンド情報が示すサブバンドの第nレイヤ復号スペクトルを生成し、生成した第nレイヤ復号スペクトルでサブバンド情報が示すサブバンドの第(n−1)レイヤ復号スペクトルを置換する。その結果得られるスペクトルのエネルギーを第(n−1)レイヤ復号スペクトルのエネルギーに近づけて第nレイヤ復号スペクトルとする。
図19は、本発明の実施の形態3に係る音声復号装置350の構成を示すブロック図である。図19が図8と異なる点は、第4レイヤ復号部354〜第Nレイヤ復号部35Nを追加した点である。図19において、第nレイヤ復号部35n(4≦n≦N)は、図10に示した第3レイヤ復号部156と同一の構成を有する。
このように実施の形態3によれば、音声符号化装置において、第nレイヤで符号化を行
うサブバンドを決定し、音声復号装置において、サブバンド情報が示すサブバンドの第nレイヤ復号誤差スペクトルを生成し、生成した第nレイヤ復号誤差スペクトルでサブバンド情報が示すサブバンドの第(n−1)レイヤ復号スペクトルを置換し、置換後の第(n−1)レイヤ復号スペクトルのエネルギーが置換前のスペクトルのエネルギーに近づくよう調整することにより、階層数が3以上のスケーラブル符号化にも適用可能であって、時間領域又は周波数領域で発生するスペクトルのエネルギーの不連続を緩和し、かつ、スペクトルの形状が入力信号により近づくため、音質を向上させることができる。
以上、本発明の実施の形態について説明した。
なお、上記各実施の形態においては、音声復号装置150、350は、それぞれ音声符号化装置100、300より伝送された符号化データを入力して処理するという例を示したが、同様の構成を有する符号化データを生成可能な他の構成の符号化装置が出力した符号化データを入力して処理しても良い。
また、上記各実施の形態において、周波数変換として、DFT(Discrete Fourier Transform)、FFT(Fast Fourier Transform)、DCT(Discrete Cosine Transform)、MDCT(Modified Discrete Cosine Transform)、フィルタバンクなどを使用できる。
また、上記各実施の形態では、入力信号として、主に音声信号を適用した場合について説明したが、本発明はこれに限らず、オーディオ信号を適用してもよい。また、入力音声信号の代わりにLPC予測残差信号を適用してもよい。
また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。例えば、本発明に係る符号化方法/復号方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリ等の記録媒体に記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置/復号装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
2006年12月27日出願の特願2006−351704の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明にかかる符号化装置、復号装置及びこれらの方法は、移動体通信システムにおける無線通信端末装置、基地局装置等に適用することができる。
信号帯域と復号信号の品質との関係の一例を示す図 信号帯域と復号信号の品質との関係の一例を示す図 スペクトル減衰処理の施されるサブバンドと施されないサブバンドとが混在する様子を示す図 本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図 図4に示した第2レイヤ符号化部の内部構成を示すブロック図 図5に示したフィルタリング部の動作説明に供する図 図4に示した第3レイヤ符号化部の内部構成を示すブロック図 本発明の実施の形態1に係る音声復号装置の構成を示すブロック図 図8に示した第2レイヤ復号部の内部構成を示すブロック図 図8に示した第3レイヤ復号部の内部構成を示すブロック図 図10に示した第3レイヤ復号スペクトル生成部の内部構成を示すブロック図 図11に示した第3レイヤ復号スペクトル生成部の動作説明に供する図 図11に示した第3レイヤ復号スペクトル生成部のその他の動作説明に供する図 図10に示した第3レイヤ復号スペクトル生成部のその他の内部構成を示すブロック図 本発明の実施の形態2に係る第3レイヤ復号スペクトル生成部の内部構成を示すブロック図 本発明の実施の形態2に係る第3レイヤ復号スペクトル生成部のその他の内部構成を示すブロック図 本発明の実施の形態3に係る音声符号化装置の構成を示すブロック図 本発明の実施の形態3に係る第n(3≦n≦N)レイヤ処理部の内部構成を示すブロック図 本発明の実施の形態3に係る音声復号装置の構成を示すブロック図

Claims (9)

  1. 入力信号の周波数低域部を符号化して第1レイヤの符号化データを生成する第1符号化手段と、
    前記第1レイヤの符号化データを復号して第1復号信号を生成する第1復号手段と、
    前記入力信号と前記第1復号信号とを用いて、前記入力信号の周波数高域部を符号化して第2レイヤの符号化データを生成する第2符号化手段と、
    前記第2レイヤの符号化データを復号して第2復号信号を生成する第2復号手段と、
    前記入力信号のスペクトルと前記第2復号信号のスペクトルとの誤差スペクトルを符号化して第3レイヤの符号化データを生成する第3レイヤ処理手段と、
    を具備する符号化装置。
  2. 前記第3レイヤ処理手段の代わりに、
    前記入力信号のスペクトルと第(n−1)復号信号(3≦n≦N−1,N≧4,nとNは整数)のスペクトルとの誤差スペクトルを符号化して第nレイヤの符号化データを生成し、前記第nレイヤの符号化データと前記第(n−1)復号信号のスペクトルとを用いて第n復号信号を生成する第nレイヤ処理手段と、
    前記入力信号のスペクトルと第(N−1)復号信号のスペクトルとの誤差スペクトルを符号化して第Nレイヤの符号化データを生成する第Nレイヤ処理手段と、
    を具備する、請求項1記載の符号化装置。
  3. 前記第nレイヤ処理手段は、
    前記入力信号のスペクトルと前記第(n−1)復号信号のスペクトルとの誤差スペクトルを生成する誤差スペクトル生成手段と、
    前記誤差スペクトルに基づいて、第nレイヤの符号化対象とするサブバンドを決定するサブバンド決定手段と、
    決定された前記サブバンドについて前記誤差スペクトルを符号化して第nレイヤの符号化データを生成する第n符号化手段と、
    前記第nレイヤの符号化データと前記第(n−1)復号信号のスペクトルとを用いて第n復号信号を生成する第n復号手段と、
    を具備する請求項2に記載の符号化装置。
  4. スケーラブル符号化を用いて符号化された符号化データを復号する復号装置であって、
    前記符号化データのうち第1レイヤの符号化データを復号して第1復号信号を生成する第1復号手段と、
    前記第1復号信号を用いて、前記符号化データのうち第2レイヤの符号化データを復号して第2復号信号を生成する第2復号手段と、
    第(n+1)復号信号(n≧1、nは整数)を用いて、前記符号化データのうち第(n+2)レイヤの符号化データを復号し、前記第(n+2)レイヤで復号したスペクトルのエネルギーを前記第(n+1)復号信号のスペクトルのエネルギーに近づくように調整して第(n+2)復号信号を生成する第(n+2)レイヤ復号手段と、
    を具備する復号装置。
  5. 前記第(n+2)レイヤ復号手段は、
    前記第(n+2)レイヤで復号したスペクトルのエネルギーと前記第(n+1)復号信号のスペクトルのエネルギーとの加重平均値を用いて、前記第(n+2)レイヤで復号したスペクトルのエネルギーを調整する、
    請求項4に記載の復号装置。
  6. 前記第(n+2)レイヤ復号手段は、
    前記第(n+2)レイヤで復号したスペクトルのうち、第(n+2)レイヤの符号化対象となったサブバンドの周波数領域における境界に近いスペクトルほど、前記第(n+1)復号信号のスペクトルのエネルギーに近づくように、さらに調整する、
    請求項5に記載の復号装置。
  7. 前記第(n+2)レイヤ復号手段は、
    第(n+2)レイヤの符号化対象となったサブバンドの情報を記憶する記憶手段と、
    記憶されたサブバンド情報の履歴に基づいて、前記加重平均値の比率を決定する決定手段と、
    を具備する請求項5に記載の復号装置。
  8. 入力信号をスケーラブル符号化によって符号化して符号化データを生成する符号化方法であって、
    入力信号の周波数低域部を符号化して第1レイヤの符号化データを生成する第1符号化ステップと、
    前記第1レイヤの符号化データを復号して第1復号信号を生成する第1復号ステップと、
    前記入力信号と前記第1復号信号とを用いて、前記入力信号の周波数高域部を符号化して第2レイヤの符号化データを生成する第2符号化ステップと、
    前記第2レイヤの符号化データを復号して第2復号信号を生成する第2復号ステップと、
    前記入力信号のスペクトルと前記第2復号信号のスペクトルとの誤差スペクトルを符号化して第3レイヤの符号化データを生成する第3レイヤ処理ステップと、
    を具備する符号化方法。
  9. スケーラブル符号化を用いて符号化された符号化データを復号する復号方法であって、
    前記符号化データのうち第1レイヤの符号化データを復号して第1復号信号を生成する第1復号ステップと、
    前記第1復号信号を用いて、前記符号化データのうち第2レイヤの符号化データを復号して第2復号信号を生成する第2復号ステップと、
    第(n+1)復号信号(n≧1、nは整数)を用いて、前記符号化データのうち第(n+2)レイヤの符号化データを復号し、前記第(n+2)レイヤで復号したスペクトルのエネルギーを前記第(n+1)復号信号のスペクトルのエネルギーに近づくように調整して第(n+2)復号信号を生成する第(n+2)レイヤ復号ステップと、
    を具備する復号方法。
JP2008553063A 2006-12-27 2007-12-26 符号化装置、復号装置及びこれらの方法 Withdrawn JPWO2008084688A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006351704 2006-12-27
JP2006351704 2006-12-27
PCT/JP2007/074895 WO2008084688A1 (ja) 2006-12-27 2007-12-26 符号化装置、復号装置及びこれらの方法

Publications (1)

Publication Number Publication Date
JPWO2008084688A1 true JPWO2008084688A1 (ja) 2010-04-30

Family

ID=39608584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008553063A Withdrawn JPWO2008084688A1 (ja) 2006-12-27 2007-12-26 符号化装置、復号装置及びこれらの方法

Country Status (3)

Country Link
US (1) US20100017199A1 (ja)
JP (1) JPWO2008084688A1 (ja)
WO (1) WO2008084688A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
EP2251861B1 (en) * 2008-03-14 2017-11-22 Panasonic Intellectual Property Corporation of America Encoding device and method thereof
JP5764488B2 (ja) 2009-05-26 2015-08-19 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 復号装置及び復号方法
EP2500901B1 (en) * 2009-11-12 2018-09-19 III Holdings 12, LLC Audio encoder apparatus and audio encoding method
JP5711733B2 (ja) * 2010-06-11 2015-05-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 復号装置、符号化装置及びこれらの方法
WO2012052802A1 (en) * 2010-10-18 2012-04-26 Nokia Corporation An audio encoder/decoder apparatus
US20130173275A1 (en) * 2010-10-18 2013-07-04 Panasonic Corporation Audio encoding device and audio decoding device
EP2733699B1 (en) * 2011-10-07 2017-09-06 Panasonic Intellectual Property Corporation of America Scalable audio encoding device and scalable audio encoding method
BR112015025022B1 (pt) 2013-04-05 2022-03-29 Dolby International Ab Método de decodificação, decodificador em um sistema de processamento de áudio, método de codificação, e codificador em um sistema de processamento de áudio
CN104282312B (zh) * 2013-07-01 2018-02-23 华为技术有限公司 信号编码和解码方法以及设备

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
TW295747B (ja) * 1994-06-13 1997-01-11 Sony Co Ltd
JP3283413B2 (ja) * 1995-11-30 2002-05-20 株式会社日立製作所 符号化復号方法、符号化装置および復号装置
US5825320A (en) * 1996-03-19 1998-10-20 Sony Corporation Gain control method for audio encoding device
TW384434B (en) * 1997-03-31 2000-03-11 Sony Corp Encoding method, device therefor, decoding method, device therefor and recording medium
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP2001267928A (ja) * 2000-03-17 2001-09-28 Casio Comput Co Ltd オーディオデータ圧縮装置、及び記憶媒体
CN1381041A (zh) * 2000-05-26 2002-11-20 皇家菲利浦电子有限公司 用于发送在窄带中已编码信号的发送机、用于在接收端扩展已编码信号的频带的接收机、相应的发送和接收方法及系统
US7236839B2 (en) * 2001-08-23 2007-06-26 Matsushita Electric Industrial Co., Ltd. Audio decoder with expanded band information
JP2004198485A (ja) * 2002-12-16 2004-07-15 Victor Co Of Japan Ltd 音響符号化信号復号化装置及び音響符号化信号復号化プログラム
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
JP2004302259A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法
EP1642265B1 (en) * 2003-06-30 2010-10-27 Koninklijke Philips Electronics N.V. Improving quality of decoded audio by adding noise
US7844451B2 (en) * 2003-09-16 2010-11-30 Panasonic Corporation Spectrum coding/decoding apparatus and method for reducing distortion of two band spectrums
JP4679049B2 (ja) * 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
ATE440361T1 (de) * 2004-09-30 2009-09-15 Panasonic Corp Einrichtung für skalierbare codierung, einrichtung für skalierbare decodierung und verfahren dafür
BRPI0517246A (pt) * 2004-10-28 2008-10-07 Matsushita Electric Ind Co Ltd aparelho de codificação escalável, aparelho de decodificação escalável e métodos para os mesmos
JP2008519990A (ja) * 2004-11-09 2008-06-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号符号化の方法
US8036390B2 (en) * 2005-02-01 2011-10-11 Panasonic Corporation Scalable encoding device and scalable encoding method
DE602006011600D1 (de) * 2005-04-28 2010-02-25 Panasonic Corp Audiocodierungseinrichtung und audiocodierungsverfahren
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
EP1953736A4 (en) * 2005-10-31 2009-08-05 Panasonic Corp STEREO CODING DEVICE AND METHOD FOR PREDICTING STEREO SIGNAL
WO2007119368A1 (ja) * 2006-03-17 2007-10-25 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal

Also Published As

Publication number Publication date
US20100017199A1 (en) 2010-01-21
WO2008084688A1 (ja) 2008-07-17

Similar Documents

Publication Publication Date Title
JP5089394B2 (ja) 音声符号化装置および音声符号化方法
JP5339919B2 (ja) 符号化装置、復号装置およびこれらの方法
JP5173800B2 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
JPWO2008084688A1 (ja) 符号化装置、復号装置及びこれらの方法
JP4871894B2 (ja) 符号化装置、復号装置、符号化方法および復号方法
JP4708446B2 (ja) 符号化装置、復号装置およびそれらの方法
JP4954080B2 (ja) 変換符号化装置および変換符号化方法
US8315863B2 (en) Post filter, decoder, and post filtering method
JP4606418B2 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
WO2009081568A1 (ja) 符号化装置、復号装置および符号化方法
WO2006049204A1 (ja) 符号化装置、復号化装置、符号化方法及び復号化方法
JPWO2008072670A1 (ja) 符号化装置、復号装置、およびこれらの方法
JP5236040B2 (ja) 符号化装置、復号装置、符号化方法および復号方法
JPWO2007114291A1 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
JPWO2008053970A1 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
JP5236033B2 (ja) 音声符号化装置、音声復号装置およびそれらの方法
JP5774490B2 (ja) 符号化装置、復号装置およびこれらの方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101207

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20120406