JPWO2005111568A1 - 符号化装置、復号化装置、およびこれらの方法 - Google Patents

符号化装置、復号化装置、およびこれらの方法 Download PDF

Info

Publication number
JPWO2005111568A1
JPWO2005111568A1 JP2006513565A JP2006513565A JPWO2005111568A1 JP WO2005111568 A1 JPWO2005111568 A1 JP WO2005111568A1 JP 2006513565 A JP2006513565 A JP 2006513565A JP 2006513565 A JP2006513565 A JP 2006513565A JP WO2005111568 A1 JPWO2005111568 A1 JP WO2005111568A1
Authority
JP
Japan
Prior art keywords
spectrum
unit
frequency spectrum
low
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006513565A
Other languages
English (en)
Other versions
JP4810422B2 (ja
Inventor
押切 正浩
正浩 押切
江原 宏幸
宏幸 江原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2006513565A priority Critical patent/JP4810422B2/ja
Publication of JPWO2005111568A1 publication Critical patent/JPWO2005111568A1/ja
Application granted granted Critical
Publication of JP4810422B2 publication Critical patent/JP4810422B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms

Abstract

ある帯域のスペクトルを別の帯域のスペクトルで置換する技術において、挿入されるスペクトルのダイナミックレンジを適切に調整することができる符号化装置を開示する。この装置において、スペクトル変形部(112)は、帯域0≦k<FLの第1スペクトルS1(k)を様々に変形させてダイナミックレンジを変化させ、適切なダイナミックレンジとなる変形の仕方について調べる。この変形に関する情報は符号化され、多重化部(115)に与えられる。拡張帯域スペクトル符号化部(114)は、有効信号帯域が0≦k<FHの第2スペクトルS2(k)を参照信号として、第1スペクトルS1(k)の高域(FL≦k<FH)に含めるべきスペクトル(拡張帯域スペクトル)を、変形後の第1スペクトルS1’(k)に基づいて推定し、この推定スペクトルに関する情報を符号化して多重化部(115)に与える。

Description

本発明は、音声信号、オーディオ信号等を符号化/復号化する符号化装置、復号化装置、およびこれらの方法に関する。
音声信号を低ビットレートで圧縮する音声符号化技術は、移動体通信における電波等の有効利用のために重要である。さらに近年の傾向として、通話音声の品質向上に対する期待が高まってきており、臨場感の高い通話サービスの実現が望まれている。ここでいう臨場感とは、話者が取り巻く音環境(例えばBGM)を意味し、そのためオーディオ等の音声以外の信号をも高品質に符号化できることが望ましい。
音声信号を符号化する音声符号化に、ITU−T(International Telecommunication Union Telecommunication Standardization Sector)で規格化されているG726、G729等の方式が存在する。これらの方式は、狭帯域信号(300Hz〜3.4kHz)を対象とし、8kbit/s〜32kbit/sで符号化が行える。これら方式は低ビットレートで符号化できるものの、対象としている狭帯域信号は周波数帯域が最大3.4kHzまでと狭いため、その品質はこもっており臨場感に欠ける傾向にある。
また、ITU−Tや3GPP(The 3rd Generation Partnership Project)には、信号帯域が50Hz〜7kHzの音声を符号化する標準方式(G.722、G.722.1、AMR−WB等)が存在する。これらの方式は、ビットレートが6.6kbit/s〜64kbit/sで広帯域音声信号の符号化が行えるものの、広帯域音声を高品質に符号化するためには比較的ビットレートを高くする必要がある。また音質の観点では、広帯域音声は狭帯域音声に比べ高音質であるものの、高臨場感が要求されるサービスに対しては十分とは言い難い。
一般に、信号の最大周波数が10〜15kHz程度まであるとFMラジオ相当の臨場感が得られ、20kHz程度までであればCD並みの品質が得られる。このような帯域を有する信号に対しては、MPEG(Moving Picture Expert Group)で規格化されているレイヤ3方式やAAC方式等に代表されるオーディオ符号化が適している。しかしながら、これらオーディオ符号化方式を音声通信の符号化方式として適用する場合には、音声を品質よく符号化するためにビットレートを高く設定する必要がある。その他に符号化遅延が大きくなる、等の問題がある。
周波数帯域の広い信号を低ビットレートで高品質に符号化する方法として、入力信号のスペクトルを低域部と高域部との2つのスペクトルに分割し、高域スペクトルは低域スペクトルを複製しこれと置換する(高域スペクトルを低域スペクトルで代用する)ことにより、全体のビットレートを低減させる技術がある(例えば、特許文献1参照)。この技術は、低域スペクトルの符号化に多くのビットを配分して高品質に符号化し、一方、高域スペクトルは符号化後の低域スペクトルを複製することを基本の処理として、少ないビット配分で符号化が行なわれる。
また、この技術に類似した技術として、符号化ビットを十分に配分できない帯域に対しては、他の所定の部分帯域スペクトル情報を用いて近似することで品質を向上させる技術(例えば、特許文献2参照)や、付加情報なしに狭帯域信号を広帯域信号に帯域拡張するため、狭帯域信号の低域スペクトルを高域スペクトルに複製することを基本の処理とする技術(例えば、特許文献3参照)がある。
なお、いずれの技術においても、スペクトルの補充を行いたい帯域に、別の帯域のスペクトルを複製してきて、スペクトル包絡を滑らかにするためのゲイン調整を行った後に、この複製スペクトルを挿入している。
特表2001−521648号公報 特開平9−153811号公報 特開平9−90992号公報
しかしながら、音声信号またはオーディオ信号のスペクトルにおいては、低域スペクトルのダイナミックレンジ(スペクトル振幅の絶対値(絶対振幅)の最大値と最小値との比)が、高域スペクトルのダイナミックレンジよりも大きくなる現象がよく見られる。図1は、この現象を説明するための図で、オーディオ信号のスペクトルの一例を示すものである。このスペクトルは、標本化周波数32kHzのオーディオ信号を30msの長さで周波数分析したときの対数スペクトルである。
この図に示されるように、周波数0〜8000Hzの低域スペクトルはピーク性が強く(鋭敏なピークが多数存在し)、この帯域でのスペクトルのダイナミックレンジは大きくなる。一方、周波数8000〜15000Hzの高域スペクトルのダイナミックレンジは小さくなる。このようなスペクトル特性を有する信号に対して、従来の低域スペクトルを高域スペクトルに複製する方法では、たとえ高域スペクトルのゲイン調整を行ったとしても、以下に示すように、高域スペクトルには不必要なピーク形状が現れる。
図2は、図1に示したスペクトルの低域のスペクトル(1000〜7000Hz)を複製し、エネルギー調整することにより、高域スペクトル(10000〜16000Hz)を得た場合の全帯域のスペクトルを示す図である。
上記の処理を行うと、この図にあるように、10000Hz以上の帯域R1に不必要なピーク形状が現れる。このピークはオリジナルの高域スペクトルには見られなかったものである。そして、このスペクトルを時間領域に変換して得られる復号信号には、鈴が鳴るように聞こえるノイズが発生し、主観品質が低下するという問題が発生する。このように、ある帯域のスペクトルを別の帯域のスペクトルで代用する技術においては、挿入されるスペクトルのダイナミックレンジを適切に調整する必要がある。
よって、本発明の目的は、ある帯域のスペクトルを別の帯域のスペクトルで代用(置換)する技術において、挿入されるスペクトルのダイナミックレンジを適切に調整して、復号信号の主観品質を向上させることができる符号化装置、復号化装置、およびこれらの方法を提供することである。
本発明の符号化装置は、入力信号の高域スペクトル部の符号化を行う符号化手段と、前記入力信号の低域スペクトル部を符号化した信号を復号化した第1の低域スペクトルの振幅を一様に制限した第2の低域スペクトルを生成する制限手段と、を具備し、前記符号化手段は、前記第2の低域スペクトルに基づいて前記高域スペクトル部の符号化を行う構成を採る。
また、本発明の復号化装置は、符号化装置で生成された符号に含まれる低域スペクトル部の符号を復号化した信号を周波数領域の信号に変換した第1の低域スペクトルを生成する変換手段と、前記符号化装置で生成された符号に含まれる高域スペクトル部の符号を復号化する復号化手段と、前記符号化装置で生成された符号に含まれるスペクトル変形情報に従って前記第1の低域スペクトルの振幅を一様に制限した第2の低域スペクトルを生成する制限手段と、を具備し、前記復号化手段は、前記第2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号化する構成を採る。
また、本発明の復号化装置は、符号化装置で生成された符号に含まれる低域スペクトル部の符号を復号化した信号を周波数領域の信号に変換した第1の低域スペクトルを生成する変換手段と、前記符号化装置で生成された符号に含まれる高域スペクトル部の符号を復号化する復号化手段と、前記第1の低域スペクトルの振幅を一様に制限した第2の低域スペクトルを生成する制限手段と、を具備し、前記制限手段は、前記第1の低域スペクトルに基づいて制限の仕方に関する情報を推定し、推定された情報を用いて前記第2の低域スペクトルを生成し、前記復号化手段は、前記第2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号化する構成を採る。
本発明によれば、ある帯域のスペクトルを別の帯域のスペクトルで代用する技術において、挿入されるスペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
オーディオ信号のスペクトルの一例を示す図 低域のスペクトルを複製し、エネルギー調整することにより、高域スペクトルを得た場合の全帯域のスペクトルを示す図 実施の形態1に係る符号化装置の主要な構成を示すブロック図 実施の形態1に係るスペクトル符号化部内部の主要な構成を示すブロック図 実施の形態1に係るスペクトル変形部内部の主要な構成を示すブロック図 実施の形態1に係る変形部内部の主要な構成を示すブロック図 実施の形態1に係る変形部によって得られる変形スペクトルの例を示す図 実施の形態1に係る変形部の別のバリエーションの構成を示すブロック図 実施の形態1に係る階層復号化装置の主要な構成を示すブロック図 実施の形態1に係るスペクトル復号化部内部の主要な構成を示すブロック図 実施の形態2に係るスペクトル符号化部を説明するためのブロック図 実施の形態2に係るスペクトル符号化部の別のバリエーションの構成を示すブロック図 実施の形態2に係るスペクトル復号化部の主要な構成を示すブロック図 実施の形態3に係るスペクトル符号化部の主要な構成を示すブロック図 実施の形態3に係る変形情報推定部の説明を行う図 実施の形態3に係る変形部の主要な構成を示すブロック図 実施の形態3に係るスペクトル復号化部の主要な構成を示すブロック図 実施の形態4に係る階層符号化装置の主要な構成を示すブロック図 実施の形態4に係るスペクトル符号化部の主要な構成を示すブロック図 実施の形態4に係る階層復号化装置の主要な構成を示すブロック図 実施の形態4に係るスペクトル復号化部の主要な構成を示すブロック図 実施の形態5に係るスペクトル符号化部の主要な構成を示す図 実施の形態5に係る変形情報推定部の主要な構成を示すブロック図 実施の形態5に係るスペクトル復号化部の主要な構成を示す図 実施の形態6に係るスペクトル変形方法を説明するための図 実施の形態6に係るスペクトル変形部内部の主要な構成を示すブロック図 変形スペクトルの生成方法を説明するための図 変形スペクトルの生成方法を説明するための図 実施の形態6に係るスペクトル変形部内部の主要な構成を示したブロック図
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図3は、本発明の実施の形態1に係る階層符号化装置100の主要な構成を示すブロック図である。ここでは、符号化情報が複数のレイヤからなる階層構造を有する場合、すなわち、階層符号化(スケーラブル符号化)を行う場合を例にとって説明する。
階層符号化装置100の各部は、信号の入力に伴い以下の動作を行う。
ダウンサンプリング部101は、入力信号からサンプリングレートの低い信号を生成し第1レイヤ符号化部102に与える。第1レイヤ符号化部102は、ダウンサンプリング部101から出力された信号を符号化する。第1レイヤ符号化部102で得られた符号化コードは、多重化部103に与えられると共に、第1レイヤ復号化部104に与えられる。第1レイヤ復号化部104は、第1レイヤ符号化部102から出力された符号化コードから第1レイヤの復号信号S1を生成する。
一方、遅延部105は、入力信号に所定の長さの遅延を与える。この遅延は、ダウンサンプリング部101、第1レイヤ符号化部102、および第1レイヤ復号化部104で生じる時間遅れを補正するためのものである。スペクトル符号化部106は、第1レイヤ復号化部104で生成された第1レイヤ復号信号S1を用いて、遅延部105から出力された所定時間遅延された入力信号S2のスペクトル符号化を行い、生成された符号化コードを多重化部103に出力する。
多重化部103は、第1レイヤ符号化部102で求められる符号化コードとスペクトル符号化部106で求められる符号化コードとを多重化し、これを出力符号化コードとして符号化装置100の外部に出力する。
図4は、上記のスペクトル符号化部106内部の主要な構成を示すブロック図である。
このスペクトル符号化部106は、周波数領域変換部111、スペクトル変形部112、周波数領域変換部113、拡張帯域スペクトル符号化部114、および多重化部115から主に構成される。
スペクトル符号化部106には、第1レイヤ復号化部104から有効信号帯域が0≦k<FL(kは各サブバンドの周波数)の第1信号S1が入力され、また、遅延部105から有効信号帯域が0≦k<FH(ただし、FL<FH)の第2信号S2が入力される。スペクトル符号化部106は、第1信号S1の帯域0≦k<FLのスペクトルを利用して、第2信号S2の帯域FL≦k<FHのスペクトルを推定し、この推定情報を符号化して出力する。
周波数領域変換部111は、入力される第1信号S1に周波数変換を行い、低域スペクトルである第1スペクトルS1(k)を算出する。一方、周波数領域変換部113は、入力される第2信号S2に周波数変換を行い、広帯域の第2スペクトルS2(k)を算出する。ここで周波数変換の方法は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、変形離散コサイン変換(MDCT)等を適用する。また、S1(k)は、第1スペクトルの周波数kのサブバンドのスペクトルであり、S2(k)は、第2スペクトルの周波数kのサブバンドのスペクトルである。
スペクトル変形部112は、第1スペクトルS1(k)を様々に変形させることにより第1スペクトルのダイナミックレンジを変化させ、適切なダイナミックレンジとなる変形の仕方について調べる。そして、この変形に関する情報(変形情報)を符号化して多重化部115に与える。このスペクトル変形処理の詳細については後ほど詳述する。また、スペクトル変形部112は、適切なダイナミックレンジとなった第1スペクトルS1(k)を拡張帯域スペクトル符号化部114に出力する。
拡張帯域スペクトル符号化部114は、第2スペクトルS2(k)を参照信号として、第1スペクトルS1(k)の高域(FL≦k<FH)に含めるべきスペクトル(拡張帯域スペクトル)を推定し、この推定スペクトルに関する情報(推定情報)を符号化して多重化部115に与える。ここで、拡張帯域スペクトルの推定は、変形後の第1スペクトルS1’(k)に基づいて行われる。
多重化部115は、スペクトル変形部112から出力された変形情報の符号化コードと、拡張帯域スペクトル符号化部114から出力された拡張帯域スペクトルに関する推定情報の符号化コードと、を多重化して出力する。
図5は、上記のスペクトル変形部112内部の主要な構成を示すブロック図である。
スペクトル変形部112は、第1スペクトルS1(k)のダイナミックレンジが第2スペクトルS2(k)の高域スペクトル(FL≦k<FH)のダイナミックレンジに最も近付くような変形を第1スペクトルS1(k)に加える。そして、このときの変形情報を符号化して出力する。
バッファ121は、入力された第1スペクトルS1(k)を一時保存し、必要に応じ第1スペクトルS1(k)を変形部122に与える。
変形部122は、下記の手順に従い、第1スペクトルS1(k)を様々に変形して変形第1スペクトルS1’(j,k)を生成し、これをサブバンドエネルギー算出部123に与える。ここで、jは各変形処理を識別するためのインデックスである。
サブバンドエネルギー算出部123は、変形第1スペクトルS’(j,k)の周波数帯域を複数のサブバンドに分割し、所定の範囲のサブバンドのエネルギー(サブバンドエネルギー)を求める。例えば、サブバンドエネルギーを求める範囲をF1L≦k<F1Hと定めたとき、この帯域幅をN分割したときのサブバンド幅BWSは次の(式1)のように表される。
BWS=(F1H−F1L+1)/N ・・・(式1)
よって、第nサブバンドの最小周波数F1L(n)および最大周波数F1H(n)は、それぞれ(式2)(式3)と表される。
F1L(n)=F1L+n・BWS ・・・(式2)
F1H(n)=F1L+(n+1)・BWS−1 ・・・(式3)
ここでnは0〜N−1の値をとる。このとき、サブバンドエネルギーP1(j,n)は次の(式4)のように算出される。
Figure 2005111568
または、次の(式5)のようにサブバンドに含まれるスペクトルの平均値として求めてもよい。
Figure 2005111568
このようにして求められたサブバンドエネルギーP1(j,n)が分散算出部124に与えられる。
分散算出部124は、サブバンドエネルギーP1(j,n)のばらつきの程度を表すために、分散σ1(j)を次の(式6)に従い算出する。
Figure 2005111568
ここで、P1mean(j)はサブバンドエネルギーP1(j,n)の平均値を表し、次の(式7)のように算出される。
Figure 2005111568
このようにして算出された、変形情報jにおけるサブバンドエネルギーのばらつきの度合いを表す分散σ1(j)は探索部125に与えられる。
サブバンドエネルギー算出部126および分散算出部127は、上記のサブバンドエネルギー算出部123および分散算出部124で行われる一連の処理と同様に、入力される第2スペクトルS2(k)に対して、サブバンドエネルギーのばらつきの度合いを表す分散σ2を算出する。ただし、サブバンドエネルギー算出部126および分散算出部127の処理は、以下の点で上記と異なる。すなわち、第2スペクトルS2(k)のサブバンドエネルギーを算出する所定の範囲を、F2L≦k<F2Hと定める。ここで、第1スペクトルのダイナミックレンジを第2スペクトルの高域スペクトルのダイナミックレンジに近づける必要があることから、FL≦F2L<F2Hの条件を満足するF2Lを設定する。また、第2スペクトルに対するサブバンド数は、第1スペクトルのサブバンド数Nと一致させる必要はない。ただし、第1スペクトルのサブバンド幅と第2スペクトルのサブバンド幅とがほぼ一致するように、第2スペクトルのサブバンド数は設定される。
探索部125は、第1スペクトルのサブバンドの分散σ1(j)と第2スペクトルのサブバンドの分散σ2とが最も近付く際の第1スペクトルのサブバンドの分散σ1(j)を探索により決定する。具体的には、探索部125は、全ての変形候補0≦j<Jに対して第1スペクトルのサブバンドの分散σ1(j)を算出し、この算出値と第2スペクトルのサブバンドの分散σ2とを比較し、両者が最も近付く際のjの値(最適変形情報jopt)を決定し、このjoptをスペクトル変形部112の外部および変形部128に出力する。
変形部128は、この最適変形情報joptに対応する変形第1スペクトルS’(jopt,k)を生成し、スペクトル変形部112の外部に出力する。なお、最適変形情報joptは多重化部115に、変形第1スペクトルS1’(jopt,k)は拡張帯域スペクトル符号化部114に送られる。
図6は、上記の変形部122内部の主要な構成を示すブロック図である。なお、変形部128内部の構成も基本的に変形部122と同様である。
正号/負号抽出部131は、第1スペクトルの各サブバンドの符号情報sign(k)を求め、正号/負号付与部134に出力する。
絶対値算出部132は、第1スペクトルの各サブバンドに対し、振幅の絶対値を算出し、この値を指数値算出部133に与える。
指数変数テーブル135は、第1スペクトルの変形に用いられる指数変数α(j)を記録している。このテーブルに含まれる変数のうちjに対応する値が、指数変数テーブル135から出力される。具体的には、指数変数テーブル135には、例えば、指数変数α(j)={1.0,0.8,0.6,0.4}の4つからなる指数変数の候補が記録されており、探索部125から指定されたインデックスjに基づき1つの指数変数α(j)が選択され、指数値算出部133に与えられる。
指数値算出部133は、指数変数テーブル135から出力された指数変数を用いて、絶対値算出部132から出力されるスペクトル(絶対値)の指数値、すなわち、各サブバンドの振幅の絶対値をα(j)でべき乗した値を算出する。
正号/負号付与部134は、指数値算出部133から出力される指数値に対し、正号/負号抽出部131で先に求めておいた符号情報sign(k)を付与し、変形第1スペクトルS1’(j,k)として出力する。
よって変形部122から出力される変形第1スペクトルS1’(j,k)は、次の(式8)のように表される。
Figure 2005111568
図7は、上記の変形部122(または変形部128)によって得られる変形スペクトルの例を示す図である。
なお、ここでは、指数変数α(j)={1.0,0.6,0.2}の場合を例にとって説明している。また、ここでは、各スペクトルの比較が容易となるように、α(j)=1.0の場合のスペクトルS71を上方に40dB、α(j)=0.6の場合のスペクトルS72を上方に20dBだけシフトさせて表示をしている。この図から、指数変数α(j)によって、スペクトルのダイナミックレンジを変化させることが可能であることがわかる。
以上説明したように、本実施の形態に係る符号化装置(スペクトル符号化部106)によれば、第1信号(0≦k<FL)から求められる第1スペクトルを使って、第2信号(0≦k<FH)から求められる第2スペクトルの高域部(FL≦k<FH)を推定し、推定情報を符号化する際に、第1スペクトルをそのまま用いずに、第1スペクトルに変形を加えた後に上記推定を行うようにする。このとき、どのように変形したかを表す情報(変形情報)も併せて符号化し、復号化側に伝送する。
第1スペクトルに加える変形の具体的な方法は、第1スペクトルをサブバンドに分割し、各サブバンド内に含まれるスペクトルの絶対振幅の平均(サブバンド平均振幅)をサブバンド毎に求め,これらサブバンド平均振幅を統計処理して求められる分散が、第2スペクトルの高域部のスペクトルから同様にして求められるサブバンド平均振幅の分散に最も近付くように、第1スペクトルを変形する。すなわち、第1スペクトルの絶対振幅の平均的な振れ幅と、第2スペクトルの高域スペクトルの絶対振幅の平均的な振れ幅とが同等の値となるように第1スペクトルを変形する。また、この具体的な変形方法を示す変形情報を符号化する。なお、サブバンド平均振幅の代わりに、各サブバンドに含まれるスペクトルのエネルギーを用いても良い。
上記の具体的な変形方法のさらに詳細は、第1スペクトルのスペクトルをα乗(0≦α≦1)することで、サブバンド内のスペクトルの絶対振幅のばらつき(振れ)を制御する。そして、使用されたαに関する情報を復号化側へ伝送する。
上記の構成を採ることにより、第1スペクトルのダイナミックレンジと第2スペクトルの高域部のダイナミックレンジとが大きく異なる場合でも、推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
また、以上の構成において、第1スペクトル全体をα乗(0≦α≦1)することにより、スペクトルの振幅に対し一様な制限を加えている。これにより、鋭敏(急峻)なピークを鈍化させることができる。また、例えば、ただ単に所定値以上のピークをピークカットする変形を行った場合、スペクトルが不連続となり異音が発生するおそれがあるが、上記の構成を採ることにより、スペクトルは滑らかなままであり異音の発生を防止することができる。
なお、本実施の形態では、スペクトルの絶対振幅のばらつきの度合い(振れ幅)を表す指標として分散を用いる場合を例にとって説明したが、これに限らず、例えば標準偏差等の別の指標を適用しても良い。
また、本実施の形態では、符号化装置100内の変形部122(または変形部128)において、指数関数を使用する場合を例にとって説明したが、以下に示すような方法を用いても良い。
図8は、変形部の別のバリエーション(変形部122a)の構成を示すブロック図である。なお、変形部122(または変形部128)と同一の構成要素には同一の符号を付し、その説明を省略する。
上記の変形部122(または変形部128)では、指数関数を使用しているために演算量が大きくなる傾向にある。そこで、指数関数を使用せずにスペクトルのダイナミックレンジを変化させるようにすることで演算量の増大を回避する。
絶対値算出部132は、入力された第1スペクトルS1(k)の各スペクトルの絶対値を算出し、平均値算出部142および変形スペクトル算出部143に出力する。平均値算出部142は、次の(式9)に従いスペクトルの絶対値の平均値S1meanを算出する。
Figure 2005111568
乗数テーブル144には、変形スペクトル算出部143で使用される乗数の候補が記録されており、探索部125から指定されたインデックスに基づいて1つの乗数が選択され、変形スペクトル算出部143に出力される。ここでは、乗数テーブルに、乗数g(j)={1.0,0.9,0.8,0.7}の4候補が記録されているものとする。
変形スペクトル算出部143は、絶対値算出部132から出力された第1スペクトルの絶対値と、乗数テーブル144から出力された乗数g(j)とを用いて、変形スペクトルS1’(k)の絶対値を次の(式10)に従い算出し、正号/負号付与部134に出力する。
Figure 2005111568
正号/負号付与部134は、変形スペクトル算出部143から出力された変形スペクトルS1’(k)の絶対値に、正号/負号抽出部131で得られた符号情報sign(k)を付与し、次の(式11)で表される最終的な変形スペクトルS1’(k)を生成し、出力する。
Figure 2005111568
また、本実施の形態では、変形部が、正号/負号抽出部、絶対値算出部、正号/負号付与部を備える場合を例にとって説明したが、入力されるスペクトルが常に正である場合には、これらの構成は必要ない。
次いで、上記の階層符号化装置100で生成された符号化コードを復号化することができる階層復号化装置150の構成について以下詳細に説明する。
図9は、本実施の形態に係る階層復号化装置150の主要な構成を示すブロック図である。
分離部151は、入力された符号化コードに分離処理を施し、第1レイヤ復号化部152用の符号化コードS51と、スペクトル復号化部153用の符号化コードS52とを生成する。第1レイヤ復号化部152は、分離部151で得られた符号化コードを用いて信号帯域0≦k<FLの復号信号を復号し、この復号信号S53をスペクトル復号化部153に与える。また、第1レイヤ復号化部152の出力は、復号化装置150の出力端子にも接続されている。これにより、第1レイヤ復号化部152で生成される第1レイヤ復号信号を出力する必要が生じた場合には、この出力端子を介し出力させることができる。
スペクトル復号化部153には、分離部151で分離された符号化コードS52と第1レイヤ復号化部152から出力される第1レイヤ復号信号S53とが与えられる。スペクトル復号化部153は、後述のスペクトル復号化を行い、信号帯域0≦k<FHの広帯域の復号信号を生成し、これを出力する。スペクトル復号化部153では、第1レイヤ復号化部152から与えられる第1レイヤ復号信号353を第1信号とみなして処理を行うことになる。
図10は、上記のスペクトル復号化部153内部の主要な構成を示すブロック図である。
このスペクトル復号化部153には、符号化コードS52および第1レイヤ復号信号S53(有効周波数帯域が0≦k<FLの第1信号)が入力される。
分離部161は、入力された符号化コードS52から、上記の符号化側のスペクトル変形部112で生成された変形情報と、拡張帯域スペクトル符号化情報とを分離し、変形情報は変形部162に、拡張帯域スペクトル符号化情報は拡張帯域スペクトル生成部163に出力する。
周波数領域変換部164は、入力された時間領域信号である第1レイヤ復号信号S53に対し周波数変換を施し、第1スペクトルS1(k)を算出する。この周波数変換法は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、変形離散コサイン変換(MDCT)等を使用する。
変形部162は、分離部161から与えられる変形情報に基づいて、周波数領域変換部164から与えられる第1スペクトルS1(k)に変形を加え、変形第1スペクトルS1’(k)を生成する。なお、この変形部162内部の構成は、既に説明した符号化側の変形部122(図6参照)と同様なので、説明を省略する。
拡張帯域スペクトル生成部163は、変形後の第1スペクトルS1’(k)を用いて、第1スペクトルS1(k)の拡張帯域FL≦k<FHに含めるべき第2スペクトルの推定値S2”(k)を生成し、この第2スペクトルの推定値S2”(k)をスペクトル構成部165に与える。
スペクトル構成部165は、周波数領域変換部164から与えられる第1スペクトルS1(k)と、拡張帯域スペクトル生成部163から与えられる第2スペクトルの推定値S2”(k)とを結合し、復号スペクトルS3(k)を生成する。この復号スペクトルS3(k)は次の(式12)のように表される。
Figure 2005111568
この復号スペクトルS3(k)は、時間領域変換部166へ与えられる。
時間領域変換部166は、復号スペクトルS3(k)を時間領域の信号に変換した後、必要に応じて適切な窓掛けおよび重ね合わせ加算等の処理を行ってフレーム間に生じる不連続を回避し、最終的な復号信号を出力する。
このように、本実施の形態に係る復号化装置(スペクトル復号化部153)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することができる。
(実施の形態2)
本発明の実施の形態2では、第1スペクトルを内部状態として持つピッチフィルタを用いて第2スペクトルを推定し、このピッチフィルタの特性を符号化する。
本実施の形態に係る階層符号化装置の構成は、実施の形態1に示した階層符号化装置と同様であるので、異なる構成であるスペクトル符号化部201を図11のブロック図を用いて説明する。なお、実施の形態1に示したスペクトル符号化部106(図4参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
内部状態設定部203は、スペクトル変形部112にて生成された変形第1スペクトルS1’(k)を使ってフィルタリング部204で用いられるフィルタの内部状態S(k)を設定する。
フィルタリング部204は、内部状態設定部203で設定されたフィルタの内部状態S(k)と、ラグ係数設定部206から与えられるラグ係数Tとに基づいてフィルタリングを行い、第2スペクトルの推定値S2”(k)を算出する。なお、本実施の形態では、フィルタを次の(式13)で表されるものを使用した場合について説明する。
Figure 2005111568
ここで、Tは、ラグ係数設定部206から与えられる係数を表す。また、ここではM=1とする。フィルタリング部204におけるフィルタリング処理は、次の(式14)に示すように、周波数の低い方から順に、周波数Tだけ低いスペクトルを中心に対応する係数βを乗じて加算することにより推定値を算出する。
Figure 2005111568
この式に従う処理を、FL≦k<FHの間に行う。ここでS(k)は、フィルタの内部状態を表す。このとき算出されるS(k)(ただし、FL≦k<FH)が、第2スペクトルの推定値S2”(k)として利用される。
探索部205は、周波数領域変換部113から与えられる第2スペクトルS2(k)と、フィルタリング部204から与えられる第2スペクトルの推定値S2”(k)との類似度を算出する。
なお、この類似度には様々な定義が存在するが、本実施の形態では、まずフィルタ係数β−1およびβを0とみなして最小2乗誤差に基づき定義される次の(式15)に従い算出される類似度を使用する。
Figure 2005111568
この方法では、最適なラグ係数Tを算出した後にフィルタ係数βを決定することになる。ここで、EはS2(k)とS2”(k)間の2乗誤差を表す。また、上記(式15)の右辺第1項は、ラグ係数Tに関わらず固定値となるので、(式15)の右辺第2項を最大とするS2”(k)を生成するラグ係数Tが探索されることになる。本実施の形態では、(式15)の右辺第2項を類似度と呼ぶことにする。
ラグ係数設定部206は、予め定められた探索範囲TMIN〜TMAXに含まれるラグ係数Tを順次フィルタリング部204に出力する。そのため、フィルタリング部204では、ラグ係数設定部206からラグ係数Tが与えられる度に、FL≦k<FHの範囲のS(k)をゼロクリアした後のフィルタリングが行われ、探索部205では、その度に類似度が算出される。探索部205は、算出される類似度が最大となるときの係数TmaxをTMIN〜TMAXの間から決定し、その係数Tmaxをフィルタ係数算出部207、スペクトル概形符号化部208,および多重化部115に与える。
フィルタ係数算出部207は、探索部205から与えられる係数Tmaxを用いてフィルタ係数βを求める。ここで、フィルタ係数βは、次の(式16)に従う2乗歪Eを最小にするように求められる。
Figure 2005111568
フィルタ係数算出部207は、複数個のβの組合せを予めテーブルとして有しており、上記(式16)の2乗歪Eを最小とするβの組合せを決定し、そのコードを多重化部115に出力すると共に、フィルタ係数βをスペクトル概形符号化部208に与える。
スペクトル概形符号化部208は、内部状態設定部203から与えられる内部状態S(k)と、探索部205から与えられるラグ係数Tmaxと、フィルタ係数算出部207から与えられるフィルタ係数βとを用いてフィルタリングを行い、帯域FL≦k<FHの第2スペクトルの推定値S2”(k)を求める。そして、スペクトル概形符号化部208は、第2スペクトルの推定値S2”(k)と第2スペクトルS2(k)とを用いてスペクトル概形の調整係数の符号化を行う。
なお、本実施の形態では、このスペクトル概形情報をサブバンド毎のスペクトルパワで表す場合について説明する。このとき、第jサブバンドのスペクトルパワは次の(式17)で表される。
Figure 2005111568
ここで、BL(j)は第jサブバンドの最小周波数、BH(j)は第jサブバンドの最大周波数を表す。このようにして求められた第2スペクトルのサブバンドのスペクトルパワを第2スペクトルのスペクトル概形情報とみなす。
同様に、スペクトル概形符号化部208は、第2スペクトルの推定値S2”(k)のサブバンドのスペクトルパワB”(j)を次の(式18)に従い算出し、サブバンド毎の変動量V(j)を次の(式19)に従い算出する。
Figure 2005111568
Figure 2005111568
次に、スペクトル概形符号化部208は、変動量V(j)を符号化してそのコードを多重化部115に送る。
多重化部115は、スペクトル変形部112から得られる変形情報と、探索部205から得られる最適ラグ係数Tmaxの情報と、フィルタ係数算出部207から得られるフィルタ係数の情報と、スペクトル概形符号化部208から得られるスペクトル概形調整係数の情報とを多重化して出力する。
このように、本実施の形態によれば、第1スペクトルを内部状態として持つピッチフィルタを用いて第2スペクトルを推定するので、このピッチフィルタの特性のみを符号化すれば良く、低ビットレート化が可能となる。
なお、本実施の形態では、周波数領域変換部を備える場合を説明したが、これらは時間領域信号を入力とする場合に必要な構成要素であり、直接スペクトルが入力される場合には周波数領域変換部は必要ない。
また、本実施の形態では、上記(式13)においてM=1の場合を例にとって説明したが、Mの値は1に限定されることはなく、0以上の整数を用いることが可能である。
また、本実施の形態では、ピッチフィルタが上記(式13)のフィルタ関数(伝達関数)を用いる場合を例にとって説明したが、ピッチフィルタは1次のピッチフィルタであっても良い。
図12は、本実施の形態に係るスペクトル符号化部201の別のバリエーション(スペクトル符号化部201a)の構成を示すブロック図である。なお、スペクトル符号化部201と同一の構成要素には同一の符号を付し、その説明を省略する。
フィルタリング部204で用いられるフィルタは、次の(式20)のように簡略化したものを用いる。
Figure 2005111568
この式は、上記(式13)において、M=0、β=1とした場合のフィルタ関数となっている。
このフィルタにより生成される第2スペクトルの推定値S2”(k)は、以下の(式21)を用いて、Tだけ離れた内部状態S(k)の低域スペクトルを順次コピーすることにより求めることができる。
Figure 2005111568
また、探索部205は、既に述べたのと同様に、最適な係数Tmaxを上記(式15)を最小とするラグ係数Tを探索して決定する。このようにして求められた係数Tmaxは多重化部115に与えられる。
上記の構成を採ることにより、フィルタリング部204で用いるフィルタの構成が簡易なため、フィルタ係数算出部207が不要となり、少ない演算量で第2スペクトルの推定を行うことができる。すなわち、この構成によれば、符号化装置の構成が簡易となり、符号化処理の演算量を削減することができる。
次いで、上記のスペクトル符号化部201(またはスペクトル符号化部201a)で生成された符号化コードを復号化することができる復号側のスペクトル復号化部251の構成について以下詳細に説明する。
図13は、本実施の形態に係るスペクトル復号化部251の主要な構成を示すブロック図である。なお、このスペクトル復号化部251は、実施の形態1に示したスペクトル復号化部153(図10参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。異なるのは拡張帯域スペクトル生成部163aの内部構成である。
内部状態設定部252は、変形部162から出力される変形後の第1スペクトルS1’(k)を使ってフィルタリング部253で用いられるフィルタの内部状態S(k)を設定する。
フィルタリング部253は、符号化側のスペクトル符号化部201(201a)で生成された符号化コードから、分離部161を介してフィルタに関する情報を得る。具体的には、スペクトル符号化部201の場合は、ラグ係数Tmaxおよびフィルタ係数βが得られ、スペクトル符号化部201aの場合には、ラグ係数Tmaxのみが得られる。そして、フィルタリング部253は、変形部162で生成された変形第1スペクトルS1’(k)をフィルタの内部状態S(k)として、取得したフィルタ情報に基づいてフィルタリングを行い、復号スペクトルS”(k)を算出する。このフィルタリング方法は、符号化側のスペクトル符号化部201(201a)で用いられたフィルタ関数に依存し、スペクトル符号化部201の場合は、復号側でも上記(式13)に従ってフィルタリングが行われ、スペクトル符号化部201aの場合には、復号側でも上記(式20)に従ってフィルタリングが行われる。
スペクトル概形復号化部254は、分離部161から与えられたスペクトル概形情報に基づいてスペクトル概形情報を復号する。本実施の形態では、サブバンド毎の変動量の量子化値Vq(j)を用いる場合を例にとって説明を行う。
スペクトル調整部255は、フィルタリング部253から得られるスペクトルS”(k)に、スペクトル概形復号化部254から得られるサブバンド毎の変動量の量子化値Vq(j)を次の(式22)に従って乗じることにより、スペクトルS”(k)の周波数帯域FL≦k<FHのスペクトル形状を調整し、第2スペクトルの推定値S2”(k)を生成する。
Figure 2005111568
ここで、BL(j)およびBH(j)は、それぞれ第jサブバンドの最小周波数、最大周波数を表す。上記(式22)に従って算出された第2スペクトルの推定値S2”(k)は、スペクトル構成部165に与えられる。
スペクトル構成部165は、実施の形態1で前述したように、第1スペクトルS1(k)と第2スペクトルの推定値S2”(k)とを結合して復号スペクトルS3(k)を生成し、時間領域変換部166に与える。
このように、本実施の形態に係る復号化装置(スペクトル復号化部251)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することができる。
(実施の形態3)
図14は、本発明の実施の形態3に係るスペクトル符号化部の主要な構成を示すブロック図である。図14において、図4と同一名称および同一符号を付したブロックは同一機能を有するので説明を省略する。本実施の形態3では、符号化側、復号化側で共通な情報を基にスペクトルのダイナミックレンジを調整する。これにより、スペクトルのダイナミックレンジを調整するダイナミックレンジ調整係数を表す符号化コードを出力する必要がない。ダイナミックレンジ調整係数を表す符号化コードを出力する必要がないために、ビットレートを低減することができる。
図14におけるスペクトル符号化部301は、周波数領域変換部111と拡張帯域スペクトル符号化部114との間に、図4におけるスペクトル変形部112の代わりに、ダイナミックレンジ算出部302、変形情報推定部303、および変形部304を有する。実施の形態1におけるスペクトル変形部112は、第1スペクトルS1(k)を様々に変形させることにより第1スペクトルのダイナミックレンジを変化させ、適切なダイナミックレンジとなる変形の仕方(変形情報)について調べ、この変形情報を符号化して出力する。一方、本実施の形態3では、符号化側および復号化側で共通な情報に基づきこの変形情報の推定を行い、推定変形情報に従い第1スペクトルS1(k)の変形を行う。
したがって本実施の形態3では、スペクトル変形部112の代わりに、ダイナミックレンジ算出部302と、変形情報推定部303と、その推定変形情報に基づき第1スペクトルを変形する変形部304とを有する。なお、変形情報はスペクトル符号化部及び後述するスペクトル復号化部のそれぞれ内部にて推定により求められるため、スペクトル符号化部301から変形情報を符号化コードとして出力する必要がなく、このため図4のスペクトル符号化部106に配置されている多重化部115は必要としない。
周波数領域変換部111より第1スペクトルS1(k)が出力され、ダイナミックレンジ算出部302と変形部304とに与えられる。ダイナミックレンジ算出部302は、第1スペクトルS1(k)のダイナミックレンジを定量化し、その結果をダイナミックレンジ情報として出力する。ダイナミックレンジの定量化の手法としては、実施の形態1と同様に、第1スペクトルの周波数帯域を複数のサブバンドに分割し、所定の範囲のサブバンドのエネルギー(サブバンドエネルギー)を求め、当該サブバンドエネルギーの分散値を算出し、この分散値をダイナミックレンジ情報として出力する。
次に、図15を用いて変形情報推定部303の説明を行う。変形情報推定部303には、ダイナミックレンジ算出部302よりダイナミックレンジ情報が入力され、切替部305に与えられる。切替部305は、前記ダイナミックレンジ情報を基に変形情報テーブル306内に記録されている推定変形情報の候補の中から1つの推定変形情報を選択し、出力する。変形情報テーブル306には0〜1の間の値をとる複数の推定変形情報の候補が記録されており、この候補はダイナミックレンジ情報と対応するようにあらかじめ学習によって決めておく。
図16は変形部304の主要な構成を示すブロック図である。図6と同一名称および同一符号を付したブロックは同一の機能を有するので説明を省略する。図16の変形部304における指数値算出部307は、変形情報推定部303より与えられる推定変形情報(0〜1の間をとる)に従い、絶対値算出部132から出力されるスペクトルの絶対振幅の指数値、すなわち、推定変形情報でべき乗した値を、正号/負号付与部134に出力する。正号/負号付与部134は、指数値算出部307から出力される指数値に対し、正号/負号抽出部131で先に求めておいた符号情報を付与し、変形第1スペクトルとして出力する。
以上説明したように、本実施の形態に係る符号化装置(スペクトル符号化部301)によれば、第1信号から求められる第1スペクトル(0≦k<FL)を使って、第2信号から求められる第2スペクトル(0≦k<FH)の高域部(FL≦k<FH)を推定し、推定情報を符号化する際に、第1スペクトルをそのまま用いずに、第1スペクトルに変形を加えた後に上記推定を行うようにすることで、推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。このとき、どのように変形したかを表す情報(変形情報)は、符号化側、復号化側で共通な情報(本実施の形態3では第1スペクトル)を基に変形情報を確定するために、変形情報に関する符号化コードを復号化部に伝送する必要がなく、ビットレートを低減させることが可能となる。
なお、変形情報推定部303において、変形情報テーブル306を用いた、第1スペクトルのダイナミックレンジ情報と推定変形情報との対応づけを行う代わりに、第1スペクトルのダイナミックレンジ情報を入力値、推定変形情報を出力値とするマッピング関数を用いても良い。この場合、関数の出力値である推定変形情報は0〜1の間の値をとるように制限される。
図17は、本実施の形態3に係るスペクトル復号化部353の主要な構成を示すブロック図である。この構成において、図10と同一名称および同一符号を付したブロックは同一の機能を有するため説明を省略する。周波数領域変換部164と拡張帯域スペクトル生成部163との間に、ダイナミックレンジ算出部361、変形情報推定部362、および変形部363を有する。図10における変形部162は、符号化側のスペクトル変形部112で生成された変形情報を入力し、この変形情報に基づいて、周波数領域変換部164から与えられる第1スペクトルS1(k)に変形を施す。これに対し本実施の形態3は、上記スペクトル符号化部301と同様に、符号化側および復号化側で共通な情報に基づきこの変形情報の推定を行い、推定変形情報にしたがって第1スペクトルS1(k)の変形を行う。
したがって本実施の形態3では、ダイナミックレンジ算出部361、変形情報推定部362、および変形部363を有する。なお、上記スペクトル符号化部301と同様に、変形情報は、スペクトル復号化部の内部にて推定により求められるため、入力される符号化コードには変形情報が含まれていないため、図10のスペクトル復号化部153に配置されている分離部161は必要としない。
周波数領域変換部164より第1スペクトルS1(k)が出力され、ダイナミックレンジ算出部361と変形部363とに与えられる。以降、ダイナミックレンジ算出部361、変形情報推定部362、および変形部363の動作については、既に説明した符号化側のスペクトル符号化部301(図14参照)内のダイナミックレンジ算出部302、変形情報推定部303、および変形部304と同様なので説明を省略する。なお、変形情報推定部362内の変形情報テーブルは、スペクトル符号化部301における変形情報推定部303内の変形情報テーブル306と同じ推定変形情報の候補が記録されている。
また、拡張帯域スペクトル生成部163、スペクトル構成部165、時間領域変換部166の動作は、実施の形態1の図10に記載のものと同様なので、説明を省略する。
このように、本実施の形態に係る復号化装置(スペクトル復号化部353)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することで、推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
なお、本実施の形態では、変形情報推定部303において推定変形情報が求められるが、この推定変形情報を実施の形態1の図4記載のスペクトル符号化部106に適用してスペクトル変形部112に当該推定変形情報を与え、スペクトル変形部112では変形情報推定部303より与えられる推定変形情報を基準にその近傍の変形情報を指数変数テーブル135から選択し、その限定された変形情報の中から最も適切な変形情報を探索部125にて決定する。この構成では、最終的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。このように正確な変形情報を符号化して復号化部へ伝送することができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができるという効果が得られる。
(実施の形態4)
本発明の実施の形態4では、第1レイヤ符号化部より与えられるピッチゲインに基づきスペクトル符号化部内の変形部に出力される推定変形情報を決定する。
図18は、本実施の形態に係る階層符号化装置400の主要な構成を示すブロック図である。図18において図3と同一名称および同一符号を付したブロックは、同一機能を有するため説明を省略する。
本実施の形態4における階層符号化装置400では、第1レイヤ符号化部402で求められたピッチゲインをスペクトル符号化部406に与える。具体的には、第1レイヤ符号化部402において、第1レイヤ符号化部402に内在する適応符号帳(図示せず)から出力される適応コードベクトルに乗じられる適応コードベクトルゲインが、ピッチゲインとして出力され、スペクトル符号化部406に入力される。この適応コードベクトルゲインは、入力信号の周期性が強い場合に大きな値をとり、入力信号の周期性が弱い場合に小さな値をとるという特徴がある。
図19は、本実施の形態4に係るスペクトル符号化部406の主要な構成を示すブロック図である。図19において図14と同一名称および同一符号を付したブロックは、同一機能を有するので説明を省略する。変形情報推定部411は第1レイヤ符号化部402より与えられるピッチゲインを使って推定変形情報を出力する。変形情報推定部411は前述した図15の変形情報推定部303と同様の構成となる。ただし、変形情報テーブルはピッチゲインに対して設計されたものを適用する。また、本実施の形態においても、変形情報テーブルを用いる構成の代わりにマッピング関数を用いる構成であっても良い。
このように、本実施の形態に係る符号化装置(スペクトル符号化部406)によれば、入力信号の周期性をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
次に、上記階層符号化装置400で生成された符号化コードを復号化することができる階層復号化装置450の構成について、以下に説明する。
図20は、本実施の形態に係る階層復号化装置450の主要な構成を示すブロック図である。図20において、第1レイヤ復号化部452より出力されるピッチゲインがスペクトル復号化部453に与えられている。第1レイヤ復号化部452において、第1レイヤ復号化部452に内在する適応符号帳(図示せず)から出力される適応コードベクトルに乗じられる適応コードベクトルゲインが、ピッチゲインとして出力され、スペクトル復号化部453に入力される。
図21は、本実施の形態4に係るスペクトル復号化部453の主要な構成を示すブロック図である。変形情報推定部461は第1レイヤ復号化部452より与えられるピッチゲインを使って推定変形情報を出力する。変形情報推定部461は前述した図15の変形情報推定部303と同様の構成となる。ただし、変形情報テーブルは変形情報推定部411内のものと同様のもので、ピッチゲインに対して設計されたものを適用する。また、本実施の形態においても、変形情報テーブルを用いる構成の代わりにマッピング関数を用いる構成であっても良い。
このように、本実施の形態に係る復号化装置(スペクトル復号化部453)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することで、入力信号の周期性をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
なお、ピッチゲインと共にピッチ周期(第1レイヤ符号化部402に内在する適応符号帳探索の結果得られるラグのこと)を用いて変形情報を推定する構成であっても良い。この場合、ピッチ周期を利用することで、ピッチ周期の短い音声(例えば女声)とピッチ周期の長い音声(例えば男声)にそれぞれ適した変形情報の推定を行うことができ、推定精度を向上させることができる。
また、本実施の形態では、変形情報推定部411において推定変形情報が求められるが、実施の形態3と同様に、この推定変形情報を実施の形態1の図4記載のスペクトル符号化部106に適用してスペクトル変形部112に当該推定変形情報を与え、スペクトル変形部112では変形情報推定部411より与えられる推定変形情報を基準にその近傍の変形情報を指数変数テーブル135から選択し、その限定された変形情報の中から最も適切な変形情報を探索部125にて決定する。この構成では、最終的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。このように正確な変形情報を符号化して復号化部へ伝送することができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができるという効果が得られる。
(実施の形態5)
本発明の実施の形態5では、第1レイヤ符号化部より与えられるLPC係数に基づきスペクトル符号化部内の変形部に出力される推定変形情報を決定する。
本実施の形態5における階層符号化装置の構成は前述した図18と同様となる。ただし、第1レイヤ符号化部402からスペクトル符号化部406に対して出力されるパラメータは、ピッチゲインではなくLPC係数である。
本実施の形態に係るスペクトル符号化部406の主要な構成は、図22に示すものとなる。前述した図19との違いは、変形情報推定部511に与えられるパラメータがピッチゲインではなくLPC係数であることと、変形情報推定部511内の構成である。
図23は、本実施の形態に係る変形情報推定部511の主要な構成を示すブロック図である。変形情報推定部511は、判定テーブル512、類似度判定部513、変形情報テーブル514、および切替部515より構成される。変形情報テーブル514は、図15における変形情報テーブル306と同様に推定変形情報の候補が記録されている。ただし、この推定変形情報の候補は、LPC係数に対して設計されたものを適用する。判定テーブル512にはLPC係数の候補が格納されており、判定テーブル512と変形情報テーブル514とは対応付けが為されている。すなわち、判定テーブル512から第j番目のLPC係数の候補が選ばれたとき、そのLPC係数候補に適した推定変形情報は変形情報テーブル514の第j番目に格納されている。LPC係数はスペクトルの概形(スペクトル包絡)を少ないパラメータで精度良く表現できるという特徴があり、このスペクトル概形とダイナミックレンジを制御する推定変形情報を対応付けることができる。本実施の形態は、この特徴を利用して構成したものである。
類似度判定部513は、第1レイヤ符号化部402より与えられるLPC係数と最も類似するLPC係数を判定テーブル512の中から求める。この類似性の判定には、LPC係数同士の距離(歪)、またはLPC係数をLSP(Line Spectrum Pair)係数などの別のパラメータに変換した後の両者の歪を求め、その歪が最小となるときのLPC係数を判定テーブル512より求める。
歪を最小(つまり最も類似度が高い)とするときの判定テーブル512内のLPC係数の候補を表すインデックスが類似度判定部513より出力され、切替部515に与えられる。切替部515は、このインデックスが表す推定変形情報の候補を選択し、変形情報推定部511より出力される。
このように、本実施の形態に係る符号化装置(スペクトル符号化部406)によれば、入力信号のスペクトル概形をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
次に、本実施の形態5における階層符号化装置で生成された符号化コードを復号化することができる階層復号化装置の構成について、以下説明する。
本実施の形態5における階層復号化装置の構成は前述した図20と同様となる。ただし、第1レイヤ復号化部452からスペクトル復号化部453に対して出力されるパラメータは、ピッチゲインではなくLPC係数である。
本実施の形態に係るスペクトル復号化部453の主要な構成は、図24に示すものとなる。前述した図21との違いは、変形情報推定部561に与えられるパラメータがピッチゲインではなくLPC係数であることと、変形情報推定部561内の構成である。
変形情報推定部561内の構成は、図22におけるスペクトル符号化部406内の変形情報推定部511、すなわち図23に記載のものと同様となり、判定テーブル512及び変形情報テーブル514に記録された情報も、符号化側と復号化側とで共通のものである。
このように、本実施の形態に係る復号化装置(スペクトル復号化部453)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することで、入力信号のスペクトル概形をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
なお、本実施の形態では、変形情報推定部511において推定変形情報が求められるが、実施の形態4と同様に、この推定変形情報を実施の形態1の図4記載のスペクトル符号化部106に適用してスペクトル変形部112に当該推定変形情報を与え、スペクトル変形部112では変形情報推定部511より与えられる推定変形情報を基準にその近傍の変形情報を指数変数テーブル135から選択し、その限定された変形情報の中から最も適切な変形情報を探索部125にて決定する。この構成では、最終的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。このように正確な変形情報を符号化して復号化部へ伝送することができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができるという効果が得られる。
(実施の形態6)
本発明の実施の形態6に係る階層符号化装置の基本的構成は、実施の形態1に示した階層符号化装置と同様であるので、その説明を省略し、スペクトル変形部112と異なる構成であるスペクトル変形部612について以下説明する。
スペクトル変形部612は、第1スペクトルS1(k)[0≦k<FL]のダイナミックレンジが、第2スペクトルS2(k)の高域部[FL≦k<FH]のダイナミックレンジに近づくように、第1スペクトルS1(k)に以下の変形を加える。スペクトル変形部612は、この変形に関する変形情報を符号化して出力する。
図25は、本実施の形態に係るスペクトル変形方法を説明するための図である。
この図は、第1スペクトルS1(k)の振幅の分布を示している。第1スペクトルS1(k)は、周波数k[0≦k<FL]の値によって異なる振幅を示す。そこで、横軸に振幅をとり、縦軸にその振幅における出現確率をとると、振幅の平均値m1を中心として図に示すような正規分布に近い分布が現れる。
本実施の形態では、まず、この分布を、平均値m1に近いグループ(図中の領域B)と、平均値m1から遠いグループ(図中の領域A)とに大きく分ける。次に、これら2つのグループの振幅の代表値、具体的には、領域Aに含まれるスペクトルの振幅の平均値と、領域Bに含まれるスペクトルの振幅の平均値とを求める。ここで、振幅は、平均値m1を零と換算し直した(各値から平均値m1を減じた)場合の振幅の絶対値を用いる。例えば、領域Aは、平均値m1よりも振幅の大きい領域と、平均値m1よりも振幅の小さな領域との2つの領域から成るが、平均値m1を零と換算し直すことにより、2つの領域に含まれるスペクトルの振幅の絶対値は、同じ様な値を有することになる。よって、例えば領域Aの平均値であれば、第1スペクトルのうちで換算後の振幅(絶対値)が比較的大きなスペクトルを1つのグループとし、このグループの振幅の代表値を求めたことに相当し、領域Bの平均値であれば、第1スペクトルのうちで換算後の振幅が比較的小さなスペクトルを1つのグループとし、このグループの振幅の代表値を求めたことに相当している。よって、これら2つの代表値は、第1スペクトルのダイナミックレンジを概略的に表現したパラメータとなる。
次に、本実施の形態では、第2スペクトルに対し、第1スペクトルで行ったのと同様の処理を行い、第2スペクトルの各グループに対応する代表値を求める。そして、領域Aにおける第1スペクトルの代表値と第2スペクトルの代表値との比(具体的には、第2スペクトルの代表値の第1スペクトルの代表値に対する比)、および領域Bにおける第1スペクトルの代表値と第2スペクトルの代表値との比を求める。よって、第1スペクトルのダイナミックレンジと第2スペクトルのダイナミックレンジとの比を概算的に求めることができる。本実施の形態に係るスペクトル変形部は、この比をスペクトルの変形情報として符号化し、出力する。
図26は、スペクトル変形部612内部の主要な構成を示すブロック図である。
スペクトル変形部612は、第1スペクトルの上記各グループに対する代表値を算出する系統と、第2スペクトルの上記各グループに対する代表値を算出する系統と、これら2つの系統で算出された代表値に基づいて変形情報を決定する変形情報決定部626と、この変形情報に基づいて変形スペクトルを生成する変形スペクトル生成部627とに大別される。
第1スペクトルの代表値を算出する系統は、具体的には、ばらつき度算出部621−1と、第1閾値設定部622−1と、第2閾値設定部623−1と、第1平均スペクトル算出部624−1と、第2平均スペクトル算出部625−1とからなる。第2スペクトルの代表値を算出する系統も、基本的には、第1スペクトルの代表値を算出する系統と同様の構成からなり、図中において同一の構成に対しては同一の符号を付し、符号の後に続く枝番により処理系統の違いを表す。そして、同一の構成要素については、その説明を省略する。
ばらつき度算出部621−1は、入力される第1スペクトルS1(k)の振幅の分布から、第1スペクトルの平均値m1からの「ばらつき度」を算出し、第1閾値設定部622−1および第2閾値設定部623−1に出力する。「ばらつき度」とは、具体的には、第1スペクトルの振幅分布の標準偏差σ1のことである。
第1閾値設定部622−1は、ばらつき度算出部621−1で求まった第1スペクトルの標準偏差σ1を用いて第1閾値TH1を求める。ここで、第1閾値TH1とは、第1スペクトルのうち、上記領域Aに含まれる比較的絶対振幅の大きなスペクトルを特定するための閾値であり、標準偏差σ1に所定の定数aを乗じた値が使用される。
第2閾値設定部623−1の動作も、第1閾値設定部622−1の動作と同様であるが、求める第2閾値TH2は、第1スペクトルのうちの領域Bに含まれる比較的絶対振幅の小さなスペクトルを特定するための閾値であり、標準偏差σ1に所定の定数b(<a)を乗じた値が使用される。
第1平均スペクトル算出部624−1は、第1閾値TH1よりも外側に位置するスペクトル、すなわち、領域Aに含まれるスペクトルの振幅の平均値(以下、第1平均値という)を求め、変形情報決定部626に出力する。
具体的には、第1平均スペクトル算出部624−1は、第1スペクトルの各サブバンドのスペクトルの振幅(ただし、換算前の値)を、第1スペクトルの平均値m1に第1閾値TH1を加えた値(m1+TH1)と比較し、この値よりも大きな振幅を有するスペクトルを特定する(ステップ1)。次に、第1平均スペクトル算出部624−1は、第1スペクトルの各サブバンドのスペクトルの振幅値を、第1スペクトルの平均値m1から第1閾値TH1を減じた値(m1−TH1)と比較し、この値よりも小さな振幅を有するスペクトルを特定する(ステップ2)。そして、ステップ1およびステップ2の双方で求まったスペクトルの振幅に対し、上記の平均値m1をゼロとする換算を行い、得られた換算値の絶対値の平均値を求め、変形情報決定部626に出力する。
第2平均スペクトル算出部は、第2閾値TH2よりも内側に位置するスペクトル、すなわち、領域Bに含まれるスペクトルの振幅の平均値(以下、第2平均値という)を求め、変形情報決定部626に出力する。具体的な動作は、第1平均スペクトル算出部624−1と同様である。
上記処理で求まった第1平均値および第2平均値が、第1スペクトルの領域Aおよび領域Bに対する代表値である。
第2スペクトルの代表値を求める処理も基本的には上記と同様である。ただし、第1スペクトルと第2スペクトルとは異なるスペクトルであるので、第1閾値TH1に準ずる第3閾値TH3は、第2スペクトルの標準偏差σ2に所定の定数cを乗じた値が使用され、第2閾値TH2に準ずる第4閾値TH4は、第2スペクトルの標準偏差σ2に所定の定数d(<c)を乗じた値が使用される。
変形情報決定部626は、第1平均スペクトル算出部624−1で得られる第1平均値、第2平均スペクトル算出部625−1で得られる第2平均値、第3平均スペクトル算出部624−2で得られる第3平均値、および第4平均スペクトル算出部625−2で得られる第4平均値を用いて、以下のように変形情報を決定する。
すなわち、変形情報決定部626は、第1平均値と第3平均値との比(以下、第1ゲインと呼ぶ)、および第2平均値と第4平均値との比(以下、第2ゲインと呼ぶ)を算出する。そして、変形情報決定部626は、変形情報の複数の符号化候補が予め記憶されたデータテーブルを内部に備えているので、第1ゲインおよび第2ゲインをこれらの符号化候補と比較し、最も類似した符号化候補を選択して、この符号化候補を表すインデックスを変形情報として出力する。また、このインデックスは、変形スペクトル生成部627にも送られる。
変形スペクトル生成部627は、入力信号である第1スペクトル、第1閾値設定部622−1で得られる第1閾値TH1、第2閾値設定部623−1で得られる第2閾値TH2、および変形情報決定部626から出力される変形情報、を用いて、第1スペクトルの変形を行い、生成された変形スペクトルを出力する。
図27、図28は、変形スペクトルの生成方法を説明するための図である。
変形スペクトル生成部627は、変形情報を用いて第1平均値と第3平均値との比の復号値(以下、復号第1ゲインと呼ぶ)、および第2平均値と第4平均値との比の復号値(以下、復号第2ゲインと呼ぶ)を生成する。これらの対応関係は、図27に示す通りである。
次に、変形スペクトル生成部627は、第1スペクトルの振幅値と第1閾値TH1とを比較することにより、領域Aに属するスペクトルを特定し、これらのスペクトルに復号第1ゲインを乗じる。同様に、変形スペクトル生成部627は、第1スペクトルの振幅値と第2閾値TH2とを比較することにより、領域Bに属するスペクトルを特定し、これらのスペクトルに復号第2ゲインを乗じる。
一方、図28に示す通り、第1スペクトルのうち、第1閾値TH1と第2閾値TH2とに挟まれる領域(以下、領域C)に属するスペクトルに対しては、符号化情報が存在しない。そこで、変形スペクトル生成部627は、復号第1ゲインと復号第2ゲインの中間的な値を有するゲインを使用する。例えば、図28に示されるような、復号第1ゲインと、復号第2ゲインと、第1閾値TH1と、第2閾値TH2とに基づく特性曲線から、ある振幅xに対応する復号ゲインyを求め、このゲインを第1スペクトルの振幅に乗じれば良い。すなわち、復号ゲインyは、復号第1ゲインおよび復号第2ゲインの線形補間値となっている。
図29は、復号化装置で使用されるスペクトル変形部662内部の主要な構成を示したブロック図である。なお、このスペクトル変形部662は、実施の形態1で示した変形部162に対応するものである。
基本的動作は上記のスペクトル変形部612と同様なので、詳細な説明は省略するが、このスペクトル変形部662は、第1スペクトルのみを処理対象とするので、処理系統が1つとなっている。
このように、本実施の形態によれば、第1スペクトルの振幅の分布および第2スペクトルの振幅の分布をそれぞれ把握し、比較的絶対振幅の大きなグループと比較的絶対振幅の小さなグループとに分けて、各グループの振幅の代表値を求める。そして、第1スペクトルと第2スペクトルの各グループの振幅の代表値の比をとることにより、第1スペクトルおよび第2スペクトル間のダイナミックレンジの比、すなわちスペクトルの変形情報を得て、これを符号化する。これにより、指数関数のような演算量の多い関数を用いることなく、変形情報を求めることができる。
また、本実施の形態によれば、第1スペクトルおよび第2スペクトルの振幅の分布から標準偏差を求め、この標準偏差に基づいて第1閾値〜第4閾値を求める。よって、実際のスペクトルに基づいた閾値が設定されるので、変形情報の符号化精度を向上させることができる。
また、本実施の形態によれば、復号第1ゲインおよび復号第2ゲインを用いて第1スペクトルのゲイン調整を行うことにより、第1スペクトルのダイナミックレンジを制御する。そして、復号第1ゲインおよび復号第2ゲインは、第1スペクトルが第2スペクトルの高域部に近づくように決定される。よって、第1スペクトルのダイナミックレンジは、第2スペクトルの高域部のダイナミックレンジに近づく。さらに、復号第1ゲインおよび復号第2ゲインの算出には、指数関数のような演算量の多い関数を使用する必要がない。
なお、本実施の形態では、復号第1ゲインが復号第2ゲインよりも大きい場合を例にとって説明したが、音声信号の性質によっては、復号第1ゲインよりも復号第2ゲインの方が大きい場合がある。すなわち、第1スペクトルのダイナミックレンジよりも第2スペクトルの高域部のダイナミックレンジの方が大きい場合がある。このような現象は、入力音声信号が摩擦音のような音の場合に生じることが多い。かかる場合にも本実施の形態に係るスペクトル変形方法は適用することができる。
また、本実施の形態では、スペクトルを絶対振幅の比較的大きなグループと比較的小さなグループとの2つのグループに分ける場合を例にとって説明したが、ダイナミックレンジの再現性を高めるために、より多くのグループに分けるようにしても良い。
また、本実施の形態では、平均値を基準として振幅を換算し、この換算後の振幅に基づいて、スペクトルを振幅の比較的大きなグループと比較的小さなグループとに分ける場合を例にとって説明したが、元の振幅値をそのまま用いて、この振幅に基づいてスペクトルのグルーピングを行っても良い。
また、本実施の形態では、スペクトルの絶対振幅のばらつき度を算出するのに標準偏差を用いる場合を例にとって説明したが、これに限定されず、例えば、標準偏差と同様の統計的パラメータとして分散を用いることができる。
また、本実施の形態では、各グループのスペクトル振幅の代表値として、各グループにおけるスペクトルの絶対振幅の平均値を用いる場合を例にとって説明したが、これに限定されず、例えば、各グループにおけるスペクトルの絶対振幅の中央値等を用いても良い。
また、本実施の形態では、ダイナミックレンジの調整に各スペクトルの振幅値を用いる場合を例にとって説明したが、振幅値の代わりにスペクトルのエネルギー値を用いても良い。
また、各グループに対応する代表値を求める際に、例えばMDCT係数のように、最初からスペクトルの振幅に正または負の符号を持つ場合には、平均値を零と換算する必要はなく、単にスペクトルの振幅の絶対値を用いて各グループに対応する代表値を求めれば良い。
以上、本発明の各実施の形態について説明した。
本発明に係る符号化装置および復号化装置は、上記各実施の形態に限定されず、種々変更して実施することが可能である。
本発明に係る符号化装置および復号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することも可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
なお、ここでは、本発明をスケーラブル符号化方式に適用する場合を例にとって説明したが、本発明は別の符号化方式にも適用可能である。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。例えば、本発明に係る符号化方法(復号化方法)のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置(復号化装置)と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本明細書は、2004年5月14日出願の特願2004−145425、2004年11月5日出願の特願2004−322953、および2005年4月28日出願の特願2005−133729に基づく。これらの内容はすべてここに含めておく。
本発明に係る符号化装置、復号化装置、およびこれらの方法は、スケーラブル符号化/復号化等に適用できる。
本発明は、音声信号、オーディオ信号等を符号化/復号化する符号化装置、復号化装置、およびこれらの方法に関する。
音声信号を低ビットレートで圧縮する音声符号化技術は、移動体通信における電波等の有効利用のために重要である。さらに近年の傾向として、通話音声の品質向上に対する期待が高まってきており、臨場感の高い通話サービスの実現が望まれている。ここでいう臨場感とは、話者が取り巻く音環境(例えばBGM)を意味し、そのためオーディオ等の音声以外の信号をも高品質に符号化できることが望ましい。
音声信号を符号化する音声符号化に、ITU−T(International Telecommunication Union Telecommunication Standardization Sector)で規格化されているG726、G729等の方式が存在する。これらの方式は、狭帯域信号(300Hz〜3.4kHz)を対象とし、8kbit/s〜32kbit/sで符号化が行える。これら方式は低ビットレートで符号化できるものの、対象としている狭帯域信号は周波数帯域が最大3.4kHzまでと狭いため、その品質はこもっており臨場感に欠ける傾向にある。
また、ITU−Tや3GPP(The 3rd Generation Partnership Project)には、信号帯域が50Hz〜7kHzの音声を符号化する標準方式(G.722、G.722.1、AMR−WB等)が存在する。これらの方式は、ビットレートが6.6kbit/s〜64kbit/sで広帯域音声信号の符号化が行えるものの、広帯域音声を高品質に符号化するためには比較的ビットレートを高くする必要がある。また音質の観点では、広帯域音声は狭帯域音声に比べ高音質であるものの、高臨場感が要求されるサービスに対しては十分とは言い難い。
一般に、信号の最大周波数が10〜15kHz程度まであるとFMラジオ相当の臨場感が得られ、20kHz程度までであればCD並みの品質が得られる。このような帯域を有する信号に対しては、MPEG(Moving Picture Expert Group)で規格化されているレイヤ3方式やAAC方式等に代表されるオーディオ符号化が適している。しかしながら、これらオーディオ符号化方式を音声通信の符号化方式として適用する場合には、音声を品質よく符号化するためにビットレートを高く設定する必要がある。その他に符号化遅延が大きくなる、等の問題がある。
周波数帯域の広い信号を低ビットレートで高品質に符号化する方法として、入力信号のスペクトルを低域部と高域部との2つのスペクトルに分割し、高域スペクトルは低域スペクトルを複製しこれと置換する(高域スペクトルを低域スペクトルで代用する)ことにより、全体のビットレートを低減させる技術がある(例えば、特許文献1参照)。この技術は、低域スペクトルの符号化に多くのビットを配分して高品質に符号化し、一方、高域スペクトルは符号化後の低域スペクトルを複製することを基本の処理として、少ないビット配分で符号化が行なわれる。
また、この技術に類似した技術として、符号化ビットを十分に配分できない帯域に対しては、他の所定の部分帯域スペクトル情報を用いて近似することで品質を向上させる技術(例えば、特許文献2参照)や、付加情報なしに狭帯域信号を広帯域信号に帯域拡張するため、狭帯域信号の低域スペクトルを高域スペクトルに複製することを基本の処理とする技術(例えば、特許文献3参照)がある。
なお、いずれの技術においても、スペクトルの補充を行いたい帯域に、別の帯域のスペクトルを複製してきて、スペクトル包絡を滑らかにするためのゲイン調整を行った後に、この複製スペクトルを挿入している。
特表2001−521648号公報 特開平9−153811号公報 特開平9−90992号公報
しかしながら、音声信号またはオーディオ信号のスペクトルにおいては、低域スペクトルのダイナミックレンジ(スペクトル振幅の絶対値(絶対振幅)の最大値と最小値との比)が、高域スペクトルのダイナミックレンジよりも大きくなる現象がよく見られる。図1は、この現象を説明するための図で、オーディオ信号のスペクトルの一例を示すものである。このスペクトルは、標本化周波数32kHzのオーディオ信号を30msの長さで周波数分析したときの対数スペクトルである。
この図に示されるように、周波数0〜8000Hzの低域スペクトルはピーク性が強く(鋭敏なピークが多数存在し)、この帯域でのスペクトルのダイナミックレンジは大きくなる。一方、周波数8000〜15000Hzの高域スペクトルのダイナミックレンジは小さくなる。このようなスペクトル特性を有する信号に対して、従来の低域スペクトルを高域スペクトルに複製する方法では、たとえ高域スペクトルのゲイン調整を行ったとしても、以下に示すように、高域スペクトルには不必要なピーク形状が現れる。
図2は、図1に示したスペクトルの低域のスペクトル(1000〜7000Hz)を複製し、エネルギー調整することにより、高域スペクトル(10000〜16000Hz)を得た場合の全帯域のスペクトルを示す図である。
上記の処理を行うと、この図にあるように、10000Hz以上の帯域R1に不必要なピーク形状が現れる。このピークはオリジナルの高域スペクトルには見られなかったものである。そして、このスペクトルを時間領域に変換して得られる復号信号には、鈴が鳴るように聞こえるノイズが発生し、主観品質が低下するという問題が発生する。このように、ある帯域のスペクトルを別の帯域のスペクトルで代用する技術においては、挿入されるスペクトルのダイナミックレンジを適切に調整する必要がある。
よって、本発明の目的は、ある帯域のスペクトルを別の帯域のスペクトルで代用(置換)する技術において、挿入されるスペクトルのダイナミックレンジを適切に調整して、復号信号の主観品質を向上させることができる符号化装置、復号化装置、およびこれらの方法を提供することである。
本発明の符号化装置は、入力信号の高域スペクトル部の符号化を行う符号化手段と、前記入力信号の低域スペクトル部を符号化した信号を復号化した第1の低域スペクトルの振幅を一様に制限した第2の低域スペクトルを生成する制限手段と、を具備し、前記符号化手段は、前記第2の低域スペクトルに基づいて前記高域スペクトル部の符号化を行う構成を採る。
また、本発明の復号化装置は、符号化装置で生成された符号に含まれる低域スペクトル部の符号を復号化した信号を周波数領域の信号に変換した第1の低域スペクトルを生成する変換手段と、前記符号化装置で生成された符号に含まれる高域スペクトル部の符号を復
号化する復号化手段と、前記符号化装置で生成された符号に含まれるスペクトル変形情報に従って前記第1の低域スペクトルの振幅を一様に制限した第2の低域スペクトルを生成する制限手段と、を具備し、前記復号化手段は、前記第2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号化する構成を採る。
また、本発明の復号化装置は、符号化装置で生成された符号に含まれる低域スペクトル部の符号を復号化した信号を周波数領域の信号に変換した第1の低域スペクトルを生成する変換手段と、前記符号化装置で生成された符号に含まれる高域スペクトル部の符号を復号化する復号化手段と、前記第1の低域スペクトルの振幅を一様に制限した第2の低域スペクトルを生成する制限手段と、を具備し、前記制限手段は、前記第1の低域スペクトルに基づいて制限の仕方に関する情報を推定し、推定された情報を用いて前記第2の低域スペクトルを生成し、前記復号化手段は、前記第2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号化する構成を採る。
本発明によれば、ある帯域のスペクトルを別の帯域のスペクトルで代用する技術において、挿入されるスペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図3は、本発明の実施の形態1に係る階層符号化装置100の主要な構成を示すブロック図である。ここでは、符号化情報が複数のレイヤからなる階層構造を有する場合、すなわち、階層符号化(スケーラブル符号化)を行う場合を例にとって説明する。
階層符号化装置100の各部は、信号の入力に伴い以下の動作を行う。
ダウンサンプリング部101は、入力信号からサンプリングレートの低い信号を生成し第1レイヤ符号化部102に与える。第1レイヤ符号化部102は、ダウンサンプリング部101から出力された信号を符号化する。第1レイヤ符号化部102で得られた符号化コードは、多重化部103に与えられると共に、第1レイヤ復号化部104に与えられる。第1レイヤ復号化部104は、第1レイヤ符号化部102から出力された符号化コードから第1レイヤの復号信号S1を生成する。
一方、遅延部105は、入力信号に所定の長さの遅延を与える。この遅延は、ダウンサンプリング部101、第1レイヤ符号化部102、および第1レイヤ復号化部104で生じる時間遅れを補正するためのものである。スペクトル符号化部106は、第1レイヤ復号化部104で生成された第1レイヤ復号信号S1を用いて、遅延部105から出力された所定時間遅延された入力信号S2のスペクトル符号化を行い、生成された符号化コードを多重化部103に出力する。
多重化部103は、第1レイヤ符号化部102で求められる符号化コードとスペクトル符号化部106で求められる符号化コードとを多重化し、これを出力符号化コードとして符号化装置100の外部に出力する。
図4は、上記のスペクトル符号化部106内部の主要な構成を示すブロック図である。
このスペクトル符号化部106は、周波数領域変換部111、スペクトル変形部112、周波数領域変換部113、拡張帯域スペクトル符号化部114、および多重化部115から主に構成される。
スペクトル符号化部106には、第1レイヤ復号化部104から有効信号帯域が0≦k<FL(kは各サブバンドの周波数)の第1信号S1が入力され、また、遅延部105から有効信号帯域が0≦k<FH(ただし、FL<FH)の第2信号S2が入力される。スペクトル符号化部106は、第1信号S1の帯域0≦k<FLのスペクトルを利用して、第2信号S2の帯域FL≦k<FHのスペクトルを推定し、この推定情報を符号化して出力する。
周波数領域変換部111は、入力される第1信号S1に周波数変換を行い、低域スペクトルである第1スペクトルS1(k)を算出する。一方、周波数領域変換部113は、入力される第2信号S2に周波数変換を行い、広帯域の第2スペクトルS2(k)を算出する。ここで周波数変換の方法は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、変形離散コサイン変換(MDCT)等を適用する。また、S1(k)は、第1スペクトル
の周波数kのサブバンドのスペクトルであり、S2(k)は、第2スペクトルの周波数kのサブバンドのスペクトルである。
スペクトル変形部112は、第1スペクトルS1(k)を様々に変形させることにより第1スペクトルのダイナミックレンジを変化させ、適切なダイナミックレンジとなる変形の仕方について調べる。そして、この変形に関する情報(変形情報)を符号化して多重化部115に与える。このスペクトル変形処理の詳細については後ほど詳述する。また、スペクトル変形部112は、適切なダイナミックレンジとなった第1スペクトルS1(k)を拡張帯域スペクトル符号化部114に出力する。
拡張帯域スペクトル符号化部114は、第2スペクトルS2(k)を参照信号として、第1スペクトルS1(k)の高域(FL≦k<FH)に含めるべきスペクトル(拡張帯域スペクトル)を推定し、この推定スペクトルに関する情報(推定情報)を符号化して多重化部115に与える。ここで、拡張帯域スペクトルの推定は、変形後の第1スペクトルS1'(k)に基づいて行われる。
多重化部115は、スペクトル変形部112から出力された変形情報の符号化コードと、拡張帯域スペクトル符号化部114から出力された拡張帯域スペクトルに関する推定情報の符号化コードと、を多重化して出力する。
図5は、上記のスペクトル変形部112内部の主要な構成を示すブロック図である。
スペクトル変形部112は、第1スペクトルS1(k)のダイナミックレンジが第2スペクトルS2(k)の高域スペクトル(FL≦k<FH)のダイナミックレンジに最も近付くような変形を第1スペクトルS1(k)に加える。そして、このときの変形情報を符号化して出力する。
バッファ121は、入力された第1スペクトルS1(k)を一時保存し、必要に応じ第1スペクトルS1(k)を変形部122に与える。
変形部122は、下記の手順に従い、第1スペクトルS1(k)を様々に変形して変形第1スペクトルS1'(j,k)を生成し、これをサブバンドエネルギー算出部123に与える。ここで、jは各変形処理を識別するためのインデックスである。
サブバンドエネルギー算出部123は、変形第1スペクトルS'(j,k)の周波数帯域を複数のサブバンドに分割し、所定の範囲のサブバンドのエネルギー(サブバンドエネルギー)を求める。例えば、サブバンドエネルギーを求める範囲をF1L≦k<F1Hと定めたとき、この帯域幅をN分割したときのサブバンド幅BWSは次の(式1)のように表される。
BWS=(F1H−F1L+1)/N ・・・(式1)
よって、第nサブバンドの最小周波数F1L(n)および最大周波数F1H(n)は、それぞれ(式2)(式3)と表される。
F1L(n) = F1L + n・BWS ・・・(式2)
F1H(n) = F1L + (n+1)・BWS−1 ・・・(式3)
ここでnは0〜N−1の値をとる。このとき、サブバンドエネルギーP1(j,n)は次の(式4)のように算出される。
Figure 2005111568
または、次の(式5)のようにサブバンドに含まれるスペクトルの平均値として求めてもよい。
Figure 2005111568
このようにして求められたサブバンドエネルギーP1(j,n)が分散算出部124に与えられる。
分散算出部124は、サブバンドエネルギーP1(j,n)のばらつきの程度を表すために、分散σ1(j)を次の(式6)に従い算出する。
Figure 2005111568
ここで、P1mean(j)はサブバンドエネルギーP1(j,n)の平均値を表し、次の(式7)のように算出される。
Figure 2005111568
このようにして算出された、変形情報jにおけるサブバンドエネルギーのばらつきの度合いを表す分散σ1(j)は探索部125に与えられる。
サブバンドエネルギー算出部126および分散算出部127は、上記のサブバンドエネルギー算出部123および分散算出部124で行われる一連の処理と同様に、入力される第2スペクトルS2(k)に対して、サブバンドエネルギーのばらつきの度合いを表す分散σ2を算出する。ただし、サブバンドエネルギー算出部126および分散算出部127の処理は、以下の点で上記と異なる。すなわち、第2スペクトルS2(k)のサブバンドエネルギーを算出する所定の範囲を、F2L≦k<F2Hと定める。ここで、第1スペクトルのダイナミックレンジを第2スペクトルの高域スペクトルのダイナミックレンジに近づける必要があることから、FL≦F2L<F2Hの条件を満足するF2Lを設定する。また、第2スペクトルに対するサブバンド数は、第1スペクトルのサブバンド数Nと一致させる必要はない。ただし、第1スペクトルのサブバンド幅と第2スペクトルのサブバンド幅とがほぼ一致するように、第2スペクトルのサブバンド数は設定される。
探索部125は、第1スペクトルのサブバンドの分散σ1(j)と第2スペクトルのサブバンドの分散σ2とが最も近付く際の第1スペクトルのサブバンドの分散σ1(j)を探索により決定する。具体的には、探索部125は、全ての変形候補0≦j<Jに対して第1スペクトルのサブバンドの分散σ1(j)を算出し、この算出値と第2スペクトルのサブバンドの分散σ2とを比較し、両者が最も近付く際のjの値(最適変形情報jopt)を決定し、このjoptをスペクトル変形部112の外部および変形部128に出力する。
変形部128は、この最適変形情報joptに対応する変形第1スペクトルS'(jopt,k)を生成し、スペクトル変形部112の外部に出力する。なお、最適変形情報joptは多重化部115に、変形第1スペクトルS1'(jopt,k)は拡張帯域スペクトル符号化部114に送られる。
図6は、上記の変形部122内部の主要な構成を示すブロック図である。なお、変形部128内部の構成も基本的に変形部122と同様である。
正号/負号抽出部131は、第1スペクトルの各サブバンドの符号情報sign(k)を求め、正号/負号付与部134に出力する。
絶対値算出部132は、第1スペクトルの各サブバンドに対し、振幅の絶対値を算出し、この値を指数値算出部133に与える。
指数変数テーブル135は、第1スペクトルの変形に用いられる指数変数α(j)を記録している。このテーブルに含まれる変数のうちjに対応する値が、指数変数テーブル135から出力される。具体的には、指数変数テーブル135には、例えば、指数変数α(j)
={1.0, 0.8, 0.6, 0.4}の4つからなる指数変数の候補が記録されており、探索部125から指定されたインデックスjに基づき1つの指数変数α(j)が選択され、指数値算出部133に与えられる。
指数値算出部133は、指数変数テーブル135から出力された指数変数を用いて、絶対値算出部132から出力されるスペクトル(絶対値)の指数値、すなわち、各サブバンドの振幅の絶対値をα(j)でべき乗した値を算出する。
正号/負号付与部134は、指数値算出部133から出力される指数値に対し、正号/負号抽出部131で先に求めておいた符号情報sign(k)を付与し、変形第1スペクトルS1'(j,k)として出力する。
よって変形部122から出力される変形第1スペクトルS1'(j,k)は、次の(式8)のように表される。
Figure 2005111568
図7は、上記の変形部122(または変形部128)によって得られる変形スペクトルの例を示す図である。
なお、ここでは、指数変数α(j) ={1.0, 0.6, 0.2}の場合を例にとって説明している。また、ここでは、各スペクトルの比較が容易となるように、α(j) = 1.0 の場合のスペクトルS71を上方に40dB、α(j) = 0.6 の場合のスペクトルS72を上方に20dBだけシフトさせて表示をしている。この図から、指数変数α(j)によって、スペクトルのダイナミックレンジを変化させることが可能であることがわかる。
以上説明したように、本実施の形態に係る符号化装置(スペクトル符号化部106)によれば、第1信号(0≦k<FL)から求められる第1スペクトルを使って、第2信号(0≦k<FH)から求められる第2スペクトルの高域部(FL≦k<FH)を推定し、推定情報を符号化する際に、第1スペクトルをそのまま用いずに、第1スペクトルに変形を加えた後に上記推定を行うようにする。このとき、どのように変形したかを表す情報(変
形情報)も併せて符号化し、復号化側に伝送する。
第1スペクトルに加える変形の具体的な方法は、第1スペクトルをサブバンドに分割し、各サブバンド内に含まれるスペクトルの絶対振幅の平均(サブバンド平均振幅)をサブバンド毎に求め,これらサブバンド平均振幅を統計処理して求められる分散が、第2スペクトルの高域部のスペクトルから同様にして求められるサブバンド平均振幅の分散に最も近付くように、第1スペクトルを変形する。すなわち、第1スペクトルの絶対振幅の平均的な振れ幅と、第2スペクトルの高域スペクトルの絶対振幅の平均的な振れ幅とが同等の値となるように第1スペクトルを変形する。また、この具体的な変形方法を示す変形情報を符号化する。なお、サブバンド平均振幅の代わりに、各サブバンドに含まれるスペクトルのエネルギーを用いても良い。
上記の具体的な変形方法のさらに詳細は、第1スペクトルのスペクトルをα乗(0≦α≦1)することで、サブバンド内のスペクトルの絶対振幅のばらつき(振れ)を制御する。そして、使用されたαに関する情報を復号化側へ伝送する。
上記の構成を採ることにより、第1スペクトルのダイナミックレンジと第2スペクトルの高域部のダイナミックレンジとが大きく異なる場合でも、推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
また、以上の構成において、第1スペクトル全体をα乗(0≦α≦1)することにより、スペクトルの振幅に対し一様な制限を加えている。これにより、鋭敏(急峻)なピークを鈍化させることができる。また、例えば、ただ単に所定値以上のピークをピークカットする変形を行った場合、スペクトルが不連続となり異音が発生するおそれがあるが、上記の構成を採ることにより、スペクトルは滑らかなままであり異音の発生を防止することができる。
なお、本実施の形態では、スペクトルの絶対振幅のばらつきの度合い(振れ幅)を表す指標として分散を用いる場合を例にとって説明したが、これに限らず、例えば標準偏差等の別の指標を適用しても良い。
また、本実施の形態では、符号化装置100内の変形部122(または変形部128)において、指数関数を使用する場合を例にとって説明したが、以下に示すような方法を用いても良い。
図8は、変形部の別のバリエーション(変形部122a)の構成を示すブロック図である。なお、変形部122(または変形部128)と同一の構成要素には同一の符号を付し、その説明を省略する。
上記の変形部122(または変形部128)では、指数関数を使用しているために演算量が大きくなる傾向にある。そこで、指数関数を使用せずにスペクトルのダイナミックレンジを変化させるようにすることで演算量の増大を回避する。
絶対値算出部132は、入力された第1スペクトルS1(k)の各スペクトルの絶対値を算出し、平均値算出部142および変形スペクトル算出部143に出力する。平均値算出部142は、次の(式9)に従いスペクトルの絶対値の平均値S1meanを算出する。
Figure 2005111568
乗数テーブル144には、変形スペクトル算出部143で使用される乗数の候補が記録されており、探索部125から指定されたインデックスに基づいて1つの乗数が選択され、変形スペクトル算出部143に出力される。ここでは、乗数テーブルに、乗数g(j) ={1.0, 0.9, 0.8, 0.7}の4候補が記録されているものとする。
変形スペクトル算出部143は、絶対値算出部132から出力された第1スペクトルの絶対値と、乗数テーブル144から出力された乗数g(j)とを用いて、変形スペクトルS1'(k)の絶対値を次の(式10)に従い算出し、正号/負号付与部134に出力する。
Figure 2005111568
正号/負号付与部134は、変形スペクトル算出部143から出力された変形スペクトルS1'(k)の絶対値に、正号/負号抽出部131で得られた符号情報sign(k)を付与し、次の(式11)で表される最終的な変形スペクトルS1'(k)を生成し、出力する。
Figure 2005111568
また、本実施の形態では、変形部が、正号/負号抽出部、絶対値算出部、正号/負号付与部を備える場合を例にとって説明したが、入力されるスペクトルが常に正である場合には、これらの構成は必要ない。
次いで、上記の階層符号化装置100で生成された符号化コードを復号化することができる階層復号化装置150の構成について以下詳細に説明する。
図9は、本実施の形態に係る階層復号化装置150の主要な構成を示すブロック図である。
分離部151は、入力された符号化コードに分離処理を施し、第1レイヤ復号化部152用の符号化コードS51と、スペクトル復号化部153用の符号化コードS52とを生成する。第1レイヤ復号化部152は、分離部151で得られた符号化コードを用いて信号帯域0≦k<FLの復号信号を復号し、この復号信号S53をスペクトル復号化部153に与える。また、第1レイヤ復号化部152の出力は、復号化装置150の出力端子にも接続されている。これにより、第1レイヤ復号化部152で生成される第1レイヤ復号信号を出力する必要が生じた場合には、この出力端子を介し出力させることができる。
スペクトル復号化部153には、分離部151で分離された符号化コードS52と第1レイヤ復号化部152から出力される第1レイヤ復号信号S53とが与えられる。スペクトル復号化部153は、後述のスペクトル復号化を行い、信号帯域0≦k<FHの広帯域の復号信号を生成し、これを出力する。スペクトル復号化部153では、第1レイヤ復号化部152から与えられる第1レイヤ復号信号S53を第1信号とみなして処理を行うことになる。
図10は、上記のスペクトル復号化部153内部の主要な構成を示すブロック図である。
このスペクトル復号化部153には、符号化コードS52および第1レイヤ復号信号S53(有効周波数帯域が0≦k<FLの第1信号)が入力される。
分離部161は、入力された符号化コードS52から、上記の符号化側のスペクトル変形部112で生成された変形情報と、拡張帯域スペクトル符号化情報とを分離し、変形情報は変形部162に、拡張帯域スペクトル符号化情報は拡張帯域スペクトル生成部163に出力する。
周波数領域変換部164は、入力された時間領域信号である第1レイヤ復号信号S53に対し周波数変換を施し、第1スペクトルS1(k)を算出する。この周波数変換法は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、変形離散コサイン変換(MDCT)等を使用する。
変形部162は、分離部161から与えられる変形情報に基づいて、周波数領域変換部164から与えられる第1スペクトルS1(k)に変形を加え、変形第1スペクトルS1'(k)を生成する。なお、この変形部162内部の構成は、既に説明した符号化側の変形部122(図6参照)と同様なので、説明を省略する。
拡張帯域スペクトル生成部163は、変形後の第1スペクトルS1'(k)を用いて、第1スペクトルS1(k)の拡張帯域FL≦k<FHに含めるべき第2スペクトルの推定値S2”(k)を生成し、この第2スペクトルの推定値S2”(k)をスペクトル構成部165に与える。
スペクトル構成部165は、周波数領域変換部164から与えられる第1スペクトルS1(k)と、拡張帯域スペクトル生成部163から与えられる第2スペクトルの推定値S2”(k)とを結合し、復号スペクトルS3(k)を生成する。この復号スペクトルS3(k)は次の(式12)のように表される。
Figure 2005111568
この復号スペクトルS3(k)は、時間領域変換部166へ与えられる。
時間領域変換部166は、復号スペクトルS3(k)を時間領域の信号に変換した後、必要に応じて適切な窓掛けおよび重ね合わせ加算等の処理を行ってフレーム間に生じる不連続を回避し、最終的な復号信号を出力する。
このように、本実施の形態に係る復号化装置(スペクトル復号化部153)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することができる。
(実施の形態2)
本発明の実施の形態2では、第1スペクトルを内部状態として持つピッチフィルタを用いて第2スペクトルを推定し、このピッチフィルタの特性を符号化する。
本実施の形態に係る階層符号化装置の構成は、実施の形態1に示した階層符号化装置と同様であるので、異なる構成であるスペクトル符号化部201を図11のブロック図を用いて説明する。なお、実施の形態1に示したスペクトル符号化部106(図4参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
内部状態設定部203は、スペクトル変形部112にて生成された変形第1スペクトル
S1'(k)を使ってフィルタリング部204で用いられるフィルタの内部状態S(k)を設定する。
フィルタリング部204は、内部状態設定部203で設定されたフィルタの内部状態S(k)と、ラグ係数設定部206から与えられるラグ係数Tとに基づいてフィルタリングを行い、第2スペクトルの推定値S2”(k)を算出する。なお、本実施の形態では、フィルタを次の(式13)で表されるものを使用した場合について説明する。
Figure 2005111568
ここで、Tは、ラグ係数設定部206から与えられる係数を表す。また、ここではM=1とする。フィルタリング部204におけるフィルタリング処理は、次の(式14)に示すように、周波数の低い方から順に、周波数Tだけ低いスペクトルを中心に対応する係数βを乗じて加算することにより推定値を算出する。
Figure 2005111568
この式に従う処理を、FL≦k<FHの間に行う。ここでS(k)は、フィルタの内部状態を表す。このとき算出されるS(k)(ただし、FL≦k<FH)が、第2スペクトルの推定値S2”(k)として利用される。
探索部205は、周波数領域変換部113から与えられる第2スペクトルS2(k)と、フィルタリング部204から与えられる第2スペクトルの推定値S2”(k)との類似度を算出する。
なお、この類似度には様々な定義が存在するが、本実施の形態では、まずフィルタ係数β−1およびβを0とみなして最小2乗誤差に基づき定義される次の(式15)に従い算出される類似度を使用する。
Figure 2005111568
この方法では、最適なラグ係数Tを算出した後にフィルタ係数βを決定することになる。ここで、EはS2(k)とS2”(k)間の2乗誤差を表す。また、上記(式15)の右辺第1項は、ラグ係数Tに関わらず固定値となるので、(式15)の右辺第2項を最大とするS2”(k)を生成するラグ係数Tが探索されることになる。本実施の形態では、(式15)の右辺第2項を類似度と呼ぶことにする。
ラグ係数設定部206は、予め定められた探索範囲TMIN〜TMAXに含まれるラグ係数Tを順次フィルタリング部204に出力する。そのため、フィルタリング部204では、ラグ係数設定部206からラグ係数Tが与えられる度に、FL≦k<FHの範囲のS(k)をゼロクリアした後のフィルタリングが行われ、探索部205では、その度に類似度が算出される。探索部205は、算出される類似度が最大となるときの係数TmaxをTMIN〜TMAXの間から決定し、その係数Tmaxをフィルタ係数算出部207、ス
ペクトル概形符号化部208,および多重化部115に与える。
フィルタ係数算出部207は、探索部205から与えられる係数Tmaxを用いてフィルタ係数βを求める。ここで、フィルタ係数βは、次の(式16)に従う2乗歪Eを最小にするように求められる。
Figure 2005111568
フィルタ係数算出部207は、複数個のβの組合せを予めテーブルとして有しており、上記(式16)の2乗歪Eを最小とするβの組合せを決定し、そのコードを多重化部115に出力すると共に、フィルタ係数βをスペクトル概形符号化部208に与える。
スペクトル概形符号化部208は、内部状態設定部203から与えられる内部状態S(k)と、探索部205から与えられるラグ係数Tmaxと、フィルタ係数算出部207から与えられるフィルタ係数βとを用いてフィルタリングを行い、帯域FL≦k<FHの第2スペクトルの推定値S2”(k)を求める。そして、スペクトル概形符号化部208は、第2スペクトルの推定値S2”(k)と第2スペクトルS2(k)とを用いてスペクトル概形の調整係数の符号化を行う。
なお、本実施の形態では、このスペクトル概形情報をサブバンド毎のスペクトルパワで表す場合について説明する。このとき、第jサブバンドのスペクトルパワは次の(式17)で表される。
Figure 2005111568
ここで、BL(j)は第jサブバンドの最小周波数、BH(j)は第jサブバンドの最大周波数を表す。このようにして求められた第2スペクトルのサブバンドのスペクトルパワを第2スペクトルのスペクトル概形情報とみなす。
同様に、スペクトル概形符号化部208は、第2スペクトルの推定値S2”(k)のサブバンドのスペクトルパワB”(j)を次の(式18)に従い算出し、サブバンド毎の変動量V(j)を次の(式19)に従い算出する。
Figure 2005111568
Figure 2005111568
次に、スペクトル概形符号化部208は、変動量V(j)を符号化してそのコードを多重化部115に送る。
多重化部115は、スペクトル変形部112から得られる変形情報と、探索部205から得られる最適ラグ係数Tmaxの情報と、フィルタ係数算出部207から得られるフィルタ係数の情報と、スペクトル概形符号化部208から得られるスペクトル概形調整係数の情報とを多重化して出力する。
このように、本実施の形態によれば、第1スペクトルを内部状態として持つピッチフィルタを用いて第2スペクトルを推定するので、このピッチフィルタの特性のみを符号化すれば良く、低ビットレート化が可能となる。
なお、本実施の形態では、周波数領域変換部を備える場合を説明したが、これらは時間領域信号を入力とする場合に必要な構成要素であり、直接スペクトルが入力される場合には周波数領域変換部は必要ない。
また、本実施の形態では、上記(式13)においてM=1の場合を例にとって説明したが、Mの値は1に限定されることはなく、0以上の整数を用いることが可能である。
また、本実施の形態では、ピッチフィルタが上記(式13)のフィルタ関数(伝達関数)を用いる場合を例にとって説明したが、ピッチフィルタは1次のピッチフィルタであっても良い。
図12は、本実施の形態に係るスペクトル符号化部201の別のバリエーション(スペクトル符号化部201a)の構成を示すブロック図である。なお、スペクトル符号化部201と同一の構成要素には同一の符号を付し、その説明を省略する。
フィルタリング部204で用いられるフィルタは、次の(式20)のように簡略化したものを用いる。
Figure 2005111568
この式は、上記(式13)において、M=0、β=1とした場合のフィルタ関数となっている。
このフィルタにより生成される第2スペクトルの推定値S2”(k)は、以下の(式21)を用いて、Tだけ離れた内部状態S(k)の低域スペクトルを順次コピーすることにより求めることができる。
Figure 2005111568
また、探索部205は、既に述べたのと同様に、最適な係数Tmaxを上記(式15)を最小とするラグ係数Tを探索して決定する。このようにして求められた係数Tmaxは多重化部115に与えられる。
上記の構成を採ることにより、フィルタリング部204で用いるフィルタの構成が簡易なため、フィルタ係数算出部207が不要となり、少ない演算量で第2スペクトルの推定を行うことができる。すなわち、この構成によれば、符号化装置の構成が簡易となり、符号化処理の演算量を削減することができる。
次いで、上記のスペクトル符号化部201(またはスペクトル符号化部201a)で生成された符号化コードを復号化することができる復号側のスペクトル復号化部251の構成について以下詳細に説明する。
図13は、本実施の形態に係るスペクトル復号化部251の主要な構成を示すブロック図である。なお、このスペクトル復号化部251は、実施の形態1に示したスペクトル復号化部153(図10参照)と同様の基本的構成を有しており、同一の構成要素には同一
の符号を付し、その説明を省略する。異なるのは拡張帯域スペクトル生成部163aの内部構成である。
内部状態設定部252は、変形部162から出力される変形後の第1スペクトルS1'(k)を使ってフィルタリング部253で用いられるフィルタの内部状態S(k)を設定する。
フィルタリング部253は、符号化側のスペクトル符号化部201(201a)で生成された符号化コードから、分離部161を介してフィルタに関する情報を得る。具体的には、スペクトル符号化部201の場合は、ラグ係数Tmaxおよびフィルタ係数βが得られ、スペクトル符号化部201aの場合には、ラグ係数Tmaxのみが得られる。そして、フィルタリング部253は、変形部162で生成された変形第1スペクトルS1'(k)をフィルタの内部状態S(k)として、取得したフィルタ情報に基づいてフィルタリングを行い、復号スペクトルS”(k)を算出する。このフィルタリング方法は、符号化側のスペクトル符号化部201(201a)で用いられたフィルタ関数に依存し、スペクトル符号化部201の場合は、復号側でも上記(式13)に従ってフィルタリングが行われ、スペクトル符号化部201aの場合には、復号側でも上記(式20)に従ってフィルタリングが行われる。
スペクトル概形復号化部254は、分離部161から与えられたスペクトル概形情報に基づいてスペクトル概形情報を復号する。本実施の形態では、サブバンド毎の変動量の量子化値Vq(j)を用いる場合を例にとって説明を行う。
スペクトル調整部255は、フィルタリング部253から得られるスペクトルS”(k)に、スペクトル概形復号化部254から得られるサブバンド毎の変動量の量子化値Vq(j)を次の(式22)に従って乗じることにより、スペクトルS”(k)の周波数帯域FL≦k<FHのスペクトル形状を調整し、第2スペクトルの推定値S2”(k)を生成する。
Figure 2005111568
ここで、BL(j)およびBH(j)は、それぞれ第jサブバンドの最小周波数、最大周波数を表す。上記(式22)に従って算出された第2スペクトルの推定値S2”(k)は、スペクトル構成部165に与えられる。
スペクトル構成部165は、実施の形態1で前述したように、第1スペクトルS1(k)と第2スペクトルの推定値S2”(k)とを結合して復号スペクトルS3(k)を生成し、時間領域変換部166に与える。
このように、本実施の形態に係る復号化装置(スペクトル復号化部251)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することができる。
(実施の形態3)
図14は、本発明の実施の形態3に係るスペクトル符号化部の主要な構成を示すブロック図である。図14において、図4と同一名称および同一符号を付したブロックは同一機能を有するので説明を省略する。本実施の形態3では、符号化側、復号化側で共通な情報を基にスペクトルのダイナミックレンジを調整する。これにより、スペクトルのダイナミックレンジを調整するダイナミックレンジ調整係数を表す符号化コードを出力する必要がない。ダイナミックレンジ調整係数を表す符号化コードを出力する必要がないために、ビットレートを低減することができる。
図14におけるスペクトル符号化部301は、周波数領域変換部111と拡張帯域スペクトル符号化部114との間に、図4におけるスペクトル変形部112の代わりに、ダイナミックレンジ算出部302、変形情報推定部303、および変形部304を有する。実施の形態1におけるスペクトル変形部112は、第1スペクトルS1(k)を様々に変形させることにより第1スペクトルのダイナミックレンジを変化させ、適切なダイナミックレンジとなる変形の仕方(変形情報)について調べ、この変形情報を符号化して出力する。一方、本実施の形態3では、符号化側および復号化側で共通な情報に基づきこの変形情報の推定を行い、推定変形情報に従い第1スペクトルS1(k)の変形を行う。
したがって本実施の形態3では、スペクトル変形部112の代わりに、ダイナミックレンジ算出部302と、変形情報推定部303と、その推定変形情報に基づき第1スペクトルを変形する変形部304とを有する。なお、変形情報はスペクトル符号化部及び後述するスペクトル復号化部のそれぞれ内部にて推定により求められるため、スペクトル符号化部301から変形情報を符号化コードとして出力する必要がなく、このため図4のスペクトル符号化部106に配置されている多重化部115は必要としない。
周波数領域変換部111より第1スペクトルS1(k)が出力され、ダイナミックレンジ算出部302と変形部304とに与えられる。ダイナミックレンジ算出部302は、第1スペクトルS1(k)のダイナミックレンジを定量化し、その結果をダイナミックレンジ情報として出力する。ダイナミックレンジの定量化の手法としては、実施の形態1と同様に、第1スペクトルの周波数帯域を複数のサブバンドに分割し、所定の範囲のサブバンドのエネルギー(サブバンドエネルギー)を求め、当該サブバンドエネルギーの分散値を算出し、この分散値をダイナミックレンジ情報として出力する。
次に、図15を用いて変形情報推定部303の説明を行う。変形情報推定部303には、ダイナミックレンジ算出部302よりダイナミックレンジ情報が入力され、切替部305に与えられる。切替部305は、前記ダイナミックレンジ情報を基に変形情報テーブル306内に記録されている推定変形情報の候補の中から1つの推定変形情報を選択し、出力する。変形情報テーブル306には0〜1の間の値をとる複数の推定変形情報の候補が記録されており、この候補はダイナミックレンジ情報と対応するようにあらかじめ学習によって決めておく。
図16は変形部304の主要な構成を示すブロック図である。図6と同一名称および同一符号を付したブロックは同一の機能を有するので説明を省略する。図16の変形部304における指数値算出部307は、変形情報推定部303より与えられる推定変形情報(0〜1の間をとる)に従い、絶対値算出部132から出力されるスペクトルの絶対振幅の指数値、すなわち、推定変形情報でべき乗した値を、正号/負号付与部134に出力する。正号/負号付与部134は、指数値算出部307から出力される指数値に対し、正号/負号抽出部131で先に求めておいた符号情報を付与し、変形第1スペクトルとして出力する。
以上説明したように、本実施の形態に係る符号化装置(スペクトル符号化部301)によれば、第1信号から求められる第1スペクトル(0≦k<FL)を使って、第2信号から求められる第2スペクトル(0≦k<FH)の高域部(FL≦k<FH)を推定し、推定情報を符号化する際に、第1スペクトルをそのまま用いずに、第1スペクトルに変形を加えた後に上記推定を行うようにすることで、推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。このとき、どのように変形したかを表す情報(変形情報)は、符号化側、復号化側で共通な情報(本実施の形態3では第1スペクトル)を基に変形情報を確定するために、変形情報に関する符号化コードを復号化部に伝送する必要がなく、ビットレートを低減させることが可能とな
る。
なお、変形情報推定部303において、変形情報テーブル306を用いた、第1スペクトルのダイナミックレンジ情報と推定変形情報との対応づけを行う代わりに、第1スペクトルのダイナミックレンジ情報を入力値、推定変形情報を出力値とするマッピング関数を用いても良い。この場合、関数の出力値である推定変形情報は0〜1の間の値をとるように制限される。
図17は、本実施の形態3に係るスペクトル復号化部353の主要な構成を示すブロック図である。この構成において、図10と同一名称および同一符号を付したブロックは同一の機能を有するため説明を省略する。周波数領域変換部164と拡張帯域スペクトル生成部163との間に、ダイナミックレンジ算出部361、変形情報推定部362、および変形部363を有する。図10における変形部162は、符号化側のスペクトル変形部112で生成された変形情報を入力し、この変形情報に基づいて、周波数領域変換部164から与えられる第1スペクトルS1(k)に変形を施す。これに対し本実施の形態3は、上記スペクトル符号化部301と同様に、符号化側および復号化側で共通な情報に基づきこの変形情報の推定を行い、推定変形情報にしたがって第1スペクトルS1(k)の変形を行う。
したがって本実施の形態3では、ダイナミックレンジ算出部361、変形情報推定部362、および変形部363を有する。なお、上記スペクトル符号化部301と同様に、変形情報は、スペクトル復号化部の内部にて推定により求められるため、入力される符号化コードには変形情報が含まれていないため、図10のスペクトル復号化部153に配置されている分離部161は必要としない。
周波数領域変換部164より第1スペクトルS1(k)が出力され、ダイナミックレンジ算出部361と変形部363とに与えられる。以降、ダイナミックレンジ算出部361、変形情報推定部362、および変形部363の動作については、既に説明した符号化側のスペクトル符号化部301(図14参照)内のダイナミックレンジ算出部302、変形情報推定部303、および変形部304と同様なので説明を省略する。なお、変形情報推定部362内の変形情報テーブルは、スペクトル符号化部301における変形情報推定部303内の変形情報テーブル306と同じ推定変形情報の候補が記録されている。
また、拡張帯域スペクトル生成部163、スペクトル構成部165、時間領域変換部166の動作は、実施の形態1の図10に記載のものと同様なので、説明を省略する。
このように、本実施の形態に係る復号化装置(スペクトル復号化部353)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することで、推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
なお、本実施の形態では、変形情報推定部303において推定変形情報が求められるが、この推定変形情報を実施の形態1の図4記載のスペクトル符号化部106に適用してスペクトル変形部112に当該推定変形情報を与え、スペクトル変形部112では変形情報推定部303より与えられる推定変形情報を基準にその近傍の変形情報を指数変数テーブル135から選択し、その限定された変形情報の中から最も適切な変形情報を探索部125にて決定する。この構成では、最終的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。このように正確な変形情報を符号化して復号化部へ伝送することができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができるという効果が得られる。
(実施の形態4)
本発明の実施の形態4では、第1レイヤ符号化部より与えられるピッチゲインに基づきスペクトル符号化部内の変形部に出力される推定変形情報を決定する。
図18は、本実施の形態に係る階層符号化装置400の主要な構成を示すブロック図である。図18において図3と同一名称および同一符号を付したブロックは、同一機能を有するため説明を省略する。
本実施の形態4における階層符号化装置400では、第1レイヤ符号化部402で求められたピッチゲインをスペクトル符号化部406に与える。具体的には、第1レイヤ符号化部402において、第1レイヤ符号化部402に内在する適応符号帳(図示せず)から出力される適応コードベクトルに乗じられる適応コードベクトルゲインが、ピッチゲインとして出力され、スペクトル符号化部406に入力される。この適応コードベクトルゲインは、入力信号の周期性が強い場合に大きな値をとり、入力信号の周期性が弱い場合に小さな値をとるという特徴がある。
図19は、本実施の形態4に係るスペクトル符号化部406の主要な構成を示すブロック図である。図19において図14と同一名称および同一符号を付したブロックは、同一機能を有するので説明を省略する。変形情報推定部411は第1レイヤ符号化部402より与えられるピッチゲインを使って推定変形情報を出力する。変形情報推定部411は前述した図15の変形情報推定部303と同様の構成となる。ただし、変形情報テーブルはピッチゲインに対して設計されたものを適用する。また、本実施の形態においても、変形情報テーブルを用いる構成の代わりにマッピング関数を用いる構成であっても良い。
このように、本実施の形態に係る符号化装置(スペクトル符号化部406)によれば、入力信号の周期性をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
次に、上記階層符号化装置400で生成された符号化コードを復号化することができる階層復号化装置450の構成について、以下に説明する。
図20は、本実施の形態に係る階層復号化装置450の主要な構成を示すブロック図である。図20において、第1レイヤ復号化部452より出力されるピッチゲインがスペクトル復号化部453に与えられている。第1レイヤ復号化部452において、第1レイヤ復号化部452に内在する適応符号帳(図示せず)から出力される適応コードベクトルに乗じられる適応コードベクトルゲインが、ピッチゲインとして出力され、スペクトル復号化部453に入力される。
図21は、本実施の形態4に係るスペクトル復号化部453の主要な構成を示すブロック図である。変形情報推定部461は第1レイヤ復号化部452より与えられるピッチゲインを使って推定変形情報を出力する。変形情報推定部461は前述した図15の変形情報推定部303と同様の構成となる。ただし、変形情報テーブルは変形情報推定部411内のものと同様のもので、ピッチゲインに対して設計されたものを適用する。また、本実施の形態においても、変形情報テーブルを用いる構成の代わりにマッピング関数を用いる構成であっても良い。
このように、本実施の形態に係る復号化装置(スペクトル復号化部453)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することで、入力信号の周期性をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号
信号の主観品質を向上させることができる。
なお、ピッチゲインと共にピッチ周期(第1レイヤ符号化部402に内在する適応符号帳探索の結果得られるラグのこと)を用いて変形情報を推定する構成であっても良い。この場合、ピッチ周期を利用することで、ピッチ周期の短い音声(例えば女声)とピッチ周期の長い音声(例えば男声)にそれぞれ適した変形情報の推定を行うことができ、推定精度を向上させることができる。
また、本実施の形態では、変形情報推定部411において推定変形情報が求められるが、実施の形態3と同様に、この推定変形情報を実施の形態1の図4記載のスペクトル符号化部106に適用してスペクトル変形部112に当該推定変形情報を与え、スペクトル変形部112では変形情報推定部411より与えられる推定変形情報を基準にその近傍の変形情報を指数変数テーブル135から選択し、その限定された変形情報の中から最も適切な変形情報を探索部125にて決定する。この構成では、最終的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。このように正確な変形情報を符号化して復号化部へ伝送することができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができるという効果が得られる。
(実施の形態5)
本発明の実施の形態5では、第1レイヤ符号化部より与えられるLPC係数に基づきスペクトル符号化部内の変形部に出力される推定変形情報を決定する。
本実施の形態5における階層符号化装置の構成は前述した図18と同様となる。ただし、第1レイヤ符号化部402からスペクトル符号化部406に対して出力されるパラメータは、ピッチゲインではなくLPC係数である。
本実施の形態に係るスペクトル符号化部406の主要な構成は、図22に示すものとなる。前述した図19との違いは、変形情報推定部511に与えられるパラメータがピッチゲインではなくLPC係数であることと、変形情報推定部511内の構成である。
図23は、本実施の形態に係る変形情報推定部511の主要な構成を示すブロック図である。変形情報推定部511は、判定テーブル512、類似度判定部513、変形情報テーブル514、および切替部515より構成される。変形情報テーブル514は、図15における変形情報テーブル306と同様に推定変形情報の候補が記録されている。ただし、この推定変形情報の候補は、LPC係数に対して設計されたものを適用する。判定テーブル512にはLPC係数の候補が格納されており、判定テーブル512と変形情報テーブル514とは対応付けが為されている。すなわち、判定テーブル512から第j番目のLPC係数の候補が選ばれたとき、そのLPC係数候補に適した推定変形情報は変形情報テーブル514の第j番目に格納されている。LPC係数はスペクトルの概形(スペクトル包絡)を少ないパラメータで精度良く表現できるという特徴があり、このスペクトル概形とダイナミックレンジを制御する推定変形情報を対応付けることができる。本実施の形態は、この特徴を利用して構成したものである。
類似度判定部513は、第1レイヤ符号化部402より与えられるLPC係数と最も類似するLPC係数を判定テーブル512の中から求める。この類似性の判定には、LPC係数同士の距離(歪)、またはLPC係数をLSP(Line Spectrum Pair)係数などの別のパラメータに変換した後の両者の歪を求め、その歪が最小となるときのLPC係数を判定テーブル512より求める。
歪を最小(つまり最も類似度が高い)とするときの判定テーブル512内のLPC係数の候補を表すインデックスが類似度判定部513より出力され、切替部515に与えられる。切替部515は、このインデックスが表す推定変形情報の候補を選択し、変形情報推定部511より出力される。
このように、本実施の形態に係る符号化装置(スペクトル符号化部406)によれば、入力信号のスペクトル概形をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
次に、本実施の形態5における階層符号化装置で生成された符号化コードを復号化することができる階層復号化装置の構成について、以下説明する。
本実施の形態5における階層復号化装置の構成は前述した図20と同様となる。ただし、第1レイヤ復号化部452からスペクトル復号化部453に対して出力されるパラメータは、ピッチゲインではなくLPC係数である。
本実施の形態に係るスペクトル復号化部453の主要な構成は、図24に示すものとなる。前述した図21との違いは、変形情報推定部561に与えられるパラメータがピッチゲインではなくLPC係数であることと、変形情報推定部561内の構成である。
変形情報推定部561内の構成は、図22におけるスペクトル符号化部406内の変形情報推定部511、すなわち図23に記載のものと同様となり、判定テーブル512及び変形情報テーブル514に記録された情報も、符号化側と復号化側とで共通のものである。
このように、本実施の形態に係る復号化装置(スペクトル復号化部453)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することで、入力信号のスペクトル概形をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
なお、本実施の形態では、変形情報推定部511において推定変形情報が求められるが、実施の形態4と同様に、この推定変形情報を実施の形態1の図4記載のスペクトル符号化部106に適用してスペクトル変形部112に当該推定変形情報を与え、スペクトル変形部112では変形情報推定部511より与えられる推定変形情報を基準にその近傍の変形情報を指数変数テーブル135から選択し、その限定された変形情報の中から最も適切な変形情報を探索部125にて決定する。この構成では、最終的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。このように正確な変形情報を符号化して復号化部へ伝送することができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができるという効果が得られる。
(実施の形態6)
本発明の実施の形態6に係る階層符号化装置の基本的構成は、実施の形態1に示した階層符号化装置と同様であるので、その説明を省略し、スペクトル変形部112と異なる構成であるスペクトル変形部612について以下説明する。
スペクトル変形部612は、第1スペクトルS1(k)[0≦k<FL]のダイナミックレンジが、第2スペクトルS2(k)の高域部[FL≦k<FH]のダイナミックレンジに近づくように、第1スペクトルS1(k)に以下の変形を加える。スペクトル変形部612は、この変形に関する変形情報を符号化して出力する。
図25は、本実施の形態に係るスペクトル変形方法を説明するための図である。
この図は、第1スペクトルS1(k)の振幅の分布を示している。第1スペクトルS1(k)は、周波数k[0≦k<FL]の値によって異なる振幅を示す。そこで、横軸に振幅をとり、縦軸にその振幅における出現確率をとると、振幅の平均値m1を中心として図に示すような正規分布に近い分布が現れる。
本実施の形態では、まず、この分布を、平均値m1に近いグループ(図中の領域B)と、平均値m1から遠いグループ(図中の領域A)とに大きく分ける。次に、これら2つのグループの振幅の代表値、具体的には、領域Aに含まれるスペクトルの振幅の平均値と、領域Bに含まれるスペクトルの振幅の平均値とを求める。ここで、振幅は、平均値m1を零と換算し直した(各値から平均値m1を減じた)場合の振幅の絶対値を用いる。例えば、領域Aは、平均値m1よりも振幅の大きい領域と、平均値m1よりも振幅の小さな領域との2つの領域から成るが、平均値m1を零と換算し直すことにより、2つの領域に含まれるスペクトルの振幅の絶対値は、同じ様な値を有することになる。よって、例えば領域Aの平均値であれば、第1スペクトルのうちで換算後の振幅(絶対値)が比較的大きなスペクトルを1つのグループとし、このグループの振幅の代表値を求めたことに相当し、領域Bの平均値であれば、第1スペクトルのうちで換算後の振幅が比較的小さなスペクトルを1つのグループとし、このグループの振幅の代表値を求めたことに相当している。よって、これら2つの代表値は、第1スペクトルのダイナミックレンジを概略的に表現したパラメータとなる。
次に、本実施の形態では、第2スペクトルに対し、第1スペクトルで行ったのと同様の処理を行い、第2スペクトルの各グループに対応する代表値を求める。そして、領域Aにおける第1スペクトルの代表値と第2スペクトルの代表値との比(具体的には、第2スペクトルの代表値の第1スペクトルの代表値に対する比)、および領域Bにおける第1スペクトルの代表値と第2スペクトルの代表値との比を求める。よって、第1スペクトルのダイナミックレンジと第2スペクトルのダイナミックレンジとの比を概算的に求めることができる。本実施の形態に係るスペクトル変形部は、この比をスペクトルの変形情報として符号化し、出力する。
図26は、スペクトル変形部612内部の主要な構成を示すブロック図である。
スペクトル変形部612は、第1スペクトルの上記各グループに対する代表値を算出する系統と、第2スペクトルの上記各グループに対する代表値を算出する系統と、これら2つの系統で算出された代表値に基づいて変形情報を決定する変形情報決定部626と、この変形情報に基づいて変形スペクトルを生成する変形スペクトル生成部627とに大別される。
第1スペクトルの代表値を算出する系統は、具体的には、ばらつき度算出部621−1と、第1閾値設定部622−1と、第2閾値設定部623−1と、第1平均スペクトル算出部624−1と、第2平均スペクトル算出部625−1とからなる。第2スペクトルの代表値を算出する系統も、基本的には、第1スペクトルの代表値を算出する系統と同様の構成からなり、図中において同一の構成に対しては同一の符号を付し、符号の後に続く枝番により処理系統の違いを表す。そして、同一の構成要素については、その説明を省略する。
ばらつき度算出部621−1は、入力される第1スペクトルS1(k)の振幅の分布から、第1スペクトルの平均値m1からの「ばらつき度」を算出し、第1閾値設定部622
−1および第2閾値設定部623−1に出力する。「ばらつき度」とは、具体的には、第1スペクトルの振幅分布の標準偏差σ1のことである。
第1閾値設定部622−1は、ばらつき度算出部621−1で求まった第1スペクトルの標準偏差σ1を用いて第1閾値TH1を求める。ここで、第1閾値TH1とは、第1スペクトルのうち、上記領域Aに含まれる比較的絶対振幅の大きなスペクトルを特定するための閾値であり、標準偏差σ1に所定の定数aを乗じた値が使用される。
第2閾値設定部623−1の動作も、第1閾値設定部622−1の動作と同様であるが、求める第2閾値TH2は、第1スペクトルのうちの領域Bに含まれる比較的絶対振幅の小さなスペクトルを特定するための閾値であり、標準偏差σ1に所定の定数b(<a)を乗じた値が使用される。
第1平均スペクトル算出部624−1は、第1閾値TH1よりも外側に位置するスペクトル、すなわち、領域Aに含まれるスペクトルの振幅の平均値(以下、第1平均値という)を求め、変形情報決定部626に出力する。
具体的には、第1平均スペクトル算出部624−1は、第1スペクトルの各サブバンドのスペクトルの振幅(ただし、換算前の値)を、第1スペクトルの平均値m1に第1閾値TH1を加えた値(m1+TH1)と比較し、この値よりも大きな振幅を有するスペクトルを特定する(ステップ1)。次に、第1平均スペクトル算出部624−1は、第1スペクトルの各サブバンドのスペクトルの振幅値を、第1スペクトルの平均値m1から第1閾値TH1を減じた値(m1−TH1)と比較し、この値よりも小さな振幅を有するスペクトルを特定する(ステップ2)。そして、ステップ1およびステップ2の双方で求まったスペクトルの振幅に対し、上記の平均値m1をゼロとする換算を行い、得られた換算値の絶対値の平均値を求め、変形情報決定部626に出力する。
第2平均スペクトル算出部は、第2閾値TH2よりも内側に位置するスペクトル、すなわち、領域Bに含まれるスペクトルの振幅の平均値(以下、第2平均値という)を求め、変形情報決定部626に出力する。具体的な動作は、第1平均スペクトル算出部624−1と同様である。
上記処理で求まった第1平均値および第2平均値が、第1スペクトルの領域Aおよび領域Bに対する代表値である。
第2スペクトルの代表値を求める処理も基本的には上記と同様である。ただし、第1スペクトルと第2スペクトルとは異なるスペクトルであるので、第1閾値TH1に準ずる第3閾値TH3は、第2スペクトルの標準偏差σ2に所定の定数cを乗じた値が使用され、第2閾値TH2に準ずる第4閾値TH4は、第2スペクトルの標準偏差σ2に所定の定数d(<c)を乗じた値が使用される。
変形情報決定部626は、第1平均スペクトル算出部624−1で得られる第1平均値、第2平均スペクトル算出部625−1で得られる第2平均値、第3平均スペクトル算出部624−2で得られる第3平均値、および第4平均スペクトル算出部625−2で得られる第4平均値を用いて、以下のように変形情報を決定する。
すなわち、変形情報決定部626は、第1平均値と第3平均値との比(以下、第1ゲインと呼ぶ)、および第2平均値と第4平均値との比(以下、第2ゲインと呼ぶ)を算出する。そして、変形情報決定部626は、変形情報の複数の符号化候補が予め記憶されたデータテーブルを内部に備えているので、第1ゲインおよび第2ゲインをこれらの符号化候
補と比較し、最も類似した符号化候補を選択して、この符号化候補を表すインデックスを変形情報として出力する。また、このインデックスは、変形スペクトル生成部627にも送られる。
変形スペクトル生成部627は、入力信号である第1スペクトル、第1閾値設定部622−1で得られる第1閾値TH1、第2閾値設定部623−1で得られる第2閾値TH2、および変形情報決定部626から出力される変形情報、を用いて、第1スペクトルの変形を行い、生成された変形スペクトルを出力する。
図27、図28は、変形スペクトルの生成方法を説明するための図である。
変形スペクトル生成部627は、変形情報を用いて第1平均値と第3平均値との比の復号値(以下、復号第1ゲインと呼ぶ)、および第2平均値と第4平均値との比の復号値(以下、復号第2ゲインと呼ぶ)を生成する。これらの対応関係は、図27に示す通りである。
次に、変形スペクトル生成部627は、第1スペクトルの振幅値と第1閾値TH1とを比較することにより、領域Aに属するスペクトルを特定し、これらのスペクトルに復号第1ゲインを乗じる。同様に、変形スペクトル生成部627は、第1スペクトルの振幅値と第2閾値TH2とを比較することにより、領域Bに属するスペクトルを特定し、これらのスペクトルに復号第2ゲインを乗じる。
一方、図28に示す通り、第1スペクトルのうち、第1閾値TH1と第2閾値TH2とに挟まれる領域(以下、領域C)に属するスペクトルに対しては、符号化情報が存在しない。そこで、変形スペクトル生成部627は、復号第1ゲインと復号第2ゲインの中間的な値を有するゲインを使用する。例えば、図28に示されるような、復号第1ゲインと、復号第2ゲインと、第1閾値TH1と、第2閾値TH2とに基づく特性曲線から、ある振幅xに対応する復号ゲインyを求め、このゲインを第1スペクトルの振幅に乗じれば良い。すなわち、復号ゲインyは、復号第1ゲインおよび復号第2ゲインの線形補間値となっている。
図29は、復号化装置で使用されるスペクトル変形部662内部の主要な構成を示したブロック図である。なお、このスペクトル変形部662は、実施の形態1で示した変形部162に対応するものである。
基本的動作は上記のスペクトル変形部612と同様なので、詳細な説明は省略するが、このスペクトル変形部662は、第1スペクトルのみを処理対象とするので、処理系統が1つとなっている。
このように、本実施の形態によれば、第1スペクトルの振幅の分布および第2スペクトルの振幅の分布をそれぞれ把握し、比較的絶対振幅の大きなグループと比較的絶対振幅の小さなグループとに分けて、各グループの振幅の代表値を求める。そして、第1スペクトルと第2スペクトルの各グループの振幅の代表値の比をとることにより、第1スペクトルおよび第2スペクトル間のダイナミックレンジの比、すなわちスペクトルの変形情報を得て、これを符号化する。これにより、指数関数のような演算量の多い関数を用いることなく、変形情報を求めることができる。
また、本実施の形態によれば、第1スペクトルおよび第2スペクトルの振幅の分布から標準偏差を求め、この標準偏差に基づいて第1閾値〜第4閾値を求める。よって、実際のスペクトルに基づいた閾値が設定されるので、変形情報の符号化精度を向上させることが
できる。
また、本実施の形態によれば、復号第1ゲインおよび復号第2ゲインを用いて第1スペクトルのゲイン調整を行うことにより、第1スペクトルのダイナミックレンジを制御する。そして、復号第1ゲインおよび復号第2ゲインは、第1スペクトルが第2スペクトルの高域部に近づくように決定される。よって、第1スペクトルのダイナミックレンジは、第2スペクトルの高域部のダイナミックレンジに近づく。さらに、復号第1ゲインおよび復号第2ゲインの算出には、指数関数のような演算量の多い関数を使用する必要がない。
なお、本実施の形態では、復号第1ゲインが復号第2ゲインよりも大きい場合を例にとって説明したが、音声信号の性質によっては、復号第1ゲインよりも復号第2ゲインの方が大きい場合がある。すなわち、第1スペクトルのダイナミックレンジよりも第2スペクトルの高域部のダイナミックレンジの方が大きい場合がある。このような現象は、入力音声信号が摩擦音のような音の場合に生じることが多い。かかる場合にも本実施の形態に係るスペクトル変形方法は適用することができる。
また、本実施の形態では、スペクトルを絶対振幅の比較的大きなグループと比較的小さなグループとの2つのグループに分ける場合を例にとって説明したが、ダイナミックレンジの再現性を高めるために、より多くのグループに分けるようにしても良い。
また、本実施の形態では、平均値を基準として振幅を換算し、この換算後の振幅に基づいて、スペクトルを振幅の比較的大きなグループと比較的小さなグループとに分ける場合を例にとって説明したが、元の振幅値をそのまま用いて、この振幅に基づいてスペクトルのグルーピングを行っても良い。
また、本実施の形態では、スペクトルの絶対振幅のばらつき度を算出するのに標準偏差を用いる場合を例にとって説明したが、これに限定されず、例えば、標準偏差と同様の統計的パラメータとして分散を用いることができる。
また、本実施の形態では、各グループのスペクトル振幅の代表値として、各グループにおけるスペクトルの絶対振幅の平均値を用いる場合を例にとって説明したが、これに限定されず、例えば、各グループにおけるスペクトルの絶対振幅の中央値等を用いても良い。
また、本実施の形態では、ダイナミックレンジの調整に各スペクトルの振幅値を用いる場合を例にとって説明したが、振幅値の代わりにスペクトルのエネルギー値を用いても良い。
また、各グループに対応する代表値を求める際に、例えばMDCT係数のように、最初からスペクトルの振幅に正または負の符号を持つ場合には、平均値を零と換算する必要はなく、単にスペクトルの振幅の絶対値を用いて各グループに対応する代表値を求めれば良い。
以上、本発明の各実施の形態について説明した。
本発明に係る符号化装置および復号化装置は、上記各実施の形態に限定されず、種々変更して実施することが可能である。
本発明に係る符号化装置および復号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することも可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
なお、ここでは、本発明をスケーラブル符号化方式に適用する場合を例にとって説明したが、本発明は別の符号化方式にも適用可能である。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。例えば、本発明に係る符号化方法(復号化方法)のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置(復号化装置)と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本明細書は、2004年5月14日出願の特願2004−145425、2004年11月5日出願の特願2004−322953、および2005年4月28日出願の特願2005−133729に基づく。これらの内容はすべてここに含めておく。
本発明に係る符号化装置、復号化装置、およびこれらの方法は、スケーラブル符号化/復号化等に適用できる。
オーディオ信号のスペクトルの一例を示す図 低域のスペクトルを複製し、エネルギー調整することにより、高域スペクトルを得た場合の全帯域のスペクトルを示す図 実施の形態1に係る符号化装置の主要な構成を示すブロック図 実施の形態1に係るスペクトル符号化部内部の主要な構成を示すブロック図 実施の形態1に係るスペクトル変形部内部の主要な構成を示すブロック図 実施の形態1に係る変形部内部の主要な構成を示すブロック図 実施の形態1に係る変形部によって得られる変形スペクトルの例を示す図 実施の形態1に係る変形部の別のバリエーションの構成を示すブロック図 実施の形態1に係る階層復号化装置の主要な構成を示すブロック図 実施の形態1に係るスペクトル復号化部内部の主要な構成を示すブロック図 実施の形態2に係るスペクトル符号化部を説明するためのブロック図 実施の形態2に係るスペクトル符号化部の別のバリエーションの構成を示すブロック図 実施の形態2に係るスペクトル復号化部の主要な構成を示すブロック図 実施の形態3に係るスペクトル符号化部の主要な構成を示すブロック図 実施の形態3に係る変形情報推定部の説明を行う図 実施の形態3に係る変形部の主要な構成を示すブロック図 実施の形態3に係るスペクトル復号化部の主要な構成を示すブロック図 実施の形態4に係る階層符号化装置の主要な構成を示すブロック図 実施の形態4に係るスペクトル符号化部の主要な構成を示すブロック図 実施の形態4に係る階層復号化装置の主要な構成を示すブロック図 実施の形態4に係るスペクトル復号化部の主要な構成を示すブロック図 実施の形態5に係るスペクトル符号化部の主要な構成を示す図 実施の形態5に係る変形情報推定部の主要な構成を示すブロック図 実施の形態5に係るスペクトル復号化部の主要な構成を示す図 実施の形態6に係るスペクトル変形方法を説明するための図 実施の形態6に係るスペクトル変形部内部の主要な構成を示すブロック図 変形スペクトルの生成方法を説明するための図 変形スペクトルの生成方法を説明するための図 実施の形態6に係るスペクトル変形部内部の主要な構成を示したブロック図

Claims (27)

  1. 入力信号の高域スペクトル部の符号化を行う符号化手段と、
    前記入力信号の低域スペクトル部の符号化信号を復号化した第1の低域スペクトルを取得し、この第1の低域スペクトルの振幅を一様に制限した第2の低域スペクトルを生成する制限手段と、
    を具備し、
    前記符号化手段は、
    前記第2の低域スペクトルに基づいて前記高域スペクトル部の符号化を行う、
    符号化装置。
  2. 前記制限手段で使用された制限の仕方に関する情報を、前記符号化手段によって得られた符号化情報と併せて送信する送信手段、
    をさらに具備することを特徴とする請求項1記載の符号化装置。
  3. 前記制限手段は、
    前記第2の低域スペクトルの振幅の平均的な振れ幅と、前記高域スペクトル部の振幅の平均的な振れ幅とが同等となるように、前記第1の低域スペクトルの振幅を一様に制限する、
    請求項1記載の符号化装置。
  4. 前記制限手段は、
    前記第1の低域スペクトルの振幅を0から1までの範囲内の所定値で一様にべき乗することで前記第2の低域スペクトルを生成する、
    請求項1記載の符号化装置。
  5. 前記符号化手段は、
    前記第2の低域スペクトルを内部状態として有するピッチフィルタと、
    前記ピッチフィルタを用いて前記高域スペクトル部を推定する推定手段と、
    を具備し、
    前記推定手段の推定結果に対応する前記ピッチフィルタの特性を符号化する、
    請求項1記載の符号化装置。
  6. 前記ピッチフィルタの特性は、次の伝達関数によって表される、
    請求項5記載の符号化装置。
    Figure 2005111568
    ただし、
    P(z):ピッチフィルタの伝達関数
    z:z変換係数
    T:ラグ係数
  7. 前記制限手段は、
    前記第1の低域スペクトルに基づいて制限の仕方に関する情報を推定し、推定された情報を用いて前記第2の低域スペクトルを生成する、
    請求項1記載の符号化装置。
  8. 前記制限手段は、
    前記第1の低域スペクトルを用いてダイナミックレンジ情報を求めるダイナミックレンジ算出手段と、
    前記ダイナミックレンジ情報を用いて、前記第1の低域スペクトルの振幅を一様に制限するための変形情報を推定する変形情報推定手段と、
    推定された前記変形情報を用いて前記第1の低域スペクトルの振幅を一様に制限する変形手段と、
    を具備する請求項7記載の符号化装置。
  9. 前記制限手段は、
    前記入力信号の周期性を示すピッチ情報を用いて、前記第1の低域スペクトルの振幅を一様に制限するための変形情報を推定する変形情報推定手段と、
    推定された前記変形情報を用いて前記第1の低域スペクトルの振幅を一様に制限する変形手段と、
    を具備する請求項7記載の符号化装置。
  10. 前記ピッチ情報は、
    ピッチゲインとピッチ周期との少なくとも一方を用いて構成されている、
    請求項9記載の符号化装置。
  11. 前記制限手段は、
    前記入力信号のスペクトル概形情報を用いて、前記第1の低域スペクトルの振幅を一様に制限するための変形情報を推定する変形情報推定手段と、
    推定された前記変形情報を用いて前記第1の低域スペクトルの振幅を一様に制限する変形手段と、
    を具備する請求項7記載の符号化装置。
  12. 前記変形情報推定手段は、
    複数のスペクトル概形情報の候補が格納されたスペクトル概形情報格納手段と、
    複数のダイナミックレンジ情報の候補が格納されたダイナミックレンジ情報格納手段と、
    を具備し、
    前記スペクトル概形情報格納手段から、前記入力信号のスペクトル概形情報に対応するスペクトル概形情報の候補を選択し、
    前記ダイナミックレンジ情報格納手段から、前記選択されたスペクトル概形情報の候補に対応するダイナミックレンジ情報の候補を選択することで前記変形情報を推定する、
    請求項11記載の符号化装置。
  13. 前記第1の低域スペクトルを振幅の違いに応じて複数のグループに分ける第1の分類手段と、
    前記第1の低域スペクトルの各グループの振幅の代表値を取得する第1の代表値取得手段と、
    前記高域スペクトル部を振幅の違いに応じて複数のグループに分ける第2の分類手段と、
    前記高域スペクトル部の各グループの振幅の代表値を取得する第2の代表値取得手段と、
    をさらに具備し、
    前記制限手段は、
    前記第1の低域スペクトルの各グループの代表値と、前記高域スペクトル部の各グループの代表値とに基づいて、前記第1の低域スペクトルの振幅を一様に制限する、
    請求項1記載の符号化装置。
  14. 前記制限手段は、
    前記各代表値間の振幅を、前記各代表値に対して線形補間を行うことにより求める、
    請求項13記載の符号化装置。
  15. 前記制限手段は、
    前記第1の低域スペクトルの各グループの代表値と、前記高域スペクトル部の各グループの代表値との比に基づいて、前記第1の低域スペクトルの振幅を一様に制限する、
    請求項13記載の符号化装置。
  16. 前記第1および第2の代表値取得手段は、
    各グループの振幅の平均値または中央値を取得する、
    請求項13記載の符号化装置。
  17. 符号化装置で生成された符号に含まれる低域スペクトル部の符号を復号化した信号を周波数領域の信号に変換した第1の低域スペクトルを生成する変換手段と、
    前記符号化装置で生成された符号に含まれる高域スペクトル部の符号を復号化する復号化手段と、
    前記符号化装置で生成された符号に含まれるスペクトル変形情報に従って前記第1の低域スペクトルの振幅を一様に制限した第2の低域スペクトルを生成する制限手段と、
    を具備し、
    前記復号化手段は、
    前記第2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号化する、
    復号化装置。
  18. 符号化装置で生成された符号に含まれる低域スペクトル部の符号を復号化した信号を周波数領域の信号に変換した第1の低域スペクトルを生成する変換手段と、
    前記符号化装置で生成された符号に含まれる高域スペクトル部の符号を復号化する復号化手段と、
    前記第1の低域スペクトルの振幅を一様に制限した第2の低域スペクトルを生成する制限手段と、
    を具備し、
    前記制限手段は、
    前記第1の低域スペクトルに基づいて制限の仕方に関する情報を推定し、推定された情報を用いて前記第2の低域スペクトルを生成し、
    前記復号化手段は、
    前記第2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号化する、
    復号化装置。
  19. 請求項1記載の符号化装置を具備する通信端末装置。
  20. 請求項1記載の符号化装置を具備する基地局装置。
  21. 請求項17記載の復号化装置を具備する通信端末装置。
  22. 請求項17記載の復号化装置を具備する基地局装置。
  23. 請求項18記載の復号化装置を具備する通信端末装置。
  24. 請求項18記載の復号化装置を具備する基地局装置。
  25. 入力信号の高域スペクトル部の符号化を行う符号化ステップと、
    前記入力信号の低域スペクトル部の符号化信号を復号化した第1の低域スペクトルを取得する取得ステップと、
    前記第1の低域スペクトルの振幅を一様に制限した第2の低域スペクトルを生成する制限ステップと、
    を具備し、
    前記符号化ステップは、
    前記第2の低域スペクトルに基づいて前記高域スペクトル部の符号化を行う、
    符号化方法。
  26. 符号化装置で生成された符号に含まれる低域スペクトル部の符号を復号化した信号を周波数領域の信号に変換した第1の低域スペクトルを生成する変換ステップと、
    前記符号化装置で生成された符号に含まれる高域スペクトル部の符号を復号化する復号化ステップと、
    前記符号化装置で生成された符号に含まれるスペクトル変形情報を取得する取得ステップと、
    前記スペクトル変形情報に従って前記第1の低域スペクトルの振幅を一様に制限した第2の低域スペクトルを生成する制限ステップと、
    を具備し、
    前記復号化ステップは、
    前記第2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号化する、
    復号化方法。
  27. 符号化装置で生成された符号に含まれる低域スペクトル部の符号を復号化した信号を周波数領域の信号に変換した第1の低域スペクトルを生成する変換ステップと、
    前記符号化装置で生成された符号に含まれる高域スペクトル部の符号を復号化する復号化ステップと、
    前記第1の低域スペクトルの振幅を一様に制限した第2の低域スペクトルを生成する制限ステップと、
    を具備し、
    前記制限ステップは、
    前記第1の低域スペクトルに基づいて制限の仕方に関する情報を推定し、推定された情報を用いて前記第2の低域スペクトルを生成し、
    前記復号化ステップは、
    前記第2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号化する、
    復号化方法。
JP2006513565A 2004-05-14 2005-05-13 符号化装置、復号化装置、およびこれらの方法 Active JP4810422B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006513565A JP4810422B2 (ja) 2004-05-14 2005-05-13 符号化装置、復号化装置、およびこれらの方法

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP2004145425 2004-05-14
JP2004145425 2004-05-14
JP2004322953 2004-11-05
JP2004322953 2004-11-05
JP2005133729 2005-04-28
JP2005133729 2005-04-28
PCT/JP2005/008771 WO2005111568A1 (ja) 2004-05-14 2005-05-13 符号化装置、復号化装置、およびこれらの方法
JP2006513565A JP4810422B2 (ja) 2004-05-14 2005-05-13 符号化装置、復号化装置、およびこれらの方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2010254172A Division JP5371931B2 (ja) 2004-05-14 2010-11-12 符号化装置、復号化装置、およびこれらの方法

Publications (2)

Publication Number Publication Date
JPWO2005111568A1 true JPWO2005111568A1 (ja) 2008-03-27
JP4810422B2 JP4810422B2 (ja) 2011-11-09

Family

ID=35394267

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2006513565A Active JP4810422B2 (ja) 2004-05-14 2005-05-13 符号化装置、復号化装置、およびこれらの方法
JP2010254172A Active JP5371931B2 (ja) 2004-05-14 2010-11-12 符号化装置、復号化装置、およびこれらの方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2010254172A Active JP5371931B2 (ja) 2004-05-14 2010-11-12 符号化装置、復号化装置、およびこれらの方法

Country Status (6)

Country Link
US (1) US8417515B2 (ja)
EP (3) EP2991075B1 (ja)
JP (2) JP4810422B2 (ja)
KR (2) KR101213840B1 (ja)
BR (1) BRPI0510014B1 (ja)
WO (1) WO2005111568A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4810422B2 (ja) * 2004-05-14 2011-11-09 パナソニック株式会社 符号化装置、復号化装置、およびこれらの方法
BRPI0510400A (pt) * 2004-05-19 2007-10-23 Matsushita Electric Ind Co Ltd dispositivo de codificação, dispositivo de decodificação e método dos mesmos
EP2323131A1 (en) * 2006-04-27 2011-05-18 Panasonic Corporation Audio encoding device, audio decoding device, and their method
EP2200026B1 (en) * 2006-05-10 2011-10-12 Panasonic Corporation Encoding apparatus and encoding method
JP2009116245A (ja) * 2007-11-09 2009-05-28 Yamaha Corp 音声強調装置
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
RU2483367C2 (ru) 2008-03-14 2013-05-27 Панасоник Корпорэйшн Устройство кодирования, устройство декодирования и способ для их работы
EP2320416B1 (en) * 2008-08-08 2014-03-05 Panasonic Corporation Spectral smoothing device, encoding device, decoding device, communication terminal device, base station device, and spectral smoothing method
WO2010098112A1 (ja) * 2009-02-26 2010-09-02 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
WO2011121782A1 (ja) * 2010-03-31 2011-10-06 富士通株式会社 帯域拡張装置および帯域拡張方法
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) * 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
ES2501840T3 (es) * 2010-05-11 2014-10-02 Telefonaktiebolaget Lm Ericsson (Publ) Procedimiento y disposición para el procesamiento de señales de audio
CA2801362A1 (en) 2010-06-21 2011-12-29 Panasonic Corporation Decoding device, encoding device, and methods for same
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5975243B2 (ja) 2011-08-24 2016-08-23 ソニー株式会社 符号化装置および方法、並びにプログラム
JP6037156B2 (ja) 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
EP2733699B1 (en) * 2011-10-07 2017-09-06 Panasonic Intellectual Property Corporation of America Scalable audio encoding device and scalable audio encoding method
CN105324982B (zh) * 2013-05-06 2018-10-12 波音频有限公司 用于抑制不需要的音频信号的方法和设备
WO2015041070A1 (ja) 2013-09-19 2015-03-26 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
US8879858B1 (en) * 2013-10-01 2014-11-04 Gopro, Inc. Multi-channel bit packing engine
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
CN106463143B (zh) 2014-03-03 2020-03-13 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
KR102653849B1 (ko) 2014-03-24 2024-04-02 삼성전자주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
RU2689181C2 (ru) 2014-03-31 2019-05-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер, декодер, способ кодирования, способ декодирования и программа
EP3288031A1 (en) * 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216190A (ja) * 2001-11-14 2003-07-30 Matsushita Electric Ind Co Ltd 符号化装置および復号化装置
JP2003255973A (ja) * 2002-02-28 2003-09-10 Nec Corp 音声帯域拡張システムおよび方法
WO2004027368A1 (en) * 2002-09-19 2004-04-01 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3106749B2 (ja) * 1992-12-10 2000-11-06 ソニー株式会社 適応型ダイナミックレンジ符号化装置
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
JP3301473B2 (ja) 1995-09-27 2002-07-15 日本電信電話株式会社 広帯域音声信号復元方法
US6097824A (en) * 1997-06-06 2000-08-01 Audiologic, Incorporated Continuous frequency dynamic range audio compressor
JP3283413B2 (ja) 1995-11-30 2002-05-20 株式会社日立製作所 符号化復号方法、符号化装置および復号装置
US5687191A (en) * 1995-12-06 1997-11-11 Solana Technology Development Corporation Post-compression hidden data transport
US6006108A (en) * 1996-01-31 1999-12-21 Qualcomm Incorporated Digital audio processing in a dual-mode telephone
EP0880235A1 (en) * 1996-02-08 1998-11-25 Matsushita Electric Industrial Co., Ltd. Wide band audio signal encoder, wide band audio signal decoder, wide band audio signal encoder/decoder and wide band audio signal recording medium
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
JP4354561B2 (ja) 1999-01-08 2009-10-28 パナソニック株式会社 オーディオ信号符号化装置及び復号化装置
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
AUPR433901A0 (en) * 2001-04-10 2001-05-17 Lake Technology Limited High frequency signal construction method
CN1235192C (zh) * 2001-06-28 2006-01-04 皇家菲利浦电子有限公司 传输系统以及用于接收窄带音频信号的接收机和方法
JP2003108197A (ja) * 2001-07-13 2003-04-11 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置およびオーディオ信号符号化装置
WO2003007480A1 (fr) * 2001-07-13 2003-01-23 Matsushita Electric Industrial Co., Ltd. Dispositif de decodage de signaux audio et dispositif de codage de signaux audio
DE60204038T2 (de) * 2001-11-02 2006-01-19 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zum codieren bzw. decodieren eines audiosignals
CN100395817C (zh) 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
CN1279512C (zh) * 2001-11-29 2006-10-11 编码技术股份公司 用于改善高频重建的方法和装置
JP4317355B2 (ja) 2001-11-30 2009-08-19 パナソニック株式会社 符号化装置、符号化方法、復号化装置、復号化方法および音響データ配信システム
US6978010B1 (en) * 2002-03-21 2005-12-20 Bellsouth Intellectual Property Corp. Ambient noise cancellation for voice communication device
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP3879922B2 (ja) * 2002-09-12 2007-02-14 ソニー株式会社 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム
SE0202770D0 (sv) * 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
JP3854922B2 (ja) 2002-10-22 2006-12-06 株式会社みずほ銀行 取引支援方法及び取引支援プログラム
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
JP2004322953A (ja) 2003-04-28 2004-11-18 Isono Body:Kk 車両用断熱ボディ及びこれに用いる断熱パネル
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
WO2005112005A1 (ja) * 2004-04-27 2005-11-24 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
JP4810422B2 (ja) * 2004-05-14 2011-11-09 パナソニック株式会社 符号化装置、復号化装置、およびこれらの方法
BRPI0517780A2 (pt) * 2004-11-05 2011-04-19 Matsushita Electric Ind Co Ltd aparelho de decodificação escalável e aparelho de codificação escalável
JP2005133729A (ja) 2004-11-22 2005-05-26 Takehiro Yagi 振動軸と可動リングを用いた駆動装置
US8082156B2 (en) * 2005-01-11 2011-12-20 Nec Corporation Audio encoding device, audio encoding method, and audio encoding program for encoding a wide-band audio signal
MX2007012187A (es) * 2005-04-01 2007-12-11 Qualcomm Inc Sistemas, metodos y aparatos para deformacion en tiempo de banda alta.
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
EP2200026B1 (en) * 2006-05-10 2011-10-12 Panasonic Corporation Encoding apparatus and encoding method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216190A (ja) * 2001-11-14 2003-07-30 Matsushita Electric Ind Co Ltd 符号化装置および復号化装置
JP2003255973A (ja) * 2002-02-28 2003-09-10 Nec Corp 音声帯域拡張システムおよび方法
WO2004027368A1 (en) * 2002-09-19 2004-04-01 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6010053220, 押切正浩 他, ""ピッチフィルタリングによる帯域拡張技術を用いた7/10/15kHz 帯域スケーラブル音声符号化方式"", 日本音響学会2004年春季研究発表会講演論文集 −I−, 20040317, p.327−328 *

Also Published As

Publication number Publication date
KR20120008537A (ko) 2012-01-30
US8417515B2 (en) 2013-04-09
WO2005111568A1 (ja) 2005-11-24
EP3336843B1 (en) 2021-06-23
KR101143724B1 (ko) 2012-05-11
KR20070017524A (ko) 2007-02-12
US20080027733A1 (en) 2008-01-31
JP5371931B2 (ja) 2013-12-18
EP2991075A2 (en) 2016-03-02
EP2991075B1 (en) 2018-08-01
EP1744139A1 (en) 2007-01-17
JP4810422B2 (ja) 2011-11-09
EP1744139B1 (en) 2015-11-11
EP1744139A4 (en) 2011-01-19
EP3336843A1 (en) 2018-06-20
BRPI0510014A (pt) 2007-09-18
BRPI0510014B1 (pt) 2019-03-26
EP2991075A3 (en) 2016-04-06
KR101213840B1 (ko) 2012-12-20
JP2011043853A (ja) 2011-03-03

Similar Documents

Publication Publication Date Title
JP4810422B2 (ja) 符号化装置、復号化装置、およびこれらの方法
JP5485909B2 (ja) オーディオ信号処理方法及び装置
US7983904B2 (en) Scalable decoding apparatus and scalable encoding apparatus
RU2579663C2 (ru) Устройство кодирования и способ кодирования
EP2224432B1 (en) Encoder, decoder, and encoding method
JP4859670B2 (ja) 音声符号化装置および音声符号化方法
JP5267362B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
JP4606418B2 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
EP1926083A1 (en) Audio encoding device and audio encoding method
EP1489599A1 (en) Coding device, decoding device, coding method, and decoding method
US20100280833A1 (en) Encoding device, decoding device, and method thereof
KR20130042472A (ko) 신호 처리 장치 및 방법, 부호화 장치 및 방법, 복호 장치 및 방법 및 프로그램
KR102089602B1 (ko) 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램
JP2006259517A (ja) 音声処理装置及び音声処理方法
KR100695125B1 (ko) 디지털 신호 부호화/복호화 방법 및 장치
JPWO2010016271A1 (ja) スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法
JP3344944B2 (ja) オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
JPWO2005064594A1 (ja) 音声・楽音符号化装置及び音声・楽音符号化方法
KR20160138373A (ko) 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 및 프로그램
WO2011058752A1 (ja) 符号化装置、復号装置およびこれらの方法
JP5188913B2 (ja) 量子化装置、量子化方法、逆量子化装置、逆量子化方法、音声音響符号化装置および音声音響復号装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110822

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4810422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250