JPWO2007088853A1 - 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 - Google Patents

音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 Download PDF

Info

Publication number
JPWO2007088853A1
JPWO2007088853A1 JP2007556867A JP2007556867A JPWO2007088853A1 JP WO2007088853 A1 JPWO2007088853 A1 JP WO2007088853A1 JP 2007556867 A JP2007556867 A JP 2007556867A JP 2007556867 A JP2007556867 A JP 2007556867A JP WO2007088853 A1 JPWO2007088853 A1 JP WO2007088853A1
Authority
JP
Japan
Prior art keywords
coefficient
amplitude
signal
spectral
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2007556867A
Other languages
English (en)
Inventor
チュン オエイ テオ
チュン オエイ テオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPWO2007088853A1 publication Critical patent/JPWO2007088853A1/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

スペクトル波形をモデル化し、スペクトル波形を正確に復元する音声符号化装置。この音声符号化装置では、FFT部(104)が、駆動音源信号のスペクトル振幅にFFT処理を施してFFT変換係数を求め、第2スペクトル振幅算出部(105)が、FFT変換係数の第2スペクトル振幅を算出する。ピークポイント位置特定部(106)が、第2スペクトル振幅のピークを上位N個について位置を特定し、係数選択部(107)が、特定した位置に対応するFFT変換係数を選択する。量子化部108が、選択されたFFT変換係数を量子化する。

Description

本発明は、音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法に関する。
音声信号のモノラル表現を符号化する音声コーデック(モノラルコーデック)は、現在の標準となっている。そのようなモノラルコーデックは、人の音声などの単一音源を想定する携帯電話やテレビ会議用機器などの通信機器で一般に使用されている。
従来、通信機器の送信帯域やDSPの処理速度の制限のためモノラル信号でも十分な音質であったが、技術及び帯域の向上に伴い、これらの制限はなくなりつつあり、より高い音質が求められている。
モノラル音声の弱点の一つは、話し手のサウンドイメージ、または位置などの空間情報が得られないことである。このため、できるだけ低いビットレートでよりよい音声認識が得られるように良好なステレオ音質を実現することが要求されている。
ステレオ音声信号の符号化方法の一つに、信号予測または信号推定技術を用いる方法が知られている。具体的には、一つのチャネルを既知の音声符号化器で符号化し、他のチャネルの副次的情報を用いて、符号化したチャネルから他のチャネルを予測または推定するものである。
このような方法は、非特許文献1に記載のバイノーラル・キュー・コーディングの一部として、特許文献1に記載されており、基準チャネルを基準として一つのチャネルのレベルを調整するためにチャネル間のレベル差(ILD)の計算に適用されている。
ところが、予測信号または推定信号は元の信号に比較してあまり正確ではないことが多い。このため、予測信号または推定信号を強調し、これらの信号を元の信号にできるだけ近づける必要がある。
ここで、オーディオ、音声信号は一般に周波数領域で処理される。この周波数領域データは、一般に変換領域における「スペクトル係数」と呼ばれる。したがって、上記のような予測および推定は、周波数領域で行われる。例えば、左および/または右チャネルのスペクトルデータからその副次情報の一部が抽出され、抽出された副次情報の一部をモノラルチャネルに適用することによって推定することができる(特許文献1参照)。
その他の方法として、例えば右チャネルから左チャネルを推定できるように、一つのチャネルを別のチャネルから推定する方法がある。このような推定は、オーディオ、音声処理においてスペクトルエネルギーまたはスペクトル振幅を推定することにより行われる。これは、スペクトルエネルギー予測またはスケーリングとも呼ばれる。
代表的なスペクトルエネルギー予測では、時間領域信号が周波数領域信号に変換される。この周波数領域信号は、通常、臨界帯域に従って周波数帯域に分割される。この分割は、基準チャネルおよび推定の対象となるチャネルの双方に対して行われる。そして、両チャネルの周波数帯域ごとにエネルギーを計算し、両チャネルのエネルギー比を用いてスケールファクタを計算する。このスケールファクタは受信機側に送信され、そこで基準チャネルは変換領域で推定信号が検索されるため、このスケールファクタを用いて周波数帯域ごとに拡大または縮小される。この後、周波数の逆変換を施して推定変換領域スペクトルデータに対応する時間領域信号を得る。
上述した非特許文献1に記載の方法では、周波数領域スペクトル係数は臨界帯域に分割され、各帯域のエネルギーおよびスケールファクタは、直接計算される。この先行技術による方法の基本概念は、同様に分割したときに元の信号のエネルギーとほぼ同じになるように各帯域のエネルギーを調整することである。
国際公開第03/090208号パンフレット C. Faller and F. Baumgarte, "Binaural cue coding: A novel and efficient representation of spatial audio", Proc. ICASSP, Orlando, Florida, Oct. 2002.
しかしながら、上述した非特許文献1に記載の方法は容易に実現可能であり、各帯域のエネルギーは元の信号に近いが、さらに精密なスペクトル波形をモデル化することは不可能であり、通常、スペクトル波形の細部は元の信号とは異なる。
本発明の目的は、スペクトル波形をモデル化し、スペクトル波形を正確に復元する音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法を提供することである。
本発明の音声符号化装置は、第1入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、前記周波数領域信号の第1スペクトル振幅を算出する第1算出手段と、前記第1スペクトル振幅に周波数変換を施し、第2スペクトル振幅を算出する第2算出手段と、前記第2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、特定された前記ピーク位置に該当する前記第2スペクトル振幅の変換係数を選択する選択手段と、選択された前記変換係数を量子化する量子化手段と、を具備する構成を採る。
本発明の音声復号装置は、入力信号に2回の周波数変換を施して得られた変換係数のうち、上位複数の量子化された変換係数を取得し、取得した変換係数を逆量子化する逆量子化手段と、前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、を具備する構成を採る。
本発明の音声符号化システムは、入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、前記周波数領域信号の第1スペクトル振幅を算出する第1算出手段と、前記第1スペクトル振幅に周波数変換を施し、第2スペクトル振幅を算出する第2算出手段と、前記第2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、特定された前記ピーク位置に該当する前記第2スペクトル振幅の変換係数を選択する選択手段と、選択された前記変換係数を量子化する量子化手段と、を有する音声符号化装置と、量子化された前記変換係数を逆量子化する逆量子化手段と、前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、を具備する音声復号装置と、を具備する構成を採る。
本発明によれば、スペクトル波形をモデル化し、スペクトル波形を正確に復元することができる。
本発明の実施の形態1に係る音声信号用スペクトル振幅推定装置の構成を示すブロック図 本発明の実施の形態1に係るスペクトル振幅推定復号装置の構成を示すブロック図 定常信号のスペクトルを示す図 非定常信号のスペクトルを示す図 本発明の実施の形態1に係る音声符号化システムの構成を示すブロック図 本発明の実施の形態2に係る残差信号推定装置の構成を示すブロック図 本発明の実施の形態2に係る推定残差信号推定復号装置の構成を示すブロック図 分割したサブフレームに係数を割り当てる様子を示す図 本発明の実施の形態2に係るステレオ音声符号化システムの構成を示すブロック図
以下、本発明の実施の形態について、図面を参照して詳細に説明する。ただし、実施の形態において、同一の構成には同一の符号を付し、重複する説明は省略する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声信号用スペクトル振幅推定装置100の構成を示すブロック図である。このスペクトル振幅推定装置100は、主として音声符号化装置に用いられる。この図において、FFT(Fast Fourier Transform)部101は、駆動音源信号eを入力とし、駆動音源信号eを順方向周波数変換によって周波数領域信号に変換し、第1スペクトル振幅算出部102に出力する。なお、この入力信号は信号源のモノラル、左または右チャネルのいずれかが考えられる。
第1スペクトル振幅算出部102は、FFT部101から出力された周波数領域における駆動音源信号eのスペクトル振幅Aを算出し、算出したスペクトル振幅Aを対数変換部103に出力する。
対数変換部103は、第1スペクトル振幅算出部102から出力されたスペクトル振幅Aを対数目盛に変換し、FFT部104に出力する。なお、対数目盛への変換は必須ではなく、対数目盛を使用しない場合には、これ以降の処理においてスペクトル振幅の絶対値を使用してもよい。
FFT部104は、対数変換部103から出力された対数目盛のスペクトル振幅に対して、第2の順方向周波数変換を施すことによってスペクトル振幅の周波数表現(複素係数C)を取得し、取得した複素係数Cを第2スペクトル振幅算出部105及び係数選択部107に出力する。
第2スペクトル振幅算出部105は、FFT部104から出力された複素係数Cを用いて、スペクトル振幅Aのスペクトル振幅Aを算出し、算出したスペクトル振幅Aをピークポイント位置特定部106に出力する。なお、FFT部104及び第2スペクトル振幅算出部105を一つの算出手段として機能させてもよい。
ピークポイント位置特定部106は、第2スペクトル振幅算出部105から出力されたスペクトル振幅Aにおいて、1番目に高いピークからN番目に高いピークまでを検索すると共に、1〜N番目のピークの位置Posをそれぞれ検索する。検索された1〜N番目のピーク位置Posが係数選択部107に出力される。
係数選択部107は、ピークポイント位置特定部106から出力されたピーク位置Posに基づいて、FFT部104から出力された複素係数CのうちN個を選択し、選択したN個の複素係数Cを量子化部108に出力する。
量子化部108は、係数選択部107から出力された複素係数Cをスカラー量子化方法又はベクター量子化方法によって量子化し、量子化係数C^を出力する。
なお、量子化係数C^およびピーク位置Posは後述する復号器側のスペクトル振幅推定復号装置に送信され、復号器側において再構成される。
図2は、本発明の実施の形態1に係るスペクトル振幅推定復号装置150の構成を示すブロック図である。このスペクトル振幅推定復号装置150は、主として音声復号装置に用いられる。この図において、逆量子化部151は、図1に示したスペクトル振幅推定装置100から送信された量子化係数C^を逆量子化して係数を取得し、取得した係数をスペクトル係数形成部152に出力する。
スペクトル係数形成部152は、逆量子化部151から出力された係数を図1に示したスペクトル振幅推定装置100から送信されたピーク位置Posのそれぞれに配置し、残りの位置には係数0を配置する。これにより逆方向周波数変換に必要なスペクトル係数(複素係数)が形成される。なお、これらの係数のサンプル数は符号化器側の係数のサンプル数と同じである。例えば、スペクトル振幅Aの長さが64サンプルでNが20の場合、係数は実数値、虚数値のいずれに対してもPosによって指定された20箇所に配置され、残り44箇所には係数0が配置される。このようにして形成されたスペクトル係数はIFFT(Inverse Fast Fourier Transform)部153に出力される。
IFFT部153は、スペクトル係数形成部152から出力されたスペクトル係数に逆周波数変換を施すことによって対数目盛でスペクトル振幅の推定値を再構成する。再構成された対数目盛のスペクトル振幅推定値は逆対数変換部154に出力される。
逆対数変換部154は、IFFT部153から出力されたスペクトル振幅推定値の逆対数をとり、線形目盛でスペクトル振幅A^を取得する。なお、前述したように、対数目盛への変換は必須ではないので、スペクトル振幅推定装置100が対数変換部103を備えない場合、逆対数変換部154も備えない。この場合、IFFT部153における逆周波数変換の結果は、線形目盛におけるスペクトル振幅の推定値を再構成したものになる。
図3は、定常信号のスペクトルを示す図である。図3Aは、駆動音源信号の定常部分に対する時間領域信号の1フレームを示す。図3Bは、駆動音源信号を時間領域から周波数領域に変換したスペクトル振幅を示す。定常信号に対して、スペクトル振幅は図3Bのグラフに示すように一定の周期性を示す。
スペクトル振幅を任意の信号として扱い、それに対して周波数変換を行うと、図3Cのグラフにピークで示されるように、変換スペクトルの振幅を計算するときにこの周期性が示される。この特徴を利用してより少ない数の係数(実数および虚数)をとるだけで、図3(b)のグラフからスペクトル振幅を推定することができる。例えば、図3Bのグラフのポイント31のピークを符号化することによってスペクトル振幅の周期性を獲得したことになる。
黒丸のピークポイントで示した位置に該当する縮小した係数の集合を図3Cに示す。少数の係数のみを用いて逆変換を行うことによって、図3Dの点線で示すようなスペクトル振幅の推定値を得ることができる。
効率をさらに向上させるため、ポイント31などの主要なピーク位置およびその隣接ポイントは、周期性または信号のピッチ周期から導き出すことができるので送信する必要はない。
図4は、非定常信号のスペクトル示すものである。図4Aは、駆動音源信号の非定常部分に対する時間領域信号の1フレームを示す。非定常信号についても、定常信号と同様に、スペクトル振幅を推定することができる。
図4Bは、駆動音源信号を時間領域から周波数領域に変換したスペクトル振幅を示す。非定常信号の場合、スペクトル振幅は図4Bに示すように周期性をまったく示さない。また、信号の非定常部分に適用されるため、図4Cに示すようにどの部分においても信号の集中は見られず、ポイントが分散している。
一方、図3Cのグラフでは、ポイント31にピークが存在し、このポイントを符号化することによって図3Bのグラフでスペクトル振幅の周期性を獲得したことになり、他のポイントを符号化することによってスペクトル振幅の精密度が向上する。したがって、処理対象の信号長に比較してより少ない数の係数を用いて信号のスペクトル振幅を推定することができる。
これに対し、通常、図4Cのグラフに示すような黒丸のピークポイントである正しいポイントを注意深く選択することによって、図4Dの点線で示すようなスペクトル振幅の推定値を得ることができる。
このように、特に、定常信号のように安定した構造の信号では、情報は通常、あるFFT変換係数で伝達される。この係数は、他の係数と比較して大きな値を持っており、このような係数を選択して信号を表現することができる。したがって、より少ない数の係数を用いて信号のスペクトル振幅を表現することができる。すなわち、より少ないビット数で係数を表現することになり、ビットレートを低減することができる。ちなみに、スペクトル振幅の表現に使用する係数の数が増加するに従ってスペクトル振幅をより高精度に復元することができる。
図5は、本発明の実施の形態1に係る音声符号化システム200の構成を示すブロック図である。ここでは、まず、符号化器側について説明する。
LPC分析フィルタ201は、入力音声信号Sをフィルタにかけ、LPC係数および駆動音源信号eを得る。LPC係数は復号器側のLPC合成フィルタ210に送信され、駆動音源信号eは符号化器202及びFFT部203に出力される。
符号化器202は、図1に示したスペクトル振幅推定装置の構成を有し、LPC分析フィルタ201から出力された駆動音源信号eのスペクトル振幅を推定し、係数C^およびそれぞれのピーク位置Posを取得し、量子化係数C^およびピーク位置Posを復号器側の復号器206に送信する。
FFT部203は、LPC分析フィルタ201から出力された駆動音源信号eを周波数領域に変換し、複素スペクトル係数(R,I)を生成し、複素スペクトル係数を位相データ算出部204に出力する。
位相データ算出部204は、FFT部203から出力された複素スペクトル係数を用いて、駆動音源信号eの位相データΘを算出し、算出した位相データΘを位相量子化部205に出力する。
位相量子化部205は、位相データ算出部204から出力された位相データΘを量子化し、量子化位相データΦを復号器側の位相逆量子化部207に送信する。
次に、復号器側について説明する。
復号器206は、図2に示したスペクトル振幅推定復号装置の構成を有し、符号化器側の符号化器202から送信された量子化係数C^およびピーク位置Posを用いて、駆動音源信号eのスペクトル振幅推定値A^を取得し、取得したスペクトル振幅推定値A^を極矩変換部208に出力する。
位相逆量子化部207は、符号化器側の位相量子化部205から送信された量子化位相データΦを逆量子化し、位相データΘ’を取得し、極矩変換部208に出力する。
極矩変換部208は、位相逆量子化部207から出力された位相データΘ’を用いて、復号器206から出力されたスペクトル振幅推定値A^を実数および虚数形式の複素スペクトル係数(R’,I’)に変換し、IFFT部209に出力する。
IFFT部209は、極矩変換部208から出力された複素スペクトル係数を周波数領域信号から時間領域信号に変換し、推定駆動音源信号e^を取得する。取得された推定駆動音源信号e^はLPC合成フィルタ210に出力される。
LPC合成フィルタ210は、IFFT部209から出力された推定駆動音源信号e^と符号化器側のLPC分析フィルタ201から出力されたLPC係数とを用いて推定入力信号S’が合成される。
このように実施の形態1によれば、符号化器側において、駆動音源信号のスペクトル振幅にFFT処理を施してFFT変換係数を求め、求めたFFT変換係数のスペクトル振幅のピークを上位N個について位置を特定し、特定した位置に対応するFFT変換係数を選択し、復号器側において、符号化器側によって選択されたFFT変換係数を、同じく符号化器側によって特定された位置に配置してスペクトル係数を形成し、形成したスペクトル係数にIFFT処理を施すことによって、スペクトル振幅を復元することができるので、少ないFFT変換係数を用いてスペクトル振幅を表現することができる。したがって、FFT変換係数を少ないビット数で表現することができるので、ビットレートを低減することができる。
(実施の形態2)
実施の形態1では、スペクトル振幅を推定する場合について説明したが、本発明の実施の形態2では、基準信号と基準信号の推定値との差(残差信号)を符号化する場合について説明する。残差信号は、非定常状態になる傾向があるランダム信号に近いので、図4に示したスペクトルと類似している。よって、実施の形態1において説明したスペクトル振幅推定方法を応用して残差信号を推定することができる。
図6は、本発明の実施の形態2に係る残差信号推定装置300の構成を示すブロック図である。この残差信号推定装置300は、主として音声符号化装置に用いられる。この図において、FFT部301aは基準駆動音源信号eを順方向周波数変換によって周波数領域信号に変換し、第1スペクトル振幅算出部302aに出力する。
第1スペクトル振幅算出部302aは、FFT部301aから出力された周波数領域における基準駆動音源信号のスペクトル振幅Aを算出し、算出したスペクトル振幅Aを第1対数変換部303aに出力する。
第1対数変換部303aは、第1スペクトル振幅算出部302aから出力されたスペクトル振幅Aを対数目盛に変換し、加算器304に出力する。
FFT部301bはFFT部301aと、第3スペクトル振幅算出部302bは第1スペクトル振幅算出部302aと、第2対数変換部303bは第1対数変換部303aとそれぞれ同様の処理を推定駆動音源信号e^に対して行う。
加算器304は、第1対数変換部303aから出力されたスペクトル振幅を基準値として、第2対数変換部303bから出力された推定スペクトル振幅値との差スペクトル振幅D(残差信号)を計算し、差スペクトル振幅DをFFT部104に出力する。
図7は、本発明の実施の形態2に係る推定残差信号推定復号装置350の構成を示すブロック図である。この推定残差信号推定復号装置350は、主として音声復号装置に用いられる。この図において、IFFT部153は、スペクトル係数形成部152から出力されたスペクトル係数に逆周波数変換を施すことによって、対数目盛における差スペクトル振幅の推定値D’を再構成する。再構成された差スペクトル振幅の推定値D’は加算器354に出力される。
FFT部351は、推定駆動音源信号e^を順方向周波数変換によって変換係数Ce^を形成し、スペクトル振幅算出部352に出力する。
スペクトル振幅算出部352は、FFT部351から出力された変換係数Ce^を用いて、推定駆動音源信号のスペクトル振幅A、すなわち、推定スペクトル振幅A^を算出し、算出した推定スペクトル振幅A^を対数変換部353に出力する。
対数変換部353は、スペクトル振幅算出部352から出力された推定スペクトル振幅A^を対数目盛に変換し、加算器354に出力する。
加算器354は、IFFT部153から出力された差スペクトル振幅の推定値D’と対数変換部353から出力された対数目盛のスペクトル振幅の推定値とを加算し、スペクトル振幅の強調された推定値を得る。加算器354はスペクトル振幅の強調された推定値を逆対数変換部154に出力する。
逆対数変換部154は、加算器354から出力されたスペクトル振幅の強調された推定値の逆対数をとり、スペクトル振幅を線形目盛のベクトル振幅A~に変換する。
なお、図6において差スペクトル振幅Dが対数目盛の場合、図7において、スペクトル振幅算出部352から出力されるスペクトル振幅の推定値A^をIFFT部153で求めた差スペクトル振幅の推定値D’に加算する前に対数変換部353で対数目盛に変換し、対数目盛でスペクトル振幅の強調された推定値を得るようにしなければならない。ところが、図6において差スペクトル振幅Dに対数目盛を使用しない場合、対数変換部353および逆対数変換部154を使用しないようにする。したがって、IFFT部153によって再構成された差スペクトル振幅D’をスペクトル振幅算出部352から出力されたスペクトル振幅推定値A^に直接加算してスペクトル振幅の強調推定値A~を得る。
本実施の形態では、差スペクトル振幅信号Dを全フレームに適用できるが、全フレームに適用する代わりに、差スペクトル振幅信号Dの各フレームをMサブフレームに分割し、各サブフレームに差スペクトル振幅信号Dを適用する。各サブフレームのサイズは、等分してもよいし、非線形的に分割してもよい。
ここでは、図8に示すように、低い周波数領域が小さなサブフレームを有し、高い周波数領域が大きなサブフレームを有するように1フレームを4つのサブフレームに非線形的に分割した場合を示している。このように分割した各サブフレームに差スペクトル振幅信号Dを適用する。
サブフレームを使用する利点の一つは異なる数の係数を、その重要性に基づいて異なるサブフレームに割り当てることができる点である。例えば、低い周波数領域に該当する低サブフレームは重要であるとみなされるので、高い周波数領域である高サブフレームと比較してこの領域により多くの係数を割り当てることができる。なお、図8では、低サブフレームよりも高サブフレームにより多くの係数を割り当てた場合を示している。
図9は、本発明の実施の形態2に係るステレオ音声符号化システム400の構成を示すブロック図である。このシステムの基本概念は、基準モノラルチャネルを符号化し、モノラルチャネルから左チャネルを予測または推定し、そして、右チャネルをモノラルおよび左チャネルから導き出すものである。ここでは、まず、符号化器側について説明する。
図9において、LPC分析フィルタ401は、モノラルチャネル信号Mをフィルタにかけ、モノラル駆動音源信号e、モノラルチャネルLPC係数および駆動音源パラメータを求め、モノラル駆動音源信号eを共分散推定部403に出力し、モノラルチャネルLPC係数を復号器側のLPC復号器405に送信し、駆動音源パラメータを復号器側の駆動音源信号発生器406に送信する。なお、モノラル駆動音源信号eは、左駆動音源信号の予測のためのターゲット信号となる。
LPC分析フィルタ402は左チャネル信号Lをフィルタにかけ、左駆動音源信号eおよび左チャネルLPC係数を求め、左駆動音源信号eを共分散推定部403および符号化器404に出力し、左チャネルLPC係数を復号器側のLPC復号器413に送信する。なお、左駆動音源信号eは、左チャネル駆動音源信号の予測のための基準信号として機能する。
共分散推定部403は、LPC分析フィルタ401から出力されたモノラル駆動音源信号eおよびLPC分析フィルタ402から出力された左駆動音源信号eを用いて、以下の式(1)を最小化することによって左駆動音源信号を推定し、推定した左駆動音源信号e^を符号化器404に出力する。
Figure 2007088853
ただし、Pはフィルタ長、Lは処理する信号長、βはフィルタ係数である。フィルタ係数βは復号器側の信号推定部408に送信されて左駆動音源信号の推定に使用される。
符号化器404は、図6に示した残差信号推定装置の構成を有し、LPC分析フィルタ402から出力された基準駆動音源信号eおよび共分散推定部403から出力された推定駆動音源信号e^を用いて、変換係数C^およびピーク位置Posを求め、求めた変換係数C^およびピーク位置Posを復号器側の復号器409に送信する。
次に、復号器側について説明する。
LPC復号器405は、符号化器側のLPC分析フィルタ401から送信されたモノラルチャネルLPC係数を復号し、復号したモノラルチャネルLPC係数をLPC合成フィルタ407に出力する。
駆動音源信号発生器406は、符号化器側のLPC分析フィルタ401から送信された駆動音源パラメータを用いて、モノラル駆動音源信号eM’を発生し、LPC合成フィルタ407および信号推定部408に出力する。
LPC合成フィルタ407は、LPC復号器405から出力されたモノラルチャネルLPC係数と駆動音源信号発生器406から出力されたモノラル駆動音源信号eM’とを用いて、出力モノラル音声M’を合成し、右チャネル導出部415に出力する。
信号推定部408は、駆動音源信号発生器406から出力されたモノラル駆動音源信号eM’を符号化器側の共分散推定部403から送信されたフィルタ係数βでフィルタにかけることにより、左駆動音源信号を推定し、推定左駆動音源信号e^を復号器409および位相算出部410に出力する。
復号器409は、図7に示した推定残差信号推定復号装置の構成を有し、信号推定部408から出力された推定左駆動音原信号e^、符号化器側の符号化器404から送信された変換係数C^及びピーク位置Posを用いて、左駆動音源信号の強調スペクトル振幅A~を取得し、取得した強調スペクトル振幅A~を極矩変換部411に出力する。
位相算出部410は、信号推定部408から出力された推定左駆動音源信号e^から位相データΦを算出し、算出した位相データΦを極矩変換部411に出力する。この位相データΦは振幅A^と共にスペクトル強調駆動音源信号の極形式を形成する。
極矩変換部411は、位相算出部410から出力された位相データΦを用いて、復号器409から出力された強調スペクトル振幅A~を極形式から矩形形式に変換し、IFFT部412に出力する。
IFFT部412は、極矩変換部411から出力された矩形形式の強調スペクトル振幅を逆方向周波数変換によって周波数領域信号から時間領域信号に変換し、スペクトル強調駆動音源信号e'を形成する。スペクトル強調駆動音源e'はLPC合成フィルタ414に出力される。
LPC復号器413は、符号化器側のLPC分析フィルタ402から送信された左チャネルLPC係数を復号し、復号した左チャネルLPC係数をLPC合成フィルタ414に出力する。
LPC合成フィルタ414は、IFFT部412から出力されたスペクトル強調駆動音源信号e'およびLPC復号器413から出力された左チャネルLPC係数を用いて左チャネル信号L’を合成し、右チャネル導出部415に出力する。
右チャネル導出部415は、モノラル信号Mが符号化器側でM=1/2(L+R)によって導き出されると仮定した場合、LPC合成フィルタ407から出力された出力モノラル音声M’と、LPC合成フィルタ414から出力された左チャネル信号L’との関係から右チャネル信号R’を導き出せる。すなわち、R’=2M’−L’の関係式によって右チャネル信号R’を求めることができる。
このように実施の形態2によれば、符号化器側において、基準駆動音源信号のスペクトル振幅と、推定駆動音源信号のスペクトル振幅の残差信号を符号化し、復号器側において、残差信号を復元し、復元した残差信号をスペクトル振幅推定値に加算することにより、スペクトル振幅推定値を強調し、符号化前の基準駆動音源信号のスペクトル振幅に近づけることができる。
以上、実施の形態について説明した。
上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
2006年1月31日出願の特願2006−023756の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明にかかる音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法は、スペクトル波形をモデル化し、スペクトル波形を正確に復元することができ、携帯電話やテレビ会議用機器などの通信機器に適用できる。
本発明は、音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法に関する。
音声信号のモノラル表現を符号化する音声コーデック(モノラルコーデック)は、現在の標準となっている。そのようなモノラルコーデックは、人の音声などの単一音源を想定する携帯電話やテレビ会議用機器などの通信機器で一般に使用されている。
従来、通信機器の送信帯域やDSPの処理速度の制限のためモノラル信号でも十分な音質であったが、技術及び帯域の向上に伴い、これらの制限はなくなりつつあり、より高い音質が求められている。
モノラル音声の弱点の一つは、話し手のサウンドイメージ、または位置などの空間情報が得られないことである。このため、できるだけ低いビットレートでよりよい音声認識が得られるように良好なステレオ音質を実現することが要求されている。
ステレオ音声信号の符号化方法の一つに、信号予測または信号推定技術を用いる方法が知られている。具体的には、一つのチャネルを既知の音声符号化器で符号化し、他のチャネルの副次的情報を用いて、符号化したチャネルから他のチャネルを予測または推定するものである。
このような方法は、非特許文献1に記載のバイノーラル・キュー・コーディングの一部として、特許文献1に記載されており、基準チャネルを基準として一つのチャネルのレベルを調整するためにチャネル間のレベル差(ILD)の計算に適用されている。
ところが、予測信号または推定信号は元の信号に比較してあまり正確ではないことが多い。このため、予測信号または推定信号を強調し、これらの信号を元の信号にできるだけ近づける必要がある。
ここで、オーディオ、音声信号は一般に周波数領域で処理される。この周波数領域データは、一般に変換領域における「スペクトル係数」と呼ばれる。したがって、上記のような予測および推定は、周波数領域で行われる。例えば、左および/または右チャネルのスペクトルデータからその副次情報の一部が抽出され、抽出された副次情報の一部をモノラルチャネルに適用することによって推定することができる(特許文献1参照)。
その他の方法として、例えば右チャネルから左チャネルを推定できるように、一つのチャネルを別のチャネルから推定する方法がある。このような推定は、オーディオ、音声処理においてスペクトルエネルギーまたはスペクトル振幅を推定することにより行われる。これは、スペクトルエネルギー予測またはスケーリングとも呼ばれる。
代表的なスペクトルエネルギー予測では、時間領域信号が周波数領域信号に変換される。この周波数領域信号は、通常、臨界帯域に従って周波数帯域に分割される。この分割は、基準チャネルおよび推定の対象となるチャネルの双方に対して行われる。そして、両チャネルの周波数帯域ごとにエネルギーを計算し、両チャネルのエネルギー比を用いてスケールファクタを計算する。このスケールファクタは受信機側に送信され、そこで基準チャ
ネルは変換領域で推定信号が検索されるため、このスケールファクタを用いて周波数帯域ごとに拡大または縮小される。この後、周波数の逆変換を施して推定変換領域スペクトルデータに対応する時間領域信号を得る。
上述した非特許文献1に記載の方法では、周波数領域スペクトル係数は臨界帯域に分割され、各帯域のエネルギーおよびスケールファクタは、直接計算される。この先行技術による方法の基本概念は、同様に分割したときに元の信号のエネルギーとほぼ同じになるように各帯域のエネルギーを調整することである。
国際公開第03/090208号パンフレット C. Faller and F. Baumgarte, "Binaural cue coding: A novel and efficient representation of spatial audio", Proc. ICASSP, Orlando, Florida, Oct. 2002.
しかしながら、上述した非特許文献1に記載の方法は容易に実現可能であり、各帯域のエネルギーは元の信号に近いが、さらに精密なスペクトル波形をモデル化することは不可能であり、通常、スペクトル波形の細部は元の信号とは異なる。
本発明の目的は、スペクトル波形をモデル化し、スペクトル波形を正確に復元する音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法を提供することである。
本発明の音声符号化装置は、第1入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、前記周波数領域信号の第1スペクトル振幅を算出する第1算出手段と、前記第1スペクトル振幅に周波数変換を施し、第2スペクトル振幅を算出する第2算出手段と、前記第2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、特定された前記ピーク位置に該当する前記第2スペクトル振幅の変換係数を選択する選択手段と、選択された前記変換係数を量子化する量子化手段と、を具備する構成を採る。
本発明の音声復号装置は、入力信号に2回の周波数変換を施して得られた変換係数のうち、上位複数の量子化された変換係数を取得し、取得した変換係数を逆量子化する逆量子化手段と、前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、を具備する構成を採る。
本発明の音声符号化システムは、入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、前記周波数領域信号の第1スペクトル振幅を算出する第1算出手段と、前記第1スペクトル振幅に周波数変換を施し、第2スペクトル振幅を算出する第2算出手段と、前記第2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、特定された前記ピーク位置に該当する前記第2スペクトル振幅の変換係数を選択する選択手段と、選択された前記変換係数を量子化する量子化手段と、を有する音声符号化装置と、量子化された前記変換係数を逆量子化する逆量子化手段と、前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、を具備する音声復号装置と、を具備する構成を採る。
本発明によれば、スペクトル波形をモデル化し、スペクトル波形を正確に復元することができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。ただし、実施の形態において、同一の構成には同一の符号を付し、重複する説明は省略する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声信号用スペクトル振幅推定装置100の構成を示すブロック図である。このスペクトル振幅推定装置100は、主として音声符号化装置に用いられる。この図において、FFT(Fast Fourier Transform)部101は、駆動音源信号eを入力とし、駆動音源信号eを順方向周波数変換によって周波数領域信号に変換し、第1スペクトル振幅算出部102に出力する。なお、この入力信号は信号源のモノラル、左または右チャネルのいずれかが考えられる。
第1スペクトル振幅算出部102は、FFT部101から出力された周波数領域における駆動音源信号eのスペクトル振幅Aを算出し、算出したスペクトル振幅Aを対数変換部103に出力する。
対数変換部103は、第1スペクトル振幅算出部102から出力されたスペクトル振幅Aを対数目盛に変換し、FFT部104に出力する。なお、対数目盛への変換は必須ではなく、対数目盛を使用しない場合には、これ以降の処理においてスペクトル振幅の絶対値を使用してもよい。
FFT部104は、対数変換部103から出力された対数目盛のスペクトル振幅に対して、第2の順方向周波数変換を施すことによってスペクトル振幅の周波数表現(複素係数C)を取得し、取得した複素係数Cを第2スペクトル振幅算出部105及び係数選択部107に出力する。
第2スペクトル振幅算出部105は、FFT部104から出力された複素係数Cを用いて、スペクトル振幅Aのスペクトル振幅Aを算出し、算出したスペクトル振幅Aをピークポイント位置特定部106に出力する。なお、FFT部104及び第2スペクトル振幅算出部105を一つの算出手段として機能させてもよい。
ピークポイント位置特定部106は、第2スペクトル振幅算出部105から出力されたスペクトル振幅Aにおいて、1番目に高いピークからN番目に高いピークまでを検索す
ると共に、1〜N番目のピークの位置Posをそれぞれ検索する。検索された1〜N番目のピーク位置Posが係数選択部107に出力される。
係数選択部107は、ピークポイント位置特定部106から出力されたピーク位置Posに基づいて、FFT部104から出力された複素係数CのうちN個を選択し、選択したN個の複素係数Cを量子化部108に出力する。
量子化部108は、係数選択部107から出力された複素係数Cをスカラー量子化方法又はベクター量子化方法によって量子化し、量子化係数C^を出力する。
なお、量子化係数C^およびピーク位置Posは後述する復号器側のスペクトル振幅推定復号装置に送信され、復号器側において再構成される。
図2は、本発明の実施の形態1に係るスペクトル振幅推定復号装置150の構成を示すブロック図である。このスペクトル振幅推定復号装置150は、主として音声復号装置に用いられる。この図において、逆量子化部151は、図1に示したスペクトル振幅推定装置100から送信された量子化係数C^を逆量子化して係数を取得し、取得した係数をスペクトル係数形成部152に出力する。
スペクトル係数形成部152は、逆量子化部151から出力された係数を図1に示したスペクトル振幅推定装置100から送信されたピーク位置Posのそれぞれに配置し、残りの位置には係数0を配置する。これにより逆方向周波数変換に必要なスペクトル係数(複素係数)が形成される。なお、これらの係数のサンプル数は符号化器側の係数のサンプル数と同じである。例えば、スペクトル振幅Aの長さが64サンプルでNが20の場合、係数は実数値、虚数値のいずれに対してもPosによって指定された20箇所に配置され、残り44箇所には係数0が配置される。このようにして形成されたスペクトル係数はIFFT(Inverse Fast Fourier Transform)部153に出力される。
IFFT部153は、スペクトル係数形成部152から出力されたスペクトル係数に逆周波数変換を施すことによって対数目盛でスペクトル振幅の推定値を再構成する。再構成された対数目盛のスペクトル振幅推定値は逆対数変換部154に出力される。
逆対数変換部154は、IFFT部153から出力されたスペクトル振幅推定値の逆対数をとり、線形目盛でスペクトル振幅A^を取得する。なお、前述したように、対数目盛への変換は必須ではないので、スペクトル振幅推定装置100が対数変換部103を備えない場合、逆対数変換部154も備えない。この場合、IFFT部153における逆周波数変換の結果は、線形目盛におけるスペクトル振幅の推定値を再構成したものになる。
図3は、定常信号のスペクトルを示す図である。図3Aは、駆動音源信号の定常部分に対する時間領域信号の1フレームを示す。図3Bは、駆動音源信号を時間領域から周波数領域に変換したスペクトル振幅を示す。定常信号に対して、スペクトル振幅は図3Bのグラフに示すように一定の周期性を示す。
スペクトル振幅を任意の信号として扱い、それに対して周波数変換を行うと、図3Cのグラフにピークで示されるように、変換スペクトルの振幅を計算するときにこの周期性が示される。この特徴を利用してより少ない数の係数(実数および虚数)をとるだけで、図3(b)のグラフからスペクトル振幅を推定することができる。例えば、図3Bのグラフのポイント31のピークを符号化することによってスペクトル振幅の周期性を獲得したことになる。
黒丸のピークポイントで示した位置に該当する縮小した係数の集合を図3Cに示す。少数の係数のみを用いて逆変換を行うことによって、図3Dの点線で示すようなスペクトル振幅の推定値を得ることができる。
効率をさらに向上させるため、ポイント31などの主要なピーク位置およびその隣接ポイントは、周期性または信号のピッチ周期から導き出すことができるので送信する必要はない。
図4は、非定常信号のスペクトル示すものである。図4Aは、駆動音源信号の非定常部分に対する時間領域信号の1フレームを示す。非定常信号についても、定常信号と同様に、スペクトル振幅を推定することができる。
図4Bは、駆動音源信号を時間領域から周波数領域に変換したスペクトル振幅を示す。非定常信号の場合、スペクトル振幅は図4Bに示すように周期性をまったく示さない。また、信号の非定常部分に適用されるため、図4Cに示すようにどの部分においても信号の集中は見られず、ポイントが分散している。
一方、図3Cのグラフでは、ポイント31にピークが存在し、このポイントを符号化することによって図3Bのグラフでスペクトル振幅の周期性を獲得したことになり、他のポイントを符号化することによってスペクトル振幅の精密度が向上する。したがって、処理対象の信号長に比較してより少ない数の係数を用いて信号のスペクトル振幅を推定することができる。
これに対し、通常、図4Cのグラフに示すような黒丸のピークポイントである正しいポイントを注意深く選択することによって、図4Dの点線で示すようなスペクトル振幅の推定値を得ることができる。
このように、特に、定常信号のように安定した構造の信号では、情報は通常、あるFFT変換係数で伝達される。この係数は、他の係数と比較して大きな値を持っており、このような係数を選択して信号を表現することができる。したがって、より少ない数の係数を用いて信号のスペクトル振幅を表現することができる。すなわち、より少ないビット数で係数を表現することになり、ビットレートを低減することができる。ちなみに、スペクトル振幅の表現に使用する係数の数が増加するに従ってスペクトル振幅をより高精度に復元することができる。
図5は、本発明の実施の形態1に係る音声符号化システム200の構成を示すブロック図である。ここでは、まず、符号化器側について説明する。
LPC分析フィルタ201は、入力音声信号Sをフィルタにかけ、LPC係数および駆動音源信号eを得る。LPC係数は復号器側のLPC合成フィルタ210に送信され、駆動音源信号eは符号化器202及びFFT部203に出力される。
符号化器202は、図1に示したスペクトル振幅推定装置の構成を有し、LPC分析フィルタ201から出力された駆動音源信号eのスペクトル振幅を推定し、係数C^およびそれぞれのピーク位置Posを取得し、量子化係数C^およびピーク位置Posを復号器側の復号器206に送信する。
FFT部203は、LPC分析フィルタ201から出力された駆動音源信号eを周波数領域に変換し、複素スペクトル係数(R,I)を生成し、複素スペクトル係数を位相データ算出部204に出力する。
位相データ算出部204は、FFT部203から出力された複素スペクトル係数を用いて、駆動音源信号eの位相データΘを算出し、算出した位相データΘを位相量子化部205に出力する。
位相量子化部205は、位相データ算出部204から出力された位相データΘを量子化し、量子化位相データΦを復号器側の位相逆量子化部207に送信する。
次に、復号器側について説明する。
復号器206は、図2に示したスペクトル振幅推定復号装置の構成を有し、符号化器側の符号化器202から送信された量子化係数C^およびピーク位置Posを用いて、駆動音源信号eのスペクトル振幅推定値A^を取得し、取得したスペクトル振幅推定値A^を極矩変換部208に出力する。
位相逆量子化部207は、符号化器側の位相量子化部205から送信された量子化位相データΦを逆量子化し、位相データΘ’を取得し、極矩変換部208に出力する。
極矩変換部208は、位相逆量子化部207から出力された位相データΘ’を用いて、復号器206から出力されたスペクトル振幅推定値A^を実数および虚数形式の複素スペクトル係数(R’,I’)に変換し、IFFT部209に出力する。
IFFT部209は、極矩変換部208から出力された複素スペクトル係数を周波数領域信号から時間領域信号に変換し、推定駆動音源信号e^を取得する。取得された推定駆動音源信号e^はLPC合成フィルタ210に出力される。
LPC合成フィルタ210は、IFFT部209から出力された推定駆動音源信号e^と符号化器側のLPC分析フィルタ201から出力されたLPC係数とを用いて推定入力信号S’が合成される。
このように実施の形態1によれば、符号化器側において、駆動音源信号のスペクトル振幅にFFT処理を施してFFT変換係数を求め、求めたFFT変換係数のスペクトル振幅のピークを上位N個について位置を特定し、特定した位置に対応するFFT変換係数を選択し、復号器側において、符号化器側によって選択されたFFT変換係数を、同じく符号化器側によって特定された位置に配置してスペクトル係数を形成し、形成したスペクトル係数にIFFT処理を施すことによって、スペクトル振幅を復元することができるので、少ないFFT変換係数を用いてスペクトル振幅を表現することができる。したがって、FFT変換係数を少ないビット数で表現することができるので、ビットレートを低減することができる。
(実施の形態2)
実施の形態1では、スペクトル振幅を推定する場合について説明したが、本発明の実施の形態2では、基準信号と基準信号の推定値との差(残差信号)を符号化する場合について説明する。残差信号は、非定常状態になる傾向があるランダム信号に近いので、図4に示したスペクトルと類似している。よって、実施の形態1において説明したスペクトル振幅推定方法を応用して残差信号を推定することができる。
図6は、本発明の実施の形態2に係る残差信号推定装置300の構成を示すブロック図である。この残差信号推定装置300は、主として音声符号化装置に用いられる。この図において、FFT部301aは基準駆動音源信号eを順方向周波数変換によって周波数領
域信号に変換し、第1スペクトル振幅算出部302aに出力する。
第1スペクトル振幅算出部302aは、FFT部301aから出力された周波数領域における基準駆動音源信号のスペクトル振幅Aを算出し、算出したスペクトル振幅Aを第1対数変換部303aに出力する。
第1対数変換部303aは、第1スペクトル振幅算出部302aから出力されたスペクトル振幅Aを対数目盛に変換し、加算器304に出力する。
FFT部301bはFFT部301aと、第3スペクトル振幅算出部302bは第1スペクトル振幅算出部302aと、第2対数変換部303bは第1対数変換部303aとそれぞれ同様の処理を推定駆動音源信号e^に対して行う。
加算器304は、第1対数変換部303aから出力されたスペクトル振幅を基準値として、第2対数変換部303bから出力された推定スペクトル振幅値との差スペクトル振幅D(残差信号)を計算し、差スペクトル振幅DをFFT部104に出力する。
図7は、本発明の実施の形態2に係る推定残差信号推定復号装置350の構成を示すブロック図である。この推定残差信号推定復号装置350は、主として音声復号装置に用いられる。この図において、IFFT部153は、スペクトル係数形成部152から出力されたスペクトル係数に逆周波数変換を施すことによって、対数目盛における差スペクトル振幅の推定値D’を再構成する。再構成された差スペクトル振幅の推定値D’は加算器354に出力される。
FFT部351は、推定駆動音源信号e^を順方向周波数変換によって変換係数Ce^を形成し、スペクトル振幅算出部352に出力する。
スペクトル振幅算出部352は、FFT部351から出力された変換係数Ce^を用いて、推定駆動音源信号のスペクトル振幅A、すなわち、推定スペクトル振幅A^を算出し、算出した推定スペクトル振幅A^を対数変換部353に出力する。
対数変換部353は、スペクトル振幅算出部352から出力された推定スペクトル振幅A^を対数目盛に変換し、加算器354に出力する。
加算器354は、IFFT部153から出力された差スペクトル振幅の推定値D’と対数変換部353から出力された対数目盛のスペクトル振幅の推定値とを加算し、スペクトル振幅の強調された推定値を得る。加算器354はスペクトル振幅の強調された推定値を逆対数変換部154に出力する。
逆対数変換部154は、加算器354から出力されたスペクトル振幅の強調された推定値の逆対数をとり、スペクトル振幅を線形目盛のベクトル振幅A~に変換する。
なお、図6において差スペクトル振幅Dが対数目盛の場合、図7において、スペクトル振幅算出部352から出力されるスペクトル振幅の推定値A^をIFFT部153で求めた差スペクトル振幅の推定値D’に加算する前に対数変換部353で対数目盛に変換し、対数目盛でスペクトル振幅の強調された推定値を得るようにしなければならない。ところが、図6において差スペクトル振幅Dに対数目盛を使用しない場合、対数変換部353および逆対数変換部154を使用しないようにする。したがって、IFFT部153によって再構成された差スペクトル振幅D’をスペクトル振幅算出部352から出力されたスペクトル振幅推定値A^に直接加算してスペクトル振幅の強調推定値A~を得る。
本実施の形態では、差スペクトル振幅信号Dを全フレームに適用できるが、全フレームに適用する代わりに、差スペクトル振幅信号Dの各フレームをMサブフレームに分割し、各サブフレームに差スペクトル振幅信号Dを適用する。各サブフレームのサイズは、等分してもよいし、非線形的に分割してもよい。
ここでは、図8に示すように、低い周波数領域が小さなサブフレームを有し、高い周波数領域が大きなサブフレームを有するように1フレームを4つのサブフレームに非線形的に分割した場合を示している。このように分割した各サブフレームに差スペクトル振幅信号Dを適用する。
サブフレームを使用する利点の一つは異なる数の係数を、その重要性に基づいて異なるサブフレームに割り当てることができる点である。例えば、低い周波数領域に該当する低サブフレームは重要であるとみなされるので、高い周波数領域である高サブフレームと比較してこの領域により多くの係数を割り当てることができる。なお、図8では、低サブフレームよりも高サブフレームにより多くの係数を割り当てた場合を示している。
図9は、本発明の実施の形態2に係るステレオ音声符号化システム400の構成を示すブロック図である。このシステムの基本概念は、基準モノラルチャネルを符号化し、モノラルチャネルから左チャネルを予測または推定し、そして、右チャネルをモノラルおよび左チャネルから導き出すものである。ここでは、まず、符号化器側について説明する。
図9において、LPC分析フィルタ401は、モノラルチャネル信号Mをフィルタにかけ、モノラル駆動音源信号e、モノラルチャネルLPC係数および駆動音源パラメータを求め、モノラル駆動音源信号eを共分散推定部403に出力し、モノラルチャネルLPC係数を復号器側のLPC復号器405に送信し、駆動音源パラメータを復号器側の駆動音源信号発生器406に送信する。なお、モノラル駆動音源信号eは、左駆動音源信号の予測のためのターゲット信号となる。
LPC分析フィルタ402は左チャネル信号Lをフィルタにかけ、左駆動音源信号eおよび左チャネルLPC係数を求め、左駆動音源信号eを共分散推定部403および符号化器404に出力し、左チャネルLPC係数を復号器側のLPC復号器413に送信する。なお、左駆動音源信号eは、左チャネル駆動音源信号の予測のための基準信号として機能する。
共分散推定部403は、LPC分析フィルタ401から出力されたモノラル駆動音源信号eおよびLPC分析フィルタ402から出力された左駆動音源信号eを用いて、以下の式(1)を最小化することによって左駆動音源信号を推定し、推定した左駆動音源信号e^を符号化器404に出力する。
Figure 2007088853
ただし、Pはフィルタ長、Lは処理する信号長、βはフィルタ係数である。フィルタ係数βは復号器側の信号推定部408に送信されて左駆動音源信号の推定に使用される。
符号化器404は、図6に示した残差信号推定装置の構成を有し、LPC分析フィルタ402から出力された基準駆動音源信号eおよび共分散推定部403から出力された推
定駆動音源信号e^を用いて、変換係数C^およびピーク位置Posを求め、求めた変換係数C^およびピーク位置Posを復号器側の復号器409に送信する。
次に、復号器側について説明する。
LPC復号器405は、符号化器側のLPC分析フィルタ401から送信されたモノラルチャネルLPC係数を復号し、復号したモノラルチャネルLPC係数をLPC合成フィルタ407に出力する。
駆動音源信号発生器406は、符号化器側のLPC分析フィルタ401から送信された駆動音源パラメータを用いて、モノラル駆動音源信号eM’を発生し、LPC合成フィルタ407および信号推定部408に出力する。
LPC合成フィルタ407は、LPC復号器405から出力されたモノラルチャネルLPC係数と駆動音源信号発生器406から出力されたモノラル駆動音源信号eM’とを用いて、出力モノラル音声M’を合成し、右チャネル導出部415に出力する。
信号推定部408は、駆動音源信号発生器406から出力されたモノラル駆動音源信号eM’を符号化器側の共分散推定部403から送信されたフィルタ係数βでフィルタにかけることにより、左駆動音源信号を推定し、推定左駆動音源信号e^を復号器409および位相算出部410に出力する。
復号器409は、図7に示した推定残差信号推定復号装置の構成を有し、信号推定部408から出力された推定左駆動音原信号e^、符号化器側の符号化器404から送信された変換係数C^及びピーク位置Posを用いて、左駆動音源信号の強調スペクトル振幅A~を取得し、取得した強調スペクトル振幅A~を極矩変換部411に出力する。
位相算出部410は、信号推定部408から出力された推定左駆動音源信号e^から位相データΦを算出し、算出した位相データΦを極矩変換部411に出力する。この位相データΦは振幅A^と共にスペクトル強調駆動音源信号の極形式を形成する。
極矩変換部411は、位相算出部410から出力された位相データΦを用いて、復号器409から出力された強調スペクトル振幅A~を極形式から矩形形式に変換し、IFFT部412に出力する。
IFFT部412は、極矩変換部411から出力された矩形形式の強調スペクトル振幅を逆方向周波数変換によって周波数領域信号から時間領域信号に変換し、スペクトル強調駆動音源信号e'を形成する。スペクトル強調駆動音源e'はLPC合成フィルタ414に出力される。
LPC復号器413は、符号化器側のLPC分析フィルタ402から送信された左チャネルLPC係数を復号し、復号した左チャネルLPC係数をLPC合成フィルタ414に出力する。
LPC合成フィルタ414は、IFFT部412から出力されたスペクトル強調駆動音源信号e'およびLPC復号器413から出力された左チャネルLPC係数を用いて左チャネル信号L’を合成し、右チャネル導出部415に出力する。
右チャネル導出部415は、モノラル信号Mが符号化器側でM=1/2(L+R)によって導き出されると仮定した場合、LPC合成フィルタ407から出力された出力モノラ
ル音声M’と、LPC合成フィルタ414から出力された左チャネル信号L’との関係から右チャネル信号R’を導き出せる。すなわち、R’=2M’−L’の関係式によって右チャネル信号R’を求めることができる。
このように実施の形態2によれば、符号化器側において、基準駆動音源信号のスペクトル振幅と、推定駆動音源信号のスペクトル振幅の残差信号を符号化し、復号器側において、残差信号を復元し、復元した残差信号をスペクトル振幅推定値に加算することにより、スペクトル振幅推定値を強調し、符号化前の基準駆動音源信号のスペクトル振幅に近づけることができる。
以上、実施の形態について説明した。
上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
2006年1月31日出願の特願2006−023756の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明にかかる音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法は、スペクトル波形をモデル化し、スペクトル波形を正確に復元することができ、携帯電話やテレビ会議用機器などの通信機器に適用できる。
本発明の実施の形態1に係る音声信号用スペクトル振幅推定装置の構成を示すブロック図 本発明の実施の形態1に係るスペクトル振幅推定復号装置の構成を示すブロック図 定常信号のスペクトルを示す図 非定常信号のスペクトルを示す図 本発明の実施の形態1に係る音声符号化システムの構成を示すブロック図 本発明の実施の形態2に係る残差信号推定装置の構成を示すブロック図 本発明の実施の形態2に係る推定残差信号推定復号装置の構成を示すブロック図 分割したサブフレームに係数を割り当てる様子を示す図 本発明の実施の形態2に係るステレオ音声符号化システムの構成を示すブロック図

Claims (9)

  1. 第1入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、
    前記周波数領域信号の第1スペクトル振幅を算出する第1算出手段と、
    前記第1スペクトル振幅に周波数変換を施し、第2スペクトル振幅を算出する第2算出手段と、
    前記第2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、
    特定された前記ピーク位置に該当する前記第2スペクトル振幅の変換係数を選択する選択手段と、
    選択された前記変換係数を量子化する量子化手段と、
    を具備する音声符号化装置。
  2. 前記第1スペクトル振幅は、対数値である請求項1に記載の音声符号化装置。
  3. 前記第1スペクトル振幅は、絶対値である請求項1に記載の音声符号化装置。
  4. 前記量子化手段は、スカラー量子化又はベクター量子化によって量子化する請求項1に記載の音声符号化装置。
  5. 入力信号に2回の周波数変換を施して得られた変換係数のうち、上位複数の量子化された変換係数を取得し、取得した変換係数を逆量子化する逆量子化手段と、
    前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、
    前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、
    を具備する音声復号装置。
  6. 前記スペクトル係数形成手段は、入力信号に2回の周波数変換を施して得られた変換係数から選択された上位複数の変換係数の位置に前記変換係数を配置し、残りの位置に0を配置する請求項5に記載の音声復号装置。
  7. 入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、
    前記周波数領域信号の第1スペクトル振幅を算出する第1算出手段と、
    前記第1スペクトル振幅に周波数変換を施し、第2スペクトル振幅を算出する第2算出手段と、
    前記第2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、
    特定された前記ピーク位置に該当する前記第2スペクトル振幅の変換係数を選択する選択手段と、
    選択された前記変換係数を量子化する量子化手段と、
    を有する音声符号化装置と、
    量子化された前記変換係数を逆量子化する逆量子化手段と、
    前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、
    前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、
    を具備する音声復号装置と、
    を具備する音声符号化システム。
  8. 入力信号に周波数変換を施し、周波数領域信号を形成する変換工程と、
    前記周波数領域信号の第1スペクトル振幅を算出する第1算出工程と、
    前記第1スペクトル振幅に周波数変換を施し、第2スペクトル振幅を算出する第2算出工程と、
    前記第2スペクトル振幅の上位複数のピークのピーク位置を特定する特定工程と、
    特定された前記ピーク位置に該当する前記第2スペクトル振幅の変換係数を選択する選択工程と、
    選択された前記変換係数を量子化する量子化工程と、
    を具備する音声符号化方法。
  9. 入力信号に2回の周波数変換を施して得られた変換係数のうち、上位複数の量子化された変換係数を取得し、取得した変換係数を逆量子化する逆量子化工程と、
    前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成工程と、
    前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換工程と、
    を具備する音声復号方法。
JP2007556867A 2006-01-31 2007-01-30 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 Ceased JPWO2007088853A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006023756 2006-01-31
JP2006023756 2006-01-31
PCT/JP2007/051503 WO2007088853A1 (ja) 2006-01-31 2007-01-30 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Publications (1)

Publication Number Publication Date
JPWO2007088853A1 true JPWO2007088853A1 (ja) 2009-06-25

Family

ID=38327425

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007556867A Ceased JPWO2007088853A1 (ja) 2006-01-31 2007-01-30 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Country Status (3)

Country Link
US (1) US20090018824A1 (ja)
JP (1) JPWO2007088853A1 (ja)
WO (1) WO2007088853A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101107505A (zh) * 2005-01-26 2008-01-16 松下电器产业株式会社 语音编码装置和语音编码方法
WO2008016097A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
US20100332223A1 (en) * 2006-12-13 2010-12-30 Panasonic Corporation Audio decoding device and power adjusting method
JP5377287B2 (ja) * 2007-03-02 2013-12-25 パナソニック株式会社 ポストフィルタ、復号装置およびポストフィルタ処理方法
EP2128854B1 (en) * 2007-03-02 2017-07-26 III Holdings 12, LLC Audio encoding device and audio decoding device
US8554548B2 (en) * 2007-03-02 2013-10-08 Panasonic Corporation Speech decoding apparatus and speech decoding method including high band emphasis processing
WO2008132850A1 (ja) * 2007-04-25 2008-11-06 Panasonic Corporation ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
JP5404412B2 (ja) * 2007-11-01 2014-01-29 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
WO2010140306A1 (ja) * 2009-06-01 2010-12-09 三菱電機株式会社 信号処理装置
US8498874B2 (en) * 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
RU2587652C2 (ru) * 2010-11-10 2016-06-20 Конинклейке Филипс Электроникс Н.В. Способ и устройство для оценки структуры в сигнале
WO2014118152A1 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-frequency emphasis for lpc-based coding in frequency domain
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
KR102189730B1 (ko) * 2015-09-03 2020-12-14 주식회사 쏠리드 디지털 데이터 압축 및 복원 장치
US10553222B2 (en) * 2017-03-09 2020-02-04 Qualcomm Incorporated Inter-channel bandwidth extension spectral mapping and adjustment
CN108288467B (zh) * 2017-06-07 2020-07-14 腾讯科技(深圳)有限公司 一种语音识别方法、装置及语音识别引擎

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01205200A (ja) * 1988-02-12 1989-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方式
JPH03245200A (ja) * 1990-02-23 1991-10-31 Hitachi Ltd 音声情報圧縮方法
JPH0777979A (ja) * 1993-06-30 1995-03-20 Casio Comput Co Ltd 音声制御音響変調装置
JPH10228298A (ja) * 1997-02-13 1998-08-25 Taito Corp 音声信号符号化方法
JP2001177416A (ja) * 1999-12-17 2001-06-29 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータの取得方法および装置
JP2004070240A (ja) * 2002-08-09 2004-03-04 Yamaha Corp オーディオ信号の時間軸圧伸装置、方法及びプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL177950C (nl) * 1978-12-14 1986-07-16 Philips Nv Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak.
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
EP0243479A4 (en) * 1985-10-30 1989-12-13 Central Inst Deaf LANGUAGE PROCESSING ARRANGEMENT AND METHOD.
US6876953B1 (en) * 2000-04-20 2005-04-05 The United States Of America As Represented By The Secretary Of The Navy Narrowband signal processor
US7184955B2 (en) * 2002-03-25 2007-02-27 Hewlett-Packard Development Company, L.P. System and method for indexing videos based on speaker distinction
US8498422B2 (en) * 2002-04-22 2013-07-30 Koninklijke Philips N.V. Parametric multi-channel audio representation
EP1881486B1 (en) * 2002-04-22 2009-03-18 Koninklijke Philips Electronics N.V. Decoding apparatus with decorrelator unit
ATE354161T1 (de) * 2002-04-22 2007-03-15 Koninkl Philips Electronics Nv Signalsynthese
US20060100861A1 (en) * 2002-10-14 2006-05-11 Koninkijkle Phillips Electronics N.V Signal filtering
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
US7451082B2 (en) * 2003-08-27 2008-11-11 Texas Instruments Incorporated Noise-resistant utterance detector
US7630396B2 (en) * 2004-08-26 2009-12-08 Panasonic Corporation Multichannel signal coding equipment and multichannel signal decoding equipment
RU2007107348A (ru) * 2004-08-31 2008-09-10 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Устройство и способ генерирования стереосигнала
WO2006121101A1 (ja) * 2005-05-13 2006-11-16 Matsushita Electric Industrial Co., Ltd. 音声符号化装置およびスペクトル変形方法
US20070011001A1 (en) * 2005-07-11 2007-01-11 Samsung Electronics Co., Ltd. Apparatus for predicting the spectral information of voice signals and a method therefor
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01205200A (ja) * 1988-02-12 1989-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方式
JPH03245200A (ja) * 1990-02-23 1991-10-31 Hitachi Ltd 音声情報圧縮方法
JPH0777979A (ja) * 1993-06-30 1995-03-20 Casio Comput Co Ltd 音声制御音響変調装置
JPH10228298A (ja) * 1997-02-13 1998-08-25 Taito Corp 音声信号符号化方法
JP2001177416A (ja) * 1999-12-17 2001-06-29 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータの取得方法および装置
JP2004070240A (ja) * 2002-08-09 2004-03-04 Yamaha Corp オーディオ信号の時間軸圧伸装置、方法及びプログラム

Also Published As

Publication number Publication date
WO2007088853A1 (ja) 2007-08-09
US20090018824A1 (en) 2009-01-15

Similar Documents

Publication Publication Date Title
JPWO2007088853A1 (ja) 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
US7769584B2 (en) Encoder, decoder, encoding method, and decoding method
RU2502138C2 (ru) Кодирующее устройство, декодирующее устройство и способ
JP5413839B2 (ja) 符号化装置および復号装置
JP4859670B2 (ja) 音声符号化装置および音声符号化方法
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
JP4606418B2 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
EP1801783B1 (en) Scalable encoding device, scalable decoding device, and method thereof
JP5695074B2 (ja) 音声符号化装置および音声復号化装置
RU2462770C2 (ru) Устройство кодирования и способ кодирования
US8386267B2 (en) Stereo signal encoding device, stereo signal decoding device and methods for them
JP5809066B2 (ja) 音声符号化装置および音声符号化方法
KR20070085532A (ko) 스테레오 부호화 장치, 스테레오 복호 장치 및 그 방법
EP1801782A1 (en) Scalable encoding apparatus and scalable encoding method
US20100017197A1 (en) Voice coding device, voice decoding device and their methods
JPWO2008132850A1 (ja) ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JPWO2010140350A1 (ja) ダウンミックス装置、符号化装置、及びこれらの方法
JPWO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法
JPWO2009125588A1 (ja) 符号化装置および符号化方法
JPWO2007037359A1 (ja) 音声符号化装置および音声符号化方法
EP4189680B9 (en) Neural network-based key generation for key-guided neural-network-based audio signal transformation
JP5774490B2 (ja) 符号化装置、復号装置およびこれらの方法
EP3252763A1 (en) Low-delay audio coding
JP2006262292A (ja) 符号化装置、復号装置、符号化方法及び復号方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20130129