JPWO2008132850A1 - ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 - Google Patents
ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 Download PDFInfo
- Publication number
- JPWO2008132850A1 JPWO2008132850A1 JP2009511690A JP2009511690A JPWO2008132850A1 JP WO2008132850 A1 JPWO2008132850 A1 JP WO2008132850A1 JP 2009511690 A JP2009511690 A JP 2009511690A JP 2009511690 A JP2009511690 A JP 2009511690A JP WO2008132850 A1 JPWO2008132850 A1 JP WO2008132850A1
- Authority
- JP
- Japan
- Prior art keywords
- signal
- frequency band
- band
- inter
- monaural signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Abstract
ビットレートを抑えつつ、ステレオ音声信号のICP(Inter-channel Prediction)予測性能を向上することができるステレオ音声符号化装置を提供する。この装置(100)において、QMF分析部(101)は、ステレオ音声信号を構成する2つのチャネル信号を複数の周波数帯域信号に分割して、モノラル信号生成部(104)は、分割周波数帯域の2つのチャネル信号の平均値をモノラル信号として生成し、パラメータ帯域構成部(102、105)それぞれは、分割周波数帯域の2つのチャネル信号およびモノラル信号それぞれに対し、周波数が低いほど周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成し、ICP分析部(106)は、分割周波数帯域のチャネル信号とモノラル信号とを用いてチャネル間予測を行う。
Description
本発明は、ステレオ音声信号に対し符号化を施すステレオ音声符号化装置、これに対応するステレオ音声復号装置、およびこれらの方法に関する。
携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在、モノラル方式による通信(モノラル通信)が主流である。しかし、今後、第4世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、音声通信においてもステレオ方式による通信(ステレオ通信)が普及することが期待される。
例えば、音楽をHDD(ハードディスク)搭載の携帯オーディオプレーヤに記録し、このプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽しむユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音声通信を行うライフスタイルが一般的になることが予想される。
また、ステレオ通信が普及しても、依然としてモノラル通信も行われると予想される。何故なら、モノラル通信は低ビットレートであるため通信コストが安くなることが期待され、また、モノラル通信のみに対応した携帯電話機は回路規模が小さいため安価となり、高品質な音声通信を望まないユーザは、モノラル通信のみに対応した携帯電話機を購入するだろうからである。よって、一つの通信システム内において、ステレオ通信に対応した携帯電話機とモノラル通信に対応した携帯電話機とが混在するようになり、通信システムは、これらステレオ通信およびモノラル通信の双方に対応する必要性が生じる。さらに、移動体通信システムでは、無線信号によって通信データをやりとりするため、伝搬路環境によっては通信データの一部を失う場合がある。そこで、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能を携帯電話機が有していれば非常に有用である。ステレオ通信およびモノラル通信の双方に対応することができ、かつ、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能として、ステレオ信号とモノラル信号とからなるスケーラブル符号化がある。
このようなスケーラブル符号化において、モノラル信号からステレオ信号を合成する技術として、例えば非特許文献1記載のMPEG2/4 AAC(Moving Picture Experts Group 2/4 Advanced Audio Coding)に使用されるISC(Intensity Stereo Coding:強度ステレオ符号化)、非特許文献2記載のMPEG4エンハンストAACまたは非特許文献3記載のMPEGサラウンドに使用されるBCC(Binaural Cue Coding:バイノーラルキュー符号化)などがある。これらの符号化においては、モノラル信号からステレオ信号の左チャネル信号および右チャネル信号を再生する際は、復号される左右両チャネル信号のエネルギ比が、符号化側において符号化された元の左右両チャネル信号のエネルギ比と等しくなるように、モノラル信号のエネルギを復号される左右両チャネル信号に配分する。また、これらの符号化において音声幅を向上するために、逆相関器を用いて、再生信号に残響成分を加える。
また、モノラル信号からステレオ信号、例えば左チャネル信号および右チャネル信号を再生する別の方法としては、モノラル信号に対しFIR(Finite Impulse Response)フィルタリング処理を行ってステレオ信号の左右両チャネル信号を再構築するチャネル間予測(ICP:Inter-channel Prediction)がある。ICPを利用して符号化を行うICP符号化に用いられるFIRフィルタのフィルタ係数は、モノラル信号とステレオ信号との平均二乗誤差が最小となるように、平均二乗誤差最小化(MSE:Least mean squared error)により求められる。このようなICP方式のステレオ符号化は、エネルギが低周波数に集中している信号、例えば音声信号の符号化に好適である。
さらに、ICP符号化においてICPの予測性能を高めるために、ICP符号化を、マルチバンド(Multiband)符号化、すなわち、ステレオ信号を、狭帯域な周波数スペクトル成分を表す複数の周波数帯域信号に分割して符号化を行う方式と組み合わせ、周波数帯域信号毎にICP符号化を行う手法が考えられる。ナイキスト定理から分かるように、狭帯域の信号は広帯域の信号よりもより低い標本化周波数しか必要としないため、周波数帯域分割により、ダウンサンプリングされた各周波数帯域毎のステレオ信号は、より少ないサンプル数で表され、ICP符号化におけるICPの予測性能を高めることができる。
「一般オーディオ符号化(General Audio Coding)-AAC、TwinVQ、BSAC」ISO/IEC 14496-3:part 3,subpart 4、2005年 「高品質オーディオのパラメータ符号化(Parametric Coding for High Quality Audio)」ISO/IEC 14496-3,2004年 「MPEGサラウンド」ISO/IEC 23003-1,2006年
「一般オーディオ符号化(General Audio Coding)-AAC、TwinVQ、BSAC」ISO/IEC 14496-3:part 3,subpart 4、2005年 「高品質オーディオのパラメータ符号化(Parametric Coding for High Quality Audio)」ISO/IEC 14496-3,2004年 「MPEGサラウンド」ISO/IEC 23003-1,2006年
しかしながら、ステレオ信号を、狭帯域な周波数スペクトル成分を表す複数の周波数帯域信号に分割し、周波数帯域毎にICP符号化を行う方法は、周波数帯域の帯域数と同じセット数のICPフィルタ係数を伝送する必要があり、符号化ビットレートが増大するという問題がある。
本発明の目的は、ステレオ音声信号を周波数帯域信号に分割しICP符号化を行う処理において、伝送が必要なICPフィルタ係数のセット数を低減し、ビットレートを抑えつつ、ステレオ音声信号のICP性能を向上させることができるステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法を提供することである。
本発明のステレオ音声符号化装置は、ステレオ音声信号を構成する2つのチャネル信号を複数の周波数帯域信号に分割する周波数帯域分割手段と、前記周波数帯域毎の2つのチャネル信号を用いてモノラル信号を生成するモノラル信号生成手段と、周波数が低いほど前記周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成するパラメータ帯域構成手段と、前記周波数帯域の2つのチャネル信号と、モノラル信号とを用いて前記パラメータ帯域毎にチャネル間予測分析を行い、チャネル間予測係数を得るチャネル間予測分析手段と、前記チャネル間予測係数を符号化するチャネル間予測係数符号化手段と、前記周波数帯域のモノラル信号を合成して全帯域のモノラル信号を生成する周波数帯域合成手段と、前記全帯域のモノラル信号を符号化するモノラル信号符号化手段と、を具備する構成を採る。
本発明のステレオ音声復号装置は、ステレオ音声信号を構成する2つのチャネル信号を用いて得られるモノラル信号が符号化されたモノラル信号符号化情報と、前記2つのチャネル信号と前記モノラル信号とが複数の周波数帯域信号に分割された2つのチャネル信号とモノラル信号とに対しチャネル間予測分析を行って得られたチャネル間予測係数が符号化されたチャネル間予測係数符号化情報と、を受信する受信手段と、前記モノラル信号符号化情報を復号し、前記モノラル信号を得るモノラル信号復号手段と、前記チャネル間予測係数符号化情報を復号し、前記チャネル間予測係数を得るチャネル間予測係数復号手段と、前記モノラル信号を複数の周波数帯域信号に分割する周波数帯域分割手段と、周波数が低いほど前記周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成するパラメータ帯域構成手段と、前記周波数帯域のモノラル信号と、前記チャネル間予測係数とを用いて前記パラメータ帯域毎にチャネル間予測合成を行い、前記周波数帯域の2つのチャネル信号を得るチャネル間予測合成手段と、前記周波数帯域毎の2つのチャネル信号から全帯域の信号を生成する周波数帯域合成手段と、を具備する構成を採る。
本発明のステレオ音声符号化方法は、ステレオ音声信号を構成する2つのチャネル信号を複数の周波数帯域信号に分割するステップと、前記周波数帯域の2つのチャネル信号を用いてモノラル信号を生成するステップと、周波数が低いほど前記周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成するステップと、前記周波数帯域の2つのチャネル信号と、モノラル信号とを用いて前記パラメータ帯域毎にチャネル間予測分析を行い、チャネル間予測係数を得るステップと、前記チャネル間予測係数を符号化するステップと、前記周波数帯域のモノラル信号を合成して全帯域のモノラル信号を生成するステップと、前記全帯域のモノラル信号を符号化するステップと、を有するようにした。
本発明によれば、符号化装置側において、伝送が必要なICPフィルタ係数のセット数を低減することでビットレートを抑えつつ、ステレオ音声信号に対するICP予測性能を向上させることができる。そしてそれにより、復号装置側において、品質の良いステレオ音声信号を復号することが可能となる。
本発明は、時間領域のステレオ音声信号を複数の周波数帯域信号に分割し、周波数が低いほど周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の周波数帯域をまとめてパラメータ帯域を構成し、パラメータ帯域毎にICP分析を行うことを、主な特徴とするものである。これにより、符号化装置側においては、伝送が必要なICPフィルタ係数のセット数が低減されるため、ビットレートを抑えつつ、ステレオ音声信号に対するICP予測性能を向上させることが可能となる。そしてそれにより、復号装置側においては、品質の良いステレオ音声信号を復号することが可能となるものである。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係るステレオ音声符号化装置100の主要な構成を示すブロック図である。以下、ステレオ信号として左チャネルおよび右チャネルの2つのチャネルからなる場合を例にとって説明する。なお、左チャネル、右チャネル、L、R、という表記は、説明の便宜上の名称であって、必ずしも、左、右、という位置的条件を限定するものではない。
図1は、本発明の実施の形態1に係るステレオ音声符号化装置100の主要な構成を示すブロック図である。以下、ステレオ信号として左チャネルおよび右チャネルの2つのチャネルからなる場合を例にとって説明する。なお、左チャネル、右チャネル、L、R、という表記は、説明の便宜上の名称であって、必ずしも、左、右、という位置的条件を限定するものではない。
図1において、ステレオ音声符号化装置100は、QMF(Quadrature Mirror Filter:直交鏡像フィルタ)分析部101、パラメータ帯域構成部102、心理音響分析部103、モノラル信号生成部104、パラメータ帯域構成部105、ICP分析部106、ICP係数量子化部107、QMF合成部108、モノラル信号符号化部109、および多重部110を備える。
QMF分析部101は、QMF分析フィルタバンクからなり、ステレオ音声符号化装置100に入力される時間領域の左チャネル信号Lおよび右チャネル信号Rを、原信号、すなわち時間領域の左チャネル信号Lおよび右チャネル信号Rの狭帯域な周波数スペクトル成分を表す複数の周波数帯域信号に分割してパラメータ帯域構成部102、心理音響分析部103、およびモノラル信号生成部104に出力する。
パラメータ帯域構成部102は、QMF分析部101から入力される分割周波数帯域の左チャネル信号L2および右チャネル信号R2の連続する複数の周波数帯域をまとめてパラメータ帯域を構成し、構成された複数のパラメータ帯域信号をICP分析部106に出力する。パラメータ帯域とは、同一の1組のICP係数を用いてICP分析が行われる複数の周波数帯域の集合を示し、パラメータ帯域構成部102は、周波数が低いほど周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の周波数帯域をまとめてパラメータ帯域を構成する。
心理音響分析部103は、QMF分析部101から入力される分割周波数帯域の左チャネル信号L2および右チャネル信号R2に対し心理音響分析を行って、チャネル間予測係数を算出するための平均二乗誤差最小化処理において、エネルギが高い周波数帯域ほど誤差評価に対する寄与をより強調するような誤差重み係数wを生成し、ICP分析部106に出力する。
モノラル信号生成部104は、QMF分析部101から入力される分割周波数帯域の左チャネル信号L2および右チャネル信号R2の平均値をモノラル信号M2として生成し、パラメータ帯域構成部105およびQMF合成部108に出力する。
パラメータ帯域構成部105は、モノラル信号生成部104から入力されるモノラル信号M2を構成する複数の周波数帯域のうち、連続する複数を用いてパラメータ帯域を構成し、構成された複数のパラメータ帯域をICP分析部106に出力する。
ICP分析部106は、心理音響分析部103から入力される誤差重み係数w、パラメータ帯域構成部102から入力される複数のパラメータ帯域における左チャネル信号L2および右チャネル信号R2、およびパラメータ帯域構成部105から入力される複数のパラメータ帯域におけるモノラル信号M2を用いてパラメータ帯域毎にICP分析を行い、得られるICP係数hpbをICP係数量子化部107に出力する。
ICP係数量子化部107は、ICP分析部106から入力されるICP係数を量子化し、得られるICP係数符号化パラメータを多重部110に出力する。
QMF合成部108は、QMF合成フィルタバンクからなり、モノラル信号生成部104から入力される分割周波数帯域のモノラル信号M2を用いた合成を行うことで全帯域のモノラル信号Mを生成してモノラル信号符号化部109に出力する。
モノラル信号符号化部109は、QMF合成部108から入力されるモノラル信号Mを符号化し、得られるモノラル信号符号化パラメータを多重部110に出力する。
多重部110は、ICP係数量子化部107から入力されるICP係数符号化パラメータと、モノラル信号符号化部109から入力されるモノラル信号符号化パラメータとを多重し、得られるビットストリームを後述のステレオ音声復号装置200に出力する。
図2は、ステレオ音声符号化装置100の各部の動作を説明するための図である。以下、図2を参照しながら、図1に示したステレオ音声符号化装置100の各部の動作について詳細に説明する。
QMF分析部101は、ステレオ音声符号化装置100に入力される左チャネル信号L(n)および右チャネル信号R(n)を複数の周波数帯域信号に分割して、図2Aに示すような左チャネル信号L2(n,b)および右チャネル信号R2(n,b)を得る。ここで、nは信号のサンプル番号を示し、bは複数の周波数帯域の帯域番号を示す(図2B、図2C、図2Dも同様)。
パラメータ帯域構成部102は、QMF分析部101で生成された、図2Aに示すような左チャネル信号L2(n,b)および右チャネル信号R2(n,b)の複数の周波数帯域を用いて、図2Bに示すようなパラメータ帯域pb1〜pb4を構成する。図2Bに示すように、パラメータ帯域構成部102は、周波数が低いほど周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の周波数帯域をまとめてパラメータ帯域を構成する。
心理音響分析部103は、QMF分析部101で生成された左チャネル信号L2および右チャネル信号R2に対し心理音響分析を行って誤差重み係数wを生成する。心理音響分析部103で生成される誤差重み係数wの詳細については後述する。
モノラル信号生成部104は、QMF分析部101で生成された左チャネル信号L2(n,b)および右チャネル信号R2(n,b)を用いて、下記の式(1)に従ってモノラル信号M2(n,b)を生成する。
M2(n,b)=(L2(n,b)+R2(n,b))/2 …(1)
M2(n,b)=(L2(n,b)+R2(n,b))/2 …(1)
図2Cは、モノラル信号生成部104で生成されるモノラル信号M2(n,b)を示す図である。図2Aおよび図2Cに示すように、モノラル信号M2(n,b)を構成する複数の周波数帯域は、左チャネル信号L2(n,b)または右チャネル信号R2(n,b)を構成する複数の周波数帯域と同様である。
パラメータ帯域構成部105は、モノラル信号生成部104で生成されるモノラル信号M2(n,b)の複数の周波数帯域を用いて複数のパラメータ帯域を構成する。図2Dは、パラメータ帯域構成部105で生成されるモノラル信号M2(n,b)の複数のパラメータ帯域を示す図である。図2Bおよび図2Dに示すように、モノラル信号M2(n,b)のパラメータ帯域を構成する方法は、左チャネル信号L2(n,b)または右チャネル信号R2(n,b)のパラメータ帯域を構成する方法と同様である。すなわち、モノラル信号M2(n,b)の各パラメータ帯域に含まれる複数の周波数帯域は、左チャネル信号L2(n,b)または右チャネル信号R2(n,b)の各パラメータ帯域に含まれる複数の周波数帯域と同様である。
ICP分析部106は、パラメータ帯域構成部102から入力される分割周波数帯域の左チャネル信号L2(n,b)および右チャネル信号R2(n,b)、およびパラメータ帯域構成部105から入力される分割周波数帯域のモノラル信号M2(n,b)を用いてパラメータ帯域毎にICP分析を行い、下記の式(2)に示す平均二乗誤差ξ(pb)を最小にするICP係数hpbを求める。
式(2)において、s2(n,b)は、分割周波数帯域の左チャネル信号L2(n,b)、または右チャネル信号R2(n,b)を示し、m(n,b)は分割周波数帯域のモノラル信号M2(n,b)を示し、iはFIRフィルタ係数の次数を示し、pbはパラメータ帯域の番号を示す。式(2)に示すように、ICP分析部106は、各パラメータ帯域pbにおいて、分割周波数帯域のモノラル信号M2(n,b)から分割周波数帯域の左チャネル信号L2(n,b)または右チャネル信号R2(n,b)を予測するFIRフィルタ係数hpb(i)をICP係数として求める。また、式(2)に示すように、同一のパラメータ帯域に含まれる複数の周波数帯域は同一の1組のICP係数を共有する。式(2)を解くと式(3)に示すhpbが得られる。
式(3)において、T(b)およびt(b)は、下記の式(4)および式(5)に示すものである。
式(6)において、α、βは、チューニング係数である。
本実施の形態に係るICP分析部106において用いられる誤差重み係数wは、心理音響分析部103で生成されたものであり、心理音響分析部103は、入力される信号のエネルギが高い帯域よりもエネルギが低い帯域が聴覚的により重要であることを考慮して、平均二乗誤差最小化処理の誤差評価に対する、エネルギがより低い帯域での寄与を強調するような誤差重み係数wを求める。式(6)に示す誤差重み係数wtはその一例である。
ICP係数量子化部107は、ICP分析部106で生成されるICP係数hpbを量子化し、ICP係数符号化パラメータを得る。
QMF合成部108は、モノラル信号生成部104で生成される分割周波数帯域毎のモノラル信号M2(n,b)を全て用いて合成し、全帯域のモノラル信号M(n)を生成する。
モノラル信号符号化部109は、QMF合成部108で生成されるモノラル信号M(n)に対しCELP(Code Excited Linear Prediction)方式の符号化を行い、モノラル信号符号化パラメータを得る。
多重部110は、ICP係数量子化部107で生成されるICP係数符号化パラメータと、モノラル信号符号化部109で生成されるモノラル信号符号化パラメータとを多重し、得られるビットストリームをステレオ音声復号装置200に出力する。
図3は、本実施の形態に係るステレオ音声復号装置200の主要な構成を示すブロック図である。
図3において、ステレオ音声復号装置200は、分離部201、モノラル信号復号部202、QMF分析部203、パラメータ帯域構成部204、ICP係数復号部205、ICP合成部206、およびQMF合成部207を備える。
分離部201は、ステレオ音声符号化装置100から伝送されるビットストリームをモノラル信号符号化パラメータおよびICP係数符号化パラメータに分離し、モノラル信号復号部202およびICP係数復号部205それぞれに出力する。
モノラル信号復号部202は、分離部201から入力されるモノラル信号符号化パラメータを用いてCELP方式の復号を行い、得られる復号モノラル信号M’(n)をQMF分析部203に出力するとともに、必要に応じてステレオ音声復号装置200の外部に出力する。
QMF分析部203は、QMF分析フィルタバンクからなり、モノラル信号復号部202から入力される時間領域のモノラル信号M’(n)を、狭帯域な周波数スペクトル成分を表す複数の周波数帯域信号に分割して、複数の周波数帯域の復号モノラル信号M2’(n、b)をパラメータ帯域構成部204に出力する。
パラメータ帯域構成部204は、ステレオ音声符号化装置100のパラメータ帯域構成部105と同様な処理を行い、QMF分析部203から入力される復号モノラル信号M2’(n,b)の複数の周波数帯域を用いて複数のパラメータ帯域を構成し、ICP合成部206に出力する。
ICP係数復号部205は、分離部201から入力されるICP係数符号化パラメータを復号し、得られる復号ICP係数hpb’をICP合成部206に出力する。
ICP合成部206は、パラメータ帯域構成部204から入力される分割周波数帯域の復号モノラル信号M2’(n,b)、およびICP係数復号部205から入力される復号ICP係数hpb’を用いてパラメータ帯域毎にICP合成処理を行い、得られる分割周波数帯域の左チャネル信号L2’(n,b)および右チャネル信号R2’(n,b)をQMF合成部207に出力する。
QMF合成部207は、QMF合成フィルタバンクからなり、ICP合成部206から入力される分割周波数帯域毎の左チャネル信号L2’(n,b)および右チャネル信号R2’(n,b)を全て用いて、全帯域の左チャネル信号L’(n)および右チャネル信号R’(n)を生成して出力する。
このように、本実施の形態によれば、ステレオ音声符号化装置は、時間領域のステレオ信号を広帯域よりも少ないサンプル数しか必要としない複数の狭帯域の周波数帯域信号に分割し、さらに連続する複数の周波数帯域を用いて構成されるパラメータ帯域を単位としてチャネル間予測を行う。したがって、連続する複数の周波数帯域において1組のチャネル間予測係数を共用することにより、周波数帯域毎にチャネル間予測を行う場合よりも、伝送が必要なチャネル予測係数セット数を低減することで、ステレオ音声符号化のビットレートをさらに抑えることができる。また、ステレオ音声符号化装置は、パラメータ帯域を構成する際に、周波数が低いほど聴覚的により重要であることを考慮し、周波数が低いほどより少ない帯域数の周波数帯域が含まれるようにパラメータ帯域を構成し、予測性能がより高いチャネル間予測を行うため、ステレオ音声符号化のビットレートを抑えつつ、符号化性能をさらに向上することができる。そして本実施の形態によるステレオ音声復号装置は、品質の良い音声信号を復号することができる。
また、本実施の形態によれば、チャネル間予測を行う際に、エネルギが高い周波数帯域ほど聴覚的により重要であることを考慮して、エネルギが高い周波数帯域ほど平均二乗誤差最小化処理の誤差評価に対する寄与をより強調する誤差重み係数を用いるため、チャネル間予測性能をさらに向上し、ステレオ音声符号化の性能をさらに向上することができ、復号装置において品質の良い復号音声信号を得ることができる。
なお、本実施の形態では、エネルギが高い周波数帯域ほど平均二乗誤差最小化処理の誤差評価に対する寄与を強調するように誤差重み係数wを求める場合を例にとって説明したが、本発明はこれに限定されず、エネルギが高い周波数帯域ほど、より高いICP次数を用いてICP分析を行っても良い。これにより、ビットレートを抑えつつICP性能、すなわちステレオ音声符号化性能を向上することができ、復号装置において品質の良い復号音声信号を得ることができる。
また、本実施の形態では、モノラル信号生成時に、左チャネル信号Lと右チャネル信号Rとの時間遅延差を考慮しない場合を例にとって説明したが、本発明はこれに限定されず、この時間遅延差を補正することによりステレオ音声符号化の精度をさらに向上することができる。図4は、このように時間遅延差を補正するステレオ音声符号化装置300の主要な構成を示すブロック図である。ステレオ音声符号化装置300は、本実施の形態に係るステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付されている。ステレオ音声符号化装置300は、位相差算出部301をさらに備える点においてステレオ音声符号化装置100と相違し、また、モノラル信号生成部304の処理の一部において、ステレオ音声符号化装置100のモノラル信号生成部104と相違する。
同じ音源からの音声が左チャネルおよび右チャネルという異なる経路を介してステレオ音声符号化システムにおける同一のマイクロホンに到達するまでには、異なる伝播時間がかかるため、左チャンネル信号Lと右チャンネル信号Rとに時間遅延差が生じる。この時間遅延差がQMF処理後の分割周波数帯域信号での1サンプル遅延内に収まれば、この時間遅延差はL2’(n,b)とR2’(n,b)との間の位相差の形式で表すことができ、位相差算出部301は、下記の式(7)に基づきこの位相差Dを算出し、モノラル信号生成部304に出力する。
式(7)において、Dは、L2’(n,b)とR2’(n,b)との間の位相差を示す。モノラル信号生成部304は、下記の式(8)に従い、式(7)に示した位相差Dが除去されたモノラル信号M2を生成する。これによりICP性能をさらに向上し、ステレオ音声符号化性能をさらに向上することができる。
また、本実施の形態では、モノラル信号を用いて左チャネル信号または右チャネル信号のチャネル間予測を行う場合を例にとって説明したが、本発明はこれに限定されず、左チャネル信号と右チャネル信号との差分信号の二分の一をサイド信号として求めて、モノラル信号からのサイド信号のチャネル間予測を行っても良い。かかる場合、ステレオ音声符号化装置400は図5に示すような構成をとり、ステレオ音声復号装置500は図6に示すような構成をとる。ステレオ音声符号化装置400およびステレオ音声復号装置500は、ステレオ音声符号化装置100(図1参照)およびステレオ音声復号装置200(図3参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付されている。ステレオ音声符号化装置400は、サイド信号生成部401をさらに備える点が主としてステレオ音声符号化装置100と相違し、ステレオ音声復号装置500は、加算部501および減算部502をさらに備える点が主としてステレオ音声復号装置200と相違する。
ステレオ音声符号化装置400において、サイド信号生成部401は、QMF分析部101から入力される左チャネル信号L2(n,b)および右チャネル信号R2(n,b)を用いて下記の式(9)に従いサイド信号F2(n,b)を求める。
F2(n,b)=(L2(n,b)−R2(n,b))/2 …(9)
F2(n,b)=(L2(n,b)−R2(n,b))/2 …(9)
ステレオ音声復号装置500において、ICP合成部206aのICP合成処理により生成される信号は復号サイド信号F2’(n,b)であり、QMF合成部207aの合成処理により生成される信号は復号サイド信号F’(n)である。また、加算部501および減算部502は、下記の式(10)および式(11)それぞれに従い左チャネル信号L’(n)および右チャネル信号R’(n)を求めて出力する。
L’(n)=M’(n)+F’(n) …(10)
R’(n)=M’(n)−F’(n) …(11)
L’(n)=M’(n)+F’(n) …(10)
R’(n)=M’(n)−F’(n) …(11)
以上のような構成としても、上記と同様に、符号化装置においては符号化性能を向上することができ、復号装置においては品質の良い音声信号を復号することが可能となる。
(実施の形態2)
図7は、本発明の実施の形態2に係るステレオ音声符号化装置600の主要な構成を示すブロック図である。なお、ステレオ音声符号化装置600は、実施の形態1に示したステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
図7は、本発明の実施の形態2に係るステレオ音声符号化装置600の主要な構成を示すブロック図である。なお、ステレオ音声符号化装置600は、実施の形態1に示したステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ音声符号化装置600は、ピッチ検出部601をさらに備え、ステレオ音声符号化装置100におけるICP分析部106およびICP係数量子化部107の代わりに、ICP/ILD(Inter-channel Level Difference)分析部606およびICP係数/ILD量子化部607を備える点において、ステレオ音声符号化装置100と相違する。また、ステレオ音声符号化装置600のパラメータ帯域構成部602と、ステレオ音声符号化装置100のパラメータ帯域構成部102とは処理の一部において相違し、それを示すために異なる符号を付す。
ピッチ検出部601は、QMF分析部101から入力される分割周波数帯域の左チャネル信号L2および右チャネル信号R2の複数の周波数帯域信号それぞれに周期性のある波形(ピッチ周期的な波形)またはピッチパルス的な波形が含まれているか否かを検出し、そのような波形が含まれている周波数帯域を「ピッチ状」、含まれていない周波数帯域を「雑音状」と分類し、分類結果をパラメータ帯域構成部602およびICP/ILD分析部606に出力する。
パラメータ帯域構成部602は、ピッチ検出部601から入力される周波数帯域の分類結果に基づき、「ピッチ状」と分類され、かつ連続する複数の周波数帯域を用いてパラメータ帯域を構成し、構成された複数のパラメータ帯域をICP/ILD分析部606に出力する。
図8は、パラメータ帯域構成部602において得られるパラメータ帯域の構成結果を例示する図である。図8において、パラメータ帯域構成部602は、連続する「ピッチ状」の複数の周波数帯域を用いてパラメータ帯域pb1〜pb4を構成する。
再び図7に戻って、ICP/ILD分析部606は、ピッチ検出部601から入力される周波数帯域の分類結果に基づき、「ピッチ状」と分類された周波数帯域に対してはステレオ音声符号化装置100のICP分析部106におけるICP分析処理と同様な処理を行い、「雑音状」と分類された周波数帯域に対してはILD分析を行う。ILD分析とは、左チャネル信号と右チャネル信号とのエネルギ比を算出する処理であり、エネルギ比のみを量子化して伝送すればよいため、ICP分析よりもビットレートをより低減できる。本実施の形態において、ICP/ILD分析部606は下記の式(12)に従って「雑音状」の周波数帯域の左チャネル信号と右チャネル信号とのエネルギ比を算出する。そして、ICP係数/ILD量子化部607において、ICP/ILD分析部606から得られた、ICP係数およびILDパラメータ(エネルギ比)を量子化して多重部110aに出力する。
ステレオ音声符号化装置600におけるILD分析処理に対応して、本実施の形態に係るステレオ音声復号装置においては下記の式(13)に従ってILD合成処理を行い分割周波数帯域の左チャネル信号L2’(n,b)を再構築する。
このように、本実施の形態によれば、ステレオ音声符号化装置は、波形の時間的変化や位相情報が符号化に重要な「ピッチ状」の周波数帯域に対してはパラメータ帯域毎にICP分析を行い、「雑音状」の周波数帯域に対しては、波形の時間的変化や位相情報はあまり重要でなく、より少ない情報量で符号化できるILD分析を行うようにすることで、符号化性能を損なうことなく、ステレオ音声符号化のビットレートをさらに低減することができる。
以上、本発明の実施の形態について説明した。
なお、上記各実施の形態において、LとRは逆でもよく、また、モノラル信号MはLとRとの平均値としたが、これに限定されず、LとRとを用いて適切に求められる代表値であれば良い。
また、上記各実施の形態におけるステレオ音声復号装置は、上記各実施の形態におけるステレオ音声符号化装置から伝送されたビットストリームを用いて処理を行うとしたが、本発明はこれに限定されず、必要なパラメータやデータを含むビットストリームであれば、必ずしも上記各実施の形態におけるステレオ音声符号化装置からのビットストリームでなくても処理は可能である。
本発明に係るステレオ音声符号化装置およびステレオ音声復号装置は、移動体通信システムにおける通信端末装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置を提供することができる。また、本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、有線方式の通信システムにおいても利用可能である。
なお、上記各実施の形態では、本発明をモノラル−ステレオのスケーラブル符号化に適用する構成を例にとって説明したが、ステレオ信号に対して帯域分割符号化を行う場合の帯域別の各符号化/復号に本発明を適用するような構成としても良い。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ音声符号化方法の処理のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のステレオ音声符号化装置等と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2007年4月25日出願の特願2007−115660の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、移動体通信システムにおける通信端末装置等の用途に適用できる。
要約書
ビットレートを抑えつつ、ステレオ音声信号のICP(Inter-channel Prediction)予測性能を向上することができるステレオ音声符号化装置を提供する。この装置(100)において、QMF分析部(101)は、ステレオ音声信号を構成する2つのチャネル信号を複数の周波数帯域信号に分割して、モノラル信号生成部(104)は、分割周波数帯域の2つのチャネル信号の平均値をモノラル信号として生成し、パラメータ帯域構成部(102、105)それぞれは、分割周波数帯域の2つのチャネル信号およびモノラル信号それぞれに対し、周波数が低いほど周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成し、ICP分析部(106)は、分割周波数帯域のチャネル信号とモノラル信号とを用いてチャネル間予測を行う。
要約書
ビットレートを抑えつつ、ステレオ音声信号のICP(Inter-channel Prediction)予測性能を向上することができるステレオ音声符号化装置を提供する。この装置(100)において、QMF分析部(101)は、ステレオ音声信号を構成する2つのチャネル信号を複数の周波数帯域信号に分割して、モノラル信号生成部(104)は、分割周波数帯域の2つのチャネル信号の平均値をモノラル信号として生成し、パラメータ帯域構成部(102、105)それぞれは、分割周波数帯域の2つのチャネル信号およびモノラル信号それぞれに対し、周波数が低いほど周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成し、ICP分析部(106)は、分割周波数帯域のチャネル信号とモノラル信号とを用いてチャネル間予測を行う。
本発明は、ステレオ音声信号に対し符号化を施すステレオ音声符号化装置、これに対応するステレオ音声復号装置、およびこれらの方法に関する。
携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在、モノラル方式による通信(モノラル通信)が主流である。しかし、今後、第4世代の移動体通信システムのように、伝送レートのさらなる高ビットレート化が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、音声通信においてもステレオ方式による通信(ステレオ通信)が普及することが期待される。
例えば、音楽をHDD(ハードディスク)搭載の携帯オーディオプレーヤに記録し、このプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽しむユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音声通信を行うライフスタイルが一般的になることが予想される。
また、ステレオ通信が普及しても、依然としてモノラル通信も行われると予想される。何故なら、モノラル通信は低ビットレートであるため通信コストが安くなることが期待され、また、モノラル通信のみに対応した携帯電話機は回路規模が小さいため安価となり、高品質な音声通信を望まないユーザは、モノラル通信のみに対応した携帯電話機を購入するだろうからである。よって、一つの通信システム内において、ステレオ通信に対応した携帯電話機とモノラル通信に対応した携帯電話機とが混在するようになり、通信システムは、これらステレオ通信およびモノラル通信の双方に対応する必要性が生じる。さらに、移動体通信システムでは、無線信号によって通信データをやりとりするため、伝搬路環境によっては通信データの一部を失う場合がある。そこで、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能を携帯電話機が有していれば非常に有用である。ステレオ通信およびモノラル通信の双方に対応することができ、かつ、通信データの一部を失っても残りの受信データから元の通信データを復元することができる機能として、ステレオ信号とモノラル信号とからなるスケーラブル符号化がある。
このようなスケーラブル符号化において、モノラル信号からステレオ信号を合成する技術として、例えば非特許文献1記載のMPEG2/4 AAC(Moving Picture Experts Group 2/4 Advanced Audio Coding)に使用されるISC(Intensity Stereo Coding:強度ステレオ符号化)、非特許文献2記載のMPEG4エンハンストAACまたは非特許文献3記載のMPEGサラウンドに使用されるBCC(Binaural Cue Coding:バイノーラルキュー符号化)などがある。これらの符号化においては、モノラル信号からステレオ信号の左チャネル信号および右チャネル信号を再生する際は、復号される左右両チャネル信号のエネルギ比が、符号化側において符号化された元の左右両チャネル信号のエネルギ比と等しくなるように、モノラル信号のエネルギを復号される左右両チャネル信号に配分する。また、これらの符号化において音声幅を向上するために、逆相関器を用いて、再生信号に残響成分を加える。
また、モノラル信号からステレオ信号、例えば左チャネル信号および右チャネル信号を再生する別の方法としては、モノラル信号に対しFIR(Finite Impulse Response)フ
ィルタリング処理を行ってステレオ信号の左右両チャネル信号を再構築するチャネル間予測(ICP:Inter-channel Prediction)がある。ICPを利用して符号化を行うICP符号化に用いられるFIRフィルタのフィルタ係数は、モノラル信号とステレオ信号との平均二乗誤差が最小となるように、平均二乗誤差最小化(MSE:Least mean squared error)により求められる。このようなICP方式のステレオ符号化は、エネルギが低周波数に集中している信号、例えば音声信号の符号化に好適である。
ィルタリング処理を行ってステレオ信号の左右両チャネル信号を再構築するチャネル間予測(ICP:Inter-channel Prediction)がある。ICPを利用して符号化を行うICP符号化に用いられるFIRフィルタのフィルタ係数は、モノラル信号とステレオ信号との平均二乗誤差が最小となるように、平均二乗誤差最小化(MSE:Least mean squared error)により求められる。このようなICP方式のステレオ符号化は、エネルギが低周波数に集中している信号、例えば音声信号の符号化に好適である。
さらに、ICP符号化においてICPの予測性能を高めるために、ICP符号化を、マルチバンド(Multiband)符号化、すなわち、ステレオ信号を、狭帯域な周波数スペクトル成分を表す複数の周波数帯域信号に分割して符号化を行う方式と組み合わせ、周波数帯域信号毎にICP符号化を行う手法が考えられる。ナイキスト定理から分かるように、狭帯域の信号は広帯域の信号よりもより低い標本化周波数しか必要としないため、周波数帯域分割により、ダウンサンプリングされた各周波数帯域毎のステレオ信号は、より少ないサンプル数で表され、ICP符号化におけるICPの予測性能を高めることができる。
「一般オーディオ符号化(General Audio Coding)-AAC、TwinVQ、BSAC」ISO/IEC 14496-3:part 3,subpart 4、2005年 「高品質オーディオのパラメータ符号化(Parametric Coding for High Quality Audio)」ISO/IEC 14496-3,2004年 「MPEGサラウンド」ISO/IEC 23003-1,2006年
「一般オーディオ符号化(General Audio Coding)-AAC、TwinVQ、BSAC」ISO/IEC 14496-3:part 3,subpart 4、2005年 「高品質オーディオのパラメータ符号化(Parametric Coding for High Quality Audio)」ISO/IEC 14496-3,2004年 「MPEGサラウンド」ISO/IEC 23003-1,2006年
しかしながら、ステレオ信号を、狭帯域な周波数スペクトル成分を表す複数の周波数帯域信号に分割し、周波数帯域毎にICP符号化を行う方法は、周波数帯域の帯域数と同じセット数のICPフィルタ係数を伝送する必要があり、符号化ビットレートが増大するという問題がある。
本発明の目的は、ステレオ音声信号を周波数帯域信号に分割しICP符号化を行う処理において、伝送が必要なICPフィルタ係数のセット数を低減し、ビットレートを抑えつつ、ステレオ音声信号のICP性能を向上させることができるステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法を提供することである。
本発明のステレオ音声符号化装置は、ステレオ音声信号を構成する2つのチャネル信号を複数の周波数帯域信号に分割する周波数帯域分割手段と、前記周波数帯域毎の2つのチャネル信号を用いてモノラル信号を生成するモノラル信号生成手段と、周波数が低いほど前記周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成するパラメータ帯域構成手段と、前記周波数帯域の2つのチャネル信号と、モノラル信号とを用いて前記パラメータ帯域毎にチャネル間予測分析を行い、チャネル間予測係数を得るチャネル間予測分析手段と、前記チャネル間予測係数を符号化するチャネル間予測係数符号化手段と、前記周波数帯域のモノラル信号を合成して全帯域のモノラル信号を生成する周波数帯域合成手段と、前記全帯域のモノラル信号を符号化するモノラル信号符号化手段と、を具備する構成を採る。
本発明のステレオ音声復号装置は、ステレオ音声信号を構成する2つのチャネル信号を用いて得られるモノラル信号が符号化されたモノラル信号符号化情報と、前記2つのチャネル信号と前記モノラル信号とが複数の周波数帯域信号に分割された2つのチャネル信号とモノラル信号とに対しチャネル間予測分析を行って得られたチャネル間予測係数が符号化されたチャネル間予測係数符号化情報と、を受信する受信手段と、前記モノラル信号符号化情報を復号し、前記モノラル信号を得るモノラル信号復号手段と、前記チャネル間予
測係数符号化情報を復号し、前記チャネル間予測係数を得るチャネル間予測係数復号手段と、前記モノラル信号を複数の周波数帯域信号に分割する周波数帯域分割手段と、周波数が低いほど前記周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成するパラメータ帯域構成手段と、前記周波数帯域のモノラル信号と、前記チャネル間予測係数とを用いて前記パラメータ帯域毎にチャネル間予測合成を行い、前記周波数帯域の2つのチャネル信号を得るチャネル間予測合成手段と、前記周波数帯域毎の2つのチャネル信号から全帯域の信号を生成する周波数帯域合成手段と、を具備する構成を採る。
測係数符号化情報を復号し、前記チャネル間予測係数を得るチャネル間予測係数復号手段と、前記モノラル信号を複数の周波数帯域信号に分割する周波数帯域分割手段と、周波数が低いほど前記周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成するパラメータ帯域構成手段と、前記周波数帯域のモノラル信号と、前記チャネル間予測係数とを用いて前記パラメータ帯域毎にチャネル間予測合成を行い、前記周波数帯域の2つのチャネル信号を得るチャネル間予測合成手段と、前記周波数帯域毎の2つのチャネル信号から全帯域の信号を生成する周波数帯域合成手段と、を具備する構成を採る。
本発明のステレオ音声符号化方法は、ステレオ音声信号を構成する2つのチャネル信号を複数の周波数帯域信号に分割するステップと、前記周波数帯域の2つのチャネル信号を用いてモノラル信号を生成するステップと、周波数が低いほど前記周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成するステップと、前記周波数帯域の2つのチャネル信号と、モノラル信号とを用いて前記パラメータ帯域毎にチャネル間予測分析を行い、チャネル間予測係数を得るステップと、前記チャネル間予測係数を符号化するステップと、前記周波数帯域のモノラル信号を合成して全帯域のモノラル信号を生成するステップと、前記全帯域のモノラル信号を符号化するステップと、を有するようにした。
本発明によれば、符号化装置側において、伝送が必要なICPフィルタ係数のセット数を低減することでビットレートを抑えつつ、ステレオ音声信号に対するICP予測性能を向上させることができる。そしてそれにより、復号装置側において、品質の良いステレオ音声信号を復号することが可能となる。
本発明は、時間領域のステレオ音声信号を複数の周波数帯域信号に分割し、周波数が低いほど周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の周波数帯域をまとめてパラメータ帯域を構成し、パラメータ帯域毎にICP分析を行うことを、主な特徴とするものである。これにより、符号化装置側においては、伝送が必要なICPフィルタ係数のセット数が低減されるため、ビットレートを抑えつつ、ステレオ音声信号に対するICP予測性能を向上させることが可能となる。そしてそれにより、復号装置側
においては、品質の良いステレオ音声信号を復号することが可能となるものである。
においては、品質の良いステレオ音声信号を復号することが可能となるものである。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係るステレオ音声符号化装置100の主要な構成を示すブロック図である。以下、ステレオ信号として左チャネルおよび右チャネルの2つのチャネルからなる場合を例にとって説明する。なお、左チャネル、右チャネル、L、R、という表記は、説明の便宜上の名称であって、必ずしも、左、右、という位置的条件を限定するものではない。
図1は、本発明の実施の形態1に係るステレオ音声符号化装置100の主要な構成を示すブロック図である。以下、ステレオ信号として左チャネルおよび右チャネルの2つのチャネルからなる場合を例にとって説明する。なお、左チャネル、右チャネル、L、R、という表記は、説明の便宜上の名称であって、必ずしも、左、右、という位置的条件を限定するものではない。
図1において、ステレオ音声符号化装置100は、QMF(Quadrature Mirror Filter:直交鏡像フィルタ)分析部101、パラメータ帯域構成部102、心理音響分析部103、モノラル信号生成部104、パラメータ帯域構成部105、ICP分析部106、ICP係数量子化部107、QMF合成部108、モノラル信号符号化部109、および多重部110を備える。
QMF分析部101は、QMF分析フィルタバンクからなり、ステレオ音声符号化装置100に入力される時間領域の左チャネル信号Lおよび右チャネル信号Rを、原信号、すなわち時間領域の左チャネル信号Lおよび右チャネル信号Rの狭帯域な周波数スペクトル成分を表す複数の周波数帯域信号に分割してパラメータ帯域構成部102、心理音響分析部103、およびモノラル信号生成部104に出力する。
パラメータ帯域構成部102は、QMF分析部101から入力される分割周波数帯域の左チャネル信号L2および右チャネル信号R2の連続する複数の周波数帯域をまとめてパラメータ帯域を構成し、構成された複数のパラメータ帯域信号をICP分析部106に出力する。パラメータ帯域とは、同一の1組のICP係数を用いてICP分析が行われる複数の周波数帯域の集合を示し、パラメータ帯域構成部102は、周波数が低いほど周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の周波数帯域をまとめてパラメータ帯域を構成する。
心理音響分析部103は、QMF分析部101から入力される分割周波数帯域の左チャネル信号L2および右チャネル信号R2に対し心理音響分析を行って、チャネル間予測係数を算出するための平均二乗誤差最小化処理において、エネルギが高い周波数帯域ほど誤差評価に対する寄与をより強調するような誤差重み係数wを生成し、ICP分析部106に出力する。
モノラル信号生成部104は、QMF分析部101から入力される分割周波数帯域の左チャネル信号L2および右チャネル信号R2の平均値をモノラル信号M2として生成し、パラメータ帯域構成部105およびQMF合成部108に出力する。
パラメータ帯域構成部105は、モノラル信号生成部104から入力されるモノラル信号M2を構成する複数の周波数帯域のうち、連続する複数を用いてパラメータ帯域を構成し、構成された複数のパラメータ帯域をICP分析部106に出力する。
ICP分析部106は、心理音響分析部103から入力される誤差重み係数w、パラメータ帯域構成部102から入力される複数のパラメータ帯域における左チャネル信号L2および右チャネル信号R2、およびパラメータ帯域構成部105から入力される複数のパラメータ帯域におけるモノラル信号M2を用いてパラメータ帯域毎にICP分析を行い、得られるICP係数hpbをICP係数量子化部107に出力する。
ICP係数量子化部107は、ICP分析部106から入力されるICP係数を量子化し、得られるICP係数符号化パラメータを多重部110に出力する。
QMF合成部108は、QMF合成フィルタバンクからなり、モノラル信号生成部104から入力される分割周波数帯域のモノラル信号M2を用いた合成を行うことで全帯域のモノラル信号Mを生成してモノラル信号符号化部109に出力する。
モノラル信号符号化部109は、QMF合成部108から入力されるモノラル信号Mを符号化し、得られるモノラル信号符号化パラメータを多重部110に出力する。
多重部110は、ICP係数量子化部107から入力されるICP係数符号化パラメータと、モノラル信号符号化部109から入力されるモノラル信号符号化パラメータとを多重し、得られるビットストリームを後述のステレオ音声復号装置200に出力する。
図2は、ステレオ音声符号化装置100の各部の動作を説明するための図である。以下、図2を参照しながら、図1に示したステレオ音声符号化装置100の各部の動作について詳細に説明する。
QMF分析部101は、ステレオ音声符号化装置100に入力される左チャネル信号L(n)および右チャネル信号R(n)を複数の周波数帯域信号に分割して、図2Aに示すような左チャネル信号L2(n,b)および右チャネル信号R2(n,b)を得る。ここで、nは信号のサンプル番号を示し、bは複数の周波数帯域の帯域番号を示す(図2B、図2C、図2Dも同様)。
パラメータ帯域構成部102は、QMF分析部101で生成された、図2Aに示すような左チャネル信号L2(n,b)および右チャネル信号R2(n,b)の複数の周波数帯域を用いて、図2Bに示すようなパラメータ帯域pb1〜pb4を構成する。図2Bに示すように、パラメータ帯域構成部102は、周波数が低いほど周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の周波数帯域をまとめてパラメータ帯域を構成する。
心理音響分析部103は、QMF分析部101で生成された左チャネル信号L2および右チャネル信号R2に対し心理音響分析を行って誤差重み係数wを生成する。心理音響分析部103で生成される誤差重み係数wの詳細については後述する。
モノラル信号生成部104は、QMF分析部101で生成された左チャネル信号L2(n,b)および右チャネル信号R2(n,b)を用いて、下記の式(1)に従ってモノラル信号M2(n,b)を生成する。
M2(n,b)=(L2(n,b)+R2(n,b))/2 …(1)
M2(n,b)=(L2(n,b)+R2(n,b))/2 …(1)
図2Cは、モノラル信号生成部104で生成されるモノラル信号M2(n,b)を示す図である。図2Aおよび図2Cに示すように、モノラル信号M2(n,b)を構成する複数の周波数帯域は、左チャネル信号L2(n,b)または右チャネル信号R2(n,b)を構成する複数の周波数帯域と同様である。
パラメータ帯域構成部105は、モノラル信号生成部104で生成されるモノラル信号M2(n,b)の複数の周波数帯域を用いて複数のパラメータ帯域を構成する。図2Dは、パラメータ帯域構成部105で生成されるモノラル信号M2(n,b)の複数のパラメータ帯域を示す図である。図2Bおよび図2Dに示すように、モノラル信号M2(n,b
)のパラメータ帯域を構成する方法は、左チャネル信号L2(n,b)または右チャネル信号R2(n,b)のパラメータ帯域を構成する方法と同様である。すなわち、モノラル信号M2(n,b)の各パラメータ帯域に含まれる複数の周波数帯域は、左チャネル信号L2(n,b)または右チャネル信号R2(n,b)の各パラメータ帯域に含まれる複数の周波数帯域と同様である。
)のパラメータ帯域を構成する方法は、左チャネル信号L2(n,b)または右チャネル信号R2(n,b)のパラメータ帯域を構成する方法と同様である。すなわち、モノラル信号M2(n,b)の各パラメータ帯域に含まれる複数の周波数帯域は、左チャネル信号L2(n,b)または右チャネル信号R2(n,b)の各パラメータ帯域に含まれる複数の周波数帯域と同様である。
ICP分析部106は、パラメータ帯域構成部102から入力される分割周波数帯域の左チャネル信号L2(n,b)および右チャネル信号R2(n,b)、およびパラメータ帯域構成部105から入力される分割周波数帯域のモノラル信号M2(n,b)を用いてパラメータ帯域毎にICP分析を行い、下記の式(2)に示す平均二乗誤差ξ(pb)を最小にするICP係数hpbを求める。
式(2)において、s2(n,b)は、分割周波数帯域の左チャネル信号L2(n,b)、または右チャネル信号R2(n,b)を示し、m(n,b)は分割周波数帯域のモノラル信号M2(n,b)を示し、iはFIRフィルタ係数の次数を示し、pbはパラメータ帯域の番号を示す。式(2)に示すように、ICP分析部106は、各パラメータ帯域pbにおいて、分割周波数帯域のモノラル信号M2(n,b)から分割周波数帯域の左チャネル信号L2(n,b)または右チャネル信号R2(n,b)を予測するFIRフィルタ係数hpb(i)をICP係数として求める。また、式(2)に示すように、同一のパラメータ帯域に含まれる複数の周波数帯域は同一の1組のICP係数を共有する。式(2)を解くと式(3)に示すhpbが得られる。
式(3)において、T(b)およびt(b)は、下記の式(4)および式(5)に示すものである。
式(6)において、α、βは、チューニング係数である。
本実施の形態に係るICP分析部106において用いられる誤差重み係数wは、心理音響分析部103で生成されたものであり、心理音響分析部103は、入力される信号のエネルギが高い帯域よりもエネルギが低い帯域が聴覚的により重要であることを考慮して、平均二乗誤差最小化処理の誤差評価に対する、エネルギがより低い帯域での寄与を強調するような誤差重み係数wを求める。式(6)に示す誤差重み係数wtはその一例である。
ICP係数量子化部107は、ICP分析部106で生成されるICP係数hpbを量子化し、ICP係数符号化パラメータを得る。
QMF合成部108は、モノラル信号生成部104で生成される分割周波数帯域毎のモノラル信号M2(n,b)を全て用いて合成し、全帯域のモノラル信号M(n)を生成する。
モノラル信号符号化部109は、QMF合成部108で生成されるモノラル信号M(n)に対しCELP(Code Excited Linear Prediction)方式の符号化を行い、モノラル信号符号化パラメータを得る。
多重部110は、ICP係数量子化部107で生成されるICP係数符号化パラメータと、モノラル信号符号化部109で生成されるモノラル信号符号化パラメータとを多重し、得られるビットストリームをステレオ音声復号装置200に出力する。
図3は、本実施の形態に係るステレオ音声復号装置200の主要な構成を示すブロック図である。
図3において、ステレオ音声復号装置200は、分離部201、モノラル信号復号部202、QMF分析部203、パラメータ帯域構成部204、ICP係数復号部205、ICP合成部206、およびQMF合成部207を備える。
分離部201は、ステレオ音声符号化装置100から伝送されるビットストリームをモノラル信号符号化パラメータおよびICP係数符号化パラメータに分離し、モノラル信号復号部202およびICP係数復号部205それぞれに出力する。
モノラル信号復号部202は、分離部201から入力されるモノラル信号符号化パラメータを用いてCELP方式の復号を行い、得られる復号モノラル信号M’(n)をQMF
分析部203に出力するとともに、必要に応じてステレオ音声復号装置200の外部に出力する。
分析部203に出力するとともに、必要に応じてステレオ音声復号装置200の外部に出力する。
QMF分析部203は、QMF分析フィルタバンクからなり、モノラル信号復号部202から入力される時間領域のモノラル信号M’(n)を、狭帯域な周波数スペクトル成分を表す複数の周波数帯域信号に分割して、複数の周波数帯域の復号モノラル信号M2’(n、b)をパラメータ帯域構成部204に出力する。
パラメータ帯域構成部204は、ステレオ音声符号化装置100のパラメータ帯域構成部105と同様な処理を行い、QMF分析部203から入力される復号モノラル信号M2’(n,b)の複数の周波数帯域を用いて複数のパラメータ帯域を構成し、ICP合成部206に出力する。
ICP係数復号部205は、分離部201から入力されるICP係数符号化パラメータを復号し、得られる復号ICP係数hpb’をICP合成部206に出力する。
ICP合成部206は、パラメータ帯域構成部204から入力される分割周波数帯域の復号モノラル信号M2’(n,b)、およびICP係数復号部205から入力される復号ICP係数hpb’を用いてパラメータ帯域毎にICP合成処理を行い、得られる分割周波数帯域の左チャネル信号L2’(n,b)および右チャネル信号R2’(n,b)をQMF合成部207に出力する。
QMF合成部207は、QMF合成フィルタバンクからなり、ICP合成部206から入力される分割周波数帯域毎の左チャネル信号L2’(n,b)および右チャネル信号R2’(n,b)を全て用いて、全帯域の左チャネル信号L’(n)および右チャネル信号R’(n)を生成して出力する。
このように、本実施の形態によれば、ステレオ音声符号化装置は、時間領域のステレオ信号を広帯域よりも少ないサンプル数しか必要としない複数の狭帯域の周波数帯域信号に分割し、さらに連続する複数の周波数帯域を用いて構成されるパラメータ帯域を単位としてチャネル間予測を行う。したがって、連続する複数の周波数帯域において1組のチャネル間予測係数を共用することにより、周波数帯域毎にチャネル間予測を行う場合よりも、伝送が必要なチャネル予測係数セット数を低減することで、ステレオ音声符号化のビットレートをさらに抑えることができる。また、ステレオ音声符号化装置は、パラメータ帯域を構成する際に、周波数が低いほど聴覚的により重要であることを考慮し、周波数が低いほどより少ない帯域数の周波数帯域が含まれるようにパラメータ帯域を構成し、予測性能がより高いチャネル間予測を行うため、ステレオ音声符号化のビットレートを抑えつつ、符号化性能をさらに向上することができる。そして本実施の形態によるステレオ音声復号装置は、品質の良い音声信号を復号することができる。
また、本実施の形態によれば、チャネル間予測を行う際に、エネルギが高い周波数帯域ほど聴覚的により重要であることを考慮して、エネルギが高い周波数帯域ほど平均二乗誤差最小化処理の誤差評価に対する寄与をより強調する誤差重み係数を用いるため、チャネル間予測性能をさらに向上し、ステレオ音声符号化の性能をさらに向上することができ、復号装置において品質の良い復号音声信号を得ることができる。
なお、本実施の形態では、エネルギが高い周波数帯域ほど平均二乗誤差最小化処理の誤差評価に対する寄与を強調するように誤差重み係数wを求める場合を例にとって説明したが、本発明はこれに限定されず、エネルギが高い周波数帯域ほど、より高いICP次数を用いてICP分析を行っても良い。これにより、ビットレートを抑えつつICP性能、す
なわちステレオ音声符号化性能を向上することができ、復号装置において品質の良い復号音声信号を得ることができる。
なわちステレオ音声符号化性能を向上することができ、復号装置において品質の良い復号音声信号を得ることができる。
また、本実施の形態では、モノラル信号生成時に、左チャネル信号Lと右チャネル信号Rとの時間遅延差を考慮しない場合を例にとって説明したが、本発明はこれに限定されず、この時間遅延差を補正することによりステレオ音声符号化の精度をさらに向上することができる。図4は、このように時間遅延差を補正するステレオ音声符号化装置300の主要な構成を示すブロック図である。ステレオ音声符号化装置300は、本実施の形態に係るステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付されている。ステレオ音声符号化装置300は、位相差算出部301をさらに備える点においてステレオ音声符号化装置100と相違し、また、モノラル信号生成部304の処理の一部において、ステレオ音声符号化装置100のモノラル信号生成部104と相違する。
同じ音源からの音声が左チャネルおよび右チャネルという異なる経路を介してステレオ音声符号化システムにおける同一のマイクロホンに到達するまでには、異なる伝播時間がかかるため、左チャンネル信号Lと右チャンネル信号Rとに時間遅延差が生じる。この時間遅延差がQMF処理後の分割周波数帯域信号での1サンプル遅延内に収まれば、この時間遅延差はL2’(n,b)とR2’(n,b)との間の位相差の形式で表すことができ、位相差算出部301は、下記の式(7)に基づきこの位相差Dを算出し、モノラル信号生成部304に出力する。
式(7)において、Dは、L2’(n,b)とR2’(n,b)との間の位相差を示す。モノラル信号生成部304は、下記の式(8)に従い、式(7)に示した位相差Dが除去されたモノラル信号M2を生成する。これによりICP性能をさらに向上し、ステレオ音声符号化性能をさらに向上することができる。
また、本実施の形態では、モノラル信号を用いて左チャネル信号または右チャネル信号のチャネル間予測を行う場合を例にとって説明したが、本発明はこれに限定されず、左チャネル信号と右チャネル信号との差分信号の二分の一をサイド信号として求めて、モノラル信号からのサイド信号のチャネル間予測を行っても良い。かかる場合、ステレオ音声符号化装置400は図5に示すような構成をとり、ステレオ音声復号装置500は図6に示すような構成をとる。ステレオ音声符号化装置400およびステレオ音声復号装置500は、ステレオ音声符号化装置100(図1参照)およびステレオ音声復号装置200(図3参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付されている。ステレオ音声符号化装置400は、サイド信号生成部401をさらに備える点が主としてステレオ音声符号化装置100と相違し、ステレオ音声復号装置500は、加算部501および減算部502をさらに備える点が主としてステレオ音声復号装置200と相違する。
ステレオ音声符号化装置400において、サイド信号生成部401は、QMF分析部101から入力される左チャネル信号L2(n,b)および右チャネル信号R2(n,b)を用いて下記の式(9)に従いサイド信号F2(n,b)を求める。
F2(n,b)=(L2(n,b)−R2(n,b))/2 …(9)
F2(n,b)=(L2(n,b)−R2(n,b))/2 …(9)
ステレオ音声復号装置500において、ICP合成部206aのICP合成処理により生成される信号は復号サイド信号F2’(n,b)であり、QMF合成部207aの合成処理により生成される信号は復号サイド信号F’(n)である。また、加算部501および減算部502は、下記の式(10)および式(11)それぞれに従い左チャネル信号L’(n)および右チャネル信号R’(n)を求めて出力する。
L’(n)=M’(n)+F’(n) …(10)
R’(n)=M’(n)−F’(n) …(11)
L’(n)=M’(n)+F’(n) …(10)
R’(n)=M’(n)−F’(n) …(11)
以上のような構成としても、上記と同様に、符号化装置においては符号化性能を向上することができ、復号装置においては品質の良い音声信号を復号することが可能となる。
(実施の形態2)
図7は、本発明の実施の形態2に係るステレオ音声符号化装置600の主要な構成を示すブロック図である。なお、ステレオ音声符号化装置600は、実施の形態1に示したステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
図7は、本発明の実施の形態2に係るステレオ音声符号化装置600の主要な構成を示すブロック図である。なお、ステレオ音声符号化装置600は、実施の形態1に示したステレオ音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
ステレオ音声符号化装置600は、ピッチ検出部601をさらに備え、ステレオ音声符号化装置100におけるICP分析部106およびICP係数量子化部107の代わりに、ICP/ILD(Inter-channel Level Difference)分析部606およびICP係数/ILD量子化部607を備える点において、ステレオ音声符号化装置100と相違する。また、ステレオ音声符号化装置600のパラメータ帯域構成部602と、ステレオ音声符号化装置100のパラメータ帯域構成部102とは処理の一部において相違し、それを示すために異なる符号を付す。
ピッチ検出部601は、QMF分析部101から入力される分割周波数帯域の左チャネル信号L2および右チャネル信号R2の複数の周波数帯域信号それぞれに周期性のある波形(ピッチ周期的な波形)またはピッチパルス的な波形が含まれているか否かを検出し、そのような波形が含まれている周波数帯域を「ピッチ状」、含まれていない周波数帯域を「雑音状」と分類し、分類結果をパラメータ帯域構成部602およびICP/ILD分析部606に出力する。
パラメータ帯域構成部602は、ピッチ検出部601から入力される周波数帯域の分類結果に基づき、「ピッチ状」と分類され、かつ連続する複数の周波数帯域を用いてパラメータ帯域を構成し、構成された複数のパラメータ帯域をICP/ILD分析部606に出力する。
図8は、パラメータ帯域構成部602において得られるパラメータ帯域の構成結果を例示する図である。図8において、パラメータ帯域構成部602は、連続する「ピッチ状」の複数の周波数帯域を用いてパラメータ帯域pb1〜pb4を構成する。
再び図7に戻って、ICP/ILD分析部606は、ピッチ検出部601から入力される周波数帯域の分類結果に基づき、「ピッチ状」と分類された周波数帯域に対してはステレオ音声符号化装置100のICP分析部106におけるICP分析処理と同様な処理を行い、「雑音状」と分類された周波数帯域に対してはILD分析を行う。ILD分析とは
、左チャネル信号と右チャネル信号とのエネルギ比を算出する処理であり、エネルギ比のみを量子化して伝送すればよいため、ICP分析よりもビットレートをより低減できる。本実施の形態において、ICP/ILD分析部606は下記の式(12)に従って「雑音状」の周波数帯域の左チャネル信号と右チャネル信号とのエネルギ比を算出する。そして、ICP係数/ILD量子化部607において、ICP/ILD分析部606から得られた、ICP係数およびILDパラメータ(エネルギ比)を量子化して多重部110aに出力する。
、左チャネル信号と右チャネル信号とのエネルギ比を算出する処理であり、エネルギ比のみを量子化して伝送すればよいため、ICP分析よりもビットレートをより低減できる。本実施の形態において、ICP/ILD分析部606は下記の式(12)に従って「雑音状」の周波数帯域の左チャネル信号と右チャネル信号とのエネルギ比を算出する。そして、ICP係数/ILD量子化部607において、ICP/ILD分析部606から得られた、ICP係数およびILDパラメータ(エネルギ比)を量子化して多重部110aに出力する。
ステレオ音声符号化装置600におけるILD分析処理に対応して、本実施の形態に係るステレオ音声復号装置においては下記の式(13)に従ってILD合成処理を行い分割周波数帯域の左チャネル信号L2’(n,b)を再構築する。
このように、本実施の形態によれば、ステレオ音声符号化装置は、波形の時間的変化や位相情報が符号化に重要な「ピッチ状」の周波数帯域に対してはパラメータ帯域毎にICP分析を行い、「雑音状」の周波数帯域に対しては、波形の時間的変化や位相情報はあまり重要でなく、より少ない情報量で符号化できるILD分析を行うようにすることで、符号化性能を損なうことなく、ステレオ音声符号化のビットレートをさらに低減することができる。
以上、本発明の実施の形態について説明した。
なお、上記各実施の形態において、LとRは逆でもよく、また、モノラル信号MはLとRとの平均値としたが、これに限定されず、LとRとを用いて適切に求められる代表値であれば良い。
また、上記各実施の形態におけるステレオ音声復号装置は、上記各実施の形態におけるステレオ音声符号化装置から伝送されたビットストリームを用いて処理を行うとしたが、本発明はこれに限定されず、必要なパラメータやデータを含むビットストリームであれば、必ずしも上記各実施の形態におけるステレオ音声符号化装置からのビットストリームでなくても処理は可能である。
本発明に係るステレオ音声符号化装置およびステレオ音声復号装置は、移動体通信システムにおける通信端末装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置を提供することができる。また、本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、有線方式の通信システムにおいても利用可能である。
なお、上記各実施の形態では、本発明をモノラル−ステレオのスケーラブル符号化に適用する構成を例にとって説明したが、ステレオ信号に対して帯域分割符号化を行う場合の帯域別の各符号化/復号に本発明を適用するような構成としても良い。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ音声符号化方法の処理のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のステレオ音声符号化装置等と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2007年4月25日出願の特願2007−115660の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係るステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法は、移動体通信システムにおける通信端末装置等の用途に適用できる。
Claims (6)
- ステレオ音声信号を構成する2つのチャネル信号を複数の周波数帯域信号に分割する周波数帯域分割手段と、
前記周波数帯域毎の2つのチャネル信号を用いてモノラル信号を生成するモノラル信号生成手段と、
周波数が低いほど前記周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成するパラメータ帯域構成手段と、
前記周波数帯域の2つのチャネル信号と、モノラル信号とを用いて前記パラメータ帯域毎にチャネル間予測分析を行い、チャネル間予測係数を得るチャネル間予測分析手段と、
前記チャネル間予測係数を符号化するチャネル間予測係数符号化手段と、
前記周波数帯域のモノラル信号を合成して全帯域のモノラル信号を生成する周波数帯域合成手段と、
前記全帯域のモノラル信号を符号化するモノラル信号符号化手段と、
を具備するステレオ音声符号化装置。 - 前記周波数帯域の2つのチャネル信号を用いて心理音響分析を行い誤差重み係数を生成する心理音響分析手段、
をさらに具備し、
前記チャネル間予測分析手段は、
前記誤差重み係数を用いてチャネル間予測分析を行う際に、エネルギが高い周波数帯域ほど平均二乗誤差最小化処理の誤差評価に対する寄与をより強調する、
請求項1記載のステレオ音声符号化装置。 - 前記周波数帯域の2つのチャネル信号の位相差を算出する位相差算出手段、
をさらに具備し、
前記モノラル信号生成手段は、
前記位相差を除去して前記モノラル信号を生成する、
請求項1記載のステレオ音声符号化装置。 - 前記複数の周波数帯域それぞれにピッチ周期的な波形又はピッチパルス的な波形が含まれているか否かを検出し、ピッチ周期的な波形又はピッチパルス的な波形が含まれている周波数帯域をピッチ状周波数帯域と分類し、含まれていない周波数帯域を雑音状周波数帯域と分類するピッチ検出手段、
をさらに具備し、
前記パラメータ帯域構成手段は、
前記ピッチ状周波数帯域のうち、連続する複数を用いてパラメータ帯域を構成し、
前記チャネル間予測分析手段は、
前記ピッチ状周波数帯域においては、前記2つのチャネル信号と前記モノラル信号とを用いて前記パラメータ帯域毎に前記チャネル間予測分析を行い、前記雑音状周波数帯域においては、前記2つのチャネル信号のエネルギ比を求める、
請求項1記載のステレオ音声符号化装置。 - ステレオ音声信号を構成する2つのチャネル信号を用いて得られるモノラル信号が符号化されたモノラル信号符号化情報と、前記2つのチャネル信号と前記モノラル信号とが複数の周波数帯域信号に分割された2つのチャネル信号とモノラル信号とに対しチャネル間予測分析を行って得られたチャネル間予測係数が符号化されたチャネル間予測係数符号化情報と、を受信する受信手段と、
前記モノラル信号符号化情報を復号し、前記モノラル信号を得るモノラル信号復号手段と、
前記チャネル間予測係数符号化情報を復号し、前記チャネル間予測係数を得るチャネル間予測係数復号手段と、
前記モノラル信号を複数の周波数帯域に分割する周波数帯域分割手段と、
周波数が低いほど前記周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成するパラメータ帯域構成手段と、
前記周波数帯域のモノラル信号と、前記チャネル間予測係数とを用いて前記パラメータ帯域毎にチャネル間予測合成を行い、前記周波数帯域の2つのチャネル信号を得るチャネル間予測合成手段と、
前記周波数帯域毎の2つのチャネル信号から全帯域の信号を生成する周波数帯域合成手段と、
を具備するステレオ音声復号装置。 - ステレオ音声信号を構成する2つのチャネル信号を複数の周波数帯域信号に分割するステップと、
前記周波数帯域の2つのチャネル信号を用いてモノラル信号を生成するステップと、
周波数が低いほど前記周波数帯域の含まれる帯域数が少なくなるように、1または連続する複数の前記周波数帯域をまとめてパラメータ帯域を構成するステップと、
前記周波数帯域の2つのチャネル信号と、モノラル信号とを用いて前記パラメータ帯域毎にチャネル間予測分析を行い、チャネル間予測係数を得るステップと、
前記チャネル間予測係数を符号化するステップと、
前記周波数帯域のモノラル信号を合成して全帯域のモノラル信号を生成するステップと、
前記全帯域のモノラル信号を符号化するステップと、
を具備するステレオ音声符号化方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007115660 | 2007-04-25 | ||
JP2007115660 | 2007-04-25 | ||
PCT/JP2008/001080 WO2008132850A1 (ja) | 2007-04-25 | 2008-04-24 | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2008132850A1 true JPWO2008132850A1 (ja) | 2010-07-22 |
Family
ID=39925321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009511690A Withdrawn JPWO2008132850A1 (ja) | 2007-04-25 | 2008-04-24 | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100121632A1 (ja) |
JP (1) | JPWO2008132850A1 (ja) |
WO (1) | WO2008132850A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2214163A4 (en) | 2007-11-01 | 2011-10-05 | Panasonic Corp | CODING DEVICE, DECODING DEVICE AND METHOD THEREFOR |
US8386267B2 (en) * | 2008-03-19 | 2013-02-26 | Panasonic Corporation | Stereo signal encoding device, stereo signal decoding device and methods for them |
WO2012058805A1 (en) * | 2010-11-03 | 2012-05-10 | Huawei Technologies Co., Ltd. | Parametric encoder for encoding a multi-channel audio signal |
CN102436819B (zh) * | 2011-10-25 | 2013-02-13 | 杭州微纳科技有限公司 | 无线音频压缩、解压缩方法及音频编码器和音频解码器 |
KR101662682B1 (ko) | 2012-04-05 | 2016-10-05 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 채널간 차이 추정 방법 및 공간적 오디오 코딩 장치 |
DE13750900T1 (de) * | 2013-01-08 | 2016-02-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verbesserung der Sprachverständlichkeit bei Hintergrundrauschen durch SII-abhängige Amplifikation und Kompression |
CN116741186A (zh) | 2013-04-05 | 2023-09-12 | 杜比国际公司 | 立体声音频编码器和解码器 |
KR101808810B1 (ko) * | 2013-11-27 | 2017-12-14 | 한국전자통신연구원 | 음성/무음성 구간 검출 방법 및 장치 |
CN112530444B (zh) * | 2019-09-18 | 2023-10-03 | 华为技术有限公司 | 音频编码方法和装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3271193B2 (ja) * | 1992-03-31 | 2002-04-02 | ソニー株式会社 | 音声符号化方法 |
TW295747B (ja) * | 1994-06-13 | 1997-01-11 | Sony Co Ltd | |
DE19526366A1 (de) * | 1995-07-20 | 1997-01-23 | Bosch Gmbh Robert | Verfahren zur Redundanzreduktion bei der Codierung von mehrkanaligen Signalen und Vorrichtung zur Dekodierung von redundanzreduzierten, mehrkanaligen Signalen |
US6356211B1 (en) * | 1997-05-13 | 2002-03-12 | Sony Corporation | Encoding method and apparatus and recording medium |
JPH1132399A (ja) * | 1997-05-13 | 1999-02-02 | Sony Corp | 符号化方法及び装置、並びに記録媒体 |
SE519552C2 (sv) * | 1998-09-30 | 2003-03-11 | Ericsson Telefon Ab L M | Flerkanalig signalkodning och -avkodning |
JP2004252068A (ja) * | 2003-02-19 | 2004-09-09 | Matsushita Electric Ind Co Ltd | デジタルオーディオ信号の符号化装置及び方法 |
SE0301273D0 (sv) * | 2003-04-30 | 2003-04-30 | Coding Technologies Sweden Ab | Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods |
ATE448539T1 (de) * | 2004-12-28 | 2009-11-15 | Panasonic Corp | Audiokodierungsvorrichtung und audiokodierungsmethode |
DE602006011600D1 (de) * | 2005-04-28 | 2010-02-25 | Panasonic Corp | Audiocodierungseinrichtung und audiocodierungsverfahren |
JPWO2007088853A1 (ja) * | 2006-01-31 | 2009-06-25 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
US8150702B2 (en) * | 2006-08-04 | 2012-04-03 | Panasonic Corporation | Stereo audio encoding device, stereo audio decoding device, and method thereof |
-
2008
- 2008-04-24 US US12/597,037 patent/US20100121632A1/en not_active Abandoned
- 2008-04-24 JP JP2009511690A patent/JPWO2008132850A1/ja not_active Withdrawn
- 2008-04-24 WO PCT/JP2008/001080 patent/WO2008132850A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2008132850A1 (ja) | 2008-11-06 |
US20100121632A1 (en) | 2010-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2209114B1 (en) | Speech coding/decoding apparatus/method | |
JP5171256B2 (ja) | ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法 | |
JP4606418B2 (ja) | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 | |
EP1801783B1 (en) | Scalable encoding device, scalable decoding device, and method thereof | |
JPWO2008132850A1 (ja) | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 | |
US20080126082A1 (en) | Scalable Decoding Apparatus and Scalable Encoding Apparatus | |
US20120134511A1 (en) | Multichannel audio coder and decoder | |
JP2009042734A (ja) | 符号化装置および符号化方法 | |
JP4555299B2 (ja) | スケーラブル符号化装置およびスケーラブル符号化方法 | |
US8036390B2 (en) | Scalable encoding device and scalable encoding method | |
JPWO2012066727A1 (ja) | ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法 | |
JP5355387B2 (ja) | 符号化装置および符号化方法 | |
US20100017197A1 (en) | Voice coding device, voice decoding device and their methods | |
JP4842147B2 (ja) | スケーラブル符号化装置およびスケーラブル符号化方法 | |
JP4948401B2 (ja) | スケーラブル符号化装置およびスケーラブル符号化方法 | |
JP2009042740A (ja) | 符号化装置 | |
JPWO2008132826A1 (ja) | ステレオ音声符号化装置およびステレオ音声符号化方法 | |
JPWO2008090970A1 (ja) | ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 | |
JP5774490B2 (ja) | 符号化装置、復号装置およびこれらの方法 | |
WO2011045927A1 (ja) | 符号化装置、復号装置およびこれらの方法 | |
JP2006072269A (ja) | 音声符号化装置、通信端末装置、基地局装置および音声符号化方法 | |
EP3252763A1 (en) | Low-delay audio coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110404 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20120406 |