JPWO2005064594A1 - 音声・楽音符号化装置及び音声・楽音符号化方法 - Google Patents

音声・楽音符号化装置及び音声・楽音符号化方法 Download PDF

Info

Publication number
JPWO2005064594A1
JPWO2005064594A1 JP2005516575A JP2005516575A JPWO2005064594A1 JP WO2005064594 A1 JPWO2005064594 A1 JP WO2005064594A1 JP 2005516575 A JP2005516575 A JP 2005516575A JP 2005516575 A JP2005516575 A JP 2005516575A JP WO2005064594 A1 JPWO2005064594 A1 JP WO2005064594A1
Authority
JP
Japan
Prior art keywords
signal
characteristic value
speech
musical sound
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005516575A
Other languages
English (en)
Other versions
JP4603485B2 (ja
Inventor
智史 山梨
智史 山梨
佐藤 薫
薫 佐藤
利幸 森井
利幸 森井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPWO2005064594A1 publication Critical patent/JPWO2005064594A1/ja
Application granted granted Critical
Publication of JP4603485B2 publication Critical patent/JP4603485B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

人間の聴感特性を考慮して、ベクトル量子化を行うことにより、高品質な符号化を行うことができる音声・楽音符号化装置。この音声・楽音符号化装置において、直交変換処理部(201)は、音声・楽音信号を時間成分から周波数成分へ変換する。聴感マスキング特性値算出部(203)は、音声・楽音信号から聴感マスキング特性値を求める。ベクトル量子化部(202)は、聴感マスキング特性値に基づいて、予め設定されたコードブックから求めたコードベクトルと周波数成分との距離計算方法を変えてベクトル量子化を行う。

Description

本発明は、インターネット通信に代表されるパケット通信システムや、移動通信システムなどで音声・楽音信号の伝送を行う音声・楽音符号化装置及び音声・楽音符号化方法に関する。
インターネット通信に代表されるパケット通信システムや、移動通信システムなどで音声信号を伝送する場合、伝送効率を高めるために圧縮・符号化技術が利用される。これまでに多くの音声符号化方式が開発され、近年開発された低ビットレート音声符号化方式の多くは、音声信号をスペクトル情報とスペクトルの微細構造情報とに分離し、分離したそれぞれに対して圧縮・符号化を行うという方式である。
また、IP電話に代表されるようなインターネット上での音声通話環境が整備されつつあり、音声信号を効率的に圧縮して転送する技術に対するニーズが高まっている。
特に、人間の聴感マスキング特性を利用した音声符号化に関する様々な方式が検討されている。聴感マスキングとは、ある周波数に含まれる強い信号成分が存在する時に、隣接する周波数成分が、聞こえなくなる現象でこの特性を利用して品質向上を図るものである。
これに関連した技術としては、例えば、ベクトル量子化の距離計算時に聴感マスキング特性を利用した特許文献1に記載されるような方法がある。
特許文献1の聴感マスキング特性を用いた音声符号化手法は、入力された信号の周波数成分と、コードブックが示すコードベクトルの双方が聴感マスキング領域にある場合、ベクトル量子化時の距離を0とする計算方法である。これにより、聴感マスキング領域外における距離の重みが相対的に大きくなり、より効率的に音声符号化することが可能となる。
特開平8−123490号公報(第3頁、第1図)
しかしながら、特許文献1に示す従来方法では、入力信号及びコードベクトルの限られた場合にしか適応できず音質性能が不十分であった。
本発明の目的は、上記の課題に鑑みてなされたものであり、聴感的に影響の大きい信号の劣化を抑える適切なコードベクトルを選択し、高品質な音声・楽音符号化装置及び音声・楽音符号化方法を提供することである。
上記課題を解決するために、本発明の音声・楽音符号化装置は、音声・楽音信号を時間成分から周波数成分へ変換する直交変換処理手段と、前記音声・楽音信号から聴感マスキング特性値を求める聴感マスキング特性値算出手段と、前記聴感マスキング特性値に基づいて、前記周波数成分と、予め設定されたコードブックから求めたコードベクトルと前記周波数成分と間の距離計算方法を変えてベクトル量子化を行うベクトル量子化手段と、を具備する構成を採る。
本発明によれば、聴感マスキング特性値に基づき、入力信号とコードベクトルとの距離計算方法を変えて量子化を行うことにより、聴感的に影響の大きい信号の劣化を抑える適切なコードベクトルを選択することが可能になり、入力信号の再現性を高め良好な復号化音声を得ることができる。
[図1]本発明の実施の形態1に係る音声・楽音符号化装置及び音声・楽音復号化装置を含むシステム全体のブロック構成図
[図2]本発明の実施の形態1に係る音声・楽音符号化装置のブロック構成図
[図3]本発明の実施の形態1に係る聴感マスキング特性値算出部のブロック構成図
[図4]本発明の実施の形態1に係る臨界帯域幅の構成例を示す図
[図5]本発明の実施の形態1に係るベクトル量子化部のフローチャート
[図6]本発明の実施の形態1に係る聴感マスキング特性値と符号化値とMDCT係数の相対的位置関係を説明する図
[図7]本発明の実施の形態1に係る音声・楽音復号化装置のブロック構成図
[図8]本発明の実施の形態2に係る音声・楽音符号化装置及び音声・楽音復号化装置のブロック構成図
[図9]本発明の実施の形態2に係るCELP方式の音声符号化装置の構成概要図
[図10]本発明の実施の形態2に係るCELP方式の音声復号化装置の構成概要図
[図11]本発明の実施の形態2に係る拡張レイヤ符号化部のブロック構成図
[図12]本発明の実施の形態2に係るベクトル量子化部のフローチャート
[図13]本発明の実施の形態2に係る聴感マスキング特性値と符号化値とMDCT係数の相対的位置関係を説明する図
[図14]本発明の実施の形態2に係る復号化部のブロック構成図
[図15]本発明の実施の形態3に係る音声信号送信装置及び音声信号受信装置のブロック構成図
[図16]本発明の実施の形態1に係る符号化部のフローチャート
[図17]本発明の実施の形態1に係る聴感マスキング値算出部のフローチャート
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声・楽音符号化装置及び音声・楽音復号化装置を含むシステム全体の構成を示すブロック図である。
このシステムは、入力信号を符号化する音声・楽音符号化装置101と伝送路103と受信した信号を復号化する音声・楽音復号化装置105から構成される。
なお、伝送路103は、無線LANあるいは携帯端末のパケット通信、Bluetoothなどの無線伝送路であってもよいし、ADSL、FTTHなどの有線伝送路であってもよい。
音声・楽音符号化装置101は、入力信号100を符号化し、その結果を符号化情報102として伝送路103に出力する。
音声・楽音復号化装置105は、伝送路103を介して符号化情報102を受信し、復号化し、その結果を出力信号106として出力する。
次に、音声・楽音符号化装置101の構成について図2のブロック図を用いて説明する。図2において、音声・楽音符号化装置101は、入力信号100を時間成分から周波数成分へ変換する直交変換処理部201と、入力信号100から聴感マスキング特性値を算出する聴感マスキング特性値算出部203と、インデックスと正規化されたコードベクトルの対応を示す形状コードブック204と、形状コードブック204の正規化された各コードベクトルに対応してその利得を示す利得コードブック205と、前記聴感マスキング特性値、前記形状コードブック及び利得コードブックを用いて前記周波数成分へ変換された入力信号をベクトル量子化するベクトル量子化部202とから主に構成される。
次に、図16のフローチャートの手順に従って、音声・楽音符号化装置101の動作について、詳細に説明する。
まず、入力信号のサンプリング処理について説明する。音声・楽音符号化装置101は、入力信号100をNサンプルずつ区切り(Nは自然数)、Nサンプルを1フレームとしてフレーム毎に符号化を行う。ここで、符号化の対象となる入力信号100をx(n=0、Λ、N−1)と表すこととする。nは前記区切られた入力信号である信号要素のn+1番目であることを示す。
入力信号x100は、直交変換処理部201及び聴感マスキング特性算出部203に入力される。
次に、直交変換処理部201は、前記信号要素に対応してバッファbuf(n=0、Λ、N−1)を内部に有し、式(1)によりそれぞれ0を初期値として初期化する。
Figure 2005064594
次に、直交変換処理(ステップS1601)について、直交変換処理部201における計算手順と内部バッファへのデータ出力に関して説明する。
直交変換処理部201は、入力信号x100を修正離散コサイン変換(MDCT)し、式(2)によりMDCT係数Xを求める。
Figure 2005064594
ここで、kは1フレームにおける各サンプルのインデックスを意味する。直交変換処理部201は、入力信号x100とバッファbufとを結合させたベクトルであるx’を式(3)により求める。
Figure 2005064594
次に、直交変換処理部201は、式(4)によりバッファbufを更新する。
Figure 2005064594
次に、直交変換処理部201は、MDCT係数Xをベクトル量子化部202に出力する。
次に、図2の聴感マスキング特性値算出部203の構成について、図3のブロック図を用いて説明する。
図3において、聴感マスキング特性値算出部203は、入力信号をフーリエ変換するフーリエ変換部301と、前記フーリエ変換された入力信号からパワースペクトルを算出するパワースペクトル算出部302と、入力信号から最小可聴閾値を算出する最小可聴閾値算出部304と、前記算出された最小可聴閾値をバッファリングするメモリバッファ305と、前記算出されたパワースペクトルと前記バッファリングされた最小可聴閾値から聴感マスキング値を計算する聴感マスキング値算出部303とから構成される。
次に、上記のように構成された聴感マスキング特性値算出部203における聴感マスキング特性値算出処理(ステップS1602)について、図17のフローチャートを用いて動作を説明する。
なお、聴感マスキング特性値の算出方法については、Johnston氏らによる論文(J.Johnston,″Estimation of perceptual entropy using noise masking criteria″,in Proc.ICASSP−88,May 1988,pp.2524−2527)に開示されている。
まず、フーリエ変換処理(ステップS1701)についてフーリエ変換部301の動作を説明する。
フーリエ変換部301は、入力信号x100を入力して、これを式(5)により周波数領域の信号Fに変換する。ここで、eは自然対数の底であり、kは1フレームにおける各サンプルのインデックスである。
Figure 2005064594
次に、フーリエ変換部301は、得られたFをパワースペクトル算出部302に出力する。
次に、パワースペクトル算出処理(ステップS1702)について説明する。
パワースペクトル算出部302は、前記フーリエ変換部301から出力された周波数領域の信号Fを入力とし、式(6)によりFのパワースペクトルPを求める。ただし、kは1フレームにおける各サンプルのインデックスである。
Figure 2005064594
なお、式(6)において、F Reは周波数領域の信号Fの実部であり、パワースペクトル算出部302は、式(7)によりF Reを求める。
Figure 2005064594
また、F lmは周波数領域の信号Fの虚部であり、パワースペクトル算出部302は、式(8)によりF lmを求める。
Figure 2005064594
次に、パワースペクトル算出部302は、得られたパワースペクトルPを聴感マスキング値算出部303に出力する。
次に、最小可聴閾値算出処理(ステップS1703)について説明する。
最小可聴閾値算出部304は、第1フレームにおいてのみ、式(9)により最小可聴閾値athを求める。
Figure 2005064594
次に、メモリバッファへの保存処理(ステップS1704)について説明する。
最小可聴閾値算出部304は、最小可聴閾値athをメモリバッファ305に出力する。メモリバッファ305は、入力された最小可聴閾値athを聴感マスキング値算出部303に出力する。最小可聴閾値athとは、人間の聴覚に基づき各周波数成分に対して定められ、ath以下の成分は聴感的に知覚することができないという値である。
次に、聴感マスキング値算出処理(ステップS1705)について聴感マスキング値算出部303の動作を説明する。
聴感マスキング値算出部303は、パワースペクトル算出部302から出力されたパワースペクトルPを入力し、パワースペクトルPをmの臨界帯域幅に分割する。ここで、臨界帯域幅とは、帯域雑音を増加してもその中心周波数の純音がマスクされる量が増えなくなる限界の帯域幅のことである。また、図4に、臨界帯域幅の構成例を示す。図4において、mは臨界帯域幅の総数であり、パワースペクトルPはmの臨界帯域幅に分割される。また、iは臨界帯域幅のインデックスであり、0〜m−1の値をとる。また、bh及びblは各臨界帯域幅iの最小周波数インデックス及び最大周波数インデックスである。
次に、聴感マスキング値算出部303は、パワースペクトル算出部302から出力されたパワースペクトルPを入力し、式(10)により臨界帯域幅毎に加算されたパワースペクトルBを求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(11)により拡散関数SF(t)(Spreading Function)を求める。拡散関数SF(t)とは、各周波数成分に対して、その周波数成分が近隣周波数に及ぼす影響(同時マスキング効果)を算出するために用いるものである。
Figure 2005064594
ここで、Nは定数であり、式(12)の条件を満たす範囲内で予め設定される。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(13)により臨界帯域幅毎に加算されたパワースペクトルBと拡散関数SF(t)を用い、定数Cを求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(14)により幾何平均μ を求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(15)により算術平均μ を求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(16)によりSFM(Spectral Flatness Measure)を求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(17)により定数αを求める。
Figure 2005064594
Figure 2005064594
次に、聴感マスキング値算出部303は、式(18)により臨界帯域幅毎のオフセット値Oを求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(19)により臨界帯域幅毎の聴感マスキング値Tを求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、メモリバッファ305から出力される最小可聴閾値athから、式(20)により聴感マスキング特性値Mを求め、これをベクトル量子化部202に出力する。
Figure 2005064594
次に、ベクトル量子化部202における処理であるコードブック取得処理(ステップS1603)及びベクトル量子化処理(ステップS1604)について、図5処理フローを用いて詳細に説明する。
ベクトル量子化部202は、直交変換処理部201から出力されるMDCT係数Xと前記聴感マスキング特性値算出部203から出力される聴感マスキング特性値から、形状コードブック204、及び利得コードブック205を用いて、MDCT係数Xのベクトル量子化を行い、得られた符号化情報102を、図1の伝送路103に出力する。
次に、コードブックについて説明する。
形状コードブック204は、予め作成されたN種類のN次元コードベクトルcode (j=0、Λ、N−1、k=0、Λ、N−1)から構成され、また、利得コードブック205は、予め作成されたN種類の利得コードgain(j=0、Λ、N−1)から構成される。
ステップ501では、形状コードブック204におけるコードベクトルインデックスjに0を代入し、最小誤差DistMINに十分大きな値を代入し、初期化する。
ステップ502では、形状コードブック204からN次元のコードベクトルcodekj(k=0、Λ、N−1)を読み込む。
ステップ503では、直交変換処理部201から出力されたMDCT係数Xを入力して、ステップ502の形状コードブック204で読み込んだコードベクトルcode (k=0、Λ、N−1)の利得Gainを式(21)により求める。
Figure 2005064594
ステップ504では、ステップ505の実行回数を表すcalc_countに0を代入する。
ステップ505では、聴感マスキング特性値算出部203から出力された聴感マスキング特性値Mを入力し、式(22)により一時利得temp(k−0、Λ、N−1)を求める。
Figure 2005064594
なお、式(22)において、kが|code ・Gain|≧Mの条件を満たす場合、一時利得tempにはcode が代入され、kが|code ・Gain|<Mの条件を満たす場合、一時利得tempには0が代入される。
次に、ステップ505では、式(23)により聴感マスキング値以上の要素に対する利得Gainを求める。
Figure 2005064594
ここで、全てのkにおいて一時利得tempが0の場合には利得Gainに0を代入する。また、式(24)により、利得Gainとcode から符号化値Rを求める。
Figure 2005064594
ステップ506では、calc_countに1を足し加える。
ステップ507では、calc_countと予め定められた非負の整数Nとを比較し、calc_countがNより小さい値である場合はステップ505に戻り、calc_countがN以上である場合はステップ508に進む。このように、利得Gainを繰り返し求めることにより、利得Gainを適切な値にまで収束させることができる。
ステップ508では、累積誤差Distに0を代入し、また、サンプルインデックスkに0を代入する。
次に、ステップ509、511、512、及び514において、聴感マスキング特性値Mと符号化値RとMDCT係数Xとの相対的な位置関係について場合分けを行い、場合分けの結果に応じてそれぞれステップ510、513、515、及び516で距離計算を行う。
この相対的な位置関係による場合分けを図6に示す。図6において、白い丸記号(○)は入力信号のMDCT係数Xを意味し、黒い丸記号(●)は符号化値Rを意味する。また、図6に示したものが本発明の特徴を示しているもので、聴感マスキング特性値算出部203で求めた聴感マスキング特性値+M〜0〜−Mの領域を聴感マスキング領域と呼び、入力信号のMDCT係数Xまたは符号化値Rがこの聴感マスキング領域に存在する場合の距離計算の方法を変えて計算することにより、より聴感的に近い高品質な結果を得ることができる。
ここで、図6を用いて、本発明におけるベクトル量子化時の距離計算法について説明する。図6の「場合1」に示すように入力信号のMDCT係数X(○)と符号化値R(●)のいずれかも聴感マスキング領域に存在せず、かつMDCT係数Xと符号化値Rが同符号である場合には入力信号のMDCT係数X(○)と符号化値R(●)の距離D11を単純に計算する。また、図6の「場合3」、「場合4」に示すように入力信号のMDCT係数X(○)と符号化値R(●)のいずれかが聴感マスキング領域に存在する場合には、聴感マスキング領域内の位置をM値(場合によっては、−M値)に補正してD31またはD41として計算する。また、図6の「場合2」に示すように入力信号のMDCT係数X(○)と符号化値R(●)が聴感マスキング領域をまたがって存在する場合には、聴感マスキング領域間の距離をβ・D23(βは任意の係数)と計算する。図6の「場合5」に示すように入力信号のMDCT係数X(○)と符号化値R(●)が共に聴感マスキング領域内に存在する場合には、距離D51=0として計算する。
次に、ステップ509〜ステップ517の各場合における処理について説明する。
ステップ509では、聴感マスキング特性値Mと符号化値RとMDCT係数Xとの相対的な位置関係が図6における「場合1」に該当するかどうかを式(25)の条件式により判定する。
Figure 2005064594
式(25)は、MDCT係数Xの絶対値と符号化値Rの絶対値とが共に聴感マスキング特性値M以上であり、かつ、MDCT係数Xと符号化値Rとが同符号である場合を意味する。聴感マスキング特性値MとMDCT係数Xと符号化値Rとが式(25)の条件式を満たした場合は、ステップ510に進み、式(25)の条件式を満たさない場合は、ステップ511に進む。
ステップ510では、式(26)により符号化値RとMDCT係数Xとの誤差Distを求め、累積誤差Distに誤差Distを加算し、ステップ517に進む。
Figure 2005064594
ステップ511では、聴感マスキング特性値Mと符号化値RとMDCT係数Xとの相対的な位置関係が図6における「場合5」に該当するかどうかを式(27)の条件式により判定する。
Figure 2005064594
式(27)は、MDCT係数Xの絶対値と符号化値Rの絶対値とが共に聴感マスキング特性値M以下である場合を意味する。聴感マスキング特性値MとMDCT係数Xと符号化値Rとが式(27)の条件式を満たした場合は、符号化値RとMDCT係数Xとの誤差は0とし、累積誤差Distには何も加算せずにステップ517に進み、式(27)の条件式を満たさない場合は、ステップ512に進む。
ステップ512では、聴感マスキング特性値Mと符号化値RとMDCT係数Xとの相対的な位置関係が図6における「場合2」に該当するかどうかを式(28)の条件式により判定する。
Figure 2005064594
式(28)は、MDCT係数Xの絶対値と符号化値Rの絶対値とが共に聴感マスキング特性値M以上であり、かつ、MDCT係数Xと符号化値Rとが異符号である場合を意味する。聴感マスキング特性値MとMDCT係数Xと符号化値Rとが式(28)の条件式を満たした場合は、ステップ513に進み、式(28)の条件式を満たさない場合は、ステップ514に進む。
ステップ513では、式(29)により符号化値RとMDCT係数Xとの誤差Distを求め、累積誤差Distに誤差Distを加算し、ステップ517に進む。
Figure 2005064594
ここで、βは、MDCT係数X、符号化値R及び聴感マスキング特性値Mに応じて適宜設定される値であり、1以下の値が適当であり、被験者の評価により実験的に求めた数値を採用してもよい。また、D21、D22及びD23は、それぞれ式(30)、式(31)及び式(32)により求める。
Figure 2005064594
Figure 2005064594
Figure 2005064594
ステップ514では、聴感マスキング特性値Mと符号化値RとMDCT係数Xとの相対的な位置関係が図6における「場合3」に該当するかどうかを式(33)の条件式により判定する。
Figure 2005064594
式(33)は、MDCT係数Xの絶対値が聴感マスキング特性値M以上であり、かつ、符号化値Rが聴感マスキング特性値M未満である場合を意味する。聴感マスキング特性値MとMDCT係数Xと符号化値Rとが式(33)の条件式を満たした場合は、ステップ515に進み、式(33)の条件式を満たさない場合は、ステップ516に進む。
ステップ515では、式(34)により符号化値RとMDCT係数Xとの誤差Distを求め、累積誤差Distに誤差Distを加算し、ステップ517に進む。
Figure 2005064594
ステップ516は、聴感マスキング特性値Mと符号化値RとMDCT係数Xとの相対的な位置関係が図6における「場合4」に該当し、式(35)の条件式を満たす。
Figure 2005064594
式(35)は、MDCT係数Xの絶対値が聴感マスキング特性値M未満であり、かつ、符号化値Rが聴感マスキング特性値M以上である場合を意味する。この時、ステップ516では、式(36)により符号化値RとMDCT係数Xとの誤差Distを求め、累積誤差Distに誤差Distを加算し、ステップ517に進む。
Figure 2005064594
ステップ517では、kに1を足し加える。
ステップ518では、Nとkを比較し、kがNより小さい値の場合は、ステップ509に戻る。kがNと同じ値の場合は、ステップ519に進む。
ステップ519では、累積誤差Distと最小誤差DistMINとを比較し、累積誤差Distが最小誤差DistMINより小さい値の場合は、ステップ520に進み、累積誤差Distが最小誤差DistMIN以上である場合は、ステップ521に進む。
ステップ520では、最小誤差DistMINに累積誤差Distを代入し、code_indexMINにjを代入し、誤差最小利得DistMINに利得Gainを代入し、ステップ521に進む。
ステップ521では、jに1を足し加える。
ステップ522では、コードベクトルの総数Nとjとを比較し、jがNより小さい値の場合は、ステップ502に戻る。jがN以上である場合は、ステップ523に進む。
ステップ523では、利得コードブック205からN種類の利得コードgain(d=0、Λ、N−1)を読み込み、全てのdに対して式(37)により量子化利得誤差gainerr(d=0、Λ、N−1)を求める。
Figure 2005064594
次に、ステップ523では、量子化利得誤差gainerr(d=0、Λ、N−1)を最小とするdを求め、求めたdをgain_indexMINに代入する。
ステップ524では、累積誤差Distが最小となるコードベクトルのインデックスであるcode_indexMINとステップ523で求めたgain_indexMINとを符号化情報102として、図1の伝送路103に出力し、処理を終了する。
以上が、符号化部101の処理の説明である。
次に、図1の音声・楽音復号化装置105について、図7の詳細ブロック図を用いて説明する。
形状コードブック204、利得コードブック205は、それぞれ図2で示すものと同様である。
ベクトル復号化部701は、伝送路103を介して伝送される符号化情報102を入力とし、符号化情報であるcode_indexMINとgain_indexMINとを用いて、形状コードブック204からコードベクトルcodekcode_indexMIN(k=0、Λ、N−1)を読み込み、また、利得コードブック205から利得コードgaingain_indexMINを読み込む。次に、ベクトル復号化部701は、gaingain_indexMINとcodekcode_indexMIN(k=0、Λ、N−1)とを乗算し、乗算した結果得られるgaingain_indexMIN×codekcode_indexMIN(k=0、Λ、N−1)を復号化MDCT係数として直交変換処理部702に出力する。
直交変換処理部702は、バッファbuf’を内部に有し、式(38)により初期化する。
Figure 2005064594
次に、MDCT係数復号化部701から出力される復号化MDCT係数gaingain_indexMIN×codekcode_indexMIN(k=0、Λ、N−1)を入力とし、式(39)により復号化信号Yを求める。
Figure 2005064594
ここで、X’は、復号化MDCT係数gaingain_indexMIN×codekcode_indexMIN(k=0、Λ、N−1)とバッファbuf’とを結合させたベクトルであり、式(40)により求める。
Figure 2005064594
次に、式(41)によりバッファbuf’を更新する。
Figure 2005064594
次に、復号化信号yを出力信号106として出力する。
このように、入力信号のMDCT係数を求める直交変換処理部と、聴感マスキング特性値を求める聴感マスキング特性値算出部と、聴感マスキング特性値を利用したベクトル量子化を行うベクトル量子化部とを設け、聴感マスキング特性値とMDCT係数と量子化されたMDCT係数との相対的位置関係に応じてベクトル量子化の距離計算を行うことにより、聴感的に影響の大きい信号の劣化を抑える適切なコードベクトルを選択することができ、より高品質な出力信号を得ることができる。
なお、ベクトル量子化部202において、前記場合1から場合5の各距離計算に対し聴感重み付けフィルタを適用することにより量子化することも可能である。
なお、本実施の形態では、MDCT係数の符号化を行う場合について説明したが、フーリエ変換、離散コサイン変換(DCT)、及び直交鏡像フィルタ(QMF)等の直交変換を用いて、変換後の信号(周波数パラメータ)の符号化を行う場合についても本発明は適用することができ、本実施の形態と同様の作用・効果を得ることができる。
なお、本実施の形態では、ベクトル量子化により符号化を行う場合について説明したが、本発明は符号化方法に制限はなく、例えば、分割ベクトル量子化、多段階ベクトル量子化により符号化を行ってもよい。
なお、音声・楽音符号化装置101を図16のフローチャートで示した手順をプログラムによりコンピュータで実行させてもよい。
以上説明したように、入力信号から聴感マスキング特性値を算出し、入力信号のMDCT係数、符号化値、及び聴感マスキング特性値の相対的な位置関係を全て考慮し、人の聴感に適した距離計算法を適用することにより、聴感的に影響の大きい信号の劣化を抑える適切なコードベクトルを選択することができ、入力信号を低ビットレートで量子化した場合においても、より良好な復号化音声を得ることができる。
また、特許文献1では、図6の「場合5」のみ開示されているが、本発明においては、それらに加え、「場合2」、「場合3」、及び「場合4」に示されているように全ての組合せ関係においても、聴感マスキング特性値を考慮した距離計算手法を採ることにより、入力信号のMDCT係数、符号化値及び聴感マスキング特性値の相対的な位置関係を全て考慮し、聴感に適した距離計算法を適用することで、入力信号を低ビットレートで量子化した場合においても、より良好な高品質な復号化音声を得ることができる。
また、本発明は、入力信号のMDCT係数または符号化値がこの聴感マスキング領域に存在した場合、また聴感マスキング領域を挟んで存在する場合、そのまま距離計算を行い、ベクトル量子化を行うと、実際の聴感が異なって聞こえるということに基づいたもので、ベクトル量子化の際の距離計算の方法を変えることにより、より自然な聴感を与えることができる。
(実施の形態2)
本発明の実施の形態2では、実施の形態1で説明した聴感マスキング特性値を用いたベクトル量子化をスケーラブル符号化に適用した例について説明する。
以下、本実施の形態では、基本レイヤと拡張レイヤとで構成される二階層の音声符号化/復号化方法において拡張レイヤで聴感マスキング特性値を利用したベクトル量子化を行う場合について説明する。
スケーラブル音声符号化方法とは、周波数特性に基づき複数の階層(レイヤ)に音声信号を分解し符号化する方法である。具体的には、下位レイヤの入力信号と下位レイヤの出力信号との差である残差信号を利用して各レイヤの信号を算出する。復号側ではこれら各レイヤの信号を加算し音声信号を復号する。この仕組みにより、音質を柔軟に制御できるほか、ノイズに強い音声信号の転送が可能となる。
なお、本実施の形態では、基本レイヤがCELPタイプの音声符号化/復号化を行う場合を例にして説明する。
図8は、本発明の実施の形態2に係るMDCT係数ベクトル量子化方法を利用した符号化装置及び復号化装置の構成を示すブロック図である。なお、図8において、基本レイヤ符号化部801、基本レイヤ復号化部803及び拡張レイヤ符号化部805により符号化装置が構成され、基本レイヤ復号化部808、拡張レイヤ復号化部810及び加算部812により復号化装置が構成される。
基本レイヤ符号化部801は、入力信号800をCELPタイプの音声符号化方法を用いて符号化し、基本レイヤ符号化情報802を算出する共に、それを基本レイヤ復号化部803及び伝送路807を介して基本レイヤ復号化部808に出力する。
基本レイヤ復号化部803は、CELPタイプの音声復号化方法を用いて基本レイヤ符号化情報802を復号化し、基本レイヤ復号化信号804を算出すると共に、それを拡張レイヤ符号化部805に出力する。
拡張レイヤ符号化部805は、基本レイヤ復号化部803より出力される基本レイヤ復号化信号804と、入力信号800とを入力し、聴感マスキング特性値を利用したベクトル量子化により、入力信号800と基本レイヤ復号化信号804との残差信号を符号化し、符号化によって求められる拡張レイヤ符号化情報806を、伝送路807を介して拡張レイヤ復号化部810に出力する。拡張レイヤ符号化部805についての詳細は後述する。
基本レイヤ復号化部808は、CELPタイプの音声復号化方法を用いて基本レイヤ符号化情報802を復号化し、復号化によって求められる基本レイヤ復号化信号809を加算部812に出力する。
拡張レイヤ復号化部810は、拡張レイヤ符号化情報806を復号化し、復号化によって求められる拡張レイヤ復号化信号811を加算部812に出力する。
加算部812は、基本レイヤ復号化部808から出力された基本レイヤ復号化信号809と拡張レイヤ復号化部810から出力された拡張レイヤ復号化信号811とを加算し、加算結果である音声・楽音信号を出力信号813として出力する。
次に、基本レイヤ符号化部801について図9のブロック図を用いて説明する。
基本レイヤ符号化部801の入力信号800は、前処理部901に入力される。前処理部901は、DC成分を取り除くハイパスフィルタ処理や後続する符号化処理の性能改善につながるような波形整形処理やプリエンファシス処理を行い、これらの処理後の信号(Xin)をLPC分析部902および加算部905に出力する。
LPC分析部902は、Xinを用いて線形予測分析を行い、分析結果(線形予測係数)をLPC量子化部903へ出力する。LPC量子化部903は、LPC分析部902から出力された線形予測係数(LPC)の量子化処理を行い、量子化LPCを合成フィルタ904へ出力するとともに量子化LPCを表す符号(L)を多重化部914へ出力する。
合成フィルタ904は、量子化LPCに基づくフィルタ係数により、後述する加算部911から出力される駆動音源に対してフィルタ合成を行うことにより合成信号を生成し、合成信号を加算部905へ出力する。
加算部905は、合成信号の極性を反転させてXinに加算することにより誤差信号を算出し、誤差信号を聴覚重み付け部912へ出力する。
適応音源符号帳906は、過去に加算部911によって出力された駆動音源をバッファに記憶しており、パラメータ決定部913から出力された信号により特定される過去の駆動音源から1フレーム分のサンプルを適応音源ベクトルとして切り出して乗算部909へ出力する。
量子化利得生成部907は、パラメータ決定部913から出力された信号によって特定される量子化適応音源利得と量子化固定音源利得とをそれぞれ乗算部909と乗算部910へ出力する。
固定音源符号帳908は、パラメータ決定部913から出力された信号によって特定される形状を有するパルス音源ベクトルに拡散ベクトルを乗算して得られた固定音源ベクトルを乗算部910へ出力する。
乗算部909は、量子化利得生成部907から出力された量子化適応音源利得を、適応音源符号帳906から出力された適応音源ベクトルに乗じて、加算部911へ出力する。乗算部910は、量子化利得生成部907から出力された量子化固定音源利得を、固定音源符号帳908から出力された固定音源ベクトルに乗じて、加算部911へ出力する。
加算部911は、利得乗算後の適応音源ベクトルと固定音源ベクトルとをそれぞれ乗算部909と乗算部910とから入力し、これらをベクトル加算し、加算結果である駆動音源を合成フィルタ904および適応音源符号帳906へ出力する。なお、適応音源符号帳906に入力された駆動音源は、バッファに記憶される。
聴覚重み付け部912は、加算部905から出力された誤差信号に対して聴覚的な重み付けをおこない符号化歪みとしてパラメータ決定部913へ出力する。
パラメータ決定部913は、聴覚重み付け部912から出力された符号化歪みを最小とする適応音源ベクトル、固定音源ベクトル及び量子化利得を、各々適応音源符号帳906、固定音源符号帳908及び量子化利得生成部907から選択し、選択結果を示す適応音源ベクトル符号(A)、音源利得符号(G)及び固定音源ベクトル符号(F)を多重化部914に出力する。
多重化部914は、LPC量子化部903から量子化LPCを表す符号(L)を入力し、パラメータ決定部913から適応音源ベクトルを表す符号(A)、固定音源ベクトルを表す符号(F)および量子化利得を表す符号(G)を入力し、これらの情報を多重化して基本レイヤ符号化情報802として出力する。
次に、基本レイヤ復号化部803(808)について図10を用いて説明する。
図10において、基本レイヤ復号化部803(808)に入力された基本レイヤ符号化情報802は、多重化分離部1001によって個々の符号(L、A、G、F)に分離される。分離されたLPC符号(L)はLPC復号化部1002に出力され、分離された適応音源ベクトル符号(A)は適応音源符号帳1005に出力され、分離された音源利得符号(G)は量子化利得生成部1006に出力され、分離された固定音源ベクトル符号(F)は固定音源符号帳1007へ出力される。
LPC復号化部1002は、多重化分離部1001から出力された符号(L)から量子化LPCを復号化し、合成フィルタ1003に出力する。
適応音源符号帳1005は、多重化分離部1001から出力された符号(A)で指定される過去の駆動音源から1フレーム分のサンプルを適応音源ベクトルとして取り出して乗算部1008へ出力する。
量子化利得生成部1006は、多重化分離部1001から出力された音源利得符号(G)で指定される量子化適応音源利得と量子化固定音源利得を復号化し乗算部1008及び乗算部1009へ出力する。
固定音源符号帳1007は、多重化分離部1001から出力された符号(F)で指定される固定音源ベクトルを生成し、乗算部1009へ出力する。
乗算部1008は、適応音源ベクトルに量子化適応音源利得を乗算して、加算部1010へ出力する。乗算部1009は、固定音源ベクトルに量子化固定音源利得を乗算して、加算部1010へ出力する。
加算部1010は、乗算部1008、乗算部1009から出力された利得乗算後の適応音源ベクトルと固定音源ベクトルの加算を行い、駆動音源を生成し、これを合成フィルタ1003及び適応音源符号帳1005に出力する。
合成フィルタ1003は、LPC復号化部1002によって復号化されたフィルタ係数を用いて、加算部1010から出力された駆動音源のフィルタ合成を行い、合成した信号を後処理部1004へ出力する。
後処理部1004は、合成フィルタ1003から出力された信号に対して、ホルマント強調やピッチ強調といったような音声の主観的な品質を改善する処理や、定常雑音の主観的品質を改善する処理などを施し、基本レイヤ復号化信号804(810)として出力する。
次に、拡張レイヤ符号化部805について図11を用いて説明する。
図11の拡張レイヤ符号化部805は、図2と比較して、直交変換処理部1103への入力信号が基本レイヤ復号化信号804と入力信号800との差分信号1102が入力される以外は同様であり、聴感マスキング特性値算出部203には図2と同一符号を付して説明を省略する。
拡張レイヤ符号化部805は、実施の形態1の符号化部101と同様に、入力信号800をNサンプルずつ区切り(Nは自然数)、Nサンプルを1フレームとしてフレーム毎に符号化を行う。ここで、符号化の対象となる入力信号800をx(n=0、Λ、N−1)と表すこととする。
入力信号x800は、聴感マスキング特性値算出部203、及び加算部1101に入力される。また、基本レイヤ復号化部803から出力される基本レイヤ復号化信号804は、加算部1101、及び直交変換処理部1103に入力される。
加算部1101は、式(42)により残差信号1102xresid(n=0、Λ、N−1)を求め、求めた残差信号xresid1102を直交変換処理部1103に出力する。
Figure 2005064594
ここで、xbase(n=0、Λ、N−1)は基本レイヤ復号化信号804である。次に、直交変換処理部1103の処理について説明する。
直交変換処理部1103は、基本レイヤ復号化信号xbase804の処理時に使用するバッファbufbase(n=0、Λ、N−1)と、残差信号xresid1102の処理時に使用するバッファbufresid(n=0、Λ、N−1)を内部に有し、式(43)及び式(44)によってそれぞれ初期化する。
Figure 2005064594
Figure 2005064594
次に、直交変換処理部1103は、基本レイヤ復号化信号xbase804と残差信号xresid1102とを修正離散コサイン変換(MDCT)することにより、基本レイヤ直交変換係数xbasek1104と残差直交変換係数Xresid1105とをそれぞれ求める。ここで、基本レイヤ直交変換係数xbase1104は式(45)により求める。
Figure 2005064594
ここで、xbase’は基本レイヤ復号化信号xbase804とバッファbufbaseとを結合したベクトルであり、直交変換処理部1103は、式(46)によりxbase’を求める。また、kは1フレームにおける各サンプルのインデックスである。
Figure 2005064594
次に、直交変換処理部1103は、式(47)によりバッファbufbaseを更新する。
Figure 2005064594
また、直交変換処理部1103は、式(48)により残差直交変換係数Xresid1105を求める。
Figure 2005064594
ここで、xresid’は残差信号xresid1102とバッファbufresidとを結合したベクトルであり、直交変換処理部1103は、式(49)によりxresidn’を求める。また、kは1フレームにおける各サンプルのインデックスである。
Figure 2005064594
次に、直交変換処理部1103は、式(50)によりバッファbufresidを更新する。
Figure 2005064594
次に、直交変換処理部1103は、基本レイヤ直交変換係数Xbase1104と残差直交変換係数Xresid1105とをベクトル量子化部1106に出力する。
ベクトル量子化部1106は、直交変換処理部1103から基本レイヤ直交変換係数Xbase1104と残差直交変換係数Xresid1105と、聴感マスキング特性値算出部203から聴感マスキング特性値M1107とを入力し、形状コードブック1108と利得コードブック1109とを用いて、聴感マスキング特性値を利用したベクトル量子化により残差直交変換係数Xresid1105の符号化を行い、符号化により得られる拡張レイヤ符号化情報806を出力する。
ここで、形状コードブック1108は、予め作成されたN種類のN次元コードベクトルcoderesid (e=0、Λ、N−1、k=0、Λ、N−1)から構成され、前記ベクトル量子化部1103において残差直交変換係数Xresid1105をベクトル量子化する際に用いられる。
また、利得コードブック1109は、予め作成されたN種類の残差利得コードgainresid(f=0、Λ、N−1)から構成され、前記ベクトル量子化部1106において残差直交変換係数Xresid1105をベクトル量子化する際に用いられる。
次に、ベクトル量子化部1106の処理について、図12を用いて詳細に説明する。ステップ1201では、形状コードブック1108におけるコードベクトルインデックスeに0を代入し、最小誤差DistMINを十分大きな値を代入し、初期化する。
ステップ1202では、図11の形状コードブック1108からN次元のコードベクトルcoderesid (k=0、Λ、N−1)を読み込む。
ステップ1203では、直交変換処理部1103から出力された残差直交変換係数Xresidを入力し、ステップ1202で読み込んだコードベクトルcoderesid (k=0、Λ、N−1)の利得Gainresidを式(51)により求める。
Figure 2005064594
ステップ1204では、ステップ1205の実行回数を表すcalc_countresidに0を代入する。
ステップ1205では、聴感マスキング特性値算出部203から出力された聴感マスキング特性値Mを入力とし、式(52)により一時利得temp2(k=0、Λ、N−1)を求める。
Figure 2005064594
なお、式(52)において、kが|coderesid ・Gainresid+Xbase|≧Mの条件を満たす場合、一時利得temp2にはcoderesid が代入され、kが|coderesid ・Gainresid+Xbase|<Mの条件を満たす場合、temp2には0が代入される。また、kは1フレームにおける各サンプルのインデックスである。
次に、ステップ1205では、式(53)により利得Gainresidを求める。
Figure 2005064594
ここで、全てのkにおいて一時利得temp2が0の場合には利得Gainresidに0を代入する。また、式(54)により、利得Gainresidとコードベクトルcoderesid から残差符号化値Rresidを求める。
Figure 2005064594
また、式(55)により、残差符号化値Rresidと基本レイヤ直交変換係数Xbaseから加算符号化値Rplusを求める。
Figure 2005064594
ステップ1206では、calc_countresidに1を足し加える。
ステップ1207では、calc_countresidと予め定められた非負の整数Nresidとを比較し、calc_countresidがNresidより小さい値である場合はステップ1205に戻り、calc_countresidがNresid以上である場合はステップ1208に進む。
ステップ1208では、累積誤差Distresidに0を代入し、また、kに0を代入する。また、ステップ1208では、式(56)により加算MDCT係数Xplusを求める。
Figure 2005064594
次に、ステップ1209、1211、1212、及び1214において、聴感マスキング特性値Mk1107と加算符号化値Rplusと加算MDCT係数Xplusとの相対的な位置関係について場合分けを行い、場合分けの結果に応じてそれぞれステップ1210、1213、1215、及び1216で距離計算する。この相対的な位置関係による場合分けを図13に示す。図13において、白い丸記号(○)は加算MDCT係数Xplusを意味し、黒い丸記号(●)はRplusを意味するものである。図13における考え方は、実施の形態1の図6で説明した考え方と同様である。
ステップ1209では、聴感マスキング特性値Mと加算符号化値Rplusと加算MDCT係数Xplusとの相対的な位置関係が図13における「場合1」に該当するかどうかを式(57)の条件式により判定する。
Figure 2005064594
式(57)は、加算MDCT係数Xplusの絶対値と加算符号化値Rplusの絶対値とが共に聴感マスキング特性値M以上であり、かつ、加算MDCT係数Xplusと加算符号化値Rplusとが同符号である場合を意味する。聴感マスキング特性値Mと加算MDCT係数Xplusと加算符号化値Rplusとが式(57)の条件式を満たした場合は、ステップ1210に進み、式(57)の条件式を満たさない場合は、ステップ1211に進む。
ステップ1210では、式(58)によりRplusと加算MDCT係数Xplusとの誤差Distresidを求め、累積誤差Distresidに誤差Distresidを加算し、ステップ1217に進む。
Figure 2005064594
ステップ1211では、聴感マスキング特性値Mと加算符号化値Rplusと加算MDCT係数Xplusとの相対的な位置関係が図13における「場合5」に該当するかどうかを式(59)の条件式により判定する。
Figure 2005064594
式(59)は、加算MDCT係数Xplusの絶対値と加算符号化値Rplusの絶対値とが共に聴感マスキング特性値M未満である場合を意味する。聴感マスキング特性値Mと加算符号化値Rplusと加算MDCT係数Xplusが式(59)の条件式を満たす場合、加算符号化値Rplusと加算MDCT係数Xplusとの誤差は0とし、累積誤差Distresidには何も加算せずにステップ1217に進む。聴感マスキング特性値Mと加算符号化値Rplusと加算MDCT係数Xplusが式(59)の条件式を満たさない場合は、ステップ1212に進む。
ステップ1212では、聴感マスキング特性値Mと加算符号化値Rplusと加算MDCT係数Xplusとの相対的な位置関係が図13における「場合2」に該当するかどうかを式(60)の条件式により判定する。
Figure 2005064594
式(60)は、加算MDCT係数Xplusの絶対値と加算符号化値Rplusの絶対値とが共に聴感マスキング特性値M以上であり、かつ、加算MDCT係数Xplusと加算符号化値Rplusとが異符号である場合を意味する。聴感マスキング特性値Mと加算MDCT係数Xplusと加算符号化値Rplusとが式(60)の条件式を満たした場合は、ステップ1213に進み、式(60)の条件式を満たさない場合は、ステップ1214に進む。
ステップ1213では、式(61)により加算符号化値Rplusと加算MDCT係数Xplusとの誤差Distresidを求め、累積誤差Distresidに誤差Distresidを加算し、ステップ1217に進む。
Figure 2005064594
ここで、βresidは、加算MDCT係数Xplus、加算符号化値Rplus及び聴感マスキング特性値Mに応じて適宜設定される値であり、1以下の値が適当である。また、Dresid21、Dresid22及びDresid23は、それぞれ式(62)、式(63)及び式(64)により求められる。
Figure 2005064594
Figure 2005064594
Figure 2005064594
ステップ1214では、聴感マスキング特性値Mと加算符号化値Rplusと加算MDCT係数Xplusとの相対的な位置関係が図13における「場合3」に該当するかどうかを式(65)の条件式により判定する。
Figure 2005064594
式(65)は、加算MDCT係数Xplusの絶対値が聴感マスキング特性値M以上であり、かつ、加算符号化値Rplusが聴感マスキング特性値M未満である場合を意味する。聴感マスキング特性値Mと加算MDCT係数Xplusと加算符号化値Rplusとが式(65)の条件式を満たした場合は、ステップ1215に進み、式(65)の条件式を満たさない場合は、ステップ1216に進む。
ステップ1215では、式(66)により加算符号化値Rplusと加算MDCT係数Xplusとの誤差Distresidを求め、累積誤差Distresidに誤差Distresidを加算し、ステップ1217に進む。
Figure 2005064594
ステップ1216では、聴感マスキング特性値Mと加算符号化値Rplusと加算MDCT係数Xplusとの相対的な位置関係が図13における「場合4」に該当し、式(67)の条件式を満たす。
Figure 2005064594
式(67)は、加算MDCT係数Xplusの絶対値が聴感マスキング特性値M未満であり、かつ、加算符号化値Rplusが聴感マスキング特性値M以上である場合を意味する。この時、ステップ1216は、式(68)により加算符号化値Rplusと加算MDCT係数Xplusとの誤差Distresidを求め、累積誤差Distresidに誤差Distresidを加算し、ステップ1217に進む。
Figure 2005064594
ステップ1217では、kに1を足し加える。
ステップ1218では、Nとkを比較し、kがNより小さい値の場合は、ステップ1209に戻る。kがN以上である場合は、ステップ1219に進む。
ステップ1219では、累積誤差Distresidと最小誤差DistresidMINとを比較し、累積誤差Distresidが最小誤差DistresidMINより小さい値の場合は、ステップ1220に進み、累積誤差Distresidが最小誤差DistresidMIN以上である場合は、ステップ1221に進む。
ステップ1220では、最小誤差DistresidMINに累積誤差Distresidを代入し、gainresid_indexMINにeを代入し、誤差最小利得DistresidMINに利得Distresidを代入し、ステップ1221に進む。
ステップ1221では、eに1を足し加える。
ステップ1222では、コードベクトルの総数Nとeとを比較し、eがNより小さい値の場合は、ステップ1202に戻る。eがN以上である場合は、ステップ1223に進む。
ステップ1223では、図11の利得コードブック1109からN種類の残差利得コードgainresid(f=0、Λ、N−1)を読み込み、全てのfに対して式(69)により量子化残差利得誤差gainresiderr(f=0、Λ、N−1)を求める。
Figure 2005064594
次に、ステップ1223では、量子化残差利得誤差gainresiderr(f=0、Λ、N−1)を最小とするfを求め、求めたfをgainresid_indexMINに代入する。
ステップ1224では、累積誤差Distresidが最小となるコードベクトルのインデックスであるgainresid_indexMIN、及びステップ1223で求めたgainresid_indexMINを拡張レイヤ符号化情報806として、伝送路807に出力し、処理を終了する。
次に、拡張レイヤ復号化部810について、図14のブロック図を用いて説明する。形状コードブック1403は、形状コードブック1108と同様に、N種類のN次元コードベクトルgainresid (e=0、Λ、N−1、k=0、Λ、N−1)から構成される。また利得コードブック1404は、利得コードブック1109と同様に、N種類の残差利得コードgainresid(f=0、Λ、N−1)から構成される。
ベクトル復号化部1401は、伝送路807を介して伝送される拡張レイヤ符号化情報806を入力とし、符号化情報であるgainresid_indexMINとgainresid_indexMINとを用いて、形状コードブック1403からコードベクトルcoderesid coderesid_indexMIN(k=0、Λ、N−1)を読み込み、また利得コードブック1404からコードgainresidgainresid_indexMINを読み込む。次に、ベクトル復号化部1401は、gainresidgainresid_indexMINとcoderesid coderesid_indexMIN(k=0、Λ、N−1)を乗算し、乗算した結果得られるgainresidgainresid_indexMIN・coderesid coderesid_indexMIN(k=0、Λ、N−1)を復号化残差直交変換係数として残差直交変換処理部1402に出力する。
次に、残差直交変換処理部1402の処理について説明する。
残差直交変換処理部1402は、バッファbufresid’を内部に有し、式(70)により初期化される。
Figure 2005064594
残差直交変換係数復号化部1401から出力される復号化残差直交変換係数gainresidgainresid_indexMIN・coderesid coderesid_indexMIN(k=0、Λ、N−1)を入力して、式(71)により拡張レイヤ復号化信号yresid811を求める。
Figure 2005064594
ここで、Xresid’は復号化残差直交変換係数gainresidgainresid_indexMIN・coderesid coderesid_indexMIN(k=0、Λ、N−1)とバッファbufresid’とを結合させたベクトルであり、式(72)により求める。
Figure 2005064594
次に、式(73)によりバッファbufresid’を更新する。
Figure 2005064594
次に、拡張レイヤ復号化信号yresid811を出力する。
なお、本発明はスケーラブル符号化の階層について制限はなく、三階層以上の階層的な音声符号化/復号化方法において上位レイヤで聴感マスキング特性値を利用したベクトル量子化を行う場合についても適用することができる。
なお、ベクトル量子化部1106において、前記場合1から場合5の各距離計算に対し聴感重み付けフィルタを適用することにより量子化してもよい。
なお、本実施の形態では、基本レイヤ符号化部/復号化部の音声符号化/復号化方法としてCELPタイプの音声符号化/復号化方法を例に挙げ説明したが、その他の音声符号化/復号化方法を用いてもよい。
なお、本実施の形態では、基本レイヤ符号化情報及び拡張レイヤ符号化情報を別々に送信する例を提示したが、各レイヤの符号化情報を多重化して送信し、復号側で多重化分離して各レイヤの符号化情報を復号するよう構成してもよい。
このように、スケーラブル符号化方式においても、本発明の聴感マスキング特性値を利用したベクトル量子化を適用することにより、聴感的に影響の大きい信号の劣化を抑える適切なコードベクトルを選択することができ、より高品質な出力信号を得ることができる。
(実施の形態3)
図15は、本発明の実施の形態3おける上記実施の形態1、2で説明した符号化装置及び復号化装置を含む音声信号送信装置及び音声信号受信装置の構成を示すブロック図である。より具体的な応用としては、携帯電話、カーナビゲーションシステム等に適応可能である。
図15において、入力装置1502は、音声信号1500をデジタル信号にA/D変換し音声・楽音符号化装置1503へ出力する。音声・楽音符号化装置1503は、図1に示した音声・楽音符号化装置101を実装し、入力装置1502から出力されたデジタル音声信号を符号化し、符号化情報をRF変調装置1504へ出力する。RF変調装置1504は音声・楽音符号化装置1503から出力された音声符号化情報を電波等の伝播媒体に載せて送出するための信号に変換し送信アンテナ1505へ出力する。送信アンテナ1505はRF変調装置1504から出力された出力信号を電波(RF信号)として送出する。なお、図中のRF信号1506は送信アンテナ1505から送出された電波(RF信号)を表す。以上が音声信号送信装置の構成および動作である。
RF信号1507は受信アンテナ1508によって受信されRF復調装置1509へ出力される。なお、図中のRF信号1507は受信アンテナ1508に受信された電波を表し、伝播路において信号の減衰や雑音の重畳がなければRF信号1506と全く同じものになる。
RF復調装置1509は受信アンテナ1508から出力されたRF信号から音声符号化情報を復調し、音声・楽音復号化装置1510へ出力する。音声・楽音復号化装置1510は、図1に示した音声・楽音復号化装置105を実装し、RF復調装置1509から出力された音声符号化情報から音声信号を復号化し、出力装置1511は、復号されたデジタル音声信号をアナログ信号にD/A変換し、電気的信号を空気の振動に変換し音波として人間の耳に聴こえるように出力する。
このように、音声信号送信装置及び音声信号受信装置おいても、高品質な出力信号を得ることができる。
本明細書は、2003年12月26日出願の特願2003−433160に基づくものである。この内容を全てここに含めておく。
本発明は、聴感マスキング特性値を利用したベクトル量子化を適用することにより、聴感的に影響の大きい信号の劣化を抑える適切なコードベクトルを選択することができ、より高品質な出力信号を得ることができるという効果を有し、インターネット通信に代表されるパケット通信システムや、携帯電話、カーナビゲーションシステム等の移動通信システムの分野で、適応可能である。
本発明は、インターネット通信に代表されるパケット通信システムや、移動通信システムなどで音声・楽音信号の伝送を行う音声・楽音符号化装置及び音声・楽音符号化方法に関する。
インターネット通信に代表されるパケット通信システムや、移動通信システムなどで音声信号を伝送する場合、伝送効率を高めるために圧縮・符号化技術が利用される。これまでに多くの音声符号化方式が開発され、近年開発された低ビットレート音声符号化方式の多くは、音声信号をスペクトル情報とスペクトルの微細構造情報とに分離し、分離したそれぞれに対して圧縮・符号化を行うという方式である。
また、IP電話に代表されるようなインターネット上での音声通話環境が整備されつつあり、音声信号を効率的に圧縮して転送する技術に対するニーズが高まっている。
特に、人間の聴感マスキング特性を利用した音声符号化に関する様々な方式が検討されている。聴感マスキングとは、ある周波数に含まれる強い信号成分が存在する時に、隣接する周波数成分が、聞こえなくなる現象でこの特性を利用して品質向上を図るものである。
これに関連した技術としては、例えば、ベクトル量子化の距離計算時に聴感マスキング特性を利用した特許文献1に記載されるような方法がある。
特許文献1の聴感マスキング特性を用いた音声符号化手法は、入力された信号の周波数成分と、コードブックが示すコードベクトルの双方が聴感マスキング領域にある場合、ベクトル量子化時の距離を0とする計算方法である。これにより、聴感マスキング領域外における距離の重みが相対的に大きくなり、より効率的に音声符号化することが可能となる。
特開平8−123490号公報(第3頁、第1図)
しかしながら、特許文献1に示す従来方法では、入力信号及びコードベクトルの限られた場合にしか適応できず音質性能が不十分であった。
本発明の目的は、上記の課題に鑑みてなされたものであり、聴感的に影響の大きい信号の劣化を抑える適切なコードベクトルを選択し、高品質な音声・楽音符号化装置及び音声・楽音符号化方法を提供することである。
上記課題を解決するために、本発明の音声・楽音符号化装置は、音声・楽音信号を時間成分から周波数成分へ変換する直交変換処理手段と、前記音声・楽音信号から聴感マスキング特性値を求める聴感マスキング特性値算出手段と、前記聴感マスキング特性値に基づいて、前記周波数成分と、予め設定されたコードブックから求めたコードベクトルと前記周波数成分と間の距離計算方法を変えてベクトル量子化を行うベクトル量子化手段と、を具備する構成を採る。
本発明によれば、聴感マスキング特性値に基づき、入力信号とコードベクトルとの距離計算方法を変えて量子化を行うことにより、聴感的に影響の大きい信号の劣化を抑える適切なコードベクトルを選択することが可能になり、入力信号の再現性を高め良好な復号化音声を得ることができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声・楽音符号化装置及び音声・楽音復号化装置を含むシステム全体の構成を示すブロック図である。
このシステムは、入力信号を符号化する音声・楽音符号化装置101と伝送路103と受信した信号を復号化する音声・楽音復号化装置105から構成される。
なお、伝送路103は、無線LANあるいは携帯端末のパケット通信、Bluetoothなどの無線伝送路であってもよいし、ADSL、FTTHなどの有線伝送路であってもよい。
音声・楽音符号化装置101は、入力信号100を符号化し、その結果を符号化情報102として伝送路103に出力する。
音声・楽音復号化装置105は、伝送路103を介して符号化情報102を受信し、復号化し、その結果を出力信号106として出力する。
次に、音声・楽音符号化装置101の構成について図2のブロック図を用いて説明する。図2において、音声・楽音符号化装置101は、入力信号100を時間成分から周波数成分へ変換する直交変換処理部201と、入力信号100から聴感マスキング特性値を算出する聴感マスキング特性値算出部203と、インデックスと正規化されたコードベクトルの対応を示す形状コードブック204と、形状コードブック204の正規化された各コードベクトルに対応してその利得を示す利得コードブック205と、前記聴感マスキング特性値、前記形状コードブック及び利得コードブックを用いて前記周波数成分へ変換された入力信号をベクトル量子化するベクトル量子化部202とから主に構成される。
次に、図16のフローチャートの手順に従って、音声・楽音符号化装置101の動作について、詳細に説明する。
まず、入力信号のサンプリング処理について説明する。音声・楽音符号化装置101は、入力信号100をNサンプルずつ区切り(Nは自然数)、Nサンプルを1フレームとしてフレーム毎に符号化を行う。ここで、符号化の対象となる入力信号100をxn(n=0、Λ、N−1)と表すこととする。nは前記区切られた入力信号である信号要素のn+1番目であることを示す。
入力信号xn100は、直交変換処理部201及び聴感マスキング特性算出部203に入力される。
次に、直交変換処理部201は、前記信号要素に対応してバッファbufn(n=0、Λ、N−1)を内部に有し、式(1)によりそれぞれ0を初期値として初期化する。
Figure 2005064594
次に、直交変換処理(ステップS1601)について、直交変換処理部201における計算手順と内部バッファへのデータ出力に関して説明する。
直交変換処理部201は、入力信号xn100を修正離散コサイン変換(MDCT)し、式(2)によりMDCT係数Xkを求める。
Figure 2005064594
ここで、kは1フレームにおける各サンプルのインデックスを意味する。直交変換処理部201は、入力信号xn100とバッファbufnとを結合させたベクトルであるxn'を式(3)により求める。
Figure 2005064594
次に、直交変換処理部201は、式(4)によりバッファbufnを更新する。
Figure 2005064594
次に、直交変換処理部201は、MDCT係数Xkをベクトル量子化部202に出力する。
次に、図2の聴感マスキング特性値算出部203の構成について、図3のブロック図を用いて説明する。
図3において、聴感マスキング特性値算出部203は、入力信号をフーリエ変換するフーリエ変換部301と、前記フーリエ変換された入力信号からパワースペクトルを算出するパワースペクトル算出部302と、入力信号から最小可聴閾値を算出する最小可聴閾値算出部304と、前記算出された最小可聴閾値をバッファリングするメモリバッファ305と、前記算出されたパワースペクトルと前記バッファリングされた最小可聴閾値から聴感マスキング値を計算する聴感マスキング値算出部303とから構成される。
次に、上記のように構成された聴感マスキング特性値算出部203における聴感マスキング特性値算出処理(ステップS1602)について、図17のフローチャートを用いて動作を説明する。
なお、聴感マスキング特性値の算出方法については、Johnston氏らによる論文(J.Johnston, "Estimation of perceptual entropy using noise masking criteria",in Proc.ICASSP-88, May 1988, pp.2524-2527)に開示されている。
まず、フーリエ変換処理(ステップS1701)についてフーリエ変換部301の動作を説明する。
フーリエ変換部301は、入力信号xn100を入力して、これを式(5)により周波数領域の信号Fkに変換する。ここで、eは自然対数の底であり、kは1フレームにおける各サンプルのインデックスである。
Figure 2005064594
次に、フーリエ変換部301は、得られたFkをパワースペクトル算出部302に出力する。
次に、パワースペクトル算出処理(ステップS1702)について説明する。
パワースペクトル算出部302は、前記フーリエ変換部301から出力された周波数領域の信号Fkを入力とし、式(6)によりFkのパワースペクトルPkを求める。ただし、kは1フレームにおける各サンプルのインデックスである。
Figure 2005064594
なお、式(6)において、Fk Reは周波数領域の信号Fkの実部であり、パワースペクトル算出部302は、式(7)によりFk Reを求める。
Figure 2005064594
また、Fk Imは周波数領域の信号Fkの虚部であり、パワースペクトル算出部302は、式(8)によりFk Imを求める。
Figure 2005064594
次に、パワースペクトル算出部302は、得られたパワースペクトルPkを聴感マスキング値算出部303に出力する。
次に、最小可聴閾値算出処理(ステップS1703)について説明する。
最小可聴閾値算出部304は、第1フレームにおいてのみ、式(9)により最小可聴閾値athkを求める。
Figure 2005064594
次に、メモリバッファへの保存処理(ステップS1704)について説明する。
最小可聴閾値算出部304は、最小可聴閾値athkをメモリバッファ305に出力する。メモリバッファ305は、入力された最小可聴閾値athkを聴感マスキング値算出部303に出力する。最小可聴閾値athkとは、人間の聴覚に基づき各周波数成分に対して定められ、athk以下の成分は聴感的に知覚することができないという値である。
次に、聴感マスキング値算出処理(ステップS1705)について聴感マスキング値算出部303の動作を説明する。
聴感マスキング値算出部303は、パワースペクトル算出部302から出力されたパワースペクトルPkを入力し、パワースペクトルPkをmの臨界帯域幅に分割する。ここで、臨界帯域幅とは、帯域雑音を増加してもその中心周波数の純音がマスクされる量が増えなくなる限界の帯域幅のことである。また、図4に、臨界帯域幅の構成例を示す。図4において、mは臨界帯域幅の総数であり、パワースペクトルPkはmの臨界帯域幅に分割される。また、iは臨界帯域幅のインデックスであり、0〜m−1の値をとる。また、bhi及びbliは各臨界帯域幅iの最小周波数インデックス及び最大周波数インデックスであ
る。
次に、聴感マスキング値算出部303は、パワースペクトル算出部302から出力されたパワースペクトルPkを入力し、式(10)により臨界帯域幅毎に加算されたパワースペクトルBiを求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(11)により拡散関数SF(t)(Spreading Function)を求める。拡散関数SF(t)とは、各周波数成分に対して、その周波数成分が近隣周波数に及ぼす影響(同時マスキング効果)を算出するために用いるものである。
Figure 2005064594
ここで、Ntは定数であり、式(12)の条件を満たす範囲内で予め設定される。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(13)により臨界帯域幅毎に加算されたパワースペクトルBiと拡散関数SF(t)を用い、定数Ciを求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(14)により幾何平均μi gを求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(15)により算術平均μi aを求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(16)によりSFMi(Spectral Flatness Measure)を求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(17)により定数αiを求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(18)により臨界帯域幅毎のオフセット値Oiを求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、式(19)により臨界帯域幅毎の聴感マスキング値Tiを求める。
Figure 2005064594
次に、聴感マスキング値算出部303は、メモリバッファ305から出力される最小可聴閾値athkから、式(20)により聴感マスキング特性値Mkを求め、これをベクトル量子化部202に出力する。
Figure 2005064594
次に、ベクトル量子化部202における処理であるコードブック取得処理(ステップS1603)及びベクトル量子化処理(ステップS1604)について、図5処理フローを用いて詳細に説明する。
ベクトル量子化部202は、直交変換処理部201から出力されるMDCT係数Xkと前記聴感マスキング特性値算出部203から出力される聴感マスキング特性値から、形状コードブック204、及び利得コードブック205を用いて、MDCT係数Xkのベクトル量子化を行い、得られた符号化情報102を、図1の伝送路103に出力する。
次に、コードブックについて説明する。
形状コードブック204は、予め作成されたNj種類のN次元コードベクトルcodek j(j=0、Λ、Nj−1、k=0、Λ、N−1)から構成され、また、利得コードブック205は、予め作成されたNd種類の利得コードgaind(j=0、Λ、Nd−1)
から構成される。
ステップ501では、形状コードブック204におけるコードベクトルインデックスjに0を代入し、最小誤差DistMINに十分大きな値を代入し、初期化する。
ステップ502では、形状コードブック204からN次元のコードベクトルcodekj(k=0、Λ、N−1)を読み込む。
ステップ503では、直交変換処理部201から出力されたMDCT係数Xkを入力して、ステップ502の形状コードブック204で読み込んだコードベクトルcodek j(k=0、Λ、N−1)の利得Gainを式(21)により求める。
Figure 2005064594
ステップ504では、ステップ505の実行回数を表すcalc_countに0を代入する。
ステップ505では、聴感マスキング特性値算出部203から出力された聴感マスキング特性値Mkを入力し、式(22)により一時利得tempk(k=0、Λ、N−1)を求める。
Figure 2005064594
なお、式(22)において、kが|codek j・Gain|≧Mkの条件を満たす場合、一時利得tempkにはcodek jが代入され、kが|codek j・Gain|<Mkの条件を満たす場合、一時利得tempkには0が代入される。
次に、ステップ505では、式(23)により聴感マスキング値以上の要素に対する利得Gainを求める。
Figure 2005064594
ここで、全てのkにおいて一時利得tempkが0の場合には利得Gainに0を代入する。また、式(24)により、利得Gainとcodek jから符号化値Rkを求める。
Figure 2005064594
ステップ506では、calc_countに1を足し加える。
ステップ507では、calc_countと予め定められた非負の整数Ncとを比較し、calc_countがNcより小さい値である場合はステップ505に戻り、calc_countがNc以上である場合はステップ508に進む。このように、利得Gainを繰り返し求めることにより、利得Gainを適切な値にまで収束させることができる。
ステップ508では、累積誤差Distに0を代入し、また、サンプルインデックスkに0を代入する。
次に、ステップ509、511、512、及び514において、聴感マスキング特性値Mkと符号化値RkとMDCT係数Xkとの相対的な位置関係について場合分けを行い、場合分けの結果に応じてそれぞれステップ510、513、515、及び516で距離計算を行う。
この相対的な位置関係による場合分けを図6に示す。図6において、白い丸記号(○)は入力信号のMDCT係数Xkを意味し、黒い丸記号(●)は符号化値Rkを意味する。また、図6に示したものが本発明の特徴を示しているもので、聴感マスキング特性値算出部203で求めた聴感マスキング特性値+Mk〜0〜−Mkの領域を聴感マスキング領域と呼び、入力信号のMDCT係数Xkまたは符号化値Rkがこの聴感マスキング領域に存在する場合の距離計算の方法を変えて計算することにより、より聴感的に近い高品質な結果を得ることができる。
ここで、図6を用いて、本発明におけるベクトル量子化時の距離計算法について説明する。図6の「場合1」に示すように入力信号のMDCT係数Xk(○)と符号化値Rk(●)のいずれかも聴感マスキング領域に存在せず、かつMDCT係数Xkと符号化値Rkとが同符号である場合には入力信号のMDCT係数Xk(○)と符号化値Rk(●)の距離D11を単純に計算する。また、図6の「場合3」、「場合4」に示すように入力信号のMDCT係数Xk(○)と符号化値Rk(●)のいずれかが聴感マスキング領域に存在する場合には、聴感マスキング領域内の位置をMk値(場合によっては、―Mk値)に補正してD31またはD41として計算する。また、図6の「場合2」に示すように入力信号のMDCT係数Xk(○)と符号化値Rk(●)が聴感マスキング領域をまたがって存在する場合には、聴感マスキング領域間の距離をβ・D23(βは任意の係数)と計算する。図6の「場合5」に示すように入力信号のMDCT係数Xk(○)と符号化値Rk(●)が共に聴感マスキング領域内に存在する場合には、距離D51=0として計算する。
次に、ステップ509〜ステップ517の各場合における処理について説明する。
ステップ509では、聴感マスキング特性値Mkと符号化値RkとMDCT係数Xkとの相対的な位置関係が図6における「場合1」に該当するかどうかを式(25)の条件式により判定する。
Figure 2005064594
式(25)は、MDCT係数Xkの絶対値と符号化値Rkの絶対値とが共に聴感マスキング特性値Mk以上であり、かつ、MDCT係数Xkと符号化値Rkとが同符号である場合を意味する。聴感マスキング特性値MkとMDCT係数Xkと符号化値Rkとが式(25)の条件式を満たした場合は、ステップ510に進み、式(25)の条件式を満たさない場合は、ステップ511に進む。
ステップ510では、式(26)により符号化値RkとMDCT係数Xkとの誤差Dist1を求め、累積誤差Distに誤差Dist1を加算し、ステップ517に進む。
Figure 2005064594
ステップ511では、聴感マスキング特性値Mkと符号化値RkとMDCT係数Xkとの相対的な位置関係が図6における「場合5」に該当するかどうかを式(27)の条件式により判定する。
Figure 2005064594
式(27)は、MDCT係数Xkの絶対値と符号化値Rkの絶対値とが共に聴感マスキング特性値Mk以下である場合を意味する。聴感マスキング特性値MkとMDCT係数Xkと符号化値Rkとが式(27)の条件式を満たした場合は、符号化値RkとMDCT係数Xkとの誤差は0とし、累積誤差Distには何も加算せずにステップ517に進み、式(27)の条件式を満たさない場合は、ステップ512に進む。
ステップ512では、聴感マスキング特性値Mkと符号化値RkとMDCT係数Xkとの相対的な位置関係が図6における「場合2」に該当するかどうかを式(28)の条件式により判定する。
Figure 2005064594
式(28)は、MDCT係数Xkの絶対値と符号化値Rkの絶対値とが共に聴感マスキング特性値Mk以上であり、かつ、MDCT係数Xkと符号化値Rkとが異符号である場合を意味する。聴感マスキング特性値MkとMDCT係数Xkと符号化値Rkとが式(28)の条件式を満たした場合は、ステップ513に進み、式(28)の条件式を満たさない場合は、ステップ514に進む。
ステップ513では、式(29)により符号化値RkとMDCT係数Xkとの誤差Dist2を求め、累積誤差Distに誤差Dist2を加算し、ステップ517に進む。
Figure 2005064594
ここで、βは、MDCT係数Xk、符号化値Rk及び聴感マスキング特性値Mkに応じて適宜設定される値であり、1以下の値が適当であり、被験者の評価により実験的に求めた数値を採用してもよい。また、D21、D22及びD23は、それぞれ式(30)、式(31)及び式(32)により求める。
Figure 2005064594
Figure 2005064594
Figure 2005064594
ステップ514では、聴感マスキング特性値Mkと符号化値RkとMDCT係数Xkとの相対的な位置関係が図6における「場合3」に該当するかどうかを式(33)の条件式により判定する。
Figure 2005064594
式(33)は、MDCT係数Xkの絶対値が聴感マスキング特性値Mk以上であり、かつ、符号化値Rkが聴感マスキング特性値Mk未満である場合を意味する。聴感マスキング特性値MkとMDCT係数Xkと符号化値Rkとが式(33)の条件式を満たした場合は、ステップ515に進み、式(33)の条件式を満たさない場合は、ステップ516に進む。
ステップ515では、式(34)により符号化値RkとMDCT係数Xkとの誤差Dist3を求め、累積誤差Distに誤差Dist3を加算し、ステップ517に進む。
Figure 2005064594
ステップ516は、聴感マスキング特性値Mkと符号化値RkとMDCT係数Xkとの相対的な位置関係が図6における「場合4」に該当し、式(35)の条件式を満たす。
Figure 2005064594
式(35)は、MDCT係数Xkの絶対値が聴感マスキング特性値Mk未満であり、かつ、符号化値Rkが聴感マスキング特性値Mk以上である場合を意味する。この時、ステップ516では、式(36)により符号化値RkとMDCT係数Xkとの誤差Dist4を求め、累積誤差Distに誤差Dist4を加算し、ステップ517に進む。
Figure 2005064594
ステップ517では、kに1を足し加える。
ステップ518では、Nとkを比較し、kがNより小さい値の場合は、ステップ509に戻る。kがNと同じ値の場合は、ステップ519に進む。
ステップ519では、累積誤差Distと最小誤差DistMINとを比較し、累積誤差Distが最小誤差DistMINより小さい値の場合は、ステップ520に進み、累積誤差Distが最小誤差DistMIN以上である場合は、ステップ521に進む。
ステップ520では、最小誤差DistMINに累積誤差Distを代入し、code_indexMINにjを代入し、誤差最小利得DistMINに利得Gainを代入し、ステップ521に進む。
ステップ521では、jに1を足し加える。
ステップ522では、コードベクトルの総数Njとjとを比較し、jがNjより小さい値の場合は、ステップ502に戻る。jがNj以上である場合は、ステップ523に進む。
ステップ523では、利得コードブック205からNd種類の利得コードgaind(d=0、Λ、Nd−1)を読み込み、全てのdに対して式(37)により量子化利得誤差gainerrd(d=0、Λ、Nd−1)を求める。
Figure 2005064594
次に、ステップ523では、量子化利得誤差gainerrd(d=0、Λ、Nd−1)を最小とするdを求め、求めたdをgain_indexMINに代入する。
ステップ524では、累積誤差Distが最小となるコードベクトルのインデックスであるcode_indexMINとステップ523で求めたgain_indexMINとを符号化情報102として、図1の伝送路103に出力し、処理を終了する。
以上が、符号化部101の処理の説明である。
次に、図1の音声・楽音復号化装置105について、図7の詳細ブロック図を用いて説明する。
形状コードブック204、利得コードブック205は、それぞれ図2で示すものと同様である。
ベクトル復号化部701は、伝送路103を介して伝送される符号化情報102を入力とし、符号化情報であるcode_indexMINとgain_indexMINとを用いて、形状コードブック204からコードベクトルcodekcode_indexMIN(k=0、Λ、N−1)を読み込み、また、利得コードブック205から利得コードgaingain_indexMINを読み込む。次に、ベクトル復号化部701は、gaingain_indexMINとcodekcode_indexMIN(k=0、Λ、N−1)とを乗算し、乗算した結果得られるgaingain_indexMIN×codekcode_indexMIN(k=0、Λ、N−1)を復号化MDCT係数として直交変換処理部702に出力する。
直交変換処理部702は、バッファbufk'を内部に有し、式(38)により初期化する。
Figure 2005064594
次に、ベクトル復号化部701から出力される復号化MDCT係数gaingain_indexMIN×codekcode_indexMIN(k=0、Λ、N−1)を入力とし、式(39)により復号化信号Ynを求める。
Figure 2005064594
ここで、Xk'は、復号化MDCT係数gaingain_indexMIN×codekcode_indexMIN(k=0、Λ、N−1)とバッファbufk'とを結合させたベクトルであり、式(40)により求める。
Figure 2005064594
次に、式(41)によりバッファbufk'を更新する。
Figure 2005064594
次に、復号化信号ynを出力信号106として出力する。
このように、入力信号のMDCT係数を求める直交変換処理部と、聴感マスキング特性値を求める聴感マスキング特性値算出部と、聴感マスキング特性値を利用したベクトル量子化を行うベクトル量子化部とを設け、聴感マスキング特性値とMDCT係数と量子化されたMDCT係数との相対的位置関係に応じてベクトル量子化の距離計算を行うことにより、聴感的に影響の大きい信号の劣化を抑える適切なコードベクトルを選択することができ、より高品質な出力信号を得ることができる。
なお、ベクトル量子化部202において、前記場合1から場合5の各距離計算に対し聴感重み付けフィルタを適用することにより量子化することも可能である。
なお、本実施の形態では、MDCT係数の符号化を行う場合について説明したが、フーリエ変換、離散コサイン変換(DCT)、及び直交鏡像フィルタ(QMF)等の直交変換を用いて、変換後の信号(周波数パラメータ)の符号化を行う場合についても本発明は適用することができ、本実施の形態と同様の作用・効果を得ることができる。
なお、本実施の形態では、ベクトル量子化により符号化を行う場合について説明したが、本発明は符号化方法に制限はなく、例えば、分割ベクトル量子化、多段階ベクトル量子化により符号化を行ってもよい。
なお、音声・楽音符号化装置101を図16のフローチャートで示した手順をプログラムによりコンピュータで実行させてもよい。
以上説明したように、入力信号から聴感マスキング特性値を算出し、入力信号のMDCT係数、符号化値、及び聴感マスキング特性値の相対的な位置関係を全て考慮し、人の聴感に適した距離計算法を適用することにより、聴感的に影響の大きい信号の劣化を抑える適切なコードベクトルを選択することができ、入力信号を低ビットレートで量子化した場合においても、より良好な復号化音声を得ることができる。
また、特許文献1では、図6の「場合5」のみ開示されているが、本発明においては、それらに加え、「場合2」、「場合3」、及び「場合4」に示されているように全ての組合せ関係においても、聴感マスキング特性値を考慮した距離計算手法を採ることにより、入力信号のMDCT係数、符号化値及び聴感マスキング特性値の相対的な位置関係を全て考慮し、聴感に適した距離計算法を適用することで、入力信号を低ビットレートで量子化した場合においても、より良好な高品質な復号化音声を得ることができる。
また、本発明は、入力信号のMDCT係数または符号化値がこの聴感マスキング領域に存在した場合、また聴感マスキング領域を挟んで存在する場合、そのまま距離計算を行い、ベクトル量子化を行うと、実際の聴感が異なって聞こえるということに基づいたもので、ベクトル量子化の際の距離計算の方法を変えることにより、より自然な聴感を与えることができる。
(実施の形態2)
本発明の実施の形態2では、実施の形態1で説明した聴感マスキング特性値を用いたベクトル量子化をスケーラブル符号化に適用した例について説明する。
以下、本実施の形態では、基本レイヤと拡張レイヤとで構成される二階層の音声符号化/復号化方法において拡張レイヤで聴感マスキング特性値を利用したベクトル量子化を行う場合について説明する。
スケーラブル音声符号化方法とは、周波数特性に基づき複数の階層(レイヤ)に音声信号を分解し符号化する方法である。具体的には、下位レイヤの入力信号と下位レイヤの出力信号との差である残差信号を利用して各レイヤの信号を算出する。復号側ではこれら各レイヤの信号を加算し音声信号を復号する。この仕組みにより、音質を柔軟に制御できるほか、ノイズに強い音声信号の転送が可能となる。
なお、本実施の形態では、基本レイヤがCELPタイプの音声符号化/復号化を行う場合を例にして説明する。
図8は、本発明の実施の形態2に係るMDCT係数ベクトル量子化方法を利用した符号化装置及び復号化装置の構成を示すブロック図である。なお、図8において、基本レイヤ符号化部801、基本レイヤ復号化部803及び拡張レイヤ符号化部805により符号化装置が構成され、基本レイヤ復号化部808、拡張レイヤ復号化部810及び加算部812により復号化装置が構成される。
基本レイヤ符号化部801は、入力信号800をCELPタイプの音声符号化方法を用いて符号化し、基本レイヤ符号化情報802を算出する共に、それを基本レイヤ復号化部803及び伝送路807を介して基本レイヤ復号化部808に出力する。
基本レイヤ復号化部803は、CELPタイプの音声復号化方法を用いて基本レイヤ符号化情報802を復号化し、基本レイヤ復号化信号804を算出すると共に、それを拡張レイヤ符号化部805に出力する。
拡張レイヤ符号化部805は、基本レイヤ復号化部803より出力される基本レイヤ復号化信号804と、入力信号800とを入力し、聴感マスキング特性値を利用したベクトル量子化により、入力信号800と基本レイヤ復号化信号804との残差信号を符号化し、符号化によって求められる拡張レイヤ符号化情報806を、伝送路807を介して拡張レイヤ復号化部810に出力する。拡張レイヤ符号化部805についての詳細は後述する。
基本レイヤ復号化部808は、CELPタイプの音声復号化方法を用いて基本レイヤ符号化情報802を復号化し、復号化によって求められる基本レイヤ復号化信号809を加算部812に出力する。
拡張レイヤ復号化部810は、拡張レイヤ符号化情報806を復号化し、復号化によって求められる拡張レイヤ復号化信号811を加算部812に出力する。
加算部812は、基本レイヤ復号化部808から出力された基本レイヤ復号化信号809と拡張レイヤ復号化部810から出力された拡張レイヤ復号化信号811とを加算し、加算結果である音声・楽音信号を出力信号813として出力する。
次に、基本レイヤ符号化部801について図9のブロック図を用いて説明する。
基本レイヤ符号化部801の入力信号800は、前処理部901に入力される。前処理部901は、DC成分を取り除くハイパスフィルタ処理や後続する符号化処理の性能改善につながるような波形整形処理やプリエンファシス処理を行い、これらの処理後の信号(Xin)をLPC分析部902および加算部905に出力する。
LPC分析部902は、Xinを用いて線形予測分析を行い、分析結果(線形予測係数)をLPC量子化部903へ出力する。LPC量子化部903は、LPC分析部902から出力された線形予測係数(LPC)の量子化処理を行い、量子化LPCを合成フィルタ904へ出力するとともに量子化LPCを表す符号(L)を多重化部914へ出力する。
合成フィルタ904は、量子化LPCに基づくフィルタ係数により、後述する加算部911から出力される駆動音源に対してフィルタ合成を行うことにより合成信号を生成し、合成信号を加算部905へ出力する。
加算部905は、合成信号の極性を反転させてXinに加算することにより誤差信号を算出し、誤差信号を聴覚重み付け部912へ出力する。
適応音源符号帳906は、過去に加算部911によって出力された駆動音源をバッファに記憶しており、パラメータ決定部913から出力された信号により特定される過去の駆動音源から1フレーム分のサンプルを適応音源ベクトルとして切り出して乗算部909へ出力する。
量子化利得生成部907は、パラメータ決定部913から出力された信号によって特定される量子化適応音源利得と量子化固定音源利得とをそれぞれ乗算部909と乗算部910へ出力する。
固定音源符号帳908は、パラメータ決定部913から出力された信号によって特定される形状を有するパルス音源ベクトルに拡散ベクトルを乗算して得られた固定音源ベクトルを乗算部910へ出力する。
乗算部909は、量子化利得生成部907から出力された量子化適応音源利得を、適応音源符号帳906から出力された適応音源ベクトルに乗じて、加算部911へ出力する。乗算部910は、量子化利得生成部907から出力された量子化固定音源利得を、固定音源符号帳908から出力された固定音源ベクトルに乗じて、加算部911へ出力する。
加算部911は、利得乗算後の適応音源ベクトルと固定音源ベクトルとをそれぞれ乗算部909と乗算部910とから入力し、これらをベクトル加算し、加算結果である駆動音源を合成フィルタ904および適応音源符号帳906へ出力する。なお、適応音源符号帳906に入力された駆動音源は、バッファに記憶される。
聴覚重み付け部912は、加算部905から出力された誤差信号に対して聴覚的な重み付けをおこない符号化歪みとしてパラメータ決定部913へ出力する。
パラメータ決定部913は、聴覚重み付け部912から出力された符号化歪みを最小とする適応音源ベクトル、固定音源ベクトル及び量子化利得を、各々適応音源符号帳906、固定音源符号帳908及び量子化利得生成部907から選択し、選択結果を示す適応音源ベクトル符号(A)、音源利得符号(G)及び固定音源ベクトル符号(F)を多重化部914に出力する。
多重化部914は、LPC量子化部903から量子化LPCを表す符号(L)を入力し、パラメータ決定部913から適応音源ベクトルを表す符号(A)、固定音源ベクトルを表す符号(F)および量子化利得を表す符号(G)を入力し、これらの情報を多重化して基本レイヤ符号化情報802として出力する。
次に、基本レイヤ復号化部803(808)について図10を用いて説明する。
図10において、基本レイヤ復号化部803(808)に入力された基本レイヤ符号化情報802は、多重化分離部1001によって個々の符号(L、A、G、F)に分離される。分離されたLPC符号(L)はLPC復号化部1002に出力され、分離された適応音源ベクトル符号(A)は適応音源符号帳1005に出力され、分離された音源利得符号(G)は量子化利得生成部1006に出力され、分離された固定音源ベクトル符号(F)は固定音源符号帳1007へ出力される。
LPC復号化部1002は、多重化分離部1001から出力された符号(L)から量子化LPCを復号化し、合成フィルタ1003に出力する。
適応音源符号帳1005は、多重化分離部1001から出力された符号(A)で指定される過去の駆動音源から1フレーム分のサンプルを適応音源ベクトルとして取り出して乗算部1008へ出力する。
量子化利得生成部1006は、多重化分離部1001から出力された音源利得符号(G)で指定される量子化適応音源利得と量子化固定音源利得を復号化し乗算部1008及び乗算部1009へ出力する。
固定音源符号帳1007は、多重化分離部1001から出力された符号(F)で指定される固定音源ベクトルを生成し、乗算部1009へ出力する。
乗算部1008は、適応音源ベクトルに量子化適応音源利得を乗算して、加算部1010へ出力する。乗算部1009は、固定音源ベクトルに量子化固定音源利得を乗算して、加算部1010へ出力する。
加算部1010は、乗算部1008、乗算部1009から出力された利得乗算後の適応音源ベクトルと固定音源ベクトルの加算を行い、駆動音源を生成し、これを合成フィルタ1003及び適応音源符号帳1005に出力する。
合成フィルタ1003は、LPC復号化部1002によって復号化されたフィルタ係数を用いて、加算部1010から出力された駆動音源のフィルタ合成を行い、合成した信号を後処理部1004へ出力する。
後処理部1004は、合成フィルタ1003から出力された信号に対して、ホルマント強調やピッチ強調といったような音声の主観的な品質を改善する処理や、定常雑音の主観的品質を改善する処理などを施し、基本レイヤ復号化信号804(810)として出力する。
次に、拡張レイヤ符号化部805について図11を用いて説明する。
図11の拡張レイヤ符号化部805は、図2と比較して、直交変換処理部1103への入力信号が基本レイヤ復号化信号804と入力信号800との差分信号1102が入力される以外は同様であり、聴感マスキング特性値算出部203には図2と同一符号を付して説明を省略する。
拡張レイヤ符号化部805は、実施の形態1の符号化部101と同様に、入力信号800をNサンプルずつ区切り(Nは自然数)、Nサンプルを1フレームとしてフレーム毎に符号化を行う。ここで、符号化の対象となる入力信号800をxn(n=0、Λ、N−1)と表すこととする。
入力信号xn800は、聴感マスキング特性値算出部203、及び加算部1101に入力される。また、基本レイヤ復号化部803から出力される基本レイヤ復号化信号804は、加算部1101、及び直交変換処理部1103に入力される。
加算部1101は、式(42)により残差信号1102xresidn(n=0、Λ、N−1)を求め、求めた残差信号xresidn1102を直交変換処理部1103に出力する。
Figure 2005064594
ここで、xbasen(n=0、Λ、N−1)は基本レイヤ復号化信号804である。
次に、直交変換処理部1103の処理について説明する。
直交変換処理部1103は、基本レイヤ復号化信号xbasen804の処理時に使用するバッファbufbasen(n=0、Λ、N−1)と、残差信号xresidn1102の処理時に使用するバッファbufresidn(n=0、Λ、N−1)を内部に有し、式(43)及び式(44)によってそれぞれ初期化する。
Figure 2005064594
Figure 2005064594
次に、直交変換処理部1103は、基本レイヤ復号化信号xbasen804と残差信号xresidn1102とを修正離散コサイン変換(MDCT)することにより、基本レイヤ直交変換係数xbasek1104と残差直交変換係数Xresidk1105とをそれぞれ求める。ここで、基本レイヤ直交変換係数xbasek1104は式(45)により求める。
Figure 2005064594
ここで、xbasen'は基本レイヤ復号化信号xbasen804とバッファbufbasenとを結合したベクトルであり、直交変換処理部1103は、式(46)によりxbasen'を求める。また、kは1フレームにおける各サンプルのインデックスである。
Figure 2005064594
次に、直交変換処理部1103は、式(47)によりバッファbufbasenを更新する。
Figure 2005064594
また、直交変換処理部1103は、式(48)により残差直交変換係数Xresidk1105を求める。
Figure 2005064594
ここで、xresidn'は残差信号xresidn1102とバッファbufresidnとを結合したベクトルであり、直交変換処理部1103は、式(49)によりxresidn'を求める。また、kは1フレームにおける各サンプルのインデックスである。
Figure 2005064594
次に、直交変換処理部1103は、式(50)によりバッファbufresidnを更新する。
Figure 2005064594
次に、直交変換処理部1103は、基本レイヤ直交変換係数Xbasek1104と残差直交変換係数Xresidk1105とをベクトル量子化部1106に出力する。
ベクトル量子化部1106は、直交変換処理部1103から基本レイヤ直交変換係数Xbasek1104と残差直交変換係数Xresidk1105と、聴感マスキング特性値算出部203から聴感マスキング特性値Mk1107とを入力し、形状コードブック1108と利得コードブック1109とを用いて、聴感マスキング特性値を利用したベクトル量子化により残差直交変換係数Xresidk1105の符号化を行い、符号化により得られる拡張レイヤ符号化情報806を出力する。
ここで、形状コードブック1108は、予め作成されたNe種類のN次元コードベクトルcoderesidk e(e=0、Λ、Ne−1、k=0、Λ、N−1)から構成され、前記ベクトル量子化部1103において残差直交変換係数Xresidk1105をベクトル量子化する際に用いられる。
また、利得コードブック1109は、予め作成されたNf種類の残差利得コードgainresidf(f=0、Λ、Nf−1)から構成され、前記ベクトル量子化部1106において残差直交変換係数Xresidk1105をベクトル量子化する際に用いられる。
次に、ベクトル量子化部1106の処理について、図12を用いて詳細に説明する。
ステップ1201では、形状コードブック1108におけるコードベクトルインデックスeに0を代入し、最小誤差DistMINを十分大きな値を代入し、初期化する。
ステップ1202では、図11の形状コードブック1108からN次元のコードベクトルcoderesidk e(k=0、Λ、N−1)を読み込む。
ステップ1203では、直交変換処理部1103から出力された残差直交変換係数Xresidkを入力し、ステップ1202で読み込んだコードベクトルcoderesidk e(k=0、Λ、N−1)の利得Gainresidを式(51)により求める。
Figure 2005064594
ステップ1204では、ステップ1205の実行回数を表すcalc_countresidに0を代入する。
ステップ1205では、聴感マスキング特性値算出部203から出力された聴感マスキング特性値Mkを入力とし、式(52)により一時利得temp2k(k=0、Λ、N−1)を求める。
Figure 2005064594
なお、式(52)において、kが|coderesidk e・Gainresid+Xbasek|≧Mkの条件を満たす場合、一時利得temp2kにはcoderesidk eが代入され、kが|coderesidk e・Gainresid+Xbasek|<Mkの条件を満たす場合、temp2kには0が代入される。また、kは1フレームにおける各サンプルのインデックスである。
次に、ステップ1205では、式(53)により利得Gainresidを求める。
Figure 2005064594
ここで、全てのkにおいて一時利得temp2kが0の場合には利得Gainresidに0を代入する。また、式(54)により、利得Gainresidとコードベクトルcoderesidk eから残差符号化値Rresidkを求める。
Figure 2005064594
また、式(55)により、残差符号化値Rresidkと基本レイヤ直交変換係数Xbasekから加算符号化値Rpluskを求める。
Figure 2005064594
ステップ1206では、calc_countresidに1を足し加える。
ステップ1207では、calc_countresidと予め定められた非負の整数Nresidcとを比較し、calc_countresidがNresidcより小さい値である場合はステップ1205に戻り、calc_countresidがNresidc以上である場合はステップ1208に進む。
ステップ1208では、累積誤差Distresidに0を代入し、また、kに0を代入する。また、ステップ1208では、式(56)により加算MDCT係数Xpluskを求める。
Figure 2005064594
次に、ステップ1209、1211、1212、及び1214において、聴感マスキング特性値Mk1107と加算符号化値Rpluskと加算MDCT係数Xpluskとの相対的な位置関係について場合分けを行い、場合分けの結果に応じてそれぞれステップ1210、1213、1215、及び1216で距離計算する。この相対的な位置関係による場合分けを図13に示す。図13において、白い丸記号(○)は加算MDCT係数Xpluskを意味し、黒い丸記号(●)はRpluskを意味するものである。図13における考え方は、実施の形態1の図6で説明した考え方と同様である。
ステップ1209では、聴感マスキング特性値Mkと加算符号化値Rpluskと加算MDCT係数Xpluskとの相対的な位置関係が図13における「場合1」に該当するかどうかを式(57)の条件式により判定する。
Figure 2005064594
式(57)は、加算MDCT係数Xpluskの絶対値と加算符号化値Rpluskの絶対値とが共に聴感マスキング特性値Mk以上であり、かつ、加算MDCT係数Xpluskと加算符号化値Rpluskとが同符号である場合を意味する。聴感マスキング特性値Mkと加算MDCT係数Xpluskと加算符号化値Rpluskとが式(57)の条件式を満たした場合は、ステップ1210に進み、式(57)の条件式を満たさない場合は、ステップ1211に進む。
ステップ1210では、式(58)によりRpluskと加算MDCT係数Xpluskとの誤差Distresid1を求め、累積誤差Distresidに誤差Distresid1を加算し、ステップ1217に進む。
Figure 2005064594
ステップ1211では、聴感マスキング特性値Mkと加算符号化値Rpluskと加算MDCT係数Xpluskとの相対的な位置関係が図13における「場合5」に該当するかどうかを式(59)の条件式により判定する。
Figure 2005064594
式(59)は、加算MDCT係数Xpluskの絶対値と加算符号化値Rpluskの絶対値とが共に聴感マスキング特性値Mk未満である場合を意味する。聴感マスキング特性値Mkと加算符号化値Rpluskと加算MDCT係数Xpluskが式(59)の条件式を満たす場合、加算符号化値Rpluskと加算MDCT係数Xpluskとの誤差は0とし、累積誤差Distresidには何も加算せずにステップ1217に進む。聴感マスキング特性値Mkと加算符号化値Rpluskと加算MDCT係数Xpluskが式(59)の条件式を満たさない場合は、ステップ1212に進む。
ステップ1212では、聴感マスキング特性値Mkと加算符号化値Rpluskと加算MDCT係数Xpluskとの相対的な位置関係が図13における「場合2」に該当するかどうかを式(60)の条件式により判定する。
Figure 2005064594
式(60)は、加算MDCT係数Xpluskの絶対値と加算符号化値Rpluskの絶対値とが共に聴感マスキング特性値Mk以上であり、かつ、加算MDCT係数Xpluskと加算符号化値Rpluskとが異符号である場合を意味する。聴感マスキング特性値Mkと加算MDCT係数Xpluskと加算符号化値Rpluskとが式(60)の条件式を満たした場合は、ステップ1213に進み、式(60)の条件式を満たさない場合は、ステップ1214に進む。
ステップ1213では、式(61)により加算符号化値Rpluskと加算MDCT係数Xpluskとの誤差Distresid2を求め、累積誤差Distresidに誤差Distresid2を加算し、ステップ1217に進む。
Figure 2005064594
ここで、βresidは、加算MDCT係数Xplusk、加算符号化値Rplusk及び聴感マスキング特性値Mkに応じて適宜設定される値であり、1以下の値が適当である。また、Dresid21、Dresid22及びDresid23は、それぞれ式(62)、式(63)及び式(64)により求められる。
Figure 2005064594
Figure 2005064594
Figure 2005064594
ステップ1214では、聴感マスキング特性値Mkと加算符号化値Rpluskと加算MDCT係数Xpluskとの相対的な位置関係が図13における「場合3」に該当するかどうかを式(65)の条件式により判定する。
Figure 2005064594
式(65)は、加算MDCT係数Xpluskの絶対値が聴感マスキング特性値Mk以上であり、かつ、加算符号化値Rpluskが聴感マスキング特性値Mk未満である場合を意味する。聴感マスキング特性値Mkと加算MDCT係数Xpluskと加算符号化値Rpluskとが式(65)の条件式を満たした場合は、ステップ1215に進み、式(65)の条件式を満たさない場合は、ステップ1216に進む。
ステップ1215では、式(66)により加算符号化値Rpluskと加算MDCT係数Xpluskとの誤差Distresid3を求め、累積誤差Distresidに誤差Distresid3を加算し、ステップ1217に進む。
Figure 2005064594
ステップ1216では、聴感マスキング特性値Mkと加算符号化値Rpluskと加算MDCT係数Xpluskとの相対的な位置関係が図13における「場合4」に該当し、式(67)の条件式を満たす。
Figure 2005064594
式(67)は、加算MDCT係数Xpluskの絶対値が聴感マスキング特性値Mk未満であり、かつ、加算符号化値Rpluskが聴感マスキング特性値Mk以上である場合を意味する。この時、ステップ1216は、式(68)により加算符号化値Rpluskと加算MDCT係数Xpluskとの誤差Distresid4を求め、累積誤差Distresidに誤差Distresid4を加算し、ステップ1217に進む。
Figure 2005064594
ステップ1217では、kに1を足し加える。
ステップ1218では、Nとkを比較し、kがNより小さい値の場合は、ステップ1209に戻る。kがN以上である場合は、ステップ1219に進む。
ステップ1219では、累積誤差Distresidと最小誤差DistresidMINとを比較し、累積誤差Distresidが最小誤差DistresidMINより小さい値の場合は、ステップ1220に進み、累積誤差Distresidが最小誤差DistresidMIN以上である場合は、ステップ1221に進む。
ステップ1220では、最小誤差DistresidMINに累積誤差Distresidを代入し、gainresid_indexMINにeを代入し、誤差最小利得DistresidMINに利得Distresidを代入し、ステップ1221に進む。
ステップ1221では、eに1を足し加える。
ステップ1222では、コードベクトルの総数Neとeとを比較し、eがNeより小さい値の場合は、ステップ1202に戻る。eがNe以上である場合は、ステップ1223に進む。
ステップ1223では、図11の利得コードブック1109からNf種類の残差利得コードgainresidf(f=0、Λ、Nf−1)を読み込み、全てのfに対して式(69)により量子化残差利得誤差gainresiderrf(f=0、Λ、Nf−1)を求める。
Figure 2005064594
次に、ステップ1223では、量子化残差利得誤差gainresiderrf(f=
0、Λ、Nf−1)を最小とするfを求め、求めたfをgainresid_indexMINに代入する。
ステップ1224では、累積誤差Distresidが最小となるコードベクトルのインデックスであるgainresid_indexMIN、及びステップ1223で求めたgainresid_indexMINを拡張レイヤ符号化情報806として、伝送路807に出力し、処理を終了する。
次に、拡張レイヤ復号化部810について、図14のブロック図を用いて説明する。
形状コードブック1403は、形状コードブック1108と同様に、Ne種類のN次元コードベクトルgainresidk e(e=0、Λ、Ne−1、k=0、Λ、N−1)から構成される。また利得コードブック1404は、利得コードブック1109と同様に、Nf種類の残差利得コードgainresidf(f=0、Λ、Nf−1)から構成される。
ベクトル復号化部1401は、伝送路807を介して伝送される拡張レイヤ符号化情報806を入力とし、符号化情報であるgainresid_indexMINとgainresid_indexMINとを用いて、形状コードブック1403からコードベクトルcoderesidk coderesid_indexMIN(k=0、Λ、N−1)を読み込み、また利得コードブック1404からコードgainresidgainresid_indexMINを読み込む。次に、ベクトル復号化部1401は、gainresidgainresid_indexMINとcoderesidk coderesid_indexMIN(k=0、Λ、N−1)を乗算し、乗算した結果得られるgainresidgainresid_indexMIN ・coderesidk coderesid_indexMIN (k=0、Λ、N−1)を復号化残差直交変換係数として残差直交変換処理部1402に出力する。
次に、残差直交変換処理部1402の処理について説明する。
残差直交変換処理部1402は、バッファbufresidk'を内部に有し、式(70)により初期化される。
Figure 2005064594
残差直交変換係数復号化部1401から出力される復号化残差直交変換係数gainresidgainresid_indexMIN ・coderesidk coderesid_indexMIN (k=0、Λ、N−1)を入力して、式(71)により拡張レイヤ復号化信号yresidn811を求める。
Figure 2005064594
ここで、Xresidk'は復号化残差直交変換係数gainresidgainresid_indexMIN ・coderesidk coderesid_indexMIN (k=0、Λ、N−1)とバッファbufresidk'とを結合させたベクトルであり、式(72)により求める。
Figure 2005064594
次に、式(73)によりバッファbufresidk'を更新する。
Figure 2005064594
次に、拡張レイヤ復号化信号yresidn811を出力する。
なお、本発明はスケーラブル符号化の階層について制限はなく、三階層以上の階層的な音声符号化/復号化方法において上位レイヤで聴感マスキング特性値を利用したベクトル量子化を行う場合についても適用することができる。
なお、ベクトル量子化部1106において、前記場合1から場合5の各距離計算に対し聴感重み付けフィルタを適用することにより量子化してもよい。
なお、本実施の形態では、基本レイヤ符号化部/復号化部の音声符号化/復号化方法としてCELPタイプの音声符号化/復号化方法を例に挙げ説明したが、その他の音声符号化/復号化方法を用いてもよい。
なお、本実施の形態では、基本レイヤ符号化情報及び拡張レイヤ符号化情報を別々に送信する例を提示したが、各レイヤの符号化情報を多重化して送信し、復号側で多重化分離して各レイヤの符号化情報を復号するよう構成してもよい。
このように、スケーラブル符号化方式においても、本発明の聴感マスキング特性値を利用したベクトル量子化を適用することにより、聴感的に影響の大きい信号の劣化を抑える適切なコードベクトルを選択することができ、より高品質な出力信号を得ることができる。
(実施の形態3)
図15は、本発明の実施の形態3おける上記実施の形態1、2で説明した符号化装置及び復号化装置を含む音声信号送信装置及び音声信号受信装置の構成を示すブロック図である。より具体的な応用としては、携帯電話、カーナビゲーションシステム等に適応可能である。
図15において、入力装置1502は、音声信号1500をデジタル信号にA/D変換し音声・楽音符号化装置1503へ出力する。音声・楽音符号化装置1503は、図1に示した音声・楽音符号化装置101を実装し、入力装置1502から出力されたデジタル音声信号を符号化し、符号化情報をRF変調装置1504へ出力する。RF変調装置1504は音声・楽音符号化装置1503から出力された音声符号化情報を電波等の伝播媒体に載せて送出するための信号に変換し送信アンテナ1505へ出力する。送信アンテナ1505はRF変調装置1504から出力された出力信号を電波(RF信号)として送出する。なお、図中のRF信号1506は送信アンテナ1505から送出された電波(RF信号)を表す。以上が音声信号送信装置の構成および動作である。
RF信号1507は受信アンテナ1508によって受信されRF復調装置1509へ出力される。なお、図中のRF信号1507は受信アンテナ1508に受信された電波を表し、伝播路において信号の減衰や雑音の重畳がなければRF信号1506と全く同じものになる。
RF復調装置1509は受信アンテナ1508から出力されたRF信号から音声符号化情報を復調し、音声・楽音復号化装置1510へ出力する。音声・楽音復号化装置1510は、図1に示した音声・楽音復号化装置105を実装し、RF復調装置1509から出力された音声符号化情報から音声信号を復号化し、出力装置1511は、復号されたデジタル音声信号をアナログ信号にD/A変換し、電気的信号を空気の振動に変換し音波として人間の耳に聴こえるように出力する。
このように、音声信号送信装置及び音声信号受信装置おいても、高品質な出力信号を得ることができる。
本明細書は、2003年12月26日出願の特願2003−433160に基づくものである。この内容を全てここに含めておく。
本発明は、聴感マスキング特性値を利用したベクトル量子化を適用することにより、聴感的に影響の大きい信号の劣化を抑える適切なコードベクトルを選択することができ、より高品質な出力信号を得ることができるという効果を有し、インターネット通信に代表されるパケット通信システムや、携帯電話、カーナビゲーションシステム等の移動通信システムの分野で、適応可能である。
本発明の実施の形態1に係る音声・楽音符号化装置及び音声・楽音復号化装置を含むシステム全体のブロック構成図 本発明の実施の形態1に係る音声・楽音符号化装置のブロック構成図 本発明の実施の形態1に係る聴感マスキング特性値算出部のブロック構成図 本発明の実施の形態1に係る臨界帯域幅の構成例を示す図 本発明の実施の形態1に係るベクトル量子化部のフローチャート 本発明の実施の形態1に係る聴感マスキング特性値と符号化値とMDCT係数の相対的位置関係を説明する図 本発明の実施の形態1に係る音声・楽音復号化装置のブロック構成図 本発明の実施の形態2に係る音声・楽音符号化装置及び音声・楽音復号化装置のブロック構成図 本発明の実施の形態2に係るCELP方式の音声符号化装置の構成概要図 本発明の実施の形態2に係るCELP方式の音声復号化装置の構成概要図 本発明の実施の形態2に係る拡張レイヤ符号化部のブロック構成図 本発明の実施の形態2に係るベクトル量子化部のフローチャート 本発明の実施の形態2に係る聴感マスキング特性値と符号化値とMDCT係数の相対的位置関係を説明する図 本発明の実施の形態2に係る復号化部のブロック構成図 本発明の実施の形態3に係る音声信号送信装置及び音声信号受信装置のブロック構成図 本発明の実施の形態1に係る符号化部のフローチャート 本発明の実施の形態1に係る聴感マスキング値算出部のフローチャート
符号の説明
101 音声・楽音符号化装置
105 音声・楽音復号化装置
201 直交変換処理部
202 ベクトル量子化部
203 聴感マスキング特性値算出部
204 形状コードブック
205 利得コードブック
301 フーリエ変換部
302 パワースペクトル算出部
303 聴感マスキング値算出部
304 最小可聴閾値算出部
305 メモリバッファ
701 ベクトル復号化部
702 直交変換処理部
801 基本レイヤ符号化部
803 基本レイヤ復号化部
805 拡張レイヤ符号化部
808 基本レイヤ復号化部
810 拡張レイヤ復号化部
1101 加算部
1103 直交変換処理部
1106 ベクトル量子化部
1108 形状コードブック
1109 利得コードブック
1401 ベクトル復号化部
1402 直交変換処理部
1403 形状コードブック
1404 利得コードブック

Claims (9)

  1. 音声・楽音信号を時間成分から周波数成分へ変換する直交変換処理手段と、前記音声・楽音信号から聴感マスキング特性値を求める聴感マスキング特性値算出手段と、前記聴感マスキング特性値に基づいて、予め設定されたコードブックから求めたコードベクトルと前記周波数成分との距離計算方法を変えてベクトル量子化を行うベクトル量子化手段と、を具備する音声・楽音符号化装置。
  2. 音声・楽音信号を符号化して基本レイヤ符号化情報を生成する基本レイヤ符号化手段と、前記基本レイヤ符号化情報を復号化して基本レイヤ復号化信号を生成する基本レイヤ復号化手段と、前記音声・楽音信号と前記基本レイヤ復号化信号との差分信号を符号化して拡張レイヤ符号化情報を生成する拡張レイヤ符号化手段と、を具備する音声・楽音符号化装置において、前記拡張レイヤ符号化手段は、前記音声・楽音信号から聴感マスキング特性値を求める聴感マスキング特性値算出手段と、前記差分信号を時間成分から周波数成分へ変換する直交変換処理手段と、前記聴感マスキング特性値に基づいて、予め設定されたコードブックから求めたコードベクトルと前記周波数成分との距離計算方法を変えてベクトル量子化を行うベクトル量子化手段と、を具備する音声・楽音符号化装置。
  3. 前記ベクトル量子化手段は、前記音声・楽音信号の周波数成分または前記コードベクトルのいずれか一方が、前記聴感マスキング特性値の示す聴感マスキング領域内にある場合に、前記聴感マスキング特性値に基づいて、前記音声・楽音信号の周波数成分と、前記コードベクトル間の距離計算方法を変えてベクトル量子化を行う請求項1記載の音声・楽音符号化装置。
  4. 前記ベクトル量子化手段は、形状コードブックから求めたコードベクトル及び利得コードブックから求めたコードベクトルに基づきベクトル量子化を行う請求項1記載の音声・楽音信号符号化装置。
  5. 前記直交変換処理手段は、修正離散コサイン変換(MDCT)、離散コサイン変換(DCT)、フーリエ変換または直交鏡像フィルタ(QMF)のいずれかにより前記音声・楽音信号を時間成分から周波数成分へ変換する請求項1記載の音声・楽音信号符号化装置。
  6. さらに、少なくとも一つの拡張レイヤ符号化手段を具備し、前記拡張レイヤ符号化手段は、上位の拡張レイヤ符号化手段に対する入力信号と、前記上位の拡張レイヤ符号化手段が生成した拡張レイヤ符号化情報の復号化信号との差分を符号化して拡張レイヤ符号化情報を生成する請求項2記載の音声・楽音符号化装置。
  7. 基本レイヤ符号化手段は、CELPタイプの音声・楽音信号符号化により入力信号を符号化する請求項2記載の音声・楽音信号符号化装置。
  8. 音声・楽音信号を時間成分から周波数成分へ変換する直交変換処理ステップと、前記音声・楽音信号から聴感マスキング特性値を求める聴感マスキング特性値算出ステップと、前記聴感マスキング特性値に基づいて、予め設定されたコードブックから求めたコードベクトルと前記周波数成分との距離計算方法を変えてベクトル量子化を行うベクトル量子化ステップと、を具備する音声・楽音符号化方法。
  9. コンピュータを、音声・楽音信号を時間成分から周波数成分へ変換する直交変換処理手段と、前記音声・楽音信号から聴感マスキング特性値を求める聴感マスキング特性値算出手段と、前記聴感マスキング特性値に基づいて、予め設定されたコードブックから求めたコードベクトルと前記周波数成分との距離計算方法を変えてベクトル量子化を行うベクトル量子化手段として機能させるための音声・楽音符号化プログラム。
JP2005516575A 2003-12-26 2004-12-20 音声・楽音符号化装置及び音声・楽音符号化方法 Expired - Fee Related JP4603485B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2003433160 2003-12-26
JP2003433160 2003-12-26
PCT/JP2004/019014 WO2005064594A1 (ja) 2003-12-26 2004-12-20 音声・楽音符号化装置及び音声・楽音符号化方法

Publications (2)

Publication Number Publication Date
JPWO2005064594A1 true JPWO2005064594A1 (ja) 2007-07-19
JP4603485B2 JP4603485B2 (ja) 2010-12-22

Family

ID=34736506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005516575A Expired - Fee Related JP4603485B2 (ja) 2003-12-26 2004-12-20 音声・楽音符号化装置及び音声・楽音符号化方法

Country Status (7)

Country Link
US (1) US7693707B2 (ja)
EP (1) EP1688917A1 (ja)
JP (1) JP4603485B2 (ja)
KR (1) KR20060131793A (ja)
CN (1) CN1898724A (ja)
CA (1) CA2551281A1 (ja)
WO (1) WO2005064594A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060131793A (ko) * 2003-12-26 2006-12-20 마츠시타 덴끼 산교 가부시키가이샤 음성ㆍ악음 부호화 장치 및 음성ㆍ악음 부호화 방법
JP4887288B2 (ja) * 2005-03-25 2012-02-29 パナソニック株式会社 音声符号化装置および音声符号化方法
BRPI0611430A2 (pt) * 2005-05-11 2010-11-23 Matsushita Electric Ind Co Ltd codificador, decodificador e seus métodos
CN1889172A (zh) * 2005-06-28 2007-01-03 松下电器产业株式会社 可增加和修正声音类别的声音分类系统及方法
KR20070046752A (ko) * 2005-10-31 2007-05-03 엘지전자 주식회사 신호 처리 방법 및 장치
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JPWO2008108077A1 (ja) * 2007-03-02 2010-06-10 パナソニック株式会社 符号化装置および符号化方法
CN101350197B (zh) * 2007-07-16 2011-05-11 华为技术有限公司 立体声音频编/解码方法及编/解码器
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
CA2717584C (en) * 2008-03-04 2015-05-12 Lg Electronics Inc. Method and apparatus for processing an audio signal
JP5269195B2 (ja) * 2009-05-29 2013-08-21 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法及びそのプログラム
RU2464649C1 (ru) 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
JP6160072B2 (ja) * 2012-12-06 2017-07-12 富士通株式会社 オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置
CN109215670B (zh) * 2018-09-21 2021-01-29 西安蜂语信息科技有限公司 音频数据的传输方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160297A (ja) * 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
JPH08123490A (ja) * 1994-10-24 1996-05-17 Matsushita Electric Ind Co Ltd スペクトル包絡量子化装置
JP2002268693A (ja) * 2001-03-12 2002-09-20 Mitsubishi Electric Corp オーディオ符号化装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US80091A (en) * 1868-07-21 keplogley of martinsbukg
US44727A (en) * 1864-10-18 Improvement in sleds
US173677A (en) * 1876-02-15 Improvement in fabrics
US5502789A (en) * 1990-03-07 1996-03-26 Sony Corporation Apparatus for encoding digital data with reduction of perceptible noise
US5323486A (en) * 1990-09-14 1994-06-21 Fujitsu Limited Speech coding system having codebook storing differential vectors between each two adjoining code vectors
KR950010340B1 (ko) * 1993-08-25 1995-09-14 대우전자주식회사 시간 매스킹 현상을 이용한 오디오 신호의 왜곡 측정장치
KR970005131B1 (ko) * 1994-01-18 1997-04-12 대우전자 주식회사 인간의 청각특성에 적응적인 디지탈 오디오 부호화장치
US5864797A (en) * 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
TW321810B (ja) * 1995-10-26 1997-12-01 Sony Co Ltd
JP3351746B2 (ja) * 1997-10-03 2002-12-03 松下電器産業株式会社 オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置
EP0907258B1 (en) 1997-10-03 2007-01-03 Matsushita Electric Industrial Co., Ltd. Audio signal compression, speech signal compression and speech recognition
KR100900113B1 (ko) 1997-10-22 2009-06-01 파나소닉 주식회사 확산 펄스 벡터 생성 장치 및 방법
KR100304092B1 (ko) 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
JP4327420B2 (ja) * 1998-03-11 2009-09-09 パナソニック株式会社 オーディオ信号符号化方法、及びオーディオ信号復号化方法
JP3515903B2 (ja) * 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
CN1296888C (zh) 1999-08-23 2007-01-24 松下电器产业株式会社 音频编码装置以及音频编码方法
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
JP2002323199A (ja) 2001-04-24 2002-11-08 Matsushita Electric Ind Co Ltd 液化石油ガス気化装置
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
EP1489599B1 (en) 2002-04-26 2016-05-11 Panasonic Intellectual Property Corporation of America Coding device and decoding device
JP2003323199A (ja) 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
WO2004097796A1 (ja) 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
KR20060131793A (ko) * 2003-12-26 2006-12-20 마츠시타 덴끼 산교 가부시키가이샤 음성ㆍ악음 부호화 장치 및 음성ㆍ악음 부호화 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160297A (ja) * 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
JPH08123490A (ja) * 1994-10-24 1996-05-17 Matsushita Electric Ind Co Ltd スペクトル包絡量子化装置
JP2002268693A (ja) * 2001-03-12 2002-09-20 Mitsubishi Electric Corp オーディオ符号化装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6009066235, 米崎正 他, ""時間周波数マスキングを利用したスペクトル包絡のベクトル量子化"", 日本音響学会平成7年度秋季研究発表会 講演論文集 −I−, 19950927, p.283−284 *

Also Published As

Publication number Publication date
KR20060131793A (ko) 2006-12-20
US7693707B2 (en) 2010-04-06
WO2005064594A1 (ja) 2005-07-14
EP1688917A1 (en) 2006-08-09
CN1898724A (zh) 2007-01-17
JP4603485B2 (ja) 2010-12-22
CA2551281A1 (en) 2005-07-14
US20070179780A1 (en) 2007-08-02

Similar Documents

Publication Publication Date Title
US7752052B2 (en) Scalable coder and decoder performing amplitude flattening for error spectrum estimation
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
JP4822843B2 (ja) スペクトル符号化装置、スペクトル復号化装置、音響信号送信装置、音響信号受信装置、およびこれらの方法
JP4871894B2 (ja) 符号化装置、復号装置、符号化方法および復号方法
US7864843B2 (en) Method and apparatus to encode and/or decode signal using bandwidth extension technology
JP5013863B2 (ja) 符号化装置、復号化装置、通信端末装置、基地局装置、符号化方法及び復号化方法
EP2017830B1 (en) Encoding device and encoding method
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
JP4603485B2 (ja) 音声・楽音符号化装置及び音声・楽音符号化方法
JP2003323199A (ja) 符号化装置、復号化装置及び符号化方法、復号化方法
US7844451B2 (en) Spectrum coding/decoding apparatus and method for reducing distortion of two band spectrums
JP4789622B2 (ja) スペクトル符号化装置、スケーラブル符号化装置、復号化装置、およびこれらの方法
US20090210219A1 (en) Apparatus and method for coding and decoding residual signal
JP4287840B2 (ja) 符号化装置
WO2011058752A1 (ja) 符号化装置、復号装置およびこれらの方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100702

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101001

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4603485

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees