JPWO2006121101A1 - 音声符号化装置およびスペクトル変形方法 - Google Patents

音声符号化装置およびスペクトル変形方法 Download PDF

Info

Publication number
JPWO2006121101A1
JPWO2006121101A1 JP2007528311A JP2007528311A JPWO2006121101A1 JP WO2006121101 A1 JPWO2006121101 A1 JP WO2006121101A1 JP 2007528311 A JP2007528311 A JP 2007528311A JP 2007528311 A JP2007528311 A JP 2007528311A JP WO2006121101 A1 JPWO2006121101 A1 JP WO2006121101A1
Authority
JP
Japan
Prior art keywords
signal
spectrum
interleaving
channel
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007528311A
Other languages
English (en)
Other versions
JP4982374B2 (ja
Inventor
チュン オエイ テオ
チュン オエイ テオ
スア ホン ネオ
スア ホン ネオ
吉田 幸司
幸司 吉田
道代 後藤
道代 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2007528311A priority Critical patent/JP4982374B2/ja
Publication of JPWO2006121101A1 publication Critical patent/JPWO2006121101A1/ja
Application granted granted Critical
Publication of JP4982374B2 publication Critical patent/JP4982374B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

信号推定および予測の効率を向上させ、スペクトルをより効率的に符号化することができるスペクトル変形方法等を開示する。この方法では、参照信号である原信号からピッチ周期を算出し、基本ピッチ周波数f0を算出する。次に、スペクトル変形の対象であるターゲット信号のスペクトルを、複数のパーティションに分割する。ここで、各パーティションの幅は、基本ピッチ周波数とする。そして、振幅が類似する複数のピークが1つのグループにまとまるように、各帯域のスペクトルをインタリーブする。インタリーブ間隔として基本ピッチ周波数が用いられる。

Description

本発明は、音声符号化装置およびスペクトル変形方法に関する。
モノラル音声信号を符号化する音声符号化技術が、現在では標準となっている。このようなモノラル符号化は、信号が、例えば人間の発声等の単一音源から来るような、携帯電話およびテレコンファレンス機器等の通信機器において一般に用いられる。
従来は、送信信号の帯域幅およびDSPの処理速度等の理由に、そのようなモノラル信号に制限されていた。しかし、技術が進歩し、帯域幅が改善されるにつれ、この制約は、次第に重要性を有しないものとなってきている。一方で、音声品質が、より重要な考慮すべきファクターとなっている。モノラル音声の短所の一つは、立体的な音感または発話者の位置等のような空間情報を提供しないことである。従って、今後は、より良いサウンドを実現するために、可能な限り低いビットレートで、良好な品質のステレオ音声を達成することを考慮すべきである。
ステレオ音声信号を符号化する一つの方法は、信号の予測またはその推定技術を利用する。すなわち、一方のチャネルは公知のオーディオ符号化技術を用いて符号化し、他方のチャネルは、このチャネルを分析および抽出することによって得られるサイド情報の幾つかを用いて、既に符号化されたチャネルから予測または推定を行う。
このような方法は、バイノーラル・キュー・コーディング・システム(例えば、非特許文献1参照)の一部として、特許文献1にこれに関する記載がなされているところであり、その記載においては、この方法は、参照チャネルを基準として一方のチャネルのレベルを調整する目的において行われるチャネル間レベル差(ILD:interchannel level difference)の算出に適用されている。
予測または推定された信号というものは、原音と比べて忠実でなくなることも多い。このため、予測または推定された信号に対しては、それが元のものに可能な限り類似したものとなるようにエンハンスメントがなされる必要がある。
オーディオ信号および音声信号は、一般に周波数領域において処理される。この周波数領域データは、一般に変換された領域におけるスペクトル係数と称される。よって、このような予測および推定方法は、周波数領域において、これを行うことができる。例えば、LチャネルおよびRチャネルのスペクトルデータは、そのサイド情報の幾つかを抽出して、これをモノラルチャネルに適用することにより推定することができる(特許文献1参照)。他の変形例には、LチャネルがRチャネルから推定可能であるように、一方のチャネルを他方のチャネルから推定するもの等が含まれる。
オーディオ処理および音声処理におけるエンハンスメントが適用される一つの分野として、スペクトルエネルギー推定がある。これは、スペクトルエネルギー予測またはスケーリングとも呼ばれる。典型的なスペクトルエネルギー推定演算では、時間領域信号が、周波数領域信号に変換される。この周波数領域信号は、通常は、臨界帯域に合わせて、複数の周波数帯域にパーティション化される。この処理は、参照チャネルと、推定されるチャネルとの双方に対してなされる。両方のチャネルの各々の周波数帯域について、エネルギーが算出され、両チャネルのエネルギー比率を用いてスケールファクタが算出される。このスケールファクタは、受信装置に対し送信され、この受信装置において、このスケールファクタを用いて参照信号がスケーリングされ、各周波数帯域に対しての変換された領域における推定信号が得られる。その後、逆周波数変換処理が施され、推定変換領域スペクトルデータに相当する時間領域信号が得られる。
国際公開第03/090208号パンフレット C.Faller and F.Baumgarte,"Binaural cue coding:A novel and efficient representation of spatial audio",Proc.ICASSP,Orlando,Florida,Oct.2002.
図1は、駆動音源信号のスペクトル(駆動音源スペクトル)の一例を表わしている。この周波数スペクトルは、周期的なピークを示し、周期性を有し、かつ定常性を有するスペクトルである。また、図2は、臨界帯域によるパーティション化の例を示す図である。
従来の方法においては、図2に示す周波数領域のスペクトル係数は、複数の臨界帯域に分割されて、エネルギーおよびスケールファクタの算出がなされる。この方法は、非駆動音源信号を処理するのに一般に用いられる方法であるが、駆動音源スペクトルには繰り返しパターンが現れることから、この方法を駆動音源信号に用いるのは、あまり適切ではない。ここで、非駆動音源信号とは、駆動音源信号を生成するLPC分析等の信号処理に用いられる信号を意味する。
このように、単に駆動音源スペクトルを臨界帯域に分割するというのでは、図2に示すような臨界帯域によるパーティション化においては、各帯域の帯域幅が不均等であることにより、駆動音源スペクトルの各ピークの立ち上がりおよび立ち下がりを精度良く表わすスケールファクタを算出することができない。
よって、本発明の目的は、信号推定および予測の効率を向上させ、スペクトルをより効率的に表現することができる音声符号化装置およびスペクトル変形方法を提供することである。
上記課題を解決するために本発明は、音声信号のうちの周期性を有する部分についてピッチ周期を求める。このピッチ周期は、音声信号の基本ピッチ周波数または繰り返しパターン(調波構造)を求めるのに用いられる。スペクトルの規則的な間隔または周期性パターンを利用してインタリーブを施し、振幅が類似する複数のピーク(スペクトル係数)を1つのグループにまとめることにより複数のグループを生成した後、スケールファクタを算出する。駆動音源スペクトルは、基本ピッチ周波数をインタリーブ間隔として用い、スペクトルをインタリーブすることにより並び方が変更される。
これにより、振幅が類似した複数のスペクトル係数が1つのグループにまとめられるので、ターゲット信号のスペクトルを正しい振幅レベルに調整するのに用いられるスケールファクタの量子化効率を向上させることができる。
また、上記課題を解決するために本発明は、インタリーブが必要かどうかを選択する。この判断基準は、処理されている信号のタイプに依存する。音声信号のうちの周期性を有する部分は、スペクトルにおいて繰り返しパターンを示す。そのような場合には、基本ピッチ周波数をインタリーブ単位(インタリーブ間隔)として用いて、スペクトルがインタリーブされる。一方、音声信号のうちの周期性を有しない部分は、スペクトル波形において繰り返しパターンを有しない。従って、この場合、インタリーブを用いないスペクトル変形が実行される。
これにより、信号のタイプが異なる場合に、この相違に対応した適切なスペクトル変形方法を選択する柔軟なシステムを構築でき、全体の符号化効率が向上する。
本発明によれば、信号推定および予測の効率を向上させ、スペクトルをより効率的に表現することができる。
駆動音源スペクトルの一例を表す図 臨界帯域によるパーティション化の例を示す図 本発明に係る等間隔の帯域パーティション化が施されたスペクトルの一例を示す図 本発明に係るインタリーブ処理の概要を示した図 実施の形態1に係る音声符号化装置および音声復号装置の基本的な構成を示すブロック図 実施の形態1に係る周波数変換部およびスペクトル差演算部内部の主要な構成を示すブロック図 帯域分割の例を示す図 実施の形態1に係るスペクトル変形部の内部を表した図 実施の形態2に係る音声符号化システム(符号化側)を示す図 実施の形態2に係る音声符号化システム(復号側)を示す図 実施の形態2に係るステレオタイプの音声符号化システムを示す図
本発明に係る音声符号化装置は、入力されるスペクトルに対し変形処理を施し、変形後のスペクトルを符号化する。まず、符号化装置において、変形対象となるターゲット信号は、周波数領域のスペクトル成分に変換される。このターゲット信号は、通常は、原信号とは類似していない信号である。なお、ターゲット信号は、原信号を予測または推定したものであっても良い。
原信号は、スペクトル変形処理において、参照信号として用いられる。参照信号は、周期性を含むものであるか否か判断される。参照信号が周期性を有するものと判断された場合、ピッチ周期Tが算出される。このピッチ周期Tから、参照信号の基本ピッチ周波数fが算出される。
スペクトルインタリーブ処理が、周期性を有すると判断されたフレームに対して実行される。スペクトルインタリーブ処理の対象であることを示すには、フラグ(以下、インタリーブ・フラグという)が用いられる。まず、ターゲット信号のスペクトルおよび参照信号のスペクトルは、複数のパーティションに分割される。各パーティションの幅は、基本ピッチ周波数fの間隔幅に相当する。図3は、本発明に係る等間隔の帯域パーティション化が施されたスペクトルの一例を示す図である。そして、各帯域のスペクトルは、基本ピッチ周波数fをインタリーブ間隔として、インタリーブされる。図4は、上記のインタリーブ処理の概要を示した図である。
インタリーブされたスペクトルは、さらに幾つかの帯域に分割される。そして、各帯域のエネルギーが算出される。さらに各帯域について、ターゲットチャネルのエネルギーと参照チャネルのエネルギーとが比較される。これらの二つのチャネルの間のエネルギーの差または比が算出され、これがスケールファクタの表現形式を取って量子化される。このスケールファクタは、スペクトル変形処理のために、ピッチ周期およびインタリーブ・フラグと共に復号装置に送信される。
一方、復号装置では、主復号器で合成されるターゲット信号が、符号化装置から送信された符号化パラメータを用いて、変形される。まず、ターゲット信号が周波数領域に変換される。そして、インタリーブ・フラグがアクティブに設定されている場合には、基本ピッチ周波数をインタリーブ間隔として用い、スペクトル係数がインタリーブされる。この基本ピッチ周波数は、符号化装置から送信されたピッチ周期から算出される。インタリーブを施されたスペクトル係数は、符号化装置におけるものと同数の帯域に分割され、各々の帯域に対して、スケールファクタを用いて、そのスペクトルが参照信号のスペクトルに近いものとなるように上記スペクトル係数の振幅が調整される。その後、調整されたスペクトル係数は、デインタリーブされて、インタリーブされていた状態のスペクトル係数が元の並び方に配列し直される。上記調整されたデインタリーブ後のスペクトルに対して、逆周波数変換が施され、時間領域の駆動音源信号が得られる。上述の処理にあっては、信号が周期性を有しないものであると判断された場合には、インタリーブの処理が省略され、他の処理が続けられる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、同様の機能を有する構成に対しては、基本的に同じ符号を付し、複数存在する場合には、符号の後にa、bを付して区別する。
(実施の形態1)
図5は、本実施の形態に係る符号化装置100および復号装置150の基本的な構成を示すブロック図である。
符号化装置100において、周波数変換部101は、参照信号eおよびターゲット信号eを周波数領域信号に変換する。ターゲット信号eは、参照信号eに相似するように変形されるターゲットである。また、参照信号eは、入力信号sを、LPC係数を用いて逆フィルタリング処理することにより得ることができ、ターゲット信号eは、駆動音源符号化処理の結果として得られる。
スペクトル差演算部102は、周波数変換後に得られたスペクトル係数に対して、周波数領域における参照信号とターゲット信号とのスペクトル差を算出する処理を施す。この算出には、スペクトル係数のインタリーブ処理、この係数の複数の帯域へのパーティション化処理、各帯域に対する参照チャネルとターゲットチャネルとの間の差の算出処理、さらに、これらの差を復号装置に送信されるG’として量子化する処理等の一連の処理が伴われる。インタリーブ処理は、このスペクトル差演算の重要な一部ではあるものの、全ての信号フレームについて、インタリーブが施される必要があるわけではない。インタリーブが必要かどうかは、インタリーブ・フラグであるI_flagによって示されており、フラグがアクティブかどうかは、現フレームにおいて処理がなされている信号のタイプに依存する。ある特定のフレームについてインタリーブがなされる必要がある場合には、現在の音声フレームのピッチ周期であるTから算出されるインタリーブ間隔が用いられる。これらの処理は、音声コーデックの符号化装置で行われる。
復号装置150において、スペクトル変形部103は、ターゲット信号eを得た後に、インタリーブ・フラグI_flagおよびピッチ周期T等の他の情報と共に量子化情報G’を得る。そして、スペクトル変形部103は、これらのパラメータによって得られるスペクトルが、参照信号のスペクトルに近いものとなるように、ターゲット信号のスペクトルを変形する。
図6は、上記の周波数変換部101およびスペクトル差演算部102内部の主要な構成を示すブロック図である。
FFT部201は、FFT等の変換方法を用いて、変形対象となるターゲット信号eおよび参照信号eを周波数領域の信号に変換する。FFT部201は、I_flagをフラグとして用い、信号の特定フレームがインタリーブを施されるに適するかどうかを判断する。インタリーブ部202におけるインタリーブ処理に先立ち、現在の音声フレームが周期性かつ定常性を有する信号であるかどうかを判定するためのピッチ検出が実行される。処理されるフレームが周期性かつ定常性を有する信号である場合には、インタリーブ・フラグは、アクティブに設定される。周期性かつ定常性を有する信号の場合、駆動音源処理により、通常は、スペクトル波形において、あるインターバルでの特徴的なピークを有する周期性パターンが生じる(図1参照)。このインターバルは、信号のピッチ周期Tまたは周波数領域における基本ピッチ周波数fにより特定される。
インタリーブ部202は、インタリーブ・フラグがアクティブに設定されている場合、参照信号とターゲット信号との両方について、変換されたスペクトル係数に対するサンプルインタリーブ処理を実行する。このサンプルインタリーブでは、全帯域内のある特定の領域が予め選択される。通常は、スペクトル波形において、3kHzまたは4kHzまでの低周波領域の方が、よりはっきりと明確なピークが生じる。従って、インタリーブ領域として低周波領域が選択されることが多い。例えば、図4を再度参照すると、Nサンプルのスペクトルがインタリーブされる低周波領域として選択されている。そして、インタリーブ後に、大きさの近似したエネルギー係数がグループ化してまとめられるように、現フレームの基本ピッチ周波数fがインタリーブ間隔として用いられる。そして、N個のサンプルは、K個のパーティションに分割され、インタリーブが施される。このインタリーブ処理は、次式(1)に従って、各帯域のスペクトル係数を算出することによって行われる。ここでJは、各帯域のサンプル数、すなわち、各パーティションのサイズを表している。
Figure 2006121101
本実施の形態に係るインタリーブ処理は、全ての入力音声フレームに対して固定のインタリーブ間隔値を用いることはしない。すなわち、参照信号の基本ピッチ周波数fを算出することにより、インタリーブ間隔を適応的に調整する。この基本ピッチ周波数fは、参照信号のピッチ周期Tから直接算出される。
パーティション化部203は、スペクトル係数がインタリーブされた後に、図7に示すように、Nサンプル領域のスペクトルをB個の帯域(バンド)に分割し、各帯域が同数のスペクトル係数を有するようにする。この帯域数は、8、10、12等の任意の数に設定することができる。帯域数は、望ましくは、各々のピッチ高調波の同位置から抽出される各帯域のスペクトル係数が振幅において類似したものとなるような数が設定される。すなわち、インタリーブ処理におけるパーティション数と同数またはその倍数となるように、すなわち、B=Kの帯域、またはB=LK(Lは整数)の帯域となるように設定される。各ピッチ周期におけるj=0のサンプルは、各々のインタリーブされた帯域の最初のサンプルにあたり、各ピッチ周期におけるj=J−1のサンプルは、各々のインタリーブされた帯域の最後のサンプルにあたる。
帯域数がKの倍数にならない場合には、スペクトル係数の個数が等しく分配されないこともある。そのような場合には、パーティション化部203は、等しく分配可能なサンプルは、次式(2a)に従って割り当て、残りのサンプルは、次式(2b)に従って最後の帯域(b=B−1)に割り当てる。
Figure 2006121101
ある特定のフレームに対してインタリーブが用いられない場合、上記の残りのサンプルに対する帯域割り当てと同様の方法でインタリーブを施されていない係数に帯域が割り当てられ、パーティション化される。
エネルギー算出部204は、次式(3)に従って、帯域bのエネルギーを算出する。
Figure 2006121101
上記のエネルギー演算は、参照信号とターゲット信号との双方の各帯域についてなされ、参照信号エネルギーenergy_refおよびターゲット信号エネルギーenergy_tgtが生成される。
Nサンプルの中に含まれない領域については、インタリーブ処理が施されない。インタリーブされない領域のサンプルもまた、式(2a)および(2b)を用いて、2から8まで等の複数の帯域によるパーティションに分けられ、さらに式(3)を用いて、それらのインタリーブされない帯域のエネルギーが算出される。
ゲイン算出部205は、インタリーブが施された領域とインタリーブが施されなかった領域との両方についての参照信号とターゲット信号とのエネルギーデータを用いて、帯域bのゲインGを算出する。このゲインGは、復号装置において、ターゲット信号のスペクトルをスケーリングし、変形するためのゲインである。ゲインGは、次式(4)に従って算出される。
Figure 2006121101
ここで、Bは、インタリーブされた領域とインタリーブされなかった領域との双方の領域における帯域の総数である。
ゲイン量子化部206は、ゲインGを、量子化分野において一般に知られるスカラー量子化またはベクトル量子化を用いて量子化し、量子化ゲインG’を得る。量子化ゲインG’は、ピッチ周期Tおよびインタリーブ・フラグI_flagと併せて、復号装置で信号のスペクトルを変形するために、復号装置150に対して送信される。
復号装置150における処理は、参照信号と比較したターゲット信号の差が算出された符号化装置の処理に対する逆処理となる。すなわち、復号装置においては、スペクトル変形によるものが参照信号に可能な限り近いものとなるように、この差がターゲット信号に対して、適用される。
図8は、上記の復号装置150が備えるスペクトル変形部103の内部を表した図である。
変形がなされる必要のある、符号化装置100のものと同一のターゲット信号eは、復号装置150において、この段階では既に合成がなされていて、スペクトル変形が実行できる状態にあるものと仮定する。また、スペクトル変形部103での処理を実行することができるように、量子化ゲインG’、ピッチ周期Tおよびインタリーブ・フラグI_flagもビットストリームから復号される。
FFT部301は、ターゲット信号eを、符号化装置100で用いられたものと同一の変換処理を用いて、周波数領域に変換する。
インタリーブ部302は、インタリーブ・フラグI_flagがアクティブに設定されている場合、ピッチ周期Tから算出される基本ピッチ周波数fをインタリーブ間隔として用い、式(1)に従って、スペクトル係数をインタリーブする。このインタリーブ・フラグI_flagは、現フレームに対しインタリーブ処理を施す必要があるか否かを示すフラグである。
パーティション化部303は、これらの係数を符号化装置100で用いられたのと同数の帯域に分割する。インタリーブが用いられる場合には、インタリーブされた係数がパーティションに分けられ、そうでなければ、インタリーブされていない係数がパーティション化される。
スケーリング部304は、量子化ゲインG’を用いて次式(5)に従って、スケーリング後の各帯域のスペクトル係数を算出する。
Figure 2006121101
ここで、band(b)は、bで表わされる帯域内のスペクトル係数の数である。上記式(5)は、スペクトル係数値を調整して、各帯域のエネルギーが参照信号と類似したものとなるようにすることを表しており、この式(5)に従って、信号のスペクトルは変形される。
デインタリーブ部305は、スペクトル係数がインタリーブ部302においてインタリーブされている場合には、スペクトル係数をデインタリーブして、これらのインタリーブされた係数が元のインタリーブされる前の順序に戻るよう再配列する。一方、インタリーブ部302においてインタリーブが行われていない場合には、デインタリーブ部305はデインタリーブ処理を実行しない。その後、調整されたスペクトル係数は、IFFT部306において、逆FFT等の逆周波数変換を介して、時間領域信号に戻される。この時間領域信号は、予測または推定された駆動音源信号e’であって、そのスペクトルは、参照信号eのスペクトルに類似したものとなるように変形されている。
このように、本実施の形態によれば、周波数スペクトルにおける周期性パターン(繰り返しパターン)を利用し、インタリーブ処理を用いて信号スペクトルを変形し、スペクトル係数のうちの類似したものをグループ化するので、音声符号化装置の符号化効率を向上させることができる。
また、本実施の形態は、ターゲット信号のスペクトルを正しい振幅レベルに調整するのに用いられるスケールファクタの量子化効率を向上させるのに役立つ。また、インタリーブ・フラグにより、スペクトル変形方法が適切な音声フレームのみに対して適用されるような、よりインテリジェントなシステムが提供される。
(実施の形態2)
図9は、実施の形態1に係る符号化装置100を、典型的な音声符号化システム(符号化側)1000に適用した例を示す図である。
LPC分析部401は、入力音声信号sをフィルタリングして、LPC係数および駆動音源信号を得るために用いられる。このLPC係数は、LPC量子化部402において、量子化および符号化され、一方、駆動音源信号は、駆動音源符号化部403において符号化されて、駆動音源パラメータが得られる。これらの構成要素は、典型的な音声符号化器の主符号化器400を構成する。
符号化装置100は、符号化品質を向上させるべく、この主符号化器400に対して追加して設けられるものである。ターゲット信号eは、駆動音源符号化部403より、符号化された駆動音源信号から得られる。参照信号eは、入力音声信号sを、LPC逆フィルタ404においてLPC係数を用いて逆フィルタリング処理することにより得られる。ピッチ周期Tおよびインタリーブ・フラグI_flagは、ピッチ周期抽出・有声/無声判定部405において入力音声信号sを用いて算出される。符号化装置100は、これらの入力を受けて、上述の通りの処理を行い、復号装置においてスペクトル変形処理に用いられるスケールファクタG’を得る。
図10は、実施の形態1に係る復号装置150を、典型的な音声符号化システム(復号側)1500に適用した例を示す図である。
音声符号化システム1500では、駆動音源生成部501、LPC復号部502、およびLPC合成フィルタ503が、典型的な音声復号器の主復号器500を構成する。駆動音源生成部501において駆動音源信号が生成され、LPC復号部502において送信された駆動音源パラメータを用いて量子化されたLPC係数が復号される。この駆動音源信号および復号されたLPC係数は、出力音声を合成するのに直接は用いられない。これに先立ち、生成された駆動音源信号は、上述した処理に従って、復号装置150においてピッチ周期T、インタリーブ・フラグI_flagおよびスケールファクタG’等の送信されたパラメータを用いてスペクトルを変形することによりエンハンスされる。駆動音源生成部501から生成された駆動音源信号は、変形されるターゲット信号eとしての役割を果たす。復号装置150のスペクトル変形部103からの出力は、そのスペクトルが参照信号eのスペクトルに近いものとなるように変形されている駆動音源信号e’である。変形された駆動音源信号e’および復号されたLPC係数は、LPC合成フィルタ503において、出力音声s’を合成するのに用いられる。
また、以上の記載から、実施の形態1に係る符号化装置100および復号装置150は、図11に示されるようなステレオタイプの音声符号化システムに対しても適用可能であることが明らかである。このステレオ音声符号化システムにおいては、ターゲットチャネルは、モノラルチャネルであり得る。このモノラル信号Mは、ステレオチャネルのLチャネルとRチャネルとの平均を取ることにより、モノラル信号を合成する。参照チャネルは、LチャネルまたはRチャネルの何れであっても良い。なお、図11においては、Lチャネル信号Lが参照チャネルとして用いられている。
符号化装置において、Lチャネル信号Lとモノラル信号Mとは、それぞれ分析部400a、400bにおいて処理される。この処理の目的は、それぞれのチャネルについて、LPC係数、駆動音源パラメータおよび駆動音源信号を取得することである。Lチャネルの駆動音源信号は参照信号eとして、一方、モノラルの駆動音源信号はターゲット信号eとして機能する。符号化装置における残りの処理は、上述の通りである。この適用例における唯一の相違は、参照チャネル音声信号を合成するために用いられるための参照チャネル自身のLPC係数のセットが復号装置に対して送られる点である。
復号装置においては、駆動音源生成部501においてモノラルの駆動音源信号が生成され、LPC係数がLPC復号部502bにおいて復号化される。出力モノラル音声M’は、LPC合成フィルタ503bにおいて、モノラルの駆動音源信号およびモノラルチャネルのLPC係数を用いて合成される。また、モノラルの駆動音源信号eは、ターゲット信号eとしても機能する。ターゲット信号eは、復号装置150において変形され、推定または予測されたLチャネルの駆動音源信号e’が得られる。変形された駆動音源信号e’およびLPC復号部502aで復号されたLチャネルのLPC係数を用いて、Lチャネル信号L’がLPC合成フィルタ503aにおいて合成される。L信号L’およびモノラル信号M’が生成されれば、Rチャネル算出部601において、次式(6)を用いてRチャネル信号R’を算出することができる。
Figure 2006121101
なお、モノラル信号の場合、Mは符号化側でM=(L+R)/2によって算出される。
このように、本実施の形態によれば、実施の形態1に係る符号化装置100および復号装置150をステレオ音声符号化システムに適用することにより、駆動音源信号の精度が高まる。よって、スケールファクタを導入することによりビットレートは僅かながら高くなってしまうこととなるものの、予測または推定された信号をエンハンスし、原信号に可能な限り類似したものとすることができるので、「ビットレート」対「音声品質」の点で見れば、符号化効率を向上させることができる。
以上、本発明の各実施の形態について説明した。
本発明に係る音声符号化装置およびスペクトル変形方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。
本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るスペクトル変形方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本明細書は、2005年5月13日出願の特願2005−141343に基づく。この内容はすべてここに含めておく。
本発明に係る音声符号化装置およびスペクトル変形方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用できる。
本発明は、音声符号化装置およびスペクトル変形方法に関する。
モノラル音声信号を符号化する音声符号化技術が、現在では標準となっている。このようなモノラル符号化は、信号が、例えば人間の発声等の単一音源から来るような、携帯電話およびテレコンファレンス機器等の通信機器において一般に用いられる。
従来は、送信信号の帯域幅およびDSPの処理速度等の理由に、そのようなモノラル信号に制限されていた。しかし、技術が進歩し、帯域幅が改善されるにつれ、この制約は、次第に重要性を有しないものとなってきている。一方で、音声品質が、より重要な考慮すべきファクターとなっている。モノラル音声の短所の一つは、立体的な音感または発話者の位置等のような空間情報を提供しないことである。従って、今後は、より良いサウンドを実現するために、可能な限り低いビットレートで、良好な品質のステレオ音声を達成することを考慮すべきである。
ステレオ音声信号を符号化する一つの方法は、信号の予測またはその推定技術を利用する。すなわち、一方のチャネルは公知のオーディオ符号化技術を用いて符号化し、他方のチャネルは、このチャネルを分析および抽出することによって得られるサイド情報の幾つかを用いて、既に符号化されたチャネルから予測または推定を行う。
このような方法は、バイノーラル・キュー・コーディング・システム(例えば、非特許文献1参照)の一部として、特許文献1にこれに関する記載がなされているところであり、その記載においては、この方法は、参照チャネルを基準として一方のチャネルのレベルを調整する目的において行われるチャネル間レベル差(ILD:interchannel level difference)の算出に適用されている。
予測または推定された信号というものは、原音と比べて忠実でなくなることも多い。このため、予測または推定された信号に対しては、それが元のものに可能な限り類似したものとなるようにエンハンスメントがなされる必要がある。
オーディオ信号および音声信号は、一般に周波数領域において処理される。この周波数領域データは、一般に変換された領域におけるスペクトル係数と称される。よって、このような予測および推定方法は、周波数領域において、これを行うことができる。例えば、LチャネルおよびRチャネルのスペクトルデータは、そのサイド情報の幾つかを抽出して、これをモノラルチャネルに適用することにより推定することができる(特許文献1参照)。他の変形例には、LチャネルがRチャネルから推定可能であるように、一方のチャネルを他方のチャネルから推定するもの等が含まれる。
オーディオ処理および音声処理におけるエンハンスメントが適用される一つの分野として、スペクトルエネルギー推定がある。これは、スペクトルエネルギー予測またはスケーリングとも呼ばれる。典型的なスペクトルエネルギー推定演算では、時間領域信号が、周波数領域信号に変換される。この周波数領域信号は、通常は、臨界帯域に合わせて、複数の周波数帯域にパーティション化される。この処理は、参照チャネルと、推定されるチャネルとの双方に対してなされる。両方のチャネルの各々の周波数帯域について、エネルギーが算出され、両チャネルのエネルギー比率を用いてスケールファクタが算出される。このスケールファクタは、受信装置に対し送信され、この受信装置において、このスケール
ファクタを用いて参照信号がスケーリングされ、各周波数帯域に対しての変換された領域における推定信号が得られる。その後、逆周波数変換処理が施され、推定変換領域スペクトルデータに相当する時間領域信号が得られる。
国際公開第03/090208号パンフレット C. Faller and F. Baumgarte, "Binaural cue coding: A novel and efficient representation of spatial audio", Proc. ICASSP, Orlando, Florida, Oct. 2002.
図1は、駆動音源信号のスペクトル(駆動音源スペクトル)の一例を表わしている。この周波数スペクトルは、周期的なピークを示し、周期性を有し、かつ定常性を有するスペクトルである。また、図2は、臨界帯域によるパーティション化の例を示す図である。
従来の方法においては、図2に示す周波数領域のスペクトル係数は、複数の臨界帯域に分割されて、エネルギーおよびスケールファクタの算出がなされる。この方法は、非駆動音源信号を処理するのに一般に用いられる方法であるが、駆動音源スペクトルには繰り返しパターンが現れることから、この方法を駆動音源信号に用いるのは、あまり適切ではない。ここで、非駆動音源信号とは、駆動音源信号を生成するLPC分析等の信号処理に用いられる信号を意味する。
このように、単に駆動音源スペクトルを臨界帯域に分割するというのでは、図2に示すような臨界帯域によるパーティション化においては、各帯域の帯域幅が不均等であることにより、駆動音源スペクトルの各ピークの立ち上がりおよび立ち下がりを精度良く表わすスケールファクタを算出することができない。
よって、本発明の目的は、信号推定および予測の効率を向上させ、スペクトルをより効率的に表現することができる音声符号化装置およびスペクトル変形方法を提供することである。
上記課題を解決するために本発明は、音声信号のうちの周期性を有する部分についてピッチ周期を求める。このピッチ周期は、音声信号の基本ピッチ周波数または繰り返しパターン(調波構造)を求めるのに用いられる。スペクトルの規則的な間隔または周期性パターンを利用してインタリーブを施し、振幅が類似する複数のピーク(スペクトル係数)を1つのグループにまとめることにより複数のグループを生成した後、スケールファクタを算出する。駆動音源スペクトルは、基本ピッチ周波数をインタリーブ間隔として用い、スペクトルをインタリーブすることにより並び方が変更される。
これにより、振幅が類似した複数のスペクトル係数が1つのグループにまとめられるので、ターゲット信号のスペクトルを正しい振幅レベルに調整するのに用いられるスケールファクタの量子化効率を向上させることができる。
また、上記課題を解決するために本発明は、インタリーブが必要かどうかを選択する。この判断基準は、処理されている信号のタイプに依存する。音声信号のうちの周期性を有する部分は、スペクトルにおいて繰り返しパターンを示す。そのような場合には、基本ピッチ周波数をインタリーブ単位(インタリーブ間隔)として用いて、スペクトルがインタリーブされる。一方、音声信号のうちの周期性を有しない部分は、スペクトル波形において繰り返しパターンを有しない。従って、この場合、インタリーブを用いないスペクトル変形が実行される。
これにより、信号のタイプが異なる場合に、この相違に対応した適切なスペクトル変形方法を選択する柔軟なシステムを構築でき、全体の符号化効率が向上する。
本発明によれば、信号推定および予測の効率を向上させ、スペクトルをより効率的に表現することができる。
本発明に係る音声符号化装置は、入力されるスペクトルに対し変形処理を施し、変形後のスペクトルを符号化する。まず、符号化装置において、変形対象となるターゲット信号は、周波数領域のスペクトル成分に変換される。このターゲット信号は、通常は、原信号とは類似していない信号である。なお、ターゲット信号は、原信号を予測または推定したものであっても良い。
原信号は、スペクトル変形処理において、参照信号として用いられる。参照信号は、周期性を含むものであるか否か判断される。参照信号が周期性を有するものと判断された場合、ピッチ周期Tが算出される。このピッチ周期Tから、参照信号の基本ピッチ周波数fが算出される。
スペクトルインタリーブ処理が、周期性を有すると判断されたフレームに対して実行される。スペクトルインタリーブ処理の対象であることを示すには、フラグ(以下、インタリーブ・フラグという)が用いられる。まず、ターゲット信号のスペクトルおよび参照信号のスペクトルは、複数のパーティションに分割される。各パーティションの幅は、基本ピッチ周波数fの間隔幅に相当する。図3は、本発明に係る等間隔の帯域パーティション化が施されたスペクトルの一例を示す図である。そして、各帯域のスペクトルは、基本ピッチ周波数fをインタリーブ間隔として、インタリーブされる。図4は、上記のインタリーブ処理の概要を示した図である。
インタリーブされたスペクトルは、さらに幾つかの帯域に分割される。そして、各帯域のエネルギーが算出される。さらに各帯域について、ターゲットチャネルのエネルギーと参照チャネルのエネルギーとが比較される。これらの二つのチャネルの間のエネルギーの差または比が算出され、これがスケールファクタの表現形式を取って量子化される。このスケールファクタは、スペクトル変形処理のために、ピッチ周期およびインタリーブ・フ
ラグと共に復号装置に送信される。
一方、復号装置では、主復号器で合成されるターゲット信号が、符号化装置から送信された符号化パラメータを用いて、変形される。まず、ターゲット信号が周波数領域に変換される。そして、インタリーブ・フラグがアクティブに設定されている場合には、基本ピッチ周波数をインタリーブ間隔として用い、スペクトル係数がインタリーブされる。この基本ピッチ周波数は、符号化装置から送信されたピッチ周期から算出される。インタリーブを施されたスペクトル係数は、符号化装置におけるものと同数の帯域に分割され、各々の帯域に対して、スケールファクタを用いて、そのスペクトルが参照信号のスペクトルに近いものとなるように上記スペクトル係数の振幅が調整される。その後、調整されたスペクトル係数は、デインタリーブされて、インタリーブされていた状態のスペクトル係数が元の並び方に配列し直される。上記調整されたデインタリーブ後のスペクトルに対して、逆周波数変換が施され、時間領域の駆動音源信号が得られる。上述の処理にあっては、信号が周期性を有しないものであると判断された場合には、インタリーブの処理が省略され、他の処理が続けられる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、同様の機能を有する構成に対しては、基本的に同じ符号を付し、複数存在する場合には、符号の後にa、bを付して区別する。
(実施の形態1)
図5は、本実施の形態に係る符号化装置100および復号装置150の基本的な構成を示すブロック図である。
符号化装置100において、周波数変換部101は、参照信号eおよびターゲット信号eを周波数領域信号に変換する。ターゲット信号eは、参照信号eに相似するように変形されるターゲットである。また、参照信号eは、入力信号sを、LPC係数を用いて逆フィルタリング処理することにより得ることができ、ターゲット信号eは、駆動音源符号化処理の結果として得られる。
スペクトル差演算部102は、周波数変換後に得られたスペクトル係数に対して、周波数領域における参照信号とターゲット信号とのスペクトル差を算出する処理を施す。この算出には、スペクトル係数のインタリーブ処理、この係数の複数の帯域へのパーティション化処理、各帯域に対する参照チャネルとターゲットチャネルとの間の差の算出処理、さらに、これらの差を復号装置に送信されるG’として量子化する処理等の一連の処理が伴われる。インタリーブ処理は、このスペクトル差演算の重要な一部ではあるものの、全ての信号フレームについて、インタリーブが施される必要があるわけではない。インタリーブが必要かどうかは、インタリーブ・フラグであるI_flagによって示されており、フラグがアクティブかどうかは、現フレームにおいて処理がなされている信号のタイプに依存する。ある特定のフレームについてインタリーブがなされる必要がある場合には、現在の音声フレームのピッチ周期であるTから算出されるインタリーブ間隔が用いられる。これらの処理は、音声コーデックの符号化装置で行われる。
復号装置150において、スペクトル変形部103は、ターゲット信号eを得た後に、インタリーブ・フラグI_flagおよびピッチ周期T等の他の情報と共に量子化情報G’を得る。そして、スペクトル変形部103は、これらのパラメータによって得られるスペクトルが、参照信号のスペクトルに近いものとなるように、ターゲット信号のスペクトルを変形する。
図6は、上記の周波数変換部101およびスペクトル差演算部102内部の主要な構成
を示すブロック図である。
FFT部201は、FFT等の変換方法を用いて、変形対象となるターゲット信号eおよび参照信号eを周波数領域の信号に変換する。FFT部201は、I_flagをフラグとして用い、信号の特定フレームがインタリーブを施されるに適するかどうかを判断する。インタリーブ部202におけるインタリーブ処理に先立ち、現在の音声フレームが周期性かつ定常性を有する信号であるかどうかを判定するためのピッチ検出が実行される。処理されるフレームが周期性かつ定常性を有する信号である場合には、インタリーブ・フラグは、アクティブに設定される。周期性かつ定常性を有する信号の場合、駆動音源処理により、通常は、スペクトル波形において、あるインターバルでの特徴的なピークを有する周期性パターンが生じる(図1参照)。このインターバルは、信号のピッチ周期Tまたは周波数領域における基本ピッチ周波数fにより特定される。
インタリーブ部202は、インタリーブ・フラグがアクティブに設定されている場合、参照信号とターゲット信号との両方について、変換されたスペクトル係数に対するサンプルインタリーブ処理を実行する。このサンプルインタリーブでは、全帯域内のある特定の領域が予め選択される。通常は、スペクトル波形において、3kHzまたは4kHzまでの低周波領域の方が、よりはっきりと明確なピークが生じる。従って、インタリーブ領域として低周波領域が選択されることが多い。例えば、図4を再度参照すると、Nサンプルのスペクトルがインタリーブされる低周波領域として選択されている。そして、インタリーブ後に、大きさの近似したエネルギー係数がグループ化してまとめられるように、現フレームの基本ピッチ周波数fがインタリーブ間隔として用いられる。そして、N個のサンプルは、K個のパーティションに分割され、インタリーブが施される。このインタリーブ処理は、次式(1)に従って、各帯域のスペクトル係数を算出することによって行われる。ここでJは、各帯域のサンプル数、すなわち、各パーティションのサイズを表している。
Figure 2006121101
本実施の形態に係るインタリーブ処理は、全ての入力音声フレームに対して固定のインタリーブ間隔値を用いることはしない。すなわち、参照信号の基本ピッチ周波数fを算出することにより、インタリーブ間隔を適応的に調整する。この基本ピッチ周波数fは、参照信号のピッチ周期Tから直接算出される。
パーティション化部203は、スペクトル係数がインタリーブされた後に、図7に示すように、Nサンプル領域のスペクトルをB個の帯域(バンド)に分割し、各帯域が同数のスペクトル係数を有するようにする。この帯域数は、8、10、12等の任意の数に設定することができる。帯域数は、望ましくは、各々のピッチ高調波の同位置から抽出される各帯域のスペクトル係数が振幅において類似したものとなるような数が設定される。すなわち、インタリーブ処理におけるパーティション数と同数またはその倍数となるように、すなわち、B=Kの帯域、またはB=LK(Lは整数)の帯域となるように設定される。各ピッチ周期におけるj=0のサンプルは、各々のインタリーブされた帯域の最初のサンプルにあたり、各ピッチ周期におけるj=J−1のサンプルは、各々のインタリーブされた帯域の最後のサンプルにあたる。
帯域数がKの倍数にならない場合には、スペクトル係数の個数が等しく分配されないこともある。そのような場合には、パーティション化部203は、等しく分配可能なサンプ
ルは、次式(2a)に従って割り当て、残りのサンプルは、次式(2b)に従って最後の帯域(b=B−1)に割り当てる。
Figure 2006121101
ある特定のフレームに対してインタリーブが用いられない場合、上記の残りのサンプルに対する帯域割り当てと同様の方法でインタリーブを施されていない係数に帯域が割り当てられ、パーティション化される。
エネルギー算出部204は、次式(3)に従って、帯域bのエネルギーを算出する。
Figure 2006121101
上記のエネルギー演算は、参照信号とターゲット信号との双方の各帯域についてなされ、参照信号エネルギーenergy_refおよびターゲット信号エネルギーenergy_tgtが生成される。
Nサンプルの中に含まれない領域については、インタリーブ処理が施されない。インタリーブされない領域のサンプルもまた、式(2a)および(2b)を用いて、2から8まで等の複数の帯域によるパーティションに分けられ、さらに式(3)を用いて、それらのインタリーブされない帯域のエネルギーが算出される。
ゲイン算出部205は、インタリーブが施された領域とインタリーブが施されなかった領域との両方についての参照信号とターゲット信号とのエネルギーデータを用いて、帯域bのゲインGを算出する。このゲインGは、復号装置において、ターゲット信号のスペクトルをスケーリングし、変形するためのゲインである。ゲインGは、次式(4)に従って算出される。
Figure 2006121101
ここで、Bは、インタリーブされた領域とインタリーブされなかった領域との双方の領域における帯域の総数である。
ゲイン量子化部206は、ゲインGを、量子化分野において一般に知られるスカラー量子化またはベクトル量子化を用いて量子化し、量子化ゲインG’を得る。量子化ゲインG’は、ピッチ周期Tおよびインタリーブ・フラグI_flagと併せて、復号装置で信号のスペクトルを変形するために、復号装置150に対して送信される。
復号装置150における処理は、参照信号と比較したターゲット信号の差が算出された符号化装置の処理に対する逆処理となる。すなわち、復号装置においては、スペクトル変
形によるものが参照信号に可能な限り近いものとなるように、この差がターゲット信号に対して、適用される。
図8は、上記の復号装置150が備えるスペクトル変形部103の内部を表した図である。
変形がなされる必要のある、符号化装置100のものと同一のターゲット信号eは、復号装置150において、この段階では既に合成がなされていて、スペクトル変形が実行できる状態にあるものと仮定する。また、スペクトル変形部103での処理を実行することができるように、量子化ゲインG’、ピッチ周期Tおよびインタリーブ・フラグI_flagもビットストリームから復号される。
FFT部301は、ターゲット信号eを、符号化装置100で用いられたものと同一の変換処理を用いて、周波数領域に変換する。
インタリーブ部302は、インタリーブ・フラグI_flagがアクティブに設定されている場合、ピッチ周期Tから算出される基本ピッチ周波数fをインタリーブ間隔として用い、式(1)に従って、スペクトル係数をインタリーブする。このインタリーブ・フラグI_flagは、現フレームに対しインタリーブ処理を施す必要があるか否かを示すフラグである。
パーティション化部303は、これらの係数を符号化装置100で用いられたのと同数の帯域に分割する。インタリーブが用いられる場合には、インタリーブされた係数がパーティションに分けられ、そうでなければ、インタリーブされていない係数がパーティション化される。
スケーリング部304は、量子化ゲインG’を用いて次式(5)に従って、スケーリング後の各帯域のスペクトル係数を算出する。
Figure 2006121101
ここで、band(b)は、bで表わされる帯域内のスペクトル係数の数である。上記式(5)は、スペクトル係数値を調整して、各帯域のエネルギーが参照信号と類似したものとなるようにすることを表しており、この式(5)に従って、信号のスペクトルは変形される。
デインタリーブ部305は、スペクトル係数がインタリーブ部302においてインタリーブされている場合には、スペクトル係数をデインタリーブして、これらのインタリーブされた係数が元のインタリーブされる前の順序に戻るよう再配列する。一方、インタリーブ部302においてインタリーブが行われていない場合には、デインタリーブ部305はデインタリーブ処理を実行しない。その後、調整されたスペクトル係数は、IFFT部306において、逆FFT等の逆周波数変換を介して、時間領域信号に戻される。この時間領域信号は、予測または推定された駆動音源信号e’であって、そのスペクトルは、参照信号eのスペクトルに類似したものとなるように変形されている。
このように、本実施の形態によれば、周波数スペクトルにおける周期性パターン(繰り返しパターン)を利用し、インタリーブ処理を用いて信号スペクトルを変形し、スペクト
ル係数のうちの類似したものをグループ化するので、音声符号化装置の符号化効率を向上させることができる。
また、本実施の形態は、ターゲット信号のスペクトルを正しい振幅レベルに調整するのに用いられるスケールファクタの量子化効率を向上させるのに役立つ。また、インタリーブ・フラグにより、スペクトル変形方法が適切な音声フレームのみに対して適用されるような、よりインテリジェントなシステムが提供される。
(実施の形態2)
図9は、実施の形態1に係る符号化装置100を、典型的な音声符号化システム(符号化側)1000に適用した例を示す図である。
LPC分析部401は、入力音声信号sをフィルタリングして、LPC係数および駆動音源信号を得るために用いられる。このLPC係数は、LPC量子化部402において、量子化および符号化され、一方、駆動音源信号は、駆動音源符号化部403において符号化されて、駆動音源パラメータが得られる。これらの構成要素は、典型的な音声符号化器の主符号化器400を構成する。
符号化装置100は、符号化品質を向上させるべく、この主符号化器400に対して追加して設けられるものである。ターゲット信号eは、駆動音源符号化部403より、符号化された駆動音源信号から得られる。参照信号eは、入力音声信号sを、LPC逆フィルタ404においてLPC係数を用いて逆フィルタリング処理することにより得られる。ピッチ周期Tおよびインタリーブ・フラグI_flagは、ピッチ周期抽出・有声/無声判定部405において入力音声信号sを用いて算出される。符号化装置100は、これらの入力を受けて、上述の通りの処理を行い、復号装置においてスペクトル変形処理に用いられるスケールファクタG’を得る。
図10は、実施の形態1に係る復号装置150を、典型的な音声符号化システム(復号側)1500に適用した例を示す図である。
音声符号化システム1500では、駆動音源生成部501、LPC復号部502、およびLPC合成フィルタ503が、典型的な音声復号器の主復号器500を構成する。駆動音源生成部501において駆動音源信号が生成され、LPC復号部502において送信された駆動音源パラメータを用いて量子化されたLPC係数が復号される。この駆動音源信号および復号されたLPC係数は、出力音声を合成するのに直接は用いられない。これに先立ち、生成された駆動音源信号は、上述した処理に従って、復号装置150においてピッチ周期T、インタリーブ・フラグI_flagおよびスケールファクタG’等の送信されたパラメータを用いてスペクトルを変形することによりエンハンスされる。駆動音源生成部501から生成された駆動音源信号は、変形されるターゲット信号eとしての役割を果たす。復号装置150のスペクトル変形部103からの出力は、そのスペクトルが参照信号eのスペクトルに近いものとなるように変形されている駆動音源信号e’である。変形された駆動音源信号e’および復号されたLPC係数は、LPC合成フィルタ503において、出力音声s’を合成するのに用いられる。
また、以上の記載から、実施の形態1に係る符号化装置100および復号装置150は、図11に示されるようなステレオタイプの音声符号化システムに対しても適用可能であることが明らかである。このステレオ音声符号化システムにおいては、ターゲットチャネルは、モノラルチャネルであり得る。このモノラル信号Mは、ステレオチャネルのLチャネルとRチャネルとの平均を取ることにより、モノラル信号を合成する。参照チャネルは、LチャネルまたはRチャネルの何れであっても良い。なお、図11においては、Lチャ
ネル信号Lが参照チャネルとして用いられている。
符号化装置において、Lチャネル信号Lとモノラル信号Mとは、それぞれ分析部400a、400bにおいて処理される。この処理の目的は、それぞれのチャネルについて、LPC係数、駆動音源パラメータおよび駆動音源信号を取得することである。Lチャネルの駆動音源信号は参照信号eとして、一方、モノラルの駆動音源信号はターゲット信号eとして機能する。符号化装置における残りの処理は、上述の通りである。この適用例における唯一の相違は、参照チャネル音声信号を合成するために用いられるための参照チャネル自身のLPC係数のセットが復号装置に対して送られる点である。
復号装置においては、駆動音源生成部501においてモノラルの駆動音源信号が生成され、LPC係数がLPC復号部502bにおいて復号化される。出力モノラル音声M’は、LPC合成フィルタ503bにおいて、モノラルの駆動音源信号およびモノラルチャネルのLPC係数を用いて合成される。また、モノラルの駆動音源信号eは、ターゲット信号eとしても機能する。ターゲット信号eは、復号装置150において変形され、推定または予測されたLチャネルの駆動音源信号e’が得られる。変形された駆動音源信号e’およびLPC復号部502aで復号されたLチャネルのLPC係数を用いて、Lチャネル信号L’がLPC合成フィルタ503aにおいて合成される。L信号L’およびモノラル信号M’が生成されれば、Rチャネル算出部601において、次式(6)を用いてRチャネル信号R’を算出することができる。
Figure 2006121101
なお、モノラル信号の場合、Mは符号化側でM=(L+R)/2によって算出される。
このように、本実施の形態によれば、実施の形態1に係る符号化装置100および復号装置150をステレオ音声符号化システムに適用することにより、駆動音源信号の精度が高まる。よって、スケールファクタを導入することによりビットレートは僅かながら高くなってしまうこととなるものの、予測または推定された信号をエンハンスし、原信号に可能な限り類似したものとすることができるので、「ビットレート」対「音声品質」の点で見れば、符号化効率を向上させることができる。
以上、本発明の各実施の形態について説明した。
本発明に係る音声符号化装置およびスペクトル変形方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。
本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るスペクトル変形方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本明細書は、2005年5月13日出願の特願2005−141343に基づく。この内容はすべてここに含めておく。
本発明に係る音声符号化装置およびスペクトル変形方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用できる。
駆動音源スペクトルの一例を表す図 臨界帯域によるパーティション化の例を示す図 本発明に係る等間隔の帯域パーティション化が施されたスペクトルの一例を示す図 本発明に係るインタリーブ処理の概要を示した図 実施の形態1に係る音声符号化装置および音声復号装置の基本的な構成を示すブロック図 実施の形態1に係る周波数変換部およびスペクトル差演算部内部の主要な構成を示すブロック図 帯域分割の例を示す図 実施の形態1に係るスペクトル変形部の内部を表した図 実施の形態2に係る音声符号化システム(符号化側)を示す図 実施の形態2に係る音声符号化システム(復号側)を示す図 実施の形態2に係るステレオタイプの音声符号化システムを示す図

Claims (6)

  1. 音声信号の周波数スペクトルのピッチ周波数または繰り返しパターンを取得する取得手段と、
    前記周波数スペクトルの複数のスペクトル係数が、類似するスペクトル係数同士で密集するように、前記ピッチ周波数または繰り返しパターンに基づいて前記複数のスペクトル係数をインターリーブするインターリーブ手段と、
    インターリーブされた前記スペクトル係数を符号化する符号化手段と、
    を具備する音声符号化装置。
  2. インターリーブされた前記スペクトル係数を複数の帯域に分割する分割手段と、
    前記複数の帯域のエネルギーと参照信号のエネルギーとの比を算出する算出手段と、
    前記エネルギーの比を符号化するゲイン符号化手段と、
    をさらに具備する請求項1記載の音声符号化装置。
  3. 前記音声信号において前記ピッチ周波数または繰り返しパターンが存在する区間を検出する検出手段をさらに具備し、
    前記インターリーブ手段は、
    検出された前記区間にインターリーブ処理を施す、
    請求項1記載の音声符号化装置。
  4. 請求項1記載の音声符号化装置を具備する通信端末装置。
  5. 請求項1記載の音声符号化装置を具備する基地局装置。
  6. 音声信号の周波数スペクトルのピッチ周波数または繰り返しパターンを取得するステップと、
    前記ピッチ周波数または繰り返しパターンに基づいて、前記周波数スペクトルの複数のスペクトル係数のうち、類似するスペクトル係数同士を複数のグループに分類するステップと、
    前記各グループで前記複数のスペクトル係数同士が密集するように、前記複数のスペクトル係数をインターリーブするステップと、
    を具備するスペクトル変形方法。
JP2007528311A 2005-05-13 2006-05-11 音声符号化装置およびスペクトル変形方法 Expired - Fee Related JP4982374B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007528311A JP4982374B2 (ja) 2005-05-13 2006-05-11 音声符号化装置およびスペクトル変形方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005141343 2005-05-13
JP2005141343 2005-05-13
JP2007528311A JP4982374B2 (ja) 2005-05-13 2006-05-11 音声符号化装置およびスペクトル変形方法
PCT/JP2006/309453 WO2006121101A1 (ja) 2005-05-13 2006-05-11 音声符号化装置およびスペクトル変形方法

Publications (2)

Publication Number Publication Date
JPWO2006121101A1 true JPWO2006121101A1 (ja) 2008-12-18
JP4982374B2 JP4982374B2 (ja) 2012-07-25

Family

ID=37396609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007528311A Expired - Fee Related JP4982374B2 (ja) 2005-05-13 2006-05-11 音声符号化装置およびスペクトル変形方法

Country Status (6)

Country Link
US (1) US8296134B2 (ja)
EP (1) EP1881487B1 (ja)
JP (1) JP4982374B2 (ja)
CN (1) CN101176147B (ja)
DE (1) DE602006010687D1 (ja)
WO (1) WO2006121101A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0607303A2 (pt) * 2005-01-26 2009-08-25 Matsushita Electric Ind Co Ltd dispositivo de codificação de voz e método de codificar voz
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
US20090276210A1 (en) * 2006-03-31 2009-11-05 Panasonic Corporation Stereo audio encoding apparatus, stereo audio decoding apparatus, and method thereof
WO2008016097A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
JP4960791B2 (ja) * 2007-07-26 2012-06-27 日本電信電話株式会社 ベクトル量子化符号化装置、ベクトル量子化復号化装置、それらの方法、それらのプログラム、及びそれらの記録媒体
US8352249B2 (en) * 2007-11-01 2013-01-08 Panasonic Corporation Encoding device, decoding device, and method thereof
EP2144228A1 (en) * 2008-07-08 2010-01-13 Siemens Medical Instruments Pte. Ltd. Method and device for low-delay joint-stereo coding
CN102131081A (zh) * 2010-01-13 2011-07-20 华为技术有限公司 混合维度编解码方法和装置
US8633370B1 (en) * 2011-06-04 2014-01-21 PRA Audio Systems, LLC Circuits to process music digitally with high fidelity
RU2554554C2 (ru) * 2011-01-25 2015-06-27 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, кодер, способ определения величины периодического признака, устройство определения величины периодического признака, программа и носитель записи
US9672833B2 (en) * 2014-02-28 2017-06-06 Google Inc. Sinusoidal interpolation across missing data
CN107317657A (zh) * 2017-07-28 2017-11-03 中国电子科技集团公司第五十四研究所 一种无线通信频谱交织共用传输装置
CN112420060A (zh) * 2020-11-20 2021-02-26 上海复旦通讯股份有限公司 一种基于频域交织的独立于通信网络的端到端语音加密方法
DE102022114404A1 (de) 2021-06-10 2022-12-15 Harald Fischer Reinigungsmittel

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4351216A (en) * 1979-08-22 1982-09-28 Hamm Russell O Electronic pitch detection for musical instruments
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
TW224191B (ja) * 1992-01-28 1994-05-21 Qualcomm Inc
JPH07104793A (ja) * 1993-09-30 1995-04-21 Sony Corp 音声信号の符号化装置及び復号化装置
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5663517A (en) * 1995-09-01 1997-09-02 International Business Machines Corporation Interactive system for compositional morphing of music in real-time
US5737716A (en) * 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification
JP3328532B2 (ja) * 1997-01-22 2002-09-24 シャープ株式会社 デジタルデータの符号化方法
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
CN1737903A (zh) * 1997-12-24 2006-02-22 三菱电机株式会社 声音译码方法以及声音译码装置
US6353807B1 (en) * 1998-05-15 2002-03-05 Sony Corporation Information coding method and apparatus, code transform method and apparatus, code transform control method and apparatus, information recording method and apparatus, and program providing medium
JP3434260B2 (ja) * 1999-03-23 2003-08-04 日本電信電話株式会社 オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体
US6658382B1 (en) * 1999-03-23 2003-12-02 Nippon Telegraph And Telephone Corporation Audio signal coding and decoding methods and apparatus and recording media with programs therefor
US6704701B1 (en) * 1999-07-02 2004-03-09 Mindspeed Technologies, Inc. Bi-directional pitch enhancement in speech coding systems
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
JP2002312000A (ja) * 2001-04-16 2002-10-25 Sakai Yasue 圧縮方法及び装置、伸長方法及び装置、圧縮伸長システム、ピーク検出方法、プログラム、記録媒体
EP1701340B1 (en) * 2001-11-14 2012-08-29 Panasonic Corporation Decoding device, method and program
CN1288625C (zh) * 2002-01-30 2006-12-06 松下电器产业株式会社 音频编码与解码设备及其方法
EP1500084B1 (en) * 2002-04-22 2008-01-23 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
GB2388502A (en) * 2002-05-10 2003-11-12 Chris Dunn Compression of frequency domain audio signals
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
JP3944188B2 (ja) * 2004-05-21 2007-07-11 株式会社東芝 立体画像表示方法、立体画像撮像方法及び立体画像表示装置
US7630396B2 (en) 2004-08-26 2009-12-08 Panasonic Corporation Multichannel signal coding equipment and multichannel signal decoding equipment
JP2006126592A (ja) * 2004-10-29 2006-05-18 Casio Comput Co Ltd 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法

Also Published As

Publication number Publication date
US8296134B2 (en) 2012-10-23
US20080177533A1 (en) 2008-07-24
JP4982374B2 (ja) 2012-07-25
EP1881487A4 (en) 2008-11-12
CN101176147A (zh) 2008-05-07
EP1881487A1 (en) 2008-01-23
DE602006010687D1 (de) 2010-01-07
CN101176147B (zh) 2011-05-18
EP1881487B1 (en) 2009-11-25
WO2006121101A1 (ja) 2006-11-16

Similar Documents

Publication Publication Date Title
JP4982374B2 (ja) 音声符号化装置およびスペクトル変形方法
KR102232486B1 (ko) 고차 앰비소닉스 표현을 압축 및 압축해제하기 위한 방법 및 장치
RU2500043C2 (ru) Кодер, декодер, способ кодирования и способ декодирования
US20090018824A1 (en) Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method
JP5340261B2 (ja) ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
JP4606418B2 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
EP2492911B1 (en) Audio encoding apparatus, decoding apparatus, method, circuit and program
JP6285939B2 (ja) 後方互換性のある多重分解能空間オーディオオブジェクト符号化のためのエンコーダ、デコーダおよび方法
KR101414341B1 (ko) 부호화 장치 및 부호화 방법
US20100332223A1 (en) Audio decoding device and power adjusting method
CN106463130B (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
EP2626856B1 (en) Encoding device, decoding device, encoding method, and decoding method
CN106471579A (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
EP2264698A1 (en) Stereo signal converter, stereo signal reverse converter, and methods for both
EP1497631B1 (en) Generating lsf vectors
JPWO2007037359A1 (ja) 音声符号化装置および音声符号化方法
KR0155315B1 (ko) Lsp를 이용한 celp보코더의 피치 검색방법
CN106463131B (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
JP4354561B2 (ja) オーディオ信号符号化装置及び復号化装置
WO2019173195A1 (en) Signals in transform-based audio codecs
RU2809646C1 (ru) Генератор многоканальных сигналов, аудиокодер и соответствующие способы, основанные на шумовом сигнале микширования
KR0138878B1 (ko) 보코더용 피치검색 처리시간 단축법
JP2004069906A (ja) オーディオ符号化装置
Mahalingam et al. On a real time implementation of LPC speech coder on a bit-slice microprocessor based digital signal processor
JPH0235997B2 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4982374

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees