JPWO2007037359A1 - 音声符号化装置および音声符号化方法 - Google Patents
音声符号化装置および音声符号化方法 Download PDFInfo
- Publication number
- JPWO2007037359A1 JPWO2007037359A1 JP2007537695A JP2007537695A JPWO2007037359A1 JP WO2007037359 A1 JPWO2007037359 A1 JP WO2007037359A1 JP 2007537695 A JP2007537695 A JP 2007537695A JP 2007537695 A JP2007537695 A JP 2007537695A JP WO2007037359 A1 JPWO2007037359 A1 JP WO2007037359A1
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- encoding
- speech
- adaptive codebook
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Abstract
符号化レートを削減しつつ、再生音声信号の品質劣化を防止することができる音声符号化装置等を開示する。この装置の音声信号変更部(101)において、マスキング閾値算出部(114)は、入力音声信号のスペクトルS(f)のマスキング閾値M(f)を算出する。ACB音源モデルスペクトル算出部(117)は、適応符号帳音源モデルスペクトルSACB(f)を算出する。入力スペクトル変形処理部(112)は、マスキング閾値M(f)およびLPCスペクトル包絡を付与された適応符号帳音源モデルスペクトルS'ACB(f)の双方の値を参照し、スペクトルS(f)に対し、後段のCELP符号化部(102)に適合するようなスペクトルに変形する前処理を施す。この装置のCELP符号化部(102)は、前処理後の音声信号に対しCELP方式の符号化を施し、符号化パラメータを出力する。
Description
本発明は、CELP(Code-Excited Linear Prediction)方式を採用した音声符号化装置および音声符号化方法に関する。
音声信号またはオーディオ信号を低ビットレートで圧縮する符号化技術は、移動体通信システムリソースの有効活用のために重要である。音声信号の符号化方式に、ITU−T(International Telecommunication Union Telecommunication Standardization Sector)で規格化されているG726、G729等の方式がある。これらの方式は、狭帯域信号(300Hz〜3.4kHz)を対象とし、8kbit/s〜32kbit/sのビットレートで音声信号を高品質に符号化することができる。また、広帯域信号(50Hz〜7kHz)の符号化方式として、ITU−TのG722、G722.1や、3GPP(The 3rd Generation Partnership Project)のAMR−WB等が存在する。これらの方式は、6.6kbit/s〜64kbit/sのビットレートで広帯域の音声信号を高品質に符号化することができる。
また、音声信号を低ビットレートで高能率に符号化する方式にCELP符号化がある。CELP符号化は、人間の音声生成モデルを工学的に模擬したモデルに基づき、乱数やパルス列で表される励振信号を周期性の強さに対応するピッチフィルタと声道特性に対応する合成フィルタとに通し、その出力信号と入力信号との二乗誤差が聴覚特性の重み付けの下で最小になるように符号化パラメータを決定する方式である。最近の標準音声符号化方式の多くがCELP符号化に基づいており、例えば、G729は8kbit/sのビットレートで狭帯域信号の符号化をすることができ、AMR−WBは6.6kbit/s〜23.85kbit/sのビットレートで広帯域信号を符号化することができる。
CELP符号化を用いて低ビットレートで高品質に符号化を行う技術として、予め聴感マスキング閾値を計算し、聴感重み付けを行う際に、この閾値をも考慮して符号化を行う技術がある(例えば、特許文献1参照)。聴感マスキングとは、周波数軸上で、ある信号の近傍に位置する信号が聞こえなくなる(マスクされる)という人間の聴感特性を利用した技術である。聴感マスキング閾値よりも振幅が小さいスペクトルは人間の聴感に知覚されないため、このスペクトルを符号化対象から除外しても人間に聴感的な歪みが知覚されることはほとんどない。よって、音質劣化をある程度抑えつつ符号化レートを削減することができる。
特開平7−160295号公報(要約)
しかしながら、上記技術において、聴感重み付きフィルタのフィルタ係数は、マスキング閾値を考慮することによって振幅方向には高精度になるものの、フィルタの次数そのものは変わっていないので、フィルタ係数の周波数軸方向の精度は変わらない。すなわち、上記技術では、聴感重み付きフィルタのフィルタ係数の精度が不充分であるために、再生音声信号の品質が劣化するという問題がある。
本発明の目的は、聴感マスキング技術等を利用して符号レートの削減を図っても、再生音声信号の品質劣化を防止することができる音声符号化装置および音声符号化方法を提供することである。
本発明の音声符号化装置は、音声信号に対してCELP方式の符号化を行う符号化手段と、前記符号化手段の前段に設けられ、前記CELP方式の符号化により適合するように、前記音声信号に対し周波数領域において前処理を施す前処理手段と、を具備する構成を採る。
また、前記前処理手段は、前記音声信号を周波数領域変換して前記音声信号のスペクトルを求める変換手段と、前記音声信号に基づいて適応符号帳モデルスペクトルを生成する生成手段と、前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとを比較し、前記音声信号のスペクトルが前記適応符号帳モデルスペクトルに類似するように、前記音声信号のスペクトルを変形する変形手段と、変形されたスペクトルを逆周波数領域変換して時間領域信号に戻す逆変換手段と、を具備する構成を採る。
本発明によれば、符号化レートを削減しつつ、再生音声信号の品質劣化を防止することができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置の主要な構成を示すブロック図である。
図1は、本発明の実施の形態1に係る音声符号化装置の主要な構成を示すブロック図である。
本実施の形態に係る音声符号化装置は、主に音声信号変更部101とCELP符号化部102とからなり、音声信号変更部101は、入力音声信号に対し、周波数領域において下記の前処理を施し、CELP符号化部102は、前処理後の音声信号に対しCELP方式の符号化を施し、CELP符号化パラメータを出力する。
まず、音声信号変更部101について説明する。
音声信号変更部101は、FFT部111、入力スペクトル変形処理部112、IFFT部113、マスキング閾値算出部114、スペクトル包絡付与部115、ラグ抽出部116、ACB音源モデルスペクトル算出部117、およびLPC分析部118を備え、各部は以下の動作を行う。
FFT部111は、入力音声信号に対して、符号化フレーム周期で周波数領域変換、具体的には高速フーリエ変換(FFT)を施し、周波数領域の信号S(f)に変換し、入力スペクトル変形処理部112およびマスキング閾値算出部114に出力する。
マスキング閾値算出部114は、FFT部111から出力される周波数領域の信号、すなわち入力音声信号のスペクトルから、マスキング閾値M(f)の計算を行う。マスキング閾値の計算は、周波数帯域分割後の各帯域に対する音圧レベルを決定し、最小可聴値を決定し、入力音声信号の純音成分および非純音成分を検出し、意味のあるマスカー(聴感マスキングの主体のこと)だけを得るためにマスカーを間引きし、個々のマスキング閾値および全体のマスキング閾値を計算し、個々の分割帯域の最小マスキング閾値を決定する処理によって行われる。
ラグ抽出部116は、CELP符号化の適応符号帳(以下ACBと略すことがある)を備え、入力音声信号(入力スペクトル変形処理部112に入力される前の音声信号)に対し、適応符号帳探索を行うことにより適応符号帳ラグTを抽出し、ACB音源モデルスペクトル算出部117に出力する。この適応符号帳ラグTは、ACB音源モデルスペクトルの算出に必要なものである。なお、入力音声信号に対するオープンループでのピッチ分析によりピッチ周期を求め、これをTとしても良い。
ACB音源モデルスペクトル算出部117は、ラグ抽出部116から出力される適応符号帳ラグTを用いて、以下の式(1)を用いて、ACB音源モデルスペクトル(調波構造スペクトル)SACB(f)を算出し、スペクトル包絡付与部115に出力する。
1/(1−z−T) …(1)
1/(1−z−T) …(1)
LPC分析部118は、入力音声信号のLPC分析(線形予測分析)を行い、得られるLPCパラメータをスペクトル包絡付与部115に出力する。
スペクトル包絡付与部115は、LPC分析部118から出力されるLPCパラメータを用いて、ACB音源モデルスペクトルSACB(f)に対し、LPCスペクトル包絡を付与する。LPCスペクトル包絡を付与されたACB音源モデルスペクトルS'ACB(f)は、入力スペクトル変形処理部112に出力される。
入力スペクトル変形処理部112は、FFT部111から出力される入力音声のスペクトル(入力スペクトル)に対し、フレーム毎に所定の変形処理を施し、変形後のスペクトルS'(f)をIFFT部113に出力する。この変形処理は、入力スペクトルを後段のCELP符号化部102に適合するようなスペクトルに変形する処理であり、詳細については後ほど図を交えて詳述する。
IFFT部113は、入力スペクトル変形処理部112から出力される変形処理後のスペクトルS'(f)に対し、逆周波数領域変換、具体的には逆高速フーリエ変換(IFFT)を施し、得られる時間領域信号(変更後の入力音声)をCELP符号化部102に出力する。
図2は、CELP符号化部102内部の主要な構成を示すブロック図である。CELP符号化部102の各部は以下の動作を行う。
LPC分析部121は、CELP符号化部102の入力信号(変更後の入力音声)に対して線形予測分析を施し、LPCパラメータを求める。LPC量子化部122は、LPCパラメータを量子化し、得られる量子化LPCパラメータをLPC合成フィルタ123に出力すると共に、この量子化LPCパラメータを示すインデックスCLを出力する。
一方、適応符号帳127は、歪み最小化部126から指示された適応符号帳ラグに従って、記憶している過去の駆動音源から1サブフレーム分の音源ベクトルを生成する。固定符号帳128は、歪み最小化部126からの指示に従い、予め記憶している所定形状の固定符号帳ベクトルを出力する。ゲイン符号帳129は、歪み最小化部126からの指示に従って、適応符号帳ゲインおよび固定符号帳ゲインを生成する。乗算器130および乗算器131は、適応符号帳ゲインおよび固定符号帳ゲインを、適応符号帳127および固定符号帳128の出力にそれぞれ乗じる。加算器132は、ゲイン乗算後の適応符号帳127および固定符号帳128の出力を加算し、LPC合成フィルタ123に出力する。
LPC合成フィルタ123は、LPC量子化部122から出力される量子化LPCパラメータをフィルタ係数とし、加算器132からの出力を駆動音源としたフィルタ関数を用いて合成信号を生成する。
加算器124は、CELP符号化部102の入力信号(変更後の入力音声)から上記合成信号を減じ、符号化歪みを算出する。聴感重み付け部125は、LPC分析部121から出力されるLPCパラメータをフィルタ係数とする聴感重み付けフィルタを用いて、加算器124から出力される符号化歪みに対して聴感的な重み付けを施す。歪み最小化部126は、閉ループ制御(帰還制御)の符号帳探索により、符号化歪みが最小となるような適応符号帳127、固定符号帳128、およびゲイン符号帳129のインデックスCA、CD、CGを求める。
次いで、入力スペクトル変形処理部112において行われる上記変形処理について、図3〜5を用いて、より詳細に説明する。
図3は、周波数領域の入力音声信号、すなわち入力音声のスペクトルS(f)とマスキング閾値M(f)との関係を模式的に示した図である。この図において、入力音声のスペクトルS(f)を実線で、マスキング閾値M(f)を破線で示している。また、LPCスペクトル包絡を付与されたACB音源モデルスペクトルS'ACB(f)を一点鎖線で示している。
入力スペクトル変形部112は、マスキング閾値M(f)およびLPCスペクトル包絡を付与されたACB音源モデルスペクトルS'ACB(f)の双方の値を参照して、入力音声のスペクトルS(f)に対する変形処理を行う。
この変形処理は、入力音声のスペクトルS(f)とACB音源モデルスペクトルS'ACB(f)との類似度が高まるように、入力音声のスペクトルS(f)を変形するものである。その際、スペクトルS(f)と変更後のスペクトルS'(f)との間の誤差が、マスキング閾値M(f)以下となるようにする。
上記の条件および変形処理を具体的に数式を用いて説明すると、変形後のスペクトルS'(f)は以下のように表される。
S'(f)=S'ACB(f) …(2)
(但し、|S'ACB(f)−S(f)|≦M(f))
S'(f)=S(f) …(3)
(但し、|S'ACB(f)−S(f)|>M(f))
S'(f)=S'ACB(f) …(2)
(但し、|S'ACB(f)−S(f)|≦M(f))
S'(f)=S(f) …(3)
(但し、|S'ACB(f)−S(f)|>M(f))
図4は、図3に示した入力音声のスペクトルに対し、上記の変形処理を施した場合の変形後の入力音声スペクトルS'(f)を示す図である。この図からわかるように、上記の変形処理は、換言すると、入力音声のスペクトルS(f)とACB音源モデルスペクトルS'ACB(f)との間の差分の絶対値がマスキング閾値M(f)以下の場合は、入力音声のスペクトルS(f)の振幅をS'ACB(f)と一致するように伸展させる処理である。一方、入力音声のスペクトルS(f)とACB音源モデルスペクトルS'ACB(f)との間の差分の絶対値がマスキング閾値M(f)を越える場合は、マスキング効果を期待することができないので、入力音声のスペクトルS(f)の振幅はそのまま維持する。
このように、本実施の形態によれば、入力音声信号に対して、CELP符号化の音声モデルに適合するような変形処理を人間の聴感特性を考慮して行う。より詳細には、変更処理として、周波数領域変換を施して得られるスペクトルに基づいてマスキング閾値を算出し、この処理と並行して、入力音声信号の適応符号帳ラグ(ピッチ周期)に基づいて適応符号帳モデルスペクトルの算出を行う。そして、これらの処理により得られる値を基に入力音声のスペクトルを変形し、変形後のスペクトルを逆周波数領域変換して時間領域信号に戻す。この時間領域信号が後段のCELP符号化の入力信号となる。
これにより、CELP符号化のビットレート、符号化精度、演算時間等の符号化効率を向上させることができる。すなわち、符号化レートを削減しつつ再生音声信号の品質劣化を防止することができる。
特に、本実施の形態によれば、CELP符号化に先立ち、入力音声信号から適応符号帳モデルスペクトルを求め、このスペクトルと入力音声信号のスペクトルとを比較して、入力音声信号が後段のCELP符号化、特に適応符号帳探索に適合するように、周波数領域において入力音声信号に対し変形処理を施す。そして、変形処理後のスペクトルをCELP符号化の入力とする。
よって、周波数帯域において入力音声信号の変形処理を行っていることとなるので、時間領域でこれを行うよりも分解能が高くなり精度も高くなる。また、聴感重み付きフィルタの次数よりも、より高精度で、人間の聴感特性に適応した変形処理を行うことができ、CELPの符号化効率をさらに高めることができる。
また、上記の変形処理においては、入力音声信号から得られる聴感マスキング閾値を考慮し、人間の聴感的に差のない範囲内での変形が施される。
これにより、適応符号帳探索後の符号化歪みを抑えることができ、固定符号帳の駆動音源によってより精密な符号化を行うことが可能となり、符号化効率を向上させることができる。すなわち、上記の変更処理を施しても、再生音声信号の品質は劣化しない。
また、上記の変形処理は音声信号変更部101で行われ、CELP符号化とは独立した処理であるため、既存のCELP方式の音声符号化装置の構成を変更する必要がなく、実装し易い。
なお、本実施の形態では、入力音声のスペクトルに対する変形処理の具体例として、上記式(2)および(3)を用いる例を示したが、変形処理は以下の式(4)〜(6)に従っても良い。
S'(f)=S'ACB(f) …(4)
(但し、|S'ACB(f)−S(f)|≦M(f))
S'(f)=S(f)−M(f) …(5)
(但し、|S'ACB(f)−S(f)|>M(f)かつS(f)≧SACB(f))
S'(f)=S(f)+M(f) …(6)
(但し、|S'ACB(f)−S(f)|>M(f)かつS(f)<SACB(f))
S'(f)=S'ACB(f) …(4)
(但し、|S'ACB(f)−S(f)|≦M(f))
S'(f)=S(f)−M(f) …(5)
(但し、|S'ACB(f)−S(f)|>M(f)かつS(f)≧SACB(f))
S'(f)=S(f)+M(f) …(6)
(但し、|S'ACB(f)−S(f)|>M(f)かつS(f)<SACB(f))
図5は、図3に示した入力音声のスペクトルに対し、上記の変形処理を施した場合の変形後の入力音声スペクトルS'(f)を示す図である。式(3)の処理によれば、入力音声のスペクトルS(f)とLPCスペクトル包絡を付与されたACB音源モデルスペクトルS'ACB(f)との間の差分の絶対値がマスキング閾値M(f)よりも大きな値となってマスキング効果を期待できない場合は、入力音声のスペクトルS(f)に変更を加えなかった。しかし、式(5)および(6)によれば、スペクトルの振幅からマスキング閾値を加算または減算した結果は、マスキング効果が得られる範囲内の値となるので、この範囲内で入力音声スペクトルを変形する。これにより、より詳細にスペクトルを変形することができる。
(実施の形態2)
図6は、本発明の実施の形態2に係る音声符号化装置の主要な構成を示すブロック図である。なお、実施の形態1に示した音声符号化装置と同一の構成要素については同一の符号を付し、その説明を省略する。
図6は、本発明の実施の形態2に係る音声符号化装置の主要な構成を示すブロック図である。なお、実施の形態1に示した音声符号化装置と同一の構成要素については同一の符号を付し、その説明を省略する。
本実施の形態に係る音声符号化装置において、ラグ抽出部116から出力された適応符号帳ラグTは、CELP符号化部102aへも出力される。この適応符号帳ラグTは、CELP符号化部102aにおける符号化処理に流用される。すなわち、CELP符号化部102a自体は、適応符号帳ラグTを求める処理を行わない。
図7は、CELP符号化部102a内部の主要な構成を示すブロック図である。なお、実施の形態1に示したCELP符号化部102と同一の構成要素については同一の符号を付し、その説明を省略する。
CELP符号化部102aにおいて、歪み最小化部126aには、音声信号変更部101aから適応符号帳ラグTが入力される。歪み最小化部126aは、この適応符号帳ラグTに基づいて、適応符号帳127に記憶されている過去の駆動音源から1サブフレーム分の音源ベクトルを生成する。歪み最小化部126a自体は、適応符号帳ラグTの算出を行わない。
このように、本実施の形態によれば、音声信号変更部101aで得られた適応符号帳ラグTをCELP符号化部102aにおける符号化処理にも流用する。よって、CELP符号化部102aは適応符号帳ラグTを算出する必要はなく、符号化処理の負担を軽減することができる。
以上、本発明の各実施の形態について説明した。
本発明に係る音声符号化装置および音声符号化方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、入力信号を音声信号としたが、オーディオ信号をも含む、より広帯域の信号であっても良い。
本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本明細書は、2005年9月30日出願の特願2005−286531に基づく。この内容はすべてここに含めておく。
本発明に係る音声符号化装置および音声符号化方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。
本発明は、CELP(Code-Excited Linear Prediction)方式を採用した音声符号化装置および音声符号化方法に関する。
音声信号またはオーディオ信号を低ビットレートで圧縮する符号化技術は、移動体通信システムリソースの有効活用のために重要である。音声信号の符号化方式に、ITU−T(International Telecommunication Union Telecommunication Standardization Sector)で規格化されているG726、G729等の方式がある。これらの方式は、狭帯域信号(300Hz〜3.4kHz)を対象とし、8kbit/s〜32kbit/sのビットレートで音声信号を高品質に符号化することができる。また、広帯域信号(50Hz〜7kHz)の符号化方式として、ITU−TのG722、G722.1や、3GPP(The 3rd Generation Partnership Project)のAMR−WB等が存在する。これらの方式は、6.6kbit/s〜64kbit/sのビットレートで広帯域の音声信号を高品質に符号化することができる。
また、音声信号を低ビットレートで高能率に符号化する方式にCELP符号化がある。CELP符号化は、人間の音声生成モデルを工学的に模擬したモデルに基づき、乱数やパルス列で表される励振信号を周期性の強さに対応するピッチフィルタと声道特性に対応する合成フィルタとに通し、その出力信号と入力信号との二乗誤差が聴覚特性の重み付けの下で最小になるように符号化パラメータを決定する方式である。最近の標準音声符号化方式の多くがCELP符号化に基づいており、例えば、G729は8kbit/sのビットレートで狭帯域信号の符号化をすることができ、AMR−WBは6.6kbit/s〜23.85kbit/sのビットレートで広帯域信号を符号化することができる。
CELP符号化を用いて低ビットレートで高品質に符号化を行う技術として、予め聴感マスキング閾値を計算し、聴感重み付けを行う際に、この閾値をも考慮して符号化を行う技術がある(例えば、特許文献1参照)。聴感マスキングとは、周波数軸上で、ある信号の近傍に位置する信号が聞こえなくなる(マスクされる)という人間の聴感特性を利用した技術である。聴感マスキング閾値よりも振幅が小さいスペクトルは人間の聴感に知覚されないため、このスペクトルを符号化対象から除外しても人間に聴感的な歪みが知覚されることはほとんどない。よって、音質劣化をある程度抑えつつ符号化レートを削減することができる。
特開平7−160295号公報(要約)
しかしながら、上記技術において、聴感重み付きフィルタのフィルタ係数は、マスキング閾値を考慮することによって振幅方向には高精度になるものの、フィルタの次数そのものは変わっていないので、フィルタ係数の周波数軸方向の精度は変わらない。すなわち、上記技術では、聴感重み付きフィルタのフィルタ係数の精度が不充分であるために、再生音声信号の品質が劣化するという問題がある。
本発明の目的は、聴感マスキング技術等を利用して符号レートの削減を図っても、再生音声信号の品質劣化を防止することができる音声符号化装置および音声符号化方法を提供することである。
本発明の音声符号化装置は、音声信号に対してCELP方式の符号化を行う符号化手段と、前記符号化手段の前段に設けられ、前記CELP方式の符号化により適合するように、前記音声信号に対し周波数領域において前処理を施す前処理手段と、を具備する構成を採る。
また、前記前処理手段は、前記音声信号を周波数領域変換して前記音声信号のスペクトルを求める変換手段と、前記音声信号に基づいて適応符号帳モデルスペクトルを生成する生成手段と、前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとを比較し、前記音声信号のスペクトルが前記適応符号帳モデルスペクトルに類似するように、前記音声信号のスペクトルを変形する変形手段と、変形されたスペクトルを逆周波数領域変換して時間領域信号に戻す逆変換手段と、を具備する構成を採る。
本発明によれば、符号化レートを削減しつつ、再生音声信号の品質劣化を防止することができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置の主要な構成を示すブロック図である。
図1は、本発明の実施の形態1に係る音声符号化装置の主要な構成を示すブロック図である。
本実施の形態に係る音声符号化装置は、主に音声信号変更部101とCELP符号化部102とからなり、音声信号変更部101は、入力音声信号に対し、周波数領域において下記の前処理を施し、CELP符号化部102は、前処理後の音声信号に対しCELP方式の符号化を施し、CELP符号化パラメータを出力する。
まず、音声信号変更部101について説明する。
音声信号変更部101は、FFT部111、入力スペクトル変形処理部112、IFFT部113、マスキング閾値算出部114、スペクトル包絡付与部115、ラグ抽出部116、ACB音源モデルスペクトル算出部117、およびLPC分析部118を備え、各部は以下の動作を行う。
FFT部111は、入力音声信号に対して、符号化フレーム周期で周波数領域変換、具体的には高速フーリエ変換(FFT)を施し、周波数領域の信号S(f)に変換し、入力スペクトル変形処理部112およびマスキング閾値算出部114に出力する。
マスキング閾値算出部114は、FFT部111から出力される周波数領域の信号、す
なわち入力音声信号のスペクトルから、マスキング閾値M(f)の計算を行う。マスキング閾値の計算は、周波数帯域分割後の各帯域に対する音圧レベルを決定し、最小可聴値を決定し、入力音声信号の純音成分および非純音成分を検出し、意味のあるマスカー(聴感マスキングの主体のこと)だけを得るためにマスカーを間引きし、個々のマスキング閾値および全体のマスキング閾値を計算し、個々の分割帯域の最小マスキング閾値を決定する処理によって行われる。
なわち入力音声信号のスペクトルから、マスキング閾値M(f)の計算を行う。マスキング閾値の計算は、周波数帯域分割後の各帯域に対する音圧レベルを決定し、最小可聴値を決定し、入力音声信号の純音成分および非純音成分を検出し、意味のあるマスカー(聴感マスキングの主体のこと)だけを得るためにマスカーを間引きし、個々のマスキング閾値および全体のマスキング閾値を計算し、個々の分割帯域の最小マスキング閾値を決定する処理によって行われる。
ラグ抽出部116は、CELP符号化の適応符号帳(以下ACBと略すことがある)を備え、入力音声信号(入力スペクトル変形処理部112に入力される前の音声信号)に対し、適応符号帳探索を行うことにより適応符号帳ラグTを抽出し、ACB音源モデルスペクトル算出部117に出力する。この適応符号帳ラグTは、ACB音源モデルスペクトルの算出に必要なものである。なお、入力音声信号に対するオープンループでのピッチ分析によりピッチ周期を求め、これをTとしても良い。
ACB音源モデルスペクトル算出部117は、ラグ抽出部116から出力される適応符号帳ラグTを用いて、以下の式(1)を用いて、ACB音源モデルスペクトル(調波構造スペクトル)SACB(f)を算出し、スペクトル包絡付与部115に出力する。
1/(1−z−T) …(1)
1/(1−z−T) …(1)
LPC分析部118は、入力音声信号のLPC分析(線形予測分析)を行い、得られるLPCパラメータをスペクトル包絡付与部115に出力する。
スペクトル包絡付与部115は、LPC分析部118から出力されるLPCパラメータを用いて、ACB音源モデルスペクトルSACB(f)に対し、LPCスペクトル包絡を付与する。LPCスペクトル包絡を付与されたACB音源モデルスペクトルS'ACB(f)は、入力スペクトル変形処理部112に出力される。
入力スペクトル変形処理部112は、FFT部111から出力される入力音声のスペクトル(入力スペクトル)に対し、フレーム毎に所定の変形処理を施し、変形後のスペクトルS'(f)をIFFT部113に出力する。この変形処理は、入力スペクトルを後段のCELP符号化部102に適合するようなスペクトルに変形する処理であり、詳細については後ほど図を交えて詳述する。
IFFT部113は、入力スペクトル変形処理部112から出力される変形処理後のスペクトルS'(f)に対し、逆周波数領域変換、具体的には逆高速フーリエ変換(IFFT)を施し、得られる時間領域信号(変更後の入力音声)をCELP符号化部102に出力する。
図2は、CELP符号化部102内部の主要な構成を示すブロック図である。CELP符号化部102の各部は以下の動作を行う。
LPC分析部121は、CELP符号化部102の入力信号(変更後の入力音声)に対して線形予測分析を施し、LPCパラメータを求める。LPC量子化部122は、LPCパラメータを量子化し、得られる量子化LPCパラメータをLPC合成フィルタ123に出力すると共に、この量子化LPCパラメータを示すインデックスCLを出力する。
一方、適応符号帳127は、歪み最小化部126から指示された適応符号帳ラグに従って、記憶している過去の駆動音源から1サブフレーム分の音源ベクトルを生成する。固定符号帳128は、歪み最小化部126からの指示に従い、予め記憶している所定形状の固定符号帳ベクトルを出力する。ゲイン符号帳129は、歪み最小化部126からの指示に
従って、適応符号帳ゲインおよび固定符号帳ゲインを生成する。乗算器130および乗算器131は、適応符号帳ゲインおよび固定符号帳ゲインを、適応符号帳127および固定符号帳128の出力にそれぞれ乗じる。加算器132は、ゲイン乗算後の適応符号帳127および固定符号帳128の出力を加算し、LPC合成フィルタ123に出力する。
従って、適応符号帳ゲインおよび固定符号帳ゲインを生成する。乗算器130および乗算器131は、適応符号帳ゲインおよび固定符号帳ゲインを、適応符号帳127および固定符号帳128の出力にそれぞれ乗じる。加算器132は、ゲイン乗算後の適応符号帳127および固定符号帳128の出力を加算し、LPC合成フィルタ123に出力する。
LPC合成フィルタ123は、LPC量子化部122から出力される量子化LPCパラメータをフィルタ係数とし、加算器132からの出力を駆動音源としたフィルタ関数を用いて合成信号を生成する。
加算器124は、CELP符号化部102の入力信号(変更後の入力音声)から上記合成信号を減じ、符号化歪みを算出する。聴感重み付け部125は、LPC分析部121から出力されるLPCパラメータをフィルタ係数とする聴感重み付けフィルタを用いて、加算器124から出力される符号化歪みに対して聴感的な重み付けを施す。歪み最小化部126は、閉ループ制御(帰還制御)の符号帳探索により、符号化歪みが最小となるような適応符号帳127、固定符号帳128、およびゲイン符号帳129のインデックスCA、CD、CGを求める。
次いで、入力スペクトル変形処理部112において行われる上記変形処理について、図3〜5を用いて、より詳細に説明する。
図3は、周波数領域の入力音声信号、すなわち入力音声のスペクトルS(f)とマスキング閾値M(f)との関係を模式的に示した図である。この図において、入力音声のスペクトルS(f)を実線で、マスキング閾値M(f)を破線で示している。また、LPCスペクトル包絡を付与されたACB音源モデルスペクトルS'ACB(f)を一点鎖線で示している。
入力スペクトル変形部112は、マスキング閾値M(f)およびLPCスペクトル包絡を付与されたACB音源モデルスペクトルS'ACB(f)の双方の値を参照して、入力音声のスペクトルS(f)に対する変形処理を行う。
この変形処理は、入力音声のスペクトルS(f)とACB音源モデルスペクトルS'ACB(f)との類似度が高まるように、入力音声のスペクトルS(f)を変形するものである。その際、スペクトルS(f)と変更後のスペクトルS'(f)との間の誤差が、マスキング閾値M(f)以下となるようにする。
上記の条件および変形処理を具体的に数式を用いて説明すると、変形後のスペクトルS'(f)は以下のように表される。
S'(f)=S'ACB(f) …(2)
(但し、|S'ACB(f)−S(f)|≦M(f))
S'(f)=S(f) …(3)
(但し、|S'ACB(f)−S(f)|>M(f))
S'(f)=S'ACB(f) …(2)
(但し、|S'ACB(f)−S(f)|≦M(f))
S'(f)=S(f) …(3)
(但し、|S'ACB(f)−S(f)|>M(f))
図4は、図3に示した入力音声のスペクトルに対し、上記の変形処理を施した場合の変形後の入力音声スペクトルS'(f)を示す図である。この図からわかるように、上記の変形処理は、換言すると、入力音声のスペクトルS(f)とACB音源モデルスペクトルS'ACB(f)との間の差分の絶対値がマスキング閾値M(f)以下の場合は、入力音声のスペクトルS(f)の振幅をS'ACB(f)と一致するように伸展させる処理である。一方、入力音声のスペクトルS(f)とACB音源モデルスペクトルS'ACB(f)との間の差分の絶対値がマスキング閾値M(f)を越える場合は、マスキング効果を期待することができないので、入力音声のスペクトルS(f)の振幅はそのまま維持する。
このように、本実施の形態によれば、入力音声信号に対して、CELP符号化の音声モデルに適合するような変形処理を人間の聴感特性を考慮して行う。より詳細には、変更処理として、周波数領域変換を施して得られるスペクトルに基づいてマスキング閾値を算出し、この処理と並行して、入力音声信号の適応符号帳ラグ(ピッチ周期)に基づいて適応符号帳モデルスペクトルの算出を行う。そして、これらの処理により得られる値を基に入力音声のスペクトルを変形し、変形後のスペクトルを逆周波数領域変換して時間領域信号に戻す。この時間領域信号が後段のCELP符号化の入力信号となる。
これにより、CELP符号化のビットレート、符号化精度、演算時間等の符号化効率を向上させることができる。すなわち、符号化レートを削減しつつ再生音声信号の品質劣化を防止することができる。
特に、本実施の形態によれば、CELP符号化に先立ち、入力音声信号から適応符号帳モデルスペクトルを求め、このスペクトルと入力音声信号のスペクトルとを比較して、入力音声信号が後段のCELP符号化、特に適応符号帳探索に適合するように、周波数領域において入力音声信号に対し変形処理を施す。そして、変形処理後のスペクトルをCELP符号化の入力とする。
よって、周波数帯域において入力音声信号の変形処理を行っていることとなるので、時間領域でこれを行うよりも分解能が高くなり精度も高くなる。また、聴感重み付きフィルタの次数よりも、より高精度で、人間の聴感特性に適応した変形処理を行うことができ、CELPの符号化効率をさらに高めることができる。
また、上記の変形処理においては、入力音声信号から得られる聴感マスキング閾値を考慮し、人間の聴感的に差のない範囲内での変形が施される。
これにより、適応符号帳探索後の符号化歪みを抑えることができ、固定符号帳の駆動音源によってより精密な符号化を行うことが可能となり、符号化効率を向上させることができる。すなわち、上記の変更処理を施しても、再生音声信号の品質は劣化しない。
また、上記の変形処理は音声信号変更部101で行われ、CELP符号化とは独立した処理であるため、既存のCELP方式の音声符号化装置の構成を変更する必要がなく、実装し易い。
なお、本実施の形態では、入力音声のスペクトルに対する変形処理の具体例として、上記式(2)および(3)を用いる例を示したが、変形処理は以下の式(4)〜(6)に従っても良い。
S'(f)=S'ACB(f) …(4)
(但し、|S'ACB(f)−S(f)|≦M(f))
S'(f)=S(f)−M(f) …(5)
(但し、|S'ACB(f)−S(f)|>M(f)かつS(f)≧SACB(f))
S'(f)=S(f)+M(f) …(6)
(但し、|S'ACB(f)−S(f)|>M(f)かつS(f)<SACB(f))
S'(f)=S'ACB(f) …(4)
(但し、|S'ACB(f)−S(f)|≦M(f))
S'(f)=S(f)−M(f) …(5)
(但し、|S'ACB(f)−S(f)|>M(f)かつS(f)≧SACB(f))
S'(f)=S(f)+M(f) …(6)
(但し、|S'ACB(f)−S(f)|>M(f)かつS(f)<SACB(f))
図5は、図3に示した入力音声のスペクトルに対し、上記の変形処理を施した場合の変形後の入力音声スペクトルS'(f)を示す図である。式(3)の処理によれば、入力音声のスペクトルS(f)とLPCスペクトル包絡を付与されたACB音源モデルスペクト
ルS'ACB(f)との間の差分の絶対値がマスキング閾値M(f)よりも大きな値となってマスキング効果を期待できない場合は、入力音声のスペクトルS(f)に変更を加えなかった。しかし、式(5)および(6)によれば、スペクトルの振幅からマスキング閾値を加算または減算した結果は、マスキング効果が得られる範囲内の値となるので、この範囲内で入力音声スペクトルを変形する。これにより、より詳細にスペクトルを変形することができる。
ルS'ACB(f)との間の差分の絶対値がマスキング閾値M(f)よりも大きな値となってマスキング効果を期待できない場合は、入力音声のスペクトルS(f)に変更を加えなかった。しかし、式(5)および(6)によれば、スペクトルの振幅からマスキング閾値を加算または減算した結果は、マスキング効果が得られる範囲内の値となるので、この範囲内で入力音声スペクトルを変形する。これにより、より詳細にスペクトルを変形することができる。
(実施の形態2)
図6は、本発明の実施の形態2に係る音声符号化装置の主要な構成を示すブロック図である。なお、実施の形態1に示した音声符号化装置と同一の構成要素については同一の符号を付し、その説明を省略する。
図6は、本発明の実施の形態2に係る音声符号化装置の主要な構成を示すブロック図である。なお、実施の形態1に示した音声符号化装置と同一の構成要素については同一の符号を付し、その説明を省略する。
本実施の形態に係る音声符号化装置において、ラグ抽出部116から出力された適応符号帳ラグTは、CELP符号化部102aへも出力される。この適応符号帳ラグTは、CELP符号化部102aにおける符号化処理に流用される。すなわち、CELP符号化部102a自体は、適応符号帳ラグTを求める処理を行わない。
図7は、CELP符号化部102a内部の主要な構成を示すブロック図である。なお、実施の形態1に示したCELP符号化部102と同一の構成要素については同一の符号を付し、その説明を省略する。
CELP符号化部102aにおいて、歪み最小化部126aには、音声信号変更部101aから適応符号帳ラグTが入力される。歪み最小化部126aは、この適応符号帳ラグTに基づいて、適応符号帳127に記憶されている過去の駆動音源から1サブフレーム分の音源ベクトルを生成する。歪み最小化部126a自体は、適応符号帳ラグTの算出を行わない。
このように、本実施の形態によれば、音声信号変更部101aで得られた適応符号帳ラグTをCELP符号化部102aにおける符号化処理にも流用する。よって、CELP符号化部102aは適応符号帳ラグTを算出する必要はなく、符号化処理の負担を軽減することができる。
以上、本発明の各実施の形態について説明した。
本発明に係る音声符号化装置および音声符号化方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、入力信号を音声信号としたが、オーディオ信号をも含む、より広帯域の信号であっても良い。
本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを
含むように1チップ化されても良い。
含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本明細書は、2005年9月30日出願の特願2005−286531に基づく。この内容はすべてここに含めておく。
本発明に係る音声符号化装置および音声符号化方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。
Claims (10)
- 音声信号に対してCELP方式の符号化を行う符号化手段と、
前記符号化手段の前段に設けられ、前記CELP方式の符号化に、より適合するように、前記音声信号に対し周波数領域において前処理を施す前処理手段と、
を具備する音声符号化装置。 - 前記前処理手段は、
前記音声信号を周波数領域変換して前記音声信号のスペクトルを求める変換手段と、
前記音声信号に基づいて適応符号帳モデルスペクトルを生成する生成手段と、
前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとを比較し、前記音声信号のスペクトルが前記適応符号帳モデルスペクトルに類似するように、前記音声信号のスペクトルを変形し、変形後のスペクトルを得る変形手段と、
前記変形後のスペクトルを逆周波数領域変換して時間領域信号に戻す逆変換手段と、
を具備する請求項1記載の音声符号化装置。 - 前記音声信号のスペクトルのマスキング閾値を算出する算出手段をさらに具備し、
前記変形手段は、
前記マスキング閾値に基づいて、聴感的に差のない範囲内で前記音声信号のスペクトルを変形し、変形後のスペクトルを得る、
請求項2記載の音声符号化装置。 - 前記変形手段は、
前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとの差の絶対値が前記マスキング閾値以下である場合、前記適応符号帳モデルスペクトルを前記変形後のスペクトルとし、
前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとの差の絶対値が前記マスキング閾値より大きい場合、前記音声信号のスペクトルを前記変形後のスペクトルとする、
請求項3記載の音声符号化装置。 - 前記変形手段は、
前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとの差の絶対値が前記マスキング閾値以下である場合、前記適応符号帳モデルスペクトルを前記変形後のスペクトルとし、
前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとの差の絶対値が前記マスキング閾値より大きく、かつ、前記音声信号のスペクトルが前記適応符号帳モデルスペクトル以上である場合、前記音声信号のスペクトルと前記マスキング閾値との差を前記変形後のスペクトルとし、
前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとの差の絶対値が前記マスキング閾値より大きく、かつ、前記音声信号のスペクトルが前記適応符号帳モデルスペクトルより小さい場合、前記音声信号のスペクトルと前記マスキング閾値との和を前記変形後のスペクトルとする、
請求項3記載の音声符号化装置。 - 前記音声信号からピッチ周期を抽出する抽出手段と、
前記音声信号をLPC分析してLPCパラメータを得る分析手段と、
をさらに具備し、
前記生成手段は、
前記ピッチ周期および前記LPCパラメータに基づいて前記適応符号帳モデルスペクトルを生成する、
請求項2記載の音声符号化装置。 - 前記符号化手段は、
前記抽出手段で抽出されたピッチ周期を前記CELP方式の符号化に用いる、
請求項6記載の音声符号化装置。 - 請求項1記載の音声符号化装置を具備する通信端末装置。
- 請求項1記載の音声符号化装置を具備する基地局装置。
- 音声信号に対してCELP方式の符号化を行う符号化ステップと、
前記符号化ステップの前段で実行され、前記CELP方式の符号化に、より適合するように、前記音声信号に対し周波数領域において前処理を施す前処理ステップと、
を具備する音声符号化方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005286531 | 2005-09-30 | ||
JP2005286531 | 2005-09-30 | ||
PCT/JP2006/319435 WO2007037359A1 (ja) | 2005-09-30 | 2006-09-29 | 音声符号化装置および音声符号化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2007037359A1 true JPWO2007037359A1 (ja) | 2009-04-16 |
Family
ID=37899780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007537695A Pending JPWO2007037359A1 (ja) | 2005-09-30 | 2006-09-29 | 音声符号化装置および音声符号化方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100153099A1 (ja) |
JP (1) | JPWO2007037359A1 (ja) |
WO (1) | WO2007037359A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009004727A1 (ja) | 2007-07-04 | 2009-01-08 | Fujitsu Limited | 符号化装置、符号化方法および符号化プログラム |
JP5262171B2 (ja) | 2008-02-19 | 2013-08-14 | 富士通株式会社 | 符号化装置、符号化方法および符号化プログラム |
JP5648123B2 (ja) | 2011-04-20 | 2015-01-07 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声音響符号化装置、音声音響復号装置、およびこれらの方法 |
JP6387117B2 (ja) * | 2015-01-30 | 2018-09-05 | 日本電信電話株式会社 | 符号化装置、復号装置、これらの方法、プログラム及び記録媒体 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2010830C (en) * | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
JPH08123490A (ja) * | 1994-10-24 | 1996-05-17 | Matsushita Electric Ind Co Ltd | スペクトル包絡量子化装置 |
JP3235703B2 (ja) * | 1995-03-10 | 2001-12-04 | 日本電信電話株式会社 | ディジタルフィルタのフィルタ係数決定方法 |
US5839098A (en) * | 1996-12-19 | 1998-11-17 | Lucent Technologies Inc. | Speech coder methods and systems |
US7742927B2 (en) * | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
US6937979B2 (en) * | 2000-09-15 | 2005-08-30 | Mindspeed Technologies, Inc. | Coding based on spectral content of a speech signal |
US20100042406A1 (en) * | 2002-03-04 | 2010-02-18 | James David Johnston | Audio signal processing using improved perceptual model |
US7949057B2 (en) * | 2003-10-23 | 2011-05-24 | Panasonic Corporation | Spectrum coding apparatus, spectrum decoding apparatus, acoustic signal transmission apparatus, acoustic signal reception apparatus and methods thereof |
WO2006070751A1 (ja) * | 2004-12-27 | 2006-07-06 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
-
2006
- 2006-09-29 WO PCT/JP2006/319435 patent/WO2007037359A1/ja active Application Filing
- 2006-09-29 JP JP2007537695A patent/JPWO2007037359A1/ja active Pending
- 2006-09-29 US US12/088,318 patent/US20100153099A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20100153099A1 (en) | 2010-06-17 |
WO2007037359A1 (ja) | 2007-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2389085C2 (ru) | Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx | |
RU2414010C2 (ru) | Трансформация шкалы времени кадров в широкополосном вокодере | |
US20100010810A1 (en) | Post filter and filtering method | |
JP4679513B2 (ja) | 階層符号化装置および階層符号化方法 | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
WO2001015144A1 (fr) | Vocodeur et procede correspondant | |
EP2096631A1 (en) | Audio decoding device and power adjusting method | |
US8892428B2 (en) | Encoding apparatus, decoding apparatus, encoding method, and decoding method for adjusting a spectrum amplitude | |
JPWO2007088853A1 (ja) | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 | |
US8909539B2 (en) | Method and device for extending bandwidth of speech signal | |
JPWO2008108078A1 (ja) | 符号化装置および符号化方法 | |
US20240127832A1 (en) | Decoder | |
JPWO2007037359A1 (ja) | 音声符号化装置および音声符号化方法 | |
US11114106B2 (en) | Vector quantization of algebraic codebook with high-pass characteristic for polarity selection | |
JPWO2008018464A1 (ja) | 音声符号化装置および音声符号化方法 | |
KR100624545B1 (ko) | 티티에스 시스템의 음성압축 및 합성방법 | |
JP2013101212A (ja) | ピッチ分析装置、音声符号化装置、ピッチ分析方法および音声符号化方法 |