JPWO2007037359A1

JPWO2007037359A1 - 音声符号化装置および音声符号化方法

Info

Publication number: JPWO2007037359A1
Application number: JP2007537695A
Authority: JP
Inventors: 道代後藤; 吉田　幸司; 幸司吉田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-09-30
Filing date: 2006-09-29
Publication date: 2009-04-16
Also published as: US20100153099A1; WO2007037359A1

Abstract

符号化レートを削減しつつ、再生音声信号の品質劣化を防止することができる音声符号化装置等を開示する。この装置の音声信号変更部（１０１）において、マスキング閾値算出部（１１４）は、入力音声信号のスペクトルＳ（ｆ）のマスキング閾値Ｍ（ｆ）を算出する。ＡＣＢ音源モデルスペクトル算出部（１１７）は、適応符号帳音源モデルスペクトルＳＡＣＢ（ｆ）を算出する。入力スペクトル変形処理部（１１２）は、マスキング閾値Ｍ（ｆ）およびＬＰＣスペクトル包絡を付与された適応符号帳音源モデルスペクトルＳ'ＡＣＢ（ｆ）の双方の値を参照し、スペクトルＳ（ｆ）に対し、後段のＣＥＬＰ符号化部（１０２）に適合するようなスペクトルに変形する前処理を施す。この装置のＣＥＬＰ符号化部（１０２）は、前処理後の音声信号に対しＣＥＬＰ方式の符号化を施し、符号化パラメータを出力する。

Description

本発明は、ＣＥＬＰ（Code-Excited Linear Prediction）方式を採用した音声符号化装置および音声符号化方法に関する。

音声信号またはオーディオ信号を低ビットレートで圧縮する符号化技術は、移動体通信システムリソースの有効活用のために重要である。音声信号の符号化方式に、ＩＴＵ−Ｔ（International Telecommunication Union Telecommunication Standardization Sector）で規格化されているＧ７２６、Ｇ７２９等の方式がある。これらの方式は、狭帯域信号（３００Ｈｚ〜３．４ｋＨｚ）を対象とし、８ｋｂｉｔ／ｓ〜３２ｋｂｉｔ／ｓのビットレートで音声信号を高品質に符号化することができる。また、広帯域信号（５０Ｈｚ〜７ｋＨｚ）の符号化方式として、ＩＴＵ−ＴのＧ７２２、Ｇ７２２．１や、３ＧＰＰ（The 3rd Generation Partnership Project）のＡＭＲ−ＷＢ等が存在する。これらの方式は、６．６ｋｂｉｔ／ｓ〜６４ｋｂｉｔ／ｓのビットレートで広帯域の音声信号を高品質に符号化することができる。

また、音声信号を低ビットレートで高能率に符号化する方式にＣＥＬＰ符号化がある。ＣＥＬＰ符号化は、人間の音声生成モデルを工学的に模擬したモデルに基づき、乱数やパルス列で表される励振信号を周期性の強さに対応するピッチフィルタと声道特性に対応する合成フィルタとに通し、その出力信号と入力信号との二乗誤差が聴覚特性の重み付けの下で最小になるように符号化パラメータを決定する方式である。最近の標準音声符号化方式の多くがＣＥＬＰ符号化に基づいており、例えば、Ｇ７２９は８ｋｂｉｔ／ｓのビットレートで狭帯域信号の符号化をすることができ、ＡＭＲ−ＷＢは６．６ｋｂｉｔ／ｓ〜２３．８５ｋｂｉｔ／ｓのビットレートで広帯域信号を符号化することができる。

ＣＥＬＰ符号化を用いて低ビットレートで高品質に符号化を行う技術として、予め聴感マスキング閾値を計算し、聴感重み付けを行う際に、この閾値をも考慮して符号化を行う技術がある（例えば、特許文献１参照）。聴感マスキングとは、周波数軸上で、ある信号の近傍に位置する信号が聞こえなくなる（マスクされる）という人間の聴感特性を利用した技術である。聴感マスキング閾値よりも振幅が小さいスペクトルは人間の聴感に知覚されないため、このスペクトルを符号化対象から除外しても人間に聴感的な歪みが知覚されることはほとんどない。よって、音質劣化をある程度抑えつつ符号化レートを削減することができる。
特開平７−１６０２９５号公報（要約）

しかしながら、上記技術において、聴感重み付きフィルタのフィルタ係数は、マスキング閾値を考慮することによって振幅方向には高精度になるものの、フィルタの次数そのものは変わっていないので、フィルタ係数の周波数軸方向の精度は変わらない。すなわち、上記技術では、聴感重み付きフィルタのフィルタ係数の精度が不充分であるために、再生音声信号の品質が劣化するという問題がある。

本発明の目的は、聴感マスキング技術等を利用して符号レートの削減を図っても、再生音声信号の品質劣化を防止することができる音声符号化装置および音声符号化方法を提供することである。

本発明の音声符号化装置は、音声信号に対してＣＥＬＰ方式の符号化を行う符号化手段と、前記符号化手段の前段に設けられ、前記ＣＥＬＰ方式の符号化により適合するように、前記音声信号に対し周波数領域において前処理を施す前処理手段と、を具備する構成を採る。

また、前記前処理手段は、前記音声信号を周波数領域変換して前記音声信号のスペクトルを求める変換手段と、前記音声信号に基づいて適応符号帳モデルスペクトルを生成する生成手段と、前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとを比較し、前記音声信号のスペクトルが前記適応符号帳モデルスペクトルに類似するように、前記音声信号のスペクトルを変形する変形手段と、変形されたスペクトルを逆周波数領域変換して時間領域信号に戻す逆変換手段と、を具備する構成を採る。

本発明によれば、符号化レートを削減しつつ、再生音声信号の品質劣化を防止することができる。

実施の形態１に係る音声符号化装置の主要な構成を示すブロック図実施の形態１に係るＣＥＬＰ符号化部内部の主要な構成を示すブロック図入力音声のスペクトルとマスキング閾値との関係を模式的に示した図変形後の入力音声スペクトルの例を示す図変形後の入力音声スペクトルの例を示す図実施の形態２に係る音声符号化装置の主要な構成を示すブロック図実施の形態２に係るＣＥＬＰ符号化部内部の主要な構成を示すブロック図

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声符号化装置の主要な構成を示すブロック図である。

本実施の形態に係る音声符号化装置は、主に音声信号変更部１０１とＣＥＬＰ符号化部１０２とからなり、音声信号変更部１０１は、入力音声信号に対し、周波数領域において下記の前処理を施し、ＣＥＬＰ符号化部１０２は、前処理後の音声信号に対しＣＥＬＰ方式の符号化を施し、ＣＥＬＰ符号化パラメータを出力する。

まず、音声信号変更部１０１について説明する。

音声信号変更部１０１は、ＦＦＴ部１１１、入力スペクトル変形処理部１１２、ＩＦＦＴ部１１３、マスキング閾値算出部１１４、スペクトル包絡付与部１１５、ラグ抽出部１１６、ＡＣＢ音源モデルスペクトル算出部１１７、およびＬＰＣ分析部１１８を備え、各部は以下の動作を行う。

ＦＦＴ部１１１は、入力音声信号に対して、符号化フレーム周期で周波数領域変換、具体的には高速フーリエ変換（ＦＦＴ）を施し、周波数領域の信号Ｓ（ｆ）に変換し、入力スペクトル変形処理部１１２およびマスキング閾値算出部１１４に出力する。

マスキング閾値算出部１１４は、ＦＦＴ部１１１から出力される周波数領域の信号、すなわち入力音声信号のスペクトルから、マスキング閾値Ｍ（ｆ）の計算を行う。マスキング閾値の計算は、周波数帯域分割後の各帯域に対する音圧レベルを決定し、最小可聴値を決定し、入力音声信号の純音成分および非純音成分を検出し、意味のあるマスカー（聴感マスキングの主体のこと）だけを得るためにマスカーを間引きし、個々のマスキング閾値および全体のマスキング閾値を計算し、個々の分割帯域の最小マスキング閾値を決定する処理によって行われる。

ラグ抽出部１１６は、ＣＥＬＰ符号化の適応符号帳（以下ＡＣＢと略すことがある）を備え、入力音声信号（入力スペクトル変形処理部１１２に入力される前の音声信号）に対し、適応符号帳探索を行うことにより適応符号帳ラグＴを抽出し、ＡＣＢ音源モデルスペクトル算出部１１７に出力する。この適応符号帳ラグＴは、ＡＣＢ音源モデルスペクトルの算出に必要なものである。なお、入力音声信号に対するオープンループでのピッチ分析によりピッチ周期を求め、これをＴとしても良い。

ＡＣＢ音源モデルスペクトル算出部１１７は、ラグ抽出部１１６から出力される適応符号帳ラグＴを用いて、以下の式（１）を用いて、ＡＣＢ音源モデルスペクトル（調波構造スペクトル）Ｓ_ＡＣＢ（ｆ）を算出し、スペクトル包絡付与部１１５に出力する。
１／（１−ｚ^−Ｔ） …（１）

ＬＰＣ分析部１１８は、入力音声信号のＬＰＣ分析（線形予測分析）を行い、得られるＬＰＣパラメータをスペクトル包絡付与部１１５に出力する。

スペクトル包絡付与部１１５は、ＬＰＣ分析部１１８から出力されるＬＰＣパラメータを用いて、ＡＣＢ音源モデルスペクトルＳ_ＡＣＢ（ｆ）に対し、ＬＰＣスペクトル包絡を付与する。ＬＰＣスペクトル包絡を付与されたＡＣＢ音源モデルスペクトルＳ'_ＡＣＢ（ｆ）は、入力スペクトル変形処理部１１２に出力される。

入力スペクトル変形処理部１１２は、ＦＦＴ部１１１から出力される入力音声のスペクトル（入力スペクトル）に対し、フレーム毎に所定の変形処理を施し、変形後のスペクトルＳ'（ｆ）をＩＦＦＴ部１１３に出力する。この変形処理は、入力スペクトルを後段のＣＥＬＰ符号化部１０２に適合するようなスペクトルに変形する処理であり、詳細については後ほど図を交えて詳述する。

ＩＦＦＴ部１１３は、入力スペクトル変形処理部１１２から出力される変形処理後のスペクトルＳ'（ｆ）に対し、逆周波数領域変換、具体的には逆高速フーリエ変換（ＩＦＦＴ）を施し、得られる時間領域信号（変更後の入力音声）をＣＥＬＰ符号化部１０２に出力する。

図２は、ＣＥＬＰ符号化部１０２内部の主要な構成を示すブロック図である。ＣＥＬＰ符号化部１０２の各部は以下の動作を行う。

ＬＰＣ分析部１２１は、ＣＥＬＰ符号化部１０２の入力信号（変更後の入力音声）に対して線形予測分析を施し、ＬＰＣパラメータを求める。ＬＰＣ量子化部１２２は、ＬＰＣパラメータを量子化し、得られる量子化ＬＰＣパラメータをＬＰＣ合成フィルタ１２３に出力すると共に、この量子化ＬＰＣパラメータを示すインデックスＣ_Ｌを出力する。

一方、適応符号帳１２７は、歪み最小化部１２６から指示された適応符号帳ラグに従って、記憶している過去の駆動音源から１サブフレーム分の音源ベクトルを生成する。固定符号帳１２８は、歪み最小化部１２６からの指示に従い、予め記憶している所定形状の固定符号帳ベクトルを出力する。ゲイン符号帳１２９は、歪み最小化部１２６からの指示に従って、適応符号帳ゲインおよび固定符号帳ゲインを生成する。乗算器１３０および乗算器１３１は、適応符号帳ゲインおよび固定符号帳ゲインを、適応符号帳１２７および固定符号帳１２８の出力にそれぞれ乗じる。加算器１３２は、ゲイン乗算後の適応符号帳１２７および固定符号帳１２８の出力を加算し、ＬＰＣ合成フィルタ１２３に出力する。

ＬＰＣ合成フィルタ１２３は、ＬＰＣ量子化部１２２から出力される量子化ＬＰＣパラメータをフィルタ係数とし、加算器１３２からの出力を駆動音源としたフィルタ関数を用いて合成信号を生成する。

加算器１２４は、ＣＥＬＰ符号化部１０２の入力信号（変更後の入力音声）から上記合成信号を減じ、符号化歪みを算出する。聴感重み付け部１２５は、ＬＰＣ分析部１２１から出力されるＬＰＣパラメータをフィルタ係数とする聴感重み付けフィルタを用いて、加算器１２４から出力される符号化歪みに対して聴感的な重み付けを施す。歪み最小化部１２６は、閉ループ制御（帰還制御）の符号帳探索により、符号化歪みが最小となるような適応符号帳１２７、固定符号帳１２８、およびゲイン符号帳１２９のインデックスＣ_Ａ、Ｃ_Ｄ、Ｃ_Ｇを求める。

次いで、入力スペクトル変形処理部１１２において行われる上記変形処理について、図３〜５を用いて、より詳細に説明する。

図３は、周波数領域の入力音声信号、すなわち入力音声のスペクトルＳ（ｆ）とマスキング閾値Ｍ（ｆ）との関係を模式的に示した図である。この図において、入力音声のスペクトルＳ（ｆ）を実線で、マスキング閾値Ｍ（ｆ）を破線で示している。また、ＬＰＣスペクトル包絡を付与されたＡＣＢ音源モデルスペクトルＳ'_ＡＣＢ（ｆ）を一点鎖線で示している。

入力スペクトル変形部１１２は、マスキング閾値Ｍ（ｆ）およびＬＰＣスペクトル包絡を付与されたＡＣＢ音源モデルスペクトルＳ'_ＡＣＢ（ｆ）の双方の値を参照して、入力音声のスペクトルＳ（ｆ）に対する変形処理を行う。

この変形処理は、入力音声のスペクトルＳ（ｆ）とＡＣＢ音源モデルスペクトルＳ'_ＡＣＢ（ｆ）との類似度が高まるように、入力音声のスペクトルＳ（ｆ）を変形するものである。その際、スペクトルＳ（ｆ）と変更後のスペクトルＳ'（ｆ）との間の誤差が、マスキング閾値Ｍ（ｆ）以下となるようにする。

上記の条件および変形処理を具体的に数式を用いて説明すると、変形後のスペクトルＳ'（ｆ）は以下のように表される。
Ｓ'（ｆ）＝Ｓ'_ＡＣＢ（ｆ） …（２）
（但し、｜Ｓ'_ＡＣＢ（ｆ）−Ｓ（ｆ）｜≦Ｍ（ｆ））
Ｓ'（ｆ）＝Ｓ（ｆ） …（３）
（但し、｜Ｓ'_ＡＣＢ（ｆ）−Ｓ（ｆ）｜＞Ｍ（ｆ））

図４は、図３に示した入力音声のスペクトルに対し、上記の変形処理を施した場合の変形後の入力音声スペクトルＳ'（ｆ）を示す図である。この図からわかるように、上記の変形処理は、換言すると、入力音声のスペクトルＳ（ｆ）とＡＣＢ音源モデルスペクトルＳ'_ＡＣＢ（ｆ）との間の差分の絶対値がマスキング閾値Ｍ（ｆ）以下の場合は、入力音声のスペクトルＳ（ｆ）の振幅をＳ'_ＡＣＢ（ｆ）と一致するように伸展させる処理である。一方、入力音声のスペクトルＳ（ｆ）とＡＣＢ音源モデルスペクトルＳ'_ＡＣＢ（ｆ）との間の差分の絶対値がマスキング閾値Ｍ（ｆ）を越える場合は、マスキング効果を期待することができないので、入力音声のスペクトルＳ（ｆ）の振幅はそのまま維持する。

このように、本実施の形態によれば、入力音声信号に対して、ＣＥＬＰ符号化の音声モデルに適合するような変形処理を人間の聴感特性を考慮して行う。より詳細には、変更処理として、周波数領域変換を施して得られるスペクトルに基づいてマスキング閾値を算出し、この処理と並行して、入力音声信号の適応符号帳ラグ（ピッチ周期）に基づいて適応符号帳モデルスペクトルの算出を行う。そして、これらの処理により得られる値を基に入力音声のスペクトルを変形し、変形後のスペクトルを逆周波数領域変換して時間領域信号に戻す。この時間領域信号が後段のＣＥＬＰ符号化の入力信号となる。

これにより、ＣＥＬＰ符号化のビットレート、符号化精度、演算時間等の符号化効率を向上させることができる。すなわち、符号化レートを削減しつつ再生音声信号の品質劣化を防止することができる。

特に、本実施の形態によれば、ＣＥＬＰ符号化に先立ち、入力音声信号から適応符号帳モデルスペクトルを求め、このスペクトルと入力音声信号のスペクトルとを比較して、入力音声信号が後段のＣＥＬＰ符号化、特に適応符号帳探索に適合するように、周波数領域において入力音声信号に対し変形処理を施す。そして、変形処理後のスペクトルをＣＥＬＰ符号化の入力とする。

よって、周波数帯域において入力音声信号の変形処理を行っていることとなるので、時間領域でこれを行うよりも分解能が高くなり精度も高くなる。また、聴感重み付きフィルタの次数よりも、より高精度で、人間の聴感特性に適応した変形処理を行うことができ、ＣＥＬＰの符号化効率をさらに高めることができる。

また、上記の変形処理においては、入力音声信号から得られる聴感マスキング閾値を考慮し、人間の聴感的に差のない範囲内での変形が施される。

これにより、適応符号帳探索後の符号化歪みを抑えることができ、固定符号帳の駆動音源によってより精密な符号化を行うことが可能となり、符号化効率を向上させることができる。すなわち、上記の変更処理を施しても、再生音声信号の品質は劣化しない。

また、上記の変形処理は音声信号変更部１０１で行われ、ＣＥＬＰ符号化とは独立した処理であるため、既存のＣＥＬＰ方式の音声符号化装置の構成を変更する必要がなく、実装し易い。

なお、本実施の形態では、入力音声のスペクトルに対する変形処理の具体例として、上記式（２）および（３）を用いる例を示したが、変形処理は以下の式（４）〜（６）に従っても良い。
Ｓ'（ｆ）＝Ｓ'_ＡＣＢ（ｆ） …（４）
（但し、｜Ｓ'_ＡＣＢ（ｆ）−Ｓ（ｆ）｜≦Ｍ（ｆ））
Ｓ'（ｆ）＝Ｓ（ｆ）−Ｍ（ｆ） …（５）
（但し、｜Ｓ'_ＡＣＢ（ｆ）−Ｓ（ｆ）｜＞Ｍ（ｆ）かつＳ（ｆ）≧Ｓ_ＡＣＢ（ｆ））
Ｓ'（ｆ）＝Ｓ（ｆ）＋Ｍ（ｆ） …（６）
（但し、｜Ｓ'_ＡＣＢ（ｆ）−Ｓ（ｆ）｜＞Ｍ（ｆ）かつＳ（ｆ）＜Ｓ_ＡＣＢ（ｆ））

図５は、図３に示した入力音声のスペクトルに対し、上記の変形処理を施した場合の変形後の入力音声スペクトルＳ'（ｆ）を示す図である。式（３）の処理によれば、入力音声のスペクトルＳ（ｆ）とＬＰＣスペクトル包絡を付与されたＡＣＢ音源モデルスペクトルＳ'_ＡＣＢ（ｆ）との間の差分の絶対値がマスキング閾値Ｍ（ｆ）よりも大きな値となってマスキング効果を期待できない場合は、入力音声のスペクトルＳ（ｆ）に変更を加えなかった。しかし、式（５）および（６）によれば、スペクトルの振幅からマスキング閾値を加算または減算した結果は、マスキング効果が得られる範囲内の値となるので、この範囲内で入力音声スペクトルを変形する。これにより、より詳細にスペクトルを変形することができる。

（実施の形態２）
図６は、本発明の実施の形態２に係る音声符号化装置の主要な構成を示すブロック図である。なお、実施の形態１に示した音声符号化装置と同一の構成要素については同一の符号を付し、その説明を省略する。

本実施の形態に係る音声符号化装置において、ラグ抽出部１１６から出力された適応符号帳ラグＴは、ＣＥＬＰ符号化部１０２ａへも出力される。この適応符号帳ラグＴは、ＣＥＬＰ符号化部１０２ａにおける符号化処理に流用される。すなわち、ＣＥＬＰ符号化部１０２ａ自体は、適応符号帳ラグＴを求める処理を行わない。

図７は、ＣＥＬＰ符号化部１０２ａ内部の主要な構成を示すブロック図である。なお、実施の形態１に示したＣＥＬＰ符号化部１０２と同一の構成要素については同一の符号を付し、その説明を省略する。

ＣＥＬＰ符号化部１０２ａにおいて、歪み最小化部１２６ａには、音声信号変更部１０１ａから適応符号帳ラグＴが入力される。歪み最小化部１２６ａは、この適応符号帳ラグＴに基づいて、適応符号帳１２７に記憶されている過去の駆動音源から１サブフレーム分の音源ベクトルを生成する。歪み最小化部１２６ａ自体は、適応符号帳ラグＴの算出を行わない。

このように、本実施の形態によれば、音声信号変更部１０１ａで得られた適応符号帳ラグＴをＣＥＬＰ符号化部１０２ａにおける符号化処理にも流用する。よって、ＣＥＬＰ符号化部１０２ａは適応符号帳ラグＴを算出する必要はなく、符号化処理の負担を軽減することができる。

以上、本発明の各実施の形態について説明した。

本発明に係る音声符号化装置および音声符号化方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、入力信号を音声信号としたが、オーディオ信号をも含む、より広帯域の信号であっても良い。

本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。

なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。

本明細書は、２００５年９月３０日出願の特願２００５−２８６５３１に基づく。この内容はすべてここに含めておく。

本発明に係る音声符号化装置および音声符号化方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。

まず、音声信号変更部１０１について説明する。

マスキング閾値算出部１１４は、ＦＦＴ部１１１から出力される周波数領域の信号、す
なわち入力音声信号のスペクトルから、マスキング閾値Ｍ（ｆ）の計算を行う。マスキング閾値の計算は、周波数帯域分割後の各帯域に対する音圧レベルを決定し、最小可聴値を決定し、入力音声信号の純音成分および非純音成分を検出し、意味のあるマスカー（聴感マスキングの主体のこと）だけを得るためにマスカーを間引きし、個々のマスキング閾値および全体のマスキング閾値を計算し、個々の分割帯域の最小マスキング閾値を決定する処理によって行われる。

一方、適応符号帳１２７は、歪み最小化部１２６から指示された適応符号帳ラグに従って、記憶している過去の駆動音源から１サブフレーム分の音源ベクトルを生成する。固定符号帳１２８は、歪み最小化部１２６からの指示に従い、予め記憶している所定形状の固定符号帳ベクトルを出力する。ゲイン符号帳１２９は、歪み最小化部１２６からの指示に
従って、適応符号帳ゲインおよび固定符号帳ゲインを生成する。乗算器１３０および乗算器１３１は、適応符号帳ゲインおよび固定符号帳ゲインを、適応符号帳１２７および固定符号帳１２８の出力にそれぞれ乗じる。加算器１３２は、ゲイン乗算後の適応符号帳１２７および固定符号帳１２８の出力を加算し、ＬＰＣ合成フィルタ１２３に出力する。

図５は、図３に示した入力音声のスペクトルに対し、上記の変形処理を施した場合の変形後の入力音声スペクトルＳ'（ｆ）を示す図である。式（３）の処理によれば、入力音声のスペクトルＳ（ｆ）とＬＰＣスペクトル包絡を付与されたＡＣＢ音源モデルスペクト
ルＳ'_ＡＣＢ（ｆ）との間の差分の絶対値がマスキング閾値Ｍ（ｆ）よりも大きな値となってマスキング効果を期待できない場合は、入力音声のスペクトルＳ（ｆ）に変更を加えなかった。しかし、式（５）および（６）によれば、スペクトルの振幅からマスキング閾値を加算または減算した結果は、マスキング効果が得られる範囲内の値となるので、この範囲内で入力音声スペクトルを変形する。これにより、より詳細にスペクトルを変形することができる。

以上、本発明の各実施の形態について説明した。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを
含むように１チップ化されても良い。

Claims

音声信号に対してＣＥＬＰ方式の符号化を行う符号化手段と、
前記符号化手段の前段に設けられ、前記ＣＥＬＰ方式の符号化に、より適合するように、前記音声信号に対し周波数領域において前処理を施す前処理手段と、
を具備する音声符号化装置。
前記前処理手段は、
前記音声信号を周波数領域変換して前記音声信号のスペクトルを求める変換手段と、
前記音声信号に基づいて適応符号帳モデルスペクトルを生成する生成手段と、
前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとを比較し、前記音声信号のスペクトルが前記適応符号帳モデルスペクトルに類似するように、前記音声信号のスペクトルを変形し、変形後のスペクトルを得る変形手段と、
前記変形後のスペクトルを逆周波数領域変換して時間領域信号に戻す逆変換手段と、
を具備する請求項１記載の音声符号化装置。
前記音声信号のスペクトルのマスキング閾値を算出する算出手段をさらに具備し、
前記変形手段は、
前記マスキング閾値に基づいて、聴感的に差のない範囲内で前記音声信号のスペクトルを変形し、変形後のスペクトルを得る、
請求項２記載の音声符号化装置。
前記変形手段は、
前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとの差の絶対値が前記マスキング閾値以下である場合、前記適応符号帳モデルスペクトルを前記変形後のスペクトルとし、
前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとの差の絶対値が前記マスキング閾値より大きい場合、前記音声信号のスペクトルを前記変形後のスペクトルとする、
請求項３記載の音声符号化装置。
前記変形手段は、
前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとの差の絶対値が前記マスキング閾値以下である場合、前記適応符号帳モデルスペクトルを前記変形後のスペクトルとし、
前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとの差の絶対値が前記マスキング閾値より大きく、かつ、前記音声信号のスペクトルが前記適応符号帳モデルスペクトル以上である場合、前記音声信号のスペクトルと前記マスキング閾値との差を前記変形後のスペクトルとし、
前記音声信号のスペクトルと前記適応符号帳モデルスペクトルとの差の絶対値が前記マスキング閾値より大きく、かつ、前記音声信号のスペクトルが前記適応符号帳モデルスペクトルより小さい場合、前記音声信号のスペクトルと前記マスキング閾値との和を前記変形後のスペクトルとする、
請求項３記載の音声符号化装置。
前記音声信号からピッチ周期を抽出する抽出手段と、
前記音声信号をＬＰＣ分析してＬＰＣパラメータを得る分析手段と、
をさらに具備し、
前記生成手段は、
前記ピッチ周期および前記ＬＰＣパラメータに基づいて前記適応符号帳モデルスペクトルを生成する、
請求項２記載の音声符号化装置。
前記符号化手段は、
前記抽出手段で抽出されたピッチ周期を前記ＣＥＬＰ方式の符号化に用いる、
請求項６記載の音声符号化装置。
請求項１記載の音声符号化装置を具備する通信端末装置。
請求項１記載の音声符号化装置を具備する基地局装置。
音声信号に対してＣＥＬＰ方式の符号化を行う符号化ステップと、
前記符号化ステップの前段で実行され、前記ＣＥＬＰ方式の符号化に、より適合するように、前記音声信号に対し周波数領域において前処理を施す前処理ステップと、
を具備する音声符号化方法。