JPWO2008007699A1

JPWO2008007699A1 - 音声復号装置および音声符号化装置

Info

Publication number: JPWO2008007699A1
Application number: JP2008524818A
Authority: JP
Inventors: 河嶋　拓也; 拓也河嶋; 江原　宏幸; 宏幸江原; 吉田　幸司; 幸司吉田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2006-07-12
Filing date: 2007-07-11
Publication date: 2009-12-10
Anticipated expiration: 2027-07-11
Also published as: EP2040251A4; EP2040251A1; US20090326930A1; EP2040251B1; US8812306B2; JP5052514B2; WO2008007699A1

Abstract

消失フレーム補償処理用の情報量を抑え、符号化効率を向上させることができる音声復号装置。この装置において、復号音源生成部（２０３）は、消失フレームの復号音源信号を生成し、ピッチパルス情報復号部（２０４）は、ピッチパルス位置情報およびピッチパルス振幅情報を復号し、ピッチパルス波形学習部（２０５）は、消失フレームより過去のフレームにおいて予めピッチパルス学習波形を学習し、畳み込み部（２０６）は、ピッチパルス振幅情報に基づきピッチパルス学習波形を振幅調整し、さらにピッチパルス位置情報に基づき振幅調整されたピッチパルス波形を時間軸に畳み込み、音源信号補正部（２０７）は、時間軸に畳み込まれたピッチパルス波形を消失フレームの復号音源信号に加算または置換する。

Description

本発明は、音声復号装置および音声符号化装置に関し、主としてこれら装置における消失フレーム補償方法に関する。

ＶｏＩＰ（Voice over IP）用の音声コーデックには、高いパケットロス耐性が要求される。次世代のＶｏＩＰ用コーデックでは、比較的高いフレーム消失率（例えば６％のフレーム消失率）においてもエラーフリーの品質を達成することが望まれる。

ＣＥＬＰ型の音声コーデックの場合、音声の立ち上がり部のフレームが消失することによる品質劣化が問題となるケースが多い。これは、立ち上がり部では信号の変化が大きく、直前のフレームの信号との相関性が低いため、直前のフレームの情報を用いた隠蔽処理が有効に機能しないことが原因である。あるいは、後続の有声部のフレームにおいて、立ち上がり部で符号化した音源信号が適応符号帳として積極的に使用されるため、立ち上がり部の消失の影響が後続する有声フレームに伝播し、復号音声信号の大きな歪につながりやすいことが原因である。

上記のような問題に対して、現フレームの符号化情報と共に、前後フレームが消失した場合の補償（隠蔽）処理用の符号化情報を現フレームの符号化情報と一緒に送る技術が開発されている（例えば、特許文献１参照）。この技術は、現フレームの音声信号の繰り返し又は該符号の特徴量の外挿により前フレーム（または後フレーム）の補償信号を合成し、前フレーム信号（または後フレーム信号）と比較することにより、現フレームから前フレーム擬似信号（または後フレーム疑似信号）を作ることができるか否かを判断し、作ることができないと判断される場合には前フレーム信号（または後フレーム信号）を基に前サブエンコーダ（または後サブエンコーダ）により前サブコード（後サブコード）を生成し、メインエンコーダで符号化した現フレームのメインコードに前サブコード（後サブコード）を付加することによって前フレーム（後フレーム）が消失しても高品質な復号信号の生成を可能としている。
特開２００３−２４９９５７号公報

しかしながら、上記技術は、現フレームの符号化情報を基にして、前フレーム（過去のフレーム）の符号化をサブエンコーダにおいて行う構成であるため、前フレーム（過去のフレーム）の符号化情報が失われていても現フレームの信号を高品質に復号できるコーデック方式である必要がある。このため、過去の符号化情報（または復号情報）を用いる予測型の符号化方式をメインレイヤとした場合に適用することは困難である。特に、適応符号帳を利用するＣＥＬＰ型の音声コーデックをメインレイヤとする場合、前フレームが消失すると現フレームの復号を正しく行うことができず、上記技術を適用しても高品質な復号信号を生成することは困難である。

本発明の目的は、適応符号帳等の過去の音源情報を利用する音声コーデックをメインレイヤとする場合に、前フレームが消失しても現フレームの補償をすることができる消失フレーム補償方法が適用される音声復号装置および音声符号化装置を提供することである。

本発明の音声復号装置は、消失フレームである第１フレームを特定するフレーム消失情報を受信する受信手段と、前記第１フレームと異なる第２フレームにおいて伝送された符号化パラメータから、ピッチパルス情報、および前記第１フレームの音源信号を復号する第１復号手段と、前記第１フレームより過去の定常状態のフレームにおいて、ピッチパルス学習波形を学習する学習手段と、前記ピッチパルス学習波形および前記ピッチパルス情報を用いて、前記第１フレームの音源信号を補正する補正手段と、を具備する構成を採る。

本発明によれば、現フレームが消失する場合、補償処理用情報のみを用いて現フレームを復号できるために、過去または未来のフレームにおいて伝送される当該補償処理用情報の情報量を低減することができ、音声符号化の効率を向上することができる。

実施の形態１に係る音声符号化装置の主要な構成を示すブロック図実施の形態１に係るピッチパルス抽出部内部の主要な構成を示すブロック図実施の形態１に係るピッチパルス検出部におけるピッチパルスの検出方法を説明するための図実施の形態１に係る音声復号装置の主要な構成を示すブロック図実施の形態１に係る音声復号装置における消失フレーム補償処理を説明するための図実施の形態１に係るピッチパルス波形学習部内部の主要な構成を示すブロック図実施の形態１に係るピッチパルス波形学習部の動作を説明するための図実施の形態２に係る音声符号化装置の主要な構成を示すブロック図実施の形態２に係る音声復号装置の主要な構成を示すブロック図実施の形態２に係る音源信号補正部の動作を説明するための図実施の形態２に係る音源信号補正部内部の主要な構成を示すブロック図仮に符号化対象となる音源信号に非周期的なピーク波形が存在し、ＣＥＬＰ型符号化により消失フレーム補償処理を行う場合に、得られる復号音源信号を示す図実施の形態３に係る音声復号装置の主要な構成を示すブロック図実施の形態３に係る音源信号補正部内部の主要な構成を示すブロック図実施の形態４に係る音声復号装置の主要な構成を示すブロック図実施の形態４に係る音源信号補正部の内部の主要な構成を示すブロック図実施の形態４に係るピッチパルス列生成部の内部の主要な構成を示すブロック図実施の形態４に係るピッチパルス列候補生成部において生成されるピッチパルス列候補のイメージを示す図実施の形態４に係るピッチパルス列生成部においてピッチパルス列を生成する処理手順を示すフロー図実施の形態４に係るフレーム消失が生じない場合の復号音源信号の波形を示す図実施の形態４に係るフレーム消失が生じない場合、各フレームにおける復号音源パワーを示す図実施の形態４に係る１つのピッチパルス波形を用いて復号音源信号を補正して得られる補正音源信号の波形を示す図実施の形態４に係る１つのピッチパルス波形を用いて復号音源信号を補正する場合の音源パワーを例示する図実施の形態４に係る２つのピッチパルス波形を用いて復号音源信号を補正して得られる補正音源信号の波形を示す図実施の形態４に係る２つのピッチパルス波形を用いて復号音源信号を補正する場合の音源パワーを例示する図実施の形態４に係る３つのピッチパルス波形を用いて復号音源信号を補正して得られる補正音源信号の波形を示す図実施の形態４に係る３つのピッチパルス波形を用いて復号音源信号を補正する場合の音源パワーを例示する図実施の形態５に係るピッチパルス列を用いて復号音源信号を補正する方法を説明するための図実施の形態５に係る音声復号装置の主要な構成を示すブロック図実施の形態５に係るピッチラグ補正部の内部の構成を示すブロック図実施の形態５に係るピッチラグ補正可否判定部においてピッチラグ補正可否判定を行う手順を示すフロー図実施の形態５に係る音源信号補正部の内部の構成を示すブロック図実施の形態５に係るピッチパルス列生成部の内部の構成を示すブロック図実施の形態６に係る復号音源ピッチパルス波形を用いて復号音源信号を補正する方法を説明するための図実施の形態６に係る復号音源ピッチパルス波形を用いて復号音源信号を補正する方法を説明するための図実施の形態６に係るピッチパルス列生成部の内部の構成を示すブロック図

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声符号化装置１００の主要な構成を示すブロック図である。ここでは、音声符号化装置１００としてＣＥＬＰ型音声符号化装置を例にあげる。

音声符号化装置１００は、ＬＰＣ分析部１０１、ＬＰＣ符号化部１０２、ＬＰＣ合成フィルタ部１０３、聴感重み付け部１０４、符号化歪み算出部１０５、聴感重み付け部１０６、音源生成部１０７、音源パラメータ符号化部１０８、ピッチパルス抽出部１０９、および多重化部１１０を備える。

音声符号化装置１００の各部は以下の動作を行う。なお、音声符号化装置１００における符号化処理はフレーム単位で行われる。

ＬＰＣ分析部１０１は、入力音声信号に対して線形予測分析（ＬＰＣ分析）を行い、得られるＬＰＣ係数をＬＰＣ符号化部１０２、聴感重み付け部１０４および聴感重み付け部１０６に出力する。

聴感重み付け部１０６は、ＬＰＣ分析部１０１から出力されたＬＰＣに重み係数を乗じたフィルタ係数により聴感重み付けフィルタを構成し、入力音声信号に対して聴覚的な重み付けを施し、符号化歪み算出部１０５に出力する。

ＬＰＣ符号化部１０２は、ＬＰＣ分析部１０１から入力されるＬＰＣ係数を量子化・符号化し、得られるＬＰＣ量子化パラメータをＬＰＣ合成フィルタ部１０３に、得られるＬＰＣ符号化パラメータを多重化部１１０に出力する。

ＬＰＣ合成フィルタ部１０３は、ＬＰＣ符号化部１０２から入力されるＬＰＣ量子化パラメータをフィルタ係数とし、音源生成部１０７から入力される音源信号によってＬＰＣ合成フィルタとして駆動し、合成信号を聴感重み付け部１０４に出力する。

聴感重み付け部１０４は、ＬＰＣ分析部１０１から入力されるＬＰＣ係数をフィルタ係数とする聴感重み付けフィルタを用いて、ＬＰＣ合成フィルタ部１０３から入力される合成信号に対して聴覚的な重み付けを施し、符号化歪み算出部１０５に出力する。

符号化歪み算出部１０５は、聴感重み付け部１０６から出力された聴覚的な重み付けが施された入力音声信号と、聴感重み付け部１０４から入力される聴覚的な重み付けが施された合成信号との差を算出し、算出した差を符号化歪みとして音源生成部１０７に出力する。

音源生成部１０７は、符号化歪み算出部１０５から出力された符号化歪みが最小となる音源信号をＬＰＣ合成フィルタ部１０３に出力する。また、音源生成部１０７は、符号化歪みが最小となるときの音源信号およびピッチラグをピッチパルス抽出部１０９に出力し、符号化歪みが最小となるときの音源符号帳インデックス、音源符号帳ゲイン、ピッチラグ、およびピッチゲインなどの音源パラメータを音源パラメータ符号化部１０８に出力する。

音源パラメータ符号化部１０８は、音源生成部１０７から入力される音源符号帳インデックス、音源符号帳ゲイン、ピッチラグ、およびピッチゲインなどからなる音源パラメータを符号化し、得られる音源符号化パラメータを多重化部１１０に出力する。

ピッチパルス抽出部１０９は、音源生成部１０７から入力されるピッチラグに基づき、音源生成部１０７から入力される音源信号のピッチパルスを検出し、ピッチパルスの位置および振幅情報を符号化し、得られるピッチパルス位置符号化パラメータおよびピッチパルス振幅符号化パラメータを多重化部１１０に出力する。

多重化部１１０は、音声符号化装置１００に入力される音声信号のフレーム番号をｎ＋１と記す場合（ここで、ｎ＞０の整数である）、ＬＰＣ符号化部１０２から入力されるｎ＋１番フレームのＬＰＣ符号化パラメータ、音源パラメータ符号化部１０８から入力されるｎ＋１番フレームの音源符号化パラメータ、およびピッチパルス抽出部１０９から入力されるｎ番フレームのピッチパルス位置符号化パラメータおよびピッチパルス振幅符号化パラメータを多重化し、得られる多重化データをｎ＋１番フレームの音声符号化データとして出力する。

図２は、ピッチパルス抽出部１０９内部の主要な構成を示すブロック図である。

ピッチパルス抽出部１０９は、音源記憶部１９１、ピッチパルス検出部１９２、ピッチパルス適合判定部１９３、およびピッチパルス符号化部１９４を備える。

音源記憶部１９１は、音源生成部１０７から入力される音源信号を記憶するバッファを内蔵し、現フレームの音源信号をピッチパルス適合判定部１９３に出力するとともに、過去１フレームの音源信号をピッチパルス検出部１９２に出力する。

ピッチパルス検出部１９２は、音源生成部１０７から入力されるｎ＋１番フレームのピッチラグおよび音源記憶部１９１から入力される音源信号を用いて、ｎ番フレームのピッチパルスを検出する。ピッチパルス検出部１９２におけるピッチパルスの検出方法の詳細については後述する。ピッチパルス検出部１９２は、ピッチパルスの位置ＰＰｐをピッチパルス適合判定部１９３に出力するとともに、検出されたピッチパルスの位置ＰＰｐおよび振幅ＰＰａをピッチパルス符号化部１９４に出力する。

ピッチパルス適合判定部１９３は、音源記憶部１９１から入力される音源信号、ピッチパルス検出部１９２から入力されるピッチパルス位置ＰＰｐ、および音源生成部１０７から入力されるピッチラグを用いて、ピッチパルス検出部１９２で検出されたｎ番フレームのピッチパルスが適合であるか否かを判定する。ピッチパルス適合判定部１９３における判定方法の詳細については後述する。

ピッチパルス符号化部１９４は、ピッチパルス適合判定部１９３から入力されるピッチパルス適合判定結果が「適合」である場合、ピッチパルス検出部１９２から入力されるピッチパルスの位置ＰＰｐおよび振幅ＰＰａをスカラー量子化方法などで符号化し、得られるピッチパルス位置符号化パラメータおよびピッチパルス振幅符号化パラメータを多重化部１１０に出力する。

図３は、ピッチパルス検出部１９２におけるピッチパルスの検出方法を説明するための図である。図３において、横軸は時間軸を示し、縦軸は音源信号の振幅を示す。ここで、各フレームの音源信号はピッチラグを周期として繰り返される信号と、周期波形では表現しきれない信号を表現するための雑音性の信号との和で表現されている。ピッチパルス検出部１９２は、ｎ＋１番フレームのピッチラグＴ（ｎ＋１）を用いてｎ番フレームにおいてピッチパルスを検出する。具体的には、ｎ番フレームの後端から過去へ、すなわち、ｎ＋１番フレームと接する位置から過去へ、ピッチラグＴ（ｎ＋１）を長さとする区間をピッチパルス探索範囲とする。ピッチパルス検出部１９２は、ピッチパルス探索範囲内で振幅が最大となるピッチパルスを検出する。

次いで、ピッチパルス適合判定部１９３は、ピッチパルス位置ＰＰｐ前後の、フレーム長より短い長さの区間をピッチパルス波形として音源信号から抽出し、抽出されたピッチパルス波形をｎ＋１番フレームのピッチラグＴ（ｎ＋１）だけ遅延させてから、ｎ＋１番フレームの音源信号との相関値を算出する。ここで、遅延されたピッチパルス波形とｎ＋１番フレームの音源信号との相関値は、ｎ番フレームにおけるピッチパルス探索区間のパワーを用いて正規化されたものである。ピッチパルス適合判定部１９３は、算出された相関値が所定の閾値以上である場合は、ピッチパルス検出部１９２で検出されたピッチパルスをｎ＋１番フレームにおいて、ピッチラグＴ（ｎ＋１）で繰り返されると判定する。すなわち、ピッチパルス検出部１９２で検出されたピッチパルスは、ｎ番フレームが消失する場合、後述の音声復号装置２００においてｎ番フレームの消失フレーム補償（隠蔽）処理に用いるのに適合であると判定する。一方、ピッチパルス適合判定部１９３は、算出された相関値が所定の閾値よりも小さい場合は、ピッチパルス検出部１９２で検出されたピッチパルスが適合ではないと判定する。ピッチパルス適合判定部１９３は、ピッチパルス適合判定結果をピッチパルス符号化部１９４に出力する。

図４は、本発明の実施の形態１に係る音声復号装置２００の主要な構成を示すブロック図である。

音声復号装置２００は、逆多重化部２０１、音源パラメータ復号部２０２，復号音源生成部２０３、ピッチパルス情報復号部２０４、ピッチパルス波形学習部２０５、畳み込み部２０６、音源信号補正部２０７、音源選択部２０８、ＬＰＣ復号部２０９、および合成フィルタ部２１０を備える。

音声復号装置２００における処理は、音声符号化装置１００の処理と同様にフレーム単位で行われ、なお、ピッチパルス情報復号部２０４、畳み込み部２０６、および音源信号補正部２０７の処理対象となるフレームは消失フレームである。

逆多重化部２０１は、音声符号化装置１００から伝送される音声符号化データを受信し、音源符号化パラメータ、ＬＰＣ符号化パラメータ、ピッチパルス位置符号化パラメータおよびピッチパルス振幅符号化パラメータを分離する。逆多重化部２０１は、得られる音源符号化パラメータを音源パラメータ復号部２０２に出力し、ピッチパルス位置符号化パラメータおよびピッチパルス振幅符号化パラメータをピッチパルス情報復号部２０４に出力し、ＬＰＣ符号化パラメータをＬＰＣ復号部２０９に出力する。また、逆多重化部２０１は、フレーム消失情報を受信し、音源パラメータ復号部２０２、ピッチパルス波形学習部２０５、音源選択部２０８、およびＬＰＣ復号部２０９に出力する。

音源パラメータ復号部２０２は、逆多重化部２０１から入力される音源符号化パラメータを復号して音源符号帳インデックス、音源符号帳ゲイン、ピッチラグ、およびピッチゲインなどの音源パラメータを得る。音源パラメータ復号部２０２は、得られるピッチラグ、ピッチゲイン、音源符号帳インデックスおよび音源符号帳ゲインを復号音源生成部２０３に出力し、ピッチラグをピッチパルス波形学習部２０５に出力する。

復号音源生成部２０３は、音源パラメータ復号部２０２から入力される音源符号帳インデックス、音源符号帳ゲイン、および音源選択部２０８からフィードバックされる過去フレームの音源信号、ピッチラグ、およびピッチゲインを用いてＣＥＬＰ型復号、補償、および平滑化処理を行い、復号音源信号を生成し、ピッチパルス波形学習部２０５、音源信号補正部２０７、および音源選択部２０８に出力する。

ピッチパルス情報復号部２０４は、逆多重化部２０１から入力されるピッチパルス位置符号化パラメータおよびピッチパルス振幅符号化パラメータを復号し、得られるピッチパルス位置ＰＰｐおよびピッチパルス振幅ＰＰａを畳み込み部２０６に出力する。

ピッチパルス波形学習部２０５は、逆多重化部２０１から入力されるフレーム消失情報、音源パラメータ復号部２０２から入力されるピッチラグおよび復号音源生成部２０３から入力される復号音源信号を用いてピッチパルス学習波形を生成し、畳み込み部２０６に出力する。ここで、ピッチパルス学習波形は、ピッチパルス周辺の波形を学習により生成される。なお、最大振幅を正規化したうえで学習を行う。ピッチパルス波形学習部２０５の詳細な構成および動作については後述する。

畳み込み部２０６は、ピッチパルス情報復号部２０４からピッチパルス位置ＰＰｐおよびピッチパルス振幅ＰＰａが入力され、ピッチパルス波形学習部２０５からピッチパルス学習波形が入力される。畳み込み部２０６は、ピッチパルス位置ＰＰｐと、ピッチパルス学習波形の最大振幅の位置とが一致するようにピッチパルス学習波形を時間軸に畳み込み、畳み込まれたピッチパルス学習波形に、ピッチパルスの振幅ＰＰａを乗じ、得られるピッチパルス波形を音源信号補正部２０７に出力する。

音源信号補正部２０７は、復号音源生成部２０３から入力される復号音源信号に、畳み込み部２０６から入力されるピッチパルス波形を加算し、得られる補正音源信号を音源選択部２０８に出力する。または、音源信号補正部２０７は、音源信号において、ピッチパルス波形に対応する区間をピッチパルス波形で置換しても良い。

音源選択部２０８は、逆多重化部２０１から入力されるフレーム消失情報がフレーム消失を示す場合は、音源信号補正部２０７から入力される補正音源信号を選択し、フレーム消失情報がフレーム消失を示していない場合は、復号音源生成部２０３から入力される復号音源信号を選択する。音源選択部２０８は、選択された音源信号を合成フィルタ部２１０に出力する。

ＬＰＣ復号部２０９は、逆多重化部２０１から入力されるＬＰＣ符号化パラメータを復号し、得られるＬＰＣ係数を合成フィルタ部２１０に出力する。

合成フィルタ部２１０は、音源選択部２０８から入力される音源信号、ＬＰＣ復号部２０９から入力されるＬＰＣ係数を用いて、復号音声信号を合成して出力する。

図５は、音声復号装置２００における消失フレーム補償処理を説明するための図である。ここでは、音声復号装置２００に入力される音声符号化データのｍ番フレームが消失した場合を例にあげ説明する。なお、音声復号装置２００におけるｍ番フレームは、音声符号化装置１００におけるｎ番フレームに対応する。

図５Ａは、ピッチパルス波形学習部２０５から畳み込み部２０６に入力されるピッチパルス学習波形ｌｗを示す図であり、図５Ａにおいて、ピッチパルス学習波形ｌｗは振幅が１．０に正規化されたものである。図５Ｂは、ピッチパルス情報復号部２０４から畳み込み部２０６に入力されるｍ番フレームのピッチパルス位置ＰＰｐおよびピッチパルス振幅ＰＰａを示すための図である。ここで、ｍ番フレームのピッチパルス位置ＰＰｐおよびピッチパルス振幅ＰＰａの復号に用いられるピッチパルス位置符号化パラメータおよびピッチパルス振幅符号化パラメータは、ｍ＋１番フレームにおいて音声符号化装置１００から伝送されたものである。図５ＢにおいてＰＰはピッチパルス位置ＰＰｐおよびピッチパルス振幅ＰＰａにより決まるピッチパルスを示している。図５Ｃは、畳み込み部２０６において生成されたピッチパルス波形ＰＰｗを示す。ピッチパルス波形ＰＰｗは、ピッチパルス位置ＰＰｐと、ピッチパルス学習波形の最大振幅の位置とが一致するようにピッチパルス学習波形ｌｗを時間軸に畳み込み、畳み込まれたピッチパルス学習波形に、ピッチパルスの振幅ＰＰａを乗じることにより得られる。図５Ｄは、音源信号補正部２０７に入力される音源信号を示す図である。ｍ番フレームのピッチパルス位置ＰＰｐには消失が無ければピッチピーク波形があるはずであるが、このように通常のＣＥＬＰ型音声復号装置における補償方法では正確なピッチピークを表現できない。図５Ｅは、音源選択部２０８から合成フィルタ部２１０に出力される音源信号を示す図であり、図５Ｅにおいて、ｍ−１番フレームおよびｍ＋１番フレームの音源信号は、復号音源生成部２０３から音源選択部２０８に入力され選択されたものであり、ｍ番フレームの音源信号は、音源信号補正部２０７から音源選択部２０８に入力され選択されたものである。図５Ｅに示すｍ番フレームの音源信号において、破線で示す波形は畳み込み部２０６で生成されたピッチパルス波形を示しており、消失していなければ存在するはずのピッチピークを補正により表現している。

図６および図７を参照しながらピッチパルス波形学習部２０５内部の主要な構成および動作を説明する。

図６は、ピッチパルス波形学習部２０５内部の主要な構成を示すブロック図である。図６において、ピッチパルス波形学習部２０５は、学習可否判定部２５１、ピッチピーク検出部２５２、正規化部２５３、および平滑化処理部２５４を備える。

図７は、ピッチパルス波形学習部２０５の動作を説明するための図である。図７において、図７Ａはピッチピーク検出部２５２の動作を説明するための図であり、図７Ｂおよび図７Ｃは正規化部２５３の動作を説明するための図であり、図７Ｄは平滑化処理部２５４の動作を説明するための図である。

学習可否判定部２５１は、復号音源生成部２０３から入力される復号音源信号、音源パラメータ復号部２０２から入力されるピッチラグ、逆多重化部２０１から入力されるフレーム消失情報に基づき、ピッチパルス波形の学習を行うことが可能であるか否かの判定を行い、得られる学習可否判定結果をピッチピーク検出部２５２に出力する。学習可否判定部２５１は、音声の定常状態のようにピッチ周期が安定している区間において波形学習を行うことが可能であると判定する。例えば、学習可否判定部２５１は、消失フレームでない定常状態のフレーム内において他の音源サンプルと比較してより振幅の大きい音源サンプルからなるピッチパルスが存在し、かつ、このピッチパルスがピッチラグを周期として繰り返される場合を、波形学習可の判定条件とする。

ピッチピーク検出部２５２は、学習可否判定部２５１から入力される学習判定結果が「可」である場合、復号音源生成部２０３から入力される復号音源信号、および音源パラメータ復号部２０２から入力されるピッチラグを用いて、ピッチピーク位置を検出し、検出されたピーク位置を正規化部２５３に出力する。ピッチピーク検出部２５２は、図７Ａに示すように、学習を行うフレームにおいて最大振幅となる位置Ｐｐ０を第１ピッチピーク位置として検出する。次に、ピッチピーク検出部２５２は、同一フレーム内において第１ピッチピークＰｐ０からピッチラグだけ離れている位置に第２ピッチピークＰｐ１が存在するか否か検出を行い、ピッチピークＰｐ１が存在する場合、第１ピッチピーク位置Ｐｐ０を検出されたピッチピーク位置として正規化部２５３に出力する。図７Ａにおいて、Ａｐ０およびＡｐ１は、第１ピッチピーク位置Ｐｐ０および第２ピッチピーク位置Ｐｐ１それぞれにおける振幅を示し、この例ではＡｐ０＞Ａｐ１である。

正規化部２５３は、復号音源生成部２０３から復号音源信号が、ピッチピーク検出部２５２からピッチピーク位置Ｐｐ０が入力され、入力される復号音源信号のうち、ピッチピーク位置Ｐｐ０周辺の所定サンプル数Ｐｗ（例えばＰｗ＝５〜１０サンプル）だけの波形を、ピッチパルス波形として抽出する。正規化部２５３は、抽出されたピッチパルス波形に対して最大振幅が１．０となるように正規化を行い、得られる正規化ピッチパルス波形ｃｗを平滑化処理部２５４に出力する。図７Ｂは、正規化部２５３において求められる正規化ピッチパルス波形ｃｗを示す図である。図７Ｃは、仮にピッチピーク検出部２５２から正規化部２５３にピッチピークＰｐ１の位置が入力される場合に求められる正規化ピッチパルス波形ｃｗ’を示す。

平滑化処理部２５４は、正規化部２５３から入力される正規化ピッチパルス波形ｃｗに対して、下記の式（１）に従い、過去のピッチパルス学習波形ｌｗ’との長期平滑化処理を行い、得られるピッチパルス学習波形ｌｗを畳み込み部２０６に出力する。
ｌｗ（ｉ）＝α＊ｌｗ’（ｉ）＋（１−α）＊ｃｗ（ｉ） …（１）

式（１）において、αは長期平滑化係数（０＜α＜１．０）を示す。なお、ここでは、ピッチピーク位置が正規化ピッチパルス波形ｃｗの中心となる場合を例にとり、サンプル番号ｉの範囲は−Ｐｗ／２≦ｉ≦Ｐｗ／２となる。図７Ｄは、平滑化処理部２５４において長期平滑化処理により求められるピッチパルス学習波形ｌｗを示す図である。なお、本例のように検出したピッチパルスが２つある場合は、正規化ピッチパルス波形ｃｗを用いてピッチパルス学習波形ｌｗを求めた後、同様に正規化ピッチパルス波形ｃｗ’を用いてもう１つのピッチパルス学習波形ｌｗ２を求め、ピッチパルス学習波形ｌｗおよびピッチパルス学習波形ｌｗ２をフレーム消失補償に用いても良い。

上記のように、ピッチパルス波形学習部２０５において得られるピッチパルス学習波形は、後続の消失フレーム補償処理に用いられる。例えば、ｍ番フレームより過去の音源信号を用いて学習されたピッチパルス学習波形は、ｍ番フレームの消失フレーム補償処理に用いられる。

このように、本実施の形態によれば、音声符号化装置はピッチパルスを検出し、ピッチパルス位置および振幅情報を消失フレーム補償処理用の情報として符号化し、音声復号装置は消失フレームのピッチパルス位置および振幅情報を用いて、消失フレーム補償処理を行うため、消失フレーム補償処理用の情報量を低減しつつ、復号信号の音声品質を向上することができる。

なお、本実施の形態では、音声符号化装置１００の多重化部１１０において、ｎ番フレームのピッチパルス位置符号化パラメータ、ピッチパルス振幅符号化パラメータと、ｎ＋１番フレームのＬＰＣ符号化パラメータ、音源パラメータとを多重して音声復号装置２００に伝送する例にとって説明したが、音声符号化装置１００の多重化部１１０において、ｎ番フレームのピッチパルス位置符号化パラメータ、ピッチパルス振幅符号化パラメータと、ｎ−１番フレームのピッチパルス位置符号化パラメータ、ピッチパルス振幅符号化パラメータとを多重して音声復号装置２００に伝送しても良い。

また、本実施の形態では、正規化部２５３において最大振幅が１．０となるようにピッチパルス波形を正規化する場合を例にとって説明したが、パワーが１．０となるようにピッチパルス波形を正規化しても良い。

また、本実施の形態では、１つのピッチパルスに関する情報を伝送する場合を例にとって説明したが、複数のピッチパルスを検出し、関連の情報を伝送して消失フレームの補償処理に用いても良い。

また、本実施の形態では、音声復号装置２００において、ピッチパルス学習波形を消失フレームに畳み込んで消失フレームを補償する場合を例にとって説明したが、図５Ｂに示すピッチパルスを消失フレームに畳み込んで消失フレームを補償しても良い。さらには、条件によって、ピッチパルスを畳み込む消失フレーム補償処理、ピッチパルス学習波形を畳み込む消失フレーム補償処理、およびピッチパルスもピッチパルス学習波形も畳み込まない消失フレーム補償処理を切り替える構成にしても良い。例えば、音声の発生源（話者）が多数で、音源信号が頻繁に変わる場合は、ピッチパルスを畳み込む消失フレーム補償処理を行う。一方、誤りが頻発する場合、ピッチパルスを畳み込む消失フレーム補償処理を行うと、畳み込まれたピッチパルスの位置のみの振幅が高くなり、ビープ音的な異音が発生するため、このような場合は、ピッチパルスもピッチパルス学習波形も畳み込まずに消失フレーム補償処理を行えば良い。

また、本実施の形態では、音声復号装置２００において、学習により得られるピッチパルス学習波形を用いて消失フレームを補償する場合を例にとって説明したが、音声符号化装置１００からピッチパルス波形を符号化して伝送しても良い。かかる場合、音声復号装置２００においてピッチパルス学習波形を学習しなくても良い。

また、本実施の形態では、音声復号装置２００において、音声符号化装置１００から伝送されたピッチパルス位置ＰＰｐ一箇所のみにピッチパルス波形を畳み込んで音源信号を補正する場合を例にとって説明したが、過去フレーム方向に所定間隔毎の各位置にピッチパルス波形を複数畳み込んで音源信号を補正しても良い。かかる場合、所定間隔として、音源信号パワーが減少傾向にある場合は、過去フレームのピッチラグに近い補正ピッチラグを用い、音源信号パワーが増加傾向にある場合は、次フレームのピッチラグに近い補正ピッチラグを用いて良い。

また、本実施の形態では、音声符号化装置１００において、ピッチパルスの振幅を符号化して伝送する場合を例にとって説明したが、振幅の代わりにパワーを符号化して伝送し、音声復号装置２００における消失フレーム補償処理に用いても良い。

また、本実施の形態では、ピッチパルス波形の長さＰｗを５〜１０サンプルの範囲とする場合を例にとって説明したが、この範囲に限定するものではない。

また、本実施の形態では、消失フレームのみに限定してピッチパルス波形による補正を行う場合を例にとって説明したが、消失フレーム後に正常受信したフレームにおいてもピッチパルス波形による補正を行っても良い。

（実施の形態２）
一般的に、音声復号装置において消失フレーム補償処理を行い得られる復号音声信号のパワーが、音声符号化装置の符号化対象となる入力音声信号のパワーと大きく異なる場合、復号音声信号に主観的な劣化が生じる。従って、音声復号装置において、音声符号化装置の入力音声信号のパワーと一致するように、復号音声信号のパワーを調整する必要がある。本発明の実施の形態２では、復号音声信号のパワーを調整しつつ、音声符号化装置の入力音声信号の振幅と復号音声信号の振幅との一致を維持する。

図８は、本発明の実施の形態２に係る音声符号化装置３００の主要な構成を示すブロック図である。なお、音声符号化装置３００は、実施の形態１に示した音声符号化装置１００（図１参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声符号化装置３００は、音源パワー算出部３０１をさらに有する点において、音声符号化装置１００と相違する。なお、音声符号化装置３００の多重化部３１０と、音声符号化装置１００の多重化部１１０とは処理の一部において相違点があり、それを示すために異なる符号を付す。

音源パワー算出部３０１は、音源生成部１０７から入力される現フレームの音源パワーを算出し、スカラー量子化などの符号化を行い、得られる音源パワー符号化パラメータを多重化部３１０に出力する。

多重化部３１０は、音声符号化装置１００の多重化部１１０に比べ、ＬＰＣ符号化部１０２から入力されるｎ＋１番フレームのＬＰＣ符号化パラメータ、音源パラメータ符号化部１０８から入力されるｎ＋１番フレームの音源符号化パラメータ、ピッチパルス抽出部１０９から入力されるｎ番フレームのピッチパルス位置符号化パラメータおよびピッチパルス振幅符号化パラメータに加え、さらに音源パワー算出部３０１から入力されるｎ番フレームの音源パワー符号化パラメータを多重化し、得られる多重化データをｎ＋１番フレームの音声符号化データとして出力する。

図９は、本発明の実施の形態２に係る音声復号装置４００の主要な構成を示すブロック図である。なお、音声復号装置４００は、実施の形態１に示した音声復号装置２００（図４参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声復号装置４００は、音源パワー復号部４０２をさらに有する点において、音声復号装置２００と相違する。なお、音声復号装置４００の逆多重化部４０１、音源信号補正部４０７と、音声復号装置２００の逆多重化部２０１、音源信号補正部２０７とは処理の一部において相違点があり、それを示すために異なる符号を付す。

逆多重化部４０１は、音声復号装置２００の逆多重化部２０１に比べ、音源符号化パラメータ、ピッチパルス符号化パラメータ、およびＬＰＣ符号化パラメータに加え、さらに音源パワー符号化パラメータを分離して音源パワー復号部４０２に出力する。

音源パワー復号部４０２は、逆多重化部４０１から入力される音源パワー符号化パラメータを復号し、得られる復号音源パワーを音源信号補正部４０７に出力する。

音源信号補正部４０７は、音声復号装置２００の音源信号補正部２０７に比べ、復号音源生成部２０３から入力される復号音源信号に対して、畳み込み部２０６から入力されるピッチパルス波形の加算、または置換を行い、補正音源信号を得る処理に加え、得られる補正音源信号に対してさらにパワー調整を行う。

図１０は、音源信号補正部４０７の動作を説明するための図である。図１０Ａは、畳み込み部２０６から音源信号補正部４０７に入力されるピッチパルス波形ｌｗを示す図であり、図１０Ｂは、復号音源生成部２０３から音源信号補正部４０７に入力される復号音源信号を示す図である。図１０Ｃは、図１０Ｂに示す音源信号から、図１０Ａに示すピッチパルス波形ｌｗに対応する区間を除いて得られる差分音源信号を示す図である。図１０Ｄは、図１０Ｃに示す差分音源信号に対して差分音源増幅係数を乗じてパワー調整を行い、得られるパワー調整差分音源信号を示す。図１０Ｅは、図１０Ｄに示すパワー調整差分音源信号に、図１０Ａに示すピッチパルス波形を加算して得られる補正音源信号を示す図である。図１０Ｅに示す補正音源信号の音源パワーは、音源パワー復号部４０２から音源信号補正部４０７に入力される復号音源パワーと一致する。

図１１は、図１０に示す動作を行う音源信号補正部４０７内部の主要な構成を示すブロック図である。

音源信号補正部４０７は、ピッチパルス波形パワー算出部４７１、差分音源パワー算出部４７２、差分音源理想パワー算出部４７３、差分音源増幅係数算出部４７４、差分音源増幅部４７５、およびピッチパルス波形加算部４７６を備える。

ピッチパルス波形パワー算出部４７１は、畳み込み部２０６から入力されるピッチパルス波形の音源パワーを算出し、得られるピッチパルス波形パワーＰｐｏｗを差分音源パワー算出部４７２および差分音源理想パワー算出部４７３に出力する。

差分音源パワー算出部４７２は、復号音源生成部２０３から入力される復号音源信号のパワーを算出し、さらにピッチパルス波形パワー算出部４７１から入力されるピッチパルス波形パワーＰｐｏｗとの差を求め、差分音源パワーＲｐｏｗとして差分音源増幅係数算出部４７４に出力する。ここで、算出された差分音源パワーＲｐｏｗが負数である場合、差分音源パワー算出部４７２は、ゼロの値を差分音源増幅係数算出部４７４に出力する。

差分音源理想パワー算出部４７３は、音源パワー復号部４０２から入力される復号音源パワーＨｐｏｗと、ピッチパルス波形パワー算出部４７１から入力されるピッチパルス波形パワーＰｐｏｗとの差を差分音源理想パワーＩＲｐｏｗとして算出し、差分音源増幅係数算出部４７４に出力する。ここで、算出された差分音源理想パワーＩＲｐｏｗが負数である場合、差分音源理想パワー算出部４７３は、ゼロの値を差分音源増幅係数算出部４７４に出力する。

差分音源増幅係数算出部４７４は、差分音源理想パワー算出部４７３から入力される差分音源理想パワーＩＲｐｏｗと、差分音源パワー算出部４７２から入力される差分音源パワーＲｐｏｗとを用いて、下記の式（２）に従い差分音源増幅係数Ｒｒを算出し、差分音源増幅部４７５に出力する。

ここで、差分音源理想パワー算出部４７３から入力される差分音源理想パワーＩＲｐｏｗ、または差分音源パワー算出部４７２から入力される差分音源パワーＲｐｏｗがゼロである場合、差分音源増幅係数算出部４７４は、差分音源増幅係数Ｒｒとして「１」の値を差分音源増幅部４７５に出力する。

差分音源増幅部４７５は、復号音源生成部２０３により入力される音源信号から、ピッチパルス波形に対応する区間を除いて得られる差分音源信号に対して、差分音源増幅係数算出部４７４から入力される差分音源増幅係数Ｒｒを乗じてパワー調整を行い、得られるパワー調整差分音源信号をピッチパルス波形加算部４７６に出力する。

ピッチパルス波形加算部４７６は、差分音源増幅部４７５から入力されるパワー調整差分音源信号に、畳み込み部２０６から入力されるピッチパルス波形を加算し、得られる補正音源信号を音源選択部２０８に出力する。

このように、本実施の形態によれば、ピッチパルスの振幅を維持しつつ、補正音源信号の音源パワーを復号音源パワーに一致させるため、復号音声信号の主観的な劣化を抑え、復号音声信号の品質を向上することができる。

（実施の形態３）
まず、仮に符号化対象となる音源信号に非周期的なピーク波形が存在し、ＣＥＬＰ型符号化により消失フレーム補償処理を行う場合に、得られる復号音源信号を図１２に示す。

図１２Ａは、ＣＥＬＰ型音声符号化装置の符号化対象となる音源信号の波形を示す図である。図１２Ａに示すように、ｍ−１番フレームの音源信号は周期性がなく、ＦＰ０の位置に非周期的なピーク波形、例えば、破裂系子音や突発性雑音などが存在する。図１２Ｂは、ｍ番フレームが消失する場合、ＣＥＬＰ型音声復号装置が図１２Ａに示した音源信号に対して復号および消失フレーム補償処理を行い、得られる復号音源信号の波形を示す。なお、図１２Ｂは、ｍ番フレームが消失する場合を例示する。図１２Ｂに示すように、ＣＥＬＰ型音声復号装置の消失フレーム補償処理により得られるｍ番フレームの復号音源信号の波形には、図１２Ａに示す音源信号の波形に存在しなかった新たなピッチ周期性が現れる。すなわち、補償ピッチラグＴ'(ｍ）間隔毎にＦＰ１、ＦＰ２、ＦＰ３、およびＦＰ４の位置にピッチパルス波形が現れる。ここでは、このようなピッチ波形を偽ピッチパルスと称す。偽ピッチパルスが繰り返されることにより、復号信号に大きな音質劣化が生じる。なお、図１２において、ＰＰｐは、仮に本発明の実施の形態１を適用した場合、得られるｍ番フレームの復号音源信号に畳み込まれるピッチパルス波形の位置を示す。このピッチパルス波形は、ピッチラグＴ（ｍ＋１）で繰り返される。

本発明の実施の形態３に係る音声復号装置５００は、復号音声信号の音質劣化の原因となる偽ピッチパルスを検出し、偽ピッチパルスを除去することができる構成を採る。

図１３は、本発明の実施の形態３に係る音声復号装置５００の主要な構成を示すブロック図である。

本実施の形態に係る音声復号装置５００は、実施の形態１に示した音声復号装置２００（図４参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声復号装置５００の音源信号補正部５０７と、音声復号装置２００の音源信号補正部２０７とは処理の一部において相違点があり、それを示すために異なる符号を付す。なお、音声復号装置５００は、音源パラメータ復号部２０２が音源符号化パラメータを復号して得られるピッチラグをさらに音源信号補正部５０７に出力する点において音声復号装置２００と相違する。

図１４は、音源信号補正部５０７内部の主要な構成を示すブロック図である。

音源信号補正部５０７は、偽ピッチパルス検出部５７１、定常音源生成部５７２、雑音生成部５７３、雑音増幅係数算出部５７４、雑音増幅部５７５、雑音加算部５７６、およびピッチパルス置換部５７７を備える。

音源信号補正部５０７の各部は以下の動作を行う。以下、音声復号装置５００に入力される音声符号化データのフレーム番号をｍ＋１と記し、音声復号装置５００から出力される復号音声信号はｍ番フレームである。

偽ピッチパルス検出部５７１は、復号音源生成部２０３から入力される復号音源信号、ピッチラグ、畳み込み部２０６から入力されるピッチパルス波形を用いて、偽ピッチパルスを検出する。偽ピッチパルスの検出方法として、具体的には、まず、消失フレームｍ番フレームと、その次のｍ＋１番フレームとの境界から、過去方向へピッチラグＴ（ｍ＋１）長の区間を偽ピッチパルスの探索範囲とする。ただし、ピッチパルス波形が存在する区間を偽ピッチパルスの探索範囲から除外する。偽ピッチパルスの探索範囲において、最大振幅値を検出し、検出された最大振幅値が所定の閾値以上であるか否かを判定する。閾値としては、例えば、偽ピッチパルスの探索範囲の波形の平均振幅の３倍、または、畳み込み部２０６から入力されるピッチパルス波形の最大振幅の１／２とする。偽ピッチパルス検出部５７１は、偽ピッチパルスの探索範囲において検出された最大振幅値が上記の閾値以上であると判定する場合、検出された最大振幅の位置を偽ピッチパルスの位置として、定常音源生成部５７２および雑音増幅係数算出部５７４に出力する。

定常音源生成部５７２は、復号音源生成部２０３から復号音源信号が入力され、畳み込み部２０６からピッチパルス波形が入力され、偽ピッチパルス検出部５７１から偽ピッチパルスの位置が入力される。定常音源生成部５７２は、偽ピッチパルス位置の前後、数サンプルの区間に対応する復号音源信号を偽ピッチパルス波形とし、ピッチパルス波形および偽ピッチパルス波形に対応する区間の復号音源信号をゼロに置換することにより定常音源を得る。定常音源生成部５７２は、得られる定常音源を雑音増幅係数算出部５７４および雑音加算部５７６に出力する。

雑音生成部５７３は、ランダム雑音、ガウス雑音、または過去の定常音源を用いて、偽ピッチパルス波形長を長さとする雑音を生成し、雑音増幅係数算出部５７４および雑音増幅部５７５に出力する。

雑音増幅係数算出部５７４は、定常音源生成部５７２から定常音源の音源パワーを算出し、フレーム長からピッチパルス波形長および偽ピッチパルス波形長を減算した長さ（サンプル数）を用いて正規化する。雑音増幅係数算出部５７４は、正規化されたパワーに偽ピッチパルス長を乗じ、偽ピッチパルスの目標パワーを算出する。雑音増幅係数算出部５７４は、また雑音生成部５７３から入力される雑音のパワーを算出し、偽ピッチパルスの目標パワーと、雑音のパワーとの比の平方根を算出し、雑音増幅係数として雑音増幅部５７５に出力する。

雑音増幅部５７５は、雑音増幅係数算出部５７４から入力される雑音増幅係数を用いて、雑音生成部５７３から入力される雑音を増幅し、増幅された雑音を雑音加算部５７６に出力する。

雑音加算部５７６は、定常音源生成部５７２から入力される定常音源と、雑音増幅部５７５から入力される振幅調整された雑音とを加算することにより、偽ピッチパルスが除去された復号音源信号を得、ピッチパルス置換部５７７に出力する。

ピッチパルス置換部５７７は、雑音加算部５７６から入力される偽ピッチパルスが除去された復号音源信号と、畳み込み部２０６から入力されるピッチパルス波形とを加算し、得られる補正音源信号を音源選択部２０８に出力する。

このように、本実施の形態によれば、偽ピッチパルスを検出し、パワー調整された雑音を用いて偽ピッチパルスを置換するため、偽ピッチパルスによる復号音源信号の音質劣化を回避し、復号音声信号の音声品質を向上させることができる。

なお、本実施の形態では、復号音源生成部２０３において、補償ピッチ周期を用いてＣＥＬＰ型復号および消失フレーム補償処理を行う場合を例にとって説明したが、補償ピッチ周期を用いて音源信号を補償せず直接ランダム雑音または定常的な雑音を用いて消失フレームを補償しても良い。これにより、偽ピッチパルス波形が補償ピッチ周期で繰り返されることを回避し、偽ピッチパルス波形を検出および除去する必要がなくなる。

（実施の形態４）
本発明の実施の形態４においては、音声符号化装置で生成された音源信号のパワーと、音声復号装置で生成された復号音源信号のパワーとの差を補償するために、複数のピッチパルス波形からなるピッチパルス列を用いて復号音源信号を補正する。

図１５は、本実施の形態に係る音声復号装置６００の主要な構成を示すブロック図である。なお、音声復号装置６００は、実施の形態２に示した音声復号装置４００（図９参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声復号装置６００は、畳み込み部２０６の代わりに音源パワー記憶部６０１を備える点において、音声復号装置４００と相違する。なお、音声復号装置６００の音源信号補正部６０７と音声復号装置４００の音源信号補正部４０７とは内部の構成および動作において相違点があるため異なる符号を付す。

音源パワー記憶部６０１は、音源選択部２０８から入力される音源信号のパワーを下記の式（３）に従い算出して記憶し、過去フレームの音源信号のパワー（過去フレーム音源パワー）を音源信号補正部６０７に出力する。ここでは、１フレーム前の音源パワーを過去フレーム音源パワーとして出力する場合を例にとる。

この式において、ｉはサンプル番号、ｍ−１は現フレームの１つ前のフレームの番号、Ｌ_ＦＲＡＭＥはフレーム長、ｅｘｅ_ｓ(ｍ−１）(ｉ)はｍ−１番フレームの音源信号を示す。

音源信号補正部６０７は、音源パラメータ復号部２０２から入力されるピッチラグ、復号音源生成部２０３から入力される復号音源信号、ピッチパルス情報復号部２０４から入力されるピッチパルス位置およびピッチパルス振幅、ピッチパルス波形学習部２０５から入力されるピッチパルス学習波形、音源パワー復号部４０２から入力される復号音源パワー、および音源パワー記憶部６０１から入力される過去フレーム音源パワーを用いてピッチパルス列を生成する。また、音源信号補正部６０７は、生成されたピッチパルス列を用いて復号音源信号を補正し、得られる補正音源信号を音源選択部２０８に出力する。

図１６は、音源信号補正部６０７の内部の主要な構成を示すブロック図である。音源信号補正部６０７は、実施の形態２に示した音源信号補正部４０７（図１１参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音源信号補正部６０７は、ピッチパルス列生成部６７１をさらに備える点において、実施の形態２に示した音源信号補正部４０７と相違する。なお、音源信号補正部６０７のピッチパルス波形パワー算出部４７１、差分音源パワー算出部４７２、およびピッチパルス波形加算部４７６は、畳み込み部２０６から入力されるピッチパルス波形の代わりにピッチパルス列生成部６７１から入力されるピッチパルス列を用いる点のみにおいて、音源信号補正部４０７のピッチパルス波形パワー算出部４７１、差分音源パワー算出部４７２、およびピッチパルス波形加算部４７６と相違し、ここでは同じ符号を付し説明を省略する。

ピッチパルス列生成部６７１は、ピッチパルス情報復号部２０４から入力されるピッチパルス位置およびピッチパルス振幅、ピッチパルス波形学習部２０５から入力されるピッチパルス学習波形、復号音源生成部２０３から入力される復号音源信号、音源パワー復号部４０２から入力される復号音源パワー、音源パワー記憶部６０１から入力される過去フレーム音源パワー、および音源パラメータ復号部２０２から入力されるピッチラグを用いてピッチパルス列を生成する。ピッチパルス列生成部６７１は、ピッチパルス位置ＰＰｐを起点として、時間軸の過去方向（逆方向）にピッチラグ間隔でピッチパルス学習波形を繰り返して配置することによってピッチパルス列を生成する。ピッチパルス列を構成する個々のピッチパルス波形の振幅は、ピッチパルス情報復号部２０４から入力されるピッチパルス振幅を基準として、時間軸の過去方向に位置するピッチパルス波形ほど振幅が減衰させていく。ここで、振幅の減衰係数は後述のピッチパルス減衰係数算出部６７８において、復号音源パワーおよび過去フレーム音源パワーを用いて算出される。なお、ピッチパルス列を構成するピッチパルス波形の数は、ピッチパルス列の補正により得られる補正音源信号のパワーと復号音源パワーとの比較結果が考慮されたうえで決まる。ピッチパルス列生成部６７１は、得られるピッチパルス列をピッチパルス波形パワー算出部４７１、差分音源パワー算出部４７２、およびピッチパルス波形加算部４７６に出力する。

図１７は、ピッチパルス列生成部６７１の内部の主要な構成を示すブロック図である。

図１７において、ピッチパルス列生成部６７１は、ピッチパルス列候補生成部６７２、ピッチパルス列パワー算出部６７３、差分音源パワー算出部６７４、補正音源パワー算出部６７５、復号音源パワー比較部６７６、次ピッチパルス位置算出部６７７、ピッチパルス減衰係数算出部６７８、およびピッチパルス列記憶部６７９を備える。

ピッチパルス列候補生成部６７２は、音源パラメータ復号部２０２から入力されるピッチラグ、ピッチパルス情報復号部２０４から入力されるピッチパルス位置およびピッチパルス振幅値、ピッチパルス波形学習部２０５から入力されるピッチパルス学習波形、音源パワー記憶部６０１から入力される過去フレーム音源パワー、次ピッチパルス位置算出部６７７から入力される次ピッチパルス位置、およびピッチパルス減衰係数算出部６７８から入力されるピッチパルス減衰係数を用いてピッチパルス列候補を生成する。具体的には、ピッチパルス列候補生成部６７２は、フレーム長を長さとするバッファを内蔵しており、フレーム処理の開始において内蔵のバッファを「空」で初期化、すなわちバッファの値を全て０とし、ピッチパルス情報復号部２０４から入力されるピッチパルス位置を起点とし、ピッチパルス減衰係数が乗じられたピッチパルス学習波形をピッチパルス波形として、ピッチパルス波形の振幅絶対値最大値の位置と次ピッチパルス位置とが一致するように、ピッチパルス波形をピッチラグ間隔で時間軸の過去方向へ内蔵のバッファに繰り返し追加する。ピッチパルス列候補生成部６７２は、複数のピッチパルス波形が追加されたバッファをピッチパルス列候補としてピッチパルス列パワー算出部６７３、差分音源パワー算出部６７４、およびピッチパルス列記憶部６７９に出力する。

図１８は、ピッチパルス列候補生成部６７２において生成されるピッチパルス列候補のイメージを示す図である。

フレーム処理の初期状態としてピッチパルス列候補生成部６７２の内蔵のバッファは「空」（バッファの値が全て０）である。ピッチパルス列候補生成部６７２は、まず、ピッチパルス振幅値ＰＰａのピッチパルス学習波形を１個目のピッチパルス波形として、ピッチパルス波形の振幅値最大値の位置とピッチパルス位置ＰＰｐとが一致するように、すなわち位置ＰＰｐへ１個目のピッチパルス波形を内蔵のバッファに追加する。次いで、ピッチパルス列候補生成部６７２は、ピッチパルス減衰係数が乗じられたピッチパルス学習波形を２個目のピッチパルス波形として、ピッチパルス位置ＰＰｐから時間軸の過去方向へピッチラグＴ（ｍ＋１）だけ離れた位置、すなわち位置ＰＰｍ１へ２個目のピッチパルス波形を内蔵のバッファに追加する。同様に、ピッチパルス列候補生成部６７２は、２個目のピッチパルス波形用のピッチパルス減衰係数とは異なるピッチパルス減衰係数が乗じられたピッチパルス学習波形を３個目のピッチパルス波形として、ピッチパルス位置ＰＰｍ１から時間軸の過去方向へピッチラグＴ（ｍ＋１）だけ離れた位置、すなわち位置ＰＰｍ２へ３個目のピッチパルス波形を内蔵のバッファに追加する。ピッチパルス列候補生成部６７２は、このような追加動作を繰り返すことによりピッチパルス列候補を生成する。

ピッチパルス列パワー算出部６７３は、ピッチパルス列候補生成部６７２から入力されるピッチパルス列候補のパワーを下記の式（４）に従って算出し、ピッチパルス列パワーＲＰｐｏｗ（Ｐ）として補正音源パワー算出部６７５に出力する。

式（４）において、Ｐはピッチパルス列に追加されたピッチパルス波形の総数、ＲＰｐｏｗ（Ｐ）はピッチパルス列パワー、Ｐｐｏｗ（１）はピッチパルス列を構成する１個目のピッチパルス波形のパワーを示す。Ａｔｔ＿ｒ（ｐ）は、ピッチパルス列を構成するｐ個目のピッチパルス波形に乗じられるピッチパルス減衰係数を示す。

差分音源パワー算出部６７４は、復号音源生成部２０３から入力される復号音源信号から、ピッチパルス列候補生成部６７２から入力されるピッチパルス列候補を除くことにより差分音源信号を生成し、生成された差分音源信号のパワーを差分音源パワーＲｐｏｗ（Ｐ）として算出し補正音源パワー算出部６７５に出力する。ここで、算出された差分音源パワーＲｐｏｗが負数である場合、差分音源パワー算出部６７４は、ゼロの値を補正音源パワー算出部６７５に出力する。

補正音源パワー算出部６７５は、ピッチパルス列パワー算出部６７３から入力されるピッチパルス列パワーＲＰｐｏｗ（Ｐ）と、差分音源パワー算出部６７４から入力される差分音源パワーＲｐｏｗ（Ｐ）とを下記の式（５）に従って加算し、加算結果を補正音源パワーＨｐｏｗ（Ｐ）として復号音源パワー比較部６７６に出力する。

復号音源パワー比較部６７６は、補正音源パワー算出部６７５から入力される補正音源パワーと、音源パワー復号部４０２から入力される復号音源パワーとを比較し、パワー比較結果を次ピッチパルス位置算出部６７７およびピッチパルス列記憶部６７９に出力する。パワー比較結果としては、例えば「大」、「近似」、「小」という３つからなるとする。具体的には、例えば、補正音源パワーが復号音源パワーより大きい場合には「大」、補正音源パワーが復号音源パワー以下であってかつ復号音源パワーの０．８倍以上の場合には「近似」、補正音源パワーが復号音源パワーの０．８倍より小さい場合には「小」とする。

次ピッチパルス位置算出部６７７は、復号音源パワー比較部６７６から入力されるパワー比較結果が「小」である場合のみ、音源パラメータ復号部２０２から入力されるピッチラグおよびピッチパルス情報復号部２０４から入力されるピッチパルス位置を用いて、続いてピッチパルス列候補にピッチパルス波形を追加することが可能であるか否かを示す追加可否情報を算出する。また、次ピッチパルス位置算出部６７７は、続いて追加されるピッチパルス波形の位置を次ピッチパルス位置として算出し、ピッチパルス列候補生成部６７２、ピッチパルス減衰係数算出部６７８、およびピッチパルス列記憶部６７９に出力する。具体的には、次ピッチパルス位置算出部６７７は、ピッチパルス情報復号部２０４から入力されるピッチパルス位置から、時間軸の過去方法へピッチラグのＰ個分だけ離れた位置を、ピッチパルス列に追加されるＰ個目のピッチパルス波形の位置、すなわち次ピッチパルス位置として算出する。また、算出された次ピッチパルス位置がフレーム範囲内に収まらない場合、次ピッチパルス位置算出部６７７は、次ピッチパルス位置を出力せず、「不可」というピッチパルス追加可否情報を生成して出力する。一方、算出された次ピッチパルス位置がフレーム範囲内に収まる場合、次ピッチパルス位置算出部６７７は、次ピッチパルス位置を出力するとともに、「可」というピッチパルス追加可否情報を生成して出力する。

ピッチパルス減衰係数算出部６７８は、音源パワー復号部４０２から入力される復号音源パワー、音源パワー記憶部６０１から入力される過去フレーム音源パワー、次ピッチパルス位置算出部６７７から入力される次ピッチパルス位置およびピッチパルス追加可否情報を用いて、ピッチパルス列に追加されるピッチパルス学習波形に乗じるピッチパルス減衰係数を、下記の式（６）に従って算出し、ピッチパルス列候補生成部６７２に出力する。

この式において、ｐはピッチパルス追加番号として、ピッチパルス列に追加されるピッチパルス波形の番号を示し、Ａｔｔ＿ｒ（ｐ）はｐ個目のピッチパルス波形に対応するピッチパルス減衰係数、ｐｅａｋ＿ｐｏｓ（ｐ）はｐ個目のピッチパルス波形の振幅絶対値最大値の位置、Ｅｐｏｗ（ｍ−１）は過去フレームの音源パワー、Ｈｐｏｗ（ｍ）は復号音源パワーを示す。ｐｅａｋ＿ｐｏｓ（ｐ）は現フレームの先頭位置を零とした相対位置で表される。式（６）によれば、ｐが増加するほどｐｅａｋ＿ｐｏｓ（ｐ）は減少する。また、１個目のピッチパルス波形に対応するピッチパルス減衰係数Ａｔｔ＿ｒ（１）は１．０となり、ｐｅａｋ＿ｐｏｓ（ｐ）が零（すなわちフレームの先頭位置）となる場合、対応するピッチパルス減衰係数Ａｔｔ＿ｒ（ｐ）は、√（Ｅｐｏｗ（ｎ−１）/Ｈｐｏｗ（ｎ））となり、ｐｅａｋ＿ｐｏｓ（ｐ）が零とｐｅａｋ＿ｐｏｓ（１）との間にある場合、減衰係数Ａｔｔ＿ｒ（ｐ）は√（Ｅｐｏｗ（ｎ−１/Ｈｐｏｗ（ｎ））と１．０の内分点になる。

ピッチパルス列記憶部６７９は、復号音源パワー比較部６７６から入力されるパワー比較結果および次ピッチパルス位置算出部６７７から入力される次ピッチパルス位置を用いて、ピッチパルス列候補生成部６７２から入力されるＰ個のピッチパルス波形からなるピッチパルス列候補と、記憶しているＰ−１個のピッチパルス波形からなるピッチパルス列候補とのうち１つを選択する。ピッチパルス列記憶部６７９は、選択した１つのピッチパルス候補をピッチパルス列としてピッチパルス波形パワー算出部４７１、差分音源パワー算出部４７２、およびピッチパルス波形加算部４７６に出力する。具体的には、ピッチパルス列記憶部６７９は、まずパワー比較結果によりピッチパルス列候補の選択を行う。ピッチパルス列記憶部６７９は、パワー比較結果が「大」である場合には、仮にＰ個のピッチパルス波形からなるピッチパルス列を用いて復号音源信号を補正すると補正音源パワーが復号音源パワーを超えてしまうと判断し、記憶しているＰ−１個のピッチパルス波形からなるピッチパルス列候補を選択し出力する。また、ピッチパルス列記憶部６７９は、パワー比較結果が「近似」である場合には、仮にＰ個のピッチパルス波形からなるピッチパルス列を用いて復号音源信号を補正すると補正音源パワーと復号音源パワーとが近似するようになると判断し、Ｐ個のピッチパルス波形からなるピッチパルス列候補を選択し出力する。また、ピッチパルス列記憶部６７９は、パワー比較結果が「小」である場合には、次ピッチパルス追加可否情報を用いてピッチパルス列候補の選択を行う。すなわち、パワー比較結果が「小」であってかつ次ピッチパルス追加可否情報が「可」である場合、ピッチパルス列記憶部６７９は、続いてピッチパルス波形をピッチパルス列候補に追加できると判断し、ピッチパルス列候補の選択および出力を行わない。一方、パワー比較結果が「小」であってかつ次ピッチパルス追加可否情報が「不可」である場合、ピッチパルス列記憶部６７９は、続いてピッチパルス波形を追加することができないと判断し、復号音源パワーに最も近似する補正を可能とする、Ｐ個のピッチパルス波形からなるピッチパルス列候補を選択し出力する。

図１９は、ピッチパルス列生成部６７１においてピッチパルス列を生成する処理手順を示すフロー図である。

まず、ピッチパルス列候補生成部６７２は、ピッチパルス列に追加されるピッチパルス波形をカウントする変数Ｉを「０」に初期化し、ピッチパルス情報復号部２０４から入力されるピッチパルス位置の値によりＰＰｐｍ（Ｉ）を初期化し、Ｉ＋１個目のピッチパルスに対応するピッチパルス減衰係数を［１．０］の値で初期化する（ＳＴ１０１０）。次いで、ピッチパルス位置ＰＰｐｍ（Ｉ）に、Ｉ＋１個目のピッチパルスに対応するピッチパルス減衰係数が乗じられたピッチパルス学習波形をＩ＋１個目のピッチパルスとして追加する（ＳＴ１０１５）。そして、ピッチパルス列パワー算出部６７３はピッチパルス列パワーを、差分音源パワー算出部６７４は差分音源パワーを、補正音源パワー算出部６７５は補正音源パワーを算出する（ＳＴ１０２０）。次いで、復号音源パワー比較部６７６は、復号音源パワーと補正音源パワーとを比較してパワー比較結果を得る（ＳＴ１０３０）。ＳＴ１０３０において得られたパワー比較結果が「小」である場合（ＳＴ１０３０：小）、次ピッチパルス位置算出部６７７は、Ｉ＋１個目の次（（Ｉ＋１）＋１個目）のピッチパルス波形が追加される位置を次ピッチパルス位置として算出し、さらに算出された次ピッチパルス位置がフレーム範囲内に収まるか否かを判定する（ＳＴ１０６０）。ＳＴ１０６０において算出された次ピッチパルス位置がフレーム範囲内に収まらない場合（ＳＴ１０６０：外）、処理はＳＴ１０５０に移行する。一方、ＳＴ１０６０において算出された次ピッチパルス位置がフレーム範囲内に収まる場合（ＳＴ１０６０：内）、ピッチパルス減衰係数算出部６７８は、（Ｉ＋１）＋１個目のピッチパルス波形に対応するピッチパルス減衰係数を算出する（ＳＴ１０７０）。次いで、ピッチパルス列候補生成部６７２は、ＳＴ１０６０において算出された次ピッチパルス位置に、ＳＴ１０７０において算出されたピッチパルス減衰係数が乗じられたピッチパルス学習波形を（Ｉ＋１）＋１個目のピッチパルス波形として追加し、ピッチパルス列候補を生成する（ＳＴ１０８０）。次いで、ピッチパルス列候補生成部６７２は、Ｉ＝Ｉ＋１のようにＩを１インクリメントして処理をＳＴ１０２０に移行する（ＳＴ１０９０）。

一方、ＳＴ１０３０において得られたパワー比較結果が「大」である場合（ＳＴ１０３０：大）、ピッチパルス列記憶部６７９は、Ｉ個のピッチパルスからなるピッチパルス列候補を、ピッチパルス列生成部６７１において生成されたピッチパルス列として出力する（ＳＴ１０４０）。

また、ＳＴ１０３０において得られたパワー比較結果が「近似」である場合（ＳＴ１０３０：近似）、およびＳＴ１０６０において算出された次ピッチパルス位置がフレーム範囲内に収まらない場合（ＳＴ１０６０：外）、ピッチパルス列記憶部６７９は、Ｉ＋１個のピッチパルスからなるピッチパルス列候補を、ピッチパルス列生成部６７１において生成されたピッチパルス列として出力する（ＳＴ１０５０）。

以下、本実施の形態に係るピッチパルス列による復号音源信号の補正について、図２０〜図２７を用いて説明する。ここでは、ｍ−１番目のフレームおよびｍ＋１番目のフレームを正常に受信し、ｍ番目のフレームを消失した場合を例にとって説明する。

なお、図２０は、フレーム消失が生じない場合の復号音源信号の波形、すなわち理想的な復号音源信号の波形を示し、図２２、図２４、および図２６は、ｍ番目のフレームが消失し、各々１個、２個、および３個のピッチパルス波形からなるピッチパルス列を用いて復号音源信号を補正する場合の得られる補正音源信号の波形を示す。図２１、図２３、図２５、および図２７は、図２０、図２２、図２４、および図２６に示す復号音源補正処理における音源パワーを例示する。

図２０は、フレーム消失が生じない場合の復号音源信号の波形、すなわち理想的な復号音源信号の波形を示す図である。図２０において、ｍ番フレームは３つのピッチパルス波形を含む。図２１は、ｍ番フレームを含む各フレームにおける復号音源パワーを示す。

図２２は、１つのピッチパルス波形を用いて復号音源信号を補正して得られる補正音源信号の波形を示す図である。この場合、復号音源信号の補正に用いられる１つのピッチパルス波形、すなわち、点線で示されるピッチパルス波形はピッチパルス学習波形そのものであり、このピッチパルス波形の振幅絶対値最大値の位置は、ピッチパルス情報復号部２０４で得られたピッチパルス位置ＰＰｐと一致する。

図２３は、１つのピッチパルス波形を用いて復号音源信号を補正する場合の音源パワーを例示する図である。図２３に示すように、１つのピッチパルス波形を用いて復号音源信号を補正する場合、補正音源パワーは、差分音源パワーと、補正に用いられる１つのピッチパルス波形パワーとの総和値である。なお、図２３においては、１つのピッチパルス波形の補正により得られる補正音源パワーと復号音源パワーとのパワー比較結果が「小」となる場合、すなわち補正音源パワーと復号音源パワーとの比が０．８より小さい場合を例にあげている。この場合は言い換えれば、復号音源パワーと補正音源パワーとの差が所定値より大きい場合であり、このような場合は、復号音源信号の品質が劣化するため、補正音源信号のパワーをさらに補償する必要がある。補正音源信号のパワー補償方法としては、復号音源信号を増幅する方法、または補正に用いられるピッチパルス波形を増幅する方法が考えられる。しかし、復号音源信号を増幅する方法はノイズを増大する問題がある一方、補正に用いられるピッチパルス波形を増幅する方法は復号音声が局所的に過大に聞こえ変動感をもたらすという問題がある。また、２つの方法を組み合わせても効果には限界がある。本実施の形態では、補正に用いられるピッチパルス波形の数を増加して、すなわちピッチパルス列を用いて復号音声信号を補正する。すなわち、本実施の形態では、ピッチパルス性波形を用いてピッチパルス性信号を補正するため、復号音源信号を増幅する方法、または補正に用いられるピッチパルス波形を増幅する方法の問題点を解決している。

図２４は、２つのピッチパルス波形を用いて復号音源信号を補正して得られる補正音源信号の波形を示す図である。この場合、復号音源信号の補正に用いられる２個目のピッチパルス波形、すなわち、点線で示される２つのピッチパルス波形のうち振幅が小さい方のピッチパルス波形は、２個目のピッチパルスに対応するピッチパルス減衰係数をピッチパルス学習波形に乗じて得られたものである。このピッチパルス波形の振幅絶対値最大値の位置ＰＰｐｍ１’は、位置ＰＰｐから時間軸の過去方向へピッチラグＴ（ｍ＋１）分だけ離れた位置と一致する。図２４に示すように、位置ＰＰｐｍ１’と位置ＰＰｍ１とは若干ずれている。

図２５は、２つのピッチパルス波形を用いて復号音源信号を補正する場合の音源パワーを例示する図である。図２５に示すように、２つのピッチパルス波形を用いて復号音源信号を補正する場合、補正音源パワーは、差分音源パワーと、補正に用いられる１個目のピッチパルス波形パワーと、２個目のピッチパルス波形パワーとの総和値である。なお、図２５においては、２つのピッチパルス波形の補正により得られる補正音源パワーと復号音源パワーとのパワー比較結果が「小」となる場合を例にあげている。パワー比較結果が「小」となる場合は、次の図２６に示すように続けてピッチパルス波形を追加して復号音源信号を補正する。

図２６は、３つのピッチパルス波形を用いて復号音源信号を補正して得られる補正音源信号の波形を示す図である。この場合、復号音源信号の補正に用いられる３個目のピッチパルス波形、すなわち、点線で示される３つのピッチパルス波形のうち振幅が最も小さい方のピッチパルス波形は、３個目のピッチパルスに対応するピッチパルス減衰係数をピッチパルス学習波形に乗じて得られたものであり、このピッチパルス波形の振幅絶対値最大値の位置ＰＰｐｍ２’は、位置ＰＰｐから時間軸の過去方向へ２×Ｔ（ｍ＋１）分だけ離れた位置と一致する。図２６に示すように、位置ＰＰｐｍ２’と位置ＰＰｍ２とは若干ずれている。

図２７は、３つのピッチパルス波形を用いて復号音源信号を補正する場合の音源パワーを例示する図である。図２７に示すように、３つのピッチパルス波形を用いて復号音源信号を補正する場合、補正音源パワーは、差分音源パワーと、補正に用いられる１個目のピッチパルス波形パワーと、２個目のピッチパルス波形パワーと、３個目のピッチパルス波形パワーとの総和値である。なお、図２７においては、３つのピッチパルス波形の補正により得られる補正音源パワーと復号音源パワーとのパワー比較結果が「近似」となる場合を例にあげている。パワー比較結果が「近似」となるため、これで復号音源信号の補正は終了する。

仮に、図２７においてパワー比較結果が「小」であっても、図２６から分かるように４個目のピッチパルス波形が追加される位置は、ｍ番フレームの範囲内に収まらなくｍ−１番フレームの範囲に属するため、パワー比較結果が「近似」となる場合と同様に、４個目のピッチパルス波形が追加されず復号音源信号の補正は終了する。

図２４および図２６において、２個目のピッチパルスの位置ＰＰｐｍ１’および３個目のピッチパルスの位置ＰＰｐｍ２’は、それぞれ理想的な復号音源信号のピッチパルス波形の位置ＰＰｐｍ１および位置ＰＰｐｍ２と若干ずれるものの、ピッチパルス性波形を用いてピッチパルス性信号を補正しているため、復号音源信号を増幅する方法、または補正に用いられるピッチパルス波形を増幅する方法よりも、得られる補正音源信号は理想の復号音源信号により類似する。本実施の形態に係る復号音源信号の補正方法は、特に音声の立ち上がり部の音声符号化および復号に適用する場合、より自然な復号音声が得られる。

このように、本実施の形態によれば、音声符号化装置から音声復号装置に送信される情報量を増加せず、ピッチパルス列を構成する複数のピッチパルス波形の追加位置およびピッチパルス減衰係数を算出し、ピッチパルス列を用いて復号音源信号を補正するため、符号化情報量を低減しつつ、ノイズおよび変動感を増加せず復号音源信号を補正することができ、復号音声信号の品質を向上することができる。

なお、本実施の形態では、ピッチパルス列へのピッチパルス波形の追加を停止する条件として、パワー比較結果が「近似」または「大」となる場合、および次ピッチパルス位置が消失フレームの範囲内に収まらない場合を例にとって説明したが、本発明はこれに限定されず、ピッチパルス波形の追加を停止する条件として、ピッチパルス減衰係数を乗じて得られるピッチパルスの振幅が、そのピッチパルス位置近傍の復号音源の振幅よりも小さくなる場合をさらに加えても良い。

また、本実施の形態では、ピッチパルス列にピッチパルス波形を追加する位置を算出する際に、消失フレームの次フレームのピッチラグを用いる場合を例にとって説明したが、本発明はこれに限定されず、消失フレームの過去フレームのピッチラグを用いたり、過去フレームと次フレームのピッチラグ間で内挿補間した値としても良い。

（実施の形態５）
本発明の実施の形態５においては、ピッチパルス列を用いて補正された復号音源信号が、実施の形態４で得られた補正復号音源信号よりも、フレーム消失が生じない場合の理想的な復号音源信号にさらに近似するように、ピッチパルス列に含まれる各ピッチパルス波形の位置をさらに補正する。

図２８は、ピッチパルス列を用いて復号音源信号を補正する方法を説明するための図である。なお、図２８は主に各ピッチパルス波形の位置を説明するための図であり、各ピッチパルス波形の正確な振幅値を表してはいない。

図２８Ａは、フレーム消失が生じない場合の理想的な復号音源信号の波形を示す図である。図２８Ａにおいては、ｍ−１番フレームのピッチラグＴ（ｍ−１）、ｍ番フレームのピッチラグＴ（ｍ）、音声符号化側において検出されたｍ番フレームの最後尾のピッチパルスの位置ＰＰｐ、およびｍ−１番フレームのピッチパルス位置ＰＰｐ’を示している。ここで、音声符号化側において検出されたｍ番フレームのピッチパルス位置ＰＰｐは、すなわち、ピッチパルス情報復号部２０４において復号されたピッチパルス位置ＰＰｐであり、以下、ｍ番フレームの最後尾のピッチパルスをｍ番フレーム最後ピッチパルスと称す。

図２８Ｂは、ｍ−１番フレームおよびｍ＋１番フレームが正常に受信され、ｍ番フレームが消失した場合、ｍ番フレームに補償ピッチラグＴ’（ｍ）間隔でピッチパルス波形の列を加算して得られる補正復号音源信号の波形を示す図である。図２８Ｂに示すように、補償ピッチラグＴ’（ｍ）としてＴ（ｍ−１）を用い、ｍ−１番フレーム最後ピッチパルスの位置ＰＰｐ’を起点として、復号音源信号にピッチパルス列を加算する場合、各ピッチパルス波形の位置はＰＤｐ［１］、ＰＤｐ［２］、…、ＰＤｐ［Ｓ］となる。ここで、Ｓはｍ番フレームに加算されるピッチパルス波形の総数を示す。なお、以下の説明の便宜のために、ＰＰｐ’をＰＤｐ［０］とも記してある。図２８Ｂに示すように、各ピッチパルス波形は補償ピッチラグＴ’（ｍ）の間隔で配置され、ＰＤｐ［Ｓ］とＰＰｐとは一致しなくなる。すなわち、図２８Ａと図２８Ｂとを比較すれば分かるように、図２８Ｂに示す復号音源信号に加算されるピッチパルス波形の位置と、図２８Ａに示す理想的な復号音源信号に含まれるピッチパルスの位置とは一致せず、図２８Ｂに示す補正復号音源信号は、図２８Ａに示す理想的な復号音源信号に含まれない偽ピッチパルスを含み、これが復号音声の品質劣化の原因となる。

図２８Ｃにおいては、補償ピッチラグＴ’（ｍ）をさらに補正して得られたＴ’（ｍ，０）、Ｔ’（ｍ，１）、…、Ｔ’（ｍ，Ｓ’−１）を用い、ＰＰｐ’を起点として、ピッチパルス列を加算して復号音源信号を補正する場合を示す。かかる場合、各ピッチパルス波形の位置は、ＰＤｐ’［１］、ＰＤｐ’［２］、…、ＰＤｐ’［Ｓ’］となる。ここで、Ｔ’（ｍ，０）、Ｔ’（ｍ，１）、…、Ｔ’（ｍ，Ｓ’−１）の総和は、ＰＰｐ’とＰＰｐとの間の距離と等しく、ＰＤｐ’［Ｓ’］とＰＰｐとは一致するようになる。

以下、図２８Ｃに示すＰＤｐ’［１］、ＰＤｐ’［２］、…、ＰＤｐ’［Ｓ’］それぞれを第１補償ピッチパルス位置、第２補償ピッチパルス位置、第３補償ピッチパルス位置、…、第Ｓ補償ピッチパルス位置と称す。

図２９は、本発明の実施の形態５に係る音声復号装置７００の主要な構成を示すブロック図である。なお、音声復号装置７００は、実施の形態４に示した音声復号装置６００（図１５参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声復号装置７００は、ピッチラグ補正部７０１をさらに備える点において、音声復号装置６００と相違する。なお、音声復号装置７００の復号音源生成部７０３、音源信号補正部７０７と、音声復号装置６００の復号音源生成部２０３、音源信号補正部６０７とは内部の構成および動作において相違点があり、それを示すために異なる符号を付す。

ピッチラグ補正部７０１は、音源パラメータ復号部２０２から入力されるピッチラグ、ピッチパルス情報復号部２０４から入力されるピッチパルス位置およびピッチパルス振幅、復号音源生成部７０３からフィードバックされる復号音源信号を用いて、補正ピッチラグ、ピッチラグ補正可否情報、補償ピッチパルス位置を生成し、ピッチラグまたは補正ピッチラグを復号音源生成部７０３に出力し、ピッチラグ補正可否情報、および補償ピッチパルス位置を音源信号補正部７０７に出力する。なお、ピッチラグ補正部７０１の詳細については後述する。

復号音源生成部７０３は、ＣＥＬＰ型復号、補償、および平滑化処理を行う際に、音源パラメータ復号部２０２から入力されるピッチラグの代わりに、ピッチラグ補正部７０１から入力される補正ピッチラグまたはピッチラグを用いる点のみにおいて、実施の形態４に示した復号音源生成部２０３と相違し、ここでは、詳細な説明を省略する。

音源信号補正部７０７は、ピッチパルス列を生成する際に、後述の補償ピッチパルス位置算出部７１４からの補償ピッチパルス位置、および後述のピッチラグ補正可否判定部７１３からのピッチラグ補正可否情報をさらに用いる点において、実施の形態４に示した音源信号補正部６０７と相違する。なお、音源信号補正部７０７の詳細については後述する。

図３０は、ピッチラグ補正部７０１の内部の構成を示すブロック図である。

図３０において、ピッチラグ補正部７０１は、前フレーム最後ピッチパルス検出部７１１、補正ピッチラグ算出部７１２、ピッチラグ補正可否判定部７１３、補償ピッチパルス位置算出部７１４、およびピッチラグ切替部７１５を備える。以下、ピッチラグ補正部７０１の各部の動作の説明において、図２８において用いられた各パラメータを流用する。

前フレーム最後ピッチパルス検出部７１１は、復号音源生成部７０３から入力される復号音源信号、および音源パラメータ復号部２０２から入力されるピッチラグを用いて、消失フレーム１個前のフレームの後尾から一番目のピッチパルス、すなわちｍ−１番フレーム最後ピッチパルスの位置ＰＰｐ’（ＰＤｐ［０］）を検出し、補正ピッチラグ算出部７１２、ピッチラグ補正可否判定部７１３、および補償ピッチパルス位置算出部７１４に出力する。また、前フレーム最後ピッチパルス検出部７１１は、検出されたｍ−１番フレーム最後ピッチパルスの振幅をピッチラグ補正可否判定部７１３に出力する。前フレーム最後ピッチパルス検出部７１１においてｍ−１番フレーム最後ピッチパルスを検出する方法は、音声符号化装置側のピッチパルス検出部１９２においてｎ番フレーム最後ピッチパルス位置を検出する方法と基本的に同様である。ただし、ｍ番フレームが消失したため、前フレーム最後ピッチパルス検出部７１１においては、Ｔ（ｍ）を用いることができず、Ｔ（ｍ）の代わりに補償ピッチラグＴ’（ｍ）を用いる。なお、補償ピッチラグＴ’（ｍ）としては、Ｔ（ｍ−１）、またはＴ（ｍ＋１）、またはＴ（ｍ−１）とＴ（ｍ＋１）とを内挿補間して得られる値を用いる。以下、説明を簡略するために、補償ピッチラグＴ’（ｍ）としてＴ（ｍ−１）を用いる場合を例にとって説明する。

補正ピッチラグ算出部７１２は、音源パラメータ復号部２０２から入力されるピッチラグ、ピッチパルス情報復号部２０４から入力されるｍ番フレーム最後ピッチパルス位置ＰＰｐ、前フレーム最後ピッチパルス検出部７１１から入力されるｍ−１番フレーム最後ピッチパルス位置ＰＤｐ’、および補償ピッチパルス位置算出部７１４から入力される各補償ピッチパルス位置を用いて、補正ピッチラグＴ’（ｍ，０）、Ｔ’（ｍ，１）、…、Ｔ’（ｍ，Ｓ’−１）を算出する。補正ピッチラグ算出部７１２は、算出した補正ピッチラグＴ’（ｍ，０）、Ｔ’（ｍ，１）、…、Ｔ’（ｍ，Ｓ’−１）をピッチラグ切替部７１５に出力するともに補償ピッチパルス位置算出部７１４にフィードバックする。具体的には、補正ピッチラグ算出部７１２は、補償ピッチパルス位置ＰＤｐ’［ｉ］とＰＰｐとの距離（以下、ピッチパルス間距離と称す）が、補正ピッチラグＴ’（ｍ，ｉ）の整数倍となるように、下記の式（７）および式（８）に従って、補正ピッチラグＴ’（ｍ，ｉ）を算出する。ここで、ｉ＝０〜Ｓ’−１、ＰＤｐ’［０］はｍ−１番フレーム最後ピッチパルス位置ＰＤｐ［０］、ＰＰｐはｍ番フレーム最後ピッチパルス位置である。

式（７）において、ｓが取る範囲は０≦ｓ≦Ｓ’であり、ＰＤｐ’［ｓ］はｓ番目の補償ピッチパルス位置、Ｄｐｐ［ｓ］はｓ番目のピッチパルス間距離を表す。また、式（７）において、ｍはフレーム番号、Ｔ’（ｍ，ｓ）は補正ピッチラグを示し、ｉｎｔ（）は小数点以下を切り捨てる関数を示す。ｔＴは暫定ピッチラグを示し、Ｔ’（ｍ，ｓ−１）、またはＴ（ｍ−１）を用いる。

ピッチラグ補正可否判定部７１３は、ピッチパルス情報復号部２０４から入力されるｍ番フレーム最後ピッチパルス振幅、前フレーム最後ピッチパルス検出部７１１から入力されるｍ−１番フレーム最後ピッチパルス振幅、音源パラメータ復号部２０２から入力されるピッチラグ、補正ピッチラグ算出部７１２から入力される補正ピッチラグを用いて、ピッチラグの補正が可能である否かをフレーム毎に判定し、「可」または「否」というピッチラグ補正可否情報をピッチラグ切替部７１５および音源信号補正部７０７に出力する。ピッチラグ補正可否判定部７１３は、ｍ−１番フレーム最後ピッチパルスとｍ番フレーム最後ピッチパルスとの間に補償ピッチパルスを連続的に並べることが適切かどうかを判断してピッチラグ補正可否判定をおこなう。例えば、ｍ−１番フレーム最後ピッチパルスとｍ番フレーム最後ピッチパルスの正負が逆になっている場合、フレーム間でピッチ波形が変化したり、いずれかのピッチパルスの検出に誤りがあったりしている可能性が高いと考えられる。このような場合は補償ピッチパルスを連続的に並べることによる補償性能の改善は得られないので、補正「否」と判定する。また、最後ピッチパルスの振幅が極端に小さい場合は、ピッチ周期性のない信号である可能性があるので、このような場合も補正「否」とする。またさらに、補償しようとしているフレームの前後のフレームのピッチラグ間に大きな差がある場合なども、ピッチ周期性のないフレームであったり、前後のフレームのいずれかでピッチ誤りを生じている可能性があるので、補正「否」と判定する。

図３１は、ピッチラグ補正可否判定部７１３において、上記仮定に基づきピッチラグ補正可否判定を行う手順を示すフロー図である。

まず、ステップ（ＳＴ）２０１０において、ピッチラグ補正可否判定部７１３は、フレーム消失情報に基づき、ｍ番フレーム最後ピッチパルス情報が含まれているｍ＋１番フレームの符号化データが消失したか否かを判定する。

ＳＴ２０１０において、ｍ＋１番フレームの符号化データが消失したと判定した場合（ＳＴ２０１０：「ＹＥＳ」）には、ピッチラグを補正することが不可能であるため、ピッチラグ補正可否判定部７１３は、ＳＴ２０６０において、「否」というピッチラグ補正可否情報を出力する。

一方、ＳＴ２０１０において、ｍ＋１番フレームの符号化データが消失しなかったと判定した場合（ＳＴ２０１０：「ＮＯ」）には、ピッチラグ補正可否判定部７１３は、ＳＴ２０２０において、ｍ−１番フレーム最後ピッチパルス振幅と、ｍ番フレーム最後ピッチパルス振幅との極性が一致するか否かを判定する。

ＳＴ２０２０において、ｍ−１番フレーム最後ピッチパルス振幅と、ｍ番フレーム最後ピッチパルス振幅との極性が一致しないと判定した場合（ＳＴ２０２０：「ＹＥＳ」）には、ピッチラグ補正可否判定部７１３は、ＳＴ２０６０において、「否」というピッチラグ補正可否情報を出力する。

一方、ＳＴ２０２０において、ｍ−１番フレームピッチパルス振幅と、ｍ番フレームピッチパルス振幅との極性が一致すると判定した場合（ＳＴ２０２０：「ＮＯ」）には、ピッチラグ補正可否判定部７１３は、ＳＴ２０３０において、ｍ−１番フレーム最後ピッチパルス振幅と、ｍ番フレーム最後ピッチパルス振幅とのいずれかが十分小さく、所定の閾値以下であるか否かを判定する。

ＳＴ２０３０において、ｍ−１番フレーム最後ピッチパルス振幅と、ｍ番フレーム最後ピッチパルス振幅とのいずれかが所定の閾値以下であると判定した場合（ＳＴ２０３０：「ＹＥＳ」）には、ピッチラグ補正可否判定部７１３は、ＳＴ２０６０において、「否」というピッチラグ補正可否情報を出力する。

一方、ＳＴ２０３０において、ｍ−１番フレーム最後ピッチパルス振幅と、ｍ番フレーム最後ピッチパルス振幅とのいずれもが所定の閾値以下でないと判定した場合（ＳＴ２０３０：「ＮＯ」）には、ピッチラグ補正可否判定部７１３は、ＳＴ２０４０において、ピッチラグＴ（ｍ−１）に対する補正ピッチラグＴ’（ｍ，ｓ）の変動量が所定の閾値以上であるか否かを判定する。

ＳＴ２０４０において、補正ピッチラグＴ’（ｍ，ｓ）とピッチラグＴ（ｍ−１）との変動量が所定の閾値以上であると判定した場合（ＳＴ２０４０：「ＹＥＳ」）には、ピッチラグ補正可否判定部７１３は、ＳＴ２０６０において、「否」というピッチラグ補正可否情報を出力する。ＳＴ２０４０では、過去のピッチラグに対して補正ピッチラグが大きく変動した場合にピッチラグ補正を中止するように判定する。判定は、過去のピッチラグと、過去のピッチラグと補正ピッチラグの差との比があらかじて決めてある閾値を超えるかどうかで判定できる。閾値は事前に決めておけば良い。例えば、以下の数式を満たす時、ピッチラグ補正可否判定部７１３は、ＳＴ２０４０においてピッチラグの変動量が閾値以上であると判定（ＳＴ２０４０：「ＹＥＳ」）する。｜T（ｍ−１）− T’（ｍ、ｓ）｜／T’（ｍ、ｓ） ≧ ０．１・・・（９）

一方、ＳＴ２０４０において、補正ピッチラグＴ’（ｍ，ｓ）とピッチラグＴ（ｍ−１）との変動量が所定の閾値以上でないと判定した場合（ＳＴ２０４０：「ＮＯ」）には、ピッチラグ補正可否判定部７１３は、ＳＴ２０５０において、「可」というピッチラグ補正可否情報を出力する。例えば、以下の数式を満たす時、ピッチラグ補正可否判定部７１３は、ＳＴ２０４０においてピッチラグの変動量が閾値以上でないと判定（ＳＴ２０４０：「ＮＯ」）する。｜T（ｍ−１）− T’（ｍ、ｓ）｜／T’（ｍ、ｓ）＜０．１・・・（１０）

再び図３０に戻り、補償ピッチパルス位置算出部７１４は、前フレーム最後ピッチパルス検出部７１１から入力されるｍ−１番フレーム最後ピッチパルス位置、補正ピッチラグ算出部７１２から入力される補正ピッチラグＴ’（ｍ，ｓ）（０≦ｓ≦Ｓ’）を用いて、下記の式（１１）に従って補償ピッチパルス位置ＰＤｐ’［ｓ］（０≦ｓ≦Ｓ’）を算出し、補正ピッチラグ算出部７１２および音源信号補正部７０７に出力する。具体的には、補償ピッチパルス位置算出部７１４は、まず、前フレーム最後ピッチパルス検出部７１１から入力されるｍ−１番フレーム最後ピッチパルス位置ＰＤｐ［０］、および補正ピッチラグ７１２から入力される補正ピッチラグＴ’（ｍ，０）を用いて、下記の式（１１）に従いＰＤｐ’［１］を算出し、音源信号補正部７０７に出力するとともに、補正ピッチラグ算出部７１２にフィードバックする。そして、補正ピッチラグ算出部７１２は、ＰＤｐ［１］を用いて上記の式（７）および式（８）に従い補正ピッチラグＴ’（ｍ，１）を算出し、補償ピッチパルス位置算出部７１４に出力する。このような計算を繰り返すことで、補償ピッチパルス位置算出部７１４および補正ピッチラグ算出部７１２は、ＰＤｐ’［Ｓ’］がｍ番フレーム最後ピッチパルス位置ＰＰｐと一致するまで、補償ピッチパルス位置ＰＤｐ’［ｓ］と補正ピッチラグＴ’（ｍ，ｓ）とを逐次的に算出する。
ＰＤｐ’［ｓ］＝ＰＤｐ［ｓ−１］＋Ｔ’（ｍ，ｓ−１）
ｉｆ（ｓ＞０）かつＰＤｐ’［ｓ］≦ＰＰｐ …（１１）

ピッチラグ切替部７１５は、ピッチパルス補正可否判定部７１３から入力されるピッチパルス補正可否判定結果が「可」である場合には、補正ピッチラグ算出部７１２から入力される補正ピッチラグＴ’（ｍ，ｓ）を復号音源生成部７０３に出力し、ピッチパルス補正可否判定結果が「否」である場合には、音源パラメータ復号部２０２から入力されるピッチラグＴ（ｍ）を復号音源生成部７０３に出力する。

図３２は、音源信号補正部７０７の内部の構成を示すブロック図である。なお、音源信号補正部７０７は、実施の形態４に示した音源信号補正部６０７と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音源信号補正部７０７は、補償ピッチパルス位置算出部７１４からの補償ピッチパルス位置、およびピッチラグ補正可否判定部７１３からのピッチラグ補正可否情報が、ピッチパルス列生成部７７１にさらに入力される点のみにおいて、実施の形態４に示した音源信号補正部６０７と相違する。それに伴い、音源信号補正部７０７のピッチパルス列生成部７７１と、音源信号補正部６０７のピッチパルス列生成部６７１とは内部の構成および処理の一部において相違点があり、それを示すために異なる符号を付す。

図３３は、ピッチパルス列生成部７７１の内部の構成を示すブロック図である。なお、ピッチパルス列生成部７７１は、実施の形態４に示したピッチパルス列生成部６７１と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

実施の形態４に示したピッチパルス列生成部６７１は、音声の立ち上がり区間で動作する場合を想定したものであるが、有声定常区間で動作する場合には、復号音源信号に加算されるピッチパルス波形の位置と、理想的な復号音源信号に含まれるピッチパルス波形の位置とは一致しない可能性があるため、復号音声のピッチ周期性が乱れ異音に感じる可能性がある。そこで、本実施の形態に係るピッチパルス列生成部７７１は、補償ピッチパルス位置を用いてピッチパルス波形を復号音源信号に加算することで、音声の定常性を損ねることなく復号音源信号の品質を向上させている。

具体的には、ピッチパルス列生成部７７１は、補償ピッチパルス位置算出部７１４からの補償ピッチパルス位置、およびピッチラグ補正可否判定部７１３からのピッチラグ補正可否情報が、次ピッチパルス位置生成部７７７にさらに入力される点のみにおいて、実施の形態４に示したピッチパルス列生成部６７１と相違する。それに伴い、ピッチパルス列生成部７７１の次ピッチパルス位置生成部７７７と、ピッチパルス列生成部６７１の次ピッチパルス位置生成部６７７とは内部の構成および処理の一部において相違点があり、それを示すために異なる符号を付す。

次ピッチパルス位置生成部７７７は、ピッチラグ補正可否判定部７１３からのピッチラグ補正可否情報が「否」である場合には、実施の形態４に示した次ピッチパルス位置生成部６７７と同様な動作を行い、ここでは、詳細な説明を省略する。

一方、次ピッチパルス位置生成部７７７は、ピッチラグ補正可否判定部７１３からのピッチラグ補正可否情報が「可」である場合には、音源パラメータ復号部２０２から入力されるピッチラグの代わりに補償ピッチパルス位置算出部７１４から入力される補償ピッチパルス位置を用いて次ピッチパルス位置を算出する。具体的には、次ピッチパルス位置算出部７７７は、復号音源パワー比較部６７６から入力されるパワー比較結果が「小」である場合のみ、番号ｐで表される次ピッチパルスの位置としてＰＤｐ’［Ｓ’−ｐ］をピッチパルス列候補生成部６７２、ピッチパルス減衰係数算出部６７８、およびピッチパルス列記憶部６７９に出力する。すなわち、次ピッチパルス位置算出部７７７は、ｍ番フレーム最後ピッチパルス位置ＰＰｐを初期値として、ＰＤｐ’［Ｓ’−１］、…ＰＤｐ’［２］、ＰＤｐ’［１］を次ピッチパルス位置として順次出力する。また、補償ピッチパルス位置は常にｍ番フレーム範囲内に存在するため、次ピッチパルス位置生成部７７７は、ピッチラグ補正可否情報が「可」であって、復号音源パワー比較部６７６から入力されるパワー比較結果が「小」である場合には、「可」という次ピッチパルス追加可否情報を出力し、それ以外の場合には「不可」という次ピッチパルス追加可否情報を出力する。

このように、本実施の形態によれば、音声符号化装置は、音声符号化装置から音声復号装置に送信される情報量を増加せず、復号音源信号において、消失フレーム最終ピッチパルス位置と消失前フレーム最終ピッチパルス位置との間に整数個のピッチパルスを加算する。すなわち、理想的な復号音源信号に含まれるピッチパルス波形の位置により一致するように、復号音源信号に加算されるピッチパルス波形の位置を調整するため、符号化情報量を低減しつつ、ノイズおよび変動感を増加せず、復号音声信号の品質を向上することができる。

なお、本実施の形態では、図２８Ｂの説明において、補償ピッチラグＴ’（ｍ）としてピッチラグＴ（ｍ−１）を用いる場合を例にとって説明したが、本発明はこれに限定されず、補償ピッチラグＴ’（ｍ）としてＴ（ｍ＋１）を用いても良く、かかる場合にも、ｍ番フレームの最後尾に加算されるピッチパルス波形の位置はＰＰｐと一致せず、補正復号音源信号に偽ピッチパルスが現れるようになる。

また、本実施の形態では、前フレーム最後ピッチパルス検出部７１１は、音声符号化装置側のピッチパルス検出部１９２においてｎ番フレームのピッチパルス位置ＰＰｐを検出する方法と同様な方法で、ｍ−１番フレーム最後ピッチパルスの位置および振幅を検出する場合を例にとって説明したが、本発明はこれに限定されず、前フレーム最後ピッチパルス検出部７１１は、ピッチパルス情報復号部２０４からｍ−１番フレーム最後ピッチパルス位置およびピッチパルス振幅が得られる場合には、これを用いても良い。

また、本実施の形態では、ピッチラグが整数値のみで表され、補正ピッチラグ算出部７１２に用いられる式（８）においてｉｎｔ（）関数を用いて小数点以下を切り捨てる場合を例にとって説明したが、本発明はこれに限定されず、ピッチラグを小数点精度で表せる場合、式（８）においてｉｎｔ（）を用いず補正ピッチラグを算出しても良い。

また、本実施の形態では、式（８）における暫定ピッチラグｔＴとして、Ｔ’（ｍ，ｓ−１）またはＴ（ｍ−１）を用いる場合を例にとって説明したが、本発明はこれに限定されず、式（８）における暫定ピッチラグｔＴとして、Ｔ（ｍ＋１）を用いても良く、さらには、Ｔ’（ｍ，ｓ−１）とＴ（ｍ＋１）との内挿相関値、例えば（Ｔ’（ｍ，ｓ−１）＋Ｔ（ｍ＋１））／２を用いても良い。

また、本実施の形態では、暫定ピッチラグｔＴとして、補正ピッチラグをＴ’（ｍ，ｓ）を算出する際に、Ｔ’（ｍ，ｓ−１）またはＴ（ｍ−１）のいずれか１つを固定的に用いる場合を例にとって説明したが、本発明はこれに限定されず、Ｔ’（ｍ，ｓ−１）、Ｔ（ｍ−１）、Ｔ（ｍ＋１）、Ｔ’（ｍ，ｓ−１）とＴ（ｍ＋１）との内挿相関値などから、Ｄｐｐ［ｓ］／ｔＴを最も整数値に近づける１つを選択して用いても良い。また、一般的に、ＣＥＬＰ方式の音声符号化において、ピッチラグは、倍ピッチ周期、半ピッチ周期など本来期待するピッチ周期に対して２倍、０．５倍の値を持つ可能性があるため、過去のピッチラグ系列を用いて、または過去のピッチラグ系列および未来のピッチラグ系列を用いて、倍ピッチ周期、半ピッチ周期となった否かを検出し、倍ピッチ周期、半ピッチ周期となった場合にはそれを補正したうえで、ピッチラグ補正を行っても良い。

また、本実施の形態では、ピッチラグ切替部７１５は、ピッチパルス補正可否判定部７１３から入力されるピッチパルス補正可否判定結果が「可」である場合には、補正ピッチラグ算出部７１２から入力される補正ピッチラグＴ’（ｍ，ｓ）を出力する場合を例にとって説明したが、本発明はこれに限定されず、ピッチラグ切替部７１５は、ピッチパルス補正可否判定部７１３から入力されるピッチパルス補正可否判定結果が「可」である場合には、暫定ピッチラグｔＴを出力しても良い。

また、本実施の形態では、補正ピッチラグ算出部７１２および補償ピッチパルス位置算出部７１４は、お互いの算出結果を用いて補正ピッチラグおよび補償ピッチパルス位置を逐次的に算出する場合を例にとって説明したが、本発明はこれに限定されず、補正ピッチラグおよび補償ピッチパルス位置を一括して算出しても良い。

また、本実施の形態では、消失フレームにおいて補償用パラメータを用いて補償する場合を例にとって説明したが、本発明に係る復号音源信号補正方法は消失フレームのみに限定されず、復帰フレーム以後の正常受信フレームであっても、当該フレームを補償するための補償パラメータを用いて補償を行っても良く、かつ、復号した補償音源パワー、補償ピッチパルス位置などと、補償パラメータとの間で差異が存在する場合にも本発明の適用が可能である。

（実施の形態６）
本発明の実施の形態６においては、復号音源信号の補正に用いられるピッチパルス列を生成する際に、ピッチパルス学習波形を用いる代わりに、復号音源信号の一部を増幅して得られるピッチパルスを用いる点において実施の形態５と相違する。以下、復号音源信号の一部を増幅して得られるピッチパルスを復号音源ピッチパルス波形と称す。

図３４および図３５は、本実施の形態において復号音源ピッチパルス波形を用いて復号音源信号を補正する方法を説明するための図である。

図３４Ａは、フレーム消失が生じなかった場合の理想的な復号音源信号の波形を示す図である。図３４Ａにおいては、ｍ−１番フレームのピッチラグＴ（ｍ−１）、ｍ番フレームのピッチラグＴ（ｍ）、ｍ番フレーム最後ピッチパルス位置ＰＰｐ、およびｍ−１番フレーム最後ピッチパルス位置ＰＰｐ’を示している。すなわち、図３４Ａは図２８Ａと同様である。

図３４Ｂは、ｍ−１番フレームおよびｍ＋１番フレームが正常に受信され、ｍ番フレームが消失した場合、実施の形態５に示した方法を用いて復号音源信号を補正し、得られる補正復号音源信号の波形を示す図である。図３４Ｃは、図３４Ｂに示す補正復号音源信号を得るために用いられたピッチパルス学習波形を示す図であり、図３４Ｃにおいては、図３４Ａに示す理想的な復号音源信号に含まれるピッチパルス波形と類似しないピッチパルス学習波形を例示している。３４Ｂに示すように、実施の形態５に示した復号音源信号補正方法によれば、補正に用いられるピッチパルス学習波形が理想的な復号音源信号のピッチパルス波形に類似しない場合、得られる補正復号音源信号の波形も理想的な復号音源信号と類似せず、復号音声の品質劣化が生じる。具体的には、図３４Ａに示す理想的な復号音源信号の波形においては、横軸の上下両側ともにピッチピークが存在するのに対し、図３４Ｂに示す補正復号音源信号の波形においては、横軸の上側のみにピッチピークが存在する。その理由は、図３４Ｂを得るために用いられた図３４Ｃに示すピッチパルス学習波形において、横軸の上側のみにピッチピークが存在するためである。このように、ピッチパルス学習波形は、理想的な復号音源信号のピッチパルス波形の変化に追随しきれず、このような補正によっては、逆に復号音声の品質が劣化してしまう。

そこで、ｍ−１番フレームの音源信号（復号音源信号）に含まれるピッチパルス間の相関性が高い場合には、ピッチパルス学習波形を用いずに、過去の復号音源ピッチパルス波形を用いて復号音源信号を補正し、より理想的な復号音源信号に類似する補正復号音源信号を得ることが考えられる。

図３５Ａ、図３５Ｂ、および図３５Ｃは復号音源信号の一部を増幅して得られる復号音源ピッチパルス波形を生成する方法を説明するための図である。図３５Ａは、復号音源信号において、補償ピッチパルス位置ＰＤｐ’［ｓ］（０≦ｓ≦Ｓ’）近傍の区間を示し、図３５Ｂは、図３５Ａに示す波形から、ＰＰｓ〜ＰＰｅの区間を切り出し、得られるピッチパルス波形を示す。図３５Ｃは、図３５Ｂに示すピッチパルス波形を増幅し、得られる復号音源ピッチパルスを示す。ここで、復号音源ピッチパルス波形の起点ＰＰｓおよび終点ＰＰｅの決め方、すなわち、復号音源ピッチパルス波形のサンプル数の決め方は、実施の形態１に示したピッチパルス学習波形のサンプル数の決め方と同様である。なお、図３５Ｂに示すピッチパルス波形を増幅する方法については後述する。

図３５Ｄは、図３５Ｃに示したような復号音源ピッチパルス波形を復号音源信号に複数加算し、得られる補正復号音源信号の波形を示す図である。図３４Ａ、図３４Ｂ、および図３５Ｄから分かるように、図３４Ｂに示す補正復号音源信号よりも図３５Ｄに示す補正復号音源信号が、図３４Ａに示す理想的な復号音源信号にさらに類似する。

図３６は、本実施の形態に係るピッチパルス列生成部８７１の内部の構成を示すブロック図である。なお、ピッチパルス列生成部８７１は、実施の形態５に示したピッチパルス列生成部７７１と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

ピッチパルス列生成部８７１は、相関性判定部８８０をさらに具備する点において、実施の形態５に示したピッチパルス列生成部７７１と相違する。なお、ピッチパルス列生成部８７１のピッチ列候補生成部８７２は、相関性判定部８８０からの相関性判定結果、復号音源生成部７０３からの復号音源信号がさらに入力される点において、ピッチパルス列生成部７７１のピッチ列候補生成部６７２と相違し、それに伴い、処理の一部において相違点があり、それを示すために異なる符号を付す。

相関性判定部８８０は、音源パラメータ復号部２０２から入力されるピッチラグ、復号音源生成部７０３から入力される復号音源信号、音源パワー復号部４０２から入力される復号音源パワーＨｐｏｗ（ｍ）、音源パワー記憶部６０１から入力される過去フレーム音源パワーＥｐｏｗ（ｍ−１）を用いて、現フレームにおけるピッチパルス波形間の相関性を推定し、「高相関」または「低相関」という判定結果をピッチパルス候補生成部８７２に出力する。具体的には、下記の式（１２）、式（１３）および式（１５）が同時に満たされる場合には、「高相関」という相関性判定結果が出力され、それ以外の場合には、「低相関」という相関性判定結果が出力される。
εｓ≦Ｃ（ｍ-１） …（１２）
１／εｐ≦Ｐｒ＜εｐ …（１３）
１／εｔ≦Ｔｒ＜εｔ …（１４）

式（１２）におけるＣ（ｍ−１）は、下記の式（１５）に従い、ｍ−１番フレームの復号音源信号に対して正規化自己相関値を求めた値である。

式（１５）において、ｅｘｃ［］は復号音源信号を示し、Ｌ＿ＥＸＣＭＡＸはバッファサイズを示す。また、τは、遅延値を示し、ピッチラグＴ（ｍ−１）を用いる。

式（１３）におけるＰｒは、下記の式（１６）に従い算出されるパワー変動量であり、過去フレーム音源パワーＥｐｏｗ（ｍ−１）と復号音源パワーＨｐｏｗ（ｍ）との比で表される。
Ｐｒ＝Ｅｐｏｗ（ｍ−１）／Ｈｐｏｗ（ｍ） …（１６）

式（１４）におけるＴｒは、下記の式（１７）に従い算出されるピッチラグ変動量であり、ｍ−１番フレームのピッチラグＴ（ｍ−１）とｍ＋１番フレームのピッチラグＴ（ｍ＋１）との比で表される。
Ｔｒ＝Ｔ（ｍ−１）／Ｔ（ｍ＋１） …（１７）

また、式（１２）、式（１３）、および式（１４）それぞれにおけるεｓ、εｐ、およびεｔは、例えば、εｓ＝０．８、εｐ＝１．５、εｔ＝１．２とする。

ピッチ列候補生成部８７２は、相関性判定部８８０から入力される相関性判定結果が「低相関」である場合には、実施の形態５に示したピッチ列候補生成部６７２と同様な動作を行う。また、ピッチ列候補生成部８７２は、相関性判定部８８０から入力される相関性判定結果が「高相関」である場合には、実施の形態５に示したピッチ列候補生成部６７２と基本的に同様の動作を行うが、ピッチパルス波形学習部２０５から入力されるピッチパルス学習波形の代わりに、復号音源生成部７０３から入力される復号音源信号から生成される復号音源ピッチパルスを用いて復号音源信号を補正する点において相違する。ここで、「高相関」という相関性判定結果は、現フレームが有声定常区間であることを意味する。

具体的には、ピッチ列候補生成部８７２は、相関性判定部８８０から入力される相関性判定結果が「高相関」である場合には、以下の動作を行ってＳ’個の復号音源ピッチパルスを生成する。ピッチ列候補生成部８７２は、まず、次ピッチパルス位置算出部７７７から入力される補償ピッチパルス位置ＰＤｐ［ｓ］（０≦ｓ≦Ｓ’）を中心として、復号音源生成部７０３から入力される復号音源信号からＰＰｓ〜ＰＰｅまでの区間を取り出す。そして、ピッチパルス列候補生成部８７２は、取り出し区間の復号音源信号に対し、ＰＤｐ’［ｓ］（０≦ｓ≦Ｓ’）位置の振幅が、ピッチパルス情報復号部２０４から入力されるピッチパルス振幅ＰＰａにピッチパルス減衰係数算出部６７８から入力されるピッチパルス減衰係数を乗じた値と一致するように増幅をする。この時、次ピッチパルス位置での振幅が前記振幅に増幅され、一方復号音源ピッチパルス波形の端点における増幅率が１．０に近い値となるような窓掛けを行う。この結果、復号音源ピッチパルス波形を得る。ここで、窓掛けを行う理由は、取り出し区間の復号音源信号の全サンプルを同一の増幅率で増幅すると、取り出し区間の端点の増幅後振幅と、復号音源ピッチパルス波形と接することになる復号音源信号のサンプルにおける振幅との差が大きくなる可能性があるためである。従って、このようなことを回避するために、取り出し区間の中心点では増幅率を大きくし、端点では増幅率を小さくすることにより、復号音源ピッチパルス波形の最大振幅を適切に増幅するとともに、復号音源ピッチパルス波形と復号音源ピッチパルス波形に隣接する復号音源信号が滑らかに繋がるようにする。この結果、得られる補正復号音源信号のパワー変動感が緩和される。

このように、本実施の形態によれば、有声定常区間におけるフレームが消失した場合には、ピッチパルス学習波形の代わりに復号音源ピッチパルスを用いて、復号音源信号を補正するため、フレーム消失が生じなかった場合の理想的な復号音源信号により近似する補正復号音源信号を得ることができ、復号音声の明瞭性をさらに向上し、復号音声品質を向上することができる。

なお、本実施の形態では、取り出し区間の復号音源信号を増幅して復号音源ピッチパルス波形を生成する際に窓掛けを用いる場合を例にとって説明したが、本発明は、これに限定されず、次ピッチパルス位置での増幅率をより大きくし、取り出し区間の端点での増幅率をより小さくして、得られる復号音源ピッチパルス波形のパワー変動感を緩和させる機能を持つほかの窓を用いても良い。

また、本実施の形態では、復号音源信号の補正に用いられる復号音源ピッチパルス波形において、中心サンプル（補償ピッチパルス位置）の振幅値が最も大きい場合を例にとって説明したが、場合によっては復号音源ピッチパルスを復号音源信号に加算しなくても良い。すなわち、（１）中心サンプルよりもほかのサンプルの振幅が大きい場合、（２）または復号音源ピッチパルス波形の中心サンプルの振幅値よりも、復号音源信号の補償ピッチパルス位置の振幅が大きい場合、（３）または復号音源ピッチパルス波形の中心サンプルの振幅値と、ピッチパルス情報復号部２０４において復号されたｍ番フレーム最後ピッチパルスの振幅値との極性（符号）が相反する場合には、復号音源ピッチパルスを復号音源信号に加算しなくても良い。

また、前フレーム最後ピッチパルス検出部７１１は、音声符号化装置側のピッチパルス検出部１９２においてｎ番フレームのピッチパルス位置ＰＰｐを検出する方法と同様な方法で、ｍ−１番フレーム最後ピッチパルスの位置および振幅を検出する場合を例にとって説明したが、過去フレームのピッチパルスを繰り返し生成できない、もしくは余計なピッチパルスまで繰り返し生成してしまう場合がある。その原因は、一般的に消失フレームにおける補償ピッチラグＴ’（ｍ）、すなわちピッチラグＴ（ｍ−１）は、理想的な復号音源信号のｍフレームのピッチラグＴ（ｍ）と異なるためである。例えば、補償ピッチラグＴ’（ｍ）、すなわちＴ（ｍ−１）がピッチラグＴ（ｍ）より短い場合、ｍ−１番フレーム最後ピッチパルスがｍ番フレームで現れない場合がある。具体的には、ｍ−１番フレーム最後ピッチパルス位置が、ｍ−１番フレームとｍ番フレームの境界から過去方向へＴ（ｍ−１）だけ離れた位置近辺に存在する場合に、この現象は発生しやすくなる。つまり、補正ピッチラグＴ’（ｍ，ｓ）が、ｍ−１番フレーム最後ピッチラグ位置とｍ番フレーム境界との距離よりも短くなると、ｍ番フレームにおいてｍ−１番フレームのピッチパルスを適応符号帳に取り込めない現象が発生する。これを防止するため、ｍ−１番フレーム最後ピッチラグ位置とｍ番フレーム境界との距離以上となるように補正ピッチラグをさらに補正する必要がある。一方、補償ピッチラグＴ’（ｍ）、すなわちＴ（ｍ−１）がピッチラグＴ（ｍ）より長い場合、ｍ−１番フレーム最後ピッチパルス位置から、更に１ピッチラグ分過去の位置にあるピッチパルス（偽過去ピッチパルスと呼ぶ）を、ｍ番フレームにおいて繰り返し生成する。ｍ−１番フレーム最後ピッチパルスがｍ番フレームに近い位置に存在し、かつ、補正ピッチラグＴ’（ｍ，ｓ）がＴ（ｍ−１）よりも長く算出された場合に発生し得る。具体的には、ｍ−１番フレーム最後ピッチパルス位置とｍ番フレーム境界との距離とピッチラグＴ（ｍ−１）の合計よりも、補正ピッチラグＴ’（ｍ，ｓ）が長い場合に、本現象の条件に該当することを検出できる。上記現象を検出した際には、例えば以下のような（１）および（２）の対策をとることができる。（１）補正ピッチラグＴ’（ｍ，ｓ）を短くする。具体的には、まず、補正ピッチラグをＴ（ｍ−１）とする。次いで、ｍ−１番フレーム最後ピッチパルス位置とｍ番フレーム境界との距離と、ピッチラグＴ（ｍ−１）を合計し、合計値とＴ（ｍ−１）との内挿点を、補正ピッチラグＴ’（ｍ，ｓ）とする。（２）偽過去ピッチパルスを除去する。具体的には、まず、適応符号帳において、偽ピッチパルスが存在する区間の振幅を零にした上で、ｍ番フレームのフレーム消失補償を行う。次いで、偽過去ピッチパルスを、実施の形態３で説明した偽ピッチパルス除去方法により除去する。音源信号補正部７０７において、偽ピッチパルス検出部５７１の動作を変更すれば偽過去ピッチパルスを除去できる。偽ピッチパルス検出部５７１における動作との相違点は、ｍ−１番フレーム最後ピッチパルス位置とｍ番フレーム境界との距離と、ピッチラグＴ（ｍ−１）との合計値を偽過去ピッチパルス位置とする点である。その後の偽ピッチパルスを除去するプロセスは同じである。または、上記のように補正ピッチラグに追加の補正を加えるようにする代わりに、補正ピッチラグを算出する際に、とりうる値の最小値・最大値を予め設定するようにして、上記と同様な効果を得るようにしても良い。

以上、本発明の各実施の形態について説明した。

本発明に係る音声復号装置および音声符号化装置は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。

また、音源符号帳は、雑音符号帳および適応符号帳からなり、雑音符号帳は、固定符号帳（fixed codebook）、確率符号帳（stochastic codebook）、または乱数符号帳（random codebook）と呼ばれることもある。また、適応符号帳は、適応音源符号帳と呼ばれることもある。

また、本発明に係る音声復号装置および音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。

なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法および音声復号方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置および音声復号装置と同様の機能を実現することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。

２００６年７月１２日出願の特願２００６−１９２０７１、２００６年１２月１５日出願の特願２００６−３３８９８１、および２００７年３月３日出願の特願２００７−０５３５４７の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明に係る音声復号装置および音声符号化装置は、ＣＥＬＰ型符号化のフレーム消失補償処理等の用途に適用することができる。

本発明の音声復号装置は、消失フレームである第１フレームを特定するフレーム消失情
報を受信する受信手段と、前記第１フレームと異なる第２フレームにおいて伝送された符号化パラメータから、ピッチパルス情報、および前記第１フレームの音源信号を復号する第１復号手段と、前記第１フレームより過去の定常状態のフレームにおいて、ピッチパルス学習波形を学習する学習手段と、前記ピッチパルス学習波形および前記ピッチパルス情報を用いて、前記第１フレームの音源信号を補正する補正手段と、を具備する構成を採る。

逆多重化部２０１は、音声符号化装置１００から伝送される音声符号化データを受信し
、音源符号化パラメータ、ＬＰＣ符号化パラメータ、ピッチパルス位置符号化パラメータおよびピッチパルス振幅符号化パラメータを分離する。逆多重化部２０１は、得られる音源符号化パラメータを音源パラメータ復号部２０２に出力し、ピッチパルス位置符号化パラメータおよびピッチパルス振幅符号化パラメータをピッチパルス情報復号部２０４に出力し、ＬＰＣ符号化パラメータをＬＰＣ復号部２０９に出力する。また、逆多重化部２０１は、フレーム消失情報を受信し、音源パラメータ復号部２０２、ピッチパルス波形学習部２０５、音源選択部２０８、およびＬＰＣ復号部２０９に出力する。

ＬＰＣ復号部２０９は、逆多重化部２０１から入力されるＬＰＣ符号化パラメータを復
号し、得られるＬＰＣ係数を合成フィルタ部２１０に出力する。

学習可否判定部２５１は、復号音源生成部２０３から入力される復号音源信号、音源パラメータ復号部２０２から入力されるピッチラグ、逆多重化部２０１から入力されるフレーム消失情報に基づき、ピッチパルス波形の学習を行うことが可能であるか否かの判定を行い、得られる学習可否判定結果をピッチピーク検出部２５２に出力する。学習可否判定
部２５１は、音声の定常状態のようにピッチ周期が安定している区間において波形学習を行うことが可能であると判定する。例えば、学習可否判定部２５１は、消失フレームでない定常状態のフレーム内において他の音源サンプルと比較してより振幅の大きい音源サンプルからなるピッチパルスが存在し、かつ、このピッチパルスがピッチラグを周期として繰り返される場合を、波形学習可の判定条件とする。

このように、本実施の形態によれば、音声符号化装置はピッチパルスを検出し、ピッチパルス位置および振幅情報を消失フレーム補償処理用の情報として符号化し、音声復号装置は消失フレームのピッチパルス位置および振幅情報を用いて、消失フレーム補償処理を
行うため、消失フレーム補償処理用の情報量を低減しつつ、復号信号の音声品質を向上することができる。

音源パワー復号部４０２は、逆多重化部４０１から入力される音源パワー符号化パラメ
ータを復号し、得られる復号音源パワーを音源信号補正部４０７に出力する。

音声復号装置５００の音源信号補正部５０７と、音声復号装置２００の音源信号補正部２０７とは処理の一部において相違点があり、それを示すために異なる符号を付す。なお
、音声復号装置５００は、音源パラメータ復号部２０２が音源符号化パラメータを復号して得られるピッチラグをさらに音源信号補正部５０７に出力する点において音声復号装置２００と相違する。

音源信号補正部６０７は、音源パラメータ復号部２０２から入力されるピッチラグ、復号音源生成部２０３から入力される復号音源信号、ピッチパルス情報復号部２０４から入力されるピッチパルス位置およびピッチパルス振幅、ピッチパルス波形学習部２０５から
入力されるピッチパルス学習波形、音源パワー復号部４０２から入力される復号音源パワー、および音源パワー記憶部６０１から入力される過去フレーム音源パワーを用いてピッチパルス列を生成する。また、音源信号補正部６０７は、生成されたピッチパルス列を用いて復号音源信号を補正し、得られる補正音源信号を音源選択部２０８に出力する。

ピッチパルス列候補生成部６７２は、音源パラメータ復号部２０２から入力されるピッチラグ、ピッチパルス情報復号部２０４から入力されるピッチパルス位置およびピッチパルス振幅値、ピッチパルス波形学習部２０５から入力されるピッチパルス学習波形、音源パワー記憶部６０１から入力される過去フレーム音源パワー、次ピッチパルス位置算出部６７７から入力される次ピッチパルス位置、およびピッチパルス減衰係数算出部６７８から入力されるピッチパルス減衰係数を用いてピッチパルス列候補を生成する。具体的には、ピッチパルス列候補生成部６７２は、フレーム長を長さとするバッファを内蔵しており、フレーム処理の開始において内蔵のバッファを「空」で初期化、すなわちバッファの値
を全て０とし、ピッチパルス情報復号部２０４から入力されるピッチパルス位置を起点とし、ピッチパルス減衰係数が乗じられたピッチパルス学習波形をピッチパルス波形として、ピッチパルス波形の振幅絶対値最大値の位置と次ピッチパルス位置とが一致するように、ピッチパルス波形をピッチラグ間隔で時間軸の過去方向へ内蔵のバッファに繰り返し追加する。ピッチパルス列候補生成部６７２は、複数のピッチパルス波形が追加されたバッファをピッチパルス列候補としてピッチパルス列パワー算出部６７３、差分音源パワー算出部６７４、およびピッチパルス列記憶部６７９に出力する。

この式において、ｐはピッチパルス追加番号として、ピッチパルス列に追加されるピッチパルス波形の番号を示し、Ａｔｔ＿ｒ（ｐ）はｐ個目のピッチパルス波形に対応するピッチパルス減衰係数、ｐｅａｋ＿ｐｏｓ（ｐ）はｐ個目のピッチパルス波形の振幅絶対値最大値の位置、Ｅｐｏｗ（ｍ−１）は過去フレームの音源パワー、Ｈｐｏｗ（ｍ）は復号音源パワーを示す。ｐｅａｋ＿ｐｏｓ（ｐ）は現フレームの先頭位置を零とした相対位置で表される。式（６）によれば、ｐが増加するほどｐｅａｋ＿ｐｏｓ（ｐ）は減少する。また、１個目のピッチパルス波形に対応するピッチパルス減衰係数Ａｔｔ＿ｒ（１）は１．０となり、ｐｅａｋ＿ｐｏｓ（ｐ）が零（すなわちフレームの先頭位置）となる場合、
対応するピッチパルス減衰係数Ａｔｔ＿ｒ（ｐ）は、√（Ｅｐｏｗ（ｎ−１）/Ｈｐｏｗ（ｎ））となり、ｐｅａｋ＿ｐｏｓ（ｐ）が零とｐｅａｋ＿ｐｏｓ（１）との間にある場合、減衰係数Ａｔｔ＿ｒ（ｐ）は√（Ｅｐｏｗ（ｎ−１/Ｈｐｏｗ（ｎ））と１．０の内分点になる。

まず、ピッチパルス列候補生成部６７２は、ピッチパルス列に追加されるピッチパルス波形をカウントする変数Ｉを「０」に初期化し、ピッチパルス情報復号部２０４から入力されるピッチパルス位置の値によりＰＰｐｍ（Ｉ）を初期化し、Ｉ＋１個目のピッチパルスに対応するピッチパルス減衰係数を［１．０］の値で初期化する（ＳＴ１０１０）。次いで、ピッチパルス位置ＰＰｐｍ（Ｉ）に、Ｉ＋１個目のピッチパルスに対応するピッチパルス減衰係数が乗じられたピッチパルス学習波形をＩ＋１個目のピッチパルスとして追加する（ＳＴ１０１５）。そして、ピッチパルス列パワー算出部６７３はピッチパルス列パワーを、差分音源パワー算出部６７４は差分音源パワーを、補正音源パワー算出部６７５は補正音源パワーを算出する（ＳＴ１０２０）。次いで、復号音源パワー比較部６７６は、復号音源パワーと補正音源パワーとを比較してパワー比較結果を得る（ＳＴ１０３０）。ＳＴ１０３０において得られたパワー比較結果が「小」である場合（ＳＴ１０３０：小）、次ピッチパルス位置算出部６７７は、Ｉ＋１個目の次（（Ｉ＋１）＋１個目）のピッチパルス波形が追加される位置を次ピッチパルス位置として算出し、さらに算出された次ピッチパルス位置がフレーム範囲内に収まるか否かを判定する（ＳＴ１０６０）。ＳＴ１０６０において算出された次ピッチパルス位置がフレーム範囲内に収まらない場合（ＳＴ１０６０：外）、処理はＳＴ１０５０に移行する。一方、ＳＴ１０６０において算出された次ピッチパルス位置がフレーム範囲内に収まる場合（ＳＴ１０６０：内）、ピッチパ
ルス減衰係数算出部６７８は、（Ｉ＋１）＋１個目のピッチパルス波形に対応するピッチパルス減衰係数を算出する（ＳＴ１０７０）。次いで、ピッチパルス列候補生成部６７２は、ＳＴ１０６０において算出された次ピッチパルス位置に、ＳＴ１０７０において算出されたピッチパルス減衰係数が乗じられたピッチパルス学習波形を（Ｉ＋１）＋１個目のピッチパルス波形として追加し、ピッチパルス列候補を生成する（ＳＴ１０８０）。次いで、ピッチパルス列候補生成部６７２は、Ｉ＝Ｉ＋１のようにＩを１インクリメントして処理をＳＴ１０２０に移行する（ＳＴ１０９０）。

図２３は、１つのピッチパルス波形を用いて復号音源信号を補正する場合の音源パワーを例示する図である。図２３に示すように、１つのピッチパルス波形を用いて復号音源信号を補正する場合、補正音源パワーは、差分音源パワーと、補正に用いられる１つのピッチパルス波形パワーとの総和値である。なお、図２３においては、１つのピッチパルス波形の補正により得られる補正音源パワーと復号音源パワーとのパワー比較結果が「小」となる場合、すなわち補正音源パワーと復号音源パワーとの比が０．８より小さい場合を例にあげている。この場合は言い換えれば、復号音源パワーと補正音源パワーとの差が所定値より大きい場合であり、このような場合は、復号音源信号の品質が劣化するため、補正音源信号のパワーをさらに補償する必要がある。補正音源信号のパワー補償方法としては、復号音源信号を増幅する方法、または補正に用いられるピッチパルス波形を増幅する方
法が考えられる。しかし、復号音源信号を増幅する方法はノイズを増大する問題がある一方、補正に用いられるピッチパルス波形を増幅する方法は復号音声が局所的に過大に聞こえ変動感をもたらすという問題がある。また、２つの方法を組み合わせても効果には限界がある。本実施の形態では、補正に用いられるピッチパルス波形の数を増加して、すなわちピッチパルス列を用いて復号音声信号を補正する。すなわち、本実施の形態では、ピッチパルス性波形を用いてピッチパルス性信号を補正するため、復号音源信号を増幅する方法、または補正に用いられるピッチパルス波形を増幅する方法の問題点を解決している。

図２４および図２６において、２個目のピッチパルスの位置ＰＰｐｍ１’および３個目
のピッチパルスの位置ＰＰｐｍ２’は、それぞれ理想的な復号音源信号のピッチパルス波形の位置ＰＰｐｍ１および位置ＰＰｐｍ２と若干ずれるものの、ピッチパルス性波形を用いてピッチパルス性信号を補正しているため、復号音源信号を増幅する方法、または補正に用いられるピッチパルス波形を増幅する方法よりも、得られる補正音源信号は理想の復号音源信号により類似する。本実施の形態に係る復号音源信号の補正方法は、特に音声の立ち上がり部の音声符号化および復号に適用する場合、より自然な復号音声が得られる。

図２８Ｂは、ｍ−１番フレームおよびｍ＋１番フレームが正常に受信され、ｍ番フレームが消失した場合、ｍ番フレームに補償ピッチラグＴ’（ｍ）間隔でピッチパルス波形の列を加算して得られる補正復号音源信号の波形を示す図である。図２８Ｂに示すように、補償ピッチラグＴ’（ｍ）としてＴ（ｍ−１）を用い、ｍ−１番フレーム最後ピッチパルスの位置ＰＰｐ’を起点として、復号音源信号にピッチパルス列を加算する場合、各ピッチパルス波形の位置はＰＤｐ［１］、ＰＤｐ［２］、…、ＰＤｐ［Ｓ］となる。ここで、
Ｓはｍ番フレームに加算されるピッチパルス波形の総数を示す。なお、以下の説明の便宜のために、ＰＰｐ’をＰＤｐ［０］とも記してある。図２８Ｂに示すように、各ピッチパルス波形は補償ピッチラグＴ’（ｍ）の間隔で配置され、ＰＤｐ［Ｓ］とＰＰｐとは一致しなくなる。すなわち、図２８Ａと図２８Ｂとを比較すれば分かるように、図２８Ｂに示す復号音源信号に加算されるピッチパルス波形の位置と、図２８Ａに示す理想的な復号音源信号に含まれるピッチパルスの位置とは一致せず、図２８Ｂに示す補正復号音源信号は、図２８Ａに示す理想的な復号音源信号に含まれない偽ピッチパルスを含み、これが復号音声の品質劣化の原因となる。

式（７）において、ｓが取る範囲は０≦ｓ≦Ｓ’であり、ＰＤｐ’［ｓ］はｓ番目の補償ピッチパルス位置、Ｄｐｐ［ｓ］はｓ番目のピッチパルス間距離を表す。また、式（７）において、ｍはフレーム番号、Ｔ’（ｍ，ｓ）は補正ピッチラグを示し、ｉｎｔ（）は
小数点以下を切り捨てる関数を示す。ｔＴは暫定ピッチラグを示し、Ｔ’（ｍ，ｓ−１）、またはＴ（ｍ−１）を用いる。

ＳＴ２０３０において、ｍ−１番フレーム最後ピッチパルス振幅と、ｍ番フレーム最後
ピッチパルス振幅とのいずれかが所定の閾値以下であると判定した場合（ＳＴ２０３０：「ＹＥＳ」）には、ピッチラグ補正可否判定部７１３は、ＳＴ２０６０において、「否」というピッチラグ補正可否情報を出力する。

ＳＴ２０４０において、補正ピッチラグＴ’（ｍ，ｓ）とピッチラグＴ（ｍ−１）との変動量が所定の閾値以上であると判定した場合（ＳＴ２０４０：「ＹＥＳ」）には、ピッチラグ補正可否判定部７１３は、ＳＴ２０６０において、「否」というピッチラグ補正可否情報を出力する。ＳＴ２０４０では、過去のピッチラグに対して補正ピッチラグが大きく変動した場合にピッチラグ補正を中止するように判定する。判定は、過去のピッチラグと、過去のピッチラグと補正ピッチラグの差との比があらかじて決めてある閾値を超えるかどうかで判定できる。閾値は事前に決めておけば良い。例えば、以下の数式を満たす時、ピッチラグ補正可否判定部７１３は、ＳＴ２０４０においてピッチラグの変動量が閾値以上であると判定（ＳＴ２０４０：「ＹＥＳ」）する。
｜T（ｍ−１）− T’（ｍ、ｓ）｜／T’（ｍ、ｓ） ≧ ０．１・・・（９）

一方、ＳＴ２０４０において、補正ピッチラグＴ’（ｍ，ｓ）とピッチラグＴ（ｍ−１）との変動量が所定の閾値以上でないと判定した場合（ＳＴ２０４０：「ＮＯ」）には、ピッチラグ補正可否判定部７１３は、ＳＴ２０５０において、「可」というピッチラグ補正可否情報を出力する。例えば、以下の数式を満たす時、ピッチラグ補正可否判定部７１３は、ＳＴ２０４０においてピッチラグの変動量が閾値以上でないと判定（ＳＴ２０４０：「ＮＯ」）する。
｜T（ｍ−１）− T’（ｍ、ｓ）｜／T’（ｍ、ｓ）＜０．１・・・（１０）

ピッチラグ切替部７１５は、ピッチパルス補正可否判定部７１３から入力されるピッチパルス補正可否判定結果が「可」である場合には、補正ピッチラグ算出部７１２から入力される補正ピッチラグＴ’（ｍ，ｓ）を復号音源生成部７０３に出力し、ピッチパルス補
正可否判定結果が「否」である場合には、音源パラメータ復号部２０２から入力されるピッチラグＴ（ｍ）を復号音源生成部７０３に出力する。

一方、次ピッチパルス位置生成部７７７は、ピッチラグ補正可否判定部７１３からのピッチラグ補正可否情報が「可」である場合には、音源パラメータ復号部２０２から入力されるピッチラグの代わりに補償ピッチパルス位置算出部７１４から入力される補償ピッチパルス位置を用いて次ピッチパルス位置を算出する。具体的には、次ピッチパルス位置算出部７７７は、復号音源パワー比較部６７６から入力されるパワー比較結果が「小」である場合のみ、番号ｐで表される次ピッチパルスの位置としてＰＤｐ’［Ｓ’−ｐ］をピッチパルス列候補生成部６７２、ピッチパルス減衰係数算出部６７８、およびピッチパルス列記憶部６７９に出力する。すなわち、次ピッチパルス位置算出部７７７は、ｍ番フレーム最後ピッチパルス位置ＰＰｐを初期値として、ＰＤｐ’［Ｓ’−１］、…ＰＤｐ’［２］、ＰＤｐ’［１］を次ピッチパルス位置として順次出力する。また、補償ピッチパルス位置は常にｍ番フレーム範囲内に存在するため、次ピッチパルス位置生成部７７７は、ピ
ッチラグ補正可否情報が「可」であって、復号音源パワー比較部６７６から入力されるパワー比較結果が「小」である場合には、「可」という次ピッチパルス追加可否情報を出力し、それ以外の場合には「不可」という次ピッチパルス追加可否情報を出力する。

また、本実施の形態では、式（８）における暫定ピッチラグｔＴとして、Ｔ’（ｍ，ｓ−１）またはＴ（ｍ−１）を用いる場合を例にとって説明したが、本発明はこれに限定されず、式（８）における暫定ピッチラグｔＴとして、Ｔ（ｍ＋１）を用いても良く、さらには、Ｔ’（ｍ，ｓ−１）とＴ（ｍ＋１）との内挿相関値、例えば（Ｔ’（ｍ，ｓ−１）
＋Ｔ（ｍ＋１））／２を用いても良い。

また、本実施の形態では、ピッチラグ切替部７１５は、ピッチパルス補正可否判定部７１３から入力されるピッチパルス補正可否判定結果が「可」である場合には、補正ピッチラグ算出部７１２から入力される補正ピッチラグＴ’（ｍ，ｓ）を出力する場合を例にと
って説明したが、本発明はこれに限定されず、ピッチラグ切替部７１５は、ピッチパルス補正可否判定部７１３から入力されるピッチパルス補正可否判定結果が「可」である場合には、暫定ピッチラグｔＴを出力しても良い。

そこで、ｍ−１番フレームの音源信号（復号音源信号）に含まれるピッチパルス間の相関性が高い場合には、ピッチパルス学習波形を用いずに、過去の復号音源ピッチパルス波形を用いて復号音源信号を補正し、より理想的な復号音源信号に類似する補正復号音源信
号を得ることが考えられる。

このように、本実施の形態によれば、有声定常区間におけるフレームが消失した場合には、ピッチパルス学習波形の代わりに復号音源ピッチパルスを用いて、復号音源信号を補正するため、フレーム消失が生じなかった場合の理想的な復号音源信号により近似する補正復号音源信号を得ることができ、復号音声の明瞭性をさらに向上し、復号音声品質を向
上することができる。

また、前フレーム最後ピッチパルス検出部７１１は、音声符号化装置側のピッチパルス検出部１９２においてｎ番フレームのピッチパルス位置ＰＰｐを検出する方法と同様な方法で、ｍ−１番フレーム最後ピッチパルスの位置および振幅を検出する場合を例にとって説明したが、過去フレームのピッチパルスを繰り返し生成できない、もしくは余計なピッチパルスまで繰り返し生成してしまう場合がある。その原因は、一般的に消失フレームにおける補償ピッチラグＴ’（ｍ）、すなわちピッチラグＴ（ｍ−１）は、理想的な復号音源信号のｍフレームのピッチラグＴ（ｍ）と異なるためである。例えば、補償ピッチラグＴ’（ｍ）、すなわちＴ（ｍ−１）がピッチラグＴ（ｍ）より短い場合、ｍ−１番フレーム最後ピッチパルスがｍ番フレームで現れない場合がある。具体的には、ｍ−１番フレーム最後ピッチパルス位置が、ｍ−１番フレームとｍ番フレームの境界から過去方向へＴ（ｍ−１）だけ離れた位置近辺に存在する場合に、この現象は発生しやすくなる。つまり、補正ピッチラグＴ’（ｍ，ｓ）が、ｍ−１番フレーム最後ピッチラグ位置とｍ番フレーム境界との距離よりも短くなると、ｍ番フレームにおいてｍ−１番フレームのピッチパルスを適応符号帳に取り込めない現象が発生する。これを防止するため、ｍ−１番フレーム最後ピッチラグ位置とｍ番フレーム境界との距離以上となるように補正ピッチラグをさらに補正する必要がある。一方、補償ピッチラグＴ’（ｍ）、すなわちＴ（ｍ−１）がピッチラグＴ（ｍ）より長い場合、ｍ−１番フレーム最後ピッチパルス位置から、更に１ピッチラグ分過去の位置にあるピッチパルス（偽過去ピッチパルスと呼ぶ）を、ｍ番フレームにおいて繰り返し生成する。ｍ−１番フレーム最後ピッチパルスがｍ番フレームに近い位置に存在し、かつ、補正ピッチラグＴ’（ｍ，ｓ）がＴ（ｍ−１）よりも長く算出された場合に発生し得る。具体的には、ｍ−１番フレーム最後ピッチパルス位置とｍ番フレーム境界との距離とピッチラグＴ（ｍ−１）の合計よりも、補正ピッチラグＴ’（ｍ，ｓ）が長い場合に、本現象の条件に該当することを検出できる。上記現象を検出した際には、例えば以下のような（１）および（２）の対策をとることができる。（１）補正ピッチラグＴ’（ｍ，ｓ）を短くする。具体的には、まず、補正ピッチラグをＴ（ｍ−１）とする。次いで、ｍ−１番フレーム最後ピッチパルス位置とｍ番フレーム境界との距離と、ピッチラグＴ（ｍ−１）を合計し、合計値とＴ（ｍ−１）との内挿点を、補正ピッチラグＴ’（ｍ，ｓ）とする。（２）偽過去ピッチパルスを除去する。具体的には、まず、適応符号帳において、偽ピッチパルスが存在する区間の振幅を零にした上で、ｍ番フレームのフレーム消失補償を行う。次いで、偽過去ピッチパルスを、実施の形態３で説明した偽ピッチパルス除去方法により除去する。音源信号補正部７０７において、偽ピッチパルス検出部５７１の動作を変更すれば偽過去ピッチパルスを除去できる。偽ピッチパルス検出部５７１に
おける動作との相違点は、ｍ−１番フレーム最後ピッチパルス位置とｍ番フレーム境界との距離と、ピッチラグＴ（ｍ−１）との合計値を偽過去ピッチパルス位置とする点である。その後の偽ピッチパルスを除去するプロセスは同じである。または、上記のように補正ピッチラグに追加の補正を加えるようにする代わりに、補正ピッチラグを算出する際に、とりうる値の最小値・最大値を予め設定するようにして、上記と同様な効果を得るようにしても良い。

以上、本発明の各実施の形態について説明した。

Claims

消失フレームである第１フレームを特定するフレーム消失情報を受信する受信手段と、
前記第１フレームとは異なる第２フレームにおいて伝送された符号化パラメータから、ピッチパルス情報、および前記第１フレームの音源信号を復号する第１復号手段と、
前記第１フレームより過去の定常状態のフレームにおいて、ピッチパルス学習波形を学習する学習手段と、
前記ピッチパルス学習波形および前記ピッチパルス情報を用いて、前記第１フレームの音源信号を補正する補正手段と、
を具備する音声復号装置。
前記ピッチパルス情報は、フレームの後尾から時間軸の過去方向への最初のピッチパルスに関するピッチパルス位置情報およびピッチパルス振幅情報を含み、
前記補正手段は、
前記ピッチパルス振幅情報を用いて、前記ピッチパルス学習波形を振幅調整して第１ピッチパルス波形を生成し、前記ピッチパルス位置情報に基づき、前記第１ピッチパルス波形を前記音源信号に加算して補正音源信号を生成する、
請求項１記載の音声復号装置。
前記第１フレームとは異なる前記第２フレームにおいて伝送された符号化パラメータから、前記第１フレームの音源パワーを第１音源パワーとして復号する第２復号手段と、
前記補正音源信号のパワーを前記第１音源パワーに調整する第１調整手段と、
をさらに具備する請求項２記載の音声復号装置。
前記第１調整手段は、
前記第１ピッチパルス波形の振幅を維持しつつ、前記補正音源信号のパワーを前記第１音源パワーに調整する、
請求項３記載の音声復号装置。
前記第１ピッチパルス波形の音源パワーを、第２音源パワーとして算出する第１算出手段と、
前記第１音源パワーと前記第２音源パワーとの差を、第３音源パワーとして算出する第２算出手段と、
前記第１フレームの音源信号において、前記第１ピッチパルス波形に対応する区間の振幅をゼロにし、差分音源信号を生成する差分手段と、
をさらに具備し、
前記第１調整手段は、
前記差分音源信号の振幅を調整して、前記差分音源信号の音源パワーを前記第３音源パワーに調整する、
請求項４記載の音声復号装置。
前記第１フレームの後端から過去への所定長の探索区間において、前記第１ピッチパルス波形を除き、振幅が閾値以上となるピッチパルス波形を偽ピッチパルス波形として検出する検出手段と、
前記偽ピッチパルス波形の長さだけの雑音を生成する雑音生成手段と、
前記第１フレームの音源信号において、前記偽ピッチパルス波形を前記雑音で置換する置換手段と、
をさらに具備する請求項２記載の音声復号装置。
前記探索区間の所定長は、前記第１フレームより未来１フレームのピッチラグ長と等しい、
請求項６記載の音声復号装置。
前記雑音は、ランダム雑音、ガウス雑音、または過去の定常音源を用いて生成される、請求項６記載の音声復号装置。
前記ピッチパルス情報は、さらにピッチラグを含み、
前記補正手段は、
前記ピッチパルス学習波形に減衰係数を乗じ第２ピッチパルス波形をさらに生成し、前記ピッチパルス位置情報および前記ピッチラグを用いて前記第２ピッチパルス波形の加算位置を算出し、前記第２ピッチパルス波形を前記音源信号にさらに加算して補正音源信号を生成する、
請求項２記載の音声復号装置。
前記補正手段は、
前記ピッチパルス位置情報が示す位置から時間軸の過去方向へ前記ピッチラグ分だけ離れた位置を前記加算位置として算出する、
請求項９記載の音声復号装置。
前記補正手段は、
過去フレームからピッチパルス位置を検出し、
前記過去フレームの前記ピッチパルス位置情報が示す位置と、前記消失フレームの前記ピッチパルス位置情報が示す位置との等分位置を、前記第２ピッチパルス波形の加算位置として算出する、
請求項９記載の音声復号装置。
前記補正手段は、
過去フレームからピッチパルス位置を検出し、
前記過去フレームの前記ピッチパルス位置情報が示す位置と、前記消失フレームの前記ピッチパルス位置情報が示す位置との等分位置を算出し、前記等分位置を中心として前記音源信号から所定区間を取り出しさらに三角窓を掛けて第３ピッチパルス波形を得、前記第３ピッチパルス波形を前記音源信号の前記等分位置に加算して補正音源信号を生成する、
請求項２記載の音声復号装置。
第１フレームにおいてピッチパルスを検出する検出手段と、
前記ピッチパルスに関する情報を符号化し、第１符号化パラメータを生成する第１符号化手段と、
前記第１フレームとは異なる第２フレームの音源を符号化し、第２符号化パラメータを生成する第２符号化手段と、
前記第１符号化パラメータと、前記第２符号化パラメータとを多重する多重化手段と、
を具備する音声符号化装置。
前記検出手段は、
前記第１フレームの後端から過去への所定長の探索区間において最大振幅となる前記ピッチパルスを検出し、
前記探索区間の所定長は、前記第１フレームより未来１フレームの第３フレームのピッチラグ長であり、
前記ピッチパルスに関する情報は、前記ピッチパルスの位置情報および振幅情報を含む、
請求項１３記載の音声符号化装置。
前記ピッチパルスの適合性を判定する判定手段、
をさらに具備し、
前記判定手段は、
前記ピッチパルスの周辺の波形を所定遅延量だけ遅延させた波形と、前記第３フレームとの相関値が所定値以上である場合、前記ピッチパルスが適合であると判定し、
前記所定遅延量は、前記第１フレームより未来１フレームのピッチラグ長である、
請求項１４記載の音声符号化装置。
前記第１フレームの音源パワーを算出する算出手段、
をさらに具備し、
前記多重化手段は、
さらに前記音源パワーを示すパラメータを多重する、
請求項１４記載の音声符号化装置。