WO2015064346A1

WO2015064346A1 - 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム

Info

Publication number: WO2015064346A1
Application number: PCT/JP2014/077215
Authority: WO
Inventors: 公孝堤; 菊入　圭; 山口　貴史
Original assignee: 株式会社Ｎｔｔドコモ
Priority date: 2013-10-29
Filing date: 2014-10-10
Publication date: 2015-05-07
Also published as: RU2707727C1; PT3528247T; CA3081225A1; PL3065134T3; EP3065134A4; KR20190121884A; BR112016003291B1; CN110164457B; EP3528246A1; RU2651234C2; CA3081225C; RU2682927C2; AU2014341476B2; HUE063871T2; MX347234B; KR102036704B1; MX2016005162A; EP3065134B1; RU2016120629A; SG11201600542VA

Abstract

　音声信号処理装置は、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じる不連続性の推定を行う不連続推定器と、復号音声の不連続性を修正する不連続修正器と、を備える。

Description

音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム

　本発明は、音声信号を処理する音声信号処理装置、音声信号処理方法、及び音声信号処理プログラムに関する。

　ＩＰ（Internet　Protocol）電話のように、音声信号を符号化及びパケット化してインターネット網で伝送する際には、ネットワークの輻輳等が原因でパケットが失われることがある（以下、この現象を「パケットロス」と言う）。パケットロスが発生すると、必要な音声符号が失われるため音声復号ができず音切れが発生する。パケットロスにより生じる音切れを防止する技術として、音声パケットロス隠蔽技術がある。音声パケットロス隠蔽技術は、パケットロスを検出し、ロスしたパケットに対応する擬似的な音声信号（以下、「隠蔽信号」）を生成する。

　音声符号化手法として、符号化器・復号器の内部状態を更新しながら音声符号化を行う手法を用いている場合には、本来受信するはずの符号化パラメータが得られないため、音声パケットロス隠蔽技術は、擬似的に生成したパラメータにより復号器の内部状態更新も行う。

　符号化器・復号器の内部状態を更新しながら音声符号化を行う手法として、CELP（Code　Excited　Linear　Prediction）符号化が広く用いられている。CELP符号化では、自己回帰モデルを仮定し、全極型合成フィルタa(i)によって励振信号e(n)をフィルタリングすることで音声信号を合成する。すなわち、次式に従い音声信号s(n)を合成する。a(i)は線形予測係数（LP（Linear　Prediction）係数）であり、次数としてP=16などの値を用いる。

　CELP符号化では、線形予測係数を数学的に等価に表現したISF（Immittance　Spectral　Frequency）パラメータや、過去の励振信号を内部状態としてもつ。パケットロスが起こった場合、これらを擬似的に生成するため、本来であれば復号により得られていたパラメータとの間で乖離が起こる。パラメータの乖離によって起こる合成音声の不整合は、受聴者からは雑音と知覚され、主観的な品質を大きく損ねる。

　以下、音声符号化手法にCELP符号化を用いた場合を例に、音声パケットロス隠蔽を行う音声復号器の構成及び動作について説明する。

　音声復号器の構成図及び動作を図１、図２に示す。図１に示すように、音声復号器１は、パケットロス検出部１１、音声符号復号部１２、隠蔽信号生成部１３、及び内部状態バッファ１４を備える。

　パケットロス検出部１１は、音声パケットを正常に受信した場合には、制御信号、及び音声パケットに含まれる音声符号を音声符号復号部１２に送る（正常受信：図２のステップＳ１００でＹＥＳの場合）。その後、音声符号復号部１２は、後述するように、音声符号の復号及び内部状態更新を行う（図２のステップＳ２００、Ｓ４００）。一方、パケットロス検出部１１は、音声パケットが正常に受信できなかった場合には、隠蔽信号生成部１３に制御信号を送る（パケットロス：図２のステップＳ１００でＮＯの場合）。その後、隠蔽信号生成部１３は、後述するように、隠蔽信号の生成及び内部状態更新を行う（図２のステップＳ３００、Ｓ４００）。図２のステップＳ１００～Ｓ４００の処理は通信終了まで（ステップＳ５００でＹＥＳと判断されるまで）繰り返される。

　音声符号は、少なくとも符号化されたISFパラメータ

、符号化された第一から第四サブフレームのピッチラグT^j _p、第一から第四サブフレームの符号化された適応符号帳ゲインg^j _p、第一から第四サブフレームの符号化された固定符号帳ゲインg^j _c、第一から第四サブフレームの符号化された固定符号帳ベクトルc^j(n)を含む。ISFパラメータの代わりに数学的に等価な表現であるLSF（line　spectral　frequency）パラメータを用いてもよい。以下の議論では、ISFパラメータを用いた説明を行うが、LSFパラメータを用いた場合も同じ議論が成り立つ。

　内部状態バッファには、過去のISFパラメータ

及び

の等価表現であるISP（Immittance　Spectral　Pair）パラメータ

、ISF残差パラメータ

、過去のピッチラグT^j _p、過去の適応符号帳ゲインg^j _p、過去の固定符号帳ゲインg^j _c、適応符号帳u(n)を含む。それぞれ過去何サブフレーム分のパラメータを含むかは設計方針による。本明細書では、１フレームが４サブフレームを含むことを仮定するが、設計方針により他の値としてもよい。

　＜正常受信の場合＞
　図３には音声符号復号部１２の機能構成例を示す。この図３に示すように、音声符号復号部１２は、ISF復号部１２０、安定性処理部１２１、LP係数算出部１２２、適応符号帳算出部１２３、固定符号帳復号部１２４、ゲイン復号部１２５、励振ベクトル合成部１２６、ポストフィルタ１２７、及び合成フィルタ１２８を備える。ただし、ポストフィルタ１２７は必須の構成要素ではない。なお、図３では、説明の便宜上、音声符号復号部１２内に内部状態バッファ１４を二点鎖線で示しているが、この内部状態バッファ１４は、音声符号復号部１２の内部に含まれるものではなく、図１に示す内部状態バッファ１４である。これ以降の音声符号復号部の構成図でも同様である。

　LP係数算出部１２２の構成図を図４に、符号化されたISFパラメータからLP係数を算出する処理フローを図５に、それぞれ示す。図４に示すように、LP係数算出部１２２は、ISF-ISP変換部１２２Ａ、ISP補間部１２２Ｂ、及びISP-LPC変換部１２２Ｃを備える。

　まず、符号化されたISFパラメータからLP係数を算出する処理（図５）に関連する機能構成及び動作について説明する。

　ISF復号部１２０は、符号化されたISFパラメータを復号してISF残差パラメータ

を求め、ISFパラメータ

を次式に従い算出する（図５のステップＳ１）。ここで、mean_iは、事前に学習等で求めた平均ベクトルである。

　なお、ここでは、ISFパラメータの算出にMA予測を用いる例について述べたが、以下のようにAR予測を用いてISFパラメータの算出を行うような構成としてもよい。ここで、直前フレームのISFパラメータを

、AR予測の重み係数をρ_iとした。

　安定性処理部１２１は、フィルタの安定性を確保するためにISFパラメータの各要素間に50Hz以上の間隔をあけるよう、次式に従う処理を行う（図５のステップＳ２）。ISFパラメータは、音声スペクトル包絡の形状を線スペクトルで表現したものであり、互いの距離が近づく程、スペクトルのピークが大きくなり共振が起こる。そのため、スペクトルのピークでのゲインが大きくなりすぎないよう、安定性確保の処理が必要となる。ここで、min_distは最小のISF間隔であり、isf_minは、min_distの間隔を確保するために必要なISFの最小値である。isf_minは、隣のISFの値にmin_distの間隔を加算することにより順次更新を行う。一方、isf_maxは、min_distの間隔を確保するために必要なISFの最大値である。isf_maxは、隣のISFの値からmin_distの間隔を減算することにより順次更新を行う。

　LP係数算出部１２２内のISF-ISP変換部１２２Ａは、次式に従い

をISPパラメータ

に変換する（図５のステップＳ３）。ここで、Cは事前に定めた定数である。

　ISP補間部１２２Ｂは、内部状態バッファ１４に含まれる過去のISPパラメータ

と、上記ISPパラメータ

から、以下の式に従いサブフレーム毎のISPパラメータを算出する（図５のステップＳ４）。補間にあたっては、別の係数を用いてもよい。

　ISP-LPC変換部１２２Ｃは、サブフレーム毎のISPパラメータをLP係数

に変換する（図５のステップＳ５）。具体的変換手順として、非特許文献１に記載の処理手順を用いることができる。ここで、先読み信号に含まれるサブフレームの数を４としたが、サブフレームの数は設計方針により変更してもよい。

　次に、音声符号復号部１２におけるその他の構成及び動作について説明する。

　適応符号帳算出部１２３は、符号化されたピッチラグを復号して、第一から第四サブフレームのピッチラグT^j _pを算出する。次に、適応符号帳算出部１２３は、適応符号帳u(n)を用いて次式に従い、サブフレーム毎に適応符号帳ベクトルを算出する。適応符号帳ベクトルは、適応符号帳u(n)をFIRフィルタInt(i)により補間することで算出する。ここで、適応符号帳の長さをN_adaptとした。補間に用いるフィルタInt(i)は、事前に定めた長さ2l+1のFIRフィルタであり、L’はサブフレームのサンプル数である。補間フィルタInt(i)を用いることにより、ピッチラグを小数点以下の精度まで利用することができる。補間フィルタの詳細については、非特許文献１記載の方法を用いることができる。

　固定符号帳復号部１２４は、符号化された固定符号帳ベクトルを復号して、第一から第四サブフレームの固定符号帳ベクトルc^j(n)を取得する。

　ゲイン復号部１２５は、符号化された適応符号帳ゲイン及び符号化された固定符号帳ゲインを復号して、第一から第四サブフレームの適応符号帳ゲイン及び固定符号帳ゲインを取得する。例えば、非特許文献１に記載の以下の手法により、適応符号帳ゲイン及び固定符号帳ゲインの復号を行うことができる。非特許文献１記載の以下の手法によれば、AMR-WBのゲイン符号化のようにフレーム間予測を用いないため、パケットロス耐性を高めることができる。

　例えば、ゲイン復号部１２５は、以下の処理フローに従い、固定符号帳ゲインを取得する。

　最初に、ゲイン復号部１２５は、固定符号帳ベクトルのパワーを算出する。ここで、サブフレームの長さをN_sとする。

　次に、ゲイン復号部１２５は、ベクトル量子化されたゲインパラメータを復号し、適応符号帳ゲイン

と量子化固定符号帳ゲイン

を得る。量子化固定符号帳ゲインと上記固定符号帳ベクトルのパワーから、以下の通り予測固定符号帳ゲインを算出する。

　最後に、ゲイン復号部１２５は、予測係数

を復号し、予測ゲインに乗算することにより、固定符号帳ゲインを得る。

　励振ベクトル合成部１２６は、次式のように、適応符号帳ベクトルに適応符号帳ゲインを乗算するとともに、固定符号帳ベクトルに固定符号帳ゲインを乗算し、これらの和を求めることにより、励振信号を取得する。

　ポストフィルタ１２７は、励振信号ベクトルに対して、例えば、ピッチ強調、ノイズ強調、低域強調といった後処理を加える。ピッチ強調、ノイズ強調、低域強調は、非特許文献１に記載された手法を用いることができる。

　合成フィルタ１２８は、線形予測逆フィルタリングにより、励振信号を駆動音源とする復号信号を合成する。

　なお、符号化器において、プリエンファシスを行っている場合には、ディエンファシスを行う。

　一方、符号化器においてプリエンファシスを行っていない場合には、ディエンファシスを行わない。

　以下、内部状態更新に関する動作を説明する。

　LP係数算出部１２２は、パケットロス時のパラメータ補間のために、ISFパラメータの内部状態を次式で算出されるベクトルにより更新する。

　ここで、ω_i ^(-j)はバッファに格納されたｊフレーム前のISFパラメータである。ω_i ^Cは事前に学習等で求めた発話区間でのISFパラメータである。βは定数であり、例えば0.75のような値とすることができるが、これには限られない。ω_i ^C、βは、例えば非特許文献１記載のISFコンシールメントのように、符号化対象フレームの性質を表すインデクスにより変化させてもよい。

　さらに、LP係数算出部１２２は、次式に従いISF残差パラメータの内部状態も更新する。

　励振ベクトル合成部１２６は、以下の式に従い、励振信号ベクトルにより内部状態を更新する。

　さらに、励振ベクトル合成部１２６は、ゲインパラメータの内部状態を次式により更新する。

　適応符号帳算出部１２３は、ピッチラグのパラメータの内部状態を次式により更新する。

なお、ここでは、(－２≦ｊ＜Ｍ_ｌａ)とするが、ｊの範囲として設計方針により異なる値を選択してもよい。

　＜パケットロスの場合＞
　図６には、隠蔽信号生成部１３の機能構成例を示す。この図６に示すように、隠蔽信号生成部１３は、LP係数補間部１３０、ピッチラグ補間部１３１、ゲイン補間部１３２、雑音信号生成部１３３、ポストフィルタ１３４、合成フィルタ１３５、適応符号帳算出部１３６、及び励振ベクトル合成部１３７を備える。ただし、ポストフィルタ１３４は必須の構成要素ではない。

　LP係数補間部１３０は、

を次式により算出する。なお、ω_i ^(-j)は、バッファに格納されたｊフレーム前のISFパラメータである。

ここで、

はパケットを正常に受信した際に算出されたISFパラメータの内部状態である。αも定数であり、0.9のような値とすることができるが、これに限定されない。αは、例えば非特許文献１記載のISFコンシールメントのように、符号化対象フレームの性質を表すインデクスにより変化させてもよい。

　ISFパラメータからLP係数を得る手順は、正常にパケットを受信した場合と同様である。

　ピッチラグ補間部１３１は、ピッチラグに関する内部状態パラメータ

を用いて、ピッチラグの予測値

を算出する。具体的な処理手順として、非特許文献１の手法を用いることができる。

　ゲイン補間部１３２は、固定符号帳ゲインの補間のために、非特許文献１に記載の以下の式に従う手法を用いることができる。

　雑音信号生成部１３３は、固定符号帳ベクトルと同じ長さの白色雑音を生成し、固定符号帳ベクトルとして代用する。

　ポストフィルタ１３４、合成フィルタ１３５、適応符号帳算出部１３６及び励振ベクトル合成部１３７の動作は、前述した正常にパケットを受信した場合の動作と同様である。

　内部状態更新は、ISF残差パラメータを除き、正常にパケットを受信した場合と同様である。ISF残差パラメータの更新は、LP係数補間部１３０により、次式に従い行われる。

国際公開2002/035520号公報国際公開2008/108080号公報

ITU-T　Recommendation　G.718、2008年6月

　上記の通り、CELP符号化は内部状態を持つため、パケットロス時に補間により得られたパラメータと、本来復号に用いるべきパラメータとの乖離により音質の劣化が起こる。特にISFパラメータは、フレーム内・フレーム間での予測符号化が行われるため、パケットロスによる影響がパケットロス復帰後にも継続する課題がある。

　より具体的には、音声の開始部分付近で起こったパケットロスから復帰した最初のフレームにおいて、急激にパワーが上昇する課題が確認されている。これは、励振信号のパワーが高くなる音声の開始部分において、パケットロス時の補間処理により得られたISF係数から算出したLP係数のインパルス応答が、本来復号器が想定しているよりも高い利得を持つことにより引き起こされ、主観品質上不快な不連続音として知覚される。

　特許文献１の方法は、ロスしたフレームに対して補間したISF係数を生成するが、ロスから復帰した最初のフレームについては、通常の復号によりISFパラメータを生成するため、上記急激なパワーの上昇を抑えることができない。

　一方、特許文献２の方法では、符号化側で求めたゲイン調整用パラメータ（正規化予測残差パワー）を伝送し、復号側でのパワー調整に用いることで、パケットロスしたフレームの励振信号のパワーを抑え、急激なパワーの上昇を防止することができる。

　図７には、特許文献２の技術に相当する音声復号器１Ｘの機能構成例を、図８には、隠蔽信号生成部１３Ｘの機能構成例をそれぞれ示す。特許文献２において、音声パケットは、従来手法において述べたパラメータに加えて、少なくとも正規化予測残差パワーの補助情報を含む。

　音声信号生成部１Ｘが備える正規化予測残差パワー復号部１５は、音声パケットから正規化予測残差パワーの補助情報を復号して、参照正規化予測残差パワーを算出し、隠蔽信号生成部１３Ｘに出力する。

　隠蔽信号生成部１３Ｘの構成要素のうち、正規化予測残差調整部１３８以外の構成要素は、前述した従来技術と同じであるので、以下では正規化予測残差調整部１３８についてのみ述べる。

　正規化予測残差調整部１３８は、LP係数補間部１３０が出力したLP係数から正規化予測残差パワーを算出する。次に、正規化予測残差調整部１３８は、正規化予測残差パワーと参照正規化予測残差パワーを用いて、合成フィルタゲイン調整係数を算出する。最後に、正規化予測残差調整部１３８は、合成フィルタゲイン調整係数を励振信号に乗算して、合成フィルタ１３５に出力する。

　上記の特許文献２の技術によれば、パケットロス時の隠蔽信号のパワーを正常受信時と同様に抑えることができるものの、低ビットレート音声符号化においては、上記ゲイン調整用パラメータの伝送に必要なビットレートを確保するのが困難である。また、隠蔽信号生成部における処理であるため、リカバリフレームにおいてISFパラメータの不一致により引き起こされるパワーの急激な変化には対応することが困難である。

　そこで、本発明は、音声開始時点でのパケットロスから復帰した際に起こりうる不連続音を低減し、主観品質を改善することを目的とする。

　本発明の一実施形態に係る音声信号処理装置は、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じる不連続性の推定を行う不連続推定器と、復号音声の不連続性を修正する不連続修正器と、を備える。

　上記の不連続推定器は、復号音声の不連続性を、励振信号のパワーにより推定してもよい。

　また、上記の不連続推定器は、復号音声の不連続性を、励振信号算出に用いる量子化された符号帳ゲインにより推定してもよい。

　上記の音声信号処理装置は、符号化器より伝送された不連続性に関する補助情報を復号する補助情報復号器、をさらに備え、上記の不連続推定器は、補助情報復号器が補助情報符号を復号して出力する不連続性に関する補助情報を用いて、復号音声の不連続性を推定してもよい。

　上記の不連続修正器は、不連続性の推定結果に応じて、ISFパラメータ又はLSFパラメータ（以下「ISF/LSFパラメータ」と表記する）を修正してもよい。

　より具体的には、上記の不連続修正器は、合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔を、不連続性の推定結果に応じて変化させてもよい。

　このとき、上記の不連続修正器は、合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔として、安定性保証のために通常与える間隔よりも大きな間隔を与えてもよい。

　また、上記の不連続修正器は、予め定めた次元までのISF/LSFパラメータを等分して得られる間隔を、合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔として用いてもよい。

　さらに、上記の不連続修正器は、予め定めたベクトルにより、ISF/LSFパラメータの一部もしくは全部を置き換えてもよい。

　本発明の一実施形態に係る音声信号処理装置は、ISF/LSFパラメータを量子化するISF/LSF量子化器と、ISF/LSFパラメータに関する隠蔽情報である隠蔽ISF/LSFパラメータを生成するISF/LSF隠蔽器と、前記ISF/LSF量子化器の量子化過程で得られる量子化ISF/LSFパラメータと前記ISF/LSF隠蔽器が生成する隠蔽ISF/LSFパラメータとの距離を用いて、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定する不連続推定器と、不連続性に関する補助情報を符号化する補助情報符号化器と、を備える。

　本発明の一実施形態に係る音声信号処理装置は、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定する不連続推定器と、不連続性に関する補助情報を符号化する補助情報符号化器と、前記不連続推定器が不連続性を推定しない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用い、前記不連続推定器が不連続性を推定した場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用いることを回避するISF/LSF量子化器と、を備える。

　本発明の一実施形態に係る音声信号処理装置は、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性に関する補助情報を復号し出力する補助情報復号器と、復号音声の不連続性を修正する不連続修正器と、前記補助情報復号器の出力により不連続性を推定しない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用い、前記補助情報復号器の出力により不連続性を推定した場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用いることを回避するISF/LSF復号器と、を備える。

　音声信号処理装置は、過去の所定数のフレームのパケット受信状態を判定する受信状態判定部、をさらに備え、不連続修正器は、不連続性の推定結果に加え、パケット受信状態の判定結果も基礎として、不連続性の修正を行う構成を採用してもよい。

　さて、本発明の一実施形態に係る音声信号処理装置は、音声信号処理方法に係る発明、及び音声信号処理プログラムに係る発明として捉えることもでき、以下のように記述することができる。

　本発明の一実施形態に係る音声信号処理方法は、音声信号処理装置により実行される音声信号処理方法であって、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じる不連続性の推定を行うステップと、復号音声の不連続性を修正するステップと、を備える。

　本発明の一実施形態に係る音声信号処理方法は、音声信号処理装置により実行される音声信号処理方法であって、ISF/LSFパラメータを量子化するステップと、ISF/LSFパラメータに関する隠蔽情報である隠蔽ISF/LSFパラメータを生成するステップと、前記ISF/LSFパラメータの量子化過程で得られる量子化ISF/LSFパラメータと生成された隠蔽ISF/LSFパラメータとの距離を用いて、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定するステップと、不連続性に関する補助情報を符号化するステップと、を備える。

　本発明の一実施形態に係る音声信号処理方法は、音声信号処理装置により実行される音声信号処理方法であって、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定するステップと、不連続性に関する補助情報を符号化するステップと、不連続性が推定されない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用い、不連続性が推定された場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用いることを回避するステップと、を備える。

　本発明の一実施形態に係る音声信号処理方法は、音声信号処理装置により実行される音声信号処理方法であって、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性に関する補助情報を復号し出力するステップと、復号音声の不連続性を修正するステップと、前記補助情報が不連続性の推定を示さない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用い、前記補助情報が不連続性の推定を示す場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用いることを回避するステップと、を備える。

　本発明の一実施形態に係る音声信号処理プログラムは、コンピュータを、パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じる不連続性の推定を行う不連続推定器と、復号音声の不連続性を修正する不連続修正器、として動作させるための音声信号処理プログラムである。

　本発明の一実施形態に係る音声信号処理プログラムは、コンピュータを、ISF/LSFパラメータを量子化するISF/LSF量子化器と、ISF/LSFパラメータに関する隠蔽情報である隠蔽ISF/LSFパラメータを生成するISF/LSF隠蔽器と、前記ISF/LSF量子化器の量子化過程で得られる量子化ISF/LSFパラメータと前記ISF/LSF隠蔽器が生成する隠蔽ISF/LSFパラメータとの距離を用いて、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定する不連続推定器と、不連続性に関する補助情報を符号化する補助情報符号化器、として動作させるための音声信号処理プログラムである。

　本発明の一実施形態に係る音声信号処理プログラムは、コンピュータを、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定する不連続推定器と、不連続性に関する補助情報を符号化する補助情報符号化器と、前記不連続推定器が不連続性を推定しない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用い、前記不連続推定器が不連続性を推定した場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用いることを回避するISF/LSF量子化器、として動作させるための音声信号処理プログラムである。

　本発明の一実施形態に係る音声信号処理プログラムは、コンピュータを、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性に関する補助情報を復号し出力する補助情報復号器と、復号音声の不連続性を修正する不連続修正器と、前記補助情報復号器の出力により不連続性を推定しない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用い、前記補助情報復号器の出力により不連続性を推定した場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用いることを回避するISF/LSF復号器、として動作させるための音声信号処理プログラムである。

　以上のような本発明によれば、音声開始時点でのパケットロスから復帰した際に起こりうる上記不連続音を低減し、主観品質を改善することができる。

音声復号器の構成図である。音声復号器の処理フローである。音声符号復号部の機能構成図である。 LP係数算出部の機能構成図である。 LP係数を算出する処理フローである。隠蔽信号生成部の機能構成図である。特許文献２の音声復号器の構成図である。特許文献２の隠蔽信号生成部の機能構成図である。第１実施形態における音声符号復号部の機能構成図である。第１実施形態におけるLP係数算出部の処理フローである。第１実施形態における音声符号復号部の機能構成図である。第１実施形態変形例１における第２安定性処理部の処理フローである。第２実施形態における音声符号復号部の機能構成図である。第２実施形態におけるLP係数算出部の機能構成図である。第２実施形態におけるLP係数算出の処理フローである。第４実施形態における音声符号化器の構成図である。第４実施形態における音声符号化器の構成図である。第４実施形態におけるLP分析・符号化器の構成図である。第４実施形態におけるLP分析・符号化器の処理フローである。第４実施形態における音声符号復号部の機能構成図である。第４実施形態におけるLP係数算出部の処理フローである。第５実施形態におけるLP分析・符号化器の構成図である。第５実施形態におけるLP分析・符号化器の処理フローである。第４実施形態における音声符号復号部の機能構成図である。第５実施形態におけるLP係数算出部の処理フローである。第７実施形態における音声復号器の構成図である。第７実施形態における音声復号器の処理フローである。第７実施形態における音声符号復号部の機能構成図である。第７実施形態におけるLP係数算出の処理フローである。コンピュータのハードウェア構成例を示す図である。コンピュータの外観図である。（ａ）、（ｂ）、（ｃ）および（ｄ）は音声信号処理プログラムのさまざまな構成例を示す図である。

　以下、図面を用いて、本発明に係る音声信号処理装置、音声信号処理方法、及び音声信号処理プログラムの好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

　［第１実施形態］
　第１実施形態における音声信号処理装置は、前述した図１の音声復号器１と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。

　図９には第１実施形態における音声符号復号部１２Ａの機能構成図を、図１０にはLP係数算出処理のフロー図を、それぞれ示す。図９の音声符号復号部１２Ａは、前述した図３の構成に対し、不連続検出部１２９が追加されている。従来技術との差異は、LP係数算出処理のみであるため、ここではLP係数算出処理に関わる各部の動作について述べる。

　不連続検出部１２９は、復号して得られた固定符号帳ゲインg_c ⁰、及び内部状態に含まれる固定符号帳ゲインg_c ^-1を参照し、次式に従いゲインの変化と閾値とを比較する（図１０のステップＳ１１）。

　ゲインの変化が閾値を越える場合、不連続発生を検出し（以下、単に「不連続を検出し」ともいう）、不連続発生の検出結果に係る制御信号を安定性処理部１２１に出力する。

　なお、ゲインの変化と閾値との比較にあたっては、次式を用いても良い。

　さらに、現フレームに含まれる第１から第４サブフレームの固定符号帳ゲインのうち最大のものをg_c ^(c)、内部状態に含まれる固定符号帳ゲインのうち最小のものをg_c ^(p)として、次式によりゲインの変化と閾値との比較を行ってもよい。

　当然、次式を用いてもよい。

　第１実施形態の上記の例では、直前フレーム（ロストフレーム）の第４サブフレームの固定符号帳ゲインg_c ^-1と、現フレームの第１サブフレームの固定符号帳ゲインg_c ⁰を用いて不連続検出を行う例を示したが、内部状態に含まれる固定符号帳ゲイン及び現フレームに含まれる固定符号帳ゲインについて、それぞれ平均値を算出した上で、ゲインの変化と閾値との比較を行うようにしてもよい。

　ISF復号部１２０は、従来技術と同様の動作を行う（図１０のステップＳ１２）。

　安定性処理部１２１は、不連続検出部１２９が不連続を検出した場合、以下の処理によりISFパラメータを修正する（図１０のステップＳ１３）。

　最初に、安定性処理部１２１は、内部状態バッファ１４に記憶されたISFパラメータ

について、各要素間に通常よりＭ_-1倍の間隔をあける処理を行う。通常よりも非常に大きな間隔を与えることによりスペクトル包絡における過大なピークとディップを抑制する効果を与える。ここで、min_distは最小のISF間隔であり、isf_minは、min_distの間隔を確保するために必要なISFの最小値である。isf_minは、隣のISFの値にmin_distの間隔を加算することにより順次更新を行う。一方、isf_maxは、min_distの間隔を確保するために必要なISFの最大値である。isf_maxは、隣のISFの値からmin_distの間隔を減算することにより順次更新を行う。

　次に、安定性処理部１２１は、現フレームのISFパラメータについて、各要素間に通常よりＭ₀倍の間隔をあける処理を行う。ここでは、１＜Ｍ₀＜Ｍ_-1とするが、Ｍ_-1あるいはＭ₀のいずれか一方を１とし、他方を１より大きな値に設定してもよい。

　また、安定性処理部１２１は、不連続検出器が不連続を検出しない場合、通常の復号過程で実施するのと同様に、以下の処理を行う。

　不連続を検出した場合の要素間の最小の間隔はISFの周波数に応じて変えてもよい。不連続を検出した場合の要素間の最小の間隔は、通常の復号処理の最小の要素間の間隔と異なっていれば良い。

　LP係数算出部１２２内のISF-ISP変換部１２２Ａは、次式に従い、ISFパラメータ

をそれぞれ、ISPパラメータ

に変換する（図１０のステップＳ１４）。ここで、Cは事前に定めた定数である。

　ISP補間部１２２Ｂは、過去のISPパラメータ

と、上記ISPパラメータ

から、以下の式に従い、サブフレーム毎のISPパラメータを算出する（図１０のステップＳ１５）。補間にあたっては、別の係数を用いてもよい。

に変換する（図１０のステップＳ１６）。ここで、先読み信号に含まれるサブフレームの数を４としたが、サブフレームの数は設計方針により変更してもよい。具体的変換手順として、非特許文献１に記載の処理手順を用いることができる。

　さらに、ISF-ISP変換部１２２Ａは、内部状態バッファ１４に記憶されたISFパラメータ

を次式に従い更新する。

このとき、不連続が検出された場合でも、ISF-ISP変換部１２２Ａは、以下の手順を実施することにより、ISFパラメータの算出結果を用いて、内部状態バッファに記憶されたISFパラメータ

を更新してもよい。

　以上の第１実施形態のように、復号音声の不連続性は、励振信号算出に用いる量子化された符号帳ゲインによって推定することができ、また、不連続性の推定結果に応じて、ISF/LSFパラメータ（例えば合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔）を修正することができる。これにより、音声開始時点でのパケットロスから復帰した際に起こりうる不連続音を低減し、主観品質を改善することができる。

　[第１実施形態の変形例]
　図１１には、第１実施形態の変形例に係る音声符号復号部１２Ｓの機能構成図を示す。図３の従来技術の構成との差異は、不連続検出部１２９及び第２安定性処理部１２１Ｓのみであるため、これらの動作について述べる。第２安定性処理部１２１Ｓは、ゲイン調整部１２１Ｘ及びゲイン乗算部１２１Ｙを備えており、第２安定性処理部１２１Ｓの処理フローは図１２に示す。

　不連続検出部１２９は、第１実施形態の不連続検出部１２９と同様にして、復号して得られた固定符号帳ゲインg_c ⁰及び内部状態に含まれる固定符号帳ゲインg_c ^-1を参照し、ゲインの変化と閾値とを比較する。そして、不連続検出部１２９は、ゲインの変化が閾値を越えたか否かに関する情報を含む制御信号を、ゲイン調整部１２１Ｘに送る。

　ゲイン調整部１２１Ｘは、ゲインの変化が閾値を越えたか否かに関する情報を制御信号から読み出し、ゲインの変化が閾値を越えた場合には、事前に定めたゲインg_onをゲイン乗算部１２１Ｙに出力する。一方、ゲイン調整部１２１Ｘは、ゲインの変化が閾値を越えていない場合は、事前に定めたゲインg_offをゲイン乗算部１２１Ｙに出力する。このようなゲイン調整部１２１Ｘの動作は図１２のステップＳ１８に対応する。

　ゲイン乗算部１２１Ｙは、合成フィルタ１２８が出力する合成信号に上記ゲインg_on又はゲインg_offを乗算し（図１２のステップＳ１９）、得られた復号信号を出力する。

　ここで、LP係数算出部１２２からLP係数またはISFパラメータを出力して、第２安定性処理部１２１Ｓに入力する構成（図１１にてLP係数算出部１２２からゲイン調整部１２１Ｘへの点線で示す構成）にしてもよい。この場合、乗算するべきゲインは、LP係数算出部１２２で算出したLP係数またはISFパラメータを用いて決定される。

　以上の変形例のように、音声符号復号部１２Ｓに第２安定性処理部１２１Ｓを追加し、ゲインの変化が閾値を越えたか否かに応じてゲインを調整することで、適正な復号信号を得ることができる。

　なお、第２安定性処理部１２１Ｓは、上記算出したゲインを励振信号に乗算し、合成フィルタ１２８に出力してもよい。

　［第２実施形態］
　第２実施形態における音声信号処理装置は、前述した図１の音声復号器１と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図１３には音声符号復号部１２Ｂの機能構成例を、図１４にはLP係数の算出処理に係る機能構成例を、図１５にはLP係数の算出処理のフローを、それぞれ示す。図１３の音声符号復号部１２Ｂは、前述した図３の構成に対し、不連続検出部１２９が追加されている。

　ISF復号部１２０は、従来技術と同様にしてISFパラメータを算出する（図１５のステップＳ２１）。

　安定性処理部１２１は、従来技術と同様にして、フィルタの安定性を確保するためにISFパラメータ

の各要素間に50Hz以上の間隔をあけるよう処理を行う（図１５のステップＳ２２）。

　ISF-ISP変換部１２２Ａは、第１実施形態と同様にして、安定性処理部１２１が出力したISFパラメータをISPパラメータに変換する（図１５のステップＳ２３）。

　ISP補間部１２２Ｂは、第１実施形態と同様にして、過去のISPパラメータ

と、ISF-ISP変換部１２２Ａによる変換で得られたISPパラメータ

から、サブフレーム毎のISPパラメータを算出する（図１５のステップＳ２４）。

　ISP-LPC変換部１２２Ｃは、第１実施形態と同様にして、サブフレーム毎のISPパラメータをLP係数

に変換する（図１５のステップＳ２５）。ここで、先読み信号に含まれるサブフレームの数を４としたが、サブフレームの数は設計方針により変更してもよい。

　内部状態バッファ１４は、新たなISFパラメータによって、過去に記憶したISFパラメータを更新する。

　不連続検出部１２９は、パケットロスしたフレームにおける第４サブフレームのLP係数を内部状態バッファ１４から読み出し、パケットロスしたフレームにおける第４サブフレームのLP係数のインパルス応答のパワーを算出する。パケットロスしたフレームにおける第４サブフレームのLP係数は、パケットロス時に図６の隠蔽信号生成部１３に含まれるLP係数補間部１３０が出力して内部状態バッファ１４に蓄積した係数を用いることができる。

　そして、不連続検出部１２９は、例えば以下の式により不連続を検出する（図１５のステップＳ２６）。

　ゲインの変化が閾値を越えない場合（図１５のステップＳ２７でＮＯの場合）、不連続検出部１２９は不連続発生を検出せず、ISP-LPC変換部１２２ＣからLP係数を出力して処理を終了する。一方、ゲインの変化が閾値を越える場合（図１５のステップＳ２７でＹＥＳの場合）、不連続検出部１２９は、不連続発生を検出し、不連続発生の検出結果に係る制御信号を安定性処理部１２１に送る。制御信号を受け取った場合、安定性処理部１２１は、第１実施形態と同様にして、ISFパラメータを修正する（図１５のステップＳ２８）。以下、ISF-ISP変換部１２２Ａ、ISP補間部１２２Ｂ、及びISP-LPC変換部１２２Ｃの動作（図１５のステップＳ２９、Ｓ２Ａ、Ｓ２Ｂ）は、上記と同様である。

　以上の第２実施形態のように、復号音声の不連続性は、励振信号のパワーによって推定することができ、第１実施形態と同様に、不連続音を低減し主観品質を改善することができる。

　[第３実施形態]
　不連続を検出した際に、別の方法によりISFパラメータを修正してもよい。第３実施形態は、安定性処理部１２１のみが第１実施形態と異なるので、安定性処理部１２１の動作のみについて述べる。

　不連続検出部１２９が不連続を検出した場合、安定性処理部１２１は、以下の処理を行いISFパラメータを修正する。

　内部状態バッファ１４に記憶されたISFパラメータ

について、安定性処理部１２１は、低次P’次元（0＜P’≦P）までのISFパラメータを次式により置き換える。ここで、

とする。

　また、安定性処理部１２１は、次のように事前に学習により得られたP’次元ベクトルで低次P’次元のISFパラメータを上書きしてもよい。

　次に、現フレームのISFパラメータについて、安定性処理部１２１は、第１実施形態のように各要素間に通常よりＭ₀倍の間隔をあける処理を行ってもよいし、次式に従い決定してもよい。ここで、

とする。

　また、安定性処理部１２１は、事前に学習したP’次元ベクトルで上書きしてもよい。

　さらには、上記P’次元ベクトルは復号過程で学習されてもよく、例えば、

としてもよい。ただし、復号開始時のフレームにおいてはω_i ^-1を予め決められたP’次元ベクトルω_i ^initとしてもよい。

　以上の第３実施形態のように、予め定めた次元までのISF/LSFパラメータを等分して得られる間隔を、合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔として用いることができ、第１、第２実施形態と同様に、不連続音を低減し主観品質を改善することができる。

　［第４実施形態］
　第４実施形態では、符号化側が、不連続の発生を検出して、不連続判定符号（検出結果を示す符号）を音声符号に含めて復号側へ伝送し、復号側が、音声符号に含まれる不連続判定符号に基づいて安定性処理の処理内容を決定する実施形態を説明する。

　（符号化側について）
　図１６に符号化器２の機能構成例を、図１７に符号化器２における処理のフロー図を示す。図１６に示すように、符号化器２は、LP分析・符号化部２１、残差符号化部２２、及び符号多重化部２３を備える。

　このうちLP分析・符号化部２１の機能構成例を図１８に、LP分析・符号化部２１における処理のフロー図を図１９に示す。図１８に示すように、LP分析・符号化部２１は、LP分析部２１０、LP-ISF変換部２１１、ISF符号化部２１２、不連続判定部２１３、ISF隠蔽部２１４、ISF-LP変換部２１５、及びISFバッファ２１６を備える。

　LP分析・符号化部２１において、LP分析部２１０は、入力信号に対して線形予測分析を行い、線形予測係数を求める（図１７のステップＴ４１、図１８のステップＵ４１）。線形予測係数の算出に当たっては、音声信号から自己相関関数を算出した上で、レビンソン・ダービン法等を用いることができる。

　LP-ISF変換部２１１は、第１実施形態と同様にして、算出した線形予測係数をISFパラメータに変換する（ステップＴ４２、Ｕ４２）。線形予測係数からISFパラメータへの変換には、非特許文献に記載の方法を用いてもよい。

　ISF符号化部２１２は、ISFパラメータを事前に定めた方法により符号化してISF符号を算出し（ステップＴ４３、Ｕ４３）、符号化の過程で得られる量子化ISFパラメータを、不連続判定部２１３、ISF隠蔽部２１４及びISF-LP変換部２１５に出力する（ステップＵ４７）。ここで、量子化ISFパラメータは、ISF符号を逆量子化して得られるISFパラメータと等しい。符号化の方法としてベクトル符号化や直前フレームのISF及び事前に学習により定めた平均ベクトルからの誤差ベクトルをベクトル量子化等により符号化してもよい。

　不連続判定部２１３は、不連続判定部２１３が内蔵する内部バッファ（不図示）に格納された不連続判定フラグを符号化して、得られた不連続判定符号を出力する（ステップＵ４７）。また、不連続判定部２１３は、ISFバッファ２１６から読み出した隠蔽ISFパラメータ

と、量子化ISFパラメータ

を用いて、次式に従い不連続の判定を行い（ステップＴ４４、Ｕ４６）、その判定結果を不連続判定部２１３の内部バッファに格納する。ここで、Thres_ωは事前に定めた閾値、P’は次式を満たす整数である（0＜P’≦P）。

　ここでは、ISFパラメータ同士のユークリッド距離を用いて不連続判定を行う例を述べたが、別の方法により不連続判定を行ってもよい。

　ISF隠蔽部２１４は、デコーダ側のISF隠蔽部と同様の処理により、量子化ISFパラメータから隠蔽ISFパラメータを算出して、得られた隠蔽ISFパラメータをISFバッファ２１６に出力する（ステップＵ４４、Ｕ４５）。ISF隠蔽処理の処理手順は、デコーダ側のパケットロス隠蔽部と同じ処理であれば、どんな方法でもよい。

　ISF-LP変換部２１５は、上記量子化ISFパラメータを変換して量子化線形予測係数を算出し、得られた量子化線形予測係数を残差符号化部２２へ出力する（ステップＴ４５）。ISFパラメータを量子化線形予測係数に変換する方法としては、非特許文献に記載の方法を用いてもよい。

　残差符号化部２２は、量子化線形予測係数を用いて音声信号をフィルタリングし、残差信号を算出する（ステップＴ４６）。

　次に、残差符号化部２２は、残差信号を、CELP又はTCX（Transform　Coded　Excitation）を用いる符号化手段、CELPとTCXとを切り替えて用いる符号化手段等により符号化し、残差符号を出力する（ステップＴ４７）。残差符号化部２２の処理は、本発明とは関連性が低いので、説明を省略する。

　符号多重化部２３は、ISF符号、不連続判定符号、及び残差符号を所定の順序でまとめて、得られた音声符号を出力する（ステップＴ４８）。

　（復号側について）
　第４実施形態における音声信号処理装置は、前述した図１の音声復号器１と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図２０には音声符号復号部１２Ｄの機能構成例を、図２１にはLP係数の算出処理のフローを、それぞれ示す。図２０の音声符号復号部１２Ｄは、前述した図３の構成に対し、不連続検出部１２９が追加されている。

　ISF復号部１２０は、ISF符号を復号して安定性処理部１２１及び内部状態バッファ１４に出力する（図２１のステップＳ４１）。

　不連続検出部１２９は、不連続判定符号を復号し、得られた不連続検出結果を安定性処理部１２１に出力する（図２１のステップＳ４２）。

　安定性処理部１２１は、不連続検出結果に応じた安定性処理を行う（図２１のステップＳ４３）。安定性処理部の処理手順は、第１実施形態及び第３実施形態と同様の方法を用いることができる。

　なお、安定性処理部１２１は、不連続判定符号から得られた不連続検出結果に加えて、音声符号に含まれている他のパラメータも基礎として、以下のように安定性処理を行ってもよい。例えば、安定性処理部１２１は、ISF安定度stabを次式に従い算出し、ISF安定度が閾値を越える場合には、たとえ不連続判定符号から不連続が検出された旨の不連続検出結果が得られていても、不連続が検出されていないかのように安定性処理を行う構成にしてもよい。ここで、Cは事前に定めた定数である。

　LP係数算出部１２２内のISF-ISP変換部１２２Ａは、第１実施形態と同様の処理手順によりISFパラメータをISPパラメータに変換する（図２１のステップＳ４４）。

　ISP補間部１２２Ｂは、第１実施形態と同様の処理手順によりサブフレーム毎のISPパラメータを算出する（図２１のステップＳ４５）。

　ISP-LPC変換部１２２Ｃは、第１実施形態と同様の処理手順により、サブフレーム毎に算出したISPパラメータをLPCパラメータに変換する（図２１のステップＳ４６）。

　以上のような第４実施形態では、符号化側において、不連続判定（一例として、隠蔽ISFパラメータと量子化ISFパラメータ同士のユークリッド距離を用いた不連続判定）を行い、その判定結果に関する補助情報を符号化して復号側へ出力し、復号側において、復号して得られた補助情報を用いて不連続性の推定を行う。このように符号化側と復号側とで連携しながら、符号化側での不連続判定結果に応じた適切な処理を実行することができる。

　［第５実施形態］
　（符号化側について）
　符号化器の機能構成は、第４実施形態に係る図１６の機能構成と同じであり、符号化器の処理フローは、第４実施形態に係る図１７の処理フローと同じである。ここでは、第４実施形態とは異なる第５実施形態におけるLP分析・符号化部について述べる。

　図２２にLP分析・符号化部の機能構成例を、図２３にLP分析・符号化部の処理フローを示す。図２２に示すように、LP分析・符号化部２１Ｓは、LP分析部２１０、LP-ISF変換部２１１、ISF符号化部２１２、不連続判定部２１３、ISF隠蔽部２１４、ISF-LP変換部２１５、及びISFバッファ２１６を備える。

　このようなLP分析・符号化部２１Ｓにおいて、LP分析部２１０は、第４実施形態と同様の処理により、入力信号に対して線形予測分析を行い、線形予測係数を求める（図２３のステップＵ５１）。

　LP-ISF変換部２１１は、第４実施形態と同様の処理により、算出した線形予測係数をISFパラメータに変換する（図２３のステップＵ５２）。線形予測係数からISFパラメータへの変換には、非特許文献に記載の方法を用いてもよい。

　ISF符号化部２１２は、不連続判定部２１３の内部バッファ（不図示）に格納された不連続判定フラグを読み出す（図２３のステップＵ５３）。

　＜不連続判定フラグが不連続の検出を表す場合＞
　ISF符号化部２１２は、次式で算出されるISF残差パラメータr_iをベクトル量子化してISF符号を算出する（図２３のステップＵ５４）。ここで、LP-ISF変換部で算出したISFパラメータをω_i、事前に学習で求めた平均ベクトルをmean_iとした。

　次に、ISF符号化部２１２は、ISF残差パラメータr_iを量子化して得られた量子化ISF残差パラメータ

を用いてISF残差パラメータバッファを次式に従い更新する（図２３のステップＵ５５）。

　＜不連続判定フラグが不連続の検出を表さない場合＞
　ISF符号化部２１２は、次式で算出されるISF残差パラメータr_iをベクトル量子化してISF符号を算出する（図２３のステップＵ５４）。ここで、直前のフレームで復号により得られたISF残差パラメータを

とした。

を用いて、ISF残差パラメータバッファを次式に従い更新する（図２３のステップＵ５５）。

　以上の手順により、ISF符号化部２１２は、ISF符号を算出し、符号化の過程で得られる量子化ISFパラメータを、不連続判定部２１３、ISF隠蔽部２１４及びISF-LP変換部２１５に出力する。

　ISF隠蔽部２１４は、第４実施形態と同様、デコーダ側のISF隠蔽部と同様の処理により、量子化ISFパラメータから隠蔽ISFパラメータを算出して、ISFバッファ２１６に出力する（図２３のステップＵ５６、Ｕ５８）。ISF隠蔽処理の処理手順は、デコーダ側のパケットロス隠蔽部と同じ処理であれば、どんな方法でもよい。

　不連続判定部２１３は、第４実施形態と同様の処理により、不連続の判定を行い、判定結果を不連続判定部２１３の内部バッファ（不図示）に格納する（図２３のステップＵ５７）。

　ISF-LP変換部２１５は、第４実施形態と同様にして、上記量子化ISFパラメータを変換して、量子化線形予測係数を算出し、残差符号化部２２（図１６）へ出力する（図２３のステップＵ５８）。

　（復号側について）
　第５実施形態における音声信号処理装置は、前述した図１の音声復号器１と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。図２４には音声符号復号部１２Ｅの機能構成例を、図２５にはLP係数の算出処理のフローを、それぞれ示す。図２４の音声符号復号部１２Ｅは、前述した図３の構成に対し、不連続検出部１２９が追加されている。

　不連続検出部１２９は、不連続判定符号を復号し、得られた不連続判定フラグをISF復号部１２０へ出力する（図２５のステップＳ５１）。

　ISF復号部１２０は、不連続判定フラグの値に応じて、次の通りISFパラメータを算出し、ISFパラメータを安定性処理部１２１及び内部状態バッファ１４に出力する（図２５のステップＳ５２）。

　＜不連続判定フラグが不連続の検出を表す場合＞
　ISF復号部１２０は、ISF符号を復号して得られる量子化ISF残差パラメータを

、事前に学習で求めた平均ベクトルをmean_iとして、次式に従い量子化ISFパラメータ

を求める。

　次に、ISF復号部１２０は、内部状態バッファ１４に記憶されたISF残差パラメータを次式に従い更新する。

　＜不連続判定フラグが不連続の検出を表さない場合＞
　ISF復号部１２０は、直前のフレームで復号により得られたISF残差パラメータ

を内部状態バッファ１４から読み出し、
得られたISF残差パラメータ

、事前に学習で求めた平均ベクトルmean_i、及びISF符号を復号して得られる量子化ISF残差パラメータ

から、次式に従い量子化ISFパラメータ

を求める。

　安定性処理部１２１は、第１実施形態で述べた不連続が検出されない場合と同様の処理を行う（図２５のステップＳ５３）。

　LP係数算出部１２２内のISF-ISP変換部１２２Ａは、第１実施形態と同様の処理手順によりISFパラメータをISPパラメータに変換する（図２５のステップＳ５４）。

　ISP補間部１２２Ｂは、第１実施形態と同様の処理手順によりサブフレーム毎のISPパラメータを算出する（図２５のステップＳ５５）。

　ISP-LPC変換部１２２Ｃは、第１実施形態と同様の処理手順により、サブフレーム毎に算出したISPパラメータをLPCパラメータに変換する（図２５のステップＳ５６）。

　以上のような第５実施形態では、符号化側において、不連続判定フラグが不連続の検出を表さない場合に、直前のフレームで復号により得られたISF残差パラメータを使用してISF残差パラメータのベクトル量子化を行い、一方、不連続判定フラグが不連続の検出を表す場合には、直前のフレームで復号により得られたISF残差パラメータの使用を回避する。同様に、復号側において、不連続判定フラグが不連続の検出を表さない場合に、直前のフレームで復号により得られたISF残差パラメータを使用して量子化ISFパラメータを算出し、一方、不連続判定フラグが不連続の検出を表す場合には、直前のフレームで復号により得られたISF残差パラメータの使用を回避する。このように符号化側と復号側とで連携しながら、不連続判定結果に応じた適切な処理を実行することができる。

　［第６実施形態］
　上記第１～第５実施形態は組み合わせてもよい。例えば、第４実施形態に記載のとおり、復号側において、符号化側からの音声符号に含まれる不連続判定符号を復号して不連続を検出し、不連続が検出された場合に、以下のとおり実施してもよい。

　内部状態バッファに記憶されたISFパラメータ

については、第３実施形態に記載のとおり、低次P’次元（0＜P’≦P）までのISFパラメータを次式により置き換える。

　一方、現フレームのISFパラメータについては、第５実施形態に記載のとおり、次式に従って算出する。

　以降、上記により求められたISFパラメータを用いて、第１実施形態と同様に、ISF-ISP変換部１２２Ａ、ISP補間部１２２Ｂ、ISP-LPC変換部１２２Ｃの処理によりLP係数を求める。

　上記のように第１～第５実施形態を任意に組み合わせた態様も有効である。

　［第７実施形態］
　上記第１～第６実施形態及び変形例において、復号側におけるフレームロスの状況（例えば、単一フレームロスか連続フレームロスかといった状況）を加味してもよい。なお、第７実施形態では、不連続検出については、例えば音声符号に含まれる不連続判定符号を復号した結果を用いて不連続検出すればよく、その方法は上記に限定されない。

　第７実施形態における音声信号処理装置は、前述した図１の音声復号器１と同様の構成を備え、音声符号復号部に特徴があるため、以下、音声符号復号部について説明する。

　図２６には第７実施形態に係る音声復号器１Ｓの構成例を、図２７には音声復号器における処理のフロー図を、それぞれ示す。図２６に示すように、音声復号器１Ｓは、前述した音声符号復号部１２Ｇ、隠蔽信号生成部１３、及び内部状態バッファ１４に加え、過去数フレームにおけるパケット受信状態を判定しパケットロス履歴を記憶する受信状態判定部１６を備える。

　受信状態判定部１６は、パケット受信状態を判定し、判定結果に基づきパケットロス履歴情報を更新する（図２７のステップＳ５０）。

　パケットロスが検出された場合（ステップＳ１００でＮＯの場合）、受信状態判定部１６は、当該フレームのパケットロス検出結果を隠蔽信号生成部１３に出力し、隠蔽信号生成部１３は前述した隠蔽信号の生成及び内部状態の更新を行う（ステップＳ３００、Ｓ４００）。なお、隠蔽信号生成部１３も、パケットロス履歴情報をパラメータの補間等に利用してもよい。

　一方、パケットロスが検出されなかった場合（ステップＳ１００でＹＥＳの場合）、受信状態判定部１６は、当該フレームのパケットロス検出結果を含むパケットロス履歴情報と、受信パケットに含まれる音声符号とを、音声符号復号部１２に出力し、音声符号復号部１２は前述した音声符号の復号及び内部状態の更新を行う（ステップＳ２００、Ｓ４００）。

　以後、ステップＳ５０～Ｓ４００の処理は通信終了まで（ステップＳ５００でＹＥＳと判断されるまで）繰り返される。

　図２８には、音声符号復号部１２Ｇの機能構成例を、図２９には、LP係数の算出処理のフロー図を示す。ここでは、パケットロス履歴情報をLP係数算出部１２２にのみ用いる例について述べるが、他の構成要素にパケットロス履歴情報を入力して用いる構成としてもよい。

　音声符号復号部１２Ｇでは、LP係数の算出処理に係る構成以外の構成については、第１実施形態と同様であるので、以下、LP係数の算出処理に係る構成及び動作について述べる。

　ISF復号部１２０は、第１実施形態と同様にしてISF符号を復号してISFパラメータを安定性処理部１２１へ出力する（図２９のステップＳ７１）。

　不連続検出部１２９は、パケットロス履歴情報を参照して受信状態を判定する（ステップＳ７２）。不連続検出部１２９は、例えば、３フレーム前はパケットロス、２フレーム前は正常受信、１フレーム前はパケットロス、といったような特定の受信パターンを予め記憶しておき、該当する受信パターンが現れた場合に、受信状態フラグをオフにし、それ以外の場合は受信状態フラグをオンにするよう設計してもよい。

　また、不連続検出部１２９は、前述した第１～第６実施形態のいずれかの方法と同様に、不連続検出を行う。

　そして、安定性処理部１２１は、例えば以下のように、受信状態フラグおよび不連続検出の結果に応じて安定性処理を行う（ステップＳ７３）。

　受信状態フラグがオフの場合、安定性処理部１２１は、不連続検出の結果の如何を問わず、不連続が検出されなかった場合と同様の処理を行う。

　一方、受信状態フラグがオンで且つ不連続検出の結果、不連続が検出されなかった場合、安定性処理部１２１は、不連続が検出されなかった場合と同様の処理を行う。

　さらに、受信状態フラグがオンで且つ不連続検出の結果、不連続が検出された場合、安定性処理部１２１は、不連続が検出された場合と同様の処理を行う。

　以後、LP係数算出部１２２内のISF-ISP変換部１２２Ａ、ISP補間部１２２Ｂ、及びISP-LPC変換部１２２Ｃの動作（ステップＳ７４～Ｓ７６）は、第１実施形態と同様である。

　以上のような第７実施形態では、不連続検出の結果と受信状態フラグの状態とに応じた安定性処理を行うことで、フレームロスの状況（例えば、単一フレームロスか連続フレームロスかといった状況）を加味した、より精度の良い処理を実行できる。

　［音声信号処理プログラムについて］
　以下、コンピュータを、本発明に係る音声信号処理装置として動作させる音声信号処理プログラムについて説明する。

　図３２は、音声信号処理プログラムのさまざまな構成例を示す図である。図３０は、コンピュータのハードウェア構成例を示す図であり、図３１は、コンピュータの外観図である。図３２（ａ）～（ｄ）にそれぞれ示す音声信号処理プログラムＰ１～Ｐ４（以下「音声信号処理プログラムＰ」と総称する）は、図３１および図３２に示すコンピュータＣ１０を音声信号処理装置として動作させることができる。なお、本明細書にて説明する音声信号処理プログラムＰは、図３１および図３２に示すようなコンピュータに限定されず、携帯電話、携帯情報端末、携帯型パーソナルコンピュータといった任意の情報処理装置を、当該音声信号処理プログラムＰに従って動作させることができる。

　音声信号処理プログラムＰは、記録媒体Ｍに格納されて提供され得る。なお、記録媒体Ｍとしては、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ、あるいはＲＯＭ等の記録媒体、あるいは半導体メモリ等が例示される。

　図３０に示すように、コンピュータＣ１０は、フレキシブルディスクドライブ装置、ＣＤ－ＲＯＭドライブ装置、ＤＶＤドライブ装置等の読み取り装置Ｃ１２と、作業用メモリ（ＲＡＭ）Ｃ１４と、記録媒体Ｍに記憶されたプログラムを記憶するメモリＣ１６と、ディスプレイＣ１８と、入力装置であるマウスＣ２０及びキーボードＣ２２と、データ等の送受信を行うための通信装置Ｃ２４と、プログラムの実行を制御する中央演算部（ＣＰＵ）Ｃ２６とを備える。

　コンピュータＣ１０は、記録媒体Ｍが読み取り装置Ｃ１２に挿入されると、記録媒体Ｍに格納された音声信号処理プログラムＰに読み取り装置Ｃ１２からアクセス可能になり、音声信号処理プログラムＰによって音声信号処理装置として動作することが可能になる。

　音声信号処理プログラムＰは、図３１に示すように、搬送波に重畳されたコンピュータデータ信号Ｗとしてネットワークを介して提供されるものであってもよい。この場合、コンピュータＣ１０は、通信装置Ｃ２４によって受信した音声信号処理プログラムＰをメモリＣ１６に格納し、音声信号処理プログラムＰを実行することができる。

　音声信号処理プログラムＰは、図３２（ａ）～（ｄ）に示すさまざまな構成を採りうる。これらは、特許請求の範囲に記載した音声信号処理プログラムに係る請求項１８～２１の構成にそれぞれ対応する。例えば、図３２（ａ）に示す音声信号処理プログラムＰ１は、不連続推定モジュールＰ１１、および不連続修正モジュールＰ１２を備える。図３２（ｂ）に示す音声信号処理プログラムＰ２は、ISF/LSF量子化モジュールＰ２１、ISF/LSF隠蔽モジュールＰ２２、不連続推定モジュールＰ２３、および補助情報符号化モジュールＰ２４を備える。図３２（ｃ）に示す音声信号処理プログラムＰ３は、不連続推定モジュールＰ３１、補助情報符号化モジュールＰ３２、およびISF/LSF量子化モジュールＰ３３を備える。図３２（ｄ）に示す音声信号処理プログラムＰ４は、補助情報復号モジュールＰ４１、不連続修正モジュールＰ４２、およびISF/LSF復号モジュールＰ４３を備える。

　以上説明したさまざまな実施形態によって、音声開始時点でのパケットロスから復帰した際に起こりうる不連続音を低減し、主観品質を改善することができる。

　発明の１つ目の特徴である安定性処理部は、パケットロス後に最初に正常に受信したパケットにおいて不連続が検出された場合に、例えばISFパラメータの各要素間に与える間隔を通常よりも大きくとることで、LP係数の利得が大きくなりすぎることを防ぐことができる。LP係数の利得と励振信号のパワーがともに増加することを防ぐことができるので、合成信号の不連続を軽減し、主観品質劣化を低減する。また、安定性処理部は、LP係数等を利用して算出したゲインを合成信号に乗算することにより合成信号の不連続性を軽減してもよい。

　また、発明の２つ目の特徴である不連続検出器は、パケットロス後に最初に正常に受信したパケットに含まれる励振信号のゲインを監視し、励振信号のゲインにおいて一定以上増加が起こるパケットについて不連続性を推定する。

　１、１Ｓ、１Ｘ…音声復号器、１１…パケットロス検出部、１２、１２Ａ、１２Ｂ、１２Ｄ、１２Ｅ、１２Ｇ、１２Ｓ…音声符号復号部、１３、１３Ｘ…隠蔽信号生成部、１４…内部状態バッファ、１５…正規化予測残差パワー復号部、１６…受信状態判定部、２１、２１Ｓ…分析・符号化部、２２…残差符号化部、２３…符号多重化部、１２０…ISF復号部、１２１、１２１Ｓ…安定性処理部、１２１Ｘ…ゲイン調整部、１２１Ｙ…ゲイン乗算部、１２２…LP係数算出部、１２２Ａ…ISF-ISP変換部、１２２Ｂ…ISP補間部、１２２Ｃ…ISP-LPC変換部、１２３…適応符号帳算出部、１２４…固定符号帳復号部、１２５…ゲイン復号部、１２６…励振ベクトル合成部、１２７…ポストフィルタ、１２８…合成フィルタ、１２９…不連続検出部、１３０…LP係数補間部、１３１…ピッチラグ補間部、１３２…ゲイン補間部、１３３…雑音信号生成部、１３４…ポストフィルタ、１３５…合成フィルタ、１３６…適応符号帳算出部、１３７…励振ベクトル合成部、１３８…正規化予測残差調整部、２１０…LP分析部、２１１…LP-ISF変換部、２１２…ISF符号化部、２１３…不連続判定部、２１４…ISF隠蔽部、２１５…ISF-LP変換部、２１６…ISFバッファ、Ｃ１０…コンピュータ、Ｃ１２…読み取り装置、Ｃ１４…作業用メモリ、Ｃ１６…メモリ、Ｃ１８…ディスプレイ、Ｃ２０…マウス、Ｃ２２…キーボード、Ｃ２４…通信装置、Ｃ２６…ＣＰＵ、Ｍ…記録媒体、Ｐ１～Ｐ４…音声信号処理プログラム、Ｐ１１…不連続推定モジュール、Ｐ１２…不連続修正モジュール、Ｐ２１…ISF/LSF量子化モジュール、Ｐ２２…ISF/LSF隠蔽モジュール、Ｐ２３…不連続推定モジュール、Ｐ２４…補助情報符号化モジュール、Ｐ３１…不連続推定モジュール、Ｐ３２…補助情報符号化モジュール、Ｐ３３…ISF/LSF量子化モジュール、Ｐ４１…補助情報復号モジュール、Ｐ４２…不連続修正モジュール、Ｐ４３…ISF/LSF復号モジュール、Ｗ…コンピュータデータ信号。

Claims

　パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じる不連続性の推定を行う不連続推定器と、
　復号音声の不連続性を修正する不連続修正器と、
　を備える音声信号処理装置。
　前記不連続推定器は、前記復号音声の不連続性を、励振信号のパワーにより推定する、請求項１に記載の音声信号処理装置。
　前記不連続推定器は、前記復号音声の不連続性を、励振信号算出に用いる量子化された符号帳ゲインにより推定する、請求項１に記載の音声信号処理装置。
　前記音声信号処理装置は、符号化器より伝送された不連続性に関する補助情報を復号する補助情報復号器、をさらに備え、
　前記不連続推定器は、前記補助情報復号器が補助情報符号を復号して出力する不連続性に関する補助情報を用いて、前記復号音声の不連続性を推定する、
　請求項１に記載の音声信号処理装置。
　前記不連続修正器は、不連続性の推定結果に応じてISF/LSFパラメータを修正する、請求項１～４の何れか一項に記載の音声信号処理装置。
　前記不連続修正器は、合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔を、前記不連続性の推定結果に応じて変化させる、請求項５に記載の音声信号処理装置。
　前記不連続修正器は、前記合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔として、安定性保証のために通常与える間隔よりも大きな間隔を与える、請求項６に記載の音声信号処理装置。
　前記不連続修正器は、予め定めた次元までのISF/LSFパラメータを等分して得られる間隔を、前記合成フィルタの安定性保証のために与えるISF/LSFパラメータの各要素間の間隔として用いる、請求項６に記載の音声信号処理装置。
　前記不連続修正器は、予め定めたベクトルにより、ISF/LSFパラメータの一部もしくは全部を置き換える、請求項６に記載の音声信号処理装置。
　ISF/LSFパラメータを量子化するISF/LSF量子化器と、
　ISF/LSFパラメータに関する隠蔽情報である隠蔽ISF/LSFパラメータを生成するISF/LSF隠蔽器と、
　前記ISF/LSF量子化器の量子化過程で得られる量子化ISF/LSFパラメータと前記ISF/LSF隠蔽器が生成する隠蔽ISF/LSFパラメータとの距離を用いて、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定する不連続推定器と、
　不連続性に関する補助情報を符号化する補助情報符号化器と、
　を備える音声信号処理装置。
　パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定する不連続推定器と、
　不連続性に関する補助情報を符号化する補助情報符号化器と、
　前記不連続推定器が不連続性を推定しない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用い、前記不連続推定器が不連続性を推定した場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用いることを回避するISF/LSF量子化器と、
　を備える音声信号処理装置。
　パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性に関する補助情報を復号し出力する補助情報復号器と、
　復号音声の不連続性を修正する不連続修正器と、
　前記補助情報復号器の出力により不連続性を推定しない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用い、前記補助情報復号器の出力により不連続性を推定した場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用いることを回避するISF/LSF復号器と、
　を備える音声信号処理装置。
　前記音声信号処理装置は、過去の所定数のフレームのパケット受信状態を判定する受信状態判定部、をさらに備え、
　前記不連続修正器は、不連続性の推定結果に加え、前記パケット受信状態の判定結果も基礎として、不連続性の修正を行う、
　請求項１～９および１２の何れか一項に記載の音声信号処理装置。
　音声信号処理装置により実行される音声信号処理方法であって、
　パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じる不連続性の推定を行うステップと、
　復号音声の不連続性を修正するステップと、
　を備える音声信号処理方法。
　音声信号処理装置により実行される音声信号処理方法であって、
　ISF/LSFパラメータを量子化するステップと、
　ISF/LSFパラメータに関する隠蔽情報である隠蔽ISF/LSFパラメータを生成するステップと、
　前記ISF/LSFパラメータの量子化過程で得られる量子化ISF/LSFパラメータと生成された隠蔽ISF/LSFパラメータとの距離を用いて、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定するステップと、
　不連続性に関する補助情報を符号化するステップと、
　を備える音声信号処理方法。
　音声信号処理装置により実行される音声信号処理方法であって、
　パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定するステップと、
　不連続性に関する補助情報を符号化するステップと、
　不連続性が推定されない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用い、不連続性が推定された場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用いることを回避するステップと、
　を備える音声信号処理方法。
　音声信号処理装置により実行される音声信号処理方法であって、
　パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性に関する補助情報を復号し出力するステップと、
　復号音声の不連続性を修正するステップと、
　前記補助情報が不連続性の推定を示さない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用い、前記補助情報が不連続性の推定を示す場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用いることを回避するステップと、
　を備える音声信号処理方法。
　コンピュータを、
　パケットロスが起こった後に最初に正常に受信した音声パケットに対して、音声パケット復号の結果得られる復号音声の振幅が急激に大きくなることにより生じる不連続性の推定を行う不連続推定器と、
　復号音声の不連続性を修正する不連続修正器、
　として動作させるための音声信号処理プログラム。
　コンピュータを、
　ISF/LSFパラメータを量子化するISF/LSF量子化器と、
　ISF/LSFパラメータに関する隠蔽情報である隠蔽ISF/LSFパラメータを生成するISF/LSF隠蔽器と、
　前記ISF/LSF量子化器の量子化過程で得られる量子化ISF/LSFパラメータと前記ISF/LSF隠蔽器が生成する隠蔽ISF/LSFパラメータとの距離を用いて、パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定する不連続推定器と、
　不連続性に関する補助情報を符号化する補助情報符号化器、
　として動作させるための音声信号処理プログラム。
　コンピュータを、
　パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性を推定する不連続推定器と、
　不連続性に関する補助情報を符号化する補助情報符号化器と、
　前記不連続推定器が不連続性を推定しない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用い、前記不連続推定器が不連続性を推定した場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF量子化に用いることを回避するISF/LSF量子化器、
　として動作させるための音声信号処理プログラム。
　コンピュータを、
　パケットロスが起こった後に最初に正常に受信した音声パケットに生じる不連続性に関する補助情報を復号し出力する補助情報復号器と、
　復号音声の不連続性を修正する不連続修正器と、
　前記補助情報復号器の出力により不連続性を推定しない場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用い、前記補助情報復号器の出力により不連続性を推定した場合は、過去の量子化ISF/LSF残差パラメータを当該フレームにおけるISF/LSF算出に用いることを回避するISF/LSF復号器、
　として動作させるための音声信号処理プログラム。