WO2002035522A1

WO2002035522A1 - Procede et appareil de codage vocal

Info

Publication number: WO2002035522A1
Application number: PCT/JP2001/003240
Authority: WO
Inventors: Hirohisa Tasaki
Original assignee: Mitsubishi Denki Kabushiki Kaisha
Priority date: 2000-10-26
Filing date: 2001-04-16
Publication date: 2002-05-02
Also published as: EP1339042A4; CN1483188A; JP2002132299A; EP1339042A1; IL155243A0; EP1339042B1; JP3426207B2; US7203641B2; US20040111256A1; CN1222926C; TW517223B; DE60141646D1

Description

明細書音声符号化方法および装置技術分野

この発明は、ディジ夕ル音声信号を少ない情報量に圧縮する音声符号化方法および装置に関するもので、特に、音声符号化方法および装置における駆動べクトルの探索に関する。背景技術

従来、多くの音声符号化方法および装置では、入力音声をスペクトル包絡情報と音源に分けて、フレーム単位で各々を符号化して音声符号を生成している。最も代表的な音声符号化方法および装置としては、文献 1 (ITU-T Recoinendat ion G.729, "CODING OF SPEECH AT 8 kbit/s USING CONJUGATE -ST画 CT籠 AL GEBRAIC-CODE-EXCITED LINEAR-PREDICTION (CS-ACELP) "， 1996年 3月）等に開示されている、符号駆動線形予測符号化 (Code-Excited Linear Prediction： C E L P ) 方式を用いたものがある。

図 8は、文献 1に開示されている従来の C E L P系音声符号化装置の全体構成を示すプロック図である。

図において、 1は入力音声、 2は線形予測分析手段、 3は線形予測係数符号化手段、 4は適応音源符号手段、 5は駆動音源符号化部、 6はゲイン符号化手段、 7は多重化手段、 8は音声符号である。

この従来の音声符号化装置では、 1 0 m sを 1フレームとして、フレーム単位で処理を行う。音源の符号化については、 1フレームを 2分割したサブフレーム毎に処理を行う。なお、説明を分かりやすくするために、以降の説明では、フレームとサブフレームを特に区別せず、単にフレームと記す。

以下、この従来の音声符号化装置の動作について説明する。まず、入力音声 1 が線形予測分析手段 2と適応音源符号化手段 4及びゲイン符号化手段 6に入力される。線形予測分析手段 2は、入力音声 1を分析し、音声のスペクトル包絡情報である線形予測係数を抽出する。線形予測係数符号化手段 3は、この線形予測係数を符号化し、その符号を多重化手段 7に出力すると共に、音源の符号化のために量子化された線形予測係数を出力する。

適応音源符号化手段 4は、過去の所定長の音源（信号）を適応音源符号帳として記憶しており、内部で発生させた数ビットの 2進数値で示した各適応音源符号に対応して、過去の音源を周期的に繰り返した時系列べクトル（適応べクトル）を生成する。次に、線形予測係数符号化手段 3から出力された量子化された線形予測係数を用いた合成フィル夕に通すことにより、仮の合成音を得る。この仮の合成音に適切なゲインを乗じた信号と、入力音声 1との間の歪を調べ、この歪を最小とする適応音源符号を選択して多重化手段 7に出力すると共に、選択された適応音源符号に対応する時系列ぺクトルを適応音源として、駆動音源符号化部 5 とゲイン符号化手段 6に出力する。また、入力音声 1から適応音源による合成音に適切なゲインを乗じた信号を差し引いた信号を、符号化対象信号として駆動音源符号化部 5に出力する。

駆動音源符号化部 5は、まず、内部で発生させた 2進数値で示した各駆動音源符号に対応して、内部に格納してある駆動音源符号帳から時系列ベクトル（駆動ベクトル）を順次読み出す。次に、線形予測係数符号化手段 3から出力された量子化された線形予測係数を用いた合成フィル夕に通すことにより、仮の合成音を得る。この仮の合成音に適切なゲインを乗じた信号と、入力音声 1から適応音源による合成音を差し引いた信号である符号化対象信号との歪を調べ、この歪を最小とする駆動音源符号を選択して多重化手段 7に出力すると共に、選択された駆動音源符号に対応する時系列べクトルを駆動音源として、ゲイン符号化手段 6に出力する。

ゲイン符号化手段 6は、まず、内部で発生させた 2進数値で示した各ゲイン符号に対応して、内部に格納してあるゲイン符号帳からゲインべクトルを順次読み出す。そして、各ゲインベクトルの各要素を、適応音源符号化手段 4から出力された適応音源と駆動音源符号化部 5から出力された駆動音源に乗じて加算して音源を生成し、生成したこの音源を線形予測係数符号化手段 3から出力された量子化された線形予測係数を用いた合成フィル夕に通すことで、仮の合成音を得る。この仮の合成音と入力音声 1との歪を調べ、この歪を最小とするゲイン符号を選択して多重化手段 7に出力する。また、このゲイン符号に対応する上記生成された音源を適応音源符号化手段 4に出力する。

最後に、適応音源符号化手段 4は、ゲイン符号化手段 6により生成されたゲイン符号に対応する音源を用いて、内部の適応音源符号帳の更新を行う。

多重化手段 7は、線形予測係数符号化手段 3から出力された線形予測係数の符号と、適応音源符号化手段 4から出力された適応音源符号と、駆動音源符号化部 5から出力された駆動音源符号と、ゲイン符号化手段 6から出力されたゲイン符号を多重化し、得られた音声符号 8を出力する。

図 9は、文献 1などに開示されている従来の C E L P系音声符号化装置の駆動音源符号化部 5の詳細構成を示すプロック図である。

図 9において、 9は適応べクトル生成手段、 1 0と 1 4は合成フィル夕、 1 1 は減算手段、 1 2は符号化対象信号、 1 3は駆動ベクトル生成手段、 1 5は歪算出部、 2 0は探索手段、 2 1は駆動音源符号、 2 2は駆動音源である。歪算出部 1 5は、聴覚重み付けフィル夕 1 6、聴覚重み付けフィル夕 1 7、減算手段 1 8 、パワー算出手段 1 9によって構成されている。なお、適応ベクトル生成手段 9 、合成フィル夕 1 0、減算手段 1 1は、適応音源符号化手段 4内に含まれているものであるが、内容を分かりやすくするために合わせて記載している。

まず、適応音源符号化手段 4内の適応ベクトル生成手段 9が、前記した適応音源符号に対応した時系列べクトルを、適応音源として合成フィル夕 1 0に出力する。

適応音源符号化手段 4内の合成フィル夕 1 0は、図 8の線形予測係数符号化手段 3から出力された量子化された線形予測係数がフィル夕係数として設定されており、適応べクトル生成手段 9から出力された適応音源に対する合成フィルタリングを行い、得られた合成音を減算手段 1 1に出力する。

適応音源符号化手段 4内の減算手段 1 1は、合成フィル夕 1 0より出力された合成音と入力音声 1の差信号を求め、得られた差信号を駆動音源符号化部 5における符号化対象信号 1 2として出力する。

一方、探索手段 2 0は、 2進数値で示した各駆動音源符号を順次発生させ、順番に駆動べクトル生成手段 1 3に出力する。

駆動べクトル生成手段 1 3は、探索手段 2 0から出力された駆動音源符号に応じて、内部に格納してある駆動音源符号帳から時系列ベクトルを読み出し、駆動ベクトルとして合成フィル夕 1 4に出力する。なお、駆動音源符号帳としては、予め用意した雑音べクトルを格納したものや、代数的にパルス位置と極性の組み合わせによって記述した代数的音源符号帳などがある。また、 2つ以上の符号帳の加算形式や、適応音源の繰返し周期も用いたピッチ周期化を内包したものもあ ο

合成フィル夕 1 4は、線形予測係数符号化手段 3から出力された量子化された線形予測係数がフィル夕係数として設定されており、駆動べクトル生成手段 1 3 から出力された駆動べクトルに対して合成フィル夕リングを行い、得られた合成音を、歪算出部 1 5に対して出力する。

歪算出部 1 5内の聴覚重み付けフィル夕 1 6は、線形予測係数符号化手段 3から出力された量子化された線形予測係数に基づいて聴覚重み付けフィル夕係数を算出し、これをフィル夕係数に設定して、適応音源符号化手段 4内の減算手段 1 1から出力された符号化対象信号 1 2に対するフィル夕リングを行い、得られた信号を減算手段 1 8に出力する。

歪算出部 1 5内の聴覚重み付けフィル夕 1 7は、聴覚重み付けフィル夕 1 6と同じフィル夕係数に設定して、合成フィル夕 1 4から出力された合成音に対するフィル夕リングを行い、得られた信号を減算手段 1 8に出力する。

歪算出部 1 5内の減算手段 1 8は、聴覚重み付けフィル夕 1 6から出力した信号と、聴覚重み付けフィル夕 1 7から出力した信号に適切なゲインを乗じた信号の差信号を求め、この差信号をパヮ一算出手段 1 9に出力する。

歪算出部 1 5内のパワー算出手段 1 9は、減算手段 1 8から出力された差信号の総パワーを求め、これを探索用評価値として探索手段 2 0に出力する。

探索手段 2 0は、歪算出部 1 5内のパワー算出手段 1 9より出力された探索用評価値を最小にする駆動音源符号を探索し、探索用評価値を最小にする駆動音源符号を駆動音源符号 2 1として出力する。また、駆動べクトル生成手段 1 3は、この駆動音源符号 2 1を入力されたときに出力した駆動べクトルを駆動音源 2 2 として出力する。

なお、減算手段 18で乗じるゲインについては、探索用評価値を最小にするように偏微分方程式を解くことによって一意に決定される。実際の歪算出部 15の内部構成に付いては、演算量を削減するために各種変形方法が報告されている。また、特開平 7— 271397号公報には、歪算出部の演算量を削減する幾つかの方法が開示されている。以下、特開平 7— 271397号公報に開示されている歪算出部の方法について説明する。

駆動べクトルを合成フィル夕 14に通して得られた合成音を Yi、入力音声を R (図 9における符号化対象信号 12に相当）とした時、 2つの信号の間の波形歪として定義される探索用評価値は、式（1) となる。

これは、図 9で説明した探索用評価値算出において、聴覚重み付けフィル夕を導入しなかった場合に一致する。ひが減算手段 18で乗じるゲインであり、式（ 1) を aで偏微分した式をゼロとするひを求め、これを式（1) に代入すると、式（2) となる。

式（2) の第一項は駆動ベクトルによらない定数なので、探索用評価値 Εを最小化することは、式（2)の第二項を最大化することに等しい。そこで、式（2 ) の第二項をそのまま探索用評価値として用いる場合が多い。

この式（2) の第二項の演算には多くの演算量を要するため、特開平 7— 27 1397号公報では、簡略化した探索用評価値を用いた予備選択を行い、予備選択された駆動ベクトルについてのみ式（2) の第二項を計算して本選択することで演算量の削減を図っている。予備選択で用いる簡略化した探索用評価値としては、式（3) 〜（5) などを用いている。

^E'D ² (3)

ここで、 Y iは駆動ベクトル、 Cは符号帳に格納された駆動ベクトル群であり、これらによって定義される重み係数 Wを式（3 ) に乗じた値を予備選択における探索用評価値とすることで、式（3 ) を用いる場合よりも式（4 ) または式（ 5 ) を用いる場合の方が予備選択の精度が高くなると報告されている。

予備選択時の簡易化した探索用評価値である式（3 ) 、式（4 ) 、式（5 ) と、本選択時の探索用評価値である式（2 ) の第二項を比較すると、駆動ベクトル群 Cまたは駆動べクトル yiに基づく重み係数の乗算と、駆動ぺクトルの合成音 Y iのパワーによる除算部分の違いだけである。式（3 ) 、式（4 ) 、式（5 ) は何れも、式（2 ) の第二項を近似するものであり、式（1 ) に示した 2つの信号間の波形歪を評価していることにかわりがない。

しかしながら、上述した従来の音声符号化方法及び装置では、以下に述べる課題がある。

駆動音源符号に用いることができる情報量が少ない場合、つまり駆動べクトルの数が少なくなつてくると、式（ 1 ) 乃至式（5 ) で説明した波形歪を最小にする駆動音源符号を選択しても、この駆動音源符号を含む音声符号を復号して得られる復号音において、音質劣化を招く場合がある。

図 1 0は、音質劣化を引き起こす 1つのケースについて説明する説明図である。図 1 0中、（ a ) が符号化対象信号、（ c ) が駆動べクトル、（ b ) が（ c ) に示した駆動べクトルを合成フィル夕に通して得られる合成音である。何れも符号化対象フレーム内の信号を示している。この例では、駆動ベクトルとして、ノ ^ ルス位置と極性を代数的に表現した代数的音源を用いている。

図 1 0の場合、フレームの後半では（a ) と（b ) の類似度は高く、比較的良好に表現されているが、フレームの前半では（b ) の振幅が 0となっていて、全く（a ) を表現できていない。音声の立ちあがり部分など適応音源へのゲインが大きく取れない場合には、図 1 0のようにフレームの一部の符号化特性が極端に悪い部分が、復号音において局所的異音として聞こえてしまうことが多い。

つまり、フレーム全体での波形歪を最小にする駆動音源符号を選択する従来法では、図 1 0のようにフレーム内の一部に極端に符号化特性が悪い部分があっても選択してしまい、復号音の品質劣化を招いてしまう課題がある。なお、この課題は、特開平 7— 2 7 1 3 9 7号公報に開示されているような簡易化した探索用評価値を用いても解消しない。

この発明は、かかる課題を解決するためになされたものであり、復号音の局所的な異音発生の少ない高品質な音声符号化方法および装置を提供することを目的としている。また、演算量の増加を最小限に抑えつつ、高品質の音声符号化方法および装置を提供することを目的としている。発明の開示

上記目的を達成するために、この発明に係る音声符号化方法は、入力音声をフレームと呼ばれる所定長区間毎に符号化する音声符号化方法において、複数の駆動べクトルを生成する駆動べクトル生成工程と、各駆動べクトル毎に、入力音声から求まる符号化対象信号と駆動べクトルから求まる合成べクトルの間に定義される波形に関する歪を第一の歪として算出する第一の歪算出工程と、各駆動べクトル毎に、前記符号化対象信号と駆動べクトルから求まる合成ぺクトルの間に定義される第一の歪と異なる第二の歪を算出する第二の歪算出工程と、各駆動ぺクトル毎に、前記第一の歪と第二の歪を用いて所定の探索用評価値を算出する評価値算出工程と、探索用評価値を最小にする駆動ベクトルを選択し、選択した駆動べクトルに予め対応付けられている符号を出力する探索工程とを備えたものである。

また、前記第一の歪算出工程が算出した第一の歪が小さい 2つ以上の駆動べクトルを選択する予備選択工程を備え、前記第二の歪算出工程、評価値算出工程、探索工程の対象を、予備選択工程が選択した駆動べクトルに限定するようにしたことを特徴とするものである。

また、互いに異なる駆動べクトルを生成する駆動べクトル生成工程を複数備えると共に、各駆動ベクトル生成工程毎に、前記第一の歪算出工程が算出した第一の歪が小さい 1つ以上の駆動べクトルを選択する予備選択工程を備え、前記第二の歪算出工程、評価値算出工程、探索工程の対象を、予備選択工程が選択した駆動べクトルに限定するようにしたことを特徴とするものである。

また、前記第一の歪算出工程は、入力音声から求まる符号化対象信号を聴覚重み付けフィル夕に通した信号と、駆動べクトルから求まる合成べクトルを聴覚重み付けフィル夕に通した信号との、サンプル毎の誤差パヮ一をフレーム内で加算した結果を第一の歪とすることを特徴とするものである。

また、前記第二の歪算出工程は、フレーム内の時間方向の振幅またはパワーの偏りに関する歪を第二の歪とすることを特徴とするものである。

また、前記第二の歪算出工程は、フレーム内の符号化対象信号の振幅またはパヮ一の重心位置を求めると共に、フレーム内の合成べクトルの振幅またはパヮ一の重心位置を求め、求まった 2つの重心位置の差を第二の歪とすることを特徴とするものである。

また、前記評価値算出工程は、第二の歪に応じて第一の歪を補正することで探索用評価値を算出するようにしたことを特徴とするものである。

また、前記評価値算出工程は、第一の歪と第二の歪の重み付き和によって探索用評価値を算出するようにしたことを特徴とするものである。

また、前記評価値算出工程は、入力音声から算出した所定のパラメ一夕に応じて探索用評価値を算出する処理を変更するようにしたことを特徴とするものである。

また、駆動ぺクトル以外の音源べクトルから求まる合成べクトルのエネルギーと入力音声のエネルギーの比率を求め、これを他音源寄与度とする寄与度算出ェ程を備え、算出した他音源寄与度を前記評価値算出工程における所定パラメ一夕としたことを特徴とするものである。

また、前記評価値算出工程は、どの駆動ベクトル生成工程から出力された駆動べクトルであるかによって、探索用評価値を算出する処理を変更するようにしたことを特徴とするものである。

また、前記評価値算出工程は、探索用評価値を算出する処理の 1つとして、第一の歪をそのまま探索用評価値とする処理を含むようにしたことを特徴とするものである。

また、この発明に係る音声符号化装置は、入力音声をフレームと呼ばれる所定長区間毎に符号化する音声符号化装置において、複数の駆動べクトルを生成する駆動ベクトル生成手段と、各駆動ベクトル毎に、入力音声から求まる符号化対象信号と駆動べクトルから求まる合成べクトルの間に定義される波形に関する歪を第一の歪として算出する第一の歪算出手段と、各駆動ベクトル毎に、前記符号化対象信号と駆動べクトルから求まる合成べクトルの間に定義される第一の歪と異なる第二の歪を算出する第二の歪算出手段と、各駆動ベクトル毎に、前記第一の歪と第二の歪を用いて所定の探索用評価値を算出する評価値算出手段と、探索用評価値を最小にする駆動べクトルを選択し、選択した駆動べクトルに予め対応付けられている符号を出力する探索手段とを備えたことを特徴とするものである。また、前記第一の歪算出手段は、入力音声から求まる符号化対象信号を聴覚重み付けフィル夕に通した信号と、駆動ぺクトルから求まる合成べクトルを聴覚重み付けフィル夕に通した信号との、サンプル毎の誤差パヮ一をフレ一ム内で加算した結果を第一の歪とすることを特徴とするものである。

また、前記第二の歪算出手段は、フレーム内の時間方向の振幅またはパワーの偏りに関する歪を第二の歪とすることを特徴とするものである。

また、前記評価値算出手段は、第二の歪に応じて第一の歪を補正することで探索用評価値を算出するようにしたことを特徴とするものである。

さらに、前記評価値算出手段は、入力音声から算出した所定のパラメ一夕に応じて探索用評価値を算出する処理を変更するようにしたことを特徴とするものであ■© 図面の簡単な説明

図 1は、この発明による音声符号化方法を適用した音声符号化装置における実施の形態 1に係る駆動音源符号化部 5の詳細構成を示すプロック図、

図 2は、この発明の実施の形態 1に係る探索用評価値算出部 2 9の構成を示す構成図、

図 3は、この発明の実施の形態 1に係る第二の歪算出部 2 4の動作を説明する説明図、

図 4は、この発明の実施の形態 2に係る探索用評価値算出部 2 9の構成を示す構成図、

図 5は、この発明による音声符号化方法を適用した音声符号化装置における実施の形態 3に係る駆動音源符号化部 5の詳細構成を示すプロック図、

図 6は、この発明による音声符号化方法を適用した音声符号化装置における実施の形態 4に係る駆動音源符号化部 5の詳細構成を示すプロック図、

図 7は、この発明の実施の形態 4に係る探索用評価値算出部 2 9の構成を示す構成図、

図 8は、文献 ( ITU-T Recomendation G.729, "CODING OF SPEECH AT 8 kbit /s USING CONJUGATE -STURUCTURE ALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION (CS-ACELP) "， 1996年 3月）に開示されている C E L P系音声符号化装置の全体構成を示すブロック図、

図 9は、上記文献 1などに開示されている C E L P系音声符号化装置の駆動音源符号化部 5の詳細構成を示すプロック図、

図 1 0は、音質劣化を引き起こす 1つのケースに係る説明図である。発明を実施するための最良の形態

以下、図面を参照しながら、この発明の各実施の形態について説明する。実施の形態 1 .

図 1は、この発明による音声符号化方法を適用した音声符号化装置における実施の形態 1に係る駆動音源符号化部 5の詳細構成を示すプロック図である。この実施の形態 1における音声符号化装置の全体構成は図 8に示す構成と同様であるが、駆動音源符号化部 5に入力音声 1の入力を追加したものとなっている ο

図 1において、図 9に示す従来例の駆動音源符号化部 5の構成と同一部分は同一符号を付してその説明は省略する。新たな符号として、 2 3は、聴覚重み付けフィル夕 1 6と 1 7、減算手段 1 8及びパワー算出手段 1 9によって構成される第一の歪算出部、 2 4は、重心算出手段 2 5と 2 6及び減算手段 2 7によって構成される第二の歪算出部、 2 8は適応音源寄与度算出手段、 2 9は探索用評価値算出部である。なお、適応ベクトル生成手段 9、合成フィル夕 1 0、減算手段 1

1は、図 8に示す適応音源符号化手段 4内に含まれているものであるが、内容を分かりやすくするために合わせて記載している。以下、本実施の形態 1に係る駆動音源符号化部 5の動作を説明する。

まず、適応音源符号化手段 4内の適応ベクトル生成手段 9が、前記した適応音源符号に対応した時系列ぺクトルを、適応音源として合成フィル夕 1 0に出力する ο

適応音源符号化手段 4内の合成フィル夕 1 0は、線形予測係数符号化手段 3から出力された量子化された線形予測係数がフィル夕係数として設定されており、適応べクトル生成手段 9から出力された適応音源に対する合成フィル夕リングを行い、得られた合成音を減算手段 1 1と適応音源寄与度算出手段 2 8に出力する ο

適応音源符号化手段 4内の減算手段 1 1は、合成フィル夕 1 0より出力された合成音と入力音声 iの差信号を求め、得られた差信号を駆動音源符号化部 5における符号化対象信号 1 2として、第一の歪算出部 2 3と第二の歪算出部 2 4に出力する。

適応音源寄与度算出手段 2 8は、入力音声 1と、合成フィル夕 1 0より出力された合成音を用いて、入力音声 1の符号化における適応音源の寄与の大きさを計算し、求まった適応音源寄与度を探索用評価値算出部 2 9に出力する。具体的な適応音源寄与度の計算は以下のようにして行う。

まず、合成フィル夕 1 0より出力された合成音に適切なゲインを乗じた時に、入力音声 1に対する波形歪が最も小さくなるようにゲインを設定し、合成フィル夕 1 0より出力された合成音にこのゲインを乗じた信号のパワー P aを求める。入力音声 1のパワー Pを求め、 Pに対する P aの比率、つまり P a/Pを計算して適応音源寄与度とする。なお、適切なゲインについては偏微分方程式に基づいて決定することができ、式（2 ) と同様にゲインを計算式から取り除いた形で波形歪を直接求めることができる。入力音声 1を R、合成フィル夕 1 0より出力された合成音を Xとすれば、適応音源寄与度 Gは、式（6 ) により計算することができる。ひ

-方、探索手段 2 0は、 2進数値で示した各駆動音源符号を順次発生させ、順番に駆動べクトル生成手段 1 3に出力する。

駆動べクトル生成手段 1 3は、探索手段 2 0から出力された駆動音源符号に応じて、内部に格納してある駆動音源符号帳から時系列ベクトルを読み出し、駆動ベクトルとして合成フィル夕 1 4に出力する。なお、駆動音源符号帳としては、予め用意した雑音べクトルを格納したものや、代数的にパルス位置と極性の組み合わせによって記述した代数的音源符号帳などがある。また 2つ以上の符号帳の加算形式や、適応音源の繰返し周期も用いたピッチ周期化を内包したものもある ο

合成フィル夕 1 4は、線形予測係数符号化手段 3から出力された量子化された線形予測係数がフィル夕係数として設定されており、駆動べクトル生成手段 1 3 から出力された駆動べクトルに対して合成フィル夕リングを行い、得られた合成音を、第一の歪算出部 2 3と第二の歪算出部 2 4に対して出力する。

第一の歪算出部 2 3内の聴覚重み付けフィル夕 1 6は、線形予測係数符号化手段 3から出力された量子化された線形予測係数に基づいて聴覚重み付けフィル夕係数を算出し、これをフィル夕係数に設定して、適応音源符号化手段 4内の減算手段 1 1から出力された符号化対象信号 1 2に対するフィル夕リングを行い、得られた信号を減算手段 1 8に出力する。

第一の歪算出部 2 3内の聴覚重み付けフィル夕 1 7は、聴覚重み付けフィル夕 1 6と同じフィルタ係数に設定して、合成フィル夕 1 4から出力された合成音に対するフィル夕リングを行い、得られた信号を減算手段 1 8に出力する。

第一の歪算出部 2 3内の減算手段 1 8は、聴覚重み付けフィル夕 1 6から出力した信号と、聴覚重み付けフィル夕 1 7から出力した信号に適切なゲインを乗じた信号の差信号を求め、この差信号をパワー算出手段 1 9に出力する。

第一の歪算出部 2 3内のパワー算出手段 1 9は、減箅手段 1 8から出力された差信号の総パワーを求め、これを第一の歪として探索用評価値算出部 2 9に出力する。なお、減算手段 1 8で乗じるゲインについては、第一の歪を最小にするように偏微分方程式を解くことによって一意に決定される。実際の歪算出部 2 3の内部構成に付いては、演算量を削減するために従来の変形方法を用いることがでぎる。第二の歪算出部 2 4内の重心算出手段 2 5では、減算手段 1 1から出力した符号化対象信号 1 2のフレーム内の振幅の重心位置を求め、求まった重心位置を減算手段 2 7に出力する。振幅の重心位置は、対象とする信号の振幅（サンプル値の絶対値）のフレーム内合計値を計算し、再び先頭位置から振幅の合計値を計算していって、フレーム内合計値の半分に到達した位置として求めることができる第二の歪算出部 2 4内の重心算出手段 2 6では、合成フィル夕 1 4から出力した合成音のフレーム内の振幅の重心位置を求め、求まった重心位置を減算手段 2 7に出力する。重心位置の算出は重心算出手段 2 5と同様にして行う。

第二の歪算出部 2 4内の減算手段 2 7は、重心算出手段 2 5から出力した重心位置と、重心算出手段 2 6から出力した重心位置との差を求め、求まった重心位置の差を第二の歪として探索用評価値算出部 2 9に出力する。

探索用評価値算出部 2 9は、適応音源寄与度算出手段 2 8から出力された適応音源寄与度と、第一の歪算出部 2 3から出力された第一の歪と、第二の歪算出部 2 4から出力された第二の歪とを用いて、最終的な探索に用いる探索用評価値を求め、この探索用評価値を探索手段 2 0に出力する。

探索手段 2 0は、探索用評価値算出部 2 9より出力された探索用評価値を最小にする駆動音源符号を探索し、探索用評価値を最小にする駆動音源符号を駆動音源符号 2 1として出力する。また、駆動ベクトル生成手段 1 3は、この駆動音源符号 2 1を入力されたときに出力した駆動べクトルを駆動音源 2 2として出力す o

図 2は、上記探索用評価値算出部 2 9の構成を示す構成図である。

図 2において、 3 0と 3 2が切換手段、 3 1が乗算手段である。

乗算手段 3 1は、第一の歪算出部 2 3から出力された第一の歪に予め用意した定数/?を乗じ、乗算結果を出力する。定数/?は 1 . 2〜2 . 0程度の値が適切である。

切換手段 3 2は、第二の歪算出部 2 4から出力された第二の歪が所定の閾値を上回る場合には、切換スィッチを乗算手段 3 1から出力された乗算結果へ接続し

、第二の歪算出部 2 4から出力された第二の歪が所定の閾値以下である場合には、切換スィッチを第一の歪算出部 2 3から出力された第一の歪に接続する。所定の閾値としては、フレーム長の 1 0分の 1程度が適切である。これにより、切換手段 3 2は、第二の歪が大きい時には第一の歪に/?を乗算した結果を、第二の歪が小さい時には第一の歪をそのまま出力する。

切換手段 3 0は、適応音源寄与度算出手段 2 8から出力された適応音源寄与度が所定の閾値を上回る場合には、切換スィツチを第一の歪算出部 2 3から出力された第一の歪に接続し、適応音源寄与度算出手段 2 8から出力された適応音源寄与度が所定の閾値以下である場合には、切換手段 3 2の出力結果に.接続する。所定の閾値としては、 0 . 3〜0 . 4程度が適切である。そして、この切換手段 3 0の出力が探索用評価値として、探索用評価値算出部 2 9より出力される。このように構成することで、通常は第一の歪が探索用評価値として出力され、第二の歪が大きくかつ適応音源寄与度が小さい場合にのみ第一の歪に定数を乗じた値が探索用評価値として出力される。つまり、第二の歪が大きくかつ適応音源寄与度が小さい場合にのみ探索用評価値が大きい値に補正され、後続の探索手段 2 0において該当する駆動音源符号の選択が抑制される。

図 3は、第二の歪算出部 2 4の動作を説明する説明図である。なお、符号化対象信号は図 1 0と同じものである。

重心算出手段 2 5は、図 3 ( a ) に示すように符号化対象信号の重心位置を求める。重心算出手段 2 6は、図 3 ( b ) に示すように合成フィル夕後の駆動ぺクトルの重心位置を求める。そして、減算手段 2 7が、この 2つの重心位置の差を図 3 ( b ) に示したように算出する。

この図 3のように、符号化対象信号と比較して、合成フィル夕後の駆動べクトルの振幅がフレーム内で極端に偏っている場合には、重心位置の差として求められる第二の歪の値が大きく評価される。

図 3 ( d ) は、図 3 ( b ) の場合と異なる駆動ベクトルを合成フィル夕に通したときの合成音である。図 3 ( b ) と比較して、フレームの後半を中心に波形歪は若干大きいが、重心位置の差は小さくなつている。この図 3 ( d ) を生成する駆動ベクトルを選択した場合には、フレーム内に 0振幅の部分も無く、復号音の劣化は少ないが、従来の方法では、波形歪だけで選択を行うため、図 3 ( b ) を生成する駆動ベクトルを選択してしまっていた。これに対し、この実施の形態では、重心位置の差を第二の歪として探索用評価値に反映できるので、波形歪がそれ程大きくなく、重心位置の差も小さい図 3 ( d ) を生成する駆動ベクトルを選択することが可能となる。

なお、上記実施の形態では、符号化対象信号 1 2と合成フィル夕 1 4から出力した合成音の振幅重心の位置の差によって第二の歪を算出しているが、これに限定されるものではなく、パワー重心の位置の差としてもよいし、聴覚重み付けフィル夕 1 6から出力した信号と、聴覚重み付けフィル夕 1 7から出力した信号に対して第二の歪を評価するようにしても良い。

また、フレームを時間方向に数個に分割し、符号化対象信号 1 2と合成フィル夕 1 4から出力した合成音の各々について、各分割内の平均振幅または平均パヮ一を算出し、符号化対象信号 1 2の分割毎の算出結果と、合成フィル夕 1 4から出力した合成音の分割毎の算出結果の 2乗距離を求めて第二の歪としても良い。また、これらの幾つかの種類の第二の歪を算出して、探索用評価値算出手段 2 9 で複数の第二の歪を使用する構成も可能である。

また、探索用評価値算出部 2 9において、切換手段 3 2を削除し、乗算手段 3 1の出力を切換手段 3 0に接続する構成に変更し、乗算手段 3 1で使用する/?を第二の歪に応じて変更する構成することも可能である。

第一の歪算出部 2 3についても、この構成に限定されるものではなく、聴覚重み付けフィル夕を除いた構成や、減算手段 1 8の出力に対して聴覚重み付けを一括して行う構成や、上述した演算量削減のための各種変形を行うことも可能である。

適応音源寄与度算出手段 2 8についても、 2つの入力信号に対して聴覚重み付けフィル夕リングを行ってから寄与度の計算を行う構成でも構わない。

この実施の形態 1では、入力音声 1から適応べクトルを合成フィル夕 1 0に通した合成音を減算して符号化対象信号としているが、入力音声 1をそのまま符号化対象信号として用い、代わりに駆動べクトルを合成フィル夕 1 4に通した合成音を、適応べクトルを合成フィル夕 1 0に通した合成音に対して直交化する構成でも構わない。また、この実施の形態 1では、フレーム毎に駆動ベクトル探索を行っているが

、従来技術と同様、フレームを複数に分割したサブフレーム毎に探索を行う構成も当然可能である。

以上のように、この実施の形態 1によれば、符号化対象信号と駆動ベクトルから求まる合成べクトルの間に定義される波形に関する歪を第一の歪として算出し、符号化対象信号と駆動べクトルから求まる合成べクトルの間に定義される第一の歪と異なる第二の歪を算出し、この第一の歪と第二の歪を用いて算出した探索用評価値を最小にする駆動べクトルを選択するようにしたので、第一の歪だけでは分からない、復号音の劣化を引き起こす可能性が高い駆動べクトルを第二の歪によって検知することが可能となり、復号音の局所的な異音発生の少ない高品質な音声符号化が実現できる効果がある。

また、この実施の形態 1によれば、入力音声から求まる符号化対象信号を聴覚重み付けフィル夕に通した信号と、駆動べクトルから求まる合成べクトルを聴覚重み付けフィル夕に通した信号との、サンプル毎の誤差パヮ一をフレーム内で加算した結果を第一の歪としたので、復号音の主観的な歪感の小さい駆動べクトルが選択でき、高品質な音声符号化が実現できる効果がある。

また、この実施の形態 1によれば、フレーム内の時間方向の振幅またはパワーの偏りに関する歪を第二の歪としたので、局所的に振幅が小さすぎるなどの復号音の主観的な劣化を引き起こす可能性が高い駆動べクトルを第二の歪によって検知することが可能となり、復号音の局所的な異音発生の少ない高品質な音声符号化が実現できる効果がある。

また、この実施の形態 1によれば、フレーム内の符号化対象信号の振幅またはパワーの重心位置を求め、フレーム内の合成べクトルの振幅またはパワーの重心位置を求め、求まった 2つの重心位置の差を第二の歪としたので、簡単な処理であるにもかかわらず、フレーム内の振幅またはパワーの偏りを評価でき、局所的に振幅が小さすぎるなどの復号音の主観的な劣化を引き起こす可能性が高い駆動ぺクトルを第二の歪によって検知することが可能となり、復号音の局所的な異音発生の少ない高品質な音声符号化が実現できる効果がある。

また、この実施の形態 1によれば、第二の歪に応じて第一の歪を補正することで探索用評価値を算出するようにしたので、基本的には波形歪である第一の歪を小さくする駆動べクトルであって、第一の歪と異なる第二の歪についても問題が少ない駆動べクトルを選択することができ、高品質な音声符号化が実現できる効果がある。

また、この実施の形態 1によれば、入力音声から算出した適応音源寄与度などの所定のパラメ一夕に応じて探索用評価値を算出するようにしたので、音声の状態や符号化特性などに応じて第一の歪だけを使用したり、第二の歪による補正を行ったりすることで、復号音の品質劣化を起こしにくい、そのフレームに適切な駆動べクトルが選択でき、高品質な音声符号化が実現できる効果がある。

また、この実施の形態 1によれば、適応音源（駆動ベクトル以外の音源べクトル）から求まる合成べクトルのエネルギーと入力音声のエネルギーの比率を求めて、これを適応音源寄与度（他音源寄与度）として、探索用評価値の算出に使用したので、復号音における駆動べクトルの寄与度が大きいフレームでのみ第二の歪の使用を行うなど、フレーム毎に適切な探索用評価値を求めることができ、復号音の品質劣化を起こしにくい、そのフレームに適切な駆動べクトルが選択でき、高品質な音声符号化が実現できる効果がある。

また、この実施の形態 1によれば、探索用評価値を算出する処理の 1つとして

、第一の歪をそのまま探索用評価値とする処理、を含むようにしたので、復号音における駆動べクトルの寄与度が小さく、駆動べクトルの振幅偏りがあっても復号音劣化につながらない場合などにおいて、波形歪である第一の歪を最小にする駆動べクトルを選択することができ、不必要に第二の歪を利用してかえって音質劣化を招くことを回避できる効果がある。実施の形態 2 .

図 4は、この発明の実施の形態 2に係る探索用評価値算出部 2 9の構成を示す構成図である。

図 4において、 3 0は切換手段、 3 3と 3 4は乗算手段、 3 7は加算手段である。

乗算手段 3 3は、第一の歪算出部 2 3から出力された第一の歪に予め用意した定数 ? 1を乗じ、乗算結果を加算手段 3 7に出力する。定数/? 1は 1 . 0固定で構わないので、乗算手段 3 3自体は省略可能である。

また、乗算手段 3 4は、第二の歪算出部 2 4から出力された第二の歪に予め用意した定数/? 2を乗じ、乗算結果を加算手段 3 7に出力する。定数/? 2は、乗算手段 3 3の出力に対して乗算手段 3 4の出力が平均的に小さくなるように設定する

さらに、加算手段 3 7は、乗算手段 3 3の出力と乗算手段 3 4の出力を加算し、加算結果を切換手段 3 0に出力する。

切換手段 3 0は、適応音源寄与度算出手段 2 8から出力された適応音源寄与度が所定の閾値を上回る場合には、切換スィツチを第一の歪算出部 2 3から出力された第一の歪に接続し、適応音源寄与度算出手段 2 8から出力された適応音源寄与度が所定の閾値以下である場合には、加算手段 3 7の出力結果に接続する。所定の閾値としては、 0 . 3〜0 . 4程度が適切である。そして、この切換手段 3 0の出力が探索用評価値として、探索用評価値算出部 2 9より出力される。このように構成することで、通常は第一の歪が探索用評価値として出力され、適応音源寄与度が小さい場合にのみ第二の歪が探索用評価値に含まれて出力される。また、乗算手段 3 3の出力に比べて乗算手段 3 4の出力が平均的に小さくなるように/? 1と/? 2を設定しておくことによって、基本的には第一の歪が主で、第二の歪によって補正を行う結果となる。従って、第二の歪が比較的大きくかつ適応音源寄与度が小さい場合にのみ探索用評価値が大きい値に補正され、後続の探索手段 2 0において該当する駆動音源符号の選択が抑制される。

以上のように、この実施の形態 2によれば、第一の歪と第二の歪の重み付き和によって探索用評価値を算出するようにしたので、基本的には波形歪である第一の歪を小さくする駆動べクトルであって、第一の歪と異なる第二の歪についても問題が少ない駆動べクトルを選択することができ、高品質な音声符号化が実現できる効果がある。

また、この実施の形態 2によれば、駆動ベクトル以外の音源ベクトルから求まる合成ぺクトルのエネルギーと入力音声のエネルギーの比率を求めて、これを評価値算出工程における所定パラメ一夕としたので、復号音における駆動ぺクトルの寄与度が大きいフレームでのみ第二の歪の使用を行うなど、フレーム毎に適切な探索用評価値を求めることができ、復号音の品質劣化を起こしにくい、そのフレームに適切な駆動べクトルが選択でき、高品質な音声符号化が実現できる効果がめる。

また、この実施の形態 2によれば、探索用評価値を算出する処理の 1つとして、第一の歪をそのまま探索用評価値とする処理、を含むようにしたので、復号音における駆動べクトルの寄与度が小さく、駆動べクトルの振幅偏りがあっても復号音劣化につながらない場合などにおいて、波形歪である第一の歪を最小にする駆動べクトルを選択することができ、不必要に第二の歪を利用してかえって音質劣化を招くことを回避できる効果がある。実施の形態 3 .

図 5は、この発明による音声符号化方法を適用した音声符号化装置における実施の形態 3に係る駆動音源符号化部 5の詳細構成を示すプロック図である。本実施の形態 3においても音声符号化装置の全体構成は図 8と同様であるが、駆動音源符号化部 5に入力音声 1の入力を追加したものとなっている。

図 5において、図 1に示す実施の形態 1と同一部分は同一符号を付してその説明は省略する。新たな符号として、 3 5は予備選択手段である。

以下、図に基づいて動作を説明する。

第一の歪算出部 2 3は、線形予測係数符号化手段 3から出力された量子化された線形予測係数、減算手段 1 1から出力された符号化対象信号 1 2と、各駆動べクトル毎に合成フィル夕 1 4から出力された合成音から、聴覚重み付けフィル夕後の差信号の総パワーを求めて、これを第一の歪として予備選択手段 3 5に出力する。

予備選択手段 3 5は、第一の歪算出部 2 3から出力された各駆動ぺクトル毎の第一の歪を互いに比較し、この第一の歪が小さい M個の駆動べクトルを予備選択する。なお、 Mは全駆動ベクトルの数より少ない数である。そして予備選択した駆動べクトルの番号を第二の歪算出部 2 4に出力すると共に、予備選択した各駆動べクトルに対する第一の歪を探索用評価値算出部 2 9に出力する。第二の歪算出部 2 4は、予備選択手段 3 5が予備選択して出力した M個の駆動ぺクトルの番号が指定する各駆動べクトルについて、減算手段 1 1から出力した符号化対象信号 1 2と、各駆動べクトル毎に合成フィル夕 1 4から出力した合成音とのフレーム内の振幅の重心位置の差を求め、求まった重心位置の差を第二の歪として探索用評価値算出部 2 9に出力する。

探索用評価値算出部 2 9は、適応音源寄与度算出手段 2 8から出力された適応音源寄与度と、予備選択手段 3 5が予備選択して出力した M個の第一の歪と、第二の歪算出部 2 4から出力された M個の第二の歪とを用いて、最終的な探索に用いる M個の探索用評価値を求め、この探索用評価値を探索手段 2 0に出力する。探索手段 2 0は、探索用評価値算出部 2 9より出力された探索用評価値を最小にする駆動音源符号を探索し、探索用評価値を最小にする駆動音源符号を駆動音源符号 2 1として出力する。また、駆動べクトル生成手段 1 3は、この, 動音源符号 2 1を入力されたときに出力した駆動べクトルを駆動音源 2 2として出力する。

なお、上記実施の形態 3についても、実施の形態 1と同様に、符号化対象信号 1 2と合成フィル夕 1 4から出力した合成音の振幅重心の位置の差によって第二の歪を算出しているが、これに限定されるものではなく、パワー重心の位置の差としてもよいし、聴覚重み付けフィル夕後の信号に対して第二の歪を評価するようにしても良い。フレ一ムを時間方向に数個に分割し、符号化対象信号 1 2と合成フィル夕 1 4から出力した合成音の各々について、各分割内の平均振幅または平均パワーを算出し、符号化対象信号 1 2の分割毎の算出結果と、合成フィル夕 1 4から出力した合成音の分割毎の算出結果の 2乗距離を求めて第二の歪としても良い。また、これらの幾つかの種類の第二の歪を算出して、探索用評価値算出手段 2 9で複数の第二の歪を使用する構成も可能である。

第一の歪算出部 2 3についても、聴覚重み付けフィル夕を除いた構成や、聴覚重み付けを一括して行う構成や、演算量削減のための各種変形を行うことも可能である。

また、この実施の形態 3では、入力音声 1から適応ベクトルを合成フィル夕 1

0に通した合成音を減算して符号化対象信号としているが、実施の形態 1と同様に、入力音声 1をそのまま符号化対象信号として用い、代わりに駆動ベクトルを合成フィル夕 1 4に通した合成音を、適応べクトルを合成フィル夕 1 0に通した合成音に対して直交化する構成でも構わない。

また、この実施の形態 3では、フレーム毎に駆動ベクトル探索を行っているが、従来技術と同様、フレームを複数に分割したサブフレーム毎に探索を行う構成も当然可能である。

以上のように、この実施の形態 3によれば、第一の歪が小さい 2つ以上の駆動ベクトルを予備選択し、第二の歪の算出、探索用評価値の算出、探索の対象を、予備選択した駆動べクトルに限定するようにしたので、実施の形態 1が持つ効果に加えて、第二の歪の算出と探索用評価値の算出の演算量を少なく抑制することができ、第一の歪だけで探索を行っていた従来構成に対して少ない演算量の増加で、復号音の劣化を引き起こす可能性が高い駆動ぺクトルを第二の歪によって検知することが可能となり、復号音の局所的な異音発生の少ない高品質な音声符号化が実現できる効果がある。実施の形態 4 .

図 6は、この発明による音声符号化方法を適用した音声符号化装置における実施の形態 4に係る駆動音源符号化部 5の詳細構成を示すプロック図である。この実施の形態 4においても音声符号化装置の全体構成は図 8と同様であるが、駆動音源符号化部 5に入力音声 1の入力を追加したものとなっている。図 5に示す実施の形態 3と同一部分は同一符号を付してその説明は省略する。この実施の形態 4においては、駆動ベクトル生成手段 1 3として、第一の駆動ベクトル生成手段から第 Nの駆動べクトル生成手段までの N個の駆動ぺクトル生成手段と切換手段を備えている。

以下、図に基づいて動作を説明する。

駆動べクトル生成手段 1 3は、第一の駆動べクトル生成手段から第 Nの駆動べクトル生成手段までの N個の駆動べクトル生成手段と切換手段を備えており、外部から駆動べクトル生成手段番号と駆動べクトル番号が入力されると、これらに応じて 1つの駆動ぺクトルを出力する。切換手段が入力された駆動ぺクトル生成手段番号に応じて 1つの駆動べクトル生成手段に切換スィツチを接続し、接続された第一から第 Nの駆動べクトル生成手段が、入力された駆動べクトル番号によつて指定された駆動べクトルを出力するようになっている。

なお、複数の駆動ベクトル生成手段は互いに異なるものであり、フレーム内の前半にエネルギーが集まっている駆動べクトル生成手段や、フレーム内の後半にエネルギーが集まっている駆動べクトル生成手段や、フレーム内に比較的分散してエネルギーが分布している駆動べクトル生成手段や、少ないパルスだけで構成されている駆動べクトル生成手段と多くのパルスで構成されている駆動べクトル生成手段など、様々な様態を持つ音声信号を安定に符号化するために様々な様態の駆動べクトル生成手段を備えるようにしておくのがよい。

探索手段 2 0は、 2進数値で示した各駆動音源符号を順次発生させ、この駆動音源符号を駆動べクトル生成手段番号と駆動べクトル番号に分解し、駆動べクトル生成手段番号を駆動べクトル生成手段 1 3内の切換手段と、探索用評価値算出部 2 9に出力する。また駆動べクトル番号を駆動べクトル生成手段 1 3内の第一から第 Nの駆動べクトル生成手段に出力する。

駆動べクトル生成手段 1 3は、探索手段 2 0から出力された駆動ぺクトル生成手段番号と駆動ぺクトル番号に応じて、 1つの駆動べクトルを合成フィル夕 1 4 に出力する。

合成フィル夕 1 4は、線形予測係数符号化手段 3から出力された量子化された線形予測係数がフィル夕係数として設定されており、駆動ぺクトル生成手段 1 3 から出力された駆動べクトルに対して合成フィル夕リングを行い、得られた合成音を、第一の歪算出部 2 3と第二の歪算出部 2 4に対して出力する。

第一の歪算出部 2 3は、線形予測係数符号化手段 3から出力された量子化された線形予測係数、減算手段 1 1から出力された符号化対象信号 1 2と、各駆動べクトル毎に合成フィルタ 1 4から出力された合成音から、聴覚重み付けフィル夕後の差信号の総パワーを求めて、これを第一の歪として予備選択手段 3 5に出力る。

予備選択手段 3 5は、第一の歪算出部 2 3から出力された各駆動ぺクトル毎の第一の歪を互いに比較し、この第一の歪が小さい M個の駆動べクトルを予備選択する。なお、 Mは全駆動ベクトルの数より少ない数である。そして予備選択した駆動べクトルの番号を第二の歪算出部 2 4に出力すると共に、予備選択した各駆動ベクトルに対する第一の歪を探索用評価値算出部 2 9に出力する。なお、探索手段 2 0より駆動ぺクトル生成手段番号を入力する構成として、同一の駆動ぺクトル生成手段番号毎に L個の駆動ぺクトルを予備選択してもよい。 Lを 1とすれば、予備選択数 Mは Nに一致する。

第二の歪算出部 2 4は、予備選択手段 3 5が予備選択して出力した M個の駆動べクトルの番号が指定する各駆動べクトルについて、減算手段 1 1から出力した符号化対象信号 1 2と、各駆動べクトル毎に合成フィル夕 1 4から出力した合成音とのフレーム内の振幅の重心位置の差を求め、求まつた重心位置の差を第二の歪として探索用評価値算出部 2 9に出力する。

探索用評価値算出部 2 9は、適応音源寄与度算出手段 2 8から出力された適応音源寄与度と、探索手段 2 0から出力した駆動ベクトル生成手段番号と、予備選択手段 3 5が予備選択して出力した M個の第一の歪と、.第二の歪算出部 2 4から出力された M個の第二の歪とを用いて、最終的な探索に用いる M個の探索用評価値を求め、この探索用評価値を探索手段 2 0に出力する。

探索手段 2 0は、探索用評価値算出部 2 9より出力された探索用評価値を最小にする駆動音源符号を探索し、探索用評価値を最小にする駆動音源符号を駆動音源符号 2 1として出力する。また、駆動べクトル生成手段 1 3は、この駆動音源符号 2 1を入力されたときに出力した駆動べクトルを駆動音源 2 2として出力する。

図 7は、探索用評価値算出部 2 9の構成を示す構成図である。

図 7において、 3 0、 3 2、 3 6は切換手段、 3 1は乗算手段である。

探索用評価値算出部 2 9内には、予め駆動べクトル生成手段番号に対応して N 個の定数/? 1乃至/? Nが設定してある。

切換手段 3 6は、探索手段 2 0より出力した駆動べクトル生成手段番号に応じて切換スィッチを切換え、駆動ベクトル生成手段番号が 1の時には ? 1、駆動べクトル生成手段番号が Nの時には/? Nという具合に 1つの定数を選択して出力す o 乗算手段 3 1は、第一の歪算出部 2 3から出力された第一の歪に、切換手段 3 6より出力した定数を乗じ、乗算結果を出力する。

切換手段 3 2は、第二の歪算出部 2 4から出力された第二の歪が所定の閾値を上回る場合には、切換スィッチを乗算手段 3 1から出力された乗算結果へ接続し、第二の歪算出部 2 4から出力された第二の歪が所定の閾値以下である場合には、切換スィッチを第一の歪算出部 2 3から出力された第一の歪に接続する。所定の閾値としては、フレーム長の 1 0分の 1程度が適切である。これにより、切換手段 3 2は、第二の歪が大きい時には第一の歪に駆動べクトル生成手段番号に応じた定数を乗算した結果を、第二の歪が小さい時には第一の歪をそのまま出力する。

切換手段 3 0は、適応音源寄与度算出手段 2 8から出力された適応音源寄与度が所定の閾値を上回る場合には、切換スィッチを第一の歪算出部 2 3から出力された第一の歪に接続し、適応音源寄与度算出手段 2 8から出力された適応音源寄与度が所定の閾値以下である場合には、切換手段 3 2の出力結果に接続する。所定の閾値としては、 0 . 3〜0 . 4程度が適切である。そして、この切換手段 3 0の出力が探索用評価値として、探索用評価値算出部 2 9より出力される。このように構成することで、通常は第一の歪が探索用評価値として出力され、第二の歪が大きくかつ適応音源寄与度が小さい場合にのみ第一の歪に駆動べクトル生成手段番号に応じた定数を乗じた値が探索用評価値として出力される。つまり第二の歪が大きくかつ適応音源寄与度が小さい場合にのみ探索用評価値が大きい値に補正され、かつその補正の大きさが駆動べクトル生成手段番号に応じて制御され、後続の探索手段 2 0において該当する駆動音源符号の選択が抑制される ο

なお、上記実施の形態 4についても、実施の形態 2と同様に、切換スイッチ 3 2を図 4に示した乗算手段 3 3と加算手段 3 7に変更する構成が可能である。また、実施の形態 1と同様に、符号化対象信号 1 2と合成フィル夕 1 4から出力した合成音の振幅重心の位置の差によって第二の歪を算出しているが、これに限定されるものではなく、パワー重心の位置の差としてもよいし、聴覚重み付けフィル夕後の信号に対して第二の歪を評価するようにしても良い。フレームを時間方向に数個に分割し、符号化対象信号 1 2と合成フィル夕 1 4から出力した合成音の各々について、各分割内の平均振幅または平均パワーを算出し、符号化対象信号 1 2の分割毎の算出結果と、合成フィル夕 1 4から出力した合成音の分割毎の算出結果の 2乗距離を求めて第二の歪としても良い。また、これらの幾つかの種類の第二の歪を算出して、探索用評価値算出手段 2 9で複数の第二の歪を使用する構成も可能である。

また、この実施の形態 4では、入力音声 1から適応ベクトルを合成フィル夕 1 0に通した合成音を減算して符号化対象信号としているが、実施の形態 1と同様に、入力音声 1をそのまま符号化対象信号として用い、代わりに駆動ベクトルを合成フィル夕 1 4に通した合成音を、適応べクトルを合成フィル夕 1 0に通した合成音に対して直交化する構成でも構わない。

また、この実施の形態 4では、フレーム毎に駆動ベクトル探索を行っているが、従来技術と同様、フレームを複数に分割したサブフレーム毎に探索を行う構成も当然可能である。

以上のように、この実施の形態 4によれば、互いに異なる駆動ベクトルを生成する駆動べクトル生成手段（工程）を複数備え、各駆動べクトル生成手段（工程

) 毎に、前記第一の歪算出手段（工程）が算出した第一の歪が小さい 1つ以上の駆動ベクトルを予備選択し、第二の歪の算出、探索用評価値の算出、探索の対象を、予備選択した駆動ベクトルに限定するようにしたので、実施の形態 3が持つ効果に加えて、音源位置限定やパルス数などが様々に異なる駆動べクトル生成手段（工程）毎に 1つ以上の駆動ベクトルの候補を残すことができ、音源位置限定やパルス数などが様々に異なる駆動べクトルの候補中から復号音の劣化を引き起こす可能性が高い駆動べクトルを第二の歪によって検知して選択を抑制することで、少ない演算量の増加であるにもかかわらず、復号音の局所的な異音発生の少ない高品質な音声符号化が実現できる効果がある。

なお、実施の形態 3においては、音源位置限定やパルス数などが様々に異なる駆動ぺクトルが予備選択される補償がないので、例えばフレーム内の前半にエネルギ一が集まっている駆動べクトルだけが予備選択された場合、その予備選択された駆動ベクトルの中に重心位置の差（第二の歪）が小さいものが含まれていないことも起こり得る。その場合、復号音の局所的な劣化を解消できない。

この実施の形態 4によれば、どの駆動ベクトル生成手段（工程）から出力された駆動べクトルであるかによって、探索用評価値の算出に用いる定数を ? 1から ? Nの間で変更する（探索用評価値を算出する処理を変更する）ようにしたので、第二の歪が大きくなつたときに復号音の劣化につながりやすい駆動べクトル生成手段（工程）について、選択的に探索用評価値における第二の歪の重みを大きくして、その駆動べクトル生成手段（工程）から出力される駆動べクトルの選択を抑制することが可能となり、復号音の局所的な異音発生の少ない高品質な音声符号化が実現できる効果がある。実施の形態 5 .

上記実施の形態 1乃至 4では、全て適応べクトルと駆動べクトルの加算によつて構成される音源における、駆動べクトルの探索に関して本発明を適用した構成であったが、音源の構成はこれに限定されるものではなく、例えば音声の立ちあがり部分を表現するための駆動べクトルだけで構成される音源においても、適用可能である。

.その場合には、適応音源符号化手段 4、適応ベクトル生成手段 9、合成フィル夕 1 0が不要となり、適応音源寄与度算出手段 2 8の出力が常に 0とすれば良いこのように構成することで、駆動べクトルだけで音源を構成する場合においても、第一の歪だけでは分からない、復号音の劣化を引き起こす可能性が高い駆動べクトルを第二の歪によって検知することが可能となり、復号音の局所的な異音発生の少ない高品質な音声符号化が実現できる効果がある。実施の形態 6 .

上記実施の形態 1乃至 4では、駆動ぺクトルの探索に関して本発明を適用した構成であつたが、適応べクトルの探索においても本発明を適用することが可能である。

その場合には、実施の形態 5における駆動べクトル生成手段 1 3を適応ぺクトル生成手段 9に変更すれば良い。

このように構成することで、第一の歪だけでは分からない、復号音の劣化を引き起こす可能性が高い適応べクトルを第二の歪によって検知することが可能となり、復号音の局所的な異音発生の少ない高品質な音声符号化が実現できる効果がある。実施の形態 7 .

上記実施の形態 1乃至 4では、 1つの駆動ベクトルだけを選択していたが、サブ駆動べクトル生成手段を 2つ備え、これらの各々から出力される 2つのサブ駆動べクトルの加算によって 1つの駆動ぺクトルとする構成も当然可能である。その場合、他の構成は実施の形態 1乃至 4と同様でも構わないが、 1つのサブ駆動べクトル生成手段から出力されるサブ駆動べクトルの探索の際に、既に決定しているもう一方のサブ駆動べクトルと適応音源の寄与度を求めて探索用評価値の算出に用いる構成も可能である。

このように構成することで、第一の歪だけでは分からない、復号音の劣化を引き起こす可能性が高いサブ駆動べクトルを第二の歪によって検知することが可能となり、復号音の局所的な異音発生の少ない高品質な音声符号化が実現できる効果がある。産業上の利用の可能性

以上のように、この発明によれば、符号化対象信号と駆動ベクトルから求まる合成ぺクトルの間に定義される波形に関する歪を第一の歪として算出し、符号化対象信号と駆動べクトルから求まる合成ぺクトルの間に定義される第一の歪と異なる第二の歪を算出し、この第一の歪と第二の歪を用いて算出した探索用評価値を最小にする駆動べクトルを選択するようにしたので、第一の歪だけでは分からない、復号音の劣化を引き起こす可能性が高い駆動べクトルを第二の歪によって検知することが可能となり、復号音の局所的な異音発生の少ない高品質な音声符号化が実現できる。

Claims

請求の範囲

1 . 入力音声をフレームと呼ばれる所定長区間毎に符号化する音声符号化方法において、

複数の駆動ぺクトルを生成する駆動べクトル生成工程と、

各駆動ぺクトル毎に、入力音声から求まる符号化対象信号と駆動べクトルから求まる合成べクトルの間に定義される波形に関する歪を第一の歪として算出する第一の歪算出工程と、

各駆動べクトル毎に、前記符号化対象信号と駆動べクトルから求まる合成ぺクトルの間に定義される第一の歪と異なる第二の歪を算出する第二の歪算出工程と各駆動べクトル毎に、前記第一の歪と第二の歪を用いて所定の探索用評価値を算出する評価値算出工程と、

探索用評価値を最小にする駆動べクトルを選択し、選択した駆動ぺクトルに予め対応付けられている符号を出力する探索工程と

を備えた音声符号化方法。

2 . 請求項 1に記載の音声符号化方法において、

前記第一の歪算出工程が算出した第一の歪が小さい 2つ以上の駆動べクトルを選択する予備選択工程を備え、

前記第二の歪算出工程、評価値算出工程、探索工程の対象を、予備選択工程が選択した駆動ベクトルに限定するようにしたことを特徴とする音声符号化方法。

3 . 請求項 1に記載の音声符号化方法において、

互いに異なる駆動べクトルを生成する駆動ぺクトル生成工程を複数備えると共に、各駆動ベクトル生成工程毎に、前記第一の歪算出工程が算出した第一の歪が小さい 1つ以上の駆動べクトルを選択する予備選択工程を備え、

前記第二の歪算出工程、評価値算出工程、探索工程の対象を、予備選択工程が選択した駆動べクトルに限定するようにしたことを特徴とする音声符号化方法。

4 . 請求項 1に記載の音声符号化方法において、

前記第一の歪算出工程は、入力音声から求まる符号化対象信号を聴覚重み付けフィル夕に通した信号と、駆動べクトルから求まる合成べクトルを聴覚重み付けフィル夕に通した信号との、サンプル毎の誤差パヮ一をフレーム内で加算した結果を第一の歪とすることを特徴とする音声符号化方法。

5 . 請求項 1に記載の音声符号化方法において、

前記第二の歪算出工程は、フレーム内の時間方向の振幅またはパワーの偏りに関する歪を第二の歪とすることを特徴とする音声符号化方法。

6 . 請求項 5に記載の音声符号化方法において、

前記第二の歪算出工程は、フレーム内の符号化対象信号の振幅またはパワーの重心位置を求めると共に、フレーム内の合成べクトルの振幅またはパワーの重心位置を求め、求まった 2つの重心位置の差を第二の歪とすることを特徴とする音声符号化方法。

7 . 請求項 1に記載の音声符号化方法において、

前記評価値算出工程は、第二の歪に応じて第一の歪を補正することで探索用評価値を算出するようにしたことを特徴とする音声符号化方法。

8 . 請求項 1に記載の音声符号化方法において、

前記評価値算出工程は、第一の歪と第二の歪の重み付き和によって探索用評価値を算出するようにしたことを特徴とする音声符号化方法。

9 . 請求項 1に記載の音声符号化方法において、

前記評価値算出工程は、入力音声から算出した所定のパラメータに応じて探索用評価値を算出する処理を変更するようにしたことを特徴とする音声符号化方法

1 0 . 請求項 9に記載の音声符号化方法において、

駆動べクトル以外の音源べクトルから求まる合成べクトルのエネルギーと入力音声のエネルギーの比率を求め、これを他音源寄与度とする寄与度算出工程を備え、算出した他音源寄与度を前記評価値算出工程における所定パラメ一夕としたことを特徴とする音声符号化方法。

1 1 . 請求項 3に記載の音声符号化方法において、

前記評価値算出工程は、どの駆動べクトル生成工程から出力された駆動べクトルであるかによって、探索用評価値を算出する処理を変更するようにしたことを特徴とする音声符号化方法。

1 2 . 請求項 1に記載の音声符号化方法において、

前記評価値算出工程は、探索用評価値を算出する処理の 1つとして、第一の歪をそのまま探索用評価値とする処理を含むようにしたことを特徴とする音声符号化方法。

1 3 . 入力音声をフレームと呼ばれる所定長区間毎に符号化する音声符号化装置において、

複数の駆動ぺクトルを生成する駆動べクトル生成手段と、

各駆動ぺクトル毎に、入力音声から求まる符号化対象信号と駆動ぺクトルから求まる合成ぺクトルの間に定義される波形に関する歪を第一の歪として算出する第一の歪算出手段と、

各駆動べクトル毎に、前記符号化対象信号と駆動べクトルから求まる合成べクトルの間に定義される第一の歪と異なる第二の歪を算出する第二の歪算出手段と各駆動べクトル毎に、前記第一の歪と第二の歪を用いて所定の探索用評価値を算出する評価値算出手段と、

探索用評価値を最小にする駆動べクトルを選択し、選択した駆動べクトルに予め対応付けられている符号を出力する探索手段とを備えたことを特徴とする音声符号化装置。

1 4 . 請求項 1 3に記載の音声符号化装置において、

前記第一の歪算出手段は、入力音声から求まる符号化対象信号を聴覚重み付けフィル夕に通した信号と、駆動べクトルから求まる合成べクトルを聴覚重み付けフィル夕に通した信号との、サンプル毎の誤差パワーをフレーム内で加算した結果を第一の歪とすることを特徴とする音声符号化装置。

1 5 . 請求項 1 3に記載の音声符号化装置において、

前記第二の歪算出手段は、フレーム内の時間方向の振幅またはパワーの偏りに関する歪を第二の歪とすることを特徴とする音声符号化装置。

1 6 . 請求項 1 3に記載の音声符号化装置において、

前記評価値算出手段は、第二の歪に応じて第一の歪を補正することで探索用評価値を算出するようにしたことを特徴とする音声符号化装置。

1 7 . 請求項 1 3に記載の音声符号化装置において、

前記評価値算出手段は、入力音声から算出した所定のパラメ一夕に応じて探索用評価値を算出する処理を変更するようにしたことを特徴とする音声符号化装置