WO2002059877A1

WO2002059877A1 - Appareil de traitement de donnees

Info

Publication number: WO2002059877A1
Application number: PCT/JP2002/000491
Authority: WO
Inventors: Tetsujiro Kondo; Hiroto Kimura; Tsutomu Watanabe; Masaaki Hattori
Original assignee: Sony Corporation
Priority date: 2001-01-25
Filing date: 2002-01-24
Publication date: 2002-08-01
Also published as: JP2002222000A; KR100875784B1; EP1355297A4; US20030163317A1; DE60222627T2; JP4857468B2; CN1459093A; EP1355297B1; US7269559B2; KR20020088088A; CN1216367C; DE60222627D1; EP1355297A1

Description

明細書

データ処理装置技術分野

本発明は、データ処理装置に関し、特に、例えば、 CELP (Code Excited Li ner Prediction coding)方式で符号化された音声を、高音質の音声に復号することができるようにするデータ処理装置に関する。背景技術

図 1および図 2は、従来の携帯電話機の一例の構成を示している。

この携帯電話機では、音声を、 CELP方式により所定のコードに符号化して送信する送信処理と、他の携帯電話機から送信されてくるコードを受信して、音声に復号する受信処理とが行われるようになつており、図 1は、送信処理を行う送信部を、図 2は、受信処理を行う受信部を、それぞれ示している。

図 1に示した送信部では、ユーザが発話した音声が、マイク（マイクロフォン） 1に入力され、そこで、電気信号としての音声信号に変換され、 A/D (Ana log/Digital)変換部 2に供給される。 A/D変換部 2は、マイク 1からのアナ口グの音声信号を、例えば、 8 kHz等のサンプリング周波数でサンプリングすることにより、ディジタルの音声信号に A/D変換し、さらに、所定のビット数で量子化を行って、演算器 3と LP C (Liner Prediction Coefficient)分析部 4に供給する。

LPC分析部 4は、 A/D変換部 2からの音声信号を、例えば、 1 6 0サンプル分の長さを 1フレームとし、その 1フレームを 40サンプルごとのサブフレ一ムに分割して、サブフレームごとに LP C分析し、 P次の線形予測係数 α^, ₂, · · ·， ο;_Ρを求める。そして、 LPC分析部 4は、この Ρ次の線形予測係数 Q!_p (p= l， 2， · · ·， P) を要素とするベクトルを、音声の特徴ベクトルとして、ベクトル量子化部 5に供給する。べクトル量子化部 5は、線形予測係数を要素とするコードべクトルとコードとを対応付けたコードブックを記憶しており、そのコードブックに基づいて、 LP C分析部 4からの特徴べクトル αをべクトル量子化し、そのべクトル量子化の結果得られるコード（以下、適宜、 Αコード（A— code)という）を、コ一ド決定部 1 5に供給する。

さらに、ベクトル量子化部 5は、 Aコードに対応するコードベクトル α' を構成する要素となっている線形予測係数ひ，ひ₂' ， · · ·， α_Ρ，を、音声合成フィルタ 6に供給する。

音声合成フィルタ 6は、例えば、 I I R (Infinite Impulse Response)型のデイジタルフィルタで、ベクトル量子化部 5からの線形予測係数ひ _ρ' (p= 1, 2， · · ·， P) を I I Rフィル夕のタップ係数とするとともに、演算器 14から供給される残差信号 eを入力信号として、音声合成を行う。

即ち、 L PC分析部 4で行われる LP C分析は、現在時刻 nの音声信号（のサンプル値） s_n、およびこれに隣接する過去の P個のサンプル値 s^, s_n_₂， · · · , s _η— ρに、式

s„+ «i s n-i + a₂s _n-2+ - · - + a_Ps_n._P=e_n

• · · (1) で示す線形 1次結合が成立すると仮定し、現在時刻 nのサンプル値 s_nの予測値 (線形予測値） s_n' を、過去の P個の標本値 s_n— ₂， · · ·， s_n— _Pを用いて、式

s_n， =一 (0；! s„.,+ a;₂s„.₂+ - · · + a p s„.ρ)

• · · (2) によって線形予測したときに、実際のサンプル値 s„と線形予測値 s_n' との間の自乗誤差を最小にする線形予測係数 α_ρを求めるものである。

ここで、式（1) において、 {e_n} ( · · ·， e_n—い e_n, e_n+1， · · ·）は、平均値が 0で、分散が所定値 σ ²の互いに無相関な確率変数である。

式（1) から、サンプル値 s„は、式 S _n=e_n- ( Q^ S n— Q! ₂ S _n— ₂+ · · · + Q!p S _n._P)

• · · (3) で表すことができ、これを、 Z変換すると、次式が成立する。

S = Eノ ( 1 + α,ζ-' - α₂ζ"²+ - · - + ,ζ '^?)

· · · (4) 但し、式（4) において、 Sと Εは、式（3) における s_nと e_nの Ζ変換を、それぞれ表す。

ここで、式（1) および（2) から、 e_nは、式

C n― S n S _n

· · · (5) で表すことができ、実際のサンプル値 s_nと線形予測値 s_n' との間の残差信号と呼ばれる。 . 従って、式（4) から、線形予測係数 c¾_pを I I Rフィル夕のタップ係数とするとともに、残差信号 e_nを I I Rフィル夕の入力信号とすることにより、音声信号 s_nを求めることができる。

そこで、音声合成フィル夕 6は、上述したように、ベクトル量子化部 5からの線形予測係数《_ρ' をタップ係数とするとともに、演算器 14から供給される残差信号 eを入力信号として、式（4) を演算し、音声信号（合成音デ一夕） s s を求める。

なお、音声合成フィルタ 6では、 L P C分析部 4による LP C分析の結果得られる線形予測係数 α_ρではなく、そのべクトル量子化の結果得られるコードに対応するコードベクトルとしての線形予測係数 Οί_ρ' が用いられるため、音声合成フィルタ 6が出力する合成音信号は、 A/D変換部 2が出力する音声信号とは、基本的に同一にはならない。

音声合成フィル夕 6が出力する合成音デ一夕 s sは、演算器 3に供給される。演算器 3は、音声合成フィル夕 6からの合成音データ s sから、 AZD変換部 2 が出力する音声信号 sを減算し（合成音デ一夕 s sの各サンプルから、そのサンプルに対応する音声データ sのサンプルを減算し）、その減算値を、自乗誤差演算部 7に供給する。自乗誤差演算部 7は、演算器 3からの減算値の自乗和（第サブフレームの各サンプル値の減算値についての自乗和）を演算し、その結果得られる自乗誤差を、自乗誤差最小判定部 8に供給する。

自乗誤差最小判定部 8は、自乗誤差演算部 7が出力する自乗誤差に対応付けて、長期予測ラグを表すコードとしての Lコード（L— c ode) , ゲインを表すコードとしての Gコード（G_code)、および符号語（励起コードブック）を表すコードとしての Iコード（し code)を記憶しており、自乗誤差演算部 7が出力する自乗誤差に対応する Lコード、 Gコ一ド、および Lコードを出力する。 Lコードは、適応コードブック記憶部 9に、 Gコードは、ゲイン復号器 1 0に、 Iコードは、励起コードブック記憶部 1 1に、それぞれ供給される。さらに、 Lコード、 Gコード、および Iコードは、コード決定部 1 5にも供給される。

適応コードブック記憶部 9は、例えば 7ビットの Lコードと、所定の遅延時間 (ラグ）とを対応付けた適応コードブックを記憶しており、演算器 1 4から供給される残差信号 eを、自乗誤差最小判定部 8から供給される Lコードに対応付けられた遅延時間（長期予測ラグ）だけ遅延して、演算器 1 2に出力する。

ここで、適応コードブック記憶部 9は、残差信号 eを、 Lコードに対応する時間だけ遅延して出力することから、その出力信号は、そめ'遅延時間を周期とする周期信号に近い信号となる。この信号は、線形予測係数を用いた音声合成において、主として、有声音の合成音を生成するための駆動信号となる。従って、 Lコードは、概念的には、音声のピッチ周期を表す。なお、 CELPの規格によれば、 Lコードは、 2 0乃至 1 4 6の範囲の整数値をとる。

ゲイン復号器 1 0は、 Gコードと、所定のゲイン ;8および rとを対応付けたテ —ブルを記憶しており、自乗誤差最小判定部 8から供給される Gコードに対応付けられたゲイン ]3および rを出力する。ゲイン )3とァは、演算器 1 2と 1 3に、それぞれ供給される。ここで、ゲイン j8は、長期フィルタ状態出力ゲインと呼ばれるものであり、また、ゲイン τは、励起コードブックゲインと呼ばれる'ものである。

励起コードブック記憶部 1 1は、例えば 9ビットの Iコードと、所定の励起信号とを対応付けた励起コ一ドブックを記憶しており、自乗誤差最小判定部 8から供給される Iコードに対応付けられた励起信号を、演算器 1 3に出力する。

ここで、励起コードブックに記憶されている励起信号は、例えば、ホワイトノィズ等に近い信号であり、線形予測係数を用いた音声合成において、主として、無声音の合成音を生成するための駆動信号となる。

演算器 1 2は、適応コードブック記憶部 9の出力信号と、ゲイン復号器 1 0が出力するゲイン ]3とを乗算し、その乗算値 1を：演算器 1 4に供給する。演算器 1 3は、励起コードブック記憶部 1 1の出力信号と、ゲイン復号器 1 0が出力するゲインァとを乗算し、その乗算値 nを、演算器 1 4に供給する。演算器 1 4は、演算器 1 2からの乗算値 1と、演算器 1 3からの乗算値 nとを加算し、その加算値を、残差信号 eとして、音声合成フィルタ 6と適応コードブック記憶部 9に供給する。

音声合成フィルタ 6では、以上のようにして、演算器 1 4から供給される残差信号 eが、ベクトル量子化部 5から供給される線形予測係数ひをタップ係数とする I I Rフィルタでフィルタリングされ、その結果得られる合成音データが、演算器 3に供給される。そして、演算器 3および'自乗誤差演算部 7において、上述の場合と同様の処理が行われ、その結果得られる自乗誤差が、自乗誤差最小判定部 8に供給される。

自乗誤差最小判定部 8は、自乗誤差演算部 7からの自乗誤差が最小（極小）になったかどうかを判定する。そして、自乗誤差最小判定部 8は、自乗誤差が最小になっていないと判定した場合、上述のように、その自乗誤差に対応する Lコード、 Gコード、および Lコードを出力し、以下、同様の処理が繰り返される。一方、自乗誤差最小判定部 8は、自乗誤差が最小になったと判定した場合、確定信号を、コード決定部 1 5に出力する。コード決定部 1 5は、ベクトル量子化部 5から供給される Aコードをラッチするとともに、自乗誤差最小判定部 8から供給される Lコード、 Gコード、および Iコードを順次ラッチするようになっており、自乗誤差最小判定部 8から確定信号を受信すると、そのときラッチしている Aコード、 Lコード、 Gコード、および Iコードを、チャネルエンコーダ 1 6 に供給する。チャネルエンコーダ 1 6は、コード決定部 1 5からの Aコード、 L コード、 Gコード、および Iコードを多重化し、コ一ドデ一夕として出力する。このコードデータは、伝送路を介して送信される。

以上から、コードデ一夕は、復号に用いられる情報である Aコード、 Lコード、 Gコード、および Iコードを、サブフレーム単位ごとに有する符号化デ一夕となつている。

なお、ここでは、 Aコード、 Lコード、 Gコード、および Iコードは、サブフレームごとに求められるものとしているが、例えば、 Aコードについては、フレ —ムごとに求められる場合があり、この場合、そのフレームを構成する 4つのサブフレームの復号には、同一の Aコードが用いられる。但し、この場合でも、その 1フレームを構成する 4つのサブフレームそれぞれが、同一の Aコードを有していると見ることができ、そのように考えることによって、コードデータは、復号に用いられる情報である Aコード、 Lコード、 Gコード、および Iコードを、サブフレーム単位ごとに有する符号化データとなっているとみなすことができる。ここで、図 1 (後述する図 2、図 5、図 9、図 1 1、図 1 6、図 1 8、および図 2 1においても同様）では、各変数に、 [k]が付され、配列変数とされている。この kは、サブフレーム数を表すが、明細書中では、その記述は、適宜省略する次に、以上のようにして、他の携帯電話機の送信部から送信されてくるコードデータは、図 2に示した受信部のチャネルデコーダ 2 1で受信される。チャネルデコーダ 2 1は、コ一ドデ一夕から、 Lコード、 Gコード、 Iコード、 Aコードを分離し、それぞれを、適応コードブック記憶部 2 2、ゲイン復号器 2 3、励起コードブック記憶部 2 4、フィルタ係数復号器 2 5に供給する。

適応コードブック記憶部 2 2、ゲイン復号器 2 3、励起コードブック記憶部 2 4、演算器 2 6乃至 2 8は、図 1の適応コードブック記憶部 9、ゲイン復号器 1 0、励起コードブック記憶部 1 1、演算器 1 2乃至 1 4とそれぞれ同様に構成されるもので、図 1で説明した場合と同様の処理が行われることにより、 Lコード、 Gコード、および Iコードが、残差信号 eに復号される。この残差信号 eは、音声合成フィル夕 2 9に対して、入力信号として与えられる。

フィル夕係数復号器 2 5は、図 1のベクトル量子化部 5が記憶しているのと同一のコードブックを記憶しており、 Aコードを、線形予測係数ひに復号し、音声合成フィルタ 2 9に供給する。

音声合成フィルタ 2 9は、図 1の音声合成フィル夕 6と同様に構成されており、フィルタ係数復号器 2 5からの'線形予測係数 α _ρ ' をタップ係数とするとともに、演算器 2 8から供給される残差信号 eを入力信号として、式（4 ) を演算し、これにより、図 1の自乗誤差最小判定部 8において自乗誤差が最小と判定されたときの合成音データを生成する。この合成音データは、 D ZA (Di gi tal/Anal og)変換部 3 0に供給される。 D /A変換部 3 0は、音声合成フィルタ 2 9からの合成音データを、ディジタル信号からアナログ信号に D ZA変換し、スピーカ 3 1に供給して出力させる。

なお、コ一ドデータにおいて、 Aコードが、サブフレーム単位でなく、フレーム単位で配置されている場合、図 2の受信部では、フレームを構成する 4つのサブフレームすべての復号に、そのフレームに配置された Aコ一ドに対応する線形予測係数を用いることができる他、各サブフレームについて、隣接するフレームの Aコードに対応する線形予測係数を用いて補間を行い、その補間の結果得られる線形予測係数を、各サブフレームの復号に用いることが可能である。

以上のように、携帯電話機の送信部では、受信部の音声合成フィルタ 2 9に与えられる入力信号としての残差信号と線形予測係数がコード化されて送信されてくるため、受信部では、そのコードが、残差信号と線形予測係数に復号される。しかしながら、この復号された残差信号や線形予測係数（以下、適宜、それぞれを、復号残差信号または復号線形予測係数という）には、量子化誤差等の誤差が含まれるため、音声を L P C分析して得られる残差信号と線形予測係数には一致しない。

このため、受信部の音声合成フィルタ 2 9が出力する合成音デ一夕は、歪み等を有する、音質の劣化したものとなる。発明の開示

本発明は、このような状況に鑑みてなされたものであり、高音質の合成音等を得ることができるようにするものである。

本発明の第 1のデータ処理装置は、所定のデータのうちの注目している注目デ —夕につき、周期情報に応じて、所定のデ一夕を抽出することにより、所定の処理に用いるタップを生成するタップ生成手段と、タップを用いて、注目データについて、所定の処理を行う処理手段とを備えることを特徴とする。

本発明の第 1のデータ処理方法は、所定のデータのうちの注目している注目デ —夕につき、周期情報に応じて、所定のデ一夕を抽出することにより、所定の処理に用いるタップを生成するタップ生成ステップと、タップを用いて、注目デー夕について、所定の処理を行う処理ステップとを備えることを特徴とする。本発明の第 1のプログラムは、所定のデ一夕のうちの注目している注目データにっき、周期情報に応じて、所定のデータを抽出することにより、所定の処理に用いるタップを生成するタップ生成ステップと、タップを ¾いて、注目データについて、所定の処理を行う処理ステップとを備えることを特徴とする。

本発明の第 1の記録媒体は、所定のデ一夕のうちの注目している注目デ一夕につき、周期情報に応じて、所定のデ一夕を抽出することにより、所定の処理に用いるタップを生成するタップ生成ステップと、タップを用いて、注目データについて、所定の処理を行う処理ステップとを備えるプログラムが記録されていることを特徴とする。

本発明の第 2のデータ処理装置は、学習の教師となる教師データから、所定のデータと周期情報を、 '学習の生徒となる生徒データとして生成する生徒デ一夕生成手段と、生徒データとしての所定のデータのうちの注目している注目データにつき、周期情報に応じて、所定のデ一夕を抽出することにより、教師データを予測するのに用いる予測タップを生成する予測夕ップ生成手段と、予測タップと夕ップ係数とを用いて、所定の予測演算を行うことにより得られる教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、タップ係数を求める学習手段とを備えることを特徴とする。

本発明の第 2のデータ処理方法は、学習の教師となる教師デ一夕から、所定のデ一夕と周期情報を、学習の生徒となる生徒デ一夕として生成する生徒データ生成ステップと、生徒デ一夕としての所定のデータのうちの注目している注目デ一夕につき、周期情報に応じて、所定のデータを抽出することにより、教師デ一夕を予測するのに用いる予測夕ップを生成する予測夕ップ生成ステツプと、予測夕ップとタップ係数とを用いて、所定の予測演算を行うことにより得られる教師デ —夕の予測値の予測誤差が、統計的に最小になるように学習を行い、タップ係数を求める学習ステップとを備えることを特徴とする。

本発明の第 2のプログラムは、学習の教師となる教師データから、所定のデ一夕と周期情報を、学習の生徒となる生徒データとして生成する生徒データ生成ステツプと、生徒デー夕としての所定のデータのうちの注目している注目デ一夕につき、周期情報に応じて、所定のデータを抽出することにより、教師デ一タを予測するのに用いる予測タップを生成する予測夕ップ生成ステツプと、予測夕ップとタップ係数とを用いて、所定の予測演算を行うことにより得られる教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、タップ係数を求める学習ステップとを備えることを特徴とする。

本発明の第 2の記録媒体は、学習の教師となる教師データから、所定のデータと周期情報を、学習の生徒となる生徒データとして生成する生徒データ生成ステップと、生徒データとしての所定のデータのうちの注目している注目データにつき、周期情報に応じて、所定のデータを抽出することにより、教師データを予測するのに用いる予測タップを生成する予測タップ生成ステップと、予測タップと夕ップ係数とを用いて、所定の予測演算を行うことにより得られる教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、タップ係数を求める学習ステップとを備えるプログラムが記録されていることを特徴とする。

本発明の第 1のデータ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体においては、所定のデータのうちの注目している注目データにつき、周期情報に応じて、所定のデータを抽出することにより、所定の処理に用いる夕ップが生成され、そのタップを用いて、注目データについて、所定の処理が行われる。

本発明の第 2のデータ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体においては、学習の教師となる教師データから、所定のデータと周期情報が、学習の生徒となる生徒デ一夕として生成される。そして、生徒デ一夕としての所定のデータのうちの注目している注目データにつき、周期情報に応じて、所定のデータを抽出することにより、教師データを予測するのに用いる予測夕ップが生成され、予測タップとタップ係数とを用いて、所定の予測演算を行うことにより得られる教師データの予測値の予測誤差が、統計的に最小になるように学習が行われ、タップ係数が求められる。図面の簡単な説明

' 図 1は、従来の携帯電話機の送信部の一例の'構成を示すブロック図である。図 2は、従来の携帯電話機の受信部の一例の構成を示すブロック図である。図 3は、本発明を適用した伝送システムの一実施の形態の構成例を示す図である。

図 4は、携帯電話機 1 0 1 ,と 1 0 1 ₂の構成例を示すブロック図である。

図 5は、受信部 1 1 4の第 1の構成例を示すブロック図である。

図 6は、図 5の受信部 1 1 4の処理を説明するフローチヤ一トである。

図 7は、予測タップとクラスタップの生成方法を説明する図である。

図 8は、予測タップとクラスタップの生成方法を説明する図である。

図 9は、本発明を適用した学習装置の第 1実施の形態の構成例を示すプロック図である。

図 1 0は、図 9の学習装置の処理を説明するフローチャートである。

図 1 1は、受信部 1 1 4の第 2の構成例を示すブロック図である。

図 1 2 A〜図 1 2 Cは、合成音データの波形の推移を示す図である。

図 1 3は、タップ生成部 3 0 1と 3 0 2の構成例を示すブロック図である。図 1 4は、タップ生成部 3 0 1と 3 0 2の処理を説明するフローチャートである。

図 1 5は、. タップ生成部 3 0 1と 3 0 2の他の構成例を示すブロック図である。図 1 6は、本発明を適用した学習装置の第 2実施の形態の構成例を示すブロック図である。

図 1 7は、タップ生成部 3 2 1と 3 2 2の構成例を示すブロック図である。図 1 8は、受信部 1 1 4の第 3の構成例を示すブロック図である。

図 1 9は、図 1 8の受信部 1 1 4の処理を説明するフローチャートである。図 2 0は、タップ生成部 3 4 1と 3 4 2の構成例を示すブロック図である。図 2 1は、本発明を適用した学習装置の第 3実施の形態の構成例を示すブロック図である。

図 2 2は、図 2 1の学習装置の処理を説明するフローチャートである。

図 2 3は、'本発明を適用したコンピュー夕の一実施の形態の構成例を示すプロック図である。発明を実施するための最良の形態

図 3は、本発明を適用した伝送システム（システムとは、複数の装置が論理的に集合した物をいい、各構成の装置が同一筐体中にあるか否かは問わない）の一実施の形態の構成を示している。

この伝送システムでは、携帯電話機 1 0 1 ,と 1 0 1 ₂が、基地局 1 0 2 ,と 1 0 2 ₂それぞれとの間で、無線による送受信を行うとともに、基地局 1 0 2 ,と 1 0 2 ₂それぞれが、交換局 1 0 3との間で送受信を行うことにより、最終的には，携帯電話機 1 0 1 ,と 1 0 1 ₂との間において、基地局 1 0 2 ,および 1 0 2 ₂、並びに交換局 1 0 3を介して、音声の送受信を行うことができるようになつている。なお、基地局 1 0 2 iと 1 0 2 ₂は、同一の基地局であっても良いし、異なる基地局であっても良い。

ここで、以下、特に区別する必要がない限り、携帯電話機 1 0 1 ,と 1 0 1 ₂を、携帯電話機 1 0 1と記述する。

次に、図 4は、図 3の携帯電話機 1 0 1の構成例を示している。

この携帯電話機 1 0 1では、 CELP方式によって、音声の送受信が行われるようになっている。

即ち、アンテナ 1 1 1は、基地局 1 0 2 _tまたは 1 0 2 ₂からの電波を受信し、その受信信号を、変復調部 1 1 2に供給するとともに、変復調部 1 1 2からの信号を、電波で、基地局 1 0 2 ,または 1 0 2 ₂に送信する。変復調部 1 1 2は、ァンテナ 1 1 1からの信号を復調し、その結果得られる、図 1で説明したようなコ —ドデ一夕を、受信部 1 1 4に供給する。また、変復調^ 1 1 2は、送信部 1 1 3から供給される、図 1で説明したようなコードデ一夕を変調し、その結果得られる変調信号を、アンテナ 1 1 1に供給する。送信部 1 1 3は、図 1に示した送信部と同様に構成され、そこに入力されるュ一ザの音声を、 CELP 方式によって、コードデータに符号化して、変復調部 1 丄 2に供給する。受信部 1 1 4は、変復調部 1 1 2からのコ一ドデータを受信して CELP方式により復号し、さらに、高音質の音声を復号して出力する。

即ち、受信部 1 1 4では、例えば、クラス分類適応処理を利用して、 CELP方式で復号された合成音が、さらに、真の高音質の音声（の予測値）に復号される _c ここで、クラス分類適応処理は、クラス分類処理と適応処理とからなり、クラス分類処理によって、データを、その性質に基づいてクラス分けし、各クラスごとに適応処理を施すものであり、適応処理は、以下のような手法のものである。即ち、適応処理では、例えば、合成音と、所定のタップ係数との線形結合により、高音質の音声の予測値が求められる。具体的には、例えば、いま、高音質の音声（のサンプル値）を教師データとするとともに、その高音質の音声を、 CELP方式によって、 Lコ一ド、 Gコード、 Iコード、および Aコードに符号化し、それらのコードを、図 2に示した受信部で復号することにより得られる合成音を生徒データとして、教師デ一夕である高音質の音声。 yの予測値 E [y] を、幾つかの合成音（のサンプル値） x,， x₂, • · ·の集合と、所定のタップ係数 w,， w₂, · · ·の線形結合により規定される線形 1次結合モデルにより求めることを考える。この場合、予測値 E [y] は、次式で表すことができる。

E Ly ] =^-^! + ^-^₂+ · · · 式（6) を一般化するために、タップ係数の集合でなる行列 W、生徒デー夕 Xijの集合でなる行列 X、および予測値 E [_yj] の集合でなる行列 Y' を、【数 1】

Wi 'E '

w= ₂ E [y₂]

,r =

.E .

で定義すると、次のような観測方程式が成立する。

XW=Y'

(7)

ここで、行列 Xの成分は、 i件目の生徒データの集合（ i件目の教師データの予測に用いる生徒データの集合）の中の： i番目の生徒デ一夕を意味し、行列 Wの成分 Wjは、生徒データの集合の中の j番目の生徒データとの積が演算されるタップ係数を表す。また、 _Yiは、 i件目の教師デ一夕を表し、従って、 E [y,] は、 i件目の教師データの予測値を表す。なお、式（6) の左辺におけ

Σ Ι

る y θは、行列 Yの成分のサフィックス iを省略したものであり、また、式 (6) の右辺における χ,， χ₂， · · ·も、行列 Xの成分のサフィックス i を省略したものである。

そして、この観測方程式に最小自乗法を適用して、真の高音質の音声 yに近い予測値 E [y] を求めることを考える。この場合、教師データとなる真の高音質の音声 yの集合でなる行列 Y、および高音質の音声 yに対する予測値 E [y] の残差 eの集合でなる行列 Eを、

【数 2】

E=

で定義すると、式（7) から、次のような残差方程式が成立する。

XW=Y+E

• · · (8) この場合、元の高音質の音声 yに近い予測値 E [y] を求めるためのタヅプ係数 Wjは、自乗誤差

【数 3】

2 を最小にすることで求めることができる。

従って、上述の自乗誤差をタップ係数 Wjで微分したものが 0になる場合、即ち、次式を満たすタップ係数 Wjが、元の高音質の音声 yに近い予測値 E [y] を求めるため最適値ということになる。

【数 4】 )

(9) そこで、まず、式. （8) を、タップ係数」で分することにより、次式が成立する。

【数 5】

(10) 式（9) および（10) より、式（1 1) が得られる。

【数 6】

… (1 1) さらに、式（8) の残差方程式における生徒データ _Xij、タップ係数 Wj、教師データ _yi、および誤差 _{e i}の関係を考慮すると、式（1 1) から、—次のような正規方程式を得ることができる。

【数 7】

1 I ί 1

(2XiiXi₁)w₁- ( Xi₁Xi2)w2+..-+( xiiXij)wj=(∑x_i yi)

i=1 i=1

T I l I

(∑Xj2Xil)WH-(∑Xi2 i2}W2+-.-+(∑Xi2 ij)Wj=(∑Xi2yi)

… （1 2) なお、式（1 2) に示した正規方程式は、行列（共分散行列） Aおよびべクトル Vを、

【数 8】 '

差替え用紙（規則 26) I I Γ

∑ー I XilXi1 ∑XilXi2 ∑XilXiJ

i=1 X i=1 i=1

X I I

A= ∑Xi2Xi1 ∑Xi2Xi2 ∑Xi2XiJ

i=1 ' i=1 i=1

∑XiJXi2 Zxijxij

i=1 i=1

で定義するとともに、ベクトル Wを、数 1で示したように定義すると、式 .

AW= V ·

… （1 3) で表すことができる。

式（1 2) における各正規方程式は、生徒データ _Xijおよび教師データ _Yiのセットを、ある程度の数だけ用意することで、求めるべきタップ係数 Wjの数 J と同じ数だけたてることができ、従って、式（1 3) を、べクトル Wについて解くことで（伹し、式（1 3) を解くには、式（1 3) における行列 Aが正則である必要がある）、最適なタップ係数（ここでは、自乗誤差を最小にするタップ係' 数）を求めることができる。なお、式（ 1 3 ) 'を解くにあたっては、例えば、掃き出し法（Gauss- Jordanの消去法）などを用いることが可能である。

以上のようにして、最適なタップ係数 _Wjを求めておき、さらに、そのタップ

差替え甩紙（規則 26) 係数 Wjを用い、式（6 ) により、真の高音質の音声 yに近い予測値 E [ y ] を求めるのが適応処理である。

なお、例えば、教師デ一夕として、高いサンプリング周波数でサンプリングした音声信号、または多ピットを割り当てた音声信号を用いるとともに、生徒デー夕として、その教師データとしての音声信号を間引いたり、低ビットで再量子化したした音声信号を C E L P方式により符号化し、その符号化結果を復号して得られる合成音を用いた場合、タップ係数としては、高いサンプリング周波数でサンプリングした音声信号、または多ビットを割り当てた音声信号を生成するのに、予測誤差が、統計的に最小となる高音質の音声が得られることになる。従って、この場合、より高音質の合成音を得ることが可能となる。

図 4の受信部 1 1 4では、以上のようなクラス分類適応処理により、コードデ一夕を復号して得られる合成音を、さらに、高音質の音声に復号するようになつている。

即ち、図 5は、図 4の受信部 1 1 4の第 1の構成例を示している。なお、図中、図 2における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。

タップ生成部 1 2 1と 1 2 2には、音声合成フィルタ 2 9が出力する、サブフレームごとの合成音データと、チャネルデコーダ 2 1が出力する、サブフレームごとの Lコード、 Gコード、 Iコード、 Aコ一ドのうちの Lコードとが供給されるようになっている。タップ生成部 1 2 1と 1 2 2は、そこに供給される合成音データから、高音質の音声の予測値を予測するのに用いる予測タップとするものと、クラス分類に用いるクラスタップとするものを、 Lコードに基づいて、それぞれ抽出する。予測タップは、予測部 1 2 5に供給され、クラスタップは、クラス分類部 1 2 3に供給される。

クラス分類部 1 2 3は、タップ生成部 1 2 2から供給されるクラスタップに基づいて、クラス分類を行い、そのクラス分類結果としてのクラスコードを、係数メモリ 1 2 4に供給する。ここで、クラス分類部 1 2 3におけるクラス分類の方法としては、例えば、 K ビット ADRC (Adap t ive Dynami c Range Cod ing)処理を利用した方法等がある。

ここで、 Kビット ADRC処理においては、例えば、クラスタップを構成するデ —夕の最大値 MAXと最小値 MINが検出され、 DR-MAX- MINを、集合の局所的なダイナミックレンジとし、このダイナミックレンジ DRに基づいて、クラスタップを構成する各データが Kビットに再量子化される。即ち、クラスタップを構成する各デ一夕から、最小値 MINが減算され、その減算値が DR/2^Kで除算（量子化）される。そして、以上のようにして得られる、クラスタップを構成する各データの Kビットの値を、所定の順番で並べたビット列が、 ADRCコードとして出力される。

このような Kビット ADRC処理を、クラス分類に利用する場合には、例えば、その Kビット ADRC処理の結果得られる ADRCコードを、クラスコードとすることが可能である。

なお、クラス分類は、その他、例えば、クラスタップを、それを構成する各デ —夕を要素とするベクトルと見なして、そのベクトルとしてのクラスタップをべクトル量子化すること等によって行うことも可能である。

係数メモリ 1 2 4は、後述する図 9の学習装置において学習処理が行われることにより得られる、クラスごとのタップ係数を記憶しており、クラス分類部 1 2 3が出力するクラスコードに対応するァドレスに記憶されているタップ係数を、予測部 1 2 5に供給する。

予測部 1 2 5は、タップ生成部 1 2 1が出力する予測タップと、係数メモリ 1 2 4が出力するタツプ係数とを取得し、その予測夕ップとタツプ係数とを用いて、式（6 ) に示した線形予測演算を行う。これにより、予測部 1 2 5は、注目している注目サブフレームについて、高音質の音声（の予測値）を求めて、 D ZA変換部 3 0に供給する。

次に、図 6のフローチャートを参照して、図 5の受信部 1 1 4の処理について説明する。チャネルデコーダ 2 1は、そこに供給されるコードデータから、 Lコ一ド、 G コード、 Iコード、 Aコードを分離し、それぞれを、適応コードブック記憶部 2 2、ゲイン復号器 2 3、励起コードブック記憶部 2 4、フィルタ係数復号器 2 5 に供給する。さらに、 Lコ一ドは、夕ップ生成部 1 2 1および 1 2 2にも供給される。

そして、適応コードブック記憶部 2 2、ゲイン復号器 2 3、励起コードブック記憶部 2 4、演算器 2 6乃至 2 8は、図 2における場合と同様の処理を行い、これにより、 Lコード、 Gコード、および Iコードが、残差信号 eに復号される。この残差信号は、音声合成フィルタ 2 9に供給される。

さらに、フィルタ係数復号器 2 5は、図 2で説明したように、そこに供給される Aコードを、線形予測係数に復号し、音声合成フィルタ 2 9に供給する。音声合成フィルタ 2 9は、演算器 2 8からの残差信号と、フィルタ係数復号器 2 5からの線形予測係数を用いて音声合成を行い、その結果得られる合成音を、タップ生成部 1 2 1と 1 2 2に供給する。

タップ生成部 1 2 1は、音声合成フィルタ 2 9が順次出力する合成音のサブフレームを、順次、注目サブフレームとし、ステップ S 1において、その注目サブフレームの合成音データを抽出するとともに、その注目サブフレームから見て時間的に過去方向または未来方向の合成音デ一夕を、そこに供給される Lコードに基づいて抽出することにより、予測タップを生成し、予測部 1 2 5に供給する。さらに、ステップ S 1では、タップ生成部 1 2 2が、例えば、やはり、注目サブフレームの合成音データを抽出するとともに、その注目サブフレームから見て時間的に過去方向または未来方向の合成音デ一夕を、そこに供給される Lコードに基づいて抽出することにより、クラスタップを生成し、クラス分類部 1 2 3に供給する。

そして、ステップ S 2に進み、クラス分類部 1 2 3は、タップ生成部 1 2 2から供給されるクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、係数メモリ 1 2 4に供給して、ステップ S 3に進む。ステップ S 3では、係数メモリ 1 2 4は、クラス分類部 1 2 3から供給されるクラスコードに対応するアドレスから、タップ係数を読み出し、予測部 1 2 5に供給する。

そして、ステップ S 4に進み、予測部 1 2 5は、係数メモリ 1 2 4が出力するタップ係数を取得し、そのタップ係数と、タップ生成部 1 2 1からの予測タップとを用いて、式（6 ) に示した積和演算を行い、注目サブフレームの高音質の音声デ一夕（の予測値）を得る。

なお、ステップ S 1乃至 S 4の処理は、注目サブフレームの合成音デ一夕のサンプル値それぞれを、注目デ一夕として行われる。即ち、サブフレームの合成音データは、前述したことから、 4 0サンプルで構成されるから、その 4 0サンプルの合成音データそれぞれについて、ステップ S 1乃至 S 4の処理が行われる。以上のようにして得られた高音質の音声デ一夕は、予測部 1 2 5から、 D ZA 変換部 3 0を介して、スピーカ 3 1に供給され、これにより、スピーカ 3 1からは、高音質の音声が出力される。

ステップ S 4の処理後は、ステップ S 5に進み、まだ、注目サブフレームとして処理すべきサブフレームがあるかどうかが判定され、あると判定された場合、ステップ S 1に戻り、次に注目サブフレームとすべきサブフレームを、新たに注目サブフレームとして、以下、同様の処理を繰り返す。また、ステップ S 5において、注目サブフレームとして処理すべきサブフレームがないと判定された場合、処理を終了する。

次に、図 7および図 8を参照して、図 5のタップ生成部 1 2 1での予測タップの生成方法について説明する。

タップ生成部 1 2 1は、例えば、図 7に示すように、注目サブフレームにおける 4 0サンプルの合成音データを抽出するとともに、注目サブフレームから、その注目サブフレームに配置されている Lコードが表すラグだけ過去の位置を始点とする 4 0サンプルの合成音データ（以下、適宜、ラグ対応の過去データという）を抽出し、注目データについての予測タップとする。あるいは、タップ生成部 1 2 1は、例えば、図 8に示すように、注目サブフレ —ムの 4 0サンプルの合成音デ一夕を抽出するとともに、 Lコードが表すラグだけ過去の位置が注目サブフレーム内の合成音データ（例えば、注目データ等）の位置となる Lコードが配置された、注目サブフレームから見て未来方向のサブフレームに配置された 4 0サンプルの合成音データ（以下、適宜、ラグ対応の未来データという）を抽出し、注目データについての予測タップとする。

また、タップ生成部 1 2 1は、例えば、注目サブフレームの合成音データ、ラグ対応の過去データ、およびラグ対応の未来データを抽出し、注目データについての予測タップとする。

ここで、注目データを、クラス分類適応処理によって予測するにあたり、注目サブフレームの合成音データの他、注目サブフレーム以外のサブフレームの合成音データを、予測タップとして用いることにより、より高音質の音声を得ることができると考えられる。そして、この場合、予測タップは、例えば、単純に、注目サブフレームの合成音データの他、注目サブフレームの直前と直後のサブフレームの合成音データによって構成することが考えられる。

しかしながら、このように、予測タップを、単純に、注目サブフレームの合成音デ一夕、および注目サブフレームの直前と直後のサブフレームの合成音データによって構成する場合には、予測タップの構成の仕方に、合成音データの波形特性がほとんど考慮されていないことから、その分、高音質化に影響が生じると考えられる。

そこで、タップ生成部 1 2 1は、上述のように、予測タップとする合成音デー夕を、 Lコ一ドに基づいて抽出するようになっている。

即ち、サブフレームに配置されている Lコードが表すラグ（長期予測ラグ）は、注目デ一夕部分の合成音の波形が、過去のどの時点における合成音の波形に類似しているかを表すので、注目デ一夕の部分の波形と、ラグ対応の過去デ一夕ゃラグ対応の未来データの部分の波形とは、大きな相関性を有する。

従って、予測タップを、注目サブフレームの合成音デ一夕と、その合成音データに対して大きな相関を有するラグ対応の過去データもしくはラグ対応の未来デ一夕のうちの一方または両方とによって構成することにより、さらに高音質の音声を得ることが可能となる。

ここで、図 5のタップ生成部 1 2 2においても、例えば、タップ生成部 1 2 1 における場合と同様にして、注目サブフレームの合成音データと、ラグ対応の過去データもしくはラグ対応の未来デ一夕のうちの一方または両方とからクラスタップを生成することが可能であり、図 5の実施の形態では、そのようになっている。

なお、予測タップやクラスタップの構成パターンは、上述したパターンのものに限定されるものではない。即ち、予測タップやクラスタップには、注目サブフレームのすべての合成音デ一夕を含める他、 1サンプルおき等の合成音データだけを含めるようにしたり、注目サブフレームに配置されている Lコードが表すラグだけ過去の位置のサブフレームから、そのサブフレームに配置されている Lコ —ドが表すラグだけ過去の位置のサブフレームの合成音データ等を含めるようにすること等が可能である。

また、上述の場合には、クラスタップと予測タップを同一構成にするようにしたが、クラスタップと予測タップは、異なる構成とすることができる。

さらに、上述の場合には、 Lコードが表すラグだけ過去の位置が注目ブフレーム内の合成音データ（例えば、注目デ一夕等）の位置となる Lコードが配置された、注目サブフレームから見て未来方向のサブフレームに配置された 4 0サンプルの合成音デ一夕を、ラグ対応の未来データとして、予測タップに含めるようにしたが、ラグ対応の未来データとしては、その他、例えば、次のような合成音データを用いるようにすることも可能である。

即ち、 C E L P方式において符号化データに含まれる Lコードは、上述したように、その Lコードが配置されているサブフレームの合成音データの波形と類似する過去の合成音デ一夕の位置を表すが、符号化データには、そのような過去の類似波形の位置を表す Lコードの他、未来の類似波形の位置を表す Lコード（以下、適宜、未来 Lコードという）を含めるようにすることが可能である。この場合、注目デ一夕についてのラグ対応の未来データとしては、注目サブフレームに配置されている未来 Lコードが表すラグだけ未来の位置にある合成音データを始点とする 1以上のサンプルを用いることが可能である。

次に、図 9は、図 5の係数メモリ 1 2 4に記憶させるタップ係数の学習処理を行う学習装置の一実施の形態の構成例を示している。

マイク 2 0 1乃至コード決定部 2 1 5は、図 1のマイク 1乃至コード決定部 1 5とそれぞれ同様に構成される。マイク 1には、学習用の音声信号が入力されるようになつており、従って、マイク 2 0 1乃至コード決定部 2 1 5では、その学習用の音声信号に対して、図 1における場合と同様の処理が施される。

但し、コ一ド決定部 2 1 5は、 Lコード、 Gコード、 Iコード、および Aコ一ドのうち、本実施の形態において予測夕ップゃクラスタツプを構成する合成音デ —夕を抽出するのに用いられる Lコードだけを出力するようになっている。

そして、タップ生成部 1 3 1と 1 3 2には、自乗誤差最小判定部 2 0 8において自乗誤差が最小になったと判定されたときの音声合成フィル夕 2 0 6が出力する合成音デ一夕が供給される。さらに、タップ生成部 1 3 1と' 1 3 2には、コード決定部 2 1 5が、自乗誤差最小判定部 2 0 8から確定信号を受信したときに出力する Lコードも供給される。また、正規方程式加算回路 1 3 4には、 AZD変換部 2 0 2が出力する音声データが、教師データとして供給ざれる。

タップ生成部 1 3 1は、音声合成フィルタ 2 0 6が出力する合成音データから、コード決定部 2 1 5が出力する Lコードに基づいて、図 5のタップ生成部 1 2 1 における場合と同一の予測タップを生成し、生徒データとして、正規方程式加算回路 1 3 4に供給する。

タップ生成部 1 3 2も、音声合成フィルタ 2 0 6が出力する合成音データから，コード決定部 2 1 5が出力する Lコードに基づいて、図 5のタップ生成部 1 2 2 における場合と同一のクラスタップを生成し、クラス分類部 1 3 3に供給する。クラス分類部 1 3 3は、タップ生成部 1 3 2からのクラスタップに基づいて、図 5のクラス分類部 1 2 3における場合と同様のクラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路 1 3 4に供給する。

正規方程式加算回路 1 3 4は、 A/D変換部 2 0 2からの音声データを、教師データとして受信するとともに、タップ生成部 1 3 1からの予測タップを、生徒データとして受信し、その教師データおよび生徒デ一夕を対象として、クラス分類部 1 3 3からのクラスコ一ドごとに足し込みを行う。

即ち、正規方程式加算回路 1 3 4は、クラス分類部 1 3 3から供給されるクラスコードに対応するクラスごとに、予測タップ（生徒データ）を用い、式（1 3 ) の行列 Aにおける各コンポーネントとなっている、生徒データどうしの乗算 ( x _in x _ini) と、サメ一シヨン（∑) に相当する演算を行う。

さらに、正規方程式加算回路 1 3 4は、やはり、クラス分類部 1 3 3から供給されるクラスコードに対応するクラスごとに、生徒データおよび教師デ一夕を用レ、式（1 3 ) のベクトル Vにおける各コンポーネントとなっている、生徒デー夕と教師デ一夕の乗算（x _iny i) と、サメ一シヨン（∑) に相当する演算を行う。正規方程式加算回路 1 3 4は、以上の足し込みを、そこに供給される学習用の音声データのサブフレームすべてを注目サブフレームとし、かつその注目サブフレームの音声データすベてを注目データとして行い、これにより、各クラスについて、式（1 3 ) に示した正規方程式をたてる。

タップ係数決定回路 1 3 5は、正規方程式加算回路 1 3 4においてクラスごとに生成された正規方程式を解くことにより、クラスごとに、タップ係数を求め、係数メモリ 1 3 6の、各クラスに対応するアドレスに供給する。

なお、学習用の音声信号として用意した音声信号によっては、正規方程式加算回路 1 3 4において、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じる場合があり得るが、タップ係数決定回路 1 3 5は、そのようなクラスについては、例えば、デフォルトのタップ係数を出力する。

係数メモリ 1 3 6は、タップ係数決定回路 1 3 5から供給されるクラスごとのタップ係数を、そのクラスに対応するアドレスに記憶する。次に、図 1 0のフローチャートを参照して、図 9の学習装置で行われる、高音質の音声を復号するためのタップ係数を求める学習処理について説明する。

学習装置には、学習用の音声信号が供給され、ステップ S 1 1では、その学習用の音声信号から、教師データと生徒データが生成される。

即ち、学習用の音声信号は、マイク 2 0 1に入力され、マイク 2 0 1乃至コ一ド決定部 2 1 5は、図 1のマイク 1乃至コード決定部 1 5における場合とそれぞれ同様の処理を行う。

その結果、 AZD変換部 2 0 2で得られるディジタル信号の音声データは、教師データとして、正規方程式加算回路 1 3 4に供給される。また、自乗誤差最小判定部 2 0 8において自乗誤差が最小になったと判定されたときに、音声合成フィルタ 2 0 6が出力する合成音データは、生徒デ一夕として、タップ生成部 1 3 1と 1 3 2に供給される。さらに、自乗誤差最小判定部 2 0 8において自乗誤差が最小になったと判定されたときに、コード決定部 2 1 5が出力する Lコードも、生徒データとして、タップ生成部 1 3 1と 1 3 2に供給される。

その後、ステップ S 1 2に進み、タップ生成部 1 3 1は、音声合成フィルタ 2 0 6から生徒デ一夕として供給される合成音のサブフレームを注目サブフレームとし、さらに、その注目サブフレームの合成音デ一夕を、順次、注目デ一夕として、各注目データについて、音声合成フィルタ 2 0 6からの合成音デ一夕を用い、コード決定部 2 1 5からの Lコードに基づいて、図 5のタップ生成部 1 2 1における場合と同様にして、予測タップを生成し、正規方程式加算回路 1 3 4に供給する。さらに、ステップ S 1 2では、タップ生成部 1 3 2が、やはり、合成音デ —夕を用い、 Lコードに基づいて、図 5のタップ生成部 1 2 2における場合と同様にして、クラスタップを生成し、クラス分類部 1 3 3に供給する。

ステップ S 1 2の処理後は、ステップ S 1 3に進み、クラス分類部 1 3 3が、タップ生成部 1 3 2からのクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路 1 3 4に供給する。

そして、ステップ S 1 4に進み、正規方程式加算回路 1 3 4は、 AZD変換器 2 0 2からの教師データとしての高音質の音声データである学習用の音声データのうちの注目データに対応するもの、およびタップ生成部 1 3 2からの生徒デー夕としての予測タップを対象として、式（1 3 ) の行列 Aとベクトル Vの、上述したような足し込みを、クラス分類部 1 3 3からの注目データについてのクラスコードごとに行い、ステップ S 1 5に進む。

ステップ S 1 5では、まだ、注目サブフレームとして処理すべきサブフレームがあるかどうかが判定される。ステップ S 1 5において、まだ、注目サブフレームとして処理すべきサブフレームがあると判定された場合、ステップ S 1 1に戻り、次のサブフレームを新たに注目サブフレームとして、以下、同様の処理が繰り返される。

また、ステップ S 1 5において、注目サブフレームとして処理すべきサブフレームがないと判定された場合、ステップ S 1 6に進み、タップ係数決定回路 1 3 5は、正規方程式加算回路 1 3 4で各クラスごとに生成された正規方程式を解くことにより、各クラスごとに、タップ係数を求め、係数メモリ 1 3 6の、各クラスに対応するアドレスに供給して記憶させ、処理を終了する。

以上のようにして、係数メモリ 1 3 6に記憶された各クラスごとのタップ係数が、図 5の係数メモリ 1 2 4に記憶されている。

以上のように、図 5の係数メモリ 1 2 4に記憶されたタップ係数は、線形予測演算を行うことにより得られる高音質の音声予測値の予測誤差（自乗誤差）が、統計的に最小になるように学習を行うことにより求められたものであるから、図 5の予測部 1 2 5が出力する音声は、高音質のものとなる。

なお、例えば、図 5および図 9の実施の形態では、予測タップやクラスタップを、音声合成フィルタ 2 0 6が出力する合成音データから構成するようにしたが、予測タップやクラスタップは、図 5および図 9において点線で示すように、 Iコ —ドや、 Lコード、 Gコード、 Aコード、 Aコードから得られる線形予測係数 a _p、 Gコードから得られるゲイン /3， T、その他の、 Lコ一ド、 Gコード、 Iコード、または Αコードから得られる情報（例えば、残差信号 eや、残差信号 eを得るための n、さらには、 1 Ζ β , η Ζ τなど）のうちの 1以上を含めて構成することが可能である。また、 C E L P方式では、符号化デ一夕としてのコードデータに、リスト補間ビットゃフレームエネルギ等が含められる場合があるが、この場合、予測タップやクラスタップは、ソフト補間ピットやフレームエネルギ等を含めて構成することも可能である。

次に、図 1 1は、図 4の受信部 1 1 4の第 2の構成例を示している。なお、図中、図 5における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図 1 1の受信部 1 1 4は、タップ生成部 1 2 1と 1 2 2に替えて、タップ生成部 3 0 1と 3 0 2がそれぞれ設けられている他は、図 5における場合と同様に構成されている。

図 5の実施の形態においては、タップ生成部 1 2 1や 1 2 2において（図 9のタップ生成部 1 3 1と 1 3 2においても同様）、予測タップやクラスタップが、注目サブフレームにおける 4 0サンプルの合成音データの他、ラグ対応の過去デ一夕もしくはラグ対応の未来データのうちの一方または両方から構成されるが、ラグ対応の過去データだけ、ラグ対応の未来データだけ、またはその両方のうちのいずれを予測タップやクラスタップに含めるかを、特に制御するようにはなつていないことから、いずれを含めるかを、あらかじめ決めておき、固定にしておく必要がある。

しかしながら、注目サブフレームを含むフレーム（以下、適宜、注目フレームという）等が、例えば、発話の開始時等に相当する場合には、図 1 2 Aに示すように、注目フレームよりも過去のフレーム等は、無音の状態（雑音だけが存在するのと等しい状態）となっていると考えられる。同様に、注目フレームが、例えば、発話の終了時等に相当する場合には、図 1 2 Bに示すように、注目フレームよりも未来のフレーム等は、無音の状態となっていると考えられる。そして、このような無音部分については、予測タップやクラスタップに含めても、音質の向上にほとんど寄与せず、むしろ、最悪の場合には、音質の向上を妨げるおそれがある。一方、注目フレームが、発話の開始時や終了時等以外の定常な発話が行われている状態に相当する場合には、図 1 2 Cに示すように、注目フレームから過去方向および未来方向のいずれにも、定常的な音声に相当する合成音データが存在すると考えられる。そして、このような場合には、ラグ対応の過去データと、ラグ対応の未来デ一夕のうちのいずれか一方だけでなく、その両方を、予測タップやクラスタップに含めることによって、さらなる音質の向上を図ることができると考えられる。

そこで、図 1 1のタップ生成部 3 0 1と 3 0 2は、合成音データの波形の推移が、例えば、図 1 2 A乃至図 1 2 Cに示したうちのいずれであるかを判定し、その判定結果に基づいて、予測タップとクラスタップを、それぞれ生成するようになっている。

即ち、図 1 3は、図 1 1のタップ生成部 3 0 1の構成例を示している。

合成音メモリ 3 1 1には、音声合成フィルタ 2 9 (図 1 1 ) が出力する合成音デ一夕が順次供給されるようになっており、合成音メモリ 3 1 1は、その合成音データを、順次記憶する。なお、合成音メモリ 3 1 1は、注目データとされる合成音デ一夕について予測タップとされる可能性のある合成音データのうちの、最も過去のサンプルから、最も未来のサンプルまでの間の合成音デ一タを記憶することのできる記憶容量を少なくとも有している。また、合成音メモリ 3 1 1は、その記憶容量分だけ、合成音デ一夕を記憶すると、次に供給される合成音データを、最も古い記憶値に上書きする形で記憶するようになっている。

Lコードメモリ 3 1 2には、チャネルデコーダ 2 1 (図 1 1 ) が出力するサブフレーム単位の Lコードが順次供給されるようになっており、 Lコードメモリ 3 1 2は、その Lコードを、順次記憶する。なお、 Lコ一ドメモリ 3 1 2は、注目デ一夕とされる合成音デ一夕について予測タップとされる可能性のある合成音デ一夕のうちの、最も過去のサンプルが配置されるサブフレームから、最も未来のサンプルが配置されるサブフレームまでの間の Lコードを記憶することのできる記憶容量を少なくとも有しており、また、その記憶容量分だけ、 Lコードを記憶すると、次に供給される Lコードを、最も古い記憶値に上書きする形で記憶するようになっている。

フレームパワー計算部 3 1 3は、合成音メモリ 3 1 1に記憶された合成音デー夕を用い、所定のフレーム単位で、そのフレームにおける合成音データのパワーを求め、バッファ 3 1 4に供給する。なお、フレームパヮ一計算部 3 1 3でパヮ一を求める単位であるフレームは、 CELP方式におけるフレームやサブフレームに一致していても良いし、一致していなくても良い。従って、フレームパワー計算部 3 1 3でパワーを求める単位であるフレームは、 CELP方式におけるフレームを構成する 1 6 0サンプルや、サブフレームを構成する 4 0サンプル以外の値である、例えば、 1 2 8サンプル等で構成することが可能である。但し、本実施の形態では、説明を簡単にするため、フレームパヮ一計算部 3 1 3でパワーを求める単位であるフレームは、 CELP 方式におけるフレームと一致するものとする。バッファ 3 1 4は、フレームパワー計算部 3 1 3から順次供給される合成音デ —夕のパヮ一を、順次記憶する。なお、バッファ 3 1 4は、少なくとも、注目フレーム、およびその直前と直後のフレームの、合計で 3フレーム分の合成音デ一夕のパワーを記憶することができるようになつており、また、その記憶容量分だけ、パワーを記憶すると、次にフレームパワー計算部 3 1 3から供給されるパヮ一を、最も古い記憶値に上書きする形で記憶するようになっている。

状態判定部 3 1 5は、バッファ 3 1 4に記憶されたパワーに基づき、注目デー夕付近の合成音データの波形の推移を判定する。即ち、状態判定部 3 1 5は、注目デ一タ付近の合成音データの波形の推移が、図 1 2 Aに示したように、注目フレームの直前のフレームが無音の状態（以下、適宜、立ち上がり状態という）、図 1 2 Bに示したように、注目フレームの直後のフレームが無音の状態（以下、適宜、たち下がり状態という）、または図 1 2 Cに示したように、注目フレームの直前から直後にかけて定常になっている状態（以下、適宜、定常状態という）のうちのいずれの状態になっているかを判定する。そして、状態判定部 3 1 5は、その判定結果を、データ抽出部 3 1 6に供給する。デ一夕抽出部 3 1 6は、合成音メモリ 3 1 1から、注目ブフレームの合成音デ一夕を読み出すことにより抽出する。さらに、デ一タ抽出部 3 1 6は、状態判定部 3 1 5からの波形の推移の判定結果に基づき、 Lコードメモリ 3 1 2を参照して、合成音メモリ 3 1 1から、ラグ対応の過去データもしくはラグ対応の未来デ一夕のうちの一方または両方を読み出すことにより抽出する。そして、データ抽出部 3 1 6は、合成音メモリ 3 1 1から読み出した注目サブフレームの合成音データと、ラグ対応の過去デ一夕もしくはラグ対応の未来データのうちの一方または両方とを、予測タップとして出力する。

次に、図 1 4のフローチャートを参照して、図 1 3のタップ生成部 3 0 1の処理について説明する。

合成音メモリ 3 1 1には、音声合成フィルタ 2 9 (図 1 1 ) が出力する合成音データが順次供給され、合成音メモリ 3 1 1は、その合成音データを、順次記憶する。また、 Lコ一ドメモリ 3 1 2には、チャネルデコーダ 2 1 (図 1 1 ) が出力するサブフレ一ム単位の Lコードが順次供給され、 Lコードメモリ 3 1 2は、その Lコードを、順次記憶する。

一方、フレームパワー計算部 3 1 3は、合成音メモリ 3 1 1に記憶された合成音データを、フレーム単位で順次読み出し、各フレームにおける合成音データのパワーを求めて、' バッファ 3 1 4に記憶させている。

そして、状態判定部 3 1 5は、ステップ S 2 1において、バッファ 3 1 4力、ら、注目フレームのパワー P _N、その直前のフレームのパワー P ^ およびその直後のフレームのパワー P _N+1を読み出し、注目フレームのパヮ一 P _Nと、直前のフレ —ムのパヮ一 P _N— ,との差分値 P _N— を計算するとともに、直後のフレームのパワー Ρ _η+ιと、注目フレームのパワー Ρ _ηとの差分値 Ρ„₊₁— Ρ _πとを計算して、ステツプ S 2 2に進む。

ステップ S 2 2では、状態判定部 3 1 5は、差分値 Ρ _Η— Ρ >Ηの絶対値、および差分値 Ρ _η+1— Ρ _ηの絶対値が、いずれも、所定の閾値 εよりも大であるか（以上であるか）どうかを判定する。ステップ S 2 2において、差分値 P _n— の絶対値、または差分値

の絶対値のうちの少なくとも一方が、所定の閾値 εより大でないと判定された場合、状態判定部 3 1 5は、注目データ付近の合成音データの波形の推移が、図 1 2 Cに示したように、注目フレームの直前から直後にかけて定常になっている定常状態になっていると判定し、その旨を表す「定常状態」メッセージを、データ抽出部 3 1 6に供給して、ステップ S 2 3に進む。

ステップ S 2 3では、データ抽出部 3 1 6は、状態判定部 3 1 5から「定常状態」メッセ一ジを受信すると、合成音メモリ 3 1 1から、注目サブフレームの合成音データを読み出すとともに、さらに、 Lコードメモリ 3 1 2を参照して、ラグ対応の過去デ一夕およびラグ対応の未来データとしての合成音データを読み出す。そして、データ抽出部 3 1 6は、これらの合成音デ一夕を予測タップとして出力し、処理を終了する。

また、ステップ S 2 2において、差分値 Ρ _η— Ρ _η の絶対値、および差分値 Ρ _η+ ,一 Ρ _ηの絶対値が、いずれも、所定の閾値 εより大であると判定された場合、ステツプ S 2 4に進み、状態判定部 3 1 5は、差分値 Ρ _η_ Ρ _η—【と、差分値 Ρ _η+1— Ρ„が、いずれも正であるかどうかを判定する。ステップ S 2 4において、差分値 Ρ _η— と、差分値 Ρ _η+1— Ρ _πが、いずれも正であると判定された場合、状態判定部 3 1 5は、注目データ付近の合成音データの波形の推移が、図 1 2 Αに示したように、注目フレームの直前のフレームが無音の状態である立ち上がり状態になっていると判定し、その旨を表す「立ち上がり状態」メッセージを、データ抽出部 3 1 6に供給して、ステップ S 2 5に進む。

ステップ S 2 5では、デ一夕抽出部 3 1 6は、状態判定部 3 1 5から「立ち上がり状態」メッセージを受信すると、合成音メモリ 3 1 1から、注目サブフレームの合成音データを読み出すとともに、さらに、 Lコードメモリ 3 1 2を参照して、ラグ対応の未来データとしての合成音データを読み出す。そして、データ抽出部 3 1 6は、これらの合成音データを予測タップとして出力し、処理を終了する。一方、ステップ S 24において、差分値 Ρ_π— P„— ,と、差分値 Ρ_η+1— Ρ_ηのうちの少なくとも一方が、正でないと判定された場合、ステップ S 26に進み、状態判定部 31 5は、差分値 Ρ_η— Ρ_η— ,と、差分値 Ρ_η+1— Ρ_ηが、いずれも負であるかどうかを判定する。ステップ S 26において、差分値 Ρ_η_Ρ_η— ,と、差分値 P_n+1 一 P_nのうちの少なくとも一方が、負でないと判定された場合、状態判定部 31 5は、注目データ付近の合成音データの波形の推移が、定常状態になっていると判定し、その旨を表す「定常状態」メッセージを、データ抽出部 3 16に供給して、ステップ S 23に進む。

ステップ S 23では、データ抽出部 3 1 6は、上述したように、合成音メモリ 31 1から、注目サブフレームの合成音データと、ラグ対応の過去データおよびラグ対応の未来データを読み出し、予測タップとして出力して、処理を終了する。また、ステップ S 26において、差分値 P_n— と、差分値 Ρ_η+1— Ρ_ηが、いずれも負であると判定された場合、状態判定部 3 15は、注目データ付近の合成音データの波形の推移が、図 12 Bに示したように、注目フレームの直後のフレ —ムが無音の状態である立ち下がり状態になっていると判定し、その旨を表す「立ち下がり状態」メッセージを、データ抽出部 31 6に供給して、ステップ S 27に進む。

ステップ S 27では、データ抽出部 316は、状態判定部 315から「立ち下がり状態」メッセージを受信すると、合成音メモリ 3 1 1から、注目サブフレームの合成音データを読み出すとともに、さらに、 Lコードメモリ 3 12を参照して、ラグ対応の過去デ一夕としての合成音データを読み出す。そして、データ抽出部 316は、これらの合成音データを予測タップとして出力し、処理を終了する。

なお、図 1 1のタップ生成部 302も、図 13に示したタップ生成部 30 1と同様に構成することができ、この場合、図 14で説明したようにして、クラス夕ップを構成させることができる。但し、図 13において、合成音メモリ 3 1 1、 Lコ一ドメモリ 312、フレーパワー計算部 31 3、バッファ 314、および状態判定部 3 1 5は、タップ生成部 3 0 1と 3 0 2とで兼用することが可能である。また、上述の場合には、注目フレームと、その直前または直後のフレームそれぞれとにおけるパヮ一を比較して、注目データ付近の合成音データの波形の推移を判定するようにしたが、注目データ付近の合成音データの波形の推移を判定は、その他、例えば、注目フレームと、より過去または未来に亘るフレームそれぞれとにおけるパヮ一を比較して行うことも可能である。

さらに、上述の場合には、注目データ付近の合成音データの波形の推移を、「定常状態」、「立ち上がり状態」、または「たち下がり状態」の 3つの状態のうちのいずれかに判定するようにしたが、 4以上の状態のいずれかに判定することも可能である。即ち、例えば、図 1 4では、ステップ S 2 2において、差分値 P _n— の絶対値、および差分値 P _n+1— P _nの絶対値を、いずれも、 1つの閾値 εと比較し、その大小関係を判定しているが、差分値 Ρ _η— の絶対値や、差分値 Ρ _η+1— Ρ _ηの絶対値を、複数の閾値と比較するようにすることで、注目デー夕付近の合成音デ一夕の波形の推移を、 4以上の状態のいずれかに判定することが可能である。

そして、このように、注目データ付近の合成音データの波形の推移を、 4以上の状態のいずれかに判定する場合においては、予測タップは、注目サブフレームの合成音データと、ラグ対応の過去データまたはラグ対応の未来データの他、例えば、そのラグ対応の過去データまたはラグ対応の未来データを注目データとしたときに、ラグ対応の過去データまたはラグ対応の未来データとなる合成音デ一タを含めて構成すること等が可能である。

ところで、タップ生成部 3 0 1において、以上のように予測タップを生成する場合には、その予測タップを構成する合成音データのサンプル数は変化する。このことは、タップ生成部 3 0 2において生成されるクラスタップについても同様である。

予測タップについては、それを構成するデ一夕の数（タップ数）が変化しても、その予測タップと同一の数のタップ係数を、後述する図 1 6の学習装置において学習し、係数メモリ 1 2 4に記憶させておけば良いから問題はない。

一方、クラスタップについては、それを構成するタップ数が変化すると、各夕ップ数のクラスタップごとに得られる全クラス数が変化することから、処理が複雑になるおそれがある。そこで、クラスタップのタップ数が変化しても、そのクラスタップにより得られるクラス数が変化しないようなクラス分類を行うのが望ましい。

このように、クラスタップのタップ数が変化しても、そのクラスタップにより得られるクラス数が変化しないようなクラス分類を行う方法としては、クラス分類において、例えば、クラスタップの構成を考慮する方法がある。

即ち、本実施の形態では、クラスタップが、注目サブフレームの合成音デ一夕の他に、ラグ対応の過去デ一夕もしくはラグ対応の未来データの一方または両方を含めて構成されることによって、クラスタップのタップ数が増減する。そこで、例えば、いま、クラスタップが、注目サブフレームの合成音デ一夕と、ラグ対応の過去デ一夕もしくはラグ対応の未来デー夕の一方とから構成される場合に、そのタップ数が S個であるとし、クラスタップが、注目サブフレームの合成音デ一夕と、ラグ対応の過去デ一夕およびラグ対応の未来データの両方とから構成される場合に、そのタップ数が L O S ) 個であるとする。そして、タップ数が S個の場合は、 nビットのクラスコードが得られ、タップ数が L個の場合は、 n + m ビットのクラスコ一ドが得られるとする。

この場合、クラスコードとして、 n + m+ 2ビットを用いるとともに、その n + m + 2ビットのうちの、例えば、上位ビットの 2ビットを、クラスタップが、ラグ対応の過去デ一夕を含む場合、ラグ対応の未来データを含む場合、その両方を含む場合の 3つの場合とで、それぞれ、例えば、 " 0 0 " , " 0 1 " , " 1 0 " に設定することにより、タップ数が S個と L個のいずれであっても、全クラス数が 2 ^n½+2クラスのクラス分類が可能となる。

即ち、クラスタップが、ラグ対応の過去データと、ラグ対応の未来データの両方を含み、そのタップ数が L個の場合には、 n + mビットのクラスコードが得られるクラス分類を行い、その n +mビットのクラスコードに、その上位 2ビットとして、クラスタップが、ラグ対応の過去データと、ラグ対応の未来データの両方を含むことを表す" 10" を付加した n+m+ 2ビットを最終的なクラスコードとすれば良い。

また、クラスタップが、ラグ対応の過去データを含み、そのタップ数が S個の場合には、 nビットのクラスコ一ドが得られるクラス分類を行い、その nビットのクラスコードに、その上位ビットとして、 mビットの" 0" を付加して n+m ビットとし、さらに、その n+mビットに、上位ビットとして、クラスタップが、ラグ対応の過去データを含むことを表す" 00" を付加した n+m+ 2ビットを最終的なクラスコードとすれば良い。

さらに、クラスタップが、ラグ対応の未来デ一夕を含み、そのタップ数が S個の場合には、 nビットのクラスコードが得られるクラス分類を行い、その nビットのクラスコードに、その上位ビットとして、 mビットの" 0" を付加して n + mビットとし、さらに、その n+mビットに、上位ピットとして、クラスタップが、ラグ対応の未来デ一夕を含むことを表す" 01" を付加した n+m+ 2ビットを最終的なクラスコ一ドとすれば良い。

次に、図 1 3のタップ生成部 301では、フレ一ムパヮ一計算部 313において、合成音データから、そのフレーム単位のパワーを計算するようにしたが、 CE LP方式によって、音声を符号化した符号化データ（コードデ一夕）には、上述したように、フレームエネルギが含められる場合があり、この場合には、そのフレームエネルギを、そのフレームにおける合成音のパワーとして採用することが可能である。

図 15は、フレームエネルギを、そのフレームにおける合成音のパワーとして採用する場合の、図 1 1のタップ生成部 30 1の構成例を示している。なお、図中、図 1 3における場合と対応する部分については、同一の符号を付してある。即ち、図 1 5のタップ生成部 30 1は、フレ一ムパワー計算部 313が設けられていない他は、図 13における場合と同様に構成されている。但し、ノッファ 3 1 4には、受信部 1 1 4 (図 1 1 ) に供給される符号化デー夕（コードデータ）に含まれる、フレームごとのフレームエネルギが供給されているようになっており、ノッファ 3 1 4は、このフレームエネルギを記憶するようになつている。そして、状態判定部 3 1 5は、このフレームエネルギを、上述した、合成音データから求められるフレーム単位のパワーと同様に用いて、注目デ一夕付近の合成音データの波形の推移を判定する。

ここで、符号化データに含まれる、フレームごとのフレームエネルギは、チヤネルエンコーダ 2 1において、符号化データから分離され、タップ生成部 3 0 1 に供給される。

なお、タップ生成部 3 0 2も、図 1 5に示したように構成することが可能である。

次に、図 1 6は、受信部 1 1 4が図 1 1に示したように構成される場合に、その係数メモリ 1 2 4に記憶されるタップ係数を学習する学習装置の一実施の形態の構成例を示している。なお、図中、図 9における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図 1 6の学習装置は、夕ップ生成部 1 3 1と 1 3 2に替えて、タツプ生成部 3 2 1 と 3 2 2がそれぞれ設けられている他は、図 9における場合と同様に構成される _c 夕ップ生成部 3 2 1と 3 2 2は、図 1 1のタツプ生成部 3 0 1と 3 0 2における場合とそれぞれ同様にして、予測夕ップとクラスタツプを構成する。

従って、この場合、より高音質の音声を復号することのできるタップ係数を得ることができる。

なお、学習装置において、予測タップやクラスタップの生成にあたり、注目デ —夕付近の合成音データの波形の推移の判定を、図 1 5で説明したように、フレームごとのフレームエネルギを用いて行う場合には、そのフレームエネルギは、 L P C分析部 2 0 4における L P C分析の過程で得られる自己相関係数を用いて計算することができる。

そこで、図 1 7は、自己相関係数からフレームエネルギを求める場合の図 1 6 のタップ生成部 3 2 1の構成例を示している。なお、図中、図 1 3のタップ生成部 3 0 1における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図 1 7のタップ生成部 3 2 1は、フレームパワー計算部 3 1 3に替えてフレームエネルギ計算部 3 3 1が設けられている他は、図 1 3におけるタップ生成部 3 0 1と同様に構成されている。

フレームエネルギ計算部 3 3 1には、図 1 6の L P C分析部 2 0 4が L P C分析を行う過程で求められる音声の自己相関係数が供給されるようになっており、フレームエネルギ計算部 3 3 1は、その自己相関係数から、符号化データ（コ一ドデ一夕）に含められるフレームエネルギを計算し、バッファ 3 1 4に供給する。従って、図 1 7の実施の形態では、状態判定部 3 1 5は、このフレームェネルギを、上述した、合成音データから求められるフレーム単位のパワーと同様に用いて、注目デ一夕付近の合成音データの波形の推移を判定する。

なお、図 1 6のクラスタップを生成するタップ生成部 3 2 2も、図 1 7に示したように構成することが可能である。

次に、図 1 8は、図 4の受信部 1 1 4の第 3の構成例を示している。なお、図中、図 5または図 1 1における場合と対応する部分については、同一の符号を付してあり、その説明は、適宜省略する。

図 5や図 1 1の受信部 1 1 4は、音声合成フィルタ 2 9が出力する合成音デー夕に対して、クラス分類適応処理を施すことによって、高音質の音声を復号するようになっていたが、図 1 8の受信部 1 1 4は、音声合成フィル夕 2 9に入力される残差信号（復号残差信号）と、線形予測係数（復号線形予測係数）に対して、クラス分類適応処理を施すことによって、高音質の音声を復号するようになっている。

即ち、適応コードブック記憶部 2 2、ゲイン復号器 2 3、励起コードブック記憶部 2 4、および演算器 2 6乃至 2 8において、 Lコード、 Gコード、および I コードから復号される残差信号である復号残差信号や、フィルタ係数復号器 2 5 において、 Aコードから復号される線形予測係数である復号線形予測係数は、前述したように、誤差を含むものとなっており、そのまま音声合成フィルタ 2 9に入力したのでは、音声合成フィル夕 2 9から出力される合成音データの音質が劣化する。

そこで、図 1 8の受信部 1 1 4では、学習により求めたタップ係数を用いた予測演算を行うことにより、真の残差信号と線形予測係数の予測値を求め、これらを音声合成フィルタ 2 9に与えることで、高音質の合成音を生成するようになつている。

即ち、図 1 8の受信部 1 1 4では、例えば、クラス分類適応処理を利用して、復号残差信号が、真の残差信号（の予測値）に復号されるとともに、復号線形予測係数が、真の線形予測係数（の予測値）に復号され、その残差信号と線形予測係数を、音声合成フィルタ 2 9に与えることで、高音質の合成音データが求められる。

そのために、演算器 2 8が出力する復号残差信号は、タップ生成部 3 4 1と 3 2に供給される。また、タップ生成部 3 4 1と 3 4 2には、チャネルデコーダ 2 1が出力する Lコードも供給されるようになっている。

そして、夕ップ生成部 3 4 1は、図 5のタツプ生成部 1 2 1や図 1 1のタップ生成部 3 0 1と同様にして、そこに供給される復号残差信号から、予測タップとするサンプルを、 Lコードに基づいて抽出し、予測部 3 4 5に供給する。

夕ップ生成部 3 4 2も、図 5のタツプ生成部 1 2 2や図 1 1のタツプ生成部 3 0 2と同様にして、そこに供給される復号残差信号から、クラスタップとするサンプルを、 Lコードに基づいて抽出し、クラス分類部 3 4 3に供給する。

クラス分類部 3 4 3は、タップ生成部 3 4 2から供給されるクラスタップに基づいて、クラス分類を行い、そのクラス分類結果としてのクラスコードを、係数メモリ 3 4 4に供給する。

係数メモリ 3 4 4は、後述する図 2 1の学習装置において学習処理が行われることにより得られる、クラスごとの残差信号についてのタップ係数 w_wを記憶しており、クラス分類部 3 4 3が出力するクラスコードに対応するアドレスに記憶されているタップ係数を、予測部 3 4 5に供給する。

予測部 3 4 5は、タップ生成部 3 4 1が出力する予測タップと、係数メモリ 3

4 4が出力する残差信号についてのタップ係数とを取得し、その予測タップと夕ップ係数とを用いて、式（6 ) に示した線形予測演算を行う。これにより、予測部 3 4 5は、注目サブフレームの残差信号（の予測値） e mを求めて、音声合成フィル夕 2 9に、入力信号として供給する。

タップ生成部 3 5 1と 3 5 2には、フィル夕係数復号器 2 5が出力する、サブフレームごとの復号線形予測係数 α _ρ' が供給されるようになっており、タップ生成部 3 5 1と 3 5 2は、その復号線形予測係数から、予想タップとクラスタツプとするものをそれぞれ抽出する。ここで、タップ生成部 3 5 1と 3 5 2は、例えば、注目サブフレームの線形予測係数すベてを、それぞれ、予測タップとクラスタップとする。予測タップは、タップ生成部 3 5 1から予測部 3 5 5に供給され、クラスタップは、タップ生成部 3 5 2からクラス分類部 3 5 3に供給される。クラス分類部 3 5 3は、タップ生成部 3 5 2から供給されるクラスタップに基づいて、クラス分類を行い、そのクラス分類結果としてのクラスコードを、係数メモリ 3 5 4に供給する。

係数メモリ 3 5 4は、後述する図 2 1の学習装置において学習処理が行われることにより得られる、クラスごとの線形予測係数についてのタツプ係数 w _ωを記憶しており、クラス分類部 3 5 3が出力するクラスコードに対応するアドレスに記憶されているタツプ係数を、予測部 3 5 5に供給する。

予測部 3 5 5は、タップ生成部 3 5 1が出力する予測タップと、係数メモリ 3

5 4が出力する線形予測係数についてのタップ係数とを取得し、その予測タップとタップ係数とを用いて、式（6 ) に示した線形予測演算を行う。これにより、予測部 3 5 5は、注目サブフレームの線形予測係数（の予測値） m o; _pを求めて，音声合成フィルタ 2 9に供給する。

次に、図 1 9のフロ一チャートを参照して、図 1 8の受信部 1 1 4の処理について説明する。チャネルデコ一ダ 2 1は、そこに供給されるコ一ドデ一夕から、 Lコード、 G コード、 Iコード、 Aコードを分離し、それぞれを、適応コードブック記憶部 2 2、ゲイン復号器 2 3、励起コードブック記憶部 2 4、フィルタ係数復号器 2 5 に供給する。さらに、 Lコードは、タップ生成部 3 4 1と 3 4 2にも供給される。そして、適応コードブック記憶部 2 2、ゲイン復号器 2 3、励起コードブック記憶部 2 4、演算器 2 6乃至 2 8では、図 1の適応コードブック記憶部 9、ゲイン復号器 1 0、励起コードブック記憶部 1 1、演算器 1 2乃至 1 4における場合と同様の処理が行われ、これにより、 Lコード、 Gコード、および Iコードが、残差信号 eに復号される。この復号残差信号は、演算器 2 8からタップ生成部 3 4 1と 3 4 2に供給される。

さらに、フィルタ係数復号器 2 5は、図 2で説明したように、そこに供給される Aコードを、復号線形予測係数に復号し、タップ生成部 3 5 1と 3 5 2に供給する。

そして、ステップ S 3 1において、予測タップとクラスタップが生成される。即ち、タップ生成部 3 4 1は、そこに供給される復号残差信号のサブフレームを、順次、注目サブフレームとし、さらに、その注目サブフレームの復号残差信号のサンプル値を、順次、注目データとして、注目サブフレームにおける復号残差信号を抽出するとともに、チャネルデコーダ 2 1が出力する注目サブフレームに配置された Lコード等に基づいて、注目サブフレーム以外の復号残差信号を抽出し、即ち、注目サブフレームに配置されている Lコードが表すラグだけ過去の位置を始点とする 4 0サンプルの復号残差信号（これも、以下、適宜、ラグ対応の過去データという）、または Lコードが表すラグだけ過去の位置が注目データの位置となる Lコードが配置された、注目サブフレームから見て未来方向のサブフレームに配置された 4 0サンプルの復号残差信号（これも、以下、適宜、ラグ対応の未来デ一夕という）を抽出し、予測タップを生成する。タップ生成部 3 4 2も、タップ生成部 3 4 1と同様にして、クラスタップを生成する。

さらに、ステップ S 3 1では、タップ生成部 3 5 1と 3 5 2が、フィル夕係数復号器 3 5が出力する注目サブフレームの復号線形予測係数を、それぞれ、予測タップとクラスタップとして抽出する。

そして、タップ生成部 3 4 1で得られた予測タップは予測部 3 4 5に、タップ生成部 3 4 2で得られたクラスタップはクラス分類部 3 4 3に、タップ生成部 3 5 1で得られた予測タップは予測部 3 5 5に、タップ生成部 3 5 2で得られたクラスタップはクラス分類部 3 5 3に、それぞれ供給される。

そして、ステップ S 3 2に進み、クラス分類部 3 4 3が、タップ生成部 3 4 2 から供給されるクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、係数メモリ 3 4 4に供給するとともに、クラス分類部 3 5 3が、タップ生成部 3 5 2から供給されるクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、係数メモリ 3 5 4に供給して、ステップ S 3 3に進む。

ステップ S 3 3では、係数メモリ 3 4 4が、クラス分類部 3 4 3から供給されるクラスコ一ドに対応するアドレスから、残差信号についてのタップ係数を読み出し、予測部 3 4 5に供給するとともに、係数メモリ 3 5 4が、クラス分類部 3 4 3から供給されるクラスコードに対応するァドレスから、線形予測係数についてのタップ係数を読み出し、予測部 3 5 5に供給する。

そして、ステップ S 3 4に進み、予測部 3 4 5は、係数メモリ 3 4 4が出力する残差信号についてのタップ係数を取得し、そのタップ係数と、タップ生成部 3 4 1からの予測タップとを用いて、式（6 ) に示した積和演算を行い、注目サブフレームの真の残差信号（の予測値）を得る。さらに、ステップ S 3 4では、予測部 3 5 5は、係数メモリ 3 4 4が出力する線形予測係数についてのタップ係数を取得し、そのタップ係数と、タップ生成部 3 5 1からの予測タップとを用いて、式（6 ) に示した積和演算を行い、注目サブフレームの真の線形予測係数（の予測値）を得る。

以上のようにして得られた残差信号および線形予測係数は、音声合成フィルタ 2 9に供給され、音声合成フィルタ 2 9では、その残差信号および線形予測係数を用いて、式（4 ) の演算が行われることにより、注目サブフレームの注目デー夕に対応する合成音データが生成される。この合成音データは、音声合成フィル夕 2 9から、 D ZA変換部 3 0を介して、スピーカ 3 1に供給され、これにより、スピ一力 3 1からは、その合成音データに対応する合成音が出力される。

予測部 3 4 5と 3 5 5において、残差信号と線形予測係数がそれぞれ得られた後は、ステップ S 3 5に進み、まだ、注目サブフレームとして処理すべきサブフレームの Lコ一ド、 Gコード、 Iコード、および Aコードがあるかどうかが判定される。ステップ S 3 5において、まだ、注目サブフレームとして処理すべきフレームの Lコード、 Gコード、 Iコ一ド、および Aコードがあると判定された場合、ステップ S 3 1に戻り、次に注目サブフレームとすべきサブフレームを、新たに注目サブフレームとして、以下、同様の処理を繰り返す。また、ステップ S 3 5において、注目サブフレームとして処理すべきフレームの Lコード、 Gコ一ド、 Iコード、および Aコードがないと判定された場合、処理を終了する。

次に、図 1 8のタップ生成部 3 4 1においては（クラスタップを生成するタツプ生成部 3 4 2についても同様）、予測タップが、注目サブフレームの復号残差信号と、ラグ対応の過去データもしくはラグ対応の未来データのうちの一方または両方から構成されるが、その構成は、固定とすることもできるが、残差信号の波形の推移に基づいて可変にすることもできる。

図 2 0は、残差信号の波形の推移に基づいて、予測タップの構成を可変にする場合のタップ生成部 3 4 1の構成例を示している。なお、図中、図 1 3における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図 2 0のタップ生成部 3 4 1は、合成音メモリ 3 1 1 とフレームパワー計算部 3 1 3に替えて、残差信号メモリ 3 6 1とフレームパヮ —計算部 3 6 3が設けられている他は、図 1 3のタップ生成部 3 0 1と同様に構成されている。

残差信号メモリ 3 6 1には、演算器 2 8 (図 1 8 ) が出力する復号残差信号が順次供給されるようになっており、残差信号メモリ 3 6 1は、その復号残差信号を、順次記憶する。なお、残差信号メモリ 3 6 1は、注目データについて予測タップとされる可能性のある復号残差信号のうちの、最も過去のサンプルから、最も未来のサンプルまでの間の復号残差信号を記憶することのできる記憶容量を少なくとも有している。また、残差信号メモリ 3 6 1は、その記憶容量分だけ、復号残差信号を記憶すると、次に供給される復号残差信号のサンプル値を、最も古い記憶値に上書きする形で記憶するようになっている。

フレームパワー計算部 3 6 3は、残差信号メモリ 3 6 1に記憶された残差信号を用い、所定のフレーム単位で、そのフレームにおける残差信号のパワーを求め、バッファ 3 1 4に供給する。なお、フレームパワー計算部 3 6 3でパヮ一を求める単位であるフレームは、図 1 3のフレームパワー計算部 3 1 3における場合と同様に、 CELP方式におけるフレームやサブフレームに一致していても良いし、一致していなくても良い。

図 2 0のタップ生成部 3 4 1では、合成音データのパワーでなく、復号残差信号のパワーが求められ、そのパワーに基づいて、残差信号の波形の推移が、例えば、図 1 2で説明したように、立ち上がり状態、たち下がり状態、定常状態のうちのいずれであるかが判定される。そして、その判定結果に基づいて、注目サブフレームの復号残差信号の他、ラグ対応の過去デ一夕もしくはラグ対応の未来デ一夕のうちの一方または両方が抽出され、予測夕ップが生成される。

なお、図 1 8のタップ生成部 3 4 2も、図 2 0に示したタップ生成部 3 4 1と同様に構成することができる。

また、図 1 8の実施の形態では、復号残差信号についてだけ、 Lコードに基づいて、予測タップやクラスタップを生成するようにしたが、復号線形予測係数についても、 Lコードに基づいて、注目サブフレーム以外の復号線形予測係数を抽出し、予測タップやクラスタップを生成するようにすることが可能である。この場合、図 1 8において点線で示すように、チャネルデコーダ 2 1が出力する Lコ —ドを、タップ生成部 3 5 1や 3 5 2に供給するようにすれば良い。

さらに、上述の場合においては、予測タップやクラスタップを、合成音デ一タから生成するときには、合成音データのパワーを求め、そのパワーに基づき、合成音データの波形の推移を判定し、また、復号残差信号から生成するときには、復号残差信号のパワーを求め、そのパワーに基づき、合成音デ一夕の波形の推移を判定するようにしたが、合成音データの波形の推移は、残差信号のパワーに基づいて判定することが可能であり、同様に、残差信号の波形の推移は、合成音デ一夕のパワーに基づいて判定することが可能である。

次に、図 2 1は、図 1 8の係数メモリ 3 4 4と 3 5 4に記憶させるタップ係数の学習処理を行う学習装置の一実施の形態の構成例を示している。なお、図中、図 1 6における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。

予測フィルタ 3 7 0には、 A/D変換部 2 0 2が出力する、ディジタル信号とされた学習用の音声信号と、 L P C分析部 2 0 4が出力する線形予測係数が供給される。また、タップ生成部 3 7 1と 3 7 2には、演算器 2 1 4が出力する復号残差信号（音声合成フィルタ 2 0 6に供給されるのと同一の残差信号）、およびコード決定部 2 1 5が出力する Lコードが供給され、タップ生成部 3 8 1と 3 8 2には、べクトル量子化部 2 0 5が出力する復号線形予測係数（べクトル量子化に用いられるコードブックのコードベクトル（セントロイドベクトル）を構成する線形予測係数）が供給される。さらに、正規方程式加算回路 3 8 4には、 L P C分析部 2 0 4が出力する線形予測係数が供給される。

予測フィルタ 3 7 0は、 AZD変換部 2 0 2から供給される学習用の音声信号のサブフレームを、順次、注目サブフレームとして、その注目サブフレームの音声信号と、 L P C分析部 2 0 4から供給される線形予測係数を用いて、例えば、式（1 ) にしたがった演算を行うことにより、注目フレームの残差信号を求める _c この残差信号は、教師データとして、正規方程式加算回路 3 7 4に供給される。タップ生成部 3 7 1は、演算器 2 1 4から供給される復号残差信号を用い、コ —ド決定部 2 1 5が出力する Lコードに基づいて、図 1 8のタップ生成部 3 4 1 における場合と同一の予測タップを生成し、正規方程式加算回路 3 7 4に供給する。タップ生成部 3 7 2も、演算器 2 1 4から供給される復号残差信号を用い、コード決定部 2 1 5が出力する Lコードに基づいて、図 1 8のタップ生成部 3 4 2における場合と同一のクラスタップを生成し、クラス分類部 3 7 3に供給する。クラス分類部 3 7 3は、タップ生成部 3 7 1から供給されるクラスタップに基づき、図 1 8のクラス分類部 3 4 3における場合と同様にのクラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路 3 7 4に供給する。

正規方程式加算回路 3 7 4は、予測フィル夕 3 7 0からの注目サブフレームの残差信号を、教師データとして受信するとともに、タップ生成部 3 7 1からの予測タップを、生徒データとして受信し、その教師デ一夕および生徒デ一夕を対象として、クラス分類部 3 7 3からのクラスコードごとに、図 9や図 1 6の正規方程式加算回路 1 3 4における場合と同様の足し込みを行うことにより、各クラスについて、残差信号に関する式（1 3 ) に示した正規方程式をたてる。

タップ係数決定回路 3 7 5は、正規方程式加算回路 3 7 4においてクラスごとに生成された正規方程式それぞれを解くことにより、クラスごとに、残差信号についてのタップ係数をそれぞれ求め、係数メモリ 3 7 6の、各クラスに対応するァドレスにそれぞれ供給する。

係数メモリ 3 7 6は、タップ係数決定回路 3 7 5から供給されるクラスごとの残差信号についてのタップ係数を記憶する。

タップ生成部 3 8 1は、ベクトル量子化部 2 0 5から供給される、コードべクトルの要素となっている線形予測係数、即ち、復号線形予測係数を用いて、図 1 8のタップ生成部 3 5 1における場合と同一の予測タップを生成し、正規方程式加算回路 3 8 4に供給する。タップ生成部 3 8 2も、ベクトル量子化部 2 0 5から供給される復号線形予測係数を用い、図 1 8のタップ生成部 3 5 2における場合と同一のクラスタップを生成し、クラス分類部 3 8 3に供給する。

なお、図 1 8の実施の形態において、復号線形予測係数につき、 Lコ"ドに基づいて、注目サブフレーム以外の復号線形予測係数を抽出して、予測タップゃクラスタップを生成する場合には、図 2 1のタップ生成部 3 8 1や 3 8 2においても、同様にして、予測タップやクラスタップを生成する必要があり、この場合、タップ生成部 3 8 1や 3 8 2には、図 2 1において点線で示すように、コード決定部 2 1 5が出力する Lコードが供給される。

クラス分類部 3 8 3は、図 1 8のクラス分類部 3 5 3における場合と同様に、タップ生成部 3 8 2からのクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路 3 8 4に供給する。

正規方程式加算回路 3 8 4は、 L P C分析部 2 0 4からの注目サブフレ一ムの線形予測係数を、教師データとして受信するとともに、タップ生成部 3 8 1からの予測タップを、生徒データとして受信し、その教師データおよび生徒デ一夕を対象として、クラス分類部 3 8 3からのクラスコードごとに、図 9や図 1 6の正規方程式加算回路 1 3 4における場合と同様の足し込みを行うことにより、各クラスについて、線形予測係数に関する式（1 3 ) に示した正規方程式をたてる。タップ係数決定回路 3 8 5は、正規方程式加算回路 3 8 4においてクラスごとに生成された正規方程式を解くことにより、クラスごとに、線形予測係数についてのタップ係数をそれぞれ求め、係数メモリ 3 8 6の、各クラスに対応するアドレスに供給する。

係数メモリ 3 8 6は、タップ係数決定回路 3 8 5から供給されるクラスごとの線形予測係数についてのタツプ係数を記憶する。

なお、学習用の音声信号として用意する音声信号によっては、正規方程式加算回路 3 7 4や 3 8 4において、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じる場合があり得るが、タップ係数決定回路 3 7 5と 3 8 5は、そのようなクラスについては、例えば、デフォルトのタップ係数を出力する。

次に、図 2 2のフローチャートを参照して、図 2 1の学習装置が行う、残差信号と線形予測係数それぞれについてのタップ係数を求める学習処理について説明する。

学習装置には、学習用の音声信号が供給され、ステップ S 4 1において、その学習用の音声信号から、教師データと生徒データが生成される。

即ち、学習用の音声信号は、マイク 2 0 1に入力され、マイク 2 0 1乃至コード決定部 2 1 5は、図 1のマイク 1乃至コード決定部 1 5における場合とそれぞれ同様の処理を行う。

その結果、 L P C分析部 2 0 4で得られる線形予測係数は、教師デ一夕として、正規方程式加算回路 3 8 4に供給される。また、この線形予測係数は、予測フィル夕 3 7 0にも供給される。さらに、演算器 2 1 4で得られる復号残差信号は、生徒データとして、タップ生成部 3 7 1および 3 7 2に供給される。

また、 A/D変換部 2 0 2が出力するディジタルの音声信号は、予測フィルタ 3 7 0に供給され、べクトル量子化部 2 0 5が出力する復号線形予測係数は、生徒データとして、タップ生成部 3 8 1および 3 8 2に供給される。さらに、コード決定部 2 1 5は、自乗誤差最小判定部 2 0 8から確定信号を受信したときの、自乗誤差最小判定部 2 0 8からの Lコードを、タップ生成部 3 7 1および 3 7 2 に供給する。

そして、予測フィル夕 3 7 0は、 AZD変換部 2 0 2から供給される学習用の音声信号のサブフレームを、順次、注目サブフレームとして、その注目サブフレームの音声信号と、 L P C分析部 2 0 4から供給される線形予測係数（注目サブフレムの音声信号から求められた線形予測係数）を用いて、式（1 ) にしたがつた演算を行うことにより、注目サブフレームの残差信号を求める。この予測フィルタ 3 7 0で得られる残差信号は、教師データとして、正規方程式加算回路 3 7 4に供給される。

以上のようにして、教師データと生徒デ一夕が得られた後は、ステップ S 4 2 に進み、タップ生成部 3 7 1と 3 7 2が、演算器 2 1 4から供給される復号残差信号を用い、コード決定部 2 1 5からの Lコードに基づいて、残差信号についての予測タップとクラスタップをそれぞれ生成する。即ち、タップ生成部 3 7 1と 3 7 2は、演算器 2 1 4からの注目サブフレームの復号残差信号と、ラグ対応の過去データまたはラグ対応の未来デ一夕とから、残差信号についての予測タップとクラスタツプをそれぞれ生成する。

さらに、ステップ S 4 2では、タップ生成部 3 8 1と 3 8 2が、ベクトル量子化部 2 0 5から供給される注目サブフレームの線形予測係数から、線形予測係数についての予測タップとクラスタップを生成する。

そして、残差信号についての予測タップは、タップ生成部 3 7 1から正規方程式加算回路 3 7 4に供給され、残差信号についてのクラスタップは、タップ生成部 3 7 2からクラス分類部 3 7 3に供給される。また、線形予測係数についての予測タップは、タップ生成部 3 8 1から正規方程式加算回路 3 8 4に供給され、線形予測係数についてのクラスタップは、タップ生成部 3 8 2からクラス分類回路 3 8 3に供給される。

その後、ステップ S 4 3において、クラス分類部 3 7 3と 3 8 3が、そこに供 .給されるクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路 3 8 4と 3 7 4に、それぞれ供給する。

そして、ステップ S 4 4に進み、正規方程式加算回路 3 7 4が、予測フィルタ 3 7 0からの教師データとしての注目サブフレームの残差信号、およびタップ生成部 3 7 1からの生徒デ一夕としての予測タップを対象として、式（1 3 ) の行列 Aとベクトル Vの、上述したような足し込みを、クラス分類部 3 7 3からのクラスコードごとに行う。さらに、ステップ S 4 4では、正規方程式加算回路 3 8 4が、 L P C分析部 2 0 4からの教師デ一夕としての注目サブフレームの線形予測係数、および夕ップ生成部 3 8 1からの生徒データとしての予測夕ップを対象として、式（1 3 ) の行列 Aとベクトル Vの、上述したような足し込みを、クラス分類部 3 8 3からのクラスコ一ドごとに行い、ステップ S 4 5に進む。

ステップ S 4 5では、まだ、注目サブフレームとして処理すべきフレームの学習用の音声信号があるかどうかが判定される。ステップ S 4 5において、まだ、注目サブフレームとして処理すべきサブフレームの学習用の音声信号があると判定された場合、ステップ S 4 1に戻り、次のサブフレームを新たに注目サブフレ —ムとして、以下、同様の処理が繰り返される。また、ステップ S 4 5において、 ·注目サブフレームとして処理すべきサブフレームの学習用の音声信号がないと判定された場合、ステップ S 4 6に進み、タツプ係数決定回路 3 7 5は、各クラスごとに生成された正規方程式を解くことにより、各クラスごとに、残差信号についてのタップ係数を求め、係数メモリ 3 7 6 の、各クラスに対応するアドレスに供給して記憶させる。さらに、タップ係数決定回路 3 8 5も、各クラスごとに生成された正規方程式を解くことにより、各クラスごとに、線形予測係数についてのタップ係数を求め、係数メモリ 3 8 6の、各クラスに対応するアドレスに供給して記憶させ、処理を終了する。

以上のようにして、係数メモリ 3 7 6に記憶された各クラスごとの残差信号についてのタップ係数が、図 1 8の係数メモリ 3 4 4に記憶され、係数メモリ 3 8 6に記憶された各クラスごとの線形予測係数についての夕ップ係数が、図 1 8の .係数メモリ 3 5 4に記憶されている。

従って、図 1 §の係数メモリ 3 4 4と 3 5 4に記憶されたタップ係数は、それぞれ、線形予測演算を行うことにより得られる真の残差信号と線形予測係数の予測値の予測誤差（自乗誤差）が、統計的に最小になるように学習を行うことにより求められたものであるから、図 1 8の予測部 3 4 5と 3 5 5が出力する残差信号と線形予測係数は、それぞれ真の残差信号と線形予測係数にほぼ一致することとなり、その結果、これらの残差信号と線形予測係数によって生成される合成音は、歪みの少ない、高音質のものとなる。

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウエアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインス 1 ^一ルされる。

そこで、図 2 3は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードデイスク 4 0 5や R O M 4 0 3に予め記録しておくことができる。あるいはまた、プログラムは、フロッピ一ディスク、 CD-ROM (Compact Disc Re ad Only Memory) , MO (Magneto optical)アイスク，歸 (Digital Versatile Dis c)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体 41 1に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリム一バブル記録媒体 41 1は、いわゆるパッケージソフトウェアとして提供することができる。

なお、プログラムは、上述したようなリム一バブル記録媒体 41 1からコンビユー夕にインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、 LVNOLocal Area Netwo rk)、インタ一ネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部 408で受信し、内蔵するハードディスク 405にインス 1 ルすることができる。

コンピュータは、 CPU(Central Processing Unit) 402を内蔵している。 CPU 402には、バス 401を介して、入出力インタフェース 410が接続されており、 CPU402は、入出力インタフェース 41 0を介して、ユーザによって、キ —ボードや、マウス、マイク等で構成される入力部 407が操作等されることにより指令が入力されると、それにしたがって、 R0M(Read Only Memory) 403に格納されているプログラムを実行する。あるいは、また、 C J402は、ハ一ドディスク 40 5に格納されているプログラム、衛星若しくはネットワークから転送され、通信部 408で受信されてハ一ドディスク 405にインストールされたプログラム、またはドライブ 409に装着されたリム一バブル記録媒体 41 1から読み出されてハードディスク 405にインストールされたプログラムを、 RAM (Random Access Memory) 404にロードして実行する。これにより、 CPU402 は、上述したフロ一チャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、 CPU402は、その処理結果を、必要に応じて、例えば、入出力インタフェース 410を介して、 LCD(Liquid CryStal Displ ay)やスピーカ等で構成される出力部 4 0 6から出力、あるいは、通信部 4 0 8から送信、さらには、 Λ ドディスク 4 0 5に記録等させる。

ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチヤ一トとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理 (例えば、並列処理あるいはオブジェクトによる処理）も含むものである。

また、プログラムは、 1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。なお、本実施の形態においては、学習用の音声信号として、どのようなものを用いるかについては、特に言及しなかったが、学習用の音声信号としては、人が発話した音声の他、例えば、曲（音楽）等を採用することが可能である。そして、上述したような学習処理によれば、学習用の音声信号として、人の発話を用いた場合には、そのような人の発話の音声の音質を向上させるようなタップ係数が得られ、曲を用いた場合には、曲の音質を向上させるようなタップ係数が得られることになる。

また、係数メモリ 1 2 4等には、タップ係数をあらかじめ記憶させておくようにしたが、係数メモリ 1 2 4等に記憶させるタップ係数は、携帯電話機 1 0 1において、図 3の基地局 1 0 2 (あるいは交換局 1 0 3 ) や、図示しない WWW W or ld Wi de Web)サ一パ等からダウンロードするようにすることができる。即ち、上述したように、タップ係数は、人の発話用や曲用等のように、ある種類の音声信号に適したものを、学習によって得ることができる。さらに、学習に用いる教師データおよび生徒デ一夕によっては、合成音の音質に差が生じるタップ係数を得ることができる。従って、そのような各種のタップ係数を、基地局 1 0 2等に記憶させておき、ユーザには、自身の所望するタップ係数をダウンロードさせるようにすることができる。そして、このようなタップ係数のダウンロードサービスは、無料で行うこともできるし、有料で行うこともできる。さらに、タップ係数のダウン口一ドサ一ビスを有料で行う場合には、夕ップ係数のダウンロードに対する対価としての代金は、例えば、携帯電話機 10 1の通話料等とともに請求するようにすることが可能である。

また、係数メモリ 124等は、携帯電話機 10 1に対して着脱可能なメモリ力ード等で構成することができる。この場合、上述したような各種のタップ係数それぞれを記憶させた、異なるメモリカードを提供するようにすれば、ユーザは、場合に応じて、所望のタップ係数が記憶されたメモリカードを、携帯電話機 10 1に装着して使用することが可能となる。

さらに、本発明は、例えば、 VSELP (Vector Sum Excited Liner Predicti on), PS I -C EL P (Pitch Synchronous Innovation CELP) , CS—ACEL P (Conjugate Structure Algebraic CELP)等の C E L P方式による符号化の結果得られるコードから合成音を生成する場合に、広く適用可能である。

また、本発明は、 CELP方式による符号化の結果得られるコードから合成音を生成する場合に限らず、あるコードから、残差信号と線形予測係数を得て、合成音を生成する場合に、広く適用可能である。

さらに、本発明は、音声に限らず、例えば、画像等にも適用可能である。即ち、本発明は、 Lコードのような、周期を表す周期情報を用いて処理されるデータに、広く適用可能である。

また、本実施の形態では、タップ係数を用いた線形 1次予測演算によって、高音質の音声や、残差信号、線形予測係数の予測値を求めるようにしたが、この予測値は、その他、 2次以上の高次の予測演算によって求めることも可能である。さらに、本実施の形態では、係数メモリ 124等に、タップ係数自体を記憶させておくようにしたが、係数メモリ 124等には、その他、例えば、無段階の調整が可能な（アナログ的な変化が可能な）タップ係数の元（種）となる情報としての係数種を記憶させておき、ユーザの操作に応じて、その係数種から、ユーザの所望する音質の音声が得られるようなタップ係数を生成するようにすることが可能である。産業上の利用可能性

本発明の第 1のデータ処理装置およびデ一夕処理方法、並びにプログラムおよび記録媒体によれば、所定のデータのうちの注目している注目データにつき、周期情報に応じて、所定のデ一夕を抽出することにより、所定の処理に用いるタツプが生成され、そのタップを用いて、注目データについて、所定の処理が行われる。従って、例えば、品質の良いデータの復号等が可能となる。

本発明の第 2のデータ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体によれば、学習の教師となる教師デ一夕から、所定のデ一夕と周期情報が、学習の生徒となる生徒データとして生成される。そして、生徒データとしての所定のデータのうちの注目している注目データにつき、周期情報に応じて、所定のデータを抽出することにより、教師データを予測するのに用いる予測タツプが生成され、予測タップとタップ係数とを用いて、所定の予測演算を行うことにより得られる教師データの予測値の予測誤差が、統計的に最小になるように学習が行われ、タップ係数が求められる。従って、例えば、品質の良いデ一夕を得るためのタツプ係数を得ることが可能となる。

Claims

請求の範囲

1 . 所定のデータと、周期を表す周期情報とを処理するデータ処理装置であつて、

前記所定のデータのうちの注目している注目データにつき、前記周期情報に応じて、前記所定のデータを抽出することにより、所定の処理に用いるタップを生成するタップ生成手段と、

前記タップを用いて、前記注目データについて、所定の処理を行う処理手段とを備えることを特徴とするデータ処理装置。

2 . 学習を行うことにより求められたタツプ係数を取得する夕ップ係数取得手段をさらに備え、

前記夕ップ生成手段は、前記夕ップ係数との所定の予測演算を行う予測夕ップを生成し、

前記処理手段は、前記予測タップとタップ係数とを用いて、所定の予測演算を行うことにより、前記学習において教師として用いられた教師デ一夕に対応する予測値を求める

ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。

3 . 前記処理手段は、前記予測タップとタップ係数とを用いて、線形 1次予測演算を行うことにより、前記予測値を求める

ことを特徴とする請求の範囲第 2項に記載のデータ処理装置。

4 . 前記タップ生成手段は、前記注目データをクラス分けするクラス分類を行うのに用いるクラスタップを生成し、

前記処理手段は、前記クラスタップに基づき、前記注目データについて、クラス分類を行う

ことを特徴とする請求の範囲第 1項に記載のデ一夕処理装置。

5 . 前記タップ生成手段は、学習を行うことにより求められたタップ係数との所定の予測演算を行う予測タップを生成するとともに、前記注目デ一夕をクラス分けするクラス分類を行うのに用いられるクラスタツプを生成し、前記処理手段は、前記クラスタップに基づき、前記注目データについて、クラス分類を行い、そのクラス分類の結果得られるクラスに対応する前記タップ係数と、前記予測タップとを用いて、所定の予測演算を行うことにより、前記学習において教師として用いられた教師データに対応する予測値を求める

6. 前記所定のデータと周期情報は、音声を符号化した符号化データから得られるものである

7. 前記符号化データは、音声を、 CEL P (Code Excited Liner Prediction coding)方式によって符号化したものである

ことを特徴とする請求の範囲第 6項に記載のデータ処理装置。

.

8. 前記周期情報は、 CELP方式で規定されている長期予測ラグである

ことを特徴とする請求の範囲第 7項に記載のデータ処理装置。

9. 前記所定のデータは、前記符号化データを復号した復号音声データであることを特徴とする請求の範囲第 6項に記載のデータ処理装置。

10. 前記所定のデ一夕は、前記符号化データを音声データに復号するのに用いられる残差信号である

ことを特徴とする請求の範囲第 6項に記載のデータ処理 g置。'

1 1. 前記所定のデータは、時系列のデータであり、

前記タップ生成手段は、前記注目データから、前記周期情報に対応する時間だけ離れた位置の前記所定のデータを抽出することにより、前記タップを生成することを特徴とする請求の範囲第 1項に記載のデータ処理装置。

12. 前記タップ生成手段は、前記注目デ一夕から、前記周期情報に対応する時間だけ過去方向もしくは未来方向に離れた位置の前記所定のデータのうちの一方または両方を抽出することにより、前記タップを生成する

ことを特徴とする請求の範囲第 1 1項に記載のデータ処理装置。

13. 前記所定のデータの波形の推移を判定する判定手段をさらに備え、前記タップ生成手段は、前記判定手段による判定結果に基づいて、前記周期情報に対応する時間だけ過去方向もしくは未来方向に離れた位置の前記所定のデー夕のうちの一方または両方を抽出する

ことを特徴とする請求の範囲第 1 2項に記載のデ一夕処理装置。

1 4 . 前記判定手段は、前記所定のデータのパワーに基づいて、その波形の推移を判定する

ことを特徴とする請求の範囲第 1 3項に記載のデータ処理装置。

1 5 . 所定のデータと、周期を表す周期情報とを処理するデータ処理方法であつて、

前記所定のデータのうちの注目している注目デ一夕につき、前記周期情報に応じて、前記所定のデータを抽出することにより、所定の処理に用いるタップを生成するタップ生成ステップと、

前記タップを用いて、前記注目データについて、所定の処理を行う処理ステツプと

を備えることを特徴とするデータ処理方法。

1 6 . 所定のデ一夕と、周期を表す周期情報とを、コンピュータに処理させるプログラムであって、

前記所定のデータのうちの注目している注目データにつき、前記周期情報に応じて、前記所定のデータを抽出することにより、所定の処理に用いるタップを生成するタップ生成ステップと、

前記タップを用いて、前記注目デ一夕について、所定の処理を行う処理ステツプと

を備えることを特徴とするプログラム。

1 7 . 所定のデータと、周期を表す周期情報とを、コンピュータに処理させるプログラムが記録されている記録媒体であって、

前記所定のデ一夕のうちの注目している注目データにつき、前記周期情報に応じて、前記所定のデータを抽出することにより、所定の処理に用いるタップを生成するタツプ生成ステップと、

を備えるプログラムが記録されている

ことを特徴とする記録媒体。

1 8 . 所定のデ一夕と、周期を表す周期情報とを処理するのに用いられる所定のタップ係数を学習するデータ処理装置であって、

学習の教師となる教師デ一夕から、前記所定のデ一夕と周期情報を、学習の生徒となる生徒デー夕として生成する生徒デー夕生成手段と、

前記生徒データとしての所定のデータのうちの注目している注目データにつき、前記周期情報に応じて、前記所定のデータを抽出することにより、前記教師デー .夕を予測するのに用いる予測タップを生成する予測夕ップ生成手段と、

前記予測夕ップとタツプ係数とを用いて、所定の予測演算を行うことにより得られる前記教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、前記タップ係数を求める学習手段と

を備えることを特徴とするデータ処理装置。

1 9 . 前記学習手段は、前記予測タップとタップ係数とを用いて、線形一次予測演^:を行うことにより得られる前記教師デ一夕の予測値の予測誤差が、統計的に最小になるように学習を行う

ことを特徴とする請求の範囲第 1 8項に記載のデータ処理装置。

2 0 . 前記生徒データとしての所定のデータから、前記注目デ一夕をクラス分けするクラス分類を行うのに用いるクラスタップとするものを生成するクラスタップ生成手段と、

前記クラスタップに基づき、前記注目デ一夕について、クラス分類を行うクラス分類手段と

をさらに備え、

前記学習手段は、前記クラス分類手段によるクラス分類の結果得られるクラスごとに、前記タップ係数を求める

ことを特徴とする請求の範囲第 18項に記載のデータ処理装置。

21. 前記クラスタップ生成手段は、前記注目データにつき、前記周期情報に応じて、前記所定のデータを抽出することにより、前記クラスタップを生成することを特徴とする請求の範囲第 20項に記載のデータ処理装置。

22. 前記教師データは、音声データであり、

前記所定のデータと周期情報は、前記教師データとしての音声データを符号化した符号化デー夕から得られるものである

23. 前記符号化データは、音声データを、 CELP Code Excited Liner Pr edict ion coding)方式によって符号化したものである

. ことを特徴とする請求の範囲第 22項に記載のデータ処理装置。

24. 前記周期情報は、 CELP方式で規定されている長期予測ラグであることを特徴とする請求の範囲第 23項に記載のデータ処理装置。

25. 前記所定のデータは、前記符号化データを復号した復号音声データである

ことを特徴とする請求の範囲第 22項に記載のデータ処理装置。

26.' 前記所定のデ一夕は、前記符号化データを音声データに復号するのに用いられる残差信号である

27. 前記所定のデータは、時系列のデータであり、

前記予測タップ生成手段は、前記注目データから、前記周期情報に対応する時間だけ離れた位置の前記所定のデータを抽出することにより、前記予測夕ップを生成する

28. 前記予測タップ生成手段は、前記注目データから、前記周期情報に対応する時間だけ過去方向もしくは未来方向に離れた位置の前記所定のデータのうちの一方または両方を抽出することにより、前記予測夕ップを生成することを特徴とする請求の範囲第 2 7項に記載のデータ処理装置。

2 9 . 前記所定のデータの波形の推移を判定する判定手段をさらに備え、前記予測タップ生成手段は、前記判定手段による判定結果に基づいて、前記周期情報に対応する時間だけ過去方向もしくは未来方向に離れた位置の前記所定のデ一夕のうちの一方または両方を抽出する

ことを特徴とする請求の範囲第 2 8項に記載のデータ処理装置。

3 0 . 前記判定手段は、前記所定のデ一夕のパワーに基づいて、その波形の推移を判定する

ことを特徴とする請求の範囲第 2 9項に記載のデータ処理装置。

3 1 . 所定のデータと、周期を表す周期情報とを処理するのに用いられる所定のタップ係数を学習するデータ処理方法であって、

学習の教師となる教師データから、前記所定のデータと周期情報を、学習の生徒となる生徒データとして生成する生徒データ生成ステップと、

前記生徒デー夕としての所定のデータのうちの注目している注目データにつき、前記周期情報に応じて、前記所定のデータを抽出することにより、前記教師デ一夕を予測するのに用いる予測タップを生成する予測夕ップ生成ステップと、前記予測タップとタップ係数とを用いて、所定の予測演算を行うことにより得られる前記教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、前記タップ係数を求める学習ステップと

を備えることを特徴とするデ一夕処理方法。

3 2 . 所定のデータと、周期を表す周期情報とを処理するのに用いられる所定のタップ係数を学習するデータ処理を、コンピュータに行わせるプログラムであつて、

学習の教師となる教師デ一夕から、前記所定のデータと周期情報を、学習の生徒となる生徒デー夕として生成する生徒デー夕生成ステップと、

前記生徒データとしての所定のデータのうちの注目している注目データにつき、前記周期情報に応じて、前記所定のデータを抽出することにより、前記教師デー夕を予測するのに用いる予測タップを生成する予測タップ生成ステップと、前記予測タップとタップ係数とを用いて、所定の予測演算を行うことにより得られる前記教師デ一夕の予測値の予測誤差が、統計的に最小になるように学習を行い、前記タップ係数を求める学習ステップと

を備えることを特徴とするプログラム。

3 3 . 所定のデータと、周期を表す周期情報とを処理するのに用いられる所定のタップ係数を学習するデータ処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、

前記生徒デ一夕としての所定のデータのうちの注目している注目データにつき、前記周期情報に応じて、前記所定のデータを抽出することにより、前記教師デー夕を予測するのに用いる予測タップを生成する予測タップ生成ステップと、前記予測夕ップとタツプ係数とを用いて、所定の予測演算を行うことにより得られる前記教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、前記タップ係数を求める学習：

を備えるプログラムが記録されている

ことを特徴とする記録媒体。