WO2001080222A1

WO2001080222A1 - Procede et dispositif de reconnaissance vocale, procede et dispositif de synthese vocale, support d'enregistrement

Info

Publication number: WO2001080222A1
Application number: PCT/JP2001/003079
Authority: WO
Inventors: Yukio Koyanagi
Original assignee: Sakai, Yasue
Priority date: 2000-04-14
Filing date: 2001-04-10
Publication date: 2001-10-25
Also published as: EP1288912A1; TW569180B; EP1288912A4; US20030093273A1; JP2001296883A; CN1423809A; KR20030003252A; CN1195293C

Description

明細音声認識方法および装置、音声合成方法および装置、記録媒体技術分野

本発明は音声認識方法および装置、音声合成方法および装置、更にはこれらの機能をソフトウェアにより実現するためのプログラムを格納した記録媒体に関し、特に、人間などによる音声を聞き分ける音声認識技術および、データから音声を作る音声合成技術に関するものである。背景技術

近年、人間が発生した音声を計算機が認識して自動的に処理を行うといった、いわゆる音声認識の音声処理インタフェースが注目されている。音声認識技術には、数字や単語などを認識する単語音声認識から、意味や内容まで理解する連続音声認識まで、様々なものがある。また、発生された音声が誰のものであるかを識別する話者識別の技術も広義には音声認識技術の中に含まれる。

特に最近では、単語音声認識から、連続音声認識や自然な会話を対象にした音声認識の技術に注目の対象が集まってきている。また、特定の語彙を音声コマンドとして用いることによって、計算機や携帯端末などを音声により操作する方法の研究も進められている。

一方、音声認識とは逆に、テキストなどのデータから音声を合成して出力する音声合成技術の開発も進められている。例えば、テキスト音声合成の技術では、漢字や英字等の種々の文字から成る言葉のテキストデ —夕を解析し、アクセントやイントネ一ションをぁらかじめ設定した規則に基づき与えることにより、音声を合成する。しかしながら、現在の音声認識技術では、発せられた音声を何でも認識できる訳ではなく、認識度には限界がある。すなわち、同じ単語でも発声者よつて音声が異なることがあり、話す人によって認識精度に差が生じることがある。また、認識対象とする語彙数や話者が増加すると、音声認識の灘易度は更に増すことになる。

—方、現在の音声合成技術では、生成される合成音はまだ機械音の域を脱することができず、より人間の肉声に近い合成音を得るべくその高品質化が課題となっている。

さらに、現在の音声認識技術、音声合成技術の何れも複雑な処理が必要であり、処理の高速化などを図るために処理の簡素化も望まれている本発明は、このような実情に鑑みて成されたものであり、音声認識度の向上、合成音の高品質化、および処理の簡素化等を図るために、今までにはない全く新しい音声認識方式および音声合成方式を提供することを目的とする。発明の開示

本発明の音声認識方法は、入力音声信号を微分してその微分値が所定の条件を満たす点を標本点として検出し、検出した各標本点における離散的な振幅データと各標本点間の時間間隔を表すタイミングデータとを得て、上記振幅データおよびタイミングデータを用いて相関データを生成し、この生成した相関データと、種々の音声についてあらかじめ同様に生成して蓄積しておいた相関データとの照合により入力音声を認識するようにしたものである。

ここで、相関データの下位数ビットを丸める処理を行うようにしても良い。また、入力音声信号をオーバーサンプリングし、当該オーバーサンプリングされたデータをその微分値が所定の条件を満たす点の時間間隔で標本化するようにしても良い。

また、本発明の音声認識装置は、入力音声信号を A Z D変換する A / D変換手段と、上記 A / D変換手段より出力されるデジタルデータを微分する微分手段と、上記微分手段により求められた微分値が所定の条件を満たす点を標本点として検出し、検出した各標本点における振幅デー夕および各標本点間の時間間隔を表すタイミングデ一夕を生成するデ一夕生成手段と、上記データ生成手段により生成された上記振幅データおよびタイミングデータを用いて相関データを生成する相関演算手段と、上記相関演算手段により生成された相関データと、種々の音声についてあらかじめ同様に生成して記録媒体に蓄積しておいた相関データとを照合して入力音声を認識するデ一夕照合手段とを備えたものである。

ここで、上記相関演算手段は、上記相関データの下位数ビットを丸める処理を行うようにしても良い。

また、上記 A Z D変換手段より出力されたデジタルデータに対して偶数倍周波数のクロックを用いてオーバーサンプリングを行うオーバーサンプリング手段を備え、上記オーバーサンプリングされたデータをその微分値が所定の条件を満たす点の時間間隔で標本化するようにしても良い。 '

本発明の音声合成方法は、音声以外のデータと、当該データに対応する音声信号についてあらかじめ生成された、上記音声信号の微分値が所定の条件を満たす標本点における振幅データおよび各標本点間の時間間隔を表すタイミングデータの組とを互いに関連付けておき、所望のデー夕が指定されたときに、その指定されたデータに関連付けられている上記振幅データおよびタイミングデータの組を用いて、上記タイミングデ —夕によって示される時間間隔を有する上記振幅データの間を補間する補間データを求めることによって音声を合成するように'したものであるまた、本発明の音声合成装置は、音声以外のデータに対応する音声信号についてあらかじめ生成された、上記音声信号の微分値が所定の条件を満たす標本点における振幅データおよび各標本点間の時間間隔を表すタイミングデータの組を、上記音声以外のデータと互いに関連付けて記憶した記憶手段と、所望のデータが指定されたときに、その指定されたデ一夕に関連付けて上記記憶手段に記憶されている上記振幅データおよびタイミングデ一夕の組を用いて、上記タイミングデータによって示される時間間隔を有する上記振幅データの間を補間する補間データを求める補間処理手段と、上記補間処理手段により求められた補間データを D Z A変換する D / A変換手段とを備えたものである。

また、本発明のコンピュータ読み取り可能な記録媒体は、請求の範囲第 1項に記載の音声認識方法の処理手順、あるいは請求の範囲第 1 7項に記載の音声合成方法の処理手順をコンピュータに実行させるためのプログラム、または、請求の範囲第 9項、あるいは請求の範囲第 1 9項に記載の各手段としてコンピュータを機能させるためのプログラムを記録したものである。

本発明は上記技術手段より成るので、所定の標本点における振幅デー夕とタイミングデータとを用いた今までには全くない簡単な音声認識手法および音声合成手法を提供することが可能となる。

ここで、振幅データおよびタイミングデータをそのまま用いるのではなく、それらの相関データを用いるようにすることで、音声の認識度を向上させることが可能となる。さらに、相関データの下位数ビットを丸める処理や、音声信号のオーバーサンプリング処理を行うことで、音声の認識度を更に向上させることが可能となる。

また、実際の音声信号から生成された振幅デ一夕およびタイミングデ一夕を用いて音声を合成することにより、少ないデータを記億しておくだけで、より生音に近い音声を合成することが可能となる。さらに、音声信号のオーバ一サンプリング処理を行った上で生成した振幅データおよびタイミングデータを用いて音声の合成を行うことで、合成音の品質を更に向上させることが可能となる。

以上のように、本発明によれば、音声認識度の向上、合成音の高品質化および処理の簡素化を図ることができる。図面の簡単な説明

図 1 は、第 1 の実施形態による音声認識装置の構成例を示すプロック図である。

図 2は、本実施形態による音声認識の原理を説明するための図である図 3は、データ生成部の構成例を示すブロック図である。

図 4は、図 3 に示した微分器の構成例を示す図である。

図 5は、 2重微分を行うことによって標本点を検出するための構成例を示すブロック図である。

図 6は、第 1 の実施形態による音声合成装置の構成例を示すブロック図である。

図 7は、本実施形態による音声合成の原理を説明するための図である図 8は、図 7 に示した時刻 T 1 — T 2の区間を取り出して本実施形態の補間原理を示した図である。

図 9は、標本化関数の例を示す図である。図 1 0は、音声合成のための補間動作の説明図である。

図 1 1 は、デ一夕補間処理の具体例である補間演算式について説明するための図である。

図 1 2は、第 2の実施形態による音声認識装置の構成例を示すブロック図である。

図 1 3は、. 第 2の実施形態で用いるデジタル基本波形を示す図である図 1 4は、第 2の実施形態のオーバーサンプリングおよびコンポリュ —ション演算の動作例を説明するための図である。

図 1 5は、第 2の実施形態のデジタル基本波形から生成される関数を示す図である。

図 1 6は、図 1 2 に示したオーバ一サンプル回路の構成例を示す図である。発明を実施するための最良の形態

(第 1 の実施形態）

以下、本発明の一実施形態を図面に基づいて説明する。

図 1 は、本実施形態による音声認識装置の構成例を示すブロック図である。図 1 に示すように、本実施形態の音声認識装置は、ローパスフィルタ（L P F ) 1 と、 A Z D変換器 2 と、データ生成部 3 と、相関演算部 4と、データ登録部 5 と、データメモリ 6 と、データ照合部 7 と、モード指定部 8 とを備えて構成されている。

図 1 において、入力アナログ信号は、人間などが発声した音声を図示しないマイク口フォン等から入力したものである。この入力アナログ信号は、後述する標本点の検出を行いやすくするために、 L P F 1 によつてノィズが除去された後、 A Z D変換器 2 によってデジタルデータに変換される。このとき A/D変換器 2は、所定周波数（例えば、 4 4. 1 KH z ) の入力クロック C K 0 に従って A/D変換処理を実行し、入力アナログ信号を例えば 1 6 ビットのデジタルデータに変換する。

この AZD変換器 2によりデジタル化された音声データは、データ生成部 3 に入力される。データ生成部 3は、 AZD変換器 2より供給されるデジタルデータを微分し、その微分結果に応じて後述する標本点を検出する。そして、各検出点におけるデジタルデータの振幅を表す振幅デ —夕と、各標本点間の時間間隔を表すタイミングデータ（クロック C K 0の数）とを求めて出力する。

図 2は、上記デ一夕生成部 3 によって行われるデータ生成処理の原理を説明するための図である。なお、データ生成部 3に入力されるデータは、入力アナログ信号を AZD変換した後のデジタルデータであるが、図 2では説明のために、 AZD変換器 2より出力されたデジタルデータの波形をアナログ的に示している。また、この図 2中に示される数値は説明用の数値であって、実際の数値に即したものではない。

本実施形態においては、例えば、 Aノ D変換器 2より出力されたデジタルデータ 1 0 1の中から、微分絶対値（信号の傾斜）が " 0 " を含む所定値以下となる点（これを標本点と称する） 1 0 2 a〜 l 0 2 f を検出する。そして、これら各標本点 1 0 2 a〜 l 0 2 f における振幅を表すデジタルデータ値と、各標本点 1 0 2 a〜 1 0 2 f が現れる時間間隔を表すタイミングデータ値とを求め、この振幅データ値とタイミングデ —夕値との組を出力する。

図 2の例では、各標本点 1 0 2 a〜 1 0 2 f におけるデジタルの振幅デ一タ値として、 " 7， 3 , 9 , 1， 6 , 3 " が求まり、各標本点 1 0 2 &〜 1 0 2 が現れる時刻丁 1 —丁 2間、 T 2 — T 3間、 T 3 — T 4 間、 T 4— T 5間、 T 5 — T 6間のそれぞれの時間間隔を表すタイミングデ一夕として、 " 5， 7 , 3 , 3 , 3 " が求まっている。なお、ここでタイミングデータとして示される数字は、あるサンプリング周波数に基づくクロック C K 0の数を示している。

時刻 T 1 の時点では、標本点 1 0 2 aの振幅データ値 " 7 " と、それより前に標本点（図示せず）が検出された時刻からの時間間隔を表すタイミングデータ値（図示せず）とが得られているので、それらデータ値の組を時刻 T 1 のデータとして出力する。

次に、標本点 1 0 2 bが検出された時刻 T 2の時点では、それより前に標本点 1 0 2 aが検出された時刻 T 1からの時間間隔を表すタイミングデータ値 " 5 " と、標本点 1 0 2 bの振幅データ値 " 3 " とが得られているので、これらデ一夕値の組（ 5 , 3 ) を時刻 T 2のデ一夕として出力する。

さらに、次に標本点 1 0 2 cが検出された時刻 T 3の時点では、それより前に標本点 1 0 2 bが検出された時刻 T 2からの時間間隔を表す夕イミングデータ値 " 7 " と、標本点 1 0 2 cの振幅データ値 " 9 " とが得られているので、これらデータ値の組（ 7， 9 ) を時刻 T 3のデータとして出力する。

以下同様にして、時刻 T 3— T 4間、 T 4— T 5間、 T 5— T 6間の時間間隔を表すタイミングデ一夕値と、時刻 T 4， Τ 5 , Τ 6で検出された各標本点 1 0 2 d， 1 0 2 e , 1 0 2 f の振幅デ一夕値との組（ 3 , 1 ) 、（ 3， 6 ) 、（ 3， 3 ) を、それぞれ時刻 T 4 , T 5 , T 6 におけるデータとして出力する。

図 3は、このデ一夕生成部 3の一構成例を示すブロック図である。図 3 において、微分器 3 0 1 は、 AZD変換器 2より入力されたデジタルデータを各サンプリングポイント毎に微分し、その絶対値をとつて標本点検出部 3 0 2 に出力する。標本点検出部 3 0 2は、上記微分器 3 0 1 により微分された結果に基づいて、デジタルデータの微分絶対値が所定値以下となる標本点を検出する。

図 4は、上記微分器 3 0 1の一構成例を示す図である。図 4に示すように、本実施形態の微分器 3 0 1 は、連続する 2つのサンプリングボイン卜のデータ間の差分絶対値を演算する差分絶対値回路により構成される。

図 4において、差分器 3 1， 3 2は、ノード a , bから入力される連続する 2つのサンプリングポイントにおけるデータの差分をそれぞれ演算する。すなわち、差分器 3 1 は差分 a— b、差分器 3 2は差分 b— a をそれぞれ演算し、その結果をそれぞれ〇 R回路 3 3， 3 4に出力する。これらの差分器 3 1， 3 2は、演算された差分値が負の値になるときには、差分値の他にポロウとして " 1 " の値を出力する。

上記 O R回路 3 3は、上記差分器 3 1で演算された差分値とポロゥ出力との論理和をとり、その結果を A N D回路 3 5に出力する。また、もう 1つの O R回路 3 4は、上記差分器 3 2で演算された差分値とポロゥ出力との論理和をとり、その結果を A N D回路 3 5 に出力する。 A N D 回路 3 5は、上記 2つの O R回路 3 3 , 3 4からの出力の論理積をとり、その結果をノード c に出力する。また、上記差分器 3 1 のポロウ出力をノード dに出力し、上記差分器 3 2で演算された差分値をノード e に出力する。

これにより、ノード c には、連続する 2つのサンプリングポイントにおけるデータの差分絶対値 I a— b I が出力され、ノード dには、ノード bのデータ値の方がノ一ド aのデータ値より大きいときに " 1 " の値が出力され、ノード eには、ノード a , bのデータ間の差分値 b— aが出力される。

なお、図 4では説明の都合上、ノード a， b， c , e のデータ線を 1 ビット分しか示していないが、実際にはデータのビット数だけ備えられている。

図 3 ©タイミング生成部 3 0 3は、 1つの標本点が検出されてから次の標本点が検出されるまでに供給されるクロック C K 0の数をカウン卜し、これをタイミングデータとして出力するとともに、各標本点の検出点のタイミングを表すタイミングクロックを出力する。

また、振幅生成部 3 0 4は、タイミング生成部 3 0 3より出力されるタイミングクロックに従って、該当する標本点位置のデジタルデ一夕のみを取り出して振幅データとして出力する。このようにして振幅生成部 3 0 4により生成された各標本点の振幅データと、タイミング生成部 3 0 3 により生成された各標本点間の時間間隔を表すタイミングデータとの組は、図 1 の相関演算部 4に出力される。相関演算部 4は、上記デ一夕生成部 3より出力された各振幅デ一夕および各タイミングデータの相関を演算する。この相関演算の方法としては種々のものが考えられる。ここでは、データ生成部 3より出力された各振幅データ同士の比率および各タイミングデータ同士の比率を演算するものとする。例えば、振幅データとして d l， d 2 , d 3 , d 4 , … が得られ、タイミングデータとして t 1 , t 2， t 3 , t 4， …が得られたとすると、相関演算部 4は、以下の式（l a) , ( l b) のような比率を計算する。

d 2 / d 1 , d 3 / d 2 , d 4 / d 3 , … ( l a)

t 2 / t 1 , t 3 / t 2 , t 4 / t 3 , ··· ( l b)

モード指定部 8は、上記相関演算部 4により生成された相関デ一夕を、音声認識処理に用いるためのマッチングデータとしてデータメモリ 6 に登録するモードか、データメモリ 6 に登録された各種のマッチングデ一夕を用いて実際に音声認識処理を行うモードかの何れかを指定するものである。

データ登録部 5は、上記モード指定部 8 により登録モ一ドが指定されているときに、相関演算部 4により生成された相関データをマッチングデータとしてデータメモリ 6 に登録するものである。

デ一タメモリ 6 は、データを蓄積する記録媒体であり、相関データ（マッチングデータ）の登録モード時には、相関演算部 4により生成された相関データを取り込んで記録する。また、音声認識モ一ド時には、デ —タ照合部 7から与えられる要求に応じて、蓄積されている相関データ (マッチングデータ）を読み出して出力する。

データ照合部 7は、相関演算部 4から出力される相関データと、デー夕メモリ 6から読み出されるマッチングデータとを用いてパターンマツチングの処理を行い、デ一タメモリ 6 に格納されている複数のマツチングデータの中から、相関演算部 4からの相関デ一夕とある確率以上で一致するマッチングデータを検出する。これにより、図示しないマイクロフォン等から入力された音声が上記検出したマッチングデータに対応する音声であると認識し、その認識結果を図示しないデータ処理部などに出力する。これによりデータ処理部では、認識された音声の内容に応じた処理が実行されることになる。

以上のように、本実施形態の音声認識装置では、マッチングデータの登録時には、人間が発声した音声をアナログ信号として入力し、それをデジタル化して演算することにより、デジタルデータの微分絶対値が所定値以下となる標本点を検出する。そして、その標本点における振幅デ —夕に関する相関データと、標本点間の時間間隔を表すタイミングデー夕に関する相関データとを生成し、それをマッチングデータとしてデー夕メモリ 6などの記録媒体に登録する。また、音声認識の処理時には、人間が発声した音声を同様に処理して、振幅データの相関データとタイミングデータの相関データとを生成する。そして、こうして生成した相関データと、データメモリ 6 にあらかじめ登録しておいた複数のマッチングデータとを用いてパターンマッチングの処理を行うことにより .、入力された音声が何であるか等を認識する。

ここで、データ生成部 3により生成される振幅データとタイミングデ —夕は、入力される音声の内容によって異なるユニークなデータとなる。したがって、この振幅データとタイミングデータとから生成した相関デ一タを用いてパターンマッチングを行うことにより、入力された音声が何であるか等の音声認識を行うことが可能である。

しかも、本実施形態では、データ生成部 3で生成された振幅データとタイミングとをそのままマッチングデータとして用いるのではなく、これらの比率をとつた相関データをマッチングデータとして用いている。これにより、音声認識率を向上させることが可能である。

すなわち、同じ言葉を発声していても、そのときの発声の大きさや速さなどによって、振幅データの値とタイミングデータの値が異なってくることがある。そのため、振幅データとタイミングデ一夕とをそのままマッチングデータとして用いると、同じ言葉を発声していても、そのときの発声の状態によっては間違つた音声として認識してしまうことが考えられる。

これに対し、本実施形態のように振幅デ一夕やタイミングデ一夕の比率をとつてこれをマッチングデータとして用いるようにすることにより、全体として発声の大きさや速さが異なっていても、同じ言葉を発声していれば、各標本点における振幅値の変化比率や標本点間のピツチの変化比率はほぼ同じとなり、正しい音声を認識することが可能である。これにより、例えば特性の言葉を音声コマンドとして用い、計算機や携帯端末などを音声により操作することも可能となる。

なお、上記実施形態の相関演算部 4では、連続する 2つの振幅データ間の比率および連続する 2つのタイミングデータ間の比率をそれぞれ式（ l a) , ( l b) のように計算しているが、相関デ一夕の計算はこの例に限定されない。例えば、上記式（l a)，（l b) の比率計算において、分母と分子は逆であっても良い。また、連続する 2つのデータ間の比率ではなく、離れたデータ間の比率を演算するようにしても良い。

また、ここでは 2つのデータ間の比率を除算により演算しているが、加算や減算もしくは乗算、または加減乗除の任意の組合せ演算によって相関値を求めるようにしても良い。さらに、 2つのデータを用いた相関演算に限らず、それより多くのデータを用いた相関演算であっても良いまた、上記実施形態では、振幅データの相関値とタイミングデータの相関値とを別々に演算しているが、振幅データと夕イミングデータとの間の相関値を演算するようにしても良い。

すなわち、相関を演算することによって、同じ音声ならばどんな発声状態でもほぼ同じ値となるようにすれば、相関演算の手法は特に限定しない。もちろん、相関演算のし方によっては、音声の認識率を更に高めることも可能である。

なお、相関を演算しなくても、データ照合部 7 によるパターンマッチング処理の際に同じ音声か否かを判断するための境界値、つまりマッチングデータとの一致度に関するしきい値を調整することにより、音声の認識率をある程度は高めることが可能である。

また、上記相関演算部 4により計算された相関データに対して下位数ビットを丸める処理を更に行うことにより、例えば、演算された比率デ —夕の小数点以下を切り捨てるようにしても良い。また、この丸め演算を行う際に、演算された相関データをまず数倍してから下位数ビットを丸めるようにしても良い。

このようにすれば、同じ音声でも発声の状態によってわずかに異なることがある相関データの下位数ビットを無視してパターンマッチングの処理を行うことができ、相関演算部 4より出力される相関データとデ一タメモリ 6 より読み出されるマッチングデータとの一致率を上げて、音声認識率を更に向上させることができる。

また、相関演算部 4により得られた一連の相関データをそのままパタ —ンマッチング処理に用いるのではなく、一連の相関デ一夕のうち最初と最後の数個の相関データはパターンマッチング処理に用いないようにしても良い。あるいは、データ生成部 3により得られた一連の振幅デ一夕およびタイミングデータのうち、最初と最後の数個の振幅データおよびタイミングデータは用いずに相関データを求めるようにしても良い。人間が発声した音声を処理して各標本点における振幅データと夕イミングデ一夕とを検出する場合、発声の最初の部分と最後の部分で得られる振幅データとタイミングデ一夕は不正確であることも考えられる。そこで、このように信頼性の低い発声の最初と最後の部分で生成された振幅デ一夕とタイミングデ一夕、あるいはこれから作られる相関デ一夕を除外してパターンマッチングを行うようにすることにより、音声認識率を更に向上させることができる。

また、上記実施形態のデータ生成部 3では、入力アナログ信号をデジタル化したデータの中から、デジタルデータの微分絶対値が " 0 " を含む所定値以下となる点を標本点として検出しているが、標本点検出の方法はこれに限定されるものではない。例えば、 Aノ D変換^ 2より供給される一連のデジタルデータの中から、前後の位置と比べて微分絶対値が小さくなる位置、つまり微分絶対値の極小値が現れる位置を標本点として検出するようにしても良い。

この場合、標本点を検出するための処理として、 A Z D変換器 2より供給されるデジタルデータを 1回微分した後、得られた微分絶対値を更に微分することによって 2重微分を実行し、その 2重微分値の極性がマィナスまたはゼロからプラスに変化する直前の点を標本点として抽出するようにしても良い。さらに、このように 2重微分値の極性に基づき抽出した各点のうち、 1回微分絶対値が一定値より小さくなる点のみを正規の標本点として検出するような処理を行うようにしても良い。

すなわち、 1回微分により得られる微分絶対値の極小点においては、その 1回微分絶対値を更に微分した 2重微分値の極性は、必ずマイナスからプラスに変化する。したがって、デジタルデータの 2重微分値を求めてその極性がマイナスからプラスに変化する点（ 2重微分値がゼロの点を含む）を検出すれば、 1 回微分絶対値の極小点を正確に検出することができる。このとき、同じ値の極小点が連続して 2つ生じるような場合にも、その一方を標本点として確実に検出することができる。また、 1回微分絶対値が一定値より小さくなる点のみを正規の標本点として検出するようにすれば、不要な点を標本点として検出しないようにすることができる。

図 5は、上記のように 2重微分を行うことによって標本点を検出するための構成例を示すブロック図であり、図 3中の微分器 3 0 1および標本点検出部 3 0 2の構成例を示している。

図 5に示すように、微分器 3 0 1は、第 1の微分部 2 1 と、丸め演算部 2 2 と、第 2の微分部 2 3 とを備えている。また、標本点検出部 3 0 2は、極性変化点検出部 2 4と、閾値処理部 2 5 とを備えている。

上記第 1の微分部 2 1は、図 4のように構成され、図 1 の Aノ D変換器 2より供給されるデジタルデータを各サンプリングポィント毎に微分し、その絶対値をとって出力する。丸め演算部 2 2は、第 1 の微分部 2 1で演算された 1 回微分絶対値の下位数ピットを落とす処理を行う。この処理は、微分器 3 0 1で算出された微分絶対値に基づき標本点を検出する際に、標本点かどうかの判定に裕度を持たせるために行っているものである。

例えば、下位 1 ビットを落とせば、実際に算出された微分絶対値が 0 〜 1 の範囲は全て微分絶対値が 0であるとみなして判定を行うことができる。また、下位 2 ビットを落とせば、実際に算出された微分絶対値が 0 〜 3の範囲は全て微分絶対値が 0であるとみなして判定を行うことができる。ここでは、上記 1回微分絶対値を 8で除算することで下位 3 ビットを落とす処理を行う。このようにすることにより、雑音などの微小変動による影響を避け、不要な点を標本点として検出しないようにすることができる。

上記丸め演算部 2 2より出力されたデ一夕は、第 2の微分部 2 3および標本点検出部 3 0 2内の閾値処理部 2 5 に供給される。この第 2の微分部 2 3 も図 4のように構成され、上記丸め演算部 2 2により丸め演算が行われた 1回微分絶対値を更に各サンプリングポイント毎に微分する。この第 2の微分部 2 3 により求められた 2重微分値およびその極性を表すポロゥ値は、標本点検出部 3 0 2内の極性変化点検出部 2 4に供給される。

上記極性変化点検出部 2 4は、微分器 3 0 1 内の第 2の微分部 2 3より供給された 2重微分値の極性がマイナスからプラスに変化する直前の点、例えば、極性がマイナスの 2重微分値が連続して得られている場合において最後にマイナスとなる点、あるいは 2重微分値がゼロとなる点を標本点の候補として抽出する。極性がマイナスの 2重微分値が連続して得られていない場合における当該マイナスの点を標本点の候補として更に抽出しても良い。

ところで、標本点の検出に裕度を持たせるために丸め演算部 2 2で微分絶対値の下位数ビットを落とした場合には、同 'じ値の極小値が連続して 2つ生じるケースが増えることが考えられる。この場合でも、 2重微分値を求めてその極性がマイナスからプラスに変化する点（ 2重微分値がゼロの点を含む）を検出すれば、同じ値の極小点のうちの一方を標本点として確実に検出することができる。

なお、同じ値の極小値が連続して 2つ生じた場合、図 4に示すノード dに出力される差分器 3 1 のポロウ値に基づいて微分値の正負の極性を判断し、微分値の極性が変化する側を標本点として検出するようにしても良い。

また、微分値の極性が変化しない場合には、同じ値が連続する 2つのサンプリングポイントの前後に位置するサンプリングポイントの微分絶対値の大小関係を見て、その値が小さい方に近い点を標本点として検出するようにしても良い。

閾値処理部 2 5は、上記極性変化点検出部 2 4により抽出された標本点の候補について、丸め演算部 2 2より供給される 1回微分絶対値と、あらかじめ定められた閾値とを比較し、 1回微分絶対値が閾値より小さくなる点のみを正規の標本点として検出し、図 3のタイミング生成部 3 0 3 に伝える。

なお、上記図 5の例では、丸め演算部 2 2にて丸め演算が施された 1 回微分絶対値を用いて閾値処理を行っているが、第 1 の微分部 2 1で求められた、丸め演算が施される前の 1回微分絶対値を用いて閾値処理を行うようにしても良い。また、上記図 5では、 2重微分値の極性がマイナスからプラスに変化する直前の点を標本点として抽出しているが、マィナスからプラスに変化した直後の点を標本点として抽出するようにしても良い。

また、標本点を検出する他の手法として、微分絶対値は用いずに、極性を含む微分値に基づいて標本点を検出するようにしても良い。例えば、 A Z D変換器 2より出力されたデジタルデータを 1 回微分して、その微分値の極性が変化する点を標本点として検出するようにすることが可能である。この場合、図 3の微分器 3 0 1 は、 A Z D変換器 2より入力されたデジタルデータを 1回微分する。このとき微分器 3 0 1は、所定周波数の入力クロック C K 0が与えられる毎にデジタルデータの微分を行う。微分値は、ある入力クロック C K 0のタイミングで取り込んだ現デ一夕から時間的に 1つ前のデータを減算することによって求まる。このとき、データのないところはデフォルト値とする。

また、標本点検出部 3 0 2は、微分器 3 0 1 により算出された微分値の他に、 A / D変換器 2より出力されたデジタルデータも入力する。そして、これらのデータに基づいて、デジタルデ一夕の微分値の極性が変化する点を標本点として検出する。

例えば、標本点検出部 3 0 2は、まず、微分値の極性が正から負に変わる点、微分値の極性が負から正に変わる点、および微分値が 0 となる点を検出する。そして、微分値の極性が正から負に変わる点に関しては、その正負両側の点のうち、 A Z D変換器 2からのデジタルデータ値が大きい方を標本点として検出する。また、微分値の極性が負から正に変わる点に関しては、その正負両側の点のうち、 A D変換器 2からのデジタルデータ値が小さい方を標本点として検出する。また、微分値が 0 となる点に関しては、その点自体を標本点として検出する。また、微分値が 0 となる点が 2つ以上連続して現れる場合には、例えば、その両端の位置を標本点として検出する。タイミング生成部 3 0 3は、 1つの標本点が検出されてから次の標本点が検出されるまでに供給されるクロック C K 0の数をカウントし、これをタイミングデータとして出力するとともに、各標本点の検出点の夕イミングを表すタイミングクロックを出力する。

また、上記振幅生成部 3 0 4は、このタイミング生成部 3 0 3より出力されるタイミングクロックに従って、該当する標本点位置のデジタルデータのみを取り出して振幅データとして出力する。

次に、本実施形態による音声合成装置について説明する。

本実施形態の音声合成装置では、所定の単語あるいは文章などを表じたテキストデータと、その単語あるいは文章に対応する音声信号から図 1 の音声認識装置におけるデータ生成部 3 までの処理によって生成した振幅データおよびタイミングデータの組とを互いに関連付けておく。そして、指定されたテキストデ一夕から音声を合成して出力するときに、そのテキストデータに関連付けられた振幅データとタイミングデ一夕とを用いて後述するような補間演算を行うことにより、個々の振幅デ一夕の間を補間する補間データを生成し、これを D / A変換して出力する。

図 6は、本実施形態による音声合成装置の構成例を示すブロック図である。図 6 に示すように、本実施形態の音声合成装置は、テキスト解析部 1 1 と、データ読出部 1 2 と、データメモリ 1 3 と、タイミングジェネレ一夕 1 4と、 D型フリップフロップ 1 5 と、補間処理部 1 6 と、 D Z A変換器 1 7 と、 L P F 1 8 とを備えて構成されている。

データメモリ 1 3は、様々な音節、単語あるいは文章などを表したテキス卜データに対応する音声から生成された振幅データおよびタイミングデータの組を、上記テキストデータと関連付けて記憶している。ここに記憶される振幅デ一夕おょぴタイミングデータは、図 1 に示した音声認識装置のデータ生成部 3 までと同様の処理によって生成されるものである。

なお、ここでは、テキストデータに対応する音声から生成した振幅デ —夕およびタイミングデ一夕をそのテキストデータに関連付けて記憶しているが、アイコン、 C Gデ一夕、画像データなどのテキスト以外の形式によるデータに対応する音声（例えば、解説音声など）から生成した振幅データおよびタイミングデータを当該データに関連付けて記憶するようにしても良い。

テキスト解析部 1 1 は、指定された所望のテキストデータを解析し、その音節、単語あるいは文章などの内容を認識する。なお、アイコン、 C Gデータ、画像データなどが指定されたときは、それらを解析して何が指定されているかを認識することになる。データ読出部 1 2は、テキスト解析部 1 1 による解析結果に基づいて、指定されたテキストデータ等の内容に対応する振幅データとタイミングデータとをデータメモリ 1 3内から読み出す。

タイミングジェネレータ 1 4は、デ一夕メモリ 1 3から読み出されるタイミングデータを受けて、そのタイミングデータで示される不定の時間間隔を表す読み出しクロックを所定周波数の入力クロック C K 0から生成する。 D型フリップフロップ 1 5は、デ一タメモリ 1 3に上記タイミングデータとの組で記憶されている振幅データを、上記タイミングジエネレー夕 1 4により生成された読み出しクロックに従ったタイミングで順次取り込んで保持し、それを補間処理部 1 6 に出力する。

この補間処理部 1 6 には、上記 D型フリップフロップ 1 5の入出力段の振幅データ、つまりある読み出しクロックのタイミングで D型フリップフロップ 1 5 に保持されている振幅データと、次の読み出しクロックのタイミングで D型フリップフロップ 1 5 に保持されるべき振幅データ (連続する 2つの標本点における 2つの振幅データ）が入力されている補間処理部 1 6は、このように入力される 2つの振幅デ一夕と、タイミングジェネレータ 1 4より入力されるタイミングデータとを用いて、後述する補間演算もしくはコンポリューシヨン演算等によって各標本点間のデジタル補間デ一夕を生成する。そして、このようにして生成したデジタル補間データを DZA変換器 1 7によってアナログ信号に変換した後、 L P F 1 8を介してアナログの合成音声信号として出力する。次に、図 7を用いて、上記補間'処理部 1 6におけるデータ補間処理の原理を説明する。図 1のデータ生成部 3と同様の処理を図 2に示した音声信号に施すことで生成される振幅データとタイミングデータとの組がデータメモリ 1 3の中に記憶されている場合、そのデータは、（※， 7 ) ( 5 , 3 ) ( 7 , 9 ) ( 3 , 1 ) ( 3 , 6 ) ( 3 , 3 ) の数値列となる。なお、 ※は図 2中には値が図示されていないことを示すものである。データメモリ 1 3からは、ここに示した順序に従つてデータが読み出される。

すなわち、まず最初にデ一タメモリ 1 3から読み出される振幅データ値 " 7 " とタイミングデータ値 " 5 " との 2つのデ一タ値から、補間演算によって波形 a 1のデータを生成する。次に、上述のタイミングデ一タ値 " 5 " と、続いて読み出される振幅データ値 " 3 " との 2つのデ一夕値から、補間演算によって波形 a 2のデータを生成する。

次に、上述の振幅データ値 " 3 " と、続いて読み出されるタイミングデ一夕値 " 7 " との 2つのデータ値から、補間演算によって波形 b 2のデータを生成する。さらに、上述のタイミングデータ値 " 7 " と、更に続いて読み出される振幅データ値 " 9 " とから、補間演算によって波形 b lのデータを生成する。以下同様にして、順に読み出される振幅データ値とタイミングデ一夕値の組合せから、波形 c l， c 2 , d 2 , d 1 , e l， e 2のデータを順次生成する。

以上のような処理により、波形 a l， b l， c l， d 1 , e lが連続化されたデジタル信号（図 7の上段）と、波形 a 2 , b 2 , c 2 , d 2 , e 2が連続化されたデジタル信号（図 7の下段）とが生成される。そして、このようにして生成した 2つのデジタル信号を互いに加算してデジタルーアナログ変換することにより、図 2に示したような波形を有するアナログ音声信号を合成する。

図 8は、図 7 に示した時刻 T l — T 2の区間を取り出して示したものであり、図 8 ( a ) は加算前の 2つの波形 a l， a 2 を示し、図 8 ( b ) は加算により生成した合成波形 a 1 + a 2 を示している。

図 8 ( a ) において、 D 1 は時刻 T 1 における振幅データ値（図 7の例では " 7 " ) 、 D 2は時刻 T 2 における振幅データ値（図 7の例では " 3 " ) 、 Tは時刻 T 1 一 T 2間の時間間隔を表すタイミングデータ値 (図 7の例では " 5 " ) 、 t は時刻 T 1 — T 2間の任意のタイミングを示している。

図 8 ( a ) に示すように、時刻 T 1 における振幅データ値 D 1 と時刻 T 1 — T 2間の時間間隔を表すタイミングデータ値 Tとを用いて、時刻 T 1 一 T 2間の任意のタイミング t を変数として、つまりあるサンプリング周波数に基づくクロック C K 0 に従ってタイミング t の値を 1つずつインクリメントしながら、波形 a 1 のデータを補間演算によって生成する。

また、時刻 T 2における振幅データ値 D 2 と時刻 T 1 — T 2間の時間間隔を表すタイミングデータ値 Tとを用いて、同様にタイミング t を変数として波形 a 2のデータを補間演算によって生成する。

そして、このようにして生成した波形 a 1 , a 2のデ一タを上記タイミング t を変数として加算することにより、図 8 ( b ) のような波形を合成する。

以下に、上述のような補間処理によって音声信号を合成できる原理について説明する。

一般に、離散的なデジタルデータから連続的なアナログ信号を得るために、離散的に入力されるデジタルデータの間を補間して擬似的にサンプリング周波数を上げることが行われている。通常、このようなデータ補間は、所定の標本化関数を用いて行われる。

図 9 に、標本化関数の一例として s i n c関数を示す。図 9に示す s i n c関数の例では、 t = 0のサンプリングポイントのみで値が " 1 " になり、等間隔の他の全てのサンプリングポイント（ t = ± l , ± 2 , 土 3 , ± 4 , ··· ) では値が全て " 0 " となっている。

図 1 0は、このような標本化関数を用いた一般的なデータ補間の動作を説明するための図である。図 1 0において、等間隔のサンプリングポイント t l , t 2 , t 3 , t 4のそれぞれにおける離散デ一夕の値を Y ( t 1 ) , Υ ( t 2 ) , Υ ( t 3 ) ， Υ ( t 4 ) とし、例えばサンプリングポイント t 2 と t 3の間の所定位置 t 0 ( t 2から距離 a ) に対応した補間値 yを求める場合を考える。

一般に、補間値 yを標本化閼数を用いて求めるには、与えられた各離散データのそれぞれについて補間位置 t 0における標本化関数の値を求め、これを用いて畳み込み演算を行えばよい。具体的には、 t 1〜 t 4 の各サンプリングポイント毎に、標本化関数の中心位置におけるピーク高さを一致させ、このときのそれぞれの補間位置 t 0 における標本化関数の値（X印で示す）を求めて、それらを全て加算する。

このような補間処理を、時間経過と共に（サンプリングクロックのィンクリメントと共に）補間位置 t 0を順次移動させながら行うことにより、連続的に変化する補間値 y ( t 0 ) を順次求めていく。これにより、各離散データ間をより滑らかにつなぐデジタル波形を得ることができ、これを D/A変換することによって、連続したアナログ信号を得ることができる。

本実施形態は、このようなデ一夕補間処理を応用したものである。すなわち、図 8 ( a ) に示したように、時刻 T 2 において既に入力されている振幅データ値 D 1 (= 7 ) とタイミングデータ値 T (= 5 ) とから、第 1の標本点（時刻 T 1 ) において " 0 " 以外の値をとる標本化関数の一部を形成する波形 a 1 を求めるとともに、振幅データ値 D 2 (= 3 ) とタイミングデータ値 T (= 5 ) とから、第 2の標本点（時刻 T 2 ) において " 0 " 以外の値をとる標本化関数の一部を形成する波形 a 2 を求める。

そして、これらの波形 a 1， a 2の値を時間経過と共に順次移動する補間位置 t ごとに加算することにより、離散データ D 1 , D 2間をより滑らかにつなぐデジタル波形を得て、これを D Z A変換することによつて、連続したアナログ信号を得る。

ところで、本実施形態では図 2に示したように、デジタルデータをその微分絶対値が所定値以下となる点の時間間隔で標本化することなどによって離散的なデータを得ている。そのため、離散データが得られたそれぞれの標本点の間隔は常に等間隔になるとは限らず、多くの場合は不定の間隔となる（図 2の例でも、各標本点の間隔が " 5 , 7 , 3 , 3 , 3 " と不定になっている）。

そこで、音声合成装置において、例えば時刻 T 1 一 T 2間の補間値を求める際には、図 8のように、その時刻 T 1 , T 2の標本点間の時間間隔で標本化関数 a 1， a 2のみを用いて上述のような畳み込み演算を行い、標本点間の時間間隔がこれとは異なる他の標本化関数 b 1， b 2， c 1 , c 2， d 1 , d 2 , e l， e 2についてはこの畳み込み演算の際に考慮しないようにする。

また、例えば時刻 T 2 — T 3間の補間値を求める際には、その時刻 T 2， T 3の標本点間の時間間隔（ = 7 ) で標本化関数 b 1 , b 2 のみを用いて畳み込み演算を行い、標本点間の時間間隔がこれとは異なる他の標本化関数 a l， a 2 , c 1 , c 2 , d l , d 2 , e l， e 2 についてはこの畳み込み演算の際に考慮しないようにする。他の標本点間の補間値を求める際も同様である。

次に、上記データ補間の具体的な処理例について以下に説明する。上述したように、例えば時刻 T 1 — T 2間の補間値を求める際には、時刻 T 1 , T 2における各振幅データ値と、時刻 T 1 一 T 2間の時間間隔を表すタイミングデータ値とから求められる標本化関数 a 1 , a 2のみを用いる。つまり、時刻 T 1 一 T 2間における各補間位置 t における補間値を求めるために必要なデータは、全て時刻 T 2の時点で得られており、この時点で図 8 ( b ) に示すような信号を合成することが可能であるそこで、本実施形態では、 T 1〜T 6の各離散時刻ごとに 2つの振幅データ値 D 1， D 2 とその時間間隔を表すタイミングデータ値 Τとが得られるごとに、それらのデータ値を用いて以下に説明するような補間演算式に従って補間値を算出することにより、デジタル波形を順次合成する。図 1 1は、この補間演算式について説明するための図である。

図 1 1 に示すように、振幅データ値 D l , D 2 を有する 2つの標本点間の補間値は、補間位置 t に関する 2つの 2次関数 X 1 , X 2がちょうど中間時点で連続化した関数によって表すことができる。すなわち、本実施形態では、 2つの標本点間を前半部と後半部とに分けて、それぞれ 2次関数 X 1 , X 2 を用いて補間値を計算する。ここで、標本点間の時間間隔であるタイミングデータ値 Tは、奇数の場合もあれば偶数の場合もあり、奇数の場合にはちょうど中間時点に補間位置 tがこない状態が生じる。そのため、振幅データとタイミングデ一夕の生成時に 2倍のオーバ一サンプリングを実行することにより、得られるタイミングデータ値が常に偶数となるようにしても良い。この場合、図 2 に示した 5つのタイミングデータ値 " 5 , 7 , 3 , 3 , 3 " は、実際には 2倍のォ一バーサンプリングによって " 1 0 , 1 4， 6 , 6 , 6 " という値としてデ一夕メモリ 1 3 に蓄積される。図 1 1では、標本点間の時間間隔をオーバ一サンプリングされた後の 2 Tによって表している。

図 1 1 において、 2つの 2次関数 x l , x 2はそれぞれ、

X 1 = D 1 + a t ² …（1)

x 2 =D 2 - a ( t - 2 T)² …（2)

で表される。また、これらの関数 x l， x 2は、連続する標本点のちょうど中間時点 Tにおいて連続であるため、

X 1 = X 2 ( t = T ) …（3)

である。

ここで、式（3) に式（1) (2)を代入すると、

D 1 + a T = D 2 — a T ² …（4)

となり、これを aについて解くと、

a =— (D 1 - D 2 )/ 2 T ² … (5)

となる。したがって、この式（5) を式（1) (2)を代入することにより、

X 1 = D 1 - { (D 1 - D 2 ) / 2 T ² } t ² - (6)

X 2 = D 2 + { (D 1 - D 2 ) 2 T ² } (2 T - t ) ² … ）を得る。

つまり、元の 2倍のサンプリング周波数のクロックに従って順次ィンクリメントされる補間位置 t を変数として上記式（6) (7)の演算を行うことにより、元の離散デ一夕間をより滑らかにつなぐデジタル波形を合成することができる。本実施形態では、このような補間演算処理を振幅デ —夕値とタイミングデータ値とから成る信号列が各離散時刻 T 1〜 T 6 ごとに入力されるに従って順次行う。

すなわち、図 7の例において、時刻 T 1 , T 2における標本点の振幅データ値とその間のタイミングデータ値とが入力された時点で、その標本点間の補間演算を行って滑らかなデジタル波形を直ちに合成する。更に時刻 T 3 における標本点の振幅データ値と標本点 T 2 — T 3間のタイミングデータ値とが入力された時点で、その間の補間演算を行って滑らかなデジタル波形を直ちに合成する。以下同様にして順次処理を行っていく。

以上説明したように、本実施形態においては、実際の音声から生成された各標本点における振幅データと各標本点間の間隔を表すタイミングデ一夕とをテキストデータと関連付けておき、所望のテキストデータが指定されたときに、それに対応する振幅デ一夕とタイミングデ一夕とから、補間演算によってアナログ音声信号を合成して出力するようにしている。これにより、あらかじめ録音した音声信号を利用して音声を合成 (再生）する方式と比べて、極めて少ない量のデータ（振幅データおよびタイミングデータ）を記憶しておくだけで、人間の肉声に近い高品質の音声をテキストデータ等から合成することができる。また、読み出されるデ一夕を簡単な補間演算によって順次に処理して音声を合成することができるので、リアルタイム動作を実現することができる。

なお、上記式（6) (7)に示す補間演算処理は、ロジック回路などの八一ドウエア構成によっても実現可能であるし、 D S P (Digital Signal Pr ocessor) あるいはソフトウェア（ R〇 Mや R A Mなどに格納されたプログラム）によっても実現可能である。

(第 2 の実施形態）

次に、本発明の第 2の実施形態について説明する。

第 2 の実施形態において、音声認識装置では、少なくともデ一夕生成部 3により振幅データとタイミングデータとを生成する前の段階で、与えられたデジタルデータに対して n倍オーバ一サンプリングと移動平均演算または畳み込み演算（以下では、コンポリューシヨン演算と称する ) とを行うことにより、離散的なデータの間を補間によってつないだ、より滑らかなデ一夕を得るようにする。

図 1 2は、第 2の実施形態による音声認識装置の全体構成例を示すブロック図である。図 1 2 に示すように、第 2の実施形態による音声認識装置は、図 1 に示した第 1の実施形態による音声認識装置に対して、ォ —バーサンプル回路 9 と P L L (Phase Locked Loop ) 回路 1 0 とが追加されている。

上記オーバーサンプル回路 9は、 AZD変換器 2 とデータ生成部 3 との間にあり、 AZD変換器 2より入力されるデジタルデータに対して n 倍のオーバーサンプリングとコンポリュ一ション演算とを行うことにより、離散データの間を埋めるデジタルの補間値を求める。例えば、ォ一バーサンプル回路 9は、 4 4. Ι ΚΗ ζ の周波数でサンプリングされた音声データを入力し、これを 8倍の周波数（ 3 5 2. 8 K H z ) でォ一バーサンプリングするとともに、コンポリユーション演算を実行する。そして、これによつて得られた一連のオーバ一サンプルデータをデータ生成部 3に出力する。

データ生成部 3は、上記オーバ一サンプル回路 9より供給される一連のオーバーサンプルデータの中から、上述した何れかの方法によって標本点を検出する。そして、検出した各標本点における振幅データ値と、各標本点が現れる時間間隔を表すタイミングデ一夕値との組を、モード指定部 8により指定されているそのときのモードに応じて、データ登録部 5あるいはデータ照合部 7 に出力する。

また、 P L L回路 1 0は、基準周波数（例えば 4 4 . 1 K H z ) の入カクロック C K 0から 8倍周波数（ 3 5 2 . 8 K H z ) のクロック C K 1 を生成し、それを上述のオーバーサンプル回路 9およびデータ生成部 3に供給する。オーバ一サンプル回路 9およびデータ生成部 3では、この 8倍周波数のクロック C K 1 に同期して動作することになる。

一方、音声合成装置において、 8倍周波数のクロック C K 1 に従って生成された振幅データとタイミングデータとをデータメモリ 1 3 に記憶する場合には、図 6 に示した第 1 の実施形態による音声合成装置に対して、図示しないクロックジェネレータを追加する必要がある。

このクロックジェネレータは、基準周波数の入力クロック C K 0から 8倍周波数のクロック C K 1 を生成し、それをタイミングジェネレータ 1 4、補間処理部 1 6および D A変換部 1 7に供給する。

次に、上記図 1 2 に示した音声認識装置内のォバ一サンプル回路 9 の構成および動作について、以下に詳細に説明する。

本実施形態のオーバ一サンプル回路 9では、 2つの離散データ間の補間値を求める際に、この 2つの離散データを含む n個の離散データの値に応じた振幅を有する基本波形のデジタルデータを夫々オーバ一サンプリングするとともに、得られた n個のデータどうしをコンポリューション演算により合成することによって、上記 2つの離散データ間を埋める補間値をデジタル的に求める。

図 1 3は、本実施形態で用いるデジタル基本波形の説明図である。図 1 3 に示すデジタル基本波形は、オーバ一サンプリングによるデータ補間を行う際に使用する標本化関数の基本となるものである。このデジ夕ル基本波形は、基準周波数の 1 クロック（C K 0 ) 毎にデータ値を一 1 ， 1， 8， 8 , 1， — 1 と変化させて作成したものである。

以下に、図 1 4を用いて、図 1 3のように正規化されたデジタル基本波形に応じた離散的なデータ値（一 1， 1， 8 , 8 , 1 , 一 1 ) 8から、 n倍のオーバーサンプリングとコンポリユーション演算によって補間値を生成する場合を例にとって、本実施形態によるデータ補間の原理を説明する。なお、図 1 4では、図面の都合上 4倍のオーバーサンプリングを行う例について示しているが、図 1 2のオーバーサンプル回路 9 では、実際には 8倍のオーバーサンプリングを行っている。

図 1 4において、一番左の列に示される一連の数値列は、元の離散デ一夕値（一 1， 1， 8 , 8 , 1 , — 1 ) / 8に対して 4倍のオーバーサンプリングを行った値である。また、一番左から右に向かって 4列分の数値列は、一番左の列に示される数値列を 1つずつ下方向にシフ卜していったものである。図 1 4の列方向は時間軸を示しており、数値列を下方向にシフ卜するということは、一番左の列に示される数値列を徐々に遅延させていくことに対応する。

すなわち、左から 2列目の数値列は、一番左の列に示される数値列を 4倍周波数のクロック 4 C L Kの 1 4位相分だけずらした数値列であることを示す。また、左から 3列目の数値列は、左から 2列目に示される数値列を 4倍周波数のクロック 4 C L Kの 1ノ 4位相分だけずらした数値列、左から 4列目の数値列は、左から 3列目に示される数値列を 4 倍周波数のクロック 4 C L Kの 1ノ 4位相分だけ更にずらした数値列であることを示す。

また、左から 5列目の数値列は、 1〜 4列目の各数値列を対応する行どうしで加算して 4で割った値である。この左から 5列目までの処理により、 4相のコンポリューション演算を伴う 4倍のオーバーサンプリングがデジタル的に実行されることになる。

上記 5列目から右に向かって 4列分の数値列（左から 5〜 8列の数値列）は、 5列目に示される数値列を 1つずつ下方向にシフトしていったものである。また、左から 9列目の数値列は、 5〜 8列目の各数値列を対応する行どうしで加算して 4で割つた値である。この左から 9列目までの処理により、 4相のコンポリューション演算を伴う 4倍のオーバーサンプリングがデジタル的に 2回実行されることになる。

また、左から 1 0列目の数値列は、 9列目に示される数値列を 1つ下方向にシフトしたものである。また、左から 1 1列目（一番右の列）の数値列は、 9列目の数値列と 1 0列目の数値列とを対応する行どうしで加算して 2で割った値である。この一番右の数値列が、目的の補間値ということになる。

この図 1 4の一番右の列に示される最終的に得られた数値列をグラフ化したのが、図 1 5である。図 1 5に示すような波形を有する関数は、全域において 1 回微分可能であつて、横軸に沿った標本位置 tが 1から 3 3の間にあるときに 0以外の有限な値を有し、それ以外の領域では値が全て 0 となる関数である。

なお、関数の値が局所的な領域で " 0 " 以外の有限の値を有し、それ以外の領域で " 0 " となる場合を「有限台」と称する。

また、図 1 5の関数は、 t = l 7の標本点でのみ極大値をとり、 t = 1 , 9 , 2 5， 3 3の 4つの標本点において値が 0 になるという特徴を有する標本化関数であり、滑らかな波形のデータを得るために必要なサンプル点は全て通る。

このように、図 1 5に示す関数は、標本化関数であって、全域において 1 回微分可能であり、しかも標本位置 t = l , 3 3において 0 に収束する有限台の関数である。したがって、図 1 5の標本化関数を用いて各離散データに基づく重ね合わせを行うことにより、離散データ間の値を 1回微分可能な関数を用いて補間することが可能である。

データ補間処理に一般的に用いられる図 9のような s i n c関数は、 t = ±∞の標本点で 0に収束する関数であるため、補間値を正確に求めようとすると、 t = ±∞までの各離散データに対応して補間位置での s i n c関数の値を計算し、これを用いて畳み込み演算を行う必要がある。これに対して、本実施形態で用いる図 1 5の標本化関数は、 t = l， 3 3の標本点で 0 に収束するため、 t = 1〜 3 3の範囲内での離散デー夕だけを考慮に入れればよい。

したがって、ある 1つの補間値を求める場合には、限られた n個の離散データの値のみを考慮すればよいことになり、処理量を大幅に削減することができる。しかも、 t = l〜 3 3の範囲外の各離散データについては、本来考慮すべきであるが処理量や精度等を考慮して無視しているというわけではなく、理論的に考慮する必要がないため、打ち切り誤差は発生しない。したがって、本実施形態のデータ補間手法を用いれば、正確な補間値を得ることができ、この正確な補間値を用いて音声認識処理をすることで、認識率を向上させることができる。

図 1 6は、図 1 2 に示したオーバ一サンプル回路 9の構成例を示すブロック図である。図 1 6 に示すように、本実施形態のオーバーサンプル回路 9は、正規化データ記憶部 4 1 と、位相シフト部 4 2 と、複数のデジタル乗算器 4 3 a〜 4 3 dと、複数のデジタル加算器 4 4 a〜 4 4 c とを備えて構成される。なお、図 1 6 中に示される P L L回路 1 0は、図 1 2に示したのと同じものである。

上記正規化データ記憶部 4 1は、図 1 4の一番右の列に示したように正規化されたデータ列を 4相にずらして記憶している。なお、図 1 4では、図 1 3に示したデジタル基本波形に対して 4倍のオーバ一サンプリングを行う例を示しているが、図 1 2のオーバ一サンプル回路 9では 8 倍のオーバーサンプリングを実施しているので、この正規化データ記憶部 4 1 には、デジタル基本波形が 8倍にオーバーサンプリングされてコンポリューション演算により正規化されたデータ列が記憶される。この正規化データ記憶部 4 1 に記憶された 4相の正規化データは、 P L L回路 1 0より供給されるクロック C K O , C K 1 に従って読み出され、それぞれ 4つのデジタル乗算器 4 3 a〜 4 3 dの一方の入力端子に供給される。

また、位相シフト部 4 2は、 AZD変換器 2 より入力される離散デ一夕の位相を 4相にずらす位相シフト処理を行う。この位相シフト部 4 2 により生成された 4相の離散データは、 P L L回路 1 0より供給されるクロック C K O , C K 1 に従って出力され、それぞれ 4つのデジタル乗算器 4 3 a〜 4 3 dの他方の入力端子に供給される。

上記 4つのデジタル乗算器 4 3 a〜 4 3 dは、上記正規化データ記憶部 4 1 より出力される 4相の正規化データと、上記位相シフト部 4 2より出力される 4相の離散データとをそれぞれ乗算する。これらの後段に接続された 3つのデジタル加算器 4 4 a〜 4 4 cは、上記 4つのデジ夕ル乗算器 4 3 a〜 4 3 dでの乗算結果を全て加算し、その加算結果を図 1 2のデータ生成部 3に出力する。

この図 1 6 に示す構成から明らかなように、本実施形態では、図 1 4 に示したようなコンポリューシヨン演算により得られる一番右の列の正規化データをあらかじめ R〇 M等の正規化データ記憶部 4 1に記憶しておく。そして、この正規化データを入力される離散デ一夕の値に応じた振幅に変調し、これにより得られたデータを 4相のコンポリューション演算により合成して出力するようにしている。入力される離散データの振幅値を図 1 3に示したデジタル基本波形に対して乗算し、それにより得られたデータ値に対して図 1 4に示したようなコンポリューシヨン演算を音声認識時に行うようにしても良いが、オーバ一サンプル回路 9 を図 1 6のように構成した場合には、実際の音声認識時に図 1 4のコンポリューション演算そのものを行う必要がなく、認識処理を高速化することができるというメリットを有する。

なお、ォ一バーサンプル回路 9では 8倍のオーバ一サンプリングを実施しているが、 8倍には限定されない。例えば、 2倍、 4倍などであつても良い。

以上詳しく説明したように、第 2の実施形態においては、音声認識装置において、入力される離散的なデジタルデータに対してオーバ一サンプリングとコンポリューション演算とを行って滑らかに変化する連続的なデータを生成し、得られたオーバーサンプルデータから離散的な振幅データ値とそれらの不定の時間間隔を表すタイミングデータ値とを得るようにしている。

ここで、オーバーサンプリングとコンポリューション演算を実行する際にデジタル基本波形から生成される関数は、有限の標本位置で値が 0 に収束する有限台の標本化関数であり、 1回微分可能な関数である。そのため、ある 1つの補間値を求める場合には、限られた数の離散データの値のみを考慮すればよいことになり、処理量を大幅に削減することができる。しかも、打ち切り誤差が生じないため、正確な補間値を得ることができ、この補間値を用いて音声認識処理をした場合に、音声の認識率を向上させることができる。

なお、以上に説明した第 1、第 2の実施形態による音声認識 · 音声合成の手法は、ハードウェア構成、 D S P、ソフトウェアの何れによっても実現することが可能である。例えばソフトウェアによつて実現する場合、本実施形態の音声認識装置および音声合成装置は、実際にはコンビュ一夕の C P Uあるいは M P U、 R A M , R O Mなどで構成されるものであり、 R A Mや R O Mに記憶されたプログラムが動作することによつて実現できる。

したがって、コンピュータが上記本実施形態の機能を果たすように動作させるプログラムを例えば C D— R O Mのような記録媒体に記録し、コンピュータに読み込ませることによって実現できるものである。上記プログラムを記録する記録媒体としては、 C D— R O M以外に、フロッピ一ディスク、ハードディスク、磁気テープ、光磁気ディスク、不揮発性メモリ力一ド等を用いることができる。

また、コンピュータが供給されたプログラムを実行することにより上述の実施形態の機能が実現されるだけでなく、そのプログラムがコンビユー夕において稼働している O S (オペレーティングシステム）あるいは他のアプリケーションソフト等と共同して上述の実施形態の機能が実現される場合や、供給されたプログラムの処理の全てあるいは一部がコンピュ一夕の機能拡張ボードや機能拡張ユニットにより行われて上述の実施形態の機能が実現される場合も、かかるプログラムは本発明の実施形態に含まれる。

なお、上記に説明した各実施形態は、何れも本発明を実施するにあたつての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。産業上の利用可能性

本発明は、音声信号上の所定の標本点における振幅データとタイミングデータとを用いた今までにはない全く新しい音声認識手法および音声合成手法を提供し、音声認識度の向上、合成音の高品質化および処理の簡素化を図るのに有用である。

Claims

請求の範囲

1 . 入力音声信号を微分してその微分値が所定の条件を満たす点を標本点として検出し、検出した各標本点における離散的な振幅データと各標本点間の時間間隔を表すタイミングデ一夕とを得て、上記振幅データおよびタイミングデータを用いて相関データを生成し、この生成した相関データと、種々の音声についてあらかじめ同様に生成して蓄積しておいた相関データとの照合により入力音声を認識するようにしたことを特徴とする音声認識方法。

2 . 上記入力音声信号をその微分絶対値が所定値以下となる点の時間間隔で標本化するようにしたことを特徴とする請求の範囲第 1項に記載の音声認識方法。

3 . 上記入力音声信号をその微分絶対値が極小となる点の時間間隔で標本化するようにしたことを特徴とする請求の範囲第 1項に記載の音声認識方法。，

4 . 上記入力音声信号をその微分値の極性が変化する点の時間間隔で標本化するようにしたことを特徴とする請求の範囲第 1項に記載の音声認識方法。

5 . 上記相関データは、連続する標本点の振幅データ同士の比率および連続する標本点間のタイミングデ一夕同士の比率であることを特徴とする請求の範囲第 1項に記載の音声認識方法。

6 . 上記相関データの下位数ビットを丸める処理を行うことを特徴とする請求の範囲第 1項に記載の音声認識方法。

7 . 上記入力音声信号をオーバーサンプリングし、当該オーバーサンプリングされたデータをその微分値が所定の条件を満たす点の時間間隔で標本化するようにしたことを特徴とする請求の範囲第 1項に記載の音声認識方法。

8. 上記入力音声信号をデジタル化して得られる n個の離散データの値に応じた基本波形のデジタルデータをオーバ一サンプリングと移動平均演算または畳み込み演算とにより合成することによって上記離散データに対するデジタルの補間値を求めた後、上記求めたデジタルの補間値をその微分値が所定の条件を満たす点の時間間隔で標本化するようにしたことを特徴とする請求の範囲第 7項に記載の音声認識方法。

9. 入力音声信号を A/D変換する A/D変換手段と、

上記 A/D変換手段より出力されるデジタルデータを微分する微分手段と、

上記微分手段により求められた微分値が所定の条件を満たす点を標本点として検出し、検出した各標本点における振幅データおよび各標本点間の時間間隔を表すタイミングデータを生成するデータ生成手段と、上記データ生成手段により生成された上記振幅データおよびタイミングデータを用いて相関データを生成する相関演算手段と、上記相関演算手段により生成された相関データと、種々の音声についてあらかじめ同様に生成して記録媒体に蓄積しておいた相関データとを照合して入力音声を認識するデータ照合手段とを備えたことを特徴とする音声認識装置。

1 0. 上記データ生成手段は、上記 AZD変換手段より出力されたデジタルデ一タをその微分絶対値が所定値以下となる点の時間間隔で標本化することを特徴とする請求の範囲第 9項に記載の音声認識装置。

1 1. 上記データ生成手段は、上記 AZD変換手段より出力されたデジタルデ一夕をその微分絶対値が極小となる点の時間間隔で標本化することを特徴とする請求の範囲第 9項に記載の音声認識装置。

1 2. 上記データ生成手段は、上記 AZD変換手段より出力されたデジタルデータをその微分値の極性が変化する点の時間間隔で標本化することを特徴とする請求の範囲第 9項に記載の音声認識装置。

1 3 . 上記相関演算手段は、上記相関データとして、連続する標本点の振幅データ同士の比率および連続する標本点間のタイミングデータ同士の比率を求めることを特徴とする請求の範囲第 9項に記載の音声認識装置。

1 4 . 上記相関演算手段は、上記相関データの下位数ビットを丸める処理を行うことを特徴とする請求の範囲第 9項に記載の音声認識装置。

1 5 . 上記 A Z D変換手段より出力されたデジタルデータに対して偶数倍周波数のクロックを用いてオーバ一サンプリングを行うオーバーサンプリング手段を備え、

上記データ生成手段は、上記オーバーサンプリングされたデ一夕をその微分値が所定の条件を満たす点の時間間隔で標本化することを特徴とする請求の範囲第 9項に記載の音声認識装置。

1 6 . 上記オーバ一サンプリング手段は、上記 A Z D変換手段より入力される n個の離散データの値に応じた基本波形のデジタルデータをォーバ一サンプリングと移動平均演算または畳み込み演算とにより合成することによって上記離散データに対するデジタルの補間値を求めることを特徴とする請求の範囲第 1 5項に記載の音声認識装置。

1 7 . 音声以外のデータと、当該デ一夕に対応する音声信号についてあらかじめ生成された、上記音声信号の微分値が所定の条件を満たす標本点における振幅データおよび各標本点間の時間間隔を表すタイミングデ一夕の組とを互いに関連付けておき、所望のデータが指定されたときに、その指定されたデ一夕に関連付けられている上記振幅データおよびタイミングデータの組を用いて、上記タイミングデータによって示される時間間隔を有する上記振幅データの間を補間する補間データを求めることによって音声を合成するようにしたことを特徴とする音声合成方法。

1 8 . 連続する 2つの標本点における 2つの振幅データとその間のタイミングデータとから得られる有限台の標本化関数を用いて、上記 2つの振幅データ間を補間する補間データを求めることを特徴とする請求の範囲第 1 7項に記載の音声合成方法。

1 9 . 音声以外のデータに対応する音声信号についてあらかじめ生成された、上記音声信号の微分値が所定の条件を満たす標本点における振幅データおよび各標本点間の時間間隔を表すタイミングデータの組を、上記音声以外のデータと互いに関連付けて記憶した記憶手段と、

所望のデータが指定されたときに、その指定されたデータに関連付けて上記記憶手段に記憶されている上記振幅データおよびタイミングデー夕の組を用いて、上記タイミングデータによって示される時間間隔を有する上記振幅データの間を補間する補間データを求める補間処理手段と上記補間処理手段により求められた補間データを D Z A変換する D / A変換手段とを備えることを特徴とする音声合成装置。

2 0 . 上記記憶手段から読み出された各標本点間の時間間隔を表すタイミングデータに従って、各標本点における振幅データを上記各標本点間の時間間隔ごとに順次読み出すようにタイミングを制御するタイミング制御手段を備え、

上記補間処理手段は、上記タイミング制御手段の制御に従って読み出された連続する 2つの標本点における 2つの振幅データおよびその間のタイミングデータを用いて、上記 2つの振幅データの間を補間する補間データを求めることを特徴とする請求の範囲第 1 9項に記載の音声合成装置。

2 1 . 上記補間処理手段は、上記連続する 2つの標本点における 2つの振幅データとその間の夕イミングデータとから得られる有限台の標本化関数を用いて、上記 2つの振幅データ間を補間する補間データを求めることを特徴とする請求の範囲第 2 0項に記載の音声合成装置。

2 2 . 請求の範囲第 1項に記載の音声認識方法の処理手順をコンビュ一夕に実行させるためのプログラムを記録したことを特徴とするコンビュ一夕読み取り可能な記録媒体。

2 3 . 請求の範囲第 9項に記載の各手段としてコンピュータを機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。

2 4 . 請求の範囲第 1 7項に記載の音声合成方法の処理手順をコンビュ一夕に実行させるためのプログラムを記録したことを特徴とするコンビユータ読み取り可能な記録媒体。

2 5 . 請求の範囲第 1 9項に記載の各手段としてコンピュータを機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。