WO2000014723A1

WO2000014723A1 - Dispositif de reconnaissance de la parole

Info

Publication number: WO2000014723A1
Application number: PCT/JP1999/004885
Authority: WO
Inventors: Makoto Shozakai
Original assignee: Asahi Kasei Kabushiki Kaisha
Priority date: 1998-09-09
Filing date: 1999-09-08
Publication date: 2000-03-16
Also published as: CN1280783C; US6868382B2; CN1323436A; BR9913524A; EP1126438B1; AU5647899A; JP3803029B2; KR20010086402A; US20020116192A1; KR100415217B1; EP1126438A4; DE69939124D1; EP1126438A1; ID27346A; MXPA01002514A; HK1040312A1; RU2223554C2

Description

音声認識装置技術分野

本発明は、特定話者に固有の登録語と不特定話者に共通の固定語が混在した語彙に対し、音声認識が可能な音声認識装置および方法に関するものである。背景技術

特定話者に固有の登録語を認識する技術を一般に特定話者音声認識と呼ぶ。特定話者音声認識においては、特定話者が予め音声認識させたい単語の音声を登録するという作業が発生する。この作業は具体的には、特定話者が予め発声した単語の音声サンプルをある特徴パラメータの系列（テンプレートと呼ぶ）に変換し、その系列を単語のラベルとともにメモリ一やハードディスクなどの記憶装置に蓄積する。音声サンプルをある特徴パラメ一夕の系列に変換する方法としては、ケプストラム分析や線形予測分析などが知られており、「音声 ·音情報のディジ夕ル信号処理」

(鹿野清宏、中村哲、伊勢史郎共著、（株）昭晃堂）にも詳述されている。特定話者音声認識においては、記憶装置に蓄積された特徴パラメ一夕の系列と入力された音声から変換された特徴パラメ一夕の系列とを比較し、入力された音声から変換された特徴パラメ一夕の系列に最も類似した特徴パラメ一夕の系列を持つ単語のラベルを認識結果として出力する。

記憶装置に蓄積された特徴パラメ一夕の系列と入力された音声から変換された特徴パラメ一夕の系列とを比較する方法としては、動的計画法（dynami c programming) による時間軸伸縮マッチング（Dynami c T ime Warp ing, D TW) が広く用いられており、上記「音声 ·音情報のディジタル信号処理」にも詳しく述べられている。一方、不特定話者に共通の固定語を認識する技術を一般に不特定話者音声認識と呼ぶ。不特定話者音声認識においては、不特定話者に共通の固定語の特徴パラメ一夕に関する情報が予め記憶装置に蓄積されているため、特定話者音声認識のようにユーザーが音声認識させたい単語を登録するという作業は発生しない。音声サンプルをある特徴パラメ一夕の系列に変換する方法としては、特定話者音声認識と同様にケプストラム分析や線形予測分析などが知られている。また、不特定話者に共通の固定語の特徴パラメータに関する情報の作成およびその情報と入力された音声から変換された特徴パラメ一夕の系列との比較には、隠れマルコフモデル (Hidden Markov Mode l , HMM) による方法が一般に用いられている。

HMMによる不特定話者音声認識についても、上記「音声 ·音情報のディジタル信号処理」に詳しく述べられている。例えば、日本語の場合、音声単位を上記「音声 ·音情報のディジタル信号処理」の第 2章に記載されている音韻のセットとし、各音韻が HMMによりモデル化されているとする。表 1に音韻のセッ卜のラベルの一覧を示す。

【表 1】母音 a , i， u , e , 〇 f 、 z、 s、 z h、 s h、 h 破擦音 d z、 t s、 d h、 c h 破裂音 b， p , d， t , g , k 半母音 w、 r、 y 鼻音 m, n , n g この時、例えば「C D (シーディー）」は図 2 Aのような話者に共通の音韻ラベルのネットワーク（固定語ラベル系列と呼ぶ）でモデル化することができる。

また、例えば「MD (ェムディ一）」は図 2 Bのような固定語ラベル系列でモデル化することができる。 HMMによる音韻モデルのデータと固定語ラベル系列を用意すれば、上記「音声 ·音情報のディジタル信号処理」の第 4章に記載されている V i t e r b iアルゴリズムにより、当業者は不特定話者音声認識装置を構成することができる。

音声認識装置において、特定話者に固有の登録語と不特定話者に共通の固定語が混在した語彙に対し、認識が可能であるという機能を提供したいというニーズがある。例えば、カーオーディオ装置においては、安全上の理由から「C D」、「MD」などの各機器の制御を音声で行いたいというニーズがある。これらの機器の名前は、不特定多数の話者で共通に設定することができるため、不特定話者音声認識技術で実現することができる。これにより、特定話者音声認識技術で必要な登録の作業を回避することができ、ユーザ一イン夕フェースの面で好ましい。

一方で、例えば、 C Dチェンジャーに挿入された複数の C Dを声で選択し再生するというニーズが存在する。この場合、 C Dチェンジャーに挿入される C Dのタイトル名、歌手名などはユーザ一により異なると考えられる。従って、従来の不特定話者音声認識技術ではなく、特定話者音声認識技術の適用が必要となる。すなわち、ュ一ザ一が C Dチェンジャーに挿入する C Dのタイトル名、歌手名などを予め声により登録するという作業が必要となる。「C D」、「MD」などの各機器の名前と C Dのタイトル名、歌手名などが混在した語彙に対し、音声認識を行うことが可能であれば、「C D」、「MD」などの不特定話者に共通の固定語を認識できるモードと C Dのタイトル名、歌手名などの特定話者に固有の登録語を認識できるモードを切り替える必要がなく、ユーザ一に対してより使いやすい音声認識機能を提供できると考えられる。これまで、特定話者音声認識には、 D TWによる方法が広く用いられてきた。また、不特定話者音声認識には、 HMMによる方法が広く用いられてきた。上記二一ズを実現する 1つの方法として、 D TWによる特定話者音声認識と HMMによる不特定話者音声認識を併用する方法が考えられる。この 2つの方法で入力音声のパラメータ系列と記憶装置に記憶された語彙単語のパラメ一夕系列の情報とを比較する際に用いる尺度は一般に異なっている。従って、 D TWによる特定話者音声認識により最も入力音声に近いと判断された特定話者に固有の登録語と HMMによる不特定話者音声認識により最も入力音声に近いと判断された不特定話者に共通の固定語のいずれかが入力音声により近いのかを判断するのは容易ではない。

D TWによる特定話者音声認識において、固定語に対し多数の話者の音声を用いて複数のテンプレートを記憶装置に記憶させることにより、不特定話者音声認識を実現することも可能である。これにより、 D TWを用いて上記ニーズを実現することができる。しかしながら、この方法では、各固定語のテンプレートを複数持つことによる記憶装置の容量の増加、複数のテンプレートとの D TWによる照合時間の増加、固定語を変更する際にあらためて多数話者の音声を収集する必要があるなどの不具合がある。

以上を要約すると、たとえば、力一オーディオ装置に音声認識装置を搭載する場合、不特定話者用の音声認識装置は、製造会社にとっては多数のユーザの声を個々に登録する必要がないので好都合である反面、個々のユーザにとっては、認識精度が特定話者の認識精度よりも若干落ちるというデメリツ卜がある。

また、特定話者用の音声認識装置は認識精度において優れるものの、製造会社にとっては、個々のユーザの音声から特徴パラメ一夕を取り出し、音声認識装置に予め記憶させることは至難である。ユーザ自身が自己の音声を登録するにしても、たとえば、多くの単語を登録するには多大の労力を必要とする。

さらに従来の特定話者の音声認識に使用する方法と不特定話者の音声認識に使用する方法は種類内容が異なるので両方の音声認識方法を 1つの装置に組み込みすると装置が大型化してしまうという問題がある。発明の開示

本発明の目的は、このような点を考慮して、不特定話者の音声を認識する音声認識方法を使用した場合でも、特定話者の発声する登録語を精度よく認識することができる音声認識装置および方法を提供することにある。

本発明によれば、入力音声を、単語より短い長さの音声単位のモデルの情報を用いて、単語認識を行う音声認識装置であって、不特定話者の入力音声の単語認識のために共通使用する固定語に対する、前記音声単位のラベル系列を蓄積しておく語彙ラベルネッ卜ワーク蓄積手段と、特定話者の入力音声から登録語に対する前記音声単位のラベル系列を作成する登録語ラベル系列抽出手段と、当該作成された登録語のラベル系列を前記語彙ラベルネットワーク蓄積手段に追加登録する登録手段とを具え、前記音声単位が音韻の隠れマルコフモデルの各状態を分割して生成した音響ィベントである音声認識装置が提供される。

本発明によれば、音声認識装置は前記固定語を前記語彙ラベルネットワーク蓄積手段に登録する手段をさらに具えてもよい。

本発明によれば、音声認識装置では前記不特定話者の入力音声の単語認識のために共通使用する固定語に対する、音声単位のラベル系列と、作成された登録語のラベル系列とが並列のネットワークの形態で前記語彙ラベルネットワーク蓄積手段に記憶されてもよい。

本発明によれば、音声認識装置の製造会社では、多数の不特定のユーザを対象にした固定語のラベル系列を音声認識用データとして提供すればよく、ユーザは所望の単語について自己の音声を登録することができる。換言すると、不特定話者方式の音声認識方法に特定話者の音声認識機能を加味することが可能となる。これにより、ユーザおよび製造会社双方に好適な音声認識装置および方法を提供することが可能となる。図面の簡単な説明

図 1は本発明実施形態のシステム構成を示すブロック図である。

図 2 Aは「C D (シーディ一）」の固定語ラベル系列を示す説明図である。

図 2 Bは「MD (ェムディ一）」の固定語ラベル系列を示す説明図である。

図 3は音韻ネットワークの内容を示す説明図である。

図 4 Aは「ジャズ」の登録語ラベル系列を示す説明図である。

図 4 Bは「ポップス」の登録語ラベル系列を示す説明図である。

図 5は固定語と登録語が混在した語彙ラベルネットワークを示す説明図である。図 6は固定語だけの語彙ラベルネットワークを示す説明図である。

図 7は登録語だけの語彙ラベルネッ卜ワークを示す説明図である。

図 8は音韻 HMMの構造を示す説明図である。

図 9は音響イベント HMM * . 1の構造を示す説明図である。

図 1 0は音響イベント HMM * . 2の構造を示す説明図である。

図 1 1は音響イベント HMM * . 3の構造を示す説明図である。

図 1 2は無制約音響イベントネットワークを示す説明図である。

図 1 3は位置制約つき音響イベントネットワークを示す説明図である。発明を実施するための最良の形態

本発明は、従来不特定話者音声認識に用いられてきた HMMを用いて、特定話者に固有の登録語と不特定話者に共通の固定語が混在した語彙に対し、認識が可能な音声認識装置を提供するものである。 H M Mを用いた不特定話者音声認識においては、音声単位（音節、半音節、音韻、音響イベントなど）のモデルデ一夕、不特定話者に共通の固定語に対応する音声単位のラベル系列および各固定語のラベル系列相互の接続情報を用いて、先述の V i t e r b iアルゴリズムにより、入力音声に含まれる固定語の認識を行う。特定話者に固有の登録語に対応する音声単位のラベル系列を何らかの手段で得' られれば、そのラベル系列を上記ラベル系列相互の接続情報に付加することにより、先述の V i t e r b iアルゴリズムを用いて、特定話者に固有の登録語と不特定話者に共通の固定語が混在した語彙に対する認識を行うことが可能であると考えられる。

特定話者に固有の登録語に対応する音声単位のラベル系列を得る方法としては、各固定語のラベル系列相互の接続情報の代わりに音声単位が任意の順番で任意の長さで接続可能な接続情報を用いて、 V i t e r b iアルゴリズムにより、入力音声に含まれる全ての音声単位の系列を取得することにより実現できる。

以下、図面を参照して、本発明の実施形態を詳細に説明する。図 1は本発明実施形態の基本構成を示す。

図 1において、マイクロホン（不図示）から入力されたアナログ音声信号 1 1は ADコンバ一夕による入力手段 aによりデジタル信号 2 2に変換される。デジタル信号 2 2は変換手段 bにより一定のフレーム周期で音響パラメータ 3 3に変換される。音響（特徴）パラメ一夕としては、上記「音声'音情報のディジタル信号処理」にも記述されているケプストラムなどを用いればよい。

(特定話者の単語登録）

特定話者に固有の登録語を登録する場合には、音声認識装置の不図示のスィツチにより単語登録を指示し、変換手段 bを登録語ラベル系列抽出手段 dに接続する。特定話者、すなわち、音声認識装置が接続されたカーオーディオのユーザ（特定話者）は登録したい音声をマイクロホンに入力する。

マイクロホンで発生したアナロク音声信号 1 1は変換手段 bにより音響パラメ一夕 3 3に変換される。音響パラメ一夕 3 3が登録語ラベル系列抽出手段 dに送られる。登録語ラベル系列抽出手段 dはハードディスクやメモリ等の認識用データ蓄積手段 Cに蓄積された認識用デ一夕 4 4を参照しながら、音声単位のラベル系列の認識を行い、音響パラメータ 3 3を登録語ラベル系列 5 5に変換する。認識用データ蓄積手段 cに蓄積された認識用データ 4 4としては、隠れマルコフモデルでモデル化された音声単位のモデルのデータおよび音響パラメ一夕 3 3を登録語ラベル系列 5 5に変換するための音声単位のモデルのネットヮ一クデータの 2つが蓄積されている。

先行特許である U S P 5 , 7 3 2 , 1 8 7号に述べられているように，音声単位としては、音節，半音節，音韻が考えられる。

以下では、音韻を例にとって、不特定話者に共通の固定語と特定話者に固有の登録語が混在した語彙を認識する音声認識装置および方法について説明する。音響パラメ一夕 3 3を登録語ラベル系列 5 5に変換するための音声単位（今の場合は省略）のモデルのネットワークデータとは、許容される音韻の接続を表現したネットワークのことである。

例えば、図 3の音韻ネットワークの場合、表 1の 2 7種類の音韻が任意の順序で任意の長さで接続しうることを示している。このネットワークデ一夕と HMMによる音韻モデルのデ一夕を用いれば、上記 V i t e r b iアルゴリズムにより、特定話者に固有の登録語の音声を音韻ラベルの系列に変換することができる。図 4 Aに、ある話者が登録のために発声した「ジャズ」の入力信号から得られる音韻ラベルのネットワークの例を示す。音韻の認識率が 1 0 0 %であれば、「ジャズ」と発声した音声からは、 j + a + z + uという音韻ラベル系列が得られるはずであるが、この例では、最後の uが無声化して得られていない。

図 4 Bに、ある話者が登録のために発声した「ポップス」の入力信号から得られる音韻ラベルのネットワークの例を示す。音韻の認識率が 1 0 0 %であれば「ポッブス」と発声した音声からは、 P + 0 + P + U + s + uという音韻ラベル系列が得られるはずであるが、 p、 t、 kの識別は一般に困難であるため、 2つ目の pが k に置き換わっている。こうして、登録語ラベル系列抽出手段 dにより得られた音韻ラベルのネットワークを登録語ラベル系列 5 5と呼ぶことにする。登録語ラベル系列 5 5は登録手段 iにより、ハードディスクやメモリ等の語彙ラベルネットワーク蓄積手段 f に追加登録され、記憶される。

(不特定話者に共通の固定語の登録）

一方、不特定話者に共通の固定語のスペルから予めあるルールに従って音韻ラベルのネッ卜ワークを抽出することができる。あるいは、固定語に対する 1つ以上の不特定話者の音声サンプルから前記（特定話者の単語登録）と同様にして 1つ以上の音韻ラベルネッ卜ワークを作成することもできる。これらのネッ卜ワークを固定語ラベル系列 6 6と呼び、そのデータを語彙ラベルネットワーク蓄積手段 f に転送するために一時記憶する手段、例えば、 C P Uおよび R AMを固定語ラベル系列記憶手段 eと呼ぶことにする。例えば、固定語「C D」、「MD」に対しては、図 2 A、図 2 Bに示される固定語ラベル系列を得ることができる。固定語ラベル系列についてのデータはフロッピ一ディスクや C D等の記録媒体に製造会社側で記録しておき、この記録媒体から音声認識装置内の固定語レベル系列記憶手段 eに引き渡せばよい。固定語レベル系列記憶手段 eを介して語彙ラベルネットワーク蓄積手段 f に蓄積（記憶）することにより不特定話者についての固定語ラベル系列を登録する。登録語ラベル系列抽出手段 dから抽出され、登録手段 iにより語彙ラベルネットワーク蓄積手段 f に追加登録される、登録語ラベル系列 5 5と固定語ラベル系列記憶手段 eにより記憶された固定語ラベル系列 6 6から語彙ネットワーク蓄積手段 f に蓄積される語彙ラベルネットワーク 7 7を構成する方法としては、以下の 3つの方法が考えられる。

まず、 1つ目は、登録語ラベル系列 5 5と固定語ラベル系列 6 6の両方を含むネットワークを形成し、それを語彙ラベルネットワーク 7 7とする方法である。図 5に「C D」、「MD」の固定語ラベル系列と「ジャズ」、「ポップス」の登録語ラベル系列を接続した語彙ラベルネットワークを示す。

このネットワークにより、「C D」、「MD」の固定語と「ジャズ」、「ポップス」の登録語の 4つの単語の内、いずれでも認識できる音声認識装置を実現することができる。 2つ目の方法は、登録語ラベル系列 5 5のみを含むネットワークを形成し、それを語彙ラベルネットワーク 7 7とする方法である。図 6に「C D」、「MD」の固定語ラベル系列を接続した語彙ラベルネッ卜ワークを示す。このネットワークにより、「C D」、「MD」の固定語の 2つの単語の内、いずれかを認識できる不特定話者音声認識装置を実現することができる。

3つ目の方法は、登録語ラベル系列 5 5のみを含むネットワークを形成し、それを語彙ラベルネットワーク 7 7とする方法である。図 7に「ジャズ」、「ポップス」の登録語ラベル系列を接続した語彙ラベルネットワークを示す。このネットワークにより、「ジャズ」、「ポップス」の登録語の 2つの単語の内、いずれかを認識できる特定話者音声認識装置を実現することができる。

なお、音声により C Dチェンジャーに動作指示を与える場合には、予め不特定話者の固定語のラベル系列と動作命令を予め関連付けておき、特定話者（ユーザ）が登録した登録語ラベル系列とを関連付けるとよい。たとえば、このための方法としては、予め、表示器に選択可能な動作指示内容を表示させた後、カーソルキー等で表示の動作指示を選択した後、この動作指示に関連付ける単語を音声でマイクロホンから入力して、登録語ラベル系列抽出手段 dにより抽出された登録語ラベル系列 5 5を登録手段 iにより語彙ラベルネッ卜ワーク蓄積手段 ίに登録する。また、動作指示内容を示すコードと、対応する登録語ラベル系列とをテーブル（関連付けテーブル）形態でハードディスク等に保存しておくと、以後、音声による動作指示が可能となる。この関連付けテーブルには製造会社が用意した固定語ラベル系列と、それらに対応する動作指示コ一ドをも記憶してもよいことは勿論である。

(音声認識処理）

ユーザは不図示のモード指示スィツチにより音声認識モードを指示すると、変換手段 bと認識手段 gに接続が切り替わる。入力手段 aから入力され、変換手段で変換されて出力された音響パラメータ 3 3と認識用データ蓄積手段 cに蓄積された音韻モデルのデ一夕からなる認識用デ一夕 4 5と、語彙ラベルネットワーク蓄積手段 f に蓄積された語彙ラベルネットワーク 7 7を用いて、認識手段 gにおいて上述の V i t e r b iアルゴリズムにより、単語についての認識結果 8 8を得る。認識結果 8 8は、スピーカーやディスプレイなどの出力手段により、音声や画面による出力結果 9 9として話者に出力される。また、音声により C Dチェンジャーなどに対して動作の指示を与える場合には、上述の関連付けテーブルにより音声認識結果に対応する動作指示の内容が判別されて動作指示に対応する制御プログラム等が実行される。

以上のシステム構成により、ユーザは頻繁に使用する動作指示については自己の音声で単語形態で登録しておくことで、より精度よく、動作指示を行うことができる。このシステムのメリツトは、ユーザ（特定話者）が登録した登録語ラベル系列がラベル認識（認識用データを使用した音響パラメ一夕からラベルへの変換）におレ ^て誤認識されても、影響がないという点である。

音声認識装置では、誤認識結果のラベル系列のままで、動作指示が登録され、音声認識モードで特定話者がその動作指示を音声で入力した場合にも、音声認識装置は同じ内容で誤認識を行うので、かならず、予め関連付けられた動作指示が選択される。

一方、不特定話者用の固定語ラベル系列を音声認識に使用した場合には、ラベル認識に誤認識が生じると、動作指示に対応するラベル系列と上記誤認識の結果が一致しないので、音声の動作指示が正しく認識されない場合がある。このため、製造会社が用意する固定語レベル系列の中の特定のものと同じ内容の動作指示を特定話者が音声で登録することができる、また、特定話者の登録語ラベル系列により音声認識モードにおいて、正しく音声認識を行うことができる。

本実施形態では音声単位として音韻から分解されて生成された不特定話者用の音響ィベントのモデルを用いることにより、特定話者の発声する登録語を言語に依らず、精度良く認識する。

以下では、音韻よりも小さな音声単位として、音韻 HMMを構成する状態を用いた場合について説明を加える。言語や音韻の種類を問わず、一般に音韻は図 8に示される 4つの状態からなる H M Mでモデル化されることが多い。

状態 1は初期状態であり、状態遷移は必ず状態 1から開始される。状態 4は最終状態であり、この状態に遷移するとそれ以上状態遷移は発生しない。 a i jは状態 iから状態 jへの遷移する確率を表し、遷移確率と呼ばれる。 j = i + 1とすると、 a i i + a i j = 1 . 0である。

b i ( x ) は状態 iから状態遷移する際に、観測べクトル Xが出力される確率を表し、出力確率と呼ばれる。観測ベクトルは、図 1の音響パラメ一夕 3 3に対応し、ケプストラムがよく用いられる。出力確率 b i ( x ) は 1個以上の正規分布の重ね合わせで表現される。また、出力確率は状態 iへ状態遷移する際に、観測べクトル Xが出力される確率 b i ( x ) として定式化される場合や、状態 iから状態 jへ状態遷移する際に、観測べクトル Xが出力される確率 b i j ( x ) として定式化される場合もある。

出力確率 b i ( x ) が 1個以上の正規分布の重ね合わせで定式化される場合、 H MMを連続 HMMと呼ぶ。その他に、半連続 HMMや離散 HMMで音韻をモデル化する場合があるが、本発明は同様に適用が可能である。

図 8に示される 4状態の音韻 HMMを図 9、図 1 0、図 1 1の 3つの 2状態からなる HMMに分割する。これらを音響イベント HMMと呼ぶこととし、状態番号に合わせて、 * . 1、 * . 2、 * . 3と表すこととする。ここで、 *は表 1の音韻ラベルを表す。

これらの新しく生成された HMMは音韻の中の音響的なイベントを表現しているものと考えることができるため、音響イベント HMMと呼ぶことにする。これらの音響イベント HMMが任意の順番で任意の長さで接続しうるネットワークを図 1 2に示す。このネットワークを無制約音響イベントネットワークと呼ぶ。この無制約音響イベントネットワークは、図 3の音韻ネットワークに比べて、音響的なィ卜の系列の自由度が高く、その分、音響的なイベント系列の表現能力が高いと考えられる。

従って、図 3の音韻ネットワークを用いて V i t e r b iアルゴリズムにより得られる音韻系列に比べて、図 1 2の無制約音響イベントネットワークを用いて V i t e r b iアルゴリズムにより得られる音響イベント系列の方が、特定話者に固有の登録語の発声をより精度良く近似するものと期待できる。

そこで、無制約音響イベントネットワークを用いて V i t e r b iアルゴリズムにより得られる音響イベント系列を図 1の登録語ラベル系列 5 5として用いることにより、登録語に対してより高い認識性能が得られると思われる。

一方、図 1 2の無制約音響イベントネットワークでは、特定話者に固有の登録語の発声を近似する音響イベント系列の候補が数多く存在するため、その選択に多くの処理時間を要することも考えられる。

そこで、図 1 3に示すような状態の位置に関する制約を設けたネットワークを使用することも処理時間を削減する上で有効であると考えられる。図 1 3のネットワークを位置制約つき音響イベントネットワークと呼ぶことにする。このネットワークでは、図 1 2の無制約音響イベントネッ卜ワークに比べて、接続しうる音響イベントの数が 3分の 1になっているため、特定話者に固有の登録語を近似する音響イベント系列の候補数が少なくなつており、若干の認識性能の低下は起こるかも知れないが、特定話者に固有の登録語を近似する音響イベント系列を求める処理時間もそれに応じて短縮できると考えられる。

実際に、音韻系列と音響ィベント系列で特定話者の登録語の認識性能の比較実験を仃つた。

日本語の音韻 HMMと図 3の音韻ネットワークを用いて、 V i t e r b iァルゴリズムにより 1 2 8単語の音韻系列を求め、それを認識語彙として、日本語、英語、仏語、独語、伊語についての特定話者単語認識を行うための男女各 2名を選んだ。また、その時の音声認識の平均認識率および最低認識率を表 2に示す。音声と雑音の比率はいずれも 1 0 d Bである。【表 2】

言語日本語英語仏語独語伊語

平均認識率 93.6% 86.9% 88.7 92.2% 91.4%

最低認識率 92. 82.8¾ 83.6% 85.2% 87.5%

音韻ネットワークを用いた場合の

特定話者単語認識性能

次に日本語の音韻 HMMから上述の方法により分解されて生成された音響ィべント HMMと図 13の位置制約つき音響イベントネットワークを用いて V i t e r b iアルゴリズムにより 128単語の音響イベント系列を求め、それを認識対象とした場合の日本語、英語、仏語、独語、伊語についての特定話者単語認識の平均認識率および最低認識率を表 3に示す。【表 3】

き口 ¾口s P 日本語英語仏語独語伊語

平均認識率 97.5 92.9¾ 94.0% 94.0¾ 93.6%

最低認識率 96. \% 91.1% 92.2¾ 91.4% 91.4¾

位置制約つき音響ィベントネットワークを用いた場合の

特定話者単語認識性能表 2と表 3を比較すると言語に依らず、音韻系列を使用するよりも音響系列を使用する方が平均認識率が 2— 6%程度向上していることが分る。また、最低認識率も 4一 8 %向上していることが分る。これらの結果から図 3の音韻ネットワークを用いて V i t e r b iアルゴリズムにより得られる音韻系列を使用した場合に比べ、図 13の位置制約つき音響イベントネットワークを用いて V i t e r b iアルゴリズムにより得られる音響イベント系列を使用した方が、特定話者に固有の登録語に対してより高い性能が得れることが明らかになつた。この音響ィベン卜系列の優位性は、音響イベント系列の方が音韻系列よりも特定話者に固有の近似度が高いことによると考えられ、この点が本願発明の根幹をなす。

上述の実施形態については以下の形態が実施できる。

1 ) 図 1に示したシステム構成は、デジタル回路で構成してもよい、マイクロコンピュー夕やパーソナルコンピュータのソフトウェア処理で実現することもできる。この場合、変換手段 b、登録語ラベル系列抽出手段 d，認識手段 gについて C P U がソフトウェアプログラムを実行することによりそれらの機能が実現される。どのような回路構成とするかは、音声認識装置の用途に応じて適宜決定すればよい。たとえば、パーソンナルコンピュータにおいて文字入力および制御キー入力を音声で行う場合には、パーソナルコンピュータに搭載された C P U, ハードディスクを使用して図 1のシステムを実現するとよい。

2 )上述の実施形態では、不特定話者に共通の固定語ラベル系列を C D R OM等から音声認識装置に登録可能としているが、音声認識装置に内蔵の E E P R OM等の不揮発性書き込み可能メモリに記憶してもよいことは勿論である。この場合には不足する単語、あるいはより認識精度を高めたい単語を特定話者により音声で登録する。

Claims

請求の範囲

1 . 入力音声を、単語より短い長さの音声単位のモデルの情報を用いて、単語認識を行う音声認識装置において、

不特定話者の入力音声の単語認識のために共通使用する固定語に対する、前記音声単位のラベル系列を蓄積しておく語彙ラベルネットワーク蓄積手段と、

特定話者の入力音声から登録語に対する前記音声単位のラベル系列を作成する登録語ラベル系列抽出手段と、

当該作成された登録語のラベル系列を前記語彙ラベルネットワーク蓄積手段に追加登録する登録手段と

を具え、前記音声単位が音韻の隠れマルコフモデルの各状態を分割して生成した音響ィベントであることを特徴とする音声認識装置。

2 . 請求項 1に記載の音声認識装置において、前記固定語を前記語彙ラベルネットワーク蓄積手段に登録する手段をさらに具えたことを特徴とする音声認識装置。

3 . 請求項 1に記載の音声認識装置において、前記不特定話者の入力音声の単語認識のために共通使用する固定語に対する、音声単位のラベル系列と、作成された登録語のラベル系列とを並列のネットワークの形態で前記語彙ラベルネットヮ一ク蓄積手段に記憶することを特徴とする音声認識装置。

4 . 請求項 3に記載の音声認識装置において、前記固定語を前記語彙ラベルネットワーク蓄積手段に登録する手段をさらに具えたことを特徴とする音声認識装置。

5 . 入力音声を、単語より短い長さの音声単位のモデルの情報を用いて、単語認識を行う音声認識方法において、

不特定話者の入力音声の単語認識のために共通使用する固定語に対する前記音声単位のラベル系列を語彙ラベルネットワーク蓄積手段に蓄積しておき、

特定話者の入力音声から登録語に対する前記音声単位のラベル系列を作成し、当該作成された登録語のラベル系列を前記語彙ラベルネットワーク蓄積手段に追加登録し、

前記音声単位が音韻の隠れマルコフモデルの各状態を分解して生成した音響ィベントであることを特徴とする音声認識方法。

6 . 請求項 5に記載の音声認識方法において、前記固定語を前記語彙ラベルネッ卜ワーク蓄積手段に登録可能とすることを特徴とする音声認識方法。

7 . 請求項 5に記載の音声認識方法において、前記不特定話者の入力音声の単語認識のために共通使用する固定語に対する、音声単位のラベル系列と、作成された登録語のラベル系列とを並列のネットワークの形態で前記語彙ラベルネットヮーク蓄積手段に記憶することを特徴とする音声認識方法。

8 . 請求項 7に記載の音声認識方法において、前記固定語を前記語彙ラベルネットワーク蓄積手段に登録する手段をさらに具えたことを特徴とする音声認識方法。