WO2003052737A1

WO2003052737A1 - Procede de reconnaissance vocale, controleur a distance, terminal d'information, terminal de communication telephonique et systeme de reconnaissance vocale

Info

Publication number: WO2003052737A1
Application number: PCT/JP2002/013182
Authority: WO
Inventors: Seiichi Kashihara; Hideyuki Yamagishi; Katsumasa Nagahama; Tadasu Oishi
Original assignee: Asahi Kasei Kabushiki Kaisha
Priority date: 2001-12-17
Filing date: 2002-12-17
Publication date: 2003-06-26
Also published as: JP4263614B2; JP4558074B2; CN1271595C; JPWO2003052737A1; TW200301460A; CN1615508A; AU2002354201A1; JP2009104156A; US20050043948A1

Description

音声認識方法、リモートコントロール装置、情報端末装置、通信端末及び音

技術分野

本発明は、 ^投の生活環境で使用される機器を音声で制御するための音声認識方法、その音声認識方法を用いたリモートコントロール装置並びに情報端末装置、電話通信端末及び音声認識装置に関する。

.冃：

従来のリモートコントロール装置において、 1つの機器に対して、 1個のリモートコント口ール装置が必要とされ、同じリモートコント口一ル装置で別の β を遠隔制御することは、一般には不可能であった。例えば、テレビ用のリモートコントロール装置を用いてエアコンの遠隔制御することはできない。また、リモートコントロール装置には、制御したい操作内容に応じて、多数のスィヅチが設けられており、このスィッチの押下状態に従って、対象 βへの制御信号が選択され、対象機器へ送信される。ビデオテープレコーダなどの場合、受信したいテレビ局の選択ボタン、番組予約のための時間指定のボタン、テープの走行状態を設定するボタンなど、必要とされる数多くの操作ボタンがあり、その操作性が煩雑であるという問題点があった。また、対象 βごとにリモートコントロール装置が必要となるため、利用者はどのリモートコントロール装置がどの対象機器に対応するのかを常に正確に把握しておく必要があり、操作に手間がかかるという問題があった。

上述のような多数のボタンスィツチを排除するとともに、単一のリモートコント口ール装置で複数の対象機器を操作制御することを目的としたリモートコントロール装置が、例えば、特開平 2— 1 7 1 0 9 8号公報に開示されている。この先行技術においては、音声入力により遠隔制御内容を指示し、この音声認識結果に従って制御信号を発生する。この先行技術の音声認識リモートコントロール装置においては、複数の操作対象機器に対応するために音声認識結果を機器制御コ ―ドに変換する書き換え可能なマップが用意されており、このマップの内容が操作対象となる操作機器に応じて書き換えられている。このマツプの書き換え作業は、対象 βごとに変換コードのマツプが Έ己憶されている IC力一ドを差し替える作業が必要であり、対象 »が変更される場合においては、対応する ICカードを探さなければならないという問題点があつた。

特開平 5— 7 3 8 5号公報に記載される音声認識リモートコントロール装置では、鐘—単語対応表と制御信号一 »Κ態対応表を用い、さらに »Κ態用メモリに機器の運転状況に応じて発生する禁止すべき操作内容に対し、禁止フラグを記憶することにより、 β制御コードのマヅプ書き換え作業を不要にした技術が開示されている。

ところが、音声認識技術を用いた単一のリモートコントロール装置で複数の機器を制御する場合、認識させたい単語数が増大するため、入力した音声内容が、必ずしも正確に認識処理されず、指示内容とは異なる内容として認識され、誤動作の原因となり、使いやすさを求めるリモートコントロール装置としての特徴が半減していた。特に、テレビやオーディオといった音響を制御する:^、対象機器から発生する音により、音声認 I»理が勝手に作動し、使用者が何ら発話していないにもかかわらずに ¾#操作が行われてしまったり、あるいは、所望とする制御内容を発話しても、音響機器から発生する音により、正しく認識されず、何度も言い直しをしなければならないという問題があつた。

上記のような音響機器を制御する場合の音声認識リモートコントロール装置において、特開昭 5 7 - 2 0 8 5 9 6号公報には、使用者による音声発話を検出したときにテレビ受像機等の放声手段にミューティングをかけることにより、音声認識回路の認識率の向上を図る手段が開示されている。また、特開平 1 0— 2 8 2 9 9 3号公報には、音声入力装置から入力される音声コマンドとオーディォ信号と他のノヅクグランドノイズからなる信号をスピーカとマイクロフォンとの間の空間内の伝^ β§をモデルィ匕することにより、オーディォ機器によって送出されたオーディォ信号が音声入力装置の位置で評価され、マイクロフォン信号を補正するため使用されるサウンド補償器を設けることによって、音声認理の誤差に対するイミュニティが改良することによって、音声コマンドの検出を改良した技術が開示されている。この場合には、音声認識リモートコントロール装置を使用するに当たり、事前に対象機器に対し、ミューティングを指示するための特別な回路の設置や、マイクロフォンの位置と感度の調整といった専門的な知識が必要であり、汎用的な装置としては、 Ρ§題点があった。

さらに、上述の従来技術による音声認識リモートコントロール装置では、制御したい対象機器が増加するに伴って、認識させたい単語以外の未知語、不要語やシステムの想の発話などによる誤認識による誤動作が避けられない。したがつて、より使い勝手のよレヽ音声認識型のリモートコント口一ル装置を実現するには、認識結果の不正解やシステムの想定外の発話であることを判定する棄却（リジェクシヨン）の機能が要求される。特に常時音声認理を行っている状況下では、使用環境下における生活雑音、例えば仲間同士での会話、リモートコントロール装置のそばを人が歩く音、ペットなどの鳴き声、台所での炊事作業による雑音などを除去できる音声認識技術に至っておらず、結果として、誤認識が多頻度で発生してしまうという問題が依然として残っていた。また、この誤認識を少なくするため、登録された単語とのマツチング判定の許容範囲を厳しくすると、誤認識は減少する傾向になるが、目的とする単語が発話された場合にもリジェクシヨンされる頻度が高くなり、何度も言い直しが必要となり、利用者に不快感を与えていた。

なお、このような言果題は、リモートコントロール装置に限ったものではなく、音声認識を行う機器であれば、情報端末装置や電話通信端末等、その他の機器でも同様に存在するものである。

本発明は、上記従来の技術の未解決の課題に着目してなされたものであって、生活雑音による誤認識の発生を抑制防止する等、.常時音声認識を行う機器に好適な音声認識方法、その音声認識方法を用いたリモートコントロール装置並びに情報端末装置、 I ^通信端末及び音声認識装置を提供することを目的とする。発明の開示

上記課題を解決するために、本発明は次のような構成からなる。すなわち、本発明に係る音声認識方法は、音声認言麟象者の入力音声を音響ノラメ一夕系列に変換し、その音響パラメ一夕系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビ夕ビアルゴリズムにより照合することにより音声認識を行う音声認識方法において、前記登録語についての音声単位ラベル系列と並列に登録語以外の不要語を認識するための音声単位ラベル系列を設け、前記ビ夕ビァルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、籠 3不要語を不要語として認識させることを特徴とする。換言すれば、音声を音響パラメ一夕系列に変換し、その音響パラメ一夕系列に対し、登録語についての音声単位ラベル系列に対応する登録語認識用音響モデルの尤度と当該登録語以外の音声を認識するための音声単位ラベル系列に対応する不要語認識用音響モデルの尤度とを算出し、それらの尤度に基づいて音声認識を行うことを特徴とするものである。

このような構成としたため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が音響パラメ一夕系列に変換されたときには、その音響パラメ一夕系列に対し、登録語についての音声単位ラベル系列に対応する音響モデルの尤度が小さく算出されると共に、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、前記登録語以外の音声が登録語として誤認識されることを防止できる。

また、前言己音声単位ラベル系列に対応する音響モデルが隠れマルコフモデルを用いた音響モデルであり、かつ前記不要語を認識するための音声単位ラベル系列が、使用するすべての音声単位モデルを平準ィ匕した仮想的な音声単位モデルから成るものとしてもよい。換言すれば、前記不要語認識用音響モデルを、全ての音声単位モデルを平準化した仮想的な音声単位モデルに集約してもよい。

このような構成にすれば、登録語を含む音声が音響ノラメ一夕系列に変換されたときには、その音響パラメ一夕系列に対し、登録語についての音声単位ラベル系列に対応する隠れマルコフモデルの尤度が、全ての音声単位モデルを平準化した仮想的な音声単位モデルの尤度よりも大きく算出され、それらの尤度に基づいて前記音声に含まれる登録語を認識できる。また、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が音響パラメ一夕系列に変換されたときには、その音響パラメ一夕系列に対し、全ての音声単位モデゾレを平準ィ匕した仮想的な音声単位モデルの尤度が、登録語についての音声単位ラベル系列に対応する隠れマルコフモデルの尤度よりも大きく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止できる。

また、 ifB音声単位ラベソレ系列に対応する音響モデルが隠れマルコフモデルを用いた音響モデルであり、かつ前記不要語を認識するための音声単位ラベル系列が、母音だけの音素で構成される自己ループ型のネヅトワーク構成であるものでもよい。換言すれば、前記不要語認 ffl音響モデルが、母音の音素に対応する音素モデルの集合体からなり、その集合体の終点から始点への自己ループを持つことを f (とするものであって、音響パラメ一夕系列に対し、母音の音素に対応する音素モデル群の尤度を音響パラメ一夕毎に算出し、それらのうち最大のものを積算して不要語モデルの尤度とするものでもよい。

このように構成にすれば、登録語を含む音声が音響パラメ一夕系列に変換されたときには、その音響パラメ一夕系列に含まれる子音の音素の存在によって、その音響パラメ一夕系列に対し、登録語についての音声単位ラベル系列に対応する隠れマルコフモデルの尤度が、母音だけの音素で構成される自己ループ型のネヅトワーク構成の尤度よりも大きく算出され、それらの尤度に基づいて前記音声に含まれる登録語を認識できる。また、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が音響パラメ一夕系列に変換されたときには、その音響パラメ一夕系列に含まれる母音の音素であって、登録語には含まれていないものの存在によって、その音響パラメ一夕に対し、母音だけの音素で構成される自己ループ型のネットワーク構成の尤度が、登録語についての音声単位ラベル系列に対応する隠れマルコフモデルの尤度よりも大きく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止できる。

一方、上記課題を解決するために、本発明に係るリモートコントロール装置は、複数の操作対象を音声で遠隔操作できるリモートコントロール装置において、遠隔操作を指示する認識対象語を記憶する記憶手段と、利用者から発せられた音声を入力する手段と、利用者から発せられた音声に含まれる編3認 ϋ¾Τ象語を前記記憶手段に基づいて認識する音声認識手段と、その音声認識手段にて認識された認讓象語に対応する機器制御信号を送信する送信手段とを備え、前記音声認識方法が請求の範囲第 1項乃至第 3項のいずれかに記載の音声認識方法を用いたことを特徴とする。換言すれば、利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声認識手段で認識された登録語に対応する機器制御信号を送信する送信手段とを備え、前記音声認識手段は、前記音声検出手段で検出された音声に含まれる登録語を、請求の範囲第 1項乃至第 3項のいずれかに記載の音声認識方法を用いて認識することを特徴とするものである。

このような構成としたため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響ノラメ一夕系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、登録語についての'音声単位ラベル系列に対応する音響モデルの尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、リモートコント口一ル装置の誤動作を防止することができる。

また、利用者に通話させるための音声入力部を有し、且つ、前記音声認識手段で認識された認識対象語に基づいて通信回線への接続状態を制御する通信ュニットを備え、前記音声入力手段と前記通信ュニヅトの音声入力部とを個別に設けてもよい。

このような構成とすれば、利用者が通話中であって、その通話のために通信ュニットの音声入力部が専有されている場合であっても、利用者の音声を音声認識手段に入力でき、通信ユニットを制御することができる。

また、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも 1つを実行する制御手段を備えたものとしてもよい。このような構成とすれば、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理を、利用者は登録語を発話するだけで実行することができ、物理的な操作が必要とされない。

—方、上記課題を解決するために、本発明に係る情報端末装置は、利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声認識手段で認識された登録語に基づレ、て、音声によるメ一ソレの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも 1つを実行する制御手段とを備え、前記音声認識手段は、前記音声検出手段で検出された音声に含まれる登録語を、請求の範囲第 1項乃至第 3項のいずれかに記載の音声認識方法を用いて認識するものとしてもよい。なお、音声によるメールの送受信処理としては、例えば、利用者にメール内容を音声入力させ、その音声を音声デ一夕に変換し、その音声デ一夕を電子メールに添付して送信し、且つ、音声デ一夕が添付された電子メールを受信し、その音声データを再生する処理が挙げられる。また、音声による予定管理処理としては、例えば、利用者に予定の内容を音声入力させ、その音声を音声データに変換すると共に、その予定の実行日を入力させ、その実行日に音声デ一夕を対応づけて予定を管理する処理が挙げられる。また、音声によるメモ処理としては、利用者にメモ内容を音声入力させ、その音声を音声データに変換し、利用者の要求に応じて音声データを再生する処理が挙げられる。また、音声による報知処理としては、例えば、利用者に報知内容を入力させて、その音声を音声デ

—夕に変換すると共に、報知タイミングを入力させ、その報知タイミングで音声デ一夕を再生する処理が挙げられる。

このような構成としたため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響ノラメ一夕系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、登録語についての音声単位ラベル系列に対応する音響モデソレの尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、情報端末装置の誤動作を防止することができる。また、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理を、利用者は登録語を発話するだけで実行することができ、物理的な操作が必要とされない。

一方、上記課題を解決するために、本発明に係る通信端末は、公衆電話回線網あるいはィン夕一ネット通信網に接続可能な電話通信端末において、音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、編己音声入出力手段は通信ユニットと音声認識ュニヅトとでそれぞれ独立した入出力系統を有していることを特徴とする。換言すれば、利用者に電話操作に関する登録語を音声で入力させる音声入力部を有し、その音声入力部で入力させた登録語を認識する音声認識ユニットと、利用者に通話させるための音声入力部を有し且つ前記音声認識ュニヅトで認識された登録語に基づいて通信回線への接続状態を制御する通信ュニヅトとを備え、前記音声認識ュニットの音声入力部と前記通信ュニヅトの音声入力部とを個別に設けたことを特徴とするものである。

このような構成としたため、利用者が通話中であって、その通話のために通信ュニットの入出力系統が専有されている場合であっても、利用者の音声を音声認識ュニヅトに入力でき、通信ュニヅトを制御することができる。

また一方、上記課題を解決するために、本発明に係る電話通信端末は、公衆電話回線網あるいはィン夕一ネット通信網に接続可能な通信端末であって、音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶してレ、る記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、前記記憶手段は予め登録された人名を含む特定の名称の名称語彙リストと任意の s¾番号の番号語彙リストと通話中の電話操作の通話操作語彙リストと着信時の mm操作の着信操作語彙リストとを別々に備え、発信 ·切断 .着信に関するすべての電話操作が tifB音声認識手段、 ΙιίϊΒ 記憶手段、前記制御手段により音声入力で可能であることを碰とする。換言すれば、前記記憶手段は、特定の名称が登録されている名称語彙リストと、任意の電話番号が登録されている番号語彙リストと、通話時の電話操作関連語が登録されている通話操作語彙リストと、着信時の電話操作関連語が登録されている着信操作語彙リストとを個別に言 3憶し、前記音声認識手段は、当該音声認識手段による認識結果又は通信回線の状態に応じて謂 3記憶手段に記憶されている語彙リストを選出し、その語彙リストを参照して、前記音声入出力手段で入力された音声に含まれる言葉を認識することを特徴とするものである。

このような構成としたため、状況に応じて語彙リストを適切なものに変更することで、生活雑音等の不要な音声による誤認識の発生を抑制防止できる。

また、電話番号の認識方法が、全桁数の連続発話の入力によって前言 3記憶手段の番号語彙リスト、前記音声認識手段が任意の電話番号を認識する電話番号語彙ネットヮ一クを用いて所定の桁数の数字又は記号から成る数字列パターンを認識するようにしてもよい。換言すれば、前記記憶手段は、 SI舌番号の全桁に相当する数字列が登録されている連続番号語彙リストを記憶し、前記音声認識手段は、入力音声に含まれる電話番号を認識するときには、 f!3記憶手段に記憶されている連続番号語彙リストを参照するようにしてもよい。

このような構成にすれば、電話番号を認識させるときには、利用者は電話番号の全桁に相当する数字列を連続発話するだけでよく、電話番号を短時間で認識させることができる。

また、前記画面表示手段が発話タイミングを知らせる発話タイミング表示機能を有しているものであってもよい。換言すれば、前記音声認識手段が登録語を認識可能な状態にあることを報知するようにしてもよい。

このような構成にすれば、画面表示手段で知らされた発話タイミングで発話することで、利用者は適切なタイミングで登録語を発話することができ、登録語を適切に認識させることができる。

また、備 3音声認識手段で認識された入力音声に基づいて、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも 1つを実行する第 2制御手段を備えたものとしてもよい。このような構成とすれば、音声によるメールの送受信 »、音声による予定管理処理、音声によるメモ処理及び音声による報知処理を、利用者は登録語を発話するだけで実行することができ、物理的な操作が必要とされない。また、媚 3音声認識手段は、入力音声に含まれる登録語を、請求の範囲第 1項乃至第 3項のいずれかに記載の音声認識方法を用いて認識するようにしてもよいこのような構成としたため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメ一夕系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、登録語についての音声単位ラベル系列に対応する音響モデルの尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、通信端末の誤動作を防止することができる。

一方、上記課題を解決するために、本発明に係る音声認識装置は、利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声検出手段が登録語を認識可能な状態にあることを報知する発話夕ィミング報知手段とを備えたことを特徴するものである。

このような構成としたため、登録語を認識可能な状態にあることが報知されたときに発話することで、利用者は適切なタイミングで登録語を発話することができ、登録語を容易に認、識させることができる。

また、前記音声検出手段で検出された音声の大きさを報知する音量報知手段を備えるものでもよい。

このような構成にすれば、利用者は適切な音量で発話する助けが得られ、その結果、登録語をより容易に認識させることができる。図面の簡単な説明

図 1は、本発明の第 1 «形態であるリモートコント口一ル装置のプロヅク図である。

図 2は、図 1のリモートコントロール装置の概略構成図である。

図 3は、図 2のリモートコント口一ル装置で実行される演算処理のフローチヤートである。図 4は、図 3の演算処理で L CD表示装置に表示させる映像を説明するための説明図である。

図 5は、図 3の演算処理で実行される音声認識処理を説明するための説明図である。。

図 6は、図 5の音声認識処理で用いられる語彙ネットワークを説明するための説明図である。

図 7は、図 6の不要語モデルを、すべての音素モデルを平準ィ匕した仮想的な音素モデルとした語彙ネットワークを説明するための説明する説明図である。図 8は、図 6の不要語モデルを、母音を構成する音素群の自己ループとした語彙ネットワークを説明するための説明図である。

図 9は、図 6の不要語モデルを、すべての音素モデルを平準ィ匕した仮想的な音素モデルと母音を構成する音素群の自己ループとを組み合わせたものとした語彙ネットワークを説明するための説明する説明図である。

図 1 0は、図 6の不要語モデルを、母音を構成する音素群とした語彙ネヅトヮ —クを説明するための説明図である。

図 1 1は、不要語モデルを用いない語彙ネットワークを説明するための説明図である。

図 1 2は、本発明の第 2実施形態である情報端末装置のブロック図である。図 1 3は、図 1 2の情報端末装置の概略構成図である。

図 1 4は、図 1 3の倩報端末装置で実行される演算処理のフロ一チヤ一トである。

図 1 5は、図 1 4の演算処理で L CD表示装置に表示させる映像を説明するための説明図である。

図 1 6は、図 1 3の情報端末装置で実行される演算処理のフローチャートである。

図 1 7は、図 1 3の情報端末装置で実行される演算処理のフローチヤ一トである。

図 1 8は、図 1 7の演算処理で L CD表示装置に表示させる映像を説明するための説明図である。図 1 9は、図 1 7の演算処理で L CD表示装置に表示させる映像を説明するための説明図である。

図 2◦は、図 1 3の情報端末装置で実行される演算処理のフローチヤ一トである。

図 2 1は、図 2 0の演算処理で L CD表示装置に表示させる映像を説明するための説明図である。

図 2 2は、図 1 3の情報端末装置で実行される演算処理のフローチャートである。

. 図 2 3は、本発明の第 3実施形態である音声認識機能付き電話通信端末のプロヅク図である。

図 2 4は、本発明の第 3実施形態の変形例である音声認識機能付き電話通信端末のブロック図である。

図 2 5は、図 2 3の中央制御回路で実行される演算処理のフローチャートである。

図 2 6は、図 2 5の演算処理で L C D表示装置に表示させる映像を説明するための説明図である。

図 2 7は、図 2 3の中央制御回路で実行される演算処理のフローチャートである。

図 2 8は、図 2 7の演算処理で L C D表示装置に表示させる映像を説明するための説明図である。

図 2 9は、図 2 3の中央制御回路で実行される演算処理のフローチャートである。

図 3 0は、図 2 3の中央制御回路で実行される演算処理のフローチヤ一トである。発明を実施するための最良の形態

以下、本発明の実施形態を図面に基づいて説明する。図 1は、本発明の第 1実施形態である音声認識リモートコントロール装置の主要プロック図である。この図に示すリモートコントロール装置は、利用者の音声を認識判断するリモートコントロール本つまりリモコン装置本体部 1と、その認識結果に基づいて、制御信号を赤外線信号として発信する赤外線発光部 2とから構成される。利用者の音声は、リモコン装置本体部 1の音声入力装置（マイクロフォン 3)から入力され、増幅器 4を経由し、 A/D変 I5によって、デジタル化された音響パラメ —夕（例えば、スペクトラム等）に変換される。ここで、入力されたアナログ音声は、特に限定されるものではないが、通常、 8KHz〜l 6KHzの範囲にある特定周波数でサンプリングされてデジ夕ルイ匕される。デジタル化された音響パラメ一夕は、音声指示認識回路 6内部で、音声指示情報メモリ 7内に記憶登録されている登録語彙リストに対し、各単語の構成単位である音声単位ごとに、上記音響パラメ一夕との尤度計算を行うことにより、登録語彙リストの中から、最も近い単語を抽出する。言いかえると、音声指示認識回路 6内部では、デジ夕ルイ匕された音響パラメ一夕に対し、音声指示情報メモリ 7内に記憶登録されている登録語彙リスト内の単語（以下、登録語とも呼ぶ。）の尤度が、それらの構成単位 (以下、音声単位と呼ぶ。）毎に計算され、当該尤度の積算値が最も大きいものが利用者の音声に最も近い登録語として抽出される。なお、音声指示認識回路 6 内部では、デジ夕ルイ匕された音響パラメ一夕に対し、音声指示情報メモリ 7内に記憶登録されている不要語モデルの尤度も同時に計算され、当該不要語モデルの尤度が登録語の尤度よりも大きいときには、デジ夕ルイ匕された音響パラメ一夕から登録語が抽出されなかったものとする。

ここで、音声単位としては、音節、音素、半音節、 Diphone (音素の 2 つ組）、 Triphone (音素の 3つ組）等を適宜使用すればよいが、以下では説明の都合上、音声単位として音素を用いた場合について説明する。

また、音声指示情報メモリ 7内には、各登録語に対応する制御コードが3憶されており、音声指示認識回路 6で抽出された、つまり音声認識された登録語に対応する制御コードを当該音声指示情報メモリ 7から呼び出し、中央制御回路 8を経由して、赤外線発 » 2の I R E D駆動 ·制御回路 9へ制御コ一ドが伝達される。そして、 I RED駆動'制御回路 9で、当該制御コードに対応する I RED コードを IREDコード情報メモリ 10から呼び出し、 IRED 11から赤外線信号として発信される。この際、同時に利用者へ音声認識結果を知らせる手段として、認識結果を L C D表示装置 1 2に表示させて視覚的に報知したり、又は認識結果を応答音声制御回路 1 3へ伝達し、当該認識結果に対応する応答音声デ一夕を応答音声用情報メモリ 1 4から呼び出し、その音声デ一夕を、 D/A変 « 1 5及び増幅器 1 6を経由して、アナログ音声として、声器（スピーカ 1 7 ) から利用者へ聴覚的に報知したりする。

一方、赤外線発光部 2には、フォトセンサ 1 8が具備されており、 I R E Dコ

—ド情報メモリ 1 0に登録されていない赤外線コードの使用が必要になった場合には、フォトセンサ 1 8に対し、使用したい赤外線コードを発信することによつて、その赤外線コードを、フォトセンサイン夕フエ一ス回路 1 9を介して、 I R

E Dコード情報メモリ 1 0に追記することが可能である。

なお、使用するハ一ドウェアとしては、図 1記載の基本機能を有していれば、特に限定されるものではなく、以下ではリモコン装置本ィ本部 1として、図 2に示すように、市販のパソコンを用いた場合について説明する。図 3に、図 2の音声認識リモートコントロール装置で実行される処理であって、利用者の音声に応じて赤外線コードを送信等する演算処理のフローチャートを示す。なお、このフ口—チャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理は、利用者が本リモートコントロール装置を始動させたときに実行される処理であって、まず、そのステップ S 1では、マイクロフォン 3で検出された音声を読み込み、その音声に含まれる登録語である開始パスワードが含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する後述する音声認識処理を実行する。つまり、開始パスワードを音声入力することにより、操作したい人が音声リモートコントロール装置に向かったことを合図する。なお、開始パスワードとしては、事前に利用者が好きな言葉や利用者自身の音声等、任意のものを設定することができるが、常時音声認識が作動していても、マイクロフォン 3から読み込まれる生活雑音等によって、本装置が誤動作しないための工夫が必要であり、普段あまり使わない言葉等を用いるとよい。好ましくは、 3音節以上、 2 0音節以下であり、さらに好ましくは 5音節以上 1 5音節以下で構成される単語を用いることが好適である。例えば「開けゴマ」等の言葉を用いることができる。

次にステップ S 2に移行して、前記ステップ S 1で開始パスワードが音声に含まれていることが認識されたか否かを判定し、開始パスヮードが含まれている場合には（YE S) ステップ S 3に移行し、そうでない場合には（NO)再び編 3 ステップ S 1に移行する。そのため、マイクロフォン 3から開始パスワード以外、つまり開始パスワードを含まない雑音や音声だけが入力されると、不要語として認識され、利用者が側にいないと判断して、正しい開始パスワードが入力されるまで音声入力待ちの状態となる。

前記ステツプ S 3では、マイクロフォン 3で検出された音声を読み込み、その音声に含まれる登録語である制御対象機器の名称が含まれているか、または制御対象 «の名称以外の雑音や音声、つまり不要語しか含まれていないかを認識する後述する音声認識処理を実行する。ここで、制御対象 βとしては、「テレビ」、「ビデオ」、「エアコン」、「オーディオ」、「照明」、「カーテン」、「電話」、「夕イマ一」、「電子メール」及び「ボイスメモ」等、機器や機能を選択するための言葉（登録語）が用意されており、登録語以外、つまり登録語を含まない言葉や雑音だけが入力されると、不要語として認識され、新たに制御対象機器の名称が入力されるまで待機状態となる。

次にステヅプ S 4に移行して、前記ステヅプ S 3で制御できる対象機器の名称が音声に含まれていることが認識されたか否かを判定し、制御できる対象機器の名称が含まれている^には（Y E S ) ステップ S 6に移行し、そうでない il^r には（N O)再び前記ステップ S 3に移行する。そのため、一旦、マイクロフォン 3で検出された音声に開始パスヮ一ドが含まれていることが認識されると、利用者が制御したい対象機器を選択するモ一ドとなり、遠隔操作したい制御対象機器の名称等が入力されるまで音声入力待ちめ状態となる。なお、所定時間経過しても、認識対象となる登録語が発話入力されない場合には、開始パスワードを認識するモード（ステップ S 1及び S 2 ) まで戻り（図 3に図示せず。）、開始パスヮ一ドが入力されるまで音声入力待ちの状態、つまり待機状態となる。

前記ステップ S 6では、マイクロフォン 3で検出された音声を読み込み、その音声に制御対象機器に対する指示内^ つまり登録語が含まれているか、または制御対象 βに対する指示内容以外の雑音や音声、つまり不要語しか含まれていないかを認識する後述する音声認識処理を実行する。すなわち、利用者によって制御対象 «が選択されると、その制御対象 miに対して制御できる指示内容を受け付けるモードとなる。例えば、制御対象鍵として「テレビ」が選択されると、図 4に示すように、テレビの操作に関する映像が L C D表示装置 1 2に表示されて、電源のオン 'オフ、チャンネル番号の指定、放送局の指定及び音量の調節等を指示できるモードとなる。

次にステップ S 7に移行して、前記ステヅプ S 6で対象機器に対する指示内容が音声に含まれていることが認識されたか否かを判定し、対象機器に対する指示内容が含まれている場合には（Y E S ) ステップ S 8に移行し、そうでない場合には（N O)再び前記ステップ S 6に移行する。つまり、制御可能な指示内容が入力されるまで待機状態となる。

次にステヅプ S 8に移行して、前記ステヅプ S 6で認識された指示内容に対応する赤外線コードを赤外線発光部 2に送信させる。つまり、指示内容が音声入力されると、その指示内容の認識結果に基づいて、対応する赤外線コードを呼び出し、赤外線発光部 2から対象 βへ赤外線コードを送信することになる。この乇 —ドでは、制御できる指示内容以外の命令や雑音が入力されると、不要語として wisid~iる。

前記ステヅプ S 9では、前記ステヅプ S 6で認識された指示内容が終了を意味する言葉（例えば、「終了」）であるか否かを判定し、終了を意味する言葉である場合には（YE S ) この演算処理を終了し、そうでない場合には（N O)編 3 ステップ S 3に移行する。つまり、このモードで終了を意味する制御指示、例えば「終了」と音声入力すると、制御できる対象機器を選択するモード（ステップ 3 3及び3 4 ) に戻る。なお、所定時間が凝過しても、認識対象となる鍵制御に関する登録語、つまり制御指示が発話入力されない場合にも、前記制御対象機器を選択するモードに戻る（図 3に図示せず）。

前記ステヅプ S 9では、前記ステヅプ S 6で認識された指示内容が待機を意味する言葉（例えば、「待機」 ) であるか否かを判定し、待機を意味する言葉である場合には（YE S ) 前記ステップ S 1に移行し、そうでない場合には（N O) ステップ S 1 0に移行する。つまり、この制御対象 ¾を選択するモードにおいて、音声認識リモートコントロール装置を待機させる命令語、例えば、「待機」と音声入力すると、パスヮ一ドを受け付けるモードに戻る。

前記ステヅプ S 1◦では、 ff!3ステヅプ S 6で認識された指示内容が電源のォフ状態を意味する言葉（例えば、「閉じろゴマ」）であるか否かを判定し、オフ状態を意味する言葉である場合には（Y E S) この演算処理を終了し、そうでない場合には（N O) ステップ S 1 0に移行する。つまり、利用者が「閉じろゴマ」と音声入力すると、音声認識装置そのものの電源をオフとすることが可能であり、完全に本システムを終了することができる。

本システムを再開するときは、すでに中央制御回路 8のォペレ一ションシステムが立ち上がってヽる場合には、本システムに関わるアプリケーションソフトを起動すればよく、前記オペレーションシステムが休止している場合は、本体システムの電源ボタンのみ物理的に押下することによって可能となる。

図 5に、図 3のステップ S 1， S 3及び S 6で実行される音声認識処理であつて、これらの音声認理での隠れマルコフモデル（以下、 HMMと呼ぶ。）による処理プロセスの原理図を示す。この音声認識処理が実行されると、まずマイクロフオン 3で検知された音声を、フ一リェ変換若しくはゥヱ一プレヅト変換でデジタル化されたスぺクトルに変換し、そのスぺクトルに線形予測分析やケプストラム分析等の音声モデル化手法を用いることによつて音声デ一夕の特徴化を行う。次にこの特徴化された音声デ一夕に対し、予め音声認理で読み込んだ語彙ネヅトワーク 2 0に登録されている個々の登録語の音響モデノレ 2 1の尤度をビ夕ビアルゴリズムで計算する。ここで登録語は、音声単位の直列接続（音声単位ラペル系列）に対応する HMMの直列接続ネットワークでモデルィ匕され、語彙ネヅトワーク 2 0は、登録語彙リストに登録されている登録語群に対応する直列接続ネットワーク群としてモデルィ匕されている。また、各登録語は、音素等の音声単位で構成されており、その音声単位毎に尤度が算出され、利用者の発話終了が確認された時点で、登録語彙リストの中から尤度の積算値が最大となる登録語を検出し、その登録語を音声に含まれていると認知した登録語として出力する。本発明では、図 6に示すように、登録語の語彙ネットワーク 2 2と並列に、単語表記の H MMと同様にして、不要語を認識するための仮想的なモデル 2 3が 1δ 定されている。不要語を認識するための仮想的なモデル 2 3としては、 H. Boula rd, B. D' hoore and J.-M. Boite, "Optimizing Recognition and Rejection Perfo rmance in Wordspotting Systems, "Proc. ICASSP, Adelaide, Australia, pp.1-37 3-376, 1994.等で提案されているガーべヅジモデル法を利用すればよい。これにより、対象制御したい単語以^ つまり登録語を含まない発話や雑音が音声として入力された場合に、この不要語に対応する仮想的なモデルの尤度が全ての登録語の尤度よりも大きくなるようにすることで、最大の尤度を持つ仮想的なモデルが選択され、不要語が入力されたと判断することが可能なシステムを構築できる。また、不要語を認識するための仮想的なモデル 2 3を用いるため、リジェクシヨン機能を付与しても、計算負荷量をあまり大きくせず、実用的なレベルでの認識処理時間とし、且つ、可搬性のある小型のリモートコントロール装置を形成することができる。

ちなみに、不要語を認識するための仮想的なモデル 2 3を用いずに、登録語の語彙ネットワーク 2 2だけで構成される語彙ネットワーク 2 0だけを用いる^ の方法では、制御したい対象 βが増加するに伴って、認識させたい単語以外の未知語、不要語やシステムの想定外の発話などによる誤認識による誤動作が避けられない。特に、常時音声認理を行っている状況下では、使用環境下における生活雑音、例えば仲間同士での会話、リモートコントロール装置のそばを人が歩く音、ペットなどの鳴き声、台所での炊事作業による雑音によって、誤認識が多頻度で発生してしまうという問題がある。また、この誤認識を少なくするため、登録された単語とのマッチング判定の許容範囲を厳しくすると、誤認識は減少する傾向になるが、目的とする単語が発話された場合にもリジヱクシヨンされる頻度が高くなり、何度も言い直しが必要となり、利用者に不决感を与えてしまう。また、不要語も登録語彙リストの中に列挙する方法も考えられるが、想定できる不要語すベてを列挙すると、登録語彙リストが大きくなり、その結果演算量が膨大となるので現実的でない。

図 6に、具体的な語彙ネヅトワーク 2 0として、図 3のステップ S 4で実行される音声認識処理における制御対象 βの名称の語彙ネヅトワークを示す。この語彙ネットワーク 2 0には、制御したい対象観を選択するための登録語群、つまり制御対象観の名称 2 2と不要語モデル 2 3とが表記されている。さらに、詳細には各登録語は、対応する音素ラベル系列で表言 3された図 7のような構成になっている。ここで、不要語モデノレ 2 3は、すべての音素モデルを平準化した仮想的な音素モデルとして形成され、不特定話者音素 ΗΜΜモデルと同様のトポロジ一を有する。なお、使用するすべての音素を平準ィ匕した仮想的な音素モデルは、以下のように作成される。すなわち、まず使用するすべての音素を ΗΜΜとしてモデル化し、その ΗΜΜを複数個の状態の遷移系列として形成し、それら個々の状態を混合ガウス分布で構成する。そして、その混合ガウス分布から音素間にわたって共有ィ匕できるガウス分布の集合体を選び出し、さらに、音素毎の重み付け補正をした混合ガウス分布とし、これを使用するすべての音素を平準化した仮想的な音素モデルとする。また、使用するすべての音素を平準ィ匕した仮想的な音素モデルは、 1つのクラス夕から形成されるものに限られるものではなく、すべての音声単位を複数個（例えば 3 ~ 5個程度）のクラス夕群に分割し、そのクラス夕群から形成されるものであってもよい。そのため、利用者によって登録語が発声されると、必然的に登録語の尤度が大きくなるが、登録語以外の単語が発声されると、結果として仮想的な音素モデルの尤度が大きくなり、不要語として認識される確率がくなる。例えば、「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」等、登録語として制御機器の名称が登録されているときに、図 7記載の登録語の語彙ネットワーク 2 2に表記されていない単語である「焚き火（たきび）」という言葉が入力された^、もし不要語モデルが設定されていなければ、表記された単語、つまり登録語の中から類似の音素構成となる単語（図 7記載の登録語彙リストでは、例えば「テレビ」が挙げられる）の尤度が最大となり誤認識となるが、ここで、不要語モデルが定されていれば、確率論的に仮想的な音素モデルの尤度が最大となる可能性が高くなり、不要語として認識されることにより、誤認識を大幅に低減することができる。

図 8に示す不要語モデルは、母音を構成する音素群の自己ループとして表したものである。つまり、この不要語モデルは、母音の音素に対応する ΗΜΜの集合体であり、その集合体の終点から始点に自己ループを持つものであって、デジ夕ルイ匕された音響パラメ一夕系列に対し、母音の音素に対応する HMM群の尤度を音響ノラメ一夕毎に算出し、それらのうち最大のものを積算して不要語モデルの尤度とするものである。これは、ほぼすベての単語には母音が含有されており、しかも音素の分類として子音、母音、摩擦音、破裂音等の音素群のうち、母音が音響エネルギーとして大きいことを利用したことを特徴としている。つまり、あらゆる単語の母音だけの連続音として、不要語モデルの尤度は計算されることになる。したがって、利用者によって登録語が発話されると、子音等の母音以外の音素が不要語モデルからはずれるため、不要語モデルの尤度は登録語の尤度よりも低くなり、結果として登録語として認識される確率が高くなる。ところが、登録語以外の単語が発話されると、子音等の母音以外の音素に関して、今度は登録語に対応する音素モデルの方が低い値を戻すため、結果として母音だけの連続音である不要語モデルの尤度が高くなり、不要語として認識される確率が高くなるため、誤認識を低減することができる。この方法により、上記仮想的な音素モデルのラベル系列を得ることが難しい ί½や、音素モデルで構成される既存の音声認識ソフトウエアを利用する場合に好適に用いられる。

なお、実際の使用状況に応じて、不要語としての認識率が低い場合や、認識率が高すぎて、目的とする命令語を発話しても、不要語として認識される場合等は、仮想的な音素モデルによる不要語モデル及び母音音素を用いる不要語モデルに対して得られる尤度に適当なファクターを乗じることで、認識率の最適化を図ることがでさる。

1：実施例 1 ]

次に、本発明の第 1実施例を説明する。

この実施例では、図 7に示すように、不要語モデルとして、すべての音素モデルを平準化した仮想的な音素モデル 2 3を設け、その音素モデル 2 3と、表 1記載の登録単語リスト、つまり登録語の語彙ネヅトワーク 2 2とが並列に設けられた語彙ネヅトワーク 2 0を、図 3のステヅプ S 3の音声認理に読み込んだ状態の音声リモートコントロール装置を準備した。そして、不要語として「焚き火 (たきび）」、「武雄（たけお）」、「ファミコン」を、それぞれ 5回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は 1 0 0 %であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について 1 0回ずつ発話したところ、語彙全体での正答率は 9 4 %であった。

対象語彙曰ョしテレビ

ビデオ

エアコン

照明

才—ディ才

[実施例 2 ]

次に、本発明の第 2 Hi¾例を説明する。

この実施例では、図 8に示すように、不要語モデルとして、母音の音素、つまり「あ (a)」、「い )」、「う（u)」、「え (e)」、「お (o)」の音素に対応する HMM群で構成される自己ル一プモデル 2 3，を設け、その自己ループモデル 2 3 ⁵ と、表 1記載の登録単語リスト、つまり登録語の語彙ネットワーク 2 2とが並列に設けられた語彙ネヅトワーク 2 0を、図 3のステヅプ S 3の音声認識処理ルーチンに読み込んだ状態の音声認識リモートコントロール装置を準備した。そして、不要語として「焚き火（たきび）」、「武雄（たけお）」、「ファミコン」を、それぞれ 5回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として認識されない確率は 1 0 0 %であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について

1 0回ずつ音声入力したところ、語彙全体での正答率は 9 0 %であった。

[実施例 3 ]

次に本発明の第 3実施例を説明する。

この実施 ί列では、第 1実施例と同様、図 7に示すように、不要語モデルとして、すべての音素モデルを平準ィ匕した仮想的な音素モデル 2 3を設け、その音素モデル 2 3と、表 1記載の登録単語リスト、つまり登録語の語彙ネットワーク 2 3 とが並列に設けられた語彙ネヅトワーク 2 0を、図 3のステヅプ S 3の音声認識処理ル一チンに読み込んだ状態の音声リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「え一と」、「警備（けいび）」、「えへん」、「承知（しょ一ち）」、「オーデコロン」を、それぞれ 1 0回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は 9 2 %であった。

[実施例 4 ]

次に、本発明の第 4実施例を説明する。

この実施例では、第 2実施例と同様、図 8に示すように、不要語モデルとして、母音の音素、つまり「あ (a)」、「い )」、「う（u)」、「え (e)」、「お (0) 」の音素に対応する HMM群で構成される自己ループモデル 2 3 ' を設け、その自己ループモデル 2 3 ' と、表 1記載の登録単語リスト、つまり登録語の語彙ネヅトワーク 2 2とが並列に設けられた語彙ネットワーク 2 0を、図 3のステップ S 3の音声認理ル一チンに読み込んだ状態の音声認識リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「え一と」、「警備 ( けいび）」、「えへん」、「承知（しょ一ち）」、「オーデコロン」を、それぞれ 1 0回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認 I戠されない確率は 9 3 %であった。

[実施例 5 ]

次に、本発明の第 5実施例を説明する。

この実施例では、図 9に示すように、不要語モデルとして、すべての音素モデルを平準化した仮想的な音素モデル 2 3及び、「あ (a)」、「い（i)」、「う（u) 」、「え (e)」、「お (o)」の音素に対応する HMM群で構成される自己ループモデル 2 3 ' を設け、それらのモデル 2 2、 2 3と、表 1記載の登録単語リスト、つまり登録語の語彙ネットワーク 2 2とが並列に設けられた語彙ネットワーク 2 0を、図 3のステップ S 1 0 3の音声認理ル一チンに読み込んだ状態の音声リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「え一と」、「警備（けいび）」、「えへん」、 '「承知（しょ一ち）」、「ォ一デコロン」を、それぞれ 1 0回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は 1 0 0 %であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明」、「オーディオ」に対する認識率を調べるために、それぞれの単語について 1 0回ずつ音声入力したところ、全体での正答率は 8 8 %であった

[実施例 6 ]

次に、本発明の第 6実施例を説明する。

この実施例では、図 1 0に示すように、不要語モデルとして、「あ (a)」、い (i)」、「う（u)」、「え (e)」、「お (o)」の音素に対応する HMM群 2 3，つまり図 8の不要語モデルから自己ループを除、たものと、表 1記載の登録 J リスト、つまり登録語の語彙ネットワーク 2 2とが並列に設けられた語彙ネットワーク 2 0を、図 3のステップ S 3の音声認理ル一チンに読み込んだ音声リモ一トコントロール装置を準備した。そして、不要語として「あいうえお」、「え一と」、「警備（けいび）」、「えへん」、「承知（しょ一ち）」、「オーデコロン」を、それぞれ 1 0回ずつ音声入力したところ、結果として不要語として認識される確率、つまり登録語として誤認識されない確率は 2 3 %であった。

[比較例 1 ]

次に、本発明の第 1比較例を説明する。

この比較例では、図 1 0に示すように、不要語モデルを認識するための仮想的なモデルを用いずに、表 1記載の登録単語リスト、つまり登録語の語彙ネヅトヮ —ク 2 2だけで構成される語彙ネヅトワーク 2 0を、図 3のステップ S 3の音声認識処理ル一チンに読み込んだ状態の音声認識リモートコント口一ル装置を準備した。そして、不要語として「焚き火（たきび）」、「武雄（たけお）」、「フアミコン」を 5回ずつ音声入力したところ、「焚き火」はすべて「テレビ」として誤認識され、「武雄」はすべて「ビデオ」として誤認識され、「ファミコン」はすべて「エアコン」として誤認識された。したがって、不要語として認識される確率、つまり登録語として誤認識されない確率は 0 %であった。なお、目的とする単語、つまり登録語である「テレビ」、「ビデオ」、「エアコン」、「照明

」、「オーディオ」に対する認識率を調べるために、それぞれの単語について 1 0回ずつ音声入力したところ、語彙全体での正答率は 9 8 %であつた。

[比較例 2 ]

次に、本発明の第 2比較例を説明する。

この比較例では、比較例 1と同様、図 1 1に示すように、不要語を認識るための仮想的なモデルを用いずに、表 1記載の登録単語リスト、つまり登録語の語彙ネヅトワーク 2 2だけで構成される語彙ネヅトワーク 2 0を、図 3のステヅプ S 3の音声認識処理ル一チンに読み込んだ状態の図 1記載の音声認識リモートコントロール装置を準備した。そして、不要語として「あいうえお」、「え一と」、「警備（けいび）」、「えへん」、「承知（しょ一ち）」、「オーデコロン」を、それぞれ 1 0回ずつ音声入力した。結果、「あいうえお」は「ビデオ」として誤認識されやすく、「え一と」は「エアコン」として誤認識されやすく、「警備」は「テレビ」として誤認識されやすく、「えへん」は「エアコン」として誤認識されやすく、「承知」は「照明」として誤認識されやすく、「オーデコロン」が「オーディオ」として誤認識されやすかつた。そのため、不要語として認識される確率、つまり登録語として誤認識されない確率は 0 %であった。

なお、本実施形声では、音声指示情報メモリ 7が記憶手段に対応し、マイクロフォン 3が利用者から発せられた音声を入力する手段に対応し、音声指示認識回路 6が音声認識手段に対応し、赤外線発光部 2が送信手段に対応する。

次に、本発明の第 2実施形態を図面に基づいて説明する。この実施形態は、上記第 1実施形態と同様の音声認識処理を、利用者の音声に含まれる登録語を認識して、電子メールの送受能、スケジュール管理機能、音声メモ機能及び音声夕イマ機能等を制御する情報端末装置に適用したものである。なお、音声メモ機能とは、利用者にメモ内容を音声入力させ、その音声を録音し、利用者の要求に応じて前記音声を再生する機能である。また、音声夕イマ機能とは、利用者に報知内容を音声入力させ、その音声を録音すると共に、報知タイミングを入力させ、その報知タイミングで i 音声を再生する機能である。

図 1 2は、本発明の第 2実施形態であるアナログ電話を活用した情報端末装置の主要プロヅク図である。この図に示す情報端末装置は、利用者の音声に含まれる登録語を認識し、電子メールの送受信処理、スケジュール管理処理、音声メモ処理及び音声夕イマ処理等を実行する音声認識ュニヅト 5 1と、その認識結果に基づいて、通信回線への接続等を行う通信ュニヅト 5 2とから構成される。利用者の音声は、音声認識ユニット 5 1のマイクロフォン 5 3から入力され、 ±曽幅器 5 4を経由し、 A/D変 5によって、デジタル化された音響パラメ一夕に変換される。音声指示認識回路 5 6内部では、デジタル化された音響パラメ一夕に対し、音声指示情報メモリ 5 7内に記憶登録されている登録語彙リスト内の登録語の尤度が、それらの音声単位毎に計算され、当該尤度の積算値が最も大きいものが、利用者の音声に最も近いものとして抽出される。なお、音声指示認識回路 5 6内部では、デジタル化された音響パラメ一夕に対し、音声指示情報メモリ 5 7内に記憶登録されている不要語モデルの尤度も同時に計算され、当該不要語モデルの尤度が登録語の尤度よりも大きいときには、デジ夕ルイ匕された音響パラメ一夕から登録語が抽出されなかったものとする。

また、音声指示情報メモリ 5 7内には、登録語彙リストとして、電子メールの送信機能に関する登録語が Έ3録された電子メール送信用語彙リストと、電子メールの受信機能に関する登録語が登録された電子メ一ル受信用語彙リストと、スケジュール管理機能に関する登録語が登録されたスケジュール管理用語彙リストと

、音声メモ機能に関する登録語が登録された音声メモ用語彙リストと、音声タイマ機能に関する登録語が登録された音声夕イマ用語彙リストと、登録語であるメ —ルの送信コマンドゃ受信コマンドに対応する制御コ一ドとが Ϊ3憶されている。ここで、音声認識回路 5 6で電子メールの送信開始パスワードが抽出、つまり認識結果として得られると、利用者の音声に応じて電子メールの送信機能を制御する後述する演算処理が実行され、利用者にメール内容を音声入力させ、その音声をマイクロフォン 5 3で検出し、マイクロフォンイン夕フェース回路 6 8を介して、 RAM 6 9に音声デ一夕として記憶させると共に、電子メールの送信コマンドが入力されたときには、そのコマンドに対応する電話制御用の制御コ一ドを音声指示情報メモリ 5 7から呼び出して、通信ュニヅト 5 2へ送信し、音声デ一夕を電子メールに添付して送信する。また同様に、音声認識回路 5 6で電子メールの受信開始パスヮ一ドが認識結果として得られると、利用者の音声に応じて電子メ一ルの受信機能を制御する後述する演算処理が実行され、電子メールの受信コマンドが入力されたときには、そのコマンドに対応する電話制御用の制御コ一ドを音声指示情報メモリ 5 7から呼び出して、通信ュニット 5 2へ送信し、音声デ —夕が謝された電子メールを受信すると共に、その音声デ一夕を、 D/A変換器 6 5及び増幅器 1 6を経由してスピーカ 6 7で再生する。なお、制御コードは、通信ュニヅト 5 2を制御できるものであれば特に限定されるものではないが、 —般的に ATコマンドが利用されるため、本難形態でも A Tコマンドを採用する。

また、音声指示認識回路 5 6でスケジュール管理機能の開始パスワードが認識結果として得られると、利用者の音声に応じてスケジュール管理機能を制御する後述する演算処理を中央制御回路 5 8が実行し、利用者にスケジュール内容を音声入力させて、その音声をマイクロフォン 5 3で検出し、マイクロフォンイン夕フェース回路 6 8を介して、 RAM 6 9に音声デ一夕として記憶させると共に、そのスケジュールの実行日を入力させ、その実行曰に音声デ一夕を関連付けてスケジュール管理を行う。また、音声認識回路 5 6で音声メモ機能の開始パスヮードが抽出、つまり認識結果として得られると、利用者の音声に応じて音声メモ機能を制御する後述する演算処理が中央制御回路 5 8で実行され、利用者にメモ内容を音声入力させ、その音声をマイクロフォン 5 3で検出し、マイクロフォンィン夕フェース回路 6 8を介して、 RAM 6 9に音声デ一夕として記憶させると共に、利用者の要求に応じて音声データを RAM 6 9から呼び出し、 D/A変 ίβ 6 5及び増幅器 1 6を経由してスピーカ 6 7で再生する。また、音声指示認識回路 5 6で音声夕イマの作繊能の開始パスヮ一ドが認識結果として得られると、利用者の音声に応じて音声夕ィマ機能を制御する後述する演算処理を中央制御回路 5 8で実行し、利用者に報知内容を入力させて、その音声をマイクロフオンで検出し、マイクロフォンインタフェース回路 6 8を介して、 RAM 6 9に音声デ —夕として記憶させると共に、その音声の報知タイミングを入力させ、その報知タイミングで音声データを RAM 6 9から呼び出し、 D/A変換器 6 5及び増幅器 1 6を経由してスピーカ 6 7で再生する。

なお、使用するハ一ドウエアとしては、図 1 2記載の基本機能を有していれば、特に限定されるものではなく、以下では音声認識ュニヅト 5 1として、図 1 3 に示すように、市販のパソコンを用いた場合について説明する。

図 1 4に、図 1 3の情報端末装置で実行される処理であって、利用者の音声に応じて電子メールを送信等する演算処理のフロ一チヤ一トを示す。なお、このフ口—チヤ—トでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。

この演算処理が実行されると、まず、そのステップ S 1 0 1では、マイクロフオン 5 3で検出された音声を読み込み、その音声に含まれる登録語である開始パスワード（例えば、「電子メール送信」という言葉）が含まれているか、または開始パスヮ一ド以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認理を実行し、開始パスワードが含まれている場合には（Y E S ) ステツプ S 1 0 2に移行し、そうでない場合には（N O) このフロ一を繰り返す。次に、ステップ S 1 0 2に移行して、登録語彙リストとして、電子メール送信用語彙リストを読み込み、且つ、図 1 5に示すように、音声メールランチャを起動して、利用者が指示可能な登録語の一覧を L C D表示装置 6 2に表示させる。 L C D表示装置 6 2に表示させる登録語としては、例えば、メールを作成したいときに発話するメール作成コマンド（例えば、「メール作成」 ) が挙げられる。次にステップ S 1 0 3に移行して、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれるメール作成コマンドが含まれているか、またはメ一ル作成コマンド以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認理を実行し、その音声にメール作成コマンドが含まれている場合には（YE S ) ステップ S 1 0 4に移行し、そうでない場合には（NO) このフロ一を繰り返す。

次にステップ S 1 0 4に移行して、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語である相手先リスト選択コマンド（例えば、「相手先リスト」という言葉）が含まれているか、または相手先リスト選択コマンド以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、その音声に相手先リスト選択コマンドが含まれている場合には（ Y E S) ステップ S 1 0 5に移行し、そうでない場合には（NO) ステップ S 1 0 6に移行する。

前記ステップ S 1 0 5では、図 1 5に示すように、メールアドレスが登録されている人、つまりメールァドレスが記憶装置の所定のデ一夕領域に格納されている人の名前を記載した一覧を L C D表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語である人名を認識する音声認理を実行して、その人名に対応するメールアドレスを呼び出してから、ステップ S 1 0 7に移行する。

一方、前記ステップ S 1 0 6では、メール送信先のメールアドレスの発話を促すメッセ一ジを L C D表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語であるアルファべヅトを認識する音声認識処理を実行して、送信先のメールアドレスを認識してから、前記ステップ S 1 0 7に移行する。

前記ステップ S 1 0 7では、マイクロフォン 5 3で検出された音声に対し、登録語である録音開始コマンド（例えば、「録音開始」という言葉）を認識する音声認識処理を実行し、且つ、その音声に録音開始コマンドが含まれているか否かを判定し、録音開始コマンドが含まれている場合には（YE S) ステップ S 1 0 8に移行し、そうでない場合には（N〇）このフローを繰り返す。

前記ステップ S 1 0 8では、メール内容の発話を促すメッセージを L CD表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を所定時間録音して音声データを生成し、その音声デ一夕をメール内容として記憶装置の所定のデ一夕領域に格納する。

前記ステップ S 1 0 9では、マイクロフォン 5 3で検出された音声に対し、登録語である追加録音コマンド（例えば、「追加録音」という言葉）を認識する音声認識処理を実行し、且つ、その音声に追加録音コマンドが含まれているか否かを判定し、追加録音コマンドが含まれている場合には（YE S) 再びステップ S 1 0 8に移行し、そうでない場合には（NO) ステップ S 1 1 0に移行する。前記ステップ S 1 1 0では、マイクロフォン 5 3で検出された音声を読み込み、その音声に録音内容確認コマンド（例えば、「録音内容の艦忍」という言葉）が含まれているか否かを判定し、その音声に録音内容確認コマンドが含まれている場合には（YE S ) ステップ S 1 1 1に移行し、そうでない場合には（N O) ステップ S 1 1 2に移行する。

前記ステップ S 1 1 1では、前記ステップ S 1 0 8で生成した音声デ一夕、つまりメ一ル内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ 6 7に再生させてから、ステップ S 1 1 2に移行する。

前記ステツプ S 1 1 2では、マイクロフォン 5 3で検出された音声を読み込み、その音声に送信コマンド（例えば、「送信実行の纏」という言葉）が含まれているか否かを判定し、送信コマンドが含まれる場合には（YE S )ステップ S 1 1 3に移行し、そうでない^には（NO) ステップ S 1 1 4に移行する。前言 3ステップ S 1 1 3では、プロバイダに電話をかけるための ATコマンドを記憶装置の所定のデ一夕領域から読み出し、その A Tコマンドを音声通話ュニヅト 1 0 2に送信し、プロバイダのメールサーバに接続する。

次にステヅプ S 1 1 4に移行して、前記ステップ S 1 0 8で生成した音声デー夕、つまりメール内容を記憶装置の所定のデ一夕領域から読み出し、その音声デ —夕を、して、前記ステップ S 1 0 5で読み出したメールアドレス又は前記ステツプ S 1 0 6で入力させたメールアドレスに電子メールを送信する。

次にステップ S 1 1 5に移行して、回線切断を指示する ATコマンドを記憶装置の所定のデータ領域から呼び出し、その A Tコマンドを音声通話ュニヅト 5 2 に送信する。

次にステツプ S 1 1 6に移行して、電子メールの送信が完了した旨のメヅセージを L CD表示装置 6 2に表示させてから、ステップ S 1 1 8に移行する。一方、編 3ステップ S 1 1 7では、前記ステップ S 1 0 8で生成した音声デ一夕、つまりメール内容を記憶装置の所定のデ一夕デ一夕領域から削除してから、前記ステップ S 1 1 8に移行する。

前記ステップ S 1 1 8では、マイクロフォン 5 3で検出された音声に対し、登録語である終了コマンド（例えば、「終了」という言葉）を認識する音声認言» 理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には（YE S ) この演算処理を終了し、そうでない場合には（NO)再び前記ステップ S 1 0 4に移行する。

図 1 6に、図 1 3の情報端末装置で実行される処理であって、利用者の音声に応じて電子メールを受信等するための演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によつて得られた情報は随時記憶装置に f記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップ S 2 0 1では、マイクロフォン 5 3で検出された音声を読み込み、その音声に開始ノスヮ一ド（例えば、「電子メール受信」という言葉）が含まれているか、または開始パスヮ一ド以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認醒理を実行し、 I始パスワードが含まれている場合には（Y E S ) ステツプ S 2 0 2に移行し、そうでない場合には（N O) このフローを繰り返す。次にステップ S 2 0 2に移行して、登録語彙リストとして、電子メール受信用語彙リストを読み込み、且つ、音声メールランチャを起動して、利用者が指示可能な登録語の一覧を L C D表示装置 6 2に表示させる。 L C D表示装置 6 2に表示させる登録語としては、例えば、メールを受信したいときに発話するメール受信コマンド（例えば、「メール受信」）等が挙げられる。

次にステヅプ S 2 0 3に移行して、マイクロフォン 5 3で検出された音声を読み込み、その音声にメール受信コマンドが含まれてヽるか否かを判定し、メール受信コマンドが含まれている^には（YE S ) ステップ S 2 0 4に移行し、そうでない場合には（N O) このフローを繰り返す。

次にステップ S 2 0 4に移行して、プロバイダに電話をかけるための A Tコマンドを記憶装置の所定のデータ領域から呼び出し、その ATコマンドを音声通話ュニヅト 1 0 2に送信し、プロバイダのメールサーバに接続する。

次にステップ S 2 0 5に移行して、前記ステップ S 2 0 4で接続したメールサ —ノから電子メールを受信し、その電子メールを記憶装置の所定のデ一夕領域に格納する。

次にステップ S 2 0 6に移行して、電子メールの受信が完了した旨のメヅセ一ジを L C D表示装置 6 2に表示させる。

次にステップ S 2 0 7に移行して、回線切断を指示する A Tコマンドを記憶装置の所定のデ一夕領域から呼び出し、その A Tコマンドを音声通話ュニヅト 5 2 に送信する。

次にステップ S 2 0 8に移行して、前記ステップ S 2 0 5で受信したメールの一覧を L C D表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語であるメール選択コマンドを認識する音声認識処理を実行じて、利用者にメールの一覧から特定のメ一ルを選択させる。なお、メ一ル選択コマンドとしては、利用者が特定のメ一ルを選択できるものであれば、どのようなものでもよく、例えばメールの一覧としてメール送信者の人名を表示させるときには、その一覧に掲載した人名を用いてもよい。次にステヅプ S 2 0 9に移行して、マイクロフォン 5 3で検出された音声に対し、登録語である再生コマンド（例えば、「再生」という言葉）を認識する音声認識処理を実行し、且つ、その音声に再生コマンドが含まれているか否かを判定し、再生コマンドが含まれている場合には（YE S ) ステップ S 2 1 0に移行し、そうでない^には（NO) ステップ S 2 1 1に移行する。

前記ステップ S 2 1 0では、前記ステップ S 2 0 8で選択させたメールに ¾ (寸されている音声デ一夕、つまりメ一ル内容を記憶装置の所定のデ一夕領域から読み出し、その音声デ一夕をスピーカ 6 7に再生させてから、 ΙΐίΙΒステップ S 2 1 1に移行する。

前記ステップ S 2 1 1では、まずマイクロフォン 5 3で検出された音声に対し、登録語であるスケジュール登録コマンド（例えば、「スケジュール登録」という言葉）を認識する音声認識処理を実行して、且つ、その音声にスケジュール登録コマンドが含まれているか否かを判定し、スケジュール登録コマンドが含まれている場合には（YE S ) ステップ S 2 1 2に移行し、そうでない場合には（N 0) ステップ S 2 1 7に移行する。

前記ステップ S 2 1 2では、登録語彙リストとして、スケジュール管理用語彙リストを読み込み、且つ、スケジューラを起動して、利用者が指示可能な登録語の一覧を L CD表示装置 6 2に表示させる。

次にステップ S 2 1 3に移行して、前記ステップ S 2 0 8で選択させたメールにヘッダ情報（例えば、日付を指定する情報等）が記載されているか否かを判定し、へヅダ情報が記載されている場合には（YE S ) ステップ S 2 1 4に移行し、そうでない： ^には（N O) ステップ S 2 1 5に移行する。

前記ステップ S 2 1 4では、まず、前記ステップ S 2 0 8で選択させたメールに添付されている音声デ一夕、つまりメール内容を、前記メールに記載されているヘッダ情報の日付におけるスケジュール内容として記憶装置の所定のデータ領域に格納する。次に、スケジュール内容の大'小項目選択コマンド（例えば、「プライベート」や「待合わせ」という言葉等）の入力を促すメッセ一ジを L CD 表示装置 6 2に表示させると共にマイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語であるスケジュール内容の大 ·小項目選択コマンドを認識する音声認識処理を実行する。そして、その認識結果を前記音声デー夕、つまりスケジュール内容の大 ·小項目として記憶装置の所定のデータ領域に格納してから、前記ステツプ S 2 1 7に移行する。

一方、 fifSステップ S 2 1 5では、スケジュールの実行日の入力を促すメッセ —ジを L CD表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語である年月日入力コマンド（例えば、「〇〇年〇月〇日」という言葉）を認識する音声認理を実行する。次にステップ S 2 1 6に移行して、まず、前記ステップ S 2 0 8で選択させたメールに添付されている音声データを、 ΙίίΙΒステップ S 2 1 5で認識した年月日におけるスケジュール内容として記憶装置の所定のデ一夕領域に格納する。次に、スケジュール内容の大 '小項目選択コマンド（例えば、「プライべ一ト」や「待合わせ」という言葉等）の入力を促すメヅセージを L CD表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語であるスケジュール内容の大 ·小項目選択コマンドを認識する音声認識処理を実行する。そして、その認識結果を前記音声デ一夕、つまりスケジュ —ル内容の大 ·小項目として記憶装置の所定のデ一夕領域に格納してから、 tufB ステップ S 2 1 7に移行する。

前記ステップ S 2 1 7では、まず、マイクロフォン 5 3で検出された音声に対し、登録語である終了コマンド（例えば、「終了」という言葉）を認識する音声認諸拠理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には（YE S ) この演算処理を終了し、そうでない場合には（N〇）再ひ前記ステップ S 2 0 3に移行する。

図 1 7に、図 1 3の情報端末装置で実行される処理であって、利用者の音声に応じてスケジュール管理機能を実行するための演算処理のフローチャートを示すなお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステヅプ S 3 0 1では、マイクロフォン 3で検出された音声を読み込み、その音声に含まれる登録語である開始パスワード（例えば、「音声スケジュール」という言葉）が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認薩理を実行し、開始パスヮ一ドが含まれている場合には（YE S ) ステップ S 3 0 2に移行し、そうでない場合には（ N O ) このフローを繰り返す。

次にステップ S 3 0 2に移行して、登録語彙リストとして、スケジュール管理用語彙リストを読み込み、且つ、図 1 8に示すように、音声スケジュールランチャを起動して、利用者が指示可能な登録語の一覧を L C D表示装置 6 2に表示させる。 L C D表示装置 6 2に表示させる登録語としては、例えば、スケジュールを登録したいときに発話するスケジュール登録コマンド（例えば、「予定設定」 ) 、スケジュールを確認したいときに発話するスケジュール ¾ コマンド（例えば、「予定確認」 ) が挙げられる。

次にステップ S 3 0 3に移行して、スケジュールの実行日の発話を促すメヅセ —ジを L CD表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語である年月日入力コマンド（例えば、「〇〇年〇月〇日」という言葉）を認識する音声認識処理を実行する。

次にステヅプ S 3 0 4に移行して、マイクロフォン 5 3で検出された音声に対し、登録語であるスケジュール登録コマンドを認識する音声認識処理を実行し、且つ、その音声にスケジュール登録コマンドが含まれているか否かを判定し、スケジュール登録コマンドが含まれている^には（Y E S ) ステップ S 3 0 5に移行し、そうでない場合には（N O) ステップ S 3 1 0に移行する。

前記ステツプ S 3 0 5では、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語であるスケジュールの開始 ·終了時間入力コマンド (例えば、「〇時〇分」という言葉）を認識する音声認識処理を実行して、利用者にスケジュールの開始時間と終了時間とを入力させる。

次にステップ S 3 0 6に移行して、スケジュール内容の発話を促すメヅセージを L CD表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を所定時間録音して音声データを生成し、その音声デ一夕を前記ステップ S 3 0 3で認識した年月日におけるスケジュール内容として記憶装置の所定のデ一夕領域に格納する。

次にステップ S 3 0 7に移行して、まず、スケジュール内容の大 ·小項目選択コマンド（例えば、「プライベート」や「待合わせ」という言葉等）の入力を促すメッセージを L C D表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語であるスケジュール内容の大 '小項目選択コマンドを認識する音声認理を実行する。次に、その認識結果を前記ステップ S 3 0 6で生成した音声データ、つまりスケジュール内容の大 ·小項目として記憶装置の所定のデ一夕領域に格納する。

次にステップ S 3 0 8に移行して、まずリマィンダ一機能の設定コマンド（例えば、「リマインダ一の設定」という言葉）の発話を促すメッセージを L C D表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声に対し、登録語であるリマインダ一の設定コマンドを認識する音声認議拠理を実行する。次に、その音声にリマインダ一の設定コマンドが含まれているか否かを判定し、リマインダ一の設定コマンドが含まれている場合には（Y E S ) ステップ S 3 0 9に移行し、そうでない場合には（N O) ステヅプ S 3 2 4に移行する。なお、リマイン夕"一機能とは、スケジュール内容を所定のタイミングで報知して、そのスケジュールの存在を利用者に思い出させる機能である。

前記ステップ S 3 0 9では、まず、リマインダ一の通知時間や通知先人名等の入力を促すメッセ一ジを L C D表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語であるリマインダ一の通知時間、通知先人名の設定コマンド（例えば、「〇分前」という言葉）を認識する音声認識処理を実行して、利用者にリマインダ一機能による報知タイミング等を入力させる。次に、そのリマインダ一の通知時間に、前記ステツプ S 3 0 6で生成した音声デ一夕、つまりスケジュール内容を記憶装置の所定のデー夕領域から読み出し、その音声データをスピーカ 6 7で再生する演算処理を実行してから、ステップ S 3 2 4に移行する。

一方、前記ステップ S 3 1 0では、マイクロフォン 5 3で検出された音声に対し、登録語であるスケジュール確認コマンドを認識する音声認識拠理を実行して、且つ、その音声にスケジュールの廳忍コマンドが含まれているか否かを判定し、スケジュールの確認コマンドが含まれている場合には（Y E S ) ステップ S 3 1 1に移行し、そうでない場合には（N O) ステップ S 3 1 9に移行する。前記ステップ S 3 1 1では、図 1 9に示すように、前記電子メールを受信等するための演算処理のステップ S 2 1 4及び S 2 1 6、前記ステップ S 3 0 7で入力させたスケジュール内容の大 ·小項目を記憶装置の所定のデータ領域から読み出し、その一覧を L CD表示装置 6 2に表示させる。

前記ステップ S 3 1 2では、マイクロフォン 5 3で検出された音声に対し、登録語である録音内容コマンド（例えば、「確認」という言葉）を認識する音声認讓理を実行し、且つ、その音声に録音内容確認コマンドが含まれているか否かを判定し、録音内容 SS コマンドが含まれている場合には（YE S ) ステヅプ S 3 1 3に移行し、そうでない場合には（N〇）ステップ S 3 1 4に移行する前記ステップ S 3 1 3では、前記ステップ S 3 1 1で L CD表示装置 6 2に一覧表示させた大 ·小項目に対応する音声デ一夕、つまりスケジュール内容をスピ —力 6 7に再生させてから、備己ステップ S 3 1 4に移行する。

前記ステップ S 3 1 4では、まず、マイクロフォン 5 3で検出された音声に対し、登録語であるスケジュール追加登録コマンド（例えば、「予定設定」という言葉）を認識する音声認 I»理を実行し、且つ、その音声にスケジュール追加登録コマンドが含まれているか否かを判定し、スケジュール追加登録コマンドが含まれている場合には（YE S ) ステップ S 3 1 5に移行し、そうでない場合には

(N O) ステップ S 3 1 6に移行する。

前記ステップ S 3 1 5では、新たなスケジュールを登録するためのデ一夕領域を記憶装置に確保してから、 Ιίίϊ己ステップ S 3 0 5に移行する。

一方、編 3ステップ S 3 1 6では、マイクロフォン 5 3で検出された音声に対し、登録語であるスケジュール訂正コマンド（例えば、「訂正」という言葉）を認識する音声認理を実行し、且つ、その音声にスケジュール訂正コマンドが含まれているか否かを判定し、スケジュール訂正コマンドが含まれている場合には（N O) 前記ステップ S 3 0 5に移行し、そうでない場合には（NO) ステヅプ S 3 1 7に移行する。

前記ステップ S 3 1 7では、マイクロフォン 5 3で検出された音声に対し、登録語であるスケジュール削除コマンド（例えば、「削除」という言葉）を認識する音声認理を実行し、且つ、その音声にスケジュール削除コマンドが含まれているか否かを判定し、スケジュール削除コマンドが含まれている場合には（Y E S )ステップ S 3 1 8に移行し、そうでない場合には（N O) 再びステップ S 3 1 1に移行する。

前記ステップ S 3 1 8では、スケジュールが登録されているデ一夕領域を記憶装置から削除してから、 it己ステップ S 3 2 4に移行する。

一方、漏 3ステップ S 3 1 9では、マイクロフォン 5 3で検出された音声に対し、登録語であるスケジュール検索コマンド（例えば、「予定検索」という言葉 ) を認識する音声認藝理を実行し、且つ、その音声にスケジュール検索コマンドが含まれているか否かを判定し、スケジュール検索コマンドが含まれている場合には（Y E S ) ステップ S 3 2 0に移行し、そうでない場合には（N O)再び前記ステップ S 3 0 3に移行する。

前記ステップ S 3 2 0では、スケジュール内容の大 ·小項目選択コマンドの発話を促すメヅセージを L C D表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれるスケジュール内容の大 · 小項目の選択コマンドを認識する音声認業理を実行して、利用者に検索対象であるスケジュール内容の大 ·小項目を入力させる。

次にステツプ S 3 2 1に移行して、マイクロフォン 5 3で検出された音声に対し、登録語である検索実行コマンド（例えば、「検索実行」という言葉）を認識する音声認識処理を実行し、且つ、その音声に検索実行コマンドが含まれているか否かを判定し、検索実行コマンドが含まれている場合には（Y E S ) ステップ S 3 2 2に移行し、そうでない場合には（N O)再ひ前記ステップ S 3 2 0に移行する。

次にステップ S 3 2 2では、前記ステップ S 3 2 0で認識したスケジュール内容の大 ·小項目に対応するスケジュールを記憶装置の所定のデ一夕領域から歸し、その検索結果を L C D表示装置 6 2に表示させる。

次にステヅプ S 3 2 3に移行して、マイクロフォン 5 3で検出された音声に再検索コマンド（例えば、「碰索」とレ、う言葉）を認識する音声認理を実行し、且つ、その音声に鏡コマンドが含まれているか否かを判定し、稱负索コマンドが含まれている場合には（Y E S ) ステップ S 3 2 4に移行し、そうでない場合には（NO)再び iffiステップ S 3 2 0に移行する。

前記ステップ S 3 2 4では、マイクロフォン 5 3で検出された音声に対し、登録語である終了コマンド（例えば、「終了」という言葉）を認識する音声認理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には（Y E S ) この演算処理を終了し、そうでなレヽ場合には（NO)再び前記ステツプ S 3◦ 3に移行する。

図 2 0に、図 1 3の情報端末装置で実行される処理であって、利用者の音声に応じて音声メモ機能を実行する演算処理のフローチャートを示す。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップ S 4 0 1では、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語である開始パスワード（例えば、「音声メモ」という言葉）が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、開始パスワードが含まれている場合には（Y E S ) ステップ S 4 0 2に移行し、そうでない場合には（NO) このフローを繰り返す。

次にステップ S 4 0 2に移行して、登録語彙リストとして、音声メモ用語彙リストを読み込み、且つ、図 2 1に示すように、音声メモランチャを起動して、利用者が指示可能な登録語の一覧を L CD表示装置 1 2に表示させる。 L CD表示装置 6 2に表示させる登録語としては、音声メモを作成したいとき、つまり音声を録音したいときに発話する録音コマンド（例えばヽ「録音開始」 )、音声メモを再生したいときに発話する再生コマンド（例えば、「再生開始」）、各音声メモに対応づけられた番号であって、音声メモを選択したいときに発話するメモフオルダ番号選択コマンド（例えば、「1番」、「2番」等）等が挙げられる。次にステップ S 4 0 3に移行して、マイクロフォン 5 3で検出された音声に対し、登録語であるメモフォルダ番号選択コマンドを認識する音声認醒理を実行し、且つ、その音声にメモフォルダ番号選択コマンドが含まれているか否かを判定し、メモフォルダ番号選択コマンドが含まれている場合には（YE S)ステツプ S 4 0 4に移行し、そうでない場合には（NO) ステップ S 4 0 7に移行する ο

前記ステヅプ S 4 0 4では、マイクロフォン 5 3で検出された音声に対し、登録語である録音コマンドを認識する音声認識処理を実行し、且つ、その音声に録音コマンドが含まれているか否かを判定し、録音コマンドが含まれている場合には（Y E S ) ステップ S 4 0 5に移行し、そうでない場合には（N〇）再び前記ステップ S 4 0 3に移行する。

前記ステップ S 4 0 5では、メモ内容の発話を促すメヅセージを L C D表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を所定時間録音して音声デ一夕を生成し、その音声デ一夕を前記ステップ S 4 0 3で選択させたメモフォルダに対応するメモ内容として記憶装置の所定のデ一夕領域に格納する。

次にステヅプ S 4 0 6に移行して、マイクロフォン 5 3で検出された音声に対し、登録語である録音内容の St!忍コマンド（例えば、「¾ 」という言葉）を認識する音声認理を実行し、且つ、その音声に録音内容の確認コマンドが含まれているか否かを判定し、録音内容の確認コマンドが含まれている場合には（Y E S ) ステップ S 4 0 8に移行し、そうでない場合には（N O) ステップ S 4 0 9に移行する。

一方、前記ステヅプ S 4 0 7では、マイクロフォン 5 3で検出された音声に対し、登録語である再生コマンドを認識する音声認識処理を実行し、且つ、その音声に再生コマンドが含まれているか否かを判定し、再生コマンドが含まれている場合には（Y E S ) fif3ステップ S 4 0 8に移行し、そうでない場合には（N O ) このフロ一を繰り返す。

前記ステヅプ S 4 0 8では、前記ステヅプ S 4 0 3で選択させたメモフオルダに対応する音声データ、つまりメモ内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ 6 7に再生させてから、前記ステップ S 4 0 9 に移行する。

前記ステップ S 4 0 9では、マイクロフォン 5 3で検出された音声に対し、登。録語である終了コマンド（例えば、「終了」という言葉）を認識する音声認薩理を実行し、且つ、その音声に終了コマンドが含まれているが含まれているか否かを判定し、終了コマンドが含まれている場合には（YE S ) この演算処理を終了し、そうでない場合には（NO)再び編己ステップ S 4 0 3に移行する。図 2 2に、図 1 3の情報端末装置で実行される処理であって、利用者の音声に応じて音声夕イマ機能を実行する演算処理のフローチャートを示す。なお、このフロ—チヤ—トでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップ S 5 0 1 では、マイクロフォン 5 3で検出された音声を読み込み、その音声に含まれる登録語である開始パスワード（例えば、「音声夕イマ」という言葉）が含まれているか、または開始パスワード以外の雑音や音声、つまり不要語しか含まれていないかを認識する音声認識処理を実行し、 I始パスヮードが含まれている場合には (YE S ) ステヅプ S 5 0 2に移行し、そうでない場合には（N O) このフローを繰り返す。

次にステップ S 5 0 2に移行して、登録語彙リストとして、音声夕イマ用語彙リストを読み込み、且つ、音声夕イマランチャを起動して、利用者が指示可能な登録語の一覧を L CD表示装置 1 2に表示させる。 L C D表示装置 6 2に表示させる登録語としては、例えば、報知内容や報知タイミングを設定するときに発話する夕イマ設定コマンド（例えば、「夕イマ一設定」 )、夕イマを動作させるときに発話する夕イマ開始コマンド（例えば「夕イマスタート」）等が挙げられる次にステップ S 5 0 3に移行して、マイクロフォン 5 3で検出された音声に対し、登録語である夕イマ設定コマンドを認識する音声認醒理を実行し、且つ、その音声に夕イマ設定コマンドが含まれているか否かを判定し、夕イマ設定コマンドが含まれている場合には（YE S) ステップ S 5 0 4に移行し、そうでない場合には（N O)再ひ前記ステップ S 5 0 2に移行する。

前記ステップ S 5 0 4では、夕イマが動作開始してから報知を行うまでの時間、つまり報知タイミングの入力を促すメヅセージを L C D表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を読み込み、その音声から登録語である夕イマ時間設定コマンド（例えば、「〇〇分」という言葉）を認識する音声認理を実行する。

次にステップ S 5 0 5に移行して、報知内容を録音するか否かの返答を促すメヅセージを L C D表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声に対し、登録語である録音開始確認コマンド（例えば「はい」という言葉）を認識する音声認理を実行し、且つ、その音声に録音開始確認コマンドが含まれているか否かを判定し、録音開始忍コマンドが含まれている場合には（Y E S ) ステップ S 5 0 6に移行し、そうでない場合には（N O) ステップ S 5 0 2に移行する。

前記ステップ S 5 0 6では、報知内容の発話を促すメッセージを L C D表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声を所定時間録音して音声デ一夕を生成し、その音声データを前記ステップ S 5 0 4で認識した時間、つまり報知タイミングに報知する報知内容として記憶装置の所定のデータ領域に格納する。

次にステヅプ S 5 0 7に移行して、前記ステヅプ S 5 0 6で録音した音声、つまり報知内容の確認を促すメッセージを L C D表示装置 6 2に表示させると共に、マイクロフォン 5 3で検出された音声に対し、登録語である録音内容の確認コマンド（例えば、「用 ί權認」という言葉）を認識する音声認識処理を実行し、且つ、その音声に録音内容の確認コマンドが含まれているか否かを判定し、録音内容の確認コマンドが含まれている^には（Y E S ) ステップ S 5 0 8に移行し、そうでない場合には（N O) ステップ S 5 0 9に移行する。

前記ステップ S 5 0 8では、前記ステップ S 5 0 6で生成した音声デ一夕、つまり報知内容をスピーカ 6 7に再生させてから、前記ステップ S 5 0 9に移行する。

前記ステップ S 5 0 9では、マイクロフォン 5 3で検出された音声に対し、登録語である終了コマンド（例えば、「終了」という言葉）を認識する音声認言飄理を実行し、且つ、その音声に終了コマンドが含まれているか否かを判定し、終了コマンドが含まれている場合には（YE S ) この演算処理を終了し、そうでない場合には（NO ) 再び Ιΐί13ステップ S 5 0 2に移行する。一方、 iI3ステップ S 5 1 0では、マイクロフォン 5 3で検出された音声に対し、登録語である夕イマ開始コマンドを認識する音声認理を実行し、且つ、その音声に夕イマ開始コマンドが含まれているか否かを判定し、夕イマ開始コマンドが含まれている^には（Y E S ) ステップ S 5 1 1に移行し、そうでない場合には（N O) 再び前記ステツプ S 5 0 2に移行する。

前記ステップ S 5 1 1では、前記ステップ S 5 0 4で認、識した時間、つまり報知タイミングで、前記ステップ S 5 0 6で生成した音声デ一夕、つまり報知内容を記憶装置の所定のデータ領域から読み出し、その音声データをスピーカ 6 7で再生する演算処理を実行してから、この演算処理を終了する。

以上、説明してきたように、本実施形態の情報通信端末装置にあっては、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声夕イマ機能を利用者の音声に含まれる登録語を認識することで実行するため、利用者は登録語を発話するだけで各機能を使用でき、物理的な操作が必要とされない。

また、上記第 1実施形態と同様な音声認! »理を用いるため、上記第 1実施形態と同様に、登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメ一夕系列に対し、不要語モデル 2 3の尤度が大きく算出され、登録語の語彙ネットワーク 2 2の尤度が小さく算出され、それらの尤度に基づいて前記登録語以外の音声が不要語として認識され、当該登録語以外の音声が登録語として誤認識されることが防止され、情報端末装置の誤動作が防止される。

なお、本実膨態では、マイクロフォン 5 3は音声検出手段に対応し、音声指示認識回路 5 6が音声認識手段に対応し、中央制御回路 5 8が制御手段に対応する。

次に、本発明の第 3実施形態を図面に基づいて説明する。この実施形態は、上記第 1実 «態と同様の音声認識処理を、利用者の音声に含まれる登録語を認識して、通信回線への接続等を行う電話通信端末に適用したものである。図 2 3は、本発明の第 3実施形態であるアナ口グ電話又はボイスモデムを活用した電話通信端末の主要ブロック図である。この図に示す電話通信端末は、音声認識を制御する音声認識ュニヅト 1 0 1と音声通話を制御する音声通話ュニヅト 1 0 2、つまり利用者の音声に含まれる登録語を認識する音声認識ュニヅト 1 0 1と、その認識結果に基づいて、通信回線への接続等を行う音声通話ュニヅト 1 0 2とから構成される。利用者の音声は、音声認識ュニヅト 1 0 1のマイクロフォン 1 0 3 から入力され、増幅器 1 0 4を経由し、 A/D変換器 1 0 5によって、デジタル化された音響パラメ一夕に変換される。ここで、入力されたアナログ音声は、特に限定されるものではないが、通常、 8 KH z〜l 6 K H zの範囲にある特定周波数でサンプリングされてデジタル化される。デジタル化された音響パラメ一夕は、音声指示認識回路 1 0 6内部で、音声指示情報メモリ 1 0 7内に記憶登録されている登録語彙リストに対し、各単語の構成単位である音声単位ごとに、上記音響パラメ一夕との尤度計算を行うことにより、登録語彙リストの中から、最も近い単語を抽出する。言いかえると、音声指示認識回路 1 0 6内部では、デジ夕ル化された音響パラメ一夕に対し、音声指示情報メモリ 1 0 7内に記憶登録されている登録語彙リスト内の単語（以下、登録語とも呼ぶ。）の尤度が、それらの構成単位（以下、音声単位とも呼ぶ。）毎に計算され、当該尤度の積算値が最も大きいものが、利用者の音声に最も近いものとして抽出される。なお、音声指示認識回路 1 0 6内部では、デジタル化された音響パラメ一夕に対し、音声指示情報メモリ 1 0 7内に記憶登録されている不要語モデルの尤度も同時に計算され、当該不要語モデノレの尤度が登録語の尤度よりも大きいときには、デジ夕ルイ匕された音響ノラメ一夕から登録語が抽出されなかつたものとする。

ここで、登録語彙リスト内には、登録語彙として登録語と当該登録語以外の不要語とが登録されているものとする。また、音声単位としては、音節、音素、半音節、 D i p h o n e (音素の 2つ組）、 T r i p h o n e (音素の 3つ組）等を適宜使用すればよい。

また、音声指示情報メモリ 1 0 7内には、登録語彙リストとして、人名とその人名に対応する電話番号とが記録された人名語彙リストと、任意の電話番号に相当する桁数に応じた連続数字を認識するための番号語彙リストと、電話操作に関する通話操作語彙リストと、電話着信時の応答に関する着信操作語彙リスト、各登録語に対応する制御コードとが記憶されている。例えば、音声指示認識回路 1 0 6で電話操作に関する登録語が抽出、つまり認識結果として得られると、その音声認識された登録語に対応する電話制御用の制御コードを当該音声指示情報メモリ 1 0 7から呼び出し、中央制御回路 1 0 8より音声通話ュニヅト 1 0 2へ送信される。制御コードは、音声通話ュニヅト 1 0 2を制御できるものであれば特に限定されるものではないが、一般的に ATコマンドが利用されるため、本実施形態でも ATコマンドを代表例として採用している。

また、発呼動作において、マイクロフォン 1 0 3から人名又は電話番号情報が音声入力されると、その音声に含まれる登録語を認識し、その音声認識結果を L CD表示部 1 0 9に表示させて視覚的に報知すると同時に、応答音声制御回路 1 1 0で応答音声情報メモリ 1 1 8から呼び出し、 D/A変換器 1 1 1及び増幅器 1 1 2を介して、アナログ音声としてスピーカ 1 1 3から聴覚的に報知する。認識結果が正しいときには、利用者が「電話かけて」等の音声コマンドをマイク 1 0 3から入力すると、中央制御回路 1 0 8で所望とする相手先電話番号への発信制御を A Tコマンドとして変換し、音声通話ュニット 1 0 2のワンチヅプマイコン 1 1 4へ送信する。

また、電話回線が接続され、音声通話可能となると、音声通話ュニット 1 0 2 のマイクロフォン 1 1 5とスピーカ 1 1 6とを利用して、音声通話すると同時に、必要に応じて音声認識ュニヅト 1 0 1のマイクロフオン 1 0 3及びスピー力 1 0 5のボリュームレベルを、音声通話ュニヅト 1 0 2のマイクロフォン 1 1 5及びスピ一力 1 1 6と独立して調整することができる。

また、音声認識ュニット 1 0 1では、電話制御用の制御コードが中央制御回路 1 0 8より外部イン夕フェース 1 1 7を経由して音声通話ュニヅト 1 0 2へ送信したときに、音声通話ュニヅト 1 0 2から状態信号を受け取ることによって、音声通話ユニット 1 0 2のオンフック状態、オフフック状態、あるいは回線通信状況を把握でき、それらの状態に応じて、次の動作に必要な登録語彙リストを順次変更することにより、不要な言葉による誤認識を低減している。例えば着信時においては、音声通話ュニヅト 1 0 2で着信を受けたことを知らせるリンギング情報を音声認識ュニット 1 0 1へ伝達させることにより、着信応答に関する着信操作語彙リストを呼び出し、利用者が音声応答するか否かの判断を音声認識ュニヅト 1 0 1のマイクロフォン 1 0 3を利用して入力することにより、着信時においても音声入力によるハンズフリーで mis通話できることを可能としている。このとき、相手先の電話番号等の相手先情報を得られるならば、人名と番号を登録している名称語彙リストと照合し、その照合結果を L CD表示装置 1 0 9に表示させて！ ¾1的に報知させると同時に、応答音声制御回路 1 1 0を利用して、照合結果に対応する応答音声デ一夕を応答音声用情報メモリ 1 1 8から呼び出し、

Ώ A i 1 1及び増幅器 1 1 2を経由して、アナログ音声として「〇〇さんからの電話です」というアナウンスをスピーカ 1 0 3から聴覚的に幸艮知させることが可能となっている。

このように本実施形態では、音声入出力、つまりマイクロフォンとスピーカとを少なくとも 2系統設置することにより、通常リンギングに使用されているスピ —力 1 1 6の動作と並行して、より詳細な情報を画面表示以外でも利用者に伝達可能としている。ちなみに、詳細な情報を画面表示で伝達する方法では、利用者が電話機本体から離れている場合、車の運転中で視線を画面に変更ができない場合、あるいは、利用者が視覚障害者である場合等、着信した電話の相手先情報を確認することが難しいケースにも対応可能となつている。

なお、図 2 4は、公衆舌回線網への接続手段として、携帯電話型の無線方式を利用した変开例であり、図 2 3と比較して音声通話ュニヅト 1 0 2の主要プロヅク図が異なる。携帯電話型の無線方式を利用する場合、通常、音声通話用の入出力装置、つまり音声通話ュニヅト 1 0 2のマイクロフォン 1 1 5及びスピーカ 1 1 6は、相手先の音声受信状態によって、 ON— O F Fの制御がされている。したがって、音声入出力装置、つまりマイクロフォン 1 0 3及びスピーカ 1 1 3 を音声認識用に別に用意することにより、音声通話方式によって異なる音声通話用の入出力装置の特徴（動作状態）に左右されることなく、音声認識機能付き電話通信端末として、常時使用することが可能となっている。言いかえると、利用者が通話中であって、その通話のために音声通話ュニヅト 1 0 2のマイクロフォン 1 1 5及びスピーカ 1 1 5が専有されている場合であっても、利用者は音声認識ュニヅト 1 0 1に音声を入力でき、音声通話ュニット 1 0 2を制御させることができる。ちなみに、音声によってダイヤル信号を自動送出するものであって、ハンドセットで音声入力する方法では、通常、音声入力を常時受け付けられるようにするには、電話機能として、オフフックモードとする必要があり、この^ 、常に受話器が上がった状態であり、外からの受信が受け付けられない。

図 2 5に、中央制御回路 1 0 8で実行される処理であって、利用者が人名を発話したことに応じて発呼動作等を行う演算処理のフローチャートを示す。つまり図 2 5は、人名による発呼動作に関するプロセススキームである。なお、このフ口—チャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップ S 6 0 1では、オンフックの状態を検出することにより、音声通話ュニヅト 1 0 2の初期状態を確認し、電話発呼を受け付ける状態であることを確認する。具体的には、音声通話ュニヅト 1 0 2から状態信号を受け取ってオンフック状態であるか否かを判定し、オンフック状態である場合には（Y E S ) ステップ S 6 0 2に移行し、そうでない場合には（N〇）このフローを繰り返す。

前記ステップ S 6 0 2では、利用者からの音声による人名入力を受け付ける。具体的には、登録語彙リストとして、人名と電話番号が記録された人名語彙リストを読み込み、且つ、マイクロフォン 1 0 3で検出された音声を読み込み、その音声に登録語彙リストに登録されている人名が含まれているか、または人名以外の雑音や音声、つまり不要語しか含まれていないかを音声指示認識回路 1 0 6に認識させる。ここで、人名に関しては、予め人名と対応する HI舌番号を音声指示情報メモリ 1 0 7に人名語彙リストとして記憶させておく。また、入力されたァナログ音声は、特に限定されるものではないが、通常、 8 K H z〜1 6 KH zの範囲にある特定周波数でサンプリングされてデジタル化される。デジ夕ルイ匕された音響パラメ一夕は、音声指示認識回路 1 0 6内部で、音声指示情報メモリ 1 0 7内に記憶登録されている人名語彙リストに対し、各単語の構成単位である音声単位ごとに、上記音響パラメ一夕との尤度計算を行うことにより、人名語彙リストの中から、最も近い人名を抽出する。言いかえると、音声指示認識回路 1 0 6 内部では、デジ夕ルイ匕された音響パラメ一夕に対し、音声指示情報メモリ 1 0 7 内に記憶登録されている人名語彙リスト内の登録語である人名の尤度が、その音声単位毎に計算され、当該尤度の積算値が最も大きいものが、利用者の音声に最も近い人名として抽出される。なお、音声指示認識回路 6内部では、デジタル化された音響パラメ一夕に対し、音声指示情報メモリ 7内に記憶登録されている不要語モデルの尤度も同時に計算され、当該不要語モデルの尤度が登録語である人名の尤度よりも大きいときには、デジタル化された音響パラメ一夕から人名が抽出されなかったものとする。

前記ステップ S 6 0 3では、前記ステップ S 6 0 2で人名語彙リストに登録されている人名が音声に含まれていることが認識されたか否かを判定し、登録語彙リストに登録されている人名が含まれている場合には（Y E S ) ステップ S 6 0 4に移行し、そうでない場合には（N O)再び前記ステップ S 6 0 2に移行する前記ステップ S 6 0 4では、前記ステップ S 6 0 2で人名が抽出されると、音声認識ュニット 1 0 2に接続された端末画面（L C D表示装置 1 0 9 ) に、抽出された人名を表示させると共に、応答音声制御回路 1 1 0を用いて、音声アナゥンスによって、抽出された人名を報知させる。

次にステップ S 6 0 5に移行して、図 2 6に示すように、まず L CD表示装置 1 0 9にプロセスを進めることを指示する単語、またはプロセスのやり直しを指示する単語の発話を促すメッセ一ジを表示させる。次に、マイクロフォン 1 0 3 で検出された音声を読み込み、その音声に含まれる登録語であるプロセスを進めることを指示する単語が含まれているか、またはプロセスのやり直しを指示する単語が含まれているかを音声指示認識回路 1 0 6に認識させる。そして、マイク口フォン 1 0 3で検出された音声に登録語であるプロセスを進めることを指示する単語が含まれているか、またはプロセスのやり直しを指示する単語が含まれているかを判定し、プロセスを進めることを指示する単語が含まれている^には (Y E S ) ステップ S 6 0 6に移行し、そうでない場合には（N O)再び前記ステツプ S 6 0 2に移行する。利用者は、抽出された人名が所望の結果であるかどうかを判断し、所望の結果であれば「電話かけて」等の予め登録されたプロセスを進めることを指示する単語を発話し、音声指示認識回路 1 0 6に、入力された音声コマンドの認識処理を行わせる。

前記ステップ S 6 0 6では、前記ステップ S 6 0 2で抽出された人名に対応する電話番号を人名語彙リストから読み出すと共にその《fS番号に対応する AT コマンドを音声指示情報メモリ 1 0 7から呼び出し、その A Tコマンドを音声通話ュニヅト 1 0 2へ送信する。そして、 ff己のごとく、「電話かけて」という予め登録された語彙であると認識されると、対応する番号を発信するための A Tコマンド（AT D ) が中央制御回路 1 0 8より音声通話ュニヅト 1 0 2へ伝達され、回線接続のプロセスが実行される。呼び出し音に応答して、相手先のオフフヅク動作を撤口すると、回線接続が完了し、音声通話を実行する。

一方、抽出された人名が、所望とする結果でないときは、予め登録されたプロセスのやり直しを指示する音声コマンド、例えば「もう一回」を発話し、音声指示認識回路 1 0 6で入力された音声の認理を行う。前記のごとく、「もう一回」という予め登録された語彙であると認識されると、人名発話を受け付けるステヅプ（ステップ S 6 0 2 ) に戻り、新しい人名の発話を受け付ける状態となる図 7に、音声指示認識回路 1 0 6で実行される音声認識処理の一例を示す。この音声認識処理のプロセスは、特に限定されるものではないが、本実施形態では、前記第 1の難形態と同様に、隠れマルコフモデル（HMM) による処理プロセスを利用している。この音声認識処理が実行されると、まずマイクロフォン 1 0 3で検知された音声を、フ一リェ変換もしくはゥエーブレヅト変換でデジタル化されたスぺクトルに変換し、そのスぺクトルに線形予測分析やケプストラム分析等の音声モデルィ匕手法を用いることによって音声デ一夕の特徴化を行う。次に

、この特徴化された音声デ一夕に対し、予め音声認理で読み込んだ語彙ネヅトワーク 1 2 0に登録されている個々の登録語の音響モデル 1 2 1の尤度をビ夕ビアルゴリズムで計算する。ここで登録語は、音声単位の直列接続（音声単位ラベル系列）に対応する H MMの直列接続ネットワークでモデルィ匕され、語彙ネヅトワーク 1 2 0は、登録語彙リストに登録されている登録語群に対応する直列接続ネットワーク群としてモデルィ匕されている。また、各登録語は、音素等の音声単位で構成されており、その音声単位ごとに尤度が算出され、利用者の発話終了が確認された時点で、登録語彙リストの中から尤度の積算値が最大である単語を検出し、その登録語を音声に含まれていると認知した登録語として出力する。また、前記第 1実施形態と同様に、不要語を認識するための仮想的なモデル 2 3が登録語の語彙ネットワーク 1 2 0と並列に設けられている。これにより、登録語を含まない発話や雑音、つまり不要語が音声として入力されたときには、その不要語に対応する仮想的なモデル 2 3の尤度が登録語の尤度よりも大きく算出され、不要語が入力されたと判断されて、登録語を含まない発話等が登録語として誤認識されることが防止される。

図 2 7は、中央制御回路 1 0 8で実行される処理であって、利用者が電話番号を発話したことに応じて発呼動作等を行う演算処理のフローチャートを示す。つまり図 2 7は、電話番号による発呼動作に関するプロセススキームである。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップ S 7 0 1では、オンフックの状態を検出することにより、音声通話ュニヅト 1 0 2 の初期状態を δ鶴忍し、電話発呼を受け付ける状態であることを確認する。具体的には、音声通話ュニヅト 1 0 2から状態信号を受け取ってオンフック状態であるか否かを判定し、オンフック状態である場合には（Y E S ) ステップ S 7 0 2に移行し、そうでない場合には（N O) このフローを繰り返す。

前記ステップ S 7 0 2では、任意の電話番号を受け付ける電話番号確認モ一ドであるか否かを判定し、電話番号確認モードである^には（Y E S ) ステップ S 7 0 4に移行し、そうでない場合には（N〇）ステップ S 7 0 3に移行する。前記ステツプ S 7 0 3では、マイクロフォン 1 0 3で検出された音声を読み込み、その音声に含まれる登録語である電話番号を受け付けるための予め登録された音声コマンドが含まれていることを音声指示認識回路 1 0 6に認識させ、その音声コマンドが認識された場合、前記ステップ S 7 0 4に移行する。そして、任意の «fg番号を受け付ける電話番号認識モードであるかどうかの確認を利用者が行い、人名認識モード等、電話番号認識モード以外であれば、電話番号を受け付けるための予め登録された音声コマンドを発話する。

前記ステップ S 7 0 4では、まず、登録語彙リストとして、任意の電話番号に相当する桁数に応じた連镜数字を認識するための番号語彙リストを読み込む。次に、図 2 8に示すように、電話番号の発話を促すメッセ一ジを L CD表示装置 1 0 9に表示させる。そして、マイクロフォン 1 0 3で検出された音声を読み込み、その音声に含まれる登録語である連続数字が含まれているか音声指示認識回路 1 0 6で認識する。例えば「番号で ¾¾」が前記電話番号を受け付けるための登録された音声コマンドとする。利用者は、「番号で S 」と発話すると、マイク口フォン 1 0 3を通して、音声指示認、識回路 1 0 6で入力音声の認識を行レ「番号で電話」と認識されると、音声指示認識回路 1 0 6では、登録語彙リストとして、任意の電話番号を認識できる番号語彙リストを音声指示認識回路のメモリ内にアップ口一ドすることによって、電話番号を受け付けるモードに入る。ここで、利用者は、「0 3— 3 3 5 6—1 2 3 4」（「一」は発音しない）等、希望する電話番号を連続して発話することにより、音声認識させる。

ここで、任意の電話番号を認識できる番号語彙リストとは、電話が使用される国、 ±也域、電話通信方式、相手先の国、地域、電話方式によって、いくつかパ夕 —ン化した連続数字列からなるものを意味し、例えば、日本国内から日本国内の固定電話機に電話をかける場合であれば、「0—市外局番-市内局番—加入者番号」のパターンとなり、合計 1 0桁（一部の地域で 9桁）の連続数字列群からなる番号語彙リストを用意する。なお、市外局番と巿内局番との間あるいは巿内局番と加入者番号との間に、「の」や無声の間を表す音声単位を電話番号パターンに挿入することで、 SI舌番号を発話する発話者の冗長性にも対応することが可能である。

また、日本国内から日本国内の携帯電話や P H Sに電話をかける場合であれば、「0 A 0 (Aは 0以外の単数字）」で始まる合計 1 1桁の連镜数字列群からなる語彙リストを用意する。その他、総務省が会社ごとに指定している数字列ノ夕一ンに従った数字列群からなる専用の番号語彙リストも用意する。表 2に総務省が発表している日本国内における電話番号パ夕一ンのリストを示す。

このように、本実施形態では、電話番号を認識させるときには、利用者は電話番号の全桁に相当する数字列を連続発話するだけでよく、電話番号を短時間で認識させることができる。ちなみに、電話番号を 1桁ずつ認識させる方法では、全桁を正しく認識させようとすると、多くの時間がかかってしまう。

番号パターン相手先の分類

中継する電話会社を使って電話する場合や

00から始まる番号

国際電話を掛ける場合

0 AOから始まる番号携帯電話、 P H S、発信者課金ポケットベル (Aは 0以外）等に電話する場合

0 A B 0から始まる番号電話会社が提供する高度な電話サービスを (A, Bは 0以外）利用する場合

0 ABCから始まる電話番号普通の固定電話に電話する場合 (市外通話） (A， B,Cは 0以外） ( 0一市外局番一市内局番—加入者番号）緊急性、公共性、安全性の観点から重要な

1から始まる番号 .

場合や付加サービスの場合

普通の固定電話に電話する場合。（市内通話）

2〜 9から始まる番号

各番号語彙リストの音声認識回路 1 0 6へのアロケーション方法は、その音声認識回路 1 0 6で採用される音声認識エンジンの認度に応じた方法が適宜採用される。その一つの方法として、音声認識用のマイクロフォン 1 0 3で数字列が音声入力されたときに、その数字列の先頭から認識される数字列（3〜4桁）のパターンを動的に判断し、そのパターンが認識されると同時に選択可能な番号語彙リストへ動的にアロケーションする方法が挙げられる。この方法によれば、例えば、「0 (ゼロ）」から始まる S舌番号として、最初の 3桁の数字列において、 1桁目と 3桁目とに「0 (ゼロ）」の数字が認識されると、日本国内では、携帯電話や： P H S等の電話番号のパターンであるとして、この後に続く数字列を認識するために、 8桁の数字列（トータル 1 1桁）あるいは、特徴的な番号列を認識する番号語彙リス卜がアロケーションされる。

また、他の方法として、静的に全ての番号語彙リストを一度、音声認識回路 1 0 6に読み込んでおき、利用者によって入力される ¾舌番号の先頭から順に、どの数字と適合するかの尤度計算を経時的な平均値として算出することによつて、可能性のあるパターン数個だけを候補として残して、それ以外のパターンは演算から除外し、最終的に発話区間の検出が終了した時点で、どの番号パターンへの尤度が高かったかを算出することによって、確からしい番号の決定する方法等が挙げられる。これらの方法により、膨大な数字列候補の中から、まずパターンによる絞り込みを掛けることで、認識精度の向上と認識に必要な演算量の負荷の低減を実現し、利用者は電話番号として必要な全桁数を連続して発話認識させることが可倉となつている。

前記ステップ S 7 0 5では、前記ステップ S 7 0 4で認識された電話番号を L CD表示装置 1 0 9に表示させると共に、その認識結果を応答音声制御回路 1 1 . 0に伝達し、その電話番号をスビ一力 1 0 5に報知させる。

次にステップ S 7 0 6に移行して、まず L CD表示装置 1 0 9にプロセスを進めることを指示する単語、またはプロセスのやり直しを指示する単語の発話を促すメッセ一ジを表示させる。次に、マイクロフォン 1 0 3で検出された音声を読み込み、その音声に含まれる登録語であるプロセスを進めることを指示する単語が含まれているか、またはプロセスのやり直しを指示する単語が含まれているかを音声指示認識回路 1 0 6に認識させる。そして、マイクロフォン 1 0 3で検出された音声に登録語であるプロセスを進めることを指示する単語が含まれているか、またはプロセスのやり直しを指示する単語が含まれているかを判定し、プロセスを進めることを指示する単語が含まれている場合には（YE S、ステップ S 7 0 6 ' ) ステップ S 7 0 7に移行し、そうでない^には（N O、ステップ S 7 0 6 " )再び前記ステップ S 7 0 4に移行する。

前記ステップ S 7 0 7では、前記ステップ S 7 0 4で抽出された電話番号に対応する A Tコマンドを音声指示情報メモリ 1 0 7から呼び出し、その A Tコマンドを音声通話ュニット 1 0 2に送信する。

図 2 9は、中央制御回路 1 0 8で実行される処理であって、利用者が終了を意味する言葉を発話したことに応じてオフフヅク動作等を行う演算処理のフローチャ一トを示す。つまり図 2 9は、通話終了のためのオンフック動作に関するプロセススキームである。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によって得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップ S 8 0 1では、オフフヅク状態を検出することにより、音声通話ュニヅト 1 0 2の動作状態が通話モードあることを ¾ する。具体的には、音声通話ュニヅト 1 0 2から状態信号を受け取ってオフフック状態であるか否かを判定し、オフフック状態である場合には（Y E S ) ステップ S 8 0 2に移行し、そうでない場合には（NO) このフロ一を繰り返す。

前記ステップ S 8 0 2では、まず、登録語彙リストとして、通話中及び通話終了における必要な音声コマンドだけを予め登録した通話操作語彙リストを音声指示認識回路 1 0 6内に読み込む。そして、マイクロフォン 1 0 3で検出された音声を読み込み、その音声に含まれる登録語である通話を終了することを指示する音声コマンドが含まれているか音声指示認識回路 1 0 6で認識する。

次にステップ S 8 0 3に移行して、回線切断を指示する A Tコマンドを音声指示情報メモリ 1 0 7から呼び出し、その A Tコマンドを音声通話ュニヅト 1 0 2 に送信する。そのため、通話を終了することを指示する音声コマンド、例えば「電話切って」と利用者が発話すると、マイクロフォン 1 0 3を経由して、音声指示認識回路 1 0 6で入力音声の認識を行い、「電話切って」と認識されると、中央制御回路 1 0 8より A Tコマンド（A T H) を使って、回線切断を指示する制御コードを音声通話ュニヅト 1 0 2へ送信し、回線の切断を完了する。

図 3 0は、中央制御回路 1 0 8で実行される処理であって、利用者が着信を意味する言葉を発話したことに応じてオフフック動作を行う演算処理のフローチヤートを示す。つまり図 3 0は、着信時におけるオフフック動作に関するプロセススキームである。なお、このフローチャートでは通信のためのステップを設けていないが、演算処理によつて得られた情報は随時記憶装置に更新記憶されると共に、必要な情報は随時記憶装置から読出される。この演算処理が実行されると、まず、そのステップ S 9 0 1では、オンフヅク状態を検出することにより、音声通話ュニヅト 1 0 2の動作状態が待機状態であることを ¾!忍する。具体的には、音声通話ュニヅト 1 0 2から状態信号を受け取ってオンフヅク状態であるか否かを判定し、オンフック状態である場合には（YE S )ステップ S 9 0 2に移行し、そうでない場合には（N〇）このフローを繰り返す。

前記ステップ S 9 0 2では、音声通話ユニット 1 0 2から着信を知らせるリザルトコ一ドを受け取つたか否かを判定し、リザルトコ一ドを受け取った場合には (YE S )着信信号を受けたことを報知するメッセ一ジを L CD表示装置 1 0 9 に表示すると共に、その旨を応答音声制御回路 1 1 0に伝達し、そのメッセージをスピーカ 1 0 5に報知させてからステップ S 9 0 3に移行し、そうでない:^ には（NO) このフローを繰り返す。つまり、音声通話ュニヅト 1 0 2が着信を知らせる信号を受け取ると、音声認識ュニヅ卜の中央制御回路へ着信を受けたこと知らせるリザルトコードを送信する。着信信号を受けた音声認識ュニットは、 L CD画面表示装置に着信信号を受けたことを報知する内容を表示すると同時に、応答音声制御回路より、音声にて電話着信のアナウンスをスピーカ 1より行う。このとき、着信信号の中に、相手先情報を含んでいれば、その情報とすでに人名語彙リストに登録された相手先との照合を行い、合致した相手先であれば、「〇〇〇さんからの電話です」等とより詳細な情報を利用者へ報知することが音声及び画面表示で行うことが可能である。

さらに、相手先情報をメモリに記憶しておき、通話終了後に、「S g番号を登録しますか」等のアナウンスを行い、「新規登録」や「過 Π登録」等の予め登録している音声指示に関する語彙を発話指示させ、人名語彙リストに新たな相手先デ一夕を音声登録することも可能である。

前記ステップ S 9 0 3では、まず、登録語彙リストとして、話着信時の応答に関する着信操作語彙リストを音声指示認識回路 1 0 6内に読み込む。次に、 L C D表示装置 1 0 9にオフフックを指示する語彙、またはオンフックを指示する語彙の発話を促すメッセ一ジを表示させる。また、マイクロフォン 1 0 3で検出された音声を読み込み、その音声に含まれる登録語であるオフフックを指示する語彙が含まれているか音声指示認識回路 1 0 6に認識させる。そして、マイクロフオン 1 0 3で検出された音声に登録語であるオフフックを指示する語彙が含まれているか、またはオンフックを指示する語彙が含まれているかを判定し、ォフフヅクを指示する語彙が含まれている場合には（Y E S、ステップ S 9 0 3 ' ) ステヅプ S 9 0 4に移行し、オンフックを指示する語彙が含まれている場合には（ N〇、ステップ S 9 0 3 " ) ステップ S 9 0 5に移行する。つまり、音声指示認識回路 1 0 6では、電話着信時の応答に関する着信操作語彙リストを読み込み、利用者は、状況に応じて電話に応じるかどうかの判断を行う。電話に出る場合は、予め登録されているオフフックを指示する語彙、例えば「H舌取って」なる語彙を発話する。マイクロフォン 1 0 3を経由して入力された音声は、音声指示認識回路により「電話取って」であるかどうかの認識判断を行う。

前記ステップ S 9 0 4では、オフフックを指示する A Tコマンドを音声指示情報メモリ 1 0 7から呼び出し、その ATコマンドを音声通話ュニヅト 1 0 2に送信する。つまり、「霞舌取って」との認識結果が得られると、中央制御回路 1 0 8よりオフフックを指示する ATコマンド（ATA) を音声通話ユニットへ送信し、通話状態のモードとし、マイク 2とスピーカ 2を使用して音声通話する。 —方、編己ステヅプ S 9 0 5では、オンフヅクを指示する A Tコマンドを音声指示情報メモリ 1 0 7から呼び出し、その ATコマンドを音声通話ュニヅト 1 0 2に送信する。つまり、電話に出たくない状況の場合は、予め登録されている回線切断を指示する言葉、例えば「電話切って」なる言葉を発話する。マイクロフオン 1 0 3を経由して入力された音声は、音声指示認識回路により「電話切って」であるかどうかの認識判断を行う。そして、「電話切って」との認識結果が得られると、中央制御回路より回線切断を指示する A Tコマンド（A T H) を音声通話ユニットへ送信し、着信信号を切断する。

なお、音声認識ユニットの初期設定により、リンギングの回数が一定値に達すると、自動的にオフフックの制御コードを発信したり、あるいは、留守番電話モ ―ドとする制御コ一ドを発信したりすることにより、利用者の希望に応じた対応ができる。

以上の一連の音声認識動作において、本発明の音声認識機能付き電話通信端末では、音声入力の有無に関係なく、音声指示認識回路 1 0 6の内部処理では、常時、音声検出アルゴリズム（VAD ) が動作している。そして、この VADによつて、マイクロフォン 1 0 3から入力される雑音を含めたすべての音に対し、音声として未入力状態なのか、音声として入力 ¾^中の状態なのか、音声として入力が終了した状態なのかといった判断を繰り返している。

これは、音声指示認識回路 1 0 6では、常時、音声認識アルゴリズムを動作させているため、音声認識に不要な音や言葉まで入力されやすく、それらの不要な音や言葉を、不要なものであるとして認識して、誤動作しないようにリジェクシヨン機能として設けられている。なお、不要な言葉を認識する方法としては、 H. Boulara, B. D oore and J.-M. Boite, "Optimizing Recognition and Rejection Performance in Wordspotting Systems," Proc. ICASSP, Adelaide, Australia, pp .1-373-376, 1994.等で提案されているガーべッジモデル法等を利用すればよいまた、図 2 8に示すように、上記 VADの内部処理における 3状態に応じて、つまり音声として未入力状態であるときに緑色となり、音声として入力赚中の状態であるときに黄色となり、音声として入力が終了した状態であるときに赤色となるタイミング報知用映像 3 0を L C D表示装置 1 0 9の上側に表示する。また同時に、 L CD表示装置 1 0 9の右端には、マイクロフォン 1 0 3で検出された音声の大きさに応じて上方へ伸びる、つまり音声が大きいほど長くなるレベルメ一夕 3 1を表示する。そして、上記 VADの内部処理における 3状態、つまり夕イミング幸艮知用映像 3 0を音声認識ュニヅト 1 0 1の L C D表示装置 6 2に表示して、利用者に発話し始めるタイミングを報知することで、発話時の不要な音や言葉との音のかぶりを避けることを可能としており、結果として、物理的なボ夕ン操作等が無く、音声入力を可能としている。また、マイクロフォン 1 0 3で検出された音声の大きさをレベルメータ 3 1によって報知することで、利用者は適切な音量で発話する助けが得られ、その結果、登録語をより容易に認識させることができる。

なお、本実施形態では、音声認識ュニヅト 1 0 1のマイクロフォン 1 0 3及びスピーカ 1 1 3と音声通話ュニヅト 1 0 2のマイクロフォン 1 1 5及びスピーカ 1 1 6とが音声入出力手段に対応し、音声指示認識回路 1 0 6が音声認識手段に対応し、音声指示情報メモリ 1 0 7が記憶手段に対応し、 L C D表示装置 1 0 9 が画面表示手段に対応し、中央制御回路 1 0 8が制御手段に対応し、マイクロフオン 1 0 3が音声検出手段に対応し、タイミング報知用映像 3 0が発話タイミング報知手段に対応し、レベルメータ 3 1が音量報知手段に対応する。

また、上記実施の形態は本発明の音声認識方法、リモートコント口一ル装置、情報端末装置、電話通信端末及び音声認識装置の一例を示したものであり、装置の構成等を限定するものではない。

例えば、上記 «の形態では、リモ一トコントロール装置、情報端末装置及び電話通信端末をそれぞれ個別に形成する例を示したが、これに限られるものではなく、例えば備3第 1実施形態のリモコン装置本体:部 1又は前記第 3実施形態の電話通信端末に、第 2実施形態の通信ュニヅト 5 2を取り付け、リモコン装置本体部 1で音声認識結果に基づいて、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声夕イマ機能等を実行できるようにしてもよい。そのようにすれば、前記第 2実施形態と同様に、利用者は登録語を発話するだけで各機能を使用でき、物理的な操作が必要とされない。

また、例えば、前記第 1実施形態のリモコン装置本体部 1〖こ、前記第 3実施形態の音声通話ュニヅト 1 0 2を取り付け、リモコン装置本体部 1に音声認識を行わせ、その音声認識結果に基づいて mis操作を行えるようにしてもよい。そのようにすれば、備 3第 3実施形態と同様に、利用者が通話中であって、その通話のために音声通話ュニット 1 0 2のマイクロフォン 1 1 5及びスピーカ 1 1 5が専有されている場合であっても、リモコン装置本体部 1に音声を入力でき、音声通話ュニヅト 1 0 2を制御させることができる。

さらに、例えば、漏 3第 1鐵形態のリモコン装置本体部 1に、編 3第 2難形態の通信ュニヅト 5 2と前記第 3難形態の音声通話ュニヅト 1 0 2とを取り付け、リモコン装置本体部 1に音声認識を行わせ、その音声認識結果に基づいて電話操作を行えるようにすると共に、その音声認識結果に基づいて、電子メールの送受信機能、スケジュール管理機能、音声メモ機能及び音声夕イマ機能等を実行できるようにしてもよい。そのようにすれば、前記第 2実施形態同様に、利用者は登録語を発話するだけで各機能を使用でき、物理的な操作が必要とされず、且つ、前記第 3実施形態と同様に、利用者が通話中であって、その通話のために音声通話ュニット 1 0 2のマイクロフオン 1 1 5及びスピ一力 1 1 5が専有されている場合であっても、リモコン装置本体部 1に音声を入力でき、音声通話ュニヅト 1 0 2を制御させることができる。産業上の利用可能性

以上、説明したように、本発明に係る音声認識方法は、ビ夕ビアルゴリズムによる照合過程において、登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算するため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が音響パラメ一夕系列に変換されたときには、その音響パラメ一夕系列に対し、不要語についての音声単位ラベル系列に対応する音響モデノレの尤度が大きく算出され、その尤度に基づいて前記登録語以外の音声を不要語として認識でき、前記登録語以外の音声が登録語として誤認識されることを防止できるまた、本発明に係るリモートコントロール装置は、利用者の音声に含まれる認識対象語を前記音声認識方法を用いて認識するため、認識対象語以外の発話や雑音、つまり生活雑音に対して、リジェクシヨン率が高く、誤動作、誤認識を防止することができる。

また、本発明に係る情報通信端末は、利用者の音声に含まれる登録語を ifS音声認識方法を用いて認識するため、生活雑音等の登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメ一夕系列に対し、不要語についての音声単位ラベル系列に対応する音響モデルの尤度が大きく算出され、その尤度に基づいて鍾 3登録語以外の音声を不要語として認識でき、当該登録語以外の音声が登録語として誤認識されることを防止でき、情報端末装置の誤動作を防止することができる。

また、本発明に係る電話通信端末は、常時音声認識を可能とする電話通信端末であって、発呼時、 «I舌番号を代表するキーワードや任意の電話番号のどちらを発話しても、誤認識が少なく、また、電話番号自体の認識においては、 1桁ずつの発話認識など、発呼者に発話制限をさせずに、連続番号発話で、認識できるようにし、さらに、受信時においても音声入力により、オフフックを可能とすることで、常時、送受信ともにハンズフリーの状態で電話操作が可能となる効果を有する。言いかえると、通信ュニットと音声認識ユニットとでそれぞれ独立した入出力系統を有しているため、利用者が通話中であって、その通話のために通信ュニットの入出力系統が専有されている場合であっても、利用者の音声を音声認識ュニヅトに入力でき、通信ュニヅトを御することができる。

また、本発明に係る音声認識装置は、登録語を認識可能な状態にあることを報知するため、利用者は適切なタイミングで登録語を発話することができ、登録語を容易に認識させることができる。

また、上記第 1実施形態と同様な音声認醒理を用いるため、上記第 1実施形態と同様に、登録語を含まない音声、つまり登録語以外の音声が利用者から発せられたときには、その音声の音響パラメ一夕系列に対し、不要語モデル 2 3の尤度が大きく算出され、登録語の語彙ネヅトワーク 2 2の尤度が小さく算出され、それらの尤度に基づいて編 3登録語以外の音声が不要語として認識され、当該登録語以外の音声が登録語として誤認識されることが防止され、電話通信端末の誤動作が防止される。

Claims

1 . 音声認識対象者の入力音声を音響パラメ一夕系列に変換し、その音響パラメ —夕系列と、登録語についての音声単位ラベル系列に対応する音響モデルとを、ビ夕ビアルゴリズムにより照合することにより音声認識を行う音声認識方法において、前記登録語についての音声単位ラベソレ系列と並列に登録語以外の不要語を認識するための音声単位ラペル系列を設け、前記ビ夕ビアルゴリズムによる照合過程において、前記登録語以外の不要語を認識するための音声単位ラベル系列の尤度も同時に演算することにより、不要語が入力音声として入力された場合に、前記不要語を不要語として認識させることを特徴とする音声認識方法。

2. 請求の範囲第 1項記載の音声認識方法において、前記音声単位ラベル系列に対応する音響モデルが隠れマルコフモデルを用いた音響モデルであり、かつ前記不要語を認識するための音声単位ラベル系列が、使用するすべての音声単位モデルを平準ィ匕した仮想的な音声単位モデルから成ることを特徴とする音声認識方法

3 . 請求の範囲第 1項記載の音声認識方法において、前記音声単位ラベル系列に対応する音響モデルが隠れマルコフモデルを用いた音響モデルであり、かつ前記不要語を認識するための音声単位ラベル系列が、母音だけの音素で構成される自己ループ型のネットワーク構成であることを觀とする音声認識方法。

4. 複数の操作対象を音声で遠隔操作できるリモートコントロール装置において、遠隔操作を指示する認識対象語を記憶する記憶手段と、利用者から発せられた音声を入力する音声入力手段と、利用者から発せられた音声に含まれる ΙίΤ 認識対象語を前記記憶手段に基づいて認識する音声認識手段と、その音声認識手段にて認識された認識対象語に対応する観制御信号を送信する送信手段とを備え、前記音声認識方法が請求の範囲第 1項乃至第 3項のいずれかに記載の音声認識方法を用いたことを特徴とするリモートコントロール装置。

5 . 請求の範囲第 4項記載のリモートコントロール装置において、利用者に通話させるための音声入力部を有し、且つ、 iI3音声認識手段で認識された認識対象語に基づいて通信回線への接続状態を制御する通信ュニヅトを備え、前記音声入力手段と iffil信ュニッ卜の音声入力部とを個別に設けたことを特徴とするリモ

—トコントロール装置。

6 . 請求の範囲第 4項及び第 5項記載のリモートコントロール装置において、更に、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも 1つを実行する制御手段を備えたことを特徴とするリモートコントロール装置。

7 . 利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声認識手段で認識された登録語に基づいて、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも 1つを実行する制御手段とを備え、前記音声認識手段は、編己音声検出手段で検出された音声に含まれる登録語を、請求の範囲第 1項乃至第 3項のいずれかに記載の音声認識方法を用いて認識することを特徴とする情報端末装置。

8 . 公衆舌回線網あるいはインターネヅト通信網に接続可能な電話通信端末において、音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、 St舌相手先の名前や離番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、編 3音声入出力手段は通信ュニットと音声認識ュニヅトとでそれぞれ独立した入出力系統を有していることを特徴とする電話通信端末。

9 . 公衆 mi舌回線網あるいはィン夕一ネット通信網に接続可能な電話通信端末であって、音声を入出力する音声入出力手段と、入力音声を認識する音声認識手段と、電話相手先の名前や電話番号を含む個人情報を記憶している記憶手段と、画面表示手段と、それぞれを制御する制御手段とを備え、擺 3記憶手段は予め登録された人名を含む特定の名称の名称語彙リストと任意の電話番号の番号語彙リストと通話中の電話操作の通話操作語彙リストと着信時の電話操作の着信操作語彙リス卜とを別々に備え、発信 .切断 .着信に関するすべての電話操作が tiff己音声認識手段、前記記憶手段、前記制御手段により音声入力で可能であることを ¾ とする電話通信端末。

1 0 . 請求の範囲第 8項又は第 9項記載の電話通信端末において、電話番号の認識方法が、全桁数の連続発話の入力によって備3記憶手段の番号語彙リスト、前記音声認識手段が任意の MIS番号を認識する番号語彙ネヅトワークを用いて所定の桁数の数字又は記号から成る数字列パターンを認識することを特徴とする

1 1 . 請求の範囲第 8項乃至第 1 0項のいずれかに記載の電話通信端末において、前言己画面表示手段が発話タイミングを知らせる発話タイミング表示機能を有していることを特徴する電話通信端末。

1 2. 請求の範囲第 8項乃至第 1 1項のいずれかに記載の電話通信端末において、前記音声認識手段で認識された入力音声に基づいて、音声によるメールの送受信処理、音声による予定管理処理、音声によるメモ処理及び音声による報知処理の少なくとも 1つを実行する第 2制御手段を備えたことを特徴とする電話通信装置。

1 3. 請求の範囲第 8項乃至第 1 2項のいずれかに記載の電話通信端末において、前記音声認識手段は、入力音声に含まれる登録語を、請求の範囲第 1項乃至第 3 項のいずれかに記載の音声認識方法を用いて認識することをとする舌通信端末。

1 4. 利用者の音声を検出する音声検出手段と、その音声検出手段で検出された音声に含まれる登録語を認識する音声認識手段と、その音声検出手段で登録語を認識可能な発話タイミングを報知する報知手段とを備えたことを特徴する音声認

1 5 . 請求の範囲第 1 4項に記載の音声認識装置において、前記音声検出手段で検出された音声の大きさを報知する音量報知手段を備えたことを特徴する音声認