JPWO2015162638A1

JPWO2015162638A1 - ユーザインターフェースシステム、ユーザインターフェース制御装置、ユーザインターフェース制御方法およびユーザインターフェース制御プログラム

Info

Publication number: JPWO2015162638A1
Application number: JP2016514543A
Authority: JP
Inventors: 平井　正人; 正人平井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-04-22
Filing date: 2014-04-22
Publication date: 2017-04-13
Anticipated expiration: 2034-04-22
Also published as: JP5968578B2; DE112014006614T5; US20170010859A1; CN106233246A; CN106233246B; DE112014006614B4; WO2015162638A1

Abstract

本発明は、音声入力を行うユーザの操作負荷を軽減することを目的とする。この目的を達成するため、本発明に係るユーザインターフェースシステムは、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定部３と、推定部３で推定された複数の音声操作の候補から１つの候補をユーザが選択するための候補選択部５と、ユーザが選択した候補についてユーザの音声入力を促すガイダンスを出力するガイダンス出力部７と、ガイダンスに対するユーザの音声入力に対応する機能を実行する機能実行部１０とを備える。

Description

本発明は、音声操作が可能なユーザインターフェースシステムおよびユーザインターフェース制御装置に関するものである。

音声操作が可能なユーザインターフェースを備えた機器には、通常、音声操作用のボタンが一つだけ用意されている。音声操作用のボタンを押下すると「ピッとなったらお話しください」というガイダンスが流れ、ユーザは発話（音声入力）をする。発話する場合には、予め決められた発話キーワードを、予め決められた手順で発話する。その際、機器の方から音声ガイダンスが流れ、何度か機器との対話を行って目的の機能を実行する。このような機器においては、発話キーワードや手順を覚えられなくて音声操作ができないという課題がある。また、機器との複数回の対話が必要で、操作完了まで時間がかかるという課題がある。
そこで、複数のボタンに、そのボタンの機能に関連する音声認識を紐付けることで、手順を覚えることなく、一回の発話で目的の機能を実行可能とするユーザインターフェースがある（特許文献１）。

WO２０１３／０１５３６４号公報

しかしながら、画面に表示されているボタンの数が音声操作の入り口の数であるという制約があるので、数多くの音声操作の入り口を並べることができないという課題がある。また、数多くの音声認識の入り口を並べた場合は、ボタンの数が多くなりすぎて目的のボタンを探しにくくなるという課題がある。

本発明は上記のような問題を解決するためになされたもので、音声入力を行うユーザの操作負荷を軽減することを目的とする。

この発明に係るユーザインターフェースシステムは、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定部と、推定部で推定された複数の音声操作の候補から１つの候補をユーザが選択するための候補選択部と、ユーザが選択した候補についてユーザの音声入力を促すガイダンスを出力するガイダンス出力部と、ガイダンスに対するユーザの音声入力に対応する機能を実行する機能実行部とを備えるものである。

この発明に係るユーザインターフェース制御装置は、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定部と、推定部で推定された複数の音声操作の候補からユーザの選択に基づき決定された１つの候補についてユーザの音声入力を促すガイダンスを生成するガイダンス生成部と、ガイダンスに対するユーザの音声入力を認識する音声認識部と、認識された音声入力に対応する機能を実行するよう指示情報を出力する機能決定部とを備えるものである。

この発明に係るユーザインターフェース制御方法は、現在の状況に関する情報に基づいてユーザの意図する音声操作を推定するステップと、推定ステップで推定された複数の音声操作の候補からユーザの選択に基づき決定された１つの候補についてユーザの音声入力を促すガイダンスを生成するステップと、ガイダンスに対するユーザの音声入力を認識するステップと、認識された音声入力に対応する機能を実行するよう指示情報を出力するステップとを備えるものである。

この発明に係るユーザインターフェース制御プログラムは、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定処理と、推定処理により推定された複数の音声操作の候補からユーザの選択に基づき決定された１つの候補についてユーザの音声入力を促すガイダンスを生成するガイダンス生成処理と、ガイダンスに対するユーザの音声入力を認識する音声認識処理と、認識された音声入力に対応する機能を実行するよう指示情報を出力する処理とをコンピュータに実行させるものである。

本発明によれば、状況に応じてユーザの意図に沿う音声操作の入り口を提供することにより、音声入力を行うユーザの操作負荷を軽減することができる。

実施の形態１におけるユーザインターフェースシステムの構成を示す図である。実施の形態１におけるユーザインターフェースシステムの動作を示すフローチャートである。実施の形態１における音声操作候補の表示例である。実施の形態１におけるユーザインターフェースシステムの操作例である。実施の形態２におけるユーザインターフェースシステムの構成を示す図である。実施の形態２におけるユーザインターフェースシステムの動作を示すフローチャートである。実施の形態２におけるユーザインターフェースシステムの操作例である。実施の形態２におけるユーザインターフェースシステムの別の構成を示す図である。実施の形態３におけるユーザインターフェースシステムの構成を示す図である。実施の形態３におけるキーワード知識の例を示す図である。実施の形態３におけるユーザインターフェースシステムの動作を示すフローチャートである。実施の形態３におけるユーザインターフェースシステムの操作例である。実施の形態４におけるユーザインターフェースシステムの構成を示す図である。実施の形態４におけるユーザインターフェースシステムの動作を示すフローチャートである。実施の形態４において推定される音声操作の候補と尤度の例である。実施の形態４における音声操作候補の表示例である。実施の形態４において推定される音声操作の候補と尤度の例である。実施の形態４における音声操作候補の表示例である。実施の形態１〜４におけるユーザインターフェース制御装置のハードウェア構成例を示す図である。

実施の形態１．
図１はこの発明の実施の形態１におけるユーザインターフェースシステムを示す図である。ユーザインターフェースシステム１は、ユーザインターフェース制御装置２と、候補選択部５と、ガイダンス出力部７と、機能実行部１０とを備えている。候補選択部５、ガイダンス出力部７および機能実行部１０は、ユーザインターフェース制御装置２により制御される。また、ユーザインターフェース制御装置２は、推定部３、候補決定部４、ガイダンス生成部６、音声認識部８、機能決定部９を有する。以下、ユーザインターフェースシステムが自動車の運転に用いられる場合を例に説明する。

推定部３は、現在の状況に関する情報を受け取り、現時点でユーザが行うであろう音声操作の候補、すなわちユーザの意図に沿う音声操作の候補を推定する。現在の状況に関する情報とは、例えば外部環境情報、履歴情報である。推定部３は、両方の情報を用いてもよいし、どちらか一方を用いてもよい。外部環境情報とは、自車の現在の車速やブレーキの状態等の車両情報、気温、現在時刻、現在位置などの情報である。車両情報はＣＡＮ（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）等を用いて取得される。また、気温は温度センサー等を用いて取得され、現在位置はＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）衛星から送信されるＧＰＳ信号により取得される。履歴情報とは、過去に、ユーザが目的地設定した施設、ユーザが操作したカーナビゲーション装置、オーディオ、エアコン、電話等の機器の設定情報、後述する候補選択部５でユーザが選択した内容、ユーザが音声入力した内容、後述する機能実行部１０で実行された機能等であり、それぞれの発生日時と位置情報等とともに記憶されている。したがって、推定部３は、履歴情報のうち現在時刻や現在位置に関連する情報を推定に利用する。このように、過去の情報であっても現在の状況に影響する情報は、現在の状況に関する情報に含まれる。履歴情報は、ユーザインターフェース制御装置内の記憶部に記憶されていてもよいし、サーバの記憶部に記憶されていてもよい。

候補決定部４は、推定部３により推定された複数の音声操作の候補から、候補選択部５により提示可能な数の候補を抽出し、抽出された候補を候補選択部５に出力する。なお、推定部３は、全ての機能についてユーザの意図に適合する確率を付与してもよい。この場合、候補決定部４は、確率の高い順に候補選択部５により提示可能な数の候補を抽出すればよい。また、推定部３が、提示する候補を直接候補選択部５に出力するようにしてもよい。候補選択部５は、候補決定部４から受け取った音声操作の候補をユーザに提示し、ユーザが希望する音声操作の対象を選択できるようにする。すなわち、候補選択部５は音声操作の入り口として機能する。以下、候補選択部５はタッチパネルディスプレイであるものとして説明する。例えば、候補選択部５に表示可能な候補の数が最大３つである場合には、推定部３により推定された候補の尤度の高い順に３つが表示される。推定部３により推定された候補が１つであれば、その１つの候補が候補選択部５に表示される。図３は、タッチパネルディスプレイに３つの音声操作の候補が表示された例である。図３（１）では「電話をかける」「目的地を設定する」「音楽を聴く」という３つの候補が表示され、図３（２）では「食事をする」「音楽を聴く」「遊園地へ行く」という３つの候補が表示されている。図３の例では、３つの候補が表示されるが、表示する候補の数、表示順序、レイアウトはどのようなものでもよい。

ユーザは、表示された候補の中から音声入力したい候補を選択する。選択の方法は、タッチパネルディスプレイに表示された候補をタッチして選択するようにすればよい。ユーザにより音声操作の候補が選択されると、候補選択部５は選択されたタッチパネルディスプレイ上の座標位置を候補決定部４に伝え、候補決定部４は座標位置と音声操作の候補とを対応付けて、音声操作を行う対象を決定する。なお、音声操作の対象の決定は、候補選択部５で行い、選択された音声操作の候補の情報を直接ガイダンス生成部６に出力するようにしてもよい。決定された音声操作対象は、時刻情報及び位置情報等とともに履歴情報として蓄積され、将来の音声操作の候補推定に用いられる。

ガイダンス生成部６は、候補選択部５で決定された音声操作の対象に合わせて、ユーザに音声入力を促すガイダンスを生成する。ガイダンスは具体的な質問形式であることが望ましく、ユーザがその質問に答えることにより、音声入力が可能となる。ガイダンスの生成の際には、候補選択部５に表示される音声操作の候補毎に予め決められた音声ガイダンス、表示ガイダンスまたは効果音が記憶されたガイダンス辞書を用いる。ガイダンス辞書は、ユーザインターフェース制御装置内の記憶部に記憶されていてもよいし、サーバの記憶部に記憶されていてもよい。

ガイダンス出力部７は、ガイダンス生成部６で生成されたガイダンスを出力する。ガイダンス出力部７は、音声でガイダンスを出力するスピーカでもよいし、文字でガイダンスを出力する表示部でもよい。または、スピーカと表示部の両方を用いてガイダンスを出力してもよい。文字でガイダンスを出力する場合には、候補選択部５であるタッチパネルディスプレイをガイダンス出力部７として用いてもよい。例えば、図４（１）に示すように、音声操作の対象として「電話をかける」が選択された場合、「誰に電話をかけますか？」という誘導音声ガイダンスを出力したり、画面に「誰に電話をかけますか？」と表示したりする。ユーザは、ガイダンス出力部７から出力されたガイダンスに対して、音声入力を行う。例えば、「誰に電話をかけますか？」というガイダンスに対して「山田さん」と発話する。

音声認識部８は、ガイダンス出力部７のガイダンスに対してユーザが発話した内容を音声認識する。このとき、音声認識部８は音声認識辞書を用いて音声認識を行う。音声認識辞書は１つでもよいし、候補決定部４で決定された音声操作の対象に合わせて辞書を切り替えてもよい。辞書を切り替えたり絞り込んだりすることにより、音声認識率が向上する。辞書を切り替えたり絞り込んだりする場合、候補決定部４で決定された音声操作の対象に関する情報が、ガイダンス生成部６だけでなく音声認識部８にも入力される。音声認識辞書は、ユーザインターフェース制御装置内の記憶部に記憶されていてもよいし、サーバの記憶部に記憶されていてもよい。

機能決定部９は、音声認識部８で認識された音声入力に対応する機能を決定し、その機能を実行するよう、機能実行部１０に指示情報を送る。機能実行部１０とは、車内のカーナビゲーション装置、オーディオ、エアコン、電話等の機器であり、機能とは、これらの機器が実行する何らかの機能である。例えば、音声認識部８が「山田さん」というユーザの音声入力を認識した場合、「山田さんに電話をかける」という機能を実行するよう、機能実行部１０の１つである電話機に指示情報を送信する。実行された機能は、時刻情報及び位置情報等とともに履歴情報として蓄積され、将来の音声操作の候補推定に用いられる。

図２は、実施の形態１におけるユーザインターフェースシステムの動作を説明するフローチャートである。フローチャート中、少なくともＳＴ１０１およびＳＴ１０５の動作は、ユーザインターフェース制御装置の動作（すなわち、ユーザインターフェース制御プログラムの処理手順）である。図１〜図３を用いてユーザインターフェース制御装置およびユーザインターフェースシステムの動作について説明する。

推定部３は、現在の状況に関する情報（外部環境情報、操作履歴等）を用いて、ユーザが行うであろう音声操作、すなわちユーザがやりたいであろう音声操作の候補を推定する（ＳＴ１０１）。この推定の動作は、例えばユーザインターフェースシステムを車載装置として使用する場合には、エンジンの始動から開始し、例えば数秒毎に定期的に行ってもよいし、外部環境が変わったタイミングで行ってもよい。推定する音声操作としては、例えば次のような例がある。仕事を終えて帰宅するときに会社の駐車場からよく電話をかける人の場合、現在地が「会社の駐車場」で、現在時刻が「夜」という状況で、「電話をかける」という音声操作を推定する。推定部３は、複数の音声操作の候補を推定してもよい。例えば、帰宅するときによく電話をかけたり、目的地を設定したり、ラジオを聴いたりする人の場合、「電話をかける」「目的地を設定する」「音楽を聴く」という機能を確率の高い順に推定する。

候補選択部５は、候補決定部４または推定部３から、提示する音声操作の候補の情報を取得し、提示する（ＳＴ１０２）。具体的には、例えばタッチパネルディスプレイに表示する。図３は、３つの機能候補を表示する例である。図３（１）は、上記の「電話をかける」「目的地を設定する」「音楽を聴く」という機能を推定した場合の表示例である。また、図３（２）は、例えば、「休日」「午前１１時」という状況で、「食事をする」「音楽を聴く」「遊園地へ行く」という音声操作の候補を推定した場合の表示例である。

次に、候補決定部４または候補選択部５は、表示された音声操作の候補の中でユーザが選択した候補が何かを判断し、音声操作の対象を決定する（ＳＴ１０３）。

次に、ガイダンス生成部６は、候補決定部４が決定した音声操作の対象に合わせて、ユーザに音声入力を促すガイダンスを生成する。そして、ガイダンス出力部７は、ガイダンス生成部６で生成されたガイダンスを出力する（ＳＴ１０４）。図４は、ガイダンス出力の例を示す。例えば、図４（１）に示すように、ＳＴ１０３でユーザが行うであろう音声操作として「電話をかける」という音声操作が決定された場合は、「誰に電話をかけますか？」という音声によるガイダンス、または表示によるガイダンスを出力する。または、図４（２）に示すように、「目的地を設定する」という音声操作が決定された場合は、「どこへ行きますか？」というガイダンスが出力される。このように、音声操作の対象が具体的に選択されるため、ガイダンス出力部７はユーザに対して具体的なガイダンスを提供することができる。

図４（１）に示すように、「誰に電話をかけますか？」というガイダンスに対して、ユーザは例えば「山田さん」と音声入力する。また、図４（２）に示すように、「どこへ行きますか？」というガイダンスに対して、ユーザは例えば「東京駅」と音声入力する。ガイダンスの内容は、そのガイダンスに対するユーザの応答が機能の実行に直接つながる問いかけが望ましい。「ピッとなったらお話しください」という大雑把なガイダンスではなく「誰に電話をかけますか？」「どこへ行きますか？」と具体的に問いかけられるため、ユーザは何を話せばよいか分かりやすく、選択した音声操作に関する音声入力がしやすくなる。

音声認識部８は、音声認識辞書を用いて音声認識を行う（ＳＴ１０５）。このとき、使用する音声認識辞書をＳＴ１０３で決定された音声操作に関連する辞書に切り替えてもよい。例えば、「電話をかける」という音声操作が選択された場合には、電話番号が登録されている人の名字および施設の名称等、「電話」に関連する言葉が記憶された辞書に切り替えてもよい。

機能決定部９は、認識された音声に対応する機能を決定し、その機能を実行するよう機能実行部１０に指示信号を送信する。そして、機能実行部１０は、指示情報に基づき機能を実行する（ＳＴ１０６）。例えば、図４（１）の例において、「山田さん」という音声が認識されると、「山田さんに電話をかける」という機能が決定され、機能実行部１０の１つである電話機により、電話帳に登録された山田さんに電話がかけられる。また、図４（２）の例においては、「東京駅」という音声が認識されると、「東京駅までのルートを検索する」という機能が決定され、機能実行部１０の１つであるカーナビゲーション装置により東京駅までのルート検索が行われる。なお、山田さんに電話をかけるという機能が実行されるとき、「山田さんに電話をかけます」と音声や表示により機能の実行をユーザに知らせるようにしてもよい。

上記説明では、候補選択部５はタッチパネルディスプレイであり、推定された音声操作の候補をユーザに知らせる提示部とユーザが１つの候補を選択するための入力部とが一体であるものとしたが、候補選択部５の構成はこれに限られない。以下のように、推定された音声操作の候補をユーザに知らせる提示部とユーザが１つの候補を選択するための入力部とを別体として構成してもよい。例えば、ディスプレイに表示された候補をジョイスティック等でカーソル操作して選択するようにしてもよい。この場合、提示部であるディスプレイと入力部であるジョイスティック等が候補選択部５を構成する。また、ディスプレイに表示された候補に対応するハードボタンをハンドル等に設け、そのハードボタンを押すことにより選択するようにしてもよい。この場合は、提示部であるディスプレイと入力部であるハードボタンとが候補選択部５を構成する。また、表示された候補をジェスチャ操作によって選択するようにしてもよい。この場合には、ジェスチャ操作を検知するカメラ等が入力部として候補選択部５に含まれる。さらに、推定された音声操作の候補をスピーカから音声で出力し、ユーザにボタン操作、ジョイスティック操作または音声操作によって選択させてもよい。この場合、提示部であるスピーカと入力部であるハードボタン、ジョイスティックまたはマイクが候補選択部５を構成する。ガイダンス出力部７がスピーカであれば、そのスピーカを候補選択部５の提示部として用いることもできる。

また、ユーザが音声操作の候補を選択した後で誤操作に気付いた場合、提示されていた複数の候補から改めて選択し直すことも可能である。例えば、図４に示す３つの候補が提示された場合の例を説明する。「目的地設定」の機能を選択して、「どこへ行きますか？」と音声ガイダンスが出力された後でユーザが誤操作に気付いた場合、同じ３つの候補から改めて「音楽を聴く」を選択することが可能である。２度目の選択に対し、ガイダンス生成部６は、「何を聴きますか？」というガイダンスを生成する。ガイダンス出力部７から出力される「何を聴きますか？」というガイダンスに対し、ユーザは音楽再生についての音声操作を行う。音声操作の候補を選択し直せることは、以下の実施の形態においても同様である。

以上のように、実施の形態１におけるユーザインターフェースシステムおよびユーザインターフェース制御装置によれば、状況に応じてユーザの意図に沿う音声操作の候補、すなわち音声操作の入り口を提供することができ、音声入力を行うユーザの操作負荷が軽くなる。また、細分化された目的に対応する多くの音声操作の候補を準備できるため、ユーザの様々な目的に幅広く対応できる。

実施の形態２．
上記実施の形態１においては、ガイダンス出力部７から出力されるガイダンスに対するユーザの音声入力１回でユーザが希望する機能を実行する例を説明した。実施の形態２においては、音声認識部８による認識結果が複数である場合、または認識された音声に対応する機能が複数ある場合等、ユーザの音声入力１回で実行する機能を決定できない場合にも、簡単な操作で機能の実行を可能とするユーザインターフェース制御装置およびユーザインターフェースシステムについて説明する。

図５はこの発明の実施の形態２におけるユーザインターフェースシステムを示す図である。実施の形態２におけるユーザインターフェース制御装置２は、音声認識部８による音声認識の結果、実行する機能が１つに特定可能か否かを判断する認識判断部１１を有する。また、実施の形態２におけるユーザインターフェースシステム１は、音声認識の結果抽出された複数の機能候補をユーザに提示し、ユーザに選択させるための機能候補選択部１２を有する。以下、機能候補選択部１２はタッチパネルディスプレイであるものとして説明する。その他の構成は、図１に示す実施の形態１における構成と同じである。

本実施の形態について、主に実施の形態１と異なる点を説明する。認識判断部１１は、音声認識をした結果、認識された音声入力が機能実行部１０により実行される１つの機能に対応するか否か、すなわち、認識された音声入力に対応する機能が複数あるか否かを判断する。例えば、認識された音声入力が１つか複数かを判断する。また、認識された音声入力が１つの場合、その音声入力に対応する機能が１つか複数かを判断する。

認識された音声入力が１つであって、その音声入力に対応する機能が１つである場合は、その認識判断の結果を機能決定部９へ出力し、機能決定部９は認識された音声入力に対応する機能を決定する。この場合の動作は、上記実施の形態１と同様である。

一方、音声認識の結果が複数の場合は、認識判断部１１はその認識結果を機能候補選択部１２へ出力する。また、音声認識の結果が１つの場合であっても認識された音声入力に対応する機能が複数ある場合は、その判断結果（各機能に対応する候補）を機能候補選択部１２へ送信する。機能候補選択部１２は、認識判断部１１で判断された複数の候補を表示する。表示された複数の候補からユーザが１つを選択すると、選択された候補は機能決定部９へ送信される。選択の方法は、タッチパネルディスプレイに表示された候補をタッチして選択するようにすればよい。この場合、候補選択部５は、ユーザが表示された候補をタッチすることにより音声入力を受け付ける音声操作の入り口の機能を有していたが、機能候補選択部１２は、ユーザのタッチ操作が直接機能の実行に結びつく手操作入力部の機能を有する。機能決定部９は、ユーザにより選択された候補に対応する機能を決定し、その機能を実行するよう、機能実行部１０に指示情報を送る。

例えば、図４（１）に示すように、「誰に電話をかけますか？」というガイダンスに対して、ユーザが例えば「山田さん」と音声入力した場合について説明する。音声認識部８の認識の結果、例えば「山田さん」「山名さん」「ヤマサ」の３つの候補が抽出された場合、実行する１つの機能が特定されない。そこで、音声判断部１１は上記の３つの候補を機能候補選択部１２に表示するよう、機能候補選択部１２に指示信号を送信する。また、音声認識部８が「山田さん」と認識した場合でも、電話帳に複数の「山田さん」、例えば「山田太郎」「山田今日子」「山田厚」が登録されていて一人に絞れない場合がある。つまり、「山田さん」に対応する機能として、「山田太郎さんに電話をかける」「山田今日子さんに電話をかける」「山田厚さんに電話をかける」という複数の機能が存在する場合である。このような場合には、音声判断部１１は「山田太郎」「山田今日子」「山田厚」という候補を機能候補選択部１２に表示するよう、機能候補選択部１２に指示信号を送信する。

ユーザの手操作により、機能候補選択部１２に表示された複数の候補から１つが選択されると、機能決定部９は選択された候補に対応する機能を決定し、機能実行部１０に機能の実行を指示する。なお、実行する機能の決定は、機能候補選択部１２において行い、機能候補選択部１２から直接機能実行部１０に指示情報を出力するようにしてもよい。例えば、「山田太郎」が選択されると、山田太郎さんに電話がかけられる。

図６は、実施の形態２におけるユーザインターフェースシステムのフローチャートである。フローチャート中、少なくともＳＴ２０１、ＳＴ２０５およびＳＴ２０６の動作は、ユーザインターフェース制御装置の動作（すなわち、ユーザインターフェース制御プログラムの処理手順）である。図６において、ＳＴ２０１〜ＳＴ２０４は、実施の形態１を説明する図２のＳＴ１０１〜ＳＴ１０４と同様であるため、説明を省略する。

ＳＴ２０５において、音声認識部８は、音声認識辞書を用いて音声認識を行う。認識判断部１１は、認識された音声入力が機能実行部１０により実行される１つの機能に対応するか否かを判断する（ＳＴ２０６）。認識された音声入力が１つであって、その音声入力に対応する機能が１つである場合は、認識判断部１１はその認識判断の結果を機能決定部９へ送信し、機能決定部９は認識された音声入力に対応する機能を決定する。機能実行部１０は、機能決定部９で決定された機能に基づき機能を実行する（ＳＴ２０７）。

認識判断部１１が、音声認識部８における音声入力の認識結果が複数あると判断した場合、または認識された１つの音声入力に対応する機能が複数あると判断した場合は、複数の機能に対応する候補を機能候補選択部１２により提示する（ＳＴ２０８）。具体的には、タッチパネルディスプレイに表示する。機能候補選択部１２に表示された候補の中からユーザの手操作により１つの候補が選択されると、機能決定部９は実行する機能を決定し（ＳＴ２０９）、機能実行部１０は機能決定部９からの指示に基づき機能を実行する（ＳＴ２０７）。なお、上述のとおり、実行する機能の決定は、機能候補選択部１２において行い、機能候補選択部１２から直接機能実行部１０に指示情報を出力するようにしてもよい。音声操作と手操作とを併用することにより、ユーザと機器との間で音声だけの対話を繰り返すよりも、より早く確実に目的の機能を実行することができる。

例えば、図７に示すように、「誰に電話をかけますか？」というガイダンスに対して、ユーザが「山田さん」と音声入力した場合、音声認識の結果、機能が１つに特定できる場合には、「山田さんに電話をかける」という機能が実行され、「山田さんに電話をかけます」という表示や音声が出力される。また、音声認識の結果、「山田さん」「山名さん」「ヤマサ」の３つの候補が抽出された場合、その３つの候補を表示する。ユーザが「山田さん」を選択すると、「山田さんに電話をかける」という機能が実行され、「山田さんに電話をかけます」という表示や音声が出力される。

上記説明では、機能候補選択部１２はタッチパネルディスプレイであり、機能の候補をユーザに知らせる提示部とユーザが１つの候補を選択するための入力部とが一体であるものとしたが、機能候補選択部１２の構成はこれに限られない。候補選択部５と同様に、機能の候補をユーザに知らせる提示部とユーザが１つの候補を選択するための入力部とを別体として構成してもよい。例えば、提示部としてはディスプレイに限らずスピーカであってもよく、入力部としてはジョイスティック、ハードボタンまたはマイクであってもよい。

また、図５を用いた上記の説明では、音声操作の入り口である候補選択部５と、ガイダンス出力部７と、ユーザが実行したい機能を最終的に選択するための機能候補選択部１２とを別々に設けたが、１つの表示部（タッチパネルディスプレイ）としてもよい。図８は、１つの表示部１３に、音声操作の入り口の役割と、ガイダンス出力の役割と、最終的に機能を選択するための手操作入力部の役割を持たせた場合の構成図である。すなわち、表示部１３が候補選択部、ガイダンス出力部および機能候補出力部に相当する。１つの表示部１３を用いる場合、表示された項目がどのような操作の対象であるかを示すことにより、ユーザの使い勝手が向上する。例えば、音声操作の入り口として機能する場合には、表示項目の前にマイクのアイコンを表示する。図３および図４における３つの候補の表示が音声操作の入り口として機能する場合の表示例である。また、図７における３つの候補の表示は、マイクのアイコンがない手操作入力のための表示例である。

また、ガイダンス出力部をスピーカとし、候補選択部５と機能候補選択部１２とを１つの表示部（タッチパネルディスプレイ）で構成してもよい。さらに、候補選択部５と機能候補選択部１２とを１つの提示部と１つの入力部とで構成してもよい。この場合、１つの提示部により音声操作の候補と実行する機能の候補が提示され、１つの入力部を用いて、ユーザが音声操作の候補を選択し、実行する機能を選択する。

また、機能候補選択部１２は、ユーザの手操作により機能の候補を選択するように構成したが、表示された機能の候補または音声出力された機能の候補から、ユーザが希望する機能を音声操作で選択するように構成してもよい。例えば、「山田太郎」「山田今日子」「山田厚」という機能の候補が提示された場合に、「山田太郎」と音声入力したり、それぞれの候補に「１」「２」「３」等の番号を対応付けて、「１」と音声入力したりすることにより、「山田太郎」を選択する構成としてもよい。

以上のように、実施の形態２におけるユーザインターフェースシステムおよびユーザインターフェース制御装置によれば、１回の音声入力により目的の機能が特定できない場合であっても、機能の候補を提示して、ユーザが選択できるようにすることにより、簡単な操作で目的の機能を実行することができる。

実施の形態３．
ユーザが発話したキーワードが幅広い意味のキーワードであった場合、機能が特定できず実行できなかったり、多くの機能候補を表示して選択に時間がかかってしまったりする。例えば、「どこへ行きますか？」という問いに対して、ユーザが「アミューズメントパーク」と発話した場合、「アミューズメントパーク」に属する施設は多数あるため、特定することができない。また、多数のアミューズメントパークの施設名を候補として表示するとユーザが選択するのに時間がかかる。そこで、ユーザの発話したキーワードが幅広い意味の言葉であった場合に、意図推定技術を利用してユーザが行いたいであろう音声操作の候補を推定し、推定した結果を音声操作の候補、すなわち音声操作の入り口として具体的に提示し、次の発話で目的の機能を実行できるようにすることが本実施の形態の特徴である。

本実施の形態について、主に上記実施の形態２と異なる点を説明する。図９は、本実施の形態３におけるユーザインターフェースシステムの構成図である。上記実施の形態２との主な相違点は、認識判断部１１がキーワード知識１４を用い、認識判断部１１の判断の結果に応じて、再度推定部３を用いて音声操作の候補を推定する点である。以下、候補選択部１５はタッチパネルディスプレイであるものとして説明する。

認識判断部１１は、キーワード知識１４を用いて、音声認識部８で認識されたキーワードが上位階層のキーワードか下位階層のキーワードかを判断する。キーワード知識１４には、例えば図１０の表のような言葉が記憶されている。例えば、上位階層のキーワードとして「テーマパーク」があり、テーマパークの下位階層のキーワードとして「遊園地」「動物園」「水族館」などが関連付けされている。また、上位階層のキーワードとして「食事」「ごはん」「お腹が空いた」があり、テーマパークの下位階層のキーワードとして「うどん」「中華」「ファミリーレストラン」などが関連付けされている。

例えば、１回目の音声入力について認識判断部１１が「テーマパーク」と認識した場合、「テーマパーク」は上位階層の言葉であるため、「テーマパーク」に対応する下位階層のキーワードである「遊園地」「動物園」「水族館」「博物館」などの言葉を推定部３に送る。推定部３は、外部環境情報および履歴情報を利用して、認識判断部１１から受信した「遊園地」「動物園」「水族館」「博物館」などの言葉からユーザが実行したいであろう機能に対応する言葉を推定する。推定により得られた言葉の候補は、機能選択部１５に表示される。

一方、認識判断部１１が、音声認識部８で認識されたキーワードが最終的な実行機能に結びつく下位階層の言葉であると判断した場合には、その言葉は機能決定部９に送られ、機能実行部１０によりその言葉に対応する機能が実行される。

図１１は、実施の形態３におけるユーザインターフェースシステムの動作を示すフローチャートである。フローチャート中、少なくともＳＴ３０１、ＳＴ３０５、ＳＴ３０６およびＳＴ３０８の動作は、ユーザインターフェース制御装置の動作（すなわち、ユーザインターフェース制御プログラムの処理手順）である。状況に応じてユーザがやりたいであろう音声操作、すなわちユーザの意図に沿う音声操作を推定し、推定した音声操作の候補を提示し、ユーザにより選択された音声操作に関するガイダンス出力を行う動作ＳＴ３０１〜ＳＴ３０４は、上記実施の形態１、２と同じである。また、図１２は、本実施の形態３における表示例を示す図である。以下、主に実施の形態１、２と異なるＳＴ３０５以降の動作、すなわちガイダンス出力に対するユーザの発話を音声認識する動作以降の動作について、図９〜図１２を用いて説明する。

まず、図１２に示すように、ＳＴ３０１で推定されてＳＴ３０２で候補選択部１５に表示された音声操作の候補が「電話をかける」「目的地を設定する」「音楽を聴く」の３つであったとする。ユーザが「目的地を設定する」を選択すると音声操作の対象が決定され（ＳＴ３０３）、ガイダンス出力部７は、「どこへ行きますか？」と音声によりユーザに問いかける（ＳＴ３０４）。このガイダンスに対してユーザが「テーマパーク」と音声入力すると、音声認識部８が音声認識を行う（ＳＴ３０５）。認識判断部１１は音声認識部８から認識結果を受け取り、キーワード知識１３を参照して、認識結果が上位階層のキーワードか下位階層のキーワードかを判断する（ＳＴ３０６）。上位階層のキーワードであると判断した場合にはＳＴ３０８に進む。一方、下位階層のキーワードであると判断した場合にはＳＴ３０７に進む。

例えば、音声認識部８が「テーマパーク」と認識したとする。図１０に示すように、「テーマパーク」は上位階層のキーワードであるため、認識判断部１１は、「テーマパーク」に対応する下位階層のキーワード「遊園地」「動物園」「水族館」「博物館」などを推定部３に送る。推定部３は、外部環境情報および履歴情報を用いて、認識判断部１１から受け取った「遊園地」「動物園」「水族館」「博物館」などの下位階層の複数のキーワードからユーザがやりたいであろう音声操作の候補を推定する（ＳＴ３０８）。なお、外部環境情報および履歴情報のうちどちらか一方を利用してもよい。

候補選択部１５は、推定された音声操作の候補を提示する（ＳＴ３０９）。例えば、図１２に示すように「動物園へ行く」「水族館へ行く」「遊園地へ行く」の３つの項目を音声操作の入り口として表示する。候補決定部４は、ユーザの選択に基づき、提示された音声操作候補の中から音声操作を行う対象を決定する（ＳＴ３１０）。なお、音声操作の対象の決定は、候補選択部１５で行い、選択された音声操作の候補の情報を直接ガイダンス生成部６に出力するようにしてもよい。次に、ガイダンス生成部６は決定された音声操作の対象に対応するガイダンスを生成し、ガイダンス出力部７はガイダンスを出力する。例えば、ユーザが提示された項目から「遊園地へ行く」を選択したと判断した場合、「どの遊園地へ行きますか」と音声によりガイダンスを出力する（ＳＴ３１１）。このガイダンスに対するユーザの発話を音声認識部８が認識する（ＳＴ３０５）。このように、ユーザの意図に沿う音声操作の候補を再度推定して候補を絞り込み、より具体的にユーザのやりたいことを問いかけることができるため、ユーザは音声入力しやすく、何度も音声入力することなく目的の機能を実行することができる。

音声認識部８が認識した結果が実行可能な下位階層のキーワードであれば、そのキーワードに対応する機能を実行する（ＳＴ３０７）。例えば、「どの遊園地へ行きますか」というガイダンスに対して、ユーザが「日本遊園地」と発話した場合、機能実行部１０であるカーナビゲーション装置により「日本遊園地」へのルートを検索する等の機能を実行する。

ＳＴ３０９で候補決定部４が決定した音声操作の対象、およびＳＴ３０７で機能実行部１０により実行された機能は、時刻情報及び位置情報等とともに履歴情報としてデータベース（図示せず）に蓄積され、将来の音声操作の候補推定に用いられる。

図１１のフローチャートでは省略したが、認識判断部１１が、音声認識部８で認識されたキーワードが下位階層の言葉であるものの、最終的な実行機能に結びつかないと判断した場合には、上記実施の形態２と同様に、ユーザに最終的な実行機能を選択させるための機能の候補を候補選択部１５に表示し、ユーザの選択により機能を決定するようにすればよい（図６のＳＴ２０８、ＳＴ２０９）。例えば、「日本遊園地」に似た名称の遊園地が複数あり音声認識部８により１つの候補に絞れない場合、または認識された１つの候補に対応する機能がルートの検索や駐車場の検索等、複数あると判断した場合は、最終的な機能に結びつく候補を候補選択部１５に表示する。そして、ユーザの操作により１つの機能の候補を選択することにより、実行する機能を決定する。

図９においては、１つの候補選択部１５により音声操作候補の選択と機能の候補の選択とを行う構成としたが、図５のように音声操作候補を選択するための候補選択部５と、音声入力後に機能の候補を選択するための機能候補選択部１２とを別々に設ける構成でもよい。また、図８のように、１つの表示部１３に音声操作の入り口の役割と手操作入力部の役割とガイダンス出力の役割とを持たせてもよい。

また、上記説明では、候補選択部１５はタッチパネルディスプレイであり、推定された音声操作の候補をユーザに知らせる提示部とユーザが１つの候補を選択するための入力部とが一体であるものとしたが、候補選択部１５の構成はこれに限られない。実施の形態１において説明したとおり、推定された音声操作の候補をユーザに知らせる提示部とユーザが１つの候補を選択するための入力部とを別体として構成してもよい。例えば、提示部としてはディスプレイに限らずスピーカであってもよく、入力部としてはジョイスティック、ハードボタンまたはマイクであってもよい。

また、上記説明では、キーワード知識１４はユーザインターフェース制御装置内に記憶されるものとしたが、サーバの記憶部に記憶されるものとしてもよい。

以上のように、実施の形態３におけるユーザインターフェースシステムおよびユーザインターフェース制御装置によれば、ユーザが音声入力したキーワードが幅広い意味のキーワードであっても、ユーザの意図に沿う音声操作の候補を再度推定して候補を絞り込み、ユーザに提示することにより、音声入力を行うユーザの操作負荷を軽減することができる。

実施の形態４．
上記各実施の形態においては、推定部３が推定した音声操作の候補をユーザに提示するように構成したが、推定部３が推定した音声操作の候補の尤度がどれも低い場合には、ユーザの意図に一致する確率の低い候補が提示されてしまうことになる。そこで、本実施の形態４においては、推定部３が決定した各候補の尤度が低い場合に、上位概念化して提示することとしたものである。

本実施の形態について、主に上記実施の形態１と異なる点を説明する。図１３は、本実施の形態４におけるユーザインターフェースシステムの構成図である。上記実施の形態１との相違点は、推定部３がキーワード知識１４を用いる点である。その他の構成は、実施の形態における構成と同じである。キーワード知識１４は、上記実施の形態３におけるキーワード知識１４と同じである。なお、図１に示すように、以下の説明では、実施の形態１における推定部３がキーワード知識１４を用いるものとして説明するが、実施の形態２および実施の形態３における推定部３（図５、８、９における推定部３）がキーワード知識１４を用いる構成としてもよい。

推定部３は、外部環境情報、履歴情報等の現在の状況に関する情報を受け取り、現時点でユーザが行うであろう音声操作の候補を推定する。推定により抽出された各候補の尤度が低い場合、それらの上位階層の音声操作の候補の尤度が高ければ、推定部３はその上位階層の音声操作の候補を候補決定部４に送信する。

図１４は、実施の形態４におけるユーザインターフェースシステムのフローチャートである。フローチャート中、少なくともＳＴ４０１〜ＳＴ４０３、ＳＴ４０６、ＳＴ４０８およびＳＴ４０９の動作は、ユーザインターフェース制御装置の動作である（すなわち、ユーザインターフェース制御プログラムの処理手順）。また、図１５〜図１８は、推定される音声操作の候補の例である。図１３〜図１８、およびキーワード知識１４を示す図１０を用いて、実施の形態４の動作について説明する。

推定部３は、現在の状況に関する情報（外部環境情報、操作履歴等）を用いて、ユーザが行うであろう音声操作の候補を推定する（ＳＴ４０１）。次に、推定部３は、推定された各候補の尤度を抽出する（ＳＴ４０２）。各候補の尤度が高ければ、ＳＴ４０４に進み、候補決定部４は、候補選択部５に提示された音声操作の候補の中からユーザが選択した候補が何かを判断し、音声操作の対象を決定する。なお、音声操作の対象の決定は、候補選択部５で行い、選択された音声操作の候補の情報を直接ガイダンス生成部６に出力するようにしてもよい。ガイダンス出力部７は、決定された音声操作の対象に合わせて、ユーザに音声入力を促すガイダンスを出力する（ＳＴ４０５）。音声認識部８はガイダンスに対してユーザが入力した音声を認識し（ＳＴ４０６）、機能実行部１０は認識された音声に対応する機能を実行する（ＳＴ４０７）。

一方、ＳＴ４０３で推定部３が、推定された各候補の尤度が低いと判断した場合は、ＳＴ４０８に進む。例えば、図１５に示すような候補が推定された場合である。図１５は、各候補の尤度が高い順に並べた表である。「中華料理へ行く」という候補の尤度は１５％、「イタリア料理へ行く」という候補の尤度は１４％、「電話をかける」という候補の尤度は１３％であり、各候補の尤度は低いため、例えば図１６に示すようにこれらの候補を尤度の高い順に表示しても、ユーザが音声操作したいことに一致する確率は低い。

そこで、本実施の形態４では、推定された各候補の上位階層の音声操作の尤度を算出する。算出の方法としては、例えば、同じ上位階層の音声操作に属する下位階層の候補の尤度を合計する。例えば、図１０に示すように、「中華料理」「イタリア料理」「フランス料理」「ファミリーレストラン」「カレー」「焼き肉」という候補の上位階層は「食事」であり、下位階層の候補の尤度を合計すると、上位階層の音声操作の候補である「食事」の尤度は６７％である。この算出結果に基づき、推定部３は、上位階層の音声操作を含めた候補を推定する（ＳＴ４０９）。上記の例では、推定部３は、図１７に示すように、尤度の高い順に、「食事へ行く」（尤度６７％）、「電話をかける」（尤度１３％）、「音楽を聴く」（１０％）と推定する。この推定結果は例えば図１８に示すように候補選択部５に表示され、ユーザの選択に基づき候補決定部４または候補選択部５により音声操作の対象が決定される（ＳＴ４０４）。ＳＴ４０５以降の動作については、上記の各候補の尤度が高い場合の動作と同じであるため、説明を省略する。

なお、上記説明では、キーワード知識１４はユーザインターフェース制御装置内に記憶されるものとしたが、サーバの記憶部に記憶されるものとしてもよい。

以上のように、この実施の形態４におけるユーザインターフェースシステムおよびユーザインターフェース制御装置によれば、ユーザの意図に一致する確率の高い上位概念の音声操作の候補が提示されるため、より確実に音声入力を行うことができる。

図１９は、実施の形態１〜４におけるユーザインターフェース制御装置２のハードウェア構成の一例を示す図である。ユーザインターフェース制御装置２はコンピュータであり、記憶装置２０、制御装置３０、入力装置４０、出力装置５０といったハードウェアを備えている。ハードウェアは、ユーザインターフェース制御装置２の各部（推定部３、候補決定部４、ガイダンス生成部６、音声認識部８、機能決定部９、認識判断部１１）によって利用される。

記憶装置２０は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）である。サーバの記憶部と、ユーザインターフェース制御装置２の記憶部は、記憶装置２０により実装することができる。記憶装置２０には、プログラム２１、ファイル２２が記憶されている。プログラム２１には、各部の処理を実行するプログラムが含まれる。ファイル２２には、各部によって入力、出力、演算等が行われるデータ、情報、信号等が含まれる。また、キーワード知識１４もファイル２２に含まれる。また、履歴情報、ガイダンス辞書または音声認識辞書をファイル２２に含めてもよい。

処理装置３０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）である。処理装置３０は、記憶装置２０からプログラム２１を読み出し、プログラム２１を実行する。ユーザインターフェース制御装置２の各部の動作は、処理装置３０により実装することができる。

入力装置４０は、ユーザインターフェース制御装置２の各部によってデータ、情報、信号等の入力（受信）のために利用される。また、出力装置５０は、ユーザインターフェース制御装置２の各部によってデータ、情報、信号等の出力（送信）のために利用される。

１ユーザインターフェースシステム、２ユーザインターフェース制御装置、３推定部、４候補決定部、５候補選択部、６ガイダンス生成部、７ガイダンス出力部、８音声認識部、９機能決定部、１０機能実行部、１１認識判断部、１２機能候補選択部、１３表示部、１４キーワード知識、１５候補選択部、２０記憶装置、２１プログラム、２２ファイル、３０処理装置、４０入力装置、５０出力装置。

この発明に係るユーザインターフェースシステムは、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定部と、推定部で推定された複数の音声操作の候補から１つの候補をユーザが選択するための候補選択部と、ユーザが選択した候補についてユーザの音声入力を促すガイダンスを出力するガイダンス出力部と、ガイダンスに対するユーザの音声入力に対応する機能を実行する機能実行部とを備え、推定部は、推定された複数の音声操作の候補の尤度が低い場合に、複数の候補の上位概念の音声操作の候補を推定結果として候補選択部に出力し、候補選択部は、上位概念の音声操作の候補を提示するものである。

この発明に係るユーザインターフェース制御装置は、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定部と、推定部で推定された複数の音声操作の候補からユーザの選択に基づき決定された１つの候補についてユーザの音声入力を促すガイダンスを生成するガイダンス生成部と、ガイダンスに対するユーザの音声入力を認識する音声認識部と、認識された音声入力に対応する機能を実行するよう指示情報を出力する機能決定部とを備え、推定部は、推定された複数の音声操作の候補の尤度が低い場合に、複数の候補の上位概念の音声操作の候補を推定結果として出力し、ガイダンス生成部は、推定された上位概念の音声操作の候補についてユーザの音声入力を促すガイダンスを生成するものである。

この発明に係るユーザインターフェース制御方法は、現在の状況に関する情報に基づいてユーザの意図する音声操作を推定するステップと、推定ステップで推定された複数の音声操作の候補からユーザの選択に基づき決定された１つの候補についてユーザの音声入力を促すガイダンスを生成するステップと、ガイダンスに対するユーザの音声入力を認識するステップと、認識された音声入力に対応する機能を実行するよう指示情報を出力するステップと、推定ステップで推定された複数の音声操作の候補の尤度が低い場合に、複数の候補の上位概念の音声操作の候補を推定結果として出力するステップと、上位概念の音声操作の候補を提示するステップとを備えるものである。

この発明に係るユーザインターフェース制御プログラムは、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定処理と、推定処理により推定された複数の音声操作の候補からユーザの選択に基づき決定された１つの候補についてユーザの音声入力を促すガイダンスを生成するガイダンス生成処理と、ガイダンスに対するユーザの音声入力を認識する音声認識処理と、認識された音声入力に対応する機能を実行するよう指示情報を出力する処理と、推定された複数の音声操作の候補の尤度が低い場合に、複数の候補の上位概念の音声操作の候補を推定結果として出力する処理と、上位概念の音声操作の候補を提示する処理とをコンピュータに実行させるものである。

Claims

現在の状況に関する情報に基づいてユーザの意図する音声操作を推定する推定部と、
前記推定部で推定された複数の音声操作の候補から１つの候補をユーザが選択するための候補選択部と、
ユーザが選択した前記候補についてユーザの音声入力を促すガイダンスを出力するガイダンス出力部と、
前記ガイダンスに対するユーザの音声入力に対応する機能を実行する機能実行部と
を備えるユーザインターフェースシステム。
前記ユーザの音声入力に対応する機能の候補が複数ある場合に、ユーザにより１つの機能の候補が選択されるよう、前記複数の機能の候補を提示することを特徴とする請求項１記載のユーザインターフェースシステム。
前記推定部は、前記ユーザの音声入力が上位概念の言葉である場合に、前記上位概念の言葉に含まれる下位概念の音声操作の候補を、現在の状況に関する情報に基づいて推定し、
前記候補選択部は、前記推定部で推定された下位概念の音声操作の候補を提示することを特徴とする請求項１記載のユーザインターフェースシステム。
前記推定部は、推定された複数の音声操作の候補の尤度が低い場合に、前記複数の候補の上位概念の音声操作の候補を推定結果として前記候補選択部に出力し、
前記候補選択部は、前記上位概念の音声操作の候補を提示することを特徴とする請求項１記載のユーザインターフェースシステム。
現在の状況に関する情報に基づいてユーザの意図する音声操作を推定する推定部と、
前記推定部で推定された複数の音声操作の候補からユーザの選択に基づき決定された１つの候補についてユーザの音声入力を促すガイダンスを生成するガイダンス生成部と、
前記ガイダンスに対するユーザの音声入力を認識する音声認識部と、
認識された音声入力に対応する機能を実行するよう指示情報を出力する機能決定部と
を備えるユーザインターフェース制御装置。
前記音声認識部により認識されたユーザの音声入力に対応する機能の候補が複数あるか否かを判断し、複数あると判断した場合に、前記複数の機能の候補をユーザに提示するよう前記判断結果を出力する認識判断部を更に備えることを特徴とする請求項５記載のユーザインターフェース制御装置。
前記音声認識部は、前記ユーザの音声入力が上位概念の言葉であるか下位概念の言葉であるかを判断し、
前記推定部は、前記ユーザの音声入力が上位概念の言葉である場合に、前記上位概念の言葉に含まれる下位概念の音声操作の候補を、現在の状況に関する情報に基づいて推定し、
前記ガイダンス生成部は、前記下位概念の音声操作の候補からユーザの選択に基づき決定された１つの候補についてガイダンスを生成することを特徴とする請求項５記載のユーザインターフェース制御装置。
前記推定部は、推定された複数の音声操作の候補の尤度が低い場合に、前記複数の候補の上位概念の音声操作の候補を推定結果として出力し、
前記ガイダンス生成部は、推定された前記上位概念の音声操作の候補についてユーザの音声入力を促すガイダンスを生成することを特徴とする請求項５記載のユーザインターフェース制御装置。
現在の状況に関する情報に基づいてユーザの意図する音声操作を推定するステップと、
前記推定ステップで推定された複数の音声操作の候補からユーザの選択に基づき決定された１つの候補についてユーザの音声入力を促すガイダンスを生成するステップと、
前記ガイダンスに対するユーザの音声入力を認識するステップと、
認識された音声入力に対応する機能を実行するよう指示情報を出力するステップと
を備えるユーザインターフェース制御方法。
現在の状況に関する情報に基づいてユーザの意図する音声操作を推定する推定処理と、
前記推定処理により推定された複数の音声操作の候補からユーザの選択に基づき決定された１つの候補についてユーザの音声入力を促すガイダンスを生成するガイダンス生成処理と、
前記ガイダンスに対するユーザの音声入力を認識する音声認識処理と、
認識された音声入力に対応する機能を実行するよう指示情報を出力する処理とをコンピュータに実行させるユーザインターフェース制御プログラム。