JPWO2015162638A1 - ユーザインターフェースシステム、ユーザインターフェース制御装置、ユーザインターフェース制御方法およびユーザインターフェース制御プログラム - Google Patents

ユーザインターフェースシステム、ユーザインターフェース制御装置、ユーザインターフェース制御方法およびユーザインターフェース制御プログラム Download PDF

Info

Publication number
JPWO2015162638A1
JPWO2015162638A1 JP2016514543A JP2016514543A JPWO2015162638A1 JP WO2015162638 A1 JPWO2015162638 A1 JP WO2015162638A1 JP 2016514543 A JP2016514543 A JP 2016514543A JP 2016514543 A JP2016514543 A JP 2016514543A JP WO2015162638 A1 JPWO2015162638 A1 JP WO2015162638A1
Authority
JP
Japan
Prior art keywords
user
voice
unit
candidate
guidance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016514543A
Other languages
English (en)
Other versions
JP5968578B2 (ja
Inventor
平井 正人
正人 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5968578B2 publication Critical patent/JP5968578B2/ja
Publication of JPWO2015162638A1 publication Critical patent/JPWO2015162638A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

本発明は、音声入力を行うユーザの操作負荷を軽減することを目的とする。この目的を達成するため、本発明に係るユーザインターフェースシステムは、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定部3と、推定部3で推定された複数の音声操作の候補から1つの候補をユーザが選択するための候補選択部5と、ユーザが選択した候補についてユーザの音声入力を促すガイダンスを出力するガイダンス出力部7と、ガイダンスに対するユーザの音声入力に対応する機能を実行する機能実行部10とを備える。

Description

本発明は、音声操作が可能なユーザインターフェースシステムおよびユーザインターフェース制御装置に関するものである。
音声操作が可能なユーザインターフェースを備えた機器には、通常、音声操作用のボタンが一つだけ用意されている。音声操作用のボタンを押下すると「ピッとなったらお話しください」というガイダンスが流れ、ユーザは発話(音声入力)をする。発話する場合には、予め決められた発話キーワードを、予め決められた手順で発話する。その際、機器の方から音声ガイダンスが流れ、何度か機器との対話を行って目的の機能を実行する。このような機器においては、発話キーワードや手順を覚えられなくて音声操作ができないという課題がある。また、機器との複数回の対話が必要で、操作完了まで時間がかかるという課題がある。
そこで、複数のボタンに、そのボタンの機能に関連する音声認識を紐付けることで、手順を覚えることなく、一回の発話で目的の機能を実行可能とするユーザインターフェースがある(特許文献1)。
WO2013/015364号公報
しかしながら、画面に表示されているボタンの数が音声操作の入り口の数であるという制約があるので、数多くの音声操作の入り口を並べることができないという課題がある。また、数多くの音声認識の入り口を並べた場合は、ボタンの数が多くなりすぎて目的のボタンを探しにくくなるという課題がある。
本発明は上記のような問題を解決するためになされたもので、音声入力を行うユーザの操作負荷を軽減することを目的とする。
この発明に係るユーザインターフェースシステムは、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定部と、推定部で推定された複数の音声操作の候補から1つの候補をユーザが選択するための候補選択部と、ユーザが選択した候補についてユーザの音声入力を促すガイダンスを出力するガイダンス出力部と、ガイダンスに対するユーザの音声入力に対応する機能を実行する機能実行部とを備えるものである。
この発明に係るユーザインターフェース制御装置は、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定部と、推定部で推定された複数の音声操作の候補からユーザの選択に基づき決定された1つの候補についてユーザの音声入力を促すガイダンスを生成するガイダンス生成部と、ガイダンスに対するユーザの音声入力を認識する音声認識部と、認識された音声入力に対応する機能を実行するよう指示情報を出力する機能決定部とを備えるものである。
この発明に係るユーザインターフェース制御方法は、現在の状況に関する情報に基づいてユーザの意図する音声操作を推定するステップと、推定ステップで推定された複数の音声操作の候補からユーザの選択に基づき決定された1つの候補についてユーザの音声入力を促すガイダンスを生成するステップと、ガイダンスに対するユーザの音声入力を認識するステップと、認識された音声入力に対応する機能を実行するよう指示情報を出力するステップとを備えるものである。
この発明に係るユーザインターフェース制御プログラムは、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定処理と、推定処理により推定された複数の音声操作の候補からユーザの選択に基づき決定された1つの候補についてユーザの音声入力を促すガイダンスを生成するガイダンス生成処理と、ガイダンスに対するユーザの音声入力を認識する音声認識処理と、認識された音声入力に対応する機能を実行するよう指示情報を出力する処理とをコンピュータに実行させるものである。
本発明によれば、状況に応じてユーザの意図に沿う音声操作の入り口を提供することにより、音声入力を行うユーザの操作負荷を軽減することができる。
実施の形態1におけるユーザインターフェースシステムの構成を示す図である。 実施の形態1におけるユーザインターフェースシステムの動作を示すフローチャートである。 実施の形態1における音声操作候補の表示例である。 実施の形態1におけるユーザインターフェースシステムの操作例である。 実施の形態2におけるユーザインターフェースシステムの構成を示す図である。 実施の形態2におけるユーザインターフェースシステムの動作を示すフローチャートである。 実施の形態2におけるユーザインターフェースシステムの操作例である。 実施の形態2におけるユーザインターフェースシステムの別の構成を示す図である。 実施の形態3におけるユーザインターフェースシステムの構成を示す図である。 実施の形態3におけるキーワード知識の例を示す図である。 実施の形態3におけるユーザインターフェースシステムの動作を示すフローチャートである。 実施の形態3におけるユーザインターフェースシステムの操作例である。 実施の形態4におけるユーザインターフェースシステムの構成を示す図である。 実施の形態4におけるユーザインターフェースシステムの動作を示すフローチャートである。 実施の形態4において推定される音声操作の候補と尤度の例である。 実施の形態4における音声操作候補の表示例である。 実施の形態4において推定される音声操作の候補と尤度の例である。 実施の形態4における音声操作候補の表示例である。 実施の形態1〜4におけるユーザインターフェース制御装置のハードウェア構成例を示す図である。
実施の形態1.
図1はこの発明の実施の形態1におけるユーザインターフェースシステムを示す図である。ユーザインターフェースシステム1は、ユーザインターフェース制御装置2と、候補選択部5と、ガイダンス出力部7と、機能実行部10とを備えている。候補選択部5、ガイダンス出力部7および機能実行部10は、ユーザインターフェース制御装置2により制御される。また、ユーザインターフェース制御装置2は、推定部3、候補決定部4、ガイダンス生成部6、音声認識部8、機能決定部9を有する。以下、ユーザインターフェースシステムが自動車の運転に用いられる場合を例に説明する。
推定部3は、現在の状況に関する情報を受け取り、現時点でユーザが行うであろう音声操作の候補、すなわちユーザの意図に沿う音声操作の候補を推定する。現在の状況に関する情報とは、例えば外部環境情報、履歴情報である。推定部3は、両方の情報を用いてもよいし、どちらか一方を用いてもよい。外部環境情報とは、自車の現在の車速やブレーキの状態等の車両情報、気温、現在時刻、現在位置などの情報である。車両情報はCAN(Controller Area Network)等を用いて取得される。また、気温は温度センサー等を用いて取得され、現在位置はGPS(Global Positioning System)衛星から送信されるGPS信号により取得される。履歴情報とは、過去に、ユーザが目的地設定した施設、ユーザが操作したカーナビゲーション装置、オーディオ、エアコン、電話等の機器の設定情報、後述する候補選択部5でユーザが選択した内容、ユーザが音声入力した内容、後述する機能実行部10で実行された機能等であり、それぞれの発生日時と位置情報等とともに記憶されている。したがって、推定部3は、履歴情報のうち現在時刻や現在位置に関連する情報を推定に利用する。このように、過去の情報であっても現在の状況に影響する情報は、現在の状況に関する情報に含まれる。履歴情報は、ユーザインターフェース制御装置内の記憶部に記憶されていてもよいし、サーバの記憶部に記憶されていてもよい。
候補決定部4は、推定部3により推定された複数の音声操作の候補から、候補選択部5により提示可能な数の候補を抽出し、抽出された候補を候補選択部5に出力する。なお、推定部3は、全ての機能についてユーザの意図に適合する確率を付与してもよい。この場合、候補決定部4は、確率の高い順に候補選択部5により提示可能な数の候補を抽出すればよい。また、推定部3が、提示する候補を直接候補選択部5に出力するようにしてもよい。候補選択部5は、候補決定部4から受け取った音声操作の候補をユーザに提示し、ユーザが希望する音声操作の対象を選択できるようにする。すなわち、候補選択部5は音声操作の入り口として機能する。以下、候補選択部5はタッチパネルディスプレイであるものとして説明する。例えば、候補選択部5に表示可能な候補の数が最大3つである場合には、推定部3により推定された候補の尤度の高い順に3つが表示される。推定部3により推定された候補が1つであれば、その1つの候補が候補選択部5に表示される。図3は、タッチパネルディスプレイに3つの音声操作の候補が表示された例である。図3(1)では「電話をかける」「目的地を設定する」「音楽を聴く」という3つの候補が表示され、図3(2)では「食事をする」「音楽を聴く」「遊園地へ行く」という3つの候補が表示されている。図3の例では、3つの候補が表示されるが、表示する候補の数、表示順序、レイアウトはどのようなものでもよい。
ユーザは、表示された候補の中から音声入力したい候補を選択する。選択の方法は、タッチパネルディスプレイに表示された候補をタッチして選択するようにすればよい。ユーザにより音声操作の候補が選択されると、候補選択部5は選択されたタッチパネルディスプレイ上の座標位置を候補決定部4に伝え、候補決定部4は座標位置と音声操作の候補とを対応付けて、音声操作を行う対象を決定する。なお、音声操作の対象の決定は、候補選択部5で行い、選択された音声操作の候補の情報を直接ガイダンス生成部6に出力するようにしてもよい。決定された音声操作対象は、時刻情報及び位置情報等とともに履歴情報として蓄積され、将来の音声操作の候補推定に用いられる。
ガイダンス生成部6は、候補選択部5で決定された音声操作の対象に合わせて、ユーザに音声入力を促すガイダンスを生成する。ガイダンスは具体的な質問形式であることが望ましく、ユーザがその質問に答えることにより、音声入力が可能となる。ガイダンスの生成の際には、候補選択部5に表示される音声操作の候補毎に予め決められた音声ガイダンス、表示ガイダンスまたは効果音が記憶されたガイダンス辞書を用いる。ガイダンス辞書は、ユーザインターフェース制御装置内の記憶部に記憶されていてもよいし、サーバの記憶部に記憶されていてもよい。
ガイダンス出力部7は、ガイダンス生成部6で生成されたガイダンスを出力する。ガイダンス出力部7は、音声でガイダンスを出力するスピーカでもよいし、文字でガイダンスを出力する表示部でもよい。または、スピーカと表示部の両方を用いてガイダンスを出力してもよい。文字でガイダンスを出力する場合には、候補選択部5であるタッチパネルディスプレイをガイダンス出力部7として用いてもよい。例えば、図4(1)に示すように、音声操作の対象として「電話をかける」が選択された場合、「誰に電話をかけますか?」という誘導音声ガイダンスを出力したり、画面に「誰に電話をかけますか?」と表示したりする。ユーザは、ガイダンス出力部7から出力されたガイダンスに対して、音声入力を行う。例えば、「誰に電話をかけますか?」というガイダンスに対して「山田さん」と発話する。
音声認識部8は、ガイダンス出力部7のガイダンスに対してユーザが発話した内容を音声認識する。このとき、音声認識部8は音声認識辞書を用いて音声認識を行う。音声認識辞書は1つでもよいし、候補決定部4で決定された音声操作の対象に合わせて辞書を切り替えてもよい。辞書を切り替えたり絞り込んだりすることにより、音声認識率が向上する。辞書を切り替えたり絞り込んだりする場合、候補決定部4で決定された音声操作の対象に関する情報が、ガイダンス生成部6だけでなく音声認識部8にも入力される。音声認識辞書は、ユーザインターフェース制御装置内の記憶部に記憶されていてもよいし、サーバの記憶部に記憶されていてもよい。
機能決定部9は、音声認識部8で認識された音声入力に対応する機能を決定し、その機能を実行するよう、機能実行部10に指示情報を送る。機能実行部10とは、車内のカーナビゲーション装置、オーディオ、エアコン、電話等の機器であり、機能とは、これらの機器が実行する何らかの機能である。例えば、音声認識部8が「山田さん」というユーザの音声入力を認識した場合、「山田さんに電話をかける」という機能を実行するよう、機能実行部10の1つである電話機に指示情報を送信する。実行された機能は、時刻情報及び位置情報等とともに履歴情報として蓄積され、将来の音声操作の候補推定に用いられる。
図2は、実施の形態1におけるユーザインターフェースシステムの動作を説明するフローチャートである。フローチャート中、少なくともST101およびST105の動作は、ユーザインターフェース制御装置の動作(すなわち、ユーザインターフェース制御プログラムの処理手順)である。図1〜図3を用いてユーザインターフェース制御装置およびユーザインターフェースシステムの動作について説明する。
推定部3は、現在の状況に関する情報(外部環境情報、操作履歴等)を用いて、ユーザが行うであろう音声操作、すなわちユーザがやりたいであろう音声操作の候補を推定する(ST101)。この推定の動作は、例えばユーザインターフェースシステムを車載装置として使用する場合には、エンジンの始動から開始し、例えば数秒毎に定期的に行ってもよいし、外部環境が変わったタイミングで行ってもよい。推定する音声操作としては、例えば次のような例がある。仕事を終えて帰宅するときに会社の駐車場からよく電話をかける人の場合、現在地が「会社の駐車場」で、現在時刻が「夜」という状況で、「電話をかける」という音声操作を推定する。推定部3は、複数の音声操作の候補を推定してもよい。例えば、帰宅するときによく電話をかけたり、目的地を設定したり、ラジオを聴いたりする人の場合、「電話をかける」「目的地を設定する」「音楽を聴く」という機能を確率の高い順に推定する。
候補選択部5は、候補決定部4または推定部3から、提示する音声操作の候補の情報を取得し、提示する(ST102)。具体的には、例えばタッチパネルディスプレイに表示する。図3は、3つの機能候補を表示する例である。図3(1)は、上記の「電話をかける」「目的地を設定する」「音楽を聴く」という機能を推定した場合の表示例である。また、図3(2)は、例えば、「休日」「午前11時」という状況で、「食事をする」「音楽を聴く」「遊園地へ行く」という音声操作の候補を推定した場合の表示例である。
次に、候補決定部4または候補選択部5は、表示された音声操作の候補の中でユーザが選択した候補が何かを判断し、音声操作の対象を決定する(ST103)。
次に、ガイダンス生成部6は、候補決定部4が決定した音声操作の対象に合わせて、ユーザに音声入力を促すガイダンスを生成する。そして、ガイダンス出力部7は、ガイダンス生成部6で生成されたガイダンスを出力する(ST104)。図4は、ガイダンス出力の例を示す。例えば、図4(1)に示すように、ST103でユーザが行うであろう音声操作として「電話をかける」という音声操作が決定された場合は、「誰に電話をかけますか?」という音声によるガイダンス、または表示によるガイダンスを出力する。または、図4(2)に示すように、「目的地を設定する」という音声操作が決定された場合は、「どこへ行きますか?」というガイダンスが出力される。このように、音声操作の対象が具体的に選択されるため、ガイダンス出力部7はユーザに対して具体的なガイダンスを提供することができる。
図4(1)に示すように、「誰に電話をかけますか?」というガイダンスに対して、ユーザは例えば「山田さん」と音声入力する。また、図4(2)に示すように、「どこへ行きますか?」というガイダンスに対して、ユーザは例えば「東京駅」と音声入力する。ガイダンスの内容は、そのガイダンスに対するユーザの応答が機能の実行に直接つながる問いかけが望ましい。「ピッとなったらお話しください」という大雑把なガイダンスではなく「誰に電話をかけますか?」「どこへ行きますか?」と具体的に問いかけられるため、ユーザは何を話せばよいか分かりやすく、選択した音声操作に関する音声入力がしやすくなる。
音声認識部8は、音声認識辞書を用いて音声認識を行う(ST105)。このとき、使用する音声認識辞書をST103で決定された音声操作に関連する辞書に切り替えてもよい。例えば、「電話をかける」という音声操作が選択された場合には、電話番号が登録されている人の名字および施設の名称等、「電話」に関連する言葉が記憶された辞書に切り替えてもよい。
機能決定部9は、認識された音声に対応する機能を決定し、その機能を実行するよう機能実行部10に指示信号を送信する。そして、機能実行部10は、指示情報に基づき機能を実行する(ST106)。例えば、図4(1)の例において、「山田さん」という音声が認識されると、「山田さんに電話をかける」という機能が決定され、機能実行部10の1つである電話機により、電話帳に登録された山田さんに電話がかけられる。また、図4(2)の例においては、「東京駅」という音声が認識されると、「東京駅までのルートを検索する」という機能が決定され、機能実行部10の1つであるカーナビゲーション装置により東京駅までのルート検索が行われる。なお、山田さんに電話をかけるという機能が実行されるとき、「山田さんに電話をかけます」と音声や表示により機能の実行をユーザに知らせるようにしてもよい。
上記説明では、候補選択部5はタッチパネルディスプレイであり、推定された音声操作の候補をユーザに知らせる提示部とユーザが1つの候補を選択するための入力部とが一体であるものとしたが、候補選択部5の構成はこれに限られない。以下のように、推定された音声操作の候補をユーザに知らせる提示部とユーザが1つの候補を選択するための入力部とを別体として構成してもよい。例えば、ディスプレイに表示された候補をジョイスティック等でカーソル操作して選択するようにしてもよい。この場合、提示部であるディスプレイと入力部であるジョイスティック等が候補選択部5を構成する。また、ディスプレイに表示された候補に対応するハードボタンをハンドル等に設け、そのハードボタンを押すことにより選択するようにしてもよい。この場合は、提示部であるディスプレイと入力部であるハードボタンとが候補選択部5を構成する。また、表示された候補をジェスチャ操作によって選択するようにしてもよい。この場合には、ジェスチャ操作を検知するカメラ等が入力部として候補選択部5に含まれる。さらに、推定された音声操作の候補をスピーカから音声で出力し、ユーザにボタン操作、ジョイスティック操作または音声操作によって選択させてもよい。この場合、提示部であるスピーカと入力部であるハードボタン、ジョイスティックまたはマイクが候補選択部5を構成する。ガイダンス出力部7がスピーカであれば、そのスピーカを候補選択部5の提示部として用いることもできる。
また、ユーザが音声操作の候補を選択した後で誤操作に気付いた場合、提示されていた複数の候補から改めて選択し直すことも可能である。例えば、図4に示す3つの候補が提示された場合の例を説明する。「目的地設定」の機能を選択して、「どこへ行きますか?」と音声ガイダンスが出力された後でユーザが誤操作に気付いた場合、同じ3つの候補から改めて「音楽を聴く」を選択することが可能である。2度目の選択に対し、ガイダンス生成部6は、「何を聴きますか?」というガイダンスを生成する。ガイダンス出力部7から出力される「何を聴きますか?」というガイダンスに対し、ユーザは音楽再生についての音声操作を行う。音声操作の候補を選択し直せることは、以下の実施の形態においても同様である。
以上のように、実施の形態1におけるユーザインターフェースシステムおよびユーザインターフェース制御装置によれば、状況に応じてユーザの意図に沿う音声操作の候補、すなわち音声操作の入り口を提供することができ、音声入力を行うユーザの操作負荷が軽くなる。また、細分化された目的に対応する多くの音声操作の候補を準備できるため、ユーザの様々な目的に幅広く対応できる。
実施の形態2.
上記実施の形態1においては、ガイダンス出力部7から出力されるガイダンスに対するユーザの音声入力1回でユーザが希望する機能を実行する例を説明した。実施の形態2においては、音声認識部8による認識結果が複数である場合、または認識された音声に対応する機能が複数ある場合等、ユーザの音声入力1回で実行する機能を決定できない場合にも、簡単な操作で機能の実行を可能とするユーザインターフェース制御装置およびユーザインターフェースシステムについて説明する。
図5はこの発明の実施の形態2におけるユーザインターフェースシステムを示す図である。実施の形態2におけるユーザインターフェース制御装置2は、音声認識部8による音声認識の結果、実行する機能が1つに特定可能か否かを判断する認識判断部11を有する。また、実施の形態2におけるユーザインターフェースシステム1は、音声認識の結果抽出された複数の機能候補をユーザに提示し、ユーザに選択させるための機能候補選択部12を有する。以下、機能候補選択部12はタッチパネルディスプレイであるものとして説明する。その他の構成は、図1に示す実施の形態1における構成と同じである。
本実施の形態について、主に実施の形態1と異なる点を説明する。認識判断部11は、音声認識をした結果、認識された音声入力が機能実行部10により実行される1つの機能に対応するか否か、すなわち、認識された音声入力に対応する機能が複数あるか否かを判断する。例えば、認識された音声入力が1つか複数かを判断する。また、認識された音声入力が1つの場合、その音声入力に対応する機能が1つか複数かを判断する。
認識された音声入力が1つであって、その音声入力に対応する機能が1つである場合は、その認識判断の結果を機能決定部9へ出力し、機能決定部9は認識された音声入力に対応する機能を決定する。この場合の動作は、上記実施の形態1と同様である。
一方、音声認識の結果が複数の場合は、認識判断部11はその認識結果を機能候補選択部12へ出力する。また、音声認識の結果が1つの場合であっても認識された音声入力に対応する機能が複数ある場合は、その判断結果(各機能に対応する候補)を機能候補選択部12へ送信する。機能候補選択部12は、認識判断部11で判断された複数の候補を表示する。表示された複数の候補からユーザが1つを選択すると、選択された候補は機能決定部9へ送信される。選択の方法は、タッチパネルディスプレイに表示された候補をタッチして選択するようにすればよい。この場合、候補選択部5は、ユーザが表示された候補をタッチすることにより音声入力を受け付ける音声操作の入り口の機能を有していたが、機能候補選択部12は、ユーザのタッチ操作が直接機能の実行に結びつく手操作入力部の機能を有する。機能決定部9は、ユーザにより選択された候補に対応する機能を決定し、その機能を実行するよう、機能実行部10に指示情報を送る。
例えば、図4(1)に示すように、「誰に電話をかけますか?」というガイダンスに対して、ユーザが例えば「山田さん」と音声入力した場合について説明する。音声認識部8の認識の結果、例えば「山田さん」「山名さん」「ヤマサ」の3つの候補が抽出された場合、実行する1つの機能が特定されない。そこで、音声判断部11は上記の3つの候補を機能候補選択部12に表示するよう、機能候補選択部12に指示信号を送信する。また、音声認識部8が「山田さん」と認識した場合でも、電話帳に複数の「山田さん」、例えば「山田太郎」「山田今日子」「山田厚」が登録されていて一人に絞れない場合がある。つまり、「山田さん」に対応する機能として、「山田太郎さんに電話をかける」「山田今日子さんに電話をかける」「山田厚さんに電話をかける」という複数の機能が存在する場合である。このような場合には、音声判断部11は「山田太郎」「山田今日子」「山田厚」という候補を機能候補選択部12に表示するよう、機能候補選択部12に指示信号を送信する。
ユーザの手操作により、機能候補選択部12に表示された複数の候補から1つが選択されると、機能決定部9は選択された候補に対応する機能を決定し、機能実行部10に機能の実行を指示する。なお、実行する機能の決定は、機能候補選択部12において行い、機能候補選択部12から直接機能実行部10に指示情報を出力するようにしてもよい。例えば、「山田太郎」が選択されると、山田太郎さんに電話がかけられる。
図6は、実施の形態2におけるユーザインターフェースシステムのフローチャートである。フローチャート中、少なくともST201、ST205およびST206の動作は、ユーザインターフェース制御装置の動作(すなわち、ユーザインターフェース制御プログラムの処理手順)である。図6において、ST201〜ST204は、実施の形態1を説明する図2のST101〜ST104と同様であるため、説明を省略する。
ST205において、音声認識部8は、音声認識辞書を用いて音声認識を行う。認識判断部11は、認識された音声入力が機能実行部10により実行される1つの機能に対応するか否かを判断する(ST206)。認識された音声入力が1つであって、その音声入力に対応する機能が1つである場合は、認識判断部11はその認識判断の結果を機能決定部9へ送信し、機能決定部9は認識された音声入力に対応する機能を決定する。機能実行部10は、機能決定部9で決定された機能に基づき機能を実行する(ST207)。
認識判断部11が、音声認識部8における音声入力の認識結果が複数あると判断した場合、または認識された1つの音声入力に対応する機能が複数あると判断した場合は、複数の機能に対応する候補を機能候補選択部12により提示する(ST208)。具体的には、タッチパネルディスプレイに表示する。機能候補選択部12に表示された候補の中からユーザの手操作により1つの候補が選択されると、機能決定部9は実行する機能を決定し(ST209)、機能実行部10は機能決定部9からの指示に基づき機能を実行する(ST207)。なお、上述のとおり、実行する機能の決定は、機能候補選択部12において行い、機能候補選択部12から直接機能実行部10に指示情報を出力するようにしてもよい。音声操作と手操作とを併用することにより、ユーザと機器との間で音声だけの対話を繰り返すよりも、より早く確実に目的の機能を実行することができる。
例えば、図7に示すように、「誰に電話をかけますか?」というガイダンスに対して、ユーザが「山田さん」と音声入力した場合、音声認識の結果、機能が1つに特定できる場合には、「山田さんに電話をかける」という機能が実行され、「山田さんに電話をかけます」という表示や音声が出力される。また、音声認識の結果、「山田さん」「山名さん」「ヤマサ」の3つの候補が抽出された場合、その3つの候補を表示する。ユーザが「山田さん」を選択すると、「山田さんに電話をかける」という機能が実行され、「山田さんに電話をかけます」という表示や音声が出力される。
上記説明では、機能候補選択部12はタッチパネルディスプレイであり、機能の候補をユーザに知らせる提示部とユーザが1つの候補を選択するための入力部とが一体であるものとしたが、機能候補選択部12の構成はこれに限られない。候補選択部5と同様に、機能の候補をユーザに知らせる提示部とユーザが1つの候補を選択するための入力部とを別体として構成してもよい。例えば、提示部としてはディスプレイに限らずスピーカであってもよく、入力部としてはジョイスティック、ハードボタンまたはマイクであってもよい。
また、図5を用いた上記の説明では、音声操作の入り口である候補選択部5と、ガイダンス出力部7と、ユーザが実行したい機能を最終的に選択するための機能候補選択部12とを別々に設けたが、1つの表示部(タッチパネルディスプレイ)としてもよい。図8は、1つの表示部13に、音声操作の入り口の役割と、ガイダンス出力の役割と、最終的に機能を選択するための手操作入力部の役割を持たせた場合の構成図である。すなわち、表示部13が候補選択部、ガイダンス出力部および機能候補出力部に相当する。1つの表示部13を用いる場合、表示された項目がどのような操作の対象であるかを示すことにより、ユーザの使い勝手が向上する。例えば、音声操作の入り口として機能する場合には、表示項目の前にマイクのアイコンを表示する。図3および図4における3つの候補の表示が音声操作の入り口として機能する場合の表示例である。また、図7における3つの候補の表示は、マイクのアイコンがない手操作入力のための表示例である。
また、ガイダンス出力部をスピーカとし、候補選択部5と機能候補選択部12とを1つの表示部(タッチパネルディスプレイ)で構成してもよい。さらに、候補選択部5と機能候補選択部12とを1つの提示部と1つの入力部とで構成してもよい。この場合、1つの提示部により音声操作の候補と実行する機能の候補が提示され、1つの入力部を用いて、ユーザが音声操作の候補を選択し、実行する機能を選択する。
また、機能候補選択部12は、ユーザの手操作により機能の候補を選択するように構成したが、表示された機能の候補または音声出力された機能の候補から、ユーザが希望する機能を音声操作で選択するように構成してもよい。例えば、「山田太郎」「山田今日子」「山田厚」という機能の候補が提示された場合に、「山田太郎」と音声入力したり、それぞれの候補に「1」「2」「3」等の番号を対応付けて、「1」と音声入力したりすることにより、「山田太郎」を選択する構成としてもよい。
以上のように、実施の形態2におけるユーザインターフェースシステムおよびユーザインターフェース制御装置によれば、1回の音声入力により目的の機能が特定できない場合であっても、機能の候補を提示して、ユーザが選択できるようにすることにより、簡単な操作で目的の機能を実行することができる。
実施の形態3.
ユーザが発話したキーワードが幅広い意味のキーワードであった場合、機能が特定できず実行できなかったり、多くの機能候補を表示して選択に時間がかかってしまったりする。例えば、「どこへ行きますか?」という問いに対して、ユーザが「アミューズメントパーク」と発話した場合、「アミューズメントパーク」に属する施設は多数あるため、特定することができない。また、多数のアミューズメントパークの施設名を候補として表示するとユーザが選択するのに時間がかかる。そこで、ユーザの発話したキーワードが幅広い意味の言葉であった場合に、意図推定技術を利用してユーザが行いたいであろう音声操作の候補を推定し、推定した結果を音声操作の候補、すなわち音声操作の入り口として具体的に提示し、次の発話で目的の機能を実行できるようにすることが本実施の形態の特徴である。
本実施の形態について、主に上記実施の形態2と異なる点を説明する。図9は、本実施の形態3におけるユーザインターフェースシステムの構成図である。上記実施の形態2との主な相違点は、認識判断部11がキーワード知識14を用い、認識判断部11の判断の結果に応じて、再度推定部3を用いて音声操作の候補を推定する点である。以下、候補選択部15はタッチパネルディスプレイであるものとして説明する。
認識判断部11は、キーワード知識14を用いて、音声認識部8で認識されたキーワードが上位階層のキーワードか下位階層のキーワードかを判断する。キーワード知識14には、例えば図10の表のような言葉が記憶されている。例えば、上位階層のキーワードとして「テーマパーク」があり、テーマパークの下位階層のキーワードとして「遊園地」「動物園」「水族館」などが関連付けされている。また、上位階層のキーワードとして「食事」「ごはん」「お腹が空いた」があり、テーマパークの下位階層のキーワードとして「うどん」「中華」「ファミリーレストラン」などが関連付けされている。
例えば、1回目の音声入力について認識判断部11が「テーマパーク」と認識した場合、「テーマパーク」は上位階層の言葉であるため、「テーマパーク」に対応する下位階層のキーワードである「遊園地」「動物園」「水族館」「博物館」などの言葉を推定部3に送る。推定部3は、外部環境情報および履歴情報を利用して、認識判断部11から受信した「遊園地」「動物園」「水族館」「博物館」などの言葉からユーザが実行したいであろう機能に対応する言葉を推定する。推定により得られた言葉の候補は、機能選択部15に表示される。
一方、認識判断部11が、音声認識部8で認識されたキーワードが最終的な実行機能に結びつく下位階層の言葉であると判断した場合には、その言葉は機能決定部9に送られ、機能実行部10によりその言葉に対応する機能が実行される。
図11は、実施の形態3におけるユーザインターフェースシステムの動作を示すフローチャートである。フローチャート中、少なくともST301、ST305、ST306およびST308の動作は、ユーザインターフェース制御装置の動作(すなわち、ユーザインターフェース制御プログラムの処理手順)である。状況に応じてユーザがやりたいであろう音声操作、すなわちユーザの意図に沿う音声操作を推定し、推定した音声操作の候補を提示し、ユーザにより選択された音声操作に関するガイダンス出力を行う動作ST301〜ST304は、上記実施の形態1、2と同じである。また、図12は、本実施の形態3における表示例を示す図である。以下、主に実施の形態1、2と異なるST305以降の動作、すなわちガイダンス出力に対するユーザの発話を音声認識する動作以降の動作について、図9〜図12を用いて説明する。
まず、図12に示すように、ST301で推定されてST302で候補選択部15に表示された音声操作の候補が「電話をかける」「目的地を設定する」「音楽を聴く」の3つであったとする。ユーザが「目的地を設定する」を選択すると音声操作の対象が決定され(ST303)、ガイダンス出力部7は、「どこへ行きますか?」と音声によりユーザに問いかける(ST304)。このガイダンスに対してユーザが「テーマパーク」と音声入力すると、音声認識部8が音声認識を行う(ST305)。認識判断部11は音声認識部8から認識結果を受け取り、キーワード知識13を参照して、認識結果が上位階層のキーワードか下位階層のキーワードかを判断する(ST306)。上位階層のキーワードであると判断した場合にはST308に進む。一方、下位階層のキーワードであると判断した場合にはST307に進む。
例えば、音声認識部8が「テーマパーク」と認識したとする。図10に示すように、「テーマパーク」は上位階層のキーワードであるため、認識判断部11は、「テーマパーク」に対応する下位階層のキーワード「遊園地」「動物園」「水族館」「博物館」などを推定部3に送る。推定部3は、外部環境情報および履歴情報を用いて、認識判断部11から受け取った「遊園地」「動物園」「水族館」「博物館」などの下位階層の複数のキーワードからユーザがやりたいであろう音声操作の候補を推定する(ST308)。なお、外部環境情報および履歴情報のうちどちらか一方を利用してもよい。
候補選択部15は、推定された音声操作の候補を提示する(ST309)。例えば、図12に示すように「動物園へ行く」「水族館へ行く」「遊園地へ行く」の3つの項目を音声操作の入り口として表示する。候補決定部4は、ユーザの選択に基づき、提示された音声操作候補の中から音声操作を行う対象を決定する(ST310)。なお、音声操作の対象の決定は、候補選択部15で行い、選択された音声操作の候補の情報を直接ガイダンス生成部6に出力するようにしてもよい。次に、ガイダンス生成部6は決定された音声操作の対象に対応するガイダンスを生成し、ガイダンス出力部7はガイダンスを出力する。例えば、ユーザが提示された項目から「遊園地へ行く」を選択したと判断した場合、「どの遊園地へ行きますか」と音声によりガイダンスを出力する(ST311)。このガイダンスに対するユーザの発話を音声認識部8が認識する(ST305)。このように、ユーザの意図に沿う音声操作の候補を再度推定して候補を絞り込み、より具体的にユーザのやりたいことを問いかけることができるため、ユーザは音声入力しやすく、何度も音声入力することなく目的の機能を実行することができる。
音声認識部8が認識した結果が実行可能な下位階層のキーワードであれば、そのキーワードに対応する機能を実行する(ST307)。例えば、「どの遊園地へ行きますか」というガイダンスに対して、ユーザが「日本遊園地」と発話した場合、機能実行部10であるカーナビゲーション装置により「日本遊園地」へのルートを検索する等の機能を実行する。
ST309で候補決定部4が決定した音声操作の対象、およびST307で機能実行部10により実行された機能は、時刻情報及び位置情報等とともに履歴情報としてデータベース(図示せず)に蓄積され、将来の音声操作の候補推定に用いられる。
図11のフローチャートでは省略したが、認識判断部11が、音声認識部8で認識されたキーワードが下位階層の言葉であるものの、最終的な実行機能に結びつかないと判断した場合には、上記実施の形態2と同様に、ユーザに最終的な実行機能を選択させるための機能の候補を候補選択部15に表示し、ユーザの選択により機能を決定するようにすればよい(図6のST208、ST209)。例えば、「日本遊園地」に似た名称の遊園地が複数あり音声認識部8により1つの候補に絞れない場合、または認識された1つの候補に対応する機能がルートの検索や駐車場の検索等、複数あると判断した場合は、最終的な機能に結びつく候補を候補選択部15に表示する。そして、ユーザの操作により1つの機能の候補を選択することにより、実行する機能を決定する。
図9においては、1つの候補選択部15により音声操作候補の選択と機能の候補の選択とを行う構成としたが、図5のように音声操作候補を選択するための候補選択部5と、音声入力後に機能の候補を選択するための機能候補選択部12とを別々に設ける構成でもよい。また、図8のように、1つの表示部13に音声操作の入り口の役割と手操作入力部の役割とガイダンス出力の役割とを持たせてもよい。
また、上記説明では、候補選択部15はタッチパネルディスプレイであり、推定された音声操作の候補をユーザに知らせる提示部とユーザが1つの候補を選択するための入力部とが一体であるものとしたが、候補選択部15の構成はこれに限られない。実施の形態1において説明したとおり、推定された音声操作の候補をユーザに知らせる提示部とユーザが1つの候補を選択するための入力部とを別体として構成してもよい。例えば、提示部としてはディスプレイに限らずスピーカであってもよく、入力部としてはジョイスティック、ハードボタンまたはマイクであってもよい。
また、上記説明では、キーワード知識14はユーザインターフェース制御装置内に記憶されるものとしたが、サーバの記憶部に記憶されるものとしてもよい。
以上のように、実施の形態3におけるユーザインターフェースシステムおよびユーザインターフェース制御装置によれば、ユーザが音声入力したキーワードが幅広い意味のキーワードであっても、ユーザの意図に沿う音声操作の候補を再度推定して候補を絞り込み、ユーザに提示することにより、音声入力を行うユーザの操作負荷を軽減することができる。
実施の形態4.
上記各実施の形態においては、推定部3が推定した音声操作の候補をユーザに提示するように構成したが、推定部3が推定した音声操作の候補の尤度がどれも低い場合には、ユーザの意図に一致する確率の低い候補が提示されてしまうことになる。そこで、本実施の形態4においては、推定部3が決定した各候補の尤度が低い場合に、上位概念化して提示することとしたものである。
本実施の形態について、主に上記実施の形態1と異なる点を説明する。図13は、本実施の形態4におけるユーザインターフェースシステムの構成図である。上記実施の形態1との相違点は、推定部3がキーワード知識14を用いる点である。その他の構成は、実施の形態における構成と同じである。キーワード知識14は、上記実施の形態3におけるキーワード知識14と同じである。なお、図1に示すように、以下の説明では、実施の形態1における推定部3がキーワード知識14を用いるものとして説明するが、実施の形態2および実施の形態3における推定部3(図5、8、9における推定部3)がキーワード知識14を用いる構成としてもよい。
推定部3は、外部環境情報、履歴情報等の現在の状況に関する情報を受け取り、現時点でユーザが行うであろう音声操作の候補を推定する。推定により抽出された各候補の尤度が低い場合、それらの上位階層の音声操作の候補の尤度が高ければ、推定部3はその上位階層の音声操作の候補を候補決定部4に送信する。
図14は、実施の形態4におけるユーザインターフェースシステムのフローチャートである。フローチャート中、少なくともST401〜ST403、ST406、ST408およびST409の動作は、ユーザインターフェース制御装置の動作である(すなわち、ユーザインターフェース制御プログラムの処理手順)。また、図15〜図18は、推定される音声操作の候補の例である。図13〜図18、およびキーワード知識14を示す図10を用いて、実施の形態4の動作について説明する。
推定部3は、現在の状況に関する情報(外部環境情報、操作履歴等)を用いて、ユーザが行うであろう音声操作の候補を推定する(ST401)。次に、推定部3は、推定された各候補の尤度を抽出する(ST402)。各候補の尤度が高ければ、ST404に進み、候補決定部4は、候補選択部5に提示された音声操作の候補の中からユーザが選択した候補が何かを判断し、音声操作の対象を決定する。なお、音声操作の対象の決定は、候補選択部5で行い、選択された音声操作の候補の情報を直接ガイダンス生成部6に出力するようにしてもよい。ガイダンス出力部7は、決定された音声操作の対象に合わせて、ユーザに音声入力を促すガイダンスを出力する(ST405)。音声認識部8はガイダンスに対してユーザが入力した音声を認識し(ST406)、機能実行部10は認識された音声に対応する機能を実行する(ST407)。
一方、ST403で推定部3が、推定された各候補の尤度が低いと判断した場合は、ST408に進む。例えば、図15に示すような候補が推定された場合である。図15は、各候補の尤度が高い順に並べた表である。「中華料理へ行く」という候補の尤度は15%、「イタリア料理へ行く」という候補の尤度は14%、「電話をかける」という候補の尤度は13%であり、各候補の尤度は低いため、例えば図16に示すようにこれらの候補を尤度の高い順に表示しても、ユーザが音声操作したいことに一致する確率は低い。
そこで、本実施の形態4では、推定された各候補の上位階層の音声操作の尤度を算出する。算出の方法としては、例えば、同じ上位階層の音声操作に属する下位階層の候補の尤度を合計する。例えば、図10に示すように、「中華料理」「イタリア料理」「フランス料理」「ファミリーレストラン」「カレー」「焼き肉」という候補の上位階層は「食事」であり、下位階層の候補の尤度を合計すると、上位階層の音声操作の候補である「食事」の尤度は67%である。この算出結果に基づき、推定部3は、上位階層の音声操作を含めた候補を推定する(ST409)。上記の例では、推定部3は、図17に示すように、尤度の高い順に、「食事へ行く」(尤度67%)、「電話をかける」(尤度13%)、「音楽を聴く」(10%)と推定する。この推定結果は例えば図18に示すように候補選択部5に表示され、ユーザの選択に基づき候補決定部4または候補選択部5により音声操作の対象が決定される(ST404)。ST405以降の動作については、上記の各候補の尤度が高い場合の動作と同じであるため、説明を省略する。
なお、上記説明では、キーワード知識14はユーザインターフェース制御装置内に記憶されるものとしたが、サーバの記憶部に記憶されるものとしてもよい。
以上のように、この実施の形態4におけるユーザインターフェースシステムおよびユーザインターフェース制御装置によれば、ユーザの意図に一致する確率の高い上位概念の音声操作の候補が提示されるため、より確実に音声入力を行うことができる。
図19は、実施の形態1〜4におけるユーザインターフェース制御装置2のハードウェア構成の一例を示す図である。ユーザインターフェース制御装置2はコンピュータであり、記憶装置20、制御装置30、入力装置40、出力装置50といったハードウェアを備えている。ハードウェアは、ユーザインターフェース制御装置2の各部(推定部3、候補決定部4、ガイダンス生成部6、音声認識部8、機能決定部9、認識判断部11)によって利用される。
記憶装置20は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)である。サーバの記憶部と、ユーザインターフェース制御装置2の記憶部は、記憶装置20により実装することができる。記憶装置20には、プログラム21、ファイル22が記憶されている。プログラム21には、各部の処理を実行するプログラムが含まれる。ファイル22には、各部によって入力、出力、演算等が行われるデータ、情報、信号等が含まれる。また、キーワード知識14もファイル22に含まれる。また、履歴情報、ガイダンス辞書または音声認識辞書をファイル22に含めてもよい。
処理装置30は、例えば、CPU(Central Processing Unit)である。処理装置30は、記憶装置20からプログラム21を読み出し、プログラム21を実行する。ユーザインターフェース制御装置2の各部の動作は、処理装置30により実装することができる。
入力装置40は、ユーザインターフェース制御装置2の各部によってデータ、情報、信号等の入力(受信)のために利用される。また、出力装置50は、ユーザインターフェース制御装置2の各部によってデータ、情報、信号等の出力(送信)のために利用される。
1 ユーザインターフェースシステム、2 ユーザインターフェース制御装置、3 推定部、4 候補決定部、5 候補選択部、6 ガイダンス生成部、7 ガイダンス出力部、8 音声認識部、9 機能決定部、10 機能実行部、11 認識判断部、12 機能候補選択部、13 表示部、14 キーワード知識、15 候補選択部、20 記憶装置、21 プログラム、22 ファイル、30 処理装置、40 入力装置、50 出力装置。
この発明に係るユーザインターフェースシステムは、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定部と、推定部で推定された複数の音声操作の候補から1つの候補をユーザが選択するための候補選択部と、ユーザが選択した候補についてユーザの音声入力を促すガイダンスを出力するガイダンス出力部と、ガイダンスに対するユーザの音声入力に対応する機能を実行する機能実行部とを備え、推定部は、推定された複数の音声操作の候補の尤度が低い場合に、複数の候補の上位概念の音声操作の候補を推定結果として候補選択部に出力し、候補選択部は、上位概念の音声操作の候補を提示するものである。
この発明に係るユーザインターフェース制御装置は、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定部と、推定部で推定された複数の音声操作の候補からユーザの選択に基づき決定された1つの候補についてユーザの音声入力を促すガイダンスを生成するガイダンス生成部と、ガイダンスに対するユーザの音声入力を認識する音声認識部と、認識された音声入力に対応する機能を実行するよう指示情報を出力する機能決定部とを備え、推定部は、推定された複数の音声操作の候補の尤度が低い場合に、複数の候補の上位概念の音声操作の候補を推定結果として出力し、ガイダンス生成部は、推定された上位概念の音声操作の候補についてユーザの音声入力を促すガイダンスを生成するものである。
この発明に係るユーザインターフェース制御方法は、現在の状況に関する情報に基づいてユーザの意図する音声操作を推定するステップと、推定ステップで推定された複数の音声操作の候補からユーザの選択に基づき決定された1つの候補についてユーザの音声入力を促すガイダンスを生成するステップと、ガイダンスに対するユーザの音声入力を認識するステップと、認識された音声入力に対応する機能を実行するよう指示情報を出力するステップと、推定ステップで推定された複数の音声操作の候補の尤度が低い場合に、複数の候補の上位概念の音声操作の候補を推定結果として出力するステップと、上位概念の音声操作の候補を提示するステップとを備えるものである。
この発明に係るユーザインターフェース制御プログラムは、現在の状況に関する情報に基づいてユーザの音声操作の意図を推定する推定処理と、推定処理により推定された複数の音声操作の候補からユーザの選択に基づき決定された1つの候補についてユーザの音声入力を促すガイダンスを生成するガイダンス生成処理と、ガイダンスに対するユーザの音声入力を認識する音声認識処理と、認識された音声入力に対応する機能を実行するよう指示情報を出力する処理と、推定された複数の音声操作の候補の尤度が低い場合に、複数の候補の上位概念の音声操作の候補を推定結果として出力する処理と、上位概念の音声操作の候補を提示する処理とをコンピュータに実行させるものである。

Claims (10)

  1. 現在の状況に関する情報に基づいてユーザの意図する音声操作を推定する推定部と、
    前記推定部で推定された複数の音声操作の候補から1つの候補をユーザが選択するための候補選択部と、
    ユーザが選択した前記候補についてユーザの音声入力を促すガイダンスを出力するガイダンス出力部と、
    前記ガイダンスに対するユーザの音声入力に対応する機能を実行する機能実行部と
    を備えるユーザインターフェースシステム。
  2. 前記ユーザの音声入力に対応する機能の候補が複数ある場合に、ユーザにより1つの機能の候補が選択されるよう、前記複数の機能の候補を提示することを特徴とする請求項1記載のユーザインターフェースシステム。
  3. 前記推定部は、前記ユーザの音声入力が上位概念の言葉である場合に、前記上位概念の言葉に含まれる下位概念の音声操作の候補を、現在の状況に関する情報に基づいて推定し、
    前記候補選択部は、前記推定部で推定された下位概念の音声操作の候補を提示することを特徴とする請求項1記載のユーザインターフェースシステム。
  4. 前記推定部は、推定された複数の音声操作の候補の尤度が低い場合に、前記複数の候補の上位概念の音声操作の候補を推定結果として前記候補選択部に出力し、
    前記候補選択部は、前記上位概念の音声操作の候補を提示することを特徴とする請求項1記載のユーザインターフェースシステム。
  5. 現在の状況に関する情報に基づいてユーザの意図する音声操作を推定する推定部と、
    前記推定部で推定された複数の音声操作の候補からユーザの選択に基づき決定された1つの候補についてユーザの音声入力を促すガイダンスを生成するガイダンス生成部と、
    前記ガイダンスに対するユーザの音声入力を認識する音声認識部と、
    認識された音声入力に対応する機能を実行するよう指示情報を出力する機能決定部と
    を備えるユーザインターフェース制御装置。
  6. 前記音声認識部により認識されたユーザの音声入力に対応する機能の候補が複数あるか否かを判断し、複数あると判断した場合に、前記複数の機能の候補をユーザに提示するよう前記判断結果を出力する認識判断部を更に備えることを特徴とする請求項5記載のユーザインターフェース制御装置。
  7. 前記音声認識部は、前記ユーザの音声入力が上位概念の言葉であるか下位概念の言葉であるかを判断し、
    前記推定部は、前記ユーザの音声入力が上位概念の言葉である場合に、前記上位概念の言葉に含まれる下位概念の音声操作の候補を、現在の状況に関する情報に基づいて推定し、
    前記ガイダンス生成部は、前記下位概念の音声操作の候補からユーザの選択に基づき決定された1つの候補についてガイダンスを生成することを特徴とする請求項5記載のユーザインターフェース制御装置。
  8. 前記推定部は、推定された複数の音声操作の候補の尤度が低い場合に、前記複数の候補の上位概念の音声操作の候補を推定結果として出力し、
    前記ガイダンス生成部は、推定された前記上位概念の音声操作の候補についてユーザの音声入力を促すガイダンスを生成することを特徴とする請求項5記載のユーザインターフェース制御装置。
  9. 現在の状況に関する情報に基づいてユーザの意図する音声操作を推定するステップと、
    前記推定ステップで推定された複数の音声操作の候補からユーザの選択に基づき決定された1つの候補についてユーザの音声入力を促すガイダンスを生成するステップと、
    前記ガイダンスに対するユーザの音声入力を認識するステップと、
    認識された音声入力に対応する機能を実行するよう指示情報を出力するステップと
    を備えるユーザインターフェース制御方法。
  10. 現在の状況に関する情報に基づいてユーザの意図する音声操作を推定する推定処理と、
    前記推定処理により推定された複数の音声操作の候補からユーザの選択に基づき決定された1つの候補についてユーザの音声入力を促すガイダンスを生成するガイダンス生成処理と、
    前記ガイダンスに対するユーザの音声入力を認識する音声認識処理と、
    認識された音声入力に対応する機能を実行するよう指示情報を出力する処理とをコンピュータに実行させるユーザインターフェース制御プログラム。
JP2016514543A 2014-04-22 2014-04-22 ユーザインターフェースシステム、ユーザインターフェース制御装置、ユーザインターフェース制御方法およびユーザインターフェース制御プログラム Expired - Fee Related JP5968578B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/002263 WO2015162638A1 (ja) 2014-04-22 2014-04-22 ユーザインターフェースシステム、ユーザインターフェース制御装置、ユーザインターフェース制御方法およびユーザインターフェース制御プログラム

Publications (2)

Publication Number Publication Date
JP5968578B2 JP5968578B2 (ja) 2016-08-10
JPWO2015162638A1 true JPWO2015162638A1 (ja) 2017-04-13

Family

ID=54331839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016514543A Expired - Fee Related JP5968578B2 (ja) 2014-04-22 2014-04-22 ユーザインターフェースシステム、ユーザインターフェース制御装置、ユーザインターフェース制御方法およびユーザインターフェース制御プログラム

Country Status (5)

Country Link
US (1) US20170010859A1 (ja)
JP (1) JP5968578B2 (ja)
CN (1) CN106233246B (ja)
DE (1) DE112014006614B4 (ja)
WO (1) WO2015162638A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6348831B2 (ja) * 2014-12-12 2018-06-27 クラリオン株式会社 音声入力補助装置、音声入力補助システムおよび音声入力方法
JP6477551B2 (ja) * 2016-03-11 2019-03-06 トヨタ自動車株式会社 情報提供装置及び情報提供プログラム
US10282218B2 (en) * 2016-06-07 2019-05-07 Google Llc Nondeterministic task initiation by a personal assistant module
CN107277225B (zh) * 2017-05-04 2020-04-24 北京奇虎科技有限公司 语音控制智能设备的方法、装置和智能设备
WO2019082630A1 (ja) * 2017-10-23 2019-05-02 ソニー株式会社 情報処理装置、及び情報処理方法
CN108132805B (zh) * 2017-12-20 2022-01-04 深圳Tcl新技术有限公司 语音交互方法、装置及计算机可读存储介质
CN108520748B (zh) 2018-02-01 2020-03-03 百度在线网络技术(北京)有限公司 一种智能设备功能引导方法及系统
CN110231863B (zh) * 2018-03-06 2023-03-24 斑马智行网络(香港)有限公司 语音交互方法和车载设备
JP2019159883A (ja) * 2018-03-14 2019-09-19 アルパイン株式会社 検索システム、検索方法
DE102018206015A1 (de) * 2018-04-19 2019-10-24 Bayerische Motoren Werke Aktiengesellschaft Benutzerkommunikation an Bord eines Kraftfahrzeugs
WO2019239582A1 (ja) * 2018-06-15 2019-12-19 三菱電機株式会社 機器制御装置、機器制御システム、機器制御方法、および、機器制御プログラム
CN108881466B (zh) * 2018-07-04 2020-06-26 百度在线网络技术(北京)有限公司 交互方法和装置
JP7103074B2 (ja) * 2018-08-31 2022-07-20 コニカミノルタ株式会社 画像形成装置及び操作方法
JP7063844B2 (ja) * 2019-04-26 2022-05-09 ファナック株式会社 ロボット教示装置
JP7063843B2 (ja) * 2019-04-26 2022-05-09 ファナック株式会社 ロボット教示装置
JP7388006B2 (ja) * 2019-06-03 2023-11-29 コニカミノルタ株式会社 画像処理装置及びプログラム
CN112397062A (zh) * 2019-08-15 2021-02-23 华为技术有限公司 语音交互方法、装置、终端及存储介质
DE102021106520A1 (de) * 2021-03-17 2022-09-22 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Betreiben eines digitalen Assistenten eines Fahrzeugs, computerlesbares Medium, System, und Fahrzeug
WO2023042277A1 (ja) * 2021-09-14 2023-03-23 ファナック株式会社 操作訓練装置、操作訓練方法、およびコンピュータ読み取り可能な記憶媒体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3980791B2 (ja) * 1999-05-03 2007-09-26 パイオニア株式会社 音声認識装置を備えたマンマシンシステム
JP3530109B2 (ja) * 1999-05-31 2004-05-24 日本電信電話株式会社 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体
JP2002092029A (ja) * 2000-09-20 2002-03-29 Denso Corp ユーザ情報推定装置
JP2003167895A (ja) * 2001-11-30 2003-06-13 Denso Corp 情報検索システム、サーバおよび車載端末
JP4140375B2 (ja) * 2002-12-19 2008-08-27 富士ゼロックス株式会社 サービス検索装置、サービス検索システム及びサービス検索プログラム
JP5044236B2 (ja) * 2007-01-12 2012-10-10 富士フイルム株式会社 コンテンツ検索装置、およびコンテンツ検索方法
DE102007036425B4 (de) * 2007-08-02 2023-05-17 Volkswagen Ag Menügesteuertes Mehrfunktionssystem insbesondere für Fahrzeuge
JP5638210B2 (ja) * 2009-08-27 2014-12-10 京セラ株式会社 携帯電子機器
WO2013014709A1 (ja) * 2011-07-27 2013-01-31 三菱電機株式会社 ユーザインタフェース装置、車載用情報装置、情報処理方法および情報処理プログラム
CN103207881B (zh) * 2012-01-17 2016-03-02 阿里巴巴集团控股有限公司 查询方法和装置

Also Published As

Publication number Publication date
WO2015162638A1 (ja) 2015-10-29
CN106233246A (zh) 2016-12-14
CN106233246B (zh) 2018-06-12
US20170010859A1 (en) 2017-01-12
JP5968578B2 (ja) 2016-08-10
DE112014006614T5 (de) 2017-01-12
DE112014006614B4 (de) 2018-04-12

Similar Documents

Publication Publication Date Title
JP5968578B2 (ja) ユーザインターフェースシステム、ユーザインターフェース制御装置、ユーザインターフェース制御方法およびユーザインターフェース制御プログラム
US20220301566A1 (en) Contextual voice commands
JP6570651B2 (ja) 音声対話装置および音声対話方法
US10839805B2 (en) Disambiguating input based on context
KR101418163B1 (ko) 컨텍스트 정보를 이용한 음성 인식 복구
JP5158174B2 (ja) 音声認識装置
EP2518447A1 (en) System and method for fixing user input mistakes in an in-vehicle electronic device
JP6966979B2 (ja) 対話システムの制御方法、対話システム及びプログラム
JP2011203349A (ja) 音声認識システム及び自動検索システム
JP2003032388A (ja) 通信端末装置及び処理システム
JP2020129130A (ja) 情報処理装置
AU2020264367B2 (en) Contextual voice commands
JP5446540B2 (ja) 情報検索装置、制御方法及びプログラム
JPWO2019058453A1 (ja) 音声対話制御装置および音声対話制御方法
EP3035207A1 (en) Speech translation device
JP2018194849A (ja) 情報処理装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160530

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160705

R150 Certificate of patent or registration of utility model

Ref document number: 5968578

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees