WO2016190060A1

WO2016190060A1 - 情報処理装置および情報処理方法、並びにプログラム

Info

Publication number: WO2016190060A1
Application number: PCT/JP2016/063631
Authority: WO
Inventors: 浩明小川
Original assignee: ソニー株式会社
Priority date: 2015-05-22
Filing date: 2016-05-06
Publication date: 2016-12-01
Also published as: DE112016002321T5; JP2016218852A; US20180137861A1; US10706844B2

Abstract

本開示は、より良いユーザ体験を提供することができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。情報処理装置は、ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、起動ワードとして用いる語彙を設定する起動ワード設定部と、ユーザの発話する音声に対する音声認識を行って、起動ワード設定部により起動ワードとして用いるように設定されている語彙が発話されたことを認識する起動ワード認識部とを備える。本技術は、例えば、音声認識機能を備えたウェアラブル端末に適用できる。

Description

情報処理装置および情報処理方法、並びにプログラム

　本開示は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、より良いユーザ体験を提供することができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。

　近年、ユーザが身に着けて持ち歩くことができる小型デバイスとして、例えば、眼鏡型や時計型などのウェアラブル端末が開発されており、多くのウェアラブル端末には、ユーザが発話する音声を認識する音声認識機能が搭載されている。このようなウェアラブル端末における音声認識機能を、常時、利用可能とすることによって、ユーザの利便性を向上させることができる。しかしながら、ウェアラブル端末が、ユーザの独り言や周囲のノイズなどに反応して音声認識することも想定され、音声認識機能を常に利用可能とした場合には、誤作動が発生することが懸念される。

　そのため、通常時には音声認識機能を停止させておき、音声認識機能を起動させるための起動ボタンをウェアラブル端末に設けることが検討される。しかしながら、小型のウェアラブル端末では、起動ボタンを設けることが困難であったり、起動ボタンに対する良好な操作性を提供することが困難であったりすることが想定される。これに対し、ユーザの利便性を考慮して、所定の起動ワードをウェアラブル端末に設定しておき、その起動ワードが認識されたときに一定期間だけ、音声認識機能を起動する技術が開発されている。

　一方、ユーザが発話する音声だけでなく、ユーザのジェスチャも組み合わせた解析を行うことによって、より複雑で具体的な入力情報に対応することができる技術が開発されている。

　例えば、特許文献１には、発話音声を音声認識した音声認識結果と、画面に対するジェスチャの軌道とを、発話音声およびジェスチャが入力された時間関係に基づいて対応付けることにより、ジェスチャによって指示された指示物の情報を出力することができる情報処理装置が開示されている。

特開平９－１１４６３４号公報

　ところで、従来のウェアラブル端末において、音声認識を利用したアプリケーションを実行しているときに、音声認識機能を起動させるための起動ワードを発話することによって、アプリケーションにより提供されるユーザ体験を損ねてしまうことがある。例えば、アプリケーションが特定の世界観を提供するゲームである場合に、その世界観と無関係の語彙が起動ワードとして設定されていると、その語彙を発話することによって、アプリケーションが提供する世界観からユーザを引き離すような感覚を与えてしまう。このようなユーザ体験を損ねるようなことを回避して、より良いユーザ体験を提供することが求められている。

　本開示は、このような状況に鑑みてなされたものであり、より良いユーザ体験を提供することができるようにするものである。

　本開示の一側面の情報処理装置は、ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定する起動ワード設定部と、前記ユーザの発話する音声に対する音声認識を行って、前記起動ワード設定部により前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する起動ワード認識部とを備える。

　本開示の一側面の情報処理方法またはプログラムは、ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定し、前記ユーザの発話する音声に対する音声認識を行って、前記起動ワードとして用いるように設定されている語彙が発話されたことを認識するステップを含む。

　本開示の一側面においては、ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、起動ワードとして用いる語彙が設定され、ユーザの発話する音声に対する音声認識を行って、起動ワードとして用いるように設定されている語彙が発話されたことが認識される。

　本開示の一側面によれば、より良いユーザ体験を提供することができる。

本技術を適用した情報処理装置の第１の実施の形態の構成例を示すブロック図である。対応データベースに登録される語彙およびセンサパタンを説明する図である。起動ワード語彙データベースに登録される語彙を説明する図である。起動ワード認識制御装置において実行される起動ワード認識制御処理を説明するフローチャートである。本技術を適用した情報処理装置の第２の実施の形態の構成例を示すブロック図である。アプリケーション実行装置の構成例を示すブロック図である。コマンドデータベースの一例を示す図である。アプリケーション実行部において行われる処理について説明する図である。アプリケーション実行部において行われる処理を説明するフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

　図１は、本技術を適用した情報処理装置の第１の実施の形態の構成例を示すブロック図である。

　図１に示すように、情報処理装置１１は、検出部１２、音声入力部１３、アプリケーション実行部１４、出力部１５、および起動ワード認識制御部１６を備えて構成される。例えば、情報処理装置１１は、ユーザが身に着けて持ち歩くことが可能なウェアラブル端末であり、ユーザの音声および動作に応じて音声認識機能を起動し、音声認識を利用したアプリケーションによって様々なユーザ体験を提供することができる。

　検出部１２は、例えば、位置センサや、地磁気センサ、ジャイロセンサなどの各種のセンサを有して構成され、それらのセンサにより検出された検出結果を、アプリケーション実行部１４および起動ワード認識制御部１６に供給する。例えば、検出部１２は、位置センサにより検出される情報処理装置１１の現在位置情報を、検出結果としてアプリケーション実行部１４および起動ワード認識制御部１６に供給する。また、検出部１２は、地磁気センサおよびジャイロセンサにより検出される情報処理装置１１の動作情報（どの方向に、どのような動きをしたかを示す情報）を、検出結果としてアプリケーション実行部１４および起動ワード認識制御部１６に供給する。

　音声入力部１３は、例えば、マイクロホンにより構成され、ユーザが発話する音声を電気信号に変換して、アプリケーション実行部１４および起動ワード認識制御部１６に供給する。

　アプリケーション実行部１４は、音声認識を利用した各種のアプリケーションを実行する。例えば、アプリケーション実行部１４は、音声認識機能の起動に用いるように設定された起動ワードが認識されたタイミングから一定期間だけ、音声認識機能を起動する。そして、アプリケーション実行部１４は、音声認識機能が起動している期間におけるユーザの音声を認識し、その認識結果に基づいて、実行するアプリケーションに応じた出力を出力部１５に供給する。なお、アプリケーション実行部１４の構成については、図６を参照して後述する。

　出力部１５は、例えば、ディスプレイやスピーカなどにより構成され、アプリケーション実行部１４において実行されるアプリケーションによる認識結果に応じて、スピーカから音声を出力し、ディスプレイに画像を表示する。

　起動ワード認識制御部１６は、センサ監視部２１、対応データベース２２、起動ワード制御部２３、起動ワード語彙データベース２４、および起動ワード認識部２５を備えて構成される。そして、起動ワード認識制御部１６は、検出部１２から供給される検出結果に基づいて、アプリケーション実行部１４の音声認識機能を起動するための起動ワードとして用いる語彙を増減する制御を行う。

　センサ監視部２１は、検出部１２が備える各種のセンサの状態を監視し、対応データベース２２に登録されているセンサパタンおよび語彙を参照して、起動ワード制御部２３に対する指示を行う。例えば、センサ監視部２１は、検出部１２から供給される検出結果に基づくユーザの動作が、所定の語彙を起動ワードとして用いることを開始する開始条件を示すセンサパタンに該当する状況となったとき、その語彙を起動ワードとして用いるように、起動ワード制御部２３に対する指示を行う。また、このとき、センサ監視部２１は、その語彙を起動ワードとして用いることを終了する終了条件を示すセンサパタンを対応データベース２２から読み出して保持しておく。そして、センサ監視部２１は、起動ワードとして用いている語彙の終了条件を示すセンサパタンに該当する状況となったとき、その語彙を起動ワードとして用いることを終了するように、起動ワード制御部２３に対する指示を行う。

　対応データベース２２は、図２を参照して後述するように、起動ワードとして用いられる様々な語彙と、それらの語彙の開始条件および終了条件を示すセンサパタンとが対応付けられて登録されている。

　起動ワード制御部２３は、センサ監視部２１からの指示に従って、起動ワード語彙データベース２４に語彙を登録し、また、起動ワード語彙データベース２４から語彙を削除することにより、起動ワードとして用いる語彙の増減を制御する。

　起動ワード語彙データベース２４には、起動ワードとして用いられる語彙が登録される。

　起動ワード認識部２５は、音声入力部１３から入力される音声に対する音声認識処理を行う。そして、起動ワード認識部２５は、音声認識処理を行った結果、起動ワード語彙データベース２４に登録されている起動ワードをユーザが発話したことを認識した場合、その旨をアプリケーション実行部１４に通知する。

　以上のように構成される情報処理装置１１では、センサ監視部２１および起動ワード制御部２３により、検出部１２による検出結果に基づいて、アプリケーション実行部１４の音声認識機能を起動させるためにユーザが発話する起動ワードが増減するように、起動ワードとして用いる語彙を制御することができる。これにより、例えば、アプリケーション実行部１４の音声認識機能を常に起動させる構成と比較して、雑音などによって誤作動が発生することを抑制することができる。

　また、情報処理装置１１では、アプリケーション実行部１４が実行するアプリケーションに応じて、そのアプリケーションにより提供される世界観に沿った語彙を起動ワードとすることができる。これにより、アプリケーションが提供する世界観からユーザを引き離すような感覚を与えることを回避することができ、より良いユーザ体験を提供することができる。

　次に、図２には、対応データベース２２に登録される語彙およびセンサパタンが示されている。

　対応データベース２２には、情報処理装置１１において起動ワードとして用いられる全ての語彙が登録されている。そして、対応データベース２２では、それらの語彙に対応付けて、起動ワードとして用いることを開始する開始条件を示すセンサパタン、および、起動ワードとして用いることを終了する終了条件を示すセンサパタンが登録されている。センサパタンとしては、例えば、検出部１２により検出されるユーザの動作や、語彙を起動ワードとして用い始めてからの経過時間などが登録される。

　例えば、対応データベース２２には、語彙「アブラカダブラ」に対応付けて、開始条件を示すセンサパタン「北緯35.6197、東経139.728553、10ｍの範囲内である」と、終了条件を示すセンサパタン「北緯35.6197、東経139.728553、10ｍの範囲外である」とが登録されている。

　従って、例えば、センサパタンで規定される範囲内にユーザが移動すると、検出部１２から検出結果としてセンサ監視部２１に供給される位置情報が、開始条件を示すセンサパタンに該当する状況を示すことになる。これに従い、センサ監視部２１は、語彙「アブラカダブラ」を起動ワードとして用いるように、起動ワード制御部２３に対する指示を行う。その後、例えば、センサパタンで規定される範囲外にユーザが移動すると、検出部１２から検出結果としてセンサ監視部２１に供給される位置情報が、終了条件を示すセンサパタンに該当する状況を示すことになる。これに従い、センサ監視部２１は、語彙「アブラカダブラ」を起動ワードとして用いることを終了するように、起動ワード制御部２３に対する指示を行う。

　また、対応データベース２２には、語彙「ジャンプ」に対応付けて、開始条件を示すセンサパタン「ユーザが３回ジャンプした」と、終了条件を示すセンサパタン「開始から10秒経過した」とが登録されている。

　従って、例えば、検出部１２の加速度センサの出力に従って、ユーザが３回ジャンプしたことを示す検出結果が供給されると、センサ監視部２１は、語彙「ジャンプ」の開始条件を示すセンサパタンに該当する状況になったと判断する。そして、センサ監視部２１は、語彙「ジャンプ」を起動ワードとして用いるように、起動ワード制御部２３に対する指示を行う。このとき、センサ監視部２１は、語彙「ジャンプ」を起動ワードとして用い始めてからの経過時刻を計時する。その後、センサ監視部２１は、経過時刻が10秒を経過したタイミングで、終了条件を示すセンサパタンに該当する状況になったと判断し、語彙「ジャンプ」を起動ワードとして用いることを終了するように、起動ワード制御部２３に対する指示を行う。

　同様に、対応データベース２２には、語彙「加速装置」に対応付けて、開始条件を示すセンサパタン「ユーザの歩行速度が25km/h以上である」と、終了条件を示すセンサパタン「ユーザの歩行速度が25km/h未満である」とが登録されている。従って、例えば、センサ監視部２１は、検出部１２の加速度センサ、ジャイロセンサ、および位置センサの出力から求められるユーザの歩行速度に従って、語彙「加速装置」を起動ワードとして用いることを制御する。

　また、対応データベース２２には、語彙「召喚」に対応付けて、開始条件を示すセンサパタン「ユーザが顔を上に向けた」と、終了条件を示すセンサパタン「ユーザが顔を前に向けた」とが登録されている。例えば、情報処理装置１１が眼鏡型のウェアラブル端末である場合、検出部１２のジャイロセンサによりユーザの顔の向きを検出することができ、センサ監視部２１は、ユーザの顔の向きに従って、語彙「加速装置」を起動ワードとして用いることを制御する。

　このように、対応データベース２２に登録されているセンサパタンを参照し、センサ監視部２１は、それぞれのセンサパタンに対応付けられている語彙を、起動ワードとして用いることを制御することができる。

　なお、図２に示したようなセンサパタンの他、例えば、加速度センサなどにより検知されるユーザの動作が所定の条件を満たした場合、一定時間だけ、所定の語彙を起動ワードとして用いることができる。また、ユーザの動作が第１の動作を行ってから、第２の動作を行うまでの間、所定の語彙を起動ワードとして用いるようにしてもよい。例えば、ユーザが、顔を右側に傾けてから左側に傾けるまでの間や、腕を振り上げてから振り下ろすまでの間などをセンサパタンとすることができる。

　次に、図３には、起動ワード語彙データベース２４に登録される語彙が示されている。

　例えば、起動ワード語彙データベース２４には、常に起動ワードとして用いるように設定されている語彙「ハロースマホ」が登録されている。

　そして、図３の上段に示すように、語彙「ハロースマホ」だけが登録されているときに、例えば、図２に示したセンサパタン「北緯35.6197、東経139.728553、10ｍの範囲内」にユーザが移動したとする。この場合、センサ監視部２１は、語彙「アブラカダブラ」を起動ワードとして用いるように、起動ワード制御部２３に対する指示を行う。この指示に応じて、起動ワード制御部２３は、図３の中段に示すように、起動ワード語彙データベース２４に語彙「アブラカダブラ」を追加する。

　その後、ユーザが移動し、センサパタン「北緯35.6197、東経139.728553、10ｍの範囲外」となると、センサ監視部２１は、語彙「アブラカダブラ」を起動ワードとして用いることを終了するように、起動ワード制御部２３に対する指示を行う。これに従い、起動ワード制御部２３は、図３の下段に示すように、起動ワード語彙データベース２４から語彙「アブラカダブラ」を削除する。

　従って、起動ワード認識部２５は、図３に示した語彙「アブラカダブラ」に対応するセンサパタン「北緯35.6197、東経139.728553、10ｍの範囲内」にユーザが居るときだけ、語彙「アブラカダブラ」を起動ワードとして認識することができる。

　これにより、例えば、アプリケーション実行部１４が実行するアプリケーションが、呪文を使って冒険を行うようなゲームである場合、情報処理装置１１は、ゲーム内で所定のドアが表示されている場所にユーザが居る時だけ、語彙「アブラカダブラ」を起動ワードとすることができる。そして、そのドアを開けるための呪文をユーザが発話すると、アプリケーション実行部１４の音声認識機能により呪文を認識して、ドアが開くような画像を表示させることができる。一方、例えば、音声認識機能を起動するために、情報処理装置１１に対する通常の語彙「ハロースマホ」をユーザが発話した場合には、そのゲームの世界観からユーザを引き離すような感覚を与えてしまうことが想定される。これに対し、情報処理装置１１は、ゲームが提供する世界観に合った語彙「アブラカダブラ」をユーザが発話することで、アプリケーション実行部１４の音声認識機能を起動することができるため、ゲームの世界観に沿ったままのユーザ体験を提供することができる。

　次に、図４は、起動ワード認識制御部１６において実行される起動ワード認識制御処理を説明するフローチャートである。

　例えば、情報処理装置１１に対してアプリケーション実行部１４による音声認識を利用したアプリケーションを実行するように操作が行われると、起動ワード認識制御部１６において起動ワード認識制御処理が開始される。そして、ステップＳ１１において、センサ監視部２１は、検出部１２から供給される検出結果に基づいて、対応データベース２２に登録されているセンサパタンの開始条件に該当する状況になったか否かを判定する。

　ステップＳ１１において、センサ監視部２１が、センサパタンの開始条件に該当する状況になったと判定した場合、処理はステップＳ１２に進む。

　ステップＳ１２において、センサ監視部２１は、開始条件に該当する状況になったと判定されたセンサパタンに対応付けられている語彙を起動ワードとして用いるように、起動ワード制御部２３に対する指示を行う。これに従い、起動ワード制御部２３は、センサ監視部２１から指示された語彙が起動ワードとして用いられるように、起動ワード語彙データベース２４に登録する。

　ステップＳ１３において、センサ監視部２１は、ステップＳ１２で起動ワードとして用いるように指示した語彙と、その語彙に対応付けられているセンサパタンの終了条件を、内部に保持する。

　ステップＳ１３の処理後、または、ステップＳ１１でセンサパタンの開始条件に該当する状況になっていないと判定された場合、処理はステップＳ１４に進む。

　ステップＳ１４において、センサ監視部２１は、検出部１２から供給される検出結果に基づいて、対応データベース２２に登録されているセンサパタンの終了条件に該当する状況になったか否かを判定する。

　ステップＳ１４において、センサ監視部２１が、センサパタンの開始条件に該当する状況になったと判定した場合、処理はステップＳ１５に進む。

　ステップＳ１５において、センサ監視部２１は、開始条件に該当する状況になったと判定されたセンサパタンに対応付けられている語彙を起動ワードから除外するように、起動ワード制御部２３に対する指示を行う。これに従い、起動ワード制御部２３は、センサ監視部２１から指示された語彙を、起動ワード語彙データベース２４から削除する。

　ステップＳ１６において、センサ監視部２１は、ステップＳ１５で起動ワードから除外するように指示した語彙と、その語彙に対応付けられているセンサパタンの終了条件を、内部から消去する。

　ステップＳ１６の処理後、または、ステップＳ１４でセンサパタンの終了条件に該当する状況になっていないと判定された場合、処理はステップＳ１７に進む。

　ステップＳ１７において、起動ワード認識部２５は、音声入力部１３から入力される音声に対する音声認識処理を行った結果、起動ワード語彙データベース２４に登録されている起動ワードが発話されたか否かを判定する。

　ステップＳ１７において、起動ワードが発話されたと判定された場合、処理はステップＳ１８に進み、起動ワードが発話された旨をアプリケーション実行部１４に通知し、音声認識機能を起動するように指示を行う。これにより、アプリケーション実行部１４において音声認識処理が開始される。

　ステップＳ１８の処理後、または、ステップＳ１７で起動ワードが発話されていないと判定された場合、処理はステップＳ１１に戻り、以下、アプリケーション実行部１４がアプリケーションの実行を終了するまで、同様の処理が繰り返される。

　以上のように、情報処理装置１１は、ユーザの行動がセンサパタンの開始条件に該当すると、その開始条件に対応付けられている語彙を起動ワードとして用いるように登録し、ユーザの行動がセンサパタンの終了条件に該当すると、その終了条件に対応付けられている語彙を起動ワードから除外することで、ユーザの行動に従って、起動ワードの増減を確実に制御することができる。

　なお、情報処理装置１１では、例えば、起動ワードデータベース２４に登録され、起動ワードとして認識可能な語彙を、出力部１５のディスプレイに表示することができる。これにより、使用可能な起動ワードをユーザに認識させることができる。

　次に、図５は、本技術を適用した情報処理装置の第２の実施の形態の構成例を示すブロック図である。

　図５に示すように、情報処理装置１１Ａは、検出部１２、音声入力部１３、アプリケーション実行部１４、出力部１５、および起動ワード認識制御部１６Ａを備えて構成される。なお、検出部１２、音声入力部１３、アプリケーション実行部１４、および出力部１５の構成は、図１の情報処理装置１１と同様であり、その詳細な説明は省略する。

　起動ワード認識制御部１６Ａは、センサ監視部２１、対応データベース２２、起動ワード語彙データベース２４、起動ワード認識部２５、および起動ワードフィルタ部２６を備えて構成される。

　センサ監視部２１は、検出部１２が備える各種のセンサの状態を監視し、対応データベース２２に登録されているセンサパタンを参照し、起動ワードフィルタ部２６に対して、起動ワードとして用いる語彙を増減する制御を行う。対応データベース２２には、図２を参照して上述したように、センサパタンおよび語彙が登録されている。

　起動ワード語彙データベース２４には、情報処理装置１１Ａにおいて利用する可能性のある全ての起動ワードとなる語彙が、予め登録されている。起動ワード認識部２５は、音声入力部１３から入力される音声に対する音声認識処理を行い、起動ワード語彙データベース２４に登録されている語彙が入力されたことを認識した場合、その語彙を起動ワードフィルタ部２６に供給する。

　起動ワードフィルタ部２６は、起動ワード認識部２５から供給される語彙が、センサ監視部２１から起動ワードとして用いるように指示された語彙であるか否かを判定することにより、起動ワードのフィルタリングを行う。そして、起動ワードフィルタ部２６は、起動ワード認識部２５から供給される語彙が、センサ監視部２１から起動ワードとして用いるように指示された語彙である場合には、アプリケーション実行部１４に対して、ユーザが起動ワードを発話した旨を通知する。一方、起動ワードフィルタ部２６は、起動ワード認識部２５から供給される語彙が、センサ監視部２１から起動ワードとして用いるように指示された語彙でない場合には、ユーザが起動ワードを発話していないと判断する。

　このように構成される情報処理装置１１Ａは、起動ワードを確実に認識することができる。

　つまり、図１の情報処理装置１１では、起動ワード認識部２５が起動ワードとして認識する語彙を増減させることで、語彙数を最小限に保つことができることより、高い認識性を維持することができる。しかしながら、図１の情報処理装置１１では、検出部１２による検出結果が変化した後に起動ワードを起動ワード語彙データベース２４に登録するため、起動ワードを登録する処理に時間がかかった場合、起動ワードの増減に対応する反応が遅くなってしまう。そのため、例えば、起動ワードの登録中に、その起動ワードが発話されると、認識することができない恐れがある。

　これに対し、情報処理装置１１Ａでは、起動ワードを起動ワード語彙データベース２４に登録する処理が行われないので、情報処理装置１１と比較して、起動ワードの増減に対して確実に対応して、起動ワードを認識することができないような状況を回避することができる。これにより、情報処理装置１１Ａは、より確実に、起動ワードを認識することができる。

　次に、図６は、アプリケーション実行部１４の構成例を示すブロック図である。

　図６に示すように、アプリケーション実行部１４は、音声認識部３１、動作認識部３２、センサ情報記憶部３３、コマンドデータベース３４、および制御部３５を備えて構成される。

　音声認識部３１は、制御部３５の制御に従って音声認識を開始し、音声入力部１３から入力される音声に対する音声認識処理を行う。例えば、ユーザが、アプリケーション実行部１４で実行されるアプリケーションで用いられるコマンドを発話すると、音声認識部３１は、そのコマンドの音声を認識し、認識結果と、その発話に関連する時刻情報を制御部３５に供給する。

　動作認識部３２は、検出部１２が備える各種のセンサにより検出された検出結果に基づいた動作認識処理を行い、ユーザの動作を認識する。例えば、動作認識部３２は、検出部１２が備えるセンサの種類に応じて、ユーザが手を振り下ろした方向や、ユーザの顔および体の向いている方向などを認識して、それらの動作認識結果を、センサ情報としてセンサ情報記憶部３３に記憶させる。また、動作認識部３２は、制御部３５からセンサ情報について問い合わせがあると、検出部１２から供給される現在のセンサ情報、および、センサ情報記憶部３３に記憶されているセンサ情報の中から、問い合わせられたセンサ情報に対応する動作認識結果を、制御部３５に供給する。

　センサ情報記憶部３３は、動作認識部３２による動作認識処理により求められるセンサ情報を記憶する。

　コマンドデータベース３４には、後述する図７に示すように、アプリケーション実行部１４において実行されるアプリケーションで用いられるコマンドと、時刻範囲およびセンサ情報とが対応付けられて登録されている。

　制御部３５は、起動ワード認識制御部１６の起動ワード認識部２５により起動ワードが認識され、音声認識を起動するように起動ワード認識部２５から指示が入力されると、音声認識処理を開始するように音声認識部３１に対する起動制御を行う。そして、制御部３５は、音声認識部３１から供給されるコマンドの音声の認識結果および時刻情報に基づいて、コマンドデータベース３４を参照し、認識されたコマンドに対応付けられているセンサ情報を動作認識部３２に対して、動作認識結果の問い合わせを行う。その後、制御部３５は、動作認識部３２からの動作認識結果に従った出力を、出力部１５に供給する。なお、例えば、図５に示した情報処理装置１１Ａの構成においては、起動ワードフィルタ部２６（図５）から制御部３５に対して、音声認識を起動するように指示が入力され、同様の処理が行われる。

　例えば、図７には、コマンドデータベース３４の一例が示されている。

　図７に示すように、コマンドデータベース３４では、コマンド、時刻範囲、およびセンサ情報が対応付けられて登録されている。

　例えば、コマンド「ビーム発射」には、時刻範囲「音声発話後３秒以内」およびセンサ情報「右手が振り下ろされた方向」が対応付けられている。即ち、ユーザにより発話されるコマンド「ビーム発射」に対して、音声認識部３１によりコマンド「ビーム発射」が発話されたと認識され、その発話が終了した時刻から３秒以内にユーザの右腕が振り下ろされた方向を、動作認識部３２は、動作認識結果として制御部３５に供給する。この動作認識結果に応じ、制御部３５は、ユーザの右腕が振り下ろされた方向に、コマンド「ビーム発射」に応じた出力（例えば、ビームのエフェクトの表示）を行う。

　また、コマンド「ロケット発射」には、時刻範囲「発話直後」およびセンサ情報「体の向いている方向」が対応付けられている。即ち、ユーザにより発話されるコマンド「ロケット発射」に対して、音声認識部３１によりコマンド「ロケット発射」が発話されたと認識され、その発話が終了した直後にユーザの体が向いている方向を、動作認識部３２は、動作認識結果として制御部３５に供給する。この動作認識結果に応じ、制御部３５は、ユーザの体が向いている方向に、コマンド「ロケット発射」に応じた出力（例えば、発射されたロケットが進行するエフェクトの表示）を行う。

　また、コマンド「なぎ払え」には、時刻範囲「音声区間開始0.1秒前から音声終了まで」およびセンサ情報「右手が向いていた方向の範囲」が対応付けられている。即ち、ユーザにより発話されるコマンド「なぎ払え」に対して、音声認識部３１によりコマンド「なぎ払え」が発話されたと認識される直前の時刻（0.1秒前）から、その発話が終了する時刻までに、ユーザの右手が向いていた範囲を、動作認識部３２は、動作認識結果として制御部３５に供給する。

　また、コマンド「ココをマーク」には、時刻範囲「音声認識結果中の単語「ココ」の単語の終端時刻」およびセンサ情報「ユーザの顔の向いていた方向、ユーザの位置」が対応付けられている。即ち、ユーザにより発話されるコマンド「ココをマーク」に対して、音声認識部３１によりコマンド「ココをマーク」が発話されたと認識されたうちの、単語「ココ」の発話が終了した時刻に、ユーザの顔の向いていた方向とユーザの位置とを、動作認識部３２は、動作認識結果として制御部３５に供給する。この動作認識結果に応じ、制御部３５は、ユーザの体が向いている方向の前方箇所（ユーザの目の前の位置）に、コマンド「ココをマーク」に応じた出力（例えば、マークの固定的な表示）を行う。

　このように、コマンドデータベース３４には、音声認識部３１により認識されるコマンドに対応付けて、そのコマンドが発話された時刻を基準とした時刻範囲と、動作認識部３２により認識されるセンサ情報（方位や、方位の範囲、向き、高度など）とが登録される。

　ここで、図８を参照して、ユーザがコマンド「ビーム発射」を発話したときに、アプリケーション実行部１４において行われる処理の例について説明する。

　例えば、情報処理装置１１は、腕時計型のウェアラブル端末であって、検出部１２が備える地磁気センサおよびジャイロセンサにより、ユーザの腕の動きや方向を検出することができるものとする。この場合、例えば、上述したように、起動ワードの発話を検出して音声認識部３１の音声認識処理を開始する他、図８の最上段に示すように、ユーザが右手を上げたことを検出したときに、音声認識部３１の音声認識処理を開始することができる。

　制御部３５は、ユーザにより起動ワードが発話されたこと、または、ユーザにより所定の動作（この例では、右手を上げる）が行われたことが認識され、起動ワード認識制御部１６から音声認識処理を起動するように指示されると、音声認識部３１に対して音声認識処理を開始するように指示する処理を行う。そして、制御部３５は、ユーザにより発話された音声コマンドが音声認識部３１により認識されるまで処理を待機する。

　そして、図８の上から２段目に示すように、ユーザが、コマンド「ビーム発射」を発話すると、音声認識部３１は、そのコマンド「ビーム発射」を認識したことを示す認識結果と、コマンド「ビーム発射」が発話された時刻を示す時刻情報を制御部３５に供給する。

　これに応じて、制御部３５は、音声認識部３１により認識されたコマンド「ビーム発射」に対応付けられている時刻範囲およびセンサ情報をコマンドデータベース３４から読み出して、その時刻範囲におけるセンサ情報を動作認識部３２に対して要求する。

　その後、図８の上から３段目に示すように、ユーザが、上げていた右手を振り下ろす動作を行う。このような動作が行われたことを示す検出結果を検出部１２が動作認識部３２に供給すると、動作認識部３２は、ユーザの右手が振り下ろされた方向を動作認識結果として求め、制御部３５に供給する。

　そして、制御部３５は、図８の上から４段目に示すように、ユーザの右手が振り下ろされた方向に、ビームが発射されたようなエフェクトを表現する画像を、拡張現実的に出力部１５のディスプレイに表示させる。

　このように、アプリケーション実行部１４は、ユーザがコマンドを発話した時刻に基づいて、ユーザの動作を認識し、そのユーザの動作に合った出力を行うことができる。

　次に、図９のフローチャートを参照して、アプリケーション実行部１４において実行される音声認識を利用したアプリケーションの処理について説明する。

　例えば、起動ワード認識制御部１６の起動ワード認識部２５により起動ワードが認識されると処理が開始され、ステップＳ２１において、制御部３５は、音声認識部３１に対して音声認識処理を開始するように制御を行う。

　ステップＳ２２において、制御部３５は、音声認識部３１によりコマンドが認識されたか否かを判定し、音声認識部３１によりコマンドが認識されたと判定するまで処理を待機する。そして、制御部３５は、音声認識部３１からコマンドの音声の認識結果および時刻情報が供給されると、コマンドが認識されたと判定して、処理はステップＳ２３に進む。

　ステップＳ２３において、制御部３５は、コマンドデータベース３４を参照して、認識されたコマンドに対応付けられているセンサ情報を動作認識部３２に対して問い合わせを行う。

　ステップＳ２４において、動作認識部３２は、問い合わせられたセンサ情報に対応する動作認識結果を制御部３５に供給し、制御部３５は、その動作認識結果に従った出力を、出力部１５に供給する。

　ステップＳ２４の処理後、処理はステップＳ２２に戻り、以下、同様の処理が繰り返される。

　以上のように、アプリケーション実行部１４は、ユーザが発話するコマンドと、そのコマンドが発話された時刻を基準としたユーザの動作とを統合した処理を実行することができる。これにより、アプリケーション実行部１４は、アプリケーションが提供する世界観に合わせたコマンドおよび動作をユーザに行わせることで、そのコマンドおよび動作に従った出力を行うことができる。

　例えば、情報処理装置１１が、眼鏡型のウェアラブル端末であって、出力部１５が、ユーザの視界に重畳させて画像を表示することができる場合、ユーザが走っている途中にコマンド「加速装置」を発話すると、走っている方向に関連するビジュアルイフェクトを出力部１５に表示させることができる。なお、コマンド「加速装置」を発話した後、ユーザが走り出したのを検出したときに、走っている方向に関連するビジュアルイフェクトを表示してもよい。

　また、例えば、情報処理装置１１が、腕時計型のウェアラブル端末である場合、右手をある方向に上から振り出し、それをトリガとして音声コマンドが入力可能になり（例えば「ビーム発射」）、その後に認識される音声コマンドに応じて情報を出力する方向（例えば「ビームの方向」）を、振り下ろした右手の方向とすることもできる。また、情報処理装置１１では、所定の位置で、ユーザがコマンド「罠を仕掛ける」を発話すると、その位置情報を取得して、アプリケーション実行部１４が実行するゲーム上に、そのコマンドに対応する仕掛けを設定することができる。

　このように、情報処理装置１１では、ユーザがコマンドを発話した時刻を基準としたユーザの動作（ジェスチャ）を検出することで、アプリケーション実行部１４が実行するアプリケーションに応じた様々な出力を行うことができる。また、情報処理装置１１は、ユーザが連続して発話する単語「コレと、コレと、コレ」に応じて、それぞれの「コレ」が認識された時刻と、その時刻におけるユーザの手の方向とを連動して、ユーザが指示した物体を認識することができる。即ち、制御部３５は、ユーザが物体を指示する単語を発話し、その単語を音声認識部３１が認識した時刻において、動作認識部３２により認識されたユーザの手の方向の先にある物体を、ユーザの指示対象物として認識する。このように、情報処理装置１１は、画面上に表示される表示物を指示対象とするのではなく、実際の物体を指示対象とすることができる。

　また、情報処理装置１１は、検出部１２により検出されたユーザの動作を、音声認識部３１が音声認識する際の単語の切れ目を判断するのに利用することができる。

　なお、情報処理装置１１の検出部１２が備えるセンサとしては、高度センサ、地磁気センサ、光センサ、血糖センサ、体温センサ、時計、および歩数計を用いることができる。例えば、高度センサを利用して、ある高さ以上または以下の場所にユーザがいる時のみ、所定の語彙が起動ワードとして用いられるようにすることができる。また、地磁気センサを利用して、ある方向に向かっている時のみ、所定の語彙が起動ワードとして用いられるようにすることができる。また、光センサを利用して、明るい場所でのみ、または、暗い場所でのみ、所定の語彙が起動ワードとして用いられるようにすることができる。また、血糖センサを利用したときにはユーザが空腹である時のみ、時計を利用したときには所定の時刻のみ、歩数計を利用したときには所定歩数を歩いた後に、所定の語彙が起動ワードとして用いられるようにすることができる。

　また、これらを組み合わせても利用してもよく、例えば、高度センサと位置センサを組み合わせて利用することで、所定の位置にある建物の屋上にユーザが移動したときに、所定の語彙を起動ワードとして用いることができるようにしてもよい。また、情報処理装置１１が撮像装置を備えている場合には、特定の対象物を撮像したときに、所定の語彙を起動ワードとして用いることができるようにしてもよい。

　なお、情報処理装置１１では、アプリケーション実行部１４において特定のアプリケーションが実行されているとき、例えば、呪文を使用したゲームが実行されているとき、通常時に起動ワードとして使用される語彙（図３に示した語彙「ハロースマホ」）を、音声認識を起動させる起動ワードとして用いることを禁止することができる。また、情報処理装置１１では、図２を参照して上述したようなセンサパタンに該当する状況となったときに、自動的に、音声認識機能を起動するようにしてもよい。

　なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。また、プログラムは、１のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。

　また、上述した一連の処理（情報処理方法）は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。

　図１０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

　バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

　以上のように構成されるコンピュータでは、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５及びバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU１０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

　そして、プログラムは、リムーバブルメディア１１１をドライブ１１０に装着することにより、入出力インタフェース１０５を介して、記憶部１０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１０９で受信し、記憶部１０８にインストールすることができる。その他、プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定する起動ワード設定部と、
　前記ユーザの発話する音声に対する音声認識を行って、前記起動ワード設定部により前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する起動ワード認識部と
　を備える情報処理装置。
（２）
　前記起動ワード設定部は、前記ユーザの動作が、所定の語彙を前記起動ワードとして用いることを開始する開始条件に該当すると、その開始条件に対応付けられている語彙を、前記起動ワードとして用いるように登録する
　上記（１）に記載の情報処理装置。
（３）
　前記起動ワード設定部は、前記所定の語彙が前記起動ワードとして用いるように登録されている場合に、前記ユーザの動作が、前記所定の語彙を前記起動ワードとして用いることを終了する終了条件に該当すると、前記所定の語彙を前記起動ワードから除外する
　上記（２）に記載の情報処理装置。
（４）
　前記起動ワード設定部は、前記所定の語彙を前記起動ワードとして用いることを終了する終了条件として、前記開始条件となった時刻からの経過時間が設定されている場合、その所定の語彙を前記起動ワードとして用いるように登録してからの時刻を計時し、前記経過時間が経過すると、その所定の語彙を前記起動ワードから除外する
　上記（２）に記載の情報処理装置。
（５）
　前記起動ワード設定部は、前記検出結果として供給される位置情報に基づいて、前記ユーザの位置に従い、前記起動ワードとして用いる語彙の増減を制御する
　上記（１）から（４）までのいずれかに記載の情報処理装置。
（６）
　前記起動ワード設定部は、前記検出結果として供給される少なくとも加速度情報に基づいて、前記ユーザの動作に従い、前記起動ワードとして用いる語彙の増減を制御する
　上記（１）から（５）までのいずれかに記載の情報処理装置。
（７）
　前記起動ワード認識部により前記ユーザが前記起動ワードを発話したことが認識された場合に、音声認識を利用したアプリケーションにおける音声認識処理を開始するアプリケーション実行部をさらに備える
　上記（１）から（６）までのいずれかに記載の情報処理装置。
（８）
　前記起動ワード認識部は、前記起動ワードとして利用する可能性のある全ての語彙を認識する音声認識を行い、
　前記起動ワード設定部は、前記起動ワード認識部により認識された語彙に対して、前記ユーザの動作が検出された検出結果に従って前記起動ワードとして用いることとした前記語彙であるか否かによるフィルタリングを行うことにより、前記起動ワードの増減に対応する
　上記（１）に記載の情報処理装置。
（９）
　前記アプリケーション実行部は、
　　ユーザが所定のコマンドを発話したことを認識する音声認識部と、
　　前記音声認識部により認識されたコマンドが発話された時刻を基準とした時刻範囲における、前記コマンドに対応するユーザの動作を認識する動作認識部と、
　　前記動作認識部による動作認識結果に従って、前記コマンドに応じた出力を行う制御部と
　を有する
　上記（７）に記載の情報処理装置。
（１０）
　前記動作認識部は、前記音声認識部により認識されたコマンドの発話が終了したときに、ユーザの体が向いている方向を認識し、
　前記制御部は、前記動作認識部により認識された方向に、前記コマンドに応じた出力を行う
　上記（９）に記載の情報処理装置。
（１１）
　前記動作認識部は、前記音声認識部により認識されたコマンドが発話された時刻から所定の時刻範囲内に、ユーザの腕が振り下ろされた方向を認識し、
　前記制御部は、前記動作認識部により認識された方向に、前記コマンドに応じた出力を行う
　上記（９）または（１０）に記載の情報処理装置。
（１２）
　前記制御部は、前記音声認識部により任意の物体を指示する単語が認識された時刻において、前記動作認識部により認識されたユーザの手の方向の先にある物体を、ユーザの指示対象物として認識する
　上記（９）乃至（１１）までのいずれかに記載の情報処理装置。
（１３）
　ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定し、
　前記ユーザの発話する音声に対する音声認識を行って、前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する
　ステップを含む情報処理方法。
（１４）
　ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定し、
　前記ユーザの発話する音声に対する音声認識を行って、前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する
　ステップを含む情報処理をコンピュータに実行させるプログラム。

　なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　１１　情報処理装置，　１２　検出部，　１３　音声入力部，　１４　アプリケーション実行部，　１５　出力部，　１６　起動ワード認識制御部，　２１　センサ監視部，　２２　対応データベース，　２３　起動ワード制御部，　２４　起動ワード語彙データベース，　２５　起動ワード認識部，　２６　起動ワードフィルタ部，　３１　音声認識部，　３２　動作認識部，　３３　センサ情報記憶部，　３４　コマンドデータベース，　３５　制御部

Claims

　ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定する起動ワード設定部と、
　前記ユーザの発話する音声に対する音声認識を行って、前記起動ワード設定部により前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する起動ワード認識部と
　を備える情報処理装置。
　前記起動ワード設定部は、前記ユーザの動作が、所定の語彙を前記起動ワードとして用いることを開始する開始条件に該当すると、その開始条件に対応付けられている語彙を、前記起動ワードとして用いるように登録する
　請求項１に記載の情報処理装置。
　前記起動ワード設定部は、前記所定の語彙が前記起動ワードとして用いるように登録されている場合に、前記ユーザの動作が、前記所定の語彙を前記起動ワードとして用いることを終了する終了条件に該当すると、前記所定の語彙を前記起動ワードから除外する
　請求項２に記載の情報処理装置。
　前記起動ワード設定部は、前記所定の語彙を前記起動ワードとして用いることを終了する終了条件として、前記開始条件となった時刻からの経過時間が設定されている場合、その所定の語彙を前記起動ワードとして用いるように登録してからの時刻を計時し、前記経過時間が経過すると、その所定の語彙を前記起動ワードから除外する
　請求項２に記載の情報処理装置。
　前記起動ワード設定部は、前記検出結果として供給される位置情報に基づいて、前記ユーザの位置に従い、前記起動ワードとして用いる語彙の増減を制御する
　請求項１に記載の情報処理装置。
　前記起動ワード設定部は、前記検出結果として供給される少なくとも加速度情報に基づいて、前記ユーザの動作に従い、前記起動ワードとして用いる語彙の増減を制御する
　請求項１に記載の情報処理装置。
　前記起動ワード認識部により前記ユーザが前記起動ワードを発話したことが認識された場合に、音声認識を利用したアプリケーションにおける音声認識処理を開始するアプリケーション実行部をさらに備える
　請求項１に記載の情報処理装置。
　前記起動ワード認識部は、前記起動ワードとして利用する可能性のある全ての語彙を認識する音声認識を行い、
　前記起動ワード設定部は、前記起動ワード認識部により認識された語彙に対して、前記検出結果に従って前記起動ワードとして用いることとした前記語彙であるか否かによるフィルタリングを行うことにより、前記起動ワードの増減に対応する
　請求項１に記載の情報処理装置。
　前記アプリケーション実行部は、
　　ユーザが所定のコマンドを発話したことを認識する音声認識部と、
　　前記音声認識部により認識されたコマンドが発話された時刻を基準とした時刻範囲における、前記コマンドに対応するユーザの動作を認識する動作認識部と、
　　前記動作認識部による動作認識結果に従って、前記コマンドに応じた出力を行う制御部と
　を有する
　請求項７に記載の情報処理装置。
　前記動作認識部は、前記音声認識部により認識されたコマンドの発話が終了したときに、ユーザの体が向いている方向を認識し、
　前記制御部は、前記動作認識部により認識された方向に、前記コマンドに応じた出力を行う
　請求項９に記載の情報処理装置。
　前記動作認識部は、前記音声認識部により認識されたコマンドが発話された時刻から所定の時刻範囲内に、ユーザの腕が振り下ろされた方向を認識し、
　前記制御部は、前記動作認識部により認識された方向に、前記コマンドに応じた出力を行う
　請求項９に記載の情報処理装置。
　前記制御部は、前記音声認識部により任意の物体を指示する単語が認識された時刻において、前記動作認識部により認識されたユーザの手の方向の先にある物体を、ユーザの指示対象物として認識する
　請求項９に記載の情報処理装置。
　ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定し、
　前記ユーザの発話する音声に対する音声認識を行って、前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する
　ステップを含む情報処理方法。
　ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定し、
　前記ユーザの発話する音声に対する音声認識を行って、前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する
　ステップを含む情報処理をコンピュータに実行させるプログラム。