JPWO2016151956A1

JPWO2016151956A1 - 情報処理システムおよび情報処理方法

Info

Publication number: JPWO2016151956A1
Application number: JP2017507338A
Authority: JP
Inventors: 真一河野; 祐平滝
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-03-23
Filing date: 2015-12-07
Publication date: 2018-01-11
Anticipated expiration: 2035-12-07
Also published as: CN107430856B; US20170330555A1; EP3276618A4; CN107430856A; JP6729555B2; US10475439B2; EP3276618A1; WO2016151956A1

Abstract

【課題】音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能な技術が提供されることが望まれる。【解決手段】集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御する認識制御部を備え、前記認識制御部は、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御する、情報処理システムが提供される。【選択図】図３

Description

本開示は、情報処理システムおよび情報処理方法に関する。

近年、マイクロフォンによって集音された音情報に対して音声認識処理を施して音声認識処理の認識結果を得る技術が知られている。音声認識処理の認識結果は、ユーザに知覚可能な態様によって出力される。例えば、マイクロフォンによって集音された音情報に対する音声認識処理は、ユーザから開始操作が入力されたことをトリガとして開始され得る（例えば、特許文献１参照。）。

特開２００４−０９４０７７号公報

ここで、マイクロフォンによって集音された音情報に対する音声認識処理が一旦停止されてしまった場合でも、音情報に対する音声認識処理を継続させたいとユーザが考える場合がある。そこで、音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能な技術が提供されることが望まれる。

本開示によれば、集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御する認識制御部を備え、前記認識制御部は、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御する、情報処理システムが提供される。

本開示によれば、集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御することを含み、プロセッサにより所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御することを含む、情報処理方法が提供される。

以上説明したように本開示によれば、音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

一般的なシステムにおける音声認識処理を説明するための図である。本開示の実施形態に係る情報処理システムの構成例を示す図である。本開示の実施形態に係る情報処理システムの機能構成例を示すブロック図である。初期画面の表示から音声認識処理の起動トリガを検出するまでの画面遷移の例を示す図である。ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってから無音状態に突入した場合を説明するための図である。ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに無音状態に突入した場合を説明するための図である。一致度が閾値を上回っている場合について説明するための図である。一致度が閾値を下回っている場合について説明するための図である。一致度と閾値との関係の出力例を示す図である。本開示の実施形態に係る情報処理システムの全体的な動作の流れを示すフローチャートである。情報処理システムの構成の変形例１を示す図である。情報処理システムの構成の変形例２を示す図である。情報処理システムの構成の変形例２を示す図である。情報処理システムの構成の変形例２を示す図である。情報処理システムの構成の変形例２を示す図である。情報処理システムの構成の変形例３を示す図である。情報処理システムの構成の変形例４を示す図である。情報処理システムの構成の変形例４を示す図である。情報処理システムの構成の変形例４を示す図である。情報処理システムの構成の変形例４を示す図である。３次元空間における視野領域に動きオブジェクトが表示される例を示す図である。仮想画像に動きオブジェクトが重畳表示される例を示す図である。ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってから無音状態に突入した場合を説明するための図である。ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに無音状態に突入した場合を説明するための図である。ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってから無音状態に突入した場合を説明するための図である。ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに無音状態に突入した場合を説明するための図である。情報処理システムのハードウェア構成例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

なお、説明は以下の順序で行うものとする。
０．背景
１．本開示の実施形態
１．１．システム構成例
１．２．機能構成例
１．３．情報処理システムの機能詳細
１．４．システム構成の変形例
１．５．動きオブジェクトの表示形態
１．６．ユーザのジェスチャの変形例
１．７．ハードウェア構成例
２．むすび

＜０．背景＞
まず、図面を参照しながら本開示の実施形態の背景を説明する。図１は、一般的なシステムにおける音声認識処理を説明するための図である。以下の説明において、音声（ｖｏｉｃｅまたはｓｐｅｅｃｈ）と音（ｓｏｕｎｄ）とは区別して用いられる。また、発話は、ユーザが音声を発している状態を示し、無音は、閾値よりも小さい音量によって音情報が集音されている状態を示す。

図１に示すように、一般的なシステム（以下、単に「システム」とも言う。）は、音声認識処理を開始させるための音声認識開始操作オブジェクトＧ１４を選択する操作がユーザから入力されると、かかる操作を音声認識処理の起動トリガとして検出し、集音開始画面Ｇ９１を表示する（時刻Ｔ９１）。集音開始画面Ｇ９１が表示されると、ユーザは発話を開始し（時刻Ｔ９２）、システムはマイクロフォンによって集音しつつ、集音された音情報に対する音声認識処理を行う（Ｓ９１）。

発話区間Ｈａが終了すると（時刻Ｔ９３）、無音状態が開始される。そして、システムは、マイクロフォンによって集音される音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した区間（以下、「無音区間」とも言う。）Ｍａが検出されると（時刻Ｔ９４）、発話区間Ｈａにおいて集音された音情報に対して施される音声認識処理の結果に基づいて所定の実行動作を実行する（Ｓ９２）。

ここで、音声認識処理の結果に基づく実行動作は特に限定されない。例えば、音声認識処理の結果に基づく実行動作は、音声認識処理の結果としての文字列に応じた検索結果を出力させる動作、音声認識処理の結果としての文字列を出力させる動作、音声認識処理の過程において得られた処理結果候補を出力させる動作、音声認識処理の結果の文字列から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含んでよい。

ここで、音声認識処理の結果としての文字列から発話内容を抽出する手法は限定されない。例えば、音声認識処理の結果としての文字列から発話内容を抽出する手法は、音声認識処理の結果としての文字列に対して自然言語処理（例えば、言語解析、意味解析など）を施すことによって発話内容が抽出されてよい。

システムは、実行動作の処理中には、実行動作の処理中である旨を示す画面Ｇ９２を表示する。そして、システムは、実行動作が終了すると（時刻Ｔ９５）、実行動作の結果を示す画面Ｇ９３を表示する。図１に示した例においては、実行動作の結果を示す画面Ｇ９３に、音声認識処理の結果としての文字列に応じた検索結果として、「襟」「競り」「蹴り」が含まれている。

以上に説明したように、一般的なシステムにおいては、無音区間が検出されるとマイクロフォンによって集音された音情報に対する音声認識処理が一旦停止されてしまう。そのため、発話をしながら発話内容を考えるユーザが存在した場合などには、ユーザが発話内容を考えるために発話を停止させてしまった時間が無音区間として検出されてしまい、ユーザの意図する発話内容の途中までしか音声認識処理の対象とされなくなってしまう可能性がある。

また、発話の最中に発話内容を失念してしまう可能性や、発話以外の作業に突発的に追われる可能性（例えば、自動車の運転中に緊急事態に陥る可能性など）もある。そのため、このような理由で発話が停止されてしまった時間が無音区間として検出されてしまい、ユーザの意図する発話内容の途中までしか音声認識処理の対象とされなくなってしまう可能性がある。

また、音声認識処理が一旦停止されてしまい、音声認識処理の結果に基づく実行動作が開始されてしまうと、音声認識処理が再開されたときに続きの発話を開始しても、続きの発話は、既に開始されてしまっている実行動作に反映されない可能性がある。また、実行動作が完了するのを待ち、実行動作の結果を見てから続きの発話をしようとすると、ユーザは、続きの発話内容を忘れやすく、考えついた発話内容を忘れてしまうという機会損失が生じ得る。

また、発話が途切れてしまってから無駄な発話を行うことによって、無音区間の検出を回避することも考えられるが、無駄な発話に対しても音声認識処理が施されてしまう可能性がある。また、無駄な発話に対しても音声認識処理が施されてしまうことによって、無駄な発話に続いて発話された音声認識処理の対象とすべき内容に対する音声認識処理の結果が影響を受けてしまう可能性もある。

このように、一般的なシステムにおいては、マイクロフォンによって集音された音情報から無音区間が検出され、音情報に対する音声認識処理が一旦停止してしまうと、音声認識処理を再度継続させるのが困難となり得る。そこで、本明細書においては、マイクロフォンによって集音された音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能な技術を提案する。

以上、本開示の実施形態の背景を説明した。

＜１．本開示の実施形態＞
［１．１．システム構成例］
続いて、図面を参照しながら本開示の実施形態に係る情報処理システム１０の構成例について説明する。図２は、本開示の実施形態に係る情報処理システム１０の構成例を示す図である。図２に示したように、本開示の実施形態に係る情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、集音部１２０と、出力部１３０とを備える。情報処理システム１０は、ユーザＵ（以下、単に「ユーザ」とも言う。）によって発せられた音声に対して音声認識処理を行うことが可能である。

画像入力部１１０は、画像を入力する機能を有する。図２に示した例では、画像入力部１１０は、テーブルＴｂｌに埋め込まれた２つのカメラを含んでいる。しかし、画像入力部１１０に含まれるカメラの数は１以上であれば特に限定されない。かかる場合、画像入力部１１０に含まれる１以上のカメラそれぞれが設けられる位置も特に限定されない。また、１以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。

操作入力部１１５は、ユーザＵの操作を入力する機能を有する。図２に示した例では、操作入力部１１５は、テーブルＴｂｌの上方に存在する天井から吊り下げられた１つのカメラを含んでいる。しかし、操作入力部１１５に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部１１５はユーザＵの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。

出力部１３０は、テーブルＴｂｌに画面を表示する機能を有する。図２に示した例では、出力部１３０は、テーブルＴｂｌの上方に天井から吊り下げられている。しかし、出力部１３０が設けられる位置は特に限定されない。また、典型的には、出力部１３０は、テーブルＴｂｌの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。

なお、本明細書では、テーブルＴｂｌの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルＴｂｌの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよい。あるいは、画面の表示面は、カーテンのヒダなどの非平面であってもよいし、他の場所にある面であってもよい。また、出力部１３０が表示面を有する場合には、画面の表示面は、出力部１３０が有する表示面であってもよい。

集音部１２０は、集音する機能を有する。図２に示した例では、集音部１２０は、テーブルＴｂｌの上方に存在する３つのマイクロフォンとテーブルＴｂｌの上面に存在する３つのマイクロフォンとの合計６つのマイクロフォンを含んでいる。しかし、集音部１２０に含まれるマイクロフォンの数は１以上であれば特に限定されない。かかる場合、集音部１２０に含まれる１以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。

ただし、集音部１２０が、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによって集音された音情報に基づいて音の到来方向が推定され得る。また、集音部１２０が指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによって集音された音情報に基づいて音の到来方向が推定され得る。

以上、本開示の実施形態に係る情報処理システム１０の構成例について説明した。

［１．２．機能構成例］
続いて、本開示の実施形態に係る情報処理システム１０の機能構成例について説明する。図３は、本開示の実施形態に係る情報処理システム１０の機能構成例を示すブロック図である。図３に示したように、本開示の実施形態に係る情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、集音部１２０と、出力部１３０と、情報処理装置１４０（以下、「制御部１４０」とも言う。）と、を備える。

情報処理装置１４０は、情報処理システム１０の各部の制御を実行する。例えば、情報処理装置１４０は、出力部１３０から出力する情報を生成する。また、例えば、情報処理装置１４０は、画像入力部１１０、操作入力部１１５および集音部１２０それぞれが入力した情報を、出力部１３０から出力する情報に反映させる。図３に示したように、情報処理装置１４０は、入力画像取得部１４１と、音情報取得部１４２と、操作検出部１４３と、認識制御部１４４と、音声認識部１４５と、出力制御部１４６とを備える。これらの各機能ブロックについての詳細は、後に説明する。

なお、情報処理装置１４０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；中央演算処理装置）などで構成されていてもよい。情報処理装置１４０がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。

以上、本開示の実施形態に係る情報処理システム１０の機能構成例について説明した。

［１．３．情報処理システムの機能詳細］
続いて、本開示の実施形態に係る情報処理システム１０の機能詳細について説明する。本開示の実施形態においては、認識制御部１４４が、集音部１２０から入力される音情報に対して音声認識処理が音声認識部１４５によって施されるように音声認識部１４５を制御し、認識制御部１４４が、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて音声認識処理を継続するか否かを制御する。

かかる構成によれば、音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能となる。どのようなパラメータに基づいて、音声認識処理を継続するか否かを制御するかは特に限定されない。まず、以下では、認識制御部１４４が、ユーザの視線に基づいて、音声認識処理を継続するか否かを制御する例を説明する。ユーザの視線を検出する手法は、特に限定されない。一例として、操作検出部１４３は、操作入力部１１５によって入力された画像を解析することによってユーザの視線を検出することが可能である。視点は、視線と画面との交点として算出され得る。

図４は、初期画面の表示から音声認識処理の起動トリガを検出するまでの画面遷移の例を示す図である。図４を参照すると、出力制御部１４６は、初期画面Ｇ１０−１を表示させている。初期画面Ｇ１０−１には、音声認識処理を開始させるための音声認識開始操作オブジェクトＧ１４、音声認識処理によって得られた文字列（以下、「認識文字列」とも言う。）の表示欄である認識文字列表示欄Ｇ１１が含まれる。

また、初期画面Ｇ１０−１には、認識文字列を全部削除するための全削除操作オブジェクトＧ１２、認識文字列を確定するための確定操作オブジェクトＧ１３が含まれる。また、初期画面Ｇ１０−１には、認識文字列におけるカーソル位置を前に戻すための前方移動操作オブジェクトＧ１５、認識文字列におけるカーソル位置を後ろに進めるための後方移動操作オブジェクトＧ１６、カーソル位置の文字または単語を削除するための削除操作オブジェクトＧ１７が含まれる。

まず、初期画面Ｇ１０−２に示すように、ユーザによる音声認識開始操作オブジェクトＧ１４を選択する操作が操作入力部１１５によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３によって検出される（時刻Ｔ１０）。出力制御部１４６は、音声認識処理の起動トリガが検出されると、集音部１２０による集音機能をオンにする。なお、ここでは、音声認識処理の起動トリガとして音声認識開始操作オブジェクトＧ１４を選択する操作を例に挙げて説明するが、音声認識処理の起動トリガは、かかる例に限定されない。

例えば、音声認識処理の起動トリガは、音声認識処理を起動するためのハードウェアボタンを押下する操作であってもよい。このとき、音声認識処理は、ハードウェアボタンの押下開始から押下解除までの間に起動されてもよい（ＰｕｓｈＴｏＴａｌｋ型）。あるいは、音声認識処理の起動トリガは、音声認識処理の起動コマンド（例えば、「音声」という発話など）の実行であってもよい。

あるいは、音声認識処理の起動トリガは、所定の音声認識処理の起動ジェスチャ（例えば、手の振り上げ、手の振り下ろし、顔の動き（例えば、うなずき、左右に顔を傾ける動作など）など）であってもよい。また、音声認識処理の起動トリガは、音声らしさが閾値を上回る音情報が集音部１２０から取得されたことを含んでもよい。続いて、ユーザは集音部１２０に向かって発話を開始する。まず、図５を参照しながら、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってから無音状態に突入した場合を説明する。

集音部１２０によって集音された音情報が音情報取得部１４２によって取得されると、図５に示すように、出力制御部１４６は、所定のオブジェクト（以下、「表示オブジェクト」とも言う。）Ｍｕを表示させる。表示オブジェクトＭｕは、静止していてもよいし、動きを有していてもよい。例えば、表示オブジェクトＭｕが動きを有する場合、表示オブジェクトＭｕの移動方向Ｄｅは、ユーザによる発話音声の音源から集音部１２０への到来方向に応じて決まってよい。なお、ユーザによる発話音声の到来方向の推定手法も特に限定されない。

例えば、認識制御部１４４は、音声認識開始操作オブジェクトＧ１４を選択する操作を行ったユーザの指方向（例えば、指の根元から指先への方向）に一致または類似する１の到来方向をユーザによる発話音声の到来方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。

あるいは、認識制御部１４４は、集音部１２０によって入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。音の到来方向が複数あった場合には、複数の到来方向のうち最初に入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよいし、複数の到来方向のうち音声認識開始操作オブジェクトＧ１４を選択する操作を行ったユーザの指方向に一致または類似する１の到来方向をユーザによる発話音声の到来方向として推定してもよい。

あるいは、認識制御部１４４は、複数の到来方向のうち集音部１２０によって最も大きな音量で入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。このようにしてユーザによる発話音声の到来方向が推定され得る。一方において、認識制御部１４４は、ユーザによる発話音声の到来方向以外の方向から集音部１２０によって入力された音を雑音として取得してよい。したがって、雑音には、情報処理システム１０からの出力音も含まれ得る。

また、図５には、出力制御部１４６が、ユーザによる発話音声の到来方向（移動方向Ｄｅ）に表示オブジェクトＭｕを移動させる例が示されている。これによって、ユーザは自分の発話音声が集音部１２０によって集音されていることを直感的に把握することが可能となる。しかし、表示オブジェクトＭｕの動きは、かかる動きに限定されない。また、図５には、表示オブジェクトＭｕの移動先が、音声認識開始操作オブジェクトＧ１４である例が示されている。しかし、表示オブジェクトＭｕの移動先は、かかる例に限定されない。

また、図５には、出力制御部１４６が、集音部１２０による集音に応じて次々と出現した円形状の表示オブジェクトＭｕを移動させる例が示されているが、表示オブジェクトＭｕの表示態様はかかる例に限定されない。例えば、出力制御部１４６は、音情報に応じた所定の情報（例えば、音情報の音声らしさ、音量など）に基づいて表示オブジェクトＭｕの各種パラメータを制御してよい。このときに用いられる音情報は、ユーザによる発話音声の到来方向からの音情報であるとよい。また、表示オブジェクトＭｕのパラメータは、表示オブジェクトＭｕの形状、透明度、色、サイズおよび動きのうち、少なくともいずれか一つを含んでもよい。

なお、音情報から音声らしさを評価する手法は特に限定されない。例えば、音情報から音声らしさを評価する手法として、特許文献（特開２０１０−３８９４３号公報）に記載されている手法を採用することも可能である。また、例えば、音情報から音声らしさを評価する手法として、特許文献（特開２００７−３２８２２８号公報）に記載されている手法を採用することも可能である。ここでは、音声らしさの評価が、出力制御部１４６によって行われる例を説明するが、音声らしさの評価は、図示しないサーバによって行われてもよい。

続いて、認識制御部１４４は、音情報取得部１４２によって取得された音情報に対する音声認識処理を音声認識部１４５に開始させる。音声認識処理を開始させるタイミングは限定されない。例えば、認識制御部１４４は、音声らしさが所定の閾値を超える音情報が集音されてから、音声認識部１４５に開始させてもよいし、表示オブジェクトＭｕが音声認識開始操作オブジェクトＧ１４に到達してから、表示オブジェクトＭｕに対応する音情報に対する音声認識処理を音声認識部１４５に開始させてもよい。

ここで、図５に示すように、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わり（時刻Ｔ１１）、無音状態を維持した場合には、認識制御部１４４は、無音区間を検出する（時刻Ｔ１２）。そして、出力制御部１４６は、無音区間が検出された場合に、動きオブジェクトを出力部１３０に出力させる（時刻Ｔ１３）。図５に示した例では、出力制御部１４６は、動きを有する音声認識開始操作オブジェクトＧ１４を動きオブジェクトとして出力させているが、動きオブジェクトは、音声認識開始操作オブジェクトＧ１４とは別に設けられてもよい。

続いて、認識制御部１４４は、ユーザの視点と動きオブジェクトＧ１４とに基づいて、音声認識処理を継続するか否かを制御する。より具体的には、認識制御部１４４は、ユーザの視点と動きオブジェクトＧ１４との一致度に基づいて、音声認識処理を継続するか否かを制御する。一致度の詳細については後に説明する。ここでは、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わっているため、ユーザは動きオブジェクトＧ１４を見続けなくてよい。

ユーザが動きオブジェクトＧ１４を見続けないと、動きオブジェクトの軌跡Ｋ１０とユーザの視点の軌跡Ｋ２０との一致度は閾値を下回ることとなる。したがって、認識制御部１４４は、所定のタイミングにおいて双方の一致度が閾値を下回る場合に、音声認識処理の結果に基づく実行動作を実行するように音声認識部１４５を制御すればよい（時刻Ｔ１５）。所定のタイミングは、動きオブジェクトＧ１４が出力部１３０によって出力された後のタイミングであれば特に限定されない。

続いて、音声認識部１４５は、認識制御部１４４の制御に従って、音声認識処理の結果に基づく実行動作を実行する（時刻Ｔ１６）。このとき、出力制御部１４６は、音声認識処理の結果に基づく実行動作が行われている間、実行動作が終わるまで音声入力を待機するように指示するオブジェクトＧ２２を出力させてもよい。実行動作が完了すると、出力制御部１４６は、実行動作の結果を出力させることが可能である。

続いて、図６を参照しながら、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに無音状態に突入した場合を説明する。まず、集音部１２０によって集音された音情報が音情報取得部１４２によって取得されると、図６に示すように、出力制御部１４６は、表示オブジェクトＭｕを表示させる。表示オブジェクトＭｕについては既に述べた通りである。続いて、認識制御部１４４は、音情報取得部１４２によって取得された音情報に対する音声認識処理を音声認識部１４５に開始させる。音声認識処理を開始させるタイミングは上記した通りに特に限定されない。

ここで、図６に示すように、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに、無音状態を維持した場合には、認識制御部１４４は、無音区間を検出する（時刻Ｔ１２）。そして、出力制御部１４６は、無音区間が検出された場合に、動きオブジェクトを出力部１３０に出力させる（時刻Ｔ１３）。図６に示した例では、出力制御部１４６は、動きを有する音声認識開始操作オブジェクトＧ１４を動きオブジェクトとして出力させているが、動きオブジェクトは、音声認識開始操作オブジェクトＧ１４とは別に設けられてもよい。

続いて、認識制御部１４４は、ユーザの視点と動きオブジェクトＧ１４とに基づいて、音声認識処理を継続するか否かを制御する。より具体的には、認識制御部１４４は、ユーザの視点と動きオブジェクトＧ１４との一致度に基づいて、音声認識処理を継続するか否かを制御する。ここでは、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってはいないため、ユーザは動きオブジェクトＧ１４を見続ける必要がある。

ユーザが動きオブジェクトＧ１４を見続けると、動きオブジェクトの軌跡Ｋ１０とユーザの視点の軌跡Ｋ２１との一致度は閾値を上回ることとなる。したがって、認識制御部１４４は、所定のタイミングにおいて双方の一致度が閾値を上回る場合に、音声認識処理を継続するように音声認識部１４５を制御すればよい（時刻Ｔ１５）。所定のタイミングは、動きオブジェクトＧ１４が出力部１３０によって出力された後のタイミングであれば特に限定されない。

続いて、音声認識部１４５は、認識制御部１４４の制御に従って、集音部１２０から入力される音情報に対する音声認識処理を継続する（時刻Ｔ１６）。これによって、一旦中止された音声認識処理が再開される。なお、集音部１２０によって集音された音情報が音情報取得部１４２によって再度取得され始めると、図６に示すように、出力制御部１４６は、表示オブジェクトＭｕを再度表示させ始めてよい。

また、所定のタイミングが到来した場合に、音声認識処理の結果に基づく実行動作が自動的に開始されてしまう場合も想定される。かかる場合に対処するため、音声認識部１４５は、既に起動していた音声認識処理とは別の音声認識処理を新たに開始して、二つの音声認識処理の結果をマージしてもよいし、音情報をバッファリングしておき、次に音声認識処理を開始可能になったらバッファリングした音情報と集音部１２０から入力される音情報とに基づいて音声認識処理を行うようにしてもよい。

ここで、ユーザの視点と動きオブジェクトＧ１４との一致度について、図７および図８を参照しながらさらに詳細に説明する。図７は、一致度が閾値を上回っている場合について説明するための図である。図７に示すように、動きオブジェクトの軌跡Ｋ１０に応じた判定領域Ｒ１０を想定する。図７に示した例では、判定領域Ｒ１０は、動きオブジェクトの軌跡Ｋ１０を基準とした幅Ｗ１０の領域であるが、判定領域Ｒ１０はこのような領域に限定されない。

そして、認識制御部１４４は、ユーザの視点の軌跡Ｋ２０の全体の長さに対して判定領域Ｒ１０に収まっているユーザの視点の軌跡Ｋ２０の長さの割合を一致度として算出すればよい。図７に示した例では、このようにして算出される一致度が閾値を上回るため、認識制御部１４４は、音声認識処理を継続するように音声認識部１４５を制御すればよい。しかし、動きオブジェクトの軌跡Ｋ１０とユーザの視点の軌跡Ｋ２１との一致度を算出する手法はかかる例に限定されない。

一方、図８は、一致度が閾値を下回っている場合について説明するための図である。図８に示した例では、上記したようにして算出される一致度が閾値を下回るため、認識制御部１４４は、音声認識処理の結果に基づく実行動作を実行するように音声認識部１４５を制御すればよい。なお、一致度が閾値と等しい場合には、認識制御部１４４は、音声認識処理を継続するように音声認識部１４５を制御してもよいし、音声認識処理の結果に基づく実行動作を実行するように音声認識部１４５を制御してもよい。

また、このように算出される一致度と閾値との関係は、ユーザによって知覚されるように出力されてもよい。図９は、一致度と閾値との関係の出力例を示す図である。図９に示すように、出力制御部１４６は、一致度が閾値を上回っている場合には、所定の第１の通知オブジェクトＧ４１を出力部１３０に出力させてもよい。図９に示した例では、第１の通知オブジェクトＧ４１は、目を開いている様子を表したアイコンであるが、このような例に限定されない。

一方、図９に示すように、出力制御部１４６は、一致度が閾値を下回っている場合には、第１の通知オブジェクトＧ４１とは異なる所定の第２の通知オブジェクトＧ４２を出力部１３０に出力させてもよい。図９に示した例では、第２の通知オブジェクトＧ４２は、目を閉じている様子を表したアイコンであるが、このような例に限定されない。なお、出力制御部１４６は、一致度が閾値を下回る状態が所定時間を超えて継続しているときは、動きオブジェクトＧ１４の出力を停止してもよい。

続いて、図１０を参照しながら、本開示の実施形態に係る情報処理システム１０の全体的な動作の流れについて説明する。なお、図１０のフローチャートは、本開示の実施形態に係る情報処理システム１０の全体的な動作の流れの例に過ぎないため、本開示の実施形態に係る情報処理システム１０の全体的な動作の流れは、図１０のフローチャートに示された例に限定されない。

まず、図１０に示すように、操作検出部１４３は、音声認識処理の起動トリガを検出し（Ｓ１１）、認識制御部１４４は、集音部１２０から入力される音情報から発話を検出すると（Ｓ１２）、音情報に対する音声認識処理を音声認識部１４５に開始させる（Ｓ１３）。続いて、認識制御部１４４は、無音区間を検出するまで音声認識処理を継続させるが（Ｓ１４において「Ｎｏ」）、無音区間が検出された場合には（Ｓ１４において「Ｙｅｓ」）、音声認識処理を一旦停止し、出力制御部１４６は、動きオブジェクトを表示させる（Ｓ１５）。

続いて、認識制御部１４４は、ユーザの視点の軌跡Ｋ２０を取得し（Ｓ１６）、動きオブジェクトの軌跡Ｋ１０とユーザの視点の軌跡Ｋ２０との一致度ｒを算出する（Ｓ１７）。認識制御部１４４は、継続判定のタイミングが到来しないうちは（Ｓ１８において「Ｎｏ」）、Ｓ１５に動作を移行させるが、継続判定のタイミングが到来した場合には（Ｓ１８において「Ｙｅｓ」）、Ｓ１９に動作を移行させる。

続いて、認識制御部１４４は、一致度ｒが閾値ｒ＿ｔｈｒｅｓｈｏｌｄを上回る場合には（Ｓ１９において「Ｙｅｓ」）、音声認識処理を継続させるが（Ｓ１３）、一致度ｒが閾値ｒ＿ｔｈｒｅｓｈｏｌｄを上回らない場合には（Ｓ１９において「Ｎｏ」）、音声認識処理の結果に基づく実行動作に動作を移行させ（Ｓ２０）、実行動作の結果を取得する（Ｓ２１）。

以上、本開示の実施形態に係る情報処理システム１０の機能詳細について説明した。

［１．４．システム構成の変形例］
上記においては、出力部１３０がテーブルＴｂｌの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、情報処理システム１０のシステム構成は、かかる例に限定されない。以下では、情報処理システム１０のシステム構成の変形例について説明する。図１１は、情報処理システム１０の構成の変形例１を示す図である。図１１に示すように、情報処理システム１０が携帯端末である場合に、出力部１３０は、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。

また、図１２〜図１５は、情報処理システム１０の構成の変形例２を示す図である。図１２〜図１５に示すように、出力部１３０は、テレビジョン装置であり、情報処理装置１４０は、ゲーム機であり、操作入力部１１５は、ゲーム機を操作するコントローラであってよい。

また、図１２に示すように、集音部１２０および出力部１３０は、操作入力部１１５に接続されていてもよい。また、図１３に示すように、画像入力部１１０および集音部１２０は、情報処理装置１４０に接続されていてもよい。また、図１４に示すように、操作入力部１１５、集音部１２０および出力部１３０は、情報処理装置１４０に接続されたスマートフォンに備えられていてもよい。また、図１５に示すように、集音部１２０は、テレビジョン装置に備えられていてもよい。

また、図１６は、情報処理システム１０の構成の変形例３を示す図である。図１６に示すように、情報処理装置１４０は、ゲーム機であり、操作入力部１１５は、ゲーム機を操作するコントローラであってよい。また、図１６に示すように、出力部１３０、集音部１２０および画像入力部１１０は、ユーザの頭部に装着されるウェアラブルデバイスに設けられていてもよい。

また、図１７〜図２０は、情報処理システム１０の構成の変形例４を示す図である。図１７に示すように、情報処理システム１０は、自動車に取り付け可能な車載向けナビゲーションシステムに搭載され、自動車を運転中のユーザＵによって利用されてもよい。また、図１８に示すように、情報処理システム１０は、携帯端末に搭載され、自動車を運転中のユーザＵによって利用されてもよい。上記したように、携帯端末の種類は特に限定されない。

また、図１９に示すように、情報処理システム１０のうち、操作入力部１１５は、携帯端末によって備えられており、出力部１３０、集音部１２０および画像入力部１１０は、ユーザＵの身体に装着されるウェアラブルデバイスに設けられていてもよい。また、図２０に示すように、情報処理システム１０は、自動車に内蔵されている車載向けナビゲーションシステムに搭載され、自動車を運転中のユーザＵによって利用されてもよい。

［１．５．動きオブジェクトの表示形態］
上記では、動きオブジェクトＧ１４の表示について説明した。ここで、動きオブジェクトＧ１４の表示形態は特に限定されない。図２１は、３次元空間における視野領域に動きオブジェクトＧ１４が表示される例を示す図である。例えば、図２１に示すように、出力部１３０がシースルー型のヘッドマウントディスプレイである場合、出力部１３０は、３次元空間Ｒｅにおける視野領域Ｖｉに動きオブジェクトＧ１４を表示させてよい。また、図２１には、動きオブジェクトの軌跡Ｋ１０が示されている。ユーザは、このように表示されている動きオブジェクトＧ１４を見続けることによって、音声認識処理を継続させることが可能となる。

図２２は、仮想画像に動きオブジェクトＧ１４が重畳表示される例を示す図である。例えば、図２２に示すように、出力部１３０がテレビジョン装置である場合、出力部１３０は、ゲーム画面などの仮想画像に対して動きオブジェクトＧ１４を重畳表示させてよい。また、図２１には、動きオブジェクトの軌跡Ｋ１０が示されている。ユーザは、このように表示されている動きオブジェクトＧ１４を見続けることによって、音声認識処理を継続させることが可能となる。なお、テレビジョン装置の代わりに、ユーザの頭部に装着されるウェアラブルデバイスなどが用いられてもよい。

［１．６．ユーザのジェスチャの変形例］
上記では、認識制御部１４４が、ユーザの視線に基づいて、音声認識処理を継続するか否かを制御する例を説明する例を説明した。しかし、音声認識処理を継続するか否かを制御する例は、かかる例に限定されない。例えば、認識制御部１４４は、ユーザの頭部の傾きに基づいて、音声認識処理を継続するか否かを制御してもよい。かかる例について、図２３および図２４を参照しながら説明する。

なお、図２３および図２４に示した例において、ユーザは、頭部の傾きを検出することが可能なセンサ（例えば、加速度センサなど）を含んだ操作入力部１１５を装着している。その他、ユーザは、図２３および図２４に示すように、集音部１２０を装着していてもよい。まず、図２３を参照しながら、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってから無音状態に突入した場合を説明する。

出力制御部１４６は、音声認識処理の起動トリガが検出されると、集音部１２０による集音機能をオンにし、集音部１２０によって集音された音情報が音情報取得部１４２によって取得されると、図２３に示すように、出力制御部１４６は、表示オブジェクトＭｕを表示させる。続いて、認識制御部１４４は、音情報取得部１４２によって取得された音情報に対する音声認識処理を音声認識部１４５に開始させる。

ここで、図２３に示すように、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わり（時刻Ｔ１１）、無音状態を維持した場合には、認識制御部１４４は、無音区間を検出する（時刻Ｔ１２）。そして、出力制御部１４６は、無音区間が検出された場合に、頭部を所定方向（例えば、上方向）に傾けると音声認識処理を継続させることが可能な旨を示すオブジェクト（例えば、音声認識開始操作オブジェクトＧ１４）を出力部１３０に出力させる（時刻Ｔ１３）。

続いて、認識制御部１４４は、ユーザの頭部の傾きに基づいて、音声認識処理を継続するか否かを制御する。ここでは、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わっているため、ユーザは頭部を傾けなくてよい。ユーザが頭部を傾けないと、ユーザの頭部の傾きは所定の基準値を下回ることとなる。したがって、認識制御部１４４は、所定のタイミングにおいてユーザの頭部の傾きが基準値を下回る場合に、音声認識処理の結果に基づく所定の実行動作を実行するように音声認識部１４５を制御すればよい。所定のタイミングは、無音区間が検出された後であれば、特に限定されない。

続いて、図２４を参照しながら、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに無音状態に突入した場合を説明する。まず、集音部１２０によって集音された音情報が音情報取得部１４２によって取得されると、図２４に示すように、出力制御部１４６は、表示オブジェクトＭｕを表示させる。続いて、認識制御部１４４は、音情報取得部１４２によって取得された音情報に対する音声認識処理を音声認識部１４５に開始させる。

ここで、図２４に示すように、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに、無音状態を維持した場合には、認識制御部１４４は、無音区間を検出する（時刻Ｔ１２）。そして、出力制御部１４６は、無音区間が検出された場合に、頭部を所定方向（例えば、上方向）に傾けると音声認識処理を継続させることが可能な旨を示すオブジェクト（例えば、音声認識開始操作オブジェクトＧ１４）を出力部１３０に出力させる（時刻Ｔ１３）。

続いて、認識制御部１４４は、ユーザの頭部の傾きに基づいて、音声認識処理を継続するか否かを制御する。ここでは、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってはいないため、ユーザは頭部を所定方向に傾ける必要がある。ユーザが頭部を傾けると、ユーザの頭部の傾きは所定の基準値を上回ることとなる。したがって、認識制御部１４４は、所定のタイミングにおいてユーザの頭部の傾きが基準値を上回る場合に、音声認識処理を継続するように音声認識部１４５を制御すればよい。所定のタイミングは、無音区間が検出された後であれば、特に限定されない。

続いて、音声認識部１４５は、認識制御部１４４の制御に従って、集音部１２０から入力される音情報に対する音声認識処理を継続する（時刻Ｔ１６）。これによって、一旦中止された音声認識処理が再開される。なお、集音部１２０によって集音された音情報が音情報取得部１４２によって再度取得され始めると、図２４に示すように、出力制御部１４６は、表示オブジェクトＭｕを再度表示させ始めてよい。頭部の傾きが閾値と等しい場合には、認識制御部１４４は、音声認識処理を継続するように音声認識部１４５を制御してもよいし、音声認識処理の結果に基づく実行動作を実行するように音声認識部１４５を制御してもよい。

以上、ユーザのジェスチャに基づいて音声認識処理を継続するか否かを制御する一例として、ユーザの頭部の傾きに基づいて、音声認識処理を継続するか否かを制御する例を説明した。ここで、他の例として、認識制御部１４４は、ユーザの頭部の動きに基づいて、音声認識処理を継続するか否かを制御してもよい。かかる例について、図２５および図２６を参照しながら説明する。

なお、図２５および図２６に示した例において、ユーザは、頭部の動きを検出することが可能なセンサ（例えば、ジャイロセンサなど）を含んだ操作入力部１１５を装着している。その他、ユーザは、図２５および図２６に示すように、集音部１２０を装着していてもよい。まず、図２５を参照しながら、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってから無音状態に突入した場合を説明する。

出力制御部１４６は、音声認識処理の起動トリガが検出されると、集音部１２０による集音機能をオンにし、集音部１２０によって集音された音情報が音情報取得部１４２によって取得されると、図２５に示すように、出力制御部１４６は、表示オブジェクトＭｕを表示させる。続いて、認識制御部１４４は、音情報取得部１４２によって取得された音情報に対する音声認識処理を音声認識部１４５に開始させる。

ここで、図２５に示すように、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わり（時刻Ｔ１１）、無音状態を維持した場合には、認識制御部１４４は、無音区間を検出する（時刻Ｔ１２）。そして、出力制御部１４６は、無音区間が検出された場合に、頭部を所定方向（例えば、右方向）に回転させると音声認識処理を継続させることが可能な旨を示すオブジェクト（例えば、音声認識開始操作オブジェクトＧ１４）を出力部１３０に出力させる（時刻Ｔ１３）。

続いて、認識制御部１４４は、ユーザの頭部の動きに基づいて、音声認識処理を継続するか否かを制御する。ここでは、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わっているため、ユーザは頭部を所定方向に回転させなくてよい。ユーザが頭部を右に回転させなければ、ユーザの頭部の動きは所定の動き（所定方向への回転）を示さないことになる。したがって、認識制御部１４４は、所定のタイミングにおいてユーザの頭部の動きが所定の動きを示さない場合に、音声認識処理の結果に基づく所定の実行動作を実行するように音声認識部１４５を制御すればよい。所定のタイミングは、無音区間が検出された後であれば、特に限定されない。

続いて、図２６を参照しながら、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに無音状態に突入した場合を説明する。まず、集音部１２０によって集音された音情報が音情報取得部１４２によって取得されると、図２６に示すように、出力制御部１４６は、表示オブジェクトＭｕを表示させる。続いて、認識制御部１４４は、音情報取得部１４２によって取得された音情報に対する音声認識処理を音声認識部１４５に開始させる。

ここで、図２６に示すように、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに、無音状態を維持した場合には、認識制御部１４４は、無音区間を検出する（時刻Ｔ１２）。そして、出力制御部１４６は、無音区間が検出された場合に、頭部を所定方向（例えば、右方向）に回転させると音声認識処理を継続させることが可能な旨を示すオブジェクト（例えば、音声認識開始操作オブジェクトＧ１４）を出力部１３０に出力させる（時刻Ｔ１３）。

続いて、認識制御部１４４は、ユーザの頭部の動きに基づいて、音声認識処理を継続するか否かを制御する。ここでは、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってはいないため、ユーザは頭部を所定方向に回転させる必要がある。ユーザが頭部を所定方向に回転させると、ユーザの頭部の動きは所定の動き（所定方向への回転）を示すこととなる。したがって、認識制御部１４４は、所定のタイミングにおいてユーザの頭部の動きが所定の動きを示す場合に、音声認識処理を継続するように音声認識部１４５を制御すればよい。所定のタイミングは、無音区間が検出された後であれば、特に限定されない。

続いて、音声認識部１４５は、認識制御部１４４の制御に従って、集音部１２０から入力される音情報に対する音声認識処理を継続する（時刻Ｔ１６）。これによって、一旦中止された音声認識処理が再開される。なお、集音部１２０によって集音された音情報が音情報取得部１４２によって再度取得され始めると、図２６に示すように、出力制御部１４６は、表示オブジェクトＭｕを再度表示させ始めてよい。

以上、ユーザのジェスチャに基づいて音声認識処理を継続するか否かを制御する一例として、認識制御部１４４は、ユーザの頭部の動きに基づいて、音声認識処理を継続するか否かを制御する例を説明した。

［１．７．ハードウェア構成例］
次に、図２７を参照して、本開示の実施形態に係る情報処理システム１０のハードウェア構成について説明する。図２７は、本開示の実施形態に係る情報処理システム１０のハードウェア構成例を示すブロック図である。

図２７に示すように、情報処理システム１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇｕｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０３、およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０５を含む。また、情報処理システム１０は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理システム１０は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理システム１０は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理システム１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム１０の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理システム１０に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、ＰＤＰ（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置９１７は、情報処理システム１０の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。

ストレージ装置９１９は、情報処理システム１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理システム１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

接続ポート９２３は、機器を情報処理システム１０に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理システム１０と外部接続機器９２９との間で各種のデータが交換され得る。

通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

撮像装置９３３は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）またはＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

センサ９３５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば情報処理システム１０の筐体の姿勢など、情報処理システム１０自体の状態に関する情報や、情報処理システム１０の周辺の明るさや騒音など、情報処理システム１０の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

以上、情報処理システム１０のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。

＜２．むすび＞
以上説明したように、本開示の実施形態によれば、集音部１２０から入力される音情報に対して音声認識処理が音声認識部１４５によって施されるように音声認識部１４５を制御する認識制御部１４４を備え、認識制御部１４４は、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて音声認識処理を継続するか否かを制御する、情報処理システム１０が提供される。かかる構成によれば、音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能となる。

また、上記したように、一般的なシステムにおいては、マイクロフォンによって集音された音情報から無音区間が検出され、音情報に対する音声認識処理が一旦停止してしまうと、音声認識処理を再度継続させるのが困難となり得る。一方、本開示の実施形態によれば、集音部１２０によって集音された音情報から無音区間が検出され、音情報に対する音声認識処理が一旦停止してしまっても、ユーザのジェスチャによって音声認識処理を再度容易に継続させることが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記においては、情報処理システム１０のシステム構成例およびシステム構成の変形例を説明したが、情報処理システム１０のシステム構成例は、これらの例に限定されない。例えば、出力部１３０は、ヘッドマウントディスプレイ以外のウェアラブル端末（例えば、時計、眼鏡など）に備わるディスプレイであってもよい。また、例えば、出力部１３０は、ヘルスケア分野において利用されるディスプレイであってもよい。

また、上記においては、ユーザのジェスチャに基づいて音声認識処理を継続するか否かを制御する例として、ユーザの視線、ユーザの頭部の傾きおよびユーザの頭部の動きに基いて音声認識処理を継続するか否かを制御する例を説明した。しかし、ユーザのジェスチャは、かかる例に限定されない。例えば、ユーザのジェスチャは、ユーザの表情であってもよいし、ユーザの唇の動きであってもよいし、ユーザの唇の形状であってもよいし、ユーザの目の開閉状態であってもよい。

また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上記した情報処理装置１４０が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

また、出力制御部１４６は、出力部１３０に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を出力部１３０に出力することで、当該表示内容が出力部１３０に表示されるように出力部１３０を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。

具体的な一例として、情報処理装置１４０を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）などのマークアップ言語により実現されてもよい。

なお、上述した情報処理システム１０の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部１１０、操作入力部１１５および集音部１２０と出力部１３０と情報処理装置１４０とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置１４０が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部１１０、操作入力部１１５および集音部１２０と出力部１３０とが当該サーバにネットワークを介して接続されたクライアントに相当し得る。

また、情報処理装置１４０が有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、入力画像取得部１４１と、音情報取得部１４２と、操作検出部１４３と、認識制御部１４４と、音声認識部１４５と、出力制御部１４６とのうち、一部は情報処理装置１４０とは異なる装置に存在していてもよい。例えば、音声認識部１４５は、入力画像取得部１４１と、音情報取得部１４２と、操作検出部１４３と、認識制御部１４４と、出力制御部１４６とを備える情報処理装置１４０とは異なるサーバに存在していてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御する認識制御部を備え、
前記認識制御部は、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御する、
情報処理システム。
（２）
前記認識制御部は、前記ユーザの視線に基づいて、前記音声認識処理を継続するか否かを制御する、
前記（１）に記載の情報処理システム。
（３）
前記認識制御部は、前記ユーザの視点と動きオブジェクトとに基づいて、前記音声認識処理を継続するか否かを制御する、
前記（２）に記載の情報処理システム。
（４）
前記認識制御部は、前記ユーザの視点と前記動きオブジェクトとの一致度に基づいて、前記音声認識処理を継続するか否かを制御する、
前記（３）に記載の情報処理システム。
（５）
前記認識制御部は、前記一致度が閾値を上回る場合に、前記音声認識処理を継続するように前記音声認識部を制御する、
前記（４）に記載の情報処理システム。
（６）
前記認識制御部は、前記一致度が前記閾値を下回る場合に、前記音声認識処理の結果に基づく所定の実行動作を実行するように前記音声認識部を制御する、
前記（５）に記載の情報処理システム。
（７）
前記情報処理システムは、前記動きオブジェクトを出力部に出力させる出力制御部を備える、
前記（４）〜（６）のいずれか一項に記載の情報処理システム。
（８）
前記出力制御部は、前記音声認識処理が開始されてから前記音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した場合に、前記動きオブジェクトを前記出力部に出力させる、
前記（７）に記載の情報処理システム。
（９）
前記所定のタイミングは、前記動きオブジェクトが前記出力部によって出力された後のタイミングである、
前記（７）または（８）に記載の情報処理システム。
（１０）
前記出力制御部は、前記一致度が閾値を上回っている場合には、所定の第１の通知オブジェクトを前記出力部に出力させる、
前記（７）〜（９）のいずれか一項に記載の情報処理システム。
（１１）
前記出力制御部は、前記一致度が前記閾値を下回っている場合には、前記第１の通知オブジェクトとは異なる所定の第２の通知オブジェクトを前記出力部に出力させる、
前記（１０）に記載の情報処理システム。
（１２）
前記認識制御部は、前記ユーザの頭部の傾きに基づいて、前記音声認識処理を継続するか否かを制御する、
前記（１）に記載の情報処理システム。
（１３）
前記認識制御部は、前記ユーザの頭部の傾きが所定の基準値を上回る場合に、前記音声認識処理を継続するように前記音声認識部を制御する、
前記（１２）に記載の情報処理システム。
（１４）
前記認識制御部は、前記ユーザの頭部の傾きが前記基準値を下回る場合に、前記音声認識処理の結果に基づく所定の実行動作を実行するように前記音声認識部を制御する、
前記（１３）に記載の情報処理システム。
（１５）
前記認識制御部は、前記ユーザの頭部の動きに基づいて、前記音声認識処理を継続するか否かを制御する、
前記（１）に記載の情報処理システム。
（１６）
前記認識制御部は、前記ユーザの頭部の動きが所定の動きを示す場合に、前記音声認識処理を継続するように前記音声認識部を制御する、
前記（１５）に記載の情報処理システム。
（１７）
前記認識制御部は、前記ユーザの頭部の動きが前記所定の動きを示さない場合に、前記音声認識処理の結果に基づく所定の実行動作を実行するように前記音声認識部を制御する、
前記（１６）に記載の情報処理システム。
（１８）
前記認識制御部は、前記音声認識処理の起動トリガが検出された場合に、前記音声認識処理を前記音声認識部に開始させる、
前記（１）〜（１７）のいずれか一項に記載の情報処理システム。
（１９）
前記実行動作は、前記音声認識処理の結果に応じた検索結果を出力させる動作、前記音声認識処理の結果を出力させる動作、前記音声認識処理の過程において得られた処理結果候補を出力させる動作および前記音声認識処理の結果から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含む、
前記（６）に記載の情報処理システム。
（２０）
集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御することを含み、
プロセッサにより所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御することを含む、
情報処理方法。

１０情報処理システム
１１０画像入力部
１１５操作入力部
１２０集音部
１３０出力部
１４０情報処理装置（制御部）
１４１入力画像取得部
１４２音情報取得部
１４３操作検出部
１４４認識制御部
１４５音声認識部
１４６出力制御部
Ｇ１０初期画面
Ｇ１１認識文字列表示欄
Ｇ１２全削除操作オブジェクト
Ｇ１３確定操作オブジェクト
Ｇ１４音声認識開始操作オブジェクト（動きオブジェクト）
Ｇ１５前方移動操作オブジェクト
Ｇ１６後方移動操作オブジェクト
Ｇ１７削除操作オブジェクト
Ｋ１０動きオブジェクトの軌跡
Ｋ２０、Ｋ２１ユーザの視点の軌跡
Ｇ４１第１の通知オブジェクト
Ｇ４２第２の通知オブジェクト
ｒ一致度

Claims

集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御する認識制御部を備え、
前記認識制御部は、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御する、
情報処理システム。
前記認識制御部は、前記ユーザの視線に基づいて、前記音声認識処理を継続するか否かを制御する、
請求項１に記載の情報処理システム。
前記認識制御部は、前記ユーザの視点と動きオブジェクトとに基づいて、前記音声認識処理を継続するか否かを制御する、
請求項２に記載の情報処理システム。
前記認識制御部は、前記ユーザの視点と前記動きオブジェクトとの一致度に基づいて、前記音声認識処理を継続するか否かを制御する、
請求項３に記載の情報処理システム。
前記認識制御部は、前記一致度が閾値を上回る場合に、前記音声認識処理を継続するように前記音声認識部を制御する、
請求項４に記載の情報処理システム。
前記認識制御部は、前記一致度が前記閾値を下回る場合に、前記音声認識処理の結果に基づく所定の実行動作を実行するように前記音声認識部を制御する、
請求項５に記載の情報処理システム。
前記情報処理システムは、前記動きオブジェクトを出力部に出力させる出力制御部を備える、
請求項４に記載の情報処理システム。
前記出力制御部は、前記音声認識処理が開始されてから前記音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した場合に、前記動きオブジェクトを前記出力部に出力させる、
請求項７に記載の情報処理システム。
前記所定のタイミングは、前記動きオブジェクトが前記出力部によって出力された後のタイミングである、
請求項７に記載の情報処理システム。
前記出力制御部は、前記一致度が閾値を上回っている場合には、所定の第１の通知オブジェクトを前記出力部に出力させる、
請求項７に記載の情報処理システム。
前記出力制御部は、前記一致度が前記閾値を下回っている場合には、前記第１の通知オブジェクトとは異なる所定の第２の通知オブジェクトを前記出力部に出力させる、
請求項１０に記載の情報処理システム。
前記認識制御部は、前記ユーザの頭部の傾きに基づいて、前記音声認識処理を継続するか否かを制御する、
請求項１に記載の情報処理システム。
前記認識制御部は、前記ユーザの頭部の傾きが所定の基準値を上回る場合に、前記音声認識処理を継続するように前記音声認識部を制御する、
請求項１２に記載の情報処理システム。
前記認識制御部は、前記ユーザの頭部の傾きが前記基準値を下回る場合に、前記音声認識処理の結果に基づく所定の実行動作を実行するように前記音声認識部を制御する、
請求項１３に記載の情報処理システム。
前記認識制御部は、前記ユーザの頭部の動きに基づいて、前記音声認識処理を継続するか否かを制御する、
請求項１に記載の情報処理システム。
前記認識制御部は、前記ユーザの頭部の動きが所定の動きを示す場合に、前記音声認識処理を継続するように前記音声認識部を制御する、
請求項１５に記載の情報処理システム。
前記認識制御部は、前記ユーザの頭部の動きが前記所定の動きを示さない場合に、前記音声認識処理の結果に基づく所定の実行動作を実行するように前記音声認識部を制御する、
請求項１６に記載の情報処理システム。
前記認識制御部は、前記音声認識処理の起動トリガが検出された場合に、前記音声認識処理を前記音声認識部に開始させる、
請求項１に記載の情報処理システム。
前記実行動作は、前記音声認識処理の結果に応じた検索結果を出力させる動作、前記音声認識処理の結果を出力させる動作、前記音声認識処理の過程において得られた処理結果候補を出力させる動作および前記音声認識処理の結果から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含む、
請求項６に記載の情報処理システム。
集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御することを含み、
プロセッサにより所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御することを含む、
情報処理方法。