WO2016136044A1

WO2016136044A1 - 情報処理システムおよび情報処理方法

Info

Publication number: WO2016136044A1
Application number: PCT/JP2015/081751
Authority: WO
Inventors: 真一河野; 祐平滝
Original assignee: ソニー株式会社
Priority date: 2015-02-23
Filing date: 2015-11-11
Publication date: 2016-09-01
Also published as: EP3264413A1; EP3264413B1; EP3264413A4; US20180033430A1; US10522140B2

Abstract

【課題】音声認識処理を状況に応じて柔軟に開始させることが可能な技術が提供されることが望まれる。【解決手段】集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、情報処理システムが提供される。

Description

情報処理システムおよび情報処理方法

　本開示は、情報処理システムおよび情報処理方法に関する。

　近年、マイクロフォンによって集音された音情報に対して音声認識処理を施して音声認識処理の結果を得る技術が知られている。音声認識処理の結果は、ユーザに知覚可能な態様によって出力される。例えば、マイクロフォンによって集音された音情報に対する音声認識処理は、ユーザから開始操作が入力されたことをトリガとして開始され得る（例えば、特許文献１参照。）。

特開２００４－０９４０７７号公報

　ここで、マイクロフォンによって集音された音情報に対する音声認識処理の開始される条件が不変である場合には、音声認識処理を状況に応じて柔軟に開始させることが困難である。そこで、音声認識処理を状況に応じて柔軟に開始させることが可能な技術が提供されることが望まれる。

　本開示によれば、集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、情報処理システムが提供される。

　本開示によれば、集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させることを含み、プロセッサにより前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更することを含む、情報処理方法が提供される。

　以上説明したように本開示によれば、音声認識処理を状況に応じて柔軟に開始させることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

一般的なシステムにおける音声認識処理を説明するための図である。本開示の実施形態に係る情報処理システムの構成例を示す図である。本開示の実施形態に係る情報処理システムの機能構成例を示すブロック図である。初期画面の表示から音声認識処理の起動トリガを検出するまでの画面遷移の例を示す図である。音声認識処理が開始されるまでの残り時間が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。音声認識処理の起動トリガが検出された後に集音部から入力された音情報に基づいて、開始条件を動的に変更する例を説明するための図である。開始条件として表示情報を出力部に出力させる例を示す図である。開始条件として表示情報を出力部に出力させる例を示す図である。開始条件として音声情報を出力部に出力させる例を示す図である。開始条件として音声情報を出力部に出力させる例を示す図である。音声認識処理の起動トリガが検出された後に集音部から入力された音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。音声認識処理の起動トリガが検出された後に集音部から入力された音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に短くする例を説明するための図である。過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に短くする例を説明するための図である。過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明するための図である。過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明するための図である。音声認識処理が開始されるまでの残り時間が短くなった場合における表示情報の例を示す図である。音声認識処理が開始されるまでの残り時間が長くなった場合における表示情報の例を示す図である。過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。フィラーとその音声波形との対応関係の例を示す図である。集音部から入力される音情報にフィラーが含まれているか否かによって動作を異ならせる例を説明するための図である。情報処理システムの構成の変形例１を示す図である。情報処理システムの構成の変形例２を示す図である。情報処理システムの構成の変形例２を示す図である。情報処理システムの構成の変形例２を示す図である。情報処理システムの構成の変形例２を示す図である。情報処理システムの構成の変形例３を示す図である。情報処理システムの構成の変形例３を示す図である。情報処理システムの構成の変形例３を示す図である。情報処理システムの構成の変形例３を示す図である。情報処理システムのハードウェア構成例を示すブロック図である。一般的なシステムにおける音声認識処理を説明するための図である。一般的なシステムにおける音声認識処理を説明するための他の図である。本開示の実施形態に係る情報処理システムの構成例を示す図である。本開示の実施形態に係る情報処理システムの機能構成例を示すブロック図である。初期画面の表示から音声認識処理の実行中に表示される画面遷移の例を示す図である。本開示の実施形態に係る情報処理システムの機能詳細について説明するための図である。本開示の実施形態に係る情報処理システムの機能詳細について説明するための他の図である。開始条件として表示情報を出力部に出力させる例を示す図である。開始条件として表示情報を出力部に出力させる例を示す図である。開始条件として音声情報を出力部に出力させる例を示す図である。開始条件として音声情報を出力部に出力させる例を示す図である。本開示の実施形態に係る情報処理システムの全体的な動作の流れの例を示すフローチャートである。出力部による表示形態の変形例を示す図である。本開示の実施形態に係る情報処理システムの全体的な動作の流れの例を示すフローチャートである。情報処理システムのシステム構成の変形例を示す図である。情報処理システムのシステム構成の変形例を示す図である。情報処理システムのシステム構成の変形例を示す図である。情報処理システムのハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

　なお、説明は以下の順序で行うものとする。
　０．背景
　１．本開示の実施形態
　　１．１．システム構成例
　　１．２．機能構成例
　　１．３．情報処理システムの機能詳細
　　１．４．システム構成の変形例
　　１．５．ハードウェア構成例
　２．むすび

　＜０．背景＞
　まず、図面を参照しながら本開示の実施形態の背景を説明する。図１は、一般的なシステムにおける音声認識処理を説明するための図である。以下の説明において、音声（ｖｏｉｃｅまたはｓｐｅｅｃｈ）と音（ｓｏｕｎｄ）とは区別して用いられる。また、発話は、ユーザが音声を発している状態を示し、無音は、閾値よりも小さい音量によって音情報が集音されている状態を示す。

　図１に示すように、一般的なシステム（以下、単に「システム」とも言う。）は、音声認識処理を開始させるための音声認識開始操作オブジェクトＧ１４Ａを選択する操作がユーザから入力されると、かかる操作を音声認識処理の起動トリガとして検出し、集音開始画面Ｇ９１Ａを表示する（時刻Ｔ９１Ａ）。集音開始画面Ｇ９１Ａが表示されると、ユーザは発話を開始し（時刻Ｔ９２Ａ）、システムはマイクロフォンによって集音しつつ、集音された音情報に対する音声認識処理を行う（Ｓ９１Ａ）。

　発話区間ＨａＡが終了すると（時刻Ｔ９３Ａ）、無音状態が開始される。そして、システムは、マイクロフォンによって集音される音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した区間（以下、「無音区間」とも言う。）ＭａＡが検出されると（時刻Ｔ９４Ａ）、発話区間ＨａＡにおいて集音された音情報に対して施される音声認識処理の結果に基づいて所定の実行動作を実行する（Ｓ９２Ａ）。

　ここで、音声認識処理の結果に基づく実行動作は特に限定されない。例えば、音声認識処理の結果に基づく実行動作は、音声認識処理の結果としての文字列に応じた検索結果を出力させる動作、音声認識処理の結果としての文字列を出力させる動作、音声認識処理の過程において得られた処理結果候補を出力させる動作、音声認識処理の結果の文字列から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含んでよい。

　ここで、音声認識処理の結果としての文字列から発話内容を抽出する手法は限定されない。例えば、音声認識処理の結果としての文字列から発話内容を抽出する手法は、音声認識処理の結果としての文字列に対して自然言語処理（例えば、言語解析、意味解析など）を施すことによって発話内容が抽出されてよい。

　システムは、実行動作の処理中には、実行動作の処理中である旨を示す画面Ｇ９２Ａを表示する。そして、システムは、実行動作が終了すると（時刻Ｔ９５Ａ）、実行動作の結果を示す画面Ｇ９３Ａを表示する。図１に示した例においては、実行動作の結果を示す画面Ｇ９３Ａに、音声認識処理の結果としての文字列に応じた検索結果として、「襟」「競り」「蹴り」が含まれている。

　以上に説明したように、一般的なシステムにおいては、音声認識処理の開始条件が出力されないうちに音声認識処理が開始されてしまう。そのため、音声認識開始操作オブジェクトＧ１４Ａを選択する操作を行った後に発話内容を考えるユーザが存在した場合などには、発話開始までに集音された音情報も音声認識処理の対象となってしまい、音声認識処理に影響を与えてしまう可能性がある。

　例えば、発話開始までに集音される音情報の中には、ユーザ自身によって発せられるフィラーや余計な発話などが存在し得る。フィラーは、「ええと」「あの」「まあ」などといった言葉のように、発話と発話との合間にユーザによって挟み込まれる言葉を意味する。また、発話開始までに集音される音情報の中には、雑音なども存在し得る。なお、上記したように、雑音は、集音部１２０Ａから入力される音情報からユーザの発する音声を除いた音情報を意味してよい。

　また、発話開始までに集音された音情報に対する音声認識処理の結果が、発話が開始されてから集音された音情報に対する音声認識処理に影響を与えてしまう場合もあり得る。また、発話開始までに集音された音情報に基づいて音声認識処理がなされ、発話開始までに無音区間が検出されてしまった場合、発話開始前に音声認識処理の結果に基づく実行動作が始まってしまう可能性もある。

　そこで、本明細書においては、音声認識処理が開始される前に音声認識処理の開始条件を出力させる技術を提案する。さらに、仮に状況に依らず一定の開始条件を出力させるようにした場合には、音声認識処理を状況に応じて柔軟に開始させることが困難である。そこで、本明細書においては、音声認識処理を状況に応じて柔軟に開始させることが可能な技術を提案する。

　以上、本開示の実施形態の背景を説明した。

　＜１．本開示の実施形態＞
　［１．１．システム構成例］
　続いて、図面を参照しながら本開示の実施形態に係る情報処理システム１０Ａの構成例について説明する。図２は、本開示の実施形態に係る情報処理システム１０Ａの構成例を示す図である。図２に示したように、本開示の実施形態に係る情報処理システム１０Ａは、画像入力部１１０Ａと、操作入力部１１５Ａと、集音部１２０Ａと、出力部１３０Ａとを備える。情報処理システム１０Ａは、ユーザＵＡ（以下、単に「ユーザ」とも言う。）によって発せられた音声に対して音声認識処理を行うことが可能である。

　画像入力部１１０Ａは、画像を入力する機能を有する。図２に示した例では、画像入力部１１０Ａは、テーブルＴｂｌＡに埋め込まれた２つのカメラを含んでいる。しかし、画像入力部１１０Ａに含まれるカメラの数は１以上であれば特に限定されない。かかる場合、画像入力部１１０Ａに含まれる１以上のカメラそれぞれが設けられる位置も特に限定されない。また、１以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。

　操作入力部１１５Ａは、ユーザＵＡの操作を入力する機能を有する。図２に示した例では、操作入力部１１５Ａは、テーブルＴｂｌＡの上方に存在する天井から吊り下げられた１つのカメラを含んでいる。しかし、操作入力部１１５Ａに含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部１１５ＡはユーザＵの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。

　出力部１３０Ａは、テーブルＴｂｌＡに画面を表示する機能を有する。図２に示した例では、出力部１３０Ａは、テーブルＴｂｌＡの上方に天井から吊り下げられている。しかし、出力部１３０Ａが設けられる位置は特に限定されない。また、典型的には、出力部１３０Ａは、テーブルＴｂｌＡの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。

　なお、本明細書では、テーブルＴｂｌＡの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルＴｂｌＡの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよい。あるいは、画面の表示面は、カーテンのヒダなどの非平面であってもよいし、他の場所にある面であってもよい。また、出力部１３０Ａが表示面を有する場合には、画面の表示面は、出力部１３０Ａが有する表示面であってもよい。

　集音部１２０Ａは、集音する機能を有する。図２に示した例では、集音部１２０Ａは、テーブルＴｂｌＡの上方に存在する３つのマイクロフォンとテーブルＴｂｌＡの上面に存在する３つのマイクロフォンとの合計６つのマイクロフォンを含んでいる。しかし、集音部１２０Ａに含まれるマイクロフォンの数は１以上であれば特に限定されない。かかる場合、集音部１２０Ａに含まれる１以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。

　ただし、集音部１２０Ａが、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによって集音された音情報に基づいて音の到来方向が推定され得る。また、集音部１２０Ａが指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによって集音された音情報に基づいて音の到来方向が推定され得る。

　以上、本開示の実施形態に係る情報処理システム１０Ａの構成例について説明した。

　［１．２．機能構成例］
　続いて、本開示の実施形態に係る情報処理システム１０Ａの機能構成例について説明する。図３は、本開示の実施形態に係る情報処理システム１０Ａの機能構成例を示すブロック図である。図３に示したように、本開示の実施形態に係る情報処理システム１０Ａは、画像入力部１１０Ａと、操作入力部１１５Ａと、集音部１２０Ａと、出力部１３０Ａと、情報処理装置１４０Ａ（以下、「制御部１４０Ａ」とも言う。）と、を備える。

　情報処理装置１４０Ａは、情報処理システム１０Ａの各部の制御を実行する。例えば、情報処理装置１４０Ａは、出力部１３０Ａから出力する情報を生成する。また、例えば、情報処理装置１４０Ａは、画像入力部１１０Ａ、操作入力部１１５Ａおよび集音部１２０Ａそれぞれが入力した情報を、出力部１３０Ａから出力する情報に反映させる。図３に示したように、情報処理装置１４０Ａは、入力画像取得部１４１Ａと、音情報取得部１４２Ａと、操作検出部１４３Ａと、認識制御部１４４Ａと、音声認識部１４５Ａと、出力制御部１４６Ａとを備える。これらの各機能ブロックについての詳細は、後に説明する。

　なお、情報処理装置１４０Ａは、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ；中央演算処理装置）などで構成されていてもよい。情報処理装置１４０ＡがＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。

　以上、本開示の実施形態に係る情報処理システム１０Ａの機能構成例について説明した。

　［１．３．情報処理システムの機能詳細］
　続いて、本開示の実施形態に係る情報処理システム１０Ａの機能詳細について説明する。図４は、初期画面の表示から音声認識処理の起動トリガを検出するまでの画面遷移の例を示す図である。図４を参照すると、出力制御部１４６Ａは、初期画面Ｇ１０－１Ａを表示させている。初期画面Ｇ１０－１Ａには、音声認識処理を開始させるための音声認識開始操作オブジェクトＧ１４Ａ、音声認識処理によって得られた文字列（以下、「認識文字列」とも言う。）の表示欄である認識文字列表示欄Ｇ１１Ａが含まれる。

　また、初期画面Ｇ１０－１Ａには、認識文字列を全部削除するための全削除操作オブジェクトＧ１２Ａ、認識文字列を確定するための確定操作オブジェクトＧ１３Ａが含まれる。また、初期画面Ｇ１０－１Ａには、認識文字列におけるカーソル位置を前に戻すための前方移動操作オブジェクトＧ１５Ａ、認識文字列におけるカーソル位置を後ろに進めるための後方移動操作オブジェクトＧ１６Ａ、カーソル位置の文字または単語を削除するための削除操作オブジェクトＧ１７Ａが含まれる。

　まず、画面Ｇ１０－２Ａに示すように、ユーザによる音声認識開始操作オブジェクトＧ１４Ａを選択する操作が操作入力部１１５Ａによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３Ａによって検出される（時刻Ｔ１０Ａ）。出力制御部１４６Ａは、音声認識処理の起動トリガが検出されると、音声認識処理の開始条件を出力させる。なお、ここでは、音声認識処理の起動トリガとして音声認識開始操作オブジェクトＧ１４Ａを選択する操作を例に挙げて説明するが、音声認識処理の起動トリガは、かかる例に限定されない。

　例えば、音声認識処理の起動トリガは、音声認識処理を起動するためのハードウェアボタンを押下する操作であってもよい。このとき、音声認識処理は、ハードウェアボタンの押下開始から押下解除までの間に起動されてもよい（Ｐｕｓｈ　Ｔｏ　Ｔａｌｋ型）。あるいは、音声認識処理の起動トリガは、音声認識処理の起動コマンド（例えば、「音声」という発話など）の実行であってもよい。

　あるいは、音声認識処理の起動トリガは、所定の音声認識処理の起動ジェスチャ（例えば、手の振り上げ、手の振り下ろし、顔の動き（例えば、うなずき、左右に顔を傾ける動作など）など）であってもよい。また、音声認識処理の起動トリガは、音声らしさが閾値を上回る音情報が集音部１２０Ａから取得されたことを含んでもよい。

　まず、音声認識処理が開始されるまでの残り時間が開始条件として出力される例を説明する。

　図５は、音声認識処理が開始されるまでの残り時間が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。出力制御部１４６Ａは、音声認識処理の起動トリガが検出されると、残り時間通知画面Ｇ２１－１Ａの出力を開始させる（時刻Ｔ１１Ａ）。残り時間通知画面Ｇ２１－１Ａには、音声認識処理が開始されるまでの残り時間Ｇ２３－１Ａと開始条件の出力を停止させるための取り消しオブジェクトＧ２２Ａとが含まれている。

　続いて、出力制御部１４６Ａは、時間の経過に伴って残り時間Ｇ２３－１Ａを減らしていく。例えば、出力制御部１４６Ａは、残り時間Ｇ２３－１Ａから減らされた後の残り時間Ｇ２３－２Ａを含んだ残り時間通知画面Ｇ２１－２Ａを出力させる。続いて、出力制御部１４６Ａは、音声認識処理が開始されるまでの残り時間がゼロになり開始条件が満たされると（時刻Ｔ１２Ａ）、開始条件の出力を停止させる（時刻Ｔ１３Ａ）。開始条件の出力が停止されると、ユーザは集音部１２０Ａに向かって発話を開始する（時刻Ｔ１４Ａ）。

　集音部１２０Ａによって集音された音情報が音情報取得部１４２Ａによって取得されると、出力制御部１４６Ａは、所定のオブジェクト（以下、「表示オブジェクト」とも言う。）ＭｕＡを表示させる。表示オブジェクトＭｕＡは、静止していてもよいし、動きを有していてもよい。例えば、表示オブジェクトＭｕＡが動きを有する場合、表示オブジェクトＭｕＡの移動方向ＤｅＡは、ユーザによる発話音声の音源から集音部１２０Ａへの到来方向に応じて決まってよい。なお、ユーザによる発話音声の到来方向の推定手法も特に限定されない。

　例えば、認識制御部１４４Ａは、音声認識開始操作オブジェクトＧ１４Ａを選択する操作を行ったユーザの指方向（例えば、指の根元から指先への方向）に一致または類似する１の到来方向をユーザによる発話音声の到来方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。

　あるいは、認識制御部１４４Ａは、集音部１２０Ａによって入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。音の到来方向が複数あった場合には、複数の到来方向のうち最初に入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよいし、複数の到来方向のうち音声認識開始操作オブジェクトＧ１４Ａを選択する操作を行ったユーザの指方向に一致または類似する１の到来方向をユーザによる発話音声の到来方向として推定してもよい。

　あるいは、認識制御部１４４Ａは、複数の到来方向のうち集音部１２０Ａによって最も大きな音量で入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。このようにしてユーザによる発話音声の到来方向が推定され得る。一方において、認識制御部１４４Ａは、ユーザによる発話音声の到来方向以外の方向から集音部１２０Ａによって入力された音を雑音として取得してよい。したがって、雑音には、情報処理システム１０Ａからの出力音も含まれ得る。

　また、図５には、出力制御部１４６Ａが、ユーザによる発話音声の到来方向（移動方向ＤｅＡ）に表示オブジェクトＭｕＡを移動させる例が示されている。これによって、ユーザは自分の発話音声が集音部１２０Ａによって集音されていることを直感的に把握することが可能となる。しかし、表示オブジェクトＭｕＡの動きは、かかる動きに限定されない。また、図５には、表示オブジェクトＭｕＡの移動先が、音声認識開始操作オブジェクトＧ１４Ａである例が示されている。しかし、表示オブジェクトＭｕＡの移動先は、かかる例に限定されない。

　また、図５には、出力制御部１４６Ａが、集音部１２０Ａによる集音に応じて次々と出現した円形状の表示オブジェクトＭｕＡを移動させる例が示されているが、表示オブジェクトＭｕＡの表示態様はかかる例に限定されない。例えば、出力制御部１４６Ａは、音情報に応じた所定の情報（例えば、音情報の音声らしさ、音量など）に基づいて表示オブジェクトＭｕＡの各種パラメータを制御してよい。このときに用いられる音情報は、ユーザによる発話音声の到来方向からの音情報であるとよい。また、表示オブジェクトＭｕＡのパラメータは、表示オブジェクトＭｕＡの形状、透明度、色、サイズおよび動きのうち、少なくともいずれか一つを含んでもよい。

　なお、音情報から音声らしさを評価する手法は特に限定されない。例えば、音情報から音声らしさを評価する手法として、特許文献（特開２０１０－３８９４３号公報）に記載されている手法を採用することも可能である。また、例えば、音情報から音声らしさを評価する手法として、特許文献（特開２００７－３２８２２８号公報）に記載されている手法を採用することも可能である。ここでは、音声らしさの評価が、出力制御部１４６Ａによって行われる例を説明するが、音声らしさの評価は、図示しないサーバによって行われてもよい。

　認識制御部１４４Ａは、開始条件が満たされると、音情報取得部１４２Ａによって取得された音情報に対する音声認識処理を音声認識部１４５Ａに開始させる。音声認識処理を開始させるタイミングは限定されない。例えば、認識制御部１４４Ａは、音声らしさが所定の閾値を超える音情報が集音されてから、音声認識部１４５Ａに開始させてもよいし、表示オブジェクトＭｕＡが音声認識開始操作オブジェクトＧ１４Ａに到達してから、表示オブジェクトＭｕＡに対応する音情報に対する音声認識処理を音声認識部１４５Ａに開始させてもよい。

　なお、ユーザは音声認識処理の開始を取り消したい場合には、取り消しオブジェクトＧ２２Ａを選択すればよい。ユーザが、取り消しオブジェクトＧ２２Ａを選択すると、かかる操作は、出力停止操作として操作入力部１１５Ａによって入力され、操作検出部１４３Ａによって出力停止操作が検出される。操作検出部１４３Ａによって出力停止操作が検出されると、出力制御部１４６Ａは、開始条件の出力を停止させる。

　以上、音声認識処理が開始されるまでの残り時間が開始条件として出力される例を説明した。続いて、音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力される例を説明する。

　図６は、音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。出力制御部１４６Ａは、音声認識処理の起動トリガが検出されると、発話開始確認画面Ｇ２４－１Ａの出力を開始させる（時刻Ｔ１１Ａ）。発話開始確認画面Ｇ２４－１Ａには、音声認識処理を開始させるために必要なユーザ操作に関する情報としての音声認識処理開始オブジェクトＧ２５－１Ａと取り消しオブジェクトＧ２２Ａとが含まれている。

　続いて、ユーザによって音声認識処理開始オブジェクトＧ２５－１Ａを選択する操作がなされると（発話開始確認画面Ｇ２４－２Ａ）、その操作が操作入力部１１５Ａによって入力され、操作検出部１４３Ａによって検出される。出力制御部１４６Ａは、音声認識処理開始オブジェクトＧ２５－１Ａを選択する操作が検出されて開始条件が満たされると（時刻Ｔ１２Ａ）、開始条件の出力を停止させる（時刻Ｔ１３Ａ）。開始条件の出力が停止されると、ユーザは集音部１２０Ａに向かって発話を開始する（時刻Ｔ１４Ａ）。以降の動作は、既に説明した音声認識処理が開始されるまでの残り時間が開始条件として出力される例と同様に実行され得る。

　以上、音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力される例を説明した。音声認識処理の開始条件が出力されることによって、ユーザは、図５および図６にも示されるように、発話開始までに集音される音情報（例えば、フィラーや余計な発話など）が音声認識処理に与える影響を低減することが可能となる。

　このようにして開始条件が出力され得るが、開始条件が不変である場合には、音声認識処理を状況に応じて柔軟に開始させることが困難である。そこで、本開示の実施形態において、出力制御部１４６Ａは、出力部１３０Ａに出力させる音声認識処理の開始条件を動的に変更する。かかる構成によって、音声認識処理を状況に応じて柔軟に開始させることが可能となる。例えば、出力制御部１４６Ａは、所定の情報に基づいて、出力部１３０Ａに出力させる音声認識処理の開始条件を動的に変更すればよい。

　所定の情報は特に限定されない。まず、音声認識処理の起動トリガが検出された後に集音部１２０Ａから入力された音情報に基づいて、出力部１３０Ａに出力させる開始条件を動的に変更する例を説明する。図７は、音声認識処理の起動トリガが検出された後に集音部１２０Ａから入力された音情報に基づいて、開始条件を動的に変更する例を説明するための図である。

　図７に示すように、ユーザによる音声認識開始操作オブジェクトＧ１４Ａを選択する操作が操作入力部１１５Ａによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３Ａによって検出される（時刻Ｔ１０Ａ）。出力制御部１４６Ａは、音声認識処理の起動トリガが検出されると、集音部１２０Ａから入力された音情報に含まれる第１の種類の音情報に基づいて、出力部１３０Ａに出力させる開始条件を動的に変更する。

　ここで、第１の種類の音情報は特に限定されない。例えば、第１の種類の音情報は、少なくとも雑音を含んでよい。雑音は、ユーザの発話に対する音声認識処理の妨げになる可能性があるからである。ここでは、第１の種類の音情報が雑音である場合を例として説明を続ける。

　一つ目として、雑音の音量（以下、「雑音レベル」とも言う。）が第１の閾値ｎ１Ａを上回る場合には、ユーザの発話に対する音声認識処理の成功率は低めであるため、ユーザに音声認識処理の開始タイミングを入力させるのが望ましいと考えられる。そこで、出力制御部１４６Ａは、雑音レベルが第１の閾値ｎ１Ａを上回る場合には、音声認識処理を開始させるために必要なユーザ操作に関する情報に開始条件を変更するのがよい。

　より具体的には、出力制御部１４６Ａは、雑音レベルが第１の閾値ｎ１Ａを上回る場合には、発話開始確認画面Ｇ２４－１Ａを出力させるのがよい。上記した例と同様に、発話開始確認画面Ｇ２４－１Ａには、音声認識処理を開始させるために必要なユーザ操作に関する情報としての音声認識処理開始オブジェクトＧ２５－１Ａと取り消しオブジェクトＧ２２Ａとが含まれている。

　続いて、ユーザによって音声認識処理開始オブジェクトＧ２５－１Ａを選択する操作がなされると、その操作が操作入力部１１５Ａによって入力され、操作検出部１４３Ａによって検出される。出力制御部１４６Ａは、音声認識処理開始オブジェクトＧ２５－１Ａを選択する操作が検出されて開始条件が満たされると（時刻Ｔ１２Ａ）、開始条件の出力を停止させる（時刻Ｔ１３Ａ）。以降の動作は、既に説明した通りである。

　二つ目として、雑音レベルが第１の閾値ｎ１Ａ以下である場合、かつ、雑音レベルが（第１の閾値ｎ１Ａより小さい）第２の閾値ｎ２Ａ以上である場合には、ユーザの発話に対する音声認識処理の成功率は中程度であるため、所定時間の経過後に自動的に音声認識処理を開始させるのが望ましいと考えられる。そこで、出力制御部１４６Ａは、雑音の音量が第１の閾値ｎ１Ａを下回る場合、かつ、雑音レベルが第２の閾値ｎ２Ａを上回る場合には、音声認識処理が開始されるまでの残り時間に開始条件を変更するのがよい。

　上記した例と同様に、残り時間通知画面Ｇ２１－１Ａには、音声認識処理が開始されるまでの残り時間Ｇ２３－１Ａと開始条件の出力を停止させるための取り消しオブジェクトＧ２２Ａとが含まれている。出力制御部１４６Ａは、音声認識処理が開始されるまでの残り時間がゼロになり開始条件が満たされると（時刻Ｔ１２Ａ）、開始条件の出力を停止させる（時刻Ｔ１３Ａ）。開始条件の出力が停止される。以降の動作は、既に説明した通りである。

　三つ目として、雑音レベルが第２の閾値ｎ２Ａを下回る場合には、ユーザの発話に対する音声認識処理の成功率は高めであるため、開始条件を出力させずに音声認識処理が開始されるのが望ましい。そこで、出力制御部１４６Ａは、雑音レベルが第２の閾値ｎ２Ａを下回る場合には、開始条件を出力部１３０Ａに出力させることを省略するのが望ましい。

　なお、上記では、雑音レベルが第１の閾値ｎ１Ａと等しい場合は、雑音レベルが第１の閾値ｎ１Ａ以下である場合、かつ、雑音レベルが第２の閾値ｎ２Ａ以上である場合と同様に扱われたが、雑音レベルが第１の閾値ｎ１Ａを上回る場合と同様に扱われてもよい。また、上記では、雑音レベルが第２の閾値ｎ２Ａと等しい場合は、雑音レベルが第１の閾値ｎ１Ａ以下である場合、かつ、雑音レベルが第２の閾値ｎ２Ａ以上である場合と同様に扱われたが、雑音レベルが第２の閾値ｎ２Ａを下回る場合と同様に扱われてもよい。

　出力制御部１４６Ａは、開始条件として所定の表示情報を出力部１３０Ａに出力させてよい。図８および図９は、開始条件として表示情報を出力部１３０Ａに出力させる例を示す図である。図８には、音声認識開始操作オブジェクトＧ１４Ａに表示内容を徐々に出現させる例が示されている（時刻Ｔ３１Ａ～時刻Ｔ３６Ａ）。また、図９には、音声認識開始操作オブジェクトＧ１４Ａの色を徐々に変化させていく例が示されている（時刻Ｔ４１Ａ～時刻Ｔ４６Ａ）。

　また、出力制御部１４６Ａは、開始条件として所定の音声情報を出力部１３０Ａに出力させてもよい。図１０および図１１は、開始条件として音声情報を出力部１３０Ａに出力させる例を示す図である。図１０には、時刻Ｔ５１Ａから時刻Ｔ５４Ａまでに、音声認識処理の開始タイミング（時刻Ｔ５４Ａ）を知らせる音声情報が出力される例が示されている。また、図１１には、時刻Ｔ６１Ａから時刻Ｔ６４Ａまでに、音声認識処理の開始タイミング（時刻Ｔ６４Ａ）を知らせる音声情報が出力される例が示されている。

　続いて、図１２および図１３を参照しながら、音声認識処理の起動トリガが検出された後に集音部１２０Ａから入力された音情報に基づいて、出力部１３０Ａに出力させる開始条件を動的に変更する動作の流れについて説明する。なお、図１２および図１３のフローチャートは、音声認識処理の起動トリガが検出された後に集音部１２０Ａから入力された音情報に基づいて、出力部１３０Ａに出力させる開始条件を動的に変更する動作の流れの例に過ぎないため、かかる動作の流れは、図１２および図１３のフローチャートに示された例に限定されない。

　まず、図１２に示すように、操作検出部１４３Ａは、音声認識処理の起動トリガを検出し（Ｓ１１Ａ）、集音部１２０Ａから音情報ｖ１Ａが入力される（Ｓ１２Ａ）。続いて、出力制御部１４６Ａは、音声認識処理の開始条件を雑音に基づいて動的に決定する（Ｓ１３Ａ）。ここで、図１３を参照しながら、音声認識処理の開始条件を雑音に基づいて動的に決定する動作の詳細を説明する。まず、出力制御部１４６Ａは、音情報ｖ１Ａを取得し（Ｓ１３１Ａ）、音情報ｖ１Ａの雑音レベルが閾値ｎ１Ａを上回る場合には（Ｓ１３２Ａにおいて「Ｙｅｓ」）、モーダルＵＩ（上記した例では、発話開始確認画面Ｇ２４－１Ａ）を出力させることを決定する（Ｓ１３３Ａ）。

　一方、出力制御部１４６Ａは、音情報ｖ１Ａの雑音レベルが閾値ｎ１Ａを上回らない場合（Ｓ１３２Ａにおいて「Ｎｏ」）、Ｓ１３４Ａに進み、音情報ｖ１Ａの雑音レベルが閾値ｎ２Ａを下回る場合には（Ｓ１３４Ａにおいて「Ｙｅｓ」）、開始条件を出力させないことを決定し（Ｓ１３５Ａ）、音情報ｖ１Ａの雑音レベルが閾値ｎ２Ａを下回らない場合には（Ｓ１３４Ａにおいて「Ｎｏ」）、タイマＵＩ（残り時間通知画面Ｇ２１－１Ａ）を出力させることを決定する（Ｓ１３６Ａ）。

　図１２に戻って説明を続ける。出力制御部１４６Ａは、開始条件の出力を省略すると決定した場合には（Ｓ１４Ａにおいて「Ｙｅｓ」）、Ｓ１８Ａに動作を移行させる。一方、出力制御部１４６Ａは、開始条件の出力を省略しないと決定した場合には（Ｓ１４Ａにおいて「Ｎｏ」）、開始条件を出力させる（Ｓ１５Ａ）。その後、操作検出部１４３Ａは、開始条件の出力停止トリガを検出する（Ｓ１６Ａ）。開始条件の出力停止トリガには、開始条件が満たされたことと開始条件の出力を停止させるための取り消しオブジェクトＧ２２Ａを選択する操作とが含まれ得る。

　続いて、出力制御部１４６Ａは、開始条件の出力を停止させる。そして、音声認識部１４５Ａは、開始条件が満たされていない場合には（Ｓ１７Ａにおいて「Ｎｏ」）、音声認識処理を開始させずに（Ｓ１９Ａ）、動作を終了させる。一方、音声認識部１４５Ａは、開始条件が満たされた場合には（Ｓ１７Ａにおいて「Ｙｅｓ」）、音声認識処理を開始させる（Ｓ１８Ａ）。

　以上においては、音声認識処理の起動トリガが検出された後に集音部１２０Ａから入力された音情報に基づいて、出力部１３０Ａに出力させる開始条件を動的に変更する例について説明した。

　続いて、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部１３０Ａに出力させる開始条件を動的に変更する例を説明する。図１４および図１５は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に短くする例を説明するための図である。

　図１４の上段に示すように、初回の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトＧ１４Ａを選択する操作が操作入力部１１５Ａによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３Ａによって検出される（時刻Ｔ１０Ａ）。出力制御部１４６Ａは、音声認識処理の起動トリガが検出されると、集音部１２０Ａから入力された音情報の蓄積を開始し、残り時間通知画面Ｇ２１－１Ａの出力を開始させる（時刻Ｔ１１Ａ）。上記したように、残り時間通知画面Ｇ２１－１Ａには、音声認識処理が開始されるまでの残り時間Ｇ２３－１Ａと開始条件の出力を停止させるための取り消しオブジェクトＧ２２Ａとが含まれている。

　続いて、出力制御部１４６Ａは、時間の経過に伴って残り時間Ｇ２３－１Ａを減らしていく。例えば、出力制御部１４６Ａは、残り時間Ｇ２３－１Ａから減らされた後の残り時間Ｇ２３－２Ａを含んだ残り時間通知画面Ｇ２１－２Ａを出力させる。続いて、出力制御部１４６Ａは、音声認識処理が開始されるまでの残り時間がゼロになり開始条件が満たされると（時刻Ｔ１２Ａ）、開始条件の出力を停止させる（時刻Ｔ１３Ａ）。

　開始条件の出力が停止されると、出力制御部１４６Ａは、集音部１２０Ａから入力された音情報の蓄積を終了する。このようにして蓄積された音情報は、過去の音情報として次回の音声認識処理時に利用される。そして、ユーザは集音部１２０Ａに向かって発話を開始する（時刻Ｔ１４Ａ）。以降の動作は、既に説明した音声認識処理が開始されるまでの残り時間が開始条件として出力される例と同様に実行され得る。

　続いて、図１４の下段に示すように、二回目の音声処理時において、ユーザによる音声認識開始操作オブジェクトＧ１４Ａを選択する操作が操作入力部１１５Ａによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３Ａによって検出される（時刻Ｔ１０Ａ）。出力制御部１４６Ａは、音声認識処理の起動トリガが検出されると、蓄積されている過去の音情報を取得し、集音部１２０Ａから入力された音情報の蓄積を開始し、残り時間通知画面Ｇ２１－１Ａの出力を開始させる（時刻Ｔ１１Ａ）。

　このとき、出力制御部１４６Ａは、過去の音情報に含まれる第２の種類の音情報に基づいて、出力部１３０Ａに出力させる開始条件を動的に変更する。ここで、第２の種類の音情報は特に限定されない。例えば、第２の種類の音情報は、少なくとも雑音を含んでよい。雑音は、ユーザの発話に対する音声認識処理の妨げになる可能性があるからである。ここでは、第２の種類の音情報が雑音である場合を例として説明を続ける。

　ここで、図１４の上段にも示すように、初回の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より小さかった場合を想定する。かかる場合、二回目の音声認識処理時において取得される初回の音声認識処理時における雑音レベルは閾値より小さいこととなる。かかる場合には、出力制御部１４６Ａは、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、初回の音声認識処理時よりも短くする。

　より具体的には、図１４を参照すると、出力制御部１４６Ａは、音声認識処理が開始されるまでの残り時間Ｇ２３－１Ａを、初回の音声認識処理時においては「３」秒としているのに対し、二回目の音声認識処理時においては「１」秒と短くしている。なお、図１４に示した例では、音声認識処理が開始されるまでの残り時間Ｇ２３－１Ａが二回目の音声認識処理時に直ちに短くなっているが、雑音レベルが閾値より小さい状態が複数回続いて初めて、音声認識処理が開始されるまでの残り時間Ｇ２３－１Ａが短くなってもよい。

　続いて、図１５に示すように、三回目の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトＧ１４Ａを選択する操作が操作入力部１１５Ａによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３Ａによって検出される（時刻Ｔ１０Ａ）。出力制御部１４６Ａは、音声認識処理の起動トリガが検出されると、蓄積されている二回目の音声認識処理時に集音部１２０Ａから入力された音情報の蓄積を開始する（時刻Ｔ１１Ａ）。

　ここで、図１４の下段にも示すように、二回目の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より小さかった場合を想定する。かかる場合、三回目の音声認識処理時において取得される二日目の音声認識処理時における雑音レベルは閾値より小さいこととなる。かかる場合には、出力制御部１４６Ａは、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、二日目の音声認識処理時よりも短くする。

　より具体的には、図１５を参照すると、出力制御部１４６Ａは、音声認識処理が開始されるまでの残り時間Ｇ２３－１Ａを、二日目の音声認識処理時においては「１」秒としているのに対し、三回目の音声認識処理時においては、残り時間通知画面Ｇ２１－１Ａの出力を省略している。なお、図１５に示した例では、残り時間通知画面Ｇ２１－１Ａの出力が三回目の音声認識処理時に直ちに省略されているが、雑音レベルが閾値より小さい状態が複数回続いて初めて、残り時間通知画面Ｇ２１－１Ａの出力が省略されてもよい。

　続いて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明する。図１６および図１７は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明するための図である。

　図１６の上段に示すように、初回の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトＧ１４Ａを選択する操作が操作入力部１１５によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３Ａによって検出される（時刻Ｔ１０Ａ）。出力制御部１４６Ａは、音声認識処理の起動トリガが検出されると、集音部１２０Ａから入力された音情報の蓄積を開始し、残り時間通知画面Ｇ２１－１Ａの出力を開始させる（時刻Ｔ１１Ａ）。以降の動作は、既に説明した音声認識処理が開始されるまでの残り時間が開始条件として出力される例と同様に実行され得る。

　続いて、図１６の下段に示すように、二回目の音声処理時において、ユーザによる音声認識開始操作オブジェクトＧ１４Ａを選択する操作が操作入力部１１５Ａによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３Ａによって検出される（時刻Ｔ１０Ａ）。出力制御部１４６Ａは、音声認識処理の起動トリガが検出されると、蓄積されている過去の音情報を取得し、集音部１２０Ａから入力された音情報の蓄積を開始し、残り時間通知画面Ｇ２１－１Ａの出力を開始させる（時刻Ｔ１１Ａ）。

　ここで、図１６の上段にも示すように、初回の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より大きかった場合を想定する。かかる場合、二回目の音声認識処理時において取得される初回の音声認識処理時における雑音レベルは閾値より大きいこととなる。かかる場合には、出力制御部１４６Ａは、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、初回の音声認識処理時よりも長くする。

　より具体的には、図１６を参照すると、出力制御部１４６Ａは、音声認識処理が開始されるまでの残り時間Ｇ２３－１Ａを、初回の音声認識処理時においては「３」秒としているのに対し、二回目の音声認識処理時においては「５」秒と長くしている。なお、図１６に示した例では、音声認識処理が開始されるまでの残り時間Ｇ２３－１Ａが二回目の音声認識処理時に直ちに長くなっているが、雑音レベルが閾値より大きい状態が複数回続いて初めて、音声認識処理が開始されるまでの残り時間Ｇ２３－１Ａが長くなってもよい。

　続いて、図１７に示すように、三回目の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトＧ１４Ａを選択する操作が操作入力部１１５Ａによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部１４３Ａによって検出される（時刻Ｔ１０Ａ）。出力制御部１４６Ａは、音声認識処理の起動トリガが検出されると、蓄積されている二回目の音声認識処理時に集音部１２０Ａから入力された音情報の蓄積を開始する（時刻Ｔ１１Ａ）。

　ここで、図１６の下段にも示すように、二回目の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より大きかった場合を想定する。かかる場合、三回目の音声認識処理時において取得される二日目の音声認識処理時における雑音レベルは閾値より大きいこととなる。かかる場合には、出力制御部１４６Ａは、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、二日目の音声認識処理時よりも長くする。

　より具体的には、図１７を参照すると、出力制御部１４６Ａは、音声認識処理が開始されるまでの残り時間Ｇ２３－１Ａを、二日目の音声認識処理時においては「５」秒としているのに対し、三回目の音声認識処理時においては、発話開始確認画面Ｇ２４－２Ａを出力させている。なお、図１７に示した例では、三回目の音声認識処理時に直ちに発話開始確認画面Ｇ２４－２Ａを出力させているが、雑音レベルが閾値より大きい状態が複数回続いて初めて、発話開始確認画面Ｇ２４－２Ａが出力されてもよい。

　ここで、上記したように、音声認識処理が開始されるまでの残り時間は変化し得る。このとき、音声認識処理が開始されるまでの残り時間の変化とともに出力部１３０Ａに出力される表示情報も変化させるのがよい。そうすれば、ユーザにとっても、開始条件が変更されたことを容易に把握することが可能となる。

　図１８は、音声認識処理が開始されるまでの残り時間が短くなった場合における表示情報の例を示す図である。図１８に示すように、音声認識開始操作オブジェクトＧ１４Ａに表示内容を徐々に出現させる例において、出力制御部１４６Ａは、表示内容の出現速度を高くするようにしてもよい（時刻Ｔ３１Ａ～時刻Ｔ３３Ａ）。また、図１９は、音声認識処理が開始されるまでの残り時間が長くなった場合における表示情報の例を示す図である。図１９に示すように、音声認識開始操作オブジェクトＧ１４Ａに表示内容を徐々に出現させる例において、出力制御部１４６Ａは、表示内容の出現速度を低くするようにしてもよい（時刻Ｔ３１Ａ～時刻Ｔ３８Ａ）。

　続いて、図２０および図２１を参照しながら、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部１３０Ａに出力させる開始条件を動的に変更する動作の流れについて説明する。なお、図２０および図２１のフローチャートは、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部１３０Ａに出力させる開始条件を動的に変更する動作の流れの例に過ぎないため、かかる動作の流れは、図２０および図２１のフローチャートに示された例に限定されない。

　まず、図２０に示すように、操作検出部１４３Ａは、音声認識処理の起動トリガを検出する（Ｓ２１Ａ）。また、出力制御部１４６Ａは、過去の音情報ｈ１Ａがあれば過去の音情報ｈ１を取得し（Ｓ２２Ａ）、集音部１２０Ａから音情報ｖ１Ａの取得を開始する（Ｓ２３Ａ）。続いて、出力制御部１４６Ａは、音声認識処理の開始条件を過去の音情報ｈ１Ａに応じて動的に決定する（Ｓ２４Ａ）。ここで、図２１を参照しながら、音声認識処理の開始条件を過去の音情報ｈ１Ａに基づいて動的に決定する動作の詳細を説明する。

　まず、出力制御部１４６Ａは、過去の音情報ｈ１Ａを取得し（Ｓ２４１Ａ）、タイムアウト値ｔ１Ａ（上記した例では、音声認識処理が開始されるまでの残り時間Ｇ２３－１Ａ）を取得する（Ｓ２４２Ａ）。続いて、出力制御部１４６Ａは、過去の音情報ｈ１Ａの音量が閾値ｍ１Ａを上回っている場合には（Ｓ２４３Ａにおいて「Ｙｅｓ」）、Ｓ２４４Ａに動作を移行させる。一方、出力制御部１４６Ａは、過去の音情報ｈ１Ａの音量が閾値ｍ１Ａを上回っていない場合には（Ｓ２４３Ａにおいて「Ｎｏ」）、Ｓ２４８Ａに動作を移行させる。

　Ｓ２４４Ａに動作が移行された場合、出力制御部１４６Ａは、タイムアウト値ｔ１Ａが閾値ｔ＿ｍａｘＡを上回っている場合には（Ｓ２４４Ａにおいて「Ｙｅｓ」）、モーダルＵＩ（上記した例では、発話開始確認画面Ｇ２４－１Ａ）を出力させることを決定し（Ｓ２４５Ａ）、タイムアウト値ｔ１Ａが閾値ｔ＿ｍａｘＡを上回っていない場合には（Ｓ２４４Ａにおいて「Ｎｏ」）、タイムアウト値ｔ１Ａを増加させ（Ｓ２４６Ａ）、タイムアウト値ｔ１Ａが設定されたタイマＵＩ（上記では、残り時間通知画面Ｇ２１－１Ａ）を出力させることを決定する（Ｓ２４７Ａ）。

　一方、Ｓ２４８Ａに動作が移行された場合、出力制御部１４６Ａは、タイムアウト値ｔ１Ａが閾値ｔ＿ｍｉｎＡを下回っている場合には（Ｓ２４８Ａにおいて「Ｙｅｓ」）、開始条件を出力させないことを決定し（Ｓ２５１Ａ）、タイムアウト値ｔ１Ａが閾値ｔ＿ｍｉｎＡを下回っていない場合には（Ｓ２４８Ａにおいて「Ｎｏ」）、タイムアウト値ｔ１Ａを減少させ（Ｓ２４９Ａ）、タイムアウト値ｔ１Ａが設定されたタイマＵＩ（上記では、残り時間通知画面Ｇ２１－１Ａ）を出力させることを決定する（Ｓ２４７Ａ）。

　図２０に戻って説明を続ける。出力制御部１４６Ａは、開始条件の出力を省略すると決定した場合には（Ｓ２５Ａにおいて「Ｙｅｓ」）、Ｓ３０Ａに動作を移行させる。一方、出力制御部１４６Ａは、開始条件の出力を省略しないと決定した場合には（Ｓ２５Ａにおいて「Ｎｏ」）、開始条件を出力させる（Ｓ２６Ａ）。その後、操作検出部１４３Ａは、開始条件の出力停止トリガを検出する（Ｓ２７Ａ）。開始条件の出力停止トリガには、開始条件が満たされたことと開始条件の出力を停止させるための取り消しオブジェクトＧ２２Ａを選択する操作とが含まれ得る。

　続いて、出力制御部１４６Ａは、開始条件の出力を停止させ、継続的に取得した音情報ｖ１Ａを過去の音情報ｈ１Ａとして保存する（Ｓ２８Ａ）。そして、音声認識部１４５Ａは、開始条件が満たされていない場合には（Ｓ２９Ａにおいて「Ｎｏ」）、音声認識処理を開始させずに（Ｓ３１Ａ）、動作を終了させる。一方、音声認識部１４５Ａは、開始条件が満たされた場合には（Ｓ２９Ａにおいて「Ｙｅｓ」）、音声認識処理を開始させる（Ｓ３０Ａ）。

　以上、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部１３０Ａに出力させる開始条件を動的に変更する例を説明した。

　以上においては、集音部１２０Ａから入力される音情報にフィラーが含まれているか否かに依らずに動作する例を説明したが、集音部１２０Ａから入力される音情報にフィラーが含まれているか否かによって動作を異ならせてもよい。まず、フィラーの例について説明する。図２２は、フィラーとその音声波形との対応関係の例を示す図である。図２２に示すように、フィラーとその音声波形とが対応付けられてなる情報があらかじめ記憶されている。この音声波形が集音部１２０Ａから入力される音情報に含まれる場合、この音声波形に対応するフィラーが音声認識処理の結果として取得される。

　図２３は、集音部１２０Ａから入力される音情報にフィラーが含まれているか否かによって動作を異ならせる例を説明するための図である。出力制御部１４６Ａは、音声認識処理の起動トリガが検出されると、残り時間通知画面Ｇ２１－１Ａの出力を開始させる（時刻Ｔ１１Ａ）。このとき、認識制御部１４４Ａは、集音部１２０Ａから入力される音情報の蓄積を開始する。

　続いて、認識制御部１４４Ａは、開始条件が満たされると（時刻Ｔ１２Ａ）、開始条件が満たされるまでに蓄積された音情報Ｐ１Ａの認識結果がフィラーであるか否かを判断し、認識結果がフィラーである場合、現時点までに蓄積された音情報Ｐ２Ａから開始条件が満たされるまでに蓄積されたＰ１Ａを除外して音声認識処理を音声認識部１４５Ａに行わせる。一方、認識制御部１４４Ａは、認識結果がフィラーではない場合、現時点までに蓄積された音情報Ｐ２Ａから開始条件が満たされるまでに蓄積されたＰ１Ａを除外せずに音声認識処理を音声認識部１４５に行わせる。また、出力制御部１４６Ａは、開始条件が満たされると（時刻Ｔ１２Ａ）、開始条件の出力を停止させる（時刻Ｔ１３Ａ）。以降の動作は、既に説明した通りである。

　以上、出力部１３０Ａに出力させる開始条件を動的に変更する例を説明したが、開始条件を動的に変更する例は、上記した例に限定されない。例えば、出力制御部１４６Ａは、音声らしさが閾値を超える音情報の集音部１２０Ａへの到来方向の数に基づいて、出力部１３０Ａに出力させる開始条件を動的に変更してもよい。音声らしさが閾値を超える音情報の集音部１２０Ａへの到来方向の数が所定値を超える場合には、音声認識処理が困難になる可能性があるからである。

　そこで、例えば、出力制御部１４６Ａは、音声らしさが閾値を超える音情報の集音部１２０Ａへの到来方向の数が所定値を超える場合には、発話開始確認画面Ｇ２４－１Ａを出力させてもよい。また、出力制御部１４６Ａは、音声らしさが閾値を超える音情報の集音部１２０Ａへの到来方向の数が所定値以下である場合には、残り時間通知画面Ｇ２１－１Ａを出力させてもよい。所定値は限定されないが、「１」であってもよい。

　以上、本開示の実施形態に係る情報処理システム１０Ａの機能詳細について説明した。

　［１．４．システム構成の変形例］
　上記においては、出力部１３０ＡがテーブルＴｂｌＡの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、情報処理システム１０Ａのシステム構成は、かかる例に限定されない。以下では、情報処理システム１０Ａのシステム構成の変形例について説明する。図２４は、情報処理システム１０Ａの構成の変形例１を示す図である。図２４に示すように、情報処理システム１０Ａが携帯端末である場合に、出力部１３０Ａは、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。

　また、図２５～図２８は、情報処理システム１０Ａの構成の変形例２を示す図である。図２５～図２８に示すように、出力部１３０Ａは、テレビジョン装置であり、情報処理装置１４０Ａは、ゲーム機であり、操作入力部１１５Ａは、ゲーム機を操作するコントローラであってよい。

　また、図２５に示すように、集音部１２０Ａおよび出力部１３０Ａは、操作入力部１１５Ａに接続されていてもよい。また、図２６に示すように、画像入力部１１０Ａおよび集音部１２０Ａは、情報処理装置１４０Ａに接続されていてもよい。また、図２７に示すように、操作入力部１１５Ａ、集音部１２０Ａおよび出力部１３０Ａは、情報処理装置１４０Ａに接続されたスマートフォンに備えられていてもよい。また、図２８に示すように、集音部１２０Ａは、テレビジョン装置に備えられていてもよい。

　また、図２９～図３２は、情報処理システム１０Ａの構成の変形例３を示す図である。図２９に示すように、情報処理システム１０Ａは、自動車に取り付け可能な車載向けナビゲーションシステムに搭載され、自動車を運転中のユーザＵＡによって利用されてもよい。また、図３０に示すように、情報処理システム１０Ａは、携帯端末に搭載され、自動車を運転中のユーザＵＡによって利用されてもよい。上記したように、携帯端末の種類は特に限定されない。

　また、図３１に示すように、情報処理システム１０Ａのうち、画像入力部１１０Ａと、操作入力部１１５Ａと、出力部１３０Ａとは、携帯端末によって備えられており、集音部１２０Ａは、ユーザＵＡの身体に取り付け可能なマイクロフォンであってもよい。また、図３２に示すように、情報処理システム１０Ａは、自動車に内蔵されている車載向けナビゲーションシステムに搭載され、自動車を運転中のユーザＵＡによって利用されてもよい。

　［１．５．ハードウェア構成例］
　次に、図３３を参照して、本開示の実施形態に係る情報処理システム１０Ａのハードウェア構成について説明する。図３３は、本開示の実施形態に係る情報処理システム１０Ａのハードウェア構成例を示すブロック図である。

　図３３に示すように、情報処理システム１０Ａは、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔ）９０１Ａ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０３Ａ、およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０５Ａを含む。また、情報処理システム１０Ａは、ホストバス９０７Ａ、ブリッジ９０９Ａ、外部バス９１１Ａ、インターフェース９１３Ａ、入力装置９１５Ａ、出力装置９１７Ａ、ストレージ装置９１９Ａ、ドライブ９２１Ａ、接続ポート９２３Ａ、通信装置９２５Ａを含んでもよい。さらに、情報処理システム１０Ａは、必要に応じて、撮像装置９３３Ａ、およびセンサ９３５Ａを含んでもよい。情報処理システム１０Ａは、ＣＰＵ９０１Ａに代えて、またはこれとともに、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

　ＣＰＵ９０１Ａは、演算処理装置および制御装置として機能し、ＲＯＭ９０３Ａ、ＲＡＭ９０５Ａ、ストレージ装置９１９Ａ、またはリムーバブル記録媒体９２７Ａに記録された各種プログラムに従って、情報処理システム１０Ａ内の動作全般またはその一部を制御する。ＲＯＭ９０３Ａは、ＣＰＵ９０１Ａが使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５Ａは、ＣＰＵ９０１Ａの実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１Ａ、ＲＯＭ９０３Ａ、およびＲＡＭ９０５Ａは、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７Ａにより相互に接続されている。さらに、ホストバス９０７Ａは、ブリッジ９０９Ａを介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１Ａに接続されている。

　入力装置９１５Ａは、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５Ａは、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置９１５Ａは、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム１０Ａの操作に対応した携帯電話などの外部接続機器９２９Ａであってもよい。入力装置９１５Ａは、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１Ａに出力する入力制御回路を含む。ユーザは、この入力装置９１５Ａを操作することによって、情報処理システム１０Ａに対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３Ａも、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

　出力装置９１７Ａは、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７Ａは、例えば、ＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）、ＰＤＰ（Ｐｌａｓｍａ　Ｄｉｓｐｌａｙ　Ｐａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置９１７Ａは、情報処理システム１０Ａの処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置９１７Ａは、周囲を明るくするためライトなどを含んでもよい。

　ストレージ装置９１９Ａは、情報処理システム１０Ａの記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９Ａは、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９Ａは、ＣＰＵ９０１Ａが実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ９２１Ａは、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７Ａのためのリーダライタであり、情報処理システム１０Ａに内蔵、あるいは外付けされる。ドライブ９２１Ａは、装着されているリムーバブル記録媒体９２７Ａに記録されている情報を読み出して、ＲＡＭ９０５Ａに出力する。また、ドライブ９２１Ａは、装着されているリムーバブル記録媒体９２７Ａに記録を書き込む。

　接続ポート９２３Ａは、機器を情報処理システム１０Ａに直接接続するためのポートである。接続ポート９２３Ａは、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３Ａは、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３Ａに外部接続機器９２９Ａを接続することで、情報処理システム１０Ａと外部接続機器９２９Ａとの間で各種のデータが交換され得る。

　通信装置９２５Ａは、例えば、通信ネットワーク９３１Ａに接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５Ａは、例えば、有線または無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５Ａは、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５Ａは、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５Ａに接続される通信ネットワーク９３１Ａは、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

　撮像装置９３３Ａは、例えば、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）またはＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３Ａは、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

　センサ９３５Ａは、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５Ａは、例えば情報処理システム１０Ａの筐体の姿勢など、情報処理システム１０Ａ自体の状態に関する情報や、情報処理システム１０Ａの周辺の明るさや騒音など、情報処理システム１０Ａの周辺環境に関する情報を取得する。また、センサ９３５Ａは、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

　以上、情報処理システム１０Ａのハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。

　＜２．むすび＞
　以上説明したように、本開示の実施形態によれば、集音部１２０Ａから入力された音情報に対して音声認識部１４５Ａによって施される音声認識処理の開始条件を出力部１３０Ａに出力させる出力制御部１４６Ａを備え、出力制御部１４６Ａは、出力部１３０Ａに出力させる音声認識処理の開始条件を動的に変更する、情報処理システム１０Ａが提供される。かかる構成によれば、音声認識処理を状況に応じて柔軟に開始させることが可能となる。

　また、かかる構成によれば、音声認識処理の開始前に発話内容をユーザに考えさせることが可能となる。換言すれば、発話内容をユーザに決めさせてから音声認識処理を開始させることが可能となる。また、かかる構成によれば、集音された音情報に含まれる雑音などを音声認識処理の対象から除外することが可能となる。また、音声認識処理の開始条件をユーザに提示することによって、音声認識処理の成功率を向上させることが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上記においては、情報処理システム１０Ａのシステム構成例およびシステム構成の変形例を説明したが、情報処理システム１０Ａのシステム構成例は、これらの例に限定されない。例えば、出力部１３０Ａは、ヘッドマウントディスプレイ以外のウェアラブル端末（例えば、時計、眼鏡など）に備わるディスプレイであってもよい。また、例えば、出力部１３０Ａは、ヘルスケア分野において利用されるディスプレイであってもよい。

　また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上記した情報処理装置１４０Ａが有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

　また、出力制御部１４６Ａは、出力部１３０Ａに表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を出力部１３０Ａに出力することで、当該表示内容が出力部１３０Ａに表示されるように出力部１３０Ａを制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。

　具体的な一例として、情報処理装置１４０Ａを実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＳＧＭＬ（Ｓｔａｎｄａｒｄ　Ｇｅｎｅｒａｌｉｚｅｄ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＸＭＬ（Ｅｘｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）などのマークアップ言語により実現されてもよい。

　なお、上述した情報処理システム１０Ａの動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部１１０Ａ、操作入力部１１５Ａおよび集音部１２０Ａと出力部１３０Ａと情報処理装置１４０Ａとは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置１４０Ａが、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部１１０Ａ、操作入力部１１５Ａおよび集音部１２０Ａと出力部１３０Ａとが当該サーバにネットワークを介して接続されたクライアントに相当し得る。

　また、情報処理装置１４０Ａが有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、入力画像取得部１４１Ａと、音情報取得部１４２Ａと、操作検出部１４３Ａと、認識制御部１４４Ａと、音声認識部１４５Ａと、出力制御部１４６Ａとのうち、一部は情報処理装置１４０Ａとは異なる装置に存在していてもよい。例えば、音声認識部１４５Ａは、入力画像取得部１４１Ａと、音情報取得部１４２Ａと、操作検出部１４３Ａと、認識制御部１４４Ａと、出力制御部１４６Ａとを備える情報処理装置１４０Ａとは異なるサーバに存在していてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、
　前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
　情報処理システム。
（２）
　前記出力制御部は、前記音声認識処理の起動トリガが検出された場合に、前記開始条件を前記出力部に出力させる、
　前記（１）に記載の情報処理システム。
（３）
　前記情報処理システムは、前記開始条件が満たされた場合に、前記音声認識処理を前記音声認識部に開始させる認識制御部を備える、
　前記（１）または（２）に記載の情報処理システム。
（４）
　前記出力制御部は、前記開始条件が満たされた場合または前記開始条件の出力停止操作が検出された場合に、前記開始条件の出力を停止させる、
　前記（１）～（３）のいずれか一項に記載の情報処理システム。
（５）
　前記出力制御部は、所定の情報に基づいて、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
　前記（２）に記載の情報処理システム。
（６）
　前記出力制御部は、前記起動トリガが検出された後に前記集音部から入力された音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
　前記（５）に記載の情報処理システム。
（７）
　前記出力制御部は、前記集音部から入力された前記音情報に含まれる第１の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
　前記（６）に記載の情報処理システム。
（８）
　前記出力制御部は、前記第１の種類の音情報の音量が第１の閾値を上回る場合には、前記音声認識処理を開始させるために必要なユーザ操作に関する情報に前記開始条件を変更する、
　前記（７）に記載の情報処理システム。
（９）
　前記出力制御部は、前記第１の種類の音情報の音量が前記第１の閾値を下回る場合には、前記音声認識処理が開始されるまでの残り時間に前記開始条件を変更する、
　前記（８）に記載の情報処理システム。
（１０）
　前記出力制御部は、前記第１の種類の音情報の音量が前記第１の閾値より小さい第２の閾値を下回る場合には、前記開始条件を前記出力部に出力させることを省略する、
　前記（８）または（９）に記載の情報処理システム。
（１１）
　前記第１の種類の音情報は、少なくとも雑音を含む、
　前記（７）～（１０）のいずれか一項に記載の情報処理システム。
（１２）
　前記出力制御部は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
　前記（６）に記載の情報処理システム。
（１３）
　前記出力制御部は、前記過去の音情報に含まれる第２の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
　前記（１２）に記載の情報処理システム。
（１４）
　前記出力制御部は、前記第２の種類の音情報の音量が閾値を上回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも長くする、
　前記（１３）に記載の情報処理システム。
（１５）
　前記出力制御部は、前記第２の種類の音情報の音量が前記閾値を下回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも短くする、
　前記（１４）に記載の情報処理システム。
（１６）
　前記第２の種類の音情報は、少なくとも雑音を含む、
　前記（１３）～（１５）のいずれか一項に記載の情報処理システム。
（１７）
　前記出力制御部は、音声らしさが閾値を超える音情報の前記集音部への到来方向の数に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
　前記（１）に記載の情報処理システム。
（１８）
　前記出力制御部は、前記開始条件として所定の表示情報および所定の音声情報のうち少なくともいずれか一方を前記出力部に出力させる、
　前記（１）～（１７）のいずれか一項に記載の情報処理システム。
（１９）
　前記認識制御部は、前記開始条件が満たされる前から音声認識処理を開始させ、前記開始条件が満たされた場合に、前記音声認識処理の結果にフィラーが含まれる場合には、前記フィラーに対応する部分が除外された後の音情報に対する音声認識処理を前記音声認識部に開始させる、
　前記（３）に記載の情報処理システム。
（２０）
　集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させることを含み、
　プロセッサにより前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更することを含む、
　情報処理方法。

　続いて、他の実施形態について説明する。説明は以下の順序で行うものとする。
　３．背景
　４．本開示の実施形態
　　４．１．システム構成例
　　４．２．機能構成例
　　４．３．情報処理システムの機能詳細
　　４．４．表示形態の変形例
　　４．５．システム構成の変形例
　　４．６．ハードウェア構成例
　５．むすび

　＜３．背景＞
　近年、マイクロフォンによって集音された情報（以下、単に「集音情報」とも言う。）に対して音声認識処理を行うことによって認識結果を得る技術が存在する。例えば、ユーザが音声認識処理を停止させるための停止操作のタイミングを誤ったとしても、音声認識処理される集音情報の終端が短くなってしまう可能性を低減する技術が開示されている（例えば、特開２００４－９４０７７号公報参照）。

　ここで、集音情報に対して施される音声認識処理の認識結果に基づいて所定の実行動作が実行される。しかし、ユーザは実行動作が開始されるタイミングを把握するのが困難なことがある。そこで、実行動作が開始されるタイミングをユーザに容易に把握させるための技術が提供されることが望まれる。

　本開示によれば、集音部によって集音された集音情報に対して音声認識部によって施される音声認識処理の認識結果に基づく所定の実行動作が前記音声認識部によって開始されるための開始条件を出力部に出力させる出力制御部、を備える、情報処理装置が提供される。

　本開示によれば、プロセッサにより、集音部によって集音された集音情報に対して音声認識部によって施される音声認識処理の認識結果に基づく所定の実行動作が前記音声認識部によって開始されるための開始条件を出力部に出力させること、を含む、情報処理方法が提供される。

　本開示によれば、コンピュータを、集音部によって集音された集音情報に対して音声認識部によって施される音声認識処理の認識結果に基づく所定の実行動作が前記音声認識部によって開始されるための開始条件を出力部に出力させる出力制御部、を備える情報処理装置として機能させるためのプログラムが提供される。

　以上説明したように本開示によれば、実行動作が開始されるタイミングをユーザに容易に把握させることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

　図３４は、一般的なシステムにおける音声認識処理を説明するための図である。以下の説明において、発話は、集音された集音情報の音量が閾値よりも大きい状態を示す。また、無音は、集音された集音情報の音量が閾値よりも小さい音量によって集音されている状態を示す。

　図３４に示すように、一般的なシステムにおいて、集音しつつ音声認識処理を行う（Ｓ１０１Ｂ）。まず、発話区間ＨａＢにおいては、集音中である旨の画面Ｇ９１Ｂが表示される。そして、音声認識処理が開始されてから集音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した区間（以下、「無音区間」とも言う。）が検出されると（Ｓ１０２Ｂ）、システムから無音区間検出通知がなされる（Ｓ１０３Ｂ）。無音区間検出通知がなされると、発話区間ＨａＢにおいて集音された集音情報に対して施される音声認識処理の認識結果に基づいて所定の実行動作が実行される。

　ここで、音声認識処理の認識結果に基づく実行動作は特に限定されない。例えば、音声認識処理の認識結果に基づく実行動作は、認識結果の文字列に応じた検索結果を出力させる動作、認識結果の文字列を出力させる動作、認識結果の認識過程において得られた認識結果候補を出力させる動作、認識結果の文字列から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含んでよい。認識結果の文字列から発話内容を抽出する手法は限定されないが、例えば、認識結果の文字列に対して自然言語処理（例えば、言語解析、意味解析など）を施すことによって発話内容が抽出されてよい。

　実行動作の処理中には、実行動作の処理中である旨を示す画面Ｇ９２Ｂが表示される。そして、音声認識処理が終了すると（Ｓ１０４Ｂ）、システムから音声認識処理終了通知がなされる（Ｓ１０５Ｂ）。音声認識処理終了通知がなされると、実行動作の結果を示す画面Ｇ９３Ｂが表示される。実行動作の結果を示す画面Ｇ９３Ｂには、認識結果の文字列に応じた検索結果として、「襟」「競り」「蹴り」が含まれている。

　図３５は、一般的なシステムにおける音声認識処理を説明するための他の図である。ここで、図３５のようにして、集音中である旨の画面Ｇ９１Ｂから実行動作の処理中である旨を示す画面Ｇ９２Ｂに切り替わっても、その切り替えにユーザは気づかないこともある。また、ユーザが発話しようとしたときには、集音中である旨の画面Ｇ９１Ｂが表示されていても、実際にユーザが発した音声が集音されるまでに、実行動作が始まってしまうこともある。さらに、その切り替えのタイミングをユーザが把握することが難しいこともある。

　そのため、図３５に示すように、無音区間ＭａＢが検出されて実行動作が始まっても、ユーザが発話してしまうことがある（発話区間ＨｂＢ）。その場合、無音状態の解除が検出され（Ｓ１１１Ｂ）、無音状態解除通知がなされ（Ｓ１１２Ｂ）、集音中である旨の画面Ｇ９１Ｂが表示され続けるが、発話区間ＨｂＢに発せられた音声は実行動作に反映されないという機会損失が生じ得る。その後、ユーザが発話を止めると、無音区間ＭｂＢが検出され（Ｓ１０４Ｂ）、同様の動作が無音区間検出時の動作が同様に実行される。

　＜４．本開示の実施形態＞
　［４．１．システム構成例］
　続いて、図面を参照しながら本開示の実施形態に係る情報処理システム１０Ｂの構成例について説明する。図３６は、本開示の実施形態に係る情報処理システム１０Ｂの構成例を示す図である。図３６に示したように、本開示の実施形態に係る情報処理システム１０Ｂは、画像入力部１１０Ｂと、操作入力部１１５Ｂと、集音部１２０Ｂと、出力部１３０Ｂとを備える。情報処理システム１０Ｂは、ユーザＵＢ（以下、単に「ユーザ」とも言う。）によって発せられた音声に対して音声認識処理を行うことが可能である。なお、以下の説明において、音声（ｖｏｉｃｅまたはｓｐｅｅｃｈ）と音（ｓｏｕｎｄ）とは区別して用いられる。

　画像入力部１１０Ｂは、画像を入力する機能を有する。図３６に示した例では、画像入力部１１０Ｂは、テーブルＴｂｌＢに埋め込まれた２つのカメラを含んでいる。しかし、画像入力部１１０Ｂに含まれるカメラの数は１以上であれば特に限定されない。かかる場合、画像入力部１１０Ｂに含まれる１以上のカメラそれぞれが設けられる位置も特に限定されない。また、１以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。

　操作入力部１１５Ｂは、ユーザＵの操作を入力する機能を有する。図３６に示した例では、操作入力部１１５Ｂは、テーブルＴｂｌＢの上方に存在する天井から吊り下げられた１つのカメラを含んでいる。しかし、操作入力部１１５Ｂに含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部１１５ＢはユーザＵＢの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。

　出力部１３０Ｂは、テーブルＴｂｌＢに画面を表示する機能を有する。図３６に示した例では、出力部１３０Ｂは、テーブルＴｂｌＢの上方に天井から吊り下げられている。しかし、出力部１３０Ｂが設けられる位置は特に限定されない。また、典型的には、出力部１３０Ｂは、テーブルＴｂｌＢの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。

　なお、本明細書では、テーブルＴｂｌＢの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルＴｂｌＢの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよいし、他の場所にある面であってもよい。また、出力部１３０Ｂが表示面を有する場合には、画面の表示面は、出力部１３０Ｂが有する表示面であってもよい。

　集音部１２０Ｂは、集音する機能を有する。図３６に示した例では、集音部１２０Ｂは、テーブルＴｂｌＢの上方に存在する３つのマイクロフォンとテーブルＴｂｌＢの上面に存在する３つのマイクロフォンとの合計６つのマイクロフォンを含んでいる。しかし、集音部１２０Ｂに含まれるマイクロフォンの数は１以上であれば特に限定されない。かかる場合、集音部１２０Ｂに含まれる１以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。

　ただし、集音部１２０Ｂが、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによって集音された集音情報に基づいて音の到来方向が推定され得る。また、集音部１２０Ｂが指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによって集音された集音情報に基づいて音の到来方向が推定され得る。

　以上、本開示の実施形態に係る情報処理システム１０Ｂの構成例について説明した。

　［４．２．機能構成例］
　続いて、本開示の実施形態に係る情報処理システム１０Ｂの機能構成例について説明する。図３７は、本開示の実施形態に係る情報処理システム１０Ｂの機能構成例を示すブロック図である。図３７に示したように、本開示の実施形態に係る情報処理システム１０Ｂは、画像入力部１１０Ｂと、操作入力部１１５Ｂと、集音部１２０Ｂと、出力部１３０Ｂと、情報処理装置１４０Ｂ（以下、「制御部１４０Ｂ」とも言う。）と、を備える。

　情報処理装置１４０Ｂは、情報処理システム１０Ｂの各部の制御を実行する。例えば、情報処理装置１４０Ｂは、出力部１３０Ｂから出力する情報を生成する。また、例えば、情報処理装置１４０Ｂは、画像入力部１１０Ｂ、操作入力部１１５Ｂおよび集音部１２０Ｂそれぞれが入力した情報を、出力部１３０Ｂから出力する情報に反映させる。図３７に示したように、情報処理装置１４０Ｂは、入力画像取得部１４１Ｂと、集音情報取得部１４２Ｂと、操作検出部１４３Ｂと、認識制御部１４４Ｂと、音声認識部１４５Ｂと、出力制御部１４６Ｂとを備える。これらの各機能ブロックについての詳細は、後に説明する。

　なお、情報処理装置１４０Ｂは、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ；中央演算処理装置）などで構成されていてもよい。情報処理装置１４０ＢがＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。

　以上、本開示の実施形態に係る情報処理システム１０Ｂの機能構成例について説明した。

　［４．３．情報処理システムの機能詳細］
　続いて、本開示の実施形態に係る情報処理システム１０Ｂの機能詳細について説明する。図３８は、初期画面の表示から音声認識処理の実行中に表示される画面遷移の例を示す図である。図３８を参照すると、出力制御部１４６Ｂは、初期画面Ｇ１０－１Ｂを表示させている。初期画面Ｇ１０－１Ｂには、音声認識を開始させるための音声認識開始操作オブジェクトＧ１４Ｂ、音声認識によって得られた文字列（以下、「認識文字列」とも言う。）の表示欄である認識文字列表示欄Ｇ１１Ｂが含まれる。

　また、初期画面Ｇ１０－１Ｂには、認識文字列を全部削除するための全削除操作オブジェクトＧ１２Ｂ、認識文字列を確定するための確定操作オブジェクトＧ１３Ｂが含まれる。また、初期画面Ｇ１０－１Ｂには、認識文字列におけるカーソル位置を前に戻すための移動操作オブジェクトＧ１５Ｂ、認識文字列におけるカーソル位置を後ろに進めるための移動操作オブジェクトＧ１６Ｂ、カーソル位置の文字または単語を削除するための削除操作オブジェクトＧ１７Ｂが含まれる。

　まず、画面Ｇ１０－２Ｂに示すように、ユーザが音声認識開始操作オブジェクトＧ１４Ｂを選択する操作を行い、音声認識開始操作オブジェクトＧ１４Ｂを選択する操作が操作入力部１１５Ｂによって入力されると、操作検出部１４３Ｂによって検出され、出力制御部１４６Ｂは、集音開始画面Ｇ１０－３Ｂを表示させる。出力制御部１４６Ｂが集音開始画面Ｇ１０－３Ｂを表示させると、ユーザは集音部１２０Ｂに向かって発話を開始する。

　集音中画面Ｇ１０－４Ｂに示すように、集音部１２０Ｂによって集音された集音情報が集音情報取得部１４２Ｂによって取得されると、出力制御部１４６Ｂは、所定のオブジェクト（以下、「表示オブジェクト」とも言う。）ＭｕＢを表示させる。表示オブジェクトＭｕＢは、静止していてもよいし、画面Ｇ１０－４Ｂに示したように動きを有していてもよい。例えば、表示オブジェクトＭｕＢが動きを有する場合、表示オブジェクトＭｕＢの移動方向ＤｅＢは、ユーザによる発話音声の音源から集音部１２０Ｂへの到来方向に応じて決まってよい。なお、ユーザによる発話音声の到来方向の推定手法も特に限定されない。

　例えば、認識制御部１４４Ｂは、音声認識開始操作オブジェクトＧ１４Ｂを選択する操作を行ったユーザの指方向（例えば、指の根元から指先への方向）に一致または類似する１の到来方向をユーザによる発話音声の到来方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。

　あるいは、認識制御部１４４Ｂは、集音部１２０Ｂによって入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。音の到来方向が複数あった場合には、複数の到来方向のうち最初に入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよいし、複数の到来方向のうち音声認識開始操作オブジェクトＧ１４Ｂを選択する操作を行ったユーザの指方向に一致または類似する１の到来方向をユーザによる発話音声の到来方向として推定してもよい。

　あるいは、認識制御部１４４Ｂは、複数の到来方向のうち集音部１２０Ｂによって最も大きな音量で入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。このようにしてユーザによる発話音声の到来方向が推定され得る。一方において、認識制御部１４４Ｂは、ユーザによる発話音声の到来方向以外の方向から集音部１２０Ｂによって入力された音をノイズとして取得してよい。

　また、図３８には、出力制御部１４６Ｂが、ユーザによる発話音声の到来方向（移動方向ＤｅＢ）に表示オブジェクトＭｕＢを移動させる例が示されている。これによって、ユーザは自分の発話音声が集音部１２０Ｂによって集音されていることを直感的に把握することが可能となる。しかし、表示オブジェクトＭｕＢの動きは、かかる動きに限定されない。また、図３８には、表示オブジェクトＭｕＢの移動先が、音声認識開始操作オブジェクトＧ１４Ｂである例が示されている。しかし、表示オブジェクトＭｕＢの移動先は、かかる例に限定されない。

　また、図３８には、出力制御部１４６Ｂが、集音部１２０Ｂによる集音に応じて次々と出現した円形状の表示オブジェクトＭｕＢを移動させる例が示されているが、表示オブジェクトＭｕＢの表示態様はかかる例に限定されない。例えば、出力制御部１４６Ｂは、集音情報に応じた所定の情報（例えば、集音情報の音声らしさ、音量など）に基づいて表示オブジェクトＭｕＢの各種パラメータを制御してよい。このときに用いられる集音情報は、ユーザによる発話音声の到来方向からの集音情報であるとよい。また、表示オブジェクトＭｕＢのパラメータは、表示オブジェクトＭｕの形状、透明度、色、サイズおよび動きのうち、少なくともいずれか一つを含んでもよい。

　なお、集音情報から音声らしさを評価する手法は特に限定されない。例えば、集音情報から音声らしさを評価する手法として、特許文献（特開２０１０－３８９４３号公報）に記載されている手法を採用することも可能である。また、例えば、集音情報から音声らしさを評価する手法として、特許文献（特開２００７－３２８２２８号公報）に記載されている手法を採用することも可能である。ここでは、音声らしさの評価が、出力制御部１４６Ｂによって行われる例を説明するが、音声らしさの評価は、図示しないサーバによって行われてもよい。

　認識制御部１４４Ｂは、集音情報取得部１４２Ｂによって取得された集音情報に対する音声認識を音声認識部１４５Ｂに開始させる。音声認識を開始させるタイミングは限定されない。例えば、認識制御部１４４Ｂは、表示オブジェクトＭｕＢが音声認識開始操作オブジェクトＧ１４Ｂに到達してから、表示オブジェクトＭｕＢに対応する集音情報に対する音声認識を音声認識部１４５Ｂに開始させてよい。

　以上、初期画面の表示から音声認識処理の実行中に表示される画面遷移の例について説明した。図３９は、本開示の実施形態に係る情報処理システム１０Ｂの機能詳細について説明するための図である。図３９に示すように、ユーザが発話を開始し、音声らしさが所定の閾値を超える集音情報が集音されると、音声認識処理が開始され、出力制御部１４６Ｂは、表示オブジェクトＭｕＢを表示させる（時刻Ｔ１０Ｂ）。

　ユーザが発話を終了し（時刻Ｔ１１Ｂ）、無音が検出されると、出力制御部１４６Ｂは、継続時間の開始（例えば、タイムアウトバーＧ２１－１Ｂ）を出力部１３０Ｂに出力させる（時刻Ｔ１２Ｂ）。そして、出力制御部１４６Ｂは、実行動作が音声認識部１４５Ｂによって開始されるための開始条件を出力部１３０Ｂに出力させる（時刻Ｔ１３Ｂ）。かかる構成によれば、実行動作が開始されるタイミングをユーザに容易に把握させることが可能となる。

　開始条件としては、無音の継続時間が目標時間に達するまでの残り時間に関する情報が表示されてもよい。残り時間に関する情報は、図３９に示すように、目標時間に対する残り時間の割合を示す表示オブジェクト（タイムアウトバーＧ２１－２Ｂ）を含んでもよい。あるいは、残り時間に関する情報は、残り時間自体を含んでもよい。あるいは、開始条件は、実行動作を開始させるために必要なユーザ操作に関する情報を含んでもよい。

　続いて、出力制御部１４６Ｂは、無音の継続時間が目標時間に達する前に、音量が基準音量を超える新たな集音情報が集音されない場合、タイムアウトバーＧ２１－３Ｂに示すように、開始条件を更新する（時刻Ｔ１４Ｂ）。このとき、音声らしさが考慮されてもよい。すなわち、出力制御部１４６Ｂは、無音の継続時間が目標時間に達する前に、音声らしさが所定の音声らしさを超える新たな集音情報が集音されない場合、開始条件を更新してもよい。

　出力制御部１４６Ｂは、無音の継続時間が目標時間に達した場合（開始条件が満たされた場合）、出力部１３０Ｂによる開始条件（タイムアウトバーＧ２１－４Ｂ）の出力を停止させ（時刻Ｔ１５Ｂ）、無音の継続時間が目標時間に達した旨を出力部１３０Ｂに出力させる（時刻Ｔ１６Ｂ）。図３９に示した例では、音声認識開始操作オブジェクトＧ２２Ｂに「お待ちください」を表示させている。また、認識制御部１４４Ｂは、音声認識処理を音声認識部１４５Ｂに行わせるが、無音の継続時間が目標時間に達した場合に、実行動作を音声認識部１４５Ｂに開始させる。

　図４０は、本開示の実施形態に係る情報処理システム１０Ｂの機能詳細について説明するための他の図である。図４０に示した例において、図３９に示した例と異なる点は、無音の継続時間が目標時間に達しないうちに、音量が基準音量を超える新たな集音情報が集音される点である。図４０に示すように、ユーザが発話を再開し（時刻Ｔ２１Ｂ）、出力制御部１４６Ｂは、無音の継続時間が目標時間に達しないうちに、音量が基準音量を超える新たな集音情報が集音された場合（時刻Ｔ２２Ｂ）、開始条件（タイムアウトバーＧ２１－３Ｂ）の出力を停止させる。

　音声らしさが考慮されてもよい。すなわち、出力制御部１４６Ｂは、無音の継続時間が目標時間に達しないうちに、音声らしさが所定の音声らしさを超える新たな集音情報が集音された場合、開始条件（タイムアウトバーＧ２１－３Ｂ）の出力を停止してもよい。音声認識処理が再開されると（時刻Ｔ２３Ｂ）、出力制御部１４６Ｂは、表示オブジェクトＭｕＢを表示させる。

　なお、出力制御部１４６Ｂは、目標時間が所定の基準時間よりも短い場合には、開始条件を出力部１３０Ｂに出力させなくてもよい。また、出力制御部１４６Ｂは、認識結果の量に応じて、残り時間の長さを制御してもよい。例えば、音声認識処理の結果は、分量が多くなるにつれて音声認識処理の認識結果に基づく実行動作に適さなくなると考えられる。そのため、出力制御部１４６Ｂは、音声認識処理の結果が多くなるほど残り時間の長さを短くしてもよい。

　出力制御部１４６Ｂは、開始条件として所定の表示情報を出力部１３０Ｂに出力させてよい。図４１および図４２は、開始条件として表示情報を出力部１３０Ｂに出力させる例を示す図である。図４１には、音声認識開始操作オブジェクトＧ１４Ｂに含まれる表示内容を徐々に消去する例が示されている。また、図４２には、音声認識開始操作オブジェクトＧ１４Ｂの色を徐々に変化させていく例が示されている。

　また、出力制御部１４６Ｂは、開始条件として所定の表示情報を出力部１３０Ｂに出力させてもよい。図４３および図４４は、開始条件として音声情報を出力部１３０Ｂに出力させる例を示す図である。図４３には、時刻Ｔ５１Ｂから時刻Ｔ５４Ｂまでに、音声認識処理の開始タイミング（時刻Ｔ５４Ｂ）を知らせる音声情報が出力される例が示されている。また、図４４には、時刻Ｔ６１Ｂから時刻Ｔ６４Ｂまでに、音声認識処理の開始タイミング（時刻Ｔ６４Ｂ）を知らせる音声情報が出力される例が示されている。

　以上、本開示の実施形態に係る情報処理システム１０Ｂの機能詳細について説明した。

　続いて、本開示の実施形態に係る情報処理システム１０Ｂの全体的な動作の流れについて説明する。図４５は、本開示の実施形態に係る情報処理システム１０Ｂの全体的な動作の流れの例を示すフローチャートである。なお、図４５のフローチャートは、本開示の実施形態に係る情報処理システム１０Ｂの全体的な動作の流れの例に過ぎないため、本開示の実施形態に係る情報処理システム１０Ｂの全体的な動作の流れは、図４７のフローチャートに示された例に限定されない。

　まず、出力制御部１４６Ｂは、音声らしい音が検出されると（Ｓ１２１Ｂ）、音声が入力されていることを出力させる（Ｓ１２２Ｂ）。出力制御部１４６Ｂは、無音が検出されない場合には（Ｓ１２３Ｂにおいて「Ｎｏ」）、Ｓ１２２Ｂに動作を移行するが、無音が検出された場合（Ｓ１２３Ｂにおいて「Ｙｅｓ」）、無音検出したことを出力させ（Ｓ１２４Ｂ）、実行動作の開始条件を出力する（Ｓ１２５Ｂ）。

　続いて、出力制御部１４６Ｂは、音声らしい音が検出されると（Ｓ１２６Ｂにおいて「Ｙｅｓ」）、開始条件の出力を停止させ（Ｓ１２７Ｂ）、Ｓ１２２Ｂに動作を移行させるが、音声らしい音が検出されない場合には（Ｓ１２６Ｂにおいて「Ｎｏ」）、開始条件を更新して出力させ直す（Ｓ１２８Ｂ）。続いて、出力制御部１４６Ｂは、開始条件が満たされない場合には（Ｓ１２９Ｂにおいて「Ｎｏ」）、Ｓ１２６Ｂに動作を移行させるが、開始条件が満たされた場合には（Ｓ１２９Ｂにおいて「Ｙｅｓ」）、実行動作を開始することを出力させ（Ｓ１３０Ｂ）、実行動作の結果を出力させる（Ｓ１３１Ｂ）。

　以上、情報処理システム１０Ｂの全体的な動作の流れについて説明した。

　［４．４．表示形態の変形例］
　上記においては、出力部１３０ＢがテーブルＴｂｌＢの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、出力部１３０Ｂによる表示形態は、かかる例に限定されない。以下では、出力部１３０Ｂによる表示形態の変形例について説明する。図４６は、出力部１３０Ｂによる表示形態の変形例を示す図である。図４６に示すように、情報処理システム１０Ｂが携帯端末である場合に、出力部１３０Ｂは、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。

　［４．５．システム構成の変形例］
　上記においては、出力部１３０ＢがテーブルＴｂｌＢの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、情報処理システム１０Ｂの構成は、かかる例に限定されない。図４７～図５０は、情報処理システム１０Ｂのシステム構成の変形例１を示す図である。図４７～図５０に示すように、出力部１３０Ｂは、テレビジョン装置であり、情報処理装置１４０Ｂは、ゲーム機であり、操作入力部１１５Ｂは、ゲーム機を操作するコントローラであってよい。

　また、図４７に示すように、集音部１２０Ｂおよび出力部１３０Ｂは、操作入力部１１５Ｂに接続されていてもよい。また、図４８に示すように、画像入力部１１０Ｂおよび集音部１２０Ｂは、情報処理装置１４０Ｂに接続されていてもよい。また、図４９に示すように、操作入力部１１５Ｂ、集音部１２０Ｂおよび出力部１３０Ｂは、情報処理装置１４０Ｂに接続されたスマートフォンに備えられていてもよい。また、図５０に示すように、集音部１２０Ｂは、テレビジョン装置に備えられていてもよい。

　［４．６．ハードウェア構成例］
　次に、図５１を参照して、本開示の実施形態に係る情報処理システム１０Ｂのハードウェア構成について説明する。図５１は、本開示の実施形態に係る情報処理システム１０Ｂのハードウェア構成例を示すブロック図である。

　図５１に示すように、情報処理システム１０Ｂは、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔ）９０１Ｂ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０３Ｂ、およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０５Ｂを含む。また、情報処理システム１０Ｂは、ホストバス９０７Ｂ、ブリッジ９０９Ｂ、外部バス９１１Ｂ、インターフェース９１３Ｂ、入力装置９１５Ｂ、出力装置９１７Ｂ、ストレージ装置９１９Ｂ、ドライブ９２１Ｂ、接続ポート９２３Ｂ、通信装置９２５Ｂを含んでもよい。さらに、情報処理システム１０Ｂは、必要に応じて、撮像装置９３３Ｂ、およびセンサ９３５Ｂを含んでもよい。情報処理システム１０Ｂは、ＣＰＵ９０１Ｂに代えて、またはこれとともに、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

　ＣＰＵ９０１Ｂは、演算処理装置および制御装置として機能し、ＲＯＭ９０３Ｂ、ＲＡＭ９０５Ｂ、ストレージ装置９１９Ｂ、またはリムーバブル記録媒体９２７Ｂに記録された各種プログラムに従って、情報処理システム１０Ｂ内の動作全般またはその一部を制御する。ＲＯＭ９０３Ｂは、ＣＰＵ９０１Ｂが使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５Ｂは、ＣＰＵ９０１Ｂの実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１Ｂ、ＲＯＭ９０３Ｂ、およびＲＡＭ９０５Ｂは、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７Ｂにより相互に接続されている。さらに、ホストバス９０７Ｂは、ブリッジ９０９Ｂを介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１Ｂに接続されている。

　入力装置９１５Ｂは、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５Ｂは、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置９１５Ｂは、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム１０Ｂの操作に対応した携帯電話などの外部接続機器９２９Ｂであってもよい。入力装置９１５Ｂは、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１Ｂに出力する入力制御回路を含む。ユーザは、この入力装置９１５Ｂを操作することによって、情報処理システム１０Ｂに対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３Ｂも、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

　出力装置９１７Ｂは、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７Ｂは、例えば、ＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）、ＰＤＰ（Ｐｌａｓｍａ　Ｄｉｓｐｌａｙ　Ｐａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置９１７Ｂは、情報処理システム１０Ｂの処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置９１７Ｂは、周囲を明るくするためライトなどを含んでもよい。

　ストレージ装置９１９Ｂは、情報処理システム１０Ｂの記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９Ｂは、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９Ｂは、ＣＰＵ９０１Ｂが実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ９２１Ｂは、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７Ｂのためのリーダライタであり、情報処理システム１０Ｂに内蔵、あるいは外付けされる。ドライブ９２１Ｂは、装着されているリムーバブル記録媒体９２７Ｂに記録されている情報を読み出して、ＲＡＭ９０５Ｂに出力する。また、ドライブ９２１Ｂは、装着されているリムーバブル記録媒体９２７Ｂに記録を書き込む。

　接続ポート９２３Ｂは、機器を情報処理システム１０Ｂに直接接続するためのポートである。接続ポート９２３Ｂは、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３Ｂは、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３Ｂに外部接続機器９２９Ｂを接続することで、情報処理システム１０Ｂと外部接続機器９２９Ｂとの間で各種のデータが交換され得る。

　通信装置９２５Ｂは、例えば、通信ネットワーク９３１Ｂに接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５Ｂは、例えば、有線または無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５Ｂは、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５Ｂは、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５Ｂに接続される通信ネットワーク９３１Ｂは、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

　撮像装置９３３Ｂは、例えば、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）またはＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３Ｂは、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

　センサ９３５Ｂは、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５Ｂは、例えば情報処理システム１０Ｂの筐体の姿勢など、情報処理システム１０Ｂ自体の状態に関する情報や、情報処理システム１０Ｂの周辺の明るさや騒音など、情報処理システム１０Ｂの周辺環境に関する情報を取得する。また、センサ９３５Ｂは、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

　以上、情報処理システム１０Ｂのハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。

　＜５．むすび＞
　以上説明したように、本開示の実施形態によれば、集音部１２０Ｂによって集音された集音情報に対して音声認識部１４５Ｂによって施される音声認識処理の認識結果に基づく所定の実行動作が音声認識部１４５Ｂによって開始されるための開始条件を出力部１３０Ｂに出力させる出力制御部１４６Ｂ、を備える、情報処理装置１４０Ｂが提供される。かかる構成によれば、実行動作が開始されるタイミングをユーザに容易に把握させることが可能となる。

　また、かかる構成によれば、実行動作の間にユーザに発話させる可能性を低減することが可能となる。また、かかる構成によれば、発話が有効になるタイミングをユーザに把握させることが可能となるため、複数の文章の音声入力を行わせることが容易になることが期待される。また、かかる構成によれば、実行動作がなされるタイミングをユーザに意識させながらユーザに発話を行わせることが可能となる。

　例えば、上記においては、出力部１３０Ｂによる表示形態の変形例を説明したが、出力部１３０Ｂによる表示形態は、上記した例に限定されない。例えば、出力部１３０Ｂは、ヘッドマウントディスプレイ以外のウェアラブル端末（例えば、時計、眼鏡など）に備わるディスプレイであってもよい。また、例えば、出力部１３０Ｂは、車載向けナビゲーションシステムに備わるディスプレイであってもよい。また、例えば、出力部１３０Ｂは、ヘルスケア分野において利用されるディスプレイであってもよい。

　また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上記した情報処理システム１０Ｂが有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

　また、出力制御部１４６Ｂは、出力部１３０Ｂに表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を出力部１３０Ｂに出力することで、当該表示内容が出力部１３０Ｂに表示されるように出力部１３０Ｂを制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。

　具体的な一例として、情報処理装置１４０Ｂを実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＳＧＭＬ（Ｓｔａｎｄａｒｄ　Ｇｅｎｅｒａｌｉｚｅｄ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＸＭＬ（Ｅｘｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）などのマークアップ言語により実現されてもよい。

　なお、上述した情報処理システム１０Ｂの動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部１１０Ｂ、操作入力部１１５Ｂおよび集音部１２０Ｂと出力部１３０Ｂと情報処理装置１４０Ｂとは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置１４０Ｂが、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部１１０Ｂ、操作入力部１１５Ｂおよび集音部１２０Ｂと出力部１３０Ｂとが当該サーバにネットワークを介して接続されたクライアントに相当し得る。

　また、情報処理装置１４０Ｂが有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、入力画像取得部１４１Ｂと、集音情報取得部１４２Ｂと、操作検出部１４３Ｂと、認識制御部１４４Ｂと、音声認識部１４５Ｂと、出力制御部１４６Ｂとのうち、一部は情報処理装置１４０Ｂとは異なる装置に存在していてもよい。例えば、音声認識部１４５Ｂは、入力画像取得部１４１Ｂと、集音情報取得部１４２Ｂと、操作検出部１４３Ｂと、認識制御部１４４Ｂと、出力制御部１４６Ｂとを備える情報処理装置１４０Ｂとは異なるサーバに存在していてもよい。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　集音部によって集音された集音情報に対して音声認識部によって施される音声認識処理の認識結果に基づく所定の実行動作が前記音声認識部によって開始されるための開始条件を出力部に出力させる出力制御部、
　を備える、情報処理装置。
（２）
　前記情報処理装置は、前記音声認識処理を前記音声認識部に行わせる認識制御部を備える、
　前記（１）に記載の情報処理装置。
（３）
　前記認識制御部は、前記開始条件が満たされた場合に、前記実行動作を前記音声認識部に開始させる、
　前記（２）に記載の情報処理装置。
（４）
　前記認識制御部は、前記音声認識処理が開始されてから前記集音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した場合に、前記実行動作を前記音声認識部に開始させる、
　前記（２）または（３）に記載の情報処理装置。
（５）
　前記開始条件は、前記継続時間が前記目標時間に達するまでの残り時間に関する情報を含む、
　前記（４）に記載の情報処理装置。
（６）
　前記残り時間に関する情報は、前記目標時間に対する前記残り時間の割合を示す所定の表示オブジェクトおよび前記残り時間自体のうち少なくともいずれか一方を含む、
　前記（５）に記載の情報処理装置。
（７）
　前記出力制御部は、前記音声認識処理が開始されてから前記集音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した場合に、前記出力部による前記開始条件の出力を停止させる、
　前記（２）または（３）に記載の情報処理装置。
（８）
　前記出力制御部は、前記音声認識処理が開始されてから前記集音情報の音量が前記基準音量を下回った場合に、前記継続時間の開始を前記出力部に出力させる、
　前記（４）～（７）のいずれか一項に記載の情報処理装置。
（９）
　前記出力制御部は、前記継続時間が前記目標時間に達する前に、音量が前記基準音量を超える新たな集音情報が集音されない場合、前記出力部によって出力されている前記開始条件を更新する、
　前記（４）～（８）のいずれか一項に記載の情報処理装置。
（１０）
　前記出力制御部は、前記継続時間が前記目標時間に達する前に、音声らしさが所定の音声らしさを超える新たな集音情報が集音されない場合、前記出力部によって出力されている前記開始条件を更新する、
　前記（４）～（８）のいずれか一項に記載の情報処理装置。
（１１）
　前記出力制御部は、前記継続時間が前記目標時間に達しないうちに、音量が前記基準音量を超える新たな集音情報が集音された場合、前記出力部による前記開始条件の出力を停止させる、
　前記（４）～（８）のいずれか一項に記載の情報処理装置。
（１２）
　前記出力制御部は、前記継続時間が前記目標時間に達しないうちに、音声らしさが所定の音声らしさを超える新たな集音情報が集音された場合、前記出力部による前記開始条件の出力を停止させる、
　前記（４）～（８）のいずれか一項に記載の情報処理装置。
（１３）
　前記出力制御部は、前記目標時間が所定の基準時間よりも短い場合には、前記開始条件を前記出力部に出力させない、
　前記（４）～（１２）のいずれか一項に記載の情報処理装置。
（１４）
　前記出力制御部は、前記認識結果の量に応じて、前記残り時間の長さを制御する、
　前記（５）または（６）に記載の情報処理装置。
（１５）
　前記認識制御部は、前記集音情報の音声らしさが閾値を超える場合に、前記集音情報に対して前記音声認識処理を行わせる、
　前記（２）～（１４）のいずれか一項に記載の情報処理装置。
（１６）
　前記出力制御部は、前記開始条件として所定の表示情報および所定の音声情報のうち少なくともいずれか一方を前記出力部に出力させる、
　前記（１）～（１５）のいずれか一項に記載の情報処理装置。
（１７）
　前記実行動作は、前記認識結果の文字列に応じた検索結果を出力させる動作、前記認識結果の文字列を出力させる動作、前記認識結果の認識過程において得られた認識結果候補を出力させる動作および前記認識結果の文字列から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含む、
　前記（１）～（１６）のいずれか一項に記載の情報処理装置。
（１８）
　前記開始条件は、前記実行動作を開始させるために必要なユーザ操作に関する情報を含む、
　前記（１）～（３）のいずれか一項に記載の情報処理装置。
（１９）
　プロセッサにより、集音部によって集音された集音情報に対して音声認識部によって施される音声認識処理の認識結果に基づく所定の実行動作が前記音声認識部によって開始されるための開始条件を出力部に出力させること、
　を含む、情報処理方法。
（２０）
　コンピュータを、
　集音部によって集音された集音情報に対して音声認識部によって施される音声認識処理の認識結果に基づく所定の実行動作が前記音声認識部によって開始されるための開始条件を出力部に出力させる出力制御部、
　を備える情報処理装置として機能させるためのプログラム。

　１０Ａ　　情報処理システム
　１１０Ａ　画像入力部
　１１５Ａ　操作入力部
　１２０Ａ　集音部
　１３０Ａ　出力部
　１４０Ａ　情報処理装置（制御部）
　１４１Ａ　入力画像取得部
　１４２Ａ　集音情報取得部
　１４３Ａ　操作検出部
　１４４Ａ　認識制御部
　１４５Ａ　音声認識部
　１４６Ａ　出力制御部
　１０Ｂ　　情報処理システム
　１１０Ｂ　画像入力部
　１１５Ｂ　操作入力部
　１２０Ｂ　集音部
　１３０Ｂ　出力部
　１４０Ｂ　情報処理装置（制御部）
　１４１Ｂ　入力画像取得部
　１４２Ｂ　音情報取得部
　１４３Ｂ　操作検出部
　１４４Ｂ　認識制御部
　１４５Ｂ　音声認識部
　１４６Ｂ　出力制御部
　Ｇ１０Ｂ　初期画面
　Ｇ１１Ｂ　認識文字列表示欄
　Ｇ１２Ｂ　全削除操作オブジェクト
　Ｇ１３Ｂ　確定操作オブジェクト
　Ｇ１５Ｂ　前方移動操作オブジェクト
　Ｇ１６Ｂ　後方移動操作オブジェクト
　Ｇ１７Ｂ　削除操作オブジェクト

Claims

　集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、
　前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
　情報処理システム。
　前記出力制御部は、前記音声認識処理の起動トリガが検出された場合に、前記開始条件を前記出力部に出力させる、
　請求項１に記載の情報処理システム。
　前記情報処理システムは、前記開始条件が満たされた場合に、前記音声認識処理を前記音声認識部に開始させる認識制御部を備える、
　請求項１に記載の情報処理システム。
　前記出力制御部は、前記開始条件が満たされた場合または前記開始条件の出力停止操作が検出された場合に、前記開始条件の出力を停止させる、
　請求項１に記載の情報処理システム。
　前記出力制御部は、所定の情報に基づいて、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
　請求項２に記載の情報処理システム。
　前記出力制御部は、前記起動トリガが検出された後に前記集音部から入力された音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
　請求項５に記載の情報処理システム。
　前記出力制御部は、前記集音部から入力された前記音情報に含まれる第１の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
　請求項６に記載の情報処理システム。
　前記出力制御部は、前記第１の種類の音情報の音量が第１の閾値を上回る場合には、前記音声認識処理を開始させるために必要なユーザ操作に関する情報に前記開始条件を変更する、
　請求項７に記載の情報処理システム。
　前記出力制御部は、前記第１の種類の音情報の音量が前記第１の閾値を下回る場合には、前記音声認識処理が開始されるまでの残り時間に前記開始条件を変更する、
　請求項８に記載の情報処理システム。
　前記出力制御部は、前記第１の種類の音情報の音量が前記第１の閾値より小さい第２の閾値を下回る場合には、前記開始条件を前記出力部に出力させることを省略する、
　請求項８に記載の情報処理システム。
　前記第１の種類の音情報は、少なくとも雑音を含む、
　請求項７に記載の情報処理システム。
　前記出力制御部は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
　請求項６に記載の情報処理システム。
　前記出力制御部は、前記過去の音情報に含まれる第２の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
　請求項１２に記載の情報処理システム。
　前記出力制御部は、前記第２の種類の音情報の音量が閾値を上回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも長くする、
　請求項１３に記載の情報処理システム。
　前記出力制御部は、前記第２の種類の音情報の音量が前記閾値を下回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも短くする、
　請求項１４に記載の情報処理システム。
　前記第２の種類の音情報は、少なくとも雑音を含む、
　請求項１３に記載の情報処理システム。
　前記出力制御部は、音声らしさが閾値を超える音情報の前記集音部への到来方向の数に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
　請求項１に記載の情報処理システム。
　前記出力制御部は、前記開始条件として所定の表示情報および所定の音声情報のうち少なくともいずれか一方を前記出力部に出力させる、
　請求項１に記載の情報処理システム。
　前記認識制御部は、前記開始条件が満たされる前から音声認識処理を開始させ、前記開始条件が満たされた場合に、前記音声認識処理の結果にフィラーが含まれる場合には、前記フィラーに対応する部分が除外された後の音情報に対する音声認識処理を前記音声認識部に開始させる、
　請求項３に記載の情報処理システム。
　集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させることを含み、
　プロセッサにより前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更することを含む、
　情報処理方法。