WO2017221501A1

WO2017221501A1 - 情報処理装置及び情報処理方法

Info

Publication number: WO2017221501A1
Application number: PCT/JP2017/012692
Authority: WO
Inventors: 佑輔中川; 真一河野; 祐平滝; 亜由美加藤
Original assignee: ソニー株式会社
Priority date: 2016-06-23
Filing date: 2017-03-28
Publication date: 2017-12-28
Also published as: EP3477634A4; US20190122658A1; JP6897678B2; US10657956B2; EP3477634A1; CN109313895A; JPWO2017221501A1; EP3477634B1

Abstract

【課題】音声を入力としたユーザインタフェースの操作性をより向上させる。【解決手段】音声の集音に関する期間におけるコンテキスト情報を取得する取得部と、取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させる制御部と、を備える、情報処理装置

Description

情報処理装置及び情報処理方法

　本開示は、情報処理装置及び情報処理方法に関する。

　ＰＣ（Personal　Computer）やゲーム機器等のような所謂情報処理装置の動作を制御するために、ユーザからの入力を取得するための入力インタフェースとして多様な方式のものが提案されている。特に近年では、所謂音声認識技術や自然言語処理技術の発展に伴い、各種情報処理装置に対して、ユーザが音声により各種情報を入力可能としたユーザインタフェース（ＵＩ：User　Interface）が普及してきている。例えば、特許文献１には、所謂音声認識技術を利用した仕組みの一例が開示されている。

　上述したような音声認識技術や自然言語処理技術を応用することで、例えば、ユーザが入力した音声を所謂文字情報に変換して提示することが可能となる。また、このように音声が変換された文字情報は、例えば、当該文字情報の意味内容を認識することで、各種制御への入力として応用することも可能となる。

特開２００４－２９４９４６号公報

　ところで、音声を入力として使用することが可能なユーザインタフェースは、ウェラブル端末等のような所謂入力インタフェースが制限された情報処理装置への応用も可能であり、その利用用途は多岐にわたる。このような状況から、特に近年では、音声を入力としたユーザインタフェースの操作性の向上が望まれている。

　そこで、本開示では、音声を入力としたユーザインタフェースの操作性をより向上させることが可能な、情報処理装置及び情報処理方法を提案する。

　本開示によれば、音声の集音に関する期間におけるコンテキスト情報を取得する取得部と、取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させる制御部と、を備える、情報処理装置が提供される。

　また、本開示によれば、所定の取得部により取得された音声の集音に関する期間におけるコンテキスト情報を外部装置に送信する送信部と、外部装置から送信される前記音声の集音に関連する出力情報を、前記コンテキスト情報に応じた態様で提示する出力部と、を備える、情報処理装置が提供される。

　また、本開示によれば、コンピュータシステムが、音声の集音に関する期間におけるコンテキスト情報を取得することと、取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させることと、を含む、情報処理方法が提供される。

　また、本開示によれば、コンピュータシステムが、所定の取得部により取得された音声の集音に関する期間におけるコンテキスト情報を外部装置に送信することと、外部装置から送信される前記音声の集音に関連する出力情報を、前記コンテキスト情報に応じた態様で提示することと、を含む、情報処理方法が提供される。

　また、本開示によれば、集音された音響に含まれる音声の検知結果を取得する取得部と、少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させる制御部と、を備える、情報処理装置が提供される。

　また、本開示によれば、所定の集音部による音響の集音結果を外部装置に送信する送信部と、少なくとも外部装置から送信される、前記音響に含まれる音声に対する音声認識処理の結果に基づく情報の提示前に、前記音響に含まれる音声の検知結果に応じた制御に基づき、報知情報を報知する出力部と、を備える、情報処理装置が提供される。

　また、本開示によれば、コンピュータシステムが、集音された音響に含まれる音声の検知結果を取得することと、少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させることと、を含む、情報処理方法が提供される。

　また、本開示によれば、コンピュータシステムが、所定の集音部による音響の集音結果を外部装置に送信することと、前記音響に含まれる音声の検知結果に基づき、少なくとも外部装置から送信される前記音声に対する音声認識処理の結果に基づく情報の提示前に、報知情報を報知することと、を含む、情報処理方法が提供される。

　以上説明したように本開示によれば、音声を入力としたユーザインタフェースの操作性をより向上させることが可能な、情報処理装置及び情報処理方法が提供される。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理システムの概略的なシステム構成の一例について説明するための説明図である。本開示の一実施形態に係る情報処理システムの機能構成の一例を示したブロック図である。本開示の第１の実施形態に係る情報処理システムの概要について説明するための説明図である。同実施形態に係る情報処理システムの概要について説明するための説明図である。同実施形態に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。変形例１－２に係る情報処理システムの概要について説明するための説明図である。本開示の第２の実施形態に係る情報処理システムの概要について説明するための説明図である。同実施形態に係る情報処理システムが提供するＵＩの一例について説明するための説明図である。同実施形態に係る情報処理システムの動作の詳細について説明するための説明図である。同実施形態に係る情報処理システムの動作の詳細について説明するための説明図である。同実施形態に係る情報処理システムの一連の処理の流れの一例について示したフローチャートである。変形例２－１に係る情報処理システムの概要について説明するための説明図である。変形例２－２に係る情報処理システムの概要について説明するための説明図である。本開示の第３の実施形態に係る情報処理システムの概要について説明するための説明図である。同実施形態に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。変形例３－１に係る情報処理システムの概要について説明するための説明図であり、報知情報の一例について示している。変形例３－２に係る情報処理システムが提供するＵＩの一例について説明するための説明図である。変形例３－２に係る情報処理システムが提供するＵＩの他の一例について説明するための説明図である。本開示の一実施形態に係る情報処理システムを構成する情報処理装置のハードウェア構成の一例を示す機能ブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．構成
　　１．１．システム構成
　　１．２．機能構成
　２．第１の実施形態
　　２．１．概要
　　２．２．処理
　　２．３．変形例
　　　２．３．１．変形例１－１：コンテキスト情報に応じた制御の一例
　　　２．３．２．変形例１－２：コンテキスト情報に情報の提示態様の一例
　　　２．３．３．変形例１－３：その他の適用例
　　２．４．評価
　３．第２の実施形態
　　３．１．概要
　　３．２．基本原理
　　３．３．処理
　　３．４．変形例
　　　３．４．１．変形例２－１：表示制御の一例
　　　３．４．２．変形例２－２：英語の音声を認識する場合の制御例
　　　３．４．３．変形例２－３：その他の制御例
　　３．５．評価
　４．第３の実施形態
　　４．１．概要
　　４．２．処理
　　４．３．変形例
　　　４．３．１．変形例３－１：報知情報の一例
　　　４．３．２．変形例３－２：音声の認識状態の提示例
　　４．４．評価
　５．ハードウェア構成
　６．適用例
　７．むすび

　＜＜１．構成＞＞
　　＜１．１．システム構成＞
　まず、図１を参照して、本開示の一実施形態に係る情報処理システムの概略的な構成について説明する。図１は、本実施形態に係る情報処理システムの概略的なシステム構成の一例について説明するための説明図である。

　図１に示すように、本実施形態に係る情報処理システムは、情報処理装置１０と、入出力装置３０とを含む。情報処理装置１０と入出力装置３０とは、所定のネットワークＮ１を介して互いに情報を送受信可能に構成されている。なお、ネットワークＮ１の種別は特に限定されない。具体的な一例として、当該ネットワークＮ１は、Ｗｉ－Ｆｉ（登録商標）規格に基づくネットワークのような、所謂無線のネットワークにより構成されていてもよい。また、他の一例として、当該ネットワークＮ１は、インターネット、専用線、ＬＡＮ（Local　Area　Network）、または、ＷＡＮ（Wide　Area　Network）等により構成されていてもよい。また、当該ネットワークＮ１は、複数のネットワークを含んでもよく、一部が有線のネットワークとして構成されていてもよい。

　入出力装置３０は、各種入力情報の取得や、当該入出力装置３０を保持するユーザＵａに対する各種出力情報の提示を行うための構成である。特に、本実施形態に係る入出力装置３０は、例えば、所謂マイクロフォン等のような集音部を備え、ユーザＵａの音声を集音可能に構成されている。例えば、入出力装置３０は、当該集音部により集音した音声（音響）を、ネットワークＮ１を介して情報処理装置１０に送信してもよい。また、入出力装置３０は、所謂液晶ディスプレイや有機ＥＬディスプレイ等のような表示部や、所謂スピーカ等のような音響出力部等の各種出力部を備え、当該出力部を介して情報を出力可能に構成されていてもよい。

　このような構成に基づき、入出力装置３０は、情報処理装置１０に対して送信した音声を入力とした処理の結果を示す出力情報を当該情報処理装置１０からネットワークＮ１を介して取得し、出力部を介して取得した出力情報をユーザＵａに提示してもよい。より具体的な一例として、入出力装置３０は、当該音声が変換された文字情報を情報処理装置１０から取得し、取得した当該文字情報を表示部に表示させることで、当該文字情報をユーザＵａに視認可能に提示してもよい。また、他の一例として、入出力装置３０は、情報処理装置１０から取得した文字情報をＴＴＳ（Text　to　speech）等の技術に基づき音声に変換し、変換された当該音声を音響出力部に出力させることで、当該音声（即ち、文字情報が変換された音声）をユーザＵａに聴取可能に提示してもよい。

　また、入出力装置３０は、各種状態や状況を直接的または間接的に示すコンテキスト情報を取得可能に構成されていてもよい。この場合には、入出力装置３０は、取得したコンテキスト情報を情報処理装置１０に送信してもよい。これにより、情報処理装置１０は、入出力装置３０から取得したコンテキスト情報に基づき、当該状態や状況を認識することが可能となる。

　なお、コンテキスト情報としては、例えば、入出力装置３０の外部環境（ひいては、ユーザＵａの外部環境）の状態を示す情報が挙げられる。具体的な一例として、入出力装置３０は、外部環境の音響を集音する集音部から、周囲の雑音の集音結果を取得することで、当該雑音の影響（例えば、雑音の音量や、信号対雑音比（ＳＮＲ：(signal－to－noise　ratio）等）を示す情報をコンテキスト情報として取得してもよい。

　また、コンテキスト情報としては、発話時のユーザ（発話者）の状態や、当該ユーザが置かれた状況に関する情報が挙げられる。例えば、ユーザが、入出力装置３０を介して他のユーザとコミュニケーションをとっている状況下では、当該コミュニケーションの相手に関する情報（例えば、発話者との関係を示す情報等）がコンテキスト情報として取得されてもよい。この場合には、例えば、入出力装置３０は、通信を確立した外部装置の情報に基づき、コミュニケーションの相手に関する情報を特定してもよい。

　また、各種入力デバイスへの情報の入力状況に関する情報がコンテキスト情報として取得されてもよい。例えば、キーボードやコントローラ等の入力デバイスに対する操作の頻度から、当該入力デバイスを操作するユーザの状態や、当該ユーザが置かれている状況を推定することも可能である。

　また、コンテキスト情報としては、入出力装置３０の状態を示す情報が取得されてもよい。具体的な一例として、入出力装置３０が実行中のアプリケーションに関する情報が挙げられる。このようなコンテキスト情報から、例えば、入出力装置３０を操作するユーザの状態や、当該ユーザが置かれている状況を推定することも可能である。

　また、入出力装置３０は、各種センサ等の検知部によるユーザの体温、呼吸、心拍、及び発汗量等の生体情報の検出結果を、当該ユーザの状態を示すコンテキスト情報として取得してもよい。

　また、コンテキスト情報として、音声の発話速度や音量等のように、発話の態様に関する情報が取得されてもよい。例えば、入出力装置３０は、音声の集音結果に基づき、発話速度や音量等を認識してもよい。また、集音された音声の音質に基づき、当該音声を発話したユーザの属性（例えば、性別や年齢）を示す情報（即ち、誰が発話している状況かを示す情報）をコンテキスト情報として取得することも可能である。また、音声の集音結果に基づき、当該音声の発話に係る長さに関する情報や、当該音声が変換された文字情報の長さ（即ち、ユーザが発話した文字列の長さ）に関する情報のような、入力情報の状態（換言すると、情報の入力状況）に関する情報を、コンテキスト情報として取得することも可能である。もちろん、音声に限らず、他の入力情報について各種状態や状況を示す情報が取得されてもよい。具体的な一例として、キーボードやコントローラ等の入力デバイスに対する情報の入力速度を示す情報や、入力の強さ（例えば、圧力）を示す情報が、コンテキスト情報として取得されてもよい。また、入出力装置３０は、音声の集音結果は、上述した各種状態や状況を示す情報を間接的に取得するためのコンテキスト情報として取得してもよい。

　なお、入出力装置３０が上記コンテキスト情報を取得するタイミングンは特に限定されない。例えば、入出力装置３０は、ユーザが発話した場合（換言すると、音声を集音する場合）に、コンテキスト情報を取得してもよい。より具体的な一例として、入出力装置３０は、所謂ＰＴＴ（Push　to　Talk）のように、所定の操作に基づきユーザが発話した音声の集音を開始する場合には、当該操作の検出に基づきコンテキスト情報を取得してもよい。このような構成により、入出力装置３０は、ユーザが発話を開始したタイミング（即ち、音声の集音を開始したタイミング）における各種状態や状況に関するコンテキスト情報を取得することが可能となる。また、入出力装置３０は、ユーザの発話を検出している期間中（即ち、音声の集音を継続している期間中）は、逐次コンテキスト情報を取得してもよい。

　また、入出力装置３０は、ユーザが発話を開始した場合（換言すると、音声の集音を開始した場合）に、当該発話の開始直前の状態または状況に関するコンテキスト情報を取得してもよい。具体的な一例として、ユーザが発話を開始する直前の期間における、当該ユーザによる他の入力デバイスへの操作状況を示すコンテキスト情報から、発話時における当該ユーザの状態や、当該ユーザが置かれた状況を推測することも可能である。このような場合には、例えば、入出力装置３０は、所定の状態や状況を逐次監視し、所定のイベント（例えば、ユーザによる発話の開始）の検出をトリガとして、当該イベントの検出タイミングの前後の期間における監視結果に基づき、当該期間におけるコンテキスト情報を取得してもよい。このような構成により、入出力装置３０は、例えば、ユーザの発話の開始を検出した場合に、当該発話の開始前後数秒（例えば、１０秒程度）の期間における各種状態や状況に関する情報を、当該発話の期間に関するコンテキスト情報として取得することが可能となる。

　なお、本開示では、「音声の集音に関する期間」と記載した場合には、当該音声を集音する期間のみに限らず、当該音声の集音を開始する直前の期間も含み得るものとする。同様に、「発話に関する期間」と記載した場合には、音声の発話期間のみに限らず、当該音声が発話される直前の期間も含み得るものとする。なお、一般的には、音声の集音開始前後の１０秒程度の期間におけるコンテキスト情報を取得できれば、当該音声を発話したユーザの状態や、当該ユーザが置かれている状況を推定することが可能である。もちろん、ユースケースに応じて、コンテキスト情報の取得対象とする期間を変更してもよいことは言うまでもない。

　続いて、情報処理装置１０について説明する。情報処理装置１０は、入出力装置３０から音声（音響）の集音結果を取得し、取得した音声を入力情報として各種処理を実行する。具体的には、情報処理装置１０は、入出力装置３０から音響の集音結果を取得した場合には、当該音響に含まれる音声を検出してもよいし、当該検出結果に基づき当該音響から音声を抽出してもよい。また、情報処理装置１０は、取得した音声に対して音声認識処理（所謂音響解析）を施すことで当該音声を文字情報に変換してもよい。また、このとき情報処理装置１０は、形態素解析、構文解析、及び意味解析等の自然言語処理（所謂言語解析）に基づき、音声が変換された文字情報を、意味内容を考慮した文字情報（例えば、漢字かな交じりの文章等）に変換してもよい。また、情報処理装置１０は、音声が変換された文字情報の意味内容を認識することで、当該音声により指示された機能を実行してもよい。

　また、情報処理装置１０は、音声の集音結果を入力情報とした各種処理の実行結果を、ネットワークＮ１を介して入出力装置３０に送信してもよい。具体的な一例として、情報処理装置１０は、音響の集音結果から音声を検出した場合に、当該検出結果を入出力装置３０に通知してもよい。また、情報処理装置１０は、音声の集音結果に対する音声認識処理や自然言語処理の結果に基づき、当該音声が変換された文字情報を入出力装置３０に送信してもよい。また、このとき情報処理装置１０は、入出力装置３０の動作を制御することで、当該入出力装置３０に音声が変換された文字情報を所定の出力部を介して出力させてもよい。

　また、情報処理装置１０は、入出力装置３０から上述したコンテキスト情報を取得してもよい。これにより情報処理装置１０は、入出力装置３０の周囲の環境の状態や、当該入出力装置３０を保持するユーザの状態等のような各種状態や状況を認識することが可能となる。また、この場合には、情報処理装置１０は、各種状態や状況の認識結果に応じて、各種処理を制御してもよい。具体的な一例として、情報処理装置１０は、音声が変換された文字情報の提示態様を、取得したコンテキスト情報に応じて（即ち、当該コンテキスト情報が示す状態や状況に応じて）制御してもよい。

　なお、上記に説明したシステム構成はあくまで一例であり、必ずしも図１に示す例のみには限定されない。具体的な一例として、情報処理装置１０が、互いに連携する複数の装置（例えば、サーバ等）により構成されていてもよい。また、他の一例として、情報処理装置１０と入出力装置３０とが一体的に構成されていてもよい。

　以上、図１を参照して、本開示の一実施形態に係る情報処理システムの概略的な構成について説明した。なお、以降の説明では、本開示に係る情報処理システムの各種実施形態についてそれぞれ説明する。

　　＜１．２．機能構成＞
　続いて、図２を参照して、本開示の一実施形態に係る情報処理システムの機能構成の一例について、特に、図１に示した情報処理装置１０及び入出力装置３０の構成に着目して説明する。図２は、本開示の一実施形態に係る情報処理システムの機能構成の一例を示したブロック図である。なお、本説明では、以降に説明する各実施形態に係る情報処理システムそれぞれにおいて共通の部分に着目して、情報処理装置１０及び入出力装置３０の機能構成について説明し、各実施形態に特有の構成や動作等については別途後述する。

　また、図２に示す例では、情報処理装置１０及び入出力装置３０の構成をよりわかりやすくするために、当該情報処理装置１０及び入出力装置３０がネットワークを介して情報を送受信するための通信部の図示を省略している。なお、当該通信部の構成は、ネットワークの種別に応じて適宜変更されてもよい。例えば、当該ネットワークが、無線のネットワークの場合には、通信部は、ベースバンド（ＢＢ）プロセッサやＲＦ回路等を含んでもよい。なお、以降の説明では、情報処理装置１０及び入出力装置３０それぞれの内部の各構成が、ネットワークを介して外部装置と情報の送受信を行う場合には、特に説明が無い場合においても、当該通信部を介して情報の送受信を行うものとする。

　まず、入出力装置３０の構成について説明する。図２に示すように、入出力装置３０は、入力部３１０と、出力部３３０とを含む。入力部３１０は、例えば、集音部３１１と、検知部３１３とを含む。また、入力部３１０は、操作部３１５含んでもよい。また、出力部３３０は、例えば、表示部３３１を含む。また、出力部３３０は、音響出力部３３３を含んでもよい。

　集音部３１１は、所謂マイクロフォン等の集音デバイスにより構成され、ユーザの音声等のような音響を集音する。集音部３１１による音響の集音結果に基づく音響信号は、例えば、ネットワークを介して情報処理装置１０に送信される。

　検知部３１３は、各種状態や状況を示すコンテキスト情報を取得するための構成である。例えば、検知部３１３は、各種センサを含み、当該センサにより周囲の環境の状態を示す情報をコンテキスト情報として取得してもよい。また、検知部３１３は、外部環境の音響を集音する集音部を備え、当該集音部による集音結果を、雑音の影響を示すコンテキスト情報として取得してもよい。また、検知部３１３は、入出力装置３０の外部に設けられた各種デバイスからコンテキスト情報を取得してもよい。具体的な一例として、検知部３１３は、ユーザの身体に設置された各種センサから、当該ユーザの生体情報を示すコンテキスト情報を取得してもよい。なお、検知部３１３により取得されたコンテキスト情報は、例えば、ネットワークを介して情報処理装置１０に送信される。

　操作部３１５は、ユーザからの入力操作を受け付けるための構成であり、例えば、ボタン、タッチパネル、または所謂ポインティングデバイス等のような入力デバイスにより構成される。例えば、後述する表示部３３１を介して提示された表示情報のうち、一部の表示情報の選択は、当該操作部３１５を介した操作に基づき行われてもよい。即ち、入出力装置３０は、操作部３１５に対するユーザからの入力操作の内容に基づき、操作対象（即ち、選択対象）を認識すればよい。また、所謂ＰＴＴ等のように音声の集音を開始するための操作が、当該操作部３１５を介して行われてもよい。

　表示部３３１は、所謂液晶ディスプレイや有機ＥＬディスプレイ等のような表示デバイスにより構成され、各種表示情報を表示することでユーザに対して情報を提示する。例えば、表示部３３１は、情報処理装置１０から送信される出力情報を、表示情報として表示することで、当該出力情報をユーザに提示する。また、このとき表示部３３１は、情報処理装置１０から送信される出力情報を、当該情報処理装置１０により指定された態様で表示情報として表示してもよい。

　音響出力部３３３は、所謂スピーカ等の音響デバイスにより構成され、音声等の音響を出力することでユーザに対して情報を提示する。例えば、表示部３３１は、情報処理装置１０から送信される音声や音響として構成された出力情報を出力することで、当該出力情報をユーザに提示する。また、音響出力部３３３は、情報処理装置１０から送信される文字情報として構成された出力情報がＴＴＳ（Text　to　speech）等の技術に基づき変換された音声を出力することで、当該出力情報を音声としてユーザに提示してもよい。

　なお、上述した入力部３１０及び出力部３３０に含まれる構成はあくまで一例であり、入出力装置３０の利用用途に応じて、上述した構成以外の他の構成が含まれてもよい。

　続いて、情報処理装置１０の構成について説明する。図２に示すように、情報処理装置１０は、音響解析部１０１と、言語解析部１０７と、コンテキスト解析部１０９と、出力制御部１１１とを含む。

　コンテキスト解析部１０９は、入出力装置３０からコンテキスト情報を取得し、取得したコンテキスト情報を解析することで各種状態や状況を認識する。具体的な一例として、コンテキスト解析部１０９は、入出力装置３０の周囲の環境における音響の集音結果を、コンテキスト情報として取得してもよい。この場合には、例えば、コンテキスト解析部１０９は、当該集音結果に基づき、音声の集音環境における雑音の影響の大きさ（例えば、雑音の音量等）を認識してもよい。

　一般的には、騒音レベルが６０ｄＢ以上の場合には、うるさいと感じられる傾向にある。なお、「普通の会話」、「チャイム」、「時速４０キロで走る自動車の内部」の音量が、約６０ｄＢに相当する。また、騒音レベルが８０ｄＢ以上の場合には、極めてうるさいと感じられる傾向にある。なお、「地下鉄の車内（窓を開けた場合）」、「ピアノの音」の音量が、約８０ｄＢに相当する。そのため、例えば、コンテキスト解析部１０９は、雑音の音量が６０ｄＢ以上の場合に、雑音の影響が大きい（即ち、うるさい環境である）環境であると認識してもよい。

　また、他の一例として、コンテキスト解析部１０９は、ユーザが発話した音声の集音結果に基づく音響信号を、コンテキスト情報として取得してもよい。この場合には、例えば、コンテキスト解析部１０９は、当該音響信号に対する音響解析（例えば、音声認識処理）の結果に基づき、発話速度、音声の音量、音声の音質等を認識してもよい。また、コンテキスト解析部１０９は、発話速度、音声の音量、音声の音質等の認識結果に基づき、他の状態や状況を推定してもよい。具体的な一例として、音声の音質等からは、発話したユーザの年齢や性別等を推定することも可能である。なお、コンテキスト解析部１０９は、当該音響信号に対する音響解析の結果を、音響解析部１０１から取得してもよい。

　また、他の一例として、コンテキスト解析部１０９は、ユーザが発話した音声の集音結果に基づく音響信号に対する音響解析や言語解析の結果を、コンテキスト情報として取得してもよい。この場合には、例えば、コンテキスト解析部１０９は、当該音響信号に対する音響解析や言語解析の結果に基づき、ユーザが発話した音声の長さや、ユーザが発話した文字列の長さ（即ち、音声が変換された文字情報の長さ）等を認識してもよい。

　もちろん上記に説明した例はあくまで一例であることは言うまでもない。前述したように、コンテキスト解析部１０９は、取得されるコンテキスト情報に応じて、上記に説明した例以外にも、他の状態や状況を認識または推定することが可能である。

　以上のようにして、コンテキスト解析部１０９は、取得したコンテキスト情報に基づき各種状態や状況を認識し、認識結果を示す情報を出力制御部１１１に出力する。また、コンテキスト解析部１０９は、各種状態や状況の認識結果を示す情報を、音響解析部１０１及び言語解析部１０７に出力してもよい。

　音響解析部１０１は、入出力装置３０の入力部３１０（集音部３１１）による音響の集音結果に基づく音響信号を取得し、取得した音響信号に対して音響解析処理を施すことで、当該音響信号に含まれる音声の抽出や、当該音声の認識に係る処理を実行する。図２に示すように、音響解析部１０１は、例えば、音声検出部１０３と、音声認識処理部１０５とを含む。

　音声検出部１０３は、取得された音響信号から音声を抽出するための構成である。音声検出部１０３は、ＶＡＤ（Voice　Activity　Detection）等の技術に基づき音響信号に含まれる音声信号を抽出する。そして、音声検出部１０３は、音響信号から抽出された音声信号を音声認識処理部１０５に出力する。また、音声検出部１０３は、音響信号に含まれる音声信号を検知した場合に、検知結果を示す情報を出力制御部１１１に通知してもよい。

　音声認識処理部１０５は、音声検出部１０３により音響信号から抽出された音声信号に対して所謂音声認識処理を施すことで、当該音声信号を、音声の発音を示す文字情報に変換する。具体的な一例として、音声認識処理部１０５は、日本語の音声の集音結果に基づく音声信号を、発話内容を示すひらがなやカタカナの文字情報に変換する。そして、音声認識処理部１０５は、音声認識処理の結果を示す情報（例えば、音声の発音を示す文字情報）を言語解析部１０７に出力する。また、音声認識処理部１０５は、音声認識処理の結果を示す情報を出力制御部１１１に出力してもよい。

　音声認識処理部１０５は、コンテキスト解析部１０９から、各種状態や状況の認識結果を示す情報を取得し、取得した当該情報が示す状態や状況に応じて、上述した音声認識処理を制御してもよい。具体的な一例として、音声認識処理部１０５は、取得した情報が示す状態や状況に応じて、音声認識処理の対象とする音声信号の範囲を制御してもよい。また、音声認識処理部１０５は、取得した情報が示す状態や状況に応じて、音声の音響的な特徴（以降では、「音響モデル」とも称する）に基づき、当該音声に対して音声認識処理を施す際の探索範囲（例えば、参照するパターンや、適用する条件等）を制御してもよい。なお、同制御の詳細については別途後述する。

　言語解析部１０７は、音声認識処理部１０５から音声認識処理の結果を取得し、当該音声認識処理の結果として得られた文字情報に対して、所謂言語解析処理（自然言語処理）を施すことで、当該文字情報を、意味内容を考慮した文字情報に変換する。

　具体的な一例として、言語解析部１０７は、取得された文字情報に対して形態素解析や構文解析を施すことで、当該文字情報を形態素に切り分け、切り分けられた形態素間の関連性（例えば、修飾関係等）を認識する。また、言語解析部１０７は、例えば、形態素解析や構文解析の結果に対して、辞書データ等に基づく意味解析を施すことで、取得された文字情報（例えば、文章）が示す意味内容を認識し、当該文字情報を、意味内容を考慮した文字情報（例えば、日本語における漢字かな交じり文章等）に変換する。

　なお、言語解析部１０７は、コンテキスト解析部１０９から、各種状態や状況の認識結果を示す情報を取得し、取得した当該情報が示す状態や状況に応じて、上述した言語解析処理を制御してもよい。具体的な一例として、言語解析部１０７は、取得した情報が示す状態や状況に応じて、言語解析処理における処理対象となる文字情報の探索範囲を制御してもよい。また、言語解析部１０７は、取得した情報が示す状態や状況に応じて、音声の言語的な特徴（以降では、「言語モデル」とも称する）に基づき、当該音声に対する音声認識処理の結果に対して言語解析処理を施す際の探索範囲（例えば、参照するパターンや、適用する条件等）を制御してもよい。なお、同制御の詳細については別途後述する。

　そして、言語解析部１０７は、言語解析処理の結果を示す情報（例えば、音声の発音を示す文字情報から、意味内容を考慮した文字情報への変換結果を示す情報）を出力制御部１１１に出力する。

　出力制御部１１１は、言語解析処理の結果を示す情報として、例えば、音声が意味内容を考慮して変換された文字情報を取得する。このとき、出力制御部１１１は、取得した当該文字情報を入出力装置３０に提示させてもよい。これにより、入出力装置３０を保持するユーザは、当該入出力装置３０の出力部３３０（例えば、表示部３３１）を介して自身が発話した音声の認識結果を確認することが可能となる。

　また、出力制御部１１１は、コンテキスト解析部１０９から、取得されたコンテキスト情報に基づく各種状態や状況の認識結果を示す情報を取得し、当該認識結果に応じて、提示対象となる音声が変換された文字情報の態様を制御してもよい。具体的な一例として、出力制御部１１１は、取得した情報が示す状態や状況に応じて、提示対象となる文字情報のうち少なくとも一部の語句が、当該語句の発音を示す文字情報として提示されるように制御してもよい。なお、本制御の詳細については別途後述する。

　また、出力制御部１１１は、音声が変換された文字情報を入出力装置３０に提示させる際に、集音された当該音声が文字情報に変換されるまでの音響解析や言語解析の状態に応じて、各種情報を段階的に入出力装置３０に提示させてもよい。具体的な一例として、出力制御部１１１は、音響解析部１０１から、音響信号に含まれる音声の検知結果を示す通知を受けて、当該通知を受けたタイミングに応じて、報知情報を入出力装置３０に提示させてもよい。次いで、出力制御部１１１は、音響解析部１０１から、当該音響信号から抽出された音声信号に対する音声認識処理の結果を示す情報を取得し、当該情報を取得したタイミングに応じて、当該音声認識処理の結果に基づく出力情報を入出力装置３０に提示させてもよい。次いで、出力制御部１１１は、言語解析部１０７から、当該音声認識処理の結果に対する言語解析処理の結果を示す情報を取得し、当該情報を取得したタイミングに応じて、当該言語解析処理の結果に基づく出力情報を入出力装置３０に提示させてもよい。なお、本制御の詳細については別途後述する。

　なお、図２に示した情報処理システムの機能構成はあくまで一例であり、上述した各構成の機能を実現することが可能であれば、当該情報処理システムの機能構成は必ずしも図２に示す例のみには限定されない。例えば、情報処理装置１０の一部の構成が、当該情報処理装置１０の外部に設けられていてもよい。具体的な一例として、出力制御部１１１に相当する構成が、入出力装置３０側に設けられていてもよい。この場合には、入出力装置３０は、音響信号に含まれる音声の検知結果、当該音声に対する音声認識処理の結果、音声認識処理の結果に対する言語解析処理の結果、及びコンテキスト情報に基づく各種状態や状況の認識結果を示す情報等を、情報処理装置１０から取得すればよい。また、入力部３１０及び出力部３３０に含まれる各構成のうち少なくとも一部の構成が、入出力装置３０の外部に設けられていてもよい。また、前述したように、入出力装置３０と情報処理装置１０とが一体的に構成されていてもよい。

　以上、図２を参照して、本開示の一実施形態に係る情報処理システムの機能構成の一例について、特に、図１に示した情報処理装置１０及び入出力装置３０の構成に着目して説明した。なお、以降の説明では、本開示に係る情報処理システムの各種実施形態についてそれぞれ説明する。

　＜＜２．第１の実施形態＞＞
　　＜２．１．概要＞
　まず、本開示の第１の実施形態に係る情報処理システムについて説明する。前述したように、音声認識技術や自然言語処理技術を応用することで、例えば、ユーザは、キーボード等の入力デバイスを介することなく、音声により文字情報を入力することが可能となる。

　一方で、音声認識処理や自然言語処理の精度が必ずしも高いとは限らず、音声が誤って認識される場合が想定され得る。例えば、ユーザが発話した音声を認識するシステム（以降では、「音声認識システム」とも称する）は、発話された音声に対する応答速度（即ち、処理速度）を向上させるために、音声認識処理や自然言語処理の探索範囲を制限する場合がある。しかしながら、音声認識処理や自然言語処理の探索範囲が制限されると、当該音声認識処理や自然言語処理の精度（即ち、音声の認識に係る処理の精度）が低下し、ひいては音声の認識に失敗する場合も想定され得る。

　これに対して、「明瞭に話す」、「大きな音量で話す」、「余計な言葉を発話しない」等の発話の工夫により認識の精度を向上させることが可能な場合もある。しかしながら、各音声認識システムにとって最良の発話のしかた（即ち、発話の工夫）をユーザが認識することは困難であることが多い。そのため、音声認識処理や自然言語処理に基づく音声の認識は、認識精度が上がりにくい傾向にある。

　また、他の方法として、音声認識処理や自然言語処理の探索範囲を制限しないことで、音声の認識に係る処理の精度を向上させることも可能である。しかしながら、この場合には、当該音声認識処理や自然言語処理の処理量が増えるため、処理速度が低下し、ひいては音声の発話に対する応答速度が低下することとなる。即ち、応答速度の向上と、認識精度の向上とは二律背反の関係となる傾向が高い。

　ところで、音声認識システムが利用されるシーンやユースケースに応じて、当該システムに求められる特性が異なる場合がある。例えば、あるシーンでは、発話に対してより早いレスポンス（即ち、応答速度）が求められる場合がある。また、他のシーンでは、応答速度よりもより高い認識精度が求められる場合もある。

　このような状況を鑑み、本実施形態に係る情報処理システムは、音声の集音に関する期間における各種状態や状況（換言すると、コンテキスト情報）に応じて、音声が変換された文字情報の提示態様を制御する。具体的な一例として、本実施形態に係る情報処理システムは、音声の集音に関する期間に取得したコンテキスト情報に応じて、応答速度と認識精度とのいずれを重視すべきかを判断し、判断結果に応じて態様で、集音された音声の文字情報への変換や、当該文字情報の提示を行う。

　ここで、図３及び図４を参照して、本実施形態に係る情報処理システムの概要について具体的な例を挙げて説明する。図３及び図４は、本実施形態に係る情報処理システムの概要について説明するための説明図であり、ユーザがゲームをプレイしながら音声により情報を入力する場合における、システムからの音声の認識結果のフィードバックの一例を示している。

　例えば、図３は、一般的な音声認識システムによる音声の認識結果のフィードバックの一例を示している。なお、以降では、図３に示す例を「比較例」と称する場合がある。図３において、参照符号Ｖ１００ａは、ユーザが発話を開始したタイミングにおけるゲーム画面の状態を模式的に示している。また、参照符号Ｖ１００ｂは、ユーザにより発話された音声の認識結果が提示されたタイミングにおけるゲーム画面の状態を模式的に示している。なお、ゲーム画面Ｖ１００ａ及びＶ１００ｂを特に区別しない場合には、単に「ゲーム画面Ｖ１００」と称する場合がある。また、参照符号Ｖ１１１、Ｖ１１３、及びＶ１１５は、ゲーム画面Ｖ１００に表示される表示情報の一例である。例えば、参照符号Ｖ１１１は、システムがユーザに対してゲーム内の状況を報知するための出力フィールドである。また、参照符号Ｖ１１３は、ユーザが発話した音声の認識結果を提示するための出力フィールドである。また、参照符号Ｖ１１５は、音声（音響）の集音状況をユーザに報知するための表示情報（例えば、アイコン等）である。

　例えば、ユーザが、ゲームをプレイしながら出力フィールドＶ１１１に提示された情報を確認し、システムに対してコントローラに設けられた集音部を介して音声を発話することで情報を入力したものとする。この場合には、システムは、例えば、図３の中央の図に示すように、ユーザが発話した音声の集音状況を表示情報Ｖ１１５の表示態様を変化させながらリアルタイムで提示し、当該音声の認識に係る処理が完了すると、認識結果を示す情報を出力フィールドＶ１１５に提示する。例えば、図３に示す例では、システムは、ユーザが発話した音声を文字情報に変換し、当該文字情報を音声の認識結果として出力フィールドＶ１１３に提示している。

　一方で、例えば、ゲームのプレイに集中している状況下では、当該ユーザは、ゲームのプレイ画面以外の情報に対する注意力が低くなる傾向にある。そのため、例えば、周辺視野により表示情報Ｖ１１５の変化（即ち、音声の認識状況）を確認できたとして、出力フィールドＶ１１３に提示される音声の認識結果を確認することが困難な状況が想定され得る。一方で、あまりゲームのプレイに集中していない状況下では、ユーザは、ゲームのプレイ画面外の情報に対する注意力が、ゲームのプレイに集中している状況下に比べて高くなる傾向にある。そのため、このような状況下では、ユーザは、出力フィールドＶ１１３に提示される音声の認識結果を、余裕を持って確認できる場合が多い。本実施形態に係る情報処理システムは、このような状態や状況の変化を認識し、当該状態や状況の認識結果に応じて、音声の認識に係る処理や当該認識結果の提示に係る処理として、例えば、応答速度をより重視した処理と、認識精度をより重視した処理とを動的に切り替える。

　例えば、図４は、本実施形態に係る情報処理システムによる音声の認識結果のフィードバックの一例を示している。図４において、参照符号Ｖ１００ｃは、ユーザが発話を開始したタイミングにおけるゲーム画面の状態を模式的に示している。また、参照符号Ｖ１００ｄは、ユーザにより発話された音声の認識結果が提示されたタイミングにおけるゲーム画面の状態を模式的に示している。なお、図４において、図３と同様の符号が付された対象は、当該図３に示す例と同様の対象を示すものとする。

　より具体的な一例として、本実施形態に係る情報処理システムは、ユーザの発話速度に応じて、音声の認識に係る処理や当該認識結果の提示に係る処理を動的に切り替えてもよい。例えば、ヒトは、ある作業により集中している状況下では、発話速度が遅くなる傾向にある。これに対して、ヒトは、集中して発話可能な状況下においては、発話速度が遅くならない傾向にある。このような特性を利用し、情報処理システムは、例えば、ユーザの発話速度を示すコンテキスト情報に基づき、ユーザの発話速度が普段の発話速度のよりも低いことを認識した場合には、当該ユーザが何らかの作業に集中している状態にあるものと認識する。このような場合には、情報処理システムは、例えば、発話された音声に対する音声認識処理や自然言語処理の探索範囲がより広くなるように制御することで、当該音声の認識精度をより向上させる。また、このとき情報処理システムは、例えば、図４に示すように、音声の認識精度がより向上するように音声認識処理や自然言語処理の探索範囲を制御していることを、表示情報Ｖ１１５の表示態様を変えることでユーザに提示してもよい。なお、表示情報Ｖ１１５のように、音声の集音状況や、音声認識処理や自然言語処理の制御内容（例えば、探索範囲の制御状況）等を通知するための情報が、「音声の集音に関連する出力情報」の一例に相当する。

　以上のように、本実施形態に係る情報処理システムは、音声の集音に関する期間における各種状態や状況（例えば、発話の態様）に応じて、音声の認識結果（例えば、音声が変換された文字情報）の提示態様を動的に制御する。このような構成により、例えば、ユーザがある作業に集中しており、発話した音声の認識結果を確認することが困難な状況下では、音声の認識精度をより重視した制御に切り替えることが可能となる。そのため、当該ユーザは、認識結果の確認を意識せずに当該作業に集中することが可能となる。また、他の一例として、ユーザが特定の作業に注意力を注ぐ必要がなく、余裕をもって音声の認識結果を確認することが可能な状況下では、応答速度をより重視した制御に切り替えることが可能となる。そのため、当該ユーザは、自身が発話した音声の認識結果を速やかに確認することが可能となる。

　以上、図３及び図４を参照して、本開示の第１の実施形態に係る情報処理システムの概要について説明した。なお、以降では、本実施形態に係る情報処理システムについてより詳しく説明する。

　　＜２．２．処理＞
　まず、図５を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について説明する。図５は、本実施形態に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。

　入出力装置３０（例えば、検知部３１３）は、所定の状態や状況（例えば、発話の態様）を示すコンテキスト情報を取得し、取得したコンテキスト情報を情報処理装置１０に送信する（Ｓ１０１）。また、入出力装置３０（集音部３１１）は、所定のイベント（例えば、ＰＴＴにおける発話のための操作等）を検知すると、ユーザが発話した音声を集音し、当該音声の集音結果に基づく音響信号を情報処理装置１０に送信する（Ｓ１０３）。

　情報処理装置１０（コンテキスト解析部１０９）は、入出力装置３０からコンテキスト情報を取得し、取得したコンテキスト情報を解析することで、音声の集音に関する期間における所定の状態や状況を認識する。そして、情報処理装置１０は、認識した当該状態や状況に応じて、音声の認識に係る処理や、当該音声の認識結果の提示に係る処理を実行するための動作モードを選択する（Ｓ１０５）。なお、本説明では、情報処理装置１０は、音声の認識精度をより重視するモード（精度重視のモード）と、当該音声の認識結果の応答速度をより重視するモード（速度重視のモード）とを切り替えるものとして説明する。

　例えば、精度重視のモードを選択した場合には（Ｓ１０７、ＹＥＳ）、情報処理装置１０（出力制御部１１１）は、精度重視のモードが選択されたことを示す情報を入出力装置３０に提示させる。具体的な一例として、情報処理装置１０は、入出力装置３０に提示させる所定の出力情報の提示態様が、選択した精度重視のモードに対応する態様となるように制御する（Ｓ１０９）。また、この場合には、情報処理装置１０（例えば、音響解析部１０１及び言語解析部１０７）は、音声に対して音声認識処理を施す際の探索範囲や、当該音声に対する音声認識処理の結果に対して言語解析処理を施す際の探索範囲が狭めずに各処理を実行する（Ｓ１１１）。

　また、速度重視のモードを選択した場合には（Ｓ１０７、ＮＯ）、情報処理装置１０（出力制御部１１１）は、速度重視のモードが選択されたことを示す情報を入出力装置３０に提示させる。具体的な一例として、情報処理装置１０は、入出力装置３０に提示させる所定の出力情報の提示態様が、選択した速度重視のモードに対応する態様となるように制御する（Ｓ１１３）。また、この場合には、情報処理装置１０（例えば、音響解析部１０１及び言語解析部１０７）は、音声に対して音声認識処理を施す際の探索範囲や、当該音声に対する音声認識処理の結果に対して言語解析処理を施す際の探索範囲を狭めて各処理を実行する（Ｓ１１５）。

　そして、情報処理装置１０（出力制御部１１１）は、音声の集音結果に基づく音響信号に対する音声認識処理（音響解析）や自然言語処理（言語解析）の結果に基づき、当該音声の認識処理の結果を入出力装置３０に提示させる。具体的な一例として、情報処理装置１０は、当該音声が音声認識処理や事前言語処理に基づき変換された文字情報を、入出力装置３０に提示させてもよい（Ｓ１１７）。

　以上、図５を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について説明した。

　　＜２．３．変形例＞
　続いて、本実施形態に係る情報処理システムの変形例について説明する。

　　＜２．３．１．変形例１－１：コンテキスト情報に応じた制御の一例＞
　まず、変形例１－１として、コンテキスト情報（即ち、各種状態や状況）に応じた制御の一例について、具体的な例を挙げて説明する。なお、本説明では、上述した実施形態と同様に、精度重視のモードと、速度重視のモードとを切り替える場合に着目して説明する。

　（発話の状況に応じた制御）
　例えば、情報処理システムは、発話の状況（例えば、音量の大きさ）を示すコンテキスト情報に応じて、音声の認識に係る各処理や、当該音声の認識結果を提示するための処理（以下、これらを総じて「音声の認識に関する処理」とも称する）を制御してもよい。具体的な一例として、情報処理システムは、発話の音量が閾値よりも大きい場合には精度重視のモードを選択し、当該音量が閾値よりも小さい場合には速度重視のモードを選択してもよい。

　（音声の音質に応じた制御）
　また、情報処理システムは、発話された音声の音質を示すコンテキスト情報に応じて、音声の認識に関する処理を制御してもよい。具体的な一例として、情報処理システムは、発話された音声が子供の声であることを認識した場合には、精度重視のモードを選択してもよい。また、情報処理システムは、発話された音声が女性の声であることを認識した場合には、速度重視のモードを選択してもよい。また、情報処理システムは、発話された音声が音程の低い男性の声であることを認識した場合には、速度重視のモードを選択してもよい。また、情報処理システムは、発話された音声が音程のより高い声であることを認識した場合には、速度重視のモードを選択してもよい。

　（発話者に応じた制御）
　また、情報処理システムは、発話者を認識することで、当該発話者に応じて、音声の認識に関する処理を制御してもよい。即ち、情報処理システムは、発話者が子供であることを認識した場合には、精度重視のモードを選択してもよい。また、情報処理システムは、発話者が大人であることを認識した場合には、速度重視のモードを選択してもよい。

　（実行中の機能に応じた制御）
　また、情報処理システムは、発話された音声の集音時に実行されている機能（例えば、アプリケーション）の種別に応じて、音声の認識に関する処理を制御してもよい。具体的な一例として、情報処理システムは、メール機能が実行されている場合（例えば、当該機能により音声の認識結果が使用される場合）には、精度重視のモードを選択してもよい。また、情報処理システムは、所謂インスタントメッセージ機能が実行されている場合には、速度重視のモードを選択してもよい。

　（コミュニケーションの相手に応じた制御）
　また、他の一例として、情報処理システムは、音声の認識結果を利用するコミュニケーションの相手に応じて、当該音声の認識に関する処理を制御してもよい。具体的な一例として、情報処理システムは、音声を発話したユーザのコミュニケーションの相手が当該ユーザの上司に相当する人物の場合には、精度重視のモードを選択してもよい。また、情報処理システムは、音声を発話したユーザのコミュニケーションの相手が当該ユーザの部下に相当する人物の場合には、速度重視のモードを選択してもよい。

　（入力デバイスへの操作状況に応じた制御）
　また、情報処理システムは、キーボードやコントローラ等への情報の入力状況に応じて、音声の認識に関する処理を制御してもよい。具体的な一例として、情報処理システムは、入力デバイスに対する操作の操作量が多い場合や、操作の頻度が高い場合には、精度重視のモードを選択してもよい。また、情報処理システムは、入力デバイスに対する操作の操作量が少ない場合や、操作の頻度が低い場合には、速度重視のモードを選択してもよい。

　（デバイスの種別に応じた制御）
　また、情報処理システムは、ユーザが利用するデバイス（例えば、入出力デバイス）の種別に応じて、音声の認識に関する処理を制御してもよい。具体的な一例として、情報処理システムは、ユーザがディスプレイ等の表示部を有さないデバイスを利用している状況下では、精度重視のモードを選択してもよい。これに対して、情報処理システムは、ユーザが表示部を有するデバイスを利用している状況下では、速度重視のモードを選択してもよい。

　（生体情報に応じた制御）
　また、情報処理システムは、ユーザの生体情報を利用することで当該ユーザの状態や状況を認識し、当該認識結果に応じて、音声の認識に関する処理を制御してもよい。具体的な一例として、脈拍が速い場合には、ユーザが焦っている状況が想定され得る。そのため、この場合には、情報処理システムは、精度重視のモードを選択してもよい。これに対して、脈拍が遅い場合には、ユーザが落ち着いている状況が想定され得る。そのため、この場合には、情報処理システムは、速度重視のモードを選択してもよい。

　なお、上記に説明した例はあくまで一例であり、情報処理システムが、取得したコンテキスト情報に応じて各種状態や状況を認識し、当該状態や状況に応じて、音声の認識に関する処理を制御することが可能であれば、必ずしも上記に説明した例のみには限定されない。例えば、情報処理システムに対して、ユーザからコンテキスト情報が与えられてもよい。具体的な一例として、上述した精度重視のモードや速度重視のモード等のモードを選択するための操作がユーザにより行われた場合には、情報処理システムは、ユーザにより選択されたモードに切り替えてもよい。

　また、情報処理システムは、上記では精度重視のモードと速度重視のモードとのいずれかに切り替える例に着目して説明したが、必ずしも当該制御のみには限定されない。具体的な一例として、情報処理システムは、音声認識処理や自然言語処理における探索範囲の広さをコンテキスト情報に応じてアナログ的に制御してもよい。また、情報処理システムは、音声の認識に関する処理の実行中においても、その時々のコンテキスト情報に応じて探索範囲を動的に制御してもよい。

　以上、変形例１－１として、コンテキスト情報（即ち、各種状態や状況）に応じた制御の一例について、具体的な例を挙げて説明した。

　　＜２．３．２．変形例１－２：コンテキスト情報に情報の提示態様の一例＞
　続いて、変形例１－２として、図６を参照して、本実施形態に係る情報処理システムが、コンテキスト情報に応じて音声の認識に関する処理を制御した場合に、当該制御結果（例えば、選択されたモード）をユーザに通知するための情報の提示態様の一例について説明する。図６は、変形例１－２に係る情報処理システムの概要について説明するための説明図である。なお、本説明では、上述した実施形態と同様に、精度重視のモードと、速度重視のモードとを切り替える場合に着目して説明する。

　具体的な一例として、情報処理システムは、ビジュアルフィードバックの色により、選択されたモードをユーザに通知してもよい。例えば、図４を参照して説明した例では、情報処理システムは、音声（音響）の集音状況をユーザに報知するための表示情報Ｖ１１５の色の違いにより、選択されているモードをユーザに通知している。

　また、他の一例として、情報処理システムは、ビジュアルフィードバックの形状により、選択されたモードをユーザに通知してもよい。例えば、図６に示す例では、情報処理システムは、精度重視のモードが選択された場合には、当該モードが選択されていることを示すアイコンを付加的に提示している。

　また、他の一例として、情報処理システムは、選択されたモードを文言により表現してもよい。例えば、図６に示す例では、情報処理システムは、速度重視のモードを選択した場合には、単に「お話しください」という文言を提示している。これに対して、情報処理システムは、精度重視のモードを選択した場合には、速度重視のモードを選択した場合とは異なり、「ゆっくりお話しください」という文言を提示している。なお、各文言をユーザに提示する方法は特に限定されない。具体的な一例として、当該文言が表示情報としてユーザに提示されてもよい。また、他の一例として、当該文言が、ＴＴＳ等の技術に基づき音声としてユーザに提示されてもよい。

　また、他の一例として、情報処理システムは、サウンドフィードバックにより、選択されたモードをユーザに通知してもよい。例えば、図６に示す例では、情報処理システムは、速度重視のモードが選択された場合と、精度重視のモードが選択された場合とで、異なるピッチで効果音を出力することで、選択したモードをユーザに通知している。

　なお、上記に説明した例はあくまで一例であり、選択されたモードをユーザに通知するための方法や、当該通知に利用されるデバイスの種別は特に限定されない。具体的な一例として、情報処理システムは、ユーザが保持するデバイスに内蔵されたアクチュエータを選択したモードに応じて異なる態様で振動させることで、選択した当該モードをユーザに通知してもよい。

　以上、変形例１－２として、図６を参照して、本実施形態に係る情報処理システムが、コンテキスト情報に応じて音声の認識に関する処理を制御した場合に、当該制御結果（例えば、選択されたモード）をユーザに通知するための情報の提示態様の一例について説明した。

　　＜２．３．３．変形例１－３：その他の適用例＞
　続いて、変形例１－３として、本実施形態に係る情報処理システムの他の適用例について説明する。

　上述した実施形態及び変形例では、本実施形態に係る情報処理システムを、音声の認識に適用する例について説明した。一方で、音声の集音結果に基づく処理を、コンテキスト情報に応じて制御することが可能であれば、当該処理の内容は必ずしも当該音声の認識に係る処理のみには限定されない。

　例えば、本実施形態に係る情報処理システムを、集音された音声の録音（即ち、音声の記録）に適用してもよい。具体的な一例として、情報処理システムは、発話速度に応じて録音品質を制御してもよい。この場合には、例えば、情報処理システムは、発話速度が閾値よりも速い場合には、録音品質がより高くなるように制御してもよい。一方で、情報処理システムは、発話速度が閾値よりも遅い場合には、録音品質がより低くなるように制御してもよい。

　なお、上記に説明した実施形態や変形例では、主に、コンテキスト情報が示す状態や状況に応じて、音声認識処理や自然言語処理における探索範囲を制限する制御を抑制する例に着目して説明したが、必ずしも同制御のみには限定されない。即ち、本実施形態に係る情報処理システムは、コンテキスト情報が示す状態や状況に応じて、音声認識処理や自然言語処理における探索範囲がより制限されるように制御してもよい。具体的な一例として、情報処理システムは、認識精度がより高くなる傾向にある音声が対象であることをコンテキスト情報に基づき認識した場合には、音声認識処理や自然言語処理における探索範囲がより制限されるように制御することで、応答速度をより向上させてもよい。

　以上、変形例１－３として、本実施形態に係る情報処理システムの他の適用例について説明した。

　　＜２．４．評価＞
　以上説明したように、本実施形態に係る情報処理システムは、音声の集音に関する期間における各種状態や状況（例えば、発話の態様）に応じて、音声の認識に関する処理や、当該音声の認識結果の提示態様を動的に制御する。このような構成により、例えば、ユーザがある作業に集中しており、発話した音声の認識結果を確認することが困難な状況下では、音声の認識精度をより重視した制御に切り替えることが可能となる。そのため、当該ユーザは、認識結果の確認を意識せずに当該作業に集中することが可能となる。また、ユーザが特定の作業に注意力を注ぐ必要がなく、余裕をもって音声の認識結果を確認することが可能な状況下では、応答速度をより重視した制御に切り替えることが可能となる。そのため、当該ユーザは、自身が発話した音声の認識結果を速やかに確認することが可能となる。

　＜＜３．第２の実施形態＞＞
　　＜３．１．概要＞
　続いて、本開示の第２の実施形態に係る情報処理システムについて説明する。前述したように、近年では、ユーザが音声により各種情報を入力可能としたＵＩが普及してきている。また、当該ＵＩの適用先も、例えば、ゲーム上での情報入力や、動画配信機能への情報の入力等のように多岐にわたり、利用形態に応じて多様なＵＩが提供されている。このようなＵＩの具体的な一例として、例えば、ゲーム等において他のユーザとのコミュニケーションのために、音声により文字情報を入力可能とし、かつ当該音声による入力結果（即ち、音声が変換された文字情報）を修正可能に提示するＵＩも提供されている。例えば、図７は、本実施形態に係る情報処理システムの概要について説明するための説明図であり、音声により文字情報を入力可能としたＵＩの一例を示している。

　例えば、図７の左側の図に示す画面Ｖ２００ａは、ユーザが発話した音声を音声認識処理（音響解析）や自然言語処理（言語解析）に基づき文字情報に変換し、当該文字情報をユーザに提示するためのＵＩの一例を示している。例えば、画面Ｖ２００ａは、参照符号Ｖ２０１ａで示された出力フィールドに、音声が変換された文字情報を、例えば、キーボードやタッチパネル等の入力デバイスを介して一文字ずつ修正可能に提示している（即ち、一般的なテキスト入力と同様の方法により修正可能に提示している）。

　また、他の一例として、図７の右側の図に示す画面Ｖ２００ｂは、ユーザが発話した音声を文字情報に変換し、当該文字情報をユーザに提示するためのＵＩの他の一例を示している。画面Ｖ２００ｂは、参照符号Ｖ２０１ｂで示された出力フィールドに、音声が変換された文字情報を提示している。また、このとき画面Ｖ２００ｂは、例えば、音声認識処理により音声が変換された文字情報に対する形態素解析や構文解析の結果に基づき、まとまった単位の語句ごとに修正可能に提示している。

　ところで、ゲームのプレイや動画の視聴等のような作業を行いながら音声を入力するような状況下において、ユーザが、何らかの対象に注意を注いでいる場合には、当該ユーザは、音声の認識結果を修正している余裕が無い可能性も想定され得る。そのため、このような場合には、例えば、可能な限り修正操作を必要としない態様で、音声の認識結果を提示することが望ましい。一方で、音声の認識結果に対する修正を受け付けないＵＩや、修正操作が行われないことを前提とした結果のみを提示するＵＩにおいては、例えば、ユーザが、余裕をもって情報（例えば、音声）を入力できるような状況下では、任意の文章を入力しづらくなる場合も想定され得る。

　以上のような状況を鑑み、本実施形態に情報処理システムは、ユーザの状態や状況を認識し、当該認識結果に応じて当該ユーザが発話した音声の認識結果（例えば、音声が変換された文字情報）の提示態様を動的に制御することが可能なＵＩを提供する。

　例えば、図８は、本実施形態に係る情報処理システムが提供するＵＩの一例について説明するための説明図である。本実施形態に係る情報処理システムは、例えば、音声の認識結果の確認に係るユーザの注意力の度合いと、音声の認識結果の確度と、に応じて、当該音声の認識結果の提示態様を制御する。具体的な一例として、図８に示す例は、ユーザがゲームをプレイしながら音声により情報を入力する状況下において、ユーザのゲームへの注意力の度合い（換言すると、音声の認識結果の確認に係る注意力の度合い）に応じて、当該音声の認識結果の提示態様を制御する場合の一例を示している。

　なお、図８に示す例では、ユーザが、「ケルベロス強いからキュアかけてすぐ逃げて」と発話し、情報処理システムは、当該ユーザが発話した音声を、「蹴るベロス強いからきゅ亜かけてすぐ逃げて」と認識している。即ち、図８に示す例では、ユーザが発話した音声のうち、「ケルベロス」という語句と、「キュア」という語句の認識に係る確度が低いため、結果として当該語句について誤った認識結果が提示されることとなる。

　ここで、図８の左側の図に着目する。図８の左側の図に示す画面Ｖ２１０ａは、ユーザがほとんどゲームをプレイしておらず、余裕をもって音声の認識結果を確認することが可能な状況下で提示される画面（ＵＩ）の一例を示している。そのため、この場合には、情報処理システムは、「蹴るベロス強いからきゅ亜かけてすぐ逃げて」という、集音された音声の認識結果（即ち、音声が変換された文字情報）を、出力フィールドＶ２１１ａに提示している。

　次いで、図８の中央の図に着目する。図８の中央の図に示す画面Ｖ２１０ｂは、左側の図が示す状況に比べて、ユーザがゲームのプレイに注意を注いでいる状況下（例えば、ゲームに少し夢中になっている状況下）で提示される画面（ＵＩ）の一例を示している。このような場合には、例えば、情報処理システムは、発話された音声の認識結果のうち、確度のより低い「ケルベロス」及び「キュア」という語句を、当該語句の発音を示す文字情報（例えば、ひらがな）として提示している。

　次いで、図８の右側の図に着目する。図８の右側の図に示す画面Ｖ２１０ｂは、中央の図が示す状況に比べて、ユーザがさらにゲームのプレイに注意を注いでいる状況下（例えば、ゲームにより夢中になっている状況下）で提示される画面（ＵＩ）の一例を示している。このような場合には、例えば、情報処理システムは、発話された音声の認識結果のうち、確度のより低い「ケルベロス」及び「キュア」という語句のみに限らず、当該音声の認識結果全体を、当該音声の発音を示す文字情報として提示している。

　即ち、図８に示す例では、本実施形態に係る情報処理システムは、例えば、音声の認識結果の確認に係るユーザの注意力の度合いに応じて、音声の認識結果のうち、当該音声の認識に係る確度のより低い語句の提示態様を制御する。また、このとき情報処理システムは、提示態様を制御するための判定基準（例えば、確度と比較する閾値）を、当該注意力の度合いに応じて動的に制御する。

　このように、本実施形態に係る情報処理システムは、各種状態や状況を示すコンテキスト情報と、音声の認識に係る確度とに応じて、当該音声の認識結果のうち、少なくとも一部の語句の提示態様を動的に制御する。このような制御により、例えば、ユーザが、余裕をもって音声の認識結果を確認することが困難な状況においても、誤った変換結果（例えば、意味内容の異なる語句）が提示されることより、ユーザによる当該認識結果の理解が阻害されるといった事態の発生を防止することが可能となる。また、音声が変換された文字情報のうち少なくとも一部の語句を修正するような状況においても、誤った変換結果が提示されている状況下で対象となる語句を修正する場合に比べて、より容易に対象となる語句を修正することが可能となる。なお、音声の認識結果に基づき提示される情報（例えば、音声が変換された文字情報）は、「音声の集音に関連する出力情報」の一例に相当する。

　また、本実施形態に係る情報処理システムは、音声の集音環境の状態に応じて、当該音声の認識結果のうち少なくとも一部の語句の提示態様を制御してもよい。

　具体的な一例として、周囲の雑音の影響が大きい場合（例えば、雑音の音量が大きい場合）には、音声の認識に係る精度が低下し、結果として当該音声の認識に誤りが生じる場合がある。このような音声の認識時に生じる誤りは、当該音声の認識結果の修正を増やす要因ともなり得る。そのため、例えば、情報処理システムは、周囲の雑音の影響の大きさに応じて、音声の認識結果のうち少なくとも一部の語句（例えば、確度のより低い語句）を、当該語句の発音を示す文字情報として提示してもよい。もちろん、情報処理システムは、周囲の雑音の影響の大きい場合には、音声の認識結果全体を、当該音声の発音を示す文字情報として提示してもよい。

　以上、図７及び図８を参照して、本実施形態に係る情報処理システムの概要について説明した。なお、以降では、本実施形態に係る情報処理システムについてより詳しく説明する。

　　＜３．２．基本原理＞
　まず、本実施形態に係る情報処理システムが、各種状態や状況を示すコンテキスト情報と、音声の認識に係る確度とに応じて、音声の認識結果のうち、少なくとも一部の語句の提示態様を動的に制御するための仕組みについてより詳細に説明する。

　前述したように、本実施形態に係る情報処理システムは、音声の認識結果の確認に係るユーザの注意力の度合いに応じて、音声の認識に係る確度のより低い語句の提示態様を制御する。また、情報処理システムは、音声の集音環境の状態に応じて、当該音声の認識結果のうち少なくとも一部の語句の提示態様を制御してもよい。

　また、ユーザからの指示（以降では、「ユーザ制御」とも称する）に基づき、情報処理システムが、音声の認識結果の提示態様を意図的に制御するような状況も想定され得る。具体的な一例として、一般的に認知度の低い新語を発話するような状況下では、ユーザは、当該新語が誤変換されることを想定し、音声の認識結果として、当該音声の発音を示す文字情報としての提示を望む場合も想定され得る。このような状況を鑑み、情報処理システムは、ユーザ制御に基づき、音声の認識結果の提示態様を制御してもよい。

　以上を踏まえ、本実施形態に係る情報処理システムは、以下に（式１）として示される計算式に基づき係数ｔを算出し、当該係数ｔと、音声の認識に係る確度とを比較することで、当該音声の認識結果のうち少なくとも一部の語句の提示態様を制御する。

　上記に示した（式１）において、αは、音声の認識結果の確認に係るユーザの注意力の度合いに応じた変数を示している。また、βは、音声の集音環境の状態に応じた変数を示している。例えば、図９は、本実施形態に係る情報処理システムの動作の詳細について説明するための説明図であり、変数α及びβの特性の一例について示している。図９の左側の図は、変数αの特性を示すグラフである。変数αの特性を示すグラフにおいて、縦軸は、αの値を示し、横軸は、音声の認識結果の確認に係るユーザの注意力の度合いを示している。また、図９の右側の図は、変数βの特性を示すグラフである。変数βの特性を示すグラフにおいて、縦軸は、βの値を示し、横軸は、音声の集音環境における当該音声の集音を阻害する要因の影響の大きさを示している。図９に示すように、変数αは、音声の認識結果の確認に係るユーザの注意力が低いほど、より高い値を示す。また、変数βは、雑音の影響が大きい場合等のように、音声の集音を阻害する要因の影響が大きいほど、より高い値を示す。

　また、γは、ユーザ制御に応じた変数を示しており、ユーザからの指示がある場合には１を示し、ユーザからの指示が無い場合には０を示す。また、音声の認識に係る確度は、０．０～１．０の値を示すものとする。

　以上を踏まえ、本実施形態に係る情報処理システムは、音声の認識結果の確認に係るユーザの注意力の度合い、音声の集音環境の状態、及びユーザ制御の有無を認識し、当該認識結果に基づき係数ｔを算出する。そして、情報処理システムは、音声の認識結果に含まれる少なくとも一部の語句について、当該語句の認識に係る確度と、算出した係数ｔとを比較し、比較結果に応じて当該語句の提示態様を制御する。

　具体的な一例として、対象となる語句の認識に係る確度が「０．７」であるものとする。このとき、算出された係数ｔが「０．２」の場合には、情報処理システムは、対象となる語句を、音声認識処理や自然言語処理の結果に基づき、例えば、意味内容まで考慮した文字情報（例えば、日本語における漢字かな交じり文章）として提示する。一方で、算出された係数ｔが「０．９」の場合には、情報処理システムは、対象となる語句を、当該語句に対する音声認識処理や自然言語処理の結果とは異なる態様で提示する（即ち、当該語句の提示態様を制御する）。具体的な一例として、情報処理システムは、対象となる語句を、当該語句の発音を示す文字情報（例えば、日本語におけるひらがなの文章）として提示する。

　なお、（式１）に示すように、変数α、β、及びγはそれぞれが加算される。そのため、少なくともいずれかの変数が「１．０」であった場合には、他の変数の値に関わらず、算出される係数ｔは、対象となる語句の確度よりも大きい値を示すこととなる。即ち、この場合には、対象となる語句が、例えば、当該語句の発音を示す文字情報として提示されることとなる。

　なお、変数α及びβの特性は、情報処理システムの利用シーンやユースケースに応じて適宜変更してもよい。例えば、図１０は、本実施形態に係る情報処理システムの動作の詳細について説明するための説明図であり、変数α及びβの特性の他の一例について示している。図１０に示す例では、例えば、変数α及びβの加算結果が「１．０」を超えない範囲で、当該変数α及びβの特性が設定されている。即ち、図１０に示す例では、係数ｔは、変数α及びβの値のみでは「１．０」以上の値をとらず、ユーザ制御があった場合にのみ「１．０」以上の値をとり得ることとなる。

　以上、図９及び図１０を参照して、本実施形態に係る情報処理システムが、各種状態や状況を示すコンテキスト情報と、音声の認識に係る確度とに応じて、音声の認識結果のうち、少なくとも一部の語句の提示態様を動的に制御するための仕組みについて説明した。

　　＜３．３．処理＞
　続いて、図１１を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について説明する。図１１は、本実施形態に係る情報処理システムの一連の処理の流れの一例について示したフローチャートである。

　図１１に示すように、入出力装置３０（例えば、検知部３１３）は、音声の認識結果の確認に係るユーザの注意力の度合いを示すコンテキスト情報や、音声の集音環境の状態を示すコンテキスト情報を取得する。そして、入出力装置３０は、取得したコンテキスト情報を情報処理装置１０に送信する（Ｓ２０１）。また、入出力装置３０（集音部３１１）は、所定のイベント（例えば、ＰＴＴにおける発話のための操作等）を検知すると、ユーザが発話した音声を集音し、当該音声の集音結果に基づく音響信号を情報処理装置１０に送信する（Ｓ２０３）。

　情報処理装置１０（コンテキスト解析部１０９）は、入出力装置３０からコンテキスト情報を取得し、取得したコンテキスト情報を解析することで、音声の集音に関する期間における所定の状態や状況を認識する。具体的な一例として、情報処理装置１０は、取得したコンテキスト情報に基づき、音声の認識結果の確認に係るユーザの注意力の度合いや、音声の集音環境の状態を認識する。そして、情報処理装置１０は、各種状態や状況の認識結果に応じて、音声の認識結果の確度の判定に用いる閾値（即ち、（式１）として示した係数ｔ）を算出する（Ｓ２０５）。

　また、情報処理装置１０（出力制御部１１１）は、音声の集音結果に基づく音響信号に対する音声認識処理（音響解析）や自然言語処理（言語解析）の結果に基づき、当該音声から文字情報への変換に関する確度（即ち、音声の認識結果の確度）を取得する（Ｓ２０７）。

　そして、情報処理装置１０（出力制御部１１１）は、算出された閾値に基づき、音声が変換された文字情報に含まれる各語句の確度を判定し、当該判定結果に応じて当該語句の提示態様を制御する。具体的な一例として、情報処理装置１０は、確度が閾値よりも低い語句については、当該語句の認識結果として、当該語句の発音を示す文字情報が提示されるように、当該語句の提示態様を制御する（Ｓ２０９）。

　以上、図１１を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について説明した。

　　＜３．４．変形例＞
　続いて、本実施形態に係る情報処理システムの変形例について説明する。

　　＜３．４．１．変形例２－１：表示制御の一例＞
　まず、変形例２－１として、図１２を参照して、本実施形態に係る情報処理システムが、音声の認識結果のうち少なくとも一部の語句の提示態様を制御した場合における、当該認識結果の表示に係る制御の一例について説明する。図１２は、変形例２－１に係る情報処理システムの概要について説明するための説明図である。

　前述したように、本実施形態に係る情報処理システムは、例えば、音声の認識結果の確認に係るユーザの注意力の度合いや、当該音声の集音環境の状態に応じて、当該音声の認識結果のうち、少なくとも一部の語句の提示態様を制御する。そのため、このような場合意は、例えば、情報処理システムは、音声の認識結果を表示することでユーザに提示する際に、提示態様が制御された語句を強調表示することで、当該語句の提示態様が制御されていることをユーザに通知してもよい。

　例えば、参照符号Ｖ２１１ｄに示すように、情報処理システムは、提示態様の制御対象とした語句をダブルクォーテーションで括ることにより、当該語句を強調してもよい。また、他の一例として、参照符号Ｖ２１１ｅに示すように、情報処理システムは、提示態様の制御対象とした語句に下線を付すことで、当該語句を強調してもよい。また、他の一例として、参照符号Ｖ２１１ｆに示すように、情報処理システムは、提示態様の制御対象とした語句の文字の大きさ、太さ、色、または濃淡等を制御することで、当該語句を強調してもよい。また、他の一例として、参照符号Ｖ２１１ｇに示すように、情報処理システムは、提示態様の制御対象とした語句の前後に空白を挿入することで、当該語句を強調してもよい。

　以上のような制御により、ユーザは、提示された音声の認識結果のうち、提示態様の制御対象となった語句を、直感的に認識することが可能となる。なお、図１２に示した例はあくまで一例であり、提示態様の制御対象なった語句を強調することが可能であれば、その方法は特に限定されない。

　以上、変形例２－１として、図１２を参照して、本実施形態に係る情報処理システムが、音声の認識結果のうち少なくとも一部の語句の提示態様を制御した場合における、当該認識結果の表示に係る制御の一例について説明した。

　　＜３．４．２．変形例２－２：英語の音声を認識する場合の制御例＞
　続いて、変形例２－２として、図１３を参照して、本実施形態に係る情報処理システムが、英語で発話された音声を認識する場合の制御の一例について説明する。図１３は、変形例２－２に係る情報処理システムの概要について説明するための説明図である。

　英語は、日本語の場合における漢字とひらがなとを使い分けるといった概念が無い。そのため、英語の音声の認識結果を提示する場合には、日本語のように、漢字かな交じりの文章と、ひらがなの文章とを切り替えるような制御を行うことが困難である。

　そこで、変形例２－２に係る情報処理システムは、英語の音声の認識結果を提示する状況下において、当該認識結果に含まれる一部の語句について認識に係る確度が低い場合には、当該語句を原形や単数形で提示してもよい。

　例えば、図１３は、ユーザが、英語で「I　got　rare　items」と発話し、情報処理システムが発話された音声を認識した状況下において、認識された音声のうち、「items」という語句（単語）の認識に係る確度が低い場合の制御の一例について示している。この場合には、情報処理システムは、図１３に示すように、音声の認識に係る確度の低い「items」という語句の認識結果を、当該語句の原形（単数形）である「item」として提示している。

　また、このとき情報処理システムは、変形例２－１として説明した例と同様に、提示態様が制御された語句を強調表示することで、当該語句の提示態様が制御されていることをユーザに通知してもよい。

　以上、変形例２－２として、図１３を参照して、本実施形態に係る情報処理システムが、英語で発話された音声を認識する場合の制御の一例について説明した。

　　＜３．４．３．変形例２－３：その他の制御例＞
　続いて、変形例２－３として、音声の認識に係る確度の低い場合における制御の他の一例について説明する。

　前述したように、本実施形態に係る情報処理システムは、日本語の音声を集音し、かつ、当該音声の認識に係る確度が低い場合には、当該音声の認識結果を、ひらがな等のような当該音声の発音を示す文字情報として出力される。一方で、ひらがなのみで提示された文章を視覚的に認識する場合には、漢字かな交じりの文章を視覚的に認識する場合に比べて、その意味内容を理解しにくい傾向にある。

　このような状況を鑑み、変形例２－３に係る情報処理システムは、例えば、提示態様の制御に伴い、ひらがなで提示された語句がより多くなるような状況下では、音声の認識結果をＴＴＳ等の技術に基づき音声として出力してもよい。このような制御により、ユーザは、ひらがなで提示された文章を視覚的に認識する場合に比べて、音声の認識結果をより理解しやすくなる。

　より具体的な一例として、ユーザが、ネットワークを介して他のユーザとコミュニケーションをとるような状況に着目する。この場合には、情報処理システムは、ユーザが発話した音声の認識結果に基づき、当該音声が変換された文字情報が、ひらがなで提示された語句がより多く含むことを認識した場合には、当該文字情報を音声に変換してユーザに提示する。また、情報処理システムは、他のユーザの音声の認識結果を提示する場合においても、当該音声が変換された文字情報が、ひらがなで提示された語句がより多く含むことを認識した場合には、当該文字情報を音声に変換してユーザに提示してもよい。

　また、情報処理システムは、音声が変換された文字情報を音声に変換して出力する場合には、当該文字情報を音声に変換して出力したことを所定の報知情報に基づき報知してもよい。具体的な一例として、情報処理システムは、音声が変換された文字情報の提示態様（例えば、色、太さ、濃淡等）を制御することで、当該文字情報を音声に変換して出力していることをユーザに報知してもよい。

　以上、変形例２－３として、音声の認識に係る確度の低い場合における制御の他の一例について説明した。

　　＜３．５．評価＞
　以上説明したように、本実施形態に係る情報処理システムは、各種状態や状況を示すコンテキスト情報と、音声の認識に係る確度とに応じて、当該音声の認識結果のうち、少なくとも一部の語句の提示態様を動的に制御する。このような制御により、例えば、ユーザが、余裕をもって音声の認識結果を確認することが困難な状況においても、誤った変換結果（例えば、意味内容の異なる語句）が提示されることより、ユーザによる当該認識結果の理解が阻害されるといった事態の発生を防止することが可能となる。また、音声が変換された文字情報のうち少なくとも一部の語句を修正するような状況においても、誤った変換結果が提示されている状況下で対象となる語句を修正する場合に比べて、より容易に対象となる語句を修正することが可能となる。

　なお、本実施形態に係る情報処理システムは、前述した第１の実施形態に係る情報処理システムと組み合わせることも可能である。具体的な一例として、情報処理システムは、取得したコンテキスト情報が示す各種状態や状況に応じて、音声認識処理や自然言語処理に探索範囲と、音声の認識結果の提示態様とを制御してもよい。

　＜＜４．第３の実施形態＞＞
　　＜４．１．概要＞
　続いて、本開示の第３の実施形態に係る情報処理システムについて説明する。ユーザが発話した音声を認識するシステムでは、当該ユーザに対して音声の認識に係る処理の実行状況をフィードバックするためのＵＩを提供するものがある。具体的な一例として、マイクロフォン等の集音部に集音された音声（音響）の音量を測定し、当該音量の測定結果を、例えば、音量メータ等の表示情報としてリアルタイムで提示するＵＩが挙げられる。このようなＵＩが提供されることで、ユーザは、自身の発話した音声がシステムに認識されていることを直感的（視覚的）に認識することが可能となる。

　一方で、上述した集音部に集音された音声の音量の測定結果をユーザにフィードバックするＵＩは、例えば、周囲の環境音等のような雑音の影響が大きい状況においては、必ずしも有効に機能するとは限らない。具体的には、集音部による雑音が集音され、当該雑音の音量の測定結果がユーザにフィードバックされる場合があり、この場合には、ユーザは、当該フィードバックが自身の発話と周囲の雑音とのいずれの集音結果によるものかを判別することが困難となる。結果として、ユーザは、自身の発話した音声がシステムに認識されているか否かを判別することが困難となる。

　これに対して、例えば、音声の集音結果に対する認識処理の結果に基づき、音声が認識された場合にのみユーザに情報をフィードバックする方法が挙げられる。しかしながら、音声の認識処理は、一般的には処理量が多く処理に時間がかかる傾向にあり、ユーザが発話してから当該ユーザに情報をフィードバックするまでに時間を要する場合が少なくない。

　以上のような状況を鑑み、本実施形態に係る情報処理システムは、音声と雑音を識別し、音声が集音された場合に、ユーザに対してより早いタイミングで情報を報知することが可能なＵＩを提供する。例えば、図１４は、本実施形態に係る情報処理システムの概要について説明するための説明図である。

　図１４において、上段に比較例として示した例は、音声の集音結果に対する認識処理の結果に基づき、ユーザに対して情報をフィードバックする場合における、当該フィードバックのタイミングを模式的に示している。また、下段に実施例として示した例は、本実施形態に係る情報処理システムが、音声を集音した場合に、ユーザに対して情報をフィードバックするタイミングの一例を示している。

　まず、図１４に示す比較例に着目して説明する。情報処理システムが音声入力の取得（例えば、音声の集音）を開始し、ユーザが集音部に向けて発話を開始すると、当該ユーザにより発話された音声が当該情報処理システムに逐次集音される。比較例に係る情報処理システムは、集音された音声に対して認識処理を逐次実行し、少なくとも一部の音声について当該認識処理の結果を取得すると、当該認識処理の結果に基づく出力情報Ｖ３０１を、途中結果としてユーザに提示している。そして、当該情報処理システムは、集音された一連の音声に対する認識処理（例えば、音声認識処理や自然言語処理）が完了すると、当該各処理の結果に基づく出力情報Ｖ３０３を、最終結果としてユーザに提示する。このように、比較例に係る情報処理システムでは、ユーザが音声の発話を開始してから、当該ユーザに対して情報のフィードバックが行われるまでに、タイムラグが生じる場合がある。

　次いで、図１４に示す実施例に着目して説明する。本実施形態に係る情報処理システムは、ユーザが発話した音声の集音結果に基づく音響信号を取得すると、ＶＡＤ等の技術に基づき、当該音響信号に含まれる音声信号を検知（抽出）する。そして、当該情報処理システムは、取得した音響信号に含まれる音声信号を検知すると、報知情報Ｖ３０５をユーザに提示する。なお、以降については、実施例に係る情報処理システムは、比較例に係る情報処理システムと同様に、集音された音声に対して認識処理を逐次実行し、当該認識処理の実行結果に応じて出力情報Ｖ３０３を、途中結果としてユーザに提示する。また、実施例に係る情報処理システムは、集音された一連の音声に対する認識処理（例えば、音声認識処理や自然言語処理）が完了すると、当該各処理の結果に基づく出力情報Ｖ３０３を、最終結果としてユーザに提示する。

　上記に説明した通り、本実施形態に係る情報処理システムは、集音された音声に対する認識処理の結果に基づく出力情報Ｖ３０１が提示されるよりも早いタイミングで、報知情報Ｖ３０５をユーザに提示することが可能となる。また、報知情報Ｖ３０５は、集音された音響信号に含まれる音声信号の検知結果に基づきユーザに提示されるため、周囲の雑音のみが集音された場合には、報知情報Ｖ３０５はユーザに提示されない。このような構成により、本実施形態に係る情報処理システムは、音声と雑音を識別し、音声が集音された場合に、ユーザに対してより早いタイミングで情報を報知することが可能となる。

　以上、図１４を参照して、本実施形態に係る情報処理システムの概要について説明した。なお、以降では、本実施形態に係る情報処理システムについてより詳しく説明する。

　　＜４．２．処理＞
　続いて、図１５を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について説明する。図１５は、本実施形態に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。

　図１５に示すように、音声の集音が開始されると、情報処理装置１０は、入出力装置３０から集音部３１１による集音結果に基づく音響信号の取得を開始する（Ｓ３０１）。また、情報処理装置１０（音声検出部１０３）は、ＶＡＤ等の技術に基づき、入出力装置３０から取得した音響信号に含まれる音声信号を抽出することで、ユーザの発話を検知する（Ｓ３０３）。このように、情報処理装置１０は、入出力装置３０から逐次取得される音響信号からの音声信号の抽出に基づく、ユーザの発話の検知を逐次実行する（Ｓ３０５、ＮＯ）。

　そして、情報処理装置１０（出力制御部１１１）は、ユーザの発話を検知すると（Ｓ３０５、ＹＥＳ）、報知情報を入出力装置３０に提示させることで、ユーザに発話を検知したことを報知する（Ｓ３０７）。

　次いで、情報処理装置１０（音声認識処理部１０５）は、音響信号から抽出された音声信号に対して所謂音声認識処理を施すことで、当該音声信号を、音声の発音を示す文字情報に変換する。なお、情報処理装置１０（出力制御部１１１）は、当該音声認識処理の結果が取得されるまで、入出力装置３０に報知情報の提示を継続させてもよい（Ｓ３０９、ＮＯ）。

　そして、情報処理装置１０（出力制御部１１１）は、音声信号に対する音声認識処理の結果を取得すると、当該音声認識処理の結果に基づく情報（例えば、音声が変換されたも文字情報）を入出力装置３０に提示させる（Ｓ３１１）。また、情報処理装置１０（出力制御部１１１）は、当該音声認識処理の結果に対して自然言語処理を実行し、当該自然言語処理の結果に基づき、音声の認識結果を示す情報を入出力装置３０に提示させてもよい。

　以上、図１５を参照して、本実施形態に係る情報処理システムの一連の処理の流れの一例について説明した。

　　＜４．３．変形例＞
　続いて、本実施形態に係る情報処理システムの変形例について説明する。

　　＜４．３．１．変形例３－１：報知情報の一例＞
　まず、変形例３－１として、図１６を参照して、本実施形態に係る情報処理システムが、発話（音声）の検知結果に基づきユーザに提示する報知情報の一例について説明する。図１６は、変形例３－１に係る情報処理システムの概要について説明するための説明図であり、報知情報の一例について示している。

　（文言による状態の提示）
　例えば、情報処理システムは、発話を検知している状態と、発話を検知していない状態との各状態（以降では、「発話の検知状態」とも称する）を、文言の提示によりユーザに報知してもよい。例えば、図１６における参照符号Ｖ３１１ａ及びＶ３１３ａは、文言の提示により発話の検知状態を報知するための表示情報の一例を示している。なお、参照符号Ｖ３１１ａは、発話前の状態（即ち、発話を検知していない状態）を示している。また、参照符号Ｖ３１３ａは、発話中の状態（即ち、発話を検知した状態）を示している。この場合には、情報処理システムは、発話前の状態では「Waiting　your　speech」という文言を提示し、発話中の状態では「Recognizing　...」という文言を提示している。これにより、ユーザは、提示された文言に応じて、自身の発話が検知されているか否かを認識することが可能となる。

　（アイコンの変更による状態の提示）
　また、情報処理システムは、アイコン等の表示情報を変更することで、発話の検知状態をユーザに報知してもよい。例えば、図１６における参照符号Ｖ３１１ｂ及びＶ３１３ｂは、アイコン等の表示情報の変更により発話の検知状態を報知するための表示情報の一例を示している。なお、参照符号Ｖ３１１ｂは、発話前の状態を示している。また、参照符号Ｖ３１３ｂは、発話中の状態を示している。この場合には、情報処理システムは、発話前の状態ではマイクのアイコンを提示し、発話中の状態では当該マイクのアイコンを耳のイメージが付加されたアイコンに変更している。これにより、ユーザは、提示されたアイコンに応じて、自身の発話が検知されているか否かを認識することが可能となる。

　（アイコンの色による状態の提示）
　また、情報処理システムは、アイコン等の表示情報の色を変更することで、発話の検知状態をユーザに報知してもよい。例えば、図１６における参照符号Ｖ３１１ｃ及びＶ３１３ｃは、アイコン等の表示情報の色を変更することで発話の検知状態を報知するための表示情報の一例を示している。なお、参照符号Ｖ３１１ｃは、発話前の状態を示している。また、参照符号Ｖ３１３ｃは、発話中の状態を示している。この場合には、情報処理システムは、マイクのアイコンを、発話前の状態と発話前の状態との間で異なる色で提示している。これにより、ユーザは、提示されたアイコンの色に応じて、自身の発話が検知されているか否かを認識することが可能となる。

　（アニメーションによる状態の提示）
　また、情報処理システムは、アニメーション表示を利用することで、発話の検知状態をユーザに報知してもよい。例えば、図１６における参照符号Ｖ３１１ｄ及びＶ３１３ｄは、アニメーション表示により発話の検知状態を報知するための表示情報の一例を示している。なお、参照符号Ｖ３１１ｄは、発話前の状態を示している。また、参照符号Ｖ３１３ｄは、発話中の状態を示している。この場合には、情報処理システムは、発話を検知すると、マイクのアイコンに記号が吸い込まれるようなアニメーションを提示する。これにより、ユーザは、アニメーションの提示の有無に応じて、自身の発話が検知されているか否かを認識することが可能となる。

　なお、図１６を参照して上述した例はあくまで一例であり、発話の検知状態をユーザに報知することが可能であれば、その方法や、当該報知情報の報知に利用するデバイスの種別は特に限定されない。具体的な一例として、情報処理システムは、スピーカ等の音響出力部から効果音等の音響を出力することで、発話の検知状態をユーザに報知してもよい。また、他の一例として、情報処理システムは、ユーザが保持するデバイスのアクチュエータを駆動することで、振動により、発話の検知状態をユーザに報知してもよい。

　以上、変形例３－１として、図１６を参照して、本実施形態に係る情報処理システムが、発話（音声）の検知結果に基づきユーザに提示する報知情報の一例について説明した。

　　＜４．３．２．変形例３－２：音声の認識状態の提示例＞
　続いて、変形例３－２として、発話の検知状態に加えて、発話された音声の認識状態をユーザに提示する場合のＵＩの一例について説明する。

　例えば、図１７は、変形例３－２に係る情報処理システムが提供するＵＩの一例について説明するための説明図であり、発話の検知状態について報知した後に、音声の認識状態に応じて段階的に情報をユーザに提示する場合のＵＩの一例を示している。図１７に示す例では、情報処理システムは、音声信号に対する音響解析の過程で得られる音響モデルに基づき、報知情報を報知している。

　具体的には、情報処理システムは、音声信号に対して音響解析を施すことで、当該音声信号の音響モデルのデータを取得すると、当該音響モデルに基づく出力情報Ｖ３２１（例えば、音声の発音を示す情報）をユーザに提示する。なお、以降は、情報処理システムは、当該音響モデルのデータに基づく音声の認識結果を取得すると、当該認識結果に基づく出力情報Ｖ３２３を途中結果として逐次提示する。また、情報処理システムは、一連の音声に対する音声認識処理や自然言語処理が完了すると、当該各処理の結果に基づく出力情報Ｖ３２５を、最終結果としてユーザに提示する。

　また、比較的長い文章を示す音声を認識するような状況下では、上述した音響モデルに基づく出力情報Ｖ３２１の提示と、音声の認識結果に基づく出力情報Ｖ３２３の提示とを段階的に実行してもよい。例えば、図１８は、変形例３－２に係る情報処理システムが提供するＵＩの他の一例について説明するための説明図である。図１８に示す例では、ユーザが「Oh　I’m　going　to　join　the　party　tonight.」と発話し、情報処理システムが、当該ユーザが発話した音声の認識結果に基づき情報を提示する場合の一例を示している。

　まず、情報処理システムは、「Oh　I’m」という音声に対して音響解析を施すと、１段目の図に示すように、当該音響解析の結果として得られる音響モデルのデータに基づき、当該音声の発音を示す出力情報Ｖ３３１をユーザに提示する。また、情報処理システムは、当該音響モデルのデータに基づく音声の認識結果を取得すると、２段目の図に示すように、当該認識結果に基づき、既に提示した出力情報Ｖ３３１を、「Oh　I’m」という語句を示す出力情報Ｖ３３３に置き換えることで、当該出力情報Ｖ３３３を途中結果として提示する。

　次いで、情報処理システムは、続いて入力された「going　to　join」という音声に対して音響解析を施すと、３段目の図に示すように、当該音響解析の結果として得られる音響モデルのデータに基づき、既に提示した「Oh　I’m」という語句に続けて、当該音声の発音を示す出力情報Ｖ３３５をユーザに提示する。また、情報処理システムは、当該音響モデルのデータに基づく音声の認識結果を取得すると、４段目の図に示すように、当該認識結果に基づき、既に提示した出力情報Ｖ３３５を、「going　to　join」という語句を示す出力情報Ｖ３３７に置き換えることで、当該出力情報Ｖ３３７を途中結果として提示する。

　情報処理システムは、以上のような制御を、逐次入力される音声に基づき実行し、一連の音声に対する音声認識処理や自然言語処理が完了すると、当該各処理の結果に基づく出力情報Ｖ３２９を、最終結果としてユーザに提示する。例えば、図１８に示す例では、情報処理システムは、ユーザが発話した音声の認識結果として、「Oh　I’m　going　to　join　the　party　tonight.」という文章を示す出力情報Ｖ３２９を提示している。

　以上のように、変形例３－２に係る情報処理システムは、発話の検知結果に基づく報知情報を提示してから、発話された音声の認識結果に基づく出力情報が提示されるまでの間に、当該音声の音響モデルのデータに基づく出力情報を提示する。このような制御により、提示される出力情報が更新されない期間がより短くなるため、ユーザは、自身が発話した音声の認識に係る状態や状況を、より好適な態様で認識することが可能となる。

　以上、変形例３－２として、図１７及び図１８を参照して、発話の検知状態に加えて、発話された音声の認識状態をユーザに提示する場合のＵＩの一例について説明した。

　　＜４．４．評価＞
　以上説明したように、本実施形態に係る情報処理システムは、ＶＡＤ等の技術に基づき、音声の集音結果に基づく音響信号に含まれる音声信号を検知（抽出）し、当該検知結果に基づき報知情報をユーザに提示する。このような構成により、本実施形態に係る情報処理システムは、集音された音声に対する認識処理の結果に基づく出力情報が提示されるよりも早いタイミングで、報知情報をユーザに提示することが可能となる。また、当該報知情報は、集音された音響信号に含まれる音声信号の検知結果に基づきユーザに提示されるため、周囲の雑音のみが集音された場合には、当該報知情報はユーザに提示されない。このような構成により、本実施形態に係る情報処理システムは、音声と雑音を識別し、音声が集音された場合に、ユーザに対してより早いタイミングで情報を報知することが可能となる。

　なお、本実施形態に係る情報処理システムは、前述した第１及び第２の実施形態に係る情報処理システムと組み合わせることも可能である。具体的な一例として、情報処理システムは、音声の検知結果に基づき報知情報を報知し、当該音声に対して音声認識処理や自然言語処理を施す際に、取得したコンテキスト情報が示す各種状態や状況に応じて、探索範囲を制御してもよい。また、このとき情報処理システムは、音声の認識結果に基づき出力情報を提示する際に、取得したコンテキスト情報が示す各種状態や状況に応じて、当該出力情報の提示態様を制御してもよい。

　＜＜５．ハードウェア構成＞＞
　次に、図１９を参照しながら、前述した情報処理装置１０及び２０と、入出力装置３０とのように、本実施形態に係る情報処理システム１を構成する情報処理装置９００のハードウェア構成について、詳細に説明する。図１９は、本開示の一実施形態に係る情報処理システム１を構成する情報処理装置９００のハードウェア構成の一例を示す機能ブロック図である。

　本実施形態に係る情報処理システム１を構成する情報処理装置９００は、主に、ＣＰＵ９０１と、ＲＯＭ９０３と、ＲＡＭ９０５と、を備える。また、情報処理装置９００は、更に、ホストバス９０７と、ブリッジ９０９と、外部バス９１１と、インタフェース９１３と、入力装置９１５と、出力装置９１７と、ストレージ装置９１９と、ドライブ９２１と、接続ポート９２３と、通信装置９２５とを備える。

　ＣＰＵ９０１は、演算処理装置及び制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９又はリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置９００内の動作全般又はその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０５は、ＣＰＵ９０１が使用するプログラムや、プログラムの実行において適宜変化するパラメータ等を一次記憶する。これらはＣＰＵバス等の内部バスにより構成されるホストバス９０７により相互に接続されている。なお、図２を参照して前述した、音響解析部１０１、言語解析部１０７、コンテキスト解析部１０９、及び出力制御部１１１は、例えば、ＣＰＵ９０１により実現され得る。

　ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。また、外部バス９１１には、インタフェース９１３を介して、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３及び通信装置９２５が接続される。

　入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、レバー及びペダル等、ユーザが操作する操作手段である。また、入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール手段（いわゆる、リモコン）であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器９２９であってもよい。さらに、入力装置９１５は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などから構成されている。情報処理装置９００のユーザは、この入力装置９１５を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。なお、図４を参照して前述した入力部３１０は、例えば、入力装置９１５により実現され得る。

　出力装置９１７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で構成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９１７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト又はイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。なお、図６を参照して前述した出力部３３０は、例えば、出力装置９１７により実現され得る。

　ストレージ装置９１９は、情報処理装置９００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ等を格納する。

　ドライブ９２１は、記録媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体９２７に記録を書き込むことも可能である。リムーバブル記録媒体９２７は、例えば、ＤＶＤメディア、ＨＤ－ＤＶＤメディア又はＢｌｕ－ｒａｙ（登録商標）メディア等である。また、リムーバブル記録媒体９２７は、コンパクトフラッシュ（登録商標）（ＣＦ：ＣｏｍｐａｃｔＦｌａｓｈ）、フラッシュメモリ又はＳＤメモリカード（Ｓｅｃｕｒｅ　Ｄｉｇｉｔａｌ　ｍｅｍｏｒｙ　ｃａｒｄ）等であってもよい。また、リムーバブル記録媒体９２７は、例えば、非接触型ＩＣチップを搭載したＩＣカード（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ　ｃａｒｄ）又は電子機器等であってもよい。

　接続ポート９２３は、情報処理装置９００に直接接続するためのポートである。接続ポート９２３の一例として、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）ポート等がある。接続ポート９２３の別の例として、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）ポート等がある。この接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置９００は、外部接続機器９２９から直接各種のデータを取得したり、外部接続機器９２９に各種のデータを提供したりする。

　通信装置９２５は、例えば、通信網（ネットワーク）９３１に接続するための通信デバイス等で構成された通信インタフェースである。通信装置９２５は、例えば、有線若しくは無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード等である。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９２５は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置９２５に接続される通信網９３１は、有線又は無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信又は衛星通信等であってもよい。

　以上、本開示の実施形態に係る情報処理システム１を構成する情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。なお、図１９では図示しないが、本実施形態に係る情報処理システム１を構成する情報処理装置９００に対応する各種の構成を当然備える。

　なお、上述のような本実施形態に係る情報処理システム１を構成する情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。また、当該コンピュータプログラムを実行させるコンピュータの数は特に限定されない。例えば、当該コンピュータプログラムを、複数のコンピュータ（例えば、複数のサーバ等）が互いに連携して実行してもよい。なお、単数のコンピュータ、または、複数のコンピュータが連携するものを、「コンピュータシステム」とも称する。

　＜＜６．適用例＞＞
　続いて、本実施形態に係る情報処理システムの適用例について説明する。本開示の各実施形態に係る情報処理システムは、音声により情報を入力することが可能なシステムやデバイスに対して適用することが可能である。具体的な一例として、スマートフォン、タブレット端末、ＰＣ（Personal　Computer）等のような情報処理装置に対して、本実施形態に係る情報処理システムを適用することも可能である。この場合には、例えば、当該情報処理装置を、前述した入出力装置３０として構成してもよいし、入出力装置３０及び情報処理装置１０が一体的に構成された装置として構成してもよい。

　また、他の一例として、所謂カーナビゲーションシステム等のような車載システムに対して、本実施形態に係る情報処理システムが適用されてもよい。また、所謂スマート家電に対して、本実施形態に係る情報処理システムが適用されてもよい。

　また、上述した適用例はあくまで一例であり、音声により情報を入力することが可能なシステムやデバイスであれば、本実施形態に係る情報処理システムの適用先は特に限定されない。

　以上、本実施形態に係る情報処理システムの適用例について説明した。

　＜＜７．むすび＞＞

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　音声の集音に関する期間におけるコンテキスト情報を取得する取得部と、
　取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させる制御部と、
　を備える、情報処理装置。
（２）
　前記制御部は、前記コンテキスト情報に応じて実行される、当該音声を入力とした処理の種別に応じた態様で、報知情報を前記出力情報として前記出力部に報知させる、前記（１）に記載の情報処理装置。
（３）
　前記制御部は、前記コンテキスト情報に応じて、集音された前記音声を文字情報に変換するための探索範囲を制御する、前記（２）に記載の情報処理装置。
（４）
　前記制御部は、前記コンテキスト情報に応じて、集音された前記音声の録音に係るパラメータを制御する、前記（２）に記載の情報処理装置。
（５）
　前記取得部は、集音された前記音声に対する音声認識処理の確度に関する確度情報を取得し、
　前記制御部は、集音された前記音声に対応する前記コンテキスト情報と、当該音声に対応する前記確度情報とに応じた態様で、当該音声が変換された文字情報を前記出力情報として前記出力部に出力させる、
　前記（１）に記載の情報処理装置。
（６）
　前記制御部は、
　前記音声が変換された１以上の前記文字情報それぞれを、当該文字情報に対応する確度情報と閾値との比較結果に基づく態様で前記出力部に出力させ、
　前記コンテキスト情報に基づき、前記閾値を制御する、
　前記（５）に記載の情報処理装置。
（７）
　前記制御部は、前記音声が変換された１以上の前記文字情報のうち前記確度情報が前記閾値以下の当該文字情報を、対応する音声の発音を示す文字情報として前記出力部に出力させる、前記（６）に記載の情報処理装置。
（８）
　前記制御部は、前記音声が変換された１以上の前記文字情報のうち前記確度情報が前記閾値以下の当該文字情報を、原形または単数形の文字情報として前記出力部に出力させる、前記（６）に記載の情報処理装置。
（９）
　前記制御部は、前記音声が変換された１以上の前記文字情報のうち少なくとも一部の当該文字情報の前記確度情報が前記閾値以下の場合には、前記１以上の文字情報を音声に変換し、当該音声を前記出力部に出力させる、前記（６）に記載の情報処理装置。
（１０）
　前記コンテキスト情報は、前記音声が変換された前記文字情報の確認に係るユーザの注意力の度合いに関する情報を含み、
　前記制御部は、前記注意力がより低いほど前記閾値がより高くなるように制御する、
　前記（６）に記載の情報処理装置。
（１１）
　前記制御部は、前記注意力が閾値より低い場合に、前記文字情報を音声として所定の出力部に出力させる、前記（１０）に記載の情報処理装置。
（１２）
　前記制御部は、前記音声が変換された１以上の前記文字情報のうち、所定の態様で提示する少なくとも一部の前記文字情報を、当該所定の態様とは異なる態様で提示する前記文字情報と識別可能に提示する、前記（５）～（１１）のいずれか一項に記載の情報処理装置。
（１３）
　前記コンテキスト情報は、前記音声が集音される環境の状態に関する情報を含む、前記（１）～（１２）のいずれか一項に記載の情報処理装置。
（１４）
　前記コンテキスト情報は、入力情報の状態または当該入力情報の入力状況に関する情報を含む、前記（１）～（１３）のいずれか一項に記載の情報処理装置。
（１５）
　前記コンテキスト情報は、前記音声の発話の態様に関する情報を含む、前記（１）～（１４）のいずれか一項に記載の情報処理装置。
（１６）
　前記コンテキスト情報は、前記音声を発話したユーザの状態に関する情報を含む、前記（１）～（１５）のいずれか一項に記載の情報処理装置。
（１７）
　前記取得部は、集音された音響に含まれる前記音声の検知結果を取得し、
　前記制御部は、少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させ、当該報知情報の報知後に、前記出力情報を出力させる、
　前記（１）～（１６）のいずれか一項に記載の情報処理装置。
（１８）
　所定の取得部により取得された音声の集音に関する期間におけるコンテキスト情報を外部装置に送信する送信部と、
　外部装置から送信される前記音声の集音に関連する出力情報を、前記コンテキスト情報に応じた態様で提示する出力部と、
　を備える、情報処理装置。
（１９）
　コンピュータシステムが、
　音声の集音に関する期間におけるコンテキスト情報を取得することと、
　取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させることと、
　を含む、情報処理方法。
（２０）
　コンピュータシステムが、
　所定の取得部により取得された音声の集音に関する期間におけるコンテキスト情報を外部装置に送信することと、
　外部装置から送信される前記音声の集音に関連する出力情報を、前記コンテキスト情報に応じた態様で提示することと、
　を含む、情報処理方法。
（２１）
　集音された音響に含まれる音声の検知結果を取得する取得部と、
　少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させる制御部と、
　を備える、情報処理装置。
（２２）
　前記取得部は、前記音声の検知結果の取得後に、当該音声に対する音声認識処理の結果に基づく情報として第１の文字情報を取得し、
　前記制御部は、前記第１の文字情報に対する自然言語処理の結果に基づく第２の文字情報の提示前に、当該第１の文字情報を所定の出力部に出力させる、
　前記（２１）に記載の情報処理装置。
（２３）
　所定の集音部による音響の集音結果を外部装置に送信する送信部と、
　少なくとも外部装置から送信される、前記音響に含まれる音声に対する音声認識処理の結果に基づく情報の提示前に、前記音響に含まれる音声の検知結果に応じた制御に基づき、報知情報を報知する出力部と、
　を備える、情報処理装置。
（２４）
　コンピュータシステムが、
　集音された音響に含まれる音声の検知結果を取得することと、
　少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させることと、
　を含む、情報処理方法。
（２５）
　コンピュータシステムが、
　所定の集音部による音響の集音結果を外部装置に送信することと、
　前記音響に含まれる音声の検知結果に基づき、少なくとも外部装置から送信される前記音声に対する音声認識処理の結果に基づく情報の提示前に、報知情報を報知することと、
　を含む、情報処理方法。

　１　　　情報処理システム
　１０　　情報処理装置
　１０１　音響解析部
　１０３　音声検出部
　１０５　音声認識処理部
　１０７　言語解析部
　１０９　コンテキスト解析部
　１１１　出力制御部
　３０　　入出力装置
　３１０　入力部
　３１１　集音部
　３１３　検知部
　３１５　操作部
　３３０　出力部
　３３１　表示部
　３３３　音響出力部

Claims

　音声の集音に関する期間におけるコンテキスト情報を取得する取得部と、
　取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させる制御部と、
　を備える、情報処理装置。
　前記制御部は、前記コンテキスト情報に応じて実行される、当該音声を入力とした処理の種別に応じた態様で、報知情報を前記出力情報として前記出力部に報知させる、請求項１に記載の情報処理装置。
　前記制御部は、前記コンテキスト情報に応じて、集音された前記音声を文字情報に変換するための探索範囲を制御する、請求項２に記載の情報処理装置。
　前記制御部は、前記コンテキスト情報に応じて、集音された前記音声の録音に係るパラメータを制御する、請求項２に記載の情報処理装置。
　前記取得部は、集音された前記音声に対する音声認識処理の確度に関する確度情報を取得し、
　前記制御部は、集音された前記音声に対応する前記コンテキスト情報と、当該音声に対応する前記確度情報とに応じた態様で、当該音声が変換された文字情報を前記出力情報として前記出力部に出力させる、
　請求項１に記載の情報処理装置。
　前記制御部は、
　前記音声が変換された１以上の前記文字情報それぞれを、当該文字情報に対応する確度情報と閾値との比較結果に基づく態様で前記出力部に出力させ、
　前記コンテキスト情報に基づき、前記閾値を制御する、
　請求項５に記載の情報処理装置。
　前記制御部は、前記音声が変換された１以上の前記文字情報のうち前記確度情報が前記閾値以下の当該文字情報を、対応する音声の発音を示す文字情報として前記出力部に出力させる、請求項６に記載の情報処理装置。
　前記制御部は、前記音声が変換された１以上の前記文字情報のうち前記確度情報が前記閾値以下の当該文字情報を、原形または単数形の文字情報として前記出力部に出力させる、請求項６に記載の情報処理装置。
　前記コンテキスト情報は、前記音声が変換された前記文字情報の確認に係るユーザの注意力の度合いに関する情報を含み、
　前記制御部は、前記注意力がより低いほど前記閾値がより高くなるように制御する、
　請求項６に記載の情報処理装置。
　前記制御部は、前記注意力が閾値より低い場合に、前記文字情報を音声として所定の出力部に出力させる、請求項９に記載の情報処理装置。
　前記制御部は、前記音声が変換された１以上の前記文字情報のうち、所定の態様で提示する少なくとも一部の前記文字情報を、当該所定の態様とは異なる態様で提示する前記文字情報と識別可能に提示する、請求項５に記載の情報処理装置。
　前記コンテキスト情報は、前記音声が集音される環境の状態に関する情報を含む、請求項１に記載の情報処理装置。
　前記取得部は、集音された音響に含まれる前記音声の検知結果を取得し、
　前記制御部は、少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させ、当該報知情報の報知後に、前記出力情報を出力させる、
　請求項１に記載の情報処理装置。
　所定の取得部により取得された音声の集音に関する期間におけるコンテキスト情報を外部装置に送信する送信部と、
　外部装置から送信される前記音声の集音に関連する出力情報を、前記コンテキスト情報に応じた態様で提示する出力部と、
　を備える、情報処理装置。
　コンピュータシステムが、
　音声の集音に関する期間におけるコンテキスト情報を取得することと、
　取得された前記コンテキスト情報に応じた態様で、前記音声の集音に関連する出力情報を所定の出力部に出力させることと、
　を含む、情報処理方法。
　コンピュータシステムが、
　所定の取得部により取得された音声の集音に関する期間におけるコンテキスト情報を外部装置に送信することと、
　外部装置から送信される前記音声の集音に関連する出力情報を、前記コンテキスト情報に応じた態様で提示することと、
　を含む、情報処理方法。
　集音された音響に含まれる音声の検知結果を取得する取得部と、
　少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させる制御部と、
　を備える、情報処理装置。
　所定の集音部による音響の集音結果を外部装置に送信する送信部と、
　少なくとも外部装置から送信される、前記音響に含まれる音声に対する音声認識処理の結果に基づく情報の提示前に、前記音響に含まれる音声の検知結果に応じた制御に基づき、報知情報を報知する出力部と、
　を備える、情報処理装置。
　コンピュータシステムが、
　集音された音響に含まれる音声の検知結果を取得することと、
　少なくとも前記音声に対する音声認識処理の結果に基づく情報の提示前に、当該音声の前記検知結果に基づき、所定の出力部に報知情報を報知させることと、
　を含む、情報処理方法。
　コンピュータシステムが、
　所定の集音部による音響の集音結果を外部装置に送信することと、
　前記音響に含まれる音声の検知結果に基づき、少なくとも外部装置から送信される前記音声に対する音声認識処理の結果に基づく情報の提示前に、報知情報を報知することと、
　を含む、情報処理方法。