JPWO2017179335A1

JPWO2017179335A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JPWO2017179335A1
Application number: JP2018511925A
Authority: JP
Inventors: 康之古賀
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-04-11
Filing date: 2017-03-06
Publication date: 2019-02-14
Anticipated expiration: 2037-03-06
Also published as: EP3444808A4; KR20180134337A; JP6930531B2; WO2017179335A1; EP3444808A1; US20210193133A1

Abstract

【課題】音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能な仕組みを提供する。【解決手段】音声入力により得られる音声情報を得る取得部と、音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、を備える情報処理装置。ならびに情報処理方法およびプログラム。【選択図】図２

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。

近年、ユーザと装置とのインタラクションを円滑にするための入力技術が研究開発されている。そのような入力技術として音声入力技術がある。音声入力技術では概して、ユーザにより発せられた音声について生成される音声情報を解析することにより音声を認識する音声認識処理が行われる。

音声認識処理では概して、音声情報の解析により文字情報が生成され、生成された文字情報が辞書情報の有する文字情報と一致するかまたは類似するかを判定することにより、音声が認識される。そのため、辞書情報の有する文字情報の量に応じて音声認識の性能が変動してしまう。例えば、概して、文字情報の量が多いほど、音声が認識される可能性は高くなるが、誤認識のおそれも高くなる。また、概して、文字情報の量が少ないほど、音声が認識される可能性は低くなるが、誤認識のおそれも低くなる。

これに対し、特許文献１では、入力される画像情報および音声情報に基づいてユーザの位置の推定およびユーザの識別についての処理を行い、処理結果に基づいて選択される小語彙辞書または大語彙辞書のいずれかを用いて音声認識処理を行う情報処理装置に係る発明が開示されている。これにより、音声認識の誤りの抑制および精度の向上が可能となると考えられている。

特開２０１３−２５７４１８号公報

しかし、特許文献１で開示される発明では、認識性能の向上と処理時間の短縮とがトレードオフとなる。例えば、選択される辞書情報が小語彙辞書である場合、選択される辞書情報が大語彙辞書である場合と比べて、ユーザの発する音声に対応する文字情報が辞書情報に含まれていないおそれが高い。すなわち、音声認識は失敗しやすく、認識率が低下しかねない。反対に、選択される辞書情報が大語彙辞書である場合、選択される辞書情報が小語彙辞書である場合と比べて、ユーザの発する音声に対応する文字情報が辞書情報に含まれている可能性は高いが、文字情報の数が多いため処理時間が遅くなる。すなわち、音声認識の結果が出るまでに時間がかかり、ユーザへのレスポンスが悪化しかねない。また、単純に文字情報が増えると、上述したように誤認識のおそれも高くなる。

そこで、本開示では、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能な仕組みを提案する。

本開示によれば、音声入力により得られる音声情報を得る取得部と、音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、を備える情報処理装置が提供される。

また、本開示によれば、プロセッサを用いて、音声入力により得られる音声情報を得ることと、音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御することと、を含む情報処理方法が提供される。

また、本開示によれば、音声入力により得られる音声情報を得る取得機能と、音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御機能と、をコンピュータに実現させるためのプログラムが提供される。

以上説明したように本開示によれば、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の第１の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。同実施形態に係る情報処理装置における対応関係の入れ替えについて説明するための図である。同実施形態に係る情報処理装置における使用辞書の変更について説明するための図である。同実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。同実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。同実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。同実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。本開示の第２の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。同実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。同実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。同実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。同実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。本開示の一実施形態に係る情報処理装置のハードウェア構成を示した説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、説明の便宜上、第１および第２の実施形態に係る情報処理装置１００を、情報処理装置１００−１および情報処理装置１００−２のように、末尾に実施形態に対応する番号を付することにより区別する。

なお、説明は以下の順序で行うものとする。
１．第１の実施形態（音声入力操作の客体情報に基づく音声認識辞書の変更）
１−１．システムの構成
１−２．システムの処理
１−３．第１の実施形態のまとめ
１−４．変形例
２．第２の実施形態（音声入力操作の主体情報に基づく音声認識辞書の変更）
２−１．システムの構成
２−２．システムの処理
２−３．第２の実施形態のまとめ
２−４．変形例
３．本開示の一実施形態に係る情報処理装置のハードウェア構成
４．むすび

＜１．第１の実施形態（音声入力操作の客体情報に基づく音声認識辞書の変更）＞
まず、本開示の第１の実施形態について説明する。第１の実施形態では、情報処理システムは、音声入力操作の客体情報に基づいて音声認識辞書の変更を制御する。

＜１−１．システムの構成＞
図１を参照して、本実施形態に係る情報処理システムの機能構成について説明する。図１は、本開示の第１の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。

図１に示したように、本実施形態に係る情報処理システムは、情報処理装置１００−１およびサーバ２００を備える。

（情報処理装置）
情報処理装置１００−１は、音声入力部１０２、音声認識部１０４、記憶部１０６、制御部１０８および通信部１１０を備える。

（音声入力部）
音声入力部１０２は、取得部として、音声情報を取得する。具体的には、音声入力部１０２は、情報処理装置１００−１の周辺に存在するユーザにより音声が発せられると、発せられた音声について得られる信号に係る音声信号情報を生成する。なお、音声入力部１０２は、音声信号情報を生成する代わりに、通信を介して外部の音声入力装置で生成された音声信号情報を取得してもよい。

（音声認識部）
音声認識部１０４は、音声情報に基づいて音声認識処理を行う。具体的には、音声認識部１０４は、音声情報と当該音声情報に基づく処理（以下、後続処理とも称する。）との対応関係および音声入力部１０２から提供される音声情報に基づいて後続処理を決定する。例えば、音声認識部１０４は、音声入力部１０２から音声信号情報が提供されると、当該音声信号情報から文字情報を生成する。そして、音声認識部１０４は、文字情報と後続処理との対応関係の集合（以下、辞書とも称する。）において、生成された文字情報と一致しまたは類似する（以下、マッチする、とも称する。）文字情報の有無を判定する。生成された文字情報とマッチする文字情報が存在すると判定されると、音声認識部１０４は、マッチした文字情報に対応する後続処理を制御部１０８に通知する。

なお、辞書は記憶部１０６に記憶され、音声認識処理に用いられる辞書（以下、使用辞書とも称する。）は制御部１０８により指定されるかまたは固定である。また、辞書は、文字情報と後続処理との対応関係の集合である例を説明したが、音声信号情報と後続処理との対応関係の集合であってもよい。

（記憶部）
記憶部１０６は、音声認識処理で用いられる情報を記憶する。具体的には、記憶部１０６は、辞書を記憶する。例えば、記憶部１０６は、複数の辞書を記憶し、音声認識部１０４に辞書を提供する。なお、記憶部１０６は、辞書単位とは別に個々の対応関係を記憶してもよい。

（制御部）
制御部１０８は、情報処理装置１００−１の動作を全体的に制御する。具体的には、制御部１０８は、音声認識処理を制御する。より具体的には、制御部１０８は、音声認識処理で用いられる辞書を制御する。

使用辞書の制御として、制御部１０８は、使用辞書の内容を制御する。具体的には、制御部１０８は、音声入力を用いた操作の客体情報に基づいて、使用辞書の少なくとも一部の変更を制御する。例えば、制御部１０８は、音声入力操作の客体情報から推定される、音声入力操作についての音声認識処理おける対応関係についての使用情報、に基づいて決定される対応関係を使用辞書において入れ替える。さらに、図２を参照して、対応関係の入れ替えについて詳細に説明する。図２は、本実施形態に係る情報処理装置１００−１における対応関係の入れ替えについて説明するための図である。

制御部１０８は、音声入力操作の客体情報から推定される、音声認識処理における使用頻度に基づいて入れ替え対象の対応関係を決定する。具体的には、制御部１０８は、使用辞書の有する対応関係のうちの抜き出す対応関係を上記使用頻度に基づいて決定する。また、制御部１０８は、使用辞書に追加する対応関係を上記使用頻度に基づいて決定する。より具体的には、制御部１０８は、音声入力操作の客体情報に基づいて使用頻度が使用辞書のうちで相対的に低いと推定される対応関係を使用辞書が有する対応関係の中から決定する。また、制御部１０８は、音声入力操作の客体情報に基づいて使用頻度が抜き出される対応関係よりも高いと推定される対応関係を記憶部１０６の記憶する対応関係の中から決定する。例えば、制御部１０８は、図２に示した使用辞書における対応関係２および対応関係３を抜き出し対象として決定する。また、制御部１０８は、図２に示した対応関係５および対応関係６を追加対象として決定する。なお、追加対象の対応関係は外部装置に記憶されていてもよい。この場合、通信を介して追加対象の対応関係が取得される。

次に、制御部１０８は、決定された対応関係を入れ替える。例えば、制御部１０８は、図２に示したように、抜き出し対象として決定された対応関係２および対応関係３と、追加対象として決定された対応関係５および対応関係６とを使用辞書において入れ替える。なお、抜き出し対象の対応関係の数と追加対象の対応関係の数は異なってもよい。

ここで、音声入力操作の客体情報は、当該音声入力操作の客体について取得される情報に基づいて推定される情報である。当該音声入力操作の客体情報としては、操作対象が特定される情報がある。当該操作対象としては、起動中のアプリケーションがある。例えば、制御部１０８は、起動中のアプリケーションが特定される情報を取得し、取得された情報から特定されるアプリケーションの操作において用いられる頻度が相対的に高い当該アプリケーションの操作についてのワード（以下、操作ワードとも称する。）に係る対応関係を使用辞書へ追加する。詳細には、ニュースを配信するアプリケーションについては、「ブックマーク」または「詳しく教えて」などのワードに係る対応関係が使用辞書へ追加される。音楽再生アプリケーションについては、「一時停止」または「次の曲」などのワードに係る対応関係が使用辞書へ追加される。通話アプリケーションについては、「受話」または「拒否」などのワードに係る対応関係が使用辞書へ追加される。撮影アプリケーションについては、「録画開始」または「録画停止」などのワードに係る対応関係が使用辞書へ追加される。

また、当該操作対象としては、情報処理装置１００−１に接続されている機器がある。例えば、制御部１０８は、当該接続されている外部機器１０が特定される情報を取得し、取得された情報から特定された外部機器１０の操作に用いられる頻度が相対的に高い当該外部機器１０の操作ワードに係る対応関係を使用辞書へ追加する。詳細には、家屋に設置されるテレビジョンについては「番組を変えて」、エアーコンディショナについては「２３度」、オーディオ機器については「音楽止めて」などのワードに係る対応関係が使用辞書へ追加される。また、車両内に設置されるカーナビゲーションについては「道順を教えて」、車両の窓を制御する装置については「窓を開けて」などのワードに係る対応関係が使用辞書へ追加される。

また、音声入力操作の客体情報としては、操作対象の属性が特定される情報がある。操作対象の属性としては、アプリケーションもしくは外部機器１０の種類、設置場所、所有者または他の任意のグループなどがある。例えば、制御部１０８は、アプリケーションの種類がコンテンツ再生アプリケーションである場合には、「再生開始」または「再生終了」などのワードに係る対応関係を使用辞書へ追加する。なお、同じ属性を有する複数の操作対象についてのワードに係る対応関係の和集合が使用辞書へ追加されてもよい。

なお、使用辞書へ追加される対応関係は、音声入力操作の客体情報に基づいて決定される対応関係のうちの一部であってもよい。例えば、追加される対応関係または追加される対応関係を選択するための指標が、ユーザにより設定されてもよい。制御部１０８は、設定される対応関係を追加対象の対応関係として選択し、または設定される指標に基づいて追加対象の対応関係を絞り込む。なお、ユーザによる設定の際に、音声入力操作の客体情報に基づいて決定される対応関係の一覧がユーザに提示されてもよい。

また、上記では、操作ワードに係る対応関係が追加される例を説明したが、アプリケーションまたは機器の起動についてのワード（以下、起動ワードとも称する。）に係る対応関係が追加されてもよい。例えば、テレビジョンが新たに接続された場合には、「テレビジョンをつけて」というワードに係る対応関係が使用辞書に追加される。なお、起動ワードと操作ワードとで別個に使用辞書が設けられてもよい。

また、複数の客体情報に基づいて使用辞書が変更されてもよい。例えば、制御部１０８は、複数のアプリケーションが起動されている場合には、当該複数のアプリケーションについて使用辞書を変更してよい。また、制御部１０８は、アプリケーションが起動され、機器が情報処理装置１００−１に接続されている場合、当該アプリケーションおよび当該機器について使用辞書を変更してよい。また、制御部１０８は、複数の客体情報のうちの一部の客体情報についてのみ使用辞書を変更してもよい。例えば、制御部１０８は、優先度が他の客体情報よりも高い客体情報についてのみ使用辞書を変更してよい。

また、制御部１０８は、音声入力操作の客体情報から推定される、音声認識処理における使用可否に基づいて入れ替え対象の対応関係を決定してよい。具体的には、制御部１０８は、使用辞書の有する対応関係のうちの抜き出す対応関係を上記使用可否に基づいて決定する。また、制御部１０８は、使用辞書に追加する対応関係を上記使用可否に基づいて決定する。より具体的には、制御部１０８は、音声入力操作の客体情報に基づいて当該音声入力操作についての音声認識処理において使用が許可されない対応関係が使用辞書に含まれているかを判定する。当該使用が許可されない対応関係が使用辞書に含まれていると判定されると、制御部１０８は、当該使用が許可されない対応関係を、当該音声入力操作についての音声認識処理において使用が許可される対応関係に入れ替える。

別の使用辞書の制御として、制御部１０８は、使用辞書を辞書単位で制御する。具体的には、制御部１０８は、音声入力を用いた操作の客体情報に基づいて、使用辞書の変更を制御する。例えば、制御部１０８は、音声入力操作の客体情報に対応する辞書へ使用辞書を変更する。さらに、図３を参照して、使用辞書の変更について詳細に説明する。図３は、本実施形態に係る情報処理装置１００−１における使用辞書の変更について説明するための図である。

制御部１０８は、音声入力操作の客体情報に対応する辞書を選択する。例えば、制御部１０８は、音声入力操作の客体情報に対応する辞書を記憶部１０６に記憶される複数の辞書から選択する。なお、選択される辞書のサイズすなわち辞書が有する対応関係の量は、使用辞書と異なってよい。図３に示したように、使用辞書のサイズがｎであるの対し、選択された辞書のサイズはｍであってよい。

次に、制御部１０８は、選択された辞書を使用辞書に決定する。例えば、制御部１０８は、選択された辞書を使用辞書として指定する。なお、使用辞書の内容が選択された辞書の内容に書き換えられるとしてもよい。

さらに、制御部１０８は、音声認識処理の実行主体を制御してよい。具体的には、制御部１０８は、情報処理装置１００−１およびサーバ２００の少なくとも一方に音声認識処理を実行させる。例えば、制御部１０８は、音声入力部１０２から音声情報が音声認識部１０４へ提供されると、音声認識部１０４およびサーバ２００の両方に音声認識処理を実行させる。

また、制御部１０８は、情報処理装置１００−１の通信可否に基づいて音声認識処理の実行主体を決定してもよい。例えば、制御部１０８は、サーバ２００との通信が困難である場合には、音声認識部１０４にのみ音声認識処理を実行させる。また、制御部１０８は、サーバ２００との通信が可能である場合には、音声認識部１０４およびサーバ２００の両方またはサーバ２００のみに音声認識処理を実行させる。

また、制御部１０８は、音声認識部１０４およびサーバ２００の両方に音声認識処理を実行させる場合には、それぞれの処理結果についての調停処理を行う。具体的には、制御部１０８は、音声認識部１０４およびサーバ２００の音声認識結果の各々についての評価に基づいていずれか一方の音声認識結果を採用する。例えば、制御部１０８は、音声認識部１０４の認識精度が閾値未満である場合、サーバ２００の音声認識結果が受信されるまで待機する。また、制御部１０８は、音声認識部１０４の認識精度が閾値以上である場合、サーバ２００の音声認識結果の受信を待たずに、音声認識部１０４の音声認識結果を用いて後続処理を実行する。

（通信部）
通信部１１０は、サーバ２００および外部機器１０と通信する。具体的には、通信部１１０は、サーバ２００へ辞書提供要求ならびに音声認識要求および音声情報を送信し、サーバ２００から辞書および音声認識結果を受信する。また、通信部１１０は、外部機器１０へ動作要求および辞書提供要求を送信し、外部機器１０から辞書を受信する。例えば、通信部１１０は、操作対象となり得る外部機器１０の各々へ辞書提供要求をブロードキャスト方式で送信し、操作を許可する外部機器１０の各々から辞書を受信する。なお、外部機器１０についての辞書が情報処理装置１００−１の記憶部１０６に記憶されている場合には、外部機器１０への辞書提供要求の送信が行われない。また、外部機器１０についての辞書がサーバ２００に記憶されている場合には、サーバ２００へ辞書提供要求が送信されるかまたはサーバ２００に音声認識処理が実行させられる。

（サーバ）
サーバ２００は、通信部２０２、制御部２０４、音声認識部２０６および記憶部２０８を備える。

（通信部）
通信部２０２は、情報処理装置１００−１と通信する。具体的には、通信部２０２は、情報処理装置１００−１から辞書提供要求ならびに音声認識要求および音声情報を受信し、情報処理装置１００−１へ辞書および音声認識結果を送信する。

（制御部）
制御部２０４は、サーバ２００の動作を全体的に制御する。具体的には、制御部２０４は、音声認識要求に応じて音声認識処理を制御する。例えば、制御部２０４は、情報処理装置１００−１から音声認識要求が受信されると、当該音声認識要求と共にまたは別個に受信される音声情報に基づく音声認識処理を音声認識部２０６に実行させる。そして、制御部２０４は、音声認識部２０６の音声認識結果を通信部２０２に情報処理装置１００−１へ送信させる。

また、制御部２０４は、辞書提供要求に応じて辞書提供処理を行う。具体的には、制御部２０４は、情報処理装置１００−１から辞書提供要求が受信されると、当該辞書提供要求から辞書（または対応関係）を記憶部２０８から取得する。そして、制御部２０４は、取得された辞書（または対応関係）を通信部２０２に情報処理装置１００−１へ送信させる。

（音声認識部）
音声認識部２０６は、音声情報に基づいて音声認識処理を行う。なお、音声認識部２０６の音声認識処理は、情報処理装置１００−１の音声認識部１０４の処理と実質的に同一であるため、説明を省略する。

（記憶部）
記憶部２０８は、音声認識処理に用いられる情報を記憶する。具体的には、記憶部２０８は、辞書および対応関係を記憶する。例えば、記憶部２０８の記憶する辞書は、情報処理装置１００−１よりも、記憶される辞書のサイズが大きくてよく、記憶される辞書の数も多くてよい。

＜１−２．システムの処理＞
次に、本実施形態に係る情報処理システムの処理について説明する。

（全体処理）
まず、図４を参照して、本実施形態に係る情報処理システムの全体処理について説明する。図４は、本実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。

情報処理装置１００−１は、音声入力操作の客体情報を取得する（ステップＳ３０２）。具体的には、制御部１０８は、起動中のアプリケーションまたは情報処理装置１００−１に接続されている外部機器１０に関する情報を取得する。

次に、情報処理装置１００−１は、客体情報について変化が生じたかを判定する（ステップＳ３０４）。具体的には、制御部１０８は、新たにアプリケーションが起動されたか、起動していたアプリケーションが終了した、新たに外部機器１０が接続されたか、または接続されていた外部機器１０との接続が切断されたか、などの変化の有無を判定する。

客体情報について変化が生じたと判定されると、情報処理装置１００−１は、客体情報に基づいて使用辞書を変更する（ステップＳ３０６）。具体的には、制御部１０８は、変化に係るアプリケーションまたは外部機器１０について使用辞書を変更する。なお、詳細については後述する。

次に、情報処理装置１００−１は、音声が入力されたかを判定する（ステップＳ３０８）。具体的には、音声認識部１０４は、音声入力部１０２により音声情報が提供されたかを判定する。

音声が入力されたと判定されると、情報処理装置１００−１は、辞書に基づいて音声認識処理を実行する（ステップＳ３１０）。具体的には、音声認識部１０４は、音声情報が提供されると、制御部１０８により指定される使用辞書に基づいて、提供された音声情報についての音声認識処理を実行する。

次に、情報処理装置１００−１は、音声認識結果に応じて後続処理を実行する（ステップＳ３１２）。具体的には、制御部１０８は、音声認識部１０４の音声認識処理により特定される後続処理を実行する。

（辞書変更処理）
続いて、図５を参照して、本実施形態に係る情報処理システムの辞書変更処理について説明する。図５は、本実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。

情報処理装置１００−１は、変化に係る客体がアプリケーションであるかを判定する（ステップＳ３２２）。具体的には、制御部１０８は、新たに起動され、または終了されたと判定されたアプリケーションが存在するかを判定する。

変化に係る客体がアプリケーションであると判定されると、情報処理装置１００−１は、当該アプリケーションに対応する対応関係を取得する（ステップＳ３２４）。具体的には、制御部１０８は、新たに起動されたアプリケーションに対応する対応関係を記憶部１０６またはサーバ２００から取得する。なお、アプリケーションが終了された場合は、起動中のアプリケーションに対応する対応関係であって使用辞書にない対応関係が取得される。

また、情報処理装置１００−１は、変化に係る客体が機器であるかを判定する（ステップＳ３２６）。具体的には、制御部１０８は、新たに接続され、または接続が切断されたと判定された外部機器１０が存在するかを判定する。

変化に係る客体が機器であると判定されると、当該機器に対応する対応関係を取得する（ステップＳ３２８）。具体的には、制御部１０８は、新たに接続された外部機器１０に対応する対応関係を記憶部１０６、外部機器１０またはサーバ２００から取得する。なお、外部機器１０の接続が切断された場合は、接続中の外部機器１０に対応する対応関係であって使用辞書にない対応関係が取得される。

そして、対応関係が取得されると、情報処理装置１００−１は、使用辞書を変更する（ステップＳ３３０）。具体的には、制御部１０８は、抜き出す対応関係を使用辞書から選択し、選択された対応関係と取得された対応関係とを入れ替える。

また、情報処理装置１００−１は、通信が利用可能かを判定する（ステップＳ３３２）。具体的には、制御部１０８は、サーバ２００との通信が可能であるかを判定する。

通信が利用可能と判定されると、情報処理装置１００−１は、通信を介して外部の辞書を使用辞書として追加する（ステップＳ３３４）。具体的には、制御部１０８は、サーバ２００との通信が可能であると判定されると、情報処理装置１００−１の音声認識部１０４およびサーバ２００の音声認識部２０６の両方を音声認識処理の主体として決定する。これにより、実質的に使用辞書を変更することができる。

＜１−３．第１の実施形態のまとめ＞
このように、本開示の第１の実施形態によれば、情報処理装置１００−１は、音声認識処理で用いられる、音声入力により得られる音声情報と当該音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の対応関係の変更を、音声入力を用いた操作の客体情報に基づいて制御する。

従来では、音声入力機能による装置の誤作動のおそれがあった。例えば、音声入力操作のための音声と日常の会話における音声とが区別されず、日常の会話における音声が認識され、ユーザの意図しない動作が実行されることがあった。これに対し、起動ワードが入力された後に操作ワードが入力される方式が考えられた。しかし、二段階で音声操作することはユーザにとって煩わしくなりかねない。

また、使用辞書のサイズを大きくすることも考えられる。しかし、使用辞書のサイズを大きくなると、誤認識の増加および処理時間の長期化のおそれがある。特に、複雑な文の音声を解析する場合には処理時間がより長くなる。他方で、使用辞書のサイズが小さくなると、認識率が低下しかねない。

さらに、使用辞書のサイズが異なる複数の音声認識処理を実行することも考えられる。しかし、その場合、当該複数の音声認識処理の結果を調停する処理が要求され、製造コストおよび処理負荷が増加しかねない。

これらに対し、本実施形態に係る情報処理装置１００−１によれば、使用辞書の内容を適切に入れ替えることができる。そのため、起動ワードを設けることなく、日常の会話における音声の認識による誤作動を防止することができる。また、使用辞書のサイズを大きくすることなく、認識率を向上させることができる。それにより、誤認識の増加および処理時間の長期化も抑制することができる。従って、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。さらに、複数の音声認識処理を実行させることなく、認識率を向上させることができる。それにより、製造コストおよび処理負荷の増加を抑制することができる。

また、上記変更に係る対応関係は、上記操作の客体情報から推定される、当該操作についての音声認識処理における対応関係についての使用情報、に基づいて決定される対応関係を含む。このため、使用辞書が有する対応関係を音声入力操作について事前に適正化することができる。従って、使用辞書のサイズを維持したまま、認識性能の向上および処理時間の短縮を両立させることが可能となる。

また、上記使用情報は、使用頻度が特定される情報を含む。このため、音声認識処理において使用される可能性が相対的に高い対応関係と、使用される可能性が相対的に低い対応関係と使用辞書において入れ替えられることにより、使用辞書のサイズを維持したまま認識率を向上させることができる。従って、認識率の向上および誤認識の抑制ならびに処理時間の短縮を両立させることが可能となる。

また、上記使用情報は、使用可否が特定される情報を含む。このため、音声認識処理において使用が許可されない対応関係を使用辞書から外すことができる。例えば、アプリケーションまたは外部機器１０などから推定される誤認識を誘発するおそれのある対応関係を使用辞書から事前に外すことができる。また、反対に、積極的に認識させたい対応関係を使用辞書へ事前に追加することができる。従って、認識性能をより効果的に向上させることが可能となる。

また、情報処理装置１００−１は、さらに上記操作の客体情報に基づいて上記対応関係の集合の変更を制御する。このため、辞書の単位で音声認識処理に用いられる対応関係を変更することができる。従って、使用辞書の内容すなわち対応関係の変更を迅速に行うことが可能となる。なお、使用辞書が異なる音声認識処理を切り替えることにより、使用辞書の変更が実現されてもよい。

また、上記対応関係の集合の変更は、集合の大きさが異なる対応関係の集合へ変更を含む。このため、使用辞書の内容が変更されると共に、使用辞書のサイズが変更されることにより、客体情報から推定される音声入力についての音声認識処理により適した使用辞書を用意することができる。

また、上記対応関係は、通信を介して変更される。このため、情報処理装置１００−１が有していない対応関係を使用辞書へ追加することができる。従って、情報処理装置１００−１単体で動作する場合よりも認識性能を向上させることが可能となる。

また、上記操作の客体情報は、操作対象または当該操作対象の属性が特定される情報を含む。このため、音声入力操作の対象に基づいて使用辞書の内容を適正化することができる。従って、入力される音声が正しく認識されやすくなり、認識性能を効果的に向上させることが可能となる。

また、上記操作対象は、アプリケーションまたは機器を含む。このため、起動中のアプリケーションまたは情報処理装置１００−１に接続されている外部機器１０の音声入力操作に適した対応関係を使用辞書へ追加することができる。従って、ユーザの意図通りに音声が認識されやすくなり、アプリケーションまたは外部機器１０の音声入力による操作を円滑化することが可能となる。

また、情報処理装置１００−１は、さらに情報処理装置１００−１の通信可否に基づいて対応関係の変更を制御する。このため、情報処理装置１００−１が記憶していない対応関係を収集することができる。従って、使用辞書のバリエーションを増やすことができ、認識性能をさらに向上させることが可能となる。また、音声認識処理を実行可能なサーバ２００などの外部装置と通信可能な場合には、サーバ２００に音声認識処理を実行させることもできる。この場合、情報処理装置１００−１での音声認識処理を実行しないことにより、処理負荷を低減することができる。また、情報処理装置１００−１での音声認識処理も実行することにより、複数の音声認識結果のうちの評価がより高い音声認識結果を利用することができる。

また、上記操作の客体情報は、上記操作の客体について取得される情報に基づいて推定される情報を含む。このため、ユーザにより音声入力操作が行われる前に使用辞書を適切な辞書へ変更することができる。従って、ユーザは始めから円滑な音声入力操作を行うことが可能となる。

また、上記対応関係に係る音声情報は、上記操作の開始を示す音声情報（起動ワード）または上記操作の内容を示す音声情報（操作ワード）を含む。ここで、起動ワードまたは操作ワードの認識性能は概して操作感に影響を与える。例えば、一度の発声で正確に認識される場合に比べて、複数回の発声でようやく正確に認識される場合には、ユーザが操作を煩雑に感じるおそれがある。これに対し、本実施形態によれば、起動ワードまたは操作ワードの認識性能が向上することにより、ユーザに煩わしさを感じさせるおそれを低下させることができる。また、処理時間の長期化も抑制されるため、発声に対する応答性が向上し、操作感をより向上させることができる。特に、起動ワードについて用意される対応関係は概して操作ワードよりも少なく、どの対応関係を使用辞書へ含ませるかが重要となるため、本実施形態に係る情報処理装置１００−１を利用することがより有意義となる。

＜１−４．変形例＞
以上、本開示の第１の実施形態について説明した。なお、本実施形態は、上述の例に限定されない。以下に、本実施形態の変形例について説明する。

本実施形態の変形例として、情報処理装置１００−１は、音声認識結果を利用して使用辞書を変更してもよい。具体的には、操作の客体情報は、音声認識処理により得られる情報であってもよく、制御部１０８は、認識された情報に基づいて使用辞書の変更を制御する。認識される操作の客体情報としては、操作内容が特定される情報があり、制御部１０８は、操作内容に応じて使用辞書の変更を制御する。例えば、ナビゲーションアプリケーションに対するある目的地への経路の提示要求についての音声「Ｎａｖｉｇａｔｅｔｏ」が認識されると、制御部１０８は、目的地を認識可能な対応関係を使用辞書へ追加するかまたは目的地を認識可能な辞書へ使用辞書を切り替える。

また、当該認識される操作の客体情報としては、操作対象が特定される情報がある。具体的には、操作対象としては、上述したアプリケーションまたは外部機器１０などがある。例えば、制御部１０８は、アプリケーションの名前または種類が含まれる音声が認識されると、当該名前または種類のアプリケーションの操作について使用頻度が相対的に高い対応関係を使用辞書へ追加するかまたは当該対応関係を含む辞書へ使用辞書を切り替える。

また、制御部１０８は、外部機器１０の名前または種類が含まれる音声が認識されると、当該名前または種類の外部機器１０の操作について使用頻度が相対的に高い対応関係を使用辞書へ追加するかまたは当該対応関係を含む辞書へ使用辞書を切り替える。

また、操作対象は、音声認識エージェントであってもよい。例えば、制御部１０８は、音声認識エージェントの名前が含まれる音声が認識されると、当該音声認識エージェントに切り替える。

さらに、制御部１０８は、通知制御部として、使用辞書の変更についての音声入力操作の主体への通知を制御してよい。具体的には、制御部１０８は、情報処理装置１００−１または情報処理装置１００−１に接続される外部装置に、使用辞書が変更されたことを示す情報をユーザへ通知させる。なお、通知は、視覚的な通知、聴覚的な通知または触覚的な通知のいずれであってもよく、これらの組合せであってもよい。

例えば、制御部１０８は、操作内容について使用辞書が変更された場合、使用辞書の変更に応じた音をスピーカに出力させる。例えば、「Ｎａｖｉｇａｔｅｔｏ」という音声が認識され、使用辞書が変更されると、続きの目的地についての音声入力を促す作動音がスピーカから出力される。また、音声が認識された後であって作動音が出力される前に、認識された音声が出力されてもよい。すなわち、「Ｎａｖｉｇａｔｅｔｏ」という音声が出力されてよい。この場合、ユーザの意図通りに音声が認識されたかをユーザが把握できる。

また、例えば、制御部１０８は、アプリケーションについて使用辞書が変更された場合、使用辞書の変更に応じた表示オブジェクトをディスプレイに表示させる。例えば、アプリケーションについて使用辞書が変更されると、アプリケーションについて表示されている文字情報が変更される。

また、例えば、制御部１０８は、外部機器１０について使用辞書が変更された場合、外部機器１０に使用辞書の変更に応じた動作を行わせる。例えば、外部機器１０について使用辞書が変更されると、当該外部機器１０の発光部が発光させられたり、当該外部機器１０が振動させられたりする。また、制御部１０８は、スピーカに当該外部機器１０固有の音を出力させる。なお、当該スピーカは情報処理装置１００−１に備えられてもよく、外部機器１０などの情報処理装置１００−１と接続される外部装置に備えられてもよい。

また、例えば、制御部１０８は、音声認識エージェントが変更された場合、変更先の音声認識エージェントに応じた応答を行わせる。例えば、音声認識エージェントが切り替えられると、音声認識エージェントに応じた文言が出力される。また、制御部１０８は、音声認識エージェントに応じてユーザへの返答に用いられる音声を切り替えてもよい。

さらに、本実施形態の変形例に係る情報処理システムの処理について説明する。なお、第１の実施形態に係る処理と実質的に同一である処理については説明を省略する。

（全体処理）
まず、図６を参照して、本実施形態の変形例に係る情報処理システムの全体処理について説明する。図６は、本実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。

情報処理装置１００−１は、音声が入力されたかを判定し（ステップＳ４０２）、音声が入力されたと判定されると、使用辞書に基づいて音声認識処理を実行する（ステップＳ４０４）。

次に、情報処理装置１００−１は、客体情報が認識されたかを判定し（ステップＳ４０６）、客体情報が認識されたと判定されると、当該客体情報に基づいて使用辞書を変更する（ステップＳ４０８）。具体的には、制御部１０８は、音声認識部１０４により生成された文字情報に客体情報を示す文字情報が含まれるかを判定する。客体情報を示す文字情報が生成された文字情報に含まれると判定されると、制御部１０８は、当該客体情報に基づいて使用辞書を変更する。なお、詳細については後述する。

次に、情報処理装置１００−１は、使用辞書の変更を通知する（ステップＳ４１０）。具体的には、制御部１０８は、使用辞書が変更された旨を視覚的、聴覚的または触覚的にユーザに通知する。

次に、情報処理装置１００−１は、音声が入力されたかを判定し（ステップＳ４１２）、音声が入力されたと判定されると、変更後の使用辞書に基づいて音声認識処理を実行する（ステップＳ４１４）。そして、情報処理装置１００−１は、認識結果に応じて後続処理を実行する（ステップＳ４１６）。

（辞書変更処理）
続いて、図７を参照して、本実施形態の変形例に係る情報処理システムの辞書変更処理について説明する。図７は、本実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。

情報処理装置１００−１は、アプリケーションが認識されたかを判定する（ステップＳ４２２）。具体的には、制御部１０８は、音声認識部１０４により生成される文字情報にアプリケーションの名前または種類を示す文字情報が含まれるかを判定する。

アプリケーションが認識されたと判定されると、情報処理装置１００−１は、当該アプリケーションについての対応関係の使用情報を取得する（ステップＳ４２４）。具体的には、制御部１０８は、認識されたアプリケーションについての対応関係の使用頻度および使用可否を記憶部１０６などから取得する。

また、情報処理装置１００−１は、外部機器１０が認識されたかを判定する（ステップＳ４２６）。具体的には、制御部１０８は、音声認識部１０４により生成される文字情報に外部機器１０の名前または種類を示す文字情報が含まれるかを判定する。

外部機器１０が認識されたと判定されると、情報処理装置１００−１は、当該外部機器１０についての対応関係の使用情報を取得する（ステップＳ４２８）。具体的には、制御部１０８は、認識された外部機器１０についての対応関係の使用頻度および使用可否を示す情報を記憶部１０６などから取得する。

次に、情報処理装置１００−１は、使用頻度が相対的に低い対応関係が使用辞書に存在するかを判定する（ステップＳ４３０）。具体的には、制御部１０８は、認識されたアプリケーションまたは外部機器１０についての対応関係のうちの使用辞書に存在しない対応関係よりも使用頻度が相対的に低い対応関係が使用辞書に存在するかを判定する。

また、情報処理装置１００−１は、使用が許可されない対応関係が使用辞書に存在するかを判定する（ステップＳ４３２）。具体的には、制御部１０８は、認識されたアプリケーションまたは外部機器１０についての対応関係のうちの使用が許可されない対応関係が使用辞書に存在するかを判定する。

使用頻度が相対的に低い対応関係または使用が許可されない対応関係が使用辞書に存在すると判定されると、情報処理装置１００−１は、使用辞書を変更する（ステップＳ４３４）。具体的には、制御部１０８は、使用頻度が相対的に低い対応関係または使用が許可されない対応関係を、使用頻度が相対的に高い対応関係または使用が許可される対応関係に入れ替える。

また、情報処理装置１００−１は、操作内容が認識されたかを判定する（ステップＳ４３６）。具体的には、制御部１０８は、音声認識部１０４により生成される文字情報に操作内容を示す文字情報が含まれるかを判定する。

操作内容が認識されたと判定されると、情報処理装置１００−１は、操作内容に対応する辞書へ使用辞書を変更する（ステップＳ４３８）。具体的には、制御部１０８は、認識された操作内容に対応する辞書が使用辞書である音声認識部を音声認識処理の実行主体として決定する。

また、情報処理装置１００−１は、音声認識エージェントが認識されたかを判定する（ステップＳ４４０）。具体的には、制御部１０８は、音声認識部１０４により生成される文字情報に音声認識エージェントを示す文字情報が含まれるかを判定する。

音声認識エージェントが認識されたと判定されると、情報処理装置１００−１は、音声認識エージェントを変更する（ステップＳ４４２）。具体的には、制御部１０８は、認識された音声認識エージェントに使用する音声認識エージェントを変更する。

このように、本実施形態の変形例によれば、操作の客体情報は、音声認識処理により得られる情報を含む。このため、ユーザにより入力された音声に基づいて使用辞書を変更することができる。従って、使用辞書をより確実にユーザの意図する操作に適した辞書に変更することが可能となる。

また、情報処理装置１００−１は、上記対応関係の変更についての音声入力操作の主体への通知を制御する。このため、使用辞書の変更がユーザに通知されることにより、ユーザは音声入力の準備ができたことを知ることができる。従って、使用辞書が変更される前にユーザにより音声入力が行われることによる音声認識の失敗を回避することが可能となる。これにより、ユーザが不満またはストレスを感じることを抑制できる。

＜２．第２の実施形態（音声入力操作の主体情報に基づく音声認識辞書の変更）＞
以上、本開示の第１の実施形態および変形例について説明した。次に、本開示の第２の実施形態について説明する。第２の実施形態では、情報処理システムは、音声入力操作の主体情報に基づいて音声認識辞書の変更を制御する。

＜２−１．システムの構成＞
図８を参照して、本実施形態に係る情報処理システムの機能構成について説明する。図８は、本開示の第２の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。なお、第１の実施形態の機能と実質的に同一の機能については説明を省略する。

（情報処理装置）
情報処理装置１００−２は、音声入力部１０２、音声認識部１０４、記憶部１０６、制御部１０８および通信部１１０に加えて、主体認識部１２０および観察部１２２を備える。

（制御部）
制御部１０８は、音声入力を用いた操作の主体情報に基づいて、使用辞書の少なくとも一部の変更を制御する。具体的には、制御部１０８は、音声入力操作の主体情報から推定される、音声入力操作についての音声認識処理おける対応関係についての使用情報、に基づいて決定される対応関係を使用辞書において入れ替える。例えば、制御部１０８は、音声入力操作の主体情報から推定される、音声認識処理における使用頻度または使用可否に基づいて入れ替え対象の対応関係を決定する。そして、制御部１０８は、決定された対応関係を入れ替える。

ここで、音声入力操作の主体情報は、当該音声入力操作の主体について取得される情報に基づいて推定される情報である。当該音声入力操作の主体情報としては、当該操作の主体の態様が特定される情報がある。当該操作の主体の態様としては、当該操作の主体の行動がある。例えば、制御部１０８は、主体認識部１２０により生成されるユーザの行動が特定される情報を取得し、取得された情報から特定されるユーザの行動中に行われることが推定される操作において用いられる頻度が相対的に高い操作ワードに係る対応関係を使用辞書へ追加する。詳細には、認識された行動がランニングである場合、「ワークアウトを一時停止」または「ワークアウトを再開」などのワードに係る対応関係が使用辞書へ追加される。認識された行動がサイクリングである場合、「次はどちらの道？」または「平均速度はいくら？」などのワードに係る対応関係が使用辞書へ追加される。認識された行動が自動車の運転である場合、「道順を教えて」または「サイドミラーを動かして」などのワードに係る対応関係が使用辞書へ追加される。

また、当該操作の主体の態様としては、当該操作の主体の姿勢がある。例えば、制御部１０８は、主体認識部１２０により生成されるユーザの姿勢が特定される情報を取得し、取得された情報から特定されるユーザの姿勢で行われることが推定される操作において用いられる頻度が相対的に高い操作ワードに係る対応関係を使用辞書へ追加する。詳細には、認識された姿勢が仰向けである場合、「目覚まし止めて」または「照明を消して」などのワードに係る対応関係が使用辞書へ追加される。

また、当該操作の主体の態様としては、当該操作の主体の位置がある。例えば、制御部１０８は、主体認識部１２０により生成されるユーザの位置が特定される情報を取得し、取得された情報から特定されるユーザの位置で行われることが推定される操作において用いられる頻度が相対的に高い操作ワードに係る対応関係を使用辞書へ追加する。詳細には、認識された位置が電車内である場合、「あと何駅で乗り換え？」または「マナーモードに設定して」などのワードに係る対応関係が使用辞書へ追加される。なお、当該操作の主体の位置は、地理的情報のほか、建物名、施設名または地名などのランドマークを示す情報または地形を示す情報であってもよい。

また、例えば、制御部１０８は、ユーザの位置において用いられる頻度が相対的に高い言語のワードに係る対応関係を使用辞書へ追加してもよい。詳細には、認識された位置が米国内である場合、英語のワードに係る対応関係が使用辞書へ追加される。認識された位置が大阪である場合、関西弁のワードに係る対応関係が使用辞書へ追加される。

さらに、音声入力操作の主体情報は、当該音声入力操作の主体の周辺環境が特定される情報であってもよい。具体的には、当該操作の主体の周辺環境としては、騒音がある。例えば、制御部１０８は、主体認識部１２０により生成されるユーザ周辺の騒音が推定される情報を取得し、取得された情報から推定されるユーザ周辺の騒音の程度に応じて音声認識処理において用いられる頻度が相対的に高い操作ワードに係る対応関係を使用辞書へ追加する。詳細には、認識された騒音の程度が閾値以上である場合、擬音などのワードに係る対応関係が許可されない対応関係として使用辞書から抜き出される。

なお、使用辞書へ追加される対応関係は、音声入力操作の主体情報に基づいて決定される対応関係のうちの一部であってもよい。また、複数の主体情報に基づいて使用辞書が変更されてもよい。例えば、制御部１０８は、ユーザが電車内で電子書籍を読んでいる場合には、ユーザの位置および行動について使用辞書を変更してよい。また、制御部１０８は、複数の主体情報のうちの一部の主体情報についてのみ使用辞書を変更してもよい。また、制御部１０８は、音声入力を用いた操作の主体情報に基づいて、使用辞書の変更を制御してよい。

（主体認識部）
主体認識部１２０は、音声入力操作の主体についての認識処理を行う。具体的には、主体認識部１２０は、観察部１２２から得られる情報に基づいてユーザの行動、姿勢または位置を認識する。例えば、主体認識部１２０は、観察部１２２から得られる加速度もしくは角速度などの慣性情報、ＧＰＳ（Global Positioning System）情報または画像情報に基づいてユーザの行動、姿勢または位置を認識する。なお、観察部１２２から得られる情報に加えて、通信部１１０を介して外部装置から得られる情報が用いられてもよい。例えば、外部装置の有するユーザのスケジュール情報が用いられてよい。

（観察部）
観察部１２２は、音声入力操作の主体についての観察を行う。具体的には、観察部１２２は、ユーザの動き、姿勢または位置を観察する。例えば、観察部１２２は、加速度センサもしくは角速度センサなどの慣性センサ、ＧＰＳセンサまたは撮像センサを用いてユーザについての慣性情報、位置情報または画像情報を生成する。

＜２−２．システムの処理＞
次に、本実施形態に係る情報処理システムの処理について説明する。なお、第１の実施形態の処理と実質的に同一である処理については説明を省略する。

（全体処理）
まず、図９を参照して、本実施形態に係る情報処理システムの全体処理について説明する。図９は、本実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。

情報処理装置１００−２は、音声入力操作の主体情報を取得する（ステップＳ５０２）。具体的には、主体認識部１２０は、観察部１２２から得られる慣性情報、位置情報または画像情報に基づいてユーザの行動、姿勢、位置または周辺環境についての認識処理を行う。そして、制御部１０８は、主体認識部１２０により認識されたユーザの行動、姿勢、位置または周辺環境に係る情報を取得する。

次に、情報処理装置１００−２は、主体情報について変化が生じたかを判定する（ステップＳ５０４）。具体的には、制御部１０８は、主体認識部１２０から得られた情報に基づいてユーザの行動、姿勢、位置または周辺環境が変化したかを判定する。

主体情報について変化が生じたと判定されると、情報処理装置１００−２は、主体情報に基づいて使用辞書を変更する（ステップＳ５０６）。具体的には、制御部１０８は、変化に係る行動、姿勢、位置または周辺環境について使用辞書を変更する。なお、詳細については後述する。

次に、情報処理装置１００−２は、音声が入力されたかを判定し（ステップＳ５０８）、音声が入力されたと判定されると、使用辞書に基づいて音声認識処理を実行する（ステップＳ５１０）。そして、情報処理装置１００−２は、音声認識結果に応じて後続処理を実行する（ステップＳ５１２）。

（辞書変更処理）
続いて、図１０を参照して、本実施形態に係る情報処理システムの辞書変更処理について説明する。図１０は、本実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。

情報処理装置１００−２は、変化した態様がユーザの行動であるかを判定し（ステップＳ５２２）、ユーザの行動が変化したと判定されると、変化後のユーザの行動についての対応関係の使用情報を取得する（ステップＳ５２４）。具体的には、制御部１０８は、主体認識部１２０により認識されたユーザの行動が以前に認識された行動から変化したと判定されると、制御部１０８は、変化後のユーザの行動についての対応関係の使用頻度および使用可否を記憶部１０６などから取得する。

また、情報処理装置１００−２は、変化した態様がユーザの姿勢であるかを判定し（ステップＳ５２６）、ユーザの姿勢が変化したと判定されると、変化後のユーザの姿勢についての対応関係の使用情報を取得する（ステップＳ５２８）。具体的には、制御部１０８は、主体認識部１２０により認識されたユーザの姿勢が以前に認識された姿勢から変化したと判定されると、制御部１０８は、変化後のユーザの姿勢についての対応関係の使用頻度および使用可否を記憶部１０６などから取得する。

また、情報処理装置１００−２は、変化した態様がユーザの位置であるかを判定し（ステップＳ５３０）ユーザの位置が変化したと判定されると、変化後のユーザの位置についての対応関係の使用情報を取得する（ステップＳ５３２）。具体的には、制御部１０８は、主体認識部１２０により認識されたユーザの位置が以前に認識された位置から変化したと判定されると、制御部１０８は、変化後のユーザの位置についての対応関係の使用頻度および使用可否を記憶部１０６などから取得する。

また、情報処理装置１００−２は、変化した態様がユーザの周辺環境であるかを判定し（ステップＳ５３４）、ユーザの周辺環境が変化したと判定されると、変化後のユーザの周辺環境についての対応関係の使用情報を取得する（ステップＳ５３６）。具体的には、制御部１０８は、主体認識部１２０により認識されたユーザの周辺環境が以前に認識された周辺環境から変化したと判定されると、制御部１０８は、変化後のユーザの周辺環境についての対応関係の使用頻度および使用可否を記憶部１０６などから取得する。

次に、情報処理装置１００−２は、使用頻度が相対的に低い対応関係が使用辞書に存在するかを判定し（ステップＳ５３８）、さらに使用が許可されない対応関係が使用辞書に存在するかを判定する（ステップＳ４４０）。そして、使用頻度が相対的に低い対応関係または使用が許可されない対応関係が使用辞書に存在すると判定されると、情報処理装置１００−２は、使用辞書を変更する（ステップＳ５４２）。

＜２−３．第２の実施形態のまとめ＞
このように本開示の第２の実施形態によれば、情報処理装置１００−２は、音声認識処理で用いられる、音声入力により得られる音声情報と当該音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の対応関係の変更を、音声入力を用いた操作の主体情報に基づいて制御する。このため、上述したように、使用辞書の内容を適切に入れ替えることができる。特に、音声入力操作においては音声認識処理の入力となる音声を発するユーザが音声認識処理へ与える影響は大きい。従って、そのようなユーザの情報に基づいて使用辞書の内容が変更されることにより、音声認識の誤作動、認識率の向上ならびに誤認識および処理時間の長期化の抑制を効果的に実現することができる。すなわち、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。

また、上記操作の主体情報は、当該操作の主体の態様が特定される情報を含む。このため、音声入力操作を行うユーザの態様に基づいて使用辞書の内容を適正化することができる。従って、入力される音声が正しく認識され易くなり、認識性能を効果的に向上させることができる。

また、上記操作の主体の態様は、当該操作の主体の行動、姿勢または位置を含む。このため、認識されたユーザの行動、姿勢または位置において音声認識されることが所望される音声に係る対応関係を有する使用辞書を用意することができる。従って、ユーザの意図通りに音声が認識されやすくなり、当該音声入力操作を円滑化することが可能となる。

また、上記操作の主体情報は、当該操作の主体の周辺環境が特定される情報を含む。このため、認識されたユーザの周辺環境において音声認識されることが所望される音声に係る対応関係を有する使用辞書を用意することができる。従って、ユーザの意図通りに音声が認識されやすくなり、当該音声入力操作を円滑化することが可能となる。

＜２−４．変形例＞
以上、本開示の第２の実施形態について説明した。なお、本実施形態は、上述の例に限定されない。以下に、本実施形態の変形例について説明する。

本実施形態の変形例として、音声入力操作の主体情報は、当該音声入力操作の主体が特定される情報であってもよい。具体的には、主体認識部１２０は、音声入力部１０２から提供される情報に基づいて音声入力操作の主体を特定する。そして、制御部１０８は、主体認識部１２０により特定された主体に応じた辞書へ使用辞書を変更する。例えば、主体認識部１２０は、音声入力部１０２から提供された音声情報に基づいて音声情報に係る音声の発声者を特定する。なお、発声者の特定には声紋解析技術などが利用されてよい。そして、制御部１０８は、主体認識部１２０により特定された発声者に対応する辞書または対応関係の組を記憶部１０６などから取得する。制御部１０８は、使用辞書を取得された辞書へ変更するかまたは使用辞書の一部を取得された対応関係の組と入れ替える。

これにより、例えば家族で情報処理装置１００−２が共有される場合、父親が情報処理装置１００−２を利用するときには、父親の音声が認識されやすい辞書へ使用辞書が変更され、母親が情報処理装置１００−２を利用するときには、母親の音声が認識されやすい辞書へ使用辞書が変更される。また、父親用に設定された対応関係が母親用の辞書に含まれないように使用辞書が変更されてもよい。

また、当該音声入力操作の主体の有する操作対象について使用辞書が変更されてもよい。例えば、制御部１０８は、特定された発声者すなわちユーザが所有者である外部機器１０またはアプリケーションについて使用辞書が変更されてよい。

なお、発声者に対応する辞書または対応関係の組が予め設定されてよい。例えば、ユーザにより辞書または対応関係の組が事前に設定されてよい。また、当然ながら、当該辞書または対応関係の組の設定は事後的に変更されてもよい。また、当該辞書または対応関係の組の設定は自動的に行われてもよい。例えば、ユーザ毎に使用辞書および音声認識結果について機械学習を行うことにより、ユーザ毎に使用頻度が高い辞書または対応関係の組の設定が生成されてよい。

また、音声入力操作の主体情報は、当該音声入力操作の主体の属性が特定される情報であってもよい。具体的には、制御部１０８は、特定され当該主体の属性に応じた辞書へ使用辞書を変更する。当該主体の属性としては、年齢、性別、骨格、人種、住所または出身地などがある。詳細には、ユーザの年齢については、該当する年齢層で共通する話し方に応じたワードに係る対応関係を含む辞書へ使用辞書が変更される。また、ユーザの出身地については、該当する地域の方言に応じたワードに係る対応関係を含む辞書へ使用辞書が変更される。

さらに、本実施形態の変形例に係る情報処理システムの処理について説明する。なお、上記実施形態に係る処理と実質的に同一である処理については説明を省略する。

（全体処理）
まず、図１１を参照して、本実施形態の変形例に係る情報処理システムの全体処理について説明する。図１１は、本実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。

情報処理装置１００−２は、音声が入力されたかを判定し（ステップＳ６０２）、音声が入力されたと判定されると、入力された音声に基づいて主体情報を取得する（ステップＳ６０４）。具体的には、主体認識部１２０は、音声入力部１０２により音声情報が提供されると、音声情報に基づいて主体または主体の属性を判定する。

次に、情報処理装置１００−２は、主体情報について変化が生じたかを判定する（ステップＳ６０６）。具体的には、制御部１０８は、主体認識部１２０の判定により主体または主体の属性が特定される情報が提供されると、当該情報に基づいて主体または主体の属性が変化したかを判定する。

主体情報について変化が生じたと判定されると、情報処理装置１００−２は、主体情報に基づいて使用辞書を変更する（ステップＳ６０８）。具体的には、制御部１０８は、主体または主体の属性が変化したと判定されると、変化後の主体または主体の属性について使用辞書を変更する。なお、詳細については後述する。

次に、情報処理装置１００−２は、使用辞書の変更を通知し（ステップＳ６１０）、音声が入力されると（ステップＳ６１２）、変更後の使用辞書に基づいて音声認識処理を実行する（ステップＳ６１４）。そして、情報処理装置１００−２は、認識結果に応じて後続処理を実行する（ステップＳ６１６）。

（辞書変更処理）
続いて、図１２を参照して、本実施形態の変形例に係る情報処理システムの辞書変更処理について説明する。図１２は、本実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。

情報処理装置１００−２は、ユーザの属性が変化したかを判定し（ステップＳ６２２）、ユーザの属性が変化したと判定されると、変化後のユーザの属性に対応する辞書を取得する（ステップＳ６２４）。具体的には、制御部１０８は、主体認識部１２０により認識されたユーザの属性が以前に認識されたユーザの属性と異なる属性に変化したと判定されると、制御部１０８は、変化後のユーザの属性に対応する辞書を記憶部１０６などから取得する。

また、情報処理装置１００−２は、ユーザが変化したかを判定し（ステップＳ６２６）、ユーザが変化したと判定されると、変化後のユーザに対応する辞書を取得する（ステップＳ６２８）。具体的には、制御部１０８は、主体認識部１２０により認識されたユーザが以前に認識されたユーザと異なる属性に変化したと判定されると、制御部１０８は、変化後のユーザに対応する辞書を記憶部１０６などから取得する。

そして、情報処理装置１００−２は、使用辞書を変更する（ステップＳ６３０）。具体的には、制御部１０８は、使用辞書を取得された辞書へ変更する。

このように、本実施形態の変形例によれば、音声入力操作の主体情報は、当該音声入力操作の主体または当該主体の属性が特定される情報を含む。このため、音声入力操作の主体に適した使用辞書を用意することができる。従って、入力される音声が正しく認識されやすくなり、認識性能を効果的に向上させることが可能となる。さらに、ユーザ個人に対応する使用辞書が用意される場合には、ユーザの使い勝手または操作感を向上させることが可能となる。

なお、上記では音声情報に基づいて主体または主体の属性が特定される例を説明したが、画像情報に基づいて主体または主体の属性が特定されてもよい。例えば、顔認識技術などを用いて個々のユーザまたはユーザの属性が特定されてよい。

＜３．本開示の一実施形態に係る情報処理装置のハードウェア構成＞
以上、本開示の各実施形態に係る情報処理装置１００について説明した。上述した情報処理装置１００の処理は、ソフトウェアと、以下に説明する情報処理装置１００のハードウェアとの協働により実現される。

図１３は、本開示の一実施形態に係る情報処理装置１００のハードウェア構成を示した説明図である。図１３に示したように、情報処理装置１００は、プロセッサ１３２、メモリ１３４、ブリッジ１３６、バス１３８、インタフェース１４０、入力装置１４２、出力装置１４４、測定装置１４６、ドライブ１４８、接続ポート１５０および通信装置１５２を備える。

（プロセッサ）
プロセッサ１３２は、演算処理装置として機能し、各種プログラムと協働して情報処理装置１００内の音声認識部１０４、制御部１０８および主体認識部１２０の機能を実現する。プロセッサ１３２は、制御回路を用いてメモリ１３４または他の記憶媒体に記憶されるプログラムを実行することにより、情報処理装置１００の様々な論理的機能を動作させる。例えば、プロセッサ１３２は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）またはＳｏＣ（System-on-a-Chip）であり得る。

（メモリ）
メモリ１３４は、プロセッサ１３２が使用するプログラムまたは演算パラメタなどを記憶する。例えば、メモリ１３４は、ＲＡＭ（Random Access Memory）を含み、プロセッサ１３２の実行において使用するプログラムまたは実行において適宜変化するパラメタなどを一時記憶する。また、メモリ１３４は、ＲＯＭ（Read Only Memory）を含み、ＲＡＭおよびＲＯＭにより記憶部の機能を実現する。なお、接続ポート１５０または通信装置１５２などを介して外部のストレージ装置がメモリ１３４の一部として利用されてもよい。

なお、プロセッサ１３２およびメモリ１３４は、ＣＰＵバスなどから構成される内部バスにより相互に接続されている。

（ブリッジおよびバス）
ブリッジ１３６は、バス間を接続する。具体的には、ブリッジ１３６は、プロセッサ１３２およびメモリ１３４が接続される内部バスと、インタフェース１４０と接続するバス１３８と、を接続する。

（入力装置）
入力装置１４２は、ユーザが情報処理装置１００を操作しまたは情報処理装置１００へ情報を入力するために使用され、音声入力部１０２の機能を実現する。例えば、入力装置１４２は、ユーザが情報を入力するための入力手段、およびユーザによる入力に基づいて入力信号を生成し、プロセッサ１３２に出力する入力制御回路などから構成されている。なお、当該入力手段は、マウス、キーボード、タッチパネル、スイッチ、レバーまたはマイクロフォンなどであってもよい。情報処理装置１００のユーザは、入力装置１４２を操作することにより、情報処理装置１００に対して各種のデータを入力したり処理動作を指示したりすることができる。

（出力装置）
出力装置１４４は、ユーザに情報を通知するために使用され、入出力部の機能を実現する。出力装置１４４は、表示装置または音出力装置であってよい。例えば、出力装置１４４は、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）装置、ＯＬＥＤ（Organic Light Emitting Diode）装置、プロジェクタ、スピーカまたはヘッドフォンなどの装置または当該装置への出力を行うモジュールであってよい。

なお、入力装置１４２または出力装置１４４は、入出力装置を含んでよい。例えば、入出力装置は、タッチスクリーンであってよい。

（測定装置）
測定装置１４６は、情報処理装置１００および情報処理装置１００の周辺において発生する現象についての測定を行い、情報処理装置１００の観察部１２２の動作を実現する。例えば、当該測定装置１４６は、加速度センサもしくは角速度センサなどの慣性センサ、ＧＰＳセンサまたは撮像センサであってよい。なお、測定装置１４６は、気温、湿度もしくは気圧などを測定する環境センサまたは体温、脈拍もしくは発汗などを測定する生体センサを含んでもよく、複数の種類のセンサが含まれてもよい。

（ドライブ）
ドライブ１４８は、記憶媒体用リーダライタであり、情報処理装置１００に内蔵、あるいは外付けされる。ドライブ１４８は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記憶されている情報を読み出して、メモリ１３４に出力する。また、ドライブ１４８は、リムーバブル記憶媒体に情報を書込むこともできる。

（接続ポート）
接続ポート１５０は、機器を情報処理装置１００に直接接続するためのポートである。例えば、接続ポート１５０は、ＵＳＢ（Universal Serial Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small Computer System Interface）ポートなどであり得る。また、接続ポート１５０は、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）ポートなどであってもよい。接続ポート１５０に外部機器を接続することで、情報処理装置１００と当該外部機器との間でデータが交換されてもよい。

（通信装置）
通信装置１５２は、情報処理装置１００と外部装置との間の通信を仲介し、通信部１１０の機能を実現する。具体的には、通信装置１５２は、無線通信方式または有線通信方式に従って通信を実行する。例えば、通信装置１５２は、ＷＣＤＭＡ（登録商標）（Wideband Code Division Multiple Access）、ＷｉＭＡＸ（登録商標）、ＬＴＥ（Long Term Evolution）もしくはＬＴＥ−Ａなどのセルラ通信方式に従って無線通信を実行する。なお、通信装置１５２は、Bluetooth（登録商標）、ＮＦＣ（Near Field Communication）、ワイヤレスＵＳＢもしくはTransferJet（登録商標）などの近距離無線通信方式、またはＷｉ−Ｆｉ（登録商標）などの無線ＬＡＮ（Local Area Network）方式といった、任意の無線通信方式に従って無線通信を実行してもよい。また、通信装置１５２は、信号線通信または有線ＬＡＮ通信などの有線通信を実行してよい。

なお、情報処理装置１００は、図１３を用いて説明した構成の一部を有しなくてもよく、または任意の追加的な構成を有していてもよい。また、図１３を用いて説明した構成の全体または一部を集積したワンチップの情報処理モジュールが提供されてもよい。

＜４．むすび＞
以上、本開示の第１の実施形態によれば、使用辞書の内容を適切に入れ替えることができる。そのため、起動ワードを設けることなく、日常の会話における音声の認識による誤作動を防止することができる。また、使用辞書のサイズを大きくすることなく、認識率を向上させることができる。それにより、誤認識の増加および処理時間の長期化も抑制することができる。従って、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。さらに、複数の音声認識処理を実行させることなく、認識率を向上させることができる。それにより、製造コストおよび処理負荷の増加を抑制することができる。

また、本開示の第２の実施形態によれば、使用辞書の内容を適切に入れ替えることができる。特に、音声入力操作においては音声認識処理の入力となる音声を発するユーザが音声認識処理へ与える影響は大きい。従って、そのようなユーザの情報に基づいて使用辞書の内容が変更されることにより、音声認識の誤作動、認識率の向上ならびに誤認識および処理時間の長期化の抑制を効果的に実現することができる。すなわち、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記実施形態では、情報処理システムすなわち情報処理装置１００およびサーバ２００が処理を行うとしたが、本技術はかかる例に限定されない。例えば、情報処理装置１００が単体で処理を行ってもよい。また、情報処理装置１００は、アクセススピードおよび記憶容量が異なる複数のメモリを備え、当該複数のメモリを用いて上述したような情報処理装置１００とサーバ２００とを用いた処理が実現されてもよい。例えば、情報処理装置１００は第１のメモリおよび第２のメモリを備える。第１のメモリについては、アクセススピードは第２のメモリよりも速いが記憶容量は第２のメモリより小さい。また、第２のメモリについては、アクセススピードは第１のメモリよりも遅いが記憶容量は第１のメモリよりも大きい。そして、情報処理装置１００は、使用辞書としてまず第１のメモリに記憶される辞書を利用し、第１のメモリに記憶される辞書において音声認識が失敗すると、第２のメモリに記憶される辞書を使用辞書として利用する。当然ながら、第１のメモリおよび第２のメモリに記憶される辞書は上述したような辞書変更処理により適正化される。このように、アクセススピードおよび記憶容量が異なる複数のメモリが用いられることにより、音声入力に対する処理のレスポンスの高速化と音声認識の成功率の維持または向上とを両立させることができる。特に、上述したような構成は、情報処理装置１００が単体で処理を行う場合に有意義である。

また、上記実施形態では、音声入力操作の客体情報または主体情報の各々についてそれぞれ使用辞書が変更される例を説明したが、当該客体情報および主体情報の組合せについて使用辞書が変更されてもよい。

さらに、当該客体情報または主体情報に加えて、時間情報が使用辞書の変更に用いられてもよい。時間情報としては、時分、日付、曜日、昼夜または季節などがある。例えば、情報処理装置１００は、起動中のアプリケーションおよび時間帯の組合せに対応する辞書または当該組合せに対応する対応関係を含む辞書に使用辞書を変更してよい。この場合、さらに詳細な状況に応じて使用辞書が変更されることにより、より音声が正しく認識されやすくすることができる。従って、認識性能をさらに向上させることが可能となる。

また、上記実施形態では、使用辞書へ対応関係が入れ替えられる例を主に説明したが、使用辞書から対応関係が抜き出されるだけであってもよい。例えば、認識性能の低下または処理時間の長期化が推定される場合、情報処理装置１００は、使用頻度が相対的に低い対応関係を使用辞書から抜き出す。これにより、使用辞書における対応関係の数が減るため、誤認識の発生するおそれを低下させることができる。また、処理時間すなわちレスポンスも短縮することができる。

また、上記実施形態では、使用辞書が変更される例を主に説明したが、使用辞書は変更されなくてもよい。例えば、入れ替えられるべき対応関係が存在しない場合には、情報処理装置１００は、使用辞書の変更を中止してよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

また、上記の実施形態のフローチャートに示されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的にまたは個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。

また、情報処理装置１００に内蔵されるハードウェアに上述した情報処理装置１００の各機能構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムが記憶された記憶媒体も提供される。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
音声入力により得られる音声情報を得る取得部と、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、
を備える情報処理装置。
（２）
変更に係る前記対応関係は、前記操作の客体情報または前記操作の主体情報から推定される、前記操作についての前記音声認識処理における前記対応関係についての使用情報、に基づいて決定される前記対応関係を含む、
前記（１）に記載の情報処理装置。
（３）
前記使用情報は、使用頻度が特定される情報を含む、
前記（２）に記載の情報処理装置。
（４）
前記使用情報は、使用可否が特定される情報を含む、
前記（２）または（３）に記載の情報処理装置。
（５）
前記制御部は、さらに前記操作の客体情報または前記操作の主体情報に基づいて前記対応関係の集合の変更を制御する、
前記（１）〜（４）のいずれか１項に記載の情報処理装置。
（６）
前記対応関係の集合の変更は、集合の大きさが異なる前記対応関係の集合へ変更を含む、
前記（５）に記載の情報処理装置。
（７）
前記対応関係は、通信を介して変更される、
前記（１）〜（６）のいずれか１項に記載の情報処理装置。
（８）
前記操作の客体情報は、操作対象または前記操作対象の属性が特定される情報を含む、
前記（１）〜（７）のいずれか１項に記載の情報処理装置。
（９）
前記操作対象は、アプリケーションまたは機器を含む、
前記（８）に記載の情報処理装置。
（１０）
前記制御部は、さらに前記情報処理装置の通信可否に基づいて前記対応関係の変更を制御する、
前記（１）〜（９）のいずれか１項に記載の情報処理装置。
（１１）
前記操作の主体情報は、前記操作の主体の態様が特定される情報を含む、
前記（１）〜（１０）のいずれか１項に記載の情報処理装置。
（１２）
前記操作の主体の態様は、前記操作の主体の行動、姿勢または位置を含む、
前記（１１）に記載の情報処理装置。
（１３）
前記操作の主体情報は、前記操作の主体の周辺環境が特定される情報を含む、
前記（１）〜（１２）のいずれか１項に記載の情報処理装置。
（１４）
前記操作の主体情報は、前記操作の主体または前記操作の主体の属性が特定される情報を含む、
前記（１）〜（１３）のいずれか１項に記載の情報処理装置。
（１５）
前記操作の客体情報または前記操作の主体情報は、前記操作の客体または主体について取得される情報に基づいて推定される情報を含む、
前記（１）〜（１４）のいずれか１項に記載の情報処理装置。
（１６）
前記操作の客体情報または前記操作の主体情報は、前記音声認識処理により得られる情報を含む、
前記（１）〜（１５）のいずれか１項に記載の情報処理装置。
（１７）
前記対応関係の変更についての前記操作の主体への通知を制御する通知制御部をさらに備える、
前記（１）〜（１６）のいずれか１項に記載の情報処理装置。
（１８）
前記対応関係に係る前記音声情報は、前記操作の開始を示す音声情報または前記操作の内容を示す音声情報を含む、
前記（１）〜（１７）のいずれか１項に記載の情報処理装置。
（１９）
プロセッサを用いて、
音声入力により得られる音声情報を得ることと、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御することと、
を含む情報処理方法。
（２０）
音声入力により得られる音声情報を得る取得機能と、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御機能と、
をコンピュータに実現させるためのプログラム。

１００情報処理装置
１０２音声入力部
１０４音声認識部
１０６記憶部
１０８制御部
１１０通信部
１２０主体認識部
１２２観察部
２００サーバ

Claims

音声入力により得られる音声情報を得る取得部と、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、
を備える情報処理装置。
変更に係る前記対応関係は、前記操作の客体情報または前記操作の主体情報から推定される、前記操作についての前記音声認識処理における前記対応関係についての使用情報、に基づいて決定される前記対応関係を含む、
請求項１に記載の情報処理装置。
前記使用情報は、使用頻度が特定される情報を含む、
請求項２に記載の情報処理装置。
前記使用情報は、使用可否が特定される情報を含む、
請求項２に記載の情報処理装置。
前記制御部は、さらに前記操作の客体情報または前記操作の主体情報に基づいて前記対応関係の集合の変更を制御する、
請求項１に記載の情報処理装置。
前記対応関係の集合の変更は、集合の大きさが異なる前記対応関係の集合へ変更を含む、
請求項５に記載の情報処理装置。
前記対応関係は、通信を介して変更される、
請求項１に記載の情報処理装置。
前記操作の客体情報は、操作対象または前記操作対象の属性が特定される情報を含む、
請求項１に記載の情報処理装置。
前記操作対象は、アプリケーションまたは機器を含む、
請求項８に記載の情報処理装置。
前記制御部は、さらに前記情報処理装置の通信可否に基づいて前記対応関係の変更を制御する、
請求項１に記載の情報処理装置。
前記操作の主体情報は、前記操作の主体の態様が特定される情報を含む、
請求項１に記載の情報処理装置。
前記操作の主体の態様は、前記操作の主体の行動、姿勢または位置を含む、
請求項１１に記載の情報処理装置。
前記操作の主体情報は、前記操作の主体の周辺環境が特定される情報を含む、
請求項１に記載の情報処理装置。
前記操作の主体情報は、前記操作の主体または前記操作の主体の属性が特定される情報を含む、
請求項１に記載の情報処理装置。
前記操作の客体情報または前記操作の主体情報は、前記操作の客体または主体について取得される情報に基づいて推定される情報を含む、
請求項１に記載の情報処理装置。
前記操作の客体情報または前記操作の主体情報は、前記音声認識処理により得られる情報を含む、
請求項１に記載の情報処理装置。
前記対応関係の変更についての前記操作の主体への通知を制御する通知制御部をさらに備える、
請求項１に記載の情報処理装置。
前記対応関係に係る前記音声情報は、前記操作の開始を示す音声情報または前記操作の内容を示す音声情報を含む、
請求項１に記載の情報処理装置。
プロセッサを用いて、
音声入力により得られる音声情報を得ることと、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御することと、
を含む情報処理方法。
音声入力により得られる音声情報を得る取得機能と、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御機能と、
をコンピュータに実現させるためのプログラム。