JPWO2019171732A1

JPWO2019171732A1 - 情報処理装置、情報処理方法、プログラム及び情報処理システム

Info

Publication number: JPWO2019171732A1
Application number: JP2020504813A
Authority: JP
Inventors: 衣未留角尾
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-03-08
Filing date: 2018-12-28
Publication date: 2021-02-18
Also published as: DE112018007242T5; CN111656437A; WO2019171732A1; US20200410987A1

Abstract

所定の音声が入力される入力部と、所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部とを有する情報処理装置である。図１

Description

本開示は、情報処理装置、情報処理方法、プログラム及び情報処理システムに関する。

音声認識を行う電子機器が提案されている（例えば、特許文献１及び２を参照のこと）。

特開２０１４−１３７４３０号公報特開２０１７−１９１１１９号公報

このような分野では、エージェントに対する操作を意図しない発話に基づいて音声認識が行われ、エージェントが誤動作してしまうことを防止することが望まれる。

本開示は、例えば、ユーザがエージェントに対する操作を意図した音声を発した場合に、当該音声に応じた処理を行う情報処理装置、情報処理方法、プログラム及び情報処理システムを提供することを目的の一つとする。

本開示は、例えば、
所定の音声が入力される入力部と、
所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部と
を有する情報処理装置である。

本開示は、例えば、
判別部が、入力部に対して所定のワードが含まれる音声が入力された後に入力部に入力される音声が、機器に対する操作を意図したものであるか否かを判別する
情報処理方法である。

本開示は、例えば、
判別部が、入力部に対して所定のワードが含まれる音声が入力された後に入力部に入力される音声が、機器に対する操作を意図したものであるか否かを判別する
情報処理方法をコンピュータに実行させるプログラムである。

本開示は、例えば、
第１の装置と、第２の装置とを含み、
第１の装置は、
音声が入力される入力部と、
所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部と、
所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであると判別部により判別された場合に、当該音声を第２の装置に送信する通信部と
を有し、
第２の装置は、
第１の装置から送信された音声に対する音声認識を行う音声認識部を有する
情報処理システムである。

本開示の少なくとも実施形態によれば、エージェントに対する操作を意図しない発話に基づいて音声認識が行われ、エージェントが誤動作してしまうことを防止することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれの効果であっても良い。また、例示された効果により本開示の内容が限定して解釈されるものではない。

図１は、一実施形態にかかるエージェントの構成例を示すブロック図である。図２は、一実施形態にかかる機器操作意図判別部で行われる処理例を説明するための図である。図３は、一実施形態にかかるエージェントで行われる処理の流れを示すフローチャートである。図４は、変形例にかかる情報処理システムの構成例を示すブロック図である。

以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜実施形態において考慮すべき問題＞
＜１．一実施形態＞
＜２．変形例＞
以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。

＜実施形態において考慮すべき問題＞
始めに本開示の理解を容易とするために、実施形態において考慮すべき問題について説明する。本実施形態では、音声認識を行うエージェント（機器）に対する操作を例にして説明する。エージェントとは、例えば、可搬可能な程度の大きさである音声出力装置若しくはそれらの装置が有するユーザとの音声対話機能を意味する。このような音声出力装置は、スマートスピーカなどとも称される。勿論、エージェントはスマートスピーカに限定されることなく、ロボット等であっても良い。エージェントに対してユーザが音声を発する。エージェントは、ユーザが発した音声を音声認識することにより、音声に対応した処理を実行したり、音声による回答を出力する。

かかる音声認識システムにおいてエージェントがユーザの発話を認識する際、ユーザが意図的にエージェントに話している場合は音声認識処理を行うべきであるが、独り言や周囲の他のユーザとの会話など、そうでない場合は音声認識をしないことが望まれる。ユーザの発話が、エージェントに対する発話であるか否かの判断をエージェントで行うことは難しく、一般的に、操作を意図していない発話に対しても音声認識処理を行い、誤った音声認識結果を得ることが多い。また、音声認識の結果からエージェントに対する操作意図の有無を識別する識別器の利用や、音声認識における確信度を利用することも考えられるが、処理量が大きくなってしまう問題がある。

ところで、ユーザが、エージェントに対する操作を意図した発話を行う場合に、「起動ワード」と呼ばれる、典型的な短いフレーズを発話した後にエージェントに対する操作を意図した発話がなされることが多い。起動ワードは、例えば、エージェントの愛称等である。具体例として、ユーザは起動ワードを発した後「ボリュームを大きくして」や「明日の天気を教えて」などを発話する。エージェントは、発話の内容を音声認識し、その結果に応じた処理を実行する。

このように、エージェントを操作する場合は必ず起動ワードを唱え、起動ワード後の発話は全てエージェントを操作するという前提で音声認識処理及び認識結果に応じた処理が行われる。しかしながら、かかる方法によれば、起動ワード後にエージェントに対する操作を意図しない独り言や、家族との会話、物音などが発生した場合に、エージェントが音声認識を誤る可能性がある。その結果、ユーザがエージェントに対する操作を意図しない発話をした場合に、意図しない処理がエージェントにより実行される虞がある。

また、よりインタラクティブなシステムを目指した場合、一度の起動ワードの発話で以降一定時間は続けて発話できるようにするなどの場合は、上述したようなエージェントに対する操作意図のない発話が生じる可能性が高くなる。かかる問題を考慮しつつ、本開示の一実施形態について説明する。

＜１．一実施形態＞
［エージェントの構成例］
図１は、一実施形態にかかる情報処理装置の一例であるエージェント（エージェント１０）の構成例を示すブロック図である。エージェント１０は、例えば、自宅内（屋内）に置かれる可搬可能な程度の小型のエージェントである。勿論、エージェント１０が置かれる場所は、エージェント１０のユーザが適宜、決めることができるし、エージェント１０の大きさも小型でなくても良い。

エージェント１０は、例えば、制御部１０１と、センサ部１０２と、出力部１０３と、通信部１０４と、入力部１０５と、特徴量記憶部１０６とを有している。

制御部１０１は、例えば、ＣＰＵ（Central Processing Unit）等から構成されており、エージェント１０の各部を制御する。制御部１０１は、プログラムが格納されるＲＯＭ(Read Only Memory)や当該プログラムを実行する際にワークメモリとして使用されるＲＡＭ（Random Access Memory）を有している（なお、これらの図示は省略している。）。

制御部１０１は、その機能として起動ワード識別部１０１ａと、特徴量抽出部１０１ｂと、機器操作意図判別部１０１ｃと、音声認識部１０１ｄとを有している。

識別部の一例である起動ワード識別部１０１ａは、エージェント１０に入力される音声に、所定のワードの一例である起動ワードが含まれるか否かを検出する。本実施形態にかかる起動ワードは、エージェント１０の愛称を含むワードであるが、これに限定されるものではない。例えば、起動ワードをユーザが設定することも可能である。

特徴量抽出部１０１ｂは、エージェント１０に入力される音声の音響特徴量を抽出する。特徴量抽出部１０１ｂは、パターンマッチングを行う音声認識処理に比べて処理的な負荷が小さい処理により音声に含まれる音響特徴量を抽出する。例えば、入力される音声の信号をＦＦＴ(Fast Fourier Transform)した結果に基づいて音響特徴量を抽出する。なお、本実施形態にかかる音響特徴量は、音色、音高、話速及び音量のうち少なくとも一つに関する特徴量を意味する。

判別部の一例である機器操作意図判別部１０１ｃは、例えば、起動ワードが含まれる音声が入力された後に入力される音声が、エージェント１０に対する操作を意図したものであるか否かを判別する。そして、機器操作意図判別部１０１ｃは、判別結果を出力する。

音声認識部１０１ｄは、例えば、入力される音声に対してパターンマッチングを用いた音声認識を行う。なお、上述した起動ワード識別部１０１ａによる音声認識は、予め決められた起動ワードに対応するパターンとのマッチング処理だけを行えば良いので、音声認識部１０１ｄが行う音声認識処理に比べて負荷が軽い処理である。制御部１０１は、音声認識部１０１ｄの音声認識結果に基づいた制御を実行する。

センサ部１０２は、例えば、ユーザの発話（音声）を検出するマイクロフォン（入力部の一例）である。勿論、センサ部１０２として他のセンサが適用されても良い。

出力部１０３は、例えば、音声認識によって制御部１０１により実行された制御の結果を出力するものである。出力部１０３は、例えば、スピーカ装置である。出力部１０３は、スピーカ装置ではなく、ディスプレイであっても良いし、プロジェクタであっても良いし、これらを組み合わせたものであっても良い。

通信部１０４は、インターネット等のネットワークを介して接続される他の装置と通信を行うものであり、通信方式に対応した変復調回路、アンテナ等の構成を有している。

入力部１０５は、ユーザからの操作入力を受け付けるものである。入力部１０５は、例えば、ボタン、レバー、スイッチ、タッチパネル、マイク、視線検出デバイス等である。入力部１０５は、自身に対してなされた入力に応じて操作信号を生成し、当該操作信号を制御部１０１に供給する。制御部１０１は、当該操作信号に応じた処理を実行する。

特徴量記憶部１０６は、特徴量抽出部１０１ｂにより抽出された特徴量を記憶する。特徴量記憶部１０６は、エージェント１０に内蔵されるハードディスク、半導体メモリ等でも良いし、エージェント１０に着脱自在とされるメモリであっても良いし、それらの組み合わせでも良い。

なお、エージェント１０は商用電源から供給される電力に基づいて駆動する構成でも良いし、充放電可能なリチウムイオン二次電池等から供給される電力に基づいて駆動する構成でも良い。

（機器操作意図判別部における処理例）
図２を参照して、機器操作意図判別部１０１ｃにおける処理の例を説明する。機器操作意図判別部１０１ｃは、入力音声から抽出した音響特徴量と、過去に記憶された音響特徴量（特徴量記憶部１０６から読み出された音響特徴量）とを用いて、操作意図の有無に関する識別処理を行う。

前段の処理では抽出された音響特徴量は複数レイヤーのニューラルネットワーク（ＮＮ）によって変換処理が行われたのち、時系列方向の情報を蓄積する処理を行う。これには平均、分散などの統計量を計算するのでも良いし、ＬＳＴＭ(Long Short Time Memory)などの時系列処理モジュールを利用しても良い。過去に記憶した起動ワード及び現在の音響特徴量から、この処理によってそれぞれベクトル情報を計算し、後段の複数レイヤーのニューラルネットワークに並列に入力する。本例では、単純に２つのベクトルを連結させて１つのベクトルとして入力する。最終層ではエージェント１０に対する操作意図があるかないかを示す２次元の値を計算し、Softmax関数などによって識別結果を出力する。

かかる機器操作意図判別部１０１ｃは、事前に大量のラベル付きデータによって教師あり学習を行うことでパラメータを学習しておく。前段と後段を統合的に学習することでより最適な識別器の学習が実現する。また、前段処理の結果のベクトルが、エージェントに対する操作意図があるものとないもので大きく異なるようになるような制約を目的関数に加えることも可能である。

［エージェントの動作例］
（動作の概要）
次に、エージェント１０の動作例について説明する。始めに、動作の概要について説明する。エージェント１０は、起動ワードを認識した際に、起動ワード（当該起動ワードを含む音声でも良い）の音響特徴量を抽出して記憶する。ユーザが起動ワードを発する場合は、エージェント１０に対する操作意図をもった発話である場合がほとんどである。また、エージェント１０に対する操作意図をもってユーザが発話する場合は、エージェント１０に対して正確な認識が行われるように、ユーザは、はっきりと明瞭に、比較的大きな声で、分かりやすく発話する傾向がある。

一方で、エージェント１０に対する操作を意図しない独り言や他者との会話では、より自然に、人間に理解できる程度の音量や話速で、多くのフィラーや言いよどみを含みながら発話されることが多い。

即ち、エージェント１０に対する操作意図をもった発話の場合は、音響特徴量として固有の傾向を示す場合が多く、例えば起動ワードに関する音響特徴量には、ユーザのエージェント１０に対する操作意図がある発話の声色や声の高さ、話速、音量などの情報が含まれていることになる。従って、これらの音響特徴量を記憶して、エージェント１０に対する操作意図の有無を識別する処理で利用することにより、高い精度での識別が可能となる。また、多数のパターンとマッチングを行う音声認識を用いてエージェント１０に対する操作意図の有無を識別する処理に比べて、簡易な処理による識別が可能となる。更に、エージェント１０に対する操作意図の有無を識別する処理を高精度に行うことが可能となる。

そして、ユーザがエージェント１０に対する操作を意図した発話をしたと識別された場合に、当該発話の音声に対する音声認識（例えば、複数のパターンとのマッチングを行う音声認識）が行われる。エージェント１０の制御部１０１は、音声認識の結果に応じた処理を実行する。

（処理の流れ）
エージェント１０（より具体的には、エージェント１０の制御部１０１）で行われる処理の流れの一例を、図３のフローチャートを参照して説明する。ステップＳＴ１１では、起動ワード識別部１０１ａが、センサ部１０２に入力される音声に起動ワードが含まれるか否かを識別する音声認識（起動ワード認識）を行う。そして、処理がステップＳＴ１２に進む。

ステップＳＴ１２では、ステップＳＴ１１での音声認識の結果が起動ワードであったか否かが判断される。ここで、ステップＳＴ１１での音声認識の結果が起動ワードである場合は、処理がステップＳＴ１３に進む。

ステップＳＴ１３では、発話受入期間が開始される。発話受入期間は、例えば、起動ワードが識別されたタイミングから所定の期間（例えば、１０秒）設定される期間である。そして、この期間に入力された音声に対して、エージェント１０に対する操作意図がある発話であるか否かの判断がなされる。なお、一度、発話受入期間が設定された後に、起動ワードが認識された場合には、当該発話受入期間を延長するようにしても良い。そして、処理がステップＳＴ１４に進む。

ステップＳＴ１４では、特徴量抽出部１０１ｂが音響特徴量を抽出する。特徴量抽出部１０１ｂは、起動ワードの音響特徴量のみを抽出するようにしても良いし、起動ワード以外の音声が含まれる場合には、当該起動ワードを含む音声の音響特徴量を抽出するようにしても良い。そして、処理がステップＳＴ１５に進む。

ステップＳＴ１５では、制御部１０１が抽出した音響特徴量を特徴量記憶部１０６に記憶する。そして、処理が終了する。

ユーザが起動ワードを発した後、起動ワードを含まない発話（エージェント１０に対する操作意図が有る発話の場合もあれば、そうでない発話の場合もあり得る）、物音等がエージェント１０のセンサ部１０２に入力される場合を考える。この場合にもステップＳＴ１１の処理が行われる。

ステップＳＴ１１の処理では起動ワードが認識されないことから、ステップＳＴ１２の処理がＮｏとなり、処理がステップＳＴ１６に進む。

ステップＳＴ１６では、発話受入期間であるか否かが判断される。ここで、発話受入期間でない場合には、エージェントに対する操作意図を判別する処理は行われないので、処理が終了する。ステップＳＴ１６における処理で、発話受入期間である場合には、処理がステップＳＴ１７に進む。

ステップＳＴ１７では、発話受入期間に入力された音声の音響特徴量が抽出される。そして、処理がステップＳＴ１８に進む。

ステップＳＴ１８では、機器操作意図判別部１０１ｃがエージェント１０に対する操作意図の有無を判別する。例えば、機器操作意図判別部１０１ｃは、ステップＳＴ１７で抽出された音響特徴量と、特徴量記憶部１０６から読み出された音響特徴量とを比較し、その一致度が所定以上である場合に、エージェント１０に対するユーザの操作意図が有ると判別する。勿論、機器操作意図判別部１０１ｃがエージェント１０に対する操作意図の有無を識別するアルゴリズムは、適宜変更可能である。そして、処理がステップＳＴ１９に進む。

ステップＳＴ１９では、機器操作意図判別部１０１ｃが判別結果を出力する。機器操作意図判別部１０１ｃは、例えば、エージェント１０に対するユーザの操作意図が有ると判別した場合には、論理的な値である「１」を出力し、エージェント１０に対するユーザの操作意図が無いと判別した場合には、論理的な値である「０」を出力する。そして、処理が終了する。

なお、図３では図示していないが、エージェント１０に対するユーザの操作意図が有ると判別された場合には、音声認識部１０１ｄによる入力音声に対する音声認識処理が行われる。そして、音声認識処理の結果に応じた処理が制御部１０１による制御によって行われる。音声認識処理の結果に応じた処理は、エージェント１０の機能に応じて、適宜変更できる。例えば、音声認識処理の結果が「天気の問いかけ」である場合には、例えば、制御部１０１は通信部１０４を制御して、外部の装置から天気に関する情報を取得する。そして、制御部１０１は、取得した天気情報に基づいて音声信号を合成し、当該音声信号に対応する音声を出力部１０３から出力する。これにより、ユーザに対して、天気に関する情報が音声により報知される。勿論、映像、若しくは映像と音声の組み合わせ等により天気に関する情報が報知されるようにしても良い。

以上説明した一実施形態により、複数のパターンマッチングを伴う音声認識処理の結果を待つことなく、エージェントに対する操作意図の有無を判別することができる。また、エージェントに対する操作意図がない発話によるエージェントの誤動作を防止することができる。また、起動ワードに対する認識を並行して行うことにより、エージェントに対する操作意図の有無を高精度で識別することができる。

また、エージェントに対する操作意図の有無を判別する際に、複数のパターンマッチングを伴う音声認識を直接使わないため、簡易な処理による判別が可能となる。また、エージェントの機能が他のデバイス（例えば、テレビジョン装置、白物家電、ＩｏＴ（Internet of Things）機器等）に組み込まれる場合でも、操作意図の判別に伴う処理的な負荷が比較的小さいので、それらのデバイスへのエージェントの機能の導入が容易となる。また、起動ワード発声後にエージェントが誤動作することなく音声を受け入れ続けることが可能となり、よりインタラクティブな対話によるエージェント操作が実現可能となる。

＜２．変形例＞
以上、本開示の一実施形態について具体的に説明したが、本開示の内容は上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。以下、変形例について説明する。

［変形例にかかる情報処理システムの構成例］
上述した一実施形態で説明した一部の処理がクラウド側で行われても良い。図４は、変形例にかかる情報処理システムの構成例を示している。なお、図４において、上述した一実施形態における構成と同一、同質の構成については、同一の参照符号を付している。

変形例にかかる情報処理システムは、例えば、エージェント１０ａとクラウドの一例であるサーバ２０とを有している。エージェント１０ａがエージェント１０と異なる点は、制御部１０１が音声認識部１０１ｄを有していない点である。

サーバ２０は、例えば、サーバ制御部２０１と、サーバ通信部２０２とを有している。サーバ制御部２０１は、サーバ２０の各部を制御する構成であり、機能として、例えば、音声認識部２０１ａを有している。音声認識部２０１ａは、例えば、一実施形態にかかる音声認識部１０１ｄと同様に動作する。

サーバ通信部２０２は、他の装置、例えば、エージェント１０ａと通信を行う構成であり、通信方式に応じた変復調回路、アンテナ等を有している。通信部１０４及びサーバ通信部２０２間で通信が行われることにより、エージェント１０ａ及びサーバ２０間での通信が行われ、各種のデータの送受信がなされる。

情報処理システムの動作例について説明する。発話受入期間に入力された音声に対して、機器操作意図判別部１０１ｃにより、エージェント１０ａに対する操作意図の有無が判別される。制御部１０１は、機器操作意図判別部１０１ｃがエージェント１０ａに対する操作意図が有ると判別した場合に通信部１０４を制御し、発話受入期間に入力された音声に対応する音声データをサーバ２０に対して送信する。

エージェント１０ａから送信された音声データが、サーバ２０のサーバ通信部２０２により受信される。サーバ通信部２０２は、受信した音声データをサーバ制御部２０１により供給する。そして、サーバ制御部２０１の音声認識部２０１ａが受信した音声データに対する音声認識を実行する。サーバ制御部２０１が音声認識の結果を、サーバ通信部２０２を介してエージェント１０ａに送信する。サーバ制御部２０１が音声認識の結果に対応するデータをエージェント１０ａに送信するようにしても良い。

サーバ２０で音声認識を行う場合に、エージェント１０ａに対する操作意図が無い発話がサーバ２０に送信されてしまうことを防止できるので、通信負荷を軽くすることができる。また、エージェント１０ａに対する操作意図が無い発話をサーバ２０に送信する必要がないため、セキュリティの観点からユーザに利点がある。即ち、不正なアクセス等により操作意図が無い発話が他者に取得されてしまうことを防止することができる。

このように、一実施形態におけるエージェント１０の処理の一部がサーバで行われるようにしても良い。

［その他の変形例］
起動ワードの音響特徴量を記憶する際に、常に上書きし最新の音響特徴量を使うのでも良いし、一定期間のものを蓄積し、それら全てを利用するようにしても良い。常に最新の音響特徴量を用いることで、日々起こる変化、例えばユーザの入れ替りや風邪による声の変化やマスク着用による音響特徴量（例えば、音質）の変化などに柔軟に対応することができる。一方、蓄積した音響特徴量を用いる場合は、稀に起こり得る起動ワード識別部１０１ａのエラーを最小限に抑える効果がある。また、起動ワードのみでなく、エージェントに対する操作意図があると判別された発話に対しても蓄積対象としてよい。その場合さまざまな発話のバリエーションを吸収できる。この場合に、起動ワード毎に対応する音響特徴量を対応付けて記憶するようにしても良い。

また、学習のバリエーションとして、一実施形態のように事前に機器操作意図判別部１０１ｃのパラメータを学習しておくやり方の他に、他のモーダルなどの情報を受けてユーザが使用するたびにさらに学習が行われるようにすることもできる。例えば、センサ部１０２として撮像装置を適用し、顔認識や視線認識を可能とする。顔認識や視線認識と組み合わせて、ユーザがエージェントの方を向いて明らかにエージェントに対する操作意図がある場合において、「エージェント操作意図あり」というようなラベル情報とともに実際のユーザの発話と共に学習するようにしても良い。その他にも、手を挙げたのを認識した結果や、タッチセンサによる接触検知の結果と組み合わせるようにしても良い。

上述した一実施形態では入力部としてセンサ部１０２を例にしたが、これに限定されるものではない。機器操作意図判別部がサーバに設けられる構成でも良く、この場合は、通信部や所定のインタフェースが入力部として機能する。

上述した一実施形態で説明した構成は一例に過ぎず、これに限定されるものではない。本開示の趣旨を逸脱しない範囲で、構成の追加、削除等が行われて良いことは言うまでもない。本開示は、装置、方法、プログラム、システム等の任意の形態で実現することもできる。また、一実施形態にかかるエージェントは、ロボット、家電製品、テレビ、車載機器、ＩｏＴ機器等に組み込まれていても良い。

本開示は、以下の構成も採ることができる。
（１）
所定の音声が入力される入力部と、
所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部と
を有する情報処理装置。
（２）
前記音声に前記所定のワードが含まれるか否かを識別する識別部を有する
（１）に記載の情報処理装置。
（３）
前記音声に前記所定のワードが含まれる場合に、少なくとも前記ワードの音響特徴量を抽出する特徴量抽出部を有する
（２）に記載の情報処理装置。
（４）
前記特徴量抽出部により抽出された前記ワードの音響特徴量を記憶する記憶部を有する
（３）に記載の情報処理装置。
（５）
前記特徴量抽出部により抽出された前記ワードの音響特徴量が、過去に記憶された音響特徴量に上書きして記憶される
（４）に記載の情報処理装置。
（６）
前記特徴量抽出部により抽出された前記ワードの音響特徴量が、過去に記憶された音響特徴量に共に記憶される
（４）に記載の情報処理装置。
（７）
前記所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであると前記判別部により判別された場合に、当該音声を他の装置に送信する通信部を有する
（１）から（６）までの何れかに記載の情報処理装置。
（８）
前記判別部は、所定のワードが含まれる音声が入力された後に入力される音声の音響特徴量に基づいて、当該音声が機器に対する操作を意図したものであるか否かを判別する
（１）から（７）までの何れかに記載の情報処理装置。
（９）
前記判別部は、所定のワードが識別されたタイミングから所定期間内に入力される音声の音響特徴量に基づいて、当該音声が機器に対する操作を意図したものであるか否かを判別する
（８）に記載の情報処理装置。
（１０）
前記音響特徴量は、音色、音高、話速及び音量のうち少なくとも一つに関する特徴量である
（８）又は（９）に記載の情報処理装置。
（１１）
判別部が、入力部に対して所定のワードが含まれる音声が入力された後に前記入力部に入力される音声が、機器に対する操作を意図したものであるか否かを判別する
情報処理方法。
（１２）
判別部が、入力部に対して所定のワードが含まれる音声が入力された後に前記入力部に入力される音声が、機器に対する操作を意図したものであるか否かを判別する
情報処理方法をコンピュータに実行させるプログラム。
（１３）
第１の装置と、第２の装置とを含み、
前記第１の装置は、
音声が入力される入力部と、
所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部と、
前記所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであると前記判別部により判別された場合に、当該音声を前記第２の装置に送信する通信部と
を有し、
前記第２の装置は、
前記第１の装置から送信された音声に対する音声認識を行う音声認識部を有する
情報処理システム。

１０・・・エージェント、２０・・・サーバ、１０１・・・制御部、１０１ａ・・・起動ワード識別部、１０１ｂ・・・特徴量抽出部、１０１ｃ・・・機器操作意図判別部、１０１ｄ、２０１ａ・・・音声認識部、１０４・・・通信部、１０６・・・特徴量記憶部

Claims

所定の音声が入力される入力部と、
所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部と
を有する情報処理装置。
前記音声に前記所定のワードが含まれるか否かを識別する識別部を有する
請求項１に記載の情報処理装置。
前記音声に前記所定のワードが含まれる場合に、少なくとも前記ワードの音響特徴量を抽出する特徴量抽出部を有する
請求項２に記載の情報処理装置。
前記特徴量抽出部により抽出された前記ワードの音響特徴量を記憶する記憶部を有する
請求項３に記載の情報処理装置。
前記特徴量抽出部により抽出された前記ワードの音響特徴量が、過去に記憶された音響特徴量に上書きして記憶される
請求項４に記載の情報処理装置。
前記特徴量抽出部により抽出された前記ワードの音響特徴量が、過去に記憶された音響特徴量に共に記憶される
請求項４に記載の情報処理装置。
前記所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであると前記判別部により判別された場合に、当該音声を他の装置に送信する通信部を有する
請求項１に記載の情報処理装置。
前記判別部は、所定のワードが含まれる音声が入力された後に入力される音声の音響特徴量に基づいて、当該音声が機器に対する操作を意図したものであるか否かを判別する
請求項１に記載の情報処理装置。
前記判別部は、所定のワードが識別されたタイミングから所定期間内に入力される音声の音響特徴量に基づいて、当該音声が機器に対する操作を意図したものであるか否かを判別する
請求項８に記載の情報処理装置。
前記音響特徴量は、音色、音高、話速及び音量のうち少なくとも一つに関する特徴量である
請求項８に記載の情報処理装置。
判別部が、入力部に対して所定のワードが含まれる音声が入力された後に前記入力部に入力される音声が、機器に対する操作を意図したものであるか否かを判別する
情報処理方法。
判別部が、入力部に対して所定のワードが含まれる音声が入力された後に前記入力部に入力される音声が、機器に対する操作を意図したものであるか否かを判別する
情報処理方法をコンピュータに実行させるプログラム。
第１の装置と、第２の装置とを含み、
前記第１の装置は、
音声が入力される入力部と、
所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部と、
前記所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであると前記判別部により判別された場合に、当該音声を前記第２の装置に送信する通信部と
を有し、
前記第２の装置は、
前記第１の装置から送信された音声に対する音声認識を行う音声認識部を有する
情報処理システム。