WO2020203067A1

WO2020203067A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2020203067A1
Application number: PCT/JP2020/009948
Authority: WO
Inventors: 達馬櫻井; 一太朗小原
Original assignee: ソニー株式会社
Priority date: 2019-03-29
Filing date: 2020-03-09
Publication date: 2020-10-08
Also published as: JPWO2020203067A1; US20220157305A1; JP7501523B2; EP3950236A1; EP3950236A4; US12057118B2

Abstract

音声認識処理の結果に基づいて動作体の動作を制御する制御部、を備え、前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御する、情報処理装置が提供される。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　近年、音声認識処理に基づく動作を行う種々の装置が普及されている。また、音声認識処理の精度を向上させるための技術も多く開発されている。例えば、特許文献１には、雑音の音源と成り得る他の装置の音量レベルを低下させることで、音声認識精度を向上させる技術が開示されている。

特開２０１７－１３８４７６号公報

　ところで、環境中において、音声認識処理に基づく動作を行う動作体が複数存在する場合、各動作体が収集した情報に基づく認識結果を共有することで、より状況に適した動作を実現できる可能性がある。

　本開示によれば、音声認識処理の結果に基づいて動作体の動作を制御する制御部、を備え、前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御する、情報処理装置が提供される。

　また、本開示によれば、プロセッサが、音声認識処理の結果に基づいて動作体の動作を制御すること、を含み、前記制御することは、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御すること、をさらに含む、情報処理方法が提供される。

　また、本開示によれば、コンピュータを、音声認識処理の結果に基づいて動作体の動作を制御する制御部、を備え、前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御する、情報処理装置、として機能させるためのプログラムが提供される。

本開示の一実施形態に係る情報処理システムの構成例を示す図である。同実施形態に係る第１の動作体１０の機能構成例を示すブロック図である。同実施形態に係る第２の動作体２０の機能構成例を示すブロック図である。同実施形態に係る情報処理サーバ３０の機能構成例を示すブロック図である。同実施形態に係る音声認識結果の共有について説明するための図である。同実施形態に係る音声認識結果の共有における第１の動作体１０および情報処理サーバ３０の動作の流れを示すフローチャートである。同実施形態に係る音声認識結果の共有における第２の動作体２０の動作の流れを示すフローチャートである。同実施形態に係る第２の辞書２４２に登録される語彙セットの入れ替えについて説明するための図である。同実施形態に係る情報処理サーバ３０による認識ログの蓄積の流れを示すフローチャートである。同実施形態に係る第２の動作体２０による辞書更新の流れを示すフローチャートである。同実施形態に係る一の動作体の動作状況に基づく他の動作体の動作制御について説明するための図である。同実施形態に係る一の動作体の動作状況に基づく他の動作体の動作制御の流れを示すフローチャートである。同実施形態に係るノイズ音源の認識結果の共有について説明するための図である。同実施形態に係る話者認識の結果の共有について説明するための図である。同実施形態に係るノイズ音源や話者に係る情報共有における共有元の動作の流れを示すフローチャートである。同実施形態に係るノイズ音源や話者に係る情報共有における共有先の動作の流れを示すフローチャートである。同実施形態に係る能動的なアクションのトリガとなる環境の共有について説明するための図である。同実施形態に係る能動的アクションのトリガとなる環境の共有における共有元の動作の流れを示すフローチャートである。同実施形態に係る能動的アクションのトリガとなる環境の共有における共有先の動作の流れを示すフローチャートである。同実施形態に係る対話エンジンの切り替えについて説明するための図である。同実施形態に係る音声認識処理結果の統合について説明するための図である。同実施形態に係る音声認識処理結果の統合について説明するための図である。同実施形態に係る情報処理サーバ３０による音声認識結果の統合の流れを示すフローチャートである。同実施形態に係る統合認識結果に基づく動作制御の流れを示すフローチャートである。同実施形態に係る第１の動作体１０による第２の動作体の状態の伝達の流れを示すフローチャートである。同実施形態に係る第１の動作体１０の指示に基づく第２の動作体２０によるユーザ探索の流れを示すフローチャートである。同実施形態に係る外部サービスから取得した情報に基づく第２の動作体２０への指示の流れの一例を示すフローチャートである。同実施形態に係る第１の動作体１０による第２の動作体２０への移動指示の流れを示すフローチャートである。同実施形態に係る第１の動作体１０からの移動指示に基づく第２の動作体２０の動作の流れを示すフローチャートである。本開示の一実施形態に係るハードウェア構成例を示す図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．概要
　　１．２．システム構成例
　　１．３．第１の動作体１０の機能構成例
　　１．４．第２の動作体２０の機能構成例
　　１．５．情報処理サーバ３０の機能構成例
　　１．６．機能の詳細
　２．情報処理サーバ３０のハードウェア構成例
　３．まとめ

　＜１．実施形態＞
　＜＜１．１．概要＞＞
　近年、ユーザの発話などを認識し、認識結果に基づく動作を実行する種々の装置が開発されている。上記のような装置には、例えば、ユーザとの音声対話を介して種々の機能提供を行う音声エージェント装置や、認識したユーザの発話や周囲環境などに応じて振る舞いを変化させる自律動作体が挙げられる。

　上記のような装置には、収集した音声データをネットワークを介してサーバに送信し、サーバ側で実行された音声認識処理の結果に基づいて動作を行うものと、筐体（クライアント）に搭載した演算機で音声認識処理を実行するものとが存在する。

　サーバ側で音声認識処理を実行する場合、演算資源を豊富に用意することが比較的容易なことから、一般的に高い認識精度が期待される。一方、クライアント側で音声認識処理を実行する場合、演算資源が限定される場合が多いものの、認識可能な語彙数を抑えることなどにより、演算量の低減と認識精度の向上を図りながら、速いレスポンスを実現することが可能である。

　しかし、クライアント側で音声認識処理を実行する場合において、ユーザが発する語彙のセットと、予め用意された音声認識辞書の語彙のセットとに乖離がある場合、ユーザの発話を正確に認識することが困難である。

　また、例えば、音声を収集する装置が比較的大きな動作音を伴う動作を行う場合、動作状況によっては、自身の動作音が音声収集の妨げとなり、音声認識の精度が低下する可能性がある。

　本開示に係る技術思想は上記のような点に着目して発想されたものであり、音声認識処理に基づく動作を行う複数の動作体が存在する環境において、各動作体がより状況に適した動作を実現することを可能とする。

　このために、本開示の一実施形態に係る情報処理方法は、プロセッサが、音声認識処理の結果に基づいて動作体の動作を制御すること、を含む。また、上記制御することは、一の動作体が収集した音声に基づく音声認識処理の結果、または一の動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の動作体を制御すること、をさらに含む。

　＜＜１．２．システム構成例＞＞
　図１は、本開示の一実施形態に係る情報処理システムの構成例を示す図である。本実施形態に係る情報処理サーバ３０は、音声認識処理に基づく動作を行う複数の動作体を備えてよい。図１に示す一例の場合、本実施形態に係る情報処理システムは、第１の動作体１０、第２の動作体２０、および情報処理サーバ３０を備えている。また、各構成は、ネットワーク４０を介して互いに通信が可能なように接続される。

　（第１の動作体１０）
　本実施形態に係る第１の動作体１０は、音声認識処理に基づいて動作する動作体（情報処理装置）の一例である。本実施形態に係る第１の動作体１０は、収集した音声を情報処理サーバ３０に送信し、情報処理サーバ３０による音声認識処理の結果に基づいて動作する。本実施形態に係る第１の動作体１０は、上記の音声認識処理の結果に基づいて、ユーザの発話に対するレスポンス発話を行うことや、認識した環境などに基づいて能動的にユーザに語りかけることなどができてよい。

　また、本実施形態に係る第１の動作体１０は、例えば、底部に備える車輪により走行や回転などが可能な自律移動体であってもよい。本実施形態に係る第１の動作体１０は、例えば、卓上に設置が可能な程度の大きさと形状を有してもよい。本実施形態に係る第１の動作体１０は、情報処理サーバ３０による音声認識処理の結果や、各種の認識結果に基づいて、自律的に移動を行いながら、発話を含む各種の動作を実行する。

　（第２の動作体２０）
　本実施形態に係る第２の動作体２０は、第１の動作体１０と同様に、音声認識処理に基づいて動作する動作体（情報処理装置）の一例である。一方、本実施形態に係る第２の動作体２０は、第１の動作体１０とは異なり、自身、すなわちローカル側で音声認識処理を実行する。

　本実施形態に係る第２の動作体２０は、例えば、図示するように、イヌなどの動物を模した四足歩行型の自律移動体であってもよい。本実施形態に係る第２の動作体２０は、ローカル側で実行した音声認識処理の結果などに基づいて、ユーザに対する応答を動作や鳴き声などにより実行する。

　（情報処理サーバ３０）
　本実施形態に係る情報処理サーバ３０は、第１の動作体１０が収集した音声に基づく音声認識処理や自然言語理解処理を行う情報処理装置である。また、本実施形態に係る情報処理サーバ３０は、一の動作体が収集した音声に基づく音声認識処理の結果や一の動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の動作体の動作を制御してもよい。

　（ネットワーク４０）
　ネットワーク４０は、上記の各構成を接続する機能を有する。ネットワーク４０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク４０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク４０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

　以上、本実施形態に係る情報処理システムの構成例について述べた。なお、図１を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理システムは、３種以上の動作体を備えてもよい。また、動作体の一部は自律移動体に限定されず、据え置き型や屋内埋め込み型のエージェント装置であってもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．３．第１の動作体１０の機能構成例＞＞
　次に、本実施形態に係る第１の動作体１０の機能構成例について述べる。図２は、本実施形態に係る第１の動作体１０の機能構成例を示すブロック図である。図２に示すように、本実施形態に係る第１の動作体１０は、音入力部１１０、撮影部１２０、センサ部１３０、トリガ検出部１４０、制御部１５０、駆動部１６０、音出力部１７０、表示部１８０、および通信部１９０を備える。

　（音入力部１１０）
　本実施形態に係る音入力部１１０は、ユーザの発話音声を含む各種の音を収集する。このために、本実施形態に係る音入力部１１０は、１つ以上のマイクロフォンを備える。

　（撮影部１２０）
　本実施形態に係る撮影部１２０は、ユーザや周囲環境の画像を撮影する。このために、本実施形態に係る撮影部１２０は、撮像素子を備える。

　本実施形態に係るセンサ部１３０は、各種のセンサデバイスによりユーザや周囲環境、また第１の動作体１０に係るセンサ情報を収集する。本実施形態に係るセンサ部１３０は、例えば、ＴｏＦセンサ、慣性センサ、赤外線センサ、照度センサ、ミリ波レーダ、タッチセンサ、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）信号受信機などを備える。

　（トリガ検出部１４０）
　本実施形態に係るトリガ検出部１４０は、音入力部１１０、撮影部１２０、およびセンサ部１３０が収集した各種の情報に基づいて、音声認識処理の開始に係る各種のトリガを検出する。

　例えば、本実施形態に係るトリガ検出部１４０は、音入力部１１０が収集した発話音声と、ユーザにより自由に登録された特定発話表現とに基づいて、特定ワード（起動ワード）を検出してもよい。

　また、例えば、本実施形態に係るトリガ検出部１４０は、撮影部１２０が撮影した画像に基づいて、ユーザの顔や体の検出や、特定ジェスチャの検出を行ってもよい。

　また、例えば、本実施形態に係るトリガ検出部１４０は、センサ部１３０が収集した加速度情報に基づいて、ユーザによる第１の動作体１０の持ち上げや静置を検出してもよい。

　（制御部１５０）
　本実施形態に係る制御部１５０は、第１の動作体１０が備える各構成を制御する。また、本実施形態に係る制御部１５０は、後述するように、情報処理サーバ３０による音声認識処理の結果などを第２の動作体２０に伝達し、間接的あるいは直接的に第２の動作体２０の動作を制御してもよい。

　（駆動部１６０）
　本実施形態に係る駆動部１６０は、制御部１５０による制御に基づいて、各種の動作を行う。本実施形態に係る駆動部１６０は、例えば、複数のアクチュエータ（モータ等）や車輪等を備えてもよい。

　（音出力部１７０）
　本実施形態に係る音出力部１７０は、制御部１５０による制御に基づいてシステム音声等の出力を行う。このために、本実施形態に係る音出力部１７０は、アンプやスピーカを備える。

　（表示部１８０）
　本実施形態に係る表示部１８０は、制御部１５０による制御に基づいて、視覚情報の提示を行う。本実施形態に係る表示部１８０は、例えば、眼に対応するＬＥＤやＯＬＥＤ等を備える。

　（通信部１９０）
　本実施形態に係る通信部１９０は、ネットワーク４０を介して第２の動作体２０や情報処理サーバ３０との情報通信を行う。例えば、本実施形態に係る通信部１９０は、音入力部１１０が収集したユーザの発話音声を情報処理サーバ３０に送信し、当該発話音声に対応する音声認識結果や応答情報を受信する。

　以上、本実施形態に係る第１の動作体１０の機能構成例について説明した。なお、図２を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る第１の動作体１０の機能構成は係る例に限定されない。本実施形態に係る第１の動作体１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．４．第２の動作体２０の機能構成例＞＞
　次に、本実施形態に係る第２の動作体２０の機能構成例について述べる。図３は、本実施形態に係る第２の動作体２０の機能構成例を示すブロック図である。図３に示すように、本実施形態に係る第２の動作体２０は、音入力部２１０、撮影部２２０、センサ部２３０、認識部２４０、制御部２５０、駆動部２６０、音出力部２７０、表示部２８０、および通信部２９０を備える。

　（音入力部２１０）
　本実施形態に係る音入力部２１０は、ユーザの発話音声を含む各種の音を収集する。このために、本実施形態に係る音入力部２１０は、１つ以上のマイクロフォンを備える。

　（撮影部２２０）
　本実施形態に係る撮影部２２０は、ユーザや周囲環境の画像を撮影する。このために、本実施形態に係る撮影部２２０は、撮像素子を備える。撮影部２２０は、例えば、第２の動作体２０の鼻先と腰部に２つの広角カメラを備えてもよい。この場合、鼻先に配置される広角カメラは、第２の動作体２０の前方視野（すなわち、イヌの視野）に対応した画像を撮像し、腰部の広角カメラは、上方を中心とする周囲領域の画像を撮像する。第２の動作体２０は、例えば、腰部に配置される広角カメラにより撮像された画像に基づいて、天井の特徴点などを抽出し、ＳＬＡＭ（Ｓｉｍｕｌｔａｎｅｏｕｓ　Ｌｏｃａｌｉｚａｔｉｏｎ　ａｎｄ　Ｍａｐｐｉｎｇ）を実現することができる。

　本実施形態に係るセンサ部２３０は、各種のセンサデバイスによりユーザや周囲環境、また第２の動作体２０に係るセンサ情報を収集する。本実施形態に係るセンサ部２３０は、例えば、測距センサ、慣性センサ、赤外線センサ、照度センサ、タッチセンサ、接地センサなどを備える。

　（認識部２４０）
　本実施形態に係る認識部２４０は、音入力部２１０、撮影部２２０、およびセンサ部２３０が収集した情報に基づいて、各種の認識処理を実行する。例えば、本実施形態に係る認識部２４０は、音入力部２１０が収集したユーザの発話音声に基づく音声認識処理をローカル側で実行する。また、認識部２４０は、話者識別、表情や視線の認識、物体認識、動作認識、空間領域認識、色認識、形認識、マーカー認識、障害物認識、段差認識、明るさ認識などを行ってよい。

　（制御部２５０）
　本実施形態に係る制御部２５０は、認識部２４０による各種の認識処理の結果に基づいて、第２の動作体２０が備える各構成を制御する。また、本実施形態に係る制御部２５０は、認識部２４０による各種の認識処理の結果を他の動作体（例えば、第１の動作体または第２の動作体）に伝達し、当該他の動作体の動作を間接的あるいは直接的に制御してもよい。

　（駆動部２６０）
　駆動部２６０は、制御部２５０による制御に基づいて、第２の動作体２０が有する複数の関節部を屈伸させる機能を有する。より具体的には、駆動部２６０は、制御部２５０による制御に基づき、各関節部が備えるアクチュエータを駆動させる。

　（音出力部２７０）
　本実施形態に係る音出力部２７０は、制御部２５０による制御に基づいてイヌの鳴き声を模した音等の出力を行う。このために、本実施形態に係る音出力部１７０は、アンプやスピーカを備える。

　（表示部２８０）
　本実施形態に係る表示部２８０は、制御部２５０による制御に基づいて、視覚情報の提示を行う。本実施形態に係る表示部２８０は、例えば、眼に対応するＬＥＤやＯＬＥＤ等を備える。

　（通信部２９０）
　本実施形態に係る通信部２９０は、ネットワーク４０を介して第１の動作体１０や情報処理サーバ３０との情報通信を行う。例えば、本実施形態に係る通信部２９０は、第１の動作体１０または情報処理サーバ３０から、他の動作体が収集した音声に基づく音声認識処理の結果を受信する。

　以上、本実施形態に係る第２の動作体２０の機能構成例について説明した。なお、図３を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る第２の動作体２０の機能構成は係る例に限定されない。本実施形態に係る第２の動作体２０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．５．情報処理サーバ３０の機能構成例＞＞
　次に、本実施形態に係る情報処理サーバ３０の機能構成例について述べる。図４は、本実施形態に係る情報処理サーバ３０の機能構成例を示すブロック図である。図４に示すように、本実施形態に係る情報処理サーバ３０は、音声認識部３１０、自然言語処理部３２０、制御部３３０、応答生成部３４０、通信部３５０を備える。

　（音声認識部３１０）
　本実施形態に係る音声認識部３１０は、第１の動作体１０から受信した発話音声に戻づく音声認識処理を行い、当該発話音声を文字列に変換する。

　（自然言語処理部３２０）
　本実施形態に係る自然言語処理部３２０は、音声認識部３１０が生成した文字列に基づく自然言語理解処理を行い、ユーザの発話の意図を抽出する。

　（制御部３３０）
　本実施形態に係る制御部３３０は、一の動作体が収集した音声に基づく音声認識処理の結果や、一の動作体が収集したセンサ情報に基づいて認識された環境に基づいて、一の動作体や他の動作体の動作を制御する。本実施形態に係る制御部３３０が有する機能の詳細については、別途後述する。

　（応答生成部３４０）
　本実施形態に係る応答生成部３４０は、制御部３３０による制御に基づいて、自然言語処理部３２０が抽出したユーザの発話意図に対応する応答情報を生成する。応答生成部３４０は、例えば、ユーザの発話に対する応答音声等を生成する。

　（通信部３５０）
　本実施形態に係る通信部３５０は、ネットワーク４０を介して第１の動作体１０や第２の動作体２０との情報通信を行う。例えば、通信部３５０は、第１の動作体１０から発話音声を受信する。また、通信部３５０は、上記発話音声に基づく音声認識処理および自然言語理解処理の結果に係る情報を第２の動作体２０に送信する。

　以上、本実施形態に係る情報処理サーバ３０の機能構成例について説明した。なお、図４を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ３０の機能構成は係る例に限定されない。本実施形態に係る情報処理サーバ３０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．６．機能の詳細＞＞
　次に、本実施形態に係る情報処理システムが有する機能について詳細に説明する。上述したように、本実施形態に係る情報処理方法は、音声認識処理に基づき動作する複数の動作体が存在する環境において、各動作体が収集した情報から認識された情報を共有することにより、各動作体がより適切な動作を行うことを実現するものである。

　このために、本実施形態に係る情報処理システムでは、機能や特性が異なる複数種類の動作体を備えてもよい。例えば、本実施形態に係る情報処理システムは、上述した第１の動作体１０と第２の動作体２０とを備え得る。

　本実施形態に係る第１の動作体１０は、情報処理サーバ３０による語彙数が豊富なクラウド辞書（以下、第１の辞書、とも称する）を用いた音声認識処理（以下、第１の音声認識処理、とも称する）、および自然言語理解処理の結果に基づいて動作することが可能であり、第２の動作体２０と比較して、より広い語彙および発話意図を精度高く認識し応答動作を行うことが可能である。

　また、本実施形態に係る第１の動作体１０は、底部に備える車輪により移動することから、サーボ音や接地ノイズが大きい第２の動作体２０の歩行移動と比較して、移動音（動作音）が静かであることが特徴の一つである。

　また、本実施形態に係る第１の動作体１０は、卓上に配置されることを想定していることから、第２の動作体２０と比較して高い視点を有し、第２の動作体２０よりも広い視野でユーザや物体などを認識することが可能である。

　さらには、本実施形態に係る第１の動作体１０は、言語を用いてユーザとの対話が可能であり、認識したユーザの発話や環境などについて、より確実にユーザに伝達することができる。

　上記に対し、本実施形態に係る第２の動作体２０は、ローカル側において、クラウド辞書よりも語彙数が少ないローカル辞書（以下、第２の辞書、とも称する）を用いて音声認識処理（以下、第２の音声認識処理、とも称する）を行い、当該音声認識処理の結果に基づいて動作する。このため、本実施形態に係る第２の動作体２０は、予め登録された語彙のみを認識可能である一方、語彙数を抑えることで、演算量を効果的に低減し、速いレスポンスを行うことが可能である。

　また、本実施形態に係る第２の動作体２０は、床上を歩行移動することから、第１の動作体１０と比較して広い行動範囲を有し、複数の部屋間を移動することができる。さらには、本実施形態に係る第２の動作体２０は、ＳＬＡＭにより環境地図を生成することができ、また、ユーザからの教示などにより空間の名称（例えば、リビングルームやキッチンなど）と環境地図とを対応付けることも可能である。

　このように、本実施形態に係る第１の動作体１０および第２の動作体２０は、互いに対し優位な点をそれぞれに有する。以下、上記のような特徴を有する第１の動作体１０と第２の動作体２０との情報連携について、具体例を挙げながら説明する。

　まず、本実施形態に係る音声認識結果の共有について説明する。本実施形態に係る情報処理サーバ３０の制御部３３０は、一の動作体が収集した音声に基づく音声認識処理の結果に基づいて、当該音声認識処理の結果に対応する動作を他の動作体に実行させてよい。例えば、制御部３３０は、ある第１の動作体１０が収集した音声に基づく第１の音声認識処理の結果を第２の動作体２０に伝達し、第２の動作体２０の動作を間接的あるいは直接的に制御することが可能である。

　図５は、本実施形態に係る音声認識結果の共有について説明するための図である。図５の上段に示す一例では、ユーザＵが“Ｔｈａｔ‘ｓ　ｍｙ　ｂｏｙ”という、第２の動作体２０を褒める意図（ｇｏｏｄＦＢ）を有する発話ＵＯ１を行っている。

　しかし、図５に示す一例の場合、第２の動作体２０が備える第２の辞書２４２には、カテゴリ：ｇｏｏｄＦＢに対応する語彙が、“Ｇｏｏｄ　ｂｏｙ”のみしか登録されていないため、第２の動作体２０は、ユーザＵの発話ＵＯ１を正確に認識することが困難である。

　一方、情報処理サーバ３０が備える第１の辞書３２２には、“Ｔｈａｔ‘ｓ　ｍｙ　ｂｏｙ”が登録されているため、情報処理サーバ３０は、第１の音声認識処理により発話ＵＯ１を精度高く認識し、また認識結果を第１の動作体１０に伝達することができる。

　このように、第２の動作体２０が備える第２の辞書２４２にユーザの発話に対応する語彙が登録されていない場合、情報処理サーバ３０の制御部３３０は、第１の動作体１０が収集した音声と第１の辞書３２２に基づく第１の音声認識処理の結果に基づいて、当該悔過に対応する動作を第２の動作体２０に実行させてもよい。

　より具体的には、本実施形態に係る制御部３３０は、第１の音声認識処理の結果として得られた語彙のカテゴリに対応する語彙を第２の辞書２４２から抽出し、当該語彙を第２の動作体２０に伝達してよい。

　図５の下段に示す一例の場合、制御部３３０は、第１の音声認識処理により得られた語彙“Ｔｈａｔ‘ｓ　ｍｙ　ｂｏｙ”のカテゴリ：ｇｏｏｄＦＢに対応する語彙“Ｇｏｏｄ　ｂｏｙ”を第２の辞書２４２から抽出し、語彙“Ｇｏｏｄ　ｂｏｙ”を第２の動作体２０に伝達している。係る制御によれば、第２の動作体２０が、自力では認識することができない語彙“Ｔｈａｔ‘ｓ　ｍｙ　ｂｏｙ”を疑似的に理解し、ユーザＵの発話意図に応じた適切な動作を実行することが可能となる。なお、制御部３３０は、第１の音声認識処理により得られた語彙に加えて、あるいは代えて、当該語彙のカテゴリに係る情報を第２の動作体２０に伝達してもよい。

　また、上記のような音声認識結果の共有を行う場合、本実施形態に係る制御部３３０は、一の動作体が収集した音声に基づく音声認識処理の結果を他の動作体に伝達したことを示す動作を当該一の動作体に実行させてもよい。

　例えば、本実施形態に係る制御部３３０は、第１の動作体１０が収集した音声に基づく第１の音声認識処理の結果を第２の動作体２０に伝達したことを示す動作を第１の動作体１０に実行させてもよい。図５の下段に示す一例の場合、制御部３３０は、第１の動作体１０に、“Ｈｅ　ｐｒａｉｓｅｄ　ｙｏｕ”というシステム発話ＳＯ１を第２の動作体２０に向けて出力させている。

　上記の例の他、制御部３３０は、例えば、「僕が教えてあげたんだ」などのシステム発話や、第１の動作体１０がユーザＵの発話ＵＯ１を第２の動作体２０に対して通訳しているようなシステム発話（例えば、犬の鳴き声を模した音を用いた発話）を第１の動作体１０に実行させてもよい。

　また、制御部３３０は、音声認識結果の共有先である第２の動作体にも、共有が行われたことを示す動作を実行させてもよい。上記のような第１の音声認識結果の伝達を行った場合、制御部３３０は、例えば、通常時よりも大きな音声や動きを第２の動作体２０に行わせてもよい。また、制御部３３０は、自力で理解できなかったことを恥ずかしそうにする振る舞いや、第１の動作体１０に対して感謝を示す振る舞いなどを第２の動作体２０に実行させてもよい。

　上記のような制御によれば、第１の動作体１０と第２の動作体２０とが実際の生物のようにコミュニケーションを行っているような表現を実現することができ、ユーザの興味をさらに引き付けることが期待される。

　以上、本実施形態に係る音声認識結果の共有について説明した。なお、上記では、共有に係る制御主体が情報処理サーバ３０の制御部３３０である場合を例に述べたが、音声認識結果の共有に係る制御主体は、第１の動作体１０の制御部１５０であってもよい。制御部１５０は、情報処理サーバ３０から第１の音声認識処理の結果を受信した後、当該結果を近距離無線通信などにより第２の動作体２０に伝達することが可能である。

　続いて、本実施形態に係る音声認識結果の共有の処理の流れについて説明する。図６Ａは、本実施形態に係る音声認識結果の共有における第１の動作体１０および情報処理サーバ３０の動作の流れを示すフローチャートである。

　図６Ａを参照すると、第１の動作体１０は、まず、認識した環境に基づいて自律動作を行う（Ｓ１１０１）。

　次に、制御主体となる制御部１５０または制御部３３０は、第１の音声認識処理により認識された語彙に対応するカテゴリの語彙が第２の動作体２０が備える第２の辞書２４２に存在するか否かを判定する（Ｓ１１０２）。

　ここで、対応する語彙が第２の辞書２４２に存在する場合（Ｓ１１０２：ＹＥＳ）、制御主体は、続いて、発話が第２の動作体２０に対するものか否かを判定する（Ｓ１１０３）。制御部１５０や制御部３３０は、第１の動作体１０のトリガ検出部１４０がユーザの顔が第２の動作体２０に向いていることを検出したこと、第２の動作体２０がユーザによる接触を検出したこと、直前の発話が第２の動作体の名前を含んでいたこと、などに基づいて、上記の判定を行うことができる。

　ここで、発話が第２の動作体２０に対するものである場合（Ｓ１１０３：ＹＥＳ）、制御主体は、対応する語彙を第２の動作体２０に伝達する（Ｓ１１０４）。

　一方、第２の辞書２４２に対応する語彙が存在しない場合（Ｓ１１０２：ＮＯ）や、発話が第２の動作体２０に対するものではない場合（Ｓ１１０３：ＮＯ）、第１の動作体１０は、ステップＳ１１０１に復帰する。

　図６Ｂは、本実施形態に係る音声認識結果の共有における第２の動作体２０の動作の流れを示すフローチャートである。

　図６Ｂを参照すると、第２の動作体２０は、まず、認識した環境に基づいて自律動作を行う（Ｓ１２０１）。

　次に、第２の動作体２０の制御部２５０は、第１の動作体１０または情報処理サーバ３０から、語彙を受信したか否かを判定する（Ｓ１２０２）。

　ここで、語彙が受信されている場合（Ｓ１２０２：ＹＥＳ）、制御部２５０は、他装置からの伝達により語彙を理解したことを示す動作を第１の動作体１０に実行させる（Ｓ１２０３）。

　一方、語彙が受信されていない場合（Ｓ１２０２：ＮＯ）、第２の動作体２０は、ステップＳ１２０１に復帰する。

　以上、本実施形態に係る音声認識結果の共有の処理の流れについて説明した。続いて、本実施形態に係る第１の音声認識処理の結果のログに基づく第２の辞書の更新について述べる。

　上述したように、本実施形態に係る第２の動作体２０は、第２の辞書２４２に登録する語彙数を抑えることで、演算量を抑え速いレスポンスを実現することができる。一方、ユーザが日常的に使用する語彙セットと第２の辞書２４２に登録されている語彙セットとの間に乖離がある場合、認識精度が低下しユーザ体験を損なう可能性が生じる。このために、本実施形態に係る情報処理システムは、第２の辞書２４２に登録される語彙セットを定期または非定期に入れ替える仕組みを有してよい。

　図７は、本実施形態に係る第２の辞書２４２に登録される語彙セットの入れ替えについて説明するための図である。なお、図７では、情報処理システムが備える構成のうち、語彙セットの入れ替え機能に着目して作成されたブロック図であり、一部の構成が省略されている。

　第２の辞書２４２に登録される語彙の入れ替えを実現するために、本実施形態に係る第２の動作体２０は、評価部７３５、辞書更新部７４０、および、第２の辞書２４２とは別途の候補辞書７４５を備えてよい。

　本実施形態に係る評価部７３５は、蓄積された単独知に基づいて、ユーザの発話実績を評価する。ここで、上記の単独知とは、第２の動作体２０の独自の経験に基づく知識を指す。具体的には、本実施形態に係る単独知には、認識部２４０が認識した発話ログ７２０や発話時におけるステータスを記録した発話時ステータスログ７３０が含まれる。

　この際、本実施形態に係る評価部７３５は、認識された回数が多い語彙ほど発話実績が高いと評価してもよい。一方、認識部２４０による誤認識や、湧き出しなどへの対応のため、評価部７３５は、発話時ステータスなどに基づいて発話実績を総合的に評価してよい。ここで、誤認識とは、ユーザの実際の発話「おはよう」に対して認識部２４０が「おはよう」以外の認識結果を出力すること、例えば、「おやすみ」と出力してしまうことを意味する。また、湧き出しとは、生活音などユーザの発話以外の音に対して認識結果を出力すること、例えば、ドアを閉めた音に対して「ばん」という認識結果を出力してしまうことを意味する。

　また、本実施形態に係る辞書更新部７４０は、制御部２５０による制御に基づき、評価部７３５が評価した発話実績に応じた第２の辞書２４２および候補辞書７４５の更新を実行する。ここで、本実施形態に係る候補辞書７４５は、第２の辞書２４２への追加または入れ替え対象となる語彙が登録される辞書である。辞書更新部７４０は、例えば、発話実績が低い語彙を第２の辞書２４２から削除、または候補辞書７４５に移行し、候補辞書７４５に登録される優先度の高い語彙を代わりに第２の辞書２４２に登録することなどができる。

　また、本実施形態に係る辞書更新部７４０は、情報処理サーバ３０から未登録の語彙を取得し、当該語彙を第２の辞書２４２や候補辞書７４５に追加登録する機能を有してよい。辞書更新部７４０は、例えば、相関語彙９３１、トレンド語彙９３２、季節語彙９３３、世代別語彙９３４、方言９３５などを取得し、第２の辞書２４２や候補辞書７４５に追加登録してもよい。この際、語彙数を一定以下に保つため、辞書更新部７４０は、第２の辞書２４２や候補辞書７４５から、発話実績が低い語彙を削除してもよい。

　なお、上記の相関語彙９３１とは、ある語彙に続けて発話される別の語彙など、他の語彙や機能との相関性の高い語彙を指す。相関語彙９３１は、例えば、複数の第２の動作体２０が記録した発話ログ７２０や発話時ステータスログ７３０を統合的に蓄積した集合知９１５の分析に基づき取得されてもよい。

　また、上記のトレンド語彙９３２とは世間においてトレンドとなっている語彙を、季節語彙９３３とは季節に応じた語彙を、世代別語彙９３４とは世代ごとに多用される語彙を、それぞれ指す。

　以上、第２の辞書２４２の更新に係る第２の動作体２０の構成について述べた。上述した構成によれば、ユーザの発話実績に基づいて第２の辞書２４２を適宜更新することができ、ユーザが用いる語彙セットと第２の辞書２４２に登録される語彙セットとの乖離を効果的に抑えることができる。なお、上記で説明した辞書更新の詳細については、本開示の出願人が過去に出願を行った特願２０１８－１２４８５６を参照されたい。

　一方、ユーザの発話実績を第２の動作体２０が蓄積する発話ログ７２０や発話時ステータスログ７３０のみに基づいて評価する場合、分析を行うために必要な情報の蓄積には時間を要する場合も想定される。このため、本実施形態に係る制御部２５０は、第１の動作体１０が収集した音声に基づく第１の音声認識処理の結果に係る認識ログ３２４をさらに用いた辞書更新を辞書更新部７４０に実行させてもよい。すなわち、本実施形態に係る制御部２５０は、認識ログ３２４に基づいて、第２の辞書２４２や候補辞書７４５の入れ替えを制御することができる。

　上記の制御によれば、第１の音声認識処理により精度高く認識された語彙とその回数に基づいて、ユーザの発話実績をさらに正確に評価することができ、辞書更新の精度を向上させるとともに、評価に必要なログの蓄積を最小化することが可能となる。

　図８は、本実施形態に係る情報処理サーバ３０による認識ログの蓄積の流れを示すフローチャートである。

　図８を参照すると、まず、音声認識部３１０が第１の動作体１０から受信した音声データに基づいて第１の音声認識処理を行う（Ｓ１３０１）。

　続いて、音声認識部３１０は、ステップＳ１３０１における第１の音声認識処理により複数回認識した語彙があるか否かを判定する（Ｓ１３０２）。

　ここで、複数回認識した語彙がある場合（Ｓ１３０２：ＹＥＳ）、音声認識部３１０は、認識した語彙とその回数を認識ログ３２４に保存する（Ｓ１３０３）。

　一方、複数認識した語彙がない場合（Ｓ１３０２：ＮＯ）、情報処理サーバ３０は、ステップＳ１３０１に復帰する。

　図９は、本実施形態に係る第２の動作体２０による辞書更新の流れを示すフローチャートである。

　図９を参照すると、まず、制御部２５０が、辞書の更新に係る入れ替えアルゴリズムを辞書更新部７４０に実行させる（Ｓ１４０１）。

　次に、制御部２５０は、情報処理サーバ３０に蓄積される認識ログ３２４に語彙が存在するか否かを判定する（Ｓ１４０２）。

　ここで、認識ログ３２４に語彙が存在する場合（Ｓ１４０２：ＹＥＳ）、制御部２５０は、辞書更新部７４０に当該語彙と関連する他の語彙を追加で選定させる（Ｓ１４０３）。辞書更新部７４０は、認識ログ３２４に登録されている語彙のプロファイルに基づいて、相関語彙９３１、トレンド語彙９３２、季節語彙９３３、世代別語彙９３４、方言９３５などから追加で登録する語彙を選定してよい。

　次に、制御部２５０は、辞書更新部７４０を制御し、認識ログ３２４から取得された語彙と関連する語彙とを第２の辞書２４２や候補辞書７４５に追加させる（Ｓ１４０４）。

　以上、本実施形態に係る辞書更新について説明した。なお、上記では、第２の動作体２０の制御部２５０が、辞書更新の制御主体となる場合を例に説明したが、本実施形態に係る辞書更新の制御主体は、情報処理サーバ３０の制御部３３０であってもよい。

　次に、本実施形態に係る認識環境の共有に基づく動作制御について説明する。本実施形態に係る情報処理方法では、音声認識結果の他、各動作体が収集された情報に基づいて認識された環境を複数の動作体の間で共有し、また動作体の動作制御に利用することができてよい。

　例えば、本実施形態に係る制御部３３０は、一の動作体に係る音声認識環境が音声認識処理精度の低下要因となり得る環境である場合、他の動作体に係る音声認識環境が向上するよう他の動作体の動作を制御してもよい。

　ここで、上記の音声認識環境とは、音声認識精度に影響を及ぼす各種の環境を指し、例えば、動作体の動作状況を含んでよい。例えば、動作体がサーボ音や接地音などの比較的大きな動作音を伴う動作を行っている場合、当該動作音がユーザの発話音声の収集を妨害し、音声認識精度が低下する場合が想定される。

　このため、本実施形態に係る制御部３３０は、一の動作体の動作状況に基づいて、他の動作体の動作を制御してもよい。より詳細には、本実施形態に係る制御部３３０は、一の動作体が比較的大きな動作音を伴う動作を実行している場合、他の動作体の動作音がより低下するよう制御を行う。

　図１０は、本実施形態に係る一の動作体の動作状況に基づく他の動作体の動作制御について説明するための図である。図１０に示す一例の場合、第２の動作体２０がボールで遊ぶ動作を行っている状況において、ユーザＵが、発話ＵＯ２を行っている。この場合、第２の動作体２０は、自身の動作音に妨げられ発話ＵＯ２に係る音声を精度高く収集できない可能性がある。

　この際、本実施形態に係る情報処理サーバ３０の制御部３３０は、第２の動作体２０からアップロードされる動作ステータス（２ｎｄ＿ＭＯＶＩＮＧ：ＴＲＵＥ）に基づいて、第２の動作体２０による第２の音声認識処理の精度低下を予測することができてよい。また、制御部３３０は、第１の動作体１０が発話ＵＯ２に係る音声を精度高く収集することができるように、第１の動作体１０の動作音がより小さくなるよう制御を行う。制御部３３０は、例えば、第１の動作体１０を静止させてもよい。

　上記の制御によれば、動作中である第２の動作体２０に代わり、第１の動作体１０がユーザＵの発話ＵＯ２に係る音声を収集することができ、さらには、第１の音声認識処理の結果を第２の動作体２０に伝達することにより、第２の動作体２０が動作中であっても発話ＵＯ２に対応する動作を行うことが可能となる。

　図１１は、本実施形態に係る一の動作体の動作状況に基づく他の動作体の動作制御の流れを示すフローチャートである。

　図１１を参照すると、まず、第１の動作体１０が自律動作を行っている状況（Ｓ１５０１）において、制御部３３０が第２の動作体２０が動作中であるか否かを判定する（Ｓ１５０２）。上述したように、制御部３３０は、第２の動作体２０からアップロードされる動作ステータスに基づいて上記の判定を行うことができる。

　ここで、第２の動作体２０が動作中である場合（Ｓ１５０２：ＹＥＳ）、制御部３３０は、第１の動作体１０の動作音がより小さくなるように制御を行う（Ｓ１５０３）。

　次に、制御部３３０は、第１の音声認識処理により認識された語彙に対応するカテゴリの語彙が第２の動作体２０が備える第２の辞書２４２に存在するか否かを判定する（Ｓ１５０４）。

　ここで、対応する語彙が第２の辞書２４２に存在する場合（Ｓ１５０４：ＹＥＳ）、制御部３３０は、対応する語彙を第２の動作体２０に伝達する（Ｓ１５０５）。なお、制御部３３０は、図６Ａに示した場合と同様に、発話が第２の動作体２０に対するものである場合にのみ、対応する語彙を第２の動作体２０に伝達してもよい。また、第２の動作体２０は、図６Ｂに示す流れに従って後続の処理を実行してよい。また、上記では、制御主体が情報処理サーバ３０の制御部３３０である場合を例に述べたが、当該制御主体は、第１の動作体１０の制御部１５０であってもよい。

　次に、本実施形態に係る他の音声認識環境の共有と動作体の動作制御について述べる。上記では、本実施形態に係る音声認識環境が動作体の動作状況を含むことを述べたが、本実施形態に係る音声認識環境には、湧き出しや話者識別に係る環境、すなわちノイズ音源や話者の認識（識別）結果が含まれてもよい。

　図１２Ａは、本実施形態に係るノイズ音源の認識結果の共有について説明するための図である。図１２Ａには、第１の動作体１０ａおよび１０ｂ、第２の動作体２０が同じ部屋の中にいる場合において、第１の動作体１０ａのみが、テレビジョン装置であるノイズ源ＮＳから音声が出力されていることを認識している状況を示している。

　この場合、第１の動作体１０ｂおよび第２の動作体２０は、ノイズ音源ＮＳが出力する音声をユーザの発話音声と誤認し、音声認識処理を実行する可能性がある。

　上記のような事態を回避するため、第１の動作体１０ａは、認識したノイズ音源ＮＳに係る情報を情報処理サーバ３０にアップロードしてよい。また、情報処理サーバ３０の制御部３３０は、第１の動作体１０ａによりアップロードされたノイズ音源ＮＳに係る情報を第１の動作体１０ｂおよび第２の動作体２０に伝達し、音声認識処理が実行されないよう間接的あるいは直接的に制御してもよい。

　図１２Ｂは、本実施形態に係る話者認識の結果の共有について説明するための図である。図１２Ｂには、第１の動作体１０ａおよび１０ｂ、第２の動作体２０が同じ部屋の中にいる場合において、第１の動作体１０ａのみが、ユーザＵを識別しており、また、テレビジョン装置であるノイズ源ＮＳから音声が出力されていないことを認識している状況を示している。

　この場合において、第１の動作体１０ｂおよび第２の動作体２０が音声を検出した場合、当該音声は、ユーザＵの発話音声である可能性が高いといえる。

　このため、情報処理サーバ３０の制御部３３０は、第１の動作体１０ａによりアップロードされたユーザＵおよびノイズ音源ＮＳに係る情報を第１の動作体１０ｂおよび第２の動作体２０に伝達し、音声を検出した場合、音声認識処理を実行するよう間接的あるいは直接的に制御してもよい。

　以上説明したように、本実施形態に係る制御部３３０は、一の動作体が収集したセンサ情報に基づいて認識されたノイズ音源や話者に係る情報を他の動作体に伝達し、また他の動作体に係る音声認識処理の実行有無を制御することができる。

　なお、ノイズ音源や話者に係る情報の共有は、必ずしも制御部３３０が制御主体でなくてもよい。上記共有の制御主体は、共有元となる動作体（第１の動作体１０または第２の動作体）であってもよく、情報処理サーバ３０を介さずに直接共有先の動作体に情報を伝達してもよい。

　図１３Ａは、本実施形態に係るノイズ音源や話者に係る情報共有における共有元の動作の流れを示すフローチャートである。

　図１３Ａを参照すると、まず、共有元の動作体が自律動作を行う（Ｓ１６０１）。

　ここで、共有元の動作体がノイズ音源や話者を認識した場合（Ｓ１６０２：ＹＥＳ）、共有元の動作体は、認識したノイズ音源や話者に係る情報を他の動作体に伝達する（Ｓ１６０３）。

　一方、図１３Ｂは、本実施形態に係るノイズ音源や話者に係る情報共有における共有先の動作の流れを示すフローチャートである。

　図１３Ｂを参照すると、まず、共有先の動作体が自律動作を行う（Ｓ１７０１）。

　ここで、音声を検出した場合（Ｓ１７０２：ＹＥＳ）、共有先の動作体は、続いて、他の動作体によりノイズ音源や話者に係る情報が共有されているか否かを判定する（Ｓ１７０３）。

　ここで、他の動作体によりノイズ音源や話者に係る情報が共有されている場合（Ｓ１７０３：ＹＥＳ）、共有先の動作体は、共有されている情報に応じた動作を行う（Ｓ１７０４）。共有先の動作体は、例えば、ノイズ音源が多い環境では、「なんだかうるさいなぁ、顔みせてよ」などの発話を行うことで、ユーザを識別することができる可能性を高めてもよい。

　以上説明したように、本実施形態に係る情報処理方法によれば、ある動作体が認識した環境を他の動作体に伝達することで、共有先の動作体が当該環境に応じたより適切な動作を行うことが可能となる。

　なお、上記のような環境の共有は、動作体によるユーザに対する能動的なアクションに用いられてもよい。例えば、本実施形態に係る第１の動作体１０は、ユーザの発話に対する応答のみではなく、ユーザに対し能動的に語り掛けることで、積極的な対話を行うことを特徴の一つする。また、本実施形態に係る第２の動作体２０も同様にユーザに対する能動的な振る舞いを行うことで積極的なインタラクションを実現することを特徴の一つとする。

　このために、本実施形態に係る情報処理方法では、認識された環境を複数の動作体で共有することで、能動的なアクションの実行頻度を効果的に高めることができてよい。

　図１４は、本実施形態に係る能動的なアクションのトリガとなる環境の共有について説明するための図である。図１４には、キッチンに居るユーザＵを同じくキッチンに居る第２の動作体２０ａが識別している状況が示されている。

　この際、第２の動作体２０ａは、ユーザＵをキッチンにおいて識別したことを示す情報を情報処理サーバ３０にアップロードする。また、情報処理サーバ３０の制御部３３０は、第２の動作体２０ａによりアップロードされた情報をリビングルームにいる第１の動作体１０および第２の動作体２０ｂに伝達し、ユーザに対する能動的なアクションを実行するよう間接的あるいは直接的に制御してもよい。

　例えば、制御部３３０は、第１の動作体１０に、ユーザＵがキッチンにいることを把握しているようなシステム発話ＳＯ３を行わせてもよい。また、例えば、制御部３３０は、第２の動作体２０ｂをキッチンに移動させるなどの制御を行ってもよい。

　以上説明したように、本実施形態に係る制御部３３０は、一の動作体が収集したセンサ情報に基づいて認識された環境に基づいて、ユーザに対する能動的なアクションを他の動作体に実行させてよい。また、共有先の動作体が発話が可能な場合、上記環境に応じた能動的な発話を共有先の動作体に実行させてよい。

　上記のような制御によれば、各動作体が自身が収集するセンサ情報に基づき認識する環境以上に多くの事象を認識することができ、ユーザに対しより積極的なアクションを行うことで、ユーザ体験を向上させることが可能となる。

　なお、ノイズ音源や話者に係る情報の共有と同様に、制御主体は、共有元となる動作体（第１の動作体１０または第２の動作体）であってもよく、情報処理サーバ３０を介さずに直接共有先の動作体に情報を伝達してもよい。

　図１５Ａは、本実施形態に係る能動的アクションのトリガとなる環境の共有における共有元の動作の流れを示すフローチャートである。

　図１５Ａを参照すると、まず、共有元の動作体が自律動作を行う（Ｓ１８０１）。

　ここで、共有元の動作体が能動的アクションのトリガとなる環境（トリガ環境、とも称する）を認識した場合（Ｓ１８０２：ＹＥＳ）、共有元の動作体は、認識した環境に係る情報を他の動作体に伝達する（Ｓ１８０３）。上記環境には、例えば、ユーザや他の人物の所在や行動、天気や環境音の認識などが挙げられる。

　一方、図１５Ｂは、本実施形態に係る能動的アクションのトリガとなる環境の共有における共有先の動作の流れを示すフローチャートである。

　図１５Ｂを参照すると、まず、共有先の動作体が自律動作を行う（Ｓ１９０１）。

　ここで、他の動作体により上記トリガとなる環境が共有されている場合（Ｓ１９０２：ＹＥＳ）、共有先の動作体は、共有されている環境に応じた能動的なアクションを行う（Ｓ１９０３）。

　以上説明したように、本実施形態に係る情報処理方法によれば、ある動作体が認識した環境を他の動作体に伝達することで、共有先の動作体が当該環境に応じた能動的なアクションを実行することが可能となる。

　なお、本実施形態に係る第１の動作体１０は、認識した環境あるいは共有された環境に応じて複数の対話エンジンを切り替えてユーザとの対話を行うことが可能である。

　図１６は、本実施形態に係る対話エンジンの切り替えについて説明するための図である。図１６には、環境ごとに使用されるエンジンの種別がそれぞれ示されている。本実施形態に係る第１の動作体１０は、例えば、シナリオ対話、状況対話、知識対話、雑談対話に係る４つの異なるエンジンを環境に応じて切り替えることで、より豊かな対話を実現することが可能である。

　なお、上記のシナリオ対話とは、予め設定された条件と定型発話分の組から成るシナリオに基づき、条件と一致した環境に対応する発話生成を行う対話であってよい。

　また、状況対話とは、知識データベースを用いて、認識した状況（環境）を説明するような発話の生成を行う対話であってよい。

　また、上記の知識対話とは、ユーザの発話に含まれる語彙や環境中から推定される語彙を基に知識データベースから必要な他の語彙を抽出して発話生成を行う対話であってよい。

　また、上記の雑談対話とは、ドメインの定まらない自由な発話に対して、機械学習手法などを用いて発話生成を行ったり、あるいは発話文データベースから適切な定型文を抽出して発話生成を行う対話であってよい。

　なお、図中において複数のエンジンが対応している場合、優先度の高いエンジンが使用されてもよい。一方、優先度の高いエンジンによる発話生成を試みて、適切な発話が生成できなかった場合には、次に優先度の高いエンジンによる発話生成を試みてもよい。

　例えば、人を見つけて話しかける場合、第１の動作体１０は、シナリオ対話または状況対話に係るエンジンを使用することで、「ねぇねぇ」や「ひさしぶり」などの発話を行うことが可能である。

　また、人がいなくなった場合、第１の動作体１０は、状況対話に係るエンジンを使用することで、「あれ？タロウどこ？」などの発話を行うことが可能である。

　また、特定の物体を見つけた場合、第１の動作体１０は、状況対話に係るエンジンを使用することで、「あ、ボールだ」などの発話を行うことが可能である。

　また、その場にいる人に質問する場合、第１の動作体１０は、シナリオ対話に係るエンジンを使用することで、「そういえば、好きなものは何？」などの発話を行うことが可能である。

　また、知識のある環境を認識した場合、第１の動作体１０は、状況対話または知識対話に係るエンジンを使用することで、「雨だなぁ、傘持っていかなくちゃ」や「会議中かぁ、静かにしよう」などの発話を行うことが可能である。

　また、時事ニュースなど外部から新たな情報を入手した場合、第１の動作体１０は、知識対話に係るエンジンを使用することで、「ＡＢＣ駅で遅延発生だって」などの発話を行うことが可能である。

　また、人の会話を漏れ聞いた場合、第１の動作体１０は、知識対話または雑談対話に係るエンジンを使用することで、「ケーキって聞こえたよ。僕はチョコレートケーキが好きだなぁ」などの発話を行うことが可能である。

　以上、本実施形態に係る対話エンジンの切り替えについて説明した。上記のような対話エンジンの切り替えによれば、環境に応じた適切かつより豊かな対話を実現することが可能となる。

　次に、本実施形態に係る音声認識結果の統合について説明する。上記では、ある動作体により収集された音声に基づく音声認識処理の結果を他の動作体に共有することについて述べたが、本実施形態に係る情報処理方法では、複数の動作体が収集した音声のそれぞれに基づく複数の音声認識処理の結果を統合的に判断し、単一の統合認識結果を決定してもよい。

　図１７Ａおよび図１７Ｂは、本実施形態に係る音声認識処理結果の統合について説明するための図である。図１７Ａには、第１の動作体１０ａ～１０ｃ、および第２の動作体２０が共に居る環境において、ユーザＵが発話ＵＯ４を行った状況が示されている。

　図１７Ａに示す一例では、第１の動作体１０ａおよび１０ｂは、発話ＵＯ４に係る音声を精度高く収集し、第１の音声認識処理により正確な語彙を得ている一方、第１の動作体１０ａはユーザＵとの距離が離れているため、発話ＵＯ４に係る音声を精度高く収集することができず、第１の音声認識処理により誤った語彙を得ている。また、第２の動作体２０は、ボールで遊ぶ動作を行っており、第２の音声認識処理に十分な音声を収集できていない。

　この際、情報処理サーバ３０の制御部３３０は、各動作体が収集した音声に基づく音声認識処理の結果を統合（集計）する。なお、制御部３３０は、同一環境中に存在することを動作体から音声データまたは音声認識結果がアップロードされない場合には、当該動作体が音声の収集に失敗したと見做してもよい。

　また、本実施形態に係る制御部３３０は、統合の結果得られた統合認識結果を各動作体に伝達し、各動作体の動作を間接的あるいは直接的に制御してよい。

　例えば、図１７Ｂに示す一例の場合、制御部３３０は、得られた複数の音声認識処理の結果から最も数が多い語彙“Ｇｏｏｄ　ｍｏｒｎｉｎｇ”を統合認識結果として決定し、第１の動作体１０ａ～１０ｃに伝達している。

　また、この際、本実施形態に係る制御部３３０は、統合認識結果と同一の音声認識処理の結果が得られた音声を収集した第１の動作体１０ｂや第１の動作体１０ｃに、上記同一の音声認識処理の結果が得られなかった第１の動作体１０ａや第２の動作体２０に関する言動を実行させてもよい。

　図１７Ｂに示す一例の場合、制御部３３０は、第１の動作体１０ｂに、第１の動作体１０ａに対し、正しいユーザの意図を伝えるシステム発話ＳＯ３を行わせている。また、制御部３３０は、第１の動作体１０ｃに、第２の動作体２０が発話ＵＯ４を理解できなかった旨のシステム発話ＳＯ５を行わせている。

　一方、本実施形態に係る制御部は、統合認識結果と同一の音声認識処理の結果が得られなかった音声を収集した第１の動作体１０ａには、上記同一の音声認識処理の結果が得られなかったことを示す言動を実行させてもよい。

　図１７Ｂに示す一例の場合、制御部３３０は、第１の動作体１０ａに、誤った語彙を認識した旨のシステム発話ＳＯ４を行わせている。

　上記のような制御によれば、複数の動作体がそれぞれ収集した音声に基づく音声認識処理の結果に基づいて、精度高くユーザの発話を認識することができると共に、動作体同士が認識結果について協議を行っているような様子を表現することが可能となり、ユーザの興味をさらに引き付ける効果が期待される。

　続いて、本実施形態に係る音声認識処理結果の統合と動作制御の流れについて説明する。図１８は、本実施形態に係る情報処理サーバ３０による音声認識結果の統合の流れを示すフローチャートである。

　図１８を参照すると、まず、通信部３５０が複数の動作体から音声データまたは第２の音声認識処理の結果を受信する（Ｓ２００１）。

　次に、制御部３３０は、ステップＳ２００１において受信した音声データに基づく第１の音声認識処理の結果やステップＳ２００１で受信した第２の音声認識処理の結果を統合する（Ｓ２００２）。

　次に、制御部３３０は、認識結果数や音声収集時の動作体の状態に基づいて、統合認識結果を決定する（Ｓ２００３）。制御部３３０は、例えば、認識結果の数のみではなく、音声収集時における動作体とユーザの距離や、動作体の動作状況に基づいて重み付けを行い、統合認識結果を決定してもよい。

　次に、制御部３３０は、通信部３５０を介して、ステップＳ２００３において決定した統合認識結果を各動作体に伝達する（Ｓ２００４）。

　また、図１９は、本実施形態に係る統合認識結果に基づく動作制御の流れを示すフローチャートである。

　図１９を参照すると、まず、動作体（第１の動作体１０または第２の動作体２０）の制御部は、自身が収集した音声に対応する認識結果が棄却されたか否か、すなわち、自身が収集した音声に対応する認識結果が統合認識結果と異なっているか否か、を判定する（Ｓ２１０１）。

　ここで、自身が収集した音声に対応する認識結果が棄却されている場合（Ｓ２１０１：ＹＥＳ）、動作体は、上記棄却に対応する言動、すなわち統合認識結果と同一の音声認識処理の結果が得られなかったことを示す言動を実行する（Ｓ２１０２）。

　一方、自身が収集した音声に対応する認識結果が棄却されていない場合、すなわち自身が収集した音声に対応する認識結果が統合認識結果と同一であった場合（Ｓ２１０１：ＮＯ）、動作体の制御部は、続いて、認識結果が却下された他の動作体が所定の距離（例えば、視認が可能な距離）内に存在するか否かを判定する（Ｓ２１０３）。

　ここで、認識結果が却下された他の動作体が所定の距離内に存在する場合（Ｓ２１０３：ＹＥＳ）、動作体は、当該他の動作体に関する言動を実行する（Ｓ２１０４）。

　一方、認識結果が却下された他の動作体が所定の距離内に存在しない場合（Ｓ２１０３：ＮＯ）、動作体は、統合認識結果に対応する言動を実行する（Ｓ２１０５）。

　以上、本実施形態に係る情報処理システムが有する機能の一例について説明した。なお、本実施形態に係る情報処理システムは、上記で示した例以外にも複数の動作体の連携に係る機能を有してよい。

　例えば、本実施形態に係る第１の動作体１０は、言語を用いたコミュニケーションを行う機能を有しない第２の動作体２０に代わり、第２の動作体２０の状態をユーザに伝達することも可能である。

　図２０は、本実施形態に係る第１の動作体１０による第２の動作体の状態の伝達の流れを示すフローチャートである。

　図２０を参照すると、第１の動作体１０は、まず、自律動作を行う（Ｓ２２０１）。

　ここで、ユーザの発話やユーザが操作するアプリケーションなどからの、第２の動作体の状態伝達に係る要求を検出すると（Ｓ２２０２）、第１の動作体１０は、第２の動作体２０の状態に係る問い合わせを実行する（Ｓ２２０３）。この際、第１の動作体１０は、第２の動作体２０に直接状態を問い合わせてもよいし、第２の動作体２０が状態を情報処理サーバ３０にアップロードしている場合には、情報処理サーバ３０に問い合わせを行ってもよい。

　次に、第１の動作体１０は、ステップＳ２２０３における問い合わせにより取得した第２の動作体２０の状態をユーザに伝達する（Ｓ２２０４）。なお、第２の動作体２０の状態には、例えば、感情、現在作成されているＳＬＡＭ地図、認識した物体、バッテリー残量などの動的な状態や、個体識別番号などの静的な情報が含まれてもよい。

　また、本実施形態に係る第１の動作体１０は、第２の動作体２０に対する各種の動作指示を行ってもよい。

　上述したように、本実施形態に係る第２の動作体２０は、第１の動作体１０と比較して広い移動範囲を有する。このため、例えば、卓上から動けない第１の動作体１０がユーザを認識できない場合、第１の動作体１０は、他の部屋などにユーザを探索しに行くよう指示を行ってもよい。

　図２１は、本実施形態に係る第１の動作体１０の指示に基づく第２の動作体２０によるユーザ探索の流れを示すフローチャートである。

　図２１を参照すると、第２の動作体２０は、まず、自律動作を行う（Ｓ２３０１）。

　ここで、第１の動作体１０からのユーザ探索要求を受信した場合（Ｓ２３０２）、第２の動作体２０は、家の中を歩き回るなどしてユーザの探索を行う（Ｓ２３０３）。

　ここで、所定時間内にユーザを認識できた場合（Ｓ２３０４：ＹＥＳ）、第２の動作体２０は、ユーザを認識した場所や状況を第１の動作体１０に伝達する（Ｓ２３０５）。この場合、第１の動作体１０は、伝達された情報に基づく言動を行ってもよい。例えば、ユーザがキッチンにいることを伝達された場合、第１の動作体１０は、「Ｍｉｋｅに教えてもらったよ、ご飯作ってるの？」などの発話を行ってもよい。

　一方、所定時間内にユーザを認識できなかった場合（Ｓ２３０４：ＮＯ）、第２の動作体２０は、ユーザを見つけられなかったことを第１の動作体１０に伝達する（Ｓ２３０６）。

　なお、ステップＳ２３０５やＳ２３０６における情報の伝達時に、周囲に探索対象であるユーザ以外の人物がいる場合には、第２の動作体２０は、鳴き声や振る舞いなどにより探索の結果を表現してもよい。例えば、探索対象のユーザをキッチンで認識した場合には、第２の動作体２０は、しっぽを振りながら物を食べるような振る舞いを行ってもよいし、ユーザを見つけることができなかった場合には、首を横に振りながら悲しそうに鳴くなどの動作を行ってもよい。

　また、例えば、本実施形態に係る第１の動作体１０は、ＳＮＳやメッセージアプリケーションなどの外部サービスから取得した情報に基づいて、第２の動作体２０に指示を行うことも可能である。

　図２２は、本実施形態に係る外部サービスから取得した情報に基づく第２の動作体２０への指示の流れの一例を示すフローチャートである。

　図２２を参照すると、第１の動作体１０は、まず、自律動作を行う（Ｓ２４０１）。

　ここで、メッセージアプリケーションやＳＮＳからユーザの帰宅を示す情報を抽出すると（Ｓ２４０２）、第１の動作体１０は、第２の動作体２０に対し、玄関で待機するように指示を行ってよい（Ｓ２４０３）。この場合、第２の動作体２０は、第１の動作体１０からの指示に基づいて、玄関で待機する。また、第１の動作体１０は、帰宅したユーザを認識した際、「Ｍｉｋｅ、玄関でちゃんと待ってた？」などの発話を行ってもよい。

　このために、本実施形態に係る第１の動作体１０は、メッセージアプリケーションやＳＮＳを介してユーザとのコミュニケーションを図る機能を有してもよい。係る機能によれば、外出中であっても、ユーザが第１の動作体１０との対話を楽しむことができ、また第２の動作体２０や家の状況を把握することができる。

　また、例えば、本実施形態に係る第１の動作体１０は、高い視点を活かして第２の動作体２０に障害物回避などに係る移動指示を行うことも可能である。上述したように、本実施形態に係る第１の動作体１０は、卓上に配置されることを想定していることから、床上を歩行移動する第２の動作体２０と比較して高い視点を有する。

　図２３Ａは、本実施形態に係る第１の動作体１０による第２の動作体２０への移動指示の流れを示すフローチャートである。

　図２３Ａを参照すると、まず、第１の動作体１０は、自律動作を行う（Ｓ２４０１）。

　次に、第１の動作体１０は、第２の動作体２０の周辺の映像を第２の動作体に送信する（Ｓ２４０２）。第１の動作体１０は、第２の動作体２０からの要求に基づいて上記映像の送信を行ってもよいし、第２の動作体２０が障害物に衝突しそうな状況を認識したことなどに基づいて上記映像の送信を行ってもよい。

　また、第１の動作体１０は、第２の動作体２０に対する移動指示に係る表出を行ってよい（Ｓ２４０３）。第１の動作体１０は、例えば、「危ないよ！みぎ、みぎ！」などの発話を行うことができる。

　また、図２３Ｂは、本実施形態に係る第１の動作体１０からの移動指示に基づく第２の動作体２０の動作の流れを示すフローチャートである。

　図２３Ｂを参照すると、まず、第２の動作体２０は、自律動作を行う（Ｓ２５０１）。

　ここで、第１の動作体１０から映像を受信すると、第２の動作体２０は、第１の動作体１０の視点で得られた映像を自身の周囲にマッピングする（Ｓ２５０２）。

　続いて、第２の動作体２０は、ステップＳ２５０２における映像のマッピングに基づいて、障害物を回避して移動する（Ｓ２５０３）。

　＜２．情報処理サーバ３０のハードウェア構成例＞
　次に、本開示の一実施形態に係る情報処理サーバ３０のハードウェア構成例について説明する。図２４は、本開示の一実施形態に係る情報処理サーバ３０のハードウェア構成例を示すブロック図である。図２４に示すように、情報処理サーバ３０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インタフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（プロセッサ８７１）
　プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インタフェース８７７）
　プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インタフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
　リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜３．まとめ＞
　以上説明したように、本開示の一実施形態に係る情報処理サーバ３０は、音声認識処理の結果に基づいて動作体の動作を制御する制御部３３０を備える。また、本開示の一実施形態に係る制御部３３０は、一の動作体が収集した音声に基づく音声認識処理の結果、または一の動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の動作体の動作を制御すること、を特徴の一つとする。係る構成によれば、音声認識処理に基づく動作を行う複数の動作体が存在する環境において、各動作体がより状況に適した動作を実現することを可能とする。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、第１の動作体１０、第２の動作体２０、または情報処理サーバ３０が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な非一過性の記録媒体も提供され得る。

　また、本明細書の情報処理システムの処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理システムの処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　音声認識処理の結果に基づいて動作体の動作を制御する制御部、
　を備え、
　前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御する、
情報処理装置。
（２）
　前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果に基づいて、当該音声認識処理の結果に対応する動作を他の前記動作体に実行させる、
前記（１）に記載の情報処理装置。
（３）
　前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果を他の前記動作体に伝達したことを示す動作を当該一の前記動作体に実行させる、
前記（２）に記載の情報処理装置。
（４）
　前記動作体は、第１の辞書を用いた第１の音声認識処理の結果に基づく動作を行う第１の動作体と、前記第１の辞書よりも語彙数の少ない第２の辞書を用いた第２の音声認識処理の結果に基づく動作を行う第２の動作体を含み、
　前記制御部は、前記第１の動作体が収集した音声と前記第１の辞書に基づく前記第１の音声認識処理の結果に基づいて、前記第１の音声認識処理の結果に対応する動作を前記第２の動作体に実行させる、
前記（２）または（３）に記載の情報処理装置。
（５）
　前記制御部は、前記第１の音声認識処理の結果として得られた語彙のカテゴリに対応する語彙を前記第２の辞書から抽出し、当該語彙を前記第２の動作体に伝達する、
前記（４）に記載の情報処理装置。
（６）
　前記制御部は、前記第１の音声認識処理の結果に係るログに基づいて、前記第２の辞書の語彙の入れ替えを制御する、
前記（４）または（５）に記載の情報処理装置。
（７）
　前記第２の動作体は、前記第２の辞書を用いた前記第２の音声認識処理をローカルで実行する、
前記（４）～（６）のいずれかに記載の情報処理装置。
（８）
　前記動作体は、自律移動体である、
前記（１）～（７）のいずれかに記載の情報処理装置。
（９）
　前記制御部は、一の前記動作体に係る音声認識環境が音声認識処理精度の低下要因となり得る環境である場合、他の前記動作体に係る音声認識環境が向上するよう他の前記動作体の動作を制御する、
前記（８）に記載の情報処理装置。
（１０）
　前記音声認識環境は、前記動作体の動作状況を含み、
　前記制御部は、一の前記動作体の動作状況に基づいて、他の前記動作体の動作を制御する、
前記（９）に記載の情報処理装置。
（１１）
　前記制御部は、一の前記動作体が動作音を伴う動作を実行している場合、他の前記動作体の動作音がより低下するよう制御する、
前記（１０）に記載の情報処理装置。
（１２）
　前記音声認識環境は、ノイズ音源または話者の認識結果を含み、
　前記制御部は、一の前記動作体が収集したセンサ情報に基づいて認識されたノイズ音源または話者に係る情報を他の前記動作体に伝達する、
前記（１）～（１１）のいずれかに記載の情報処理装置。
（１３）
　前記制御部は、一の前記動作体が収集したセンサ情報に基づいて認識されたノイズ音源または話者に係る情報に基づいて、他の前記動作体に係る音声認識処理の実行有無を制御する、
前記（１２）に記載の情報処理装置。
（１４）
　前記制御部は、一の前記動作体が収集したセンサ情報に基づいて認識された環境に基づいて、ユーザに対する能動的なアクションを他の前記動作体に実行させる、
前記（１）～（１３）のいずれかに記載の情報処理装置。
（１５）
　前記制御部は、一の前記動作体が収集したセンサ情報に基づいて認識された環境に基づいて、当該環境に応じた能動的な発話を他の前記動作体に実行させる、
前記（１４）に記載の情報処理装置。
（１６）
　前記制御部は、複数の前記動作体が収集した音声のそれぞれに基づく複数の音声認識処理の結果から決定される統合認識結果に基づいて、前記動作体の動作を制御する、
前記（１）～（１５）のいずれかに記載の情報処理装置。
（１７）
　前記制御部は、前記統合認識結果と同一の音声認識処理の結果が得られた音声を収集した前記動作体に、前記統合認識結果と同一の音声認識処理の結果が得られなかった他の前記動作体に関する言動を実行させる、
前記（１６）に記載の情報処理装置。
（１８）
　前記制御部は、前記統合認識結果と同一の音声認識処理の結果が得られなかった音声を収集した前記動作体に、前記統合認識結果と同一の音声認識処理の結果が得られなかったことを示す言動を実行させる、
前記（１６）または（１７）に記載の情報処理装置。
（１９）
　プロセッサが、音声認識処理の結果に基づいて動作体の動作を制御すること、
　を含み、
　前記制御することは、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御すること、
　をさらに含む、
情報処理方法。
（２０）
　コンピュータを、
　音声認識処理の結果に基づいて動作体の動作を制御する制御部、
　を備え、
　前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御する、
　情報処理装置、
として機能させるためのプログラム。

　１０　　　第１の動作体
　１４０　　トリガ検出部
　１５０　　制御部
　２０　　　第２の動作体
　２４０　　認識部
　２４２　　第２の辞書
　２５０　　制御部
　３０　　　情報処理サーバ
　３１０　　音声認識部
　３２０　　自然言語処理部
　３２２　　第１の辞書
　３３０　　制御部
　４０　　　ネットワーク

Claims

　音声認識処理の結果に基づいて動作体の動作を制御する制御部、
　を備え、
　前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御する、
情報処理装置。
　前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果に基づいて、当該音声認識処理の結果に対応する動作を他の前記動作体に実行させる、
請求項１に記載の情報処理装置。
　前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果を他の前記動作体に伝達したことを示す動作を当該一の前記動作体に実行させる、
請求項２に記載の情報処理装置。
　前記動作体は、第１の辞書を用いた第１の音声認識処理の結果に基づく動作を行う第１の動作体と、前記第１の辞書よりも語彙数の少ない第２の辞書を用いた第２の音声認識処理の結果に基づく動作を行う第２の動作体を含み、
　前記制御部は、前記第１の動作体が収集した音声と前記第１の辞書に基づく前記第１の音声認識処理の結果に基づいて、前記第１の音声認識処理の結果に対応する動作を前記第２の動作体に実行させる、
請求項２に記載の情報処理装置。
　前記制御部は、前記第１の音声認識処理の結果として得られた語彙のカテゴリに対応する語彙を前記第２の辞書から抽出し、当該語彙を前記第２の動作体に伝達する、
請求項４に記載の情報処理装置。
　前記制御部は、前記第１の音声認識処理の結果に係るログに基づいて、前記第２の辞書の語彙の入れ替えを制御する、
請求項４に記載の情報処理装置。
　前記第２の動作体は、前記第２の辞書を用いた前記第２の音声認識処理をローカルで実行する、
請求項４に記載の情報処理装置。
　前記動作体は、自律移動体である、
請求項１に記載の情報処理装置。
　前記制御部は、一の前記動作体に係る音声認識環境が音声認識処理精度の低下要因となり得る環境である場合、他の前記動作体に係る音声認識環境が向上するよう他の前記動作体の動作を制御する、
請求項８に記載の情報処理装置。
　前記音声認識環境は、前記動作体の動作状況を含み、
　前記制御部は、一の前記動作体の動作状況に基づいて、他の前記動作体の動作を制御する、
請求項９に記載の情報処理装置。
　前記制御部は、一の前記動作体が動作音を伴う動作を実行している場合、他の前記動作体の動作音がより低下するよう制御する、
請求項１０に記載の情報処理装置。
　前記音声認識環境は、ノイズ音源または話者の認識結果を含み、
　前記制御部は、一の前記動作体が収集したセンサ情報に基づいて認識されたノイズ音源または話者に係る情報を他の前記動作体に伝達する、
請求項１に記載の情報処理装置。
　前記制御部は、一の前記動作体が収集したセンサ情報に基づいて認識されたノイズ音源または話者に係る情報に基づいて、他の前記動作体に係る音声認識処理の実行有無を制御する、
請求項１２に記載の情報処理装置。
　前記制御部は、一の前記動作体が収集したセンサ情報に基づいて認識された環境に基づいて、ユーザに対する能動的なアクションを他の前記動作体に実行させる、
請求項１に記載の情報処理装置。
　前記制御部は、一の前記動作体が収集したセンサ情報に基づいて認識された環境に基づいて、当該環境に応じた能動的な発話を他の前記動作体に実行させる、
請求項１４に記載の情報処理装置。
　前記制御部は、複数の前記動作体が収集した音声のそれぞれに基づく複数の音声認識処理の結果から決定される統合認識結果に基づいて、前記動作体の動作を制御する、
請求項１に記載の情報処理装置。
　前記制御部は、前記統合認識結果と同一の音声認識処理の結果が得られた音声を収集した前記動作体に、前記統合認識結果と同一の音声認識処理の結果が得られなかった他の前記動作体に関する言動を実行させる、
請求項１６に記載の情報処理装置。
　前記制御部は、前記統合認識結果と同一の音声認識処理の結果が得られなかった音声を収集した前記動作体に、前記統合認識結果と同一の音声認識処理の結果が得られなかったことを示す言動を実行させる、
請求項１６に記載の情報処理装置。
　プロセッサが、音声認識処理の結果に基づいて動作体の動作を制御すること、
　を含み、
　前記制御することは、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御すること、
　をさらに含む、
情報処理方法。
　コンピュータを、
　音声認識処理の結果に基づいて動作体の動作を制御する制御部、
　を備え、
　前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御する、
　情報処理装置、
として機能させるためのプログラム。