WO2019087495A1

WO2019087495A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2019087495A1
Application number: PCT/JP2018/028920
Authority: WO
Inventors: 裕一郎小山; 健晶下江; 一太朗小原
Original assignee: ソニー株式会社
Priority date: 2017-10-30
Filing date: 2018-08-01
Publication date: 2019-05-09
Also published as: JPWO2019087495A1; CN111108463A; JP2024023193A; US20200269421A1

Abstract

【課題】認識処理の実行に係るフィードバックをより自然な動作で実現する。【解決手段】認識処理に基づいて行動を行う動作体の動作制御を行う動作制御部、を備え、前記動作制御部は、認識対象情報の入力に基づいて前記動作体に応答動作を実行させ、前記応答動作は、前記認識処理の実行に係る暗示的なフィードバックである、情報処理装置が提供される。また、プロセッサが、認識処理に基づいて行動を行う動作体の動作制御を行うこと、を含み、前記動作制御を行うことは、認識対象情報の入力に基づいて前記動作体に応答動作を実行させること、をさらに含み、前記応答動作は、前記認識処理の実行に係る暗示的なフィードバックである、情報処理方法が提供される。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　近年、認識処理に基づく動作を行う種々の装置が開発されている。上記の装置には、認識した状況に基づいて自律行動を行うロボットなどの動作体が含まれる。例えば、特許文献１には、状況に応じた自律動作や感情表出を行う脚式移動ロボットが開示されている。

特開２００３－７１７６３号公報

　ところで、認識処理に基づく動作を実行する装置では、ユーザに対し、当該認識処理が実行されていることを示すことが重要となる。しかし、特許文献１に記載される脚式移動ロボットのようにランプを用いたフィードバックを行う場合、動作体の趣旨に反する不自然な表現となる場合も想定される。

　そこで、本開示では、認識処理の実行に係るフィードバックをより自然な動作で実現することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。

　本開示によれば、認識処理に基づいて行動を行う動作体の動作制御を行う動作制御部、を備え、前記動作制御部は、認識対象情報の入力に基づいて前記動作体に応答動作を実行させ、前記応答動作は、前記認識処理の実行に係る暗示的なフィードバックである、情報処理装置が提供される。

　また、本開示によれば、プロセッサが、認識処理に基づいて行動を行う動作体の動作制御を行うこと、を含み、前記動作制御を行うことは、認識対象情報の入力に基づいて前記動作体に応答動作を実行させること、をさらに含み、前記応答動作は、前記認識処理の実行に係る暗示的なフィードバックである、情報処理方法が提供される。

　また、本開示によれば、コンピュータを、認識処理に基づいて行動を行う動作体の動作制御を行う動作制御部、を備え、前記動作制御部は、認識対象情報の入力に基づいて前記動作体に応答動作を実行させ、前記応答動作は、前記認識処理の実行に係る暗示的なフィードバックである、情報処理装置、として機能させるためのプログラムが提供される。

　以上説明したように本開示によれば、認識処理の実行に係るフィードバックをより自然な動作で実現することが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る自律移動体のハードウェア構成例を示す図である。本開示の一実施形態に係る自律移動体が備えるアクチュエータの構成例である。本開示の一実施形態に係る自律移動体が備えるアクチュエータの動作について説明するための図である。本開示の一実施形態に係る自律移動体が備えるアクチュエータの動作について説明するための図である。本開示の一実施形態に係る自律移動体が備えるディスプレイの機能について説明するための図である。本開示の一実施形態に係る自律移動体の動作例を示す図である。本開示の第１の実施形態に係る自律移動体１０の機能構成例を示す機能ブロック図である。同実施形態に係る比較手法による動作制御の一例を示す図である。同実施形態に係る動作制御の概要を示す図である。同実施形態に係る情報処理方法と比較手法との差異について説明するための図である。同実施形態に係る第１応答の一例を示す図である。同実施形態に係る第２応答の一例を示す図である。同実施形態に係る第３応答の一例を示す図である。同実施形態に係る状況に基づく動作種別の動的制御について説明するための図である。同実施形態に係る発話対象の認識に基づく動作制御について説明するための図である。同実施形態に係る応答動作への移行制御について説明するための図である。同実施形態に係る仮想空間における動作体の制御について説明するための図である。同実施形態に係る動作制御の流れを示すフローチャートである。本開示の一実施形態に係る動作制御装置のハードウェア構成例を示す図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．自律移動体１０の概要
　２．自律移動体１０のハードウェア構成例
　３．第１の実施形態
　　３．１．概要
　　３．２．機能構成例
　　３．３．動作制御の具体例
　　３．４．制御の流れ
　４．動作制御装置のハードウェア構成例
　５．まとめ

　＜１．自律移動体１０の概要＞
　まず、本開示の一実施形態に係る自律移動体１０の概要について説明する。本開示の一実施形態に係る自律移動体１０は、収集したセンサ情報に基づく状況推定を実行し、状況に応じた種々の動作を自律的に選択し実行する情報処理装置である。自律移動体１０は、単にユーザの指示コマンドに従った動作を行うロボットとは異なり、状況ごとに最適であると推測した動作を自律的に実行することを特徴の一つとする。

　このため、本開示の一実施形態に係る自律移動体１０は、状況によっては、ユーザの指示に対応する動作を敢えて実行しない場合や、当該動作とは異なる他の挙動を実行する場合もある。上記の状況には、例えば、ユーザの指示に対応する動作を行った場合、ユーザや自律移動体１０、または周囲環境の安全性が損なわれる場合や、自律移動体１０が例えば、充電処理などの他の欲求（本能）を優先する場合などが相当する。

　また、自律移動体１０は、ユーザの指示に敢えて従わないことで、当該ユーザの興味の誘因を試みることや、自身の感情やハードウェアの状態をユーザに伝達しようと試みる場合もある。

　一方で、自律移動体１０は、ユーザに愛されたいという強い欲求（本能）を有する。このため、自律移動体１０は、ユーザを喜ばせるためにユーザの指示に対応する動作を繰り返し実行したり、ユーザが気に入った動作を学習し、指示がない場合でも自発的に当該動作を実行したりする。

　このように、本開示の一実施形態に係る自律移動体１０は、ヒトを含む動物と同様に、欲求や感情、また周囲の環境などを総合的に判断して自律動作を決定、実行する。上記の点において、自律移動体１０は、指示に基づいて対応する動作や処理を実行する受動的な装置とは明確に相違する。

　本開示の一実施形態に係る自律移動体１０は、空間内を自律的に移動し、種々の動作を実行する自律移動型ロボットであってよい。自律移動体１０は、例えば、ヒトやイヌなどの動物を模した形状や、動作能力を有する自律移動型ロボットであってもよい。また、自律移動体１０は、例えば、ユーザとのコミュニケーション能力を有する車両やその他の装置であってもよい。本開示の一実施形態に係る自律移動体１０の形状、能力、また欲求などのレベルは、目的や役割に応じて適宜設計され得る。

　＜２．自律移動体１０のハードウェア構成例＞
　次に、本開示の一実施形態に係る自律移動体１０のハードウェア構成例について説明する。なお、以下では、自律移動体１０がイヌ型の四足歩行ロボットである場合を例に説明する。

　図１は、本開示の一実施形態に係る自律移動体１０のハードウェア構成例を示す図である。図１に示すように、自律移動体１０は、頭部、胴部、４つの脚部、および尾部を有するイヌ型の四足歩行ロボットである。また、自律移動体１０は、頭部に２つのディスプレイ５１０を備える。

　また、自律移動体１０は、種々のセンサを備える。自律移動体１０は、例えば、マイクロフォン５１５、カメラ５２０、ＴｏＦ（Ｔｉｍｅ　ｏｆ　Ｆｌｉｇｈｔ）センサ５２５、人感センサ５３０、測距センサ５３５、タッチセンサ５４０、照度センサ５４５、足裏ボタン５５０、慣性センサ５５５を備える。

　（マイクロフォン５１５）
　マイクロフォン５１５は、周囲の音を収集する機能を有する。上記の音には、例えば、ユーザの発話や、周囲の環境音が含まれる。自律移動体１０は、例えば、頭部に４つのマイクロフォンを備えてもよい。複数のマイクロフォン５１５を備えることで、周囲で発生する音を感度高く収集すると共に、音源の定位を実現することが可能となる。

　（カメラ５２０）
　カメラ５２０は、ユーザや周囲環境を撮像する機能を有する。自律移動体１０は、例えば、鼻先と腰部に２つの広角カメラを備えてもよい。この場合、鼻先に配置される広角カメラは、自律移動体の前方視野（すなわち、イヌの視野）に対応した画像を撮像し、腰部の広角カメラは、上方を中心とする周囲領域の画像を撮像する。自律移動体１０は、例えば、腰部に配置される広角カメラにより撮像された画像に基づいて、天井の特徴点などを抽出し、ＳＬＡＭ（Ｓｉｍｕｌｔａｎｅｏｕｓ　Ｌｏｃａｌｉｚａｔｉｏｎ　ａｎｄ　Ｍａｐｐｉｎｇ）を実現することができる。

　（ＴｏＦセンサ５２５）
　ＴｏＦセンサ５２５は、頭部前方に存在する物体との距離を検出する機能を有する。ＴｏＦセンサ５２５は、頭部の鼻先に備えられる。ＴｏＦセンサ５２５によれば、種々の物体との距離を精度高く検出することができ、ユーザを含む対象物や障害物などとの相対位置に応じた動作を実現することが可能となる。

　（人感センサ５３０）
　人感センサ５３０は、ユーザやユーザが飼育するペットなどの所在を検知する機能を有する。人感センサ５３０は、例えば、胸部に配置される。人感センサ５３０によれば、前方に存在する動物体を検知することで、当該動物体に対する種々の動作、例えば、興味、恐怖、驚きなどの感情に応じた動作を実現することが可能となる。

　（測距センサ５３５）
　測距センサ５３５は、自律移動体１０の前方床面の状況を取得する機能を有する。測距センサ５３５は、例えば、胸部に配置される。測距センサ５３５によれば、自律移動体１０の前方床面に存在する物体との距離を精度高く検出することができ、当該物体との相対位置に応じた動作を実現することができる。

　（タッチセンサ５４０）
　タッチセンサ５４０は、ユーザによる接触を検知する機能を有する。タッチセンサ５４０は、例えば、頭頂、あご下、背中など、ユーザが自律移動体１０に対し触れる可能性が高い部位に配置される。タッチセンサ５４０は、例えば、静電容量式や感圧式のタッチセンサであってよい。タッチセンサ５４０によれば、ユーザによる触れる、撫でる、叩く、押すなどの接触行為を検知することができ、当該接触行為に応じた動作を行うことが可能となる。

　（照度センサ５４５）
　照度センサ５４５は、自律移動体１０が位置する空間の照度を検出する。照度センサ５４５は、例えば、頭部背面において尾部の付け根などに配置されてもよい。照度センサ５４５によれば、周囲の明るさを検出し、当該明るさに応じた動作を実行することが可能となる。

　（足裏ボタン５５０）
　足裏ボタン５５０は、自律移動体１０の脚部底面が床と接触しているか否かを検知する機能を有する。このために、足裏ボタン５５０は、４つの脚部の肉球に該当する部位にそれぞれ配置される。足裏ボタン５５０によれば、自律移動体１０と床面との接触または非接触を検知することができ、例えば、自律移動体１０がユーザにより抱き上げられたことなどを把握することが可能となる。

　（慣性センサ５５５）
　慣性センサ５５５は、頭部や胴部の速度や加速度、回転などの物理量を検出する６軸センサである。すなわち、慣性センサ５５５は、Ｘ軸、Ｙ軸、Ｚ軸の加速度および角速度を検出する。慣性センサ５５５は、頭部および胴部にそれぞれ配置される。慣性センサ５５５によれば、自律移動体１０の頭部および胴部の運動を精度高く検出し、状況に応じた動作制御を実現することが可能となる。

　以上、本開示の一実施形態に係る自律移動体１０が備えるセンサの一例について説明した。なお、図１を用いて説明した上記の構成はあくまで一例であり、自律移動体１０が備え得るセンサの構成は係る例に限定されない。自律移動体１０は、上記の構成のほか、例えば、温度センサ、地磁気センサ、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）信号受信機を含む各種の通信装置などをさらに備えてよい。自律移動体１０が備えるセンサの構成は、仕様や運用に応じて柔軟に変形され得る。

　続いて、本開示の一実施形態に係る自律移動体１０の関節部の構成例について説明する。図２は、本開示の一実施形態に係る自律移動体１０が備えるアクチュエータ５７０の構成例である。本開示の一実施形態に係る自律移動体１０は、図２に示す回転箇所に加え、耳部と尾部に２つずつ、口に１つの合計２２の回転自由度を有する。

　例えば、自律移動体１０は、頭部に３自由度を有することで、頷きや首を傾げる動作を両立することができる。また、自律移動体１０は、腰部に備えるアクチュエータ５７０により、腰のスイング動作を再現することで、より現実のイヌに近い自然かつ柔軟な動作を実現することが可能である。

　なお、本開示の一実施形態に係る自律移動体１０は、例えば、１軸アクチュエータと２軸アクチュエータを組み合わせることで、上記の２２の回転自由度を実現してもよい。例えば、脚部における肘や膝部分においては１軸アクチュエータを、肩や大腿の付け根には２軸アクチュエータをそれぞれ採用してもよい。

　図３および図４は、本開示の一実施形態に係る自律移動体１０が備えるアクチュエータ５７０の動作について説明するための図である。図３を参照すると、アクチュエータ５７０は、モータ５７５により出力ギアを回転させることで、可動アーム５９０を任意の回転位置および回転速度で駆動させることができる。

　図４を参照すると、本開示の一実施形態に係るアクチュエータ５７０は、リアカバー５７１、ギアＢＯＸカバー５７２、制御基板５７３、ギアＢＯＸベース５７４、モータ５７５、第１ギア５７６、第２ギア５７７、出力ギア５７８、検出用マグネット５７９、２個のベアリング５８０を備える。

　本開示の一実施形態に係るアクチュエータ５７０は、例えば、磁気式ｓｖＧＭＲ（ｓｐｉｎ－ｖａｌｖｅ　Ｇｉａｎｔ　Ｍａｇｎｅｔｏｒｅｓｉｓｔｉｖｅ）であってもよい。制御基板５７３が、メインプロセッサによる制御に基づいて、モータ５７５を回転させることで、第１ギア５７６および第２ギア５７７を介して出力ギア５７８に動力が伝達され、可動アーム５９０を駆動させることが可能である。

　また、制御基板５７３に備えられる位置センサが、出力ギア５７８に同期して回転する検出用マグネット５７９の回転角を検出することで、可動アーム５９０の回転角度、すなわち回転位置を精度高く検出することができる。

　なお、磁気式ｓｖＧＭＲは、非接触方式であるため耐久性に優れるとともに、ＧＭＲ飽和領域において使用することで、検出用マグネット５７９や位置センサの距離変動による信号変動の影響が少ないという利点を有する。

　以上、本開示の一実施形態に係る自律移動体１０が備えるアクチュエータ５７０の構成例について説明した。上記の構成によれば、自律移動体１０が備える関節部の屈伸動作を精度高く制御し、また関節部の回転位置を正確に検出することが可能となる。

　続いて、図５を参照して、本開示の一実施形態に係る自律移動体１０が備えるディスプレイ５１０の機能について説明する。図５は、本開示の一実施形態に係る自律移動体１０が備えるディスプレイ５１０の機能について説明するための図である。

　（ディスプレイ５１０）
　ディスプレイ５１０は、自律移動体１０の目の動きや感情を視覚的に表現する機能を有する。図５に示すように、ディスプレイ５１０は、感情や動作に応じた眼球、瞳孔、瞼の動作を表現することができる。ディスプレイ５１０は、文字や記号、また眼球運動とは関連しない画像などを敢えて表示しないことで、実在するイヌなどの動物に近い自然な動作を演出する。

　また、図５に示すように、自律移動体１０は、右眼および左眼にそれぞれ相当する２つのディスプレイ５１０ｒおよび５１０ｌを備える。ディスプレイ５１０ｒおよび５１０ｌは、例えば、独立した２つのＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）により実現される。ＯＬＥＤによれば、眼球の曲面を再現することが可能となり、１枚の平面ディスプレイにより一対の眼球を表現する場合や、２枚の独立した平面ディスプレイにより２つの眼球をそれぞれ表現する場合と比較して、より自然な外装を実現することができる。

　以上述べたように、ディスプレイ５１０ｒおよび５１０ｌによれば、図５に示すような自律移動体１０の視線や感情を高精度かつ柔軟に表現することが可能となる。また、ユーザはディスプレイ５１０に表示される眼球の動作から、自律移動体１０の状態を直観的に把握することが可能となる。

　以上、本開示の一実施形態に係る自律移動体１０のハードウェア構成例について説明した。上記の構成によれば、図６に示すように、自律移動体１０の関節部や眼球の動作を精度高くまた柔軟に制御することで、より実在の生物に近い動作および感情表現を実現することが可能となる。なお、図６は、本開示の一実施形態に係る自律移動体１０の動作例を示す図であるが、図６では、自律移動体１０の関節部および眼球の動作について着目して説明を行うため、自律移動体１０の外部構造を簡略化して示している。本開示の一実施形態に係る自律移動体１０のハードウェア構成および外装は、図面により示される例に限定されず、適宜設計され得る。

　＜３．第１の実施形態＞
　＜＜３．１．概要＞＞
　次に、本開示の第１の実施形態について説明する。上述したように、本開示の一実施形態に係る自律移動体１０（動作体、とも称する）は、イヌ型の情報処理装置であってよい。本開示の一実施形態に係る自律移動体１０は、眼球運動による感情表現を除いた視覚情報の出力手段や、音声による言語伝達手段を有しないことを特徴の一つとする。当該特徴によれば、実際のイヌに近いより自然な動作を実現するとともに、自律移動体１０が有する機能や外装に対するユーザの違和感を低減することが可能となる。

　しかし、自律移動体１０のようにユーザに対する明示的な情報伝達手段を有しない装置の場合、ユーザが装置の状態を明確に把握することが困難な場合がある。例えば、自律移動体１０は、ユーザの発話を認識し、当該認識の結果に基づく行動を実行する機能を有する。しかし、スマートフォンなどに搭載される音声認識機能とは異なり、自律移動体１０による音声認識では、ユーザが明示的に認識の開始をボタンなどにより指示することがない。このため、ユーザは、認識結果に基づく行動が表出されるまでは、認識処理が実行されているのか否かを判断することが困難である。

　さらには、本開示の一実施形態に係る自律移動体１０は、上述したように、状況によっては、ユーザの指示に対応する動作を敢えて実行しない場合や、当該動作とは異なる他の挙動を実行する場合もある。このため、認識処理が正常に実行し、かつ自律移動体１０がユーザの意図に沿わない行動を行った場合、ユーザが、認識処理が失敗した、あるいは認識処理自体が行われなかった、と誤認する可能性も想定される。

　一方、上記のような可能性を排除するためには、例えば、「認識中です」などの文言を音声または視覚情報により出力することや、ランプの点灯などにより、認識処理の実行に係るフィードバックを明示的に行うことも考えられる。

　しかし、上述したように、上記のような明示的なフィードバックは、自律移動体１０の挙動を不自然なものとし、自律移動体１０に対するユーザの興味や熱中度を低下させる可能性がある。

　本実施形態に係る技術思想は上記の点に着目して発想されたものであり、認識処理の実行に係るより自然なフィードバックを実現することを可能とする。このために、本実施形態に係る情報処理方法を実現する自律移動体１０は、認識対象情報の入力に基づいて、認識処理の実行に係る暗示的なフィードバックである応答動作を実行すること、を特徴の一つとする。

　以下、本実施形態に係る自律移動体１０が有する上記の特徴と、当該特徴が奏する効果について詳細に説明する。

　＜＜３．２．機能構成例＞＞
　まず、本実施形態に係る自律移動体１０の機能構成例について説明する。図７は、本実施形態に係る自律移動体１０の機能構成例を示す機能ブロック図である。図７を参照すると、本実施形態に係る自律移動体１０は、入力部１１０、認識部１２０、学習部１３０、行動計画部１４０、動作制御部１５０、駆動部１６０、および出力部１７０を備える。
　（入力部１１０）
　入力部１１０は、ユーザや周囲環境に係る種々の情報を収集する機能を有する。入力部１１０は、例えば、ユーザの発話や周囲で発生する環境音、ユーザや周囲環境に係る画像情報、および種々のセンサ情報を収集する。このために、入力部１１０は、図１に示す各種のセンサを備える。

　（認識部１２０）
　認識部１２０は、入力部１１０が収集した種々の情報に基づいて、ユーザや周囲環境、また自律移動体１０の状態に係る種々の認識を行う機能を有する。一例としては、認識部１２０は、人識別、表情や視線の認識、物体認識、色認識、形認識、マーカー認識、障害物認識、段差認識、明るさ認識などを行ってよい。

　また、認識部１２０は、ユーザの発話に基づく音声認識、単語理解、感情認識、音源定位などを行う。また、認識部１２０は、ユーザなどによる接触や、周囲の温度、動物体の存在、自律移動体１０の姿勢などを認識することができる。

　さらには、認識部１２０は、認識した上記の情報に基づいて、自律移動体１０が置かれた周囲環境や状況を推定し、理解する機能を有する。この際、認識部１２０は、事前に記憶される環境知識を用いて総合的に状況推定を行ってもよい。

　（学習部１３０）
　学習部１３０は、環境（状況）と行動、また当該行動による環境への作用を学習する機能を有する。学習部１３０は、例えば、深層学習（Ｄｅｅｐ　Ｌｅａｒｎｉｎｇ）などの機械学習アルゴリズムを用いて、上記の学習を実現する。なお、学習部１３０が採用する学習アルゴリズムは、上記の例に限定されず、適宜設計可能である。

　（行動計画部１４０）
　行動計画部１４０は、認識部１２０が推定した状況と学習部１３０が学習した知識に基づいて、自律移動体１０が行う行動を計画する機能を有する。本実施形態に係る行動計画部１４０は、例えば、認識部１２０が認識したユーザの発話に基づいて、ユーザの発話意図に応じた行動や、ユーザの発話意図に敢えて従わない行動を実行することを決定する。

　（動作制御部１５０）
　動作制御部１５０は、認識部１２０による認識処理および行動計画部１４０による行動計画に基づいて、駆動部１６０および出力部１７０の動作を制御する機能を有する。動作制御部１５０は、例えば、上記の行動計画に基づいて、アクチュエータ５７０の回転制御や、ディスプレイ５１０の表示制御、スピーカによる音声出力制御などを行う。

　また、本実施形態に係る動作制御部１５０は、認識対象情報の入力に基づいて、認識処理の実行に係る暗示的なフィードバックである応答動作の実行を制御すること、を特徴の一つとする。本実施形態に係る動作制御部１５０の機能詳細については別途詳細に説明する。

　（駆動部１６０）
　駆動部１６０は、動作制御部１５０による制御に基づいて、自律移動体１０が有する複数の関節部を屈伸させる機能を有する。より具体的には、駆動部１６０は、動作制御部１５０による制御に基づき、各関節部が備えるアクチュエータ５７０を駆動させる。

　（出力部１７０）
　出力部１７０は、動作制御部１５０による制御に基づいて、視覚情報や音情報の出力を行う機能を有する。このために、出力部１７０は、ディスプレイ５１０やスピーカを備える。なお、本実施形態に係る出力部１７０は、上述したように、明示的な言語伝達情報を出力しないことを特徴の一つとする。

　以上、本実施形態に係る自律移動体１０の機能構成について説明した。なお、図７に示す構成はあくまで一例であり、本実施形態に係る自律移動体１０の機能構成は係る例に限定されない。本実施形態に係る自律移動体１０は、例えば、情報処理サーバや他の自律移動体と通信を行う通信部などを備えてよい。

　また、本実施形態に係る認識部１２０、学習部１３０、行動計画部１４０、および動作制御部１５０などは、上記の情報処理サーバ（動作制御装置）の機能として実現されてもよい。この場合、動作制御部１５０は、自律移動体１０の入力部１１０が収集したセンサ情報に基づいて決定された行動計画に基づいて、自律移動体１０の駆動部１６０と出力部１７０の制御を行うことが可能である。本実施形態に係る自律移動体１０の機能構成は仕様や運用に応じて柔軟に変形可能である。

　＜＜３．３．動作制御の具体例＞＞
　続いて、本実施形態に係る動作制御の具体例について詳細に説明する。上述したように、本実施形態に係る動作制御部１５０は、認識対象情報の入力に基づいて、認識処理の実行に係る暗示的なフィードバックである応答動作の実行を制御すること、を特徴の一つとする。当該特徴によれば、自律移動体１０による認識処理の進捗をユーザが直観的に把握することが可能となる。

　なお、以下においては、本実施形態に係る自律移動体１０が音声認識を実行する場合を例に動作制御部１５０の機能について説明する。しかし、本実施形態に係る認識処理は係る例に限定されず、本実施形態に係る技術思想は、種々の認識処理や推定処理に適用可能である。本実施形態に係る動作制御部１５０は、例えば、物体認識、話者認識もしくは声紋認識、マーカー認識、感情推定などに係る暗示的なフィードバックを制御することが可能である。

　ここで、まず、本実施形態に係る情報処理方法に対する比較手法による動作制御について説明する。上述したように、自律移動体１０は、ユーザの発話を正しく認識した場合でも、ユーザの意図に沿わない行動を行う場合がある。このような場合、ユーザは、音声認識が実行されたか否かを判断することが困難であり、当該行動を自律移動体の不具合と誤認する可能性がある。

　上記の可能性を排除するため、認識に基づく行動とは別途に、音声認識の完了を示すフィードバックを行うことも想定される。

　図８は、比較手法による動作制御の一例を示す図である。図８には、比較手法に係る動作体９０がユーザの発話に係る音声認識処理を実行する際の状態変化が時系列に示されている。

　なお、本実施形態では、音声認識処理が、信号処理、発話検出、パターン認識、発話理解により実現され、発話理解については、取得パターンの辞書マッチングが採用される場合を例に説明する。しかし、上記はあくまで一例であり、本実施形態に係る情報処理方法は、種々の音声認識手法に適用され得る。

　図８の左側には、ユーザの発話の開始を検出した際の動作体９０の状態が、図８の中央には、ユーザの発話の終了を検出しマッチングを開始した際の動作体９０の状態が、図８の右側には、マッチングが完了した際の動作体９０の状態がそれぞれ示されている。

　図示するように、比較手法では、マッチングが完了した際に、動作体９０に耳を動かす動作を実行させることで、ユーザに対し音声認識処理が完了したことをフィードバックしている。当該制御によれば、この後に動作体９０が意図に沿わない行動を行った場合であっても、音声認識処理が実行されたことをユーザが把握できる。

　しかし、ユーザは、マッチング完了時における耳の動きを確認するまでは、音声認識処理が開始されたことや、実行中であることを把握することが困難である。

　そこで、本実施形態に係る動作制御部１５０は、認識対象情報の入力開始が検知されたことに基づいて自律移動体１０に第１応答を実行させ、認識対象情報の入力終了が検知されたことに基づいて自律移動体１０に第２応答を実行させることで、上記の点を解決する。なお、上記の認識対象情報とは、本例の場合、ユーザの発話を指す。

　図９は、本実施形態に係る動作制御の概要を示す図である。図９には、図８と同様に、発話開始検出時、発話完了検出時、マッチング完了時における自律移動体１０の状態が時系列に示されている。

　まず、本実施形態に係る動作制御部１５０は、認識部１２０により発話の開始が検出された際、眼球動作を用いた第１応答を出力部１７０に実行させてよい。上記の眼球動作は、ディスプレイ５１０により実現される。当該第１応答によれば、ユーザが、自律移動体１０がユーザの発話に反応したことを、より少ない遅延で把握することができる。また、当該第１応答によれば、無音のフィードバックをユーザに対し行うことができ、アクチュエータ５７０の駆動音やスピーカからの音出力により音声認識の精度が低下することを効果的に防止することが可能となる。このように、眼球動作に係る視覚情報の出力による暗示的なフィードバックは、駆動部を備える音声認識装置に対し高い効果を奏する。

　次に、動作制御部１５０は、認識部１２０により発話の終了が検出され、マッチングが開始される際、駆動部１６０に耳を上げる動作を実行させてよい。当該第２応答によれば、自律移動体１０がユーザの発話に反応し耳を傾けている動作を演出することができ、音声認識処理が実行されていることをユーザが直観的に把握することが可能となる。

　また、本実施形態に係る動作制御部１５０は、マッチング、すなわち認識処理が完了したことに基づいて、当該認識処理の完了を示すフィードバックである第３応答を自律移動体１０に実行させる。動作制御部１５０は、例えば、耳を下げる動作と口を開口する動作を駆動部１６０に実行させ、鳴き声に相当する音を出力部１７０に出力させてもよい。

　上記の第３応答によれば、音声認識処理が実行されたことをユーザが明確に把握することができる。なお、動作制御部１５０は、第３応答の実行後、行動計画部１４０が音声認識結果に基づいて計画した行動に相当する動作を自律移動体１０に実行させてよい。なお、上述したように上記の行動は、ユーザの発話意図に沿わない行動である場合もある。

　図１０は、音声認識処理および応答動作における本実施形態に係る情報処理方法と比較手法との差異について説明するための図である。図１０には、本実施形態に係る情報処理方法および比較手法のそれぞれにおける声認識処理および応答動作の対応関係が時系列に示されている。なお、図中におけるＭｅｔｈｏｄ　１は上記比較手法に、Ｍｅｔｈｏｄ　２は本実施形態に係る情報処理方法にそれぞれ対応する。

　図１０を参照すると、比較手法では、ユーザに対する応答動作が行われるまで、約８００ｍｓの時間を要することがわかる。このため、ユーザは、音声認識処理の完了を示す応答動作により当該処理が実行されたことを把握できるものの、約８００ｍｓの間は、動作体が無反応であることに違和感を覚える可能性がある。

　一方、本実施形態に係る情報処理方法では、ユーザの「おはよう」という発話が開始されてから程なく第１応答が行われ、発話の終了検出に伴うマッチングの開始時に第２応答が遅滞なく実行される。このように、本実施形態に係る情報処理方法によれば、ユーザの発話開始直後から、段階的に複数のフィードバックを行うことができる。当該手法によれば、ユーザが、マッチングが完了する前の段階であっても、自律移動体１０がユーザの発話を理解しようとしていることを把握することが可能となる。

　次に、本実施形態に係る第１応答の具体例について詳細に説明する。上述したように、本実施形態に係る第１応答は、眼球動作であってもよい。

　図１１は、本実施形態に係る第１応答の一例を示す図である。図１には、動作制御部１５０により制御されるディスプレイ５１０の時系列における変化が示されている。具体的には、本実施形態に係る動作制御部１５０は、認識部１２０によりユーザの発話開始が検出された場合、ディスプレイ５１０に瞬きに相当する画像を表示させてもよい。

　なお、動作制御部１５０は、図示するような瞬きのほか、ユーザに視線を合わせる表現や、ウィンクなどの表現をディスプレイ５１０に出力させてもよい。

　このように、本実施形態に係る動作制御部１５０は、第１応答として眼球動作に係る表示を出力部１７０に実行させることで、音声認識処理を妨げることなく、またユーザの発話に対するより遅滞の少ないフィードバックを実現することができる。

　なお、本実施形態に係る動作制御部１５０は、眼球動作のほか、アクチュエータ５７０の駆動を伴う身体動作や、音を用いた情動表出動作を第１応答として自律移動体１０に実行させてもよい。なお、上記の音を用いた情動表出動作には、鳴き声、羽音、拍手などのノンバーバル動作が広く含まれる。

　この場合、アクチュエータ５７０の駆動音やスピーカから出力される音により音声認識の精度が低下する可能性も想定されるが、例えば、スピーカとマイクロフォンの位置関係が一定である場合には、リファレンス信号を用いたエコーキャンセルなどを行うことで、認識精度の低下を抑えることが可能である。また、後述するように、第１応答に眼球動作を採用しないことで、ユーザの利便性が高まる状況も存在する。

　次に、本実施形態に係る第２応答の具体例について詳細に説明する。本実施形態に係る第２応答は、眼球動作、身体動作、音を用いた情動表出動作のいずれか、または組み合わせであってもよい。図１２は、本実施形態に係る第２応答の一例を示す図である。

　本実施形態に係る動作制御部１５０は、例えば、図１２の左側に示すように、耳を持ち上げるなどの身体動作を制御してもよい。なお、動作制御部１５０は、耳の他、尾部や脚部などの動作を制御してもよい。

　一方、動作制御部１５０は、図１２の右側に示すように、視線を斜め上方に向かせるなどの眼球動作を制御してもよい。また、動作制御部１５０は、軽くうなる、などの情動表出動作を制御することもできる。本実施形態に係る第２応答は、例えば、自律移動体１０のモデルとなる生物種類に応じた、より自然な動作が採用されてよい。

　次に、本実施形態に係る第３応答の具体例について詳細に説明する。本実施形態に係る第３応答は、眼球動作、身体動作、音を用いた情動表出動作のいずれか、または組み合わせであってもよい。また、本実施形態に係る動作制御部１５０は、認識処理に係る信頼度に基づいて、第３応答の動作を動的に決定することができる。図１３は、本実施形態に係る第３応答の一例を示す図である。

　認識処理に係る信頼度が高い場合、本実施形態に係る動作制御部１５０は、例えば、図１３の左側に示すように、ユーザの発話を理解したことを示す肯定的な第３応答を自律移動体１０に実行させてもよい。上記肯定的な挙動には、例えば、喜びや興奮、興味などに相当する情動の表出動作が含まれる。

　一方、認識処理に係る信頼度が低い場合、本実施形態に係る動作制御部１５０は、例えば、図１３の右側に示すように、ユーザの再発話を促すための第３応答を自律移動体１０に実行させてもよい。ユーザの再発話を促すための第３応答には、例えば、疑問、不安などに相当する情動の表出動作が含まれる。動作制御部１５０は、例えば、首を傾げながら耳を上げる動作を駆動部１６０に実行させてもよい。

　動作制御部１５０が有する上記の機能によれば、音声認識処理の結果が芳しくないことをユーザが直観的に把握し、再度発話を行うことが可能となる。

　以上、本実施形態に係る第１応答、第２応答、および第３応答について具体例を挙げて説明した。上述したように、本実施形態に係る第１応答、第２応答、および第３応答は、眼球動作、身体動作、音を用いた情動表出動作のいずれか、または組み合わせにより実現されてよい。

　また、本実施形態に係る動作制御部１５０は、センサ情報から推定される状況に基づいて、第１応答、第２応答、および第３応答に係る動作種別を動的に決定することも可能である。なお、上記のセンサ情報から推定される状況には、ユーザ、自律移動体１０、周囲環境に係る種々の状態・状況が含まれる。

　図１４は、本実施形態に係る状況に基づく動作種別の動的制御について説明するための図である。図１４には、ユーザＵ１が自律移動体１０の背後から発話を行っている状況が示されている。この場合、ユーザＵ１の位置からは、自律移動体１０のディスプレイ５１０を視認できない可能性が高い。

　このため、本実施形態に係る動作制御部１５０は、自律移動体１０の背後から発話が検出された場合には、例えば、尾部を振る身体動作など、眼球動作を用いない応答動作を自律移動体１０に実行させてよい。

　また、例えば、動作制御部１５０は、周囲の環境音が大きい場合には、眼球動作または身体動作を優先してもよいし、周囲が暗い状況では、身体動作が確認しづらいことから眼球動作や音を用いた情動表出動作を優先してもよい。

　また、動作制御部１５０は、特に、ユーザ状態に基づいて、第１応答、第２応答、および第３応答に係る動作種別を動的に決定してもよい。例えば、普段は視力矯正具を着用しているユーザが、視力矯正具を着用していないことが検出された場合、動作制御部１５０は、眼球動作による応答動作を採用せず、音を用いた情動表出動作を優先してよい。

　また、ユーザが視覚に障害を有すると推定された場合も同様である。認識部１２０は、例えば、ユーザが所持する白杖などから上記の推定を行うことが可能である。また、認識部１２０は、自律移動体１０の行動に対するユーザの反応から、上記の推定を行ってもよい。なお、聴覚矯正器具や聴覚障がいについても同様のことが言える。

　このように、本実施形態に係る動作制御部１５０によれば、種々の状況に対応した、より利便性の高いフィードバックを実現することが可能である。

　また、本実施形態に係る動作制御部１５０は、ユーザの発話対象に基づく動作制御を行ってよい。図１５は、本実施形態に係る発話対象の認識に基づく動作制御について説明するための図である。

　図１５には、電話で会話を行っているユーザＵ１と、自律的な行動を行っている最中の自律移動体１０とが示されている。この際、本実施形態に係る動作制御部１５０は、ユーザＵ１の発話対象が自律移動体１０ではないと判定されたことに基づいて、第１応答、第２応答、および第３応答のいずれか、またはすべての実行が行われないよう制御を行ってよい。

　本実施形態に係る動作制御部１５０が有する上記の機能によれば、ユーザの意図に沿う場合にのみ応答動作を行うことが可能となり、自律移動体１０に対するユーザの評価を向上させる効果が期待される。また、上記機能によれば、不必要な動作制御による電力消費を抑えることも可能である。

　なお、認識部１２０は、ユーザが電話を把持していることや、ユーザの視線が自律移動体１０に向いていないことなどから、ユーザの発話対象が自律移動体１０ではないと判定することができる。

　また、動作制御部１５０は、上記判定の確度が所定以上となるまでは、応答動作を自律移動体１０に実行させてよい。例えば、第２応答を実行させた後に、発話対象が自律移動体１０ではないと判定された場合には、動作制御部１５０は、第３応答を実行させずに、自律行動の制御に復帰してよい。

　次に、自律移動体が何らかの行動を行っている際にユーザの発話が検出された場合の動作制御例について説明する。図１６は、本実施形態に係る応答動作への移行制御について説明するための図である。図１６には、自律移動体１０がボールで遊んでいる際に、ユーザの発話の開始が検出された場合の一例が示されている。

　この際、本実施形態に係る動作制御部１５０は、自律移動体１０の行動、すなわちボールを追う行動を緩やかに停止させてよい。また、動作制御部１５０は、当該行動の停止後、自律移動体１０が音を発生しないように制御を行う。

　動作制御部１５０による上記の制御によれば、突然に行動を停止することでユーザに違和感を与えることなく、かつ停止後にはアクチュエータ５７０を動作させないことで、駆動音による音声認識精度の低下を防ぐことができる。

　なお、行動の停止が間に合わず、アクチュエータ５７０の駆動音の影響により音声認識結果の確信度が低くなった場合には、動作制御部１５０は、図１６の右側に示すように、再発話を促す第３応答を自律移動体１０に実行させ、第３応答の完了後には、自律移動体１０が音を発生しないように制御してよい。

　動作制御部１５０による上記の制御によれば、自律移動体１０に、より自然な動作を実行させながらも、再度の音声認識処理に係る精度を高めることができる。

　以上、本実施形態に係る動作制御について具体例を挙げながら説明した。上記で述べた動作制御部１５０の機能によれば、実際の生物に近いより自然な動作を行いながら、自律移動体１０による認識処理の進捗をユーザが直観的に把握することが可能となる。

　なお、上記では、自律移動体１０が眼球動作、身体動作、音を用いた情動表出動作のいずれか、または組み合わせを制御する場合を例に述べたが、本実施形態に係る動作制御は、認識処理や自律移動体１０の特性に応じて適宜変形され得る。例えば、認識部１２０がタッチセンサ５４０が収集したセンサ情報に基づいてユーザの接触パターンの認識などを行う場合には、動作制御部１５０は、圧電素子などによる振動を用いた応答動作を自律移動体１０に実行させてもよい。

　また、本実施形態に係る自律移動体１０は、仮想空間上における動作体（仮想動作体、とも称する）であってもよい。図１７は、本実施形態に係る仮想動作体の制御について説明するための図である。

　図１７には、情報処理端末３０を装着するユーザＵ２の視野ＦＶと、視野ＦＶに表示される仮想動作体ＶＯが示されている。情報処理端末３０は、例えば、ヘッドマウントディスプレイや眼鏡型のウェアラブル装置であってよい。この際、動作制御部１５０は、情報処理端末３０や、情報処理端末３０と通信する情報処理サーバの機能として実現される。情報処理端末３０や上記の情報処理サーバは、後述する動作制御装置に相当する。

　この場合、動作制御部１５０は、例えば、ＡＲ（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ）、ＶＲ（Ｖｉｒｔｕａｌ　Ｒｅａｌｉｔｙ）、ＭＲ（Ｍｉｘｅｄ　Ｒｅａｌｉｔｙ）などの技術を用いて仮想動作体ＶＯの表示を制御する。

　ここで、仮想動作体ＶＯは、イヌなどの言語伝達手段を有しない生物に相当する視覚情報であってよい。制御対象が上記のような仮想物体である場合であっても、動作制御部１５０による上述の制御によれば、実際の生物に近いより自然な挙動を実現しながら、認識処理の進捗に係るフィードバックをユーザに提示することが可能である。

　また、仮想動作体ＶＯが言語伝達手段を有するキャラクターなどに相当する視覚情報である場合であっても、ユーザの発話開始が検出された際には頷く動作を、マッチングが開始された際には考える動作をさせることなどにより、より現実に近い動作を実現し、没入感を高めることが可能である。

　＜＜３．４．制御の流れ＞＞
　次に、本実施形態に係る動作制御の流れについて詳細に説明する。図１８は、本実施形態に係る動作制御の流れを示すフローチャートである。

　図１８を参照すると、まず、入力部１１０がセンサ情報を収集する（Ｓ１１０１）。ステップＳ１１０１におけるセンサ情報の収集は、図１で説明した各種のセンサにより実現される。

　次に、認識部１２０が、ステップＳ１１０２において収集されたセンサ情報に基づいて状況推定を行う（Ｓ１１０２）。なお、ステップＳ１１０１におけるセンサ情報の収集と、ステップＳ１１０２における状況推定は、常時継続的に実行されてよい。

　次に、認識部１２０によりユーザの発話の開始が検出され（Ｓ１１０３）、動作制御部１５０が第１応答の実行を制御する（Ｓ１１０４）。

　次に、認識部１２０によりユーザの発話の終了が検出され（Ｓ１１０５）、動作制御部１５０が第２応答の実行を制御する（Ｓ１１０６）。

　次に、認識部１２０によりマッチング処理が実行される（Ｓ１１０７）。

　ここで、マッチング処理に係る確信度が高い場合（Ｓ１１０８：高）、動作制御部１５０は、発話に対する理解を示す第３応答の実行を制御し（Ｓ１１０９）、また、マッチング結果に基づく動作の実行を制御する（Ｓ１１１０）。

　一方、マッチング処理に係る確信度が低い場合（Ｓ１１０８：低）、認識部１２０は、発話の対象が自律移動体１０であるか否かを判定してよい（Ｓ１１１１）。

　ここで、認識部１２０が発話の対象が自律移動体１０ではないと判定した場合（Ｓ１１１１：ＮＯ）、動作制御部１５０は、応答動作に係る制御を終了する。

　一方、認識部１２０が発話の対象が自律移動体１０であると判定した場合（Ｓ１１１１：ＹＥＳ）、動作制御部１５０は、ユーザに対し再発話を促す第３応答の実行を制御し（Ｓ１１１２）、当該再発話にむけて自律移動体１０が音を発生させないように待機させる（Ｓ１１１３）。

　＜４．動作制御装置のハードウェア構成例＞
　次に、本開示の一実施形態に係る動作制御部１５０の機能が自律移動体１０とは別途の動作制御装置として実現される場合のハードウェア構成例について説明する。図１９は、本開示の一実施形態に係る動作制御装置２０のハードウェア構成例を示すブロック図である。図１９を参照すると、動作制御装置２０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（ＣＰＵ８７１）
　ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜５．まとめ＞
　以上説明したように、本開示の一実施系形態に係る情報処理方法を実現する自律移動体１０は、認識対象情報の入力に基づいて、認識処理の実行に係る暗示的なフィードバックである応答動作を実行すること、を特徴の一つとする。係る構成によれば、認識処理の実行に係るフィードバックをより自然な動作で実現することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、本明細書における自律移動体１０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、自律移動体１０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　認識処理に基づいて行動を行う動作体の動作制御を行う動作制御部、
　を備え、
　前記動作制御部は、認識対象情報の入力に基づいて前記動作体に応答動作を実行させ、
　前記応答動作は、前記認識処理の実行に係る暗示的なフィードバックである、
情報処理装置。
（２）
　前記動作制御部は、認識対象情報の入力開始が検知されたことに基づいて前記動作体に第１応答を実行させ、認識対象情報の入力完了が検知されたことに基づいて前記動作体に第２応答を実行させ、
　前記第１応答および前記第２応答は、前記認識処理の実行に係る暗示的なフィードバックである、
前記（１）に記載の情報処理装置。
（３）
　前記動作制御部は、前記認識処理が完了したことに基づいて、前記動作体に前記認識処理の実行に係るフィードバックである第３応答を実行させる、
前記（２）に記載の情報処理装置。
（４）
　前記動作制御部は、前記第３応答の実行後、前記動作体に前記認識処理に基づく行動を実行させる、
前記（３）に記載の情報処理装置。
（５）
　前記動作体は、生物を模した形態および能力を有し、
　前記第１応答、前記第２応答、および前記第３応答は、身体動作、眼球動作、または音を用いた情動表出動作のいずれかを含む、
前記（３）または（４）に記載の情報処理装置。
（６）
　前記動作制御部は、センサ情報から推定される状況に基づいて、前記第１応答、前記第２応答、および前記第３応答に係る動作種別を動的に決定する、
前記（３）～（５）のいずれかに記載の情報処理装置。
（７）
　前記動作制御部は、ユーザ状態に基づいて、前記第１応答、前記第２応答、および前記第３応答に係る動作種別を動的に決定する、
前記（３）～（６）のいずれかに記載の情報処理装置。
（８）
　前記動作制御部は、前記認識処理に係る信頼度に基づいて、前記第３応答の動作を動的に決定する、
前記（３）～（７）のいずれかに記載の情報処理装置。
（９）
　前記認識処理は、音声認識処理である、
前記（３）～（８）のいずれかに記載の情報処理装置。
（１０）
　前記第１応答は、眼球動作である、
前記（９）に記載の情報処理装置。
（１１）
　前記動作体は、駆動部を有する装置である、
前記（９）または（１０）に記載の情報処理装置。
（１２）
　前記動作制御部は、ユーザの発話対象が前記動作体ではないと判定されたことに基づいて、前記動作体に前記第１応答、前記第２応答、または第３応答のうち少なくともいずれかを実行させない、
前記（９）～（１１）のいずれかに記載の情報処理装置。
（１３）
　前記動作制御部は、前記動作体の行動中にユーザの発話開始が検出された場合、前記行動を緩やかに停止させる、
前記（９）～（１２）のいずれかに記載の情報処理装置。
（１４）
　前記動作制御部は、前記行動の停止後、前記動作体が音を発生しないよう制御する、
前記（１３）に記載の情報処理装置。
（１５）
　前記動作制御部は、前記音声認識処理に係る信頼度が低い場合、前記動作体にユーザの再発話を促す前記第３応答を実行させる、
前記（９）～（１４）のいずれかに記載の情報処理装置。
（１６）
　前記動作制御部は、前記再発話を促す前記第３応答の完了後、前記動作体が音を発生しないよう制御する、
前記（１５）に記載の情報処理装置。
（１７）
　前記動作体は、言語伝達手段を持たない自律移動体である、
前記（１）～（６）のいずれかに記載の情報処理装置。
（１８）
　前記動作体である、
前記（１）～（１７）のいずれかに記載の情報処理装置。
（１９）
　プロセッサが、認識処理に基づいて行動を行う動作体の動作制御を行うこと、
　を含み、
　前記動作制御を行うことは、認識対象情報の入力に基づいて前記動作体に応答動作を実行させること、
　をさらに含み、
　前記応答動作は、前記認識処理の実行に係る暗示的なフィードバックである、
情報処理方法。
（２０）
　コンピュータを、
　認識処理に基づいて行動を行う動作体の動作制御を行う動作制御部、
　を備え、
　前記動作制御部は、認識対象情報の入力に基づいて前記動作体に応答動作を実行させ、
　前記応答動作は、前記認識処理の実行に係る暗示的なフィードバックである、
　情報処理装置、
として機能させるためのプログラム。

　１０　　　自律移動体
　１１０　　入力部
　１２０　　認識部
　１３０　　学習部
　１４０　　行動計画部
　１５０　　動作制御部
　１６０　　駆動部
　１７０　　出力部
　５１０　　ディスプレイ
　５７０　　アクチュエータ

Claims

　認識処理に基づいて行動を行う動作体の動作制御を行う動作制御部、
　を備え、
　前記動作制御部は、認識対象情報の入力に基づいて前記動作体に応答動作を実行させ、
　前記応答動作は、前記認識処理の実行に係る暗示的なフィードバックである、
情報処理装置。
　前記動作制御部は、認識対象情報の入力開始が検知されたことに基づいて前記動作体に第１応答を実行させ、認識対象情報の入力完了が検知されたことに基づいて前記動作体に第２応答を実行させ、
　前記第１応答および前記第２応答は、前記認識処理の実行に係る暗示的なフィードバックである、
請求項１に記載の情報処理装置。
　前記動作制御部は、前記認識処理が完了したことに基づいて、前記動作体に前記認識処理の実行に係るフィードバックである第３応答を実行させる、
請求項２に記載の情報処理装置。
　前記動作制御部は、前記第３応答の実行後、前記動作体に前記認識処理に基づく行動を実行させる、
請求項３に記載の情報処理装置。
　前記動作体は、生物を模した形態および能力を有し、
　前記第１応答、前記第２応答、および前記第３応答は、身体動作、眼球動作、または音を用いた情動表出動作のいずれかを含む、
請求項３に記載の情報処理装置。
　前記動作制御部は、センサ情報から推定される状況に基づいて、前記第１応答、前記第２応答、および前記第３応答に係る動作種別を動的に決定する、
請求項３に記載の情報処理装置。
　前記動作制御部は、ユーザ状態に基づいて、前記第１応答、前記第２応答、および前記第３応答に係る動作種別を動的に決定する、
請求項３に記載の情報処理装置。
　前記動作制御部は、前記認識処理に係る信頼度に基づいて、前記第３応答の動作を動的に決定する、
請求項３に記載の情報処理装置。
　前記認識処理は、音声認識処理である、
請求項３に記載の情報処理装置。
　前記第１応答は、眼球動作である、
請求項９に記載の情報処理装置。
　前記動作体は、駆動部を有する装置である、
請求項９に記載の情報処理装置。
　前記動作制御部は、ユーザの発話対象が前記動作体ではないと判定されたことに基づいて、前記動作体に前記第１応答、前記第２応答、または第３応答のうち少なくともいずれかを実行させない、
請求項９に記載の情報処理装置。
　前記動作制御部は、前記動作体の行動中にユーザの発話開始が検出された場合、前記行動を緩やかに停止させる、
請求項９に記載の情報処理装置。
　前記動作制御部は、前記行動の停止後、前記動作体が音を発生しないよう制御する、
請求項１３に記載の情報処理装置。
　前記動作制御部は、前記音声認識処理に係る信頼度が低い場合、前記動作体にユーザの再発話を促す前記第３応答を実行させる、
請求項９に記載の情報処理装置。
　前記動作制御部は、前記再発話を促す前記第３応答の完了後、前記動作体が音を発生しないよう制御する、
請求項１５に記載の情報処理装置。
　前記動作体は、言語伝達手段を持たない自律移動体である、
請求項１に記載の情報処理装置。
　前記動作体である、
請求項１に記載の情報処理装置。
　プロセッサが、認識処理に基づいて行動を行う動作体の動作制御を行うこと、
　を含み、
　前記動作制御を行うことは、認識対象情報の入力に基づいて前記動作体に応答動作を実行させること、
　をさらに含み、
　前記応答動作は、前記認識処理の実行に係る暗示的なフィードバックである、
情報処理方法。
　コンピュータを、
　認識処理に基づいて行動を行う動作体の動作制御を行う動作制御部、
　を備え、
　前記動作制御部は、認識対象情報の入力に基づいて前記動作体に応答動作を実行させ、
　前記応答動作は、前記認識処理の実行に係る暗示的なフィードバックである、
　情報処理装置、
として機能させるためのプログラム。