WO2019216016A1

WO2019216016A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2019216016A1
Application number: PCT/JP2019/009537
Authority: WO
Inventors: 真人西尾; 雄平矢部; 智雄水上
Original assignee: ソニー株式会社
Priority date: 2018-05-09
Filing date: 2019-03-08
Publication date: 2019-11-14
Also published as: JP7375748B2; US20240078798A1; JPWO2019216016A1; US11847822B2; US20210240984A1; CN112106004A

Abstract

【課題】パターン認識に係る学習をより効率的に実現する。【解決手段】認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、を備え、前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、情報処理装置が提供される。また、プロセッサが、認識処理に基づいて行動する自律移動体の動作を制御すること、を含み、前記動作を制御することは、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　近年、学習機能を有する種々の装置が開発されている。上記の装置には、推定した状況に基づいて自律動作を行うロボットなどの自律移動体が含まれる。また、上記のような自律移動体の取り得る行動をより多様化させるための技術も多く提案されている。例えば、特許文献１には、他の情報家電機器の性質に合わせ、新しい行動パターンを創り出すことにより、自律移動体の性質に変化を持たせる技術が開示されている。

特開２００３－１４０７１０号公報

　ところで、自律移動体の行動は、一般的に、自律移動体が認識できる対象が増加するほど、より多様化することが想定される。しかし、上記のような対象を大幅に増加させるためには、当該対象に係る大量の学習データを用意することが求められる。

　そこで、本開示では、パターン認識に係る学習をより効率的に実現することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。

　本開示によれば、認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、を備え、前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、情報処理装置が提供される。

　また、本開示によれば、プロセッサが、認識処理に基づいて行動する自律移動体の動作を制御すること、を含み、前記動作を制御することは、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせること、をさらに含む、情報処理方法が提供される。

　また、本開示によれば、コンピュータを、認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、を備え、前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、情報処理装置、として機能させるためのプログラムが提供される。

　以上説明したように本開示によれば、パターン認識に係る学習をより効率的に実現することが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の第１の実施形態に係る自律移動体のハードウェア構成例を示す図である。同実施形態に係る自律移動体が備えるアクチュエータの構成例である。同実施形態に係る自律移動体が備えるアクチュエータの動作について説明するための図である。同実施形態に係る自律移動体が備えるアクチュエータの動作について説明するための図である。同実施形態に係る自律移動体が備えるディスプレイの機能について説明するための図である。同実施形態に係る自律移動体の動作例を示す図である。同実施形態に係るシステム構成の一例を示す図である。同実施形態に係る自律移動体の機能構成例を示す図である。同実施形態に係る情報処理サーバの機能構成例を示す図である。同実施形態に係る教示に基づくパターン認識学習の概要を示す図である。同実施形態に係る教示に基づく動作認識学習の概要を示す図である。同実施形態に係る教示に基づく空間領域認識学習の概要を示す図である。同実施形態に係る学習対象の撮影制御について説明するための図である。同実施形態に係る学習対象の撮影制御について説明するための図である。同実施形態に係るマーカを利用した教示について説明するための図である。同実施形態に係る無線通信を利用した教示について説明するための図である。同実施形態に係る非可聴音を利用した教示について説明するための図である。同実施形態に係るユーザインタフェースの一例を示す図である。同実施形態に係るユーザインタフェースの一例を示す図である。同実施形態に係る誘導動作について説明するための図である。同実施形態に係る自律移動体１０の動作の流れを示すフローチャートである。本開示の第２の実施形態に係る環境地図を用いた教示を行うためのユーザインタフェースの一例である。同実施形態に係る環境地図の生成過程の一例を示す図である。同実施形態に係る環境地図の生成過程の一例を示す図である。同実施形態に係る環境地図の生成過程の一例を示す図である。同実施形態に係る環境地図の生成過程の一例を示す図である。同実施形態に係る環境地図の生成過程の一例を示す図である。同実施形態に係る指定領域に対応する空間領域への移動制御と情報取得について説明するための図である。同実施形態に係る環境地図を用いた教示学習の流れを示すフローチャートである。本開示の一実施形態に係る情報処理サーバのハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．第１の実施形態
　　１．１．自律移動体１０の概要
　　１．２．自律移動体１０のハードウェア構成例
　　１．３．システム構成例
　　１．４．自律移動体１０の機能構成例
　　１．５．情報処理サーバ２０の機能構成例
　　１．６．機能の詳細
　　１．７．動作の流れ
　２．第１の実施形態
　　２．１．概要
　　２．２．環境地図を用いた教示の詳細
　　２．３．環境地図ＥＭを用いた教示学習の流れ
　３ハードウェア構成例
　４．まとめ

　＜１．第１の実施形態＞
　＜＜１．１．自律移動体１０の概要＞＞
　まず、本開示の一実施形態に係る自律移動体１０の概要について説明する。本開示の一実施形態に係る自律移動体１０は、収集したセンサ情報に基づく状況推定を実行し、状況に応じた種々の動作を自律的に選択し実行する情報処理装置である。自律移動体１０は、単にユーザの指示コマンドに従った動作を行うロボットとは異なり、状況ごとに最適であると推測した動作を自律的に実行することを特徴の一つとする。

　本開示の一実施形態に係る自律移動体１０は、例えば、撮影した画像に基づくユーザ認識や、物体認識などを実行し、認識したユーザや物体などに応じた種々の自律行動を行うことが可能である。また、本実施形態に係る自律移動体１０は、例えば、ユーザの発話に基づく音声認識を実行し、ユーザの指示などに基づく行動を行うこともできる。

　この際、上記のユーザ認識や物体認識を行うためには、予めユーザや物体の特徴をラベルと対応付けて学習することが求められる。自律移動体１０は、例えば、与えられた正解ラベルに基づく教師学習を行うことで、画像から抽出した物体の特徴とラベルとを対応付け、当該物体の認識が行えるようになる。

　一方、上記のような教師学習を実現するためには、予め物体に係る正解ラベルと画像とを対応付けた学習データが必要となる。しかし、自律移動体１０が日常において遭遇し得るすべての物体に係る学習データを予め開発者が用意し、また自律移動体１０に学習させることは、現実的に困難である。また、例え、多くの物体に係るパターン認識学習を予め行った場合であっても、これまでには世にない物体や、既存のものとは意匠が異なる物体が普及した場合、事前の学習知識のみでは、上記のような物体に対応することが困難である。

　本開示に係る技術思想は、上記の点に着目して発想されたものであり、パターン認識に係る学習をより効率的に実現することを可能とする。このために、本開示の一実施形態に係る自律移動体１０は、教示に基づいて動的に学習データを収集し、物体などに係るパターン認識学習を行うことで、予め学習データが用意されない場合であっても、種々の事象に対する認識能を獲得することを特徴の一つとする。

　本実施形態に係る自律移動体１０は、例えば、ユーザによる教示に基づいて、学習データを自動で収集することが可能である。自律移動体１０は、例えば、ユーザが指差しなどのジェスチャにより指示した物体を学習対象として特定し、また、その後にユーザが発した音声からラベルを抽出することができる。また、本実施形態に係る自律移動体１０は、教示されたラベルと対応付けて学習する学習対象の撮影を自動的に行ってよい。

　本実施形態に係る自律移動体１０が有する上記の機能によれば、教示に基づいて種々の事象のパターン認識学習に係る学習データを自動で生成することができ、日常において新たに観察し得る事象に対する認識能を効率的に獲得することが可能となる。

　以下、上記の特徴を実現する自律移動体１０の構成について詳細に説明する。なお、本開示の一実施形態に係る自律移動体１０は、空間内を自律的に移動し、種々の動作を実行する自律移動型ロボットであってよい。自律移動体１０は、例えば、ヒトやイヌなどの動物を模した形状や、動作能力を有する自律移動型ロボットであってもよい。また、自律移動体１０は、例えば、ユーザとのコミュニケーション能力を有する車両やその他の装置であってもよい。本開示の一実施形態に係る自律移動体１０の形状、能力、また欲求などのレベルは、目的や役割に応じて適宜設計され得る。

　＜＜１．２．自律移動体１０のハードウェア構成例＞＞
　次に、本開示の一実施形態に係る自律移動体１０のハードウェア構成例について説明する。なお、以下では、自律移動体１０がイヌ型の四足歩行ロボットである場合を例に説明する。

　図１は、本開示の一実施形態に係る自律移動体１０のハードウェア構成例を示す図である。図１に示すように、自律移動体１０は、頭部、胴部、４つの脚部、および尾部を有するイヌ型の四足歩行ロボットである。また、自律移動体１０は、頭部に２つのディスプレイ５１０を備える。

　また、自律移動体１０は、種々のセンサを備える。自律移動体１０は、例えば、マイクロフォン５１５、カメラ５２０、ＴｏＦ（Ｔｉｍｅ　ｏｆ　Ｆｌｉｇｈｔ）センサ５２５、人感センサ５３０、測距センサ５３５、タッチセンサ５４０、照度センサ５４５、足裏ボタン５５０、慣性センサ５５５を備える。

　（マイクロフォン５１５）
　マイクロフォン５１５は、周囲の音を収集する機能を有する。上記の音には、例えば、ユーザの発話や、周囲の環境音が含まれる。自律移動体１０は、例えば、頭部に４つのマイクロフォンを備えてもよい。複数のマイクロフォン５１５を備えることで、周囲で発生する音を感度高く収集すると共に、音源の定位を実現することが可能となる。

　（カメラ５２０）
　カメラ５２０は、ユーザや周囲環境を撮影する機能を有する。自律移動体１０は、例えば、鼻先と腰部に２つの広角カメラを備えてもよい。この場合、鼻先に配置される広角カメラは、自律移動体の前方視野（すなわち、イヌの視野）に対応した画像を撮影し、腰部の広角カメラは、上方を中心とする周囲領域の画像を撮影する。自律移動体１０は、例えば、腰部に配置される広角カメラにより撮影された画像に基づいて、天井の特徴点などを抽出し、ＳＬＡＭ（Ｓｉｍｕｌｔａｎｅｏｕｓ　Ｌｏｃａｌｉｚａｔｉｏｎ　ａｎｄ　Ｍａｐｐｉｎｇ）を実現することができる。

　（ＴｏＦセンサ５２５）
　ＴｏＦセンサ５２５は、頭部前方に存在する物体との距離を検出する機能を有する。ＴｏＦセンサ５２５は、頭部の鼻先に備えられる。ＴｏＦセンサ５２５によれば、種々の物体との距離を精度高く検出することができ、ユーザを含む対象物や障害物などとの相対位置に応じた動作を実現することが可能となる。

　（人感センサ５３０）
　人感センサ５３０は、ユーザやユーザが飼育するペットなどの所在を検知する機能を有する。人感センサ５３０は、例えば、胸部に配置される。人感センサ５３０によれば、前方に存在する動物体を検知することで、当該動物体に対する種々の動作、例えば、興味、恐怖、驚きなどの感情に応じた動作を実現することが可能となる。

　（測距センサ５３５）
　測距センサ５３５は、自律移動体１０の前方床面の状況を取得する機能を有する。測距センサ５３５は、例えば、胸部に配置される。測距センサ５３５によれば、自律移動体１０の前方床面に存在する物体との距離を精度高く検出することができ、当該物体との相対位置に応じた動作を実現することができる。

　（タッチセンサ５４０）
　タッチセンサ５４０は、ユーザによる接触を検知する機能を有する。タッチセンサ５４０は、例えば、頭頂、あご下、背中など、ユーザが自律移動体１０に対し触れる可能性が高い部位に配置される。タッチセンサ５４０は、例えば、静電容量式や感圧式のタッチセンサであってよい。タッチセンサ５４０によれば、ユーザによる触れる、撫でる、叩く、押すなどの接触行為を検知することができ、当該接触行為に応じた動作を行うことが可能となる。

　（照度センサ５４５）
　照度センサ５４５は、自律移動体１０が位置する空間の照度を検出する。照度センサ５４５は、例えば、頭部背面において尾部の付け根などに配置されてもよい。照度センサ５４５によれば、周囲の明るさを検出し、当該明るさに応じた動作を実行することが可能となる。

　（足裏ボタン５５０）
　足裏ボタン５５０は、自律移動体１０の脚部底面が床と接触しているか否かを検知する機能を有する。このために、足裏ボタン５５０は、４つの脚部の肉球に該当する部位にそれぞれ配置される。足裏ボタン５５０によれば、自律移動体１０と床面との接触または非接触を検知することができ、例えば、自律移動体１０がユーザにより抱き上げられたことなどを把握することが可能となる。

　（慣性センサ５５５）
　慣性センサ５５５は、頭部や胴部の速度や加速度、回転などの物理量を検出する６軸センサである。すなわち、慣性センサ５５５は、Ｘ軸、Ｙ軸、Ｚ軸の加速度および角速度を検出する。慣性センサ５５５は、頭部および胴部にそれぞれ配置される。慣性センサ５５５によれば、自律移動体１０の頭部および胴部の運動を精度高く検出し、状況に応じた動作制御を実現することが可能となる。

　以上、本開示の一実施形態に係る自律移動体１０が備えるセンサの一例について説明した。なお、図１を用いて説明した上記の構成はあくまで一例であり、自律移動体１０が備え得るセンサの構成は係る例に限定されない。自律移動体１０は、上記の構成のほか、例えば、温度センサ、地磁気センサ、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）信号受信機を含む各種の通信装置などをさらに備えてよい。自律移動体１０が備えるセンサの構成は、仕様や運用に応じて柔軟に変形され得る。

　続いて、本開示の一実施形態に係る自律移動体１０の関節部の構成例について説明する。図２は、本開示の一実施形態に係る自律移動体１０が備えるアクチュエータ５７０の構成例である。本開示の一実施形態に係る自律移動体１０は、図２に示す回転箇所に加え、耳部と尾部に２つずつ、口に１つの合計２２の回転自由度を有する。

　例えば、自律移動体１０は、頭部に３自由度を有することで、頷きや首を傾げる動作を両立することができる。また、自律移動体１０は、腰部に備えるアクチュエータ５７０により、腰のスイング動作を再現することで、より現実のイヌに近い自然かつ柔軟な動作を実現することが可能である。

　なお、本開示の一実施形態に係る自律移動体１０は、例えば、１軸アクチュエータと２軸アクチュエータを組み合わせることで、上記の２２の回転自由度を実現してもよい。例えば、脚部における肘や膝部分においては１軸アクチュエータを、肩や大腿の付け根には２軸アクチュエータをそれぞれ採用してもよい。

　図３および図４は、本開示の一実施形態に係る自律移動体１０が備えるアクチュエータ５７０の動作について説明するための図である。図３を参照すると、アクチュエータ５７０は、モータ５７５により出力ギアを回転させることで、可動アーム５９０を任意の回転位置および回転速度で駆動させることができる。

　図４を参照すると、本開示の一実施形態に係るアクチュエータ５７０は、リアカバー５７１、ギアＢＯＸカバー５７２、制御基板５７３、ギアＢＯＸベース５７４、モータ５７５、第１ギア５７６、第２ギア５７７、出力ギア５７８、検出用マグネット５７９、２個のベアリング５８０を備える。

　本開示の一実施形態に係るアクチュエータ５７０は、例えば、磁気式ｓｖＧＭＲ（ｓｐｉｎ－ｖａｌｖｅ　Ｇｉａｎｔ　Ｍａｇｎｅｔｏｒｅｓｉｓｔｉｖｅ）であってもよい。制御基板５７３が、メインプロセッサによる制御に基づいて、モータ５７５を回転させることで、第１ギア５７６および第２ギア５７７を介して出力ギア５７８に動力が伝達され、可動アーム５９０を駆動させることが可能である。

　また、制御基板５７３に備えられる位置センサが、出力ギア５７８に同期して回転する検出用マグネット５７９の回転角を検出することで、可動アーム５９０の回転角度、すなわち回転位置を精度高く検出することができる。

　なお、磁気式ｓｖＧＭＲは、非接触方式であるため耐久性に優れるとともに、ＧＭＲ飽和領域において使用することで、検出用マグネット５７９や位置センサの距離変動による信号変動の影響が少ないという利点を有する。

　以上、本開示の一実施形態に係る自律移動体１０が備えるアクチュエータ５７０の構成例について説明した。上記の構成によれば、自律移動体１０が備える関節部の屈伸動作を精度高く制御し、また関節部の回転位置を正確に検出することが可能となる。

　続いて、図５を参照して、本開示の一実施形態に係る自律移動体１０が備えるディスプレイ５１０の機能について説明する。図５は、本開示の一実施形態に係る自律移動体１０が備えるディスプレイ５１０の機能について説明するための図である。

　（ディスプレイ５１０）
　ディスプレイ５１０は、自律移動体１０の目の動きや感情を視覚的に表現する機能を有する。図５に示すように、ディスプレイ５１０は、感情や動作に応じた眼球、瞳孔、瞼の動作を表現することができる。ディスプレイ５１０は、文字や記号、また眼球運動とは関連しない画像などを敢えて表示しないことで、実在するイヌなどの動物に近い自然な動作を演出する。

　また、図５に示すように、自律移動体１０は、右眼および左眼にそれぞれ相当する２つのディスプレイ５１０ｒおよび５１０ｌを備える。ディスプレイ５１０ｒおよび５１０ｌは、例えば、独立した２つのＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）により実現される。ＯＬＥＤによれば、眼球の曲面を再現することが可能となり、１枚の平面ディスプレイにより一対の眼球を表現する場合や、２枚の独立した平面ディスプレイにより２つの眼球をそれぞれ表現する場合と比較して、より自然な外装を実現することができる。

　以上述べたように、ディスプレイ５１０ｒおよび５１０ｌによれば、図５に示すような自律移動体１０の視線や感情を高精度かつ柔軟に表現することが可能となる。また、ユーザはディスプレイ５１０に表示される眼球の動作から、自律移動体１０の状態を直観的に把握することが可能となる。

　以上、本開示の一実施形態に係る自律移動体１０のハードウェア構成例について説明した。上記の構成によれば、図６に示すように、自律移動体１０の関節部や眼球の動作を精度高くまた柔軟に制御することで、より実在の生物に近い動作および感情表現を実現することが可能となる。なお、図６は、本開示の一実施形態に係る自律移動体１０の動作例を示す図であるが、図６では、自律移動体１０の関節部および眼球の動作について着目して説明を行うため、自律移動体１０の外部構造を簡略化して示している。同様に、以下の説明においては、自律移動体１０の外部構造を簡略化して示す場合があるが、本開示の一実施形態に係る自律移動体１０のハードウェア構成および外装は、図面により示される例に限定されず、適宜設計され得る。

　＜＜１．２．自律移動体１０のハードウェア構成例＞＞
　次に、本開示の一実施形態に係るシステム構成例について説明する。図７は、本開示の一実施形態に係るシステム構成の一例を示す図である。図７を参照すると、本開示の一実施形態に係る情報処理システムは、複数の自律移動体１０および情報処理サーバ２０を備える。なお、自律移動体１０と情報処理サーバ２０、また自律移動体１０同士は、ネットワーク３０を介して互いに通信が行えるように接続される。

　（自律移動体１０）
　本開示の一実施形態に係る自律移動体１０は、収集したセンサ情報に基づく状況推定を実行し、状況に応じた種々の動作を自律的に選択し実行する情報処理装置である。上述したように、本開示の一実施形態に係る自律移動体１０は、例えば、ヒトやイヌなどの動物を模した形状や、動作能力を有する自律移動型ロボットであってもよい。本開示の一実施形態に係る自律移動体１０は、教示に基づき学習データを自動で収集し、当該学習データに基づくパターン認識学習を行ってよい。

　（情報処理サーバ２０）
　本開示の一実施形態に係る情報処理サーバ２０は、複数の自律移動体１０と接続され、自律移動体１０から各種の情報を収集する機能を有する情報処理装置である。情報処理サーバ２０は、例えば、複数の自律移動体１０により収集された学習データを蓄積する。また、本開示の一実施形態に係る情報処理サーバ２０は、自律移動体１０の学習状況をユーザが確認するためのユーザインタフェースを制御する。

　（ネットワーク３０）
　ネットワーク３０は、自律移動体１０と情報処理サーバ２０、自律移動体１０同士を接続する機能を有する。ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

　以上、本開示の一実施形態に係るシステム構成例について説明した。なお、図７を用いて説明した上記の構成はあくまで一例であり、本開示の一実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、自律移動体１０は、情報処理サーバ２０のほか、種々の外部装置とさらに情報通信を行ってもよい。上記の外部装置には、例えば、天気やニュース、その他のサービス情報を発信するサーバや、ユーザが所持する各種の情報処理端末、家電機器などが含まれ得る。本開示の一実施形態に係るシステム構成は、仕様や運用に応じて柔軟に変形され得る。

　＜＜１．４．自律移動体１０の機能構成例＞＞
　次に、本開示の一実施形態に係る自律移動体１０の機能構成例について説明する。図８は、本開示の一実施形態に係る自律移動体１０の機能構成例を示す図である。図８を参照すると、本開示の一実施形態に係る自律移動体１０は、入力部１１０、認識部１２０、学習部１３０、行動計画部１４０、動作制御部１５０、駆動部１６０、出力部１７０、およびサーバ通信部１８０を備える。

　（入力部１１０）
　入力部１１０は、ユーザや周囲環境に係る種々の情報を収集する機能を有する。入力部１１０は、例えば、ユーザの発話や周囲で発生する環境音、ユーザや周囲環境に係る画像情報、および種々のセンサ情報を収集する。このために、入力部１１０は、図１に示す各種のセンサを備える。

　（認識部１２０）
　認識部１２０は、入力部１１０が収集した種々の情報に基づいて、ユーザや周囲環境、また自律移動体１０の状態に係る種々の認識を行う機能を有する。一例としては、認識部１２０は、人識別、表情や視線の認識、物体認識、動作認識、空間領域認識、色認識、形認識、マーカー認識、障害物認識、段差認識、明るさ認識などを行ってよい。

　本実施形態に係る認識部１２０は、例えば、ユーザが指差しなどのジェスチャにより示した学習対象を特定する機能を有してよい。また、本実施形態に係る認識部１２０は、例えば、上記のジェスチャなどの後にユーザが発した音声を形態素解析することにより名詞句を抽出する機能を有してよい。当該名詞句は、学習部１３０によるパターン認識学習におけるラベルとして用いられ得る。

　また、認識部１２０は、ユーザの声に係る感情認識、単語理解、音源定位などを行う。また、認識部１２０は、ユーザなどによる接触や、周囲の温度、動物体の存在、自律移動体１０の姿勢などを認識することができる。

　さらには、認識部１２０は、認識した上記の情報に基づいて、自律移動体１０が置かれた周囲環境や状況を推定し、理解する機能を有する。この際、認識部１２０は、事前に記憶される環境知識を用いて総合的に状況推定を行ってもよい。

　（学習部１３０）
　学習部１３０は、環境（状況）と行動、また当該行動による環境への作用を学習する機能を有する。学習部１３０は、例えば、深層学習（Ｄｅｅｐ　Ｌｅａｒｎｉｎｇ）などの機械学習アルゴリズムを用いて、上記の学習を実現する。なお、学習部１３０が採用する学習アルゴリズムは、上記の例に限定されず、適宜設計可能である。

　本実施形態に係る学習部１３０は、認識部１２０が教示に基づいて収集したラベルと、入力部１１０が撮影した学習対象の画像とに基づいてパターン認識学習を行う。

　（行動計画部１４０）
　行動計画部１４０は、認識部１２０が推定した状況と学習部１３０が学習した知識に基づいて、自律移動体１０が行う行動を計画する機能を有する。

　（動作制御部１５０）
　動作制御部１５０は、行動計画部１４０による行動計画に基づいて、駆動部１６０および出力部１７０の動作を制御する機能を有する。動作制御部１５０は、例えば、上記の行動計画に基づいて、アクチュエータ５７０の回転制御や、ディスプレイ５１０の表示制御、スピーカによる音声出力制御などを行う。

　本実施形態に係る動作制御部１５０は、例えば、認識部１２０がパターン認識学習に係る教示の開始を検出したことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を入力部１１０に行わせてよい。

　より具体的には、本実施形態に係る動作制御部１５０は、認識部１２０により特定された学習対象が撮影可能な位置および姿勢を取るために駆動部１６０を制御し、また入力部１１０に当該学習対象の撮影を行わせる。

　この際、本実施形態に係る動作制御部１５０は、駆動部１６０を制御することで、自律移動体１０の位置や姿勢を変化させ、入力部１１０に、学習対象を複数の角度から撮影させてもよい。本実施形態に係る動作制御部１５０が有する上記の機能によれば、例えば、学習対象の複数の側面や上面の画像を収集し学習データとすることができ、より効率的なパターン認識学習を実現することが可能となる。本実施形態に係る動作制御部１５０が有する機能の詳細については別途後述する。

　（駆動部１６０）
　駆動部１６０は、動作制御部１５０による制御に基づいて、自律移動体１０が有する複数の関節部を屈伸させる機能を有する。より具体的には、駆動部１６０は、動作制御部１５０による制御に基づき、各関節部が備えるアクチュエータ５７０を駆動させる。

　（出力部１７０）
　出力部１７０は、動作制御部１５０による制御に基づいて、視覚情報や音情報の出力を行う機能を有する。このために、出力部１７０は、ディスプレイ５１０やスピーカを備える。

　（サーバ通信部１８０）
　サーバ通信部１８０は、情報処理サーバ２０や他の自律移動体１０との情報通信を行う機能を有する。例えば、サーバ通信部１８０は、収集された学習データなどを情報処理サーバ２０に送信する。また、例えば、サーバ通信部１８０は、情報処理サーバ２０が蓄積する学習データや、当該学習データに基づいて学習された学習知識に係る情報を受信する。

　以上、本開示の一実施形態に係る自律移動体１０の機能構成例について説明した。なお、図８を用いて説明した上記の構成はあくまで一例であり、本開示の一実施形態に係る自律移動体１０の機能構成は係る例に限定されない。本開示の一実施形態に係る自律移動体１０の機能構成は、仕様や運用に応じて柔軟に変形され得る。

　＜＜１．５．情報処理サーバ２０の機能構成例＞＞
　次に、本開示の一実施形態に係る情報処理サーバ２０の機能構成例について説明する。図９は、本開示の一実施形態に係る情報処理サーバ２０の機能構成例を示す図である。図９を参照すると、本開示の一実施形態に係る情報処理サーバ２０は、認識部２１０、学習部２２０、記憶部２３０、アプリケーション制御部２４０、および端末通信部２５０を備える。

　（認識部２１０）
　本実施形態に係る認識部２１０は、自律移動体１０が備える認識部２１０と同等の機能を有してよい。すなわち、本実施形態に係る認識部２１０は、教示に基づいて、学習対象の特定やラベルの抽出を行う機能を有する。なお、本実施形態に係る認識部２１０は、複数の自律移動体１０が収集した情報に基づいて学習対象の特定やラベルの抽出を行ってよい。

　(学習部２２０)
　本実施形態に係る学習部２２０は、自律移動体１０が備える学習部１３０と同等の機能を有してよい。すなわち、本実施形態に係る学習部２２０は、認識部２１０が取得したラベルと学習対象に係る画像とに基づくパターン認識学習を行う。なお、本実施形態に係る学習部２２０は、複数の自律移動体１０が収集した情報に基づいてパターン認識学習を行ってよい。すなわち、本実施形態に係る学習部２２０は、複数の自律移動体１０に共通する集合知として機能する。

　（記憶部２３０）
　本実施形態に係る記憶部２３０は、収集された学習データや、学習部２２０や自律移動体１０が学習した学習知識、また当該学習知識に基づくパターン認識の結果などを記憶する。

　（アプリケーション制御部２４０）
　本実施形態に係るアプリケーション制御部２４０は、自律移動体１０の状態確認や機能制御に係るユーザインタフェースを制御する。アプリケーション制御部２４０は、上記のユーザインタフェースをユーザが所持する情報処理端末などに表示させてもよい。アプリケーション制御部２４０は、例えば、上記ユーザインタフェースにおいて、自律移動体１０の学習状況を確認するための手段や、パターン認識学習に係るラベルと学習対象との対応付けを行うための手段を提供する。

　本実施形態に係るアプリケーション制御部２４０は、特に、自律移動体１０が学習したラベルと学習対象との対応付けを、ユーザが修正するための手段を提供してもよい。本実施形態に係るアプリケーション制御部２４０が有する機能の詳細については別途後述する。なお、本実施形態に係るアプリケーション制御部２４０が有する機能は、自律移動体１０の機能として実現することも可能である。すなわち、本実施形態に係る自律移動体１０は、図８に示した構成に加え、アプリケーション制御部を別途備えてもよい。

　（端末通信部２５０）
　本実施形態に係る端末通信部２５０は、ネットワーク３０を介して複数の自律移動体１０との情報通信を行う。例えば、本実施形態に係る端末通信部２５０は、自律移動体１０から、学習データやパターン認識結果などを受信する。また、端末通信部２５０は、複数の自律移動体１０により収集された学習データや、当該学習データに基づいて学習された学習知識を自律移動体１０に送信する。

　以上、本開示の一実施形態に係る情報処理サーバ２０の機能構成例について説明した。なお、図９を用いて説明した上記の構成はあくまで一例であり、本開示の一実施形態に係る情報処理サーバ２０の機能構成は係る例に限定されない。例えば、上述したように、本実施形態に係る情報処理サーバ２０は、自律移動体１０の行動計画部１４０や動作制御部１５０と同等の機能を有してもよい。この場合、本実施形態に係る情報処理サーバ２０は、自律移動体１０の入力部１１０が収集したセンサ情報に基づいて状況推定を行い、駆動部１６０や出力部１７０を遠隔的に制御することが可能である。本開示の一実施形態に係る情報処理サーバ２０の機能構成は、仕様や運用に応じて柔軟に変形され得る。

　＜＜１．６．機能の詳細＞＞
　次に、本開示の第１の実施形態に係る自律移動体１０および情報処理サーバ２０が有する機能について詳細に説明する。なお、以下においては、パターン認識学習が自律移動体１０の学習部１３０により行われる場合を主な例として説明するが、上述したように、本実施形態に係るパターン認識学習は、情報処理サーバ２０の学習部２２０により行われてもよいし、学習部１３０および学習部２２０の両者によりそれぞれ行われてもよい。

　まず、本実施形態に係る教示に基づくパターン認識学習の概要について説明する。図１０は、本実施形態に係る教示に基づくパターン認識学習の概要を示す図である。なお、図１０では、本実施形態に係る教示が、ユーザにより実行される場合の一例が示されている。

　本実施形態に係る教示は、例えば、図１０の左側に示すように、ユーザによる指差しなどのジェスチャや発話によって行われてもよい。図１０に示す一例の場合、ユーザは、指ＵＨにより「そうじき」である物体Ｏ１を示すともに、発話ＵＯにより、物体Ｏ１が「そうじき」であることを自律移動体１０に教示している。

　この際、本実施形態に係る認識部１２０は、まず、「覚えてね」などのユーザの発話や、教示による学習の開始を指示するユーザのジェスチャ、また指を鳴らすなどの音に基づいて、教示の開始を検出する。また、この際、本実施形態に係る動作制御部１５０は、教示に基づく学習を開始することを示す動作を自律移動体１０に行わせてもよい。動作制御部１５０は、例えば、吠える、耳や尻尾を立てる、ディスプレイ５１０により表現される虹彩の色を変化させてもよい。また、自律移動体１０が言語を用いてユーザとのコミュニケーションを行う場合には、学習を開示する旨の音声を出力部１７０に出力させることも可能である。

　次に、動作制御部１５０は、駆動部１６０を制御することで、ユーザの指ＵＦおよび指ＵＦにより示される物体Ｏ１が視野ＦＶに収まるように、自律移動体１０の位置や姿勢を変化させる。

　続いて、認識部１２０は、ユーザの指ＵＦが示す方向に基づいて物体Ｏ１を学習対象として特定する。また、本実施形態に係る動作制御部１５０は、認識部１２０が学習対象として特定した物体Ｏ１を入力部１１０に撮影させる。

　また、認識部１２０は、ユーザの発話ＵＯを形態素解析することで、ラベルとして用いられる名詞句「そうじき」を抽出する。

　続いて、学習部１３０は、上記のように抽出されたラベルと、撮影された学習対象の画像とを対応付けて学習データとし、物体Ｏ１に係る物体認識学習を実行する。

　このように、本実施形態に係る自律移動体１０によれば、予め学習データを用意しなくとも、日常において種々の物体に係る学習データを自動で収集し、当該学習データに基づく物体認識学習を行うことが可能である。

　また、本実施形態に係る自律移動体１０が有する上記の機能によれば、教示に基づく学習を繰り返し実行し、また、情報処理サーバ２０により学習された集合知を利用することで、図中右側に示すように、物体Ｏ１とは形状（特徴）が異なる物体Ｏ２を「そうじき」として認識することなどが可能となる。これによれば、例えば、ユーザが「そうじき」を新たに買い換えた場合などにおいても、一から学習をし直すことなく柔軟に対応することができる。

　なお、本実施形態に係る教示に基づくパターン認識学習の概要について説明した。なお、図１０では、本実施形態に係るパターン認識学習の一例として物体認識学習を挙げたが、本実施形態に係るパターン認識学習は、係る例に限定されない。本実施形態に係るパターン認識学習には、例えば、動作認識学習が含まれる。すなわち、本実施形態に係る学習対象は、物体の動作であってもよい。

　図１１は、本実施形態に係る教示に基づく動作認識学習の概要を示す図である。図１１に示す一例では、ユーザが、人物が行う「ジャンプ」動作を自律移動体１０に教示する場合が示されている。

　具体的には、ユーザは、図中左側に示すように、「ジャンプ」を行う人物Ｐ１を指ＵＨにより示しながら、人物Ｐ１が行っている動作が「ジャンプ」であることを教示する発話ＵＯを行っている。

　この際、本実施形態に係る認識部１２０は、発話ＵＯに含まれる「動作」という語句を認識することで、ユーザが人物Ｐ１に係る物体認識（またはユーザ認識）ではなく、人物Ｐ１が行っている動作を教示していることを検出してもよい。また、認識部１２０は、ユーザが発した「動作を覚えてね」などの発話に基づいて、動作認識に係る教示を検出してもよい。

　続いて、認識部１２０は、ユーザの指ＵＦが示す方向に基づいて人物Ｐ１が行う動作を学習対象として特定する。また、本実施形態に係る動作制御部１５０は、認識部１２０が学習対象として特定した人物Ｐ１の動作を入力部１１０に撮影させる。

　また、認識部１２０は、ユーザの発話ＵＯを形態素解析することで、ラベルとして用いられる名詞句「ジャンプ」を抽出する。

　続いて、学習部１３０は、上記のように抽出されたラベルと、撮影された学習対象の画像とを対応づけて学習データとし、人物Ｐ１が行う動作に係る物体認識学習を実行する。

　このように、本実施形態に係る自律移動体１０によれば、物体そのものに加え、物体が行う種々の動作に係る学習データを自動で収集し、当該学習データに基づく物体認識学習を行うことが可能である。

　なお、上記では、学習データとして、動作の画像を用いる場合を一例として述べたが、本実施形態に係る学習部１３０は、例えば、動作を行う人物が装着する情報処理端末が収集したモーションデータを学習データとして用いてもよい。

　本実施形態に係る自律移動体１０が有する上記の機能によれば、教示に基づく学習を繰り返し実行し、また、情報処理サーバ２０により学習された集合知を利用することで、図中右側に示すように、人物Ｐ１とは異なる人物Ｐ２が行う「ジャンプ」なども精度高く認識することが可能となる。

　また、本実施形態に係るパターン認識学習には、例えば、空間領域認識学習が含まれてよい。すなわち、本実施形態に係る学習対象は、任意の空間領域であってもよい。ここで、本実施形態に係る空間領域とは、空間における任意の所定領域（場所）であってよい。なお、本実施形態に係る空間領域は、必ずしも他の空間領域と物理的に区切られた閉空間でなくてよい。本実施形態に係る空間領域は、例えば、「家」であってもよいし、「家」の「１階」であってもよい。また、本実施形態に係る空間領域は、「１階」の「リビング」であってもよいし、「リビング」における「ソファ付近」であってもよい。

　図１２は、本実施形態に係る教示に基づく空間領域認識学習の概要を示す図である。図１２に示す一例では、ユーザが、「げんかん」である空間領域Ｄ１を自律移動体１０に教示する場合が示されている。

　具体的には、ユーザは、図中左側に示すように、自律移動体１０が位置している空間領域Ｄ１が「げんかん」であることを教示する発話ＵＯを行っている。

　この際、本実施形態に係る認識部１２０は、発話ＵＯに含まれる「ここ」という語句を認識することで、空間領域Ｄ１に係る教示を行っていることを検出してもよい。また、認識部１２０は、ユーザが発した「場所を覚えてね」などの発話に基づいて、空間領域認識に係る教示を検出してもよい。

　続いて、認識部１２０は、ユーザの発話ＵＯに基づいて自律移動体１０が現在位置する空間領域Ｄ１を学習対象として特定する。また、本実施形態に係る動作制御部１５０は、認識部１２０が学習対象として特定した空間領域を入力部１１０に撮影させる。

　また、認識部１２０は、ユーザの発話ＵＯを形態素解析することで、ラベルとして用いられる名詞句「げんかん」を抽出する。

　続いて、学習部１３０は、上記のように抽出されたラベルと、撮影された学習対象の画像とを対応付けて学習データとし、「げんかん」に係る空間領域認識学習を実行する。

　このように、本実施形態に係る自律移動体１０によれば、物体や動作に加え、種々の空間領域に係る学習データを自動で収集し、当該学習データに基づく空間領域認識学習を行うことが可能である。

　なお、上記では、学習データとして、空間領域の画像を用いる場合を一例として述べたが、本実施形態に係る学習部１３０は、例えば、空間領域Ｄ１においてトラッキング中のユーザが消失する（すなわち外出する）ことが多いことや、空間領域Ｄ１において、「ただいま」や「いってきます」などの発話がよく検出されることなどを、学習すべき空間領域の特徴として用いてもよい。

　本実施形態に係る自律移動体１０が有する上記の機能によれば、教示に基づく学習を繰り返し実行し、また、情報処理サーバ２０により学習された集合知を利用することで、図中右側に示すように、空間領域Ｄ１とは趣が異なる空間領域Ｄ２を「げんかん」として認識することが可能となる。

　以上、本実施形態に係るパターン認識学習の一例について説明した。続いて、本実施形態に係る学習対象の撮影について詳細に説明する。上述したように、本実施形態に係る動作制御部１５０は、認識部１２０が特定した学習対象を、入力部１１０に撮影させる機能を有する。

　この際、本実施形態に係る動作制御部１５０は、パターン認識が高精度かつ効率的に行われるよう、入力部１１０や駆動部１６０を制御してよい。

　例えば、本実施形態に係る動作制御部１５０は、駆動部１６０を制御することで、特定された物体の全体が正しく撮影されるよう、自律移動体１０の位置や姿勢を変化させることができる。

　図１３は、本実施形態に係る学習対象の撮影制御について説明するための図である。図１３には、ユーザが発話ＵＯにより「れいぞうこ」である物体Ｏ３を自律移動体１０に教示する場合の一例が示されている。

　この際、図１３の上段に示すように、教示が開始された際の自律移動体１０の位置および姿勢では、物体Ｏ３との距離が近すぎるため、視野ＦＶに物体Ｏ３の全体が映らない場合がある。このような状況で撮影された画像Ｉ１を用いてパターン認識学習を行う場合、物体Ｏ３の特徴を正しく抽出できず誤った学習が行われてしまう可能性が高い。

　このため、本実施形態に係る動作制御部１５０は、図１３の下段に示すように、特定された物体Ｏ３の全体が撮影可能な位置および姿勢に自律移動体１０を移動させた後、入力部１１０に物体Ｏ３を撮影させてよい。本実施形態に係る動作制御部１５０が有する上記の機能によれば、物体Ｏ３の全体を正しく写した画像Ｉ２に基づいて、精度の高いパターン認識学習を行うことが可能となる。

　なお、本実施形態に動作制御部１５０は、認識部１２０が物体の境界が認識できないと判定した場合に、上記のような制御を行ってよい。例えば、図中に示す画像Ｉ１では、画像上端において背景と物体Ｏ３との境界が認識できない箇所が存在する。このように、認識部１２０が背景と学習対象との境界を正しく認識できない場合、動作制御部１５０は、認識部１２０が上記の境界を正しく認識できるようになるまで、学習対象と自律移動体１０との距離が遠くなるよう、駆動部１６０を制御してよい。

　一方、学習対象と自律移動体１０との距離が遠すぎる場合には、動作制御部１５０は、自律移動体１０を学習対象に近づける制御を行ってもよい。この際、動作制御部１５０は、認識部１２０が画像における背景の割合が所定より大きいと判定したことに基づいて、上記の制御を行うことが可能である。

　本実施形態に係る動作制御部１５０が有する上記の機能によれば、学習対象と適切な距離をおいて撮影した画像に基づいて、効率的なパターン認識学習を行うことが可能となる。

　また、本実施形態に係る動作制御部１５０は、認識部１２０が特定した学習対象が複数の角度から撮影されるよう、駆動部１６０および入力部１１０を制御してよい。

　例えば、図１４に示す一例の場合、動作制御部１５０は、認識部１２０が学習対象として特定した「ペットボトル」である物体Ｏ４が、上面および５方向の側面から撮影されるよう、駆動部１６０および入力部１１０を制御している。

　すなわち、本実施形態に係る動作制御部１５０は、様々な角度から学習対象の画像に基づいて、パターン認識学習が効率的に行われるよう、自律移動体１０を移動させ、複数の画像を撮影させることができる。

　本実施形態に係る動作制御部１５０が有する上記の機能によれば、学習対象の一側面を撮影した画像に基づく学習を行う場合と比較して、学習対象の特徴を様々な角度から抽出することができ、汎化性の高い学習効果を得ることが可能となる。

　以上、本実施形態に係る撮影制御について詳細に説明した。なお、上記では、本実施形態に係る教示がユーザにより行われる場合を主な例として述べたが、本実施形態に係る教示は係る例に限定されない。本実施形態に係る教示は、例えば、学習対象から取得される情報に基づいて行われてもよい。

　本実施形態に係る教示は、例えば、学習対象に付与されたＱＲコード（登録商標）などのマーカにより実現されてもよい。図１５は、本実施形態に係るマーカを利用した教示について説明するための図である。

　例えば、図１５の上段には、「そうじき」である物体Ｏ１に付与されたマーカＭ１により物体認識学習に係る教示が実現される一例が示されている。この場合、認識部１２０は、入力部１１０が撮影したマーカＭ１の画像に基づいてラベル「そうじき」を取得することができる。

　また、図１５の下段には、「げんかん」である空間領域Ｄ１に設置されるドアに付与されたマーカＭ２により空間領域認識学習に係る教示が実現される一例が示されている。この場合も、認識部１２０は、入力部１１０が撮影したマーカＭ２の画像に基づいてラベル「げんかん」を取得することができる。

　このように、本実施形態に係るマーカによれば、ユーザによる明示的な教示に代えて、物体や空間領域などに係る教示を実現することができ、自律移動体１０の認識能を自動的に高めることが可能となる。

　また、本実施形態に係る教示は、学習対象から無線通信により送信される情報に基づいて行われてもよい。図１６は、本実施形態に係る無線通信を利用した教示について説明するための図である。

　図１６に示す一例の場合、「そうじき」である物体Ｏ１は、無線通信により自律移動体１０にラベル「そうじき」や物体Ｏ１の画像Ｉ３ａおよびＩ３ｂを送信している。この際、本実施形態に係る学習部１３０は、受信したラベル「そうじき」、画像Ｉ３ａおよびＩ３ｂに基づいて、物体Ｏ１に係る物体認識学習を行うことができる。

　上記のような無線通信を用いた教示によれば、例えば、図示するように、学習対象である物体Ｏ３がクローゼットの中に収納されており、物体Ｏ３を撮影できない状況であっても、予め用意された画像をラベルとともに自律移動体１０に送信することで、自律移動体１０が物体Ｏ３に係る物体認識学習を行うことが可能となる。

　本実施形態に係る無線通信は、例えば、ＮＦＣ（Ｎｅａｒ　Ｆｉｅｌｄ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（商標登録）、ＲＦＩＤ（Ｒａｄｉｏ　Ｆｒｅｑｕｅｎｃｙ　ＩＤｅｎｔｉｆｉｃａｔｉｏｎ）、ビーコンなどが用いられてもよい。

　また、本実施形態に係る教示は、例えば、学習対象が発する超音波などの非可聴音により実現されてもよい。図１７は、本実施形態に係る非可聴音を利用した教示について説明するための図である。

　図１７に示す一例では、「せんたくき」である物体Ｏ５が、動作時に所定の非可聴音を発することで、教示を実現する一例が示されている。例えば、図１７の上段には、「脱水中」に物体Ｏ５が発する非可聴音ＮＡＳ１に基づいて認識部１２０が、物体Ｏ５が「せんたくき」であり、物体Ｏ５が「脱水中」であることを検出する場合の一例が示されている。

　例えば、図１７の下段には、「乾燥中」に物体Ｏ５が発する非可聴音ＮＡＳ２に基づいて認識部１２０が、物体Ｏ５が「せんたくき」であり、物体Ｏ５が「乾燥中」であることを検出する場合の一例が示されている。

　このように、本実施形態に係る非可聴音を利用した教示によれば、物体の名称だけではなく、動作状態なども併せて教示することが可能となる。また、本実施形態に係る非可聴音を利用した教示によれば、例えば、学習部１３０が、「脱水中」に物体Ｏ５が発する動作音である可聴音ＡＳ１や、「乾燥中」に物体Ｏ５が発する動作音である可聴音ＡＳ２を、物体Ｏ５の動作状態と併せて学習することも可能である。本実施形態に係る自律移動体１０は、上記のような学習を繰り返し実行することで、非可聴音を発しない物体に対しても徐々に認識能を獲得することが可能である。

　以上、本実施形態に係る教示のバリエーションについて説明した。続いて、本実施形態に係るラベルと学習対象との対応付けの修正について説明する。上述したように、本実施形態に係る自律移動体１０は、各種の教示に基づいて、パターン認識学習を行うことが可能である。

　しかし、例えば、ユーザによる教示に基づいて学習を行う際、学習対象やラベルが誤って取得されてしまう状況も想定される。このため、本実施形態に係る情報処理サーバ２０のアプリケーション制御部２４０は、ラベルと学習対象との対応付けをユーザ（または、開発者やサービス提供者）が修正するためのユーザインタフェースを提供してよい。

　図１８および図１９は、本実施形態に係るユーザインタフェースの一例を示す図である。例えば、図１８には、教示に基づくパターン認識学習が行われた後、アプリケーション制御部２４０が、ユーザが所持する情報処理端末４０に表示させるユーザインタフェースの一例が示されている。

　なお、図１８に示す一例では、ユーザが「ペットボトル」を指差しにより指定し、発話により教示を行った場合において、図中左側に示すように、「ペットボトル」の近くにあった「グラス」が誤って学習対象として特定され、またラベルが誤って「ぺっとぼる」として抽出された場合の一例が示されている。

　この際、ユーザは、図中右側に示すように、ユーザインタフェースに表示される画像Ｉ４において、正しい学習対象である「ペットボトル」に係る境界認識結果を選択し、また、ラベルに対応するフィールドＦ１に、正しい綴り「ペットボトル」を入力することで、誤って対応付けられた学習対象とラベルとを容易に修正することが可能である。

　なお、ユーザは、教示による学習の直後のみではなく、自律移動体１０によるパターン認識の履歴から対応付けの修正を行えてもよい。

　例えば、図１９には、自律移動体１０が自律行動中に認識した物体の履歴を表示するユーザインタフェースの一例が示されている。ここで、図中左側の履歴に着目すると、「タンス」である物体が、誤って「れいぞうこ」として認識されていたことがわかる。

　この際、ユーザは、当該誤った認識の履歴を選択し、正しいラベルを入力することで、図中右側に示すように、対応付けを修正できてよい。このように、本実施形態に係るアプリケーション制御部２４０が制御するユーザインタフェースによれば、学習の直後や、その後の任意の時点で、誤った学習の内容を発見し、容易に修正することが可能となる。

　なお、本実施形態に係る学習結果の修正は、自律移動体１０により自動的に行われてもよい。本実施形態に係る学習部１３０は、例えば、情報処理サーバ２０に蓄積される学習結果と、自身の学習結果とを比較することで、集合知と自身の学習知識とのずれを検出し、ラベルや学習対象を自動で修正することも可能である。

　以上、本実施形態に係る教示に基づく学習、当該学習結果の修正について説明した。本実施形態に係る自律移動体１０および情報処理サーバ２０が有する上記の機能によれば、予め学習データを用意せずとも、日常において動的に学習データを収集し学習を行うことで、自律移動体１０の認識能を低負担かつ効果的に向上させることが可能となる。

　なお、本実施形態に係る動作制御部１５０は、より効果的に学習データを収集するために、ユーザによる教示を誘導するための誘導動作を自律移動体１０に行わせてもよい。

　図２０は、本実施形態に係る誘導動作について説明するための図である。例えば、自律移動体１０の自律行動中に、認識部１２０が認識できない未知の物体Ｏｘを検出した場合、本実施形態に係る動作制御部１５０は、物体Ｏｘに対するユーザの教示を誘導するための誘導動作を自律移動体１０に行わせることができる。

　図２０に示す一例の場合、動作制御部１５０は、認識部１２０が、認識できない物体Ｏｘを検出したことに基づいて、物体Ｏｘに対して吠える動作を誘導動作として自律移動体１０に行わせている。

　このように、本実施形態に係る誘導動作によれば、自律移動体１０の挙動に対してユーザが未知の物体Ｏｘに対する教示を行う可能性を高めることができ、より効率的に学習データを収集できる効果が期待される。

　なお、本実施形態に係る誘導動作には、例えば、吠える、匂いを嗅ぐ、威嚇する、首を傾げる、ユーザと対象とを交互に見る、怯える、などの種々の動作が挙げられる。

　なお、本実施形態に係る動作制御部１５０は、上記のような誘導動作の他にも、学習した事象に対する種々の行動を自律移動体１０に行わせることができる。

　例えば、動作制御部１５０は、新たに認識した家具などの物体に対するアクションを行うことで、ユーザに当該家具の使用を促すことも可能である。動作制御部１５０は、例えば、「そうじき」が所定時間以上可動していないことが検出されたことに基づいて、上記のような動作を自律移動体１０に行わせてもよい。

　また、例えば、動作制御部１５０は、自律移動体１０が学習した物体のうち、お気に入りとして定義された物体に対し、抱きつく、抱えるなどの愛情表現を取らせてもよい。上記のお気入りは、例えば、認識回数や、物体の特定（例えば、製造元など）に基づいて、定義されてもよい。

　また、例えば、動作制御部１５０は、新たに学習された動作を自律移動体１０に模倣させてもよい。この際、動作制御部１５０は、撮影された動作の画像から生成されるシーケンスデータに基づいて、自律移動体１０に学習した動作を実行させることが可能である。なお、上記のシーケンスデータとは、自律移動体１０が有する関節部の回転位置の時系列変化や眼球表現、音出力に係る制御信号を含む情報であってよい。シーケンスデータは、例えば、動作を行う物体の関節位置推定、および屈伸運動の大きさの推定などに基づいて生成され得る。

　また、例えば、学習部１３０がユーザが行うエクササイズなどの動作を新たに学習した場合、動作制御部１５０は、情報処理サーバ２０に集合知として蓄積されるエクササイズの学習データなどとの比較に基づいて、ユーザのエクササイズの評価に係る挙動を自律移動体１０に行わせてもよい。この際、上記の評価は、例えば、集合知として蓄積される学習データの平均値との乖離などに基づいて行われてよい。

　また、例えば、動作制御部１５０は、学習部１３０が新たに「げんかん」を学習した場合、ユーザの帰宅時に、自律移動体１０が「げんかん」でユーザを出迎えるよう駆動部１６０や出力部１７０を制御することも可能である。

　また、例えば、学習部１３０が、物体の動作状態などを併せて学習した場合において、動作音から異常が検出された際には、動作制御部１５０は、当該異常に係る通知を自律移動体１０に行わせてもよい。また、例えば、動作制御部１５０は、認識した物体の動作状態に応じた行動を自律移動体１０に行わせることも可能である。例えば、電子レンジが動作中であることが認識された場合、動作制御部１５０は、皿を準備するなどの行動を自律移動体１０に行わせてもよい。

　＜＜１．７．動作の流れ＞＞
　次に、本実施形態に係る自律移動体１０の動作の流れについて詳細に説明する。図２１は、本実施形態に係る自律移動体１０の動作の流れを示すフローチャートである。

　図２１を参照すると、まず、認識部１２０が教示を検出する（Ｓ１１０１）。認識部１２０は、例えば、ユーザによる発話や、ＱＲコードの検出、無線通信による情報の受信、非可聴音の検出などに基づいて、教示の開始を検出することができる。

　次に、動作制御部１５０が、ステップＳ１１０１において検出された教示の開始に基づいて、パターン認識学習を開始することを示す動作を自律移動体１０に行わせる（Ｓ１１０２）。上記動作は、例えば、吠える、耳や尻尾を動かす、虹彩の色を変化させる動作などであってもよい。

　次に、認識部１２０が、学習対象を特定する（Ｓ１１０３）。認識部１２０は、例えば、ユーザの指差しなどのジェスチャに基づいて、学習対象を特定してもよいし、学習対象から取得される情報に基づいて、学習対象を特定してもよい。

　また、認識部１２０は、ラベルを取得する（Ｓ１１０４）。認識部１２０は、例えば、ユーザの発話からラベルを抽出してもよいし、学習対象から取得される情報からラベルを取得してもよい。

　次に、動作制御部１５０は、ステップＳ１１０３において特定された学習対象の全体が撮影可能な位置および姿勢となるように、駆動部１６０を制御する（Ｓ１１０５）。

　次に、動作制御部１５０は、複数の角度から学習対象が撮影されるよう駆動部１６０および入力部１１０を制御する（Ｓ１１０６）。

　次に、学習部１３０は、ステップＳ１１０４において取得されたラベルと、ステップＳ１１０６において撮影された画像に基づくパターン認識学習を実行する（Ｓ１１０７）。

　次に、動作制御部１５０が、パターン認識学習の終了を示す動作を自律移動体１０に行わせる（Ｓ１１０２）。上記動作は、例えば、吠える、耳や尻尾を動かす、虹彩の色を変化させる動作などであってもよい。

　＜２．第２の実施形態＞
　＜＜２．１．概要＞＞
　以上、本開示の第１の実施形態について説明した。続いて、本開示の第２の実施形態について説明する。上記の第１の実施形態では、パターン認識学習に係る教示が、ユーザの発話やジェスチャ、または学習対象から取得される情報に基づいて行われる場合を述べた。一方、本開示の第２の実施形態では、主に環境地図を用いた教示について説明する。

　本実施形態に係る環境地図とは、自律移動体１０が存在する実空間における物体の配置や建物の構造などの情報を含んだ地図である。本実施形態に係る環境地図は、例えば、ＳＬＡＭにより取得された情報をユーザ向けに可視化した地図であってもよい（以下、当該ユーザ向けに可視化した地図を、単に、ＳＬＡＭ地図、と称する場合がある）。上述したように、本実施形態に係る自律移動体１０は、腰部に配置される広角カメラ（カメラ５２０）により撮影した画像を用いてＳＬＡＭを実現することができる。

　本開示の第２の実施形態では、上記のように生成された環境地図がユーザに提示され、ユーザが、環境地図上における任意の指定領域に対しラベル付けを行うことで、空間領域のパターン認識学習に係る教示を実現する。

　このために、本実施形態に係る情報処理サーバ２０のアプリケーション制御部２４０は、ユーザが環境地図を用いた教示を行うためのユーザインタフェースを制御すること、を特徴の一つとする。本実施形態に係るアプリケーション制御部２４０は、例えば、上記のユーザインタフェースをＷｅｂアプリケーションの一機能として提供し、ユーザが所持するスマートフォンやＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）などの情報処理端末４０などに表示させてもよい。なお、上記のユーザインタフェースの制御機能は、自律移動体１０の機能として実現されてもよい。

　以下、本実施形態に係る環境地図を用いた教示について詳細に説明する。なお、以下においては、主に第１の実施形態との差異について中心に述べ、第１の実施形態と共通する機能や効果については、詳細な説明を省略する。

　＜＜２．２．環境地図を用いた教示の詳細＞＞
　図２２は、本実施形態に係る環境地図を用いた教示を行うためのユーザインタフェースＵＩ２の一例である。図２２に示すように、本実施形態に係るユーザインタフェースＵＩ２では、自律移動体１０が収集したセンサ情報に基づいて生成された環境地図ＥＭがユーザに提示される。上述したように、本実施形態に係る環境地図ＥＭは、例えば、ＳＬＡＭ地図であり得る。アプリケーション制御部２４０は、自律移動体１０から受信したＳＬＡＭ地図をユーザインタフェースＵＩ２に配置してもよい。一方、ＳＬＡＭ地図などの環境地図ＥＭは、自律移動体１０が収集したセンサ情報（位置情報、画像などを含む）に基づいて情報処理サーバ２０が生成してもよい。以下においては、本実施形態に係る環境地図がＳＬＡＭ地図である場合を例として説明を行う。

　本実施形態に係る環境地図ＥＭでは、例えば、自律移動体１０が認識した実空間の情報がブロック単位で示されてもよい。図２２に示す一例の場合、環境地図ＥＭには、実空間の水平面に対応する２次元の座標系において、所定の単位（距離）で定義された複数のブロックが配置されている。

　また、上記のブロックは、対応する実空間上の空間領域の属性を示している。例えば、ブロックＢ１は、自律移動体１０が移動（進入）することができない空間領域（例えば、壁など）を示している。また、ブロックＢ２は、自律移動体１０がこれまでに実際に移動した空間領域（すなわち移動可能な開空間領域）を示している。また、ブロックＢ３は、自律移動体１０が未だ移動したことがない空間領域を示している。また、ブロックＢ４は、移動不可能、移動可能、未移動の判別が困難な領域を示している。

　ブロックＢ１～Ｂ４により示される上記のような空間領域の属性は、例えば、色やパターン、形状の違いなどにより表現されてもよい。図２２では、色の違いにより上記の属性が表現される場合の一例を示している。

　また、図２２に示すように、本実施形態に係る環境地図ＥＭには、自律移動体１０の現在位置ＣＰや自律移動体１０に電力を供給するためのチャージステーションＣＳの位置が示されてもよい。

　ユーザは、ユーザインタフェースＵＩ２に表示される上記のような環境地図ＥＭにおいて、任意の指定領域を指定しラベルを付与することで、当該指定領域に対応する実空間上の空間領域に係る教示を行うことができる。

　この際、ユーザは、まず、環境地図ＥＭ上においてドラッグ操作などにより任意の指定領域を選択する。図２２に示す一例では、ユーザが選択指定した領域が点線により示されている。次に、ユーザは、選択した指定領域に対し、空間領域の名称を含むタグＴ、すなわちラベルを付与する。図２２では、ユーザが選択した指定領域に対し、名称「Ｋｉｔｃｈｅｎ」を含むタグＴを付与した場合の一例が示されている。

　このように、本実施形態に係るアプリケーション制御部２４０は、ユーザインタフェースＵＩ２において、ユーザが環境地図ＥＭにおける任意の指定領域を指定し、当該指定領域に対しラベルを付与するための手段を提供すること、を特徴の一つとする。本実施形態に係るアプリケーション制御部２４０が有する上記の特徴によれば、可視化された環境地図ＥＭを用いて、空間領域に係るパターン認識学習を高精度かつ容易に実現することが可能となる。

　また、本実施形態に係るアプリケーション制御部２４０は、ユーザインタフェースＵＩ２において、指定領域に対しユーザ付与することが可能なラベル（タグ）の候補を提示する機能を有してもよい。

　図２２に示す一例の場合、アプリケーション制御部２４０は、ユーザが付与することが可能なラベル（タグ）として、「Ｋｉｔｃｈｅｎ」、「Ｂｅｄ　ｒｏｏｍ」、「Ｌｉｖｉｎｇ　ｒｏｏｍ」などの候補ＯＰをユーザインタフェースＵＩ２上に表示させている。

　この場合、ユーザは、提示される候補ＯＰの中から目的のタグを環境地図ＥＭ上にドラッグすることなどにより、容易に指定領域に対するラベルの付与を行うことが可能である。

　また、アプリケーション制御部２４０が上記のように、予め一般的なラベルの候補を複数提示することにより、ユーザごとによる表記の揺れなどを吸収し、ラベルの名称の種類を収束することが可能となる。これによれば、複数の自律移動体１０で共有可能な汎用性の高い学習データを効率的に収集し、精度の高いパターン認識学習を実現することが可能となる。

　次に、図２３～図２７を用いて本実施形態に係る環境地図ＥＭの生成について詳細に説明する。図２３～図２７は、本実施形態に係る環境地図ＥＭの生成過程の一例を示す図である。上述したように、本実施形態に係る環境地図ＥＭは、自律移動体１０が収集したセンサ情報に基づいて生成された、ユーザ向けのＳＬＡＭ地図であってもよい。なお、図２３～図２７では、ブロックＢ１～Ｂ４、自律移動体１０の現在位置ＣＰ、チャージステーションＣＳに係る符号を省略しているが、図２２～図２７に共通する各視覚表現は、図２２に付与した符号に準拠するものとする。

　図２３は、生成の開始時点における環境地図ＥＭの一例を示している。この時点においては、まだ空間領域の属性を判定する十分なセンサ情報が蓄積されていないことから、環境地図ＥＭには、自律移動体１０の現在位置ＣＰのみが示されている。

　図２４は、図２３に示す時点からある程度の時間が経過した時点の環境地図ＥＭの一例を示している。図２４を参照すると、自律移動体１０の自律移動に伴い収集されたセンサ情報に基づいて空間領域の属性が判定され、ブロックＢ１～Ｂ４などの視覚情報が環境地図ＥＭ上に付加されていることがわかる。また、図２４に示すように、本実施形態に係る環境地図ＥＭでは、自律移動体１０の現在位置ＣＰに加え、自律移動体１０の移動の軌跡が、例えば、現在位置ＣＰから延長する線などにより示されてもよい。

　また、図２５は、図２４に示す時点からさらに時間が経過した時点の環境地図ＥＭの一例を示している。図２４と図２５とを比較すると、時間経過に伴いセンサ情報が蓄積されたことにより、ブロックの密度が高くなっていることがわかる。このように、本実施形態に係る環境地図ＥＭは、自律移動体１０が自律移動に伴い収集したセンサ情報に基づいて動的に更新され得る。

　また、図２６は、図２５に示す時点からさらに時間が経過した時点の環境地図ＥＭの一例を示している。図２６を参照すると、自律移動体１０の移動範囲が拡大したことにより環境地図ＥＭの尺度が変更され、より広域の実空間に対応する地図として更新されていることがわかる。また、センサ情報の蓄積に伴い、ブロックの密度がさらに上昇している。

　また、図２７は、図２６に示す時点からさらに時間が経過した時点の環境地図ＥＭの一例を示している。図２６と図２７を比較すると、図２７に示す環境地図ＥＭは、図２６に示す環境地図ＥＭに比べてさらに尺度が変更され、より広域な空間領域に対応する地図となっている。また、自律移動体１０の移動範囲が拡大したことにより、新たな領域にブロックが追加されていることがわかる。

　以上、本実施形態に係る環境地図ＥＭの生成過程について述べた。上述したように、本実施形態に係る自律移動体１０は、自律移動に伴い収集したセンサ情報（位置情報、画像などを含む）に基づいて、ＳＬＡＭ地図などの環境地図ＥＭを生成し、また動的に更新することができる。また、本実施形態に係るアプリケーション制御部２４０が、ユーザインタフェースＵＩ２上に環境地図ＥＭを表示させることで、ユーザが、自律移動体１０が認識している実空間上の空間領域の範囲などを把握し、以降の学習に役立てることが可能となる。

　次に、本実施形態に係る指定領域に対応する空間領域への移動制御と情報取得について詳細に説明する。上述したように、ユーザは、ユーザインタフェースＵＩ２上に表示される環境地図ＥＭを用いて指定領域に対するラベルの付与を行うことができる。この際、本実施形態に係る動作制御部１５０は、ラベルが付与された指定領域に対応する実空間上の空間領域に、自律移動体１０を移動させ、当該空間領域に係る情報取得を自律移動体１０に行わせることができる。

　図２８は、本実施形態に係る指定領域に対応する空間領域への移動制御と情報取得について説明するための図である。図２８の左側には環境地図ＥＭが示されており、図２８の右側には、自律移動体１０が鼻先に配置される広角カメラ（カメラ５２０）により撮影した画像の一例が示されている。

　本実施形態に係る動作制御部１５０は、例えば、環境地図ＥＭ上においてラベル付与が行われたことや、ラベルの付与が行われた後にユーザが「この場所に行って」などと発話してことなどに基づいて、自律移動体１０をラベルが付与された指定領域に対応する空間領域に移動させてもよい。また、本実施形態に係る動作制御部１５０は、上記の移動制御に加え、上記空間領域の画像を自律移動体１０に撮影させる。

　このように、本実施形態に係る動作制御部１５０によれば、ユーザが環境地図ＥＭ上でラベルを付与した指定領域に対応する実空間上の空間領域に係る情報収集を精度高く実現することができる。なお、画像の撮影は、必ずしもラベルの付与直後に行われなくてもよく、例えば、ラベルの付与後の自律移動において自律移動体１０が該当する空間領域に差し掛かった際に行われてもよい。

　また、上記のように収集された各種の情報は、自律移動体１０による空間領域のパターン認識学習に用いられる。例えば、自律移動体１０の学習部１３０は、ユーザインタフェースＵＩ２を介して付与されたラベルと、上記のように撮影された空間領域の画像とを対応付けてパターン認識学習を行うことができる。なお、学習部１３０は、空間領域への移動に伴い時系列に撮影された画像（動画像の各フレームであってもよい）を当該時系列情報と共に学習することで、当該空間領域に至るまでの特徴をより精度高く学習することも可能である。

　上述した一連の手法によれば、表記揺れのない収束された名称に、実際に自律移動体１０の視点から見た空間領域の画像（すなわち鼻先に配置されるカメラ５２０により撮影した画像）を対応付けた、複数の自律移動体１０で共有が可能なアノテーション付きの教師学習データを効率的に蓄積することができ、自律移動体１０による環境認識の精度向上に役立てることが可能となる。なお、複数の自律移動体１０の間における上記教師学習データの共有は、情報処理サーバ２０による教師学習データの収集および配布により実現され得る。

　このような学習手法によれば、自律移動体１０がラベルが付与されていない空間領域に移動した場合であっても、学習結果を基に当該空間領域の名称を推定することが可能となる。

　なお、上記では、動作制御部１５０が自律移動体１０に空間領域の画像を撮影させる場合を主な例として述べたが、本実施形態に係る情報収集制御は係る例に限定されない。本実施形態に係る動作制御部１５０は、自律移動体１０に空間領域に係る種々のセンサ情報を収集させることができる。

　例えば、本実施形態に係る動作制御部１５０は、自律移動体１０に空間領域に係る音声データを収集させてもよい。この場合、学習部１３０は、当該音声データとラベルとを対応付けて学習を行うことができる。この結果、自律移動体１０の認識部１２０は、例えば、水の流れる音が検出されたことに基づいて、現在位置する空間領域が川辺であること、などを推定することが可能となる。

　また、例えば、本実施形態に係る動作制御部１５０は、自律移動体１０に空間領域に係る振動データを収集させてもよい。この場合、学習部１３０は、当該振動データとラベルとを対応付けて学習を行うことができる。この結果、自律移動体１０の認識部１２０は、例えば、車両等による特徴的な振動が検出されたことに基づいて、現在位置する空間領域が高速道路であること、などを推定することが可能となる。

　また、例えば、本実施形態に係る動作制御部１５０は、自律移動体１０に空間領域に係る臭気強度などの匂いに係るセンサ情報を収集させてもよい。この場合、学習部１３０は、当該匂いに係るセンサ情報とラベルとを対応付けて学習を行うことができる。この結果、自律移動体１０の認識部１２０は、例えば、強い臭気が検出されたことに基づいて、現在位置するトイレであること、などを推定することが可能となる。

　また、上記では、環境地図ＥＭが２次元である場合を例示したが、本実施形態に係る環境地図ＥＭは多次元にも拡張可能である。例えば、自律移動体１０が飛行が可能なドローンなどの無人航空機である場合、自律移動体１０は高度情報を含むＳＬＡＭ地図を生成してもよい。この場合、ユーザは、高度を指定した指定領域を選択しラベル付与を行うことも可能である。

　また、本実施形態に環境地図ＥＭは、時間情報を含んでもよい。この場合、ユーザは、時間および領域を指定してラベル付けを行うことが可能である（例えば、夕方の海、など）。さらには、本実施形態に係る環境地図ＥＭは、メタデータとともに定義されてもよい。本実施形態に係る環境地図ＥＭは、例えば、ＤビルのＥ階のＦ室の座標（ｘ，ｙ，ｚ）などの６次元の情報を含むことも可能である。本実施形態に係る環境地図ＥＭは複数生成されてもよく、またこの場合、ユーザは環境地図ＥＭ全体に対してラベル付けを行うことも可能である（例えば、環境地図ＥＭ１に対しラベル「１階」を、環境地図ＥＭ２に対しラベル「２階」を付与するなど）。

　また、図２８に示したような画像や、環境地図ＥＭ上における自律移動体１０の移動の軌跡は、ユーザインタフェースＵＩ２上にリアルタイムに表示されてもよい。ユーザは、上記の情報を視認することで、指定領域が正しく認識されているか否か、指定領域に対応する空間領域に自律移動体１０が正しく移動しているか否か、自律移動体１０がどのように指定領域に対応する空間領域を「見て」いるか、などを把握することができる。また、上記のような画像および環境地図ＥＭのリアルタイム表示は、例えば、監視や見守りなどのシステムに応用可能である。

　＜＜２．３．環境地図ＥＭを用いた教示学習の流れ＞＞
　次に、本実施形態に係る環境地図を用いた教示学習の流れについて詳細に説明する。図２９は、本実施形態に係る環境地図ＥＭを用いた教示学習の流れを示すフローチャートである。

　図２９を参照すると、まず、自律移動体１０の認識部１２０が収集したセンサ情報に基づいて、環境地図ＥＭを生成する（Ｓ２１０１）。なお、上述したように、本実施形態に係る環境地図ＥＭは、情報処理サーバ２０により生成されてもよい。

　次に、情報処理サーバ２０のアプリケーション制御部２４０は、ステップＳ２１０１において生成された環境地図ＥＭをユーザインタフェースＵＩ２を介してユーザに提示する。ユーザは、環境地図ＥＭにおける任意の指定領域を選択し、当該指定領域に対するラベル付けを実行する（Ｓ２１０２）。

　次に、自律移動体１０の動作制御部１５０は、ステップＳ２１０１において選択された指定領域に対応する実空間上の空間領域に自律移動体１０を移動させ、空間領域に係るセンサ情報（画像など）を収集させる（Ｓ２１０３）。

　次に、自律移動体１０の学習部１３０は、ステップＳ２１０２において付与されたラベルと、ステップＳ２１０３において収集されたセンサ情報とを対応づけて空間領域に係るパターン認識学習を実行する（Ｓ２１０４）。

　＜３．ハードウェア構成例＞
　次に、本開示の一実施形態に係る情報処理サーバ２０のハードウェア構成例について説明する。図３０は、本開示の一実施形態に係る情報処理サーバ２０のハードウェア構成例を示すブロック図である。図３０を参照すると、情報処理サーバ２０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（プロセッサ８７１）
　プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜４．まとめ＞
　以上説明したように、本開示の一実施形態に係る自律移動体１０は、自律移動体１０の動作を制御する動作制御部１５０を備える。また、本開示の一実施形態に係る動作制御部１５０は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を自律移動体１０に行わせる、ことを特徴の一つとする。係る構成によれば、パターン認識に係る学習をより効率的に実現することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、自律移動体１０または情報処理サーバ２０が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

　また、本明細書の自律移動体１０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、自律移動体１０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、
　を備え、
　前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、
情報処理装置。
（２）
　前記学習対象は、空間領域を含み、
　前記動作制御部は、前記自律移動体が収集したセンサ情報に基づいて生成された環境地図において付与された前記ラベルに基づいて、前記空間領域に係る情報取得を前記自律移動体に行わせる、
前記（１）に記載の情報処理装置。
（３）
　前記動作制御部は、前記環境地図において前記ラベルが付与された指定領域に対応する実空間上の前記空間領域に前記自律移動体を移動させる、
前記（２）に記載の情報処理装置。
（４）
　前記動作制御部は、前記指定領域に対応する前記空間領域を前記自律移動体に撮影させる、
前記（３）に記載の情報処理装置。
（５）
　前記環境地図は、ＳＬＡＭ技術を用いて生成または更新される、
前記（２）～（４）のいずれかに記載の情報処理装置。
（６）
　前記動作制御部は、前記学習対象が複数の角度から撮影されるよう前記自律移動体の位置または姿勢を制御する、
前記（１）に記載の情報処理装置。
（７）
　前記動作制御部は、前記学習対象の全体が撮影されるよう前記自律移動体の位置または姿勢を制御する、
前記（１）または（２）に記載の情報処理装置。
（８）
　前記動作制御部は、前記学習対象に係る境界認識の結果に基づいて、前記自律移動体の位置または姿勢を制御する、
前記（７）に記載の情報処理装置。
（９）
　前記教示は、ユーザにより実行され、
　前記動作制御部は、前記ユーザの指示に基づいて特定された前記学習対象の撮影を前記自律移動体に行わせる、
前記（１）、６～（８）のいずれかに記載の情報処理装置。
（１０）
　前記ユーザの指示は、ジェスチャにより行われる、
前記（９）に記載の情報処理装置。
（１１）
　前記教示は、前記学習対象から取得される情報に基づいて行われる、
前記（１）、６～（１０）のいずれかに記載の情報処理装置。
（１２）
　前記教示は、前記学習対象に付与されるマーカの撮影により行われる、
前記（１１）に記載の情報処理装置。
（１３）
　前記教示は、前記学習対象から無線通信により送信される情報に基づいて行われる、
前記（１１）または（１２）に記載の情報処理装置。
（１４）
　前記教示は、前記学習対象から発せられる非可聴音に基づいて行われる、
前記（１１）～（１３）のいずれかに記載の情報処理装置。
（１５）
　前記ラベルは、前記ユーザの発話から抽出される、
前記（９）または（１０）に記載の情報処理装置。
（１６）
　前記学習対象は、物体を含み、
　前記動作制御部は、前記教示に基づいて特定された前記物体の撮影を前記自律移動体に行わせる、
前記（１）、６～（１５）のいずれかに記載の情報処理装置。
（１７）
　前記学習対象は、物体の動作を含み、
　前記動作制御部は、前記教示に基づいて特定された前記物体の動作に係る情報取得を前記自律移動体に行わせる、
前記（１）、６～（１６）のいずれかに記載の情報処理装置。
（１８）
　前記学習対象は、空間領域を含み、
　前記動作制御部は、前記教示に基づいて特定された前記空間領域に係る情報取得を前記自律移動体に行わせる、
前記（１）、６～（１７）のいずれかに記載の情報処理装置。
（１９）
　前記動作制御部は、前記パターン認識学習が開始または終了したことを示す動作を前記自律移動体に行わせる、
前記（１）、６～（１８）のいずれかに記載の情報処理装置。
（２０）
　前記動作制御部は、ユーザによる前記教示を誘導するための誘導動作を前記自律移動体に行わせる、
前記（１）、６～（１９）のいずれかに記載の情報処理装置。
（２１）
　前記パターン認識学習に係る前記ラベルと前記学習対象との対応付けを行うためのユーザインタフェースを制御するアプリケーション制御部、
　をさらに備える、
前記（１）～（２０）のいずれかに記載の情報処理装置。
（２２）
　前記アプリケーション制御部は、前記ユーザインタフェースにおいて、ユーザが環境地図における任意の指定領域を指定し、前記指定領域に対し前記ラベルを付与するための手段を提供する、
前記（２１）に記載の情報処理装置。
（２３）
　前記アプリケーション制御部は、前記ユーザインタフェースにおいて、前記指定領域に対しユーザが付与することが可能な前記ラベルの候補を提示する、
前記（２２）に記載の情報処理装置。
（２４）
　前記アプリケーション制御部は、前記ユーザインタフェースにおいて、前記ラベルと前記学習対象との対応付けをユーザが修正するための手段を提供する、
前記（２１）に記載の情報処理装置。
（２５）
　前記ラベルと前記学習対象の画像に基づいて前記パターン認識学習を行う学習部、
　をさらに備える、
前記（１）～（２４）のいずれかに記載の情報処理装置。
（２６）
　プロセッサが、認識処理に基づいて行動する自律移動体の動作を制御すること、
　を含み、
　前記動作を制御することは、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせること、
　をさらに含む、
情報処理方法。
（２７）
　コンピュータを、
　認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、
　を備え、
　前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、
　情報処理装置、
として機能させるためのプログラム。

　１０　　　
　１０　　　自律移動体
　１１０　　入力部
　１２０　　認識部
　１３０　　学習部
　１４０　　行動計画部
　１５０　　動作制御部
　１６０　　駆動部
　１７０　　出力部
　５１０　　ディスプレイ
　５７０　　アクチュエータ
　２０　　　情報処理サーバ
　２１０　　認識部
　２２０　　学習部
　２３０　　記憶部
　２４０　　アプリケーション制御部

Claims

　認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、
　を備え、
　前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、
情報処理装置。
　前記学習対象は、空間領域を含み、
　前記動作制御部は、前記自律移動体が収集したセンサ情報に基づいて生成された環境地図において付与された前記ラベルに基づいて、前記空間領域に係る情報取得を前記自律移動体に行わせる、
請求項１に記載の情報処理装置。
　前記動作制御部は、前記環境地図において前記ラベルが付与された指定領域に対応する実空間上の前記空間領域に前記自律移動体を移動させる、
請求項２に記載の情報処理装置。
　前記動作制御部は、前記指定領域に対応する前記空間領域を前記自律移動体に撮影させる、
請求項３に記載の情報処理装置。
　前記環境地図は、ＳＬＡＭ技術を用いて生成または更新される、
請求項２に記載の情報処理装置。
　前記動作制御部は、前記学習対象が複数の角度から撮影されるよう前記自律移動体の位置または姿勢を制御する、
請求項１に記載の情報処理装置。
　前記動作制御部は、前記学習対象の全体が撮影されるよう前記自律移動体の位置または姿勢を制御する、
請求項１に記載の情報処理装置。
　前記動作制御部は、前記学習対象に係る境界認識の結果に基づいて、前記自律移動体の位置または姿勢を制御する、
請求項７に記載の情報処理装置。
　前記教示は、ユーザにより実行され、
　前記動作制御部は、前記ユーザの指示に基づいて特定された前記学習対象の撮影を前記自律移動体に行わせる、
請求項１に記載の情報処理装置。
　前記ユーザの指示は、ジェスチャにより行われる、
請求項９に記載の情報処理装置。
　前記教示は、前記学習対象から取得される情報に基づいて行われる、
請求項１に記載の情報処理装置。
　前記教示は、前記学習対象に付与されるマーカの撮影により行われる、
請求項１１に記載の情報処理装置。
　前記教示は、前記学習対象から無線通信により送信される情報に基づいて行われる、
請求項１１に記載の情報処理装置。
　前記教示は、前記学習対象から発せられる非可聴音に基づいて行われる、
請求項１１に記載の情報処理装置。
　前記ラベルは、前記ユーザの発話から抽出される、
請求項９に記載の情報処理装置。
　前記学習対象は、物体を含み、
　前記動作制御部は、前記教示に基づいて特定された前記物体の撮影を前記自律移動体に行わせる、
請求項１に記載の情報処理装置。
　前記学習対象は、物体の動作を含み、
　前記動作制御部は、前記教示に基づいて特定された前記物体の動作に係る情報取得を前記自律移動体に行わせる、
請求項１に記載の情報処理装置。
　前記学習対象は、空間領域を含み、
　前記動作制御部は、前記教示に基づいて特定された前記空間領域に係る情報取得を前記自律移動体に行わせる、
請求項１に記載の情報処理装置。
　前記動作制御部は、前記パターン認識学習が開始または終了したことを示す動作を前記自律移動体に行わせる、
請求項１に記載の情報処理装置。
　前記動作制御部は、ユーザによる前記教示を誘導するための誘導動作を前記自律移動体に行わせる、
請求項１に記載の情報処理装置。
　前記パターン認識学習に係る前記ラベルと前記学習対象との対応付けを行うためのユーザインタフェースを制御するアプリケーション制御部、
　をさらに備える、
請求項１に記載の情報処理装置。
　前記アプリケーション制御部は、前記ユーザインタフェースにおいて、ユーザが環境地図における任意の指定領域を指定し、前記指定領域に対し前記ラベルを付与するための手段を提供する、
請求項２１に記載の情報処理装置。
　前記アプリケーション制御部は、前記ユーザインタフェースにおいて、前記指定領域に対しユーザが付与することが可能な前記ラベルの候補を提示する、
請求項２２に記載の情報処理装置。
　前記アプリケーション制御部は、前記ユーザインタフェースにおいて、前記ラベルと前記学習対象との対応付けをユーザが修正するための手段を提供する、
請求項２１に記載の情報処理装置。
　前記ラベルと前記学習対象の画像に基づいて前記パターン認識学習を行う学習部、
　をさらに備える、
請求項１に記載の情報処理装置。
　プロセッサが、認識処理に基づいて行動する自律移動体の動作を制御すること、
　を含み、
　前記動作を制御することは、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせること、
　をさらに含む、
情報処理方法。
　コンピュータを、
　認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、
　を備え、
　前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、
　情報処理装置、
として機能させるためのプログラム。