WO2021053949A1

WO2021053949A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2021053949A1
Application number: PCT/JP2020/027500
Authority: WO
Inventors: 大樹島田
Original assignee: ソニー株式会社
Priority date: 2019-09-17
Filing date: 2020-07-15
Publication date: 2021-03-25
Also published as: JPWO2021053949A1; EP4032594A1; EP4032594A4; US20240042619A1

Abstract

情報処理装置は、所定エリアの環境情報をセンシングするセンサ部と、所定のイベントに関するイベント特徴データと、イベント特徴データに関連付けされた所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部と、センサ部によるセンシング結果に基づいて、記憶部からイベント情報を索出して、イベント情報に含まれる空間情報を取得する制御部と、を備える。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　例えば、住宅などの環境下で動作するロボットやエージェント技術においては、住宅内やデバイス周辺の環境情報を認識する技術が開発され、導入されている。

特開平９－２１８９５５号公報国際公開第２０１４／１６７７００号

　しかしながら、所定の環境下で動作する移動型ロボットなどは、それぞれ視覚的な情報が大きく異なるのみならず、この視覚的な情報も時々刻々と変化する。さらに、移動型ロボットにより観測可能な空間領域は、所定の環境下に存在する物体などによって部分的になってしまう。そのため、住宅などの所定の環境下において、環境の差異や変化、または視覚的なオクルージョンに左右されない認識システムが望まれていた。

　そこで、本開示では、所定の環境下において、一部の情報から特定のイベントを認識できる情報処理装置、情報処理方法、およびプログラムを提案する。

　本開示に係る一態様の情報処理装置は、所定エリアの環境情報をセンシングするセンサ部と、所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部と、前記センサ部によるセンシング結果に基づいて、前記記憶部から前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を取得する制御部と、を備える。

　実施形態の一態様によれば、所定の環境下において一部の情報から特定のイベントを認識できる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。さらに、本明細書に記載される効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

本開示の一実施形態による情報処理システムの学習フェーズの概要を示す図である。本開示の一実施形態による情報処理システムの想起フェーズの概要を示す図である。本開示の一実施形態による情報処理装置の構成例を示すブロック図である。本開示の一実施形態による音声特徴の抽出および特徴量を示す図である。本開示の一実施形態による学習フェーズの画像列を示す図である。本開示の一実施形態による物体領域のマスク処理を示す図である。本開示の一実施形態による物体特徴の抽出を示す図である。本開示の一実施形態による物体特徴の特徴量を示す図である。本開示の一実施形態によるイベント特徴データの具体例を示す図である。本開示の一実施形態によるイベントＤＢの具体例を示す図である。本開示の一実施形態による更新後のイベント特徴データの具体例を示す図である。本開示の一実施形態による情報処理装置が実行する情報処理方法の一例を示すフローチャートである。本開示の一実施形態による情報処理装置の初期設定の例を説明するための図である。本開示の一実施形態による情報処理装置の初期設定の例を説明するための図である。本開示の変形例によるイベントＤＢの具体例を示す図である。本開示の変形例による情報処理方法の具体例を示す図である。本開示の変形例による情報処理装置の位置の具体例を示す図である。本開示の変形例による情報処理装置の移動の具体例を示す図である。変形例による情報処理装置の模式図である。本開示の情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

（一実施形態）
［一実施形態によるシステムの構成］
　まず、本開示の一実施形態の概要について説明する。上述したように、近年、例えばペット型ロボットなどの移動型ロボットによって、住宅内やデバイス周辺などの所定の環境情報を認識する技術が開発されている。

　一方、住宅などの環境においては、それぞれの環境によって視覚的な情報が大きく異なっている上に、時々刻々と変化する。すなわち、住宅などの所定の環境での日常的なイベントの認識は、それぞれの環境での差異が大きく、環境ごとにイベントの特徴が異なる。そのため、移動型ロボットは、それぞれの環境ごとにイベントを学習する必要がある。さらに、上述した移動型ロボットが観測可能な空間は、その時々で部分的になる。すなわち、移動型ロボットは、その時々でセンサが観測する空間が異なるため、複数のセンサの入力から特徴を統合して、観測が不完全であったとしても、不完全な情報を補完してイベントを認識する必要がある。そのため、住宅内の環境の差異もしくは変化、または視覚的なオクルージョンに左右されない認識システムが求められていた。

　そこで、本開示においては、複数のセンサからの入力に基づいて得られるイベント特徴データとイベントメタ情報とによって日常のイベントを定義して、３次元的にマッピングする。これにより、住宅Ｈ内などの所定の環境の差異や、視覚的なオクルージョンに対して、より高い頑健性を有するイベントの認識処理が可能になる。ここで、イベント特徴データは、イベントの事象自体を特徴づける視覚的情報および聴覚的情報である。具体的にイベント特徴データは、物体の特徴量を示す物体特徴データ、および音声の特徴量を示す音声特徴データを含む。イベントメタ情報は、空間情報としての所定の位置を示す位置情報を含む。

　まず、本実施形態による情報処理装置の学習フェーズについて説明する。図１は、本実施形態による情報処理装置の学習フェーズの概要の一例を示す図である。図１に示すように、本実施形態による情報処理装置１は、住宅Ｈなどの所定エリアの環境下に存在する。なお、以下において、情報処理装置１がペット型ロボットである場合について説明するが、情報処理装置１は、ペット型ロボットに代えて、人型ロボットやドローンなどであってもよい。

　図１の例において、情報処理装置１は、例えばペットの形状の筐体を備えたペット型ロボットであり、住宅Ｈ内を移動可能である。ペット型ロボットとしての情報処理装置１は、住宅Ｈ内の環境情報をセンシングするセンサの検出結果に基づいて、住宅Ｈ内のイベントを学習する。なお、図１に示す例においては、イベントとして、人の来訪、具体的には男性の帰宅を学習する場合について記載しているが、イベントは必ずしも上述した住宅Ｈへの人の来訪に限定されず、種々のイベントを検出可能である。具体的な詳細は後述するが、情報処理装置１は、センサ部２を備え、所定エリアの環境情報をセンシング可能である。具体的に、情報処理装置１は、マイクセンサ２１およびカメラセンサ２２を備える。情報処理装置１は、マイクセンサ２１によって集音したセンシング結果の一部としての音声データや、カメラセンサ２２によって撮像したセンシング結果の一部としての映像データに基づいて、住宅Ｈ内のイベントをセンシングする。

　図１に示す例においては、住宅Ｈに住人の男性が帰宅した場合に、マイクセンサ２１によって音声データを取得するとともに、カメラセンサ２２によって映像データを取得する。なお、映像データは、複数の画像データから構成されるデータであるため、映像データは画像データの概念を含む。情報処理装置１は、音声データと映像データとの相間関係を学習してイベント特徴データにする。これとともに、情報処理装置１は、学習したイベント特徴データが得られた場所をマッピングして、空間情報としての３次元の位置情報を含むイベントメタ情報として学習する。図１に示す例においては、住宅Ｈ内の玄関のドアＤの位置情報が、学習したイベント特徴データの発生した位置としてマッピングされ、イベントメタ情報とされる。

　図２は、本実施形態による情報処理装置の想起フェーズの概要の一例を示す図である。図２に示すように、情報処理装置１は、マイクセンサ２１によって音声データを取得した場合に、取得した音声データに基づいてイベント特徴データを索出し、関連するイベントメタ情報に含まれる位置情報を索出する。図２に示す例においては、まず、マイクセンサ２１が取得した例えば男性の足音およびドアＤが開く音の音声データに基づいて、音声特徴データ「ＥＡ００１１」が索出される。音声特徴データ「ＥＡ００１１」が索出されると、関連したイベント特徴ＩＤ「Ｅ００１」およびイベントメタ情報「ＥＭ００１」を索出できる。情報処理装置１は、後述する駆動機構によって、索出したイベントメタ情報「ＥＭ００１」に含まれる位置情報の場所まで移動する。これによって、ペット型ロボットである情報処理装置１は、過去に発生したイベントに基づいて、現在発生した同様のイベントの発生場所に、自動で移動することができる。

　また、情報処理装置１は、上述した学習フェーズにおいて、音声データと映像データとを同時に取得した場合に、イベントＤＢを逐次更新することによって、イベント情報を徐々に洗練させることができる。したがって、情報処理装置１によれば、ユーザが詳細なイベント情報を予め設定しておく必要が無く、簡易な操作でイベント情報を最適化でき、イベント情報の最適化を容易にできる。

［実施形態による情報処理装置の構成］
　次に、一実施形態による情報処理装置１の構成例について説明する。図３は、本実施形態による情報処理装置１の構成例を示すブロック図である。図２に示すように、情報処理装置１は、センサ部２、通信部３、記憶部４、および制御部５を備える。

　センサ部２は、所定エリア（住宅Ｈ内）における環境情報をセンシングするセンサを有する。図２に示す例において、センサ部２は、マイクセンサ２１、カメラセンサ２２、およびデプスセンサ２３を備える。マイクセンサ２１は、周囲の音を収音し、アンプおよびＡＤＣ（Analog　Digital　Converter）を介してデジタル信号に変換した音声データを出力する装置である。すなわち、マイクセンサ２１は、例えばマイクロフォンなどの音声入力可能なセンサを想定する。カメラセンサ２２は、ＲＧＢカメラなどの、レンズ系、および撮像素子を有し、画像（静止画像または動画像）を撮像する撮像装置である。カメラセンサ２２が取得する情報、すなわち入力は、単色または複数の色情報を有する映像であると想定する。デプスセンサ２３は、赤外線測距装置、超音波測距装置、ＬｉＤＡＲ（Laser　Imaging　Detection　and　Ranging）、またはステレオカメラなどの深度情報を取得する装置である。すなわち、デプスセンサ２３は、被写体までの距離を測定する、いわゆる３Ｄセンサである。なお、情報処理装置１は、情報処理装置１とは別に設けられたセンサ部２から所定エリアのセンシング結果を取得することにしてもよい。

　通信部３は、通信可能な他の装置と所定のネットワークを介してデータを送受信する通信モジュールである。通信部３は、受信部３１および送信部３２を備える。受信部３１は、他の装置から所定の情報を受信して制御部５に出力する。送信部３２はネットワークを介して所定の情報を他の装置に送信する。

　記憶部４は、少なくともイベント情報を記録するための記憶装置である。記憶部４は、音声特徴データベース（ＤＢ）４１、物体マスクＤＢ４２、物体特徴ＤＢ４３、イベントメタ情報ＤＢ４４、イベント特徴ＤＢ４５、イベントＤＢ４６、閾値ＤＢ４７、および想起イベントメタ情報４８が記憶される。

　音声特徴ＤＢに格納される音声特徴データは、情報処理装置１が取得した音声データの特徴量に関する情報である。音声特徴データは、例えば、マイクセンサ２１が取得した音声データに基づいて、後述する制御部５によって抽出された特徴量である。図４は、本実施形態に係る音声特徴データの具体例を示す図である。図４に示すように、記憶部４には、マイクセンサ２１が取得した音声データ２００から所定の特徴量が抽出された音声特徴データ２１０が、音声特徴ＤＢ４１に格納される。なお、以下の説明においては、音声特徴データを「ＥＡ００１５」などと抽象化して示すが、音声特徴データとしての「ＥＡ００１５」などは、図４に示すような具体的な音声特徴データである。

　図３に戻り、物体マスクＤＢ４２に格納される物体マスク情報は、カメラセンサ２２による取得された映像データに対して、物体の領域を推定するための物体マスクの情報である。物体マスク情報は、物体の検出基準となる情報である。図５Ａは、本実施形態による画像列の具体例を示す図であり、図５Ｂおよび図５Ｃは、図５Ａにおける画像データ１００の画像列に含まれる物体１０１を検出して、物体が存在する領域を推定することで得られる物体マスク情報の具体例である。図３に示す記憶部４には、図５Ｃに示す各種の物体マスク情報が格納される。図５Ｄは、記憶部４の物体マスクＤＢ４２に格納されたそれぞれの物体マスク情報に基づいて抽出された、それぞれの物体の特徴量である物体特徴データを示す図である。なお、図５Ｃに示す物体マスク情報から得られたそれぞれの物体特徴データは、以下の説明において「ＥＢ００１」などと抽象化して示すが、物体特徴データ「ＥＢ００１」などは、図５Ｄに示す具体的な物体特徴データである。具体的な物体特徴データは、例えば２５６次元のベクトルデータなどである。これらの物体特徴データは、図３に示す記憶部４の物体特徴ＤＢ４３に格納される。

　また、図６は、イベント特徴データの一例を示す図である。図６に示すように、イベント特徴データは、イベント特徴ＩＤに紐付けされた物体特徴データおよび音声特徴データを含む。物体特徴データは、図３に示す記憶部４のイベント特徴ＤＢ４５に格納される。

　また、イベントメタ情報は、少なくとも２次元または３次元の位置情報を含む。イベントメタ情報は、時刻情報を含んでいてもよい。本実施形態においてイベントメタ情報は、所定のイベントに関連した位置情報および時刻情報を含むメタ情報である。イベントメタ情報はさらに、移動型ロボットの行動に必要な情報を含んでいてもよい。移動型ロボットの行動に必要な情報とは、例えば、イベントに関する、カテゴリ情報、発生頻度情報や、発生日時情報などである。

　イベント特徴ＤＢ４５は、上述した音声特徴データと物体特徴データとが互いに関連付けられて、イベント特徴データとして格納されたデータベースである。図６は、イベント特徴データの具体例を示す図である。図６に示すように、イベント特徴データは、互いに関連付けられた物体特徴データと音声特徴データとが、イベント特徴ＩＤに関連付けられて構成されたデータである。図６に示す例においては、物体特徴データ「ＥＢ００３」，「ＥＢ００５」（図５Ｃ，図５Ｄ参照）と、これに関連した音声特徴データ「ＥＡ００１５」（図４参照）とが、イベント特徴ＩＤ「Ｅ００１」に関連付けされて構成されている。

　さらに、イベントＤＢ４６は、上述したイベント特徴データとイベントメタ情報とが互いに関連付けられて、イベント情報として格納されたデータベースである。図７は、イベント情報の具体例を示す図である。図７に示すように、イベント情報は、互いに関連付けられたイベント特徴ＩＤとイベントメタ情報とが、イベントＩＤに関連付けられて構成されたデータである。図７に示す例においては、イベント特徴ＩＤ「ＥＭ００１」と、これに関連したイベントメタ情報「ＥＭ００１」とが、イベントＩＤ「００１」を付されて、イベント情報が構成されている。また、イベント特徴ＩＤ「ＥＭ００２」と、これに関連したイベントメタ情報「ＥＭ００２」とが、イベントＩＤ「００２」を付されて、イベント情報が構成されている。

　閾値ＤＢ４７は、マイクセンサ２１が取得した音声データとカメラセンサ２２が取得した映像データとの間の一致度を判定するための閾値の情報を含む。この一致度の閾値は、本明細書において一致閾値といい、音声データから得られる音声特徴データと、映像データから得られる物体特徴データとの一致度に関する閾値である。また、一致閾値は、学習フェーズに入るか否かを決定するための閾値の情報であり、換言すると、登録すべきイベントであるか否かを判断するための閾値である。入力された音声データや映像データが一致閾値を超えた場合に学習フェーズに入り、一致閾値以下の場合に想起フェーズに入る。ここで、学習フェーズとは、制御部５が行う登録処理または更新処理によって、イベントＤＢ４６が変更される処理である。想起フェーズとは、所定の条件下において、制御部５によってイベントＤＢ４６から所定のイベント情報に含まれるイベントメタ情報を出力する処理である。

　閾値ＤＢ４７は、音声特徴ＤＢ４１に登録された音声特徴データと、マイクセンサ２１が取得した音声データとの類似度を判定するための閾値の情報を含む。また、閾値ＤＢ４７は、物体特徴ＤＢ４３に登録された物体特徴データと、カメラセンサ２２が取得した映像データとの類似度を判定するための閾値の情報を含む。これらの閾値は、本明細書において想起閾値という。換言すると想起閾値は、イベントＤＢ４６に格納されているイベント情報の中に、入力された音声データや映像データの特徴量と類似する音声特徴データや物体特徴データを含んだイベント特徴データが存在するか否かを判定する閾値である。

　想起イベントメタ情報４８は、イベントＤＢ４６から索出されたイベント情報に含まれるイベントメタ情報である。情報処理装置１は、想起イベントメタ情報４８に基づいて行動計画を行う。

　次に、制御部５について説明する。制御部５は、情報処理装置１が備える各構成を制御する機能を有する。図３に示すように、制御部５は、音声特徴抽出部５１、物体領域推定部５２、物体特徴抽出部５３、音源物体推定部５４、空間位置情報取得部５５、時刻情報取得部５６、学習想起部５７、および行動計画制御部５８を備える。

　音声特徴抽出部５１は、マイクセンサ２１から入力された音声データを抽象度の高い特徴量を抽出して、音声特徴データに変換する。ここで、音声データから音声特徴データへの変換処理は、例えばフーリエ変換処理などの技術によって実現可能である。

　物体領域推定部５２は、カメラセンサ２２が取得した図５Ａに示す映像データに含まれる複数の画像データ１００に対して、図５Ｂに示すように物体１０１の存在する領域を推定し、物体１０１の領域を示す物体マスク情報を出力する。これにより、図５Ｃに示すように、画像データ１００に含まれる個々の物体１０１が区別されて、それぞれの物体マスク情報が記憶部４に格納される。物体特徴抽出部５３は、入力された映像データに含まれる複数の画像データ１００と、物体マスク情報とから、それぞれの物体１０１の領域を特定する。物体特徴抽出部５３は特定した物体１０１の領域から、図５Ｄに示すように、それぞれの物体１０１の領域ごとに抽象度の高い特徴量を抽出して、物体特徴データに変換する。物体特徴抽出部５３は、記憶部４に格納される。なお、物体１０１の領域の特定や物体特徴データへの変換の処理は既存の技術によって実現可能である。

　図３に戻り、音源物体推定部５４は、音声特徴抽出部５１によって得られた音声特徴データと、物体特徴抽出部５３によって得られたそれぞれの物体特徴データとの間における一致度を計算する。音源物体推定部５４は、音源物体推定部５４は、一致度の計算に基づいて、音声特徴抽出部５１によって検出された音声データの発生源、すなわち音源となっている物体１０１を推定する。具体的に、音源物体推定部５４は、例えば、音声データについてＭＵＳＩＣ（Multiple　Signal　Classification）法などの各種方位演算アルゴリズムを用いることで、音源の発生する方位を推定して、音源となる物体の位置を推定する。音源物体推定部５４は、一致度が高いと推定される物体特徴データと音声特徴データとを関連付けして、イベント特徴データとして出力する。音声特徴データと物体特徴データとの間における一致度の計算方法としては、例えば、物体特徴データと音声特徴データとの内積計算による方法が挙げられるが、必ずしも限定されない。音声特徴データと物体特徴データとの間における一致度の計算は、例えば機械学習によって得られたニューラルネットワークによって実行することも可能である。ここで、図５Ｃおよび図６に示す例では、イベント特徴データは、イベント特徴ＩＤ「Ｅ００１」が付され、物体特徴データ「ＥＢ００３」、「ＥＢ００５」と、音声特徴データ「ＥＡ００１５」とが関連付けられている。

　以上のマイクセンサ２１、カメラセンサ２２、音声特徴抽出部５１、物体領域推定部５２、物体特徴抽出部５３、音源物体推定部５４、音声特徴ＤＢ４１、物体マスクＤＢ４２、および物体特徴ＤＢ４３は、特徴抽出部７０を構成する。特徴抽出部７０は、総じて、入力された音声データおよび映像データなどの各種データからイベント特徴データを抽出する。一方で特徴抽出部７０は、物体特徴データと音声特徴データとの一致度を計算して、映像データ内に音源となる物体が含まれているか否かを計算する。

　空間位置情報取得部５５は、デプスセンサ２３によって検出される深度情報に基づいて、所定エリア（住宅Ｈ内）のマップを作成し、イベントメタ情報のベースとなるマップ情報として記憶部４に記憶する。空間位置情報取得部５５は、ＳＬＡＭ（Simulation　Localization　and　Mapping）によってマップ情報を生成することが可能である。なお、空間位置情報取得部５５は、住宅Ｈ内の家具の配置換えなどが行われることを想定して、所定の周期でマップ情報を更新してもよく、情報処理装置１の移動ごとにマップを毎回生成してもよい。また、情報処理装置１は、他の装置で生成されたマップをマップ情報として記憶してもよい。空間位置情報取得部５５は、デプスセンサ２３によって得られた深度情報を記憶部４に格納されたマップ情報と比較することにより、特定の位置情報を算出できる。空間位置情報取得部５５によって、所定の位置情報を取得する方法としては、以下の処理を挙げることができる。すなわち、例えばＧＰＳ（Global　Positioning　System）システムのような、測位システムを利用して地球上の座標情報を取得する処理や、例えばVisualＳＬＡＭのような、映像データを利用して所定の起点からの相対位置を取得する自己位置推定の処理である。

　時刻情報取得部５６は、例えば時計などの計時機構や、所定のネットワークを介して時刻情報を出力するサーバからの時刻情報を受信する時刻情報受信機構である。

　空間位置情報取得部５５は、観測したイベントに関連付けられる位置情報を、イベントメタ情報の一部として出力する。イベントメタ情報は記憶部４のイベントメタ情報データベースに格納される。イベントメタ情報は、少なくともイベントの位置情報を含む。ここで、イベントの位置情報は、任意の位置を原点とした、２つ以上の数値による座標表現を指す。位置情報は、例えば環境のマップ内における所定の起点からの相対位置、すなわちワールド座標系でのＸＹＺ位置や、ＧＰＳ衛星から得られる世界測地系の座標情報などの空間情報で表すことができる。また、時刻情報取得部５６が取得した時刻情報を、イベントが発生した時刻の時刻情報として、空間位置情報取得部５５が算出した位置情報と関連付けてイベントメタ情報の一部としてもよい。

　以上のデプスセンサ２３、空間位置情報取得部５５、時刻情報取得部５６、およびイベントメタ情報ＤＢ４４は、イベントメタ情報取得部８０を構成する。イベントメタ情報取得部８０は、総じて、デプスセンサ２３からの入力に基づいて、イベント情報の索出や移動型ロボットの行動に必要な情報をイベントメタ情報として出力して、記憶部４に格納する。

　生成部の一部としての学習想起部５７は、特徴抽出部７０によって得られたイベント特徴データと、イベントメタ情報取得部８０によって得られたイベントメタ情報とを関連付けて、イベント情報を生成し、記憶部４のイベントＤＢ４６に格納する。なお、本実施形態においてイベント特徴データがイベント特徴ＤＢ４５に格納され、イベント情報がイベントＤＢ４６に格納されているが、必ずしもこれに限定されない。すなわち、データベースを用いる代わりに、ボルツマンマシンや自己組織化マップのような特定入力から関連する情報を出力可能なシステムを用いてもよい。

　学習想起部５７は、特徴抽出部７０から出力されたイベント特徴データと、閾値ＤＢ４７に格納された一致閾値や想起閾値とに基づいて、イベント情報に対する登録処理、更新処理、または想起処理のいずれを実行するかを判定する。

　以上の学習想起部５７、イベント特徴ＤＢ４５、イベントＤＢ４６、および閾値ＤＢ４７によって、イベントメモリ部９０が構成される。イベントメモリ部９０は、総じて、イベント情報に対して、登録、更新、または想起のいずれかの処理を選択する一方、イベント情報を生成して記憶部４に格納する。

　行動計画制御部５８は、センサ部２が取得した情報と、記憶部４に格納された各種データに基づいて、情報処理装置１が行う行動を計画する機能を有する。本実施形態による行動計画制御部５８は、まず、マイクセンサ２１が取得した音声データから、当該音声データに対応した、イベントメタ情報ＤＢ４４に格納されたイベントメタ情報を索出する。行動計画制御部５８は、続いて、索出したイベントメタ情報に含まれる位置情報に基づいて、位置情報によって指定された位置まで移動する行動を実行する決定を行う。

　また、行動計画制御部５８は、駆動部６の動作を制御する機能を有する。駆動部６は、情報処理装置１における物理的構成を駆動する機能を有する。駆動部６は、情報処理装置１の位置の移動を行うための機能を有する。駆動部６は、例えば、モータ６１により駆動するアクチュエータである。行動計画制御部５８は、例えば、上述した行動計画に基づいて、駆動部６のモータ６１を制御して、駆動部６に設けられた各関節部が備えるアクチュエータを駆動させる。なお、駆動部６は、情報処理装置１が所望の動作を実現可能であれば、どのような構成であってもよい。駆動部６は、情報処理装置１の位置の移動などを実現可能であれば、どのような構成であってもよい。情報処理装置１がキャタピラやタイヤなどの移動機構を有する場合、駆動部６は、キャタピラやタイヤなどを駆動する。駆動部６はさらに、移動型ロボットの制御に必要な、例えばＧＰＳ受信部や加速度センサなどのセンサを含んでいてもよい。

［実施形態による情報処理方法］
　次に、本実施形態による情報処理装置１が実行する処理手順について説明する。図９は、実施形態に係る情報処理装置１が実行する処理手順を示すフローチャートである。

　図９に示すように、まず、ステップＳＴ１において、情報処理装置１の特徴抽出部７０によってイベント特徴を取得する。具体的に、まず、マイクセンサ２１が音声データを取得するとともに、カメラセンサ２２が映像データを取得する。なお、カメラセンサ２２は、映像データを取得する代わりに複数の画像データを取得してもよい。制御部５の音声特徴抽出部５１は、取得した音声データから音声特徴データを抽出して音声特徴ＤＢ４１に格納する。物体領域推定部５２および物体特徴抽出部５３は、映像データから物体マスクデータを用いて物体特徴データを抽出し、物体特徴ＤＢ４３に格納する。音源物体推定部５４は、音声特徴データと物体特徴データとから、取得した音声データの音源となる物体を推定する。音声特徴データと物体特徴データとが組み合わせられて、イベント特徴データが生成される。なお、音声データが得られなかったり、映像データから物体特徴データが抽出できなかったりした場合、イベント特徴データは、音声特徴データのみ、または物体特徴データのみから構成される場合もある。また、イベント特徴データの生成と並行して、イベントメタ情報取得部８０によって、音声データおよび映像データを取得した場所におけるイベントメタ情報が生成され、イベントメタ情報ＤＢ４４に格納される。

　次に、ステップＳＴ２に移行すると、情報処理装置１のイベントメモリ部９０は、生成されたイベント特徴データが、一致閾値を超えているか否かを判定する。具体的に、まず、音源物体推定部５４がイベント特徴データに含まれる音声特徴データと物体特徴データとの間の一致度を計算して、学習想起部５７に出力する。学習想起部５７が、入力された一致度は一致閾値を超えていると判定した場合（ステップＳＴ２：Ｙｅｓ）、ステップＳＴ３に移行する。音声特徴データと物体特徴データとの一致度が高い場合には、マイクセンサ２１によって音声データを取得するのと略同時に、当該音声データを出力した物体をカメラセンサ２２によって撮像していることになる。この場合、上述したように、情報処理装置１の処理は学習フェーズに入る。

　次に、学習フェーズとしてのステップＳＴ３において、情報処理装置１の制御部５は、イベント特徴データに基づいてイベントを想起する。具体的に、制御部５の学習想起部５７は、取得したイベント特徴データに基づいて、イベントＤＢ４６に格納されたイベント情報を索出する。イベントＤＢ４６には、例えば図７に示すようなイベントＩＤに関連付けされたイベント特徴ＩＤとイベントメタ情報とが格納されている。

　続いてステップＳＴ４に移行して学習想起部５７は、取得したイベント特徴データに対する類似度が、所定の想起閾値を超えたイベント特徴データを有するイベント情報が存在するか否かを判定する。なお、学習想起部５７は、イベント特徴データに関する類似度の閾値以外にも、イベントメタ情報に含まれる他の情報に基づいた閾値や、発生頻度や発生日時に基づいた閾値を、類似度に関する想起閾値として用いてもよい。学習想起部５７が、所定の想起閾値を超えたイベント特徴データを含むイベント情報が存在すると判定した場合（ステップＳＴ４：Ｙｅｓ）、ステップＳＴ５に移行する。なお、索出されたイベント情報に含まれるイベント特徴データが、図６に示すイベント特徴ＩＤ「Ｅ００１」のイベント特徴データであるとして説明する。

　ステップＳＴ５において学習想起部５７は、索出したイベント特徴データの更新を行う。具体的に、学習想起部５７は、索出したイベント情報に含まれるイベント特徴データを、取得したイベント特徴データに更新する。すなわち、例えばイベント特徴ＩＤが「Ｅ００１」のイベント特徴データのうち、音声特徴データが、図６に示す音声特徴データ「ＥＡ００１５」から図８に示す音声特徴データ「ＥＡ００２４」に更新される。なお、必要に応じて、物体特徴データを更新してもよい。更新したイベント特徴ＩＤ「Ｅ００１」のイベント特徴データは、図７に示すイベントＩＤ「００１」に格納されて、イベント情報が更新される。以上により、情報処理装置１が実行する学習フェーズが終了する。

　また、ステップＳＴ４において学習想起部５７が、所定の想起閾値を超えたイベント特徴データを含むイベント情報が存在しないと判定した場合（ステップＳＴ４：Ｎｏ）、ステップＳＴ６に移行する。ステップＳＴ６において制御部５は、イベントの登録を行う。具体的に学習想起部５７は、特徴抽出部７０から出力された音声特徴データと物体特徴データとから、イベント特徴データを生成する。一方で、学習想起部５７は、イベントメタ情報取得部８０から出力されたイベントメタ情報を取得する。学習想起部５７は、イベント特徴データとイベントメタ情報とを関連付けて、イベントＩＤを付して、イベントＤＢ４６に格納する。以上により、情報処理装置１が実行する学習フェーズが終了する。

　また、ステップＳＴ２において学習想起部５７が、計算した一致度は一致閾値以下であると判定した場合（ステップＳＴ２：Ｎｏ）、ステップＳＴ７に移行する。音声特徴データと物体特徴データとの一致度が一致閾値以下の場合には、マイクセンサ２１によって音声データを取得した時点では、当該音声データを出力した物体はカメラセンサ２２によって撮像されていないことになる。この場合、上述したように、情報処理装置１の処理は想起フェーズに入る。

　次に、想起フェーズとしてのステップＳＴ７において、情報処理装置１の制御部５は、音声特徴データに基づいてイベントを想起する。具体的に、制御部５の学習想起部５７は、取得した音声特徴データに基づいて、イベントＤＢ４６に格納されたイベント情報を索出する。なお、学習想起部５７は、取得した物体特徴データに基づいてイベント情報を索出してもよい。イベントＤＢ４６には、例えば図７に示すようなイベントＩＤに関連付けされたイベント特徴ＩＤとイベントメタ情報とが格納されている。

　続いて、ステップＳＴ８において学習想起部５７は、索出したイベント情報に含まれる音声特徴データと、取得した音声特徴データとの類似度が、所定の想起閾値を超えたイベント情報が存在するか否かを判定する。学習想起部５７が、取得した音声特徴データとの類似度が想起閾値を超えた音声特徴データを含む、イベント情報が存在すると判定した場合（ステップＳＴ８：Ｙｅｓ）、ステップＳＴ９に移行する。以下の説明では、例えば取得した音声特徴データが「ＥＡ００１５」である場合を例にする。

　ステップＳＴ９において制御部５は、該当するイベントのイベントメタ情報を出力する。具体的に、学習想起部５７は、まず音声特徴データ「ＥＡ００１５」を含むイベント特徴データ「Ｅ００１」（図６参照）を索出し、図７に示すイベントＩＤ「００１」のイベント情報を索出する。次に、学習想起部５７は、索出したイベントＩＤ「００１」のイベント情報に含まれるイベントメタ情報「ＥＭ００１」を読み出す。学習想起部５７は、読み出したイベントメタ情報「ＥＭ００１」を想起イベントメタ情報４８として、行動計画制御部５８に出力する。以上により、情報処理装置１が実行する想起フェーズが終了する。

　想起イベントメタ情報４８が入力された行動計画制御部５８は、想起イベントメタ情報４８に含まれる位置情報に基づいた行動計画を実行して、駆動部６を制御する。その結果、情報処理装置１は、想起イベントメタ情報４８に含まれる位置情報に示す場所に移動する。

　他方、ステップＳＴ８において、学習想起部５７が、取得した音声特徴データとの類似度が想起閾値を超えた音声特徴データを含む、イベント情報が存在しないと判定した場合（ステップＳＴ８：Ｎｏ）、情報処理装置１が実行する想起フェーズが終了する。

［実施例］
　次に、実施形態による情報処理装置１の具体的な実施例について説明する。本実施例においては、住宅Ｈに夫や父親が帰宅した場合を例に説明する。まず、事前の準備として、図１０に示すように、情報処理装置１の空間位置情報取得部５５が、デプスセンサ２３によって検出される深度情報に基づいて、例えばVisualＳＬＡＭによって、所定エリア（住宅Ｈ内）のマップを作成する。この場合、音声を発する例えばドアＤの位置などもマップ情報に含められる。作成したマップは、イベントメタ情報のベースとなるマップ情報として、記憶部４のイベントメタ情報ＤＢ４４に記憶される。これにより、情報処理装置１は、常に起点からの自らの位置を推定することが可能になる。

　また、図１１に示すように、情報処理装置１の物体特徴抽出部５３が、カメラセンサ２２によって住宅Ｈの住人などの人物や物体を検出する。検出された物体１０２，１０３，１０４は、物体特徴データに変換されて記憶部４の物体特徴ＤＢに格納される。物体特徴抽出部５３による物体の検出や識別は、ブースティング法、ニューラルネットワーク、隠れマルコフモデル（Hidden　Markov　Model：ＨＭＭ）法などの公知の機械学習やパターン認識技術を利用して実現できる。

　その後、図１に示すように、住宅Ｈの住人が外から帰宅して玄関のドアＤを開ける際に、ドアＤにおいて音声が発生する。音声は例えば、玄関のドアＤの開閉音や帰宅した住人の発する声などである。情報処理装置１は、ドアＤにおいて発生した音声を音声データとして取得する。住人がドアＤを開けた時点で略同時に、情報処理装置１が音声の発生状況を映像データとして撮像可能な場合、制御部５は映像データと音声データとの一致度が高いと判定する。この場合、情報処理装置１の処理は、上述した学習フェーズに移行する。

　一方、図２に示すように、住人が玄関のドアＤを開けた時点で、情報処理装置１が音声の発生状況を映像データとして撮像不能な場合がある。この場合、情報処理装置１は、情報処理装置１の制御部５は、映像データと音声データとの一致度が低いと判定して、想起フェーズに移行する。想起フェーズに移行すると、情報処理装置１は、入力された音声データに基づいて、イベント情報を索出して、想起イベントメタ情報４８を読み出す。情報処理装置１は、読み出した想起イベントメタ情報４８に基づいて行動計画を実行して、想起イベントメタ情報４８に含まれる位置情報の示す位置まで移動する。これにより、情報処理装置１が、発生した音声に反応して帰宅した住人を出迎える状況を演出できる。

　本実施例においては、情報処理装置１が取得した音声データに基づいて、同様の音声データを含むイベント情報を索出し、関連付けされたイベントメタ情報に基づいた位置に移動しているが、取得した映像データに基づいてもよい。例えば、雷の光を映像データとして取得した情報処理装置１が、同様の映像データに基づいた物体特徴データを含むイベント情報を索出し、関連付けされたイベントメタ情報に基づいた位置に移動するようにしてもよい。

　なお、上述したように、移動型ロボットからなる情報処理装置１は、イベントＤＢ４６に格納されていないイベント情報を新たに生成できるのは、互いに対応する音声データと映像データとを略同時に取得して学習フェーズに移行した場合に限られる。この場合、イベント情報を生成するのは偶然に依存してしまう。そこで、互いに関連する音声データと映像データとを同時に取得しやすくするために、種々の方法を採用することができる。上述した実施例において、例えば、玄関のドアＤの位置がマッピングされていない場合などは、住人が所持する携帯端末装置にインストールされたアプリと携帯端末装置が備えるＧＰＳ情報とを連携させてもよい。まず、携帯端末装置のアプリによって、住人に移動型ロボットに関する情報を通知できたり、住人の位置情報を移動型ロボットに送信できたりするように設定する。そして、住人が住宅Ｈに近づいたら、移動型ロボットをランダムな場所まで移動させて待機するように制御する。また、住宅Ｈに住人がいない状況の場合、その都度、異なる場所で待機するようにしてもよい。また、マイクセンサ２１に対してビームフォーミングを利用して、音が鳴った方向に移動する行動計画を追加しておいてもよい。さらに、携帯端末装置のアプリによって、外出していない住人に帰宅する住人を、移動型ロボットと一緒に出迎えるように仕向けてもよい。

［変形例］
　次に、上述した実施例の変形例について説明する。図１２は、本開示の変形例によるイベントＤＢの具体例を示す図である。図１３Ａと、図１３Ｂおよび図１３Ｃとはそれぞれ、本開示の変形例による情報処理方法、および情報処理装置の移動の具体例を示す図である。ここで、変形例による情報処理装置１Ａは、例えば家庭用電器（以下、家電）を操作する移動型ロボットである。

　図１２に示すように、変形例においては、記憶部４のイベントＤＢ４６にそれぞれの家電の物体特徴データおよび音声特徴データのイベント特徴データが、それらの家電が配置された位置情報を含むイベントメタ情報と関連付けられて格納されている。図１２に示す例では、例えば湯沸かし器、食器洗浄機、および電子レンジに対応してそれぞれ、イベントＩＤ「０１０」，「０１１」，「０１２」が設定されて、イベントＤＢ４６に格納されている。具体的に、例えば電子レンジは、イベントＩＤ「０１０」、イベント特徴ＩＤ「Ｅ０１２」、物体特徴データ「ＥＢ０１２」、音声特徴データ「ＥＡ００５０」、イベントメタ情報「ＥＭ０１２」が互いに関連付けられて、イベントＤＢ４６に格納されている。

　以上のように情報処理装置１Ａの記憶部４にイベント情報が格納された状態で、図１３Ａに示すように、例えば家電が発した情報処理装置１Ａが取得する。情報処理装置１Ａは、取得した音声データから音声特徴データを抽出して、抽出した音声特徴データとの類似度が高い音声特徴データを索出し、当該音声特徴データに関連付けられたイベントメタ情報を索出する。図１３Ａに示す例では、取得し抽出した音声特徴データとの類似度が高い音声特徴データ「ＥＡ００５０」を索出して、関連付けられたイベントメタ情報「ＥＭ０１２」を索出する。これにより、情報処理装置１Ａは家電である電子レンジの位置を認識できる。情報処理装置１Ａは、索出したイベントメタ情報「ＥＭ０１２」に含まれる位置情報に基づいて、図１３Ｂに示す位置から図１３Ｃに示す位置まで移動して、家電の操作を行う。

［変形例の概要］
　ところで、上述した実施形態では、情報処理装置１，１Ａは、所定エリア（住宅Ｈ）に配置される場合について説明したが、これに限定されるものではない。例えば、情報処理装置１をサーバ装置として構成することも可能である。

　図１４は、変形例に係る情報処理装置３００の模式図である。なお、図１４では、情報処理装置３００を簡略化して示す。図１４に示すように、変形例による情報処理装置３００は、サーバ装置であって、イベントメタ情報ＤＢ１４４、イベント特徴ＤＢ１４５、およびイベントＤＢ１４６を備える。

　情報処理装置３００は、例えば、ペット型ロボット４００から送信される環境情報のセンシング結果として、音声データおよび映像データを受信する。ペット型ロボット４００は、センサ部２と、入力された位置情報で指定された位置まで移動可能な駆動部６と、駆動部６を駆動させる駆動制御部とを備える。情報処理装置３００は、イベントメタ情報ＤＢに格納されたイベントメタ情報と、イベント特徴ＤＢ１４５に格納されたイベント特徴データとに基づいて、ペット型ロボット４００の行動を制御する。情報処理装置３００は、受信した音声データまたは映像データに基づいて、ペット型ロボット４００が移動すべき位置情報を送信する。位置情報を受信したペット型ロボット４００は、受信した位置情報の含まれる位置まで移動する。なお、情報処理装置３００が、ペット型ロボット４００からセンシング結果を受信する場合について説明したが、必ずしもこれに限定されない。

　さらに、情報処理装置３００とユーザが所持する携帯端末装置５００とを通信可能にして、携帯端末装置５００によって、ペット型ロボット４００の移動を制御可能にしても良い。

［その他の変形例］
　ところで、上述した実施形態では、所定エリアを住宅Ｈとして説明したが、これに限定されるものではなく、任意のエリアを所定エリアとして設定することが可能である。

　上述した各実施形態に係る情報処理装置、ＨＭＤ、コントローラ等の情報機器は、例えば図１５に示すような構成のコンピュータ１０００によって実現される。以下、実施形態に係る情報処理装置１を例に挙げて説明する。図１５は、情報処理装置１の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、および入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係るプログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る情報処理装置１として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、空間位置情報取得部５５等の機能を実現する。また、ＨＤＤ１４００には、本開示に係るプログラムや、記憶部４内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　これまで、移動型ロボットなどの情報処理装置は、画像と音声の両方を空間情報と結び付けて想起できなかったり、入力される情報に制限があったりことによる、住宅Ｈ内などの環境での利用が困難であった。これに対し、以上説明した実施形態によれば、画像データと音声データとの両方を空間情報と結び付けて、それぞれ相互に想起可能な状態で記憶させることができる。これにより、音声データのみまたは映像データのみを取得することで、他の全ての情報、具体的には音声データ、画像データ、およびイベントメタ情報を索出し、移動型ロボットの行動制御に利用できる。また、移動型ロボットなどの情報処理装置１，１Ａが、映像データを取得できない環境下であっても、音声データを取得可能な状況であれば、イベントが発生する場所に移動できる。同様に、移動型ロボットなどの情報処理装置１，１Ａが、音声データを取得できない環境下であっても、映像データを取得可能な状況であれば、イベントの発生する場所に移動できる。さらに、音声データと映像データとを同時に取得できるタイミングで、イベント情報を登録したり持続的に更新したりしているので、情報処理装置１，１Ａを環境の変化に対して頑健に動作させることができる。また、住宅Ｈ内の物体などの環境は時々刻々と変化することから、音声データと映像データとを同時に取得したタイミングで学習フェーズに移行することによって、次回以降も環境の変化に対応させて動作できる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　所定エリアの環境情報をセンシングするセンサ部と、
　所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部と、
　前記センサ部によるセンシング結果に基づいて、前記記憶部から前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を取得する制御部と、
　を備える情報処理装置。
（２）
　前記制御部は、
　前記センサ部によってセンシングされたセンシング結果と、前記記憶部に記憶された前記イベント特徴データとの類似度を判定し、
　前記類似度が所定の想起閾値を超えた場合に、前記記憶部から前記想起閾値を超えたイベント特徴データを含むイベント情報を索出する
　前記（１）に記載の情報処理装置。
（３）
　前記イベント特徴データが、前記センサ部によってセンシング可能な物体から得られる物体特徴データと、前記センサ部によってセンシング可能な音声から得られる音声特徴データとを含む
　前記（１）または（２）に記載の情報処理装置。
（４）
　前記制御部は、
　前記センサ部によってセンシングされた音声から得られる音声特徴データに基づいて、前記音声特徴データとの類似度が所定の想起閾値を超えた音声特徴データを含むイベント情報を前記記憶部から索出する
　前記（３）に記載の情報処理装置。
（５）
　前記制御部は、
　前記センサ部によってセンシングされた物体から得られる物体特徴データに基づいて、前記物体特徴データとの類似度が所定の想起閾値を超えた物体特徴データを含むイベント情報を前記記憶部から索出する
　前記（３）に記載の情報処理装置。
（６）
　前記物体特徴データは、前記センサ部によってセンシングされた物体の特徴量であり、
　前記音声特徴データは、前記センサ部によってセンシングされた物体から発せられた音声の特徴量である
　前記（３）～（５）のいずれか１項に記載の情報処理装置。
（７）
　筐体を移動させる駆動部を備えた移動型ロボットを制御可能に構成され、
　前記制御部は、
　前記取得した空間情報に基づいて行動計画を行い、前記行動計画に従って前記移動型ロボットを行動させる制御を行う
　前記（１）～（６）のいずれか１項に記載の情報処理装置。
（８）
　移動型ロボットである
　前記（１）～（７）のいずれか１項に記載の情報処理装置。
（９）
　コンピュータが、
　所定エリアの環境情報をセンシングするセンサ部によるセンシング結果に基づいて、所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部から、前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を出力する
　情報処理方法。
（１０）
　コンピュータを、
　所定エリアの環境情報をセンシングするセンサ部と、
　所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部と、
　前記センサ部によるセンシング結果に基づいて、前記記憶部から前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を出力する制御部と、
　として機能させる、プログラム。
（１１）
　所定エリアの環境情報をセンシングするセンサ部と、
　前記センサ部によるセンシング結果に基づいて得られた所定のイベントに関するイベント特徴データと、前記センシング結果に基づいて得られた前記所定のイベントの空間情報を含むメタ情報とを、互いに関連付けてイベント情報を生成する生成部と、
　を備える情報処理装置。
（１２）
　前記イベント特徴データは、前記センサ部によってセンシング可能な物体から得られる物体特徴データと、前記センサ部によってセンシング可能な音声から得られる音声特徴データとを含み、
　前記制御部は、
　前記センシング結果に基づいて得られた前記物体特徴データと前記音声特徴データとの一致度を判定し、
　前記一致度が所定の一致閾値を超えた場合に、前記生成部が前記イベント情報を生成する
　前記（１０）に記載の情報処理装置。
（１３）
　コンピュータが、
　所定エリアの環境情報をセンシングするセンサ部によるセンシング結果に基づいて得られた、所定のイベントに関するイベント特徴データと、前記センシング結果に基づいて得られた、前記所定のイベントの空間情報を含むメタ情報とを互いに関連付けてイベント情報を生成する
　情報処理方法。
（１４）
　コンピュータを、
　所定エリアの環境情報をセンシングするセンサ部と、
　前記センサ部によるセンシング結果に基づいて得られた所定のイベントに関するイベント特徴データと、前記センシング結果に基づいて得られた前記所定のイベントの空間情報を含むメタ情報とを、互いに関連付けてイベント情報を生成する生成部と、
　として機能させる、プログラム。

　　１，１Ａ，３００　情報処理装置
　　２　センサ部
　　３　通信部
　　４　記憶部
　　５　制御部
　　６　駆動部
　２１　マイクセンサ
　２２　カメラセンサ
　２３　デプスセンサ
　４１　音声特徴ＤＢ
　４２　物体マスクＤＢ
　４３　物体特徴ＤＢ
　４４，１４４　イベントメタ情報ＤＢ
　４５，１４５　イベント特徴ＤＢ
　４６，１４６　イベントＤＢ
　４７　閾値ＤＢ
　４８　想起イベントメタ情報
　５１　音声特徴抽出部
　５２　物体領域推定部
　５３　物体特徴抽出部
　５４　音源物体推定部
　５５　空間位置情報取得部
　５６　時刻情報取得部
　５７　学習想起部
　５８　行動計画制御部
　７０　特徴抽出部
　８０　イベントメタ情報取得部
　９０　イベントメモリ部

Claims

　所定エリアの環境情報をセンシングするセンサ部と、
　所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部と、
　前記センサ部によるセンシング結果に基づいて、前記記憶部から前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を取得する制御部と、
　を備える情報処理装置。
　前記制御部は、
　前記センサ部によってセンシングされたセンシング結果と、前記記憶部に記憶された前記イベント特徴データとの類似度を判定し、
　前記類似度が所定の想起閾値を超えた場合に、前記記憶部から前記想起閾値を超えたイベント特徴データを含むイベント情報を索出する
　請求項１に記載の情報処理装置。
　前記イベント特徴データが、前記センサ部によってセンシング可能な物体から得られる物体特徴データと、前記センサ部によってセンシング可能な音声から得られる音声特徴データとを含む
　請求項１に記載の情報処理装置。
　前記制御部は、
　前記センサ部によってセンシングされた音声から得られる音声特徴データに基づいて、前記音声特徴データとの類似度が所定の想起閾値を超えた音声特徴データを含むイベント情報を前記記憶部から索出する
　請求項３に記載の情報処理装置。
　前記制御部は、
　前記センサ部によってセンシングされた物体から得られる物体特徴データに基づいて、前記物体特徴データとの類似度が所定の想起閾値を超えた物体特徴データを含むイベント情報を前記記憶部から索出する
　請求項３に記載の情報処理装置。
　前記物体特徴データは、前記センサ部によってセンシングされた物体の特徴量であり、
　前記音声特徴データは、前記センサ部によってセンシングされた物体から発せられた音声の特徴量である
　請求項３に記載の情報処理装置。
　筐体を移動させる駆動部を備えた移動型ロボットを制御可能に構成され、
　前記制御部は、
　前記取得した空間情報に基づいて行動計画を行い、前記行動計画に従って前記移動型ロボットを行動させる制御を行う
　請求項１に記載の情報処理装置。
　移動型ロボットである
　請求項１に記載の情報処理装置。
　コンピュータが、
　所定エリアの環境情報をセンシングするセンサ部によるセンシング結果に基づいて、所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部から、前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を出力する
　情報処理方法。
　コンピュータを、
　所定エリアの環境情報をセンシングするセンサ部と、
　所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部と、
　前記センサ部によるセンシング結果に基づいて、前記記憶部から前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を出力する制御部と、
　として機能させる、プログラム。
　所定エリアの環境情報をセンシングするセンサ部と、
　前記センサ部によるセンシング結果に基づいて得られた所定のイベントに関するイベント特徴データと、前記センシング結果に基づいて得られた前記所定のイベントの空間情報を含むメタ情報とを、互いに関連付けてイベント情報を生成する生成部と、
　を備える情報処理装置。
　コンピュータが、
　所定エリアの環境情報をセンシングするセンサ部によるセンシング結果に基づいて得られた、所定のイベントに関するイベント特徴データと、前記センシング結果に基づいて得られた、前記所定のイベントの空間情報を含むメタ情報とを互いに関連付けてイベント情報を生成する
　情報処理方法。
　コンピュータを、
　所定エリアの環境情報をセンシングするセンサ部と、
　前記センサ部によるセンシング結果に基づいて得られた所定のイベントに関するイベント特徴データと、前記センシング結果に基づいて得られた前記所定のイベントの空間情報を含むメタ情報とを、互いに関連付けてイベント情報を生成する生成部と、
　として機能させる、プログラム。