JPWO2019239738A1

JPWO2019239738A1 - 情報処理装置、情報処理方法

Info

Publication number: JPWO2019239738A1
Application number: JP2020525326A
Authority: JP
Inventors: 山本　和典; 和典山本
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-06-12
Filing date: 2019-04-25
Publication date: 2021-07-15
Also published as: EP3809712A4; EP3809712A1; US20210208550A1; KR20210019424A; WO2019239738A1

Abstract

ユーザの機器の操作について操作対象の指定が曖昧な場合においても操作の対象となる機器の特定を行うことが可能な技術を提供する。ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、操作対象の被制御機器を特定する指示認識部と、前記指示認識部が認識した指示内容に応じた制御信号を生成し、前記指示認識部が特定した被制御機器に送信する指示送信部と、を備える情報処理装置である。

Description

本技術は情報処理装置、情報処理方法に関し、特に機器制御についての技術分野に関する。

環境内の様々な機器の動作を制御する装置において、ユーザから入力されたコマンドに応じて、環境内の機器の動作を制御する技術が知られている。例えば、特許文献１では、ユーザが当該装置に音声による指示を入力することで、環境内の機器の動作を制御する技術が開示されている。

特開２０１７−１２３５６４号公報

ところで、ユーザが、例えば音声によって当該装置に機器の操作を依頼する場合においては、「あの機器を操作して」など機器の対象が曖昧な表現で操作依頼が入力されることが少なくない。
そこで本開示では、ユーザの機器の操作について操作対象の指定が曖昧な場合においても操作の対象となる機器の特定を行うことが可能な技術を提供する。

本技術に係る情報処理装置は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識部と、前記指示認識部が認識した指示内容に応じた制御信号を生成し、前記指示認識部が特定した被制御機器に送信する指示送信部と、を備える。
これにより、複数の被制御機器のうちの特定の被制御機器について、ユーザの音声により入力された指示内容を反映させた制御を実行することができる。また、ユーザの挙動による指示内容についてを反映させた制御についても実行することができる。
また、音声及び挙動による操作を示す音声データ及び画像データの両方を解析することで、音声データと画像データの不明確な部分を補完し、ユーザからの操作指示内容がより正確に反映される。また操作対象となる被制御機器の特定の精度も向上する。

上記した本技術に係る情報処理装置において、前記指示送信部は、被制御機器の識別情報とアドレス情報を対応させて記憶した記憶部を参照して、操作対象と特定された被制御機器の識別情報に対応するアドレス情報を取得し、該アドレス情報を用いて前記制御信号を送信することが考えられる。
これにより、操作対象となる被制御機器の識別情報を取得することができれば、当該被制御機器にユーザの操作が示す指示内容に応じた制御信号を被制御機器に送信することができる。

上記した本技術に係る情報処理装置において、前記指示認識部は、前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、当該位置又は方向に配置された被制御機器からの送信信号を受信することで取得することが考えられる。
つまり情報処理装置は、画像データに表れる被制御機器を指し示す等のユーザのジェスチャを解析することで操作対象となる被制御機器を特定し、当該特定された被制御機器からの送信信号を受信することで識別情報を取得する。そして情報処理装置は、当該識別情報に対応するアドレスにユーザの指示内容に応じた制御信号を被制御機器に送信することで、ユーザの指示内容を反映させた被制御機器の操作を実現する。

上記した本技術に係る情報処理装置において、前記指示認識部は、前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、当該位置又は方向に配置された被制御機器の画像データから取得することが考えられる。
例えば、操作対象となる被制御機器に印刷されたＱＲコード（登録商標）を情報処理装置に内蔵された撮像装置等により画像データとして取得し、それを解析することで当該被制御機器の識別情報を取得する。

上記した本技術に係る情報処理装置において、前記指示認識部は、特定の被制御機器に信号送信を指示し、その受信により、当該被制御機器の位置情報を判定し、識別情報に対応した位置情報としての記憶データが形成されるようにすることが考えられる。
識別情報に対応した位置情報としての記憶データを形成しておくことで、画像データの解析等によりユーザのジェスチャ等が指し示す位置情報を取得すれば、その位置情報の周辺にある被制御機器の識別情報を操作対象のものとして取得することができる。

上記した本技術に係る情報処理装置において、前記指示認識部は、前記操作情報としての音声データに表れるユーザの発話により指定される位置に配置された被制御機器を、操作対象の被制御機器と特定することが考えられる。
ユーザの発話が位置を特定するのに十分な情報を含んでいる場合は、その音声データを解析することで、ユーザの被制御機器の位置を特定するためのジェスチャの有無等に関わらず操作対象となる被制御機器として特定することが可能となる。

上記した本技術に係る情報処理装置において、前記指示認識部は、前記操作情報としての画像データに表れるユーザの挙動により指定される位置の空間内座標を算出し、当該空間内座標に位置する被制御機器を、操作対象の被制御機器と特定することが考えられる。
これにより、ユーザにより指定される位置を空間内座標の値として算出することで、指定位置を具体的な数値として把握することができる。

上記した本技術に係る情報処理装置において、前記指示認識部は、複数の被制御機器に順次信号送信を指示することで、その受信により、各被制御機器の位置情報を判定し、ユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器を特定することが考えられる。
複数の被制御機器に順次信号送信を指示することで、信号を受信する際に他の被制御機器からの信号と混同することがなくなり、操作対象となる被制御機器を明確に特定できる。

上記した本技術に係る情報処理装置において、前記指示認識部は、音声データを解析して操作対象の被制御機器を特定できなかった場合、画像データを解析して操作対象の被制御機器を特定することが考えられる。
つまり、音声データの解析により被制御機器を特定できる場合は、画像データの解析処理を省略することができる。

本技術に係る他の情報処理装置は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理で認識された指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信部と、前記通信部が受信した前記制御信号により動作の制御を行う機器制御部と、を備える。

本技術に係る情報処理方法は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理と、を情報処理装置が実行する情報処理方法である。
本技術に係る他の情報処理方法は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに操作対象の被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信処理と、前記通信処理により受信した前記制御信号により動作の制御を行う機器制御処理と、を情報処理装置が実行する情報処理方法である。

本技術によれば、対象となる機器の特定が曖昧な操作依頼であっても、操作対象となる機器を特定する精度を向上させることができるため、ユーザにとって機器の快適な操作環境を実現することができる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果と共に、又は上記の効果に代えて、本開示に示されたいずれかの効果、又は本開示から把握され得る他の効果が奏されてもよい。

本技術の実施の形態のシステム構成例の説明図である。実施の形態のシステム構成例の変形例の説明図である。実施の形態のデータベースの説明図である。実施の形態のコンピュータ装置のブロック図である。実施の形態のエージェントシステムの概要の説明図である。実施の形態のエージェントシステムの概要の説明図である。第１の実施の形態のシステム全体の処理のフローチャートである。第１の実施の形態の対象機器判定処理のフローチャートである。第２の実施の形態のシステム全体の処理のフローチャートである。第２の実施の形態の対象機器判定処理のフローチャートである。第３の実施の形態の対象機器判定処理のフローチャートである。

以下、実施の形態を次の順序で説明する。
＜１．システム構成＞
＜２．エージェント装置の機能構成＞
＜３．エージェントシステムの概要＞
＜４．第１の実施の形態の処理＞
＜５．第２の実施の形態の処理＞
＜６．第３の実施の形態の処理＞
＜７．まとめ及び変形例＞

＜１．システム構成＞
まず実施の形態としてエージェント装置１を含むシステム構成例を説明する。図１及び図２に実施の形態のネットワークシステムの構成例を示す。
本実施の形態では、ユーザがエージェント装置１にコマンドを入力することで、操作対象機器２（操作対象となる被制御機器のことをいう。）の操作を実現するエージェントシステムである。実施の形態では操作対象機器２が複数設けられており、ユーザの指示に応じて、エージェント装置１は複数の操作対象機器２から操作対象となる機器を選択し、選択した当該機器の操作を実現する。
また本実施の形態において、ユーザとは当該エージェントシステムを利用する者をいう。

また実施の形態のエージェント装置１とは、情報処理装置により構成され、操作対象機器２に対して、ユーザからの指示に応じた制御もしくは制御のための情報の供給を行う装置である。
より具体的にはエージェント装置１は、マイクロフォンで収音した周囲の音声、撮像装置で撮像した周囲の撮像画像、その他各種のセンシング機器による周囲の検出信号を入力する。そして入力された信号に基づいて、ユーザの操作指示内容を認識し、それらに応じて照明装置等の操作対象機器２を制御可能な装置である。
なお、エージェント装置１は、指示を行うユーザの周辺機器であれば、様々な機器により実現できる。例えば、パーソナルコンピュータ装置、端末装置、タブレット、給湯操作機器、家電機器のリモートコントローラ、冷蔵庫等、各種の装置がエージェント装置１として機能してもよい。

また実施の形態では操作対象機器２の例として照明装置２を用いて説明する。以下、操作対象機器２のことは照明装置２とも表記する。もちろん照明装置２であることは一例で、例えばテレビジョン装置、オーディオ装置、給湯操作機器、冷蔵庫、エアコンディショナー機器、対話装置、ロボット、パーソナルコンピュータ装置、端末装置、タブレット等、各種の装置がエージェント装置１と連携する操作対象機器２として想定される。実施の形態の説明における照明装置２の動作はこれら各種の操作対象機器２においても同様に適用できる。

図１に示すように、このようなエージェント装置１と操作対象機器２は、ネットワークＮＷを介して互いに通信可能とされている。
ネットワークＮＷは、エージェント装置１がシステム外機器と通信可能な伝送路であればよく、例えばインターネット、ＬＡＮ（Local Area Network）、ＶＰＮ（Virtual Private Network：仮想専用網）、イントラネット、エキストラネット、衛星通信網、ＣＡＴＶ（Community Antenna TeleVision）通信網、電話回線網、移動体通信網等の各種の形態が想定される。

エージェント装置１は、操作対象機器２とは別体の機器とされている。またエージェント装置１にはセンシング機器１０が内蔵されている例としている。
センシング機器１０としては、例えばマイクロフォン、撮像装置（カメラ）、接触センサ、荷重センサ、照度センサ、赤外線センサ、加速度センサ、角速度センサ、レーザセンサ、その他あらゆるセンサが想定される。
ここではセンシング機器１０がエージェント装置１に内蔵される例としているが、もちろんセンシング機器１０がエージェント装置１とは別体の機器とされていてもよい。
さらにはセンシング機器１０としては、スマートフォンやウェアラブルデバイス等の機器に内蔵されたセンシングデバイスを想定することもできる。その場合、図１の構成例に沿えば、スマートフォンやウェアラブルデバイス自体がエージェント装置１となることも考えられる。

エージェント装置１は、複数設けられている操作対象機器２のそれぞれの識別情報等をネットワークＮＷを通じてあらかじめ取得しておく。そして、センシング機器１０から得られる音声データや画像データ等を解析することで、ユーザからの操作対象機器２への操作指示内容や操作対象となる操作対象機器２の特定を行う。その後、エージェント装置１は、各操作対象機器２に設定されているネットワークアドレスであるＩＰアドレス（Internet Protocol address）を用いて、特定した操作対象機器２へ当該操作指示を実行する。

図２Ａは、エージェント装置１、操作対象機器２、センシング機器１０がそれぞれ別体とされ、操作対象機器２が複数設けられている例を示している。
また図２Ｂは、上記に加え別体としてセンシング機器１０が複数設けられている例を示している。これによれば、複数のセンシング機器１０を設置しておくことで、操作対象機器２からの赤外線通信等による識別情報の取得やユーザからの音声入力や動作入力を取得することが可能となる。また、別室等の異なる空間に操作対象機器２がそれぞれ設置されている場合であっても、それぞれの室内にセンシング機器１０を設置することで、それぞれの室内からユーザが操作を依頼することができる。また、異なる室内に設置されている操作対象機器２の識別情報及びＩＰアドレスを取得することができる。

また図２Ｃに示すように、複数のエージェント装置１によりエージェントシステムを構成することもできる。図示するようにエージェント装置１にセンシング機器１０を内蔵する構成としてもよい。また或るエージェント装置１が設けられた空間に操作対象機器２が一つしかないことも考えられる。

以上の各構成はそれぞれ一例に過ぎず、実際のエージェント装置１、操作対象機器２、センシング機器１０の構成の態様は他にも各種考えられる。

＜２．エージェント装置の機能構成＞
図１に戻りエージェント装置１、照明装置２（操作対象機器２）の構成例を説明する。
図１はエージェント装置１のブロック図を示している。実施の形態では一例として、エージェント装置１にセンシング機器１０が内蔵されている例について説明する。
エージェント装置１はセンシング機器１０、通信インタフェース２０、メモリ部３０、制御部４０を備える。

センシング機器１０としては、ここではマイクロフォン１１、撮像部１２、情報受信部１３、音声入力部１４、撮像信号処理部１５、デコーダ１６を示している。
周囲音声はマイクロフォン１１で集音され、音声信号として出力される。このマイクロフォン１１で得られた音声信号は音声入力部１４で増幅処理やフィルタ処理、さらにはＡ／Ｄ変換処理等が施されてデジタル音声信号として制御部４０に供給される。

撮像部１２によっては周囲が撮像される。撮像部１２におけるイメージャによって得られた撮像信号は撮像信号処理部１５で必要な処理が施され、フレーム単位の画像データとして制御部４０に供給される。撮像部１２は、周囲の空間座標を把握するために複数の撮像装置を用いてもよい。
制御部４０は、このようなセンシング機器１０により周囲音声の音声信号及び周囲光景の画像信号が、常時（例えば電源オン時）継続的に又は間欠的に、入力される。

情報受信部１３は例えば赤外線センサであり、後述する照明装置２の情報送信部６０から発信される識別情報を有する赤外線を受信する。受信した赤外線は、デコーダ１６により復調信号からの赤外線データのデコードが行われ、照明装置２ごとの識別情報として制御部４０に供給される。
ここで、情報送信部６０から発信される赤外線は指向性の高いものが望ましい。これは情報受信部１３が複数の操作対象機器２から赤外線を受信した場合、当該赤外線がどの方向から送信されてきたかにより、どの操作対象機器２から発信された赤外線かを区別するためである。またエージェント装置１は、情報受信部１３（情報受信部１３が内蔵された撮像部１２であってもよい。）を旋回させることで、受信が可能となる情報受信部１３の角度から各操作対象機器２の方向を判定することができる。

なお、照明装置２の識別情報をエージェント装置１の情報受信部１３に送信する通信手段は赤外線に限られず、照明装置２から発信されていることがわかる指向性の高いものであれば様々な手法が適用できる。例えば操作対象機器２が常時発光しているものであれば、可視光通信などを使用することも考えられる。操作対象機器２を設置した場所の壁面や床に振動センサが埋め込まれているような環境であれば微細な振動により識別情報を送信してもよい。また磁気センサが埋め込まれている環境であれば、電磁気により通信することも可能である。
また、操作対象機器２の識別情報をエージェント装置１が取得する手法として、撮像部１２を用いることも考えられる。この場合、例えば操作対象機器２の表面にはＱＲコード（登録商標）等を印刷することで識別情報が埋め込まれる。エージェント装置１は、撮像部１２により当該コードの画像データを取得し、撮像信号処理部１５で必要な処理が施された後、制御部４０で当該画像データを解析することで各操作対象機器２の識別情報を取得することができる。

通信インタフェース２０はエージェント装置１と照明装置２との間でネットワークＮＷを介して通信を行う部位である。エージェント装置１は、照明装置２の識別情報及びＩＰアドレスを照明装置２から受信する。またエージェント装置１は、照明装置２を操作するための情報を照明装置２に送信する。

メモリ部３０は制御部４０が演算処理に必要なワーク領域を提供したり、演算処理に用いる係数、データ、テーブル、データベース等を記憶する。以下、「データベース」を「ＤＢ（Database）」とも表記する。ＤＢの詳細については後述する。

制御部４０は例えばマイクロコンピュータ等の情報処置装置により構成される。
この制御部４０は識別情報記憶部４１、操作情報取得部４２、指示認識部４３、指示送信部４４としての機能を備える。これらの機能は例えばマイクロコンピュータ等の処理を規定するソフトウェアによって発現される。これらの機能に基づいて制御部４０が実行する処理について詳しくは後述する。

識別情報記憶部４１は、ネットワークＮＷを介して照明装置２の識別情報及びＩＰアドレス情報を取得する。そして識別情報記憶部４１は、識別情報に対応付けたＩＰアドレス情報をメモリ部３０のＤＢ等に記憶する。これにより、エージェント装置１により操作に関する指示内容情報を照明装置２に送信する際に、送信対象となる照明装置２を特定することができる。

操作情報取得部４２は、ユーザの音声及び挙動による操作を示す音声データ及び画像データとしての操作情報をセンシング機器１０から取得する。また操作情報取得部４２は、センシング機器１０から照明装置２の識別情報を取得する。
具体的には操作情報取得部４２は、マイクロフォン１１で集音した周囲の音声、撮像部１２で撮像した周囲の撮像画像、情報受信部１３で受信した赤外線通信により受信した、その他各種のセンシング機器１０による周囲の検出信号を取得する。

指示認識部４３は、操作情報としての音声データ及び画像データを解析して、操作が示す指示内容を認識するとともに、操作対象の照明装置２を特定する。
指示認識部４３は、音声入力情報を解析し、ユーザからの入力情報の意図を解析する処理を行う。具体的には音声認識によりユーザの操作対象機器の操作に関する発話（操作に関する用語）を理解し、設定をユーザの意思に沿って変更できるようにする。
例えば「照明をつけて」という発話を、操作対象機器である照明装置２に照明の点灯を実行させる言葉と理解する。このためには、例えばメモリ部３０には各種の操作に関する多様な言葉が記憶されるようにしておき、その照合によりユーザの意図が正しく理解できるようにする。
具体的には例えば照明装置２について「照明をつけて」「照明のスイッチをオンにして」「照明を消して」「明るくして」「暗くして」・・・など多様な言葉が、それぞれ照明装置２の点灯を指示する言葉として認識できるように、１つの設定操作を表現する多くの言葉が記憶されたテーブルを持つようにする。
また照明装置２について「この部屋の照明をつけて」「窓際の照明を消して」「テレビの側を暗くして」・・・などの複数ある照明装置２から或る照明装置２を特定するための「この部屋」「窓際」「テレビの側」・・・などの言葉が、それぞれ照明装置２を特定する言葉として認識できるように、各照明装置２の位置、状態を表現する多くの言葉が記憶されたテーブルを有していてもよい。
指示認識部４３は操作依頼者の発話とこれらのテーブルを照合して、ユーザの照明装置２に対する指示内容やユーザが操作を希望する対象の照明装置２を判定する。

指示認識部４３は、撮像部１２によるセンシング情報を解析することで、ユーザの動作を読み取ることにより、ユーザからの入力情報の意図を解析する処理を行う。具体的には画像解析によりユーザの照明装置２の操作に関するジェスチャ（操作に関する動作）を理解し、設定をユーザの意思に沿って変更できるようにする。
例えば、ユーザの手又は指の、動き又は形状を、照明装置２を点灯させる動作と理解する。また、ユーザの手又は指の示す方向からユーザが操作対象とする照明装置２を選択する動作と理解する。このためには、例えばメモリ部３０には各種の操作に関する多様な動作が記憶されるようにしておき、照合によりユーザの意図が正しく理解できるようにする。

また音声データと画像データの解析を組み合わせることで、ユーザの意図をより正確に理解することが可能となる。例えばユーザが照明装置２を指により方向を指し示すジェスチャと「あの照明をつけて」といった発話を行った場合、音声データを解析しただけでは「あの照明をつけて」の「あの」がどの方向を指しているかを認定することは難しい。そこで、ユーザが照明装置２を指さすジェスチャについて解析を行うことで指の方向から操作対象となる照明装置２を特定する。即ち、言葉として不明確な部分を画像により補完することができる。

また指示認識部４３は、上記のような音声データ及び画像データを解析することにより、操作対象として特定した照明装置２の識別情報を、例えば赤外線通信により情報受信部１３が受信することで取得する。

指示送信部４４は、指示認識部４３が解析した指示内容に応じた制御信号を生成し、指示認識部４３が特定した照明装置２に送信する。

次に実施の形態における操作対象機器２の一例として、照明装置２の構成について説明する。
照明装置２は、通信インタフェース５０、情報送信部６０、演算部７０、照明部８０を備える。

通信インタフェース５０は、エージェント装置１と照明装置２との間でネットワークＮＷを介して通信を行う部位である。
また情報送信部６０は、照明装置２の識別情報を赤外線通信を介して発信する部位である。情報送信部６０は、赤外線通信の発信を常に行っていてもよいし、ネットワークＮＷを介してエージェント装置１からの要求があったときのみ発信してもよい。

ここで演算部７０の機能構成について説明する。演算部７０は、例えばマイクロコンピュータ等により構成され、通信部７１と機器制御部７２が設けられている。
通信部７１は、通信インタフェース５０によりネットワークＮＷを介してエージェント装置１の制御部４０と通信可能とされている。これにより、演算部７０は、制御部４０から照明装置２についての操作内容についての情報を取得することができる。

機器制御部７２は、通信部７１がエージェント装置１から受信した操作制御指示に従って制御を行うことで、照明装置２において、エージェント装置１が設定した指示内容情報による様々な出力が実現される。例えば照明部８０についての点灯又は消灯を実行する。
また機器制御部７２は、情報送信部６０により赤外線通信を介した照明装置２の識別情報の発信を実行させる。

次に、これらの機能を備えたエージェント装置１の制御部４０が、操作対象となっている操作対象機器２を特定し、その操作対象機器に操作の指示内容情報を送信するために用いられるＤＢについて、図３を参照して説明する。エージェント装置１では、例えばメモリ部３０に各種ＤＢが記憶されている。
ＤＢは、例えば機器情報管理ＤＢ３１、位置情報管理ＤＢ３２等で構成されている。
もちろんこれ以外にもＤＢとして、実施の形態のエージェント装置１として機能するために必要なＤＢを含んで構成されていてもよい。

機器情報管理ＤＢ３１には、例えば図３Ａに示すように、操作対象機器２の識別情報である機器ＩＤ（Identification）と操作対象機器２に割り振られているＩＰアドレス等のアドレス情報が記憶されている。これにより、エージェント装置１は操作対象機器２の機器ＩＤさえ特定できれば、適切な操作対象機器２に操作に関する指示内容情報を送信することができる。

位置情報管理ＤＢ３２には、操作対象機器２の識別情報である機器ＩＤに対して、操作対象機器２を特定するために用いる位置情報が記憶されている。位置情報としては、例えば、撮像装置が撮像した画像データを解析することにより求められる各操作対象機器２の空間座標の値が記憶されている。
また位置情報には「テレビジョン装置の横」「机の上」「窓際」「室内にある」・・・等の空間内に配置されたものとの相対的な関係として記憶することもできる。この場合、エージェント装置１が撮像部１２から取得した画像データを解析することにより行う。
また位置情報として、操作対象機器２を解析したセンシング機器１０の識別情報を紐付けて記憶することもできる。これにより、例えばそれぞれの部屋ごとにセンシング機器１０が設置されている場合において、操作対象機器２をセンシング機器１０に対応付けておくことで、部屋単位で操作対象機器２の操作を行うことができる。

以上の各ＤＢは、エージェント装置１とは別のコンピュータ内（例えば、操作対象機器２等）に構築されていてもよいし、エージェント装置１内に構築されていてもよい。
また機器情報管理ＤＢ３１、位置情報管理ＤＢ３２は、エージェント装置１がアクセス可能であれば、どのような形態で実現されていてもよい。例えばエージェント装置１と同一システム内のメモリ部３０に各ＤＢのすべてが形成されていてもよいし、各ＤＢの一部又は全部が別体、遠隔地などのコンピュータシステムに設けられていてもよい。もちろん各ＤＢが一つの装置（例えば一つのＨＤＤなど）内に形成されている必要はない。また各ＤＢのそれぞれが、それぞれ１つのＤＢとして構成される必要もない。例えば、位置情報管理ＤＢ３２として記憶される情報が、機器情報管理ＤＢ３１により記憶管理されてもよい。実施の形態で説明する上記各ＤＢは、実施の形態の処理に関連する情報の記憶部を、それぞれ一つのＤＢの形態で例示したものに過ぎない。

以上に示したエージェント装置１、操作対象機器としての照明装置２を構成する情報処理装置のハードウェア構成を図４に示す。エージェント装置１、照明装置２として示す各装置は、情報処理及び情報通信が可能な図４に示すようなコンピュータ装置１７０として実現できる。

図４において、コンピュータ装置１７０のＣＰＵ（Central Processing Unit）１７１は、ＲＯＭ（Read Only Memory）１７２に記憶されているプログラム、または記憶部１７８からＲＡＭ（Random Access Memory）１７３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ１７３にはまた、ＣＰＵ１７１が各種の処理を実行する上において必要なデータなども適宜記憶される。
ＣＰＵ１７１、ＲＯＭ１７２、およびＲＡＭ１７３は、バス１７４を介して相互に接続されている。このバス１７４にはまた、入出力インタフェース１７５も接続されている。

入出力インタフェース１７５には、センシング機器１０、或いは操作子や操作デバイスよりなる入力装置１７６が接続される。
また入出力インタフェース１７５には、ＬＣＤ（Liquid Crystal Display）或いは有機ＥＬ（Electro-Luminescence）パネルなどよりなるディスプレイ、並びにスピーカなどよりなる出力装置１７７が接続される場合も考えられる。
入出力インタフェース１７５には、ハードディスクなどより構成される記憶部１７８、モデムなどより構成される通信部１７９が接続される場合もある。
通信部１７９は、ネットワークＮＷとして示したインターネット等の伝送路を介しての通信処理を行ったり、それぞれの装置間での有線／無線通信、バス通信などによる通信を行う。

入出力インタフェース１７５にはまた、必要に応じてドライブ１８０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１８１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部１７８にインストールされる。

上述したエージェント装置１の制御部４０、照明装置２の演算部７０の機能をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、ネットワークや記録媒体からインストールされるようにすることができる。
この記録媒体は、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク、光ディスク、光磁気ディスク、若しくは半導体メモリなどよりなるリムーバブルメディア１８１により構成される。或いは、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているＲＯＭ１７２や、記憶部１７８に含まれるハードディスクなどでも構成される。

以上のような構成によって、実施の形態のエージェントシステムを実現することが可能である。
なお、エージェント装置１や操作対象機器２は１又は複数の情報処理装置で構成される。また、エージェント装置１における制御部４０や操作対象機器２の演算部７０における各機能は、情報処理装置においてＣＰＵ１７１でプログラムに応じて実行される処理により実現される機能である。但し、以下説明する全部又は一部の各構成の処理をハードウェアにより実現してもよい。
また、各機能をソフトウェアで実現する場合に、各機能がそれぞれ独立したプログラムで実現される必要はない。一つのプログラムにより複数の機能の処理が実行されてもよいし、一つの機能が複数のプログラムモジュールの連携で実現されてもよい。また各機能は複数の情報処理装置に分散されていてもよい。さらに機能の一つが複数の情報処理装置によって実現されてもよい。

＜３．エージェントシステムの概要＞
本技術のエージェントシステムの概要について、図５及び図６を用いて説明する。
ここでは、環境の一例としてユーザが居住する家においてエージェントシステムを利用する場合について説明する。家には様々な操作対象機器２が存在する。
また、本エージェントシステムは、乗用車若しくはその他の乗り物、オフィス、店舗、教育施設、又は公共施設といった、他のいかなる環境において利用されてもよい。また、地理的に離れた複数の環境（例えば、家庭及び乗用車、又は家庭及びオフィスなど）を１つのエージェントシステムが統合的に扱ってもよい。

図５では、一例として操作対象機器としての照明装置２が３台、有線又は無線でネットワークＮＷに接続されている。またそれぞれの照明装置２は、エージェント装置１と互いにネットワークＮＷにより通信可能に接続されている。

ここで、ユーザが音声によってエージェント装置１に機器の操作を依頼するときに、例えば「照明を点けて」などの言い方によって指示する場合があるが、このような場合においては「全ての照明」或いは「どれかは特定できないが一つの照明」といった曖昧な内容で操作対象とする照明装置２を特定することとなる。ユーザが音声入力による指示に使用した一般名によって特定される操作対象機器２が一つしか存在しない場合は問題ないこともあるが、例えば「テレビの付近の照明だけ点けたい」といった依頼を反映させて操作対象機器２を特定することは困難である。

特定の操作対象機器２の操作をユーザの音声入力によりエージェント装置１に依頼するためには、事前にユーザが登録した、あるいはあらかじめ操作対象機器２に登録されていたコマンドや機能につける別名としてのエイリアス（名称）などを用いて指示を出すことで、操作対象機器２を特定する手法も存在する。
しかしながら、エイリアス等のあらかじめ決まった名称による操作では、その名称をあらかじめ知っているユーザしか操作を依頼できず、それを知らない他のユーザは操作対象機器２を特定することができない。またエイリアスを把握しているユーザであっても、登録される操作対象機器２の数が増えれば増えるほどエイリアスを覚える負担が増えてしまうことになる。

また、ユーザの音声や動作を解析することで操作対象機器２を特定した後に、特定した操作対象機器２に対してネットワークＮＷを介して制御を行わせるには、特定した操作対象機器２のＩＰアドレスを把握しておくことが必要である。

そこで本技術では、照明装置２はそれぞれ機器ＩＤ及びＩＰアドレスの情報をエージェント装置１に送信する手段を有しており、エージェント装置１は、そこから得た情報に基づいて各照明装置２の機器ＩＤとＩＰアドレスが紐付けられた状態で、エージェント装置１の機器情報管理ＤＢ３１に記憶する。実施の形態では、例えば機器ＩＤ「ＡＢＣ」「ＥＦＧ」「ＸＹＺ」のそれぞれに対してＩＰアドレスが紐付けられて記憶されている。

上記のような状況が整った環境において、ユーザは特定の照明装置２のみを点灯させるために、「あの照明を点けて」と発話するとともに、操作対象となる照明装置２を指によるジェスチャによって示す。
この場合エージェント装置１は、音声入力から、ユーザが「あの」によって指定するものについて機能を有効にすること（点灯させること）を音声データを解析することで操作の指示内容を取得し、指さす方向を画像データから解析することで指さす方向に照明装置があることから「照明を点灯させる」要求ということを判定する。

操作対象として特定した照明装置２は赤外線により自身の機器ＩＤを周囲に発信する機能を有している。エージェント装置１は、受信した赤外線に埋め込まれたデータをデコードし、特定した照明装置２の機器ＩＤを取得する。そしてエージェント装置１は、機器情報管理ＤＢ３１から機器ＩＤに紐付けられたＩＰアドレスを取得し、取得したＩＰアドレスに対して照明を点灯させるコマンドを発行する。

照明装置２から赤外線を通じて取得した機器ＩＤとネットワークＮＷから取得した機器ＩＤの照合が行われることで、特定した照明装置２について操作を実行させることができる。即ち、エイリアスなどの決められた機器名称を用いずとも、指差しジェスチャなどによる直感的な機器特定を利用してエージェント装置１に照明装置２等の操作対象機器２の操作を依頼することができる。

また図６に示すように、特定領域内の照明装置２を一斉に操作することも可能である。
この場合、各照明装置２の機器ＩＤとＩＰアドレスが紐付けられた状態において、あらかじめ部屋（ｒｏｏｍＡ、ｒｏｏｍＢ）ごとに照明装置２の機器ＩＤを紐付けておく。
ユーザは、部屋ｒｏｏｍＢの照明を消すために「この部屋の照明を消して」と発話する。
この場合エージェント装置１は、音声入力から、ユーザが「この」によって指定する照明装置２について消灯させることを、音声データを解析することで操作の指示内容を取得し、ユーザの現在位置を画像データから解析することで、ユーザが現在部屋ｒｏｏｍＢにいることから、「ｒｏｏｍＢの照明を点灯させる」要求ということを判定する。

＜４．第１の実施の形態の処理＞
図７及び図８を用いてエージェントシステムにおける第１の実施の形態の処理について説明する。第１の実施の形態では、ユーザがエージェントシステムを利用するにあたり、初期設定の段階で機器情報及び位置情報の記憶を行っておくものである。

エージェントシステムの概要について図７を用いて説明する。図７は、エージェント装置１、操作対象機器２（照明装置２）が実行する処理の流れの一例を示している。なお、以下において一度説明した処理と同様の処理については、同一符号を付し、説明を省略するものとする。

まず照明装置２は、ステップＳ１１において、エージェントシステムを利用するにあたり、エージェント装置１に機器情報をネットワークＮＷにより送信する。機器情報とは自機の機器ＩＤ及びＩＰアドレスの情報のことである。なお、機器ＩＤは他機器のＩＤと衝突しないよう十分に一意性の確保できるＩＤ体系が望ましい。

エージェント装置１は、ステップＳ１２において照明装置２から機器情報を受信すると、ステップＳ１３に処理を進める。エージェント装置１は、ステップＳ１３においてリアクション要求を照明装置２に送信する。

リアクション要求を受けた照明装置２は、ステップＳ１４において、機器ＩＤの情報を発信する。ここで照明装置２は、通信手段として赤外線通信を用いる。なお当該通信手段は指向性の高いものが望ましい。赤外線を発する照明装置２の特定をしやすくするためである。また雑音の影響を受けやすいことも想定されるため、エラー訂正能力の高い符号化を併用することが望ましい。

エージェント装置１は、ステップＳ１５で照明装置２から機器ＩＤ情報を受信すると、ステップＳ１２で受信した機器ＩＤと同じものであるかを判定する。機器ＩＤが同じものでなかった場合、他の機器ＩＤを受信するまで待機する。また、一定時間以上、同じ機器ＩＤを受信できなかった場合には、再試行を促すエラー結果をユーザに通知することとしてもよい。
ここで、照明装置２の識別情報をエージェント装置１が取得する手法として、撮像部１２を用いることも考えられる。この場合、例えば操作対象機器２の表面にはＱＲコード（登録商標）等を印刷することで機器ＩＤの情報が埋め込まれている。エージェント装置１は、撮像部１２により当該コードの画像データを取得し、撮像信号処理部１５で必要な処理が施された後、制御部４０で当該画像データを解析することで各照明装置２の機器ＩＤを取得することができる。

機器ＩＤが同じものである場合は、エージェント装置１は、ステップＳ１６において、空間内座標の検出を行う。ここでエージェント装置１は、情報受信部１３での受信により赤外線を送信した照明装置２を判定する。当該判定の方法としては、例えば、指向性の高い通信手段を用い、情報受信部１３が当該通信を受信した際に、当該受信方向にある機器を信号を発信した照明装置２と判定する。当該機器は、撮像部１２が取得したエージェントシステムの範囲内の画像データを解析することで特定することが考えられる。このときエージェント装置１は、例えば情報受信部１３を旋回させることで、情報受信部１３が信号を受信した際の撮像部１２の角度から信号の発信方向を判定し、撮像部１２が撮像した発信方向についての照明装置２等の画像データを解析することで、当該照明装置２の空間内座標を算出する。これにより、エージェントシステムにおける照明装置２の設置位置を判定することができる。なお、照明装置２の設置位置情報は、ユーザが例えばエージェント装置１に操作により入力することで記憶させることも可能である。

その後、エージェント装置１は、ステップＳ１７において、機器情報及び位置情報の記憶を行う。エージェント装置１は、照明装置２の機器ＩＤにＩＰアドレスが紐付けられた機器情報を機器情報管理ＤＢ３１に記憶し、照明装置２の位置情報としての空間内座標を位置情報管理ＤＢ３２に記憶する。
また、ここでエージェント装置１は、撮像部１２により、照明装置２の周辺機器の様子を画像データとして取得し、当該画像データを解析することで、「机の上」「テレビの横」など周辺機器との相対的な位置関係を位置情報として位置情報管理ＤＢ３２に記憶する。また、エージェント装置１は、エージェントシステムの領域内に配置された様々なオブジェクトの空間内座標を計測しておく。

以上により、ユーザがエージェントシステムを利用するにあたっての事前処理が完了する。ここで、初期設定の段階で機器情報のみならず位置情報の記憶を行っておくことで、後述する対象機器判定処理をエージェント装置１が実行するにあたり、処理負担を軽減させることができる。
ステップＳ１１〜Ｓ１７の処理は、ユーザがエージェントシステムを利用するにあたり、操作対象機器２の追加ごとに実行される処理である。

その後、エージェント装置１は、ステップＳ１８において、センシング機器１０によるユーザからの指示入力を監視する処理を行う。例えば、マイクロフォン１１により取得した音声データや撮像部１２から取得した画像データを解析することで、照明装置２についての操作指示であるか否かを判定する。ここでエージェント装置１は、音声データを解析することで操作内容についての情報も取得する。
エージェント装置１は、ステップＳ１９において、照明装置２の操作指示を検知するまで、ステップＳ１８の指示監視処理を行う。

ステップＳ１９において照明装置２への操作指示を検知すると、エージェント装置１はステップＳ２０に処理を進め、対象機器判定処理を実行する。
ここで、ステップＳ２０の対象機器判定処理の詳細について、図８を用いて説明する。
まずエージェント装置１の制御部４０は、ステップＳ１０１において、ジェスチャ解析が必要か否かを判定する。ここでジェスチャ解析が必要な場合とは、マイクロフォン１１が集音した音声データの解析のみでは表現が曖昧なため、操作対象となる照明装置２が特定できない場合をいう。

ステップＳ１０１でジェスチャ解析が必要と判定すると、制御部４０は、ステップＳ１０２に処理を進め、空間内座標の算出処理を実行する。制御部４０は、指を差す等のジェスチャにおいて、ジェスチャしたユーザの腕や指の角度からジェスチャの示す先の空間内座標を算出する。

そして制御部４０は、ステップＳ１０３において、算出した空間内座標の値に近い機器ＩＤの情報を位置情報管理ＤＢ３２から取得する。このとき、空間内座標の値に近似する空間内座標が記憶されている機器ＩＤが複数存在することも想定される。この場合、制御部４０は、ユーザの発言による音声データを解析して要求内容を推定することで、要求内容に応じて機器ＩＤを選択することもできる。

機器ＩＤを取得すると、制御部４０は、ステップＳ１０４において、取得した機器ＩＤに対応するＩＰアドレスを機器情報管理ＤＢ３１から取得する。その後制御部４０は、図８の処理を終える。

一方、ステップＳ１０１においてジェスチャ解析が不要な場合、制御部４０はステップＳ１０５に処理を進める。ジェスチャ解析が不要な場合には、例えば取得した音声データにエイリアスが含まれているため機器ＩＤを特定可能な場合や、音声データの「机の上」等の特定の場所を示す表現から機器ＩＤを特定可能な場合等が考えられる。
制御部４０は、ステップＳ１０５において、上記それぞれの場合において操作対象となる機器の特定を行う。
その後制御部４０は、ステップＳ１０４において、機器ＩＤに対応するＩＰアドレスを取得し、図８の処理を完了する。

図７に戻り、エージェント装置１は、ステップＳ２０からステップＳ２１に処理を進める。エージェント装置１は、ステップＳ２１において、解析した照明装置２の指示内容の情報に基づいてコマンド生成処理を実行する。そしてエージェント装置１は、ステップＳ２２において、動作制御処理を実行し、ステップＳ２３において照明装置２に動作処理を実行させる。
以上により、エージェントシステムにおける第１の実施の形態の処理が完了する。

＜５．第２の実施の形態の処理＞
次に図９及び図１０を用いてエージェントシステムにおける第２の実施の形態の処理について説明する。第２の実施の形態は、エージェントシステムを利用するにあたり、照明装置２等の操作対象機器２の空間内座標を対象機器判定処理において算出する処理である。
図９を用いて第２の実施の形態におけるエージェントシステムの概要について説明する。図９は、エージェント装置１、操作対象機器２（照明装置２）が実行する処理の流れの一例を示している。

まず照明装置２は、エージェントシステムを利用するにあたり、エージェント装置１に機器情報をネットワークＮＷにより送信する。エージェント装置１は、ステップＳ１２において照明装置２から機器情報を受信すると、ステップＳ３１に処理を進める。
エージェント装置１は、ステップＳ３１において、照明装置２の機器ＩＤにＩＰアドレスが紐付けられた機器情報を機器情報管理ＤＢ３１に記憶する。
以上により、ユーザがエージェントシステムを利用するにあたっての事前処理が完了する。また第２の実施の形態においては、ステップＳ１４において、照明装置２から赤外線通信による機器ＩＤの発信が間欠的に行われている。

その後、エージェント装置１は、ステップＳ１８において、センシング機器１０によるユーザからの指示入力を監視する処理を行う。そしてエージェント装置１は、ステップＳ１９において、照明装置２の操作指示を検知するまで、ステップＳ１８の指示監視処理を行う。

ステップＳ１９において照明装置２への操作指示を検知すると、エージェント装置１はステップＳ３２に処理を進め、対象機器判定処理を実行する。
ここで、ステップＳ３２の対象機器判定処理の詳細について、図１０を用いて説明する。

まずエージェント装置１の制御部４０は、ステップＳ１０１において、ジェスチャ解析が必要か否かを判定する。
ステップＳ１０１でジェスチャ解析が必要と判定すると、制御部４０は、ステップＳ１０２に処理を進め、ジェスチャしたユーザの腕や指の角度からジェスチャの示す先の空間内座標の算出処理を実行する。

その後、制御部４０は、ステップＳ２０１において、照明装置２から赤外線通信により機器ＩＤ情報を受信したかを判定する。ステップＳ２０１で機器ＩＤを受信すると、制御部４０は、ステップＳ２０２において、情報受信部１３での受信方向から赤外線を送信した照明装置２を判定し、当該判定した照明装置２の空間内座標を算出する。空間内座標は、撮像部１２が撮像した画像データを解析することで算出する。

そして制御部４０は、ステップＳ２０３において、ステップＳ２０１で取得した機器ＩＤの照明装置が、操作要求がされている機器かを判定する。具体的には、制御部４０は、ステップＳ１０２でのジェスチャ解析により算出した空間内座標の値と、ステップＳ２０２での情報受信部１３が信号を受信した際の撮像部１２の角度に基づいて算出した空間内座標の値とが近似するか否かにより、当該照明装置２が操作要求された機器であるかを判定する。

ステップＳ２０３で操作要求機器であると判定すると、制御部４０は、ステップＳ１０４において、ステップ２０１で受信した機器ＩＤに対応するＩＰアドレスを機器情報管理ＤＢ３１から取得する。その後、制御部４０は図１０の処理を終える。

ステップＳ２０３で操作要求機器でないと判定すると、制御部４０はステップＳ２０１に処理を進め、新たな赤外線による機器ＩＤの受信があるまで待機する。そしてステップＳ２０１において機器ＩＤを受信しない場合は、ステップＳ２０５において一定時間経過するか、ステップＳ２０１において新たな機器ＩＤを取得するかまでステップＳ２０１→Ｓ２０５の処理をループする。
ここで制御部４０は、旋回している情報受信部１３の受信部に、照明装置２から発信される信号が受信するまで待機する。またエージェント装置１に情報受信部１３が複数設けられている場合、順次、それぞれの情報受信部１３が照明装置２からの発信を検知処理を行うため、処理対象の情報受信部１３となるまで待機することになる。ステップＳ２０５において一定時間とは、このような待機時間により生ずるものである。

ここで、ステップＳ２０５において機器ＩＤを受信せずに一定時間が経過すると、制御部４０はステップＳ２０５からステップＳ２０６に処理を進め、ユーザの指示内容が反映されない旨などのエラー通知を行う。その後制御部４０は図１０の処理を完了する。

一方、ステップＳ１０１においてジェスチャ解析が不要な場合、制御部４０はステップＳ１０５に処理を進める。制御部４０は、ステップＳ１０５において、上記それぞれの場合において操作対象となる機器の特定を行う。

図９に戻り、エージェント装置１は、ステップＳ３２からステップＳ２１に処理を進める。エージェント装置１は、ステップＳ２１において、解析した照明装置２の指示内容の情報に基づいてコマンド生成処理を実行する。そしてエージェント装置１は、ステップＳ２２において、動作制御処理を実行し、ステップＳ２３において照明装置２に動作処理を実行させる。
以上により、エージェントシステムにおける第２の実施の形態の処理が完了する。

＜６．第３の実施の形態の処理＞
次に図１１を用いてエージェントシステムにおける第３の実施の形態の処理について説明する。第３の実施の形態は、照明装置２がネットワークＮＷによるエージェント装置１のリクエスト要求を受信したときに、機器ＩＤを有する赤外線を発信するものである。
ここでは、ステップＳ３２の対象機器判定処理について第２の実施の形態と異なる点を説明する。

まずエージェント装置１の制御部４０は、ステップＳ１０１において、ジェスチャ解析が必要か否かを判定する。ステップＳ１０１でジェスチャ解析が必要と判定すると、制御部４０は、ステップＳ１０２に処理を進め、ジェスチャしたユーザの腕や指の角度からジェスチャの示す先の空間内座標の算出処理を実行する。

その後制御部４０は、ステップＳ３０１において、機器情報管理ＤＢ３１に記憶されている機器ＩＤから処理対象となる機器ＩＤを選択する。そして制御部４０は、ステップＳ３０２において、選択した機器ＩＤに対応する照明装置２にリアクション要求を行う。制御部４０からのリクエスト要求を照明装置２が受信することで、当該照明装置２による自機の機器ＩＤ情報を有する赤外線の発信が開始される。

その後、制御部４０は、ステップＳ２０１において、照明装置２から赤外線通信により機器ＩＤ情報を受信したかを判定する。ステップＳ２０１で機器ＩＤを受信すると、制御部４０は、ステップＳ２０２において、情報受信部１３で受信した赤外線の入射角度から赤外線を送信した照明装置２を判定し、当該判定した照明装置２の空間内座標を算出する。

そして制御部４０は、ステップＳ２０３において、ステップＳ２０１で取得した機器ＩＤの照明装置が、操作要求がされている機器かを判定する。
ステップＳ２０３で操作要求機器でないと判定すると、制御部４０はステップＳ３０３に処理を進め、全ての機器について処理が終了したかを判定する。ステップＳ３０３において全ての機器について処理が終了していない場合、制御部４０は、ステップＳ３０３からステップＳ３０１に処理を進め、以下、ステップＳ２０３で操作要求機器を特定するか、ステップＳ３０３で全ての機器について処理が終了するまで上記と同様の処理を実行する。

ステップＳ２０３において操作要求機器を特定すると、制御部４０は、ステップＳ１０４において、当該機器の機器ＩＤに対応するＩＰアドレスを取得し、図１１の処理を終了する。
またステップＳ３０３において、全ての機器について処理が終了した、即ち、操作要求機器がなかった場合は、制御部４０はステップＳ２０６においてエラー通知を実行し図１１の処理を終了する。

またステップＳ２０１において機器ＩＤを受信しない場合は、ステップＳ２０５において一定時間経過するか、ステップＳ２０１において新たな機器ＩＤを取得するかまでステップＳ２０１→Ｓ２０５の処理をループする。
ここで、ステップＳ２０５において機器ＩＤを受信せずに一定時間が経過すると、制御部４０はステップＳ２０５からステップＳ３０３に処理を進め、他の機器の処理が残っている場合は、ステップＳ３０３からＳ３０１に処理を進め、次の機器ＩＤについての処理を進める。

一方、ステップＳ１０１においてジェスチャ解析が不要な場合、制御部４０はステップＳ１０５に処理を進める。制御部４０は、ステップＳ１０５において、上記それぞれの場合において操作対象となる機器の特定を行う。そして制御部４０はステップＳ１０４で操作対象となる機器に対応するＩＰアドレスを取得し、図１１の処理を終了する。
以上により、エージェントシステムにおける第３の実施の形態の対象機器判定処理が完了する。

＜７．まとめ及び変形例＞
以上の実施の形態によれば次のような効果が得られる。
実施の形態におけるエージェント装置１は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部４２と、操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器（操作対象機器２）のうちで操作情報による操作対象とされる被制御機器（操作対象機器２）を特定する指示認識部４３と、指示認識部４３が認識した指示内容に応じた制御信号を生成し、指示認識部４３が特定した被制御機器（操作対象機器２）に送信する指示送信部４４と、を備える（図７）。

これにより、複数の被制御機器のうちの特定の操作対象機器２について、ユーザの音声により入力された指示内容を反映させた制御を実行することができる。よって、例えば音声データ解析により抽出したエイリアスや場所を示す表現等により操作対象機器２の機器ＩＤを特定可能な場合は、ユーザの挙動（ジェスチャ）を画像データから解析することなしに操作対象機器２を特定し、操作することができる。つまり、エージェント装置１の処理負担を軽減させることができる。
また、ユーザの挙動（ジェスチャ）を画像データで解析することで、操作対象機器２の機器ＩＤ及び操作内容が特定できる場合には、ユーザの音声入力による音声データを解析することなしに、操作対象機器２を操作することも可能である。これによってもエージェント装置１の処理負担が軽減される。
さらに、音声及び挙動による操作を示す音声データ及び画像データの両方を解析することで、音声データと画像データの不明確な部分を補完し、ユーザからの操作指示内容がより正確に反映される。また操作対象となる操作対象機器２の特定の精度も向上する。
従って、対象となる機器の特定が曖昧な操作依頼であっても、操作対象となる機器を特定する精度を向上させることができるため、ユーザにとって機器の快適な操作環境を実現することができる。

実施の形態では、制御部４０（指示送信部４４）は、被制御機器（操作対象機器２）の識別情報（機器ＩＤ）とアドレス情報（ＩＰアドレス）を対応させて記憶した記憶部（メモリ部３０）を参照して、操作対象と特定された被制御機器（操作対象機器２）の識別情報（機器ＩＤ）に対応するアドレス情報（ＩＰアドレス）を取得し、該アドレス情報（ＩＰアドレス）を用いて当該制御信号を送信することが考えられる（図７）。
これにより、ユーザの特定する操作対象機器２とエージェント装置１が指示内容を送信する操作対象機器２との紐付けが可能となることにより、ユーザとエージェント装置１との間で操作対象機器２の認識が共有されることになる。
従って、操作対象となる操作対象機器２の機器ＩＤを取得することができれば、当該操作対象機器２にユーザの操作が示す指示内容に応じた制御信号を操作対象機器２に送信することができる。

実施の形態では、制御部４０（指示認識部４３）は、操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器（操作対象機器２）の識別情報（機器ＩＤ）を、当該位置又は方向に配置された被制御機器（操作対象機器２）からの送信信号を受信することで取得することが考えられる（図９）。
つまりエージェント装置１は、画像データに表れる操作対象機器２を指し示す等のユーザのジェスチャを解析することで操作対象となる操作対象機器２を特定し、当該特定された操作対象機器２からの送信信号を受信することで機器ＩＤを取得する。そしてエージェント装置１は、当該機器ＩＤに対応するアドレスにユーザの指示内容に応じた制御信号を操作対象機器２に送信することで、ユーザの指示内容を反映させた操作対象機器２の操作を実現する。

これにより、ユーザの特定する操作対象機器２とエージェント装置１が指示内容を送信する操作対象機器２との紐付けが可能となることにより、ユーザとエージェント装置１との間で操作対象機器２の認識が共有されることになる。
従って、操作対象となる操作対象機器２の機器ＩＤを取得することができれば、当該操作対象機器２にユーザの操作が示す指示内容に応じた制御信号を操作対象機器２に送信することができる。
また、エイリアスなどの特定の機器名称を用いなくても、ユーザの指差しジェスチャなどによる直感的な特定手法により、エージェント装置１に操作対象機器２の操作を依頼することができる。つまり、「あれ」「それ」といった指示語によるリクエストの解釈を、前後の文脈を用いることなしに特定することができるようになる。

実施の形態では、制御部４０（指示認識部４３）は、特定の被制御機器（操作対象機器２）に信号送信を指示し、その受信により、当該被制御機器（操作対象機器２）の位置情報を判定し、識別情報（機器ＩＤ）に対応した位置情報としての記憶データ（位置情報管理ＤＢ３２）が形成されるようにすることが考えられる（図７のＳ１７）。
機器ＩＤに対応した位置情報としての位置情報管理ＤＢ３２を形成しておくことで、画像データの解析等によりユーザのジェスチャ等が指し示す位置情報を取得すれば、その位置情報の周辺にある操作対象機器２の機器ＩＤを操作対象のものとして取得することができる。つまり、機器ＩＤに対応する位置情報とユーザの指し示す位置情報とを照合することで、操作対象となる操作対象機器２を容易に特定することができる。また、あらかじめ位置情報管理ＤＢ３２に機器ＩＤと位置情報との対応関係を記憶しておくことで、ユーザの指し示す機器との照合を行うごとに対応関係を生成する必要がなくなるため、エージェント装置１の処理負担の軽減を図ることができる。

またこのときエージェント装置１は、撮像部１２から取得した画像データを解析することで、エージェントシステムの範囲内に設置された操作対象機器以外の様々な機器や、窓、扉、椅子、机、タンス、ベッド等の様々なオブジェクトの位置を、当該オブジェクトの名称と対応付けて位置情報管理ＤＢ３２等に記憶しておくこともできる。

これによりエージェントシステムが利用可能な範囲内の機器、オブジェクトの場所やその特性（モデル名など）をエージェント装置１が把握することができるため、当該システムにおいて管理画面や設定画面を構築する際に、従来のリスト型の機器一覧表示とは異なるグラフィカルな画面で構成することが可能となる。例えば、複数のスピーカを部屋に配置してサラウンド環境を構築するような状況において、部屋の地図に本技術によって得られたスピーカの位置をマッピングしたものを画面に表示すれば、音響も含めた最適な配置をわかりやすくユーザに提示することができる。
また、操作対象機器以外の様々な機器、オブジェクト等の位置をエージェント装置１が把握できるため、音声データ解析によって得られる機器、オブジェクト等の名称による指定との組み合わせにより、当該機器等を基準にした相対的な操作対象機器２の指定も可能となる。例えば「テレビの近くの照明を消して」といった「遠近」「上下左右」といった相対的な位置による指示をすることができる。

また操作対象機器２の位置をエージェント装置１が把握できるため、図６に示すようなグルーピングを利用した操作対象機器２の特定も可能となる。例えばユーザから「この部屋の照明を消して」という指示がされた場合、エージェント装置１は、撮像部１２から取得した画像データを解析することでユーザの位置情報を取得し、ユーザの位置情報が含まれる部屋の領域内に存在する照明装置２を一斉に制御することが可能となる。また、事前に部屋としての領域に「リビング」といった名称を設定しておけば「リビングの照明を消して」といったユーザからの指示に対しても同様の処理を実行することが可能となる。

実施の形態では、制御部４０（指示認識部４３）は、操作情報としての音声データに表れるユーザの発話により指定される位置に配置された被制御機器（操作対象機器２）を、操作対象の被制御機器（操作対象機器２）と特定することが考えられる（図７のＳ１９）。
ユーザの発話が位置を特定するのに十分な情報を含んでいる場合は、その音声データを解析することで、ユーザの操作対象機器２の位置を特定するためのジェスチャの有無等に関わらず操作対象となる操作対象機器２として特定することが可能となる。
従って、音声データの解析により操作対象機器２が特定できるときは、ジェスチャの内容について解析することなしに操作対象機器２を操作することができる。つまり、エージェントシステムの操作性が向上する。

実施の形態では、制御部４０（指示認識部４３）は、操作情報としての画像データに表れるユーザの挙動により指定される位置の空間内座標を算出し、当該空間内座標に位置する被制御機器（操作対象機器２）を、操作対象の被制御機器（操作対象機器２）と特定することが考えられる（図８）。
これにより、ユーザにより指定される位置を空間内座標の値として算出することで、指定位置を具体的な数値として把握することができる。従って、それぞれの操作対象機器２の空間内座標をエージェント装置１が把握できるため、高さ、奥行き等を考慮した操作対象機器２の位置の特定が可能となる。

実施の形態では、制御部４０（指示認識部４３）は、複数の被制御機器（操作対象機器２）に順次信号送信を指示することで、その受信により、各被制御機器（操作対象機器２）の位置情報を判定し、ユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器（操作対象機器２）を特定することが考えられる（図１１）。
複数の操作対象機器２に順次信号送信を指示することで、信号を受信する際に他の操作対象機器２からの信号と混同することがなくなり、操作対象となる操作対象機器２を明確に特定できる。またエージェント装置１が操作対象機器２から送信された信号を受信する際には、信号送信が行われている操作対象機器２は一台であるため、他の操作対象機器２からの信号と混同することがなくなる。これはエージェント装置１と操作対象機器２が識別情報の送受信を行う際に用いられる通信手段が指向性の低いものである場合に特に有効である。指向性の低い通信手段の場合、複数の操作対象機器２から送信された信号の発信方向の特定が難しく、どの操作対象機器２から送信された信号であるかを判別することが困難であるためである。

実施の形態では、制御部４０（指示認識部４３）は、音声データを解析して操作対象の被制御機器（操作対象機器２）を特定できなかった場合、画像データを解析して操作対象の被制御機器（操作対象機器２）を特定することが考えられる。
つまり、音声データの解析により操作対象機器２を特定できる場合は、画像データの解析処理を省略することができる。従って、エージェント装置１の処理負担の軽減を図ることができる。

実施の形態のプログラムは、上述の実施の形態で示した図７から図１１の処理を、例えばＣＰＵ、ＤＳＰ等、或いはこれらを含むデバイスに実行させるプログラムである。
即ち実施の形態のプログラムは、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理と、を情報処理装置に実行させるプログラムである。
このようなプログラムにより、上述したエージェント装置１（情報処理装置）を実現できる。

このようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのＨＤＤや、ＣＰＵを有するマイクロコンピュータ内のＲＯＭ等に予め記録しておくことができる。
あるいはまた、フレキシブルディスク、ＣＤ−ＲＯＭ(Compact Disc Read Only Memory)、ＭＯ(Magnet optical)ディスク、ＤＶＤ(Digital Versatile Disc)、ブルーレイディスク（Blu-ray Disc（登録商標））、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、ＬＡＮ、インターネットなどのネットワークを介してダウンロードすることもできる。

またこのようなプログラムによれば、実施の形態のエージェント装置１の広範な提供に適している。例えばパーソナルコンピュータ、携帯型情報処理装置、家電機器、記録再生機器、放送機器、携帯電話機、ゲーム機器、ビデオ機器、ＰＤＡ（Personal Digital Assistant）等にプログラムをダウンロードすることで、当該パーソナルコンピュータ等を、本開示の情報処理装置とすることができる。

また、本明細書においてフローチャートを用いて説明した処理は、必ずしもフローチャートに示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

以上、添付図面を参照しながら本開示の実施の形態について説明したが、本開示の技術的範囲は上記に限定されることはない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範囲内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものである。

また、本明細書に記載された効果は、あくまで説明的又は例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果と共に、又は上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

なお本技術は以下のような構成も採ることができる。
（１）
ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部と、
前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識部と、
前記指示認識部が認識した指示内容に応じた制御信号を生成し、前記指示認識部が特定した被制御機器に送信する指示送信部と、を備える
情報処理装置。
（２）
前記指示送信部は、
被制御機器の識別情報とアドレス情報を対応させて記憶した記憶部を参照して、操作対象と特定された被制御機器の識別情報に対応するアドレス情報を取得し、該アドレス情報を用いて前記制御信号を送信する
（１）に記載の情報処理装置。
（３）
前記指示認識部は、
前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、当該位置又は方向に配置された被制御機器からの送信信号を受信することで取得する
（２）に記載の情報処理装置。
（４）
前記指示認識部は、
前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、当該位置又は方向に配置された被制御機器の画像データから取得する
（２）又は（３）に記載の情報処理装置。
（５）
前記指示認識部は、
特定の被制御機器に信号送信を指示し、その受信により、当該被制御機器の位置情報を判定し、識別情報に対応した位置情報としての記憶データが形成されるようにする
（２）乃至（４）の何れかに記載の情報処理装置。
（６）
前記指示認識部は、
前記操作情報としての音声データに表れるユーザの発話により指定される位置に配置された被制御機器を、操作対象の被制御機器と特定する
（５）に記載の情報処理装置。
（７）
前記指示認識部は、
前記操作情報としての画像データに表れるユーザの挙動により指定される位置の空間内座標を算出し、当該空間内座標に位置する被制御機器を、操作対象の被制御機器と特定する
（５）又は（６）に記載の情報処理装置。
（８）
前記指示認識部は、
複数の被制御機器に順次信号送信を指示することで、その受信により、各被制御機器の位置情報を判定し、ユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器を特定する
（２）乃至（７）の何れかに記載の情報処理装置。
（９）
前記指示認識部は、音声データを解析して操作対象の被制御機器を特定できなかった場合、画像データを解析して操作対象の被制御機器を特定する
（１）乃至（８）の何れかに記載の情報処理装置。
（１０）
ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、
前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理と、
を情報処理装置が実行する情報処理方法。
（１１）
ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理で認識された指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信部と、
前記通信部が受信した前記制御信号により動作の制御を行う機器制御部と、を備える
情報処理装置。
（１２）
ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに操作対象の被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信処理と、
前記通信処理により受信した前記制御信号により動作の制御を行う機器制御処理と、を情報処理装置が実行する情報処理方法。

１…エージェント装置、２…操作対象機器（照明装置）、４０…制御部、４２…操作情報取得部、４３…指示認識部、４４…指示送信部、７０…演算部、７１…通信部、７２…機器制御部

Claims

ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部と、
前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識部と、
前記指示認識部が認識した指示内容に応じた制御信号を生成し、前記指示認識部が特定した被制御機器に送信する指示送信部と、を備える
情報処理装置。
前記指示送信部は、
被制御機器の識別情報とアドレス情報を対応させて記憶した記憶部を参照して、操作対象と特定された被制御機器の識別情報に対応するアドレス情報を取得し、該アドレス情報を用いて前記制御信号を送信する
請求項１に記載の情報処理装置。
前記指示認識部は、
前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、前記位置又は方向に配置された被制御機器からの送信信号を受信することで取得する
請求項２に記載の情報処理装置。
前記指示認識部は、
前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、前記位置又は方向に配置された被制御機器の画像データから取得する
請求項２に記載の情報処理装置。
前記指示認識部は、
特定の被制御機器に信号送信を指示し、その受信により、前記特定の被制御機器の位置情報を判定し、識別情報に対応した位置情報としての記憶データが形成されるようにする
請求項２に記載の情報処理装置。
前記指示認識部は、
前記操作情報としての音声データに表れるユーザの発話により指定される位置に配置された被制御機器を、操作対象の被制御機器と特定する
請求項５に記載の情報処理装置。
前記指示認識部は、
前記操作情報としての画像データに表れるユーザの挙動により指定される位置の空間内座標を算出し、該空間内座標に位置する被制御機器を、操作対象の被制御機器と特定する
請求項５に記載の情報処理装置。
前記指示認識部は、
複数の被制御機器に順次信号送信を指示することで、その受信により、各被制御機器の位置情報を判定し、ユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器を特定する
請求項２に記載の情報処理装置。
前記指示認識部は、音声データを解析して操作対象の被制御機器を特定できなかった場合、画像データを解析して操作対象の被制御機器を特定する
請求項１に記載の情報処理装置。
ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、
前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理と、
を情報処理装置が実行する情報処理方法。
ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理で認識された指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信部と、
前記通信部が受信した前記制御信号により動作の制御を行う機器制御部と、を備える
情報処理装置。
ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに操作対象の被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信処理と、
前記通信処理により受信した前記制御信号により動作の制御を行う機器制御処理と、を情報処理装置が実行する情報処理方法。