JPWO2019239738A1 - 情報処理装置、情報処理方法 - Google Patents

情報処理装置、情報処理方法 Download PDF

Info

Publication number
JPWO2019239738A1
JPWO2019239738A1 JP2020525326A JP2020525326A JPWO2019239738A1 JP WO2019239738 A1 JPWO2019239738 A1 JP WO2019239738A1 JP 2020525326 A JP2020525326 A JP 2020525326A JP 2020525326 A JP2020525326 A JP 2020525326A JP WO2019239738 A1 JPWO2019239738 A1 JP WO2019239738A1
Authority
JP
Japan
Prior art keywords
information
instruction
user
unit
controlled device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020525326A
Other languages
English (en)
Inventor
山本 和典
和典 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2019239738A1 publication Critical patent/JPWO2019239738A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • G05B15/02Systems controlled by a computer electric
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q9/00Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C17/00Arrangements for transmitting signals characterised by the use of a wireless electrical link
    • G08C17/02Arrangements for transmitting signals characterised by the use of a wireless electrical link using a radio link
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C2201/00Transmission systems of control signals via wireless link
    • G08C2201/30User interface
    • G08C2201/31Voice input
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C2201/00Transmission systems of control signals via wireless link
    • G08C2201/30User interface
    • G08C2201/32Remote control based on movements, attitude of remote control device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Acoustics & Sound (AREA)
  • Automation & Control Theory (AREA)
  • Computational Linguistics (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Selective Calling Equipment (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)

Abstract

ユーザの機器の操作について操作対象の指定が曖昧な場合においても操作の対象となる機器の特定を行うことが可能な技術を提供する。ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、操作対象の被制御機器を特定する指示認識部と、前記指示認識部が認識した指示内容に応じた制御信号を生成し、前記指示認識部が特定した被制御機器に送信する指示送信部と、を備える情報処理装置である。

Description

本技術は情報処理装置、情報処理方法に関し、特に機器制御についての技術分野に関する。
環境内の様々な機器の動作を制御する装置において、ユーザから入力されたコマンドに応じて、環境内の機器の動作を制御する技術が知られている。例えば、特許文献1では、ユーザが当該装置に音声による指示を入力することで、環境内の機器の動作を制御する技術が開示されている。
特開2017−123564号公報
ところで、ユーザが、例えば音声によって当該装置に機器の操作を依頼する場合においては、「あの機器を操作して」など機器の対象が曖昧な表現で操作依頼が入力されることが少なくない。
そこで本開示では、ユーザの機器の操作について操作対象の指定が曖昧な場合においても操作の対象となる機器の特定を行うことが可能な技術を提供する。
本技術に係る情報処理装置は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識部と、前記指示認識部が認識した指示内容に応じた制御信号を生成し、前記指示認識部が特定した被制御機器に送信する指示送信部と、を備える。
これにより、複数の被制御機器のうちの特定の被制御機器について、ユーザの音声により入力された指示内容を反映させた制御を実行することができる。また、ユーザの挙動による指示内容についてを反映させた制御についても実行することができる。
また、音声及び挙動による操作を示す音声データ及び画像データの両方を解析することで、音声データと画像データの不明確な部分を補完し、ユーザからの操作指示内容がより正確に反映される。また操作対象となる被制御機器の特定の精度も向上する。
上記した本技術に係る情報処理装置において、前記指示送信部は、被制御機器の識別情報とアドレス情報を対応させて記憶した記憶部を参照して、操作対象と特定された被制御機器の識別情報に対応するアドレス情報を取得し、該アドレス情報を用いて前記制御信号を送信することが考えられる。
これにより、操作対象となる被制御機器の識別情報を取得することができれば、当該被制御機器にユーザの操作が示す指示内容に応じた制御信号を被制御機器に送信することができる。
上記した本技術に係る情報処理装置において、前記指示認識部は、前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、当該位置又は方向に配置された被制御機器からの送信信号を受信することで取得することが考えられる。
つまり情報処理装置は、画像データに表れる被制御機器を指し示す等のユーザのジェスチャを解析することで操作対象となる被制御機器を特定し、当該特定された被制御機器からの送信信号を受信することで識別情報を取得する。そして情報処理装置は、当該識別情報に対応するアドレスにユーザの指示内容に応じた制御信号を被制御機器に送信することで、ユーザの指示内容を反映させた被制御機器の操作を実現する。
上記した本技術に係る情報処理装置において、前記指示認識部は、前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、当該位置又は方向に配置された被制御機器の画像データから取得することが考えられる。
例えば、操作対象となる被制御機器に印刷されたQRコード(登録商標)を情報処理装置に内蔵された撮像装置等により画像データとして取得し、それを解析することで当該被制御機器の識別情報を取得する。
上記した本技術に係る情報処理装置において、前記指示認識部は、特定の被制御機器に信号送信を指示し、その受信により、当該被制御機器の位置情報を判定し、識別情報に対応した位置情報としての記憶データが形成されるようにすることが考えられる。
識別情報に対応した位置情報としての記憶データを形成しておくことで、画像データの解析等によりユーザのジェスチャ等が指し示す位置情報を取得すれば、その位置情報の周辺にある被制御機器の識別情報を操作対象のものとして取得することができる。
上記した本技術に係る情報処理装置において、前記指示認識部は、前記操作情報としての音声データに表れるユーザの発話により指定される位置に配置された被制御機器を、操作対象の被制御機器と特定することが考えられる。
ユーザの発話が位置を特定するのに十分な情報を含んでいる場合は、その音声データを解析することで、ユーザの被制御機器の位置を特定するためのジェスチャの有無等に関わらず操作対象となる被制御機器として特定することが可能となる。
上記した本技術に係る情報処理装置において、前記指示認識部は、前記操作情報としての画像データに表れるユーザの挙動により指定される位置の空間内座標を算出し、当該空間内座標に位置する被制御機器を、操作対象の被制御機器と特定することが考えられる。
これにより、ユーザにより指定される位置を空間内座標の値として算出することで、指定位置を具体的な数値として把握することができる。
上記した本技術に係る情報処理装置において、前記指示認識部は、複数の被制御機器に順次信号送信を指示することで、その受信により、各被制御機器の位置情報を判定し、ユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器を特定することが考えられる。
複数の被制御機器に順次信号送信を指示することで、信号を受信する際に他の被制御機器からの信号と混同することがなくなり、操作対象となる被制御機器を明確に特定できる。
上記した本技術に係る情報処理装置において、前記指示認識部は、音声データを解析して操作対象の被制御機器を特定できなかった場合、画像データを解析して操作対象の被制御機器を特定することが考えられる。
つまり、音声データの解析により被制御機器を特定できる場合は、画像データの解析処理を省略することができる。
本技術に係る他の情報処理装置は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理で認識された指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信部と、前記通信部が受信した前記制御信号により動作の制御を行う機器制御部と、を備える。
本技術に係る情報処理方法は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理と、を情報処理装置が実行する情報処理方法である。
本技術に係る他の情報処理方法は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに操作対象の被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信処理と、前記通信処理により受信した前記制御信号により動作の制御を行う機器制御処理と、を情報処理装置が実行する情報処理方法である。
本技術によれば、対象となる機器の特定が曖昧な操作依頼であっても、操作対象となる機器を特定する精度を向上させることができるため、ユーザにとって機器の快適な操作環境を実現することができる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果と共に、又は上記の効果に代えて、本開示に示されたいずれかの効果、又は本開示から把握され得る他の効果が奏されてもよい。
本技術の実施の形態のシステム構成例の説明図である。 実施の形態のシステム構成例の変形例の説明図である。 実施の形態のデータベースの説明図である。 実施の形態のコンピュータ装置のブロック図である。 実施の形態のエージェントシステムの概要の説明図である。 実施の形態のエージェントシステムの概要の説明図である。 第1の実施の形態のシステム全体の処理のフローチャートである。 第1の実施の形態の対象機器判定処理のフローチャートである。 第2の実施の形態のシステム全体の処理のフローチャートである。 第2の実施の形態の対象機器判定処理のフローチャートである。 第3の実施の形態の対象機器判定処理のフローチャートである。
以下、実施の形態を次の順序で説明する。
<1.システム構成>
<2.エージェント装置の機能構成>
<3.エージェントシステムの概要>
<4.第1の実施の形態の処理>
<5.第2の実施の形態の処理>
<6.第3の実施の形態の処理>
<7.まとめ及び変形例>
<1.システム構成>
まず実施の形態としてエージェント装置1を含むシステム構成例を説明する。図1及び図2に実施の形態のネットワークシステムの構成例を示す。
本実施の形態では、ユーザがエージェント装置1にコマンドを入力することで、操作対象機器2(操作対象となる被制御機器のことをいう。)の操作を実現するエージェントシステムである。実施の形態では操作対象機器2が複数設けられており、ユーザの指示に応じて、エージェント装置1は複数の操作対象機器2から操作対象となる機器を選択し、選択した当該機器の操作を実現する。
また本実施の形態において、ユーザとは当該エージェントシステムを利用する者をいう。
また実施の形態のエージェント装置1とは、情報処理装置により構成され、操作対象機器2に対して、ユーザからの指示に応じた制御もしくは制御のための情報の供給を行う装置である。
より具体的にはエージェント装置1は、マイクロフォンで収音した周囲の音声、撮像装置で撮像した周囲の撮像画像、その他各種のセンシング機器による周囲の検出信号を入力する。そして入力された信号に基づいて、ユーザの操作指示内容を認識し、それらに応じて照明装置等の操作対象機器2を制御可能な装置である。
なお、エージェント装置1は、指示を行うユーザの周辺機器であれば、様々な機器により実現できる。例えば、パーソナルコンピュータ装置、端末装置、タブレット、給湯操作機器、家電機器のリモートコントローラ、冷蔵庫等、各種の装置がエージェント装置1として機能してもよい。
また実施の形態では操作対象機器2の例として照明装置2を用いて説明する。以下、操作対象機器2のことは照明装置2とも表記する。もちろん照明装置2であることは一例で、例えばテレビジョン装置、オーディオ装置、給湯操作機器、冷蔵庫、エアコンディショナー機器、対話装置、ロボット、パーソナルコンピュータ装置、端末装置、タブレット等、各種の装置がエージェント装置1と連携する操作対象機器2として想定される。実施の形態の説明における照明装置2の動作はこれら各種の操作対象機器2においても同様に適用できる。
図1に示すように、このようなエージェント装置1と操作対象機器2は、ネットワークNWを介して互いに通信可能とされている。
ネットワークNWは、エージェント装置1がシステム外機器と通信可能な伝送路であればよく、例えばインターネット、LAN(Local Area Network)、VPN(Virtual Private Network:仮想専用網)、イントラネット、エキストラネット、衛星通信網、CATV(Community Antenna TeleVision)通信網、電話回線網、移動体通信網等の各種の形態が想定される。
エージェント装置1は、操作対象機器2とは別体の機器とされている。またエージェント装置1にはセンシング機器10が内蔵されている例としている。
センシング機器10としては、例えばマイクロフォン、撮像装置(カメラ)、接触センサ、荷重センサ、照度センサ、赤外線センサ、加速度センサ、角速度センサ、レーザセンサ、その他あらゆるセンサが想定される。
ここではセンシング機器10がエージェント装置1に内蔵される例としているが、もちろんセンシング機器10がエージェント装置1とは別体の機器とされていてもよい。
さらにはセンシング機器10としては、スマートフォンやウェアラブルデバイス等の機器に内蔵されたセンシングデバイスを想定することもできる。その場合、図1の構成例に沿えば、スマートフォンやウェアラブルデバイス自体がエージェント装置1となることも考えられる。
エージェント装置1は、複数設けられている操作対象機器2のそれぞれの識別情報等をネットワークNWを通じてあらかじめ取得しておく。そして、センシング機器10から得られる音声データや画像データ等を解析することで、ユーザからの操作対象機器2への操作指示内容や操作対象となる操作対象機器2の特定を行う。その後、エージェント装置1は、各操作対象機器2に設定されているネットワークアドレスであるIPアドレス(Internet Protocol address)を用いて、特定した操作対象機器2へ当該操作指示を実行する。
図2Aは、エージェント装置1、操作対象機器2、センシング機器10がそれぞれ別体とされ、操作対象機器2が複数設けられている例を示している。
また図2Bは、上記に加え別体としてセンシング機器10が複数設けられている例を示している。これによれば、複数のセンシング機器10を設置しておくことで、操作対象機器2からの赤外線通信等による識別情報の取得やユーザからの音声入力や動作入力を取得することが可能となる。また、別室等の異なる空間に操作対象機器2がそれぞれ設置されている場合であっても、それぞれの室内にセンシング機器10を設置することで、それぞれの室内からユーザが操作を依頼することができる。また、異なる室内に設置されている操作対象機器2の識別情報及びIPアドレスを取得することができる。
また図2Cに示すように、複数のエージェント装置1によりエージェントシステムを構成することもできる。図示するようにエージェント装置1にセンシング機器10を内蔵する構成としてもよい。また或るエージェント装置1が設けられた空間に操作対象機器2が一つしかないことも考えられる。
以上の各構成はそれぞれ一例に過ぎず、実際のエージェント装置1、操作対象機器2、センシング機器10の構成の態様は他にも各種考えられる。
<2.エージェント装置の機能構成>
図1に戻りエージェント装置1、照明装置2(操作対象機器2)の構成例を説明する。
図1はエージェント装置1のブロック図を示している。実施の形態では一例として、エージェント装置1にセンシング機器10が内蔵されている例について説明する。
エージェント装置1はセンシング機器10、通信インタフェース20、メモリ部30、制御部40を備える。
センシング機器10としては、ここではマイクロフォン11、撮像部12、情報受信部13、音声入力部14、撮像信号処理部15、デコーダ16を示している。
周囲音声はマイクロフォン11で集音され、音声信号として出力される。このマイクロフォン11で得られた音声信号は音声入力部14で増幅処理やフィルタ処理、さらにはA/D変換処理等が施されてデジタル音声信号として制御部40に供給される。
撮像部12によっては周囲が撮像される。撮像部12におけるイメージャによって得られた撮像信号は撮像信号処理部15で必要な処理が施され、フレーム単位の画像データとして制御部40に供給される。撮像部12は、周囲の空間座標を把握するために複数の撮像装置を用いてもよい。
制御部40は、このようなセンシング機器10により周囲音声の音声信号及び周囲光景の画像信号が、常時(例えば電源オン時)継続的に又は間欠的に、入力される。
情報受信部13は例えば赤外線センサであり、後述する照明装置2の情報送信部60から発信される識別情報を有する赤外線を受信する。受信した赤外線は、デコーダ16により復調信号からの赤外線データのデコードが行われ、照明装置2ごとの識別情報として制御部40に供給される。
ここで、情報送信部60から発信される赤外線は指向性の高いものが望ましい。これは情報受信部13が複数の操作対象機器2から赤外線を受信した場合、当該赤外線がどの方向から送信されてきたかにより、どの操作対象機器2から発信された赤外線かを区別するためである。またエージェント装置1は、情報受信部13(情報受信部13が内蔵された撮像部12であってもよい。)を旋回させることで、受信が可能となる情報受信部13の角度から各操作対象機器2の方向を判定することができる。
なお、照明装置2の識別情報をエージェント装置1の情報受信部13に送信する通信手段は赤外線に限られず、照明装置2から発信されていることがわかる指向性の高いものであれば様々な手法が適用できる。例えば操作対象機器2が常時発光しているものであれば、可視光通信などを使用することも考えられる。操作対象機器2を設置した場所の壁面や床に振動センサが埋め込まれているような環境であれば微細な振動により識別情報を送信してもよい。また磁気センサが埋め込まれている環境であれば、電磁気により通信することも可能である。
また、操作対象機器2の識別情報をエージェント装置1が取得する手法として、撮像部12を用いることも考えられる。この場合、例えば操作対象機器2の表面にはQRコード(登録商標)等を印刷することで識別情報が埋め込まれる。エージェント装置1は、撮像部12により当該コードの画像データを取得し、撮像信号処理部15で必要な処理が施された後、制御部40で当該画像データを解析することで各操作対象機器2の識別情報を取得することができる。
通信インタフェース20はエージェント装置1と照明装置2との間でネットワークNWを介して通信を行う部位である。エージェント装置1は、照明装置2の識別情報及びIPアドレスを照明装置2から受信する。またエージェント装置1は、照明装置2を操作するための情報を照明装置2に送信する。
メモリ部30は制御部40が演算処理に必要なワーク領域を提供したり、演算処理に用いる係数、データ、テーブル、データベース等を記憶する。以下、「データベース」を「DB(Database)」とも表記する。DBの詳細については後述する。
制御部40は例えばマイクロコンピュータ等の情報処置装置により構成される。
この制御部40は識別情報記憶部41、操作情報取得部42、指示認識部43、指示送信部44としての機能を備える。これらの機能は例えばマイクロコンピュータ等の処理を規定するソフトウェアによって発現される。これらの機能に基づいて制御部40が実行する処理について詳しくは後述する。
識別情報記憶部41は、ネットワークNWを介して照明装置2の識別情報及びIPアドレス情報を取得する。そして識別情報記憶部41は、識別情報に対応付けたIPアドレス情報をメモリ部30のDB等に記憶する。これにより、エージェント装置1により操作に関する指示内容情報を照明装置2に送信する際に、送信対象となる照明装置2を特定することができる。
操作情報取得部42は、ユーザの音声及び挙動による操作を示す音声データ及び画像データとしての操作情報をセンシング機器10から取得する。また操作情報取得部42は、センシング機器10から照明装置2の識別情報を取得する。
具体的には操作情報取得部42は、マイクロフォン11で集音した周囲の音声、撮像部12で撮像した周囲の撮像画像、情報受信部13で受信した赤外線通信により受信した、その他各種のセンシング機器10による周囲の検出信号を取得する。
指示認識部43は、操作情報としての音声データ及び画像データを解析して、操作が示す指示内容を認識するとともに、操作対象の照明装置2を特定する。
指示認識部43は、音声入力情報を解析し、ユーザからの入力情報の意図を解析する処理を行う。具体的には音声認識によりユーザの操作対象機器の操作に関する発話(操作に関する用語)を理解し、設定をユーザの意思に沿って変更できるようにする。
例えば「照明をつけて」という発話を、操作対象機器である照明装置2に照明の点灯を実行させる言葉と理解する。このためには、例えばメモリ部30には各種の操作に関する多様な言葉が記憶されるようにしておき、その照合によりユーザの意図が正しく理解できるようにする。
具体的には例えば照明装置2について「照明をつけて」「照明のスイッチをオンにして」「照明を消して」「明るくして」「暗くして」・・・など多様な言葉が、それぞれ照明装置2の点灯を指示する言葉として認識できるように、1つの設定操作を表現する多くの言葉が記憶されたテーブルを持つようにする。
また照明装置2について「この部屋の照明をつけて」「窓際の照明を消して」「テレビの側を暗くして」・・・などの複数ある照明装置2から或る照明装置2を特定するための「この部屋」「窓際」「テレビの側」・・・などの言葉が、それぞれ照明装置2を特定する言葉として認識できるように、各照明装置2の位置、状態を表現する多くの言葉が記憶されたテーブルを有していてもよい。
指示認識部43は操作依頼者の発話とこれらのテーブルを照合して、ユーザの照明装置2に対する指示内容やユーザが操作を希望する対象の照明装置2を判定する。
指示認識部43は、撮像部12によるセンシング情報を解析することで、ユーザの動作を読み取ることにより、ユーザからの入力情報の意図を解析する処理を行う。具体的には画像解析によりユーザの照明装置2の操作に関するジェスチャ(操作に関する動作)を理解し、設定をユーザの意思に沿って変更できるようにする。
例えば、ユーザの手又は指の、動き又は形状を、照明装置2を点灯させる動作と理解する。また、ユーザの手又は指の示す方向からユーザが操作対象とする照明装置2を選択する動作と理解する。このためには、例えばメモリ部30には各種の操作に関する多様な動作が記憶されるようにしておき、照合によりユーザの意図が正しく理解できるようにする。
また音声データと画像データの解析を組み合わせることで、ユーザの意図をより正確に理解することが可能となる。例えばユーザが照明装置2を指により方向を指し示すジェスチャと「あの照明をつけて」といった発話を行った場合、音声データを解析しただけでは「あの照明をつけて」の「あの」がどの方向を指しているかを認定することは難しい。そこで、ユーザが照明装置2を指さすジェスチャについて解析を行うことで指の方向から操作対象となる照明装置2を特定する。即ち、言葉として不明確な部分を画像により補完することができる。
また指示認識部43は、上記のような音声データ及び画像データを解析することにより、操作対象として特定した照明装置2の識別情報を、例えば赤外線通信により情報受信部13が受信することで取得する。
指示送信部44は、指示認識部43が解析した指示内容に応じた制御信号を生成し、指示認識部43が特定した照明装置2に送信する。
次に実施の形態における操作対象機器2の一例として、照明装置2の構成について説明する。
照明装置2は、通信インタフェース50、情報送信部60、演算部70、照明部80を備える。
通信インタフェース50は、エージェント装置1と照明装置2との間でネットワークNWを介して通信を行う部位である。
また情報送信部60は、照明装置2の識別情報を赤外線通信を介して発信する部位である。情報送信部60は、赤外線通信の発信を常に行っていてもよいし、ネットワークNWを介してエージェント装置1からの要求があったときのみ発信してもよい。
ここで演算部70の機能構成について説明する。演算部70は、例えばマイクロコンピュータ等により構成され、通信部71と機器制御部72が設けられている。
通信部71は、通信インタフェース50によりネットワークNWを介してエージェント装置1の制御部40と通信可能とされている。これにより、演算部70は、制御部40から照明装置2についての操作内容についての情報を取得することができる。
機器制御部72は、通信部71がエージェント装置1から受信した操作制御指示に従って制御を行うことで、照明装置2において、エージェント装置1が設定した指示内容情報による様々な出力が実現される。例えば照明部80についての点灯又は消灯を実行する。
また機器制御部72は、情報送信部60により赤外線通信を介した照明装置2の識別情報の発信を実行させる。
次に、これらの機能を備えたエージェント装置1の制御部40が、操作対象となっている操作対象機器2を特定し、その操作対象機器に操作の指示内容情報を送信するために用いられるDBについて、図3を参照して説明する。エージェント装置1では、例えばメモリ部30に各種DBが記憶されている。
DBは、例えば機器情報管理DB31、位置情報管理DB32等で構成されている。
もちろんこれ以外にもDBとして、実施の形態のエージェント装置1として機能するために必要なDBを含んで構成されていてもよい。
機器情報管理DB31には、例えば図3Aに示すように、操作対象機器2の識別情報である機器ID(Identification)と操作対象機器2に割り振られているIPアドレス等のアドレス情報が記憶されている。これにより、エージェント装置1は操作対象機器2の機器IDさえ特定できれば、適切な操作対象機器2に操作に関する指示内容情報を送信することができる。
位置情報管理DB32には、操作対象機器2の識別情報である機器IDに対して、操作対象機器2を特定するために用いる位置情報が記憶されている。位置情報としては、例えば、撮像装置が撮像した画像データを解析することにより求められる各操作対象機器2の空間座標の値が記憶されている。
また位置情報には「テレビジョン装置の横」「机の上」「窓際」「室内にある」・・・等の空間内に配置されたものとの相対的な関係として記憶することもできる。この場合、エージェント装置1が撮像部12から取得した画像データを解析することにより行う。
また位置情報として、操作対象機器2を解析したセンシング機器10の識別情報を紐付けて記憶することもできる。これにより、例えばそれぞれの部屋ごとにセンシング機器10が設置されている場合において、操作対象機器2をセンシング機器10に対応付けておくことで、部屋単位で操作対象機器2の操作を行うことができる。
以上の各DBは、エージェント装置1とは別のコンピュータ内(例えば、操作対象機器2等)に構築されていてもよいし、エージェント装置1内に構築されていてもよい。
また機器情報管理DB31、位置情報管理DB32は、エージェント装置1がアクセス可能であれば、どのような形態で実現されていてもよい。例えばエージェント装置1と同一システム内のメモリ部30に各DBのすべてが形成されていてもよいし、各DBの一部又は全部が別体、遠隔地などのコンピュータシステムに設けられていてもよい。もちろん各DBが一つの装置(例えば一つのHDDなど)内に形成されている必要はない。また各DBのそれぞれが、それぞれ1つのDBとして構成される必要もない。例えば、位置情報管理DB32として記憶される情報が、機器情報管理DB31により記憶管理されてもよい。実施の形態で説明する上記各DBは、実施の形態の処理に関連する情報の記憶部を、それぞれ一つのDBの形態で例示したものに過ぎない。
以上に示したエージェント装置1、操作対象機器としての照明装置2を構成する情報処理装置のハードウェア構成を図4に示す。エージェント装置1、照明装置2として示す各装置は、情報処理及び情報通信が可能な図4に示すようなコンピュータ装置170として実現できる。
図4において、コンピュータ装置170のCPU(Central Processing Unit)171は、ROM(Read Only Memory)172に記憶されているプログラム、または記憶部178からRAM(Random Access Memory)173にロードされたプログラムに従って各種の処理を実行する。RAM173にはまた、CPU171が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU171、ROM172、およびRAM173は、バス174を介して相互に接続されている。このバス174にはまた、入出力インタフェース175も接続されている。
入出力インタフェース175には、センシング機器10、或いは操作子や操作デバイスよりなる入力装置176が接続される。
また入出力インタフェース175には、LCD(Liquid Crystal Display)或いは有機EL(Electro-Luminescence)パネルなどよりなるディスプレイ、並びにスピーカなどよりなる出力装置177が接続される場合も考えられる。
入出力インタフェース175には、ハードディスクなどより構成される記憶部178、モデムなどより構成される通信部179が接続される場合もある。
通信部179は、ネットワークNWとして示したインターネット等の伝送路を介しての通信処理を行ったり、それぞれの装置間での有線/無線通信、バス通信などによる通信を行う。
入出力インタフェース175にはまた、必要に応じてドライブ180が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア181が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部178にインストールされる。
上述したエージェント装置1の制御部40、照明装置2の演算部70の機能をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、ネットワークや記録媒体からインストールされるようにすることができる。
この記録媒体は、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク、光ディスク、光磁気ディスク、若しくは半導体メモリなどよりなるリムーバブルメディア181により構成される。或いは、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM172や、記憶部178に含まれるハードディスクなどでも構成される。
以上のような構成によって、実施の形態のエージェントシステムを実現することが可能である。
なお、エージェント装置1や操作対象機器2は1又は複数の情報処理装置で構成される。また、エージェント装置1における制御部40や操作対象機器2の演算部70における各機能は、情報処理装置においてCPU171でプログラムに応じて実行される処理により実現される機能である。但し、以下説明する全部又は一部の各構成の処理をハードウェアにより実現してもよい。
また、各機能をソフトウェアで実現する場合に、各機能がそれぞれ独立したプログラムで実現される必要はない。一つのプログラムにより複数の機能の処理が実行されてもよいし、一つの機能が複数のプログラムモジュールの連携で実現されてもよい。また各機能は複数の情報処理装置に分散されていてもよい。さらに機能の一つが複数の情報処理装置によって実現されてもよい。
<3.エージェントシステムの概要>
本技術のエージェントシステムの概要について、図5及び図6を用いて説明する。
ここでは、環境の一例としてユーザが居住する家においてエージェントシステムを利用する場合について説明する。家には様々な操作対象機器2が存在する。
また、本エージェントシステムは、乗用車若しくはその他の乗り物、オフィス、店舗、教育施設、又は公共施設といった、他のいかなる環境において利用されてもよい。また、地理的に離れた複数の環境(例えば、家庭及び乗用車、又は家庭及びオフィスなど)を1つのエージェントシステムが統合的に扱ってもよい。
図5では、一例として操作対象機器としての照明装置2が3台、有線又は無線でネットワークNWに接続されている。またそれぞれの照明装置2は、エージェント装置1と互いにネットワークNWにより通信可能に接続されている。
ここで、ユーザが音声によってエージェント装置1に機器の操作を依頼するときに、例えば「照明を点けて」などの言い方によって指示する場合があるが、このような場合においては「全ての照明」或いは「どれかは特定できないが一つの照明」といった曖昧な内容で操作対象とする照明装置2を特定することとなる。ユーザが音声入力による指示に使用した一般名によって特定される操作対象機器2が一つしか存在しない場合は問題ないこともあるが、例えば「テレビの付近の照明だけ点けたい」といった依頼を反映させて操作対象機器2を特定することは困難である。
特定の操作対象機器2の操作をユーザの音声入力によりエージェント装置1に依頼するためには、事前にユーザが登録した、あるいはあらかじめ操作対象機器2に登録されていたコマンドや機能につける別名としてのエイリアス(名称)などを用いて指示を出すことで、操作対象機器2を特定する手法も存在する。
しかしながら、エイリアス等のあらかじめ決まった名称による操作では、その名称をあらかじめ知っているユーザしか操作を依頼できず、それを知らない他のユーザは操作対象機器2を特定することができない。またエイリアスを把握しているユーザであっても、登録される操作対象機器2の数が増えれば増えるほどエイリアスを覚える負担が増えてしまうことになる。
また、ユーザの音声や動作を解析することで操作対象機器2を特定した後に、特定した操作対象機器2に対してネットワークNWを介して制御を行わせるには、特定した操作対象機器2のIPアドレスを把握しておくことが必要である。
そこで本技術では、照明装置2はそれぞれ機器ID及びIPアドレスの情報をエージェント装置1に送信する手段を有しており、エージェント装置1は、そこから得た情報に基づいて各照明装置2の機器IDとIPアドレスが紐付けられた状態で、エージェント装置1の機器情報管理DB31に記憶する。実施の形態では、例えば機器ID「ABC」「EFG」「XYZ」のそれぞれに対してIPアドレスが紐付けられて記憶されている。
上記のような状況が整った環境において、ユーザは特定の照明装置2のみを点灯させるために、「あの照明を点けて」と発話するとともに、操作対象となる照明装置2を指によるジェスチャによって示す。
この場合エージェント装置1は、音声入力から、ユーザが「あの」によって指定するものについて機能を有効にすること(点灯させること)を音声データを解析することで操作の指示内容を取得し、指さす方向を画像データから解析することで指さす方向に照明装置があることから「照明を点灯させる」要求ということを判定する。
操作対象として特定した照明装置2は赤外線により自身の機器IDを周囲に発信する機能を有している。エージェント装置1は、受信した赤外線に埋め込まれたデータをデコードし、特定した照明装置2の機器IDを取得する。そしてエージェント装置1は、機器情報管理DB31から機器IDに紐付けられたIPアドレスを取得し、取得したIPアドレスに対して照明を点灯させるコマンドを発行する。
照明装置2から赤外線を通じて取得した機器IDとネットワークNWから取得した機器IDの照合が行われることで、特定した照明装置2について操作を実行させることができる。即ち、エイリアスなどの決められた機器名称を用いずとも、指差しジェスチャなどによる直感的な機器特定を利用してエージェント装置1に照明装置2等の操作対象機器2の操作を依頼することができる。
また図6に示すように、特定領域内の照明装置2を一斉に操作することも可能である。
この場合、各照明装置2の機器IDとIPアドレスが紐付けられた状態において、あらかじめ部屋(roomA、roomB)ごとに照明装置2の機器IDを紐付けておく。
ユーザは、部屋roomBの照明を消すために「この部屋の照明を消して」と発話する。
この場合エージェント装置1は、音声入力から、ユーザが「この」によって指定する照明装置2について消灯させることを、音声データを解析することで操作の指示内容を取得し、ユーザの現在位置を画像データから解析することで、ユーザが現在部屋roomBにいることから、「roomBの照明を点灯させる」要求ということを判定する。
<4.第1の実施の形態の処理>
図7及び図8を用いてエージェントシステムにおける第1の実施の形態の処理について説明する。第1の実施の形態では、ユーザがエージェントシステムを利用するにあたり、初期設定の段階で機器情報及び位置情報の記憶を行っておくものである。
エージェントシステムの概要について図7を用いて説明する。図7は、エージェント装置1、操作対象機器2(照明装置2)が実行する処理の流れの一例を示している。なお、以下において一度説明した処理と同様の処理については、同一符号を付し、説明を省略するものとする。
まず照明装置2は、ステップS11において、エージェントシステムを利用するにあたり、エージェント装置1に機器情報をネットワークNWにより送信する。機器情報とは自機の機器ID及びIPアドレスの情報のことである。なお、機器IDは他機器のIDと衝突しないよう十分に一意性の確保できるID体系が望ましい。
エージェント装置1は、ステップS12において照明装置2から機器情報を受信すると、ステップS13に処理を進める。エージェント装置1は、ステップS13においてリアクション要求を照明装置2に送信する。
リアクション要求を受けた照明装置2は、ステップS14において、機器IDの情報を発信する。ここで照明装置2は、通信手段として赤外線通信を用いる。なお当該通信手段は指向性の高いものが望ましい。赤外線を発する照明装置2の特定をしやすくするためである。また雑音の影響を受けやすいことも想定されるため、エラー訂正能力の高い符号化を併用することが望ましい。
エージェント装置1は、ステップS15で照明装置2から機器ID情報を受信すると、ステップS12で受信した機器IDと同じものであるかを判定する。機器IDが同じものでなかった場合、他の機器IDを受信するまで待機する。また、一定時間以上、同じ機器IDを受信できなかった場合には、再試行を促すエラー結果をユーザに通知することとしてもよい。
ここで、照明装置2の識別情報をエージェント装置1が取得する手法として、撮像部12を用いることも考えられる。この場合、例えば操作対象機器2の表面にはQRコード(登録商標)等を印刷することで機器IDの情報が埋め込まれている。エージェント装置1は、撮像部12により当該コードの画像データを取得し、撮像信号処理部15で必要な処理が施された後、制御部40で当該画像データを解析することで各照明装置2の機器IDを取得することができる。
機器IDが同じものである場合は、エージェント装置1は、ステップS16において、空間内座標の検出を行う。ここでエージェント装置1は、情報受信部13での受信により赤外線を送信した照明装置2を判定する。当該判定の方法としては、例えば、指向性の高い通信手段を用い、情報受信部13が当該通信を受信した際に、当該受信方向にある機器を信号を発信した照明装置2と判定する。当該機器は、撮像部12が取得したエージェントシステムの範囲内の画像データを解析することで特定することが考えられる。このときエージェント装置1は、例えば情報受信部13を旋回させることで、情報受信部13が信号を受信した際の撮像部12の角度から信号の発信方向を判定し、撮像部12が撮像した発信方向についての照明装置2等の画像データを解析することで、当該照明装置2の空間内座標を算出する。これにより、エージェントシステムにおける照明装置2の設置位置を判定することができる。なお、照明装置2の設置位置情報は、ユーザが例えばエージェント装置1に操作により入力することで記憶させることも可能である。
その後、エージェント装置1は、ステップS17において、機器情報及び位置情報の記憶を行う。エージェント装置1は、照明装置2の機器IDにIPアドレスが紐付けられた機器情報を機器情報管理DB31に記憶し、照明装置2の位置情報としての空間内座標を位置情報管理DB32に記憶する。
また、ここでエージェント装置1は、撮像部12により、照明装置2の周辺機器の様子を画像データとして取得し、当該画像データを解析することで、「机の上」「テレビの横」など周辺機器との相対的な位置関係を位置情報として位置情報管理DB32に記憶する。また、エージェント装置1は、エージェントシステムの領域内に配置された様々なオブジェクトの空間内座標を計測しておく。
以上により、ユーザがエージェントシステムを利用するにあたっての事前処理が完了する。ここで、初期設定の段階で機器情報のみならず位置情報の記憶を行っておくことで、後述する対象機器判定処理をエージェント装置1が実行するにあたり、処理負担を軽減させることができる。
ステップS11〜S17の処理は、ユーザがエージェントシステムを利用するにあたり、操作対象機器2の追加ごとに実行される処理である。
その後、エージェント装置1は、ステップS18において、センシング機器10によるユーザからの指示入力を監視する処理を行う。例えば、マイクロフォン11により取得した音声データや撮像部12から取得した画像データを解析することで、照明装置2についての操作指示であるか否かを判定する。ここでエージェント装置1は、音声データを解析することで操作内容についての情報も取得する。
エージェント装置1は、ステップS19において、照明装置2の操作指示を検知するまで、ステップS18の指示監視処理を行う。
ステップS19において照明装置2への操作指示を検知すると、エージェント装置1はステップS20に処理を進め、対象機器判定処理を実行する。
ここで、ステップS20の対象機器判定処理の詳細について、図8を用いて説明する。
まずエージェント装置1の制御部40は、ステップS101において、ジェスチャ解析が必要か否かを判定する。ここでジェスチャ解析が必要な場合とは、マイクロフォン11が集音した音声データの解析のみでは表現が曖昧なため、操作対象となる照明装置2が特定できない場合をいう。
ステップS101でジェスチャ解析が必要と判定すると、制御部40は、ステップS102に処理を進め、空間内座標の算出処理を実行する。制御部40は、指を差す等のジェスチャにおいて、ジェスチャしたユーザの腕や指の角度からジェスチャの示す先の空間内座標を算出する。
そして制御部40は、ステップS103において、算出した空間内座標の値に近い機器IDの情報を位置情報管理DB32から取得する。このとき、空間内座標の値に近似する空間内座標が記憶されている機器IDが複数存在することも想定される。この場合、制御部40は、ユーザの発言による音声データを解析して要求内容を推定することで、要求内容に応じて機器IDを選択することもできる。
機器IDを取得すると、制御部40は、ステップS104において、取得した機器IDに対応するIPアドレスを機器情報管理DB31から取得する。その後制御部40は、図8の処理を終える。
一方、ステップS101においてジェスチャ解析が不要な場合、制御部40はステップS105に処理を進める。ジェスチャ解析が不要な場合には、例えば取得した音声データにエイリアスが含まれているため機器IDを特定可能な場合や、音声データの「机の上」等の特定の場所を示す表現から機器IDを特定可能な場合等が考えられる。
制御部40は、ステップS105において、上記それぞれの場合において操作対象となる機器の特定を行う。
その後制御部40は、ステップS104において、機器IDに対応するIPアドレスを取得し、図8の処理を完了する。
図7に戻り、エージェント装置1は、ステップS20からステップS21に処理を進める。エージェント装置1は、ステップS21において、解析した照明装置2の指示内容の情報に基づいてコマンド生成処理を実行する。そしてエージェント装置1は、ステップS22において、動作制御処理を実行し、ステップS23において照明装置2に動作処理を実行させる。
以上により、エージェントシステムにおける第1の実施の形態の処理が完了する。
<5.第2の実施の形態の処理>
次に図9及び図10を用いてエージェントシステムにおける第2の実施の形態の処理について説明する。第2の実施の形態は、エージェントシステムを利用するにあたり、照明装置2等の操作対象機器2の空間内座標を対象機器判定処理において算出する処理である。
図9を用いて第2の実施の形態におけるエージェントシステムの概要について説明する。図9は、エージェント装置1、操作対象機器2(照明装置2)が実行する処理の流れの一例を示している。
まず照明装置2は、エージェントシステムを利用するにあたり、エージェント装置1に機器情報をネットワークNWにより送信する。エージェント装置1は、ステップS12において照明装置2から機器情報を受信すると、ステップS31に処理を進める。
エージェント装置1は、ステップS31において、照明装置2の機器IDにIPアドレスが紐付けられた機器情報を機器情報管理DB31に記憶する。
以上により、ユーザがエージェントシステムを利用するにあたっての事前処理が完了する。また第2の実施の形態においては、ステップS14において、照明装置2から赤外線通信による機器IDの発信が間欠的に行われている。
その後、エージェント装置1は、ステップS18において、センシング機器10によるユーザからの指示入力を監視する処理を行う。そしてエージェント装置1は、ステップS19において、照明装置2の操作指示を検知するまで、ステップS18の指示監視処理を行う。
ステップS19において照明装置2への操作指示を検知すると、エージェント装置1はステップS32に処理を進め、対象機器判定処理を実行する。
ここで、ステップS32の対象機器判定処理の詳細について、図10を用いて説明する。
まずエージェント装置1の制御部40は、ステップS101において、ジェスチャ解析が必要か否かを判定する。
ステップS101でジェスチャ解析が必要と判定すると、制御部40は、ステップS102に処理を進め、ジェスチャしたユーザの腕や指の角度からジェスチャの示す先の空間内座標の算出処理を実行する。
その後、制御部40は、ステップS201において、照明装置2から赤外線通信により機器ID情報を受信したかを判定する。ステップS201で機器IDを受信すると、制御部40は、ステップS202において、情報受信部13での受信方向から赤外線を送信した照明装置2を判定し、当該判定した照明装置2の空間内座標を算出する。空間内座標は、撮像部12が撮像した画像データを解析することで算出する。
そして制御部40は、ステップS203において、ステップS201で取得した機器IDの照明装置が、操作要求がされている機器かを判定する。具体的には、制御部40は、ステップS102でのジェスチャ解析により算出した空間内座標の値と、ステップS202での情報受信部13が信号を受信した際の撮像部12の角度に基づいて算出した空間内座標の値とが近似するか否かにより、当該照明装置2が操作要求された機器であるかを判定する。
ステップS203で操作要求機器であると判定すると、制御部40は、ステップS104において、ステップ201で受信した機器IDに対応するIPアドレスを機器情報管理DB31から取得する。その後、制御部40は図10の処理を終える。
ステップS203で操作要求機器でないと判定すると、制御部40はステップS201に処理を進め、新たな赤外線による機器IDの受信があるまで待機する。そしてステップS201において機器IDを受信しない場合は、ステップS205において一定時間経過するか、ステップS201において新たな機器IDを取得するかまでステップS201→S205の処理をループする。
ここで制御部40は、旋回している情報受信部13の受信部に、照明装置2から発信される信号が受信するまで待機する。またエージェント装置1に情報受信部13が複数設けられている場合、順次、それぞれの情報受信部13が照明装置2からの発信を検知処理を行うため、処理対象の情報受信部13となるまで待機することになる。ステップS205において一定時間とは、このような待機時間により生ずるものである。
ここで、ステップS205において機器IDを受信せずに一定時間が経過すると、制御部40はステップS205からステップS206に処理を進め、ユーザの指示内容が反映されない旨などのエラー通知を行う。その後制御部40は図10の処理を完了する。
一方、ステップS101においてジェスチャ解析が不要な場合、制御部40はステップS105に処理を進める。制御部40は、ステップS105において、上記それぞれの場合において操作対象となる機器の特定を行う。
図9に戻り、エージェント装置1は、ステップS32からステップS21に処理を進める。エージェント装置1は、ステップS21において、解析した照明装置2の指示内容の情報に基づいてコマンド生成処理を実行する。そしてエージェント装置1は、ステップS22において、動作制御処理を実行し、ステップS23において照明装置2に動作処理を実行させる。
以上により、エージェントシステムにおける第2の実施の形態の処理が完了する。
<6.第3の実施の形態の処理>
次に図11を用いてエージェントシステムにおける第3の実施の形態の処理について説明する。第3の実施の形態は、照明装置2がネットワークNWによるエージェント装置1のリクエスト要求を受信したときに、機器IDを有する赤外線を発信するものである。
ここでは、ステップS32の対象機器判定処理について第2の実施の形態と異なる点を説明する。
まずエージェント装置1の制御部40は、ステップS101において、ジェスチャ解析が必要か否かを判定する。ステップS101でジェスチャ解析が必要と判定すると、制御部40は、ステップS102に処理を進め、ジェスチャしたユーザの腕や指の角度からジェスチャの示す先の空間内座標の算出処理を実行する。
その後制御部40は、ステップS301において、機器情報管理DB31に記憶されている機器IDから処理対象となる機器IDを選択する。そして制御部40は、ステップS302において、選択した機器IDに対応する照明装置2にリアクション要求を行う。制御部40からのリクエスト要求を照明装置2が受信することで、当該照明装置2による自機の機器ID情報を有する赤外線の発信が開始される。
その後、制御部40は、ステップS201において、照明装置2から赤外線通信により機器ID情報を受信したかを判定する。ステップS201で機器IDを受信すると、制御部40は、ステップS202において、情報受信部13で受信した赤外線の入射角度から赤外線を送信した照明装置2を判定し、当該判定した照明装置2の空間内座標を算出する。
そして制御部40は、ステップS203において、ステップS201で取得した機器IDの照明装置が、操作要求がされている機器かを判定する。
ステップS203で操作要求機器でないと判定すると、制御部40はステップS303に処理を進め、全ての機器について処理が終了したかを判定する。ステップS303において全ての機器について処理が終了していない場合、制御部40は、ステップS303からステップS301に処理を進め、以下、ステップS203で操作要求機器を特定するか、ステップS303で全ての機器について処理が終了するまで上記と同様の処理を実行する。
ステップS203において操作要求機器を特定すると、制御部40は、ステップS104において、当該機器の機器IDに対応するIPアドレスを取得し、図11の処理を終了する。
またステップS303において、全ての機器について処理が終了した、即ち、操作要求機器がなかった場合は、制御部40はステップS206においてエラー通知を実行し図11の処理を終了する。
またステップS201において機器IDを受信しない場合は、ステップS205において一定時間経過するか、ステップS201において新たな機器IDを取得するかまでステップS201→S205の処理をループする。
ここで、ステップS205において機器IDを受信せずに一定時間が経過すると、制御部40はステップS205からステップS303に処理を進め、他の機器の処理が残っている場合は、ステップS303からS301に処理を進め、次の機器IDについての処理を進める。
一方、ステップS101においてジェスチャ解析が不要な場合、制御部40はステップS105に処理を進める。制御部40は、ステップS105において、上記それぞれの場合において操作対象となる機器の特定を行う。そして制御部40はステップS104で操作対象となる機器に対応するIPアドレスを取得し、図11の処理を終了する。
以上により、エージェントシステムにおける第3の実施の形態の対象機器判定処理が完了する。
<7.まとめ及び変形例>
以上の実施の形態によれば次のような効果が得られる。
実施の形態におけるエージェント装置1は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部42と、操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器(操作対象機器2)のうちで操作情報による操作対象とされる被制御機器(操作対象機器2)を特定する指示認識部43と、指示認識部43が認識した指示内容に応じた制御信号を生成し、指示認識部43が特定した被制御機器(操作対象機器2)に送信する指示送信部44と、を備える(図7)。
これにより、複数の被制御機器のうちの特定の操作対象機器2について、ユーザの音声により入力された指示内容を反映させた制御を実行することができる。よって、例えば音声データ解析により抽出したエイリアスや場所を示す表現等により操作対象機器2の機器IDを特定可能な場合は、ユーザの挙動(ジェスチャ)を画像データから解析することなしに操作対象機器2を特定し、操作することができる。つまり、エージェント装置1の処理負担を軽減させることができる。
また、ユーザの挙動(ジェスチャ)を画像データで解析することで、操作対象機器2の機器ID及び操作内容が特定できる場合には、ユーザの音声入力による音声データを解析することなしに、操作対象機器2を操作することも可能である。これによってもエージェント装置1の処理負担が軽減される。
さらに、音声及び挙動による操作を示す音声データ及び画像データの両方を解析することで、音声データと画像データの不明確な部分を補完し、ユーザからの操作指示内容がより正確に反映される。また操作対象となる操作対象機器2の特定の精度も向上する。
従って、対象となる機器の特定が曖昧な操作依頼であっても、操作対象となる機器を特定する精度を向上させることができるため、ユーザにとって機器の快適な操作環境を実現することができる。
実施の形態では、制御部40(指示送信部44)は、被制御機器(操作対象機器2)の識別情報(機器ID)とアドレス情報(IPアドレス)を対応させて記憶した記憶部(メモリ部30)を参照して、操作対象と特定された被制御機器(操作対象機器2)の識別情報(機器ID)に対応するアドレス情報(IPアドレス)を取得し、該アドレス情報(IPアドレス)を用いて当該制御信号を送信することが考えられる(図7)。
これにより、ユーザの特定する操作対象機器2とエージェント装置1が指示内容を送信する操作対象機器2との紐付けが可能となることにより、ユーザとエージェント装置1との間で操作対象機器2の認識が共有されることになる。
従って、操作対象となる操作対象機器2の機器IDを取得することができれば、当該操作対象機器2にユーザの操作が示す指示内容に応じた制御信号を操作対象機器2に送信することができる。
実施の形態では、制御部40(指示認識部43)は、操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器(操作対象機器2)の識別情報(機器ID)を、当該位置又は方向に配置された被制御機器(操作対象機器2)からの送信信号を受信することで取得することが考えられる(図9)。
つまりエージェント装置1は、画像データに表れる操作対象機器2を指し示す等のユーザのジェスチャを解析することで操作対象となる操作対象機器2を特定し、当該特定された操作対象機器2からの送信信号を受信することで機器IDを取得する。そしてエージェント装置1は、当該機器IDに対応するアドレスにユーザの指示内容に応じた制御信号を操作対象機器2に送信することで、ユーザの指示内容を反映させた操作対象機器2の操作を実現する。
これにより、ユーザの特定する操作対象機器2とエージェント装置1が指示内容を送信する操作対象機器2との紐付けが可能となることにより、ユーザとエージェント装置1との間で操作対象機器2の認識が共有されることになる。
従って、操作対象となる操作対象機器2の機器IDを取得することができれば、当該操作対象機器2にユーザの操作が示す指示内容に応じた制御信号を操作対象機器2に送信することができる。
また、エイリアスなどの特定の機器名称を用いなくても、ユーザの指差しジェスチャなどによる直感的な特定手法により、エージェント装置1に操作対象機器2の操作を依頼することができる。つまり、「あれ」「それ」といった指示語によるリクエストの解釈を、前後の文脈を用いることなしに特定することができるようになる。
実施の形態では、制御部40(指示認識部43)は、特定の被制御機器(操作対象機器2)に信号送信を指示し、その受信により、当該被制御機器(操作対象機器2)の位置情報を判定し、識別情報(機器ID)に対応した位置情報としての記憶データ(位置情報管理DB32)が形成されるようにすることが考えられる(図7のS17)。
機器IDに対応した位置情報としての位置情報管理DB32を形成しておくことで、画像データの解析等によりユーザのジェスチャ等が指し示す位置情報を取得すれば、その位置情報の周辺にある操作対象機器2の機器IDを操作対象のものとして取得することができる。つまり、機器IDに対応する位置情報とユーザの指し示す位置情報とを照合することで、操作対象となる操作対象機器2を容易に特定することができる。また、あらかじめ位置情報管理DB32に機器IDと位置情報との対応関係を記憶しておくことで、ユーザの指し示す機器との照合を行うごとに対応関係を生成する必要がなくなるため、エージェント装置1の処理負担の軽減を図ることができる。
またこのときエージェント装置1は、撮像部12から取得した画像データを解析することで、エージェントシステムの範囲内に設置された操作対象機器以外の様々な機器や、窓、扉、椅子、机、タンス、ベッド等の様々なオブジェクトの位置を、当該オブジェクトの名称と対応付けて位置情報管理DB32等に記憶しておくこともできる。
これによりエージェントシステムが利用可能な範囲内の機器、オブジェクトの場所やその特性(モデル名など)をエージェント装置1が把握することができるため、当該システムにおいて管理画面や設定画面を構築する際に、従来のリスト型の機器一覧表示とは異なるグラフィカルな画面で構成することが可能となる。例えば、複数のスピーカを部屋に配置してサラウンド環境を構築するような状況において、部屋の地図に本技術によって得られたスピーカの位置をマッピングしたものを画面に表示すれば、音響も含めた最適な配置をわかりやすくユーザに提示することができる。
また、操作対象機器以外の様々な機器、オブジェクト等の位置をエージェント装置1が把握できるため、音声データ解析によって得られる機器、オブジェクト等の名称による指定との組み合わせにより、当該機器等を基準にした相対的な操作対象機器2の指定も可能となる。例えば「テレビの近くの照明を消して」といった「遠近」「上下左右」といった相対的な位置による指示をすることができる。
また操作対象機器2の位置をエージェント装置1が把握できるため、図6に示すようなグルーピングを利用した操作対象機器2の特定も可能となる。例えばユーザから「この部屋の照明を消して」という指示がされた場合、エージェント装置1は、撮像部12から取得した画像データを解析することでユーザの位置情報を取得し、ユーザの位置情報が含まれる部屋の領域内に存在する照明装置2を一斉に制御することが可能となる。また、事前に部屋としての領域に「リビング」といった名称を設定しておけば「リビングの照明を消して」といったユーザからの指示に対しても同様の処理を実行することが可能となる。
実施の形態では、制御部40(指示認識部43)は、操作情報としての音声データに表れるユーザの発話により指定される位置に配置された被制御機器(操作対象機器2)を、操作対象の被制御機器(操作対象機器2)と特定することが考えられる(図7のS19)。
ユーザの発話が位置を特定するのに十分な情報を含んでいる場合は、その音声データを解析することで、ユーザの操作対象機器2の位置を特定するためのジェスチャの有無等に関わらず操作対象となる操作対象機器2として特定することが可能となる。
従って、音声データの解析により操作対象機器2が特定できるときは、ジェスチャの内容について解析することなしに操作対象機器2を操作することができる。つまり、エージェントシステムの操作性が向上する。
実施の形態では、制御部40(指示認識部43)は、操作情報としての画像データに表れるユーザの挙動により指定される位置の空間内座標を算出し、当該空間内座標に位置する被制御機器(操作対象機器2)を、操作対象の被制御機器(操作対象機器2)と特定することが考えられる(図8)。
これにより、ユーザにより指定される位置を空間内座標の値として算出することで、指定位置を具体的な数値として把握することができる。従って、それぞれの操作対象機器2の空間内座標をエージェント装置1が把握できるため、高さ、奥行き等を考慮した操作対象機器2の位置の特定が可能となる。
実施の形態では、制御部40(指示認識部43)は、複数の被制御機器(操作対象機器2)に順次信号送信を指示することで、その受信により、各被制御機器(操作対象機器2)の位置情報を判定し、ユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器(操作対象機器2)を特定することが考えられる(図11)。
複数の操作対象機器2に順次信号送信を指示することで、信号を受信する際に他の操作対象機器2からの信号と混同することがなくなり、操作対象となる操作対象機器2を明確に特定できる。またエージェント装置1が操作対象機器2から送信された信号を受信する際には、信号送信が行われている操作対象機器2は一台であるため、他の操作対象機器2からの信号と混同することがなくなる。これはエージェント装置1と操作対象機器2が識別情報の送受信を行う際に用いられる通信手段が指向性の低いものである場合に特に有効である。指向性の低い通信手段の場合、複数の操作対象機器2から送信された信号の発信方向の特定が難しく、どの操作対象機器2から送信された信号であるかを判別することが困難であるためである。
実施の形態では、制御部40(指示認識部43)は、音声データを解析して操作対象の被制御機器(操作対象機器2)を特定できなかった場合、画像データを解析して操作対象の被制御機器(操作対象機器2)を特定することが考えられる。
つまり、音声データの解析により操作対象機器2を特定できる場合は、画像データの解析処理を省略することができる。従って、エージェント装置1の処理負担の軽減を図ることができる。
実施の形態のプログラムは、上述の実施の形態で示した図7から図11の処理を、例えばCPU、DSP等、或いはこれらを含むデバイスに実行させるプログラムである。
即ち実施の形態のプログラムは、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理と、を情報処理装置に実行させるプログラムである。
このようなプログラムにより、上述したエージェント装置1(情報処理装置)を実現できる。
このようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。
あるいはまた、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、MO(Magnet optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN、インターネットなどのネットワークを介してダウンロードすることもできる。
またこのようなプログラムによれば、実施の形態のエージェント装置1の広範な提供に適している。例えばパーソナルコンピュータ、携帯型情報処理装置、家電機器、記録再生機器、放送機器、携帯電話機、ゲーム機器、ビデオ機器、PDA(Personal Digital Assistant)等にプログラムをダウンロードすることで、当該パーソナルコンピュータ等を、本開示の情報処理装置とすることができる。
また、本明細書においてフローチャートを用いて説明した処理は、必ずしもフローチャートに示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
以上、添付図面を参照しながら本開示の実施の形態について説明したが、本開示の技術的範囲は上記に限定されることはない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範囲内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものである。
また、本明細書に記載された効果は、あくまで説明的又は例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果と共に、又は上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
なお本技術は以下のような構成も採ることができる。
(1)
ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部と、
前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識部と、
前記指示認識部が認識した指示内容に応じた制御信号を生成し、前記指示認識部が特定した被制御機器に送信する指示送信部と、を備える
情報処理装置。
(2)
前記指示送信部は、
被制御機器の識別情報とアドレス情報を対応させて記憶した記憶部を参照して、操作対象と特定された被制御機器の識別情報に対応するアドレス情報を取得し、該アドレス情報を用いて前記制御信号を送信する
(1)に記載の情報処理装置。
(3)
前記指示認識部は、
前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、当該位置又は方向に配置された被制御機器からの送信信号を受信することで取得する
(2)に記載の情報処理装置。
(4)
前記指示認識部は、
前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、当該位置又は方向に配置された被制御機器の画像データから取得する
(2)又は(3)に記載の情報処理装置。
(5)
前記指示認識部は、
特定の被制御機器に信号送信を指示し、その受信により、当該被制御機器の位置情報を判定し、識別情報に対応した位置情報としての記憶データが形成されるようにする
(2)乃至(4)の何れかに記載の情報処理装置。
(6)
前記指示認識部は、
前記操作情報としての音声データに表れるユーザの発話により指定される位置に配置された被制御機器を、操作対象の被制御機器と特定する
(5)に記載の情報処理装置。
(7)
前記指示認識部は、
前記操作情報としての画像データに表れるユーザの挙動により指定される位置の空間内座標を算出し、当該空間内座標に位置する被制御機器を、操作対象の被制御機器と特定する
(5)又は(6)に記載の情報処理装置。
(8)
前記指示認識部は、
複数の被制御機器に順次信号送信を指示することで、その受信により、各被制御機器の位置情報を判定し、ユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器を特定する
(2)乃至(7)の何れかに記載の情報処理装置。
(9)
前記指示認識部は、音声データを解析して操作対象の被制御機器を特定できなかった場合、画像データを解析して操作対象の被制御機器を特定する
(1)乃至(8)の何れかに記載の情報処理装置。
(10)
ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、
前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理と、
を情報処理装置が実行する情報処理方法。
(11)
ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理で認識された指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信部と、
前記通信部が受信した前記制御信号により動作の制御を行う機器制御部と、を備える
情報処理装置。
(12)
ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに操作対象の被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信処理と、
前記通信処理により受信した前記制御信号により動作の制御を行う機器制御処理と、を情報処理装置が実行する情報処理方法。
1…エージェント装置、2…操作対象機器(照明装置)、40…制御部、42…操作情報取得部、43…指示認識部、44…指示送信部、70…演算部、71…通信部、72…機器制御部

Claims (12)

  1. ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部と、
    前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識部と、
    前記指示認識部が認識した指示内容に応じた制御信号を生成し、前記指示認識部が特定した被制御機器に送信する指示送信部と、を備える
    情報処理装置。
  2. 前記指示送信部は、
    被制御機器の識別情報とアドレス情報を対応させて記憶した記憶部を参照して、操作対象と特定された被制御機器の識別情報に対応するアドレス情報を取得し、該アドレス情報を用いて前記制御信号を送信する
    請求項1に記載の情報処理装置。
  3. 前記指示認識部は、
    前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、前記位置又は方向に配置された被制御機器からの送信信号を受信することで取得する
    請求項2に記載の情報処理装置。
  4. 前記指示認識部は、
    前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、前記位置又は方向に配置された被制御機器の画像データから取得する
    請求項2に記載の情報処理装置。
  5. 前記指示認識部は、
    特定の被制御機器に信号送信を指示し、その受信により、前記特定の被制御機器の位置情報を判定し、識別情報に対応した位置情報としての記憶データが形成されるようにする
    請求項2に記載の情報処理装置。
  6. 前記指示認識部は、
    前記操作情報としての音声データに表れるユーザの発話により指定される位置に配置された被制御機器を、操作対象の被制御機器と特定する
    請求項5に記載の情報処理装置。
  7. 前記指示認識部は、
    前記操作情報としての画像データに表れるユーザの挙動により指定される位置の空間内座標を算出し、該空間内座標に位置する被制御機器を、操作対象の被制御機器と特定する
    請求項5に記載の情報処理装置。
  8. 前記指示認識部は、
    複数の被制御機器に順次信号送信を指示することで、その受信により、各被制御機器の位置情報を判定し、ユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器を特定する
    請求項2に記載の情報処理装置。
  9. 前記指示認識部は、音声データを解析して操作対象の被制御機器を特定できなかった場合、画像データを解析して操作対象の被制御機器を特定する
    請求項1に記載の情報処理装置。
  10. ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
    前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、
    前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理と、
    を情報処理装置が実行する情報処理方法。
  11. ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理で認識された指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信部と、
    前記通信部が受信した前記制御信号により動作の制御を行う機器制御部と、を備える
    情報処理装置。
  12. ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに操作対象の被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信処理と、
    前記通信処理により受信した前記制御信号により動作の制御を行う機器制御処理と、を情報処理装置が実行する情報処理方法。
JP2020525326A 2018-06-12 2019-04-25 情報処理装置、情報処理方法 Pending JPWO2019239738A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018111787 2018-06-12
JP2018111787 2018-06-12
PCT/JP2019/017729 WO2019239738A1 (ja) 2018-06-12 2019-04-25 情報処理装置、情報処理方法

Publications (1)

Publication Number Publication Date
JPWO2019239738A1 true JPWO2019239738A1 (ja) 2021-07-15

Family

ID=68843236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020525326A Pending JPWO2019239738A1 (ja) 2018-06-12 2019-04-25 情報処理装置、情報処理方法

Country Status (5)

Country Link
US (1) US20210208550A1 (ja)
EP (1) EP3809712A4 (ja)
JP (1) JPWO2019239738A1 (ja)
KR (1) KR20210019424A (ja)
WO (1) WO2019239738A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705502A (zh) * 2021-09-02 2021-11-26 浙江索思科技有限公司 一种融合目标检测和目标跟踪的船舶目标行为理解系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016831A (ja) * 2001-06-29 2003-01-17 Hittsu Kenkyusho:Kk 通信機能モジュール
JP2011128766A (ja) * 2009-12-16 2011-06-30 Canon Inc 入力装置及び方法
JP2013105203A (ja) * 2011-11-10 2013-05-30 Canon Inc 情報処理装置、情報処理装置の制御方法、及び情報処理システム
JP2017112616A (ja) * 2009-11-30 2017-06-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 通信装置
JP2018036902A (ja) * 2016-08-31 2018-03-08 島根県 機器操作システム、機器操作方法および機器操作プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4311190B2 (ja) * 2003-12-17 2009-08-12 株式会社デンソー 車載機器用インターフェース
JP2011250027A (ja) * 2010-05-25 2011-12-08 Panasonic Electric Works Co Ltd リモートコントロール機器及び情報通信システム
JP6053097B2 (ja) * 2012-02-28 2016-12-27 シャープ株式会社 機器操作システム、機器操作装置、サーバ、機器操作方法およびプログラム
US9390726B1 (en) * 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures
US9785213B2 (en) * 2015-01-29 2017-10-10 Koolbridge Solar, Inc. Addressable electrical outlets
JP2017123564A (ja) 2016-01-07 2017-07-13 ソニー株式会社 制御装置、表示装置、方法及びプログラム
CN107528753B (zh) * 2017-08-16 2021-02-26 捷开通讯(深圳)有限公司 智能家居语音控制方法、智能设备及具有存储功能的装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016831A (ja) * 2001-06-29 2003-01-17 Hittsu Kenkyusho:Kk 通信機能モジュール
JP2017112616A (ja) * 2009-11-30 2017-06-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 通信装置
JP2011128766A (ja) * 2009-12-16 2011-06-30 Canon Inc 入力装置及び方法
JP2013105203A (ja) * 2011-11-10 2013-05-30 Canon Inc 情報処理装置、情報処理装置の制御方法、及び情報処理システム
JP2018036902A (ja) * 2016-08-31 2018-03-08 島根県 機器操作システム、機器操作方法および機器操作プログラム

Also Published As

Publication number Publication date
EP3809712A1 (en) 2021-04-21
KR20210019424A (ko) 2021-02-22
EP3809712A4 (en) 2021-07-21
WO2019239738A1 (ja) 2019-12-19
US20210208550A1 (en) 2021-07-08

Similar Documents

Publication Publication Date Title
CN111542420B (zh) 移动家庭机器人及其控制方法
US10623835B2 (en) Information processing apparatus, information processing method, and program
CN209400877U (zh) 电子设备、语音接口设备以及电子系统
US20190304448A1 (en) Audio playback device and voice control method thereof
KR101224351B1 (ko) 제어될 디바이스에 연관된 객체를 찾아내는 방법 및 상기 디바이스를 제어하는 방법
CN113574846A (zh) IoT装置的位置推断方法、服务器和支持该方法的电子装置
JP2018194810A (ja) デバイス制御方法及び電子機器
KR20140126539A (ko) 이동로봇, 사용자단말장치 및 그들의 제어방법
CN105049922A (zh) 用upnp对与主显示器在相同房间的候选同伴设备的接近检测
JP2017144521A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2008508587A (ja) 機器の制御方法
JP2008511877A (ja) 装置制御方法
KR102580837B1 (ko) 사용자에 대응하는 사용 패턴 정보에 기반하여 외부 전자 장치를 제어 하기 위한 전자 장치 및 방법
WO2019208170A1 (ja) 情報処理装置、情報処理方法
JP2007535261A (ja) アプリケーション制御の方法およびシステム
JPWO2019239738A1 (ja) 情報処理装置、情報処理方法
JP6719434B2 (ja) 機器制御装置、機器制御方法及び機器制御システム
JP6257040B2 (ja) カラオケシステム、携帯型情報処理装置及びプログラム
JP6701016B2 (ja) 機器制御装置、機器制御システム、機器制御方法、及びプログラム
CN111033606A (zh) 信息处理装置、信息处理方法和程序
WO2021028994A1 (ja) 機器制御装置、機器制御方法、及び機器制御プログラム
JP2023104512A (ja) 音量制御装置、機器、制御システム、およびプログラム
CN115016309A (zh) 一种基于移动终端的家居控制方法及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231003