WO2019239738A1 - 情報処理装置、情報処理方法 - Google Patents

情報処理装置、情報処理方法 Download PDF

Info

Publication number
WO2019239738A1
WO2019239738A1 PCT/JP2019/017729 JP2019017729W WO2019239738A1 WO 2019239738 A1 WO2019239738 A1 WO 2019239738A1 JP 2019017729 W JP2019017729 W JP 2019017729W WO 2019239738 A1 WO2019239738 A1 WO 2019239738A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
instruction
user
controlled device
image data
Prior art date
Application number
PCT/JP2019/017729
Other languages
English (en)
French (fr)
Inventor
山本 和典
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/056,424 priority Critical patent/US20210208550A1/en
Priority to EP19819294.0A priority patent/EP3809712A4/en
Priority to KR1020207034534A priority patent/KR20210019424A/ko
Priority to JP2020525326A priority patent/JPWO2019239738A1/ja
Publication of WO2019239738A1 publication Critical patent/WO2019239738A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q9/00Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • G05B15/02Systems controlled by a computer electric
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C17/00Arrangements for transmitting signals characterised by the use of a wireless electrical link
    • G08C17/02Arrangements for transmitting signals characterised by the use of a wireless electrical link using a radio link
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C2201/00Transmission systems of control signals via wireless link
    • G08C2201/30User interface
    • G08C2201/31Voice input
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C2201/00Transmission systems of control signals via wireless link
    • G08C2201/30User interface
    • G08C2201/32Remote control based on movements, attitude of remote control device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • This technology relates to an information processing apparatus and an information processing method, and more particularly to a technical field related to device control.
  • Patent Document 1 discloses a technique for controlling the operation of a device in an environment when a user inputs a voice instruction to the device.
  • the present disclosure provides a technique that can identify a device that is an operation target even when the operation target designation of the user's device operation is ambiguous.
  • An information processing apparatus includes an operation information acquisition unit that acquires audio data indicating an operation based on a user's voice or image data indicating an operation based on a user's behavior, and the audio data or the image as the operation information
  • the instruction recognition unit for analyzing the data and recognizing the instruction content indicated by the operation, and identifying the controlled device to be operated by the operation information among the plurality of controlled devices, and the instruction recognition unit recognizing An instruction transmission unit that generates a control signal according to the instruction content and transmits the control signal to the controlled device specified by the instruction recognition unit.
  • control that reflects instruction contents according to user behavior.
  • voice data and image data indicating operations based on voice and behavior
  • unclear parts of the voice data and the image data are complemented, and the operation instruction contents from the user are reflected more accurately.
  • specific accuracy of the controlled device to be operated is also improved.
  • the instruction transmission unit identifies the controlled device identified as the operation target with reference to the storage unit that stores the identification information of the controlled device in association with the address information. It is conceivable to acquire address information corresponding to the information and transmit the control signal using the address information. Accordingly, if the identification information of the controlled device to be operated can be acquired, a control signal corresponding to the instruction content indicated by the user operation can be transmitted to the controlled device.
  • the instruction recognition unit identifies a controlled device that is an operation target by being in a position or direction specified by a user's behavior that appears in the image data as the operation information. It is conceivable to acquire the information by receiving a transmission signal from a controlled device arranged at the position or direction. That is, the information processing apparatus identifies a controlled device to be operated by analyzing a user gesture such as pointing to a controlled device appearing in image data, and receives a transmission signal from the specified controlled device. The identification information is acquired. The information processing apparatus transmits a control signal corresponding to the user instruction content to an address corresponding to the identification information to the controlled device, thereby realizing an operation of the controlled device reflecting the user instruction content.
  • the instruction recognition unit identifies a controlled device that is an operation target by being in a position or direction specified by a user's behavior that appears in the image data as the operation information. It is conceivable to acquire information from image data of a controlled device arranged at the position or direction.
  • the QR code registered trademark
  • the identification information of the controlled device is analyzed by analyzing it. To get.
  • the instruction recognition unit instructs a specific controlled device to transmit a signal, determines the position information of the controlled device by receiving the signal, and corresponds to the identification information. It can be considered that stored data as information is formed. By forming storage data as position information corresponding to the identification information, if the position information indicated by the user's gesture or the like is obtained by analyzing the image data, etc., identification of the controlled device around the position information Information can be acquired as an operation target.
  • the instruction recognizing unit refers to a controlled device arranged at a position designated by a user's utterance appearing in voice data as the operation information as a controlled device to be operated. It is possible to specify. If the user's utterance contains sufficient information to identify the position, the voice data is analyzed, and the operation target is determined regardless of the presence or absence of a gesture for identifying the position of the user's controlled device. It becomes possible to identify as a controlled device.
  • the instruction recognition unit calculates in-spatial coordinates of a position specified by a user's behavior that appears in the image data as the operation information, and the object positioned at the in-spatial coordinates. It is conceivable to specify the control device as the controlled device to be operated. Thereby, the designated position can be grasped as a specific numerical value by calculating the position designated by the user as the value of the coordinate in space.
  • the instruction recognition unit sequentially instructs signal transmission to a plurality of controlled devices, thereby determining the position information of each controlled device and receiving the user's behavior. It is conceivable that the controlled device to be operated is specified by being in the position or direction specified by. By instructing a plurality of controlled devices to transmit signals sequentially, when receiving a signal, it is not confused with signals from other controlled devices, and the controlled device to be operated can be clearly identified.
  • the instruction recognition unit analyzes the image data and identifies the controlled device to be operated when the operation target controlled device cannot be identified by analyzing the voice data. It is possible to do. That is, when the controlled device can be specified by analyzing the audio data, the image data analysis process can be omitted.
  • Another information processing apparatus includes operation information acquisition processing for acquiring operation information as audio data indicating an operation by a user's voice or image data indicating an operation by a user's behavior; Recognizing the instruction content indicated by the operation by analyzing the audio data or the image data as the operation information, and recognizing the instruction to identify the controlled device to be operated by the operation information among the plurality of controlled devices
  • a communication unit that receives the device, and a device control unit that controls operation according to the control signal received by the communication unit.
  • An information processing method includes operation information acquisition processing for acquiring operation information as audio data indicating an operation by a user's voice or image data indicating an operation by a user's behavior; Recognizing the instruction content indicated by the operation by analyzing the audio data or the image data as the operation information, and recognizing the instruction to identify the controlled device to be operated by the operation information among the plurality of controlled devices
  • An information processing method in which an information processing apparatus executes a process and an instruction transmission process that generates a control signal according to the instruction content recognized by the instruction recognition process and transmits the control signal to the controlled device specified in the instruction recognition process is there.
  • Another information processing method includes operation information acquisition processing for acquiring operation information as audio data indicating an operation by a user's voice or image data indicating an operation by a user's behavior; Analyzing voice data or image data as the operation information, recognizing the instruction content indicated by the operation and specifying the controlled device to be operated, and the instruction content recognized by the instruction recognition process
  • a communication process for generating a control signal and receiving a control signal transmitted by a control device that executes an instruction transmission process for transmitting to a controlled device specified in the instruction recognition process, and the control signal received by the communication process This is an information processing method in which an information processing apparatus executes device control processing for controlling operations.
  • the present technology it is possible to improve the accuracy of specifying a device to be operated even if the operation request is ambiguous, so that a comfortable operation environment for the device is realized for the user. be able to.
  • the above effects are not necessarily limited, and any of the effects shown in the present disclosure or other effects that can be grasped from the present disclosure are obtained together with or in place of the above effects. May be.
  • FIG. 1 and FIG. 2 show configuration examples of the network system according to the embodiment.
  • the present embodiment is an agent system that realizes an operation of the operation target device 2 (referred to as a controlled device to be operated) when a user inputs a command to the agent device 1.
  • a plurality of operation target devices 2 are provided, and the agent device 1 selects a device to be operated from the plurality of operation target devices 2 in accordance with a user instruction, and realizes the operation of the selected device.
  • the user means a person who uses the agent system.
  • the agent device 1 is an information processing device, and is a device that supplies the operation target device 2 with control according to an instruction from the user or supply of information for control. More specifically, the agent device 1 inputs ambient sounds picked up by a microphone, surrounding picked-up images picked up by an image pickup device, and surrounding detection signals from various other sensing devices. And it is an apparatus which can recognize the user's operation instruction content based on the input signal and can control the operation target device 2 such as a lighting device in accordance with them.
  • the agent device 1 can be realized by various devices as long as it is a peripheral device of the user who gives an instruction. For example, various devices such as a personal computer device, a terminal device, a tablet, a hot water supply operation device, a remote controller for home appliances, and a refrigerator may function as the agent device 1.
  • the operation target device 2 is also referred to as a lighting device 2.
  • the lighting device 2 is an example.
  • various devices such as a television device, an audio device, a hot water supply operation device, a refrigerator, an air conditioner device, an interactive device, a robot, a personal computer device, a terminal device, and a tablet are agent devices.
  • 1 is assumed as an operation target device 2 that cooperates with the device 1.
  • the operation of the illumination device 2 in the description of the embodiment can be similarly applied to these various operation target devices 2.
  • the agent device 1 and the operation target device 2 can communicate with each other via a network NW.
  • the network NW only needs to be a transmission path through which the agent device 1 can communicate with devices outside the system.
  • the Internet LAN (Local Area Network), VPN (Virtual Private Network), intranet, extranet, satellite communication
  • LAN Local Area Network
  • VPN Virtual Private Network
  • intranet extranet
  • extranet satellite communication
  • CATV Common Antenna TeleVision
  • the agent device 1 is a separate device from the operation target device 2.
  • the agent device 1 has a sensing device 10 built therein.
  • the sensing device 10 for example, a microphone, an imaging device (camera), a contact sensor, a load sensor, an illuminance sensor, an infrared sensor, an acceleration sensor, an angular velocity sensor, a laser sensor, or any other sensor is assumed.
  • the sensing device 10 is incorporated in the agent device 1, but the sensing device 10 may be a device separate from the agent device 1.
  • a sensing device built in a device such as a smartphone or a wearable device can be assumed. In that case, according to the configuration example of FIG. 1, the smartphone or the wearable device itself may be the agent device 1.
  • the agent device 1 acquires in advance the identification information of each of the plurality of operation target devices 2 provided through the network NW. Then, by analyzing audio data, image data, and the like obtained from the sensing device 10, the operation instruction content from the user to the operation target device 2 and the operation target device 2 to be operated are specified. Thereafter, the agent device 1 executes the operation instruction to the identified operation target device 2 using an IP address (Internet Protocol address) that is a network address set for each operation target device 2.
  • IP address Internet Protocol address
  • FIG. 2A shows an example in which the agent device 1, the operation target device 2, and the sensing device 10 are separately provided and a plurality of operation target devices 2 are provided.
  • FIG. 2B shows an example in which a plurality of sensing devices 10 are provided as separate bodies in addition to the above. According to this, by installing a plurality of sensing devices 10, it is possible to acquire identification information from the operation target device 2 by infrared communication or the like, or to acquire voice input or operation input from the user. Further, even when the operation target devices 2 are installed in different spaces such as separate rooms, by installing the sensing device 10 in each room, the user can request an operation from each room. . Moreover, the identification information and IP address of the operation target apparatus 2 installed in different rooms can be acquired.
  • an agent system can be configured by a plurality of agent devices 1.
  • the sensing device 10 may be built in the agent device 1. It is also conceivable that there is only one operation target device 2 in the space where a certain agent device 1 is provided.
  • FIG. 1 shows a block diagram of the agent device 1.
  • the agent device 1 includes a sensing device 10, a communication interface 20, a memory unit 30, and a control unit 40.
  • a microphone 11, an imaging unit 12, an information receiving unit 13, an audio input unit 14, an imaging signal processing unit 15, and a decoder 16 are illustrated.
  • Ambient audio is collected by the microphone 11 and output as an audio signal.
  • the audio signal obtained by the microphone 11 is subjected to amplification processing, filter processing, A / D conversion processing, and the like by the audio input unit 14 and is supplied to the control unit 40 as a digital audio signal.
  • the imaging signal obtained by the imager in the imaging unit 12 is subjected to necessary processing by the imaging signal processing unit 15 and supplied to the control unit 40 as image data in units of frames.
  • the imaging unit 12 may use a plurality of imaging devices in order to grasp the surrounding spatial coordinates.
  • the control unit 40 receives the sound signal of the surrounding sound and the image signal of the surrounding scene from such a sensing device 10 continuously (for example, when the power is turned on) continuously or intermittently.
  • the information receiving unit 13 is an infrared sensor, for example, and receives infrared rays having identification information transmitted from an information transmitting unit 60 of the lighting device 2 described later.
  • the received infrared light is decoded by the decoder 16 from the demodulated signal and supplied to the control unit 40 as identification information for each lighting device 2.
  • the infrared rays transmitted from the information transmission unit 60 are preferably highly directional. This is because, when the information receiving unit 13 receives infrared rays from a plurality of operation target devices 2, the information reception unit 13 distinguishes from which operation target device 2 the infrared rays are transmitted depending on from which direction the infrared rays are transmitted.
  • the agent device 1 rotates each information receiving unit 13 (or may be the imaging unit 12 including the information receiving unit 13) to turn each operation target from the angle of the information receiving unit 13 that can receive the information. The direction of the device 2 can be determined.
  • the communication means for transmitting the identification information of the lighting device 2 to the information receiving unit 13 of the agent device 1 is not limited to infrared rays, and various methods can be used as long as they have high directivity indicating that they are transmitted from the lighting device 2. Is applicable. For example, if the operation target device 2 always emits light, it may be possible to use visible light communication or the like. If the vibration sensor is embedded in the wall or floor of the place where the operation target device 2 is installed, the identification information may be transmitted by minute vibration. In an environment where a magnetic sensor is embedded, it is possible to communicate by electromagnetic. Further, it is conceivable to use the imaging unit 12 as a method for the agent device 1 to acquire the identification information of the operation target device 2.
  • identification information is embedded on the surface of the operation target device 2 by printing a QR code (registered trademark) or the like.
  • the agent device 1 acquires the image data of the code by the imaging unit 12, performs necessary processing by the imaging signal processing unit 15, and then analyzes the image data by the control unit 40, whereby each operation target device 2. Identification information can be obtained.
  • the communication interface 20 is a part that communicates between the agent device 1 and the lighting device 2 via the network NW.
  • the agent device 1 receives the identification information and IP address of the lighting device 2 from the lighting device 2.
  • the agent device 1 transmits information for operating the lighting device 2 to the lighting device 2.
  • the memory unit 30 provides a work area necessary for the calculation process by the control unit 40 and stores coefficients, data, tables, databases, and the like used for the calculation process.
  • database is also referred to as “DB (Database)”. Details of the DB will be described later.
  • the control unit 40 is configured by an information processing apparatus such as a microcomputer.
  • the control unit 40 has functions as an identification information storage unit 41, an operation information acquisition unit 42, an instruction recognition unit 43, and an instruction transmission unit 44. These functions are expressed by software defining processing such as a microcomputer. Details of processing executed by the control unit 40 based on these functions will be described later.
  • the identification information storage unit 41 acquires the identification information and IP address information of the lighting device 2 via the network NW.
  • the identification information storage unit 41 stores the IP address information associated with the identification information in a DB or the like of the memory unit 30. Thereby, when the instruction content information regarding the operation is transmitted to the lighting device 2 by the agent device 1, the lighting device 2 to be transmitted can be specified.
  • the operation information acquisition unit 42 acquires operation data as image data and audio data indicating an operation based on the user's audio and behavior from the sensing device 10. Further, the operation information acquisition unit 42 acquires identification information of the lighting device 2 from the sensing device 10. Specifically, the operation information acquisition unit 42 is a variety of other sensing devices received by ambient sound collected by the microphone 11, surrounding captured images captured by the imaging unit 12, and infrared communication received by the information receiving unit 13. A surrounding detection signal by 10 is acquired.
  • the instruction recognizing unit 43 analyzes the audio data and the image data as the operation information, recognizes the instruction content indicated by the operation, and specifies the lighting device 2 to be operated.
  • the instruction recognizing unit 43 analyzes the voice input information and performs a process of analyzing the intention of the input information from the user.
  • the user understands utterances (operating terms) related to the operation of the user's operation target device by voice recognition, and can change the setting according to the user's intention.
  • the utterance “turn on lighting” is understood as a word that causes the lighting device 2 that is the operation target device to turn on the lighting.
  • various words relating to various operations are stored in the memory unit 30 so that the user's intention can be correctly understood by collation.
  • various words such as “turn on lighting”, “turn on lighting”, “turn off lighting”, “brighten”, “darken”, etc.
  • a table in which many words representing one setting operation are stored is recognized so that it can be recognized as a word for instructing lighting of the lighting device 2.
  • a certain lighting device 2 is specified from a plurality of lighting devices 2, such as “turn on the lighting of this room”, “turn off the lighting at the window”, “darken the TV side”, etc.
  • Many words that express the position and state of each lighting device 2 so that words such as “this room”, “by the window”, “the TV side”, etc. can be recognized as words that specify the lighting device 2 respectively. May have a stored table.
  • the instruction recognizing unit 43 collates the utterances of the operation requester with these tables, and determines the instruction content for the user's lighting device 2 and the target lighting device 2 that the user desires to operate.
  • the instruction recognizing unit 43 performs processing for analyzing the intention of the input information from the user by reading the user's operation by analyzing the sensing information from the imaging unit 12. Specifically, the user understands a gesture related to the operation of the lighting device 2 by the user (operation related to the operation), and the setting can be changed according to the user's intention. For example, the movement or shape of the user's hand or finger is understood as an operation of turning on the lighting device 2. Further, it is understood as an operation in which the user selects the lighting device 2 to be operated from the direction indicated by the user's hand or finger. For this purpose, for example, various operations related to various operations are stored in the memory unit 30 so that the user's intention can be correctly understood by collation.
  • the lighting device 2 to be operated is specified from the direction of the finger by analyzing the gesture of the user pointing at the lighting device 2. That is, an unclear part as a word can be complemented with an image.
  • indication recognition part 43 acquires the identification information of the illuminating device 2 specified as an operation object by receiving the information receiving part 13 by infrared communication, for example by analyzing the above audio
  • the instruction transmitting unit 44 generates a control signal corresponding to the instruction content analyzed by the instruction recognizing unit 43, and transmits the control signal to the lighting device 2 specified by the instruction recognizing unit 43.
  • the lighting device 2 includes a communication interface 50, an information transmission unit 60, a calculation unit 70, and a lighting unit 80.
  • the communication interface 50 is a part that performs communication between the agent device 1 and the lighting device 2 via the network NW.
  • the information transmission part 60 is a site
  • the information transmission unit 60 may always perform transmission of infrared communication, or may transmit only when there is a request from the agent device 1 via the network NW.
  • the calculation unit 70 is configured by a microcomputer or the like, for example, and is provided with a communication unit 71 and a device control unit 72.
  • the communication unit 71 can communicate with the control unit 40 of the agent device 1 via the network NW via the communication interface 50. Thereby, the calculating part 70 can acquire the information about the operation content about the illuminating device 2 from the control part 40.
  • FIG. 1 A functional configuration of the calculation unit 70 will be described.
  • the calculation unit 70 is configured by a microcomputer or the like, for example, and is provided with a communication unit 71 and a device control unit 72.
  • the communication unit 71 can communicate with the control unit 40 of the agent device 1 via the network NW via the communication interface 50.
  • the calculating part 70 can acquire the information about the operation content about the illuminating device 2 from the control part 40.
  • the appliance control unit 72 performs various outputs based on the instruction content information set by the agent device 1 in the lighting device 2 by performing control according to the operation control instruction received from the agent device 1 by the communication unit 71. For example, the lighting unit 80 is turned on or off. In addition, the device control unit 72 causes the information transmission unit 60 to transmit the identification information of the lighting device 2 via infrared communication.
  • the control unit 40 of the agent device 1 having these functions specifies the operation target device 2 that is the operation target, and is used to transmit operation instruction content information to the operation target device. Will be described with reference to FIG.
  • various DBs are stored in the memory unit 30.
  • the DB includes, for example, a device information management DB 31 and a position information management DB 32.
  • the DB may be configured to include a DB necessary for functioning as the agent device 1 of the embodiment.
  • the agent device 1 can transmit the instruction content information related to the operation to the appropriate operation target device 2 as long as the device ID of the operation target device 2 can be specified.
  • the position information management DB 32 stores position information used to identify the operation target device 2 with respect to the device ID that is identification information of the operation target device 2.
  • the position information for example, the value of the spatial coordinate of each operation target device 2 obtained by analyzing the image data captured by the imaging device is stored. Further, the positional information can be stored as a relative relationship with information arranged in a space such as “next to the television device”, “on the desk”, “by the window”, “in the room”, etc.
  • the agent apparatus 1 analyzes the image data acquired from the imaging unit 12. Further, identification information of the sensing device 10 obtained by analyzing the operation target device 2 can be associated and stored as the position information. Accordingly, for example, when the sensing device 10 is installed in each room, the operation target device 2 can be operated in units of rooms by associating the operation target device 2 with the sensing device 10. .
  • Each of the above DBs may be built in a computer (for example, the operation target device 2 or the like) different from the agent device 1, or may be built in the agent device 1.
  • the device information management DB 31 and the location information management DB 32 may be realized in any form as long as the agent device 1 can access them.
  • all the DBs may be formed in the memory unit 30 in the same system as the agent device 1, or a part or all of each DB may be provided in a computer system such as a separate body or a remote place.
  • each DB does not need to be formed in one apparatus (for example, one HDD).
  • Each DB does not need to be configured as one DB.
  • information stored as the position information management DB 32 may be stored and managed by the device information management DB 31.
  • Each of the above-described DBs described in the embodiment is merely an example of a storage unit for information related to the processing of the embodiment in the form of one DB.
  • FIG. 4 shows a hardware configuration of the information processing apparatus that constitutes the agent device 1 and the lighting device 2 as the operation target device described above.
  • Each device shown as the agent device 1 and the lighting device 2 can be realized as a computer device 170 as shown in FIG. 4 capable of information processing and information communication.
  • a CPU (Central Processing Unit) 171 of the computer device 170 performs various processes according to a program stored in a ROM (Read Only Memory) 172 or a program loaded from a storage unit 178 to a RAM (Random Access Memory) 173. Execute the process.
  • the RAM 173 also appropriately stores data necessary for the CPU 171 to execute various processes.
  • the CPU 171, ROM 172, and RAM 173 are connected to each other via a bus 174.
  • An input / output interface 175 is also connected to the bus 174.
  • the input / output interface 175 is connected to the sensing device 10 or an input device 176 including an operator and an operation device. Further, the input / output interface 175 may be connected to a display composed of an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) panel, and an output device 177 composed of a speaker.
  • the input / output interface 175 may be connected to a storage unit 178 composed of a hard disk or the like and a communication unit 179 composed of a modem or the like.
  • the communication unit 179 performs communication processing via a transmission path such as the Internet shown as the network NW, and performs communication by wired / wireless communication, bus communication, and the like between the respective devices.
  • a drive 180 is connected to the input / output interface 175 as necessary, and a removable medium 181 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is appropriately mounted, and a computer program read from them is loaded. It is installed in the storage unit 178 as necessary.
  • a removable medium 181 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is appropriately mounted, and a computer program read from them is loaded. It is installed in the storage unit 178 as necessary.
  • a program constituting the software can be installed from a network or a recording medium.
  • This recording medium is configured by a removable medium 181 made of a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor memory, or the like on which a program is recorded, which is distributed to distribute the program to the user.
  • a ROM 172 in which a program is recorded and a hard disk included in the storage unit 178 that are distributed to the user in a state of being incorporated in the apparatus main body in advance are also configured.
  • the agent device 1 and the operation target device 2 are configured by one or a plurality of information processing devices.
  • Each function in the control unit 40 in the agent device 1 and the calculation unit 70 in the operation target device 2 is a function realized by processing executed by the CPU 171 in accordance with the program in the information processing device.
  • all or some of the processes described below may be realized by hardware.
  • each function when each function is realized by software, each function need not be realized by an independent program. Processing of a plurality of functions may be executed by one program, or one function may be realized by cooperation of a plurality of program modules.
  • Each function may be distributed among a plurality of information processing apparatuses. Furthermore, one of the functions may be realized by a plurality of information processing apparatuses.
  • Agent System An outline of the agent system of the present technology will be described with reference to FIGS. 5 and 6.
  • the agent system may be used in any other environment such as a passenger car or other vehicle, office, store, educational facility, or public facility.
  • a single agent system may handle a plurality of geographically separated environments (for example, a home and a passenger car or a home and an office) in an integrated manner.
  • each lighting device 2 is connected to the agent device 1 so as to communicate with each other via a network NW.
  • the agent apparatus 1 when the user requests the agent apparatus 1 to operate the device by voice, there are cases where the user gives an instruction by using a phrase such as “turn on the lighting”. In such a case, “all lighting” or The lighting device 2 to be operated is specified with an ambiguous content such as “one cannot be specified but one lighting”. There may be no problem when there is only one operation target device 2 specified by the general name used for the voice input instruction by the user. For example, a request such as “I want to turn on only the lighting near the TV” is reflected. Thus, it is difficult to specify the operation target device 2.
  • the agent device 1 In order to request the agent device 1 to operate the specific operation target device 2 by voice input of the user, it is an alias for a command or function registered in advance by the user or registered in the operation target device 2 in advance. There is also a method for specifying the operation target device 2 by issuing an instruction using an alias (name) or the like.
  • alias name
  • a predetermined name such as an alias
  • only a user who knows the name in advance can request the operation, and other users who do not know the name cannot specify the operation target device 2.
  • the burden of learning the alias increases as the number of registered operation target devices 2 increases.
  • the IP of the identified operation target device 2 is used. It is necessary to know the address.
  • each of the lighting devices 2 includes means for transmitting information on the device ID and the IP address to the agent device 1, and the agent device 1 uses the information obtained from the information on the devices of each lighting device 2.
  • the ID and the IP address are stored in the device information management DB 31 of the agent device 1 in a state where the ID and the IP address are associated with each other.
  • an IP address is associated with each of the device IDs “ABC”, “EFG”, and “XYZ” and stored.
  • the user in order to turn on only a specific lighting device 2, the user utters "Turn on that lighting” and indicates the lighting device 2 to be operated by a finger gesture. .
  • the agent device 1 acquires the instruction content of the operation by analyzing the voice data to enable (turn on) the function specified by the user by “that” from the voice input. Is determined from the image data, it is determined that there is a request to “turn on the illumination” because the illumination device is in the direction pointed to.
  • the lighting device 2 specified as the operation target has a function of transmitting its own device ID to the surroundings by infrared rays.
  • the agent device 1 decodes the data embedded in the received infrared ray and acquires the device ID of the specified lighting device 2.
  • the agent apparatus 1 acquires the IP address linked
  • the device ID acquired from the lighting device 2 through infrared rays and the device ID acquired from the network NW are collated, whereby the specified lighting device 2 can be operated. That is, it is possible to request the agent device 1 to operate the operation target device 2 such as the lighting device 2 using intuitive device identification by a pointing gesture or the like without using a predetermined device name such as an alias. .
  • the agent device 1 acquires the instruction content of the operation by analyzing the voice data to turn off the lighting device 2 specified by the user by “this” from the voice input, and the user's current position is determined from the image data. From the analysis, it is determined that the user is currently in the room roomB, and therefore the request is to “turn on the lighting of roomB”.
  • FIG. 7 shows an example of the flow of processing executed by the agent device 1 and the operation target device 2 (lighting device 2).
  • symbol is attached
  • the lighting device 2 transmits device information to the agent device 1 via the network NW when using the agent system.
  • the device information is information on the device ID and IP address of the own device.
  • the device ID is preferably an ID system that can ensure sufficient uniqueness so as not to collide with the IDs of other devices.
  • the agent device 1 When the agent device 1 receives the device information from the lighting device 2 in step S12, the agent device 1 advances the process to step S13. The agent device 1 transmits a reaction request to the lighting device 2 in step S13.
  • the lighting device 2 that has received the reaction request transmits information on the device ID in step S14.
  • the illumination device 2 uses infrared communication as a communication means.
  • the communication means is preferably highly directional. This is because it is easy to identify the illumination device 2 that emits infrared rays. Moreover, since it is assumed that it is easy to receive the influence of noise, it is desirable to use together encoding with high error correction capability.
  • the agent device 1 Upon receiving the device ID information from the lighting device 2 in step S15, the agent device 1 determines whether the device ID is the same as the device ID received in step S12. If the device IDs are not the same, the process waits until another device ID is received. Further, when the same device ID cannot be received for a certain period of time or longer, an error result prompting a retry may be notified to the user.
  • the imaging unit 12 it is also conceivable to use the imaging unit 12 as a method for the agent device 1 to acquire the identification information of the lighting device 2.
  • device ID information is embedded on the surface of the operation target device 2 by printing a QR code (registered trademark) or the like.
  • the agent device 1 acquires the image data of the code by the imaging unit 12, performs necessary processing by the imaging signal processing unit 15, and then analyzes the image data by the control unit 40, whereby each of the lighting devices 2.
  • the device ID can be acquired.
  • the agent device 1 detects in-space coordinates in step S16.
  • the agent device 1 determines the lighting device 2 that has transmitted infrared rays by reception by the information receiving unit 13.
  • the determination method for example, a communication unit with high directivity is used, and when the information reception unit 13 receives the communication, the device in the reception direction is determined to be the lighting device 2 that has transmitted the signal.
  • the device is identified by analyzing image data within the range of the agent system acquired by the imaging unit 12.
  • the agent apparatus 1 determines the signal transmission direction from the angle of the imaging unit 12 when the information receiving unit 13 receives the signal, for example, by turning the information receiving unit 13, and the transmission captured by the imaging unit 12.
  • the installation position of the illuminating device 2 in an agent system can be determined. It should be noted that the installation position information of the lighting device 2 can be stored when the user inputs, for example, the agent device 1 by an operation.
  • the agent device 1 stores device information and position information in step S17.
  • the agent device 1 stores device information in which an IP address is associated with the device ID of the lighting device 2 in the device information management DB 31, and stores in-space coordinates as position information of the lighting device 2 in the position information management DB 32.
  • the agent device 1 obtains the state of the peripheral device of the lighting device 2 as image data by the imaging unit 12 and analyzes the image data to obtain a peripheral such as “on the desk” or “next to the television”.
  • the relative positional relationship with the device is stored in the positional information management DB 32 as positional information.
  • the agent device 1 measures in-space coordinates of various objects arranged in the area of the agent system.
  • the pre-processing for the user using the agent system is completed.
  • the processing load can be reduced when the agent device 1 executes the target device determination processing described later.
  • the processes in steps S11 to S17 are executed each time the operation target device 2 is added when the user uses the agent system.
  • the agent device 1 performs a process of monitoring an instruction input from the user by the sensing device 10 in step S18. For example, by analyzing audio data acquired by the microphone 11 and image data acquired from the imaging unit 12, it is determined whether the operation instruction is for the lighting device 2. Here, the agent device 1 also acquires information about the operation content by analyzing the voice data. The agent device 1 performs instruction monitoring processing in step S18 until an operation instruction for the lighting device 2 is detected in step S19.
  • step S19 When an operation instruction to the lighting device 2 is detected in step S19, the agent device 1 advances the process to step S20 and executes a target device determination process.
  • the control unit 40 of the agent device 1 determines whether or not gesture analysis is necessary in step S101.
  • the case where the gesture analysis is necessary refers to a case where the lighting device 2 to be operated cannot be specified because the expression is ambiguous only by analyzing the voice data collected by the microphone 11.
  • step S101 If it is determined in step S101 that the gesture analysis is necessary, the control unit 40 advances the process to step S102 and executes a process for calculating the coordinates in space.
  • the control unit 40 calculates the coordinates in the space indicated by the gesture from the angle of the gestured user's arm or finger in a gesture such as pointing a finger.
  • control part 40 acquires the information of apparatus ID close
  • the control unit 40 can also select the device ID according to the request content by analyzing the voice data based on the user's speech and estimating the request content.
  • control unit 40 acquires an IP address corresponding to the acquired device ID from the device information management DB 31 in step S104. Thereafter, the control unit 40 ends the process of FIG.
  • step S101 when the gesture analysis is unnecessary in step S101, the control unit 40 advances the process to step S105.
  • gesture analysis is not necessary, for example, since the acquired voice data includes an alias, the machine ID can be identified, or the machine ID can be identified from an expression indicating a specific location such as “on the desk” of the voice data. The case where it can identify is considered.
  • step S105 the control unit 40 specifies a device to be operated in each of the above cases. Thereafter, in step S104, the control unit 40 acquires an IP address corresponding to the device ID, and completes the process of FIG.
  • step S ⁇ b> 21 the agent device 1 executes a command generation process based on the information on the instruction content of the analyzed lighting device 2. Then, the agent device 1 executes an operation control process in step S22, and causes the illumination device 2 to execute the operation process in step S23. Thus, the processing of the first embodiment in the agent system is completed.
  • the second embodiment is a process of calculating the coordinates in the space of the operation target device 2 such as the lighting device 2 in the target device determination process when using the agent system.
  • the outline of the agent system in the second embodiment will be described with reference to FIG.
  • FIG. 9 shows an example of the flow of processing executed by the agent device 1 and the operation target device 2 (lighting device 2).
  • the lighting device 2 transmits device information to the agent device 1 via the network NW.
  • the agent device 1 receives the device information from the lighting device 2 in step S12
  • the agent device 1 advances the process to step S31.
  • the agent device 1 stores device information in which the IP address is associated with the device ID of the lighting device 2 in the device information management DB 31.
  • the pre-processing for the user using the agent system is completed.
  • transmission of apparatus ID by the infrared communication from the illuminating device 2 is performed intermittently in step S14.
  • step S18 the agent device 1 performs a process of monitoring an instruction input from the user by the sensing device 10.
  • the agent device 1 performs instruction monitoring processing in step S18 until an operation instruction for the lighting device 2 is detected in step S19.
  • step S19 When an operation instruction to the lighting device 2 is detected in step S19, the agent device 1 advances the processing to step S32 and executes target device determination processing.
  • target device determination processing details of the target device determination processing in step S32 will be described with reference to FIG.
  • control unit 40 of the agent device 1 determines whether or not gesture analysis is necessary in step S101. If it is determined in step S101 that gesture analysis is necessary, the control unit 40 advances the process to step S102, and executes processing for calculating the coordinates in the space indicated by the gesture based on the angle of the arm or finger of the user who made the gesture.
  • step S201 the control unit 40 determines whether or not the device ID information is received from the lighting device 2 by infrared communication.
  • the control unit 40 determines the illumination device 2 that has transmitted infrared rays from the reception direction in the information reception unit 13 in step S202, and calculates the coordinates in the space of the determined illumination device 2. To do.
  • the coordinates in space are calculated by analyzing the image data captured by the imaging unit 12.
  • step S203 the control unit 40 determines whether the lighting device having the device ID acquired in step S201 is a device for which an operation request has been made. Specifically, the control unit 40 calculates based on the value of the coordinates in space calculated by the gesture analysis in step S102 and the angle of the imaging unit 12 when the information reception unit 13 receives the signal in step S202. It is determined whether or not the lighting device 2 is a device for which an operation has been requested, depending on whether or not the value of the coordinates in the space approximated.
  • step S203 If it is determined in step S203 that the device is an operation requesting device, the control unit 40 acquires an IP address corresponding to the device ID received in step 201 from the device information management DB 31 in step S104. Thereafter, the control unit 40 ends the process of FIG.
  • step S203 If it is determined in step S203 that the device is not an operation requesting device, the control unit 40 proceeds to step S201 and waits until a device ID is received by a new infrared ray. If the device ID is not received in step S201, the process from step S201 to S205 is looped until a predetermined time elapses in step S205 or a new device ID is acquired in step S201.
  • the control unit 40 stands by until a signal transmitted from the lighting device 2 is received by the receiving unit of the information receiving unit 13 that is turning. Further, when a plurality of information receiving units 13 are provided in the agent device 1, each information receiving unit 13 sequentially detects the transmission from the lighting device 2, so that it waits until it becomes the information receiving unit 13 to be processed. Will do.
  • the fixed time in step S205 is caused by such a standby time.
  • control unit 40 advances the process from step S205 to step S206, and gives an error notification that the user's instruction content is not reflected. Thereafter, the control unit 40 completes the process of FIG.
  • step S101 the control unit 40 advances the process to step S105.
  • step S105 the control unit 40 specifies a device to be operated in each of the above cases.
  • step S ⁇ b> 21 the agent device 1 executes a command generation process based on the information on the instruction content of the analyzed lighting device 2. Then, the agent device 1 executes an operation control process in step S22, and causes the illumination device 2 to execute the operation process in step S23. Thus, the processing of the second embodiment in the agent system is completed.
  • control unit 40 of the agent device 1 determines whether or not gesture analysis is necessary in step S101. If it is determined in step S101 that the gesture analysis is necessary, the control unit 40 advances the process to step S102, and executes the calculation processing of the coordinates in the space indicated by the gesture from the angle of the user's arm or finger.
  • step S301 the control unit 40 selects a device ID to be processed from the device IDs stored in the device information management DB 31.
  • step S302 the control unit 40 makes a reaction request to the lighting device 2 corresponding to the selected device ID.
  • the lighting device 2 receives the request request from the control unit 40, the lighting device 2 starts transmitting infrared rays having the device ID information of the own device.
  • step S201 the control unit 40 determines whether or not the device ID information is received from the lighting device 2 by infrared communication.
  • the control unit 40 determines the illuminating device 2 that transmitted the infrared rays from the incident angle of the infrared rays received by the information receiving unit 13 in step S202, and within the space of the determined illuminating device 2 Calculate the coordinates.
  • step S203 the control unit 40 determines whether the lighting device having the device ID acquired in step S201 is a device for which an operation request has been made. If it is determined in step S203 that the device is not an operation requesting device, the control unit 40 advances the processing to step S303, and determines whether the processing has been completed for all devices. If the processing has not been completed for all the devices in step S303, the control unit 40 proceeds from step S303 to step S301, and specifies the operation requesting device in step S203, or for all the devices in step S303. Processing similar to the above is executed until the processing is completed.
  • step S203 When the operation requesting device is specified in step S203, the control unit 40 acquires an IP address corresponding to the device ID of the device in step S104, and ends the process of FIG. In step S303, if all the devices have been processed, that is, if there is no operation requesting device, the control unit 40 performs error notification in step S206 and ends the processing in FIG.
  • step S201 the process from step S201 to S205 is looped until a predetermined time elapses in step S205 or a new device ID is acquired in step S201.
  • the control unit 40 proceeds from step S205 to step S303, and when other devices remain, the process proceeds from step S303 to S301. The process proceeds, and the process for the next device ID proceeds.
  • step S101 the control unit 40 advances the process to step S105.
  • step S105 the control unit 40 specifies a device to be operated in each of the above cases.
  • step S104 the control unit 40 acquires an IP address corresponding to the device to be operated, and ends the process in FIG.
  • the target device determination process of the third embodiment in the agent system is completed.
  • the agent device 1 includes an operation information acquisition unit 42 that acquires audio data indicating an operation based on a user's voice or image data indicating an operation based on a user's behavior, and audio data or an image as operation information. The data is analyzed to recognize the instruction content indicated by the operation, and among the plurality of controlled devices (operation target device 2), the controlled device (operation target device 2) to be operated by the operation information is specified.
  • An instruction recognizing unit 43, and an instruction transmitting unit 44 that generates a control signal according to the instruction content recognized by the instruction recognizing unit 43 and transmits the control signal to the controlled device (operation target device 2) identified by the instruction recognizing unit 43. Provide (FIG. 7).
  • voice can be performed about the specific operation target apparatus 2 among several controlled apparatus. Therefore, for example, when the device ID of the operation target device 2 can be specified by an alias or a location expression extracted by voice data analysis, the operation target device 2 is not analyzed from the image data. Can be identified and manipulated. That is, the processing load on the agent device 1 can be reduced. Further, when the device ID and the operation content of the operation target device 2 can be specified by analyzing the user's behavior (gesture) with the image data, the operation target is analyzed without analyzing the audio data by the user's voice input. It is also possible to operate the device 2. This also reduces the processing load on the agent device 1.
  • the unclear part of the voice data and the image data is complemented, and the operation instruction content from the user is reflected more accurately.
  • the specific accuracy of the operation target device 2 to be operated is also improved. Therefore, even if the operation request is ambiguous in specifying the target device, the accuracy of specifying the target device can be improved, so that a comfortable operating environment for the device can be realized for the user.
  • the control unit 40 (instruction transmission unit 44) stores a storage unit (memory unit) that stores the identification information (device ID) and address information (IP address) of the controlled device (operation target device 2) in association with each other. 30), address information (IP address) corresponding to identification information (device ID) of the controlled device (operation target device 2) identified as the operation target is acquired, and the address information (IP address) is obtained. It is conceivable to transmit the control signal by using (FIG. 7). As a result, it becomes possible to link the operation target device 2 specified by the user and the operation target device 2 to which the agent device 1 transmits the instruction content, so that the operation target device 2 can be connected between the user and the agent device 1. Recognition will be shared. Therefore, if the device ID of the operation target device 2 to be operated can be acquired, a control signal corresponding to the instruction content indicated by the user operation can be transmitted to the operation target device 2.
  • the control unit 40 (instruction recognition unit 43) is a controlled device (operation target device) that is an operation target by being in a position or direction specified by a user's behavior that appears in image data as operation information.
  • the identification information (device ID) of 2) is acquired by receiving a transmission signal from the controlled device (operation target device 2) arranged in the position or direction (FIG. 9).
  • the agent device 1 identifies the operation target device 2 to be operated by analyzing a user gesture such as pointing to the operation target device 2 appearing in the image data, and a transmission signal from the identified operation target device 2 Device ID is acquired. Then, the agent device 1 realizes the operation of the operation target device 2 reflecting the user instruction content by transmitting a control signal corresponding to the user instruction content to the address corresponding to the device ID to the operation target device 2. To do.
  • the agent device 1 can be requested to operate the operation target device 2 by an intuitive specification method using a user's pointing gesture or the like. That is, it becomes possible to specify the interpretation of the request using the directives “that” and “it” without using the context before and after.
  • the control unit 40 instructs a specific controlled device (operation target device 2) to transmit a signal, and the position of the controlled device (operation target device 2) is received by receiving the signal. It is conceivable to determine the information and form storage data (position information management DB 32) as position information corresponding to the identification information (device ID) (S17 in FIG. 7). By forming the position information management DB 32 as position information corresponding to the device ID, if the position information indicated by the user's gesture or the like is obtained by analyzing the image data or the like, the operation target devices around the position information 2 device IDs can be acquired as the operation target.
  • the operation target device 2 to be operated can be easily specified. Further, by storing the correspondence relationship between the device ID and the location information in the location information management DB 32 in advance, it is not necessary to generate the correspondence relationship every time the device is pointed to by the user. The processing burden can be reduced.
  • the agent device 1 analyzes the image data acquired from the imaging unit 12, thereby various devices other than the operation target device installed within the range of the agent system, windows, doors, chairs, desks, chests
  • the positions of various objects such as beds can be stored in the position information management DB 32 in association with the names of the objects.
  • the agent device 1 can grasp the device and object location within the range that can be used by the agent system, and its characteristics (model name, etc.). Therefore, when constructing a management screen or setting screen in the system, It can be configured with a graphical screen different from the conventional list-type device list display. For example, in a situation where a surround environment is constructed by arranging multiple speakers in a room, if the map of the speaker obtained by this technology is displayed on the screen of the room map, it is optimal including sound Can be easily presented to the user.
  • the agent device 1 can grasp the positions of various devices other than the operation target device, objects, etc., based on the combination of the designation by the name of the device, the object, etc. obtained by voice data analysis, the device etc.
  • the relative operation target device 2 can also be specified. For example, it is possible to give an instruction based on a relative position such as “distance”, “up / down / left / right” such as “turn off the lighting near the television”
  • the agent device 1 can grasp the position of the operation target device 2, it is possible to specify the operation target device 2 using grouping as shown in FIG. For example, when the user gives an instruction “turn off the lighting in the room”, the agent device 1 analyzes the image data acquired from the imaging unit 12 to acquire the user's position information. It becomes possible to control the illuminating device 2 which exists in the area
  • the control unit 40 sets the controlled device (operation target device 2) arranged at the position specified by the user's utterance appearing in the voice data as the operation information as the operation target. It may be possible to identify the controlled device (operation target device 2) (S19 in FIG. 7). If the user's utterance contains sufficient information to identify the position, the voice data is analyzed to operate regardless of the presence or absence of a gesture for identifying the position of the user's operation target device 2 It is possible to specify the target operation target device 2. Therefore, when the operation target device 2 can be specified by analyzing the voice data, the operation target device 2 can be operated without analyzing the content of the gesture. That is, the operability of the agent system is improved.
  • control unit 40 calculates the in-space coordinates of the position specified by the user's behavior that appears in the image data as the operation information, and the controlled device located at the in-space coordinates. It is conceivable to specify (operation target device 2) as a controlled device (operation target device 2) to be operated (FIG. 8). Thereby, the designated position can be grasped as a specific numerical value by calculating the position designated by the user as the value of the coordinate in space. Therefore, since the agent apparatus 1 can grasp the coordinates in the space of each operation target device 2, it is possible to specify the position of the operation target device 2 in consideration of height, depth, and the like.
  • the control unit 40 sequentially instructs signal transmission to a plurality of controlled devices (operation target devices 2), and each controlled device (operation target device 2) is thereby received.
  • the controlled device (operation target device 2) to be operated is specified by being in the position or direction specified by the user's behavior (FIG. 11).
  • the agent device 1 receives a signal transmitted from the operation target device 2, the signal is transmitted from one operation target device 2, so that it is confused with signals from other operation target devices 2. There is no longer to do.
  • control unit 40 instruction recognition unit 43
  • the control unit 40 analyzes the image data to analyze the operation target. It is conceivable to specify the controlled device (operation target device 2). That is, when the operation target device 2 can be specified by analyzing the audio data, the image data analysis process can be omitted. Therefore, the processing load on the agent device 1 can be reduced.
  • the program according to the embodiment is a program that causes the CPU, the DSP, or the like or the device including these to execute the processing of FIGS. 7 to 11 shown in the above-described embodiment.
  • the program according to the embodiment includes an operation information acquisition process for acquiring operation information as audio data indicating an operation by a user's voice or image data indicating an operation by a user's behavior, and the audio data or image data as the operation information.
  • the instruction recognition process for recognizing the instruction content indicated by the operation and the instruction recognition process for identifying the controlled apparatus to be operated by the operation information among the plurality of controlled apparatuses.
  • the agent device 1 information processing device described above can be realized by such a program.
  • Such a program can be recorded in advance in an HDD as a recording medium built in a device such as a computer device, a ROM in a microcomputer having a CPU, or the like.
  • a flexible disk CD-ROM (Compact Disc Read Only Memory), MO (Magnet optical) disk, DVD (Digital Versatile Disc), Blu-ray Disc (Blu-ray Disc (registered trademark)), magnetic disk, semiconductor memory, It can be stored (recorded) temporarily or permanently in a removable recording medium such as a memory card.
  • a removable recording medium can be provided as so-called package software.
  • Such a program can be downloaded from a removable recording medium to a personal computer or the like, or downloaded from a download site via a network such as a LAN or the Internet.
  • Such a program is suitable for providing a wide range of agent devices 1 according to the embodiment. For example, by downloading a program to a personal computer, a portable information processing device, a home appliance, a recording / playback device, a broadcasting device, a mobile phone, a game device, a video device, a PDA (Personal Digital Assistant), etc. It can be set as the information processing apparatus of this indication.
  • processing described using the flowchart in this specification does not necessarily have to be executed in the order shown in the flowchart. Some processing steps may be performed in parallel. Further, additional processing steps may be employed, and some processing steps may be omitted.
  • this technique can also take the following structures.
  • An operation information acquisition unit for acquiring operation information as audio data indicating an operation by a user's voice or image data indicating an operation by a user's behavior; Recognizing the instruction content indicated by the operation by analyzing the audio data or the image data as the operation information, and recognizing the instruction to identify the controlled device to be operated by the operation information among the plurality of controlled devices
  • An instruction transmission unit that generates a control signal according to the instruction content recognized by the instruction recognition unit and transmits the control signal to the controlled device specified by the instruction recognition unit.
  • the instruction transmission unit With reference to the storage unit that stores the identification information of the controlled device in association with the address information, the address information corresponding to the identification information of the controlled device identified as the operation target is obtained, and the address information is used to The information processing apparatus according to (1), which transmits a control signal.
  • the instruction recognition unit Transmission of identification information of the controlled device to be operated by being in the position or direction specified by the user's behavior appearing in the image data as the operation information from the controlled device arranged in the position or direction The information processing apparatus according to (2), which is acquired by receiving a signal.
  • the instruction recognition unit The identification information of the controlled device to be operated by being in the position or direction specified by the user's behavior appearing in the image data as the operation information is the image data of the controlled device arranged at the position or direction.
  • the information processing apparatus according to (2) or (3).
  • the instruction recognition unit By instructing a specific controlled device to transmit a signal and receiving the signal, the position information of the controlled device is determined, and storage data as position information corresponding to the identification information is formed (2) to ( The information processing apparatus according to any one of 4).
  • the instruction recognition unit The information processing apparatus according to (5), wherein a controlled device arranged at a position designated by a user's utterance appearing in the voice data as the operation information is specified as a controlled device to be operated.
  • the instruction recognition unit Calculate the in-space coordinates of the position specified by the user's behavior appearing in the image data as the operation information, and identify the controlled device located at the in-space coordinates as the controlled device to be operated (5) or The information processing apparatus according to (6).
  • the instruction recognition unit By instructing a plurality of controlled devices to sequentially transmit signals, the position information of each controlled device is determined by receiving the signals, and the controlled device that is to be operated by being in the position or direction specified by the user's behavior.
  • the information processing apparatus according to any one of (2) to (7), wherein a control device is specified.
  • the instruction recognizing unit analyzes the audio data and identifies the controlled device to be operated, and identifies the controlled device to be operated by analyzing the image data.
  • Operation information acquisition processing for acquiring operation information as audio data indicating an operation by a user's voice or image data indicating an operation by a user's behavior; Recognizing the instruction content indicated by the operation by analyzing the audio data or the image data as the operation information, and recognizing the instruction to identify the controlled device to be operated by the operation information among the plurality of controlled devices Processing, An instruction transmission process for generating a control signal according to the instruction content recognized by the instruction recognition process, and transmitting the control signal to the controlled device identified in the instruction recognition process; Information processing method for executing information processing apparatus.
  • Operation information acquisition processing for acquiring operation information as audio data indicating an operation by a user's voice or image data indicating an operation according to a user's behavior, and the operation is indicated by analyzing the audio data or the image data as the operation information
  • An instruction recognition process for recognizing the instruction content and identifying a controlled device to be operated by the operation information among a plurality of controlled devices, and a control signal corresponding to the instruction content recognized in the instruction recognition process
  • a communication unit that receives a control signal transmitted by a control device that executes an instruction transmission process for transmitting to the controlled device identified in the instruction recognition process, An apparatus control unit that controls operation according to the control signal received by the communication unit.
  • Operation information acquisition processing for acquiring operation information as audio data indicating an operation by a user's voice or image data indicating an operation according to a user's behavior, and the operation is indicated by analyzing the audio data or the image data as the operation information
  • An instruction recognition process for recognizing the instruction content and identifying the controlled device to be operated, and a control signal corresponding to the instruction content recognized by the instruction recognition process is generated and transmitted to the controlled device identified in the instruction recognition process
  • SYMBOLS 1 Agent apparatus, 2 ... Operation object apparatus (illuminating device), 40 ... Control part, 42 ... Operation information acquisition part, 43 ... Instruction recognition part, 44 ... Instruction transmission part, 70 ... Calculation part, 71 ... Communication part, 72 ... Device control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Automation & Control Theory (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Selective Calling Equipment (AREA)
  • Position Input By Displaying (AREA)

Abstract

ユーザの機器の操作について操作対象の指定が曖昧な場合においても操作の対象となる機器の特定を行うことが可能な技術を提供する。 ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、操作対象の被制御機器を特定する指示認識部と、前記指示認識部が認識した指示内容に応じた制御信号を生成し、前記指示認識部が特定した被制御機器に送信する指示送信部と、を備える情報処理装置である。

Description

情報処理装置、情報処理方法
 本技術は情報処理装置、情報処理方法に関し、特に機器制御についての技術分野に関する。
 環境内の様々な機器の動作を制御する装置において、ユーザから入力されたコマンドに応じて、環境内の機器の動作を制御する技術が知られている。例えば、特許文献1では、ユーザが当該装置に音声による指示を入力することで、環境内の機器の動作を制御する技術が開示されている。
特開2017-123564号公報
 ところで、ユーザが、例えば音声によって当該装置に機器の操作を依頼する場合においては、「あの機器を操作して」など機器の対象が曖昧な表現で操作依頼が入力されることが少なくない。
 そこで本開示では、ユーザの機器の操作について操作対象の指定が曖昧な場合においても操作の対象となる機器の特定を行うことが可能な技術を提供する。
 本技術に係る情報処理装置は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識部と、前記指示認識部が認識した指示内容に応じた制御信号を生成し、前記指示認識部が特定した被制御機器に送信する指示送信部と、を備える。
 これにより、複数の被制御機器のうちの特定の被制御機器について、ユーザの音声により入力された指示内容を反映させた制御を実行することができる。また、ユーザの挙動による指示内容についてを反映させた制御についても実行することができる。
 また、音声及び挙動による操作を示す音声データ及び画像データの両方を解析することで、音声データと画像データの不明確な部分を補完し、ユーザからの操作指示内容がより正確に反映される。また操作対象となる被制御機器の特定の精度も向上する。
 上記した本技術に係る情報処理装置において、前記指示送信部は、被制御機器の識別情報とアドレス情報を対応させて記憶した記憶部を参照して、操作対象と特定された被制御機器の識別情報に対応するアドレス情報を取得し、該アドレス情報を用いて前記制御信号を送信することが考えられる。
 これにより、操作対象となる被制御機器の識別情報を取得することができれば、当該被制御機器にユーザの操作が示す指示内容に応じた制御信号を被制御機器に送信することができる。
 上記した本技術に係る情報処理装置において、前記指示認識部は、前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、当該位置又は方向に配置された被制御機器からの送信信号を受信することで取得することが考えられる。
 つまり情報処理装置は、画像データに表れる被制御機器を指し示す等のユーザのジェスチャを解析することで操作対象となる被制御機器を特定し、当該特定された被制御機器からの送信信号を受信することで識別情報を取得する。そして情報処理装置は、当該識別情報に対応するアドレスにユーザの指示内容に応じた制御信号を被制御機器に送信することで、ユーザの指示内容を反映させた被制御機器の操作を実現する。
 上記した本技術に係る情報処理装置において、前記指示認識部は、前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、当該位置又は方向に配置された被制御機器の画像データから取得することが考えられる。
 例えば、操作対象となる被制御機器に印刷されたQRコード(登録商標)を情報処理装置に内蔵された撮像装置等により画像データとして取得し、それを解析することで当該被制御機器の識別情報を取得する。
 上記した本技術に係る情報処理装置において、前記指示認識部は、特定の被制御機器に信号送信を指示し、その受信により、当該被制御機器の位置情報を判定し、識別情報に対応した位置情報としての記憶データが形成されるようにすることが考えられる。
 識別情報に対応した位置情報としての記憶データを形成しておくことで、画像データの解析等によりユーザのジェスチャ等が指し示す位置情報を取得すれば、その位置情報の周辺にある被制御機器の識別情報を操作対象のものとして取得することができる。
 上記した本技術に係る情報処理装置において、前記指示認識部は、前記操作情報としての音声データに表れるユーザの発話により指定される位置に配置された被制御機器を、操作対象の被制御機器と特定することが考えられる。
 ユーザの発話が位置を特定するのに十分な情報を含んでいる場合は、その音声データを解析することで、ユーザの被制御機器の位置を特定するためのジェスチャの有無等に関わらず操作対象となる被制御機器として特定することが可能となる。
 上記した本技術に係る情報処理装置において、前記指示認識部は、前記操作情報としての画像データに表れるユーザの挙動により指定される位置の空間内座標を算出し、当該空間内座標に位置する被制御機器を、操作対象の被制御機器と特定することが考えられる。
 これにより、ユーザにより指定される位置を空間内座標の値として算出することで、指定位置を具体的な数値として把握することができる。
 上記した本技術に係る情報処理装置において、前記指示認識部は、複数の被制御機器に順次信号送信を指示することで、その受信により、各被制御機器の位置情報を判定し、ユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器を特定することが考えられる。
 複数の被制御機器に順次信号送信を指示することで、信号を受信する際に他の被制御機器からの信号と混同することがなくなり、操作対象となる被制御機器を明確に特定できる。
 上記した本技術に係る情報処理装置において、前記指示認識部は、音声データを解析して操作対象の被制御機器を特定できなかった場合、画像データを解析して操作対象の被制御機器を特定することが考えられる。
 つまり、音声データの解析により被制御機器を特定できる場合は、画像データの解析処理を省略することができる。
 本技術に係る他の情報処理装置は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
 前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理で認識された指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信部と、前記通信部が受信した前記制御信号により動作の制御を行う機器制御部と、を備える。
 本技術に係る情報処理方法は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
 前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理と、を情報処理装置が実行する情報処理方法である。
 本技術に係る他の情報処理方法は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
 前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに操作対象の被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信処理と、前記通信処理により受信した前記制御信号により動作の制御を行う機器制御処理と、を情報処理装置が実行する情報処理方法である。
 本技術によれば、対象となる機器の特定が曖昧な操作依頼であっても、操作対象となる機器を特定する精度を向上させることができるため、ユーザにとって機器の快適な操作環境を実現することができる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果と共に、又は上記の効果に代えて、本開示に示されたいずれかの効果、又は本開示から把握され得る他の効果が奏されてもよい。
本技術の実施の形態のシステム構成例の説明図である。 実施の形態のシステム構成例の変形例の説明図である。 実施の形態のデータベースの説明図である。 実施の形態のコンピュータ装置のブロック図である。 実施の形態のエージェントシステムの概要の説明図である。 実施の形態のエージェントシステムの概要の説明図である。 第1の実施の形態のシステム全体の処理のフローチャートである。 第1の実施の形態の対象機器判定処理のフローチャートである。 第2の実施の形態のシステム全体の処理のフローチャートである。 第2の実施の形態の対象機器判定処理のフローチャートである。 第3の実施の形態の対象機器判定処理のフローチャートである。
 以下、実施の形態を次の順序で説明する。
<1.システム構成>
<2.エージェント装置の機能構成>
<3.エージェントシステムの概要>
<4.第1の実施の形態の処理>
<5.第2の実施の形態の処理>
<6.第3の実施の形態の処理>
<7.まとめ及び変形例>
<1.システム構成>
 まず実施の形態としてエージェント装置1を含むシステム構成例を説明する。図1及び図2に実施の形態のネットワークシステムの構成例を示す。
 本実施の形態では、ユーザがエージェント装置1にコマンドを入力することで、操作対象機器2(操作対象となる被制御機器のことをいう。)の操作を実現するエージェントシステムである。実施の形態では操作対象機器2が複数設けられており、ユーザの指示に応じて、エージェント装置1は複数の操作対象機器2から操作対象となる機器を選択し、選択した当該機器の操作を実現する。
 また本実施の形態において、ユーザとは当該エージェントシステムを利用する者をいう。
 また実施の形態のエージェント装置1とは、情報処理装置により構成され、操作対象機器2に対して、ユーザからの指示に応じた制御もしくは制御のための情報の供給を行う装置である。
 より具体的にはエージェント装置1は、マイクロフォンで収音した周囲の音声、撮像装置で撮像した周囲の撮像画像、その他各種のセンシング機器による周囲の検出信号を入力する。そして入力された信号に基づいて、ユーザの操作指示内容を認識し、それらに応じて照明装置等の操作対象機器2を制御可能な装置である。
 なお、エージェント装置1は、指示を行うユーザの周辺機器であれば、様々な機器により実現できる。例えば、パーソナルコンピュータ装置、端末装置、タブレット、給湯操作機器、家電機器のリモートコントローラ、冷蔵庫等、各種の装置がエージェント装置1として機能してもよい。
 また実施の形態では操作対象機器2の例として照明装置2を用いて説明する。以下、操作対象機器2のことは照明装置2とも表記する。もちろん照明装置2であることは一例で、例えばテレビジョン装置、オーディオ装置、給湯操作機器、冷蔵庫、エアコンディショナー機器、対話装置、ロボット、パーソナルコンピュータ装置、端末装置、タブレット等、各種の装置がエージェント装置1と連携する操作対象機器2として想定される。実施の形態の説明における照明装置2の動作はこれら各種の操作対象機器2においても同様に適用できる。
 図1に示すように、このようなエージェント装置1と操作対象機器2は、ネットワークNWを介して互いに通信可能とされている。
 ネットワークNWは、エージェント装置1がシステム外機器と通信可能な伝送路であればよく、例えばインターネット、LAN(Local Area Network)、VPN(Virtual Private Network:仮想専用網)、イントラネット、エキストラネット、衛星通信網、CATV(Community Antenna TeleVision)通信網、電話回線網、移動体通信網等の各種の形態が想定される。
 エージェント装置1は、操作対象機器2とは別体の機器とされている。またエージェント装置1にはセンシング機器10が内蔵されている例としている。
 センシング機器10としては、例えばマイクロフォン、撮像装置(カメラ)、接触センサ、荷重センサ、照度センサ、赤外線センサ、加速度センサ、角速度センサ、レーザセンサ、その他あらゆるセンサが想定される。
 ここではセンシング機器10がエージェント装置1に内蔵される例としているが、もちろんセンシング機器10がエージェント装置1とは別体の機器とされていてもよい。
 さらにはセンシング機器10としては、スマートフォンやウェアラブルデバイス等の機器に内蔵されたセンシングデバイスを想定することもできる。その場合、図1の構成例に沿えば、スマートフォンやウェアラブルデバイス自体がエージェント装置1となることも考えられる。
 エージェント装置1は、複数設けられている操作対象機器2のそれぞれの識別情報等をネットワークNWを通じてあらかじめ取得しておく。そして、センシング機器10から得られる音声データや画像データ等を解析することで、ユーザからの操作対象機器2への操作指示内容や操作対象となる操作対象機器2の特定を行う。その後、エージェント装置1は、各操作対象機器2に設定されているネットワークアドレスであるIPアドレス(Internet Protocol address)を用いて、特定した操作対象機器2へ当該操作指示を実行する。
 図2Aは、エージェント装置1、操作対象機器2、センシング機器10がそれぞれ別体とされ、操作対象機器2が複数設けられている例を示している。
 また図2Bは、上記に加え別体としてセンシング機器10が複数設けられている例を示している。これによれば、複数のセンシング機器10を設置しておくことで、操作対象機器2からの赤外線通信等による識別情報の取得やユーザからの音声入力や動作入力を取得することが可能となる。また、別室等の異なる空間に操作対象機器2がそれぞれ設置されている場合であっても、それぞれの室内にセンシング機器10を設置することで、それぞれの室内からユーザが操作を依頼することができる。また、異なる室内に設置されている操作対象機器2の識別情報及びIPアドレスを取得することができる。
 また図2Cに示すように、複数のエージェント装置1によりエージェントシステムを構成することもできる。図示するようにエージェント装置1にセンシング機器10を内蔵する構成としてもよい。また或るエージェント装置1が設けられた空間に操作対象機器2が一つしかないことも考えられる。
 以上の各構成はそれぞれ一例に過ぎず、実際のエージェント装置1、操作対象機器2、センシング機器10の構成の態様は他にも各種考えられる。
<2.エージェント装置の機能構成>
 図1に戻りエージェント装置1、照明装置2(操作対象機器2)の構成例を説明する。
図1はエージェント装置1のブロック図を示している。実施の形態では一例として、エージェント装置1にセンシング機器10が内蔵されている例について説明する。
 エージェント装置1はセンシング機器10、通信インタフェース20、メモリ部30、制御部40を備える。
 センシング機器10としては、ここではマイクロフォン11、撮像部12、情報受信部13、音声入力部14、撮像信号処理部15、デコーダ16を示している。
 周囲音声はマイクロフォン11で集音され、音声信号として出力される。このマイクロフォン11で得られた音声信号は音声入力部14で増幅処理やフィルタ処理、さらにはA/D変換処理等が施されてデジタル音声信号として制御部40に供給される。
 撮像部12によっては周囲が撮像される。撮像部12におけるイメージャによって得られた撮像信号は撮像信号処理部15で必要な処理が施され、フレーム単位の画像データとして制御部40に供給される。撮像部12は、周囲の空間座標を把握するために複数の撮像装置を用いてもよい。
 制御部40は、このようなセンシング機器10により周囲音声の音声信号及び周囲光景の画像信号が、常時(例えば電源オン時)継続的に又は間欠的に、入力される。
 情報受信部13は例えば赤外線センサであり、後述する照明装置2の情報送信部60から発信される識別情報を有する赤外線を受信する。受信した赤外線は、デコーダ16により復調信号からの赤外線データのデコードが行われ、照明装置2ごとの識別情報として制御部40に供給される。
 ここで、情報送信部60から発信される赤外線は指向性の高いものが望ましい。これは情報受信部13が複数の操作対象機器2から赤外線を受信した場合、当該赤外線がどの方向から送信されてきたかにより、どの操作対象機器2から発信された赤外線かを区別するためである。またエージェント装置1は、情報受信部13(情報受信部13が内蔵された撮像部12であってもよい。)を旋回させることで、受信が可能となる情報受信部13の角度から各操作対象機器2の方向を判定することができる。
 なお、照明装置2の識別情報をエージェント装置1の情報受信部13に送信する通信手段は赤外線に限られず、照明装置2から発信されていることがわかる指向性の高いものであれば様々な手法が適用できる。例えば操作対象機器2が常時発光しているものであれば、可視光通信などを使用することも考えられる。操作対象機器2を設置した場所の壁面や床に振動センサが埋め込まれているような環境であれば微細な振動により識別情報を送信してもよい。また磁気センサが埋め込まれている環境であれば、電磁気により通信することも可能である。
 また、操作対象機器2の識別情報をエージェント装置1が取得する手法として、撮像部12を用いることも考えられる。この場合、例えば操作対象機器2の表面にはQRコード(登録商標)等を印刷することで識別情報が埋め込まれる。エージェント装置1は、撮像部12により当該コードの画像データを取得し、撮像信号処理部15で必要な処理が施された後、制御部40で当該画像データを解析することで各操作対象機器2の識別情報を取得することができる。
 通信インタフェース20はエージェント装置1と照明装置2との間でネットワークNWを介して通信を行う部位である。エージェント装置1は、照明装置2の識別情報及びIPアドレスを照明装置2から受信する。またエージェント装置1は、照明装置2を操作するための情報を照明装置2に送信する。
 メモリ部30は制御部40が演算処理に必要なワーク領域を提供したり、演算処理に用いる係数、データ、テーブル、データベース等を記憶する。以下、「データベース」を「DB(Database)」とも表記する。DBの詳細については後述する。
 制御部40は例えばマイクロコンピュータ等の情報処置装置により構成される。
 この制御部40は識別情報記憶部41、操作情報取得部42、指示認識部43、指示送信部44としての機能を備える。これらの機能は例えばマイクロコンピュータ等の処理を規定するソフトウェアによって発現される。これらの機能に基づいて制御部40が実行する処理について詳しくは後述する。
 識別情報記憶部41は、ネットワークNWを介して照明装置2の識別情報及びIPアドレス情報を取得する。そして識別情報記憶部41は、識別情報に対応付けたIPアドレス情報をメモリ部30のDB等に記憶する。これにより、エージェント装置1により操作に関する指示内容情報を照明装置2に送信する際に、送信対象となる照明装置2を特定することができる。
 操作情報取得部42は、ユーザの音声及び挙動による操作を示す音声データ及び画像データとしての操作情報をセンシング機器10から取得する。また操作情報取得部42は、センシング機器10から照明装置2の識別情報を取得する。
 具体的には操作情報取得部42は、マイクロフォン11で集音した周囲の音声、撮像部12で撮像した周囲の撮像画像、情報受信部13で受信した赤外線通信により受信した、その他各種のセンシング機器10による周囲の検出信号を取得する。
 指示認識部43は、操作情報としての音声データ及び画像データを解析して、操作が示す指示内容を認識するとともに、操作対象の照明装置2を特定する。
 指示認識部43は、音声入力情報を解析し、ユーザからの入力情報の意図を解析する処理を行う。具体的には音声認識によりユーザの操作対象機器の操作に関する発話(操作に関する用語)を理解し、設定をユーザの意思に沿って変更できるようにする。
 例えば「照明をつけて」という発話を、操作対象機器である照明装置2に照明の点灯を実行させる言葉と理解する。このためには、例えばメモリ部30には各種の操作に関する多様な言葉が記憶されるようにしておき、その照合によりユーザの意図が正しく理解できるようにする。
 具体的には例えば照明装置2について「照明をつけて」「照明のスイッチをオンにして」「照明を消して」「明るくして」「暗くして」・・・など多様な言葉が、それぞれ照明装置2の点灯を指示する言葉として認識できるように、1つの設定操作を表現する多くの言葉が記憶されたテーブルを持つようにする。
 また照明装置2について「この部屋の照明をつけて」「窓際の照明を消して」「テレビの側を暗くして」・・・などの複数ある照明装置2から或る照明装置2を特定するための「この部屋」「窓際」「テレビの側」・・・などの言葉が、それぞれ照明装置2を特定する言葉として認識できるように、各照明装置2の位置、状態を表現する多くの言葉が記憶されたテーブルを有していてもよい。
 指示認識部43は操作依頼者の発話とこれらのテーブルを照合して、ユーザの照明装置2に対する指示内容やユーザが操作を希望する対象の照明装置2を判定する。
 指示認識部43は、撮像部12によるセンシング情報を解析することで、ユーザの動作を読み取ることにより、ユーザからの入力情報の意図を解析する処理を行う。具体的には画像解析によりユーザの照明装置2の操作に関するジェスチャ(操作に関する動作)を理解し、設定をユーザの意思に沿って変更できるようにする。
 例えば、ユーザの手又は指の、動き又は形状を、照明装置2を点灯させる動作と理解する。また、ユーザの手又は指の示す方向からユーザが操作対象とする照明装置2を選択する動作と理解する。このためには、例えばメモリ部30には各種の操作に関する多様な動作が記憶されるようにしておき、照合によりユーザの意図が正しく理解できるようにする。
 また音声データと画像データの解析を組み合わせることで、ユーザの意図をより正確に理解することが可能となる。例えばユーザが照明装置2を指により方向を指し示すジェスチャと「あの照明をつけて」といった発話を行った場合、音声データを解析しただけでは「あの照明をつけて」の「あの」がどの方向を指しているかを認定することは難しい。そこで、ユーザが照明装置2を指さすジェスチャについて解析を行うことで指の方向から操作対象となる照明装置2を特定する。即ち、言葉として不明確な部分を画像により補完することができる。
 また指示認識部43は、上記のような音声データ及び画像データを解析することにより、操作対象として特定した照明装置2の識別情報を、例えば赤外線通信により情報受信部13が受信することで取得する。
 指示送信部44は、指示認識部43が解析した指示内容に応じた制御信号を生成し、指示認識部43が特定した照明装置2に送信する。
 次に実施の形態における操作対象機器2の一例として、照明装置2の構成について説明する。
 照明装置2は、通信インタフェース50、情報送信部60、演算部70、照明部80を備える。 
 通信インタフェース50は、エージェント装置1と照明装置2との間でネットワークNWを介して通信を行う部位である。
 また情報送信部60は、照明装置2の識別情報を赤外線通信を介して発信する部位である。情報送信部60は、赤外線通信の発信を常に行っていてもよいし、ネットワークNWを介してエージェント装置1からの要求があったときのみ発信してもよい。
 ここで演算部70の機能構成について説明する。演算部70は、例えばマイクロコンピュータ等により構成され、通信部71と機器制御部72が設けられている。
 通信部71は、通信インタフェース50によりネットワークNWを介してエージェント装置1の制御部40と通信可能とされている。これにより、演算部70は、制御部40から照明装置2についての操作内容についての情報を取得することができる。
 機器制御部72は、通信部71がエージェント装置1から受信した操作制御指示に従って制御を行うことで、照明装置2において、エージェント装置1が設定した指示内容情報による様々な出力が実現される。例えば照明部80についての点灯又は消灯を実行する。
 また機器制御部72は、情報送信部60により赤外線通信を介した照明装置2の識別情報の発信を実行させる。
 次に、これらの機能を備えたエージェント装置1の制御部40が、操作対象となっている操作対象機器2を特定し、その操作対象機器に操作の指示内容情報を送信するために用いられるDBについて、図3を参照して説明する。エージェント装置1では、例えばメモリ部30に各種DBが記憶されている。
 DBは、例えば機器情報管理DB31、位置情報管理DB32等で構成されている。
 もちろんこれ以外にもDBとして、実施の形態のエージェント装置1として機能するために必要なDBを含んで構成されていてもよい。
 機器情報管理DB31には、例えば図3Aに示すように、操作対象機器2の識別情報である機器ID(Identification)と操作対象機器2に割り振られているIPアドレス等のアドレス情報が記憶されている。これにより、エージェント装置1は操作対象機器2の機器IDさえ特定できれば、適切な操作対象機器2に操作に関する指示内容情報を送信することができる。
 位置情報管理DB32には、操作対象機器2の識別情報である機器IDに対して、操作対象機器2を特定するために用いる位置情報が記憶されている。位置情報としては、例えば、撮像装置が撮像した画像データを解析することにより求められる各操作対象機器2の空間座標の値が記憶されている。
 また位置情報には「テレビジョン装置の横」「机の上」「窓際」「室内にある」・・・等の空間内に配置されたものとの相対的な関係として記憶することもできる。この場合、エージェント装置1が撮像部12から取得した画像データを解析することにより行う。
 また位置情報として、操作対象機器2を解析したセンシング機器10の識別情報を紐付けて記憶することもできる。これにより、例えばそれぞれの部屋ごとにセンシング機器10が設置されている場合において、操作対象機器2をセンシング機器10に対応付けておくことで、部屋単位で操作対象機器2の操作を行うことができる。
 以上の各DBは、エージェント装置1とは別のコンピュータ内(例えば、操作対象機器2等)に構築されていてもよいし、エージェント装置1内に構築されていてもよい。
 また機器情報管理DB31、位置情報管理DB32は、エージェント装置1がアクセス可能であれば、どのような形態で実現されていてもよい。例えばエージェント装置1と同一システム内のメモリ部30に各DBのすべてが形成されていてもよいし、各DBの一部又は全部が別体、遠隔地などのコンピュータシステムに設けられていてもよい。もちろん各DBが一つの装置(例えば一つのHDDなど)内に形成されている必要はない。また各DBのそれぞれが、それぞれ1つのDBとして構成される必要もない。例えば、位置情報管理DB32として記憶される情報が、機器情報管理DB31により記憶管理されてもよい。実施の形態で説明する上記各DBは、実施の形態の処理に関連する情報の記憶部を、それぞれ一つのDBの形態で例示したものに過ぎない。
 以上に示したエージェント装置1、操作対象機器としての照明装置2を構成する情報処理装置のハードウェア構成を図4に示す。エージェント装置1、照明装置2として示す各装置は、情報処理及び情報通信が可能な図4に示すようなコンピュータ装置170として実現できる。
 図4において、コンピュータ装置170のCPU(Central Processing Unit)171は、ROM(Read Only Memory)172に記憶されているプログラム、または記憶部178からRAM(Random Access Memory)173にロードされたプログラムに従って各種の処理を実行する。RAM173にはまた、CPU171が各種の処理を実行する上において必要なデータなども適宜記憶される。
 CPU171、ROM172、およびRAM173は、バス174を介して相互に接続されている。このバス174にはまた、入出力インタフェース175も接続されている。
 入出力インタフェース175には、センシング機器10、或いは操作子や操作デバイスよりなる入力装置176が接続される。
 また入出力インタフェース175には、LCD(Liquid Crystal Display)或いは有機EL(Electro-Luminescence)パネルなどよりなるディスプレイ、並びにスピーカなどよりなる出力装置177が接続される場合も考えられる。
 入出力インタフェース175には、ハードディスクなどより構成される記憶部178、モデムなどより構成される通信部179が接続される場合もある。
 通信部179は、ネットワークNWとして示したインターネット等の伝送路を介しての通信処理を行ったり、それぞれの装置間での有線/無線通信、バス通信などによる通信を行う。
 入出力インタフェース175にはまた、必要に応じてドライブ180が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア181が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部178にインストールされる。
 上述したエージェント装置1の制御部40、照明装置2の演算部70の機能をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、ネットワークや記録媒体からインストールされるようにすることができる。
 この記録媒体は、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク、光ディスク、光磁気ディスク、若しくは半導体メモリなどよりなるリムーバブルメディア181により構成される。或いは、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM172や、記憶部178に含まれるハードディスクなどでも構成される。
 以上のような構成によって、実施の形態のエージェントシステムを実現することが可能である。
 なお、エージェント装置1や操作対象機器2は1又は複数の情報処理装置で構成される。また、エージェント装置1における制御部40や操作対象機器2の演算部70における各機能は、情報処理装置においてCPU171でプログラムに応じて実行される処理により実現される機能である。但し、以下説明する全部又は一部の各構成の処理をハードウェアにより実現してもよい。
 また、各機能をソフトウェアで実現する場合に、各機能がそれぞれ独立したプログラムで実現される必要はない。一つのプログラムにより複数の機能の処理が実行されてもよいし、一つの機能が複数のプログラムモジュールの連携で実現されてもよい。また各機能は複数の情報処理装置に分散されていてもよい。さらに機能の一つが複数の情報処理装置によって実現されてもよい。
<3.エージェントシステムの概要>
 本技術のエージェントシステムの概要について、図5及び図6を用いて説明する。
 ここでは、環境の一例としてユーザが居住する家においてエージェントシステムを利用する場合について説明する。家には様々な操作対象機器2が存在する。
 また、本エージェントシステムは、乗用車若しくはその他の乗り物、オフィス、店舗、教育施設、又は公共施設といった、他のいかなる環境において利用されてもよい。また、地理的に離れた複数の環境(例えば、家庭及び乗用車、又は家庭及びオフィスなど)を1つのエージェントシステムが統合的に扱ってもよい。
 図5では、一例として操作対象機器としての照明装置2が3台、有線又は無線でネットワークNWに接続されている。またそれぞれの照明装置2は、エージェント装置1と互いにネットワークNWにより通信可能に接続されている。
 ここで、ユーザが音声によってエージェント装置1に機器の操作を依頼するときに、例えば「照明を点けて」などの言い方によって指示する場合があるが、このような場合においては「全ての照明」或いは「どれかは特定できないが一つの照明」といった曖昧な内容で操作対象とする照明装置2を特定することとなる。ユーザが音声入力による指示に使用した一般名によって特定される操作対象機器2が一つしか存在しない場合は問題ないこともあるが、例えば「テレビの付近の照明だけ点けたい」といった依頼を反映させて操作対象機器2を特定することは困難である。
 特定の操作対象機器2の操作をユーザの音声入力によりエージェント装置1に依頼するためには、事前にユーザが登録した、あるいはあらかじめ操作対象機器2に登録されていたコマンドや機能につける別名としてのエイリアス(名称)などを用いて指示を出すことで、操作対象機器2を特定する手法も存在する。
 しかしながら、エイリアス等のあらかじめ決まった名称による操作では、その名称をあらかじめ知っているユーザしか操作を依頼できず、それを知らない他のユーザは操作対象機器2を特定することができない。またエイリアスを把握しているユーザであっても、登録される操作対象機器2の数が増えれば増えるほどエイリアスを覚える負担が増えてしまうことになる。
 また、ユーザの音声や動作を解析することで操作対象機器2を特定した後に、特定した操作対象機器2に対してネットワークNWを介して制御を行わせるには、特定した操作対象機器2のIPアドレスを把握しておくことが必要である。
 そこで本技術では、照明装置2はそれぞれ機器ID及びIPアドレスの情報をエージェント装置1に送信する手段を有しており、エージェント装置1は、そこから得た情報に基づいて各照明装置2の機器IDとIPアドレスが紐付けられた状態で、エージェント装置1の機器情報管理DB31に記憶する。実施の形態では、例えば機器ID「ABC」「EFG」「XYZ」のそれぞれに対してIPアドレスが紐付けられて記憶されている。
 上記のような状況が整った環境において、ユーザは特定の照明装置2のみを点灯させるために、「あの照明を点けて」と発話するとともに、操作対象となる照明装置2を指によるジェスチャによって示す。
 この場合エージェント装置1は、音声入力から、ユーザが「あの」によって指定するものについて機能を有効にすること(点灯させること)を音声データを解析することで操作の指示内容を取得し、指さす方向を画像データから解析することで指さす方向に照明装置があることから「照明を点灯させる」要求ということを判定する。
 操作対象として特定した照明装置2は赤外線により自身の機器IDを周囲に発信する機能を有している。エージェント装置1は、受信した赤外線に埋め込まれたデータをデコードし、特定した照明装置2の機器IDを取得する。そしてエージェント装置1は、機器情報管理DB31から機器IDに紐付けられたIPアドレスを取得し、取得したIPアドレスに対して照明を点灯させるコマンドを発行する。
 照明装置2から赤外線を通じて取得した機器IDとネットワークNWから取得した機器IDの照合が行われることで、特定した照明装置2について操作を実行させることができる。即ち、エイリアスなどの決められた機器名称を用いずとも、指差しジェスチャなどによる直感的な機器特定を利用してエージェント装置1に照明装置2等の操作対象機器2の操作を依頼することができる。
 また図6に示すように、特定領域内の照明装置2を一斉に操作することも可能である。
 この場合、各照明装置2の機器IDとIPアドレスが紐付けられた状態において、あらかじめ部屋(roomA、roomB)ごとに照明装置2の機器IDを紐付けておく。
 ユーザは、部屋roomBの照明を消すために「この部屋の照明を消して」と発話する。
 この場合エージェント装置1は、音声入力から、ユーザが「この」によって指定する照明装置2について消灯させることを、音声データを解析することで操作の指示内容を取得し、ユーザの現在位置を画像データから解析することで、ユーザが現在部屋roomBにいることから、「roomBの照明を点灯させる」要求ということを判定する。
<4.第1の実施の形態の処理>
 図7及び図8を用いてエージェントシステムにおける第1の実施の形態の処理について説明する。第1の実施の形態では、ユーザがエージェントシステムを利用するにあたり、初期設定の段階で機器情報及び位置情報の記憶を行っておくものである。
 エージェントシステムの概要について図7を用いて説明する。図7は、エージェント装置1、操作対象機器2(照明装置2)が実行する処理の流れの一例を示している。なお、以下において一度説明した処理と同様の処理については、同一符号を付し、説明を省略するものとする。
 まず照明装置2は、ステップS11において、エージェントシステムを利用するにあたり、エージェント装置1に機器情報をネットワークNWにより送信する。機器情報とは自機の機器ID及びIPアドレスの情報のことである。なお、機器IDは他機器のIDと衝突しないよう十分に一意性の確保できるID体系が望ましい。
 エージェント装置1は、ステップS12において照明装置2から機器情報を受信すると、ステップS13に処理を進める。エージェント装置1は、ステップS13においてリアクション要求を照明装置2に送信する。
 リアクション要求を受けた照明装置2は、ステップS14において、機器IDの情報を発信する。ここで照明装置2は、通信手段として赤外線通信を用いる。なお当該通信手段は指向性の高いものが望ましい。赤外線を発する照明装置2の特定をしやすくするためである。また雑音の影響を受けやすいことも想定されるため、エラー訂正能力の高い符号化を併用することが望ましい。
 エージェント装置1は、ステップS15で照明装置2から機器ID情報を受信すると、ステップS12で受信した機器IDと同じものであるかを判定する。機器IDが同じものでなかった場合、他の機器IDを受信するまで待機する。また、一定時間以上、同じ機器IDを受信できなかった場合には、再試行を促すエラー結果をユーザに通知することとしてもよい。
 ここで、照明装置2の識別情報をエージェント装置1が取得する手法として、撮像部12を用いることも考えられる。この場合、例えば操作対象機器2の表面にはQRコード(登録商標)等を印刷することで機器IDの情報が埋め込まれている。エージェント装置1は、撮像部12により当該コードの画像データを取得し、撮像信号処理部15で必要な処理が施された後、制御部40で当該画像データを解析することで各照明装置2の機器IDを取得することができる。
 機器IDが同じものである場合は、エージェント装置1は、ステップS16において、空間内座標の検出を行う。ここでエージェント装置1は、情報受信部13での受信により赤外線を送信した照明装置2を判定する。当該判定の方法としては、例えば、指向性の高い通信手段を用い、情報受信部13が当該通信を受信した際に、当該受信方向にある機器を信号を発信した照明装置2と判定する。当該機器は、撮像部12が取得したエージェントシステムの範囲内の画像データを解析することで特定することが考えられる。このときエージェント装置1は、例えば情報受信部13を旋回させることで、情報受信部13が信号を受信した際の撮像部12の角度から信号の発信方向を判定し、撮像部12が撮像した発信方向についての照明装置2等の画像データを解析することで、当該照明装置2の空間内座標を算出する。これにより、エージェントシステムにおける照明装置2の設置位置を判定することができる。なお、照明装置2の設置位置情報は、ユーザが例えばエージェント装置1に操作により入力することで記憶させることも可能である。
 その後、エージェント装置1は、ステップS17において、機器情報及び位置情報の記憶を行う。エージェント装置1は、照明装置2の機器IDにIPアドレスが紐付けられた機器情報を機器情報管理DB31に記憶し、照明装置2の位置情報としての空間内座標を位置情報管理DB32に記憶する。
 また、ここでエージェント装置1は、撮像部12により、照明装置2の周辺機器の様子を画像データとして取得し、当該画像データを解析することで、「机の上」「テレビの横」など周辺機器との相対的な位置関係を位置情報として位置情報管理DB32に記憶する。また、エージェント装置1は、エージェントシステムの領域内に配置された様々なオブジェクトの空間内座標を計測しておく。
 以上により、ユーザがエージェントシステムを利用するにあたっての事前処理が完了する。ここで、初期設定の段階で機器情報のみならず位置情報の記憶を行っておくことで、後述する対象機器判定処理をエージェント装置1が実行するにあたり、処理負担を軽減させることができる。
 ステップS11~S17の処理は、ユーザがエージェントシステムを利用するにあたり、操作対象機器2の追加ごとに実行される処理である。
 その後、エージェント装置1は、ステップS18において、センシング機器10によるユーザからの指示入力を監視する処理を行う。例えば、マイクロフォン11により取得した音声データや撮像部12から取得した画像データを解析することで、照明装置2についての操作指示であるか否かを判定する。ここでエージェント装置1は、音声データを解析することで操作内容についての情報も取得する。
 エージェント装置1は、ステップS19において、照明装置2の操作指示を検知するまで、ステップS18の指示監視処理を行う。
 ステップS19において照明装置2への操作指示を検知すると、エージェント装置1はステップS20に処理を進め、対象機器判定処理を実行する。
 ここで、ステップS20の対象機器判定処理の詳細について、図8を用いて説明する。
 まずエージェント装置1の制御部40は、ステップS101において、ジェスチャ解析が必要か否かを判定する。ここでジェスチャ解析が必要な場合とは、マイクロフォン11が集音した音声データの解析のみでは表現が曖昧なため、操作対象となる照明装置2が特定できない場合をいう。
 ステップS101でジェスチャ解析が必要と判定すると、制御部40は、ステップS102に処理を進め、空間内座標の算出処理を実行する。制御部40は、指を差す等のジェスチャにおいて、ジェスチャしたユーザの腕や指の角度からジェスチャの示す先の空間内座標を算出する。
 そして制御部40は、ステップS103において、算出した空間内座標の値に近い機器IDの情報を位置情報管理DB32から取得する。このとき、空間内座標の値に近似する空間内座標が記憶されている機器IDが複数存在することも想定される。この場合、制御部40は、ユーザの発言による音声データを解析して要求内容を推定することで、要求内容に応じて機器IDを選択することもできる。
 機器IDを取得すると、制御部40は、ステップS104において、取得した機器IDに対応するIPアドレスを機器情報管理DB31から取得する。その後制御部40は、図8の処理を終える。
 一方、ステップS101においてジェスチャ解析が不要な場合、制御部40はステップS105に処理を進める。ジェスチャ解析が不要な場合には、例えば取得した音声データにエイリアスが含まれているため機器IDを特定可能な場合や、音声データの「机の上」等の特定の場所を示す表現から機器IDを特定可能な場合等が考えられる。
 制御部40は、ステップS105において、上記それぞれの場合において操作対象となる機器の特定を行う。
 その後制御部40は、ステップS104において、機器IDに対応するIPアドレスを取得し、図8の処理を完了する。
 図7に戻り、エージェント装置1は、ステップS20からステップS21に処理を進める。エージェント装置1は、ステップS21において、解析した照明装置2の指示内容の情報に基づいてコマンド生成処理を実行する。そしてエージェント装置1は、ステップS22において、動作制御処理を実行し、ステップS23において照明装置2に動作処理を実行させる。
 以上により、エージェントシステムにおける第1の実施の形態の処理が完了する。
<5.第2の実施の形態の処理>
 次に図9及び図10を用いてエージェントシステムにおける第2の実施の形態の処理について説明する。第2の実施の形態は、エージェントシステムを利用するにあたり、照明装置2等の操作対象機器2の空間内座標を対象機器判定処理において算出する処理である。
 図9を用いて第2の実施の形態におけるエージェントシステムの概要について説明する。図9は、エージェント装置1、操作対象機器2(照明装置2)が実行する処理の流れの一例を示している。
 まず照明装置2は、エージェントシステムを利用するにあたり、エージェント装置1に機器情報をネットワークNWにより送信する。エージェント装置1は、ステップS12において照明装置2から機器情報を受信すると、ステップS31に処理を進める。
 エージェント装置1は、ステップS31において、照明装置2の機器IDにIPアドレスが紐付けられた機器情報を機器情報管理DB31に記憶する。
 以上により、ユーザがエージェントシステムを利用するにあたっての事前処理が完了する。また第2の実施の形態においては、ステップS14において、照明装置2から赤外線通信による機器IDの発信が間欠的に行われている。
 その後、エージェント装置1は、ステップS18において、センシング機器10によるユーザからの指示入力を監視する処理を行う。そしてエージェント装置1は、ステップS19において、照明装置2の操作指示を検知するまで、ステップS18の指示監視処理を行う。
 ステップS19において照明装置2への操作指示を検知すると、エージェント装置1はステップS32に処理を進め、対象機器判定処理を実行する。
 ここで、ステップS32の対象機器判定処理の詳細について、図10を用いて説明する。
 まずエージェント装置1の制御部40は、ステップS101において、ジェスチャ解析が必要か否かを判定する。
 ステップS101でジェスチャ解析が必要と判定すると、制御部40は、ステップS102に処理を進め、ジェスチャしたユーザの腕や指の角度からジェスチャの示す先の空間内座標の算出処理を実行する。
 その後、制御部40は、ステップS201において、照明装置2から赤外線通信により機器ID情報を受信したかを判定する。ステップS201で機器IDを受信すると、制御部40は、ステップS202において、情報受信部13での受信方向から赤外線を送信した照明装置2を判定し、当該判定した照明装置2の空間内座標を算出する。空間内座標は、撮像部12が撮像した画像データを解析することで算出する。
 そして制御部40は、ステップS203において、ステップS201で取得した機器IDの照明装置が、操作要求がされている機器かを判定する。具体的には、制御部40は、ステップS102でのジェスチャ解析により算出した空間内座標の値と、ステップS202での情報受信部13が信号を受信した際の撮像部12の角度に基づいて算出した空間内座標の値とが近似するか否かにより、当該照明装置2が操作要求された機器であるかを判定する。
 ステップS203で操作要求機器であると判定すると、制御部40は、ステップS104において、ステップ201で受信した機器IDに対応するIPアドレスを機器情報管理DB31から取得する。その後、制御部40は図10の処理を終える。
 ステップS203で操作要求機器でないと判定すると、制御部40はステップS201に処理を進め、新たな赤外線による機器IDの受信があるまで待機する。そしてステップS201において機器IDを受信しない場合は、ステップS205において一定時間経過するか、ステップS201において新たな機器IDを取得するかまでステップS201→S205の処理をループする。
 ここで制御部40は、旋回している情報受信部13の受信部に、照明装置2から発信される信号が受信するまで待機する。またエージェント装置1に情報受信部13が複数設けられている場合、順次、それぞれの情報受信部13が照明装置2からの発信を検知処理を行うため、処理対象の情報受信部13となるまで待機することになる。ステップS205において一定時間とは、このような待機時間により生ずるものである。
 ここで、ステップS205において機器IDを受信せずに一定時間が経過すると、制御部40はステップS205からステップS206に処理を進め、ユーザの指示内容が反映されない旨などのエラー通知を行う。その後制御部40は図10の処理を完了する。
 一方、ステップS101においてジェスチャ解析が不要な場合、制御部40はステップS105に処理を進める。制御部40は、ステップS105において、上記それぞれの場合において操作対象となる機器の特定を行う。
 図9に戻り、エージェント装置1は、ステップS32からステップS21に処理を進める。エージェント装置1は、ステップS21において、解析した照明装置2の指示内容の情報に基づいてコマンド生成処理を実行する。そしてエージェント装置1は、ステップS22において、動作制御処理を実行し、ステップS23において照明装置2に動作処理を実行させる。
 以上により、エージェントシステムにおける第2の実施の形態の処理が完了する。
<6.第3の実施の形態の処理>
 次に図11を用いてエージェントシステムにおける第3の実施の形態の処理について説明する。第3の実施の形態は、照明装置2がネットワークNWによるエージェント装置1のリクエスト要求を受信したときに、機器IDを有する赤外線を発信するものである。
 ここでは、ステップS32の対象機器判定処理について第2の実施の形態と異なる点を説明する。
 まずエージェント装置1の制御部40は、ステップS101において、ジェスチャ解析が必要か否かを判定する。ステップS101でジェスチャ解析が必要と判定すると、制御部40は、ステップS102に処理を進め、ジェスチャしたユーザの腕や指の角度からジェスチャの示す先の空間内座標の算出処理を実行する。
 その後制御部40は、ステップS301において、機器情報管理DB31に記憶されている機器IDから処理対象となる機器IDを選択する。そして制御部40は、ステップS302において、選択した機器IDに対応する照明装置2にリアクション要求を行う。制御部40からのリクエスト要求を照明装置2が受信することで、当該照明装置2による自機の機器ID情報を有する赤外線の発信が開始される。
 その後、制御部40は、ステップS201において、照明装置2から赤外線通信により機器ID情報を受信したかを判定する。ステップS201で機器IDを受信すると、制御部40は、ステップS202において、情報受信部13で受信した赤外線の入射角度から赤外線を送信した照明装置2を判定し、当該判定した照明装置2の空間内座標を算出する。
 そして制御部40は、ステップS203において、ステップS201で取得した機器IDの照明装置が、操作要求がされている機器かを判定する。
 ステップS203で操作要求機器でないと判定すると、制御部40はステップS303に処理を進め、全ての機器について処理が終了したかを判定する。ステップS303において全ての機器について処理が終了していない場合、制御部40は、ステップS303からステップS301に処理を進め、以下、ステップS203で操作要求機器を特定するか、ステップS303で全ての機器について処理が終了するまで上記と同様の処理を実行する。
 ステップS203において操作要求機器を特定すると、制御部40は、ステップS104において、当該機器の機器IDに対応するIPアドレスを取得し、図11の処理を終了する。
 またステップS303において、全ての機器について処理が終了した、即ち、操作要求機器がなかった場合は、制御部40はステップS206においてエラー通知を実行し図11の処理を終了する。
 またステップS201において機器IDを受信しない場合は、ステップS205において一定時間経過するか、ステップS201において新たな機器IDを取得するかまでステップS201→S205の処理をループする。
 ここで、ステップS205において機器IDを受信せずに一定時間が経過すると、制御部40はステップS205からステップS303に処理を進め、他の機器の処理が残っている場合は、ステップS303からS301に処理を進め、次の機器IDについての処理を進める。
 一方、ステップS101においてジェスチャ解析が不要な場合、制御部40はステップS105に処理を進める。制御部40は、ステップS105において、上記それぞれの場合において操作対象となる機器の特定を行う。そして制御部40はステップS104で操作対象となる機器に対応するIPアドレスを取得し、図11の処理を終了する。
 以上により、エージェントシステムにおける第3の実施の形態の対象機器判定処理が完了する。
<7.まとめ及び変形例>
 以上の実施の形態によれば次のような効果が得られる。
 実施の形態におけるエージェント装置1は、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部42と、操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器(操作対象機器2)のうちで操作情報による操作対象とされる被制御機器(操作対象機器2)を特定する指示認識部43と、指示認識部43が認識した指示内容に応じた制御信号を生成し、指示認識部43が特定した被制御機器(操作対象機器2)に送信する指示送信部44と、を備える(図7)。
 これにより、複数の被制御機器のうちの特定の操作対象機器2について、ユーザの音声により入力された指示内容を反映させた制御を実行することができる。よって、例えば音声データ解析により抽出したエイリアスや場所を示す表現等により操作対象機器2の機器IDを特定可能な場合は、ユーザの挙動(ジェスチャ)を画像データから解析することなしに操作対象機器2を特定し、操作することができる。つまり、エージェント装置1の処理負担を軽減させることができる。
 また、ユーザの挙動(ジェスチャ)を画像データで解析することで、操作対象機器2の機器ID及び操作内容が特定できる場合には、ユーザの音声入力による音声データを解析することなしに、操作対象機器2を操作することも可能である。これによってもエージェント装置1の処理負担が軽減される。
 さらに、音声及び挙動による操作を示す音声データ及び画像データの両方を解析することで、音声データと画像データの不明確な部分を補完し、ユーザからの操作指示内容がより正確に反映される。また操作対象となる操作対象機器2の特定の精度も向上する。
 従って、対象となる機器の特定が曖昧な操作依頼であっても、操作対象となる機器を特定する精度を向上させることができるため、ユーザにとって機器の快適な操作環境を実現することができる。
 実施の形態では、制御部40(指示送信部44)は、被制御機器(操作対象機器2)の識別情報(機器ID)とアドレス情報(IPアドレス)を対応させて記憶した記憶部(メモリ部30)を参照して、操作対象と特定された被制御機器(操作対象機器2)の識別情報(機器ID)に対応するアドレス情報(IPアドレス)を取得し、該アドレス情報(IPアドレス)を用いて当該制御信号を送信することが考えられる(図7)。
 これにより、ユーザの特定する操作対象機器2とエージェント装置1が指示内容を送信する操作対象機器2との紐付けが可能となることにより、ユーザとエージェント装置1との間で操作対象機器2の認識が共有されることになる。
 従って、操作対象となる操作対象機器2の機器IDを取得することができれば、当該操作対象機器2にユーザの操作が示す指示内容に応じた制御信号を操作対象機器2に送信することができる。
 実施の形態では、制御部40(指示認識部43)は、操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器(操作対象機器2)の識別情報(機器ID)を、当該位置又は方向に配置された被制御機器(操作対象機器2)からの送信信号を受信することで取得することが考えられる(図9)。
 つまりエージェント装置1は、画像データに表れる操作対象機器2を指し示す等のユーザのジェスチャを解析することで操作対象となる操作対象機器2を特定し、当該特定された操作対象機器2からの送信信号を受信することで機器IDを取得する。そしてエージェント装置1は、当該機器IDに対応するアドレスにユーザの指示内容に応じた制御信号を操作対象機器2に送信することで、ユーザの指示内容を反映させた操作対象機器2の操作を実現する。
 これにより、ユーザの特定する操作対象機器2とエージェント装置1が指示内容を送信する操作対象機器2との紐付けが可能となることにより、ユーザとエージェント装置1との間で操作対象機器2の認識が共有されることになる。
 従って、操作対象となる操作対象機器2の機器IDを取得することができれば、当該操作対象機器2にユーザの操作が示す指示内容に応じた制御信号を操作対象機器2に送信することができる。
 また、エイリアスなどの特定の機器名称を用いなくても、ユーザの指差しジェスチャなどによる直感的な特定手法により、エージェント装置1に操作対象機器2の操作を依頼することができる。つまり、「あれ」「それ」といった指示語によるリクエストの解釈を、前後の文脈を用いることなしに特定することができるようになる。
 実施の形態では、制御部40(指示認識部43)は、特定の被制御機器(操作対象機器2)に信号送信を指示し、その受信により、当該被制御機器(操作対象機器2)の位置情報を判定し、識別情報(機器ID)に対応した位置情報としての記憶データ(位置情報管理DB32)が形成されるようにすることが考えられる(図7のS17)。
 機器IDに対応した位置情報としての位置情報管理DB32を形成しておくことで、画像データの解析等によりユーザのジェスチャ等が指し示す位置情報を取得すれば、その位置情報の周辺にある操作対象機器2の機器IDを操作対象のものとして取得することができる。つまり、機器IDに対応する位置情報とユーザの指し示す位置情報とを照合することで、操作対象となる操作対象機器2を容易に特定することができる。また、あらかじめ位置情報管理DB32に機器IDと位置情報との対応関係を記憶しておくことで、ユーザの指し示す機器との照合を行うごとに対応関係を生成する必要がなくなるため、エージェント装置1の処理負担の軽減を図ることができる。
 またこのときエージェント装置1は、撮像部12から取得した画像データを解析することで、エージェントシステムの範囲内に設置された操作対象機器以外の様々な機器や、窓、扉、椅子、机、タンス、ベッド等の様々なオブジェクトの位置を、当該オブジェクトの名称と対応付けて位置情報管理DB32等に記憶しておくこともできる。
 これによりエージェントシステムが利用可能な範囲内の機器、オブジェクトの場所やその特性(モデル名など)をエージェント装置1が把握することができるため、当該システムにおいて管理画面や設定画面を構築する際に、従来のリスト型の機器一覧表示とは異なるグラフィカルな画面で構成することが可能となる。例えば、複数のスピーカを部屋に配置してサラウンド環境を構築するような状況において、部屋の地図に本技術によって得られたスピーカの位置をマッピングしたものを画面に表示すれば、音響も含めた最適な配置をわかりやすくユーザに提示することができる。
 また、操作対象機器以外の様々な機器、オブジェクト等の位置をエージェント装置1が把握できるため、音声データ解析によって得られる機器、オブジェクト等の名称による指定との組み合わせにより、当該機器等を基準にした相対的な操作対象機器2の指定も可能となる。例えば「テレビの近くの照明を消して」といった「遠近」「上下左右」といった相対的な位置による指示をすることができる。
 また操作対象機器2の位置をエージェント装置1が把握できるため、図6に示すようなグルーピングを利用した操作対象機器2の特定も可能となる。例えばユーザから「この部屋の照明を消して」という指示がされた場合、エージェント装置1は、撮像部12から取得した画像データを解析することでユーザの位置情報を取得し、ユーザの位置情報が含まれる部屋の領域内に存在する照明装置2を一斉に制御することが可能となる。また、事前に部屋としての領域に「リビング」といった名称を設定しておけば「リビングの照明を消して」といったユーザからの指示に対しても同様の処理を実行することが可能となる。
 実施の形態では、制御部40(指示認識部43)は、操作情報としての音声データに表れるユーザの発話により指定される位置に配置された被制御機器(操作対象機器2)を、操作対象の被制御機器(操作対象機器2)と特定することが考えられる(図7のS19)。
 ユーザの発話が位置を特定するのに十分な情報を含んでいる場合は、その音声データを解析することで、ユーザの操作対象機器2の位置を特定するためのジェスチャの有無等に関わらず操作対象となる操作対象機器2として特定することが可能となる。
 従って、音声データの解析により操作対象機器2が特定できるときは、ジェスチャの内容について解析することなしに操作対象機器2を操作することができる。つまり、エージェントシステムの操作性が向上する。
 実施の形態では、制御部40(指示認識部43)は、操作情報としての画像データに表れるユーザの挙動により指定される位置の空間内座標を算出し、当該空間内座標に位置する被制御機器(操作対象機器2)を、操作対象の被制御機器(操作対象機器2)と特定することが考えられる(図8)。
 これにより、ユーザにより指定される位置を空間内座標の値として算出することで、指定位置を具体的な数値として把握することができる。従って、それぞれの操作対象機器2の空間内座標をエージェント装置1が把握できるため、高さ、奥行き等を考慮した操作対象機器2の位置の特定が可能となる。
 実施の形態では、制御部40(指示認識部43)は、複数の被制御機器(操作対象機器2)に順次信号送信を指示することで、その受信により、各被制御機器(操作対象機器2)の位置情報を判定し、ユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器(操作対象機器2)を特定することが考えられる(図11)。
 複数の操作対象機器2に順次信号送信を指示することで、信号を受信する際に他の操作対象機器2からの信号と混同することがなくなり、操作対象となる操作対象機器2を明確に特定できる。またエージェント装置1が操作対象機器2から送信された信号を受信する際には、信号送信が行われている操作対象機器2は一台であるため、他の操作対象機器2からの信号と混同することがなくなる。これはエージェント装置1と操作対象機器2が識別情報の送受信を行う際に用いられる通信手段が指向性の低いものである場合に特に有効である。指向性の低い通信手段の場合、複数の操作対象機器2から送信された信号の発信方向の特定が難しく、どの操作対象機器2から送信された信号であるかを判別することが困難であるためである。
 実施の形態では、制御部40(指示認識部43)は、音声データを解析して操作対象の被制御機器(操作対象機器2)を特定できなかった場合、画像データを解析して操作対象の被制御機器(操作対象機器2)を特定することが考えられる。
 つまり、音声データの解析により操作対象機器2を特定できる場合は、画像データの解析処理を省略することができる。従って、エージェント装置1の処理負担の軽減を図ることができる。
 実施の形態のプログラムは、上述の実施の形態で示した図7から図11の処理を、例えばCPU、DSP等、或いはこれらを含むデバイスに実行させるプログラムである。
 即ち実施の形態のプログラムは、ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理と、を情報処理装置に実行させるプログラムである。
 このようなプログラムにより、上述したエージェント装置1(情報処理装置)を実現できる。
 このようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。
 あるいはまた、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、MO(Magnet optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN、インターネットなどのネットワークを介してダウンロードすることもできる。
 またこのようなプログラムによれば、実施の形態のエージェント装置1の広範な提供に適している。例えばパーソナルコンピュータ、携帯型情報処理装置、家電機器、記録再生機器、放送機器、携帯電話機、ゲーム機器、ビデオ機器、PDA(Personal Digital Assistant)等にプログラムをダウンロードすることで、当該パーソナルコンピュータ等を、本開示の情報処理装置とすることができる。
 また、本明細書においてフローチャートを用いて説明した処理は、必ずしもフローチャートに示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
 以上、添付図面を参照しながら本開示の実施の形態について説明したが、本開示の技術的範囲は上記に限定されることはない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範囲内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものである。
 また、本明細書に記載された効果は、あくまで説明的又は例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果と共に、又は上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
 なお本技術は以下のような構成も採ることができる。
(1)
 ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部と、
 前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識部と、
 前記指示認識部が認識した指示内容に応じた制御信号を生成し、前記指示認識部が特定した被制御機器に送信する指示送信部と、を備える
 情報処理装置。
(2)
 前記指示送信部は、
 被制御機器の識別情報とアドレス情報を対応させて記憶した記憶部を参照して、操作対象と特定された被制御機器の識別情報に対応するアドレス情報を取得し、該アドレス情報を用いて前記制御信号を送信する
 (1)に記載の情報処理装置。
(3)
 前記指示認識部は、
 前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、当該位置又は方向に配置された被制御機器からの送信信号を受信することで取得する
 (2)に記載の情報処理装置。
(4)
 前記指示認識部は、
 前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、当該位置又は方向に配置された被制御機器の画像データから取得する
 (2)又は(3)に記載の情報処理装置。
(5)
 前記指示認識部は、
 特定の被制御機器に信号送信を指示し、その受信により、当該被制御機器の位置情報を判定し、識別情報に対応した位置情報としての記憶データが形成されるようにする
 (2)乃至(4)の何れかに記載の情報処理装置。
(6)
 前記指示認識部は、
 前記操作情報としての音声データに表れるユーザの発話により指定される位置に配置された被制御機器を、操作対象の被制御機器と特定する
 (5)に記載の情報処理装置。
(7)
 前記指示認識部は、
 前記操作情報としての画像データに表れるユーザの挙動により指定される位置の空間内座標を算出し、当該空間内座標に位置する被制御機器を、操作対象の被制御機器と特定する
 (5)又は(6)に記載の情報処理装置。
(8)
 前記指示認識部は、
 複数の被制御機器に順次信号送信を指示することで、その受信により、各被制御機器の位置情報を判定し、ユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器を特定する
 (2)乃至(7)の何れかに記載の情報処理装置。
(9)
 前記指示認識部は、音声データを解析して操作対象の被制御機器を特定できなかった場合、画像データを解析して操作対象の被制御機器を特定する
 (1)乃至(8)の何れかに記載の情報処理装置。
(10)
 ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
 前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、
 前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理と、
 を情報処理装置が実行する情報処理方法。
(11)
 ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理で認識された指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信部と、
 前記通信部が受信した前記制御信号により動作の制御を行う機器制御部と、を備える
 情報処理装置。
(12)
 ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに操作対象の被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信処理と、
 前記通信処理により受信した前記制御信号により動作の制御を行う機器制御処理と、を情報処理装置が実行する情報処理方法。
 1…エージェント装置、2…操作対象機器(照明装置)、40…制御部、42…操作情報取得部、43…指示認識部、44…指示送信部、70…演算部、71…通信部、72…機器制御部

Claims (12)

  1.  ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得部と、
     前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識部と、
     前記指示認識部が認識した指示内容に応じた制御信号を生成し、前記指示認識部が特定した被制御機器に送信する指示送信部と、を備える
     情報処理装置。
  2.  前記指示送信部は、
     被制御機器の識別情報とアドレス情報を対応させて記憶した記憶部を参照して、操作対象と特定された被制御機器の識別情報に対応するアドレス情報を取得し、該アドレス情報を用いて前記制御信号を送信する
     請求項1に記載の情報処理装置。
  3.  前記指示認識部は、
     前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、前記位置又は方向に配置された被制御機器からの送信信号を受信することで取得する
     請求項2に記載の情報処理装置。
  4.  前記指示認識部は、
     前記操作情報としての画像データに表れるユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器の識別情報を、前記位置又は方向に配置された被制御機器の画像データから取得する
     請求項2に記載の情報処理装置。
  5.  前記指示認識部は、
     特定の被制御機器に信号送信を指示し、その受信により、前記特定の被制御機器の位置情報を判定し、識別情報に対応した位置情報としての記憶データが形成されるようにする
     請求項2に記載の情報処理装置。
  6.  前記指示認識部は、
     前記操作情報としての音声データに表れるユーザの発話により指定される位置に配置された被制御機器を、操作対象の被制御機器と特定する
     請求項5に記載の情報処理装置。
  7.  前記指示認識部は、
     前記操作情報としての画像データに表れるユーザの挙動により指定される位置の空間内座標を算出し、該空間内座標に位置する被制御機器を、操作対象の被制御機器と特定する
     請求項5に記載の情報処理装置。
  8.  前記指示認識部は、
     複数の被制御機器に順次信号送信を指示することで、その受信により、各被制御機器の位置情報を判定し、ユーザの挙動により指定される位置又は方向にあることで操作対象とされる被制御機器を特定する
     請求項2に記載の情報処理装置。
  9.  前記指示認識部は、音声データを解析して操作対象の被制御機器を特定できなかった場合、画像データを解析して操作対象の被制御機器を特定する
     請求項1に記載の情報処理装置。
  10.  ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、
     前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、
     前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理と、
     を情報処理装置が実行する情報処理方法。
  11.  ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに、複数の被制御機器のうちで前記操作情報による操作対象とされる被制御機器を特定する指示認識処理と、前記指示認識処理で認識された指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信部と、
     前記通信部が受信した前記制御信号により動作の制御を行う機器制御部と、を備える
     情報処理装置。
  12.  ユーザの音声による操作を示す音声データ又はユーザの挙動による操作を示す画像データとしての操作情報を取得する操作情報取得処理と、前記操作情報としての音声データ又は画像データを解析して、操作が示す指示内容を認識するとともに操作対象の被制御機器を特定する指示認識処理と、前記指示認識処理が認識した指示内容に応じた制御信号を生成し、前記指示認識処理において特定した被制御機器に送信する指示送信処理を実行する制御装置により送信された制御信号を受信する通信処理と、
     前記通信処理により受信した前記制御信号により動作の制御を行う機器制御処理と、を情報処理装置が実行する情報処理方法。
PCT/JP2019/017729 2018-06-12 2019-04-25 情報処理装置、情報処理方法 WO2019239738A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US17/056,424 US20210208550A1 (en) 2018-06-12 2019-04-25 Information processing apparatus and information processing method
EP19819294.0A EP3809712A4 (en) 2018-06-12 2019-04-25 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
KR1020207034534A KR20210019424A (ko) 2018-06-12 2019-04-25 정보 처리 장치, 정보 처리 방법
JP2020525326A JPWO2019239738A1 (ja) 2018-06-12 2019-04-25 情報処理装置、情報処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-111787 2018-06-12
JP2018111787 2018-06-12

Publications (1)

Publication Number Publication Date
WO2019239738A1 true WO2019239738A1 (ja) 2019-12-19

Family

ID=68843236

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/017729 WO2019239738A1 (ja) 2018-06-12 2019-04-25 情報処理装置、情報処理方法

Country Status (5)

Country Link
US (1) US20210208550A1 (ja)
EP (1) EP3809712A4 (ja)
JP (1) JPWO2019239738A1 (ja)
KR (1) KR20210019424A (ja)
WO (1) WO2019239738A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705502B (zh) * 2021-09-02 2024-08-02 浙江索思科技有限公司 一种融合目标检测和目标跟踪的船舶目标行为理解系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016831A (ja) * 2001-06-29 2003-01-17 Hittsu Kenkyusho:Kk 通信機能モジュール
JP2011128766A (ja) * 2009-12-16 2011-06-30 Canon Inc 入力装置及び方法
JP2013105203A (ja) * 2011-11-10 2013-05-30 Canon Inc 情報処理装置、情報処理装置の制御方法、及び情報処理システム
JP2017112616A (ja) * 2009-11-30 2017-06-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 通信装置
JP2017123564A (ja) 2016-01-07 2017-07-13 ソニー株式会社 制御装置、表示装置、方法及びプログラム
JP2018036902A (ja) * 2016-08-31 2018-03-08 島根県 機器操作システム、機器操作方法および機器操作プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4311190B2 (ja) * 2003-12-17 2009-08-12 株式会社デンソー 車載機器用インターフェース
JP2011250027A (ja) * 2010-05-25 2011-12-08 Panasonic Electric Works Co Ltd リモートコントロール機器及び情報通信システム
JP6053097B2 (ja) * 2012-02-28 2016-12-27 シャープ株式会社 機器操作システム、機器操作装置、サーバ、機器操作方法およびプログラム
US9390726B1 (en) * 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures
US9785213B2 (en) * 2015-01-29 2017-10-10 Koolbridge Solar, Inc. Addressable electrical outlets
CN107528753B (zh) * 2017-08-16 2021-02-26 捷开通讯(深圳)有限公司 智能家居语音控制方法、智能设备及具有存储功能的装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016831A (ja) * 2001-06-29 2003-01-17 Hittsu Kenkyusho:Kk 通信機能モジュール
JP2017112616A (ja) * 2009-11-30 2017-06-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 通信装置
JP2011128766A (ja) * 2009-12-16 2011-06-30 Canon Inc 入力装置及び方法
JP2013105203A (ja) * 2011-11-10 2013-05-30 Canon Inc 情報処理装置、情報処理装置の制御方法、及び情報処理システム
JP2017123564A (ja) 2016-01-07 2017-07-13 ソニー株式会社 制御装置、表示装置、方法及びプログラム
JP2018036902A (ja) * 2016-08-31 2018-03-08 島根県 機器操作システム、機器操作方法および機器操作プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3809712A4

Also Published As

Publication number Publication date
EP3809712A4 (en) 2021-07-21
KR20210019424A (ko) 2021-02-22
EP3809712A1 (en) 2021-04-21
JPWO2019239738A1 (ja) 2021-07-15
US20210208550A1 (en) 2021-07-08

Similar Documents

Publication Publication Date Title
US10623835B2 (en) Information processing apparatus, information processing method, and program
CN111542420B (zh) 移动家庭机器人及其控制方法
US20190304448A1 (en) Audio playback device and voice control method thereof
KR102025391B1 (ko) 사용자의 발화 위치에 따른 디바이스 제어
US10861449B2 (en) Information processing device and information processing method
US20130300546A1 (en) Remote control method and apparatus for terminals
CN113574846A (zh) IoT装置的位置推断方法、服务器和支持该方法的电子装置
US20200280763A1 (en) Video integration with home assistant
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN109754795A (zh) 接近感知语音代理
JP2008511877A (ja) 装置制御方法
WO2019208170A1 (ja) 情報処理装置、情報処理方法
WO2019239738A1 (ja) 情報処理装置、情報処理方法
JP2013106315A (ja) 情報端末、家電機器、情報処理方法および情報処理プログラム
JP2007535261A (ja) アプリケーション制御の方法およびシステム
JP2019061334A (ja) 機器制御装置、機器制御方法及び機器制御システム
JP2002247666A (ja) 機器制御方法および機器制御システム
CN111033606A (zh) 信息处理装置、信息处理方法和程序
US12081964B2 (en) Terminal and method for outputting multi-channel audio by using plurality of audio devices
CN115016309A (zh) 一种基于移动终端的家居控制方法及设备
JP2017220089A (ja) 情報処理システム、情報処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19819294

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020525326

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019819294

Country of ref document: EP

Effective date: 20210112