WO2019077897A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2019077897A1
WO2019077897A1 PCT/JP2018/032698 JP2018032698W WO2019077897A1 WO 2019077897 A1 WO2019077897 A1 WO 2019077897A1 JP 2018032698 W JP2018032698 W JP 2018032698W WO 2019077897 A1 WO2019077897 A1 WO 2019077897A1
Authority
WO
WIPO (PCT)
Prior art keywords
space
place
information processing
information
command
Prior art date
Application number
PCT/JP2018/032698
Other languages
English (en)
French (fr)
Inventor
誠司 鈴木
健太郎 井田
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/754,706 priority Critical patent/US11373650B2/en
Publication of WO2019077897A1 publication Critical patent/WO2019077897A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • the display content is projected on a wall surface, and an operation corresponding to a gesture of the user on the projection plane, for example, a gesture recognized from the posture of the user's arm and hand, for example, a pointing operation to specify a position is detected It is disclosed that the cursor is displayed at the position designated by the pointing operation.
  • Patent Document 2 discloses control for estimating the position of the user with respect to a large display installed on a wall surface or a table and displaying a new display object in the vicinity of the user according to the estimated position of the user. .
  • Patent Document 3 listed below discloses a multimodal dialogue system that interacts with a user through various input / output devices.
  • Patent Document 1 and Patent Document 2 described above the display position of the UI (user interface) is controlled by a gesture such as pointing by the user or a single modal such as the position of the user. It was difficult to give instructions in the same way.
  • the display position of the image information of the personified agent person is determined by multimodal, but the case where the determination information can not be extracted from the processing command uttered by voice is not considered.
  • the present disclosure proposes an information processing apparatus, an information processing method, and a program capable of instructing control relating to a place in a space even if the speech utterance does not include a specific place name.
  • the plurality of types of sensors A control unit that determines a place in the space in the process command based on a result of environmental sensing processing of the space, and issues a process command of control related to the place in the space based on the determined place.
  • the processor acquires a speech utterance corresponding to a processing command of control concerning a place in the space, and the acquired speech utterance does not include a word specifying the place in the space, Determining a place in the space in the process command based on a result of an environment sensing process of the space by a type of sensor, and a process command of control on the place in the space based on the determined place.
  • the computer acquires a speech utterance corresponding to a processing command of control relating to a place in space, and the acquired speech utterance does not include a word for specifying the place in the space
  • a plurality of types of Based on the result of the environment sensing process of the space by the sensor, the place in the space in the process command is determined, and the control is issued to issue a process command of control regarding the place in the space based on the determined place.
  • FIG. 1 is a diagram for describing an overview of an information processing system according to an embodiment of the present disclosure.
  • the information processing system according to the present embodiment includes an information processing device 100 (not shown in FIG. 1), an output device 200 (in FIG. 1, a projector 210 and a TV 220 are shown as an example), and a sensor device 300.
  • the sensor device 300 is a device that senses various information.
  • the sensor device 300 includes a camera, a depth sensor, a microphone, and the like, and senses information on a user and a space in which the user is present.
  • the sensor device 300 senses the position, posture, movement, line of sight, shape of a room, arrangement of furniture, etc. of the user.
  • the output device 200 is a device that outputs various information from the information processing device 100, and assumes, for example, a projector 210 and a TV 220.
  • the projector 210 can project information as a projection location (that is, a projection plane or a projection region) at any place (i.e., a region) such as a wall, a floor, a table, or other furniture included in a space sensed by the sensor device 300. It is.
  • a projection place is not limited to a plane, A curved surface may be sufficient, and you may divide into several surface.
  • the projector 210 is realized by a plurality of projectors or a so-called moving projector so that the projector 210 can project anywhere in space.
  • the output device 200 and the sensor device 300 may be singular or plural.
  • the display image 10 is displayed on the top surface of the table 30 by the projector 210.
  • the display image 10 is a display object indicating an interaction from an application with respect to a user input, and is, for example, various UIs such as a still image, a moving image (video), a menu screen or a control screen.
  • the user can move various operation inputs on the display image 10 by moving the operating body, for example, a hand on the display image 10. It can be performed.
  • the display position of the display image 10 is not limited to the top surface of the table 30, but may be any place such as a wall, a floor, or furniture in a space, and is controlled automatically or according to an instruction by the user.
  • the present disclosure proposes a mechanism capable of instructing control relating to a place in space even in the case of voice utterances that do not include a specific place name.
  • FIG. 2 is a block diagram showing an example of the configuration of the system 1 according to the present embodiment. As shown in FIG. 2, the system 1 includes an information processing device 100, an output device 200 and a sensor device 300.
  • the output device 200 includes a projector 210, a TV 220, a tablet 230, a smartphone 240, a PC 250, a speaker 260, and a unidirectional speaker 270.
  • the system 1 may include, as the output device 200, a combination of one or more of them, or may include a plurality of devices of the same type.
  • the projector 210 is a projection device that projects an image to any place in space.
  • the projector 210 may be, for example, a fixed wide-angle projector, or may be a so-called moving projector provided with a movable portion such as a Pan / Tilt drive type capable of changing the projection direction.
  • the TV 220 is a device that receives radio waves of television broadcasting and outputs an image and sound.
  • the tablet 230 is a mobile device capable of wireless communication, which typically has a screen larger than the smartphone 240, and can output images, sounds, vibrations, and the like.
  • the smartphone 240 is a mobile device capable of wireless communication, which typically has a screen smaller than the tablet 230, and can output images, sounds, vibrations, and the like.
  • the PC 250 may be a fixed desktop PC or a mobile notebook PC, and can output images, sounds, and the like.
  • the speaker 260 converts audio data into an analog signal via a DAC (Digital Analog Converter) and an amplifier and outputs (reproduces) it.
  • Unidirectional speaker 270 is a speaker capable of forming directivity in a single direction.
  • the output device 200 outputs information based on control by the information processing device 100.
  • the information processing apparatus 100 can control an output method in addition to the content of the information to be output.
  • the information processing apparatus 100 can control the projection direction of the projector 210 or control the directivity of the unidirectional speaker 270.
  • the output device 200 may include components capable of arbitrary output other than the components described above.
  • the output device 200 may include wearable devices such as a head mounted display (HMD), an augmented reality (AR) glass, and a watch-type device.
  • HMD head mounted display
  • AR augmented reality
  • watch-type device a watch-type device
  • the output device 200 may include a lighting device, an air conditioner, a music reproduction device, and the like.
  • the sensor device 300 includes a camera 310, a depth sensor 320 and a microphone 330.
  • the camera 310 is an imaging device that has a lens system such as an RGB camera, a drive system, and an imaging element, and captures an image (still image or moving image).
  • the depth sensor 320 is a device that acquires depth information of an infrared distance measuring device, an ultrasonic distance measuring device, LiDAR (Laser Imaging Detection and Ranging), a stereo camera, or the like.
  • the microphone 330 is a device that picks up surrounding sound and outputs audio data converted into a digital signal through an amplifier and an ADC (Analog Digital Converter).
  • the microphone 330 may be an array microphone.
  • the sensor device 300 senses information based on control by the information processing device 100.
  • the information processing apparatus 100 can control the zoom ratio and the imaging direction of the camera 310.
  • the sensor apparatus 300 may contain the component in which arbitrary sensing other than the component mentioned above is possible.
  • the sensor device 300 may include a device such as a mouse, a keyboard, a touch panel, a button, a switch, and a lever, which allows information to be input by the user.
  • the sensor device 300 may include various sensors such as an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, an illuminance sensor, a force sensor, an ultrasonic sensor, an atmospheric pressure sensor, a gas sensor (Co2), and a thermo camera.
  • the information processing apparatus 100 includes an I / F (Interface) unit 110, a gesture detection unit 120, a user detection unit 130, an environment detection unit 140, a device detection unit 150, a storage unit 160, and a control unit 170.
  • I / F Interface
  • the information processing apparatus 100 includes an I / F (Interface) unit 110, a gesture detection unit 120, a user detection unit 130, an environment detection unit 140, a device detection unit 150, a storage unit 160, and a control unit 170.
  • the I / F unit 110 is a connection device for connecting the information processing apparatus 100 to another device.
  • the I / F unit 110 is realized by, for example, a USB (Universal Serial Bus) connector or the like, and performs input and output of information with each component of the output device 200 and the sensor device 300.
  • USB Universal Serial Bus
  • the gesture detection unit 120 has a function of detecting user's gesture information based on the information sensed by the sensor device 300.
  • the gesture information may be detected by, for example, a depth camera, a thermo camera, an RGB camera, an ultrasonic sensor, or the like.
  • the gesture information is, for example, information such as the movement of the user's hand, the movement of the arm, the posture (for example, bone information), the sight line, the touch operation, and the like. More specifically, the gesture detection unit 120 detects, as gesture information, a pointing operation such as pointing, head movement, pointing by a line of sight, or a projection operation such as a wall, a floor, a table, or other furniture. Do.
  • the touch operation is also detected as an operation input by the user on a display image projected on a wall, a floor, furniture or the like.
  • the gesture detection unit 120 analyzes the captured image and depth information input from the sensor device 300, and detects the position of the user's hand or finger positioned on the display screen. Depth information (in other words, three-dimensional information) is acquired, and contact or proximity of the user's hand to the table 30 in the height direction and detachment of the hand from the table 30 are detected.
  • bringing a user into contact with or approaching an operation body such as a hand on a display screen with information is also collectively referred to simply as "contact”.
  • the gesture detection unit 120 outputs the detected gesture information to the control unit 170.
  • the user detection unit 130 has a function of detecting information (user information) related to the user based on the information sensed by the sensor device 300.
  • the user information may include information indicating the position and the number of users in the space sensed by the sensor device 300.
  • the position and number of users may be detected by a thermo camera, an RGB camera, an infrared sensor, an ultrasonic sensor or the like.
  • the user information may include information indicating the line of sight of the user.
  • the information indicating the line of sight of the user includes information indicating the position of the viewpoint and the direction of the line of sight.
  • the information indicating the line of sight of the user may be information indicating the direction of the face or head of the user, or may be information indicating the direction of the eyeball.
  • the information indicating the line of sight of the user can be detected by analyzing the eye image of the user obtained by an RGB camera, an infrared camera, an eyepiece camera or the like attached to the user.
  • the user information may include information indicating the posture of the user.
  • the information indicating the posture of the user can be detected by analyzing an image obtained by an RGB camera or an infrared camera.
  • the user information may include information indicating the user's uttered voice.
  • the information indicative of the user's speech can be detected by analyzing the speech information obtained by the microphone.
  • the user detection unit 130 outputs the detected user information to the control unit 170.
  • the environment detection unit 140 has a function of detecting environmental information based on the information sensed by the sensor device 300.
  • Environmental information is information on the space in which the user is present.
  • Environmental information may include various information.
  • the environmental information may include information indicating the shape of the space in which the user is present.
  • the information indicating the shape of the space includes, for example, information indicating the shape of the object forming the space, such as a wall surface, a ceiling, a floor, a door, furniture, and household items.
  • the information indicating the shape of the space may be two-dimensional information or three-dimensional information such as a point cloud.
  • the information indicating the shape of the space may be detected based on depth information obtained by, for example, infrared distance measurement, ultrasonic distance measurement, or a stereo camera.
  • the environmental information may include information indicating the state of the projection plane.
  • the state of the projection plane means, for example, unevenness and color of the projection plane.
  • the unevenness of the projection surface can be detected based on depth information obtained by, for example, LiDAR.
  • the color of the projection plane can be detected, for example, by analyzing an image captured by an RGB camera.
  • the environmental information may include information indicating the brightness of the projection surface.
  • the brightness of the projection plane can be detected by an illumination sensor or an RGB camera.
  • Environmental information may include information indicating the position (three-dimensional position) of an object in space.
  • the position of a cup, chair, table, electronics, etc. in a room can be detected by image recognition.
  • the position of the smartphone in the room may be detected by the radio wave intensity related to the communication between the smartphone and the access point of the wireless LAN.
  • Environmental information may include environmental sounds. Environmental sounds may be detected by a microphone.
  • Table 1 below shows an example of environment information that can be detected by the environment detection unit 140.
  • the objects detected by the environment detection unit 140 include non-moving objects such as walls and floors (objects whose positions do not change) and objects that do not move frequently such as furniture and doors (objects whose positions do not change frequently) And objects that move frequently (such as objects whose positions frequently change) such as household goods are assumed.
  • the first detected environment information may be stored and used for an immobile object or an object that does not move frequently, and the latest state may be detected periodically for an object that moves frequently.
  • the environment detection unit 140 outputs the detected environment information to the control unit 170.
  • the device detection unit 150 has a function of detecting information (device information) on devices in the space.
  • Device information may include the presence of the device and the three-dimensional position of the device.
  • the information processing apparatus 100 is connected to each device (output device 200) via the I / F unit 110.
  • the I / F unit 110 may be a wireless / wired LAN (Local Area Network), DLNA (registered trademark) (Digital Living Network Alliance), Wi-Fi (registered trademark), Bluetooth (registered trademark), USB connection, or other dedicated use. Connect to each device in the space by wire etc.
  • the device detection unit 150 detects the presence of the device by connecting the devices via the I / F unit 110.
  • the three-dimensional position of the device may be identified based on the information sensed by the sensor device 300.
  • the device detection unit 150 may extract the retroreflecting material provided in the device by analysis of an infrared image captured by an IR (infrared) camera of the sensor device 300, and may specify the position of the device in space .
  • the device detection unit 150 extracts a specific pattern (maker's name or two-dimensional barcode etc.) provided in the device by analysis of a captured image captured by a camera (RGB camera) of the sensor device 300
  • the position of the device at In addition, the device detection unit 150 may acquire a unique ultrasonic wave transmitted for each device with the microphone of the sensor device 300, and may specify the position of the device in the space.
  • the device detection unit 150 senses the user's operation of designating a place (such as pointing, touching, sighting, placing a marker, etc.) and a registration operation (such as UI selection or voice uttering) with the sensor device 300.
  • a place such as pointing, touching, sighting, placing a marker, etc.
  • a registration operation such as UI selection or voice uttering
  • the device detection unit 150 outputs the detected device information to the control unit 170.
  • the function which detects the information regarding the person in a space, an environment, and an apparatus was demonstrated.
  • the detection of each information by the gesture detection unit 120, the user detection unit 130, the environment detection unit 140, and the device detection unit 150 corresponds to space recognition, and the obtained information (result of environment sensing processing of space ) Is also referred to as spatial information.
  • Control unit 170 controls the overall operation in information processing apparatus 100 in accordance with various programs.
  • the control unit 170 includes a display control unit 171, an acoustic control unit 173, and an analysis unit 175.
  • the display control unit 171 controls display by the output device 200.
  • the sound control unit 173 controls the audio output by the output device 200.
  • the analysis unit 175 analyzes the user operation based on space information (gesture information, user information, environment information, and device information) obtained by space recognition. Specifically, the analysis unit 175 acquires a speech utterance corresponding to a processing command of control related to a place in the space, and the acquired speech utterance specifies a place in the space (for example, a name of a specific place) If not included, the location in the space in the processing command is determined based on the result of the environmental sensing processing of the space by a plurality of types of sensors. For example, the analysis unit 175 converts the designated pronoun included in the speech into the determination information based on the speech information, the gesture information, and the position of the object in the space.
  • the processing command of control related to the place in the space is a processing command that executes some control (for example, output control) at the place in the space.
  • control unit 170 identifies a speaker. Since the positions and orientations of all the users in the space are periodically recognized by the user detection unit 130 and the environment detection unit 140, when the control unit 170 acquires an audio signal of a certain volume or more with the microphone, The microphone array is used to specify the direction of the speaker, and the speaker is specified by referring to the positions of all the previously recognized users.
  • control unit 170 recognizes the content of the user's utterance. For example, the control unit 170 acquires a character string from speech information (uttered speech) collected by the microphone 330 using a speech recognition engine, and further performs syntactic analysis to detect a trigger of a user operation.
  • the trigger of the user operation is a predetermined keyword (for example, the name of the system, a call to the system, etc.) or a verb included in the processing command, for example, "move", "display", “show”, etc. It is also good.
  • the control unit 170 analyzes the user operation by the analysis unit 175.
  • control unit 170 performs control to issue a processing command of control related to the place in the space based on the place determined by the analysis unit 175. Specifically, the control unit 170 outputs a processing command of control related to a place in the space to the output device 200 via the I / F unit 110. For example, the control unit 170 issues, to the projector 210, a processing command for moving the display image 10 displayed on the table 30 to a projection location (for example, a wall) designated by the user.
  • a projection location for example, a wall
  • the storage unit 160 is realized by a ROM (Read Only Memory) that stores a program used for processing of the control unit 170, calculation parameters, and the like, and a RAM (Random Access Memory) that temporarily stores parameters and the like that change appropriately.
  • the storage unit 160 also includes gesture information detected by the gesture detection unit 120, user information detected by the user detection unit 130, environment information detected by the environment detection unit 140, and devices detected by the device detection unit 150. Store information etc.
  • the configuration of the information processing apparatus 100 has been specifically described above.
  • the configuration of the information processing apparatus 100 is not limited to the example shown in FIG.
  • the information processing device 100 may be in the same space as the output device 200 and the sensor device 300, or may be in another space.
  • the information processing apparatus 100 may be on the network.
  • at least a part of the configuration of the information processing apparatus 100 may be included in the external device.
  • FIG. 3 is a sequence diagram showing an example of the flow of processing executed in each part of the information processing apparatus 100 of the system 1 according to the present embodiment.
  • FIG. 4 is a diagram for explaining an example of the flow of operation analysis processing executed in the system 1 according to the present embodiment.
  • the information processing apparatus 100 performs space recognition by the gesture detection unit 120, the user detection unit 130, the environment detection unit 140, and the device detection unit 150 (step S103). Spatial recognition is performed regularly.
  • the control unit 170 of the information processing apparatus 100 performs trigger detection of user operation based on the information obtained by space recognition (step S106).
  • the trigger detection is detected by extracting a predetermined keyword (for example, the name of the system, a call to the system, etc.) or the verb of the processing command from the speech. For example, when the user utters "Move it there", the control unit 170 extracts "Moved” by speech recognition and syntactic analysis, and detects a trigger of a MOVE command.
  • the analysis unit 175 of the information processing device 100 analyzes the user operation (Step S112).
  • the analysis unit 175 extracts items necessary for processing command issuance from the uttered voice, and when there are vague items (items whose contents can not be identified), a plurality of types of sensors such as voice information, gesture information, or environment information
  • the content of the unconfirmed item is estimated and determined based on the processing result (that is, spatial information) of the sensing data acquired by the above. For example, designated pronouns (“this”, “that”, “it”, etc.) included in the uttered voice are converted into decision information.
  • control unit 170 performs control to issue a processing command to the predetermined output device 200 (step S115).
  • the control unit 170 of the information processing apparatus 100 extracts a processing command from the uttered voice (step S123), and extracts items necessary for issuing the processing command (step S126). Specifically, syntactic analysis is performed on a character string acquired by speech recognition of the user's speech as described above, and based on verbs such as “move” and “display”, MOVE command or Extract the SHOW (OPEN) command.
  • the MOVE command is a command of “move“ operation target ”to“ move destination ”, and the execution of the command requires two pieces of determination information“ operation target ”and“ move destination ”.
  • the user's uttered voice includes a designated pronoun in the "operation target” or "destination” such as "move it there”, these are not specific decision information, so they are ambiguous. Items are determined to remain.
  • the analysis unit 175 confirms whether all the modals have been used (step S132). All modals are the sensors included in the sensor device 300. For example, processing commands are extracted from processing results of audio information sensed by the microphone 330, and when an ambiguous item is included, another modal, for example, the camera 310 or the depth sensor 320 is utilized.
  • the analysis unit 175 estimates the specific content of the ambiguous item using the processing result of the information sensed by the different modals (Ste S138). For example, based on the processing result of the information sensed by the camera 310 or the depth sensor 320, the analysis unit 175 is ambiguous in speech based on, for example, gesture information (fingering operation, sight line, posture, face direction, touch operation, etc.) Estimate the content of an item (for example, a designated pronoun).
  • gesture information fingering operation, sight line, posture, face direction, touch operation, etc.
  • the analysis unit 175 uses the time when the user uttered the designated pronoun and the depth camera information at that time. Based on the pronouns are converted into decision information. This will be described below with reference to FIG.
  • FIG. 5 is a view for explaining an example of a method of estimating contents of ambiguous items of the processing command according to the present embodiment by using different modals.
  • the analysis unit 175 utters the included indicative pronoun “this” at time t1 and “ There is obtained time t2 at which the user uttered "there”.
  • time t2 time which the user uttered "there”.
  • the analysis unit 175 acquires depth camera information at time t1 when the user utters “this” in the utterance of the processing command (note that the depth camera information is stored in the storage unit 160 for at least several tens of seconds in the past) Shall be
  • the pointing direction of the user at time t1 is extracted from the acquired depth camera information.
  • an object for example, the display image 10 in the example shown in FIG. 5
  • the analysis unit 175 may acquire, from the storage unit 160, the user's gesture information (pointing operation) detected by the gesture detection unit 120 based on the depth camera information at time t1 at which "this" is uttered. .
  • the analysis unit 175 determines the “destination” from the pointing direction of the user based on the depth camera information at time t2 when the user utters “there” in the utterance of the processing command.
  • the user points to the wall on the TV 220. Since the position of the object in the space is known in advance, the analysis unit 175 indicates that the user points the wall surface on the TV 220 from the position of the wall in the space and the position of the TV 220 and the pointing direction of the user Can be analyzed.
  • the analysis unit 175 can obtain the determination information as shown in Table 4 below as the item information of the MOVE command.
  • the finger pointing operation by the user is detected from the depth sensor information, and the direction in which the user is pointing is acquired, but the present embodiment is not limited thereto. Or, the movement of the head, the direction of the line of sight, or the like may be another “movement indicating a direction”.
  • step S129 / Yes, step S132 / Yes the information processing apparatus 100 requests the user for additional information (step S135).
  • the information processing apparatus 100 may output a question such as “Where is“ there ”?” To the user.
  • the information processing apparatus 100 transmits the processing command obtained by the above processing to the output device 200 that executes the processing.
  • the MOVE command shown in Table 4 obtained by the above processing is transmitted to the projector 210, and the display image 10 is moved to a place designated by the user.
  • FIG. 7 is a diagram showing an example of the movement of the display image by the issuance of such a MOVE command.
  • the projector 210 having received the MOVE command performs control to move the display image 10 on the table 30 to the wall surface on the TV 220 designated by the user, as shown in FIG.
  • the projector 210 may move the display image 10 as it is from the table 30 to a wall surface on the TV 220, or once the display image 10 has a predetermined shape such as points, marks, icons, characters, and other figures. It may be changed and moved.
  • FIG. 8 is a transition diagram showing a change in shape when the display image 10 is moved.
  • the projector 210 temporarily changes, for example, the display image 10 into the shape of a point, moves it to a destination such as a wall surface on a television in the state of a point, and displays the display image again after arrival.
  • Control to expand to 10 may be performed. Thereby, the user can follow by eye where the display image 10 moves according to his / her instruction.
  • the projector 210 has a predetermined display size set according to the position of the user or Control to display the display image 10 may be performed. Specifically, for example, when displaying on a wall surface, the projector 210 performs control to display in a larger size than when displaying on the table 30, so that the display image 10 can be displayed even when the user is away from the wall surface. The visibility of can be secured.
  • the operation processing according to the present embodiment has been specifically described above.
  • the operation processing illustrated in FIGS. 3 and 4 is an example, and the present disclosure is not limited to the examples illustrated in FIGS. 3 and 4.
  • the present disclosure is not limited to the order of the steps shown in FIGS. 3 and 4.
  • At least one of the steps may be processed in parallel or in reverse order.
  • the space recognition process of step S103 may be periodically processed in parallel with all other processes.
  • step S106 and step S109 may not necessarily be executed.
  • the trigger detection process shown in step S106 and step S109 may be skipped.
  • the confirmation process of all modal utilization shown in step S132 may be skipped.
  • the information processing apparatus 100 may feedback that the processing command has been recognized to the user by using sound or light. For example, as shown in FIG. 5, when the user utters “Move it there”, the information processing apparatus 100 causes the projector 210 to light up the recognized object or place at the moment when the designated pronoun is uttered. You may control to make a sound while sounding. Specifically, at the moment when the user utters "this”, at the moment when the user makes a sound "rin” while illuminating the display image 10 pointed by the user with the projector 210 and utters "there” The projector 210 controls the sound of "RIN” while illuminating the wall surface of the TV 220 pointed by the user with the projector 210.
  • Such control is performed, for example, when the user speaks the system name and a trigger is detected, and the information processing apparatus 100 utilizes another modal when the user's speech includes a designated pronoun. For example, it may be realized by performing an estimation process of an ambiguous item at any time with reference to gesture information. With such feedback, the user can intuitively understand that the user's operation is recognized by the system, and the user can use the system more safely.
  • the information used when specifying a place is not limited to a "fingering gesture",
  • the touch operation which directly touches the place may be used.
  • the information processing apparatus 100 performs the touch operation of the user when the designated pronoun “here” is uttered. Based on the display location is determined as “table”. Then, a SHOW (OPEN) command of “display target: television remote control (UI)” and “display place: table” is issued to the projector 210.
  • UI television remote control
  • the information processing apparatus 100 can estimate the ambiguous item and issue the processing command. For example, when the user utters “TV remote control” while touching the table, the information processing apparatus 100 determines the display location as “table” based on the touch operation, and displays the SHOW command for displaying the TV remote control UI on the table. Issue to the projector 210.
  • the information processing apparatus 100 extracts a SEARCH command from the word “search”, and the search target is “Ginger grilled recipe. ", The display place of the search result is determined to" table "from the touch operation of the user, and the SEARCH command is issued. Specifically, the information processing apparatus 100 transmits, to the projector 210, a processing command for displaying a search screen of “recipe grilled recipe” on a table.
  • the information processing apparatus 100 further It is possible to make use of modal to estimate the operation target and the display / moving place, and convert ambiguous items into decision information. For example, the information processing apparatus 100 extracts a MOVE command from the word "Choice”, and the move destination is a place closer to the speaker from the designated pronoun "here” (for example, a projection place in front of the speaker's eyes) Is determined to be in the direction of the user's gaze.
  • the information processing apparatus 100 specifies the program guide image viewed by the user as the operation target. , Move the program guide image onto the table in front of the user's eyes, etc.
  • the information processing apparatus 100 may set the UI that the user has operated until just before the operation target. For example, when the user performs a touch input on a memo image provided by the memo application and displayed (projected) on the table until immediately before the utterance, the information processing apparatus 100 determines the memo image as an operation target. Move to the wall specified by the user.
  • the information processing apparatus 100 analyzes the captured image acquired by the camera 310 and recognizes an article of the magazine viewed by the user, A map image corresponding to the article may be displayed (projected) in the vicinity of the user. For example, the information processing apparatus 100 searches the map image of the place based on the area name, the facility name, the name of the sightseeing spot, etc. included in the article, and displays the map image in the vicinity of the user.
  • the information processing apparatus 100 moves the projection location around the position of the other user grasped by space recognition as the movement destination Decide on.
  • the information processing apparatus 100 may determine, for example, the UI that the user has operated until just before the utterance.
  • the information processing apparatus 100 may perform display control such that the UI is directed to the front with respect to the designated other user.
  • the processing command is not limited to the MOVE command, the SHOW command, or the SEARCH command described above, and may be, for example, a processing command for controlling ON / OFF of illumination by the lighting device (an example of the output device 200).
  • the information processing apparatus 100 issues a Light_ON command.
  • the information processing apparatus 100 determines, for example, a lighting device (for example, the light bulb_ID_5) present in the direction pointed by the user based on the user's gesture when the user utters "the electricity is”. May be
  • FIG. 9 is a block diagram showing an example of the hardware configuration of the information processing apparatus according to the present embodiment.
  • the information processing apparatus 900 shown in FIG. 9 can realize, for example, the information processing apparatus 100 shown in FIG.
  • Information processing by the information processing apparatus 100 according to the present embodiment is realized by cooperation of software and hardware described below.
  • the information processing apparatus 900 includes a central processing unit (CPU) 901, a read only memory (ROM) 902, a random access memory (RAM) 903 and a host bus 904a.
  • the information processing apparatus 900 further includes a bridge 904, an external bus 904 b, an interface 905, an input device 906, an output device 907, a storage device 908, a drive 909, a connection port 911, and a communication device 913.
  • the information processing apparatus 900 may have a processing circuit such as an electric circuit, a DSP, or an ASIC instead of or in addition to the CPU 901.
  • the CPU 901 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the information processing apparatus 900 according to various programs. Also, the CPU 901 may be a microprocessor.
  • the ROM 902 stores programs used by the CPU 901, calculation parameters, and the like.
  • the RAM 903 temporarily stores programs used in the execution of the CPU 901, parameters and the like that appropriately change in the execution.
  • the CPU 901 can form, for example, the gesture detection unit 120, the user detection unit 130, the environment detection unit 140, the device detection unit 150, and the control unit 170 illustrated in FIG.
  • the CPU 901, the ROM 902, and the RAM 903 are mutually connected by a host bus 904a including a CPU bus and the like.
  • the host bus 904 a is connected to an external bus 904 b such as a peripheral component interconnect / interface (PCI) bus via the bridge 904.
  • PCI peripheral component interconnect / interface
  • the host bus 904a, the bridge 904, and the external bus 904b do not necessarily need to be separately configured, and these functions may be implemented on one bus.
  • the input device 906 is realized by, for example, a device such as a mouse, a keyboard, a touch panel, a button, a microphone, a switch, and a lever to which information is input by the user. Further, the input device 906 may be, for example, a remote control device using infrared rays or other radio waves, or may be an external connection device such as a mobile phone or PDA corresponding to the operation of the information processing apparatus 900. . Furthermore, the input device 906 may include, for example, an input control circuit that generates an input signal based on the information input by the user using the above input unit, and outputs the generated input signal to the CPU 901. The user of the information processing apparatus 900 can input various data to the information processing apparatus 900 or instruct processing operations by operating the input device 906.
  • the output device 907 is formed of a device capable of visually or aurally notifying the user of the acquired information.
  • Such devices include CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, laser projectors, display devices such as LED projectors and lamps, audio output devices such as speakers and headphones, printer devices, etc. .
  • the output device 907 outputs, for example, results obtained by various processes performed by the information processing apparatus 900.
  • the display device visually displays the results obtained by the various processes performed by the information processing apparatus 900 in various formats such as text, images, tables, graphs, and the like.
  • the audio output device converts an audio signal composed of reproduced audio data, acoustic data and the like into an analog signal and aurally outputs it.
  • the storage device 908 is a device for data storage formed as an example of a storage unit of the information processing device 900.
  • the storage device 908 is realized by, for example, a magnetic storage unit device such as an HDD, a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like.
  • the storage device 908 may include a storage medium, a recording device that records data in the storage medium, a reading device that reads data from the storage medium, and a deletion device that deletes data recorded in the storage medium.
  • the storage device 908 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the storage device 908 may form, for example, the storage unit 160 shown in FIG.
  • the drive 909 is a reader / writer for a storage medium, and is built in or externally attached to the information processing apparatus 900.
  • the drive 909 reads out information recorded in a removable storage medium such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 903.
  • the drive 909 can also write information to the removable storage medium.
  • connection port 911 is an interface connected to an external device, and is a connection port to an external device capable of data transmission by USB (Universal Serial Bus), for example.
  • the connection port 911 may form, for example, the I / F unit 110 shown in FIG.
  • the connection port 911 is connected to the output device 200 and the sensor device 300 shown in FIG.
  • the communication device 913 is, for example, a communication interface formed of a communication device or the like for connecting to the network 920.
  • the communication device 913 is, for example, a communication card for wired or wireless Local Area Network (LAN), Long Term Evolution (LTE), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 913 may be a router for optical communication, a router for asymmetric digital subscriber line (ADSL), a modem for various communications, or the like.
  • the communication device 913 can transmit and receive signals and the like according to a predetermined protocol such as TCP / IP, for example, with the Internet or another communication device.
  • the communication device 913 may form, for example, the I / F unit 110 illustrated in FIG.
  • the communication device 913 can then communicate with the output device 200 and the sensor device 300 shown in FIG.
  • the network 920 is a wired or wireless transmission path of information transmitted from a device connected to the network 920.
  • the network 920 may include the Internet, a public network such as a telephone network, a satellite communication network, various LANs (Local Area Networks) including Ethernet (registered trademark), a WAN (Wide Area Network), or the like.
  • the network 920 may include a leased line network such as an Internet Protocol-Virtual Private Network (IP-VPN).
  • IP-VPN Internet Protocol-Virtual Private Network
  • each component described above may be realized using a general-purpose member, or may be realized by hardware specialized for the function of each component. Therefore, it is possible to change the hardware configuration to be used as appropriate according to the technical level of the time of carrying out the present embodiment.
  • a computer program for realizing each function of the information processing apparatus 900 according to the present embodiment as described above can be created and implemented on a PC or the like.
  • a computer readable recording medium in which such a computer program is stored can be provided.
  • the recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory or the like.
  • the above computer program may be distributed via, for example, a network without using a recording medium.
  • the functions of the information processing device 100, the output device 200, or the sensor device 300 can be exhibited in hardware such as the CPU, ROM, and RAM built in the information processing device 100, the output device 200, or the sensor device 300 described above. It is also possible to create a computer program for A computer readable storage medium storing the computer program is also provided.
  • each device described in the present specification may be realized as a single device, or part or all may be realized as a separate device.
  • the information processing device 100, the output device 200, and the sensor device 300 illustrated in FIG. 2 may be configured as a single device.
  • the information processing apparatus 100 illustrated in FIG. 2 may be configured as a server apparatus connected to the output apparatus 200 and the sensor apparatus 300 by a network or the like.
  • the control unit 170 includes the I / F unit 110, the gesture detection unit 120, the user detection unit 130, the environment detection unit 140, and the device detection unit 150. And, it may be provided in an apparatus such as a server connected with the storage unit 160 via a network or the like.
  • the present technology can also have the following configurations.
  • (1) Obtain a speech utterance that corresponds to a control processing command for a location in space, When the acquired voice utterance does not include a word for specifying a place in the space, the place in the space in the processing command is determined based on a result of an environment sensing process of the space by a plurality of types of sensors,
  • An information processing apparatus comprising: a control unit configured to issue a control processing command of control related to a place in the space based on the determined place.
  • the control unit is, based on a designated pronoun concerning a place included in the voice utterance and an operation indicating the direction by the utterer when the designated pronoun is uttered, extracted from the result of the environment sensing process of the space.
  • the information processing apparatus according to (1) wherein the place in the space in the process command is determined.
  • the control unit is configured to, according to an operation for specifying a place by a speaker when uttering a voice utterance corresponding to the processing command extracted from a result of environment sensing processing of the space, the inside of the space in the processing command
  • the information processing apparatus according to (1), wherein the location of is determined.
  • the information processing apparatus according to any one of (1) to (3), wherein the plurality of types of sensors include at least one of a microphone, a depth sensor, and a camera sensor.
  • the processing command is movement of a display image to the determined place, display of a predetermined image at the determined place, or control of a device located at the determined place.
  • the information processing apparatus according to any one of (4).
  • the control unit The processing target is determined based on a designated pronoun associated with a processing target in the processing command included in the voice utterance and an action of a speaker who has uttered the designated pronoun, which is extracted from a result of the environment sensing processing of the space And The information processing apparatus according to (5), wherein control to issue the processing command is performed based on the determined place and the processing target. (7) The information processing apparatus according to (6), wherein the processing target is a display image displayed in a space. (8) The control unit determines the processing target in the processing command based on the operation of the speaker until the speech utterance corresponding to the processing command is uttered, extracted from the result of the environment sensing processing of the space. The information processing apparatus according to (5).
  • Processor is Obtaining a speech utterance corresponding to a processing command of control relating to a place in space; Determining the place in the space in the processing command based on the result of the environment sensing process of the space by a plurality of types of sensors when the acquired voice utterance does not include a word specifying the place in the space; When, Performing control to issue a processing command of control related to the place in the space based on the determined place; Information processing methods, including: (12) Computer, Obtain a speech utterance that corresponds to a control processing command for a location in space, When the acquired voice utterance does not include a word for specifying a place in the space, the place in the space in the processing command is determined based on a result of an environment sensing process of the space by a plurality of types of sensors, The program for functioning as a control part which performs control which issues a processing command of control about a place in the space based on the determined place.
  • Reference Signs List 1 system 10 display image 100 information processing apparatus 110 I / F unit 120 gesture detection unit 130 user detection unit 140 environment detection unit 150 device detection unit 160 storage unit 170 control unit 171 display control unit 173 acoustic control unit 175 analysis unit 200 output device 210 Projector 220 TV 230 Tablet 240 Smartphone 250 PC 260 Speaker 270 Unidirectional Speaker 300 Sensor Device 310 Camera 320 Depth Sensor 330 Microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】具体的な場所の名称を含まない音声発話であっても空間内の場所に関する制御を指示することが可能な情報処理装置、情報処理方法、およびプログラムを提供する。 【解決手段】空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、テレビ受像機(以下、単にTVと称する)およびプロジェクタ等の固定型表示機器、ならびにスマートフォンおよびノートPC(Personal Computer)等のモバイル型表示機器といった多様な表示機器が開発されている。また、表示機器の開発に伴い、装置を制御するためのインタフェースや操作方法も多様化してきている。
 例えば、下記特許文献1では、表示内容を壁面に投影し、投影面に対するユーザのジェスチャ、例えばユーザの腕および手の姿勢から認識されるジェスチャに対応する操作、例えば位置を指定するポインティング操作を検出し、ポインティング操作によって指定される位置にカーソルを表示させることが開示されている。
 また、下記特許文献2では、壁面やテーブルに設置された大型ディスプレイに対するユーザの位置を推定し、推定したユーザの位置に応じて新たな表示オブジェクトをユーザの近傍に表示させる制御について開示されている。
 また、下記特許文献3では、様々な入出力デバイスを通じて利用者とインタラクションを行うマルチモーダル対話システムが開示されている。
特開2016-53769号公報 特開2016-9214号公報 特開2004-192653号公報
 しかしながら、上記特許文献1および特許文献2では、ユーザによる指さし等のジェスチャや、ユーザの位置といった単一モーダルによりUI(ユーザインタフェース)の表示位置を制御しており、人間同士の対話のような自然な話し方で指示を行うことは困難であった。
 また、特許文献3では、マルチモーダルにより、擬人化されたエージェント人物の画像情報の表示位置を決めているが、音声発話された処理コマンドから決定情報が抽出できない場合について考慮されていなかった。
 そこで、本開示では、具体的な場所の名称を含まない音声発話であっても空間内の場所に関する制御を指示することが可能な情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部を備える、情報処理装置を提案する。
 本開示によれば、プロセッサが、空間内の場所に関する制御の処理コマンドに対応する音声発話を取得することと、前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定することと、前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行うことと、を含む、情報処理方法を提案する。
 本開示によれば、コンピュータを、空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部として機能させるための、プログラムを提案する。
 以上説明したように本開示によれば、具体的な場所の名称を含まない音声発話であっても空間内の場所に関する制御を指示することが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態による情報処理システムの概要について説明する図である。 本実施形態に係る情報処理システムの構成の一例を示すブロック図である。 本実施形態に係る情報処理システムにより実行される情報処理の流れの一例を示すフローチャートである。 図3に示す操作解析処理の流れの一例を示すフローチャートである。 本実施形態に係る処理コマンドの曖昧項目の内容を異なるモーダルを活用して推定する方法の一例について説明する図である。 本実施形態に係る処理コマンドの項目のうち移動先を具体的に発話した場合の一例を示す図である。 本実施形態に係るMOVEコマンドの発行による表示画像の移動の一例について示す図である。 本実施形態に係る表示画像の移動の際における形状の変化について示す遷移図である。 本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、説明は以下の順序で行うものとする。
 1.本開示の一実施形態による情報処理システムの概要
 2.構成例
  2-1.出力装置200
  2-2.センサ装置300
  2-3.情報処理装置100
 3.動作処理
 4.変形例
 5.ハードウェア構成
 6.まとめ
 <<1.本開示の一実施形態による情報処理システムの概要>>
 図1は、本開示の一実施形態による情報処理システムの概要について説明する図である。本実施形態による情報処理システムは、情報処理装置100(図1では不図示)、出力装置200(図1では、一例としてプロジェクタ210とTV220を図示)及びセンサ装置300を含む。
 センサ装置300は、様々な情報をセンシングする装置である。例えば、センサ装置300は、カメラ、デプスセンサ、及びマイクロフォン等を含み、ユーザ及びユーザがいる空間に関する情報をセンシングする。例えば、センサ装置300は、ユーザの位置、姿勢、動き、視線、部屋の形状、及び家具の配置等をセンシングする。
 出力装置200は、情報処理装置100からの様々な情報を出力する装置であって、例えばプロジェクタ210やTV220を想定する。プロジェクタ210は、センサ装置300がセンシングする空間に含まれる壁、床、テーブル、又はその他家具等の任意の場所(即ち、領域)を投影場所(即ち、投影面又は投影領域)として情報を投影可能である。なお、投影場所は、平面に限定されず、曲面であってもよいし、複数の面に分かれていてもよい。また、プロジェクタ210は、空間内のどこへでも投影できるよう、複数台、若しくは所謂ムービングプロジェクタにより実現される。
 出力装置200及びセンサ装置300は、単数であってもよいし複数であってもよい。
 図1に示す例では、プロジェクタ210により、テーブル30の天面に表示画像10が表示されている。表示画像10は、ユーザ入力に対するアプリケーションからのインタラクションを示す表示オブジェクトであって、例えば静止画、動画(映像)、メニュー画面又はコントロール画面といった各種UI等である。
 表示画像10に対するユーザによる操作入力はセンサ装置300により検出されるため、ユーザは、表示画像10上で操作体、例えば手を接触又は近接させて動かすことで、表示画像10に対し各種の操作入力を行うことができる。
 表示画像10の表示位置は、テーブル30の天面に限定されず、空間内における壁、床、又は家具等の任意の場所であってよく、自動的に、またはユーザによる指示に従って制御される。
 ここで、表示位置の制御を単一モーダルにより制御する場合、ユーザは例えば言葉で明確に表示位置の場所を示す必要があり、人間同士の対話のような自然な話し方で指示することが困難であった。
 そこで、本開示では、具体的な場所の名称を含まない音声発話であっても空間内の場所に関する制御を指示することが可能な仕組みを提案する。
 <<2.構成例>>
 図2は、本実施形態に係るシステム1の構成の一例を示すブロック図である。図2に示すように、システム1は、情報処理装置100、出力装置200及びセンサ装置300を含む。
  <2-1.出力装置200>
 出力装置200は、プロジェクタ210、TV220、タブレット230、スマートフォン240、PC250、スピーカ260、及び単一指向性スピーカ270を含む。なお、システム1は、出力装置200として、これらのうち一つ又は複数の組み合わせを含んでも良いし、同一種類の装置を複数含んでも良い。
 プロジェクタ210は、空間の任意の場所に画像を投影する投影装置である。プロジェクタ210は、例えば固定型の広角プロジェクタであってもよいし、Pan/Tilt駆動型等の投影方向を変更可能な可動部を備えるいわゆるムービングプロジェクタであってもよい。TV220は、テレビジョン放送の電波を受信して、画像及び音声を出力する装置である。タブレット230は、典型的にはスマートフォン240より大きな画面を有する無線通信可能なモバイル機器であり、画像、音声及び振動等を出力可能である。スマートフォン240は、典型的にはタブレット230より小さな画面を有する無線通信可能なモバイル機器であり、画像、音声及び振動等を出力可能である。PC250は、固定型のデスクトップPCであってもよいし、モバイル型のノートPCであってもよく、画像及び音声等を出力可能である。スピーカ260は、DAC(Digital Analog Converter)およびアンプを介して、音声データをアナログ信号に変換し、出力(再生)する。単一指向性スピーカ270は、単一の方向に指向性を形成可能なスピーカである。
 出力装置200は、情報処理装置100による制御に基づいて情報を出力する。情報処理装置100は、出力する情報の内容に加えて、出力方法も制御可能である。例えば、情報処理装置100は、プロジェクタ210の投影方向を制御したり、単一指向性スピーカ270の指向性を制御したりすることができる。
 なお、出力装置200は、上述した構成要素以外の任意の出力が可能な構成要素を含んでいてもよい。例えば、出力装置200は、HMD(Head Mounted Display)、AR(Augmented Reality)グラス、及び時計型デバイス等のウェアラブルデバイスを含んでいてもよい。
 また、出力装置200は、照明装置、空調装置、又は音楽再生装置等を含んでいてもよい。
  <2-2.センサ装置300>
 センサ装置300は、カメラ310、デプスセンサ320及びマイクロフォン330を含む。
 カメラ310は、RGBカメラ等の、レンズ系、駆動系、及び撮像素子を有し、画像(静止画像又は動画像)を撮像する撮像装置である。デプスセンサ320は、赤外線測距装置、超音波測距装置、LiDAR(Laser Imaging Detection and Ranging)又はステレオカメラ等の深度情報を取得する装置である。マイクロフォン330は、周囲の音を収音し、アンプおよびADC(Analog Digital Converter)を介してデジタル信号に変換した音声データを出力する装置である。マイクロフォン330は、アレイマイクであってもよい。
 センサ装置300は、情報処理装置100による制御に基づいて情報をセンシングする。例えば、情報処理装置100は、カメラ310のズーム率及び撮像方向を制御することができる。
 なお、センサ装置300は、上述した構成要素以外の任意のセンシングが可能な構成要素を含んでいてもよい。例えば、センサ装置300は、マウス、キーボード、タッチパネル、ボタン、スイッチ及びレバー等、ユーザによって情報が入力される装置を含んでいてもよい。また、センサ装置300は、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、照度センサ、力センサ、超音波センサ、気圧センサ、ガスセンサ(Co2)、サーモカメラ等の各種のセンサを含み得る。
  <2-3.情報処理装置100>
 情報処理装置100は、I/F(Interface)部110、ジェスチャ検出部120、ユーザ検出部130、環境検出部140、機器検出部150、記憶部160、及び制御部170を含む。
 ・I/F部110
 I/F部110は、情報処理装置100と他の機器とを接続するための接続装置である。I/F部110は、例えばUSB(Universal Serial Bus)コネクタ等により実現され、出力装置200及びセンサ装置300の各構成要素との間で情報の入出力を行う。
 ・ジェスチャ検出部120
 ジェスチャ検出部120は、センサ装置300によりセンシングされた情報に基づいてユーザのジェスチャ情報を検出する機能を有する。ジェスチャ情報は、例えばデプスカメラ、サーモカメラ、RGBカメラ、又は超音波センサ等により検出され得る。ジェスチャ情報は、例えばユーザの手の動き、腕の動き、姿勢(例えばボーン情報)、視線、タッチ操作等の情報である。より具体的には、ジェスチャ検出部120は、指差しや頭の動き、視線等による方向を指し示す動作や、壁、床、テーブル、又はその他家具等の投影場所に対するタッチ操作を、ジェスチャ情報として検出する。タッチ操作は、壁、床、又は家具等に投影された表示画像に対するユーザによる操作入力としても検出される。例えばテーブル30に表示画像10が表示されている場合、ジェスチャ検出部120は、センサ装置300から入力された撮像画像やデプス情報を解析して表示画面上に位置するユーザの手や指の位置や深度情報(換言すると、三次元情報)を取得し、高さ方向におけるテーブル30へのユーザの手の接触若しくは近接、及びテーブル30からの手の離脱を検出する。本明細書では、ユーザが情報に表示画面に手等の操作体を接触又は近接させることを、まとめて単に「接触」とも称する。
 ジェスチャ検出部120は、検出したジェスチャ情報を制御部170に出力する。
 ・ユーザ検出部130
 ユーザ検出部130は、センサ装置300によりセンシングされた情報に基づいてユーザに関する情報(ユーザ情報)を検出する機能を有する。
 ユーザ情報は、センサ装置300によりセンシングされる空間内におけるユーザの位置及び人数を示す情報を含み得る。ユーザの位置及び人数は、サーモカメラ、RGBカメラ、赤外線センサ又は超音波センサ等により検出され得る。
 ユーザ情報は、ユーザの視線を示す情報を含み得る。ユーザの視線を示す情報は、視点の位置及び視線方向を示す情報を含む。またユーザの視線を示す情報は、ユーザの顔や頭の向きを示す情報であってもよいし、さらに眼球の向きを示す情報であってもよい。ユーザの視線を示す情報は、RGBカメラ、赤外線カメラ、又はユーザに装着された接眼カメラ等により得られるユーザの目の画像を解析することで検出され得る。
 ユーザ情報は、ユーザの姿勢を示す情報を含み得る。ユーザの姿勢を示す情報は、RGBカメラ又は赤外線カメラ等により得られる画像を解析することで検出され得る。
 ユーザ情報は、ユーザの発話音声を示す情報を含み得る。ユーザの発話音声を示す情報は、マイクロフォンにより得られる音声情報を解析することで検出され得る。
 ユーザ検出部130は、検出したユーザ情報を制御部170に出力する。
 ・環境検出部140
 環境検出部140は、センサ装置300によりセンシングされた情報に基づいて環境情報を検出する機能を有する。環境情報は、ユーザがいる空間に関する情報である。環境情報は多様な情報を含み得る。
 環境情報は、ユーザがいる空間の形状を示す情報を含み得る。空間の形状を示す情報は、例えば、壁面、天井、床、ドア、家具、及び生活用品等の、空間を形成する物体の形状を示す情報を含む。空間の形状を示す情報は、2次元情報であってもよいし、ポイントクラウド等の3次元情報であってもよい。空間の形状を示す情報は、例えば赤外線測距、超音波測距、又はステレオカメラにより得られる深度情報に基づいて検出され得る。
 環境情報は、投影面の状態を示す情報を含み得る。投影面の状態は、例えば投影面の凹凸及び色を意味する。投影面の凹凸は、例えばLiDARにより得られる深度情報に基づいて検出され得る。投影面の色は、例えばRGBカメラにより撮像された画像を解析することで検出され得る。
 環境情報は、投影面の明るさを示す情報を含み得る。投影面の明るさは、照度センサ又はRGBカメラにより検出され得る。
 環境情報は、空間内の物体の位置(三次元位置)を示す情報を含み得る。例えば、部屋の中のコップ、椅子、テーブル、及び電子機器等の位置は、画像認識により検出され得る。また、例えば、部屋の中のスマートフォンの位置は、スマートフォンと無線LANのアクセスポイントとの通信に係る電波強度により検出され得る。
 環境情報は、環境音を含み得る。環境音は、マイクロフォンにより検出され得る。
 下記表1に、環境検出部140により検出し得る環境情報の一例を示す。環境検出部140により検出される物体には、壁や床等の動かない物(位置が変わらない物体)と、家具やドア等の頻繁には動かない物(位置が頻繁には変わらない物体)と、生活用品等の頻繁に動く物(位置が頻繁に変わる物体)とが想定される。不動の物体や、頻繁には動かない物体については、初めに検出した環境情報を記憶して利用するようにし、頻繁に動く物体については定期的に最新の状態を検出するようにしてもよい。
Figure JPOXMLDOC01-appb-T000001
 
 環境検出部140は、検出した環境情報を制御部170に出力する。
 機器検出部150は、空間内の機器に関する情報(機器情報)を検出する機能を有する。機器情報は、機器の存在及び機器の三次元位置を含み得る。
 情報処理装置100は、I/F部110を介して各機器(出力装置200)と接続する。例えばI/F部110は、無線/有線LAN(Local Area Network)、DLNA(登録商標)(Digital Living Network Alliance)、Wi-Fi(登録商標)、Bluetooth(登録商標)、USB接続、又はその他専用線等により空間内の各機器と接続する。機器検出部150は、I/F部110を介して各機器が接続されることでその機器の存在を把握する。
 機器の三次元位置は、センサ装置300によりセンシングされた情報に基づいて特定され得る。例えば機器検出部150は、機器に設けられた再帰性反射材を、センサ装置300のIR(infrared)カメラで撮影した赤外線画像の解析により抽出し、空間内における機器の位置を特定してもよい。また、機器検出部150は、機器に設けられた特定パターン(メーカー名、又は二次元バーコード等)を、センサ装置300のカメラ(RGBカメラ)で撮影した撮影画像の解析により抽出し、空間内における機器の位置を特定してもよい。また、機器検出部150は、機器毎に発信されるユニークな超音波を、センサ装置300のマイクロフォンで取得し、空間内における機器の位置を特定してもよい。また、機器検出部150は、ユーザによる場所指定の動作(指差し、タッチ、視線、又はマーカーを置く等)と登録操作(UI選択、又は音声発話等)をセンサ装置300によりセンシングし、空間内における機器の位置を特定してもよい。
 機器検出部150は、検出した機器情報を制御部170に出力する。
 以上、空間内の人、環境、及び機器に関する情報を検出する機能について説明した。本明細書において、ジェスチャ検出部120、ユーザ検出部130、環境検出部140、及び機器検出部150による各情報の検出は、空間認識に相当し、得られた情報(空間の環境センシング処理の結果)は、空間情報とも称す。
 ・制御部170
 制御部170は、各種プログラムに従って情報処理装置100内の動作全般を制御する。制御部170は、表示制御部171、音響制御部173、及び解析部175を含む。表示制御部171は、出力装置200による表示を制御する。音響制御部173は、出力装置200による音声出力を制御する。
 解析部175は、空間認識により得られた空間情報(ジェスチャ情報、ユーザ情報、環境情報、及び機器情報)に基づいて、ユーザ操作の解析を行う。具体的には、解析部175は、空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、取得した音声発話が空間内の場所を特定する言葉(例えば具体的な場所の名称)を含まない場合、複数種類のセンサによる空間の環境センシング処理の結果に基づいて、処理コマンドにおける空間内の場所を決定する。例えば、解析部175は、音声情報、ジェスチャ情報、及び空間内の物体の位置に基づいて、音声発話に含まれる指示代名詞を決定情報へ変換する。空間内の場所に関する制御の処理コマンドとは、空間内の場所において何等かの制御(例えば出力制御)を実行する処理コマンドである。
 また、制御部170は、発話者の特定を行う。ユーザ検出部130および環境検出部140により、空間内の全ユーザの位置や姿勢が定期的に認識されているため、制御部170は、マイクロフォンで一定以上の音量の音声信号を取得した場合に、マイクアレイを用いて発話者の方向を特定し、予め認識している全ユーザの位置を参照して発話者を特定する。
 また、制御部170は、ユーザの発話内容を認識する。例えば、制御部170は、マイクロフォン330により集音した音声情報(発話音声)から、音声認識エンジンを用いて文字列を取得し、さらに構文解析を行ってユーザ操作のトリガを検出する。ユーザ操作のトリガは、所定のキーワード(例えばシステムの名称、システムへの呼び掛け等)又は処理コマンドに含まれる動詞、例えば「移動して」、「表示して」、「見せて」等であってもよい。トリガが検出された場合、制御部170は、解析部175によりユーザ操作の解析を行う。
 また、制御部170は、解析部175により決定された場所に基づき、空間内の場所に関する制御の処理コマンドを発行する制御を行う。具体的には、制御部170は、空間内の場所に関する制御の処理コマンドを、I/F部110を介して出力装置200に出力する。例えば制御部170は、テーブル30に表示している表示画像10をユーザに指定された投影場所(例えば、壁)に移動させる処理コマンドをプロジェクタ210に発行する。
・記憶部160
 記憶部160は、制御部170の処理に用いられるプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)により実現される。また、記憶部160は、ジェスチャ検出部120により検出されたジェスチャ情報、ユーザ検出部130により検出されたユーザ情報、環境検出部140により検出された環境情報、及び機器検出部150により検出された機器情報等を記憶する。
 以上、本実施形態による情報処理装置100の構成について具体的に説明した。なお情報処理装置100の構成は、図2に示す例に限定されない。例えば、情報処理装置100が出力装置200及びセンサ装置300と同じ空間内にあってもよいし、他の空間にあってもよい。また、情報処理装置100がネットワーク上にあってもよい。また、情報処理装置100の少なくとも一部の構成が外部装置にあってもよい。情報処理装置100の各構成を適宜分散することで、リアルタイム性の向上や処理負担の軽減、さらにはセキュリティを担保することが可能となる。
 <<3.動作処理>>
 続いて、図3及び図4を参照して、本実施形態に係る誘導処理の流れの一例を説明する。図3は、本実施形態に係るシステム1の情報処理装置100の各部において実行される処理の流れの一例を示すシーケンス図である。図4は、本実施形態に係るシステム1において実行される操作解析処理の流れの一例を説明するための図である。
 図3に示すように、まず、情報処理装置100は、ジェスチャ検出部120、ユーザ検出部130、環境検出部140、及び機器検出部150により空間認識を行う(ステップS103)。空間認識は定期的に行われる。
 次いで、情報処理装置100の制御部170は、空間認識により得られた情報に基づいて、ユーザ操作のトリガ検出を行う(ステップS106)。トリガ検出は、発話音声からの所定のキーワード(例えばシステムの名称、システムへの呼び掛け等)又は処理コマンドの動詞の抽出により検出される。例えば、ユーザが「これをそこに移動して」と発話した場合、制御部170は音声認識及び構文解析により「移動して」を抽出し、MOVEコマンドのトリガを検出する。
 次に、トリガが検出できた場合(ステップS109/Yes)、情報処理装置100の解析部175は、ユーザ操作の解析を行う(ステップS112)。解析部175は、発話音声から処理コマンド発行に必要な項目の抽出を行い、曖昧な項目(内容が特定できない項目)がある場合は、音声情報、ジェスチャ情報、又は環境情報等の複数種類のセンサにより取得されたセンシングデータの処理結果(すなわち空間情報)に基づいて未確定の項目の内容を推定し、決定する。例えば、発話音声に含まれる指示代名詞(「これ」、「あれ」、「それ」等)を決定情報へ変換する。このような本実施形態による操作解析の詳細については図4を参照して後述する。
 そして、制御部170は、処理コマンドを所定の出力装置200に発行する制御を行う(ステップS115)。
 続いて、本実施形態による操作解析処理について詳述する。図4に示すように、情報処理装置100の制御部170は、発話音声から処理コマンドを抽出し(ステップS123)、処理コマンド発行に必要な項目の抽出を行う(ステップS126)。具体的には、上述したようにユーザの発話音声を音声認識して取得した文字列に対して構文解析を行い、「移動して」「表示して」等の動詞に基づいて、MOVEコマンドやSHOW(OPEN)コマンドを抽出する。
 次に、処理コマンドに曖昧な項目が残っているか否かを判断する(ステップS129)。例えば、MOVEコマンドは「“操作対象”を“移動先”に移動する」というコマンドであり、コマンドの実行には“操作対象”と“移動先”という二つの決定情報が必要となる。しかし、例えばユーザの発話音声が「これをそこに移動して」というような、“操作対象”又は“移動先”に指示代名詞を含むものである場合、これらは具体的な決定情報ではないため、曖昧な項目が残っていると判断される。
 次いで、曖昧な項目が残っている場合(ステップS129/Yes)、解析部175は、全てのモーダルを活用したか否かを確認する(ステップS132)。全てのモーダルとは、センサ装置300に含まれる各センサである。例えばマイクロフォン330によりセンシングされた音声情報の処理結果から処理コマンドの抽出を行い、曖昧な項目が含まれている場合、他のモーダル、例えばカメラ310又はデプスセンサ320を活用する。
 次に、全てのモーダルを活用していない場合(ステップS132/No)、解析部175は、異なるモーダルによりセンシングされた情報の処理結果を用いて、曖昧な項目の具体的な内容を推定する(ステップS138)。例えば解析部175は、カメラ310又はデプスセンサ320によりセンシングされた情報の処理結果、例えばジェスチャ情報(指差し動作、視線、姿勢、顔の向き、又はタッチ操作等)に基づいて、音声発話では曖昧であった項目(例えば指示代名詞)の内容を推定する。
 具体的には、例えば解析部175は、ユーザにより発せられた処理コマンドに対応する発話音声に指示代名詞が含まれている場合、指示代名詞をユーザが発話した時刻と、その時刻におけるデプスカメラ情報に基づいて、指示代名詞を決定情報へ変換する。以下、図5を参照して説明する。
 図5は、本実施形態に係る処理コマンドの曖昧項目の内容を異なるモーダルを活用して推定する方法の一例について説明する図である。図5に示すように、ユーザが処理コマンドに対応する発話音声「これをそこに移動して」と発した場合、解析部175は、含まれる指示代名詞「これ」と発話した時刻t1と、「そこ」と発話した時刻t2とを取得する。この段階では、下記表2に示すように、MOVEコマンドの発行に必要な項目である「操作対象」と「移動先」が曖昧な状態となっている。
Figure JPOXMLDOC01-appb-T000002
 なお、図6に示すように、ユーザが「これをテレビの上に移動して」と発話した場合は、MOVEコマンドにおける移動先の決定情報として、下記表3に示すように「テレビの上の壁面」が登録される。この場合、操作対象は「これ」という指示であるため、指示代名詞をユーザが発話した時刻t1におけるデプスカメラ情報に基づいて、当該指示代名詞を決定情報へ変換する処理が行われる。
Figure JPOXMLDOC01-appb-T000003
 次いで、図5に示す状況における曖昧項目の推定方法について具体的に説明する。解析部175は、処理コマンドの発話においてユーザが「これ」と発話した時刻t1におけるデプスカメラ情報を取得する(なお、デプスカメラ情報は、少なくとも過去数十秒程度、記憶部160に保存してあるものとする)。取得したデプスカメラ情報から、時刻t1におけるユーザの指差し方向を抽出する。そして、指先方向に移動可能な対象物(例えば、図5に示す例では表示画像10)があった場合、当該対象物を「操作対象」項目の決定情報とする。指差し方向の抽出は、ジェスチャ検出部120により行われてもよい。すなわち、解析部175は、「これ」と発話した時刻t1におけるデプスカメラ情報に基づいてジェスチャ検出部120により検出されたユーザのジェスチャ情報(指差し動作)を、記憶部160から取得してもよい。
 同様に、解析部175は、処理コマンドの発話においてユーザが「そこ」と発話した時刻t2におけるデプスカメラ情報に基づくユーザの指差し方向から「移動先」を決定する。図5に示す例では、ユーザが「そこ」と発話した時刻t2では、ユーザはTV220の上の壁面を指している。空間内の物体の位置は予め認識されているため、解析部175は、空間内の壁の位置及びTV220の位置と、ユーザの指差し方向から、ユーザがTV220の上の壁面を指していることが解析できる。このように、音声情報以外の例えばデプスセンサ情報を用いることで、ユーザが「これ」と発話した時にはテーブル30上の表示画像10(例えば地図アプリケーションにより提供されている地図画像)を指し、「そこ」と発話した時にはTV220の上の壁面を指していることから、解析部175は、MOVEコマンドの項目情報として下記表4のように決定情報を得ることができる。
Figure JPOXMLDOC01-appb-T000004
 なお、図5に示す例では、デプスセンサ情報からユーザによる指差し動作を検出し、ユーザが指差している方向を取得しているが、本実施形態はこれに限定されず、ユーザの顔の向きや、頭の動き、視線方向等、他の「方向を指し示す動作」であってもよい。
 このように、複数種類のセンサによりセンシングされたデータの処理結果を用いることで(すなわち、マルチモーダルセンシングにより)、発話された処理コマンドにおける曖昧な項目の決定情報を推定することができる。ユーザは、人間同士の自然な対話のような話し方で、具体的な場所の名称を含まない音声発話であっても、空間内の場所に関する制御を指示することが可能となる。
 一方、曖昧な項目が残っているが既に全てのモーダルを活用している場合(ステップS129/Yes、ステップS132/Yes)、情報処理装置100は、ユーザに追加情報を要求する(ステップS135)。例えば、情報処理装置100は、「『そこ』とはどこですか?」といった質問をユーザに出力してもよい。
 以上、本実施形態による操作解析処理について具体的に説明した。
 情報処理装置100は、上記処理によって得た処理コマンドを、処理を実行する出力装置200に送信する。例えば図5に示す例では、上記処理によって得た表4に示すMOVEコマンドをプロジェクタ210に送信し、表示画像10を、ユーザが指定した場所へ移動させる。図7は、このようなMOVEコマンドの発行による表示画像の移動の一例を示す図である。
 MOVEコマンドを受信したプロジェクタ210は、図7に示すように、テーブル30上にあった表示画像10を、ユーザが指定したTV220の上の壁面に移動させる制御を行う。この際、プロジェクタ210は、表示画像10をそのままテーブル30上からTV220の上の壁面に移動させてもよいし、表示画像10を一旦、点やマーク、アイコン、キャラクター、その他図形等の所定の形状に変化させて移動させてもよい。図8は、表示画像10の移動の際における形状の変化について示す遷移図である。
 プロジェクタ210は、図8に示すように、例えば表示画像10を一旦、点の形状に変化させ、点の状態でテレビの上の壁面等の目的地まで移動させ、目的地到着後に再度、表示画像10に展開させる制御を行ってもよい。これによりユーザは、自分の指示により表示画像10がどこへ移動するかを目で追うことができる。
 また、表示画像10を壁面に移動させた場合、ユーザが離れた位置から閲覧することになる可能性が高いため、プロジェクタ210は、ユーザの位置に応じて、又は設定された所定の表示サイズで表示画像10を表示する制御を行ってもよい。具体的には、例えばプロジェクタ210は、壁面で表示する場合はテーブル30上で表示していた時よりも大きなサイズで表示する制御を行うことで、壁面からユーザが離れている場合も表示画像10の視認性を確保することができる。
 以上、本実施形態による動作処理について具体的に説明した。なお、図3及び図4に示す動作処理は一例であって、本開示は図3及び図4に示す例に限定されない。例えば、本開示は、図3及び図4に示すステップの順序に限定されない。少なくともいずれかのステップが並列に処理されてもよいし、逆の順番で処理されてもよい。例えば、ステップS103の空間認識処理は、他の全ての処理と並列に定期的に処理されてもよい。
 また、図3及び図4に示す全ての処理が必ずしも実行されてなくともよい。例えば、ステップS106及びステップS109に示すトリガ検出処理、ステップS132に示す全てのモーダル活用の確認処理、又はステップS135に示す追加情報要求処理がスキップされてもよい。
 また、図3及び図4に示す全ての処理が必ずしも単一の装置で行われなくともよい。
 <<4.変形例>>
 続いて、本実施形態の変形例について説明する。
 情報処理装置100は、処理コマンドを認識したことを音又は光等でユーザにフィードバックしてもよい。例えば、図5に示すようにユーザが「これをそこに移動して」と発話した際、情報処理装置100は、指示代名詞が発話された瞬間に、認識した対象物又は場所をプロジェクタ210で照らしながら音を鳴らす制御を行ってもよい。具体的には、ユーザが「これを」と発話した瞬間に、ユーザが指差している表示画像10をプロジェクタ210で照らしながら「リン」と音を鳴らし、「そこに」と発話した瞬間には、ユーザが指差しているTV220の上の壁面をプロジェクタ210で照らしながら「リン」と音を鳴らす制御を行う。かかる制御は、例えばユーザがシステムの名称を発話してトリガが検出された際に、情報処理装置100が、ユーザの発話音声に指示代名詞が含まれている場合に、他のモーダルを活用して、例えばジェスチャ情報を参照して随時、曖昧項目の推定処理を行うことで実現され得る。このようなフィードバックにより、ユーザは自分の操作がシステムに認識されていることを直感的に理解でき、より安心してシステムを利用することができる。
 また、場所を特定する際に利用する情報は「指差しジェスチャ」に限定されず、例えば、その場所に直接触れるタッチ操作であってもよい。例えば、ユーザがテーブルをタッチしながら「ここにテレビリモコン(リモートコントローラ)を出して」と発話した場合、情報処理装置100は、「ここ」という指示代名詞が発話された際のユーザのタッチ操作に基づいて表示場所を「テーブル」に決定する。そして、「表示対象:テレビリモコン(UI)」、「表示場所:テーブル」のSHOW(OPEN)コマンドをプロジェクタ210に発行する。
 また、ユーザが指示代名詞を省略して発話した場合にも、情報処理装置100は、曖昧項目の推定を行って処理コマンドを発行することが可能である。例えば、ユーザがテーブルをタッチしながら「テレビリモコン」と発話した場合、情報処理装置100は、タッチ操作に基づいて表示場所を「テーブル」に決定し、テーブルにテレビリモコンUIを表示するSHOWコマンドをプロジェクタ210に発行する。
 また、同様に、ユーザがテーブルをタッチしながら「生姜焼きのレシピを検索」と発話した場合、情報処理装置100は「検索」という言葉からSEARCHコマンドを抽出し、検索対象を「生姜焼きのレシピ」、検索結果の表示場所はユーザのタッチ操作から「テーブル」に決定してSEARCHコマンドを発行する。具体的には、情報処理装置100は、「生姜焼きのレシピ」の検索画面をテーブルに表示する処理コマンドをプロジェクタ210に送信する。
 また、ユーザが単に「ここにちょうだい」と発話した場合(操作対象を省略し、指示代名詞による曖昧な表示/移動場所を含む発話音声を発話した場合)にも、情報処理装置100は、他のモーダルを活用して操作対象および表示/移動場所を推定し、曖昧項目を決定情報に変換することが可能である。例えば、情報処理装置100は、「ちょうだい」という言葉からMOVEコマンドを抽出し、移動先を「ここ」という指示代名詞から発話者により近い場所(例えば発話者の目の前の投影場所)、操作対象はユーザの視線方向のものに決定する。例えばユーザが壁に表示(投影)されている番組表画像を見ながら「ここにちょうだい」と発話していた場合、情報処理装置100は、ユーザが見ている番組表画像を操作対象と特定し、番組表画像をユーザの目の前のテーブル上等に移動させる。
 また、ユーザが単に「壁に出して」と発話した場合、情報処理装置100は、ユーザが直前まで操作していたUIを操作対象としてもよい。例えば情報処理装置100は、ユーザが発話の直前まで、メモアプリケーションにより提供され、テーブル上に表示(投影)されたメモ画像に対してタッチ入力を行っていた場合、当該メモ画像を操作対象に決定し、ユーザが指定した壁に移動させる。
 また、ユーザが雑誌を読みながら「ここの地図を見せて」と発話した場合、情報処理装置100は、カメラ310により取得した撮像画像を解析してユーザが見ている雑誌の記事を認識し、当該記事に対応する地図画像をユーザの近傍に表示(投影)するようにしてもよい。例えば情報処理装置100は、記事に含まれる地域名、施設名、又は観光地の名称等に基づいて、その場所の地図画像を検索し、ユーザの近傍に表示する。
 また、ユーザが「○○さんに渡して」と、空間内に居る他のユーザを指定した場合、情報処理装置100は、空間認識により把握した当該他のユーザの位置周辺の投影場所を移動先に決定する。また、情報処理装置100は、移動対象を、例えばユーザが発話直前まで操作していたUIに決定してもよい。また、情報処理装置100は、当該UIを移動させた際、指定された他のユーザに対して当該UIが正面の向きになるよう表示制御を行ってもよい。
 また、処理コマンドは上述したMOVEコマンド、SHOWコマンド、又はSEARCHコマンド等に限定されず、例えば照明装置(出力装置200の一例)による照明のON/OFFを制御する処理コマンドであってもよい。例えば、ユーザが「その電気を点けて」と発話した場合、情報処理装置100は、Light_ONコマンドを発行する。具体的には、情報処理装置100は、「その電気を」とユーザが発話した際のユーザのジェスチャに基づいて、例えばユーザが指差す方向に存在する照明装置(例えば電球_ID_5)に決定してもよい。
Figure JPOXMLDOC01-appb-T000005
 <<5.ハードウェア構成>>
 最後に、図9を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図9は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図9に示す情報処理装置900は、例えば、図2に示した情報処理装置100を実現し得る。本実施形態に係る情報処理装置100による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
 図9に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911及び通信装置913を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、電気回路、DSP若しくはASIC等の処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、図2に示すジェスチャ検出部120、ユーザ検出部130、環境検出部140、機器検出部150、及び制御部170を形成し得る。
 CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
 入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
 出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。
 ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図2に示す記憶部160を形成し得る。
 ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
 接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。接続ポート911は、例えば、図2に示すI/F部110を形成し得る。そして、接続ポート911は、図2に示す出力装置200及びセンサ装置300に接続される。
 通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置913は、例えば、図2に示すI/F部110を形成し得る。そして、通信装置913は、図2に示す出力装置200及びセンサ装置300と通信し得る。
 なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
 なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
 <<6.まとめ>>
 上述したように、本開示の実施形態による情報処理システムでは、具体的な場所の名称を含まない音声発話であっても空間内の場所に関する制御を指示することが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上述した情報処理装置100、出力装置200、またはセンサ装置300に内蔵されるCPU、ROM、およびRAM等のハードウェアに、情報処理装置100、出力装置200、またはセンサ装置300の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
 また、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図2に示した情報処理装置100、出力装置200及びセンサ装置300は、単独の装置として構成されてもよい。また、例えば、図2に示した情報処理装置100が、出力装置200及びセンサ装置300とネットワーク等で接続されたサーバ装置として構成されてもよい。また、例えば、図2に示した情報処理装置100の機能構成例のうち、制御部170が、I/F部110、ジェスチャ検出部120、ユーザ検出部130、環境検出部140、機器検出部150及び記憶部160とネットワーク等で接続されたサーバ等の装置に備えられていても良い。
 また、本明細書においてフローチャートを用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、
 前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、
 前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部を備える、情報処理装置。
(2)
 前記制御部は、前記空間の環境センシング処理の結果から抽出された、前記音声発話に含まれる場所に関する指示代名詞と、当該指示代名詞を発話した際の発話者による方向を指し示す動作とに基づいて、前記処理コマンドにおける前記空間内の場所を決定する、前記(1)に記載の情報処理装置。
(3)
 前記制御部は、前記空間の環境センシング処理の結果から抽出された、前記処理コマンドに対応する音声発話を発話した際の発話者による場所を特定する動作に基づいて、前記処理コマンドにおける前記空間内の場所を決定する、前記(1)に記載の情報処理装置。
(4)
 前記複数種類のセンサは、マイクロフォン、デプスセンサ、およびカメラセンサの少なくともいずれかを含む、前記(1)~(3)のいずれか1項に記載の情報処理装置。
(5)
 前記処理コマンドは、前記決定された場所への表示画像の移動、前記決定された場所での所定の画像の表示、または前記決定された場所に位置する機器の制御である、前記(1)~(4)のいずれか1項に記載の情報処理装置。
(6)
 前記制御部は、
  前記空間の環境センシング処理の結果から抽出された、前記音声発話に含まれる前記処理コマンドにおける処理対象に関する指示代名詞と、当該指示代名詞を発話した発話者の動作とに基づいて、前記処理対象を決定し、
  前記決定された場所と処理対象とに基づいて前記処理コマンドを発行する制御を行う、前記(5)に記載の情報処理装置。
(7)
 前記処理対象は、空間内に表示される表示画像である、前記(6)に記載の情報処理装置。
(8)
 前記制御部は、前記空間の環境センシング処理の結果から抽出された、前記処理コマンドに対応する音声発話を発話するまでの発話者の動作に基づいて、前記処理コマンドにおける処理対象を決定する、前記(5)に記載の情報処理装置。
(9)
 前記制御部は、前記発話者の視線方向にある表示画像又は操作していた表示対象を前記処理対象に決定する、前記(8)に記載の情報処理装置。
(10)
 前記取得した音声発話が前記空間内の場所を特定する言葉を含む場合、当該空間内の場所を特定する言葉に基づいて、前記処理コマンドにおける前記空間内の場所を決定する、前記(1)~(9)のいずれか1項に記載の情報処理装置。
(11)
 プロセッサが、
 空間内の場所に関する制御の処理コマンドに対応する音声発話を取得することと、
 前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定することと、
 前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行うことと、
を含む、情報処理方法。
(12)
 コンピュータを、
 空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、
 前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、
 前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部として機能させるための、プログラム。
 1  システム
 10  表示画像
 100  情報処理装置
 110  I/F部
 120  ジェスチャ検出部
 130  ユーザ検出部
 140  環境検出部
 150  機器検出部
 160  記憶部
 170  制御部
 171  表示制御部
 173  音響制御部
 175  解析部
 200  出力装置
 210  プロジェクタ
 220  TV
 230  タブレット
 240  スマートフォン
 250  PC
 260  スピーカ
 270  単一指向性スピーカ
 300  センサ装置
 310  カメラ
 320  デプスセンサ
 330  マイクロフォン

Claims (12)

  1.  空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、
     前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、
     前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部を備える、情報処理装置。
  2.  前記制御部は、前記空間の環境センシング処理の結果から抽出された、前記音声発話に含まれる場所に関する指示代名詞と、当該指示代名詞を発話した際の発話者による方向を指し示す動作とに基づいて、前記処理コマンドにおける前記空間内の場所を決定する、請求項1に記載の情報処理装置。
  3.  前記制御部は、前記空間の環境センシング処理の結果から抽出された、前記処理コマンドに対応する音声発話を発話した際の発話者による場所を特定する動作に基づいて、前記処理コマンドにおける前記空間内の場所を決定する、請求項1に記載の情報処理装置。
  4.  前記複数種類のセンサは、マイクロフォン、デプスセンサ、およびカメラセンサの少なくともいずれかを含む、請求項1に記載の情報処理装置。
  5.  前記処理コマンドは、前記決定された場所への表示画像の移動、前記決定された場所での所定の画像の表示、または前記決定された場所に位置する機器の制御である、請求項1に記載の情報処理装置。
  6.  前記制御部は、
      前記空間の環境センシング処理の結果から抽出された、前記音声発話に含まれる前記処理コマンドにおける処理対象に関する指示代名詞と、当該指示代名詞を発話した発話者の動作とに基づいて、前記処理対象を決定し、
      前記決定された場所と処理対象とに基づいて前記処理コマンドを発行する制御を行う、請求項5に記載の情報処理装置。
  7.  前記処理対象は、空間内に表示される表示画像である、請求項6に記載の情報処理装置。
  8.  前記制御部は、前記空間の環境センシング処理の結果から抽出された、前記処理コマンドに対応する音声発話を発話するまでの発話者の動作に基づいて、前記処理コマンドにおける処理対象を決定する、請求項5に記載の情報処理装置。
  9.  前記制御部は、前記発話者の視線方向にある表示画像又は操作していた表示対象を前記処理対象に決定する、請求項8に記載の情報処理装置。
  10.  前記取得した音声発話が前記空間内の場所を特定する言葉を含む場合、当該空間内の場所を特定する言葉に基づいて、前記処理コマンドにおける前記空間内の場所を決定する、請求項1に記載の情報処理装置。
  11.  プロセッサが、
     空間内の場所に関する制御の処理コマンドに対応する音声発話を取得することと、
     前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定することと、
     前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行うことと、
    を含む、情報処理方法。
  12.  コンピュータを、
     空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、
     前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、
     前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部として機能させるための、プログラム。
PCT/JP2018/032698 2017-10-17 2018-09-04 情報処理装置、情報処理方法、およびプログラム WO2019077897A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/754,706 US11373650B2 (en) 2017-10-17 2018-09-04 Information processing device and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017200991 2017-10-17
JP2017-200991 2017-10-17

Publications (1)

Publication Number Publication Date
WO2019077897A1 true WO2019077897A1 (ja) 2019-04-25

Family

ID=66173643

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/032698 WO2019077897A1 (ja) 2017-10-17 2018-09-04 情報処理装置、情報処理方法、およびプログラム

Country Status (2)

Country Link
US (1) US11373650B2 (ja)
WO (1) WO2019077897A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176234A (zh) * 2019-05-30 2019-08-27 芋头科技(杭州)有限公司 移动智能终端的控制方法、装置、控制器、介质及终端

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019077897A1 (ja) * 2017-10-17 2019-04-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2019235013A1 (ja) * 2018-06-07 2019-12-12 ソニー株式会社 情報処理装置および情報処理方法
WO2020100878A1 (ja) * 2018-11-13 2020-05-22 コニカミノルタプラネタリウム株式会社 プラネタリウムの制御装置、制御方法およびそのプログラム
US20220051679A1 (en) * 2019-03-05 2022-02-17 Sony Group Corporation Information processing apparatus, information processing method, and program
KR20210039049A (ko) * 2019-10-01 2021-04-09 엘지전자 주식회사 음성 인식을 수행하는 인공 지능 장치 및 그 방법
KR20210067539A (ko) * 2019-11-29 2021-06-08 엘지전자 주식회사 정보 처리 방법 및 정보 처리 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175540A (ja) * 2000-12-05 2002-06-21 Victor Co Of Japan Ltd 画像デッサン装置
JP2005178473A (ja) * 2003-12-17 2005-07-07 Denso Corp 車載機器用インターフェース
JP2012221498A (ja) * 2011-04-08 2012-11-12 Sony Computer Entertainment Inc ユーザーの視線、及びジェスチャによるフィードバック提供システム、及び方法
JP2014164373A (ja) * 2013-02-22 2014-09-08 Nikon Corp 認証装置及び認証方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004192653A (ja) 1997-02-28 2004-07-08 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
US8745541B2 (en) * 2003-03-25 2014-06-03 Microsoft Corporation Architecture for controlling a computer using hand gestures
JP6229287B2 (ja) * 2013-04-03 2017-11-15 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
JP2014203208A (ja) * 2013-04-03 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
JP2014203207A (ja) * 2013-04-03 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
JP2016009214A (ja) 2014-06-20 2016-01-18 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2016053769A (ja) 2014-09-02 2016-04-14 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10335572B1 (en) * 2015-07-17 2019-07-02 Naveen Kumar Systems and methods for computer assisted operation
US10492981B1 (en) * 2015-07-17 2019-12-03 Bao Tran Systems and methods for computer assisted operation
US10223066B2 (en) * 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10916243B2 (en) * 2016-12-27 2021-02-09 Amazon Technologies, Inc. Messaging from a shared device
US10089981B1 (en) * 2017-03-09 2018-10-02 Amazon Technologies, Inc. Messaging account disambiguation
US10672379B1 (en) * 2017-09-25 2020-06-02 Amazon Technologies, Inc. Systems and methods for selecting a recipient device for communications
US10699706B1 (en) * 2017-09-26 2020-06-30 Amazon Technologies, Inc. Systems and methods for device communications
US11100922B1 (en) * 2017-09-26 2021-08-24 Amazon Technologies, Inc. System and methods for triggering sequences of operations based on voice commands
WO2019077897A1 (ja) * 2017-10-17 2019-04-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10861242B2 (en) * 2018-05-22 2020-12-08 Magic Leap, Inc. Transmodal input fusion for a wearable system
US11676586B2 (en) * 2019-12-10 2023-06-13 Rovi Guides, Inc. Systems and methods for providing voice command recommendations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175540A (ja) * 2000-12-05 2002-06-21 Victor Co Of Japan Ltd 画像デッサン装置
JP2005178473A (ja) * 2003-12-17 2005-07-07 Denso Corp 車載機器用インターフェース
JP2012221498A (ja) * 2011-04-08 2012-11-12 Sony Computer Entertainment Inc ユーザーの視線、及びジェスチャによるフィードバック提供システム、及び方法
JP2014164373A (ja) * 2013-02-22 2014-09-08 Nikon Corp 認証装置及び認証方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176234A (zh) * 2019-05-30 2019-08-27 芋头科技(杭州)有限公司 移动智能终端的控制方法、装置、控制器、介质及终端
CN110176234B (zh) * 2019-05-30 2021-05-25 芋头科技(杭州)有限公司 移动智能终端的控制方法、装置、控制器、介质及终端

Also Published As

Publication number Publication date
US20200258515A1 (en) 2020-08-13
US11373650B2 (en) 2022-06-28

Similar Documents

Publication Publication Date Title
WO2019077897A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US10546582B2 (en) Information processing device, method of information processing, and program
US9983687B1 (en) Gesture-controlled augmented reality experience using a mobile communications device
US20180188840A1 (en) Information processing device, information processing method, and program
US10564712B2 (en) Information processing device, information processing method, and program
EP3419020B1 (en) Information processing device, information processing method and program
WO2018163637A1 (ja) 情報処理装置、情報処理方法及び記録媒体
CN107430856B (zh) 信息处理系统和信息处理方法
JP6569726B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP7294350B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6627775B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20180063283A1 (en) Information processing apparatus, information processing method, and program
WO2015198729A1 (ja) 表示制御装置、表示制御方法およびプログラム
CN111033606A (zh) 信息处理装置、信息处理方法和程序
US11221684B2 (en) Information processing device, information processing method, and recording medium
US11449451B2 (en) Information processing device, information processing method, and recording medium
WO2019082520A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019044100A1 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 18868918

Country of ref document: EP

Kind code of ref document: A1