WO2017221720A1 - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
WO2017221720A1
WO2017221720A1 PCT/JP2017/021271 JP2017021271W WO2017221720A1 WO 2017221720 A1 WO2017221720 A1 WO 2017221720A1 JP 2017021271 W JP2017021271 W JP 2017021271W WO 2017221720 A1 WO2017221720 A1 WO 2017221720A1
Authority
WO
WIPO (PCT)
Prior art keywords
instruction
user
target
image
pointing
Prior art date
Application number
PCT/JP2017/021271
Other languages
English (en)
French (fr)
Inventor
真一 河野
拓也 生江
賢次 杉原
遼 深澤
佐藤 大輔
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201780036694.6A priority Critical patent/CN109313532B/zh
Priority to US16/307,320 priority patent/US10788902B2/en
Publication of WO2017221720A1 publication Critical patent/WO2017221720A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • G06F3/0383Signal control means within the pointing device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/0416Control or interface arrangements specially adapted for digitisers
    • G06F3/0418Control or interface arrangements specially adapted for digitisers for error correction or compensation, e.g. based on parallax, calibration or alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/042Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
    • G06F3/0425Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected
    • G06F3/0426Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected tracking fingers with respect to a virtual keyboard projected or printed on the surface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program, and in particular, an information processing device and information suitable for use in correcting an indicated position in an image corresponding to a position pointed to in a three-dimensional space.
  • the present invention relates to a processing method and a program.
  • Patent Document 1 a technique has been proposed in which the name of a target recognized as being pointed by a user's finger or the like is notified by voice and confirmed to the user (see, for example, Patent Document 1).
  • Patent Documents 1 and 2 do not discuss correcting the indicated position in the image corresponding to the position pointed to in the three-dimensional space.
  • the present technology is to enable easy correction of the indicated position in the image corresponding to the position pointed to in the three-dimensional space.
  • An information processing apparatus based on a pointing position detection unit that detects a space pointing position that is a position pointed by a pointing object in a three-dimensional space, and a user voice that is a voice uttered by a user, An instruction position correction unit that corrects an image instruction position that is an instruction position in the image corresponding to the space instruction position.
  • the instruction position correction unit can correct the image instruction position to a position in the image based on the user voice.
  • the pointing position correction unit can correct the image pointing position in the image visually recognized by the user by virtual reality.
  • the pointing position correction unit can correct the image pointing position corresponding to the space pointing position when the user is uttering the user voice.
  • the pointing position detection unit is configured to detect a pointing target that is a target in the image corresponding to the first target pointed by the pointing object in a three-dimensional space, and the pointing position correction unit If the target matches the second target based on the user voice, the pointing target is not corrected, and if the pointing target does not match the second target, the target in the image corresponding to the second target Correction processing for correcting the target to be the instruction target can be performed.
  • An output control unit that controls output of a confirmation sound that is a sound for confirming the instruction target is further provided, and the instruction position correction unit performs the correction process based on the user sound with respect to the confirmation sound. be able to.
  • the confirmation voice may be a voice prompting input of information for identifying the instruction target.
  • the output control unit can control output of voice information for notifying information on the instruction target in a predetermined language when the instruction target is changed after the correction process.
  • the audio information can include content information indicating visually identifiable content of the instruction target.
  • the content information can indicate at least one of the name of the instruction target, the type of the instruction target, and what the instruction target visually represents.
  • the output control unit can be controlled to output a notification sound notifying the change of the instruction target when the instruction target is changed after the correction process.
  • the output control unit can be controlled to output the notification sound that varies depending on the direction in which the instruction target has moved.
  • An object detection unit for detecting an object in the image can be further provided.
  • the instruction object can be a part of the user's body.
  • a voice recognition unit for recognizing the user voice can be further provided.
  • An information processing method is based on an indication position detection step of detecting a space indication position that is a position pointed by an indication object in a three-dimensional space, and a user voice that is a voice uttered by a user.
  • An instruction position correction step for correcting an image instruction position that is an instruction position in the image corresponding to the space instruction position.
  • a program includes: an instruction position detection step for detecting a space instruction position that is a position pointed to by an instruction object in a three-dimensional space; and the space instruction based on a user voice that is a voice uttered by a user.
  • a computer is caused to execute a process including an indicated position correction step of correcting an image indicated position that is an indicated position in an image corresponding to the position.
  • a spatial pointing position that is a position pointed to by a pointing object in a three-dimensional space is detected, and an image in the image corresponding to the spatial pointing position is based on a user voice that is a voice uttered by the user.
  • the designated image position is corrected.
  • the indicated position in the image corresponding to the position pointed to in the three-dimensional space can be easily corrected.
  • FIG. 1 is a block diagram illustrating an embodiment of an information processing system to which the present technology is applied. It is a flowchart for demonstrating the information processing performed by an information processing system. It is a flowchart for demonstrating the detail of a pointing mode process. It is a flowchart for demonstrating the detail of an instruction
  • Embodiment> ⁇ Configuration example of information processing system 10 ⁇ First, a configuration example of an information processing system 10 to which the present technology is applied will be described with reference to FIG.
  • the information processing system 10 is a system that recognizes a target that is worn or carried by a user, for example, and recognizes that the user is pointing with a finger in a three-dimensional space, and notifies content information related to the target with audio in a predetermined language. It is.
  • the target recognized by the information processing system 10 is a target recognized as being pointed by the user, and may be different from a target actually pointed by a finger.
  • a target recognized as being pointed by the user and a target actually pointed by the user are referred to as instruction targets.
  • the former is referred to as a user recognition instruction target and the latter is referred to as a real instruction target.
  • the content information is information indicating the content that can be seen by the object.
  • the content information indicates at least one of the name of the object, the type of the object, and what the object visually represents (hereinafter referred to as visual content).
  • the visual content is, for example, an image (moving image, still image, picture, etc.) displayed on an object, characters and marks, and characters, marks, and marks represented by the shape and movement of the object. Message etc.
  • the visible content includes, for example, gestures such as body language and traffic control hand signals, facial expressions, and the like.
  • the information processing system 10 includes a voice input unit 11, an information acquisition unit 12, an information processing unit 13, and an output unit 14.
  • the voice input unit 11 is constituted by a microphone, for example.
  • the voice input unit 11 is arranged near the user's mouth, detects voice uttered by the user (hereinafter referred to as user voice), and supplies a voice signal indicating the user voice to the information processing unit 13.
  • the information acquisition unit 12 has, for example, a ring shape and is attached to a finger (for example, an index finger) used when the user points.
  • the information acquisition unit 12 includes a photographing unit 21 and a sensor unit 22.
  • the photographing unit 21 photographs a direction pointed by a user with a finger (hereinafter referred to as an instruction direction) and supplies an image obtained as a result (hereinafter referred to as an instruction direction image) to the information processing unit 13.
  • the sensor unit 22 includes, for example, a sensor (for example, an acceleration sensor, a gyro sensor, or the like) for detecting a gesture by a user's finger, a finger position, a pointing direction, and the like.
  • the sensor unit 22 includes, for example, a sensor (for example, a distance sensor) that measures a distance to an object in the indicated direction. Then, the sensor unit 22 supplies a sensor signal indicating the detection result of each sensor to the information processing unit 13.
  • the information processing unit 13 is configured by a portable information terminal such as a smartphone, a tablet, or a wearable device.
  • the information processing unit 13 includes a pointing position detection unit 31, a pointing position correction unit 32, an object detection unit 33, a distance calculation unit 34, an image processing unit 35, a translation unit 36, an information generation unit 37, a voice recognition unit 38, and an output control unit. 39 and a communication unit 40.
  • the indicated position detection unit 31 detects the position pointed by the user and the target based on the sensor information from the sensor unit 22.
  • the indicated position correction unit 32 corrects the position pointed by the user and the detection result of the target based on the user voice.
  • the object detection unit 33 detects an object in the pointing direction image.
  • the distance calculation unit 34 calculates the distance between each object detected by the object detection unit 33, for example. Further, the distance calculation unit 34 calculates the distance between the user's eyes and the object and the distance between the user's eyes and the finger based on the sensor information and the pointing direction image from the sensor unit 22, for example.
  • the image processing unit 35 performs image processing such as conversion of an instruction direction image into an instruction direction plane image and conversion of an instruction direction plane image into an instruction direction plane reduced image during speech.
  • image processing such as conversion of an instruction direction image into an instruction direction plane image and conversion of an instruction direction plane image into an instruction direction plane reduced image during speech.
  • the details of the designated direction plane image and the utterance-direction designated direction plane reduced image will be described later.
  • Translator 36 translates between two or more languages.
  • the information generation unit 37 generates an instruction direction information list indicating information related to an object existing in the direction pointed by the user, an instruction direction information list during speech, and the like. Details of the instruction direction information list and the utterance instruction direction information list will be described later. Moreover, the information generation part 37 produces
  • the voice recognition unit 38 recognizes user voice.
  • the output control unit 39 controls the output of audio by the output unit 14.
  • the communication unit 40 performs communication with the voice input unit 11, the information acquisition unit 12, and the output unit 14.
  • the communication method of the communication unit 40 is not limited to a predetermined method, and any method can be adopted from various wired or wireless communication methods.
  • the output unit 14 is composed of a device capable of outputting sound.
  • the output unit 14 includes a speaker, headphones, earphones, a sound source, and the like.
  • the voice input unit 11, the information processing unit 13, and the output unit 14 may be integrated.
  • the integrated apparatus is constituted by, for example, a neckband type wearable device.
  • step S1 the designated position detection unit 31 determines whether or not the user is pointing. Specifically, the pointing position detection unit 31 detects a gesture with a user's finger based on a sensor signal from the sensor unit 22. An arbitrary method can be adopted as a gesture detection method. Then, the indication position detection unit 31 determines whether or not the user is pointing based on the detected gesture. The determination process in step S1 is repeatedly executed at predetermined intervals, for example, until it is determined that the user is pointing. If it is determined that the user is pointing, the process proceeds to step S2.
  • step S2 the information processing system 10 executes a pointing mode process.
  • the details of the pointing mode process will be described with reference to the flowchart of FIG.
  • step S51 the information processing section 13 executes an instruction direction information acquisition process.
  • the details of the instruction direction information acquisition processing will be described with reference to the flowchart of FIG.
  • the object detection unit 33 detects an object in the pointing direction image. Specifically, the object detection unit 33 acquires an instruction direction image from the photographing unit 21 and performs image recognition to thereby detect an object in the instruction direction image, that is, within a predetermined range in the direction pointed by the user with a finger. Detects objects present in In addition, the object detection unit 33 detects the position and size of the detected object in the pointing direction image, the type of the object, the visual content of the object, the visual characteristics (eg, color, shape, etc.) of the object. Furthermore, the object detection unit 33 recognizes information represented by the visual content. For example, the object detection unit 33 recognizes specific contents such as an image, a character string, a mark, and a message included in the visual content.
  • the indication position detection unit 31 detects an object (indication object) pointed to by the user. For example, when the object detected by the object detection unit 33 exists at the center of the instruction direction image, the instruction position detection unit 31 detects the object as an instruction target. On the other hand, when the object detected by the object detection unit 33 does not exist in the center of the pointing direction image, the pointing position detection unit 31 detects the object closest to the center of the pointing direction image as the pointing target.
  • the indication target detected by the indication position detection unit 31 is referred to as a system recognition indication target.
  • System recognition instruction target is basically the same as the target that the user actually points to (real instruction target), but does not match the target that the user recognizes (user recognition instruction target) There is.
  • the distance calculation unit 34 calculates the shortest distance to the object in the pointing direction image. Specifically, the distance calculation unit 34 determines, based on the sensor information and the pointing direction image, a portion of the object in the pointing direction image that is closest to the user's eyes (hereinafter referred to as the shortest position) and the user's eyes. The distance between them (hereinafter referred to as the shortest object distance) is calculated.
  • FIG. 6 is a schematic view of the building 101 and the sign 102 shown in the pointing direction image as viewed from above.
  • the position P1 indicates the position of the user's eyes.
  • the distance calculation unit 34 detects a portion of the building 101 and the signboard 102 that is closest to the position P1. Thereby, for example, the position P2 of the left front corner of the signboard 102 is detected as the closest part (shortest position) from the position P1. Then, the distance calculation unit 34 calculates the distance d1 between the position P1 and the position P2 as the shortest object distance.
  • any method can be adopted as a method of calculating the shortest object distance.
  • step S104 the image processing unit 35 generates an instruction direction plane image.
  • the image processing unit 35 generates an image obtained by projecting the pointing direction image on a plane that is perpendicular to the pointing direction and passes through the shortest position, as the pointing direction plane image.
  • an image obtained by projecting the pointing direction image on the plane F1 passing through the shortest position P2 is obtained as the pointing direction plane image.
  • FIG. 7 schematically shows a specific example of the pointing direction plane image.
  • a signboard 131 In the pointing direction plane image 121 of FIG. 7, a signboard 131, a window 132, and signboards 133 to 137 are shown. Note that the pointing direction plane image 121 is shown in monochrome, but in reality, each object is colored. The color of the main part of each object will be described later.
  • the signboard 131, the window 132, and the signboard 133 are arranged horizontally from left to right.
  • the signboards 134 to 136 are arranged horizontally from left to right under the signboard 131, the window 132, and the signboard 133.
  • the sign 134 is under the sign 131 and the window 132.
  • the signboard 135 is below the signboard 133.
  • the signboard 136 is below the signboard 133 and protrudes to the right of the signboard 133.
  • the signboard 137 is below the signboard 135.
  • the signboard 131 is rectangular and displays an image (picture) of a dog whose body is yellow.
  • the window 132 is almost square and the frame color is gray.
  • the sign 133 is a rectangle, and a black Korean character string is displayed on an orange background.
  • the Korean string means “taste for home cooking”.
  • the signboard 134 is rectangular, and a black Korean character string is displayed on a gray background.
  • the Korean character string means “this building 5F”.
  • the signboard 135 has a rectangular shape, and a blue number “7080” is displayed on a white background.
  • the signboard 136 is rectangular, and a black Korean character string is displayed on a white background.
  • the Korean string means “restaurant”.
  • the signboard 137 has a rectangular shape, and a black Korean character string is displayed on a light blue background.
  • the Korean character string means “sports equipment”.
  • the image processing unit 35 converts the position and size of each object in the pointing direction image detected by the object detection unit 33 into a position and size in the pointing direction plane image.
  • step S105 the designated position detection unit 31 detects a position (indicated position) pointed to by the user in the designated direction plane image.
  • the indication position detection unit 31 detects the center of the system recognition instruction target in the indication direction plane image, and sets the detected position as the indication position in the indication direction plane image.
  • step S106 the information generation unit 37 generates an instruction direction information list.
  • the indication direction information list is a list of information on each object detected in the indication direction image, and is generated based on the indication direction plane image obtained by converting the indication direction image.
  • FIG. 8 shows an example of the indication direction information list generated based on the indication direction plane image 121 of FIG.
  • the indication direction information list includes items of ID, position, size, object type, content type, detailed information, and adjacent object.
  • the detailed information includes content information, translation information, and color items.
  • Neighboring objects include top, bottom, left and right items.
  • ID is assigned to each object to uniquely identify each object.
  • ID1 to ID7 are assigned to the signboard 131, the window 132, and the signboards 133 to 137, respectively.
  • the position indicates the position in the pointing direction plane image of each object. For example, the coordinates of the center of each object in the pointing direction plane image are set.
  • the size indicates the size of each object in the indicated direction plane image. For example, the maximum value of the length in the vertical direction and the maximum value of the length in the horizontal direction of each object in the pointing direction plane image are set.
  • the object type indicates the type of the object detected by the object detection unit 33.
  • the object type of the signboard 131 and the signboards 133 to 137 is “signboard”, and the object type of the window 132 is “window”.
  • the content type basically indicates the type of visual content of each object detected by the object detection unit 33. However, for an object that does not have visual content, the type of visual content is set to “object”.
  • the content type of the signboard 131 is “image”.
  • the content type of the signboards 133, 134, and 137 is “sentence”, and the content type of the signboards 135 and 136 is “word”.
  • the visual content is a character string
  • the content type is set to “word” when there is only one word included in the character string, and when there are two or more words included in the character string, The type is set to “sentence”. Since the window 132 has no visual content, the content type is set to “object”.
  • the type of object is set.
  • the content type is an object other than “object”, that is, an object having visual content, the contents of the visual content are set.
  • the signboard 131 since the signboard 131 has an image as visual content, “dog” which is the content of the image is set in the content information. Since the window 132 has no visual content, the “window” that is the type of object is set in the content information. Since the signboards 133 to 137 have sentences or words as visual contents, the sentences or words are set in the content information as they are in the original language (in this example, Korean). That is, in this specification, the content information of the signboards 133 to 137 includes “original language information of the signboard 133”, “original language information of the signboard 134”, “original language information of the signboard 135”, “original language information of the signboard 136”, It may be regarded as being defined as “original language information of signboard 137”.
  • the translated information information obtained by translating the content information into a language (hereinafter referred to as a user language) that the translation unit 36 informs the user is set.
  • a language hereinafter referred to as a user language
  • the user language may be regarded as the same as the language of the user voice.
  • the color is a characteristic color among the colors included in each object.
  • IDs of objects adjacent to the top, bottom, left, and right of each object in the designated direction plane image are set.
  • ID3 and ID7 are respectively located above, below, left, and right of the adjacent objects.
  • ID4 and ID6 are set.
  • the pointing position detection unit 31 determines whether or not the pointing mode release is instructed. Specifically, the pointing position detection unit 31 detects a gesture with the user's finger based on the sensor signal from the sensor unit 22 and cancels the pointing mode similarly to the process of step S1 of FIG. It is detected whether the instructing gesture is performed.
  • the gesture for instructing the release of the pointing mode may be, for example, only stopping the pointing gesture or creating a predetermined finger shape. Then, when the gesture for instructing the release of the pointing mode is not performed, the pointing position detection unit 31 determines that the release of the pointing mode is not instructed, and the process proceeds to step S53.
  • step S53 the designated position detection unit 31 determines whether or not the position pointed to by the user is stationary. For example, based on the sensor information from the sensor unit 22, the indicated position detection unit 31 measures the duration of the state where the movement range of the user's finger is within a predetermined range. The designated position detection unit 31 determines that the position pointed to by the user is not stationary when the duration of the state in which the movement range of the user's finger is within the predetermined range is less than the predetermined time, The process returns to step S51.
  • steps S51 to S53 are repeatedly executed until it is determined in step S52 that the pointing mode has been instructed to be released, or in step S53, it is determined that the position pointed to by the user is stationary. Is done.
  • the system recognition instruction target, the instruction direction plane image, the instruction position in the instruction direction plane image, and the instruction direction information list are updated.
  • step S ⁇ b> 53 if the duration of the state where the movement range of the user's finger is within the predetermined range is equal to or longer than the predetermined time, the indication position detection unit 31 is stationary at the position indicated by the user. And the process proceeds to step S54.
  • step S54 the information processing system 10 outputs a sound for confirming the target pointed by the user (hereinafter referred to as a confirmation sound). Specifically, first, the information generation unit 37 creates a question sentence for confirming the target pointed by the user.
  • the information generation unit 37 creates a question sentence based on, for example, the type of content targeted for system recognition instruction. For example, when the content type is an image, a question sentence “What image are you pointing to?” Is created. When the content type is a sentence, a question sentence “What sentence are you pointing to?” Is created. When the content type is a word, a question sentence “What word are you pointing to?” Is created. When the content type is an object, a question sentence “What object are you pointing to?” Is created.
  • a question sentence is an example, and can be changed as necessary.
  • a question sentence may be created based on the type of object, not the type of content.
  • a question sentence may be created based on both the type of object and the type of content.
  • the same question sentence such as “What are you pointing to” may be created regardless of the type of object and the type of content.
  • the question sentence is a sentence that prompts the user to input information for identifying the user recognition instruction target so that the user can reliably obtain information that can identify the user recognition instruction target from other objects.
  • the question sentence is a sentence that prompts the user to input information for identifying the user recognition instruction target so that the user can reliably obtain information that can identify the user recognition instruction target from other objects.
  • the question “What word are you pointing to?” Is assumed, the user is assumed to answer the word displayed on the signboard, and the information processing system 10 is based on the user's answer.
  • the user recognition instruction target can be easily identified.
  • the output unit 14 outputs a confirmation voice indicating the question sentence under the output control unit 39.
  • step S55 the voice recognition unit 38 starts voice recognition.
  • step S56 the voice recognition unit 38 determines whether voice input has been started within a predetermined time based on the voice signal from the voice input unit 11. If it is determined that voice input has been started within the predetermined time, the process proceeds to step S57.
  • step S57 the information processing system 10 executes an instruction direction information acquisition process during speech.
  • the details of the utterance instruction direction information acquisition process will be described with reference to the flowchart of FIG.
  • step S151 the designated position detection unit 31 detects the position and orientation of the user's finger during speech. Specifically, the designated position detection unit 31 detects a gesture with the user's finger based on the sensor signal from the sensor unit 22 in the same manner as the process of step S1 in FIG. Detect orientation. The indicated position detection unit 31 sets the detected position and orientation of the user's fingertip to the reference finger position and the reference finger direction. Note that, based on the reference finger position and the reference finger direction, the position pointed to by the user in the three-dimensional space at the time of speaking can be obtained.
  • the timing for detecting the reference finger position and the reference finger direction is set to a predetermined timing while the user is speaking, for example, at the start of utterance, after a predetermined time has elapsed since the start of utterance, and at the end of the utterance. Is done.
  • the position and orientation of the fingertip of the user who is speaking are stored, and the reference finger position and the reference finger direction are detected at a timing when it is determined that the movement of the user's finger is the smallest during speaking. May be.
  • step S152 the speech recognition unit 38 determines whether speech input has been completed. If it is determined that the voice input is still continued, the process proceeds to step S153.
  • step S153 the voice recognition unit 38 determines whether or not a predetermined time has elapsed since the voice input was started. If it is determined that a predetermined time has not yet elapsed since the start of voice input, the process returns to step S152.
  • steps S152 and S153 are repeatedly executed until it is determined in step S152 that the voice input has been completed, or in step S153, it is determined that a predetermined time has elapsed since the voice input was started. Is done.
  • step S152 if the silence period continues for a predetermined time, the voice recognition unit 38 determines that the voice input has ended, and the process proceeds to step S154.
  • step S153 If it is determined in step S153 that a predetermined time has elapsed since the start of voice input, the process proceeds to step S154. This is a case where voice input is continuously executed for a predetermined time or more.
  • step S154 the voice recognition unit 38 stops voice recognition.
  • step S155 the voice recognition unit 38 determines whether or not the voice recognition is successful. If the voice recognition unit 38 can recognize the content of the user voice based on the voice signal from the voice input unit 11, the voice recognition unit 38 determines that the voice recognition has been successful, and the process proceeds to step S156.
  • the pointing position correction unit 32 searches for a target (user recognition command target) that the user recognizes as pointing. For example, the pointing position correction unit 32 searches for text information similar to the text information acquired from the user voice from the text information included in the translation information of each object in the latest pointing direction information list. That is, the pointing position correction unit 32 searches the latest pointing direction information list for an object having translation information data (data obtained by translating the content information into the user language) similar to the content of the user voice.
  • a target user recognition command target
  • the pointing position correction unit 32 searches for text information similar to the text information acquired from the user voice from the text information included in the translation information of each object in the latest pointing direction information list. That is, the pointing position correction unit 32 searches the latest pointing direction information list for an object having translation information data (data obtained by translating the content information into the user language) similar to the content of the user voice.
  • the pointing position correction unit 32 detects that object as a user recognition instruction target. For example, when the user utters “7080”, since the object whose translation information data is “7080” is only the signboard 135, the signboard 135 is detected as a user recognition instruction target.
  • the indication position correction unit 32 detects two or more objects having translation information data similar to the contents of the user voice when the object having translation information data similar to the contents of the user voice cannot be detected. In this case, it is determined that the detection of the user recognition instruction target has failed.
  • step S157 the indication position correction unit 32 determines whether or not a target (user recognition instruction target) recognized as pointing to the user has been detected. If it is determined that the object recognized by the user can be detected, the process proceeds to step S158.
  • step S158 the designated position correction unit 32 corrects the designated position in the designated direction plane image.
  • the pointing position correction unit 32 does not correct the system recognition instruction target when the user recognition instruction target matches the latest system recognition instruction target. On the other hand, when the user recognition instruction target and the latest system recognition instruction target do not match, the pointing position correction unit 32 corrects the system recognition instruction target to the user recognition instruction target. Then, the pointing position correction unit 32 sets the system recognition instruction target at this time as the reference instruction target.
  • the target recognized by the user (user recognition instruction target) and the target recognized by the information processing system 10 as being pointed by the user (without causing the user to point back) System recognition instruction target).
  • the user can set any object from among objects in the indicated direction as the reference instruction target, for example, an object that can understand the type or name of the object or an object that can understand the contents of the visual content is designated as the reference instruction.
  • the reference instruction target from the signboard 131, the window 132, and the signboard 135 where the Korean language is not displayed.
  • the designated position correction unit 32 detects the center of the reference designation target in the designated direction plane image, corrects the detected position to the current designated position, and sets the reference designated position.
  • This reference indication position is obtained from the reference finger position and the reference finger direction set in step S151, and the indication direction plane corresponding to the indication position in the three-dimensional space at the time of utterance with respect to the confirmation voice (hereinafter also referred to as the space indication position).
  • the image indication position corresponding to the space indication position can be easily corrected as desired by the user.
  • step S159 the distance calculation unit 34 calculates the distance from the user's eyes to the finger. Specifically, the distance calculation unit 34 calculates the distance between the user's eyes and the user's fingertip at the time of utterance detected in the process of step S151. For example, as shown in FIG. 10, the distance calculation unit 34 calculates a distance d2 between the user's eye position P1 and the fingertip position P3 (hereinafter referred to as an eye-finger distance d2).
  • step S160 the image processing unit 35 calculates a reduction ratio.
  • the reduction ratio r is calculated by the following equation (1) based on the minimum object distance d1 and the eye-finger distance d2.
  • step S161 the image processing unit 35 generates an utterance instruction direction plane reduced image. Specifically, the image processing unit 35 reduces the latest designated direction plane image by the reduction ratio calculated in the process of step S160, and projects it on a plane passing through the user's fingertip and parallel to the designated direction plane image. Then, an instruction direction plane reduced image at the time of utterance is generated.
  • the instruction direction plane image 121 is reduced and projected onto a plane passing through the position P3 of the user's fingertip and parallel to the instruction direction plane image 121, thereby reducing the instruction direction plane reduced image during speech. 151 is generated.
  • the image processing unit 35 converts the position and size of each object in the designated direction plane image into the position and size in the designated direction plane reduced image. Further, the image processing unit 35 converts the designated position in the designated direction plane image into the designated position in the designated direction plane reduced image.
  • step S162 the information processing system 10 generates an utterance instruction direction information list.
  • the distance calculation unit 34 calculates the distance between adjacent objects in the designated direction plane reduced image.
  • the information generation unit 37 replaces the position and size of each object in the latest indication direction information list with the position and size in the indication direction plane reduced image. Further, the information generation unit 37 adds the distance between the objects calculated by the distance calculation unit 34 to the latest indication direction information list. As a result, the utterance instruction direction information list is generated.
  • FIG. 12 shows an example of the utterance instruction direction information list generated based on the instruction direction information list of FIG. In FIG. 12, the items of the object type, content type, and detailed information are not shown.
  • the position and size of each object are set to the position and size in the utterance instruction direction plane reduced image.
  • the distance to the adjacent object is set on the top, bottom, left, and right of each object in the utterance instruction direction plane reduced image.
  • the distance between the signboard 131 and the signboard 134 is set in d1_d in the “lower” column of the distance to the adjacent object ID1. Is done.
  • the window 132 is adjacent to the right of the sign board 131 of ID1, the distance between the sign board 131 and the window 132 is indicated by d1_r in the “right” column of the distance to the adjacent object of ID1. Is set.
  • the distance in the vertical direction between the center of the object A and the center of the object B is set.
  • the distance in the left-right direction (horizontal direction) between the center of the object A and the center of the object C is calculated.
  • the position P3 that is the center of the signboard 135 is set as the designated position in the utterance instruction direction plane reduced image 151.
  • the vertical center of the signboard 133 adjacent on the signboard 135 can be pointed.
  • the vertical center of the signboard 137 adjacent to the signboard 135 can be pointed.
  • the horizontal center of the signboard 134 adjacent to the left of the signboard 135 can be pointed.
  • the user's finger is moved to the right by the distance d5_r, it can be seen that the horizontal center of the signboard 136 adjacent to the right of the signboard 135 can be pointed.
  • step S162 After the process in step S162, the utterance instruction direction information acquisition process ends.
  • step S157 if it is determined in step S157 that the object recognized by the user cannot be detected, the process proceeds to step S163.
  • step S155 If it is determined in step S155 that the speech recognition has failed, the process proceeds to step S163.
  • step S163 the information processing system 10 notifies that the confirmation of the target pointed by the user has failed.
  • the output unit 14 outputs a sound notifying that the confirmation of the target pointed by the user has failed.
  • step S ⁇ b> 58 the pointing position correction unit 32 determines whether or not the target pointed by the user has been confirmed. If it is determined that the target pointed by the user has been confirmed, the process proceeds to step S59.
  • step S59 the information processing system 10 executes voice guidance processing.
  • voice guidance processing the details of the voice guidance process will be described with reference to the flowchart of FIG.
  • step S201 the indicated position detection unit 31 determines whether or not the user's finger has moved. Specifically, the indication position detection unit 31 detects the movement of the user's finger based on the sensor signal from the sensor unit 22. If the indication position detection unit 31 determines that the user's finger has moved, the process proceeds to step S202.
  • the pointing position detection unit 31 determines whether or not the target (pointing target) pointed to by the user has changed. Specifically, the indication position detection unit 31 detects the current position and orientation of the user's finger based on the reference finger position and the reference finger direction based on the sensor signal from the sensor unit 22. In addition, based on the detected current position and orientation of the current user, the designated position detection unit 31 calculates the amount and direction of movement of the current designated position from the reference designated position in the utterance designated direction plane image. The designated position detection unit 31 detects a target (instructed target) currently pointed to by the user based on the calculated movement amount and moving direction of the designated position and the utterance-time designated direction information list. Then, if the instruction target detected this time is different from the previously detected instruction target, the instruction position detection unit 31 determines that the target pointed by the user has changed, and the process proceeds to step S203.
  • step S203 the output control unit 39 acquires information on the target (instruction target) pointed to by the user.
  • the output control unit 39 acquires the current instruction target translation information data from the utterance instruction direction information list.
  • step S204 the output control unit 39 determines whether or not a predetermined time has elapsed since the previous voice guidance. If it is determined that a predetermined time has elapsed since the previous voice guidance, the process proceeds to step S205. Even when voice guidance is performed for the first time after the pointing mode process is started, it is determined that a predetermined time has elapsed since the previous voice guidance, and the process proceeds to step S205.
  • step S ⁇ b> 205 the information processing system 10 provides voice guidance for information related to the target (instruction target) pointed to by the user.
  • the output unit 14 outputs a notification sound, which is a sound for notifying that the instruction target has changed, under the control of the output control unit 39.
  • a notification sound which is a sound for notifying that the instruction target has changed.
  • different notification sounds may be output depending on the direction in which the instruction target has moved (for example, up, down, left, right).
  • different notification sounds may be output depending on how many objects the current instruction target is away from the reference instruction target. For example, different notification sounds may be output when the current instruction target is an object adjacent to the reference instruction target and an object two away from the reference instruction target.
  • the output control unit 39 changes the notification sound by changing at least one of scale, sound quality, volume, and the like.
  • notification sound instead of the notification sound, notification that the instruction target has changed due to vibration of the apparatus or the like may be made. Furthermore, for example, the direction in which the instruction target has moved may be notified by specific voices such as “up” and “left”.
  • the user can accurately recognize the instruction target currently recognized by the information processing system 10 based on the reference instruction target. Accordingly, a misregistration of the instruction target between the user and the information processing system 10 is prevented.
  • the output unit 14 outputs, for example, audio information that notifies the current instruction target translation information data.
  • audio information For example, when the current instruction target is the signboard 137 of FIG. 7, the sound of “sporting goods” that is the translation information data of the signboard 137 is output as voice information.
  • the user can obtain the information in a language that the user can understand, that is, user language.
  • the information processing system 10 if the information processing system 10 is used, a misregistration of the instruction target between the user and the information processing system 10 is prevented, so that the user can surely obtain information on the target he / she wants to obtain.
  • the output voice information can be confident that the information related to the object he / she wants to obtain.
  • Audio information may be output. This eliminates the need for the user to listen to the sound information of an object in between when the user wants to hear the sound information of an object located at a position two or more away from the reference target. In addition, since the notification sound is output even if the audio information is not output, the user can surely recognize that the object he / she points to has changed.
  • the content information and translation information data to be designated may be included in the audio information. That is, the audio information may include content information in the target language of the instruction target and content information in the user language. As a result, the user can know the pronunciation or the like of the content information to be instructed in the original language.
  • step S204 determines whether the predetermined time has not yet elapsed since the previous voice guidance. If it is determined in step S204 that the predetermined time has not yet elapsed since the previous voice guidance, the process of step S205 is skipped, and the voice guidance process ends.
  • step S202 If it is determined in step S202 that the object pointed to by the user has not changed, the processes in steps S203 to S205 are skipped, and the voice guidance process ends.
  • step S201 if it is determined in step S201 that the user's finger is not moving, the processes in steps S202 to S205 are skipped, and the voice guidance process ends.
  • step S ⁇ b> 60 as in the process of step S ⁇ b> 52, it is determined whether cancellation of the pointing mode is instructed. If it is determined that cancellation of the pointing mode is not instructed, the process returns to step S59.
  • steps S59 and S60 are repeatedly executed until it is determined in step S60 that the pointing mode is canceled.
  • step S60 when it is determined that the pointing mode is instructed to be released, the pointing mode process ends.
  • step S56 If it is determined in step S56 that voice input has not been started within a predetermined time, the process proceeds to step S61.
  • step S61 the voice recognition unit 38 stops voice recognition.
  • step S58 determines that the target pointed by the user has not been confirmed. If it is determined in step S58 that the target pointed by the user has not been confirmed, the process proceeds to step S62.
  • step S62 similarly to the process in step S52, it is determined whether or not the pointing mode release is instructed. If it is determined that cancellation of the pointing mode is not instructed, the process returns to step S51.
  • step S62 if it is determined in step S62 that the pointing mode release has been instructed, the pointing mode process ends.
  • step S2 after the process of step S2, the process returns to step S1, and the processes after step S1 are executed.
  • the user can accurately grasp the instruction target recognized by the information processing system 10 with reference to the reference instruction target, and prevent a misalignment of the instruction target between the user and the information processing system 10. can do.
  • the content information to be instructed is output in a voice in a language understandable by the user, for example, even if visual content is displayed in a language that the user cannot understand, the user can easily know the content.
  • the object to be instructed does not necessarily have to be one whole object, and may be a part of the object.
  • a part of them may be designated as an instruction target.
  • a part of a large object such as a building may be designated as the instruction object.
  • the present technology can be applied to the calibration of the designated position by the designated object.
  • the present technology can be applied to the calibration of the position of the operation object when the operation object (for example, a pointer or the like) is moved in the image by the user's gesture.
  • the operation object for example, a pointer or the like
  • the present technology can be applied to the calibration of the position of the operation object when the operation object (for example, a pointer or the like) is moved in the image by the user's gesture.
  • a VR image For example, calibration of the position of an operation object in an image (hereinafter referred to as a VR image) visually recognized by a user by VR (Virtual Reality) in an HMD (Head Mount Display) or the like, or an operation object in a smart TV screen
  • the operation object moves in the VR image in accordance with the movement of the fingertip of the user's index finger
  • the pointing object is the index finger
  • the pointing position (space pointing position) in the three-dimensional space is the fingertip of the index finger.
  • the user inputs an instruction position (image instruction position) in the VR image of the operation object to be associated with the space instruction position in that state by voice.
  • the position of the operation object is calibrated. For example, when the user inputs a voice “center”, the coordinate system of the operation object (the coordinate system of the image indication position) is corrected so that the space indication position at the time of speaking corresponds to the center of the VR image. Further, the position of the operation object is corrected so that the specified position (image instruction position) of the operation object is at the center of the VR image.
  • specific coordinates in the VR image may be input by voice to calibrate the position of the operation object.
  • the range of the VR image may be moved.
  • the image indication position corresponding to the space indication position can be easily corrected to the position desired by the user.
  • this calibration technique can be applied to, for example, calibration of the position of an AR (Augmented Reality) operation object.
  • the present technology is applied in various situations where a desired position is indicated in a non-contact manner using a pointing object. It is possible to apply. For example, when pointing to a desired position in a showcase such as a museum, pointing to a desired position in a place that cannot be approached by access restrictions, pointing to a desired position in a landscape seen from an observation deck, touching directly due to contamination, etc. When pointing to a desired position of an object that cannot be touched, when pointing to a desired position of an object for which contact is prohibited, or when pointing to a desired position from a position away from a lecture or the like.
  • the present technology can be applied to, for example, a case where a desired position is indicated by directly touching an object.
  • the present technology can also be applied to a case where a finger or the like is directly in contact with a screen of a display device such as a display to indicate a desired position in an image displayed on the screen.
  • the effect of applying the present technology increases when it is difficult to accurately indicate individual objects because the images are small.
  • the space instruction position and the image instruction position substantially coincide.
  • the present technology is applied to various devices that detect a position pointed by a pointing object (space pointing position) in a three-dimensional space and set a position in the image (image pointing position) corresponding to the space pointing position.
  • Examples of such devices include wearable devices, VR devices, AR devices, smart TVs, digital signage, projectors, smartphones, tablets, and the like.
  • the type of image used in the present technology is not particularly limited.
  • the present technology can be applied when setting an image instruction position in an arbitrary type of image such as a moving image, a still image, a two-dimensional image, a three-dimensional image, or an omnidirectional image.
  • the configuration example of the information processing system 10 in FIG. 1 is an example, and can be changed as necessary.
  • the information processing unit 13 may be provided in the voice input unit 11, the information acquisition unit 12, or the output unit 14. Further, for example, two or more of the voice input unit 11, the information acquisition unit 12, the information processing unit 13, and the output unit 14 may be integrated. Furthermore, for example, the constituent elements of the information processing system 10 may be configured by a combination different from the voice input unit 11, the information acquisition unit 12, the information processing unit 13, and the output unit 14.
  • an imaging unit that captures an instruction direction image indicating the direction in which the user is pointing is attached to a part other than the user's finger (for example, the head), and a separate imaging unit that captures the user is provided.
  • the indication position detection unit 31 detects the direction or direction of the user's finger based on an image of the user, thereby detecting the direction in which the user is pointing in the three-dimensional space (hereinafter referred to as the space indication). (Referred to as direction).
  • the indication position detection unit 31 detects an indication target indicated by the user in the indication direction image based on the space indication direction.
  • the imaging direction may not match the direction pointed to by the user.
  • the pointing position detection unit 31 uses SLAM (Simultaneous ⁇ Localization and Mapping) to create a spatial map around the user based on the pointing direction image, and based on the spatial map and the spatial pointing direction It is possible to detect the target object.
  • SLAM Simultaneous ⁇ Localization and Mapping
  • a photographing unit for photographing the pointing direction image may be provided separately from the user without being attached to the user.
  • Any pointing object applicable to the present technology may be used as long as it can point to a desired position.
  • a part of the body other than the user's finger for example, eyes (line of sight), head, face, part of face, arm, part of arm, etc. are used as pointing objects, and gestures using those parts are used.
  • a desired position may be indicated.
  • a pointing device such as a laser pointer or a device such as a VR (Virtual Reality) device may be used as the pointing object.
  • a VR device Virtual Reality
  • a desired position can be indicated by the orientation of the VR device.
  • the items of the instruction direction information list and the utterance instruction direction information list are not limited to the examples described above, and can be changed as necessary.
  • the detailed information may include visual characteristics (for example, shape) other than the color of each object.
  • the example of searching for the user recognition instruction target using the translation information data in the instruction direction information list has been shown, but other data may be used. For example, a confirmation voice that asks for the visual characteristics of an object such as “What color is the pointing object?” Or “Please tell me the shape of the pointing object” is output. Based on the instruction direction information list, the user recognition instruction target may be retrieved. Further, for example, a user recognition instruction target may be searched by combining two or more types of data in the instruction direction information list.
  • classification method of the object type and the content type is not limited to the example described above, and can be changed as necessary.
  • information on an object adjacent in the oblique direction may be added to the instruction direction information list and the utterance instruction direction information list so that the movement of the instruction target in the oblique direction can be detected.
  • the content information may be displayed on a display or the like instead of the voice, for example, the content information text data.
  • the instruction target and its surroundings may be enlarged and displayed.
  • the instruction target is a signboard
  • the signboard is far away, the signboard character is small, the signboard has a strong reflection, the surroundings are dark, etc., so that the visibility of the signboard is poor Can do.
  • a user who points to a desired target using an instruction object is the same as a user who inputs a user voice to the information processing system 10 is shown, but it is not necessarily the same.
  • a user B different from the user A wearing the information processing system 10 may input the user voice.
  • the user A may give the information processing system 10 a command for permitting the voice input by the user B.
  • This command may be input by the user A using a voice command, for example.
  • user B may wear another system, and the user A and user B systems may cooperate to acquire a combination of a gesture and a user voice that designates a desired target.
  • the series of processes described above can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose personal computer capable of executing various functions by installing various programs by installing a computer incorporated in dedicated hardware.
  • FIG. 15 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 305 is further connected to the bus 304.
  • An input unit 306, an output unit 307, a storage unit 308, a communication unit 309, and a drive 310 are connected to the input / output interface 305.
  • the input unit 306 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 307 includes a display, a speaker, and the like.
  • the storage unit 308 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 309 includes a network interface and the like.
  • the drive 310 drives a removable medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 301 loads the program stored in the storage unit 308 to the RAM 303 via the input / output interface 305 and the bus 304 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 301) can be provided by being recorded in, for example, a removable medium 311 as a package medium or the like.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 308 via the input / output interface 305 by attaching the removable medium 311 to the drive 310. Further, the program can be received by the communication unit 309 via a wired or wireless transmission medium and installed in the storage unit 308. In addition, the program can be installed in the ROM 302 or the storage unit 308 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • a plurality of computers may perform the above-described processing in cooperation.
  • a computer system is configured by one or a plurality of computers that perform the above-described processing.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Accordingly, a plurality of devices housed in separate housings and connected via a network and a single device housing a plurality of modules in one housing are all systems. .
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • the present technology can take the following configurations.
  • An indication position detection unit that detects a space indication position that is a position pointed to by the indication object in the three-dimensional space;
  • An information processing apparatus comprising: an instruction position correction unit that corrects an image instruction position that is an instruction position in an image corresponding to the space instruction position based on a user voice that is a voice emitted by a user.
  • the instruction position correction unit corrects the image instruction position to a position in the image based on the user voice.
  • the pointing position correction unit corrects the image pointing position in the image visually recognized by the user by virtual reality.
  • the information processing apparatus corrects the image instruction position corresponding to the space instruction position when the user is uttering the user voice. .
  • the pointing position detection unit detects a pointing target that is a target in the image corresponding to a first target pointed by the pointing object in a three-dimensional space; The pointing position correction unit does not correct the pointing target when the pointing target matches the second target based on the user voice, and when the pointing target does not match the second target, The information processing apparatus according to (1), wherein correction processing is performed to correct a target in the image corresponding to the target to the instruction target.
  • An output control unit that controls output of a confirmation voice that is a voice for confirming the instruction target; The information processing apparatus according to (5), wherein the pointing position correction unit performs the correction process based on the user voice with respect to the confirmation voice.
  • the output control unit controls output of audio information for notifying information on the instruction target in a predetermined language when the instruction target is changed after the correction processing. Any one of (5) to (7) Information processing equipment. (9) The information processing apparatus according to (8), wherein the audio information includes content information indicating visible content of the instruction target.
  • the information processing apparatus according to any one of (5) to (13), further including an object detection unit that detects an object in the image.
  • the information processing apparatus according to any one of (1) to (14), wherein the instruction object is a part of a user's body.
  • the information processing apparatus according to any one of (1) to (15), further including a voice recognition unit that recognizes the user voice.
  • An indication position detecting step for detecting a space indication position which is a position pointed to by the indication object in the three-dimensional space;
  • An instruction position correcting step for correcting an image instruction position, which is an instruction position in an image corresponding to the space instruction position, based on a user voice that is a voice uttered by a user.
  • An indication position detecting step for detecting a space indication position which is a position pointed to by the indication object in the three-dimensional space;
  • a program for causing a computer to execute processing including: an instruction position correction step of correcting an image instruction position, which is an instruction position in an image corresponding to the space instruction position, based on a user voice that is a voice uttered by a user.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)

Abstract

本技術は、三次元空間において指されている位置に対応する画像内の指示位置を簡単に補正することができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。 情報処理装置は、三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出部と、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正部とを備える。本技術は、例えば、VR(Virtual Reality)を用いたHMD(Head Mount Display)に適用できる。

Description

情報処理装置、情報処理方法、及び、プログラム
 本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、三次元空間において指されている位置に対応する画像内の指示位置を補正する場合に用いて好適な情報処理装置、情報処理方法、及び、プログラムに関する。
 従来、ユーザの指等により指されていると認識した対象の名称等を音声で通知し、ユーザに確認する技術が提案されている(例えば、特許文献1参照)。
 また、従来、手書きされた図形又は文字を認識することにより得られる図形又は文字の候補と、ユーザが発した音声を認識することにより得られる図形又は文字の候補とを比較することにより、図形又は文字を選択する技術が提案されている(例えば、特許文献2参照)。
特開2013-88906号公報 特開2007-48177号公報
 しかしながら、特許文献1及び2では、三次元空間において指されている位置に対応する画像内の指示位置を補正することは検討されていない。
 そこで、本技術は、三次元空間において指されている位置に対応する画像内の指示位置を簡単に補正することができるようにようするものである。
 本技術の一側面の情報処理装置は、三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出部と、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正部とを備える。
 前記指示位置補正部には、前記ユーザ音声に基づく前記画像内の位置に前記画像指示位置を補正させることができる。
 前記指示位置補正部には、バーチャルリアリティにより前記ユーザが視認する前記画像内の前記画像指示位置を補正させることができる。
 前記指示位置補正部には、前記ユーザが前記ユーザ音声を発しているときの前記空間指示位置に対応する前記画像指示位置を補正させることができる。
 前記指示位置検出部には、三次元空間において前記指示オブジェクトにより指されている第1の対象に対応する前記画像内の対象である指示対象を検出させ、前記指示位置補正部には、前記指示対象が前記ユーザ音声に基づく第2の対象と一致する場合、前記指示対象を補正せず、前記指示対象が前記第2の対象と一致しない場合、前記第2の対象に対応する前記画像内の対象を前記指示対象に補正する補正処理を行わせることができる。
 前記指示対象を確認するための音声である確認音声の出力を制御する出力制御部をさらに設け、前記指示位置補正部には、前記確認音声に対する前記ユーザ音声に基づいて、前記補正処理を行わせることができる。
 前記確認音声を、前記指示対象を識別するための情報の入力を促す音声とすることができる。
 前記出力制御部には、前記補正処理後に前記指示対象が変化した場合、前記指示対象に関する情報を所定の言語で通知する音声情報の出力を制御させることができる。
 前記音声情報には、前記指示対象の視認可能なコンテンツを示すコンテンツ情報を含めることができる。
 前記コンテンツ情報には、前記指示対象の名称、前記指示対象の種類、及び、前記指示対象が視覚的に表しているもののうち少なくとも1つを示させることができる。
 前記出力制御部には、前記補正処理後に前記指示対象が変化した場合、前記指示対象の変化を通知する通知音を出力するように制御させることができる。
 前記出力制御部には、前記指示対象が移動した方向により異なる前記通知音を出力するように制御させることができる。
 前記指示対象に関する情報を前記所定の言語に翻訳する翻訳部をさらに設けることができる。
 前記画像内の物体の検出を行う物体検出部をさらに設けることができる。
 前記指示オブジェクトを、ユーザの体の一部とすることができる。
 前記ユーザ音声を認識する音声認識部をさらに設けることができる。
 本技術の一側面の情報処理方法は、三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップとを含む。
 本技術の一側面のプログラムは、三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップとを含む処理をコンピュータに実行させる。
 本技術の一側面においては、三次元空間において指示オブジェクトにより指されている位置である空間指示位置が検出され、ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置が補正される。
 本技術の一側面によれば、三次元空間において指されている位置に対応する画像内の指示位置を簡単に補正することができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した情報処理システムの一実施の形態を示すブロック図である。 情報処理システムにより実行される情報処理を説明するためのフローチャートである。 指差しモード処理の詳細を説明するためのフローチャートである。 指示方向情報取得処理の詳細を説明するためのフローチャートである。 指示方向画像の撮影範囲の例を示す図である。 指示方向平面画像の生成方法を説明するための図である。 指示方向平面画像の例を示す図である。 指示方向情報リストの例を示す図である。 発話時指示方向情報取得処理の詳細を説明するためのフローチャートである。 発話時指示方向平面縮小画像の生成方法を説明するための図である。 発話時指示方向平面縮小画像の生成方法を説明するための図である。 発話時指示方向情報リストの例を示す図である。 発話時指示方向平面縮小画像の例を示す図である。 音声案内処理の詳細を説明するためのフローチャートである。 コンピュータの構成例を示すブロック図である。
 以下、発明を実施するための形態(以下、「実施形態」と記述する)について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
<1.実施の形態>
{情報処理システム10の構成例}
 まず、図1を参照して、本技術を適用した情報処理システム10の構成例について説明する。
 情報処理システム10は、例えばユーザにより装着又は携帯され、三次元空間においてユーザが指で指していると認識している対象を認識し、その対象に関するコンテンツ情報を所定の言語の音声で通知するシステムである。ここで、情報処理システム10が認識する対象は、ユーザが指していると認識している対象であり、実際に指で指されている対象とは異なる場合がある。
 なお、以下、ユーザが指していると認識している対象、及び、ユーザが実際に指している対象を指示対象と称する。また、以下、ユーザが指していると認識している対象とユーザが実際に指している対象とを区別する場合、前者をユーザ認識指示対象と称し、後者を現実指示対象と称する。
 また、コンテンツ情報とは、物体の視認可能なコンテンツを示す情報のことである。例えば、コンテンツ情報は、物体の名称、物体の種類、及び、物体が視覚的に表しているもの(以下、視覚コンテンツと称する)のうち少なくとも1つを示す。ここで、視覚コンテンツとは、例えば、物体に表示されている画像(動画、静止画、絵等)、文字、及び、マーク、並びに、物体の形状や動きにより表される文字、マーク、及び、メッセージ等である。また、物体が人である場合、視認可能なコンテンツには、例えば、ボディランゲージや交通整理の手信号等のジェスチャ、表情等が含まれる。
 情報処理システム10は、音声入力部11、情報取得部12、情報処理部13、及び、出力部14を備える。
 音声入力部11は、例えば、マイクロフォンにより構成される。音声入力部11は、例えば、ユーザの口の近くに配置され、ユーザが発した音声(以下、ユーザ音声と称する)を検出し、ユーザ音声を示す音声信号を情報処理部13に供給する。
 情報取得部12は、例えば、指輪型の形状を有し、ユーザが指差すときに用いる指(例えば、人差し指)に装着される。情報取得部12は、撮影部21及びセンサ部22を備える。
 撮影部21は、ユーザが指により指している方向(以下、指示方向と称する)を撮影し、その結果得られる画像(以下、指示方向画像と称する)を情報処理部13に供給する。
 センサ部22は、例えば、ユーザの指によるジェスチャ、指の位置、指示方向等を検出するためのセンサ(例えば、加速度センサ、ジャイロセンサ等)を備える。また、センサ部22は、例えば、指示方向にある物体までの距離を測定するセンサ(例えば、距離センサ等)を備える。そして、センサ部22は、各センサの検出結果を示すセンサ信号を情報処理部13に供給する。
 情報処理部13は、例えば、スマートフォン、タブレット、ウエアラブルデバイス等の携帯型の情報端末により構成される。情報処理部13は、指示位置検出部31、指示位置補正部32、物体検出部33、距離算出部34、画像処理部35、翻訳部36、情報生成部37、音声認識部38、出力制御部39、及び、通信部40を備える。
 指示位置検出部31は、センサ部22からのセンサ情報に基づいて、ユーザにより指されている位置及び対象の検出を行う。
 指示位置補正部32は、ユーザ音声に基づいて、ユーザにより指されている位置及び対象の検出結果の補正を行う。
 物体検出部33は、指示方向画像内の物体の検出を行う。
 距離算出部34は、例えば、物体検出部33により検出された各物体間の距離を算出する。また、距離算出部34は、例えば、センサ部22からのセンサ情報及び指示方向画像に基づいて、ユーザの目と物体との間の距離、ユーザの目と指との間の距離を算出する。
 画像処理部35は、指示方向画像の指示方向平面画像への変換、及び、指示方向平面画像の発話時指示方向平面縮小画像への変換等の画像処理を行う。なお、指示方向平面画像及び発話時指示方向平面縮小画像の詳細は後述する。
 翻訳部36は、2以上の言語間の翻訳を行う。
 情報生成部37は、ユーザが指している方向に存在する物体に関する情報を示す指示方向情報リスト及び発話時指示方向情報リスト等を生成する。なお、指示方向情報リスト及び発話時指示方向情報リストの詳細は後述する。また、情報生成部37は、ユーザに音声により通知する情報を生成する。
 音声認識部38は、ユーザ音声の認識を行う。
 出力制御部39は、出力部14による音声の出力を制御する。
 通信部40は、音声入力部11、情報取得部12、及び、出力部14との間の通信を行う。なお、通信部40の通信方式は、所定の方式に限定されるものではなく、有線又は無線の各種の通信方式の中から任意の方式を採用することができる。また、音声入力部11、情報取得部12、及び、出力部14との間の通信方式を、それぞれ異なる方式に設定することが可能である。
 出力部14は、音声の出力が可能な装置により構成される。例えば、出力部14は、スピーカ、ヘッドフォン、イヤフォン、音源等により構成される。
 なお、例えば、音声入力部11、情報処理部13、及び、出力部14を一体化するようにしてもよい。一体化した装置は、例えば、ネックバンド型のウエアラブルデバイスにより構成される。
{情報処理システム10の処理}
 次に、図2乃至図14を参照して、情報処理システム10の処理について説明する。
 まず、図2のフローチャートを参照して、情報処理システム10により実行される情報処理について説明する。なお、この処理は、例えば、情報処理部13の図示せぬ電源がオンされたとき開始され、電源がオフされたとき終了する。
 ステップS1において、指示位置検出部31は、ユーザが指差しているか否かを判定する。具体的には、指示位置検出部31は、センサ部22からのセンサ信号に基づいて、ユーザの指によるジェスチャの検出を行う。なお、ジェスチャの検出方法には、任意の方法を採用することができる。そして、指示位置検出部31は、検出したジェスチャに基づいて、ユーザが指差しているか否かを判定する。ステップS1の判定処理は、ユーザが指差していると判定されるまで、例えば、所定の間隔で繰り返し実行される。そして、ユーザが指差していると判定された場合、処理はステップS2に進む。
 ステップS2において、情報処理システム10は、指差しモード処理を実行する。ここで、図3のフローチャートを参照して、指差しモード処理の詳細について説明する。
 ステップS51において、情報処理部13は、指示方向情報取得処理を実行する。ここで、図4のフローチャートを参照して、指示方向情報取得処理の詳細について説明する。
 ステップS101において、物体検出部33は、指示方向画像内の物体を検出する。具体的には、物体検出部33は、撮影部21から指示方向画像を取得し、画像認識を行うことにより、指示方向画像内の物体、すなわち、ユーザが指により指した方向の所定の範囲内に存在する物体を検出する。また、物体検出部33は、検出した物体の指示方向画像内の位置及びサイズ、物体の種類、物体の視覚コンテンツ、物体の視覚的な特徴(例えば、色、形等)等を検出する。さらに、物体検出部33は、視覚コンテンツが表す情報の認識を行う。例えば、物体検出部33は、視覚コンテンツに含まれる画像、文字列、マーク、メッセージ等の具体的な内容を認識する。
 なお、物体検出部33の物体の検出方法には、任意の方法を採用することができる。
 また、以下、図5に模式的に示される繁華街の風景のうち範囲D1内の画像が指示方向画像として得られた場合について説明する。なお、この図では、ビルの看板等の図示が省略されている。
 ステップS102において、指示位置検出部31は、ユーザが指している対象(指示対象)を検出する。例えば、指示位置検出部31は、指示方向画像の中央に物体検出部33により検出された物体が存在する場合、その物体を指示対象として検出する。一方、指示位置検出部31は、指示方向画像の中央に物体検出部33により検出された物体が存在しない場合、指示方向画像の中心に最も近い物体を指示対象として検出する。
 なお、以下、指示位置検出部31により検出された指示対象をシステム認識指示対象と称する。システム認識指示対象は、基本的にユーザが実際に指している対象(現実指示対象)とほぼ一致するが、ユーザが指していると認識している対象(ユーザ認識指示対象)とは一致しない場合がある。
 ステップS103において、距離算出部34は、指示方向画像内の物体までの最短距離を算出する。具体的には、距離算出部34は、センサ情報及び指示方向画像に基づいて、指示方向画像内の物体のうちユーザの目から最も近い部分(以下、最短位置と称する)とユーザの目との間の距離(以下、最短物体距離と称する)を算出する。
 ここで、図6を参照して、最短物体距離の算出方法の具体例について説明する。図6は、指示方向画像内に写っているビル101及び看板102を上方から見た模式図である。位置P1は、ユーザの目の位置を示している。
 距離算出部34は、ビル101及び看板102のうち位置P1から最も近い部分を検出する。これにより、例えば、看板102の左前方の隅の位置P2が位置P1から最も近い部分(最短位置)として検出される。そして、距離算出部34は、位置P1と位置P2の間の距離d1を最短物体距離として算出する。
 なお、最短物体距離の算出方法には、任意の方法を採用することができる。
 ステップS104において、画像処理部35は、指示方向平面画像を生成する。例えば、画像処理部35は、指示方向に対して垂直な平面であって最短位置を通る平面上に指示方向画像を投影した画像を、指示方向平面画像として生成する。
 例えば、上述した図6の例では、最短位置P2を通る平面F1上に指示方向画像を投影した画像が、指示方向平面画像として得られる。
 図7は、指示方向平面画像の具体例を模式的に示している。図7の指示方向平面画像121には、看板131、窓132、及び、看板133乃至看板137が写っている。なお、指示方向平面画像121はモノクロで示されているが、実際には各物体には色が付いている。各物体の主要な部分の色については後述する。
 看板131、窓132、看板133は、左から右に水平方向に並んでいる。看板134乃至看板136は、看板131、窓132、看板133の下に、左から右に水平方向に並んでいる。看板134は、看板131と窓132の下にある。看板135は、看板133の下にある。看板136は、看板133の下にあり、看板133より右にはみ出している。看板137は、看板135の下にある。
 看板131は、長方形であり、胴体が黄色の犬の画像(絵)が表示されている。
 窓132は、ほぼ正方形であり、枠の色はグレーである。
 看板133は、長方形であり、オレンジの背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”家庭料理の味”を意味する。
 看板134は、長方形であり、グレーの背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”当ビル5F”を意味する。
 看板135は、長方形であり、白の背景の上に、青の数字”7080”が表示されている。
 看板136は、長方形であり、白の背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”レストラン”を意味する。
 看板137は、長方形であり、薄青色の背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”スポーツ用品”を意味する。
 また、画像処理部35は、物体検出部33により検出された指示方向画像内の各物体の位置及びサイズを指示方向平面画像内における位置及びサイズに変換する。
 なお、以下、図7の指示方向平面画像121が得られた場合について、各処理の具体例を説明する。
 ステップS105において、指示位置検出部31は、指示方向平面画像においてユーザにより指されている位置(指示位置)を検出する。例えば、指示位置検出部31は、指示方向平面画像におけるシステム認識指示対象の中心を検出し、検出した位置を指示方向平面画像における指示位置に設定する。
 ステップS106において、情報生成部37は、指示方向情報リストを生成する。指示方向情報リストは、指示方向画像において検出された各物体に関する情報をリストにしたものであり、指示方向画像を変換した指示方向平面画像に基づいて生成される。
 図8は、図7の指示方向平面画像121に基づいて生成される指示方向情報リストの例を示している。
 指示方向情報リストは、ID、位置、サイズ、物体の種類、コンテンツの種類、詳細情報、隣接する物体の項目を含んでいる。詳細情報は、コンテンツ情報、翻訳情報、色の項目を含んでいる。隣接する物体は、上、下、左、右の項目を含んでいる。
 IDは、各物体を一意に識別するために各物体に付与される。この例では、看板131、窓132、看板133乃至137に、ID1乃至ID7がそれぞれ付与されている。
 位置は、各物体の指示方向平面画像内の位置を示す。例えば、指示方向平面画像内における各物体の中心の座標が設定される。
 サイズは、各物体の指示方向平面画像内のサイズを示す。例えば、指示方向平面画像内における各物体の垂直方向の長さの最大値、及び、水平方向の長さの最大値が設定される。
 物体の種類は、物体検出部33により検出された物体の種類を示す。例えば、看板131及び看板133乃至137の物体の種類は”看板”となり、窓132の物体の種類は”窓”となる。
 コンテンツの種類は、基本的に、物体検出部33により検出された各物体の視覚コンテンツの種類を示す。ただし、視覚コンテンツを有していない物体については、視覚コンテンツの種類は”物体”に設定される。例えば、看板131のコンテンツの種類は”画像”となる。また、例えば、看板133、134及び137のコンテンツの種類は”文”となり、看板135及び136のコンテンツの種類は”単語”となる。なお、視覚コンテンツが文字列である場合、文字列に含まれる単語が1つのみのとき、コンテンツの種類は”単語”に設定され、文字列に含まれる単語が2つ以上のとき、コンテンツの種類は”文”に設定される。窓132は、視覚コンテンツを有していないため、コンテンツの種類は”物体”に設定される。
 コンテンツ情報には、コンテンツの種類が”物体”である物体の場合、すなわち、視覚コンテンツを有していない物体の場合、物体の種類が設定される。一方、コンテンツの種類が”物体”以外の物体の場合、すなわち、視覚コンテンツを有している物体の場合、視覚コンテンツの内容が設定される。
 例えば、看板131は、視覚コンテンツとして画像を有しているので、画像の内容である”犬”がコンテンツ情報に設定される。窓132は、視覚コンテンツを有していないので、物体の種類である”窓”がコンテンツ情報に設定される。看板133乃至看板137は、視覚コンテンツとして文又は単語を有しているので、その文又は単語が原語(この例の場合、韓国語)のままコンテンツ情報に設定される。すなわち、本明細書において、看板133乃至看板137のコンテンツ情報は、それぞれ”看板133の原語情報”、”看板134の原語情報”、”看板135の原語情報”、”看板136の原語情報”、”看板137の原語情報”として定義されると見做されてよい。
 翻訳情報には、翻訳部36がコンテンツ情報をユーザに通知する言語(以下、ユーザ言語と称する)に翻訳した情報が設定される。ここで、ユーザ言語は、ユーザ音声の言語と同一であると見做されてよい。
 色には、各物体に含まれる色のうち特徴的な色が設定される。
 隣接する物体には、指示方向平面画像において各物体の上、下、左、右に隣接する物体のIDが設定される。例えば、ID5の看板135の上下左右には、それぞれ、看板133、看板137、看板134、看板136が隣接しているので、隣接する物体の上、下、左、右には、それぞれID3、ID7、ID4、ID6が設定されている。
 その後、指示方向情報取得処理は終了する。
 図3に戻り、ステップS52において、指示位置検出部31は、指差しモードの解除が指示されたか否かを判定する。具体的には、指示位置検出部31は、図2のステップS1の処理と同様に、センサ部22からのセンサ信号に基づいて、ユーザの指によるジェスチャの検出を行い、指差しモードの解除を指示するジェスチャが行われているか否かを検出する。指差しモードの解除を指示するジェスチャは、例えば、指差しのジェスチャを止めるだけでもよいし、或いは、所定の指の形を作るようにしてもよい。そして、指示位置検出部31は、指差しモードの解除を指示するジェスチャが行われていない場合、指差しモードの解除が指示されていないと判定し、処理はステップS53に進む。
 ステップS53において、指示位置検出部31は、ユーザが指している位置が静止しているか否かを判定する。例えば、指示位置検出部31は、センサ部22からのセンサ情報に基づいて、ユーザの指の移動範囲が所定の範囲内である状態の継続時間を測定する。指示位置検出部31は、ユーザの指の移動範囲が所定の範囲内である状態の継続時間が所定の時間未満である場合、ユーザが指している位置が静止していないと判定し、処理はステップS51に戻る。
 その後、ステップS52において、指差しモードの解除が指示されたと判定されるか、ステップS53において、ユーザが指している位置が静止していると判定されるまで、ステップS51乃至S53の処理が繰り返し実行される。そして、処理が繰り返される毎に、システム認識指示対象、指示方向平面画像、指示方向平面画像内の指示位置、及び、指示方向情報リストが更新される。
 一方、ステップS53において、指示位置検出部31は、ユーザの指の移動範囲が所定の範囲内である状態の継続時間が所定の時間以上である場合、ユーザが指している位置が静止していると判定し、処理はステップS54に進む。
 ステップS54において、情報処理システム10は、ユーザが指している対象を確認するための音声(以下、確認音声と称する)を出力する。具体的には、まず、情報生成部37は、ユーザが指している対象を確認するための質問文を作成する。
 ここで、情報生成部37は、例えば、システム認識指示対象のコンテンツの種類に基づいて、質問文を作成する。例えば、コンテンツの種類が画像である場合、「何の画像を指していますか?」という質問文が作成される。コンテンツの種類が文である場合、「何の文を指していますか?」という質問文が作成される。コンテンツの種類が単語である場合、「何の単語を指していますか?」という質問文が作成される。コンテンツの種類が物体である場合、「何の物体を指していますか?」という質問文が作成される。
 なお、以上の質問文は、その一例であり、必要に応じて変更することが可能である。例えば、コンテンツの種類ではなく、物体の種類に基づいて質問文を作成するようにしてもよい。また、例えば、物体の種類とコンテンツの種類の両方に基づいて質問文を作成するようにしてもよい。さらに、例えば、物体の種類及びコンテンツの種類に関わらず、「何を指していますか?」等の同じ質問文を作成するようにしてもよい。
 ただし、質問文は、ユーザ認識指示対象を他の物体と識別できる程度の情報をユーザから確実に得られるように、ユーザ認識指示対象を識別するための情報の入力を促す文章であることが望ましい。例えば、「何を指していますか?」と質問した場合、ユーザが「看板」と答えると、情報処理システム10は、ユーザがどの看板を指しているのか認識することができない。これに対して、例えば、「何の単語を指していますか?」と質問した場合、ユーザは看板に表示されている単語を答えると想定され、情報処理システム10は、ユーザの回答に基づいて、ユーザ認識指示対象を容易に識別できるようになる。
 そして、出力部14は、出力制御部39の下に、質問文を示す確認音声を出力する。
 ステップS55において、音声認識部38は、音声認識を開始する。
 ステップS56において、音声認識部38は、音声入力部11からの音声信号に基づいて、所定の時間内に音声入力が開始されたか否かを判定する。所定の時間内に音声入力が開始されたと判定された場合、処理はステップS57に進む。
 ステップS57において、情報処理システム10は、発話時指示方向情報取得処理を実行する。ここで、図9のフローチャートを参照して、発話時指示方向情報取得処理の詳細について説明する。
 ステップS151において、指示位置検出部31は、発話時のユーザの指の位置と向きを検出する。具体的には、指示位置検出部31は、図2のステップS1の処理と同様に、センサ部22からのセンサ信号に基づいて、ユーザの指によるジェスチャの検出を行い、ユーザの指先の位置と向きを検出する。また、指示位置検出部31は、検出したユーザの指先の位置と向きを基準指位置及び基準指方向に設定する。なお、この基準指位置及び基準指方向により、発話時に三次元空間においてユーザが指している位置を求めることができる。
 なお、基準指位置及び基準指方向を検出するタイミングは、例えば、発話の開始時、発話開始から所定の時間経過後、発話の終了時等、ユーザが発話している間の所定のタイミングに設定される。或いは、例えば、発話中のユーザの指先の位置及び向きを記憶しておき、発話中にユーザの指の動きが最も小さいと判定されたタイミングにおいて、基準指位置及び基準指方向を検出するようにしてもよい。
 ステップS152において、音声認識部38は、音声入力が終了したか否かを判定する。まだ音声入力が継続していると判定された場合、処理はステップS153に進む。
 ステップS153において、音声認識部38は、音声入力が開始されてから所定の時間が経過したか否かを判定する。音声入力が開始されてからまだ所定の時間が経過していないと判定された場合、処理はステップS152に戻る。
 その後、ステップS152において、音声入力が終了したと判定されるか、ステップS153において、音声入力が開始されてから所定の時間が経過したと判定されるまで、ステップS152及びステップS153の処理が繰り返し実行される。
 一方、ステップS152において、音声認識部38は、無音期間が所定の時間継続した場合、音声入力が終了したと判定し、処理はステップS154に進む。
 また、ステップS153において、音声入力が開始されてから所定の時間が経過したと判定された場合、処理はステップS154に進む。これは、音声入力が所定の時間以上継続して実行された場合である。
 ステップS154において、音声認識部38は、音声認識を停止する。
 ステップS155において、音声認識部38は、音声認識に成功したか否かを判定する。音声認識部38は、音声入力部11からの音声信号に基づいてユーザ音声の内容を認識できた場合、音声認識に成功したと判定し、処理はステップS156に進む。
 ステップS156において、指示位置補正部32は、ユーザが指していると認識している対象(ユーザ認識指示対象)を検索する。例えば、指示位置補正部32は、最新の指示方向情報リストの各物体の翻訳情報に含まれるテキスト情報の中から、ユーザ音声から取得されるテキスト情報と類似するテキスト情報を検索する。すなわち、指示位置補正部32は、最新の指示方向情報リストの中から、ユーザ音声の内容と類似する翻訳情報データ(コンテンツ情報をユーザ言語に翻訳したデータ)を有する物体の検索を行う。
 そして、指示位置補正部32は、ユーザ音声の内容と類似する翻訳情報データを有する物体が1つのみである場合、その物体をユーザ認識指示対象として検出する。例えば、ユーザが”7080”と発話した場合、翻訳情報データが”7080”の物体は看板135のみであるので、看板135がユーザ認識指示対象として検出される。
 一方、指示位置補正部32は、ユーザ音声の内容と類似する翻訳情報データを有する物体を検出できなかった場合、又は、ユーザ音声の内容と類似する翻訳情報データを有する物体を2つ以上検出した場合、ユーザ認識指示対象の検出に失敗したと判定する。
 ステップS157において、指示位置補正部32は、ユーザが指していると認識している対象(ユーザ認識指示対象)を検出できたか否かを判定する。ユーザが指していると認識している対象を検出できたと判定された場合、処理はステップS158に進む。
 ステップS158において、指示位置補正部32は、指示方向平面画像内の指示位置を補正する。
 具体的には、指示位置補正部32は、ユーザ認識指示対象と最新のシステム認識指示対象が一致する場合、システム認識指示対象を補正しない。一方、指示位置補正部32は、ユーザ認識指示対象と最新のシステム認識指示対象が一致しない場合、システム認識指示対象をユーザ認識指示対象に補正する。そして、指示位置補正部32は、この時点のシステム認識指示対象を基準指示対象に設定する。
 これにより、ユーザに指し直しをさせなることなく、ユーザが指していると認識している対象(ユーザ認識指示対象)と、情報処理システム10がユーザにより指されていると認識している対象(システム認識指示対象)とを一致させることができる。
 また、ユーザは、指示方向にある物体の中から任意の物体を基準指示対象に設定できるので、例えば、物体の種類若しくは名称等が分かる物体、又は、視覚コンテンツの内容を理解できる物体を基準指示対象に設定することができる。例えば、図7の例において、ユーザが韓国語を理解できない場合、ユーザは、韓国語が表示されていない看板131、窓132、及び、看板135の中から基準指示対象を設定することができる。
 また、指示位置補正部32は、指示方向平面画像における基準指示対象の中心を検出し、検出した位置を現在の指示位置に補正するとともに、基準指示位置に設定する。この基準指示位置は、ステップS151で設定された基準指位置及び基準指方向により求められる、確認音声に対する発話時の三次元空間における指示位置(以下、空間指示位置とも称する)に対応する指示方向平面画像内の指示位置(以下、画像指示位置とも称する)となる。
 このように、空間指示位置に対応する画像指示位置を簡単にユーザが望むように補正することができる。
 ステップS159において、距離算出部34は、ユーザの目から指までの距離を算出する。具体的には、距離算出部34は、ユーザの目とステップS151の処理で検出した発話時のユーザの指先との間の距離を算出する。例えば、距離算出部34は、図10に示されるように、ユーザの目の位置P1と指先の位置P3との間の距離d2(以下、目-指間距離d2と称する)を算出する。
 なお、距離の算出方法には、任意の方法を採用することができる。
 ステップS160において、画像処理部35は、縮小率を算出する。例えば、図10の例の場合、縮小率rは、最小物体距離d1及び目-指間距離d2に基づいて、次式(1)により算出される。
r=d2/d1 ・・・(1)
 ステップS161において、画像処理部35は、発話時指示方向平面縮小画像を生成する。具体的には、画像処理部35は、最新の指示方向平面画像をステップS160の処理で算出した縮小率により縮小し、ユーザの指先を通り指示方向平面画像に平行な平面上に投影することにより、発話時指示方向平面縮小画像を生成する。
 例えば、図11に示されるように、指示方向平面画像121を縮小し、ユーザの指先の位置P3を通り指示方向平面画像121に平行な平面上に投影することにより、発話時指示方向平面縮小画像151が生成される。
 また、画像処理部35は、指示方向平面画像内の各物体の位置及びサイズを指示方向平面縮小画像における位置及びサイズに変換する。さらに、画像処理部35は、指示方向平面画像内の指示位置を指示方向平面縮小画像内における指示位置に変換する。
 ステップS162において、情報処理システム10は、発話時指示方向情報リストを生成する。具体的には、距離算出部34は、指示方向平面縮小画像において隣接する物体間の距離を算出する。情報生成部37は、最新の指示方向情報リストの各物体の位置及びサイズを、指示方向平面縮小画像における位置及びサイズに置換する。また、情報生成部37は、距離算出部34により算出された各物体間の距離を最新の指示方向情報リストに追加する。これにより、発話時指示方向情報リストが生成される。
 図12は、図8の指示方向情報リストに基づいて生成される発話時指示方向情報リストの例を示している。なお、図12において、物体の種類、コンテンツの種類、及び、詳細情報の項目の図示は省略している。
 この発話時指示方向情報リストを図8の指示方向情報リストと比較すると、位置及びサイズのデータが異なり、隣接する物体までの距離の項目が追加されている点が異なる。
 具体的には、発話時指示方向情報リストにおいては、各物体の位置及びサイズが、発話時指示方向平面縮小画像における位置及びサイズに設定される。
 隣接する物体までの距離には、発話時指示方向平面縮小画像において各物体の上、下、左、右に隣接する物体までの距離が設定される。例えば、ID1の看板131の下には看板134が隣接しているため、ID1の隣接する物体までの距離の”下”の欄のd1_dには、看板131と看板134との間の距離が設定される。また、例えば、ID1の看板131の右には窓132が隣接しているため、ID1の隣接する物体までの距離の”右”の欄のd1_rには、看板131と窓132との間の距離が設定される。
 なお、例えば、物体Aの上又は下に隣接する物体Bまでの距離として、物体Aの中心と物体Bの中心間の上下方向(垂直方向)の距離が設定される。また、例えば、物体Aの左又は右に隣接する物体Cまでの距離として、物体Aの中心と物体Cの中心間の左右方向(水平方向)の距離が算出される。
 この隣接する物体までの距離のデータにより、例えば、ユーザの指をどの方向にどれだけ動かせば、隣接する物体を指すことができるか把握することができる。
 例えば、図13に示されるように、発話時指示方向平面縮小画像151において、看板135の中心である位置P3が指示位置に設定されている場合について説明する。例えば、ユーザの指を上方向に距離d5_uだけ移動させれば、看板135の上に隣接する看板133の垂直方向の略中心を指すことができることが分かる。ユーザの指を下方向に距離d5_dだけ移動させれば、看板135の下に隣接する看板137の垂直方向の略中心を指すことができることが分かる。ユーザの指を左方向に距離d5_lだけ移動させれば、看板135の左に隣接する看板134の水平方向の略中心を指すことができることが分かる。ユーザの指を右方向に距離d5_rだけ移動させれば、看板135の右に隣接する看板136の水平方向の略中心を指すことができることが分かる。
 ステップS162の処理の後、発話時指示方向情報取得処理は終了する。
 一方、ステップS157において、ユーザが指していると認識している対象を検出できなかったと判定された場合、処理はステップS163に進む。
 また、ステップS155において、音声認識に失敗したと判定された場合、処理はステップS163に進む。
 ステップS163において、情報処理システム10は、ユーザが指している対象の確認に失敗したことを通知する。例えば、出力部14は、出力制御部39の制御の下に、ユーザが指している対象の確認に失敗したことを通知する音声を出力する。
 その後、発話時指示方向情報取得処理は終了する。
 図3に戻り、ステップS58において、指示位置補正部32は、ユーザが指している対象を確認できたか否かを判定する。ユーザが指している対象を確認できたと判定された場合、処理はステップS59に進む。
 ステップS59において、情報処理システム10は、音声案内処理を実行する。ここで、図14のフローチャートを参照して、音声案内処理の詳細について説明する。
 ステップS201において、指示位置検出部31は、ユーザの指が動いたか否かを判定する。具体的には、指示位置検出部31は、センサ部22からのセンサ信号に基づいて、ユーザの指の動きを検出する。そして、指示位置検出部31が、ユーザの指が動いたと判定した場合、処理はステップS202に進む。
 ステップS202において、指示位置検出部31は、ユーザが指している対象(指示対象)が変化したか否かを判定する。具体的には、指示位置検出部31は、センサ部22からのセンサ信号に基づいて、基準指位置及び基準指方向を基準とする現在のユーザの指の位置及び向きを検出する。また、指示位置検出部31は、検出した現在のユーザの位置及び向きに基づいて、発話時指示方向平面画像における現在の指示位置の基準指示位置からの移動量及び移動方向を算出する。そして、指示位置検出部31は、算出した指示位置の移動量及び移動方向、並びに、発話時指示方向情報リストに基づいて、現在ユーザが指している対象(指示対象)を検出する。そして、指示位置検出部31は、今回検出した指示対象が前回検出した指示対象と異なる場合、ユーザが指している対象が変化したと判定し、処理はステップS203に進む。
 ステップS203において、出力制御部39は、ユーザが指している対象(指示対象)に関する情報を取得する。例えば、出力制御部39は、発話時指示方向情報リストから現在の指示対象の翻訳情報データを取得する。
 ステップS204において、出力制御部39は、前回の音声案内から所定の時間が経過しているか否かを判定する。前回の音声案内から所定の時間が経過していると判定された場合、処理はステップS205に進む。なお、指差しモード処理が開始されてから初めて音声案内を行う場合も、前回の音声案内から所定の時間が経過していると判定され、処理はステップS205に進む。
 ステップS205において、情報処理システム10は、ユーザが指している対象(指示対象)に関する情報を音声で案内する。
 例えば、まず、出力部14は、出力制御部39の制御の下に、指示対象が変化したことを通知するための音である通知音を出力する。なお、例えば、指示対象が移動した方向(例えば、上、下、左、右)により異なる通知音を出力するようにしてもよい。また、例えば、現在の指示対象が基準指示対象から何個離れた物体であるかにより、異なる通知音を出力するようにしてもよい。例えば、現在の指示対象が、基準指示対象に隣接する物体と基準指示対象から2個離れた物体とで、異なる通知音を出力するようにしてもよい。
 なお、通知音を変化させる方法には、任意の方法を採用することができる。例えば、出力制御部39は、音階、音質、音量等の少なくとも1つを変化させることにより、通知音を変化させる。
 また、例えば、通知音の代わりに、装置の振動等により指示対象が変化したことを通知するようにしてもよい。さらに、例えば、指示対象が移動した方向を、「上」「左」等の具体的な音声により通知するようにしてもよい。
 これにより、ユーザは、基準指示対象を基準にして、現在情報処理システム10が認識している指示対象を正確に認識することができる。従って、ユーザと情報処理システム10との間の指示対象の認識のズレが防止される。
 次に、出力部14は、出力制御部39の制御の下に、例えば、現在の指示対象の翻訳情報データを通知する音声情報を出力する。例えば、現在の指示対象が図7の看板137である場合、看板137の翻訳情報データである”スポーツ用品”の音声が音声情報として出力される。
 これにより、ユーザは、現在の指示対象に理解できない韓国語で情報が表示されていても、その情報を自分が理解できる言語、すなわちユーザ言語で得ることができる。
 また、例えば、遠くにある物体、小さな物体、周囲に物体が密集している中の物体等を、離れた位置から直接触れずに指等により正確に指すことは、ユーザにとって難しい。従って、例えば、図7の例において、ユーザが所望の看板と異なる看板を指差すことにより、異なる看板の音声情報が出力される場合が想定されるが、ユーザが韓国語を知らなければ、そのことに気づくことは難しい。また、例えば、ユーザは、自分が指差している位置に確信が持てない場合、出力される音声情報が、本当に自分が得たい情報であるのかを確信することができない。
 一方、情報処理システム10を用いれば、ユーザと情報処理システム10との間の指示対象の認識のズレが防止されるため、ユーザは確実に自分が得たい対象に関する情報を得ることができる。また、ユーザは、自分が指差している位置に確信が持てるため、出力される音声情報が、自分が得たい対象に関する情報であるという確信を持つことができる。
 なお、指示対象が変化した場合に、通知音を出力した後、すぐに音声情報を出力せずに、指示対象が所定の時間変化しないとき、すなわち、ユーザが指している対象が定まったとき、音声情報を出力するようにしてもよい。これにより、ユーザは、基準対象から2つ以上離れた位置にある物体の音声情報を聞きたい場合に、その間にある物体の音声情報を聞く必要がなくなる。また、音声情報が出力されなくても通知音は出力されるので、ユーザは、自分が指している対象が変わったことを確実に認識することができる。
 また、例えば、指示対象のコンテンツ情報と翻訳情報データを音声情報に含めるようにしてもよい。すなわち、指示対象の原語によるコンテンツ情報とユーザ言語によるコンテンツ情報を音声情報に含めるようにしてもよい。これにより、ユーザは、指示対象のコンテンツ情報の原語による発音等を知ることができる。
 その後、音声案内処理は終了する。
 一方、ステップS204において、前回の音声案内からまだ所定の時間が経過していないと判定された場合、ステップS205の処理はスキップされ、音声案内処理は終了する。
 また、ステップS202において、ユーザが指している対象が変化していないと判定された場合、ステップS203乃至S205の処理はスキップされ、音声案内処理は終了する。
 さらに、ステップS201において、ユーザの指が動いていないと判定された場合、ステップS202乃至S205の処理はスキップされ、音声案内処理は終了する。
 図3に戻り、ステップS60において、ステップS52の処理と同様に、指差しモードの解除が指示されたか否かが判定される。指差しモードの解除が指示されていないと判定された場合、処理はステップS59に戻る。
 その後、ステップS60において、指差しモードの解除が指示されたと判定されるまで、ステップS59及びS60の処理が繰り返し実行される。
 一方、ステップS60において、指差しモードの解除が指示されたと判定された場合、指差しモード処理は終了する。
 また、ステップS56において、所定の時間内に音声入力が開始されなかったと判定された場合、処理はステップS61に進む。
 ステップS61において、音声認識部38は、音声認識を停止する。
 その後、処理はステップS62に進む。
 一方、ステップS58において、ユーザが指している対象を確認できなかったと判定された場合、処理はステップS62に進む。
 ステップS62において、ステップS52の処理と同様に、指差しモードの解除が指示されたか否かが判定される。指差しモードの解除が指示されていないと判定された場合、処理はステップS51に戻る。
 その後、ステップS51以降の処理が実行される。
 一方、ステップS62において、指差しモードの解除が指示されたと判定された場合、指差しモード処理は終了する。
 図2に戻り、ステップS2の処理の後、処理はステップS1に戻り、ステップS1以降の処理が実行される。
 以上のようにして、ユーザ音声に基づいてシステム認識指示対象を補正することにより、ユーザ認識指示対象とシステム認識指示対象とをユーザに指し直しさせることなく簡単かつ迅速に一致させることができる。すなわち、ユーザと情報処理システム10との間でユーザが指している位置の認識を簡単かつ迅速に合わせることができる。
 また、ユーザは、基準指示対象を基準にして情報処理システム10が認識している指示対象を正確に把握することができ、ユーザと情報処理システム10との間の指示対象の認識のズレを防止することができる。
 さらに、指示対象のコンテンツ情報がユーザの理解できる言語による音声で出力されるので、例えば、視覚コンテンツがユーザの理解できない言語で表示されていても、ユーザはその内容を容易に知ることができる。
<2.変形例>
 以下、上述した本技術の実施の形態の変形例について説明する。
{本技術の適用範囲に関する変形例}
 本技術の適用範囲は、上述した例に限定されるものではない。
 例えば、本技術において、指示対象となる物体は、必ずしも1つの物体全体である必要はなく、物体の一部であってもよい。例えば、1つの看板に複数の文字列や画像が表示されている場合、そのうちの一部を指示対象に指定できるようにしてもよい。また、例えば、ビル等の大きな対象の一部を指示対象に指定できるようにしてもよい。
 また、例えば、本技術は、指示オブジェクトによる指示位置のキャリブレーションにも適用することが可能である。
 例えば、ユーザのジェスチャにより画像内において操作用オブジェクト(例えば、ポインタ等)を動かす場合の操作用オブジェクトの位置のキャリブレーションに本技術を適用することができる。例えば、HMD(Head Mount Display)等においてVR(Virtual Reality)によりユーザにより視認されている画像(以下、VR画像と称する)内の操作用オブジェクト、スマートテレビの画面内の操作用オブジェクトの位置のキャリブレーションに本技術を適用することができる。
 例えば、操作用オブジェクトがユーザの人差し指の指先の動きに合わせてVR画像内を動く場合について説明する。この場合、指示オブジェクトは人差し指となり、三次元空間における指示位置(空間指示位置)は人差し指の指先となる。
 例えば、ユーザは、人差し指を三次元空間内の所望の位置に静止した状態で、その状態における空間指示位置に対応付けたい操作用オブジェクトのVR画像内の指示位置(画像指示位置)を音声で入力することにより、操作用オブジェクトの位置のキャリブレーションを行う。例えば、ユーザが「センター」という音声を入力することにより、発話時の空間指示位置がVR画像の中央に対応するように操作用オブジェクトの座標系(画像指示位置の座標系)が補正される。また、操作用オブジェクトの指示位置(画像指示位置)がVR画像の中央になるように操作用オブジェクトの位置が補正される。
 なお、例えば、VR画像内の具体的な座標を音声により入力して、操作用オブジェクトの位置のキャリブレーションを行うようにしてもよい。
 また、例えば、操作用オブジェクトの位置を固定したまま、VR画像の範囲を動かすことにより、VR画像に対する操作用オブジェクトの指示位置を補正することも可能である。例えば、ユーザがVR画像内の具体的な位置を音声で入力することにより、操作用オブジェクトの位置を固定したまま、ユーザにより指示されたVR画像内の位置が操作用オブジェクトの指示位置と一致するようにVR画像の範囲を動かすようにしてもよい。
 これにより、空間指示位置に対応する画像指示位置をユーザの所望の位置に簡単に補正することができる。
 さらに、このキャリブレーションの技術は、例えば、AR(Augmented Reality)の操作用オブジェクトの位置のキャリブレーションにも適用することができる。
 また、以上の説明では、本技術を適用する状況として、遠方の看板等を指す場合を例に挙げたが、本技術は、指示オブジェクトを用いて非接触で所望の位置を指す様々な状況において適用することが可能である。例えば、博物館等のショーケース内の所望の位置を指す場合、立ち入り規制により近づけない場所内の所望の位置を指す場合、展望台から見える風景の所望の位置を指す場合、汚染等により直接触れることができない物体の所望の位置を指す場合、接触が禁止されている物体の所望の位置を指す場合、講演会等で離れた位置から所望の位置を指す場合等が挙げられる。
 さらに、本技術は、例えば、直接対象に触れて所望の位置を指す場合にも適用することができる。例えば、ディスプレイ等の表示装置の画面に直接指等を接触して、画面に表示されている画像内の所望の位置を指す場合にも、本技術を適用することができる。特に、画像が小さいため個々の対象を正確に指すことが困難な場合に、本技術を適用する効果は大きくなる。なお、この場合、空間指示位置と画像指示位置とは、ほぼ一致する。
 また、本技術は、三次元空間において指示オブジェクトにより指されている位置(空間指示位置)を検出し、空間指示位置に対応する画像内の位置(画像指示位置)を設定する各種の機器に適用することができる。そのような機器として、例えば、ウエアラブルデバイス、VRデバイス、ARデバイス、スマートテレビ、デジタルサイネージ、プロジェクタ、スマートフォン、タブレット等が挙げられる。
 さらに、本技術において用いられる画像の種類は、特に限定されるものではない。例えば、動画、静止画、2次元画像、3次元画像、全方位画像等の任意の種類の画像において画像指示位置を設定する場合に、本技術を適用することができる。
{システムの構成例に関する変形例}
 図1の情報処理システム10の構成例は、その一例であり、必要に応じて変更することが可能である。
 例えば、情報処理部13の一部の機能を、音声入力部11、情報取得部12、又は、出力部14に設けるようにしてもよい。また、例えば、音声入力部11、情報取得部12、情報処理部13、及び、出力部14のうち2つ以上を一体化するようにしてもよい。さらに、例えば、情報処理システム10の構成要素を、音声入力部11、情報取得部12、情報処理部13、及び、出力部14と異なる組み合わせにより構成するようにしてもよい。
 また、例えば、情報処理システム10の一部の機能を外部に設けるようにしてもよい。
{指示対象の検出方法に関する変形例}
 以上の説明では、ユーザの指に装着した情報取得部12の撮影部21により撮影された指示方向画像に基づいて、ユーザの指により指されている指示対象を検出する例を示したが、他の方法により指示対象を検出するようにしてもよい。
 例えば、ユーザが指している方向を示す指示方向画像を撮影する撮影部をユーザの指以外の部位(例えば、頭部等)に装着するとともに、ユーザを撮影する撮影部を別に設けるようにしてもよい。この場合、例えば、指示位置検出部31は、ユーザを撮影した画像に基づいて、ユーザの指の位置や向き等を検出することにより、三次元空間においてユーザが指している方向(以下、空間指示方向と称する)を検出する。また、指示位置検出部31は、空間指示方向に基づいて、指示方向画像内においてユーザが指している指示対象を検出する。
 なお、指示方向画像を撮影する撮影部をユーザの指以外の部位に装着した場合、撮影方向とユーザが指している方向が一致しない場合が生じる。これに対して、例えば、指示位置検出部31は、SLAM(Simultaneous Localization and Mapping)を用いて、指示方向画像に基づいてユーザの周辺の空間マップを作成し、空間マップ及び空間指示方向に基づいて、指示対象を検出することが可能である。
 また、例えば、指示方向画像を撮影する撮影部を、ユーザに装着せずに、ユーザとは別に設けるようにしてもよい。
{指示オブジェクトに関する変形例}
 本技術に適用可能な指示オブジェクトには、所望の位置を指すことができるものであれば任意のものを採用することができる。例えば、ユーザの指以外の体の一部、例えば、目(視線)、頭部、顔、顔の一部、腕、腕の一部等を指示オブジェクトに用い、それらの部位を用いたジェスチャ等により、所望の位置を指すようにしてもよい。また、例えば、レーザポインタ等のポインティングデバイスやVR(Virtual Reality)デバイス等のデバイスを指示オブジェクトに用いるようにしてもよい。なお、VRデバイスを指示オブジェクトに用いる場合、例えば、VRデバイスの向きにより所望の位置を指すことができる。
{指示方向情報リスト及び発話時指示方向情報リストに関する変形例}
 指示方向情報リスト及び発話時指示方向情報リストの項目は、上述した例に限定されるものではなく、必要に応じて変更することが可能である。例えば、詳細情報に、各物体の色以外の視覚的な特徴(例えば、形状等)を含めるようにしてもよい。
 また、以上の説明では、指示方向情報リストの翻訳情報のデータを用いて、ユーザ認識指示対象を検索する例を示したが、他のデータを用いるようにしてもよい。例えば、「指している物体は何色ですか?」、「指している物体の形を教えてください」等の物体の視覚的な特徴を尋ねる確認音声を出力し、物体の視覚的な特徴に基づいて、指示方向情報リストからユーザ認識指示対象を検索するようにしてもよい。また、例えば、指示方向情報リストの2種類以上のデータを組み合わせて、ユーザ認識指示対象を検索するようにしてもよい。
 さらに、物体の種類やコンテンツの種類の分類方法は、上述した例に限定されるものではなく、必要に応じて変更することが可能である。
 また、例えば、指示方向情報リスト及び発話時指示方向情報リストに斜め方向に隣接する物体に関する情報を追加して、指示対象の斜め方向の移動を検出できるようにしてもよい。
{その他の変形例}
 以上の説明では、指示対象のコンテンツ情報を韓国語からユーザ言語に翻訳する例を示したが、翻訳する言語の組み合わせは、この例に限定されるものではない。また、例えば、翻訳先の言語(ユーザに通知する言語)をユーザが設定できるようにしてもよい。
 また、例えば、コンテンツ情報を音声ではなく、例えば、コンテンツ情報のテキストデータをディスプレイ等に表示するようにしてもよい。
 さらに、例えば、指示対象のコンテンツ情報を見やすくするために、指示対象及びその周辺を拡大表示するようにしてもよい。これにより、例えば、指示対象が看板である場合、看板が遠くにある、看板の文字が小さい、看板の照り返しが強い、周囲が暗い等により看板の視認性が悪い場合に、視認性を高めることができる。
 さらに、以上の説明では、指示オブジェクトを用いて所望の対象を指すユーザと、情報処理システム10にユーザ音声を入力するユーザが同一である例を示したが、必ずしも同一である必要はない。例えば、情報処理システム10を装着しているユーザAと異なるユーザBが、ユーザ音声を入力するようにしてもよい。この場合、例えば、ユーザAが、ユーザBによる音声入力を許可する指令を情報処理システム10に与えるようにしてもよい。この指令は、例えば、ユーザAが音声コマンドにより入力するようにしてもよい。
 また、例えば、ユーザBが別のシステムを装着し、ユーザAとユーザBのシステム間で連携して、所望の対象を指示するジェスチャとユーザ音声の組み合わせを取得するようにしてもよい。
{コンピュータの構成例}
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
 バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、及びドライブ310が接続されている。
 入力部306は、キーボード、マウス、マイクロフォンなどよりなる。出力部307は、ディスプレイ、スピーカなどよりなる。記憶部308は、ハードディスクや不揮発性のメモリなどよりなる。通信部309は、ネットワークインタフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア311を駆動する。
 以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを、入出力インタフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア311に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インタフェース305を介して、記憶部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記憶部308にインストールすることができる。その他、プログラムは、ROM302や記憶部308に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 また、例えば、本技術は以下のような構成も取ることができる。
(1)
 三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出部と、
 ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正部と
 を備える情報処理装置。
(2)
 前記指示位置補正部は、前記ユーザ音声に基づく前記画像内の位置に前記画像指示位置を補正する
 前記(1)に記載の情報処理装置。
(3)
 前記指示位置補正部は、バーチャルリアリティにより前記ユーザが視認する前記画像内の前記画像指示位置を補正する
 前記(2)に記載の情報処理装置。
(4)
 前記指示位置補正部は、前記ユーザが前記ユーザ音声を発しているときの前記空間指示位置に対応する前記画像指示位置を補正する
 前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
 前記指示位置検出部は、三次元空間において前記指示オブジェクトにより指されている第1の対象に対応する前記画像内の対象である指示対象を検出し、
 前記指示位置補正部は、前記指示対象が前記ユーザ音声に基づく第2の対象と一致する場合、前記指示対象を補正せず、前記指示対象が前記第2の対象と一致しない場合、前記第2の対象に対応する前記画像内の対象を前記指示対象に補正する補正処理を行う
 前記(1)に記載の情報処理装置。
(6)
 前記指示対象を確認するための音声である確認音声の出力を制御する出力制御部を
 さらに備え、
 前記指示位置補正部は、前記確認音声に対する前記ユーザ音声に基づいて、前記補正処理を行う
 前記(5)に記載の情報処理装置。
(7)
 前記確認音声は、前記指示対象を識別するための情報の入力を促す音声である
 前記(6)に記載の情報処理装置。
(8)
 前記出力制御部は、前記補正処理後に前記指示対象が変化した場合、前記指示対象に関する情報を所定の言語で通知する音声情報の出力を制御する
 前記(5)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記音声情報は、前記指示対象の視認可能なコンテンツを示すコンテンツ情報を含む
 前記(8)に記載の情報処理装置。
(10)
 前記コンテンツ情報は、前記指示対象の名称、前記指示対象の種類、及び、前記指示対象が視覚的に表しているもののうち少なくとも1つを示す
 前記(9)に記載の情報処理装置。
(11)
 前記出力制御部は、前記補正処理後に前記指示対象が変化した場合、前記指示対象の変化を通知する通知音を出力するように制御する
 前記(8)乃至(10)のいずれかに記載の情報処理装置。
(12)
 前記出力制御部は、前記指示対象が移動した方向により異なる前記通知音を出力するように制御する
 前記(11)に記載の情報処理装置。
(13)
 前記指示対象に関する情報を前記所定の言語に翻訳する翻訳部を
 さらに備える前記(8)乃至(12)のいずれかに記載の情報処理装置。
(14)
 前記画像内の物体の検出を行う物体検出部を
 さらに備える前記(5)乃至(13)のいずれかに記載の情報処理装置。
(15)
 前記指示オブジェクトは、ユーザの体の一部である
 前記(1)乃至(14)のいずれかに記載の情報処理装置。
(16)
 前記ユーザ音声を認識する音声認識部を
 さらに備える前記(1)乃至(15)のいずれかに記載の情報処理装置。
(17)
 三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、
 ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップと
 を含む情報処理方法。
(18)
 三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、
 ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップと
 を含む処理をコンピュータに実行させるためのプログラム。
 10 情報処理システム, 11 音声入力部, 12 情報取得部, 13 情報処理部, 14 出力部, 21 撮影部, 22 センサ部, 31 指示位置検出部, 32 指示位置補正部, 33 物体検出部, 34 距離算出部, 35 画像処理部, 36 翻訳部, 37 情報生成部, 38 音声認識部, 39 出力制御部

Claims (18)

  1.  三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出部と、
     ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正部と
     を備える情報処理装置。
  2.  前記指示位置補正部は、前記ユーザ音声に基づく前記画像内の位置に前記画像指示位置を補正する
     請求項1に記載の情報処理装置。
  3.  前記指示位置補正部は、バーチャルリアリティにより前記ユーザが視認する前記画像内の前記画像指示位置を補正する
     請求項2に記載の情報処理装置。
  4.  前記指示位置補正部は、前記ユーザが前記ユーザ音声を発しているときの前記空間指示位置に対応する前記画像指示位置を補正する
     請求項1に記載の情報処理装置。
  5.  前記指示位置検出部は、三次元空間において前記指示オブジェクトにより指されている第1の対象に対応する前記画像内の対象である指示対象を検出し、
     前記指示位置補正部は、前記指示対象が前記ユーザ音声に基づく第2の対象と一致する場合、前記指示対象を補正せず、前記指示対象が前記第2の対象と一致しない場合、前記第2の対象に対応する前記画像内の対象を前記指示対象に補正する補正処理を行う
     請求項1に記載の情報処理装置。
  6.  前記指示対象を確認するための音声である確認音声の出力を制御する出力制御部を
     さらに備え、
     前記指示位置補正部は、前記確認音声に対する前記ユーザ音声に基づいて、前記補正処理を行う
     請求項5に記載の情報処理装置。
  7.  前記確認音声は、前記指示対象を識別するための情報の入力を促す音声である
     請求項6に記載の情報処理装置。
  8.  前記出力制御部は、前記補正処理後に前記指示対象が変化した場合、前記指示対象に関する情報を所定の言語で通知する音声情報の出力を制御する
     請求項5に記載の情報処理装置。
  9.  前記音声情報は、前記指示対象の視認可能なコンテンツを示すコンテンツ情報を含む
     請求項8に記載の情報処理装置。
  10.  前記コンテンツ情報は、前記指示対象の名称、前記指示対象の種類、及び、前記指示対象が視覚的に表しているもののうち少なくとも1つを示す
     請求項9に記載の情報処理装置。
  11.  前記出力制御部は、前記補正処理後に前記指示対象が変化した場合、前記指示対象の変化を通知する通知音を出力するように制御する
     請求項8に記載の情報処理装置。
  12.  前記出力制御部は、前記指示対象が移動した方向により異なる前記通知音を出力するように制御する
     請求項11に記載の情報処理装置。
  13.  前記指示対象に関する情報を前記所定の言語に翻訳する翻訳部を
     さらに備える請求項8に記載の情報処理装置。
  14.  前記画像内の物体の検出を行う物体検出部を
     さらに備える請求項5に記載の情報処理装置。
  15.  前記指示オブジェクトは、ユーザの体の一部である
     請求項1に記載の情報処理装置。
  16.  前記ユーザ音声を認識する音声認識部を
     さらに備える請求項1に記載の情報処理装置。
  17.  三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、
     ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップと
     を含む情報処理方法。
  18.  三次元空間において指示オブジェクトにより指されている位置である空間指示位置を検出する指示位置検出ステップと、
     ユーザが発する音声であるユーザ音声に基づいて、前記空間指示位置に対応する画像内の指示位置である画像指示位置を補正する指示位置補正ステップと
     を含む処理をコンピュータに実行させるためのプログラム。
PCT/JP2017/021271 2016-06-22 2017-06-08 情報処理装置、情報処理方法、及び、プログラム WO2017221720A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201780036694.6A CN109313532B (zh) 2016-06-22 2017-06-08 信息处理设备、信息处理方法和程序
US16/307,320 US10788902B2 (en) 2016-06-22 2017-06-08 Information processing device and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016123593A JP2017228080A (ja) 2016-06-22 2016-06-22 情報処理装置、情報処理方法、及び、プログラム
JP2016-123593 2016-06-22

Publications (1)

Publication Number Publication Date
WO2017221720A1 true WO2017221720A1 (ja) 2017-12-28

Family

ID=60783299

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/021271 WO2017221720A1 (ja) 2016-06-22 2017-06-08 情報処理装置、情報処理方法、及び、プログラム

Country Status (4)

Country Link
US (1) US10788902B2 (ja)
JP (1) JP2017228080A (ja)
CN (1) CN109313532B (ja)
WO (1) WO2017221720A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020075358A1 (ja) 2018-10-09 2020-04-16 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017221721A1 (ja) * 2016-06-22 2017-12-28 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
CN108771864B (zh) * 2018-05-17 2021-08-10 北京热带雨林互动娱乐有限公司 一种双vr设备参与虚拟游戏pk前的虚拟场景配置方法
JP2020194517A (ja) * 2019-05-21 2020-12-03 雄史 高田 翻訳システムおよび翻訳システムセット
WO2024071006A1 (ja) * 2022-09-27 2024-04-04 本田技研工業株式会社 情報処理装置、情報処理方法、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140164928A1 (en) * 2012-12-06 2014-06-12 Lg Electronics Inc. Mobile terminal and controlling method thereof
US20150269420A1 (en) * 2014-03-19 2015-09-24 Qualcomm Incorporated Method and Apparatus for Establishing Connection Between Electronic Devices
US20160147882A1 (en) * 2014-05-15 2016-05-26 Huawei Technologies Co., Ltd. Object Search Method and Apparatus

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131437A (ja) * 1992-10-20 1994-05-13 Hitachi Ltd 複合形態による操作指示方法
JP4708913B2 (ja) 2005-08-12 2011-06-22 キヤノン株式会社 情報処理方法及び情報処理装置
EP3527121B1 (en) * 2011-02-09 2023-08-23 Apple Inc. Gesture detection in a 3d mapping environment
WO2013018099A2 (en) * 2011-08-04 2013-02-07 Eyesight Mobile Technologies Ltd. System and method for interfacing with a device via a 3d display
US20130144583A1 (en) * 2011-09-02 2013-06-06 Saudi Arabia Oil Company Hyper-dimensional simulation for reservoir engineering and geosciences
CN103035222A (zh) * 2011-10-10 2013-04-10 台达电子工业股份有限公司 用以调整电视墙的声控系统
JP5866728B2 (ja) 2011-10-14 2016-02-17 サイバーアイ・エンタテインメント株式会社 画像認識システムを備えた知識情報処理サーバシステム
US20140258942A1 (en) * 2013-03-05 2014-09-11 Intel Corporation Interaction of multiple perceptual sensing inputs
CN104065798B (zh) * 2013-03-21 2016-08-03 华为技术有限公司 声音信号处理方法及设备
KR20150066883A (ko) * 2013-12-09 2015-06-17 삼성전자주식회사 이미지 처리 방법 및 장치
US9824499B2 (en) * 2015-06-23 2017-11-21 Microsoft Technology Licensing, Llc Mixed-reality image capture

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140164928A1 (en) * 2012-12-06 2014-06-12 Lg Electronics Inc. Mobile terminal and controlling method thereof
US20150269420A1 (en) * 2014-03-19 2015-09-24 Qualcomm Incorporated Method and Apparatus for Establishing Connection Between Electronic Devices
US20160147882A1 (en) * 2014-05-15 2016-05-26 Huawei Technologies Co., Ltd. Object Search Method and Apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MITSUHIKO OKI: "Dosa to hatsuwa no hikikomi o riyo shita buttai ninshiki seido no kojo, Dai 33 Kai", ANNUAL CONFERENCE OF THE ROBOTICS SOCIETY OF JAPAN YOKOSHU DVD ROM, 2015 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020075358A1 (ja) 2018-10-09 2020-04-16 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP2017228080A (ja) 2017-12-28
CN109313532A (zh) 2019-02-05
US20190138117A1 (en) 2019-05-09
US10788902B2 (en) 2020-09-29
CN109313532B (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
WO2017221720A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
CN105324811B (zh) 语音到文本转换
US20170277257A1 (en) Gaze-based sound selection
US10887719B2 (en) Apparatus and associated methods for presentation of spatial audio
US11373650B2 (en) Information processing device and information processing method
CN103105926A (zh) 多传感器姿势识别
CN103765879A (zh) 扩展激光深度图范围的方法
KR20140125183A (ko) 프로젝터 장착 안경 및 그 제어 방법
US11397320B2 (en) Information processing apparatus, information processing system, and non-transitory computer readable medium
US10970932B2 (en) Provision of virtual reality content
JP2020520576A5 (ja)
CN112634459A (zh) 解析关于模拟现实布景的自然语言歧义
CN109784128A (zh) 具有文本及语音处理功能的混合现实智能眼镜
EP3141991A1 (en) Information processing device, information processing method, and program
KR102330218B1 (ko) 발달장애인의 언어 훈련을 위한 가상현실 교육 시스템 및 방법
KR20200079748A (ko) 발달장애인의 언어 훈련을 위한 가상현실 교육 시스템 및 방법
JP6885402B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP6374203B2 (ja) 表示システム及びプログラム
CN110599822A (zh) 语音板书显示方法、系统及存储介质
US10545716B2 (en) Information processing device, information processing method, and program
US20220269889A1 (en) Visual tag classification for augmented reality display
US20240160402A1 (en) Device and method for transmitting voice data of user in virtual space
US20210217412A1 (en) Information processing apparatus, information processing system, information processing method, and program
JP2019168894A (ja) 情報処理システムおよびプログラム
JP2019203922A (ja) 音声処理装置及び音声処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17815189

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17815189

Country of ref document: EP

Kind code of ref document: A1