WO2020184317A1 - 情報処理装置、情報処理方法、及び記録媒体 - Google Patents

情報処理装置、情報処理方法、及び記録媒体 Download PDF

Info

Publication number
WO2020184317A1
WO2020184317A1 PCT/JP2020/009041 JP2020009041W WO2020184317A1 WO 2020184317 A1 WO2020184317 A1 WO 2020184317A1 JP 2020009041 W JP2020009041 W JP 2020009041W WO 2020184317 A1 WO2020184317 A1 WO 2020184317A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
avatar
information
area
unit
Prior art date
Application number
PCT/JP2020/009041
Other languages
English (en)
French (fr)
Inventor
真里 斎藤
賢次 杉原
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2021504963A priority Critical patent/JP7468506B2/ja
Priority to US17/434,970 priority patent/US11908055B2/en
Publication of WO2020184317A1 publication Critical patent/WO2020184317A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/024Multi-user, collaborative environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • This disclosure relates to an information processing device, an information processing method, and a recording medium.
  • AR Augmented Reality
  • virtual content in various forms such as text, icons, or animation (hereinafter, “virtual") is used for objects in real space (hereinafter, also referred to as “real objects”). It is possible to superimpose (also called an object) and present it to the user.
  • agent technology for supporting user behavior is also developing rapidly.
  • the agent is software having a function of recognizing an instruction from a user and causing an application, a terminal device on which the agent is mounted, a server on the cloud, or the like to execute a process according to the instruction from the user.
  • the agent typically has a voice recognition function. Therefore, the user can receive the desired output, for example, by speaking an instruction to the agent.
  • a virtual object hereinafter, also referred to as an avatar
  • a robot correctly interprets a user's command by analyzing the collected user's voice based on context information and correctly interpreting the meaning of the user's voice.
  • the technology to be implemented is disclosed.
  • Cited Document 1 it is not considered to determine whether or not the user's command included in the collected user's voice is a command to the robot. Therefore, the robot can erroneously recognize a command from a voice other than the command to the robot, for example, the content of conversation between users, and perform an erroneous operation. Such malfunctions may occur in avatars as well.
  • this disclosure proposes a new and improved information processing device, an information processing method, and a recording medium capable of suppressing the malfunction of the avatar.
  • an acquisition unit that acquires the position information, the line-of-sight detection information, and the voice information of the first user, and the position information of the second user, the position information of the first user, and the second.
  • a determination unit that determines the positional relationship between the first user and the second user based on the position information of the user, and the first user and the second user based on the determined positional relationship.
  • the first user includes a specific unit that specifies a voice dialogue area in which a voice dialogue can be performed with the voice dialogue area, and an avatar control unit that sets the position of the avatar outside the specified voice dialogue area.
  • the avatar control unit When the voice information of the first user is acquired while looking out of the voice dialogue area, the avatar control unit causes the avatar to perform a predetermined action, and the first user performs the voice.
  • the avatar control unit is provided by an information processing device that suppresses the avatar from executing the predetermined action. Will be done.
  • the position information of the first user, the line-of-sight detection information, the voice information, and the position information of the second user can be acquired, and the position information of the first user and the first user can be obtained.
  • the positional relationship between the first user and the second user is determined based on the positional information of the second user, and the first user and the second user are determined based on the determined positional relationship.
  • the first user is involved in the voice dialogue, including identifying a voice dialogue area in which a voice dialogue with and can be performed, and setting the position of the avatar outside the identified voice dialogue area.
  • the setting causes the avatar to perform a predetermined action, and the first user is in the voice dialogue area.
  • the setting is an information processing method executed by a processor that suppresses the avatar from executing the predetermined action. Is provided.
  • the computer is equipped with an acquisition unit for acquiring the position information, the line-of-sight detection information, the voice information of the first user, and the position information of the second user, and the position of the first user.
  • a determination unit that determines the positional relationship between the first user and the second user based on the information and the position information of the second user, and the first user based on the determined positional relationship. It functions as a specific unit that specifies a voice dialogue area in which a voice dialogue with the second user can be performed, and an avatar control unit that sets the position of the avatar outside the specified voice dialogue area.
  • the avatar control unit When the voice information of the first user is acquired while the first user is looking out of the voice dialogue area, the avatar control unit causes the avatar to execute a predetermined action, and the first user performs the predetermined action.
  • the avatar control unit suppresses the avatar from executing the predetermined action.
  • a recording medium on which the program for recording is recorded is provided.
  • FIG. 1st Embodiment of this disclosure It is a figure which shows the outline of the information processing system which concerns on 1st Embodiment of this disclosure. It is a block diagram which shows the structural example of the information processing terminal which concerns on this embodiment. It is a figure which shows the detection example of the gaze area which concerns on the same embodiment. It is a figure which shows the voice dialogue area and the avatar display area based on the line of sight which concerns on this embodiment. It is a figure which shows the example of the display position of the avatar which concerns on the same embodiment. It is a figure which shows the voice dialogue area and the avatar display area based on the direction of the face which concerns on the same embodiment. It is a figure which shows the voice dialogue area and the avatar display area when the dialogue partner which concerns on this embodiment is not seen.
  • a plurality of components having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numerals.
  • a plurality of components having substantially the same functional configuration are distinguished as necessary, such as the information processing terminal 10a and the information processing terminal 10b.
  • only the same reference numerals are given.
  • the information processing terminal 10a and the information processing terminal 10b it is simply referred to as the information processing terminal 10.
  • FIG. 1 is a diagram showing an outline of an information processing system according to the first embodiment of the present disclosure.
  • the information processing system according to the first embodiment is a virtual object 30 (hereinafter, also referred to as an avatar 30) by an information processing terminal 10 having a display unit that is held in front of the user 20 by being worn on the head of the user 20. Is referred to) to the user 20.
  • the description will be given based on the line of sight of the user 20a who wears the information processing terminal 10a on the head.
  • the contents described below can be described based on the line of sight of the user 20b who wears the information processing terminal 10b on the head by replacing the alphabet of the code with a to b.
  • the user 20a wears the information processing terminal 10a on his head.
  • the avatar 30a shown in FIG. 1 is displayed as a virtual object on the display unit of the information processing terminal 10a.
  • the fact that the user 20a has the avatar 30a means that the presentation target of the avatar 30a is the user 20a.
  • the user 20b (second user) is a dialogue partner of the user 20a, and like the user 20a, the information processing terminal 10b is worn on the head.
  • the information processing terminal 10a and the information processing terminal 10b are configured to be able to send and receive information to and from each other.
  • the information processing terminal 10 is an information processing device realized by, for example, a head-mounted display device (HMD: Head Mounted Display) or the like.
  • HMD Head Mounted Display
  • Examples of the HMD applicable to the information processing terminal 10 include a see-through type HMD, a video see-through type HMD, and a retinal projection type HMD.
  • the see-through type HMD uses, for example, a half mirror or a transparent light guide plate to hold a virtual image optical system composed of a transparent light guide portion or the like in front of the user 20 and display an image inside the virtual image optical system. Therefore, the user 20 wearing the see-through type HMD can see the outside scenery in the field of view while viewing the image displayed inside the virtual image optical system.
  • the see-through type HMD is, for example, based on AR technology, with respect to an optical image of a real object located in the real space according to the recognition result of at least one of the position and orientation of the see-through type HMD. It is also possible to superimpose the image of the virtual object.
  • the see-through type HMD there is a so-called glasses-type wearable device in which a portion corresponding to a lens of glasses is configured as a virtual image optical system.
  • the video see-through type HMD When the video see-through type HMD is attached to the head or face of the user 20, it is attached so as to cover the eyes of the user 20, and a display unit such as a display is held in front of the eyes of the user 20. Further, the video see-through type HMD has an imaging unit for imaging the surrounding landscape, and displays an image of the landscape in front of the user 20 captured by the imaging unit on the display unit. With such a configuration, it is difficult for the user 20 wearing the video see-through type HMD to directly see the external scenery, but the external scenery can be confirmed by the image displayed on the display unit. It becomes.
  • the video see-through type HMD superimposes a virtual object on the image of the external landscape according to the recognition result of at least one of the position and the posture of the video see-through type HMD based on, for example, AR technology. You may let me.
  • a projection unit is held in front of the eyes of the user 20, and the image is projected from the projection unit toward the eyes of the user 20 so that the image is superimposed on the external landscape. More specifically, in the retinal projection type HMD, an image is directly projected from the projection unit onto the retina of the user 20's eye, and the image is imaged on the retina. With such a configuration, even in the case of the user 20 with myopia or hyperopia, a clearer image can be viewed. In addition, the user 20 wearing the retinal projection type HMD can see the outside scenery in the field of view while viewing the image projected from the projection unit.
  • the retinal projection type HMD is, for example, based on AR technology, an optical image of a real object located in the real space according to the recognition result of at least one of the position and orientation of the retinal projection type HMD. It is also possible to superimpose the image of the virtual object on the image.
  • an HMD called an immersive HMD can be mentioned.
  • the immersive HMD is worn so as to cover the eyes of the user 20, and a display unit such as a display is held in front of the eyes of the user 20. Therefore, it is difficult for the user 20 wearing the immersive HMD to directly see the external scenery (that is, the scenery in the real world), and only the image displayed on the display unit comes into view.
  • the immersive HMD can give an immersive feeling to the user 20 who is viewing the image. Therefore, the immersive HMD can be applied, for example, when presenting information mainly based on VR (Virtual Reality) technology.
  • VR Virtual Reality
  • the avatar 30b may take an inappropriate action based on the voice recognition result for the utterance. ..
  • the information processing terminal 10a specifies an area where a voice dialogue between the user 20a and the user 20b can be performed, sets the position of the avatar 30a outside the specified area, and sets the position of the avatar 30a at the set position.
  • the area where the voice dialogue between the user 20a and the user 20b can be performed is the region where the line of sight or the face of the user 20a faces when the user 20a and the user 20b are performing the voice dialogue (in other words, the direction). Is.
  • the utterance when the user 20a is looking inside the specified area is the utterance to the user 20b, and the utterance when the user 20a is looking outside the specified area is the avatar 30a. It can be determined that the utterance is for. Then, since the information processing terminal 10a can control the action to be executed by the avatar 30a according to the result of determining the utterance target of the user 20a, it is possible to cause the avatar 30a to execute an appropriate action. It will be possible.
  • the area where the above-mentioned voice dialogue between the user 20a and the user 20b can be performed is hereinafter referred to as a "voice dialogue area”. Further, the area that can be set as the position where the information processing terminal 10 displays the avatar 30a is hereinafter referred to as an "avatar display area”.
  • FIG. 2 is a block diagram showing a configuration example of an information processing terminal according to the first embodiment of the present disclosure.
  • the information processing terminal 10 includes a communication unit 100, an acquisition unit 110, a control unit 120, a storage unit 130, a display unit 140, and a voice output unit 150.
  • the configuration of the information processing terminal 10a will be described as an example.
  • the configuration of the information processing terminal 10b is the same as the configuration of the information processing terminal 10a. That is, regarding the configuration of the information processing terminal 10b, in the following description, the information processing terminal 10a may be read as the information processing terminal 10b, and the user 20a may be read as the user 20b.
  • the communication unit 100 has a function of communicating with an external device. For example, the communication unit 100 outputs information received from the external device to the control unit 120 in communication with the external device. Specifically, the communication unit 100 receives the position information of the user 20b from the information processing terminal 10b and outputs it to the control unit 120. Further, the communication unit 100 may receive information indicating the avatar display area of the user 20b from the information processing terminal 10b and output the information to the control unit 120.
  • the communication unit 100 transmits the information input from the control unit 120 to the external device in the communication with the external device.
  • the communication unit 100 transmits the position information of the user 20a input from the acquisition unit 110 to the information processing terminal 10b.
  • the communication unit 100 may transmit the information indicating the avatar display area of the user 20a input from the control unit 120 to the information processing terminal 10b.
  • the acquisition unit 110 has a function of acquiring information used for processing in the control unit 120.
  • the acquisition unit 110 may include various sensor devices.
  • the acquisition unit 110 may include a camera, a depth sensor, a microphone (hereinafter, also referred to as a microphone), an inertial sensor, electrodes, and the like.
  • the acquisition unit 110 may include one or a plurality of the above-mentioned sensor devices in combination, or may include a plurality of devices of the same type.
  • the camera is an imaging device that has a lens system such as an RGB camera, a drive system, and an image sensor, and captures an image (still image or moving image).
  • the acquisition unit 110 can image the periphery of the user 20a and the eyes of the user 20a.
  • the imaging device can image the periphery of the user 20a by providing the imaging device so that the outside of the HMD can be imaged.
  • an imaging device will also be referred to as an outward imaging device below.
  • the imaging device can image the eyes of the user 20a.
  • Such an imaging device will also be referred to as an inward imaging device below.
  • a microphone is a device that collects ambient sound and outputs audio data converted into a digital signal via an amplifier and an ADC (Analog Digital Converter). With the microphone, the acquisition unit 110 can acquire the voice information of the user 20a and the user 20b.
  • the number of microphones is not limited to one, and may be plural, or may form a so-called microphone array.
  • the inertial sensor is a device that detects inertial information such as acceleration and angular velocity. With the inertia sensor, the acquisition unit 110 can acquire the inertia information of the user 20a.
  • the electrode is a device that detects the electrooculogram. The electrooculogram is the potential difference between the positive charge on the cornea and the negative charge on the retina.
  • the electrooculogram can change due to eye movements and blinks. Therefore, the movement of the eye can be detected based on the electrooculogram. Furthermore, based on the detected eye movement, the direction in which the eye has moved can also be detected.
  • the electrode is provided, for example, at a position on the information processing terminal 10a corresponding to a position around the eye of the user 20a to detect the electrooculogram of the user 20a. With the electrode, the acquisition unit 110 can acquire the ocular potential of the user 20a.
  • the number of electrodes is not limited to one, and may be plural.
  • the depth sensor is a device that acquires depth information such as an infrared range finder, an ultrasonic range finder, a LiDAR (Laser Imaging Detection and Ringing), or a stereo camera.
  • the acquisition unit 110 can acquire the position information of the user 20a and the user 20b based on the information acquired by the depth sensor.
  • the acquisition unit 110 includes a position information acquisition unit 111 that acquires information used for processing in the control unit 120, a line-of-sight detection information acquisition unit 112, and a voice information acquisition unit 113 based on the sensing data of the sensor device described above.
  • Position information acquisition unit 111 The position information acquisition unit 111 has a function of acquiring the position information of the user 20.
  • the position information acquisition unit 111 acquires the position information of the user 20b, for example, based on the image recognition result of the image captured by the above-mentioned outward image pickup device. Specifically, the position information acquisition unit 111 combines the position and orientation of the outward image pickup device detected based on the inertial information and the position of the user 20b in the image captured by the outward image pickup device to obtain the user 20b. The position information may be acquired. The position information acquired by such processing is information indicating the direction of the user 20b with respect to the user 20a. The position information acquisition unit 111 may acquire the position information indicating the three-dimensional position of the user 20b by further combining the information indicating the direction of the user 20b with the depth information of the user 20b.
  • the position information acquisition unit 111 may acquire the position information of the user 20b by applying the sound source direction estimation process to the voice information acquired by the microphone described above. Specifically, the position information acquisition unit 111 acquires the position information of the user 20b by combining the position and orientation of the microphone detected based on the inertial information and the direction of the user 20b obtained by the sound source direction estimation process. .. The position information acquired by such processing is information indicating the direction of the user 20b with respect to the user 20a. The position information acquisition unit 111 may acquire the position information indicating the three-dimensional position of the user 20b by further combining the information indicating the direction of the user 20b with the depth information of the user 20b.
  • the position information acquisition unit 111 may further include a GPS (Global Positioning System) sensor or an inertial navigation system (INS: Inertial Navigation System).
  • the position information acquisition unit 111 may acquire the position information of the user 20a based on the information acquired by GPS or INS.
  • the line-of-sight detection information acquisition unit 112 has a function of acquiring line-of-sight detection information, which is information for detecting the line of sight of the user 20a.
  • the line-of-sight detection information is, for example, an image of the eye of the user 20a, inertial information of the user 20a, or an electro-oculography of the user 20a.
  • the line-of-sight detection information acquisition unit 112 acquires an image of the user 20a's eyes as line-of-sight detection information by, for example, imaging the user 20a's eyes with the above-mentioned inward imaging device.
  • the line-of-sight detection information acquisition unit 112 acquires the inertial information of the user 20a as the line-of-sight detection information by the above-mentioned inertial sensor. Further, the line-of-sight detection information acquisition unit 112 acquires the electrooculogram of the user 20a as the line-of-sight detection information by the above-mentioned electrodes. By combining this information with the image captured by the outward image pickup device, the line-of-sight detection information acquisition unit 112 indicates which region of the image captured by the outward image pickup device the line of sight of the user 20a is directed to. It is also possible to acquire the information indicating the above as the line-of-sight detection information.
  • the voice information acquisition unit 113 has a function of acquiring voice information of the user 20a or the user 20b.
  • the voice information acquisition unit 113 acquires the voice information of the user 20a or the user 20b by, for example, the above-mentioned microphone.
  • Control unit 120 has a function of controlling the operation of the entire information processing terminal 10.
  • the control unit 120 includes a determination unit 121, a detection unit 122, a specific unit 123, an avatar control unit 124, and a recognition unit 125.
  • the determination unit 121 has a function of determining the positional relationship between the user 20a and the user 20b. For example, in the determination unit 121, the user 20a and the user 20b interact with each other based on the position information of the user 20a and the position information of the user 20b input from the acquisition unit 110 or from the acquisition unit 110 and the communication unit 100. Determine if there is a positional relationship. Since the determination result is used to specify the voice dialogue area in the specific unit 123, the determination unit 121 outputs the determination result to the specific unit 123.
  • the detection unit 122 has a function of detecting information used for processing in the specific unit 123 based on the input information. For example, the detection unit 122 detects the line-of-sight direction information and the visual field information of the user 20a based on the line-of-sight detection information acquired by the line-of-sight detection information acquisition unit 112.
  • the line-of-sight direction information includes the gazing point of the user 20a or the orientation of the face of the user 20a.
  • the gaze point of the user 20a detected by the detection unit 122 is used by the specific unit 123 to specify the gaze area, which is an area in which the gaze point is distributed.
  • the gaze area specified based on the gaze point is further used in the identification unit 123 to specify the voice dialogue area.
  • the face orientation of the user 20a detected by the detection unit 122 is used by the specific unit 123 to specify the voice dialogue area.
  • the visual field information includes information indicating the central visual field and the peripheral visual field of the user 20a.
  • the human field of view is about 100 degrees to the left and right.
  • the range in which the shape and color of an object can be clearly recognized is also called the central visual field, and is about 20 degrees to the left and right respectively.
  • the range obtained by excluding the range of the central visual field from the human visual field is also referred to as the peripheral visual field. It is difficult for humans to clearly recognize the shape and color of an object in the peripheral visual field.
  • the detection unit 122 detects a range within 20 degrees to the left and right in the line-of-sight direction of the user 20a as a central visual field, and detects a range of more than 20 degrees to the left and right and 100 degrees or less as a peripheral visual field. The same applies to the vertical direction.
  • the detection unit 122 When the detection unit 122 detects the gazing point of the user 20a as the line-of-sight direction information, the detection unit 122 can detect the central visual field and the peripheral visual field of the user 20a based on the position of the gazing point. Therefore, when the gazing point of the user 20a is detected based on the line-of-sight detection information, the detection unit 122 further detects the central visual field and the peripheral visual field based on the gazing point, and identifies the information indicating the detected central visual field and peripheral visual field. Output to 123. Then, the central visual field and the peripheral visual field of the user 20a are used by the specific unit 123 to specify the avatar display area.
  • the detection unit 122 detects the direction of the user 20a's face as the line-of-sight direction information
  • the detection unit 122 estimates the user 20a's peripheral vision from the above-mentioned general human peripheral vision angle based on the face direction. Then, the estimated peripheral visual field is output to the specific unit 123. Then, the peripheral visual field of the user 20a is used by the specific unit 123 to specify the avatar display area.
  • the identification unit 123 has a function of specifying various areas based on the input information.
  • the identification unit 123 specifies the gaze area of the user 20a based on the gaze point of the user 20a input from the detection unit 122. Further, the identification unit 123 specifies the voice dialogue area based on the line-of-sight direction information of the user 20a when the user 20a and the user 20b input from the detection unit 122 are interacting with each other. The identification unit 123 specifies the avatar display area based on the voice dialogue area, the central visual field, and the peripheral visual field of the user 20a input from the detection unit 122. Specifically, the specifying unit 123 specifies the range inside the peripheral visual field of the user 20a as the avatar display area of the user 20a, which is outside the voice dialogue area and the central visual field.
  • the specific unit 123 When the line-of-sight direction information is the direction of the face of the user 20a, the specific unit 123 first obtains the line-of-sight direction information of the user 20a when the user 20a and the user 20b input from the detection unit 122 are interacting with each other. Identify the voice dialogue area. Further, based on the face orientation of the user 20a input from the detection unit 122, the line-of-sight movement area, which is an area where the line-of-sight of the user 20a can move, is specified. Next, the specific unit 123 specifies the avatar display area of the user 20a based on the specified voice dialogue area, the line-of-sight movement area, and the peripheral visual field of the user 20a input from the detection unit 122. Specifically, the identification unit 123 specifies the range inside the peripheral visual field of the user 20a as the avatar display area of the user 20a, which is outside the line-of-sight movement area.
  • the specific unit 123 identifies the voice dialogue area based on the line-of-sight direction information of the user 20a when the user 20a and the user 20b are interacting with each other, so that the user 20a can determine the utterance target by the line of sight of the user 20a. Spaces that are difficult to do are identified.
  • the avatar control unit 124 has a function of controlling the avatar 30.
  • the avatar control unit 124 sets a position for displaying the avatar 30 (hereinafter, also referred to as a position of the avatar 30) based on the avatar display area specified by the specific unit 123.
  • the avatar control unit 124 may set the position of the avatar 30 at any position within the avatar display area.
  • the avatar control unit 124 controls the display of the avatar 30 at the set position of the avatar 30. For example, the avatar control unit 124 causes the avatar 30 to be displayed when the avatar 30 can be displayed at the set position of the avatar 30. Further, when the avatar control unit 124 cannot display the avatar 30 at the set position of the avatar 30, the avatar control unit 124 resets the position of the avatar 30 to display the avatar 30.
  • the avatar control unit 124 sets the position of the avatar 30 at a position in the avatar display area, although it is not a position where the avatar 30 can be displayed.
  • the avatar control unit 124 causes the user 20a to present information indicating the position of the set avatar 30.
  • the avatar control unit 124 causes the set position of the avatar 30 to be presented by displaying an object or outputting a voice.
  • the user 20a can know the position of the avatar 30 by the displayed object or the output voice even if the avatar 30a is not displayed.
  • the avatar control unit 124 controls the execution of a predetermined action by the avatar 30a.
  • the predetermined action is an action determined based on the result of voice recognition by the recognition unit 125. For example, when the voice information of the user 20a is acquired while the user 20a is looking out of the voice dialogue area, the avatar control unit 124 causes the avatar 30a to execute a predetermined action. For example, the avatar control unit 124 causes the avatar 30a to execute an instruction from the user 20a recognized by voice recognition for the voice information of the user 20a. On the other hand, when the voice information of the user 20a is acquired while the user 20a is looking in the voice dialogue area, the avatar control unit 124 suppresses the avatar 30a from executing a predetermined action. Suppression is, for example, prohibiting the avatar 30a from reacting to the utterance of the user 20a.
  • the avatar control unit 124 when the voice information of the user 20a is acquired, the utterance of the user 20a is to the avatar 30a depending on whether or not the user 20a is looking in the voice dialogue area. Whether or not it can be determined.
  • the avatar control unit 124 acquires information regarding a position where the avatar 30b can be displayed to the user 20b from an external device via the communication unit 100.
  • the position where the avatar 30b can be displayed is, for example, the avatar display area of the avatar 30b specified by the specific unit 123 of the information processing terminal 10b.
  • the avatar control unit 124 acquires information indicating the avatar display area of the avatar 30b from the information processing terminal 10b via the communication unit 100. Then, the information indicating the acquired avatar display area of the avatar 30b is output to the specific unit 123.
  • the information indicating the avatar display area of the avatar 30b is used, for example, to specify the avatar display area when the user 20a and the user 20b use a common avatar.
  • the recognition unit 125 has a function of performing voice recognition based on voice information. For example, the recognition unit 125 performs voice recognition on the voice information acquired when the user 20a speaks to the avatar 30a. As a result, the recognition unit 125 can recognize the instruction to the avatar 30a of the user 20a from the voice information. Then, the recognition unit 125 outputs the result of voice recognition to the avatar control unit 124.
  • the storage unit 130 has a function of storing data related to processing in the information processing terminal 10.
  • the storage unit 130 stores the position information, the line-of-sight detection information, and the voice information acquired by the acquisition unit 110.
  • the storage unit 130 may store the information determined by the control unit 120, the detected information, the specified information, the information used for the avatar control, the recognized information, and the like. Further, the storage unit 130 may store the information acquired via the communication unit 100.
  • the data stored in the storage unit 130 is not limited to the above example.
  • the storage unit 130 may store programs such as various applications.
  • Display unit 140 has a function of displaying the avatar 30, and displays the avatar 30 at a position set by the avatar control unit 124. As a result, the display unit 140 can display the avatar 30a at a position where it can be determined whether the utterance by the user 20a is for the avatar 30a or the user 20b.
  • the display unit 140 can be realized by a screen capable of displaying the avatar 30.
  • the display unit 140 includes left and right screens fixed to the left and right eyes of the user 20a, and displays an image for the left eye and an image for the right eye.
  • the screen of the display unit 140 is composed of, for example, a display panel such as a liquid crystal display (LCD: Liquid Crystal Display), an organic EL ((Electro Luminescence) display), or a laser scanning display such as a retinal direct drawing display.
  • a display panel such as a liquid crystal display (LCD: Liquid Crystal Display), an organic EL ((Electro Luminescence) display), or a laser scanning display such as a retinal direct drawing display.
  • Audio output unit 150 has a function of outputting the voice input from the control unit 120.
  • the voice output unit 150 outputs, for example, a voice indicating the display position of the avatar 30 input from the control unit 120.
  • the audio output unit 330 can be realized by, for example, a speaker.
  • the speaker is configured as headphones worn on the head of the user 20a and reproduces an audio signal.
  • the speaker is not limited to the headphone type, and may be configured as an earphone or a bone conduction speaker.
  • Voice dialogue area and avatar display position The configuration of the information processing terminal 10 has been described above. Next, the voice dialogue area and the display position of the avatar will be described.
  • the information processing terminal 10a identifies the voice dialogue area 40a and sets the position of the avatar 30a based on the line of sight of the user 20a or the direction of the face of the user 20a. In the following, a situation in which the user 20a and the user 20b face each other and have a conversation in a stationary state will be described as an example.
  • FIG. 3 is a diagram showing a detection example of the gaze area according to the present embodiment.
  • FIG. 4 is a diagram showing a voice dialogue area and an avatar display area based on the line of sight according to the present embodiment.
  • FIG. 5 is a diagram showing an example of the display position of the avatar according to the present embodiment.
  • the detection unit 122 detects the gaze point 41 of the user 20a as gaze direction information based on the gaze detection information. For example, as shown in FIG. 3, the detection unit 122 detects the gazing point 41 of the user 20a as the line-of-sight direction information based on the captured image captured by the eyes of the user 20a acquired as the line-of-sight detection information. In FIG. 3, only one of the plurality of gazing points 41 detected by the detection unit 122 is designated by a reference numeral, and the others are omitted.
  • the detection unit 122 may detect the gazing point 41 of the user 20a as the line-of-sight direction information based on the electro-oculography of the user 20a acquired as the line-of-sight detection information. For example, the detection unit 122 detects the movement of the user 20a's eye from the electro-oculography of the user 20a, and detects the gazing point 41 of the user 20a from the direction in which the user 20a's eye moves.
  • the detection unit 122 can detect the line-of-sight direction of the user 20a by detecting the gazing point 41 of the user 20a. Further, the detection unit 122 can acquire the distribution in the line-of-sight direction of the user 20a by detecting the plurality of gaze points 41 of the user 20a, and can improve the accuracy of specifying the line-of-sight direction of the user 20a. Further, the detection unit 122 can further improve the accuracy of specifying the line-of-sight direction of the user 20a by using the positional relationship determined by the determination unit 121.
  • the identification unit 123 specifies the gaze area 42, which is an area in which the gaze point 41 of the user 20a is distributed. Further, the gaze area 42 may be an area specified by the diopter range of the user 20a. Further, the gaze area 42 may be an area in which the line of sight of the user 20a estimated in advance moves.
  • the shape of the gaze area 42 shown in FIG. 3 is circular, but the shape of the gaze area 42 is not particularly limited.
  • the identification unit 123 specifies the voice dialogue area 40 based on the positional relationship determined by the identified gaze area 42 and the determination unit 121. For example, when the user 20b is located in the direction of the gaze area 42 of the user 20a, it can be said that the user 20a is looking at the user 20b. Therefore, as shown in FIG. 4, the specifying unit 123 identifies that there is a voice dialogue area 40 between the user 20a and the user 20b.
  • the voice dialogue area 40 has, for example, a conical shape with the position between the eyes of the user 20a as the apex and the gaze area 42 of the user 20a as the bottom surface.
  • the shape of the voice dialogue area 40 is not particularly limited and may be any shape.
  • the identification unit 123 identifies the avatar display area 50a based on the specified voice dialogue area 40a and the visual field information detected by the detection unit 122. First, the detection unit 122 detects the peripheral visual field of the user 20a in advance as visual field information. When the voice dialogue area 40a is specified based on the gazing point 41 of the user 20a, the detection unit 122 further detects the central visual field 52 of the user 20a. Then, the identification unit 123 specifies an area outside the voice dialogue area 40a, outside the central visual field 52a of the user 20a, and in the peripheral visual field 54a of the user 20a as the avatar display area 50a.
  • the avatar control unit 124 does not display the avatar 30 at a position where it is difficult to determine the utterance target of the user 20a. it can.
  • the avatar control unit 124 sets the position of the avatar 30a at a position in the avatar display area 50a.
  • the avatar display area 50a is an area specified by the specific unit 123 as an area in which the user 20a can easily determine the utterance target. Therefore, by setting the position of the avatar 30a at the position in the avatar display area 50a by the avatar control unit 124, the control unit 120 can easily determine the utterance target of the user 20a. If the avatar 30a cannot be displayed at the set position of the avatar 30a, the avatar control unit 124 may reset the position of the avatar 30a. For example, as shown in FIG.
  • the avatar control unit 124 sets the position of the avatar 30a at a position where the obstacle 80 can be avoided and displayed. At this time, the avatar control unit 124 may move the position of the avatar 30a three-dimensionally. For example, if the position where the change in the line of sight or the direction of the face of the user 20a occurs cannot be secured even if the avatar 30a is moved in the horizontal direction, the avatar control unit 124 may move the avatar 30a in the vertical direction. As a result, when the user 20a speaks to the avatar 30a, the line of sight or the direction of the face of the user 20a moves in the vertical direction, so that the control unit 120 determines whether or not the utterance target of the user 20a is the avatar 30a. Can be determined.
  • FIG. 6 is a diagram showing a voice dialogue area and an avatar display area based on the orientation of the face according to the present embodiment. The identification of the voice dialogue area 40a and the setting of the position of the avatar 30a based on the orientation of the face are performed when it is difficult to detect the line of sight of the user 20a.
  • the detection unit 122 detects the face orientation of the user 20a as the line-of-sight direction information based on the inertia information of the user 20a acquired as the line-of-sight detection information.
  • the identification unit 123 specifies the voice dialogue area 40a based on the face orientation of the user 20a and the positional relationship determined by the determination unit 121. For example, as shown in FIG. 6, the identification unit 123 specifies the direction in which the user 20a is facing and the space between the user 20a and the user 20b as the voice dialogue area 40a. The identification unit 123 further identifies the line-of-sight movement area 56a, which is an area in which the user 20a can move the line of sight. Further, the specifying unit 123 identifies the line-of-sight moving area 56a from, for example, an angle at which the general user 20 can move the line of sight. The method by which the specific unit 123 specifies the line-of-sight movement area 56a is not particularly limited.
  • the avatar control unit 124 avatars a position outside the voice dialogue area 40a, outside the line-of-sight movement area 56a, and in the peripheral visual field 54a of the user 20a. It is specified as a display area 50a.
  • the avatar control unit 124 sets the position of the avatar 30a at a position in the avatar display area 50a. If the avatar 30a cannot be displayed at the set avatar 30a position, the avatar control unit 124 resets the position of the avatar 30a as described in "(1-5) Setting the avatar position" described above. You may.
  • the voice dialogue area 40a can be specified by detecting the direction of the face of the user 20a. Further, by specifying the line-of-sight movement area 56a by the specific unit 123, the avatar control unit 124 can prevent the avatar 30 from being displayed at a position near the voice dialogue area 40a where it is difficult to determine the utterance target of the user 20a. ..
  • the specifying unit 123 specifies in advance an area in which it is estimated that a voice dialogue between the user 20a and the user 20b can be performed as a voice dialogue area 40a.
  • the specific unit 123 uses the voice dialogue area 40a based on the type and position information of the real object and the position information of the user 20a and the user 20b assumed when the user 20a and the user 20b have a conversation related to the real object. To estimate. Then, the identification unit 123 specifies the estimated area as the voice dialogue area 40a.
  • the specific unit 123 creates a space above the cashier table, which is assumed to be sandwiched between the user 20a and the user 20b at the time of accounting. It is specified as a voice dialogue area 40a.
  • the type and position information of the real object and the position information of the user 20a and the user 20b assumed when the user 20a and the user 20b perform a conversation related to the real object are obtained by a camera, RFID (Radio Frequency Identifier), or the like. Can be acquired and managed in advance.
  • Example of specifying the voice dialogue area and example of setting the position of the avatar The static specification of the voice dialogue area has been described above. Next, a specific example of the voice dialogue area and an example of setting the position of the avatar will be described. In the above example, a situation in which the user 20a and the user 20b face each other and have a conversation in a stationary state will be described as an example. In the following, an example in a situation different from the above example will be described.
  • FIG. 7 is a diagram showing a voice dialogue area and an avatar display area when the dialogue partner according to the present embodiment is not seen.
  • the identification unit 123 is between the user 20a and the user 20b based on the positional relationship between the user 20a and the user 20b. Is specified as the voice dialogue area 40.
  • the space between the user 20a and the user 20b is, for example, a columnar space having the head of the user 20a and the head of the user 20b at both ends.
  • the avatar display area 50 is specified in the same way as when looking at the conversation partner.
  • the position of the avatar 30 is set in the avatar display area 50a on the left side of the user 20a, for example, as shown in FIG.
  • the avatar 30a of the user 20a is also changed to the user 20b. You can see it.
  • the utterance of the user 20a is directed to either the avatar 30a or the user 20b. It becomes difficult to determine whether it is a thing. Therefore, as shown in FIG. 7, it is desirable that the avatar 30a is displayed in the avatar display area 50a on the left side of the user 20a.
  • the voice dialogue area 40 when the conversation partner is not seen may be specified based on the voice information.
  • the specifying unit 123 may specify the voice dialogue area 40 based on the position of the dialogue partner specified based on the voice information. Further, the specifying unit 123 may specify each other's utterance positions based on the voices alternately spoken between the user 20a and the user 20b, and specify the space connecting the specified utterance positions as the voice dialogue area 40. ..
  • FIG. 8 is a diagram showing a voice dialogue area and an avatar display area during movement according to the present embodiment.
  • FIG. 9 is a diagram showing a change in the position of the avatar at the start of movement when only one user according to the present embodiment has the avatar.
  • FIG. 10 is a diagram showing a change in the position of the avatar at the start of movement when the two users according to the present embodiment have the avatar.
  • the avatar control unit 124 sets the position of the avatar at a position outside the space in the moving direction of the user 20a and the user 20b.
  • the space between the arrow 81a and the arrow 81b in the moving direction of the user 20a and the user 20b shown in FIG. 8 is a space in which it is difficult to determine whether the user 20a's utterance is for the avatar 30a or the user 20b. is there.
  • the avatar control unit 124 may set the space as the avatar non-display area 58, which is a space in which the avatar 30a is not displayed. Therefore, in the example shown in FIG. 8, the avatar control unit 124 causes the avatar 30a to be displayed in the avatar display area 50a on the left side of the user 20a, as in the case of the example shown in FIG.
  • the avatar control unit 124 may change the position of the avatar 30 according to the change. For example, in the upper view of FIG. 9, the user 20a and the user 20b are facing each other, and only the avatar 30a of the user 20a is displayed in the avatar display area 50a on the left side of the user 20a. From this state, the user 20a changes the direction in the Z-axis direction and starts moving as shown in the lower figure of FIG. At this time, the avatar control unit 124 also rotates the positions of the avatar display area 50a and the avatar 30a to the left around the position of the user 20a in accordance with the rotation of the user 20a to the left.
  • the user 20a and the user 20b are facing each other, the avatar 30a of the user 20a is in the avatar display area 50a on the left side of the user 20a, and the avatar 30b of the user 20b is on the right side of the user 20b. It is displayed in the avatar display area 50b.
  • the user 20a and the user 20b change their directions in the Z-axis direction and start moving.
  • the avatar control unit 124 also rotates the positions of the avatar display area 50a and the avatar 30a to the left around the position of the user 20a in accordance with the rotation of the user 20a to the left.
  • the avatar control unit 124 also rotates the positions of the avatar display area 50b and the avatar 30b to the right around the position of the user 20b in accordance with the rotation of the user 20b to the right.
  • the avatar control unit 124 changes the display position of the avatar 30 according to the change in the direction of the user 20 when the user 20 moves with a change in the direction.
  • the avatar control unit 124 can display the avatar 30 without disturbing the movement of the user 20.
  • the avatar control unit 124 can set the position of the avatar 30 as seen from the user 20 to be the same position before and after the direction change of the user 20.
  • the user 20 can move without losing sight of the avatar 30 due to the change in direction.
  • the avatar control unit 124 may move the avatar 30 so that the user can understand the movement route of the avatar 30, such as displaying the movement route of the avatar 30 when the avatar 30 is moved.
  • the avatar control unit 124 can make it easier for the user 20 to recognize the position of the avatar 30 after movement.
  • FIG. 11 is a diagram showing a voice dialogue area and an avatar display area during the work according to the present embodiment.
  • FIG. 12 is a diagram showing an example of displaying an avatar in consideration of a shield according to the present embodiment.
  • the avatar control unit 124 sets the position of the avatar 30a at a position outside the work area, which is the area where the user 20a works.
  • the work area is specified, for example, based on the movable range of the arm of the user 20a. Specifically, as shown in FIG. 11, when the range of motion of the right arm 22a of the user 20a is the range of motion 62a, the avatar control unit 124 specifies the range of motion 62 as the work area.
  • the avatar control unit 124 identifies the work area as an avatar non-display area, which is an area in which the avatar 30a is not displayed. Then, the avatar control unit 124 sets the position of the avatar 30a outside the area.
  • the avatar control unit 124 sets the position of the avatar 30a at a position in the avatar display area 50a shown in FIG. Further, the central field of view 52a of the user 20a is a field of view in which the user 20a is looking at a work target or the like. Therefore, the avatar control unit 124 sets the position of the avatar 30a so that the avatar 30 is not displayed even in the central visual field 52a. As a result, the avatar control unit 124 can display the avatar 30a at a position that does not interfere with the work of the user 20a.
  • the avatar control unit 124 may specify the entire space above the workbench 82 as an avatar non-display area in which the avatar 30a is not displayed. Further, when it is detected that the user 20a is working on the information, the avatar control unit 124 may set the position of the avatar 30a so that the avatar 30a is not displayed above.
  • the avatar control unit 124 sets the position of the avatar 30a outside the range of motion of the arm and within the peripheral visual field. Further, when there is no place where the position of the avatar 30a can be set outside the range of motion of the arm, the avatar control unit 124 is located at a position where the arm is unlikely to move within the range of motion of the arm and in the peripheral visual field. The position of the avatar 30a may be set as the position. Further, when there is no place where the position of the avatar 30a can be set, the avatar control unit 124 may present the position of the avatar 30a to the user 20a by an object such as an arrow or a voice.
  • the control unit 120 detects whether or not the user 20a is working based on the information acquired by the acquisition unit 110. For example, when it is detected that the user 20a is moving the hand or leg from the image captured by the outward image pickup device and that the user 20a is looking at the hand or leg from the line-of-sight direction information of the user 20a, control is performed. Unit 120 determines that the user 20a is working.
  • the avatar control unit 124 may set the position of the avatar 30a at a position in consideration of the dominant hand of the user 20a. For example, the avatar control unit 124 sets the position of the avatar 30a on the side opposite to the dominant hand of the user 20a. The avatar control unit 124 identifies the dominant hand of the user 20a based on the information registered in advance in the user 20a. If the information on the dominant hand of the user 20a is not registered, the avatar control unit 124 may set the right hand as the default setting.
  • control unit 120 estimates the current line of sight of the user 20a based on the line of sight detected immediately before. Then, the control unit 120 may detect whether or not the user 20a is working based on the line of motion of the user 20a estimated as the range of motion of the detected arm.
  • control unit 120 may learn the movement of the arm of the user 20a by detecting the movement of the arm of the user 20a for a certain period of time, and detect the range of motion of the arm of the user 20a based on the learning result. ..
  • the avatar control unit 124 does not have the shelf 83 outside the range of motion 62a of the right arm 22a and the range of motion 64a of the left arm 24a of the user 20a and in the avatar display area 50a.
  • the avatar 30a is displayed at the position.
  • the control unit 120 may detect by registering the information about the shield in advance, or may detect by general object recognition.
  • FIG. 13 is a diagram showing an example of presenting the status of the avatar according to the present embodiment.
  • the avatar control unit 124 sets the position of each avatar 30 in the common avatar display area of the user 20a and the user 20b. For example, as shown in FIG. 13, the avatar control unit 124 positions the avatar 30a of the user 20a in the common avatar display area of the avatar display area 50a on the left side of the user 20a and the avatar display area 50b on the right side of the user 20b. To set.
  • the avatar control unit 124 sets the position of the avatar 30b of the user 20b in the common avatar display area of the avatar display area 50a on the right side of the user 20a and the avatar display area 50b on the left side of the user 20b.
  • the user 20a and the user 20b can see each other's avatars 30, and can have a dialogue with either avatar 30.
  • the avatar control unit 124 may display a status indicating the usage status of the avatar 30. For example, as shown in FIG. 13, when the user 20b is using the avatar 30a, the avatar control unit 124 may display a status 34a indicating that the user 20b is using the avatar 30a. Further, when the user 20a is using the avatar 30b, the avatar control unit 124 may display a status 34b indicating that the user 20a is using the avatar 30b.
  • the status may indicate that the user 20b and the avatar 30a are connected by a circle as in the status 34a, or indicate that the user 20a and the avatar 30b are connected by a line (broken line) as in the status 34b. You may. As a result, the user 20 can visually recognize the usage status of the avatar 30.
  • the avatar control unit 124 may be able to determine which avatar 30 the utterance of each user 20 is for by separating the positions of the avatar 30a and the avatar 30b. Further, when the user 20a speaks to the avatar 30a, the avatar control unit 124 may make the avatar 30b keep a distance from the avatar 30a so that the utterance target can be easily determined.
  • FIG. 14 is a diagram showing an example of displaying an avatar when the avatar according to the present embodiment is shared and has a common peripheral vision.
  • FIG. 15 is a diagram showing a display example of an avatar when the avatar according to the present embodiment is shared and the avatar is displayed outside the common peripheral visual field although there is a common peripheral visual field.
  • FIG. 16 is a diagram showing an example of displaying an avatar when the avatar according to the present embodiment is shared and there is no common peripheral vision.
  • the example shown in FIGS. 14 to 16 describes an example in which the user 20a and the user 20b share the avatar 30c for tourist information for explaining the exhibit 84.
  • the display position of the avatar 30c for tourist information is set near the target to be guided.
  • the tourist information avatar 30c is located at a position not more than a certain distance from the exhibit 84 for the convenience of explaining the exhibit 84. Therefore, in the examples shown in FIGS. 14 to 16, it is assumed that the avatar 30c is located on the exhibit 84 side (hereinafter, also referred to as “inside the line 85”) with respect to the line 85.
  • the line 85 is a boundary line of a space in which the distance from the exhibit 84 is within a predetermined distance.
  • the avatar control unit 124 sets the position of the common avatar 30c in the common space between the peripheral visual field 54a of the user 20a and the peripheral visual field 54b of the user 20b.
  • the user 20a and the user 20b can simultaneously see the shared avatar 30c.
  • the common space between the peripheral visual field 54a of the user 20a and the peripheral visual field 54b of the user 20b is common to the avatar display area 50a on the right side of the user 20a and the avatar display area 50b on the left side of the user 20b. It is a space to do. Therefore, the avatar control unit 124 sets the position of the common avatar 30c in the common space. Since the position of the common avatar 30c shown in FIG. 14 is inside the line 85, the avatar control unit 124 can display the common avatar 30c at the position.
  • the common space between the peripheral visual field 54a of the user 20a and the peripheral visual field 54b of the user 20b is not always inside the line 85.
  • the common space between the peripheral visual field 54a of the user 20a and the peripheral visual field 54b of the user 20b is common to the avatar display area 50a on the right side of the user 20a and the avatar display area 50b on the left side of the user 20b. It is a space to do.
  • the space is outside the line 85. Therefore, the avatar control unit 124 cannot set the position of the avatar 30c common to the space.
  • the avatar control unit 124 selects either the peripheral visual field 54a of the user 20a or the peripheral visual field 54b of the user 20b, and sets the position of the avatar 30c common to the selected peripheral visual field 54.
  • the avatar control unit 124 can show the avatar 30c common to at least one of the user 20a and the user 20b.
  • the avatar control unit 124 selects the peripheral visual field 54a of the user 20a, and further sets the position of the common avatar 30c in the avatar display area 50a on the left side of the user 20a inside the line 85. doing. Therefore, at least the user 20a can see the common avatar 30c.
  • the avatar control unit 124 selects either the peripheral visual field 54a of the user 20a or the peripheral visual field 54b of the user 20b, and the avatar 30c common to the selected peripheral visual field 54. Set the position. For example, in the example shown in FIG. 16, there is no common space between the peripheral visual field 54a of the user 20a and the peripheral visual field 54b of the user 20b.
  • the avatar control unit 124 selects the peripheral visual field 54a of the user 20a, and further sets the position of the common avatar 30c in the avatar display area 50a on the left side of the user 20a inside the line 85. Therefore, at least the user 20a can see the common avatar 30c.
  • the avatar control unit 124 may notify the user 20 who does not display the common avatar 30c of the position of the common avatar 30c by displaying an object such as an arrow or outputting a voice.
  • the avatar control unit 124 may change the position of the common avatar 30c depending on the situation. For example, it is assumed that the common avatar 30c is displayed in the avatar display area 50a of the user 20a. At this time, when the user 20b speaks to the common avatar 30c, the avatar control unit 124 may change the position of the common avatar 30c to the avatar display area 50b of the user 20b.
  • the avatar control unit 124 sets the position of the common avatar 30c in the common space of the peripheral visual field 54a of the user 20a and the peripheral visual field 54b of the user 20b. At this time, if it is difficult to determine whether the user 20a has a common avatar 30c or the user 20b, the avatar control unit 124 sets the peripheral vision 54a of the user 20a or the peripheral vision 54b of the user 20b. It may be selected as the position of the common avatar 30c.
  • the avatar control unit 124 resets the position of the common avatar 30c to the position visible to each user 20.
  • the avatar control unit 124 When the voice dialogue is completed The avatar control unit 124 considers that the voice dialogue is completed and the voice dialogue is completed when the user 20b does not speak even after a certain period of time has passed since the user 20a has finished speaking. Release area 40a. Further, even within a certain period of time after the utterance of the user 20a is completed, the avatar control unit 124 may release the voice dialogue area 40a when the gazing point 41a of the user 20a deviates from the user 20b.
  • the avatar control unit 124 starts a dialogue with the new user 20c even when the dialogue between the user 20a and the user 20b is not completed, and the user 20a When the gazing point 41a is facing the user 20c, the voice dialogue area 40a with the user 20b is released. Then, the avatar control unit 124 newly identifies the voice dialogue area 40a with the user 20c.
  • the avatar control unit 124 maintains a plurality of voice dialogue areas 40 for each of the plurality of users 20. For example, assume that the user 20a is interacting with the user 20b and the user 20c, and the gazing point 41a of the user 20a is facing each of the user 20b and the user 20c. At this time, the avatar control unit 124 maintains a voice dialogue area 40a for each of the user 20b and the user 20c.
  • FIG. 17 is a diagram showing an example of displaying the avatar on the display unit when the line of sight is moved within the line-of-sight detection area when the avatar according to the present embodiment is displayed.
  • the gaze area 42a of the user 20a is in the line-of-sight detection area 72a smaller than the size of the display unit 140a.
  • the gaze area 42a there are a central visual field 52a and a peripheral visual field 54a of the user 20a as shown in the upper part of FIG.
  • the avatar 30a is displayed in the display unit 140, outside the gaze area 42a, outside the central visual field 52a, and in the peripheral visual field 54a.
  • the gaze area 42a moves from the state shown in the upper part of FIG. 17 to a position in the line-of-sight detection area 72a in the direction of the arrow shown in the upper part of FIG. 17, and transitions to the state shown in the lower part of FIG.
  • the avatar 30a is as shown in the lower figure of FIG. Is displayed.
  • FIG. 18 is a diagram showing an example of displaying the avatar on the display unit when the line of sight is moved out of the line-of-sight detection area when the avatar according to the present embodiment is displayed.
  • the gaze area 42a of the user 20a is in the line-of-sight detection area 72a smaller than the size of the display unit 140a.
  • the gaze area 42a there are a central visual field 52a and a peripheral visual field 54a of the user 20a as shown in the upper part of FIG.
  • the avatar 30a is displayed in the display unit 140, outside the gaze area 42a, outside the central visual field 52a, and in the peripheral visual field 54a.
  • the user 20a moves the gaze area 42a from the state shown in the upper part of FIG. 18 to a position outside the line-of-sight detection area 72a in the direction of the arrow shown in the upper part of FIG. 18, and transitions to the state shown in the lower part of FIG. And.
  • the control unit 120 estimates the position of the gaze area 42a after the movement based on the movement of the gaze area 42a immediately before the gaze area 42a moves out of the line-of-sight detection area 72a.
  • the control unit 120 can also estimate the positions of the central visual field 52a and the peripheral visual field 54a. Therefore, the control unit 120 can determine how to control the display of the avatar 30a based on the estimation result.
  • the positions of the central visual field 52a and the peripheral visual field 54a are also estimated as shown in the lower figure of FIG.
  • the avatar 30a since there is an area in which the avatar 30a can be displayed in the display unit 140, outside the gaze area 42a, outside the central visual field 52a, and in the peripheral visual field 54a, the avatar 30a is as shown in the lower figure of FIG. Is displayed.
  • FIG. 19 is a diagram showing an example of displaying the avatar on the display unit when the line of sight is moved within the line-of-sight detection area when the avatar according to the present embodiment is not displayed.
  • the gaze area 42a of the user 20a is in the line-of-sight detection area 72a larger than the size of the display unit 140a.
  • the gaze area 42a there are a central visual field 52a and a peripheral visual field 54a of the user 20a as shown in the upper part of FIG.
  • the avatar 30a is not displayed because there is not enough area in the display unit 140, outside the gaze area 42a, outside the central visual field 52a, and in the peripheral visual field 54a to display the avatar 30a.
  • the user 20a moves the gaze area 42a from the state shown in the upper part of FIG. 19 to the direction of the arrow shown in the upper part of FIG. 19 and the position in the line-of-sight detection area 72a, and transitions to the state shown in the lower part of FIG. And.
  • the avatar 30a since there is an area in which the avatar 30a can be displayed in the display unit 140, outside the gaze area 42a, outside the central visual field 52a, and in the peripheral visual field 54a, the avatar 30a is as shown in the lower figure of FIG. Is displayed.
  • FIG. 20 is a diagram showing an example of displaying the avatar on the display unit when the line of sight is moved out of the line-of-sight detection area when the avatar according to the present embodiment is not displayed.
  • the gaze area 42a of the user 20a is in the line-of-sight detection area 72a smaller than the size of the display unit 140a.
  • the gaze area 42a there are a central visual field 52a and a peripheral visual field 54a of the user 20a as shown in the upper part of FIG. Since the area inside the display unit 140, outside the gaze area 42a, outside the central visual field 52a, and inside the peripheral visual field 54a is an area outside the display unit 140, the avatar 30a is displayed on the display unit 140. It has not been.
  • the user 20a moves the gaze area 42a from the state shown in the upper part of FIG. 20 to a position outside the line-of-sight detection area 72a in the direction of the arrow shown in the upper part of FIG. 20, and transitions to the state shown in the lower part of FIG. And.
  • the control unit 120 since the gaze area 42a has moved out of the line-of-sight detection area 72a, the control unit 120 has the control unit 120 immediately before the gaze area 42a moves out of the line-of-sight detection area 72a, as in the example shown in FIG. Based on the movement of the gaze area 42a, the position of the gaze area 42a after the movement is estimated.
  • the positions of the central visual field 52a and the peripheral visual field 54a are also estimated as shown in the lower figure of FIG.
  • the area inside the display unit 140, outside the gaze area 42a, outside the central visual field 52a, and inside the peripheral visual field 54a is inside the display unit 140, but there is not enough area to display the avatar 30a.
  • the avatar 30a is not displayed.
  • the object 32a is displayed as shown in the lower figure of FIG. 20.
  • FIG. 21 is a flowchart showing a processing flow when each user according to the embodiment of the present disclosure uses his / her own avatar.
  • the flow of processing performed by the information processing terminal 10a when the user 20a uses the avatar 30a will be specifically described.
  • the information processing terminal 10a acquires the line-of-sight detection information of the user 20a (S100).
  • the information processing terminal 10a detects the gaze point 41a of the user 20a from the acquired gaze detection information, and identifies the gaze area 42a of the user 20a based on the gaze point 41a (S102).
  • the information processing terminal 10a confirms whether or not the voice information has been acquired (S104).
  • the voice information is acquired (S104 / YES)
  • the information processing terminal 10a further confirms whether or not the user 20b is in the gaze area 42a (S106).
  • the information processing terminal 10a identifies the voice dialogue area 40a based on the gaze area 42a and the positional relationship (S108).
  • the information processing terminal 10a identifies the voice dialogue area 40a based on the positional relationship (S110). Next, the information processing terminal 10a identifies the avatar non-display area based on the operation of the user 20a (S112).
  • the information processing terminal 10a specifies the avatar display area 50a based on the specified area (S114). Then, the information processing terminal 10a displays the avatar 30a in the set avatar display area 50a (S116), and ends the process.
  • FIG. 22 is a flowchart showing a processing flow when each user according to the embodiment of the present disclosure uses a common avatar.
  • the flow of processing performed by the information processing terminal 10a when the user 20a and the user 20b use the common avatar 30c will be specifically described.
  • the information processing terminal 10a sets the avatar display area 50a of the avatar 30a of the user 20a (S200). Next, the information processing terminal 10a acquires information indicating the avatar display area 50b of the avatar 30b of the user 20b (S202).
  • the information processing terminal 10a After the acquisition, the information processing terminal 10a confirms whether or not there is an area common to the avatar display area 50a and the avatar display area 50b (S204). When there is a common area (S204 / YES), the information processing terminal 10a displays the common avatar 30c in the common avatar display area (S206), and ends the process.
  • the information processing terminal 10a confirms whether or not to select the avatar display area 50a of the user 20a (S208). When the avatar display area 50a of the user 20a is selected (S208 / YES), the information processing terminal 10a displays the common avatar 30c in the avatar display area 50a of the user 20a (S210), and ends the process.
  • the information processing terminal 10a displays the avatar 30c common to the avatar display area 50b of the user 20b (S212). Next, the information processing terminal 10a presents the position of the common avatar 30c to the user 20a (S214), and ends the process.
  • FIG. 23 is a flowchart showing a processing flow when each user according to the embodiment of the present disclosure can use each other's avatars.
  • the flow of processing performed by the information processing terminal 10a when the user 20a has the avatar 30a and the user has the avatar 30b and the avatars 30 of each other can be used will be described specifically.
  • the information processing terminal 10a sets the avatar display area 50a of the user 20a (S300). Next, the information processing terminal 10a acquires information indicating the avatar display area 50b of the avatar 30b of the user 20b (S302).
  • the information processing terminal 10a confirms whether or not there is an avatar display area common to the avatar display area 50a and the avatar display area 50b (S304).
  • the information processing terminal 10a further has a common avatar display area capable of determining whether or not the user 20a has a dialogue with the avatar 30a and the user 20b is speaking. It is confirmed whether or not there is (S306).
  • the information processing terminal 10 displays the avatar 30a of the user 20a in the common avatar display area (S308).
  • the information processing terminal 10 displays the avatar 30a of the user 20a in the common avatar display area (S308).
  • the information processing terminal 10 When there is no common avatar display area (S304 / NO), or when there is no common avatar display area where the utterance target can be determined (S306 / NO), the information processing terminal 10 is set in the avatar display area 50a of the user 20a. The avatar 30a of 20a is displayed (S310). Next, the information processing terminal 10a transmits information indicating the position of the avatar 30a of the user 20a to the information processing terminal 10b of the user 20b to display it (S312), and ends the process.
  • Second embodiment >> The first embodiment of the present disclosure has been described above. Subsequently, a second embodiment of the present disclosure will be described. In the first embodiment described above, an example in which the information processing terminal 10 is realized by the HMD has been described. In the second embodiment, an example in which the information processing terminal 10 is realized by a device capable of presenting a virtual object in a real space will be described. In the second embodiment described below, only the points different from the first embodiment described above will be described.
  • FIG. 24 is a diagram showing an outline of an information processing system according to a second embodiment of the present disclosure.
  • the information processing system according to the second embodiment presents the virtual object 30 to the user 20 by projecting the virtual object 30 onto the wall surface 91, the wall surface 92, or the like by the information processing terminal 90 provided on the ceiling.
  • the wall surface 91, the wall surface 92, and the floor are examples of projection surfaces on which information is projected.
  • the user 20a and the user 20b do not need to wear a terminal in particular, unlike the first embodiment.
  • the avatar 30a is displayed (that is, projected) by the output unit 160 of the information processing terminal 90 on the wall surface 91 or the wall surface 92 or the like in the real space.
  • the information processing terminal 90 acquires the information necessary for setting the position of the avatar 30a by the acquisition unit 110.
  • the information processing terminal 90 sets the position of the avatar 30a based on the information acquired by the acquisition unit 110, and the output unit 160 displays the avatar 30a at the set position.
  • the avatar 30a is presented by the output unit 160 on the wall surface 91 in the real space.
  • the information required for setting the position is the position information of the user 20a, the line-of-sight detection information, the voice information, and the position information of the user 20b.
  • FIG. 25 is a block diagram showing a configuration example of the information processing terminal according to the present embodiment.
  • the information processing terminal 90 according to the second embodiment is different from the information processing terminal 10 according to the first embodiment in that it has an output unit 160 instead of the display unit 140 and the audio output unit 150. .. Since the functions of the information processing terminal 90 other than the output unit 160 are the same as the functions of the information processing terminal 10, the description thereof will be omitted.
  • the output unit 160 is a device that displays a virtual object in real space.
  • the output unit 160 displays the virtual object in the real space according to the instruction input from the control unit 120.
  • the output unit 160 displays the avatar 30a of the user 20a at the position of the avatar 30 set by the avatar control unit 124 in the same manner as in the first embodiment based on the information acquired by the acquisition unit 110.
  • a projector is used for the output unit 160.
  • the output unit 160 is arranged in a state of being suspended from the ceiling, for example.
  • Voice dialogue area and avatar display position The configuration of the information processing terminal 90 has been described above. Next, the voice dialogue area and the display position of the avatar will be described.
  • the information processing terminal 90 according to the present embodiment identifies the voice dialogue area 40a and sets the position of the avatar 30a based on the line of sight of the user 20a or the direction of the face of the user 20a. In the following, a situation in which the user 20a and the user 20b face each other and have a conversation in a stationary state will be described as an example.
  • FIG. 26 is a diagram showing a voice dialogue area and an avatar display area based on the line of sight according to the present embodiment. Since the method for the information processing terminal 90 to specify the voice dialogue area 40a is the same as that for the information processing terminal 10, the description thereof will be omitted.
  • the method of setting the position of the avatar 30a after specifying the voice dialogue area 40a based on either the line of sight or the direction of the face of the user 20a is partially different from that of the first embodiment.
  • the information processing terminal 90 considers the positional relationship between the user 20b and the projection surface.
  • the range of the arrow 93 of the wall surface 92 shown in FIG. 26 is the range of the wall surface 92 that can enter the central visual field of the user 20a when the central visual field 52a of the user 20a is extended to the position of the wall surface 92. Therefore, when the avatar 30a is displayed in the range of the arrow 93, it may be difficult to determine whether the user 20a's speech is for the user 20b or the avatar 30a.
  • the information processing terminal 90 controls the display processing of the avatar 30a so that the avatar 30a is not displayed on the wall surface existing in the direction of the central visual field of the user 20a, for example.
  • the information processing terminal 90 can suppress the display of the avatar 30a at a position where it may be difficult to determine whether the user 20a's utterance is for the user 20b or the avatar 30a.
  • FIG. 27 is a block diagram showing a hardware configuration example of the information processing device according to the present embodiment.
  • the information processing device 900 shown in FIG. 27 can realize, for example, the information processing terminal 10 shown in FIG.
  • the information processing by the information processing terminal 10 according to the present embodiment is realized by the cooperation between the software and the hardware described below.
  • the information processing device 900 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, and a RAM (Random Access Memory) 903.
  • the information processing device 900 includes a host bus 904a, a bridge 904, an external bus 904b, an interface 905, an input device 906, an output device 907, a storage device 908, a drive 909, a connection port 910, and a communication device 911.
  • the hardware configuration shown here is an example, and some of the components may be omitted. In addition, the hardware configuration may further include components other than the components shown here.
  • the CPU 901 functions as, for example, an arithmetic processing device or a control device, and controls all or a part of the operation of each component based on various programs recorded in the ROM 902, the RAM 903, or the storage device 908.
  • the ROM 902 is a means for storing a program read into the CPU 901, data used for calculation, and the like.
  • a program read into the CPU 901 and various parameters that change as appropriate when the program is executed are temporarily or permanently stored. These are connected to each other by a host bus 904a composed of a CPU bus or the like.
  • the CPU 901, ROM 903, and RAM 905 can realize the functions of the control unit 120 described with reference to FIGS. 2 and 25, for example, in collaboration with software.
  • the CPU 901, ROM 902, and RAM 903 are connected to each other via, for example, a host bus 904a capable of high-speed data transmission.
  • the host bus 904a is connected to the external bus 904b, which has a relatively low data transmission speed, via, for example, the bridge 904.
  • the external bus 904b is connected to various components via the interface 905.
  • the input device 906 is realized by a device such as a mouse, a keyboard, a touch panel, a button, a microphone, a switch, and a lever, in which information is input by a user. Further, the input device 906 may be, for example, a remote control device using infrared rays or other radio waves, or an externally connected device such as a mobile phone or a PDA that supports the operation of the information processing device 900. .. Further, the input device 906 may include, for example, an input control circuit that generates an input signal based on the information input by the user using the above input means and outputs the input signal to the CPU 901. By operating the input device 906, the user of the information processing device 900 can input various data to the information processing device 900 and instruct the processing operation.
  • the input device 906 may be formed by a device that detects information about the user.
  • the input device 906 includes an image sensor (for example, a camera), a depth sensor (for example, a stereo camera), an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, a sound sensor, and a distance measuring sensor (for example, ToF (Time of Flight). ) Sensors), may include various sensors such as force sensors.
  • the input device 906 includes information on the state of the information processing device 900 itself such as the posture and moving speed of the information processing device 900, and information on the surrounding environment of the information processing device 900 such as brightness and noise around the information processing device 900. May be obtained.
  • the input device 906 receives a GNSS signal (for example, a GPS signal from a GPS (Global Positioning System) satellite) from a GNSS (Global Navigation Satellite System) satellite and receives position information including the latitude, longitude and altitude of the device. It may include a GPS module to be measured. Further, regarding the position information, the input device 906 may detect the position by transmission / reception with Wi-Fi (registered trademark), a mobile phone / PHS / smartphone, or short-range communication. The input device 906 can realize, for example, the function of the acquisition unit 110 described with reference to FIGS. 2 and 25.
  • a GNSS signal for example, a GPS signal from a GPS (Global Positioning System) satellite
  • GNSS Global Navigation Satellite System
  • the output device 907 is formed of a device capable of visually or audibly notifying the user of the acquired information.
  • Such devices include display devices such as CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, laser projectors, LED projectors and lamps, audio output devices such as speakers and headphones, and printer devices. ..
  • the output device 907 outputs, for example, the results obtained by various processes performed by the information processing device 900.
  • the display device visually displays the results obtained by various processes performed by the information processing device 900 in various formats such as texts, images, tables, and graphs.
  • the audio output device converts an audio signal composed of reproduced audio data, acoustic data, etc. into an analog signal and outputs it audibly.
  • the output device 907 can realize, for example, the functions of the display unit 140 and the audio output unit 150 described with reference to FIG. 2, and the output unit 160 described with reference to FIG. 25.
  • the storage device 908 is a data storage device formed as an example of the storage unit of the information processing device 900.
  • the storage device 908 is realized by, for example, a magnetic storage device such as an HDD, a semiconductor storage device, an optical storage device, an optical magnetic storage device, or the like.
  • the storage device 908 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deleting device that deletes the data recorded on the storage medium, and the like.
  • the storage device 908 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the storage device 908 can realize, for example, the function of the storage unit 130 described with reference to FIGS. 2 and 25.
  • the drive 909 is a reader / writer for a storage medium, and is built in or externally attached to the information processing device 900.
  • the drive 909 reads the information recorded in the removable storage medium such as the mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 903.
  • the drive 909 can also write information to the removable storage medium.
  • connection port 910 is a port for connecting an external connection device such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), a RS-232C port, an optical audio terminal, or the like. ..
  • the communication device 911 is, for example, a communication interface formed by a communication device or the like for connecting to the network 920.
  • the communication device 911 is, for example, a communication card for a wired or wireless LAN (Local Area Network), LTE (Long Term Evolution), Bluetooth (registered trademark), WUSB (Wireless USB), or the like.
  • the communication device 911 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communications, or the like.
  • the communication device 911 can transmit and receive signals and the like to and from the Internet and other communication devices in accordance with a predetermined protocol such as TCP / IP.
  • the communication device 911 can realize, for example, the function of the communication unit 100 described with reference to FIGS. 2 and 25.
  • the network 920 is a wired or wireless transmission path for information transmitted from a device connected to the network 920.
  • the network 920 may include a public line network such as the Internet, a telephone line network, a satellite communication network, various LANs (Local Area Network) including Ethernet (registered trademark), WAN (Wide Area Network), and the like.
  • the network 920 may include a dedicated line network such as IP-VPN (Internet Protocol-Virtual Private Network).
  • the above is an example of a hardware configuration capable of realizing the functions of the information processing device 900 according to the present embodiment.
  • Each of the above components may be realized by using a general-purpose member, or may be realized by hardware specialized for the function of each component. Therefore, it is possible to appropriately change the hardware configuration to be used according to the technical level at each time when the present embodiment is implemented.
  • the information processing apparatus acquires the position information of the user 20a, the line-of-sight detection information, the voice information, and the position information of the user 20b.
  • the information processing device determines the positional relationship between the user 20a and the user 20b based on the acquired position information of the user 20a and the position information of the user 20b. Then, based on the determined positional relationship, the voice dialogue area 40a in which the voice dialogue between the user 20a and the user 20b can be performed is specified, and the position of the avatar 30a is set outside the specified voice dialogue area 40a.
  • the information processing apparatus can suppress the display of the avatar 30a at a position where it may be difficult for the user 20a to determine the utterance target from the line-of-sight detection information.
  • the information processing device causes the avatar 30a to execute a predetermined action.
  • the information processing device suppresses the avatar 30a from executing a predetermined action.
  • the information processing apparatus can cause the avatar 30a to appropriately perform an action based on the instruction given to the avatar 30a by the user 20a.
  • each device described in the present specification may be realized as a single device, or a part or all of the devices may be realized as separate devices.
  • at least one of the acquisition unit 110 and the control unit 120 included in the information processing terminal 10 shown in FIG. 2 may be realized as a single device.
  • the acquisition unit 110 may be realized as an independent device such as a sensor device, and may be connected to the information processing terminal 10 via a network or the like.
  • the control unit 120 is realized as an independent device such as a server device, and may be connected to the information processing terminal 10 via a network or the like.
  • each device described in the present specification may be realized by using software, hardware, or a combination of software and hardware.
  • the programs constituting the software are stored in advance in, for example, a recording medium (non-temporary medium: non-transitory media) provided inside or outside each device. Then, each program is read into RAM at the time of execution by a computer, and is executed by a processor such as a CPU.
  • An acquisition unit that acquires the position information, line-of-sight detection information, and voice information of the first user, and the position information of the second user
  • a determination unit that determines the positional relationship between the first user and the second user based on the position information of the first user and the position information of the second user. Based on the determined positional relationship, a specific unit that specifies a voice dialogue area in which a voice dialogue between the first user and the second user can be performed, and a specific unit.
  • An avatar control unit that sets the position of the avatar outside the specified voice dialogue area, With When the voice information of the first user is acquired while the first user is looking out of the voice dialogue area, the avatar control unit causes the avatar to execute a predetermined action.
  • the avatar control unit determines that the avatar executes the predetermined action.
  • Information processing device that suppresses.
  • the specific unit identifies the voice dialogue area based on the line-of-sight direction information of the first user when the first user is interacting with the second user, according to the above (1).
  • Information processing equipment Based on the line-of-sight detection information, the detection unit detects the gaze point of the first user as the line-of-sight direction information.
  • the specific unit specifies a gaze area, which is an area in which the gaze point of the first user is distributed, and specifies the voice dialogue area based on the positional relationship with the gaze area (2).
  • the information processing device described in. (4) When the voice dialogue area is specified based on the gaze point of the first user, The detection unit further detects the central visual field of the first user.
  • the avatar control unit sets the position of the avatar outside the voice dialogue area, outside the central visual field of the first user, and in the peripheral visual field of the first user.
  • the information processing apparatus according to (3).
  • the detection unit detects the direction of the face of the first user as the line-of-sight direction information based on the inertial information of the first user acquired as the line-of-sight detection information.
  • the information processing device wherein the specific unit specifies the voice dialogue area based on the orientation of the face of the first user.
  • the specific unit further identifies a line-of-sight movement area, which is an area in which the first user can move the line of sight.
  • the avatar control unit sets the position of the avatar outside the voice dialogue area, outside the line-of-sight movement area, and in the peripheral visual field of the first user, according to the above (5).
  • Information processing equipment When the first user and the second user use a common avatar, The avatar control unit sets the position of the common avatar in a common space between the peripheral visual field of the first user and the peripheral visual field of the second user (2) to (6).
  • the information processing apparatus according to any one of the above.
  • the avatar control unit selects either the peripheral visual field of the first user or the peripheral visual field of the second user, and sets the position of the common avatar in the selected peripheral visual field.
  • the information processing apparatus according to any one of 2) to (6).
  • the specific unit specifies in advance a region in which the voice dialogue between the first user and the second user can be performed as the voice dialogue area, the above-mentioned (1) to (8).
  • the information processing apparatus according to any one of ().
  • the specific unit specifies the space between the first user and the second user as the voice dialogue area based on the positional relationship, according to any one of (2) to (9).
  • the information processing device according to any one of (1) to (12) above, wherein the avatar control unit presents the position of the avatar by displaying an object or outputting voice.
  • the avatar control unit presents the position of the avatar by displaying an object or outputting voice.
  • the recognition unit Further equipped with a recognition unit that performs voice recognition based on the voice information, The information processing device according to any one of (1) to (13), wherein the predetermined action is an action determined based on the result of the voice recognition by the recognition unit.
  • the acquisition unit includes a microphone for acquiring the voice information of the first user and the second user, and acquires the position information of the second user based on the voice information acquired by the microphone.
  • the acquisition unit includes an image pickup device capable of imaging the periphery of the first user, and acquires the position information of the second user based on the image captured by the image pickup device.
  • the information processing device according to any one of 15).
  • the information processing device further includes a communication unit.
  • the avatar control unit acquires information about a position where the avatar can be displayed to the second user from an external device via communication by the communication unit, any of the above (1) to (16).
  • the information processing device further includes a display unit.
  • the information processing apparatus according to any one of (1) to (17), wherein the display unit displays the avatar at the position set by the avatar control unit.
  • (20) Computer An acquisition unit that acquires the position information, line-of-sight detection information, and voice information of the first user, and the position information of the second user, A determination unit that determines the positional relationship between the first user and the second user based on the position information of the first user and the position information of the second user. Based on the determined positional relationship, a specific unit that specifies a voice dialogue area in which a voice dialogue between the first user and the second user can be performed, and a specific unit.
  • An avatar control unit that sets the position of the avatar outside the specified voice dialogue area, To function as When the voice information of the first user is acquired while the first user is looking out of the voice dialogue area, the avatar control unit causes the avatar to execute a predetermined action. When the voice information of the first user is acquired while the first user is looking inside the voice dialogue area, the avatar control unit determines that the avatar executes the predetermined action.
  • Information processing terminal 20 User 30 Avata 90 Information processing terminal 100 Communication unit 110 Acquisition unit 111 Position information acquisition unit 112 Line-of-sight detection information acquisition unit 113 Voice information acquisition unit 120 Control unit 121 Judgment unit 122 Detection unit 123 Specific unit 124 Avata control unit 125 Recognition unit 130 Storage unit 140 Display unit 150 Audio output unit 160 Output unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Neurology (AREA)
  • Neurosurgery (AREA)
  • Dermatology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

第1のユーザの位置情報、視線検出情報、及び音声情報、並びに第2のユーザの位置情報を取得する取得部と、第1のユーザの位置情報と第2のユーザの位置情報に基づき、第1のユーザと第2のユーザの位置関係を判定する判定部と、判定された位置関係に基づき、第1のユーザと第2のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、特定された音声対話エリアの外にアバタの位置を設定するアバタ制御部と、を備え、第1のユーザが音声対話エリアの外を見ている時に第1のユーザの音声情報が取得された場合、アバタ制御部は、アバタに所定の行動を実行させ、第1のユーザが音声対話エリアの中を見ている時に第1のユーザの音声情報が取得された場合、アバタ制御部は、アバタが所定の行動を実行することを抑制する、情報処理装置。

Description

情報処理装置、情報処理方法、及び記録媒体
 本開示は、情報処理装置、情報処理方法、及び記録媒体に関する。
 近年、実空間内に付加的な情報を重畳してユーザに提示する、拡張現実(AR:Augmented Reality)と称される技術が注目されている。AR技術を利用することで、実空間内の物体(以下、「実オブジェクト」とも称される)に対して、テキスト、アイコン、またはアニメーション等の様々な態様の仮想的なコンテンツ(以下、「仮想オブジェクト」とも称される)を重畳させてユーザに提示することが可能となる。
 また、ユーザの行動を支援するためのエージェント技術も急速に発展している。エージェントとは、ユーザからの指示を認識し、アプリケーション、エージェントが搭載された端末装置又はクラウド上のサーバ等にユーザからの指示に応じた処理を実行させる機能を有するソフトウェアである。エージェントは、典型的には音声認識機能を有する。そのため、ユーザは、例えばエージェントへの指示を発話することで、所望の出力を受けることができる。AR技術とエージェント技術とを組み合わせることで、ユーザの視界内にエージェントを示す仮想オブジェクト(以下、アバタとも称する)を提示することもできる。
 エージェントによる音声認識に関連し、例えば、下記特許文献1には、集音したユーザの音声をコンテキスト情報に基づき解析し、ユーザの音声の意味を正しく解釈することで、ロボットがユーザの命令を正しく実行する技術が開示されている。
特開2017-156511号公報
 しかしながら、上述の引用文献1の音声認識技術では、集音したユーザの音声に含まれるユーザの命令が、ロボットに対する命令であるか否かを判定することまでは考慮されていない。そのため、ロボットは、ロボットに対する命令以外の音声、例えばユーザ同士の会話内容から命令を誤って認識し、誤った動作を行い得る。このような誤動作は、アバタにも同様に起こるおそれがある。
 そこで、本開示では、アバタの誤動作を抑制することが可能な、新規かつ改良された情報処理装置、情報処理方法、及び記録媒体を提案する。
 本開示によれば、第1のユーザの位置情報、視線検出情報、及び音声情報、並びに第2のユーザの位置情報を取得する取得部と、前記第1のユーザの前記位置情報と前記第2のユーザの前記位置情報に基づき、前記第1のユーザと前記第2のユーザの位置関係を判定する判定部と、判定された前記位置関係に基づき、前記第1のユーザと前記第2のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、特定された前記音声対話エリアの外にアバタの位置を設定するアバタ制御部と、を備え、前記第1のユーザが前記音声対話エリアの外を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタに所定の行動を実行させ、前記第1のユーザが前記音声対話エリアの中を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタが前記所定の行動を実行することを抑制する、情報処理装置が提供される。
 また、本開示によれば、第1のユーザの位置情報、視線検出情報、及び音声情報、並びに第2のユーザの位置情報を取得することと、前記第1のユーザの前記位置情報と前記第2のユーザの前記位置情報に基づき、前記第1のユーザと前記第2のユーザの位置関係を判定することと、判定された前記位置関係に基づき、前記第1のユーザと前記第2のユーザとの間の音声対話が行われ得る音声対話エリアを特定することと、特定された前記音声対話エリアの外にアバタの位置を設定することと、を含み、前記第1のユーザが前記音声対話エリアの外を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記設定することは、前記アバタに所定の行動を実行させ、前記第1のユーザが前記音声対話エリアの中を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記設定することは、前記アバタが前記所定の行動を実行することを抑制する、プロセッサにより実行される情報処理方法が提供される。
 また、本開示によれば、コンピュータを、第1のユーザの位置情報、視線検出情報、及び音声情報、並びに第2のユーザの位置情報を取得する取得部と、前記第1のユーザの前記位置情報と前記第2のユーザの前記位置情報に基づき、前記第1のユーザと前記第2のユーザの位置関係を判定する判定部と、判定された前記位置関係に基づき、前記第1のユーザと前記第2のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、特定された前記音声対話エリアの外にアバタの位置を設定するアバタ制御部と、として機能させ、前記第1のユーザが前記音声対話エリアの外を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタに所定の行動を実行させ、前記第1のユーザが前記音声対話エリアの中を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタが前記所定の行動を実行することを抑制するためのプログラムが記録された記録媒体が提供される。
本開示の第1の実施形態に係る情報処理システムの概要を示す図である。 同実施形態に係る情報処理端末の構成例を示すブロック図である。 同実施形態に係る注視領域の検出例を示す図である。 同実施形態に係る視線に基づく音声対話エリア及びアバタ表示エリアを示す図である。 同実施形態に係るアバタの表示位置の例を示す図である。 同実施形態に係る顔の向きに基づく音声対話エリア及びアバタ表示エリアを示す図である。 同実施形態に係る対話相手を見ていない場合における、音声対話エリア及びアバタ表示エリアを示す図である。 同実施形態に係る移動中における、音声対話エリア及びアバタ表示エリアを示す図である。 同実施形態に係る1人のユーザのみがアバタを有する場合における、移動開始時のアバタの位置の変化を示す図である。 同実施形態に係る2人のユーザがアバタを有する場合における、移動開始時のアバタの位置の変化を示す図である。 同実施形態に係る作業中における、音声対話エリア及びアバタ表示エリアを示す図である。 同実施形態に係る遮蔽物を考慮したアバタの表示の例を示す図である。 同実施形態に係るアバタのステータスの提示例を示す図である。 同実施形態に係るアバタを共有、かつ共通周辺視野がある場合のアバタの表示例を示す図である。 同実施形態に係るアバタを共有、かつ共通周辺視野があるが共通周辺視野外へアバタを表示させる場合のアバタの表示例を示す図である。 同実施形態に係るアバタを共有、かつ共通周辺視野がない場合のアバタの表示例を示す図である。 同実施形態に係るアバタが表示されている際に、視線を視線検知エリア内で移動させた場合における、表示部へのアバタの表示例を示す図である。 同実施形態に係るアバタが表示されている際に、視線を視線検知エリア外へ移動させた場合における、表示部へのアバタの表示例を示す図である。 同実施形態に係るアバタが表示されていない際に、視線を視線検知エリア内で移動させた場合における、表示部へのアバタの表示例を示す図である。 同実施形態に係るアバタが表示されていない際に、視線を視線検知エリア外へ移動させた場合における、表示部へのアバタの表示例を示す図である。 同実施形態に係る自分のアバタを使用する場合における、処理の流れを示すフローチャートである。 同実施形態に係る共通のアバタを使用する場合における、処理の流れを示すフローチャートである。 同実施形態に係る互いのアバタを使用可能な場合における、処理の流れを示すフローチャートである。 本開示の第2の実施形態に係る情報処理システムの概要を示す図である。 同実施形態に係る情報処理端末の構成例を示すブロック図である。 同実施形態に係る視線に基づく音声対話エリア及びアバタ表示エリアを示す図である。 本開示の一実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成要素は、必要に応じて情報処理端末10a及び情報処理端末10bのように区別される。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、情報処理端末10a及び情報処理端末10bを特に区別する必要が無い場合には、単に情報処理端末10と称する。
 なお、説明は以下の順序で行うものとする。
 1.第1の実施形態
 2.第2の実施形態
 3.ハードウェア構成例
 4.まとめ
<<1.第1の実施形態>>
 <1-1.情報処理システムの概要>
 まず、本開示の第1の実施形態に係る情報処理システムの概要について説明する。図1は、本開示の第1の実施形態に係る情報処理システムの概要を示す図である。第1の実施形態に係る情報処理システムは、ユーザ20が頭部に装着することでユーザ20の眼前に保持される表示部を有する情報処理端末10により、仮想オブジェクト30(以下では、アバタ30とも称される)をユーザ20に提示する。以下では、情報処理端末10aを頭部に装着したユーザ20aの目線に基づく説明を行う。なお、以下で説明する内容は、符号のアルファベットをaからbに置き換えることで、情報処理端末10bを頭部に装着したユーザ20bの目線に基づく説明とすることもできる。
 例えば、図1に示すように、ユーザ20a(第1のユーザ)は、情報処理端末10aを頭部に装着している。ユーザ20aがアバタ30aを有する場合、図1に示すアバタ30aが仮想オブジェクトとして情報処理端末10aの表示部に表示される。ユーザ20aがアバタ30aを有するとは、アバタ30aの提示対象がユーザ20aであることを指すものとする。ユーザ20b(第2のユーザ)は、ユーザ20aの対話相手であり、ユーザ20aと同様に情報処理端末10bを頭部に装着している。情報処理端末10aと情報処理端末10bとは、互いに情報を送受信可能に構成されている。
 第1の実施形態に係る情報処理端末10は、例えば、頭部装着型の表示装置(HMD:Head Mounted Display)等により実現される情報処理装置である。情報処理端末10に適用可能なHMDの一例としては、例えば、シースルー型HMD、ビデオシースルー型HMD、及び網膜投射型HMDが挙げられる。
 シースルー型HMDは、例えば、ハーフミラーや透明な導光板を用いて、透明な導光部等からなる虚像光学系をユーザ20の眼前に保持し、当該虚像光学系の内側に画像を表示させる。そのため、シースルー型HMDを装着したユーザ20は、虚像光学系の内側に表示された画像を視聴している間も、外部の風景を視野に入れることが可能となる。このような構成により、シースルー型HMDは、例えば、AR技術に基づき、当該シースルー型HMDの位置及び姿勢のうち少なくともいずれかの認識結果に応じて、実空間に位置する実オブジェクトの光学像に対して仮想オブジェクトの画像を重畳させることも可能となる。なお、シースルー型HMDの具体的な一例として、メガネのレンズに相当する部分を虚像光学系として構成した、所謂メガネ型のウェアラブルデバイスが挙げられる。
 ビデオシースルー型HMDは、ユーザ20の頭部または顔部に装着された場合に、ユーザ20の眼を覆うように装着され、ユーザ20の眼前にディスプレイ等の表示部が保持される。また、ビデオシースルー型HMDは、周囲の風景を撮像するための撮像部を有し、当該撮像部により撮像されたユーザ20の前方の風景の画像を表示部に表示させる。このような構成により、ビデオシースルー型HMDを装着したユーザ20は、外部の風景を直接視野に入れることは困難ではあるが、表示部に表示された画像により、外部の風景を確認することが可能となる。また、このときビデオシースルー型HMDは、例えば、AR技術に基づき、当該ビデオシースルー型HMDの位置及び姿勢のうち少なくともいずれかの認識結果に応じて、外部の風景の画像に対して仮想オブジェクトを重畳させてもよい。
 網膜投射型HMDは、ユーザ20の眼前に投影部が保持されており、当該投影部からユーザ20の眼に向けて、外部の風景に対して画像が重畳するように当該画像が投影される。より具体的には、網膜投射型HMDでは、ユーザ20の眼の網膜に対して、投影部から画像が直接投射され、当該画像が網膜上で結像する。このような構成により、近視や遠視のユーザ20の場合においても、より鮮明な画像を視聴することが可能となる。また、網膜投射型HMDを装着したユーザ20は、投影部から投影される画像を視聴している間も、外部の風景を視野に入れることが可能となる。このような構成により、網膜投射型HMDは、例えば、AR技術に基づき、当該網膜投射型HMDの位置や姿勢のうち少なくともいずれかの認識結果に応じて、実空間に位置する実オブジェクトの光学像に対して仮想オブジェクトの画像を重畳させることも可能となる。
 また、上記に説明した例以外にも、没入型HMDと呼ばれるHMDが挙げられる。没入型HMDは、ビデオシースルー型HMDと同様に、ユーザ20の眼を覆うように装着され、ユーザ20の眼前にディスプレイ等の表示部が保持される。そのため、没入型HMDを装着したユーザ20は、外部の風景(即ち、現実世界の風景)を直接視野に入れることが困難であり、表示部に表示された画像のみが視界に入ることとなる。このような構成により、没入型HMDは、画像を視聴しているユーザ20に対して没入感を与えることが可能となる。そのため、没入型HMDは、例えば、主にVR(Virtual Reality)技術に基づき情報を提示する場合に適用され得る。
 (課題の整理)
 図1に示すように、情報処理端末10aの表示部に表示されているアバタ30aがユーザ20bの近傍に位置する際に、ユーザ20aがユーザ20bの方に視線を向けて発話を行ったとする。この時、情報処理端末10aは、例えば、ユーザ20aの視線に基づき、ユーザ20aがユーザ20bとアバタ30aのどちらに対して発話を行ったかを判別することができる。しかしながら、アバタ30aがユーザ20bの近傍にいる場合、情報処理端末10aは、ユーザ20aによる発話がユーザ20bとアバタ30aのどちらに対する発話であるかの判別を正確に行うことが困難になる。ユーザ20aによる発話がユーザ20bに対するものであるにも関わらず、アバタ30aに対する発話であると誤って判別された場合、アバタ30bが当該発話に対する音声認識結果に基づき不適切な行動を行うことが有り得る。
 そこで、本開示の一実施形態に係る情報処理システムでは、ユーザ20aによる発話がユーザ20bまたはアバタ30aのどちらに対する対話であるかを判別可能な位置にアバタ30aを表示することを可能とする。具体的には、情報処理端末10aは、ユーザ20aとユーザ20bとの間の音声対話が行われ得る領域を特定し、特定した領域の外にアバタ30aの位置を設定し、設定した位置にアバタ30aを表示する。ユーザ20aとユーザ20bとの間の音声対話が行われ得る領域とは、ユーザ20aとユーザ20bとが音声対話を行っているときに、ユーザ20aの視線又は顔が向く領域(換言すると、方向)である。これにより、情報処理端末10aは、特定した領域の中をユーザ20aが見ている時の発話がユーザ20bに対する発話であり、特定した領域の外をユーザ20aが見ている時の発話がアバタ30aに対する発話であると判別することができる。そして、情報処理端末10aは、ユーザ20aの発話対象を判別した結果に応じて、アバタ30aに対して実行させる行動を制御することができるため、アバタ30aに対して適切な行動を実行させることが可能となる。
 なお、上述したユーザ20aとユーザ20bとの間の音声対話が行われ得る領域は、以下では、「音声対話エリア」と称される。また、情報処理端末10がアバタ30aを表示する位置として設定可能な領域は、以下では、「アバタ表示エリア」と称される。
 <1-2.情報処理端末の構成>
 続いて、第1の実施形態に係る情報処理端末10の構成について説明する。図2は、本開示の第1の実施形態に係る情報処理端末の構成例を示すブロック図である。図2に示すように、情報処理端末10は、通信部100、取得部110、制御部120、記憶部130、表示部140、及び音声出力部150を有する。以下では、一例として、情報処理端末10aの構成について説明する。情報処理端末10bの構成は、情報処理端末10aの構成と同様である。即ち、情報処理端末10bの構成については、以下の説明のうち、情報処理端末10aを情報処理端末10bに、ユーザ20aをユーザ20bに読み替えればよい。
 (1)通信部100
 通信部100は、外部装置と通信を行う機能を有する。例えば、通信部100は、外部装置との通信において、外部装置から受信する情報を制御部120へ出力する。具体的には、通信部100は、情報処理端末10bからユーザ20bの位置情報を受信し、制御部120へ出力する。また、通信部100は、情報処理端末10bからユーザ20bのアバタ表示エリアを示す情報を受信し、制御部120へ出力してもよい。
 また、通信部100は、外部装置との通信において、制御部120から入力される情報を外部装置へ送信する。具体的な一例として情報処理端末10aの通信部100の場合、通信部100は、取得部110から入力されるユーザ20aの位置情報を情報処理端末10bへ送信する。また、通信部100は、制御部120から入力されるユーザ20aのアバタ表示エリアを示す情報を情報処理端末10bへ送信してもよい。
 (2)取得部110
 取得部110は、制御部120における処理に用いられる情報を取得する機能を有する。取得部110は、多様なセンサ装置を備え得る。例えば、取得部110は、カメラ、デプスセンサ、マイクロフォン(以下、マイクとも称する)、慣性センサ、及び電極等を含み得る。なお、取得部110は、上述のセンサ装置のうち一つ又は複数を組み合わせ含んでも良いし、同一種類の装置を複数含んでも良い。
 カメラは、RGBカメラ等のレンズ系、駆動系、及び撮像素子を有し、画像(静止画像又は動画像)を撮像する撮像装置である。当該撮像装置により、取得部110は、ユーザ20aの周辺、ユーザ20aの眼を撮像することができる。具体的に、例えば、情報処理端末10aがHMDとして構成される場合、撮像装置がHMDの外部を撮像可能に設けられることで、撮像装置は、ユーザ20aの周辺を撮像することができる。かかる撮像装置を、以下では外向き撮像装置とも称する。また、撮像装置がユーザ20aの眼に向けて設けられることで、撮像装置は、ユーザ20aの眼を撮像することができる。かかる撮像装置を、以下では内向き撮像装置とも称する。
 マイクは、周囲の音を収音し、アンプおよびADC(Analog Digital Converter)を介してデジタル信号に変換した音声データを出力する装置である。当該マイクにより、取得部110は、ユーザ20a及びユーザ20bの音声情報を取得することができる。マイクの数は1つに限定されず、複数であってもよいし、いわゆるマイクアレイを構成していてもよい。慣性センサは、加速度及び角速度等の慣性情報を検出する装置である。当該慣性センサにより、取得部110は、ユーザ20aの慣性情報を取得することができる。電極は、眼電位を検出する装置である。眼電位とは、角膜が帯びている正電荷と網膜が帯びている負電荷との間に生じる電位差である。眼電位は、眼の動きや瞬きにより変化し得る。そのため、眼電位に基づき、眼の動きが検出され得る。さらに、検出された眼の動きに基づき、眼が移動した方向も検出され得る。当該電極は、例えば、ユーザ20aの眼の周辺の位置と対応する情報処理端末10a上の位置に設けられることで、ユーザ20aの眼電位を検出する。当該電極により、取得部110は、ユーザ20aの眼電位を取得することができる。電極の数は1つに限定されず、複数であってもよい。デプスセンサは、赤外線測距装置、超音波測距装置、LiDAR(Laser Imaging Detection and Ranging)又はステレオカメラ等の深度情報を取得する装置である。取得部110は、当該デプスセンサにより取得される情報に基づき、ユーザ20a及びユーザ20bの位置情報を取得することができる。
 取得部110は、上述のセンサ装置のセンシングデータに基づき、制御部120における処理に用いられる情報を取得する位置情報取得部111、視線検出情報取得部112、及び音声情報取得部113を備える。
 (2-1)位置情報取得部111
 位置情報取得部111は、ユーザ20の位置情報を取得する機能を有する。
 位置情報取得部111は、例えば、上述の外向き撮像装置が撮像する画像の画像認識結果に基づき、ユーザ20bの位置情報を取得する。具体的に、位置情報取得部111は、慣性情報に基づいて検出した外向き撮像装置の位置及び姿勢、並びに外向き撮像装置により撮像された画像におけるユーザ20bの位置を組み合わせることで、ユーザ20bの位置情報を取得してもよい。なお、かかる処理により取得される位置情報とは、ユーザ20aを基準とするユーザ20bの方向を示す情報である。位置情報取得部111は、当該ユーザ20bの方向を示す情報に、ユーザ20bの深度情報をさらに組み合わせることで、ユーザ20bの三次元位置を示す位置情報を取得してもよい。
 また、位置情報取得部111は、上述のマイクが取得する音声情報に対して音源方向推定処理を適用することで、ユーザ20bの位置情報を取得してもよい。具体的に、位置情報取得部111は、慣性情報に基づいて検出したマイクの位置及び姿勢、並びに音源方向推定処理により得られたユーザ20bの方向を組み合わせることで、ユーザ20bの位置情報を取得する。なお、かかる処理により取得される位置情報とは、ユーザ20aを基準とするユーザ20bの方向を示す情報である。位置情報取得部111は、当該ユーザ20bの方向を示す情報に、ユーザ20bの深度情報をさらに組み合わせることで、ユーザ20bの三次元位置を示す位置情報を取得してもよい。
 位置情報取得部111は、さらにGPS(Global Positioning System)センサまたは慣性航法装置(INS:Inertial Navigation System)を備えてもよい。位置情報取得部111は、GPSまたはINSが取得する情報に基づきユーザ20aの位置情報を取得してもよい。
 (2-2)視線検出情報取得部112
 視線検出情報取得部112は、ユーザ20aの視線を検出するための情報である視線検出情報を取得する機能を有する。視線検出情報は、例えば、ユーザ20aの眼の画像、ユーザ20aの慣性情報、またはユーザ20aの眼電位である。視線検出情報取得部112は、例えば、上述の内向き撮像装置によりユーザ20aの眼を撮像することで、ユーザ20aの眼の画像を視線検出情報として取得する。また、視線検出情報取得部112は、上述の慣性センサにより、ユーザ20aの慣性情報を視線検出情報として取得する。また、視線検出情報取得部112は、上述の電極により、ユーザ20aの眼電位を視線検出情報として取得する。視線検出情報取得部112は、これらの情報と外向き撮像装置により撮像された画像とを組み合わせることで、外向き撮像装置により撮像された画像のうち、どの領域にユーザ20aの視線が向いているかを示す情報を、視線検出情報として取得することもできる。
 (2-3)音声情報取得部113
 音声情報取得部113は、ユーザ20aまたはユーザ20bの音声情報を取得する機能を有する。音声情報取得部113は、例えば、上述のマイクにより、ユーザ20aまたはユーザ20bの音声情報を取得する。
 (3)制御部120
 制御部120は、情報処理端末10全体の動作を制御する機能を有する。当該機能を実現するために、制御部120は、判定部121、検出部122、特定部123、アバタ制御部124、認識部125を備える。
 (3-1)判定部121
 判定部121は、ユーザ20aとユーザ20bの位置関係を判定する機能を有する。例えば、判定部121は、取得部110から、または取得部110と通信部100から入力される、ユーザ20aの位置情報とユーザ20bの位置情報とに基づき、ユーザ20aとユーザ20bが対話を行っている位置関係にあるか否かを判定する。判定の結果は、特定部123における音声対話エリアの特定に用いられるため、判定部121は、判定した結果を特定部123へ出力する。
 (3-2)検出部122
 検出部122は、入力される情報に基づき、特定部123における処理に用いられる情報を検出する機能を有する。例えば、検出部122は、視線検出情報取得部112が取得した視線検出情報に基づき、ユーザ20aの視線方向情報及び視野情報を検出する。視線方向情報は、ユーザ20aの注視点またはユーザ20aの顔の向きを含む。検出部122が検出したユーザ20aの注視点は、特定部123にて、注視点が分布している領域である注視エリアの特定に用いられる。注視点に基づき特定された注視エリアは、特定部123にて、音声対話エリアの特定にさらに用いられる。検出部122が検出したユーザ20aの顔の向きは、特定部123にて、音声対話エリアの特定に用いられる。
 視野情報は、ユーザ20aの中心視野と周辺視野とを示す情報を含む。一般的に、人間の視野は、左右にそれぞれ約100度ある。その内、物体の形や色を明瞭に認識できる範囲は、中心視野とも称され、左右にそれぞれ約20度である。また、人間の視野から中心視野の範囲を除いた範囲は、周辺視野とも称される。人間は、周辺視野では物体の形や色を明瞭に認識することは困難である。検出部122は、例えば、ユーザ20aの視線方向の左右20度以内の範囲を中心視野として検出し、左右20度超であって100度以下の範囲を周辺視野として検出する。上下方向についても同様である。
 検出部122は、視線方向情報としてユーザ20aの注視点を検出した場合、当該注視点の位置を基準にユーザ20aの中心視野と周辺視野を検出することができる。そのため、視線検出情報に基づきユーザ20aの注視点が検出された場合、検出部122は、注視点に基づき中心視野と周辺視野をさらに検出し、検出した中心視野と周辺視野を示す情報を特定部123へ出力する。そして、ユーザ20aの中心視野と周辺視野は、特定部123にてアバタ表示エリアの特定に用いられる。
 一方、検出部122は、視線方向情報としてユーザ20aの顔の向きを検出した場合、当該顔の向きを基準に、上述の一般的な人間の周辺視野の角度から、ユーザ20aの周辺視野を推定し、推定した周辺視野を特定部123へ出力する。そして、ユーザ20aの周辺視野は、特定部123にてアバタ表示エリアの特定に用いられる。
 (3-3)特定部123
 特定部123は、入力される情報に基づき、各種のエリアを特定する機能を有する。
 視線方向情報がユーザ20aの注視点である場合、特定部123は、検出部122から入力されるユーザ20aの注視点に基づき、ユーザ20aの注視エリアを特定する。また、特定部123は、検出部122から入力されるユーザ20aとユーザ20bとが対話している時のユーザ20aの視線方向情報に基づき、音声対話エリアを特定する。特定部123は、検出部122から入力されるユーザ20aの音声対話エリア、中心視野、及び周辺視野に基づき、アバタ表示エリアを特定する。具体的には、特定部123は、音声対話エリア及び中心視野の外部であって、ユーザ20aの周辺視野の内部の範囲を、ユーザ20aのアバタ表示エリアとして特定する。
 視線方向情報がユーザ20aの顔の向きである場合、特定部123は、まず、検出部122から入力されるユーザ20aとユーザ20bとが対話している時のユーザ20aの視線方向情報に基づき、音声対話エリアを特定する。また、検出部122から入力されるユーザ20aの顔の向きに基づき、ユーザ20aの視線が移動し得る領域である視線移動エリアを特定する。次いで、特定部123は、特定した音声対話エリアと視線移動エリア、及び検出部122から入力されるユーザ20aの周辺視野に基づき、ユーザ20aのアバタ表示エリアを特定する。具体的には、特定部123は、視線移動エリアの外部であって、ユーザ20aの周辺視野の内部の範囲を、ユーザ20aのアバタ表示エリアとして特定する。
 このように、特定部123がユーザ20aとユーザ20bとが対話している時のユーザ20aの視線方向情報に基づき音声対話エリアを特定することで、ユーザ20aの視線によりユーザ20aの発話対象の判別を行うことが困難な空間が特定される。
 (3-4)アバタ制御部124
 アバタ制御部124は、アバタ30に関する制御を行う機能を有する。例えば、アバタ制御部124は、特定部123が特定したアバタ表示エリアに基づき、アバタ30を表示する位置(以下では、アバタ30の位置とも称される)を設定する。アバタ制御部124は、アバタ表示エリアの中であれば、任意の位置にアバタ30の位置を設定してもよい。
 アバタ制御部124は、設定したアバタ30の位置におけるアバタ30の表示を制御する。例えば、アバタ制御部124は、設定したアバタ30の位置にアバタ30を表示できる場合、アバタ30を表示させる。また、アバタ制御部124は、設定したアバタ30の位置にアバタ30を表示できない場合、アバタ30の位置を再設定してアバタ30を表示させる。
 アバタ制御部124は、アバタ30を表示可能な位置にアバタ30の位置を設定できない場合、アバタ30を表示可能な位置ではないが、アバタ表示エリアの中の位置にアバタ30の位置を設定する。この場合、アバタ制御部124は、設定したアバタ30の位置を示す情報をユーザ20aに提示させる。例えば、アバタ制御部124は、設定したアバタ30の位置を、オブジェクトの表示または音声の出力により提示させる。これにより、ユーザ20aは、アバタ30aが表示されていなくても、表示されるオブジェクトまたは出力される音声により、アバタ30の位置を知ることができる。
 アバタ制御部124は、アバタ30aによる所定の行動の実行を制御する。所定の行動は、認識部125による音声認識の結果に基づき決定される行動である。例えば、ユーザ20aが音声対話エリアの外を見ている時にユーザ20aの音声情報が取得された場合、アバタ制御部124は、アバタ30aに所定の行動を実行させる。例えば、アバタ制御部124は、ユーザ20aの音声情報に対する音声認識により認識されたユーザ20aからの指示をアバタ30aに実行させる。一方、ユーザ20aが音声対話エリアの中を見ている時にユーザ20aの音声情報が取得された場合、アバタ制御部124は、アバタ30aが所定の行動を実行することを抑制する。抑制とは、例えば、アバタ30aがユーザ20aの発話に対して反応することを禁止することである。
 上述のように、アバタ制御部124は、ユーザ20aの音声情報が取得された際に、ユーザ20aが音声対話エリアの中を見ているか否かにより、ユーザ20aの発話がアバタ30aに対するものであるか否かを判別することができる。
 アバタ制御部124は、通信部100を介して、ユーザ20bに対してアバタ30bが表示され得る位置に関する情報を外部装置から取得する。アバタ30bが表示され得る位置は、例えば、情報処理端末10bの特定部123が特定するアバタ30bのアバタ表示エリアである。アバタ制御部124は、通信部100を介して、アバタ30bのアバタ表示エリアを示す情報を情報処理端末10bから取得する。そして、取得したアバタ30bのアバタ表示エリアを示す情報を特定部123へ出力する。アバタ30bのアバタ表示エリアを示す情報は、例えば、ユーザ20aとユーザ20bが共通のアバタを使用する際のアバタ表示エリアの特定に用いられる。
 (3-5)認識部125
 認識部125は、音声情報に基づき音声認識を行う機能を有する。認識部125は、例えば、ユーザ20aがアバタ30aに対して発話した際に取得される音声情報に対して音声認識を行う。これにより、認識部125は、当該音声情報から、ユーザ20aのアバタ30aに対する指示等を認識することができる。そして、認識部125は、音声認識の結果をアバタ制御部124へ出力する。
 (4)記憶部130
 記憶部130は、情報処理端末10における処理に関するデータを記憶する機能を有する。例えば、記憶部130は、取得部110により取得される位置情報、視線検出情報、及び音声情報を記憶する。また、記憶部130は、制御部120において判定された情報、検出された情報、特定された情報、アバタ制御に用いられる情報、及び認識された情報等を記憶してもよい。また、記憶部130は、通信部100を介して取得された情報を記憶してもよい。なお、記憶部130が記憶するデータは、上述の例に限定されない。例えば、記憶部130は、各種アプリケーション等のプログラムを記憶してもよい。
 (5)表示部140
 表示部140は、アバタ30を表示する機能を有し、アバタ制御部124が設定した位置にアバタ30を表示する。これにより、表示部140は、ユーザ20aによる発話がアバタ30aまたはユーザ20bのどちらに対する発話であるかを判別可能な位置に、アバタ30aを表示することができる。なお、表示部140は、アバタ30を表示可能な画面により実現され得る。例えば、情報処理端末10aがHMDとして構成される場合、表示部140は、ユーザ20aの左右の眼にそれぞれ固定された左右の画面を備え、左眼用画像および右眼用画像を表示する。表示部140の画面は、例えば液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL((Electro Luminescence)ディスプレイなどの表示パネル、または、網膜直描ディスプレイなどのレーザー走査方式ディスプレイで構成される。
 (6)音声出力部150
 音声出力部150は、制御部120から入力される音声を出力する機能を有する。音声出力部150は、例えば、制御部120から入力されるアバタ30の表示位置を示す音声を出力する。なお、音声出力部330は、例えば、スピーカにより実現され得る。スピーカは、例えば情報処理端末10がHMDとして構成される場合、ユーザ20aの頭部に装着されるヘッドフォンとして構成され、音声信号を再生する。なおスピーカは、ヘッドフォン型に限定されず、イヤフォン、若しくは骨伝導スピーカとして構成されてもよい。
 <1-3.音声対話エリアとアバタの表示位置>
 以上、情報処理端末10の構成について説明した。続いて、音声対話エリアとアバタの表示位置について説明する。本実施形態に係る情報処理端末10aは、ユーザ20aの視線またはユーザ20aの顔の向きに基づき、音声対話エリア40aの特定とアバタ30aの位置の設定を行う。以下では、ユーザ20aとユーザ20bが向かい合い、静止した状態で対話を行う状況を例に説明する。
 (1)視線に基づく音声対話エリアの特定とアバタの位置の設定
 まず、情報処理端末10aがユーザ20aの視線に基づき音声対話エリア40aの特定とアバタ30aの設定を行う例について説明する。図3は、本実施形態に係る注視エリアの検出例を示す図である。図4は、本実施形態に係る視線に基づく音声対話エリア及びアバタ表示エリアを示す図である。図5は、本実施形態に係るアバタの表示位置の例を示す図である。
 (1-1)注視点の検出
 まず、検出部122は、視線検出情報に基づき、視線方向情報としてユーザ20aの注視点41を検出する。例えば、図3に示すように、検出部122は、視線検出情報として取得されるユーザ20aの眼が撮像された撮像画像に基づき、視線方向情報としてユーザ20aの注視点41を検出する。なお、図3では、検出部122により検出される複数の注視点41の内の一つのみに符号が付されており、他は省略されている。また、検出部122は、視線検出情報として取得されるユーザ20aの眼電位に基づき、視線方向情報としてユーザ20aの注視点41を検出してもよい。例えば、検出部122は、ユーザ20aの眼電位からユーザ20aの眼の移動を検出し、ユーザ20aの眼が移動した方向からユーザ20aの注視点41を検出する。
 検出部122は、ユーザ20aの注視点41を検出することで、ユーザ20aの視線方向を検出することができる。また、検出部122は、ユーザ20aの複数の注視点41を検出することで、ユーザ20aの視線方向の分布を取得でき、ユーザ20aの視線方向の特定の精度を高めることができる。さらに、検出部122は、判定部121が判定した位置関係も用いることで、ユーザ20aの視線方向の特定の精度をさらに高めることができる。
 (1-2)注視エリアの特定
 次いで、図3に示すように、特定部123は、ユーザ20aの注視点41が分布している領域である注視エリア42を特定する。また、注視エリア42は、ユーザ20aの視度範囲により特定される領域であってもよい。また、注視エリア42は、予め推定されたユーザ20aの視線が動く領域であってもよい。なお、図3に示す注視エリア42の形状は円形であるが、注視エリア42の形状は特に限定されない。
 (1-3)音声対話エリアの特定
 そして、特定部123は、特定した注視エリア42と判定部121が判定した位置関係に基づき、音声対話エリア40を特定する。例えば、ユーザ20aの注視エリア42の方向にユーザ20bが位置している場合、ユーザ20aがユーザ20bを見ているといえる。よって、特定部123は、図4に示すように、ユーザ20aとユーザ20bとの間に、音声対話エリア40があると特定する。音声対話エリア40は、例えば、ユーザ20aの両目の間の位置を頂点、ユーザ20aの注視エリア42を底面とする円錐型の形状をしている。なお、音声対話エリア40の形状は、特に限定されず、任意の形状であってもよい。
 (1-4)アバタ表示エリアの特定
 また、特定部123は、特定した音声対話エリア40aと、検出部122が検出する視野情報に基づき、アバタ表示エリア50aを特定する。まず、検出部122は、視野情報としてユーザ20aの周辺視野を予め検出しておく。音声対話エリア40aがユーザ20aの注視点41に基づき特定された場合、検出部122は、ユーザ20aの中心視野52をさらに検出する。そして、特定部123は、音声対話エリア40aの外、ユーザ20aの中心視野52aの外、かつユーザ20aの周辺視野54aの中の領域をアバタ表示エリア50aとして特定する。
 特定部123が特定した音声対話エリア40aと視野情報に基づきアバタ表示エリア50aを特定することで、アバタ制御部124は、ユーザ20aの発話対象を判別が困難な位置へアバタ30を表示させないことができる。
 (1-5)アバタの位置の設定
 そして、アバタ制御部124は、アバタ表示エリア50aの中の位置に、アバタ30aの位置を設定する。アバタ表示エリア50aは、ユーザ20aの発話対象の判別を行いやすいエリアとして特定部123により特定されたエリアである。そのため、アバタ制御部124がアバタ表示エリア50aの中の位置にアバタ30aの位置を設定することで、制御部120は、ユーザ20aの発話対象の判別を容易に行うことができる。なお、設定したアバタ30aの位置にアバタ30aを表示できない場合、アバタ制御部124は、アバタ30aの位置を再設定してもよい。例えば、図5に示すように、障害物80が存在する場合、アバタ制御部124は、障害物80を避けて表示可能な位置に、アバタ30aの位置を設定する。この時、アバタ制御部124は、アバタ30aの位置を3次元的に移動させてもよい。例えば、また、水平方向へアバタ30aを移動させてもユーザ20aの視線または顔の向きの変化が生じる位置を確保できない場合、アバタ制御部124は、アバタ30aを上下方向へ移動させてもよい。これにより、ユーザ20aがアバタ30aに対して発話を行う際に、ユーザ20aの視線または顔の向きが上下方向を移動するため、制御部120は、ユーザ20aの発話対象がアバタ30aであるか否かを判別することができる。
 (2)顔の向きに基づく音声対話エリアの特定とアバタの位置の設定
 以上、視線に基づく音声対話エリアの特定とアバタの位置の設定について説明した。続いて、情報処理端末10aがユーザ20aの顔の向きに基づき音声対話エリア40aの特定とアバタ30aの設定を行う例について説明する。図6は、本実施形態に係る顔の向きに基づく音声対話エリア及びアバタ表示エリアを示す図である。なお、顔の向きに基づき音声対話エリア40aの特定とアバタ30aの位置の設定は、ユーザ20aの視線を検出することが困難な場合に実施される。
 (2-1)顔の向きの検出
 まず、検出部122は、視線検出情報として取得されるユーザ20aの慣性情報に基づき、視線方向情報としてユーザ20aの顔の向きを検出する。
 (2-2)視線移動エリアの特定
 次いで、図6に示すように、特定部123は、ユーザ20aの顔の向きと判定部121が判定した位置関係に基づき、音声対話エリア40aを特定する。特定部123は、例えば図6に示すように、ユーザ20aが向いている方向、かつユーザ20aとユーザ20bとの間の空間を音声対話エリア40aとして特定する。特定部123は、ユーザ20aが視線を移動可能な領域である視線移動エリア56aをさらに特定する。また、特定部123は、例えば、一般的なユーザ20が視線を移動可能な角度から、視線移動エリア56aを特定する。なお、特定部123が視線移動エリア56aを特定する方法は特に限定されない。
 (2-3)アバタ表示エリアの特定
 アバタ制御部124は、図6に示すように、音声対話エリア40aの外、視線移動エリア56aの外、かつユーザ20aの周辺視野54aの中の位置をアバタ表示エリア50aとして特定する。
 (2-4)アバタの位置の設定
 そして、アバタ制御部124は、アバタ表示エリア50aの中の位置に、アバタ30aの位置を設定する。なお、設定したアバタ30aの位置にアバタ30aを表示できない場合、アバタ制御部124は、上述の「(1-5)アバタの位置の設定」で説明したように、アバタ30aの位置を再設定してもよい。
 ユーザ20aの視線を検出できない場合、ユーザ20aの顔の向きを検出することで、音声対話エリア40aを特定することができる。また、特定部123が視線移動エリア56aも特定することで、アバタ制御部124は、音声対話エリア40aの近傍でありユーザ20aの発話対象の判別が困難な位置へアバタ30を表示させないことができる。
 (3)音声対話エリアの静的特定
 以上、顔の向きに基づく音声対話エリアの特定とアバタの位置の設定について説明した。続いて、音声対話エリアの静的特定について説明する。上述の例では、音声対話エリアが動的に特定される例について説明したが、音声対話エリアは静的に特定されてもよい。
 例えば、特定部123は、ユーザ20aとユーザ20bとの間の音声対話が行われ得ると推定される領域を、音声対話エリア40aとして予め特定する。特定部123は、実物体の種別及び位置情報、並びに当該実物体に関与する会話をユーザ20a及びユーザ20bが行う場合に想定されるユーザ20a及びユーザ20bの位置情報に基づいて、音声対話エリア40aを推定する。そして、特定部123は、推定した領域を、音声対話エリア40aとして特定する。例えば、ユーザ20aがスーパーマーケットの店員であり、ユーザ20bがスーパーマーケットの客である場合、特定部123は、会計時にユーザ20a及びユーザ20bの間に挟まれると想定される、レジ台上部の空間を、音声対話エリア40aとして特定する。なお、実物体の種別及び位置情報、当該実物体に関与する会話をユーザ20a及びユーザ20bが行う場合に想定されるユーザ20a及びユーザ20bの位置情報は、カメラまたはRFID(Radio Frequency Identifier)等により事前に取得され、管理され得る。
 (4)音声対話エリアの特定例とアバタの位置の設定例
 以上、音声対話エリアの静的特定について説明した。続いて、音声対話エリアの特定例とアバタの位置の設定例について説明する。上述の例では、ユーザ20aとユーザ20bが向かい合い、静止した状態で対話を行う状況を例に説明する。以下では、上述の例とは異なる状況における例について説明する。
 (4-1)対話相手を見ていない場合
 まず、ユーザ20aがユーザ20bを見ることなく対話を行っている状況を例に説明する。図7は、本実施形態に係る対話相手を見ていない場合における、音声対話エリア及びアバタ表示エリアを示す図である。図7に示すように、ユーザ20aがユーザ20bを見ることなく、ユーザ20bと対話している場合、特定部123は、ユーザ20a及びユーザ20bの位置関係に基づき、ユーザ20aとユーザ20bとの間の空間を音声対話エリア40として特定する。ユーザ20aとユーザ20bとの間の空間とは、例えば、ユーザ20aの頭部とユーザ20bの頭部とを両端部とする柱状の空間である。
 アバタ表示エリア50は、対話相手を見ている時と同様に特定される。アバタ30の位置は、例えば、図7に示すように、ユーザ20aの左側のアバタ表示エリア50aに設定される。ユーザ20aの右側のアバタ表示エリア50aと、ユーザ20bの左側のアバタ表示エリア50bとが重複する、共通のアバタ表示エリアにアバタ30の位置が設定されると、ユーザ20aのアバタ30aをユーザ20bも見ることができる。しかしながら、その場合、ユーザ20aから見た共通のアバタ表示エリアに表示されるアバタの位置とユーザ20bの位置との差が微差になるので、ユーザ20aの発話がアバタ30aとユーザ20bのどちらに対するものであるかの判別が困難になる。そのため、図7に示すように、ユーザ20aの左側のアバタ表示エリア50aにアバタ30aが表示されることが望ましい。
 なお、対話相手を見ていない場合における音声対話エリア40は、音声情報に基づき特定されてもよい。例えば、特定部123は、音声情報に基づき特定される対話相手の位置に基づき、音声対話エリア40を特定してもよい。また、特定部123は、ユーザ20aとユーザ20b間で交互に発話される音声に基づき互いの発話位置を特定し、特定した各々の発話位置を結ぶ空間を音声対話エリア40として特定してもよい。
   (4-1-1)ユーザ20a及びユーザ20bが移動している場合
 続いて、図7に示した状況から、ユーザ20a及びユーザ20bが移動を開始した場合について説明する。図8は、本実施形態に係る移動中における、音声対話エリア及びアバタ表示エリアを示す図である。図9は、本実施形態に係る1人のユーザのみがアバタを有する場合における、移動開始時のアバタの位置の変化を示す図である。図10は、本実施形態に係る2人のユーザがアバタを有する場合における、移動開始時のアバタの位置の変化を示す図である。
 図8に示す例では、ユーザ20a及びユーザ20bは、それぞれ矢印81a及び矢印81bの方向へ移動しているものとする。図8に示すように、ユーザ20a及びユーザ20bが並列に並んで移動している場合、アバタ制御部124は、ユーザ20aとユーザ20bの移動方向の空間の外の位置に、アバタの位置を設定する。例えば、図8に示すユーザ20aとユーザ20bの移動方向の矢印81aと矢印81bの間の空間は、ユーザ20aの発話がアバタ30aとユーザ20bのどちらに対するものであるかの判別が困難な空間である。そこで、アバタ制御部124は、当該空間を、アバタ30aを表示しない空間であるアバタ非表示エリア58として設定してもよい。そのため、図8に示す例では、図7に示した例の場合と同様に、アバタ制御部124は、ユーザ20aの左側のアバタ表示エリア50aにアバタ30aを表示させる。
 なお、ユーザ20a及びユーザ20bの移動開始時に、ユーザ20a及びユーザ20bの方向に変化が生じた場合、アバタ制御部124は、当該変化に応じてアバタ30の位置を変化させてもよい。例えば、図9の上図では、ユーザ20a及びユーザ20bが向かい合っている状態であり、ユーザ20aのアバタ30aのみがユーザ20aの左側のアバタ表示エリア50aに表示されている。この状態から、ユーザ20aは、図9の下図に示すように、Z軸方向に方向を変えて移動を開始する。この時、アバタ制御部124は、ユーザ20aが左方向へ回転したことに合わせて、ユーザ20aの位置を軸にアバタ表示エリア50a及びアバタ30aの位置も左方向へ回転させる。
 また、図10の上図では、ユーザ20a及びユーザ20bが向かい合っている状態であり、ユーザ20aのアバタ30aがユーザ20aの左側のアバタ表示エリア50aに、ユーザ20bのアバタ30bがユーザ20bの右側のアバタ表示エリア50bに表示されている。この状態から、図9の下図に示すように、ユーザ20a及びユーザ20bはZ軸方向に方向を変えて移動を開始する。この時、アバタ制御部124は、ユーザ20aが左方向へ回転したことに合わせて、ユーザ20aの位置を軸にアバタ表示エリア50a及びアバタ30aの位置も左方向へ回転させる。また、アバタ制御部124は、ユーザ20bが右方向へ回転したことに合わせて、ユーザ20bの位置を軸にアバタ表示エリア50b及びアバタ30bの位置も右方向へ回転させる。
 このように、アバタ制御部124は、ユーザ20が方向変化を伴う移動をする際に、ユーザ20の方向の変化に応じてアバタ30の表示位置を変更する。これにより、アバタ制御部124は、ユーザ20の移動を邪魔することなくアバタ30を表示させることができる。また、図9及び図10に示したように、アバタ制御部124は、ユーザ20から見たアバタ30の位置をユーザ20の方向変化の前後で同じ位置にすることができる。これにより、ユーザ20は、方向変化によりアバタ30を見失うことなく移動することができる。また、アバタ制御部124は、アバタ30を移動させる際に、アバタ30の移動経路も表示する等、アバタ30の移動経路がユーザに分かるようにアバタ30を移動させてもよい。これにより、アバタ制御部124は、移動後のアバタ30の位置をユーザ20により認識しやすくさせることができる。
   (4-1-2)ユーザ20aが作業をしている場合
 続いて、ユーザ20aが作業中に、ユーザ20bを見ることなく対話を行っている状況を例に説明する。図11は、本実施形態に係る作業中における、音声対話エリア及びアバタ表示エリアを示す図である。図12は、本実施形態に係る遮蔽物を考慮したアバタの表示の例を示す図である。
 例えば、ユーザ20aが作業中である場合、アバタ制御部124は、ユーザ20aが作業を行う領域である作業エリアの外の位置に、アバタ30aの位置を設定する。作業エリアは、例えば、ユーザ20aの腕の可動する範囲に基づき特定される。具体的に、図11に示すように、ユーザ20aの右腕22aの可動する範囲が可動域62aである場合、アバタ制御部124は、当該可動域62を作業エリアとして特定する。アバタ制御部124は、当該作業エリアを、アバタ30aを表示させない領域であるアバタ非表示エリアとして特定する。そして、アバタ制御部124は、エリアの外にアバタ30aの位置を設定する。例えば、アバタ制御部124は、図11に示すアバタ表示エリア50aの中の位置にアバタ30aの位置を設定する。また、ユーザ20aの中心視野52aは、ユーザ20aが作業対象等を見ている視野となる。そのため、アバタ制御部124は、当該中心視野52aの中にもアバタ30を表示しないようにアバタ30aの位置を設定する。これにより、アバタ制御部124は、ユーザ20aの作業を邪魔しない位置にアバタ30aを表示させることができる。
 なお、アバタ制御部124は、作業台82の上の全ての空間を、アバタ30aを表示させないアバタ非表示エリアとして特定してもよい。また、ユーザ20aが情報での作業を行っていることが検出された場合、アバタ制御部124は、上方にはアバタ30aを表示しないように、アバタ30aの位置を設定してもよい。
 また、ユーザ20aの腕の可動域及び周辺視野が検出されている場合、アバタ制御部124は、腕の可動域の外かつ周辺視野内にアバタ30aの位置を設定する。また、腕の可動域の外でアバタ30aの位置を設定できる場所がない場合、アバタ制御部124は、腕の可動域の中で腕が可動する可能性が低い位置、かつ周辺視野の中の位置にアバタ30aの位置を設定してもよい。また、アバタ30aの位置を設定できる場所がない場合、アバタ制御部124は、矢印等のオブジェクトまたは音声によりアバタ30aの位置をユーザ20aに提示してもよい。
 制御部120は、ユーザ20aが作業中であるか否かを、取得部110が取得する情報に基づき検出する。例えば、外向きの撮像装置が撮像した画像からユーザ20aが手または脚を動かしていること、及びユーザ20aの視線方向情報からユーザ20aが手または脚を見ていることが検出された場合、制御部120は、ユーザ20aが作業中であると判定する。
 ユーザ20aが作業中であることが検出された場合、アバタ制御部124は、ユーザ20aの利き手を考慮した位置にアバタ30aの位置を設定してもよい。例えば、アバタ制御部124は、ユーザ20aの利き手とは反対側にアバタ30aの位置を設定する。アバタ制御部124は、ユーザ20aの利き手を、予めユーザ20aに登録された情報に基づき特定する。なお、ユーザ20aの利き手の情報が登録されていない場合、アバタ制御部124は右手をデフォルト設定としてもよい。
 また、ユーザ20aの腕の可動域のみが検出されている場合、制御部120は、直前に検出された視線に基づき、現在のユーザ20aの視線を推定する。そして、制御部120は、検出した腕の可動域と推定したユーザ20aの視線に基づき、ユーザ20aが作業中であるか否かを検出してもよい。
 また、制御部120は、ユーザ20aの腕の動きを一定時間検出することで、ユーザ20aの腕の動きを学習し、学習した結果に基づき、ユーザ20aの腕の可動域を検出してもよい。
 また、図12の左図に示すアバタ表示エリア50a内に、棚83等の遮蔽物が存在する場合、当該遮蔽物の位置にアバタ30aが表示されないことが望ましい。よって、アバタ制御部124は、図12の右図に示すように、ユーザ20aの右腕22aの可動域62a及び左腕24aの可動域64aの外、かつアバタ表示エリア50aの中で棚83が存在しない位置にアバタ30aを表示させる。なお、制御部120は、当該遮蔽物に関する情報を予め登録しておくことで検出してもよいし、一般物体認識により検出してもよい。
  (4-2)互いのアバタを使用可能な場合
 続いて、ユーザ20a及びユーザ20bが互いのアバタ30を使用可能な場合について説明する。図13は、本実施形態に係るアバタのステータスの提示例を示す図である。ユーザ20aとユーザ20bが互いのアバタ30を使用可能な場合、アバタ制御部124は、ユーザ20aとユーザ20bの共通のアバタ表示エリアの中に、それぞれのアバタ30の位置を設定する。例えば、図13に示すように、アバタ制御部124は、ユーザ20aの左側のアバタ表示エリア50aとユーザ20bの右側のアバタ表示エリア50bの共通のアバタ表示エリアの中にユーザ20aのアバタ30aの位置を設定する。また、アバタ制御部124は、ユーザ20aの右側のアバタ表示エリア50aとユーザ20bの左側のアバタ表示エリア50bの共通のアバタ表示エリアの中にユーザ20bのアバタ30bの位置を設定する。これにより、ユーザ20aとユーザ20bは、互いのアバタ30をそれぞれ見ることができ、どちらのアバタ30に対しても対話を行うことができる。
 なお、ユーザ20aとユーザ20bが互いのアバタ30を使用可能な場合、どちらのユーザ20がどちらのアバタ30を使用しているかの判別が困難になり得る。そこで、アバタ制御部124は、アバタ30の使用状況を示すステータスを表示させてもよい。例えば、図13に示すように、ユーザ20bがアバタ30aを使用している場合、アバタ制御部124は、ユーザ20bがアバタ30aを使用していることを示すステータス34aを表示させてもよい。また、ユーザ20aがアバタ30bを使用している場合、アバタ制御部124は、ユーザ20aがアバタ30bを使用していることを示すステータス34bを表示させてもよい。当該ステータスは、ステータス34aのように円でユーザ20bとアバタ30aがつながっていることを示してもよいし、ステータス34bのように線(破線)でユーザ20aとアバタ30bがつながっていることを示してもよい。これにより、ユーザ20は、アバタ30の使用状況を視覚的に認識することができる。
 また、アバタ制御部124は、アバタ30aとアバタ30bの位置を離すことで、各ユーザ20の発話がどちらのアバタ30に対する発話であるかを判別できるようにしてもよい。また、ユーザ20aがアバタ30aに対して発話した際に、アバタ制御部124は、アバタ30bにアバタ30aとの距離を取らせることで、発話対象の判別が容易にできるようにしてもよい。
  (4-3)共通のアバタを使用する場合
 続いて、ユーザ20aとユーザ20bが共通のアバタ30cを使用する場合について説明する。図14は、本実施形態に係るアバタを共有、かつ共通周辺視野がある場合のアバタの表示例を示す図である。図15は、本実施形態に係るアバタを共有、かつ共通周辺視野があるが共通周辺視野外へアバタを表示させる場合のアバタの表示例を示す図である。図16は、本実施形態に係るアバタを共有、かつ共通周辺視野がない場合のアバタの表示例を示す図である。図14~図16が示す例は、展示物84について説明を行う観光案内用のアバタ30cを、ユーザ20aとユーザ20bが共有する例について説明する。なお、観光案内用のアバタ30cは、案内する対象の近くに表示位置が設定されることが望ましい。例えば、図14に示すように、観光案内用のアバタ30cは、展示物84を説明する都合上、展示物84から一定距離以上離れない位置にいることが望ましい。よって、図14~図16に示す例では、アバタ30cがライン85よりも展示物84側(以下では、「ライン85の内側」とも称される)に位置するものとする。ライン85とは、展示物84からの距離が所定距離以内となる空間の境界線である。
 ユーザ20aとユーザ20bが共通のアバタを使用する場合、アバタ制御部124は、ユーザ20aの周辺視野54aとユーザ20bの周辺視野54bとの共通する空間に、共通のアバタ30cの位置を設定する。これにより、ユーザ20aとユーザ20bは、共有するアバタ30cを同時に見ることが可能である。例えば、図14に示す例では、ユーザ20aの周辺視野54aとユーザ20bの周辺視野54bの共通する空間は、ユーザ20aの右側のアバタ表示エリア50aとユーザ20bの左側のアバタ表示エリア50bとの共通する空間である。そのため、アバタ制御部124は、当該共通する空間に共通のアバタ30cの位置を設定する。図14に示す共通のアバタ30cの位置は、ライン85の内側であるため、アバタ制御部124は、当該位置に共通のアバタ30cを表示させることができる。
 しかしながら、ユーザ20aの周辺視野54aとユーザ20bの周辺視野54bの共通する空間は、必ずしもライン85の内側にあるとは限らない。例えば、図15に示す例では、ユーザ20aの周辺視野54aとユーザ20bの周辺視野54bの共通する空間は、ユーザ20aの右側のアバタ表示エリア50aとユーザ20bの左側のアバタ表示エリア50bとの共通する空間である。当該空間は、ライン85の外側である。そのため、アバタ制御部124は、当該空間に共通のアバタ30cの位置を設定することはできない。この場合、アバタ制御部124は、ユーザ20aの周辺視野54aまたはユーザ20bの周辺視野54bのいずれかを選択し、選択した周辺視野54に共通のアバタ30cの位置を設定する。これにより、アバタ制御部124は、ユーザ20aまたはユーザ20bの少なくとも一方に共通のアバタ30cを見せることができる。図15に示す例では、アバタ制御部124は、ユーザ20aの周辺視野54aを選択し、さらにライン85の内側にあるユーザ20aの左側のアバタ表示エリア50aの中に共通のアバタ30cの位置を設定している。そのため、少なくともユーザ20aは、共通のアバタ30cを見ることができる。
 また、ユーザ20aの周辺視野54aとユーザ20bの周辺視野54bの共通する空間が存在しない場合も有り得る。その場合、図15に示した例と同様に、アバタ制御部124は、ユーザ20aの周辺視野54aまたはユーザ20bの周辺視野54bのいずれかを選択し、選択した周辺視野54に共通のアバタ30cの位置を設定する。例えば、図16に示す例では、ユーザ20aの周辺視野54aとユーザ20bの周辺視野54bの共通する空間が存在しない。そこで、アバタ制御部124は、ユーザ20aの周辺視野54aを選択し、さらにライン85の内側にあるユーザ20aの左側のアバタ表示エリア50aの中に共通のアバタ30cの位置を設定している。そのため、少なくともユーザ20aは、共通のアバタ30cを見ることができる。
 なお、図15及び図16に示した例では、ユーザ20bは共通のアバタ30cを見ることができず、共通のアバタ30cの位置を見失うことが起こり得る。そこで、アバタ制御部124は、共通のアバタ30cが表示されていないユーザ20に対して、共通のアバタ30cの位置を、矢印等のオブジェクトの表示または音声の出力により知らせてもよい。
 なお、アバタ制御部124は、状況に応じて共通のアバタ30cの位置を変更してもよい。例えば、共通のアバタ30cがユーザ20aのアバタ表示エリア50aに表示されているとする。この時、ユーザ20bから共通のアバタ30cに対する発話があった場合、アバタ制御部124は、共通のアバタ30cの位置をユーザ20bのアバタ表示エリア50bに変更してもよい。
 また、図14に示した例のように、アバタ制御部124は、ユーザ20aの周辺視野54aとユーザ20bの周辺視野54bの共通する空間に共通のアバタ30cの位置を設定したとする。この時、ユーザ20aの発話対象が共通のアバタ30cとユーザ20bのどちらであるかの判別が困難である場合、アバタ制御部124は、ユーザ20aの周辺視野54aまたはユーザ20bの周辺視野54bを、共通のアバタ30cの位置として選択してもよい。
 また、各ユーザ20の位置が移動した場合、アバタ制御部124は、各ユーザ20から見える位置に共通のアバタ30cの位置を再設定することが望ましい。
 (5)音声対話エリアの解除
 以上、音声対話エリアの特定例とアバタの位置の設定例について説明した。続いて、音声対話エリア40aの解除について説明する。
 (5-1)音声対話が終了した場合
 アバタ制御部124は、ユーザ20aの発話が終了してから一定時間以上経過してもユーザ20bの発話がない場合、音声対話終了したとみなし、音声対話エリア40aを解除する。また、ユーザ20aの発話が終了してから一定時間以内であっても、ユーザ20aの注視点41aがユーザ20bから外れた場合、アバタ制御部124は、音声対話エリア40aを解除してもよい。
 (5-2)新しい対話相手との音声対話が開始した場合
 アバタ制御部124は、ユーザ20aとユーザ20bとの対話が終了していない状態でも、新しいユーザ20cとの対話が開始し、ユーザ20aの注視点41aがユーザ20cに向いている場合、ユーザ20bとの音声対話エリア40aを解除する。そして、アバタ制御部124は、ユーザ20cとの音声対話エリア40aを新しく特定する。
 なお、一定時間以内に複数のユーザ20との対話が継続している場合、アバタ制御部124は、複数のユーザ20のそれぞれに対する複数の音声対話エリア40を維持する。例えば、ユーザ20aがユーザ20bとユーザ20cと対話をしており、ユーザ20aの注視点41aがユーザ20bとユーザ20cのそれぞれに対して向いているとする。この時、アバタ制御部124は、ユーザ20bとユーザ20cのそれぞれに対する音声対話エリア40aを維持する。
 <1-4.表示部におけるアバタの表示例>
 以上、本実施形態に係る音声対話エリアとアバタの表示位置について説明した。続いて、本実施形態に係る表示部140におけるアバタ30aの表示例について説明する。表示部140におけるアバタ30aの表示は、表示部140におけるユーザ20aが見ている位置及び表示部140の性能に応じて変化する。
 図17は、本実施形態に係るアバタが表示されている際に、視線を視線検知エリア内で移動させた場合における、表示部へのアバタの表示例を示す図である。図17の上図では、表示部140aの大きさよりも小さい視線検知エリア72aの中に、ユーザ20aの注視エリア42aがある。当該注視エリア42aの周りには、図17の上図に示すようにユーザ20aの中心視野52aと周辺視野54aがある。そして、表示部140の中、注視エリア42aの外、中心視野52aの外、かつ周辺視野54aの中にアバタ30aが表示されている。
 上述した図17の上図の状態から、図17の上図に示す矢印の方向かつ視線検知エリア72a内の位置へ注視エリア42aが移動し、図17の下図に示す状態に遷移したとする。この時、表示部140の中、注視エリア42aの外、中心視野52aの外、かつ周辺視野54aの中に、アバタ30aを表示可能な領域があるため、図17の下図に示すようにアバタ30aが表示される。
 図18は、本実施形態に係るアバタが表示されている際に、視線を視線検知エリア外へ移動させた場合における、表示部へのアバタの表示例を示す図である。図18の上図では、表示部140aの大きさよりも小さい視線検知エリア72aの中に、ユーザ20aの注視エリア42aがある。当該注視エリア42aの周りには、図18の上図に示すようにユーザ20aの中心視野52aと周辺視野54aがある。そして、表示部140の中、注視エリア42aの外、中心視野52aの外、かつ周辺視野54aの中にアバタ30aが表示されている。
 上述した図18の上図の状態から、図18の上図に示す矢印の方向かつ視線検知エリア72a外の位置へユーザ20aが注視エリア42aを移動し、図18の下図に示す状態に遷移したとする。この時、注視エリア42aが視線検知エリア72aの外へ移動しているため、ユーザ20aの視線が検知されなくなる。その場合、制御部120は、アバタ30aの表示をどのように制御すべきかの判別が困難になる。そこで、例えば、制御部120は、注視エリア42aが視線検知エリア72aの外へ移動する直前の注視エリア42aの動きに基づき、移動後の注視エリア42aの位置を推定する。制御部120は、注視エリア42aの位置を推定することで、中心視野52a及び周辺視野54aの位置も推定することができる。よって、制御部120は、推定結果に基づき、アバタ30aの表示をどのように制御すべきかを判別することができる。
 例えば、移動後の注視エリア42aの位置が図18の下図に示す位置に移動したと推定された場合、中心視野52a及び周辺視野54aの位置も図18の下図に示すように推定される。この時、表示部140の中、注視エリア42aの外、中心視野52aの外、かつ周辺視野54aの中に、アバタ30aを表示可能な領域があるため、図18の下図に示すようにアバタ30aが表示される。
 図19は、本実施形態に係るアバタが表示されていない際に、視線を視線検知エリア内で移動させた場合における、表示部へのアバタの表示例を示す図である。図19の上図では、表示部140aの大きさよりも大きい視線検知エリア72aの中に、ユーザ20aの注視エリア42aがある。当該注視エリア42aの周りには、図19の上図に示すようにユーザ20aの中心視野52aと周辺視野54aがある。そして、表示部140の中、注視エリア42aの外、中心視野52aの外、かつ周辺視野54aの中には、アバタ30aを表示する十分な領域がないため、アバタ30aが表示されていない。
 上述した図19の上図の状態から、図19の上図に示す矢印の方向かつ視線検知エリア72a内の位置へユーザ20aが注視エリア42aを移動し、図19の下図に示す状態に遷移したとする。この時、表示部140の中、注視エリア42aの外、中心視野52aの外、かつ周辺視野54aの中に、アバタ30aを表示可能な領域があるため、図19の下図に示すようにアバタ30aが表示される。
 図20は、本実施形態に係るアバタが表示されていない際に、視線を視線検知エリア外へ移動させた場合における、表示部へのアバタの表示例を示す図である。図20の上図では、表示部140aの大きさよりも小さい視線検知エリア72aの中に、ユーザ20aの注視エリア42aがある。当該注視エリア42aの周りには、図20の上図に示すようにユーザ20aの中心視野52aと周辺視野54aがある。そして、表示部140の中、注視エリア42aの外、中心視野52aの外、かつ周辺視野54aの中の領域は、表示部140の外の領域となるため、表示部140にはアバタ30aが表示されていない。
 上述した図20の上図の状態から、図20の上図に示す矢印の方向かつ視線検知エリア72a外の位置へユーザ20aが注視エリア42aを移動し、図20の下図に示す状態に遷移したとする。この時、注視エリア42aが視線検知エリア72aの外へ移動しているため、図18に示した例と同様に、制御部120は、注視エリア42aが視線検知エリア72aの外へ移動する直前の注視エリア42aの動きに基づき、移動後の注視エリア42aの位置を推定する。
 例えば、移動後の注視エリア42aの位置が図20の下図に示す位置に移動したと推定された場合、中心視野52a及び周辺視野54aの位置も図20の下図に示すように推定される。この時、表示部140の中、注視エリア42aの外、中心視野52aの外、かつ周辺視野54aの中の領域が表示部140の中にあるが、アバタ30aを表示する十分な領域がないため、アバタ30aは表示されない。ただし、アバタ30aの位置を示すオブジェクト32aを表示するための領域はあるため、図20の下図に示すように、オブジェクト32aが表示される。
 <1-5.情報処理端末における処理の流れ>
 以上、本実施形態に係る表示部140におけるアバタ30の表示例について説明した。続いて、本実施形態に係る情報処理端末10における処理の流れについて説明する。本実施形態に係る情報処理端末10では、例えば、ユーザ20がどのアバタ30を使用するかにより、処理の流れを分けることができる。
 (1)各ユーザ20が自分のアバタ30を使用する場合
 まず、ユーザ20が自分のアバタ30を使用する場合の処理の流れを説明する。図21は、本開示の実施形態に係る各ユーザが自分のアバタを使用する場合の処理の流れを示すフローチャートである。以下では、具体的に、ユーザ20aがアバタ30aを使用する場合に情報処理端末10aが行う処理の流れについて説明する。
 まず、情報処理端末10aは、ユーザ20aの視線検出情報を取得する(S100)。情報処理端末10aは、取得した視線検出情報からユーザ20aの注視点41aを検出し、注視点41aに基づきユーザ20aの注視エリア42aを特定する(S102)。次いで、情報処理端末10aは、音声情報を取得したか否かを確認する(S104)。音声情報を取得した場合(S104/YES)、情報処理端末10aは、さらに、注視エリア42aにユーザ20bがいるか否かを確認する(S106)。注視エリア42aにユーザ20bがいる場合(S106/YES)、情報処理端末10aは、注視エリア42a及び位置関係に基づき、音声対話エリア40aを特定する(S108)。
 一方、注視エリア42にユーザ20bがいない場合(S106/NO)、情報処理端末10aは、位置関係に基づき、音声対話エリア40aを特定する(S110)。次いで、情報処理端末10aは、ユーザ20aの動作に基づき、アバタ非表示エリアを特定する(S112)。
 情報処理端末10aは、特定したエリアに基づき、アバタ表示エリア50aを特定する(S114)。そして、情報処理端末10aは、設定したアバタ表示エリア50a内に、アバタ30aを表示し(S116)、処理を終了する。
 (2)各ユーザ20が共通のアバタ30cを使用する場合
 続いて、各ユーザ20が共通のアバタ30cを使用する場合の処理の流れを説明する。図22は、本開示の実施形態に係る各ユーザが共通のアバタを使用する場合の処理の流れを示すフローチャートである。以下では、具体的に、ユーザ20a及びユーザ20bが共通のアバタ30cを使用する場合に情報処理端末10aが行う処理の流れについて説明する。
 まず、情報処理端末10aは、ユーザ20aのアバタ30aのアバタ表示エリア50aを設定する(S200)。次いで、情報処理端末10aは、ユーザ20bのアバタ30bのアバタ表示エリア50bを示す情報を取得する(S202)。
 取得後、情報処理端末10aは、アバタ表示エリア50aとアバタ表示エリア50bに共通するエリアがあるか否かを確認する(S204)。共通するエリアがある場合(S204/YES)、情報処理端末10aは、共通するアバタ表示エリアに共通のアバタ30cを表示し(S206)、処理を終了する。
 共通するエリアがない場合(S204/NO)、情報処理端末10aは、ユーザ20aのアバタ表示エリア50aを選択するか否かを確認する(S208)。ユーザ20aのアバタ表示エリア50aを選択する場合(S208/YES)、情報処理端末10aは、ユーザ20aのアバタ表示エリア50aに共通のアバタ30cを表示し(S210)、処理を終了する。
 ユーザ20aのアバタ表示エリア50aを選択しない場合(S208/NO)、情報処理端末10aは、ユーザ20bのアバタ表示エリア50bに共通のアバタ30cを表示する(S212)。次いで、情報処理端末10aは、ユーザ20aに共通のアバタ30cの位置を提示し(S214)、処理を終了する。
 (3)各ユーザ20が互いのアバタ30を使用可能な場合
 最後に、各ユーザ20が互いのアバタ30を使用可能な場合の処理の流れを説明する。図23は、本開示の実施形態に係る各ユーザが互いのアバタを使用可能な場合の処理の流れを示すフローチャートである。以下では、具体的に、ユーザ20aがアバタ30a、ユーザがアバタ30bをそれぞれ有し、互いのアバタ30を使用可能な場合に情報処理端末10aが行う処理の流れについて説明する。
 まず、情報処理端末10aは、ユーザ20aのアバタ表示エリア50aを設定する(S300)。次いで、情報処理端末10aは、ユーザ20bのアバタ30bのアバタ表示エリア50bを示す情報を取得する(S302)。
 取得後、情報処理端末10aは、アバタ表示エリア50aとアバタ表示エリア50bに共通するアバタ表示エリアがあるか否かを確認する(S304)。共通するアバタ表示エリアがある場合(S304/YES)、情報処理端末10aは、さらに、ユーザ20aのアバタ30aへの対話とユーザ20bに対する発話であるか否かを判別可能な共通するアバタ表示エリアがあるか否かを確認する(S306)。
 発話対象を判別可能な共通するアバタ表示エリアがある場合(S306/YES)、情報処理端末10は、共通するアバタ表示エリアにユーザ20aのアバタ30aを表示する(S308)。発話対象を判別可能な共通するアバタ表示エリアがある場合(S306/YES)、情報処理端末10は、共通するアバタ表示エリアにユーザ20aのアバタ30aを表示する(S308)。
 共通するアバタ表示エリアがない場合(S304/NO)、または発話対象を判別可能な共通するアバタ表示エリアがない場合(S306/NO)、情報処理端末10は、ユーザ20aのアバタ表示エリア50aにユーザ20aのアバタ30aを表示する(S310)。次いで、情報処理端末10aは、ユーザ20aのアバタ30aの位置を示す情報をユーザ20bの情報処理端末10bへ送信して表示させ(S312)、処理を終了する。
<<2.第2の実施形態>>
 以上、本開示の第1の実施形態について説明した。続いて、本開示の第2の実施形態について説明する。上述の第1の実施形態では、情報処理端末10がHMDにより実現される例について説明した。第2の実施形態では、情報処理端末10が実空間に仮想オブジェクトを提示可能な装置により実現される例について説明する。なお、以下に説明する第2の実施形態では、上述した第1の実施形態と異なる点についてのみ説明する。
 <2-1.概要>
 まず、本開示の第2の実施形態に係る情報処理システムの概要について説明する。図24は、本開示の第2の実施形態に係る情報処理システムの概要を示す図である。第2の実施形態に係る情報処理システムは、天井に設けられた情報処理端末90により、仮想オブジェクト30を壁面91または壁面92等に投影することで、仮想オブジェクト30をユーザ20に提示する。壁面91、壁面92及び床は、情報が投影される投影面の一例である。
 例えば、図24に示すように、ユーザ20aとユーザ20bは、第1の実施形態とは異なり、特に端末を装着する必要はない。ユーザ20aがアバタ30aを有する場合、アバタ30aは、実空間内の壁面91または壁面92等に情報処理端末90の出力部160により表示(即ち、投影)される。この時、情報処理端末90は、取得部110によりアバタ30aの位置の設定に必要な情報を取得する。そして、情報処理端末90は、取得部110が取得した情報に基づき、アバタ30aの位置を設定し、設定した位置に出力部160によりアバタ30aを表示する。例えば、アバタ30aは、図24に示すように、実空間内の壁面91に出力部160により提示される。位置の設定に必要な情報は、ユーザ20aの位置情報、視線検出情報、及び音声情報、並びにユーザ20bの位置情報である。
 <2-2.情報処理端末の構成>
 続いて、第2の実施形態に係る情報処理端末90の構成について説明する。図25は、本実施形態に係る情報処理端末の構成例を示すブロック図である。第2の実施形態に係る情報処理端末90は、第1の実施形態に係る情報処理端末10と比較して、表示部140及び音声出力部150がない代わりに、出力部160を有する点が異なる。なお、情報処理端末90における出力部160以外の機能は、情報処理端末10における機能と同一のため、その説明を省略する。
 (1)出力部160
 出力部160は、仮想オブジェクトを実空間に表示する装置である。出力部160は、制御部120から入力される指示に従い、仮想オブジェクトを実空間に表示する。例えば、出力部160は、取得部110が取得した情報に基づき、第1の実施形態と同様にしてアバタ制御部124が設定したアバタ30の位置に、ユーザ20aのアバタ30aを表示する。出力部160には、例えば、プロジェクタが用いられる。図24に示す例では、出力部160は、例えば、天井から吊り下げられた状態で配置される。
 <2-3.音声対話エリアとアバタの表示位置>
 以上、情報処理端末90の構成について説明した。続いて、音声対話エリアとアバタの表示位置について説明する。本実施形態に係る情報処理端末90は、ユーザ20aの視線またはユーザ20aの顔の向きに基づき、音声対話エリア40aの特定とアバタ30aの位置の設定を行う。以下では、ユーザ20aとユーザ20bが向かい合い、静止した状態で対話を行う状況を例に説明する。
 図26は、本実施形態に係る視線に基づく音声対話エリア及びアバタ表示エリアを示す図である。なお、情報処理端末90が音声対話エリア40aを特定する方法は、情報処理端末10と同一のため、その説明を省略する。
 第2の実施形態では、ユーザ20aの視線または顔の向きのいずれかに基づく音声対話エリア40aを特定後の、アバタ30aの位置の設定方法が、第1の実施形態とは一部異なる。例えば、アバタ表示エリア50aではなく、実空間内の壁面91または壁面92等にアバタ30aを表示する場合、情報処理端末90は、ユーザ20bと投影面との位置関係を考慮する。例えば、図26に示す壁面92の矢印93の範囲は、ユーザ20aの中心視野52aを壁面92の位置まで延長した際に、ユーザ20aの中心視野に入り得る壁面92の範囲である。そのため、矢印93の範囲にアバタ30aが表示されると、ユーザ20aの発話がユーザ20bとアバタ30aのどちらに対するものであるかの判別が困難になり得る。
 そこで、情報処理端末90は、例えば、ユーザ20aの中心視野の方向に存在する壁面にはアバタ30aを表示しないように、アバタ30aの表示処理を制御する。これにより、情報処理端末90は、ユーザ20aの発話がユーザ20bとアバタ30aのどちらに対するものであるかの判別が困難になり得る位置へのアバタ30aの表示を抑制することができる。
<<3.ハードウェア構成例>>
 最後に、図27を参照しながら、本実施形態に係る情報処理装置のハードウェア構成例について説明する。図27は、本実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。なお、図27に示す情報処理装置900は、例えば、図2に示した情報処理端末10を実現し得る。本実施形態に係る情報処理端末10による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
 図27に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、及びRAM(Random Access Memory)903を備える。また、情報処理装置900は、ホストバス904a、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート910、及び通信装置911を備える。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ハードウェア構成は、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 CPU901は、例えば、演算処理装置又は制御装置として機能し、ROM902、RAM903、又はストレージ装置908に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM902は、CPU901に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM903には、例えば、CPU901に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。これらはCPUバスなどから構成されるホストバス904aにより相互に接続されている。CPU901、ROM903およびRAM905は、例えば、ソフトウェアとの協働により、図2及び図25を参照して説明した制御部120の機能を実現し得る。
 CPU901、ROM902、及びRAM903は、例えば、高速なデータ伝送が可能なホストバス904aを介して相互に接続される。一方、ホストバス904aは、例えば、ブリッジ904を介して比較的データ伝送速度が低速な外部バス904bに接続される。また、外部バス904bは、インタフェース905を介して種々の構成要素と接続される。
 入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
 他にも、入力装置906は、ユーザに関する情報を検知する装置により形成され得る。例えば、入力装置906は、画像センサ(例えば、カメラ)、深度センサ(例えば、ステレオカメラ)、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ(例えば、ToF(Time of Flight)センサ)、力センサ等の各種のセンサを含み得る。また、入力装置906は、情報処理装置900の姿勢、移動速度等、情報処理装置900自身の状態に関する情報や、情報処理装置900の周辺の明るさや騒音等、情報処理装置900の周辺環境に関する情報を取得してもよい。また、入力装置906は、GNSS(Global Navigation Satellite System)衛星からのGNSS信号(例えば、GPS(Global Positioning System)衛星からのGPS信号)を受信して装置の緯度、経度及び高度を含む位置情報を測定するGNSSモジュールを含んでもよい。また、位置情報に関しては、入力装置906は、Wi-Fi(登録商標)、携帯電話・PHS・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。入力装置906は、例えば、図2及び図25を参照して説明した取得部110の機能を実現し得る。
 出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドフォン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば、図2を参照して説明した表示部140及び音声出力部150、並びに図25を参照して説明した出力部160の機能を実現し得る。
 ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図2及び図25を参照して説明した記憶部130の機能を実現し得る。
 ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
 接続ポート910は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器を接続するためのポートである。
 通信装置911は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置911は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置911は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置911は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置911は、例えば、図2及び図25を参照して説明した通信部100の機能を実現し得る。
 なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
<<4.まとめ>>
 以上説明したように、本開示の実施形態に係る情報処理装置は、ユーザ20aの位置情報、視線検出情報、及び音声情報、並びにユーザ20bの位置情報を取得する。情報処理装置は、取得したユーザ20aの位置情報とユーザ20bの位置情報に基づき、ユーザ20aとユーザ20bの位置関係を判定する。そして、判定された位置関係に基づき、ユーザ20aとユーザ20bとの間の音声対話が行われ得る音声対話エリア40aを特定し、特定した音声対話エリア40aの外にアバタ30aの位置を設定する。これにより、情報処理装置は、視線検出情報からユーザ20aの発話対象の判別が困難になり得る位置にアバタ30aを表示することを抑制できる。
 さらに、ユーザ20aが音声対話エリア40aの外を見ている時にユーザ20aの音声情報が取得された場合、情報処理装置は、アバタ30aに所定の行動を実行させる。一方、ユーザ20aが音声対話エリア40aの中を見ている時にユーザ20aの音声情報が取得された場合、情報処理装置は、アバタ30aが所定の行動を実行することを抑制する。これにより、情報処理装置は、ユーザ20aがアバタ30aに対して行った指示に基づく行動をアバタ30aに適切に実行させることができる。
 よって、アバタの誤動作を抑制することが可能な、新規かつ改良された情報処理装置、情報処理方法、及び記録媒体を提供することが可能である。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図2に示した情報処理端末10が備える取得部110と制御部120の少なくともいずれか一方が、単独の装置として実現されてもよい。例えば、取得部110は、センサ装置等の独立した装置として実現され、ネットワーク等を介して情報処理端末10と接続されてもよい。また、制御部120は、サーバ装置等の独立した装置として実現され、ネットワーク等を介して情報処理端末10と接続されてもよい。
 また、本明細書において説明した各装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記録媒体(非一時的な媒体:non-transitory media)に予め格納される。そして、各プログラムは、例えば、コンピュータによる実行時にRAMに読み込まれ、CPUなどのプロセッサにより実行される。
 また、本明細書においてフローチャートを用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 第1のユーザの位置情報、視線検出情報、及び音声情報、並びに第2のユーザの位置情報を取得する取得部と、
 前記第1のユーザの前記位置情報と前記第2のユーザの前記位置情報に基づき、前記第1のユーザと前記第2のユーザの位置関係を判定する判定部と、
 判定された前記位置関係に基づき、前記第1のユーザと前記第2のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、
 特定された前記音声対話エリアの外にアバタの位置を設定するアバタ制御部と、
を備え、
 前記第1のユーザが前記音声対話エリアの外を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタに所定の行動を実行させ、
 前記第1のユーザが前記音声対話エリアの中を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタが前記所定の行動を実行することを抑制する、情報処理装置。
(2)
 前記第1のユーザの視線方向情報及び周辺視野を検出する検出部をさらに備え、
 前記特定部は、前記第1のユーザが前記第2のユーザと対話している時の前記第1のユーザの前記視線方向情報に基づき、前記音声対話エリアを特定する、前記(1)に記載の情報処理装置。
(3)
 前記検出部は、前記視線検出情報に基づき、前記視線方向情報として前記第1のユーザの注視点を検出し、
 前記特定部は、前記第1のユーザの前記注視点が分布している領域である注視エリアを特定し、前記注視エリアと前記位置関係に基づき、前記音声対話エリアを特定する、前記(2)に記載の情報処理装置。
(4)
 前記音声対話エリアが前記第1のユーザの前記注視点に基づき特定された場合、
 前記検出部は、前記第1のユーザの中心視野をさらに検出し、
 前記アバタ制御部は、前記音声対話エリアの外、前記第1のユーザの前記中心視野の外、かつ前記第1のユーザの前記周辺視野の中の位置に、前記アバタの位置を設定する、前記(3)に記載の情報処理装置。
(5)
 前記検出部は、前記視線検出情報として取得される前記第1のユーザの慣性情報に基づき、前記視線方向情報として前記第1のユーザの顔の向きを検出し、
 前記特定部は、前記第1のユーザの前記顔の向きに基づき、前記音声対話エリアを特定する、前記(2)に記載の情報処理装置。
(6)
 前記音声対話エリアが前記第1のユーザの前記顔の向きに基づき特定された場合、
 前記特定部は、前記第1のユーザが視線を移動可能な領域である視線移動エリアをさらに特定し、
 前記アバタ制御部は、前記音声対話エリアの外、前記視線移動エリアの外、かつ前記第1のユーザの前記周辺視野の中の位置に、前記アバタの位置を設定する、前記(5)に記載の情報処理装置。
(7)
 前記第1のユーザと前記第2のユーザが共通のアバタを使用する場合、
 前記アバタ制御部は、前記第1のユーザの前記周辺視野と前記第2のユーザの前記周辺視野との共通する空間に、前記共通のアバタの位置を設定する、前記(2)~(6)のいずれか一項に記載の情報処理装置。
(8)
 前記第1のユーザと前記第2のユーザが共通のアバタを使用する場合、
 前記アバタ制御部は、前記第1のユーザの前記周辺視野または前記第2のユーザの前記周辺視野のいずれかを選択し、選択した前記周辺視野に前記共通のアバタの位置を設定する、前記(2)~(6)のいずれか一項に記載の情報処理装置。
(9)
 前記特定部は、前記第1のユーザと前記第2のユーザとの間の前記音声対話が行われ得ると推定される領域を、前記音声対話エリアとして予め特定する、前記(1)~(8)のいずれか一項に記載の情報処理装置。
(10)
 前記第1のユーザが前記第2のユーザを見ることなく、前記第2のユーザと対話している場合、
 前記特定部は、前記位置関係に基づき、前記第1のユーザと前記第2のユーザとの間の空間を前記音声対話エリアとして特定する、前記(2)~(9)のいずれか一項に記載の情報処理装置。
(11)
 前記第1のユーザ及び前記第2のユーザが並列に並んで移動している場合、
 前記アバタ制御部は、前記第1のユーザと前記第2のユーザの移動方向の空間の外の位置に、前記アバタの位置を設定する、前記(10)に記載の情報処理装置。
(12)
 前記第1のユーザが作業中である場合、
 前記アバタ制御部は、前記第1のユーザが作業を行う領域である作業エリアの外の位置に、前記アバタの位置を設定する、前記(10)に記載の情報処理装置。
(13)
 前記アバタ制御部は、前記アバタの位置を、オブジェクトの表示または音声の出力により提示させる、前記(1)~(12)のいずれか一項に記載の情報処理装置。
(14)
 前記音声情報に基づき音声認識を行う認識部をさらに備え、
 前記所定の行動は、前記認識部による前記音声認識の結果に基づき決定される行動である、前記(1)~(13)のいずれか一項に記載の情報処理装置。
(15)
 前記取得部は、前記第1のユーザ及び前記第2のユーザの前記音声情報を取得するマイクを備え、前記マイクが取得する前記音声情報に基づき、前記第2のユーザの前記位置情報を取得する、前記(1)~(14)のいずれか一項に記載の情報処理装置。
(16)
 前記取得部は、前記第1のユーザの周辺を撮像可能な撮像装置を備え、前記撮像装置が撮像する画像に基づき、前記第2のユーザの前記位置情報を取得する、前記(1)~(15)のいずれか一項に記載の情報処理装置。
(17)
 前記情報処理装置は、通信部をさらに備え、
 前記アバタ制御部は、前記通信部による通信を介して、前記第2のユーザに対して前記アバタが表示され得る位置に関する情報を外部装置から取得する、前記(1)~(16)のいずれか一項に記載の情報処理装置。
(18)
 前記情報処理装置は、表示部をさらに備え、
 前記表示部は、前記アバタ制御部が設定した前記位置に前記アバタを表示する、前記(1)~(17)のいずれか一項に記載の情報処理装置。
(19)
 第1のユーザの位置情報、視線検出情報、及び音声情報、並びに第2のユーザの位置情報を取得することと、
 前記第1のユーザの前記位置情報と前記第2のユーザの前記位置情報に基づき、前記第1のユーザと前記第2のユーザの位置関係を判定することと、
 判定された前記位置関係に基づき、前記第1のユーザと前記第2のユーザとの間の音声対話が行われ得る音声対話エリアを特定することと、
 特定された前記音声対話エリアの外にアバタの位置を設定することと、
を含み、
 前記第1のユーザが前記音声対話エリアの外を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記設定することは、前記アバタに所定の行動を実行させ、
 前記第1のユーザが前記音声対話エリアの中を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記設定することは、前記アバタが前記所定の行動を実行することを抑制する、プロセッサにより実行される情報処理方法。
(20)
 コンピュータを、
 第1のユーザの位置情報、視線検出情報、及び音声情報、並びに第2のユーザの位置情報を取得する取得部と、
 前記第1のユーザの前記位置情報と前記第2のユーザの前記位置情報に基づき、前記第1のユーザと前記第2のユーザの位置関係を判定する判定部と、
 判定された前記位置関係に基づき、前記第1のユーザと前記第2のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、
 特定された前記音声対話エリアの外にアバタの位置を設定するアバタ制御部と、
として機能させ、
 前記第1のユーザが前記音声対話エリアの外を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタに所定の行動を実行させ、
 前記第1のユーザが前記音声対話エリアの中を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタが前記所定の行動を実行することを抑制するためのプログラムが記録された記録媒体。
 10 情報処理端末
 20 ユーザ
 30 アバタ
 90 情報処理端末
 100 通信部
 110 取得部
 111 位置情報取得部
 112 視線検出情報取得部
 113 音声情報取得部
 120 制御部
 121 判定部
 122 検出部
 123 特定部
 124 アバタ制御部
 125 認識部
 130 記憶部
 140 表示部
 150 音声出力部
 160 出力部

Claims (20)

  1.  第1のユーザの位置情報、視線検出情報、及び音声情報、並びに第2のユーザの位置情報を取得する取得部と、
     前記第1のユーザの前記位置情報と前記第2のユーザの前記位置情報に基づき、前記第1のユーザと前記第2のユーザの位置関係を判定する判定部と、
     判定された前記位置関係に基づき、前記第1のユーザと前記第2のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、
     特定された前記音声対話エリアの外にアバタの位置を設定するアバタ制御部と、
    を備え、
     前記第1のユーザが前記音声対話エリアの外を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタに所定の行動を実行させ、
     前記第1のユーザが前記音声対話エリアの中を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタが前記所定の行動を実行することを抑制する、情報処理装置。
  2.  前記第1のユーザの視線方向情報及び周辺視野を検出する検出部をさらに備え、
     前記特定部は、前記第1のユーザが前記第2のユーザと対話している時の前記第1のユーザの前記視線方向情報に基づき、前記音声対話エリアを特定する、請求項1に記載の情報処理装置。
  3.  前記検出部は、前記視線検出情報に基づき、前記視線方向情報として前記第1のユーザの注視点を検出し、
     前記特定部は、前記第1のユーザの前記注視点が分布している領域である注視エリアを特定し、前記注視エリアと前記位置関係に基づき、前記音声対話エリアを特定する、請求項2に記載の情報処理装置。
  4.  前記音声対話エリアが前記第1のユーザの前記注視点に基づき特定された場合、
     前記検出部は、前記第1のユーザの中心視野をさらに検出し、
     前記アバタ制御部は、前記音声対話エリアの外、前記第1のユーザの前記中心視野の外、かつ前記第1のユーザの前記周辺視野の中の位置に、前記アバタの位置を設定する、請求項3に記載の情報処理装置。
  5.  前記検出部は、前記視線検出情報として取得される前記第1のユーザの慣性情報に基づき、前記視線方向情報として前記第1のユーザの顔の向きを検出し、
     前記特定部は、前記第1のユーザの前記顔の向きに基づき、前記音声対話エリアを特定する、請求項2に記載の情報処理装置。
  6.  前記音声対話エリアが前記第1のユーザの前記顔の向きに基づき特定された場合、
     前記特定部は、前記第1のユーザが視線を移動可能な領域である視線移動エリアをさらに特定し、
     前記アバタ制御部は、前記音声対話エリアの外、前記視線移動エリアの外、かつ前記第1のユーザの前記周辺視野の中の位置に、前記アバタの位置を設定する、請求項5に記載の情報処理装置。
  7.  前記第1のユーザと前記第2のユーザが共通のアバタを使用する場合、
     前記アバタ制御部は、前記第1のユーザの前記周辺視野と前記第2のユーザの前記周辺視野との共通する空間に、前記共通のアバタの位置を設定する、請求項2に記載の情報処理装置。
  8.  前記第1のユーザと前記第2のユーザが共通のアバタを使用する場合、
     前記アバタ制御部は、前記第1のユーザの前記周辺視野または前記第2のユーザの前記周辺視野のいずれかを選択し、選択した前記周辺視野に前記共通のアバタの位置を設定する、請求項2に記載の情報処理装置。
  9.  前記特定部は、前記第1のユーザと前記第2のユーザとの間の前記音声対話が行われ得ると推定される領域を、前記音声対話エリアとして予め特定する、請求項1に記載の情報処理装置。
  10.  前記第1のユーザが前記第2のユーザを見ることなく、前記第2のユーザと対話している場合、
     前記特定部は、前記位置関係に基づき、前記第1のユーザと前記第2のユーザとの間の空間を前記音声対話エリアとして特定する、請求項2に記載の情報処理装置。
  11.  前記第1のユーザ及び前記第2のユーザが並列に並んで移動している場合、
     前記アバタ制御部は、前記第1のユーザと前記第2のユーザの移動方向の空間の外の位置に、前記アバタの位置を設定する、請求項10に記載の情報処理装置。
  12.  前記第1のユーザが作業中である場合、
     前記アバタ制御部は、前記第1のユーザが作業を行う領域である作業エリアの外の位置に、前記アバタの位置を設定する、請求項10に記載の情報処理装置。
  13.  前記アバタ制御部は、前記アバタの位置を、オブジェクトの表示または音声の出力により提示させる、請求項1に記載の情報処理装置。
  14.  前記音声情報に基づき音声認識を行う認識部をさらに備え、
     前記所定の行動は、前記認識部による前記音声認識の結果に基づき決定される行動である、請求項1に記載の情報処理装置。
  15.  前記取得部は、前記第1のユーザ及び前記第2のユーザの前記音声情報を取得するマイクを備え、前記マイクが取得する前記音声情報に基づき、前記第2のユーザの前記位置情報を取得する、請求項1に記載の情報処理装置。
  16.  前記取得部は、前記第1のユーザの周辺を撮像可能な撮像装置を備え、前記撮像装置が撮像する画像に基づき、前記第2のユーザの前記位置情報を取得する、請求項1に記載の情報処理装置。
  17.  前記情報処理装置は、通信部をさらに備え、
     前記アバタ制御部は、前記通信部による通信を介して、前記第2のユーザに対して前記アバタが表示され得る位置に関する情報を外部装置から取得する、請求項1に記載の情報処理装置。
  18.  前記情報処理装置は、表示部をさらに備え、
     前記表示部は、前記アバタ制御部が設定した前記位置に前記アバタを表示する、請求項1に記載の情報処理装置。
  19.  第1のユーザの位置情報、視線検出情報、及び音声情報、並びに第2のユーザの位置情報を取得することと、
     前記第1のユーザの前記位置情報と前記第2のユーザの前記位置情報に基づき、前記第1のユーザと前記第2のユーザの位置関係を判定することと、
     判定された前記位置関係に基づき、前記第1のユーザと前記第2のユーザとの間の音声対話が行われ得る音声対話エリアを特定することと、
     特定された前記音声対話エリアの外にアバタの位置を設定することと、
    を含み、
     前記第1のユーザが前記音声対話エリアの外を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記設定することは、前記アバタに所定の行動を実行させ、
     前記第1のユーザが前記音声対話エリアの中を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記設定することは、前記アバタが前記所定の行動を実行することを抑制する、プロセッサにより実行される情報処理方法。
  20.  コンピュータを、
     第1のユーザの位置情報、視線検出情報、及び音声情報、並びに第2のユーザの位置情報を取得する取得部と、
     前記第1のユーザの前記位置情報と前記第2のユーザの前記位置情報に基づき、前記第1のユーザと前記第2のユーザの位置関係を判定する判定部と、
     判定された前記位置関係に基づき、前記第1のユーザと前記第2のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、
     特定された前記音声対話エリアの外にアバタの位置を設定するアバタ制御部と、
    として機能させ、
     前記第1のユーザが前記音声対話エリアの外を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタに所定の行動を実行させ、
     前記第1のユーザが前記音声対話エリアの中を見ている時に前記第1のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタが前記所定の行動を実行することを抑制するためのプログラムが記録された記録媒体。
PCT/JP2020/009041 2019-03-13 2020-03-04 情報処理装置、情報処理方法、及び記録媒体 WO2020184317A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021504963A JP7468506B2 (ja) 2019-03-13 2020-03-04 情報処理装置、情報処理方法、及び記録媒体
US17/434,970 US11908055B2 (en) 2019-03-13 2020-03-04 Information processing device, information processing method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-045552 2019-03-13
JP2019045552 2019-03-13

Publications (1)

Publication Number Publication Date
WO2020184317A1 true WO2020184317A1 (ja) 2020-09-17

Family

ID=72426997

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/009041 WO2020184317A1 (ja) 2019-03-13 2020-03-04 情報処理装置、情報処理方法、及び記録媒体

Country Status (3)

Country Link
US (1) US11908055B2 (ja)
JP (1) JP7468506B2 (ja)
WO (1) WO2020184317A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022209159A1 (ja) * 2021-03-30 2022-10-06 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014203194A (ja) * 2013-04-03 2014-10-27 キヤノン株式会社 仮想オブジェクト表示制御装置、仮想オブジェクト表示制御方法、およびプログラム
WO2018064081A1 (en) * 2016-09-30 2018-04-05 Sony Interactive Entertainment Inc. Methods for providing interactive content in a virtual reality scene to guide an hmd user to safety within a real world space

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016208348A (ja) * 2015-04-24 2016-12-08 セイコーエプソン株式会社 表示装置、表示装置の制御方法、及び、プログラム
JP2017156511A (ja) 2016-03-01 2017-09-07 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US9998606B2 (en) * 2016-06-10 2018-06-12 Glen A. Norris Methods and apparatus to assist listeners in distinguishing between electronically generated binaural sound and physical environment sound
AU2018256365A1 (en) * 2017-04-19 2019-10-31 Magic Leap, Inc. Multimodal task execution and text editing for a wearable system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014203194A (ja) * 2013-04-03 2014-10-27 キヤノン株式会社 仮想オブジェクト表示制御装置、仮想オブジェクト表示制御方法、およびプログラム
WO2018064081A1 (en) * 2016-09-30 2018-04-05 Sony Interactive Entertainment Inc. Methods for providing interactive content in a virtual reality scene to guide an hmd user to safety within a real world space

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022209159A1 (ja) * 2021-03-30 2022-10-06 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
US11908055B2 (en) 2024-02-20
US20220180583A1 (en) 2022-06-09
JPWO2020184317A1 (ja) 2020-09-17
JP7468506B2 (ja) 2024-04-16

Similar Documents

Publication Publication Date Title
US20210405761A1 (en) Augmented reality experiences with object manipulation
WO2022005693A1 (en) Augmented reality experiences using speech and text captions
JP2022000640A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US20170277257A1 (en) Gaze-based sound selection
US11017257B2 (en) Information processing device, information processing method, and program
JPWO2016203792A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP2016512626A (ja) ウェアラブルな行動ベース視覚システム
KR20220120649A (ko) 인공 현실 콘텐츠의 가변 초점 디스플레이를 갖는 인공 현실 시스템
US11869156B2 (en) Augmented reality eyewear with speech bubbles and translation
US11151804B2 (en) Information processing device, information processing method, and program
US10771707B2 (en) Information processing device and information processing method
US11327317B2 (en) Information processing apparatus and information processing method
EP4165490A2 (en) Augmented reality environment enhancement
WO2020184317A1 (ja) 情報処理装置、情報処理方法、及び記録媒体
WO2022005733A1 (en) Augmented reality eyewear with mood sharing
WO2019021566A1 (ja) 情報処理装置、情報処理方法、及びプログラム
KR20240009984A (ko) 전자 안경류 디바이스로부터 맥락에 맞는 시각 및 음성 검색
US11442268B2 (en) Augmented reality gaming using virtual eyewear beams
US20210232219A1 (en) Information processing apparatus, information processing method, and program
US20240119928A1 (en) Media control tools for managing communications between devices
US20240036336A1 (en) Magnified overlays correlated with virtual markers
US11995774B2 (en) Augmented reality experiences using speech and text captions
US20240077983A1 (en) Interaction recording tools for creating interactive ar stories
US20240077984A1 (en) Recording following behaviors between virtual objects and user avatars in ar experiences
WO2020202747A1 (ja) 情報処理装置、情報処理方法、及び記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20770013

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021504963

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20770013

Country of ref document: EP

Kind code of ref document: A1