WO2024127816A1 - 情報処理装置、情報処理方法および記憶媒体 - Google Patents

情報処理装置、情報処理方法および記憶媒体 Download PDF

Info

Publication number
WO2024127816A1
WO2024127816A1 PCT/JP2023/038167 JP2023038167W WO2024127816A1 WO 2024127816 A1 WO2024127816 A1 WO 2024127816A1 JP 2023038167 W JP2023038167 W JP 2023038167W WO 2024127816 A1 WO2024127816 A1 WO 2024127816A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
target user
target
information
interest level
Prior art date
Application number
PCT/JP2023/038167
Other languages
English (en)
French (fr)
Inventor
美友 岩船
賢次 森田
卓郎 野田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024127816A1 publication Critical patent/WO2024127816A1/ja

Links

Images

Definitions

  • This disclosure relates to an information processing device, an information processing method, and a storage medium.
  • Patent Document 1 discloses technology that allows communication between a character and a user by having the character output movement promotion information that prompts the user to move to a position suitable for acquiring the user's voice when a dialogue start condition is met.
  • Patent Document 1 if the size of the user's face image is not equal to or larger than a threshold, a sound is output to encourage the character to move closer to the user, so there is a risk that the character will talk to the user even in situations where the user does not intend to communicate or is unable to communicate. As a result, a situation may arise where the user is forced to communicate even when they do not wish to communicate.
  • This disclosure therefore proposes a new and improved information processing device, information processing method, and storage medium that are capable of communicating in a way that respects the user's dialogue intentions.
  • an information processing device including an acquisition unit that acquires interest level information indicating a user's interest level in an operation target, and a generation unit that generates control information for controlling the operation of the operation target based on whether a target user based on the interest level information satisfies an interaction condition.
  • the present disclosure also provides an information processing method executed by a computer, which includes acquiring interest level information indicating a user's interest in an operation target, and generating control information for controlling the operation of the operation target based on whether a target user based on the interest level information satisfies an interaction condition.
  • a non-transitory storage medium readable by a computer stores a program to cause a computer to realize an acquisition function for acquiring interest level information indicating a user's interest in an operation target, and a generation function for generating control information for controlling the operation of the operation target based on whether a target user based on the interest level information satisfies an interaction condition.
  • FIG. 1 is an explanatory diagram for explaining an overview of an information processing system according to the present disclosure.
  • 2 is an explanatory diagram for explaining an example of a functional configuration of an information processing device 10 according to the present disclosure.
  • FIG. FIG. 11 is an explanatory diagram for explaining specific examples of parameters used in estimating a degree of interest according to the present disclosure.
  • FIG. 11 is an explanatory diagram illustrating an example of a sigmoid function corresponding to a distance between a user and an avatar.
  • FIG. 11 is an explanatory diagram for explaining a specific example of the positional relationship between a target user and an avatar.
  • 11 is an explanatory diagram for explaining an example of a process in which "passing by" is detected as a movement state of a user;
  • FIG. 11 is an explanatory diagram for explaining an example of a process in which "heading towards a communication area CA" is detected as a movement state of a user.
  • FIG. 11 is an explanatory diagram illustrating an example of a matrix for determining motion information of an avatar.
  • FIG. 13 is an explanatory diagram for explaining another example of a target of a user's interest degree.
  • 2 is an explanatory diagram for explaining an example of an operation process of the information processing device 10 according to the present disclosure.
  • FIG. FIG. 2 is a block diagram showing an example hardware configuration of an information processing device 90 according to an embodiment of the present disclosure.
  • avatar store clerks, NPCs, etc. will be used in environments where multiple users exist, whether in a metaverse environment or the real world.
  • avatar store clerks, NPCs, etc. may be collectively referred to simply as avatars.
  • the system needs to autonomously decide which of the multiple users the avatar will speak to.
  • the user selected by the system is not necessarily in a position to communicate with the avatar. For example, if the avatar speaks to a user who is unwilling or unable to respond, the system can become annoying for the user.
  • Methods for determining a user's intention to converse include, for example, a method of making a judgment based only on the user's position or facial expression.
  • the criterion for determining that a user intends to converse is when the user comes within a certain distance of the avatar.
  • the system will not only call out to users who are interested in conversing with the avatar, but also to users who are not interested in conversing with the avatar (for example, users who happen to pass by the avatar), which could result in an annoying system for users.
  • the accuracy of determining whether or not a user intends to converse based only on the user's position, line of sight, or facial expression may be low.
  • one embodiment of the present disclosure relates to an information processing system capable of communicating in a way that respects the user's intention to dialogue.
  • the information processing system according to the present disclosure models nonverbal communication before dialogue, making it possible to determine with a high degree of accuracy whether or not the user has the intention to dialogue, without requiring explicit input from the user.
  • the information processing system according to the present disclosure includes an information processing device 10, a camera 200, and a display device 300.
  • the information processing device 10 acquires interest level information indicating a user's interest level in an operation target (e.g., avatar A shown in FIG. 1).
  • the information processing device 10 also generates control information for controlling the operation of the operation target (e.g., avatar A shown in FIG. 1) based on whether a target user based on the acquired interest level information satisfies a dialogue condition. Details of various configurations of the information processing device 10 will be described later.
  • the information processing device 10 may be, for example, a variety of devices such as a PC (Personal Computer), a notebook PC, a tablet terminal, a smartphone, a server, an HMD (Head Mounted Display) or AR (Augmented Reality) glasses.
  • a PC Personal Computer
  • a notebook PC Portable Computer
  • a tablet terminal a smartphone
  • a server a server
  • HMD Head Mounted Display
  • AR Augmented Reality
  • the camera 200 is, for example, a sensing device that captures an image of a user U by capturing an image of the environment in which the camera 200 is installed. For example, the camera 200 captures an image including users U1, U2, and U3 by capturing an image of the environment shown in Fig. 1. The camera 200 then transmits image data including the captured image to the information processing device 10.
  • the camera 200 may be, for example, an RGB camera, a ToF (Time of Flight) sensor, a stereo camera, or an infrared camera.
  • the information processing device 10 may be equipped with various devices such as LiDAR (Light Detection and Ranging) or millimeter wave radar.
  • LiDAR Light Detection and Ranging
  • millimeter wave radar millimeter wave radar
  • the sensor used to acquire data may be switched. For example, in dark places, a ToF sensor using infrared light may be used. On the other hand, in sunlight, the sensor used to acquire data may be switched from a ToF sensor using infrared light to a sensor using visible light. In addition, in the case of backlight, a millimeter wave radar that does not depend on light may be used.
  • the display device 300 is a device that includes a function as a display unit that displays an image of Avatar A and a function as an audio output unit that presents the audio emitted by Avatar A.
  • the display device 300 displays avatar A drawn based on the control information generated by the information processing device 10, and further outputs audio based on the control information.
  • the function of the display unit may be realized, for example, by a two-dimensional display, a transparent display, a three-dimensional display, a multi-parallax display, or an XR (Extended Reality) device.
  • the three-dimensional display may be a pair of glasses or a three-dimensional projector.
  • the type of display is not limited.
  • the display may be an LCD (Liquid Crystal Display), an organic EL (Electro-Luminescence) display, a PDP (Plasma Display Panel), etc.
  • the display device 300 may be various terminals such as a smartphone, a tablet terminal, or an HMD. If the display device 300 is an HMD, it is desirable that the HMD has a function related to position tracking such as a base station or SLAM (Simultaneous Localization and Mapping) and a function related to eye tracking.
  • a function related to position tracking such as a base station or SLAM (Simultaneous Localization and Mapping) and a function related to eye tracking.
  • SLAM Simultaneous Localization and Mapping
  • the function of the audio output unit may also be realized by a speaker.
  • Example of functional configuration of information processing device 10> 2 is an explanatory diagram for explaining an example of a functional configuration of the information processing device 10 according to the present disclosure.
  • the information processing device 10 according to the present disclosure includes a communication unit 110 and a control unit 120.
  • the communication unit 110 receives image data obtained by shooting with the camera 200 from the camera 200. In addition, the communication unit 110 transmits various information to the display device 300, including audio information including audio based on control information generated by the operation information generation unit 137 described later, and an image of an avatar drawn by the drawing unit 141 described later.
  • Control unit 120 The control unit 120 according to the present disclosure controls the overall operation of the information processing device 10. As shown in FIG. 2 , the control unit 120 includes a person detection unit 121, a gaze detection unit 125, an interest level estimation unit 129, a dialogue condition detection unit 133, a motion information generation unit 137, and a drawing unit 141.
  • the human detection unit 121 detects users based on image data acquired by the camera 200. For example, when multiple users are present within the sensing range of the camera 200, the human detection unit 121 detects each of the multiple users.
  • the person detection unit 121 may also detect the position of each user based on image data. For example, the person detection unit 121 may detect the positional relationship between each user and their avatar.
  • the person detection unit 121 does not necessarily need to use image data to detect users and their positions.
  • the person detection unit 121 does not need to use image data as a basis as long as it uses data that can detect users and their positions.
  • the person detection unit 121 may detect the positional relationship between each user and avatar based on various types of data such as point cloud data, depth data, ultrasound data, etc.
  • the human detection unit 121 may also detect the speed of a user based on the detected position of the user. For example, the human detection unit 121 may detect the speed of a user based on the change in the user's position per unit time.
  • the person detection unit 121 may also detect user attributes.
  • the user attributes may include attributes related to an age group, such as “adult” or "child,” or may include attributes related to gender, such as “male” or “female.”
  • the human detection unit 121 may use features of the user's face or clothes when tracking. This may enable the human detection unit 121 to track users even when the user is unable to be sensed within the sensing range of the camera 200 due to high population density, for example, or when occlusion occurs.
  • the gaze detection unit 125 detects gaze information indicating the direction of the user's gaze from image data acquired by the camera 200. Note that data acquired by an infrared camera may also be used for gaze detection.
  • the method of detecting gaze information according to the present disclosure is not limited to a detection method based on image data.
  • the gaze detection unit 125 may detect gaze information using the pupil-corneal reflex method.
  • the gaze detection unit 125 may also detect the direction of another part of the body related to the gaze direction. For example, the gaze detection unit 125 may detect face information indicating the direction of the user's face. The gaze detection unit 125 may also detect body information indicating the direction of the user's body.
  • the interest level estimation unit 129 is an example of an acquisition unit, and acquires interest level information indicating the user's interest in the operation target.
  • the interest level estimation unit 129 may estimate the user's interest level in the avatar based on the positional relationship between the user and the avatar detected by the person detection unit 121 and the gaze information of the user detected by the gaze detection unit 125. Details of various processes such as interest level estimation will be described later.
  • the dialogue condition detection unit 133 is an example of a detection unit, and detects a target user as a user with the highest dialogue possibility based on the interest level information acquired by the interest level estimation unit 129. In addition, the dialogue condition detection unit 133 determines whether or not the target user satisfies the dialogue conditions based on the detected situation of the target user.
  • the dialogue condition detection unit 133 may redetect another user as the target user based on the interest level information. Details regarding the various processes such as the detection of the target user and the determination of whether or not the dialogue conditions are satisfied will be described later.
  • the motion information generating unit 137 is an example of a generating unit, and generates control information for controlling the motion of the avatar based on whether or not the target user satisfies the dialogue conditions determined by the dialogue condition detecting unit 133.
  • the action information generating unit 137 generates control information for causing the avatar to interact with a target user, for example, when the target user satisfies the interaction conditions.
  • the operation information generating unit 137 may generate control information based on the situation of the target user. Details of the control information generated by the operation information generating unit 137 will be described later.
  • the rendering unit 141 renders an image of an avatar based on the control information generated by the motion information generating unit 137. For example, if the display device is a multi-parallax display, the rendering unit 141 may render a three-dimensional image of a character having different poses according to each position in the horizontal or vertical direction corresponding to the multi-parallax.
  • the interest level estimation unit 129 estimates the user's interest level in an operation target (e.g., an avatar) and acquires interest level information.
  • the interest level may be estimated based on various parameters detected by the person detection unit 121 and the gaze detection unit 125.
  • the various parameters detected by the person detection unit 121 and the gaze detection unit 125 will be described in detail with reference to FIG.
  • FIG. 3 is an explanatory diagram for explaining a specific example of parameters used to estimate the degree of interest according to the present disclosure.
  • the person detection unit 121 estimates the positional relationship between a user U and an avatar A.
  • the positional relationship here may be, for example, the distance D from the user U to the avatar A, as shown in FIG. 3.
  • the human detection unit 121 may also detect the speed of the user based on changes in the user's position. For example, the human detection unit 121 may detect the speed V of the user U in the normal direction to the direction of avatar A as seen by the user U (hereinafter, may be simply expressed as "the direction in which avatar A is located") as shown in FIG. 3.
  • the gaze detection unit 125 may detect gaze information using, for example, the pupil-corneal reflex method.
  • the gaze information includes angle information from the direction of the avatar A to the gaze direction LS of the user U (the angle of the user's gaze).
  • the gaze detection unit 125 may detect face information (the direction of the user U's face) or body information (the direction of the user U's body) instead of or in addition to the gaze direction LS of the user U. Then, the gaze detection unit 125 may detect the angle from the direction in which avatar A is located to the direction in which the user U's face is facing as the angle information. Alternatively, the gaze detection unit 125 may detect the angle from the direction in which avatar A is located to the direction in which the user U's body is facing as the angle information.
  • the gaze detection unit 125 may also detect the variance or standard deviation of the angle from the direction in which avatar A is located to the gaze direction LS of user U. For example, the gaze detection unit 125 may detect the variance or standard deviation of the angle using information on each angle from the current time to a predetermined time ago.
  • the interest level estimation unit 129 may then estimate the user U's level of interest in the avatar A using the various parameters described above, and acquire interest level information. For example, the interest level estimation unit 129 may normalize the various parameters detected by the person detection unit 121 and the gaze detection unit 125 using a normalization function corresponding to the various parameters. For example, a sigmoid function may be adopted as the normalization function.
  • FIG. 4 is an explanatory diagram for explaining an example of a sigmoid function corresponding to the distance between a user and an avatar.
  • the sigmoid function is expressed by the following formula (1).
  • f(x) is the interest level
  • x is a parameter (distance in FIG. 4)
  • k is a coefficient.
  • the interest level estimation unit 129 estimates a higher interest level the closer the distance between the user and the avatar.
  • the interest level estimation unit 129 estimates the user's interest in the avatar to be low as the distance between the user and the avatar increases.
  • the interest level estimation unit 129 may use a sigmoid function corresponding to a speed in the normal direction (hereinafter referred to as normal speed) to convert the normal speed into a level of interest.
  • normal speed a speed in the normal direction
  • x in formula (1) is the normal speed.
  • the sigmoid function corresponding to normal speed it is desirable that the smaller the normal speed is, the higher the estimated value of the interest level is.
  • the interest level estimation unit 129 may also convert the gaze angle of the user (hereinafter referred to as the gaze angle) into a degree of interest using a sigmoid function corresponding to the gaze angle.
  • a sigmoid function corresponding to the gaze angle x in formula (1) is the gaze angle.
  • the interest level estimation unit 129 may also convert the gaze angle variance of the user into the interest level using a sigmoid function corresponding to the variance of the gaze angle (hereinafter referred to as gaze angle variance).
  • gaze angle variance a sigmoid function corresponding to the variance of the gaze angle
  • x in formula (1) is the gaze angle variance.
  • the parameter values (e.g., coefficient k) set for each sigmoid function may be set appropriately depending on the use case or avatar attributes.
  • the interest level estimation unit 129 may then integrate each degree of interest estimated from various parameters. For example, the interest level estimation unit 129 may integrate the product (or sum) of each degree of interest converted from each of the distance, normal velocity, line of sight angle, and line of sight angle variance into a single degree of interest.
  • the interest level estimation unit 129 may also perform weighting when integrating the degrees of interest. For example, if the importance of the distance parameter is high, the interest level estimation unit 129 multiplies the degree of interest converted from the distance parameter by a first weighting factor (e.g., 0.4), and multiplies the degrees of interest converted from the other parameters (normal velocity, line of sight angle, and line of sight angle variance) by a second weighting factor (e.g., 0.25). The interest level estimation unit 129 may then integrate the product (or sum) of each degree of interest multiplied by a weighting factor into a single degree of interest.
  • a first weighting factor e.g., 0.4
  • the degrees of interest converted from the other parameters normal velocity, line of sight angle, and line of sight angle variance
  • the normalization function is not limited to the sigmoid function.
  • other functions such as a step function may be used as the normalization function.
  • voice may be used to estimate the interest level.
  • environmental voice information may be acquired by a microphone (not shown) provided in the display device 300.
  • the interest level estimation unit 129 may estimate the interest level of a user who is talking about an avatar as a predetermined value (e.g., 0.8, etc.).
  • the interest level estimation unit 129 estimates the interest level (or the combined interest level) of multiple users present within the sensing range of the camera 200 through the estimation process described above.
  • the interest level estimation unit 129 may estimate the interest level using various parameters at the current time, or may estimate the interest level using various parameters from a predetermined time ago (e.g., several seconds ago).
  • the dialogue condition detection unit 133 detects a target user based on the interest level information acquired by the interest level estimation unit 129. For example, the dialogue condition detection unit 133 may detect a user with the highest interest level as the target user.
  • the dialogue condition detection unit 133 may detect as the target user a user whose interest level is equal to or greater than a predetermined value and has the highest interest level.
  • the attributes of the user who is the target of the avatar's dialogue may be set in advance. For example, if the attribute of the user who is the target of the avatar's dialogue is set to "child,” the dialogue condition detection unit 133 may detect the user who is most interested among the users detected to be children as the target user. In addition, if the attribute of the user who is the target of the avatar's dialogue is set to " woman in her twenties,” the dialogue condition detection unit 133 may detect the user who is most interested among the users detected to be women in their twenties as the target user.
  • the dialogue condition detection unit 133 may exclude users who have not responded to an invitation from another avatar (various actions including dialogue), or users with whom the avatar has already dialogued, from the candidates for target users.
  • a storage unit (not shown) of the information processing device may hold the user's past dialogue history.
  • the dialogue condition detection unit 133 may preferentially detect users who have responded to an avatar's prompting in the past as target users. For example, the dialogue condition detection unit 133 may multiply the interest levels of users who have responded to an avatar's prompting in the past by a higher weighting coefficient, compared to users who have not responded to an avatar's prompting in the past. The dialogue condition detection unit 133 may then compare the weighted interest levels and detect target users based on the results of the comparison.
  • the motion information generator 137 generates control information for controlling the motion of the avatar based on whether or not the target user satisfies the dialogue condition.
  • the dialogue condition detection unit 133 may determine whether or not the target user satisfies the dialogue condition based on the target user's situation.
  • the situation of the target user may include the positional relationship between the target user and the avatar.
  • the motion information generating unit 137 may then generate control information for controlling the motion of the avatar based on the position of the target user relative to the avatar.
  • control information for controlling the motion of the avatar based on the position of the target user relative to the avatar.
  • FIG. 5 is an explanatory diagram for explaining a specific example of the positional relationship between a target user and an avatar.
  • the sensing range may be divided into multiple areas based on avatar A.
  • the sensing range within the 7.6 m may be divided into multiple areas.
  • the sensing range may be divided into an area whose distance from avatar A is within the range of "0 m" to "2.0 m” (hereinafter referred to as the first area SP1), an area whose distance from avatar A is within the range of "2.0 m” to "3.6 m” (hereinafter referred to as the second area SP2), and an area whose distance from avatar A is within the range of "3.6 m” to "7.6 m” (hereinafter referred to as the third area SP3).
  • the dialogue condition detection unit 133 determines that user U1, the target user, is present in the third area SP3. Also, if user U2 shown in FIG. 5 is the target user, the dialogue condition detection unit 133 determines that user U2, the target user, is present in the second area SP2. Also, if user U3 shown in FIG. 5 is the target user, the dialogue condition detection unit 133 determines that user U3, the target user, is present in the first area SP1.
  • the first area SP1 may also include a communication area CA as an area in which the user U and avatar A can interact.
  • the communication area CA is preferably an area in front of the avatar A, and is defined, for example, by the coordinates of the four corners of the area.
  • the interaction condition detection unit 133 determines that the target user, user U4, is present in the communication area CA.
  • the communication area CA is an example of a predetermined area.
  • the motion information generating unit 137 may generate control information for controlling the motion of avatar A based on the position of the target user relative to avatar A (the area in which the target user is present).
  • the sensing range is divided into three areas, a first area SP1, a second area SP2, and a third area SP3, and the communication area CA is included in the first area SP1, but the division according to the present disclosure is not limited to this example.
  • the sensing range may be divided into two areas, the communication area CA and the other area, or may be divided into two, three, five or more areas.
  • the communication area CA may be included in another area such as the second area SP2, or may be included across multiple areas (for example, the first area SP1 and the second area SP2).
  • the target user's situation may also include the target user's movement state relative to the avatar.
  • the target user's movement state includes five types: “stopped,” “about to stop in the communication area CA,” “heading towards the communication area CA,” “about to pass by,” and “passing by,” but the target user's movement state is not limited to these examples.
  • the dialogue condition detection unit 133 may detect the movement state of the target user based on various parameters such as the target user's position (distance to the avatar), speed (speed relative to the avatar), line of sight (line of sight angle), and movement direction.
  • the dialogue condition detection unit 133 may detect that the movement state of the target user is "stationary" based on the speed of the target user. Specifically, when the speed of the target user is 0 or extremely close to 0, the dialogue condition detection unit 133 may detect that the movement state of the target user is "stationary.”
  • the dialogue condition detection unit 133 may also detect that the movement state of the target user is "passing by” based on the target user's position and movement direction.
  • FIG. 6 is an explanatory diagram for explaining an example of a process for detecting "passing by” as the user's movement state.
  • the dialogue condition detection unit 133 may detect that the movement state of the target user U is "passing by” when avatar A is present in the range behind the target user U in front of the target user U (which may be the direction of movement, body orientation, or face orientation).
  • the dialogue condition detection unit 133 may detect that the movement state of the target user U is "passing by" when the angle between the vector DT in the forward direction of the target user U and the vector VA in the direction of the avatar A relative to the target user U exceeds 90 degrees (i.e., when the dot product is negative).
  • the dialogue condition detection unit 133 may also detect that the movement state of the target user is "about to stop in the communication area CA" or “heading towards the communication area CA” based on the position, speed, and movement direction of the target user.
  • FIG. 7 is an explanatory diagram for explaining an example of a process for detecting a user's movement state as "heading towards the communication area CA.”
  • the dialogue condition detection unit 133 may detect whether the movement state of the target user U is "heading towards the communication area CA" based on whether the movement direction of the target user U crosses the communication area CA.
  • the dialogue condition detection unit 133 may determine that the movement direction of the target user U crosses the communication area CA and detect that the movement state of the target user U is "towards the communication area CA.”
  • the dialogue condition detection unit 133 may detect that the movement state of the target user U is "likely to stop in the communication area CA" when the speed of the target user U is below a certain value or the speed of the target user is showing a decreasing tendency.
  • the threshold value of the moving speed for determining whether the target user is stationary or not, and the threshold value for determining whether the target user is likely to stop in the communication area CA, may be determined based on the population density or distribution within the sensing range.
  • the dialogue condition detection unit 133 may detect that the movement state of the target user is "about to pass by.”
  • the motion information generating unit 137 may generate control information for controlling the motion of the avatar based on the movement state of the target user detected by the dialogue condition detecting unit 133.
  • the motion information generating unit 137 may also generate control information for controlling the motion of the avatar by combining both the position of the target user (the area in which the target user is present) and the movement state detected by the dialogue condition detecting unit 133.
  • FIG. 8 is an explanatory diagram illustrating an example of a matrix for determining avatar movement information.
  • the movement information generating unit 137 may generate control information for controlling the movement of the avatar by referring to a matrix such as that shown in FIG. 8.
  • the matrix shown in FIG. 8 includes motion categories corresponding to the position of the target user in the row direction (the area in which the target user is located) and the movement state of the target user in the column direction.
  • the motion information generating unit 137 may generate control information for controlling the movement of the avatar according to the motion categories corresponding to the positional relationship between the target user and the avatar and the movement state of the target user.
  • the dialogue condition detection unit 133 determines that the target user satisfies the dialogue condition.
  • the operation information generation unit 137 may generate control information that causes the avatar to start a dialogue with the target user.
  • the motion information generating unit 137 generates control information based on the situation of the target user when the target user does not satisfy the dialogue condition and the target user does not pass in front of the avatar.
  • the action segment may include an action segment related to position adjustment that prompts the target user to adjust his/her position as shown in FIG. 8.
  • the dialogue segment may include an action segment related to a stop request that requests the target user to stop as shown in FIG. 8.
  • position adjustments A to D and stop requests A to E may differ in the degree to which they attract the awareness or attention of the target user (hereinafter referred to as strength).
  • the strength may increase in the order of the letters (A, B, C, D, E) at the end of the position adjustments and stop requests.
  • position adjustment B indicates that it is less strong than position adjustment A, but stronger than position adjustments C and D.
  • the avatar's movements according to the movement category do not necessarily need to differ according to the strength.
  • Position adjustment A is the motion category related to the strongest position adjustment.
  • the motion information generating unit 137 may generate control information for controlling the motion of the avatar according to position adjustment A.
  • the motion of the avatar according to position adjustment A may be, for example, a motion such as a beckoning motion with the avatar's chest, or a motion related to calling out, such as "Can you come here?".
  • position adjustment B is the motion category related to the position adjustment with the second highest strength after position adjustment A.
  • the motion information generating unit 137 may generate control information for controlling the motion of the avatar according to position adjustment B.
  • the motion of the avatar according to position adjustment B may be, for example, a motion such as a beckoning motion with the avatar's chest, or a motion related to calling out, such as "Can you come over here?".
  • position adjustment C is the motion category related to the position adjustment with the second highest strength after position adjustment B.
  • the motion information generating unit 137 may generate control information for controlling the motion of the avatar according to position adjustment C.
  • the motion of the avatar according to position adjustment C may be, for example, a motion such as waving with both hands.
  • the motion of the avatar according to position adjustment C does not have to include a motion related to calling out.
  • position adjustment D is the motion category related to position adjustment with the second highest strength after position adjustment C (lowest strength in the matrix shown in FIG. 8).
  • the motion information generating unit 137 may generate control information for controlling the motion of the avatar according to position adjustment D.
  • the motion of the avatar according to position adjustment D may be, for example, a motion such as lightly waving at the avatar's chest.
  • the motion of the avatar according to position adjustment D does not have to include a motion related to calling out.
  • stop request A is the motion category associated with the stop request with the highest strength.
  • the motion information generating unit 137 may generate control information for controlling the motion of the avatar in response to stop request A.
  • the motion of the avatar in response to stop request A may be, for example, a motion such as slightly raising one hand, or a motion related to saying something like "excuse me.”
  • stop request B is the motion category related to the stop request with the second highest intensity after stop request A.
  • the motion information generating unit 137 may generate control information for controlling the motion of the avatar in response to stop request B.
  • the motion of the avatar in response to stop request B may be, for example, a motion such as raising one hand, or a motion related to saying, such as "Ah.”
  • stop request C is the motion category related to the stop request with the second highest strength after stop request B.
  • the motion information generating unit 137 may generate control information for controlling the motion of the avatar in response to stop request C.
  • the motion of the avatar in response to stop request C may be, for example, a motion such as raising one hand, or a motion related to calling out in a low voice such as "Ummm.”
  • stop request D is the motion category related to the stop request with the second highest strength after stop request C.
  • the motion information generating unit 137 may generate control information for controlling the motion of the avatar in response to stop request D.
  • the motion of the avatar in response to stop request D may be, for example, a motion of putting out a hand while leaning the body.
  • the motion of the avatar in response to stop request D does not have to include a motion related to calling out.
  • stop request E is the motion category related to a stop request with the second highest strength after stop request D (lowest strength in the matrix shown in FIG. 8).
  • the motion information generating unit 137 may generate control information for controlling the motion of the avatar in response to stop request E.
  • the motion of the avatar in response to stop request E may be, for example, a motion such as raising one hand, or a motion related to calling out, such as "Ah.”
  • the avatar's actions (behavior, calls) in response to position adjustments A-D and stop requests A-E are not limited to the examples given above. Furthermore, even if the action is the same, the magnitude of the behavior or the tone of the calls may be changed depending on the difference in strength. For example, while a movement such as raising one hand has been given as an example of the avatar's action in response to stop request B and stop request C, the height at which the avatar raises its hand may differ between stop request B and stop request C.
  • the motion information generating unit 137 may also generate control information as appropriate so that the motion of the avatar is switched when there is a change in the target user's position (the area in which the target user is located) or movement state.
  • the dialogue condition detection unit 133 may redetect another user as the target user based on the interest level information when the target user's situation does not satisfy a predetermined criterion. For example, the dialogue condition detection unit 133 may redetect another user as the target user based on the interest level information when the target user's movement state is "passing by.”
  • the dialogue condition detection unit 133 may redetect as the target user another user who has the next highest interest level after the current target user.
  • the dialogue condition detection unit 133 may redetect as the target user another user whose interest level is equal to or greater than a predetermined value and who has the next highest interest level after the current target user.
  • the dialogue condition detection unit 133 may redetect another user as the target user based on the interest level information.
  • the motion information generating unit 137 may vary the motion of the avatar according to the change in the gaze direction of the target user. Specifically, the motion information generating unit 137 may generate control information such that, when the target user looks at the avatar repeatedly and in detail, as compared to when the target user looks at the avatar continuously, the target user speaks when the target user's gaze is directed toward the avatar. Such a change in the gaze direction of the target user may be determined, for example, from the standard deviation or variance of the gaze direction (gaze angle).
  • the motion information generating unit 137 may also change the content of the avatar's motion (including calling out) depending on the policy set for the avatar. For example, in the case of an avatar that is set to be "proactive," the motion information generating unit 137 may generate control information that causes the avatar to call out to target users that the avatar would not normally call out to, such as target users who do not make eye contact with the avatar. Note that the control information for when the target user is not looking at the avatar may include the motion of only calling out to the avatar.
  • the dialogue condition detection unit 133 may lower the criteria for determining whether to redetect the target user. For example, the dialogue condition detection unit 133 may redetect the target user if the target user and the avatar do not make eye contact and the target user's movement state is "trying to pass by.”
  • the user's situation may include the level of interest.
  • the motion information generating unit 137 may generate control information for controlling the motion of the avatar based on the level of interest of the target user. For example, the motion information generating unit 137 may change the tone or voice of the avatar that is to be spoken to by the target user depending on the level of interest of the target user.
  • the person detection unit 121 may also sense the attributes of the target user.
  • the motion information generation unit 137 may change the motion of the avatar according to the attributes of the target user. For example, if the attribute of the target user is a child, the motion information generation unit 137 may cause the avatar to bend and line up with the gaze, and then have the avatar perform a motion according to the motion category of the matrix.
  • the motion information generating unit 137 may also change the content of the avatar's motion (such as the display size or volume of the avatar) depending on the characteristics of the target user, such as hearing or vision. For example, if the target user is wearing a hearing aid or is interacting with other users in sign language, the motion information generating unit 137 may generate control information that causes the avatar to move or interact in sign language.
  • the person detection unit 121 may also detect user attributes from event information, schedule information, and the like. For example, if an event is limited to women, the person detection unit 121 may detect that the attribute of a user within the sensing range is female.
  • the thresholds of various parameters may be changed depending on the age group of the target user.
  • the endings of the avatar's speech (such as the polite form or colloquial expressions) may be changed depending on the age group of the target user.
  • the motion information generating unit 137 may cause the avatar to perform an action not only for the target user (representative), but also for the other users in the group in turn. Even when causing the avatar to perform an action for other users in such a group, the motion categories included in the matrix may be determined from the sensing information of the target user.
  • Group members may also be determined based on the degree of similarity of the moving speed of the target user with users in the vicinity.
  • the degree of similarity condition here may be determined by population density or distribution.
  • the other users may be included in the group.
  • the dialogue condition detection unit 133 may change the target user to the other user who is more interested.
  • the interest level estimation unit 129 may also estimate the level of interest on a group basis. For example, the interest level of the group in the avatar may be estimated based on various parameters such as the average speed (or maximum speed, minimum speed, etc.) of each member in the group, or the center of gravity position (or the position of the representative, etc.).
  • the motion information generation unit 137 may also generate control information for controlling the motion of the avatar toward the group.
  • the motion of the avatar toward the group may be, for example, a motion related to calling out to multiple people, such as "you guys.”
  • the motion information generating unit 137 may also change the language in which the avatar speaks depending on the language used by the target user (e.g., the target user's native language). As a method for determining the language used by the target user, the control unit 120 may cause the display device 300 to display the speech content, etc., in multiple languages, and the motion information generating unit 137 may determine that the language that the target user is looking at among the multiple languages is the language used by the target user.
  • the control unit 120 may cause the display device 300 to display the speech content, etc., in multiple languages, and the motion information generating unit 137 may determine that the language that the target user is looking at among the multiple languages is the language used by the target user.
  • the motion information generating unit 137 may determine that native language as the language used by the target user. Alternatively, the motion information generating unit 137 may determine the language used by the target user from the language spoken when the target user reacts, paralanguage, or body language. Then, the motion information generating unit 137 may change the avatar's motions and the language of the calls depending on the language used by the target user.
  • the motion information generating unit 137 may adjust the volume of the voice spoken by the avatar. Furthermore, the motion information generating unit 137 may change the manner or volume of speech spoken by the avatar depending on the distance between the avatar and the target user. For example, the motion information generating unit 137 may adjust the volume of the voice spoken to be louder the greater the distance between the avatar and the target user.
  • a target value such as the number of users to interact with may be set, in which case the distance or speed threshold may be changed as appropriate depending on the user or environmental situation.
  • the motion information generating unit 137 may also include target users who are in areas farther than the normal communication area as targets for starting an interaction, or may change the interaction start conditions so that target users whose movement speed is faster than normal are also targets for starting an interaction.
  • the motion information generating unit 137 may also change the thresholds of various parameters (distance, speed, etc.) used to determine motion information depending on the time period, such as commuting time, holidays, or weekdays.
  • the motion information generating unit 137 may determine the content of the avatar's motion based on the past dialogue history.
  • FIG. 9 is a diagram showing other examples of targets of the user's interest.
  • the interest level estimation unit 129 may estimate the user U's interest in product P, rather than avatar A, which is the operation target.
  • the operation information generation unit 137 may generate control information for controlling the operation of avatar A, based on whether or not the target user, based on the user's interest in product P, satisfies the dialogue condition.
  • the interest level estimation unit 129 estimates the user's interest level
  • the dialogue condition detection unit 133 detects the target user based on the interest level. This makes it possible to determine that the avatar will not approach (behave, call out to) users who have no intention of interacting with the avatar. As a result, the possibility of the avatar performing actions contrary to the user's intention to interact is reduced. Furthermore, by detecting the target user based on the interest level, it becomes possible to determine that the avatar will only approach users who are likely to interact with the user from among multiple users. As a result, it is possible to increase the success rate of the avatar's goal of interacting with the user, making it possible to achieve smooth communication. And smooth communication can be achieved, which can efficiently attract customers to the store.
  • the motion information generating unit 137 makes the avatar act on the target user and prompts the target user to change his/her state, thereby expressing the intention to talk as an element that can be sensed. This reduces errors in judging the intention to talk, and can reduce the annoyance that the user may feel toward the avatar.
  • the motion information generating unit 137 changes the strength (degree of attracting the user's awareness or attention) and content of the avatar's action based on the position of the target user and the target user's movement state, making it possible for the target user to feel that his/her actions are understood by the avatar, and further makes it easier for the target user to feel the human-like nature of the avatar. This makes it possible to achieve smooth communication.
  • the various processes performed by the information processing device 10 according to the present disclosure can be used in outdoor digital advertising (DOOH: Digital Out Of Home) as shown in FIG. 1, but the applications are not limited to this example. Next, other examples of the information processing device 10 according to the present disclosure will be described.
  • the information processing device 10 may be a server, and the server may be connected to a terminal such as a VR (Virtual Reality) device (e.g., an HMD) via a network.
  • a VR Virtual Reality
  • the server may be connected to a PC via a network, and the VR device may be connected to the PC.
  • a controller used to operate an avatar may be connected to the PC.
  • the sensing target (candidate for the target user) is an avatar operated by the user, and the operated target may be an NPC.
  • Information regarding the position and movement speed of the avatar operated by the user may be used for the user's position and movement speed.
  • the avatar moves in the virtual space based on user operation, and a wide variety of methods for the user operation are envisioned, but are not limited to any particular method.
  • the user operation may be a method in which the avatar moves by the user operating a controller in the real world, or a method in which the movement made by the user in the real world is reflected in the avatar.
  • information from an eye tracker built into the VR device may be used to sense the gaze direction, or facial information regarding the orientation of the user's face may be used instead of the gaze direction.
  • the interest level estimation unit 129 may maintain the values of various parameters related to the interest level or dialogue conditions during the warp movement operation.
  • the action information generating unit 137 may also generate variations in the actions of the NPC based on information set by the user. For example, the action information generating unit 137 may change the words or actions of the NPC to match the language set by the user.
  • the motion information generating unit 137 may generate display information relating to the line of sight or motion expressed by the NPC, or may generate display information that helps make the facial expressions of NPCs that are difficult to see more visible. Specifically, the motion information generating unit 137 may generate various types of display information, such as displaying the line of sight of the NPC, displaying an outline of the avatar controlled by the user when being watched by the avatar, or displaying effects that highlight the motions of the NPC.
  • various processes performed by the information processing device 10 may be utilized in a metaverse environment of a TPV (Third Person View).
  • TPV Transmission Person View
  • the following mainly describes the differences between the various processes performed by the information processing device 10 and those utilized in a metaverse environment of an FPV.
  • the information processing device 10 may be a server, and the server may be connected to a terminal such as a smartphone or a VR device (HMD) via a network.
  • a terminal such as a smartphone or a VR device (HMD)
  • an operation display unit touch panel
  • the smartphone may be used to display the avatar and NPC operated by the user and to operate the avatar.
  • the gaze detection unit 125 may use image data obtained by a camera equipped in the smartphone to detect where the user is looking on the smartphone display (the gaze direction).
  • Operation processing example>> 10 is an explanatory diagram for explaining an example of the operation process of the information processing device 10 according to the present disclosure.
  • the person detection unit 121 detects a person within the sensing range (step S101). At this time, the person detection unit 121 may detect position information of the detected person, and the gaze detection unit 125 may detect gaze information of the detected person.
  • the interest level estimation unit 129 estimates the interest level of the person detected by the person detection unit 121 and obtains interest level information (step S105).
  • the dialogue condition detection unit 133 detects a target user based on the interest level information (step S109). For example, the dialogue condition detection unit 133 may detect the user with the highest interest level among multiple users as the target user.
  • the dialogue condition detection unit 133 detects the area in which the target user is located based on the various parameters detected by the person detection unit 121 and the gaze detection unit 125 (step S113).
  • the dialogue condition detection unit 133 detects the movement state of the target user based on various parameters detected by the person detection unit 121 and the gaze detection unit 125 (step S117).
  • the motion information generating unit 137 determines the motion category of the avatar based on the area in which the target user is located and the movement state of the target user detected by the dialogue condition detecting unit 133 (step S121).
  • step S125 determines whether the avatar's motion category is a dialogue start motion category. If the avatar's motion category is a dialogue start motion category (step S125: YES), the process proceeds to step S129, and if the avatar's motion category is not a dialogue start motion category (step S125: NO), the process proceeds to step S133.
  • the motion information generating unit 137 generates control information for controlling the avatar's motion to start a dialogue with the target user (step S129). Then, the drawing unit 141 draws the avatar based on the control information, and the information processing device 10 according to the present disclosure ends the motion processing.
  • step S125 determines whether the avatar's motion category is a category for reselecting the target user (step S133). If the avatar's motion category is a category for reselecting the target user (step S133: YES), the process returns to step S101, and the person detection unit 121 detects a person within the sensing range again. If the avatar's motion category is not a category for reselecting the target user (step S133: NO), the process proceeds to step S137.
  • step S133 If the avatar's motion category is not one for reselecting the target user (step S133: NO), the motion information generation unit 137 generates control information for controlling the avatar's motion according to the motion category (step S137), and the drawing unit 141 draws the avatar based on the generated control information. Then, the process returns to step S113, and the dialogue condition detection unit 133 again detects the area in which the target user is located.
  • FIG. 11 is a block diagram showing an example hardware configuration of an information processing device 90 according to an embodiment of the present disclosure.
  • the information processing device 90 may be a device having a hardware configuration equivalent to that of the information processing device 10.
  • the information processing device 90 has, for example, a processor 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, an input device 878, an output device 879, a storage 880, a drive 881, a connection port 882, and a communication device 883.
  • a processor 871 for example, a processor 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, an input device 878, an output device 879, a storage 880, a drive 881, a connection port 882, and a communication device 883.
  • the hardware configuration shown here is an example, and some of the components may be omitted.
  • the information processing device 90 may further include components other than those shown here.
  • the processor 871 functions, for example, as an arithmetic processing device or control device, and controls the overall operation or part of the operation of each component based on various programs recorded in the ROM 872, the RAM 873, the storage 880, or the removable storage medium 901.
  • the ROM 872 is a means for storing the programs to be read into the processor 871, data to be used for calculations, etc.
  • the RAM 873 temporarily or permanently stores, for example, the programs to be read into the processor 871, various parameters that change appropriately when the programs are executed, etc.
  • the processor 871, ROM 872, and RAM 873 are connected to one another via, for example, a host bus 874 capable of high-speed data transmission.
  • the host bus 874 is connected to an external bus 876 having a relatively low data transmission speed via, for example, a bridge 875.
  • the external bus 876 is connected to various components via an interface 877.
  • the input device 878 may be, for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, etc. Furthermore, a remote controller capable of transmitting a control signal using infrared rays or other radio waves may be used as the input device 878.
  • the input device 878 may also include an audio input device such as a microphone.
  • the output device 879 is a device capable of visually or audibly notifying the user of acquired information, such as a display device such as a CRT (Cathode Ray Tube), LCD, or organic EL, an audio output device such as a speaker or a headphone, a printer, a mobile phone, a facsimile, etc.
  • the output device 879 according to the present disclosure also includes various vibration devices capable of outputting tactile stimuli.
  • the storage 880 is a device for storing various types of data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, or a magneto-optical storage device is used as the storage 880.
  • the drive 881 is a device that reads information recorded on a removable storage medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information to the removable storage medium 901 .
  • a removable storage medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable storage medium 901 is, for example, a DVD medium, a Blu-ray (registered trademark) medium, an HD DVD medium, various semiconductor storage media, etc.
  • the removable storage medium 901 may be, for example, an IC card equipped with a non-contact type IC chip, an electronic device, etc.
  • connection port 882 is a port for connecting an external device 902, such as a Universal Serial Bus (USB) port, an IEEE 1394 port, a Small Computer System Interface (SCSI), an RS-232C port, or an optical audio terminal.
  • USB Universal Serial Bus
  • SCSI Small Computer System Interface
  • RS-232C Small Computer System Interface
  • the external connection device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, or an IC recorder.
  • the communication device 883 is a communication device for connecting to a network, such as a wired or wireless LAN, Bluetooth (registered trademark), or a communication card for WUSB (Wireless USB), a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), or a modem for various types of communication.
  • a network such as a wired or wireless LAN, Bluetooth (registered trademark), or a communication card for WUSB (Wireless USB), a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), or a modem for various types of communication.
  • the operation target is a virtual object (avatar)
  • the operation target according to the present disclosure is not limited to a virtual object.
  • the operation target according to the present disclosure may be a real object for communication, etc.
  • the communication robot it is desirable for the communication robot to have elements that allow the user to easily sense that their gaze is met (e.g., eyes), elements that can express facial expressions, and limbs that can express gestures.
  • the avatar according to the present disclosure may also be an avatar without eyes (e.g., a plant-like avatar).
  • various processes may be performed with the direction of the avatar's face or body as the line of sight.
  • various processes by the information processing device 10 according to the present disclosure may be used in customer service support and training.
  • the information processing device 10 may be a PC, and a terminal having a display such as a tablet terminal may be connected to the PC via a network.
  • various information such as what type of user has a high interest level, and what is the optimal avatar action according to the target user's situation, may be used as an assistance for customer service.
  • an assistance method for example, when using a display of a monitor or AR glasses, the display may display information that visualizes the interest level of each user within the sensing range, or may display candidates for actions for the target user.
  • the operator may manually select the target user by referring to the interest level displayed on the display, or may specify an action for the avatar by selecting one action from the action candidates.
  • the information processing device 10 does not necessarily have to include the person detection unit 121, the gaze detection unit 125, and the interest level estimation unit 129.
  • various processes performed by the person detection unit 121, the gaze detection unit 125, and the interest level estimation unit 129 may be performed by other devices.
  • the communication unit 110 included in the information processing device 10 may receive various parameters such as the user's position information and gaze information detected by the other device, and interest level information from the other device.
  • the communication unit 110 is an example of an acquisition unit.
  • each step in the processing of the information processing system in this specification does not necessarily have to be processed chronologically in the order described in the flowchart.
  • each step in the processing of the information processing system may be processed in an order different from the order described in the flowchart or in parallel.
  • an acquisition unit that acquires interest level information indicating a user's interest level in an operation target; a generation unit that generates control information for controlling an operation of the operation target based on whether or not a target user based on the interest level information satisfies a dialogue condition;
  • An information processing device comprising: (2) The generation unit is generating control information for causing the operation target to interact with the target user when the target user satisfies an interaction condition; The information processing device according to (1).
  • a detection unit that detects a target user based on the interest level information and determines whether or not the target user satisfies a dialogue condition based on a state of the detected target user; Further comprising: The information processing device according to (2).
  • the detection unit is when the situation of the target user does not satisfy a predetermined criterion, re-detecting another user as the target user based on the interest level information; The information processing device according to (3).
  • the status of the target user includes a moving state of the target user
  • the detection unit is when the target user passes in front of the operation target, it is determined that the situation of the target user does not satisfy a predetermined criterion, and another user is re-detected as the target user based on the interest level information;
  • the information processing device according to (4).
  • the generation unit is generating control information for controlling an action of the operation target based on a situation of the target user when the target user does not satisfy a dialogue condition and the target user does not pass in front of the operation target;
  • the information processing device according to (5).
  • the situation of the target user includes a positional relationship between the target user and the operation target,
  • the generation unit is generating control information for controlling a motion of the operation target based on a moving state of the target user and a position of the target user with respect to the operation target;
  • the information processing device according to (6) above.
  • the generation unit is generating control information for controlling a motion of the operation target according to a motion classification corresponding to each of a position of the target user with respect to the operation target and a movement state of the target user;
  • the detection unit is determining that the target user satisfies a dialogue condition when the target user is stopped within a predetermined area;
  • the information processing device according to (8) is determining that the target user satisfies a dialogue condition when the target user is stopped within a predetermined area;
  • the acquisition unit is acquiring the interest level information based on a position of the user relative to the operation target; The information processing device according to any one of (1) to (9).
  • the acquisition unit is acquiring the interest level information based on a moving speed of the user; The information processing device according to (10).
  • (12) The acquisition unit is acquiring information about a position of the user and a moving speed of the user based on image data obtained by photographing the user; The information processing device according to (11) above.
  • the user's position is a position of an avatar operated by the user,
  • the user's velocity is the velocity of an avatar operated by the user.
  • the acquisition unit is acquiring the interest level information based on a gaze direction of the user; The information processing device according to any one of (1) to (13).
  • the acquisition unit is acquiring information about the user's gaze direction based on a pupil-corneal reflex method; The information processing device according to (14) above.
  • the detection unit is detects, from among a plurality of users, a user having the highest interest level as a target user, and when the situation of the target user does not satisfy a predetermined criterion, redetects another user having the second highest interest level as the target user; The information processing device according to (4).
  • the detection unit is a user having the highest interest level among a plurality of users and whose interest level is equal to or greater than a predetermined value is detected as a target user, and when the situation of the target user does not satisfy a predetermined criterion, another user having the next highest interest level that is equal to or greater than the predetermined value is redetected as the target user;
  • the information processing device according to (16) above.
  • the status of the target user includes the interest level
  • the generation unit is generating control information for controlling an operation of the operation target based on the interest level of the target user;
  • the information processing device according to any one of (2) to (9).
  • An information processing method implemented by a computer comprising: (20) On the computer, an acquisition function for acquiring interest level information indicating a user's interest level in an operation target; a generation function of generating control information for controlling an operation of the operation target based on whether or not a target user based on the interest level information satisfies a dialogue condition; A non-transitory storage medium readable by a computer having a program stored therein for realizing the above.

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザの対話意思を尊重したコミュニケーションを図る。 【解決手段】操作対象に対するユーザの興味度を示す興味度情報を取得する取得部と、前記興味度情報に基づく対象ユーザが対話条件を満たしているか否かに基づき、前記操作対象の動作を制御するための制御情報を生成する生成部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法および記憶媒体
 本開示は、情報処理装置、情報処理方法および記憶媒体に関する。
 近年、アバターやロボットなどの対象がユーザとコミュニケーションを図る技術が開発されている。例えば、特許文献1では、対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報をキャラクターから出力させることで当該キャラクターとユーザとの間でコミュニケーションを図らせる技術が開示されている。
国際公開第2018/056169号
 しかし、特許文献1に記載の技術では、ユーザの顔画像の大きさが閾値以上でない場合に、ユーザに近づくように移動を促す音声を出力するため、ユーザがコミュニケーションを図るつもりではない、またはユーザがコミュニケーションを図れない状況においてもキャラクターがユーザに話しかけてしまう恐れがあった。この結果、ユーザがコミュニケーションを望んでいないにも関わらず、ユーザにコミュニケーションを図ることを強いてしまう状況が生じ得た。
 そこで、本開示では、ユーザの対話意思を尊重したコミュニケーションを図ることが可能な、新規かつ改良された情報処理装置、情報処理方法および記憶媒体を提案する。
 本開示によれば、操作対象に対するユーザの興味度を示す興味度情報を取得する取得部と、前記興味度情報に基づく対象ユーザが対話条件を満たしているか否かに基づき、前記操作対象の動作を制御するための制御情報を生成する生成部と、を備える、情報処理装置が提供される。
 また、本開示によれば、操作対象に対するユーザの興味度を示す興味度情報を取得することと、前記興味度情報に基づく対象ユーザが対話条件を満たしているか否かに基づき、前記操作対象の動作を制御するための制御情報を生成することと、を含む、コンピュータにより実行される情報処理方法が提供される。
 また、本開示によれば、コンピュータに、操作対象に対するユーザの興味度を示す興味度情報を取得する取得機能と、前記興味度情報に基づく対象ユーザが対話条件を満たしているか否かに基づき、前記操作対象の動作を制御するための制御情報を生成する生成機能と、を実現させるための、プログラムが記憶されたコンピュータにより読み取り可能な非一時的な記憶媒体が提供される。
本開示に係る情報処理システムの概要を説明するための説明図である。 本開示に係る情報処理装置10の機能構成例を説明するための説明図である。 本開示に係る興味度の推定に用いるパラメータの具体例を説明するための説明図である。 ユーザとアバターとの間の距離に対応するシグモイド関数の一例を説明するための説明図である。 対象ユーザおよびアバターの位置関係の具体例を説明するための説明図である。 ユーザの移動状態として「通り過ぎている」が検出される処理の一例を説明するための説明図である。 ユーザの移動状態として「コミュニケーションエリアCAに向かっている」が検出される処理の一例を説明するための説明図である。 アバターの動作情報を決定するためのマトリクスの一例を説明するための説明図である。 ユーザによる興味度の対象の他の例を説明するための説明図である。 本開示に係る情報処理装置10の動作処理の一例を説明するための説明図である。 本開示の一実施形態に係る情報処理装置90のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
  1.概要
  1.1.情報処理システムの概要
  1.2.情報処理装置10の機能構成例
  2.詳細
  2.1.興味度の推定
  2.2.対象ユーザの検出
  2.3.制御情報の生成
  2.4.他の実施例
  3.動作処理例
  4.ハードウェア構成例
  5.補足
 <<1.概要>>
 近年、メタバース環境でのサービスが増加し、仮想空間内でのアバターの店員またはNPC(Non Player Character)等、自律的にユーザに話しかけるシステムの需要が増加している。
 また、現実の世界においても、実店舗でのアバターの店員の活用や、NPCによるインタラクティブな屋外広告が増えてきており、メタバース環境と同様に、自律的にユーザに話しかけるシステムの需要が増加している。
 メタバース環境と現実の世界のいずれであっても、アバターの店員またはNPC等は、複数人のユーザが存在する環境において活用されることが想定され得る。なお、以下では、アバターの店員およびNPC等を総称して、単にアバターと表現する場合がある。
 複数のユーザが存在する環境でアバターが自律的にユーザに話しかけるシステムを活用する場合、当該システムは、複数のユーザのうちからアバターが話しかけるユーザを自律的に決定する必要がある。しかし、システムが選んだユーザは、必ずしもアバターとコミュニケーションを図れる状況ではなく、例えば応答する気がない、または応答できない状況であるにも関わらずアバターがユーザに話しかけてしまうと、ユーザにとって鬱陶しいシステムが生じ得る。
 そのため、アバターが自律的にユーザに話しかけるには、システムは、アバターが話しかけてもよいユーザを適切に判断することが望ましい。換言すると、システムは、ユーザ対話意思を適切に判断することが望ましい。
 ユーザの対話意思を判断する方法として、例えば、ユーザの位置または表情のみから判断する手法が挙げられる。例えば、アバターとの距離が一定以内まで近づいたユーザを、対話意思があるユーザであるという判断基準とする場合が想定される。しかし、このような判断基準の場合、アバターとの対話に興味があるユーザだけでなく、アバターとの対話に興味がないユーザ(例えば、偶然アバターの近くを通ったユーザ)にも声をかける可能性があり、ユーザにとって鬱陶しいシステムが生じ得る。このように、ユーザの位置、視線または表情のみから判断されたユーザの対話意思の有無は、確度が低くなり得る。
 また、ユーザの対話意思の有無の判断を間違えないために、例えば、ユーザに明示的な入力を求める方法も考えられる。具体的には、アバターと対話したいユーザに起動ワードの発話を求めるものなどが想定される。しかし、このようなユーザに明示的な入力を求める場合、システムによる対話意思の有無に係る判断の間違えは減るものの、アバターによる自律的な対話とは言い難い。
 そこで、本開示の一実施形態は、ユーザの対話意思を尊重したコミュニケーションを図ることが可能な情報処理システムに関する。具体的には、本開示に係る情報処理システムによれば、対話前のノンバーバルコミュニケーションをモデル化することで、明示的な入力をユーザに求めることなく、確度高くユーザの対話意思の有無を判断することが可能になる。まず、図1を参照し、本開示に係る情報処理システムの概要を説明する。
 <1.1.情報処理システムの概要>
 図1は、本開示に係る情報処理システムの概要を説明するための説明図である。本開示に係る情報処理システムは、図1に示すように、情報処理装置10と、カメラ200と、ディスプレイ装置300と、を有する。
 (情報処理装置10)
 本開示に係る情報処理装置10は、操作対象(例えば、図1に示すアバターA)に対するユーザの興味度を示す興味度情報を取得する。また、情報処理装置10は、取得した興味度情報に基づく対象ユーザが対話条件を満たしているか否かに基づき、操作対象(例えば、図1に示すアバターA)の動作を制御するための制御情報を生成する。情報処理装置10の各種構成の詳細は後述する。
 本開示に係る情報処理装置10は、例えばPC(Personal Computer)、ノートPC、タブレット端末、スマートフォン、サーバ、HMD(Head Mounted Display)またはAR(Augmented Reality)グラス等の各種装置であってもよい。
 (カメラ200)
 本開示に係るカメラ200は、例えば、設置された環境を撮影することで、ユーザUの画像を取得するセンシング装置である。例えば、カメラ200は、図1に示す環境を撮影することで、ユーザU1、ユーザU2およびユーザU3を含む画像を取得する。そして、カメラ200は、取得した画像を含む画像データを情報処理装置10に送信する。
 なお、本開示に係るカメラ200は、例えばRGBカメラ、ToF(Time of Flight)センサ、ステレオカメラ、赤外カメラであってもよい。
 また、本開示に係る情報処理装置10は、LiDAR(Light Detection and Ranging)またはミリ波レーダ等の各種装置を備えてもよい。
 また、環境における光の変化(例えば、光量の変化)で正確なセンシングが困難な場合、データの取得に用いるセンサが切り替えられてもよい。例えば、暗所では、赤外光を用いたToFセンサが用いられてもよい。一方、太陽光下では、データの取得に用いるセンサが赤外光を用いたToFセンサから可視光によるセンサに切り替えられてもよい。また、逆光の場合には、光に依存しないミリ波レーダが用いられてもよい。
 (ディスプレイ装置300)
 本開示に係るディスプレイ装置300は、アバターAの映像を表示する表示部の機能と、アバターAが発する音声を提示する音声出力部としての機能を包含する装置である。
 例えば、ディスプレイ装置300は、情報処理装置10に生成された制御情報に基づき描画されたアバターAを表示し、更に、当該制御情報に基づく音声を出力する。
 表示部の機能は、例えば、2次元ディスプレイ、透明ディスプレイ、3次元ディスプレイ、多視差ディスプレイまたはXR(Extended Reality)デバイスにより実現されてもよい。また、3次元ディスプレイは、眼鏡型であってもよいし、三次元プロジェクターであってもよい。
 また、ディスプレイの種類は限定されない。例えば、ディスプレイは、LCD(Liquid Crystal Display)であってもよいし、有機EL(Electro-Luminescence)ディスプレイであってもよいし、PDP(Plasma Display Panel)などであってもよい。
 また、ディスプレイ装置300は、スマートフォン、タブレット端末、またはHMD等の各種端末であってもよい。ディスプレイ装置300がHMDである場合、当該HMDは、ベースステーションまたはSLAM(Simultaneous Localization and Mapping)等の位置トラッキングに関する機能と、アイトラッキングに関する機能を有していることが望ましい。
 また、音声出力部の機能は、スピーカにより実現されてもよい。
 続いて、図2を参照し、本開示に係る情報処理装置10の機能構成例を説明する。
 <1.2.情報処理装置10の機能構成例>
 図2は、本開示に係る情報処理装置10の機能構成例を説明するための説明図である。本開示に係る情報処理装置10は、図2に示すように、通信部110と、制御部120と、を備える。
 (通信部110)
 本開示に係る通信部110は、カメラ200の撮影により得られた画像データを、当該カメラ200から受信する。また、通信部110は、後述する動作情報生成部137により生成された制御情報に基づく音声を含む音声情報と、後述する描画部141により描画されたアバターの映像と、を含む各種情報をディスプレイ装置300に送信する。
 (制御部120)
 本開示に係る制御部120は、情報処理装置10の動作全般を制御する。制御部120は、図2に示すように、人検出部121と、視線検出部125と、興味度推定部129と、対話条件検出部133と、動作情報生成部137と、描画部141と、を備える。
 本開示に係る人検出部121は、カメラ200により取得された画像データに基づき、ユーザを検出する。例えば、人検出部121は、カメラ200のセンシング範囲に複数のユーザが存在する場合、当該複数のユーザの各々を検出する。
 また、人検出部121は、画像データに基づき、各ユーザの位置を検出してもよい。例えば、人検出部121は、各ユーザとアバターの位置関係を検出してもよい。
 なお、人検出部121は、ユーザおよびユーザの位置の検出に必ずしも画像データを用いなくてもよい。例えば、人検出部121は、ユーザおよびユーザの位置を検出可能なデータをベースにするのであれば画像データをベースにしなくてもよく、例えば、点群データ、デプスデータ、超音波データ等の各種データに基づき、各ユーザおよびアバターの位置関係を検出してもよい。
 また、人検出部121は、検出したユーザの位置に基づき、当該ユーザの速度を検出してもよい。例えば、人検出部121は、単位時間当たりのユーザの位置の変化に基づき、ユーザの速度を検出してもよい。
 また、人検出部121は、ユーザの属性を検出してもよい。例えば、ユーザの属性は、「大人」または「子供」のような年齢層に関する属性を含んでもよいし、「男性」または「女性」のような性別に関する属性を含んでもよい。
 なお、人検出部121は、トラッキングに際して、ユーザの顔または服の特徴量を用いてもよい。これにより、人検出部121は、例えば人口密度が高いことにより、カメラ200のセンシング範囲内にいるユーザがセンシングできない場合、また、オクルージョンが生じた際でもユーザを追跡することが可能になり得る。
 本開示に係る視線検出部125は、カメラ200により取得された画像データからユーザの視線の向きを示す視線情報を検出する。なお、視線検出には赤外カメラにより得られたデータを用いてもよい。
 なお、本開示に係る視線情報の検出方法は、画像データに基づく検出方法に限定されない。例えば、視線検出部125は、瞳孔角膜反射法を用いて、視線情報を検出してもよい。
 また、視線検出部125は、視線の向きに関連する別の部位の向きを検出してもよい。例えば、視線検出部125は、ユーザの顔の向きを示す顔情報を検出してもよい。また、視線検出部125は、ユーザの体の向きを示す体情報を検出してもよい。
 本開示に係る興味度推定部129は、取得部の一例であり、操作対象に対するユーザの興味度を示す興味度情報を取得する。例えば、興味度推定部129は、人検出部121により検出されたユーザおよびアバターの位置関係と、視線検出部125により検出された当該ユーザの視線情報と、に基づき、アバターに対するユーザの興味度を推定してもよい。興味度の推定等の各種処理に係る詳細については後述する。
 本開示に係る対話条件検出部133は、検出部の一例であり、興味度推定部129により取得された興味度情報に基づき、対話可能性が最も高いユーザとして対象ユーザを検出する。また、対話条件検出部133は、検出した対象ユーザの状況に基づき、当該対象ユーザが対話条件を満たしているか否かを判定する。
 また、対話条件検出部133は、対象ユーザの状況が所定の基準を満たさなかった際に、興味度情報に基づき、他のユーザを対象ユーザとして再検出してもよい。対象ユーザの検出および対話条件を満たしているか否かの判定等の各種処理に係る詳細については後述する。
 本開示に係る動作情報生成部137は、生成部の一例であり、対話条件検出部133により判定された、対象ユーザが対話条件を満たしているか否かに基づき、アバターの動作を制御するための制御情報を生成する。
 動作情報生成部137は、例えば、対象ユーザが対話条件を満たしている際に、当該対象ユーザに向けて、アバターに対話させる制御情報を生成する。
 また、動作情報生成部137は、対象ユーザが対話条件を満たさず、且つ、当該対象ユーザの状況が所定の基準を満たしていた場合に、当該対象ユーザの状況に基づく制御情報を生成してもよい。動作情報生成部137により生成される制御情報の詳細については後述する。
 本開示に係る描画部141は、動作情報生成部137により生成された制御情報に基づき、アバターの映像を描画する。例えば、ディスプレイ装置が多視差ディスプレイである場合、描画部141は、多視差に対応する水平方向または垂直方向の各位置に応じて異なる姿勢を有するキャラクターの立体映像を描画してもよい。
 以上、本開示に係る情報処理装置10の機能構成の一例を説明した。続いて、図3~図9を参照し、本開示に係る情報処理装置10の各種処理の詳細を説明する。
 <<2.詳細>>
 <2.1.興味度の推定>
 本開示に係る興味度推定部129は、操作対象(例えば、アバター)に対するユーザの興味度を推定し、興味度情報を取得する。例えば、興味度推定部129は、人検出部121および視線検出部125により検出された各種パラメータに基づき、興味度を推定してもよい。ここで、図3を参照し、人検出部121および視線検出部125により検出される各種パラメータの詳細を説明する。
 図3は、本開示に係る興味度の推定に用いるパラメータの具体例を説明するための説明図である。例えば、人検出部121は、ユーザUおよびアバターAの位置関係を推定する。ここでの位置関係とは、例えば、図3に示すような、ユーザUからアバターAまでの距離Dであってもよい。
 また、人検出部121は、ユーザの位置の変化に基づき、ユーザの速度を検出してもよい。例えば、人検出部121は、図3に示すような、ユーザUから見たアバターAの方向(以下、単に「アバターAがいる方向」と表現する場合がある。)に対する法線方向のユーザUの速度Vを検出してもよい。
 視線検出部125は、例えば瞳孔角膜反射法を用いて、視線情報を検出してもよい。ここでの、視線情報とは、アバターAがいる方向からユーザUの視線の方向LSまでの角度情報(ユーザの視線の角度)を含む。
 また、視線検出部125は、ユーザUの視線の方向LSの代わりに、またはユーザUの視線の方向LSに加えて、顔情報(ユーザUの顔の向き)または体情報(ユーザUの体の向き)を検出してもよい。そして、視線検出部125は、アバターAがいる方向からユーザUの顔が向いている方向までの角度を角度情報として検出してもよい。または、視線検出部125は、アバターAがいる方向からユーザUの体が向いている方向までの角度を角度情報として検出してもよい。
 また、視線検出部125は、アバターAがいる方向からユーザUの視線の方向LSまでの角度の分散または標準偏差を検出してもよい。例えば、視線検出部125は、現在時刻から所定時間前の各角度情報を用いて、角度の分散または標準偏差を検出してもよい。
 そして、興味度推定部129は、以上説明したような様々なパラメータを用いて、ユーザUのアバターAに対する興味度を推定し、興味度情報を取得してもよい。例えば、興味度推定部129は、人検出部121および視線検出部125により検出された各種パラメータに対応する正規化関数を用いて、当該各種パラメータを正規化してもよい。例えば、正規化関数には、シグモイド関数が採用されてもよい。
 図4は、ユーザとアバターとの間の距離に対応するシグモイド関数の一例を説明するための説明図である。例えば、シグモイド関数は、下記数式(1)により表せられる。ここで、f(x)は興味度であり、xはパラメータ(図4では、距離)であり、kは係数である。
 f(x)=1/(1+e―kx
                   (1)
 例えば、図4に示すシグモイド関数によれば、興味度推定部129は、ユーザとアバターとの間の距離が近ければ近いほど、興味度を大きく推定する。
 換言すると、興味度推定部129は、ユーザと、アバターとの間の距離が離れることにより、アバターに対するユーザの興味度を小さく推定する。
 このように、興味度推定部129は、正規化関数としてシグモイド関数を用いることで、距離のパラメータを興味度に変換してもよい。また、興味度推定部129は、他のパラメータに対応するシグモイド関数を用いて、当該他のパラメータにおいても興味度に変換してもよい。
 例えば、興味度推定部129は、法線方向の速度(以下では、法線速度、と表現する。)に対応するシグモイド関数を用いて、当該法線速度を興味度に変換してもよい。ここで、法線速度に対応するシグモイド関数では、数式(1)におけるxは法線速度である。また、法線速度に対応するシグモイド関数では、例えば、法線速度が小さい程、興味度の値が大きく推定されることが望ましい。
 また、興味度推定部129は、ユーザの視線の角度(以下では、視線角度、と表現する。)に対応するシグモイド関数を用いて、当該視線角度を興味度に変換してもよい。ここで、視線角度に対応するシグモイド関数では、数式(1)におけるxは視線角度である。また、視線角度に対応するシグモイド関数では、例えば、視線角度が小さい程(即ち、ユーザの視線の方向がアバターAに向いている程)、興味度の値が大きく推定されることが望ましい。
 また、興味度推定部129は、ユーザの視線の角度の分散(以下では、視線角度分散、と表現する。)に対応するシグモイド関数を用いて、当該視線角度分散を興味度に変換してもよい。ここで、視線角度分散に対応するシグモイド関数では、数式(1)におけるxは視線角度分散である。また、視線角度分散に対応するシグモイド関数では、例えば、視線角度分散が小さい程、興味度の値が大きく推定されることが望ましい。
 なお、各シグモイド関数に設定されるパラメータ(例えば、係数k)の設定値は、ユースケースまたはアバターの属性に応じて適宜設定されてもよい。
 そして、興味度推定部129は、各種パラメータから推定した各興味度を統合してもよい。例えば、興味度推定部129は、距離、法線速度、視線角度および視線角度分散の各々から変換された各興味度の積(または、和)を、一の興味度として統合してもよい。
 また、興味度推定部129は、興味度の統合に際して、重み付けを行ってもよい。例えば、距離のパラメータの重要度が高い場合、興味度推定部129は、距離のパラメータから変換された興味度に対し第1の重み係数(例えば、0.4)を乗算し、他のパラメータ(法線速度、視線角度および視線角度分散)から変換された興味度に対し第2の重み係数(例えば、0.25)を乗算する。そして、興味度推定部129は、重み係数を乗算した各興味度の積(または、和)を、一の興味度として統合してもよい。
 また、正規化関数は、シグモイド関数に限定されない。例えば、正規化関数には、ステップ関数等の他の関数が採用されてもよい。
 また、興味度の推定には音声が用いられてもよい。例えば、ディスプレイ装置300が備える図示しないマイクロフォンにより環境の音声情報を取得する。例えば、興味度推定部129は、アバターについて話しているユーザの興味度を所定値(例えば、0.8等)で推定してもよい。
 興味度推定部129は、以上説明したような推定処理により、カメラ200のセンシング範囲内に存在する複数のユーザの各興味度(または、統合した興味度)を推定する。
 なお、興味度推定部129は、現在時刻の各種パラメータを用いて興味度を推定してもよいし、所定時間前(例えば、数秒前)の各種パラメータを用いて興味度を推定してもよい。
 以上、本開示に係る興味度の推定に係る詳細を説明した。続いて、対象ユーザの検出に係る詳細を説明する。
 <2.2.対象ユーザの検出>
 対話条件検出部133は、興味度推定部129により取得された興味度情報に基づき、対象ユーザを検出する。例えば、対話条件検出部133は、興味度が最も高いユーザを対象ユーザとして検出してもよい。
 または、対話条件検出部133は、興味度が所定値以上であり、且つ興味度が最も高いユーザを対象ユーザとして検出してもよい。
 また、アバターによる対話の対象となるユーザの属性が予め設定されていてもよい。例えば、アバターによる対話の対象となるユーザの属性が「子供」に設定されていた場合、対話条件検出部133は、子供であることが検出されたユーザの中で興味度が最も高いユーザを対象ユーザとして検出してもよい。また、アバターにより話しかけの対象となるユーザの属性が「20代の女性」に設定されていた場合、対話条件検出部133は、20代の女性であることが検出されたユーザの中で最も興味度が高いユーザを対象ユーザとして検出してもよい。
 また、複数台の情報処理装置10が連携している場合、対話条件検出部133は、別のアバターの働きかけ(対話を含む各種動作)に応じなかったユーザ、または既に対話したユーザを対象ユーザの候補から除外してもよい。
 また、情報処理装置の図示しない記憶部は、ユーザの過去の対話履歴を保持してもよい。この場合、対話条件検出部133は、過去にアバターの働きかけに応じたユーザを優先的に対象ユーザとして検出してもよい。例えば、対話条件検出部133は、過去にアバターの働きかけに応じていないユーザと比較して、過去にアバターの働きかけに応じたユーザの興味度に高い重み係数を乗算してもよい。そして、対話条件検出部133は、重み付けを行った興味度を比較し、比較の結果に基づき対象ユーザを検出してもよい。
 以上、本開示に係る対象ユーザの検出に係る詳細を説明した。続いて、対話条件の検出および制御情報の生成に係る詳細を説明する。
 <2.3.制御情報の生成>
 動作情報生成部137は、対象ユーザが対話条件を満たしているか否かに基づき、アバターの動作を制御するための制御情報を生成する。
 例えば、対話条件検出部133は、対象ユーザの状況に基づき、当該対象ユーザが対話条件を満たしているか否かを判定してもよい。
 例えば、対象ユーザの状況には、対象ユーザおよびアバターの位置関係が含まれてもよい。そして、動作情報生成部137は、アバターに対する対象ユーザの位置に基づいて、アバターの動作を制御するための制御情報を生成してもよい。ここで、図5を参照し、対象ユーザおよびアバターの位置関係の具体例を説明する。
 図5は、対象ユーザおよびアバターの位置関係の具体例を説明するための説明図である。例えば、センシング範囲内は、アバターAを基準として複数のエリアに分けられてもよい。
 例えば、アバターAからの距離が「7.6m」の内側がセンシング範囲である場合、当該7.6mの内側であるセンシング範囲が複数のエリアに区分けされてもよい。
 具体的には、図5に示す例によれば、アバターAからの距離が「0m」から「2.0m」の範囲内にあるエリア(以下、第1エリアSP1と称する。)と、アバターAからの距離が「2.0m」から「3.6m」の範囲内にあるエリア(以下、第2エリアSP2と称する。)と、アバターAからの距離が「3.6m」から「7.6m」の範囲内にあるエリア(以下、第3エリアSP3と称する。)と、にセンシング範囲が区分けされてもよい。
 例えば、図5に示すユーザU1が対象ユーザである場合、対話条件検出部133は、当該対象ユーザであるユーザU1が第3エリアSP3に存在すると判定する。また、図5に示すユーザU2が対象ユーザである場合、対話条件検出部133は、当該対象ユーザであるユーザU2が第2エリアSP2に存在すると判定する。また、図5に示すユーザU3が対象ユーザである場合、対話条件検出部133は、当該対象ユーザであるユーザU3が第1エリアSP1に存在すると判定する。
 また、第1エリアSP1には、ユーザUとアバターAが対話可能なエリアとしてコミュニケーションエリアCAが含まれてもよい。コミュニケーションエリアCAは、アバターAの前方のエリアであることが望ましく、例えば当該エリアの4隅の座標で定義される。図5に示すユーザU4が対象ユーザである場合、対話条件検出部133は、当該対象ユーザであるユーザU4がコミュニケーションエリアCAに存在すると判定する。なお、コミュニケーションエリアCAは、所定のエリアの一例である。
 そして、動作情報生成部137は、アバターAに対する対象ユーザの位置(対象ユーザが存在するエリア)に基づき、アバターAの動作を制御するための制御情報を生成してもよい。
 なお、センシング範囲内の区分けの例として、センシング範囲が第1エリアSP1、第2エリアSP2、第3エリアSP3の3つに分けられ、その一つである第1エリアSP1にコミュニケーションエリアCAが含まれる例を挙げたが、本開示に係る区分けは係る例に限定されない。例えば、センシング範囲は、コミュニケーションエリアCAとそれ以外のエリアの2つのエリアに分けられてもよいし、2、3または5以上のエリアに分けられてもよい。
 また、コミュニケーションエリアCAが第1エリアSP1に含まれる例を説明したが、コミュニケーションエリアCAは、第2エリアSP2等の他のエリアに含まれてもよいし、複数のエリア(例えば、第1エリアSP1および第2エリアSP2)に跨って含まれてもよい。
 また、対象ユーザの状況には、アバターに対する当該対象ユーザの移動状態が含まれてもよい。以下では、対象ユーザの移動状態に、「止まっている」、「コミュニケーションエリアCAに立ち止まりそう」、「コミュニケーションエリアCAに向かっている」、「通りすぎようとしている」および「通り過ぎている」の5種類が含まれる例を主に説明するが、対象ユーザの移動状態は係る例に限定されない。
 例えば、対話条件検出部133は、対象ユーザの位置(アバターまでの距離)、速度(アバターに対する速度)、視線方向(視線角度)および移動方向等の各種パラメータに基づき、当該対象ユーザの移動状態を検出してもよい。
 例えば、対話条件検出部133は、対象ユーザの速度に基づいて、当該対象ユーザの移動状態が「止まっている」であることを検出してもよい。具体的には、対話条件検出部133は、対象ユーザの速度が0または0に限りなく近い場合、当該対象ユーザの移動状態が「止まっている」であると検出してもよい。
 また、対話条件検出部133は、対象ユーザの位置および移動方向に基づき、当該対象ユーザの移動状態が「通り過ぎている」であることを検出してもよい。
 図6は、ユーザの移動状態として「通り過ぎている」が検出される処理の一例を説明するための説明図である。対話条件検出部133は、対象ユーザUの正面方向(移動方向、体の向き、または顔の向きであってもよい。)に対して、後ろの範囲にアバターAが存在する場合に、当該対象ユーザUの移動状態が「通り過ぎている」であることを検出してもよい。
 具体的には、対話条件検出部133は、対象ユーザUの正面方向のベクトルDTと、対象ユーザUを基準としてアバターAがいる方向のベクトルVAと、のなす角が90度を上回る場合(即ち、内積が負である場合)、当該対象ユーザUの移動状態が「通り過ぎている」であることを検出してもよい。
 また、対話条件検出部133は、対象ユーザの位置、速度および移動方向に基づき、当該対象ユーザの移動状態が「コミュニケーションエリアCAに立ち止まりそう」または「コミュニケーションエリアCAに向かっている」であることを検出してもよい。
 図7は、ユーザの移動状態として「コミュニケーションエリアCAに向かっている」が検出される処理の一例を説明するための説明図である。対話条件検出部133は、対象ユーザUの移動方向がコミュニケーションエリアCAを横切っているか否かに基づいて、当該対象ユーザの移動状態が「コミュニケーションエリアCAに向かっている」であるか否かを検出してもよい。
 例えば、対話条件検出部133は、対象ユーザUの正面方向のベクトルDTと、対象ユーザUを基準としてコミュニケーションエリアCAの四隅に向かうベクトルVC1~VC4と、の外積の大きさの符号が一致していない場合に、対象ユーザUの移動方向がコミュニケーションエリアCAを横切っているとして、当該対象ユーザUの移動状態が「コミュニケーションエリアCAに向かっている」であることを検出してもよい。
 対話条件検出部133は、対象ユーザUの速度が一定値以下、または対象ユーザの速度が低下傾向にある場合に、対象ユーザUの移動状態が「コミュニケーションエリアCAに立ち止まりそう」であることを検出してもよい。
 なお、対象ユーザが止まっているか否かを判定する移動速度の閾値、およびコミュニケーションエリアCAに立ち止まりそうか否かを判定する閾値は、センシング範囲内の人口密度または分布によって決められてもよい。
 また、対話条件検出部133は、対象ユーザの移動状態が上述したいずれでもない場合に、当該対象ユーザの移動状態が「通りすぎようとしている」であることを検出してもよい。
 そして、動作情報生成部137は、対話条件検出部133により検出された対象ユーザの移動状態に基づき、アバターの動作を制御するための制御情報を生成してもよい。
 また、動作情報生成部137は、対話条件検出部133により検出された対象ユーザの位置(対象ユーザが存在するエリア)および移動状態の両方を組み合わせて、当該アバターの動作を制御するための制御情報を生成してもよい。
 図8は、アバターの動作情報を決定するためのマトリクスの一例を説明するための説明図である。例えば、動作情報生成部137は、図8に示すようなマトリクスを参照して、アバターの動作を制御するための制御情報を生成してもよい。
 図8に示すマトリクスには、行方向の対象ユーザの位置(対象ユーザの存在するエリア)と、列方向の対象ユーザの移動状態の各々に対応する動作区分が含まれる。動作情報生成部137は、対象ユーザおよびアバターの位置関係と、当該対象ユーザの移動状態と、の各々に対応する動作区分に応じたアバターの動作を制御するための制御情報を生成してもよい。
 図8に示すマトリクスによれば、対話条件検出部133は、例えば、対象ユーザがコミュニケーションエリアCAに存在し、且つ止まっていた場合、当該対象ユーザが対話条件を満たしていると判定する。このように対話条件を満たしていると判定された場合、動作情報生成部137は、対象ユーザに向けて、アバターに対話を開始させる制御情報を生成してもよい。対象ユーザの状況および当該アバターに対する興味度を考慮して、アバターが対象ユーザへの対話を開始することで、よりユーザの望む状況でのコミュニケーションが実現され得る。
 また、図8に示すマトリクスによれば、動作情報生成部137は、対象ユーザが対話条件を満たさず、当該対象ユーザがアバターの前方を通り過ぎていない場合に、当該対象ユーザの状況に基づく制御情報を生成する。
 例えば、動作区分には、図8に示すような対象ユーザの位置の調整を促す位置調整に関する動作区分が含まれてもよい。更に、対話区分には、図8に示すような対象ユーザに停止を依頼する停止依頼に関する動作区分が含まれてもよい。
 ここで、位置調整A~位置調整Dおよび停止依頼A~停止依頼Eでは、対象ユーザの意識または注目を引く度合(以下では、強度と表現する。)が異なってもよい。例えば、強度は、位置調整および停止依頼の末尾に付くアルファベット(A、B、C、D、E)の順に大きくてもよい。一例を挙げると、位置調整Bは、位置調整Aより強度が低く、位置調整Cおよび位置調整Dより強度が高いことを示す。但し、動作区分に応じたアバターの動作は強度に応じて必ずしも異なっていなくてもよい。
 位置調整Aは、強度が最も高い位置調整に係る動作区分である。例えば、動作情報生成部137は、対象ユーザの位置(対象ユーザのエリア)と、当該対象ユーザの移動状態と、の各々に対応する動作区分が位置調整Aである場合、当該位置調整Aに応じたアバターの動作を制御するための制御情報を生成してもよい。ここで、位置調整Aに応じたアバターの動作とは、例えば、アバターの胸元で手招きするような動作であってもよいし、「ここにこれるかな?」のような声掛けに係る動作であってもよい。
 また、位置調整Bは、位置調整Aの次に強度が高い位置調整に係る動作区分である。例えば、動作情報生成部137は、対象ユーザの位置(対象ユーザのエリア)と、当該対象ユーザの移動状態と、の各々に対応する動作区分が位置調整Bである場合、当該位置調整Bに応じたアバターの動作を制御するための制御情報を生成してもよい。ここで、位置調整Bに応じたアバターの動作とは、例えば、アバターの胸元で手招きするような動作であってもよいし、「こっちにこれるかな?」のような声掛けに係る動作であってもよい。
 また、位置調整Cは、位置調整Bの次に強度が高い位置調整に係る動作区分である。例えば、動作情報生成部137は、対象ユーザの位置(対象ユーザのエリア)と、当該対象ユーザの移動状態と、の各々に対応する動作区分が位置調整Cである場合、当該位置調整Cに応じたアバターの動作を制御するための制御情報を生成してもよい。ここで、位置調整Cに応じたアバターの動作とは、例えば、両手で手招きするような動作であってもよい。また、位置調整Cに応じたアバターの動作には、声掛けに係る動作が含まれていなくてもよい。
 また、位置調整Dは、位置調整Cの次に強度が高い(図8に示すマトリクスでは、強度が最も低い)位置調整に係る動作区分である。例えば、動作情報生成部137は、対象ユーザの位置(対象ユーザのエリア)と、当該対象ユーザの移動状態と、の各々に対応する動作区分が位置調整Dである場合、当該位置調整Dに応じたアバターの動作を制御するための制御情報を生成してもよい。ここで、位置調整Dに応じたアバターの動作とは、例えば、アバターの胸元で小さく手招きするような動作であってもよい。また、位置調整Dに応じたアバターの動作には、声掛けに係る動作が含まれなくてもよい。
 また、停止依頼Aは、強度が最も高い停止依頼に係る動作区分である。例えば、動作情報生成部137は、対象ユーザの位置(対象ユーザのエリア)と、当該対象ユーザの移動状態と、の各々に対応する動作区分が停止依頼Aである場合、当該停止依頼Aに応じたアバターの動作を制御するための制御情報を生成してもよい。ここで、停止依頼Aに応じたアバターの動作とは、例えば、片手を小さく上げるような動作であってもよいし、「すみません」のような声掛けに係る動作であってもよい。
 また、停止依頼Bは、停止依頼Aの次に強度が高い停止依頼に係る動作区分である。例えば、動作情報生成部137は、対象ユーザの位置(対象ユーザのエリア)と、当該対象ユーザの移動状態と、の各々に対応する動作区分が停止依頼Bである場合、当該停止依頼Bに応じたアバターの動作を制御するための制御情報を生成してもよい。ここで、停止依頼Bに応じたアバターの動作とは、例えば、片手を上げるような動作であってもよいし、「あっ」のような声掛けに係る動作であってもよい。
 また、停止依頼Cは、停止依頼Bの次に強度が高い停止依頼に係る動作区分である。例えば、動作情報生成部137は、対象ユーザの位置(対象ユーザのエリア)と、当該対象ユーザの移動状態と、の各々に対応する動作区分が停止依頼Cである場合、当該停止依頼Cに応じたアバターの動作を制御するための制御情報を生成してもよい。ここで、停止依頼Cに応じたアバターの動作とは、例えば、片手を上げるような動作であってもよいし、「あのー」のような小声による声掛けに係る動作であってもよい。
 また、停止依頼Dは、停止依頼Cの次に強度が高い停止依頼に係る動作区分である。例えば、動作情報生成部137は、対象ユーザの位置(対象ユーザのエリア)と、当該対象ユーザの移動状態と、の各々に対応する動作区分が停止依頼Dである場合、当該停止依頼Dに応じたアバターの動作を制御するための制御情報を生成してもよい。ここで、停止依頼Dに応じたアバターの動作とは、例えば、体を傾けながら手を前に出す動作であってもよい。また、停止依頼Dに応じたアバターの動作には、声掛けに係る動作が含まれなくてもよい。
 また、停止依頼Eは、停止依頼Dの次に強度が高い(図8に示すマトリクスでは、強度が最も低い)停止依頼に係る動作区分である。例えば、動作情報生成部137は、対象ユーザの位置(対象ユーザのエリア)と、当該対象ユーザの移動状態と、の各々に対応する動作区分が停止依頼Eである場合、当該停止依頼Eに応じたアバターの動作を制御するための制御情報を生成してもよい。ここで、停止依頼Eに応じたアバターの動作とは、例えば、片手を上げるような動作であってもよいし、「あっ」のような声掛けに係る動作であってもよい。
 なお、位置調整A~Dおよび停止依頼A~Eに応じたアバターの動作(振る舞い、声掛け)は上述した例に限定されない。また、同じ動作でも強度の違いによって、振る舞いの大きさ、または声掛けのトーン等が変更されてもよい。例えば、停止依頼Bに応じたアバターの動作と、停止依頼Cに応じたアバターの動作として、片手を上げるような動作を例示したが、停止依頼Bと、停止依頼Cとでは、アバターが上げる手の高さ等が異なっていてもよい。
 また、動作情報生成部137は、対象ユーザの位置(対象ユーザが存在するエリア)または移動状態に変化があった場合、アバターの動作が切り替わるように適宜制御情報を生成してもよい。
 また、対話条件検出部133は、対象ユーザの状況が所定の基準を満たさなかった際に、興味度情報に基づき、他のユーザを対象ユーザとして再検出してもよい。例えば、対話条件検出部133は、対象ユーザの移動状態が「通り過ぎている」である際に、興味度情報に基づき、他のユーザを対象ユーザとして再検出してもよい。
 具体的には、対話条件検出部133は、現在の対象ユーザの次に興味度が高い他のユーザを対象ユーザとして再検出してもよい。または、対話条件検出部133は、興味度が所定値以上で、且つ、現在の対象ユーザの次に興味度が高い他のユーザを対象ユーザとして再検出してもよい。
 また、対話条件検出部133は、一定時間以内に対象ユーザが対話条件を満たすことが判定されなかった場合に、興味度情報に基づき、他のユーザを対象ユーザとして再検出してもよい。
 以上、マトリクスによるアバターの動作情報を決定する方法の具体例を説明した。なお、動作情報生成部137が動作情報の生成に際して用いる情報、また、対話条件検出部133が対象ユーザを再検出する条件は、上述した例に限定されない。
 例えば、動作情報生成部137は、対象ユーザの視線方向の推移に応じて、アバターの動作にバリエーションを持たせてもよい。具体的には、動作情報生成部137は、対象ユーザがアバターを連続して見ている場合と比較し、細かく繰り返しアバターを見ている場合は、対象ユーザの視線がアバターの方向に向いたタイミングに発話を行うような制御情報を生成してもよい。このような対象ユーザの視線方向の推移は、例えば、視線方向(視線角度)の標準偏差または分散から判断されてもよい。
 また、動作情報生成部137は、アバターに設定されたポリシーによって、アバターの動作の内容(声掛けを含む)を変更してもよい。例えば、「積極的」であることが設定されたアバターの場合、動作情報生成部137は、アバターと視線が合っていない対象ユーザ等、本来は声掛けを行わない対象ユーザに対してもアバターに声掛けさせるような制御情報を生成してもよい。なお、対象ユーザがアバターを見ていない場合の制御情報には、声掛けのみの動作が含まれてもよい。
 また、多くのユーザを対象ユーザとするような設定がされた場合、対話条件検出部133は、対象ユーザを再検出する判断基準を下げてもよい。例えば、対話条件検出部133は、対象ユーザとアバターの視線が合わない、且つ当該対象ユーザの移動状態が「通り過ぎようとしている」である場合、対象ユーザの再検出を行ってもよい。
 ユーザの状況には、興味度が含まれてもよい。この場合、動作情報生成部137は、対象ユーザ興味度に基づき、アバターの動作を制御するための制御情報を生成してもよい。例えば、動作情報生成部137は、対象ユーザの興味度の高さに応じて対象ユーザに対話させるアバターの声色またはトーンを変更してもよい。
 また、人検出部121は、対象ユーザの属性をセンシングしてもよい。この場合、動作情報生成部137は、対象ユーザの属性に応じて、アバターの動作を変更してもよい。例えば、対象ユーザの属性が子供の場合、動作情報生成部137は、アバターの姿勢を屈ませ目線を合わせたうえで、マトリクスの動作区分に応じた動作をアバターに行わせてもよい。
 また、動作情報生成部137は、対象ユーザの聴覚または視覚等の特性に応じて、アバターの動作の内容(アバターの表示サイズ、または音量など)を変更してもよい。例えば、対象ユーザが補聴器を装着していた場合、または手話で他のユーザと対話していた場合、動作情報生成部137は、アバターに手話による動作、または対話をさせる制御情報を生成してもよい。
 また、人検出部121は、イベント情報またはスケジュール情報などからユーザの属性を検出してもよい。例えば、女性限定のイベントである場合、人検出部121は、センシング範囲内のユーザの属性が女性であることを検出してもよい。
 また、対象ユーザの年齢層に応じて、各種パラメータ(例えば、対象ユーザが止まっているか否かを判定する移動速度)の閾値が変更されてもよい。また、対象ユーザの年齢層に応じて、アバターの発話時の語尾(ですます調、または口語的に砕けた表現など)が変更されてもよい。
 また、動作情報生成部137は、対象ユーザが複数人のグループ(親子、友人同士など)で行動しているユーザであれば、対象ユーザ(代表者)だけでなく、グループ内の他のユーザに対しても順番にアバターに動作を行わせてもよい。このようなグループ内の他のユーザに対してアバターに動作を行わせる場合においても、マトリクスに含まれる動作区分は対象ユーザのセンシング情報から決定されてもよい。
 また、グループメンバーの判断は、対象ユーザの近傍に存在するユーザとの移動速度の一致度から判断されてもよい。ここでの、一致度の条件は、人口密度または分布によって決められてもよい。また、対象ユーザに対するアバターの動作に対し、他のユーザも反応した場合、グループに当該他のユーザが含められてもよい。また、対話条件検出部133は、同一グループ内でより興味度が高い他のユーザがいる場合は、対象ユーザを当該興味度が高い他のユーザに変更してもよい。
 また、興味度推定部129は、グループ単位での興味度を推定してもよい。例えば、グループ内の各メンバーの平均速度(または最大速度、最小速度等)、または重心位置(または代表者の位置等)等の各種パラメータに基づいて、アバターに対するグループの興味度を推定してもよい。また、動作情報生成部137は、グループに向けたアバターの動作を制御するための制御情報を生成してもよい。グループに向けたアバターの動作は、例えば、「君たち」のような複数人に向けた声掛けに関する動作であってもよい。
 また、動作情報生成部137は、対象ユーザが用いる言語(例えば、母国語)に応じて、アバターの声掛けに係る言語を変更してもよい。ここで、対象ユーザが用いる言語を判断する手法として、制御部120が発話内容などを複数言語でディスプレイ装置300に表示させ、動作情報生成部137は、当該複数言語のうち対象ユーザが見ている言語を、当該対象ユーザが用いる言語として判断してもよい。
 または、動作情報生成部137は、メタバース環境(例えば、仮想空間)で対象ユーザの母国語が設定されている場合、当該母国語を対象ユーザが用いる言語として判断してもよい。または、動作情報生成部137は、対象ユーザのリアクションした際に発話した言語、パラ言語、またはボディーランゲージなどから、対象ユーザが用いる言語を判断してもよい。そして、動作情報生成部137は、対象ユーザが用いる言語に応じて、アバターの動作、声掛けの言語を変更してもよい。
 また、対象ユーザがイヤフォンまたはヘッドホンなどの耳を塞ぐようなデバイスを着用している場合、動作情報生成部137は、アバターによる声掛けの音量を調整してもよい。また、動作情報生成部137は、アバターと対象ユーザとの間の距離に応じて、アバターによる発話の仕方または音量を変更してもよい。例えば、動作情報生成部137は、アバターと対象ユーザとの間の距離が遠い程、声掛けの音量が大きくなるように調整してもよい。
 また、対話するユーザ数などの目標値が設定されていてもよく、この場合、距離または速度の閾値は、ユーザまたは環境の状況に応じて適宜変更されてもよい。例えば、対話するユーザ数などの目標値が大きく設定されている場合、動作情報生成部137は、通常のコミュニケーションエリアより遠いエリアに存在する対象ユーザも対話開始の対象にしてもよいし、移動速度が通常より大きい対象ユーザも対話開始の対象になるように対話開始条件を変更してもよい。
 また、動作情報生成部137は、通勤時間、休日または平日などの時間帯に応じて、動作情報の決定に用いる各種パラメータ(距離または速度等)の閾値を変更してもよい。
 また、情報処理装置10の図示しない記憶部が対象ユーザの過去の対話履歴を保持している場合、動作情報生成部137は、過去の対話履歴を基に、アバターの動作の内容を決定してもよい。
 また、操作対象と、ユーザによる興味度の対象は必ずしも一致していなくてもよい。図9は、ユーザによる興味度の対象の他の例を示す図である。例えば、店頭販売または商品プロモーションのケースを想定すると、興味度推定部129は、操作対象であるアバターAではなく、商品Pに対するユーザUの興味度を推定してもよい。そして、動作情報生成部137は、商品Pに対するユーザの興味度に基づく対象ユーザが対話条件を満たしているか否かに基づき、アバターAの動作を制御するための制御情報を生成してもよい。
 以上説明したような情報処理装置10の各種処理によれば多様な効果が得られる。例えば、興味度推定部129がユーザの興味度を推定し、対話条件検出部133は、当該興味度に基づいて対象ユーザを検出する。これにより、アバターとの対話意思がないユーザにはアバターが働きかけ(振る舞い、声掛け)を行わないという判断が可能になる。この結果、ユーザの対話意思に反した動作をアバターが行う可能性が低くなる。更に、興味度に基づいて対象ユーザが検出されることで、複数のユーザの中から対話可能性が高いユーザにのみにアバターが働きかけを行うという判断が可能になる。この結果、アバターがユーザと対話するという目的の成功率を高めることができ、円滑なコミュニケーションを図ることを可能にする。そして、円滑なコミュニケーションが行われることで、店舗への効率的な集客が実現され得る。
 また、興味度の推定により対話可能性が高いと判断された対象ユーザであっても、対話意思があるかを正確に判断することはできない場合がある。また、対話意思のようなユーザの内部状態は明示的に表出される要素ではないため、そのままではセンシングすることが困難になり得る。そこで、動作情報生成部137は、アバターから対象ユーザに働きかけを行い、当該対象ユーザの状態変化を促すことで、対話意思をセンシング可能な要素として表出させる。これにより、対話意思の判断の誤りが減ることで、ユーザがアバターに対して感じ得る鬱陶しさが軽減され得る。また、動作情報生成部137は、対象ユーザの位置および対象ユーザの移動状態に基づいて、アバターの働きかけの強度(ユーザの意識または注意を引く度合い)および内容を変えることで、自身の行動がアバターに理解されていると対象ユーザに感じさせ、更にアバターに対して人らしさを感じやすくすることが可能になる。これにより、円滑なコミュニケーションを図ることが可能になる。
 なお、本開示に係る情報処理装置10による各種処理は、図1に示したような屋外デジタル広告(DOOH:Digital Out Of Home)等において活用可能であるが活用先は係る例に限定されない。続いて、本開示に係る情報処理装置10として他の実施例を説明する。
 <2.4.他の実施例>
 例えば、本開示に係る情報処理装置10による各種処理は、メタバース環境での活用が可能である。まずは、本開示に係る情報処理装置10による各種処理を、FPV(First Person View)のメタバース環境で活用する場合について説明する。
 本開示に係る情報処理装置10による各種処理を、FPVのメタバース環境で活用する場合、情報処理装置10は、サーバであってもよく、当該サーバは、ネットワーク介して、VR(Virtual Reality)装置(例えば、HMD)等の端末と接続されてもよい。この際に、サーバは、ネットワークを介してPCと接続されていてもよく、VR装置は、当該PCに接続されてもよい。更に、PCには、アバターの操作に用いるコントローラが接続されてもよい。
 また、センシング対象(対象ユーザの候補)は、ユーザが操作するアバターであり、操作対象は、NPCであってもよい。また、ユーザの位置および移動速度に関しては、ユーザが操作するアバターの位置および移動速度に関する情報が用いられてもよい。なお、仮想空間内において、ユーザ操作に基づいてアバターは移動するが、当該ユーザ操作には、多種多様な手法が想定されるが、特に限定されない。例えば、ユーザ操作は、ユーザが実世界でのコントローラによる操作によりアバターが移動する手法であってもよいし、ユーザが実世界で行った移動をアバターに反映させる手法であってもよい。
 また、視線方向のセンシングには、VR装置(HMD)に内蔵されたアイトラッカーの情報が用いられてもよいし、視線方向の代わりにユーザの顔の向きに関する顔情報が用いられてもよい。
 また、コントローラによるワープ移動を行う際に、ユーザがワープ先を見ると視線がワープ先に外れるため、NPCに対する興味度が実際よりも低下する場合がある。そこで、興味度推定部129は、ワープ移動の操作中において、興味度または対話条件に係る各種パラメータの値を維持してもよい。
 また、動作情報生成部137は、ユーザによる設定情報から、NPCからの働きかけにバリエーションを出してもよい。例えば、動作情報生成部137は、ユーザの設定言語に合わせて、NPCによる声がけまたは動作を変更してもよい。
 また、表示サイズが小さくなる場合または解像度が低い場合など、ユーザにとって視認性が低い場合、動作情報生成部137は、NPCが表出するような視線または動作に関する表示情報を生成してもよいし、見えにくいNPCの表情を見えやすく補助するような表示情報を生成してもよい。具体的には、動作情報生成部137は、NPCの視線方向の表示、アバターに見られている際にユーザが制御するアバターを縁取りする表示、またはNPCの動作を際立たせるようなエフェクトの表示などの各種表示情報を生成してもよい。
 また、本開示に係る情報処理装置10による各種処理を、TPV(Third Person View)のメタバース環境で活用してもよい。以下では、情報処理装置10による各種処理をFPVのメタバース環境で活用した場合と異なる内容を主に説明する。
 本開示に係る情報処理装置10による各種処理を、TPVのメタバース環境で活用する場合、情報処理装置10は、サーバであってもよく、当該サーバは、ネットワーク介して、スマートフォンまたはVR装置(HMD)等の端末と接続されてもよい。また、情報処理装置10がスマートフォンに接続されている場合、ユーザが操作するアバターおよびNPCの表示と、アバターの操作には、スマートフォンが備える操作表示部(タッチパネル)が用いられてもよい。
 情報処理装置10がスマートフォンに接続されている場合、視線検出部125は、スマートフォンが備えるカメラにより得られた画像データを用いて、ユーザがスマートフォンのディスプレイ内のどこを見ているか(視線方向)を検出してもよい。
 以上説明した情報処理装置10による各種処理を、FPVまたはTPVのメタバース環境で活用する例によれば、より自然で人らしいNPCの振る舞いが実現され得る。
 また、興味度の推定または制御情報の生成に用いる各種パラメータの閾値を変えることで、多様な性格(例えば、積極的)をNPCに反映することが可能になる。
 以上、本開示に係る情報処理装置10の制御に係る詳細を説明した。続いて、本開示に係る情報処理装置10の動作処理の具体例を説明する。
 <<3.動作処理例>>
 図10は、本開示に係る情報処理装置10の動作処理の一例を説明するための説明図である。まず、人検出部121は、センシング範囲内にいる人を検出する(ステップS101)。この際に、人検出部121は、検出した人の位置情報を検出し、視線検出部125は、検出された人の視線情報を検出してもよい。
 続いて、興味度推定部129は、人検出部121により検出された人の興味度を推定し、興味度情報を取得する(ステップS105)。
 次に、対話条件検出部133は、興味度情報に基づき、対象ユーザを検出する(ステップS109)。例えば、対話条件検出部133は、複数のユーザのうち最も高い興味度のユーザを対象ユーザとして検出してもよい。
 そして、対話条件検出部133は、人検出部121および視線検出部125により検出された各種パラメータに基づき、対象ユーザがいるエリアを検出する(ステップS113)。
 更に、対話条件検出部133は、人検出部121および視線検出部125により検出された各種パラメータに基づき、対象ユーザの移動状態を検出する(ステップS117)。
 そして、動作情報生成部137は、対話条件検出部133により検出された対象ユーザがいるエリアおよび対象ユーザの移動状態に基づき、アバターの動作区分を判定する(ステップS121)。
 次いで、制御部120は、アバターの動作区分が対話開始の動作区分であるか否かを判定する(ステップS125)。アバターの動作区分が対話開始の動作区分である場合(ステップS125:YES)、処理はステップS129に進められ、アバターの動作区分が対話開始の動作区分でない場合(ステップS125:NO)、処理はステップS133に進められる。
 アバターの動作区分が対話開始の動作区分である場合(ステップS125:YES)、動作情報生成部137は、対象ユーザとの対話を開始させるようにアバターの動作を制御するための制御情報を生成する(ステップS129)。そして、描画部141は、制御情報に基づいてアバターを描画し、本開示に係る情報処理装置10は動作処理を終了する。
 アバターの動作区分が対話開始の動作区分でない場合(ステップS125:NO)、制御部120は、アバターの動作区分が対象ユーザを再選定する動作区分であるか否かを判定する(ステップS133)。アバターの動作区分が対象ユーザを再選定する動作区分である場合(ステップS133:YES)、処理はステップS101に戻り、人検出部121により再びセンシング範囲内にいる人が検出される。アバターの動作区分が対象ユーザを再選定する動作区分でない場合(ステップS133:NO)、処理はステップS137に進められる。
 アバターの動作区分が対象ユーザを再選定する動作区分でない場合(ステップS133:NO)、動作情報生成部137は、動作区分に応じたアバターの動作を制御するための制御情報を生成し(ステップS137)、描画部141は、生成された制御情報に基づいてアバターを描画する。そして、処理はステップS113に戻り、対話条件検出部133により再び対象ユーザがいるエリアが検出される。
 以上、本開示に係る動作処理の具体例を説明した。続いて、図11を参照し、本開示に係る情報処理装置10のハードウェア構成の一例を説明する。
 <<4.ハードウェア構成例>>
 以上、本開示に係る実施形態を説明した。上述した情報処理は、ソフトウェアと、以下に説明する情報処理装置10のハードウェアとの協働により実現される。
 図11は、本開示の一実施形態に係る情報処理装置90のハードウェア構成例を示すブロック図である。情報処理装置90は、情報処理装置10と同等のハードウェア構成を有する装置であってよい。
 図11に示すように、情報処理装置90は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (プロセッサ871)
 プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記憶媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記憶媒体901に記録された情報を読み出し、又はリムーバブル記憶媒体901に情報を書き込む装置である。
 (リムーバブル記憶媒体901)
 リムーバブル記憶媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記憶媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <<5.補足>>
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上述した例では、操作対象が仮想対象(アバター)である例を主に説明したが、本開示に係る操作対象は、仮想対象に限定されない。例えば、本開示に係る操作対象は、コミュニケーションなどの実物の対象であってもよい。但し、コミュニケーションロボットは、視線が合ったことをユーザが感じやすい要素(例えば、目を有する)、表情を表現可能な要素、および身振りを表現できる手足などを有していることが望ましい。
 また、本開示に係るアバターは、目のないアバター(例えば、植物型のアバターなど)であってもよい。この場合、アバターの顔の向きや体の向きを視線方向として各種処理が実行されてもよい。
 また、本開示に係る情報処理装置10による各種処理は、接客のサポートおよびトレーニングで活用されてもよい。本開示に係る情報処理装置10による各種処理を、接客のサポートおよびトレーニングで活用する場合、情報処理装置10は、PCであってもよく、当該PCとネットワーク介して、タブレット端末等のディスプレイを有する端末が接続されてもよい。また、興味度が高い人がどのようなユーザなのか、また、対象ユーザの状況に応じた最適なアバターの動作はなにか、などの各種情報が接客の補助として活用されてもよい。補助方法の具体例として、例えば、モニターやARグラス等が有するディスプレイを使う場合、当該ディスプレイは、センシング範囲内の各ユーザの興味度を可視化した情報を表示してもよいし、対象ユーザに対する働きかけの候補を表示してもよい。また、オペレータは、ディスプレイに表示された興味度を参照し、対象ユーザを手動で選択してもよいし、働きかけの候補から一の働きかけを選択することでアバターに対する動作の指定をしてもよい。
 また、情報処理装置10は、人検出部121、視線検出部125および興味度推定部129を必ずしも備えていなくてもよい。例えば、人検出部121、視線検出部125および興味度推定部129による各種処理は、他の装置により行われてもよい。そして、情報処理装置10が備える通信部110は、他の装置により検出されたユーザの位置情報および視線情報等の各種パラメータと、興味度情報と、を当該他の装置から受信してもよい。なお、この場合、通信部110は、取得部の一例である。
 また、本明細書の情報処理システムの処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、情報処理システムの処理における各ステップは、フローチャートとして記載した順序と異なる順序や並列的に処理されてもよい。
 また、情報処理装置10に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述した情報処理装置10の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させた非一時的な記憶媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 操作対象に対するユーザの興味度を示す興味度情報を取得する取得部と、
 前記興味度情報に基づく対象ユーザが対話条件を満たしているか否かに基づき、前記操作対象の動作を制御するための制御情報を生成する生成部と、
を備える、情報処理装置。
(2)
 前記生成部は、
 前記対象ユーザが対話条件を満たしている際に、前記対象ユーザに向けて、前記操作対象に対話させる制御情報を生成する、
前記(1)に記載の情報処理装置。
(3)
 前記興味度情報に基づき対象ユーザを検出し、検出した前記対象ユーザの状況に基づき、前記対象ユーザが対話条件を満たしているか否かを判定する検出部、
を更に備える、
前記(2)に記載の情報処理装置。
(4)
 前記検出部は、
 前記対象ユーザの状況が所定の基準を満たさなかった際に、前記興味度情報に基づき他のユーザを対象ユーザとして再検出する、
前記(3)に記載の情報処理装置。
(5)
 前記対象ユーザの状況には、前記対象ユーザの移動状態が含まれ、
 前記検出部は、
 前記対象ユーザが前記操作対象の前方を通り過ぎた場合に、前記対象ユーザの状況が所定の基準を満たさなかったと判定し、前記興味度情報に基づき他のユーザを対象ユーザとして再検出する、
前記(4)に記載の情報処理装置。
(6)
 前記生成部は、
 前記対象ユーザが対話条件を満たさず、前記対象ユーザが前記操作対象の前方を通り過ぎていない場合に、前記対象ユーザの状況に基づく前記操作対象の動作を制御するための制御情報を生成する、
前記(5)に記載の情報処理装置。
(7)
 前記対象ユーザの状況には、前記対象ユーザおよび前記操作対象の位置関係が含まれ、
 前記生成部は、
 前記対象ユーザの移動状態および前記操作対象に対する前記対象ユーザの位置に基づき、前記操作対象の動作を制御するための制御情報を生成する、
前記(6)に記載の情報処理装置。
(8)
 前記生成部は、
 前記操作対象に対する対象ユーザの位置と、前記対象ユーザの移動状態と、の各々に対応する動作区分に応じた前記操作対象の動作を制御するための制御情報を生成する、
前記(7)に記載の情報処理装置。
(9)
 前記検出部は、
 前記前記対象ユーザが所定のエリア内に止まっていた場合に、前記対象ユーザが対話条件を満たしていると判定する、
前記(8)に記載の情報処理装置。
(10)
 前記取得部は、
 前記操作対象に対するユーザの位置に基づき、前記興味度情報を取得する、
前記(1)から前記(9)までのうちいずれか一項に記載の情報処理装置。
(11)
 前記取得部は、
 前記ユーザの移動速度に基づき、前記興味度情報を取得する、
前記(10)に記載の情報処理装置。
(12)
 前記取得部は、
 前記ユーザの撮影により得られた画像データに基づき、前記ユーザの位置および前記ユーザの移動速度に関する情報を取得する、
前記(11)に記載の情報処理装置。
(13)
 前記ユーザの位置は、前記ユーザの操作するアバターの位置であり、
 前記ユーザの速度は、前記ユーザの操作するアバターの速度である、
前記(11)に記載の情報処理装置。
(14)
 前記取得部は、
 前記ユーザの視線方向に基づき、前記興味度情報を取得する、
前記(1)から前記(13)までのうちいずれか一項に記載の情報処理装置。
(15)
 前記取得部は、
 瞳孔角膜反射法に基づき、前記ユーザの視線方向に関する情報を取得する、
前記(14)に記載の情報処理装置。
(16)
 前記検出部は、
 複数のユーザのうち、前記興味度が最も高いユーザを対象ユーザとして検出し、前記対象ユーザの状況が所定の基準を満たさなかった際に、前記興味度が次に高い他のユーザを対象ユーザとして再検出する、
前記(4)に記載の情報処理装置。
(17)
 前記検出部は、
 複数のユーザのうち、前記興味度が所定値以上であり、且つ前記興味度が最も高いユーザを対象ユーザとして検出し、前記対象ユーザの状況が所定の基準を満たさなかった際に、前記興味度が前記所定値以上で次に高い他のユーザを対象ユーザとして再検出する、
前記(16)に記載の情報処理装置。
(18)
 前記対象ユーザの状況には、前記興味度が含まれ、
 前記生成部は、
 前記対象ユーザの興味度に基づき、前記操作対象の動作を制御するための制御情報を生成する、
前記(2)から前記(9)までのうちいずれか一項に記載の情報処理装置。
(19)
 操作対象に対するユーザの興味度を示す興味度情報を取得することと、
 前記興味度情報に基づく対象ユーザが対話条件を満たしているか否かに基づき、前記操作対象の動作を制御するための制御情報を生成することと、
を含む、コンピュータにより実行される情報処理方法。
(20)
 コンピュータに、
 操作対象に対するユーザの興味度を示す興味度情報を取得する取得機能と、
 前記興味度情報に基づく対象ユーザが対話条件を満たしているか否かに基づき、前記操作対象の動作を制御するための制御情報を生成する生成機能と、
を実現させるための、プログラムが記憶されたコンピュータにより読み取り可能な非一時的な記憶媒体。
10  情報処理装置
110  通信部
120  制御部
 121  人検出部
 125  視線検出部
 129  興味度推定部
 133  対話条件検出部
 137  動作情報生成部
 141  描画部
200  カメラ
300  ディスプレイ装置

Claims (20)

  1.  操作対象に対するユーザの興味度を示す興味度情報を取得する取得部と、
     前記興味度情報に基づく対象ユーザが対話条件を満たしているか否かに基づき、前記操作対象の動作を制御するための制御情報を生成する生成部と、
    を備える、情報処理装置。
  2.  前記生成部は、
     前記対象ユーザが対話条件を満たしている際に、前記対象ユーザに向けて、前記操作対象に対話させる制御情報を生成する、
    請求項1に記載の情報処理装置。
  3.  前記興味度情報に基づき対象ユーザを検出し、検出した前記対象ユーザの状況に基づき、前記対象ユーザが対話条件を満たしているか否かを判定する検出部、
    を更に備える、
    請求項2に記載の情報処理装置。
  4.  前記検出部は、
     前記対象ユーザの状況が所定の基準を満たさなかった際に、前記興味度情報に基づき他のユーザを対象ユーザとして再検出する、
    請求項3に記載の情報処理装置。
  5.  前記対象ユーザの状況には、前記対象ユーザの移動状態が含まれ、
     前記検出部は、
     前記対象ユーザが前記操作対象の前方を通り過ぎた場合に、前記対象ユーザの状況が所定の基準を満たさなかったと判定し、前記興味度情報に基づき他のユーザを対象ユーザとして再検出する、
    請求項4に記載の情報処理装置。
  6.  前記生成部は、
     前記対象ユーザが対話条件を満たさず、前記対象ユーザが前記操作対象の前方を通り過ぎていない場合に、前記対象ユーザの状況に基づく前記操作対象の動作を制御するための制御情報を生成する、
    請求項5に記載の情報処理装置。
  7.  前記対象ユーザの状況には、前記対象ユーザおよび前記操作対象の位置関係が含まれ、
     前記生成部は、
     前記対象ユーザの移動状態および前記操作対象に対する前記対象ユーザの位置に基づき、前記操作対象の動作を制御するための制御情報を生成する、
    請求項6に記載の情報処理装置。
  8.  前記生成部は、
     前記操作対象に対する対象ユーザの位置と、前記対象ユーザの移動状態と、の各々に対応する動作区分に応じた前記操作対象の動作を制御するための制御情報を生成する、
    請求項7に記載の情報処理装置。
  9.  前記検出部は、
     前記前記対象ユーザが所定のエリア内に止まっていた場合に、前記対象ユーザが対話条件を満たしていると判定する、
    請求項8に記載の情報処理装置。
  10.  前記取得部は、
     前記操作対象に対するユーザの位置に基づき、前記興味度情報を取得する、
    請求項1に記載の情報処理装置。
  11.  前記取得部は、
     前記ユーザの移動速度に基づき、前記興味度情報を取得する、
    請求項10に記載の情報処理装置。
  12.  前記取得部は、
     前記ユーザの撮影により得られた画像データに基づき、前記ユーザの位置および前記ユーザの移動速度に関する情報を取得する、
    請求項11に記載の情報処理装置。
  13.  前記ユーザの位置は、前記ユーザの操作するアバターの位置であり、
     前記ユーザの速度は、前記ユーザの操作するアバターの速度である、
    請求項11に記載の情報処理装置。
  14.  前記取得部は、
     前記ユーザの視線方向に基づき、前記興味度情報を取得する、
    請求項1に記載の情報処理装置。
  15.  前記取得部は、
     瞳孔角膜反射法に基づき、前記ユーザの視線方向に関する情報を取得する、
    請求項14に記載の情報処理装置。
  16.  前記検出部は、
     複数のユーザのうち、前記興味度が最も高いユーザを対象ユーザとして検出し、前記対象ユーザの状況が所定の基準を満たさなかった際に、前記興味度が次に高い他のユーザを対象ユーザとして再検出する、
    請求項4に記載の情報処理装置。
  17.  前記検出部は、
     複数のユーザのうち、前記興味度が所定値以上であり、且つ前記興味度が最も高いユーザを対象ユーザとして検出し、前記対象ユーザの状況が所定の基準を満たさなかった際に、前記興味度が前記所定値以上で次に高い他のユーザを対象ユーザとして再検出する、
    請求項16に記載の情報処理装置。
  18.  前記対象ユーザの状況には、前記興味度が含まれ、
     前記生成部は、
     前記対象ユーザの興味度に基づき、前記操作対象の動作を制御するための制御情報を生成する、
    請求項2に記載の情報処理装置。
  19.  操作対象に対するユーザの興味度を示す興味度情報を取得することと、
     前記興味度情報に基づく対象ユーザが対話条件を満たしているか否かに基づき、前記操作対象の動作を制御するための制御情報を生成することと、
    を含む、コンピュータにより実行される情報処理方法。
  20.  コンピュータに、
     操作対象に対するユーザの興味度を示す興味度情報を取得する取得機能と、
     前記興味度情報に基づく対象ユーザが対話条件を満たしているか否かに基づき、前記操作対象の動作を制御するための制御情報を生成する生成機能と、
    を実現させるための、プログラムが記憶されたコンピュータにより読み取り可能な非一時的な記憶媒体。
PCT/JP2023/038167 2022-12-16 2023-10-23 情報処理装置、情報処理方法および記憶媒体 WO2024127816A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022201030 2022-12-16
JP2022-201030 2022-12-16

Publications (1)

Publication Number Publication Date
WO2024127816A1 true WO2024127816A1 (ja) 2024-06-20

Family

ID=91484811

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/038167 WO2024127816A1 (ja) 2022-12-16 2023-10-23 情報処理装置、情報処理方法および記憶媒体

Country Status (1)

Country Link
WO (1) WO2024127816A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009248193A (ja) * 2008-04-01 2009-10-29 Toyota Motor Corp 接客システム及び接客方法
JP2016115257A (ja) * 2014-12-17 2016-06-23 シャープ株式会社 通信システム、サーバ装置、ロボット、情報処理方法、およびプログラム
JP2019008510A (ja) * 2017-06-23 2019-01-17 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009248193A (ja) * 2008-04-01 2009-10-29 Toyota Motor Corp 接客システム及び接客方法
JP2016115257A (ja) * 2014-12-17 2016-06-23 シャープ株式会社 通信システム、サーバ装置、ロボット、情報処理方法、およびプログラム
JP2019008510A (ja) * 2017-06-23 2019-01-17 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム

Similar Documents

Publication Publication Date Title
CN108886532B (zh) 用于操作个人代理的装置和方法
CN112379812B (zh) 仿真3d数字人交互方法、装置、电子设备及存储介质
US7963652B2 (en) Method and apparatus for calibration-free eye tracking
US9342610B2 (en) Portals: registered objects as virtualized, personalized displays
US8810513B2 (en) Method for controlling interactive display system
US8723796B2 (en) Multi-user interactive display system
WO2019216419A1 (ja) プログラム、記録媒体、拡張現実感提示装置及び拡張現実感提示方法
JP2019535059A (ja) 感覚式アイウェア
US20100060713A1 (en) System and Method for Enhancing Noverbal Aspects of Communication
CN110874129A (zh) 显示系统
US20190228639A1 (en) Information processing system, recording medium, and information processing method
JP2019179390A (ja) 注視点推定処理装置、注視点推定モデル生成装置、注視点推定処理システム、注視点推定処理方法、プログラム、および注視点推定モデル
US20220012283A1 (en) Capturing Objects in an Unstructured Video Stream
CN110637274A (zh) 信息处理设备、信息处理方法以及程序
US20230048330A1 (en) In-Vehicle Speech Interaction Method and Device
US11544968B2 (en) Information processing system, information processingmethod, and recording medium
CN102902704A (zh) 信息处理设备、短语输出方法和程序
WO2023091207A1 (en) Interpretation of resonant sensor data using machine learning
WO2016206646A1 (zh) 使机器装置产生动作的方法及系统
WO2024127816A1 (ja) 情報処理装置、情報処理方法および記憶媒体
WO2020213245A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN111796740A (zh) 基于可穿戴智能设备的无人车控制方法、装置及系统
JP7418709B2 (ja) コンピュータプログラム、方法及びサーバ装置
WO2023079847A1 (ja) 情報処理装置、情報処理方法および記憶媒体
JP7090116B2 (ja) プログラム、記録媒体、拡張現実感提示装置及び拡張現実感提示方法