WO2024013949A1 - 生成プログラム、生成方法および情報処理装置 - Google Patents

生成プログラム、生成方法および情報処理装置 Download PDF

Info

Publication number
WO2024013949A1
WO2024013949A1 PCT/JP2022/027749 JP2022027749W WO2024013949A1 WO 2024013949 A1 WO2024013949 A1 WO 2024013949A1 JP 2022027749 W JP2022027749 W JP 2022027749W WO 2024013949 A1 WO2024013949 A1 WO 2024013949A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
information
avatar
behavior
parts
Prior art date
Application number
PCT/JP2022/027749
Other languages
English (en)
French (fr)
Inventor
源太 鈴木
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2022/027749 priority Critical patent/WO2024013949A1/ja
Publication of WO2024013949A1 publication Critical patent/WO2024013949A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer

Definitions

  • the present invention relates to a generation program and the like.
  • FIG. 16 is a diagram for explaining the prior art.
  • screen information 30 shown in FIG. 16 includes screen areas 30a, 30b, and 30c.
  • the screen area 30a video data captured by the camera and showing the state of the sales floor is displayed.
  • a graph showing the number of visitors per hour is displayed in the screen area 30b.
  • the screen area 30c displays a graph showing the type of customer purchasing behavior and the number of customers who have performed the corresponding purchasing behavior.
  • the store manager can confirm events for each customer by visually checking the screen area 30a. By checking the screen areas 30b and 30c, the administrator can check the number of customers in each time period and the purchasing behavior of customers who are interested in the product.
  • the video data is stored as is in the DB
  • the amount of video data stored in the DB increases, and the amount of processing for the video data increases.
  • it is conceivable to simply delete part of the information of the video data and store it in the DB there is also a possibility that the part for checking individual customer events etc. would also be deleted.
  • the present invention provides a generation program, a generation method, and an information processing device that can generate video data with a reduced amount of data while retaining information on important parts of the original video data. purpose.
  • the computer executes the following process.
  • a computer acquires video information including people.
  • the computer generates an avatar having a plurality of parts forming the surface of the person included in the acquired video information.
  • the computer generates skeletal information including the positions of the person's joints by analyzing the acquired video information.
  • the computer identifies the behavior of the person included in the video information based on the generated skeletal information. Based on the identified person's behavior, the computer determines whether or not the person's movements are reflected in each of the plurality of parts of the generated avatar.
  • the computer moves the part determined to reflect the movement of the person among the plurality of parts of the avatar based on the time-series changes in the position of the skeleton of the generated skeleton information.
  • FIG. 1 is a diagram showing a system according to this embodiment.
  • FIG. 2 is a diagram for explaining the processing of the information processing apparatus included in this embodiment.
  • FIG. 3 is a functional block diagram showing the configuration of the information processing apparatus according to this embodiment.
  • FIG. 4 is a diagram showing an example of the data structure of the video DB.
  • FIG. 5 is a diagram for explaining walking motion determination.
  • FIG. 6 is a diagram showing an example of a 3D avatar generated from a frame.
  • FIG. 7 is a diagram for explaining the process of anonymizing the walking posture of a 3D avatar.
  • FIG. 8 is a diagram for explaining the processing of the generation unit.
  • FIG. 9 is a diagram (1) showing an example of screen information generated by the display control unit.
  • FIG. 10 is a diagram showing an example of an input screen.
  • FIG. 10 is a diagram showing an example of an input screen.
  • FIG. 11 is a diagram (2) showing an example of screen information generated by the display control unit.
  • FIG. 12 is a flowchart showing the processing procedure of the information processing apparatus according to this embodiment.
  • FIG. 13 is a flowchart showing the procedure of the generation process.
  • FIG. 14 is a diagram for supplementary explanation of the effects of the information processing apparatus according to this embodiment.
  • FIG. 15 is a diagram illustrating an example of the hardware configuration of a computer that implements the same functions as the information processing device of the embodiment.
  • FIG. 16 is a diagram for explaining the prior art.
  • FIG. 1 is a diagram showing a system according to this embodiment.
  • this system includes cameras 40a, 40b, 40c, and 40d and an information processing device 100.
  • the cameras 40a to 40d and the information processing device 100 are connected to each other by wire or wirelessly.
  • Cameras 40a to 40d are installed at different positions in the store. In the following description, the cameras 40a to 40d will be collectively referred to as "camera 40.”
  • the camera 40 shoots an image of the shooting range and transmits the image data to the information processing device 100.
  • video data will be referred to as "video data.”
  • the video data includes time-series frames.
  • a frame is a still image captured by the camera 40 at a certain timing.
  • a frame number is assigned to each frame in ascending chronological order.
  • the information processing device 100 analyzes video data from the camera 40, determines attribute information, purchasing behavior, behavior, etc. of a person included in the video data, correlates the attribute information, purchasing behavior, etc. with the The data is saved in the video DB 142.
  • the information processing device 100 When storing video data in the video DB 142, the information processing device 100 generates a 3D avatar, which will be described below, and replaces it with a person's image in the video data.
  • the information processing device 100 anonymizes the walking posture of the 3D avatar, and at the same time, the information processing device 100 anonymizes the walking posture of the 3D avatar, and at the same time, the information processing device 100 is configured to anonymize the walking posture of the 3D avatar, while also displaying the head of the 3D avatar that allows confirmation of which product the person is looking at. Maintain location information. With this, it is possible to remove the personal information of the person while leaving the data of important parts of the person included in the video data.
  • Personal information includes posture during walking, movements of both arms, stride length, and other aspects of walking. Further, the personal information includes a face image, an auricle image, a palm image, etc. of a person who can identify the individual.
  • FIG. 2 is a diagram for explaining the processing of the information processing device included in this embodiment.
  • the information processing device 100 acquires a frame 50 included in the video data, and specifies a region 50a of a person in the frame 50.
  • the area of the person is, for example, an area corresponding to the Bounding Box.
  • the information processing device 100 estimates "skeletal information" and "attribute information" of a person based on an image of the region of the person.
  • the skeletal information is information in which the positions of each joint of a person are set.
  • the attribute information includes the person's age, gender, body shape, hairstyle, clothes, etc.
  • the information processing device 100 generates the 3D avatar av1 by inputting the image of the person's area 50a to the generation model.
  • the information processing device 100 lowers the resolution of the head and hand parts of the 3D avatar av1.
  • the information processing device 100 determines that the person's motion is walking based on the skeletal information
  • the information processing device 100 anonymously changes the walking posture of the 3D avatar av1 by moving a predetermined part of the 3D avatar av1. become
  • the information processing device 100 executes the above processing to generate the 3D avatar av2. Details of the process of anonymizing walking posture will be described later.
  • the information processing device 100 generates image information 50b by removing the person area 50a of the frame 50.
  • the information processing device 100 generates the image information 50c by placing the 3D avatar av2 in the area 50a from which the person area of the image information 50b has been removed.
  • the information processing device 100 repeatedly performs the above processing for each frame included in the video data.
  • video data in which a person in each frame of video data is replaced with a 3D avatar will be referred to as "converted video data.”
  • the information processing device 100 registers the converted video data in the video DB 142 instead of the video data.
  • the information processing apparatus 100 lowers the resolution of the head part and hand part of the 3D avatar generated from video data, and when the person's motion is walking, Anonymize the walking posture of a 3D avatar.
  • the information processing device 100 sets the 3D avatar, which has been lowered in resolution and anonymized, in the area of the person in the video data, thereby reducing the amount of data while preserving important parts of the original video data.
  • Video data can be generated. For example, personal information about the face, auricles, palms, and walking posture has been deleted from the converted video data, but information such as the orientation of the 3D avatar's head remains, so you can see which product the person is looking at. You can check the information later, such as whether there is a child or not.
  • FIG. 3 is a functional block diagram showing the configuration of the information processing apparatus according to this embodiment.
  • the information processing device 100 includes a communication section 110, an input section 120, a display section 130, a storage section 140, and a control section 150.
  • the communication unit 110 is connected to the camera 40 or the like by wire or wirelessly, and transmits and receives information to and from the camera 40 and the like.
  • the communication unit 110 is realized by a NIC (Network Interface Card) or the like.
  • the communication unit 110 may be connected to a network (not shown).
  • the input unit 120 is an input device that inputs various information to the information processing device 100.
  • the input unit 120 corresponds to a keyboard, a mouse, a touch panel, etc.
  • the user operates the input unit 120 to input search conditions and the like.
  • the display unit 130 is a display device that displays information output from the control unit 150.
  • the display unit 130 corresponds to a liquid crystal display, an organic EL (Electro Luminescence) display, a touch panel, etc.
  • the display unit 130 displays search results based on the search conditions.
  • the storage unit 140 includes a skeleton estimation model M1, an attribute estimation model M2, a generation model M3, a posture determination model M4, a conversion parts table 141, and a video DB 142.
  • the storage unit 140 is a storage device such as a memory.
  • the skeletal estimation model M1 is a trained machine learning model that takes an image of a region of a person as input and outputs skeletal information of the person. Skeletal information is information that associates the joints of a person with the positions of the joints.
  • the skeleton estimation model M1 is a neural network (NN).
  • the attribute estimation model M2 is a trained machine learning model that receives an image of a person's area as input and outputs attribute information of the person.
  • the attribute information includes the person's age, gender, body shape, hairstyle, clothes, etc.
  • the attribute estimation model M2 is a NN such as ResNet.
  • the generation model M3 is a model that generates a 3D avatar based on an image of a person's area.
  • the generative model M3 has the functions of "Mesh Graphormer” and "Texformer".
  • Mesh Graphormer estimates the person's pose and each vertex of the person based on the image of the person's area in one frame, and generates a three-dimensional mesh model of the person.
  • Texformer generates a texture for a person based on an image of the area of the person in one frame.
  • the generation model M3 generates a 3D avatar by setting the texture generated by the Texformer to the 3D human mesh model estimated by the Mesh Graphormer.
  • the posture determination model M4 is a trained machine learning model that uses the person's skeletal information as input and outputs the person's posture.
  • the postures of the person include standing, walking, crouching, sitting, and sleeping.
  • the posture determination model M4 is a NN such as Multi Layer Perceptron.
  • the conversion parts table 141 is a table that holds parts of a person used when converting feature amounts of a 3D avatar.
  • the converted parts table 141 stores a plurality of head parts with different hairstyles, hair colors, skin colors, and the like.
  • the video DB 142 stores converted video data in which people in the video data are replaced with 3D avatars.
  • FIG. 4 is a diagram showing an example of the data structure of the video DB. As shown in FIG. 4, this video DB 142 associates identification numbers, converted video data, 3D avatars, attribute information, purchasing behavior, and time.
  • the identification number is a number that identifies converted video data (video data).
  • the converted video data is video data in which a person in each frame of video data is replaced with a 3D avatar.
  • a 3D avatar is three-dimensional avatar information generated from a frame of video data.
  • the attribute information is attribute information of a person in the video data.
  • the purchasing behavior is information indicating the purchasing behavior of the person in the video information.
  • the time is information about the time period in which the video data was shot. For example, the time period corresponds to the start time and end time of video data.
  • the control unit 150 includes an acquisition unit 151, a skeleton estimation unit 152, an attribute estimation unit 153, a detection unit 154, a generation unit 155, and a display control unit 156.
  • the control unit 150 is, for example, a CPU (Central Processing Unit) or an MPU (Micro Processing Unit).
  • the acquisition unit 151 acquires video data from the camera 40 via the communication unit 110.
  • the video data includes one person
  • the start time of the video data is Ts
  • the end time of the video data is Te.
  • the acquisition unit 151 sets a unique identification number to the video data.
  • the acquisition unit 151 outputs the video data to the skeleton estimation unit 152.
  • the acquisition unit 151 registers the time of the video data (time zone of the video data ⁇ start time Ts, end time Te>) in the video DB 142 in association with the identification number of the video data.
  • the skeletal estimator 152 estimates the skeletal information of the person by identifying the region of the person included in the frame of the video data and inputting the image of the identified region of the person to the skeletal estimation model M1.
  • the skeletal estimator 152 repeatedly performs the above processing on the chronological frames of the video data, thereby estimating the skeletal information of the person in the chronological order from the chronological frames.
  • the skeleton estimation unit 152 generates skeleton estimation information through the above processing, and outputs the generated skeleton estimation information to the attribute estimation unit 153, the detection unit 154, and the generation unit 155.
  • the skeleton estimation information includes an identification number, video data, and skeleton information of time-series frames.
  • the attribute estimating unit 153 estimates the person's attribute information by specifying the area of the person included in the frame of the video data and inputting the image of the specified area of the person to the attribute estimation model M2.
  • the attribute estimation unit 153 registers the estimated attribute information in the video DB 142 in association with the identification number of the video data.
  • the detection unit 154 detects the motion and purchasing behavior of the person in the video data based on time-series skeleton information estimated from the time-series frames of the video data.
  • the detection unit 154 determines whether or not the person's motion is "walking" by acquiring one piece of skeleton information from the time-series skeleton information and inputting the skeleton information to the posture determination model M4.
  • the detection unit 154 determines that the person's motion is walking, the detection unit 154 outputs walking detection information to the generation unit 155.
  • FIG. 5 is a diagram for explaining walking motion determination.
  • the detection unit 154 determines the motion of the person by inputting the skeletal information shown in FIG. 5 into the posture determination model M4.
  • the detecting unit 154 may use the skeletal information estimated by the skeletal estimating unit 152 as is, or may extract and use some joint positions, like skeletal information SK10 in FIG. 5.
  • Skeletal information SK10 includes joints p1, p2, p3, p4, p5, p6, p7, and p8.
  • Joint p1 is a joint of the left shoulder.
  • Joint p2 is the joint of the right shoulder.
  • Joint p3 is the joint of the left hip.
  • Joint p4 is the joint of the right hip.
  • Joint p5 is the joint of the left knee.
  • Joint p6 is the joint of the right knee.
  • Joint p7 is the left ankle joint.
  • Joint p8 is the right ankle joint.
  • the posture determination model M4 changes the posture to standing, walking, crouching, sitting, sleeping, etc., depending on the angle pattern of the joints p3, p4, p5, and p6. Classify.
  • the detection unit 154 inputs the skeletal information estimated from the frame with frame number n to the posture determination model M4, and when the posture of the person is "walking", the detection unit 154 inputs the skeletal information estimated from the frame with frame number n to It is output to the generation unit 155.
  • the detection unit 154 detects a person's purchasing behavior based on a transition pattern of time-series skeleton information estimated from time-series frames of video data.
  • the detection unit 154 detects a person's purchasing behavior based on a table that associates transition patterns of predetermined joint positions with purchasing behaviors.
  • the detection unit 154 detects that the person has picked up the product when the wrist joint in the skeletal information moves in the front-back direction.
  • the detection unit 154 detects that the product has been purchased when the joint of the wrist moves downward (into the shopping cart area) after detecting that the product has been picked up. If the wrist joint moves in front of the head after detecting that the product has been picked up, the detection unit 154 detects that the product has been examined.
  • the detection unit 154 tracks the person included in the video data captured by each of the cameras 40a to 40d, performs data communication with a POS (Point of Sales) cash register system, and obtains product identification information (hereinafter referred to as Product identification information) or whether or not the product has been purchased may also be detected.
  • the detection unit 154 estimates the boundary position of the product shelf included in the video data, and detects that the person has picked up the product when the position of the wrist joint of the person moves in the front and back direction of the boundary position. You may.
  • the detection unit 154 may identify the position of the product included in the video data, and detect that the product has been picked up when the wrist joint of the skeleton information moves in the direction of the specified product.
  • purchase behavior includes "Examine&Buy Few (investigated and purchased a few products),” “Examine&Buy Many (investigated and purchased many products),” and “Examine&Not Buy (investigated and purchased a few products).” )” is included.
  • the detection unit 154 may detect other purchasing behaviors.
  • the detection unit 154 registers the detected purchasing behavior in the video DB 142 in association with the identification number of the video data.
  • the detection unit 154 may register the detected product identification information in the video DB 142 in association with the identification information of the video data.
  • the detection unit 154 may analyze the video data to detect behavioral characteristics of the person. Behavioral characteristics of a person include whether or not the person has a smartphone, the size of the shopping cart, whether or not the person has a shopping list, walking speed, and characteristics of the person who is acting together in addition to the person.
  • the detection unit 154 may register the detected behavioral feature in the video DB 142 in association with the identification information of the video data.
  • the generation unit 155 executes a process of generating a 3D avatar, a process of converting the feature amount of the 3D avatar, a process of anonymizing the walking posture of the 3D avatar, and a process of generating converted video data.
  • the generation unit 155 generates a 3D avatar by specifying a region of a person included in a frame of video data and inputting an image of the specified region of the person to the generation model M3. For example, the generation unit 155 inputs an image of a region of a person to a Mesh Graphormer, and generates a three-dimensional mesh model of the person. The generation unit 155 inputs the image of the region of the person to Texformer and generates the texture of the person. The generation unit 155 generates a 3D avatar by setting the texture generated by Texformer to the 3D person's mesh model estimated by Mesh Graphormer. The generation unit 155 can generate, from a single frame, a 3D avatar of a person included in the frame.
  • FIG. 6 is a diagram showing an example of a 3D avatar generated from a frame.
  • the generation unit 155 inputs the image of the person's area in the frame 60 to the generation model M3, thereby generating the 3D avatar 60a.
  • the generation unit 155 inputs the image of the person's area in the frame 61 to the generation model M3, thereby generating the 3D avatar 61a.
  • the generation unit 155 inputs the image of the person area of the frame 62 to the generation model M3, thereby generating the 3D avatar 62a.
  • the generation unit 155 inputs the image of the person's area in the frame 63 to the generation model M3, thereby generating the 3D avatar 63a.
  • the generation unit 155 converts feature amounts among the plurality of parts forming the 3D avatar based on the skeletal information estimated from the frame with frame number n and the 3D avatar generated from the frame with frame number n. Identify the part. For example, the generation unit 155 arranges the skeletal information and the 3D avatar in an overlapping manner, and determines the parts of the 3D avatar's head (including the face and auricles) and hands based on the joint positions of the head and wrists in the skeletal information. Identify the part of the body.
  • the generation unit 155 lowers the resolution of the 3D avatar's hands and head (blurs). Furthermore, the generation unit 155 shifts the position of the head part of the 3D avatar by a predetermined distance in a predetermined direction. The predetermined direction and predetermined distance are set in advance. The generation unit 155 converts the feature amount of the 3D avatar by executing such processing.
  • the generation unit 155 selects a head part similar to the characteristics of the avatar's head part from the conversion parts table 141, and replaces the avatar's head part with the selected head part.
  • the feature amounts of the 3D avatar may also be converted.
  • the generation unit 155 registers the information of the 3D avatar whose feature amount has been converted into the video DB 142 in association with the identification number of the video data.
  • the generation unit 155 selects a 3D avatar generated from the frame having the frame number set in the walking detection information obtained from the detection unit 154, and anonymizes the walking posture of the selected 3D avatar.
  • FIG. 7 is a diagram for explaining the process of anonymizing the walking posture of a 3D avatar.
  • the generation unit 155 sets skeleton information corresponding to the 3D avatar determined to be in a walking posture as skeleton information SK20.
  • Skeletal information SK20 includes joints p1 to p13.
  • the explanation of the joints p1 to p8 is the same as that in FIG. 5.
  • Joint p9 is the left elbow joint.
  • Joint p10 is the joint of the right elbow.
  • Joint p11 is the joint of the left wrist.
  • Joint p12 is the joint of the right wrist.
  • Joint p13 corresponds to each joint of the head.
  • the generation unit 155 moves the joints p5 and p7 so that the x-coordinate values of the joints p3, p5, and p7 of the skeleton information SK20 become the same value.
  • the generation unit 155 moves the joints p6 and p8 so that the x-coordinate values of the joints p4, p6, and p8 of the skeleton information SK20 become the same value.
  • the generation unit 155 moves the joint p11 so that the x-coordinate values of the joints p9 and p11 of the skeleton information SK20 become the same value.
  • the generation unit 155 moves the joint p12 so that the x-coordinate values of the joints p10 and p12 of the skeleton information SK20 become the same value.
  • information regarding which set of joints should have the same x-coordinate is registered in advance in the storage unit 140 as setting information.
  • the generation unit 155 executes the above processing based on the setting information.
  • the skeleton information SK20 becomes the skeleton information SK20a.
  • the generation unit 155 adjusts the posture of the 3D avatar according to the skeleton information SK20a. For example, the generation unit 155 identifies parts of the 3D avatar that correspond to joints p3 to 12 related to walking, and moves the identified parts to match the positions of joints p3 to p12 of the skeleton information SK20a. By doing so, the walking posture of the 3D avatar is anonymized.
  • the generation unit 155 leaves the information on the face direction of the 3D avatar as is so that the user can confirm the direction in which the person is facing. For example, when the detection unit 154 detects a purchasing behavior (movement of searching for an object) such as a person reaching for a product, the generation unit 155 generates a head joint p13 of each part of the 3D avatar. By leaving the corresponding parts as they are, it reflects people's purchasing behavior.
  • the generation unit 155 anonymizes the walking posture of the 3D avatar by performing the above processing on each of the 3D avatars corresponding to the frame numbers set in the walking detection information.
  • the processing of the generation unit 155 is different depending on whether the motion of the person in the frame is walking or when the motion is other than walking. The processing in the case will be explained in order.
  • the process executed by the generation unit 155 when the motion of the person in the frame is walking will be described with reference to FIG.
  • the generation unit 155 identifies the person area 50a of the frame 50 and removes the person area (Bounding Box) to generate image information 50b.
  • the motion of the person in frame 50 is assumed to be walking.
  • the generation unit 155 generates image information 50c by arranging the 3D avatar av2 whose walking posture has been anonymized in the area 50a of the image information 50b.
  • the 3D avatar av2 is a 3D avatar generated based on the frame 50.
  • the generation unit 155 repeatedly performs the above process for the frame corresponding to the frame number set in the walking detection information, among the frames included in the video data.
  • FIG. 8 is a diagram for explaining the processing of the generation unit.
  • the generation unit 155 identifies the person area 55a of the frame 55, and generates image information 55b by removing the person area 55a pixel by pixel.
  • the motion of the person in frame 55 is set to be a motion other than walking.
  • the generation unit 155 generates image information 55c by arranging the 3D avatar av3 in the area 55a of the image information 55b. Note that the 3D avatar av3 is a 3D avatar generated based on the frame 55.
  • the generation unit 155 repeatedly performs the above process for frames corresponding to frame numbers other than the frame number set in the walking detection information, among the frames included in the video data.
  • the generation unit 155 removes the region of the person from the time-series frames included in the video data, and places the generated 3D avatar in the removed region. Generate video data.
  • the generation unit 155 registers the converted video data in the video DB 142 in association with the identification number of the video data.
  • the acquisition unit 151, skeleton estimation unit 152, attribute estimation unit 153, detection unit 154, and generation unit 155 execute the above processing on the video data
  • the identification number, converted video data, and 3D avatar are stored in the video DB 142.
  • attribute information, purchasing behavior, and time are registered in association with each other.
  • the acquisition unit 151, the skeleton estimation unit 152, the attribute estimation unit 153, the detection unit 154, and the generation unit 155 repeatedly perform the above processing every time they acquire video data from the camera 40, and register each piece of information in the video DB 142.
  • the display control unit 156 When the display control unit 156 receives search conditions through the input unit 120 operated by the user, the display control unit 156 generates screen information corresponding to the search conditions based on the video DB 142 and displays the screen information on the display unit 130. Output and display. Note that the user may specify product identification information as a search condition.
  • the display control unit 156 extracts 3D avatars of records corresponding to the time of the search condition, and generates screen information in which the extracted 3D avatars are arranged.
  • FIG. 9 is a diagram (1) showing an example of screen information generated by the display control unit.
  • the screen information 70 shown in FIG. 9 a plurality of 3D avatars corresponding to the search conditions are arranged.
  • the user can easily understand the characteristics of the person shopping at the store at the specified time. For example, if there are many 3D avatars wearing suits, it can be understood that there are many businessmen at the relevant time.
  • FIG. 10 is a diagram showing an example of an input screen.
  • the input screen 75 shown in FIG. 10 includes an area 75a for selecting a person's attribute item, an area 75b for selecting a person's behavior characteristic item, and an area 75c for selecting a purchasing behavior item.
  • person attribute items include Gender, Age, Clothes, Beard, Hair, Shape, etc.
  • Items of person behavior characteristics include Smartphone, Shopping Cart, Shopping List, Motion Speed, People With, and the like.
  • Smartphone is an item for selecting whether or not the person owns a smartphone.
  • Shopping Cart is an item for selecting the size of the shopping cart.
  • Motion Speed is an item for selecting the moving speed of the person.
  • People With is an item for selecting other people who act together with the person.
  • the items of purchasing behavior are the same as those described above for purchasing behavior.
  • the display control unit 156 displays the input screen 75 and when each item is selected by the user operating the input unit 120, generates screen information corresponding to the selected search condition, and displays the screen information on the display unit 130. output and display it.
  • FIG. 11 is a diagram (2) showing an example of screen information generated by the display control unit.
  • the display control unit 156 compares the search information with each record in the video DB 142 and identifies records that meet the search conditions.
  • the display control unit 156 calculates the proportion of purchasing behavior set in the specified record, and displays the calculation result in the area 80a of the screen information 80.
  • the display control unit 156 may display other statistical information in the area 80a.
  • FIG. 12 is a flowchart showing the processing procedure of the information processing apparatus according to this embodiment.
  • the acquisition unit 151 of the information processing device 100 acquires video data from the camera 40 (step S101).
  • the skeleton estimation unit 152 of the information processing device 100 inputs the frame of video data to the skeleton estimation model M1 and estimates skeleton information (step S102).
  • the attribute estimation unit 153 of the information processing device 100 inputs the frame of video data to the attribute estimation model M2 and estimates attribute information (step S103).
  • the detection unit 154 of the information processing device 100 inputs the skeletal information to the posture determination model M4 and detects the motion of the person (step S104).
  • the detection unit 154 detects the purchasing behavior of the person based on the transition of the skeleton information in time series (step S105).
  • the generation unit 155 of the information processing device 100 executes generation processing (step S106).
  • the information processing device 100 registers each piece of information in the video DB 142 (step S107).
  • FIG. 13 is a flowchart showing the procedure of the generation process.
  • the generation unit 155 of the information processing device 100 specifies the region of the person in the video data (step S201).
  • the generation unit 155 inputs the image of the person's area to the generation model M3 and generates a 3D avatar (step S202).
  • the generation unit 155 identifies a predetermined part from among the plurality of parts included in the 3D avatar (step S203).
  • the generation unit 155 converts the feature amount of a predetermined part (head, hand) of the 3D avatar (step S204).
  • the generation unit 155 determines whether the person's motion is walking (step S205). When the person's motion is walking (step S205, Yes), the generation unit 155 anonymizes the walking posture of the 3D avatar by moving the parts of the 3D avatar (step S206).
  • the generation unit 155 removes the person's area (Bounding Box) (step S207).
  • the generation unit places a 3D avatar whose walking posture has been anonymized in the area from which the person's area (Bounding Box) has been removed (step S208).
  • step S205 determines whether the person's motion is walking. If the person's motion is not walking (step S205, No), the generation unit 155 removes the person's area (in pixel units) (step S209), and converts the person's area (in pixel units) into the removed area. , a 3D avatar is placed (step S210).
  • the information processing device 100 lowers the resolution of the head part and hand part of the 3D avatar generated from the video data, and also anonymizes the walking posture of the 3D avatar when the person's motion is walking.
  • the information processing device 100 sets the 3D avatar, which has been lowered in resolution and anonymized, in the area of the person in the video data, thereby reducing the amount of data while preserving important parts of the original video data.
  • Video data can be generated. For example, personal information about the face, auricles, palms, and walking posture has been deleted from the converted video data, but information such as the orientation of the 3D avatar's head remains, so you can see which product the person is looking at. You can check the information later, such as whether there is a child or not.
  • FIG. 14 is a diagram for supplementary explanation of the effects of the information processing device according to this embodiment.
  • the image information 50d will be obtained.
  • the information processing device 100 generates image information 50c from the frame 50.
  • image information 50c information such as the orientation of the 3D avatar's head remains, so the user can check later information such as which product the person is looking at.
  • the information processing device 100 identifies, among the parts of the 3D avatar, parts corresponding to joints p3 to 12 related to walking.
  • the walking posture of the 3D avatar is anonymized by moving the moved parts in accordance with the positions of the joints p3 to p12 after movement. This allows the walking posture of the 3D avatar to be removed.
  • the information processing device 100 leaves parts of the 3D avatar that correspond to the joints of the head as they are. This allows the 3D avatar to reflect a person's purchasing behavior. This allows the user to check the person's purchasing behavior later.
  • the information processing device 100 estimates the boundary position of the person included in the video data and the product shelf where the product is stored, and if the position of the person's wrist joint moves in the front and back direction of the boundary position, the information processing device 100 estimates the boundary position of the person included in the video data and the product shelf where the product is stored. Detects that it has been taken. When the information processing device detects that the product has been picked up, the information processing device determines that the movements of the person related to purchasing behavior are to be reflected in the various parts of the 3D avatar, and the information processing device determines that the parts of the 3D avatar correspond to the joints of the head of the 3D avatar. Leave the parts as they are. This allows the user to check the person's purchasing behavior later by referring to the 3D avatar.
  • the information processing device 100 classifies a plurality of parts of the 3D avatar into a plurality of groups, selects a part included in the group that corresponds to purchasing behavior from among the plurality of groups, and leaves the selected part unchanged.
  • parts in other groups may be anonymized based on setting information. It is assumed that the group of parts corresponding to purchasing behavior is set in advance.
  • FIG. 15 is a diagram illustrating an example of the hardware configuration of a computer that implements the same functions as the information processing device of the embodiment.
  • the computer 200 includes a CPU 201 that executes various calculation processes, an input device 202 that accepts data input from the user, and a display 203.
  • the computer 200 also includes a communication device 204 and an interface device 205 that exchange data with an external device or the like via a wired or wireless network.
  • the computer 200 also includes a RAM 206 that temporarily stores various information and a hard disk device 207. Each device 201-207 is then connected to a bus 208.
  • the hard disk device 207 includes an acquisition program 207a, a skeleton estimation program 207b, an attribute estimation program 207c, a detection program 207d, a generation program 207e, and a display control program 207f. Further, the CPU 201 reads each program 207a to 207f and expands it in the RAM 206.
  • the acquisition program 207a functions as an acquisition process 206a.
  • the skeleton estimation program 207b functions as a skeleton estimation process 206b.
  • the attribute estimation program 207c functions as an attribute estimation process 206c.
  • the detection program 207d functions as a detection process 206d.
  • the generation program 207e functions as a generation process 206e.
  • the display control program 207f functions as a display control process 206f.
  • the processing of the acquisition process 206a corresponds to the processing of the acquisition unit 151.
  • the processing of the skeleton estimation process 206b corresponds to the processing of the skeleton estimation unit 152.
  • the processing of the attribute estimation process 206c corresponds to the processing of the attribute estimation section 153.
  • the processing of the detection process 206d corresponds to the processing of the detection unit 154.
  • the processing of the generation process 206e corresponds to the processing of the generation unit 155.
  • the processing of the display control process 206f corresponds to the processing of the display control unit 156.
  • each of the programs 207a to 207f does not necessarily have to be stored in the hard disk device 207 from the beginning.
  • each program is stored in a "portable physical medium" such as a flexible disk (FD), CD-ROM, DVD, magneto-optical disk, or IC card that is inserted into the computer 200. Then, the computer 200 may read and execute each program 207a to 207f.
  • Information processing device 110 Communication unit 120 Input unit 130 Display unit 140 Storage unit 141 Conversion parts table 142 Video DB 150 Control unit 151 Acquisition unit 152 Skeleton estimation unit 153 Attribute estimation unit 154 Detection unit 155 Generation unit 156 Display control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

情報処理装置は、人物を含む映像情報を取得し、取得をした映像情報に含まれる人物の表面を構成する複数の部位を有するアバターを生成し、取得をした映像情報を分析することで、人物の関節の位置を含む骨格情報を生成する。情報処理装置は、生成された骨格情報に基づいて、映像情報に含まれる人物の行動を特定し、特定をされた人物の行動に基づいて、生成されたアバターが有する複数の部位毎に、人物の動きを反映させるか否か判定する。情報処理装置は、生成された骨格情報の骨格の位置の時系列の変化に基づいて、アバターが有する複数の部位のうち、人物の動きを反映させると判定された部位を移動させる。映像データを分析することで、顧客の購買行動を特定するサービスに適用することができる。

Description

生成プログラム、生成方法および情報処理装置
 本発明は、生成プログラム等に関する。
 店舗に設置されたカメラの映像データをDB(Data Base)に格納し、映像データをAI(Artificial Intelligence)で分析することで、顧客の購買行動を特定する従来技術がある。たとえば、かかる従来技術では、AIによる各顧客の購買行動を集計し、集計結果を示す画面情報を表示する。
 図16は、従来技術を説明するための図である。たとえば、図16に示す画面情報30には、画面領域30a,30b,30cが含まれる。画面領域30aには、カメラが撮影した売り場の様子を目視可能な映像データが表示される。画面領域30bには、時間毎の来客人数を示すグラフが表示される。画面領域30cには、顧客の購買行動の種別と、該当する購買行動を行った顧客の人数を示すグラフが表示される。
 店舗の管理者は、画面領域30aを目視確認することで、顧客個別の事象を確認することができる。管理者は、画面領域30b,30cを確認することで、各時間帯の顧客の人数や、商品に興味を持っている顧客がどのような購買行動を行うのかを確認することができる。
特開2018-147378号公報
 しかしながら、映像データをそのままDBに格納すると、DBに格納された映像データの量が多くなり、映像データに対する処理量が増加する。なお、単純に、映像データの一部の情報を削除してDBに格納することも考えられるが、顧客個別の事象等を確認するための部分も削除されてしまう場合もありえた。
 このため、元の映像データの重要な部分のデータを残しつつ、データ量を減らした映像データを生成することが求められる。
 1つの側面では、本発明は、元の映像データの重要な部分の情報を残しつつ、データ量を減らした映像データを生成することができる生成プログラム、生成方法および情報処理装置を提供することを目的とする。
 第1の案では、コンピュータに次の処理を実行させる。コンピュータは、人物を含む映像情報を取得する。コンピュータは、取得をした映像情報に含まれる人物の表面を構成する複数の部位を有するアバターを生成する。コンピュータは、取得をした映像情報を分析することで、人物の関節の位置を含む骨格情報を生成する。コンピュータは、生成された骨格情報に基づいて、映像情報に含まれる人物の行動を特定する。コンピュータは、特定をされた人物の行動に基づいて、生成されたアバターが有する複数の部位毎に、人物の動きを反映させるか否か判定する。コンピュータは、生成された骨格情報の骨格の位置の時系列の変化に基づいて、アバターが有する複数の部位のうち、人物の動きを反映させると判定された部位を移動させる。
 元の映像データの重要な部分の情報を残しつつ、データ量を減らした映像データを生成することができる。
図1は、本実施例に係るシステムを示す図である。 図2は、本実施例に含まれる情報処理装置の処理を説明するための図である。 図3は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。 図4は、映像DBのデータ構造の一例を示す図である。 図5は、歩行の動作判定を説明するための図である。 図6は、フレームから生成される3Dアバターの一例を示す図である。 図7は、3Dアバターの歩行姿勢を匿名化する処理を説明するための図である。 図8は、生成部の処理を説明するための図である。 図9は、表示制御部が生成する画面情報の一例を示す図(1)である。 図10は、入力画面の一例を示す図である。 図11は、表示制御部が生成する画面情報の一例を示す図(2)である。 図12は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。 図13は、生成処理の処理手順を示すフローチャートである。 図14は、本実施例に係る情報処理装置の効果を補足説明するための図である。 図15は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 図16は、従来技術を説明するための図である。
 以下に、本願の開示する生成プログラム、生成方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
 まず、本実施例に係るシステムの一例について説明する。本実施例に係るシステムは、映像データをAIで分析することで、顧客の購買行動を特定するシステムに関連する。図1は、本実施例に係るシステムを示す図である。図1に示すように、このシステムは、カメラ40a,40b,40c,40dと、情報処理装置100とを有する。カメラ40a~40dと、情報処理装置100とは、有線または無線によって相互に接続される。カメラ40a~40dは、店舗の異なる位置に設置される。以下の説明では、カメラ40a~40dをまとめて「カメラ40」と表記する。
 カメラ40は、撮影範囲の映像を撮影し、映像のデータを、情報処理装置100に送信する。以下の説明では、映像のデータを「映像データ」と表記する。映像データには、時系列のフレームが含まれる。フレームは、カメラ40にあるタイミングで撮影された静止画像である。各フレームには、時系列の昇順に、フレーム番号が付与される。
 本実施例に係る情報処理装置100は、カメラ40から映像データを分析し、映像データに含まれる人物の属性情報、購買行動、動作等を判定し、属性情報や購買行動等と関連付けて、映像データを映像DB142に保存する。情報処理装置100は、映像データを映像DB142に保存する場合に、下記に説明する3Dアバターを生成し、映像データの人物の画像と置き換える。また、情報処理装置100は、人物の動作が歩行である場合には、3Dアバターの歩行姿勢の匿名化を行う一方で、人物がどの商品を見ているかを確認可能な3Dアバターの頭部の位置の情報を維持する。これによって、映像データに含まれる人物の重要な部分のデータを残しつつ、人物の個人情報を除去することができる。個人情報には、歩行の際の姿勢および両腕の動作、歩幅、その他の歩行の態様が含まれる。また、個人情報には、個人を特定可能な人物の顔画像、耳介の画像、手のひらの画像等が含まれる。
 図2は、本実施例に含まれる情報処理装置の処理を説明するための図である。情報処理装置100は、映像データに含まれるフレーム50を取得し、フレーム50の人物の領域50aを特定する。人物の領域は、たとえば、Bounding Boxに対応する領域となる。情報処理装置100は、人物の領域の画像を基にして、人物の「骨格情報」および「属性情報」を推定する。骨格情報は、人物の各関節の位置が設定された情報である。属性情報には、人物の年代、性別、体形、髪型、服装等が含まれる。
 情報処理装置100は、人物の領域50aの画像を、生成モデルに入力することで、3Dアバターav1を生成する。情報処理装置100は、3Dアバターav1の頭部の部位、手の部位を低解像度化する。
 また、情報処理装置100は、骨格情報を基にして、人物の動作が歩行であると判定した場合には、3Dアバターav1の所定の部位を移動させることで、3Dアバターav1の歩行姿勢を匿名化する。情報処理装置100が、上記の処理を実行することで、3Dアバターav2が生成される。歩行姿勢を匿名化する処理の詳細は後述する。
 一方、情報処理装置100は、フレーム50の人物の領域50aを除去することで、画像情報50bを生成する。
 情報処理装置100は、3Dアバターav2を、画像情報50bの人物の領域を除去した領域50aに配置することで、画像情報50cを生成する。
 情報処理装置100は、映像データに含まれる各フレームについて、上記処理を繰り返し実行する。以下の説明では、映像データの各フレームの人物を3Dアバターで置き換えた映像データを「変換映像データ」と表記する。情報処理装置100は、係る変換映像データを、映像データの代わりに、映像DB142に登録する。
 上記のように、本実施例に係る情報処理装置100は、映像データから生成した3Dアバターの頭部の部位、手の部位を低解像度化するとともに、人物の動作が歩行である場合には、3Dアバターの歩行姿勢を匿名化する。情報処理装置100は、低解像度化、匿名化を行った3Dアバターを、映像データの人物の領域に設定することで、元の映像データの重要な部分のデータを残しつつ、データ量を減らした映像データを生成することができる。たとえば、変換映像データからは、顔、耳介、手のひら、歩行姿勢に関する個人情報が削除されているが、3Dアバターの頭部の向き等の情報は残してあるので、人物がどの商品を眺めているか等の情報を後から確認することができる。
 次に、図1及び図2で説明した処理を実行する情報処理装置の構成例について説明する。図3は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図3に示すように、情報処理装置100は、通信部110、入力部120、表示部130、記憶部140、制御部150を有する。
 通信部110は、有線又は無線でカメラ40等に接続され、カメラ40等との間で情報の送受信を行う。たとえば、通信部110は、NIC(Network Interface Card)等によって実現される。通信部110は、図示しないネットワークに接続されていてもよい。
 入力部120は、各種の情報を、情報処理装置100に入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。たとえば、ユーザは、入力部120を操作して、検索条件等を入力する。
 表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。たとえば、表示部130は、検索条件の検索結果を表示する。
 記憶部140は、骨格推定モデルM1、属性推定モデルM2、生成モデルM3、姿勢判定モデルM4、変換パーツテーブル141、映像DB142を有する。たとえば、記憶部140は、メモリ等の記憶装置である。
 骨格推定モデルM1は、人物の領域の画像を入力とし、人物の骨格情報を出力とする訓練済みの機械学習モデルである。骨格情報は、人物の関節と関節の位置とを対応付けた情報である。たとえば、骨格推定モデルM1は、NN(Neural Network)である。
 属性推定モデルM2は、人物の領域の画像を入力とし、人物の属性情報を出力とする訓練済みの機械学習モデルである。属性情報には、人物の年代、性別、体形、髪型、服装等が含まれる。たとえば、属性推定モデルM2は、ResNet等のNNである。
 生成モデルM3は、人物の領域の画像を基にして、3Dアバターを生成するモデルである。たとえば、生成モデルM3は、「Mesh Graphormer」と、「Texformer」との機能を有する。Mesh Graphormerは、1つのフレームの人物の領域の画像を基にして、人物の姿勢や、人物の各頂点を推定し、3次元の人物のメッシュモデルを生成する。Texformerは、1つのフレームの人物の領域の画像を基にして、人物のテクスチャを生成する。生成モデルM3は、Mesh Graphormerによって推定された3次元の人物のメッシュモデルに、Texformerによって生成されたテクスチャを設定することで、3Dアバターを生成する。
 姿勢判定モデルM4は、人物の骨格情報を入力とし、人物の姿勢を出力とする訓練済みの機械学習モデルである。人物の姿勢には、立つ、歩く、しゃがむ、座る、寝る等の姿勢である。姿勢判定モデルM4は、Multi Layer Perceptron等のNNである。
 変換パーツテーブル141は、3Dアバターの特徴量を変換する場合に利用する人物の部位を保持するテーブルである。たとえば、変換パーツテーブル141には、髪型、髪の色、肌の色等が異なる複数の頭部のパーツが格納される。
 映像DB142は、映像データの人物を3Dアバターに置き換えた変換映像データ等を格納する。図4は、映像DBのデータ構造の一例を示す図である。図4に示すように、この映像DB142は、識別番号、変換映像データ、3Dアバター、属性情報、購買行動、時間を対応付ける。識別番号は、変換映像データ(映像データ)を識別する番号である。変換映像データは、映像データの各フレームの人物を3Dアバターで置き換えた映像データである。
 3Dアバターは、映像データのフレームから生成される3次元のアバターの情報である。属性情報は、映像データの人物の属性情報である。購買行動は、映像情報の人物の購買行動を示す情報である。時間は、映像データが撮影された時間帯の情報である。たとえば、時間帯には、映像データの開始時刻および終了時刻に対応する。
 図3の説明に戻る。制御部150は、取得部151、骨格推定部152、属性推定部153、検出部154、生成部155、表示制御部156を有する。制御部150は、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等である。
 取得部151は、通信部110を介して、カメラ40から映像データを取得する。本実施例では説明の便宜上、映像データには、1人の人物が含まれ、映像データの開始時刻をTs、映像データの終了時刻をTeとする。取得部151は、映像データに、固有の識別番号を設定する。取得部151は、映像データを、骨格推定部152に出力する。取得部151は、映像データの識別番号と対応付けて、映像データの時間(映像データの時間帯<開始時刻Ts、終了時刻Te>)を、映像DB142に登録する。
 骨格推定部152は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、骨格推定モデルM1に入力することで、人物の骨格情報を推定する。骨格推定部152は、映像データの時系列のフレームについて、上記処理を繰り返し実行することで、時系列のフレームから、時系列の人物の骨格情報をそれぞれ推定する。
 骨格推定部152には、上記の処理によって骨格推定情報を生成し、生成した骨格推定情報を、属性推定部153、検出部154、生成部155に出力する。たとえば、骨格推定情報には、識別番号と、映像データと、時系列のフレームの骨格情報とが含まれる。
 属性推定部153は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、属性推定モデルM2に入力することで、人物の属性情報を推定する。属性推定部153は、映像データの識別番号と対応付けて、推定した属性情報を映像DB142に登録する。
 検出部154は、映像データの時系列のフレームから推定された時系列の骨格情報を基にして、映像データの人物の動作、購買行動を検出する。
 まず、検出部154が、人物の動作を検出する処理の一例について説明する。検出部154は、時系列の骨格情報から、一つの骨格情報を取得し、骨格情報を姿勢判定モデルM4に入力することで、人物の動作が「歩行」であるか否かを判定する。検出部154は、人物の動作が歩行であると判定した場合には、歩行検出情報を、生成部155に出力する。
 図5は、歩行の動作判定を説明するための図である。たとえば、検出部154は、図5に示す骨格情報を、姿勢判定モデルM4に入力することで、人物の動作を判定する。検出部154は、骨格推定部152に推定された骨格情報をそのまま利用してもよいし、図5の骨格情報SK10のように、一部の関節位置を抽出して、利用してもよい。骨格情報SK10には、関節p1,p2,p3,p4,p5,p6、p7,p8が含まれる。
 関節p1は、左肩の関節である。関節p2は、右肩の関節である。関節p3は、左腰の関節である。関節p4は、右腰の関節である。関節p5は、左膝の関節である。関節p6は、右膝の関節である。関節p7は、左足首の関節である。関節p8は、右足首の関節である。たとえば、姿勢判定モデルM4は、骨格情報SK10が入力されると、関節p3,p4,p5,p6の角度のパターンに応じて、姿勢を、立つ、歩く、しゃがむ、座る、寝る等の何れかに分類する。
 たとえば、検出部154は、フレーム番号nのフレームから推定された骨格情報を、姿勢判定モデルM4に入力し、人物の姿勢が「歩く」である場合、フレーム番号nを設定した歩行検出情報を、生成部155に出力する。
 続いて、検出部154が、人物の購買行動を検出する処理について説明する。検出部154は、映像データの時系列のフレームから推定された時系列の骨格情報の遷移パターンを基にして、人物の購買行動を検出する。検出部154は、所定の関節の位置の遷移パターンと、購買行動とを対応付けたテーブルを基にして、人物の購買行動を検出する。
 たとえば、検出部154は、骨格情報の手首の関節が前後方向に移動した場合、人物が商品を手に取ったことを検出する。検出部154は、商品を手に取ったことを検出した後に、手首の関節が下方向(買い物カゴの領域)に移動した場合に、商品を購入したことを検出する。検出部154は、商品を手に取ったことを検出した後に、手首の関節が、頭部の前方に移動した場合には、商品を調べたことを検出する。
 なお、検出部154は、各カメラ40a~40dによって撮影された映像データに含まれる人物のトラッキングを行い、Pos(Point of sales)レジシステムとデータ通信を実行して、商品の識別情報(以下、商品識別情報)や、商品を購入したか否かを検出してもよい。また、検出部154は、映像データに含まれる商品棚の境界位置を推定し、人物の手首の関節の位置が、境界位置の前後方向に移動した場合に、商品を手に取ったことを検出してもよい。検出部154は、映像データに含まれる商品の位置を特定し、特定した商品の方向に、骨格情報の手首の関節が移動した場合に、商品を手に取ったことを検出してもよい。
 購買行動には「Grab&Buy Few(少しの商品を手に取って、購入した)」、「Grab&Buy Many(たくさんの商品を手に取って、購入した)」、「Grab&Not Buy(商品を手に取ったが、購入しなかった)」が含まれる。また、購買行動には、「Examine&Buy Few(少しの商品を調べて、購入した)」、「Examine&Buy Many(たくさんの商品を調べて、購入した)」、「Examine&Not Buy(商品を調べて、購入しなかった)」が含まれる。検出部154は、その他の購買行動を検出してもよい。
 検出部154は、映像データの識別番号と対応付けて、検出した購買行動を映像DB142に登録する。検出部154は、人物が商品を購入したことを検出した場合には、映像データの識別情報と対応付けて、検出した商品識別情報を、映像DB142に登録してもよい。
 更に、検出部154は、映像データを解析して、人物の行動特徴を検出してもよい。人物の行動特徴には、スマートフォンを持っているか否か、ショッピングカートの大きさ、ショッピングリストを持っているか否か、歩く速度、人物の他にともに行動している人物の特徴等が含まれる。検出部154は、映像データの識別情報と対応付けて、検出した行動特徴を、映像DB142に登録してもよい。
 生成部155は、3Dアバターを生成する処理、3Dアバターの特徴量を変換する処理、3Dアバターの歩行姿勢を匿名化する処理、変換映像データを生成する処理を実行する。
 生成部155が実行する3Dアバターを生成する処理について説明する。生成部155は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、生成モデルM3に入力することで、3Dアバターを生成する。たとえば、生成部155は、人物の領域の画像を、Mesh Graphormerに入力し、3次元の人物のメッシュモデルを生成する。生成部155は、人物の領域の画像を、Texformerに入力して、人物のテクスチャを生成する。生成部155は、Mesh Graphormerによって推定された3次元の人物のメッシュモデルに、Texformerによって生成されたテクスチャを設定することで、3Dアバターを生成する。生成部155は、1つのフレームから、かかるフレームに含まれる人物の3Dアバターを生成することが可能である。
 図6は、フレームから生成される3Dアバターの一例を示す図である。たとえば、生成部155が、フレーム60の人物の領域の画像を、生成モデルM3に入力することで、3Dアバター60aが生成される。生成部155が、フレーム61の人物の領域の画像を、生成モデルM3に入力することで、3Dアバター61aが生成される。生成部155が、フレーム62の人物の領域の画像を、生成モデルM3に入力することで、3Dアバター62aが生成される。生成部155が、フレーム63の人物の領域の画像を、生成モデルM3に入力することで、3Dアバター63aが生成される。
 続いて、生成部155が実行する3Dアバターの特徴量を変換する処理について説明する。生成部155は、フレーム番号nのフレームから推定された骨格情報と、フレーム番号nのフレームから生成した3Dアバターとを基にして、3Dアバターを構成する複数の部位のうち、特徴量を変換する部位を特定する。たとえば、生成部155は、骨格情報と、3Dアバターとを重ねて配置し、骨格情報の頭、手首の関節位置を基準として、3Dアバターの頭(顔、耳介を含む)の部位と、手の部位を特定する。
 生成部155は、3Dアバターの手の部位、頭の部位を低解像度化する(ぼかす)。また、生成部155は、3Dアバターの頭部の部位の位置を、所定の方向へ所定の距離ずらす。所定の方向、所定の距離は、予め設定される。生成部155が、かかる処理を実行することで、3Dアバターの特徴量を変換する。
 なお、生成部155は、アバターの頭の部位の特徴と類似する頭部のパーツを、変換パーツテーブル141から選択し、選択した頭部のパーツによって、アバターの頭部の部位を置き換えることで、3Dアバターの特徴量を変換してもよい。生成部155は、映像データの識別番号と対応付けて、特徴量を変換した3Dアバターの情報を、映像DB142に登録する。
 続いて、生成部155が、3Dアバターの歩行姿勢を匿名化する処理について説明する。生成部155は、検出部154から取得する歩行検出情報に設定されるフレーム番号のフレームから生成した3Dアバターを選択し、選択した3Dアバターの歩行姿勢を匿名化する。
 図7は、3Dアバターの歩行姿勢を匿名化する処理を説明するための図である。たとえば、生成部155は、歩行姿勢であると判定された3Dアバターに対応する骨格情報を、骨格情報SK20とする。骨格情報SK20には、関節p1~p13が含まれる。関節p1~p8の関節の説明は、図5と同様である、関節p9は、左肘の関節である。関節p10は、右肘の関節である。関節p11は、左手首の関節である。関節p12は、右手首の関節である。関節p13は、頭部の各関節に対応する。
 生成部155は、骨格情報SK20の関節p3,p5,p7のx座標の値が同じ値となるように、関節p5,p7を移動させる。生成部155は、骨格情報SK20の関節p4,p6,p8のx座標の値が同じ値となるように、関節p6,p8を移動させる。生成部155は、骨格情報SK20の関節p9,p11のx座標の値が同じ値となるように、関節p11を移動させる。生成部155は、骨格情報SK20の関節p10,p12のx座標の値が同じ値となるように、関節p12を移動させる。上記のように、どの関節の組のx座標を同じにするかに関する情報は、設定情報として、予め記憶部140に登録される。生成部155は、設定情報を基にして、上記の処理を実行する。
 生成部155が、上記処理を実行することで、骨格情報SK20は、骨格情報SK20aとなる。生成部155は、3Dアバターの姿勢を、骨格情報SK20aに合わせて調整する。たとえば、生成部155は、3Dアバターの各部位のうち、歩行に関連する関節p3~12に対応する部位を特定し、特定した部位を、骨格情報SK20aの関節p3~12に位置に合わせて移動させることで、3Dアバターの歩行姿勢を匿名化する。
 なお、生成部155は、頭部の各関節p13をそのままとすることで、人物が向いていた方向をユーザが確認できるように、3Dアバターの顔の向きの情報をそのままとする。たとえば、生成部155は、検出部154によって、人物が商品に手を伸ばす等の購買行動(物体を探索する動作)が検出された場合、3Dアバターの各部位のうち、頭部の各関節p13に対応する部位をそのままとすることで、購買行動に関する人の動きを反映させる。
 生成部155は、歩行検出情報に設定されたフレーム番号に対応する3Dアバターについて、上記処理をそれぞれ実行することで、3Dアバターの歩行姿勢を匿名化する。
 続いて、生成部155が、変換映像データを生成する処理について説明する。生成部155の処理は、フレームの人物の動作が歩行である場合と、動作が歩行以外の場合とで、処理が異なるため、フレームの人物の動作が歩行である場合の処理、動作が歩行以外の場合の処理について、順に説明する。
 図2を用いて、生成部155が実行する、フレームの人物の動作が歩行である場合の処理について説明する。生成部155は、フレーム50の人物の領域50aを特定し、人物の領域(Bounding Box)を除去することで、画像情報50bを生成する。フレーム50の人物の動作を、歩行とする。生成部155は、歩行姿勢を匿名化した3Dアバターav2を、画像情報50bの領域50aに配置することで、画像情報50cを生成する。なお、3Dアバターav2は、フレーム50を基にして生成された3Dアバターである。
 生成部155は、映像データに含まれる各フレームのうち、歩行検出情報に設定されたフレーム番号に対応するフレームについて、上記処理を繰り返し実行する。
 続いて、生成部155が実行する、フレームの人物の動作が歩行以外の場合の処理について説明する。図8は、生成部の処理を説明するための図である。生成部155は、フレーム55の人物の領域55aを特定し、人物の領域55aをピクセル単位で除去することで、画像情報55bを生成する。フレーム55の人物の動作を、歩行以外の動作とする。生成部155は、3Dアバターav3を、画像情報55bの領域55aに配置することで、画像情報55cを生成する。なお、3Dアバターav3は、フレーム55を基にして生成された3Dアバターである。
 生成部155は、映像データに含まれる各フレームのうち、歩行検出情報に設定されたフレーム番号以外のフレーム番号に対応するフレームについて、上記処理を繰り返し実行する。
 図2、図8で説明したように、生成部155は、映像データに含まれる時系列のフレームについて、人物の領域を除去し、除去した領域に、生成した3Dアバターを配置することで、変換映像データを生成する。生成部155は、映像データの識別番号と対応付けて、変換映像データを、映像DB142に登録する。
 映像データに対して、取得部151、骨格推定部152、属性推定部153、検出部154、生成部155が上記処理を実行することで、映像DB142には、識別番号、変換映像データ、3Dアバター、属性情報、購買行動、時間が関連付けられて登録される。取得部151、骨格推定部152、属性推定部153、検出部154、生成部155は、カメラ40から映像データを取得する度に、上記処理を繰り返し実行し、各情報を映像DB142に登録する。
 表示制御部156は、ユーザの操作する入力部120を介して、検索条件を受け付けた場合に、映像DB142を基にして、検索条件に対応する画面情報を生成し、画面情報を表示部130に出力して表示させる。なお、ユーザは、検索条件として、商品識別情報を指定してもよい。
 たとえば、表示制御部156は、検索条件として時間が指定された場合には、検索条件の時間に対応するレコードの3Dアバターを抽出し、抽出した3Dアバターを配列した画面情報を生成する。
 図9は、表示制御部が生成する画面情報の一例を示す図(1)である。図9に示す画面情報70には、検索条件に対応する複数の3Dアバターが整列されている。ユーザは、画面情報70を参照することで、指定した時間に店舗で買い物を行っている人物の特徴を容易に把握することができる。たとえば、スーツ姿の3Dアバターが多い場合には、該当する時間において、ビジネスマンが多いことが把握できる。
 また、表示制御部156は、検索条件を指定するための入力画面を、表示部130に出力して、検索条件の指定を受け付けてもよい。図10は、入力画面の一例を示す図である。図10に示す入力画面75には、人物の属性の項目を選択する領域75aと、人物の行動特徴の項目を選択する領域75bと、購買行動の項目を選択する領域75cとが含まれる。
 たとえば、人物の属性の項目には、Gender、Age、Clothes、Beard、Hair、Shape等が含まれる。人物の行動特徴の項目には、Smartphone、Shopping Cart、Shopping List、Motion Speed、People With等が含まれる。なお、Smartphoneは、人物がスマートフォンを所持しているか否かを選択する項目である。Shopping Cartは、ショッピングカートのサイズを選択する項目である。Motion Speedは、人物の移動速度を選択する項目である。People Withは、人物とともに行動する他の人物を選択する項目である。購買行動の項目は、上述した購買行動の説明と同様である。
 表示制御部156は、入力画面75を表示し、入力部120を操作するユーザによって、各項目が選択されると、選択された検索条件に対応する画面情報を生成し、画面情報を表示部130に出力して表示させる。
 図11は、表示制御部が生成する画面情報の一例を示す図(2)である。表示制御部156は、検索情報と、映像DB142の各レコードとを比較し、検索条件にヒットするレコードを特定する。表示制御部156は、特定したレコードに設定された購買行動の割合を算出し、算出結果を、画面情報80の領域80aに表示させる。表示制御部156は、その他の統計情報を、領域80aに表示させてもよい。
 次に、本実施例に係る情報処理装置100の処理手順の一例について説明する。図12は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図12に示すように、情報処理装置100の取得部151は、カメラ40から映像データを取得する(ステップS101)。
 情報処理装置100の骨格推定部152は、映像データのフレームを骨格推定モデルM1に入力し、骨格情報を推定する(ステップS102)。情報処理装置100の属性推定部153は、映像データのフレームを属性推定モデルM2に入力し、属性情報を推定する(ステップS103)。
 情報処理装置100の検出部154は、骨格情報を姿勢判定モデルM4に入力し、人物の動作を検出する(ステップS104)。検出部154は、時系列の骨格情報の遷移を基にして、人物の購買行動を検出する(ステップS105)。
 情報処理装置100の生成部155は、生成処理を実行する(ステップS106)。情報処理装置100は、各情報を、映像DB142に登録する(ステップS107)。
 次に、図12のステップS106に示した生成処理の処理手順について説明する。図13は、生成処理の処理手順を示すフローチャートである。図13に示すように、情報処理装置100の生成部155は、映像データの人物の領域を特定する(ステップS201)。
 生成部155は、人物の領域の画像を生成モデルM3に入力し、3Dアバターを生成する(ステップS202)。生成部155は、3Dアバターの有する複数の部位から、所定の部位を特定する(ステップS203)。生成部155は、3Dアバターの所定の部位(頭部、手)の特徴量を変換する(ステップS204)。
 生成部155は、人物の動作が歩行であるか否かを判定する(ステップS205)。生成部155は、人物の動作が歩行である場合には(ステップS205,Yes)、3Dアバターの部位を移動させることで、3Dアバターの歩行姿勢を匿名化する(ステップS206)。
 生成部155は、人物の領域(Bounding Box)を除去する(ステップS207)。生成部は、人物の領域(Bounding Box)を除去した領域に、歩行姿勢を匿名化した3Dアバターを配置する(ステップS208)。
 一方、生成部155は、人物の動作が歩行でない場合には(ステップS205,No)、人物の領域(ピクセル単位)で除去し(ステップS209)、人物の領域(ピクセル単位)で除去した領域に、3Dアバターを配置する(ステップS210)。
 次に、本実施例に係る情報処理装置100の効果について説明する。情報処理装置100は、映像データから生成した3Dアバターの頭部の部位、手の部位を低解像度化するとともに、人物の動作が歩行である場合には、3Dアバターの歩行姿勢を匿名化する。情報処理装置100は、低解像度化、匿名化を行った3Dアバターを、映像データの人物の領域に設定することで、元の映像データの重要な部分のデータを残しつつ、データ量を減らした映像データを生成することができる。たとえば、変換映像データからは、顔、耳介、手のひら、歩行姿勢に関する個人情報が削除されているが、3Dアバターの頭部の向き等の情報は残してあるので、人物がどの商品を眺めているか等の情報を後から確認することができる。
 図14は、本実施例に係る情報処理装置の効果を補足説明するための図である。たとえば、従来技術のように、単純にフレーム50に含まれる人物の個人情報(顔、手、歩容)にマスクをかけると、画像情報50dに示すものとなる。しかし、画像情報50dでは、人物の個別の事象等を確認するための部分もマスクされており、係る画像情報50dをユーザが参照しても、事象を確認することが難しい。一方、情報処理装置100は、フレーム50から、画像情報50cを生成する。画像情報50cでは、3Dアバターの頭部の向き等の情報は残してあるので、ユーザは、人物がどの商品を眺めているか等の情報を後から確認することができる。
 情報処理装置100は、図7で説明したように、人物の動作が歩行である場合には、3Dアバターの各部位のうち、歩行に関連する関節p3~12に対応する部位を特定し、特定した部位を、移動後の関節p3~12に位置に合わせて移動させることで、3Dアバターの歩行姿勢を匿名化する。これによって、3Dアバターの歩行姿勢を除去することができる。
 情報処理装置100は、人物が商品に手を伸ばす等の購買行動(物体を探索する動作)が検出された場合、3Dアバターの各部位のうち、頭部の各関節に対応する部位をそのままとすることで、3Dアバターに、購買行動に関する人の動きを反映させる。これによって、ユーザは、人物の購買行動を後から確認することができる。
 情報処理装置100は、映像データに含まれる人物や、商品を格納する商品棚の境界位置を推定し、人物の手首の関節の位置が、境界位置の前後方向に移動した場合に、商品を手に取ったことを検出する。情報処理装置は、商品を手に取ったことを検出した場合に、3Dアバターの各部位のうち、購買行動に関する人の動きを反映させると判定し、3Dアバターの頭部の各関節に対応する部位をそのままとする。これによって、ユーザは、3Dアバターを参照することで、人物の購買行動を後から確認することができる。
 なお、情報処理装置100は、3Dアバターの複数の部位を、複数のグループに分類し、複数のグループのうち、購買行動に対応する、グループに含まれる部位を選択し、選択した部位をそのままとし、他のグループの部位については、設定情報に基づいて、匿名化を行ってもよい。購買行動に対応する部位のグループは、予め設定されているものとする。
 次に、上記実施例に示した情報処理装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図15は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
 図15に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203とを有する。また、コンピュータ200は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置204と、インタフェース装置205とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM206と、ハードディスク装置207とを有する。そして、各装置201~207は、バス208に接続される。
 ハードディスク装置207は、取得プログラム207a、骨格推定プログラム207b、属性推定プログラム207c、検出プログラム207d、生成プログラム207e、表示制御プログラム207fを有する。また、CPU201は、各プログラム207a~207fを読み出してRAM206に展開する。
 取得プログラム207aは、取得プロセス206aとして機能する。骨格推定プログラム207bは、骨格推定プロセス206bとして機能する。属性推定プログラム207cは、属性推定プロセス206cとして機能する。検出プログラム207dは、検出プロセス206dとして機能する。生成プログラム207eは、生成プロセス206eとして機能する。表示制御プログラム207fは、表示制御プロセス206fとして機能する。
 取得プロセス206aの処理は、取得部151の処理に対応する。骨格推定プロセス206bの処理は、骨格推定部152の処理に対応する。属性推定プロセス206cの処理は、属性推定部153の処理に対応する。検出プロセス206dの処理は、検出部154の処理に対応する。生成プロセス206eの処理は、生成部155の処理に対応する。表示制御プロセス206fの処理は、表示制御部156の処理に対応する。
 なお、各プログラム207a~207fについては、必ずしも最初からハードディスク装置207に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が各プログラム207a~207fを読み出して実行するようにしてもよい。
 100  情報処理装置
 110  通信部
 120  入力部
 130  表示部
 140  記憶部
 141  変換パーツテーブル
 142  映像DB
 150  制御部
 151  取得部
 152  骨格推定部
 153  属性推定部
 154  検出部
 155  生成部
 156  表示制御部

Claims (12)

  1.  人物を含む映像情報を取得し、
     取得をした前記映像情報に含まれる前記人物の表面を構成する複数の部位を有する3次元のアバターを生成し、
     取得をした前記映像情報を分析することで、前記人物の関節の位置を含む骨格情報を生成し、
     生成された前記骨格情報に基づいて、前記映像情報に含まれる前記人物の行動を特定し、
     特定をされた前記人物の行動に基づいて、生成された前記3次元のアバターが有する複数の部位毎に、前記人物の動きを反映させるか否か判定し、
     生成された前記骨格情報の骨格の位置の時系列の変化に基づいて、前記3次元のアバターが有する複数の部位のうち、前記人物の動きを反映させると判定された部位を移動させる
     処理をコンピュータに実行させることを特徴とする生成プログラム。
  2.  前記人物の行動を特定する処理によって特定された行動が、前記人物が物体を探索する動作である場合、前記移動させる処理は、前記骨格情報の骨格の位置の時系列の変化に基づいて、前記3次元のアバターが有する複数の部位のうち、前記人物の動きを反映させると判定された部位を移動させることを特徴とする請求項1に記載の生成プログラム。
  3.  前記取得する処理によって取得された前記映像情報であって、店内の人物を含む前記映像情報を分析することで、前記映像情報に含まれる前記人物と商品とをそれぞれ特定し、前記人物の骨格情報を基にして、特定された前記商品に対する前記人物の行動を特定する処理を更にコンピュータに実行させ、前記判定する処理は、特定された前記商品に対する前記人物の行動に基づいて、生成された前記3次元のアバターが有する複数の部位毎に、前記人物の動きを反映させるか否か判定することを特徴とする請求項1に記載の生成プログラム。
  4.  前記人物の行動を特定する処理によって特定された行動が、前記人物の歩行を示す動作である場合には、前記移動させる処理は、記憶部に記憶された設定情報に基づいて、前記3次元のアバターが有する複数の部位のうち、歩行に関連する部位を移動させることを特徴とする請求項1に記載の生成プログラム。
  5.  人物を含む映像情報を取得し、
     取得をした前記映像情報に含まれる前記人物の表面を構成する複数の部位を有する3次元のアバターを生成し、
     取得をした前記映像情報を分析することで、前記人物の関節の位置を含む骨格情報を生成し、
     生成された前記骨格情報に基づいて、前記映像情報に含まれる前記人物の行動を特定し、
     特定をされた前記人物の行動に基づいて、生成された前記3次元のアバターが有する複数の部位毎に、前記人物の動きを反映させるか否か判定し、
     生成された前記骨格情報の骨格の位置の時系列の変化に基づいて、前記3次元のアバターが有する複数の部位のうち、前記人物の動きを反映させると判定された部位を移動させる
     処理をコンピュータが実行することを特徴とする生成方法。
  6.  前記人物の行動を特定する処理によって特定された行動が、前記人物が物体を探索する動作である場合、前記移動させる処理は、前記骨格情報の骨格の位置の時系列の変化に基づいて、前記3次元のアバターが有する複数の部位のうち、前記人物の動きを反映させると判定された部位を移動させることを特徴とする請求項5に記載の生成方法。
  7.  前記取得する処理によって取得された前記映像情報であって、店内の人物を含む前記映像情報を分析することで、前記映像情報に含まれる前記人物と商品とをそれぞれ特定し、前記人物の骨格情報を基にして、特定された前記商品に対する前記人物の行動を特定する処理を更にコンピュータに実行させ、前記判定する処理は、特定された前記商品に対する前記人物の行動に基づいて、生成された前記3次元のアバターが有する複数の部位毎に、前記人物の動きを反映させるか否か判定することを特徴とする請求項5に記載の生成方法。
  8.  前記人物の行動を特定する処理によって特定された行動が、前記人物の歩行を示す動作である場合には、前記移動させる処理は、記憶部に記憶された設定情報に基づいて、前記3次元のアバターが有する複数の部位のうち、歩行に関連する部位を移動させることを特徴とする請求項5に記載の生成方法。
  9.  人物を含む映像情報を取得し、
     取得をした前記映像情報に含まれる前記人物の表面を構成する複数の部位を有する3次元のアバターを生成し、
     取得をした前記映像情報を分析することで、前記人物の関節の位置を含む骨格情報を生成し、
     生成された前記骨格情報に基づいて、前記映像情報に含まれる前記人物の行動を特定し、
     特定をされた前記人物の行動に基づいて、生成された前記3次元のアバターが有する複数の部位毎に、前記人物の動きを反映させるか否か判定し、
     生成された前記骨格情報の骨格の位置の時系列の変化に基づいて、前記3次元のアバターが有する複数の部位のうち、前記人物の動きを反映させると判定された部位を移動させる
     処理を実行する制御部を有する情報処理装置。
  10.  前記人物の行動を特定する処理によって特定された行動が、前記人物が物体を探索する動作である場合、前記移動させる処理は、前記骨格情報の骨格の位置の時系列の変化に基づいて、前記3次元のアバターが有する複数の部位のうち、前記人物の動きを反映させると判定された部位を移動させることを特徴とする請求項9に記載の情報処理装置。
  11.  前記取得する処理によって取得された前記映像情報であって、店内の人物を含む前記映像情報を分析することで、前記映像情報に含まれる前記人物と商品とをそれぞれ特定し、前記人物の骨格情報を基にして、特定された前記商品に対する前記人物の行動を特定する処理を更にコンピュータに実行させ、前記判定する処理は、特定された前記商品に対する前記人物の行動に基づいて、生成された前記3次元のアバターが有する複数の部位毎に、前記人物の動きを反映させるか否か判定することを特徴とする請求項9に記載の情報処理装置。
  12.  前記人物の行動を特定する処理によって特定された行動が、前記人物の歩行を示す動作である場合には、前記移動させる処理は、記憶部に記憶された設定情報に基づいて、前記3次元のアバターが有する複数の部位のうち、歩行に関連する部位を移動させることを特徴とする請求項9に記載の情報処理装置。
PCT/JP2022/027749 2022-07-14 2022-07-14 生成プログラム、生成方法および情報処理装置 WO2024013949A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/027749 WO2024013949A1 (ja) 2022-07-14 2022-07-14 生成プログラム、生成方法および情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/027749 WO2024013949A1 (ja) 2022-07-14 2022-07-14 生成プログラム、生成方法および情報処理装置

Publications (1)

Publication Number Publication Date
WO2024013949A1 true WO2024013949A1 (ja) 2024-01-18

Family

ID=89536319

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/027749 WO2024013949A1 (ja) 2022-07-14 2022-07-14 生成プログラム、生成方法および情報処理装置

Country Status (1)

Country Link
WO (1) WO2024013949A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014086775A (ja) * 2012-10-19 2014-05-12 Nippon Telegr & Teleph Corp <Ntt> 映像コミュニケーションシステム及び映像コミュニケーション方法
WO2018139203A1 (ja) * 2017-01-26 2018-08-02 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014086775A (ja) * 2012-10-19 2014-05-12 Nippon Telegr & Teleph Corp <Ntt> 映像コミュニケーションシステム及び映像コミュニケーション方法
WO2018139203A1 (ja) * 2017-01-26 2018-08-02 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
KR101911133B1 (ko) 깊이 카메라를 이용한 아바타 구성
CN109983505B (zh) 人物动向记录装置、人物动向记录方法及存储介质
JP6242768B2 (ja) 仮想試着装置、仮想試着方法、およびプログラム
JP6320237B2 (ja) 仮想試着装置、仮想試着方法、およびプログラム
US20120299912A1 (en) Avatar-based virtual dressing room
JP5439787B2 (ja) カメラ装置
JP2011253344A (ja) 購買行動分析装置、購買行動分析方法、およびプログラム
JP2016038811A (ja) 仮想試着装置、仮想試着方法、およびプログラム
Ahmed et al. Human gender classification based on gait features using kinect sensor
CN108292413A (zh) 化妆模拟辅助装置、化妆模拟辅助方法和化妆模拟辅助程序
JP2016057908A (ja) 万引き予防システム及びソフトウエア
CN104854623A (zh) 基于化身的虚拟试衣室
JP2018106736A (ja) 仮想試着装置、仮想試着方法、およびプログラム
JP2021043839A (ja) 学習システム、分析システム、学習方法、分析方法、プログラム、及び記憶媒体
JP7480001B2 (ja) 学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体
JP6593949B1 (ja) 情報処理装置、及び、マーケティング活動支援装置
JP2019139321A (ja) 顧客行動分析システムおよび顧客行動分析方法
US11386615B2 (en) Creating a custom three-dimensional body shape model
WO2024013949A1 (ja) 生成プログラム、生成方法および情報処理装置
WO2024013951A1 (ja) 生成プログラム、生成方法および情報処理装置
JP2018113060A (ja) 仮想試着装置、仮想試着システム、仮想試着方法、およびプログラム
WO2020261531A1 (ja) 情報処理装置、メーキャップシミュレーションの学習済モデルの生成方法、メーキャップシミュレーションの実行方法、及び、プログラム
JP7276419B1 (ja) 情報処理プログラム、情報処理方法、および情報処理装置
JP7187593B2 (ja) 情報処理装置、プログラム、及び情報処理方法
JP7315049B1 (ja) 情報処理プログラム、情報処理方法、および情報処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22951163

Country of ref document: EP

Kind code of ref document: A1