WO2024013951A1 - 生成プログラム、生成方法および情報処理装置 - Google Patents

生成プログラム、生成方法および情報処理装置 Download PDF

Info

Publication number
WO2024013951A1
WO2024013951A1 PCT/JP2022/027756 JP2022027756W WO2024013951A1 WO 2024013951 A1 WO2024013951 A1 WO 2024013951A1 JP 2022027756 W JP2022027756 W JP 2022027756W WO 2024013951 A1 WO2024013951 A1 WO 2024013951A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
person
avatar
dimensional avatar
feature amount
Prior art date
Application number
PCT/JP2022/027756
Other languages
English (en)
French (fr)
Inventor
源太 鈴木
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2022/027756 priority Critical patent/WO2024013951A1/ja
Publication of WO2024013951A1 publication Critical patent/WO2024013951A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer

Definitions

  • the present invention relates to a generation program and the like.
  • FIG. 12 is a diagram for explaining the prior art.
  • screen information 30 shown in FIG. 12 includes screen areas 30a, 30b, and 30c.
  • the screen area 30a video data captured by the camera and showing the state of the sales floor is displayed.
  • a graph showing the number of visitors per hour is displayed in the screen area 30b.
  • the screen area 30c displays a graph showing the type of customer purchasing behavior and the number of customers who have performed the corresponding purchasing behavior.
  • the store manager can confirm events for each customer by visually checking the screen area 30a. By checking the screen areas 30b and 30c, the administrator can check the number of customers in each time period and the purchasing behavior of customers who are interested in the product.
  • camera video data may be analyzed using AI to estimate customer attribute information.
  • the customer attribute information includes the customer's age, gender, body shape, hairstyle, clothing, etc.
  • an object of the present invention is to provide a generation program, a generation method, and an information processing device that can make changes to person information included in video data while maintaining person attribute information. .
  • the generation program causes the computer to perform the following processing.
  • a computer acquires video information including people. By analyzing the acquired video information, the computer generates attribute information including the attributes of the person and skeletal information including the positions of the person's joints. The computer acquires a three-dimensional avatar that has a plurality of parts forming the surface of the person included in the acquired video information, and has features related to the person for each part. Based on the generated attribute information and skeletal information, the computer identifies a part whose feature amount is to be converted from among a plurality of parts included in the acquired three-dimensional avatar. The computer generates a three-dimensional avatar in which the feature amount of the identified body part is converted as the avatar of the person included in the video information.
  • FIG. 1 is a diagram showing a system according to this embodiment.
  • FIG. 2 is a diagram for explaining the processing of the information processing apparatus according to this embodiment.
  • FIG. 3 is a functional block diagram showing the configuration of the information processing device according to this embodiment.
  • FIG. 4 is a diagram showing an example of the data structure of the video DB.
  • FIG. 5 is a diagram showing an example of a 3D avatar generated from a frame.
  • FIG. 6 is a diagram (1) showing an example of screen information generated by the display control unit.
  • FIG. 7 is a diagram showing an example of an input screen.
  • FIG. 8 is a diagram (2) showing an example of screen information generated by the display control unit.
  • FIG. 9 is a flowchart showing the processing procedure of the information processing apparatus according to this embodiment.
  • FIG. 10 is a flowchart showing the processing procedure of avatar generation processing.
  • FIG. 11 is a diagram for supplementary explanation of the effects of the information processing apparatus according to this embodiment.
  • FIG. 12 is a diagram illustrating an example of the hardware configuration of a computer that implements the same functions as the information processing device of the embodiment.
  • FIG. 13 is a diagram for explaining the prior art.
  • FIG. 1 is a diagram showing a system according to this embodiment.
  • this system includes cameras 40a, 40b, 40c, and 40d and an information processing device 100.
  • the cameras 40a to 40d and the information processing device 100 are connected to each other by wire or wirelessly.
  • Cameras 40a to 40d are installed at different positions in the store. In the following description, the cameras 40a to 40d will be collectively referred to as "camera 40.”
  • the camera 40 shoots an image of the shooting range and transmits the image data to the information processing device 100.
  • video data will be referred to as "video data.”
  • the video data includes time-series frames.
  • a frame is a still image captured by the camera 40 at a certain timing.
  • a frame number is assigned to each frame in ascending chronological order.
  • the information processing device 100 analyzes video data from the camera 40, identifies attribute information and purchasing behavior of a person included in the video data, associates the video data with the attribute information, purchasing behavior, etc. Save in DB142.
  • the information processing device 100 maintains the attribute information of the person included in the video data by generating a 3D avatar described below and replacing it with the image of the person in the video data. while removing a person's personal information.
  • the personal information includes a face image, an ear pinna image, a palm image, etc. of a person who can identify the individual.
  • FIG. 2 is a diagram for explaining the processing of the information processing device according to this embodiment.
  • the information processing device 100 acquires a frame 50 included in the video data, and specifies a region of a person in the frame 50.
  • the information processing device 100 estimates "skeletal information" and "attribute information" of a person based on an image of the region of the person. Skeletal information is information in which the positions of each joint of a person are set.
  • the attribute information includes the person's age, gender, body shape, hairstyle, clothes, etc.
  • the information processing device 100 generates the 3D avatar av1 by inputting the image of the person's area to the generation model.
  • the 3D avatar av1 is composed of multiple parts of a person.
  • the information processing device 100 generates a 3D avatar av2 by converting the feature amount of a specific part among the plurality of parts of the 3D avatar av1, and removes personal information included in the 3D avatar av1.
  • the specific region is a region of the head (including the face and ears), a region of the hand (including the palm of the hand), and the like.
  • the information processing device 100 adjusts the degree of feature amount conversion so that the attribute information of the 3D avatar av2 is the same as the attribute information of the person in the frame 50.
  • the information processing device 100 generates image information 50b by removing the person area 50a of the frame 50.
  • the information processing device 100 generates the image information 50c by placing the 3D avatar av2 in the area 50a from which the person area of the image information 50b has been removed.
  • the information processing device 100 repeatedly performs the above processing for each frame included in the video data.
  • the information processing device 100 may reuse the 3D avatar av2 if the person in each frame included in the video data is the same as the person in the frame 50.
  • video data in which a person in each frame of video data is replaced with a 3D avatar will be referred to as "converted video data.”
  • the information processing device 100 registers the converted video data in the video DB 142 instead of the video data.
  • the information processing apparatus 100 identifies the part whose feature amount is to be converted from among the parts of the 3D avatar generated from the video data, and ensures that the original person's attribute information is maintained. Then, the feature values of the identified parts are converted.
  • the information processing apparatus 100 can reduce the personal information of the person without changing the attribute information of the person by setting the 3D avatar whose feature amount has been converted in the area of the person in the video data.
  • FIG. 3 is a functional block diagram showing the configuration of the information processing apparatus according to this embodiment.
  • the information processing device 100 includes a communication section 110, an input section 120, a display section 130, a storage section 140, and a control section 150.
  • the communication unit 110 is connected to the camera 40 or the like by wire or wirelessly, and transmits and receives information to and from the camera 40 and the like.
  • the communication unit 110 is realized by a NIC (Network Interface Card) or the like.
  • the communication unit 110 may be connected to a network (not shown).
  • the input unit 120 is an input device that inputs various information to the information processing device 100.
  • the input unit 120 corresponds to a keyboard, a mouse, a touch panel, etc.
  • the user operates the input unit 120 to input search conditions and the like.
  • the display unit 130 is a display device that displays information output from the control unit 150.
  • the display unit 130 corresponds to a liquid crystal display, an organic EL (Electro Luminescence) display, a touch panel, etc.
  • the display unit 130 displays search results based on the search conditions.
  • the storage unit 140 includes a skeleton estimation model M1, an attribute estimation model M2, a generation model M3, a conversion parts table 141, and a video DB 142.
  • the storage unit 140 is a storage device such as a memory.
  • the skeletal estimation model M1 is a trained machine learning model that takes an image of a region of a person as input and outputs skeletal information of the person. Skeletal information is information that associates the joints of a person with the positions of the joints.
  • the skeleton estimation model M1 is a neural network (NN).
  • the attribute estimation model M2 is a trained machine learning model that receives an image of a person's area as input and outputs attribute information of the person.
  • the attribute information includes the person's age, gender, body shape, hairstyle, clothes, etc.
  • the attribute estimation model M2 is a NN such as ResNet.
  • the generation model M3 is a model that generates a 3D avatar based on an image of a person's area.
  • the generative model M3 has the functions of "Mesh Graphormer” and "Texformer".
  • Mesh Graphormer estimates the person's pose and each vertex of the person based on an image of the person's area in one frame, and generates a three-dimensional mesh model of the person.
  • Texformer generates a texture for a person based on an image of the area of the person in one frame.
  • the generation model M3 generates a 3D avatar by setting the texture generated by Texformer to the 3D human mesh model estimated by Mesh Graphormer.
  • the conversion parts table 141 is a table that holds parts of a person used when converting feature amounts of a 3D avatar.
  • the converted parts table 141 stores a plurality of head parts with different hairstyles, hair colors, skin colors, and the like.
  • the video DB 142 stores converted video data in which people in the video data are replaced with 3D avatars.
  • FIG. 4 is a diagram showing an example of the data structure of the video DB. As shown in FIG. 4, this video DB 142 associates identification numbers, converted video data, 3D avatars, attribute information, purchasing behavior, and time.
  • the identification number is a number that identifies converted video data (video data).
  • the converted video data is video data in which a person in each frame of video data is replaced with a 3D avatar.
  • a 3D avatar is three-dimensional avatar information generated from a frame of video data.
  • the attribute information is attribute information of a person in the video data.
  • the purchasing behavior is information indicating the purchasing behavior of the person in the video information.
  • the time is information about the time period in which the video data was shot. For example, the time period corresponds to the start time and end time of video data.
  • the control unit 150 includes an acquisition unit 151, a skeleton estimation unit 152, an attribute estimation unit 153, a detection unit 154, a generation unit 155, and a display control unit 156.
  • the control unit 150 is, for example, a CPU (Central Processing Unit) or an MPU (Micro Processing Unit).
  • the acquisition unit 151 acquires video data from the camera 40 via the communication unit 110.
  • the video data includes one person
  • the start time of the video data is Ts
  • the end time of the video data is Te.
  • the acquisition unit 151 sets a unique identification number to the video data.
  • the acquisition unit 151 outputs the video data to the skeleton estimation unit 152.
  • the acquisition unit 151 registers the time of the video data (time zone of the video data ⁇ start time Ts, end time Te>) in the video DB 142 in association with the identification number of the video data.
  • the skeletal estimator 152 estimates the skeletal information of the person by identifying the region of the person included in the frame of the video data and inputting the image of the identified region of the person to the skeletal estimation model M1.
  • the skeletal estimator 152 repeatedly performs the above processing on the chronological frames of the video data, thereby estimating the skeletal information of the person in the chronological order from the chronological frames.
  • the skeleton estimation unit 152 generates skeleton estimation information through the above processing, and outputs the generated skeleton estimation information to the attribute estimation unit 153, the detection unit 154, and the generation unit 155.
  • the skeleton estimation information includes an identification number, video data, and skeleton information of time-series frames.
  • the attribute estimating unit 153 estimates the person's attribute information by specifying the area of the person included in the frame of the video data and inputting the image of the specified area of the person to the attribute estimation model M2.
  • the attribute estimation unit 153 registers the estimated attribute information in the video DB 142 in association with the identification number of the video data.
  • the detection unit 154 detects a person's purchasing behavior based on the transition pattern of the time-series skeleton information estimated from the time-series frames of the video data.
  • the detection unit 154 detects a person's purchasing behavior based on a table that associates transition patterns of predetermined joint positions with purchasing behaviors.
  • the detection unit 154 detects that the person has picked up the product when the wrist joint in the skeletal information moves in the front-back direction.
  • the detection unit 154 detects that the product has been purchased when the joint of the wrist moves downward (into the shopping cart area) after detecting that the product has been picked up. If the wrist joint moves in front of the head after detecting that the product has been picked up, the detection unit 154 detects that the product has been examined.
  • the detection unit 154 tracks the person included in the video data captured by each of the cameras 40a to 40d, performs data communication with a POS (Point of Sales) cash register system, and obtains product identification information (hereinafter referred to as Product identification information) or whether or not the product has been purchased may also be detected.
  • the detection unit 154 estimates the boundary position of the product shelf included in the video data, and detects that the person has picked up the product when the position of the wrist joint of the person moves in the front and back direction of the boundary position. You may.
  • purchase behavior includes "Examine&Buy Few (investigated and purchased a few products),” “Examine&Buy Many (investigated and purchased many products),” and “Examine&Not Buy (investigated and purchased a few products).” )” is included.
  • the detection unit 154 may detect other purchasing behaviors.
  • the detection unit 154 registers the detected purchasing behavior in the video DB 142 in association with the identification number of the video data.
  • the detection unit 154 may register the detected product identification information in the video DB 142 in association with the identification information of the video data.
  • the detection unit 154 may analyze the video data to detect behavioral characteristics of the person. Behavioral characteristics of a person include whether or not the person has a smartphone, the size of the shopping cart, whether or not the person has a shopping list, walking speed, and characteristics of the person who is acting together in addition to the person.
  • the detection unit 154 may register the detected behavioral feature in the video DB 142 in association with the identification information of the video data.
  • the generation unit 155 executes a process of generating a 3D avatar, a process of converting the feature amount of the 3D avatar, and a process of generating converted video data. As will be described later, there are multiple types of processing for converting the feature amounts of a 3D avatar, and the generation unit 155 generates a 3D avatar obtained by conversion in which the attribute information of the 3D avatar is the same as the original attribute information. Adopt an avatar.
  • the generation unit 155 generates a 3D avatar by specifying a region of a person included in a frame of video data and inputting an image of the specified region of the person to the generation model M3. For example, the generation unit 155 inputs an image of a region of a person to a Mesh Graphormer, and generates a three-dimensional mesh model of the person. The generation unit 155 inputs the image of the region of the person to Texformer and generates the texture of the person. The generation unit 155 generates a 3D avatar by setting the texture generated by Texformer to the 3D person's mesh model estimated by Mesh Graphormer. The generation unit 155 can generate, from a single frame, a 3D avatar of a person included in the frame.
  • FIG. 5 is a diagram showing an example of a 3D avatar generated from a frame.
  • the generation unit 155 inputs the image of the person's area in the frame 60 to the generation model M3, thereby generating the 3D avatar 60a.
  • the generation unit 155 inputs the image of the person's area in the frame 61 to the generation model M3, thereby generating the 3D avatar 61a.
  • the generation unit 155 inputs the image of the person area of the frame 62 to the generation model M3, thereby generating the 3D avatar 62a.
  • the generation unit 155 inputs the image of the person's area in the frame 63 to the generation model M3, thereby generating the 3D avatar 63a.
  • the generation unit 155 converts feature amounts among the plurality of parts forming the 3D avatar based on the skeletal information estimated from the frame with frame number n and the 3D avatar generated from the frame with frame number n. Identify the part. For example, the generation unit 155 arranges the skeletal information and the 3D avatar in an overlapping manner, and determines the parts of the 3D avatar's head (including the face and auricles) and hands based on the joint positions of the head and wrists in the skeletal information. Identify the part of the body.
  • the process of converting the feature amount executed by the generation unit 155 includes a first conversion process and a second conversion process.
  • the generation unit 155 lowers the resolution of the 3D avatar's hand parts and head part (blurs). Furthermore, the generation unit 155 shifts the position of the head part of the 3D avatar by a predetermined distance in a predetermined direction.
  • the predetermined direction and predetermined distance are set in advance.
  • the generation unit 155 lowers the resolution of the hand part of the 3D avatar.
  • the generation unit 155 selects a head part similar to the characteristics of the 3D avatar's head part from the conversion parts table 141, and replaces the avatar's head part with the selected head part.
  • the generation unit 155 executes a first conversion process on the 3D avatar, and when the attribute information of the 3D avatar that has undergone the first conversion process matches the attribute information of the person in the video data, the generation unit 155 executes the first conversion process. It is decided to adopt a 3D avatar that has undergone this process.
  • the generation unit 155 determines to employ the 3D avatar that has undergone the second conversion process.
  • the generation unit 155 changes the head part to be replaced in the second conversion process, The second conversion process is executed again.
  • the generation unit 155 repeatedly executes the above process until the attribute information of the 3D avatar that has undergone the second conversion process matches the attribute information of the person in the video data.
  • the generation unit 155 shoots an image from a predetermined viewpoint position of the 3D avatar that has undergone the first conversion process or the second conversion process, and converts the shot image into the attribute estimation model M2. By inputting the information, the attribute information of the 3D avatar is specified.
  • the generation unit 155 uses the attribute information registered in the video DB 142 corresponding to the identification number of the video data as the attribute information of the person in the video data.
  • the generation unit 155 generates a 3D avatar that has undergone the first conversion process or the second conversion process. may be adopted.
  • the generation unit 155 registers the 3D avatar that has been decided to be adopted in the video DB 142 in association with the identification number of the video data.
  • the generation unit 155 generates converted video data by removing the region of the person from the time-series frames included in the video data and placing the 3D avatar that has been decided to be adopted in the removed region.
  • the generation unit 155 registers the converted video data in the video DB 142 in association with the identification number of the video data.
  • the acquisition unit 151, skeleton estimation unit 152, attribute estimation unit 153, detection unit 154, and generation unit 155 execute the above processing on the video data
  • the identification number, converted video data, and 3D avatar are stored in the video DB 142.
  • attribute information, purchasing behavior, and time are registered in association with each other.
  • the acquisition unit 151, the skeleton estimation unit 152, the attribute estimation unit 153, the detection unit 154, and the generation unit 155 repeatedly perform the above processing every time they acquire video data from the camera 40, and register each piece of information in the video DB 142.
  • the display control unit 156 When the display control unit 156 receives search conditions through the input unit 120 operated by the user, the display control unit 156 generates screen information corresponding to the search conditions based on the video DB 142 and displays the screen information on the display unit 130. Output and display. Note that the user may specify product identification information as a search condition.
  • the display control unit 156 extracts 3D avatars of records corresponding to the time of the search condition, and generates screen information in which the extracted 3D avatars are arranged.
  • FIG. 6 is a diagram (1) showing an example of screen information generated by the display control unit.
  • the screen information 70 shown in FIG. 6 a plurality of 3D avatars corresponding to the search conditions are arranged.
  • the user can easily understand the characteristics of the person shopping at the store at the specified time. For example, if there are many 3D avatars wearing suits, it can be understood that there are many businessmen at the relevant time.
  • FIG. 7 is a diagram showing an example of an input screen.
  • the input screen 75 shown in FIG. 7 includes an area 75a for selecting a person's attribute item, an area 75b for selecting a person's behavior characteristic item, and an area 75c for selecting a purchasing behavior item.
  • person attribute items include Gender, Age, Clothes, Beard, Hair, Shape, etc.
  • Items of person behavior characteristics include Smartphone, Shopping Cart, Shopping List, Motion Speed, People With, and the like.
  • Smartphone is an item for selecting whether or not the person owns a smartphone.
  • Shopping Cart is an item for selecting the size of the shopping cart.
  • Motion Speed is an item for selecting the moving speed of the person.
  • People With is an item for selecting other people who act together with the person.
  • the items of purchasing behavior are the same as those described above for purchasing behavior.
  • the display control unit 156 displays the input screen 75 and when each item is selected by the user operating the input unit 120, generates screen information corresponding to the selected search condition, and displays the screen information on the display unit 130. output and display it.
  • FIG. 8 is a diagram (2) showing an example of screen information generated by the display control unit.
  • the display control unit 156 compares the search information with each record in the video DB 142 and identifies records that meet the search conditions.
  • the display control unit 156 calculates the proportion of purchasing behavior set in the specified record, and displays the calculation result in the area 80a of the screen information 80.
  • the display control unit 156 may display other statistical information in the area 80a.
  • FIG. 9 is a flowchart showing the processing procedure of the information processing apparatus according to this embodiment.
  • the acquisition unit 151 of the information processing device 100 acquires video data from the camera 40 (step S101).
  • the skeleton estimation unit 152 of the information processing device 100 inputs the frame of video data to the skeleton estimation model M1 and estimates skeleton information (step S102).
  • the attribute estimation unit 153 of the information processing device 100 inputs the frame of video data to the attribute estimation model M2 and estimates attribute information (step S103).
  • the detection unit 154 of the information processing device 100 detects the purchasing behavior of the person based on the transition of the skeletal information in time series (step S104).
  • the generation unit 155 of the information processing device 100 executes generation processing (step S105).
  • the generation unit 155 generates converted video data by removing the region of the person from each frame of the video data and setting a 3D avatar (step S106).
  • the information processing device 100 registers each piece of information in the video DB 142 (step S107).
  • FIG. 10 is a flowchart showing the procedure of the generation process.
  • the generation unit 155 of the information processing device 100 specifies the region of the person in the video data (step S201).
  • the generation unit 155 inputs the image of the person's area to the generation model M3 and generates a 3D avatar (step S202).
  • the generation unit 155 identifies a predetermined part from among the plurality of parts included in the 3D avatar (step S203).
  • the generation unit 155 converts the feature amount of a predetermined part of the 3D avatar (step S204).
  • the generation unit 155 estimates attribute information of the 3D avatar whose feature amount has been converted (step S205).
  • the generation unit 155 determines whether the attribute information of the 3D avatar after converting the feature amount satisfies the condition with respect to the original attribute information of the person in the video data (step S206). For example, in step S206, the generation unit 155 determines that some of the features specified in advance among the plurality of attributes included in the original attribute information and the features of the attribute information of the 3D avatar after converting the feature amounts are If they match, it is determined that the conditions are met.
  • step S207, Yes If the conditions are met (step S207, Yes), the generation unit 155 outputs a 3D avatar with the feature amounts converted (step S208). On the other hand, if the condition is not satisfied (step S207, No), the generation unit 155 moves to step S204.
  • the information processing device 100 identifies the part whose feature amount is to be converted from among the parts of the 3D avatar generated from the video data, and converts the feature amount of the identified part so that the original person's attribute information is maintained. do.
  • the information processing apparatus 100 can reduce the personal information of the person without changing the attribute information of the person by setting the 3D avatar whose feature amount has been converted in the area of the person in the video data. Further, converted video data having the same person attribute information as the original attribute information can be stored in the video DB 142, and can be used for later analysis.
  • FIG. 11 is a diagram for supplementary explanation of the effects of the information processing device according to this embodiment.
  • the image information 50d will be obtained.
  • the image information 50d has changed attribute information, and when analyzed using AI or the like, the analysis result of the original frame 50 and the image information 50d will be different.
  • the information processing device 100 generates image information 50c from the frame 50.
  • the attribute information of the image information 50c is the same as that of the frame 50, so even if the image information 50c is saved instead of the frame 50 and the image information 50c is later analyzed by AI, it will not be the same as the frame 50.
  • the same analysis results can be obtained.
  • the information processing device 100 converts the feature amounts of the face, auricle, and palm of the plurality of parts that the 3D avatar has. This allows personal information to be appropriately deleted from the 3D avatar.
  • the information processing device 100 repeatedly converts the feature amount of the head (face) part among the plurality of parts that the 3D avatar has, and each time the feature amount of the head part is converted, the information processing device 100 converts the attribute information of the 3D avatar. It is determined whether or not the information corresponds to the original attribute information. Thereby, it is possible to generate a 3D avatar whose attribute information satisfies the conditions. For example, when the information processing device 100 matches some of the features specified in advance among the multiple attributes included in the original attribute information and the features of the attribute information of the 3D avatar after converting the feature amounts, , it is determined that the condition is satisfied.
  • the information processing device 100 generates a 3D avatar by inputting frames of video data to the generation model M3. Thereby, a 3D avatar can be efficiently generated.
  • FIG. 12 is a diagram illustrating an example of the hardware configuration of a computer that implements the same functions as the information processing device of the embodiment.
  • the computer 200 includes a CPU 201 that executes various calculation processes, an input device 202 that accepts data input from the user, and a display 203.
  • the computer 200 also includes a communication device 204 and an interface device 205 that exchange data with an external device or the like via a wired or wireless network.
  • the computer 200 also includes a RAM 206 that temporarily stores various information and a hard disk device 207. Each device 201-207 is then connected to a bus 208.
  • the hard disk device 207 includes an acquisition program 207a, a skeleton estimation program 207b, an attribute estimation program 207c, a detection program 207d, a generation program 207e, and a display control program 207f. Further, the CPU 201 reads each program 207a to 207f and expands it in the RAM 206.
  • the acquisition program 207a functions as an acquisition process 206a.
  • the skeleton estimation program 207b functions as a skeleton estimation process 206b.
  • the attribute estimation program 207c functions as an attribute estimation process 206c.
  • the detection program 207d functions as a detection process 206d.
  • the generation program 207e functions as a generation process 206e.
  • the display control program 207f functions as a display control process 206f.
  • the processing of the acquisition process 206a corresponds to the processing of the acquisition unit 151.
  • the processing of the skeleton estimation process 206b corresponds to the processing of the skeleton estimation unit 152.
  • the processing of the attribute estimation process 206c corresponds to the processing of the attribute estimation section 153.
  • the processing of the detection process 206d corresponds to the processing of the detection unit 154.
  • the processing of the generation process 206e corresponds to the processing of the generation unit 155.
  • the processing of the display control process 206f corresponds to the processing of the display control unit 156.
  • each of the programs 207a to 207f does not necessarily have to be stored in the hard disk device 207 from the beginning.
  • each program is stored in a "portable physical medium" such as a flexible disk (FD), CD-ROM, DVD, magneto-optical disk, or IC card that is inserted into the computer 200. Then, the computer 200 may read and execute each program 207a to 207f.
  • Information processing device 110 Communication unit 120 Input unit 130 Display unit 140 Storage unit 141 Conversion parts table 142 Video DB 150 Control unit 151 Acquisition unit 152 Skeleton estimation unit 153 Attribute estimation unit 154 Detection unit 155 Generation unit 156 Display control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

情報処理装置は、人物を含む映像情報を取得し、取得した映像情報を分析することで、人物の属性を含む属性情報および人物の関節の位置を含む骨格情報を生成する。情報処理装置は、取得した映像情報に含まれる人物の表面を構成する複数の部位を有し、部位毎に人物に関連する特徴量を有する3次元のアバターを取得する。情報処理装置は、生成された属性情報および骨格情報に基づいて、取得した3次元のアバターが有する複数の部位の中から、特徴量を変換する部位を特定する。情報処理装置は、映像情報に含まれる人物のアバターとして、特定された部位の特徴量が変換された3次元のアバターを生成する。映像データをAIで分析することで、顧客の購買行動を特定するサービスに適用することができる。

Description

生成プログラム、生成方法および情報処理装置
 本発明は、生成プログラム等に関する。
 店舗に設置されたカメラの映像データをDB(Data Base)に格納し、映像データをAI(Artificial Intelligence)で分析することで、顧客の購買行動を特定する従来技術がある。たとえば、かかる従来技術では、AIによる各顧客の購買行動を集計し、集計結果を示す画面情報を表示する。
 図12は、従来技術を説明するための図である。たとえば、図12に示す画面情報30には、画面領域30a,30b,30cが含まれる。画面領域30aには、カメラが撮影した売り場の様子を目視可能な映像データが表示される。画面領域30bには、時間毎の来客人数を示すグラフが表示される。画面領域30cには、顧客の購買行動の種別と、該当する購買行動を行った顧客の人数を示すグラフが表示される。
 店舗の管理者は、画面領域30aを目視確認することで、顧客個別の事象を確認することができる。管理者は、画面領域30b,30cを確認することで、各時間帯の顧客の人数や、商品に興味を持っている顧客がどのような購買行動を行うのかを確認することができる。
 また、従来技術では、上記の処理に加えて、カメラの映像データをAIで分析し、顧客の属性情報を推定する場合もある。顧客の属性情報には、顧客の年代、性別、体形、髪型、服装等が含まれる。
 ここで、近年では、個人情報保護法や、GDPR(General Data Protection Regulation)等の制約によって、映像データに含まれる個人情報を削除することが求められている。このため、従来技術では、映像データに含まれる顧客の領域をぼかしたり、顧客の領域をマスクするなどの加工を行うことで、上記の制約に対応している。
特開2018-147378号公報
Lin, L. Wang and Z. Liu,"Mesh Graphormer," 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, 2021 pp. 12919-12928.doi: 10.1109/ICCV48922.2021.01270
X. Xu and C.Change,"3D Human Texture Estimation from a Single Image with Transformers," 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, 2021, pp. 13829-13838,
 しかしながら、従来技術のように、映像データに含まれる顧客の領域を加工すると、顧客本来の属性情報が変化してしまい、加工済みの映像データをAIによって分析すると、加工前の映像データに対する分析結果と同じ結果が得られない。また、加工済みの映像データを目視して、顧客個別の事象を確認することも難しい。
 このため、人物の属性情報を維持しつつ、映像データに含まれる人物の情報に変更を加えることが求められている。
 1つの側面では、本発明は、人物の属性情報を維持しつつ、映像データに含まれる人物の情報に変更を加えることができる生成プログラム、生成方法および情報処理装置を提供することを目的とする。
 第1の案では、生成プログラムは、コンピュータに次の処理を実行させる。コンピュータは、人物を含む映像情報を取得する。コンピュータは、取得した映像情報を分析することで、人物の属性を含む属性情報および人物の関節の位置を含む骨格情報を生成する。コンピュータは、取得した映像情報に含まれる人物の表面を構成する複数の部位を有し、部位毎に人物に関連する特徴量を有する3次元のアバターを取得する。コンピュータは、生成された属性情報および骨格情報に基づいて、取得した3次元のアバターが有する複数の部位の中から、特徴量を変換する部位を特定する。コンピュータは、映像情報に含まれる人物のアバターとして、特定された部位の特徴量が変換された3次元のアバターを生成する。
 人物の属性情報を維持しつつ、映像データに含まれる人物の情報に変更を加えることができる。
図1は、本実施例に係るシステムを示す図である。 図2は、本実施例に係る情報処理装置の処理を説明するための図である。 図3は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。 図4は、映像DBのデータ構造の一例を示す図である。 図5は、フレームから生成される3Dアバターの一例を示す図である。 図6は、表示制御部が生成する画面情報の一例を示す図(1)である。 図7は、入力画面の一例を示す図である。 図8は、表示制御部が生成する画面情報の一例を示す図(2)である。 図9は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。 図10は、アバター生成処理の処理手順を示すフローチャートである。 図11は、本実施例に係る情報処理装置の効果を補足説明するための図である。 図12は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 図13は、従来技術を説明するための図である。
 以下に、本願の開示する生成プログラム、生成方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
 まず、本実施例に係るシステムの一例について説明する。本実施例に係るシステムは、映像データをAIで分析することで、顧客の購買行動を特定するシステムに関連する。図1は、本実施例に係るシステムを示す図である。図1に示すように、このシステムは、カメラ40a,40b,40c,40dと、情報処理装置100とを有する。カメラ40a~40dと、情報処理装置100とは、有線または無線によって相互に接続される。カメラ40a~40dは、店舗の異なる位置に設置される。以下の説明では、カメラ40a~40dをまとめて、「カメラ40」と表記する。
 カメラ40は、撮影範囲の映像を撮影し、映像のデータを、情報処理装置100に送信する。以下の説明では、映像のデータを「映像データ」と表記する。映像データには、時系列のフレームが含まれる。フレームは、カメラ40にあるタイミングで撮影された静止画像である。各フレームには、時系列の昇順に、フレーム番号が付与される。
 本実施例に係る情報処理装置100は、カメラ40から映像データを分析し、映像データに含まれる人物の属性情報および購買行動を特定し、属性情報や購買行動等と関連付けて、映像データを映像DB142に保存する。情報処理装置100は、映像データを映像DB142に保存する場合に、下記に説明する3Dアバターを生成し、映像データの人物の画像と置き換えることで、映像データに含まれる人物の属性情報を維持しつつ、人物の個人情報を除去する。個人情報は、個人を特定可能な人物の顔画像、耳介の画像、手のひらの画像等が含まれる。
 図2は、本実施例に係る情報処理装置の処理を説明するための図である。情報処理装置100は、映像データに含まれるフレーム50を取得し、フレーム50の人物の領域を特定する。情報処理装置100は、人物の領域の画像を基にして、人物の「骨格情報」および「属性情報」を推定する。骨格情報は、人物の各関節の位置が設定された情報である。属性情報には、人物の年代、性別、体形、髪型、服装等が含まれる。
 情報処理装置100は、人物の領域の画像を、生成モデルに入力することで、3Dアバターav1を生成する。3Dアバターav1は、人物の複数の部位から構成される。情報処理装置100は、3Dアバターav1の複数の部位のうち、特定の部位の特徴量を変換することで、3Dアバターav2を生成し、3Dアバターav1に含まれる個人情報を除去する。たとえば、特定の部位は、頭部(顔、耳を含む)の部位、手(手のひらを含む)の部位等である。なお、情報処理装置100は、3Dアバターav2の属性情報が、フレーム50の人物の属性情報と同一となるように、特徴量の変換具合を調整する。
 一方、情報処理装置100は、フレーム50の人物の領域50aを除去することで、画像情報50bを生成する。
 情報処理装置100は、3Dアバターav2を、画像情報50bの人物の領域を除去した領域50aに配置することで、画像情報50cを生成する。
 情報処理装置100は、映像データに含まれる各フレームについて、上記処理を繰り返し実行する。情報処理装置100は、映像データに含まれる各フレームの人物が、フレーム50の人物と同じである場合には、3Dアバターav2を再利用してもよい。以下の説明では、映像データの各フレームの人物を3Dアバターで置き換えた映像データを「変換映像データ」と表記する。情報処理装置100は、係る変換映像データを、映像データの代わりに、映像DB142に登録する。
 上記のように、本実施例に係る情報処理装置100は、映像データから生成した3Dアバターの各部位の中から特徴量を変換する部位を特定し、元の人物の属性情報が保たれるように、特定した部位の特徴量を変換する。情報処理装置100は、特徴量を変換した3Dアバターを、映像データの人物の領域に設定することで、人物の属性情報を変化させないで、人物の個人情報を削減することができる。
 次に、図2で説明した処理を実行する情報処理装置100の構成例について説明する。図3は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図3に示すように、情報処理装置100は、通信部110、入力部120、表示部130、記憶部140、制御部150を有する。
 通信部110は、有線又は無線でカメラ40等に接続され、カメラ40等との間で情報の送受信を行う。たとえば、通信部110は、NIC(Network Interface Card)等によって実現される。通信部110は、図示しないネットワークに接続されていてもよい。
 入力部120は、各種の情報を、情報処理装置100に入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。たとえば、ユーザは、入力部120を操作して、検索条件等を入力する。
 表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。たとえば、表示部130は、検索条件の検索結果を表示する。
 記憶部140は、骨格推定モデルM1、属性推定モデルM2、生成モデルM3、変換パーツテーブル141、映像DB142を有する。たとえば、記憶部140は、メモリ等の記憶装置である。
 骨格推定モデルM1は、人物の領域の画像を入力とし、人物の骨格情報を出力とする訓練済みの機械学習モデルである。骨格情報は、人物の関節と関節の位置とを対応付けた情報である。たとえば、骨格推定モデルM1は、NN(Neural Network)である。
 属性推定モデルM2は、人物の領域の画像を入力とし、人物の属性情報を出力とする訓練済みの機械学習モデルである。属性情報には、人物の年代、性別、体形、髪型、服装等が含まれる。たとえば、属性推定モデルM2は、ResNet等のNNである。
 生成モデルM3は、人物の領域の画像を基にして、3Dアバターを生成するモデルである。たとえば、生成モデルM3は、「Mesh Graphormer」と、「Texformer」との機能を有する。Mesh Graphormerは、1つのフレームの人物の領域の画像を基にして、人物の姿勢や、人物の各頂点を推定し、3次元の人物のメッシュモデルを生成する。Texformerは、1つのフレームの人物の領域の画像を基にして、人物のテクスチャを生成する。生成モデルM3は、Mesh Graphormerによって推定された3次元の人物のメッシュモデルに、Texformerによって生成されたテクスチャを設定することで、3Dアバターを生成する。
 変換パーツテーブル141は、3Dアバターの特徴量を変換する場合に利用する人物の部位を保持するテーブルである。たとえば、変換パーツテーブル141には、髪型、髪の色、肌の色等が異なる複数の頭部のパーツが格納される。
 映像DB142は、映像データの人物を3Dアバターに置き換えた変換映像データ等を格納する。図4は、映像DBのデータ構造の一例を示す図である。図4に示すように、この映像DB142は、識別番号、変換映像データ、3Dアバター、属性情報、購買行動、時間を対応付ける。識別番号は、変換映像データ(映像データ)を識別する番号である。変換映像データは、映像データの各フレームの人物を3Dアバターで置き換えた映像データである。
 3Dアバターは、映像データのフレームから生成される3次元のアバターの情報である。属性情報は、映像データの人物の属性情報である。購買行動は、映像情報の人物の購買行動を示す情報である。時間は、映像データが撮影された時間帯の情報である。たとえば、時間帯には、映像データの開始時刻および終了時刻に対応する。
 図3の説明に戻る。制御部150は、取得部151、骨格推定部152、属性推定部153、検出部154、生成部155、表示制御部156を有する。制御部150は、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等である。
 取得部151は、通信部110を介して、カメラ40から映像データを取得する。本実施例では説明の便宜上、映像データには、1人の人物が含まれ、映像データの開始時刻をTs、映像データの終了時刻をTeとする。取得部151は、映像データに、固有の識別番号を設定する。取得部151は、映像データを、骨格推定部152に出力する。取得部151は、映像データの識別番号と対応付けて、映像データの時間(映像データの時間帯<開始時刻Ts、終了時刻Te>)を、映像DB142に登録する。
 骨格推定部152は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、骨格推定モデルM1に入力することで、人物の骨格情報を推定する。骨格推定部152は、映像データの時系列のフレームについて、上記処理を繰り返し実行することで、時系列のフレームから、時系列の人物の骨格情報をそれぞれ推定する。
 骨格推定部152には、上記の処理によって骨格推定情報を生成し、生成した骨格推定情報を、属性推定部153、検出部154、生成部155に出力する。たとえば、骨格推定情報には、識別番号と、映像データと、時系列のフレームの骨格情報とが含まれる。
 属性推定部153は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、属性推定モデルM2に入力することで、人物の属性情報を推定する。属性推定部153は、映像データの識別番号と対応付けて、推定した属性情報を映像DB142に登録する。
 検出部154は、映像データの時系列のフレームから推定された時系列の骨格情報の遷移パターンを基にして、人物の購買行動を検出する。検出部154は、所定の関節の位置の遷移パターンと、購買行動とを対応付けたテーブルを基にして、人物の購買行動を検出する。
 たとえば、検出部154は、骨格情報の手首の関節が前後方向に移動した場合、人物が商品を手に取ったことを検出する。検出部154は、商品を手に取ったことを検出した後に、手首の関節が下方向(買い物カゴの領域)に移動した場合に、商品を購入したことを検出する。検出部154は、商品を手に取ったことを検出した後に、手首の関節が、頭部の前方に移動した場合には、商品を調べたことを検出する。
 なお、検出部154は、各カメラ40a~40dによって撮影された映像データに含まれる人物のトラッキングを行い、Pos(Point of sales)レジシステムとデータ通信を実行して、商品の識別情報(以下、商品識別情報)や、商品を購入したか否かを検出してもよい。また、検出部154は、映像データに含まれる商品棚の境界位置を推定し、人物の手首の関節の位置が、境界位置の前後方向に移動した場合に、商品を手に取ったことを検出してもよい。
 購買行動には「Grab&Buy Few(少しの商品を手に取って、購入した)」、「Grab&Buy Many(たくさんの商品を手に取って、購入した)」、「Grab&Not Buy(商品を手に取ったが、購入しなかった)」が含まれる。また、購買行動には、「Examine&Buy Few(少しの商品を調べて、購入した)」、「Examine&Buy Many(たくさんの商品を調べて、購入した)」、「Examine&Not Buy(商品を調べて、購入しなかった)」が含まれる。検出部154は、その他の購買行動を検出してもよい。
 検出部154は、映像データの識別番号と対応付けて、検出した購買行動を映像DB142に登録する。検出部154は、人物が商品を購入したことを検出した場合には、映像データの識別情報と対応付けて、検出した商品識別情報を、映像DB142に登録してもよい。
 更に、検出部154は、映像データを解析して、人物の行動特徴を検出してもよい。人物の行動特徴には、スマートフォンを持っているか否か、ショッピングカートの大きさ、ショッピングリストを持っているか否か、歩く速度、人物の他にともに行動している人物の特徴等が含まれる。検出部154は、映像データの識別情報と対応付けて、検出した行動特徴を、映像DB142に登録してもよい。
 生成部155は、3Dアバターを生成する処理、3Dアバターの特徴量を変換する処理、変換映像データを生成する処理を実行する。後述するように、3Dアバターの特徴量を変換する処理には、複数種類の処理があり、生成部155は、3Dアバターの属性情報が、元の属性情報と同じとなる変換によって得られた3Dアバターを採用する。
 生成部155が実行する3Dアバターを生成する処理について説明する。生成部155は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、生成モデルM3に入力することで、3Dアバターを生成する。たとえば、生成部155は、人物の領域の画像を、Mesh Graphormerに入力し、3次元の人物のメッシュモデルを生成する。生成部155は、人物の領域の画像を、Texformerに入力して、人物のテクスチャを生成する。生成部155は、Mesh Graphormerによって推定された3次元の人物のメッシュモデルに、Texformerによって生成されたテクスチャを設定することで、3Dアバターを生成する。生成部155は、1つのフレームから、かかるフレームに含まれる人物の3Dアバターを生成することが可能である。
 図5は、フレームから生成される3Dアバターの一例を示す図である。たとえば、生成部155が、フレーム60の人物の領域の画像を、生成モデルM3に入力することで、3Dアバター60aが生成される。生成部155が、フレーム61の人物の領域の画像を、生成モデルM3に入力することで、3Dアバター61aが生成される。生成部155が、フレーム62の人物の領域の画像を、生成モデルM3に入力することで、3Dアバター62aが生成される。生成部155が、フレーム63の人物の領域の画像を、生成モデルM3に入力することで、3Dアバター63aが生成される。
 続いて、生成部155が実行する3Dアバターの特徴量を変換する処理について説明する。生成部155は、フレーム番号nのフレームから推定された骨格情報と、フレーム番号nのフレームから生成した3Dアバターとを基にして、3Dアバターを構成する複数の部位のうち、特徴量を変換する部位を特定する。たとえば、生成部155は、骨格情報と、3Dアバターとを重ねて配置し、骨格情報の頭、手首の関節位置を基準として、3Dアバターの頭(顔、耳介を含む)の部位と、手の部位を特定する。
 ここで、生成部155が実行する特徴量を変換する処理には、第1変換処理、第2変換処理がある。
 第1変換処理について説明する。生成部155は、3Dアバターの手の部位、頭の部位を低解像度化する(ぼかす)。また、生成部155は、3Dアバターの頭部の部位の位置を、所定の方向へ所定の距離ずらす。所定の方向、所定の距離は、予め設定される。
 第2変換処理について説明する。生成部155は、3Dアバターの手の部位を低解像度化する。生成部155は、3Dアバターの頭の部位の特徴と類似する頭部のパーツを、変換パーツテーブル141から選択し、選択した頭部のパーツによって、アバターの頭部の部位を置き換える。
 生成部155は、3Dアバターに対し、第1変換処理を実行し、第1変換処理を行った3Dアバターの属性情報が、映像データの人物の属性情報と一致する場合には、第1変換処理を実行した3Dアバターを採用することを決定する。
 一方、生成部155は、第1変換処理を行った3Dアバターの属性情報が、映像データの人物の属性情報と一致しない場合には、元の3Dアバターに対し、第2変換処理を実行する。生成部155は、第2変換処理を行った3Dアバターの属性情報が、映像データの人物の属性情報と一致する場合には、第2変換処理を実行した3Dアバターを採用することを決定する。
 ここで、生成部155は、第2変換処理を行った3Dアバターの属性情報が、映像データの人物の属性情報と一致しない場合には、第2変換処理で置き換える頭部のパーツを変更し、再度、第2変換処理を実行する。生成部155は、第2変換処理を行った3Dアバターの属性情報が、映像データの人物の属性情報と一致するまで、上記処理を繰り返し実行する。
 なお、上記の処理において、生成部155は、第1変換処理または第2変換処理を行った3Dアバターに対して、所定の視点位置から画像を撮影し、撮影した画像を、属性推定モデルM2に入力することで、3Dアバターの属性情報を特定する。生成部155は、映像データの識別番号に対応する映像DB142に登録された属性情報を、映像データの人物の属性情報として利用する。
 生成部155は、第1変換処理または第2変換処理を行った3Dアバターの属性情報が、映像データの人物の属性情報と完全に一致しなくても、一部の属性が一致する場合に、変換処理を実行した3Dアバターを採用することを決定してもよい。たとえば、生成部155は、属性情報に含まれる人物の年代、性別、体形、髪型、服装のうち、年代、性別が一致していれば、第1変換処理または第2変換処理を行った3Dアバターを採用してもよい。
 生成部155は、採用することを決定した3Dアバターを、映像データの識別番号と対応付けて、映像DB142に登録する。
 続いて、生成部155が、変換映像データを生成する処理について説明する。生成部155は、映像データに含まれる時系列のフレームについて、人物の領域を除去し、除去した領域に、採用することを決定した3Dアバターを配置することで、変換映像データを生成する。生成部155は、映像データの識別番号と対応付けて、変換映像データを、映像DB142に登録する。
 映像データに対して、取得部151、骨格推定部152、属性推定部153、検出部154、生成部155が上記処理を実行することで、映像DB142には、識別番号、変換映像データ、3Dアバター、属性情報、購買行動、時間が関連付けられて登録される。取得部151、骨格推定部152、属性推定部153、検出部154、生成部155は、カメラ40から映像データを取得する度に、上記処理を繰り返し実行し、各情報を映像DB142に登録する。
 表示制御部156は、ユーザの操作する入力部120を介して、検索条件を受け付けた場合に、映像DB142を基にして、検索条件に対応する画面情報を生成し、画面情報を表示部130に出力して表示させる。なお、ユーザは、検索条件として、商品識別情報を指定してもよい。
 たとえば、表示制御部156は、検索条件として時間が指定された場合には、検索条件の時間に対応するレコードの3Dアバターを抽出し、抽出した3Dアバターを配列した画面情報を生成する。
 図6は、表示制御部が生成する画面情報の一例を示す図(1)である。図6に示す画面情報70には、検索条件に対応する複数の3Dアバターが整列されている。ユーザは、画面情報70を参照することで、指定した時間に店舗で買い物を行っている人物の特徴を容易に把握することができる。たとえば、スーツ姿の3Dアバターが多い場合には、該当する時間において、ビジネスマンが多いことが把握できる。
 また、表示制御部156は、検索条件を指定するための入力画面を、表示部130に出力して、検索条件の指定を受け付けてもよい。図7は、入力画面の一例を示す図である。図7に示す入力画面75には、人物の属性の項目を選択する領域75aと、人物の行動特徴の項目を選択する領域75bと、購買行動の項目を選択する領域75cとが含まれる。
 たとえば、人物の属性の項目には、Gender、Age、Clothes、Beard、Hair、Shape等が含まれる。人物の行動特徴の項目には、Smartphone、Shopping Cart、Shopping List、Motion Speed、People With等が含まれる。なお、Smartphoneは、人物がスマートフォンを所持しているか否かを選択する項目である。Shopping Cartは、ショッピングカートのサイズを選択する項目である。Motion Speedは、人物の移動速度を選択する項目である。People Withは、人物とともに行動する他の人物を選択する項目である。購買行動の項目は、上述した購買行動の説明と同様である。
 表示制御部156は、入力画面75を表示し、入力部120を操作するユーザによって、各項目が選択されると、選択された検索条件に対応する画面情報を生成し、画面情報を表示部130に出力して表示させる。
 図8は、表示制御部が生成する画面情報の一例を示す図(2)である。表示制御部156は、検索情報と、映像DB142の各レコードとを比較し、検索条件にヒットするレコードを特定する。表示制御部156は、特定したレコードに設定された購買行動の割合を算出し、算出結果を、画面情報80の領域80aに表示させる。表示制御部156は、その他の統計情報を、領域80aに表示させてもよい。
 次に、本実施例に係る情報処理装置100の処理手順の一例について説明する。図9は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図9に示すように、情報処理装置100の取得部151は、カメラ40から映像データを取得する(ステップS101)。
 情報処理装置100の骨格推定部152は、映像データのフレームを骨格推定モデルM1に入力し、骨格情報を推定する(ステップS102)。情報処理装置100の属性推定部153は、映像データのフレームを属性推定モデルM2に入力し、属性情報を推定する(ステップS103)。
 情報処理装置100の検出部154は、時系列の骨格情報の遷移を基にして、人物の購買行動を検出する(ステップS104)。情報処理装置100の生成部155は、生成処理を実行する(ステップS105)。生成部155は、映像データの各フレームについて、人物の領域を除去し、3Dアバターを設定することで、変換映像データを生成する(ステップS106)。情報処理装置100は、各情報を、映像DB142に登録する(ステップS107)。
 次に、図9のステップS105に示した生成処理の処理手順について説明する。図10は、生成処理の処理手順を示すフローチャートである。図10に示すように、情報処理装置100の生成部155は、映像データの人物の領域を特定する(ステップS201)。
 生成部155は、人物の領域の画像を生成モデルM3に入力し、3Dアバターを生成する(ステップS202)。生成部155は、3Dアバターの有する複数の部位から、所定の部位を特定する(ステップS203)。
 生成部155は、3Dアバターの所定の部位の特徴量を変換する(ステップS204)。生成部155は、特徴量を変換した3Dアバターの属性情報を推定する(ステップS205)。
 生成部155は、映像データの人物の元の属性情報に対し、特徴量を変換した後の3Dアバターの属性情報が条件を満たすか否かを判定する(ステップS206)。たとえば、ステップS206において、生成部155は、元の属性情報に含まれる複数の属性のうち、事前に指定される一部の特徴と、特徴量を変換した後の3Dアバターの属性情報の特徴が一致する場合、条件を満たすと判定する。
 生成部155は、条件を満たす場合には(ステップS207,Yes)、特徴量を変換した3Dアバターを出力する(ステップS208)。一方、生成部155は、条件を満たさない場合には(ステップS207,No)、ステップS204に移行する。
 次に、本実施例に係る情報処理装置100の効果について説明する。情報処理装置100は、映像データから生成した3Dアバターの各部位の中から特徴量を変換する部位を特定し、元の人物の属性情報が保たれるように、特定した部位の特徴量を変換する。情報処理装置100は、特徴量を変換した3Dアバターを、映像データの人物の領域に設定することで、人物の属性情報を変化させないで、人物の個人情報を削減することができる。また、元の属性情報と同じ人物の属性情報を有する変換映像データを、映像DB142に保存することができ、後の分析等に利用することができる。
 図11は、本実施例に係る情報処理装置の効果を補足説明するための図である。たとえば、従来技術のように、単純にフレーム50に含まれる人物の個人情報(顔、手)にマスクをかけると、画像情報50dに示すものとなる。しかし、画像情報50dは、属性情報が変化しており、AI等で分析する場合に、オリジナルのフレーム50の分析結果と、画像情報50dとの分析結果が異なるものとなる。一方、情報処理装置100は、フレーム50から、画像情報50cを生成する。画像情報50cの属性情報は、フレーム50の属性情報と同一であるため、フレーム50の代わりに、画像情報50cを保存し、画像情報50cに対して、後にAIで分析をおこなってもフレーム50と同じ分析結果を得られる。
 情報処理装置100は、3Dアバターが有する複数の部位のうち、顔、耳介、手のひらの部位の特徴量を変換する。これによって、3Dアバターから、適切に個人情報を削除することができる。
 情報処理装置100は、3Dアバターが有する複数の部位のうち、頭部(顔)の部位の特徴量を繰り返し変換し、頭部の部位の特徴量が変換される度に、3Dアバターの属性情報が、元の属性情報に対応するか否かを判定する。これによって、属性情報が条件を満たす、3Dアバターを生成することができる。たとえば、情報処理装置100は、元の属性情報に含まれる複数の属性のうち、事前に指定される一部の特徴と、特徴量を変換した後の3Dアバターの属性情報の特徴が一致する場合、条件を満たすと判定する。
 情報処理装置100は、生成モデルM3に映像データのフレームを入力することで、3Dアバターを生成する。これによって、効率的に、3Dアバターを生成することができる。
 次に、上記実施例に示した情報処理装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図12は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
 図12に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203とを有する。また、コンピュータ200は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置204と、インタフェース装置205とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM206と、ハードディスク装置207とを有する。そして、各装置201~207は、バス208に接続される。
 ハードディスク装置207は、取得プログラム207a、骨格推定プログラム207b、属性推定プログラム207c、検出プログラム207d、生成プログラム207e、表示制御プログラム207fを有する。また、CPU201は、各プログラム207a~207fを読み出してRAM206に展開する。
 取得プログラム207aは、取得プロセス206aとして機能する。骨格推定プログラム207bは、骨格推定プロセス206bとして機能する。属性推定プログラム207cは、属性推定プロセス206cとして機能する。検出プログラム207dは、検出プロセス206dとして機能する。生成プログラム207eは、生成プロセス206eとして機能する。表示制御プログラム207fは、表示制御プロセス206fとして機能する。
 取得プロセス206aの処理は、取得部151の処理に対応する。骨格推定プロセス206bの処理は、骨格推定部152の処理に対応する。属性推定プロセス206cの処理は、属性推定部153の処理に対応する。検出プロセス206dの処理は、検出部154の処理に対応する。生成プロセス206eの処理は、生成部155の処理に対応する。表示制御プロセス206fの処理は、表示制御部156の処理に対応する。
 なお、各プログラム207a~207fについては、必ずしも最初からハードディスク装置207に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が各プログラム207a~207fを読み出して実行するようにしてもよい。
 100  情報処理装置
 110  通信部
 120  入力部
 130  表示部
 140  記憶部
 141  変換パーツテーブル
 142  映像DB
 150  制御部
 151  取得部
 152  骨格推定部
 153  属性推定部
 154  検出部
 155  生成部
 156  表示制御部

Claims (15)

  1.  人物を含む映像情報を取得し、
     取得した前記映像情報を分析することで、前記人物の属性を含む属性情報および前記人物の関節の位置を含む骨格情報を生成し、
     取得した前記映像情報に含まれる前記人物の表面を構成する複数の部位を有し、前記部位毎に前記人物に関連する特徴量を有する3次元のアバターを取得し、
     生成された前記属性情報および前記骨格情報に基づいて、取得した前記3次元のアバターが有する複数の部位の中から、前記特徴量を変換する部位を特定し、
     前記映像情報に含まれる人物のアバターとして、特定された部位の特徴量が変換された3次元のアバターを生成する
     処理をコンピュータに実行させることを特徴とする生成プログラム。
  2.  前記骨格情報と、予め設定された設定情報とを基にして、取得した前記3次元のアバターが有する複数の部位のうち、特定の部位が有する特徴量を変換し、
     前記特徴量が変換された前記3次元のアバターの属性が、前記属性情報に含まれる属性を満たすか否かを判定し、
     前記3次元のアバターの属性が、前記属性情報に含まれる属性を満たす場合に、前記映像情報に含まれる人物に含まれる人物を示すアバターとして、前記特徴量が変換された前記3次元のアバターを出力する処理を更にコンピュータに実行させることを特徴とする請求項1に記載の生成プログラム。
  3.  前記特徴量を変換する処理は、前記3次元のアバターが有する複数の部位のうち、顔、耳介、手のひらの部位の特徴量を変換することを特徴とする請求項1に記載の生成プログラム。
  4.  前記変換する処理は、前記3次元のアバターが有する複数の部位のうち、顔の部位の特徴量を繰り返し変換し、前記判定する処理は、前記顔の部位の特徴量が変換される度に、前記3次元のアバターの属性が、前記属性情報に含まれる属性を満たすか否かを判定することを特徴とする請求項3に記載の生成プログラム。
  5.  映像情報のフレームを入力とし、3次元のアバターを出力とする訓練済みの機械学習モデルに、前記映像情報のフレームを入力することで、前記3次元のアバターを生成する処理を更にコンピュータに実行させることを特徴とする請求項1に記載の生成プログラム。
  6.  人物を含む映像情報を取得し、
     取得した前記映像情報を分析することで、前記人物の属性を含む属性情報および前記人物の関節の位置を含む骨格情報を生成し、
     取得した前記映像情報に含まれる前記人物の表面を構成する複数の部位を有し、前記部位毎に前記人物に関連する特徴量を有する3次元のアバターを取得し、
     生成された前記属性情報および前記骨格情報に基づいて、取得した前記3次元のアバターが有する複数の部位の中から、前記特徴量を変換する部位を特定し、
     前記映像情報に含まれる人物のアバターとして、特定された部位の特徴量が変換された3次元のアバターを生成する
     処理をコンピュータが実行することを特徴とする生成方法。
  7.  前記骨格情報と、予め設定された設定情報とを基にして、取得した前記3次元のアバターが有する複数の部位のうち、特定の部位が有する特徴量を変換し、
     前記特徴量が変換された前記3次元のアバターの属性が、前記属性情報に含まれる属性を満たすか否かを判定し、
     前記3次元のアバターの属性が、前記属性情報に含まれる属性を満たす場合に、前記映像情報に含まれる人物に含まれる人物を示すアバターとして、前記特徴量が変換された前記3次元のアバターを出力する処理を更に実行することを特徴とする請求項6に記載の生成方法。
  8.  前記特徴量を変換する処理は、前記3次元のアバターが有する複数の部位のうち、顔、耳介、手のひらの部位の特徴量を変換することを特徴とする請求項6に記載の生成方法。
  9.  前記変換する処理は、前記3次元のアバターが有する複数の部位のうち、顔の部位の特徴量を繰り返し変換し、前記判定する処理は、前記顔の部位の特徴量が変換される度に、前記3次元のアバターの属性が、前記属性情報に含まれる属性を満たすか否かを判定することを特徴とする請求項8に記載の生成方法。
  10.  映像情報のフレームを入力とし、3次元のアバターを出力とする訓練済みの機械学習モデルに、前記映像情報のフレームを入力することで、前記3次元のアバターを生成する処理を更にコンピュータに実行させることを特徴とする請求項6に記載の生成方法。
  11.  人物を含む映像情報を取得し、
     取得した前記映像情報を分析することで、前記人物の属性を含む属性情報および前記人物の関節の位置を含む骨格情報を生成し、
     取得した前記映像情報に含まれる前記人物の表面を構成する複数の部位を有し、前記部位毎に前記人物に関連する特徴量を有する3次元のアバターを取得し、
     生成された前記属性情報および前記骨格情報に基づいて、取得した前記3次元のアバターが有する複数の部位の中から、前記特徴量を変換する部位を特定し、
     前記映像情報に含まれる人物のアバターとして、特定された部位の特徴量が変換された3次元のアバターを生成する
     処理を実行する制御部を有する情報処理装置。
  12.  前記骨格情報と、予め設定された設定情報とを基にして、取得した前記3次元のアバターが有する複数の部位のうち、特定の部位が有する特徴量を変換し、
     前記特徴量が変換された前記3次元のアバターの属性が、前記属性情報に含まれる属性を満たすか否かを判定し、
     前記3次元のアバターの属性が、前記属性情報に含まれる属性を満たす場合に、前記映像情報に含まれる人物に含まれる人物を示すアバターとして、前記特徴量が変換された前記3次元のアバターを出力する処理を更に実行することを特徴とする請求項11に記載の情報処理装置。
  13.  前記特徴量を変換する処理は、前記3次元のアバターが有する複数の部位のうち、顔、耳介、手のひらの部位の特徴量を変換することを特徴とする請求項11に記載の情報処理装置。
  14.  前記変換する処理は、前記3次元のアバターが有する複数の部位のうち、顔の部位の特徴量を繰り返し変換し、前記判定する処理は、前記顔の部位の特徴量が変換される度に、前記3次元のアバターの属性が、前記属性情報に含まれる属性を満たすか否かを判定することを特徴とする請求項13に記載の情報処理装置。
  15.  映像情報のフレームを入力とし、3次元のアバターを出力とする訓練済みの機械学習モデルに、前記映像情報のフレームを入力することで、前記3次元のアバターを生成する処理を更に実行することを特徴とする請求項11に記載の情報処理装置。
PCT/JP2022/027756 2022-07-14 2022-07-14 生成プログラム、生成方法および情報処理装置 WO2024013951A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/027756 WO2024013951A1 (ja) 2022-07-14 2022-07-14 生成プログラム、生成方法および情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/027756 WO2024013951A1 (ja) 2022-07-14 2022-07-14 生成プログラム、生成方法および情報処理装置

Publications (1)

Publication Number Publication Date
WO2024013951A1 true WO2024013951A1 (ja) 2024-01-18

Family

ID=89536274

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/027756 WO2024013951A1 (ja) 2022-07-14 2022-07-14 生成プログラム、生成方法および情報処理装置

Country Status (1)

Country Link
WO (1) WO2024013951A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021051618A (ja) * 2019-09-26 2021-04-01 株式会社Jvcケンウッド アバター生成装置、移動体端末、服飾マッチングシステム、アバター生成方法およびプログラム
JP2022020054A (ja) * 2020-11-09 2022-01-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 3次元アバタ生成方法、装置、電子機器及び記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021051618A (ja) * 2019-09-26 2021-04-01 株式会社Jvcケンウッド アバター生成装置、移動体端末、服飾マッチングシステム、アバター生成方法およびプログラム
JP2022020054A (ja) * 2020-11-09 2022-01-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 3次元アバタ生成方法、装置、電子機器及び記憶媒体

Similar Documents

Publication Publication Date Title
JP6132232B2 (ja) メイクアップ支援装置、メイクアップ支援システム、およびメイクアップ支援方法
US10503964B1 (en) Method and system for measuring and visualizing user behavior in virtual reality and augmented reality
JP6748981B2 (ja) メイクアップシミュレーション支援装置、メイクアップシミュレーション支援方法、メイクアップシミュレーション支援プログラム、メイクアップシミュレーション支援システムおよびメイクアップシミュレーション方法
WO2018168095A1 (ja) 人物動向記録装置、人物動向記録方法、及びプログラム
JP5439787B2 (ja) カメラ装置
CN102201099A (zh) 基于运动的交互式购物环境
JP5780348B1 (ja) 情報提示プログラム及び情報処理装置
JPWO2017125975A1 (ja) メイクトレンド分析装置、メイクトレンド分析方法、およびメイクトレンド分析プログラム
JP6593949B1 (ja) 情報処理装置、及び、マーケティング活動支援装置
CN112190921A (zh) 一种游戏交互方法及装置
JP2020091770A (ja) 情報処理装置、情報処理システム、情報処理方法、プログラムおよび記録媒体
WO2024013951A1 (ja) 生成プログラム、生成方法および情報処理装置
JP2020067720A (ja) 人属性推定システム、それを利用する情報処理装置及び情報処理方法
JPWO2019146405A1 (ja) 表情解析技術を用いた商品に対するモニタの反応を評価するための情報処理装置、情報処理システム、プログラム
WO2024013949A1 (ja) 生成プログラム、生成方法および情報処理装置
JP2012203592A (ja) 画像処理システム、顔情報蓄積方法、画像処理装置及びその制御方法と制御プログラム
JP2020071852A5 (ja) 情報処理装置、情報処理システム、および学習装置
Beacco et al. Automatic 3D avatar generation from a single RBG frontal image
WO2020261531A1 (ja) 情報処理装置、メーキャップシミュレーションの学習済モデルの生成方法、メーキャップシミュレーションの実行方法、及び、プログラム
JP5650012B2 (ja) 顔画像処理方法、美容カウンセリング方法および顔画像処理装置
JP6209298B1 (ja) 情報提供装置及び情報提供方法
JP6296305B2 (ja) メイクアップ支援装置、メイクアップ支援方法およびメイクアップ支援プログラム
CN110838042B (zh) 一种商品展示方法及系统
CN115999156B (zh) 角色控制方法、装置、设备及存储介质
JP6928984B1 (ja) 商品提案システム、商品提案方法及び商品提案プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22951164

Country of ref document: EP

Kind code of ref document: A1