WO2024018548A1 - 生成プログラム、生成方法および情報処理装置 - Google Patents
生成プログラム、生成方法および情報処理装置 Download PDFInfo
- Publication number
- WO2024018548A1 WO2024018548A1 PCT/JP2022/028130 JP2022028130W WO2024018548A1 WO 2024018548 A1 WO2024018548 A1 WO 2024018548A1 JP 2022028130 W JP2022028130 W JP 2022028130W WO 2024018548 A1 WO2024018548 A1 WO 2024018548A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- relationship
- person
- questionnaire
- video data
- class
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims description 34
- 230000006399 behavior Effects 0.000 claims abstract description 104
- 238000011156 evaluation Methods 0.000 claims abstract description 45
- 238000004458 analytical method Methods 0.000 claims abstract description 36
- 238000010801 machine learning Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 89
- 230000004044 response Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 21
- 230000009471 action Effects 0.000 claims description 20
- 230000003993 interaction Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 52
- 238000012549 training Methods 0.000 description 25
- 238000007781 pre-processing Methods 0.000 description 22
- 238000004891 communication Methods 0.000 description 11
- 230000033001 locomotion Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 210000003423 ankle Anatomy 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 210000004247 hand Anatomy 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 210000001624 hip Anatomy 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
Definitions
- the present invention relates to a generation program, a generation method, and an information processing device.
- questionnaire responses are compiled into a database by preparing a questionnaire on a table or the like, or by sending the questionnaire to users at a later date.
- One aspect of the present invention is to provide a generation program, a generation method, and an information processing device that can reduce the amount of processing required to construct a database.
- the generation program inputs into a machine learning model video data captured by a computer of an area where an object is placed, and the generation program generates information about a person in a specific user's action toward an object included in the video data. and an object, obtain the psychological evaluation of the person with respect to the object for which the relationship has been identified, and store the identified relationship in a database showing the analysis results of the object stored in the storage unit.
- the present invention is characterized by executing a process of registering results related to sex and psychological evaluation of the person in association with each other.
- the amount of processing required for database construction can be reduced.
- FIG. 1 is a diagram showing an example of the overall configuration of an information processing system according to a first embodiment.
- FIG. 2 is a diagram illustrating the reference technology.
- FIG. 3 is a diagram illustrating the information processing apparatus according to the first embodiment.
- FIG. 4 is a functional block diagram showing the functional configuration of the information processing apparatus according to the first embodiment.
- FIG. 5 is a diagram illustrating the customer DB.
- FIG. 6 is a diagram illustrating the questionnaire DB.
- FIG. 7 is a diagram illustrating the analysis result DB.
- FIG. 8 is a diagram illustrating training data.
- FIG. 9 is a diagram illustrating machine learning of a relationship model.
- FIG. 10 is a diagram illustrating generation of an action recognition model.
- FIG. 11 is a diagram illustrating the identification of relationships.
- FIG. 1 is a diagram showing an example of the overall configuration of an information processing system according to a first embodiment.
- FIG. 2 is a diagram illustrating the reference technology.
- FIG. 3 is
- FIG. 12 is a diagram illustrating the identification of relationships using HOID.
- FIG. 13 is a diagram illustrating behavior recognition.
- FIG. 14 is a diagram illustrating generation and transmission of a questionnaire.
- FIG. 15 is a diagram illustrating registration of analysis results.
- FIG. 16 is a flowchart showing the flow of processing according to the first embodiment.
- FIG. 17 is a diagram showing an example of a scene graph.
- FIG. 18 is a diagram illustrating an example of generating a scene graph showing relationships between people and things.
- FIG. 19 is a diagram illustrating specifying relationships using a scene graph.
- FIG. 20 is a diagram illustrating the behavior recognition model according to the third embodiment.
- FIG. 21 is a diagram illustrating machine learning of the behavior recognition model according to the third embodiment.
- FIG. 22 is a diagram illustrating sending a questionnaire using the behavior recognition model according to the third embodiment.
- FIG. 23 is a diagram illustrating questionnaire transmission according to the fourth embodiment.
- FIG. 24 is a diagram illustrating a specific example of sending a questionnaire according to the fourth embodiment.
- FIG. 25 is a flowchart showing the flow of processing according to the fourth embodiment.
- FIG. 26 is a diagram illustrating a signage questionnaire display example according to the fourth embodiment.
- FIG. 27 is a diagram illustrating an example of the hardware configuration of the information processing device.
- FIG. 28 is a diagram illustrating an example of the hardware configuration of signage.
- FIG. 1 is a diagram showing an example of the overall configuration of an information processing system according to a first embodiment.
- this information processing system includes a store 1, which is an example of a space having an area where products, which are examples of objects, are arranged, and a plurality of cameras, each of which is installed at a different location within the store 1. 2 and an information processing device 10 that executes analysis of video data are connected via a network N.
- the network N can be any of various communication networks, such as the Internet or a dedicated line, regardless of whether it is wired or wireless.
- the store 1 is, for example, a supermarket or a convenience store, where products purchased by customers 5 are displayed, and a self-checkout system using electronic payment is used, for example.
- An example of the store 1 is assumed to be an unmanned store where customers 5 are registered in advance and only registered customers 5 can use the store.
- the customer 5 accesses the home page of the operator of the store 1 and registers his/her name, age, contact information (eg, e-mail address, etc.), and payment method (eg, credit card number, etc.).
- the customer 5 can enter the store 1 using the user ID and password issued after registration and the store entry card, and make a purchase by paying using the registered payment method.
- Each of the plurality of cameras 2 is an example of a surveillance camera that images a predetermined area within the store 1, and transmits data of the captured video to the information processing device 10.
- video data may be referred to as "video data.”
- the video data includes a plurality of time-series frames. A frame number is assigned to each frame in ascending chronological order.
- One frame is image data of a still image captured by the camera 2 at a certain timing.
- the information processing device 10 has a customer DB that stores information regarding customers 5 who are permitted to enter the store 1, receives video data from a plurality of cameras 2, and provides various information for improving services for the customers 5.
- This is an example of a computer device that collects data and the like. Name, age, contact information (for example, e-mail address, etc.), payment method (for example, credit card number, etc.), etc. are registered in the customer DB.
- FIG. 2 is a diagram illustrating the reference technology.
- a store clerk 6 hands a customer 5 a questionnaire form to a customer 5 who purchased a product at the store 1 or who entered the store 1 but wanted to purchase the product when leaving the store.
- the customer 5 fills out the questionnaire sheet handed to him and sends it by mail or the like.
- the clerk 7 tallies the questionnaire forms sent from each customer 5 and compiles them into a database. Based on the information compiled in the database in this way, consideration is given to the timing of the sales staff's greetings, the arrangement of products, the expansion of products, etc.
- the reference technology requires a lot of processing such as collecting, examining, and inputting the results of questionnaires, and a large amount of processing is required to construct the database. Additionally, as users want to compile more useful information into a database, there is a tendency for the number of items in questionnaires to increase, which increases the burden on users, and many users do not respond to questionnaires.
- the information processing device 10 can recognize relationships among people, objects, environments, and behaviors and attributes of people from images inside the store 1, and can digitize and analyze the situation (context) of the sales floor. Reduces the process of creating a database of information. Specifically, the information processing device 10 inputs video data of an area in the store 1 where products are placed into a machine learning model, thereby identifying products of a specific user (customer 5) included in the video data. Identify the relationship between the customer 5 and the product in the behavior of the customer. Subsequently, the information processing device 10 acquires the psychological evaluation of the customer 5 regarding the product for which the relationship has been identified. Thereafter, the information processing device 10 registers the results related to the specified relationship and the psychological evaluation of the customer 5 in association with each other in the database showing the analysis results of the products stored in the storage unit.
- FIG. 3 is a diagram illustrating the information processing device 10 according to the first embodiment.
- the information processing device 10 acquires video data captured inside the store 1, inputs each frame in the video data to a trained machine learning model, and uses Identify relationships.
- the information processing device 10 specifies whether or not a product is purchased, time, location, behavior toward the product (for example, grasping), and the like.
- the information processing device 10 identifies items that could not be identified from the video based on the relationship between the customer 5 and the product as psychological evaluations, generates a questionnaire regarding the psychological evaluation, and Send to the terminal, etc. For example, the information processing device 10 sends a questionnaire to the customer 5 who did not purchase the product, asking the customer 5 why they did not purchase the product.
- the information processing device 10 associates the specific results identified from the video with the questionnaire results and creates a database. For example, the information processing device 10 associates and stores "age, gender, and whether or not the product has been purchased” identified from the video and the questionnaire result "reason for not purchasing the product.”
- the information processing device 10 can recognize the behavior of customers in real time from in-store videos and the like, narrow down the target customers and transmission timing, and automatically send the questionnaire. Therefore, the information processing device 10 can acquire only effective questionnaire results, and therefore can reduce the amount of processing required for database construction.
- FIG. 4 is a functional block diagram showing the functional configuration of the information processing device 10 according to the first embodiment.
- the information processing device 10 includes a communication section 11, a storage section 12, and a control section 20.
- the communication unit 11 is a processing unit that controls communication between other devices, and is, for example, a communication interface.
- the communication unit 11 receives video data and the like from each camera 2, and outputs the processing results of the information processing device 10 to a pre-designated device or the like.
- the storage unit 12 is a processing unit that stores various data and programs executed by the control unit 20, and is realized by, for example, a memory or a hard disk.
- This storage unit 12 stores a customer DB 13, a questionnaire DB 14, a video data DB 15, a training data DB 16, a relationship model 17, a behavior recognition model 18, and an analysis result DB 19.
- the customer DB 13 is a database that stores information regarding the customer 5.
- the information stored here is information on the customer (user) 5 who visits the store 1 and wishes to purchase products, and is collected and registered by performing user registration before visiting the store.
- FIG. 5 is a diagram explaining the customer DB 13.
- the customer DB 13 stores "customer ID, name, age, gender, family structure, notification destination, number of visits to the store, card information" and the like.
- Customer ID is an identifier that identifies customer 5.
- Name, age, gender, family composition, card information is information input by the customer 5 at the time of user registration, and "number of visits” is the number of visits counted at the time of entering the store.
- the questionnaire DB 14 is a database that stores questionnaires to be sent to the customers 5.
- FIG. 6 is a diagram illustrating the questionnaire DB 14. As shown in FIG. 6, the questionnaire to be sent can include a plurality of question items in which questions (Q) are associated with selection items.
- question 1 is a question item that inquires about the customer's age and gender, and the response options are "Female/Male, 20s/30s/40s/50s/60s/ Available for people over 70.
- question 3 is a question item that inquires about the type of purchased product, and "food/daily necessities/other" is prepared as an answer option.
- Each question should be associated with the 5W1H (When, Where, Who, What, Why, How) that indicates the intent of the question. You can also do it. For example, Q1 "Please tell us your age and gender” can be associated with "Who”, and Q6 "Please tell us why you are dissatisfied with the service” can be associated with "Why”. .
- the video data DB 15 is a database that stores video data captured by each of the plurality of cameras 2 installed in the store 1. For example, the video data DB 15 stores video data for each camera 2 or for each captured time period.
- the training data DB 16 is a database that stores various training data used to generate various machine learning models described in the embodiments, including the relationship model 17, the behavior recognition model 18, and the like.
- the training data stored here can include supervised training data to which correct answer information is added and unsupervised training data to which correct answer information is not added.
- the relationship model 17 is an example of a machine learning model that identifies the relationship between a person and an object in the behavior of a specific user toward an object included in the video data.
- the relationship model 17 is a HOID (Human Object Interaction Detection) model generated by machine learning that identifies relationships between people or between people and objects. be.
- HOID Human Object Interaction Detection
- the relationship model 17 is created using a first class representing a first person and a first class representing an area where the first person appears, in accordance with the input of frames in video data. Specify and output the first area information, the second class indicating the second person, the second area information indicating the area where the second person appears, and the relationship between the first class and the second class.
- a model for HOID is used.
- the relationship model 17 When identifying the relationship between a person and an object, the relationship model 17 includes a first class indicating a person and first area information indicating an area where the person appears, and a second class indicating an object and an area where the object appears.
- a model for HOID is used that specifies and outputs second region information indicating the relationship between the first class and the second class.
- the relationships shown here are just examples, and are not limited to simple relationships such as “holding”, but also "holding product A in the right hand”, “putting product B back on the shelf”, and “shopping the product”. This includes complex relationships such as "Add to Cart”.
- the two HOID models described above may be used separately as the relationship model 17, and one HOID model that is generated to identify both person-to-person relationships and person-to-object relationships may be used as the relationship model 17.
- the model may be used.
- the relationship model 17 is generated by the control unit 20, which will be described later, a model generated in advance may be used.
- the behavior recognition model 18 is an example of a machine learning model that performs human skeletal information and behavior recognition from video data. Specifically, the behavior recognition model 18 outputs two-dimensional skeletal information and behavior recognition results in response to input of image data. For example, the behavior recognition model 18 estimates the two-dimensional joint positions (skeletal coordinates) of the head, wrists, hips, ankles, etc. from two-dimensional image data of a person, and recognizes the basic movements and the user-defined This is an example of a deep learning device that recognizes rules that
- the basic movements of a person can be recognized, and the position of the ankle, the direction of the face, and the direction of the body can be acquired.
- Basic movements include, for example, walking, running, and stopping.
- the rules defined by the user include the transition of skeletal information corresponding to each action up to picking up the product. Note that although the behavior recognition model 18 is generated by the control unit 20, which will be described later, data generated in advance may be used.
- the analysis result DB 19 is a database that stores information regarding analysis results collected by the information processing device 10.
- FIG. 7 is a diagram illustrating the analysis result DB 19. As shown in FIG. 7, the analysis result DB 19 stores "ID, name, user information, product, purchase or not, questionnaire results", and the like.
- ID is an identifier that identifies the analysis result.
- Name is the name of the customer 5, and is specified using the customer DB 13 when entering the store or purchasing a product.
- the "user information” includes the age, gender, family structure, etc. of the customer 5, and is specified using the customer DB 13.
- Product is information on a product purchased by the customer 5, and is specified using the customer DB 13 at the time of product purchase.
- Purchase presence/absence is information indicating whether or not a product was purchased when visiting the store, and is specified using the customer DB 13 at the time of product purchase.
- Qualitynaire results are answers to the questionnaire sent by the control unit 20, which will be described later.
- control unit 20 is a processing unit that controls the entire information processing device 10, and is realized by, for example, a processor.
- This control section 20 has a preprocessing section 30 and an operation processing section 40.
- the preprocessing unit 30 and the operation processing unit 40 are realized by an electronic circuit included in a processor, a process executed by the processor, or the like.
- the pre-processing unit 30 is a processing unit that generates each model, rule, etc. using the training data stored in the storage unit 12 before the operation processing unit 40 operates the behavior prediction and questionnaire collection.
- the pre-processing unit 30 is a processing unit that generates the relationship model 17 using training data stored in the training data DB 16.
- a model for HOID using a neural network or the like is generated as the relationship model 17.
- generation of a HOID model that specifies the relationship between a person and an object will be described, but a HOID model that specifies the relationship between people can be generated in the same way.
- FIG. 8 is a diagram illustrating training data. As shown in FIG. 8, each training data includes image data (explanatory variables) serving as input data and correct answer information (objective variables) set for the image data.
- image data explanatory variables
- object variables object variables
- the correct answer information includes the class of the person to be detected (first class), the class of the object to be purchased or operated by the person (second class), and the relationship class indicating the interaction between the person and the object.
- a Bbox Bounding Box: object area information
- the interaction between a person and an object is an example of a relationship between a person and an object.
- a class indicating the other person as the second class area information of the other person as area information of the second class, and area information of the other person as the relationship class. Use relationships.
- FIG. 9 is a diagram illustrating machine learning of the relationship model 17.
- the pre-processing unit 30 inputs the training data to the HOID model and obtains the output result of the HOID model.
- This output result includes the class of the person detected by the HOID model, the class of the object, the relationship (interaction) between the person and the object, and the like.
- the preprocessing unit 30 calculates error information between the correct information of the training data and the output result of the HOID model, and updates the parameters of the HOID model by error backpropagation so that the error becomes smaller. Perform machine learning to perform.
- the pre-processing unit 30 is a processing unit that generates the behavior recognition model 18 using training data. Specifically, the pre-processing unit 30 generates the behavior recognition model 18 through supervised learning using training data with correct answer information (labels).
- FIG. 10 is a diagram illustrating generation of the behavior recognition model 18.
- the pre-processing unit 30 inputs the image data of the basic motion to which the label of the basic motion is attached to the behavior recognition model 18, and the error between the output result of the behavior recognition model 18 and the label is reduced.
- Machine learning of the behavior recognition model 18 is executed as follows.
- the behavior recognition model 18 is a neural network.
- the preprocessing unit 30 changes the parameters of the neural network by executing machine learning of the behavior recognition model 18.
- the action recognition model 18 inputs explanatory variables, which are image data (for example, image data of a person performing a basic action), into the neural network. Then, the action recognition model 18 generates a machine learning model in which the parameters of the neural network are changed so that the error between the output result output by the neural network and the correct data (target variable) that is the label of the basic action is reduced. do.
- the training data includes the following labels: ⁇ Walk'', ⁇ Run'', ⁇ Stop'', ⁇ Stand'', ⁇ Stand in front of the shelf'', ⁇ Pick up an item'', ⁇ Turn your head to the right'', ⁇ It is possible to use image data to which "turn your head to the left", “look up”, “tilt your head downward", etc.
- the generation of the behavior recognition model 18 is just an example, and other methods can be used.
- behavior recognition model 18 behavior recognition disclosed in Japanese Patent Application Publication No. 2020-71665 and Japanese Patent Application Publication No. 2020-77343 can also be used.
- the operation processing unit 40 includes an acquisition unit 41, a relationship identification unit 42, a behavior recognition unit 43, an evaluation acquisition unit 44, and a registration unit 45, and each model prepared in advance by the preprocessing unit 30 This is a processing unit that uses this to send a questionnaire to people appearing in video data.
- the acquisition unit 41 is a processing unit that acquires video data from each camera 2 and stores it in the video data DB 21.
- the acquisition unit 41 may acquire information from each camera 2 at any time or periodically.
- the acquisition unit 41 acquires customer information when the customer 5 enters the store, and outputs it to each processing unit of the operation processing unit 40.
- the acquisition unit 41 acquires a "customer ID" by having the user perform a user card, fingerprint authentication, ID and password, etc. upon entering the store.
- the acquisition unit 41 then refers to the customer DB 13 and acquires the name, age, etc. associated with the "customer ID.”
- the relationship specifying unit 42 is a processing unit that uses the relationship model 17 to execute a relationship specifying process that specifies the relationship between people appearing in video data or the relationship between a person and an object. . Specifically, the relationship specifying unit 42 inputs each frame included in the video data into the relationship model 17, and specifies the relationship according to the output result of the relationship model 17. The relationship specifying unit 42 then outputs the specified relationship to the evaluation acquisition unit 44, the registration unit 45, and the like.
- FIG. 11 is a diagram illustrating the identification of relationships.
- the relationship specifying unit 42 inputs frame 1 into the machine-learned relationship model 17 to determine the first person's class, the second person's class, and the relationship between the people. Identify.
- the relationship identifying unit 42 inputs the frame to the machine-learned relationship model 17 to identify the person class, the object class, and the relationship between the person and the object. In this way, the relationship identifying unit 42 uses the relationship model 17 to identify relationships between people or relationships between people and objects for each frame.
- FIG. 12 is a diagram illustrating the identification of relationships using HOID.
- the relationship specifying unit 42 inputs each frame (image data) included in the video data to the HOID (relationship model 17) and obtains the output result of the HOID.
- the relationship identification unit 42 determines the person's Bbox, the person's class name, the object's Bbox, the object's class name, the probability value of the interaction between the person and the object, and the class name of the interaction between the person and the object. get.
- the relationship identifying unit 42 identifies "person (customer)” and "product (object)” as classes of persons, and establishes a relationship between "person (customer)” and “product (object)”. Identify the gender "customer owns the product”.
- the relationship specifying unit 42 executes the relationship specifying process described above for each subsequent frame such as frame 2 and frame 3, so that the relationship “has product A” and the relationship “pass product A” are determined for each frame. ”, etc.
- the relationship specifying unit 42 can also obtain information about whether or not a product has been purchased from a self-checkout register or from information at the time of leaving the store.
- the relationship identifying unit 42 can also identify information related to the time, place, and relationship of the behavior from the customer's behavior toward the object included in the video data. For example, the relationship identifying unit 42 identifies the time of the frame in the video data for which the relationship has been identified, the location of the camera 2 that captured the video data, and the like.
- the behavior recognition unit 43 is a processing unit that uses the behavior recognition model 18 to recognize the behavior and gestures of a person from video data. Specifically, the behavior recognition unit 43 inputs each frame in the video data to the behavior recognition model 18, and uses the skeletal information and basic movements of each part of the person obtained from the behavior recognition model 18 to determine the behavior of the person. The palm gesture is specified and output to the evaluation acquisition section 44, registration section 45, etc.
- FIG. 13 is a diagram explaining behavior recognition.
- the behavior recognition unit 43 inputs frame 1, which is image data, to the behavior recognition model 18.
- the action recognition model 18 generates skeletal information of each part in response to the input of frame 1, and outputs the motion of each part according to the skeletal information of each part.
- the behavior recognition unit 43 can acquire motion information of each body part, such as "face: facing forward, arms: raised, legs: walking, . . .”.
- the behavior recognition unit 43 also executes recognition processing using the behavior recognition model 18 for each subsequent frame of frame 2 and frame 3, and identifies motion information of each part of the person in the frame for each frame. do. Then, the behavior recognition unit 43 refers to the correspondence between representative gestures and changes in behavior that are stored in association with each other in advance, and uses changes in the behavior recognition results (i.e., motion information of each body part) to make the behavior more specific. It is also possible to identify specific actions and gestures.
- the behavior recognition unit 43 detects a pre-specified "dissatisfied behavior" when the direction of the face moves left or right within 5 frames, or when the product is returned to its original position after 15 frames or more have elapsed since the product was picked up. If a gesture is detected, it can be recognized as a gesture of dissatisfaction. In addition, if the behavior recognition unit 43 detects a pre-specified "satisfied action" such as when the product is put in the cart less than three frames after the product is picked up, the behavior recognition unit 43 may recognize the gesture as "satisfied". can.
- the evaluation acquisition unit 44 is a processing unit that acquires the psychological evaluation of the customer 5 regarding the product whose relationship has been identified by the relationship identification unit 42. Specifically, the evaluation acquisition unit 44 can also employ the “gesture” recognized by the behavior recognition unit 43 as a psychological evaluation.
- the evaluation acquisition unit 44 transmits a questionnaire regarding the psychological index regarding the customer 2's product to the terminal associated with the customer 5, and acquires the response results of the questionnaire received from the terminal as the psychological evaluation of the customer. You can also.
- the evaluation acquisition unit 44 generates a partial questionnaire that inquires about items that are not specified from the behavior of the customer 2 toward the product, among a plurality of items included in the questionnaire stored in the questionnaire DB 14.
- the evaluation acquisition unit 44 can also transmit the partial questionnaire to the customer's terminal and acquire the response results of the questionnaire received from the terminal as the customer's psychological evaluation.
- FIG. 14 is a diagram illustrating generation and transmission of a questionnaire.
- the evaluation acquisition unit 44 uses the customer information (30s, female, number of store visits (10th)) acquired by the acquisition unit 22 to enter “30s” in “age, gender” of questionnaire Q1. , Female” is automatically entered, and "Second time or more” is automatically entered in Questionnaire Q2 "Is this your first visit?".
- the evaluation acquisition unit 44 uses the relationship “Product A, not purchased” between the customer and the product specified by the relationship identification unit 42 to send out a questionnaire Q3 that inquires whether the product has been purchased or not, and a questionnaire Q3 that inquires about the satisfaction level of the purchased product. Questionnaire Q4 is excluded from the questionnaire.
- the evaluation acquisition unit 44 uses the behavior and gesture “dissatisfied” identified by the behavior recognition unit 43 to automatically input “dissatisfied” in the question “Are you satisfied with the service?” of the questionnaire Q5.
- the evaluation acquisition unit 44 uses the relationship between the customer and the product specified by the relationship identification unit 42 “Product A, not purchased” and the behavior and gesture “dissatisfied” specified by the behavior recognition unit 43. to identify why they did not purchase the product and why they were dissatisfied with it. In other words, the evaluation acquisition unit 44 determines that "Why?" corresponds to the customer's psychological evaluation. As a result, the evaluation acquisition unit 44 selects Q6 "Please tell us the reason why you are dissatisfied with the service" which corresponds to "Why?” from among the items included in the questionnaire as the partial questionnaire 61 and stores it in the customer DB 13. Send it to the "notification destination" that will be sent.
- the evaluation acquisition unit 44 determines the psychological evaluation of the customer as "The clerk is unfriendly.” Note that the evaluation acquisition unit 44 determines which questionnaire item to select as a partial questionnaire using management data in which at least one of 5W1H is associated with each combination of relationship identification results and behavior recognition results. You can also. Furthermore, since a questionnaire asking "why" is generally the most desired information, the evaluation acquisition unit 44 can also transmit only questionnaire items corresponding to "why" as a partial questionnaire.
- the registration unit 45 matches information related to the relationship between the customer 2 and the product identified by the relationship identification unit 23 and the psychological evaluation of the customer 2 acquired by the evaluation acquisition unit 44 in the analysis result DB 19. This is a processing unit that is registered with the Specifically, the registration unit 45 associates the information related to the specified time, place, and relationship with the response results of the partial questionnaire and registers them in the analysis result DB 19.
- FIG. 15 is a diagram illustrating registration of analysis results.
- the registration unit 45 acquires “female, 30s, visited the store more than once, dissatisfied with the service” which was automatically input by the evaluation acquisition unit 44 from among the questionnaire items, and also acquired the partial questionnaire 61. The result is ⁇ The clerk is unfriendly.'' Then, the registration unit 45 registers the acquired "Female, 30s, Visited the store twice or more, Unsatisfied with service, Unfriendly store staff" in the analysis result DB 19.
- the registration unit 45 registers various information such as the time of the frame in the video data whose relationship has been identified by the relationship identification unit 42 and the location of the camera 2 that captured the video data in the analysis result DB 19. You can also do it. For example, the registration unit 45 registers in the analysis result DB 19 the time "13:00", the location "product shelf YY", and the relationship information "held product A in hand”, “stopped at product shelf YY", etc. You can also do Further, the registration unit 45 can also register only the customer information and the response results of the partial questionnaire in the analysis result DB 19. In other words, the registration unit 45 can register any analysis item desired by the user.
- FIG. 16 is a flowchart showing the flow of processing according to the first embodiment. Note that although the processing from when one customer enters the store to when the customer leaves the store will be described as an example, the operation processing unit 40 is not required to follow one customer, and each camera 2 The above processing can be executed using each video data captured in the image. In that case, the operation processing unit 40 can distinguish each customer by recognizing each person shown in the video data at the time of entering the store and assigning an identifier or the like. In addition, it is assumed that the preliminary processing has been completed.
- the operation processing unit 40 uses the video data and the relationship model 17 to identify the relationship between the customer and the product (S104), and uses the video data and behavior recognition. Using the model 18, the customer's behavior and gestures toward the product are identified (S105).
- the steps from S103 onward are repeated until leaving the store is detected (S106: No), and when leaving the store is detected (S106: Yes), the operation processing unit 40 records the identified relationships, actions, and gestures.
- the content of the questionnaire is determined using the information (S107).
- the operation processing unit 40 transmits a questionnaire (partial questionnaire 61) inquiring about the determined questionnaire contents (S108), and upon receiving the questionnaire results (S109: Yes), generates an analysis result (S110). is registered in the analysis result DB 19 (S111).
- the information processing device 10 can automatically input most of the questionnaire items from the video data and transmit only the questionnaire items that cannot be specified from the video data. Therefore, the information processing device 10 can reduce the burden on customers, increase the number of customers who respond to questionnaires, collect more useful information, and reduce the amount of processing required to construct a database. .
- the information processing device 10 can realize pinpoint questionnaire transmission, it is possible to reduce respondents' aversion to questionnaires and improve the response rate.
- Example 1 an example was explained in which a model for HOID was used as an example of specifying the relationship between a customer and a product.
- the present invention is not limited to this, and each object included in the video data It is also possible to use a scene graph, which is an example of graph data showing the relationship between the following.
- a scene graph is graph data that describes each object (person, product, etc.) included in each image data in video data and the relationship between each object.
- FIG. 17 is a diagram showing an example of a scene graph.
- a scene graph is a directed graph in which objects in image data are nodes, each node has an attribute (for example, the type of object), and relationships between nodes are directed edges. .
- the relationship from the node "person” of the attribute "clerk” to the node “person” of the attribute "customer” is "speak.” In other words, it is defined that there is a relationship such as "a store clerk talks to a customer.”
- the relationship from the node "person” with the attribute "customer” to the node "product” with the attribute "large” is “standing”. In other words, it is defined that there is a relationship such as "a customer stands in front of a shelf of large products.”
- the relationship shown here is just an example. For example, it includes not only simple relationships such as "holding” but also complex relationships such as "holding product A in the right hand.” Note that a scene graph corresponding to relationships between people and a scene graph corresponding to relationships between people and things may be stored, or one scene graph including each relationship may be stored. . Further, although the scene graph is generated by the control unit 20 described later, data generated in advance may be used.
- FIG. 18 is a diagram illustrating an example of generating a scene graph showing relationships between people and objects.
- the pre-processing unit 30 inputs the image data to a trained recognition model, and outputs the label "person (male)", the label “drink (green)", the relationship " Get "have”.
- the preprocessing unit 30 acquires that "the man has a green drink.” As a result, the preprocessing unit 30 generates a scene graph that associates the relationship "have” from the node “person” having the attribute "male” to the node “drink” having the attribute "green.” Note that the generation of the scene graph is just an example, and other methods may be used, and the scene graph may be generated manually by an administrator or the like.
- the relationship specifying unit 42 executes a relationship specifying process that specifies the relationship between people appearing in the video data or the relationship between people and objects according to the scene graph. Specifically, for each frame included in the video data, the relationship identifying unit 42 identifies the type of person or object that appears in the frame, searches the scene graph using the identified information, and determines the relationship. Identify. Then, the relationship specifying unit 42 outputs the specified relationship to each processing unit.
- FIG. 19 is a diagram illustrating the identification of relationships using a scene graph.
- the relationship specifying unit 42 determines the relationship within frame 1 by inputting frame 1 into a machine learning model that has undergone machine learning or by using known image analysis for frame 1. Identify the types of people, types of things, number of people, etc. For example, the relationship identifying unit 42 identifies "person (customer)" as the type of person and "product (product A)" as the type of object. Thereafter, the relationship specifying unit 42 determines, according to the scene graph, that the relationship between the node "person” with the attribute "customer” and the node “product A” with the attribute "food” is "Person (customer) is the product (product A)". Specify “having”. The relationship specifying unit 42 also executes the relationship specifying process for each subsequent frame such as frame 2 and frame 3, thereby specifying the relationship for each frame.
- the information processing device 10 according to the second embodiment uses a scene graph generated for each store, for example, so that it can easily be used in a store without relearning according to the store like a machine learning model. It is possible to perform a determination of a relationship suitable for the Therefore, the information processing apparatus 10 according to the second embodiment can easily implement the system installation in this embodiment.
- a machine learning model that performs binary class classification can also be used. That is, as the behavior recognition model 18, a model that detects "lost" behavior that corresponds to the behavior or gesture to which the questionnaire is sent can be used.
- FIG. 20 is a diagram illustrating the behavior recognition model 18 according to the third embodiment. As shown in FIG. 20, the behavior recognition model 18 determines a binary value of class 1 "I was confused about purchasing the product" or class 2 "I was not confused about purchasing the product” in response to the input of image data. Note that the output result of the behavior recognition model 18 includes reliability (for example, probability value) of each class.
- FIG. 21 is a diagram illustrating machine learning of the behavior recognition model 18 according to the third embodiment.
- the preprocessing unit 30 uses "image data" showing a person selecting a product as an explanatory variable, and "I got lost” or "I wasn't confused” as a correct answer label, which is a target variable.
- the training data having the above are input to the behavior recognition model 18, and the output results of the behavior recognition model 18 are obtained.
- the pre-processing unit 30 updates the parameters of the behavior recognition model 18 so that the error between the output result of the behavior recognition model 18 and the correct label becomes smaller. In this way, the pre-processing unit 30 executes training of the behavior recognition model 18 and generates the behavior recognition model 18.
- FIG. 22 is a diagram illustrating sending a questionnaire using the behavior recognition model 18 according to the third embodiment.
- the operation processing unit 40 inputs each frame in the video data captured by the camera 2 to the behavior recognition model 18, and obtains the output result of the behavior recognition model 18.
- the operation processing unit 40 obtains class 1 "I got lost” as the output result of the behavior recognition model 18, and also sets the reliability of class 1 "lost” and the reliability of class 2 "not lost”. If the difference is greater than or equal to the threshold and the output result is highly reliable, sending the questionnaire is suppressed.
- the operation processing unit 40 obtains class 1 "I got lost” as the output result of the behavior recognition model 18, and also sets the reliability of class 1 "lost” and the reliability of class 2 "not lost”. If the difference is less than the threshold and the output result has low reliability, send the questionnaire. Note that, if class 2 "not confused” is acquired as the output result of the behavior recognition model 18, the operation processing unit 40 executes the questionnaire transmission regardless of the difference in reliability.
- the operation processing unit 40 controls the questionnaire transmission according to the reliability when class 1 "I am lost" is specified.
- the operation processing unit 40 can also generate retraining data using the questionnaire results. For example, since the output result obtained by inputting the image data AA to the behavior recognition model 18 is class 1 "I'm lost" and has low reliability, the operation processing unit 40 executes sending a questionnaire and responds to the questionnaire. Suppose that the user receives ⁇ I didn't get lost''. In this case, the operation processing unit 40 can generate training data for retraining that has "image data AA" as the explanatory variable and "didn't get lost” as the objective variable. The pre-processing unit 30 can improve the recognition accuracy of the behavior recognition model 18 by retraining the behavior recognition model 18 using this training data for retraining.
- the questionnaire sent here may be the partial questionnaire 61 described above.
- the recognition result is "class 1 'lost' and high reliability", which is an example of the first condition
- the operation processing unit 40 registers the analysis result using the automatic acquisition described in the first embodiment.
- the recognition result is an example of the second condition
- the questionnaire to be sent may be the entire questionnaire described in Example 1, or may be other question information prepared in advance.
- the operation processing unit 40 does not execute the relationship identification processing of the first embodiment, the action and gesture identification processing, etc., and uses the behavior recognition model 18 of the third embodiment to generate a highly reliable class 1 "lost". It is also possible to send the questionnaire 60 only when detected.
- the behavior recognition model 18 that performs not only binary classification but multi-value classification can also be used.
- the behavior recognition model 18 performs multivalue class classification such as class 1 "very lost”, class 2 "lost”, class 3 "not confused", and class 4 "neutral".
- the behavior recognition model 18 registers the analysis result using the automatic acquisition described in Example 1. .
- the behavior recognition model 18 uses the automatic acquisition and response results of the partial questionnaire described in Example 1. Register analysis results.
- the information processing device 10 according to the third embodiment can control the sending of questionnaires according to the reliability of the recognition results of the behavior recognition model 18, so that the information processing device 10 according to the third embodiment can control the sending of questionnaires according to the reliability of the recognition results of the behavior recognition model 18. Even if the customer's psychological evaluation is a little poor, it is possible to obtain user evaluations based on questionnaires. As a result, the information processing device 10 can collect accurate analysis results.
- the information processing device 10 can send the questionnaire to any location, not just the customer's terminal.
- FIG. 23 is a diagram illustrating questionnaire transmission according to the fourth embodiment.
- the operation processing unit 40 of the information processing device 10 can transmit a questionnaire 60 or a partial questionnaire 61 to the display of the self-checkout register 70 or the signage 80 of the store 2.
- the information processing device 10 uses the positional relationship of the questionnaire response signage, the questionnaire target person, and surrounding people other than the target person, and information on the posture of each person to ensure that only the target person can respond to the questionnaire. Display a questionnaire response screen on the signage only in situations where the questionnaire is not available, and prompt the user to respond to the questionnaire.
- the information processing device 10 identifies the state of the customer with respect to the product among the plurality of people included in the video by analyzing a video shot of a first area including the customer or the product.
- the information processing device 10 generates a questionnaire related to the customer or the product based on the customer's status regarding the product.
- the information processing device 10 specifies the position and orientation of each of the plurality of customers with respect to the signage by analyzing the video shot of the second area including the signage. Thereafter, based on the specified position and orientation, the information processing device 10 determines whether a specific customer is closest to the signage and facing the signage, and other customers are farthest from the signage and are facing the signage. Have the signage display a survey for a specific customer when you are not looking at the signage.
- FIG. 24 is a diagram illustrating a specific example of sending a questionnaire according to the fourth embodiment.
- the operation processing unit 40 of the information processing device 10 inputs each image data (each frame) in the video data to the action recognition model 18, and determines the position of the person in each image data. Identify the orientation.
- the operation processing unit 40 determines, based on the processing results of the relationship identification unit 42, the customers who held the product in their hands, the customers who made the payment, and the customers who stayed in front of the product shelf for a certain period of time or more as the survey subjects ( specific customers).
- the operation processing unit 40 determines that the questionnaire subject is facing the signage 80 and is in a position where it can be operated, based on the position and orientation of the person depicted in each image data. At the same time, if it is specified that the person not targeted for the questionnaire is not facing the signage 80 and is not in an operable position, the questionnaire is displayed on the signage 80.
- the operation processing unit 40 determines that the person to be surveyed is not facing the signage 80 due to the position and orientation of the person depicted in each image data, and is therefore not a target for the questionnaire.
- a questionnaire is not displayed on the signage 80 when it is specified that the person faces the signage 80 and is in an operable position.
- the operation processing unit 40 determines that the questionnaire subject is facing the signage 80 but is in an operable position, depending on the position and orientation of the person depicted in each image data. If it is specified that the person not targeted for the questionnaire is not facing the signage 80, a message is displayed so that the person not targeted for the questionnaire approaches the signage 80.
- FIG. 25 is a flowchart showing the flow of processing according to the fourth embodiment.
- the operation processing unit 40 acquires on-site video data (S201) and analyzes the video data (S202). For example, the operation processing unit 40 identifies relationships, positions and orientations of people, and actions and gestures.
- the operation processing unit 40 executes determination of questionnaire subjects and questionnaire display conditions (S203). For example, the operation processing unit 40 reads predetermined questionnaire contents and subject conditions, and uses the analysis results to determine whether the display conditions are met.
- the operation processing unit 40 determines that the questionnaire is not to be displayed (S204: No), it repeats S201 and subsequent steps. On the other hand, if the operation processing unit 40 determines that the questionnaire should be displayed (S204: Yes), it displays the questionnaire on a display device such as the signage 80 and accepts responses (S205).
- the operation processing unit 40 when the operation processing unit 40 receives the input of the questionnaire response (S206: Yes), it records the questionnaire (S207) and hides the questionnaire (S209). On the other hand, the operation processing unit 40 does not accept input of answers to the questionnaire (S206: No), and displays the questionnaire on a display device such as the signage 80 and accepts answers until a timeout is reached (S208: No) (S205). . Note that the operation processing unit 40 does not accept the input of answers to the questionnaire (S206: No), and when a timeout is reached (S208: Yes), hides the questionnaire (S209).
- FIG. 26 is a diagram illustrating a signage questionnaire display example according to the fourth embodiment.
- the operation processing unit 40 identifies the positions and orientations of the questionnaire subjects and the questionnaire non-subjects based on the positions and orientations of the people depicted in each image data. Then, the operation processing unit 40 displays the questionnaire 62 in the area of the signage 80 that faces the person to be surveyed, and displays the dummy questionnaire 63 in the area of the signage 80 that faces the person not targeted for the questionnaire.
- the operation processing unit 40 registers the response results of the questionnaire 62 as analysis results, and discards the response results of the dummy questionnaire 63. Note that it is also beneficial to manage the response results of the dummy questionnaire 63 as information about the accompanying person.
- the information processing device 10 uses images from a surveillance camera or the like to determine the positions and postures of the signage 80 for answering the questionnaire, the questionnaire subject, and people around them.
- the information processing device 10 satisfies the conditions that the person closest to the signage 80 for answering the questionnaire is the person being surveyed, the person is facing the signage 80, and no one other than the person is facing the signage 80.
- a screen for answering the questionnaire is displayed on the signage 80 only at the bottom.
- the information processing device 10 can prevent a situation in which a person who is not the subject of the questionnaire answers the questionnaire and the quality of the answers deteriorates.
- each component of each device shown in the drawings is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawings. That is, the specific form of distributing and integrating each device is not limited to what is shown in the drawings. In other words, all or part of them can be functionally or physically distributed and integrated into arbitrary units depending on various loads and usage conditions.
- each processing function performed by each device can be realized by a CPU and a program that is analyzed and executed by the CPU, or can be realized as hardware using wired logic.
- FIG. 27 is a diagram illustrating an example of the hardware configuration of the information processing device 10.
- the information processing device 10 includes a communication device 10a, an HDD (Hard Disk Drive) 10b, a memory 10c, and a processor 10d. Furthermore, the parts shown in FIG. 27 are interconnected by a bus or the like.
- the communication device 10a is a network interface card or the like, and communicates with other devices.
- the HDD 10b stores programs and DB that operate the functions shown in FIG.
- the processor 10d reads a program that executes the same processing as each processing unit shown in FIG. 4 from the HDD 10b, etc., and deploys it in the memory 10c, thereby operating a process that executes each function described in FIG. 4, etc. For example, this process executes the same functions as each processing unit included in the information processing device 10. Specifically, the processor 10d reads a program having the same functions as the preprocessing section 30, the operation processing section 40, etc. from the HDD 10b. The processor 10d then executes a process that executes the same processing as the pre-processing unit 30, the operation processing unit 40, and the like.
- the information processing device 10 operates as an information processing device that executes an information processing method by reading and executing a program. Further, the information processing device 10 can also realize the same functions as in the above-described embodiments by reading the program from the recording medium using the medium reading device and executing the read program. Note that the programs in other embodiments are not limited to being executed by the information processing device 10. For example, the above embodiments may be applied in the same way when another computer or server executes the program, or when these computers or servers cooperate to execute the program.
- This program may be distributed via a network such as the Internet. Additionally, this program is recorded on a computer-readable recording medium such as a hard disk, flexible disk (FD), CD-ROM, MO (Magneto-Optical disk), or DVD (Digital Versatile Disc), and is read from the recording medium by the computer. It may also be executed by being read.
- a computer-readable recording medium such as a hard disk, flexible disk (FD), CD-ROM, MO (Magneto-Optical disk), or DVD (Digital Versatile Disc)
- FIG. 28 is a diagram illustrating an example of the hardware configuration of the signage 80.
- the signage 80 includes a communication device 80a, a touch panel 80b, an HDD 80c, a memory 80d, and a processor 80e. Furthermore, the parts shown in FIG. 28 are interconnected by a bus or the like.
- the communication device 80a is a network interface card or the like, and communicates with other devices.
- the touch panel 80b displays a questionnaire and accepts responses to the questionnaire.
- the HDD 80c stores various programs and DB.
- the processor 80e reads a program that executes the same process as that described in the fourth embodiment from the HDD 80c, etc., and expands it to the memory 80d, thereby operating a process that executes each process. For example, this process performs functions similar to receiving a survey, displaying a survey, and accepting responses to a survey.
- the signage 80 operates as an information processing device that executes a display method by reading and executing a program. Further, the signage 80 can also realize the same functions as those in the above-described embodiments by reading the program from a recording medium using a medium reading device and executing the read program. Note that the programs in other embodiments are not limited to being executed by the signage 80. For example, the above embodiments may be applied in the same way when another computer or server executes the program, or when these computers or servers cooperate to execute the program.
- This program may be distributed via a network such as the Internet. Further, this program may be recorded on a computer-readable recording medium such as a hard disk, flexible disk, CD-ROM, MO, or DVD, and may be executed by being read from the recording medium by the computer.
- a computer-readable recording medium such as a hard disk, flexible disk, CD-ROM, MO, or DVD
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
情報処理装置は、物体が配置されたエリアを撮像した映像データを機械学習モデルに入力することで、映像データに含まれる特定のユーザの物体に対する行動における、人物と物体の関係性を特定する。情報処理装置は、関係性が特定された物体に対する人物の心理的な評価を取得し、記憶部に記憶される物体の分析結果を示すデータベースに、特定された関係性に関連する結果と、人物の心理的な評価とを対応づけて登録する。
Description
本発明は、生成プログラム、生成方法および情報処理装置に関する。
商品の購買履歴、施設の利用履歴、飲食店の注文履歴などを含むユーザの行動履歴をデータベース化して蓄積し、今後のサービスに役立てることが広く行われている。例えば、テーブル等にアンケートを用意したり、後日ユーザにアンケートを送付したりして、アンケートの回答結果をデータベース化することが行われている。
しかしながら、アンケートの結果を収集、精査、入力などの多くの処理が発生し、データベースの構築には多くの処理量が要求される。なお、より有益な情報をデータベース化したいことから、アンケートの項目数が多くなる傾向にあり、ユーザの負担が増加し、アンケートに回答しないユーザも多い。
一つの側面では、データベースの構築にかかる処理量を削減することができる生成プログラム、生成方法および情報処理装置を提供することを目的とする。
第1の案では、生成プログラムは、コンピュータに、物体が配置されたエリアを撮像した映像データを機械学習モデルに入力することで、前記映像データに含まれる特定のユーザの物体に対する行動における、人物と物体の関係性を特定し、前記関係性が特定された前記物体に対する前記人物の心理的な評価を取得し、記憶部に記憶される物体の分析結果を示すデータベースに、特定された前記関係性に関連する結果と、前記人物の心理的な評価とを対応づけて登録する、処理を実行させることを特徴とする。
一実施形態によれば、データベースの構築にかかる処理量を削減することができる。
以下に、本発明にかかる生成プログラム、生成方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
<全体構成>
図1は、実施例1にかかる情報処理システムの全体構成例を示す図である。図1に示すように、この情報処理システムは、物体の一例である商品が配置されるエリアを有する空間の一例である店舗1と、それぞれが店舗1内の異なる場所に設置された複数のカメラ2と、映像データの解析を実行する情報処理装置10とがネットワークNを介して接続される。なお、ネットワークNには、有線や無線を問わず、インターネットや専用線などの様々な通信網を採用することができる。
図1は、実施例1にかかる情報処理システムの全体構成例を示す図である。図1に示すように、この情報処理システムは、物体の一例である商品が配置されるエリアを有する空間の一例である店舗1と、それぞれが店舗1内の異なる場所に設置された複数のカメラ2と、映像データの解析を実行する情報処理装置10とがネットワークNを介して接続される。なお、ネットワークNには、有線や無線を問わず、インターネットや専用線などの様々な通信網を採用することができる。
店舗1は、例えばスーパーマーケットやコンビニエンスストアのように、顧客5が購入する商品が陳列されており、例えば電子決済などを用いたセルフレジなどが利用される。なお、店舗1の例としては、予め顧客5を登録しておき、登録済みの顧客5のみが利用できる無人店舗などが想定される。例えば、顧客5は、店舗1を運営する運営者のホームページなどアクセスして、氏名、年齢、連絡先(例えばメールアドレスなど)、決済方法(例えばクレジットカードの番号など)を登録する。顧客5は、登録後に発行されるユーザIDとパスワードや入店カードを用いることで、店舗1に入店し、登録されている決済方法で支払いを行うことで、買い物を行うことができる。
複数のカメラ2それぞれは、店舗1内の所定領域を撮像する監視カメラの一例であり、撮像した映像のデータを、情報処理装置10に送信する。以下の説明では、映像のデータを「映像データ」と表記する場合がある。また、映像データには、時系列の複数のフレームが含まれる。各フレームには、時系列の昇順に、フレーム番号が付与される。1つのフレームは、カメラ2があるタイミングで撮影した静止画像の画像データである。
情報処理装置10は、店舗1への入店が許可された顧客5に関する情報を記憶する顧客DBを有し、複数のカメラ2から映像データを受信し、顧客5に対するサービス向上を行うための各種データなどを収集するコンピュータ装置の一例である。顧客DBには、氏名、年齢、連絡先(例えばメールアドレスなど)、決済方法(例えばクレジットカードの番号など)などが登録される。
(参考技術の説明)
顧客5に対するサービス向上の施策として、顧客5に対するアンケートが利用される。図2は、参考技術を説明する図である。図2に示すように、店舗1で商品を購入した顧客5または店舗1に入店したが商品を購入したかった顧客5に対して、退店時に店員6がアンケート用紙を顧客5に手渡す。顧客5は、手渡されたアンケート用紙に記入して郵送等で送付する。その後、店員7が、各顧客5から送付されたアンケート用紙の集計を行ってDB化する。このようにしてDB化された情報にしたがって、店員による声掛けのタイミング、商品の配列や商品の拡充等の検討がなされる。
顧客5に対するサービス向上の施策として、顧客5に対するアンケートが利用される。図2は、参考技術を説明する図である。図2に示すように、店舗1で商品を購入した顧客5または店舗1に入店したが商品を購入したかった顧客5に対して、退店時に店員6がアンケート用紙を顧客5に手渡す。顧客5は、手渡されたアンケート用紙に記入して郵送等で送付する。その後、店員7が、各顧客5から送付されたアンケート用紙の集計を行ってDB化する。このようにしてDB化された情報にしたがって、店員による声掛けのタイミング、商品の配列や商品の拡充等の検討がなされる。
このように、参考技術では、アンケートの結果の収集、精査、入力などの多くの処理が発生し、データベースの構築には多くの処理量が要求される。また、より有益な情報をデータベース化したいことから、アンケートの項目数が多くなる傾向にあり、ユーザの負担が増加し、アンケートに回答しないユーザも多い。
(実施例1の説明)
そこで、実施例1にかかる情報処理装置10は、店舗1内の映像から人、モノ、環境、行動の関係性や人の属性を認識し、売場の状況(コンテキスト)をデジタル化して分析可能な情報のDB化の処理を削減する。具体的には、情報処理装置10は、商品が配置された店舗1内のエリアを撮像した映像データを機械学習モデルに入力することで、映像データに含まれる特定のユーザ(顧客5)の商品に対する行動における、顧客5と商品の関係性を特定する。続いて、情報処理装置10は、関係性が特定された商品に対する顧客5の心理的な評価を取得する。その後、情報処理装置10は、記憶部に記憶される商品の分析結果を示すデータベースに、特定された関係性に関連する結果と、顧客5心理的な評価とを対応づけて登録する。
そこで、実施例1にかかる情報処理装置10は、店舗1内の映像から人、モノ、環境、行動の関係性や人の属性を認識し、売場の状況(コンテキスト)をデジタル化して分析可能な情報のDB化の処理を削減する。具体的には、情報処理装置10は、商品が配置された店舗1内のエリアを撮像した映像データを機械学習モデルに入力することで、映像データに含まれる特定のユーザ(顧客5)の商品に対する行動における、顧客5と商品の関係性を特定する。続いて、情報処理装置10は、関係性が特定された商品に対する顧客5の心理的な評価を取得する。その後、情報処理装置10は、記憶部に記憶される商品の分析結果を示すデータベースに、特定された関係性に関連する結果と、顧客5心理的な評価とを対応づけて登録する。
図3は、実施例1にかかる情報処理装置10を説明する図である。図3に示すように、情報処理装置10は、店舗1内を撮像した映像データを取得し、訓練済みである機械学習モデルに映像データ内の各フレームを入力して、顧客5と商品との関係性を特定する。例えば、情報処理装置10は、商品の購入有無、時間、場所、商品に対する行動(例えば把持)などを特定する。
続いて、情報処理装置10は、顧客5と商品との関係性に基づき映像から特定できなかった項目を、心理的な評価として特定し、その心理的な評価に関するアンケートを生成して、顧客5の端末等に送信する。例えば、情報処理装置10は、商品を購入しなかった顧客5に対して、「なぜ商品を購入しなかったのか?」の理由を質問するアンケートを送信する。
その後、情報処理装置10は、アンケートに対する回答を受信すると、映像から特定された特定結果と、アンケート結果とを対応付けてDB化する。例えば、情報処理装置10は、映像から特定された「年齢、性別、商品購入の有無」と、アンケート結果「商品を購入しなかった理由」とを対応付けて記憶する。
このように、情報処理装置10は、店頭映像などからリアルタイムに来客の行動を認識し、対象の来客と送信タイミングを絞り込んでアンケートを自動送信することができる。したがって、情報処理装置10は、効果的なアンケート結果のみを取得することができるので、データベースの構築にかかる処理量を削減することができる。
<機能構成>
図4は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図4に示すように、情報処理装置10は、通信部11、記憶部12、制御部20を有する。
図4は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図4に示すように、情報処理装置10は、通信部11、記憶部12、制御部20を有する。
通信部11は、他の装置の間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部11は、各カメラ2から映像データなどを受信し、情報処理装置10の処理結果などを、予め指定された装置等に出力する。
記憶部12は、各種データや制御部20が実行するプログラムなどを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶部12は、顧客DB13、アンケートDB14、映像データDB15、訓練データDB16、関係性モデル17、行動認識モデル18、分析結果DB19を記憶する。
顧客DB13は、顧客5に関する情報を記憶するデータベースである。ここで記憶される情報は、店舗1に来店して商品の購入を希望する顧客(ユーザ)5の情報であり、来店前にユーザ登録を行うことで収集及び登録される。
図5は、顧客DB13を説明する図である。図5に示すように、顧客DB13は、「顧客ID、氏名、年齢、性別、家族構成、通知先、来店回数、カード情報」などを記憶する。「顧客ID」は、顧客5を識別する識別子である。「氏名、年齢、性別、家族構成、カード情報」は、ユーザ登録時に顧客5が入力した情報であり、「来店回数」は、入店時にカウントされる来店の回数である。
アンケートDB14は、顧客5に送信するアンケートを記憶するデータベースである。図6は、アンケートDB14を説明する図である。図6に示すように、送信対象のアンケートには、質問(Q)と選択項目とを対応付けた複数の質問項目を含めることができる。
図6の例では、質問1(Q1)は、顧客の年齢や性別を問い合わせる質問項目であり、回答の選択項目として「女性/男性、20代/30代/40代/50代/60代/70代以上」が用意されている。また、質問3(Q3)は、購入した商品の種別を問い合わせる質問項目であり、回答の選択項目として「食品/日用品/その他」が用意されている。
なお、各質問には、質問の意図を示す5W1H(いつ(When)、どこで(Where)、誰が(Who)、何を(What)、なぜ(Why)、どのように(How))を対応付けることもできる。例えば、Q1「年齢、性別を教えてください」には、「誰が(Who)」、Q6の「サービスに不満な理由をお聞かせ下さい。」には、「なぜ(Why)」などが対応付けられる。
映像データDB15は、店舗1に設置される複数のカメラ2それぞれにより撮像された映像データを記憶するデータベースである。例えば、映像データDB15は、カメラ2ごと、または、撮像された時間帯ごとに、映像データを記憶する。
訓練データDB16は、関係性モデル17、行動認識モデル18などを含む、実施例で説明する各種機械学習モデルの生成に用いられる各種訓練データを記憶するデータベースである。ここで記憶される訓練データには、正解情報が付加された教師ありの訓練データや、正解情報が付加されていない教師なしの訓練データを含めることができる。
関係性モデル17は、映像データに含まれる特定のユーザの物体に対する行動における、人物と物体の関係性を特定する機械学習モデルの一例である。具体的には、関係性モデル17は、人物と人物の関係性、または、人物と物(物体)の関係性を識別する、機械学習により生成されたHOID(Human Object Interaction Detection)用のモデルである。
例えば、人物と人物の関係性の特定時には、関係性モデル17として、映像データ内のフレームの入力に応じて、第一の人物を示す第1クラスおよび第一の人物が出現する領域を示す第1領域情報と、第二の人物を示す第2クラスおよび第二の人物が出現する領域を示す第2領域情報と、第1クラスと第2クラスとの関係性と、を特定して出力するHOID用のモデルが用いられる。
また、人物と物体の関係性の特定時には、関係性モデル17として、人物を示す第1クラスおよび人物が出現する領域を示す第1領域情報と、物体を示す第2クラスおよび物体が出現する領域を示す第2領域情報と、第1クラスと第2クラスとの関係性と、を特定して出力するHOID用のモデルが用いられる。
なお、ここで示した関係性とは、あくまで一例として、「持つ」などの単純な関係性に限らず、「商品Aを右手に持つ」、「商品Bを棚に戻す」、「商品を買い物かごに入れる」などの複雑な関係性が含まれる。なお、関係性モデル17として、上記2つのHOID用のモデルを別々に用いてもよく、人物と人物の関係性および人物と物体の関係性の両方を識別するように生成された1つのHOID用のモデルを用いてもよい。また、関係性モデル17は、後述する制御部20により生成されるが、予め生成されたモデルを使用してもよい。
行動認識モデル18は、映像データから人物の骨格情報や行動認識を実行する機械学習モデルの一例である。具体的には、行動認識モデル18は、画像データの入力に応じて、2次元の骨格情報や行動認識結果を出力する。例えば、行動認識モデル18は、人物の2次元画像データに対して、頭、手首、腰、足首などの2次元の関節位置(骨格座標)を推定し、基本となる動作の認識やユーザが定義したルールの認識を行う深層学習器の一例である。
この行動認識モデル18を用いることで、人物の基本動作を認識することができ、足首の位置、顏の向き、身体の向きを取得することができる。基本となる動作とは、例えば歩く、走る、止まるなどである。ユーザが定義したルールとは、商品を手に取るまでの各行動に該当する骨格情報の遷移などである。なお、行動認識モデル18は、後述する制御部20により生成されるが、予め生成されたデータを使用してもよい。
分析結果DB19は、情報処理装置10により収集される分析結果に関する情報を記憶するデータベースである。図7は、分析結果DB19を説明する図である。図7に示すように、分析結果DB19は、「ID、氏名、ユーザ情報、商品、購入有無、アンケート結果」などを記憶する。
「ID」は、分析結果を識別する識別子である。「氏名」は、顧客5の氏名であり、入店時や商品購入時に、顧客DB13を用いて特定される。「ユーザ情報」は、顧客5の年齢、性別、家族構成などであり、顧客DB13を用いて特定される。「商品」は、顧客5が購入した商品の情報であり、商品購入時に、顧客DB13を用いて特定される。「購入有無」は、来店時に商品を購入したか否かを示す情報であり、商品購入時に、顧客DB13を用いて特定される。「アンケート結果」は、後述する制御部20により送信されたアンケートに対する回答である。
図7の例では、「特許花子」さんは、「30代、女性」であり、「化粧品と食品」を購入し、アンケートに「サービスに不満(店員が不親切)」を回答したことが示される。ここで記憶される情報は、売場の状況を検知および対応方針の決定に利用される。例えば、「来客あり、家族連れ、若い男女、女性が主導権」などの情報が登録されると、店員にファミリー向けかつ女性に人気の商品を推奨させる。
図4に戻り、制御部20は、情報処理装置10全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部20は、事前処理部30と運用処理部40を有する。なお、事前処理部30と運用処理部40は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。
<事前処理部30>
事前処理部30は、運用処理部40による行動予測やアンケート集計の運用に先立って、記憶部12に記憶される訓練データを用いて、各モデルやルールなどの生成を実行する処理部である。
事前処理部30は、運用処理部40による行動予測やアンケート集計の運用に先立って、記憶部12に記憶される訓練データを用いて、各モデルやルールなどの生成を実行する処理部である。
(関係性モデルの生成)
事前処理部30は、訓練データDB16に記憶される訓練データを用いて、関係性モデル17を生成する処理部である。ここでは、一例として、関係性モデル17として、ニューラルネットワークなどを用いたHOID用のモデルを生成する例で説明する。なお、あくまで一例として、人物と物体の関係性を特定するHOID用のモデルの生成について説明するが、人物と人物の関係性を特定するHOID用のモデルについても同様に生成することができる。
事前処理部30は、訓練データDB16に記憶される訓練データを用いて、関係性モデル17を生成する処理部である。ここでは、一例として、関係性モデル17として、ニューラルネットワークなどを用いたHOID用のモデルを生成する例で説明する。なお、あくまで一例として、人物と物体の関係性を特定するHOID用のモデルの生成について説明するが、人物と人物の関係性を特定するHOID用のモデルについても同様に生成することができる。
まず、HOID用のモデルの機械学習に利用する訓練データについて説明する。図8は、訓練データを説明する図である。図8に示すように、各訓練データは、入力データとなる画像データ(説明変数)と、当該画像データに対して設定された正解情報(目的変数)とを有する。
正解情報には、検出対象である人物のクラス(第1クラス)と、人物による購入や操作対象である物体のクラス(第2クラス)と、人物と物体の相互作用を示す関係性クラスと、各クラスの領域を示すBbox(Bounding Box:物体の領域情報)とが設定される。すなわち、正解情報として、人物が把持している物体に関する情報が設定される。なお、人物と物体の相互作用は、人物と物体の関係性の一例である。また、人物と人物の関係性の特定に利用する場合には、第2クラスとして他方の人物を示すクラス、第2クラスの領域情報として他方の人の領域情報、関係性クラスとして人物と人物の関係性を用いる。
次に、訓練データを用いたHOID用のモデルの機械学習について説明する。図9は、関係性モデル17の機械学習を説明する図である。図9に示すように、事前処理部30は、訓練データをHOID用のモデルに入力し、HOID用のモデルの出力結果を取得する。この出力結果には、HOID用のモデルが検出した人物のクラスと、物体のクラスと、人物と物体の関係性(相互作用)などが含まれる。そして、事前処理部30は、訓練データの正解情報とHOID用のモデルの出力結果との誤差情報を算出し、誤差が小さくなるように、誤差逆伝播により、HOID用のモデルが有するパラメータの更新を行う機械学習を実行する。
(行動認識モデル18の生成)
事前処理部30は、訓練データを用いて、行動認識モデル18の生成を実行する処理部である。具体的には、事前処理部30は、正解情報(ラベル)付の訓練データを用いた教師あり学習により、行動認識モデル18を生成する。
事前処理部30は、訓練データを用いて、行動認識モデル18の生成を実行する処理部である。具体的には、事前処理部30は、正解情報(ラベル)付の訓練データを用いた教師あり学習により、行動認識モデル18を生成する。
図10は、行動認識モデル18の生成を説明する図である。図10に示すように、事前処理部30は、基本動作のラベルが付与された基本動作の画像データを行動認識モデル18に入力し、行動認識モデル18の出力結果とラベルとの誤差が小さくなるように、行動認識モデル18の機械学習を実行する。例えば、行動認識モデル18は、ニューラルネットワークである。事前処理部30は、行動認識モデル18の機械学習を実行することで、ニューラルネットワークのパラメータを変更する。行動認識モデル18は、画像データ(例えば基本動作の動作をしている人物の画像データ)である説明変数をニューラルネットワークに入力する。そして、行動認識モデル18は、ニューラルネットワークが出力する出力結果と、基本動作のラベルである正解データ(目的変数)との誤差が小さくなるように、ニューラルネットワークのパラメータを変更した機械学習モデルを生成する。
なお、訓練データとしては、「ラベル」として「歩く」、「走る」、「止まる」、「立つ」、「棚の前に立つ」、「商品を取る」、「首を右に回す」、「首を左に回す」、「上を向く」、「頭を下に傾ける」などが付加された各画像データを用いることができる。なお、行動認識モデル18の生成は、あくまで一例であり、他の手法を用いることができる。また、行動認識モデル18としては、特開2020-71665号公報、特開2020-77343号公報に開示される行動認識を用いることもできる。
<運用処理部40>
図4に戻り、運用処理部40は、取得部41、関係性特定部42、行動認識部43、評価取得部44、登録部45を有し、事前処理部30により事前に準備された各モデルを用いて、映像データに写る人物に対してアンケート送信を実行する処理部である。
図4に戻り、運用処理部40は、取得部41、関係性特定部42、行動認識部43、評価取得部44、登録部45を有し、事前処理部30により事前に準備された各モデルを用いて、映像データに写る人物に対してアンケート送信を実行する処理部である。
取得部41は、各カメラ2から映像データを取得して映像データDB21に格納する処理部である。例えば、取得部41は、各カメラ2から随時取得してもよく、定期的に取得してもよい。
また、取得部41は、顧客5の入店時に顧客情報を取得して、運用処理部40の各処理部に出力する。例えば、取得部41は、ユーザカード、指紋認証、IDとパスワードなどを入店時にユーザに実行させることで、入店した「顧客ID」を取得する。そして、取得部41は、顧客DB13を参照し、「顧客ID」と対応付けられる氏名や年齢等を取得する。
(関係性の特定)
関係性特定部42は、関係性モデル17を用いて、映像データに写る人物と人物との関係性、または、人物と物体との関係性を特定する関係性特定処理を実行する処理部である。具体的には、関係性特定部42は、映像データに含まれるフレームごとに、各フレームを関係性モデル17に入力し、関係性モデル17の出力結果に応じて、関係性を特定する。そして、関係性特定部42は、特定された関係性を、評価取得部44や登録部45等に出力する。
関係性特定部42は、関係性モデル17を用いて、映像データに写る人物と人物との関係性、または、人物と物体との関係性を特定する関係性特定処理を実行する処理部である。具体的には、関係性特定部42は、映像データに含まれるフレームごとに、各フレームを関係性モデル17に入力し、関係性モデル17の出力結果に応じて、関係性を特定する。そして、関係性特定部42は、特定された関係性を、評価取得部44や登録部45等に出力する。
図11は、関係性の特定を説明する図である。図11に示すように、関係性特定部42は、フレーム1を機械学習済みの関係性モデル17に入力して、第1の人物のクラス、第2の人物のクラス、人物間の関係性を特定する。別例としては、関係性特定部42は、フレームを機械学習済みの関係性モデル17に入力して、人物のクラス、物体のクラス、人物と物体の関係性を特定する。このように、関係性特定部42は、関係性モデル17を用いて、フレームごとに、人物間の関係性または人物と物体との間の関係性を特定する。
図12は、HOIDによる関係性の特定を説明する図である。図12に示すように、関係性特定部42は、映像データに含まれる各フレーム(画像データ)をHOID(関係性モデル17)に入力し、HOIDの出力結果を取得する。具体的には、関係性特定部42は、人物のBbox、人物のクラス名、物体のBbox、物体のクラス名、人物と物体の相互作用の確率値、人物と物体の相互作用のクラス名を取得する。
この結果、例えば、関係性特定部42は、人物のクラスとして「人(客)」と「商品(物)」などを特定し、「人(客)」と「商品(物)」との関係性「客が商品を持つ」を特定する。関係性特定部42は、フレーム2やフレーム3などの後続の各フレームについても上記関係性特定処理を実行することで、フレームごとに関係性「商品Aを持つ」、関係性「商品Aを渡す」などを特定する。なお、関係性特定部42は、商品の購入有無については、セルフレジなどや退店時の情報により、取得することもできる。
また、関係性特定部42は、映像データに含まれる顧客の物体に対する行動から、行動が実施された時間、場所および関係性に関連する情報を特定することもできる。例えば、関係性特定部42は、関係性が特定された映像データ内のフレームの時間、当該映像データを撮像したカメラ2の場所などを特定する。
(行動認識)
行動認識部43は、行動認識モデル18を用いて、映像データから人物の行動やしぐさを認識する処理部である。具体的には、行動認識部43は、映像データ内の各フレームを行動認識モデル18に入力し、行動認識モデル18から得られる人物の各部位の骨格情報や基本動作を用いて、人物の行動やしぐさを特定し、評価取得部44や登録部45等に出力する。
行動認識部43は、行動認識モデル18を用いて、映像データから人物の行動やしぐさを認識する処理部である。具体的には、行動認識部43は、映像データ内の各フレームを行動認識モデル18に入力し、行動認識モデル18から得られる人物の各部位の骨格情報や基本動作を用いて、人物の行動やしぐさを特定し、評価取得部44や登録部45等に出力する。
図13は、行動認識を説明する図である。図13に示すように、行動認識部43は、画像データであるフレーム1を行動認識モデル18に入力する。行動認識モデル18は、フレーム1の入力に応じて各部位の骨格情報を生成し、各部位の骨格情報にしたがって各部位の動作を出力する。例えば、行動認識部43は、行動認識モデル18を用いることで、「顔:正面を向く、腕:上げる、足:歩く、・・・」などの各部位の動作情報を取得できる。
また、行動認識部43は、行動認識モデル18を用いた認識処理をフレーム2やフレーム3の後続の各フレームについても実行して、フレームごとに、フレームに写る人物の各部位の動作情報を特定する。そして、行動認識部43は、予め対応付けて保持する代表的なしぐさと行動の変化とを対応付けを参照し、行動認識結果(すなわち、各部位の動作情報)の変化を用いて、より具体的な行動やしぐさなどを特定することもできる。
例えば、行動認識部43は、5フレームの間に顔の向きが左右に移動した場合や、商品を持ってから15フレーム以上経過した後に商品を元に戻した場合など、予め指定した「不満げな動作」を検出した場合は、しぐさ「不満げ」と認識することができる。また、行動認識部43は、商品を持ってから3フレーム未満で商品をかごに入れた場合など、予め指定した「満足げな動作」を検出した場合は、しぐさ「満足」と認識することができる。
評価取得部44は、関係性特定部42により関係性が特定された商品に対する顧客5の心理的な評価を取得する処理部である。具体的には、評価取得部44は、行動認識部43により認識された「しぐさ」を心理的な評価として採用することもできる。
また、評価取得部44は、顧客2の商品に関する心理的指標に関するアンケートを、顧客5と対応付けられた端末に送信し、端末から受信したアンケートの回答結果を、顧客の心理的な評価として取得することもできる。
具体例を挙げると、評価取得部44は、アンケートDB14に記憶されるアンケートの含まれる複数の項目のうち、顧客2の商品に対する行動から特定されなかった項目を問い合わせる部分アンケートを生成する。そして、評価取得部44は、部分アンケートを、顧客の端末に送信し、端末から受信したアンケートの回答結果を、顧客の心理的な評価として取得することもできる。
図14は、アンケートの生成と送信を説明する図である。図14に示すように、評価取得部44は、取得部22により取得された顧客情報(30代、女性、来店回数(10回目)を用いて、アンケートQ1の「年齢、性別」に「30代、女性」を自動入力し、アンケートQ2の「はじめてのご来店ですか?」に「2回目以上」を自動入力する。
また、評価取得部44は、関係性特定部42により特定された顧客と商品の関係性「商品A、未購入」を用いて、商品の購入有無を問い合わせるアンケートQ3と、購入商品の満足度を問い合わせるアンケートQ4とをアンケートの対象外とする。評価取得部44は、行動認識部43により特定された行動およびしぐさ「不満げ」を用いて、アンケートQ5の「サービスに満足されましたか?」に「不満」を自動入力する。
さらに、評価取得部44は、関係性特定部42により特定された顧客と商品の関係性「商品A、未購入」と、行動認識部43により特定された行動およびしぐさ「不満げ」とを用いて、「なぜ商品を購入しなかったのか、なぜ不満げなのか」を特定する。つまり、評価取得部44は、「なぜ?」が顧客の心理的な評価に該当すると判定する。この結果、評価取得部44は、アンケートに含まれる項目のうち、「なぜ?」に該当するQ6の「サービスに不満な理由をお聞かせ下さい。」を部分アンケート61として選択し、顧客DB13に記憶される「通知先」に送信する。
そして、評価取得部44は、部分アンケート61の回答「店員が不親切」を受信した場合、顧客の心理的な評価を「店員が不親切」に決定する。なお、評価取得部44は、関係性の特定結果と行動認識の結果との組合せごとに5W1Hの少なくとも1つを対応付けた管理データを用いて、どのアンケート項目を部分アンケートに選択するかを決定することもできる。また、一般的には、「なぜ」のアンケートが最も欲しい情報であることから、評価取得部44は、「なぜ」に該当するアンケート項目のみを部分アンケートとして、送信することもできる。
登録部45は、分析結果DB19に、関係性特定部23により特定された顧客2と商品の関係性に関連する情報と、評価取得部44により取得された顧客2の心理的な評価とを対応づけて登録する処理部である。具体的には、登録部45は、特定された時間、場所および関係性に関連する情報と、部分アンケートの回答結果とを対応付けて、分析結果DB19に登録をする。
図15は、分析結果の登録を説明する図である。図15に示すように、登録部45は、アンケートの項目のうち、評価取得部44により自動入力された「女性、30代、来店2回以上、サービスに不満足」を取得するとともに、部分アンケート61の結果「店員が不親切」を取得する。そして、登録部45は、取得した「女性、30代、来店2回以上、サービスに不満足、店員が不親切」を分析結果DB19に登録をする。
なお、登録部45は、関係性特定部42により関係性が特定された映像データ内のフレームの時間、当該映像データを撮像したカメラ2の場所などの各種情報を分析結果DB19に登録をすることもできる。例えば、登録部45は、時間「13:00」、場所「商品棚YY」、関係性に関する情報「商品Aを手に持った」や「商品棚YYに立ち止まった」などを分析結果DB19に登録をすることもできる。また、登録部45は、顧客情報および部分アンケートの回答結果のみを分析結果DB19に登録をすることもできる。つまり、登録部45は、ユーザが要望する任意の分析項目を登録することができる。
<処理の流れ>
図16は、実施例1にかかる処理の流れを示すフローチャートである。なお、ここでは、1人の顧客が入店してから退店するまでの処理を例示として説明するが、運用処理部40は、1人の顧客の追従することは要求されず、各カメラ2に写る各映像データを用いて上記処理を実行することができる。その場合、運用処理部40は、入店時の映像データに写っている各人物を認識して識別子などを付与することで、各顧客を区別することができる。また、事前処理は完了済とする。
図16は、実施例1にかかる処理の流れを示すフローチャートである。なお、ここでは、1人の顧客が入店してから退店するまでの処理を例示として説明するが、運用処理部40は、1人の顧客の追従することは要求されず、各カメラ2に写る各映像データを用いて上記処理を実行することができる。その場合、運用処理部40は、入店時の映像データに写っている各人物を認識して識別子などを付与することで、各顧客を区別することができる。また、事前処理は完了済とする。
図16に示すように、情報処理装置10の運用処理部40は、顧客2の入店を検出すると(S101:Yes)、入店者を特定し、顧客情報を取得する(S102)。
続いて、運用処理部40は、映像データを取得すると(S103:Yes)、映像データと関係性モデル17とを用いて、顧客と商品の関係性を特定し(S104)、映像データと行動認識モデル18とを用いて、顧客の商品に対する行動やしぐさを特定する(S105)。
その後、退店が検出されるまで(S106:No)、S103以降が繰り返され、退店が検出された場合(S106:Yes)、運用処理部40は、特定された関係性や行動、しぐさを用いて、アンケート内容を決定する(S107)。
そして、運用処理部40は、決定されたアンケート内容を問い合わせるアンケート(部分アンケート61)を送信し(S108)、アンケート結果を受信すると(S109:Yes)、分析結果を生成し(S110)、分析結果を分析結果DB19に登録する(S111)。
<効果>
上述したように、情報処理装置10は、アンケートの項目数のうち、ほとんどの項目を映像データから自動入力し、映像データから特定できないアンケート項目のみを送信することができる。したがって、情報処理装置10は、顧客の負担を軽減してアンケートに回答する顧客数の増加を実現し、より有益な情報の収集を可能とし、データベースの構築にかかる処理量を削減することができる。
上述したように、情報処理装置10は、アンケートの項目数のうち、ほとんどの項目を映像データから自動入力し、映像データから特定できないアンケート項目のみを送信することができる。したがって、情報処理装置10は、顧客の負担を軽減してアンケートに回答する顧客数の増加を実現し、より有益な情報の収集を可能とし、データベースの構築にかかる処理量を削減することができる。
また、情報処理装置10は、ピンポイントでのアンケート送信を実現することができるので、回答者のアンケート忌避感の軽減や回答率の向上を実現することができる。
ところで、実施例1では、顧客と商品との関係性を特定する例として、HOID用のモデルを用いた例を説明したが、これに限定されるものではなく、映像データに含まれる各対象物の関係を示すグラフデータの一例であるシーングラフを用いることもできる。
そこで、実施例2では、運用処理部40の関係性特定部42が、シーングラフを用いて、顧客と商品との関係性を特定する例を説明する。シーングラフは、映像データ内の各画像データに含まれる各物体(人物や商品など)と、各物体間の関係性が記述されるグラフデータである。
図17は、シーングラフの一例を示す図である。図17に示すように、シーングラフは、画像データに写るオブジェクトをノードとし、各ノードは属性(例えばオブジェクトの種類)を有し、ノード間に関係する関係性を有向エッジとする有向グラフである。図17の例では、属性「店員」のノード「人」から属性「客」のノード「人」への関係性「話す」であることが示されている。すなわち、「店員が客と話す」の関係を有することが定義される。また、属性「客」のノード「人」から属性「大型」のノード「商品」への関係性「立つ」であることが示されている。すなわち、「客が大型商品の商品棚の前に立つ」の関係を有することが定義される。
ここで示した関係性は、あくまで一例である。例えば、「持つ」などの単純な関係性に限らず、「商品Aを右手に持つ」などの複雑な関係性が含まれる。なお、人と人の関係性に対応するシーングラフと、人と物の関係性に対応するシーングラフのそれぞれを記憶してもよく、各関係性を含む1つのシーングラフを記憶してもよい。また、シーングラフは、後述する制御部20により生成されるが、予め生成されたデータを使用してもよい。
続いて、シーングラフの生成について説明する。図18は、人と物の関係性を示すシーングラフの生成例を説明する図である。図18に示すように、事前処理部30は、画像データを訓練済みの認識モデルに入力し、認識モデルの出力結果として、ラベル「人(男性)」、ラベル「飲み物(緑)」、関係「持つ」を取得する。つまり、事前処理部30は、「男性が緑の飲み物を持っている」ことを取得する。この結果、事前処理部30は、属性「男性」を有するノード「人」から、属性「緑」を有するノード「飲み物」への関係性「持つ」を関係づけるシーングラフを生成する。なお、シーングラフの生成は、あくまで一例であり、他の手法を用いることもでき、管理者等が手動で生成することもできる。
次に、シーングラフを用いた関係性の特定について説明する。関係性特定部42は、シーングラフにしたがって、映像データに写る人物と人物との関係性、または、人物と物との関係性を特定する関係性特定処理を実行する。具体的には、関係性特定部42は、映像データに含まれるフレームごとに、フレームに写る人の種類や物の種類を特定し、特定した各情報を用いてシーングラフを検索して関係性を特定する。そして、関係性特定部42は、特定された関係性を、各処理部に出力する。
図19は、シーングラフによる関係性の特定を説明する図である。図19に示すように、関係性特定部42は、フレーム1に対して、フレーム1を機械学習済みの機械学習モデルに入力して得られる結果やフレーム1に対する公知の画像解析により、フレーム1内の人の種類、物の種類、人物の人数などを特定する。例えば、関係性特定部42は、人の種類として「人(客)」、物の種類「商品(商品A)」とを特定する。その後、関係性特定部42は、シーングラフにしたがって、属性「客」のノード「人」と、属性「食品」のノード「商品A」との関係性「人(客)が商品(商品A)を持つ」を特定する。関係性特定部42は、フレーム2やフレーム3などの後続の各フレームについても上記関係性特定処理を実行することで、フレームごとに関係性を特定する。
上述したように、実施例2にかかる情報処理装置10は、例えば店舗ごとに生成したシーングラフを用いることで、機械学習モデルなどのように店舗に合わせた再学習を行うことなく、容易に店舗に適した関係性の判定を実行することができる。したがって、実施例2にかかる情報処理装置10は、本実施例でシステムの導入などを容易に実行することができる。
ところで、上述した行動認識モデル18として、映像データから人物の行動やしぐさを認識する機械学習モデル以外にも、2値クラスの分類を行う機械学習モデルを用いることもできる。すなわち、行動認識モデル18として、アンケート送付対象の行動またはしぐさに該当する「迷った」行動を検出するモデルを用いることができる。
図20は、実施例3にかかる行動認識モデル18を説明する図である。図20に示すように、行動認識モデル18は、画像データの入力に応じて、クラス1「商品の購入に迷った」またはクラス2「商品の購入に迷わなかった」の2値を判定する。なお、行動認識モデル18の出力結果には、各クラスの信頼度(例えば確率値)が含まれる。
次に、実施例3にかかる行動認識モデル18の訓練について説明する。図21は、実施例3にかかる行動認識モデル18の機械学習について説明する図である。図21に示すように、事前処理部30は、説明変数として人物が商品を選んでいる状態が写っている「画像データ」、目的変数である正解ラベルとして「迷った」または「迷わなかった」を有する訓練データを、行動認識モデル18に入力し、行動認識モデル18の出力結果を取得する。その後、事前処理部30は、行動認識モデル18の出力結果と、正解ラベルとの誤差が小さくなるように、行動認識モデル18のパラメータ更新を実行する。このようにして、事前処理部30は、行動認識モデル18の訓練を実行し、行動認識モデル18を生成する。
次に、訓練済みの行動認識モデル18を用いてアンケート送信について説明する。図22は、実施例3にかかる行動認識モデル18を用いたアンケート送信を説明する図である。図22に示すように、運用処理部40は、カメラ2に撮像された映像データ内の各フレームを行動認識モデル18に入力し、行動認識モデル18の出力結果を取得する。
そして、運用処理部40は、行動認識モデル18の出力結果として、クラス1「迷った」が取得されるとともに、クラス1「迷った」の信頼度とクラス2「迷わなかった」の信頼度との差が閾値以上であり、出力結果が高信頼度の場合は、アンケート送信を抑制する。
一方、運用処理部40は、行動認識モデル18の出力結果として、クラス1「迷った」が取得されるとともに、クラス1「迷った」の信頼度とクラス2「迷わなかった」の信頼度との差が閾値未満であり、出力結果が低信頼度の場合は、アンケート送信を実行する。なお、運用処理部40は、行動認識モデル18の出力結果として、クラス2「迷っていない」が取得された場合は、信頼度の差に関わらず、アンケート送信を実行する。
つまり、運用処理部40は、クラス1「迷った」が特定された場合の信頼度に応じて、アンケート送信の制御を実行する。
さらに、運用処理部40は、アンケート結果を用いて再訓練データを生成することもできる。例えば、運用処理部40は、画像データAAを行動認識モデル18に入力して得られた出力結果がクラス1「迷った」かつ低信頼度であることから、アンケート送信を実行し、アンケートの回答として「迷わなかった」を受信したとする。この場合、運用処理部40は、説明変数として「画像データAA」、目的変数として「迷わなかった」を有する再訓練用の訓練データを生成することができる。事前処理部30は、この再訓練用の訓練データを用いて行動認識モデル18の再訓練を実行することで、行動認識モデル18の認識精度を向上させることができる。
なお、ここで送信されるアンケートは、上述した部分アンケート61でもよい。例えば、運用処理部40は、認識結果が第1の条件の一例である「クラス1「迷った」かつ高信頼度」の場合、実施例1で説明した自動取得を用いて分析結果を登録する。一方、運用処理部40は、認識結果が第2の条件の一例である「クラス1「迷った」かつ低信頼度」または「クラス2「迷わなかった」」の場合、実施例1で説明した自動取得および部分アンケートの回答結果を用いて分析結果を登録する。
また、送信されるアンケートは、実施例1で説明したアンケート全体でもよく、予め用意した別の質問情報でもよい。つまり、運用処理部40は、実施例1の関係性特定処理や、行動およびしぐさの特定処理などを実行せず、実施例3の行動認識モデル18により高信頼度のクラス1「迷った」が検出された場合にのみ、アンケート60の送信を実行することもできる。
また、2値分類に限らず、多値分類を行う行動認識モデル18を用いることもできる。例えば、行動認識モデル18は、クラス1「非常に迷った」、クラス2「迷った」、クラス3「迷わなかった」、クラス4「どちらでもない」などの多値クラス分類を行う。この場合、行動認識モデル18は、信頼度が最も大きいクラスと信頼度が2番目に大きいクラスとの差が閾値以上であれば、実施例1で説明した自動取得を用いて分析結果を登録する。一方、行動認識モデル18は、信頼度が最も大きいクラスと信頼度が2番目に大きいクラスとの差が閾値未満であれば、実施例1で説明した自動取得および部分アンケートの回答結果を用いて分析結果を登録する。
このように、実施例3にかかる情報処理装置10は、行動認識モデル18の認識結果の信頼度に応じてアンケート送信を制御することができるので、顧客の心理的な評価が悪い状態に限らず、顧客の心理的な評価が少し悪い状態であっても、アンケートによるユーザ評価を取得することができる。この結果、情報処理装置10は、正確な分析結果を収集することができる。
ところで、例えば、高齢者や不満気な客など、条件を絞り込んで個人対象のアンケートを実施したい場合がある。人手を介さない自動アンケートの場合、スマホなどの個人端末にアンケートを送付できれば個人対象のアンケートを実施できるが、小売店舗などでは来客の個人情報が不明で個人端末へアンケートを送付できない場合がある。このような場合でも、情報処理装置10は、顧客の端末に限らず、任意の場所にアンケートを送信することができる。
図23は、実施例4にかかるアンケート送信を説明する図である。図23に示すように、情報処理装置10の運用処理部40は、アンケート60または部分アンケート61を、セルフレジ70のディスプレイや店舗2のサイネージ80に送信することができる。
ところが、タッチ機能付きデジタルサイネージなどの店舗2の設備を用いて個人対象アンケートを実施しようとする場合、対象者とは別の来客がアンケートに回答してしまい、条件を絞り込んだアンケートが成立しない可能性がある。
そこで、情報処理装置10は、アンケート回答用サイネージ、アンケート対象者、対象者以外の周辺の人物、の各位置関係と、各人物の姿勢の情報とを用いて、対象者しかアンケートに回答し得ない状況でのみ、サイネージにアンケート回答用の画面を表示し、アンケート回答を促す。
例えば、情報処理装置10は、顧客または商品を含む第一のエリアを撮影した映像を分析することで、映像に含まれる複数の人物のうち顧客の商品に対する状態を特定する。情報処理装置10は、顧客の商品に対する状態に基づいて、顧客または商品に関連するアンケートを生成する。そして、情報処理装置10は、サイネージを含む第二のエリアを撮影した映像を分析することで、サイネージに対する複数の顧客それぞれの位置および向きを特定する。その後、情報処理装置10は、特定された位置および向きに基づいて、特定の顧客がサイネージに最も接近しサイネージを向いている状態であるとともに他の顧客が特定の顧客からサイネージから離れていてサイネージを向いていないときに、サイネージに特定の顧客に対するアンケートを表示させる。
図24は、実施例4にかかるアンケート送信の具体例を説明する図である。図24に示すように、情報処理装置10の運用処理部40は、映像データ内の各画像データ(各フレーム)を行動認識モデル18に入力して、各画像データに写っている人物の位置および向きを特定する。ここで、運用処理部40は、関係性特定部42の処理結果から、商品を手に持った顧客、支払いを行った顧客、商品棚の前に一定時間以上滞在した顧客を、アンケート対象者(特定の顧客)と特定する。
そして、運用処理部40は、図24の(a)に示すように、各画像データに写っている人物の位置および向きにより、アンケート対象者がサイネージ80の方を向いて操作可能な位置にいるとともに、アンケート非対象者がサイネージ80の方を向いておらず、操作可能な位置にいないと特定された場合に、サイネージ80にアンケートを表示する。
一方、運用処理部40は、図24の(b)に示すように、各画像データに写っている人物の位置および向きにより、アンケート対象者がサイネージ80の方を向いておらず、アンケート非対象者がサイネージ80の方を向いて操作可能な位置にいると特定された場合に、サイネージ80にアンケートを表示しない。
また、運用処理部40は、図24の(c)に示すように、各画像データに写っている人物の位置および向きにより、アンケート対象者がサイネージ80の方を向いているが操作可能な位置におらず、アンケート非対象者がサイネージ80の方を向いていないと特定された場合に、アンケート対象者がサイネージ80に近づくようなメッセージを表示する。
図25は、実施例4にかかる処理の流れを示すフローチャートである。図25に示すように、運用処理部40は、現場の映像データを取得し(S201)、映像データの分析を実行する(S202)。例えば、運用処理部40は、関係性の特定、人物の位置や向きの特定、行動やしぐさの特定などを実行する。
続いて、運用処理部40は、アンケート対象者およびアンケート表示条件の判定を実行する(S203)。例えば、運用処理部40は、予め定められたアンケート内容や対象者条件を読み込み、分析結果を用いて表示条件に該当するか否かを判定する。
ここで、運用処理部40は、アンケートを表示しないと判定した場合(S204:No)、S201以降を繰り返す。一方、運用処理部40は、アンケートを表示すると判定した場合(S204:Yes)、サイネージ80などの表示装置へのアンケート表示と回答受付を実行する(S205)。
その後、運用処理部40は、アンケートの回答入力を受け付けると(S206:Yes)、アンケートの記録を実行し(S207)、アンケートの非表示を実行する(S209)。一方、運用処理部40は、アンケートの回答入力を受け付けず(S206:No)、タイムアウトに達するまで(S208:No)、サイネージ80などの表示装置へのアンケート表示と回答受付を実行する(S205)。なお、運用処理部40は、アンケートの回答入力を受け付けず(S206:No)、タイムアウトに達した場合(S208:Yes)、アンケートの非表示を実行する(S209)。
なお、運用処理部40は、特に大画面のサイネージ80などの場合には、分析に用いないダミーアンケートを表示することもできる。図26は、実施例4にかかるサイネージのアンケート表示例を説明する図である。
図26に示すように、運用処理部40は、各画像データに写っている人物の位置および向きにより、アンケート対象者とアンケート非対象者との各位置および各向きを特定する。そして、運用処理部40は、アンケート対象者と対面するサイネージ80の領域にはアンケート62を表示し、アンケート非対象者と対面するサイネージ80の領域にはダミーのアンケート63を表示する。
その後、運用処理部40は、アンケート62の回答結果を分析結果として登録し、ダミーのアンケート63の回答結果は破棄する。なお、ダミーアンケート63の回答結果は、同行者の情報として管理することも有益である。
このように、情報処理装置10は、監視カメラ等の映像を用い、アンケート回答用のサイネージ80とアンケート対象者およびその周辺にいる人物の位置や姿勢を判定する。情報処理装置10は、アンケート回答用のサイネージ80に最も近付いている人物がアンケート対象者で、かつ対象者がサイネージ80に体を向け、かつ対象者以外がサイネージ80に体を向けていないという条件下でのみ、サイネージ80にアンケート回答用の画面を表示する。この結果、情報処理装置10は、アンケート対象でない人物がアンケートに回答してしまい、回答の質が低下する状況を防止することができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
<数値等>
上記実施例で用いた数値例、カメラ数、ラベル名、ルール例、行動例、状態例等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。また、上記実施例では、店舗を例にして説明したが、これに限定されるものではなく、例えば倉庫、工場、教室、電車の車内や飛行機の客室などにも適用することができる。
上記実施例で用いた数値例、カメラ数、ラベル名、ルール例、行動例、状態例等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。また、上記実施例では、店舗を例にして説明したが、これに限定されるものではなく、例えば倉庫、工場、教室、電車の車内や飛行機の客室などにも適用することができる。
<システム>
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
<情報処理装置10のハードウェア>
図27は、情報処理装置10のハードウェア構成例を説明する図である。図27に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図27に示した各部は、バス等で相互に接続される。
図27は、情報処理装置10のハードウェア構成例を説明する図である。図27に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図27に示した各部は、バス等で相互に接続される。
通信装置10aは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。HDD10bは、図4に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10dは、図4に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図4等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、事前処理部30と運用処理部40等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、事前処理部30と運用処理部40等と同様の処理を実行するプロセスを実行する。
このように、情報処理装置10は、プログラムを読み出して実行することで情報処理方法を実行する情報処理装置として動作する。また、情報処理装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。
このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。
<サイネージ80のハードウェア>
図28は、サイネージ80のハードウェア構成例を説明する図である。図28に示すように、サイネージ80は、通信装置80a、タッチパネル80b、HDD80c、メモリ80d、プロセッサ80eを有する。また、図28に示した各部は、バス等で相互に接続される。
図28は、サイネージ80のハードウェア構成例を説明する図である。図28に示すように、サイネージ80は、通信装置80a、タッチパネル80b、HDD80c、メモリ80d、プロセッサ80eを有する。また、図28に示した各部は、バス等で相互に接続される。
通信装置80aは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。タッチパネル80bは、アンケートを表示し、アンケートの回答を受け付ける。HDD80cは、各種プログラムやDBを記憶する。
プロセッサ80eは、実施例4で説明した処理と同様の処理を実行するプログラムをHDD80c等から読み出してメモリ80dに展開することで、各処理を実行するプロセスを動作させる。例えば、このプロセスは、アンケートの受信、アンケートの表示、アンケートの回答受付と同様の機能を実行する。
このように、サイネージ80は、プログラムを読み出して実行することで表示方法を実行する情報処理装置として動作する。また、サイネージ80は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、サイネージ80によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。
このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク、CD-ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。
10 情報処理装置
11 通信部
12 記憶部
13 顧客DB
14 アンケートDB
15 映像データDB
16 訓練データDB
17 関係性モデル
18 行動認識モデル
19 分析結果DB
20 制御部
30 事前処理部
40 運用処理部
41 取得部
42 関係性特定部
43 行動認識部
44 評価取得部
45 登録部
80 サイネージ
11 通信部
12 記憶部
13 顧客DB
14 アンケートDB
15 映像データDB
16 訓練データDB
17 関係性モデル
18 行動認識モデル
19 分析結果DB
20 制御部
30 事前処理部
40 運用処理部
41 取得部
42 関係性特定部
43 行動認識部
44 評価取得部
45 登録部
80 サイネージ
Claims (7)
- コンピュータに、
物体が配置されたエリアを撮像した映像データを機械学習モデルに入力することで、前記映像データに含まれる特定のユーザの物体に対する行動における、人物と物体の関係性を特定し、
前記関係性が特定された前記物体に対する前記人物の心理的な評価を取得し、
記憶部に記憶される物体の分析結果を示すデータベースに、特定された前記関係性に関連する結果と、前記人物の心理的な評価とを対応づけて登録する、
処理を実行させることを特徴とする生成プログラム。 - 前記特定する処理は、
前記映像データに含まれる前記特定のユーザの物体に対する行動から、行動が実施された時間、場所および関係性に関連する情報を特定し、
前記取得する処理は、
前記特定のユーザの物体に関する心理的指標に関するアンケートを、前記特定のユーザと対応付けられた端末に送信し、
前記端末から受信したアンケートの回答結果を前記人物の心理的な評価として取得し、
前記登録する処理は、
取得された前記アンケートの回答結果を、前記関係性に関連する結果と対応付けて前記物体の分析結果を示すデータベースに登録をする、
ことを特徴とする請求項1に記載の生成プログラム。 - 前記取得する処理は、
前記アンケートの含まれる複数の項目のうち、前記特定のユーザの物体に対する行動から特定されなかった項目を問い合わせる部分アンケートを生成し、
前記部分アンケートを、前記特定のユーザと対応付けられた端末に送信し、
前記端末から受信したアンケートの回答結果を前記人物の心理的な評価として取得し、
前記登録する処理は、
特定された前記時間、前記場所および前記関係性に関連する情報と、前記部分アンケートの回答結果とを対応付けて、前記物体の分析結果を示すデータベースに登録をする、
ことを特徴とする請求項2に記載の生成プログラム。 - 前記機械学習モデルは、
人物を示す第1クラスおよび前記人物が出現する領域を示す第1領域情報と、物体を示す第2クラスおよび前記物体が出現する領域を示す第2領域情報と、前記第1クラスと前記第2クラスとの関係性と、を識別するように機械学習により生成されたHOID(Human Object Interaction Detection)用のモデルであり、
前記関係性を特定する処理は、
前記映像データを前記HOID用のモデルに入力し、
前記HOID用のモデルの出力として、前記映像データに出現する人物と物体について、前記第1クラスおよび前記第1領域情報、前記第2クラスおよび前記第2領域情報、前記第1クラスと前記第2クラスとの関係性を取得し、
取得した結果に基づき、前記人物と物体の関係性を特定する、
ことを特徴とする請求項1または2に記載の生成プログラム。 - 前記関係性を特定する処理は、
人物と物体を含む対象物を有する映像データを取得し、
各対象物の関係を示すグラフデータを用いて、取得した前記映像データの中の人物と物体の関係性を特定する、
ことを特徴とする請求項1または2に記載の生成プログラム。 - コンピュータが、
物体が配置されたエリアを撮像した映像データを機械学習モデルに入力することで、前記映像データに含まれる特定のユーザの物体に対する行動における、人物と物体の関係性を特定し、
前記関係性が特定された前記物体に対する前記人物の心理的な評価を取得し、
記憶部に記憶される物体の分析結果を示すデータベースに、特定された前記関係性に関連する結果と、前記人物の心理的な評価とを対応づけて登録する、
処理を実行することを特徴とする生成方法。 - 物体が配置されたエリアを撮像した映像データを機械学習モデルに入力することで、前記映像データに含まれる特定のユーザの物体に対する行動における、人物と物体の関係性を特定し、
前記関係性が特定された前記物体に対する前記人物の心理的な評価を取得し、
記憶部に記憶される物体の分析結果を示すデータベースに、特定された前記関係性に関連する結果と、前記人物の心理的な評価とを対応づけて登録する、
制御部を有することを特徴とする情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/028130 WO2024018548A1 (ja) | 2022-07-19 | 2022-07-19 | 生成プログラム、生成方法および情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/028130 WO2024018548A1 (ja) | 2022-07-19 | 2022-07-19 | 生成プログラム、生成方法および情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024018548A1 true WO2024018548A1 (ja) | 2024-01-25 |
Family
ID=89617485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/028130 WO2024018548A1 (ja) | 2022-07-19 | 2022-07-19 | 生成プログラム、生成方法および情報処理装置 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2024018548A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065749A (ja) * | 2005-08-29 | 2007-03-15 | Toshiba Tec Corp | 商品販売データ処理装置 |
JP2011216009A (ja) * | 2010-04-01 | 2011-10-27 | Toshiba Tec Corp | 可搬型情報処理装置及び制御プログラム |
JP2017033401A (ja) * | 2015-08-04 | 2017-02-09 | 株式会社 impactTV | 顧客情報収集装置、顧客情報収集システムおよび顧客情報収集方法 |
JP2019125364A (ja) * | 2018-01-03 | 2019-07-25 | エヌイーシー ラボラトリーズ ヨーロッパ ゲーエムベーハー | マルチモーダルレコメンデーション方法及びシステム |
WO2019171573A1 (ja) * | 2018-03-09 | 2019-09-12 | 日本電気株式会社 | セルフレジシステム、購入商品管理方法および購入商品管理プログラム |
WO2020110211A1 (ja) * | 2018-11-28 | 2020-06-04 | 株式会社オプティム | コンピュータシステム、来店者行動提供オファー方法及びプログラム |
-
2022
- 2022-07-19 WO PCT/JP2022/028130 patent/WO2024018548A1/ja unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065749A (ja) * | 2005-08-29 | 2007-03-15 | Toshiba Tec Corp | 商品販売データ処理装置 |
JP2011216009A (ja) * | 2010-04-01 | 2011-10-27 | Toshiba Tec Corp | 可搬型情報処理装置及び制御プログラム |
JP2017033401A (ja) * | 2015-08-04 | 2017-02-09 | 株式会社 impactTV | 顧客情報収集装置、顧客情報収集システムおよび顧客情報収集方法 |
JP2019125364A (ja) * | 2018-01-03 | 2019-07-25 | エヌイーシー ラボラトリーズ ヨーロッパ ゲーエムベーハー | マルチモーダルレコメンデーション方法及びシステム |
WO2019171573A1 (ja) * | 2018-03-09 | 2019-09-12 | 日本電気株式会社 | セルフレジシステム、購入商品管理方法および購入商品管理プログラム |
WO2020110211A1 (ja) * | 2018-11-28 | 2020-06-04 | 株式会社オプティム | コンピュータシステム、来店者行動提供オファー方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6267861B2 (ja) | 対話型広告のための使用測定技法およびシステム | |
JP2023505455A (ja) | 人間の社会的行動の分類を決定するための方法およびシステム | |
CN109074498A (zh) | 用于pos区域的访问者跟踪方法和系统 | |
KR20230015272A (ko) | 인공지능을 이용한 무인 정보 단말기, 주문 관리 서버 및 주문 정보 제공방법 | |
JP2020067720A (ja) | 人属性推定システム、それを利用する情報処理装置及び情報処理方法 | |
Kamei et al. | Cooperative customer navigation between robots outside and inside a retail shop—an implementation on the ubiquitous market platform | |
WO2024018548A1 (ja) | 生成プログラム、生成方法および情報処理装置 | |
WO2024018545A1 (ja) | 生成プログラム、生成方法および情報処理装置 | |
JP2024013129A (ja) | 表示制御プログラム、表示制御方法および情報処理装置 | |
JP7315049B1 (ja) | 情報処理プログラム、情報処理方法、および情報処理装置 | |
EP4202880A1 (en) | Information processing program, information processing method, and information processing apparatus | |
EP4231252A1 (en) | Information processing program, information processing method, and information processing apparatus | |
EP4231250A1 (en) | Information processing program, information processing method, and information processing apparatus | |
JP7457049B2 (ja) | サポートシステム、サポート処理装置及びサポート方法 | |
US20230206694A1 (en) | Non-transitory computer-readable recording medium, information processing method, and information processing apparatus | |
EP4207098A1 (en) | Information processing program, information processing method, and information processing apparatus | |
US20240020596A1 (en) | Customer service management apparatus, customer service management system, customer service management method, and computer program | |
JP6812603B2 (ja) | 行動関連情報提供システム、行動関連情報の提供方法、プログラム、およびカメラ | |
US20220269890A1 (en) | Method and system for visual analysis and assessment of customer interaction at a scene | |
EP4125067A1 (en) | Generating program, generation method, and information processing device | |
WO2023148856A1 (ja) | 購買分析装置、購買分析方法、及び非一時的なコンピュータ可読媒体 | |
JP2024089580A (ja) | 情報出力プログラム、情報出力方法及び情報処理装置 | |
CN113722605A (zh) | 实时兴趣信息的计算方法及系统 | |
JP2023160057A (ja) | 行動追跡装置、及び行動追跡システム | |
JP2023098482A (ja) | 情報処理プログラム、情報処理方法および情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22951937 Country of ref document: EP Kind code of ref document: A1 |