WO2018131214A1 - 予測装置及び予測方法 - Google Patents

予測装置及び予測方法 Download PDF

Info

Publication number
WO2018131214A1
WO2018131214A1 PCT/JP2017/034045 JP2017034045W WO2018131214A1 WO 2018131214 A1 WO2018131214 A1 WO 2018131214A1 JP 2017034045 W JP2017034045 W JP 2017034045W WO 2018131214 A1 WO2018131214 A1 WO 2018131214A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
product
arrangement
flow
change
Prior art date
Application number
PCT/JP2017/034045
Other languages
English (en)
French (fr)
Inventor
純幸 沖本
秦 秀彦
伊藤 智祥
山口 晃一郎
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to JP2018539450A priority Critical patent/JP6562373B2/ja
Publication of WO2018131214A1 publication Critical patent/WO2018131214A1/ja
Priority to US16/274,470 priority patent/US20190180202A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Definitions

  • the present disclosure relates to a prediction device and a prediction method for predicting a flow of a shopper.
  • Patent Document 1 discloses a customer simulator system that calculates the probability of a customer staying on each of a plurality of shelves in a store based on the stay probability of the customer in the store, the staying time and the distance between shelves in the store, etc. Is disclosed. As a result, the unit price of the customer when the arrangement of the products on the shelf is changed is calculated, and the sales after the arrangement change can be predicted.
  • This disclosure provides a prediction device and a prediction method for predicting the flow of a shopper after changing the product arrangement.
  • the prediction device is a prediction device that predicts the flow of a person after the arrangement change of a product in an area, and includes flow line information indicating a flow of a plurality of people in the area and an arrangement that indicates an arrangement position of the product. Based on the acquisition unit that acquires the information, the change information indicating the change of the product, and the flow line information and the placement information, a behavior model of the person in the region is generated by reverse reinforcement learning, And a control unit that predicts the flow of people after changing the arrangement of the product based on the change information.
  • the prediction method of the present disclosure is a prediction method for predicting the flow of people after a change in the arrangement of products in an area, and flow line information indicating the flow of a plurality of people in the area, and an arrangement indicating the arrangement position of the products
  • the prediction device and the prediction method of the present disclosure it is possible to accurately predict the flow of the shopper after changing the product arrangement.
  • FIG. 1 is a block diagram illustrating a configuration of a prediction device according to Embodiment 1 of the present disclosure.
  • FIG. 2 is a diagram for explaining a store area in the first embodiment.
  • FIG. 3 is a flowchart for explaining generation of a shopper's behavior model in the first embodiment.
  • FIG. 4 is a diagram showing an example of a feature vector representing a state in the first embodiment.
  • FIG. 5 is a diagram illustrating an example of flow line information in the first embodiment.
  • FIG. 6 is a diagram showing an example of purchased product information in the first embodiment.
  • FIG. 7 is a flowchart for explaining the flow line prediction of the shopper after the product arrangement change in the first embodiment.
  • FIG. 8 is a flowchart for explaining a specific example of the flow line prediction of FIG.
  • FIG. 9 is a diagram for explaining strategy determination based on reward in the first embodiment.
  • FIG. 10A is a diagram illustrating a display example of predicted behaviors and flow lines in the first embodiment.
  • FIG. 10B is a diagram illustrating a display example of predicted behaviors and flow lines in the first embodiment.
  • Patent Document 1 simulates the behavior of a shopper based on the condition that there is a high probability of moving to a shelf having a shorter moving distance among a plurality of shelves.
  • the shelves on which shoppers stop depend on the purchase purpose of the shoppers. Therefore, the shopper does not always select a course with a short travel route for shopping. Therefore, according to the condition that there is a high probability of moving to a shelf having a shorter moving distance among a plurality of shelves, it is not possible to accurately simulate the flow of shoppers.
  • the present disclosure provides a prediction device that makes it possible to accurately predict the flow of a shopper after changing the product arrangement.
  • the prediction device of the present disclosure predicts the flow of the shopper after changing the product arrangement by reverse reinforcement learning based on the actual product arrangement (store layout) and the actual flow line of the shopper.
  • FIG. 1 is a block diagram illustrating a configuration of a prediction apparatus according to the present embodiment.
  • the prediction device 1 includes a communication unit 10, a storage unit 20, an operation unit 30, a control unit 40, and a display unit 50.
  • the communication unit 10 includes an interface circuit for performing communication with an external device in accordance with a predetermined communication standard (for example, LAN, WiFi, Bluetooth (registered trademark), USB).
  • a predetermined communication standard for example, LAN, WiFi, Bluetooth (registered trademark), USB.
  • the communication unit 10 acquires the product arrangement information 21, the flow line information 22, and the purchased product information 23.
  • the product placement information 21 is information indicating the actual placement position of the product.
  • the product placement information 21 includes, for example, a product identification number (ID) and a shelf identification number (ID) on which the product is placed.
  • the flow line information 22 is information indicating the flow of shoppers in the store.
  • the flow line information 22 is generated from an image of a camera installed in the store.
  • FIG. 2 is a diagram illustrating an example of a store area in the first embodiment.
  • the passage in the store is shown divided into a plurality of areas s1 to s26.
  • the area division of the passage shown in FIG. 2 is merely an example, and the passage can be divided into an arbitrary number and an arbitrary arrangement of areas.
  • the flow line information 22 indicates the flow of the shopper by, for example, identification numbers s1 to s26 of areas (passages) that have passed.
  • Purchased product information 23 is information indicating a product purchased by a shopper at a store. Purchased product information 23 is acquired from a POS terminal device or the like in the store.
  • the storage unit 20 stores the product arrangement information 21, the flow line information 22, the purchased product information 23 acquired via the communication unit 10, and the behavior model information 24 generated by the control unit 40.
  • the storage unit 20 can be realized by, for example, a hard disk (HDD), SSD, RAM, DRAM, ferroelectric memory, flash memory, magnetic disk, or a combination thereof.
  • the operation unit 30 receives input from the user to the prediction device 1.
  • the operation unit 30 includes a keyboard, a mouse, a touch panel, and the like.
  • the operation unit 30 acquires the product arrangement change information 25.
  • the product arrangement change information 25 indicates the product whose arrangement is to be changed and the location after the change.
  • the product arrangement change information 25 includes, for example, an identification number (ID) of a product whose arrangement is changed and an identification number (ID) of the shelf after the change.
  • the control unit 40 includes a first feature vector generation unit 41 that generates a feature vector (area feature information) f (s) indicating each feature of the areas s1 to s26 in the store from the product arrangement information 21, and flow line information. 22 and a model generation unit 42 that generates a shopper's behavior model based on the purchase product information 23.
  • the feature vector f (s) includes at least information indicating products that can be purchased in each of the areas s1 to s26. Note that the feature vector f (s) includes information indicating the distance from the area to the product shelf, doorway, or cash register, information indicating the area size, and the like in addition to information indicating products that can be purchased in the area. But you can.
  • the model generation unit 42 includes a flow line information division unit 42a and a reward function learning unit 42b.
  • the flow line information dividing unit 42 a divides the flow line information 22 based on the purchased product information 23.
  • the reward function learning unit 42b learns the reward r (s) based on the feature vector f (s) and the divided flow line information 22.
  • the shopper's behavior model corresponds to a reward function expressed by the following equation (1).
  • the reward r (s) is expressed as a map ⁇ (f (s)) of the feature vector f (s).
  • the reward function learning unit 42b acquires the shopper's behavior model information 24 by learning the reward r (s) from a plurality of series data relating to the flow of the shopper, that is, area transition.
  • the behavior model information 24 is a function (mapping) ⁇ in Expression (1).
  • the control unit 40 further includes a second feature vector generation unit 44 and a flow line prediction unit 45.
  • the second feature vector generation unit 44 includes a product arrangement information correction unit 43 that corrects the product arrangement information 21 based on the product arrangement change information 25 input via the operation unit 30, and the corrected product arrangement information 21. Based on, a feature vector F (s) indicating the feature of each area in the store when the arrangement of the product is changed is generated.
  • the flow line prediction unit 45 predicts the flow line (flow) of the shopper after changing the product arrangement based on the feature vector F (s) after changing the product arrangement and the behavior model information 24.
  • the product arrangement information correction unit 43 may newly generate the product arrangement information 21 after the arrangement change, based on the product arrangement change information 25, instead of correcting the actual product arrangement information 21.
  • the control unit 40 can be realized by a semiconductor element or the like.
  • the function of the control unit 40 may be configured only by hardware, or may be realized by combining hardware and software.
  • the control unit 40 can be composed of, for example, a microcomputer, CPU, MPU, DSP, FPGA, and ASIC.
  • the display unit 50 displays, for example, the predicted flow line or the result of the action.
  • the display unit 50 includes a liquid crystal display or an organic EL display.
  • the communication unit 10 and the operation unit 30 correspond to an acquisition unit that acquires information from the outside.
  • the control unit 40 corresponds to an acquisition unit that acquires information stored in the storage unit 20.
  • the communication unit 10 corresponds to an output unit that outputs a prediction result to the outside.
  • the control unit 40 corresponds to an output unit that outputs a prediction result to the storage unit 20.
  • the display unit 50 corresponds to an output unit that outputs the prediction result to the screen.
  • FIG. 3 is a flowchart for explaining generation of a shopper's behavior model in the embodiment.
  • the prediction device 1 first generates a shopper's behavior model based on the actual product placement position in the store and the flow line of the shopper in the store.
  • FIG. 7 is a flowchart for explaining the flow line prediction of the shopper after the product arrangement change in the embodiment.
  • the prediction device 1 predicts the flow line of the shopper when the arrangement of the products is changed based on the behavior model shown in FIG. 3.
  • the shopper's behavior model is generated by reverse reinforcement learning. Inverse reinforcement learning is to estimate “reward” from “state” and “action”.
  • “state” represents that a shopper is in a specific area with respect to an area obtained by discretely dividing the store. Also, the shopper moves from one area to another (changes state) by “behavior”.
  • “Reward” is a hypothetical quantity that explains the flow of a shopper, and it is assumed that the shopper repeats “action” that maximizes the total “reward” that can be obtained each time the state changes. . In other words, for the virtual “reward” allocated to each area, the “action” column (state transition column) in which the sum of the “reward” is large matches the flow line that the shopper often passes. Reward ”is estimated by reverse reinforcement learning. As a result, areas with high “reward” generally correspond to areas where shoppers are often present or pass.
  • FIG. 3 shows an action model generation operation by the control unit 40.
  • the first feature vector generation unit 41 acquires the product arrangement information 21 from the storage unit 20 (S101).
  • the first feature vector generation unit 41 generates a feature vector f (s) of each area in the store based on the product arrangement information 21 (S102).
  • FIG. 4 is a diagram illustrating an example of the feature vector f (s).
  • the feature vector f (s1) of the area s1 is “0, 0, 0, 0,... 1”.
  • “1” indicates a product that can be acquired within the area
  • “0” indicates a product that cannot be acquired within the area.
  • Whether or not the product can be acquired is determined by, for example, a shelf that can be reached from each of the areas s1 to s26 (specifically, a shelf adjacent to each area or a shelf within a predetermined range from each area). It is determined by whether or not the product is arranged.
  • the user may correct the feature vector f (s) generated by the first feature vector generation unit 41 via the operation unit 30.
  • the flow line information dividing unit 42a acquires the flow line information 22 from the storage unit 20 (S103).
  • FIG. 5 is a diagram illustrating an example of the flow line information 22.
  • the flow line information 22 includes identification numbers (ID) G 1 to G m of shoppers identified in the video and identification numbers s 1 to s 26 of the areas (passages) through which the shopper has passed. It shows.
  • the identification numbers s1 to s26 of the areas (passages) through which the shopper has passed indicate, for example, the order in which the shopper has passed.
  • the flow line information 22 should just be the information which can specify the area which the shopper passed, and the passage order.
  • the flow line information 22 may include the identification number (ID) of the shopper, the identification number (ID) of the area through which the shopper has passed, and the time of passage through the area.
  • the flow line information dividing unit 42a further acquires the purchase product information 23 from the storage unit 20 (S104).
  • FIG. 6 is a diagram illustrating an example of the purchase product information 23.
  • the purchased product information 23 includes, for example, shoppers' identification numbers (ID) G 1 to G m , the names or identification numbers (IDs) of purchased products, and the number of purchased products.
  • Purchased product information 23 further includes the date and time (not shown) when the product was purchased.
  • the flow line information 22 and the purchased product information 23 are associated with each other by shoppers' identification numbers G 1 to G m .
  • the control unit 40 includes, for example, the date and time included in the flow line information 22 and the purchase product information 23 from the fact that the time when the shopper stays at the cash register and the time when the purchase item input at the cash register is almost the same
  • the flow line information 22 and the purchased product information 23 may be associated with each other on the basis of the date and time.
  • the control unit 40 acquires the flow line information 22 and the purchase product information 23 associated with each other by the shopper's identification number or the like via the communication unit 10 from the outside, and stores them in the storage unit 20. May be.
  • the flow line information dividing unit 42a divides the shoppers into a plurality of groups based on the flow line information 22 and the purchased product information 23 (S105). Grouping can be performed by any method. For example, shoppers who have purchased a predetermined product are grouped together. In FIG. 6, for example, shoppers G 1 and G 3 who have purchased the product Xo are grouped together.
  • the flow line information dividing unit 42a divides the flow lines (state transition series) in the group into a plurality of purchase stages (S106).
  • the “purchase stage” is, for example, a target purchase stage, a purchase stage, and a payment stage.
  • the stage division can be performed by an arbitrary method. For example, the steps may be divided based on a predetermined condition (until or after purchasing a predetermined product, or until or after passing through a predetermined area).
  • the stage division is not limited to two stages.
  • the purchase stage may be divided into three or more stages.
  • the reward function learning unit 42b uses the feature vector f (s) generated in step S102 and a plurality of flow lines (state transition series) divided for each purchase stage obtained in step S106. Then, a behavior model is generated for each of the purchase stages m1 and m2 by reverse reinforcement learning (purchasing behavior learning) (S107).
  • a plurality of flow line data corresponding to the purchase stages m1 and m2 is used as learning data, and each state s represented by the equation (1) Learn the reward function.
  • the pass (or stay) probability of each area calculated from the reward r (s) estimated by the mapping ⁇ is best matched with the pass (or stay) probability of the area obtained from the learning data. Find the map ⁇ .
  • a method for obtaining such a mapping ⁇ a method of repeatedly updating by a gradient method or a learning method using a neural network can be used.
  • the method based on reinforcement learning can be used as a method for obtaining the probability of passing (or staying) in each area from the reward r (s), and the specific method will be described later [Section 2.3 after changing product placement.
  • the method described in “Flow line prediction” is used.
  • the reward function learning unit 42b stores ⁇ obtained by the equation (1) in the storage unit 20 as the behavior model information 24 (S108).
  • FIG. 7 is a diagram illustrating a flow line prediction operation after the product arrangement is changed by the control unit 40.
  • the product arrangement information correction unit 43 acquires the product arrangement change information 25 via the operation unit 30 (S201).
  • the product placement information correction unit 43 generates the product placement information 21 after the product placement change by correcting the product placement information 21 based on the acquired product placement change information 25 (S202).
  • the second feature vector generation unit 44 generates a feature vector F (s) of each area after the product placement change based on the product placement information 21 after the product placement change (S203).
  • the generation of the feature vector F (s) after the product arrangement change can be performed by the same method as the generation of the feature vector f (s) based on the actual product arrangement.
  • the flow line prediction unit 45 uses the feature vector F (s) after the product arrangement change and the behavior model information 24 stored in the storage unit 20 in step S108, and then the product arrangement change post-change.
  • the flow (flow line) of the shopper is predicted (S204). Thereafter, the flow line prediction unit 45 outputs the predicted result to the outside via, for example, the display unit 50, the storage unit 20, or the communication unit 10 (S205).
  • FIG. 8 is a diagram showing the details of the shopper's flow line prediction (S204) after the product arrangement change in FIG.
  • the flow line prediction unit 45 firstly, based on the feature vector F (s) after the product placement change and the behavior model information 24, the reward R ( s) is calculated by the following equation (2) (S301).
  • the flow line prediction unit 45 learns the optimal action a by reinforcement learning based on the reward R (s) (S302 to S305).
  • the flow line prediction unit 45 sets initial values of the strategy ⁇ (s) and the expected reward sum U ⁇ (s) (S302).
  • the strategy ⁇ (s) indicates an action a to be taken next in each area (state s).
  • the expected reward sum U ⁇ (s) indicates the sum of rewards that will be obtained when an action based on the strategy ⁇ is continued with s as a starting point, and has the meaning of the following equation (3).
  • the flow line predicting unit 45 can take the expected value ⁇ T (s, a, s ′) U ⁇ (s ′) of the total sum of rewards obtained when the action a that can be taken in the state s is taken. It calculates for every action a (S303). From the expected value ⁇ T (s, a, s ′) U ⁇ (s ′) calculated for each possible action a, the flow line prediction unit 45 selects the action a having the maximum value as a new strategy for the state s. While updating as ⁇ (s), the expected reward sum U ⁇ (s) is updated (S304).
  • steps S303 and S304 the flow line prediction unit 45, based on the reward R (s) of each area (state s), the optimal strategy ⁇ (s) and expected reward sum U ⁇ of each area. (S) is updated by the following equations (4) and (5).
  • T (s, a, s ′) is the probability of transition to state s ′ by performing action a in state s.
  • the state s means an area
  • the flow line prediction unit 45 determines whether or not the strategy ⁇ (s) and the expected reward sum U ⁇ (s) of all states s have been determined (S305). The determination here means that the strategy ⁇ (s) and the expected reward sum U ⁇ (s) of all states s converge. Steps S303 and S304 are repeated until the strategy ⁇ (s) and the expected reward sum U ⁇ (s) of all states s are determined.
  • ⁇ (s) is updated with the action a having the maximum expected value ⁇ T (s, a, s ′) U ⁇ (s ′) in Equations (4) and (5) as a new strategy, and at the same time U ⁇ ( By updating s), an optimal strategy ⁇ (s) and expected reward sum U ⁇ (s) are finally obtained.
  • FIG. 9 is a diagram showing an image of the reward R (s) of the area s16 and the surrounding area, the action a that can be taken by the area s16 (state s), and the optimum strategy ⁇ (s).
  • T (s16, a1, s13) 1 (100%)
  • the probability T is not necessarily “1” and “0”.
  • the probabilities T (s14, a3, s17) and T (s14, a3, s18) to transition to the areas s17, s18 are set to 0.5, respectively. It may be determined in advance.
  • a predetermined value of T (s, a, s ′) is stored in the storage unit 20.
  • actions a1, a2, a3, and a4 can be taken.
  • ⁇ T (s16, a3, s ′) U ⁇ (s ′) and ⁇ T (s16, a4, s ′) U ⁇ (s ′) are calculated.
  • ⁇ in this case means s ′, that is, the sum related to s13, s15, s17, and s20.
  • the strategy ⁇ (s) is a method of deterministically selecting only one action, but it can be obtained probabilistically. That is, it is possible to determine the strategy ⁇ (s) as the probability that the action a should be taken in the state s as shown in the equation (6).
  • Equation (6) is for normalization term so that the sum of P (a
  • the probability T (s i , a, s i + 1 ) is a probability of transition to the state s i + 1 by performing the action a in the state s i , and is a value determined in advance as described above.
  • the flow line prediction unit 45 calculates the transition probability P (s a ⁇ s b ) of a predetermined route (area s a ⁇ s b ) based on the transition probability P (s i + 1
  • the flow line predicting unit 45 calculates the flow line transition probability P (s1 ⁇ s12) from entering the store to purchasing the product Xo as P (s1) ⁇ P (s6
  • the transition probability P (s a ⁇ s b ) can be obtained by setting the transition probability as a matrix and repeating the matrix product.
  • the transition probability matrix is a matrix in which the (i, j) component of the matrix is P (s j
  • the area s a can be passed through any path. it can be the sum of the probability of reaching the area s b.
  • transition probability P (s a ⁇ s b ) When the transition probability P (s a ⁇ s b ) is high, it means that many shoppers take the route (area s a ⁇ s b ). On the other hand, when the transition probability P (s a ⁇ s b ) is low, it means that the shopper hardly passes the route (area s a ⁇ s b ).
  • the output of the prediction result for example, information including the transition probability P (s a ⁇ s b ) of the predetermined route calculated in step S307 is output.
  • the prediction result output in step S205 in FIG. 7 may be information indicating the optimum strategy ⁇ (s) obtained in steps S303 to S305. In this case, steps S306 and S307 may be omitted. Further, the prediction result to be output may be information indicating the transition probability P (s i + 1
  • FIG. 10A and 10B show display examples of prediction results by the display unit 50.
  • FIG. 10A the action a of the optimal strategy ⁇ (s) in each area is indicated by an arrow 61, and the reward R (s) in each area is indicated by a circle 62.
  • the size of the circle 62 is increased as the reward R (s) is increased. Note that the larger the reward R (s), the darker the circle 62 may be displayed.
  • FIG. 10B shows a part of the transition probability P (s i + 1
  • s i ) for example, the larger the transition probability P (s i + 1
  • the line 63 may be displayed darker as the transition probability P (s i + 1
  • the prediction device 1 of the present disclosure is a prediction device that predicts the flow of people after a change in the arrangement of products in a store (an example of an area), and flow line information 22 indicating the flow of a plurality of people in the store. And a communication unit 10 (an example of an acquisition unit) that acquires product arrangement information 21 that indicates the arrangement position of the product, and an operation unit 30 (an example of an acquisition unit) that acquires product arrangement change information 25 that indicates an arrangement change of the product.
  • the behavior model is generated as follows.
  • a store (an example of a region) includes a plurality of areas (an example of a section, for example, areas s1 to s26 illustrated in FIG. 2), and the flow line information 22 indicates an area through which each of a plurality of people has passed.
  • the control unit 40 sets each of the plurality of areas as “states” in the inverse reinforcement learning, and learns the reward r (s) of each state based on the flow line information 22, thereby obtaining the behavior model information 24 (function (mapping). ) ⁇ ).
  • control unit 40 generates a feature vector f (s) (zone feature information) indicating a product that can be acquired in each of a plurality of areas based on the product placement information 21, and performs reverse reinforcement learning.
  • the state is represented by a feature vector f (s).
  • the communication unit 10 (an example of an acquisition unit) further acquires purchase product information 23 indicating products purchased by a plurality of people in the store. Then, the control unit 40 groups a plurality of people based on the purchased product information 23 and generates an action model based on the flow line information 22 after the grouping.
  • an action model for a group that purchased the same product (that is, a group having the same purchase purpose) can be generated, so that a more accurate action model can be generated.
  • control unit 40 divides each flow of a plurality of people into a plurality of purchase stages based on the flow line information 22, and generates an action model corresponding to each of the plurality of purchase stages.
  • the magnitude of the reward changes depending on the purchase stage. For example, it is considered that the magnitude of the reward changes before and after purchasing the target product even in the same area. Therefore, a behavior model with higher accuracy can be generated by generating a behavior model for each purchase stage.
  • the control unit 40 calculates a reward R (s) after the change of the product arrangement based on the behavior model information 24 (function (mapping) ⁇ ) and the product arrangement change information 25.
  • the control unit 40 determines a strategy ⁇ (s) indicating an action that a person in the store should take in each state based on the reward R (s) after the change in the arrangement of the product.
  • the control unit 40 calculates a person's transition probability P (s i + 1
  • the prediction device 1 further includes an output unit (for example, the communication unit 10, the control unit 40, and the display unit 50) that outputs a result (for example, transition probability) indicating the predicted human flow.
  • the prediction method of the present disclosure is a prediction method for predicting the flow of people after changing the arrangement of products in a store (an example of an area). That is, step S101 for obtaining the product placement information 21 indicating the placement position of the product shown in FIG. 3, step S103 for obtaining the flow line information 22 indicating the flow of a plurality of people in the store, and the change in the placement of the product are shown.
  • FIG. 7 shows steps S102 and S107 for generating a behavior model of a person in the store by reverse reinforcement learning based on the step S201 for obtaining the product placement change information 25, the flow line information 22 and the product placement information 21. As shown in the figure, steps S202 to S204 for predicting the flow of people after the change of the product arrangement based on the behavior model and the product arrangement change information 25 are included.
  • the first embodiment has been described as an example of the technique disclosed in the present application.
  • the technology in the present disclosure is not limited to this, and can also be applied to an embodiment in which changes, replacements, additions, omissions, and the like are appropriately performed.
  • step S105 of the first embodiment shoppers who have purchased a predetermined product are grouped together.
  • grouping is not limited to the method of the first embodiment. The grouping can be performed by an arbitrary method as long as the grouping is performed using the flow line information 22 and the purchased product information 23.
  • the N-dimensional classification based on the flow line information 22 and the purchased product information 23 corresponds to the classification based on N store motives.
  • the flow line information dividing unit 42a can group the shoppers based on the vector similarity of store visit motives. Further, for example, the flow line information dividing unit 42a may perform grouping based on the largest numerical value in the vector expression of each shopper.
  • the flow line information dividing unit 42a uses, for example, a method called non-negative tensor factorization, unsupervised learning using a neural network, or a clustering method (K-means method or the like). May be.
  • stage division into a plurality of purchase stages is performed under a predetermined condition (until the product Xo is purchased or after it is purchased). Based on.
  • the stage division is not limited to the method of the first embodiment.
  • the stages may be divided using a hidden Markov model (HMM).
  • the probability P (s1,..., S26) when the shopper's behavior is observed in the state transition sequence ⁇ s1,. Can be represented.
  • m i-1 ) is the probability of transition from the purchase stage m i-1 (for example, the stage of buying the target product) to the purchase stage m i (for example, the stage of payment).
  • m i) is the probability to stay or pass through the area s j in the purchase stage m i (for example, the probability to stay or pass through s26 in performing a payment).
  • m i ) at which the value of Expression (8) is maximized are obtained.
  • the state transition sequence is divided according to the initial values P (m i
  • m i) first area s when purchasing step m i is a transition from the purchase stage m i-1 of the probability (before starting with the area s j to the next purchase step m i j is a probability)
  • a m i-1 m i) an area s j when transitioning to the same purchase stage m i from the purchase stage m i the probability P (s j
  • m i- 1 m i) is determined by counting on the basis of the number of times the area s j is generated as the starting area of the purchase stage m i in the flow line information 22 of the same group.
  • s j- 1) the partial sequence group corresponding to the purchase stage m i (e.g., s1, ⁇ ⁇ ⁇ , s12) from the inverse reinforcement learning obtained.
  • m i ⁇ 1 ) can be estimated by the HMM. Further, the output probability P of area s j for each purchase stage m i
  • the control unit 40 proposes an arrangement change of another product having a predetermined relationship with a predetermined product on the exit flow line after the purchase stage division.
  • the changed arrangement may be output to the display unit 50.
  • Another product having a predetermined relationship is, for example, a product that is often purchased at the same time as the predetermined product.
  • the control unit 40 When a plurality of product arrangement change information 25 is input via the operation unit 30, the control unit 40, based on each input product arrangement change information 25, the transition probability P (s i + 1
  • the transition probability P (s a ⁇ s b ) of the predetermined route may be calculated.
  • the product arrangement change information 25 that increases the transition probability P (s a ⁇ s b ) of the predetermined route is extracted from the plurality of product arrangement change information 25, for example, the extracted product arrangement change information 25 is displayed on the display unit 50. May be output.
  • the store in the present embodiment may be a predetermined area.
  • a plurality of areas in the store may be set as a plurality of areas in a predetermined area.
  • the prediction device of the present disclosure it is possible to predict the flow line of the shopper after changing the arrangement of the products, and thus various devices that provide the user with information on the arrangement positions of the products that improve sales. Useful in.
  • Prediction device 10 Communication unit (acquisition unit) DESCRIPTION OF SYMBOLS 20 Memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

予測装置(1)は、領域内の商品の配置変更後の人の流れを予測する装置であって、領域内の複数の人の流れを示す動線情報と、商品の配置位置を示す配置情報と、商品の配置変更を示す変更情報とを取得する取得部(10、30)と、動線情報と配置情報とに基づいて、逆強化学習により、領域内の人の行動モデルを生成し、行動モデルと変更情報とに基づいて、商品の配置変更後の人の流れを予測する制御部(40)と、を備える。

Description

予測装置及び予測方法
 本開示は、買い物客の流れを予測する予測装置及び予測方法に関する。
 特許文献1は、店舗内における顧客の滞在確率及び滞在時間と店舗内の棚間の距離などに基づいて、店舗内の複数の棚のそれぞれに対して顧客が滞在する確率を計算する顧客シミュレータシステムを開示する。これにより、棚にある商品の配置を変更した場合の顧客単価を算出し、配置変更後の売上の予測を可能にしている。
特許第5905124号公報
 本開示は、商品配置変更後の買い物客の流れを予測する予測装置及び予測方法を提供する。
 本開示の予測装置は、領域内の商品の配置変更後の人の流れを予測する予測装置であって、領域内の複数の人の流れを示す動線情報と、商品の配置位置を示す配置情報と、商品の配置変更を示す変更情報と、を取得する取得部と、動線情報と配置情報とに基づいて、逆強化学習により、領域内の人の行動モデルを生成し、行動モデルと変更情報とに基づいて、商品の配置変更後の人の流れを予測する制御部と、を備える。
 本開示の予測方法は、領域内の商品の配置変更後の人の流れを予測する予測方法であって、領域内の複数の人の流れを示す動線情報と、商品の配置位置を示す配置情報と、商品の配置変更を示す変更情報とを取得するステップと、動線情報と配置情報とに基づいて、逆強化学習により、領域内の人の行動モデルを生成するステップと、行動モデルと変更情報とに基づいて、商品の配置変更後の人の流れを予測するステップと、を含む。
 本開示の予測装置及び予測方法によれば、商品配置変更後の買い物客の流れを精度良く予測することが可能になる。
図1は本開示の実施の形態1における予測装置の構成を示すブロック図である。 図2は実施の形態1における店舗のエリアを説明するための図である。 図3は実施の形態1における買い物客の行動モデルの生成を説明するためのフローチャートである。 図4は実施の形態1における状態を表す特徴ベクトルの一例を示す図である。 図5は実施の形態1における動線情報の一例を示す図である。 図6は実施の形態1における購買品情報の一例を示す図である。 図7は実施の形態1における商品配置変更後の買い物客の動線予測を説明するためのフローチャートである。 図8は図7の動線予測の具体例を説明するためのフローチャートである。 図9は実施の形態1における報酬に基づいた戦略の決定を説明するための図である。 図10Aは実施の形態1における予測した行動及び動線の表示例を示す図である。 図10Bは実施の形態1における予測した行動及び動線の表示例を示す図である。
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。
 (本開示に至った経緯)
 発明者らは、店舗内の商品配置を変更すると、買い物客の行動は変化するため、商品の配置を精度よく最適化するためには、配置変更に伴う買い物客の行動の変化を考慮する必要があると考えた。一方、特許文献1は、複数の棚のうち移動距離がより近い棚に移動する確率が高いという条件に基づいて、買い物客の行動をシミュレーションしている。
 しかし、買い物客が立ち寄る棚は、買い物客の購買目的によって変わる。よって、買い物客が、常に移動経路の短いコースを選んで買い物をするとは限らない。そのため、複数の棚のうち移動距離がより近い棚に移動する確率が高いという条件に従うと、買い物客の流れを精度良くシミュレーションすることができない。
 このような課題を鑑み、本開示では、商品配置変更後の買い物客の流れを精度良く予測することを可能にする予測装置を提供する。具体的には、本開示の予測装置は、実際の商品配置(店舗レイアウト)及び買い物客の実際の動線に基づいて、逆強化学習により、商品配置変更後の買い物客の流れを予測する。
 以下、本開示の予測装置について、詳細を説明する。
 (実施の形態1)
 1.構成
 図1は、本実施の形態の予測装置の構成を示すブロック図である。図1において、本実施の形態の予測装置1は、通信部10、記憶部20、操作部30、制御部40、及び表示部50を含む。
 通信部10は、所定の通信規格(例えばLAN、WiFi、Bluetooth(登録商標)、USB)に準拠して外部機器との通信を行うためのインタフェース回路を備える。通信部10は、商品配置情報21と、動線情報22と、購買品情報23とを取得する。
 商品配置情報21は、商品の実際の配置位置を示す情報である。商品配置情報21は、例えば、商品の識別番号(ID)と商品が配置されている棚の識別番号(ID)などを含む。
 動線情報22は、店舗内にいる買い物客の流れを示す情報である。動線情報22は、店舗内に設置されたカメラの映像等から生成される。
 図2は、実施の形態1における店舗のエリアの一例を示す図である。図2において、店舗内の通路が複数のエリアs1~s26に分けて示されている。図2に示す通路のエリア分割は単なる一例であって、通路は任意の数及び任意の配置のエリアに分割することが可能である。
 動線情報22は、買い物客の流れを、例えば通過したエリア(通路)の識別番号s1~s26によって示される。
 購買品情報23は、買い物客が店舗で購入した商品を示す情報である。購買品情報23は、店舗内のPOS端末装置等から取得される。
 記憶部20は、通信部10を介して取得した商品配置情報21、動線情報22、及び購買品情報23と、制御部40により生成される行動モデル情報24とを格納する。記憶部20は、例えば、ハードディスク(HDD)、SSD、RAM、DRAM、強誘電体メモリ、フラッシュメモリ、又は磁気ディスク、又はこれらの組み合わせによって実現できる。
 操作部30は、ユーザによる予測装置1への入力を受け付ける。操作部30は、キーボード、マウス、タッチパネル等で構成される。操作部30は、商品配置変更情報25を取得する。
 商品配置変更情報25は、配置を変更しようとする商品と変更後の場所とを示す。具体的には、商品配置変更情報25は、例えば、配置変更する商品の識別番号(ID)と、変更後の棚の識別番号(ID)とを含む。
 制御部40は、商品配置情報21から店舗内のエリアs1~s26のそれぞれの特徴を示す特徴ベクトル(エリア特徴情報)f(s)を生成する第1の特徴ベクトル生成部41と、動線情報22と購買品情報23とに基づいて買い物客の行動モデルを生成するモデル生成部42と、を含む。
 特徴ベクトルf(s)は、少なくとも、エリアs1~s26のそれぞれで購入可能な商品を示す情報を含む。なお、特徴ベクトルf(s)は、エリアで購入可能な商品を示す情報に加えて、エリアから商品棚、出入り口、又はレジまでの距離を示す情報、及びエリアの広さを示す情報などを含んでもよい。
 モデル生成部42は、動線情報分割部42aと、報酬関数学習部42bとを含む。動線情報分割部42aは、動線情報22を購買品情報23に基づいて分割する。報酬関数学習部42bは、特徴ベクトルf(s)と分割した動線情報22とに基づいて報酬r(s)を学習する。
 「買い物客の行動モデル」は、下記の式(1)で表される報酬関数に相当する。
 r(s)=φ(f(s))・・・(1)
 式(1)において、報酬r(s)は、特徴ベクトルf(s)の写像φ(f(s))として表現されている。報酬関数学習部42bは、買い物客の動線すなわちエリア遷移に関する複数の系列データから、報酬r(s)を学習することによって、買い物客の行動モデル情報24を取得する。行動モデル情報24は、式(1)における関数(写像)φである。
 制御部40は、さらに、第2の特徴ベクトル生成部44と、動線予測部45とを含む。
 第2の特徴ベクトル生成部44は、操作部30を介して入力された商品配置変更情報25に基づいて、商品配置情報21を修正する商品配置情報修正部43と、修正後の商品配置情報21に基づいて、商品の配置を変更した場合の店舗内の各エリアの特徴を示す特徴ベクトルF(s)を生成する。動線予測部45は、商品配置変更後の特徴ベクトルF(s)と行動モデル情報24とに基づいて、商品配置変更後の買い物客の動線(流れ)を予測する。なお、商品配置情報修正部43は、商品配置変更情報25に基づいて、実際の商品配置情報21を修正する代わりに、配置変更後の商品配置情報21を新たに生成しても良い。
 制御部40は、半導体素子などで実現可能である。制御部40の機能は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。制御部40は、例えば、マイコン、CPU、MPU、DSP、FPGA、ASICで構成することができる。
 表示部50は、例えば、予測された動線又は行動の結果を表示する。表示部50は、液晶ディスプレイ又は有機ELディスプレイ等で構成される。
 通信部10及び操作部30は、外部から情報を取得する取得部に相当する。制御部40は、記憶部20に格納されている情報を取得する取得部に相当する。また、通信部10は、予測結果を外部に出力する出力部に相当する。制御部40は、予測結果を記憶部20に出力する出力部に相当する。表示部50は、予測結果を画面に出力する出力部に相当する。
 2.動作
 2.1 全体の動作
 図3は、実施の形態における買い物客の行動モデルの生成を説明するためのフローチャートである。図3において、予測装置1は、最初に、店舗内の実際の商品の配置位置と、店舗内の買い物客の動線とに基づいて、買い物客の行動モデルを生成する。
 図7は、実施の形態における商品配置変更後の買い物客の動線予測を説明するためのフローチャートである。図7において、予測装置1は、図3で示される行動モデルに基づいて、商品の配置を変更した場合の買い物客の動線を予測する。
 2.2 行動モデルの生成
 まず、買い物客の行動モデルの生成について説明する。買い物客の行動モデルは、逆強化学習によって、生成する。逆強化学習とは、「状態」と「行動」から、「報酬」を推定するものである。
 本実施の形態においては、「状態」とは店舗内を離散的に分割したエリアに対し、買い物客が特定のエリアに居ることを表す。また買い物客は、「行動」によってあるエリアから別のエリアに移動する(状態を遷移する)。「報酬」とは、買い物客の動線を説明する仮想的な数量で、買い物客は1つ状態を遷移するごと得られる「報酬」の総和が最大となる「行動」を繰り返すものと仮定する。言い換えると、各エリアに割り振った仮想的な「報酬」に対し、その「報酬」の和が大きくなる「行動」列(状態遷移列)と、買い物客がよく通る動線が一致するように「報酬」を逆強化学習によって推定する。この結果、「報酬」の高いエリアは、買い物客がよく居るまたは通過するエリアに概ね対応することになる。
 図3は、制御部40による行動モデルの生成の動作を示す。図3において、第1の特徴ベクトル生成部41は、記憶部20から商品配置情報21を取得する(S101)。第1の特徴ベクトル生成部41は、商品配置情報21に基づいて、店舗内の各エリアの特徴ベクトルf(s)を生成する(S102)。
 図4は、特徴ベクトルf(s)の一例を示す図である。図4において、例えば、エリアs1の特徴ベクトルf(s1)は、「0,0,0,0,・・・1」である。ここで、「1」はエリア内で取得できる商品を示し、「0」はエリア内で取得できない商品を示している。商品を取得できるか否かは、例えば、エリアs1~s26のそれぞれから手が届く棚(具体的には、各エリアに隣接している棚、又は各エリアから所定範囲内にある棚)にその商品が配置されているか否かで決定する。なお、第1の特徴ベクトル生成部41が生成した特徴ベクトルf(s)をユーザが操作部30を介して修正しても良い。
 図3において、動線情報分割部42aは、記憶部20から動線情報22を取得する(S103)。
 図5は、動線情報22の一例を示す図である。図5において、例えば、動線情報22は、映像の中で識別された買い物客の識別番号(ID)G~Gと、その買い物客が通過したエリア(通路)の識別番号s1~s26とを示す。買い物客が通過したエリア(通路)の識別番号s1~s26は、例えば、買い物客が通過した順を示す。なお、動線情報22は、買い物客が通過したエリアと、その通過順序を特定できる情報であれば良い。例えば、動線情報22は、買い物客の識別番号(ID)と、その買い物客が通過したエリアの識別番号(ID)と、エリアを通過した時間とを含んでも良い。
 図3において、動線情報分割部42aは、さらに、記憶部20から購買品情報23を取得する(S104)。
 図6は、購買品情報23の一例を示す図である。図6において、購買品情報23は、例えば、買い物客の識別番号(ID)G~Gと、購入された商品の名称又は識別番号(ID)と、購入された商品の数とを含む。購買品情報23は、さらに、商品が購入された日時(図示せず)を含む。
 ここで、動線情報22と購買品情報23は、買い物客の識別番号G~G等によって対応付けされている。制御部40は、例えば、買い物客がレジに滞在する時刻と、レジでの購入品入力が完了する時刻がほぼ一致するという事実から、動線情報22に含まれる日時と購買品情報23に含まれる日時とに基づいて、動線情報22と購買品情報23との対応付けを行っても良い。また、制御部40は、通信部10を介して、買い物客の識別番号等によって対応付けされた動線情報22と購買品情報23とを外部から取得して、記憶部20に格納しておいても良い。
 図3において、動線情報分割部42aは、動線情報22と購買品情報23とに基づいて、買い物客を複数のグループにグループ分けする(S105)。グループ分けは、任意の方法で行うことができる。例えば、所定の商品を購入した買い物客を同一のグループにする。図6において、例えば、商品Xoを購入した買い物客G,Gを同一のグループにする。
 図3において、動線情報分割部42aは、グループ内の動線(状態遷移系列)を複数の購買段階に段階分けする(S106)。「購買段階」とは、例えば、目的買いの段階、ついで買いの段階、支払いの段階である。段階分けは、任意の方法で行うことができる。例えば、所定の条件(所定の商品を購入するまでか又は購入した後か、所定のエリアを通過するまでか又は通過した後か)に基づいて、段階分けしても良い。
 具体的には、例えば、図2、図5に示すように、商品Xoを購入したグループにおいて、入店から商品Xoを購入するまでの第1の購買段階m1と、商品Xoを購入してから退店するまでの第2の購買段階m2とに、グループ内のそれぞれの買い物客の動線を分割する。なお、段階分けは2段階に限らない。例えば、3段階以上に購買段階を分けても良い。
 図3において、報酬関数学習部42bは、ステップS102で生成された特徴ベクトルf(s)と、ステップS106で得られた購買段階毎に分割された複数の動線(状態遷移系列)とを使用して、逆強化学習(購買行動学習)により、購買段階m1,m2毎に行動モデルを生成する(S107)。
 具体的には、ステップS102で生成された特徴ベクトルf(s)を用いて、購買段階m1,m2に対応する複数の動線データを学習データとして、式(1)で表される各状態sの報酬関数を学習する。この学習では、写像φによって推定された報酬r(s)から計算される各エリアの通過(または滞在)確率が、学習データから求めたエリアの通過(または滞在)確率と最もよく一致するよう、写像φを求める。
 そのような写像φを求める方法としては、勾配法による更新を繰り返す方法や、ニューラルネットによる学習方法が利用可能である。なお、報酬r(s)から各エリアの通過(または滞在)確率を求める方法については、強化学習に基づく方法が利用可能で、具体的な方法は後述する[2.3節 商品配置変更後の動線予測]に述べる方法を用いる。
 図3において、報酬関数学習部42bは、式(1)で得られたφを行動モデル情報24として、記憶部20に保存する(S108)。
 2.3. 商品配置変更後の動線予測
 次に、商品の配置を変更した場合の買い物客の動線の予測について説明する。商品の配置を変更した場合の買い物客の動線は、強化学習によって求める。強化学習とは、「状態」と「報酬」から、「行動」を推定するものである。
 図7は、制御部40による商品配置変更後の動線予測の動作を示す図である。図7において、商品配置情報修正部43は、操作部30を介して、商品配置変更情報25を取得する(S201)。商品配置情報修正部43は、取得した商品配置変更情報25に基づいて、商品配置情報21を修正することによって商品配置変更後の商品配置情報21を生成する(S202)。第2の特徴ベクトル生成部44は、商品配置変更後の商品配置情報21に基づいて、商品配置変更後の各エリアの特徴ベクトルF(s)生成する(S203)。商品配置変更後の特徴ベクトルF(s)の生成は、実際の商品配置に基づく特徴ベクトルf(s)の生成と同一の方法で行うことができる。
 さらに、図7において、動線予測部45は、商品配置変更後の特徴ベクトルF(s)と、ステップS108で記憶部20に保存した行動モデル情報24とを使用して、商品配置変更後の買い物客の流れ(動線)を予測する(S204)。その後、動線予測部45は、予測した結果を、例えば、表示部50、記憶部20、又は通信部10を介して外部に、出力する(S205)。
 図8は、図7における商品配置変更後の買い物客の動線予測(S204)の詳細を示す図である。図8において、動線予測部45は、まず、商品配置変更後の特徴ベクトルF(s)と行動モデル情報24とに基づいて、商品配置変更後の各エリア(=状態s)の報酬R(s)を下記の式(2)により算出する(S301)。
 R(s)=φ(F(s))・・・(2)
 式(2)における関数(写像)φは、図3におけるステップS108で記憶部20に保存した行動モデル情報24である。
 図2、図5で示された購買段階m1に対する買い物客の動線を予測する場合は、購買段階m1のために求めたφを使用する。また、購買段階m2に対する買い物客の動線を予測する場合は、購買段階m2のために求めたφを使用する。すなわち、購買段階m1,m2に応じた関数(写像)φによって、報酬R(s)を算出する。
 図8において、動線予測部45は、報酬R(s)に基づいて、強化学習により、最適な行動aを学習する(S302~S305)。まず、動線予測部45は、戦略π(s)および期待報酬和Uπ(s)の初期値を設定する(S302)。戦略π(s)は、各エリア(状態s)において次に取るべき行動aを示す。期待報酬和Uπ(s)は、sを起点として戦略πに基づいた行動を続けた際に、得られるであろう報酬の総和を示し、以下の式(3)のような意味を持つ。
 Uπ(s)=R(s)+γR(si+1)+γR(si+2)+・・+γR(si+n)・・・(3)
 ここで、γは時間的に将来の報酬を割り引くための係数である。
 次に、動線予測部45は、状態sにおいて取りうる行動aを取った場合に、得られる報酬の総和の期待値ΣT(s,a,s')Uπ(s')を、取りうる行動a毎に算出する(S303)。動線予測部45は、取りうる行動a毎に算出した期待値ΣT(s,a,s')Uπ(s')の中から、これが最大となる行動aを、状態sの新たな戦略π(s)として更新するとともに、期待報酬和Uπ(s)を更新する(S304)。
 具体的には、ステップS303及びS304において、動線予測部45は、各エリア(状態s)の報酬R(s)に基づいて、各エリアの最適な戦略π(s)と期待報酬和Uπ(s)を下記の式(4)(5)によって更新する。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 T(s,a,s')は、状態sにおいて、行動aを行うことによって、状態s'に遷移する確率である。
 本実施の形態においては、状態sはエリアを意味し、行動aはエリア間の移動方向を意味する。従って、状態s(エリア)と行動a(移動方向)が決まれば自ずと次の状態s'(エリア)が一意に決まることから、T(s,a,s')は店舗内のエリア配置に基づいて決めることができる。すなわち、状態sに対応するエリアから行動aに対応する方向に隣接するエリアがs'であるならば、T(s,a,s')=1であり、そうでないエリアに対応する状態s''に対しては、T(s,a,s'')=0としてよい。
 動線予測部45は、全状態sの戦略π(s)及び期待報酬和Uπ(s)を決定したか否かを判断する(S305)。ここでの決定は、全状態sの戦略π(s)及び期待報酬和Uπ(s)が収束することを意味する。全状態sの戦略π(s)及び期待報酬和Uπ(s)が決定するまで、ステップS303及びステップS304を繰り返す。すなわち、式(4)(5)において期待値ΣT(s,a,s')Uπ(s')が最大となる行動aを新たな戦略としてπ(s)を更新し、同時にUπ(s)を更新することで、最終的に最適な戦略π(s)と期待報酬和Uπ(s)が得られる。
 さらに、図9を用いて、エリアs16の最適な戦略π(s16)を求める場合を例として説明する。
 図9は、エリアs16及びその周辺のエリアの報酬R(s)と、エリアs16(状態s)の取りうる行動aと、最適な戦略π(s)のイメージを示す図である。図9において、エリアの配置に応じて、例えば、T(s16,a1,s13)=1(100%)、T(s16,a1,s15)=0などと予め決めておく。なお、確率Tは「1」と「0」であるとは限らない。例えば、図2に示すエリアs14の場合、行動a3を行うことによって、エリアs17,s18に遷移する確率T(s14,a3,s17),T(s14,a3,s18)を、それぞれ0.5に予め決めておいても良い。予め決められたT(s,a,s')の値は、記憶部20に格納されている。
 エリアS16では、行動a1、a2、a3、a4を取ることが可能である。この場合、行動a1、a2、a3、a4をそれぞれ取ったときの期待値ΣT(s16,a1,s')Uπ(s')、ΣT(s16,a2,s')Uπ(s')、ΣT(s16,a3,s')Uπ(s')、ΣT(s16,a4,s')Uπ(s')をそれぞれ算出する。ただし、この場合のΣは、s'、すなわち、s13、s15、s17、s20に関する和を意味する。
 そして、動線予測部45は、算出した期待値の中で最大となる行動aを選択する。例えば、ΣT(s16,a3,s')Uπ(s')が最大となる場合は、π(s16)=a3と更新し、Uπ(s16)=ΣT(s16,a3,s')Uπ(s')と更新する。このように、式(4)、(5)に基づく更新を、各エリアについて複数回繰り返していくことで、最終的に、各エリアの最適な戦略π(s)と期待報酬和Uπ(s)が決まる。
 上記の説明では、戦略π(s)は、1つの行動のみを決定論的に選択する方法であったが、これを確率的に求めることも可能である。すなわち、状態sで行動aを取るべき確率として、式(6)のように戦略π(s)を決定することが可能である。
Figure JPOXMLDOC01-appb-M000003
 ただし、式(6)の右辺分母は、正規化項でP(a|s)がaに関して総和が1になるようにするためのものである。
 図8において、最適な戦略π(s)が求まると、動線予測部45は、配置変更後の隣接するエリア間(ある状態sから次の状態si+1)の遷移確率P(si+1|s)を下記の式(7)によって算出する(S306)。
Figure JPOXMLDOC01-appb-M000004
 確率T(s,a,si+1)は、状態sにおいて行動aを行うことによって状態si+1に遷移する確率であり、上述したように予め決めておいた値である。
 なお、先に述べた行動1つのみを選択する決定論的な戦略π(s)を用いる場合には、その行動を採る時のみP(a|s)=1、それ以外の行動を採る時はP(a|s)=0とすることで、P(si+1|s)を求めることができる。
 動線予測部45は、所定の経路(エリアs→s)の遷移確率P(s→s)を、ステップS306で算出した遷移確率P(si+1|s)に基づいて、算出する(S307)。具体的には、式(7)を使用して、エリアsからエリアsまでの遷移確率の積を求めることによって、経路s→sの遷移確率P(s→s)を算出する。例えば、動線予測部45は、入店から商品Xoを購入するまでの動線の遷移確率P(s1→s12)を、P(s1)×P(s6|s1)×P(s9|s6)×P(s12|s9)により、算出する。なお、遷移確率P(s→s)を算出すべき所定の経路(エリアs→s)は、操作部30を介して、指定されても良い。
 あるいは、遷移確率を行列とし、その行列積を繰り返すことで遷移確率P(s→s)を求めることもできる。遷移確率の行列とは、行列の(i,j)成分がP(s|s)となっている行列で、この行列自身の積を繰り返すことで、あらゆる経路を通ってエリアsからエリアsに到達する確率の和を求めることができる。
 遷移確率P(s→s)が高いときは、多くの買い物客がその経路(エリアs→s)を通ることを意味する。一方、遷移確率P(s→s)が低いときは、買い物客がその経路(エリアs→s)をほとんど通らないことを意味する。予測結果の出力(図7のステップS205)として、例えば、ステップS307で算出した所定の経路の遷移確率P(s→s)を含む情報を出力する。
 なお、図7のステップS205において出力される予測結果は、ステップS303~ステップS305で求めた最適な戦略π(s)を示す情報であっても良い。この場合、ステップS306、S307を省略しても良い。また、出力する予測結果は、ステップS306で算出した商品配置変更後の遷移確率P(si+1|s)を示す情報であっても良い。この場合、ステップS307を省略しても良い。
 図10A、図10Bは、表示部50による予測結果の表示例を示している。図10Aは、各エリアの最適な戦略π(s)の行動aを矢印61で示し、各エリアの報酬R(s)を円形62で示している。報酬R(s)の大きさが円形62のサイズから分かるように、例えば、報酬R(s)が大きいほど、円形62のサイズを大きくする。なお、報酬R(s)が大きいほど、円形62を濃く表示しても良い。
 図10Bは、隣接するエリア間の遷移確率P(si+1|s)の一部を線63によって示している。線63によって遷移確率P(si+1|s)の大きさが分かるように、例えば、遷移確率P(si+1|s)が大きいほど、線63を太くする。なお、遷移確率P(si+1|s)が大きいほど、線63を濃く表示しても良い。
 3.効果等
 本開示の予測装置1は、店舗(領域の一例)内の商品の配置変更後の人の流れを予測する予測装置であって、店舗内の複数の人の流れを示す動線情報22と、商品の配置位置を示す商品配置情報21とを取得する通信部10(取得部の一例)と、商品の配置変更を示す商品配置変更情報25とを取得する操作部30(取得部の一例)と、動線情報22と商品配置情報21とに基づいて、逆強化学習により、店舗内の人の行動モデル(行動モデル情報24=φ)を生成し、行動モデルと商品配置変更情報25とに基づいて、商品の配置変更後の人の流れを予測する制御部40と、を備える。
 これにより、実際に商品の配置を変更しなくても、商品の配置を変更した場合の人の流れを精度良く予測することができる。また、予測した人の流れに基づいて、売上が向上する位置に商品の配置を変更することが可能になる。あるいは、併売の可能性を考慮して、安売りやイベント等を行う場合に、どこで行うべきかを決定し、店内での人の流れをスムーズにしたり逆に滞留させたりして顧客単価向上を狙うといった、レイアウト変更の検討に利用することが可能である。
 行動モデルの生成は、具体的に、以下のように行う。店舗(領域の一例)は、複数のエリア(区域の一例であって、例えば、図2に示すエリアs1~s26)を含み、動線情報22は、複数の人のそれぞれが通過したエリアを示す。制御部40は、複数のエリアのそれぞれを逆強化学習における「状態」とし、動線情報22に基づいて、各状態の報酬r(s)を学習することによって、行動モデル情報24(関数(写像)φ)を生成する。より具体的には、制御部40は、商品配置情報21に基づいて、複数のエリアのそれぞれで取得可能な商品を示す特徴ベクトルf(s)(区域特徴情報)を生成し、逆強化学習における状態を特徴ベクトルf(s)によって表す。
 行動モデルを生成する前に、通信部10(取得部の一例)は、店舗内の複数の人が購入した商品を示す購買品情報23をさらに取得する。そして、制御部40は、購買品情報23に基づいて、複数の人をグループ分けし、グループ分け後の動線情報22に基づいて、行動モデルを生成する。
 これにより、例えば、同一商品を購入したグループ(すなわち、同一の購買目的を持つグループ)についての行動モデルを生成できるため、より精度の良い行動モデルを生成できる。
 さらに、制御部40は、動線情報22に基づいて、複数の人のそれぞれの流れを複数の購買段階に分け、複数の購買段階のそれぞれに対応させて行動モデルを生成する。報酬の大きさは、購買段階に応じて変化する。例えば、目的商品を購入する前と購入した後では、同一のエリアであっても報酬の大きさは変化すると考えられる。よって、購買段階毎に行動モデルをそれぞれ生成することによって、より精度の良い行動モデルを生成できる。
 行動モデルに基づく、商品配置変更後の人の流れの予測は、具体的に、以下のように行う。図1において、まず、制御部40は、行動モデル情報24(関数(写像)φ)と商品配置変更情報25とに基づいて、商品の配置変更後の報酬R(s)を算出する。制御部40は、商品の配置変更後の報酬R(s)に基づいて、店舗内の人が各状態において取るべき行動を示す戦略π(s)を決定する。制御部40は、決定した戦略π(s)に基づいて、商品の配置変更後のエリア間の人の遷移確率P(si+1|s)を算出する。また、予測装置1は、予測した人の流れを示す結果(例えば、遷移確率)を出力する出力部(例えば、通信部10、制御部40、表示部50)をさらに備える。
 これにより、商品の配置を変更した場合の人の流れを示すことができる。よって、例えば、店舗の経営者は、予測した人の流れに基づいて、売上が向上する位置に商品の配置を実際に変更することが可能になる。
 本開示の予測方法は、店舗(領域の一例)内の商品の配置変更後の人の流れを予測する予測方法である。すなわち、図3に示す商品の配置位置を示す商品配置情報21を取得するステップS101と、店舗内の複数の人の流れを示す動線情報22を取得するステップS103と、商品の配置変更を示す商品配置変更情報25を取得するステップS201と、動線情報22と商品配置情報21とに基づいて、逆強化学習により、店舗内の人の行動モデルを生成するステップS102及びS107と、図7に示すように行動モデルと商品配置変更情報25とに基づいて、商品の配置変更後の人の流れを予測するステップS202~S204と、を含む。
 これにより、実際に商品の配置を変更しなくても、商品の配置を変更した場合の人の流れを精度良く予測することができる。また、予測した人の流れに基づいて、売上が向上する位置に商品の配置を変更することが可能になる。
 (他の実施の形態)
 以上のように、本出願において開示する技術の例示として、実施の形態1を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。
 [1]グループ分けの他の例
 上記実施の形態1のステップS105では、所定の商品を購入した買い物客を同一のグループにした。しかし、グループ分けは、上記実施の形態1の方法に限らない。動線情報22と購買品情報23を使用してグループ分けする方法であれば、任意の方法でグループ分けを行うことができる。
 例えば、マルチモーダルLDA(Latent Dirichlet Allocation)を使用して、来店動機が類似している買い物客を同一のグループにしても良い。図1において、動線情報分割部42aは、マルチモーダルLDAを使用することによって、所定期間(例えば、1ヶ月分)の動線情報22と購買品情報23から、買い物客の特性をN次元(例えば、N=20)のベクトルで表すことができる。動線情報22と購買品情報23に基づいたN次元の分類は、N個の来店動機による分類に相当する。動線情報分割部42aは、来店動機のベクトルの類似度に基づいて、買い物客をグループ分けすることができる。さらに、例えば、動線情報分割部42aは、各買い物客のベクトル表現の中で一番大きな数値に基づいて、グループ分けしても良い。
 また、その他のグループ分けの方法として、動線情報分割部42aは、例えば、非負値テンソル因子分解と呼ばれる手法、ニューラルネットワークを用いた教師なし学習、又はクラスタリング手法(K-means法など)を用いても良い。
 [2]段階分けの他の例
 上記実施の形態1では、図3のステップS106において、複数の購買段階への段階分けを、所定条件(商品Xoを購入するまでか、あるいは購入した後か)に基づいて行った。しかし、段階分けは、上記実施の形態1の方法に限らない。例えば、隠れマルコフモデル(HMM)を使用して、段階分けを行っても良い。
 HMMを使用する場合、買い物客の行動が、例えば状態遷移系列{s1、・・・、s26}で観測されたときの確率P(s1、・・・、s26)を下記の式(8)で表すことができる。
Figure JPOXMLDOC01-appb-M000005
 ここで、P(m|mi-1)は、購買段階mi-1(例えば、目的商品を買う段階)から購買段階m(例えば、支払いを行う段階)に遷移する確率である。
 P(s|m)は、購買段階mでエリアsに滞在または通過する確率(例えば、支払いを行う段階でs26に滞在または通過する確率など)である。
 式(8)の値が最大となる遷移確率P(m|mi-1)及び出力確率P(s|m)を求める。
 まず、Baum-Welchアルゴリズム又はViterbiアルゴリズムを使用し、初期値のP(m|mi-1)及びP(s|m)に従って状態遷移系列を分割し、その分割に従ってP(m|mi-1)及びP(s|m)を再計算することを、収束するまで繰り返す。これにより、状態遷移系列を購買段階m毎に分割することができる。
 ここで、P(s|m)は、購買段階mがエリアsで開始する確率(前の購買段階mi-1から次の購買段階mに遷移したときに最初にエリアsである確率)P(s|mi-1)と、購買段階mから同一の購買段階mに遷移するときにエリアsである確率P(s|sj-1)の両方を含む。P(s|mi-1)は、購買段階mの開始エリアとしてエリアsが発生する回数を同一グループの動線情報22に基づいてカウントすることによって求める。P(s|sj-1)は、購買段階mに対応する部分系列群(例えば、s1、・・・、s12)から、逆強化学習により、得られる。
 上記のように、購買段階の遷移確率P(m|mi-1)をHMMによって推定できる。さらに、購買段階m毎のエリアsの出力確率P(s|m)を、段階mの状態遷移系列(動線)に基づいて、逆強化学習によって推定できる。
 これにより、動線情報22が示す状態遷移系列を購買段階毎に分割することができる。
 [3]予測結果の出力の他の例
 制御部40は、購買段階分け後の退店動線上に、所定の商品と所定の関係にある別の商品の配置変更を提案して、例えば、提案した配置変更を表示部50に出力しても良い。所定の関係にある別の商品は、例えば、所定の商品と同時に購入されることが多い商品である。
 制御部40は、操作部30を介して複数の商品配置変更情報25を入力した場合、入力したそれぞれの商品配置変更情報25に基づいて、商品配置変更後の遷移確率P(si+1|s)を算出する。
 これにより、所定の経路の遷移確率P(s→s)を算出しても良い。そして、所定の経路の遷移確率P(s→s)が高くなる商品配置変更情報25を複数の商品配置変更情報25から抽出して、例えば、抽出した商品配置変更情報25を表示部50に出力しても良い。
 以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
 また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
 なお、本実施の形態における店舗を所定の領域としてもよい。その場合、店舗内の複数のエリアを所定の領域内の複数の区域としてもよい。
 本開示の予測装置によれば、商品の配置変更後の買い物客の動線を予測することが可能になるため、売上を向上させるような商品の配置位置の情報をユーザに提供する種々の装置において有用である。
  1   予測装置
  10  通信部(取得部)
  20  記憶部
  21  商品配置情報
  22  動線情報
  23  購買品情報
  24  行動モデル情報
  30  操作部(取得部)
  40  制御部
  41  第1の特徴ベクトル生成部
  42  モデル生成部
  42a 動線情報分割部
  42b 報酬関数学習部
  43  商品配置情報修正部
  44  第2の特徴ベクトル生成部
  45  動線予測部
  50  表示部

Claims (11)

  1.  領域内の商品の配置変更後の人の流れを予測する予測装置であって、
     前記領域内の複数の人の流れを示す動線情報と、前記商品の配置位置を示す配置情報と、前記商品の配置変更を示す変更情報と、を取得する取得部と、
     前記動線情報と前記配置情報とに基づいて、逆強化学習により、前記領域内の人の行動モデルを生成し、前記行動モデルと前記変更情報とに基づいて、前記商品の配置変更後の人の流れを予測する制御部と、を備える、
    予測装置。
  2.  前記領域は、複数の区域を含み、
     前記動線情報は、前記複数の人のそれぞれが通過した区域を示し、
     前記制御部は、前記複数の区域のそれぞれを前記逆強化学習における状態とし、前記動線情報に基づいて、前記逆強化学習における各状態の報酬を学習することによって、前記行動モデルを生成する、
    請求項1に記載の予測装置。
  3.  前記制御部は、前記配置情報に基づいて、前記複数の区域のそれぞれで取得可能な商品を示す区域特徴情報を生成し、前記逆強化学習における前記状態を前記区域特徴情報によって表す、
    請求項2に記載の予測装置。
  4.  前記制御部は、前記行動モデルと前記変更情報とに基づいて、前記商品の配置変更後の報酬を算出する、
    請求項2に記載の予測装置。
  5.  前記制御部は、前記商品の配置変更後の報酬に基づいて、前記領域内の人が各状態において取るべき行動を示す戦略を決定する、
    請求項4に記載の予測装置。
  6.  前記制御部は、決定した前記戦略に基づいて、前記商品の配置変更後の区域間の人の遷移確率を算出する、
    請求項5に記載の予測装置。
  7.  前記取得部は、前記領域内の複数の人が購入した商品を示す購買品情報をさらに取得し、
     前記制御部は、前記購買品情報に基づいて、前記複数の人をグループ分けし、グループ分け後の前記動線情報に基づいて、前記行動モデルを生成する、
    請求項1に記載の予測装置。
  8.  前記制御部は、前記動線情報に基づいて、前記複数の人のそれぞれの流れを複数の購買段階に分け、前記複数の購買段階のそれぞれに対応させて前記行動モデルを生成する、
    請求項1に記載の予測装置。
  9.  前記制御部は、前記複数の購買段階を隠れマルコフモデルによって決定する、
    請求項8に記載の予測装置。
  10.  予測した前記人の流れを示す結果を出力する出力部をさらに備える、
    請求項1に記載の予測装置。
  11.  領域内の商品の配置変更後の人の流れを予測する予測方法であって、
     前記領域内の複数の人の流れを示す動線情報と、前記商品の配置位置を示す配置情報と、前記商品の配置変更を示す変更情報とを取得するステップと、
     前記動線情報と前記配置情報とに基づいて、逆強化学習により、前記領域内の人の行動モデルを生成するステップと、
     前記行動モデルと前記変更情報とに基づいて、前記商品の配置変更後の人の流れを予測するステップと、を含む、
    予測方法。
PCT/JP2017/034045 2017-01-13 2017-09-21 予測装置及び予測方法 WO2018131214A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018539450A JP6562373B2 (ja) 2017-01-13 2017-09-21 予測装置及び予測方法
US16/274,470 US20190180202A1 (en) 2017-01-13 2019-02-13 Prediction device and prediction method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-004354 2017-01-13
JP2017004354 2017-01-13

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/274,470 Continuation US20190180202A1 (en) 2017-01-13 2019-02-13 Prediction device and prediction method

Publications (1)

Publication Number Publication Date
WO2018131214A1 true WO2018131214A1 (ja) 2018-07-19

Family

ID=62839985

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/034045 WO2018131214A1 (ja) 2017-01-13 2017-09-21 予測装置及び予測方法

Country Status (3)

Country Link
US (1) US20190180202A1 (ja)
JP (1) JP6562373B2 (ja)
WO (1) WO2018131214A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020035320A (ja) * 2018-08-31 2020-03-05 株式会社日立製作所 報酬関数の生成方法及び計算機システム
WO2022137520A1 (ja) * 2020-12-25 2022-06-30 日本電気株式会社 学習装置、学習方法および学習プログラム
US20220398607A1 (en) * 2021-06-14 2022-12-15 Fujitsu Limited Method for inverse reinforcement learning and information processing apparatus

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902347B2 (en) * 2017-04-11 2021-01-26 International Business Machines Corporation Rule creation using MDP and inverse reinforcement learning
CN110705789A (zh) * 2019-09-30 2020-01-17 国网青海省电力公司经济技术研究院 一种光伏电站短期功率预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014182713A (ja) * 2013-03-21 2014-09-29 Dainippon Printing Co Ltd 動線予測装置、動線予測方法、及び、プログラム
WO2016194275A1 (ja) * 2015-05-29 2016-12-08 パナソニックIpマネジメント株式会社 動線分析システム、カメラ装置及び動線分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5949179B2 (ja) * 2012-06-04 2016-07-06 富士通株式会社 予測プログラム、予測装置、及び予測方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014182713A (ja) * 2013-03-21 2014-09-29 Dainippon Printing Co Ltd 動線予測装置、動線予測方法、及び、プログラム
WO2016194275A1 (ja) * 2015-05-29 2016-12-08 パナソニックIpマネジメント株式会社 動線分析システム、カメラ装置及び動線分析方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020035320A (ja) * 2018-08-31 2020-03-05 株式会社日立製作所 報酬関数の生成方法及び計算機システム
WO2022137520A1 (ja) * 2020-12-25 2022-06-30 日本電気株式会社 学習装置、学習方法および学習プログラム
US20220398607A1 (en) * 2021-06-14 2022-12-15 Fujitsu Limited Method for inverse reinforcement learning and information processing apparatus

Also Published As

Publication number Publication date
JP6562373B2 (ja) 2019-08-21
US20190180202A1 (en) 2019-06-13
JPWO2018131214A1 (ja) 2019-01-17

Similar Documents

Publication Publication Date Title
JP6562373B2 (ja) 予測装置及び予測方法
US11010798B2 (en) System and method for integrating retail price optimization for revenue and profit with business rules
WO2019072107A1 (zh) 消费能力预测
US11790432B1 (en) Systems and methods for assessing needs
Lawhead et al. A bounded actor–critic reinforcement learning algorithm applied to airline revenue management
JP7130991B2 (ja) 広告表示システム、表示装置、広告出力装置、プログラム及び広告表示方法
US20160125299A1 (en) Apparatus for data analysis and prediction and method thereof
JP6003736B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
US20180240037A1 (en) Training and estimation of selection behavior of target
JPWO2019187372A1 (ja) 予測システム、モデル生成システム、方法およびプログラム
JP5251217B2 (ja) 販売数予測システム、販売数予測システムの動作方法および販売数予測プログラム
US20190213610A1 (en) Evaluation device and evaluation method
CN112381303A (zh) 一种任务指标数据预测方法和系统
WO2019131140A1 (ja) 需要予測装置、需要予測方法、及びプログラム
US11126893B1 (en) System and method for increasing efficiency of gradient descent while training machine-learning models
JP2024023848A (ja) 予測装置、予測方法、及びプログラム
JP2009110341A (ja) 時間情報を用いた予測装置、予測方法、予測プログラムおよびそのプログラムを記録した記録媒体
CN110689110A (zh) 处理交互事件的方法及装置
WO2022157973A1 (ja) 情報処理システム、情報処理方法、及びコンピュータプログラム
KR20180107515A (ko) 상품 평가에 기초하여 상품 판매 정보를 제공하기 위한 방법, 그 장치 및 시스템
US11042837B2 (en) System and method for predicting average inventory with new items
JPWO2016151640A1 (ja) 学習システム、方法およびプログラム
JP7244707B1 (ja) 情報処理システム、コンピュータプログラム、及び情報処理方法
CN113407680B (zh) 异质集成模型筛选方法和电子设备
US20240013068A1 (en) Stable prescriptive policy construction

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018539450

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17891517

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17891517

Country of ref document: EP

Kind code of ref document: A1