WO2022249335A1 - 情報処理装置、情報処理方法、情報処理システム、およびプログラム - Google Patents

情報処理装置、情報処理方法、情報処理システム、およびプログラム Download PDF

Info

Publication number
WO2022249335A1
WO2022249335A1 PCT/JP2021/020000 JP2021020000W WO2022249335A1 WO 2022249335 A1 WO2022249335 A1 WO 2022249335A1 JP 2021020000 W JP2021020000 W JP 2021020000W WO 2022249335 A1 WO2022249335 A1 WO 2022249335A1
Authority
WO
WIPO (PCT)
Prior art keywords
state
action
information processing
function
reward
Prior art date
Application number
PCT/JP2021/020000
Other languages
English (en)
French (fr)
Inventor
慧 竹村
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2023523808A priority Critical patent/JPWO2022249335A1/ja
Priority to PCT/JP2021/020000 priority patent/WO2022249335A1/ja
Publication of WO2022249335A1 publication Critical patent/WO2022249335A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to an information processing device, an information processing method, an information processing system, and a program for determining actions.
  • Non-Patent Document 1 discloses a technology using a so-called Upper-Confidence Bounds (UCB) algorithm.
  • UFB Upper-Confidence Bounds
  • Non-Patent Document 1 has room for improvement in terms of determining more suitable actions.
  • highly reliable data and unreliable data can be mixed, but the technique of Non-Patent Document 1 treats these data in the same way. be.
  • One aspect of the present invention has been made in view of the above problems, and an example of its purpose is to provide a technique capable of determining a more suitable action.
  • An information processing apparatus includes an acquisition unit that acquires a state, a determination unit that determines an action by referring to the state, and a reward obtained by the state and the action determined by the determination unit. and the determination means calculates a first function for predicting the reward sum from the state and the action by weighting the learning data, and the first A function of 1 is used to determine behavior.
  • An information processing method comprises: an information processing device obtaining a state; determining an action with reference to the state; and repeatedly accumulating learning data including and, in the step of determining the action, a first function that predicts a reward sum from the state and the action, and is calculated by weighting the learning data The first function obtained is used to determine the action.
  • a program according to an aspect of the present invention is a program that causes a computer to function as an information processing device, the program comprising: obtaining means for obtaining a state; determining means for determining an action by referring to the state; means, the state, and accumulation means for accumulating learning data including the reward obtained by the action determined by the decision means, and the decision means predicts the sum of rewards from the state and the action.
  • a first function is calculated by weighting the learning data, and the action is determined using the first function.
  • An information processing system is an information processing system that includes an information processing device and a terminal device, wherein the information processing device includes an acquisition unit that acquires a state and an action that refers to the state. and accumulation means for accumulating learning data including the state and a reward obtained by the action decided by the decision means, wherein the decision means calculates a reward sum from the state and the action A first function for predicting is calculated by weighting the learning data, an action is determined using the first function, and the terminal device acquires a state and provides it to the information processing device State information providing means, and reward information providing means for providing the information processing device with reward information indicating a reward obtained by executing the action determined by the information processing device.
  • An information processing method includes an information processing device acquiring a state, Referencing the state to determine an action, and accumulating learning data including the state and a reward obtained by the determined action, wherein the step of determining the action includes: and action, the action is determined using the first function that is calculated by weighting the learning data, and the terminal device obtains the state and the information providing to a processing device; and providing to the information processing device reward information indicating a reward obtained by performing the action determined by the information processing device.
  • a more suitable action can be determined.
  • FIG. 1 is a block diagram showing the configuration of an information processing device according to exemplary Embodiment 1 of the present invention
  • FIG. FIG. 2 is a flowchart showing the flow of an information processing method executed by the information processing apparatus according to exemplary Embodiment 1 of the present invention
  • 1 is a block diagram showing the configuration of an information processing system according to exemplary Embodiment 1 of the present invention
  • FIG. 3 is a flow chart showing the flow of an information processing method executed by the information processing system according to exemplary Embodiment 1 of the present invention
  • FIG. FIG. 4 is a block diagram showing the configuration of an information processing system according to exemplary embodiment 2 of the present invention
  • FIG. 9 is a diagram showing examples of various data stored in a storage unit of an information processing apparatus according to exemplary embodiment 2 of the present invention
  • FIG. 10 is a flow chart showing the flow of an information processing method executed by an information processing apparatus according to exemplary Embodiment 2 of the present invention
  • FIG. 11 is a block diagram showing the configuration of an information processing apparatus according to exemplary Embodiment 3 of the present invention
  • FIG. 11 is a diagram showing an example of a display screen displayed by an information processing apparatus according to exemplary Embodiment 3 of the present invention
  • 1 is a block diagram showing an example of a hardware configuration of an information processing device in each exemplary embodiment of the present invention
  • the information processing device 1 is, roughly speaking, a device that selects an action that maximizes the value of a certain prediction function in a given state.
  • the prediction function is, for example, a function for calculating a predicted value of the sum of target quantities.
  • the information processing device 1 as an example, ⁇ past state ⁇ Actions selected in the past, and ⁇ Sequentially accumulate the observed values of the target quantity obtained from past states and past actions as learning data, and refer to the learning data to sequentially update the prediction function that predicts the sum of the target quantity. do.
  • the information processing device 1 is configured to select an action that maximizes the prediction function in a given state.
  • the information processing device 1 ⁇ Acquire the state ⁇ Select the action that maximizes the prediction function under the acquired state ⁇ Acquire the observed value of the target quantity obtained by the selected action ⁇ Learning the state, the action, and the observed value of the target quantity
  • This device is configured to repeat the step of updating the prediction function using accumulated/learned data as data.
  • the reward obtained by action can be mentioned.
  • a reward sum function for calculating a predicted value of the sum of rewards can be cited.
  • "state”, “behavior” and “reward” are interpreted as open-ended concepts in an information processing sense unless otherwise specified.
  • learning data in this specification is not limited to data referred to for updating (learning) the prediction function.
  • Expressions such as “learning data”, “teaching data”, and “reference data” may be used instead of the expression “learning data” in this specification.
  • FIG. 1 is a block diagram showing the configuration of an information processing device 1. As shown in FIG.
  • the information processing device 1 includes an acquisition unit 11, a determination unit 12, and an accumulation unit 13.
  • the acquisition unit 11 is a configuration that implements acquisition means in this exemplary embodiment.
  • the determination unit 12 is a configuration that implements determination means in this exemplary embodiment.
  • the storage unit 13 is configured to realize storage means in this exemplary embodiment.
  • the acquisition unit 11 acquires the state.
  • the acquisition unit 11 acquires state information including information about a state, and identifies the state indicated by the state information.
  • state information including information about a state
  • identifies the state indicated by the state information e.g., information about a state
  • specific examples of "conditions” do not limit the present exemplary embodiment, but environmental conditions such as temperature and weather are examples.
  • the determination unit 12 refers to the state acquired by the acquisition unit 11 to determine the action.
  • the determination unit 12 calculates a first function for predicting the sum of rewards from the state and the action by weighting the learning data accumulated by the accumulation unit 13, which will be described later, and uses the first function. determine the action.
  • the first function is a function for predicting the reward sum, it is sometimes called a reward sum function.
  • the first function is also a function that quantifies the value of actions, and is therefore sometimes called an action value function.
  • the determination unit 12 may determine, from one or more values included in the learning data, The first function may be calculated by calculating a measure of variability and applying a smaller weighting factor to the one or more values the greater the calculated measure of variability.
  • an index that can be interpreted as an index that expresses the reliability of each value included in the learning data can be used. Also, it can be interpreted that the greater the variation, the lower the reliability. Therefore, it can be said that the determination unit 12 calculates the first function by applying higher weights to values with higher reliability.
  • the determination unit 12 can be configured to select an action that maximizes the first function including the state acquired by the acquisition unit 11 as an argument.
  • the form is not limited.
  • the accumulation unit 13 accumulates learning data including the state acquired by the acquisition unit 11 and the reward obtained by the action determined by the determination unit 12 .
  • the first function for predicting the sum of rewards from the state and the action is calculated by weighting the learning data, and the first function is used. Since the action is determined by the user, a more suitable action can be determined.
  • FIG. 2 is a flow diagram showing the flow of the information processing method S1.
  • the information processing device 1 repeatedly selects actions by repeating the information processing method S1.
  • description is abbreviate
  • the information processing method S1 includes steps S11 to S13.
  • Step S11 the acquisition unit 11 acquires the state.
  • the acquisition unit 11 acquires state information including information about a state, and identifies the state indicated by the state information.
  • Step S12 the determination unit 12 refers to the state acquired by the acquisition unit 11 in step S11 and determines an action.
  • the determination unit 12 determines the action using the first function that predicts the reward sum from the state and the action and is calculated by weighting the learning data.
  • the learning data that the determination unit 12 refers to to calculate the first function is, for example, the learning data accumulated up to the (n ⁇ 1)-th repetition. be done.
  • step S13 the storage unit 13 stores learning data including the state acquired by the acquisition unit 11 in step S12 and the reward obtained by the action determined by the determination unit 12 in step S12.
  • the first function for predicting the sum of rewards from the state and the action is calculated by weighting the learning data, and the first function is used. Since the action is determined by the user, a more suitable action can be determined.
  • FIG. 3 is a block diagram showing the configuration of the information processing system 100. As shown in FIG.
  • the information processing system 100 includes an information processing device 1 and a terminal device 2 . Since each configuration provided in the information processing apparatus 1 has already been described, description thereof will be omitted here.
  • the terminal device 2 includes a state information providing unit 21 and a remuneration information providing unit 22, as shown in FIG.
  • the status information providing unit 21 is a configuration that implements status information providing means in this exemplary embodiment.
  • the remuneration information providing unit 22 is configured to realize remuneration information providing means in this exemplary embodiment.
  • the state information providing unit 21 acquires the state and provides it to the information processing device 1.
  • the state information providing unit 21 acquires data representing the state and provides the data to the information processing device 1 .
  • the reward information providing unit 22 provides the information processing device 1 with reward information indicating the reward obtained by executing the action determined by the information processing device 1 .
  • the reward information providing unit 22 may be configured to include an acquisition unit that acquires behavior information indicating the behavior determined by the information processing device 1 and an execution unit that executes the behavior determined by the information processing device 1 .
  • the first function for predicting the reward sum from the state and the action is calculated by weighting the learning data, and the first function is used. Since the action is determined by the user, a more suitable action can be determined.
  • FIG. 4 is a flow diagram showing the flow of the information processing method S100.
  • the information processing system 100 repeatedly selects an action by executing the information processing method S100.
  • description is abbreviate
  • the information processing method S100 repeatedly includes steps S11 to S13 and S21 to S22.
  • the order of repetition is described as a branch number after the hyphen "-".
  • S21-1 represents the first repetition
  • S21-2 represents the second repetition. The same applies to other steps.
  • Step S21-1 the state information providing unit 21 of the terminal device 2 acquires data representing the state and provides the information processing device 1 with the data.
  • Step S11-1 the acquiring unit 11 of the information processing device 1 acquires the state provided by the state information providing unit 21 of the terminal device 2.
  • Step S12-1 the determination unit 12 of the information processing device 1 determines an action by referring to the state acquired by the acquisition unit 11 at step S11-1. Then, the information processing device 1 provides the terminal device 2 with behavior information indicating the determined behavior.
  • Step S22-1 the remuneration information providing unit 22 of the terminal device 2 processes remuneration information indicating the remuneration obtained by executing the action determined by the determination unit 12 of the information processing device 1 in step S12-1. Apparatus 1 is provided.
  • Step S13-1 the accumulation unit 13 of the information processing device 1 includes the state acquired by the acquisition unit 11 in step S12-1 and the reward obtained by the action determined by the determination unit 12 in step S12-1. Accumulate learning data.
  • Step S21-2 the state information providing unit 21 of the terminal device 2 acquires data representing the state and provides the information processing device 1 with the data.
  • the information acquired in this step may differ from the state acquired in step S21-1.
  • Step S11-2 the acquiring unit 11 of the information processing device 1 acquires the state provided by the state information providing unit 21 of the terminal device 2.
  • Step S12-2 the determination unit 12 of the information processing device 1 determines an action by referring to the state acquired by the acquisition unit 11 at step S11-2.
  • the determination unit 12 calculates the first function for predicting the sum of rewards from the state and the action by weighting the learning data, and determines the action using the first function. Then, the information processing device 1 provides the terminal device 2 with behavior information indicating the determined behavior.
  • step S13-1 the learning data accumulated up to step S13-1 is used as an example of the learning data that the determination unit 12 refers to in order to calculate the first function.
  • Step S22-2 the remuneration information providing unit 22 of the terminal device 2 processes remuneration information indicating the remuneration obtained by executing the action determined by the determination unit 12 of the information processing device 1 in step S12-2. Apparatus 1 is provided.
  • Step S13-2 the accumulation unit 13 of the information processing device 1 includes the state acquired by the acquisition unit 11 in step S12-2 and the reward obtained by the action determined by the determination unit 12 in step S12-2. Accumulate learning data.
  • the first function for predicting the reward sum from the state and the action is calculated by weighting the learning data, and the first function is used. Since the action is determined by the user, a more suitable action can be determined.
  • FIG. 5 is a block diagram showing the configuration of the information processing system 100A.
  • the information processing system 100A includes an information processing device 1A and a terminal device 2A. Further, as shown in FIG. 5, the information processing device 1A and the terminal device 2A are configured to be communicable via a network N.
  • the specific configuration of the network N does not limit this exemplary embodiment, but as an example, a wireless LAN (Local Area Network), a wired LAN, a WAN (Wide Area Network), a public line network, mobile data A communication network or a combination of these networks can be used.
  • FIG. 5 is a block diagram showing the configuration of the information processing device 1A.
  • the information processing device 1A includes a control section 10A, a storage section 17A, and a communication section 19A.
  • the communication unit 19A communicates with a device external to the information processing device 1A. As an example, the communication unit 19A communicates with the terminal device 2A. The communication unit 19A transmits data supplied from the control unit 10A to the terminal device 2A, and supplies data received from the terminal device 2A to the control unit 10A.
  • the control unit 10A includes an acquisition unit 11, a determination unit 12, and an accumulation unit 13, as shown in FIG.
  • the acquisition unit 11 is a configuration that implements acquisition means in this exemplary embodiment.
  • the determination unit 12 is a configuration that implements determination means in this exemplary embodiment.
  • the storage unit 13 is configured to realize storage means in this exemplary embodiment.
  • the acquisition unit 11 acquires the state in the same manner as in the first exemplary embodiment.
  • the acquiring unit 11 acquires state information including information about the state from the state information providing unit 21 of the terminal device 2A via the communication unit 19A. Then, the obtaining unit 11 identifies the state indicated by the obtained state information.
  • state does not limit this exemplary embodiment, but as an example, environmental conditions such as temperature and weather can be cited as in the first exemplary embodiment.
  • the determination unit 12 refers to the state acquired by the acquisition unit 11 to determine actions.
  • the determination unit 12 calculates a first function for predicting the sum of rewards from the state and the action by weighting the learning data accumulated by the accumulation unit 13, and uses the first function to calculate the action to decide.
  • the first function is a function for predicting the sum of rewards, as in the first exemplary embodiment, and is therefore sometimes called a sum of rewards function.
  • the first function is also a function that quantifies the value of actions, and is therefore sometimes called an action value function.
  • a specific example of the weighting process for the learning data performed by the determination unit 12 will be described later, so the description is omitted here.
  • examples include the “price” and “purchase amount” of the target object.
  • specific examples of “remuneration” do not limit this exemplary embodiment, but as an example, “sales”, “reciprocal of inventory amount”, or “constant minus inventory amount” regarding the object etc. can be mentioned.
  • the accumulation unit 13 accumulates learning data including the state acquired by the acquisition unit 11 and the reward obtained by the action determined by the determination unit 12 .
  • the accumulation unit 13 stores learning data including the state acquired by the acquisition unit 11 and the reward obtained by the action determined by the determination unit 12 in the storage unit 17A.
  • the storage unit 17A stores state information SI, action information AI, observed reward RI, and reward sum function RSF, as shown in FIG.
  • state information SI state information
  • action information AI action information AI
  • observed reward RI observed reward RI
  • reward sum function RSF reward sum function
  • the terminal device 2A includes a control section 20A, an action execution section 26A, an input reception section 28A, and a communication section 29A.
  • the terminal device can be specifically realized as an accounting terminal located in a store, an inventory management terminal located in a warehouse, etc., but this is not a limitation of the exemplary embodiment. do not have.
  • the communication section 29A communicates with a device external to the terminal device 2A.
  • the communication unit 29A communicates with the information processing device 1A.
  • the communication unit 29A transmits data supplied from the control unit 20A to the information processing device 1A, and supplies data received from the information processing device 1A to the control unit 20A.
  • the control unit 20A includes a state information providing unit 21 and a remuneration information providing unit 22, as shown in FIG.
  • the state information providing unit 21 acquires the state and provides it to the information processing device 1.
  • the state information providing unit 21 receives input of data representing the state via the input receiving unit 28A and provides the data to the information processing device 1 .
  • the reward information providing unit 22 provides the information processing device 1 with reward information indicating the reward obtained by executing the action determined by the information processing device 1 .
  • the remuneration information providing unit 22 can be configured to acquire, via the input reception unit 28A, remuneration information indicating a remuneration obtained by executing the action determined by the information processing device 1 .
  • the action execution unit 26A executes the action determined by the information processing device 1. As an example, when the action determined by the information processing device 1 is "to set the price of an object to a certain value", the action execution unit 26A sets the price associated with the object to the value. . Further, when the action determined by the information processing apparatus 1 is "to set the purchase amount of the target object to a certain value", the action execution unit 26A sets the purchase amount associated with the target object to the value. do.
  • the input reception unit 28A receives various inputs to the terminal device 2A.
  • the input reception unit 28A can be configured to include an input device such as a keyboard and a touch pad.
  • the input reception unit 28A may be configured to include a data scanner that reads data via electromagnetic waves such as infrared rays and radio waves, and a sensor that senses the state of the environment.
  • the input reception unit 28A acquires the above-described state information and remuneration information via the above-described input device, data scanner, sensor, etc., and supplies the acquired information to the control unit 20A.
  • the remuneration information acquired by the input reception unit 28A may include "sales” and "information related to inventory” regarding the target.
  • the storage unit 17A includes ⁇ State information SI ⁇ Action information AI Observed Reward RI and Reward Sum Function RSF is stored.
  • the state information SI, the behavior information AI, and the reward observations RI constitute learning data referred to by the decision unit 12 in this exemplary embodiment as an example.
  • first index k is described as an index representing a date as an example, but the exemplary embodiment is not limited to this.
  • second index h is described as an index representing a time zone as an example, but the exemplary embodiment is not limited to this.
  • a specific value of the state parameter s k h included in the state information SI is obtained by the obtaining unit 11 and stored in the storage unit 17A.
  • each value of the state parameter s kh is a temperature numerical value or a value obtained by converting it according to a predetermined conversion rule .
  • each value of the state parameter s kh is a value obtained by quantifying the weather. Unless otherwise confused, state parameters are sometimes simply referred to as states.
  • the behavioral information AI is likewise represented by behavioral parameters ak h with a first index k and a second index h, as shown in FIG.
  • a specific value of the action parameter ak h included in the action information AI is determined by the determination unit 12 and stored in the storage unit 17A. For example, values indicating "price” and "purchase amount” are determined by the determination unit 12 as the values of the behavior parameters a k h and stored in the storage unit 17A. Behavioral parameters are sometimes simply referred to as behaviors, unless otherwise confused.
  • the reward observation value RI is represented by a first index k and a second index h, as shown in FIG. 6, and each value is stored in the storage unit 17A. More specifically, the observed value RI of the reward obtained by executing the action akh under the state skh is expressed as r( skh , akh ) as shown in FIG. and each value is stored in the storage unit 17A. As shown in FIG.
  • Each value of r(s kh , a kh ) included in the reward observed value RI is acquired by the acquisition unit 11 as an example and stored in the storage unit 17A.
  • the acquisition unit 11 obtains numerical values indicating "sales”, “reciprocal of inventory amount”, “constant minus inventory amount”, etc. It is acquired and stored in the storage unit 17A.
  • the storage unit 17A also stores each functional form of the reward sum function RSF.
  • Each functional form of the reward sum function RSF is expressed as Q k h using a first index k and a second index h.
  • Q k h is a function that takes two arguments as input and outputs a predicted value of the reward sum, and is also written as Q k h (.,.).
  • the sum of rewards refers to, for example, the total sum of rewards in a predetermined period.
  • the two variables that Q kh takes as arguments are, for example, state and action.
  • the reward sum function RSF is sometimes called the reward sum function Q, Q function, or action value function. Each function form of the reward sum function RSF is determined by the determination unit 12 and stored in the storage unit 17A.
  • FIG. 7 is a flow diagram showing the flow of the information processing method S1A.
  • the information processing device 1 executes the information processing method S1A to calculate the sum of observation values of rewards in a predetermined period. The action selection is repeated so as to maximize .
  • description is abbreviate
  • Step S11 the determination unit 12 initializes various parameters.
  • the determining unit 12 acquires values to be set to the parameters H and d via the acquiring unit 11, and sets the acquired values to the values of the parameters H and d.
  • the parameter H is a parameter that defines the upper limit of the second index h, as described above.
  • the parameter H can also be said to be the total number of possible second indices h for each value of the first index k.
  • the parameter d is the dimension of the vector representing states and actions.
  • the mapping for representing states and actions as vectors and the parameter d is the dimension of the vector, as shown in the above equation.
  • step S101 the determination unit 12 further sets the parameters ⁇ and ⁇ as, for example, and set. At least one of the parameters d, H, ⁇ , and ⁇ may be called a hyperparameter.
  • step S101 the determination unit 12 performs the following initialization processing. here, as well as are matrices, respectively, and as well as are vectors. again, represents the set of natural numbers from 1 to H.
  • step S101 the determination unit 12 initializes the Q function as follows.
  • Q function is a vector representing states and actions (sometimes called a feature map) , the operation defined below is obtained by applying
  • Step S102 Step S ⁇ b>102 is the beginning of a loop process regarding dates by the determination unit 12 .
  • Step S111 At step S111 in the date loop, the determination unit 12 observes state s k 1 . In other words, the determination unit 12 acquires the value of the state s k 1 via the acquisition unit 11 .
  • Step S103 Step S ⁇ b>103 is the beginning of the first loop processing regarding the time zone by the determination unit 12 .
  • Step S12 In step S12 in the first loop regarding the time period, the determination unit 12 selects the action ak h .
  • the determining unit 12 Choose an action a k h such that In other words, the determination unit 12 selects an action that maximizes the reward sum function including the state acquired by the acquisition unit 11 as an argument.
  • Step S104 Subsequently, in step S104 in the first loop regarding the time period, the determining unit 12 observes the reward r(s kh , ak h ) . In other words, the determination unit 12 acquires the value of the reward r(s kh , a kh ) via the acquisition unit 11 .
  • Step S13 Subsequently, in step S13 in the first loop regarding the time period, the storage unit 13 stores the learning data including the state s kh , the action a kh , and the reward r(s kh , a kh ) in the storage unit 17A. accumulate in
  • Step S112 Subsequently, in step S112 in the first loop regarding the time period, the determination unit 12 observes the state s k h+1 . In other words, the determination unit 12 acquires the value of the state s k h+1 via the acquisition unit 11 .
  • Step S105 Step S ⁇ b>105 is the end of the first loop processing regarding the time zone by the determination unit 12 .
  • Step S106 Step S ⁇ b>106 is the beginning of the second loop processing regarding the time zone by the determination unit 12 .
  • the determination unit 12 may be used to initialize the Q function.
  • Step S107 In step S107 in the second loop regarding the time period, the determining unit 12 updates various parameters. More specifically, the determination unit 12 performs the following updating process. Then, with each parameter updated as above, vector by as well as update the value of
  • step S107 the determination unit 12 by the variance value to update.
  • the first and second lines of (Formula A2) We used the inner product defined by Also, in the third line of (Formula A2) has the meaning as the mean of the state-value function V kh+1 (s kh , a kh ) whose arguments are state s kh and action a kh , and has the meaning as the mean square of the state- value function V kh+1 (s kh , a kh ) whose arguments are state s kh and action a kh . Therefore, the variance value obtained above has the meaning as the variance of the state-value function obtained with reference to state s kh and action a kh .
  • step S107 the determination unit 12 matrix by and vector to update. Then, using the matrix and vector updated as above, the vector of Update by
  • Step S108 the determining unit 12 determines the reward sum function Q k h ( ⁇ , ⁇ ). More specifically, using various parameters updated in step S107, determines the reward sum function Q k h ( ⁇ , ⁇ ).
  • Step S109 Step S ⁇ b>109 is the end of the second loop processing regarding the time zone by the determination unit 12 .
  • Step S110 Step S ⁇ b>110 is the end of the date-related loop processing by the determination unit 12 .
  • the information processing method S1A Acquiring the state (step S111, step S112) determining an action with reference to the state (step S12); and repeatedly accumulating learning data including the state and the reward obtained by the determined action (S13);
  • step S12 a first function that predicts the reward sum from the state and the action, the first function calculated by weighting the learning data is used. Decide on action. Therefore, according to the information processing method S1A, a more suitable action can be determined.
  • the determination unit 12 selects an action that maximizes the reward sum function including the state acquired by the acquisition unit 11 as an argument. It is possible to preferably select an action that maximizes the observed value of .
  • the second line of (Formula A3) indicates that the larger the variance value of the state evaluation function, the vector reward r(s kh , a kh ), the reward sum function , and the vector It shows that the update process is performed so that the contribution of is reduced.
  • the determination unit 12 that executes the information processing method S1A, Calculate an index related to variation from one or more values included in the learning data, A reward sum function (also referred to as a first function) is calculated by applying a smaller weighting factor to the one or more values, the larger the calculated variability index.
  • the determining unit 12 calculates the variance of the state evaluation function (also referred to as the second function) obtained by referring to the state and the action as an index of variation.
  • the variance of the state evaluation function can be interpreted as an index expressing the reliability of each value included in the learning data. Therefore, it can be interpreted that the greater the variation, the lower the reliability. Therefore, it can be said that the determination unit 12 calculates the reward sum function by applying higher weights to values with higher reliability.
  • the determination unit 12 also creates a feature map that maps states and actions to vectors. is used to calculate the reward sum function. In this way, the determining unit 12 calculates the reward sum function using a feature map that maps states and actions to vectors. be able to.
  • the dispersion value of the state evaluation function V is taken as an example of the index of variation, but this does not limit the present exemplary embodiment, and the index of the state evaluation function V is used as an index of variation.
  • An index other than the variance value, such as standard deviation, may be used.
  • the information processing device 1A may be expressed as a price determination device or an object management device if it is configured to determine the price of an object as an action, or if it is configured to determine the purchase amount of an object as an action. , a purchase amount determination device or an inventory management device.
  • FIG. 8 is a block diagram showing the configuration of the information processing device 1B.
  • the information processing device 1B includes a display unit 15B and an input reception unit 16B in addition to the components of the information processing device 1A according to the exemplary embodiment.
  • the display unit 15B is configured to realize display means in this exemplary embodiment.
  • the input reception unit 16B is a configuration that implements input reception means in this exemplary embodiment.
  • the display unit 15B is configured to be able to display various data to be processed by the information processing apparatus 1B.
  • the content displayed by the display unit 15B is controlled by the control unit 10A.
  • the display unit 15B includes a display panel and a drive circuit that drives the display panel.
  • the display unit 15B displays at least one of the state skh , the action akh , the reward r ( skh , akh ) , and the value of the reward sum function Q together with the variance of the state evaluation function V indicate.
  • the upper part of FIG. 9 is a diagram showing an example of the display screen displayed by the display unit 15B.
  • the display unit 15B displays the value of the reward sum function Q and the corresponding variance of the state evaluation function V on a certain day for each time period.
  • the black circles are the values of the reward sum function Q, and the vertical bars indicate the variance of the state evaluation function V.
  • the display unit 15 displays the corresponding state evaluation value among at least one of the state s kh , the action a kh , the reward r(s kh , a kh ) , and the value of the reward sum function Q.
  • a configuration may be adopted in which values for which the variance of the function V is equal to or less than a threshold value are highlighted.
  • the lower part of FIG. 9 is a diagram showing an example of the display screen displayed by the display unit 15B.
  • the display unit 15B displays the value (price) of the action a on a certain day and the variance of the state evaluation function V corresponding thereto for each time period.
  • the black circle is the value (price) of action a
  • the vertical bars indicate the variance of the state evaluation function V.
  • the variance of the state evaluation function V can be interpreted as expressing the reliability of each value of the data as described above.
  • the display unit 15B performs the display as described above, the value of each data can be visually presented to the user of the information processing device 1B along with the reliability, thereby improving the usability and reliability of the information processing device 1B. Improves explainability.
  • the values for which the variance of the corresponding state evaluation function V is equal to or less than the threshold are highlighted. More specifically, a black circle corresponding to a price whose variance of the corresponding state evaluation function V is equal to or less than a threshold and a bar corresponding thereto are displayed so as to be surrounded by a dashed line for highlighting.
  • the information processing device 1B is provided with the display unit 15B as described above, so that the user of the information processing device 1B can receive data whose variance of the state evaluation function V is equal to or less than the threshold value (in other words, reliability is equal to or greater than the threshold value). can be visually presented, the usability and explainability of the information processing apparatus 1B are further improved.
  • the information processing device 1B includes a recommended value calculation unit that calculates recommended values for at least one of the parameters d, H, ⁇ , and ⁇ described in the second exemplary embodiment.
  • a configuration may be adopted in which the recommended value obtained is presented to the user of the information processing apparatus 1B via the display unit 15B.
  • the input reception unit 16B receives various inputs to the information processing device 1B.
  • the specific configuration of the input reception unit 16B does not limit this exemplary embodiment, but as an example, the input reception unit 16B can be configured to include an input device such as a keyboard and a touch pad. Also, the input reception unit 16B may be configured to include a data scanner that reads data via electromagnetic waves such as infrared rays and radio waves, and a sensor that senses the state of the environment.
  • the input reception unit 16B acquires the above-described observed values of the state and reward via the above-described input device, data scanner, sensor, etc., and supplies the acquired information to the control unit 10A.
  • correction information for correcting the action determined by the determination unit 12 may be received from the user of the information processing device 1B.
  • the user who recognizes the display content may input the correction information for correcting the behavior (price) to the input reception unit 16B. .
  • the determination unit 12 determines the behavior after correction by correcting the behavior (price) determined in step S12 in the second exemplary embodiment by the correction amount indicated by the correction information. The determining unit 12 then observes the reward obtained by performing the corrected action, and performs the rest of the processing described in the second exemplary embodiment.
  • the user's correction can be reflected in the action determined by the determining unit 12, so usability and explainability can be improved.
  • An application example of the information processing apparatus 1B will be described below.
  • the following application example is an example in which the information processing device 1B is used to determine the price of each company's beer at a store. More specifically, the discount rate of each company's beer at a certain store is determined as an action (implementation measure).
  • the first element being 0 indicates that Company A's beer price is the fixed price
  • the second element being 2 indicates that Company B's beer price is 10% higher than the fixed price
  • the fact that the third element is 1 indicates that the price of company C's beer is discounted by 10% from the list price.
  • a reward sum function Q relating to company A's beer sales, company B's beer sales, and company C's beer sales may be separately prepared, and each of them may be updated individually. good.
  • a reward sum function Q a reward sum function related to the total sales of company A's beer, company B's beer, and company C's beer may be prepared and updated.
  • the display unit 15B visually presents the beer sales of each company.
  • Some or all of the functions of the information processing apparatuses 1, 1A, and 1B may be implemented by hardware such as integrated circuits (IC chips), or may be implemented by software.
  • the information processing apparatuses 1, 1A, and 1B are implemented by computers that execute program instructions, which are software that implements each function, for example.
  • An example of such a computer (hereinafter referred to as computer C) is shown in FIG.
  • Computer C comprises at least one processor C1 and at least one memory C2.
  • a program P for operating the computer C as the information processing apparatuses 1, 1A, and 1B is recorded in the memory C2.
  • the processor C1 reads the program P from the memory C2 and executes it, thereby realizing each function of the information processing apparatuses 1, 1A, and 1B.
  • processor C1 for example, CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating point number Processing Unit), PPU (Physics Processing Unit) , a microcontroller, or a combination thereof.
  • memory C2 for example, a flash memory, HDD (Hard Disk Drive), SSD (Solid State Drive), or a combination thereof can be used.
  • the computer C may further include a RAM (Random Access Memory) for expanding the program P during execution and temporarily storing various data.
  • Computer C may further include a communication interface for sending and receiving data to and from other devices.
  • Computer C may further include an input/output interface for connecting input/output devices such as a keyboard, mouse, display, and printer.
  • the program P can be recorded on a non-temporary tangible recording medium M that is readable by the computer C.
  • a recording medium M for example, a tape, disk, card, semiconductor memory, programmable logic circuit, or the like can be used.
  • the computer C can acquire the program P via such a recording medium M.
  • the program P can be transmitted via a transmission medium.
  • a transmission medium for example, a communication network or broadcast waves can be used.
  • Computer C can also obtain program P via such a transmission medium.
  • (Appendix 1) an acquisition means for acquiring the state; determining means for determining an action with reference to the state; an accumulation means for accumulating learning data including the state and a reward obtained by the action determined by the determination means; with The determining means is An information processing apparatus, wherein a first function for predicting a reward sum from a state and an action is calculated by weighting the learning data, and the action is determined using the first function.
  • the first function that predicts the sum of rewards from the state and the action is calculated by weighting the learning data, and the action is determined using the first function.
  • a suitable action can be determined.
  • the determining means is calculating an index related to variation from one or more values included in the learning data; 12.
  • the determining means is 3.
  • Appendix 4 The information processing according to appendix 2 or 3, further comprising display means for displaying at least one of the state, the action, the reward, and the value of the first function, and an index related to the variation. Device.
  • the display means is The information processing according to appendix 4, characterized in that among the at least one of the state, the action, the reward, and the value of the first function, a value whose index of variation is equal to or less than a threshold is highlighted.
  • Device The information processing according to appendix 4, characterized in that among the at least one of the state, the action, the reward, and the value of the first function, a value whose index of variation is equal to or less than a threshold is highlighted.
  • the determining means is 6.
  • the information processing apparatus according to any one of appendices 1 to 5, wherein the first function is calculated using a feature map that maps the states and the actions to vectors.
  • Appendix 7 The information processing according to any one of appendices 1 to 6, wherein the determining means selects an action that maximizes the first function including the state obtained by the obtaining means as an argument. Device.
  • Appendix 8 The information processing apparatus according to any one of appendices 1 to 7, further comprising an input device that receives the state and the reward.
  • the state and the reward can be preferably input via the input device.
  • a program that causes a computer to function as an information processing device causes the computer to: an acquisition means for acquiring the state; determining means for determining an action with reference to the state; functions as an accumulation means for accumulating learning data including the state and a reward obtained by the action determined by the determination means;
  • the determining means is A program characterized by calculating a first function for predicting a reward sum from a state and an action by weighting the learning data, and determining the action using the first function.
  • An information processing system including an information processing device and a terminal device,
  • the information processing device is an acquisition means for acquiring the state; determining means for determining an action with reference to the state; an accumulation means for accumulating learning data including the state and a reward obtained by the action determined by the determination means; with The determining means is calculating a first function that predicts the sum of rewards from the state and the action by weighting the learning data, and determining the action using the first function;
  • the terminal device a state information providing means for obtaining a state and providing it to the information processing device; remuneration information providing means for providing the information processing device with remuneration information indicating a reward obtained by executing the action determined by the information processing device;
  • An information processing system comprising:
  • the information processing device getting to get the state, determining an action with reference to the state; and accumulating learning data including the state and a reward obtained by the determined action; repeatedly containing In the step of determining the action, A first function for predicting a reward sum from a state and an action, wherein the first function calculated by weighting the learning data is used to determine the action; the terminal device acquiring a state and providing it to the information processing device; and providing the information processing device with remuneration information indicating a remuneration obtained by executing the action determined by the information processing device;
  • An information processing method comprising:
  • At least one processor said processor comprising: Acquisition processing for acquiring the state; a determination process for determining an action by referring to the state; an accumulation process for accumulating learning data including the state and a reward obtained by the action determined by the determination process; and run
  • the processor shall: A first function for predicting the sum of rewards from the state and the action is calculated by weighting the learning data, and the action is determined using the first function.
  • the information processing apparatus may further include a memory, and the memory stores a program for causing the processor to execute the acquisition process, the determination process, and the accumulation process. good too.
  • this program may be recorded in a computer-readable non-temporary tangible recording medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

より好適な行動を決定するために、情報処理装置(1)は、状態を取得する取得部(11)と、前記状態を参照して行動を決定する決定部(12)と、前記状態と、前記決定部が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積部(13)と、を備え、前記決定部は、状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定する。

Description

情報処理装置、情報処理方法、情報処理システム、およびプログラム
 本発明は、行動を決定する情報処理装置、情報処理方法、情報処理システム、およびプログラムに関する。
 行動と報酬との関係が未知の状態において、報酬を観測しつつ、報酬の総和を最大化するような行動を逐次的に決定する技術が知られている。例えば、このような技術の一例として、非特許文献1には、所謂Upper-Confidence Bounds (UCB)アルゴリズムを用いた技術が開示されている。
Chi Jin et.al. "Provably Efficient Reinforcement Learning with Linear Function Approximation" arXiv:1907.05388v2 [cs.LG], Aug 8, 2019
 しかしながら、非特許文献1に記載の技術は、より好適な行動を決定するという観点で改善の余地がある。一般に行動を決定するために参照する学習データには、信頼性が高いデータと信頼性が低いデータとが混在し得るが、非特許文献1の技術ではこれらのデータを同列に扱っているためである。
 本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、より好適な行動を決定することのできる技術を提供することである。
 本発明の一態様に係る情報処理装置は、状態を取得する取得手段と、前記状態を参照して行動を決定する決定手段と、前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、を備え、前記決定手段は、状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定する。
 本発明の一態様に係る情報処理方法は、情報処理装置が、状態を取得すること、前記状態を参照して行動を決定すること、及び、前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること、を繰り返し含み、前記行動を決定する工程では、状態と行動とから報酬和を予測する第1の関数であって、前記学習データに対する重み付けを行うことによって算出された第1の関数を用いて行動を決定する。
 本発明の一態様に係るプログラムは、コンピュータを情報処理装置として機能させるプログラムであって、前記プログラムは、前記コンピュータを、状態を取得する取得手段と、前記状態を参照して行動を決定する決定手段と、前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、して機能させ、前記決定手段は、状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定する。
 本発明の一態様に係る情報処理システムは、情報処理装置と、端末装置とを含む情報処理システムであって、前記情報処理装置は、状態を取得する取得手段と、前記状態を参照して行動を決定する決定手段と、前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、を備え、前記決定手段は、状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定し、前記端末装置は、状態を取得し前記情報処理装置に提供する状態情報提供手段と、前記情報処理装置が決定した行動を実行して得られた報酬を示す報酬情報を前記情報処理装置に提供する報酬情報提供手段と、を備えている。
 本発明の一態様に係る情報処理方法は、情報処理装置が、状態を取得する取得すること、
 前記状態を参照して行動を決定すること、及び、前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること、を繰り返し含み、前記行動を決定する工程では、状態と行動とから報酬和を予測する第1の関数であって前記学習データに対する重み付けを行うことによって算出された第1の関数を用いて行動を決定し、端末装置が、状態を取得し前記情報処理装置に提供すること、及び、前記情報処理装置が決定した行動を実行して得られた報酬を示す報酬情報を前記情報処理装置に提供すること、を含む。
 本発明の一態様によれば、より好適な行動を決定することができる。
本発明の例示的実施形態1に係る情報処理装置の構成を示すブロック図である。 本発明の例示的実施形態1に係る情報処理装置が実行する情報処理方法の流れを示すフロー図である。 本発明の例示的実施形態1に係る情報処理システムの構成を示すブロック図である。 本発明の例示的実施形態1に係る情報処理システムが実行する情報処理方法の流れを示すフロー図である。 本発明の例示的実施形態2に係る情報処理システムの構成を示すブロック図である。 本発明の例示的実施形態2に係る情報処理装置の記憶部に格納される各種のデータの例を示す図である。 本発明の例示的実施形態2に係る情報処理装置が実行する情報処理方法の流れを示すフロー図である。 本発明の例示的実施形態3に係る情報処理装置の構成を示すブロック図である。 本発明の例示的実施形態3に係る情報処理装置が表示する表示画面例を示す図である。 本発明の各例示的実施形態における情報処理装置のハードウェア構成の一例を示すブロック図である。
 〔例示的実施形態1〕
 本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
 <情報処理装置1の概要>
 本例示的実施形態に係る情報処理装置1は、概略的に言えば、与えられた状態において、ある種の予測関数の値を最大化するような行動を選択する装置である。ここで、当該予測関数とは、一例として、対象量の和の予測値を算出する関数である。より具体的に言えば、情報処理装置1は、一例として、
・過去の状態、
・過去に選択した行動、及び、
・過去の状態と過去の行動とによって得られた対象量の観測値
を逐次的に学習データとして蓄積し、当該学習データを参照して、対象量の和を予測する予測関数を逐次的に更新する。ここで、情報処理装置1は、与えられた状態において当該予測関数を最大化する行動を選択するよう構成される。
 換言すれば、情報処理装置1は、一例として、
・状態を取得
・取得した状態の下で予測関数を最大化する行動を選択
・選択した行動によって得られる対象量の観測値を取得
・上記状態、上記行動、及び上記対象量の観測値を学習データとして蓄積
・学習データを用いて予測関数を更新
というステップを繰り返すよう構成された装置である。
 なお、上記の対象量としては、一例として、行動によって得られる報酬を挙げることができる。また、上記の予測関数として、報酬の和の予測値を算出する報酬和関数を挙げることができる。ここで、本例示的実施形態において、「状態」「行動」及び「報酬」は、特にことわりのない限り、情報処理的な意味において特に限定を含まない概念として解釈される。
 また、本明細書において「学習データ」との表現は、予測関数を更新(学習)するために参照されるデータであるという以上の限定を有するものではない。本明細書における「学習データ」との表現に代えて「学習用データ」「教師データ」「参照用データ」等の表現を用いてもよい。
 <情報処理装置1の構成>
 本例示的実施形態に係る情報処理装置1の構成について、図1を参照して説明する。図1は、情報処理装置1の構成を示すブロック図である。
 図1に示すように、情報処理装置1は、取得部11と、決定部12と、蓄積部13とを備えている。取得部11は、本例示的実施形態において取得手段を実現する構成である。決定部12は、本例示的実施形態において決定手段を実現する構成である。蓄積部13は、本例示的実施形態において蓄積手段を実現する構成である。
 取得部11は、状態を取得する。一例として、取得部11は、状態に関する情報を含む状態情報を取得し、当該状態情報が示す状態を特定する。ここで、「状態」の具体例は本例示的実施形態を限定するものではないが、一例として、温度や天気等の環境の状態が挙げられる。
 決定部12は、取得部11が取得した状態を参照して行動を決定する。ここで、決定部12は、状態と行動とから報酬和を予測する第1の関数を、後述する蓄積部13が蓄積した学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定する。ここで、上記第1の関数は、報酬和を予測する関数であるので報酬和関数と呼ぶこともある。また、上記第1の関数は、行動の価値を定量化する関数でもあるので行動価値関数と呼ぶこともある。
 また、決定部12によって行われる学習データに対する重み付け処理の具体例は本例示的実施形態を限定するものではないが、一例として、決定部12は、学習データに含まれる1又は複数の値から、ばらつきに関する指標を算出し、算出したばらつきに関する指標がより大きい程、より小さい重み係数を前記1又は複数の値に適用することによって、前記第1の関数を算出することができる。
 ここで、上記ばらつきに関する指標は、一例として、学習データに含まれる各値の信頼性を表現する指標として解釈できるものを用いることができる。また、上記ばらつきが大きい程、信頼性が低いとの解釈が成り立ち得る。したがって、決定部12は、信頼性がより高い値に対してより高い重みを適用することによって前記第1の関数を算出するものであると表現することもできる。
 また、「行動」の具体例は本例示的実施形態を限定するものではないが、一例として、対象物の「価格」や「仕入れ量」等を挙げることができる。また、「報酬」の具体例は、本例示的実施形態を限定するものではないが、一例として、対象物に関する「売上げ」や「在庫量の逆数」又は「定数から在庫量を減算したもの」等を挙げることができる。
 なお、決定部12は、一例として、取得部11が取得した状態を引数として含む前記第1の関数を最大化するような行動を選択するよう構成することができるが、これは本例示的実施形態を限定するものではない。
 蓄積部13は、取得部11が取得した状態と、決定部12が決定した行動によって得られた報酬とを含む学習データを蓄積する。
 <情報処理装置1の効果>
 本例示的実施形態に係る情報処理装置1によれば、状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定するので、より好適な行動を決定することができる。
 <情報処理装置1による情報処理方法の流れ>
 以上のように構成された情報処理装置1が実行する情報処理方法S1の流れについて、図2を参照して説明する。図2は、情報処理方法S1の流れを示すフロー図である。情報処理装置1は、情報処理方法S1を繰り返すことによって、行動の選択を繰り返し行う。なお、すでに説明した内容については説明を省略する。
 図2に示すように、情報処理方法S1は、ステップS11~S13を含む。
 (ステップS11)
 ステップS11において、取得部11は、状態を取得する。一例として、取得部11は、状態に関する情報を含む状態情報を取得し、当該状態情報が示す状態を特定する。
 (ステップS12)
 ステップS12において、決定部12は、ステップS11において取得部11が取得した状態を参照して行動を決定する。ここで、決定部12は、状態と行動とから報酬和を予測する第1の関数であって、学習データに対する重み付けを行うことによって算出された第1の関数を用いて行動を決定する。
 ここで、繰り返しのn(nは自然数)回目において、決定部12が第1の関数を算出するために参照する学習データとしては、一例として、n-1回目までに蓄積された学習データが用いられる。
 (ステップS13)
 ステップS13において、蓄積部13は、ステップS12において取得部11が取得した状態と、ステップS12において決定部12が決定した行動によって得られた報酬とを含む学習データを蓄積する。
 <情報処理方法S1の効果>
 本例示的実施形態に係る情報処理方法S1によれば、状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定するので、より好適な行動を決定することができる。
 <情報処理システムの構成>
 続いて、本例示的実施形態に係る情報処理システム100の構成について、図3を参照して説明する。図3は、情報処理システム100の構成を示すブロック図である。
 図3に示すように、情報処理システム100は、情報処理装置1と端末装置2とを備えている。情報処理装置1が備える各構成については既に説明したため、ここでは説明を省略する。
 端末装置2は、図3に示すように、状態情報提供部21と、報酬情報提供部22とを備えている。状態情報提供部21は、本例示的実施形態において状態情報提供手段を実現する構成である。報酬情報提供部22は、本例示的実施形態において報酬情報提供手段を実現する構成である。
 状態情報提供部21は、状態を取得し情報処理装置1に提供する。一例として、状態情報提供部21は、状態を表すデータを取得し、当該データを情報処理装置1に提供する。
 報酬情報提供部22は、情報処理装置1が決定した行動を実行して得られた報酬を示す報酬情報を情報処理装置1に提供する。報酬情報提供部22は、一例として、情報処理装置1が決定した行動を示す行動情報を取得する取得部、及び情報処理装置1が決定した行動を実行する実行部を備える構成としてもよい。
 <情報処理システムの効果>
 本例示的実施形態に係る情報処理システム100によれば、状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定するので、より好適な行動を決定することができる。
 <情報処理システム100による情報処理方法の流れ>
 以上のように構成された情報処理システム100が実行する情報処理方法S100の流れについて、図4を参照して説明する。図4は、情報処理方法S100の流れを示すフロー図である。情報処理システム100は、情報処理方法S100を実行することによって、行動の選択を繰り返し行う。なお、すでに説明した内容については説明を省略する。
 図4に示すように、情報処理方法S100は、ステップS11~S13、及びS21~S22を繰り返し含む。ここで、図4における各ステップに付した符号において、繰り返しの次数を、ハイフン「-」の後の枝番として記載している。例えば、S21-1は、繰り返しの1回目であることを表しており、S21-2は、繰り返しの2回目であることを表している。他のステップについても同様である。
 (ステップS21-1)
 ステップS21-1において、端末装置2の状態情報提供部21は、状態を表すデータを取得し、当該データを情報処理装置1に提供する。
 (ステップS11-1)
 ステップS11-1において、情報処理装置1の取得部11は、端末装置2の状態情報提供部21から提供された状態を取得する。
 (ステップS12-1)
 ステップS12-1において、情報処理装置1の決定部12は、ステップS11-1において取得部11が取得した状態を参照して行動を決定する。そして、情報処理装置1は、決定した行動を示す行動情報を、端末装置2に提供する。
 (ステップS22-1)
 ステップS22-1において、端末装置2の報酬情報提供部22は、ステップS12-1において、情報処理装置1の決定部12が決定した行動を実行して得られた報酬を示す報酬情報を情報処理装置1に提供する。
 (ステップS13-1)
 ステップS13-1において、情報処理装置1の蓄積部13は、ステップS12-1において取得部11が取得した状態と、ステップS12-1において決定部12が決定した行動によって得られた報酬とを含む学習データを蓄積する。
 (ステップS21-2)
 続いて、ステップS21-2において、端末装置2の状態情報提供部21は、状態を表すデータを取得し、当該データを情報処理装置1に提供する。本ステップにおいて取得する情報は、ステップS21-1において取得した状態とは異なり得る。
 (ステップS11-2)
 ステップS11-1において、情報処理装置1の取得部11は、端末装置2の状態情報提供部21から提供された状態を取得する。
 (ステップS12-2)
 ステップS12-2において、情報処理装置1の決定部12は、ステップS11-2において取得部11が取得した状態を参照して行動を決定する。ここで、決定部12は、状態と行動とから報酬和を予測する第1の関数を、学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定する。そして、情報処理装置1は、決定した行動を示す行動情報を、端末装置2に提供する。
 ここで、本ステップにおいて、決定部12が第1の関数を算出するために参照する学習データとしては、一例として、ステップS13-1までに蓄積された学習データが用いられる。
 (ステップS22-2)
 ステップS22-2において、端末装置2の報酬情報提供部22は、ステップS12-2において、情報処理装置1の決定部12が決定した行動を実行して得られた報酬を示す報酬情報を情報処理装置1に提供する。
 (ステップS13-2)
 ステップS13-2において、情報処理装置1の蓄積部13は、ステップS12-2において取得部11が取得した状態と、ステップS12-2において決定部12が決定した行動によって得られた報酬とを含む学習データを蓄積する。
 <情報処理方法S100の効果>
 本例示的実施形態に係る情報処理システム100によれば、状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定するので、より好適な行動を決定することができる。
 〔例示的実施形態2〕
 本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
 <情報処理システム100Aの構成>
 本例示的実施形態に係る情報処理システム100Aの構成について、図5を参照して説明する。図5は、情報処理システム100Aの構成を示すブロック図である。図5に示すように、情報処理システム100Aは、情報処理装置1Aと、端末装置2Aとを含んでいる。また、図5に示すように、情報処理装置1Aと端末装置2AとはネットワークNを介して通信可能に構成されている。ここで、ネットワークNの具体的構成は本例示的実施形態を限定するものではないが、一例として、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせを用いることができる。
 <情報処理装置1Aの構成>
 本例示的実施形態に係る情報処理装置1Aの構成について、図5を参照して説明する。図5は、情報処理装置1Aの構成を示すブロック図である。
 図5に示すように、情報処理装置1Aは、制御部10Aと、記憶部17Aと、通信部19Aとを備えている。
 通信部19Aは、情報処理装置1Aの外部の装置と通信を行う。一例として通信部19Aは、端末装置2Aと通信を行う。通信部19Aは、制御部10Aから供給されたデータを端末装置2Aに送信したり、端末装置2Aから受信したデータを制御部10Aに供給したりする。
 (制御部10A)
 制御部10Aは、図5に示すように、取得部11、決定部12、及び蓄積部13を備えている。取得部11は、本例示的実施形態において取得手段を実現する構成である。決定部12は、本例示的実施形態において決定手段を実現する構成である。蓄積部13は、本例示的実施形態において蓄積手段を実現する構成である。
 取得部11は、例示的実施形態1と同様に、状態を取得する。一例として、取得部11は、状態に関する情報を含む状態情報を、通信部19Aを介して端末装置2Aの状態情報提供部21から取得する。そして、取得部11は、取得した状態情報が示す状態を特定する。ここで、「状態」の具体例は本例示的実施形態を限定するものではないが、一例として、例示的実施形態1と同様に、温度や天気等の環境の状態が挙げられる。
 決定部12は、例示的実施形態1と同様に、取得部11が取得した状態を参照して行動を決定する。ここで、決定部12は、状態と行動とから報酬和を予測する第1の関数を、蓄積部13が蓄積した学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定する。ここで、上記第1の関数は、例示的実施形態1と同様に、報酬和を予測する関数であるので報酬和関数と呼ぶこともある。また、上記第1の関数は、行動の価値を定量化する関数でもあるので行動価値関数と呼ぶこともある。決定部12によって行われる学習データに対する重み付け処理の具体例については後述するため、ここでは説明を省略する。
 なお、「行動」の具体例は本例示的実施形態を限定するものではないが、一例として、対象物の「価格」や「仕入れ量」等を挙げることができる。また、「報酬」の具体例は、本例示的実施形態を限定するものではないが、一例として、対象物に関する「売上げ」や「在庫量の逆数」又は「定数から在庫量を減算したもの」等を挙げることができる。
 蓄積部13は、取得部11が取得した状態と、決定部12が決定した行動によって得られた報酬とを含む学習データを蓄積する。一例として、蓄積部13は、取得部11が取得した状態と、決定部12が決定した行動によって得られた報酬とを含む学習データを記憶部17Aに格納する。
 記憶部17Aには、制御部10Aによって参照される各種のデータが格納される。一例として、記憶部17Aには、図5に示すように、状態情報SI、行動情報AI、報酬の観測値RI、及び報酬和関数RSFが格納される。記憶部17Aが格納する各種のデータについては参照する図面を代えて後述する。
 <端末装置2Aの構成>
 端末装置2Aは、図5に示すように、制御部20A、行動実行部26A、入力受付部28A、及び通信部29Aを備えている。端末装置は、一例として、店舗に配置された会計用端末、及び倉庫に配置された在庫管理用端末等として具体的に実現することができるが、これは本例示的実施形態を限定するものではない。
 通信部29Aは、通信部29Aは、端末装置2Aの外部の装置と通信を行う。一例として通信部29Aは、情報処理装置1Aと通信を行う。通信部29Aは、制御部20Aから供給されたデータを情報処理装置1Aに送信したり、情報処理装置1Aから受信したデータを制御部20Aに供給したりする。
 制御部20Aは、図5に示すように、状態情報提供部21、及び報酬情報提供部22を備えている。
 状態情報提供部21は、状態を取得し情報処理装置1に提供する。一例として、状態情報提供部21は、入力受付部28Aを介して状態を表すデータの入力を受け付け、当該データを情報処理装置1に提供する。
 報酬情報提供部22は、情報処理装置1が決定した行動を実行して得られた報酬を示す報酬情報を情報処理装置1に提供する。ここで、報酬情報提供部22は、情報処理装置1が決定した行動を実行して得られた報酬を示す報酬情報を、入力受付部28Aを介して取得する構成とすることができる。
 行動実行部26Aは、情報処理装置1が決定した行動を実行する。一例として、情報処理装置1が決定した行動が、「対象物の価格をある値に設定すること」である場合、行動実行部26Aは、当該対象物に関連付けられた価格を当該値に設定する。また、情報処理装置1が決定した行動が、「対象物の仕入れ量をある値に設定すること」である場合、行動実行部26Aは、当該対象物に関連付けられた仕入れ量を当該値に設定する。
 入力受付部28Aは、端末装置2Aに対する各種の入力を受け付ける。入力受付部28Aの具体的構成は本例示的実施形態を限定するものではないが、一例として、入力受付部28Aは、キーボード及びタッチパッド等の入力デバイスを備える構成とすることができる。また、入力受付部28Aは、赤外線や電波等の電磁波を介してデータの読み取りを行うデータスキャナ、及び、環境の状態をセンシングするセンサ等を備える構成としてもよい。
 入力受付部28Aは、上述した入力デバイス、データスキャナ、及びセンサ等を介して、上述した状態情報、及び上述した報酬情報を取得し、取得した情報を制御部20Aに供給する。ここで、入力受付部28Aが取得する報酬情報には、対象物に関する「売上げ」や「在庫量に関連する情報」が含まれ得る。
 (記憶部17Aに格納されるデータの例)
 続いて、図6を参照して、情報処理装置1Aの記憶部17Aに格納される各種のデータについて説明する。
 図6に示すように、格納部17Aには、
・状態情報SI
・行動情報AI
・報酬の観測値RI、及び
・報酬和関数RSF
が格納されている。状態情報SI、行動情報AI、及び報酬の観測値RIは、一例として本例示的実施形態において決定部12によって参照される学習データを構成する。
 (状態情報SI)
 状態情報SIは、より具体的には、図6に示すように、第1のインデックスk(k=1、2、・・・K:Kは自然数)及び第2のインデックスh(h=1、2、・・・H:Hは自然数)を有する状態パラメータs によって表される。ここで、第1のインデックスkは、一例として日付を表すインデックスであるとして説明を行うが、本例示的実施形態はこれに限定されるものではない。また、第2のインデックスhは、一例として時間帯を表すインデックスであるとして説明を行うが、本例示的実施形態はこれに限定されるものではない。
 図6に示すように、状態情報SIには、一例として、k=1の状態パラメータ群s ~s 12、k=2の状態パラメータ群s ~s 12が含まれている。また、図6に示す例では、状態情報SIには、k=3の状態パラメータ群s ~s が含まれている。
 状態情報SIに含まれる状態パラメータs の具体的な値は取得部11によって取得され、記憶部17Aに格納される。例えば、状態として温度を用いる構成の場合、状態パラメータs の各値は、温度の数値又はそれを所定の変換ルールによって変換して得られる値が用いられる。また、状態として天気を用いる構成の場合、状態パラメータs の各値は、天気を数値化して得られる値が用いられる。なお、特に混乱のない限り、状態パラメータのことを単に状態と呼ぶことがある。
 (行動情報AI)
 行動情報AIは、同様に、図6に示すように、第1のインデックスk及び第2のインデックスhを有する行動パラメータа によって表される。図6に示すように、行動情報AIには、一例として、k=1の行動パラメータ群а ~а 12、k=2の行動パラメータ群а ~а 12が含まれている。また、図6に示す例では、状態情報AIには、k=3の行動パラメータ群а ~а が含まれている。
 行動情報AIに含まれる行動パラメータа の具体的な値は決定部12によって決定され、記憶部17Aに格納される。例えば、行動パラメータа の各値として、「価格」や「仕入れ量」を示す値が決定部12によって決定され、記憶部17Aに格納される。特に混乱のない限り、行動パラメータのことを単に行動と呼ぶことがある。
 (報酬の観測値RI)
 報酬の観測値RIは、図6に示すように、第1のインデックスk及び第2のインデックスhによって表され、その各値が記憶部17Aに格納される。より具体的には、状態s の下で行動а を実行して得られた報酬の観測値RIは、図6に示すように、r(s ,а )と表現され、その各値が記憶部17Aに格納される。図6に示すように、報酬の観測値RIには、一例として、k=1の報酬の観測値群r(s ,а )~r(s 12,а 12)、k=2の報酬の観測値群r(s ,а )~r(s 12,а 12)が含まれている。また、図6に示す例では、報酬の観測値RIには、k=3の行動パラメータ群報酬の観測値群r(s ,а )~r(s ,а )が含まれている。
 報酬の観測値RIに含まれるr(s ,а )の各値は、一例として取得部11によって取得され、記憶部17Aに格納される。例えば、r(s ,а )の各値として、対象物に関する「売上げ」や「在庫量の逆数」又は「定数から在庫量を減算したもの」等を示す数値が取得部11によって取得され、記憶部17Aに格納される。
 (報酬和関数RSF)
 図6に示すように、記憶部17Aには、報酬和関数RSFの各関数形も格納されている。報酬和関数RSFの各関数形は、第1のインデックスk及び第2のインデックスhを用いて、Q と表現される。Q は、2つの引数を入力とし報酬和の予測値を出力する関数であり、Q (・,・)とも表記する。ここで報酬和とは、一例として、所定の期間における報酬の総和のことを指す。Q が引数にとる2つの変数は、一例として、状態と行動である。
 報酬和関数RSFのことを、報酬和関数Q、Q関数、又は行動価値関数と呼ぶこともある。報酬和関数RSFの各関数形は決定部12によって決定され記憶部17Aに格納される。
 <情報処理装置1Aによる情報処理方法の流れ>
 以上のように構成された情報処理装置1Aが実行する情報処理方法S1Aの流れについて、図7を参照して説明する。図7は、情報処理方法S1Aの流れを示すフロー図である。情報処理装置1は、情報処理方法S1Aを実行することによって、所定期間における報酬の観測値の和
Figure JPOXMLDOC01-appb-M000001
を最大化するように、行動の選択を繰り返し行う。なお、すでに説明した内容については説明を省略する。
 また、以下の説明では、状態の集合を
Figure JPOXMLDOC01-appb-M000002
と表現し、行動の集合を
Figure JPOXMLDOC01-appb-M000003
と表現することがある。
 (ステップS11)
 ステップS101において、決定部12は、各種のパラメータの初期化を行う。一例として、決定部12は、取得部11を介してパラメータH及びdに設定すべき値を取得し、取得した値をパラメータH及びdの値に設定する。
 ここで、パラメータHは、上述した通り、第2のインデックスhの上限を規定するパラメータである。パラメータHは、第1のインデックスkの各々の値に対して取ることのできる第2のインデックスhの総数であるとも言える。
 一方、パラメータdは、状態と行動とを表現するベクトルの次元である。換言すれば、状態と行動とをベクトルとして表すための写像
Figure JPOXMLDOC01-appb-M000004
が存在し、上式に示すように、パラメータdは、当該ベクトルの次元である。
 ステップS101において、決定部12は、更に、パラメータλとβとを、一例として、
Figure JPOXMLDOC01-appb-M000005
と設定する。なお、パラメータd、H、λ、及びβの少なくとも何れかのことをハイパーパラメータと呼ぶこともある。
 また、ステップS101において、決定部12は以下のような初期化処理を行う。
Figure JPOXMLDOC01-appb-M000006
ここで、
Figure JPOXMLDOC01-appb-M000007
及び
Figure JPOXMLDOC01-appb-M000008
は、それぞれ行列であり、
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
及び
Figure JPOXMLDOC01-appb-M000011
はそれぞれベクトルである。また、
Figure JPOXMLDOC01-appb-M000012
との表現は、1からHまでの自然数の集合を表している。
 また、ステップS101において、決定部12は、Q関数を以下のように初期化する。
Figure JPOXMLDOC01-appb-M000013
ここで、
Figure JPOXMLDOC01-appb-M000014
は、状態と行動とを表現するベクトル(特徴マップと呼ぶこともある)
Figure JPOXMLDOC01-appb-M000015
に対して、以下で定義される演算
Figure JPOXMLDOC01-appb-M000016
を適用して得られる。
 (ステップS102)
 ステップS102は、決定部12による日付に関するループ処理の始端である。ここで、当該日付に関するループ処理におけるループ変数は、
  k=1、2、・・・、K
である。
 (ステップS111)
 日付に関するループ中のステップS111において、決定部12は、状態s を観測する。換言すれば、決定部12は、取得部11を介して状態s の値を取得する。
 (ステップS103)
 ステップS103は、決定部12による時間帯に関する第1ループ処理の始端である。ここで、当該時間帯に関するループ処理におけるループ変数は、
  h=1、2、・・・、H
である。
 (ステップS12)
 時間帯に関する第1ループ中のステップS12において、決定部12は、行動а を選択する。一例として、決定部12は、
Figure JPOXMLDOC01-appb-M000017
となる行動а を選択する。換言すれば、決定部12は、取得部11が取得した状態を引数として含む報酬和関数を最大化するような行動を選択する。
 (ステップS104)
 続いて、時間帯に関する第1ループ中のステップS104において、決定部12は、報酬r(s ,а )を観測する。換言すれば、決定部12は取得部11を介して報酬r(s ,а )の値を取得する。
 (ステップS13)
 続いて、時間帯に関する第1ループ中のステップS13において、蓄積部13は、状態s 、行動а 、及び報酬r(s ,а )を含む学習データを記憶部17A    に蓄積する。
 (ステップS112)
 続いて、時間帯に関する第1ループ中のステップS112において、決定部12は、状態s h+1を観測する。換言すれば、決定部12は取得部11を介して状態s h+1の値を取得する。
 (ステップS105)
 ステップS105は、決定部12による時間帯に関する第1ループ処理の終端である。
 (ステップS106)
 ステップS106は、決定部12による時間帯に関する第2ループ処理の始端である。当該時間帯に関するループ処理におけるループ変数は、
  h=H、H-1、・・・、1
である。
 なお、当該時間帯に関する第2ループ処理に入る前に、決定部12は、
Figure JPOXMLDOC01-appb-M000018
によってQ関数を初期化する構成としてもよい。
 (ステップS107)
 時間帯に関する第2ループ中のステップS107において、決定部12は、各種パラメータの更新を行う。より具体的には、決定部12は、以下の更新処理を行う。
Figure JPOXMLDOC01-appb-M000019
そして、上記のように更新された各パラメータを用いて、
Figure JPOXMLDOC01-appb-M000020
によってベクトル
Figure JPOXMLDOC01-appb-M000021
及び
Figure JPOXMLDOC01-appb-M000022
の値を更新する。
 また、ステップS107において、決定部12は、
Figure JPOXMLDOC01-appb-M000023
によって、分散値
Figure JPOXMLDOC01-appb-M000024
を更新する。ここで、(数式A2)の1行目及び2行目において
Figure JPOXMLDOC01-appb-M000025
によって定義される内積を用いた。また、(数式A2)の3行目における
Figure JPOXMLDOC01-appb-M000026
は、状態s 及び行動а を引数とする状態価値関数V h+1(s ,а )の平均としての意味を有し、
Figure JPOXMLDOC01-appb-M000027
は、状態s 及び行動а を引数とする状態価値関数V h+1(s ,а )の2乗平均としての意味を有する。したがって、上記のように求めた分散値
Figure JPOXMLDOC01-appb-M000028
は、状態s 及び行動а を参照して得られる状態価値関数の分散としての意味を有する。
 また、ステップS107において、決定部12は、
Figure JPOXMLDOC01-appb-M000029
によって行列
Figure JPOXMLDOC01-appb-M000030
及び、ベクトル
Figure JPOXMLDOC01-appb-M000031
を更新する。そして、上記のように更新された行列及びベクトルを用いて、ベクトル
Figure JPOXMLDOC01-appb-M000032

Figure JPOXMLDOC01-appb-M000033
によって更新する。
 (ステップS108)
 ステップS108において、決定部12は、報酬和関数Q (・,・)を決定する。より具体的には、ステップS107において更新された各種パラメータを用いて、
Figure JPOXMLDOC01-appb-M000034
によって報酬和関数Q (・,・)を決定する。
 (ステップS109)
 ステップS109は、決定部12による時間帯に関する第2ループ処理の終端である。
 (ステップS110)
 ステップS110は、決定部12による日付に関するループ処理の終端である。
 (情報処理方法S1Aに関する詳細説明)
 情報処理方法S1Aの流れは以上であるが、より踏み込んだ説明を行えば以下の通りである。
 まず、上述したように、情報処理方法S1Aは、
  状態を取得すること(ステップS111、ステップS112)
  前記状態を参照して行動を決定すること(ステップS12)、及び、
  前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること(S13)、を繰り返し含んでおり、
  前記行動を決定する工程(ステップS12)では、状態と行動とから報酬和を予測する第1の関数であって、前記学習データに対する重み付けを行うことによって算出された当該第1の関数を用いて行動を決定する。このため、情報処理方法S1Aによれば、より好適な行動を決定することができる。
 また、(数式A1)を参照して上述したように、決定部12は、取得部11が取得した状態を引数として含む報酬和関数を最大化するような行動を選択するので、所定期間における報酬の観測値が最大となるような行動を好適に選択することができる。
 また、(数式A3)の1行目及び2行目における
Figure JPOXMLDOC01-appb-M000035
との係数は、状態評価関数の分散値の逆数の2乗である。したがって、(数式A3)の1行目は、状態評価関数の分散値が大きい程、
行列
Figure JPOXMLDOC01-appb-M000036
に対するベクトル
Figure JPOXMLDOC01-appb-M000037
の寄与が小さくなるよう更新処理を行うことを示している。
 また、(数式A3)の2行目は、状態評価関数の分散値が大きい程、ベクトル
Figure JPOXMLDOC01-appb-M000038
に対する報酬r(s ,а )、報酬和関数、及びベクトル
Figure JPOXMLDOC01-appb-M000039
の寄与が小さくなるよう更新処理を行うことを示している。
 従って、情報処理方法S1Aを実行する決定部12は、
  学習データに含まれる1又は複数の値から、ばらつきに関する指標を算出し、
  算出したばらつきに関する指標がより大きい程、より小さい重み係数を前記1又は複数の値に適用することによって、報酬和関数(第1の関数とも呼ぶ)を算出するという構成である。
 また、上述したように、決定部12は、ばらつきに関する指標として、状態と行動とを参照して得られる状態評価関数(第2の関数とも呼ぶ)の分散を算出する。
 ここで、状態評価関数の分散は、学習データに含まれる各値の信頼性を表現する指標として解釈できる。したがって、上記ばらつきが大きい程、信頼性が低いとの解釈が成り立ち得る。このため、決定部12は、信頼性がより高い値に対してより高い重みを適用することによって報酬和関数を算出するものであると表現することもできる。
 したがって、上記の構成によれば、信頼性がより高い学習データの寄与をより大きく取り込むことによって、報酬の観測値の和を最大化するような行動を好適に決定することができる。
 また、上述したように、決定部12は、状態と行動とをベクトルにマップする特徴マップ
Figure JPOXMLDOC01-appb-M000040
を用いて、前記報酬和関数を算出する。このように、決定部12は、状態と行動とをベクトルにマップする特徴マップを用いて、報酬和関数を算出するので、報酬の観測値の和を最大化するような行動を好適に決定することができる。
 なお、上記の例では、ばらつきに関する指標として、状態評価関数Vの分散値を例に挙げたが、これは本例示的実施形態を限定するものではなく、ばらつきに関する指標として、状態評価関数Vの標準偏差等、分散値以外の指標を用いてもよい。
 なお、情報処理装置1Aは、行動として対象物の価格を決定する構成の場合、価格決定装置や対象物管理装置と表現してもよいし、行動として対象物の仕入れ量を決定する構成の場合、仕入れ量決定装置や在庫管理装置と表現してもよい。
 〔例示的実施形態3〕
 本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1及び2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
 <情報処理装置1Bの構成>
 本例示的実施形態に係る情報処理装置1Bの構成について、図8を参照して説明する。図8は、情報処理装置1Bの構成を示すブロック図である。
 図8に示すように、情報処理装置1Bは、例示的実施形態に係る情報処理装置1Aが備える各構成に加えて、表示部15B、及び入力受付部16Bを備えている。表示部15Bは、本例示的実施形態において表示手段を実現する構成である。入力受付部16Bは、本例示的実施形態において入力受付手段を実現する構成である。
 (表示部15B)
 表示部15Bは、情報処理装置1Bの処理対象である各種のデータを表示可能に構成されている。表示部15Bによる表示内容は、制御部10Aによって制御される。一例として表示部15Bは、表示パネルと、表示パネルを駆動する駆動回路とを備えて構成される。
 表示部15Bは、一例として、状態s 、行動а 、報酬r(s ,а )、及び報酬和関数Qの値の少なくとも何れかを、状態評価関数Vの分散と共に表示する。
 図9の上段は、表示部15Bが表示する表示画面の一例を示す図である。図9の上段に示す例では、表示部15Bは、ある日における報酬和関数Qの値とそれに対応する状態評価関数Vの分散とを、時間帯毎に表示している。
 図9の上段に示す例において、黒丸は報酬和関数Qの値であり、上下方向のバーは、状態評価関数Vの分散を示している。
 また、表示部15は、一例として、状態s 、行動а 、報酬r(s ,а )、及び報酬和関数Qの値の少なくとも何れかのうち、対応する状態評価関数Vの分散が閾値以下である値を強調表示する構成としてもよい。
 図9の下段は、表示部15Bが表示する表示画面の一例を示す図である。図9の下段に示す例では、表示部15Bは、ある日における行動aの値(価格)とそれに対応する状態評価関数Vの分散とを、時間帯毎に表示している。
 図9の下段に示す例において、黒丸は行動aの値(価格)であり、上下方向のバーは、状態評価関数Vの分散を示している。また、状態評価関数Vの分散は、上述したようにデータの各値の信頼度を表現しているものと解釈することができる。
 表示部15Bが上記のような表示を行うことによって、情報処理装置1Bの使用者に対して、各データの値を信頼度と共に視覚的に提示することができるので、情報処理装置1Bのユーザビリティや説明可能性が向上する。
 また、図9の下段に示す例では、対応する状態評価関数Vの分散が閾値以下である値を強調表示している。より具体的に言えば、対応する状態評価関数Vの分散が閾値以下である価格に対応する黒丸と、それに対応するバーとを、破線で囲むように表示することによって強調表示を行っている。
 情報処理装置1Bは、以上のような表示部15Bを備えることによって、情報処理装置1Bの使用者に対して、状態評価関数Vの分散が閾値以下(換言すれば信頼度が閾値以上)のデータを視覚的に提示することができるので、情報処理装置1Bのユーザビリティや説明可能性が更に向上する。
 なお、本例示的実施形態において、情報処理装置1Bは、例示的実施形態2において説明したパラメータd、H、λ、及びβの少なくとも何れかの推奨値を算出する推奨値算出部を備え、算出した推奨値を情報処理装置1Bの使用者に対して表示部15Bを介して提示する構成としてもよい。
 (入力受付部16B)
 入力受付部16Bは、情報処理装置1Bに対する各種の入力を受け付ける。入力受付部16Bの具体的構成は本例示的実施形態を限定するものではないが、一例として、入力受付部16Bは、キーボード及びタッチパッド等の入力デバイスを備える構成とすることができる。また、入力受付部16Bは、赤外線や電波等の電磁波を介してデータの読み取りを行うデータスキャナ、及び、環境の状態をセンシングするセンサ等を備える構成としてもよい。
 入力受付部16Bは、上述した入力デバイス、データスキャナ、及びセンサ等を介して、上述した状態や報酬の観測値を取得し、取得した情報を制御部10Aに供給する。
 なお、入力受付部16Bが受け付ける情報は上記の例に限られない。一例として、決定部12が決定した行動を補正するための補正情報を、情報処理装置1Bの使用者から受け付ける構成としてもよい。例えば、表示部15Bが上記のような表示を行ったうえで、当該表示内容を認識した使用者が行動(価格)の補正を行うための補正情報を入力受付部16Bに入力する構成としてもよい。
 上記のような構成の場合、決定部12は、例示的実施形態2におけるステップS12において決定した行動(価格)を、補正情報が示す補正量分だけ補正することによって補正後の行動を決定する。そして決定部12は、補正後の行動を実行することによって得られた報酬を観測し、例示的実施形態2において説明した残りの処理を実行する。
 上記の構成によれば、決定部12が決定した行動に対して使用者による補正を反映させることができるので、ユーザビリティ及び説明可能性を向上させることができる。
 (情報処理装置1Bの適用例)
 以下では、情報処理装置1Bの一適用例について説明する。以下の適用例は、情報処理装置1Bを、ある店舗における各社のビールの価格決定に用いる例である。より具体的には、ある店舗における各社のビールの割引率を行動(実行施策)として決定するものである。
 本例では、実行施策Xが
  X=[0、2,1、・・・]
として複数要素によって表現される。ここで、第1要素が0であることは、A社のビール価格を定価とすることを示しており、第2要素が2であることは、B社のビール価格を定価から10%割増とすることを示しており、第3要素が1であることは、C社のビール価格を定価から10%割引とすることを示すものとする。
 本例における報酬和関数Qとして、A社のビールの売上げ、B社のビールの売上げ、及びC社のビールの売上げに関する報酬和関数Qを個別に用意し、それぞれを個別に更新する構成としてもよい。あるいは、報酬和関数Qとして、A社のビール、B社のビール、及びC社のビールのトータルの売り上げに関する報酬和関数を準備し更新する構成としてもよい。
 また、本例では、表示部15Bによって、各社のビールの売上げを視覚的に提示する。
 本適用例によれば、上記店舗における各社のビールについて最適な価格設定を導出することができる。
 〔ソフトウェアによる実現例〕
 情報処理装置1,1A,1Bの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、情報処理装置1,1A,1Bは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図10に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1,1A,1Bとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1,1A,1Bの各機能が実現される。
 プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
 なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
 また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
 〔付記事項1〕
 本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
 〔付記事項2〕
 上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
 (付記1)
 状態を取得する取得手段と、
 前記状態を参照して行動を決定する決定手段と、
 前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、
を備え、
 前記決定手段は、
  状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定する
ことを特徴とする情報処理装置。
 上記の構成によれば、状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定するので、より好適な行動を決定することができる。
 (付記2)
 前記決定手段は、
  前記学習データに含まれる1又は複数の値から、ばらつきに関する指標を算出し、
  算出したばらつきに関する指標がより大きい程、より小さい重み係数を前記1又は複数の値に適用することによって、前記第1の関数を算出する
ことを特徴とする付記11に記載の情報処理装置。
 上記の構成によれば、ばらつきに関する指標がより大きい程、より小さい重み係数を前記1又は複数の値に適用することによって、前記第1の関数を算出するので、より好適な行動を決定することができる。
 (付記3)
 前記決定手段は、
  前記ばらつきに関する指標として、前記状態と前記行動とを参照して得られる、第2の関数の分散を算出する
ことを特徴とする付記2に記載の情報処理装置。
 上記の構成によれば、前記ばらつきに関する指標として、前記状態と前記行動とを参照して得られる、第2の関数の分散を算出するので、より好適な行動を決定することができる。
 (付記4)
 前記状態、前記行動、前記報酬、及び前記第1の関数の値の少なくとも何れかと、前記ばらつきに関する指標とを表示する表示手段を備えていることを特徴とする付記2又は3に記載の情報処理装置。
 上記の構成によれば、ユーザビリティ及び説明可能性が向上する。
 (付記5)
 前記表示手段は、
  前記状態、前記行動、前記報酬、及び前記第1の関数の値の前記少なくとも何れかのうち、ばらつきに関する指標が閾値以下である値を強調表示する
ことを特徴とする付記4に記載の情報処理装置。
 上記の構成によれば、ユーザビリティ及び説明可能性が向上する。
 (付記6)
 前記決定手段は、
  前記状態と前記行動とをベクトルにマップする特徴マップを用いて、前記第1の関数を算出する
ことを特徴とする付記1から5の何れか1項に記載の情報処理装置。
 上記の構成によれば、より好適な行動を決定することができる。
 (付記7)
 前記決定手段は、前記取得手段が取得した状態を引数として含む前記第1の関数を最大化するような行動を選択する
ことを特徴とする付記1から6の何れか1項に記載の情報処理装置。
 上記の構成によれば、前記取得手段が取得した状態を引数として含む前記第1の関数を最大化するような行動を選択するので、所定期間における報酬の観測値を最大にするような好適な行動を選択することができる。
 (付記8)
 前記状態と、前記報酬とを受け付ける入力デバイスを更に備えている
ことを特徴とする付記1から7の何れか1項に記載の情報処理装置。
 上記の構成によれば、前記状態と、前記報酬とを前記入力デバイスを介して好適に入力することができる。
 (付記9)
 情報処理装置が、
 状態を取得すること、
 前記状態を参照して行動を決定すること、及び
 前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること、
を繰り返し含み、
 前記行動を決定する工程では、
  状態と行動とから報酬和を予測する第1の関数であって、前記学習データに対する重み付けを行うことによって算出された第1の関数を用いて行動を決定する
ことを特徴とする情報処理方法。
 上記の方法によれば、上述した情報処理装置と同様の効果を奏する。
 (付記10)
 コンピュータを情報処理装置として機能させるプログラムであって、
 前記プログラムは、前記コンピュータを、
 状態を取得する取得手段と、
 前記状態を参照して行動を決定する決定手段と、
 前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、して機能させ、
 前記決定手段は、
  状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定する
ことを特徴とするプログラム。
 上記のプログラムによれば、上述した情報処理装置と同様の効果を奏する。
 (付記11)
 情報処理装置と、端末装置とを含む情報処理システムであって、
 前記情報処理装置は、
 状態を取得する取得手段と、
 前記状態を参照して行動を決定する決定手段と、
 前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、
を備え、
 前記決定手段は、
  状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定し、
 前記端末装置は、
 状態を取得し前記情報処理装置に提供する状態情報提供手段と、
 前記情報処理装置が決定した行動を実行して得られた報酬を示す報酬情報を前記情報処理装置に提供する報酬情報提供手段と、
を備えている
ことを特徴とする情報処理システム。
 上記の情報処理システムによれば、上述した情報処理装置と同様の効果を奏する。
 (付記12)
 情報処理装置が、
 状態を取得する取得すること、
 前記状態を参照して行動を決定すること、及び
 前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること、
を繰り返し含み、
 前記行動を決定する工程では、
  状態と行動とから報酬和を予測する第1の関数であって、前記学習データに対する重み付けを行うことによって算出された第1の関数を用いて行動を決定し、
 端末装置が、
 状態を取得し前記情報処理装置に提供すること、及び
 前記情報処理装置が決定した行動を実行して得られた報酬を示す報酬情報を前記情報処理装置に提供すること、
を含む
ことを特徴とする情報処理方法。
 上記の情報処理方法によれば、上述した情報処理装置と同様の効果を奏する。
 〔付記事項3〕
 上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
 少なくとも1つのプロセッサを備え、前記プロセッサは、
 状態を取得する取得処理と、
 前記状態を参照して行動を決定する決定処理と、
 前記状態と、前記決定処理によって決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積処理と、
を実行し、
 当該プロセッサは、
  状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定する。
 なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記決定処理と、前記蓄積処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
 1,1A,1B   情報処理装置
 11        取得部
 12        決定部
 13        蓄積部
 15B       表示部
 16B       入力受付部
 17A       記憶部
 100,100A  情報処理システム

 

Claims (12)

  1.  状態を取得する取得手段と、
     前記状態を参照して行動を決定する決定手段と、
     前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、
    を備え、
     前記決定手段は、
      状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定する
    ことを特徴とする情報処理装置。
  2.  前記決定手段は、
      前記学習データに含まれる1又は複数の値から、ばらつきに関する指標を算出し、
      算出したばらつきに関する指標がより大きい程、より小さい重み係数を前記1又は複数の値に適用することによって、前記第1の関数を算出する
    ことを特徴とする請求項1に記載の情報処理装置。
  3.  前記決定手段は、
      前記ばらつきに関する指標として、前記状態と前記行動とを参照して得られる、第2の関数の分散を算出する
    ことを特徴とする請求項2に記載の情報処理装置。
  4.  前記状態、前記行動、前記報酬、及び前記第1の関数の値の少なくとも何れかと、前記ばらつきに関する指標とを表示する表示手段を備えていることを特徴とする請求項2又は3に記載の情報処理装置。
  5.  前記表示手段は、
      前記状態、前記行動、前記報酬、及び前記第1の関数の値の前記少なくとも何れかのうち、ばらつきに関する指標が閾値以下である値を強調表示する
    ことを特徴とする請求項4に記載の情報処理装置。
  6.  前記決定手段は、
      前記状態と前記行動とをベクトルにマップする特徴マップを用いて、前記第1の関数を算出する
    ことを特徴とする請求項1から5の何れか1項に記載の情報処理装置。
  7.  前記決定手段は、前記取得手段が取得した状態を引数として含む前記第1の関数を最大化するような行動を選択する
    ことを特徴とする請求項1から6の何れか1項に記載の情報処理装置。
  8.  前記状態と、前記報酬とを受け付ける入力デバイスを更に備えている
    ことを特徴とする請求項1から7の何れか1項に記載の情報処理装置。
  9.  情報処理装置が、
     状態を取得すること、
     前記状態を参照して行動を決定すること、及び
     前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること、
    を繰り返し含み、
     前記行動を決定する工程では、
      状態と行動とから報酬和を予測する第1の関数であって、前記学習データに対する重み付けを行うことによって算出された第1の関数を用いて行動を決定する
    ことを特徴とする情報処理方法。
  10.  コンピュータを情報処理装置として機能させるプログラムであって、
     前記プログラムは、前記コンピュータを、
     状態を取得する取得手段と、
     前記状態を参照して行動を決定する決定手段と、
     前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、して機能させ、
     前記決定手段は、
      状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定する
    ことを特徴とするプログラム。
  11.  情報処理装置と、端末装置とを含む情報処理システムであって、
     前記情報処理装置は、
     状態を取得する取得手段と、
     前記状態を参照して行動を決定する決定手段と、
     前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、
    を備え、
     前記決定手段は、
      状態と行動とから報酬和を予測する第1の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第1の関数を用いて行動を決定し、
     前記端末装置は、
     状態を取得し前記情報処理装置に提供する状態情報提供手段と、
     前記情報処理装置が決定した行動を実行して得られた報酬を示す報酬情報を前記情報処理装置に提供する報酬情報提供手段と、
    を備えている
    ことを特徴とする情報処理システム。
  12.  情報処理装置が、
     状態を取得する取得すること、
     前記状態を参照して行動を決定すること、及び
     前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること、
    を繰り返し含み、
     前記行動を決定する工程では、
      状態と行動とから報酬和を予測する第1の関数であって、前記学習データに対する重み付けを行うことによって算出された第1の関数を用いて行動を決定し、
     端末装置が、
     状態を取得し前記情報処理装置に提供すること、及び
     前記情報処理装置が決定した行動を実行して得られた報酬を示す報酬情報を前記情報処理装置に提供すること、
    を含む
    ことを特徴とする情報処理方法。

     
PCT/JP2021/020000 2021-05-26 2021-05-26 情報処理装置、情報処理方法、情報処理システム、およびプログラム WO2022249335A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023523808A JPWO2022249335A1 (ja) 2021-05-26 2021-05-26
PCT/JP2021/020000 WO2022249335A1 (ja) 2021-05-26 2021-05-26 情報処理装置、情報処理方法、情報処理システム、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/020000 WO2022249335A1 (ja) 2021-05-26 2021-05-26 情報処理装置、情報処理方法、情報処理システム、およびプログラム

Publications (1)

Publication Number Publication Date
WO2022249335A1 true WO2022249335A1 (ja) 2022-12-01

Family

ID=84228658

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/020000 WO2022249335A1 (ja) 2021-05-26 2021-05-26 情報処理装置、情報処理方法、情報処理システム、およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2022249335A1 (ja)
WO (1) WO2022249335A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007128318A (ja) * 2005-11-04 2007-05-24 Japan Science & Technology Agency 状態推定方法、状態推定装置、状態推定システム及びコンピュータプログラム
JP2017162385A (ja) * 2016-03-11 2017-09-14 トヨタ自動車株式会社 情報提供装置及び情報提供プログラム
JP2018097399A (ja) * 2016-12-07 2018-06-21 トヨタ自動車株式会社 負担感推定装置及び負担感推定プログラム
WO2021075107A1 (ja) * 2019-10-18 2021-04-22 ソニー株式会社 情報処理装置及び情報処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007128318A (ja) * 2005-11-04 2007-05-24 Japan Science & Technology Agency 状態推定方法、状態推定装置、状態推定システム及びコンピュータプログラム
JP2017162385A (ja) * 2016-03-11 2017-09-14 トヨタ自動車株式会社 情報提供装置及び情報提供プログラム
JP2018097399A (ja) * 2016-12-07 2018-06-21 トヨタ自動車株式会社 負担感推定装置及び負担感推定プログラム
WO2021075107A1 (ja) * 2019-10-18 2021-04-22 ソニー株式会社 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
JPWO2022249335A1 (ja) 2022-12-01

Similar Documents

Publication Publication Date Title
JP6848884B2 (ja) 最適化システム、最適化方法、及び、プログラム
US8595155B2 (en) Kernel regression system, method, and program
CN113408797B (zh) 流转量预测多时序模型生成方法、信息发送方法和装置
JP2007502483A (ja) 顧客収益予測方法およびシステム
CN108074003B (zh) 预测信息推送方法和装置
CN110689110B (zh) 处理交互事件的方法及装置
JPWO2017056368A1 (ja) 最適化システム、最適化方法および最適化プログラム
JP5984147B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JPWO2017056367A1 (ja) 情報処理システム、情報処理方法および情報処理用プログラム
JP6791151B2 (ja) 最適化システム、最適化方法および最適化プログラム
WO2022249335A1 (ja) 情報処理装置、情報処理方法、情報処理システム、およびプログラム
JP7226320B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2022044924A1 (ja) 棚割情報生成装置および予測モデル
JP7047911B2 (ja) 情報処理システム、情報処理方法及び記憶媒体
JPWO2022249335A5 (ja)
JP7318646B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2018154662A1 (ja) 価格最適化システム、価格最適化方法および価格最適化プログラム
US7797184B2 (en) Methods and systems for cumulative attribute forecasting using a PDF of a current-to-future value ratio
JP6418537B1 (ja) 説明変数に確率密度関数を適用した回帰分析によるデータ予測システム、データ予測方法、及びデータ予測プログラム
JP7474265B2 (ja) 在庫管理装置
WO2023062707A1 (ja) 情報処理装置、情報処理方法、情報処理システム、及びプログラム
JP7417780B1 (ja) 情報処理システム、情報処理方法及びプログラム
CN111427935B (zh) 量化交易指标的预测和显示方法、电子设备和介质
US20230376560A1 (en) Information processing device, information processing method, information processing system, and storage medium
CN116308805B (zh) 一种交易账号的识别方法、装置和电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21942989

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023523808

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18562537

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE