WO2023243178A1 - 在庫管理システム、学習装置、推論装置、在庫管理方法およびプログラム - Google Patents

在庫管理システム、学習装置、推論装置、在庫管理方法およびプログラム Download PDF

Info

Publication number
WO2023243178A1
WO2023243178A1 PCT/JP2023/012538 JP2023012538W WO2023243178A1 WO 2023243178 A1 WO2023243178 A1 WO 2023243178A1 JP 2023012538 W JP2023012538 W JP 2023012538W WO 2023243178 A1 WO2023243178 A1 WO 2023243178A1
Authority
WO
WIPO (PCT)
Prior art keywords
inventory
information
psi
learning
demand
Prior art date
Application number
PCT/JP2023/012538
Other languages
English (en)
French (fr)
Inventor
千徳 前田
慎太郎 岡部
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Publication of WO2023243178A1 publication Critical patent/WO2023243178A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders

Definitions

  • the present disclosure relates to an inventory management system, a learning device, an inference device, an inventory management method, and a program.
  • Patent Document 1 discloses an appropriate inventory management method for pharmaceuticals that can automate the replenishment of pharmaceuticals based on the chronological digestion characteristics of pharmaceuticals that are digested at medical institutions or dispensing pharmacies.
  • Patent Document 1 when creating an inventory plan, future demand is predicted using only past results, so it is difficult to follow changes in demand, resulting in lost sales opportunities, excess inventory, etc. there is a possibility.
  • the present disclosure has been made to solve the above-mentioned problems, and aims to enable more appropriate inventory placement that suppresses lost sales opportunities, excess inventory, and the like.
  • an inventory management system includes a learning device and an inference device.
  • the learning device includes a first data acquisition section and a model generation section.
  • the first data acquisition unit includes inventory placement amount change information indicating a change in the inventory placement amount of the article at each location due to an inventory placement amount change action, PSI plan performance information indicating the plan and actual results of PSI (Production Sales Inventory) of the article,
  • demand quantity information indicating the demand quantity of goods not recorded in PSI is acquired.
  • the model generation unit uses the inventory allocation change information, PSI plan performance information, and demand information acquired by the first data acquisition unit as learning data to learn the inventory allocation change action and generate a learned model.
  • the inference device includes a second data acquisition section, an inference section, and an output section.
  • the second data acquisition unit acquires PSI plan performance information and demand amount information.
  • the inference unit inputs the PSI plan performance information and the demand information acquired by the second data acquisition unit into the learned model to obtain an action for changing the inventory arrangement amount.
  • the output unit outputs inventory placement amount change action information indicating the inventory placement amount change action obtained by the inference portion.
  • a block diagram showing a configuration example of an inventory management system according to Embodiment 1 Schematic diagram illustrating an action for changing inventory placement amount according to Embodiment 1
  • a diagram showing an example of inventory arrangement amount change information according to the first embodiment A diagram showing an example of a PSI plan included in PSI plan performance information according to Embodiment 1
  • a diagram showing an example of PSI performance included in PSI plan performance information according to Embodiment 1 A diagram showing an example of demand amount information according to Embodiment 1
  • Block diagram showing an example of functional configuration of the learning device according to Embodiment 1 Flowchart showing learning process 1 according to Embodiment 1
  • Flowchart showing inference processing according to Embodiment 1 Diagram showing an example of transportation cost performance information according to Embodiment 2
  • a diagram showing an example of inventory storage resource occupancy information according to Embodiment 2 Flowchart showing learning process 2 according to Embodiment 2
  • the configuration of inventory management system 100 according to Embodiment 1 will be described using FIG. 1.
  • the inventory management system 100 includes inventory allocation change information indicating changes in inventory allocation due to actions to change the inventory allocation of products at each location, PSI plan performance information indicating the plan and actual PSI of the product, and product demand information.
  • a production management system 2 that stores demand quantity information indicating quantity, inventory arrangement change information, PSI plan performance information, and demand quantity information is used as learning data to learn actions to change the inventory arrangement of products at each base.
  • a learning device 1 that generates a trained model; a trained model storage unit 3 that stores the trained model generated by the learning device 1; and an inference device 4 that infers and outputs an action to change the amount of stock arrangement.
  • the action for changing the amount of inventory placed at each location will be abbreviated as the action for changing the amount of inventory placed.
  • Inventory allocation change action refers to the actions shown in Figure 2, from the supply source factory (for example, a product production factory) to the supply destination base Ba, base Bb, and base Bc (for example, the inventory management base of a sales company, or the nationwide network managed by the production factory).
  • This refers to the supply of inventory to (such as inventory management bases) and the transfer of inventory between supply destination bases.
  • the inventory at the factory decreases as inventory is replenished from the factory to the base, and the inventory at each base decreases as products are sold from each base to distributors, end users, etc.
  • the inventory at the factory increases, and when inventory is replenished from the factory to the base, the inventory at the base increases.
  • the inventory arrangement amount change information includes the total inventory amount of the supply source and the supply destination, and the ratio of the inventory arrangement amount of the supply source and the supply destination.
  • the total amount of inventory at the supplier and destination of product Pa is 100 units
  • the proportions of inventory at the supplier and destination factories, base Ba, base Bb, and base Bc are 50% and 20%, respectively. , 20% and 10%.
  • the learning device 1 may acquire inventory placement amount change information each time an inventory placement amount change action is performed, or may acquire inventory placement amount change information for a certain period all at once.
  • the PSI plan performance information includes a product's PSI plan and PSI performance.
  • FIG. 4 shows monthly product P (production and procurement), S (shipping), and I (inventory) plans included in the PSI plan performance information.
  • P (production and procurement) is an increase in I (inventory)
  • S (shipping) is a decrease in I (inventory).
  • I (inventory) is 20 units.
  • FIGS. 4 and 5 shows the monthly results of P (production and procurement), S (shipping), and I (inventory) of products included in the PSI plan performance information. For example, as of April, the actual performance of P (production and procurement) is 13 units, S (shipment) is 17 units, and I (inventory) is 15 units.
  • the unit of the plan and actual PSI of the product is the number of units (units), but the unit is not limited to this, and may be, for example, the amount of money (yen).
  • Demand information is information that indicates the demand for products that have not yet been recorded in PSI, and includes requests from suppliers to suppliers for inventory replenishment, orders from distributors, end users, etc. (customers) to suppliers. etc. fall under this category.
  • the demanded quantity information includes the requested quantity of each product, request source, request destination, requested date, requested delivery date, and lead time from the requested date to the requested delivery date. For example, on January 2, 2022, customer Ca requests base Ba for five products Pa by the delivery date of January 10, 2022. The lead time from the requested date to the requested delivery date is 8 days.
  • the learning device 1 includes a data acquisition unit 11 that acquires inventory allocation change information, PSI plan performance information, and demand information from the production management system 2;
  • a model generation unit 12 is provided that learns an action for changing inventory arrangement amount using quantity information as learning data and generates a learned model.
  • the data acquisition unit 11 is an example of a first data acquisition unit.
  • the model generation unit 12 learns, for example, an inventory placement amount changing action that improves the inventory turnover rate or minimizes deterioration of the inventory turnover rate.
  • the placement amount change action is output.
  • This learned model is effective, for example, when a customer makes a request with a short lead time and the supplier (factory) cannot supply the product in time. Specifically, if there is a factory in Japan and each base in Europe, even if the supply from the Japanese factory is not in time, it may be possible to deal with this by transferring inventory between the European bases.
  • supervised learning As the learning algorithm used by the model generation unit 12, known algorithms such as supervised learning, unsupervised learning, and reinforcement learning can be used. As an example, a case where reinforcement learning is applied will be explained.
  • reinforcement learning an agent (behavior) in a certain environment observes the current state (parameters of the environment) and decides what action to take. The environment changes dynamically depending on the actions of the agent, and the agent is rewarded according to changes in the environment. The agent repeats this process and learns the course of action that yields the most rewards through a series of actions.
  • Q-learning, TD-learning, and the like are known as representative methods of reinforcement learning.
  • a general updating formula for the action value function Q(s, a) is expressed by Equation 1.
  • Equation 1 s t represents the state of the environment at time t, and a t represents the behavior at time t.
  • the action a t changes the state to s t+1 .
  • r t+1 represents the reward obtained by changing the state
  • represents the discount rate
  • represents the learning coefficient. Note that ⁇ is in the range of 0 ⁇ 1, and ⁇ is in the range of 0 ⁇ 1.
  • the model generation unit 12 uses reinforcement learning, the action a t is an action to change the inventory arrangement amount, and the state s t is the plan and actual results of PSI and the demand amount of the product.
  • the model generation unit 12 learns the best action a t in the state s t at time t.
  • Equation 1 The update formula expressed by Equation 1 is such that if the action value Q of action a with the highest Q value at time t+1 is greater than the action value Q of action a executed at time t, the action value Q is increased; In the opposite case, the action value Q is decreased. In other words, the action value Q of action a at time t is updated to an action value function Q(s, a) that brings it closer to the best action value at time t+1. As a result, the best action value in a certain environment is sequentially propagated to the action value in the previous environment.
  • the model generation unit 12 When generating a trained model by reinforcement learning, as shown in FIG. 7, the model generation unit 12 includes a reward calculation unit 121 and a function update unit 122.
  • the remuneration calculation unit 121 calculates remuneration based on the inventory arrangement amount changing action indicated by the inventory arrangement amount information, the PSI plan and PSI performance indicated by the PSI plan performance information, and the requested amount of the product indicated by the demand amount information. .
  • the remuneration calculation unit 121 calculates the remuneration r based on the change in the inventory turnover rate. For example, in the case of improving the inventory turnover rate, the reward r is increased (for example, a reward of "1" is given). If the inventory turnover rate deteriorates, the reward r is reduced (for example, a reward of "-1" is given).
  • the annual inventory turnover rate is calculated by ⁇ annual shipment amount ⁇ inventory amount'', so the ways to increase compensation are ⁇ increase shipping amount and maintain or reduce inventory amount'', ⁇ maintain shipping amount, There are four options: ⁇ Reduce the amount of inventory,'' ⁇ Increase the amount of shipments and increase the amount of inventory by a smaller amount,'' and ⁇ Decrease the amount of shipments and reduce the amount of inventory by a larger amount.''
  • the function update unit 122 updates a function for determining an inventory placement amount changing action that maximizes the reward for the input state according to the reward calculated by the reward calculation unit 121.
  • the action value function Q (s t , a t ) expressed by Equation 1 is used as a function for calculating the inventory arrangement amount change action that maximizes the reward for the input state.
  • the model generation unit 12 repeatedly performs the above learning until the learning end condition is satisfied.
  • a condition for terminating learning for example, learning is terminated when the state st becomes a terminal state or when it is repeated a predetermined number of times.
  • the learned model storage unit 3 stores the action value function Q(s t , a t ) updated by the function update unit 122, that is, the learned model.
  • the learning device 1 is assumed to store the generated trained model in the trained model storage unit 3 provided externally, but the learning device 1 is also equipped with the trained model storage unit 3 inside the learning device 1. It's okay.
  • the learned model storage unit 3 may be configured in a system or device external to the inventory management system 100.
  • the inference device 4 includes a data acquisition unit 41 that acquires PSI plan performance information and demand quantity information from the production management system 2, and a learned model storage unit 3 that stores the PSI plan performance information and demand quantity information.
  • the inference unit 42 includes an inference unit 42 that inputs the input to the learned model and infers an inventory arrangement change action, and an output unit 43 that outputs inventory arrangement change action information indicating the inventory arrangement change action inferred by the inference unit 42.
  • the data acquisition unit 41 is an example of a second data acquisition unit.
  • the inference unit 42 inputs the PSI plan performance information and demand amount information acquired by the data acquisition unit 41 into the learned model stored in the learned model storage unit 3 to obtain an inventory arrangement amount change action.
  • the output unit 43 outputs inventory placement change action information indicating the inventory placement change action that the inference unit 42 obtained from the trained model.
  • the inventory arrangement amount change action information may be output by, for example, displaying it on a screen, outputting it by voice, or transmitting it to a terminal used by the user.
  • the inference device 4 uses a trained model stored in the externally provided trained model storage unit 3, but the inference device 4 may also include the learned model storage unit 3 inside the inference device 4. .
  • the processing performed by the inventory management system 100 includes a learning phase in which the inventory placement amount changing action is learned, and a utilization phase in which the inventory placement amount changing action is inferred using the learned model.
  • Step S11 the flow of the learning process 1 executed by the learning device 1 in the learning phase.
  • Learning process 1 shown in FIG. 8 is an example of learning process when reinforcement learning is applied as the learning algorithm.
  • the learning process 1 starts when the learning device 1 is powered on. If the data acquisition unit 11 of the learning device 1 has not acquired the inventory allocation change information, PSI plan performance information, and demand information necessary for learning from the production management system 2 (step S11; NO), the process proceeds to step S18. Transition.
  • Step S11 When the data acquisition unit 11 acquires the inventory allocation change information, PSI plan performance information, and demand information necessary for learning from the production management system 2 (step S11; YES), the remuneration calculation unit 121 of the model generation unit 12, Based on the inventory placement amount change action indicated by the inventory placement amount information, the PSI plan and PSI results indicated by the PSI plan performance information, and the requested quantity of the product indicated by the demand amount information, the inventory turnover rate is changed by the inventory placement amount change action. It is determined whether or not the performance has improved (step S12).
  • Step S11 is an example of a first data acquisition step.
  • step S12 If the inventory turnover rate is improved by the inventory placement amount changing action (step S12; YES), the reward calculation unit 121 increases the reward r (step S13). In step S13, the reward calculation unit 121 gives a reward of "1", for example. If the inventory turnover rate deteriorates due to the inventory placement amount changing action (step S12; NO), the remuneration calculation unit 121 reduces the remuneration r (step S14). In step S14, the reward calculation unit 121 gives a reward of "-1", for example.
  • the function update unit 122 of the model generation unit 12 updates the function for determining the inventory placement amount changing action for the input state according to the reward calculated by the reward calculation unit 121 (step S15).
  • the action value function Q (s t , a t ) expressed by Equation 1 is used as a function for calculating the inventory arrangement amount change action that maximizes the reward for the input state.
  • the model generation unit 12 determines whether the learning end condition is satisfied (step S16). If the learning end condition is not satisfied (step S16; NO), the process returns to step S12 and repeats steps S12 to S16. If the learning end condition is satisfied (step S16; YES), the learned model storage unit 3 stores the action value function Q(s t , a t ) updated by the function update unit 122, that is, the learned model. (Step S17). Examples of learning termination conditions include that the state st becomes a terminal state, that the number of repetitions exceeds a predetermined number, and so on. Steps S12 to S16 are examples of model generation steps.
  • step S18 If the power of the learning device 1 is not turned off (step S18; NO), the process returns to step S11 and repeats steps S11 to S18. If the power of the learning device 1 is turned off (step S18; YES), the process ends.
  • the data acquisition unit 11 acquires the inventory allocation change information, PSI plan performance information, and demand information required for learning from the production management system 2, it starts learning the inventory allocation change action. It is not limited to this. For example, a configuration may be adopted in which learning of the inventory placement amount change action is started at a timing specified by the user, and a learned model is generated.
  • the inference process shown in FIG. 9 starts when the inference device 4 is powered on. If the data acquisition unit 41 of the inference device 4 does not acquire the PSI plan performance information and demand information from the production management system 2 (step S21; NO), the process moves to step S25. When the data acquisition section 41 acquires the PSI plan performance information and demand amount information from the production management system 2 (step S21; YES), the inference section 42 acquires the PSI plan performance information and demand amount information from the learned model storage section 3. It is input to the learned model to be stored (step S22), and an action for changing the amount of inventory placement is obtained (step S23).
  • Step S21 is an example of a second data acquisition step.
  • Step S22 and step S23 are examples of inference steps.
  • the output unit 43 outputs inventory placement amount change action information indicating the inventory placement amount change action obtained by the inference portion 42 (step S24).
  • the inventory arrangement amount change action information may be output by, for example, displaying it on a screen, outputting it by voice, or transmitting it to a terminal used by the user.
  • step S25 If the power of the inference device 4 is not turned off (step S25; NO), the process returns to step S21 and repeats steps S21 to S25. If the inference device 4 is powered off (step S25; YES), the process ends.
  • the inventory management system 100 not only the inventory allocation change information and the PSI plan performance information but also the demand quantity information indicating the demand quantity of products not included in the PSI are used as learning data.
  • the demand quantity information indicating the demand quantity of products not included in the PSI are used as learning data.
  • the learning device 1 includes, in addition to inventory allocation change information, PSI plan performance information, and demand information, transportation cost performance information indicating the actual transportation costs due to inventory allocation change actions, and information on each base. Using inventory storage resource occupancy rate information indicating the storage resource occupancy rate of product inventory as learning data, actions to change the amount of product inventory placement at each location are learned to generate a learned model.
  • the transportation cost performance information includes the transportation date, transportation origin, transportation destination, and transportation cost of each product.
  • the transportation cost when product Pa is transported from base Ba to customer Ca on January 2, 2022 is 10,000 yen.
  • Inventory storage resource occupancy information will be explained using FIG. 11.
  • the inventory storage resource occupancy information includes a date and a storage resource occupancy rate, which is the rate at which the inventory of products at each site occupies storage resources on that date.
  • a storage resource occupancy rate which is the rate at which the inventory of products at each site occupies storage resources on that date.
  • the storage resource occupancy rate of base Ba on January 2, 2022 is 90%. It is assumed that the storage resource occupancy rate is calculated periodically, for example.
  • the data acquisition unit 11 of the learning device 1 acquires inventory arrangement amount change information, PSI plan performance information and demand information, transportation cost performance information, and inventory storage resource occupancy information from the production management system 2.
  • the model generation unit 12 uses the inventory placement amount change information, PSI plan performance information, demand amount information, transportation cost performance information, and inventory storage resource occupancy information as learning data to learn the inventory placement amount change action, and the learned Generate the model.
  • the model generation unit 12 stores the generated learned model in the learned model storage unit 3.
  • the model generation unit 12 improves the inventory turnover rate or suppresses deterioration of the inventory turnover rate, suppresses transportation costs, and ensures that the storage resource occupancy rate at each location satisfies a tolerance value (for example, 90%).
  • Learn inventory allocation change actions In this case, when PSI plan performance information, demand quantity information, transportation cost performance information, and inventory storage resource occupancy information are input to the learned model generated by the model generation unit 12, the inventory turnover rate can be improved.
  • an inventory arrangement change action is output that suppresses the deterioration of the inventory turnover rate, suppresses transportation costs, and satisfies the storage resource occupancy rate at each location within the allowable value.
  • the storage resource occupancy rate at each location does not exceed the allowable value, and prevents lost sales opportunities and excess inventory allocation. It is possible to suppress the occurrence of inventory, etc., and it is also possible to suppress transportation costs.
  • This learned model is effective, for example, when a customer makes a request with a short lead time and the supplier (factory) cannot supply the product in time. Specifically, if there is a factory in Japan and each base in Europe, even if the supply from the Japanese factory is not in time, it may be possible to deal with this by transferring inventory between the European bases.
  • the learning algorithm used by the model generation unit 12 known algorithms such as supervised learning, unsupervised learning, and reinforcement learning can be used, as in the first embodiment.
  • the constraint is that the storage resource occupancy rate at each location does not exceed an allowable value.
  • the action a t is an action to change the inventory arrangement amount
  • the state s t is the plan and actual results of PSI
  • the demand quantity of the product is the transportation cost
  • the storage is the constraint.
  • the model generation unit 12 learns the best action a t in the state s t at time t that satisfies the constraint conditions.
  • the reward r is calculated from two rewards r1 and r2 .
  • the reward r1 is increased. If the inventory turnover rate worsens due to the inventory placement amount changing action, the reward r1 is reduced. If the total transportation cost due to the inventory allocation change action is less than or equal to the threshold, the reward r2 is increased. If the total transportation cost due to the inventory allocation change action is higher than the threshold, the reward r2 is reduced.
  • the threshold value for determining whether to increase the reward r2 may be different from the threshold value for determining whether to decrease the reward r2 .
  • the reward r r 1 +r 2 .
  • Other functions of the learning device 1 are the same as those in the first embodiment.
  • Step S31 the process moves to step S43.
  • step S31 When the data acquisition unit 11 acquires inventory arrangement amount change information, PSI plan performance information, demand amount information, transportation cost performance information, and inventory storage resource occupancy information necessary for learning from the production management system 2 (step S31; YES) Based on the storage resource occupancy rate indicated by the inventory storage resource occupancy information, the remuneration calculation unit 121 of the model generation unit 12 sets a constraint condition (that the storage resource occupancy rate does not exceed the allowable value) for the inventory placement amount change action. It is determined whether the conditions are satisfied (step S32). If the inventory placement amount change action does not satisfy the constraint (step S32; NO), the process moves to step S41.
  • a constraint condition that the storage resource occupancy rate does not exceed the allowable value
  • the remuneration calculation unit 121 of the model generation unit 12 calculates the inventory placement amount change action indicated by the inventory placement amount information and the inventory placement amount change action indicated by the PSI plan performance information. Based on the PSI plan, the PSI performance, and the requested quantity of the product indicated by the demand quantity information, it is determined whether the inventory turnover rate has been improved by the inventory allocation change action (step S33).
  • step S33 If the inventory turnover rate is improved by the inventory placement amount changing action (step S33; YES), the remuneration calculation unit 121 increases the remuneration r1 (step S34). If the inventory turnover rate deteriorates due to the inventory placement amount changing action (step S33; NO), the remuneration calculation unit 121 reduces the remuneration r1 (step S35).
  • the remuneration calculation unit 121 of the model generation unit 12 calculates the inventory allocation change action indicated by the inventory arrangement amount information, the PSI plan and PSI performance indicated by the PSI plan performance information, the requested quantity of the product indicated by the demand quantity information, and the transportation Based on the cost performance information, it is determined whether the total transportation cost due to the inventory placement amount changing action is less than or equal to a threshold value (step S36).
  • the function update unit 122 of the model generation unit 12 updates the function for determining the inventory allocation change action for the input state according to the reward calculated by the reward calculation unit 121 (step S40).
  • the action value function Q (s t , a t ) expressed by Equation 1 is used as a function for calculating the inventory arrangement amount change action that maximizes the reward for the input state.
  • the model generation unit 12 determines whether the learning end condition is satisfied (step S41). If the learning end condition is not satisfied (step S41; NO), the process returns to step S32 and repeats steps S32 to S41. If the learning end condition is satisfied (step S41; YES), the learned model storage unit 3 stores the action value function Q(s t , a t ) updated by the function update unit 122, that is, the learned model. (Step S42). Examples of learning termination conditions include that the state st becomes a terminal state, that the number of repetitions exceeds a predetermined number, and so on. Steps S32 to S36 are examples of model generation steps.
  • step S43 If the power of the learning device 1 is not turned off (step S43; NO), the process returns to step S31 and repeats steps S31 to S43.
  • step S43; YES the process ends.
  • the data acquisition unit 11 acquires inventory allocation change information, PSI plan performance information, demand information, transportation cost performance information, and inventory storage resource occupancy information necessary for learning from the production management system 2, Starts learning the inventory placement amount change action, but is not limited to this.
  • a configuration may be adopted in which learning of the inventory placement amount change action is started at a timing specified by the user, and a learned model is generated.
  • the inventory management system 100 not only the inventory allocation change information and the PSI plan performance information but also the demand quantity information indicating the demand quantity of products not included in the PSI are used as learning data.
  • the demand quantity information indicating the demand quantity of products not included in the PSI are used as learning data.
  • the data acquisition unit 11 of the learning device 1 and the data acquisition unit 41 of the inference device 4 both acquired PSI plan performance information including the PSI plan and performance, but the invention is not limited to this.
  • the data acquisition unit 11 of the learning device 1 may acquire PSI performance information indicating PSI performance
  • the data acquisition unit 41 of the inference device 4 may acquire PSI plan information indicating a PSI plan.
  • the model generation unit 12 of the learning device 1 uses the PSI performance information and the demand information as learning data to learn the inventory placement amount change action to generate a learned model, and the inference unit 42 of the inference device 4
  • the PSI plan information and the demand information are input into the trained model stored in the trained model storage unit 3 to infer an inventory arrangement amount change action.
  • the inventory management system 100 includes the learning device 1 and the inference device 4, and the inference device 4 uses the learned model generated by the learning device 1 to infer an inventory allocation change action.
  • the inference device 4 may acquire a learned model from another system or device, and use the acquired learned model to infer an inventory arrangement amount change action.
  • the present invention is not limited to this.
  • the learning algorithm in addition to reinforcement learning, supervised learning, unsupervised learning, semi-supervised learning, etc. can also be applied.
  • supervised learning in addition to reinforcement learning, supervised learning, unsupervised learning, semi-supervised learning, etc.
  • deep learning which learns the extraction of the feature values themselves, can also be used.
  • the model generation unit 12 can also use other known methods, such as neural network , machine learning may be performed according to functional logic programming, etc.
  • the learning device 1 and the inference device 4 are included in the inventory management system 100, but the learning device 1 and the inference device 4 may be separate devices, or a cloud server It may exist above.
  • the data acquisition unit 11 of the learning device 1 acquires inventory arrangement amount change information, PSI plan performance information, and demand amount information
  • the data acquisition unit 41 of the inference device 4 acquires PSI plan performance information and demand information.
  • the quantity information is acquired from the production management system 2, the present invention is not limited thereto.
  • the information may be obtained from another system or device, or may be input directly by the user.
  • the data acquisition unit 11 of the learning device 1 collects inventory arrangement amount change information, PSI plan performance information, demand amount information, transportation cost performance information, and inventory storage resource occupancy rate information, for example, from other sources.
  • the information may be obtained from a system or device, or may be input directly by the user.
  • the model generation unit 12 uses the learning data obtained from the production management system 2 to learn the inventory arrangement amount change action, but Learning data may be acquired from a plurality of production management systems 2, or learning data collected from a plurality of production management systems 2 operating independently in different areas may be acquired. Furthermore, a configuration may be adopted in which the production management system 2 that collects learning data can be added to or removed from the target during the process. Furthermore, the learning device 1 that has learned the action to change the amount of inventory placed in a certain inventory management system 100 is applied to another inventory management system, and the action to change the amount of inventory placed in the other inventory management system is re-learned and updated. It may be configured.
  • Embodiments 1 and 2 above an example was explained in which the inventory amount of products is managed at each location of a company having multiple locations. That's fine.
  • the reward r is calculated from the two rewards r1 and r2 .
  • the reward r1 is increased. If the inventory turnover rate worsens, the reward r1 is reduced. If the total transportation cost is less than or equal to the threshold, the reward r2 is increased. If the total transportation cost is higher than the threshold, the reward r2 is reduced.
  • the data acquisition unit 11 of the learning device 1 collects information on changes in inventory arrangement amount, PSI plan performance information, demand information, transportation cost performance information, and inventory storage resource occupancy information, as well as inventory turnover rate and transportation cost. Management goal information indicating the management target value of the company may be obtained, and remuneration may be determined based on whether or not the business goal achievement rate improves.
  • remuneration r is increased, and if changes in the business target achievement rate for inventory turnover and transportation costs are combined to worsen.
  • the reward r may be reduced.
  • inventory placement amount change information, PSI plan performance information, demand amount information, transportation cost performance information, inventory storage resource occupancy information, and management target information are input to the learned model generated by the model generation unit 12.
  • an inventory arrangement amount changing action is output that improves the business target achievement rate for inventory turnover rate and transportation costs, or suppresses the deterioration of the business target achievement rate for inventory turnover rate and transportation costs.
  • the learning device 1 and the inference device 4 include a temporary storage section 101, a storage section 102, a calculation section 103, an input section 104, a transmission/reception section 105, and a display section 106.
  • Temporary storage section 101, storage section 102, input section 104, transmission/reception section 105, and display section 106 are all connected to calculation section 103 via BUS.
  • the calculation unit 103 is, for example, a CPU (Central Processing Unit).
  • the calculation unit 103 executes the processing of the model generation unit 12 of the learning device 1 and the inference unit 42 of the inference device 4 according to the control program stored in the storage unit 102.
  • the temporary storage unit 101 is, for example, a RAM (Random-Access Memory).
  • the temporary storage unit 101 loads the control program stored in the storage unit 102 and is used as a work area for the calculation unit 103.
  • the storage unit 102 is a nonvolatile memory such as a flash memory, a hard disk, a DVD-RAM (Digital Versatile Disc-Random Access Memory), and a DVD-RW (Digital Versatile Disc-ReWritable).
  • the storage unit 102 stores in advance a program for causing the calculation unit 103 to perform the processing of the learning device 1 and the inference device 4, and also supplies data stored by this program to the calculation unit 103 according to instructions from the calculation unit 103. and stores the data supplied from the calculation unit 103.
  • the learned model storage section 3 is configured in the storage section 102 .
  • the input unit 104 is an interface device that connects input devices such as a keyboard, pointing device, and voice input device, and the input devices to the BUS. Information input by the user is supplied to the calculation unit 103 via the input unit 104 . In a configuration in which a user directly inputs information to the data acquisition unit 11 of the learning device 1, the input unit 104 functions as the data acquisition unit 11. In a configuration in which a user directly inputs information to the data acquisition unit 41 of the inference device 4, the input unit 104 functions as the data acquisition unit 41.
  • the transmitting/receiving unit 105 is a network termination device or wireless communication device connected to the network, and a serial interface or LAN (Local Area Network) interface connected thereto.
  • the transmitting/receiving unit 105 functions as the model generating unit 12 of the learning device 1 and the inference unit 42 of the inference device 4.
  • the transmitting/receiving unit 105 functions as the output unit 43.
  • the display unit 106 is a display device such as an LCD (Liquid Crystal Display) or an organic EL (electroluminescence) display.
  • the display unit 106 functions as the output unit 43.
  • the processing of the data acquisition unit 11 and model generation unit 12 of the learning device 1 shown in FIG. The processing is executed using the unit 103, the storage unit 102, the input unit 104, the transmitting/receiving unit 105, the display unit 106, etc. as resources.
  • the main parts that perform the processing of the learning device 1 and the inference device 4, such as the calculation section 103, the temporary storage section 101, the storage section 102, the input section 104, the transmission/reception section 105, and the display section 106, are not based on a dedicated system. It can be realized using an ordinary computer system.
  • a computer program for executing the above operations may be stored on a computer-readable recording medium such as a flexible disk, a CD-ROM (Compact Disc-Read Only Memory), or a DVD-ROM (Digital Versatile Disc-Read Only Memory).
  • the learning device 1 and the inference device 4 that execute the above processing may be configured by storing and distributing the computer program in a computer and installing the computer program in the computer.
  • the learning device 1 and the inference device 4 may be configured by storing the computer program in a storage device of a server device on a communication network such as the Internet, and downloading the computer program by a normal computer system.
  • the functions of the learning device 1 and the inference device 4 are realized by sharing the OS (Operating System) and the application program, or by cooperating with the OS and the application program, only the application program portion may be stored on the recording medium. It may be stored in the device.
  • OS Operating System
  • the computer program may be posted on a bulletin board system (BBS) on a communication network, and the computer program may be provided via the communication network. Then, by starting this computer program and executing it in the same way as other application programs under the control of the OS, the above-mentioned processing may be executed.
  • BSS bulletin board system
  • An inventory management system comprising a learning device and an inference device,
  • the learning device includes: Inventory placement amount change information indicating changes in the inventory placement amount of goods at each base due to inventory placement amount change actions, PSI plan performance information showing the plans and actual results of PSI (Production Sales Inventory) of the said items, and recorded in the PSI.
  • a first data acquisition unit that acquires demand quantity information indicating a demand quantity of the article that is not available;
  • a model generation unit that uses the inventory placement amount change information, the PSI plan performance information, and the demand amount information acquired by the first data acquisition unit as learning data, and learns the inventory placement amount change action to generate a learned model.
  • the inference device includes: a second data acquisition unit that acquires the PSI plan performance information and the demand information; an inference unit that inputs the PSI plan performance information and the demand information acquired by the second data acquisition unit into the learned model to obtain the inventory arrangement amount change action; an output unit that outputs inventory placement amount change action information indicating the inventory placement amount change action obtained by the reasoning unit; Inventory management system with. (Additional note 2)
  • the model generation unit uses the inventory arrangement amount change information, the PSI plan performance information, and the demand information acquired by the first data acquisition unit as learning data to improve the inventory turnover rate or improve the inventory turnover rate. learning the inventory allocation change action that minimizes the deterioration; Inventory management system described in Appendix 1.
  • the first data acquisition unit further acquires transportation cost performance information indicating the transportation cost performance due to the inventory allocation change action, and inventory storage resource occupancy information indicating the storage resource occupancy rate of product inventory at each location. death,
  • the model generation unit converts the inventory arrangement amount change information, the PSI plan performance information, the demand amount information, the transportation cost performance information, and the inventory storage resource occupancy information acquired by the first data acquisition unit into learning data.
  • the inventory allocation change action is to improve the inventory turnover rate, or to suppress the deterioration of the inventory turnover rate, to suppress transportation costs, and to ensure that the storage resource occupancy rate at each location satisfies the allowable value. learn, Inventory management system described in Appendix 1.
  • the first data acquisition unit further acquires management target information indicating management target values for inventory turnover and transportation costs;
  • the model generation unit includes the inventory arrangement amount change information, the PSI plan performance information, the demand information, the transportation cost performance information, the inventory storage resource occupancy information, and the Using management target information as learning data, improve the management target achievement rate of inventory turnover rate and transportation costs, or suppress the deterioration of the management target achievement rate of inventory turnover rate and transportation costs, and increase the occupancy of the storage resources at each location. learning the inventory placement amount change action whose rate satisfies a tolerance value; Inventory management system described in Appendix 3.
  • Inventory placement amount change information indicating a change in the inventory placement amount of the article at each base due to the inventory placement amount change action, PSI plan performance information indicating the plan and actual PSI of the item, and the a first data acquisition unit that acquires demand quantity information indicating the demand quantity of the article;
  • a model generation unit that uses the inventory placement amount change information, the PSI plan performance information, and the demand amount information acquired by the first data acquisition unit as learning data, and learns the inventory placement amount change action to generate a learned model. and, A learning device equipped with.
  • Inventory placement amount change information indicating a change in the inventory placement amount of an article at each base due to an inventory placement amount change action
  • PSI plan performance information indicating the plan and actual PSI of the item, and the item that is not included in the PSI.
  • An inference device that infers the inventory placement amount change action using a trained model generated by learning the inventory placement amount change action using demand amount information indicating the demand amount of as learning data, a second data acquisition unit that acquires the PSI plan performance information and the demand information; an inference unit that inputs the PSI plan performance information and the demand information acquired by the second data acquisition unit into the learned model to obtain the inventory arrangement amount change action; an output unit that outputs inventory placement amount change action information indicating the inventory placement amount change action obtained by the reasoning unit;
  • An inference device comprising: (Appendix 7) The learning device executes Inventory placement amount change information indicating a change in the inventory placement amount of an article at each base due to an inventory placement amount change action, PSI plan performance information indicating the plan and actual PSI of the item, and the item that is not included in the PSI.
  • the inference device executes a second data acquisition step of acquiring the PSI plan performance information and the demand information; an inference step of inputting the PSI plan performance information and the demand information acquired in the second data acquisition step into the learned model to obtain the inventory arrangement amount change action;
  • An inventory management method that has (Appendix 8) computer, Inventory placement amount change information indicating a change in the inventory placement amount of an article at each base due to an inventory placement amount change action, PSI plan performance information indicating the plan and actual PSI of the item, and the item that is not included in the PSI.
  • a first data acquisition unit that acquires demand quantity information indicating the demand quantity of;
  • the learned model is created by learning the action to change the inventory placement amount of the article at each base using the inventory placement amount change information, the PSI plan performance information, and the demand amount information acquired by the first data acquisition unit as learning data.
  • a model generation unit that generates A program that functions as (Appendix 9) Inventory placement amount change information indicating a change in the inventory placement amount of an article at each base due to an inventory placement amount change action, PSI plan performance information indicating the plan and actual PSI of the item, and the item that is not included in the PSI.
  • a computer that infers the inventory placement amount change action at each location using a trained model generated by learning the inventory placement amount change action using demand amount information indicating the demand amount of as learning data, a second data acquisition unit that acquires the PSI plan performance information and the demand information; an inference unit that inputs the PSI plan performance information and the demand information acquired by the second data acquisition unit into the learned model to obtain the inventory arrangement amount change action;
  • a program that functions as
  • 1 Learning device 1 Learning device, 2 Production management system, 3 Learned model storage unit, 4 Inference device, 11 Data acquisition unit, 12 Model generation unit, 41 Data acquisition unit, 42 Inference unit, 43 Output unit, 100 Inventory management system, 101 Temporary Storage unit, 102 Storage unit, 103 Calculation unit, 104 Input unit, 105 Transmission and reception unit, 106 Display unit, 121 Reward calculation unit, 122 Function update unit.

Landscapes

  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Accounting & Taxation (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Factory Administration (AREA)

Abstract

在庫管理システム(100)は、在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、物品のPSIの計画および実績を示すPSI計画実績情報、ならびに、PSIに計上されていない物品の需要量を示す需要量情報を取得する第1データ取得部(11)と、在庫配置量変更情報、PSI計画実績情報および需要量情報を学習データとして、在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成部(12)とを有する学習装置(1)と、第2データ取得部(41)が取得するPSI計画実績情報および需要量情報を学習済モデルに入力して、在庫配置量変更アクションを得る推論部(42)と、推論部(42)が得た在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する出力部(43)とを有する推論装置(4)とを備える。

Description

在庫管理システム、学習装置、推論装置、在庫管理方法およびプログラム
 本開示は、在庫管理システム、学習装置、推論装置、在庫管理方法およびプログラムに関する。
 企業活動において、各拠点および全体の在庫配置量をコントロールするために、過去の出荷実績を用いて需要を予測し、適切な在庫配置となるよう在庫の補充、拠点間の在庫の転送などが行われている。
 特許文献1には、医療機関又は調剤薬局で消化される医薬品の時系列的な消化特性から医薬品の補充を自動化することができる医薬品における適正在庫管理方法が開示されている。
特開2004-284689号公報
 特許文献1に記載の技術では、在庫計画を立てる際に、過去実績のみを用いて先々の需要を予測しているので、需要増減への追従が後追いとなり販売機会損失、過剰在庫などが発生する可能性がある。
 本開示は、上記のような問題点を解決するためになされたものであり、販売機会損失、過剰在庫などを抑制する、より適切な在庫配置を可能にすることを目的とするものである。
 上記目的を達成するため、本開示に係る在庫管理システムは、学習装置および推論装置を備える。学習装置は、第1データ取得部と、モデル生成部とを有する。第1データ取得部は、在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、物品のPSI(Production Sales Inventory)の計画および実績を示すPSI計画実績情報、ならびに、PSIに計上されていない物品の需要量を示す需要量情報を取得する。モデル生成部は、第1データ取得部が取得した在庫配置量変更情報、PSI計画実績情報および需要量情報を学習データとして、在庫配置量変更アクションを学習して学習済モデルを生成する。推論装置は、第2データ取得部と、推論部と、出力部とを備える。第2データ取得部は、PSI計画実績情報および需要量情報を取得する。推論部は、第2データ取得部が取得したPSI計画実績情報および需要量情報を学習済モデルに入力して、在庫配置量変更アクションを得る。出力部は、推論部が得た在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する。
 本開示によれば、在庫配置量変更情報およびPSI計画実績情報だけでなく、PSIに計上されていない物品の需要量を示す需要量情報を学習データに用いて、各拠点における物品の在庫配置量の変更アクションを学習した学習済モデルを生成することで、販売機会損失、過剰在庫などを抑制する、より適切な在庫配置が可能になる。
実施の形態1に係る在庫管理システムの構成例を示すブロック図 実施の形態1に係る在庫配置量変更アクションを示す模式図 実施の形態1に係る在庫配置量変更情報の一例を示す図 実施の形態1に係るPSI計画実績情報に含まれるPSIの計画の一例を示す図 実施の形態1に係るPSI計画実績情報に含まれるPSIの実績の一例を示す図 実施の形態1に係る需要量情報の一例を示す図 実施の形態1に係る学習装置の機能構成例を示すブロック図 実施の形態1に係る学習処理1を示すフローチャート 実施の形態1に係る推論処理を示すフローチャート 実施の形態2に係る輸送費実績情報の一例を示す図 実施の形態2に係る在庫保管リソース占有率情報の一例を示す図 実施の形態2に係る学習処理2を示すフローチャート 実施の形態1および2に係る学習装置および推論装置のハードウェア構成の一例を示す図
 以下に、本実施の形態に係る在庫管理システム、学習装置、推論装置、在庫管理方法およびプログラムについて図面を参照して詳細に説明する。なお、図中同一または相当する部分には同じ符号を付す。本実施の形態では、複数の拠点を有する企業の各拠点における製品の在庫配置量を管理する例について説明する。
(実施の形態1)
 実施の形態1に係る在庫管理システム100の構成について、図1を用いて説明する。在庫管理システム100は、各拠点における製品の在庫配置量の変更アクションによる在庫配置量の変更を示す在庫配置量変更情報、製品のPSIの計画および実績を示すPSI計画実績情報、ならびに、製品の需要量を示す需要量情報を記憶する生産管理システム2と、在庫配置量変更情報、PSI計画実績情報および需要量情報を学習データとして、各拠点における製品の在庫配置量の変更アクションを学習して学習済モデルを生成する学習装置1と、学習装置1が生成した学習済モデルを記憶する学習済モデル記憶部3と、学習済モデルを用いて、適切な在庫配置にするための各拠点における製品の在庫配置量の変更アクションを推論して出力する推論装置4と、を備える。以下、各拠点における製品の在庫配置量の変更アクションを、在庫配置量変更アクションと略す。
 在庫配置量変更アクションについて、図2を用いて説明する。在庫配置量変更アクションとは、図2に示す供給元の工場(例えば製品の生産工場)から供給先の拠点Ba、拠点Bbおよび拠点Bc(例えば販売会社の在庫管理拠点、生産工場が管理する全国の在庫管理拠点など)への在庫供給、および、供給先の拠点間での在庫転送のことである。工場から拠点に在庫が補給されることで工場の在庫は減少し、各拠点から代理店、エンドユーザなどに製品が販売されることで各拠点の在庫は減少する。また、工場で製品が生産または調達されることで、工場の在庫は増加し、工場から拠点に在庫が補給されることで拠点の在庫は増加する。
 在庫配置量変更情報について、図3を用いて説明する。図3に示すように在庫配置量変更情報は、供給元および供給先の在庫総量、供給元および供給先の在庫配置量の割合を含む。例えば製品Paの供給元および供給先の在庫総量は100個であって、供給元および供給先である工場、拠点Ba、拠点Bbおよび拠点Bcの在庫配置量の割合はそれぞれ、50%、20%、20%および10%である。学習装置1は、在庫配置量変更アクションが行われる度に、在庫配置量変更情報を取得してもよいし、一定期間の在庫配置量変更情報をまとめて取得してもよい。
 PSI計画実績情報について、図4および図5を用いて説明する。PSI計画実績情報は、製品のPSIの計画とPSIの実績とを含む。図4は、PSI計画実績情報に含まれる月別の製品のP(生産および調達)、S(出荷)、I(在庫)の計画を示す。P(生産および調達)はI(在庫)の増加であり、S(出荷)はI(在庫)の減少である。例えば、4月時点でのPSI計画におけるP(生産および調達)は17台であり、S(出荷)は、19台であり、I(在庫)は20台である。1ヶ月先のP(生産および調達)は11台であり、S(出荷)は、14台であるので、I(在庫)は20+11-14=17台である。図5は、PSI計画実績情報に含まれる月別の製品のP(生産および調達)、S(出荷)、I(在庫)の実績を示す。例えば、4月時点でのP(生産および調達)の実績は13台であり、S(出荷)は、17台であり、I(在庫)は15台である。図4および図5では、製品のPSIの計画および実績の単位を台数(台)としたが、これに限らず、例えば金額(円)であってもよい。
 需要量情報について、図6を用いて説明する。需要量情報は、まだPSIに計上されていない製品の需要量を示す情報であり、供給先から供給元への在庫補充の依頼、代理店、エンドユーザなど(顧客)からの供給先への注文などがこれに該当する。
 図6の例では、需要量情報は、各製品の要求数量、要求元、要求先、要求日、要求納期および、要求日から要求納期までのリードタイムを含む。例えば、2022/1/2に、顧客Caから拠点Baへ、2022/1/10の納期までに製品Paが5台要求されている。要求日から要求納期までのリードタイムは8日である。
 図1に戻り、学習装置1は、生産管理システム2から在庫配置量変更情報、PSI計画実績情報および需要量情報を取得するデータ取得部11と、在庫配置量変更情報、PSI計画実績情報および需要量情報を学習データとして、在庫配置量変更アクションを学習し、学習済モデルを生成するモデル生成部12とを備える。データ取得部11は、第1データ取得部の例である。
 モデル生成部12は、例えば、在庫回転率が向上する、あるいは、在庫回転率の悪化を最小限に抑える在庫配置量変更アクションを学習する。この場合、モデル生成部12によって生成された学習済モデルに、PSI計画実績情報および需要量情報が入力されると、在庫回転率が向上する、あるいは、在庫回転率の悪化を最小限に抑える在庫配置量変更アクションが出力される。学習済モデルから出力された在庫配置量変更アクションを実行して全体および各拠点の在庫配置量を増減することにより、売上機会損失、過剰在庫などの発生を抑制することができる。この学習済モデルは、例えば、顧客からの要求リードタイムが短い要求が発生し、供給元(工場)からの供給が間に合わない場合に有効である。具体的には、日本の工場と欧州の各拠点がある場合に、日本の工場からの供給が間に合わなくても、欧州の拠点間で在庫の転送をすることで対応できる場合がある。
 また、各拠点に対する要求量に対するその拠点の在庫配置量について、拠点間で比較した場合に偏り(在庫過多、在庫不足など)があると、顧客全体および市場の要求に対して全体として在庫は足りていても拠点間の在庫偏在が発生し、売上機会損失、過剰在庫などに繋がる。これに対し、上記の学習済モデルを用いれば、拠点間の在庫偏在を解消し、売上機会損失、過剰在庫などの発生を抑えることができる。
 モデル生成部12が用いる学習アルゴリズムには、教師あり学習、教師なし学習、強化学習(Reinforcement Learning)などの公知のアルゴリズムを用いることができる。一例として、強化学習を適用した場合について説明する。 強化学習では、ある環境内におけるエージェント(行動主体)が、現在の状態(環境のパラメータ)を観測し、取るべき行動を決定する。エージェントの行動により環境が動的に変化し、エージェントには環境の変化に応じて報酬が与えられる。エージェントはこれを繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針を学習する。強化学習の代表的な手法として、Q学習(Q-learning)、TD学習(TD-learning)などが知られている。例えば、Q学習の場合、行動価値関数Q(s,a)の一般的な更新式は数1で表される。
Figure JPOXMLDOC01-appb-M000001
 数1において、sは時刻tにおける環境の状態を表し、aは時刻tにおける行動を表す。行動aにより、状態はst+1に変わる。rt+1はその状態の変化によってもらえる報酬を表し、γは割引率を表し、αは学習係数を表す。なお、γは0<γ≦1、αは0<α≦1の範囲とする。モデル生成部12が強化学習を用いる場合、行動aは、在庫配置量変更アクションであり、PSIの計画および実績と、製品の需要量とが状態sである。モデル生成部12は、時刻tの状態sにおける最良の行動aを学習する。
 数1で表される更新式は、時刻t+1において最もQ値の高い行動aの行動価値Qが、時刻tにおいて実行された行動aの行動価値Qよりも大きければ、行動価値Qを大きくし、逆の場合は、行動価値Qを小さくする。換言すれば、時刻tにおける行動aの行動価値Qを、時刻t+1における最良の行動価値に近づける行動価値関数Q(s,a)に更新する。これにより、ある環境における最良の行動価値が、それ以前の環境における行動価値に順次伝播していく。
 強化学習によって学習済モデルを生成する場合、図7に示すように、モデル生成部12は、報酬計算部121と、関数更新部122と、を備える。
 報酬計算部121は、在庫配置量情報が示す在庫配置量変更アクションと、PSI計画実績情報が示すPSI計画およびPSIの実績と、需要量情報が示す製品の要求量とに基づいて報酬を計算する。報酬計算部121は、在庫回転率の変化に基づいて、報酬rを計算する。例えば、在庫回転率の向上の場合には報酬rを増大させる(例えば「1」の報酬を与える)。在庫回転率の悪化の場合には報酬rを低減させる(例えば「-1」の報酬を与える)。例えば、年間の在庫回転率は「年間の出荷量÷在庫量」で計算されるため、報酬を増大させる方法は「出荷量を増やし、在庫量を維持または減らす」、「出荷量を維持し、在庫量を減らす」、「出荷量を増やし、それよりも少なく在庫量を増やす」、および、「出荷量を減らし、それよりも多く在庫量を減らす」の4つがある。
 関数更新部122は、報酬計算部121によって計算された報酬に従って、入力された状態に対して報酬が最大化される在庫配置量変更アクションを決定するための関数を更新する。例えば、Q学習の場合、数1で表される行動価値関数Q(s,a)を、入力された状態に対して報酬が最大化される在庫配置量変更アクションを算出するための関数として用いる。
 モデル生成部12は、学習終了条件を満たすまで、上記の学習を繰り返し実行する。学習終了条件としては、例えば、状態sが終端状態になるか、予め決められた回数繰り替えしたときに学習を終了する。学習が終了すると、学習済モデル記憶部3は、関数更新部122によって更新された行動価値関数Q(s,a)、すなわち、学習済モデルを記憶する。
 上記の説明では、学習装置1は、生成した学習済モデルを外部に設けられた学習済モデル記憶部3に記憶するものとしたが、学習済モデル記憶部3を学習装置1の内部に備えていてもよい。あるいは、在庫管理システム100の外部のシステムまたは装置に学習済モデル記憶部3を構成してもよい。
 図1に戻り、推論装置4は、生産管理システム2からPSI計画実績情報および需要量情報を取得するデータ取得部41と、PSI計画実績情報および需要量情報を学習済モデル記憶部3が記憶する学習済モデルに入力して、在庫配置量変更アクションを推論する推論部42と、推論部42が推論した在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する出力部43とを備える。データ取得部41は、第2データ取得部の例である。
 推論部42は、学習済モデル記憶部3が記憶する学習済モデルに、データ取得部41が取得したPSI計画実績情報および需要量情報を入力して、在庫配置量変更アクションを得る。出力部43は、推論部42が学習済モデルから得た在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する。在庫配置量変更アクション情報の出力方法は、例えば、画面表示でもよいし、音声出力でもよいし、ユーザが使用する端末に送信してもよい。
 上記の説明では、推論装置4は、外部に設けられた学習済モデル記憶部3が記憶する学習済モデルを用いたが、学習済モデル記憶部3を推論装置4の内部に備えていてもよい。
 上述のとおり、在庫管理システム100が行う処理には、在庫配置量変更アクションを学習する学習フェーズと、学習済モデルを用いて在庫配置量変更アクションを推論する活用フェーズとがある。
 ここで、学習フェーズで学習装置1が実行する学習処理1の流れについて、図8を用いて説明する。図8に示す学習処理1は、学習アルゴリズムとして強化学習を適用した場合の学習処理の例である。学習処理1は、学習装置1に電源が投入された時に開始する。学習装置1のデータ取得部11が生産管理システム2から学習に必要な在庫配置量変更情報、PSI計画実績情報および需要量情報を取得していない場合(ステップS11;NO)、処理はステップS18に移行する。
 データ取得部11が生産管理システム2から学習に必要な在庫配置量変更情報、PSI計画実績情報および需要量情報を取得した場合(ステップS11;YES)、モデル生成部12の報酬計算部121は、在庫配置量情報が示す在庫配置量変更アクションと、PSI計画実績情報が示すPSI計画およびPSIの実績と、需要量情報が示す製品の要求量とに基づいて、在庫配置量変更アクションによって在庫回転率が向上したか否かを判定する(ステップS12)。ステップS11は、第1データ取得ステップの例である。
 在庫配置量変更アクションによって在庫回転率が向上した場合(ステップS12;YES)、報酬計算部121は、報酬rを増大させる(ステップS13)。ステップS13で、報酬計算部121は、例えば「1」の報酬を与える。在庫配置量変更アクションによって在庫回転率が悪化した場合(ステップS12;NO)、報酬計算部121は、報酬rを低減させる(ステップS14)。ステップS14で、報酬計算部121は、例えば「-1」の報酬を与える。
 モデル生成部12の関数更新部122は、報酬計算部121によって計算された報酬に従って、入力された状態に対する在庫配置量変更アクションを決定するための関数を更新する(ステップS15)。例えば、Q学習の場合、数1で表される行動価値関数Q(s,a)を、入力された状態に対して報酬が最大化される在庫配置量変更アクションを算出するための関数として用いる。
 モデル生成部12は、学習終了条件を満たしたか否かを判定する(ステップS16)。学習終了条件を満たしていなければ(ステップS16;NO)、処理はステップS12に戻り、ステップS12~ステップS16を繰り返す。学習終了条件を満たした場合(ステップS16;YES)、学習済モデル記憶部3は、関数更新部122によって更新された行動価値関数Q(s,a)、すなわち、学習済モデルを記憶する(ステップS17)。学習終了条件には、例えば、状態sが終端状態になる、繰り返し回数が予め決められた回数を超える、などがある。ステップS12~ステップS16は、モデル生成ステップの例である。
 学習装置1の電源がOFFになっていない場合(ステップS18;NO)、処理はステップS11に戻り、ステップS11~ステップS18を繰り返す。学習装置1の電源がOFFになった場合(ステップS18;YES)、処理を終了する。
 図8に示すフローチャートでは、データ取得部11が生産管理システム2から学習に必要な在庫配置量変更情報、PSI計画実績情報および需要量情報を取得すると在庫配置量変更アクションの学習を開始するが、これに限らない。例えば、ユーザが指定したタイミングで在庫配置量変更アクションの学習を開始して、学習済モデルを生成する構成にしてもよい。
 続いて、活用フェーズで推論装置4が実行する推論処理の流れについて、図9を用いて説明する。図9に示す推論処理は、推論装置4に電源が投入された時に開始する。推論装置4のデータ取得部41が生産管理システム2からPSI計画実績情報および需要量情報を取得しない場合(ステップS21;NO)、処理はステップS25に移行する。データ取得部41が生産管理システム2からPSI計画実績情報および需要量情報を取得した場合(ステップS21;YES)、推論部42は、PSI計画実績情報および需要量情報を学習済モデル記憶部3が記憶する学習済モデルに入力し(ステップS22)、在庫配置量変更アクションを得る(ステップS23)。ステップS21は、第2データ取得ステップの例である。ステップS22およびステップS23は、推論ステップの例である。出力部43は、推論部42が得た在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する(ステップS24)。在庫配置量変更アクション情報の出力方法は、例えば、画面表示でもよいし、音声出力でもよいし、ユーザが使用する端末に送信してもよい。
 推論装置4の電源がOFFになっていない場合(ステップS25;NO)、処理はステップS21に戻り、ステップS21~ステップS25を繰り返す。推論装置4の電源がOFFになった場合(ステップS25;YES)、処理を終了する。
 実施の形態1に係る在庫管理システム100によれば、在庫配置量変更情報およびPSI計画実績情報だけでなく、PSIに計上されていない製品の需要量を示す需要量情報を学習データに用いて、各拠点における製品の在庫配置量の変更アクションを学習した学習済モデルを生成することで、販売機会損失、過剰在庫などを抑制する、より適切な在庫配置が可能になる。
(実施の形態2)
 実施の形態2の在庫管理システム100の構成と、推論装置4の機能構成とは、実施の形態1と同様である。実施の形態2では、学習装置1は、在庫配置量変更情報、PSI計画実績情報および需要量情報に加え、在庫配置量変更アクションによる輸送費の実績を示す輸送費実績情報、および、各拠点の製品の在庫の保管リソース占有率を示す在庫保管リソース占有率情報を学習データとして、各拠点における製品の在庫配置量の変更アクションを学習して学習済モデルを生成する。
 輸送費実績情報について、図10を用いて説明する。図10に示すように輸送費実績情報は、各製品の輸送日、輸送元、輸送先、および、輸送費を含む。例えば製品Paが、2022/1/2に拠点Baから顧客Caまで輸送された際の輸送費は10,000円である。
 在庫保管リソース占有率情報について、図11を用いて説明する。図11に示すように在庫保管リソース占有率情報は、日付と、その日付における各拠点の製品の在庫が保管リソースを占有している率である保管リソース占有率とを含む。例えば2022/1/2における拠点Baの保管リソース占有率は90%である。保管リソース占有率は例えば定期的に算出されるものとする。
 学習装置1のデータ取得部11は、生産管理システム2から、在庫配置量変更情報、PSI計画実績情報および需要量情報、輸送費実績情報および在庫保管リソース占有率情報を取得する。モデル生成部12は、在庫配置量変更情報、PSI計画実績情報、需要量情報、輸送費実績情報、および、在庫保管リソース占有率情報を学習データとして、在庫配置量変更アクションを学習し、学習済モデルを生成する。モデル生成部12は、生成した学習済モデルを学習済モデル記憶部3に記憶する。
 モデル生成部12は、在庫回転率を向上させ、または、在庫回転率の悪化を抑え、かつ、輸送費を抑え、かつ、各拠点における保管リソース占有率が許容値(例えば90%)を満たしている在庫配置量変更アクションを学習する。この場合、モデル生成部12によって生成された学習済モデルに、PSI計画実績情報、需要量情報、輸送費実績情報、および、在庫保管リソース占有率情報が入力されると、在庫回転率を向上させ、または、在庫回転率の悪化を抑え、かつ、輸送費を抑え、かつ、各拠点における保管リソース占有率が許容値を満たしている在庫配置量変更アクションが出力される。学習済モデルから出力された在庫配置量変更アクションを実行して全体および各拠点の在庫配置量を増減することにより、各拠点における保管リソース占有率が許容値を越えることなく、売上機会損失、過剰在庫などの発生を抑制することができ、かつ、輸送費を抑えることができる。この学習済モデルは、例えば、顧客からの要求リードタイムが短い要求が発生し、供給元(工場)からの供給が間に合わない場合に有効である。具体的には、日本の工場と欧州の各拠点がある場合に、日本の工場からの供給が間に合わなくても、欧州の拠点間で在庫の転送をすることで対応できる場合がある。
 また、各拠点に対する要求量に対するその拠点の在庫配置量について、拠点間で比較した場合に偏り(在庫過多、在庫不足など)があると、顧客全体および市場の要求に対して全体として在庫は足りていても拠点間の在庫偏在が発生し、売上機会損失、過剰在庫などに繋がる。これに対し、上記の学習済モデルを用いれば、拠点間の在庫偏在を解消し、売上機会損失、過剰在庫などの発生を抑えることができ、かつ、輸送費を抑え、保管リソース占有率が許容値を越えてしまうことを防ぐことができる。
 モデル生成部12が用いる学習アルゴリズムには、実施の形態1と同様に、教師あり学習、教師なし学習、強化学習などの公知のアルゴリズムを用いることができる。これらの学習アルゴリズムにおいて、各拠点における保管リソース占有率が許容値を超えないことを制約条件とする。
 例えば、モデル生成部12がQ学習を用いる場合、行動aは、在庫配置量変更アクションであり、PSIの計画および実績と、製品の需要量と、輸送費とが状態sであり、保管リソース占有率が許容値を超えないことが制約条件である。モデル生成部12は、制約条件を満たす時刻tの状態sにおける最良の行動aを学習する。
 実施の形態2では、報酬rを2つの報酬rおよび報酬rから算出する。例えば、在庫配置量変更アクションによって在庫回転率が向上する場合には報酬rを増大させる。在庫配置量変更アクションによって在庫回転率が悪化する場合には報酬rを低減させる。在庫配置量変更アクションによる輸送費の合計が閾値以下である場合には報酬rを増大させる。在庫配置量変更アクションによる輸送費の合計が閾値より高い場合には報酬rを低減させる。報酬rを増大させるか否かを判定する閾値と、報酬rを低減させるか否かを判定する閾値とは異なってもよい。報酬r=r+rである。あるいは、報酬rおよび報酬rに重み付けをしてもよい。この場合、報酬r=w+wとする。その他の学習装置1の機能は実施の形態1と同様である。
 ここで、学習フェーズで学習装置1が実行する学習処理2の流れについて、図12を用いて説明する。図12に示す学習処理2は、学習アルゴリズムとして強化学習を適用した場合の学習処理の例である。学習処理1は、学習装置1に電源が投入された時に開始する。学習装置1のデータ取得部11が生産管理システム2から学習に必要な在庫配置量変更情報、PSI計画実績情報、需要量情報、輸送費実績情報および在庫保管リソース占有率情報を取得していない場合(ステップS31;NO)、処理はステップS43に移行する。
 データ取得部11が生産管理システム2から学習に必要な在庫配置量変更情報、PSI計画実績情報、需要量情報、輸送費実績情報および在庫保管リソース占有率情報を取得した場合(ステップS31;YES)、モデル生成部12の報酬計算部121は、在庫保管リソース占有率情報が示す保管リソース占有率に基づいて、在庫配置量変更アクションが制約条件(保管リソース占有率が許容値を超えないこと)を満たしているか否かを判定する(ステップS32)。在庫配置量変更アクションが制約条件を満たしていない場合(ステップS32;NO)、処理はステップS41に移行する。在庫配置量変更アクションが制約条件を満たしている場合(ステップS32;YES)、モデル生成部12の報酬計算部121は、在庫配置量情報が示す在庫配置量変更アクションと、PSI計画実績情報が示すPSI計画およびPSIの実績と、需要量情報が示す製品の要求量とに基づいて、在庫配置量変更アクションによって在庫回転率が向上したか否かを判定する(ステップS33)。
 在庫配置量変更アクションによって在庫回転率が向上した場合(ステップS33;YES)、報酬計算部121は、報酬rを増大させる(ステップS34)。在庫配置量変更アクションによって在庫回転率が悪化した場合(ステップS33;NO)、報酬計算部121は、報酬rを低減させる(ステップS35)。
 モデル生成部12の報酬計算部121は、在庫配置量情報が示す在庫配置量変更アクションと、PSI計画実績情報が示すPSI計画およびPSIの実績と、需要量情報が示す製品の要求量と、輸送費実績情報とに基づいて、在庫配置量変更アクションによる輸送費の合計が閾値以下であるか否かを判定する(ステップS36)。
 在庫配置量変更アクションによる輸送費の合計が閾値以下である場合(ステップS36;YES)、報酬計算部121は、報酬rを増大させる(ステップS37)。在庫配置量変更アクションによる輸送費の合計が閾値より大きい場合(ステップS36;NO)、報酬計算部121は、報酬rを低減させる(ステップS38)。報酬計算部121は、報酬r1および報酬r2に基づいて、報酬rを算出する(ステップS39)。報酬r=r+rである。報酬rおよび報酬rに重み付けをする場合、報酬r=w+wを算出する。
 モデル生成部12の関数更新部122は、報酬計算部121によって計算された報酬に従って、入力された状態に対する在庫配置量変更アクションを決定するための関数を更新する(ステップS40)。例えば、Q学習の場合、数1で表される行動価値関数Q(s,a)を、入力された状態に対して報酬が最大化される在庫配置量変更アクションを算出するための関数として用いる。
 モデル生成部12は、学習終了条件を満たしたか否かを判定する(ステップS41)。学習終了条件を満たしていなければ(ステップS41;NO)、処理はステップS32に戻り、ステップS32~ステップS41を繰り返す。学習終了条件を満たした場合(ステップS41;YES)、学習済モデル記憶部3は、関数更新部122によって更新された行動価値関数Q(s,a)、すなわち、学習済モデルを記憶する(ステップS42)。学習終了条件には、例えば、状態sが終端状態になる、繰り返し回数が予め決められた回数を超える、などがある。ステップS32~ステップS36は、モデル生成ステップの例である。
 学習装置1の電源がOFFになっていない場合(ステップS43;NO)、処理はステップS31に戻り、ステップS31~ステップS43を繰り返す。学習装置1の電源がOFFになった場合(ステップS43;YES)、処理を終了する。
 図12に示すフローチャートでは、データ取得部11が生産管理システム2から学習に必要な在庫配置量変更情報、PSI計画実績情報、需要量情報、輸送費実績情報および在庫保管リソース占有率情報を取得すると在庫配置量変更アクションの学習を開始するが、これに限らない。例えば、ユーザが指定したタイミングで在庫配置量変更アクションの学習を開始して、学習済モデルを生成する構成にしてもよい。
 実施の形態2に係る在庫管理システム100によれば、在庫配置量変更情報およびPSI計画実績情報だけでなく、PSIに計上されていない製品の需要量を示す需要量情報を学習データに用いて、各拠点における製品の在庫配置量の変更アクションを学習した学習済モデルを生成することで、拠点間の在庫偏在を解消し、売上機会損失、過剰在庫などの発生を抑えることができ、かつ、輸送費を抑え、保管リソース占有率が許容値を越えてしまうことを防ぐことができ、より適切な在庫配置が可能になる。
 上記の実施の形態1および2では、学習装置1のデータ取得部11および推論装置4のデータ取得部41は、共にPSIの計画および実績を含むPSI計画実績情報を取得したが、これに限らない。例えば、学習装置1のデータ取得部11は、PSIの実績を示すPSI実績情報を取得し、推論装置4のデータ取得部41は、PSIの計画を示すPSI計画情報を取得してもよい。この場合、学習装置1のモデル生成部12は、PSI実績情報および需要量情報を学習データとして、在庫配置量変更アクションを学習して学習済モデルを生成し、推論装置4の推論部42は、PSI計画情報および需要量情報を学習済モデル記憶部3が記憶する学習済モデルに入力して、在庫配置量変更アクションを推論する。
 上記の実施の形態1および2では、在庫管理システム100は、学習装置1および推論装置4を備え、推論装置4は、学習装置1が生成した学習済モデルを用いて在庫配置量変更アクションを推論したが、これに限らない。推論装置4は、その他のシステムまたは装置から学習済モデルを取得し、取得した学習済モデルを用いて在庫配置量変更アクションを推論してもよい。
 上記の実施の形態1および2では、モデル生成部12に用いられる学習アルゴリズムに強化学習を適用した場合について説明したが、これに限られるものではない。学習アルゴリズムについては、強化学習以外にも、教師あり学習、教師なし学習、又は半教師あり学習等を適用することも可能である。また、モデル生成部12に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する、深層学習(Deep Learning)を用いることもでき、モデル生成部12は、他の公知の方法、例えばニューラルネットワーク、機能論理プログラミングなどに従って機械学習を実行してもよい。
 上記の実施の形態1および2では、学習装置1および推論装置4は、在庫管理システム100に含まれるが、学習装置1および推論装置4は、それぞれ別個の装置であってもよいし、クラウドサーバ上に存在していてもよい。
 上記の実施の形態1では、学習装置1のデータ取得部11は、在庫配置量変更情報、PSI計画実績情報および需要量情報を、推論装置4のデータ取得部41は、PSI計画実績情報および需要量情報を、生産管理システム2から取得したが、これに限らない。例えば、その他のシステムまたは装置から取得してもよいし、ユーザが直接入力してもよい。実施の形態2についても同様に、学習装置1のデータ取得部11は、在庫配置量変更情報、PSI計画実績情報および需要量情報、輸送費実績情報および在庫保管リソース占有率情報を、例えば、その他のシステムまたは装置から取得してもよいし、ユーザが直接入力してもよい。
 上記の実施の形態1および2では、モデル生成部12は、生産管理システム2から取得される学習用データを用いて、在庫配置量変更アクションを学習するが、同一のエリアで使用される関連する複数の生産管理システム2から学習用データを取得してもよいし、異なるエリアで独立して動作する複数の生産管理システム2から収集された学習用データを取得してもよい。また、学習用データを収集する生産管理システム2を途中で対象に追加したり、対象から除去したりできる構成にしてもよい。さらに、ある在庫管理システム100に関して在庫配置量の変更アクションを学習した学習装置1を、別の在庫管理システムに適用し、当該別の在庫管理システムに関して在庫配置量変更アクションを再学習して更新する構成にしてもよい。
 上記の実施の形態1および2では、複数の拠点を有する企業の各拠点における製品の在庫配置量を管理する例について説明したが、製品に限らず、PSI計画に基づいて在庫が管理される物品であればよい。
 上記の実施の形態2では、報酬rを2つの報酬rおよび報酬rから算出する。例えば、在庫回転率の向上の場合には報酬rを増大させる。在庫回転率の悪化の場合には報酬rを低減させる。輸送費の合計が閾値以下である場合には報酬rを増大させる。輸送費の合計が閾値より高い場合には報酬rを低減させる。これに限らず、学習装置1のデータ取得部11は、在庫配置量変更情報、PSI計画実績情報および需要量情報、輸送費実績情報および在庫保管リソース占有率情報に加え、在庫回転率および輸送費の経営目標値を示す経営目標情報を取得し、経営目標達成率が向上するか否かで報酬を決定してもよい。
 この場合、例えば、在庫回転率の経営目標達成率が向上する場合には報酬rを増大させる。在庫回転率の経営目標達成率が悪化する場合には報酬rを低減させる。輸送費の経営目標達成率が向上する場合には報酬rを増大させる。輸送費の経営目標達成率が悪化する場合には報酬rを低減させる。実施の形態2と同様、報酬r=r+rである。報酬rおよび報酬rに重み付けをする場合、報酬r=w+wを算出する。あるいは、在庫回転率および輸送費の経営目標達成率の変化を合算して向上する場合には報酬rを増大させ、在庫回転率および輸送費の経営目標達成率の変化を合算して悪化する場合には報酬rを低減させてもよい。この変形例では、モデル生成部12によって生成された学習済モデルに、在庫配置量変更情報、PSI計画実績情報および需要量情報、輸送費実績情報、在庫保管リソース占有率情報および経営目標情報が入力されると、在庫回転率および輸送費の経営目標達成率が向上する、あるいは、在庫回転率および輸送費の経営目標達成率の悪化を抑える在庫配置量変更アクションが出力される。
 学習装置1および推論装置4のハードウェア構成について図13を用いて説明する。図13に示すように、学習装置1および推論装置4は、一時記憶部101、記憶部102、計算部103、入力部104、送受信部105および表示部106を備える。一時記憶部101、記憶部102、入力部104、送受信部105および表示部106はいずれもBUSを介して計算部103に接続されている。
 計算部103は、例えばCPU(Central Processing Unit)である。計算部103は、記憶部102に記憶されている制御プログラムに従って、学習装置1のモデル生成部12および推論装置4の推論部42の処理を実行する。
 一時記憶部101は、例えばRAM(Random-Access Memory)である。一時記憶部101は、記憶部102に記憶されている制御プログラムをロードし、計算部103の作業領域として用いられる。
 記憶部102は、フラッシュメモリ、ハードディスク、DVD-RAM(Digital Versatile Disc - Random Access Memory)、DVD-RW(Digital Versatile Disc - ReWritable)などの不揮発性メモリである。記憶部102は、学習装置1および推論装置4の処理を計算部103に行わせるためのプログラムを予め記憶し、また、計算部103の指示に従って、このプログラムが記憶するデータを計算部103に供給し、計算部103から供給されたデータを記憶する。学習装置1および推論装置4が学習済モデル記憶部3を内部に備える構成では、学習済モデル記憶部3は、記憶部102に構成される。
 入力部104は、キーボード、ポインティングデバイス、音声入力機器などの入力装置と、入力装置をBUSに接続するインターフェース装置である。入力部104を介して、ユーザが入力した情報が計算部103に供給される。学習装置1のデータ取得部11にユーザが直接情報を入力する構成では、入力部104は、データ取得部11として機能する。推論装置4のデータ取得部41にユーザが直接情報を入力する構成では、入力部104は、データ取得部41として機能する。
 送受信部105は、ネットワークに接続する網終端装置または無線通信装置、およびそれらと接続するシリアルインターフェースまたはLAN(Local Area Network)インターフェースである。送受信部105は、学習装置1のモデル生成部12、および、推論装置4の推論部42として機能する。推論装置4の出力部43が在庫配置量変更アクション情報をユーザが使用する端末に送信する構成では、送受信部105は、出力部43として機能する。
 表示部106は、LCD(Liquid Crystal Display)、有機EL(electroluminescence)ディスプレイなどの表示装置である。推論装置4の出力部43が在庫配置量変更アクション情報を画面表示する構成では、表示部106は、出力部43として機能する。
 図1に示す学習装置1のデータ取得部11およびモデル生成部12、ならびに、推論装置4のデータ取得部41、推論部42および出力部43の処理は、制御プログラムが、一時記憶部101、計算部103、記憶部102、入力部104、送受信部105および表示部106などを資源として用いて処理することによって実行する。
 その他、前記のハードウェア構成およびフローチャートは一例であり、任意に変更および修正が可能である。
 計算部103、一時記憶部101、記憶部102、入力部104、送受信部105、表示部106などの学習装置1および推論装置4の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、前記の動作を実行するためのコンピュータプログラムを、フレキシブルディスク、CD-ROM(Compact Disc - Read Only Memory)、DVD-ROM(Digital Versatile Disc - Read Only Memory)などのコンピュータが読み取り可能な記録媒体に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する学習装置1および推論装置4を構成してもよい。また、インターネットに代表される通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロードすることで学習装置1および推論装置4を構成してもよい。
 また、学習装置1および推論装置4の機能を、OS(Operating System)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体、記憶装置に格納してもよい。
 また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して提供することも可能である。例えば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、通信ネットワークを介して前記コンピュータプログラムを提供してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できる構成にしてもよい。
 以上、好ましい実施の形態について詳説したが、上述した実施の形態に制限されることはなく、特許請求の範囲に記載された範囲を逸脱することなく、上述した実施の形態に種々の変形及び置換を加えることができる。
 以下、本開示の諸態様を付記としてまとめて記載する。
 (付記1)
 学習装置および推論装置を備える在庫管理システムであって、
 前記学習装置は、
 在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のPSI(Production Sales Inventory)の計画および実績を示すPSI計画実績情報、ならびに、前記PSIに計上されていない前記物品の需要量を示す需要量情報を取得する第1データ取得部と、
 前記第1データ取得部が取得した前記在庫配置量変更情報、前記PSI計画実績情報および前記需要量情報を学習データとして、前記在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成部と、
 を有し、
 前記推論装置は、
 前記PSI計画実績情報および前記需要量情報を取得する第2データ取得部と、
 前記第2データ取得部が取得した前記PSI計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論部と、
 前記推論部が得た前記在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する出力部と、
 を有する在庫管理システム。
 (付記2)
 前記モデル生成部は、前記第1データ取得部が取得した前記在庫配置量変更情報、前記PSI計画実績情報および前記需要量情報を学習データとして、在庫回転率が向上する、あるいは、在庫回転率の悪化を最小限に抑える、前記在庫配置量変更アクションを学習する、
 付記1に記載の在庫管理システム。
 (付記3)
 前記第1データ取得部は、前記在庫配置量変更アクションによる輸送費の実績を示す輸送費実績情報、および、各拠点の製品の在庫の保管リソース占有率を示す在庫保管リソース占有率情報をさらに取得し、
 前記モデル生成部は、前記第1データ取得部が取得した前記在庫配置量変更情報、前記PSI計画実績情報、前記需要量情報、前記輸送費実績情報、および、在庫保管リソース占有率情報を学習データとして、在庫回転率を向上させ、または、在庫回転率の悪化を抑え、かつ、輸送費を抑え、かつ、各拠点における前記保管リソース占有率が許容値を満たしている前記在庫配置量変更アクションを学習する、
 付記1に記載の在庫管理システム。
 (付記4)
 前記第1データ取得部は、在庫回転率および輸送費の経営目標値を示す経営目標情報をさらに取得し、
 前記モデル生成部は、前記第1データ取得部が取得した前記在庫配置量変更情報、前記PSI計画実績情報、前記需要量情報、前記輸送費実績情報、前記在庫保管リソース占有率情報、および、前記経営目標情報を学習データとして、在庫回転率および輸送費の経営目標達成率を向上させ、または、在庫回転率および輸送費の経営目標達成率の悪化を抑え、かつ、各拠点における前記保管リソース占有率が許容値を満たしている前記在庫配置量変更アクションを学習する、
 付記3に記載の在庫管理システム。
 (付記5)
 前記在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のPSIの計画および実績を示すPSI計画実績情報、ならびに、前記PSIに計上されていない前記物品の需要量を示す需要量情報を取得する第1データ取得部と、
 前記第1データ取得部が取得した前記在庫配置量変更情報、前記PSI計画実績情報および前記需要量情報を学習データとして、前記在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成部と、
 を備える学習装置。
 (付記6)
 在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のPSIの計画および実績を示すPSI計画実績情報、ならびに、前記PSIに計上されていない前記物品の需要量を示す需要量情報を学習データとして、前記在庫配置量変更アクションを学習して生成された学習済モデルを用いて、前記在庫配置量変更アクションを推論する推論装置であって、
 前記PSI計画実績情報および前記需要量情報を取得する第2データ取得部と、
 前記第2データ取得部が取得した前記PSI計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論部と、
 前記推論部が得た前記在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する出力部と、
 を備える推論装置。
 (付記7)
 学習装置が実行する、
 在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のPSIの計画および実績を示すPSI計画実績情報、ならびに、前記PSIに計上されていない前記物品の需要量を示す需要量情報を取得する第1データ取得ステップと、
 前記第1データ取得ステップで取得した前記在庫配置量変更情報、前記PSI計画実績情報および前記需要量情報を学習データとして、前記在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成ステップと、
 推論装置が実行する、
 前記PSI計画実績情報および前記需要量情報を取得する第2データ取得ステップと、
 前記第2データ取得ステップで取得した前記PSI計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論ステップと、
 を有する在庫管理方法。
 (付記8)
 コンピュータを、
 在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のPSIの計画および実績を示すPSI計画実績情報、ならびに、前記PSIに計上されていない前記物品の需要量を示す需要量情報を取得する第1データ取得部と、
 前記第1データ取得部が取得した前記在庫配置量変更情報、前記PSI計画実績情報および前記需要量情報を学習データとして、各拠点における前記物品の在庫配置量の変更アクションを学習して学習済モデルを生成するモデル生成部、
 として機能させるプログラム。
 (付記9)
 在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のPSIの計画および実績を示すPSI計画実績情報、ならびに、前記PSIに計上されていない前記物品の需要量を示す需要量情報を学習データとして、前記在庫配置量変更アクションを学習して生成された学習済モデルを用いて、各拠点における前記在庫配置量変更アクションを推論するコンピュータを、
 前記PSI計画実績情報および前記需要量情報を取得する第2データ取得部と、
 前記第2データ取得部が取得した前記PSI計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論部、
 として機能させるプログラム。
 なお、本開示は、本開示の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この開示を説明するためのものであり、本開示の範囲を限定するものではない。即ち、本開示の範囲は、実施の形態ではなく、請求の範囲によって示される。そして、請求の範囲内及びそれと同等の開示の意義の範囲内で施される様々な変形が、この開示の範囲内とみなされる。
 本出願は、2022年6月16日に出願された、日本国特許出願特願2022-97333号に基づく。本明細書中に日本国特許出願特願2022-97333号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。
 1 学習装置、2 生産管理システム、3 学習済モデル記憶部、4 推論装置、11 データ取得部、12 モデル生成部、41 データ取得部、42 推論部、43 出力部、100 在庫管理システム、101 一時記憶部、102 記憶部、103 計算部、104 入力部、105 送受信部、106 表示部、121 報酬計算部、122 関数更新部。

Claims (9)

  1.  学習装置および推論装置を備える在庫管理システムであって、
     前記学習装置は、
     在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のPSI(Production Sales Inventory)の計画および実績を示すPSI計画実績情報、ならびに、前記PSIに計上されていない前記物品の需要量を示す需要量情報を取得する第1データ取得部と、
     前記第1データ取得部が取得した前記在庫配置量変更情報、前記PSI計画実績情報および前記需要量情報を学習データとして、前記在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成部と、
     を有し、
     前記推論装置は、
     前記PSI計画実績情報および前記需要量情報を取得する第2データ取得部と、
     前記第2データ取得部が取得した前記PSI計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論部と、
     前記推論部が得た前記在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する出力部と、
     を有する在庫管理システム。
  2.  前記モデル生成部は、前記第1データ取得部が取得した前記在庫配置量変更情報、前記PSI計画実績情報および前記需要量情報を学習データとして、在庫回転率が向上する、あるいは、在庫回転率の悪化を最小限に抑える、前記在庫配置量変更アクションを学習する、
     請求項1に記載の在庫管理システム。
  3.  前記第1データ取得部は、前記在庫配置量変更アクションによる輸送費の実績を示す輸送費実績情報、および、各拠点の製品の在庫の保管リソース占有率を示す在庫保管リソース占有率情報をさらに取得し、
     前記モデル生成部は、前記第1データ取得部が取得した前記在庫配置量変更情報、前記PSI計画実績情報、前記需要量情報、前記輸送費実績情報、および、在庫保管リソース占有率情報を学習データとして、在庫回転率を向上させ、または、在庫回転率の悪化を抑え、かつ、輸送費を抑え、かつ、各拠点における前記保管リソース占有率が許容値を満たしている前記在庫配置量変更アクションを学習する、
     請求項1に記載の在庫管理システム。
  4.  前記第1データ取得部は、在庫回転率および輸送費の経営目標値を示す経営目標情報をさらに取得し、
     前記モデル生成部は、前記第1データ取得部が取得した前記在庫配置量変更情報、前記PSI計画実績情報、前記需要量情報、前記輸送費実績情報、前記在庫保管リソース占有率情報、および、前記経営目標情報を学習データとして、在庫回転率および輸送費の経営目標達成率を向上させ、または、在庫回転率および輸送費の経営目標達成率の悪化を抑え、かつ、各拠点における前記保管リソース占有率が許容値を満たしている前記在庫配置量変更アクションを学習する、
     請求項3に記載の在庫管理システム。
  5.  在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のPSIの計画および実績を示すPSI計画実績情報、ならびに、前記PSIに計上されていない前記物品の需要量を示す需要量情報を取得する第1データ取得部と、
     前記第1データ取得部が取得した前記在庫配置量変更情報、前記PSI計画実績情報および前記需要量情報を学習データとして、前記在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成部と、
     を備える学習装置。
  6.  在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のPSIの計画および実績を示すPSI計画実績情報、ならびに、前記PSIに計上されていない前記物品の需要量を示す需要量情報を学習データとして、前記在庫配置量変更アクションを学習して生成された学習済モデルを用いて、前記在庫配置量変更アクションを推論する推論装置であって、
     前記PSI計画実績情報および前記需要量情報を取得する第2データ取得部と、
     前記第2データ取得部が取得した前記PSI計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論部と、
     前記推論部が得た前記在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する出力部と、
     を備える推論装置。
  7.  学習装置が実行する、
     在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のPSIの計画および実績を示すPSI計画実績情報、ならびに、前記PSIに計上されていない前記物品の需要量を示す需要量情報を取得する第1データ取得ステップと、
     前記第1データ取得ステップで取得した前記在庫配置量変更情報、前記PSI計画実績情報および前記需要量情報を学習データとして、前記在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成ステップと、
     推論装置が実行する、
     前記PSI計画実績情報および前記需要量情報を取得する第2データ取得ステップと、
     前記第2データ取得ステップで取得した前記PSI計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論ステップと、
     を有する在庫管理方法。
  8.  コンピュータを、
     在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のPSIの計画および実績を示すPSI計画実績情報、ならびに、前記PSIに計上されていない前記物品の需要量を示す需要量情報を取得する第1データ取得部と、
     前記第1データ取得部が取得した前記在庫配置量変更情報、前記PSI計画実績情報および前記需要量情報を学習データとして、各拠点における前記物品の在庫配置量の変更アクションを学習して学習済モデルを生成するモデル生成部、
     として機能させるプログラム。
  9.  在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のPSIの計画および実績を示すPSI計画実績情報、ならびに、前記PSIに計上されていない前記物品の需要量を示す需要量情報を学習データとして、前記在庫配置量変更アクションを学習して生成された学習済モデルを用いて、各拠点における前記在庫配置量変更アクションを推論するコンピュータを、
     前記PSI計画実績情報および前記需要量情報を取得する第2データ取得部と、
     前記第2データ取得部が取得した前記PSI計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論部、
     として機能させるプログラム。
PCT/JP2023/012538 2022-06-16 2023-03-28 在庫管理システム、学習装置、推論装置、在庫管理方法およびプログラム WO2023243178A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022097333 2022-06-16
JP2022-097333 2022-06-16

Publications (1)

Publication Number Publication Date
WO2023243178A1 true WO2023243178A1 (ja) 2023-12-21

Family

ID=89192550

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/012538 WO2023243178A1 (ja) 2022-06-16 2023-03-28 在庫管理システム、学習装置、推論装置、在庫管理方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2023243178A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266735A (ja) * 1993-03-16 1994-09-22 Hitachi Ltd 情報処理方法および装置
JPH08147568A (ja) * 1994-11-21 1996-06-07 Olympus Optical Co Ltd 自動出荷方法及び装置
JP2019211870A (ja) * 2018-05-31 2019-12-12 株式会社日立ソリューションズ東日本 在庫管理装置および在庫管理方法
JP2020091648A (ja) * 2018-12-05 2020-06-11 株式会社日立製作所 管理装置および管理方法
EP3757915A1 (en) * 2019-06-27 2020-12-30 Tata Consultancy Services Limited Method and system for adaptive inventory replenishment
JP2021174452A (ja) * 2020-04-30 2021-11-01 株式会社日立ソリューションズ東日本 発注支援装置および発注支援方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266735A (ja) * 1993-03-16 1994-09-22 Hitachi Ltd 情報処理方法および装置
JPH08147568A (ja) * 1994-11-21 1996-06-07 Olympus Optical Co Ltd 自動出荷方法及び装置
JP2019211870A (ja) * 2018-05-31 2019-12-12 株式会社日立ソリューションズ東日本 在庫管理装置および在庫管理方法
JP2020091648A (ja) * 2018-12-05 2020-06-11 株式会社日立製作所 管理装置および管理方法
EP3757915A1 (en) * 2019-06-27 2020-12-30 Tata Consultancy Services Limited Method and system for adaptive inventory replenishment
JP2021174452A (ja) * 2020-04-30 2021-11-01 株式会社日立ソリューションズ東日本 発注支援装置および発注支援方法

Similar Documents

Publication Publication Date Title
Shen A profit-maximizing supply chain network design model with demand choice flexibility
US7921061B2 (en) System and method for simultaneous price optimization and asset allocation to maximize manufacturing profits
Gavirneni Benefits of co-operation in a production distribution environment
Li et al. Pricing decisions during inter‐generational product transition
US11321650B2 (en) System and method for concurrent dynamic optimization of replenishment decision in networked node environment
US20120054076A1 (en) Systems And Methods For Multi-Echelon Inventory Planning With Lateral Transshipment
Kutanoglu Insights into inventory sharing in service parts logistics systems with time-based service levels
Soman et al. Comparison of dynamic scheduling policies for hybrid make-to-order and make-to-stock production systems with stochastic demand
Sargut et al. Dynamic economic lot size model with perishable inventory and capacity constraints
Xiao et al. A reduced variable neighborhood search algorithm for uncapacitated multilevel lot-sizing problems
CN113762885B (zh) 补货量确定方法、装置、设备、存储介质及程序产品
US10776803B2 (en) Computerized promotion and markdown price scheduling
US11687875B2 (en) Distribution-independent inventory approach under multiple service level targets
Chiaramonte et al. An agent-based nurse rostering system under minimal staffing conditions
Ahmadi-Javid et al. Service system design for managing interruption risks: A backup-service risk-mitigation strategy
US20180268352A1 (en) Method and system for retail stock allocation
Buchbinder et al. Online make-to-order joint replenishment model: primal dual competitive algorithms
JP2021060646A (ja) 在庫管理装置、在庫管理システム、在庫管理方法およびプログラム
WO2023243178A1 (ja) 在庫管理システム、学習装置、推論装置、在庫管理方法およびプログラム
Li et al. Construct the stable vendor managed inventory partnership through a profit-sharing approach
Çömez-Dolgan et al. Capacitated assortment planning of a multi-location system under transshipments
US20150302330A1 (en) Automated Job Assignment to Service Providers
Bahroun et al. Flexible decision support tool for dynamic single machine scheduling problems
CN116029471A (zh) 一种基于CVaR的第四方物流路径优化方法
Sirovich et al. An intelligent fashion replenishment system based on data analytics and expert judgment

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23823482

Country of ref document: EP

Kind code of ref document: A1