WO2023243178A1

WO2023243178A1 - 在庫管理システム、学習装置、推論装置、在庫管理方法およびプログラム

Info

Publication number: WO2023243178A1
Application number: PCT/JP2023/012538
Authority: WO
Inventors: 千徳前田; 慎太郎岡部
Original assignee: 三菱電機株式会社
Priority date: 2022-06-16
Filing date: 2023-03-28
Publication date: 2023-12-21

Abstract

在庫管理システム（１００）は、在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、物品のＰＳＩの計画および実績を示すＰＳＩ計画実績情報、ならびに、ＰＳＩに計上されていない物品の需要量を示す需要量情報を取得する第１データ取得部（１１）と、在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報を学習データとして、在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成部（１２）とを有する学習装置（１）と、第２データ取得部（４１）が取得するＰＳＩ計画実績情報および需要量情報を学習済モデルに入力して、在庫配置量変更アクションを得る推論部（４２）と、推論部（４２）が得た在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する出力部（４３）とを有する推論装置（４）とを備える。

Description

在庫管理システム、学習装置、推論装置、在庫管理方法およびプログラム

　本開示は、在庫管理システム、学習装置、推論装置、在庫管理方法およびプログラムに関する。

　企業活動において、各拠点および全体の在庫配置量をコントロールするために、過去の出荷実績を用いて需要を予測し、適切な在庫配置となるよう在庫の補充、拠点間の在庫の転送などが行われている。

　特許文献１には、医療機関又は調剤薬局で消化される医薬品の時系列的な消化特性から医薬品の補充を自動化することができる医薬品における適正在庫管理方法が開示されている。

特開２００４－２８４６８９号公報

　特許文献１に記載の技術では、在庫計画を立てる際に、過去実績のみを用いて先々の需要を予測しているので、需要増減への追従が後追いとなり販売機会損失、過剰在庫などが発生する可能性がある。

　本開示は、上記のような問題点を解決するためになされたものであり、販売機会損失、過剰在庫などを抑制する、より適切な在庫配置を可能にすることを目的とするものである。

　上記目的を達成するため、本開示に係る在庫管理システムは、学習装置および推論装置を備える。学習装置は、第１データ取得部と、モデル生成部とを有する。第１データ取得部は、在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、物品のＰＳＩ（Production Sales Inventory）の計画および実績を示すＰＳＩ計画実績情報、ならびに、ＰＳＩに計上されていない物品の需要量を示す需要量情報を取得する。モデル生成部は、第１データ取得部が取得した在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報を学習データとして、在庫配置量変更アクションを学習して学習済モデルを生成する。推論装置は、第２データ取得部と、推論部と、出力部とを備える。第２データ取得部は、ＰＳＩ計画実績情報および需要量情報を取得する。推論部は、第２データ取得部が取得したＰＳＩ計画実績情報および需要量情報を学習済モデルに入力して、在庫配置量変更アクションを得る。出力部は、推論部が得た在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する。

　本開示によれば、在庫配置量変更情報およびＰＳＩ計画実績情報だけでなく、ＰＳＩに計上されていない物品の需要量を示す需要量情報を学習データに用いて、各拠点における物品の在庫配置量の変更アクションを学習した学習済モデルを生成することで、販売機会損失、過剰在庫などを抑制する、より適切な在庫配置が可能になる。

実施の形態１に係る在庫管理システムの構成例を示すブロック図実施の形態１に係る在庫配置量変更アクションを示す模式図実施の形態１に係る在庫配置量変更情報の一例を示す図実施の形態１に係るＰＳＩ計画実績情報に含まれるＰＳＩの計画の一例を示す図実施の形態１に係るＰＳＩ計画実績情報に含まれるＰＳＩの実績の一例を示す図実施の形態１に係る需要量情報の一例を示す図実施の形態１に係る学習装置の機能構成例を示すブロック図実施の形態１に係る学習処理１を示すフローチャート実施の形態１に係る推論処理を示すフローチャート実施の形態２に係る輸送費実績情報の一例を示す図実施の形態２に係る在庫保管リソース占有率情報の一例を示す図実施の形態２に係る学習処理２を示すフローチャート実施の形態１および２に係る学習装置および推論装置のハードウェア構成の一例を示す図

　以下に、本実施の形態に係る在庫管理システム、学習装置、推論装置、在庫管理方法およびプログラムについて図面を参照して詳細に説明する。なお、図中同一または相当する部分には同じ符号を付す。本実施の形態では、複数の拠点を有する企業の各拠点における製品の在庫配置量を管理する例について説明する。

（実施の形態１）
　実施の形態１に係る在庫管理システム１００の構成について、図１を用いて説明する。在庫管理システム１００は、各拠点における製品の在庫配置量の変更アクションによる在庫配置量の変更を示す在庫配置量変更情報、製品のＰＳＩの計画および実績を示すＰＳＩ計画実績情報、ならびに、製品の需要量を示す需要量情報を記憶する生産管理システム２と、在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報を学習データとして、各拠点における製品の在庫配置量の変更アクションを学習して学習済モデルを生成する学習装置１と、学習装置１が生成した学習済モデルを記憶する学習済モデル記憶部３と、学習済モデルを用いて、適切な在庫配置にするための各拠点における製品の在庫配置量の変更アクションを推論して出力する推論装置４と、を備える。以下、各拠点における製品の在庫配置量の変更アクションを、在庫配置量変更アクションと略す。

　在庫配置量変更アクションについて、図２を用いて説明する。在庫配置量変更アクションとは、図２に示す供給元の工場（例えば製品の生産工場）から供給先の拠点Ｂａ、拠点Ｂｂおよび拠点Ｂｃ（例えば販売会社の在庫管理拠点、生産工場が管理する全国の在庫管理拠点など）への在庫供給、および、供給先の拠点間での在庫転送のことである。工場から拠点に在庫が補給されることで工場の在庫は減少し、各拠点から代理店、エンドユーザなどに製品が販売されることで各拠点の在庫は減少する。また、工場で製品が生産または調達されることで、工場の在庫は増加し、工場から拠点に在庫が補給されることで拠点の在庫は増加する。

　在庫配置量変更情報について、図３を用いて説明する。図３に示すように在庫配置量変更情報は、供給元および供給先の在庫総量、供給元および供給先の在庫配置量の割合を含む。例えば製品Ｐａの供給元および供給先の在庫総量は１００個であって、供給元および供給先である工場、拠点Ｂａ、拠点Ｂｂおよび拠点Ｂｃの在庫配置量の割合はそれぞれ、５０％、２０％、２０％および１０％である。学習装置１は、在庫配置量変更アクションが行われる度に、在庫配置量変更情報を取得してもよいし、一定期間の在庫配置量変更情報をまとめて取得してもよい。

　ＰＳＩ計画実績情報について、図４および図５を用いて説明する。ＰＳＩ計画実績情報は、製品のＰＳＩの計画とＰＳＩの実績とを含む。図４は、ＰＳＩ計画実績情報に含まれる月別の製品のＰ（生産および調達）、Ｓ（出荷）、Ｉ（在庫）の計画を示す。Ｐ（生産および調達）はＩ（在庫）の増加であり、Ｓ（出荷）はＩ（在庫）の減少である。例えば、４月時点でのＰＳＩ計画におけるＰ（生産および調達）は１７台であり、Ｓ（出荷）は、１９台であり、Ｉ（在庫）は２０台である。１ヶ月先のＰ（生産および調達）は１１台であり、Ｓ（出荷）は、１４台であるので、Ｉ（在庫）は２０＋１１－１４＝１７台である。図５は、ＰＳＩ計画実績情報に含まれる月別の製品のＰ（生産および調達）、Ｓ（出荷）、Ｉ（在庫）の実績を示す。例えば、４月時点でのＰ（生産および調達）の実績は１３台であり、Ｓ（出荷）は、１７台であり、Ｉ（在庫）は１５台である。図４および図５では、製品のＰＳＩの計画および実績の単位を台数（台）としたが、これに限らず、例えば金額（円）であってもよい。

　需要量情報について、図６を用いて説明する。需要量情報は、まだＰＳＩに計上されていない製品の需要量を示す情報であり、供給先から供給元への在庫補充の依頼、代理店、エンドユーザなど（顧客）からの供給先への注文などがこれに該当する。

　図６の例では、需要量情報は、各製品の要求数量、要求元、要求先、要求日、要求納期および、要求日から要求納期までのリードタイムを含む。例えば、２０２２／１／２に、顧客Ｃａから拠点Ｂａへ、２０２２／１／１０の納期までに製品Ｐａが５台要求されている。要求日から要求納期までのリードタイムは８日である。

　図１に戻り、学習装置１は、生産管理システム２から在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報を取得するデータ取得部１１と、在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報を学習データとして、在庫配置量変更アクションを学習し、学習済モデルを生成するモデル生成部１２とを備える。データ取得部１１は、第１データ取得部の例である。

　モデル生成部１２は、例えば、在庫回転率が向上する、あるいは、在庫回転率の悪化を最小限に抑える在庫配置量変更アクションを学習する。この場合、モデル生成部１２によって生成された学習済モデルに、ＰＳＩ計画実績情報および需要量情報が入力されると、在庫回転率が向上する、あるいは、在庫回転率の悪化を最小限に抑える在庫配置量変更アクションが出力される。学習済モデルから出力された在庫配置量変更アクションを実行して全体および各拠点の在庫配置量を増減することにより、売上機会損失、過剰在庫などの発生を抑制することができる。この学習済モデルは、例えば、顧客からの要求リードタイムが短い要求が発生し、供給元（工場）からの供給が間に合わない場合に有効である。具体的には、日本の工場と欧州の各拠点がある場合に、日本の工場からの供給が間に合わなくても、欧州の拠点間で在庫の転送をすることで対応できる場合がある。

　また、各拠点に対する要求量に対するその拠点の在庫配置量について、拠点間で比較した場合に偏り（在庫過多、在庫不足など）があると、顧客全体および市場の要求に対して全体として在庫は足りていても拠点間の在庫偏在が発生し、売上機会損失、過剰在庫などに繋がる。これに対し、上記の学習済モデルを用いれば、拠点間の在庫偏在を解消し、売上機会損失、過剰在庫などの発生を抑えることができる。

　モデル生成部１２が用いる学習アルゴリズムには、教師あり学習、教師なし学習、強化学習（Ｒｅｉｎｆｏｒｃｅｍｅｎｔ　Ｌｅａｒｎｉｎｇ）などの公知のアルゴリズムを用いることができる。一例として、強化学習を適用した場合について説明する。強化学習では、ある環境内におけるエージェント（行動主体）が、現在の状態（環境のパラメータ）を観測し、取るべき行動を決定する。エージェントの行動により環境が動的に変化し、エージェントには環境の変化に応じて報酬が与えられる。エージェントはこれを繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針を学習する。強化学習の代表的な手法として、Ｑ学習（Ｑ－ｌｅａｒｎｉｎｇ）、ＴＤ学習（ＴＤ－ｌｅａｒｎｉｎｇ）などが知られている。例えば、Ｑ学習の場合、行動価値関数Ｑ（ｓ，ａ）の一般的な更新式は数１で表される。

　数１において、ｓ_ｔは時刻ｔにおける環境の状態を表し、ａ_ｔは時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔ＋１に変わる。ｒ_ｔ＋１はその状態の変化によってもらえる報酬を表し、γは割引率を表し、αは学習係数を表す。なお、γは０＜γ≦１、αは０＜α≦１の範囲とする。モデル生成部１２が強化学習を用いる場合、行動ａ_ｔは、在庫配置量変更アクションであり、ＰＳＩの計画および実績と、製品の需要量とが状態ｓ_ｔである。モデル生成部１２は、時刻ｔの状態ｓ_ｔにおける最良の行動ａ_ｔを学習する。

　数１で表される更新式は、時刻ｔ＋１において最もＱ値の高い行動ａの行動価値Ｑが、時刻ｔにおいて実行された行動ａの行動価値Ｑよりも大きければ、行動価値Ｑを大きくし、逆の場合は、行動価値Ｑを小さくする。換言すれば、時刻ｔにおける行動ａの行動価値Ｑを、時刻ｔ＋１における最良の行動価値に近づける行動価値関数Ｑ（ｓ，ａ）に更新する。これにより、ある環境における最良の行動価値が、それ以前の環境における行動価値に順次伝播していく。

　強化学習によって学習済モデルを生成する場合、図７に示すように、モデル生成部１２は、報酬計算部１２１と、関数更新部１２２と、を備える。

　報酬計算部１２１は、在庫配置量情報が示す在庫配置量変更アクションと、ＰＳＩ計画実績情報が示すＰＳＩ計画およびＰＳＩの実績と、需要量情報が示す製品の要求量とに基づいて報酬を計算する。報酬計算部１２１は、在庫回転率の変化に基づいて、報酬ｒを計算する。例えば、在庫回転率の向上の場合には報酬ｒを増大させる（例えば「１」の報酬を与える）。在庫回転率の悪化の場合には報酬ｒを低減させる（例えば「－１」の報酬を与える）。例えば、年間の在庫回転率は「年間の出荷量÷在庫量」で計算されるため、報酬を増大させる方法は「出荷量を増やし、在庫量を維持または減らす」、「出荷量を維持し、在庫量を減らす」、「出荷量を増やし、それよりも少なく在庫量を増やす」、および、「出荷量を減らし、それよりも多く在庫量を減らす」の４つがある。

　関数更新部１２２は、報酬計算部１２１によって計算された報酬に従って、入力された状態に対して報酬が最大化される在庫配置量変更アクションを決定するための関数を更新する。例えば、Ｑ学習の場合、数１で表される行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を、入力された状態に対して報酬が最大化される在庫配置量変更アクションを算出するための関数として用いる。

　モデル生成部１２は、学習終了条件を満たすまで、上記の学習を繰り返し実行する。学習終了条件としては、例えば、状態ｓ_ｔが終端状態になるか、予め決められた回数繰り替えしたときに学習を終了する。学習が終了すると、学習済モデル記憶部３は、関数更新部１２２によって更新された行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）、すなわち、学習済モデルを記憶する。

　上記の説明では、学習装置１は、生成した学習済モデルを外部に設けられた学習済モデル記憶部３に記憶するものとしたが、学習済モデル記憶部３を学習装置１の内部に備えていてもよい。あるいは、在庫管理システム１００の外部のシステムまたは装置に学習済モデル記憶部３を構成してもよい。

　図１に戻り、推論装置４は、生産管理システム２からＰＳＩ計画実績情報および需要量情報を取得するデータ取得部４１と、ＰＳＩ計画実績情報および需要量情報を学習済モデル記憶部３が記憶する学習済モデルに入力して、在庫配置量変更アクションを推論する推論部４２と、推論部４２が推論した在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する出力部４３とを備える。データ取得部４１は、第２データ取得部の例である。

　推論部４２は、学習済モデル記憶部３が記憶する学習済モデルに、データ取得部４１が取得したＰＳＩ計画実績情報および需要量情報を入力して、在庫配置量変更アクションを得る。出力部４３は、推論部４２が学習済モデルから得た在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する。在庫配置量変更アクション情報の出力方法は、例えば、画面表示でもよいし、音声出力でもよいし、ユーザが使用する端末に送信してもよい。

　上記の説明では、推論装置４は、外部に設けられた学習済モデル記憶部３が記憶する学習済モデルを用いたが、学習済モデル記憶部３を推論装置４の内部に備えていてもよい。

　上述のとおり、在庫管理システム１００が行う処理には、在庫配置量変更アクションを学習する学習フェーズと、学習済モデルを用いて在庫配置量変更アクションを推論する活用フェーズとがある。

　ここで、学習フェーズで学習装置１が実行する学習処理１の流れについて、図８を用いて説明する。図８に示す学習処理１は、学習アルゴリズムとして強化学習を適用した場合の学習処理の例である。学習処理１は、学習装置１に電源が投入された時に開始する。学習装置１のデータ取得部１１が生産管理システム２から学習に必要な在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報を取得していない場合（ステップＳ１１；ＮＯ）、処理はステップＳ１８に移行する。

　データ取得部１１が生産管理システム２から学習に必要な在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報を取得した場合（ステップＳ１１；ＹＥＳ）、モデル生成部１２の報酬計算部１２１は、在庫配置量情報が示す在庫配置量変更アクションと、ＰＳＩ計画実績情報が示すＰＳＩ計画およびＰＳＩの実績と、需要量情報が示す製品の要求量とに基づいて、在庫配置量変更アクションによって在庫回転率が向上したか否かを判定する（ステップＳ１２）。ステップＳ１１は、第１データ取得ステップの例である。

　在庫配置量変更アクションによって在庫回転率が向上した場合（ステップＳ１２；ＹＥＳ）、報酬計算部１２１は、報酬ｒを増大させる（ステップＳ１３）。ステップＳ１３で、報酬計算部１２１は、例えば「１」の報酬を与える。在庫配置量変更アクションによって在庫回転率が悪化した場合（ステップＳ１２；ＮＯ）、報酬計算部１２１は、報酬ｒを低減させる（ステップＳ１４）。ステップＳ１４で、報酬計算部１２１は、例えば「－１」の報酬を与える。

　モデル生成部１２の関数更新部１２２は、報酬計算部１２１によって計算された報酬に従って、入力された状態に対する在庫配置量変更アクションを決定するための関数を更新する（ステップＳ１５）。例えば、Ｑ学習の場合、数１で表される行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を、入力された状態に対して報酬が最大化される在庫配置量変更アクションを算出するための関数として用いる。

　モデル生成部１２は、学習終了条件を満たしたか否かを判定する（ステップＳ１６）。学習終了条件を満たしていなければ（ステップＳ１６；ＮＯ）、処理はステップＳ１２に戻り、ステップＳ１２～ステップＳ１６を繰り返す。学習終了条件を満たした場合（ステップＳ１６；ＹＥＳ）、学習済モデル記憶部３は、関数更新部１２２によって更新された行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）、すなわち、学習済モデルを記憶する（ステップＳ１７）。学習終了条件には、例えば、状態ｓ_ｔが終端状態になる、繰り返し回数が予め決められた回数を超える、などがある。ステップＳ１２～ステップＳ１６は、モデル生成ステップの例である。

　学習装置１の電源がＯＦＦになっていない場合（ステップＳ１８；ＮＯ）、処理はステップＳ１１に戻り、ステップＳ１１～ステップＳ１８を繰り返す。学習装置１の電源がＯＦＦになった場合（ステップＳ１８；ＹＥＳ）、処理を終了する。

　図８に示すフローチャートでは、データ取得部１１が生産管理システム２から学習に必要な在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報を取得すると在庫配置量変更アクションの学習を開始するが、これに限らない。例えば、ユーザが指定したタイミングで在庫配置量変更アクションの学習を開始して、学習済モデルを生成する構成にしてもよい。

　続いて、活用フェーズで推論装置４が実行する推論処理の流れについて、図９を用いて説明する。図９に示す推論処理は、推論装置４に電源が投入された時に開始する。推論装置４のデータ取得部４１が生産管理システム２からＰＳＩ計画実績情報および需要量情報を取得しない場合（ステップＳ２１；ＮＯ）、処理はステップＳ２５に移行する。データ取得部４１が生産管理システム２からＰＳＩ計画実績情報および需要量情報を取得した場合（ステップＳ２１；ＹＥＳ）、推論部４２は、ＰＳＩ計画実績情報および需要量情報を学習済モデル記憶部３が記憶する学習済モデルに入力し（ステップＳ２２）、在庫配置量変更アクションを得る（ステップＳ２３）。ステップＳ２１は、第２データ取得ステップの例である。ステップＳ２２およびステップＳ２３は、推論ステップの例である。出力部４３は、推論部４２が得た在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する（ステップＳ２４）。在庫配置量変更アクション情報の出力方法は、例えば、画面表示でもよいし、音声出力でもよいし、ユーザが使用する端末に送信してもよい。

　推論装置４の電源がＯＦＦになっていない場合（ステップＳ２５；ＮＯ）、処理はステップＳ２１に戻り、ステップＳ２１～ステップＳ２５を繰り返す。推論装置４の電源がＯＦＦになった場合（ステップＳ２５；ＹＥＳ）、処理を終了する。

　実施の形態１に係る在庫管理システム１００によれば、在庫配置量変更情報およびＰＳＩ計画実績情報だけでなく、ＰＳＩに計上されていない製品の需要量を示す需要量情報を学習データに用いて、各拠点における製品の在庫配置量の変更アクションを学習した学習済モデルを生成することで、販売機会損失、過剰在庫などを抑制する、より適切な在庫配置が可能になる。

（実施の形態２）
　実施の形態２の在庫管理システム１００の構成と、推論装置４の機能構成とは、実施の形態１と同様である。実施の形態２では、学習装置１は、在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報に加え、在庫配置量変更アクションによる輸送費の実績を示す輸送費実績情報、および、各拠点の製品の在庫の保管リソース占有率を示す在庫保管リソース占有率情報を学習データとして、各拠点における製品の在庫配置量の変更アクションを学習して学習済モデルを生成する。

　輸送費実績情報について、図１０を用いて説明する。図１０に示すように輸送費実績情報は、各製品の輸送日、輸送元、輸送先、および、輸送費を含む。例えば製品Ｐａが、２０２２／１／２に拠点Ｂａから顧客Ｃａまで輸送された際の輸送費は１０，０００円である。

　在庫保管リソース占有率情報について、図１１を用いて説明する。図１１に示すように在庫保管リソース占有率情報は、日付と、その日付における各拠点の製品の在庫が保管リソースを占有している率である保管リソース占有率とを含む。例えば２０２２／１／２における拠点Ｂａの保管リソース占有率は９０％である。保管リソース占有率は例えば定期的に算出されるものとする。

　学習装置１のデータ取得部１１は、生産管理システム２から、在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報、輸送費実績情報および在庫保管リソース占有率情報を取得する。モデル生成部１２は、在庫配置量変更情報、ＰＳＩ計画実績情報、需要量情報、輸送費実績情報、および、在庫保管リソース占有率情報を学習データとして、在庫配置量変更アクションを学習し、学習済モデルを生成する。モデル生成部１２は、生成した学習済モデルを学習済モデル記憶部３に記憶する。

　モデル生成部１２は、在庫回転率を向上させ、または、在庫回転率の悪化を抑え、かつ、輸送費を抑え、かつ、各拠点における保管リソース占有率が許容値（例えば９０％）を満たしている在庫配置量変更アクションを学習する。この場合、モデル生成部１２によって生成された学習済モデルに、ＰＳＩ計画実績情報、需要量情報、輸送費実績情報、および、在庫保管リソース占有率情報が入力されると、在庫回転率を向上させ、または、在庫回転率の悪化を抑え、かつ、輸送費を抑え、かつ、各拠点における保管リソース占有率が許容値を満たしている在庫配置量変更アクションが出力される。学習済モデルから出力された在庫配置量変更アクションを実行して全体および各拠点の在庫配置量を増減することにより、各拠点における保管リソース占有率が許容値を越えることなく、売上機会損失、過剰在庫などの発生を抑制することができ、かつ、輸送費を抑えることができる。この学習済モデルは、例えば、顧客からの要求リードタイムが短い要求が発生し、供給元（工場）からの供給が間に合わない場合に有効である。具体的には、日本の工場と欧州の各拠点がある場合に、日本の工場からの供給が間に合わなくても、欧州の拠点間で在庫の転送をすることで対応できる場合がある。

　また、各拠点に対する要求量に対するその拠点の在庫配置量について、拠点間で比較した場合に偏り（在庫過多、在庫不足など）があると、顧客全体および市場の要求に対して全体として在庫は足りていても拠点間の在庫偏在が発生し、売上機会損失、過剰在庫などに繋がる。これに対し、上記の学習済モデルを用いれば、拠点間の在庫偏在を解消し、売上機会損失、過剰在庫などの発生を抑えることができ、かつ、輸送費を抑え、保管リソース占有率が許容値を越えてしまうことを防ぐことができる。

　モデル生成部１２が用いる学習アルゴリズムには、実施の形態１と同様に、教師あり学習、教師なし学習、強化学習などの公知のアルゴリズムを用いることができる。これらの学習アルゴリズムにおいて、各拠点における保管リソース占有率が許容値を超えないことを制約条件とする。

　例えば、モデル生成部１２がＱ学習を用いる場合、行動ａ_ｔは、在庫配置量変更アクションであり、ＰＳＩの計画および実績と、製品の需要量と、輸送費とが状態ｓ_ｔであり、保管リソース占有率が許容値を超えないことが制約条件である。モデル生成部１２は、制約条件を満たす時刻ｔの状態ｓ_ｔにおける最良の行動ａ_ｔを学習する。

　実施の形態２では、報酬ｒを２つの報酬ｒ_１および報酬ｒ_２から算出する。例えば、在庫配置量変更アクションによって在庫回転率が向上する場合には報酬ｒ_１を増大させる。在庫配置量変更アクションによって在庫回転率が悪化する場合には報酬ｒ_１を低減させる。在庫配置量変更アクションによる輸送費の合計が閾値以下である場合には報酬ｒ_２を増大させる。在庫配置量変更アクションによる輸送費の合計が閾値より高い場合には報酬ｒ_２を低減させる。報酬ｒ_２を増大させるか否かを判定する閾値と、報酬ｒ_２を低減させるか否かを判定する閾値とは異なってもよい。報酬ｒ＝ｒ_１＋ｒ_２である。あるいは、報酬ｒ_１および報酬ｒ_２に重み付けをしてもよい。この場合、報酬ｒ＝ｗ_１ｒ_１＋ｗ_２ｒ_２とする。その他の学習装置１の機能は実施の形態１と同様である。

　ここで、学習フェーズで学習装置１が実行する学習処理２の流れについて、図１２を用いて説明する。図１２に示す学習処理２は、学習アルゴリズムとして強化学習を適用した場合の学習処理の例である。学習処理１は、学習装置１に電源が投入された時に開始する。学習装置１のデータ取得部１１が生産管理システム２から学習に必要な在庫配置量変更情報、ＰＳＩ計画実績情報、需要量情報、輸送費実績情報および在庫保管リソース占有率情報を取得していない場合（ステップＳ３１；ＮＯ）、処理はステップＳ４３に移行する。

　データ取得部１１が生産管理システム２から学習に必要な在庫配置量変更情報、ＰＳＩ計画実績情報、需要量情報、輸送費実績情報および在庫保管リソース占有率情報を取得した場合（ステップＳ３１；ＹＥＳ）、モデル生成部１２の報酬計算部１２１は、在庫保管リソース占有率情報が示す保管リソース占有率に基づいて、在庫配置量変更アクションが制約条件（保管リソース占有率が許容値を超えないこと）を満たしているか否かを判定する（ステップＳ３２）。在庫配置量変更アクションが制約条件を満たしていない場合（ステップＳ３２；ＮＯ）、処理はステップＳ４１に移行する。在庫配置量変更アクションが制約条件を満たしている場合（ステップＳ３２；ＹＥＳ）、モデル生成部１２の報酬計算部１２１は、在庫配置量情報が示す在庫配置量変更アクションと、ＰＳＩ計画実績情報が示すＰＳＩ計画およびＰＳＩの実績と、需要量情報が示す製品の要求量とに基づいて、在庫配置量変更アクションによって在庫回転率が向上したか否かを判定する（ステップＳ３３）。

　在庫配置量変更アクションによって在庫回転率が向上した場合（ステップＳ３３；ＹＥＳ）、報酬計算部１２１は、報酬ｒ_１を増大させる（ステップＳ３４）。在庫配置量変更アクションによって在庫回転率が悪化した場合（ステップＳ３３；ＮＯ）、報酬計算部１２１は、報酬ｒ_１を低減させる（ステップＳ３５）。

　モデル生成部１２の報酬計算部１２１は、在庫配置量情報が示す在庫配置量変更アクションと、ＰＳＩ計画実績情報が示すＰＳＩ計画およびＰＳＩの実績と、需要量情報が示す製品の要求量と、輸送費実績情報とに基づいて、在庫配置量変更アクションによる輸送費の合計が閾値以下であるか否かを判定する（ステップＳ３６）。

　在庫配置量変更アクションによる輸送費の合計が閾値以下である場合（ステップＳ３６；ＹＥＳ）、報酬計算部１２１は、報酬ｒ_２を増大させる（ステップＳ３７）。在庫配置量変更アクションによる輸送費の合計が閾値より大きい場合（ステップＳ３６；ＮＯ）、報酬計算部１２１は、報酬ｒ_２を低減させる（ステップＳ３８）。報酬計算部１２１は、報酬ｒ１および報酬ｒ２に基づいて、報酬ｒを算出する（ステップＳ３９）。報酬ｒ＝ｒ_１＋ｒ_２である。報酬ｒ_１および報酬ｒ_２に重み付けをする場合、報酬ｒ＝ｗ_１ｒ_１＋ｗ_２ｒ_２を算出する。

　モデル生成部１２の関数更新部１２２は、報酬計算部１２１によって計算された報酬に従って、入力された状態に対する在庫配置量変更アクションを決定するための関数を更新する（ステップＳ４０）。例えば、Ｑ学習の場合、数１で表される行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を、入力された状態に対して報酬が最大化される在庫配置量変更アクションを算出するための関数として用いる。

　モデル生成部１２は、学習終了条件を満たしたか否かを判定する（ステップＳ４１）。学習終了条件を満たしていなければ（ステップＳ４１；ＮＯ）、処理はステップＳ３２に戻り、ステップＳ３２～ステップＳ４１を繰り返す。学習終了条件を満たした場合（ステップＳ４１；ＹＥＳ）、学習済モデル記憶部３は、関数更新部１２２によって更新された行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）、すなわち、学習済モデルを記憶する（ステップＳ４２）。学習終了条件には、例えば、状態ｓ_ｔが終端状態になる、繰り返し回数が予め決められた回数を超える、などがある。ステップＳ３２～ステップＳ３６は、モデル生成ステップの例である。

　学習装置１の電源がＯＦＦになっていない場合（ステップＳ４３；ＮＯ）、処理はステップＳ３１に戻り、ステップＳ３１～ステップＳ４３を繰り返す。学習装置１の電源がＯＦＦになった場合（ステップＳ４３；ＹＥＳ）、処理を終了する。

　図１２に示すフローチャートでは、データ取得部１１が生産管理システム２から学習に必要な在庫配置量変更情報、ＰＳＩ計画実績情報、需要量情報、輸送費実績情報および在庫保管リソース占有率情報を取得すると在庫配置量変更アクションの学習を開始するが、これに限らない。例えば、ユーザが指定したタイミングで在庫配置量変更アクションの学習を開始して、学習済モデルを生成する構成にしてもよい。

　実施の形態２に係る在庫管理システム１００によれば、在庫配置量変更情報およびＰＳＩ計画実績情報だけでなく、ＰＳＩに計上されていない製品の需要量を示す需要量情報を学習データに用いて、各拠点における製品の在庫配置量の変更アクションを学習した学習済モデルを生成することで、拠点間の在庫偏在を解消し、売上機会損失、過剰在庫などの発生を抑えることができ、かつ、輸送費を抑え、保管リソース占有率が許容値を越えてしまうことを防ぐことができ、より適切な在庫配置が可能になる。

　上記の実施の形態１および２では、学習装置１のデータ取得部１１および推論装置４のデータ取得部４１は、共にＰＳＩの計画および実績を含むＰＳＩ計画実績情報を取得したが、これに限らない。例えば、学習装置１のデータ取得部１１は、ＰＳＩの実績を示すＰＳＩ実績情報を取得し、推論装置４のデータ取得部４１は、ＰＳＩの計画を示すＰＳＩ計画情報を取得してもよい。この場合、学習装置１のモデル生成部１２は、ＰＳＩ実績情報および需要量情報を学習データとして、在庫配置量変更アクションを学習して学習済モデルを生成し、推論装置４の推論部４２は、ＰＳＩ計画情報および需要量情報を学習済モデル記憶部３が記憶する学習済モデルに入力して、在庫配置量変更アクションを推論する。

　上記の実施の形態１および２では、在庫管理システム１００は、学習装置１および推論装置４を備え、推論装置４は、学習装置１が生成した学習済モデルを用いて在庫配置量変更アクションを推論したが、これに限らない。推論装置４は、その他のシステムまたは装置から学習済モデルを取得し、取得した学習済モデルを用いて在庫配置量変更アクションを推論してもよい。

　上記の実施の形態１および２では、モデル生成部１２に用いられる学習アルゴリズムに強化学習を適用した場合について説明したが、これに限られるものではない。学習アルゴリズムについては、強化学習以外にも、教師あり学習、教師なし学習、又は半教師あり学習等を適用することも可能である。また、モデル生成部１２に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する、深層学習（Ｄｅｅｐ　Ｌｅａｒｎｉｎｇ）を用いることもでき、モデル生成部１２は、他の公知の方法、例えばニューラルネットワーク、機能論理プログラミングなどに従って機械学習を実行してもよい。

　上記の実施の形態１および２では、学習装置１および推論装置４は、在庫管理システム１００に含まれるが、学習装置１および推論装置４は、それぞれ別個の装置であってもよいし、クラウドサーバ上に存在していてもよい。

　上記の実施の形態１では、学習装置１のデータ取得部１１は、在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報を、推論装置４のデータ取得部４１は、ＰＳＩ計画実績情報および需要量情報を、生産管理システム２から取得したが、これに限らない。例えば、その他のシステムまたは装置から取得してもよいし、ユーザが直接入力してもよい。実施の形態２についても同様に、学習装置１のデータ取得部１１は、在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報、輸送費実績情報および在庫保管リソース占有率情報を、例えば、その他のシステムまたは装置から取得してもよいし、ユーザが直接入力してもよい。

　上記の実施の形態１および２では、モデル生成部１２は、生産管理システム２から取得される学習用データを用いて、在庫配置量変更アクションを学習するが、同一のエリアで使用される関連する複数の生産管理システム２から学習用データを取得してもよいし、異なるエリアで独立して動作する複数の生産管理システム２から収集された学習用データを取得してもよい。また、学習用データを収集する生産管理システム２を途中で対象に追加したり、対象から除去したりできる構成にしてもよい。さらに、ある在庫管理システム１００に関して在庫配置量の変更アクションを学習した学習装置１を、別の在庫管理システムに適用し、当該別の在庫管理システムに関して在庫配置量変更アクションを再学習して更新する構成にしてもよい。

　上記の実施の形態１および２では、複数の拠点を有する企業の各拠点における製品の在庫配置量を管理する例について説明したが、製品に限らず、ＰＳＩ計画に基づいて在庫が管理される物品であればよい。

　上記の実施の形態２では、報酬ｒを２つの報酬ｒ_１および報酬ｒ_２から算出する。例えば、在庫回転率の向上の場合には報酬ｒ_１を増大させる。在庫回転率の悪化の場合には報酬ｒ_１を低減させる。輸送費の合計が閾値以下である場合には報酬ｒ_２を増大させる。輸送費の合計が閾値より高い場合には報酬ｒ_２を低減させる。これに限らず、学習装置１のデータ取得部１１は、在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報、輸送費実績情報および在庫保管リソース占有率情報に加え、在庫回転率および輸送費の経営目標値を示す経営目標情報を取得し、経営目標達成率が向上するか否かで報酬を決定してもよい。

　この場合、例えば、在庫回転率の経営目標達成率が向上する場合には報酬ｒ_１を増大させる。在庫回転率の経営目標達成率が悪化する場合には報酬ｒ_１を低減させる。輸送費の経営目標達成率が向上する場合には報酬ｒ_２を増大させる。輸送費の経営目標達成率が悪化する場合には報酬ｒ_２を低減させる。実施の形態２と同様、報酬ｒ＝ｒ_１＋ｒ_２である。報酬ｒ_１および報酬ｒ_２に重み付けをする場合、報酬ｒ＝ｗ_１ｒ_１＋ｗ_２ｒ_２を算出する。あるいは、在庫回転率および輸送費の経営目標達成率の変化を合算して向上する場合には報酬ｒを増大させ、在庫回転率および輸送費の経営目標達成率の変化を合算して悪化する場合には報酬ｒを低減させてもよい。この変形例では、モデル生成部１２によって生成された学習済モデルに、在庫配置量変更情報、ＰＳＩ計画実績情報および需要量情報、輸送費実績情報、在庫保管リソース占有率情報および経営目標情報が入力されると、在庫回転率および輸送費の経営目標達成率が向上する、あるいは、在庫回転率および輸送費の経営目標達成率の悪化を抑える在庫配置量変更アクションが出力される。

　学習装置１および推論装置４のハードウェア構成について図１３を用いて説明する。図１３に示すように、学習装置１および推論装置４は、一時記憶部１０１、記憶部１０２、計算部１０３、入力部１０４、送受信部１０５および表示部１０６を備える。一時記憶部１０１、記憶部１０２、入力部１０４、送受信部１０５および表示部１０６はいずれもＢＵＳを介して計算部１０３に接続されている。

　計算部１０３は、例えばＣＰＵ（Central Processing Unit）である。計算部１０３は、記憶部１０２に記憶されている制御プログラムに従って、学習装置１のモデル生成部１２および推論装置４の推論部４２の処理を実行する。

　一時記憶部１０１は、例えばＲＡＭ（Random-Access Memory）である。一時記憶部１０１は、記憶部１０２に記憶されている制御プログラムをロードし、計算部１０３の作業領域として用いられる。

　記憶部１０２は、フラッシュメモリ、ハードディスク、ＤＶＤ－ＲＡＭ（Digital Versatile Disc - Random Access Memory）、ＤＶＤ－ＲＷ（Digital Versatile Disc - ReWritable）などの不揮発性メモリである。記憶部１０２は、学習装置１および推論装置４の処理を計算部１０３に行わせるためのプログラムを予め記憶し、また、計算部１０３の指示に従って、このプログラムが記憶するデータを計算部１０３に供給し、計算部１０３から供給されたデータを記憶する。学習装置１および推論装置４が学習済モデル記憶部３を内部に備える構成では、学習済モデル記憶部３は、記憶部１０２に構成される。

　入力部１０４は、キーボード、ポインティングデバイス、音声入力機器などの入力装置と、入力装置をＢＵＳに接続するインターフェース装置である。入力部１０４を介して、ユーザが入力した情報が計算部１０３に供給される。学習装置１のデータ取得部１１にユーザが直接情報を入力する構成では、入力部１０４は、データ取得部１１として機能する。推論装置４のデータ取得部４１にユーザが直接情報を入力する構成では、入力部１０４は、データ取得部４１として機能する。

　送受信部１０５は、ネットワークに接続する網終端装置または無線通信装置、およびそれらと接続するシリアルインターフェースまたはＬＡＮ（Local Area Network）インターフェースである。送受信部１０５は、学習装置１のモデル生成部１２、および、推論装置４の推論部４２として機能する。推論装置４の出力部４３が在庫配置量変更アクション情報をユーザが使用する端末に送信する構成では、送受信部１０５は、出力部４３として機能する。

　表示部１０６は、ＬＣＤ（Liquid Crystal Display）、有機ＥＬ（electroluminescence）ディスプレイなどの表示装置である。推論装置４の出力部４３が在庫配置量変更アクション情報を画面表示する構成では、表示部１０６は、出力部４３として機能する。

　図１に示す学習装置１のデータ取得部１１およびモデル生成部１２、ならびに、推論装置４のデータ取得部４１、推論部４２および出力部４３の処理は、制御プログラムが、一時記憶部１０１、計算部１０３、記憶部１０２、入力部１０４、送受信部１０５および表示部１０６などを資源として用いて処理することによって実行する。

　その他、前記のハードウェア構成およびフローチャートは一例であり、任意に変更および修正が可能である。

　計算部１０３、一時記憶部１０１、記憶部１０２、入力部１０４、送受信部１０５、表示部１０６などの学習装置１および推論装置４の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、前記の動作を実行するためのコンピュータプログラムを、フレキシブルディスク、ＣＤ－ＲＯＭ（Compact Disc - Read Only Memory）、ＤＶＤ－ＲＯＭ（Digital Versatile Disc - Read Only Memory）などのコンピュータが読み取り可能な記録媒体に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する学習装置１および推論装置４を構成してもよい。また、インターネットに代表される通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロードすることで学習装置１および推論装置４を構成してもよい。

　また、学習装置１および推論装置４の機能を、ＯＳ（Operating System）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体、記憶装置に格納してもよい。

　また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して提供することも可能である。例えば、通信ネットワーク上の掲示板（BBS, Bulletin Board System）に前記コンピュータプログラムを掲示し、通信ネットワークを介して前記コンピュータプログラムを提供してもよい。そして、このコンピュータプログラムを起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できる構成にしてもよい。

　以上、好ましい実施の形態について詳説したが、上述した実施の形態に制限されることはなく、特許請求の範囲に記載された範囲を逸脱することなく、上述した実施の形態に種々の変形及び置換を加えることができる。

　以下、本開示の諸態様を付記としてまとめて記載する。

　（付記１）
　学習装置および推論装置を備える在庫管理システムであって、
　前記学習装置は、
　在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のＰＳＩ（Production Sales Inventory）の計画および実績を示すＰＳＩ計画実績情報、ならびに、前記ＰＳＩに計上されていない前記物品の需要量を示す需要量情報を取得する第１データ取得部と、
　前記第１データ取得部が取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報および前記需要量情報を学習データとして、前記在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成部と、
　を有し、
　前記推論装置は、
　前記ＰＳＩ計画実績情報および前記需要量情報を取得する第２データ取得部と、
　前記第２データ取得部が取得した前記ＰＳＩ計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論部と、
　前記推論部が得た前記在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する出力部と、
　を有する在庫管理システム。
　（付記２）
　前記モデル生成部は、前記第１データ取得部が取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報および前記需要量情報を学習データとして、在庫回転率が向上する、あるいは、在庫回転率の悪化を最小限に抑える、前記在庫配置量変更アクションを学習する、
　付記１に記載の在庫管理システム。
　（付記３）
　前記第１データ取得部は、前記在庫配置量変更アクションによる輸送費の実績を示す輸送費実績情報、および、各拠点の製品の在庫の保管リソース占有率を示す在庫保管リソース占有率情報をさらに取得し、
　前記モデル生成部は、前記第１データ取得部が取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報、前記需要量情報、前記輸送費実績情報、および、在庫保管リソース占有率情報を学習データとして、在庫回転率を向上させ、または、在庫回転率の悪化を抑え、かつ、輸送費を抑え、かつ、各拠点における前記保管リソース占有率が許容値を満たしている前記在庫配置量変更アクションを学習する、
　付記１に記載の在庫管理システム。
　（付記４）
　前記第１データ取得部は、在庫回転率および輸送費の経営目標値を示す経営目標情報をさらに取得し、
　前記モデル生成部は、前記第１データ取得部が取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報、前記需要量情報、前記輸送費実績情報、前記在庫保管リソース占有率情報、および、前記経営目標情報を学習データとして、在庫回転率および輸送費の経営目標達成率を向上させ、または、在庫回転率および輸送費の経営目標達成率の悪化を抑え、かつ、各拠点における前記保管リソース占有率が許容値を満たしている前記在庫配置量変更アクションを学習する、
　付記３に記載の在庫管理システム。
　（付記５）
　前記在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のＰＳＩの計画および実績を示すＰＳＩ計画実績情報、ならびに、前記ＰＳＩに計上されていない前記物品の需要量を示す需要量情報を取得する第１データ取得部と、
　前記第１データ取得部が取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報および前記需要量情報を学習データとして、前記在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成部と、
　を備える学習装置。
　（付記６）
　在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のＰＳＩの計画および実績を示すＰＳＩ計画実績情報、ならびに、前記ＰＳＩに計上されていない前記物品の需要量を示す需要量情報を学習データとして、前記在庫配置量変更アクションを学習して生成された学習済モデルを用いて、前記在庫配置量変更アクションを推論する推論装置であって、
　前記ＰＳＩ計画実績情報および前記需要量情報を取得する第２データ取得部と、
　前記第２データ取得部が取得した前記ＰＳＩ計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論部と、
　前記推論部が得た前記在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する出力部と、
　を備える推論装置。
　（付記７）
　学習装置が実行する、
　在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のＰＳＩの計画および実績を示すＰＳＩ計画実績情報、ならびに、前記ＰＳＩに計上されていない前記物品の需要量を示す需要量情報を取得する第１データ取得ステップと、
　前記第１データ取得ステップで取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報および前記需要量情報を学習データとして、前記在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成ステップと、
　推論装置が実行する、
　前記ＰＳＩ計画実績情報および前記需要量情報を取得する第２データ取得ステップと、
　前記第２データ取得ステップで取得した前記ＰＳＩ計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論ステップと、
　を有する在庫管理方法。
　（付記８）
　コンピュータを、
　在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のＰＳＩの計画および実績を示すＰＳＩ計画実績情報、ならびに、前記ＰＳＩに計上されていない前記物品の需要量を示す需要量情報を取得する第１データ取得部と、
　前記第１データ取得部が取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報および前記需要量情報を学習データとして、各拠点における前記物品の在庫配置量の変更アクションを学習して学習済モデルを生成するモデル生成部、
　として機能させるプログラム。
　（付記９）
　在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のＰＳＩの計画および実績を示すＰＳＩ計画実績情報、ならびに、前記ＰＳＩに計上されていない前記物品の需要量を示す需要量情報を学習データとして、前記在庫配置量変更アクションを学習して生成された学習済モデルを用いて、各拠点における前記在庫配置量変更アクションを推論するコンピュータを、
　前記ＰＳＩ計画実績情報および前記需要量情報を取得する第２データ取得部と、
　前記第２データ取得部が取得した前記ＰＳＩ計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論部、
　として機能させるプログラム。

　なお、本開示は、本開示の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この開示を説明するためのものであり、本開示の範囲を限定するものではない。即ち、本開示の範囲は、実施の形態ではなく、請求の範囲によって示される。そして、請求の範囲内及びそれと同等の開示の意義の範囲内で施される様々な変形が、この開示の範囲内とみなされる。

　本出願は、２０２２年６月１６日に出願された、日本国特許出願特願２０２２－９７３３３号に基づく。本明細書中に日本国特許出願特願２０２２－９７３３３号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。

　１　学習装置、２　生産管理システム、３　学習済モデル記憶部、４　推論装置、１１　データ取得部、１２　モデル生成部、４１　データ取得部、４２　推論部、４３　出力部、１００　在庫管理システム、１０１　一時記憶部、１０２　記憶部、１０３　計算部、１０４　入力部、１０５　送受信部、１０６　表示部、１２１　報酬計算部、１２２　関数更新部。

Claims

　学習装置および推論装置を備える在庫管理システムであって、
　前記学習装置は、
　在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のＰＳＩ（Production Sales Inventory）の計画および実績を示すＰＳＩ計画実績情報、ならびに、前記ＰＳＩに計上されていない前記物品の需要量を示す需要量情報を取得する第１データ取得部と、
　前記第１データ取得部が取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報および前記需要量情報を学習データとして、前記在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成部と、
　を有し、
　前記推論装置は、
　前記ＰＳＩ計画実績情報および前記需要量情報を取得する第２データ取得部と、
　前記第２データ取得部が取得した前記ＰＳＩ計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論部と、
　前記推論部が得た前記在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する出力部と、
　を有する在庫管理システム。
　前記モデル生成部は、前記第１データ取得部が取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報および前記需要量情報を学習データとして、在庫回転率が向上する、あるいは、在庫回転率の悪化を最小限に抑える、前記在庫配置量変更アクションを学習する、
　請求項１に記載の在庫管理システム。
　前記第１データ取得部は、前記在庫配置量変更アクションによる輸送費の実績を示す輸送費実績情報、および、各拠点の製品の在庫の保管リソース占有率を示す在庫保管リソース占有率情報をさらに取得し、
　前記モデル生成部は、前記第１データ取得部が取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報、前記需要量情報、前記輸送費実績情報、および、在庫保管リソース占有率情報を学習データとして、在庫回転率を向上させ、または、在庫回転率の悪化を抑え、かつ、輸送費を抑え、かつ、各拠点における前記保管リソース占有率が許容値を満たしている前記在庫配置量変更アクションを学習する、
　請求項１に記載の在庫管理システム。
　前記第１データ取得部は、在庫回転率および輸送費の経営目標値を示す経営目標情報をさらに取得し、
　前記モデル生成部は、前記第１データ取得部が取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報、前記需要量情報、前記輸送費実績情報、前記在庫保管リソース占有率情報、および、前記経営目標情報を学習データとして、在庫回転率および輸送費の経営目標達成率を向上させ、または、在庫回転率および輸送費の経営目標達成率の悪化を抑え、かつ、各拠点における前記保管リソース占有率が許容値を満たしている前記在庫配置量変更アクションを学習する、
　請求項３に記載の在庫管理システム。
　在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のＰＳＩの計画および実績を示すＰＳＩ計画実績情報、ならびに、前記ＰＳＩに計上されていない前記物品の需要量を示す需要量情報を取得する第１データ取得部と、
　前記第１データ取得部が取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報および前記需要量情報を学習データとして、前記在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成部と、
　を備える学習装置。
　在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のＰＳＩの計画および実績を示すＰＳＩ計画実績情報、ならびに、前記ＰＳＩに計上されていない前記物品の需要量を示す需要量情報を学習データとして、前記在庫配置量変更アクションを学習して生成された学習済モデルを用いて、前記在庫配置量変更アクションを推論する推論装置であって、
　前記ＰＳＩ計画実績情報および前記需要量情報を取得する第２データ取得部と、
　前記第２データ取得部が取得した前記ＰＳＩ計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論部と、
　前記推論部が得た前記在庫配置量変更アクションを示す在庫配置量変更アクション情報を出力する出力部と、
　を備える推論装置。
　学習装置が実行する、
　在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のＰＳＩの計画および実績を示すＰＳＩ計画実績情報、ならびに、前記ＰＳＩに計上されていない前記物品の需要量を示す需要量情報を取得する第１データ取得ステップと、
　前記第１データ取得ステップで取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報および前記需要量情報を学習データとして、前記在庫配置量変更アクションを学習して学習済モデルを生成するモデル生成ステップと、
　推論装置が実行する、
　前記ＰＳＩ計画実績情報および前記需要量情報を取得する第２データ取得ステップと、
　前記第２データ取得ステップで取得した前記ＰＳＩ計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論ステップと、
　を有する在庫管理方法。
　コンピュータを、
　在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のＰＳＩの計画および実績を示すＰＳＩ計画実績情報、ならびに、前記ＰＳＩに計上されていない前記物品の需要量を示す需要量情報を取得する第１データ取得部と、
　前記第１データ取得部が取得した前記在庫配置量変更情報、前記ＰＳＩ計画実績情報および前記需要量情報を学習データとして、各拠点における前記物品の在庫配置量の変更アクションを学習して学習済モデルを生成するモデル生成部、
　として機能させるプログラム。
　在庫配置量変更アクションによる各拠点における物品の在庫配置量の変更を示す在庫配置量変更情報、前記物品のＰＳＩの計画および実績を示すＰＳＩ計画実績情報、ならびに、前記ＰＳＩに計上されていない前記物品の需要量を示す需要量情報を学習データとして、前記在庫配置量変更アクションを学習して生成された学習済モデルを用いて、各拠点における前記在庫配置量変更アクションを推論するコンピュータを、
　前記ＰＳＩ計画実績情報および前記需要量情報を取得する第２データ取得部と、
　前記第２データ取得部が取得した前記ＰＳＩ計画実績情報および前記需要量情報を前記学習済モデルに入力して、前記在庫配置量変更アクションを得る推論部、
　として機能させるプログラム。