WO2023053287A1

WO2023053287A1 - 配送計画装置、配送計画方法、及びプログラム

Info

Publication number: WO2023053287A1
Application number: PCT/JP2021/035937
Authority: WO
Inventors: ショウオウ; 雄介中野; 研西松
Original assignee: 日本電信電話株式会社
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2023-04-06
Also published as: JPWO2023053287A1

Abstract

アクター‐クリティック方式による強化学習を行うニューラルネットワークを用いて、サービスセンターから出発する車両により複数の顧客に対してサービス提供を行うための経路を決定する配送計画問題を解くアルゴリズム計算部を備え、前記アルゴリズム計算部は、顧客に到着するべき時間の範囲を示す時間枠と、顧客におけるサービス提供にかかる時間長を示す時間コストとを制約として、前記配送計画問題を解く配送計画装置。

Description

配送計画装置、配送計画方法、及びプログラム

　本発明は、配送計画問題を解く技術に関連するものである。

　配送計画問題（ＶＲＰ:vehicle routing problem）とは、荷物の集積所（サービスセンター）から各顧客にサービス車両を使用して荷物を配送するときに、どのサービス車両がどの顧客をどの順番で回れば最適か（コストが最も低くなるか）を考える最適化問題である。なお、「配送計画問題」を「配車計画問題」と称してもよい。

　実際のアプリケーションでは、電子商取引のジャストインタイム配送、コールドチェーン配送、店舗補充など、流通とサービスコストをＶＲＰの解を通して最適化できる多くの実用的なビジネスシナリオが存在する。

　そのため、異なる実際的な要求に応じて、種々のＶＲＰのバリエーションが提案されている。ＶＲＰのバリエーションとして、例えば、時間枠付きＶＲＰ（ＶＲＰＴＷ）がある。ＶＲＰＴＷにおいては、顧客に対して商品の配送のための時間枠が設定される。他のＶＲＰとして、マルチデポ配送計画問題（ＭＤＶＲＰ）がある。ＭＤＶＲＰでは、複数のデポ（サービスセンタ）が存在し、そこから車両が出発したり、そこで走行を終了したりすることができる。

　ＶＲＰとそのバリエーションはＮＰ困難な問題であることが証明されているので、近似解を返す種々のオペレーションズリサーチ（ＯＲ）ベースの方法が長年研究されている。

　通常、ＯＲベースのアルゴリズムでは、人手で探索モデルを定義し、効率を上げるために解の品質を犠牲にしてＶＲＰの解を求める。しかしながら、従来のＯＲベースの方法には２つの欠点がある。

　第１の欠点として、実用規模のＶＲＰ問題（１００以上の顧客を有する）では、ＯＲベースのアルゴリズムを用いた場合、最適解又は近似解を得るために、計算に数日又は数年を必要とするという点がある。

　第２の欠点として、異なるＶＲＰのバリエーションは、異なる手作りの探索モデル及び初期探索条件を必要とするので、異なるＯＲアルゴリズムを必要とするという点である。例えば、不適切な初期解は、長い処理時間及び局所最適解をもたらす可能性がある。このような点で、ＯＲベースのアルゴリズムを、現実のビジネスシナリオで一般化し、使用することは困難である。

　非特許文献１には、アクター‐クリティック方式の強化学習に基づくＶＲＰの解法が開示されており、これにより、ＯＲベースのアルゴリズムの欠点が解決されている。すなわち、ニューラルネットワークモデルにより、特に顧客ノードの数が多い場合に、複雑さと表現能力を高精度で大幅に改善することができる。

　更に、ニューラルネットワークにより、学習フェーズに時間がかかるが、推論フェーズにおいて瞬時に近似解を見つけることができ、実用的なビジネスアプリケーションにおける実行効率を大幅に改善することができる。

　また、データ駆動型ニューラルネットワークは、探索のための数学モデルを定義する必要がないので、新しいデータを供給し、報酬関数又は他の基本的なエンジニアリングタスクを調整するだけで、様々なＶＲＰのバリエーションに適用することができ、実用的な研究及び事業発展にとっても非常に便利である。

Nazari, Mohammadreza, Afshin Oroojlooy, Lawrence V. Snyder, and Martin Takac, "Reinforcement Learning for Solving the Vehicle Routing Problem", NIPS, 2018.

　現実のアプリケーションにおいて、電子商取引のジャストインタイム配送、コールドチェーン配送、店舗補充など、流通とサービスコストを、ＶＲＰ解法を通して最適化できる多くの実用的なビジネスシナリオが存在する。

　例えば、通信キャリアは、毎日、顧客から多数の要求を受け付け、サービスセンターから、顧客宅に行って、ネットワーク障害の修復を支援している。故障の種類によって修理にかかる時間の長さが異なり、その差は大きく異なることが多い。サービスセンターの立場からは、顧客の指定する修理時間帯を考慮しつつ、修理スタッフの人数や作業時間を最小限に抑えるために、合理的かつ効率的な修理の順番や経路を計画することが、費用削減やサービス品質向上のために最も必要な手段の一つと考えられる。

　本発明は上記の点に鑑みてなされたものであり、時間枠の制約と時間コストの制約を考慮した配送計画問題を解くことにより、時間枠の制約と時間コストの制約の下での配送計画を実現するための技術を提供することを目的とする。

　開示の技術によれば、アクター‐クリティック方式による強化学習を行うニューラルネットワークを用いて、サービスセンターから出発する車両により複数の顧客に対してサービス提供を行うための経路を決定する配送計画問題を解くアルゴリズム計算部を備え、
　前記アルゴリズム計算部は、顧客に到着するべき時間の範囲を示す時間枠と、顧客におけるサービス提供にかかる時間長を示す時間コストとを制約として、前記配送計画問題を解く配送計画装置が提供される。

　開示の技術によれば、時間枠の制約と時間コストの制約を考慮した配送計画問題を解くことにより、時間枠の制約と時間コストの制約の下での配送計画を実現するための技術が提供される。

本発明の実施の形態における装置構成図である。アルゴリズム計算部１３０の構成図である。問題設定を示す図である。アルゴリズム１を示す図である。アルゴリズム２を示す図である。装置のハードウェア構成例を示す図である。

　以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

　（実施の形態の概要）
　まず、本実施の形態の概要について説明する。本実施の形態では、ビジネスシナリオにおける非常に実用的な問題の定式化であるＶＲＰＴＷＴＣと呼ばれる新規のＶＲＰを導入している。

　本実施の形態では、問題定式化において、最適化プロセスにおける需要(demand)とロード(load)等のＶＲＰにおける既存の制約に加えて、２つの新しい制約（時間枠と時間コスト）を導入している。なお、本実施の形態では、「ロード」は、サービス車両に搭載される「荷物」、「積載物」等を想定しており、「ロード」を「荷物」、「積載物」等に言い換えてもよい。

　本実施の形態では、ＶＲＰＴＷＴＣを解くために、データ駆動型の、エンドツーエンドのポリシー（方策）ベースの強化学習フレームワークを使用している。当該ポリシーベースの強化学習フレームワークは、アクターネットワークとクリティックネットワークの２つのニューラルネットワークを含む。アクターネットワークでＶＲＰＴＷＴＣの経路を生成し、クリティックネットワークで価値関数を推定、評価する。

　また、本実施の形態では、アクターネットワークと組み合わせた新規なマスキングアルゴリズムを使用する。マスキングアルゴリズムにより、従来のＶＲＰにおける制約と共に本実施の形態において定式化した時間枠制約と時間コスト制約の下で問題を解くことができる。

　また、本実施の形態では、実施の地図に基づく地図アプリケーションのＡＰＩを使用することにより、実際の道路接続条件下で経路を計算し、実際の産業における採用可能性を増加させることができる。

　（装置構成例）
　図１に本実施の形態における配送計画装置１００の構成図を示す。図１に示すように、配送計画装置１００は、ユーザ情報収集部１１０、サービス車両情報収集部１２０、アルゴリズム計算部１３０、地図ＡＰＩ部１４０、及び配車部１５０を有する。

　配送計画装置１００は、１つの装置（コンピュータ）で実装されてもよいし、複数の装置で実装されてもよい。例えば、アルゴリズム計算部１３０があるコンピュータで実装され、それ以外の機能部が別のコンピュータで実装されてもよい。配送計画装置１００の動作概要は下記のとおりである。

　ユーザ情報収集部１１０は、各ユーザ（顧客）における特徴量を取得する。各ユーザの特徴量は、例えば、各ユーザの指定時間枠（ｔｉｍｅ　ｗｉｎｄｏｗ）、サービスの時間コスト（ｔｉｍｅ　ｃｏｓｔ）等を有する。

　サービス車両情報収集部１２０は、各サービス車両における特徴量を収集する。各サービス車両における特徴量は、例えば、各サービス車両の出発位置等を有する。

　アルゴリズム計算部１３０は、各ユーザ（顧客）及び各サービス車両の情報をベースにして、ＶＲＰ問題を解くことにより、配送計画を出力する。アルゴリズム計算部１３０の詳細については後述する。

　地図ＡＰＩ部１４０は、アルゴリズム計算部１３０から出力した配送計画の情報に基づき経路検索を行って、例えば各サービス車両の配送計画の経路を地図上に描画する。配車部１５０は、地図ＡＰＩ部１４０の出力結果に基づいて、それぞれのサービス車両（あるいは、サービスセンターの端末）に対して、サービス経路の情報を、ネットワークを介して配信する。なお、配車部１５０を「出力部」と呼んでもよい。

　地図ＡＰＩ部１４０は、例えば、外部にある地図サーバにアクセスすることで経路検索等を行うこととしてもよい。また、地図ＡＰＩ部１４０自身が地図データベースを格納し、その地図データベースを用いて経路検索を行うこととしてもよい。

　一例として、配送計画として、「０→２→３→０」という配送計画がアルゴリズム計算部１３０により得られたとする。ここで、０はサービスセンターを示し、２、３はそれぞれ顧客の番号を示す。この場合、地図ＡＰＩ部１４０は、「サービスセンター→顧客２→顧客３→サービスセンター」の実際の道路の経路を地図上に描画し、配車部１５０が、経路の描画された地図情報を出力する。

　（アルゴリズム計算部１２０の構成例）
　図２に、アルゴリズム計算部１３０の構成例を示す。アルゴリズム計算部１３０は、アクター－クリティック方式の強化学習を行うニューラルネットワークのモデルである。このモデルをＶＲＰＴＷＴＣモデルと呼んでもよい。

　図２に示すとおり、本モデルは、アクターネットワーク１３１とクリティックネットワーク１３２の２つにニューラルネットワークを含む。

　アクターネットワーク１３１は、Ｄｅｎｓｅ埋め込み層（１層）、ＬＳＴＭセル、Ａｔｔｅｎｔｉｏｎ層、Ｓｏｆｔｍａｘ計算部（Ｓｏｆｔｍａｘ）、マスキング部（Ｍａｓｋｉｎｇ）を有する。これらにより、エンコーダ‐デコーダの構成、及び、ポインタネットワークを構成する。クリティックネットワーク１３２は、Ｄｅｎｓｅ埋め込み層（３層）を有する。

　アクターネットワーク１３１におけるＤｅｎｓｅ埋め込み層、ＬＳＴＭセル、Ａｔｔｅｎｔｉｏｎ層、及び、クリティックネットワーク１３２におけるＤｅｎｓｅ埋め込み層は、ニューラルネットワークにおける学習可能パラメータを有する。

　アクターネットワーク１３１において、エンコーダに相当するＤｅｎｓｅ埋め込み層からの出力である隠れ状態からＬＳＴＭセルにより得られた特徴量がＡｔｔｅｎｔｉｏｎ層に入力され、Ｄｅｎｓｅ埋め込み層からの出力とＡｔｔｅｎｔｉｏｎ層からの出力によりＣｏｎｔｅｘｔが得られる、ＣｏｎｔｅｘｔからＳｏｆｔｍａｘにより計算された値がＭａｓｋｉｎｇを通して出力され、報酬計算に利用される。クリティックネットワーク１３２において、入力データからＤｅｎｓｅ埋め込み層により得られた特徴量と、報酬に基づき、損失（Loss function）が得られ、損失を小さくするような学習がなされる。

　なお、入力隠れ状態（input hidden state）、コンテクスト、Ａｔｔｅｎｔｉｏｎ層、ＬＳＴＭ、ソフトマックスの間における矢印線は、アッテンションベースのポインタネットワークを示す。損失関数が、報酬関数とクリティックネットワークにより計算される。

　アルゴリズム計算部１３０では、図２に示したニューラルネットワークを用いて、大量のシミュレーション学習データを学習し、実データでもシミュレーションデータでもテスト（配送計画作成）をできる仕組みになっている。

　具体的には、アクター‐クリティックをベースにした強化学習モデルとＭａｓｋｉｎｇアルゴリズムを使用することで、必ずサービス車両が顧客の指定時刻通り（指定の時間枠内に）到着し、必ず各サービス車両が一日８時間以内に作業すると制約の下での配送計画を効率良く計算し、出力することができる。

　以下、アルゴリズム計算部１３０の処理内容についてより詳細に説明する。

　（アルゴリズム計算部１３０の処理の概要）
　まず、アルゴリズム計算部１３０が解くＶＲＰ問題の概要を説明する。この問題は下記の３つの要素を有する。なお、本明細書において、「顧客」を「ユーザ」と呼んでもよい。

　（１）全ての顧客にサービスを提供し、サービスを提供する時刻（サービス車両が到着する時刻）が、各顧客により指定される時間枠（時間ウィンドウ）内でなければならない。

　（２）各顧客は、サービスに応じて変化するサービスの時間コストを有する。この「時間コスト」は、顧客宅でのサービス提供に要する時間である。顧客宅でのサービスとは、例えば、通信設備の修理である。

　（３）複数の顧客にサービスを提供するに際し、サービス車両は総サービス時間制限を超えることはできない。

　上記のような問題を「時間枠と時間コストを有する配送計画問題」（ＶＲＰＴＷＴＣ：Vehicle Routing Problem with Time Windows and Time Costs）と呼ぶ。

　本実施の形態では、アルゴリズム計算部１３０に相当するニューラルネットワークが、アクター‐クリティックベースの深層強化学習に基づいて、エンドツーエンド、データ駆動によりＶＲＰＴＷＴＣを解くことで、上記の問題の解（配送計画）を出力する。

　本実施の形態におけるアルゴリズム計算部１３０の特徴は下記のとおりである。

　第一に、従来の方法とは異なり、目的関数や初期探索条件のような手作りモデルの要素を定義する必要がなく、非常に短い処理時間（１０秒未満）で中規模データセット（最大１００顧客）におけるＶＲＰＴＷＴＣの解を最適化できる。これにより、実際のビジネスアプリケーションの運用コストを削減できるだけでなく、この方法を実際の業界に展開しやすくなる。

　第二に、顧客が指定した時間枠とサービスの時間コストは、最適化の過程で厳密に考慮される。時間枠の違反やトータルの労働時間制限の違反は許容されず、これにより、サービスの質の向上やスタッフの権利保護にも役立つ。

　最後に、他の従来のＶＲＰの解法とは異なり、本実施の形態では、実際の地図のアプリケーションプログラミングインタフェース（ＡＰＩ）を用いてアルゴリズムの有効性を評価している。例えば、サービス車両が指定時間枠内に到着するかどうかを評価している。これにより、実産業における提案手法の適用性が向上する。

　（アルゴリズム計算部１３０の処理の詳細）
　以下、アルゴリズム計算部１３０の処理内容を詳細に説明する。

　＜Ａ：問題設定＞
　図３を参照して、本実施の形態における問題設定について説明する。顧客（Customer）の集合χ＝｛ｘ_１，ｘ_２，・・・ｘ_Ｎ｝が、地図上のある範囲に位置しており、集合における各ｘ_ｎは、サービスを必要とする顧客である。また、サービス提供のためのロードの積み込み等を行うサービスセンターが存在する。顧客の位置、サービスセンターの位置は既知であるとする。また、顧客とサービスセンターとの間、任意の顧客間において、サービス車両の走行時間は既知（例えば、予め定めた速度と距離から計算）であってもよいし、地図ＡＰＩから実際の道路状況（渋滞等）を考慮して算出してもよい。

　まず、サービス車両の集合がサービスセンターに配置される。各サービス車両は、サービスセンターを離れて、顧客の集合χにサービスを提供することができる。各顧客は、いずれかのサービス車両により一度だけサービスを受ける。サービス車両は計画された全ての顧客を訪問した後、サービスセンターに戻る。

　χにおける各顧客は４つの特徴を持つので、各顧客ｘ_ｎを、ベクトルとして、ｘ_ｎ＝［ｘ_ｎ ^ｆ１，ｘ_ｎ ^ｆ２，ｘ_ｎ ^ｆ３，ｘ_ｎ ^ｆ４］と表す。ｘ_ｎ ^ｆ１は、ｎ番目の顧客のアドレス（住所）である。ｘ_ｎ ^ｆ２は、ｎ番目の顧客の需要であり、これは古典的なＶＲＰ問題の需要特徴と同じである。ｘ_ｎ ^ｆ３は、ｎ番目の顧客によって指定された時間枠（Time window）であり、その時間枠の間に顧客がサービス車両により訪問される必要があることを意味する。ｘ_ｎ ^ｆ４は、ｎ番目の顧客のサービスの時間コスト（Time cost）であり、これはｎ番目の顧客のサービスにどれだけの時間がかかるかを示す。モデル化を簡易にするために、問題定式化において、サービスセンターを０番目の顧客としている。

　ここで、本問題では、時間枠の違反（時間枠内で顧客にサービスできないこと）と時間コストの違反（サービス車両が１日８時間を超えて働くこと）を許容できないものとする。

　サービス車両毎に、サービスを提供するサービス車両の最大積載容量を示す固定の初期ロードの特徴を定義する。具体的には、サービス車両がサービスセンターを離れ、顧客にサービスを提供する前に、ロードを１（タスクに応じて調整可能）の値で初期化する。

　また、サービス車両毎に最大サービス時間を８時間と設定する。これは、各サービス車両が最大８時間のサービス時間を有することを意味する。つまり、サービス車両がサービスセンターを離れてサービスを提供するための最長時間は８時間を超えないようにしている（これは、実際の業務の需要に応じて調整することができる）。

　サービス車両がサービスを提供する際の条件として、次の２つの条件（１）、（２）を定めている。サービス車両は、下記の（１）又は（２）の場合にサービスセンターに戻らなければならない。

　条件（１）サービス車両のロードが０に近く、残りの顧客にサービスを提供する容量（
残存するロード）が不十分な場合
　条件（２）サービス車両のサービス時間が最大の８時間に近い場合
　上記の顧客情報と最適化のための制約の下で、ＶＲＰＴＷＴＣに対する解ζを見つける。解ζは、サービスの経路又はサービスの順番と解釈できる、χにおける顧客の列（シーケンス）である。例えば、解としてζ＝｛０，３，２，０，４，１，０｝の列が得られた場合、この列は、二つの経路に対応する。一つは、０→３→２→０に沿って進む経路であり、もう一つは、０→４→１→０に沿って進む経路であり、これは２つのサービス車両が用いられることを暗に示している。また、これは、あるサービス車両が、一旦サービスセンターに戻る場合であると解釈することもできる。

　＜Ｂ：アクターネットワーク１３１におけるポインタネットワーク＞
　ＶＲＰＴＷＴＣの解ζは列（シーケンス）のマルコフ決定過程（ＭＤＰ）であり、これは、列内の次の行動（つまり、次にどの顧客ノードをサービス対象とするか）を選択する過程である。

　本実施の形態では、ＭＤＰプロセスの定式化にポインタネットワーク（ＰｏｉｎｔｅｒＮｅｔ）を使用する。なお、ポインタネットワーク（ＰｏｉｎｔｅｒＮｅｔ）自体は既存技術である。最初に、Ｄｅｎｓｅ層を有するエンコーダが、全ての入力顧客及びデポ（サービスセンタ）の特徴の埋め込みを行って、隠れ状態を抽出する。続いて、デコーダは、１つずつ接続されるＬＳＴＭ（Long Short-term Memory）セルを使用することによって、ＭＤＰの行動を復元し、Ａｔｔｅｎｔｉｏｎ層に渡す。各ＬＳＴＭセル（行動）では、入力された顧客ノードがサービスを受ける確率を表すポインタを出力する。

　非特許文献１に開示された技術と本実施の形態に係る技術との間のキーとなる相違は、本実施の形態において、新規なマスキングアルゴリズムを設計し、それをアクターネットワーク１３１に組み込んで、時間枠、時間コスト、及びトータル時間制限の制約の下で解を求める点にある。

　アクターネットワークのＤｅｎｓｅ埋め込み層（エンコーダ）と、ポインタネットワークについて、より具体的に説明する。

　前述したとおり、χ＝｛ｘ_１，ｘ_２，・・・，ｘ_Ｎ｝における各ｘ_ｎは、顧客（顧客ノード）を表し、各ｘ_ｎを、エンコーダにより、式（１）に示すとおり、ｄｅｎｓｅ表現ｘ_{ｎ－ｄｅｎｓｅ}として埋め込む。

　ここで、θ_{ｅｍｂｅｄｄｅｄ}＝｛ω_{ｅｍｂｅｄ}，ｂ_{ｅｍｂｅｄ}｝は、本実施の形態の埋め込み層におけるｄｅｎｓｅ層として表される学習可能なパラメータである。

　デコーダはＬＳＴＭセルのシーケンスを含む。当該デコーダにおいて、ＬＳＴＭセルのシーケンスを用いてＭＤＰにおける行動（アクション）をモデル化する。デコーダ部の各ステップｍ∈（１，２，…，Ｍ）において、重みθ_ＬＳＴＭを有するＬＳＴＭセルにおける隠れ状態をｄ_ｍで表す。Ｍはデコーダステップの総数である。

　本実施の形態において、ＰｏｉｎｔｅｒＮｅｔと同様に、ポインタＤ_ｍを計算することによりサービス順序をモデル化する。すなわち、デコーダ部の各ステップｍにおいて、χ＝｛ｘ_１，ｘ_２，・・・，ｘ_Ｎ｝のどのメンバがポイントされるかを決定するために、Ｓｏｆｔｍａｘ結果を計算する。

　ここで、ｐ（Ｄ_ｍ｜Ｄ_１，Ｄ_２・・・Ｄ_ｍ－１，χ；θ）を、デコーダ部の各ステップにおけるポインタとして、パラメータθ_{Ｐｏｉｎｔｅｒ}を持つＬＳＴＭセルを用いて下記の式（２）、式（３）によりモデル化する。

　ここで、Ｓｏｆｔｍａｘは（長さＮの）ベクトルｕ^ｍを、全ての入力χに対する出力分布（確率分布）に正規化する。つまり、式（３）により、第ｍステップにおける、各顧客の確率（サービス対象として選択する確率）が出力される。θ_{Ｐｏｉｎｔｅｒ}＝｛ｖ，Ｗ_１，Ｗ_２｝はポインタの学習可能なパラメータである。

　アクターネットワーク１３１の最終出力は、サービス経路ζであり、これはｍ個全てのＬＳＴＭセルの列（シーケンス）の出力に相当する。ここで、複数のＬＳＴＭをＭＤＰとして解釈することができる。ｐ（Ｄ_ｍ│Ｄ_１，Ｄ_２・・・Ｄ_ｍ－１，χ；θ）をｐ（Ｄ_ｍ）と略記する。

　＜Ｃ：マスキング＞
　前述したように、本実施の形態では、新規のマスキングアルゴリズムを提案し、それをアクターネットワーク１３１と結合してＶＲＰＴＷＴＣを最適化している。当該マスキングアルゴリズムでは、ロード‐需要マスキング、時間枠マスキング、及び時間コストマスキングの３つのサブマスキングが存在する。

　ロード‐需要マスキングは従来のＶＲＰ制約を解くために使用される。時間枠マスキングと時間コストマスキングはＶＲＰＴＷＴＣで定式化された新たな制約を最適化するために使用される。

　当該マスキングアルゴリズムがアクターネットワーク１３１と組み合わされ、強化学習における行動（アクション）の確率を出力する。最初に、これら３つのサブマスキングの各々を説明し、次に、アクターネットワークにおいてそれを結合する方法を説明する。なお、（２）、（３）は両方実施してもよいし、いずれか１つを実施してもよい。

　（１）ロード‐需要サブマスキング：
　サービス車両のサービス容量と顧客の需要の両方は有限であり、限られているため、サービス車両に残存するロードがなくなると、サービス車両は補給のためにサービスセンターに戻らなければならない。

　ここでは、このプロセスをモデル化するためにロード‐需要サブマスキングを使用する。各デコーダステップｍ∈（１，２…Ｍ）において、各顧客∈（１，２…Ｎ）における残存する需要δ_ｎ，ｍと、残存する車両ロードΔ_ｍを同時に追跡する。ｍ＝１で、これらはδ_ｎ，ｍ＝δ_ｎ、Δ_ｍ＝１として初期化され、その後、以下のように更新される。なお、π_ｍは、デコーダステップｍでサービス対象として選択された顧客のインデックスである。

　式（４）は、デコーダステップｍでｎ番目の顧客が選択された場合、次のデコーダステップｍ＋１で、顧客ｎの需要が、０（サービスを受けたこと）と、需要からロードを引いた値（サービス車両がサービス全体を提供するのに不十分な場合）のうちの大きいほうになることを示している。また、ｎ以外の他の顧客の需要は変化しないことを示す。

　式（５）は、ｍ＋１において、サービス車両がサービスセンターに戻った場合、車両のロードが１（補充される値）になり、それ以外は、車両のロードが、ｍにおけるロードからサービス対象の顧客の需要を引いた値（車両により顧客にサービス提供される場合）になることを示す。なお、本問題の定式化では、サービスセンターが０番目の顧客であるため、π_ｍ＝０は、サービス車両がサービスセンターに戻ったことを示す。

　（２）時間枠サブマスキング：
　本実施の形態における問題設定では、サービス車両は、各顧客に指定時刻（指定時間枠内）に到着しなければならないので、デコーダの各ステップでは、時間枠サブマスキングを追加して、指定時間に到達しそうにない顧客の確率を０にする。このように、顧客の確率を０にすることをマスキング又はフィルタリングと呼んでもよい。

　前述したように、式（３）は、ポインタ（Ｓｏｆｔｍａｘ）がベクトルｕ^ｍを、全ての入力顧客χに対する出力確率分布ｐ（Ｄ_ｍ）に正規化することを示している。ここで、ｐ（Ｄ_ｍ）は、ｎ次元ベクトルであり、デコーダのステップｍにおけるχ全体にわたる確率分布を示す。

　デコーダの各ステップｍにおいて、サービスする必要のある顧客の集合をχ´∈χで示す。このような集合を用いる理由は、いくつかの顧客はステップｍより前にサービスを受けるか、サービス車両が十分なロードを有しないためである。

　顧客数Ｎ´の顧客集合χ´について、χ´の顧客ｎ´毎に下記の処理を繰り返すことで、時間枠のサブマスキングτ_ｎ´，ｍを計算する：

　式（６）は、ｔ_{ｔｏｔａｌ}＋ｔ_ｍｏｖｅが、時間枠ｘ_ｎ ^ｆ３の範囲内でなければ、τ_ｎ´，ｍ＝０にする処理である。式（６）において、ｔ_{ｔｏｔａｌ}は、現在の経路における、直前にサービスを受けていた顧客までの総時間であり、ｔ_ｍｏｖｅは、直前にサービスを受けていた顧客からｎ´までの移動時間である。式（６）は、ある経路における総時間コストｔ_{ｔｏｔａｌ}と、前の顧客から現在の顧客ｎ´へ移動するのに費やされる時間ｔ_ｍｏｖｅを加えた値が、現在の顧客ｎ´の指定時間枠を超えた場合、その顧客に訪問する確率を０にすることを意味する
　（３）時間コストサブマスキング：
　時間コストサブマスキングは、総時間コストｔ_{ｔｏｔａｌ}が８時間を超える場合に、サービス車両をサービスセンターに強制的に戻すために使用されるものであり、下記の式（７）で表される。

　式（７）は、総時間コストｔ_{ｔｏｔａｌ}が８時間を超えた場合、ｎ＝０のｐ（Ｄ_ｍ）を１とし、０以外のｎのｐ（Ｄ_ｍ）を０とすることを意味する。ここで、ｎ＝０は、顧客がサービスセンターであることを意味する。前述したように、サービスセンターは、本問題の定式化において、０番目の顧客である。なお、ｔ_{ｔｏｔａｌ}を総稼働時間と呼んでもよい。

　図４にマスキング処理のアルゴリズム（アルゴリズム１）を示す。これは、図２のＭａｓｋｉｎｇ（マスキング部）が実行する処理である。第１行で、各顧客ｎ∈（１，２…Ｎ）について、顧客の需要ｘ_ｎ ^ｆ２、車両の容量Δ_０、時間枠ｘ_ｎ ^ｆ３、時間コストｘ_ｎ ^ｆ４を入力し、ｔ_{ｔｏｔａｌ}を０に初期化する。

　第２行は、各デコーダステップｍ＝１，２...．Ｍにおいて、ステップ３～１３を繰り返すことを意味する。第３行では、ステップｍにおいて、全顧客ｎ∈（１，２…Ｎ）で残存需要δ_ｎ，ｍ＝０であれば、ループの処理を終了する。

　第４行では、各顧客ｎ∈（１，２…Ｎ）において、δ_ｎ，ｍ＞０かつδ_ｎ，ｍ＜Δ_ｍであれば、ｍｓｋ_ｎ，ｍ＝１とし、そうでなければｍｓｋ_ｎ，ｍ＝０とする。ｍｓｋ_ｎ，ｍ＝１は、サービス可能であることを示し、ｍｓｋ_ｎ，ｍ＝０は、サービス済みあるいは車両容量不足を示し、その顧客をサービス対象にしないこと（確率を０にすること）を示す。

　第５行において、ベクトルｐ（Ｄ_ｍ）のＮ個のメンバを降順にソートして、ソート後インデックスｉ（１，２…Ｎ）を持つｐ_ｓｏｒｔ（Ｄ_ｍ）にする。

　第６行～第７行において、ｐ_ｓｏｒｔ（Ｄ_ｍ）における各ｉ番目のメンバｐ_{ｓｏｒｔ，ｉ}（Ｄ_ｍ）について、式（６）（時間枠サブマスキング）に基づき顧客をフィルタリング（マスキング）する。

　第８行において、Ｓｏｆｔｍａｘ（ｐ_{ｓｏｒｔ，ｉ}（Ｄ_ｍ））を新しいアクションポインタの確率として設定する。第９行において、式（７）による時間コストマスキングのチェックを行う。

　第１０行において、式（４）による残存需要δ_ｎ，ｍの更新を行う。第１１行において、式（５）により残存ロードの更新を行う。第１２行において、ｍをｍ＋１に更新する。第１３行において、ｎが０でなければ、ｔ_{ｔｏｔａｌ}＝ｔ_{ｔｏｔａｌ}＋ｔ_ｍｏｖｅ＋ｘ_ｎ ^ｆ４とする。これは、サービスセンターからある顧客でのサービス完了までの総稼働時間に、当該顧客から次の顧客までの移動時間と、当該次の顧客における時間コストとを足した値を、当該次の顧客における総稼働時間とすることを意味する。第１４行で処理を終了する。

　図４に示すとおり、アルゴリズム１に示すマスキングアルゴリズムには３つのサブマスキングが導入されている。データ入力と初期化の後、ＬＳＴＭベースのデコーダの各ステップｍで、まず、顧客の各需要について、全ての需要が０である場合、つまり、全ての顧客がサービスを受けた場合、デコーダループが終了する。

　もしそうでなければ、ゼロでない需要値を持つ全ての顧客を１でマスクする。なお、需要値は車両の動的ロードより小さい必要がある。

　次に、アクションネットワーク１３１で生成されたポインタの確率であるベクトルｐ（Ｄ_ｍ）のメンバを降順にソートし、ｐ_ｓｏｒｔ（Ｄ_ｍ）とする。その後、式（６）を用いて、時間枠と現在のサービス経路の総時間コストを考慮して、サービス不可能な顧客をフィルタリングしてｐ_{ｓｏｒｔ，ｉ}（Ｄ_ｍ）とし、Ｓｏｆｔｍａｘを用いてｐ_{ｓｏｒｔ，ｉ}（Ｄ_ｍ）を正規化する。

　更に、式（７）を用いて、トータル時間コストｔ_{ｔｏｔａｌ}が８時間を超えているかどうかを確認する。超えている場合は、サービス車両をサービスセンター（０番目の顧客）へ返す。最後に、動的需要δ_ｎ，ｍ、動的ロードΔ_ｍ、及び総時間コストｔ_{ｔｏｔａｌ}を更新し、次のデコーダステップｍ＋１に進む。

　＜Ｄ：アクター‐クリティック＞
　本実施の形態では、ポリシー（方策）と価値関数の両方を同時に学習するために、アクター‐クリティックに基づく深層強化学習を使用している。なお、アクター‐クリティックに基づく深層強化学習自体は既存技術である。

　アクターネットワーク１３１については、Ａで説明したように、学習可能な重みθ_{ａｃｔｏｒ}＝｛θ_{ｅｍｂｅｄｄｅｄ}，θ_ＬＳＴＭ，θ_{Ｐｏｉｎｔｅｒ}｝を持つ。

　本実施の形態では、アクターネットワーク１３１におけるポインタパラメータθ_{Ｐｏｉｎｔｅｒ}＝｛ν，Ｗ_１，Ｗ_２｝とＬＳＴＭパラメータθ_ＬＳＴＭを用いて、確率的（stochastic）ポリシーπをパラメトライズしている。確率的ポリシーπにより、任意の所与のデコーダステップで次の行動（どの顧客に訪問するか）に対する確率分布を生成する。

　一方、学習可能なパラメータθ_{ｃｒｉｔｉｃ}を持つクリティックネットワーク１３２は、強化学習における与えられた状態から任意の問題インスタンスに対する勾配を推定する。

　クリティックネットワーク１３２は、３つのＤｅｎｓｅ層からなり、静的及び動的の状態を入力とし、報酬を予測する。本実施の形態では、アクターネットワーク１３１の出力確率を重みとして使用し、埋め込まれた入力（Ｄｅｎｓｅ層からの出力）の加重和を計算することで、単一値を出力する。これは、クリティックネットワーク１３１によって予測される価値関数の出力と解釈できる。

　図５に、アクター‐クリティックのアルゴリズム（アルゴリズム２）を示す。

　第１行において、アクターネットワーク（Embedding2Seq with PN）をランダムな重みθ_{ａｃｔｏｒ}＝｛θ_{ｅｍｂｅｄｄｅｄ}，θ_ＬＳＴＭ，θ_{Ｐｏｉｎｔｅｒ}｝で初期化し、クリティックネットワークをランダムな重みθ_{ｃｒｉｔｉｃ}で初期化する。第２行及び第１７行は、第３行～第１６行を各エポックで繰り返すことを意味する。

　第３行において、パラメータの勾配であるｄθ_{ａｃｔｏｒ}と、ｄθ_{ｃｒｉｔｉｃ}をそれぞれ０にリセットする。第４行において、現在のθ_{ａｃｔｏｒ}を持つアクターネットワークに従ってＢ個のインスタンスをサンプルする。第５行及び第１４行は、Ｂにおける各サンプルについて、第６行～第１３行を繰り返すことを意味する。

　第６行において、現在のθ_{ｅｍｂｅｄｄｅｄ}に基づき、埋め込み層の処理を行って、ｘ_{ｎ－ｄｅｎｓｅ}（ｂａｔｃｈ）を得る。第７行及び第１２行は、各デコーダステップｍ∈（１，２，…．Ｍ）において、第８行～第１１行を繰り返すことを意味する。第８行は、終了条件を満たす限り、第９行～第１１行を繰り返すことを意味する。

　第９行において、分布ｐ（Ｄ_ｍ）に基づき、確率的(stochastic）デコーダに基づいてＤ_ｍを計算する。Ｄ_ｍは、第ｍステップにおいて、サービス対象（訪問先）となる顧客を示す。

　第１０行において、新しい状態の列Ｄ１，…，Ｄ_ｍ－１，Ｄ_ｍを観測する。第１１行において、ｍをｍ＋１で更新する。

　第１３行において、報酬Ｒを算出する。第１５行において、式（８）によるポリシー勾配∇θ_{ａｃｔｏｒ}を計算し、θ_{ａｃｔｏｒ}を更新する。第１６行において、勾配∇θ_{ｃｒｉｔｉｃ}を計算し、θ_{ｃｒｉｔｉｃ}を更新する。

　図５に示した、本実施の形態におけるアクター‐クリティックのアルゴリズム２は、学習プロセス（training process）を示している。この学習プロセスの後、テスト（実際の配送計画出力）を行うこととしてもよいし、学習を進めながらテストを行うこととしてもよい。

　既に説明したように、重みベクトルθ_{ａｃｔｏｒ}とθ_{ｃｒｉｔｉｃ}を持つ二つのニューラルネットワーク（アクターネットワークとクリティックネットワーク）を使用する。θ_{ａｃｔｏｒ}は、θ_{ｅｍｂｅｄｄｅｄ}、θ_ＬＳＴＭ、θ_{Ｐｏｉｎｔｅｒ}を含む。

　アクターネットワークの現在の重みθ_{ａｃｔｏｒ}を有する各学習の繰り返しにおいて、Ｂ個のサンプルを取得し、モンテカルロシミュレーションを用いて、現在のポリシーに基づいて実現可能性のある列（シーケンス）を生成する。これは、デコーダの各ステップにおいて、アクターネットワークの出力である分布ｐ（Ｄ_ｍ）に基づいて、ポインタＤ_ｍを確率的に計算することを意味する。

　サンプリングが終了すると、報酬とポリシーの勾配を計算し、第１５行においてアクターネットワークを更新する。このステップでは、Ｖ（Ｄ_ｍ；θ_{ｃｒｉｔｉｃ}）は、クリティックネットワークから近似される価値関数である。

　また、第１６行において、観察された報酬と期待される報酬との差を小さくする方向にクリティックネットワークを更新する。最後に、エンドツーエンドの方法で同じ学習速度で、勾配ｄθ_{ａｃｔｏｒ}と勾配ｄθ_{ｃｒｉｔｉｃ}を用いてθ_{ａｃｔｏｒ}とθ_{ｃｒｉｔｉｃ}を更新する。以下、ポリシー勾配と報酬について説明する。

　（１）ポリシー勾配：
　アルゴリズム２の第１５行では、アクターネットワークのポリシー勾配は、次のようにモンテカルロサンプリングによって近似される：

ここで、Ｒは経路インスタンスの報酬であり、サービング経路を示すＤ_ｍの列に対する報酬である。Ｖ（χ；θ_{ｃｒｉｔｉｃ}）は、全てのｒａｗ入力に対する報酬を予測する価値関数である。「Ｒ－Ｖ（χ；θ_{ｃｒｉｔｉｃ}）」は、従来の強化学習に基づくＶＲＰ法の累積報酬に代わるアドバンテージ関数として用いられている。アクターークリティックにおいて、アドバンテージ関数を使用する手法自体は既存技術である。

　２）報酬：
　本実施の形態では、既存技術と同様にツアー（総経路）の長さに基づいた報酬関数を使用する。時間枠に違反した場合にペナルティ値を加えるペナルティ項が含まれていてもよい。なお、ツアーの長さを用いることは例であり、長さ以外の報酬関数を用いてもよい。

　（ハードウェア構成例）
　配送計画装置１００は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。

　すなわち、配送計画装置１００は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、配送計画装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図６は、上記コンピュータのハードウェア構成例を示す図である。図６のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、ライトタッチ維持装置１００に係る機能を実現する。インタフェース装置１００５は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

　（実施の形態の効果）
　以上、説明したように、本実施の形態に係る技術により、下記の（１）、（２）、（３）に示すような効果を奏する。

　（１）従来のように人手でサービス車両の配車計画を作成することに比べて、大幅に配車計画の計算時間を削減できる。すなわち、ＮＰ困難なＶＲＰ問題は、顧客の数が多くなればなるほど、計算量が膨大になるため、人手で計算することが難しい。従来のＯＲベースの手法では対応できない５０～１００の顧客が存在する場合でも、本実施の形態に係る技術により１秒以内での計算が可能となる。

　（２）ＶＲＰ問題において、顧客の指定時刻通りの到着、かつ各サービス車両の１日あたり８時間以内の勤務、との制限を考慮して、経路を最適化することが可能となる。

　（３）地図ＡＰＩを活用することで、実際の移動経路、及び移動時間を計算することができ、かつ経路の画像も出力できるため、より正確な実験や分かりやすい配車計画を出力することができる。

　（実施の形態のまとめ）
　本明細書には、少なくとも下記各項の配送計画装置、配送計画方法、及びプログラムが開示されている。
（第１項）
　アクター‐クリティック方式による強化学習を行うニューラルネットワークを用いて、サービスセンターから出発する車両により複数の顧客に対してサービス提供を行うための経路を決定する配送計画問題を解くアルゴリズム計算部を備え、
　前記アルゴリズム計算部は、顧客に到着するべき時間の範囲を示す時間枠と、顧客におけるサービス提供にかかる時間長を示す時間コストとを制約として、前記配送計画問題を解く
　配送計画装置。
（第２項）
　前記アルゴリズム計算部は、前記ニューラルネットワークにおけるデコーダを用いて得られた顧客の確率分布に対して、前記時間枠の制約を満たさない顧客に対するマスキングを行う
　第１項に記載の配送計画装置。
（第３項）
　前記アルゴリズム計算部は、前記車両の総稼働時間に基づく値が閾値を超えた場合に、前記車両がサービスセンターに戻るように、前記ニューラルネットワークにおけるデコーダを用いて得られた顧客の確率分布に対するマスキングを行う
　第１項又は第２項に記載の配送計画装置。
（第４項）
　前記アルゴリズム計算部は、サービスセンターからある顧客でのサービス完了までの総稼働時間に、当該顧客から次の顧客までの移動時間と、当該次の顧客における時間コストとを足した値を、当該次の顧客における総稼働時間とする
　第３項に記載の配送計画装置。
（第５項）
　前記アルゴリズム計算部により計算された配送計画である各顧客への訪問の経路を地図上に描く地図ＡＰＩ部
　を更に備える第１項ないし第４項のうちいずれか１項に記載の配送計画装置。
（第６項）
　配送計画装置が実行する配送計画方法であって、
　アクター‐クリティック方式による強化学習のニューラルネットワークを用いて、サービスセンターから出発する車両により複数の顧客に対してサービス提供を行うための経路を決定する配送計画問題を解くアルゴリズム計算ステップを備え、
　前記アルゴリズム計算ステップにおいて、顧客に到着するべき時間の範囲を示す時間枠と、顧客におけるサービス提供にかかる時間長を示す時間コストとを制約として、前記配送計画問題を解く
　配送計画方法。
（第７項）
　コンピュータを、第１項ないし第５項のうちずれか１項に記載の配送計画装置における各部として機能させるためのプログラム。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００　配送計画装置
１１０　ユーザ情報収集部
１２０　サービス車両情報収集部
１３０　アルゴリズム計算部
１４０　地図ＡＰＩ部
１５０　配車部
１０００　ドライブ装置
１００１　記録媒体
１００２　補助記憶装置
１００３　メモリ装置
１００４　ＣＰＵ
１００５　インタフェース装置
１００６　表示装置
１００７　入力装置
１００８　出力装置

Claims

　アクター‐クリティック方式による強化学習を行うニューラルネットワークを用いて、サービスセンターから出発する車両により複数の顧客に対してサービス提供を行うための経路を決定する配送計画問題を解くアルゴリズム計算部を備え、
　前記アルゴリズム計算部は、顧客に到着するべき時間の範囲を示す時間枠と、顧客におけるサービス提供にかかる時間長を示す時間コストとを制約として、前記配送計画問題を解く
　配送計画装置。
　前記アルゴリズム計算部は、前記ニューラルネットワークにおけるデコーダを用いて得られた顧客の確率分布に対して、前記時間枠の制約を満たさない顧客に対するマスキングを行う
　請求項１に記載の配送計画装置。
　前記アルゴリズム計算部は、前記車両の総稼働時間に基づく値が閾値を超えた場合に、前記車両がサービスセンターに戻るように、前記ニューラルネットワークにおけるデコーダを用いて得られた顧客の確率分布に対するマスキングを行う
　請求項１又は２に記載の配送計画装置。
　前記アルゴリズム計算部は、サービスセンターからある顧客でのサービス完了までの総稼働時間に、当該顧客から次の顧客までの移動時間と、当該次の顧客における時間コストとを足した値を、当該次の顧客における総稼働時間とする
　請求項３に記載の配送計画装置。
　前記アルゴリズム計算部により計算された配送計画である各顧客への訪問の経路を地図上に描く地図ＡＰＩ部
　を更に備える請求項１ないし４のうちいずれか１項に記載の配送計画装置。
　配送計画装置が実行する配送計画方法であって、
　アクター‐クリティック方式による強化学習のニューラルネットワークを用いて、サービスセンターから出発する車両により複数の顧客に対してサービス提供を行うための経路を決定する配送計画問題を解くアルゴリズム計算ステップを備え、
　前記アルゴリズム計算ステップにおいて、顧客に到着するべき時間の範囲を示す時間枠と、顧客におけるサービス提供にかかる時間長を示す時間コストとを制約として、前記配送計画問題を解く
　配送計画方法。
　コンピュータを、請求項１ないし５のうちずれか１項に記載の配送計画装置における各部として機能させるためのプログラム。