WO2023243047A1

WO2023243047A1 - タスク割当装置、方法およびプログラム

Info

Publication number: WO2023243047A1
Application number: PCT/JP2022/024163
Authority: WO
Inventors: 和陽明石; 俊介金井; 正崇佐藤; まな美小川; 麻悠山添
Original assignee: 日本電信電話株式会社
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2023-12-21

Abstract

一実施形態に係るタスク割当装置は、複数のタスクに対する動作の主体となる複数のエージェントの各々の特徴を示す情報、および複数のタスクの各々の特徴を示す情報をニューラルネットワークに入力し、この入力の結果に基づいて、エージェントに対するタスクの割り当てを示す情報を生成する割当部と、割当部により生成された情報に基づいて、エージェントによるタスクに対する動作の解を生成する生成部と、ニューラルネットワークのパラメータの学習用の情報である複数のエージェントの各々の特徴を示す情報および複数のタスクの各々の特徴を示す情報に対する割当部により生成された情報に基づいて生成された、エージェントによるタスクに対する動作の解の良し悪しを評価して、この評価の結果に応じてニューラルネットワークのパラメータを更新する学習処理を行なう学習部と、を有する。

Description

タスク割当装置、方法およびプログラム

　本発明の実施形態は、タスク割当装置、方法およびプログラムに関する。

　配送計画問題は、宅配便の荷物または被災地への支援物資などの荷物を多数の地点へ配送する又は当該多数の地点から集荷するにあたり、様々な制約条件（constraints）の下で最適な巡回計画を求める、組み合わせ最適化問題（combinatorial optimization problem）（以下、単に問題と称することがある）である。

　複数のエージェント（agent）、例えば車両による組み合わせ最適化問題を解く一つのアプローチ（approach）として、（ｉ）各エージェントにタスク（task）、例えばエージェントによる訪問地点（巡回先と称することがある）を割り当て、（ｉｉ）各エージェントに割り当てられたタスクについての解を生成し、これらの解を統合することで近似解（approximate solution）としての巡回計画を作成して出力する方法がある。

　従来では、例えば非特許文献１に開示されるような遺伝的アルゴリズム（algorithm）等を活用して上記（ｉ）および（ｉｉ）を繰り返し行なうことで、より良い解を探索する手法が提案されている。

伊藤匡志（Masashi Ito）, 渡邉真也（Shinya Watanabe）, 榊原一紀（Kazutoshi Sakakibara）, "大規模Vehicle Routing Problemに対する部分問題化と適応的問題統合に基づく新たな探索フレームワークの提案（A Proposal on new Search Framework Based on Problem Decomposition and Adaptive Combination of Subproblems for Large Scale Vehicle Routing Problems）, " 進化計算学会論文誌（Transaction of the Japanese Society for Evolutionary Computation） 6(3), pp.146-158, 2016. Mohammadreza Nazari, Afshin Oroojlooy, Martin Takac, and Lawrence V. Snyder, Reinforcement learning for solving the vehicle routing problem, 32nd Conference on Neural Information Processing Systems (2018).

　一方で、上記のような手法では、上記の、より良い解を探索するために、上記のタスクの割り当て、解の生成、および統合を繰り返し行う必要があることから、大規模な問題を解く場合には、巡回計画の近似値が出力されるまでに長い時間を要する可能性がある。

　この発明は、上記事情に着目してなされたもので、その目的とするところは、エージェントによるタスクに対する動作の適切な解を得ることができるようにしたタスク割当装置、方法およびプログラムを提供することにある。

　本発明の一態様に係るタスク割当装置は、複数のタスクに対する動作の主体となる複数のエージェントの各々の特徴を示す情報、および前記複数のタスクの各々の特徴を示す情報をニューラルネットワークに入力し、この入力の結果に基づいて、前記エージェントに対する前記タスクの割り当てを示す情報を生成する割当部と、前記割当部により生成された情報に基づいて、前記エージェントによる前記タスクに対する動作の解を生成する生成部と、前記ニューラルネットワークのパラメータの学習用の情報である複数のエージェントの各々の特徴を示す情報および前記複数のタスクの各々の特徴を示す情報に対する前記割当部により生成された情報に基づいて前記生成部により生成された、前記エージェントによる前記タスクに対する動作の解の良し悪しを評価して、この評価の結果に応じて前記ニューラルネットワークのパラメータを更新する学習処理を行なう学習部と、を備える。

　本発明の一態様に係るタスク割当方法は、タスク割当装置により行なわれる方法であって、前記タスク割当装置の割当部により、複数のタスクに対する動作の主体となる複数のエージェントの各々の特徴を示す情報、および前記複数のタスクの各々の特徴を示す情報をニューラルネットワークに入力し、この入力の結果に基づいて、前記エージェントに対する前記タスクの割り当てを示す情報を生成し、前記タスク割当装置の生成部により、前記割当部により生成された情報に基づいて、前記エージェントによる前記タスクに対する動作の解を生成し、前記タスク割当装置の学習部により、前記ニューラルネットワークのパラメータの学習用の情報である複数のエージェントの各々の特徴を示す情報および前記複数のタスクの各々の特徴を示す情報に対する前記割当部により生成された情報に基づいて前記生成部により生成された、前記エージェントによる前記タスクに対する動作の解の良し悪しを評価して、この評価の結果に応じて前記ニューラルネットワークのパラメータを更新する学習処理を行なう。

　本発明によれば、エージェントによるタスクに対する動作の適切な解を得ることができる。

図１は、本発明の一実施形態に係る巡回計画生成装置による、各車両への訪問地点の割り当ての一例を示す図である。図２は、本発明の一実施形態に係る巡回計画生成装置による、各車両による訪問地点までの配送ルート（route）の生成の一例を示す図である。図３は、本発明の一実施形態に係る巡回計画生成装置による、ニューラルネットワーク（neural network）のパラメータ（parameter）の決定に係る手順の一例を示すフローチャート（flowchart）である。図４は、本発明の一実施形態に係る巡回計画生成装置により取り扱う、各訪問地点への各車両の巡回計画の最適化問題の一例を説明する図である。図５は、本発明の一実施形態に係る巡回計画生成装置に適用されるニューラルネットワークの構成の一例を説明する図である。図６は、本発明の一実施形態に係る巡回計画生成装置の適用例を示す図である。図７は、本発明の一実施形態に係る巡回計画生成装置の別の適用例を示す図である。図８は、本発明の一実施形態に係る巡回計画生成装置の解生成部による処理の一例を説明する図である。図９は、本発明の一実施形態に係る巡回計画生成装置の割当学習部による処理の手順の一例を示すフローチャートである。図１０は、本発明の一実施形態に係る巡回計画生成装置のハードウエア（hardware）構成の一例を示すブロック図（block diagram）である。

　以下、図面を参照しながら、この発明に係わる一実施形態を説明する。　
　図１は、本発明の一実施形態に係る巡回計画生成装置による、各車両への訪問地点の割り当ての一例を示す図である。図２は、本発明の一実施形態に係る巡回計画生成装置による、各車両による訪問地点までの配送ルートの生成の一例を示す図である。図３は、本発明の一実施形態に係る巡回計画生成装置による、ニューラルネットワークのパラメータの決定に係る手順の一例を示すフローチャートである。

　本実施形態では、下記の（ｉ）および（ｉｉ）のように、巡回計画生成装置（タスク割当装置）による、各エージェントへのタスクの割り当てを、強化学習（reinforcement learning）を活用して実施する。エージェントは、自身に割り当てられたタスクに対する動作の主体である。本実施形態では、エージェントは、荷物を配送または集荷する車両であり、タスクは、車両による訪問地点（巡回先）である。

　（ｉ）　まず、巡回計画生成装置は、問題の情報（タスク情報、エージェント情報）（図１の符号ａ）をニューラルネットワーク（図１の符号ｂ）に入力し、各エージェントにタスクを割り当てる。ここでは、ニューラルネットワークからの出力による、問題の情報で示される１つ目のエージェントへのタスクの割り当て情報（図１の符号ｃ１）と、問題の情報で示される２つ目のエージェントへのタスクの割り当て情報（図１の符号ｃ２）が示される。

　（ｉｉ）　次に、巡回計画生成装置は、エージェント毎に割り当てられたタスク（図２の符号ｃ１，ｃ２）について解を生成し（図２の符号ｄ）、これらの解を統合する（図２の符号ｅ）ことで、各車両が各訪問地点を巡回するルートの計画、いわゆる訪問計画（巡回計画などと称しても良い）が生成される（図２の符号ｆ）。このとき、上記の解の生成では、単一のエージェントについての問題を解く任意のソルバ（solver）が使用されてよい。

　図１に示されたニューラルネットワークの学習可能なパラメータである学習パラメータ（単にパラメータと称することがある）は、事前に強化学習が行なわれることで決定される。　
　例えば、ランダム（random）に大量の最適化問題が生成された上で（Ｓ１）、巡回計画生成装置は、これらの問題について上記（ｉ）の処理を実施して各エージェントにタスクを割り当てる（Ｓ２）。　
　巡回計画生成装置は、上記（ｉｉ）の処理を実施して、この処理の結果について解を生成し（Ｓ３）、この解を用いて、エージェントによるタスクに対する動作の解の良し悪しを示す報酬（reward）を計算し（Ｓ４）、この報酬ができるだけ大きくなるように、ニューラルネットワークの学習パラメータを更新する（Ｓ５）。

　そして、学習に係る予め定められた終了条件が満たされていないとき、例えば予め定められた問題である、数の最適化問題を用いたときの学習パラメータの更新が終了していないときは（Ｓ６のＮｏ）、Ｓ２に戻り、上記終了条件が満たされたときは（Ｓ６のＹｅｓ）、パラメータの決定に係る一連の処理が終了する。　
　これにより、各エージェントに対して適切にタスクを割り当てることを可能にするニューラルネットワークを得ることができる。

　図４は、本発明の一実施形態に係る巡回計画生成装置により取り扱う、各訪問地点への各車両の巡回計画の最適化問題の一例を説明する図である。図５は、本発明の一実施形態に係る巡回計画生成装置に適用されるニューラルネットワークの構成の一例を説明する図である。図６は、本発明の一実施形態に係る巡回計画生成装置の適用例を示す図である。　
　図４に示されたニューラルネットワーク（図４の符号ｂ）は、図５に示されたアテンション機構（attention mechanism）（図５の符号ａ）、エンコーダ（encoder）（図５の符号ｂ）、およびデコーダ（decoder）（図５の符号ｃ）を有する。エンコーダには、各エージェントの情報が入力され、デコーダには、各タスクの情報が入力される。

　アテンション機構は、デコーダに入力された各タスクが割り当てられるエージェントの尤度（likelihood）を算出する。　
　そして、アテンション機構は、タスク（訪問地点）ごとに、尤度が最も高いエージェントに当該タスクを割り当てる。

　図５に示された例は、上記非特許文献２に開示されるような再帰型ニューラルネットワーク（Recurrent Neural Network (RNN)）が応用された例である。従来では、このようなニューラルネットワークは、１台の車両の巡回ルートを出力することに用いられていた。例えば、エンコーダに各車両の情報が、デコーダに各車両による直近の各訪問地点の情報が順次入力され、アテンション機構によって、車両が次に訪問可能な地点の各々の尤度が算出される。そして、これらの地点のうち尤度が最も高い地点が車両による次の訪問地点として選択される。　
　本実施形態では、このニューラルネットワークを、複数の車両に対する訪問地点の割り当てに応用する。　
　本実施形態では、上記のニューラルネットワークにより，任意の数の訪問地点を任意の台数の車両のいずれか１台に割り当てることを可能とする。

　図６は、本発明の一実施形態に係る巡回計画生成装置の適用例を示す図である。　
　図６に示された例では、本発明の一実施形態に係る巡回計画生成装置１００は、タスク割当部１０、学習パラメータ記憶部２０、解生成部３０、および割当学習部４０を有する。

　タスク割当部１０は、エージェントの特徴を示すエージェント情報およびタスクの特徴を示すタスク情報が含まれる問題情報を入力し、この問題に含まれるタスク情報とエージェント情報をニューラルネットワークに入力し、各エージェントに対してタスクが割り当てられた割当情報を出力する。ニューラルネットワークのパラメータは、逐次学習（更新）されて学習パラメータ記憶部２０に記憶される。

　解生成部３０は、タスク割当部１０から出力された割当情報に基づいて、エージェントが割り当てられるタスクへの巡回経路の解をエージェントごとに生成し、これらの解を統合して出力する。　
　割当学習部４０は、予め定められた学習設定に則って強化学習を行なうことで、学習パラメータ記憶部２０に記憶される、ニューラルネットワークのパラメータを更新する。割当学習部４０は、学習の終了条件が満たされないときはタスク割当部１０への処理指令を出力し、この指令に従い、終了条件が満たされるまでタスク割当部１０、解生成部３０および割当学習部４０による処理が引き続き行なわれる。

　上記の問題情報は、タスク、例えば訪問地点、エージェント、例えば訪問地点を巡回する車両の位置等の問題を構成する情報を含む。また、上記の学習設定は、学習の終了条件および報酬の計算方法等の、強化学習が実行されるときの条件に関する情報を含む。

　図７は、本発明の一実施形態に係る巡回計画生成装置の別の適用例を示す図である。図７に示された例では、図６に示された巡回計画生成装置１００が、当該巡回計画生成装置１００が有する機能のうちニューラルネットワークのパラメータの学習以外の機能を有する巡回計画生成装置１００ａ、および上記巡回計画生成装置１００が有する機能のうちニューラルネットワークのパラメータの学習の機能を有するパラメータ学習装置１００ｂに分離された構成が示される。

　詳しくは、巡回計画生成装置１００ａは、タスク割当部１０ａおよび解生成部３０ａを有し、パラメータ学習装置１００ｂは、タスク割当部１０ｂ、解生成部３０ｂ、および割当学習部４０ｂを有する。タスク割当部１０ｂ、解生成部３０ｂは、学習用の問題に対して、図６に示されたタスク割当部１０および解生成部３０と同様の処理を行なう。

　ここでは、学習用の問題に対する、パラメータ学習装置１００ｂのタスク割当部１０ｂおよび解生成部３０ｂによる処理結果に基づいて、割当学習部４０ｂは、ニューラルネットワークのパラメータの学習処理を行ない、この学習の結果を学習パラメータとして巡回計画生成装置１００ａに出力する。割当学習部４０ｂは、学習の終了条件が満たされないときはタスク割当部１０ｂへの処理指令を出力し、この指令に従い、終了条件が満たされるまでタスク割当部１０ｂ、解生成部３０ｂおよび割当学習部４０ｂによる処理が引き続き行なわれる。

　巡回計画生成装置１００ａのタスク割当部１０ａは、パラメータ学習装置１００ｂからの学習パラメータを、問題情報とともに入力し、問題情報に含まれるタスク情報とエージェント情報をニューラルネットワークに入力し、各エージェントに対してタスクが割り当てられた割当情報を出力する。　
　解生成部３０ａは、図６に示された解生成部３０と同様に、タスク割当部１０ａから出力された割当情報に基づいて、エージェントが割り当てられるタスクへの巡回経路の解をエージェントごとに生成し、これらの解を統合して出力する。

　次に、図６に示されたタスク割当部１０に入力される問題情報の例について説明する。ここでは図４に示された問題情報（図４の符号ａ）を例として説明する。問題情報は、少なくとも、各タスクの情報Ｘと、各エージェントの情報Ｚを含む。

　タスクの情報Ｘは、例えば、車両による訪問地点の位置情報等である。その他、タスクの情報Ｘは、訪問地点による物資の要求量、および時間制約等の、問題の解を求めるために必要な情報が含まれ得る。

　エージェントの情報Ｚは、例えば、車両の位置情報等である。その他、エージェントの情報Ｚには、車両に搭載される物資の量等の問題の解を求めるために必要な情報が含まれ得る。

　タスクの情報Ｘは、例えば以下の式（１）のように、Ｎ個のタスクの情報として表現される。　
　Ｘ＝（ｘ^１，ｘ^２，…，ｘ^Ｎ）：各タスク（訪問地点）の情報（Ｎ:タスク数）　…式（１）

　図４に示された例では、タスクは、タスクｘ^１，ｘ^２，ｘ^３，ｘ^４，ｘ^５およびｘ^６を含む。　
　タスクの情報Ｘにおける、上記図４に示されたタスクｘ^１，ｘ^２，ｘ^３，ｘ^４，ｘ^５およびｘ^６の位置情報（ｘ座標，ｙ座標）は、例えば以下の式（２）のように表現され得る。　
　Ｘ＝((0.1,0.5), (0.4,0.9), (0.5,0.3), (0.7,0.8), (0.8,0.1), (0.9,0.5))　…式（２）　
　この位置情報には、例えば訪問地点の緯度経度を基に正規化された値等が用いられる。

　また、エージェントの情報Ｚは、例えば以下の式（３）のように、Ｍ個のエージェントの情報として表現される。　
　Ｚ＝（ｚ^１，ｚ^２，…，ｚ^Ｍ）：出力ステップtにおける各エージェント（車両）の情報（Ｍ:エージェント数）　…式（３）

　図４に示された例では、エージェントは、エージェントｚ^１およびｚ^２を含む。　
　エージェントの情報Ｚにおける、上記図４に示されたエージェントｚ^１およびｚ^２の位置情報（ｘ座標，ｙ座標）は、例えば以下の式（４）のように表現され得る。　
　Ｚ＝((0.2,0.7), (0.8,0.3))　…式（４）　
　この位置情報は、例えば車両の現在位置の緯度経度を基に正規化された値等が用いられる。

　次に、タスク割当部１０による処理の詳細の例について説明する。　
　図６に示されたタスク割当部１０は、問題情報に含まれるタスクおよびエージェントの情報をニューラルネットワークに入力し、各エージェントにタスクが割り当てられた割当情報を出力する。

　タスク割当部１０は、図５に示されたようなニューラルネットワークのエンコーダに各車両（エージェント）の情報を入力し、当該ニューラルネットワークのデコーダに各訪問地点（タスク）の情報を順次入力することで、各車両に訪問地点が割り当てられた割当情報を出力する処理を行なう。　
　このような処理は、図４に示された全ての車両（エージェント）ｚ^１およびｚ^２ならびに図４に示された全ての訪問地点（タスク）ｘ^１，ｘ^２，ｘ^３，ｘ^４，ｘ^５およびｘ^６の情報が順次入力されるまで繰り返される。

　図５に示された再帰型ニューラルネットワークのアテンション機構は、ある訪問地点の情報と前ステップの出力（隠れベクトル（hidden vector））を入力し、当該訪問地点が候補として割り当てられる各車両の尤度を出力する。　
　そして、アテンション機構は、各車両のうち、同じ訪問地点との関係にて出力された尤度が最も高い車両への上記候補の訪問地点、すなわち当該尤度の算出に用いられた訪問地点の割り当てを決定する。このような決定が各訪問地点についてなされることで、各車両に対する訪問地点の割り当てが決定される。

　例えば図４、図５に示された訪問地点（タスク）ｘ^１については、この訪問地点ｘ^１が第１の候補として割り当てられる車両（エージェント）ｚ^１の尤度と、同じ訪問地点ｘ^１が第２の候補として割り当てられる車両ｚ^２の尤度がそれぞれ出力され、ここでは、車両ｚ^１の尤度が最も高いので、訪問地点ｘ^１の割り当て先は車両ｚ^１であると決定される。他の訪問地点ｘ^２，ｘ^３，ｘ^４，ｘ^５およびｘ^６についても割り当て先の車両が同様に決定される。
　図４の符号ｃ１で示された例では、上記のような決定により車両（エージェント）ｚ^１に、訪問地点（タスク）ｘ^１，ｘ^２およびｘ^４が割り当てられた第１の割当情報が示される。
　また、図４の符号ｃ２で示された例では、上記のような決定により車両（エージェント）ｚ^２に訪問地点（タスク）ｘ^３，ｘ^５およびｘ^６が割り当てられた第２の割当情報が示される。上記の割当情報での割り当ての関係は、図５の実線で示された関係に相当する。

　なお、問題の制約条件として、容量制約、例えば各車両が巡回可能な訪問地点の最大数等が存在するときは、本実施形態のタスク割当部１０は、制約条件を満たさない車両の尤度を０に設定することで、当該車両に訪問地点が割り当てられないよう制御することも可能である。

　最後に、上記割り当てられた結果をもとに、タスク割当部１０は、元の「複数の車両の配送計画問題」（図４の符号ａ参照）を「複数の『単一車両の配送計画問題』」での割当結果（図４の符号ｃ１、ｃ２参照）に分割された結果をニューラルネットワークから出力する。

　次に、解生成部３０による処理の詳細の例について説明する。　
　図８は、本発明の一実施形態に係る巡回計画生成装置の解生成部による処理の一例を説明する図である。　
　解生成部３０は、エージェント毎に割り当てられたタスクについて解を生成し、これらを統合する。例えば、解生成部３０は、ニューラルネットワークからの出力による、問題の情報で示される１つ目のエージェントへのタスクの割り当て情報（図８の符号ｃ１）と、問題の情報で示される２つ目のエージェントへのタスクの割り当て情報（図８の符号ｃ２）を入力し、各車両（エージェント）が訪問地点（タスク）を巡回するルート（順序）をソルバ（図８の符号ｄ）を用いて計算し、これらを統合する（図８の符号ｆ）ことで、各車両が各訪問地点を巡回するルートの計画を生成する（図８の符号ｇ）。

　ソルバには、単一のエージェントについての問題を解く従来技術が利用され得る。図８に示された例では、第１の車両（エージェント）が訪問地点（タスク）を巡回するルート（順序）（図８の符号ｅ１）がソルバを用いて計算され、第２の車両（エージェント）が訪問地点（タスク）を巡回するルート（順序）（図８の符号ｅ２）がソルバを用いて計算された例が示される。
　上記統合の方法は、出力されたそれぞれの解を一つに結合する等が挙げられる。

　次に、割当学習部４０による処理の詳細の例について説明する。　
　図９は、本発明の一実施形態に係る巡回計画生成装置の割当学習部による処理の手順の一例を示すフローチャートである。　
　割当学習部４０は、学習設定に則って強化学習を行ない、タスク割当部１０により用いられるニューラルネットワークの学習パラメータを更新（学習）する。　
　まず、割当学習部４０による処理にあたり、まず、学習用の問題が生成されるとする（Ｓ１１）。例えば、訪問地点の情報と車両の情報（車両の位置等）がランダムに決定されて、学習用の問題が生成され得る。

　次に、上記で説明した、タスク割当部１０および解生成部３０による処理が実行されて、学習用の問題の解、すなわち車両による各訪問地点への巡回ルートが生成される（Ｓ１２）。

　そして、割当学習部４０は、Ｓ１２で生成された解について、エージェントに対するタスクの割当ての良し悪しを示す報酬を計算する（Ｓ１３）。報酬の計算式は、報酬が大きいほど良い割り当てとなるように、例えばユーザにより事前に決定され得る。

　例えば、車両の移動距離の合計ができるだけ小さい解を生成したい場合は、報酬の計算式は、以下の式（４）で示され得る。　
　報酬＝－１×各車両の移動距離の合計　…式（４）

　最後に、割当学習部４０は、Ｓ１３で計算された報酬に基づいて、タスク割当部１０により用いられるニューラルネットワークの学習パラメータを更新する（Ｓ１４）。学習パラメータの更新方法については、例えば上記の非特許文献２に開示された方法が利用可能である。

　そして、割当学習部４０は、学習設定で指定された終了条件が満たされないときは（Ｓ１５のＮｏ）、タスク割当部１０への処理指令を出力し、この指令に従い、終了条件が満たされるまで、タスク割当部１０、解生成部３０および割当学習部４０による処理が引き続き行なわれる。すなわち、上記のＳ１２～Ｓ１４の処理が、学習設定で指定された終了条件が満たされるまで繰り返される。そして、終了条件が満たされると（Ｓ１５のＹｅｓ）、最終的に更新された学習パラメータが学習パラメータ記憶部２０に記憶されて、学習パラメータの更新に係る一連の処理が終了する。

　図１０は、本発明の一実施形態に係る巡回計画生成装置のハードウエア構成の一例を示すブロック図である。　
　図１０に示された例では、上記の実施形態に係る図６に示された巡回計画生成装置１００は、例えばサーバコンピュータ（server computer）またはパーソナルコンピュータ（personal computer）により構成され、ＣＰＵ（Central Processing Unit）等のハードウエアプロセッサ（hardware processor）５１１Ａを有する。そして、このハードウエアプロセッサ５１１Ａに対し、プログラムメモリ（program memory）５１１Ｂ、データメモリ（data memory）５１２、入出力インタフェース（interface）５１３及び通信インタフェース５１４が、バス（bus）５１５を介して接続される。図７に示された巡回計画生成装置１００ａおよびパラメータ学習装置１００ｂについても同様である。

　通信インタフェース５１４は、例えば１つ以上の無線の通信インタフェースユニットを含んでおり、通信ネットワーク（network）ＮＷとの間で情報の送受信を可能にする。無線インタフェースとしては、例えば無線ＬＡＮ（Local Area Network）などの小電力無線データ通信規格が採用されたインタフェースが使用される。

　入出力インタフェース５１３には、入力デバイス２００および出力デバイス３００が接続される。　
　入出力インタフェース５１３は、キーボード、タッチパネル（touch panel）、タッチパッド（touchpad）、マウス（mouse）等の入力デバイスを通じて利用者などにより入力された操作データを取り込むことができ、出力データを液晶または有機ＥＬ（Electro Luminescence）等が用いられた表示デバイスを含む出力デバイスへ出力して表示させる処理を行なうことができる。なお、入力デバイス２００および出力デバイス３００には、巡回計画生成装置１００に内蔵されたデバイスが使用されてもよく、また、ネットワークを介して巡回計画生成装置１００と通信可能である他の情報端末の入力デバイスおよび出力デバイスが使用されてもよい。

　プログラムメモリ５１１Ｂは、非一時的な有形の記憶媒体として、例えば、ＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリ（non-volatile memory）と、ＲＯＭ（Read Only Memory）等の不揮発性メモリとが組み合わせて使用されたもので、一実施形態に係る各種制御処理等を実行する為に必要なプログラムが格納されている。

　データメモリ５１２は、有形の記憶媒体として、例えば、上記の不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリ（volatile memory）とが組み合わせて使用されたもので、各種処理が行なわれる過程で取得および作成された各種データが記憶される為に用いられる。

　本発明の一実施形態に係る巡回計画生成装置１００は、ソフトウエア（software）による処理機能部として、図６などに示された各部を有するデータ処理装置として構成され得る。

　巡回計画生成装置１００の各部によるワークメモリ（working memory）などとして用いられる各情報記憶部および学習パラメータ記憶部２０は、図１０に示されたデータメモリ５１２が用いられることで構成され得る。ただし、これらの構成される記憶領域は巡回計画生成装置１００内に必須の構成ではなく、例えば、ＵＳＢ（Universal Serial Bus）メモリなどの外付け記憶媒体、又はクラウド（cloud）に配置されたデータベースサーバ（database server）等の記憶装置に設けられた領域であってもよい。

　上記の処理機能部は、いずれも、プログラムメモリ５１１Ｂに格納されたプログラムを上記ハードウエアプロセッサ５１１Ａにより読み出させて実行させることにより実現され得る。なお、これらの処理機能部の一部または全部は、特定用途向け集積回路（ＡＳＩＣ（Application Specific Integrated Circuit））またはＦＰＧＡ（Field-Programmable Gate Array）などの集積回路を含む、他の多様な形式によって実現されてもよい。

　また、各実施形態に記載された手法は、計算機（コンピュータ）に実行させることができるプログラム（ソフトウエア手段）として、例えば磁気ディスク（フロッピー（登録商標）ディスク（Floppy disk）、ハードディスク（hard disk）等）、光ディスク（optical disc）（ＣＤ－ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ（Flash memory）等）等の記録媒体に格納し、また通信媒体により伝送して頒布され得る。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段（実行プログラムのみならずテーブル（table）、データ構造も含む）を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。

　なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

　　１００，１００ａ…巡回計画生成装置
　　１００ｂ…パラメータ学習装置
　　１０，１０ａ，１０ｂ…タスク割当部
　　２０…学習パラメータ記憶部
　　３０，３０ａ，３０ｂ…解生成部
　　４０，４０ｂ…割当学習部

Claims

　複数のタスクに対する動作の主体となる複数のエージェントの各々の特徴を示す情報、および前記複数のタスクの各々の特徴を示す情報をニューラルネットワークに入力し、この入力の結果に基づいて、前記エージェントに対する前記タスクの割り当てを示す情報を生成する割当部と、
　前記割当部により生成された情報に基づいて、前記エージェントによる前記タスクに対する動作の解を生成する生成部と、
　前記ニューラルネットワークのパラメータの学習用の情報である複数のエージェントの各々の特徴を示す情報および前記複数のタスクの各々の特徴を示す情報に対する前記割当部により生成された情報に基づいて前記生成部により生成された、前記エージェントによる前記タスクに対する動作の解の良し悪しを評価して、この評価の結果に応じて前記ニューラルネットワークのパラメータを更新する学習処理を行なう学習部と、
　を備えるタスク割当装置。
　前記割当部は、
　　同じ前記エージェントに対する複数の前記タスクのいずれかの割り当ての候補を示す情報を前記複数のエージェントの各々について生成し、
　　前記生成した情報における前記タスクごとに、このタスクが候補として割り当てられるエージェントの尤度を算出し、
　　前記算出された尤度が最も高いエージェントへの、当該尤度の算出に用いられた前記タスクの割り当てを示す情報を生成する、
　請求項１に記載のタスク割当装置。
　前記タスクは、前記エージェントによる巡回先であり、
　前記エージェントによる前記タスクに対する動作の解は、前記エージェントによる前記巡回先への巡回計画である、
　請求項１に記載のタスク割当装置。
　タスク割当装置により行なわれる方法であって、
　前記タスク割当装置の割当部により、複数のタスクに対する動作の主体となる複数のエージェントの各々の特徴を示す情報、および前記複数のタスクの各々の特徴を示す情報をニューラルネットワークに入力し、この入力の結果に基づいて、前記エージェントに対する前記タスクの割り当てを示す情報を生成し、
　前記タスク割当装置の生成部により、前記割当部により生成された情報に基づいて、前記エージェントによる前記タスクに対する動作の解を生成し、
　前記タスク割当装置の学習部により、前記ニューラルネットワークのパラメータの学習用の情報である複数のエージェントの各々の特徴を示す情報および前記複数のタスクの各々の特徴を示す情報に対する前記割当部により生成された情報に基づいて前記生成部により生成された、前記エージェントによる前記タスクに対する動作の解の良し悪しを評価して、この評価の結果に応じて前記ニューラルネットワークのパラメータを更新する学習処理を行なう、
　タスク割当方法。
　前記割当部は、
　　同じ前記エージェントに対する複数の前記タスクのいずれかの割り当ての候補を示す情報を前記複数のエージェントの各々について生成し、
　　前記生成した情報における前記タスクごとに、このタスクが候補として割り当てられるエージェントの尤度を算出し、
　　前記算出された尤度が最も高いエージェントへの、当該尤度の算出に用いられた前記タスクの割り当てを示す情報を生成する、
　請求項４に記載のタスク割当方法。
　前記タスクは、前記エージェントによる巡回先であり、
　前記エージェントによる前記タスクに対する動作の解は、前記エージェントによる前記巡回先への巡回計画である、
　請求項４に記載のタスク割当方法。
　請求項１乃至３のいずれか１項に記載のタスク割当装置の前記各部としてプロセッサを機能させるタスク割当処理プログラム。