WO2020009024A1

WO2020009024A1 - 情報処理装置、モデル生成処理装置、および情報処理方法

Info

Publication number: WO2020009024A1
Application number: PCT/JP2019/025838
Authority: WO
Inventors: 正樹渡部; 智希小松
Original assignee: 株式会社ＰｒｅｆｅｒｒｅｄＮｅｔｗｏｒｋｓ
Priority date: 2018-07-02
Filing date: 2019-06-28
Publication date: 2020-01-09
Also published as: JP2020191104A; JP7417486B2; JP6743318B2; JPWO2020009024A1; US20210150353A1; CN112368728A

Abstract

事前に積込予定の荷物を全て把握していなくとも、適切な積込位置の決定に関する処理を行うことが可能な装置を提供する。本発明の一実施形態は、メモリと、少なくとも１つの処理回路と、を備える。前記少なくとも１つの処理回路は、積込予定の第１物体が複数の積込位置候補のいずれかに積み込まれたとした場合の状態情報を生成することと、所定空間における物体の積込状態に関する状態情報が入力されると、前記所定空間における物体の積込状態に対する評価値を出力する積込状態評価モデルに、前記積込位置候補の状態情報を入力して評価値を取得することと、を実行するよう構成される。

Description

情報処理装置、モデル生成処理装置、および情報処理方法

　本発明は、情報処理装置、モデル生成処理装置、および情報処理方法に関する。

　物流業界にとって、コンテナ、トラックの荷台といった荷物を積み込むための空間に、いかにして荷物を積み込むかは、非常に重要な課題である。近年では、各荷物の最適な積込位置がコンピュータにより判断されることも少なくない。

　コンピュータが各荷物の最適な積込位置を判断する従来方式では、積込予定の荷物の個数、各荷物のサイズが事前に把握されていることが前提となっている。例えば、コンピュータは、各荷物の積込位置の組み合わせが最適となるようなアルゴリズムを用いて、積込位置を決定する。しかし、宅配便などを取り扱う場合、作業時間、作業スペースなどの観点から、荷物が到着する度に荷物を積み込むといったオンライン対応を行うことも多い。そのような場合には、各荷物の最適な積込位置は依然として作業員の経験により判断されている。

　事前に積込予定の荷物を全て把握していなくとも、適切な積込位置の決定に関する処理を行うことが可能な装置を提供する。

　本発明の一実施形態は、メモリと、少なくとも１つの処理回路と、を備える。前記少なくとも１つの処理回路は、積込予定の第１物体が複数の積込位置候補のいずれかに積み込まれたとした場合の状態情報を生成することと、所定空間における物体の積込状態に関する状態情報が入力されると、前記所定空間における物体の積込状態に対する評価値を出力する積込状態評価モデルに、前記積込位置候補の状態情報を入力して評価値を取得することと、を実行するよう構成される。

第１の実施形態に係る積込作業支援システムの一例を示すブロック図。高さマップの一例を示す図。底面接触率による積込位置候補の検出是非について説明する図。第１の実施形態に係るモデル生成処理装置のモデル生成処理の概略フローチャート。第１の実施形態に係るモデル生成処理装置の強化学習の概略フローチャート。第１の実施形態に係る積込位置決定処理装置の処理の概略フローチャート。第２の実施形態に係る積込作業支援システムの一例を示すブロック図。第２の実施形態に係るモデル生成処理装置の強化学習の概略フローチャート。第２の実施形態に係る積込位置決定処理装置の処理の概略フローチャート。保留数と充填率との関係を示す図。側面接触による積込位置候補の検出是非について説明する図。第３の実施形態に係る積込位置決定処理装置の指定に従い、荷物を積み込み続けたときの結果の概念図。本発明の一実施形態におけるハードウェア構成の一例を示すブロック図。

　以下、図面を参照しながら、本発明の実施形態について説明する。

（第１の実施形態）
　図１は、第１の実施形態に係る積込作業支援システムの一例を示すブロック図である。第１の実施形態に係る積込作業支援システム１は、モデル生成処理装置１１と、積込位置決定処理装置１２と、を備える。

　モデル生成処理装置１１は、積込空間サイズ取得部１１１と、学習用荷物情報生成部１１２と、状態情報生成部１１３と、積込位置候補検出部１１４と、モデル記憶部１１５と、評価値算出部１１６と、積込位置選択部１１７と、モデル更新部１１８と、を備える。

　積込位置決定処理装置１２は、積込空間情報取得部１２１と、積込用荷物情報取得部１２２と、状態情報生成部１２３と、積込位置候補検出部１２４と、モデル記憶部１２５と、評価値算出部１２６と、積込位置決定部１２７と、積込位置指示部１２８と、を備える。

　第１の実施形態に係る積込作業支援システム１は、所定空間内に積込予定の物体に対し、当該物体を積み込むべき位置（積込位置）を指定するシステムである。モデル生成処理装置１１が、所定空間における物体の積込状態を評価する積込状態評価モデルを生成する。積込位置決定処理装置１２が、当該積込状態評価モデルを用いて、当該物体の積込位置を決定し、その積込位置を出力する。こうして、積込作業支援システム１は積込作業を支援する。例えば、荷物が運搬車両の荷台に積み込まれる場合、在庫が倉庫に積み込まれる場合などにおいて、積込作業支援システム１が活用されることが想定される。

　なお、説明の便宜上、以降、所定空間内に積み込まれる物体を「荷物」と記載するが、当該用語により、積み込まれる物体が限定されるものではない。

　所定空間は、サイズ（縦、横、および高さの長さ）が予め定められた３次元の空間であればよい。荷物を積み込むために一般的に使用されるコンテナ、船倉、物置部屋などは当然のこと、壁などにより周囲を囲われていない一区画もサイズが定められていれば所定空間に含まれる。所定空間を、以降、「積込空間」と記載する。なお、積込空間が有する遮蔽物、例えば物置部屋の壁など、により限定されなければ、荷物は、上、横、または両方向から積込可能である。

　積込作業支援システム１は、所望の目的を満たすのに適した積込位置を決定する。例えば、なるべく多くの荷物を積み込む、積み込み荷物同士の隙間をなるべく減らす、積み込まれた荷物がなるべく崩れ落ちにないようにする、といったことが考えられる。ここでは、積込作業支援システム１は、なるべく多くの荷物が積込空間に積み込まれるようにする。そのため、積込位置決定処理装置１２は、積込空間に積込予定の荷物に対して、積込空間における荷物の充填率を上げるのに適した積込位置を決定する。積込空間の充填率は、積込空間において、積込空間内の荷物が占める割合を表す。つまり、積込空間の充填率は、（積込空間内の荷物の総体積）／（積込空間内の体積）で表される。１個の荷物をどこに置いたとしてもその時点では同じ充填率になるが、荷物を積み込めなくなるまで積み込んだ場合、荷物の配置によって積み込まれた荷物の個数は異なり、充填率に差が生まれることになる。つまり、積込位置決定処理装置１２は、最終的に積み込まれた荷物の総体積が多くなるような積込位置を決定する。

　なお、積込位置決定処理装置１２は、荷物の積込位置を決める際に積込予定の荷物全てのサイズを必要とせず、各荷物の積込位置は個別に決定される。例えば、積込予定の第１荷物と、第１荷物の後に積込予定の第２荷物がある場合において、積込位置決定処理装置１２は、第１の荷物の積込位置を決定した後に、第２荷物の積込位置を決定する処理を開始する。積込位置決定処理装置１２は、第２の荷物のサイズを認識していなくとも、第１の荷物の積込位置を決定することが可能である。つまり、ある荷物の積込位置を決定する際に、後続の荷物の情報はなくともよい。

　積込位置を指定する従来の装置は、積込予定の全ての荷物の情報が与えられ、当該全ての荷物を効率的に積み込むことができるように、各位置を指定する。例えば、第１から第ｎ（ｎは１より大きい整数）までの荷物があることが事前に認識されており、第１から第ｎまでの各荷物のサイズが従来の装置に与えられ、従来の装置は、第１から第ｎまでの荷物の各位置を決定していた。このように従来装置では、積込位置を決定する前に、積込予定の荷物を全て把握する必要がある。

　一方、本実施形態に係る積込位置決定処理装置１２は、各荷物の積込位置は個別に決定されるため、積込予定の荷物を全て把握する必要はない。例えば、積み込む荷物の全貌が判明しておらず、荷物は到着次第、積込空間に積み込まれるといったオンライン作業が実施される場合がある。従来装置はこのようなオンライン作業に対応することができない。しかし、本実施形態の積込作業支援システム１では、作業員は、荷物の到着の度に、到着した荷物の積込位置を認識することが可能である。

　なお、荷物が積み込まれる順番が指定されていれば、積込位置決定処理装置１２に複数の荷物の情報が同時に与えられてもよい。その場合、積込位置決定処理装置１２は、順番通りに、荷物の積込位置を決定する。

　なお、上記では、積込状態評価モデルの生成と、積込状態評価モデルを用いた積込位置の指定と、を別々の装置で行うことを想定した。しかし、モデル生成処理装置１１と、積込位置決定処理装置１２とをまとめて一つの装置とし、一つの装置が両方の処理を行うようにしてもよい。その場合において、モデル生成処理装置１１と積込位置決定処理装置１２の共通の構成要素は一つにまとめられてもよいし、別々に設けられていてもよい。

　また、図１では、積込状態評価モデルの生成と、積込状態評価モデルを用いた積込位置の指定と、に必要と思われる主な構成要素を示しているが、その他の構成要素が含まれていてもよい。また、各装置および構成要素が細分化されていてもよいし、一つにまとめられていてもよい。例えば、積込位置決定処理装置１２が、積込空間情報取得部１２１と、積込用荷物情報取得部１２２と、状態情報生成部１２３と、積込位置候補検出部１２４と、モデル記憶部１２５と、評価値算出部１２６と、を備える第１装置と、積込位置決定部１２７と、積込位置指示部１２８と、を備える第２装置に分けられている場合が考えられる。この場合、後述する各評価値が第１装置により算出されて、第２装置に送信され、第２装置が各評価値に基づいて積込位置を決定および出力することが考えられる。また、第１装置からの各評価値に基づいて、ユーザが積込位置を決定するといったこともできる。あるいは、積込位置決定処理装置１２が、積込空間情報取得部１２１と、積込用荷物情報取得部１２２と、状態情報生成部１２３と、を備える第３装置と、積込位置候補検出部１２４と、モデル記憶部１２５と、評価値算出部１２６と、積込位置決定部１２７と、積込位置指示部１２８と、を備える第４装置に分けられている場合も考えられる。この場合、後述する高さマップが第３装置により算出されて、第４装置に送信され、第４装置が高さマップに基づいて積込位置を決定および出力することが考えられる。

　また、構成要素が、モデル生成処理装置１１でも積込位置決定処理装置１２でもない外部の装置に存在し、モデル生成処理装置１１および積込位置決定処理装置１２は、外部の装置から、その構成要素による処理結果を取得してもよい。例えば、積込位置候補検出部１２４を積込位置決定処理装置１２とは別の装置内に存在させて、積込位置決定処理装置１２の処理負荷を分散させてもよい。

　また、モデル生成処理装置１１、積込位置決定処理装置１２、情報の入手元（図示されていない）、および情報の出力先（図示されていない）は、通信ネットワークなどを介して、データの送受が可能であるとする。

　積込作業支援システム１の各構成要素について説明する。まずは、モデル生成処理装置１１について説明する。

　モデル生成処理装置１１は、強化学習を行うことにより、積込状態評価モデルを生成する。ゆえに、モデル生成処理装置１１は、強化学習装置とも言える。強化学習としては、Ｖａｌｕｅ　Ｉｔｅｒａｔｉｏｎを用いることができる。Ｖａｌｕｅ　Ｉｔｅｒａｔｉｏｎは、ＴＤ（Ｔｅｍｐｏｒａｌ　Ｄｉｆｆｅｒｅｎｃｅ　Ｌｅａｒｎｉｎｇ）、Ｑ－ｌｅａｒｎｉｎｇ、ＤＱＮ（Ｄｅｅｐ　Ｑ－Ｎｅｔｗｏｒｋ）などの様々な手法があるが、いずれを用いてもよい。強化学習を実行するための構成要素の一例を以下に説明する。

　積込空間サイズ取得部１１１は、外部から積込空間のサイズを取得する。当該サイズは、モデル生成処理装置１１に内蔵の入力インタフェースを介してユーザから取得してもよいし、外部装置から取得してもよい。本実施形態では、積込空間のサイズが、荷物の積込可能な範囲として設定されるものとする。なお、荷物の積込可能な範囲は、積込空間のサイズよりも小さくしてもよい。

　学習用荷物情報生成部１１２は、積込状態評価モデル生成のための強化学習に用いられる、荷物に関する情報を生成する。以降、当該情報を「学習用荷物情報」と記載する。学習用荷物情報はテストデータであり、各荷物のサイズと、当該荷物の到着の順番と、が含まれる。つまり、学習用荷物情報生成部１１２は、各荷物のサイズと、当該荷物の到着の順番と、を決定する。なお、本実施形態では、荷物の到着の順番は、荷物が積み込まれる順番と一致する。

　本実施形態では、荷物は直方体を想定し、荷物のサイズは、縦、横、高さで表されるものとして説明する。各荷物のサイズは、これまでに実際に積み込まれた荷物の記録などのサンプルデータに基づき決定されてもよいし、ランダムに決定されてもよい。また、規格等により荷物のサイズが複数の種別に分けられている場合は、それらの種別から選択すればよい。記録、規格などの情報は、学習用荷物情報生成部１１２に予め登録されていてもよいし、学習用荷物情報生成部１１２が外部から取得してもよい。

　状態情報生成部１１３は、積込空間における荷物の積込状態に関する状態情報を生成する。本実施形態では、状態情報として、積込空間に積み込まれた荷物全体の高さに関する情報を生成する。当該情報を「高さマップ」と記載する。図２は、高さマップの一例を示す図である。図２の例の高さマップは積込空間を上から見た状態を示す上面図であり、積込空間に予め定められた各区画に存在する一番上の荷物の上端の高さを色の濃淡で示したヒートマップでもある。色の濃いほうが、荷物の上端が高いことを示す。区画に存在する一番上の荷物の上端の高さを「区画の高さ」と規定する。つまり、高さマップは、積み込まれた荷物全体の各区画における高さを示す。このように、高さマップにより、積込空間に積み込まれた荷物全体の高さを示すことができる。

　本実施形態では、区画の形状は、前述の想定した直方体の荷物に合わせて矩形とする。ここでは、積込空間の床面を格子状に区切ることにより、各区画を生成したが、区画の生成方法は適宜に定めてよい。区画のサイズは、処理負荷、推定精度などを考慮して、予め定められていることを想定するが、モデル生成処理装置１１に入力された指定値に応じて、状態情報生成部１１３が変更してもよい。また、区画のサイズが区画ごとに異なっていてもよい。

　本実施形態では、高さマップにおいて、各荷物の端は、当該区画の境界線と一致するように調整される。例えば、荷物のサイズが統一されていない場合、当該境界線と荷物の端とが完全には一致できないため、状態情報生成部１１３は、荷物のサイズを区画に合うように丸めた上で、高さマップを生成する。なお、学習用荷物情報生成部１１２が、区画に合うような荷物のサイズを生成してもよい。また、荷物のサイズが予め定められた規格サイズのいずれかである場合は、境界線と荷物の端とが完全に一致できるように、区画のサイズが調整されてもよい。

　なお、高さマップは画像データとは限らない。高さマップは、区画の位置を示す情報（例えば行番号と列番号）と、当該区画の荷物の高さと、を組み合わせたデータとして表されてもよい。つまり、高さマップは、各区画における高さが認識可能であれば、どのようなフォーマットでもよい。

　また、状態情報生成部１１３は、積込位置候補検出部１１４から後述の積込位置候補が送られてきたときは、荷物が当該積込位置候補のいずれかに積み込まれたとした場合における高さマップを、積込位置候補ごとに生成する。当該高さマップを「高さマップ候補」と記載する。

　そして、状態情報生成部１１３は、積込位置候補から選出された積込位置が送られてきたときに、当該積込位置に対応する高さマップ候補を、次の荷物を積み込む時点の高さマップとする。こうして、高さマップが更新される。

　なお、高さマップ候補は、決定された積込位置または積込位置候補に含まれる各区画に対して、その区画の高さを今回積み込む予定の荷物の高さ分だけ増加させることにより作成可能である。

　積込位置候補検出部１１４は、学習用荷物情報と、高さマップと、を用いて、荷物を積み込むことが可能な位置を検出する。検出された位置を「積込位置候補」と記載する。例えば、底面の接触率が閾値以上である位置を積込位置候補とすることが考えられる。底面の接触率とは、積込空間の床面または他の荷物の上面との接触領域が、荷物の底面に対して占める割合を示す。つまり、（接触領域の面積）/（底面全体の面積）を意味する。

　図３は、底面接触率による積込位置候補の検出是非について説明する図である。積込予定の荷物２と、既に積み込まれた荷物３（３Ａから３Ｉ）との位置関係が示されている。また、積込位置候補として検出されるか否かが、ＹＥＳまたはＮＯで示されている。図３（Ａ）および（Ｂ）での荷物２の位置は、底面接触率が大きいため、積込位置候補として検出されている。図３（Ｃ）での荷物２の位置は、底面接触率が小さいために、積込位置候補として検出されていない。図３（Ｄ）では、荷物２が荷物３Ｄと荷物３Ｅの両方と接触している。このような場合、底面接触率は、荷物３Ｄと荷物３Ｅを区別せずに、算出される。ゆえに、図３（Ｄ）での荷物２の位置は、底面接触率が大きいため、積込位置候補として検出されている。図３（Ｅ）では、荷物３Ｆと荷物３Ｇの高さが異なっているため、荷物２は荷物３Ｆとしか接触していないが、荷物３Ｆとの底面接触率が大きいため、荷物２の位置は積込位置候補として検出されている。図３（Ｆ）では、荷物３Ｈと３Ｉの高さが異なっているため、荷物２は荷物３Ｈとしか接触しておらず、荷物３Ｈとの底面接触率が小さいため、図３（Ｆ）の荷物２の位置は、積込位置候補として検出されていない。

　積込位置候補検出部１１４は、底面接触率が閾値以上となる位置を高さマップに基づき検索し、検出された位置を積込位置候補とする。また、検出された積込位置候補に荷物が置かれた場合に、高さが上限値を超える区画が出てくるときは、積込位置候補として検出されないようにする。上記のような積込位置候補を決定するための条件は、適宜に定めてよい。

　検出方法は、公知のシミュレーション手法を用いればよい。また、積込位置候補検出部１１４は、積込位置を決定する際に、荷物を回転させてもよい。つまり、荷物の縦、横、および高さを入れ替えてもよい。なお、荷物によっては、倒立状態などにできないものもある。そのため、回転軸が鉛直方向と平行である回転は許可し、その他の回転は禁止するといった回転方向の制限を加えてもよい。

　モデル記憶部１１５は、積込状態評価モデルを記憶する。積込状態評価モデルは、所定空間における荷物の積込状態に関する情報が入力されると、当該積込状態に対する評価値を出力するモデルである。ここでは、積込空間の充填率を高くするため、積込状態評価モデルによる評価値は、当該積込状態から積込可能な荷物の総容量に関する値とする。なお、何を評価値とするかは、目的に応じて適宜に定めてよい。例えば、所定空間における荷物の充填率に関する情報、荷物の総容量に関する情報、荷物を積込可能な空き容量に関する情報、積込可能な荷物の総容量に関する情報など、荷物の積込容量に関する値を評価値として用いることができる。また、荷物の積込容量に関する情報と別の情報とを用いて評価値を算出するようにしてもよい。評価値として、積込可能な荷物の総容量に関する値を用いる場合、評価値が高い方が、当該総容量が大きく、荷物を積み込む余裕がまだあることを意味する。複数ある高さマップ候補から、学習済みの積込状態評価モデルにより算出された評価値が高い高さマップ候補を選択し続けると、結果的には多くの荷物が積み込まれて、積込空間の充填率を高くすることができる。ゆえに、積込状態評価モデルによる評価値は、入力された積込状態が所定空間における荷物の充填率を上げるのに適した状態であるかを示すものでもある。積込状態評価モデルによる評価値が適正となるように、強化学習が行われる。

　積込状態評価モデルの形態は、強化学習の手法に応じて、変えてよい。積込状態の特徴量を組み合わせて評価値を出力する評価関数でもよいし、ＤＱＮで用いられる畳み込みニューラルネットワーク（ＣＮＮ）などのニューラルネットワークでもよい。例えば、高さマップ候補の画像データをＣＮＮの入力層に入力することにより、各中間層における演算を経て、出力層から高さマップ候補の評価値が出力されるようにしてもよい。

　評価値算出部１１６は、高さマップ候補を積込状態評価モデルに入力して、積込状態評価モデルから評価値を得る。評価値算出部１１６は積込状態評価モデルによる評価値を調整してもよく、評価値算出部１１６により算出された評価値と、積込状態評価モデルによる評価値とが完全に一致しなくともよい。こうして、評価値算出部１１６は、積込状態評価モデルを用いて、高さマップ候補に対して評価値を算出する。

　積込位置選択部１１７は、所定のポリシーに基づき、積込位置候補のうちの一つを選出して、今回積み込まれる荷物の積込位置とする。ポリシーは、例えば、その評価値が最大の積込位置候補を選択するという貪欲法（ｇｒｅｅｄｙ）、確率εでランダムに選択し確率１－εでその評価値が最大の積込位置候補を選択するというε－ｇｒｅｅｄｙなどが考えられる。

　モデル更新部１１８は、選択された積込位置に係る評価値の妥当性を評価することにより、モデル記憶部１１５内の積込状態評価モデルのパラメータを更新する。更新方法は、強化学習の種類に応じて、適宜に定めればよい。例えば、荷物が積み込めなくなった時点における充填率をフィードバックして、荷物が積み込まれた各時点の積込状態に対する評価値の妥当性を評価して、パラメータを更新してもよい。積込状態評価モデルが更新されていくことにより、積込状態評価モデルが適切な評価値を算出することできるようになる。

　モデル生成処理装置１１の処理の流れについて説明する。図４は、第１の実施形態に係るモデル生成処理装置１１のモデル生成処理の概略フローチャートである。

　まず、積込空間サイズ取得部１１１は、積込空間のサイズ、つまり縦、横、および高さの各制限値を取得する（Ｓ１０１）。また、学習用荷物情報生成部１１２がテストデータを生成する（Ｓ１０２）。テストデータは、荷物のサイズと、荷物の順番と、が含まれる。例えば、第１から第ｎまでの荷物のサイズを予め決めておく。定数ｎは、積込空間に全ての荷物を積み込むことができない程、十分に大きい数とする。

　そして、生成されたテストデータに基づく強化学習が実行されて、積込状態評価モデルの学習が進行する（Ｓ１０３）。強化学習のフローは後述する。このテストデータによる学習の終了後、学習の終了条件を満たしていない場合（Ｓ１０４のＮＯ）は、Ｓ１０２の処理に戻り、新たなテストデータが生成されて、再度学習が行われる。学習の終了条件を満たした場合（Ｓ１０４のＹＥＳ）は、モデル生成処理が終了する。学習の終了条件は、積込状態評価モデルのパラメータの更新が行われた回数などに基づき、適宜に定めてよい。

　次に、Ｓ１０３の処理の内部のフローを説明する。図５は、第１の実施形態に係るモデル生成処理装置１１の強化学習の概略フローチャートである。

　まず、強化学習の新たなエピソードの開始のために、積込状態の初期化が行われる（Ｓ２０１）。初期化は、積込空間に荷物が存在しない初期状態から荷物の積込作業が開始されることを意味する。つまり、初期化後は、１番目の荷物の積込位置の決定処理が開始される。

　状態情報生成部１１３は、積込空間の現時点の高さマップを生成する（Ｓ２０２）。現時点とは、前回の荷物が積み込まれてから今回の荷物を積み込む前までのいずれの時点でもよい。また、１番目の荷物を積み込む場合における現時点は、作業開始から１番目の荷物を積み込む前までのいずれの時点でもよい。１番目の荷物の積込位置の決定処理では、荷物が一つも積まれていない状態のため、高さマップは積込空間の上面図と同じになる。また、ｋ（ｋは１＜ｋ≦ｎを満たす整数）番目の荷物の積込位置の決定処理では、状態情報生成部１１３は、ｋ－１番目の荷物の積込位置の決定処理において決定された積込位置に対応する高さマップ候補を、ｋ番目の荷物の積込位置の決定処理における高さマップとすればよい。

　積込位置候補検出部１１４が、今回積み込む荷物のサイズと、Ｓ２０２の処理で更新された今回の高さマップと、に基づき、積込位置候補を検出する（Ｓ２０３）。状態情報生成部１１３は、算出された積込位置候補ごとに、算出された積込位置候補に今回積み込む予定の荷物が積み込まれた場合の高さマップ、つまり、高さマップ候補を生成する（Ｓ２０４）。

　評価値算出部１１６は、積込状態評価モデルを用いて、各高さマップ候補から評価値を算出する（Ｓ２０５）。積込位置選択部１１７が、ポリシーに基づき、複数の積込位置候補のうちの一つを選択する（Ｓ２０６）。そして、モデル更新部１１８が、モデルを更新する（Ｓ２０７）。なお、強化学習の手法によってはＳ２０７の処理が、荷物が積み込まれるたびに行われない場合もあり得る。その場合は、Ｓ２０７の処理は省略される。例えば、第１から第４番目の荷物の積込位置が決定された場合にはＳ２０７が省略され、第５番目の荷物の積込位置が決定された際に、第１から第５番目の荷物の積込位置に基づいて、モデルが更新されてもよい。また、エピソードまたはテストデータの終了条件を満たした際に、モデルの更新に用いられていない荷物の積込位置に基づき、モデルの更新が行われてよい。

　そして、エピソードの終了条件を満たしていない場合（Ｓ２０８のＮＯ）は、Ｓ２０２の処理に戻り、次に積込予定の荷物に対する処理が開始される。エピソードの終了条件を満たしているが（Ｓ２０８のＹＥＳ）、テストデータの終了条件を満たしていない場合（Ｓ２０９のＮＯ）は、新たなエピソードの開始のために、状態の初期化に戻る（Ｓ２０１）。エピソードの終了条件を満たし（Ｓ２０８のＹＥＳ）、テストデータの終了条件も満たした場合（Ｓ２０９のＹＥＳ）は、このテストデータによる強化学習は終了する。エピソードの終了条件は、例えば、荷物が積み込まれるにつれて（積込位置の決定処理の実施回数が増加するにつれて）評価値は減少していくため、評価値が閾値を下回った場合とすればよい。次の荷物が積めなくなった時点で、エピソードが終了するようにしてもよい。テストデータに対する終了条件は、エピソードの実行回数、エピソード終了時点における充填率などに基づき、適宜に定めてよい。

　なお、本説明におけるフローチャートは一例であり、上記の例に限られるものではない。実施形態の求められる仕様、変更などに応じて、手順の並び替え、追加、および省略が行われてもよい。例えば、積込空間のサイズを取得と、テストデータの生成と、は並行に処理されてもよい。以降のフローチャートについても同様である。

　次に、積込位置決定処理装置１２について説明する。積込空間情報取得部１２１は、積込空間に関する情報を取得する。当該情報を、以降、「積込空間情報」と記載する。積込空間情報には、少なくとも積込空間のサイズが含まれる。その他には、既に積み込まれた荷物の位置に関する情報が積込空間情報に含まれていてもよい。積込位置決定処理装置１２は、積込空間に荷物が存在している状態からでも、次の荷物の積込位置が指定可能なためである。当該積込空間情報は、モデル生成処理装置１１に内蔵の入力インタフェースを介してユーザから取得してもよいし、外部装置から取得してもよい。

　積込用荷物情報取得部１２２は、積込予定の荷物に関する情報を取得する。当該情報を、以降、「積込用荷物情報」と記載して、学習用荷物情報と区別する。積込用荷物情報には、今回積み込む予定の荷物のサイズが含まれる。

　なお、積み込む順番を示す識別子も含まれていれば、複数の荷物のサイズが積込用荷物情報に含まれていてもよい。積込用荷物情報も、モデル生成処理装置１１に内蔵の入力インタフェースを介してユーザから取得してもよいし、外部装置から取得してもよい。

　積込位置決定処理装置１２の状態情報生成部１２３は、モデル生成処理装置１１の状態情報生成部１１３と同じでよく、高さマップと、積込位置候補に応じた高さマップ候補を生成する。

　積込位置決定処理装置１２の状態情報生成部１２３は、積込空間内の画像から、高さマップを生成してもよい。三角測量などの手法、またはステレオカメラを用いて、画像から高さを割り出すことが可能な公知の測定ソフトを用いればよい。つまり、積込空間内の画像が、既に積み込まれた荷物の位置に関する情報として、積込空間情報に含まれていてもよい。あるいは、例えば、デプスカメラなどにより、既に積み込まれた荷物の高さに関する情報が取得され、当該情報が状態情報生成部１２３に送信されてもよい。また、当該情報は、モデル生成装置の積込状態評価モデルの生成のためのテストデータとして用いられてもよい。

　積込位置決定処理装置１２の積込位置候補検出部１２４は、モデル生成処理装置１１の積込位置候補検出部１１４と同じでよく、高さマップを用いて、次の荷物を積み込むことが可能な位置を算出する。

　積込位置決定処理装置１２のモデル記憶部１２５は、モデル生成処理装置１１から、学習済みの積込状態評価モデルを取得して記憶する。なお、積込位置決定処理装置１２のモデル記憶部１２５は、対応する積込空間が異なる複数の積込状態評価モデルを記憶しておき、積込空間が指定されたときに、指定された積込空間に対応する積込状態評価モデルを伝送するようにしてもよい。

　積込位置決定処理装置１２の評価値算出部１２６は、モデル記憶部１２５に記憶された積込状態評価モデルをソフトウェアの一部であるプログラムモジュールとして用いて、高さマップ候補ごとに評価値を算出する。評価値算出部１２６は、モデル生成処理装置１１の評価値算出部１１６と同じでよい。

　なお、モデル記憶部１１５に複数の積込状態評価モデルが記憶されているときは、評価値算出部１１６は、複数の積込状態評価モデルのうちから、積込空間情報取得部１２１が取得した積込空間情報に係る積込空間に対応する積込状態評価モデルを、積込空間のサイズ、積込空間の識別子などに基づいて、モデル記憶部１１５から抽出する。ゆえに、積込空間の識別子も、積込空間情報に含まれていてもよい。

　積込位置決定処理装置１２の積込位置決定部１２７は、積込位置候補のうちから、評価値が最も高い積込位置候補を、今回積み込まれる荷物の積込位置と決定する。

　積込位置指示部１２８は、積込位置に係る情報を出力先に出力（指示）する。積込位置は、座標で表されてもよいし、高さマップのような画像で表わされてもよい。出力先は、特に限られるものではない。例えば、作業員に積込位置を知らせるために、モニタなどの表示装置に積込位置を表示させてもよい。あるいは、ロボットアームなどの制御装置に対し、積込位置を出力することにより、ロボットアームが積込位置に荷物を積み込むといった制御も可能になる。こうして、実際の積込作業を支援することができる。

　次に、積込位置決定処理装置１２の処理の流れについて説明する。図６は、第１の実施形態に係る積込位置決定処理装置１２の処理の概略フローチャートである。

　積込空間情報取得部１２１が積込空間情報を取得し（Ｓ３０１）、状態情報生成部１２３が当該積込空間情報に基づき現時点の高さマップを生成する（Ｓ３０２）。一方、積込用荷物情報取得部１２２は積込用荷物情報を取得する（Ｓ３０３）。

　なお、積込位置の指定を既に実施しており、次の荷物に対する積込位置を指定する場合は、前回の荷物に対して決定された積込位置に係る高さマップ候補をキャッシュしておき、現時点の高さマップとして用いてもよい。その場合、Ｓ３０１は省略されてよい。

　積込位置候補検出部１２４は、積込用荷物情報に含まれている今回積み込む荷物のサイズと、高さマップと、から、積込位置候補を検出する（Ｓ３０４）。状態情報生成部１２３は、算出された積込位置候補ごとに、算出された積込位置候補に今回の荷物が積み込まれた場合の高さマップ、つまり、高さマップ候補を生成する（Ｓ３０５）。

　評価値算出部１２６は、積込状態評価モデルを用いて、各高さマップ候補の評価値を算出する（Ｓ３０６）。そして、積込位置決定部が、評価値が最も大きい高さマップ候補に係る積込位置候補を、最適な積込位置と決定する（Ｓ３０７）。最後に、積込位置指示部１２８が決定された積込位置を出力し（Ｓ３０８）、フローは終了する。

　このように、本実施形態では、荷物の積込位置は、一つ以上の積込可能な位置から、評価値に基づき選択される。ゆえに、積込位置がヒューリスティックに決定されるものではない。例えば、ヒューリスティック手法では、積込空間の角に、または既に積み込まれている荷物と隙間なく接するように、荷物が置かれる。しかし、本実施形態では、そのようなことはなく、最初の荷物が積込空間の中央付近に置かれることもあり得る。

　以上のように、本実施形態によれば、高さマップを用いた強化学習を行うことにより、積込状態を評価する積込状態評価モデルを生成する。そして、積込状態評価モデルを用いて、荷物個別に積込位置が指定される。これにより、荷物が到着する度に荷物を適切な位置に積み込むこというオンライン対応を行うことができる。また、積込空間に既にある程度荷物が積み込まれている状態であっても、荷物の積込作業の支援を開始することができる。

（第２の実施形態）
　第１の実施形態では、荷物の到着順に荷物を積み込むことを想定した。本実施形態では、荷物を一時的に置いておくことができる場合などで、到着した荷物を積み込まずに保留することが可能な場合を想定する。例えば、少数の荷物を一時的に置くことが可能なスペースがある場合に、複数の荷物がほぼ同時に到着したときは、必ずしも到着順に荷物を積み込まなくともよいと考えられる。また、積み込む順番を変えることで、より効率的に荷物を積み込むことが可能と考えられる。

　図７は、第２の実施形態に係る積込作業支援システム１の一例を示すブロック図である。第２の実施形態に係る積込作業支援システム１では、モデル生成処理装置１１が保留決定部１１９をさらに備え、積込位置決定処理装置１２が保留決定部１２９をさらに備える。第１の実施形態と同様な点は、説明を省略する。

　モデル生成処理装置１１の積込位置候補検出部１１４と積込位置決定処理装置１２の積込位置候補検出部１２４は、今回与えられた荷物だけでなく、保留中の荷物に対しても、積込位置候補を検出する点が第１の実施形態とは異なる。保留中の荷物と今回与えられた荷物が、今回積み込まれる荷物の候補であり、本実施形態の積込位置候補検出部１１４は、積み込む荷物の候補ごとに、積込位置候補を検出する。今回積み込まれる荷物の候補を「積込荷物候補」と記載する。積込位置候補の検出方法は第１の実施形態と同様である。

　モデル生成処理装置１１の保留決定部１１９と、積込位置決定処理装置１２の保留決定部１２９は、積込位置の決定を保留するか否かを決定する。全ての積込位置候補の評価値が、積込位置として選択されるための条件を満たしていない場合に「保留」と決定してよい。例えば、現時点の高さマップの評価値から、高さマップ候補に対する評価値を減算した値がいずれも一定値以上である場合、つまり積込状態の評価が急激に悪くなる場合では、その荷物を積み込まないほうが良い可能性が高い。ゆえに、そのような場合に、積込位置の決定が保留されてもよい。

　但し、保留するためのスペースが埋まっている場合など、荷物を保留できないときもあり得る。ゆえに、保留可能かを判断するための条件も定めておく。保留できない場合は、必ず積込位置が決定される。

　モデル生成処理装置１１の評価値算出部１１６と、積込位置決定処理装置１２の評価値算出部１２６は、第１の実施形態と同様でよい。しかし、第２の実施形態では、積込荷物候補である荷物が複数ある場合があり得る。これらの荷物が、高さマップ候補に基づく評価値から平等に選択されてもよいし、ある荷物が優先的に選択されるようにしてもよい。あるいは、評価値算出部１１６および評価値算出部１２６が、複数ある荷物から積み込む荷物を選択するための重みづけを、目的に応じて付与してもよい。例えば、荷物ｂ_ｉのサイズに応じた値を算出する関数ｖｏｌｕｍｅ（ｂ_ｉ）の値を、積込状態評価モデルによる評価値に加算し、加算後の評価値に基づき、いずれの荷物を積み込むかを決定することが考えられる。ｖｏｌｕｍｅ（ｂ_ｉ）を加算した後の評価値は、現在の状態から、その荷物も含めて、積込可能な荷物の総容量を示す値となるため、サイズが異なる荷物同士を比較することが可能になる。

　例えば、荷物ｂ_ｉを積込位置候補ｐ_jに積み込んだ状態Ｓ（ｂ_ｉ,ｐ_j）における積込状態評価モデルをＶ_Ｍ（Ｓ（ｂ_ｉ,ｐ_j））で表すとすると、評価値算出部１１６および評価値算出部１２６は、Ｖ（Ｓ（ｂ_ｉ,ｐ_j））＋ｖｏｌｕｍｅ（ｂ_ｉ）により得られる値を評価値としてもよい。これにより、荷物のサイズが大きいまたは小さいほうが、先に積み込まれる可能性を高くすることができる。

　また、荷物を保留することにより、作業時間および作業労力が増加するというデメリットも想定される。ゆえに、荷物を保留するという行動が選択されにくくしてもよい。例えば、評価値算出部１１６および評価値算出部１２６が、ペナルティ関数ｐｅｎａｌｔｙ（ｂ_ｉ）の値（ペナルティ値）を積込状態評価モデルによる評価値に加算することが考えられる。つまり、評価値算出部１１６および評価値算出部１２６は、Ｖ（Ｓ（ｂ_ｉ,ｐ_j））＋ｐｅｎａｌｔｙ（ｂ_ｉ）、または、Ｖ（Ｓ（ｂ_ｉ,ｐ_j））＋ｖｏｌｕｍｅ（ｂ_ｉ）＋ｐｅｎａｌｔｙ（ｂ_ｉ）により得られる値を評価値として算出してもよい。ペナルティ関数ｐｅｎａｌｔｙ（ｂ_ｉ）は、積み込む荷物に応じて０または負の値を算出するとする。例えば、直近に到着した荷物（保留としていない荷物）に対しては０であるが、保留していた荷物に対しては負の値を算出するようにする。当該負の値は、適宜に調整されてよい。こうすることにより、直近に到着した荷物（保留としていない荷物）が積み込まれる可能性が高まる。このように、積み込む荷物を選択するため、保留する荷物を少なくするといった目的のために、評価値を加工してもよく、加工方法は上記例に限られるものではない。

　次に、第２の実施形態における処理のフローを説明する。図８は、第２の実施形態に係るモデル生成処理装置１１の強化学習の概略フローチャートである。Ｓ４０１とＳ４０２の処理は、それぞれ第１の実施形態のＳ２０１およびＳ２０２の処理と同様である。Ｓ４０３の処理はＳ２０３の処理と一部異なり、積込位置候補検出部１１４は、積込荷物候補とされた荷物ごとに積込位置候補を検出する（Ｓ４０３）。なお、前回の荷物の積込位置の決定処理において保留が選択された場合、保留中の荷物の積込荷物候補は既に検出されているため、保留中の荷物の積込荷物候補の検出は省略し、今回の荷物の積込荷物候補だけを検出してもよい。

　Ｓ４０４とＳ４０５の処理は、それぞれ第１の実施形態のＳ２０４およびＳ２０５の処理と同様であり、各高さマップ候補の評価値が算出される。算出された高さマップ候補の評価値が閾値を超えている、保留している荷物の数が上限値を超えていない、といった保留のための条件を満たしている場合（Ｓ４０６のＹＥＳ）は、保留するとして、積込位置選択部１１７が今回与えられた荷物を積込荷物候補に追加（Ｓ４０７）する。そして、Ｓ４０２の処理に戻り、次の荷物の積込位置の決定処理が開始される。保留のための条件を満たしていない場合（Ｓ４０６のＮＯ）は、第１の実施形態でのＳ２０６と同様に、積込位置選択部１１７が積込位置候補から積込位置を選択する（Ｓ４０８）。以降の処理および分岐は、第１の実施形態と同様である。また、モデル更新のＳ４０９処理も、第１の実施形態のＳ２０７の処理と同様、荷物が積み込まれるたびに実施するのではなく、複数の荷物に対してまとめて実施されてもよい。

　図９は、第２の実施形態に係る積込位置決定処理装置１２の処理の概略フローチャートである。Ｓ５０１からＳ５０３までの処理は、それぞれ第１の実施形態のＳ３０１からＳ３０３までの処理と同様である。Ｓ５０４の処理はＳ３０４の処理と一部異なり、積込位置候補検出部１２４は、積込荷物候補ごとに積込位置候補を検出する（Ｓ４０３）。

　Ｓ５０５とＳ５０６の処理は、それぞれ第１の実施形態のＳ３０５およびＳ３０６の処理と同様であり、各高さマップ候補の評価値が算出される。算出された高さマップ候補の評価値が保留のための条件を満たしている場合（Ｓ５０７のＹＥＳ）は、積込位置決定部１２７は、保留として積込位置を決定せずに、今回与えられた荷物を積込荷物候補に追加する（Ｓ５０８）。保留のための条件を満たしていない場合（Ｓ４０６のＮＯ）は、第１の実施形態と同様に、積込位置決定部が積込位置を決定する（Ｓ５０９）。そして、積込位置指示部１２８が、決定内容、保留または積込位置を出力する（Ｓ５１０）。

　図１０は、保留数と充填率との関係を例示する図である。横軸が保留可能な最大数を示し、縦軸が積込空間の最終的な充填率を示す。荷物のサイズの分布、積込空間のサイズなどにより、図１０のグラフの形状は当然変化するが、保留数が０から増加するにつれて充填率は向上する傾向にある。ゆえに、保留を可能にしたほうが、効率よく荷物を積み込むことができることが分かる。また、保留数が１０以上に増加しても、充填率はあまり向上しないことから、保留数は一定数あればよいことが分かる。

　以上のように、本実施形態によれば、保留を可能にすることにより、積込空間の最終的な充填率を向上させることができる。また、保留数は数個程度でも十分に効果があり、全ての荷物を保留する必要はない。また、なるべく保留を行わないように調整することもでき、保留による作業時間および労力の増加を防ぐこともできる。

（第３の実施形態）
　これまでの実施形態では、最終的に、荷物が階段状に積み上げられた状態になることもある。例えば、図２に示した高さマップの左下の点線枠に囲まれた領域を見ると、左から右に向かって濃度が順に薄くなっている。これは、荷物が階段状に積まれていることを示す。このような積込状態では、例えば、積込空間がトラックの荷台であった場合では、荷物が横揺れにより崩れ落ちる危険性が高くなる。このように、積込空間などの事情により、荷物の安定性が重視される場合もある。そこで、第３の実施形態では、充填率だけで積込状態を評価せずに、荷物の安定性も考慮する。第１の実施形態と同様な点は、説明を省略する。

　第３の実施形態の構成は、第１または第２の実施形態と同様である。ゆえに、図１または図８は第３の実施形態における概略構成図でもある。第１の実施形態と同様な点は、説明を省略する。

　発明者達の実験により、底面接触率に係る閾値が高いと、結果として階段状になりやすいことが判明した。そこで、第３実施形態では、積込位置候補の決定の条件を緩和し、底面接触率に関する条件を満たさない場合でも、積込可能とする条件を設ける。具体的には、底面の接触領域とは交差していない側面が、積込空間の側壁または他の荷物と接触する位置は、積込位置候補として許容する。なお、側面が接触する位置全てを許容するのではなく、側面の接触率（側面の接触領域の面積/側面全体の面積）が閾値を越える位置は、積込位置候補として許容するようにしてもよい。

　あるいは、底面接触率に関する条件を満たさない場合でも、底面の接触領域とは交差していない側面が、前記積込空間の側壁と直接または他の荷物を介して接触するような位置は、積込位置候補として許容するようにしてもよい。

　図１１は、側面接触による積込位置候補の検出是非について説明する図である。積込予定の荷物２と、既に積み込まれた荷物３（３Ｊから３Ｏ）との位置関係が示されている。また、積込位置候補として検出されるか否かが、ＹＥＳまたはＮＯで示されている。

　図１１（Ａ）では、荷物２と荷物３Ｊとの底面接触率は小さいが、荷物２が、底面の接触領域とは交差していない側面において荷物３Ｋと接触している。しかし、荷物３Ｋは積込空間の側壁４と接触していない。このような場合、積込空間が横揺れすると、荷物３Ｎと荷物２が右方向に崩れる恐れがある。ゆえに、図１１（Ａ）の荷物２の位置は、積込位置候補として検出されていない。

　一方、図１１（Ｂ）では、荷物２と荷物３Ｍとの底面接触率は小さいが、荷物２が、底面の接触領域とは交差していない側面において荷物３Ｎと接触している。そして、荷物３Ｎは積込空間の側壁４と接触している。このような場合、積込空間が横揺れしても、荷物３Ｎが側壁４に支えられるため、崩れにくい。ゆえに、図１１（Ｂ）の荷物２の位置は、積込位置候補として検出されてよい。

　また、第３の実施形態のモデル生成処理装置１１は、荷物の積込状態の安定性を加味した評価値を算出するように、積込状態評価モデルを生成してもよい。例えば、これまでの実施形態の積込状態評価モデルは、高さマップ候補を入力情報としたが、荷物の積込状態の安定性を示す情報を入力情報に加えて、積込状態評価モデルを生成することが考えられる。あるいは、これまでの実施形態の積込状態評価モデルとは別に、荷物の積込状態の安定性を示す情報から、安定性に対する評価値を算出するモデルを生成してもよい。この場合、評価値算出部が、積込状態評価モデルの評価値と、安定性に対する評価値を算出するモデルの評価値との和に基づき、評価値を算出する。

　荷物の積込状態の安定性を示す情報としては、高さマップを加工した段差マップが考えられる。例えば、高さマップの各区画に対し、隣接する各区画との高さの比較を表した論理値の総和を算出する。論理値は、例えば、隣接する区画よりも高さが高い場合は１を、同じ場合は０を、低い場合は－１とすることが考えられる。これにより、当該総和の絶対値は、隣接する区画との高さの差を示すものとなる。ここでは、当該総和を「段差」と規定し、積み込まれた荷物全体の各区画における段差を示す情報を「段差マップ」と記載する。区画の段差が０に近いと、側面が接触可能な荷物が増えるため、安定性が増加すると考えられる。ゆえに、段差マップは、荷物の積込状態の安定性を示す情報と考えられる。この段差マップを積込状態評価モデルの入力情報にさらに加え、最終的に各区画における高さが均一である場合でも多くの報酬が得られるような強化学習を行う。これにより、積込状態評価モデルが、所定空間における荷物の充填率を上げ、かつ、各区画における高さを均一化させるのに適した積込状態を高く評価するようにする。

　段差マップを用いる場合は、状態情報生成部１１３および状態情報生成部１２３が、高さマップを生成した後に、当該高さマップから段差マップを生成すればよい。また、状態情報生成部１１３および状態情報生成部１２３は、高さマップ候補と同様に、かつ高さマップ候補とともに、段差マップ候補を生成する。評価値算出部１１６および評価値算出部１２６は、生成された段差マップ候補を、高さマップ候補とともに、積込状態評価モデルに入力して、評価値を取得する。その他の点は、これまでの実施形態と同様である。

　段差マップは、高さマップ同様に、ヒートマップのような画像データでもよいし、区画の位置を示す情報（例えば行番号と列番号）と、当該区画における論理値の総和と、を組み合わせたデータとして表されてもよい。

　段差マップを用いる場合のフローは、第１または第２の実施形態のフローにおいて、「高さマップ」が「高さマップと段差マップ」に、「高さマップ候補」が「高さマップ候補と段差マップ候補」に読み替えられればよいため、省略する。

　図１２は、第３の実施形態に係る積込位置決定処理装置の指定に従い、荷物を積み込み続けたときの結果の概念図である。荷物が階段状に積み上げられてはおらず、安定性が増していることが分かる。

　以上のように、本実施形態によれば、側面の接触を考慮することにより、また、段差マップを用いて、充填率だけでなく安定性を考慮した評価値を算出することにより、荷物の積込状態の安定性を向上することが可能になる。

（第４の実施形態）
　これまでの実施形態では、高さに制限を持たせることが可能であり、荷物があまりにも高く積まれることは防ぐことができる。しかし、積み上げられた荷物の重さによっては、高さの制限値に届く前に、下側の荷物が上側の荷物の重さにより潰れてしまうこともあり得る。ゆえに、第４の実施形態では、下側の荷物が上側の荷物の重さにより潰れてしまう事態を防ぐことができるようにする。第１の実施形態と同様な点は、説明を省略する。

　第４の実施形態の構成は、これまでの実施形態と同様である。ゆえに、図１または図７は第４の実施形態における概略構成図でもある。これまでの実施形態と同様な点は、説明を省略する。

　第４の実施形態では、学習用荷物情報および積込用荷物情報に、荷物の重さがさらに含まれる。また、学習用荷物情報生成部１１２は、テストデータとして、荷物のサイズとともに、荷物の重さをさらに決定する。

　なお、本説明では、重さとしたが、重さではなく密度で考慮してもよい。その場合、本説明において重さ（重量）を密度と読み替えればよい。

　第４の実施形態では、状態情報生成部１１３および状態情報生成部１２３は、荷物の高さの代わりに荷物の重さを用いる点以外は高さマップを生成するのと同様にして、荷物全体の前記所定空間に定められた各区画における重さを示す情報を生成する。当該情報を「重さマップ」と記載する。

　この重さマップが入力情報としてさらに加えられ、最終的に各区画における重さが均一である場合でも多くの報酬が得られるような強化学習を行う。これにより、積込状態評価モデルが、所定空間における荷物の充填率を上げ、かつ、各区画における高さを均一化させるのに適した積込状態を高く評価するようにする。

　状態情報生成部１１３および状態情報生成部１２３は、高さマップ候補と同様にして、かつ高さマップ候補とともに、積込位置候補と重さマップから、積込位置候補に対する重さマップ候補を生成する。

　第４の実施形態では、積込位置候補検出部１１４および積込位置候補検出部１２４は、高さマップと重さマップに基づき、積込位置候補を検出する。これまでの実施形態では、荷物を積み込んだときに、各区画の高さが対応する上限値を超えないようにしたが、本実施形態では、さらに各区画の重さ（各区画における荷物の総重量）が対応する上限値を超えないようにする。

　あるいは、荷物ごとに、上積みされた荷物の総重量の上限値を設けてもよい。なお、荷物のサイズなどに応じて、上積みされた荷物の総重量の上限値が荷物ごとに異なっていてもよい。例えば、密度の高い荷物に対しては当該上限値を大きくし、密度の低い荷物に対しては当該上限値を小さくすることが考えられる。あるいは、上積みされた荷物の総重量を荷物の上面の面積で除算した値、つまり荷物の上面に掛かる圧力の上限値を設けてもよい。

　第４の実施形態の評価値算出部１１６および評価値算出部１２６は、生成された重さマップ候補を、高さマップ候補とともに、積込状態評価モデルに入力して、評価値を取得する。これにより、第４の実施形態の積込状態評価モデルは、区画の重さが考慮された評価値となる。なお、これまでの実施形態の積込状態評価モデルとは別に、重さマップ候補から評価値を算出するモデルを生成し、当該モデルと、これまでの実施形態の積込状態評価モデルとを加算した新たな積込状態評価モデルを生成してもよい。その他の点は、これまでの実施形態と同様である。

　重さマップは、高さマップ同様に、画像データであってもよいし、区画の位置を示す情報（例えば行番号と列番号）と、当該区画における荷物の総重量と、を組み合わせたデータとして表されてもよい。

　本実施形態のフローは、「高さマップ」が「高さマップと重さマップ」に、「高さマップ候補」が「高さマップ候補と重さマップ候補」に読み替えられればよいため、省略する。

　以上のように、本実施形態によれば、重さマップを用いて、充填率だけでなく各区画の重さを考慮した評価値を算出することにより、下側の荷物が上側の荷物の重さにより潰れてしまう事態を防ぐことができる。

　以上の実施形態において、状態情報生成部１１３は、積込空間における荷物の積込状態に関する状態情報の一例として底面に対する荷物の高さを示す「高さマップ」を用いたが、他の情報を用いるようにしてもよい。例えば、積込空間の上面が遮蔽されており、一部の側面のみが開口している場合、開口面を基準とした荷物全体の奥行に関する情報を状態情報として用いてもよい。すなわち、開口面との対向面に対する高さマップ、言い換えれば、奥行マップが用いられてもよい。この場合、積込位置候補検出部１１４が、荷物の当該対向面側の側面および底面の接触率が閾値以上である位置を積込位置候補とし、状態情報生成部１１３は、積込位置候補検出部１１４から積込位置候補が送られてきたとき、荷物が当該積込位置候補のいずれかに積み込まれたとした場合における奥行に関する情報（奥行マップ候補）を、積込位置候補ごとに生成してもよい。奥行マップおよび奥行マップ候補は、高さマップおよび高さマップ候補と同様に、開口面を基準とした奥行きの深さを色の濃淡で示したヒートマップでもよいし、区画の位置を示す情報と当該区画の荷物の奥行とを組み合わせたデータでもよい。評価値算出部１２６は、積込状態評価モデルを用いて、積込位置候補ごとの奥行に関する情報の評価値を算出する。評価値には、積込区間における荷物の充填率や積込可能な物体の総容量に関する情報を用いてもよい。このように、積込空間の底面に対する高さマップだけでなく、積込空間の側面に対する高さマップも生成および用いてよい。

　以上の実施形態において、積込位置候補検出部１１４は、底面の接触率等を用いて積込位置候補を検出したが、他の情報を用いて積込位置候補を決定するようにしてもよい。例えば、既に積み込まれている物体の強度が低く、上面に物体を載せることができないような場合、この物体の上面は積込位置候補として検出しないように制御してもよい。また、積込対象となる物体の重さに応じて、積込位置候補を決定するようにしてもよい。このように、積込位置候補検出部１１４は、各物体の特性（強度、重さ等）に応じて、積込位置を決定するようにしてもよい。

　なお、上記の実施形態の少なくとも一部は、プロセッサ、メモリなどを実装しているＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ：集積回路）などの専用の電子回路（すなわちハードウェア）により実現されてもよい。複数の構成要素が一つの電子回路で実現されてもよいし、一つの構成要素が複数の電子回路で実現されてもよいし、構成要素と電子回路が一対一で実現されていてもよい。また、上記の実施形態の少なくとも一部は、ソフトウェア（プログラム）を実行することにより、実現されてもよい。例えば、汎用のコンピュータ装置を基本ハードウェアとして用い、コンピュータ装置に搭載された中央処理装置（ＣＰＵ：Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、画像処理装置（ＧＰＵ：Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのプロセッサ（処理回路、Ｐｒｏｃｅｓｓｉｎｇ　ｃｉｒｃｕｉｔ、Ｐｒｏｃｅｓｓｉｎｇ　ｃｉｒｃｕｉｔｒｙ）にプログラムを実行させることにより、上記の実施形態の処理を実現することが可能である。言い換えると、当該プログラムの実行により、プロセッサ（処理回路）が、各装置の各処理を実行できるように構成される。

　例えば、コンピュータが読み取り可能な記憶媒体に記憶された専用のソフトウェアをコンピュータが読み出すことにより、コンピュータを上記の実施形態の装置とすることができる。記憶媒体の種類は特に限定されるものではない。また、通信ネットワークを介してダウンロードされた専用のソフトウェアをコンピュータがインストールすることにより、コンピュータを上記の実施形態の装置とすることができる。こうして、ソフトウェアによる情報処理が、ハードウェア資源を用いて、具体的に実装される。

　図１３は、本発明の一実施形態におけるハードウェア構成の一例を示すブロック図である。作業支援システムの各装置は、プロセッサ５１と、主記憶装置５２と、補助記憶装置５３と、ネットワークインタフェース５４と、デバイスインタフェース５５と、を備え、これらがバス５６を介して接続されたコンピュータ装置５として実現できる。

　なお、図１３のコンピュータ装置５は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図１３では、１台のコンピュータ装置５が示されているが、ソフトウェアが複数のコンピュータ装置にインストールされて、当該複数のコンピュータ装置それぞれがソフトウェアの異なる一部の処理を実行してもよい。

　プロセッサ５１は、コンピュータの制御装置および演算装置を含む電子回路（処理回路）である。プロセッサ５１は、コンピュータ装置５の内部構成の各装置などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各装置などに出力する。具体的には、プロセッサ５１は、コンピュータ装置５のＯＳ（オペレーティングシステム）や、アプリケーションなどを実行することにより、コンピュータ装置５を構成する各構成要素を制御する。プロセッサ５１は、上記の処理を行うことができれば特に限られるものではない。モデル記憶部１１５およびモデル記憶部１２５以外の、モデル生成処理装置１１および積込位置決定処理装置１２の構成要素は、プロセッサ５１により実現されることが想定される。また、プロセッサ５１は、積込状態評価モデルを読み込むと、主記憶装置５２または補助記憶装置５３に記憶された入力情報から評価値などの出力情報を出力するように機能する。

　主記憶装置５２は、プロセッサ５１が実行する指示および各種データなどを記憶する記憶装置であり、主記憶装置５２に記憶された情報がプロセッサ５１により直接読み出される。補助記憶装置５３は、主記憶装置５２以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれでもよい。モデル記憶部１１５は、主記憶装置５２または補助記憶装置５３により実現されてもよい。つまり、モデル記憶部１１５は、メモリでもよいし、ストレージでもよい。

　ネットワークインタフェース５４は、無線または有線により、通信ネットワーク６に接続するためのインタフェースである。ネットワークインタフェース５４は、既存の通信規格に適合したものを用いればよい。ネットワークインタフェース５４より、通信ネットワーク６を介して、コンピュータ装置５と外部装置７Ａとを接続することができる。

　デバイスインタフェース５５は、外部装置７Ｂと直接接続するＵＳＢなどのインタフェースである。つまり、コンピュータ装置５と外部装置７との接続は、ネットワークを介してでもよいし、直接でもよい。

　なお、外部装置７（７Ａおよび７Ｂ）は、積込作業支援システム１の外部の装置、積込作業支援システム１の内部の装置、外部記憶媒体、およびストレージ装置のいずれでもよい。

　上記に、本発明の一実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１：積込作業支援システム、１１：モデル生成処理装置、１２：積込位置決定処理装置、１１１：積込空間サイズ取得部、１１２：学習用荷物情報生成部、１１３：状態情報生成部、１１４：積込位置候補検出部、１１５：モデル記憶部、１１６評価値算出部、１１７積込位置選択部、１１８モデル更新部、１１９保留決定部、１２１積込空間情報取得部、１２２積込用荷物情報取得部、１２３状態情報生成部、１２４積込位置候補検出部、１２５モデル記憶部、１２６評価値算出部、１２７積込位置決定部、１２８積込位置指示部、１２９保留決定部、２：積み込み予定の荷物、３（３Ａから３Ｏ）：既に積み込まれた荷物、４：積込空間の側壁、５：コンピュータ装置、５１：プロセッサ、５２：主記憶装置、５３：補助記憶装置、５４：ネットワークインタフェース、５５：デバイスインタフェース、５６：バス、６：通信ネットワーク、７（７Ａ、７Ｂ）：外部装置

Claims

　メモリと、
　少なくとも１つの処理回路と、を備え、
　前記少なくとも１つの処理回路は、
　　積込予定の第１物体が複数の積込位置候補のいずれかに積み込まれたとした場合の状態情報を生成することと、
　　所定空間における物体の積込状態に関する状態情報が入力されると、前記所定空間における物体の積込状態に対する評価値を出力する積込状態評価モデルに、前記積込位置候補の状態情報を入力して評価値を取得することと、
　を実行するよう構成される、
　情報処理装置。
　前記物体の積込状態に対する評価値は、前記所定空間における物体の容量に関する値である、
　請求項１に記載の情報処理装置。
　前記少なくとも１つの処理回路は、取得された評価値に基づき、前記複数の積込位置候補から、前記第１物体の積込位置を決定すること、を更に実行するよう構成される、
　請求項１または２に記載の情報処理装置。
　前記少なくとも１つの処理回路は、前記第１物体に関する情報と、前記第１物体が積み込まれる前の第１時点の状態情報と、を用いて、前記所定空間において前記第１物体を積み込むことが可能な位置を、前記複数の積込位置候補として検出すること、を更に実行するよう構成される、
　請求項１ないし３のいずれか一項に記載の情報処理装置。
　前記少なくとも１つの処理回路は、取得された評価値に基づき、前記第１物体の積込位置の決定を保留するか否かを決定すること、を更に実行するよう構成される、
　請求項３に記載の情報処理装置。
　前記少なくとも１つの処理回路は、前記第１物体の積込位置の決定を保留した場合、
　　積込予定の第２物体が複数の積込位置候補のいずれかに積み込まれたとした場合の状態情報を生成することと、
　　前記積込状態評価モデルを用いて、前記第２物体について生成された状態情報に対する評価値を取得することと、
　　前記第１物体の状態情報に対する評価値と、前記第２物体の状態情報に対する評価値と、に基づき、前記第１物体の積込位置と前記第２物体の積込位置のいずれかを決定することと、
　を更に実行するよう構成される、
　請求項５に記載の情報処理装置。
　前記少なくとも１つの処理回路は、前記第１物体の状態情報に対する評価値を、ペナルティ値を用いて更新すること、を更に実行するように構成される、
　請求項６に記載の情報処理装置。
　前記少なくとも１つの処理回路は、少なくとも、前記第１物体の底面における接触領域が前記底面に対して占める割合が閾値以上となるような位置と、前記接触領域が前記底面に対して占める割合が前記閾値未満ではあるが、前記接触領域と交差しない前記第１物体の側面が、前記所定空間の側壁と直接または他の物体を介して接触するような位置と、のいずれか一つを前記第１物体の積込位置候補として検出することを、を更に実行するよう構成される、
　請求項４に記載の情報処理装置。
　前記状態情報は、積み込まれた物体の前記所定空間における高さに関する情報を含む、
　請求項１ないし８のいずれか一項に記載の情報処理装置。
　前記積込状態評価モデルは、入力された状態情報に係る積込状態が、前記所定空間における物体の充填率を上げ、かつ、積み込まれた物体の前記所定空間における高さを均一化させるのに適している場合に、評価値を高くするように学習されている、
　請求項９に記載の情報処理装置。
　前記状態情報は、積み込まれた物体全体の前記所定空間に定められた各区間における重さに関する情報を含む、
　請求項１ないし１０のいずれか一項に記載の情報処理装置。
　前記積込状態評価モデルは、入力された状態情報に係る積込状態が、前記所定空間における物体の充填率を上げ、かつ、積み込まれた物体全体の前記所定空間に定められた各区画における重さを均一化させるのに適している場合に、評価値を高くするように学習されている、
　請求項１１に記載の情報処理装置。
　前記積込状態評価モデルは、前記状態情報から評価値を出力するニューラルネットワークである、
　請求項１ないし１２のいずれか一項に記載の情報処理装置。
　メモリと、
　少なくとも１つの処理回路と、を備え、
　前記少なくとも１つの処理回路は、
　　物体が複数の積込位置候補のいずれかに積み込まれたとした場合の状態情報を生成することと、
　　所定空間における前記物体の積み込み位置を決定するための積込状態評価モデルを用いて、生成された状態情報に対して評価値を取得することと、
　　所定のポリシーに基づき、前記複数の積込位置候補のうちの一つを、前記物体の積込位置として選択することと、
　　選択された積込位置に係る評価値の妥当性を評価することにより、前記積込状態評価モデルを更新することと、
　を実行するよう構成され、
　前記積込状態評価モデルは、前記所定空間における物体の積込状態に対する評価値を出力するモデルである、
　モデル生成処理装置。
　積込予定の第１物体が複数の積込位置候補のいずれかに積み込まれたとした場合の状態情報を生成するステップと、
　所定空間における物体の積込状態に関する状態情報が入力されると、前記所定空間における物体の積込状態に関する評価値を出力する積込状態評価モデルを用いて、前記積込位置候補に対する評価値を取得するステップと、
　を備える情報処理方法。
　前記物体の積込状態に対する評価値は、前記所定空間における物体の容量に関する値である、
　請求項１５に記載の情報処理方法。
　取得された評価値に基づき、前記複数の積込位置候補から、前記第１物体の積込位置を決定するステップ
　を更に備える請求項１５または１６に記載の情報処理方法。
　前記第１物体に関する情報と、前記第１物体が積み込まれる前の第１時点の状態情報と、を用いて、前記所定空間において前記第１物体を積み込むことが可能な位置を、前記複数の積込位置候補として検出するステップ
　を更に備える請求項１５ないし１７のいずれか一項に記載の情報処理方法。
　取得された評価値に基づき、前記第１物体の積込位置の決定を保留するか否かを決定するステップ
　を更に備える請求項１５または１６に記載の情報処理方法。
　前記第１物体の積込位置の決定が保留された場合、
　積込予定の第２物体が複数の積込位置候補のいずれかに積み込まれたとした場合の状態情報を生成するステップと、
　前記積込状態評価モデルを用いて、前記第２物体について生成された状態情報に対する評価値を取得するステップと、
　前記第１物体の状態情報に対する評価値と、前記第２物体の状態情報に対する評価値と、に基づき、前記第１物体の積込位置と前記第２物体の積込位置のいずれかを決定するステップと、
　を更に備える請求項１９に記載の情報処理方法。
　前記第１物体の積込位置と前記第２物体の積込位置のいずれかを決定する前に、前記第１物体の状態情報に対する評価値を、ペナルティ値を用いて更新するステップ
　を更に備える請求項２０に記載の情報処理方法。
　少なくとも、前記第１物体の底面における接触領域が前記底面に対して占める割合が閾値以上となるような位置と、前記接触領域が前記底面に対して占める割合が前記閾値未満ではあるが、前記接触領域と交差しない前記第１物体の側面が、前記所定空間の側壁と直接または他の物体を介して接触するような位置と、のいずれか一つが前記第１物体の積込位置候補として検出される
　請求項１８に記載の情報処理方法。
　前記状態情報は、積み込まれた物体の前記所定空間における高さに関する情報を含む、
　請求項１５ないし２２のいずれか一項に記載の情報処理方法。
　前記積込状態評価モデルは、入力された状態情報に係る積込状態が、前記所定空間における物体の充填率を上げ、かつ、積み込まれた物体の前記所定空間における高さを均一化させるのに適している場合に、評価値を高くするように学習されている、
　請求項２３に記載の情報処理方法。
　前記状態情報は、積み込まれた物体全体の前記所定空間に定められた各区間における重さに関する情報を含む、
　請求項１５ないし２４のいずれか一項に記載の情報処理方法。
　前記積込状態評価モデルは、入力された状態情報に係る積込状態が、前記所定空間における物体の充填率を上げ、かつ、積み込まれた物体全体の前記所定空間に定められた各区画における重さを均一化させるのに適している場合に、評価値を高くするように学習されている、
　請求項２５に記載の情報処理方法。
　前記積込状態評価モデルは、前記状態情報から評価値を出力するニューラルネットワークである、
　請求項１５ないし２６のいずれか一項に記載の情報処理方法。
　物体が複数の積込位置候補のいずれかに積み込まれたとした場合の状態情報を生成するステップと、
　所定空間における前記物体の積み込み位置を決定するための積込状態評価モデルを用いて、生成された状態情報に対して評価値を取得するステップと、
　所定のポリシーに基づき、前記複数の積込位置候補のうちの一つを、前記物体の積込位置として選択するステップと、
　選択された積込位置に係る評価値の妥当性を評価することにより、前記積込状態評価モデルを更新するステップと、
　を備え、
　前記積込状態評価モデルは、前記所定空間における物体の積込状態に対する評価値を出力するモデルである、
　情報処理方法。