JPWO2014148564A1

JPWO2014148564A1 - 定量計量システム及び定量計量方法

Info

Publication number: JPWO2014148564A1
Application number: JP2015506833A
Authority: JP
Inventors: 斉志伊庭; 慶人稲積; 小西　聡; 聡小西; 廣瀬　修; 修廣瀬; 佐藤　良一; 良一佐藤
Original assignee: Ishida Co Ltd
Current assignee: Ishida Co Ltd
Priority date: 2013-03-19
Filing date: 2014-03-19
Publication date: 2017-02-16
Also published as: WO2014148564A1

Abstract

定量計量システム１では、各ステーション２における物品Ｓの重量の総和を状態、各ステーション２に対する物品Ｓの振分動作を行動、行動の実行による状態の変化を遷移として捉えた場合に、各遷移に必要な重量を有する物品Ｓが供給される困難性を示す遷移困難度が更新される。そして、状態遷移モデルを表現したグラフ構造において、各エッジについての遷移困難度が低いほど高い第１報酬が付与され、かつ各エッジに接続された遷移先のノードについての物品Ｓの重量の総和が目標レンジ内であれば第２報酬が付与されるように、各エッジに設定されるＱ値が更新される。

Description

本発明は、定量計量システム及び定量計量方法に関する。

重量にばらつきのある物品（例えば、食肉等）を対象として、複数のステーションのそれぞれにおける物品の重量の総和が目標レンジに収まるように、各ステーションに複数個ずつ物品を振り分ける定量計量システム及び定量計量方法が知られている。このような定量計量システム及び定量計量方法には、各ステーションにおける物品の重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けること（条件１）、及びシステムの動作を安定的に継続させること（条件２）を満たすことが求められる。

上記条件１を満たすための最も簡単な方法は、各ステーションにおける物品の重量の総和が目標レンジの下限値に到達する直前になるまで、各ステーションにランダムに物品を振り分け、その後、各ステーションにおいて、上記条件１を満たすための重量を有する物品が現れるのを待ち続けることである。しかし、このような方法では、各ステーションにおける物品の重量の総和が目標レンジの下限値に到達する直前の状況次第で、いずれのステーションにも物品を振り分けることができなくなるおそれがあるため、上記条件２を満たすことができない。

逆に、上記条件２を満たすための最も簡単な方法は、各ステーションにおける物品の重量の総和が目標レンジに収まりさえすればよいというスタンスで、各ステーションに物品を振り分けることである。しかし、各ステーションにおける物品の重量の総和を目標レンジの下限値に近付けることを無視した方法なので、上記条件１を満たすことができない。

このようにトレードオフの関係にある上記条件１及び条件２を同時に満たすために、特許文献１には、物品を供給した後の各ステーションにおける物品の重量の総和を考慮したときに目標重量が成立する確率が最も高いステーションに物品を供給する方法が記載されている。

欧州特許第０７８１１７２号明細書

ところで、上述した特許文献１記載の方法は、目標重量のみに着目した方法であり、目標レンジ全体を考慮した方法ではないということに留意する必要がある。一例として、物品を供給した後に目標重量に到達し得る確率が低いステーションしか存在しない場合を考える。その場合、目標重量だけでなく目標レンジ内の他の重量に到達する確率も考慮することで、物品がいずれかのステーションに供給される可能性が向上するといえる。このように、特許文献１記載の方法には、改良の余地があることが分かる。

そこで、本発明は、各ステーションにおける物品の重量の総和を目標レンジに収めること、及びシステムの動作を安定的に継続させることを達成することができる定量計量システム及び定量計量方法を提供することを目的とする。

本発明の一側面の定量計量システムは、順次供給される物品の重量を計測する計量部と、順次供給される物品を複数のステーションのそれぞれに振り分ける振分部と、計量部によって計測された物品の重量に基づいて、複数のステーションのそれぞれにおける物品の重量の総和が目標レンジに収まるように振分部を制御する制御部と、を備え、制御部は、複数のステーションのそれぞれにおける物品の重量の総和を状態として捉え、かつ複数のステーションのそれぞれに対する物品の振分動作を行動として捉え、かつ行動の実行による状態の変化を遷移として捉えた場合に、遷移のそれぞれに必要な重量を有する物品が供給される困難性を示す遷移困難度を更新しつつ、状態をノードとして捉え、かつ遷移をエッジとして捉えたグラフ構造において、エッジのそれぞれについての遷移困難度が低いほど高い第１報酬が付与されるように、かつエッジのそれぞれに接続された遷移先のノードについての物品の重量の総和が目標レンジ内であれば第２報酬が付与されるように、第１報酬及び第２報酬の期待値としてエッジのそれぞれに設定されるＱ値を更新し、物品を複数のステーションのいずれか１つに振り分けるときに、複数のステーションのそれぞれに対する当該物品の振分動作に対応するエッジから、Ｑ値が最大となるエッジを選択し、当該エッジに対応する振分動作を実行するように振分部を制御する。

本発明者らは、上記目的を達成するために鋭意検討を重ねた結果、各ステーションに対する物品の振分動作によって各ステーションにおける物品の重量の総和が変化する様子を状態遷移モデルに帰着させ得ることを見出し、上記定量計量システムを完成させるに至った。上記定量計量システムでは、高い第１報酬を得るために、遷移困難度が低いエッジに対応する振分動作が実行され易くなる。これにより、システムの動作を安定的に継続させることができる。更に、第２報酬を得るために、物品の重量の総和が目標レンジ内であるノードに接続されたエッジに対応する振分動作が実行され易くなる。これにより、各ステーションにおける物品の重量の総和を目標レンジに収めることができる。このように、上記定量計量システムによれば、各ステーションにおける物品の重量の総和を目標レンジに収めること、及びシステムの動作を安定的に継続させることを達成することができる。

また、制御部は、物品を複数のステーションのいずれか１つに振り分けるときに、複数のステーションのそれぞれに対する当該物品の振分動作に対応するエッジから、振分動作以降に一度でも遷移する可能性があるノードに更に接続された複数のエッジのそれぞれに設定されたＱ値の最大値が最大となるステーションを選択し、当該ステーションに対応する振分動作を実行するように振分部を制御してもよい。これによれば、システムの動作をより安定的に継続させることができる。

また、第２報酬は、目標レンジの下限値に近いほど高い値であってもよい。この場合、各ステーションにおける物品の重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けることができる。また、第２報酬は、目標レンジ内に目標重量を設定した場合に、目標重量に近いほど高い値であってもよい。この場合、各ステーションにおける物品の重量の総和を目標レンジに収めかつ目標重量に近付けることができる。

また、第２報酬は、第１報酬よりも高い値であってもよい。この場合、物品の重量の総和が目標レンジ内において目標レンジの下限値に近いノードに接続されたエッジに対応する振分動作が実行される頻度がより高くなる。そのため、各ステーションにおける物品の重量の総和を目標レンジにより確実に収めることができる。

また、制御部は、遷移困難度が所定値よりも低くなっているエッジによってグラフ構造を構成してもよい。これによれば、システムの動作の安定的継続を担保しつつ、制御部による計算量を抑制することができる。

本発明の一側面の定量計量方法は、順次供給される物品の重量を計測する計量工程と、計量工程にて計測された物品の重量に基づいて、複数のステーションのそれぞれにおける物品の重量の総和が目標レンジに収まるように、順次供給される物品を複数のステーションのそれぞれに振り分ける振分工程と、を含み、振分工程では、複数のステーションのそれぞれにおける物品の重量の総和を状態として捉え、かつ複数のステーションのそれぞれに対する物品の振分動作を行動として捉え、かつ行動の実行による状態の変化を遷移として捉えた場合に、遷移のそれぞれに必要な重量を有する物品が供給される困難性を示す遷移困難度を更新しつつ、状態をノードとして捉え、かつ遷移をエッジとして捉えたグラフ構造において、エッジのそれぞれについての遷移困難度が低いほど高い第１報酬が付与されるように、かつエッジのそれぞれに接続された遷移先のノードについての物品の重量の総和が目標レンジ内において目標レンジの下限値に近いほど高い第２報酬が付与されるように、第１報酬及び第２報酬の期待値としてエッジのそれぞれに設定されるＱ値を更新し、物品を複数のステーションのいずれか１つに振り分けるときに、複数のステーションのそれぞれに対する当該物品の振分動作に対応するエッジから、Ｑ値が最大となるエッジを選択し、当該エッジに対応する振分動作を実行する。

上記定量計量方法によれば、上述した定量計量システムと同様に、各ステーションにおける物品の重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けること、及びシステムの動作を安定的に継続させることを達成することができる。

本発明によれば、各ステーションにおける物品の重量の総和を目標レンジに収めること、及びシステムの動作を安定的に継続させることを達成することができる定量計量システム及び定量計量方法を提供することが可能となる。

本発明の一実施形態の定量計量システムの構成図である。ステーションと状態との関係を示す図である。ステーションと状態との関係を示す図である。状態遷移モデルを表現したグラフ構造を示す図である。第１報酬及び第２報酬が付与されたグラフ構造を示す図である。第２報酬が付与されたグラフ構造を示す図である。重量ランクごとの滞留サイクル数を格納するＦＩＦＯキューの一例を示す図である。図７の一例をコピーしたバッファを示す図である。図８の一例を補正したバッファを示す図である。１つの有向エッジが存在する場合のグラフ構造を示す図である。２つの有向エッジが存在する場合のグラフ構造を示す図である。特徴量の正規化のための変換曲線を示す図である。所定値以上の特徴量を有する有向エッジを含むグラフ構造を示す図である。図１３の一例において有向エッジの消去処理が施されたグラフ構造を示す図である。図１４の一例において有向エッジの消去処理が施されたグラフ構造を示す図である。最大のＱ値を求めるための概念を表現したグラフ構造を示す図である。

以下、本発明の好適な実施形態について、図面を参照して詳細に説明する。なお、各図において同一又は相当部分には同一符号を付し、重複する説明を省略する。

［定量計量システムの構成］
図１に示されるように、定量計量システム１は、重量にばらつきのある物品Ｓ（例えば、食肉等）を対象として、複数のステーション２のそれぞれにおける物品Ｓの重量の総和が目標レンジに収まるように、各ステーション２に複数個ずつ物品Ｓを振り分けるシステムである。定量計量システム１は、順次供給される物品Ｓの重量を計測する計量部３と、順次供給される物品Ｓを各ステーション２に振り分ける振分部４と、計量部３によって計測された物品Ｓの重量に基づいて、各ステーション２における物品Ｓの重量の総和が目標レンジに収まるように振分部４を制御する制御部５と、を備えている。ステーション２は、複数の物品Ｓを格納可能な容器である。なお、何らかの理由でステーション２のいずれにも振り分けられなかった物品Ｓは、振分部４の下流側に配置された容器６内に収容される。

［定量計量アルゴリズム］
以上のような定量計量システム１には、各ステーション２における物品Ｓの重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けること（条件１）、及びシステムの動作を安定的に継続させること（条件２）を満たすことが求められる。以下、これらの条件１及び条件２を満たすために定量計量システム１において実施される定量計量アルゴリズム（定量計量方法）について説明する。

なお、次のように前提条件を設ける。
（１）目標レンジの下限値及び上限値は、全てのステーション間で共通である。
（２）定量計量のみを考慮したアルゴリズムである（個数制約等はない）。

また、次のように用語を定義する。
（１）定量計量誤差：ステーションにおける物品の重量の総和（以下、「ステーション内部重量」という）ｗが目標重量ｗ_targetを超えたとき、ｗ_error＝ｗ−ｗ_targetで計算される値を定量計量誤差という。
（２）目標レンジ：目標レンジの下限値を目標重量といい、目標レンジの上限値を上限重量という。
（３）稼働率：「計量部によって重量を計測された物品の総数Ｎ」に対する「定量計量が完了した結果として各ステーションから導出される物品の総数ｎ」の割合ｎ／Ｎを稼働率という。

［報酬の導入］
一般的に、トレードオフの関係にある複数の事柄を同時に満たすようにするためには、まず、統一された尺度でそれぞれの事柄を評価する必要がある。そこで、本定量計量アルゴリズムでは、次のような「報酬」という統一された尺度で上記条件１及び条件２を評価する。
（１）定量計量誤差を小さく抑えるほど高い報酬（第２報酬）が得られる。
（２）システムの動作を安定的に継続させるほど高い報酬（第１報酬）が得られる。

そして、本定量計量アルゴリズムは、得られる報酬を最大化するために自ら動作することで、上記条件１及び条件２を同時に満たすような定量計量を実現する。以下、定量計量システム１を用いた定量計量の実動作中における報酬の付与の方法、及び報酬の最大化の方法ついて説明する。

［状態遷移モデルを用いた報酬の付与］
本定量計量アルゴリズムでは、各ステーション２に対する物品Ｓの振分動作によってステーション内部重量が変化する様子を状態遷移モデルに帰着させ、その状態遷移モデルをグラフ構造として保持する。ここでは、各ステーション２に対する物品Ｓの振分動作によってステーション内部重量が変化する様子を状態遷移モデルに帰着させる方法について例を用いて説明した後、状態遷移モデルをグラフ構造として表現する方法について説明する。

＜状態遷移モデルへの帰着＞
図２に示されるように、目標重量２０００ｇ、上限重量３０００ｇとされたステーション２に、既に２００ｇの物品Ｓが入っている場合を考える。まず、図２に示される０ｇ〜３０００ｇの範囲を６等分し、６等分後の５００ｇの幅を有する各区間にＩＤを割り振る。すると、図２に示される状態においては、ステーション内部重量が２００ｇであるため、ステーション内部重量がＩＤ＝０の区間に入っていることになる。本定量計量アルゴリズムでは、ステーション内部重量がＩＤ＝０の区間に入っていることを「ステーションの状態が０である」と定義する。そして、新たに６００ｇの物品Ｓがステーション２に追加され、図３に示される状態になったとき、ステーション２の状態は１となる。本定量計量アルゴリズムでは、図２に示される状態から図３に示される状態にステーション内部重量が変化することを「ステーションの状態が０から１に遷移した」とみなす。

この例をより一般的な表現に拡張すると、「０からステーションの上限重量ｗ_upperまでの範囲をｍ等分し、ｍ等分後の各区間に番号ｉ（＝０，１，２，・・・，ｍ−１）を割り振ったとき、ｃサイクル目においてステーション内部重量がｉ＝Ｉ_ｃの区間に入っているとすると、ステーションの状態はＩ_ｃである」ということになる。また、ステーションの状態がｃ＋１サイクル目にｉ＝Ｉ_ｃからｉ＝Ｉ_ｃ＋１に変化するとき、「ステーションの状態はＩ_ｃからＩ_ｃ＋１に遷移した」と表現する。

＜グラフ構造による表現＞
本定量計量アルゴリズムでは、上述したように、各ステーション２に対する物品Ｓの振分動作によってステーション内部重量が変化する様子を状態遷移モデルに帰着させる。そして、状態遷移モデルを制御部５のコンピュータ上で保持するために、状態遷移モデルをグラフ構造として表現する。図４に、図２及び図３に示される場合をグラフ構造で表現したときの例を示す。図４に示されるグラフ構造では、各状態をノードとして扱い、ノードを円で表し、円の内部にＩＤを記述する。また、各有向エッジとして、自ノードから自ノードに延びるもの、及び、自ノードから、自ノードよりも大きいＩＤを有する別のノードに延びるものを記述する。状態遷移時は、自ノードから有向エッジに沿って別のノードに移動することとし、有向エッジが存在しない場合には、それに該当する状態遷移も同様に存在しないものとする。なお、図４に示されるグラフ構造では、簡易化のためにＩＤ＝５のノードが省略されている。

＜状態遷移中における報酬の付与＞
定量計量システム１に求められる上記条件１（すなわち、各ステーション２における物品Ｓの重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けること）は、目標重量誤差が小さくかつ目標重量以上の状態に遷移したときに高い第２報酬を付与することにより満たされる。一方、定量計量システム１に求められる上記条件２（すなわち、システムの動作を安定的に継続させること）は、「システムの動作を安定的に継続させる」という抽象的な条件を別の観点から捉えることによって具体的な条件に置き換える必要がある。

ここで、上記条件２について検討すると、「システムの動作を安定的に継続させる」とは、「定量計量システム１内に滞留する物品Ｓの量が所定レベルよりも低く保たれる」ことであるといえる。本定量計量アルゴリズムでは、定量計量システム１内に導入される物品Ｓの量をコントロールすることはできないので、定量計量システム１内から導出される物品Ｓの量を多くすることにより、定量計量システム１内に滞留する物品Ｓの量をコントロールして、システムの動作を安定的に継続させる。

具体的には、各ステーション２において「導出から次の導出までのサイクルを短くする」ことにより、定量計量システム１内から導出される物品Ｓの量を多くすることが可能になる。各ステーション２において「導出から次の導出までのサイクルを短くする」ことは、「できる限りステーション内部重量が小さいステーション２に対して集中的に物品Ｓを供給し続ける」ことで可能になる。そして、「できる限りステーション内部重量が小さいステーション２に対して集中的に物品Ｓを供給し続ける」ためには、各ステーション２において「別状態への遷移を短いサイクルで行う」ことが必要である。したがって、別状態への遷移のサイクルが短くなるほど高い第１報酬を付与することにより、上記条件２は満たされる。

以上により、上記条件１及び条件２を同時に満たすためには、状態遷移中に報酬を付与することが妥当であるといえる。そして、状態遷移中に報酬を付与することは、グラフ構造上の有向エッジ通過時に報酬を付与することと等価であるため、本定量計量アルゴリズムを制御部５のコンピュータ上に実装する際には、グラフ構造から報酬が得られるようにする。

図５に示されるように、具体的な報酬の値は、コンピュータ上での扱いやすさを考慮して、−１〜１の値とする。目標重量以上かつ上限重量未満の重量に到達したときに得られる第２報酬は、０〜１の値とする。図５に示されるグラフ構造では、目標レンジ内のノードに到達したときに＋１．０の第２報酬が得られることになっている。また、一般的に、有向エッジを通過するのに要する時間（あるノードから別のノードに遷移するのに要する滞留サイクル数）は、コストとして扱われる。そのため、本定量計量アルゴリズムでは、有向エッジを通過したときに得られる第１報酬は、−１〜０の値とする。図５に示されるグラフ構造では、遠くのノード（状態が大きく変化するノード）に遷移するほど、有向エッジを通過するのに要する時間が長くなると想定し、得られる第１報酬を低く設定している。

［報酬の計算方法］
＜目標レンジ到達時に得られる報酬＞
図４に示されるグラフ構造から、全てのノード、及び目標レンジ内のノードに延びる有向エッジを抜粋したものを図６に示す。本定量計量アルゴリズムでは、目標レンジ内のノードごとに、そのノードに到達したときに得られる第２報酬を定める。具体的な第２報酬の設定方法は様々なパターンが存在する。例えば、図６に示される場合では、目標レンジ内のノードのうち、ＩＤ＝４のノードに到達する場合のほうがＩＤ＝５のノードに到達する場合よりも定量計量誤差が小さくなることから、ＩＤ＝５のノードに延びる有向エッジを通過するときに得られる第２報酬よりも、ＩＤ＝４のノードに延びる有向エッジを通過するときに得られる第２報酬が高くなっている。このように、本定量計量アルゴリズムにおいては、遷移することが好ましいノードに延びる有向エッジほど、報酬を高く設定すればよい。

＜状態遷移時の報酬＞
本定量計量アルゴリズムでは、有向エッジ通過時間、つまり、あるノードに到着してから別のノードに遷移するまでに待機していたサイクル数が大きいほど、絶対値が大きい負値の第１報酬を付与する。本定量計量アルゴリズムでは、待機していたサイクル数を「滞留サイクル数」という。滞留サイクル数は、図２及び図３に示されるように、分割された区間幅の重量ランクごとに計算される。そして、各サイクルにおいて滞留サイクル数をＦＩＦＯキューへ保存し、キューに保存されたデータに対して、新しいものほど重みを大きくするような時系列的なフィルタ処理を施し、フィルタ処理後の値を−１〜０に正規化したものを第１報酬とする。

上述した滞留サイクル数の求め方について例を用いて説明する。ここでは、２０ｇ、２１ｇの物品Ｓが発生する確率をそれぞれ５０％、１０％、物品Ｓが発生しない（０ｇの物品Ｓが発生する）確率を４０％と設定した状況を考える。なお、「物品Ｓが発生しない場合」というのは、実際の定量計量システム１で考えると、次のような状況である。２つのステーション２が存在したとすると、一方のステーション２に物品Ｓが供給されたとき、他方のステーション２には物品Ｓが供給されなかったこととなり、他方のステーション２の視点で見ると、物品Ｓが発生していないのと同じことになる。したがって、「物品Ｓが発生しない場合」を想定するのは妥当である。

そして、重量ランクを１ｇごとに刻むことで２０≦ｗ_２０＜２１、２１≦ｗ_２１＜２２の重量範囲を有する２つの重量ランクｉ＝２０、ｉ＝２１を定めることができる。このような設定条件の下で定量計量システム１を９サイクル目まで動作させ、表１に示されるような物品Ｓの重量について時系列データが発生したとする。このとき、各時刻における重量ランクｉ＝２０、ｉ＝２１の滞留サイクル数は、表２に示されるようになる。滞留サイクル数は、各重量ランクに対応する物品Ｓの重量が計測されたときに、前回計測されてから、又は定量計量システム１が動作を開始してから、何回計測されていないかを表すものである。

本定量計量アルゴリズムでは、重量ランクごとの滞留サイクル数を重量ランクごとに用意したＦＩＦＯキューに格納する。図７に、９サイクル目において、表２に示される滞留サイクル数がキューに格納されている例を示す。ただし、各重量ランクにおけるキューの数は１０個であるものとする。そして、図７に示される矢印は、サイクルごとに、キューの左側から滞留サイクル数の新しいデータが挿入されると同時に、キュー内の全てのデータが右側に１つだけシフトし、最も古いデータがキューの右側に押し出されて消去される様子を表している。本定量計量アルゴリズムでは、以上のように滞留サイクル数をキューに保存する。

次に、図７に示されるキューを用いて、９サイクル目における状態遷移時の第１報酬を求める手順について説明する。この手順は、キュー内のデータに対して時系列的なフィルタ処理を施し、重量ランクごとに特徴量を抽出するプロセス、重量ランクごとの特徴量をグラフ構造上の各有向エッジに割り当てるプロセス、及び重量ランクごとの特徴量を正規化するプロセスに大別される。以下、各プロセスの詳細について説明する。

（特徴量を抽出するプロセス）
本定量計量アルゴリズムでは、まず、図８に示されるように、図７に示されたキューをバッファにコピーする。キューをバッファにコピーする理由は、データ操作によりキュー内のデータが変化し、上述したキューの更新処理が実行不能になるのを防止するためである。また、キューの各マス上にある数は、各マスに対する時系列的な重みである。新しいデータが格納されているマスほど重みが大きくなっている。

そして、図８に示されるデータに対して、時系列的に新しいデータほど大きい重みを掛け合わせて平均化する処理を施す。本定量計量アルゴリズムでは、平均化処理のために、図８に示されるデータのうち、−１以外のデータについて加重平均を計算する。重量ランク２０のデータについて加重平均を計算すると、式（１）のようになる。結果の値は１．１となり、図８に示される重量ランク２０のデータと比較しても、妥当であることが分かる。

同様に、重量ランク２１のデータについて加重平均を計算すると、式（２）のようになる。重量ランク２１については、３番目に新しいデータのみで加重平均を計算しているため、図８に示される重量ランク２１のデータと比較しても、平均化処理の効果が全く表れていないことが分かる。

このことは、−１以外のデータに対して加重平均を計算するという方法に由来する。つまり、重量ランクに相当するデータが得られて初めて加重平均の対象となるため、重量ランクに相当するデータが得られなかった場合を考慮していないことが原因であると考えられる。したがって、本定量計量アルゴリズムでは、図８に示されるデータをそのまま利用するのではなく、重量ランク２１に相当する物品Ｓが発生したと想定し、図９に示されるように、キューの先頭に、−１ではなく１を挿入する。

図９に示される重量ランク２１のデータについて加重平均を計算すると、式（３）のようになり、時系列的な影響が考慮された値となっていることが分かる。したがって、キュー内の最新のマスに−１が格納されているときは、その重量ランクの物品Ｓが発生した仮定して、バッファ上で展開されたキューを上述のように操作し、加重平均をとる。

（特徴量を各有向エッジに割り当てるプロセス）
状態ｉ及び状態ｊ（ｉ＜ｊ）があると仮定すると、状態ｉから状態ｊへの遷移が可能となるのは、重量ランクｊ−ｉの物品Ｓが発生し、ステーション２に供給されたときである。したがって、本定量計量アルゴリズムでは、重量ランクｋの滞留サイクル数から求められた特徴量Ｖ_ｋは、状態ｍから状態ｎ（ｎ−ｍ＝ｋ）に遷移するときに得られるものである。よって、特徴量Ｖ_ｋは、グラフ構造上において状態ｍのノードから状態ｎのノードに延びる有向エッジを通過するときに得られる。

ここで、特徴量Ｖ_ｋは、ある状態ｍから特定の状態ｎ（ｎ−ｍ＝ｋ）に遷移する際に見込まれる滞留サイクル数に相当する。それに対し、ある状態ｍから不特定の状態に遷移するための滞留サイクル数に相当する特徴量Ｒ_ｍは、特徴量Ｖ_ｋとは異なる。その理由は、状態ｍから状態ｎへの遷移を待っている間に、状態ｍから状態ｌへの遷移が可能になるかもしれないからである。この理由から、一般的にＲ_ｍ＜Ｖ_ｋとなる。特徴量Ｒ_ｍは、状態ｍから遷移するために必要な実質的な滞留サイクル数であるため、本定量計量アルゴリズムでは、特徴量Ｒ_ｍを最終的な正規化の対象とする。以下、特徴量Ｒ_ｍの算出方法について説明する。なお、特徴量Ｒ_ｍを求めるために特徴量Ｖｋを加工することから、特徴量Ｒ_ｍを合成特徴量ということにする。

図１０に、状態ｍから状態ｎへの遷移が可能なグラフ構造を示す。この場合、有向エッジ上の特徴量は特徴量Ｖ_ｋとなり、合成特徴量Ｒ_ｍとの関係は、Ｒ_ｍ＝Ｖ_ｋとなる。図１１に、状態ｍから状態ｎ及び状態ｎ＋１への遷移が可能なグラフ構造を示す。この場合、各有向エッジ上の特徴量は特徴量Ｖ_ｋ、特徴量Ｖ_ｋ＋１となり、合成特徴量Ｒ_ｍとの関係は、上述した理由から、Ｒ_ｍ＜Ｖ_ｋ、Ｒ_ｍ＜Ｖ_ｋ＋１となる。このことから、状態ｍのノードから延びる有向エッジが増えるほど、特徴量Ｒ_ｍが小さくなることが容易に分かる。この関係は、電気回路にて電気抵抗を並列に接続することと類似している。電気回路では、電気抵抗を並列に多く接続するほど、合成抵抗が小さくなる。よって、本定量計量アルゴリズムでは、特徴量Ｒ_ｍと特徴量Ｖ_ｋとの数理的な関係を式（４）のように定める。

ただし、δ_ｍ，ｋは、状態ｍから状態ｍ＋ｋに遷移するときに通過する有向エッジが存在するときのみ１となり、当該有向エッジが存在しないときは０となる。式（４）は、並列回路における合成抵抗の基本公式との類似性から導いたものである。このようにして求めた合成特徴量Ｒ_ｍは、ノードから延びる全ての有向エッジに割り振られる。以下、合成特徴量Ｒ_ｍのことを単に特徴量という。

（特徴量を正規化するプロセス）
特徴量を−１〜０の値に正規化する方法について説明する。前提として、正規化を行うときに留意するべき事柄がある。それは、特徴量を正規化した値はそのまま状態遷移時の第１報酬として扱われるということである。したがって、「正規化後の値は滞留サイクル数が小さいほど大きくなる」という関係を維持しつつ正規化を行う必要がある。本定量計量アルゴリズムでは、特徴量の値が小さいほど、特徴量を正規化した後の値の感度が大きくなるように、正規化を行う。そのために、本定量計量アルゴリズムでは、特徴量を正規化するための変換式を式（５）のように定める。ただし、式（５）において、Ｖは正規化後の値であり、Ａは定数である。式（５）の特徴量Ｒ_ｍと正規化後の値Ｖとの関係を視覚的に表すと、図１２に示されるようになる。以上の方法によって求めた値Ｖが状態遷移時に得られる第１報酬となる。

［報酬の最大化］
定量計量システム１は、ステーション内部重量が０の状態から目標レンジに到達するまでに、できる限り多くの報酬を得るように動作することで、定量計量誤差を小さく抑えつつも、システムの動作を安定的に継続させることが可能になる。本定量計量アルゴリズムにおける報酬の最大化は、閾値以上の特徴量を有する有向エッジの除去、数手先の報酬を考慮したＱ学習理論、及びＱ値を用いた供給先のステーションの決定を順次行うことにより実施される。以下、これらの詳細について説明する。

＜閾値以上の特徴量を有する有向エッジの除去＞
特徴量とは、ある状態から別の状態への遷移の困難性を示す指標である。所定値よりも大きい特徴量を有する有向エッジは、定量計量システム１の動作の安定的な継続を阻害するおそれがある。例として、図１３に示されるように、状態ａから出発して状態ｄに到達することを目的するグラフ構造について考える。図１３に示されるグラフ構造において、Ｒ_ｉ，ｊは、状態ｉから状態ｊに遷移する際の特徴量である。

図１３に示されるグラフ構造では、状態ａから状態ｂに遷移する際、及び状態ａから状態ｃに遷移する際には、特徴量の値２に相当する滞留サイクル数２回で遷移できることが見込まれる。同様に、状態ｂから状態ｄに遷移する際にも、期待される滞留サイクル数は２回である。しかし、状態ｃから状態ｄに遷移する際には、期待される滞留サイクル数は１００回であり、多くのサイクル数が費やされる。全てのステーション内部重量が状態ｃに陥った状況を考えると、次サイクルにおいていずれかのステーション２が状態ｄに遷移し得る可能性は殆どなく、数サイクル以内に定量計量システム１の動作が破綻することは明白である。

そこで、本定量計量アルゴリズムでは、図１４に示されるように、所定値以上の特徴量を有する有向エッジを予めグラフ構造上から消去する。図１４に示されるグラフ構造では、状態ｃのノードから延びる有向エッジが１つも存在しないことが分かる。したがって、状態ｃに遷移すること自体が定量計量システム１の動作の破綻につながるので、図１５に示されるように、状態ｃのノードに延びる有向エッジも同時に除去しなければならない。このように、本定量計量アルゴリズムでは、状態ｃのノードから延びる有向エッジの中で所定値以上の特徴量を有する有向エッジを消去した後、状態ｃの状態から延びる有向エッジが１つも残らなかった場合、状態ｃのノードに延びる有向エッジも全て消去する。

本定量計量アルゴリズムでは、上述した有向エッジの消去に関する手順を目標レンジに近い状態から実行することで、グラフ構造全体を通して実行することができる。また、有向エッジを消去する際の基準として用いる特徴量の閾値である所定値は、小さいほど多くの有向エッジが消去されることになる。ただし、そのとき問題となるのは、ステーション内部重量が０の状態から目標レンジに到達するまで間に、有向エッジで構成される一繋ぎのパスが存在しなくなることである。したがって、所定値は、できる限り小さくすると同時に、ステーション内部重量が０の状態から目標レンジに到達するまでの間にパスが存在するように注意を払う必要がある。

＜数手先の報酬を考慮したＱ学習理論＞
あるステーション２について、ステーション内部重量が目標レンジに到達するためには、３つ以上の物品Ｓが当該ステーション２に供給される必要があるとき、ステーション内部重量が目標レンジに到達したときに得られる報酬を先読みしながら行動することは一般的には困難である。そこで、本定量計量アルゴリズムでは、状態遷移モデル上において数手先の報酬も考慮に入れた上で行動するための手法であるＱ学習理論を用いて最終的に得られる報酬を最大化することにする。本定量計量アルゴリズムでは、Ｑ学習理論を用いることによりＱ値と呼ばれる値を各有向エッジ上に割り振る。Ｑ値が高い有向エッジを通過したときほど、目標レンジ到達時に高い報酬が得られると期待されるため、Ｑ値は、報酬の最大化に直接的に貢献する値であるといえる。

＜Ｑ値を用いた供給先のステーションの決定＞
一般的に、Ｑ学習理論の枠組み内では、現状態においてＱ値が最も高くなる行動を自ら選択する。本定量計量アルゴリズムでは、以下のようにして物品Ｓの供給先となるステーション２を決定する。この決定方法は、２つのパターンに大別される。

まず、１つ目のパターンとして、各ステーション２において、現状態ｉから状態ｊに遷移する可能性があるときに、遷移後の状態ｊが目標レンジ未満である場合について説明する。その場合、本定量計量アルゴリズムでは、遷移後の状態ｊのノードから延びる有向エッジ上のＱ値の中で最大となるＱ_ｓを求め、Ｑ_ｓが最大となるステーション２を最終的な供給先とする。図１６に示される例では、遷移後の状態ｊのノードから延びる有向エッジ上のＱ値はそれぞれ０．１，０．６，０．２であり、その中で最大のＱ値である０．６がＱｓとなる。次に、２つ目のパターンとして、遷移後の状態ｊが目標レンジ内である場合について説明する。その場合、本定量計量アルゴリズムでは、状態ｊに到達した時に得られる第２報酬についてのＱ値をＱｓとする。

なお、Ｑ_ｓが最大となるステーション２を最終的な供給先とする場合において、Ｑ_ｓが最大となるステーション２が複数存在するときには、それらのステーション２のうち、過去に計量物（物品Ｓ）が入った個数が最も少ないステーション２、又は目標重量到達時の計量物（物品Ｓ）の排出回数が最も少ないステーション２を選択する。

ここで、Ｑ値は、式（６）により更新される。式（６）において、Ｑ（ｓ，ａ）は、状態sにおいて行動aをとることによって得られる報酬の期待値であり、Ｒ（ｓ，ａ）は、状態sにおいて行動aをとることによって得られる報酬であり、ｍａｘ｛Ｑ（ｓ’，ａ’）は、状態s’において行動a’をとったときのＱ値の最大値である。また、αは学習率であり、γは割引率である。αは０＜α＜１の値（例えば、α＝０．３）をとり、γは０＜γ＜１の値（例えば、γ＝０．７）をとる。なお、Ｑ学習理論それ自体は、周知の理論である。

＜初期化の方法＞
電源投入直後等の初期状態においては、全てのエッジにおけるＱ値が未定である。生産稼働直後から安定した定量計量を実現するために、本実施形態では、生産稼働前に事前に複数のサンプルを用いてＱ値を学習することによりＱ値を決定する方法、又は生産稼働前に事前に判明している計量物（物品Ｓ）の重量分布を基にコンピュータ内部で発生させた重量データを用いてＱ値を学習することによりＱ値を決定する方法を使用している。

［定量計量アルゴリズムを搭載した定量計量システムの作用効果］
以上説明したように、定量計量システム１では、各ステーション２における物品Ｓの重量の総和（上述したステーション内部重量）を状態として捉え、かつ各ステーション２に対する物品Ｓの振分動作（上述した物品Ｓの供給）を行動として捉え、かつ行動の実行による状態の変化を遷移として捉えた場合に、各遷移に必要な重量を有する物品Ｓが定量計量システム１に導入される困難性を示す遷移困難度（上述した特徴量）が更新される。そして、状態をノードとして捉え、かつ遷移を有向エッジとして捉えたグラフ構造において、各有向エッジについての遷移困難度が低いほど高い第１報酬が付与されるように、かつ各有向エッジに接続された遷移先のノードについての物品Ｓの重量の総和が目標レンジ内であれば第２報酬が付与されるように、第１報酬及び第２報酬の期待値として各有向エッジに設定されるＱ値が更新される。このような状況下において、定量計量システム１では、物品Ｓの重量が計測され（計量工程）、当該物品Ｓを複数のステーション２のいずれか１つに振り分けるときに、各ステーション２に対する当該物品Ｓの振分動作に対応する有向エッジから、Ｑ値が最大となる有向エッジが選択され、当該有向エッジに対応する振分動作が実行される（振分工程）。

したがって、定量計量システム１では、高い第１報酬を得るために、遷移困難度が低い有向エッジに対応する振分動作が実行され易くなる。これにより、システムの動作を安定的に継続させることができる。更に、定量計量システム１では、第２報酬を得るために、物品Ｓの重量の総和が目標レンジ内であるノードに接続された有向エッジに対応する振分動作が実行され易くなる。これにより、各ステーション２における物品Ｓの重量の総和を目標レンジに収めることができる。このように、定量計量システム１によれば、各ステーション２における物品Ｓの重量の総和を目標レンジに収めること、及びシステムの動作を安定的に継続させることを達成することができる。

特に、定量計量システム１では、上記グラフ構造において、各有向エッジについての遷移困難度が低いほど高い第１報酬が付与されるように、かつ各有向エッジに接続された遷移先のノードについての物品Ｓの重量の総和が目標レンジ内において目標レンジの下限値（上述した目標重量）に近いほど高い第２報酬が付与されるように、第１報酬及び第２報酬の期待値として各有向エッジに設定されるＱ値が更新される。したがって、定量計量システム１では、高い第２報酬を得るために、物品Ｓの重量の総和が目標レンジ内において目標レンジの下限値に近いノードに接続された有向エッジに対応する振分動作が実行され易くなる。これにより、各ステーション２における物品Ｓの重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けることができる。

また、定量計量システム１では、物品Ｓを複数のステーション２のいずれか１つに振り分けるときに、各ステーション２に対する当該物品Ｓの振分動作に対応する有向エッジから、振分動作以降に一度でも遷移する可能性があるノードに更に接続された複数の有向エッジのそれぞれに設定されたＱ値の最大値（上述したＱ_ｓ）が最大となるステーション２が選択され、当該ステーション２に対応する振分動作が実行される。これにより、システムの動作をより安定的に継続させることができる。

また、定量計量システム１では、第２報酬（すなわち、各有向エッジに接続された遷移先のノードについての物品Ｓの重量の総和が目標レンジ内において目標レンジの下限値に近いほど高くなる報酬）が第１報酬（すなわち、各有向エッジについての遷移困難度が低いほど高くなる報酬）よりも高い値となっている。これにより、物品Ｓの重量の総和が目標レンジ内において目標レンジの下限値に近いノードに接続された有向エッジに対応する振分動作が実行される頻度がより高くなる。そのため、各ステーション２における物品Ｓの重量の総和を目標レンジにより確実に収めかつ目標レンジの下限値により一層近付けることができる。

また、定量計量システム１では、所定値以上の遷移困難度（上述した特徴量）を有する有向エッジが予めグラフ構造上から消去されて、遷移困難度が所定値よりも低くなっている有向エッジによってグラフ構造が構成される。これにより、システムの動作の安定的継続を担保しつつ、制御部５による計算量を抑制することができる。

［シミュレーション実験］
上述した定量計量アルゴリズムを用いた実験をシミュレータ上で行った。実験条件は、次のとおりである。
（１）物品の重量：ガウス乱数を用いて生成
（２）物品の単重平均：２１０ｇ
（３）物品の標準偏差：２０ｇ
（４）ガウス乱数発生方法：線形合同法とボックスミュラー法
（５）目標重量：２０００ｇ
（６）上限重量：２０２０ｇ
（７）ステーション数：８個
（８）連続動作サイクル数：１００００回
（９）各状態の重量幅：５ｇ
（１０）式６における学習率αの値：０．１
（１１）式６における割引率γの値：０．７
（１２）式５における定数Ａの値：１０．０
（１３）目標レンジ内のＷ_ａ［ｇ］に到達したときに与える第２報酬値Ｒ_２：
２０００≦Ｗ_ａ＜２００５Ｒ_２＝１．０
２００５≦Ｗ_ａ＜２０１０Ｒ_２＝０．７５
２０１０≦Ｗ_ａ＜２０１５Ｒ_２＝０．５
２０１５≦Ｗ_ａ＜２０２０Ｒ_２＝０．２５

以上の実験条件で、上述した定量計量アルゴリズムを搭載した定量計量システムシミュレータを動作させた結果、定量計量誤差は０．４９％に抑えられ、稼働率は１００％を維持した。このことからも、上述した定量計量アルゴリズムによれば、各ステーションにおける物品の重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けること、及びシステムの動作を安定的に継続させることを達成することができる。

以上、本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されるものではない。例えば、第１報酬は、各有向エッジについての遷移困難度が低いほど高くなる報酬であるが、遷移困難度が低くなるに従って、連続的に高くなるようにされてもよいし、段階的に高くなるようにされてもよい。同様に、第２報酬は、各有向エッジに接続された遷移先のノードについての物品の重量の総和が目標レンジ内において目標レンジの下限値に近いほど高くなる報酬であるが、目標レンジの下限値に近くなるに従って、連続的に高くなるようにされてもよいし、段階的に高くなるようにされてもよい。また、物品を複数のステーションのいずれか１つに振り分けるときに、各ステーションに対する当該物品の振分動作に対応するエッジから、Ｑ値が最大となるエッジを選択する場合には、現状態のノードから延びる有向エッジ上のＱ値が最大となるように、物品の供給先となるステーションを選択してもよい。また、第２報酬は、目標レンジの下限値以外の目標重量を目標レンジ内に設定した場合に、目標重量に近いほど高い値であってもよい。この場合、各ステーションにおける物品の重量の総和を目標レンジに収めかつ目標重量に近付けることができる。

１…定量計量システム、２…ステーション、３…計量部、４…振分部、５…制御部。

Claims

順次供給される物品の重量を計測する計量部と、
順次供給される前記物品を複数のステーションのそれぞれに振り分ける振分部と、
前記計量部によって計測された前記物品の重量に基づいて、複数の前記ステーションのそれぞれにおける前記物品の重量の総和が目標レンジに収まるように前記振分部を制御する制御部と、を備え、
前記制御部は、
複数の前記ステーションのそれぞれにおける前記物品の重量の総和を状態として捉え、かつ複数の前記ステーションのそれぞれに対する前記物品の振分動作を行動として捉え、かつ前記行動の実行による前記状態の変化を遷移として捉えた場合に、
前記遷移のそれぞれに必要な重量を有する前記物品が供給される困難性を示す遷移困難度を更新しつつ、
前記状態をノードとして捉え、かつ前記遷移をエッジとして捉えたグラフ構造において、前記エッジのそれぞれについての前記遷移困難度が低いほど高い第１報酬が付与されるように、かつ前記エッジのそれぞれに接続された遷移先の前記ノードについての前記物品の重量の総和が前記目標レンジ内であれば第２報酬が付与されるように、前記第１報酬及び前記第２報酬の期待値として前記エッジのそれぞれに設定されるＱ値を更新し、
前記物品を複数の前記ステーションのいずれか１つに振り分けるときに、複数の前記ステーションのそれぞれに対する当該物品の前記振分動作に対応する前記エッジから、前記Ｑ値が最大となる前記エッジを選択し、当該エッジに対応する前記振分動作を実行するように前記振分部を制御する、定量計量システム。
前記制御部は、前記物品を複数の前記ステーションのいずれか１つに振り分けるときに、複数の前記ステーションのそれぞれに対する当該物品の前記振分動作に対応する前記エッジから、前記振分動作以降に一度でも遷移する可能性がある前記ノードに更に接続された複数の前記エッジのそれぞれに設定された前記Ｑ値の最大値が最大となる前記ステーションを選択し、当該ステーションに対応する前記振分動作を実行するように前記振分部を制御する、請求項１記載の定量計量システム。
前記第２報酬は、前記目標レンジの下限値に近いほど高い値である、請求項１又は２記載の定量計量システム。
前記第２報酬は、前記目標レンジ内に目標重量を設定した場合に、前記目標重量に近いほど高い値である、請求項１又は２記載の定量計量システム。
前記第２報酬は、前記第１報酬よりも高い値である、請求項１〜４のいずれか一項記載の定量計量システム。
前記制御部は、前記遷移困難度が所定値よりも低くなっている前記エッジによって前記グラフ構造を構成する、請求項１〜５のいずれか一項記載の定量計量システム。
順次供給される物品の重量を計測する計量工程と、
前記計量工程にて計測された前記物品の重量に基づいて、複数のステーションのそれぞれにおける前記物品の重量の総和が目標レンジに収まるように、順次供給される前記物品を複数の前記ステーションのそれぞれに振り分ける振分工程と、を含み、
前記振分工程では、
複数の前記ステーションのそれぞれにおける前記物品の重量の総和を状態として捉え、かつ複数の前記ステーションのそれぞれに対する前記物品の振分動作を行動として捉え、かつ前記行動の実行による前記状態の変化を遷移として捉えた場合に、
前記遷移のそれぞれに必要な重量を有する前記物品が供給される困難性を示す遷移困難度を更新しつつ、
前記状態をノードとして捉え、かつ前記遷移をエッジとして捉えたグラフ構造において、前記エッジのそれぞれについての前記遷移困難度が低いほど高い第１報酬が付与されるように、かつ前記エッジのそれぞれに接続された遷移先の前記ノードについての前記物品の重量の総和が前記目標レンジ内において前記目標レンジの下限値に近いほど高い第２報酬が付与されるように、前記第１報酬及び前記第２報酬の期待値として前記エッジのそれぞれに設定されるＱ値を更新し、
前記物品を複数の前記ステーションのいずれか１つに振り分けるときに、複数の前記ステーションのそれぞれに対する当該物品の前記振分動作に対応する前記エッジから、前記Ｑ値が最大となる前記エッジを選択し、当該エッジに対応する前記振分動作を実行する、定量計量方法。