JPWO2014148564A1 - 定量計量システム及び定量計量方法 - Google Patents
定量計量システム及び定量計量方法 Download PDFInfo
- Publication number
- JPWO2014148564A1 JPWO2014148564A1 JP2015506833A JP2015506833A JPWO2014148564A1 JP WO2014148564 A1 JPWO2014148564 A1 JP WO2014148564A1 JP 2015506833 A JP2015506833 A JP 2015506833A JP 2015506833 A JP2015506833 A JP 2015506833A JP WO2014148564 A1 JPWO2014148564 A1 JP WO2014148564A1
- Authority
- JP
- Japan
- Prior art keywords
- reward
- articles
- transition
- weight
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B07—SEPARATING SOLIDS FROM SOLIDS; SORTING
- B07C—POSTAL SORTING; SORTING INDIVIDUAL ARTICLES, OR BULK MATERIAL FIT TO BE SORTED PIECE-MEAL, e.g. BY PICKING
- B07C5/00—Sorting according to a characteristic or feature of the articles or material being sorted, e.g. by control effected by devices which detect or measure such characteristic or feature; Sorting by manually actuated devices, e.g. switches
- B07C5/16—Sorting according to weight
- B07C5/18—Sorting according to weight using a single stationary weighing mechanism
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01G—WEIGHING
- G01G13/00—Weighing apparatus with automatic feed or discharge for weighing-out batches of material
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Sorting Of Articles (AREA)
- Weight Measurement For Supplying Or Discharging Of Specified Amounts Of Material (AREA)
Abstract
定量計量システム1では、各ステーション2における物品Sの重量の総和を状態、各ステーション2に対する物品Sの振分動作を行動、行動の実行による状態の変化を遷移として捉えた場合に、各遷移に必要な重量を有する物品Sが供給される困難性を示す遷移困難度が更新される。そして、状態遷移モデルを表現したグラフ構造において、各エッジについての遷移困難度が低いほど高い第1報酬が付与され、かつ各エッジに接続された遷移先のノードについての物品Sの重量の総和が目標レンジ内であれば第2報酬が付与されるように、各エッジに設定されるQ値が更新される。
Description
本発明は、定量計量システム及び定量計量方法に関する。
重量にばらつきのある物品(例えば、食肉等)を対象として、複数のステーションのそれぞれにおける物品の重量の総和が目標レンジに収まるように、各ステーションに複数個ずつ物品を振り分ける定量計量システム及び定量計量方法が知られている。このような定量計量システム及び定量計量方法には、各ステーションにおける物品の重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けること(条件1)、及びシステムの動作を安定的に継続させること(条件2)を満たすことが求められる。
上記条件1を満たすための最も簡単な方法は、各ステーションにおける物品の重量の総和が目標レンジの下限値に到達する直前になるまで、各ステーションにランダムに物品を振り分け、その後、各ステーションにおいて、上記条件1を満たすための重量を有する物品が現れるのを待ち続けることである。しかし、このような方法では、各ステーションにおける物品の重量の総和が目標レンジの下限値に到達する直前の状況次第で、いずれのステーションにも物品を振り分けることができなくなるおそれがあるため、上記条件2を満たすことができない。
逆に、上記条件2を満たすための最も簡単な方法は、各ステーションにおける物品の重量の総和が目標レンジに収まりさえすればよいというスタンスで、各ステーションに物品を振り分けることである。しかし、各ステーションにおける物品の重量の総和を目標レンジの下限値に近付けることを無視した方法なので、上記条件1を満たすことができない。
このようにトレードオフの関係にある上記条件1及び条件2を同時に満たすために、特許文献1には、物品を供給した後の各ステーションにおける物品の重量の総和を考慮したときに目標重量が成立する確率が最も高いステーションに物品を供給する方法が記載されている。
ところで、上述した特許文献1記載の方法は、目標重量のみに着目した方法であり、目標レンジ全体を考慮した方法ではないということに留意する必要がある。一例として、物品を供給した後に目標重量に到達し得る確率が低いステーションしか存在しない場合を考える。その場合、目標重量だけでなく目標レンジ内の他の重量に到達する確率も考慮することで、物品がいずれかのステーションに供給される可能性が向上するといえる。このように、特許文献1記載の方法には、改良の余地があることが分かる。
そこで、本発明は、各ステーションにおける物品の重量の総和を目標レンジに収めること、及びシステムの動作を安定的に継続させることを達成することができる定量計量システム及び定量計量方法を提供することを目的とする。
本発明の一側面の定量計量システムは、順次供給される物品の重量を計測する計量部と、順次供給される物品を複数のステーションのそれぞれに振り分ける振分部と、計量部によって計測された物品の重量に基づいて、複数のステーションのそれぞれにおける物品の重量の総和が目標レンジに収まるように振分部を制御する制御部と、を備え、制御部は、複数のステーションのそれぞれにおける物品の重量の総和を状態として捉え、かつ複数のステーションのそれぞれに対する物品の振分動作を行動として捉え、かつ行動の実行による状態の変化を遷移として捉えた場合に、遷移のそれぞれに必要な重量を有する物品が供給される困難性を示す遷移困難度を更新しつつ、状態をノードとして捉え、かつ遷移をエッジとして捉えたグラフ構造において、エッジのそれぞれについての遷移困難度が低いほど高い第1報酬が付与されるように、かつエッジのそれぞれに接続された遷移先のノードについての物品の重量の総和が目標レンジ内であれば第2報酬が付与されるように、第1報酬及び第2報酬の期待値としてエッジのそれぞれに設定されるQ値を更新し、物品を複数のステーションのいずれか1つに振り分けるときに、複数のステーションのそれぞれに対する当該物品の振分動作に対応するエッジから、Q値が最大となるエッジを選択し、当該エッジに対応する振分動作を実行するように振分部を制御する。
本発明者らは、上記目的を達成するために鋭意検討を重ねた結果、各ステーションに対する物品の振分動作によって各ステーションにおける物品の重量の総和が変化する様子を状態遷移モデルに帰着させ得ることを見出し、上記定量計量システムを完成させるに至った。上記定量計量システムでは、高い第1報酬を得るために、遷移困難度が低いエッジに対応する振分動作が実行され易くなる。これにより、システムの動作を安定的に継続させることができる。更に、第2報酬を得るために、物品の重量の総和が目標レンジ内であるノードに接続されたエッジに対応する振分動作が実行され易くなる。これにより、各ステーションにおける物品の重量の総和を目標レンジに収めることができる。このように、上記定量計量システムによれば、各ステーションにおける物品の重量の総和を目標レンジに収めること、及びシステムの動作を安定的に継続させることを達成することができる。
また、制御部は、物品を複数のステーションのいずれか1つに振り分けるときに、複数のステーションのそれぞれに対する当該物品の振分動作に対応するエッジから、振分動作以降に一度でも遷移する可能性があるノードに更に接続された複数のエッジのそれぞれに設定されたQ値の最大値が最大となるステーションを選択し、当該ステーションに対応する振分動作を実行するように振分部を制御してもよい。これによれば、システムの動作をより安定的に継続させることができる。
また、第2報酬は、目標レンジの下限値に近いほど高い値であってもよい。この場合、各ステーションにおける物品の重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けることができる。また、第2報酬は、目標レンジ内に目標重量を設定した場合に、目標重量に近いほど高い値であってもよい。この場合、各ステーションにおける物品の重量の総和を目標レンジに収めかつ目標重量に近付けることができる。
また、第2報酬は、第1報酬よりも高い値であってもよい。この場合、物品の重量の総和が目標レンジ内において目標レンジの下限値に近いノードに接続されたエッジに対応する振分動作が実行される頻度がより高くなる。そのため、各ステーションにおける物品の重量の総和を目標レンジにより確実に収めることができる。
また、制御部は、遷移困難度が所定値よりも低くなっているエッジによってグラフ構造を構成してもよい。これによれば、システムの動作の安定的継続を担保しつつ、制御部による計算量を抑制することができる。
本発明の一側面の定量計量方法は、順次供給される物品の重量を計測する計量工程と、計量工程にて計測された物品の重量に基づいて、複数のステーションのそれぞれにおける物品の重量の総和が目標レンジに収まるように、順次供給される物品を複数のステーションのそれぞれに振り分ける振分工程と、を含み、振分工程では、複数のステーションのそれぞれにおける物品の重量の総和を状態として捉え、かつ複数のステーションのそれぞれに対する物品の振分動作を行動として捉え、かつ行動の実行による状態の変化を遷移として捉えた場合に、遷移のそれぞれに必要な重量を有する物品が供給される困難性を示す遷移困難度を更新しつつ、状態をノードとして捉え、かつ遷移をエッジとして捉えたグラフ構造において、エッジのそれぞれについての遷移困難度が低いほど高い第1報酬が付与されるように、かつエッジのそれぞれに接続された遷移先のノードについての物品の重量の総和が目標レンジ内において目標レンジの下限値に近いほど高い第2報酬が付与されるように、第1報酬及び第2報酬の期待値としてエッジのそれぞれに設定されるQ値を更新し、物品を複数のステーションのいずれか1つに振り分けるときに、複数のステーションのそれぞれに対する当該物品の振分動作に対応するエッジから、Q値が最大となるエッジを選択し、当該エッジに対応する振分動作を実行する。
上記定量計量方法によれば、上述した定量計量システムと同様に、各ステーションにおける物品の重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けること、及びシステムの動作を安定的に継続させることを達成することができる。
本発明によれば、各ステーションにおける物品の重量の総和を目標レンジに収めること、及びシステムの動作を安定的に継続させることを達成することができる定量計量システム及び定量計量方法を提供することが可能となる。
以下、本発明の好適な実施形態について、図面を参照して詳細に説明する。なお、各図において同一又は相当部分には同一符号を付し、重複する説明を省略する。
[定量計量システムの構成]
図1に示されるように、定量計量システム1は、重量にばらつきのある物品S(例えば、食肉等)を対象として、複数のステーション2のそれぞれにおける物品Sの重量の総和が目標レンジに収まるように、各ステーション2に複数個ずつ物品Sを振り分けるシステムである。定量計量システム1は、順次供給される物品Sの重量を計測する計量部3と、順次供給される物品Sを各ステーション2に振り分ける振分部4と、計量部3によって計測された物品Sの重量に基づいて、各ステーション2における物品Sの重量の総和が目標レンジに収まるように振分部4を制御する制御部5と、を備えている。ステーション2は、複数の物品Sを格納可能な容器である。なお、何らかの理由でステーション2のいずれにも振り分けられなかった物品Sは、振分部4の下流側に配置された容器6内に収容される。
図1に示されるように、定量計量システム1は、重量にばらつきのある物品S(例えば、食肉等)を対象として、複数のステーション2のそれぞれにおける物品Sの重量の総和が目標レンジに収まるように、各ステーション2に複数個ずつ物品Sを振り分けるシステムである。定量計量システム1は、順次供給される物品Sの重量を計測する計量部3と、順次供給される物品Sを各ステーション2に振り分ける振分部4と、計量部3によって計測された物品Sの重量に基づいて、各ステーション2における物品Sの重量の総和が目標レンジに収まるように振分部4を制御する制御部5と、を備えている。ステーション2は、複数の物品Sを格納可能な容器である。なお、何らかの理由でステーション2のいずれにも振り分けられなかった物品Sは、振分部4の下流側に配置された容器6内に収容される。
[定量計量アルゴリズム]
以上のような定量計量システム1には、各ステーション2における物品Sの重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けること(条件1)、及びシステムの動作を安定的に継続させること(条件2)を満たすことが求められる。以下、これらの条件1及び条件2を満たすために定量計量システム1において実施される定量計量アルゴリズム(定量計量方法)について説明する。
以上のような定量計量システム1には、各ステーション2における物品Sの重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けること(条件1)、及びシステムの動作を安定的に継続させること(条件2)を満たすことが求められる。以下、これらの条件1及び条件2を満たすために定量計量システム1において実施される定量計量アルゴリズム(定量計量方法)について説明する。
なお、次のように前提条件を設ける。
(1)目標レンジの下限値及び上限値は、全てのステーション間で共通である。
(2)定量計量のみを考慮したアルゴリズムである(個数制約等はない)。
(1)目標レンジの下限値及び上限値は、全てのステーション間で共通である。
(2)定量計量のみを考慮したアルゴリズムである(個数制約等はない)。
また、次のように用語を定義する。
(1)定量計量誤差:ステーションにおける物品の重量の総和(以下、「ステーション内部重量」という)wが目標重量wtargetを超えたとき、werror=w−wtargetで計算される値を定量計量誤差という。
(2)目標レンジ:目標レンジの下限値を目標重量といい、目標レンジの上限値を上限重量という。
(3)稼働率:「計量部によって重量を計測された物品の総数N」に対する「定量計量が完了した結果として各ステーションから導出される物品の総数n」の割合n/Nを稼働率という。
(1)定量計量誤差:ステーションにおける物品の重量の総和(以下、「ステーション内部重量」という)wが目標重量wtargetを超えたとき、werror=w−wtargetで計算される値を定量計量誤差という。
(2)目標レンジ:目標レンジの下限値を目標重量といい、目標レンジの上限値を上限重量という。
(3)稼働率:「計量部によって重量を計測された物品の総数N」に対する「定量計量が完了した結果として各ステーションから導出される物品の総数n」の割合n/Nを稼働率という。
[報酬の導入]
一般的に、トレードオフの関係にある複数の事柄を同時に満たすようにするためには、まず、統一された尺度でそれぞれの事柄を評価する必要がある。そこで、本定量計量アルゴリズムでは、次のような「報酬」という統一された尺度で上記条件1及び条件2を評価する。
(1)定量計量誤差を小さく抑えるほど高い報酬(第2報酬)が得られる。
(2)システムの動作を安定的に継続させるほど高い報酬(第1報酬)が得られる。
一般的に、トレードオフの関係にある複数の事柄を同時に満たすようにするためには、まず、統一された尺度でそれぞれの事柄を評価する必要がある。そこで、本定量計量アルゴリズムでは、次のような「報酬」という統一された尺度で上記条件1及び条件2を評価する。
(1)定量計量誤差を小さく抑えるほど高い報酬(第2報酬)が得られる。
(2)システムの動作を安定的に継続させるほど高い報酬(第1報酬)が得られる。
そして、本定量計量アルゴリズムは、得られる報酬を最大化するために自ら動作することで、上記条件1及び条件2を同時に満たすような定量計量を実現する。以下、定量計量システム1を用いた定量計量の実動作中における報酬の付与の方法、及び報酬の最大化の方法ついて説明する。
[状態遷移モデルを用いた報酬の付与]
本定量計量アルゴリズムでは、各ステーション2に対する物品Sの振分動作によってステーション内部重量が変化する様子を状態遷移モデルに帰着させ、その状態遷移モデルをグラフ構造として保持する。ここでは、各ステーション2に対する物品Sの振分動作によってステーション内部重量が変化する様子を状態遷移モデルに帰着させる方法について例を用いて説明した後、状態遷移モデルをグラフ構造として表現する方法について説明する。
本定量計量アルゴリズムでは、各ステーション2に対する物品Sの振分動作によってステーション内部重量が変化する様子を状態遷移モデルに帰着させ、その状態遷移モデルをグラフ構造として保持する。ここでは、各ステーション2に対する物品Sの振分動作によってステーション内部重量が変化する様子を状態遷移モデルに帰着させる方法について例を用いて説明した後、状態遷移モデルをグラフ構造として表現する方法について説明する。
<状態遷移モデルへの帰着>
図2に示されるように、目標重量2000g、上限重量3000gとされたステーション2に、既に200gの物品Sが入っている場合を考える。まず、図2に示される0g〜3000gの範囲を6等分し、6等分後の500gの幅を有する各区間にIDを割り振る。すると、図2に示される状態においては、ステーション内部重量が200gであるため、ステーション内部重量がID=0の区間に入っていることになる。本定量計量アルゴリズムでは、ステーション内部重量がID=0の区間に入っていることを「ステーションの状態が0である」と定義する。そして、新たに600gの物品Sがステーション2に追加され、図3に示される状態になったとき、ステーション2の状態は1となる。本定量計量アルゴリズムでは、図2に示される状態から図3に示される状態にステーション内部重量が変化することを「ステーションの状態が0から1に遷移した」とみなす。
図2に示されるように、目標重量2000g、上限重量3000gとされたステーション2に、既に200gの物品Sが入っている場合を考える。まず、図2に示される0g〜3000gの範囲を6等分し、6等分後の500gの幅を有する各区間にIDを割り振る。すると、図2に示される状態においては、ステーション内部重量が200gであるため、ステーション内部重量がID=0の区間に入っていることになる。本定量計量アルゴリズムでは、ステーション内部重量がID=0の区間に入っていることを「ステーションの状態が0である」と定義する。そして、新たに600gの物品Sがステーション2に追加され、図3に示される状態になったとき、ステーション2の状態は1となる。本定量計量アルゴリズムでは、図2に示される状態から図3に示される状態にステーション内部重量が変化することを「ステーションの状態が0から1に遷移した」とみなす。
この例をより一般的な表現に拡張すると、「0からステーションの上限重量wupperまでの範囲をm等分し、m等分後の各区間に番号i(=0,1,2,・・・,m−1)を割り振ったとき、cサイクル目においてステーション内部重量がi=Icの区間に入っているとすると、ステーションの状態はIcである」ということになる。また、ステーションの状態がc+1サイクル目にi=Icからi=Ic+1に変化するとき、「ステーションの状態はIcからIc+1に遷移した」と表現する。
<グラフ構造による表現>
本定量計量アルゴリズムでは、上述したように、各ステーション2に対する物品Sの振分動作によってステーション内部重量が変化する様子を状態遷移モデルに帰着させる。そして、状態遷移モデルを制御部5のコンピュータ上で保持するために、状態遷移モデルをグラフ構造として表現する。図4に、図2及び図3に示される場合をグラフ構造で表現したときの例を示す。図4に示されるグラフ構造では、各状態をノードとして扱い、ノードを円で表し、円の内部にIDを記述する。また、各有向エッジとして、自ノードから自ノードに延びるもの、及び、自ノードから、自ノードよりも大きいIDを有する別のノードに延びるものを記述する。状態遷移時は、自ノードから有向エッジに沿って別のノードに移動することとし、有向エッジが存在しない場合には、それに該当する状態遷移も同様に存在しないものとする。なお、図4に示されるグラフ構造では、簡易化のためにID=5のノードが省略されている。
本定量計量アルゴリズムでは、上述したように、各ステーション2に対する物品Sの振分動作によってステーション内部重量が変化する様子を状態遷移モデルに帰着させる。そして、状態遷移モデルを制御部5のコンピュータ上で保持するために、状態遷移モデルをグラフ構造として表現する。図4に、図2及び図3に示される場合をグラフ構造で表現したときの例を示す。図4に示されるグラフ構造では、各状態をノードとして扱い、ノードを円で表し、円の内部にIDを記述する。また、各有向エッジとして、自ノードから自ノードに延びるもの、及び、自ノードから、自ノードよりも大きいIDを有する別のノードに延びるものを記述する。状態遷移時は、自ノードから有向エッジに沿って別のノードに移動することとし、有向エッジが存在しない場合には、それに該当する状態遷移も同様に存在しないものとする。なお、図4に示されるグラフ構造では、簡易化のためにID=5のノードが省略されている。
<状態遷移中における報酬の付与>
定量計量システム1に求められる上記条件1(すなわち、各ステーション2における物品Sの重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けること)は、目標重量誤差が小さくかつ目標重量以上の状態に遷移したときに高い第2報酬を付与することにより満たされる。一方、定量計量システム1に求められる上記条件2(すなわち、システムの動作を安定的に継続させること)は、「システムの動作を安定的に継続させる」という抽象的な条件を別の観点から捉えることによって具体的な条件に置き換える必要がある。
定量計量システム1に求められる上記条件1(すなわち、各ステーション2における物品Sの重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けること)は、目標重量誤差が小さくかつ目標重量以上の状態に遷移したときに高い第2報酬を付与することにより満たされる。一方、定量計量システム1に求められる上記条件2(すなわち、システムの動作を安定的に継続させること)は、「システムの動作を安定的に継続させる」という抽象的な条件を別の観点から捉えることによって具体的な条件に置き換える必要がある。
ここで、上記条件2について検討すると、「システムの動作を安定的に継続させる」とは、「定量計量システム1内に滞留する物品Sの量が所定レベルよりも低く保たれる」ことであるといえる。本定量計量アルゴリズムでは、定量計量システム1内に導入される物品Sの量をコントロールすることはできないので、定量計量システム1内から導出される物品Sの量を多くすることにより、定量計量システム1内に滞留する物品Sの量をコントロールして、システムの動作を安定的に継続させる。
具体的には、各ステーション2において「導出から次の導出までのサイクルを短くする」ことにより、定量計量システム1内から導出される物品Sの量を多くすることが可能になる。各ステーション2において「導出から次の導出までのサイクルを短くする」ことは、「できる限りステーション内部重量が小さいステーション2に対して集中的に物品Sを供給し続ける」ことで可能になる。そして、「できる限りステーション内部重量が小さいステーション2に対して集中的に物品Sを供給し続ける」ためには、各ステーション2において「別状態への遷移を短いサイクルで行う」ことが必要である。したがって、別状態への遷移のサイクルが短くなるほど高い第1報酬を付与することにより、上記条件2は満たされる。
以上により、上記条件1及び条件2を同時に満たすためには、状態遷移中に報酬を付与することが妥当であるといえる。そして、状態遷移中に報酬を付与することは、グラフ構造上の有向エッジ通過時に報酬を付与することと等価であるため、本定量計量アルゴリズムを制御部5のコンピュータ上に実装する際には、グラフ構造から報酬が得られるようにする。
図5に示されるように、具体的な報酬の値は、コンピュータ上での扱いやすさを考慮して、−1〜1の値とする。目標重量以上かつ上限重量未満の重量に到達したときに得られる第2報酬は、0〜1の値とする。図5に示されるグラフ構造では、目標レンジ内のノードに到達したときに+1.0の第2報酬が得られることになっている。また、一般的に、有向エッジを通過するのに要する時間(あるノードから別のノードに遷移するのに要する滞留サイクル数)は、コストとして扱われる。そのため、本定量計量アルゴリズムでは、有向エッジを通過したときに得られる第1報酬は、−1〜0の値とする。図5に示されるグラフ構造では、遠くのノード(状態が大きく変化するノード)に遷移するほど、有向エッジを通過するのに要する時間が長くなると想定し、得られる第1報酬を低く設定している。
[報酬の計算方法]
<目標レンジ到達時に得られる報酬>
図4に示されるグラフ構造から、全てのノード、及び目標レンジ内のノードに延びる有向エッジを抜粋したものを図6に示す。本定量計量アルゴリズムでは、目標レンジ内のノードごとに、そのノードに到達したときに得られる第2報酬を定める。具体的な第2報酬の設定方法は様々なパターンが存在する。例えば、図6に示される場合では、目標レンジ内のノードのうち、ID=4のノードに到達する場合のほうがID=5のノードに到達する場合よりも定量計量誤差が小さくなることから、ID=5のノードに延びる有向エッジを通過するときに得られる第2報酬よりも、ID=4のノードに延びる有向エッジを通過するときに得られる第2報酬が高くなっている。このように、本定量計量アルゴリズムにおいては、遷移することが好ましいノードに延びる有向エッジほど、報酬を高く設定すればよい。
<目標レンジ到達時に得られる報酬>
図4に示されるグラフ構造から、全てのノード、及び目標レンジ内のノードに延びる有向エッジを抜粋したものを図6に示す。本定量計量アルゴリズムでは、目標レンジ内のノードごとに、そのノードに到達したときに得られる第2報酬を定める。具体的な第2報酬の設定方法は様々なパターンが存在する。例えば、図6に示される場合では、目標レンジ内のノードのうち、ID=4のノードに到達する場合のほうがID=5のノードに到達する場合よりも定量計量誤差が小さくなることから、ID=5のノードに延びる有向エッジを通過するときに得られる第2報酬よりも、ID=4のノードに延びる有向エッジを通過するときに得られる第2報酬が高くなっている。このように、本定量計量アルゴリズムにおいては、遷移することが好ましいノードに延びる有向エッジほど、報酬を高く設定すればよい。
<状態遷移時の報酬>
本定量計量アルゴリズムでは、有向エッジ通過時間、つまり、あるノードに到着してから別のノードに遷移するまでに待機していたサイクル数が大きいほど、絶対値が大きい負値の第1報酬を付与する。本定量計量アルゴリズムでは、待機していたサイクル数を「滞留サイクル数」という。滞留サイクル数は、図2及び図3に示されるように、分割された区間幅の重量ランクごとに計算される。そして、各サイクルにおいて滞留サイクル数をFIFOキューへ保存し、キューに保存されたデータに対して、新しいものほど重みを大きくするような時系列的なフィルタ処理を施し、フィルタ処理後の値を−1〜0に正規化したものを第1報酬とする。
本定量計量アルゴリズムでは、有向エッジ通過時間、つまり、あるノードに到着してから別のノードに遷移するまでに待機していたサイクル数が大きいほど、絶対値が大きい負値の第1報酬を付与する。本定量計量アルゴリズムでは、待機していたサイクル数を「滞留サイクル数」という。滞留サイクル数は、図2及び図3に示されるように、分割された区間幅の重量ランクごとに計算される。そして、各サイクルにおいて滞留サイクル数をFIFOキューへ保存し、キューに保存されたデータに対して、新しいものほど重みを大きくするような時系列的なフィルタ処理を施し、フィルタ処理後の値を−1〜0に正規化したものを第1報酬とする。
上述した滞留サイクル数の求め方について例を用いて説明する。ここでは、20g、21gの物品Sが発生する確率をそれぞれ50%、10%、物品Sが発生しない(0gの物品Sが発生する)確率を40%と設定した状況を考える。なお、「物品Sが発生しない場合」というのは、実際の定量計量システム1で考えると、次のような状況である。2つのステーション2が存在したとすると、一方のステーション2に物品Sが供給されたとき、他方のステーション2には物品Sが供給されなかったこととなり、他方のステーション2の視点で見ると、物品Sが発生していないのと同じことになる。したがって、「物品Sが発生しない場合」を想定するのは妥当である。
そして、重量ランクを1gごとに刻むことで20≦w20<21、21≦w21<22の重量範囲を有する2つの重量ランクi=20、i=21を定めることができる。このような設定条件の下で定量計量システム1を9サイクル目まで動作させ、表1に示されるような物品Sの重量について時系列データが発生したとする。このとき、各時刻における重量ランクi=20、i=21の滞留サイクル数は、表2に示されるようになる。滞留サイクル数は、各重量ランクに対応する物品Sの重量が計測されたときに、前回計測されてから、又は定量計量システム1が動作を開始してから、何回計測されていないかを表すものである。
本定量計量アルゴリズムでは、重量ランクごとの滞留サイクル数を重量ランクごとに用意したFIFOキューに格納する。図7に、9サイクル目において、表2に示される滞留サイクル数がキューに格納されている例を示す。ただし、各重量ランクにおけるキューの数は10個であるものとする。そして、図7に示される矢印は、サイクルごとに、キューの左側から滞留サイクル数の新しいデータが挿入されると同時に、キュー内の全てのデータが右側に1つだけシフトし、最も古いデータがキューの右側に押し出されて消去される様子を表している。本定量計量アルゴリズムでは、以上のように滞留サイクル数をキューに保存する。
次に、図7に示されるキューを用いて、9サイクル目における状態遷移時の第1報酬を求める手順について説明する。この手順は、キュー内のデータに対して時系列的なフィルタ処理を施し、重量ランクごとに特徴量を抽出するプロセス、重量ランクごとの特徴量をグラフ構造上の各有向エッジに割り当てるプロセス、及び重量ランクごとの特徴量を正規化するプロセスに大別される。以下、各プロセスの詳細について説明する。
(特徴量を抽出するプロセス)
本定量計量アルゴリズムでは、まず、図8に示されるように、図7に示されたキューをバッファにコピーする。キューをバッファにコピーする理由は、データ操作によりキュー内のデータが変化し、上述したキューの更新処理が実行不能になるのを防止するためである。また、キューの各マス上にある数は、各マスに対する時系列的な重みである。新しいデータが格納されているマスほど重みが大きくなっている。
本定量計量アルゴリズムでは、まず、図8に示されるように、図7に示されたキューをバッファにコピーする。キューをバッファにコピーする理由は、データ操作によりキュー内のデータが変化し、上述したキューの更新処理が実行不能になるのを防止するためである。また、キューの各マス上にある数は、各マスに対する時系列的な重みである。新しいデータが格納されているマスほど重みが大きくなっている。
そして、図8に示されるデータに対して、時系列的に新しいデータほど大きい重みを掛け合わせて平均化する処理を施す。本定量計量アルゴリズムでは、平均化処理のために、図8に示されるデータのうち、−1以外のデータについて加重平均を計算する。重量ランク20のデータについて加重平均を計算すると、式(1)のようになる。結果の値は1.1となり、図8に示される重量ランク20のデータと比較しても、妥当であることが分かる。
同様に、重量ランク21のデータについて加重平均を計算すると、式(2)のようになる。重量ランク21については、3番目に新しいデータのみで加重平均を計算しているため、図8に示される重量ランク21のデータと比較しても、平均化処理の効果が全く表れていないことが分かる。
このことは、−1以外のデータに対して加重平均を計算するという方法に由来する。つまり、重量ランクに相当するデータが得られて初めて加重平均の対象となるため、重量ランクに相当するデータが得られなかった場合を考慮していないことが原因であると考えられる。したがって、本定量計量アルゴリズムでは、図8に示されるデータをそのまま利用するのではなく、重量ランク21に相当する物品Sが発生したと想定し、図9に示されるように、キューの先頭に、−1ではなく1を挿入する。
図9に示される重量ランク21のデータについて加重平均を計算すると、式(3)のようになり、時系列的な影響が考慮された値となっていることが分かる。したがって、キュー内の最新のマスに−1が格納されているときは、その重量ランクの物品Sが発生した仮定して、バッファ上で展開されたキューを上述のように操作し、加重平均をとる。
(特徴量を各有向エッジに割り当てるプロセス)
状態i及び状態j(i<j)があると仮定すると、状態iから状態jへの遷移が可能となるのは、重量ランクj−iの物品Sが発生し、ステーション2に供給されたときである。したがって、本定量計量アルゴリズムでは、重量ランクkの滞留サイクル数から求められた特徴量Vkは、状態mから状態n(n−m=k)に遷移するときに得られるものである。よって、特徴量Vkは、グラフ構造上において状態mのノードから状態nのノードに延びる有向エッジを通過するときに得られる。
状態i及び状態j(i<j)があると仮定すると、状態iから状態jへの遷移が可能となるのは、重量ランクj−iの物品Sが発生し、ステーション2に供給されたときである。したがって、本定量計量アルゴリズムでは、重量ランクkの滞留サイクル数から求められた特徴量Vkは、状態mから状態n(n−m=k)に遷移するときに得られるものである。よって、特徴量Vkは、グラフ構造上において状態mのノードから状態nのノードに延びる有向エッジを通過するときに得られる。
ここで、特徴量Vkは、ある状態mから特定の状態n(n−m=k)に遷移する際に見込まれる滞留サイクル数に相当する。それに対し、ある状態mから不特定の状態に遷移するための滞留サイクル数に相当する特徴量Rmは、特徴量Vkとは異なる。その理由は、状態mから状態nへの遷移を待っている間に、状態mから状態lへの遷移が可能になるかもしれないからである。この理由から、一般的にRm<Vkとなる。特徴量Rmは、状態mから遷移するために必要な実質的な滞留サイクル数であるため、本定量計量アルゴリズムでは、特徴量Rmを最終的な正規化の対象とする。以下、特徴量Rmの算出方法について説明する。なお、特徴量Rmを求めるために特徴量Vkを加工することから、特徴量Rmを合成特徴量ということにする。
図10に、状態mから状態nへの遷移が可能なグラフ構造を示す。この場合、有向エッジ上の特徴量は特徴量Vkとなり、合成特徴量Rmとの関係は、Rm=Vkとなる。図11に、状態mから状態n及び状態n+1への遷移が可能なグラフ構造を示す。この場合、各有向エッジ上の特徴量は特徴量Vk、特徴量Vk+1となり、合成特徴量Rmとの関係は、上述した理由から、Rm<Vk、Rm<Vk+1となる。このことから、状態mのノードから延びる有向エッジが増えるほど、特徴量Rmが小さくなることが容易に分かる。この関係は、電気回路にて電気抵抗を並列に接続することと類似している。電気回路では、電気抵抗を並列に多く接続するほど、合成抵抗が小さくなる。よって、本定量計量アルゴリズムでは、特徴量Rmと特徴量Vkとの数理的な関係を式(4)のように定める。
ただし、δm,kは、状態mから状態m+kに遷移するときに通過する有向エッジが存在するときのみ1となり、当該有向エッジが存在しないときは0となる。式(4)は、並列回路における合成抵抗の基本公式との類似性から導いたものである。このようにして求めた合成特徴量Rmは、ノードから延びる全ての有向エッジに割り振られる。以下、合成特徴量Rmのことを単に特徴量という。
(特徴量を正規化するプロセス)
特徴量を−1〜0の値に正規化する方法について説明する。前提として、正規化を行うときに留意するべき事柄がある。それは、特徴量を正規化した値はそのまま状態遷移時の第1報酬として扱われるということである。したがって、「正規化後の値は滞留サイクル数が小さいほど大きくなる」という関係を維持しつつ正規化を行う必要がある。本定量計量アルゴリズムでは、特徴量の値が小さいほど、特徴量を正規化した後の値の感度が大きくなるように、正規化を行う。そのために、本定量計量アルゴリズムでは、特徴量を正規化するための変換式を式(5)のように定める。ただし、式(5)において、Vは正規化後の値であり、Aは定数である。式(5)の特徴量Rmと正規化後の値Vとの関係を視覚的に表すと、図12に示されるようになる。以上の方法によって求めた値Vが状態遷移時に得られる第1報酬となる。
特徴量を−1〜0の値に正規化する方法について説明する。前提として、正規化を行うときに留意するべき事柄がある。それは、特徴量を正規化した値はそのまま状態遷移時の第1報酬として扱われるということである。したがって、「正規化後の値は滞留サイクル数が小さいほど大きくなる」という関係を維持しつつ正規化を行う必要がある。本定量計量アルゴリズムでは、特徴量の値が小さいほど、特徴量を正規化した後の値の感度が大きくなるように、正規化を行う。そのために、本定量計量アルゴリズムでは、特徴量を正規化するための変換式を式(5)のように定める。ただし、式(5)において、Vは正規化後の値であり、Aは定数である。式(5)の特徴量Rmと正規化後の値Vとの関係を視覚的に表すと、図12に示されるようになる。以上の方法によって求めた値Vが状態遷移時に得られる第1報酬となる。
[報酬の最大化]
定量計量システム1は、ステーション内部重量が0の状態から目標レンジに到達するまでに、できる限り多くの報酬を得るように動作することで、定量計量誤差を小さく抑えつつも、システムの動作を安定的に継続させることが可能になる。本定量計量アルゴリズムにおける報酬の最大化は、閾値以上の特徴量を有する有向エッジの除去、数手先の報酬を考慮したQ学習理論、及びQ値を用いた供給先のステーションの決定を順次行うことにより実施される。以下、これらの詳細について説明する。
定量計量システム1は、ステーション内部重量が0の状態から目標レンジに到達するまでに、できる限り多くの報酬を得るように動作することで、定量計量誤差を小さく抑えつつも、システムの動作を安定的に継続させることが可能になる。本定量計量アルゴリズムにおける報酬の最大化は、閾値以上の特徴量を有する有向エッジの除去、数手先の報酬を考慮したQ学習理論、及びQ値を用いた供給先のステーションの決定を順次行うことにより実施される。以下、これらの詳細について説明する。
<閾値以上の特徴量を有する有向エッジの除去>
特徴量とは、ある状態から別の状態への遷移の困難性を示す指標である。所定値よりも大きい特徴量を有する有向エッジは、定量計量システム1の動作の安定的な継続を阻害するおそれがある。例として、図13に示されるように、状態aから出発して状態dに到達することを目的するグラフ構造について考える。図13に示されるグラフ構造において、Ri,jは、状態iから状態jに遷移する際の特徴量である。
特徴量とは、ある状態から別の状態への遷移の困難性を示す指標である。所定値よりも大きい特徴量を有する有向エッジは、定量計量システム1の動作の安定的な継続を阻害するおそれがある。例として、図13に示されるように、状態aから出発して状態dに到達することを目的するグラフ構造について考える。図13に示されるグラフ構造において、Ri,jは、状態iから状態jに遷移する際の特徴量である。
図13に示されるグラフ構造では、状態aから状態bに遷移する際、及び状態aから状態cに遷移する際には、特徴量の値2に相当する滞留サイクル数2回で遷移できることが見込まれる。同様に、状態bから状態dに遷移する際にも、期待される滞留サイクル数は2回である。しかし、状態cから状態dに遷移する際には、期待される滞留サイクル数は100回であり、多くのサイクル数が費やされる。全てのステーション内部重量が状態cに陥った状況を考えると、次サイクルにおいていずれかのステーション2が状態dに遷移し得る可能性は殆どなく、数サイクル以内に定量計量システム1の動作が破綻することは明白である。
そこで、本定量計量アルゴリズムでは、図14に示されるように、所定値以上の特徴量を有する有向エッジを予めグラフ構造上から消去する。図14に示されるグラフ構造では、状態cのノードから延びる有向エッジが1つも存在しないことが分かる。したがって、状態cに遷移すること自体が定量計量システム1の動作の破綻につながるので、図15に示されるように、状態cのノードに延びる有向エッジも同時に除去しなければならない。このように、本定量計量アルゴリズムでは、状態cのノードから延びる有向エッジの中で所定値以上の特徴量を有する有向エッジを消去した後、状態cの状態から延びる有向エッジが1つも残らなかった場合、状態cのノードに延びる有向エッジも全て消去する。
本定量計量アルゴリズムでは、上述した有向エッジの消去に関する手順を目標レンジに近い状態から実行することで、グラフ構造全体を通して実行することができる。また、有向エッジを消去する際の基準として用いる特徴量の閾値である所定値は、小さいほど多くの有向エッジが消去されることになる。ただし、そのとき問題となるのは、ステーション内部重量が0の状態から目標レンジに到達するまで間に、有向エッジで構成される一繋ぎのパスが存在しなくなることである。したがって、所定値は、できる限り小さくすると同時に、ステーション内部重量が0の状態から目標レンジに到達するまでの間にパスが存在するように注意を払う必要がある。
<数手先の報酬を考慮したQ学習理論>
あるステーション2について、ステーション内部重量が目標レンジに到達するためには、3つ以上の物品Sが当該ステーション2に供給される必要があるとき、ステーション内部重量が目標レンジに到達したときに得られる報酬を先読みしながら行動することは一般的には困難である。そこで、本定量計量アルゴリズムでは、状態遷移モデル上において数手先の報酬も考慮に入れた上で行動するための手法であるQ学習理論を用いて最終的に得られる報酬を最大化することにする。本定量計量アルゴリズムでは、Q学習理論を用いることによりQ値と呼ばれる値を各有向エッジ上に割り振る。Q値が高い有向エッジを通過したときほど、目標レンジ到達時に高い報酬が得られると期待されるため、Q値は、報酬の最大化に直接的に貢献する値であるといえる。
あるステーション2について、ステーション内部重量が目標レンジに到達するためには、3つ以上の物品Sが当該ステーション2に供給される必要があるとき、ステーション内部重量が目標レンジに到達したときに得られる報酬を先読みしながら行動することは一般的には困難である。そこで、本定量計量アルゴリズムでは、状態遷移モデル上において数手先の報酬も考慮に入れた上で行動するための手法であるQ学習理論を用いて最終的に得られる報酬を最大化することにする。本定量計量アルゴリズムでは、Q学習理論を用いることによりQ値と呼ばれる値を各有向エッジ上に割り振る。Q値が高い有向エッジを通過したときほど、目標レンジ到達時に高い報酬が得られると期待されるため、Q値は、報酬の最大化に直接的に貢献する値であるといえる。
<Q値を用いた供給先のステーションの決定>
一般的に、Q学習理論の枠組み内では、現状態においてQ値が最も高くなる行動を自ら選択する。本定量計量アルゴリズムでは、以下のようにして物品Sの供給先となるステーション2を決定する。この決定方法は、2つのパターンに大別される。
一般的に、Q学習理論の枠組み内では、現状態においてQ値が最も高くなる行動を自ら選択する。本定量計量アルゴリズムでは、以下のようにして物品Sの供給先となるステーション2を決定する。この決定方法は、2つのパターンに大別される。
まず、1つ目のパターンとして、各ステーション2において、現状態iから状態jに遷移する可能性があるときに、遷移後の状態jが目標レンジ未満である場合について説明する。その場合、本定量計量アルゴリズムでは、遷移後の状態jのノードから延びる有向エッジ上のQ値の中で最大となるQsを求め、Qsが最大となるステーション2を最終的な供給先とする。図16に示される例では、遷移後の状態jのノードから延びる有向エッジ上のQ値はそれぞれ0.1,0.6,0.2であり、その中で最大のQ値である0.6がQsとなる。次に、2つ目のパターンとして、遷移後の状態jが目標レンジ内である場合について説明する。その場合、本定量計量アルゴリズムでは、状態jに到達した時に得られる第2報酬についてのQ値をQsとする。
なお、Qsが最大となるステーション2を最終的な供給先とする場合において、Qsが最大となるステーション2が複数存在するときには、それらのステーション2のうち、過去に計量物(物品S)が入った個数が最も少ないステーション2、又は目標重量到達時の計量物(物品S)の排出回数が最も少ないステーション2を選択する。
ここで、Q値は、式(6)により更新される。式(6)において、Q(s,a)は、状態sにおいて行動aをとることによって得られる報酬の期待値であり、R(s,a)は、状態sにおいて行動aをとることによって得られる報酬であり、max{Q(s’,a’)は、状態s’において行動a’をとったときのQ値の最大値である。また、αは学習率であり、γは割引率である。αは0<α<1の値(例えば、α=0.3)をとり、γは0<γ<1の値(例えば、γ=0.7)をとる。なお、Q学習理論それ自体は、周知の理論である。
<初期化の方法>
電源投入直後等の初期状態においては、全てのエッジにおけるQ値が未定である。生産稼働直後から安定した定量計量を実現するために、本実施形態では、生産稼働前に事前に複数のサンプルを用いてQ値を学習することによりQ値を決定する方法、又は生産稼働前に事前に判明している計量物(物品S)の重量分布を基にコンピュータ内部で発生させた重量データを用いてQ値を学習することによりQ値を決定する方法を使用している。
電源投入直後等の初期状態においては、全てのエッジにおけるQ値が未定である。生産稼働直後から安定した定量計量を実現するために、本実施形態では、生産稼働前に事前に複数のサンプルを用いてQ値を学習することによりQ値を決定する方法、又は生産稼働前に事前に判明している計量物(物品S)の重量分布を基にコンピュータ内部で発生させた重量データを用いてQ値を学習することによりQ値を決定する方法を使用している。
[定量計量アルゴリズムを搭載した定量計量システムの作用効果]
以上説明したように、定量計量システム1では、各ステーション2における物品Sの重量の総和(上述したステーション内部重量)を状態として捉え、かつ各ステーション2に対する物品Sの振分動作(上述した物品Sの供給)を行動として捉え、かつ行動の実行による状態の変化を遷移として捉えた場合に、各遷移に必要な重量を有する物品Sが定量計量システム1に導入される困難性を示す遷移困難度(上述した特徴量)が更新される。そして、状態をノードとして捉え、かつ遷移を有向エッジとして捉えたグラフ構造において、各有向エッジについての遷移困難度が低いほど高い第1報酬が付与されるように、かつ各有向エッジに接続された遷移先のノードについての物品Sの重量の総和が目標レンジ内であれば第2報酬が付与されるように、第1報酬及び第2報酬の期待値として各有向エッジに設定されるQ値が更新される。このような状況下において、定量計量システム1では、物品Sの重量が計測され(計量工程)、当該物品Sを複数のステーション2のいずれか1つに振り分けるときに、各ステーション2に対する当該物品Sの振分動作に対応する有向エッジから、Q値が最大となる有向エッジが選択され、当該有向エッジに対応する振分動作が実行される(振分工程)。
以上説明したように、定量計量システム1では、各ステーション2における物品Sの重量の総和(上述したステーション内部重量)を状態として捉え、かつ各ステーション2に対する物品Sの振分動作(上述した物品Sの供給)を行動として捉え、かつ行動の実行による状態の変化を遷移として捉えた場合に、各遷移に必要な重量を有する物品Sが定量計量システム1に導入される困難性を示す遷移困難度(上述した特徴量)が更新される。そして、状態をノードとして捉え、かつ遷移を有向エッジとして捉えたグラフ構造において、各有向エッジについての遷移困難度が低いほど高い第1報酬が付与されるように、かつ各有向エッジに接続された遷移先のノードについての物品Sの重量の総和が目標レンジ内であれば第2報酬が付与されるように、第1報酬及び第2報酬の期待値として各有向エッジに設定されるQ値が更新される。このような状況下において、定量計量システム1では、物品Sの重量が計測され(計量工程)、当該物品Sを複数のステーション2のいずれか1つに振り分けるときに、各ステーション2に対する当該物品Sの振分動作に対応する有向エッジから、Q値が最大となる有向エッジが選択され、当該有向エッジに対応する振分動作が実行される(振分工程)。
したがって、定量計量システム1では、高い第1報酬を得るために、遷移困難度が低い有向エッジに対応する振分動作が実行され易くなる。これにより、システムの動作を安定的に継続させることができる。更に、定量計量システム1では、第2報酬を得るために、物品Sの重量の総和が目標レンジ内であるノードに接続された有向エッジに対応する振分動作が実行され易くなる。これにより、各ステーション2における物品Sの重量の総和を目標レンジに収めることができる。このように、定量計量システム1によれば、各ステーション2における物品Sの重量の総和を目標レンジに収めること、及びシステムの動作を安定的に継続させることを達成することができる。
特に、定量計量システム1では、上記グラフ構造において、各有向エッジについての遷移困難度が低いほど高い第1報酬が付与されるように、かつ各有向エッジに接続された遷移先のノードについての物品Sの重量の総和が目標レンジ内において目標レンジの下限値(上述した目標重量)に近いほど高い第2報酬が付与されるように、第1報酬及び第2報酬の期待値として各有向エッジに設定されるQ値が更新される。したがって、定量計量システム1では、高い第2報酬を得るために、物品Sの重量の総和が目標レンジ内において目標レンジの下限値に近いノードに接続された有向エッジに対応する振分動作が実行され易くなる。これにより、各ステーション2における物品Sの重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けることができる。
また、定量計量システム1では、物品Sを複数のステーション2のいずれか1つに振り分けるときに、各ステーション2に対する当該物品Sの振分動作に対応する有向エッジから、振分動作以降に一度でも遷移する可能性があるノードに更に接続された複数の有向エッジのそれぞれに設定されたQ値の最大値(上述したQs)が最大となるステーション2が選択され、当該ステーション2に対応する振分動作が実行される。これにより、システムの動作をより安定的に継続させることができる。
また、定量計量システム1では、第2報酬(すなわち、各有向エッジに接続された遷移先のノードについての物品Sの重量の総和が目標レンジ内において目標レンジの下限値に近いほど高くなる報酬)が第1報酬(すなわち、各有向エッジについての遷移困難度が低いほど高くなる報酬)よりも高い値となっている。これにより、物品Sの重量の総和が目標レンジ内において目標レンジの下限値に近いノードに接続された有向エッジに対応する振分動作が実行される頻度がより高くなる。そのため、各ステーション2における物品Sの重量の総和を目標レンジにより確実に収めかつ目標レンジの下限値により一層近付けることができる。
また、定量計量システム1では、所定値以上の遷移困難度(上述した特徴量)を有する有向エッジが予めグラフ構造上から消去されて、遷移困難度が所定値よりも低くなっている有向エッジによってグラフ構造が構成される。これにより、システムの動作の安定的継続を担保しつつ、制御部5による計算量を抑制することができる。
[シミュレーション実験]
上述した定量計量アルゴリズムを用いた実験をシミュレータ上で行った。実験条件は、次のとおりである。
(1)物品の重量:ガウス乱数を用いて生成
(2)物品の単重平均:210g
(3)物品の標準偏差:20g
(4)ガウス乱数発生方法:線形合同法とボックスミュラー法
(5)目標重量:2000g
(6)上限重量:2020g
(7)ステーション数:8個
(8)連続動作サイクル数:10000回
(9)各状態の重量幅:5g
(10)式6における学習率αの値:0.1
(11)式6における割引率γの値:0.7
(12)式5における定数Aの値:10.0
(13)目標レンジ内のWa[g]に到達したときに与える第2報酬値R2:
2000≦Wa<2005 R2=1.0
2005≦Wa<2010 R2=0.75
2010≦Wa<2015 R2=0.5
2015≦Wa<2020 R2=0.25
上述した定量計量アルゴリズムを用いた実験をシミュレータ上で行った。実験条件は、次のとおりである。
(1)物品の重量:ガウス乱数を用いて生成
(2)物品の単重平均:210g
(3)物品の標準偏差:20g
(4)ガウス乱数発生方法:線形合同法とボックスミュラー法
(5)目標重量:2000g
(6)上限重量:2020g
(7)ステーション数:8個
(8)連続動作サイクル数:10000回
(9)各状態の重量幅:5g
(10)式6における学習率αの値:0.1
(11)式6における割引率γの値:0.7
(12)式5における定数Aの値:10.0
(13)目標レンジ内のWa[g]に到達したときに与える第2報酬値R2:
2000≦Wa<2005 R2=1.0
2005≦Wa<2010 R2=0.75
2010≦Wa<2015 R2=0.5
2015≦Wa<2020 R2=0.25
以上の実験条件で、上述した定量計量アルゴリズムを搭載した定量計量システムシミュレータを動作させた結果、定量計量誤差は0.49%に抑えられ、稼働率は100%を維持した。このことからも、上述した定量計量アルゴリズムによれば、各ステーションにおける物品の重量の総和を目標レンジに収めかつ目標レンジの下限値に近付けること、及びシステムの動作を安定的に継続させることを達成することができる。
以上、本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されるものではない。例えば、第1報酬は、各有向エッジについての遷移困難度が低いほど高くなる報酬であるが、遷移困難度が低くなるに従って、連続的に高くなるようにされてもよいし、段階的に高くなるようにされてもよい。同様に、第2報酬は、各有向エッジに接続された遷移先のノードについての物品の重量の総和が目標レンジ内において目標レンジの下限値に近いほど高くなる報酬であるが、目標レンジの下限値に近くなるに従って、連続的に高くなるようにされてもよいし、段階的に高くなるようにされてもよい。また、物品を複数のステーションのいずれか1つに振り分けるときに、各ステーションに対する当該物品の振分動作に対応するエッジから、Q値が最大となるエッジを選択する場合には、現状態のノードから延びる有向エッジ上のQ値が最大となるように、物品の供給先となるステーションを選択してもよい。また、第2報酬は、目標レンジの下限値以外の目標重量を目標レンジ内に設定した場合に、目標重量に近いほど高い値であってもよい。この場合、各ステーションにおける物品の重量の総和を目標レンジに収めかつ目標重量に近付けることができる。
本発明によれば、各ステーションにおける物品の重量の総和を目標レンジに収めること、及びシステムの動作を安定的に継続させることを達成することができる定量計量システム及び定量計量方法を提供することが可能となる。
1…定量計量システム、2…ステーション、3…計量部、4…振分部、5…制御部。
Claims (7)
- 順次供給される物品の重量を計測する計量部と、
順次供給される前記物品を複数のステーションのそれぞれに振り分ける振分部と、
前記計量部によって計測された前記物品の重量に基づいて、複数の前記ステーションのそれぞれにおける前記物品の重量の総和が目標レンジに収まるように前記振分部を制御する制御部と、を備え、
前記制御部は、
複数の前記ステーションのそれぞれにおける前記物品の重量の総和を状態として捉え、かつ複数の前記ステーションのそれぞれに対する前記物品の振分動作を行動として捉え、かつ前記行動の実行による前記状態の変化を遷移として捉えた場合に、
前記遷移のそれぞれに必要な重量を有する前記物品が供給される困難性を示す遷移困難度を更新しつつ、
前記状態をノードとして捉え、かつ前記遷移をエッジとして捉えたグラフ構造において、前記エッジのそれぞれについての前記遷移困難度が低いほど高い第1報酬が付与されるように、かつ前記エッジのそれぞれに接続された遷移先の前記ノードについての前記物品の重量の総和が前記目標レンジ内であれば第2報酬が付与されるように、前記第1報酬及び前記第2報酬の期待値として前記エッジのそれぞれに設定されるQ値を更新し、
前記物品を複数の前記ステーションのいずれか1つに振り分けるときに、複数の前記ステーションのそれぞれに対する当該物品の前記振分動作に対応する前記エッジから、前記Q値が最大となる前記エッジを選択し、当該エッジに対応する前記振分動作を実行するように前記振分部を制御する、定量計量システム。 - 前記制御部は、前記物品を複数の前記ステーションのいずれか1つに振り分けるときに、複数の前記ステーションのそれぞれに対する当該物品の前記振分動作に対応する前記エッジから、前記振分動作以降に一度でも遷移する可能性がある前記ノードに更に接続された複数の前記エッジのそれぞれに設定された前記Q値の最大値が最大となる前記ステーションを選択し、当該ステーションに対応する前記振分動作を実行するように前記振分部を制御する、請求項1記載の定量計量システム。
- 前記第2報酬は、前記目標レンジの下限値に近いほど高い値である、請求項1又は2記載の定量計量システム。
- 前記第2報酬は、前記目標レンジ内に目標重量を設定した場合に、前記目標重量に近いほど高い値である、請求項1又は2記載の定量計量システム。
- 前記第2報酬は、前記第1報酬よりも高い値である、請求項1〜4のいずれか一項記載の定量計量システム。
- 前記制御部は、前記遷移困難度が所定値よりも低くなっている前記エッジによって前記グラフ構造を構成する、請求項1〜5のいずれか一項記載の定量計量システム。
- 順次供給される物品の重量を計測する計量工程と、
前記計量工程にて計測された前記物品の重量に基づいて、複数のステーションのそれぞれにおける前記物品の重量の総和が目標レンジに収まるように、順次供給される前記物品を複数の前記ステーションのそれぞれに振り分ける振分工程と、を含み、
前記振分工程では、
複数の前記ステーションのそれぞれにおける前記物品の重量の総和を状態として捉え、かつ複数の前記ステーションのそれぞれに対する前記物品の振分動作を行動として捉え、かつ前記行動の実行による前記状態の変化を遷移として捉えた場合に、
前記遷移のそれぞれに必要な重量を有する前記物品が供給される困難性を示す遷移困難度を更新しつつ、
前記状態をノードとして捉え、かつ前記遷移をエッジとして捉えたグラフ構造において、前記エッジのそれぞれについての前記遷移困難度が低いほど高い第1報酬が付与されるように、かつ前記エッジのそれぞれに接続された遷移先の前記ノードについての前記物品の重量の総和が前記目標レンジ内において前記目標レンジの下限値に近いほど高い第2報酬が付与されるように、前記第1報酬及び前記第2報酬の期待値として前記エッジのそれぞれに設定されるQ値を更新し、
前記物品を複数の前記ステーションのいずれか1つに振り分けるときに、複数の前記ステーションのそれぞれに対する当該物品の前記振分動作に対応する前記エッジから、前記Q値が最大となる前記エッジを選択し、当該エッジに対応する前記振分動作を実行する、定量計量方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013056033 | 2013-03-19 | ||
JP2013056033 | 2013-03-19 | ||
PCT/JP2014/057576 WO2014148564A1 (ja) | 2013-03-19 | 2014-03-19 | 定量計量システム及び定量計量方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2014148564A1 true JPWO2014148564A1 (ja) | 2017-02-16 |
Family
ID=51580237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015506833A Pending JPWO2014148564A1 (ja) | 2013-03-19 | 2014-03-19 | 定量計量システム及び定量計量方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2014148564A1 (ja) |
WO (1) | WO2014148564A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017191567A (ja) * | 2016-04-15 | 2017-10-19 | ファナック株式会社 | 生産計画を実施する生産システム |
CN111581599B (zh) * | 2020-04-29 | 2023-10-03 | 四川虹美智能科技有限公司 | 重量值输出方法和数字称重变送器 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4765124A (en) * | 1985-07-20 | 1988-08-23 | Nambu Electric Co., Ltd. | Egg sorting and packing device |
WO2000017811A2 (de) * | 1998-09-23 | 2000-03-30 | Siemens Aktiengesellschaft | Verfahren und anordnung zur ermittlung einer folge von aktionen für ein system, welches zustände aufweist, wobei ein zustandsübergang zwischen zwei zuständen aufgrund einer aktion erfolgt |
JP4118132B2 (ja) * | 2002-12-03 | 2008-07-16 | 株式会社クボタ | 計量仕分け設備 |
-
2014
- 2014-03-19 JP JP2015506833A patent/JPWO2014148564A1/ja active Pending
- 2014-03-19 WO PCT/JP2014/057576 patent/WO2014148564A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2014148564A1 (ja) | 2014-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112088383A (zh) | 神经网络构筑装置、信息处理装置、神经网络构筑方法及程序 | |
US11513851B2 (en) | Job scheduler, job schedule control method, and storage medium | |
CN108431794A (zh) | 用于训练学习机的方法和装置 | |
CN103810102A (zh) | 一种用于预测软件缺陷的方法和系统 | |
JP2020525872A (ja) | インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体 | |
JP6902487B2 (ja) | 機械学習システム | |
CN107798332B (zh) | 一种用户行为预测方法及装置 | |
US20160012333A1 (en) | Data classification method, storage medium, and classification device | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
JP2005004658A (ja) | 変化点検出装置,変化点検出方法および変化点検出用プログラム | |
WO2014148564A1 (ja) | 定量計量システム及び定量計量方法 | |
CN113408674B (zh) | 模型训练方法及装置、图像识别方法及装置 | |
JP6201556B2 (ja) | 予測モデル学習装置、予測モデル学習方法およびコンピュータプログラム | |
CN114547917A (zh) | 仿真预测方法、装置、设备及存储介质 | |
US10726349B2 (en) | Calculating posterior probability of classes | |
CN110007371A (zh) | 风速预测方法及装置 | |
JP7073171B2 (ja) | 学習装置、学習方法及びプログラム | |
JP2013242709A (ja) | 情報処理システム及びプログラム | |
WO2020121494A1 (ja) | 演算装置、アクション決定方法、及び制御プログラムを格納する非一時的なコンピュータ可読媒体 | |
CN109783769A (zh) | 一种基于用户项目评分的矩阵分解方法和装置 | |
CN108509971A (zh) | 信息处理设备和信息处理方法 | |
CN106537442A (zh) | 收集量调节辅助装置,收集量调节辅助方法和计算机可读记录介质 | |
Yuan et al. | Accelerated Training via Incrementally Growing Neural Networks using Variance Transfer and Learning Rate Adaptation | |
US20190138936A1 (en) | Learned model integration method, apparatus, program, ic chip, and system | |
JP6607252B2 (ja) | データ処理装置、データ処理方法、及び、プログラム |