WO2024181354A1

WO2024181354A1 - 制御装置、制御方法、及び制御プログラム

Info

Publication number: WO2024181354A1
Application number: PCT/JP2024/006796
Authority: WO
Inventors: 玲奈石川; 琳翔矢川; 英雄斎藤; 政志 ▲濱▼屋; 敦史橋本; 一敏田中
Original assignee: オムロン株式会社; 慶應義塾
Priority date: 2023-03-01
Filing date: 2024-02-26
Publication date: 2024-09-06

Abstract

本開示の技術は、再利用可能な物体を用いてモデルを学習し、様々な脆弱物体の把持を可能とする。　制御装置は、再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する。

Description

制御装置、制御方法、及び制御プログラム

　本開示は、制御装置、制御方法、及び制御プログラムに関する。

　ロボットに設けられたグリッパを用いて、対象物に応じて把持力を制御して、対象物の把持を可能とする技術がある。

　例えば、特許文献１（特開２０１９－１８８５８７号公報）には、柔らかい対象物を把持する場合において、対象物を撮影して得られた画像データから対象物の面積を取得し、取得した面積に応じたエア圧を供給することによって、エア圧に応じて屈折するグリッパを制御してグリッパにおける把持部の間隔、又はグリッパにおける把持力を変化させるロボット制御装置について開示されている。

　しかしながら、対象物を把持するロボットは、柔らかい対象物を把持するために把持力の制御を行う、及び柔らかい対象物を把持するために専用のグリッパを設ける等、特定の対象物に応じて特化して構成されていることがある。

　また、対象物に応じて把持力の制御を行う場合において同一の対象物であっても（例えば、野菜及び果物等の熟成具合に応じて）対象物の柔軟性が異なることがある。

　そのため、専用の柔軟なグリッパなしに、破損を生じさせずに、様々な脆弱物体を把持できなかった。

　本開示の技術は、再利用可能な物体を用いてモデルを学習し、様々な脆弱物体の把持を可能とする制御装置、制御方法、及び制御プログラムを提供することを目的とする。

　上記目的を達成するために、本開示の第１態様に係る制御装置は、再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する。

　第２態様に係る制御装置において、前記推定モデルの学習は、前記物体の各々から取得した観測値の時系列データの検出結果を前記学習データとして用いて、時系列ネットワークを用いて推定モデルを事前学習し、前記時系列ネットワークのエンコーダの出力を圧縮した全結合層とし、メタ学習において、前記エンコーダのパラメータを固定して前記全結合層のパラメータを更新する。

　第３態様に係る制御装置において、前記再利用可能な複数の物体として、組み立て直しにより再利用可能な２種以上のブロック、加熱による膨張で形状を戻すことで再利用可能なピンポン玉、加熱して冷やすことにより再利用可能なゼリーを少なくとも用い、前記観測値を前記学習データとして取得する。

　第４態様に係る制御装置において、前記２種以上のブロックは、種類ごとにそれぞれ異なる複数の形状について、前記学習データとして収集する。

　上記目的を達成するために、本開示に係る制御方法は、再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する、処理をコンピュータが実行する。

　上記目的を達成するために、本開示に係る制御プログラムは、再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する、処理をコンピュータに実行させる。

　本開示によれば、再利用可能な物体を用いてモデルを学習し、様々な脆弱物体の把持を可能とする。

図１は、再利用可能な複数の物体の一例である。図２は、本実施形態に係るロボットシステムの構成図である。図３は、制御装置３０に関する機能的な構成図である。図４は、複数の物体について取得した接触力の時系列データの例である。図４は、複数の物体について取得した接触力の時系列データの例である。図６は、推定した接触力の時系列データの一例を示すグラフである。図７は、エンコーダ・デコーダモデルの一例を示す模式図である。図８は、制御装置のハードウェア構成を示すブロック図である。図９は、制御装置による推定モデルを学習する処理の流れを示すフローチャートである。図１０は、実験に用いた実ロボットである。図１１は、再利用可能な物体をそれぞれ把持した際の実ロボットである。図１２は、食品をそれぞれ把持した際の実ロボットである。図１３は、ピッキング成功時のスナップショットを示し、ロボットがどのように食品をピッキングしたかを確認した図である。図１４は、実験に用いたおもちゃのブロックの各形状を示す図である。図１５は、実験に用いたおもちゃのブロックの各形状を示す図である。

　以下、本開示の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一または等価な構成要素および部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　まず、本実施形態の概要を説明する。食品は壊れやすいため、ロボットによるピッキングは容易ではない。そのため、食品の物理的特性をプリセットしても、カテゴリ内外の多様性のため、ロボットの制御には有効ではなかった。本出願の発明者らの先行研究では、触覚センサを用いた学習型の破断予測によってこの問題の一部を克服できている。しかし、先行研究の方法では、物体の破断体験によって食品のピッキングを実現できることを明らかにしたが、この方法では、カテゴリ内差異に対応するために食品ごとにモデルを学習させていた。そのため、モデルの学習には、食品ごとにモデルを調整し、カテゴリ内の多くの食品を破断することが必要となり、望ましくない量の食品消費を招くことになる。さらに、学習に必要な食品の消費は、経済的にも環境的にも好ましくない。

　そこで本実施形態では、食品を消費することなく食品採取タスクを学習するための新しいフレームワークを提案する。本実施形態では、ロボットに複数の未知の食品カテゴリを把持させるために、そのカテゴリの食品を大量に消費して学習させたカテゴリ特化型モデルを用いない手法を提案する。本実施形態の方法はカテゴリに特化したモデルを想定している。本実施形態の提案手法では、食品を用いずに、何度も再利用可能な壊れやすい非食品を用いてモデルを学習し、学習データ集合を得る。このとき、対象となる食品と同様の壊れやすい非食品オブジェクトを見つけることができると仮定する。

　また、キーとなるアイデアは、ドメイン汎化（ＤＧ）によりピッキング能力を物体不変にしながら、実際の食品を消費する代わりに、いくつかの再利用可能な壊れやすい物体の物体破壊経験を活用することである。また、再利用可能な非食品オブジェクトとターゲットとなる実食品オブジェクトの間のギャップを補うために、メタ学習を用いたドメイン汎化の技術を採用できる。ドメイン汎化は多様な学習データの助けを借りてモデルの汎化能力を最大化するので、ネットワークは追加の学習なしに未見の食品物体の破壊を予測することができ、仮定が現実のものとなる。

　本実施形態では、３つの典型的な破壊タイプ（亀裂、破裂、粉砕）により選択された再利用可能な複数の物体を用いてモデルを学習させた。また、本実施形態の手法のテストでは、４つのカテゴリの実食品物体を用いてモデルをテストしている。テスト用の未知の食品物体としては、豆腐、バナナ、ポテトチップス、トマトを選択した。テストの結果、再利用可能な物体の破壊経験とドメイン汎化の組み合わせにより、ロボットの食品ピッキング作業に有効であることが示された。

　本実施形態の再利用可能な複数の物体（以下、単に物体とも表記する）としては、例として、ゼリー、２種類のおもちゃのブロック（以下、単にブロックとも表記する）、ピンポン玉を用いた。図１は、再利用可能な複数の物体の一例である。図１では、再利用可能な複数の物体を、（ａ１）破断時と（ａ２）再生時とを比較して並べており、（ｏｂ１）はゼリー、（ｏｂ２）及び（ｏｂ３）はブロック、（ｏｂ４）はピンポン玉である。学習用の物体は、ブロックを組み替えたり、ピンポン玉を加熱したり、ゼリーを溶かして冷やす、等、物体の種類に応じた再生処置を行うことで簡単に再利用できるように形状を復元できる。２種以上のブロックは、組み立て直しにより再利用可能である。ピンポン玉は、加熱による膨張で形状を戻すことで再利用可能である。ゼリーは、加熱して冷やすことにより再利用可能である。

（ロボットシステム１０に係る構成）
　次に、本実施形態のロボットシステムの構成を説明する。図２は、本実施形態に係るロボットシステム１０の構成図である。図２に示すように、ロボットシステム１０は、ロボット２０、及び制御装置３０を備える。ロボットシステム１０は、本実施形態では、物体Ｔをピッキングするピッキング装置として機能する。なお、後述する推定モデルの学習においては、物体Ｔは、上述した再利用可能な複数の物体を用いる。

　ロボット２０は、ピッキング動作を行う際の運動制御の対象である機構部分としてのロボットアームＡＲと、ロボットアームＡＲの先端に取り付けられたグリッパＧＲと、を含む。

　グリッパＧＲは、対象物の一例としての物体Ｔを把持する２つの指Ｆ１、及び指Ｆ２を備える。なお、本実施形態では指の数が２つの場合について説明するが、指の数は２つに限られるものではなく、３つ以上の指を備えてもよい。また、指Ｆ１、Ｆ２は、本実施形態では一例として板状の部材で構成されるが、指Ｆ１、及び指Ｆ２の形状はこれに限られるものではない。

　また、グリッパＧＲは、指Ｆ１、及び指Ｆ２のうち少なくとも１つの指を駆動指として駆動するモータＭを備える。モータＭは、リニアガイドＬＧと接続されている。リニアガイドＬＧは、モータＭの回転運動を直線運動に変換する変換機構を含む。ここで、グリッパＧＲ、指Ｆ１、及び指Ｆ２は、エンドエフェクタが一例である

　指Ｆ１、及び指Ｆ２は、リニアガイドＬＧに取り付けられている。リニアガイドＬＧは、モータＭによって駆動され、モータＭのＺ軸を回転軸とした回転運動をＸ軸方向の直線運動に変換する。

　具体的には、例えばモータＭが正転した場合は、リニアガイドＬＧは、指Ｆ１、及び指Ｆ２を閉じる方向、すなわち物体Ｔを把持する方向に駆動する。一方、モータＭが逆転した場合は、リニアガイドＬＧは、指Ｆ１、及び指Ｆ２を開く方向、すなわち物体Ｔを放す方向に駆動する。なお、本実施形態では、モータＭが回転すると、指Ｆ１、及び指Ｆ２が同時に駆動される構成の場合について説明するが、指Ｆ１、及び指Ｆ２のうち何れかの指のみが駆動される構成としてもよい。すなわち、本実施形態では、駆動指が指Ｆ１、及び指Ｆ２の両方の場合について説明するが、駆動指が指Ｆ１、及び指Ｆ２の一方のみでもよい。

　また、グリッパＧＲは、モータＭを駆動するモータ駆動部２１を備える（図２参照）。モータ駆動部２１は、後述する制御部３５から停止する指示を受信するまでモータＭを等速度で駆動する。

　また、指Ｆ１、及び指Ｆ２の把持面には、触覚センサＳ１、及び触覚センサＳ２が各々設けられている。触覚センサＳ１、及び触覚センサＳ２は、指Ｆ１、及び指Ｆ２が物体Ｔを把持したときに触覚センサＳ１、及び触覚センサＳ２が物体Ｔから受ける接触力を検出する。

　なお、本実施形態に係る触覚センサＳは、分布型触覚センサである形態について説明するが、これに限定されない。触覚センサＳは、単点型の触覚センサであってもよい。また、本実施形態では、指Ｆ１、及び指Ｆ２の両方に触覚センサＳが設けられた構成、すなわち指Ｆ１、及び指Ｆ２の両方が触覚指である場合について説明するが、これに限定されない。本実施形態は、指Ｆ１、及び指Ｆ２の何れか一方にのみ触覚センサＳが設けられた構成としてもよい。

　ここで、接触力とは、把持力の反力であり、把持力と向きが反対で大きさは同じである。また、把持力とは、駆動指又は触覚指が物体Ｔに加える力である。なお、本実施形態では、物体Ｔを把持せずに指Ｆ１、及び指Ｆ２同士が直接接触して互いに他方の指に力を加えている場合に他方の指に加える力も把持力と称する。また、把持力は指Ｆ１、及び指Ｆ２の各々に発生するが、重力の影響を考えない場合は、指Ｆ１、及び指Ｆ２の把持力は互いに反対向きで同じ大きさとなる。

　ロボット２０は、一例として自由度が６の垂直多関節ロボット、水平多関節ロボット等が用いられるが、ロボットの自由度及び種類はこれらに限られるものではない。

（制御装置３０に係る構成）
　制御装置３０は、ロボット２０を制御する。一例として図３に示すように、制御装置３０は、機能的には、取得部３１、記憶部３２、学習部３３、推定部３４、及び制御部３５を備えている。また、推定部３４には、破損が生じる時期を推定するための機械学習が行われた推定モデル４０が格納される。また、学習部３３において、学習用の対象を再利用可能な複数の物体Ｔを用いてとして、推定モデル４０の学習を行う。

　取得部３１は、触覚センサＳ１、及び触覚センサＳ２を用いて、複数の物体Ｔの各々から、当該物体Ｔから受ける接触力を予め定められた期間毎に取得する。

　記憶部３２は、検出結果として、ロボット２０の稼働毎に取得部３１が取得した接触力を記憶する。なお、接触力の検出結果は、グリッパＧＲによって、物体Ｔの各々を破壊及び変形等の破損させた際に得られた接触力の時系列データの各々である。ここで、検出結果は、「作用結果」の一例であり、物体Ｔを破壊及び変形等の破損は、「所定の作用」の一例である。

　図４及び図５に、複数の物体Ｔについて取得した接触力の時系列データを例示する。図４及び図５に、ロボット２０が、（上）食品を壊すとき、（下）再利用可能な物体を壊すとき、の触覚信号の時系列データを示す。横軸は時間、縦軸は３軸の力信号のノルムを示す。時系列データでは、最初の力のピーク（破線）の時刻を破壊時と定義する。（ｆｄ１）は豆腐、（ｆｄ２）はバナナ、（ｆｄ３）はポテトチップス、（ｆｄ４）はトマトの時系列データである。また、上下に並べた接触力は対比関係にある。（ｏｂ１）のゼリーは豆腐、（ｏｂ２）のブロックはバナナ、（ｏｂ３）のブロックはポテトチップス、（ｏｂ２）のピンポン玉はトマト、に類似する波形の時系列データとなっている。このように、食品の破壊時の波形に類似する時系列データを、再利用可能な物体から取得することにより、様々な食品に対応できる学習データを取得できる。

　推定モデル４０が推定する接触力について例示する。図６は、推定した接触力の時系列データの一例を示すグラフである。一例として、図６に示すように、入力データとして、現時点ｔ_ｎまでの期間ｗに取得した接触力が入力された場合、推定モデル４０は、現時点ｔ_ｎからδ秒後に得られる接触力（以下、「推定接触力」という。）ｘ_ｔδ、及び物体Ｔの状態ｙを推定する。ｔ_δは先読みの目標時間である。物体Ｔの状態は、物体Ｔに破損が生じるか否かである。また、以下では、推定接触力ｘ_ｔδが得られる現時点ｔ_ｎからδ秒後の時期を「所定の時期」とする。なお、入力ウィンドウＸ_ｔｗ：ｔは時間軸に沿ってスライドし、＾ｙ_ｔδを予測する。予測値のｙ_ｔはＴ_ｐ－ｍ≦ｔ_δのとき真である。ここでｍはピーク前の実際の破断点をカバーすべき安全マージンを表す。

　ロボットは破壊の前に停止しなければならない。このため、ロボットはタイムステップＴ_ｐ－ｍでグリッパＧＲを閉じるのを停止する。ここで、Ｔ_ｐはピーク時間、ｍは破断タイミングをカバーすべき安全マージンである。すなわち、Ｔ_ｐ－ｍからＴ_ｐの間に破断が発生すると仮定する。入力観測の最初のタイムステップをｔ_ｗ＝ｔ－ｗとし、破断予測の目標タイムステップをｔδ＝ｔ＋δとする。そして、破壊予測問題は、ｙ_ｔδ＝ｆ（Ｘ_ｔｗ：ｔ）として定式化され、ここで、Ｘ_ｔｗ：ｔ＝｛ｘ_ｔｗ，．．．，ｘ_ｔ｝は触覚センサＳからの観測値のシーケンスであり、ｙｔ_δは２値である。ロボットが破断タイミングを超えたかどうかを示す値は、Ｔ_ｐ－ｍ≦ｔ_δならば真、そうでなければ偽である。ｙ_ｔδが真のとき、ロボットはグリッパＧＲを閉じるのを止める。

　学習部３３は、学習フェーズにおいて、記憶部３２に記憶されている物体Ｔの各々の検出結果を用いて、破損が生じる時期を推定するための機械学習を行った推定モデル４０を学習する。具体的には、学習部３３は、検出結果から時系列特徴を検出し、当該時系列特徴が生じる時期を学習させ、推定モデル４０を生成する。時系列特徴は、物体Ｔに破損が生じる、接触力が所定の閾値を超えた後に、最初に検出されたピーク値である。ここで、本実施形態では、複数の触覚センサＳを用いていることから複数の検出結果を取得可能である。また、分布型触覚センサは、１回の稼働において複数の接触力を検出可能である。すなわち、学習部３３は、１回の稼働において取得した複数の検出結果を用いて、機械学習を実行可能である。

　例えば、学習部３３は、学習データとして、再利用可能な複数の物体の接触力の時系列データ（観測値の時系列データ）を用いる。接触力の時系列データは、所定の期間における複数の接触力、所定の期間からδ秒後の接触力、及び物体Ｔに対する接触力のピーク値（教師信号）を、学習データとする。学習部３３は、学習データを用いて機械学習を実行し、推定モデル４０を生成する。ここで、本実施形態では、以下に説明するように、機械学習において、段階的に学習を行い、推定モデル４０を学習する。学習部３３では、推定モデル４０を一度事前学習し、中間層の一部についてドメイン汎化により更新することで学習する。

　推定モデル４０は、エンコーダ・デコーダモデルを用いた時系列ネットワークであるＬＳＴＭ（Lｏｎｇ　Ｓｈｏｒｔ－Ｔｅｒｍ　Ｍｅｍｏｒｙ）を用いる。ＬＳＴＭは、一例として図７に示すように、入力層、中間層（隠れ層）、及び出力層を備え、中間層において、処理済みのデータを異なるノード４１に伝搬して処理を行う。また、エンコーダ・デコーダモデルは、中間層において、入力されたデータから特徴を抽出して予め定められた次元のベクトルに圧縮するエンコード処理と、圧縮された圧縮データに含まれる特徴を復号するデコード処理と、を行う。エンコーダの出力をz_tとし、z_tの圧縮データを全結合層Ｍとする。エンコーダ・デコーダモデルである推定モデル４０は、過去の所定の期間における接触力を用いて、所定の時期における接触力、及び物体Ｔの状態の判定を推定して出力する。

　ここで、学習部３３は、学習データを入力として、エンコーダ・デコーダを事前学習し、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、全結合層Ｍを再学習する。ここでメタ学習によるドメイン汎化に対応した機械学習手法は、参考文献１のＭＡＭＬ、ＭＬＤＧの手法を適用する。
［参考文献１］Li, D., Yang, Y., Song, Y. Z., & Hospedales, T. (2018, April). Learning to generalize: Meta-learning for domain generalization. In Proceedings of the AAAI conference on artificial intelligence(Vol. 32, No. 1).

　効率的かつ効果的に推定モデル４０を学習するために、まず、すべての学習データでモデル全体（ＥとＭ）を事前学習する。ここでは、エンコーダをＥ、全結合層をＭとする。その後、Ｅのパラメータを固定して、全結合層ＭのパラメータのみをＭＬＤＧを用いて更新する。なお、評価段階では、事前学習されたモデル（メタ学習前のモデル）をベースラインとして採用することに留意する。

　ＭＬＤＧのメタ学習では、学習対象を以下（１）式のｍｅｔａ－ｔｒａｉｎと、（２）式のｍｅｔａ－ｔｅｓｔに分割する。ソースドメインをＳ、ターゲットドメインをＴとする。ターゲットドメインＴは未知の想定である。また、ｍｅｔａ－ｔｒａｉｎでは、ソースドメインＳは、仮想テストドメインとしてＳ－Ｖに分割される。学習は、ラベルｙに関し、予測された数値の間の損失関数ｌ（＾ｙ，ｙ）を想定する。メタ学習によるオーバーフィッティングを避けるため、損失関数ｌでモデル全体を一度事前学習させている。また、（３）式のようにパラメータΘを更新することで、全結合層Ｍを更新する。

                                   ・・・（１）

                                   ・・・（２）

                                   ・・・（３）

　次に、推定モデル４０による推定態様の一例を説明する。具体的には、推定モデル４０は、入力された複数の接触力を用いて、物体Ｔから受ける接触力を推定して接触力のピーク値ｘ_ｔｐを特定する。推定モデル４０は、特定した接触力のピーク値ｘ_ｔｐが生じる時期ｔｐを特定し、特定した時期ｔｐを基点として、予め定められたマージンｍの範囲を設定する。推定モデル４０は、推定接触力ｘ_ｔδが得られる所定の時期ｔ_δが、時期ｔｐを基点としたマージンｍの範囲に含まれている場合、破損が生じると判定する。換言すると、推定モデル４０は、上述の通りＴ_ｐ－ｍ≦ｔ_δを満たす場合、所定の時期ｔ_δに破損が生じる（ｙ＝１）と判定し、満たさない場合、所定の時期ｔ_δに破損が生じない（ｙ＝０）と判定する。

　なお、マージンｍは、予め定められている形態について説明した。しかし、これに限定されない。物体Ｔに応じて、マージンｍを設定してもよい。例えば、物体Ｔの質量を計測し、質量に応じて、マージンｍを設定してもよいし、物体Ｔに超音波を射出して得られた結果から密度を算出し、密度に応じてマージンｍを設定してもよい。また、物体Ｔを撮影した画像から物体Ｔの大きさ、及び材質を推定し、推定した大きさ、及び材質に応じて、マージンｍを設定してもよい。ここで、物体Ｔの質量、密度、大きさ、及び材質は、特徴量の一例である。

　また、実施形態では、分布型触覚センサである触覚センサＳ１、及び触覚センサＳ２を用いているため、１つの物体Ｔから複数の接触力が得られる。そのため、推定モデル４０は、複数の接触力の各々から、それぞれ接触力が閾値を超えた後に最初に検出されたピーク値ｘ_ｔｐを推定する。推定モデル４０は、推定した複数の接触力のピーク値ｘ_ｔｐのうち、最初に検出されたピーク値ｘ_ｔｐを用いて、物体Ｔの状態を判定できる。

　推定部３４は、取得部３１が取得した所定の期間における接触力を推定モデル４０に入力して、物体Ｔの状態（所定の時期に破損が生じるか否か）の判定を行う。

　制御部３５は、推定部３４によって、所定の時期に破損が生じると判定された場合、モータ駆動部２１にモータＭを停止する指示を送信して、物体Ｔに生じる把持力を制御する。

　次に、図８を参照して、制御装置３０のハードウェア構成について説明する。図８は、制御装置３０のハードウェア構成を示すブロック図である。

　図８に示すように、制御装置３０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）３０Ａ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）３０Ｂ、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）３０Ｃ、ストレージ３０Ｄ、入力部３０Ｅ、モニタ３０Ｆ、通信インタフェース（Ｉ／Ｆ）３０Ｇを有する。各構成は、バス３０Ｈを介して相互に通信可能に接続されている。

　ストレージ３０Ｄには、制御プログラムが格納されている。ＣＰＵ３０Ａは、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ３０Ａは、ストレージ３０Ｄからプログラムを読み出し、ＲＡＭ３０Ｃを作業領域としてプログラムを実行する。ＣＰＵ３０Ａは、ストレージ３０Ｄに記録されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。

　ＲＯＭ３０Ｂは、各種プログラム及び各種データを格納する。ＲＡＭ３０Ｃは、作業領域として一時的にプログラム又はデータを記憶する。ストレージ３０Ｄは、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入力部３０Ｅは、キーボード、及びマウス等のポインティングデバイスを含み、各種の

入力を行うために使用される。モニタ３０Ｆは、例えば、液晶ディスプレイであり、対象の物体Ｔの把持状態等の各種の情報を表示する。モニタ３０Ｆは、タッチパネル方式を採用して、入力部３０Ｅとして機能してもよい。

　通信Ｉ／Ｆ３０Ｇは、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ又はＷｉ－Ｆｉ（登録商標）等の規格が用いられる。

　図２に示した制御装置３０の各機能構成は、ＣＰＵ３０Ａがストレージ３０Ｄに記憶された制御プログラムを読み出し、ＲＡＭ３０Ｃに展開して実行することにより実現される。

　本実施形態の制御装置３０は、再利用可能な複数の物体を用いて、物体の各々の所定の破断過程における観測値の時系列データを学習データとして取得する。また、制御装置３０は、学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する。

　次に、図９及び図１０を参照して、制御装置３０の作用について説明する。

　図９は、制御装置３０による推定モデル４０を学習する処理の流れを示すフローチャートである。ユーザーが入力部３０Ｅを操作してモデル生成処理の実行を指示すると、ＣＰＵ３０Ａがストレージ３０Ｄから制御プログラムを読み出して、ＲＡＭ３０Ｃに展開し実行することにより、制御方法としてのモデル学習処理が実行される。

　ステップＳ１００において、ＣＰＵ３０Ａは、検出の対象の再利用可能な物体を設定する。なお、物体の入れ替えは手作業で行われるが、自動化してもよい。

　ステップＳ１０２において、ＣＰＵ３０Ａは、ロボット２０に対象の再利用可能な物体を把持させ、接触を制御する。

　ステップＳ１０４において、ＣＰＵ３０Ａは、対象の再利用可能な物体の接触力の検出結果を取得する。

　ステップＳ１０６において、ＣＰＵ３０Ａは、全ての再利用可能な物体について検出を終了したか否かを判定する。検出を終了した場合にはステップＳ１０８へ移行し、検出を終了していない場合にはステップＳ１００へ戻って次の対象の再利用可能な物体を設定し、検出を繰り返す。

　ステップＳ１０８において、ＣＰＵ３０Ａは、再利用可能な物体の各々から検出した検出結果を学習データとして用いて、推定モデル４０を事前学習する。

　ステップＳ１１０において、ＣＰＵ３０Ａは、事前学習した推定モデル４０の全結合層Ｍを入力として、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、全結合層Ｍを再学習する。

　ステップＳ１１２において、ＣＰＵ３０Ａは、最終的な学習結果として得られた推定モデル４０を保存する。

　以上、本開示の実施形態に係る制御装置３０は、再利用可能な物体を用いてモデルを学習し、様々な脆弱物体の把持を可能とすることができる。

（実験例）
　提案した本実施形態の学習手法を検証するため、実ロボットによるフードピッキングの実演を行い、実際の食品を用いたフードピッキングの成功率を評価した。図１０は、実験に用いた実ロボットである。図１１は、再利用可能な物体をそれぞれ把持した際の実ロボットである。図１２は、食品をそれぞれ把持した際の実ロボットである。

　ピッキング対象には、物性のカテゴリ間多様性を維持するために、豆腐、ポテトチップス、トマト、バナナを選択した。４つの食品について、それぞれ２０回ずつ把持試行を行い、実験を行った。本実施形態で学習した推定モデル４０を用いた提案手法と、ベースライン（メタ学習前の推定モデル）とを比較し、メタ学習の効果を検証した。

　この実験では、同じ初期位置、同じ姿勢で配置することを目指したが、手作業で行ったため、自然なばらつきも含む。食品の形状とポーズについて、より詳しく説明する。豆腐は、高さ（２０～３０ｍｍ）と奥行き（１５～２０ｍｍ）は同じだが、幅が異なる（それぞれ４０ｍｍと２０ｍｍ）立方体と立方体の２種類の形状を用意した。なお、幅×奥行きの面は常に地面を向き、奥行き×高さの面はグリッパに接触している。ポテトチップスについては、上向きに凹んだポーズで配置した。バナナは、厚みが約７～１５ｍｍの輪切りになるように形状を固定した。丸い面が正面を向くように（つまり、グリッパが側面に接触するように）配置した。最後に、トマトはヘタ側が後ろに向くように置いた。ただし、ヘタはあらかじめ取り除いておいた。なお、トマトは丸いため少し傾いている場合もあった。これにより、豆腐キューボイド、豆腐キューブ、バナナ、ポテトチップス、トマトの５種類の食品について実験を行った。

　図１３は、ピッキング成功時のスナップショットを示し、ロボットがどのように食品をピッキングしたかを確認した図である。ロボットがグリッパを閉じるのを止め、破断することなく、対象物をつまんでいることがわかる。

　表１は、５種類の食品に対して、ベースラインと提案手法で行ったピッキングの性能を示したものである。

　実験では、対象物がつぶれたり、割れたり、破れたりすることなくつまむことができた場合のみ成功とし、そうでない場合は失敗とカウントした。なお、実験を通して、失敗のパターンのほとんどは破断によるものであり、ロボットがグリッパを早期に停止させることはなかった。

　ベースラインモデルは、バナナ、トマト、ポテトチップスで良好な性能を発揮した。これは、再利用可能なオブジェクトの多様性が、すでにそれらの食品オブジェクトをうまくカバーしていることを示している。ここで、提案手法のドメイン汎化は、バナナとポテトチップスの成功率をさらに向上させていることがわかる。豆腐キューボイドと豆腐キューブで大幅に性能が向上したことは、ドメイン汎化によって推定モデル４０の汎化能力が拡張されたことを示すものである。

　なお、実験では推定モデル４０の学習には、２種類のおもちゃのブロック、ピンポン玉、ゼリーについて、それぞれ５２個、５２個、４９個の破損体験を収集した。すなわち、合計２０５個の時間配列となった。収集したおもちゃのブロックの破損体験は、おもちゃのブロック１（ｏｂ２）が５形状、おもちゃのブロック２（ｏｂ３）が４形状として、種類ごとに異なる複数の形状で構成し、学習データとして収集した。図１４及び図１５は、実験に用いたおもちゃのブロックの各形状を示す図である。このように、おもちゃのブロックの形を変えることで、カテゴリ内差もカバーできる学習が期待できる。

　なお、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した情報処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、情報処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記各実施形態では、プログラムがＲＯＭまたはストレージに予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　２０２３年３月１日に出願された日本国特許出願２０２３－０３１４４０号、及び２０２３年６月６日に出願された日本国特許出願２０２３－０９３４９８号の開示は、その全体が参照により本明細書に取り込まれる。本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

１０ロボットシステム
２０ロボット
２１モータ駆動部
３０制御装置
３１取得部
３２記憶部
３３学習部
３４推定部
３５制御部
４０推定モデル
Ｔ　（再利用可能な）物体

Claims

　再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、
　前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する、
　制御装置。
　前記推定モデルの学習は、前記物体の各々から取得した観測値の時系列データの検出結果を前記学習データとして用いて、時系列ネットワークを用いて推定モデルを事前学習し、前記時系列ネットワークのエンコーダの出力を圧縮した全結合層とし、メタ学習において、前記エンコーダのパラメータを固定して前記全結合層のパラメータを更新する、請求項１に記載の制御装置。
　前記再利用可能な複数の物体として、組み立て直しにより再利用可能な２種以上のブロック、加熱による膨張で形状を戻すことで再利用可能なピンポン玉、加熱して冷やすことにより再利用可能なゼリーを少なくとも用い、前記観測値を前記学習データとして取得する、請求項１に記載の制御装置。
　前記２種以上のブロックは、種類ごとにそれぞれ異なる複数の形状について、前記学習データとして収集する、請求項３に記載の制御装置。
　再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、
　前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する、
　処理をコンピュータが実行する制御方法。
　再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、
　前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する、
　処理をコンピュータに実行させる制御プログラム。