WO2024181354A1 - 制御装置、制御方法、及び制御プログラム - Google Patents

制御装置、制御方法、及び制御プログラム Download PDF

Info

Publication number
WO2024181354A1
WO2024181354A1 PCT/JP2024/006796 JP2024006796W WO2024181354A1 WO 2024181354 A1 WO2024181354 A1 WO 2024181354A1 JP 2024006796 W JP2024006796 W JP 2024006796W WO 2024181354 A1 WO2024181354 A1 WO 2024181354A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
objects
estimation model
control device
data
Prior art date
Application number
PCT/JP2024/006796
Other languages
English (en)
French (fr)
Inventor
玲奈 石川
琳翔 矢川
英雄 斎藤
政志 ▲濱▼屋
敦史 橋本
一敏 田中
Original Assignee
オムロン株式会社
慶應義塾
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2023093498A external-priority patent/JP2024124290A/ja
Application filed by オムロン株式会社, 慶應義塾 filed Critical オムロン株式会社
Publication of WO2024181354A1 publication Critical patent/WO2024181354A1/ja

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J15/00Gripping heads and other end effectors
    • B25J15/08Gripping heads and other end effectors having finger members
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn

Definitions

  • This disclosure relates to a control device, a control method, and a control program.
  • Patent Document 1 JP 2019-188587 A discloses a robot control device that, when gripping a soft object, obtains the area of the object from image data obtained by photographing the object, and supplies air pressure according to the obtained area to control a gripper that bends according to the air pressure, thereby changing the spacing between the gripping parts of the gripper or the gripping force of the gripper.
  • robots that grasp objects may be specially configured for specific objects, such as by controlling the gripping force to grasp soft objects and by being provided with a specialized gripper for grasping soft objects.
  • the flexibility of the object may differ even for the same object (for example, depending on the degree of ripeness of vegetables, fruits, etc.).
  • the technology disclosed herein aims to provide a control device, control method, and control program that can learn a model using a reusable object and grasp a variety of fragile objects.
  • control device uses multiple reusable objects to acquire, as learning data, observed values during a specific fracture process for each of the objects, and uses the learning data to apply a machine learning method that supports domain generalization through meta-learning, thereby learning an estimation model for estimating the timing at which a specific action will occur in the target object.
  • the estimation model is learned by using the detection results of the time series data of the observation values obtained from each of the objects as the learning data, pre-learning the estimation model using a time series network, and using the output of the encoder of the time series network as a compressed fully connected layer, and in meta-learning, the parameters of the encoder are fixed and the parameters of the fully connected layer are updated.
  • the reusable objects include at least two or more types of blocks that can be reused by reassembling, ping-pong balls that can be reused by expanding when heated and returning to their original shape, and jelly that can be reused by heating and cooling, and the observed values are acquired as the learning data.
  • the two or more types of blocks are collected as the learning data for a number of different shapes for each type.
  • control method disclosed herein uses multiple reusable objects, acquires observed values during a specific fracture process for each of the objects as learning data, and uses the learning data to apply a machine learning method that supports domain generalization through meta-learning, thereby learning an estimation model for estimating the timing at which a specific action will occur in the target object, by a computer.
  • control program disclosed herein causes a computer to execute a process that uses multiple reusable objects to acquire, as learning data, observed values during a specific fracture process for each of the objects, and uses the learning data to apply a machine learning method that supports domain generalization through meta-learning, thereby learning an estimation model for estimating the timing at which a specific action will occur in the target object.
  • a model can be trained using reusable objects, enabling the grasping of a variety of fragile objects.
  • FIG. 1 is an example of multiple reusable objects.
  • FIG. 2 is a configuration diagram of a robot system according to this embodiment.
  • FIG. 3 is a functional configuration diagram of the control device 30.
  • FIG. 4 shows an example of time-series data of contact forces acquired for a plurality of objects.
  • FIG. 4 shows an example of time-series data of contact forces acquired for a plurality of objects.
  • FIG. 6 is a graph showing an example of time-series data of the estimated contact force.
  • FIG. 7 is a schematic diagram showing an example of an encoder-decoder model.
  • FIG. 8 is a block diagram showing the hardware configuration of the control device.
  • FIG. 9 is a flowchart showing a process flow for learning an estimation model by the control device.
  • FIG. 9 is a flowchart showing a process flow for learning an estimation model by the control device.
  • FIG. 10 shows the actual robot used in the experiment.
  • FIG. 11 shows the actual robot when gripping each of the reusable objects.
  • FIG. 12 shows the actual robot grasping each food item.
  • FIG. 13 shows a snapshot of a successful picking, confirming how the robot picked the food item.
  • FIG. 14 is a diagram showing the shapes of the toy blocks used in the experiment.
  • FIG. 15 is a diagram showing the shapes of the toy blocks used in the experiment.
  • the method of this embodiment assumes a category-specific model.
  • a model is trained using fragile non-food objects that can be reused multiple times, without using food, to obtain a training data set. At this time, we assume that it is possible to find fragile non-food objects similar to the target food.
  • the key idea is to leverage the object destruction experience of some reusable fragile objects instead of consuming real food, while making the picking ability object-invariant through domain generalization (DG).
  • DG domain generalization
  • domain generalization To bridge the gap between reusable non-food objects and the target real food objects, the technique of domain generalization with meta-learning can be adopted. Domain generalization maximizes the model's generalization ability with the help of diverse training data, so that the network can predict the destruction of unseen food objects without additional learning, making the assumption a reality.
  • the model was trained using multiple reusable objects selected based on three typical destruction types (crack, burst, shatter).
  • the model was tested using four categories of real food objects. Tofu, bananas, potato chips, and tomatoes were selected as unknown food objects for testing. The test results showed that the combination of destruction experience of reusable objects and domain generalization is effective for robot food picking tasks.
  • FIG. 1 shows an example of the reusable objects.
  • the reusable objects are arranged in a manner that compares (a1) the broken state and (a2) the regenerated state, where (ob1) is jelly, (ob2) and (ob3) are blocks, and (ob4) is ping-pong balls.
  • the learning objects can be easily restored to their original shape for reuse by carrying out a regeneration treatment according to the type of object, such as rearranging the blocks, heating the ping-pong balls, or melting and cooling the jelly.
  • Two or more types of blocks can be reused by reassembling them.
  • the ping-pong balls can be reused by expanding them due to heating.
  • the jelly can be reused by heating and cooling them.
  • Fig. 2 is a configuration diagram of a robot system 10 according to the present embodiment.
  • the robot system 10 includes a robot 20 and a control device 30.
  • the robot system 10 functions as a picking device that picks up an object T. Note that in learning an estimation model to be described later, the above-mentioned multiple reusable objects are used as the object T.
  • the robot 20 includes a robot arm AR as a mechanical part that is subject to motion control when performing a picking operation, and a gripper GR attached to the tip of the robot arm AR.
  • the gripper GR has two fingers, F1 and F2, for gripping an object T as an example of a target object. Note that in this embodiment, a case where the number of fingers is two is described, but the number of fingers is not limited to two, and three or more fingers may be provided. Also, in this embodiment, the fingers F1 and F2 are made of plate-shaped members as an example, but the shape of the fingers F1 and F2 is not limited to this.
  • the gripper GR also includes a motor M that drives at least one of the fingers F1 and F2 as a driving finger.
  • the motor M is connected to a linear guide LG.
  • the linear guide LG includes a conversion mechanism that converts the rotational motion of the motor M into linear motion.
  • the gripper GR, the fingers F1, and the fingers F2 are examples of end effectors.
  • Fingers F1 and F2 are attached to a linear guide LG.
  • the linear guide LG is driven by a motor M, and converts the rotational motion of the motor M around its Z axis into linear motion in the X axis direction.
  • the linear guide LG drives the fingers F1 and F2 in a direction to close, i.e., in a direction to grasp the object T.
  • the linear guide LG drives the fingers F1 and F2 in a direction to open, i.e., in a direction to release the object T.
  • a configuration in which fingers F1 and F2 are driven simultaneously when the motor M rotates is described, but a configuration in which only one of fingers F1 and F2 is driven may also be used. That is, in this embodiment, a configuration in which both fingers F1 and F2 are driven as the driven fingers are described, but the driven fingers may also be only one of fingers F1 and F2.
  • the gripper GR also includes a motor drive unit 21 that drives the motor M (see FIG. 2).
  • the motor drive unit 21 drives the motor M at a constant speed until it receives an instruction to stop from the control unit 35, which will be described later.
  • the tactile sensor S is described as being a distributed tactile sensor, this is not limiting.
  • the tactile sensor S may also be a single-point tactile sensor.
  • this embodiment describes a configuration in which the tactile sensor S is provided on both the finger F1 and the finger F2, i.e., both the finger F1 and the finger F2 are tactile fingers, but this is not limiting.
  • This embodiment may also be configured in which the tactile sensor S is provided on only one of the fingers F1 and F2.
  • the contact force is a reaction force to the gripping force, and is opposite in direction to the gripping force but has the same magnitude.
  • the gripping force is the force that the drive finger or tactile finger applies to the object T.
  • the force applied to the other finger when finger F1 and finger F2 are in direct contact with each other and apply force to each other without gripping the object T is also referred to as the gripping force.
  • the gripping force is generated in each of finger F1 and finger F2, but if the effects of gravity are not taken into account, the gripping forces of finger F1 and finger F2 are opposite in direction and have the same magnitude.
  • the control device 30 controls the robot 20.
  • the control device 30 functionally includes an acquisition unit 31, a storage unit 32, a learning unit 33, an estimation unit 34, and a control unit 35.
  • the estimation unit 34 stores an estimation model 40 that has been subjected to machine learning for estimating when damage will occur.
  • the learning unit 33 learns the estimation model 40 using a plurality of reusable objects T as learning targets.
  • the acquisition unit 31 uses the tactile sensor S1 and the tactile sensor S2 to acquire the contact force received from each of the multiple objects T at predetermined intervals.
  • the memory unit 32 stores the contact force acquired by the acquisition unit 31 each time the robot 20 is operated as a detection result.
  • the detection results of the contact force are each piece of time series data of the contact force obtained when the gripper GR damages each of the objects T by breaking, deforming, or otherwise damaging them.
  • the detection result is an example of an "action result”
  • the destruction, deformation, or other damage of the object T is an example of a "predetermined action.”
  • time series data of contact forces acquired for multiple objects T show time series data of tactile signals when the robot 20 (top) breaks food and (bottom) breaks a reusable object.
  • the horizontal axis shows time, and the vertical axis shows the norm of the three-axis force signal.
  • the time of the first force peak (dashed line) is defined as the time of destruction.
  • (fd1) is the time series data for tofu
  • (fd2) is the time series data for banana
  • fd3) is the time series data for potato chips
  • (fd4) is the time series data for tomatoes.
  • the contact forces arranged vertically are in a contrasting relationship.
  • the jelly (ob1) is tofu
  • the block (ob2) is banana
  • the block (ob3) is potato chips
  • the ping-pong ball (ob2) is tomato
  • the time series data have waveforms similar to each other. In this way, by obtaining time series data from reusable objects that resembles the waveforms generated when food is destroyed, it is possible to obtain learning data that can be used for a variety of foods.
  • FIG. 6 is a graph showing an example of time series data of the estimated contact force.
  • the estimation model 40 estimates a contact force x t ⁇ obtained ⁇ seconds after the current time t n (hereinafter referred to as an "estimated contact force") and a state y of the object T.
  • t ⁇ is a target time for look-ahead.
  • the state of the object T is whether or not damage occurs to the object T.
  • the time ⁇ seconds after the current time t n when the estimated contact force x t ⁇ is obtained is referred to as a "predetermined time”.
  • the input window X tw :t slides along the time axis to predict ⁇ y t ⁇ .
  • the predicted value y t is true when T p -m ⁇ t ⁇ .
  • m represents a safety margin that should cover the actual breakage point before the peak.
  • the value indicating whether the robot has exceeded the break timing is true if T p -m ⁇ t ⁇ , and false otherwise.
  • the learning unit 33 uses the detection results of each object T stored in the memory unit 32 to learn an estimation model 40 that has undergone machine learning to estimate when damage will occur. Specifically, the learning unit 33 detects time series features from the detection results, learns the time when the time series features will occur, and generates the estimation model 40.
  • the time series feature is the peak value that is first detected after the contact force exceeds a predetermined threshold, at which point damage will occur to the object T.
  • multiple tactile sensors S since multiple tactile sensors S are used, multiple detection results can be obtained.
  • the distributed tactile sensor can detect multiple contact forces in one operation. In other words, the learning unit 33 can perform machine learning using multiple detection results obtained in one operation.
  • the learning unit 33 uses reusable time series data of contact forces of multiple objects (time series data of observed values) as learning data.
  • the time series data of contact forces includes multiple contact forces in a predetermined period, the contact force ⁇ seconds after the predetermined period, and the peak value of the contact force for object T (teacher signal).
  • the learning unit 33 executes machine learning using the learning data to generate the estimation model 40.
  • learning is performed in stages in machine learning to learn the estimation model 40.
  • the learning unit 33 learns the estimation model 40 by pre-learning it once and updating part of the intermediate layer by domain generalization.
  • the estimation model 40 uses a Long Short-Term Memory (LSTM), which is a time-series network using an encoder-decoder model.
  • the LSTM includes an input layer, an intermediate layer (hidden layer), and an output layer, and in the intermediate layer, processed data is propagated to different nodes 41 for processing.
  • the encoder-decoder model performs an encoding process to extract features from input data and compress the data into a vector of a predetermined dimension, and a decoding process to decode the features included in the compressed data.
  • the output of the encoder is zt , and the compressed data of zt is the fully connected layer M.
  • the estimation model 40 which is an encoder-decoder model, estimates and outputs a contact force at a predetermined time and a judgment of the state of the object T using a contact force in a predetermined period in the past.
  • the learning unit 33 uses learning data as input to pre-learn the encoder/decoder, applies a machine learning method compatible with domain generalization by meta-learning, and re-learns the fully connected layer M.
  • the machine learning method compatible with domain generalization by meta-learning is the MAML and MLDG methods described in Reference 1.
  • Reference 1 Li, D., Yang, Y., Song, Y. Z., & Hospedales, T. (2018, April). Learning to generalize: Meta-learning for domain generalization. In Proceedings of the AAAI conference on artificial intelligence(Vol. 32, No. 1).
  • the entire model (E and M) is pre-trained with all training data.
  • the encoder is E and the fully connected layer is M.
  • the parameters of E are fixed, and only the parameters of the fully connected layer M are updated using MLDG.
  • the pre-trained model (the model before meta-learning) is used as the baseline.
  • the learning target is divided into the meta-train of the following equation (1) and the meta-test of the following equation (2).
  • the source domain is S and the target domain is T.
  • the target domain T is assumed to be unknown.
  • the source domain S is divided into S-V as a virtual test domain.
  • a loss function l( ⁇ y, y) between the predicted numerical values is assumed for the label y.
  • the entire model is pre-trained once with the loss function l.
  • the fully connected layer M is updated by updating the parameter ⁇ as shown in equation (3). ...(1) ...(2) ...(3)
  • the estimation model 40 estimates the contact force received from the object T using a plurality of input contact forces to specify a peak value x tp of the contact force.
  • the estimation model 40 specifies a time tp at which the specified peak value x tp of the contact force occurs, and sets a range of a predetermined margin m with the specified time tp as a base point.
  • the estimation model 40 determines that damage will occur if a predetermined time t ⁇ at which the estimated contact force x t ⁇ is obtained is included in the range of the margin m with the time tp as a base point.
  • the margin m has been described as being predetermined. However, this is not limiting.
  • the margin m may be set according to the object T.
  • the mass of the object T may be measured and the margin m may be set according to the mass, or ultrasonic waves may be emitted to the object T, and the density may be calculated from the results obtained, and the margin m may be set according to the density.
  • the size and material of the object T may be estimated from an image of the object T, and the margin m may be set according to the estimated size and material.
  • the mass, density, size, and material of the object T are examples of feature quantities.
  • the tactile sensors S1 and S2 which are distribution-type tactile sensors, are used, so that multiple contact forces can be obtained from one object T. Therefore, the estimation model 40 estimates the peak value xtp that is detected first from each of the multiple contact forces after the respective contact forces exceed a threshold value. The estimation model 40 can determine the state of the object T using the peak value xtp that is detected first from among the multiple estimated peak values xtp of the contact forces.
  • the estimation unit 34 inputs the contact force during a specified period acquired by the acquisition unit 31 into the estimation model 40, and determines the state of the object T (whether or not damage will occur at the specified time).
  • the control unit 35 sends an instruction to the motor drive unit 21 to stop the motor M, thereby controlling the gripping force acting on the object T.
  • FIG. 8 is a block diagram showing the hardware configuration of the control device 30.
  • the control device 30 has a CPU (Central Processing Unit) 30A, a ROM (Read Only Memory) 30B, a RAM (Random Access Memory) 30C, a storage 30D, an input unit 30E, a monitor 30F, and a communication interface (I/F) 30G.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • storage 30D a storage 30D
  • I/F communication interface
  • Storage 30D stores control programs.
  • CPU 30A is a central processing unit that executes various programs and controls each component. That is, CPU 30A reads programs from storage 30D and executes the programs using RAM 30C as a working area. CPU 30A controls each of the components and performs various calculation processes according to the programs recorded in storage 30D.
  • ROM 30B stores various programs and data.
  • RAM 30C temporarily stores programs or data as a working area.
  • Storage 30D is composed of a HDD (Hard Disk Drive) or SSD (Solid State Drive) and stores various programs including the operating system and various data.
  • the input unit 30E includes a keyboard and a pointing device such as a mouse, and can be used to
  • the monitor 30F is, for example, a liquid crystal display, and displays various information such as the gripping state of the target object T.
  • the monitor 30F may be a touch panel type and function as the input unit 30E.
  • the communication I/F 30G is an interface for communicating with other devices, and uses standards such as Ethernet (registered trademark), FDDI, or Wi-Fi (registered trademark).
  • the functional components of the control device 30 shown in FIG. 2 are realized by the CPU 30A reading out the control program stored in the storage 30D, expanding it into the RAM 30C, and executing it.
  • the control device 30 of this embodiment uses multiple reusable objects to acquire time series data of observed values during a specific fracture process for each object as learning data.
  • the control device 30 also uses the learning data to apply a machine learning method that supports domain generalization through meta-learning, and learns an estimation model for estimating the timing at which a specific action will occur in the target object.
  • step S100 the CPU 30A sets the reusable object to be detected. Note that the replacement of the object is performed manually, but may also be automated.
  • step S108 the CPU 30A uses the detection results from each of the reusable objects as learning data to pre-train the estimation model 40.
  • step S110 the CPU 30A uses the fully connected layer M of the pre-trained estimation model 40 as an input, applies a machine learning method that supports domain generalization through meta-learning, and re-trains the fully connected layer M.
  • step S112 CPU 30A saves the estimation model 40 obtained as the final learning result.
  • control device 30 can learn a model using a reusable object, enabling the grasping of various fragile objects.
  • Figure 13 shows a snapshot of a successful pick, confirming how the robot picked the food item. You can see that the robot stops closing the gripper and picks up the object without breaking it.
  • Table 1 shows the picking performance of the baseline and proposed method for five types of food.
  • the baseline model performed well on bananas, tomatoes, and potato chips, indicating that the diversity of reusable objects already covers those food objects well.
  • the domain generalization of the proposed method further improves the success rate on bananas and potato chips.
  • the significant performance improvement on tofu cuboids and tofu cubes indicates that domain generalization extends the generalization ability of the estimated model 40.
  • the information processing that the CPU reads and executes the software may be executed by various processors other than the CPU.
  • processors in this case include PLDs (Programmable Logic Devices) such as FPGAs (Field-Programmable Gate Arrays) whose circuit configuration can be changed after manufacture, and dedicated electrical circuits such as ASICs (Application Specific Integrated Circuits), which are processors with circuit configurations designed specifically to execute specific processes.
  • Information processing may be executed by one of these various processors, or by a combination of two or more processors of the same or different types (e.g., multiple FPGAs, and a combination of a CPU and an FPGA).
  • the hardware structure of these various processors is, more specifically, an electrical circuit that combines circuit elements such as semiconductor elements.
  • the program is described as being pre-stored (installed) in ROM or storage, but this is not limiting.
  • the program may be provided in a form recorded on a non-transient recording medium such as a CD-ROM (Compact Disk Read Only Memory), a DVD-ROM (Digital Versatile Disk Read Only Memory), or a USB (Universal Serial Bus) memory.
  • the program may also be downloaded from an external device via a network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Manipulator (AREA)

Abstract

本開示の技術は、再利用可能な物体を用いてモデルを学習し、様々な脆弱物体の把持を可能とする。 制御装置は、再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する。

Description

制御装置、制御方法、及び制御プログラム
 本開示は、制御装置、制御方法、及び制御プログラムに関する。
 ロボットに設けられたグリッパを用いて、対象物に応じて把持力を制御して、対象物の把持を可能とする技術がある。
 例えば、特許文献1(特開2019-188587号公報)には、柔らかい対象物を把持する場合において、対象物を撮影して得られた画像データから対象物の面積を取得し、取得した面積に応じたエア圧を供給することによって、エア圧に応じて屈折するグリッパを制御してグリッパにおける把持部の間隔、又はグリッパにおける把持力を変化させるロボット制御装置について開示されている。
 しかしながら、対象物を把持するロボットは、柔らかい対象物を把持するために把持力の制御を行う、及び柔らかい対象物を把持するために専用のグリッパを設ける等、特定の対象物に応じて特化して構成されていることがある。
 また、対象物に応じて把持力の制御を行う場合において同一の対象物であっても(例えば、野菜及び果物等の熟成具合に応じて)対象物の柔軟性が異なることがある。
 そのため、専用の柔軟なグリッパなしに、破損を生じさせずに、様々な脆弱物体を把持できなかった。
 本開示の技術は、再利用可能な物体を用いてモデルを学習し、様々な脆弱物体の把持を可能とする制御装置、制御方法、及び制御プログラムを提供することを目的とする。
 上記目的を達成するために、本開示の第1態様に係る制御装置は、再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する。
 第2態様に係る制御装置において、前記推定モデルの学習は、前記物体の各々から取得した観測値の時系列データの検出結果を前記学習データとして用いて、時系列ネットワークを用いて推定モデルを事前学習し、前記時系列ネットワークのエンコーダの出力を圧縮した全結合層とし、メタ学習において、前記エンコーダのパラメータを固定して前記全結合層のパラメータを更新する。
 第3態様に係る制御装置において、前記再利用可能な複数の物体として、組み立て直しにより再利用可能な2種以上のブロック、加熱による膨張で形状を戻すことで再利用可能なピンポン玉、加熱して冷やすことにより再利用可能なゼリーを少なくとも用い、前記観測値を前記学習データとして取得する。
 第4態様に係る制御装置において、前記2種以上のブロックは、種類ごとにそれぞれ異なる複数の形状について、前記学習データとして収集する。
 上記目的を達成するために、本開示に係る制御方法は、再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する、処理をコンピュータが実行する。
 上記目的を達成するために、本開示に係る制御プログラムは、再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する、処理をコンピュータに実行させる。
 本開示によれば、再利用可能な物体を用いてモデルを学習し、様々な脆弱物体の把持を可能とする。
図1は、再利用可能な複数の物体の一例である。 図2は、本実施形態に係るロボットシステムの構成図である。 図3は、制御装置30に関する機能的な構成図である。 図4は、複数の物体について取得した接触力の時系列データの例である。 図4は、複数の物体について取得した接触力の時系列データの例である。 図6は、推定した接触力の時系列データの一例を示すグラフである。 図7は、エンコーダ・デコーダモデルの一例を示す模式図である。 図8は、制御装置のハードウェア構成を示すブロック図である。 図9は、制御装置による推定モデルを学習する処理の流れを示すフローチャートである。 図10は、実験に用いた実ロボットである。 図11は、再利用可能な物体をそれぞれ把持した際の実ロボットである。 図12は、食品をそれぞれ把持した際の実ロボットである。 図13は、ピッキング成功時のスナップショットを示し、ロボットがどのように食品をピッキングしたかを確認した図である。 図14は、実験に用いたおもちゃのブロックの各形状を示す図である。 図15は、実験に用いたおもちゃのブロックの各形状を示す図である。
 以下、本開示の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一または等価な構成要素および部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
 まず、本実施形態の概要を説明する。食品は壊れやすいため、ロボットによるピッキングは容易ではない。そのため、食品の物理的特性をプリセットしても、カテゴリ内外の多様性のため、ロボットの制御には有効ではなかった。本出願の発明者らの先行研究では、触覚センサを用いた学習型の破断予測によってこの問題の一部を克服できている。しかし、先行研究の方法では、物体の破断体験によって食品のピッキングを実現できることを明らかにしたが、この方法では、カテゴリ内差異に対応するために食品ごとにモデルを学習させていた。そのため、モデルの学習には、食品ごとにモデルを調整し、カテゴリ内の多くの食品を破断することが必要となり、望ましくない量の食品消費を招くことになる。さらに、学習に必要な食品の消費は、経済的にも環境的にも好ましくない。
 そこで本実施形態では、食品を消費することなく食品採取タスクを学習するための新しいフレームワークを提案する。本実施形態では、ロボットに複数の未知の食品カテゴリを把持させるために、そのカテゴリの食品を大量に消費して学習させたカテゴリ特化型モデルを用いない手法を提案する。本実施形態の方法はカテゴリに特化したモデルを想定している。本実施形態の提案手法では、食品を用いずに、何度も再利用可能な壊れやすい非食品を用いてモデルを学習し、学習データ集合を得る。このとき、対象となる食品と同様の壊れやすい非食品オブジェクトを見つけることができると仮定する。
 また、キーとなるアイデアは、ドメイン汎化(DG)によりピッキング能力を物体不変にしながら、実際の食品を消費する代わりに、いくつかの再利用可能な壊れやすい物体の物体破壊経験を活用することである。また、再利用可能な非食品オブジェクトとターゲットとなる実食品オブジェクトの間のギャップを補うために、メタ学習を用いたドメイン汎化の技術を採用できる。ドメイン汎化は多様な学習データの助けを借りてモデルの汎化能力を最大化するので、ネットワークは追加の学習なしに未見の食品物体の破壊を予測することができ、仮定が現実のものとなる。
 本実施形態では、3つの典型的な破壊タイプ(亀裂、破裂、粉砕)により選択された再利用可能な複数の物体を用いてモデルを学習させた。また、本実施形態の手法のテストでは、4つのカテゴリの実食品物体を用いてモデルをテストしている。テスト用の未知の食品物体としては、豆腐、バナナ、ポテトチップス、トマトを選択した。テストの結果、再利用可能な物体の破壊経験とドメイン汎化の組み合わせにより、ロボットの食品ピッキング作業に有効であることが示された。
 本実施形態の再利用可能な複数の物体(以下、単に物体とも表記する)としては、例として、ゼリー、2種類のおもちゃのブロック(以下、単にブロックとも表記する)、ピンポン玉を用いた。図1は、再利用可能な複数の物体の一例である。図1では、再利用可能な複数の物体を、(a1)破断時と(a2)再生時とを比較して並べており、(ob1)はゼリー、(ob2)及び(ob3)はブロック、(ob4)はピンポン玉である。学習用の物体は、ブロックを組み替えたり、ピンポン玉を加熱したり、ゼリーを溶かして冷やす、等、物体の種類に応じた再生処置を行うことで簡単に再利用できるように形状を復元できる。2種以上のブロックは、組み立て直しにより再利用可能である。ピンポン玉は、加熱による膨張で形状を戻すことで再利用可能である。ゼリーは、加熱して冷やすことにより再利用可能である。
(ロボットシステム10に係る構成)
 次に、本実施形態のロボットシステムの構成を説明する。図2は、本実施形態に係るロボットシステム10の構成図である。図2に示すように、ロボットシステム10は、ロボット20、及び制御装置30を備える。ロボットシステム10は、本実施形態では、物体Tをピッキングするピッキング装置として機能する。なお、後述する推定モデルの学習においては、物体Tは、上述した再利用可能な複数の物体を用いる。
 ロボット20は、ピッキング動作を行う際の運動制御の対象である機構部分としてのロボットアームARと、ロボットアームARの先端に取り付けられたグリッパGRと、を含む。
 グリッパGRは、対象物の一例としての物体Tを把持する2つの指F1、及び指F2を備える。なお、本実施形態では指の数が2つの場合について説明するが、指の数は2つに限られるものではなく、3つ以上の指を備えてもよい。また、指F1、F2は、本実施形態では一例として板状の部材で構成されるが、指F1、及び指F2の形状はこれに限られるものではない。
 また、グリッパGRは、指F1、及び指F2のうち少なくとも1つの指を駆動指として駆動するモータMを備える。モータMは、リニアガイドLGと接続されている。リニアガイドLGは、モータMの回転運動を直線運動に変換する変換機構を含む。ここで、グリッパGR、指F1、及び指F2は、エンドエフェクタが一例である
 指F1、及び指F2は、リニアガイドLGに取り付けられている。リニアガイドLGは、モータMによって駆動され、モータMのZ軸を回転軸とした回転運動をX軸方向の直線運動に変換する。
 具体的には、例えばモータMが正転した場合は、リニアガイドLGは、指F1、及び指F2を閉じる方向、すなわち物体Tを把持する方向に駆動する。一方、モータMが逆転した場合は、リニアガイドLGは、指F1、及び指F2を開く方向、すなわち物体Tを放す方向に駆動する。なお、本実施形態では、モータMが回転すると、指F1、及び指F2が同時に駆動される構成の場合について説明するが、指F1、及び指F2のうち何れかの指のみが駆動される構成としてもよい。すなわち、本実施形態では、駆動指が指F1、及び指F2の両方の場合について説明するが、駆動指が指F1、及び指F2の一方のみでもよい。
 また、グリッパGRは、モータMを駆動するモータ駆動部21を備える(図2参照)。モータ駆動部21は、後述する制御部35から停止する指示を受信するまでモータMを等速度で駆動する。
 また、指F1、及び指F2の把持面には、触覚センサS1、及び触覚センサS2が各々設けられている。触覚センサS1、及び触覚センサS2は、指F1、及び指F2が物体Tを把持したときに触覚センサS1、及び触覚センサS2が物体Tから受ける接触力を検出する。
 なお、本実施形態に係る触覚センサSは、分布型触覚センサである形態について説明するが、これに限定されない。触覚センサSは、単点型の触覚センサであってもよい。また、本実施形態では、指F1、及び指F2の両方に触覚センサSが設けられた構成、すなわち指F1、及び指F2の両方が触覚指である場合について説明するが、これに限定されない。本実施形態は、指F1、及び指F2の何れか一方にのみ触覚センサSが設けられた構成としてもよい。
 ここで、接触力とは、把持力の反力であり、把持力と向きが反対で大きさは同じである。また、把持力とは、駆動指又は触覚指が物体Tに加える力である。なお、本実施形態では、物体Tを把持せずに指F1、及び指F2同士が直接接触して互いに他方の指に力を加えている場合に他方の指に加える力も把持力と称する。また、把持力は指F1、及び指F2の各々に発生するが、重力の影響を考えない場合は、指F1、及び指F2の把持力は互いに反対向きで同じ大きさとなる。
 ロボット20は、一例として自由度が6の垂直多関節ロボット、水平多関節ロボット等が用いられるが、ロボットの自由度及び種類はこれらに限られるものではない。
(制御装置30に係る構成)
 制御装置30は、ロボット20を制御する。一例として図3に示すように、制御装置30は、機能的には、取得部31、記憶部32、学習部33、推定部34、及び制御部35を備えている。また、推定部34には、破損が生じる時期を推定するための機械学習が行われた推定モデル40が格納される。また、学習部33において、学習用の対象を再利用可能な複数の物体Tを用いてとして、推定モデル40の学習を行う。
 取得部31は、触覚センサS1、及び触覚センサS2を用いて、複数の物体Tの各々から、当該物体Tから受ける接触力を予め定められた期間毎に取得する。
 記憶部32は、検出結果として、ロボット20の稼働毎に取得部31が取得した接触力を記憶する。なお、接触力の検出結果は、グリッパGRによって、物体Tの各々を破壊及び変形等の破損させた際に得られた接触力の時系列データの各々である。ここで、検出結果は、「作用結果」の一例であり、物体Tを破壊及び変形等の破損は、「所定の作用」の一例である。
 図4及び図5に、複数の物体Tについて取得した接触力の時系列データを例示する。図4及び図5に、ロボット20が、(上)食品を壊すとき、(下)再利用可能な物体を壊すとき、の触覚信号の時系列データを示す。横軸は時間、縦軸は3軸の力信号のノルムを示す。時系列データでは、最初の力のピーク(破線)の時刻を破壊時と定義する。(fd1)は豆腐、(fd2)はバナナ、(fd3)はポテトチップス、(fd4)はトマトの時系列データである。また、上下に並べた接触力は対比関係にある。(ob1)のゼリーは豆腐、(ob2)のブロックはバナナ、(ob3)のブロックはポテトチップス、(ob2)のピンポン玉はトマト、に類似する波形の時系列データとなっている。このように、食品の破壊時の波形に類似する時系列データを、再利用可能な物体から取得することにより、様々な食品に対応できる学習データを取得できる。
 推定モデル40が推定する接触力について例示する。図6は、推定した接触力の時系列データの一例を示すグラフである。一例として、図6に示すように、入力データとして、現時点tまでの期間wに取得した接触力が入力された場合、推定モデル40は、現時点tからδ秒後に得られる接触力(以下、「推定接触力」という。)xtδ、及び物体Tの状態yを推定する。tδは先読みの目標時間である。物体Tの状態は、物体Tに破損が生じるか否かである。また、以下では、推定接触力xtδが得られる現時点tからδ秒後の時期を「所定の時期」とする。なお、入力ウィンドウXtw:tは時間軸に沿ってスライドし、^ytδを予測する。予測値のyはT-m≦tδのとき真である。ここでmはピーク前の実際の破断点をカバーすべき安全マージンを表す。
 ロボットは破壊の前に停止しなければならない。このため、ロボットはタイムステップT-mでグリッパGRを閉じるのを停止する。ここで、Tはピーク時間、mは破断タイミングをカバーすべき安全マージンである。すなわち、T-mからTの間に破断が発生すると仮定する。入力観測の最初のタイムステップをt=t-wとし、破断予測の目標タイムステップをtδ=t+δとする。そして、破壊予測問題は、ytδ=f(Xtw:t)として定式化され、ここで、Xtw:t={xtw,...,x}は触覚センサSからの観測値のシーケンスであり、ytδは2値である。ロボットが破断タイミングを超えたかどうかを示す値は、T-m≦tδならば真、そうでなければ偽である。ytδが真のとき、ロボットはグリッパGRを閉じるのを止める。
 学習部33は、学習フェーズにおいて、記憶部32に記憶されている物体Tの各々の検出結果を用いて、破損が生じる時期を推定するための機械学習を行った推定モデル40を学習する。具体的には、学習部33は、検出結果から時系列特徴を検出し、当該時系列特徴が生じる時期を学習させ、推定モデル40を生成する。時系列特徴は、物体Tに破損が生じる、接触力が所定の閾値を超えた後に、最初に検出されたピーク値である。ここで、本実施形態では、複数の触覚センサSを用いていることから複数の検出結果を取得可能である。また、分布型触覚センサは、1回の稼働において複数の接触力を検出可能である。すなわち、学習部33は、1回の稼働において取得した複数の検出結果を用いて、機械学習を実行可能である。
 例えば、学習部33は、学習データとして、再利用可能な複数の物体の接触力の時系列データ(観測値の時系列データ)を用いる。接触力の時系列データは、所定の期間における複数の接触力、所定の期間からδ秒後の接触力、及び物体Tに対する接触力のピーク値(教師信号)を、学習データとする。学習部33は、学習データを用いて機械学習を実行し、推定モデル40を生成する。ここで、本実施形態では、以下に説明するように、機械学習において、段階的に学習を行い、推定モデル40を学習する。学習部33では、推定モデル40を一度事前学習し、中間層の一部についてドメイン汎化により更新することで学習する。
 推定モデル40は、エンコーダ・デコーダモデルを用いた時系列ネットワークであるLSTM(Long Short-Term Memory)を用いる。LSTMは、一例として図7に示すように、入力層、中間層(隠れ層)、及び出力層を備え、中間層において、処理済みのデータを異なるノード41に伝搬して処理を行う。また、エンコーダ・デコーダモデルは、中間層において、入力されたデータから特徴を抽出して予め定められた次元のベクトルに圧縮するエンコード処理と、圧縮された圧縮データに含まれる特徴を復号するデコード処理と、を行う。エンコーダの出力をztとし、ztの圧縮データを全結合層Mとする。エンコーダ・デコーダモデルである推定モデル40は、過去の所定の期間における接触力を用いて、所定の時期における接触力、及び物体Tの状態の判定を推定して出力する。
 ここで、学習部33は、学習データを入力として、エンコーダ・デコーダを事前学習し、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、全結合層Mを再学習する。ここでメタ学習によるドメイン汎化に対応した機械学習手法は、参考文献1のMAML、MLDGの手法を適用する。
[参考文献1]Li, D., Yang, Y., Song, Y. Z., & Hospedales, T. (2018, April). Learning to generalize: Meta-learning for domain generalization. In Proceedings of the AAAI conference on artificial intelligence(Vol. 32, No. 1).
 効率的かつ効果的に推定モデル40を学習するために、まず、すべての学習データでモデル全体(EとM)を事前学習する。ここでは、エンコーダをE、全結合層をMとする。その後、Eのパラメータを固定して、全結合層MのパラメータのみをMLDGを用いて更新する。なお、評価段階では、事前学習されたモデル(メタ学習前のモデル)をベースラインとして採用することに留意する。
 MLDGのメタ学習では、学習対象を以下(1)式のmeta-trainと、(2)式のmeta-testに分割する。ソースドメインをS、ターゲットドメインをTとする。ターゲットドメインTは未知の想定である。また、meta-trainでは、ソースドメインSは、仮想テストドメインとしてS-Vに分割される。学習は、ラベルyに関し、予測された数値の間の損失関数l(^y,y)を想定する。メタ学習によるオーバーフィッティングを避けるため、損失関数lでモデル全体を一度事前学習させている。また、(3)式のようにパラメータΘを更新することで、全結合層Mを更新する。

                                   ・・・(1)

                                   ・・・(2)

                                   ・・・(3)
 次に、推定モデル40による推定態様の一例を説明する。具体的には、推定モデル40は、入力された複数の接触力を用いて、物体Tから受ける接触力を推定して接触力のピーク値xtpを特定する。推定モデル40は、特定した接触力のピーク値xtpが生じる時期tpを特定し、特定した時期tpを基点として、予め定められたマージンmの範囲を設定する。推定モデル40は、推定接触力xtδが得られる所定の時期tδが、時期tpを基点としたマージンmの範囲に含まれている場合、破損が生じると判定する。換言すると、推定モデル40は、上述の通りT-m≦tδを満たす場合、所定の時期tδに破損が生じる(y=1)と判定し、満たさない場合、所定の時期tδに破損が生じない(y=0)と判定する。
 なお、マージンmは、予め定められている形態について説明した。しかし、これに限定されない。物体Tに応じて、マージンmを設定してもよい。例えば、物体Tの質量を計測し、質量に応じて、マージンmを設定してもよいし、物体Tに超音波を射出して得られた結果から密度を算出し、密度に応じてマージンmを設定してもよい。また、物体Tを撮影した画像から物体Tの大きさ、及び材質を推定し、推定した大きさ、及び材質に応じて、マージンmを設定してもよい。ここで、物体Tの質量、密度、大きさ、及び材質は、特徴量の一例である。
 また、実施形態では、分布型触覚センサである触覚センサS1、及び触覚センサS2を用いているため、1つの物体Tから複数の接触力が得られる。そのため、推定モデル40は、複数の接触力の各々から、それぞれ接触力が閾値を超えた後に最初に検出されたピーク値xtpを推定する。推定モデル40は、推定した複数の接触力のピーク値xtpのうち、最初に検出されたピーク値xtpを用いて、物体Tの状態を判定できる。
 推定部34は、取得部31が取得した所定の期間における接触力を推定モデル40に入力して、物体Tの状態(所定の時期に破損が生じるか否か)の判定を行う。
 制御部35は、推定部34によって、所定の時期に破損が生じると判定された場合、モータ駆動部21にモータMを停止する指示を送信して、物体Tに生じる把持力を制御する。
 次に、図8を参照して、制御装置30のハードウェア構成について説明する。図8は、制御装置30のハードウェア構成を示すブロック図である。
 図8に示すように、制御装置30は、CPU(Central Processing Unit)30A、ROM(Read Only Memory)30B、RAM(Random Access Memory)30C、ストレージ30D、入力部30E、モニタ30F、通信インタフェース(I/F)30Gを有する。各構成は、バス30Hを介して相互に通信可能に接続されている。
 ストレージ30Dには、制御プログラムが格納されている。CPU30Aは、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、CPU30Aは、ストレージ30Dからプログラムを読み出し、RAM30Cを作業領域としてプログラムを実行する。CPU30Aは、ストレージ30Dに記録されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。
 ROM30Bは、各種プログラム及び各種データを格納する。RAM30Cは、作業領域として一時的にプログラム又はデータを記憶する。ストレージ30Dは、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
 入力部30Eは、キーボード、及びマウス等のポインティングデバイスを含み、各種の
入力を行うために使用される。モニタ30Fは、例えば、液晶ディスプレイであり、対象の物体Tの把持状態等の各種の情報を表示する。モニタ30Fは、タッチパネル方式を採用して、入力部30Eとして機能してもよい。
 通信I/F30Gは、他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI又はWi-Fi(登録商標)等の規格が用いられる。
 図2に示した制御装置30の各機能構成は、CPU30Aがストレージ30Dに記憶された制御プログラムを読み出し、RAM30Cに展開して実行することにより実現される。
 本実施形態の制御装置30は、再利用可能な複数の物体を用いて、物体の各々の所定の破断過程における観測値の時系列データを学習データとして取得する。また、制御装置30は、学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する。
 次に、図9及び図10を参照して、制御装置30の作用について説明する。
 図9は、制御装置30による推定モデル40を学習する処理の流れを示すフローチャートである。ユーザーが入力部30Eを操作してモデル生成処理の実行を指示すると、CPU30Aがストレージ30Dから制御プログラムを読み出して、RAM30Cに展開し実行することにより、制御方法としてのモデル学習処理が実行される。
 ステップS100において、CPU30Aは、検出の対象の再利用可能な物体を設定する。なお、物体の入れ替えは手作業で行われるが、自動化してもよい。
 ステップS102において、CPU30Aは、ロボット20に対象の再利用可能な物体を把持させ、接触を制御する。
 ステップS104において、CPU30Aは、対象の再利用可能な物体の接触力の検出結果を取得する。
 ステップS106において、CPU30Aは、全ての再利用可能な物体について検出を終了したか否かを判定する。検出を終了した場合にはステップS108へ移行し、検出を終了していない場合にはステップS100へ戻って次の対象の再利用可能な物体を設定し、検出を繰り返す。
 ステップS108において、CPU30Aは、再利用可能な物体の各々から検出した検出結果を学習データとして用いて、推定モデル40を事前学習する。
 ステップS110において、CPU30Aは、事前学習した推定モデル40の全結合層Mを入力として、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、全結合層Mを再学習する。
 ステップS112において、CPU30Aは、最終的な学習結果として得られた推定モデル40を保存する。
 以上、本開示の実施形態に係る制御装置30は、再利用可能な物体を用いてモデルを学習し、様々な脆弱物体の把持を可能とすることができる。
(実験例)
 提案した本実施形態の学習手法を検証するため、実ロボットによるフードピッキングの実演を行い、実際の食品を用いたフードピッキングの成功率を評価した。図10は、実験に用いた実ロボットである。図11は、再利用可能な物体をそれぞれ把持した際の実ロボットである。図12は、食品をそれぞれ把持した際の実ロボットである。
 ピッキング対象には、物性のカテゴリ間多様性を維持するために、豆腐、ポテトチップス、トマト、バナナを選択した。4つの食品について、それぞれ20回ずつ把持試行を行い、実験を行った。本実施形態で学習した推定モデル40を用いた提案手法と、ベースライン(メタ学習前の推定モデル)とを比較し、メタ学習の効果を検証した。
 この実験では、同じ初期位置、同じ姿勢で配置することを目指したが、手作業で行ったため、自然なばらつきも含む。食品の形状とポーズについて、より詳しく説明する。豆腐は、高さ(20~30mm)と奥行き(15~20mm)は同じだが、幅が異なる(それぞれ40mmと20mm)立方体と立方体の2種類の形状を用意した。なお、幅×奥行きの面は常に地面を向き、奥行き×高さの面はグリッパに接触している。ポテトチップスについては、上向きに凹んだポーズで配置した。バナナは、厚みが約7~15mmの輪切りになるように形状を固定した。丸い面が正面を向くように(つまり、グリッパが側面に接触するように)配置した。最後に、トマトはヘタ側が後ろに向くように置いた。ただし、ヘタはあらかじめ取り除いておいた。なお、トマトは丸いため少し傾いている場合もあった。これにより、豆腐キューボイド、豆腐キューブ、バナナ、ポテトチップス、トマトの5種類の食品について実験を行った。
 図13は、ピッキング成功時のスナップショットを示し、ロボットがどのように食品をピッキングしたかを確認した図である。ロボットがグリッパを閉じるのを止め、破断することなく、対象物をつまんでいることがわかる。
 表1は、5種類の食品に対して、ベースラインと提案手法で行ったピッキングの性能を示したものである。
 実験では、対象物がつぶれたり、割れたり、破れたりすることなくつまむことができた場合のみ成功とし、そうでない場合は失敗とカウントした。なお、実験を通して、失敗のパターンのほとんどは破断によるものであり、ロボットがグリッパを早期に停止させることはなかった。
 ベースラインモデルは、バナナ、トマト、ポテトチップスで良好な性能を発揮した。これは、再利用可能なオブジェクトの多様性が、すでにそれらの食品オブジェクトをうまくカバーしていることを示している。ここで、提案手法のドメイン汎化は、バナナとポテトチップスの成功率をさらに向上させていることがわかる。豆腐キューボイドと豆腐キューブで大幅に性能が向上したことは、ドメイン汎化によって推定モデル40の汎化能力が拡張されたことを示すものである。
 なお、実験では推定モデル40の学習には、2種類のおもちゃのブロック、ピンポン玉、ゼリーについて、それぞれ52個、52個、49個の破損体験を収集した。すなわち、合計205個の時間配列となった。収集したおもちゃのブロックの破損体験は、おもちゃのブロック1(ob2)が5形状、おもちゃのブロック2(ob3)が4形状として、種類ごとに異なる複数の形状で構成し、学習データとして収集した。図14及び図15は、実験に用いたおもちゃのブロックの各形状を示す図である。このように、おもちゃのブロックの形を変えることで、カテゴリ内差もカバーできる学習が期待できる。
 なお、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した情報処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、情報処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
 また、上記各実施形態では、プログラムがROMまたはストレージに予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
 2023年3月1日に出願された日本国特許出願2023-031440号、及び2023年6月6日に出願された日本国特許出願2023-093498号の開示は、その全体が参照により本明細書に取り込まれる。本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
10 ロボットシステム
20 ロボット
21 モータ駆動部
30 制御装置
31 取得部
32 記憶部
33 学習部
34 推定部
35 制御部
40 推定モデル
T  (再利用可能な)物体

Claims (6)

  1.  再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、
     前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する、
     制御装置。
  2.  前記推定モデルの学習は、前記物体の各々から取得した観測値の時系列データの検出結果を前記学習データとして用いて、時系列ネットワークを用いて推定モデルを事前学習し、前記時系列ネットワークのエンコーダの出力を圧縮した全結合層とし、メタ学習において、前記エンコーダのパラメータを固定して前記全結合層のパラメータを更新する、請求項1に記載の制御装置。
  3.  前記再利用可能な複数の物体として、組み立て直しにより再利用可能な2種以上のブロック、加熱による膨張で形状を戻すことで再利用可能なピンポン玉、加熱して冷やすことにより再利用可能なゼリーを少なくとも用い、前記観測値を前記学習データとして取得する、請求項1に記載の制御装置。
  4.  前記2種以上のブロックは、種類ごとにそれぞれ異なる複数の形状について、前記学習データとして収集する、請求項3に記載の制御装置。
  5.  再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、
     前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する、
     処理をコンピュータが実行する制御方法。
  6.  再利用可能な複数の物体を用いて、前記物体の各々の所定の破断過程における観測値を学習データとして取得し、
     前記学習データを用いて、メタ学習によるドメイン汎化に対応した機械学習手法を適用し、対象物に所定の作用が生じるタイミングを推定するための推定モデルを学習する、
     処理をコンピュータに実行させる制御プログラム。
PCT/JP2024/006796 2023-03-01 2024-02-26 制御装置、制御方法、及び制御プログラム WO2024181354A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2023031440 2023-03-01
JP2023-031440 2023-03-01
JP2023093498A JP2024124290A (ja) 2023-03-01 2023-06-06 制御装置、制御方法、及び制御プログラム
JP2023-093498 2023-06-06

Publications (1)

Publication Number Publication Date
WO2024181354A1 true WO2024181354A1 (ja) 2024-09-06

Family

ID=92590580

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2024/006796 WO2024181354A1 (ja) 2023-03-01 2024-02-26 制御装置、制御方法、及び制御プログラム

Country Status (1)

Country Link
WO (1) WO2024181354A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049904A (ja) * 2017-09-11 2019-03-28 国立大学法人信州大学 操作方法生成システム
JP2022082464A (ja) * 2020-11-20 2022-06-01 ネイバー コーポレーション ロボットの変換器を基盤としたメタ模倣学習

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049904A (ja) * 2017-09-11 2019-03-28 国立大学法人信州大学 操作方法生成システム
JP2022082464A (ja) * 2020-11-20 2022-06-01 ネイバー コーポレーション ロボットの変換器を基盤としたメタ模倣学習

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISHIKAWA REINA, HAMAYA MASASHI, VON DRIGALSKI FELIX, TANAKA KAZUTOSHI, HASHIMOTO ATSUSHI: "Learning by Breaking: Food Fracture Anticipation for Robotic Food Manipulation", IEEE ACCESS, IEEE, USA, vol. 10, 16 February 2022 (2022-02-16), USA , pages 99321 - 99329, XP093206176, ISSN: 2169-3536, DOI: 10.1109/ACCESS.2022.3207491 *

Similar Documents

Publication Publication Date Title
Su et al. Force estimation and slip detection/classification for grip control using a biomimetic tactile sensor
Golz et al. Using tactile sensation for learning contact knowledge: Discriminate collision from physical interaction
Li et al. Learning hierarchical control for robust in-hand manipulation
Zimmer et al. Predicting grasp success with a soft sensing skin and shape-memory actuated gripper
Sievers et al. Learning purely tactile in-hand manipulation with a torque-controlled hand
Mohammed et al. Pick and place objects in a cluttered scene using deep reinforcement learning
Ishikawa et al. Learning by breaking: food fracture anticipation for robotic food manipulation
WO2024181354A1 (ja) 制御装置、制御方法、及び制御プログラム
US20130035792A1 (en) Method and system for controlling a dexterous robot execution sequence using state classification
Fazeli et al. Empirical evaluation of common contact models for planar impact
Vu et al. A model of four-finger gripper with a built-in vacuum suction nozzle for harvesting tomatoes
JP2024124290A (ja) 制御装置、制御方法、及び制御プログラム
Dikshit et al. Robochop: Autonomous framework for fruit and vegetable chopping leveraging foundational models
Lee et al. Toward vision-based high sampling interaction force estimation with master position and orientation for teleoperation
Lee et al. Learning robot tactile sensing of object for shape recognition using multi-fingered robot hands
Yagawa et al. Learning Food Picking without Food: Fracture Anticipation by Breaking Reusable Fragile Objects
Ali et al. Design and development of smart gripper with vision sensor for industrial applications
EP4212291A1 (en) Robot system and picking method
Zhang et al. Big-Net: Deep learning for grasping with a bio-inspired soft gripper
Lee et al. Zero-shot sim-to-real transfer with modular priors
US9613180B1 (en) Robotic control device and method for manipulating a hand-held tool
CN114952836A (zh) 多指手机器人抓取方法、装置与机器人系统
JP7547871B2 (ja) 学習装置、学習方法、学習プログラム、制御装置、制御方法、及び制御プログラム
Sullivan et al. Using a rigid gripper on objects of different compliance underwater
Rogalla et al. A sensor fusion approach for PbD

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 24763834

Country of ref document: EP

Kind code of ref document: A1