WO2022239878A1 - 로봇의 파지 방법 및 로봇의 파지를 위한 학습 방법 - Google Patents

로봇의 파지 방법 및 로봇의 파지를 위한 학습 방법 Download PDF

Info

Publication number
WO2022239878A1
WO2022239878A1 PCT/KR2021/005797 KR2021005797W WO2022239878A1 WO 2022239878 A1 WO2022239878 A1 WO 2022239878A1 KR 2021005797 W KR2021005797 W KR 2021005797W WO 2022239878 A1 WO2022239878 A1 WO 2022239878A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
separation
gripping
target
robot
Prior art date
Application number
PCT/KR2021/005797
Other languages
English (en)
French (fr)
Inventor
서일홍
박영빈
김태원
박예성
Original Assignee
코가플렉스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코가플렉스 주식회사 filed Critical 코가플렉스 주식회사
Priority to PCT/KR2021/005797 priority Critical patent/WO2022239878A1/ko
Publication of WO2022239878A1 publication Critical patent/WO2022239878A1/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J15/00Gripping heads and other end effectors
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls

Definitions

  • the present invention relates to a robot gripping method and a robot gripping learning method, and more particularly, to a robot gripping method capable of providing a more improved gripping success rate and a robot gripping learning method.
  • AlphaGo is an artificial intelligence Go program developed by Google that learned Go through deep reinforcement learning.
  • Deep reinforcement learning is a machine learning method that combines deep learning and reinforcement learning.
  • Deep learning is a machine learning method using an artificial neural network that mimics the function of a nerve cell. Reinforcement learning is when an agent takes an action in a given environment and receives a reward way to learn
  • Google developed an algorithm called Qt-Opt that can generate continuous actions by extending the Deep Q-Network (DQN), a representative algorithm of this reinforcement learning method, and showed a high success rate of about 80% for unknown objects.
  • DQN Deep Q-Network
  • this method requires about 100 times the amount of computation to generate a single action compared to general policy/value network-based reinforcement learning methods. Therefore, it is impossible to generate a robot's gripping motion using the Qt-Opt algorithm unless it is hardware that provides powerful computing power, such as TPU (Tensor Process Unit) introduced by Google.
  • TPU Tinsor Process Unit
  • the policy/value network-based reinforcement learning method requires a small amount of computation but has a low grasping success rate, whereas the Qt-Opt algorithm can provide a high grasping success rate, but has a problem requiring a high amount of computation. have.
  • An object of the present invention is to provide a robot gripping method and a robot gripping learning method capable of providing a high gripping success rate compared to the amount of computation.
  • the step of receiving a work space image including an end effector of the robot and at least one gripping object generating a separation image in which regions other than a target region including the end effector and a target gripping object are removed from the workspace image according to a level selected from among a plurality of separation levels; and determining a gripping posture of the end effector with respect to the target gripping object by using the separated image and a pre-learned first artificial neural network.
  • receiving a training image including an end effector of the robot and at least one gripping object generating a separation image in which regions other than a target region including the end effector and a target gripping object are removed from the training image according to a level selected from among a plurality of separation levels; and learning a gripping posture of the end effector for the target gripping object included in the separated image based on an artificial neural network.
  • the gripping success rate of the robot can be improved by increasing the learning efficiency.
  • a high success rate of gripping can be provided without a rapid increase in the amount of calculation by using a separation image generated from a training image.
  • FIG. 1 is a diagram for explaining a learning method for gripping a robot according to an embodiment of the present invention.
  • FIGS. 2 and 3 are views for explaining a learning method for gripping a robot according to another embodiment of the present invention.
  • FIG. 4 is a diagram for explaining a method for holding a robot according to an embodiment of the present invention.
  • FIG. 5 is a diagram for explaining the gripping success rate according to an embodiment of the present invention.
  • FIG. 1 is a diagram for explaining a learning method for gripping a robot according to an embodiment of the present invention, and is a diagram showing an artificial neural network used for learning.
  • the learning method according to an embodiment of the present invention may be performed in a computing device including a processor and memory, and a desktop, laptop, server, mobile terminal, or a separate learning-only device may be included in the computing device.
  • a computing device uses a first artificial neural network 110 to generate an end effector of a robot for a gripping object included in a training image. learning the gripping posture of
  • the first artificial neural network 110 may be a policy/value network used for reinforcement learning, and depending on an embodiment, a neural network used for supervised learning may also be included in the first artificial neural network.
  • the gripping posture may correspond to a joint angle of the robot or a control value for an actuator.
  • the first artificial neural network 110 includes a first convolution layer 111 and a fully connected layer 113, and a training image is input to the first convolution layer 111.
  • the training image may be an image including an end effector of the robot and gripping objects disposed in the workspace, and may be captured at a position higher than the end effector to include the end effector and gripping objects.
  • the weights of the first convolutional layer 111 and the fully connected layer 113 are learned. For example, when the end effector takes the second posture with respect to the target gripping object in the current first posture, a large reward is provided if the distance between the end effector and the target gripping object is short, and the robot is in the current third posture, the target gripping object A small compensation may be provided if the distance between the end effector and the target object is large when the fourth posture is taken. And the weights are learned so that a large reward can be provided.
  • the second artificial neural network 120 is a neural network including a second convolutional layer having the same structure as the first convolutional layer 111, and the computing device learns the second artificial neural network 120 in advance using training images. .
  • parameters of the second convolutional layer obtained through the learning process are used as parameters of the first convolutional layer 111 . That is, a parameter of the second convolution layer is provided as a parameter of the first convolution layer 111, and the parameter here may be a weight of a filter used for convolution.
  • learning of the first convolutional layer 111 is first performed on the second artificial neural network 120 without simultaneously learning the first convolutional layer 111 and the fully connected layer 113. done through After learning of the first convolutional layer 111 is performed, learning of the fully connected layer 113 is performed.
  • the second artificial neural network 120 may be a neural network used for state representation learning and may include an encoding network 121 and a decoding network 123 .
  • the encoding network 121 includes a second convolutional layer, and generates feature values of an input image using the second convolutional layer.
  • the decoding network includes a deconvolution layer and uses the deconvolution layer to reconstruct an input image from feature values generated by the encoding network 121 .
  • the second artificial neural network 120 is trained so that a training image, which is an input image, can be well restored, and weights of the second convolution layer and the deconvolution layer are determined through this learning process.
  • the computing device performs primary learning on the second artificial neural network and allocates parameters of the second convolution layer obtained through the primary learning process to the first convolution layer. Further, learning efficiency may be increased by performing secondary learning on a fully-connected layer of the first artificial neural network to which parameters of the second convolutional layer are allocated.
  • FIG. 2 and 3 are diagrams for explaining a learning method for gripping a robot according to another embodiment of the present invention.
  • FIG. 2 shows a training image
  • FIG. 3 shows a split image.
  • training images are preprocessed and used.
  • the training image 200 includes the end effector 210 and gripping objects disposed in the workspace 220. As shown in FIG. 2, when various gripping objects are included, learning efficiency may decrease.
  • a separation image is generated from the training image 200 according to a level selected from among a plurality of separation levels, and the second artificial neural network is trained using the separation image.
  • the split image is an image from which regions other than the target region including the end effector 210 and the target gripping object 230 are removed from the training image 200 .
  • the target gripping object 230 may be designated by a user in the training image 200 .
  • An embodiment of the present invention uses a separate image, which is an image in which an end effector, which is an object used for actual learning, and a target gripping object are separated from other objects in order to increase learning efficiency.
  • the separation image may be generated in various forms according to the separation level, and the size of the separation image generated at this time may be the same as that of the training image 200 .
  • the separation level may include first to third separation levels L1 to L3, and the first separation level L1 is obtained by deleting a region other than the target region from the training image 200. This is the level at which the first split image 311 is created. That is, when the first separation level L1 is selected, the computing device generates the first separation image 311 by removing regions other than the target region from the training image 200 .
  • the second separation level L2 is a level at which the second separation image 312 including the end effector 210 of the target area and the third separation image 313 including the target gripping object 230 of the target area are generated. to be. That is, when the second separation level L2 is selected, the computing device generates the second separation image 312 by removing regions other than the region including the end effector 210 from the training image 200, and training A third split image 313 is generated by removing an area other than the area including the target gripping object 230 from the dragon image 200 .
  • the third separation level L3 includes the second separation image 312, the third separation image 313, and the fourth separation image 314 including position information of the end effector 210 in the training image 200. and a level at which a fifth separated image 315 including positional information of the target gripping object 230 in the training image 200 is generated. That is, when the third separation level L3 is selected, the computing device generates the second and third separation images 312 and 313 like the second separation level L2, but the end effector and the target gripping object Fourth and fifth separated images 314 and 315 including location information are additionally generated.
  • the location information of the end effector and target gripping object is processed in black and white in the training image 200 where the end effector and target gripping object are located. can be created
  • the computing device operates on the end effector 210 Alternatively, second and third separated images 322 and 323 in which the target gripping object 230 is located in the center may be generated. And, like the third split image 323 , the computing device may generate the third split image 323 by enlarging the target gripping object rather than the target gripping object in the training image 200 . According to an embodiment, the computing device may generate a third separation image in which the target gripping object is enlarged according to the size of the target gripping object 230 in the training image 200, and the size of the target gripping object may be determined in advance. When the size is greater than the set threshold size, a third split image may be generated without enlargement.
  • the computing device may generate a separated image by selecting one of the first to third separation levels L1 to L3 in a direction in which the amount of calculation may be reduced while increasing the gripping success rate.
  • the separation image is generated according to the third separation level (L3), the gripping success rate may increase, but the amount of calculation increases. can also be lowered.
  • the computing device may select one of the first to third separation levels L1 to L3 according to any one of the number, size, and shape of gripping objects disposed in the work space. If the number of gripping objects placed in the workspace is large, small in size, or has a complex shape, it is difficult to accurately learn the feature values of the gripping objects through the convolution layer. this can be created.
  • the third separation level (L3 ) it is possible to unnecessarily increase the amount of calculation, so it is preferable to generate the separation image according to the first or second separation level (L1 or L2).
  • the computing device may generate a separated image by selecting one of the second and third separation levels L2 and L3 according to the texture of the target gripping object. For example, when a target gripping object is designed with a colorful pattern or is made of a material exhibiting a unique texture, the computing device may generate a separated image according to the third separation level L3. Conversely, when the target gripping object is designed in a single color without any special design or is made of a material with a smooth texture, the computing device may generate a separated image according to the second separation level L2.
  • the separated image thus generated is input to the second artificial neural network for state expression learning and used for learning the second artificial neural network, and the parameters of the second convolution layer of the second artificial neural network obtained through the learning process are: It can be provided as an artificial neural network. Alternatively, according to embodiments, the separated image may be input to the first artificial neural network and used for learning of the first artificial neural network.
  • the computing device generates a separation image from the input training image according to the selected separation level, and based on the artificial neural network, the end effector's gripping posture for the target gripping object included in the separation image. to learn
  • FIG. 4 is a diagram for explaining a method for holding a robot according to an embodiment of the present invention.
  • a method for holding a robot may include a processor and a memory in a computing device, and the computing device may be mounted on the robot or located outside the robot.
  • the gripping posture obtained by being performed by a computing device located outside the robot may be provided to the robot.
  • the computing device receives (S410), that is, receives an image of a workspace including an end effector of the robot and at least one gripping object.
  • the work space image which corresponds to the aforementioned training image, may be captured at a position higher than the end effector so that the end effector and gripping objects in the work space are included.
  • the computing device generates a separation image in which regions other than the target region including the end effector and the target gripping object are removed from the workspace image according to a level selected from among a plurality of separation levels (S420).
  • the size of the separation image may be the same as the size of the workspace image, and the target gripping object may be designated by a user in the workspace image or through object recognition.
  • the plurality of separation levels may include a first separation level in which a first separation image in which regions other than the target region are deleted is generated from the workspace image. It may also include a second separation level in which a second separation image including the end effector of the target area and a third separation image including the target gripping object of the target area are generated. In addition, the second separation image, the third separation image, the fourth separation image including position information of the end effector in the workspace image, and the fifth separation image including position information of the target gripping object in the workspace image are generated. A third separation level may be included. Depending on embodiments, some but not all of the first to third isolation levels may be selectively used.
  • step S420 the computing device selects one of the first to third separation levels according to any one of the number, size, and shape of the gripping objects arranged in the workspace, or selects the second and second separation levels according to the texture of the target gripping object. You can select one of three isolation levels.
  • the computing device may generate a second separation image or a third separation image in which the end effector or the target gripping object is located in the center.
  • the computing device may generate a third separation image in which the target gripping object is enlarged according to the size of the target gripping object in the workspace image.
  • the target gripping object may be enlarged to generate a third separation image. An image can be created.
  • the size and texture of the target gripping object may be analyzed in the workspace image.
  • the computing device determines the gripping posture of the end effector by using the separated image generated in step S420 and the first artificial neural network trained in advance (S430).
  • the computing device may output a joint angle of the robot or a control value for the actuator as information indicating the gripping posture of the end effector.
  • the first artificial neural network may be a policy/value network used for reinforcement learning learned by the learning method described in FIGS. 1 to 3, and generates feature values for the separated images using the first convolutional layer.
  • parameters of the first convolutional layer may be provided from the second convolutional layer of the second artificial neural network that has been trained in advance.
  • the second artificial neural network may be a neural network used for state expression learning, and may include an encoding network generating feature values of an input image using a second convolutional layer; and a decoding network for restoring an input image from feature values generated by the encoding network using a deconvolution layer.
  • FIG. 5 is a diagram for explaining the gripping success rate according to an embodiment of the present invention.
  • FIG. 5 is a diagram showing the grab success rate according to the results of reinforcement learning using an artificial neural network used for state expression learning and a policy value network, where L0 is the grab success rate according to the learning result without using a separate image.
  • L1 to L3 represent the success rate of gripping according to the result learned through the separation images according to the first to third separation levels, respectively.
  • Figures 5 (a) to 5 (c) show the success rate of gripping according to the learning results using different state representation learning methods.
  • Fig. 5 (a) is Spatial Auto Encoder (SAE)
  • Fig. 5 (b) is Variational Auto Encoder (VAE)
  • Fig. 5 (c) is gripping according to the state representation learning method called Forward Model + Auto Encoder (FM + AE). represents the success rate.
  • SAE Spatial Auto Encoder
  • VAE Variational Auto Encoder
  • FM + AE Forward Model + Auto Encoder
  • the retention success rate by learning using the separation images according to the second separation level and the third separation level is very high compared to the case of using the first separation level or not using the separation image. It is high, and it can be seen that it increases as the number of training steps increases.
  • a high success rate of gripping can be provided by using a separation image generated from a training image.
  • the generation of the separation image is a task that does not require a large amount of computation, and according to an embodiment of the present invention, a high success rate of gripping can be provided without a rapid increase in the amount of computation, and a high success rate of gripping can be provided compared to the amount of computation. .
  • the technical contents described above may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program commands recorded on the medium may be specially designed and configured for the embodiments or may be known and usable to those skilled in computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like.
  • Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler.
  • a hardware device may be configured to act as one or more software modules to perform the operations of the embodiments and vice versa.

Abstract

보다 향상된 파지 성공률을 제공할 수 있는 로봇의 파지 방법 및 이를 위한 학습 방법이 개시된다. 개시된 로봇의 파지 방법은 로봇의 엔드 이펙터 및 적어도 하나의 파지 물체를 포함하는 작업 공간 영상을 입력받는 단계; 복수의 분리 레벨 중에서 선택된 레벨에 따라서, 상기 작업 공간 영상으로부터 상기 엔드 이펙터 및 타겟 파지 물체가 포함된 타겟 영역 이외의 영역이 제거된 분리 영상을 생성하는 단계; 및 상기 분리 영상 및 미리 학습된 제1인공 신경망을 이용하여, 상기 타겟 파지 물체에 대한 상기 엔드 이펙터의 파지 자세를 결정하는 단계를 포함한다.

Description

로봇의 파지 방법 및 로봇의 파지를 위한 학습 방법
본 발명은 로봇의 파지 방법 및 로봇의 파지를 위한 학습 방법에 관한 발명으로서, 더욱 상세하게는 보다 향상된 파지 성공률을 제공할 수 있는 로봇의 파지 방법 및 로봇의 파지를 위한 학습 방법에 관한 것이다.
최근 알파고(AlphaGo)가 프로 바둑 기사에게 승리한 사건이 굉장한 이슈가 되었다. 알파고는 구글이 개발한 인공지능 바둑 프로그램으로서, 심층 강화 학습을 통해 바둑을 학습한 프로그램이다. 심층 강화 학습이란, 심층 학습(Deep learning)과 강화 학습 Reinforcement learning)이 결합한 형태의 기계 학습 방법이다.
심층 학습이란, 신경 세포의 기능을 모방한 인공 신경망을 이용한 기계 학습 방법이며, 강화 학습이란, 에이전트(agent)가 주어진 환경(environment)에 대해 어떠한 행동을 취하고 이로부터 어떠한 보상(reward)를 얻으면서 학습하는 방법이다.
심층 강화 학습으로 파지 동작과 같은 연속 행동을 수행하는 연구는 크게 두 가지로 나누어진다. 하나는 정책/가치망 기반의 강화 학습 방법(Actor-Critic RL)으로서, 대표적으로 DDPG, D4PG등이 있다. 이러한 알고리즘이 높은 성능을 나타내는 경우의 대부분은, 고차원의 영상을 입력으로 하는 경우가 아니라 사람이 설계한 저차원의 특징을 입력으로 할 경우이다. 고차원의 영상을 입력으로 하는 경우의 파지 성공률은 10~20%에 불과하다.
또 하나는 바둑이나 게임 등과 같은 이산 행동 생성 분야에 이용되는 가치망 기반 강화 학습 방법(Value-based RL)이다. 구글은 이러한 강화 학습 방법의 대표적 알고리즘인 Deep Q-Network(DQN)을 확장하여, 연속 행동 생성이 가능한 Qt-Opt라는 알고리즘을 개발하였으며, 모르는 물체에 대해서 80%정도의 높은 파지 성공률을 나타내었다. 하지만 이 방법의 경우, 일반적인 정책/가치망 기반 강화 학습 방법에 비해서, 한번의 행동을 생성하는데 100배 정도의 연산량을 필요로 한다. 따라서 구글에서 선보인 TPU(Tensor Process Unit)와 같이, 강력한 컴퓨팅 파워를 제공하는 하드웨어가 아닌 이상, Qt-Opt 알고리즘을 이용해 로봇의 파지 동작을 생성하는 것은 불가능하다.
이와 같이, 정책/가치망 기반의 강화 학습 방법은 적은 연산량을 필요로하지만 파지 성공률이 낮은 편인데 반해, Qt-Opt 알고리즘은, 높은 파지 성공률을 제공할 수 있지만, 높은 연산량을 필요로 하는 문제가 있다.
따라서 높은 파지 성공률을 제공하면서, 연산량을 줄일 수 있는 학습 방법에 대한 개발이 필요하다.
본 발명은 연산량 대비 높은 파지 성공률을 제공할 수 있는 로봇의 파지 방법 및 로봇의 파지를 위한 학습 방법을 제공하기 위한 것이다.
상기한 목적을 달성하기 위한 본 발명의 일 실시예에 따르면, 로봇의 엔드 이펙터 및 적어도 하나의 파지 물체를 포함하는 작업 공간 영상을 입력받는 단계; 복수의 분리 레벨 중에서 선택된 레벨에 따라서, 상기 작업 공간 영상으로부터 상기 엔드 이펙터 및 타겟 파지 물체가 포함된 타겟 영역 이외의 영역이 제거된 분리 영상을 생성하는 단계; 및 상기 분리 영상 및 미리 학습된 제1인공 신경망을 이용하여, 상기 타겟 파지 물체에 대한 상기 엔드 이펙터의 파지 자세를 결정하는 단계를 포함하는 로봇의 파지 방법이 제공된다.
또한 상기한 목적을 달성하기 위한 본 발명의 다른 실시예에 따르면, 로봇의 엔드 이펙터 및 적어도 하나의 파지 물체를 포함하는 훈련용 영상을 입력받는 단계; 복수의 분리 레벨 중에서 선택된 레벨에 따라서, 상기 훈련용 영상으로부터 상기 엔드 이펙터 및 타겟 파지 물체가 포함된 타겟 영역 이외의 영역이 제거된 분리 영상을 생성하는 단계; 및 인공 신경망 기반으로, 상기 분리 영상에 포함된 상기 타겟 파지 물체에 대한 상기 엔드 이펙터의 파지 자세를 학습하는 단계를 포함하는 로봇의 파지를 위한 학습 방법이 제공된다.
본 발명의 일실시예에 따르면, 학습 효율이 증가함으로써, 로봇의 파지 성공률이 향상될 수 있다.
또한, 본 발명의 일실시예에 따르면, 훈련 영상으로부터 생성된 분리 영상을 이용함으로써, 연산량의 급격한 증가없이도 높은 파지 성공률을 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 로봇의 파지를 위한 학습 방법을 설명하기 위한 도면이다.
도 2 및 도 3은 본 발명의 다른 실시예에 따른 따른 로봇의 파지를 위한 학습 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 로봇의 파지 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예에 따른 파지 성공률을 설명하기 위한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 로봇의 파지를 위한 학습 방법을 설명하기 위한 도면으로서, 학습에 이용되는 인공 신경망을 나타내는 도면이다.
본 발명의 일실시예에 따른 학습 방법은 프로세서 및 메모리를 포함하는 컴퓨팅 장치에서 수행될 수 있으며, 데스크탑, 노트북, 서버, 모바일 단말이나 별도의 학습 전용 장치가 컴퓨팅 장체에 포함될 수 있다.
도 1을 참조하면, 본 발명의 일실시예에 따른 컴퓨팅 장치는 제1인공 신경망(110)을 이용하여, 훈련용 영상(training image)에 포함된 파지 물체에 대한 로봇의 엔드 이펙터(end effector)의 파지 자세를 학습한다. 일실시예로서, 제1인공 신경망(110)은 강화 학습에 이용되는 정책/가치망일 수 있으며, 실시예에 따라서는 감독 학습에 이용되는 신경망도 제1인공 신경망에 포함될 수 있다. 또한 파지 자세는 로봇의 관절각이나 또는 엑츄에이터에 대한 제어값에 대응될 수 있다.
제1인공 신경망(110)은, 제1컨벌루션 레이어(convolution layer, 111) 및 완전 연결 레이어(fully connected layer, 113)를 포함하며, 제1컨벌루션 레이어(111)로 훈련용 영상이 입력된다. 훈련용 영상은 로봇의 엔드 이펙터와, 작업 공간에 배치된 파지 물체들이 포함된 영상일 수 있으며, 엔드 이펙터보다 높은 위치에서, 엔드 이펙터와 파지 물체들이 포함되도록 촬영될 수 있다.
강화 학습 과정을 통해, 제1컨벌루션 레이어(111)의 가중치와 완전 연결 레이어(113)의 가중치가 학습된다. 예컨대, 엔드 이펙터가 현재 제1자세에서, 타겟 파지 물체에 대해 제2자세를 취했을 때 엔드 이펙터와 타겟 파지 물체의 거리가 가까우면 큰 보상이 제공되고, 로봇이 현재 제3자세에서, 타겟 파지 물체에 대해 제4자세를 취했을 때 엔드 이펙터와 타겟 물체의 거리가 멀면 작은 보상이 제공될 수 있다. 그리고 큰 보상이 제공될 수 있도록, 가중치가 학습된다.
다만, 제1컨벌루션 레이어(111)와 완전 연결 레이어(113)의 학습이 동시에 이루어질 경우, 학습 효율이 저하될 수 있으므로, 본 발명의 일실시예에 따른 컴퓨팅 장치는 제2인공 신경망(120)을 추가로 이용하여, 학습을 수행한다. 제2인공 신경망(120)은 제1컨벌루션 레이어(111)와 동일한 구조의 제2컨벌루션 레이어를 포함하는 신경망으로서, 컴퓨팅 장치는 훈련용 영상을 이용하여, 제2인공 신경망(120)을 미리 학습한다. 그리고 학습 과정을 통해 획득된 제2컨벌루션 레이어의 파라미터를 제1컨벌루션 레이어(111)의 파라미터로 이용한다. 즉, 제2컨벌루션 레이어의 파라미터가 제1컨벌루션 레이어(111)의 파리미터로 제공되며, 여기서 파라미터는 컨벌루션에 이용되는 필터의 가중치일 수 있다.
즉, 본 발명의 일실시예는 제1컨벌루션 레이어(111)와 완전 연결 레이어(113)의 학습을 동시에 수행하지 않고, 먼저 제1컨벌루션 레이어(111)에 대한 학습을 제2인공 신경망(120)을 통해 수행한다. 그리고 제1컨벌루션 레이어(111)에 대한 학습이 수행된 이후, 완전 연결 레이어(113)에 대한 학습을 수행하는 것이다.
일실시예로서, 제2인공 신경망(120)은 상태 표현 학습(State Representation Learning)에 이용되는 신경망일 수 있으며, 인코딩 네트워크(121)와 디코딩 네트워크(123)를 포함할 수 있다.
인코딩 네트워크(121)는 제2컨벌루션 레이어를 포함하며, 제2컨벌루션 레이어를 이용하여, 입력 영상의 특징값을 생성한다. 디코딩 네트워크는 디컨벌루션 레이어를 포함하며, 디컨벌루션 레이어를 이용하여, 인코딩 네트워크(121)에서 생성된 특징값으로부터 입력 영상을 복원한다.
제2인공 신경망(120)은 입력 영상인 훈련용 영상이 잘 복원될 수 있도록 학습되며, 이러한 학습 과정을 통해 제2컨벌루션 레이어 및 디컨벌루션 레이어의 가중치가 결정된다.
이와 같이 본 발명의 일실시예에 따른 컴퓨팅 장치는 제2인공 신경망에 대한 1차 학습을 수행하고, 1차 학습 과정을 통해 획득된 제2컨벌루션 레이어의 파라미터를 제1컨벌루션 레이어에 할당한다. 그리고 제2컨벌루션 레이어의 파라미터가 할당된 제1인공 신경망 중 완전 연결 레이어에 대한 2차 학습을 수행함으로써, 학습 효율을 높일 수 있다.
도 2 및 도 3은 본 발명의 다른 실시예에 따른 따른 로봇의 파지를 위한 학습 방법을 설명하기 위한 도면으로서, 도 2는 훈련용 영상을 나타내며, 도 3은 분리 영상을 나타내는 도면이다.
본 발명의 일실시예는, 학습 효율을 더욱 높이기 위해, 훈련용 영상을 전처리하여 이용한다. 훈련용 영상(200)에는 엔드 이펙터(210)와, 작업 공간(220)에 배치된 파지 물체가 포함되는데, 도 2에 도시된 바와 같이, 다양한 파지 물체가 포함될 경우, 학습 효율이 낮아질 수 있기 때문에, 본 발명의 일실시예는 복수의 분리 레벨 중에서 선택된 레벨에 따라서, 훈련용 영상(200)으로부터 분리 영상을 생성하고 이러한 분리 영상을 이용하여, 제2인공 신경망에 대한 학습을 수행한다.
분리 영상은, 훈련용 영상(200)에서, 엔드 이펙터(210)와 타겟 파지 물체(230)가 포함된 타겟 영역 이외의 영역이 제거된 영상이다. 타겟 파지 물체(230)는 훈련용 영상(200)에서, 사용자에 의해 지정될 수 있다.
본 발명의 일실시예는 학습 효율을 높이기 위해, 실제 학습에 이용되는 객체인 엔드 이펙터와 타겟 파지 물체가 나머지 객체들과 분리된 상태의 영상인 분리 영상을 이용한다. 이러한 분리 영상은 분리 레벨에 따라서, 다양한 형태로 생성될 수 있으며, 이 때 생성되는 분리 영상의 사이즈는 훈련용 영상(200)과 동일할 수 있다.
분리 레벨은 일실시예로서, 제1 내지 제3분리 레벨(L1 내지 L3)을 포함할 수 있으며, 제1분리 레벨(L1)은 훈련용 영상(200)으로부터, 타겟 영역 이외의 영역이 삭제된 제1분리 영상(311)이 생성되는 레벨이다. 즉, 컴퓨팅 장치는 제1분리 레벨(L1)이 선택된 경우, 훈련용 영상(200)에서 타겟 영역 이외의 영역을 제거하여, 제1분리 영상(311)을 생성한다.
제2분리 레벨(L2)은 타겟 영역의 엔드 이펙터(210)가 포함된 제2분리 영상(312) 및 타겟 영역의 타겟 파지 물체(230)가 포함된 제3분리 영상(313)이 생성되는 레벨이다. 즉, 컴퓨팅 장치는 제2분리 레벨(L2)이 선택된 경우, 훈련용 영상(200)에서 엔드 이펙터(210)가 포함된 영역 이외의 영역을 제거하여 제2분리 영상(312)을 생성하고, 훈련용 영상(200)에서 타겟 파지 물체(230)가 포함된 영역 이외의 영역을 제거하여, 제3분리 영상(313)을 생성한다.
제3분리 레벨(L3)은 제2분리 영상(312), 제3분리 영상(313), 훈련용 영상(200)에서의 엔드 이펙터(210)의 위치 정보가 포함된 제4분리 영상(314) 및 훈련용 영상(200)에서의 타겟 파지 물체(230)의 위치 정보가 포함된 제5분리 영상(315)이 생성되는 레벨이다. 즉, 컴퓨팅 장치는, 제3분리 레벨(L3)이 선택된 경우, 제2분리 레벨(L2)과 같이, 제2 및 제3분리 영상(312, 313)을 생성하되, 엔드 이펙터 및 타겟 파지 물체의 위치 정보가 포함된 제4 및 제5분리 영상(314, 315)을 추가로 생성한다.
엔드 이펙터 및 타겟 파지 물체의 위치 정보는 제4 및 제5분리 영상(314, 315)에 표시된 바와 같이, 훈련용 영상(200)에서 엔드 이펙터 및 타겟 파지 물체가 위치한 영역이 흑백으로 처리된 형태로 생성될 수 있다.
제3분리 레벨(L3)에서는, 제4 및 제5분리 영상(314, 315)에 엔드 이펙터(210) 및 타겟 파지 물체(230)의 위치 정보가 포함되기 때문에, 컴퓨팅 장치는 엔드 이펙터(210) 또는 타겟 파지 물체(230)가 중앙에 위치하는 제2 및 제3분리 영상(322, 323)을 생성할 수 있다. 그리고 컴퓨팅 장치는 제3분리 영상(323)과 같이, 훈련용 영상(200)에서의 타겟 파지 물체보다, 타겟 파지 물체를 확대하여 제3분리 영상(323)을 생성할 수 있다. 실시예에 따라서, 컴퓨팅 장치는 훈련용 영상(200)에서의 타겟 파지 물체(230)의 크기에 따라서, 타겟 파지 물체가 확대된 제3분리 영상을 생성할 수 있으며, 타겟 파지 물체의 크기가 미리 설정된 임계 크기보다 클 경우에는 확대없이 제3분리 영상을 생성할 수 있다.
본 발명의 일실시예에 따른 컴퓨팅 장치는 파지 성공률이 높아지면서도 연산량이 줄어들 수 있는 방향으로, 제1 내지 제3분리 레벨(L1 내지 L3) 중 하나를 선택하여, 분리 영상을 생성할 수 있다. 제3분리 레벨(L3)에 따라 분리 영상이 생성될 경우, 파지 성공률은 높아질 수 있지만 연산량이 증가하며, 제1분리 레벨(L1)에 따라 분리 영상이 생성될 경우 연산량은 낮아질 수 있지만, 파지 성공률 역시 낮아질 수 있다.
컴퓨팅 장치는 일실시예로서, 작업 공간에 배치된 파지 물체의 개수, 크기 및 형상 중 어느 하나에 따라서, 제1 내지 제3분리 레벨(L1 내지 L3) 중 하나를 선택할 수 있다. 작업 공간에 배치된 파지 물체의 개수가 많거나 크기가 작거나 또는 형상이 복잡한 경우에는, 컨벌루션 레이어를 통해 파지 물체의 특징값이 정확하게 학습되기 어려우므로, 제3분리 레벨(L3)에 따라 분리 영상이 생성될 수 있다. 반대로 작업 공간에 배치된 파지 물체의 개수가 적거나 크기가 크거나 또는 형상이 단순한 경우에는, 컨벌루션 레이어를 통해 파지 물체의 특징값이 비교적 정확하게 학습될 수 있으며, 이러한 경우에도 제3분리 레벨(L3)에 따라 분리 영상을 생성하는 것은 불필요하게 연산량을 증가시킬 수 있으므로, 제1 또는 제2분리 레벨(L1 또는 L2)에 따라 분리 영상이 생성되는 것이 바람직하다.
또는 컴퓨팅 장치는 타겟 파지 물체의 텍스쳐에 따라서, 제2 및 제3분리 레벨(L2, L3) 중 하나를 선택하여, 분리 영상을 생성할 수 있다. 예컨대 타겟 파지 물체에 화려한 무늬가 디자인되어 있거나, 타겟 파지 물체가 독특한 질감을 나타내는 재질로 이루어진 경우에 컴퓨팅 장치는, 제3분리 레벨(L3)에 따라서 분리 영상을 생성할 수 있다. 반대로 타겟 파지 물체가 별다른 디자인없이 단일 색상으로 디자인되어 있거나, 매끈한 질감의 재질로 이루어진 경우에 컴퓨팅 장치는, 제2분리 레벨(L2)에 따라서 분리 영상을 생성할 수 있다.
이와 같이 생성된 분리 영상은, 상태 표현 학습을 위한 제2인공 신경망으로 입력되어 제2인공 신경망의 학습에 이용되며, 학습 과정을 통해 얻어진 제2인공 신경망의 제2컨벌루션 레이어의 파라미터는, 제1인공 신경망으로 제공될 수 있다. 또는 실시예에 따라서는, 분리 영상은 제1인공 신경망으로 입력되어 제1인공 신경망의 학습에 이용될 수 있다.
결국, 본 발명의 일실시예에 따른 컴퓨팅 장치는 선택된 분리 레벨에 따라서 입력된 훈련용 영상으로부터 분리 영상을 생성하고, 인공 신경망 기반으로, 분리 영상에 포함된 타겟 파지 물체에 대한 엔드 이펙터의 파지 자세를 학습한다.
도 4는 본 발명의 일실시예에 따른 로봇의 파지 방법을 설명하기 위한 도면이다.
본 발명의 일실시예에 따른 로봇의 파지 방법은, 프로세서 및 메모리를 컴퓨팅 장치에서 수행될 수 있으며, 이러한 컴퓨팅 장치는 로봇에 탑재되거나 또는 로봇의 외부에 위치할 수 있다. 로봇의 외부에 위치하는 컴퓨팅 장치에서 수행되어 획득된 파지 자세는 로봇으로 제공될 수 있다.
본 발명의 일실시예에 따른 컴퓨팅 장치는, 로봇의 엔드 이펙터 및 적어도 하나의 파지 물체를 포함하는 작업 공간 영상을 수신(S410) 즉, 입력받는다. 작업 공간 영상은, 전술된 훈련용 영상에 대응되는 영상으로서, 엔드 이펙터보다 높은 위치에서 엔드 이펙터와 작업 공간의 파지 물체들이 포함되도록 촬영될 수 있다.
그리고 컴퓨팅 장치는 복수의 분리 레벨 중에서 선택된 레벨에 따라서, 작업 공간 영상으로부터 엔드 이펙터 및 타겟 파지 물체가 포함된 타겟 영역 이외의 영역이 제거된 분리 영상을 생성(S420)한다. 분리 영상의 사이즈는 작업 공간 영상의 사이즈와 동일할 수 있으며, 타겟 파지 물체는 작업 공간 영상에서 사용자에 의해 지정되거나 객체 인식을 통해 지정될 수 있다.
복수의 분리 레벨은 일실시예로서, 작업 공간 영상으로부터, 타겟 영역 이외의 영역이 삭제된 제1분리 영상이 생성되는 제1분리 레벨을 포함할 수 있다. 또한 타겟 영역의 엔드 이펙터가 포함된 제2분리 영상 및 상기 타겟 영역의 타겟 파지 물체가 포함된 제3분리 영상이 생성되는 제2분리 레벨을 포함할 수 있다. 또한 제2분리 영상, 제3분리 영상, 작업 공간 영상에서의 엔드 이펙터의 위치 정보가 포함된 제4분리 영상 및 작업 공간 영상에서의 타겟 파지 물체의 위치 정보가 포함된 제5분리 영상이 생성되는 제3분리 레벨을 포함할 수 있다. 실시예에 따라서, 제1 내지 제3분리 레벨 모두가 아닌 일부가 선택적으로 이용될 수도 있다.
단계 S420에서 컴퓨팅 장치는 작업 공간에 배치된 파지 물체의 개수, 크기 및 형상 중 어느 하나에 따라서, 제1 내지 제3분리 레벨 중 하나를 선택하거나 또는 타겟 파지 물체의 텍스쳐에 따라서, 제2 및 제3분리 레벨 중 하나를 선택할 수 있다.
컴퓨팅 장치는 제3분리 레벨이 선택된 경우, 엔드 이펙터 또는 타겟 파지 물체가 중앙에 위치하는 제2분리 영상 또는 제3분리 영상을 생성할 수 있다.
또한 컴퓨팅 장치는 제3분리 레벨이 선택된 경우, 작업 공간 영상에서의 타겟 파지 물체의 크기에 따라서, 타겟 파지 물체가 확대된 제3분리 영상을 생성할 수 있다. 타겟 파지 물체의 크기가 임계 크기보다 작을 경우, 타겟 파지 물체가 확대되어 제3분리 영상이 생성될 수 있으며, 실시예에 따라서는 타겟 파지 물체의 크기에 상관없이 타겟 파지 물체가 확대되어 제3분리 영상이 생성될 수 있다.
다양한 영상 처리 알고리즘을 통해, 작업 공간 영상에서, 타겟 파지 물체의 크기, 텍스쳐 등이 분석될 수 있다.
본 발명의 일실시예에 따른 컴퓨팅 장치는 단계 S420에서 생성된 분리 영상 및 미리 학습된 제1인공 신경망을 이용하여, 엔드 이펙터의 파지 자세를 결정(S430)한다. 컴퓨팅 장치는 엔드 이펙터의 파지 자세를 나타내는 정보로서, 로봇의 관절각이나 또는 엑츄에이터에 대한 제어값을 출력할 수 있다.
제1인공 신경망은, 도 1 내지 도 3에서 설명된 학습 방법에 의해 학습된 강화 학습에 이용되는 정책/가치망일 수 있으며, 제1컨벌루션 레이어를 이용하여, 분리 영상에 대한 특징값을 생성한다. 이 때, 제1컨벌루션 레이어의 파라미터는 미리 학습된 제2인공 신경망의 제2컨벌루션 레이어로부터 제공될 수 있다.
제2인공 신경망은, 상태 표현 학습에 이용되는 신경망일 수 있으며, 제2컨벌루션 레이어를 이용하여 입력 영상의 특징값을 생성하는 인코딩 네트워크; 및 디컨벌루션 레이어를 이용하여, 인코딩 네트워크에서 생성된 특징값으로부터 입력 영상을 복원하는 디코딩 네트워크를 포함할 수 있다.
도 5는 본 발명의 일실시예에 따른 파지 성공률을 설명하기 위한 도면이다.
도 5는 상태 표현 학습에 이용되는 인공 신경망과, 정책 가치망을 이용한 강화 학습 결과에 따른 파지 성공률(Grasp Success Rate)을 나타내는 도면으로서, L0는 분리 영상이 이용되지 않은 학습 결과에 따른 파지 성공률을 나타낸다. 그리고 L1 내지 L3는 각각 제1 내지 제3분리 레벨에 따른 분리 영상을 통해 학습된 결과에 따른 파지 성공률을 나타낸다. 그리고 도 5(a) 내지 도 5(c)는 서로 다른 상태 표현 학습 방법을 이용한 학습 결과에 따른 파지 성공률을 나타낸다. 도 5(a)는 Spatial Auto Encoder(SAE), 도 5(b)는 Variational Auto Encoder(VAE), 도 5(c)는 Forward Model + Auto Encoder(FM+AE)라는 상태 표현 학습 방법에 따른 파지 성공률을 나타낸다.
도 5에 도시된 바와 같이, 제2분리 레벨 및 제3분리 레벨에 따른 분리 영상을 이용한 학습에 의한 파지 성공률이, 제1분리 레벨을 이용하거나, 분리 영상을 이용하지 않은 경우와 비교하여, 매우 높으며, 학습 횟수(Training step)가 증가할수록 높아짐을 알 수 있다.
본 발명의 일실시예에 따르면, 훈련 영상으로부터 생성된 분리 영상을 이용함으로써, 높은 파지 성공률을 제공할 수 있다.
그리고 분리 영상의 생성은, 많은 연산량을 필요로하지 않는 작업으로서, 본 발명의 일실시예에 따르면, 연산량의 급격한 증가없이도 높은 파지 성공률을 제공할 수 있으며, 연산량 대비 높은 파지 성공률을 제공할 수 있다.
앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (10)

  1. 로봇의 엔드 이펙터 및 적어도 하나의 파지 물체를 포함하는 작업 공간 영상을 입력받는 단계;
    복수의 분리 레벨 중에서 선택된 레벨에 따라서, 상기 작업 공간 영상으로부터 상기 엔드 이펙터 및 타겟 파지 물체가 포함된 타겟 영역 이외의 영역이 제거된 분리 영상을 생성하는 단계; 및
    상기 분리 영상 및 미리 학습된 제1인공 신경망을 이용하여, 상기 타겟 파지 물체에 대한 상기 엔드 이펙터의 파지 자세를 결정하는 단계
    를 포함하는 로봇의 파지 방법.
  2. 제 1항에 있어서,
    상기 복수의 분리 레벨은
    상기 작업 공간 영상으로부터, 상기 타겟 영역 이외의 영역이 삭제된 제1분리 영상이 생성되는 제1분리 레벨;
    상기 타겟 영역의 엔드 이펙터가 포함된 제2분리 영상 및 상기 타겟 영역의 타겟 파지 물체가 포함된 제3분리 영상이 생성되는 제2분리 레벨; 및
    상기 제2분리 영상, 상기 제3분리 영상, 상기 작업 공간 영상에서의 상기 엔드 이펙터의 위치 정보가 포함된 제4분리 영상 및 상기 작업 공간 영상에서의 상기 타겟 파지 물체의 위치 정보가 포함된 제5분리 영상이 생성되는 제3분리 레벨
    을 포함하는 로봇의 파지 방법.
  3. 제 2항에 있어서,
    상기 분리 영상의 사이즈는 상기 작업 공간 영상의 사이즈와 동일하며,
    상기 분리 영상을 생성하는 단계는
    상기 제3분리 레벨이 선택된 경우, 상기 타겟 파지 물체가 확대된 제3분리 영상을 생성하는
    로봇의 파지 방법.
  4. 제 2항에 있어서,
    상기 분리 영상의 사이즈는 상기 작업 공간 영상의 사이즈와 동일하며,
    상기 분리 영상을 생성하는 단계는
    상기 제3분리 레벨이 선택된 경우, 상기 작업 공간 영상에서의 상기 타겟 파지 물체의 크기에 따라서, 상기 타겟 파지 물체가 확대된 제3분리 영상을 생성하는
    로봇의 파지 방법.
  5. 제 2항에 있어서,
    상기 분리 영상을 생성하는 단계는
    상기 제3분리 레벨이 선택된 경우, 상기 엔드 이펙터 또는 상기 타겟 파지 물체가 중앙에 위치하는 상기 제2분리 영상 또는 제3분리 영상을 생성하는
    로봇의 파지 방법.
  6. 제 2항에 있어서,
    상기 분리 영상을 생성하는 단계는
    상기 타겟 파지 물체의 텍스쳐에 따라서, 상기 제2 및 제3분리 레벨 중 하나를 선택하는
    로봇의 파지 방법.
  7. 제 2항에 있어서,
    상기 분리 영상을 생성하는 단계는
    작업 공간에 배치된 상기 파지 물체의 개수, 크기 및 형상 중 어느 하나에 따라서, 상기 제1 내지 제3분리 레벨 중 하나를 선택하는
    로봇의 파지 방법.
  8. 제 1항에 있어서,
    상기 제1인공 신경망은, 제1컨벌루션 레이어를 이용하여, 상기 분리 영상에 대한 특징값을 생성하며,
    상기 제1컨벌루션 레이어의 파라미터는,
    미리 학습된 제2인공 신경망의 제2컨벌루션 레이어로부터 제공되는
    로봇의 파지 방법.
  9. 제 8항에 있어서,
    상기 제2인공 신경망은,
    상기 제2컨벌루션 레이어를 이용하여 입력 영상의 특징값을 생성하는 인코딩 네트워크; 및
    디컨벌루션 레이어를 이용하여, 상기 특징값으로부터 상기 입력 영상을 복원하는 디코딩 네트워크
    를 포함하는 로봇의 파지 방법.
  10. 로봇의 엔드 이펙터 및 적어도 하나의 파지 물체를 포함하는 훈련용 영상을 입력받는 단계;
    복수의 분리 레벨 중에서 선택된 레벨에 따라서, 상기 훈련용 영상으로부터 상기 엔드 이펙터 및 타겟 파지 물체가 포함된 타겟 영역 이외의 영역이 제거된 분리 영상을 생성하는 단계; 및
    인공 신경망 기반으로, 상기 분리 영상에 포함된 상기 타겟 파지 물체에 대한 상기 엔드 이펙터의 파지 자세를 학습하는 단계
    를 포함하는 로봇의 파지를 위한 학습 방법.
PCT/KR2021/005797 2021-05-10 2021-05-10 로봇의 파지 방법 및 로봇의 파지를 위한 학습 방법 WO2022239878A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/005797 WO2022239878A1 (ko) 2021-05-10 2021-05-10 로봇의 파지 방법 및 로봇의 파지를 위한 학습 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/005797 WO2022239878A1 (ko) 2021-05-10 2021-05-10 로봇의 파지 방법 및 로봇의 파지를 위한 학습 방법

Publications (1)

Publication Number Publication Date
WO2022239878A1 true WO2022239878A1 (ko) 2022-11-17

Family

ID=84028371

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/005797 WO2022239878A1 (ko) 2021-05-10 2021-05-10 로봇의 파지 방법 및 로봇의 파지를 위한 학습 방법

Country Status (1)

Country Link
WO (1) WO2022239878A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180114200A (ko) * 2016-03-03 2018-10-17 구글 엘엘씨 로봇 파지를 위한 심층 기계 학습 방법 및 장치
JP2019093461A (ja) * 2017-11-20 2019-06-20 株式会社安川電機 把持システム、学習装置、把持方法、及び、モデルの製造方法
KR20190113140A (ko) * 2018-03-27 2019-10-08 한국철도기술연구원 물류 센터의 피킹 자동화 시스템 및 이를 이용한 피킹 자동화 방법
JP2020015141A (ja) * 2018-07-26 2020-01-30 Ntn株式会社 把持装置
KR20200131671A (ko) * 2019-05-14 2020-11-24 주식회사 한화 로봇의 파지 자세 결정 방법
KR20210065827A (ko) * 2019-11-27 2021-06-04 코가플렉스 주식회사 로봇의 파지 방법 및 이를 위한 학습 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180114200A (ko) * 2016-03-03 2018-10-17 구글 엘엘씨 로봇 파지를 위한 심층 기계 학습 방법 및 장치
JP2019093461A (ja) * 2017-11-20 2019-06-20 株式会社安川電機 把持システム、学習装置、把持方法、及び、モデルの製造方法
KR20190113140A (ko) * 2018-03-27 2019-10-08 한국철도기술연구원 물류 센터의 피킹 자동화 시스템 및 이를 이용한 피킹 자동화 방법
JP2020015141A (ja) * 2018-07-26 2020-01-30 Ntn株式会社 把持装置
KR20200131671A (ko) * 2019-05-14 2020-11-24 주식회사 한화 로봇의 파지 자세 결정 방법
KR20210065827A (ko) * 2019-11-27 2021-06-04 코가플렉스 주식회사 로봇의 파지 방법 및 이를 위한 학습 방법

Similar Documents

Publication Publication Date Title
Kumra et al. Robotic grasp detection using deep convolutional neural networks
WO2019164237A1 (ko) 시스톨릭 배열을 이용하여 딥 러닝 연산을 수행하는 방법 및 장치
WO2019164250A1 (ko) 완전 연결 네트워크의 데이터 입력 및 출력을 제어하는 방법 및 장치
CN111300431B (zh) 面向跨场景的机器人视觉模仿学习方法及系统
WO2020231005A1 (ko) 영상 처리 장치 및 그 동작방법
WO2018212584A2 (ko) 딥 뉴럴 네트워크를 이용하여 문장이 속하는 클래스를 분류하는 방법 및 장치
Elfwing et al. Biologically inspired embodied evolution of survival
WO2022239878A1 (ko) 로봇의 파지 방법 및 로봇의 파지를 위한 학습 방법
WO2020096102A1 (ko) 인공지능 실행가속을 위한 인공지능 실행모델 설정방법 및 인공지능 실행가속시스템
Ito et al. Integrated learning of robot motion and sentences: Real-time prediction of grasping motion and attention based on language instructions
WO2023033194A1 (ko) 가지치기 기반 심층 신경망 경량화에 특화된 지식 증류 방법 및 시스템
JPH04213750A (ja) 層化されたニューラル・ネットワークでの分類方法
KR102423490B1 (ko) 로봇의 파지 방법 및 이를 위한 학습 방법
WO2023096133A1 (ko) 경량화된 자세 추정 모델 제공 장치 및 방법
WO2020101121A1 (ko) 딥러닝 기반의 영상분석 방법, 시스템 및 휴대 단말
WO2022035117A1 (ko) 인공 지능 피드백 방법 및 인공 지능 피드백 시스템
WO2022107925A1 (ko) 딥러닝 객체 검출 처리 장치
WO2022097855A1 (ko) 로봇의 파지를 위한 학습 방법 및 훈련 데이터 생성 방법
WO2022019566A1 (ko) 이미지 변환 성능 개선을 위한 시각화 맵 분석 방법
WO2020175729A1 (ko) 가우시안 특징점맵과 회귀 기법을 이용한 얼굴 특징점 검출 장치 및 방법
WO2021117921A1 (ko) 다중 계층을 포함하는 인공지능 모델의 계층별 추론 분류 성능 평가 방법 및 평가 장치
WO2021167257A1 (ko) Ppt 추천방법 및 그 장치
CN117772648B (zh) 基于具身智能的零件分拣处理方法、装置、设备及介质
WO2022102912A1 (ko) Snn 모델 파라미터를 기반으로 모델 수행을 위한 뉴로모픽 아키텍처 동적 선택 방법, 이를 수행하기 위한 기록 매체 및 장치
WO2022107951A1 (ko) 초경량 딥러닝 네트워크 학습 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21942026

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE