WO2022009859A1

WO2022009859A1 - Dispositif d'apprentissage par renforcement, système d'apprentissage par renforcement, dispositif de manipulation d'objet, procédé de génération de modèle et programme d'apprentissage par renforcement

Info

Publication number: WO2022009859A1
Application number: PCT/JP2021/025392
Authority: WO
Inventors: 康博藤田
Original assignee: 株式会社Preferred Networks
Priority date: 2020-07-10
Filing date: 2021-07-06
Publication date: 2022-01-13
Also published as: JP2023145809A

Abstract

L'invention concerne un dispositif d'apprentissage par renforcement, un système d'apprentissage par renforcement, un dispositif de manipulation d'objet, un procédé de génération de modèle et un programme d'apprentissage par renforcement, la probabilité de réussite d'une manipulation prescrite sur un objet pouvant être augmentée. Ce dispositif d'apprentissage par renforcement présente au moins une mémoire et au moins un processeur, l'au moins un processeur étant configuré de manière à pouvoir : entrer des informations relatives à une image capturée capturée par un dispositif d'imagerie qui change dans au moins une position ou une orientation de celui-ci, et des informations concernant une image d'objet cible indiquant un objet devant être manipulé par un effecteur terminal, dans un modèle d'apprentissage qui délivre des informations destinées à commander le fonctionnement de l'effecteur terminal; et la mise à jour d'un paramètre du modèle d'apprentissage sur la base du résultat de manipulation de l'objet pour un cas où le fonctionnement de l'effecteur d'extrémité est commandé sur la base des informations délivrées par le modèle d'apprentissage.