WO2024059285A1

WO2024059285A1 - Système(s) et procédé(s) d'utilisation d'approximation de valeur de clonage comportementale dans l'entraînement et l'affinage de politiques de commande robotique

Info

Publication number: WO2024059285A1
Application number: PCT/US2023/032900
Authority: WO
Inventors: Daniel Ho; Seyed Mohammad Khansari Zadeh; Cem GOKMEN
Original assignee: Google Llc
Priority date: 2022-09-15
Filing date: 2023-09-15
Publication date: 2024-03-21

Abstract

Des modes de réalisation de la présente invention concernent l'entraînement et le raffinage de modèles de réseau neuronal de défaillance (NN) et de politiques de commande robotique en utilisant des techniques d'apprentissage par imitation. Un modèle de NN de défaillance et une politique de commande robotique peuvent initialement être entraînés sur la base de démonstrations humaines de diverses tâches robotiques. Dans de nombreux modes de réalisation, une instance de données de vision capturant l'environnement du robot peut être traitée en utilisant un modèle d'incorporation pour générer une incorporation. L'incorporation donnée peut être traitée en utilisant le modèle de NN de défaillance pour générer une sortie de défaillance indiquant la probabilité que le robot échoue à achever la tâche robotique. Dans divers modes de réalisation, l'incorporation donnée peut également être traitée en utilisant la politique de commande robotique pour générer une sortie d'action destinée à être utilisée dans la commande du robot dans l'accomplissement de la tâche robotique.