WO2023217027A1

WO2023217027A1 - Procédé et appareil d'optimisation de politique utilisant un modèle d'environnement basé sur un réseau de memristances

Info

Publication number: WO2023217027A1
Application number: PCT/CN2023/092475
Authority: WO
Inventors: 高滨; 林钰登; 唐建石; 吴华强; 张清天; 钱鹤
Original assignee: 清华大学
Priority date: 2022-05-09
Filing date: 2023-05-06
Publication date: 2023-11-16
Also published as: CN114819093A

Abstract

L'invention concerne un procédé et un appareil d'optimisation de politique utilisant un modèle d'environnement dynamique basé sur un réseau de memristances. Le procédé consiste : à acquérir un modèle d'environnement dynamique basé sur un réseau de memristances ; à effectuer une prédiction de multiples fois à une pluralité de moments selon le modèle d'environnement dynamique et une politique d'objet de façon à obtenir un ensemble d'échantillons de données, qui comprend des coûts d'optimisation de la politique d'objet correspondant à la pluralité de moments ; et, sur la base de l'ensemble d'échantillons de données, à effectuer une recherche de politique en utilisant un algorithme d'optimisation de gradient de politique de façon à optimiser la politique d'objet. Dans le procédé, un ensemble d'échantillons de données est généré en utilisant un modèle d'environnement dynamique basé sur un réseau de memristances, une planification dynamique à long terme basée sur le modèle d'environnement dynamique est réalisée et une recherche de politique est ensuite effectuée en utilisant un algorithme plus stable tel qu'un algorithme d'optimisation de gradient de politique, de telle sorte qu'une politique d'objet puisse être efficacement optimisée.