WO2023213402A1

WO2023213402A1 - Systèmes d'apprentissage par renforcement à multiples agents

Info

Publication number: WO2023213402A1
Application number: PCT/EP2022/062169
Authority: WO
Inventors: David MGUNI; Taher JAFFERJEE
Original assignee: Huawei Technologies Co., Ltd.
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2023-11-09

Abstract

La présente approche implique un procédé d'entraînement d'un premier agent d'apprentissage automatique dans une plateforme d'apprentissage par renforcement à multiples agents. La plateforme comprend une pluralité d'autres agents d'apprentissage automatique mettant chacun en œuvre leur propre politique respective. Le procédé comprend la détermination d'une pluralité d'actions conjointes, chacune comprenant une combinaison différente d'actions respectives à prendre par chaque agent de la pluralité d'agents d'apprentissage automatique sur la base de leurs politiques respectives, et le calcul, sur la base de la pluralité d'actions conjointes déterminées et d'une action du premier agent d'apprentissage automatique, de la fonction de valeur moyenne de l'action du premier agent d'apprentissage automatique.