WO2018212918A1

WO2018212918A1 - Architecture de récompense hybride pour apprentissage par renforcement

Info

Publication number: WO2018212918A1
Application number: PCT/US2018/028743
Authority: WO
Inventors: Harm Hendrik Van Seijen; Seyed Mehdi FATEMI BOOSHEHRI; Romain Michel Henri Laroche; Joshua Samuel Romoff
Original assignee: Microsoft Technology Licensing, Llc
Priority date: 2017-05-18
Filing date: 2018-04-21
Publication date: 2018-11-22
Also published as: EP3625731A1

Abstract

Des aspects de la présente invention concernent des techniques d'apprentissage machine, comportant la décomposition de problèmes d'apprentissage par renforcement mono-agent en problèmes plus simples pris en charge par des agents multiples. Les actions proposées par les agents multiples sont ensuite agrégées à l'aide d'un agrégateur, lequel sélectionne une action à engager vis-à-vis d'un environnement. Des aspects de la présente invention concernent également un modèle de récompense hybride.