WO2022199792A1

WO2022199792A1 - Estimation de récompense pour une politique cible

Info

Publication number: WO2022199792A1
Application number: PCT/EP2021/057321
Authority: WO
Inventors: Filippo VANNELLA; Jaeseong JEONG
Original assignee: Telefonaktiebolaget Lm Ericsson (Publ)
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2022-09-29

Abstract

L'invention concerne un procédé mis en œuvre par ordinateur (100) pour améliorer la précision d'un estimateur de récompense pour une politique cible, la politique cible étant destinée à gérer un environnement de réseau de communication qui peut être utilisé pour exécuter une tâche. Le procédé comprend l'obtention d'un ensemble de données d'apprentissage comprenant des enregistrements d'exécution de tâche par l'environnement pendant une période de gestion selon une politique de référence (110), et la génération, sur la base de l'ensemble de données d'apprentissage, d'un modèle de propension qui estime la probabilité de sélection par la politique de référence d'une action particulière compte tenu d'un contexte observé particulier (120). Le procédé comprend en outre l'initiation de l'estimateur de récompense (130), l'estimateur de récompense comprenant un modèle d'apprentissage machine qui peut être utilisé pour estimer une valeur de récompense compte tenu d'un contexte observé particulier et d'une action sélectionnée, et la définition d'une valeur d'un paramètre d'impact de propension en fonction d'une caractéristique d'au moins l'ensemble de données d'apprentissage ou la politique de référence (140). Le procédé comprend en outre l'utilisation des enregistrements d'exécution de tâche dans l'ensemble de données d'apprentissage pour mettre à jour les valeurs des paramètres d'estimateur de récompense de façon à minimiser une fonction de perte (150) sur la base de différences entre une récompense observée à partir de l'ensemble de données d'apprentissage et une récompense estimée par l'estimateur de récompense pour des paires données de contexte observé et d'action sélectionnée par la politique de référence (150a), et l'ajustement d'une amplitude de la pondération de chaque différence en fonction du paramètre d'impact.