WO2023246819A1

WO2023246819A1 - Procédé d'entraînement de modèle et dispositif associé

Info

Publication number: WO2023246819A1
Application number: PCT/CN2023/101527
Authority: WO
Inventors: 和煦; 李栋
Original assignee: 华为技术有限公司
Priority date: 2022-06-21
Filing date: 2023-06-20
Publication date: 2023-12-28
Also published as: CN115293227A

Abstract

L'invention concerne un procédé d'entraînement de modèle, se rapportant au domaine de l'intelligence artificielle. Le procédé consiste à : traiter des premières données au moyen d'un premier modèle d'apprentissage par renforcement pour obtenir un premier résultat de traitement ; traiter les premières données au moyen d'un premier réseau neuronal cible sélectionné parmi une pluralité de premiers réseaux neuronaux pour obtenir un second résultat de traitement, chaque premier réseau neuronal étant un résultat d'itération obtenu par réalisation d'un entraînement itératif sur un premier réseau neuronal initial ; et mettre à jour le premier modèle d'apprentissage par renforcement en fonction du premier résultat de traitement et du second résultat de traitement. Selon la présente invention, l'interférence pour une tâche cible est délivrée en utilisant un résultat d'entraînement historique d'un agent antagoniste historique (un agent antagoniste obtenu dans un processus d'itération historique), de telle sorte qu'une interférence plus efficace pour la tâche cible dans différents scénarios peut être obtenue, ce qui permet d'améliorer l'effet d'entraînement et la généralisation d'un modèle.