WO2022110640A1

WO2022110640A1 - Procédé et appareil d'optimisation de modèle, dispositif informatique et support de stockage

Info

Publication number: WO2022110640A1
Application number: PCT/CN2021/090501
Authority: WO
Inventors: 莫琪
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-11-27
Filing date: 2021-04-28
Publication date: 2022-06-02
Also published as: CN112488183B; CN112488183A

Abstract

La présente invention se rapporte à un procédé et à un appareil d'optimisation de modèle appliqués à une descente de gradient avec moment, à un dispositif informatique et à un support de stockage. Le procédé comprend : la réception d'une demande d'optimisation de modèle envoyée par un terminal d'utilisateur, la demande d'optimisation de modèle transportant au moins un modèle de prédiction d'origine et un ensemble de données d'apprentissage d'origine (S101) ; la réalisation d'une opération d'échantillonnage sur l'ensemble de données d'apprentissage d'origine pour obtenir un cycle actuel de l'ensemble de données d'apprentissage (S102) ; la définition d'une fonction cible sur la base du cycle actuel de l'ensemble de données d'apprentissage (S103) ; l'initialisation de paramètres d'optimisation de modèle du modèle de prédiction d'origine pour obtenir un paramètre de vitesse initial et un paramètre de décision initial (S104) ; le calcul de données de gradient correspondant au paramètre de décision initial qui nécessite d'être mis à jour dans le cycle actuel (S105) ; le fait de déterminer si les données de gradient ont été mises à jour (S106) ; si les données de gradient n'ont pas été mises à jour, la sortie d'un signal d'anomalie d'échantillonnage (S107) ; si les données de gradient ont été mises à jour, la mise à jour du paramètre de vitesse initial sur la base des données de gradient pour obtenir une vitesse mise à jour (S108) ; la mise à jour du paramètre de décision initial sur la base de la vitesse mise à jour pour obtenir un paramètre de décision mis à jour (S109) ; et lorsque le paramètre de décision initial et le paramètre de décision mis à jour satisfont une condition de convergence, l'obtention d'un modèle de prédiction cible (S110). La présente invention permet d'éviter efficacement le problème de surapprentissage d'une couche incorporée causé par l'utilisation d'un moment historique pour mettre à jour les mots qui n'ont pas été échantillonnés dans le lot actuel durant l'apprentissage.