WO2018094294A1

WO2018094294A1 - Modèle d'attention spatiale pour sous-titrage d'image

Info

Publication number: WO2018094294A1
Application number: PCT/US2017/062433
Authority: WO
Inventors: Jiasen LU; Caiming Xiong; Richard Socher
Original assignee: Salesforce.Com, Inc.
Priority date: 2016-11-18
Filing date: 2017-11-18
Publication date: 2018-05-24
Also published as: WO2018094296A1; WO2018094295A1

Abstract

La technologie de l'invention présente un nouveau modèle d'attention spatiale qui utilise des informations d'état caché courant d'une longue mémoire à court terme (LSTM) de décodeur pour guider l'attention et pour extraire des caractéristiques d'image spatiale à utiliser en sous-titrage d'image. La technologie de l'invention présente également un nouveau modèle d'attention adaptatif pour le sous-titrage d'image, qui mélange des informations visuelles issues d'un réseau de neurones à convolution (CNN) et des informations linguistiques issues d'une LSTM. A chaque saut de temps, le modèle d'attention adaptatif décide automatiquement comment se fier fortement à l'image, par opposition au modèle linguistique, pour émettre le mot de sous-titre suivant. La technologie de l'invention ajoute en outre une nouvelle porte sentinelle auxiliaire à une architecture LSTM et produit une LSTM sentinelle (Sn-LSTM). La porte sentinelle produit, à chaque saut de temps, une sentinelle visuelle qui est une représentation supplémentaire, dérivée de la mémoire LSTM, d'informations visuelles et linguistiques à long terme et à court terme.