WO2024005784A1

WO2024005784A1 - Récupération de texte à vidéo à l'aide de fenêtres à auto-attention décalées

Info

Publication number: WO2024005784A1
Application number: PCT/US2022/035244
Authority: WO
Inventors: Yikang Li; Jenhao Hsiao; Chiuman HO
Original assignee: Innopeak Technology, Inc.
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2024-01-04

Abstract

La présente demande concerne la récupération d'un contenu vidéo en réponse à une interrogation textuelle. Un dispositif électronique obtient l'interrogation textuelle et génère un vecteur de caractéristiques textuelles dans un espace sémantique. Le dispositif électronique obtient un clip vidéo comprenant une séquence de trames d'image et génère une pluralité de premiers vecteurs de caractéristiques visuelles à partir d'un sous-ensemble de trames d'image du clip vidéo. Chaque vecteur de caractéristique visuelle correspond à une trame d'image respective. La pluralité de premiers vecteurs de caractéristiques visuelles est corrélée de manière itérative sur la base d'au moins un schéma de fenêtre décalé pour générer une pluralité de seconds vecteurs de caractéristiques visuelles, et un vecteur de caractéristique vidéo est généré à partir de la pluralité de seconds vecteurs de caractéristiques visuelles. Le clip vidéo est récupéré en réponse à l'interrogation textuelle sur la base d'un niveau de similarité d'interrogation vidéo du vecteur de caractéristique textuelle et du vecteur de caractéristique vidéo.