WO2021184026A1

WO2021184026A1 - Fusion audiovisuelle avec attention intermodale pour la reconnaissance d'actions vidéo

Info

Publication number: WO2021184026A1
Application number: PCT/US2021/026444
Authority: WO
Inventors: Jenhao Hsiao; Jiawei Chen
Original assignee: Innopeak Technology, Inc.
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-09-16

Abstract

Un dispositif électronique obtient un contenu vidéo qui comprend un contenu visuel et un contenu audio. Le contenu visuel comprend une pluralité de segments visuels, et le contenu audio comprend une pluralité de contenus audio. Une pluralité de caractéristiques visuelles autonomes sont générées pour les segments visuels du contenu vidéo, et une pluralité de caractéristiques audio autonomes sont générées pour les segments audio du contenu audio. Les caractéristiques visuelles autonomes sont fusionnées avec les caractéristiques audio autonomes pour générer une pluralité de caractéristiques visuelles fusionnées, et les caractéristiques audio autonomes sont fusionnées avec les caractéristiques visuelles autonomes pour générer une pluralité de caractéristiques audio fusionnées. Les caractéristiques visuelles fusionnées et les caractéristiques audio fusionnées sont combinées pour générer une caractéristique visuelle-audio intermodale sur la base d'un poids respectif associé à chacune des caractéristiques visuelles et audio fusionnées. Une étiquette de contenu de niveau vidéo est déterminée sur la base de la caractéristique visuelle-audio intermodale.