WO2022134701A1

WO2022134701A1 - 视频处理方法及装置

Info

Publication number: WO2022134701A1
Application number: PCT/CN2021/120390
Authority: WO
Inventors: 谢畅; 李佩易
Original assignee: 上海幻电信息科技有限公司
Priority date: 2020-12-22
Filing date: 2021-09-24
Publication date: 2022-06-30
Also published as: EP4207772A4; CN112738556B; CN112738556A; EP4207772A1; US20230245455A1

Abstract

本申请提供视频处理方法及装置，其中所述视频处理方法包括：从接收的目标视频中抽取至少两种模态信息；按照所述至少两种模态信息对应的提取方式，从所述至少两种模态信息中提取文本信息；通过将预设的目标对象的对象信息与所述文本信息进行匹配，确定所述目标视频中包含的目标对象对应的对象列表。

Description

视频处理方法及装置

本申请要求于2020年12月22日提交中国专利局、申请号为CN202011529552.3、发明名称为“视频处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种视频处理方法。本申请同时涉及一种视频处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序产品。

背景技术

随着互联网技术的进步，互联网基础建设的逐步完善，移动端设备不断革新，全球已经处于移动互联网时代。而视频作为移动端信息传递的重要载体之一，成为人们日常生活、学习、工作、娱乐中不可缺少的一部分。视频携带的信息量之大，种类之复杂，是图片、文字、音频等传递方式无法望其项背的。

整体来说，视频信息信息容量大，人们在相同时间能处理完的信息中，视频是携带信息量最大的一种。并且视频信息呈多模态，即视频信息天然具有多个维度，它既包含每一帧的图像信息，字幕携带的文字信息，也包含音轨中携带的音频信息等等。此外视频信息具有时序关联，视频信息中每一帧的，或者每一段携带的信息，通常与上一段、下一段视频内容是相关的。视频不仅每一帧承载信息，也通过上下文的关联携带更深层次、更复杂的信息。

而视频信息对于观看者来说，是需要尽可能多地接收。但面对数以亿计的海量视频信息，并不是所有人都对其中每一帧包含的信息感兴趣。在具体任务比如视频检索、摘要，视频推荐、审核等任务中，只需要提取视频信息中感兴趣的部分。如何提取视频中的有效信息来完成这类任务，成为一个亟需解决的问题。

发明内容

有鉴于此，本申请实施例提供了一种视频处理方法。本申请同时涉及一种视频处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序产品，以解决现有技术中存在的提取视频中的有效信息遗漏或错误的缺陷。

根据本申请实施例的第一方面，提供了一种视频处理方法，包括：

从接收的目标视频中抽取至少两种模态信息；

按照所述至少两种模态信息对应的提取方式，从所述至少两种模态信息中提取文本信息；

通过将预设的目标对象的对象信息与所述文本信息进行匹配，确定所述目标视频中包含的目标对象对应的对象列表。

根据本申请实施例的第二方面，提供了一种视频处理装置，包括：

抽取模块，被配置为从接收的目标视频中抽取至少两种模态信息；

提取模块，被配置为按照所述至少两种模态信息对应的提取方式，从所述至少两种模态信息中提取文本信息；

匹配模块，被配置为通过将预设的目标对象的对象信息与所述文本信息进行匹配，确定所述目标视频中包含的目标对象对应的对象列表。

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述视频处理方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述视频处理方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序产品，其中，当所述计算机程序产品在计算机中执行时，令计算机执行所述视频处理方法的步骤。

本申请提供的视频处理方法，包括：从接收的目标视频中抽取至少两种模态信息；按照所述至少两种模态信息对应的提取方式，从所述至少两种模态信息中提取文本信息；通过将预设的目标对象的对象信息与所述文本信息进行匹配，确定所述目标视频中包含的目标对象对应的对象列表，实现了从目标视频的多模态信息中提取文本信息，并通过信息匹配的方式，确定目标视频中包含的目标对象，以及目标对象对应的对象列表，提高了确定目标视频中的目标对象以及目标对象对应的对象列表的准确性，以便快速对目标视频中包含的目标对象进行了解，也便于基于对象信息对目标视频进行搜索、推荐、视频摘要、审核等任务处理。

附图说明

图1是本申请一实施例提供的一种视频处理方法的具体应用场景的示例图；

图2是本申请一实施例提供的一种视频处理方法的流程图；

图3是本申请一实施例提供的一种提取视频中包含的语音信息对应的文本信息的流程图；

图4是本申请一实施例提供的一种提取视频中包含的图像信息对应的文本信息的流程图；

图5是本申请一实施例提供的一种提取视频中包含的字幕信息对应的文本信息的流程图；

图6是本申请一实施例提供的一种应用于商品视频场景中的视频处理方法的处理流程图；

图7是本申请一实施例提供的一种视频处理装置的结构示意图；

图8是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

光学字符识别(Optical Character Recognition，OCR)：电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

目标检测(Object Detection)：目标检测即找出图像中所有感兴趣的物体，包含物体定位和物体分类两个子任务，同时确定物体的类别和位置。

自然语言处理(Natural Language Processing，NLP)：自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

自动语音识别(Automatic Speech Recognition，ASR)：将人说话的声音自动转换为文本的过程，而自动语音识别技是一种将人的语音转换为文本的技术。

语言模型(Language Model)：语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系。语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。

词嵌入(Word Embedding)：嵌入是一种将文本中的词转换成数字向量的方法，为了使用标准机器学习算法来对它们进行分析，就需要把这些被转换成数字的向量以数字形式作为输入。

多模态(Multimodal)：每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。多模态指通过特定的方法实现处理和理解多源模态信息的能力。

特征(Feature)：原意指某事物异于其他事物的特点，在本文及同领域文献中指可以表征某种信息的抽象特性。

文本顺滑(Disfluency Detection)：文本顺滑指通过算法自动删除自动语音识别(ASR)结果中的不顺滑的词，从而得到更自然和通顺的句子。

YOLO(You Look Only Once)：一种单阶段(one-stage)目标检测网络结构，用于物体检测。

Faster-RCNN(Faster Region Based Convolutional Neural Network)：一种两阶段(two-stage)目标检测网络结构，用于物体检测。

SSD(Single Shot MultiBox Detector)：一种单阶段(one-stage)目标检测网络结构，用于物体检测。

Bert(Bidirectional Encoder Representation from Transformers，转换器的双向解码表示)，是自然语言处理的一种模型，通过一个额外的输出层进行微调，适用于广泛任务的最先进模型的构建，比如问答任务和语言推理等。

Text CNN：是利用卷积神经网络对文本进行分类的算法。其中，卷积神经网络(Convolution Neural Network，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络。

在本申请中，提供了一种视频处理方法，本申请同时涉及一种视频处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序产品，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了本申请一实施例提供的一种视频处理方法的具体应用场景的示例图。

图1的应用场景中服务器接收了一个商品视频(即目标视频)，对商品视频中的多模态信息进行抽取，具体的，商品视频，可以理解为商品的介绍视频，直播商品视频等，而抽取的多模态信息包括：语音信息、字幕信息以及图像信息等，并在抽取的多模态信息中提取语音信息对应的文本信息、字幕信息对应的文本信息以及图像信息对应的文本信息。

在提取文本信息的基础上，在语音信息对应的文本信息、字幕信息对应的文本信息和/或图像信息对应的文本信息中，对商品信息库中包含的商品名称进行查询，确定各种文本信息中包含的商品名称(指具体的物品名称，比如运动鞋、洗发水等)，并在商品名称对应的搜索范围内，搜索与商品名称匹配的品牌信息(指商品的商标)，并进一步将商品名称以及其对应的品牌信息，与商品信息库中的商品信息进行匹配，进而确定品名称以及品牌信息对应的商品类别(即商品类目：是指商品所示的商品类别，比如榨汁机属于厨房电器，厨房电器属于家用电器)，从而获得商品视频中包含的商品对应的品牌-类目-商品列表，以便通过根据商品对应的商品列表，对商品视频进行搜索、推荐、视频摘要、审核等任务处理。

本申请实施例提供的所述视频处理方法，通过对商品视频中的多模态信息进行分析，从而确定商品视频中包含的商品对应的商品列表，实现了对商品视频进行处理，提取了商品视频中感兴趣的信息，并避免了通过单一特征的视频信息对商品视频中商品的商品信息进行提取，提高了提取的商品信息的准确性。

图2示出了根据本申请一实施例提供的一种视频处理方法的流程图，具体包括以下步骤：

步骤202：从接收的目标视频中抽取至少两种模态信息。

其中，所述目标视频，包括但不限于直播视频，商品视频、电视视频、电影视频、动画视频、娱乐视频等，在此不做限制；所述模态信息，是将每一种信息的来源或者形式，称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种方式都可以称为一种模态，而从通过上述模态获得的信息，即为模态信息。

实际应用中，若通过单一特征对视频信息的理解可能存在偏差，导致视频内容(比如商品)推荐遗漏或不准确。

具体实施时，模态信息是多种多样的，相应的，获取不同的模态信息的获取方式也是多种多样，通过获取视频中的多个模态的信息，有利于对目标视频中传递的信息了解的更加全面，具体的，所述从接收的目标视频中抽取至少两种模态信息，具体采用如下方式实现：

从接收的目标视频中抽取语音信息；

按照预设抽取规则从所述目标视频中抽取图像信息；和/或

按照预设抽取规则从所述目标视频中抽取图像信息，并提取所述图像信息中包含的字幕信息。

具体的，从接收的目标视频中抽取语音信息，可以理解为从目标视频中分离音轨，从而获得音轨中包含的语音信息，而音轨，是指在音序器软件中看到的一条一条的平行“轨道”。每条音轨分别定义了该条音轨的属性，如音轨的音色，音色库，通道数，输入/输出端口，音量等。

所述图像信息，可以理解为图像帧，所述预设抽取规则，是指从目标视频包含的全部的图像帧中，抽取图像帧的抽取规则，比如每隔五帧抽取一帧图像帧，或者每隔两帧抽取一帧图像帧等，在此不做限制，从而得到由抽取的图像帧所组成的图像序列，即图像信息。

此外，目标视频中还可能包含字幕信息，字幕本身也能体现部分视频特征，具体的，可以通过对抽取的图像帧进行文本识别，从而识别出图像帧中包含的文本信息(即字幕信息)。

步骤204：按照所述至少两种模态信息对应的提取方式，从所述至少两种模态信息中提取文本信息。

实际应用中，由于模态信息不同，从中提取文本信息的提取方式也不同，有很多相关的技术，诸如目标检测技术/语音识别/三维卷积/异常检测/文字识别/目标跟踪等等。这些技术对于视频中信息的发现与理解，起到了很大作用，能在很多任务中代替人工，获得视频中存在的关键信息，辅助判断。

在上述抽取多种模态信息的基础上，进一步对每种模态信息分别提取对应的文本信息，以便用文本的形式对视频中包含的信息进行统一，提高了多模态信息之间的可对比性，可选的，所述按照所述至少两种模态信息对应的提取方式，从所述至少两种模态信息中提取文本信息，包括：

按照所述语音信息对应的提取方式从所述语音信息中提取对应的第一文本信息；

按照所述图像信息对应的提取方式从所述图像信息中提取对应的第二文本信息；和/或

对所述字幕信息进行本文处理，生成所述字幕信息对应的第三文本信息；

其中，所述第一文本信息、第二文本信息和/或第三文本信息形成所述文本信息。

具体的，语音信息对应的提取方式，可以理解为语音识别，即将语音信息转换为文本信息的方式，图像信息对应的提取方式，可以理解为对图像帧中的目标对象进行对象检测，从而获得的目标对象的对象信息，而字幕信息中，可能包含打赏信息、错别字等，因此可以通过进行文本处理，去除其中的无效信息，并进一步的，将语音信息中提取的第一文本信息、图像信息中提取的第二文本信息，和/或字幕信息中提取的第三文本信息按照时序进行组合，形成文本信息。

进一步的，在对语音信息进行语音识别的基础上，还通过第一文本处理模型和第二文本处理模型对语音识别结果进行调整，提高了文本信息的准确性，所述按照所述语音信息对应的提取方式从所述语音信息中提取对应的第一文本信息，包括：

对所述语音信息输入语音识别模型进行语音识别，获得所述语音信息中包含的初始文本信息；

基于文本顺滑模型和文本修正模型对所述初始文本信息进行调整，获得所述语音信息对应的第一文本信息。

其中，所述语音识别模型，可以是ASR模型，具体的，通过ASR模型进行语音识别，可以理解为将语音信息输入语音识别模型进行编码和特征提取，将提取到的特征拿到声学模型库中去查询，得到单个的单词或汉字；然后再拿到语言模型库中去查询，得到最匹配的单词或汉字，从而形成初始文本信息。

然而由于初始文本信息中可能存在不通顺的语句，或口头禅等，因此，需要对初始文本信息进行文本顺滑以及文本修正，具体的，文本顺滑模型，用于对初始文本信息进行文本顺滑，即删除自动语音识别(ASR)结果中的不顺滑的词，从而得到更自然和通顺的句子；文本修正模型，可以是自然语言处理模型(NLP)，用于对初始文本信息/顺滑后的文本信息进行文本修正，比如语音识别获得的初始文本信息为：“我今天去了一家宾馆，问前台务员水饺多少钱一碗。”该句子在语法上是通顺的，但在语义上令人费解，因为宾馆通常不卖水饺。通过自然语言处理模型会将句子修正为：“我今天去了一家宾馆，问前台服务员睡觉多少钱一晚。”

例如图3所示，服务器接收了一个视频(即目标视频)，将视频中的音轨进行分离，将音轨中包含语音信息输入语音识别模块(ASR)进行语音识别，获得初始文本信息，对初始文本信息通过文本顺滑模块进行文本顺滑，获得顺滑后的文本信息，并进一步将顺滑后的文本信息通过自然语言修正模块(NLP)进行文本修正，获得修正后的语音信息(文本)，即第一文本信息。

具体实施时，通过对象识别模型对图像帧进行对象检测的方式，确定图像帧包含的目标对象的属性信息(即图像信息对应的文本信息)，提高了确认目标视频中目标对象的属性信息的准确性，可选的，所述按照所述图像信息对应的提取方式从所述图像信息中提取对应的第二文本信息，具体采用如下方式实现：

对所述图像信息中各个图像帧分别输入对象识别模型，获得所述各个图像帧中包含的目标对象的属性信息，将所述属性信息作为所述第二文本信息。

具体的，目标对象的属性信息，可以理解为单张图像中出现的具体物体信息。通过目标检测(Object Detection)模型能够检出图像中出现的物体及其类别。图像中出现的物体在很大程度上能反映图像需要传递的信息，因此作为信息提取的维度之一。

其中，所述对象识别模型，可以理解为YOLO/Faster-RCNN/SSD等对象检测网络，用于检测出图像帧中包含的目标对象的对象名称，和/或对象位置等属性信息，并将这些属性信息作为第二文本信息。

例如图4所示，服务器接收了一个视频(即目标视频)，将视频进行抽帧，获得图像帧，并对抽帧获得的图像帧通过目标检测模块(即对象识别模型)进行对象，获得图像帧中包含的目标对象的属性信息，即目标信息(文本)，也即第二文本信息。

通过语言处理模型以及文本处理模型对字幕信息进行调整，提高了字幕信息对应的文本信息(即第三文本信息)的准确度，可选的，所述对所述字幕信息进行本文处理，生成所述字幕信息对应的第三文本信息，具体采用如下方式实现：

基于语言处理模型和文本处理模型所述字幕信息进行调整，以获得所述字幕信息对应的第三文本信息。

具体的，所述语言处理模型，可以理解为自然语言处理模型(NLP)，通过对字幕信息进行修正去噪，此外，可能由于图像帧之间的间隔太小，相邻抽帧获得的图像帧中包含的字幕信息可能相同，因此，还需要利用文本处理模型对相同的文本内容进行去重，最终获得去重后的文本信息，即第三文本信息。

例如图5所示，服务器接收了一个视频(即目标视频)，将视频进行抽帧，获得图像帧，将抽帧获得的图像帧输入文字识别模型(OCR)进行文本识别，获得图像帧中包含的字幕信息，并将字幕信息通过语言模型进行文本修正，获得修正后的文本信息，将修正后的文本信息通过文本去重模块进行去重，获得去重后的字幕信息(文本)，即第三文本信息。

步骤206：通过将预设的目标对象的对象信息与所述文本信息进行匹配，确定所述目标视频中包含的目标对象对应的对象列表。

可选的，所述目标对象包括：商品、人物、动物、虚拟物品、规章等，相应的，所述对象信息包括：商品信息、人物信息、动物信息、虚拟物品信息、敏感词信息等，所述对象列表包括：商品列表、人物列表、动物列表、虚拟物品列表、敏感词列表等。

其中，商品列表，可以表现为商品名称列表、商品品牌列表、商品类目列表，或由商品名称、商品类目以及商品品牌，共同组成的商品品牌-商品类目-商品名称列表等，在此不做赘述。

具体的，通过将预设的目标对象的对象信息与所述文本信息进行匹配，可以理解为在文本信息中查找预设的对象信息，从而确定目标视频中是否包含相应的对象信息，并将其包含的对象信息形成对象列表，并通过对象列表，用以表明目标视频中包含目标对象。

进一步的，所述通过将预设的目标对象的对象信息与所述文本信息进行匹配，确定所述目标视频中包含的目标对象对应的对象列表，具体采用如下方式实现：

根据预设的目标对象的对象信息中的第一子信息在所述文本信息中进行检索，确定所述文本信息中包含的目标第一子信息；

根据所述对象信息中的第二子信息，在所述目标第一子信息对应的预设检索范围内的文本信息进行检索，确定所述目标第一子信息对应的目标第二子信息；

基于所述目标第一子信息以及所述目标第二子信息，确定所述目标视频中包含的目标对象对应的对象列表。

其中，所述第一子信息，可以理解为商品名称、人物名称、动物名称等名称信息，根据第一子信息在文本信息中进行检索，可以确定文本信息中包含哪些第一子信息，将文本信息中包含的第一子信息作为目标第一子信息。

所述第二子信息，可以理解为商品品牌，人物肤色，动物颜色等信息，所属预设检索范围：是指预先设置的在目标第一子信息所在的文本位置从上文到下文搜索的范围，具体的，可以表示为该文本位置向前或向后的字数范围或语句范围等，比如向前或向后20个字，或者向前或向后两句话等。

比如文本信息为：“朋友们大家好，上周在A1官方旗舰店买了双运动鞋”其中，目标第一子信息为运动鞋，第二子信息为A1，假设设置上下文的阈值(即预设检索范围)为20，也就是向前至多搜索20个字，向后至多搜索20个字。因此当检索到A1时，能够成功匹配到运动鞋。

具体的，在目标第一子信息对应的预设检索范围内的文本信息进行检索，是指在第一子信息在文本信息中出现的位置的上下文附近，对第二子信息进行检索，将检索到的第二子信息作为与目标第一子信息对应的目标第二自行信息，并进一步，基于目标第一子信息以及目标第一子信息对应的目标第二子信息，确定目标视频中包含的目标对象的对象列表，即包含的目标对象的信息汇总列表。

此外，还存在于所述目标第一子信息对应的预设检索范围内的文本信息内，检测不到第二子信息的情况，则不对检索到的目标第一子信息进行处理，即抛弃上述对第一子信息的检索结果。

本申请实施例，通过显示地搜索与对象信息中的第一子信息以及第二子信息匹配的目标第一子信息以及目标第二子信息，并进一步基于目标第一子信息以及目标第二子信息，确定目标视频中包含的目标对象的对象列表，实现了根据多个信息确定目标视频中包含的目标对象，并进而形成目标对象的对象列表，提升了确定目标对象的准确性，并通过对象列表对包含的目标对象进行描述，实现了对目标视频中包含的目标对象的信息进行有效提取。

可选的，所述根据所述对象信息中的第二子信息，在所述目标第一子信息对应的预设检索范围内的文本信息进行检索，确定所述目标第一子信息对应的目标第二子信息，包括：

根据所述对象信息中的第二子信息，在所述目标第一子信息对应的预设检索范围内的文本信息进行检索；

在检索到多个与所述第二子信息匹配的第三子信息的情况下，确定每个第三子信息与所述目标第一子信息在所述文本信息中的距离；

根据所述距离，确定所述目标第一子信息对应的目标第二子信息。

具体的，所述距离，可以理解为两个信息中间间隔的字数，将距离目标第一子信息更近的第三子信息，作为目标第二子信息，增加了确定目标第一子信息对应的目标第二子信息的准确性。

以目标对象为商品为例，目标第一子信息为商品名称：运动鞋，在运动鞋所在的上下文信息(向前或向后20个字的范围内)中检索到了2个商品品牌(第二子信息)：A1和A2，其中A1距离运动鞋2个字，A2距离运动鞋息10个字，则将A1确定为运动鞋对应的商品品牌。

可选的，除上述确定目标第二子信息的方式之外，所述检索到多个与所述第二子信息匹配的第三子信息之后，还包括：

确定每种第三子信息被匹配的次数；

基于被匹配的次数，确定所述目标第一子信息对应的目标第二子信息。

具体的，被匹配的次数，可以理解为检索到同一种第三子信息的次数，比如，可以按照投票的方式，在检索到五个与所述第二子信息匹配的第三子信息的情况下，其中有三个第三子信息都为A1(即A1被匹配的次数为三次)，有两个第三子信息都为A2(即A1被匹配的次数为两次)，则将被匹配的次数多的第三子信息A1作为目标第二子信息，增加了确定目标第一子信息对应的目标第二子信息的准确性。

可选的，所述基于所述目标第一子信息以及所述目标第二子信息，确定所述目标视频对应的对象列表，包括：

根据所述目标第一子信息以及所述目标第二子信息在预设信息映射表中的映射关系，确定所述目标视频中包含的目标对象对应的对象列表。

实际应用中，预设信息映射表，可以理解为包含第一子信息，第二子信息在内的信息映射表，此外，预设信息映射表中还包含其他的对象信息，具体实施时，该预设信息映射表可以由第三方提供，也可以通过在网络上抓取数据(包括第一子信息以及第二子信息)，再通过人工清理、标注这些数据进而获得预设信息映射表；

在确定目标第一子信息以及目标第二子信息的基础上，可以唯一地确定一条映射关系记录(即组成对象列表的对象条目)，并进一步将确定的多条映射关系记录组成对象列表，以便通过对象列表，可以快速了解目标视频中包含的目标对象的情况，此外，还通过对象列表中包含的信息对目标视频中包含的目标对象进行检索，过滤了目标视频中不重要的信息，提高了检索效率。

进一步的，在上述进行可选的，所述确定所述目标第一子信息对应的目标第二子信息之后，还包括：

在所述文本信息中对所述目标第一子信息到所述目标第二子信息之间的信息进行标记，并确定未标记的文本信息；

根据所述第二子信息在所述未标记的文本信息中进行检索，确定所述未标记的文本信息中包含的目标第二子信息；

确定所述未标记的文本信息中包含的目标第二子信息对应的预设处理范围；

对所述预设处理范围内的未标记的文本信息进行分词处理，并将所述分词处理获得的分词转换为第一词向量；

将所述第一词向量与通过所述第一子信息转换的第二词向量进行相似度对比，以确定所述未标记的文本信息中包含的目标第二子信息对应的目标第一子信息。

具体的，在所述文本信息中对所述目标第一子信息到所述目标第二子信息之间的信息进行标记，确定未标记的文本信息，可以理解为将文本信息中匹配到对象信息的部分(即处理完的信息以及上下文)进行标记(以便在后续的匹配中跳过)，从而确定未匹配到对象信息的文本信息，并对未匹配到对象信息的文本信息，再次进行信息匹配，以提高文本信息中的匹配到的信息数量，更加地，增加了对象列表包含的对象信息的全面性以及准确性。

沿用上例，文本信息为：“朋友们大家好，上周在A1官方旗舰店买了双运动鞋”其中，目标第一子信息为运动鞋，目标第二子信息为A1，对文本信息中A1到运动鞋之间的文字进行标记，则未标记的文本信息为“朋友们大家好，上周在”。

具体的，在未标记的文本信息中检索第二子信息，从而确定未标记的文本信息中包含的目标第二子信息，是因为已经根据第一子信息对整个文本信息进行了检索，而未标记的文本信息，可以理解为未检索到第一子信息的文本信息，因此，再次检索时，则根据第二子信息进行检索，从而确定未标记的文本信息中包含的目标第二子信息，这是由于可能在上述的第一子信息扫描后，可能文本信息中存在没有显示出现的第一子信息，因此对这部分没有显示出现的第一子信息进行再次检索。

进一步的，对目标第二子信息的预设处理范围内的未标记的文本信息进行分词处理，具体的，可以理为对预设处理范围内的未标记的文本信息进行分句，获得在预设处理范围内包含的句子，并对句子进行分词，获得组成句子的词组(即分词)，并将分词转换为第一词向量(即词嵌入或词向量嵌入)，具体的，可以理解为通过Bert/Text CNN等转换模型，对分词进行特征提取，从而将分词转换为向量编码，其中，所述预设处理范围，与上述预设检索范围类似，在此不做赘述。并将预设的对象信息中的第一子信息也进行转换，转换为第二词向量，具体的，将第一子信息转换为第二词向量的具体实现方式与上述转换为第一词向量的具体实现方式类似，在此不再赘述。

更进一步的，将第一词向量以及第二词向量进行相似度对比(由于第一子信息没有显示出现，否则就会被打上标签，即标记，因此才会提取词向量对应不相似度)，若相似度对比结果大于相似度阈值，表明第一词向量与第二词向量相似，即第一子信息与未标记的文本信息中的分词相似，则将未标记的文本信息中的分词作为目标第一子信息；若相似度对比结果小于等于相似度阈值，表明第一词向量与第二词向量不相似，即第一子信息与未标记的文本信息中的分词不一样，不做处理即可。

可选的，所述视频处理方法，在确定所述目标视频中包含的目标对象对应的对象列表之后，还包括：

接收针对目标对象的查询指令；

将所述查询指令中携带的目标对象的对象信息与所述对象列表中的对象信息进行匹配；

在匹配成功的情况下，将所述目标视频以及所述对象列表作为所述查询指令对应的查询结果进行展示。

实际应用中，在对目标对象进行视频处理，获得目标视频中包含的目标对象的对象列表之后，可以通过关键字(对象信息)进行查询，在查询到的对象列表中包含查询关键字的情况下，将对象列表对应的目标视频进行展示，即通过对象信息匹配，快速确定目标视频中是否包含目标对象，进而对目标视频进行展示，提高了对包含目标对象的目标视频的查询效率。

实际应用中，在将目标视频作为查询结果进行展示的基础上，还可以将对象列表进行展示，以便查询用户对目标视频中包含的目标对象进行快速了解。

综上所述，本申请提供的视频处理方法，包括：从接收的目标视频中抽取至少两种模态信息；按照所述至少两种模态信息对应的提取方式，从所述至少两种模态信息中提取文本信息；通过将预设的目标对象的对象信息与所述文本信息进行匹配，确定所述目标视频中包含的目标对象对应的对象列表，实现了从目标视频的多模态信息中提取文本信息，并通过信息匹配的方式，确定目标视频中包含的目标对象，以及目标对象对应的对象列表，提高了确定目标视频中的目标对象以及目标对象对应的对象列表的准确性，以便快速对目标视频中包含的目标对象进行了解，也便于基于对象信息对目标视频进行搜索、推荐、视频摘要、审核等任务处理。

下述结合附图6，以本申请提供的视频处理方法在商品视频场景中的应用为例，对所述视频处理方法进行进一步说明。其中，图6示出了本申请一实施例提供的一种应用于商品视频场景中的视频处理方法的处理流程图，具体包括以下步骤：

步骤602：接收包含目标商品的商品视频(即目标视频)。

步骤604：在商品视频中提取语音信息(文本)、字幕信息(文本)以及目标信息(文本)，并将提取的语音信息(文本)、字幕信息(文本)以及目标信息(文本)形成文本信息。

具体的，目标信息，是指商品视频包含目标商品的商品名称等商品信息。

步骤606：根据商品信息库中的品牌信息在文本信息中进行查询，确定所述文本信息中包含的品牌。

步骤608：将品牌所在的上下文范围内的文本信息进行分词处理，获得分词处理后的分词，并将分词转换为第一词向量(即上下文信息编码)。

步骤610：将商品信息库中的商品名称转换为第二词向量(即商品编码)。

需要说明的是，步骤608和步骤610的执行顺序可以互换。

步骤612：通过将第一词向量与第二词向量进行相似度对比，以确定文本信息中包含的品牌对应的商品，并根据品牌以及商品，确定商品所属的类目，获得品牌-类目-商品列表(即商品视频中包含的商品的商品列表)。

实际应用中，根据视频内容推荐对应商品是视频信息提取的应用方式之一。目前视频商品推荐主要依赖于人工打标，即人工审核视频中出现的商品，或单一信息源提取，即提取视频中某一个维度的信息，获得视频中出现的商品名称等。第一种方式人工成本较高，效率低下。第二种方式容错率低，容易遗漏、误判，因此，怎样从海量视频中准确地提取、挖掘商品信息，成为视频推荐中一个需要解决的应用问题。

综上所述，本申请提供的视频处理方法，包括：从接收的商品视频中抽取三种模态信息；按照三种模态信息对应的提取方式，从三种模态信息中提取文本信息；通过将预设的目标商品的商品信息与所述文本信息进行匹配，确定所述商品视频中包含的目标商品对应的商品列表，实现了从商品视频的多模态信息中提取文本信息，并通过信息匹配的方式，确定商品视频中包含的目标商品，以及目标商品对应的商品列表，提高了确定商品视频中的目标商品以及目标商品对应的商品列表的准确性，以便快速对商品视频中包含的目标商品进行了解，也便于基于商品信息对商品视频进行搜索、推荐、视频摘要、审核等任务处理。

与上述方法实施例相对应，本申请还提供了视频处理装置实施例，图7示出了本申请一实施例提供的一种视频处理装置的结构示意图。如图7所示，该装置包括：

抽取模块702，被配置为从接收的目标视频中抽取至少两种模态信息；

提取模块704，被配置为按照所述至少两种模态信息对应的提取方式，从所述至少两种模态信息中提取文本信息；

匹配模块706，被配置为通过将预设的目标对象的对象信息与所述文本信息进行匹配，确定所述目标视频中包含的目标对象对应的对象列表。

可选的，所述匹配模块706，包括：

第一确定子模块，配置为根据预设的目标对象的对象信息中的第一子信息在所述文本信息中进行检索，确定所述文本信息中包含的目标第一子信息；

第二确定子模块，配置为根据所述对象信息中的第二子信息，在所述目标第一子信息对应的预设检索范围内的文本信息进行检索，确定所述目标第一子信息对应的目标第二子信息；

确定列表子模块，被配置为基于所述目标第一子信息以及所述目标第二子信息，确定所述目标视频中包含的目标对象对应的对象列表。

可选的，所述第二确定子模块，进一步被配置为：

可选的，所述第二确定子模块，还被配置为：

确定每种第三子信息被匹配的次数；

可选的，所述匹配模块706，还被配置为：

可选的，所述抽取模块702，进一步被配置为：

从接收的目标视频中抽取语音信息；

按照预设抽取规则从所述目标视频中抽取图像信息；和/或

可选的，所述提取模块704，包括：

第一提取子模块，被配置为按照所述语音信息对应的提取方式从所述语音信息中提取对应的第一文本信息；

第二提取子模块，被配置为按照所述图像信息对应的提取方式从所述图像信息中提取对应的第二文本信息；和/或

生成子模块，被配置为对所述字幕信息进行本文处理，生成所述字幕信息对应的第三文本信息；

可选的，所述第一提取子模块，进一步被配置为：

可选的，所述第二提取子模块，进一步被配置为：

可选的，所述生成子模块，进一步被配置为：

可选的，所述视频处理装置，还包括：

接收指令模块，被配置为接收针对目标对象的查询指令；

信息匹配模块，被配置为将所述查询指令中携带的目标对象的对象信息与所述对象列表中的对象信息进行匹配；

展示模块，被配置为在匹配成功的情况下，将所述目标视频以及所述对象列表作为所述查询指令对应的查询结果进行展示。

综上所述，本申请提供的视频处理装置，包括：从接收的目标视频中抽取至少两种模态信息；按照所述至少两种模态信息对应的提取方式，从所述至少两种模态信息中提取文本信息；通过将预设的目标对象的对象信息与所述文本信息进行匹配，确定所述目标视频中包含的目标对象对应的对象列表，实现了从目标视频的多模态信息中提取文本信息，并通过信息匹配的方式，确定目标视频中包含的目标对象，以及目标对象对应的对象列表，提高了确定目标视频中的目标对象以及目标对象对应的对象列表的准确性，以便快速对目标视频中包含的目标对象进行了解，也便于基于对象信息对目标视频进行搜索、推荐、视频摘要、审核等任务处理。

上述为本实施例的一种视频处理装置的示意性方案。需要说明的是，该视频处理装置的技术方案与上述的视频处理方法的技术方案属于同一构思，视频处理装置的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820通过执行计算机指令，实现所述的视频处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述视频处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序产品，其中，当所述计算机程序产品在计算机中执行时，令计算机执行上述视频处理方法的步骤。

上述为本实施例的一种计算机程序产品的示意性方案。需要说明的是，该计算机程序产品的技术方案与上述的视频处理方法的技术方案属于同一构思，计算机程序产品的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序产品代码，所述计算机程序产品代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序产品代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

一种视频处理方法，包括：

从接收的目标视频中抽取至少两种模态信息；

按照所述至少两种模态信息对应的提取方式，从所述至少两种模态信息中提取文本信息；

通过将预设的目标对象的对象信息与所述文本信息进行匹配，确定所述目标视频中包含的目标对象对应的对象列表。
根据权利要求1所述的视频处理方法，所述通过将预设的目标对象的对象信息与所述文本信息进行匹配，确定所述目标视频中包含的目标对象对应的对象列表，包括：

根据预设的目标对象的对象信息中的第一子信息在所述文本信息中进行检索，确定所述文本信息中包含的目标第一子信息；

根据所述对象信息中的第二子信息，在所述目标第一子信息对应的预设检索范围内的文本信息进行检索，确定所述目标第一子信息对应的目标第二子信息；

基于所述目标第一子信息以及所述目标第二子信息，确定所述目标视频中包含的目标对象对应的对象列表。
根据权利要求2所述的视频处理方法，所述根据所述对象信息中的第二子信息，在所述目标第一子信息对应的预设检索范围内的文本信息进行检索，确定所述目标第一子信息对应的目标第二子信息，包括：

根据所述对象信息中的第二子信息，在所述目标第一子信息对应的预设检索范围内的文本信息进行检索；

在检索到多个与所述第二子信息匹配的第三子信息的情况下，确定每个第三子信息与所述目标第一子信息在所述文本信息中的距离；

根据所述距离，确定所述目标第一子信息对应的目标第二子信息。
根据权利要求3所述的视频处理方法，所述检索到多个与所述第二子信息匹配的第三子信息之后，还包括：

确定每种第三子信息被匹配的次数；

基于被匹配的次数，确定所述目标第一子信息对应的目标第二子信息。
根据权利要求2-4任意一项所述的视频处理方法，所述基于所述目标第一子信息以及所述目标第二子信息，确定所述目标视频对应的对象列表，包括：

根据所述目标第一子信息以及所述目标第二子信息在预设信息映射表中的映射关系，确定所述目标视频中包含的目标对象对应的对象列表。
根据权利要求2-5任意一项所述的视频处理方法，所述确定所述目标第一子信息对应的目标第二子信息之后，还包括：

在所述文本信息中对所述目标第一子信息到所述目标第二子信息之间的信息进行标记，并确定未标记的文本信息；

根据所述第二子信息在所述未标记的文本信息中进行检索，确定所述未标记的文本信息中包含的目标第二子信息；

确定所述未标记的文本信息中包含的目标第二子信息对应的预设处理范围；

对所述预设处理范围内的未标记的文本信息进行分词处理，并将所述分词处理获得的分词转换为第一词向量；

将所述第一词向量与通过所述第一子信息转换的第二词向量进行相似度对比，以确定所述未标记的文本信息中包含的目标第二子信息对应的目标第一子信息。
根据权利要求1-6任意一项所述的视频处理方法，所述从接收的目标视频中抽取至少两种模态信息，包括：

从接收的目标视频中抽取语音信息；

按照预设抽取规则从所述目标视频中抽取图像信息；和/或

按照预设抽取规则从所述目标视频中抽取图像信息，并提取所述图像信息中包含的字幕信息。
根据权利要求7所述的视频处理方法，所述按照所述至少两种模态信息对应的提取方式，从所述至少两种模态信息中提取文本信息，包括：

按照所述语音信息对应的提取方式从所述语音信息中提取对应的第一文本信息；

按照所述图像信息对应的提取方式从所述图像信息中提取对应的第二文本信息；和/或

对所述字幕信息进行本文处理，生成所述字幕信息对应的第三文本信息；

其中，所述第一文本信息、第二文本信息和/或第三文本信息形成所述文本信息。
根据权利要求8所述的视频处理方法，所述按照所述语音信息对应的提取方式从所述语音信息中提取对应的第一文本信息，包括：

对所述语音信息输入语音识别模型进行语音识别，获得所述语音信息中包含的初始文本信息；

基于文本顺滑模型和文本修正模型对所述初始文本信息进行调整，获得所述语音信息对应的第一文本信息。
根据权利要求8所述的视频处理方法，所述按照所述图像信息对应的提取方式从所述图像信息中提取对应的第二文本信息，包括：

对所述图像信息中各个图像帧分别输入对象识别模型，获得所述各个图像帧中包含的目标对象的属性信息，将所述属性信息作为所述第二文本信息。
根据权利要求8所述的视频处理方法，所述对所述字幕信息进行本文处理，生成所述字幕信息对应的第三文本信息，包括：

基于语言处理模型和文本处理模型所述字幕信息进行调整，以获得所述字幕信息对应的第三文本信息。
根据权利要求1-11任意一项所述的视频处理方法，还包括：

接收针对目标对象的查询指令；

将所述查询指令中携带的目标对象的对象信息与所述对象列表中的对象信息进行匹配；

在匹配成功的情况下，将所述目标视频以及所述对象列表作为所述查询指令对应的查询结果进行展示。
一种视频处理装置，包括：

抽取模块，被配置为从接收的目标视频中抽取至少两种模态信息；

提取模块，被配置为按照所述至少两种模态信息对应的提取方式，从所述至少两种模态信息中提取文本信息；

匹配模块，被配置为通过将预设的目标对象的对象信息与所述文本信息进行匹配，确定所述目标视频中包含的目标对象对应的对象列表。
一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现权利要求1-12任意一项所述方法的步骤。
一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1-12任意一项所述方法的步骤。
一种计算机程序产品，当所述计算机程序产品在计算机中执行时，令计算机执行权利要求1-12任意一项所述方法的步骤。