WO2022022152A1

WO2022022152A1 - 视频片段定位方法、装置、计算机设备及存储介质

Info

Publication number: WO2022022152A1
Application number: PCT/CN2021/100860
Authority: WO
Inventors: 王景文; 宋怡君; 马林
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-07-30
Filing date: 2021-06-18
Publication date: 2022-02-03
Also published as: CN111866607A; CN111866607B; US20230024382A1

Abstract

本申请公开了一种视频片段定位方法、装置、计算机设备及存储介质，属于视频处理技术领域。本申请通过获取视频单元维度的单元特征，根据单元特征确定视频片段的片段特征，获取到的片段特征中融合了多个视频单元的特征和视频单元之间的时序关联性；再将视频片段的片段特征与目标文本的文本特征进行融合，特征融合过程中充分应用了视频片段维度的特征以及各个视频片段之间的时序关联性，从而基于融合后的特征可以获取到更准确的注意力权重，由注意力权重来表示视频片段和目标文本之间的匹配度，进而在基于注意力权重进行视频片段定位时，可以更准确的定位出与目标文本相匹配的目标视频片段。

Description

视频片段定位方法、装置、计算机设备及存储介质

本申请要求于2020年07月30日提交中国专利局、申请号为202010753184.4、申请名称为“视频片段定位方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频处理技术领域，特别涉及视频片段定位。

背景技术

随着视频应用的普及，网络中的视频数量越来越多，在视频观看时，基于一段文本信息快速、准确地定位到一段视频片段的需求也越来越大。

目前，在基于一段文本信息进行视频片段定位时，通常是需要将文本信息和视频输入视频识别模型，由视频识别模型提取视频中各个视频帧的帧特征以及文本信息的文本特征，基于帧特征与文本特征，进行视频帧与文本信息的匹配，从而确定出各个视频帧与文本信息的之间匹配度，进而在视频中定位出与文本信息最匹配的视频片段。

发明内容

本申请实施例提供了一种视频片段定位方法、装置、计算机设备及存储介质，可以提高视频片段定位结果的准确率。该技术方案如下：

一方面，提供了一种视频片段定位方法，该方法包括：

对视频中至少两个视频片段包括的视频单元进行特征提取，得到该视频单元的单元特征；

基于该至少两个视频片段所包括视频单元的单元特征，获取该至少两个视频片段的片段特征；

将该至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合，得到该至少两个视频片段的融合片段特征；

基于该至少两个视频片段的融合片段特征，得到该至少两个视频片段的第一注意力权重，该第一注意力权重用于指示视频片段与该目标文本之间的匹配度；

根据所述第一注意力权重，从该至少两个视频片段中获取与该目标文本之间的匹配度满足参考条件的视频片段，作为所述视频中与所述目标文本相关的目标视频片段。

一方面，提供了一种视频片段定位装置，该装置包括：

第一获取模块，用于对视频中至少两个视频片段包括的视频单元进行特征提取，得到该视频单元的单元特征；

第二获取模块，用于基于该至少两个视频片段所包括视频单元的单元特征，获取该至少两个视频片段的片段特征；

特征融合模块，用于将该至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合，得到该至少两个视频片段的融合片段特征；

第三获取模块，用于基于该至少两个视频片段的融合片段特征，得到该至少两个视频片段的第一注意力权重，该第一注意力权重用于指示视频片段与该目标文本之间的匹配度；

第四获取模块，用于根据所述第一注意力权重，从该至少两个视频片段中，获取与该目标文本之间的匹配度满足参考条件的视频片段，作为所述视频中与所述目标文本相关的目标视频片段。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器加载并执行以实现该视频片段定位方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储计算机程序，所述计算机程序用于执行以上方面的视频片段定位方法。

一方面，提供了一种计算机程序产品，该计算机程序产品包括至少一条程序代码，该至少一条程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该至少一条程序代码，处理器执行该至少一条程序代码，使得该计算机设备实现该视频片段定位方法所执行的操作。

本申请实施例提供的技术方案，通过获取视频单元维度的单元特征，根据单元特征确定视频片段的片段特征，获取到的片段特征中融合了多个视频单元的特征和视频单元之间的时序关联性；再将视频片段的片段特征与目标文本的文本特征进行融合，特征融合过程中充分应用了视频片段维度的特征以及各个视频片段之间的时序关联性，从而基于融合后的特征可以获取到更准确的注意力权重，由注意力权重来表示视频片段和目标文本之间的匹配度，进而在基于注意力权重进行视频片段定位时，可以更准确的定位出与目标文本相匹配的目标视频片段。

附图说明

图1是本申请实施例提供的一种视频片段定位方法的实施环境示意图；

图2是本申请实施例提供的一种视频片段定位方法的流程图；

图3是本申请实施例提供的一种视频片段、视频单元示意图；

图4是本申请实施例提供的一种视频识别模型的结构示意图；

图5是本申请实施例提供的一种视频片段定位方法的具体流程图；

图6是本申请实施例提供的一种采样方法示意图；

图7是本申请实施例提供的一种片段特征获取方法的示意图；

图8是本申请实施例提供的一种第一注意力权重调整方法的示意图；

图9是本申请实施例提供的一种目标视频片段的显示方式示意图；

图10是本申请实施例提供的另一种目标视频片段的显示方式示意图；

图11是本申请实施例提供的一种视频识别模型训练方法的流程图；

图12是本申请实施例提供的一种视频识别模型数据处理过程的示意图；

图13是本申请实施例提供的一种视频片段定位装置的结构示意图；

图14是本申请实施例提供的一种终端的结构示意图；

图15是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习等几大方向。本申请涉及人工智能技术中的计算机视觉技术，应用视频识别模型对视频进行语义理解，基于一段文本描述，从视频中准确定位出与该文本描述相匹配的视频片段，而无需用户手动筛选大量视频。

图1是本申请实施例提供的一种视频片段定位方法的实施环境示意图。该实施环境包括：终端110和视频识别平台140。

终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110安装和运行有支持视频识别、视频片段定位的应用程序。该应用程序可以是视频检索类应用程序等。示例性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账号。终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

视频识别平台140用于为支持视频片段定位的应用程序提供后台服务。可选地，视频识别平台140承担主要视频识别工作，终端110承担次要视频识别工作；或者，视频识别平台140承担次要视频识别工作，终端110承担主要视频识别工作；或者，视频识别平台140或终端110分别可以单独承担视频识别工作。可选地，视频识别平台140包括：接入服务器、视频识别服务器和数据库。接入服务器用于为终端110提供接入服务。视频识别服务器用于提供视频识别、视频片段定位有关的后台服务。视频识别服务器可以是一台或多台。当视频识别服务器是多台时，存在至少两台视频识别服务器用于提供不同的服务，和/或，存在至少两台视频识别服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。视频识别服务器中可以设置有视频识别模型，该视频识别服务器为该模型的训练和应用过程提供支撑。其中，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

上述终端110与视频识别平台140可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例对此不作限定。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

本申请实施例提供了一种基于弱监督学习的视频片段定位方法，通过一段自然语言的描述定位出一个视频片段。本申请提供的技术方案可以应用于多种类型的应用程序中，与多种应用场景相结合。例如，在视频类应用程序中，用户在查找某一视频片段时，可以提供一段用于描述视频片段的文本信息，将该文本信息发送至应用程序对应的服务器，由服务器基于该文本信息的文本特征以及各个视频片段的片段特征，确定出与该文本信息相匹配的目标视频片段，而无需用户手动筛选大量的视频。应用本申请实施例提供的技术方案，可以快速、准确地定位出用户感兴趣的视频片段，且应用视频片段维度的特征进行视频片段定位，从而在运算过程中可以融合各个视频片段之间的关联性，提高视频片段定位的效率。

图2是本申请实施例提供的一种视频片段定位方法的流程图。该方法可以应用于上述实施环境，在本申请实施例中，以服务器作为执行主体，对视频片段定位方法进行介绍，参见图2，该实施例具体可以包括以下步骤：

201、服务器对视频中至少两个视频片段包括的视频单元进行特征提取，得到该视频单元的单元特征。

其中，该视频可以为存储在服务器中的视频，也可以为服务器从其他设备获取的视频，本申请实施例对具体采用哪种视频不作限定。在本申请实施例中，可以将视频中单位时长的一个片段作为一个视频单元，该视频包括多个连续的视频单元，每个视频单元包括多个视频帧。其中，该单位时长可以由开发人员进行设置，本申请实施例对此不作限定，例如，该单位时长设置为1秒，则视频中每1秒的片段均可以作为一个视频单元。

在本申请实施例中，视频包括多个不同时长的视频片段。在一种可能实现方式中，可以通过多个不同尺度的滑动窗口，在视频中确定多个不同时长的视频片段，当然，也可以通过其他方法确定该视频片段，本申请实施例对此不作限定。图3是本申请实施例提供的一种视频片段、视频单元示意图，参见图3，视频301包括多个连续的视频单元，例如，包括视频单元302、303、304、305、306等，其中，视频片段307包括视频单元302、303、304，视频片段308包括视频片段304、305。

在一种可能实现方式中，服务器响应于对视频的视频片段定位指令，可以通过三维卷积层对视频进行特征提取，得到各个视频单元的单元特征。当然，该计算机设备也可以通过其他方法获取各个视频单元的单元特征，本申请实施例对此不作限定。

在视频中，相邻的视频帧之间会具有较高的相似性，在本申请实施例中，获取视频单元维度的特征，可以降低数据冗余，降低获取到的特征的数据量，从而可以降低后续运算过程的数据量，降低运算复杂度。

202、服务器基于至少两个视频片段所包括视频单元的单元特征，获取至少两个视频片段的片段特征。

其中，该片段特征可以用于表示视频片段中视频帧图像的颜色特征、纹理特征等，还可以包括各个视频帧之间的时序关联性。不同视频片段对应于不同的片段特征。

在一种可能实现方式中，该服务器基于各个视频片段所包括的视频单元以及各个视频单元的单元特征，确定各个视频片段的初始片段特征，再对各个视频片段的初始片段特征进行采样，将采样过程中提取出的特征确定为该视频片段的片段特征。需要说明的是，上述对片段特征获取方法的说明，仅是一种示例性说明，本申请实施例对具体采用哪种方法获取片段特征不作限定。

在本申请实施例中，基于视频片段维度的特征执行后续的视频片段定位步骤，从而在运算过程中可以融合视频片段之间的时序关联性，进而可以提高视频片段定位结果的准确率。

203、服务器将至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合，得到至少两个视频片段的融合片段特征。

其中，该目标文本用于描述一个视频片段，该目标文本可以由用户提供，本申请实施例对该目标文本的具体内容不作限定。

在一种可能实现方式中，服务器获取到目标文本后，可以对该目标文本进行特征提取，得到目标文本的文本特征，需要说明的是，本申请实施例对文本特征提取的具体方法不作限定。该服务器获取到视频片段的片段特征以及文本特征之后，可以将各个片段特征分别与文本特征进行跨模态特征融合，得到各个视频片段的片段融合特征。在本申请实施例中，获取到的片段融合特征充分融合了两种模态的特征，片段融合特征具有更好的表征效果，应用片段融合特征进行后续的视频片段定位，可以提高视频片段定位结果的准确率。

204、服务器基于至少两个视频片段的融合片段特征，得到至少两个视频片段的第一注意力权重，该第一注意力权重用于指示视频片段与目标文本之间的匹配度。

在一种可能实现方式中，该服务器通过至少一个卷积层，对各个视频片段的片段融合特征进行卷积运算，得到各个视频片段的第一注意力权重。其中，该第一注意力权重和视频片段与目标文本之间的匹配度正相关，即为与目标文本匹配度高的视频片段分配较高的注意力权重。

205、服务器根据该第一注意力权重从至少两个视频片段中，获取与该目标文本之间的匹配度满足参考条件的视频片段，作为该视频中与该目标文本相关的目标视频片段。

其中，该参考条件可以由开发人员进行设置，本申请实施例对此不作限定。例如，该参考条件可以设置为将注意力权重最高的视频片段作为该目标视频片段。

上述实施例是对本申请实施方式的一个简要介绍，在一种可能实现方式中，服务器中搭载有视频识别模型，该视频识别模型用于提供视频片段定位功能，服务器可以调用该视频识别模型来执行上述实施例中的各个步骤。图4是本申请实施例提供的一种视频识别模型的结构示意图，该视频识别模型可以为基于深度神经网络构建的模型，例如，该深度神经网络可以为RNN(Recurrent Neural Network，循环神经网络)、CNN(Convolutional Neural Networks，卷积神经网络)等。如图4所示，在一种可能实现方式中，该视频识别模型可以包括特征提取单元401、采样单元402、三维卷积层403、特征融合单元404以及至少一个二维卷积层405。其中，该特征提取单元401可以由至少一个三维卷积层和至少一个一维卷积层构成，通过对视频对应的数字矩阵进行至少一次卷积运算，来提取视频中各个视频单元的特征；该采样单元402可以基于各个视频片段所包括的视频单元以及各个视频单元的单元特征进行特征采样；该三维卷积层403对采样单元的输出结果进行卷积运算，得到各个视频片段的片段特征；该特征融合单元404用于对视频片段的片段特征和目标文本的文本特征进行融合；该至少一个二维卷积层405通过对融合后的特征进行至少一次卷积运算，得到各个视频片段的注意力权重。需要说明的是，本申请实施例对该视频识别模型中特征提取单元、采样单元、三维卷积层、特征融合单元以及至少一个二维卷积层的具体数目和连接方式不作限定。

图5是本申请实施例提供的一种视频片段定位方法的具体流程图，以下结合图4和图5，以服务器为执行主体，对上述视频片段定位方法进行说明：

501、服务器对视频中视频单元进行特征提取，得到视频单元的单元特征。

在一种可能实现方式中，服务器接收到终端发送的视频片段定位请求，调用视频识别模型，通过该视频识别模型中的特征提取单元，来提取各个视频单元的单元特征。其中，该终端可以为任一用户使用的终端，用户可以通过终端向服务器发送视频片段定位请求，来查询感兴趣的视频片段。需要说明的是，本申请实施例对该视频片段定位请求的具体触发方式不作限定。

在一种可能实现方式中，该视频片段定位请求可以包括用于描述一个视频片段的目标文本以及视频标识，其中，该视频标识可以用于唯一地指示一个视频片段，该服务器响应于该视频片段定位请求，可以获取该视频标识所指示的视频，基于该视频以及目标文本执行后续的视频片段定位步骤。

在一种可能实现方式中，该视频片段定位请求可以包括目标文本，在这种情况下，服务器响应于该视频片段定位请求，可以先获取与该目标文本匹配的至少一个视频，基于该至少一个视频和该目标文本执行后续的视频片段定位步骤。需要说明的是，本申请实施例对该视频片段定位请求所包括的具体信息不作限定。在本申请实施例中，仅以对一个视频进行视频片段为例进行说明。

在本申请实施例中，以视频识别模型的特征提取单元包括一个三维卷积层和一个一维卷积层为例，对单元特征的获取过程进行说明。在一种可能实现方式中，该服务器将该视频中的各个视频帧转换为由一组像素值组成的数字矩阵，当然，该服务器还可以对各个视频帧进行尺寸变换、降噪处理等，本申请实施例对此不作限定。服务器将各个视频帧对应的数字矩阵输入视频识别模型，先由特征提取单元中的三维卷积层对各个视频帧对应的数字矩阵进行卷积运算，得到各个视频单元的初始单元特征。再通过一维卷积层对初始单元特征进行降维处理，得到视频单元的单元特征。以视频单元的时长为1秒，包括25个视频帧为例，对于每一个视频单元，三维卷积层的卷积核对这25个视频帧对应的数字矩阵进行卷积运算，得到初始单元特征；将各个视频单元的初始单元特征按照视频单元的时序顺序进行排列，得到特征F _v；通过一维卷积层对特征F _v进行卷积运算，得到特征F′ _v，特征F′ _v中的一个特征即为一个视频单元的单元特征。具体地，该一维卷积的过程可以表示为下述公式(1)：

F′ _v＝Conv1d(F _v) (1)

其中，

F′ _v中的每个元素，即每个单元特征的维度是

F′ _v包括T个单元特征；r表示维度的衰减倍数；Conv1d()表示一维卷积运算，该一维卷积运算所应用的卷积核大小可以由开发人员进行设置，本申请实施例对此不作具体限定。例如，可以将卷积核设置为3，以获取到视频单元维度的时序关联信息。

需要说明的是，上述对获取视频单元的单元特征的说明，仅是一种示例性说明，本申请实施例对具体采用哪种方法获取单元特征不作限定。

502、服务器基于至少两个视频片段所包括视频单元的单元特征，确定该至少两个视频片段的初始片段特征。

在一种可能实现方式中，对于一个视频片段，服务器可以获取视频片段所包括视频单元的单元特征，基于各个视频单元的时序顺序，对其单元特征进行拼接，例如，可以将各个视频单元的单元特征顺序连接。将拼接后的单元特征作为视频片段的初始片段特征。需要说明的是，上述对初始片段特征获取方法的说明，仅是一种示例性说明，本申请实施例对具体采用哪种方法获取该初始片段特征不作限定。

503、服务器对至少两个视频片段的初始片段特征进行采样，得到该至少两个视频片段的片段特征。

在本申请实施例中，服务器基于该视频片段的时长，确定该视频片段对应的采样时刻。对于一个视频片段，服务器可以基于该视频片段对应的采样时刻，对该视频片段的初始片段特征进行采样，得到该视频片段的片段特征。其中，每个视频片段对应的采样时刻的数目相同，该采样时刻的数目可以由开发人员进行设置，本申请实施例对此不作限定。基于相同数目的采样时刻进行采样，可以将不同时长的视频片段采样到固定时长，每个视频片段可以对应于相同维度的特征，以便视频识别模型进行后续的运算过程。图6是本申请实施例提供的一种采样方法示意图，结合图6，以对一个视频片段的初始片段特征进行采样为例进行说明。如图6中的(a)图所示，视频片段601在视频中的起始时刻为第2秒，持续时长为3秒，该视频片段的初始片段特征602包括单元特征603、604和605，该视频片段可以对应于两个采样时刻，例如分别为采样时刻606和采样时刻607。以采样时刻606为例，该采样时刻606为两个视频单元之间的时刻，在该时刻进行采样时，需要对单元特征603和单元特征604进行加权运算，得到采样特征。例如，两个特征单元的总权重为1，由于采样时刻606 为两个视频单元之间的时刻，则单元特征603和单元特征604的权重均为0.5，也即是，服务器可以对两个单元特征中相同位置的元素相加再取平均，得到采样特征。如图6中的(b)图所示，若采样时刻608所指示的时刻为6.3秒，则在该时刻进行采样时，单元特征609对应的权重为1-dec(t _n)，其中，dec()表示取小数，t _n表示采样时刻，即单元特征609对应的权重为0.7，单元特征610对应的权重为dec(t _n)，即0.3，服务器分别将单元特征609和特征单元610与其对应的特征相乘，再将加权后的两个特征相加，得到采样特征。

在一种可能实现方式中，服务器通过构造采样矩阵，来进行采样。例如，服务器可以基于该至少两个视频片段对应的采样时刻以及该至少两个视频片段在该视频中的位置信息，构造采样矩阵；将该采样矩阵与该至少两个视频片段的初始片段特征相乘，得到采样特征矩阵，该采样特征矩阵中的一个特征用于表示一个视频片段的采样特征。具体地，上述采样过程可以表示为下述公式(2)，采样矩阵中各个元素可以基于下述公式(3)确定：

其中，F′ _v表示视频对应的单元特征序列；

表示矩阵乘法；W ₁表示采样矩阵，

T表示视频片段的起始时刻，S表示视频片段的持续时长，则(T×S)表示视频片段在视频中的位置；N表示采样时刻的数目；t _n表示采样时刻；dec(t _n)表示对t _n取小数；

表示向下取整，即取t _n的整数部分。在卷积运算时，采样矩阵W ₁可以基于各个视频片段在视频中的位置，确定该视频片段所包括的单元特征，即确定出视频单元的初始单元特征，基于各个视频片段的初始单元特征进行采样，得到采样特征矩阵F″ _v。

在本申请实施例中，服务器可以对该至少两个视频片段的采样特征进行降维处理，得到该至少两个视频片段的片段特征。在一种可能实现方式中，服务器可以通过三维卷积层对采样特征矩阵进行卷积，以在采样时序维度上对各个视频片段的采样特征进行降维处理。上述降维处理的过程可以表示为下述公式(4)：

F _vp＝Conv3d(F″ _v) (4)

其中，F″ _v表示采样特征矩阵；Conv3d()表示三维卷积运算；F _vp是片段特征矩阵，F _vp中的一个特征用于表示一个视频片段的片段特征。

图7是本申请实施例提供的一种片段特征获取方法的示意图，结合图7，对上述片段特征获取方法进行说明。在一种可能实现方式中，对于视频片段701，其初始片段特征702包括单元特征703、704、705和706，该初始单元特征对应702对应采样时刻707、708和709。以在采样时刻708进行采样为例，可以对单元特征704和705求和取平均，得到采样时刻708对应的采样特征710，再基于各个采样时刻对应的采样特征，得到视频片段701的采样特征711。服务器基于各个视频片段在视频中的位置信息以及各个视频片段的采样特征，构造特征图712，该特征图的横向为视频片段的起始时间，纵向为视频片段的持续时长，一个位置用于存储一个视频片段的采样特征，例如，其中713位置表示起始时刻为0秒，持续时长为4秒的视频片段的采样特征。

该特征图712中各个位置均存储视频片段的采样特征，即得到采样特征矩阵F″ _v，通过三维卷积层对该采样特征矩阵F″ _v进行降维处理，得到片段特征矩阵F _vp，即矩阵714，该矩阵714中的一个特征715表示一个视频片段的片段特征。

需要说明的是，上述步骤502和步骤503，是服务器基于至少两个视频片段所包括视频单元的单元特征，获取该至少两个视频片段的片段特征。在本申请实施例中，对单元特征进行特征提取，得到片段特征，一方面，可以在片段特征中融合各个视频单元的单元特征以及单元特征之间的时序关系，另一方面，通过采样使不同时长的视频片段均对应于相同维度的片段特征，便于模型基于片段特征进行后续的运算。

504、服务器获取目标文本的文本特征。

其中，该目标文本为用于描述一个视频片段的一段文本，例如，用户在进行视频片段检索时输入的一段文本。

在一种可能实现方式中，服务器获取目标文本中的各个单词的one-hot(独热)编码，通过Embed(词嵌入)层将各个单词的one-hot编码映射为词向量。其中，该Embed层可以为表现为一个全连接层，服务器通过将各个单词的one-hot编码与该全连接层的系数矩阵相乘，得到各个单词的词向量，从而得到目标文本的向量表示。服务器可以将目标文本的向量表示输入GRU(Gate Recurrent Unit，循环神经网络)由该循环神经网络基于目标文本的向量表示来提取目标文本的文本特征。需要说明的是，上述对目标文本的文本特征获取方法的说明，仅是一种示例性说明，本申请实施例对具体采用哪种方法获取该文本特征不作限定。

需要说明的是，在本申请实施例中，采用先获取视频片段的片段特征，再获取目标文本的文本特征的执行顺序进行描述，在一些实施例中，也可以先执行获取文本特征的步骤，再执行获取片段特征的步骤，或者两个步骤同时执行，本申请实施例对此不作限定。

505、服务器将至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合，得到至少两个视频片段的融合片段特征。

在一种可能实现方式中，服务器可以通过视频识别模型中的特征融合单元对片段特征和文本特征进行跨模态特征融合。首先，服务器基于该至少两个视频片段的片段特征以及该至少两个视频片段在该视频中的位置信息，构造该视频对应的第一特征矩阵，也即是步骤503中的片段特征矩阵F _vp，在步骤503中，通过矩阵卷积可以直接得到该片段特征矩阵F _vp，则此处可以无需再次构造该片段特征矩阵F _vp，若片段特征是基于其他方式获取的，则此处需要构造出片段特征矩阵F _vp。然后，服务器基于该第一特征矩阵的维度，对该文本特征进行维度扩展，得到扩展矩阵，其中，该扩展矩阵的维度与该第一特征矩阵的维度相同，以便于进行特征融合。最后，服务器将该第一特征矩阵与该扩展矩阵进行特征融合，得到该至少两个视频片段的融合片段特征。例如，服务器将该第一特征矩阵与该扩展矩阵中相同位置的元素相乘，得到中间特征矩阵；对该中间特征矩阵进行池化处理，得到第二特征矩阵，该第二特征矩阵中的一个特征用于表示一个视频片段的融合片段特征。具体地，以采用双线性池化方法进行特征融合为例，对上述特征融合过程进行说明，在一种可能实现方式中，服务器可以将两种模态的特征输入线性层，即全连接层，将经过线性变换的两种模态的特征中相同位置元素相乘，得到中间特征矩阵，对该中间特征矩阵进行池化处理，得到第二特征矩阵。上述双线性池化特征融合方法可以表示为下述公式(5)：

其中，

为可学习参数，可以表示为两个全连接层，各个全连接层中的参数数值可以在模型训练过程中确定；F _vp表示视频对应的第一特征矩阵；F _q表示目标文本的文本特征，Tile(F _q)表示将文本特征F _q沿着T维度和S维度分别进行复制；°表示两个矩阵中相同位置的元素相乘；SumPool(x，K)表示使用大小为K的滑动窗口对x进行加和池化；F _ap表示第二特征矩阵。

506、服务器基于至少两个视频片段的融合片段特征，得到该至少两个视频片段的第一注意力权重。

其中，第一注意力权重用于指示视频片段与该目标文本之间的匹配度，在本申请实施例中，第一注意力权重的取值与视频片段和目标文本之间的匹配度正相关。

在一种可能实现方式中，服务器通过视频识别模型中的至少一个二维卷积层，对特征融合后得到的第二特征矩阵进行至少一次卷积运算，得到第一注意力矩阵，当然，该服务器还可以对卷积运算的结果进行归一化处理，将归一化处理后的矩阵作为第一注意力矩阵，该第一注意力矩阵中的一个元素用于表示一个视频片段的该第一注意力权重。上述第一注意力矩阵的获取方法可以表示为下述公式(6)：

Att _p＝Softmax(Conv2d(F _ap)) (6)

其中，F _ap表示第二特征矩阵；Conv2d()表示二维卷积运算；Softmax()表示归一化处理函数。

507、服务器根据该第一注意力权重，从至少两个视频片段中获取与该目标文本之间的匹配度满足参考条件的视频片段，作为该视频中与该目标文本相关的目标视频片段。

其中，该参考条件可以由开发人员进行设置，本申请实施例对此不作限定。例如，该参考条件可以设置为将第一注意力权重最高的视频片段确定为目标视频片段，也可以设置为将第一注意力权重大于权重阈值的视频片段确定为目标视频片段。

上述实施例主要介绍了基于视频片段维度的特征进行视频片段定位的过程，在本申请实施例中，还可以获取各个视频单元与目标文本之间的匹配度，基于各个视频单元与目标文本之间的匹配度，对各个视频片段的第一注意力权重进行调整，基于调整后的第一注意力权重进行视频片段定位。图8是本申请实施例提供的一种第一注意力权重调整方法的示意图，参见图8，该方法可以包括以下步骤：

801、服务器将视频单元的单元特征分别与目标文本的文本特征进行融合，得到该视频单元的融合单元特征。

在一种可能实现方式中，服务器获取到各个视频单元的单元特征后，可以对各个单元特征进行采样和降维处理，使单元特征更容易被视频识别模型理解。以对时长为1秒的视频单元的单元特征进行处理为例，服务器可以将采样矩阵W ₂与视频对应的单元特征序列F′ _v相乘，以对单元特征进行采样。其中，由于各个视频单元的时长为1秒，则采样矩阵

服务器将采样结果输入视频识别模型中的三维卷积层，由三维卷积层对采样结果进行降维处理，得到处理后的单元特征序列F _vc，单元特征序列F _vc中的一个特征即为一个处理后的单元特征。其中，该三维卷积层与步骤503中对片段特征进行降维处理时应用的三维卷积层相同。

在一种可能实现方式中，服务器可以基于单元特征序列F _vc的维度，对文本特征的维度进行扩展，将扩展后的文本特征与单元特征序列F _vc进行特征融合，得到融合单元特征序列F _ac，融合单元特征序列F _ac中的一个特征基于一个视频单元的融合单元特征。需要说明的是，该融合单元特征的获取方法与上述步骤505中融合片段特征的获取方法同理，在此不作赘述。上述融合单元特征的获取方法可以表示为下述公式(7)：

其中，

为可学习参数，可以表示为两个全连接层，各个全连接层中的参数数值可以在模型训练过程中确定；F _vc表示视频对应的第一特征矩阵；F _q表示目标文本的文本特征，Tile(F _q)表示将文本特征F _q沿着T维度和S维度分别进行复制；°表示两个矩阵中相同位置的元素相乘；SumPool(x，K)表示使用大小为K的滑动窗口对x进行加和池化；F _ac表示融合单元特征序列。

802、服务器基于视频单元的融合单元特征，得到视频单元的第二注意力权重。

在一种可能实现方式中，服务器可以对融合单元特征序列F _ac进行二维卷积，对卷积结果进行归一化处理，再将归一化处理后的到矩阵与视频的全局特征矩阵相乘，得到第二注意力矩阵，该第二注意力矩阵中的一个元素用于表示一个视频单元的第二注意力权重。其中，该视频的全局特征矩阵可以基于步骤503中获取的片段特征矩阵和步骤506中获取的第一注意力矩阵得到，具体可以表示为下述公式(8)：

其中，

表示全局特征矩阵；F _vp表示片段特征矩阵；Att _p表示第一注意力矩阵；表示矩阵乘法。

上述第二注意力矩阵的获取方法可以表示为下述公式(9)：

其中，Att _c表示第二注意力矩阵；F _ac表示融合单元特征序列；Conv2d()表示二维卷积运算；

表示全局特征矩阵；Softmax()表示归一化处理函数。

需要说明的是，上述步骤801和步骤802，是获取该至少两个视频单元的第二注意力权重的步骤。在本申请实施例中，获取视频单元级别的注意力权重，基于多级别的注意力权重进行后续的视频片段定位，可以提高视频片段定位结果的准确性。

803、服务器基于至少两个视频片段所包括视频单元的第二注意力权重，对至少两个视频片段的第一注意力权重进行调整。

在一种可能实现方式中，对于至少两个视频片段中的任一视频片段：目标视频片段，服务器从目标视频片段包括的视频单元中，确定该目标视频片段的中心时刻对应的目标视频单元；基于该目标视频单元的第二注意力权重，对该目标视频片段的第一注意力权重进行调整。上述对第一注意力权重进行调整的过程可以表示为下述公式(10)：

Att′ _p(i)＝Att _p(i)+αAtt _c(j) (10)

其中，i表示第i个视频片段，Att _p(i)表示第i个视频片段的第一注意力权重；j表示第j个视频单元，j的具体数值为

T _i为第i个视频片段的起始时刻，S _i为第i个视频片段的持续时长，Att _c(j)表示第j个视频单元的第二注意力权重；Att′ _p(i)表示调整后的第一注意力权重；α表示超参数，其具体数值可以由开发人员进行设置，本申请实施例对此不作限定。

本申请实施例提供的技术方案，将视频识别模型扩展为多级别结构，即包括视频片段级的数据处理分支和视频单元级的数据处理分支，获取到视频单元维度的第二注意力权重，应用第二注意力权重对视频片段维度的第一注意力权重进行调整，以提高第一注意力权重的准确性，进而可以提高视频片段定位结果的准确性。

上述实施例介绍了基于自然语言描述进行视频片段定位的过程，在本申请实施例中，确定出目标视频片段后，可以对目标视频片段进行显示。

在一种可能实现方式中，服务器可以将视频片段定位结果发送到用户使用的终端，由终端在视频的播放界面显示标注信息，该标注信息用于指示该目标视频片段的起始时刻和结束时刻。例如，用户在终端上观看视频，有视频片段搜索需求时，可以在该视频的播放界面中搜索区域输入目标文本，点击搜索控件，终端响应于将测到用户对搜索控件的触发操作，生成视频片段定位请求，该视频片段定位请求包括该视频的视频标识和目标文本。当然，该终端也可以通过其他方式生成该视频片段定位请求，本申请实施例对此不作限定。终端将该视频片段定位请求发送到服务器，由服务器在视频中定位出与该目标文本相匹配的目标视频片段，该服务器可以将该目标视频片段的起始时刻和持续时长发送至终端。终端可以基于该目标视频片段的起始时刻和持续时长，在该播放界面的播放进度条中，对该目标视频片段的起始时刻和结束时刻进行标注。

参见图9，图9是本申请实施例提供的一种目标视频片段的显示方式示意图，该播放界面包括视频播放区域901和视频播放进度栏902，终端可以在该视频播放进度栏902中显示标注信息，该标注信息用于指示该目标视频片段的起始时刻和结束时刻。在一种可能实现方式中，终端还可以跳转至目标视频片段进行播放，即从当前播放时刻跳转至目标视频片段的起始时刻，从该起始时刻开始播放视频。在一种可能实现方式中，该服务器还可以从视频中截取出该目标视频片段，生成该目标视频片段的播放链接，将该播放链接发送至终端，由终端在该视频的该播放界面显示该目标视频片段的链接或超链接，该链接或超链接用于提供对该目标视频片段进行播放的功能。

参见图10，图10是本申请实施例提供的另一种目标视频片段显示方式示意图，该播放界面包括视频播放区域1001和视频片段显示区域1002。需要说明的是，本申请实施例对该视频片段显示区域1002在播放界面中的位置不作限定，在本申请实施例中，以该视频片段显示区域1002在视频播放区域1001的下方为例。终端可以以超链接的形式，在该视频片段显示区域1002显示该目标视频片段的播放入口1003，终端响应于用户点击该播放入口1003，跳转至该目标视频片段对应的播放界面，播放该目标视频片段。

在本申请实施例中，若该视频片段定位请求中不包括视频标识，即不是对某一视频进行视频片段定位，则服务器将目标文本与多个视频中的视频片段进行匹配，获取到来自多个视频的目标视频片段。在一种可能实现方式中，服务器可以为每个目标视频片段生成播放链接，在终端分别显示各个视频片段的播放链接，由用户点击各个播放链接进行视频片段播放。在一种可能实现方式中，服务器可以基于多个目标视频片段生成一个影片集，将该影片集的链接或超链接发送至终端进行显示，用户可以在该影片集中观看到多个感兴趣的目标视频片段，还可以将该影片集存储至终端。在本申请实施例中，通过生成影片集可以提高视频观看的趣味性，提升用户体验。

在本申请实施例中，用户在进行视频片段定位时，只需提供一段用于描述视频片段的文本即可，无需人工对大量的视频进行检索，服务器对视频片段定位完成后，再由终端对服务器的视频片段定位结果进行显示，用户可以快速获取到感兴趣的视频片段，提高了视频片段定位效率。

上述实施例主要介绍了应用视频识别模型进行视频片段定位，显示视频片段定位结果的过程，而在视频片段定位之前，需对该视频识别模型进行训练，以调整视频识别模型中各个运算层的参数，在本申请实施例中，服务器可以搭载有重构模块，由该重构模块基于视频片段的片段特征预测出第一候选文本，基于第一候选文本与目标文本之间的误差，调整视频识别模型的各个参数。图11是本申请实施例提供的一种视频识别模型训练方法的流程图，参见图11，该过程具体可以包括以下步骤：

1101、服务器初始化视频识别模型中的各个参数。

在一种可能实现方式中，服务器通过对该视频识别模型中各个卷积层、池化层、全连接层的参数进行随机赋值，来实现参数初始化。例如，服务器可以采用方差为0.01，均值为0的高斯分布对该视频识别模型进行参数初始化，需要说明的是，本申请实施例对模型参数初始化的具体方法不作限定。

1102、服务器将训练数据集输入视频识别模型。

其中，该训练数据集可以包括多个样本视频，该多个样本视频为已标注的样本视频，每个样本视频均标注出其对应的文本信息。在本申请实施例中，通过弱监督的方式进行模型训练，无需时序上细粒度的标注，即无需标注各个视频片段的起始时刻、结束时刻以及对应的文本信息，降低训练数据集的获取难度。

在一种可能实现方式中，服务器将多个已标注的样本视频输入视频识别模型，该视频识别模型基于样本视频中视频片段与文本信息之间的匹配度，输出由该文本信息定位到的目标视频片段。需要说明的是，该目标视频片段的获取方法与上述步骤501至507中视频片段定位的过程同理，在此不作赘述。

1103、服务器基于视频识别模型输出的第一注意力权重以及片段特征，确定第一候选文本，获取第一候选文本与目标文本之间的第一误差值。

在一种可能实现方式中，首先，服务器基于至少两个视频片段的第一注意力权重对该至少两个视频片段的片段特征进行加权运算，得到该至少两个视频片段的加权片段特征。具体地，该服务器可以将片段特征矩阵与第一注意力矩阵相乘，得到全局特征矩阵

该全局特征矩阵

中的一个特征即为一个视频片段的加权片段特征。

然后，服务器通过长短时记忆网络对该至少两个视频片段的加权片段特征进行特征提取，基于提取到的特征确定第一候选文本。在一种可能实现方式中，对第m个第一候选文本中的第m个词进行预测时，服务器可以将第m-1个词的CloVe词向量、第m-1个词的LSTM(Long Short-Term Memory，长短时记忆网路)隐层特征以及全局特征矩阵进行拼接，由长短时记忆网络基于拼接结果确定第m个词的隐层特征，基于获取到的隐层特征，确定该第m个词。上述获取第m个词的隐层特征的方法可以表示为下述公式(11)：

其中，

表示全局特征矩阵；h _m-1表示第m-1个词的隐层特征；e _m-1表示第m-1个词的CloVe词向量；

表示将

h _m-1和e _m-1进行拼接，例如，将

h _m-1和e _m-1首尾相连进行拼接；h _m表示第m个词的隐层特征。

最后，服务器获取该第一候选文本与该目标文本之间的误差值。在一种可能实现方式中，可以通过生成损失函数来获取该第一误差值，具体可以表示为下述公式(12)：

其中，M表示第一候选文本中的单词数量，m表示单词序号；

表示全局特征矩阵；h _m-1表示第m-1个词的隐层特征；w _m-1表示第m-1个词的编码表示。

1104、服务器基于该第一误差值对视频识别模型中各个运算层的参数进行调整，直到符合目标条件时，得到训练好的视频识别模型。

在一种可能实现方式中，该服务器可以将获取的第一误差值与误差阈值进行比较，当第一误差值大于误差阈值时，该计算机设备将该第一误差值反向传播到该视频识别模型，基于第一误差值求解该视频识别模型中的各个参数，该各个参数包括多个卷积核对应的参数、池化层对应的参数、各个全连接层的对应的参数等。其中，该误差阈值均可以由开发人员设置。

在本申请实施例中，该目标条件可以由开发人员进行设置，在一种可能实现方式中，该目标条件可以设置为获取到的输出结果正确的个数到达目标数目，其中，该目标数目可以由开发人员进行设置。当该第一误差值小于误差阈值时，则认为该服务器获取的目标识别结果正确，该服务器继续读取下一个样本视频，执行步骤1103，若该服务器获取到的输出结果正确的个数到达目标数目时，也即是符合该目标条件时，则认为该视频识别模型训练完毕。

需要说明的是，上述对视频识别模型训练方法的说明，仅是一种示例性说明，本申请实施例对具体采用哪种方法训练视频识别模型不作限定。

在一种可能实现方式中，当视频识别模型包括视频片段级的数据处理分支和视频单元级的数据处理分支时，服务器还可以基于视频单元级别的特征预测第二候选文本，基于该第二候选文本确定第二误差值，该第二误差值的获取方法可以表示为下述公式(13)：

其中，

表示第二误差值；

表示基于视频单元级的特征获取的全局特征矩阵；h _m-1表示第m-1个词的隐层特征；w _m-1表示第m-1个词的编码表示。需要说明的是，上述获取第二误差值的过程与步骤1103中获取第一误差值的过程同理，在此不做赘述。

在一种可能实现方式中，可以基于第一误差值

和第二误差值

得到一个总误差值L ^cap，基于该总误差值对视频识别模型中的参数进行调整。其中，该总误差值L ^cap可以表示为下述公式(14)：

其中，

表示第一误差值，

表示第二误差值，λ的数值可以由开发人员进行设置，本申请实施例对此不作限定。

图12是本申请实施例提供的一种视频识别模型数据处理过程的示意图，结合图12，对上述过程进行说明。在一种可能实现方式中，视频识别模型的数据处理过程可以包括特征提取阶段1201、注意力阶段1202以及重构阶段1203。在特征提取阶段1201，可以通过至少一个卷积层获取视频片段维度的特征1204、视频单元维度的特征1205以及文本特征1206；在注意力阶段1202，对文本特征和视频特征进行特征融合，通过至少一个二维卷积层，对融合后的特征进行卷积运算，得到视频片段维度的第一注意力权重1207以及视频单元维度的第二注意力权重1208。在测试过程中，可以基于第二注意力权重1208对第一注意力权重1207进行调整，基于调整后的第二注意力权重预测出目标视频片段1209,。在模型训练过程中，可以基于视频片段维度的特征1204和第一注意力权重1207，得到视频片段维度的第一全局特征1209，基于视频单元维度的特征1205和第二注意力权重1208，得到视频单元维度的第二全局特征1210，应用参数共享的LSTM网络，分别基于第一全局特征1209和第二全局特征1210，进行候选文本预测，通过损失函数，确定出候选文本与目标文本之间的误差。在本申请实施例中，基于视频片段和视频单元两个级别的数据进行模型训练，可以获取到模型表现更好的视频识别模型。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图13是本申请实施例提供的一种视频片段定位装置的结构示意图，参见图13，该装置包括：

第一获取模块1301，用于对视频中至少两个视频片段包括的视频单元进行特征提取，得到该视频单元的单元特征；

第二获取模块1302，用于基于至少两个视频片段所包括视频单元的单元特征，获取该至少两个视频片段的片段特征；

特征融合模块1303，用于将该至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合，得到该至少两个视频片段的融合片段特征；

第三获取模块1304，用于基于该至少两个视频片段的融合片段特征，得到该至少两个视频片段的第一注意力权重，该第一注意力权重用于指示视频片段与该目标文本之间的匹配度；

第四获取模块1305，用于根据所述第一注意力权重，从该至少两个视频片段中，获取与该目标文本之间的匹配度满足参考条件的视频片段，作为所述视频中与所述目标文本相关的目标视频片段。

在一种可能实现方式中，该第二获取模块1302包括：

初始片段特征获取子模块，用于基于该至少两个视频片段所包括视频单元的单元特征，确定该至少两个视频片段的初始片段特征；

采样子模块，用于对该至少两个视频片段的初始片段特征进行采样，得到该至少两个视频片段的片段特征。

在一种可能实现方式中，该采样子模块包括：

采样时刻确定单元，用于基于该视频片段的时长，确定该视频片段对应的采样时刻，每个视频片段对应的采样时刻的数目相同；

采样单元，用于基于该视频片段对应的采样时刻，对该视频片段的初始片段特征进行采样，得到该视频片段的片段特征。

在一种可能实现方式中，该采样单元用于：

基于该至少两个视频片段对应的采样时刻以及该至少两个视频片段在该视频中的位置信息，构造采样矩阵；

将该采样矩阵与该至少两个视频片段的初始片段特征相乘，得到采样特征矩阵，该采样特征矩阵中的一个特征用于表示一个视频片段的采样特征；

对该至少两个视频片段的采样特征进行降维处理，得到该至少两个视频片段的片段特征。

在一种可能实现方式中，该特征融合模块1303包括：

文本特征获取子模块，用于获取该目标文本的文本特征；

矩阵构造子模块，用于基于该至少两个视频片段的片段特征以及该至少两个视频片段在该视频中的位置信息，构造该视频对应的第一特征矩阵；

扩展子模块，用于基于该第一特征矩阵的维度，对该文本特征进行维度扩展，得到扩展矩阵，该扩展矩阵的维度与该第一特征矩阵的维度相同；

特征融合子模块，用于将该第一特征矩阵与该扩展矩阵进行特征融合，得到该至少两个视频片段的融合片段特征。

在一种可能实现方式中，该特征融合子模块用于：

将该第一特征矩阵与该扩展矩阵中相同位置的元素相乘，得到中间特征矩阵；

对该中间特征矩阵进行池化处理，得到第二特征矩阵，该第二特征矩阵中的一个特征用于表示一个视频片段的融合片段特征。

在一种可能实现方式中，该第三获取模块1304用于：

对该第二特征矩阵进行至少一次卷积运算，得到第一注意力矩阵，该第一注意力矩阵中的一个元素用于表示一个视频片段的该第一注意力权重。

在一种可能实现方式中，该装置还包括：

第五获取模块，用于获取该视频单元的第二注意力权重，该第二注意力权重用于指示视频单元与该目标文本之间的匹配度；

调整模块，用于基于该至少两个视频片段所包括视频单元的第二注意力权重，对该至少两个视频片段的第一注意力权重进行调整。

在一种可能实现方式中，该第五获取模块用于：

将该视频单元的单元特征分别与该目标文本的文本特征进行融合，得到该视频单元的融合单元特征；

基于该视频单元的融合单元特征，得到该视频单元的第二注意力权重。

在一种可能实现方式中，针对所述至少两个视频片段中的目标视频片段，该调整模块用于：

从该目标视频片段包括的视频单元中，确定该目标视频片段的中心时刻对应的目标视频单元；

基于该目标视频单元的第二注意力权重，对该目标视频片段的第一注意力权重进行调整。

在一种可能实现方式中，该装置还包括显示模块，用于执行下述任一项：

在该视频的播放界面显示标注信息，该标注信息用于指示该目标视频片段的起始时刻和结束时刻；或者

在该视频的该播放界面显示该目标视频片段的链接，该链接用于提供对该目标视频片段进行播放的功能。

在一种可能实现方式中，该装置还包括：

第六获取模块，用于基于该至少两个视频片段的第一注意力权重对该至少两个视频片段的片段特征进行加权运算，得到该至少两个视频片段的加权片段特征；

第七获取模块，用于通过长短时记忆网络对该至少两个视频片段的加权片段特征进行特征提取，基于提取到的特征确定第一候选文本；

第八获取模块，用于获取该第一候选文本与该目标文本之间的第一误差值。

本申请实施例提供的装置，通过获取视频单元维度的单元特征，根据单元特征确定视频片段的片段特征，获取到的片段特征中融合了多个视频单元的特征和视频单元之间的时序关联性；再将视频片段的片段特征与目标文本的文本特征进行融合，特征融合过程中充分应用了视频片段维度的特征以及各个视频片段之间的时序关联性，从而基于融合后的特征可以获取到更准确的注意力权重，由注意力权重来表示视频片段和目标文本之间的匹配度，进而在基于注意力权重进行视频片段定位时，可以更准确的定位出与目标文本相匹配的目标视频片段。

需要说明的是：上述实施例提供的视频片段定位装置在视频片段定位时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频片段定位装置与视频片段定位方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述技术方案所提供的计算机设备可以实现为终端或服务器，例如，图14是本申请实施例提供的一种终端的结构示意图。该终端1400可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1400包括有：一个或多个处理器1401和一个或多个存储器1402。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器1401所执行以实现本申请中方法实施例提供的视频片段定位方法。

在一些实施例中，终端1400还可选包括有：外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地，外围设备包括：射频电路1404、显示屏1405、摄像头组件1406、音频电路1407、定位组件1408和电源1409中的至少一种。

在一些实施例中，终端1400还包括有一个或多个传感器1410。该一个或多个传感器1410包括但不限于：加速度传感器1411、陀螺仪传感器1412、压力传感器1413、指纹传感器1414、光学传感器1415以及接近传感器1416。

本领域技术人员可以理解，图14中示出的结构并不构成对终端1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图15是本申请实施例提供的一种服务器的结构示意图，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1501和一个或多个的存储器1502，其中，该一个或多个存储器1502中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1501加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1500还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1500还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行以完成上述实施例中的视频片段定位方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的方法。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括至少一条程序代码，该至少一条程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该至少一条程序代码，处理器执行该至少一条程序代码，使得该计算机设备实现该视频片段定位方法所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来至少一条程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种视频片段定位方法，所述方法由视频识别平台执行，所述方法包括：

对视频中至少两个视频片段包括的视频单元进行特征提取，得到所述视频单元的单元特征；

基于所述至少两个视频片段所包括视频单元的单元特征，获取所述至少两个视频片段的片段特征；

将所述至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合，得到所述至少两个视频片段的融合片段特征；

基于所述至少两个视频片段的融合片段特征，得到所述至少两个视频片段的第一注意力权重，所述第一注意力权重用于指示视频片段与所述目标文本之间的匹配度；

根据所述第一注意力权重，从所述至少两个视频片段中获取与所述目标文本之间的匹配度满足参考条件的视频片段，作为所述视频中与所述目标文本相关的目标视频片段。
根据权利要求1所述的方法，所述基于所述至少两个视频片段所包括视频单元的单元特征，获取所述至少两个视频片段的片段特征，包括：

基于所述至少两个视频片段所包括视频单元的单元特征，确定所述至少两个视频片段的初始片段特征；

对所述至少两个视频片段的初始片段特征进行采样，得到所述至少两个视频片段的片段特征。
根据权利要求2所述的方法，所述对所述至少两个视频片段的初始片段特征进行采样，得到所述至少两个视频片段的片段特征，包括：

基于所述视频片段的时长，确定所述视频片段对应的采样时刻，每个视频片段对应的采样时刻的数目相同；

基于所述视频片段对应的采样时刻，对所述视频片段的初始片段特征进行采样，得到所述视频片段的片段特征。
根据权利要求3所述的方法，所述基于所述视频片段对应的采样时刻，对所述视频片段的初始片段特征进行采样，得到所述视频片段的片段特征，包括：

基于所述至少两个视频片段对应的采样时刻以及所述至少两个视频片段在所述视频中的位置信息，构造采样矩阵；

将所述采样矩阵与所述至少两个视频片段的初始片段特征相乘，得到采样特征矩阵，所述采样特征矩阵中的一个特征用于表示一个视频片段的采样特征；

对所述至少两个视频片段的采样特征进行降维处理，得到所述至少两个视频片段的片段特征。
根据权利要求1所述的方法，所述将所述至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合，得到所述至少两个视频片段的融合片段特征，包括：

获取所述目标文本的文本特征；

基于所述至少两个视频片段的片段特征以及所述至少两个视频片段在所述视频中的位置信息，构造所述视频对应的第一特征矩阵；

基于所述第一特征矩阵的维度，对所述文本特征进行维度扩展，得到扩展矩阵，所述扩展矩阵的维度与所述第一特征矩阵的维度相同；

将所述第一特征矩阵与所述扩展矩阵进行特征融合，得到所述至少两个视频片段的融合片段特征。
根据权利要求5所述的方法，所述将所述第一特征矩阵与所述扩展矩阵进行特征融合，得到所述至少两个视频片段的融合片段特征，包括：

将所述第一特征矩阵与所述扩展矩阵中相同位置的元素相乘，得到中间特征矩阵；

对所述中间特征矩阵进行池化处理，得到第二特征矩阵，所述第二特征矩阵中的一个特征用于表示一个视频片段的融合片段特征。
根据权利要求6所述的方法，所述基于所述至少两个视频片段的融合片段特征，得到所述至少两个视频片段的第一注意力权重，包括：

对所述第二特征矩阵进行至少一次卷积运算，得到第一注意力矩阵，所述第一注意力矩阵中的一个元素用于表示一个视频片段的所述第一注意力权重。
根据权利要求1所述的方法，所述根据所述第一注意力权重，从所述至少两个视频片段中获取与所述目标文本之间的匹配度满足参考条件的视频片段，作为所述视频中与所述目标文本相关的目标视频片段之前，所述方法还包括：

获取所述视频单元的第二注意力权重，所述第二注意力权重用于指示视频单元与所述目标文本之间的匹配度；

基于所述至少两个视频片段所包括视频单元的第二注意力权重，对所述至少两个视频片段的第一注意力权重进行调整。
根据权利要求8所述的方法，所述获取所述视频单元的第二注意力权重，包括：

将所述视频单元的单元特征分别与所述目标文本的文本特征进行融合，得到所述视频单元的融合单元特征；

基于所述视频单元的融合单元特征，得到所述视频单元的第二注意力权重。
根据权利要求8所述的方法，针对所述至少两个视频片段中的目标视频片段，所述基于所述至少两个视频片段所包括视频单元的第二注意力权重，对所述至少两个视频片段的第一注意力权重进行调整，包括：

从所述目标视频片段包括的视频单元中，确定所述目标视频片段的中心时刻对应的目标视频单元；

基于所述目标视频单元的第二注意力权重，对所述目标视频片段的第一注意力权重进行调整。
根据权利要求1所述的方法，所述根据所述第一注意力权重，从所述至少两个视频片段中，获取与所述目标文本之间的匹配度满足参考条件的视频片段，作为所述视频中与所述目标文本相关的目标视频片段之后，所述方法还包括下述任一项：

在所述视频的播放界面显示标注信息，所述标注信息用于指示所述目标视频片段的起始时刻和结束时刻；或者，

在所述视频的所述播放界面显示所述目标视频片段的链接，所述链接用于提供对所述目标视频片段进行播放的功能。
根据权利要求1所述的方法，所述根据所述第一注意力权重，从所述至少两个视频片段中，获取与所述目标文本之间的匹配度满足参考条件的视频片段，作为所述视频中与所述目标文本相关的目标视频片段之后，所述方法还包括：

基于所述至少两个视频片段的第一注意力权重对所述至少两个视频片段的片段特征进行加权运算，得到所述至少两个视频片段的加权片段特征；

通过长短时记忆网络对所述至少两个视频片段的加权片段特征进行特征提取，基于提取到的特征确定第一候选文本；

获取所述第一候选文本与所述目标文本之间的第一误差值。
一种视频片段定位装置，所述装置包括：

第一获取模块，用于对视频中至少两个视频片段包括的视频单元进行特征提取，得到所述视频单元的单元特征；

第二获取模块，用于基于所述至少两个视频片段所包括视频单元的单元特征，获取所述至少两个视频片段的片段特征；

特征融合模块，用于将所述至少两个视频片段的片段特征分别与目标文本的文本特征进行特征融合，得到所述至少两个视频片段的融合片段特征；

第三获取模块，用于基于所述至少两个视频片段的融合片段特征，得到所述至少两个视频片段的第一注意力权重，所述第一注意力权重用于指示视频片段与所述目标文本之间的匹配度；

第四获取模块，用于根据所述第一注意力权重，从所述至少两个视频片段中获取与所述目标文本之间的匹配度满足参考条件的视频片段，作为所述视频中与所述目标文本相关的目标视频片段。
一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的视频片段定位方法所执行的操作。
一种计算机可读存储介质，所述计算机可读存储介质中存储计算机程序，所述计算机程序用于执行权利要求1至权利要求12任一项所述的视频片段定位方法。
一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1至权利要求12任一项所述的视频片段定位方法。