WO2022134634A1

WO2022134634A1 - 视频处理方法及电子设备

Info

Publication number: WO2022134634A1
Application number: PCT/CN2021/114059
Authority: WO
Inventors: 高艳珺; 陈昕; 王华彦
Original assignee: 北京达佳互联信息技术有限公司
Priority date: 2020-12-22
Filing date: 2021-08-23
Publication date: 2022-06-30
Also published as: CN112261491B; US11651591B2; EP4047944A1; US20220327827A1; CN112261491A; EP4047944A4

Abstract

本公开提供了一种视频处理方法及电子设备。方法包括：将获取的视频文件和第一文本信息输入至视频处理模型的识别网络，得到第一文本信息匹配的第一视频段；将第一视频段输入至视频处理模型的特征提取网络，得到第一视频段的视频特征；将第一视频段的视频特征输入至视频处理模型的翻译网络，得到第一视频段的第二文本信息；基于视频处理模型输出第一视频段和第二文本信息。

Description

视频处理方法及电子设备

本公开基于申请日为2020年12月22日、申请号为202011526967.5的中国专利申请，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本公开作为参考。

技术领域

本公开涉及机器学习技术领域，特别涉及一种视频处理方法及电子设备。

背景技术

视频时序标注是视频处理、模式识别等任务中的一个重要过程。视频时序标注是指通过识别视频文件，从视频文件中预测出与文本信息匹配的起始时间和终止时间，根据该起始时间和终止时间，在该视频文件中标注出与该文本信息匹配的视频段。

发明内容

根据本公开实施例的一方面，提供了一种视频处理方法，所述方法包括：获取视频文件和第一文本信息；将所述视频文件和所述第一文本信息输入至视频处理模型的识别网络，得到所述第一文本信息匹配的第一视频段；将所述第一视频段输入至所述视频处理模型的特征提取网络，得到所述第一视频段的视频特征；将所述第一视频段的视频特征输入至所述视频处理模型的翻译网络，得到第一视频段的第二文本信息，所述第二文本信息用于描述所述第一视频段的视频内容；基于所述视频处理模型输出所述第一视频段和所述第二文本信息。

根据本公开实施例的另一方面，提供了一种视频处理模型的训练方法，所述方法包括：将视频样本输入至视频处理模型的识别网络，得到第三文本信息匹配的第二视频段，所述视频样本中标注有所述第三文本信息；基于所述第二视频段和所述视频样本中标注的第三视频段，确定所述识别网络的识别损失参数；基于所述第二视频段和所述第三文本信息，确定第一相似度和所述第二视频段的视频特征，所述第一相似度指示所述第二视频段和所述第三文本信息之间的相似度；基于所述第二视频段的视频特征和所述第三文本信息，确定所述视频处理模型的翻译网络的翻译质量参数，所述翻译质量参数表征所述翻译网络将视频特征翻译为文本信息的质量；基于所述识别损失参数、所述第一相似度和所述翻译质量参数，调整所述视频处理模型的参数。

根据本公开实施例的另一方面，提供了一种视频处理装置，所述装置包括：获取单元，被配置为获取视频文件和第一文本信息；时序标注单元，被配置为将所述视频文件和所述第一文本信息输入至视频处理模型的识别网络，得到所述第一文本信息匹配的第一视频段；特征提取单元，被配置为将所述第一视频段输入至所述视频处理模型的特征提取网络，得到所述第一视频段的视频特征；视觉文本翻译单元，被配置为将所述第一视频段的视频特征输入至所述视频处理模型的翻译网络，得到第一视频段的第二文本信息，所述第二文本信息用于描述所述第一视频段的视频内容；输出单元，被配置为基于所述视频处理模型输出所述第一视频段和所述第二文本信息。

根据本公开实施例的另一方面，提供了一种视频处理模型的训练装置，所述装置包括：时序标注单元，被配置为将视频样本输入至视频处理模型的识别网络，得到第三文本信息匹配的第二视频段，所述视频样本中标注有所述第三文本信息；第二确定单元，被配置为基于所述第二视频段和所述视频样本中标注的第三视频段，确定所述识别网络的识别损失参数；第三确定单元，被配置为基于所述第二视频段和所述第三文本信息，确定第一相似度和所述第二视频段的视频特征，所述第一相似度指示所述第二视频段和所述第三文本信息之间的相似度；第四确定单元，被配置为基于所述第二视频段的视频特征和所述第三文本信息，确定所述视频处理模型的翻译网络的翻译质量参数，所述翻译质量参数表征所述翻译网络将视频特征翻译为文本信息的质量；参数调整单元，被配置为基于所述识别损失参数、所述第一相似度和所述翻译质量参数，调整所述视频处理模型的参数。

根据本公开实施例的另一方面，提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如下步骤：获取视频文件和第一文本信息；将所述视频文件和所述第一文本信息输入至视频处理模型的识别网络，得到所述第一文本信息匹配的第一视频段；将所述第一视频段输入至所述视频处理模型的特征提取网络，得到所述第一视频段的视频特征；将所述第一视频段的视频特征输入至所述视频处理模型的翻译网络，得到第一视频段的第二文本信息，所述第二文本信息用于描述所述第一视频段的视频内容；基于所述视频处理模型输出所述第一视频段和所述第二文本信息。

根据本公开实施例的另一方面，提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如下步骤：将视频样本输入至视频处理模型的识别网络，得到第三文本信息匹配的第二视频段，所述视频样本中标注有所述第三文本信息；基于所述第二视频段和所述视频样本中标注的第三视频段，确定所述识别网络的识别损失参数；基于所述第二视频段和所述第三文本信息，确定第一相似度和所述第二视频段的视频特征，所述第一相似度指示所述第二视频段和所述第三文本信息之间的相似度；基于所述第二视频段的视频特征和所述第三文本信息，确定所述视频处理模型的翻译网络的翻译质量参数，所述翻译质量参数表征所述翻译网络将视频特征翻译为文本信息的质量；基于所述识别损失参数、所述第一相似度和所述翻译质量参数，调整所述视频处理模型的参数。

根据本公开实施例的另一方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如下步骤：获取视频文件和第一文本信息；将所述视频文件和所述第一文本信息输入至视频处理模型的识别网络，得到所述第一文本信息匹配的第一视频段；将所述第一视频段输入至所述视频处理模型的特征提取网络，得到所述第一视频段的视频特征；将所述第一视频段的视频特征输入至所述视频处理模型的翻译网络，得到第一视频段的第二文本信息，所述第二文本信息用于描述所述第一视频段的视频内容；基于所述视频处理模型输出所述第一视频段和所述第二文本信息。

根据本公开实施例的另一方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如下步骤：将视频样本输入至视频处理模型的识别网络，得到第三文本信息匹配的第二视频段，所述视频样本中标注有所述第三文本信息；基于所述第二视频段和所述视频样本中标注的第三视频段，确定所述识别网络的识别损失参数；基于所述第二视频段和所述第三文本信息，确定第一相似度和所述第二视频段的视频特征，所述第一相似度指示所述第二视频段和所述第三文本信息之间的相似度；基于所述第二视频段的视频特征和所述第三文本信息，确定所述视频处理模型的翻译网络的翻译质量参数，所述翻译质量参数表征所述翻译网络将视频特征翻译为文本信息的质量；基于所述识别损失参数、所述第一相似度和所述翻译质量参数，调整所述视频处理模型的参数。

根据本公开实施例的另一方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如下步骤：获取视频文件和第一文本信息；将所述视频文件和所述第一文本信息输入至视频处理模型的识别网络，得到所述第一文本信息匹配的第一视频段；将所述第一视频段输入至所述视频处理模型的特征提取网络，得到所述第一视频段的视频特征；将所述第一视频段的视频特征输入至所述视频处理模型的翻译网络，得到第一视频段的第二文本信息，所述第二文本信息用于描述所述第一视频段的视频内容；基于所述视频处理模型输出所述第一视频段和所述第二文本信息。

根据本公开实施例的另一方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如下步骤：将视频样本输入至视频处理模型的识别网络，得到第三文本信息匹配的第二视频段，所述视频样本中标注有所述第三文本信息；基于所述第二视频段和所述视频样本中标注的第三视频段，确定所述识别网络的识别损失参数；基于所述第二视频段和所述第三文本信息，确定第一相似度和所述第二视频段的视频特征，所述第一相似度指示所述第二视频段和所述第三文本信息之间的相似度；基于所述第二视频段的视频特征和所述第三文本信息，确定所述视频处理模型的翻译网络的翻译质量参数，所述翻译质量参数表征所述翻译网络将视频特征翻译为文本信息的质量；基于所述识别损失参数、所述第一相似度和所述翻译质量参数，调整所述视频处理模型的参数。

本公开实施例提供的视频处理模型包括识别网络、特征提取网络和翻译网络，在对视频文件进行处理的过程中，能够基于识别网络识别出视频文件中与第一文本信息匹配的第一视频段，以及基于翻译网络翻译出第一视频段的第二文本信息，因此，对于该视频处理模型来说，能够输出第一视频段以及第二文本信息，即基于一个视频处理模型，得到视频文件的多种输出结果，提高了视频标注结果的多样性。

附图说明

图1为根据一示例性实施例提供的一种视频处理方法流程图；

图2为根据一示例性实施例提供的一种视频处理模型的训练方法流程图；

图3为根据一示例性实施例提供的一种视频处理方法流程图；

图4为根据一示例性实施例提供的一种视频处理方法流程图；

图5为根据一示例性实施例提供的一种视频处理方法流程图；

图6是根据一示例性实施例提供的一种视频处理装置的框图；

图7是根据一示例性实施例提供的一种终端的结构示意图；

图8是根据一示例性实施例提供的一种服务器的结构示意图。

具体实施方式

随着机器学习技术的发展，视频时序标注的应用场景越来越广泛。例如，视频时序标注应用在视频处理、模式识别等场景中。在一些实施例中，通过视频时序标注来剪辑原视频文件，得到与待查询的文本信息匹配的视频段。例如，在剪辑视频的过程中，电子设备接收用户输入的待查询的文本信息，根据该待查询的文本信息识别视频文件中的视频内容，将识别到的视频段剪辑出来，得到剪辑完成的视频段。在另一些实施例中，通过视频时序标注来识别原视频文件，得到与待查询的文本信息匹配的视频文件。例如，在进行视频搜索时，电子设备接收用户输入的待查询的文本信息，根据该待查询的文本信息搜索多个视频文件，得到包含与该待查询的文本信息匹配的视频段的视频文件，反馈该视频文件。

相关技术中，在进行视频时序标注时，时序标注模型只有时序标注的功能。因此，在通过时序标注模型进行视频时序标注时，只能得到单一的视频标注结果，即视频段。

相应的，在对视频文件进行视频处理之前，需要对待训练的视频处理模型进行模型训练，得到训练完成的视频处理模型。相关技术中，在对视频处理模型进行模型训练时，将视频样本输入至待训练的视频处理模型，基于视频处理模型产生的识别损失参数，调整视频处理模型的参数，直到完成模型训练，得到视频处理模型。这样模型训练的过程中，只将识别损失参数作为衡量视频处理模型是否训练完成的标准，使得模型训练的训练指标较为单一，在训练过程中出现特征提取不准确等问题的情况下，造成文本特征与视频文件的视频特征匹配度出现错误，导致训练得到的视频处理模型不准确。

在本公开实施例中，在视频处理模型中结合识别网络、特征提取网络和翻译网络，能够通过识别网络确定视频文件中与待查询的第一文本信息匹配的第一视频段，通过特征提取网络对该第一视频段进行特征提取，通过翻译网络对提取的视频特征进行视觉文本翻译，得到该第一视频段的第二文本信息，使得在标注视频文件的过程中，能够得到标注的第一视频段以及该第一视频段对应的第二文本信息，从而实现通过一个视频处理模型，就能得到视频文件的多种输出结果，提高了视频标注结果的多样性。

并且，在训练视频处理模型的过程中，对视频处理模型中的识别网络、特征提取网络和翻译网络共同进行训练，丰富了训练视频处理模型的训练参数，进而提高了视频处理模型进行视频时序标注的准确率。

图1为根据一示例性实施例提供的一种视频处理方法流程图。如图1所示，该方法的执行主体为电子设备，包括以下步骤。

在步骤101中，获取视频文件和第一文本信息。

在步骤102中，将视频文件和第一文本信息输入至视频处理模型的识别网络，得到第一文本信息匹配的第一视频段。

在步骤103中，将第一视频段输入至视频处理模型的特征提取网络，得到第一视频段的视频特征。

在步骤104中，将第一视频段的视频特征输入至视频处理模型的翻译网络，得到第一视频段的第二文本信息，第二文本信息用于描述第一视频段的视频内容。

在步骤105中，基于视频处理模型输出第一视频段和第二文本信息。

在一些实施例中，将视频文件和第一文本信息输入至视频处理模型的识别网络，得到第一文本信息匹配的第一视频段，包括：

调用识别网络，分别提取视频文件的视频特征和第一文本信息的文本特征；

从视频文件的视频特征中确定与文本特征匹配的目标视频特征；

将目标视频特征对应的视频段，确定为第一视频段。

在一些实施例中，视频处理模型的训练方法包括：

将视频样本输入至视频处理模型的识别网络，得到第三文本信息匹配的第二视频段，视频样本中标注有第三文本信息；

基于第二视频段和视频样本中标注的第三视频段，确定识别网络的识别损失参数；

基于第二视频段和第三文本信息，确定第一相似度和第二视频段的视频特征，第一相似度指示第二视频段和第三文本信息之间的相似度；

基于第二视频段的视频特征和第三文本信息，确定视频处理模型的翻译网络的翻译质量参数，翻译质量参数表征翻译网络将视频特征翻译为文本信息的质量；

基于识别损失参数、第一相似度和翻译质量参数，调整视频处理模型的参数。

在一些实施例中，基于第二视频段和视频样本中标注的第三视频段，确定识别网络的识别损失参数，包括：

确定第二视频段在视频样本中的起始时间和终止时间，以及第三视频段在视频样本中的起始时间和终止时间；

基于识别损失函数、第二视频段在视频样本中的起始时间和终止时间，以及第三视频段在视频样本中的起始时间和终止时间，确定识别损失参数。

在一些实施例中，基于第二视频段和第三文本信息，确定第一相似度参数和第二视频段的视频特征，包括：

将第二视频段和第三文本信息输入至视频处理模型的特征提取网络，得到第二视频段的视频特征和第三文本信息的文本特征；

确定第二视频段的视频特征和第三文本信息的文本特征之间的余弦相似度，得到第一相似度。

在一些实施例中，基于提取的第二视频段的视频特征和第三文本信息，确定视频处理模型的翻译网络的翻译质量参数，包括：

将第二视频段的视频特征输入至翻译网络，得到第二视频段的第四文本信息；

确定第四文本信息与第三文本信息之间的第二相似度；

将第二相似度确定为翻译质量参数。

在一些实施例中，基于识别损失参数、第一相似度和翻译质量参数，调整视频处理模型的参数，包括：

基于识别损失参数、第一相似度和翻译质量参数，分别对识别网络、特征提取网络和翻译网络的网络参数进行调整，直到识别损失参数小于第一阈值，且第一相似度大于第二阈值，且翻译质量参数大于第三阈值，完成模型训练。

本公开实施例提供了一种新的视频处理模型，该视频处理模型包括识别网络、特征提取网络和翻译网络，在对视频文件进行处理的过程中，能够基于识别网络识别出视频文件中与第一文本信息匹配的第一视频段，以及基于翻译网络翻译出第一视频段的第二文本信息，因此，对于该视频处理模型来说，能够输出第一视频段以及第二文本信息，即基于一个视频处理模型，得到视频文件的多种输出结果，提高了视频标注结果的多样性。

在基于视频处理模型对待标注的视频文件进行标注之前，需要对待训练的视频处理模型进行模型训练，得到该视频处理模型。图2为根据一示例性实施例提供的一种视频处理模型的训练方法的流程图。在本公开实施例中，以对待训练的视频处理模型进行模型训练为例进行说明。如图2所示，该方法的执行主体为电子设备，包括以下步骤。

在步骤201中，确定待训练的时序标注模型。

其中，该待训练的时序标注模型包括待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络。本公开实施例中，时序标注模型可称为视频处理模型，时序标注网络可称为识别网络，视觉文本翻译网络可称为翻译网络。

在本步骤中，确定视频处理模型的结构。例如，确定识别网络的网络结构、特征提取网络的网络结构和翻译网络的网络结构，以及识别网络、特征提取网络和翻译网络之间的连接结构。

在一些实施例中，视频处理模型为流水线式的模型训练架构，即将识别网络、特征提取网络和翻译网络构建为流水线式的模型训练架构。参见图3，将识别网络的输出作为特征提取网络的输入，将特征提取网络的输出作为翻译网络的输入。从而识别网络得到输出结果后，能够直接将输出结果输入至特征提取网络中，特征提取网络得到输出结果后，能够直接将输出结果输入至翻译网络中。

在本公开实施例中，将视频处理模型中识别网络、特征提取网络和翻译网络构建为流水线式的模型训练架构，使得能够直接将前一网络的输出作为后一网络的输入，从而使识别网络、特征提取网络和翻译网络能够同步训练，简化了模型训练的过程，提高了模型训练的准确性。

需要说明的一点是，该识别网络、特征提取网络和翻译网络分别为开发人员设计的任一结构的网络，在本公开实施例中，对识别网络、特征提取网络和翻译网络的结构不作具体限定。

在步骤202中，将视频样本输入至该待训练的时序标注网络，得到待训练的时序标注网络标注的视频段。

在一些实施例中，待训练的时序标注网络标注的视频段为第二视频段。也即是，将视频样本输入至识别网络，得到第三文本信息匹配的第二视频段。

其中，该视频样本为标注了视频段的视频样本，该视频样本还标注了视频段匹配的文本信息，即视频样本中标注的视频段为第三视频段，视频样本中标注的文本信息为第三文本信息，且第三视频段与第三文本信息匹配，该第三视频段为用户训练视频处理模型的样本视频段，第三文本信息为用于训练视频处理模型的样本文本信息。在一些实施例中，视频样本中标注有第三视频段的起始时间和终止时间，该起始时间和终止时间之间的视频段即为第三视频段。需要说明的一点是，该第三文本信息为词语、关键字、描述文本、图像、视频文件等。在本公开实施例中，对该第三文本信息不作限定。

在本步骤中，将视频样本输入至识别网络中，基于识别网络对该视频样本进行标注，得到该识别网络预测的第二视频段，该第二视频段与第三文本信息匹配。其中，该第二视频段为识别网络预测的与第三文本信息匹配的视频段。

在本步骤中，基于识别网络，提取视频样本的视频特征，将提取出的视频特征与第三文本信息的文本特征进行对比，从而获取到预测到的第二视频段。该过程包括以下步骤(1)-(3)。

(1)基于识别网络，分别对该视频样本和该第三文本信息进行特征提取，得到该视频样本的视频特征和该第三文本信息的文本特征。

其中，该视频样本的视频特征和该第三文本信息的文本特征为任一类型的特征。例如，该视频样本的视频特征和该第三文本信息的文本特征均为向量特征或矩阵特征等。

(2)从该视频样本的视频特征中确定与该第三文本信息的文本特征匹配的视频特征。

在本步骤中，将该第三文本信息的文本特征与视频样本的视频特征逐一进行特征对比，得到与该第三文本信息的文本特征匹配的视频特征。其中，文本特征与视频特征匹配指文本特征与视频特征相同或者相似。

在一些实施例中，分别确定第三文本信息的文本特征与视频样本的视频特征的相似度，将相似度最高的视频特征，确定为与第三文本信息的文本特征匹配的视频特征。其中，该第三文本信息的文本特征与视频样本的视频特征的相似度为任一类型的相似度。例如，该相似度为余弦相似度等。

在一些实施例中，将视频样本划分为多个视频段，每个视频段具有对应的视频特征，分别确定第三文本信息的文本特征与每个视频段的视频特征之间的相似度，将相似度最高的视频特征，确定为与第三文本信息的文本特征匹配的视频特征。

(3)将该第三文本信息的文本特征匹配的视频特征对应的视频段，确定为该第三文本信息匹配的第二视频段。

在本步骤中，确定第三文本信息的文本特征匹配的视频特征在视频样本中的起始时间和终止时间，将该起始时间和终止时间之间的视频内容确定为第二视频段。

在本公开实施例中，基于视频处理模型中的识别网络，对视频样本和文本信息进行特征提取，从而在训练识别网络的过程中，通过特征提取网络与识别网络进行相互约束，从而在同一训练过程中训练两个网络，提高了模型的训练的效率，并且，提高了识别网络和特征提取网络的适配度，进而提高了视频处理模型的准确度。

在步骤203中，基于该待训练的时序标注网络标注的视频段和该视频样本中标注的视频段，确定该待训练的时序标注网络的时序标注损失参数。也即是，基于第二视频段和视频样本中标注的第三视频段，确定识别网络的识别损失参数。

其中，该识别损失参数为视频处理模型对视频样本进行时序标注时产生的识别损失参数。该识别损失参数基于时序标注损失函数生成，该时序标注损失函数可称为识别损失函数。

在一些实施例中，分别确定第二视频段和第三视频段的视频特征，将第二视频段的视频特征和第三视频段的视频特征输入至识别损失函数中，识别损失函数基于两个视频段的视频特征确定该识别损失参数。

在一些实施例中，确定第二视频段的起始时间和终止时间，以及，确定第三视频段的起始时间和终止时间；基于两个视频段的起始时间和终止时间，基于识别损失函数确定该识别损失参数。该过程包括以下步骤(4)-(6)。

(4)确定第二视频段在该视频样本中的起始时间和终止时间。

在本步骤中，确定识别网络标注的第二视频段，确定该第二视频段在视频样本中对应的起始时间和终止时间。

在一些实施例中，由于基于识别网络标注第二视频段的过程中，会记录第二视频段的起始时间和终止时间。在本步骤中，直接调用该第二视频段的起始时间和终止时间。

(5)确定第三视频段在该视频样本中的起始时间和终止时间。

在一些实施例中，基于在视频样本中标注的起始时间和终止时间，确定该视频样本中标注的第三视频段，即在视频样本中标注有第三视频段的起始时间和终止时间，则在本步骤中，直接获取该视频样本中标注的起始时间和终止时间。

需要说明的一点是，本公开实施例中，对获取两个视频段的起始时间和终止时间的先后顺序不作具体限定。

(6)将第二视频段在该视频样本中的起始时间和终止时间，以及第三视频段在该视频样本中的起始时间和终止时间输入至识别损失函数，得到该识别损失参数。也即是，基于识别损失函数、第二视频段在该视频样本中的起始时间和终止时间，以及第三视频段在该视频样本中的起始时间和终止时间，确定识别损失参数。

在本步骤中，将两个视频段的起始时间和终止时间作为识别损失函数的变量值，基于两个起始时间和终止时间之间的差异，即基于第二视频段的起始时间和第三视频段的起始时间之间的差异，以及第二视频段的终止时间和第三视频段的终止时间之间的差异，确定该识别损失参数。

在本公开实施例中，通过确定第二视频段的起始时间与第三视频段的起始时间是否匹配，以及确定第二视频段的终止时间和第三视频段的终止时间是否匹配，来调整识别网络的网络参数，提高了模型的训练效率和准确度。

在步骤204中，基于该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息，确定该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息之间的第一相似度参数和该待训练的时序标注网络标注的视频段的视频特征。

在本公开实施例中，第一相似度参数可称为第一相似度。基于第二视频段和第三文本信息，确定第一相似度和第二视频段的视频特征。

其中，该第一相似度为第三文本信息的文本特征与第二视频段的视频特征之间的相似度，即第一相似度指示第二视频段与第三文本信息之间的相似度。该第一相似度根据任一相似度确定方式确定。在一些实施例中，该第二视频段的视频特征和第三文本信息的文本特征均为特征向量，则该第一相似度为基于余弦相似度算法确定的相似度。相应的，该过程包括以下步骤(7)-(8)。

(7)将第二视频段和第三文本信息输入至特征提取网络，得到第二视频段的视频特征和第三文本信息的文本特征。

基于特征提取网络，分别提取第二视频段的视频特征和该第三文本信息的文本特征。其中，在本公开实施例中，对提取第二视频段的视频特征的过程与提取第三文本信息的文本的过程的先后顺序不作限定。

(8)确定第二视频段的视频特征和第三文本信息的文本特征之间的余弦相似度，得到该第一相似度。

在本步骤中，通过余弦相似度算法确定视频特征和文本特征之间的余弦相似度，将得到的余弦相似度确定为第一相似度。

在本公开实施例中，基于特征提取网络提取第二视频段的视频特征和第三文本信息的文本特征，进而得到二者的相似度，使得在对视频处理模型进行模型训练的过程中，能够将特征提取网络和识别网络同时进行模型训练，进而提高视频处理模型的训练效率和准确性。

本公开实施例中，将第二视频段和第三文本信息输入至特征提取网络，该特征提取网络输出第二视频段的视频特征和第一相似度。

在步骤205中，基于该待训练的时序标注网络标注的视频段的视频特征和该视频样本中标注的文本信息，确定该待训练的视觉文本翻译网络的翻译质量参数。也即是，基于第二视频段的视频特征和第三文本信息，确定翻译网络的翻译质量参数。

其中，该翻译质量参数表征翻译网络将视频特征翻译为文本信息的质量。

在一些实施例中，将第二视频段的视频特征翻译为描述该第二视频段的文本信息，获取该翻译的文本信息和第三文本信息的相似度，将该相似度确定为该翻译网络的翻译质量参数。其中，该相似度越高，翻译网络的翻译质量参数越高，即翻译网络翻译得到的文本信息越准确。

在本步骤中，将第二视频段的视频特征输入至翻译网络中，基于翻译网络将该视频特征翻译为文本信息，基于翻译的文本信息获取翻译质量参数，该过程包括以下步骤(9)-(11)。

(9)将第二视频段的视频特征输入至翻译网络，得到视频样本的文本信息。也即是，将第二视频段的视频特征输入至翻译网络，得到第二视频段的第四文本信息。

在本步骤中，基于翻译网络将视频特征翻译成文本信息，得到对第二视频段进行翻译的文本信息。

(10)确定该视频样本的文本信息与第三文本信息之间的第二相似度参数。

在一些实施例中，第二相似度参数可称为第二相似度。也即是，确定第四文本信息与第三文本信息之间的第二相似度。

在一些实施例中，对第四文本信息与第三文本信息进行文本特征提取，得到该第四文本信息的文本特征和第三文本信息的文本特征，确定这两个文本特征之间的相似度，将确定的相似度作为第二相似度。其中，该第二相似度根据任一相似度确定方式确定。例如，基于余弦相似度算法确定该文本特征之间的相似度，将该相似度确定为第二相似度。

(11)将该第二相似度确定为该翻译质量参数。

在本公开实施例中，由于第四文本信息和第三文本信息均对应于第二视频段，且第三文本信息是提前标注的、准确的文本信息，因此该第二相似度能够指示文本翻译网络对第二视频段的翻译是否准确。

通过翻译网络对第二视频段的视频特征进行翻译，根据翻译得到的第四文本信息和第三文本信息之间的相似度，使得在对视频处理模型进行模型训练的过程中能够将翻译网络和识别网络同时进行模型训练，进而提高视频处理模型的训练效率和准确性。

在步骤206中，基于该时序标注损失参数、该第一相似度参数和该翻译质量参数对该待训练的时序标注模型进行参数调整，得到该时序标注模型。也即是，基于识别损失参数、第一相似度和翻译质量参数，调整视频处理模型的参数。

在一些实施例中，该视频处理模型中的特征提取网络和翻译网络为已经训练好的网络模型，则在本步骤中，通过该识别损失参数、该第一相似度参数和该翻译质量参数对该识别网络进行参数调整，得到该视频处理模型。

在一些实施例中，同时对该时序标注模型中的识别网络、特征提取网络和翻译网络进行参数调整，该过程为：基于该识别损失参数、该第一相似度参数和该翻译质量参数，对该待训练的识别网络、特征提取网络和翻译网络的网络参数进行调整，直到该识别损失参数小于第一阈值，且该第一相似度大于第二阈值，且该翻译质量参数大于第三阈值，完成模型训练，得到该视频处理模型。

其中，该第一阈值、第二阈值和第三阈值根据需要进行设置，在本公开实施例中，对该第一阈值、第二阈值和第三阈值不作限定。

在本公开实施例中，通过多种参数分别对视频处理模型中的多种网络同时进行模型训练，在训练视频处理模型的过程中，使不同的网络之间能够相互约束，从而在同一训练过程中训练多个网络，提高了模型的训练效率，并且，提高了视频处理模型中各个网络的适配度。

需要说明的一点是，待训练的识别网络、待训练的特征提取网络和待训练的翻译网络还能够分别进行模型训练，之后直接将训练完成的识别网络、特征提取网络和翻译网络构建为视频处理模型即可。

在本公开实施例中，通过在训练视频处理模型的过程中，引入其他网络输出的参数，根据视频处理模型中多种网络的训练参数对视频处理模型进行模型训练，从而丰富了训练视频处理模型的训练参数，进而提高了视频处理模型进行视频时序标注的准确率。

本公开实施例提供了一种新的视频处理模型，该视频处理模型包括识别网络、特征提取网络和翻译网络，在对视频文件进行时序标注的过程中，能够基于识别网络确定视频文件中与第一文本信息匹配的第一视频段，以及基于翻译网络翻译出第一视频段的第二文本信息，因此，对于该视频处理模型来说，能够输出第一视频段以及第二文本信息，即基于一个视频处理模型，得到视频文件的多种输出结果，提高了视频标注结果的多样性。

在完成模型训练后，能够基于训练完成的视频处理模型对待标注的视频文件进行时序标注。参见图4，图4为根据一示例性实施例提供的一种视频处理方法流程图。在本公开实施例中，以通过视频处理模型对视频文件进行时序标注为例进行说明。如图4所示，该方法包括以下步骤。

在步骤401中，获取待标注的视频文件和待查询的文本信息。

其中，该待查询的文本信息与视频样本中标注的文本信息相似，在此不再赘述。

在一些实施例中，待查询的文本信息可称为第一文本信息，则获取待标注的视频文件和待查询的第一文本信息。

该待标注的视频文件为用户上传的视频文件，或者，该视频文件为数据库中的视频文件。在本公开实施例中，对该视频文件不作具体限定。例如，该视频文件为需要进行剪辑的视频文件，则该待查询的文本信息为对剪辑视频时保留的视频内容的要求，接收用户输入的该视频文件，以及，对该视频文件进行剪辑的内容要求，基于该内容要求对该视频文件进行时序标注。也即是，在视频剪辑场景下，第一文本信息指示需要从视频文件中剪辑出的视频段，获取待剪辑的视频文本和该第一文本信息，后续即可基于该第一文本信息，对视频文件进行时序标注，得到该视频文件中与第一文本信息匹配的视频段。

又例如，该视频文件为查询数据库中的视频文件，接收用户输入的待查询的文本信息，根据该文本信息对数据库中的视频文件进行时序标注，从而确定待查询的文本信息匹配的视频文件。也即是，在视频查询场景下，第一文本信息指示待查询的目标视频文件，获取第一文本信息和数据库中的多个备选视频文件，后续即可基于该第一文本信息，分别对每个备选视频文件进行时序标注，将能够标注出与第一文本信息匹配的视频段的备选视频文件确定为目标视频文件。

在步骤402中，通过该时序标注模型的时序标注网络，分别对该视频文件和该待查询的文本信息进行特征提取，得到该视频文件的视频特征和该待查询的文本信息的文本特征。也即是，调用识别网络，分别提取视频文件的视频特征和第一文本信息的文本特征。

本步骤与步骤202中的步骤(1)同理，在此不再赘述。

在步骤403中，从该视频文件的视频特征中确定与该待查询的文本信息的文本特征匹配的视频特征。待查询的文本信息的文本特征匹配的视频特征可称为目标视频特征，也即是，从视频文件的视频特征中确定与第一文本信息的文本特征匹配的目标视频特征。

本步骤与步骤202中的步骤(2)同理，在此不再赘述。

在步骤404中，将该待查询的文本信息的文本特征匹配的视频特征对应的视频段，确定为该待查询的文本信息匹配的视频段。也即是，将目标视频特征对应的视频段，确定第一视频段。

本步骤与步骤202中的步骤(3)同理，在此不再赘述。

在步骤405中，将该待查询的文本信息匹配的视频段输入至该时序标注模型的特征提取网络，得到该待查询的文本信息匹配的视频段的视频特征。也即是，将第一视频段输入至特征提取网络，得到第一视频段的视频特征。

本步骤与步骤204中的步骤(7)中确定第二视频段的视频特征的过程相似，在此不再赘述。

在步骤406中，将该待查询的文本信息匹配的视频段的视频特征输入至该视频处理模型的翻译网络，得到该视频文件中标注的视频段的文本信息。

其中，视频文件中标注的视频段即为第一视频段。也即是，将第一视频段的视频特征输入至翻译网络，得到该第一视频段的第二文本信息。

本步骤与步骤205中的步骤(9)同理，在此不再赘述。

在步骤407中，通过该时序标注模型输出该待查询的文本信息匹配的视频段和该视频文件中标注的文本信息。也即是，基于视频处理模型输出第一视频段和第二文本信息，该第二文本信息用于描述第一视频段的视频内容。

在本步骤中，参见图5，该视频处理模型分别根据多个网络的输出结果，输出第一视频段和该第一视频段的第二文本信息。

需要说明的一点是，上述实施例中第一文本信息和第二文本信息相同或者不同，本公开实施例对此不做限制。例如，目标视频为一段足球比赛的视频，第一文本信息为“进球”，则基于视频处理模型能够确定目标视频中“进球”的视频段和该视频段的第二文本信息，该第二文本信息为对进球动作进行详细描述的一段内容。

需要说明的一点是，该视频处理模型中的识别网络、特征提取网络和翻译网络还能够单独使用。在本公开实施例中，对该视频处理模型中的网络的使用方式不作具体限定。例如，在训练完成后，能够单独调用识别网络对视频文件进行时序标注。或者，调用特征提取网络对视频文件或文本文件进行特征提取。或者，调用翻译网络对视频特征进行翻译，得到视频文件对应的文本信息等。

上述实施例中所示的视频处理方法能够应用于多种场景下。

例如，应用于视频内容搜索场景下。

电子设备获取待搜索的目标视频和关键词“跳水”，将目标视频和“跳水”输入至视频处理模型，视频处理模型在目标视频中标注与“跳水”相关的视频段，将该视频段再翻译为对应的描述信息，从而该搜索出目标视频中与“跳水”相关的视频内容。

例如，应用于视频剪辑场景下。

电子设备中存储有一个时长较长的目标视频，用户需要从该目标视频中剪辑出想要的视频段，则能够采用本公开实施例提供的视频处理模型，将目标视频和对想要剪辑的视频段的文本描述信息输入至视频处理模型，基于该视频处理模型输出与文本描述信息匹配的视频段，以及该视频段对应的关键词，将输出的关键词作为视频段的标题，从而基于视频处理模型实现对目标视频的剪辑。

图6是根据一示例性实施例提供的一种视频处理装置的框图。参见图6，装置包括：

获取单元601，被配置为获取视频文件和第一文本信息；

时序标注单元602，被配置为将视频文件和第一文本信息输入至视频处理模型的识别网络，得到第一文本信息匹配的第一视频段；

特征提取单元603，被配置为将第一视频段输入至视频处理模型的特征提取网络，得到第一视频段的视频特征；

视觉文本翻译单元604，被配置为将第一视频段的视频特征输入至视频处理模型的翻译网络，得到第一视频段的第二文本信息，第二文本信息用于描述第一视频段的视频内容；

输出单元605，被配置为基于视频处理模型输出第一视频段和第二文本信息。

在一些实施例中，该时序标注单元602包括：

特征提取子单元，被配置为调用识别网络，分别提取视频文件的视频特征和第一文本信息的文本特征；

第一确定子单元，被配置为从视频文件的视频特征中确定与文本特征匹配的目标视频特征；

第二确定子单元，被配置为将目标视频特征对应的视频段，确定为第一视频段。

在一些实施例中，该装置还包括：

该时序标注单元602，还被配置为将视频样本输入至视频处理模型的识别网络，得到第三文本信息匹配的第二视频段，视频样本中标注有第三文本信息；

第二确定单元，被配置为基于第二视频段和视频样本中标注的第三视频段，确定识别网络的识别损失参数；

第三确定单元，被配置为基于第二视频段和第三文本信息，确定第一相似度和第二视频段的视频特征，第一相似度指示第二视频段和第三文本信息之间的相似度；

第四确定单元，被配置为基于第二视频段的视频特征和第三文本信息，确定视频处理模型的翻译网络的翻译质量参数，翻译质量参数表征翻译网络将视频特征翻译为文本信息的质量；

参数调整单元，被配置为基于识别损失参数、第一相似度和翻译质量参数，调整视频处理模型的参数。

在一些实施例中，该第二确定单元包括：

第三确定子单元，被配置为确定第二视频段在视频样本中的起始时间和终止时间，以及第三视频段在视频样本中的起始时间和终止时间；

损失参数确定子单元，被配置为基于识别损失函数、第二视频段在视频样本中的起始时间和终止时间，以及第三视频段在视频样本中的起始时间和终止时间，确定识别损失参数。

在一些实施例中，该第三确定单元包括：

该特征提取单元603，被配置为将第二视频段和第三文本信息输入至视频处理模型的特征提取网络，得到第二视频段的视频特征和第三文本信息的文本特征；

第一相似度确定子单元，被配置为确定第二视频段的视频特征和第三文本信息的文本特征之间的余弦相似度，得到第一相似度。

在一些实施例中，该第四确定单元包括：

该视觉文本翻译单元604，被配置为将第二视频段的视频特征输入至翻译网络，得到第二视频段的第四文本信息；

第二相似度确定子单元，被配置为确定第四文本信息与第三文本信息之间的第二相似度；

第四确定子单元，被配置为将第二相似度确定为翻译质量参数。

在一些实施例中，该参数调整单元，被配置为基于识别损失参数、第一相似度和翻译质量参数，分别对识别网络、特征提取网络和翻译网络的网络参数进行调整，直到识别损失参数小于第一阈值，且第一相似度大于第二阈值，且翻译质量参数大于第三阈值，完成模型训练。

电子设备为终端或服务器。在一些实施例中，电子设备为用于提供本公开所提供的视频处理方法的终端。图7示出了本公开一个示例性实施例提供的终端700的结构框图。在一些实施例中，该终端700是便携式移动终端，比如：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端700包括有：处理器701和存储器702。

在一些实施例中，处理器701包括一个或多个处理核心，比如4核心处理器、8核心处理器等。在一些实施例中，处理器701采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中，处理器701也包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

在一些实施例中，存储器702包括一个或多个计算机可读存储介质，该计算机可读存储介质是非暂态的。存储器702还包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本公开中方法实施例提供的视频处理方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。在一些实施例中，处理器701、存储器702和外围设备接口703之间通过总线或信号线相连。各个外围设备通过总线、信号线或电路板与外围设备接口703相连。可选地，外围设备包括：射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。在一些实施例中，射频电路704通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。在一些实施例中，该UI包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。在一些实施例中，该触摸信号作为控制信号输入至处理器701进行处理。此时，显示屏705还用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705为一个，设置在终端700的前面板；在另一些实施例中，显示屏705为至少两个，分别设置在终端700的不同表面或呈折叠设计；在另一些实施例中，显示屏705是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还设置成非矩形的不规则图形，也即异形屏。在一些实施例中显示屏705采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还包括闪光灯。闪光灯是单色温闪光灯，或者，是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，用于不同色温下的光线补偿。

在一些实施例中，音频电路707包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。在一些实施例中，出于立体声采集或降噪的目的，麦克风为多个，分别设置在终端700的不同部位。在一些实施例中，麦克风还是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。在一些实施例中，扬声器是传统的薄膜扬声器，或者，是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅能够将电信号转换为人类可听见的声波，也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。在一些实施例中，定位组件708是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源709用于为终端700中的各个组件进行供电。在一些实施例中，电源709是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

在一些实施例中，加速度传感器711检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711用于检测重力加速度在三个坐标轴上的分量。在一些实施例中，处理器701根据加速度传感器711采集的重力加速度信号，控制显示屏705以横向视图或纵向视图进行用户界面的显示。在一些实施例中，加速度传感器711还用于游戏或者用户的运动数据的采集。

在一些实施例中，陀螺仪传感器712检测终端700的机体方向及转动角度，陀螺仪传感器712与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，能够实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

在一些实施例中，压力传感器713设置在终端700的侧边框和/或显示屏705的下层。当压力传感器713设置在终端700的侧边框时，能够检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时，由处理器701根据用户对显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。在一些实施例中，指纹传感器714被设置在终端700的正面、背面或侧面。在一些实施例中，当终端700上设置有物理按键或厂商Logo时，指纹传感器714与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701根据光学传感器715采集的环境光强度，控制显示屏705的显示亮度。具体地，当环境光强度较高时，调高显示屏705的显示亮度；当环境光强度较低时，调低显示屏705的显示亮度。在另一个实施例中，处理器701还根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制显示屏705从息屏状态切换为亮屏状态。

本领域技术人员能够理解，图7中示出的结构并不构成对终端700的限定，能够包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一些实施例中，电子设备为用于提供本公开所提供的视频处理方法的服务器。图8示出了本公开一个示例性实施例提供的服务器800的结构框图。在一些实施例中，该服务器800可因配置或性能不同而产生比较大的差异，包括一个或一个以上处理器(central processing units，CPU)801和一个或一个以上的存储器802，其中，所述存储器801中存储有至少一条指令，所述至少一条指令由所述处理器801加载并执行以实现上述各个方法实施例提供的目标对象的检索方法。当然，在一些实施例中，该服务器800还具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器800还包括其他用于实现设备功能的部件，在此不做赘述。

本公开实施例还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现如下步骤：获取视频文件和第一文本信息；将视频文件和第一文本信息输入至视频处理模型的识别网络，得到第一文本信息匹配的第一视频段；将第一视频段输入至视频处理模型的特征提取网络，得到第一视频段的视频特征；将第一视频段的视频特征输入至视频处理模型的翻译网络，得到第一视频段的第二文本信息，第二文本信息用于描述第一视频段的视频内容；基于视频处理模型输出第一视频段和第二文本信息。

在一些实施例中，处理器被配置为执行指令，以实现上述方法实施例中的其他实施例提供的视频处理方法和视频处理模型的训练方法。

本公开实施例还提供了一种计算机可读存储介质，当该计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如下步骤：获取视频文件和第一文本信息；将视频文件和第一文本信息输入至视频处理模型的识别网络，得到第一文本信息匹配的第一视频段；将第一视频段输入至视频处理模型的特征提取网络，得到第一视频段的视频特征；将第一视频段的视频特征输入至视频处理模型的翻译网络，得到第一视频段的第二文本信息，第二文本信息用于描述第一视频段的视频内容；基于视频处理模型输出第一视频段和第二文本信息。

在一些实施例中，当该计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述方法实施例中的其他实施例提供的视频处理方法和视频处理模型的训练方法。

本公开实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现如下步骤：获取视频文件和第一文本信息；将视频文件和第一文本信息输入至视频处理模型的识别网络，得到第一文本信息匹配的第一视频段；将第一视频段输入至视频处理模型的特征提取网络，得到第一视频段的视频特征；将第一视频段的视频特征输入至视频处理模型的翻译网络，得到第一视频段的第二文本信息，第二文本信息用于描述第一视频段的视频内容；基于视频处理模型输出第一视频段和第二文本信息。

在一些实施例中，当该计算机指令被处理器执行时实现上述方法实施例中的其他实施例提供的视频处理方法和视频处理模型的训练方法。

本公开所有实施例均可以单独被执行，也可以与其他实施例相结合被执行，均视为本公开要求的保护范围。

Claims

一种视频处理方法，所述方法包括：

获取视频文件和第一文本信息；

将所述视频文件和所述第一文本信息输入至视频处理模型的识别网络，得到所述第一文本信息匹配的第一视频段；

将所述第一视频段输入至所述视频处理模型的特征提取网络，得到所述第一视频段的视频特征；

将所述第一视频段的视频特征输入至所述视频处理模型的翻译网络，得到所述第一视频段的第二文本信息，所述第二文本信息用于描述所述第一视频段的视频内容；

基于所述视频处理模型输出所述第一视频段和所述第二文本信息。
根据权利要求1所述的方法，其中，所述将所述视频文件和所述第一文本信息输入至视频处理模型的识别网络，得到所述第一文本信息匹配的第一视频段，包括：

调用所述识别网络，分别提取所述视频文件的视频特征和所述第一文本信息的文本特征；

从所述视频文件的视频特征中确定与所述文本特征匹配的目标视频特征；

将所述目标视频特征对应的视频段，确定为所述第一视频段。
一种视频处理模型的训练方法，所述方法包括：

将视频样本输入至视频处理模型的识别网络，得到第三文本信息匹配的第二视频段，所述视频样本中标注有所述第三文本信息；

基于所述第二视频段和所述视频样本中标注的第三视频段，确定所述识别网络的识别损失参数；

基于所述第二视频段和所述第三文本信息，确定第一相似度和所述第二视频段的视频特征，所述第一相似度指示所述第二视频段和所述第三文本信息之间的相似度；

基于所述第二视频段的视频特征和所述第三文本信息，确定所述视频处理模型的翻译网络的翻译质量参数，所述翻译质量参数表征所述翻译网络将视频特征翻译为文本信息的质量；

基于所述识别损失参数、所述第一相似度和所述翻译质量参数，调整所述视频处理模型的参数。
根据权利要求3所述的方法，其中，所述基于所述第二视频段和所述视频样本中标注的第三视频段，确定所述识别网络的识别损失参数，包括：

确定所述第二视频段在所述视频样本中的起始时间和终止时间，以及所述第三视频段在所述视频样本中的起始时间和终止时间；

基于识别损失函数、所述第二视频段在所述视频样本中的起始时间和终止时间，以及所述第三视频段在所述视频样本中的起始时间和终止时间，确定所述识别损失参数。
根据权利要求3所述的方法，其中，所述基于所述第二视频段和所述第三文本信息，确定第一相似度参数和所述第二视频段的视频特征，包括：

将所述第二视频段和所述第三文本信息输入至所述视频处理模型的特征提取网络，得到所述第二视频段的视频特征和所述第三文本信息的文本特征；

确定所述第二视频段的视频特征和所述第三文本信息的文本特征之间的余弦相似度，得到所述第一相似度。
根据权利要求3所述的方法，其中，所述基于所述第二视频段的视频特征和所述第三文本信息，确定所述视频处理模型的翻译网络的翻译质量参数，包括：

将所述第二视频段的视频特征输入至所述翻译网络，得到所述第二视频段的第四文本信息；

确定所述第四文本信息与所述第三文本信息之间的第二相似度；

将所述第二相似度确定为所述翻译质量参数。
根据权利要求3所述的方法，其中，所述基于所述识别损失参数、所述第一相似度和所述翻译质量参数，调整所述视频处理模型的参数，包括：

基于所述识别损失参数、所述第一相似度和所述翻译质量参数，分别对所述识别网络、所述特征提取网络和所述翻译网络的网络参数进行调整，直到所述识别损失参数小于第一阈值，且所述第一相似度大于第二阈值，且所述翻译质量参数大于第三阈值，完成模型训练。
一种视频处理装置，所述装置包括：

获取单元，被配置为获取视频文件和第一文本信息；

时序标注单元，被配置为将所述视频文件和所述第一文本信息输入至视频处理模型的识别网络，得到所述第一文本信息匹配的第一视频段；

特征提取单元，被配置为将所述第一视频段输入至所述视频处理模型的特征提取网络，得到所述第一视频段的视频特征；

视觉文本翻译单元，被配置为将所述第一视频段的视频特征输入至所述视频处理模型的翻译网络，得到第一视频段的第二文本信息，所述第二文本信息用于描述所述第一视频段的视频内容；

输出单元，被配置为基于所述视频处理模型输出所述第一视频段和所述第二文本信息。
一种视频处理模型的训练装置，所述装置包括：

时序标注单元，被配置为将视频样本输入至视频处理模型的识别网络，得到第三文本信息匹配的第二视频段，所述视频样本中标注有所述第三文本信息；

第二确定单元，被配置为基于所述第二视频段和所述视频样本中标注的第三视频段，确定所述识别网络的识别损失参数；

第三确定单元，被配置为基于所述第二视频段和所述第三文本信息，确定第一相似度和所述第二视频段的视频特征，所述第一相似度指示所述第二视频段和所述第三文本信息之间的相似度；

第四确定单元，被配置为基于所述第二视频段的视频特征和所述第三文本信息，确定所述视频处理模型的翻译网络的翻译质量参数，所述翻译质量参数表征所述翻译网络将视频特征翻译为文本信息的质量；

参数调整单元，被配置为基于所述识别损失参数、所述第一相似度和所述翻译质量参数，调整所述视频处理模型的参数。
一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如下步骤：

获取视频文件和第一文本信息；

将所述视频文件和所述第一文本信息输入至视频处理模型的识别网络，得到所述第一文本信息匹配的第一视频段；

将所述第一视频段输入至所述视频处理模型的特征提取网络，得到所述第一视频段的视频特征；

将所述第一视频段的视频特征输入至所述视频处理模型的翻译网络，得到第一视频段的第二文本信息，所述第二文本信息用于描述所述第一视频段的视频内容；

基于所述视频处理模型输出所述第一视频段和所述第二文本信息。
根据权利要求10所述的电子设备，其中，所述处理器被配置为执行所述指令，以实现如下步骤：

调用所述识别网络，分别提取所述视频文件的视频特征和所述第一文本信息的文本特征；

从所述视频文件的视频特征中确定与所述文本特征匹配的目标视频特征；

将所述目标视频特征对应的视频段，确定为所述第一视频段。
一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如下步骤：：

将视频样本输入至视频处理模型的识别网络，得到第三文本信息匹配的第二视频段，所述视频样本中标注有所述第三文本信息；

基于所述第二视频段和所述视频样本中标注的第三视频段，确定所述识别网络的识别损失参数；

基于所述第二视频段和所述第三文本信息，确定第一相似度和所述第二视频段的视频特征，所述第一相似度指示所述第二视频段和所述第三文本信息之间的相似度；

基于所述第二视频段的视频特征和所述第三文本信息，确定所述视频处理模型的翻译网络的翻译质量参数，所述翻译质量参数表征所述翻译网络将视频特征翻译为文本信息的质量；

基于所述识别损失参数、所述第一相似度和所述翻译质量参数，调整所述视频处理模型的参数。
根据权利要求12所述的电子设备，其中，所述处理器被配置为执行所述指令，以实现如下步骤：

确定所述第二视频段在所述视频样本中的起始时间和终止时间，以及所述第三视频段在所述视频样本中的起始时间和终止时间；

基于识别损失函数、所述第二视频段在所述视频样本中的起始时间和终止时间，以及所述第三视频段在所述视频样本中的起始时间和终止时间，确定所述识别损失参数。
根据权利要求12所述的电子设备，其中，所述处理器被配置为执行所述指令，以实现如下步骤：

将所述第二视频段和所述第三文本信息输入至所述视频处理模型的特征提取网络，得到所述第二视频段的视频特征和所述第三文本信息的文本特征；

确定所述第二视频段的视频特征和所述第三文本信息的文本特征之间的余弦相似度，得到所述第一相似度。
根据权利要求12所述的电子设备，其中，所述处理器被配置为执行所述指令，以实现如下步骤：

将所述第二视频段的视频特征输入至所述翻译网络，得到所述第二视频段的第四文本信息；

确定所述第四文本信息与所述第三文本信息之间的第二相似度；

将所述第二相似度确定为所述翻译质量参数。
根据权利要求12所述的电子设备，其中，所述处理器被配置为执行所述指令，以实现如下步骤：

基于所述识别损失参数、所述第一相似度和所述翻译质量参数，分别对所述识别网络、所述特征提取网络和所述翻译网络的网络参数进行调整，直到所述识别损失参数小于第一阈值，且所述第一相似度大于第二阈值，且所述翻译质量参数大于第三阈值，完成模型训练。
一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如下步骤：

获取视频文件和第一文本信息；

将所述视频文件和所述第一文本信息输入至视频处理模型的识别网络，得到所述第一文本信息匹配的第一视频段；

将所述第一视频段输入至所述视频处理模型的特征提取网络，得到所述第一视频段的视频特征；

将所述第一视频段的视频特征输入至所述视频处理模型的翻译网络，得到第一视频段的第二文本信息，所述第二文本信息用于描述所述第一视频段的视频内容；

基于所述视频处理模型输出所述第一视频段和所述第二文本信息。
一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如下步骤：

将视频样本输入至视频处理模型的识别网络，得到第三文本信息匹配的第二视频段，所述视频样本中标注有所述第三文本信息；

基于所述第二视频段和所述视频样本中标注的第三视频段，确定所述识别网络的识别损失参数；

基于所述第二视频段和所述第三文本信息，确定第一相似度和所述第二视频段的视频特征，所述第一相似度指示所述第二视频段和所述第三文本信息之间的相似度；

基于所述第二视频段的视频特征和所述第三文本信息，确定所述视频处理模型的翻译网络的翻译质量参数，所述翻译质量参数表征所述翻译网络将视频特征翻译为文本信息的质量；

基于所述识别损失参数、所述第一相似度和所述翻译质量参数，调整所述视频处理模型的参数。
一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如下步骤：

获取视频文件和第一文本信息；

将所述视频文件和所述第一文本信息输入至视频处理模型的识别网络，得到所述第一文本信息匹配的第一视频段；

将所述第一视频段输入至所述视频处理模型的特征提取网络，得到所述第一视频段的视频特征；

将所述第一视频段的视频特征输入至所述视频处理模型的翻译网络，得到第一视频段的第二文本信息，所述第二文本信息用于描述所述第一视频段的视频内容；

基于所述视频处理模型输出所述第一视频段和所述第二文本信息。
一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如下步骤：

将视频样本输入至视频处理模型的识别网络，得到第三文本信息匹配的第二视频段，所述视频样本中标注有所述第三文本信息；

基于所述第二视频段和所述视频样本中标注的第三视频段，确定所述识别网络的识别损失参数；

基于所述第二视频段和所述第三文本信息，确定第一相似度和所述第二视频段的视频特征，所述第一相似度指示所述第二视频段和所述第三文本信息之间的相似度；

基于所述第二视频段的视频特征和所述第三文本信息，确定所述视频处理模型的翻译网络的翻译质量参数，所述翻译质量参数表征所述翻译网络将视频特征翻译为文本信息的质量；

基于所述识别损失参数、所述第一相似度和所述翻译质量参数，调整所述视频处理模型的参数。