WO2022188844A1

WO2022188844A1 - 视频分类方法、装置、设备及介质

Info

Publication number: WO2022188844A1
Application number: PCT/CN2022/080208
Authority: WO
Inventors: 陈凯兵; 刘国翌
Original assignee: 百果园技术(新加坡)有限公司; 陈凯兵
Priority date: 2021-03-12
Filing date: 2022-03-10
Publication date: 2022-09-15
Also published as: CN112784111A; CN112784111B

Abstract

提供了一种视频分类方法、装置、设备及介质，方法包括：获取目标视频和目标类别标签（S1100）；通过预设视频模型提取目标视频的视频内容特征，得到对应于目标视频的视频特征向量（S1200）；通过预设文本模型提取目标类别标签的文本内容特征，得到对应于目标类别标签的文本特征向量（S1300）；根据视频特征向量和文本特征向量，获得目标视频与目标类别标签间的相关性分数（S1400）；在相关性分数大于或等于预设的分数阈值的情况下，确定目标视频的类别标签为目标类别标签（S1500）。即，其是直接计算能够反映目标视频所属分类的视频特征向量和能够反映目标类别标签所属分类的文本特征向量间的相关性分数，从而可以提高目标视频归类的准确性。

Description

视频分类方法、装置、设备及介质

本公开要求于2021年03月12日提交中国专利局，申请号为202110267539.3，申请名称为“视频分类方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及人工智能技术领域，更具体地，涉及一种视频分类方法、装置、设备及介质。

背景技术

在短视频领域，用户时常会对自身发布的短视频按照视频内容进行归类，以使得归类后的短视频可以基于用户的特定兴趣进行查找和推荐。

通常，用户在发布短视频时，可以是对所发布的短视频打上类别标签，以达到对该短视频归类的目的。然而，用户在为视频打类别标签时，会出现乱打类别标签的情况，从而导致视频归类错误，使得该类别标签聚合页中出现一些与该类别标签无关的视频。

发明内容

本公开实施例提供了一种视频分类方法、装置、设备及介质，可以提高视频归类的准确性。

根据本公开的第一方面，提供了一种视频分类方法，所述方法包括：

获取目标视频和目标类别标签；

通过预设视频模型提取所述目标视频的视频内容特征，得到对应于所述目标视频的视频特征向量；

通过预设文本模型提取所述目标类别标签的文本内容特征，得到对应于所述目标类别标签的文本特征向量；

根据所述视频特征向量和所述文本特征向量，获得所述目标视频与所述目标类别标签间的相关性分数；

在所述相关性分数大于或等于预设的分数阈值的情况下，确定所述目标视频的类别标签为所述目标类别标签。

根据本公开的第二方面，提供了一种视频分类装置，所述装置包括：

第一获取模块，被配置为获取目标视频和目标类别标签；

视频模块，被配置为通过预设视频模型提取所述目标视频的视频内容特征，得到对应于所述目标视频的视频特征向量；

文本模块，被配置为通过预设文本模型提取所述目标类别标签的文本内容特征，得到对应于所述目标类别标签的文本特征向量；

第二获取模块，被配置为根据所述视频特征向量和所述文本特征向量，获得所述目标视频与所述目标类别标签间的相关性分数；

确定模块，被配置为在所述相关性分数大于或等于预设的分数阈值的情况下，确定所述目标视频的类别标签为所述目标类别标签。

根据本公开的第三方面，提供一种电子设备，其包括存储器和处理器，所述存储器被配置为存储可执行的指令；所述处理器被配置为在所述指令的控制下执行根据以上第一方面所述的视频分类方法。

根据本公开的第四方面，提供了一种非瞬时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现如本公开第一方面所述的视频分类方法。

根据本公开实施例的视频分类方法、装置、设备及介质，其是基于预先训练好的视频模型提取目标视频的视频内容特征，及基于预先训练好的文本模块提取目标类别标签的文本内容特征，这可以提高所提取的视频内容特征和文本内容特征的准确性，使得所提取出的视频内容特征和文本内容特征均能够准确反映目标视频和目标类别标签的所属分类。同时，其是直接计算目标视频的视频内容特征组成的视频特征向量和目标类别标签的文本内容特征组成的文本特征向量间的相关性分数，从而可以提高目标视频归类的准确性。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且连同其说明一起被配置为解释本公开的原理。

图1是根据本公开实施例的视频分类方法的示意性流程图；

图2是根据本公开另一实施例的视频分类方法的示意性流程图；

图3是根据本公开另一实施例的视频分类方法的示意性流程图；

图4是根据本公开实施例的视频分类装置的原理框图；

图5是根据本公开实施例的电子设备的硬件配置的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<方法实施例>

在本实施例中，提供一种视频分类方法。该方法由电子设备实施。该电子设备可以是服务器，也可以是终端设备。

根据图1所示，本公开实施例的视频分类方法可以包括如下步骤S1100～S1500。

步骤S1100，获取目标视频和目标类别标签。

目标视频为用户通过视频平台上传的任意视频，例如，该目标视频可以是用户通过短视频平台上传的任意短视频。

目标类别标签为目标视频所在视频集合的类别标签，例如，用户可以通过短视频平台上传短视频时为该短视频打上类别标签，以将该短视频归类至该类别标签所在视频集合中，进而达到对该短视频进行归类的目的。

在一个例子中，可以是在上传视频时，仅为该视频打上一个类别标签。

在一个例子中，也可以是在上传视频时，为该视频打上多个类别标签。

示例性地，用户通过短视频平台A上传短视频B时，可以为该短视频B打上类别标签C。可以理解的是，由于用户为该短视频B所打类别标签C可能并不是该短视频B的真实类别标签，即，该短视频B的内容与所打类别标签C实际并不相关，从而导致该短视频B归类的不准确性，同时，也会使得所打类别标签C的视频集合中出现一些与该类别标签C无关的内容，导致类别标签C的视频集合的视频质量下降。

在获取目标视频和目标类别标签之后，进入：

步骤S1200，通过预设视频模型提取目标视频的视频内容特征，得到对应于目标视频的视频特征向量。

预设视频模型被配置为提取目标视频中能够准确反映该目标视频所属分类的视频内容特征，进而得到对应于该目标视频的视频特征向量。该预设视频模型可以是仅反映视频封面的视频模型，也可以是反映视频中除视频封面以外的其他视频内容的视频模型，当然，还可以是反映整个视频内容的视频模型。

以上视频模型反映目标视频与视频内容特征间的关系，该视频模型的输入为目标视频，输出为从该目标视频中所提取中的能够反映该目标视频所属分类的视频内容特征。该视频模型可以为神经网络模型，例如但不限于是BP(Back Propagation)神经网络模型、卷积神经网络模型等，本实施例在此并不对视频模型进行具体限定。

对应于目标视频的视频特征向量X由视频模型所提取出的视频内容特征x _j组成，j的取值为1至p的自然数，p表示所提取的视频内容特征的总数，该p的取值可以是根据实际应用场景和实际需求进行设置，该p的取值可以为128，在此，视频特征向量X由视频模型所提取出的128维度的视频内容特征组成，可以将该视频特征向量表示为X＝(x ₁,x ₂......x ₁₂₈)，并且，该视频特征向量X可以准确反映该目标视频的所属分类。

继续上述示例，可以是将短视频B作为该视频模型的输入，以通过该视频模型提取出该短视频B中能够准确反映该短视频B所属分类的128维度的视频内容特征x ₁,x ₂......x ₁₂₈，得到对应于该短视频B的视频特征向量X＝(x ₁,x ₂......x ₁₂₈)。

在通过预设视频模型提取出目标视频的视频内容特征，得到对应于目标视频的视频特征向量之后，进入：

步骤S1300，通过预设文本模型提取目标类别标签的文本内容特征，得到对应于目标类别标签的文本特征向量。

预设文本模型被配置为提取目标类别标签中能够准确反映该目标类别标签所属分类的文本内容特征，进而得到对应于该目标类别标签的文本特征向量。

以上文本模型反映目标类别标签与文本内容特征间的关系，该文本模型的输入为目标类别标签，输出为从该目标类别标签中所提取中的文本内容特征。该文本模型可以为神经网络模型，例如但不限于是BP(Back Propagation)神经网络模型、卷积神经网络模型、Word2Vec模型等，本实施例在此并不对文本模型进行具体限定。

对应于目标类别标签的文本特征向量Y由文本模型所提取出的文本内容特征y _i组成，i的取值为1至q的自然数，q表示所提取的文本内容特征的总数，该q的取值可以是根据实际应用场景和实际需求进行设置，为了能够计算视频内容向量与文本特征向量之间的相似度，q的取值通常和p相同，该q的取值也为128，在此，文本特征向量Y由文本模型所提取出的128维度的文本内容特征组成，可以将该文本特征向量表示为Y＝(y ₁,y ₂......y ₁₂₈)，并且，该文本特征向量Y可以准确反映该目标类别标签的所属分类。

继续上述示例，可以是将用户为该短视频B所打的类别标签C作为该文本模型的输入，以通过该文本模型提取出该类别标签C中能够准确反映该类别标签C所属分类的128维度的文本内容特征y ₁,y ₂......y ₁₂₈，得到对应于该类别标签C的文本特征向量Y＝(y ₁,y ₂......y ₁₂₈)。

可以理解的是，以上步骤S1200和本步骤S1300的执行不分先后顺序，例如可以是先执行以上步骤S1200通过预设视频模型提取目标视频的视频内容特征，得到对应于目标视频的视频特征向量之后，再执行本步骤S1300通过预设文本模型提取目标类别标签的文本内容特征，得到对应于目标类别标签的文本特征向量。又例如也可以是先执行本步骤S1300，再执行以上步骤S1200。再例如还可以是同时执行本步骤S1300和以上步骤S1200。

在执行通过预设文本模型提取目标类别标签的文本内容特征，得到对应于目标类别标签的文本特征向量之后，进入：

步骤S1400，根据视频特征向量和文本特征向量，获得目标视频与目标类别标签间的相关性分数。

本实施例中，在获得能够准确反映目标视频所属分类的视频内容特征组成的视频特征向量，及准确反映目标类别标签所属分类的文本内容特征组成的文本特征向量之后，便可计算视频特征向量和文本特征向量之间的相关性分数，以通过相关性分数判断目标视频的类别标签是否为目标类别标签。

本实施例中，本步骤S1400中根据视频特征向量和文本特征向量，获得目标视频与目标类别标签间的相关性分数可以进一步包括：根据视频特征向量与文本特征向量之间的距离，获得目标视频与目标类别标签间的相关性分数。

本实施例中，可以利用任意的距离计算算法计算视频特征向量和文本特征向量间的距离，该距离计算算法可以是余弦相似度(CosineSimilarity)算法，当然，还可以是被配置为计算向量间距离的其他距离计算算法，例如对数似然相似度算法、曼哈顿距离算法等。

在一个例子中，可以是直接将该距离作为相关性分数。

在一个例子中，也可以是预先存储距离与相关性分数间的映射关系的映射数据，以在得到距离之后，根据该距离和映射数据，获得该相关性分数。

继续上述示例，可以是利用余弦相似度算法计算对应于短视频B的视频特征向量X＝(x ₁,x ₂......x ₁₂₈)和对应于类别标签C的文本特征向量Y＝(y ₁,y ₂......y ₁₂₈)间的距离，并将该距离作为视频特征向量X＝(x ₁,x ₂......x ₁₂₈)和文本特征向量Y＝(y ₁,y ₂......y ₁₂₈)间的相关性分数。

在根据视频特征向量和文本特征向量，获得目标视频与目标类别标签间的相关性分数之后，进入：

步骤S1500，在相关性分数大于或等于预设的分数阈值的情况下，确定目标视频的类别标签为目标类别标签。

本实施例中，在得到对应于目标视频的视频特征向量和目标类别标签间的相关性分数之后，便可将该相关性分数和预设的分数阈值相比较，以根据比较结果判断目标视频的类别标签是否为目标类别标签。

预设的分数阈值可以是根据实际应用场景和实际需求设置的数值，该预设的分数阈值可以是0.25。

本实施例中，在相关性分数大于或等于预设的分数阈值的情况下，可以确定目标视频的类别标签为该目标类别标签，便可将该目标视频作为该目标类别标签的视频集合中的视频。而在相关性分数小于分数阈值的情况下，需要从目标类别标签的视频集合中滤除目标视频，以达到提高该目标类别标签的视频集合的视频质量。

继续上述示例，例如所获得的视频特征向量X＝(x ₁,x ₂......x ₁₂₈)和文本特征向量Y＝(y ₁,y ₂......y ₁₂₈)间的相关性分数为0.3，该相关性分数0.3大于分数阈值0.25，则确定短视频B的类别标签为该类别标签C。

又例如所获得的视频特征向量X＝(x ₁,x ₂......x ₁₂₈)和文本特征向量Y＝(y ₁,y ₂......y ₁₂₈)间的相关性分数为0.1，该相关性分数0.1小于分数阈值0.25，此时便可从类别标签C的视频集合中滤除该短视频B，示例性地，类别标签C的初始视频集合中包括的短视频有短视频B、短视频D、及短视频E，则过滤后的视频集合中包括的短视频有短视频D、及短视频E。

根据本公开实施例的方法，其是基于预先训练好的视频模型提取目标视频的视频内容特征，及基于预先训练好的文本模块提取目标类别标签的文本内容特征，这可以提高所提取的视频内容特征和文本内容特征的准确性，使得所提取出的视频内容特征和文本内容特征均能够准确反映目标视频和目标类别标签的所属分类。同时，其是直接计算目标视频的视频内容特征组成的视频特征向量和目标类别标签的文本内容特征组成的文本特征向量间的相关性分数，从而可以提高目标视频归类的准确性。

在一个实施例中，在执行以上步骤S1200通过预设视频模型提取目标视频的视频内容特征，及以上步骤S1300通过预设文本模型提取目标类别标签的文本内容特征之前，如图2所示，本公开视频分类方法还包括如下步骤S2100～S2200：

步骤S2100，获取训练样本集。

训练样本集中每一训练样本包括视频样本及视频样本的样本类别标签。

训练样本的数量越多，训练结果也通常越精准，但训练样本达到一定数量后，训练结果的精度的增加将变的越来越缓慢，直至取向稳定。在此，可以兼顾训练结果的精度和数据处理成本确定所需的训练样本的数量。

步骤S2200，通过训练样本集，以设定的收敛条件同步训练基础视频模型和基础文本模型，得到训练后的基础视频模型作为预设视频模型及得到训练后的基础文本模型作为预设文本模型。

收敛条件包括：通过基础视频模型提取的视频样本的视频内容特征和通过基础文本模型提取的样本类别标签的文本内容特征均具有对应于样本类别标签的分类结果。

在一个例子中，本步骤S2200中通过训练样本集，以设定的收敛条件同步训练基础视频模型和基础文本模型，得到训练后的基础视频模型作为预设视频模型及得到训练后的基础文本模型作为预设文本模型可以进一步包括步骤S2210a～S2220a：

步骤S2210a，通过训练样本集，固定基础视频模型的模型参数，以收敛条件训练基础文本模型，得到第一阶段训练后的基础文本模型。

本例子中，由于视频模型的模型参数非常多，如果不分阶段训练，会导致训练周期特别长，并且，模型的收敛速度也会特别慢，在此，本例子采用分阶段训练方式例如先固定视频模型的模型参数而去训练文本模型，然后再去训练视频模型，其能够降低模型的训练周期，并且提高模型的收敛速度。

本例子中，训练样本集包括第一样本集和第二样本集，其中，该第一样本集的样本数量大于第二样本集的样本数量。

针对第一样本集，例如可以是先选取短视频平台为短视频所设置的所有类别标签中短视频数量最多的前第一设定数量个类别标签作为样本类型标签，并针对每一个样本类别标签，随机选取第二设定数量个短视频作为训练视频。该第一设定数量可以是根据实际应用场景和实际需求设置的数值，该第一设定数量例如可以是3万。该第二设定数量也可以是根据实际应用场景和实际需求设置的数值，该第二设定数量例如可以是500。示例性地，在第一设定数量为3万，第二设定数量为500的情况下，该第一样本集中包括1500万个第一训练样本。

针对第二样本集，例如可以是先获取以上的前第一设定数量个类别标签作为样本类别标签，并针对每一个样本类别标签，收集有用户点击播放的第三设定数量个短视频作为训练视频。该第三设定数量也可以是根据实际应用场景和实际需求设置的数值，该第二设定数量例如可以是100。示例性地，在第一设定数量为3万，第三设定数量为100的情况下，该第二样本集中包括300万个第二训练样本。

本例子中，本步骤S2210a中通过训练样本集，固定基础视频模型的模型参数，以收敛条件训练基础文本模型，得到第一阶段训练后的基础文本模型可以进一步包括：先通过第一样本集，固定基础视频模型的模型参数，以收敛条件训练基础文本模型，得到前期训练后的基础文本模型；然后通过第二样本集，固定基础视频模型的模型参数，接续前期训练后的基础文本模型继续训练基础文本模型，得到第一阶段训练后的基础文本模型。

根据该例子，其在固定基础视频模型的模型参数，以收敛条件训练基础文本模型时，是先根据大量的随机采集到的训练样本训练文本模型，然后根据用户的实际点击情况所收集到的训练样本继续训练文本模型，这相当于是先用大量的训练样本训练文本模型以调整文本模型的模型参数，然后利用少量的真实训练样本训练文本模型以微调文本模型的模型参数，这不仅可以降低文本模型训练的训练周期，还可以提高文本模型训练的准确性。

步骤S2220a，通过训练样本集，以收敛条件训练基础视频模型并接续第一阶段训练后的基础文本模型继续训练基础文本模型，得到预设视频模型和预设文本模型。

本步骤S2220a中，其可以通过以上的第二样本集，以收敛条件训练基础视频模型并接续第一阶段训练后的基础文本模型继续训练基础文本模型，得到预设视频模型和预设文本模型。

根据以上步骤S2210a～S2220a，其采用分阶段训练方式去训练模型，可以降低模型的训练周期，并且提高模型的收敛速度。

在一个例子中，本步骤S2200中通过训练样本集，以设定的收敛条件同步训练基础视频模型和基础文本模型中的每一步训练可以进一步包括如下步骤S2210b～S2240b：

步骤S2210b，通过对应当前步的基础视频模型提取视频样本的视频内容特征，得到对应于视频样本的第一样本特征向量。

本步骤S2210b中，通过对应当前步的基础视频模型可以先提取视频样本的2048维度的视频内容特征，然后在将该2048维度的视频内容特征降维至128维度的视频内容特征，得到对应于视频样本的第一样本特征向量，即，该对应于视频样本的第一样本特征向量X＝(x ₁,x ₂......x ₁₂₈)。

步骤S2220b，通过对应当前步的基础文本模型提取样本类别标签的文本内容特征，得到对应于样本类别标签的第二样本特征向量。

本步骤S2220b中，通过对应当前步的基础文本模型可以先提取样本类别标签的2048维度的文本内容特征，然后在将该2048维度的文本内容特征降维至128维度的文本内容特征，得到对应于样本类别标签的第二样本特征向量，即，该对应于样本类别标签的第二样本特征向量Y＝(y ₁,y ₂......y ₁₂₈)。

步骤S2230b，通过共享分类参数的多分类器分别对第一样本特征向量和第二样本特征向量进行分类，得到对应于第一样本特征向量的第一分类结果和对应于第二样本特征向量的第二分类结果。

本步骤S2230b中，在模型训练的过程中，该共享分类参数的多分类器的共享分类参数也是根据每一步的训练进行调整的，以使得通过该多分类器分别对第一样本特征向量和第二样本特征向量进行的分类也越来越准确。

本例子中，本步骤S2230b中通过共享分类参数的多分类器分别对第一样本特征向量和第二样本特征向量进行分类，得到对应于第一样本特征向量的第一分类结果和对应于第二样本特征向量的第二分类结果可以进一步包括如下步骤S2231b～S2232b：

步骤S2231b，通过共享分类参数的多分类器分别对第一样本特征向量和第二样本特征向量进行分类，得到对应于第一样本特征向量的第一初始分类结果和对应于第二样本特征向量的第二初始分类结果。

该多分类器对应的类别标签的种类和训练样本集包含的样本类别标签的种类相同。例如，在训练样本集包括3万个样本类别标签的情况下，该多分类器对应的类别标签的种类也为3万个。

本步骤S2231b中，通过该共享分类参数的多分类器可以分别对第一样本特征向量和第二样本特征向量进行分类，以得到第一样本特征向量对于每一种类别标签的分数和第二样本特征向量对于每一种类别标签的分数。

步骤S2232b，通过预设的归一化指数函数对第一初始分类结果和第二初始分类结果进行归一化处理，得到第一分类结果和第二分类结果。

预设的归一化指数函数可以是softmax函数，通过该softmax函数可以将第一样本特征向量对于每一种类别标签的分数和第二样本特征向量对于每一种类别标签的分数均映射至(0，1)区间内。

可以理解的是，由于现实场景的类别标签，会存在大量同语义的情况，在通过该共享分类参数的多分类器分别对第一样本特征向量和第二样本特征向量进行分类，得到第一样本特征向量对于每一种类别标签的分数和第二样本特征向量对于每一种类别标签的分数之后，例如第一样本特征向量对于每一种类别标签的分数中会存在分数接近的情况，又例如第二样本特征向量对于每一种类别标签的分数中也会存在分数接近的情况，在此，通过归一化指数函数可以进一步拉大分数之间的差异。

本步骤S2232b中，在通过该共享分类参数的多分类器分别对第一样本特征向量和第二样本特征向量进行分类，得到第一样本特征向量对于每一种类别标签的分数和第二样本特征向量对于每一种类别标签的分数之后，可以分别利用softmax函数将第一样本特征向量对于每一种类别标签的分数和第二样本特征向量对于每一种类别标签的分数进行归一化处理，以得到第一样本特征向量对于每一种类别标签的分数的归一化值，及第二样本特征向量对于每一种类别标签的分数的归一化值。

步骤S2240b，以收敛条件训练基础视频模型和基础文本模型。

本步骤S2240b中以收敛条件训练基础视频模型和基础文本模型可以进一步包括：根据第一分类结果，获得多分类器对于样本标签类别的第一分类损失；根据第二分类结果，获得多分类器对于样本标签类别的第二分类损失；根据第一分类损失和第二分类损失，以收敛条件训练基础特征模型和基础文本模型。

该实施例提供的根据训练样本集，以通过基础视频模型提取的视频样本的视频内容特征和通过基础文本模型提取的样本类别标签的文本内容特征均具有对应于样本类别标签的分类结果为收敛条件进行模型训练，具有较高的准确性，通过训练出的视频模型，能够准确提取出目标视频中准确反映该目标视频所属分类的视频内容特征，以及，通过训练出的文本模型，能够准确提取出目标类别标签中准确反映该目标类别标签所属分类的文本内容特征。

<例子>

接下来示出一个例子的视频分类方法的流程示意图，该例子中，如图3所示，该视频分类方法可以包括：

步骤S3010，获取第一样本集和第二样本集。

步骤S3020，通过第一样本集，固定基础视频模型的模型参数，以收敛条件训练基础文本模型，得到前期训练后的基础文本模型。

步骤S3030，通过第二样本集，固定基础视频模型的模型参数，接续前期训练后的基础文本模型继续训练基础文本模型，得到第一阶段训练后的基础文本模型。

步骤S3040，通过第二样本集，以收敛条件训练基础视频模型并接续第一阶段训练后的基础文本模型继续训练基础文本模型，得到预设视频模型和预设文本模型。

步骤S3050，获取目标视频和目标类别标签。

步骤S3060，通过预设视频模型提取目标视频的视频内容特征，得到对应于目标视频的视频特征向量。

步骤S3070，通过预设文本模型提取目标类别标签的文本内容特征，得到对应于目标类别标签的文本特征向量。

步骤S3080，根据视频特征向量和文本特征向量间的距离，获得目标视频与目标类别标签间的相关性分数。

步骤S3090，在相关性分数大于或等于预设的分数阈值的情况下，确定目标视频的类别标签为目标类别标签。

根据该例子，一方面，其是采用不同的样本集分阶段训练视频模型和文本模型，这不仅可以降低模型的训练周期，还能提高模型的收敛速度。另一方面，由于通过视频模型能够提取出准确反映目标视频所属分类的视频内容特征，以及，通过文本模型能够提取出准确反映目标类别标签所属分类的文本内容特征，并直接计算视频内容特征组成的视频特征向量和文本内容特征组成的文本特征向量间的相关性分数，这可以提高目标视频归类的准确性。

<装置实施例>

本实施例中，提供一种视频分类装置4000，如图4所示，该视频分类装置4000可以包括第一获取模块4100、视频模块4200、文本模块4300、第二获取模块4400和确定模块4500。

第一获取模块4100，被配置为获取目标视频和目标类别标签。

视频模块4200，被配置为通过预设视频模型提取所述目标视频的视频内容特征，得到对应于所述目标视频的视频特征向量。

文本模块4300，被配置为通过预设文本模型提取所述目标类别标签的文本内容特征，得到对应于所述目标类别标签的文本特征向量。

第二获取模块4400，被配置为根据所述视频特征向量和所述文本特征向量，获得所述目标视频与所述目标类别标签间的相关性分数。

确定模块4500，被配置为在所述相关性分数大于或等于预设的分数阈值的情况下，确定所述目标视频的类别标签为所述目标类别标签。

本领域技术人员应当明白，可以通过各种方式来实现视频分类装置4000。例如，可以通过指令配置处理器来实现视频分类装置4000。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现视频分类装置4000。例如，可以将视频分类装置4000固化到专用器件(例如ASIC)中。可以将视频分类装置4000分成相互独立的单元，或者可以将它们合并在一起实现。视频分类装置4000可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中，在本实施例中，视频分类装置4000可以具有多种实现形式，例如，视频分类装置4000可以是任何的提供视频服务的软件产品或者应用程序中运行的功能模块，或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等，还可以是这些软件产品或者应用程序本身。

<设备实施例>

本公开实施例提供了一种电子设备5000。

如图5所示，电子设备5000包括处理器5100和存储器5200，存储器5200中存储有可执行的指令，处理器5100在指令的控制下执行前述任一实施例提供的视频分类方法。

在一个例子中，该电子设备5000可以是服务器。服务器提供处理、数据库、通讯设施的业务点。服务器可以是整体式服务器或是跨多计算机或计算机数据中心的分散式服务器。服务器可以是各种类型的，例如但不限于，网络服务器，新闻服务器，邮件服务器，消息服务器，广告服务器，文件服务器，应用服务器，交互服务器，数据库服务器，或代理服务器。在一些实施例中，每个服务器可以包括硬件，软件，或被配置为执行服务器所支持或实现的合适功能的内嵌逻辑组件或两个或多个此类组件的组合。例如，服务器例如刀片服务器、云端服务器等。

在另一个例子中，该电子设备5000也可以是终端设备，例如可以是智能手机、便携式电脑、台式计算机、平板电脑等。

<介质实施例>

本公开实施例提供了一种非瞬时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现前述任一实施例提供的视频分类方法。

本公开可以是设备、方法和/或计算机程序产品。计算机程序产品可以包括非瞬时性计算机可读存储介质，其上载有被配置为使处理器实现本公开的各个方面的计算机可读程序指令。

上述非瞬时性计算机可读存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个被配置为实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

工业实用性

通过本公开实施例，可以提高所提取的视频内容特征和文本内容特征的准确性，使得所提取出的视频内容特征和文本内容特征均能够准确反映目标视频和目标类别标签的所属分类。同时，其是直接计算目标视频的视频内容特征组成的视频特征向量和目标类别标签的文本内容特征组成的文本特征向量间的相关性分数，从而可以提高目标视频归类的准确性。

Claims

一种视频分类方法，所述方法包括：

获取目标视频和目标类别标签；

通过预设视频模型提取所述目标视频的视频内容特征，得到对应于所述目标视频的视频特征向量；

通过预设文本模型提取所述目标类别标签的文本内容特征，得到对应于所述目标类别标签的文本特征向量；

根据所述视频特征向量和所述文本特征向量，获得所述目标视频与所述目标类别标签间的相关性分数；

在所述相关性分数大于或等于预设的分数阈值的情况下，确定所述目标视频的类别标签为所述目标类别标签。
根据权利要求1所述的方法，其中，所述目标类别标签为所述目标视频所在视频集合的类别标签，所述方法还包括：

在所述相关性分数小于所述分数阈值的情况下，从所述视频集合中滤除所述目标视频。
根据权利要求1所述的方法，其中，所述方法在所述通过预设视频模型提取所述目标视频的视频内容特征，及所述通过预设文本模型提取所述目标类别标签的文本内容特征之前，还包括：

获取训练样本集；其中，所述训练样本集中每一训练样本包括视频样本及所述视频样本的样本类别标签；

通过所述训练样本集，以设定的收敛条件同步训练基础视频模型和基础文本模型，得到训练后的基础视频模型作为所述预设视频模型及得到训练后的基础文本模型作为所述预设文本模型；

其中，所述收敛条件包括：通过所述基础视频模型提取的所述视频样本的视频内容特征和通过所述基础文本模型提取的所述样本类别标签的文本内容特征均具有对应于所述样本类别标签的分类结果。
根据权利要求3所述的方法，其中，所述通过所述训练样本集，以设定的收敛条件同步训练基础视频模型和基础文本模型，得到训练后的基础视频模型作为所述预设视频模型及得到训练后的基础文本模型作为所述预设文本模型，包括：

通过所述训练样本集，固定所述基础视频模型的模型参数，以所述收敛条件训练所述基础文本模型，得到第一阶段训练后的基础文本模型；

通过所述训练样本集，以所述收敛条件训练所述基础视频模型并接续所述第一阶段训练后的基础文本模型继续训练所述基础文本模型，得到所述预设视频模型和所述预设文本模型。
根据权利要求4所述的方法，其中，所述训练样本集包括第一样本集和第二样本集，所述通过所述训练样本集，固定所述基础视频模型的模型参数，以所述收敛条件训练所述基础文本模型，得到第一阶段训练后的基础文本模型，包括：

通过所述第一样本集，固定所述基础视频模型的模型参数，以所述收敛条件训练所述基础文本模型，得到前期训练后的基础文本模型；

通过所述第二样本集，固定所述基础视频模型的模型参数，接续所述前期训练后的基础文本模型继续训练所述基础文本模型，得到所述第一阶段训练后的基础文本模型。
根据权利要求3所述的方法，其中，所述通过所述训练样本集，以设定的收敛条件同步训练基础视频模型和基础文本模型中的每一步训练，包括：

通过对应当前步的基础视频模型提取所述视频样本的视频内容特征，得到对应于视频样本的第一样本特征向量；

通过对应当前步的基础文本模型提取所述样本类别标签的文本内容特征，得到对应于所述样本类别标签的第二样本特征向量；

通过共享分类参数的多分类器分别对所述第一样本特征向量和所述第二样本特征向量进行分类，得到对应于所述第一样本特征向量的第一分类结果和对应于所述第二样本特征向量的第二分类结果；

以所述收敛条件训练所述基础视频模型和所述基础文本模型。
根据权利要求6所述的方法，其中，所述多分类器对应的类别标签的种类与所述训练样本集包含的样本类别标签的种类相同。
根据权利要求6所述的方法，其中，所述通过共享分类参数的多分类器分别对所述第一样本特征向量和所述第二样本特征向量进行分类，得到对应于所述第一样本特征向量的第一分类结果和对应于所述第二样本特征向量的第二分类结果，包括：

通过共享分类参数的多分类器分别对所述第一样本特征向量和所述第二样本特征向量进行分类，得到对应于所述第一样本特征向量的第一初始分类结果和对应于所述第二样本特征向量的第二初始分类结果；

通过预设的归一化指数函数对所述第一初始分类结果和所述第二初始分类结果进行归一化处理，得到所述第一分类结果和所述第二分类结果。
根据权利要求8所述的方法，其中，所述以所述收敛条件训练所述基础特征模型和所述基础文本模型，包括：

根据所述第一分类结果，获得所述多分类器对于所述样本标签类别的第一分类损失；

根据所述第二分类结果，获得所述多分类器对于所述样本标签类别的第二分类损失；

根据所述第一分类损失和所述第二分类损失，以所述收敛条件训练所述基础特征模型和所述基础文本模型。
根据权利要求1所述的方法，其中，所述根据所述视频特征向量和所述文本特征向量，获得所述目标视频与所述目标类别标签间的相关性分数，包括：

根据所述视频特征向量与所述文本特征向量之间的距离，获得所述目标视频与所述目标类别标签间的相关性分数。
一种视频分类装置，所述装置包括：

第一获取模块，被配置为获取目标视频和目标类别标签；

视频模块，被配置为通过预设视频模型提取所述目标视频的视频内容特征，得到对应于所述目标视频的视频特征向量；

文本模块，被配置为通过预设文本模型提取所述目标类别标签的文本内容特征，得到对应于所述目标类别标签的文本特征向量；

第二获取模块，被配置为根据所述视频特征向量和所述文本特征向量，获得所述目标视频与所述目标类别标签间的相关性分数；

确定模块，被配置为在所述相关性分数大于或等于预设的分数阈值的情况下，确定所述目标视频的类别标签为所述目标类别标签。
一种电子设备，包括存储器和处理器，所述存储器被配置为存储可执行的指令；所述处理器被配置为在所述指令的控制下执行根据权利要求1至10中任一项所述的视频分类方法。
一种非瞬时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现如权利要求1至10中任一项所述的视频分类方法。