WO2019128979A1

WO2019128979A1 - 关键帧调度方法和装置、电子设备、程序和介质

Info

Publication number: WO2019128979A1
Application number: PCT/CN2018/123445
Authority: WO
Inventors: 石建萍; 李玉乐; 林达华
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2017-12-27
Filing date: 2018-12-25
Publication date: 2019-07-04
Also published as: MY182985A; KR20200102409A; EP3644221A1; CN108229363A; EP3644221A4; KR102305023B1; JP6932254B2; US11164004B2; JP2020536332A; SG11202000578UA; US20200394414A1

Abstract

一种关键帧调度方法和装置、电子设备、程序和介质，其中，方法包括：通过神经网络的第一网络层对当前帧进行特征提取，获得当前帧的低层特征（102）；根据与当前帧相邻的前一关键帧的低层特征和当前帧的低层特征，获取当前帧的调度概率值（104）；根据当前帧的调度概率值确定当前帧是否被调度为关键帧（106）；若确定当前帧被调度为关键帧，通过神经网络的第二网络层对当前关键帧的低层特征进行特征提取，获得当前关键帧的高层特征（108）；其中，神经网络中，第一网络层的网络深度浅于第二网络层的网络深度。所述方法利用了视频中不同帧之间的低层特征的变化，从而可以快速、准确、自适应的进行关键帧调度，提高了关键帧的调度效率。

Description

关键帧调度方法和装置、电子设备、程序和介质

本申请要求在2017年12月27日提交中国专利局、申请号为CN201711455838.X、发明名称为“关键帧调度方法和装置、电子设备、程序和介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机视觉技术，尤其是一种关键帧调度方法和装置、电子设备、程序和介质。

背景技术

视频语义分割是计算机视觉和视频语义理解任务中的重要问题。视频语义分割模型在很多领域，例如自动驾驶，视频监控，以及视频目标分析等领域，有重要的应用。视频语义分割速度是视频语义分割任务中较为重要的一方面。

发明内容

本申请实施例供一种关键帧调度的技术方案。

根据本申请实施例的一个方面，提供的一种关键帧调度方法，包括：

通过神经网络的第一网络层对当前帧进行特征提取，获得当前帧的低层特征；

根据与所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征，获取所述当前帧的调度概率值；其中，所述前一关键帧的低层特征由所述第一网络层对所述前一关键帧进行特征提取得到，所述调度概率值为当前帧被调度为关键帧的概率；

根据所述当前帧的调度概率值确定所述当前帧是否被调度为关键帧；

若确定所述当前帧被调度为关键帧，将所述当前帧确定为当前关键帧，通过所述神经网络的第二网络层对所述当前关键帧的低层特征进行特征提取，获得所述当前关键帧的高层特征；其中，所述神经网络中，所述第一网络层的网络深度浅于所述第二网络层的网络深度。

可选地，在本申请上述任一方法实施例中，还包括：

确定初始关键帧；

通过所述第一网络层对所述初始关键帧进行特征提取，获得所述初始关键帧的低层特征并缓存；

通过所述第二网络层对所述初始关键帧的低层特征进行特征提取，获得所述初始关键帧的高层特征。

可选地，在本申请上述任一方法实施例中，还包括：

对所述初始关键帧进行语义分割，输出所述初始关键帧的语义标签。

可选地，在本申请上述任一方法实施例中，在若确定所述当前帧被调度为关键帧之后，还包括：

缓存所述当前关键帧的低层特征。

可选地，在本申请上述任一方法实施例中，所述根据与所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征，获取所述当前帧的调度概率值，包括：

将所述前一关键帧的低层特征和所述当前帧的低层特征进行拼接，得到拼接特征；

通过关键帧调度网络，基于所述拼接特征获取所述当前帧的调度概率值。

可选地，在本申请上述任一方法实施例中，还包括：

对所述当前关键帧进行语义分割，输出所述关键帧的语义标签。

根据本申请实施例的另一个方面，提供的一种关键帧调度装置，包括：

第一特征提取单元，包括神经网络的第一网络层，用于对当前帧进行特征提取，获得当前帧的低层特征；

调度单元，用于根据与所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征，获取所述当前帧的调度概率值；其中，所述前一关键帧的低层特征由所述第一网络层对所述前一关键帧进行特征提取得到，所述调度概率值为当前帧被调度为关键帧的概率；

确定单元，用于根据所述当前帧的调度概率值确定所述当前帧是否被调度为关键帧；

第二特征提取单元，包括所述神经网络的第二网络层，用于根据所述确定单元的确定结果，若确定所述当前帧被调度为关键帧，将所述当前帧确定为当前关键帧，对所述当前关键帧的低层特征进行特征提取，获得所述当前关键帧的高层特征；其中，所述神经网络中，所述第一网络层的网络深度浅于所述第二网络层的网络深度。

可选地，在本申请上述任一装置实施例中，所述前一关键帧包括预先确定的初始关键帧；

所述装置还包括：

缓存单元，用于缓存关键帧的低层特征和高层特征，所述关键帧包括所述初始关键帧。

可选地，在本申请上述任一装置实施例中，所述第一特征提取单元，还用于根据所述确定单元的确定结果，在所述缓存单元中缓存所述当前关键帧的低层特征。

可选地，在本申请上述任一装置实施例中，所述调度单元包括：

拼接子单元，用于将所述前一关键帧的低层特征和所述当前帧的低层特征进行拼接，得到拼接特征；

关键帧调度网络，用于基于所述拼接特征获取所述当前帧的调度概率值。

可选地，在本申请上述任一装置实施例中，所述装置还包括：

语义分割单元，用于对所述关键帧进行语义分割，输出所述关键帧的语义标签，所述关键帧包括：初始关键帧、所述前一关键帧或者所述当前关键帧。

根据本申请实施例的又一个方面，提供的一种电子设备，包括：本申请任一实施例所述的关键帧调度装置。

根据本申请实施例的再一个方面，提供的一种电子设备，包括：

处理器和本申请任一实施例所述的关键帧调度装置；

在处理器运行所述关键帧调度装置时，本申请任一实施例所述的关键帧调度装置的单元被运行。

根据本申请实施例的再一个方面，提供的一种电子设备，包括：处理器和存储器；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请任一实施例所述的关键帧调度方法中各步骤的操作。

根据本申请实施例的再一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请任一实施例所述的车辆驾驶模拟方法中各步骤的指令。

根据本申请实施例的再一个方面，提供的一种计算机可读介质，用于存储计算机可读取的指令，所述指令被执行时实现本申请任一实施例所述的关键帧调度方法中各步骤的操作。

基于本申请上述实施例提供的关键帧调度方法和装置、电子设备、程序和介质，对当前帧进行特征提取，获得当前帧的低层特征，根据相邻的前一关键帧的低层特征和当前帧的低层特征，获取当前帧的调度概率值；根据当前帧的调度概率值确定当前帧是否被调度为关键帧；若确定当前帧被调度为关键帧，对当前关键帧的低层特征进行特征提取，获得当前关键帧的高层特征。本申请实施例可以根据前一关键帧的低层特征和当前帧的低层特征来获取当前帧相对于前一关键帧低层特征的变化，利用了视频中不同帧之间的低层特征的变化，从而可以快速、准确、自适应的进行关键帧调度，提高了关键帧的调度效率。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请实施例提供的关键帧调度方法的一个流程示意图。

图2为本申请实施例提供的关键帧调度方法的另一流程示意图。

图3为本申请实施例提供的关键帧调度装置的一个结构示意图。

图4为本申请实施例提供的关键帧调度装置的另一结构示意图。

图5为本申请实施例提供的电子设备的一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本申请实施例提供的关键帧调度方法的一个流程示意图。如图1所示，该实施例方法包括：

102，通过神经网络的第一网络层对当前帧进行特征提取，获得当前帧的低层特征。

可选地，当前帧可以是视频中的任意一帧图像。

在一个可选示例中，该步骤102可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一特征提取单元执行。

104，根据与当前帧相邻的前一关键帧的低层特征和当前帧的低层特征，获取当前帧的调度概率值。

其中，前一关键帧的低层特征由上述第一网络层对该前一关键帧进行特征提取得到，可选地，本申请实施例提出的调度概率值为当前帧被调度为关键帧的概率。

在一个可选示例中，该步骤104可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的调度单元执行。

106，根据当前帧的调度概率值确定当前帧是否被调度为关键帧。

在本申请实施例的一个可选示例中，可以根据当前帧的调度概率值是否大于预设阈值，确定当前帧是否被调度为关键帧。例如，预设阈值为80％，如果当前帧的调度概率值大于或等于该预设阈值，确定当前帧被调度为关键帧，即：认为该当前帧为关键帧；如果当前帧的调度概率值小于该预设阈值，确定当前帧不被调度为关键帧。

在一个可选示例中，该步骤106可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的确定单元执行。

108，若确定当前帧被调度为关键帧，将当前帧确定为当前关键帧，通过上述神经网络的第二网络层对当前关键帧的低层特征进行特征提取，获得当前关键帧的高层特征。

其中，神经网络中，上述第一网络层的网络深度浅于上述第二网络层的网络深度。

在一个可选示例中，该步骤108可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二特征提取单元执行。

本申请实施例中，神经网络包括两个以上网络深度不同的网络层，神经网络包括的网络层中，用于进行特征提取的网络层可以称为特征层，神经网络接收到一个帧后，通过第一个特征层对输入的帧进行特征提取，并将其输入第二个特征层，从第二个特征层起，每个特征层依次对输入的特征进行特征提取，将提取到的特征输入至下一个网络层进行特征提取，直至得到能够用于进行语义分割的特征。神经网络中至少一个特征层的网络深度依据特征提取的顺序由浅至深，依据网络深度，可以将神经网络中用于进行特征提取的特征层划分为低层特征层和高层特征层两部分，即上述第一网络层和第二网络层。其中，低层特征层中的至少一个特征层依次进行特征提取最终输出的特征称为低层特征，高层特征层中的至少一个特征层依次进行特征提取最终输出的特征称为高层特征。相对于同一神经网络中网络深度较浅的特征层，网络深度较深的特征层视野域较大，较多的关注空间结构信息，提取到的特征用于语义分割时，使得语义分割更准确，然而，网络深度越深，计算难度和复杂度越高。实际应用中，可以根据预设标准，例如计算量，将神经网络中的特征层划分为低层特征层和高层特征层，该预设标准可以根据实际需求调整。例如，对于一个包括100个依次连接的特征层的神经网络，可以根据预先设定，将该100个特征层中的第1个至第30个这前30个(也可以是其他数量)的特征层作为低层特征层，将第31个至第100个这后70个特征层作为高层特征层。例如，对于金字塔场景解析网络(Pyramid Scene Parsing Network，PSPN)，该神经网络可以包括四部分卷积网络(conv1到conv4)和一个分类层，每一部分卷积网络又包括多个卷积层，可以依据计算量的大小，将该PSPN中从conv1到conv4_3中的卷积层作为低层特征层，其占了该PSPN约1/8的计算量，将该PSPN中从conv4_4到分类层前的至少一个卷积层作为高层特征层，其占了PSPN约7/8的计算量；分类层用于对高层特征层输出的高层特征进行语义分割，以获得帧的语义标签，即：帧中至少一个像素的分类。

由于高层特征的提取需要网络深度较深的第二网络层，其计算难度和复杂度较高，而若要精确获得帧的语义标签，又需要基于帧的高层特征进行语义分割，因此，本申请实施例中仅对关键帧进行高层特征提取以用于语义分割，相对于对视频中逐帧进行高层特征提取，不仅有利于减小计算难度和复杂性，还可以获得视频的语义分割结果。

基于本申请上述实施例提供的关键帧调度方法，对当前帧进行特征提取，获得当前帧的低层特征，根据相邻的前一关键帧的低层特征和当前帧的低层特征，获取当前帧的调度概率值；根据当前帧的调度概率值确定当前帧是否被调度为关键帧；若确定当前帧被调度为关键帧，对当前关键帧的低层特征进行特征提取，获得当前关键帧的高层特征。本申请实施例可以根据前一关键帧的低层特征和当前帧的低层特征来获取当前帧相对于前一关键帧低层特征的变化，利用了视频中不同帧之间的低层特征的变化，从而可以快速、准确、自适应的进行关键帧调度，提高了关键帧的调度效率。

另外，在本申请关键帧调度方法的另一个实施例中，在上述图1所示实施例之前，还可以包括：

确定初始关键帧。例如，指定视频中的第一帧或其他任意一帧为初始关键帧；

通过上述第一网络层对初始关键帧进行特征提取，获得初始关键帧的低层特征并缓存，后续可以基于该关键帧的低层特征调度其他帧是否为关键帧(可参照上述步骤102确定)；

通过上述第二网络层对初始关键帧的低层特征进行特征提取，获得初始关键帧的高层特征以便用于语义分割。

可选地，在本申请关键帧调度方法的又一个实施例中，还可以包括：对上述初始关键帧进行语义分割，输出该关键帧的语义标签。

另外，在本申请实施例提供的关键帧调度方法的又一个实施例中，确定当前帧被调度为关键帧之后，还可以包括：将当前帧称为当前关键帧，缓存当前关键帧的低层特征，以便用于确定视频中当前关键帧之后的其他帧是否被调度为关键帧使用。

另外，在本申请实施例提供的关键帧调度方法的再一个实施例中，确定当前帧被调度为关键帧之后，还可以包括：将当前帧称为当前关键帧，对该当前关键帧进行语义分割，输出该当前关键帧的语义标签。本申请实施例中，对于关键帧，可以调用计算代价大的单帧模型，例如PSPN进行语义分割，从而获得高精度的语义分割结果。本申请实施例中，关键帧和当前帧可以共享神经网络的低层特征层(即：第一网络层)进行低层特征提取，此处的神经网络可以采用金字塔场景解析网络(Pyramid Scene Parsing Network，PSPN)，该神经网络可以包括四部分卷积网络(conv1到conv4)和一个分类层，每一部分卷积网络又分为多个卷积层，其中，神经网络的低层特征层可以包括PSPN中从conv1到conv4_3中的卷积层，占了PSPN约1/8的计算量；神经网络的高层特征层(即：第二网络层)可以包括从conv4_4到分类层前的至少一个卷积层，占了PSPN约7/8的计算量，用于提取关键帧的高层特征；分类层用于基于关键帧的高层特征对应识别关键帧中至少一个像素的类别，从而实现对关键帧的语义分割。

图2为本申请实施例提供的关键帧调度方法的另一流程示意图。如图2所示，该实施例的关键帧调度方法包括：

202，通过神经网络的第一网络层对当前帧进行特征提取，获得当前帧的低层特征。

在本申请实施例的一个示例中，可以通过神经网络的低层特征层对当前帧进行特征提取，获得当前帧的低层特征。

在一个可选示例中，该步骤202可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一特征提取单元执行。

204，根据与当前帧相邻的前一关键帧的低层特征和当前帧的低层特征，获取当前帧的调度概率值。

在一个可选示例中，该步骤204可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的调度单元执行。

206，根据当前帧的调度概率值确定当前帧是否被调度为关键帧。

若确定当前帧被调度为关键帧，将当前帧确定为当前关键帧，执行操作208。否则，若确定当前帧是否被调度为非关键帧，不执行本实施例的后续流程。

申请人在实现本申请的过程中，通过研究发现，两帧之间低层特征之间的差异性(定义为两帧的低层特征之间的差值)越大，对应的语义标签的差异性值(定义为两帧的语义标签中非重合部分所占的比例)越大，本申请实施例通过与当前帧相邻的前一关键帧的低层特征和当前帧的低层特征之间的差异性，来确认当前帧是否被调度为关键帧。在两帧之间低层特征之间的差异性大于该预设阈值时，可以将当前帧设置为关键帧(即：调度为关键帧)，以便获取较准确的语义结果。

在一个可选示例中，该步骤206可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的确定单元执行。

208，通过上述神经网络的第二网络层对当前关键帧的低层特征进行特征提取，获得当前关键帧的高层特征，并缓存当前关键帧的低层特征。

在一个可选示例中，该步骤208可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二特征提取单元和缓存单元执行。

210，对当前关键帧进行语义分割，输出当前关键帧的语义标签。

在一个可选示例中，该步骤210可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的语义分割单元执行。

申请人在实现本申请的过程中，通过研究发现，视频中帧之间的低层特征变化大则其进行语义分割获得的语义标签之间抖动大，反之抖动小。本申请实施例中，可以利用深度学习方法，获取视频中至少一帧的特征信息，根据当前帧相邻的前一关键帧的低层特征和当前帧的低层特征之间的差异性确定低层特征的变化，分析视频中帧之间的抖动情况，通过计算当前帧和相邻的前一关键帧低层特征之间的重合程度，若低层特征变化大则标签抖动大，反之抖动小，从而通过低层特征回归语义标签的抖动程度，由此自适应的调度关键帧。

在本申请上述任意实施例的一个可选示例中，操作104或204可以包括：

将前一关键帧的低层特征和当前帧的低层特征进行拼接，得到拼接特征；

通过关键帧调度网络，基于该拼接特征获取当前帧的调度概率值并输出。

本申请实施例可以用于自动驾驶场景、视频监控场景、人像分割等互联网娱乐产品等，例如：

1，在自动驾驶的场景下，可以利用本申请实施例将视频中的目标快速分割出来，例如，人和车辆；

2，在视频监控场景中，可以将人快速的分割出来；

3，在人像分割等互联网娱乐产品中，可以快速的从视频帧中把人分割出来。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图3为本申请实施例提供的关键帧调度装置的一个结构示意图。本申请实施例提供的关键帧调度装置可用于实现本申请上述各实施例提供的关键帧调度方法。如图3所示，在关键帧调度装置的一个实施例中，包括：第一特征提取单元，调度单元，确定单元和第二特征提取单元。其中：

第一特征提取单元，包括神经网络的第一网络层，用于对当前帧进行特征提取，获得当前帧的低层特征。

调度单元，用于根据与当前帧相邻的前一关键帧的低层特征和当前帧的低层特征，获取当前帧的调度概率值。其中，前一关键帧的低层特征由第一网络层对前一关键帧进行特征提取得到，可选地，本申请实施例提出的调度概率值为当前帧被调度为关键帧的概率。

确定单元，用于根据当前帧的调度概率值确定当前帧是否被调度为关键帧。

第二特征提取单元，包括神经网络的第二网络层，用于根据确定单元的确定结果，若确定当前帧被调度为关键帧，将当前帧确定为当前关键帧，对当前关键帧的低层特征进行特征提取，获得当前关键帧的高层特征。其中，神经网络中，上述第一网络层的网络深度浅于第二网络层的网络深度。

基于本申请上述实施例提供的关键帧调度装置，对当前帧进行特征提取，获得当前帧的低层特征，根据相邻的前一关键帧的低层特征和当前帧的低层特征，获取当前帧的调度概率值；根据当前帧的调度概率值确定当前帧是否被调度为关键帧；若确定当前帧被调度为关键帧，对当前关键帧的低层特征进行特征提取，获得当前关键帧的高层特征。本申请实施例可以根据前一关键帧的低层特征和当前帧的低层特征来获取当前帧相对于前一关键帧低层特征的变化，利用了视频中不同帧之间的低层特征的变化，从而可以快速、准确、自适应的进行关键帧调度，提高了关键帧的调度效率。

在本申请实施例提供的关键帧调度装置的一个可选实施方式中，上述前一关键帧包括预先确定的初始关键帧。

图4为本申请实施例提供的关键帧调度装置的另一结构示意图。如图4所示，与图3所示实施例相比，在该实施例中，关键帧调度装置还包括：缓存单元，用于缓存关键帧的低层特征，本申请实施例中的关键帧包括初始关键帧。

另外，在基于本申请实施例提供的关键帧调度装置的又一个实施例中，第一特征提取单元还可用于根据确定单元获得的确定结果，在缓存单元中缓存当前关键帧的低层特征。

在本申请实施例提供的关键帧调度装置的一个实施方式中，调度单元可以包括：拼接子单元，用于将前一关键帧的低层特征和当前帧的低层特征进行拼接，得到拼接特征；关键帧调度网络，用于基于拼接特征获取当前帧的调度概率值。

另外，再参见图4，本申请实施例提供的关键帧调度装置还可以包括：语义分割单元，用于对关键帧进行语义分割，输出关键帧的语义标签，本申请实施例中的关键帧可以包括：初始关键帧、前一关键帧或者当前关键帧。

另外，本申请实施例还提供了一种电子设备，包括本申请上述任一实施例的关键帧调度装置。

另外，本申请实施例还提供了另一种电子设备，包括：

处理器和本申请上述任一实施例的关键帧调度装置；

在处理器运行关键帧调度装置时，本申请上述任一实施例的关键帧调度装置中的单元被运行。

另外，本申请实施例还提供了又一种电子设备，包括：处理器和存储器；

存储器用于存放至少一可执行指令，可执行指令使处理器执行本申请上述任一实施例的关键帧调度方法中各步骤的操作。

本申请实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。图5为本申请实施例提供的电子设备的一个应用实施例的结构示意图。下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备500的结构示意图：如图5所示，电子设备500包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)501，和/或一个或多个图像处理器(GPU)513等，处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。通信部512可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器502和/或随机访问存储器503中通信以执行可执行指令，通过总线504与通信部512相连、并经通信部512与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，通过神经网络的第一网络层对当前帧进行特征提取，获得当前帧的低层特征；根据与当前帧相邻的前一关键帧的低层特征和当前帧的低层特征，获取当前帧的调度概率值；其中，前一关键帧的低层特征由第一网络层对前一关键帧进行特征提取得到；根据当前帧的调度概率值确定当前帧是否被调度为关键帧；若确定当前帧被调度为关键帧，将当前帧确定为当前关键帧，通过神经网络的第二网络层对当前关键帧的低层特征进行特征提取，获得当前关键帧的高层特征；其中，神经网络中，第一网络层的网络深度浅于第二网络层的网络深度。

此外，在RAM 503中，还可存储有装置操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。在有RAM503的情况下，ROM502为可选模块。RAM503存储可执行指令，或在运行时向ROM502中写入可执行指令，可执行指令使中央处理单元501执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至总线504。通信部512可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

需要说明的，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU513和CPU501可分离设置或者可将GPU513集成在CPU501上，通信部可分离设置，也可集成设置在CPU501或GPU513上，等等。这些可替换的实施方式均落入本申请公开的保护范围。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，通过神经网络的第一网络层对当前帧进行特征提取，获得当前帧的低层特征；根据与当前帧相邻的前一关键帧的低层特征和当前帧的低层特征，获取当前帧的调度概率值；其中，前一关键帧的低层特征由第一网络层对前一关键帧进行特征提取得到；根据当前帧的调度概率值确定当前帧是否被调度为关键帧；若确定当前帧被调度为关键帧，将当前帧确定为当前关键帧，通过神经网络的第二网络层对当前关键帧的低层特征进行特征提取，获得当前关键帧的高层特征；其中，神经网络中，第一网络层的网络深度浅于第二网络层的网络深度。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能的操作。

另外，本申请实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，该指令被执行时实现本申请上述任一实施例关键帧调度方法的操作。

另外，本申请实施例还提供了一种计算机程序，包括计算机可读取的指令，当计算机可读取的指令在设备中运行时，设备中的处理器执行用于实现本申请上述任一实施例关键帧调度方法中的步骤的可执行指令。

在一个可选实施方式中，所述计算机程序具体为软件产品，例如软件开发包(Software Development Kit，SDK)，等等。

在一个或多个可选实施方式中，本申请实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任一可能的实现方式中所述的关键帧调度方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，所述计算机程序产品具体体现为软件产品，例如SDK等等。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本申请的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种关键帧调度方法，其特征在于，包括：

通过神经网络的第一网络层对当前帧进行特征提取，获得当前帧的低层特征；

根据与所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征，获取所述当前帧的调度概率值；其中，所述前一关键帧的低层特征由所述第一网络层对所述前一关键帧进行特征提取得到，所述调度概率值为当前帧被调度为关键帧的概率；

根据所述当前帧的调度概率值确定所述当前帧是否被调度为关键帧；

若确定所述当前帧被调度为关键帧，将所述当前帧确定为当前关键帧，通过所述神经网络的第二网络层对所述当前关键帧的低层特征进行特征提取，获得所述当前关键帧的高层特征；其中，所述神经网络中，所述第一网络层的网络深度浅于所述第二网络层的网络深度。
根据权利要求1所述的方法，其特征在于，还包括：

确定初始关键帧；

通过所述第一网络层对所述初始关键帧进行特征提取，获得所述初始关键帧的低层特征并缓存；

通过所述第二网络层对所述初始关键帧的低层特征进行特征提取，获得所述初始关键帧的高层特征。
根据权利要求2所述的方法，其特征在于，还包括：

对所述初始关键帧进行语义分割，输出所述初始关键帧的语义标签。
根据权利要求1-3任一所述的方法，其特征在于，在若确定所述当前帧被调度为关键帧之后，还包括：

缓存所述当前关键帧的低层特征。
根据权利要求1-4任一所述的方法，其特征在于，所述根据与所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征，获取所述当前帧的调度概率值，包括：

将所述前一关键帧的低层特征和所述当前帧的低层特征进行拼接，得到拼接特征；

通过关键帧调度网络，基于所述拼接特征获取所述当前帧的调度概率值。
根据权利要求1-5任一所述的方法，其特征在于，还包括：

对所述当前关键帧进行语义分割，输出所述关键帧的语义标签。
一种关键帧调度装置，其特征在于，包括：

第一特征提取单元，包括神经网络的第一网络层，用于对当前帧进行特征提取，获得当前帧的低层特征；

调度单元，用于根据与所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征，获取所述当前帧的调度概率值；其中，所述前一关键帧的低层特征由所述第一网络层对所述前一关键帧进行特征提取得到，所述调度概率值为当前帧被调度为关键帧的概率；

确定单元，用于根据所述当前帧的调度概率值确定所述当前帧是否被调度为关键帧；

第二特征提取单元，包括所述神经网络的第二网络层，用于根据所述确定单元的确定结果，若确定所述当前帧被调度为关键帧，将所述当前帧确定为当前关键帧，对所述当前关键帧的低层特征进行特征提取，获得所述当前关键帧的高层特征；其中，所述神经网络中，所述第一网络层的网络深度浅于所述第二网络层的网络深度。
根据权利要求7所述的装置，其特征在于，所述前一关键帧包括预先确定的初始关键帧；

所述装置还包括：

缓存单元，用于缓存关键帧的低层特征，所述关键帧包括所述初始关键帧。
根据权利要求8所述的装置，其特征在于，所述第一特征提取单元，还用于根据所述确定单元的确定结果，在所述缓存单元中缓存所述当前关键帧的低层特征。
根据权利要求7-9任一所述的装置，其特征在于，所述调度单元包括：

拼接子单元，用于将所述前一关键帧的低层特征和所述当前帧的低层特征进行拼接，得到拼接特征；

关键帧调度网络，用于基于所述拼接特征获取所述当前帧的调度概率值。
根据权利要求7-10任一所述的装置，其特征在于，所述装置还包括：

语义分割单元，用于对所述关键帧进行语义分割，输出所述关键帧的语义标签，所述关键帧包括：初始关键帧、所述前一关键帧或者所述当前关键帧。
一种电子设备，其特征在于，包括：权利要求7-11任一所述的关键帧调度装置。
一种电子设备，其特征在于，包括：

处理器和权利要求7-11任一所述的关键帧调度装置；

在处理器运行所述关键帧调度装置时，权利要求7-11任一所述的关键帧调度装置中的单元被运行。
一种电子设备，其特征在于，包括：处理器和存储器；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行权利要求1-6任一所述的关键帧调度方法中各步骤的操作。
一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1-6任一所述的关键帧调度方法中各步骤的指令。
一种计算机可读介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1-6任一所述的关键帧调度方法中各步骤的操作。