WO2020221121A1

WO2020221121A1 - 视频查询方法、装置、设备及存储介质

Info

Publication number: WO2020221121A1
Application number: PCT/CN2020/086670
Authority: WO
Inventors: 冯洋; 马林; 刘威; 罗杰波
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-04-29
Filing date: 2020-04-24
Publication date: 2020-11-05
Also published as: CN110083742A; US11755644B2; CN110083742B; US20210287006A1

Abstract

本申请实施例公开一种视频查询方法、装置、设备及存储介质，当用户需要查询待查视频时，该方法可以获取待查媒体的媒体特征和备选视频对应的图像静态特征。待查媒体包括目标对象，备选视频中包括运动对象。根据图像静态特征以及备选视频中运动对象的运动时序信息，确定所述备选视频的视频特征。由于通过运动时序信息可以准确的捕捉到运动中运动对象所体现的信息，故以此确定出的该视频特征可以准确的描述出该运动对象，有效的避免了在视频查询中原本运动对象带来不利影响。从而可以根据媒体特征以及该视频特征，准确的确定出备选视频中的运动对象是否与待查媒体中目标对象相关，提高了查询的准确性。

Description

视频查询方法、装置、设备及存储介质

本申请要求于2019年04月29日提交的申请号为201910355782.3、发明名称为“一种视频查询方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及媒体处理领域，特别是涉及一种视频查询方法、装置、设备及存储介质。

背景技术

随着搜索查询技术的发展，用户可以通过媒体查询与该媒体相关的视频，媒体包括图片、音频和视频等。例如用户可以通过一段包括目标对象的待查视频，从备选视频中查询都有哪些备选视频包括了该目标对象。

相关技术中，采用基于内容的视频查询技术来实现上述服务。

然而，上述视频查询技术精确度不高。在根据包括目标对象的媒体进行视频查询时，当一个备选视频中包括目标对象，但目标对象处于运动状态时，常常会查询不到这个备选视频。

发明内容

本申请提供了一种视频查询方法、装置、设备及存储介质，可以根据媒体特征以及该视频特征，准确的确定出备选视频中的运动对象是否与待查媒体中目标对象相关，提高了查询的精确度。

本申请实施例公开了如下技术方案：

根据本申请的一个方面，本申请实施例提供一种视频查询方法，所述方法包括：

获取待查媒体的媒体特征和备选视频对应的图像静态特征；所述待查媒体包括目标对象，所述备选视频中包括运动对象；

根据所述图像静态特征以及备选视频中所述运动对象的运动时序信息，确定所述备选视频的视频特征；

根据所述媒体特征以及所述视频特征，确定所述备选视频中的所述运动对象是否与所述目标对象相关。

根据本申请的另一方面，本申请实施例提供一种视频查询装置，所述装置包括获取单元、第一确定单元和第二确定单元：

所述获取单元，用于获取待查媒体的媒体特征和备选视频对应的图像静态特征；所述待查媒体包括目标对象，所述备选视频中包括运动对象；

所述第一确定单元，用于根据所述图像静态特征以及备选视频中所述运动对象的运动时序信息，确定所述备选视频的视频特征；

所述第二确定单元，用于根据所述媒体特征以及所述视频特征，确定所述备选视频中的所述运动对象是否与所述目标对象相关。

根据本申请的另一方面，本申请实施例提供一种用于视频查询的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的视频查询方法。

根据本申请的另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述方面所述的视频查询方法。

由上述技术方案可以看出，获取待查媒体的媒体特征和备选视频对应的图像静态特征。待查媒体包括目标对象，备选视频中包括运动对象。根据图像静态特征以及备选视频中运动对象的运动时序信息，确定所述备选视频的视频特征。由于通过运动时序信息可以准确的捕捉到运动中运动对象所体现的信息，故以此确定出的该视频特征可以准确的描述出该运动对象，有效的避免了在视频查询中原本运动对象带来不利影响。从而可以根据媒体特征以及该视频特征，准确的确定出备选视频中的运动对象是否与待查媒体中目标对象相关，提高了用户的查询体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频查询方法的应用场景示意图；

图2为本申请实施例提供的一种视频查询方法的流程图；

图3为传统方式中卷积长短期记忆神经网络的示例图；

图4为本申请实施例提供的错位长短期记忆神经网络的示例图；

图5为本申请实施例提供的一种视频查询方法的处理流程结构图；

图6为本申请实施例提供的一种视频查询装置的结构图；

图7为本申请实施例提供的一种视频查询装置的结构图；

图8为本申请实施例提供的一种终端设备的结构图；

图9为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

由于在视频查询中，如果备选视频中具有运动的目标对象，传统的视频查询技术所获取的备选视频的视频特征不能准确的体现出备选视频中的实际内容。也就是说，备选视频中运动的对象将难以被准确捕捉并体现到对应的视频特征中，导致即使用于查询的待查媒体中包括目标对象，也不容易识别出备选视频与待查媒体相关，视频查询准确性较低。

本申请实施例提供了一种视频查询方法，在确定备选视频的视频特征时依据了备选视频中运动对象的运动时序信息，有效的避免了在视频查询中原本运动对象带来的识别难度。

本申请实施例所提供的视频查询方法可以应用于各类视频处理场景，例如可以应用于视频中人物的识别，智能设备对物体的追踪、智能设备对人物的追踪、视频节目的分类等等。

本申请实施例提供的视频查询方法可以应用到具有媒体处理功能的电子设备中，该电子设备可以是终端设备，终端设备例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant，PDA)、平板电脑等。

该电子设备还可以是服务器，服务器是向终端设备提供媒体处理服务的，终端设备可以将待查媒体和备选视频上传给服务器，服务器利用本申请实施例提供的视频查询方法，确定备选视频中的运动对象是否与待查媒体中的目标对象相关，并将结果返回给终端设备。其中，服务器可以是独立的服务器，也可以是集群中的服务器。

为了便于理解本申请的技术方案，下面结合实际应用场景，以终端设备为例对本申请实施例提供的视频查询方法进行介绍。

参见图1，图1示出了一种视频查询方法的应用场景的示例图。该场景中包括终端设备101，当用户通过待查媒体进行视频查询时，终端设备101根据所获取的待查媒体，可以确定待查媒体的媒体特征。而且，终身101还可以根据待查媒体对应的备选视频，确定对应的图像静态特征。在本申请实施例中，媒体特征、图像静态特征，以及后续提到的视频特征、子特征等都属于一种类型的特征，该特征可以体现所标识对象(例如图像、视频)中携带相关内容的信息。例如一张图像的图像静态特征可以体现该图像中所展示的图像信息，一个视频的图像静态特征可以体现该视频中的图像信息，即更关注于各个视频帧本身的静态信息。这个视频的视频特征可以体现该视频中的视频信息，即更关注连续视频帧所体现的动态信息。

在本申请实施例中，备选视频属于待查媒体所查询的视频范围中的任意一个视频。在备选视频中包括运动的对象，该对象在本申请中简称为“运动对象”。可选地，运动对象是主动运动的对象，或者，被动运动的对象。比如，运动对象是人、动物、物体等。在备选视频中，运动对象可以有一个，也可以有多个。为了便于说明，在后续实施例中，主要针对备选视频中的一个运动对象的处理流程进行描述，但本申请实施例对备选视频中的运动对象的数量不加以限定。

待查媒体的媒体格式在本申请实施例中并不限定，可以是图像，也可以是视频等。不论待查媒体是何种媒体格式，待查媒体中包括目标对象，目标对象可以是人、动物、物体等各种可能的对象。在待查媒体中，目标对象可以是运动的，也可以是静止的。

终端设备101根据图像静态特征以及备选视频中运动对象的运动时序信息，确定备选视频的视频特征。由于通过运动时序信息可以准确的捕捉到运动中运动对象所体现的信息，故以此确定出的视频特征可以准确的描述出该运动对象，有效的避免了在视频查询中原本运动对象带来的识别难度。从而终端设备101可以根据媒体特征以及该视频特征，准确的确定出备选视频中的运动对象是否与待查媒体中目标对象相关，提高了查询的准确度以及用户的查询体验。

接下来，将以终端设备为执行主体为例、结合附图对本申请实施例提供的视频查询方法进行详细介绍。参见图2，所述方法包括：

S201、获取待查媒体的媒体特征和备选视频对应的图像静态特征。

在本实施例中，采用卷积神经网络来获取待查媒体的媒体特征和备选视频对应的图像静态特征。

然而，由于视频中可能包括运动对象，针对视频进行特征提取时，为了可以更好地获取到视频中的运动信息。在本实施例中，可以采用三维卷积神经网络获取待查媒体的媒体特征和备选视频对应的图像静态特征。

可选地，在执行S201时，可以通过三维卷积神经网络获取备选视频对应的图像静态特征。待查媒体的格式包括：图像和视频中的至少一种。若待查媒体为视频，则可以通过三维卷积神经网络获取待查媒体对应的视频特征；若待查媒体为图像，则可以通过三维卷积神经网络获取待查媒体对应的图像静态特征，也可以通过其他卷积神经网络获取待查媒体对应的媒体特征。

也即，当待查媒体为视频类型时，媒体特征为视频特征；待查媒体为图像类型时，媒体特征为图像静态特征。图像静态特征可以理解为对单个图像上的静态信息提取的特征、对单个视频帧上的静态信息提取的特征、或者单个视频分段上的静态信息提取的特征。

需要说明的是，训练三维卷积神经网络需要大量标注的视频，也需要耗费大量的计算资源。为了降低对计算资源的需求，在一种可能的实现方式中，可以直接采用在Kinetics数据集上预训练好的三维卷积神经网络(I3D)模型来获取待查媒体的媒体特征和备选视频对应的图像静态特征。

Kinetics数据集是由Deepmind团队发布的数据集。Kinetics数据集是是一个大规模，高质量数据集，包括大约650,000个视频剪辑。这些视频剪辑涵盖700种人类动作类，包括诸如弹奏乐器之类的人与对象之间的交互，以及诸如握手和拥抱之类的人与人之间的交互。每个动作班至少有600个视频剪辑。每个视频剪辑都带有一个单独的动作类别，可以人工注释，并且持续10秒钟左右。

可以理解的是，可以同时获取待查媒体的媒体特征和备选视频对应的图像静态特征，也可以不同时获取待查媒体的媒体特征和备选视频对应的图像静态特征。例如，备选视频对应的图像静态特征可以是预先获取的，当用户通过待查媒体进行视频查询时，终端设备获取到待查媒体后，再获取待查媒体的媒体特征；或者，当用户通过待查媒体进行视频查询时，终端设备获取到待查媒体后，终端设备同时获取待查媒体的媒体特征和备选视频对应的图像静态特征。

S202、根据图像静态特征以及备选视频中运动对象的运动时序信息，确定备选视频的视频特征。

在本申请实施例中，运动对象的运动时序信息，用于标识在备选视频中该运动对象随着时间推移运动趋势变化的情况。例如，运动对象的运动时序信息包括相邻时间节点间，该运动对象的运动位置在运动趋势下的变化情况。可选地，该运动时序信息是通过神经网络对该备选视频学习得到，也可以通过其他方式得到的，比如标注方式。

在确定备选视频的视频特征时，除了采用可以体现备选视频中静态信息的图像静态特征，还进一步引入了备选视频的运动时序信息。故在确定备选视频的视频特征的过程中，可以通过运动时序信息，准确的捕捉到备选视频中运动对象在运动时所体现的信息，从而使得视频特征所携带的信息可以准确的描述出该运动对象在备选视频中的运动情况，也即使得该视频特征可以清楚的标识出运动对象。

由此，在后续判断运动对象是否与目标对象相关时，视频特征中可以提供与运动对象相关的高质量信息，提高了判断的准确性。

S203、根据媒体特征以及视频特征，确定备选视频中的运动对象是否与目标对象相关。

可以理解的是，若确定出备选视频中的运动对象是否与目标对象相关，终端设备根据确定结果将运动对象与目标对象相关的备选视频归入查询结果，并在查询完成后向用户显示查询结果，帮助用户查询到与待查视频相关的备选视频。

在进行视频查询过程中，根据备选视频的视频分段是否与目标对象相关，确定出备选视频中哪些时间区间为与目标对象相关的区间。从而在向用户提供查询结果时，同时提供所查询到备选视频中相关区间信息，即用户的感兴趣区间。避免用户在获取查询结果后，还得从头到尾查看查询结果中哪些部分与查询需求(例如目标对象)相关，从而减少了用户对查询结果的查看时间。

需要说明的是，由于视频中所显示的内容可能较多，用户即使通过相关区间信息直接查看了备选视频的相关部分，但是可能短时间内无法发现目标对象在当前视频显示界面的哪些位置。故为了提高用户的查看效率，本申请实施例还提供了一种对备选视频的标识方式，在备选视频中对目标对象的出现区域进行标识，有效的对用户进行了指引。

在这种实现方式中，若通过S203确定第t个视频分段中的运动对象是否与目标对象相关后，还可以在备选视频的第t个视频分段中对目标区域进行标识，从而直观地向用户指出目标对象在当前视频显示界面的哪些位置，例如，用户在查看查询结果中的一个视频时，通过查询结果提供的时间区间信息，用户可以直接从该视频对应的播放进度播放该视频。在播放过程中，出现目标对象(或者说与目标对象相关的运动对象)时，该目标对象的出现区域会有特定的标识效果，例如醒目颜色的外框等，从而用户可以在该标识效果的指引下，快速的将视线锁定目标对象，实现自己的查询目的。

由于备选视频中的运动对象具有一定的运动方式，即运动对象一般不会一直处于视频中的某一固定位置，而可能会随着运动方式在不同的时间出现在视频的不同位置。故在确定备选视频的视频特征时，可以对备选视频进行分段，对不同的视频分段确定对应的子特征，从而通过子特征更为准确的确定运动对象的上述运动方式，以便提高后续视频查询时的查询准确性。

终端设备通过对备选视频进行基于时间顺序的分段，得到多个视频分段，比如n个视频分段，n为大于1的整数。一个视频分段包括至少一帧视频帧，不同视频分段所包括的视频帧数量也可以不同。终端设备通过分段所得到的n个视频分段中，第t个视频分段和第t-1个视频分段属于在时间顺序上的相邻视频分段，且第t个视频分段所处时间区间晚于第t-1个视频分段所处时间区间，t为大于1且不大于n的正整数。

其中，第t个视频分段对应的子特征携带有：用于体现备选视频从第1个视频分段至第t个视频分段中信息的特征。最后一个视频分段对应的子特征相当于该备选视频对应的视频特征。

在第t个视频分段时，备选视频中运动对象可能已经从视频画面中的a位置移动到了b位置。如果采用传统方式，不考虑运动对象的运动趋势，那第t个视频分段对应的子特征所能体现运动对象的信息并不集中，可能分散在子特征的特征平面的a位置到b位置之间。换句话说，传统方式中确定出的子特征中并不能明显的体现出运动对象的相关信息，从而导致在进行视频查询时，即使运动对象与目标对象实际相关，但是也难以准确的确定出相关结果。故此，本申请实施例提供了一种根据运动时序信息确定视频分段中的子特征的方式，通过该方式可以强化子特征中运动对象的相关信息，以起到提高查询准确性的目的。

备选视频中可能包括多个视频分段，每个视频分段对应一个子特征，第t个视频分段对应第t个子特征，每个子特征都是基于运动时序信息确定的。每个视频片段对应的子特征的确定方式是类似的，接下来，为了便于介绍，将以第t个子特征为例对根据运动时序信息确定子特征的方式进行介绍。

在一种可能的实现方式中，所述方法包括：确定第t-1个子特征中运动对象在第t个视频分段中的目标运动趋势。由于备选视频中运动对象的运动时序信息可以体现运动对象在相邻视频分段间的运动趋势，而第t个视频分段和第t-1个视频分段属于在时间顺序上的相邻视频分段，故根据运动时序信息可以确定出第t-1个子特征中运动对象在第t个视频分段中的目标运动趋势。

然后，根据目标运动趋势调整运动对象在第t-1个子特征的特征平面中对应的目标区域，使得目标区域移动到第t个视频分段中运动对象所在位置。接着，根据调整后的第t-1个子特征和第t个视频分段对应的图像静态特征，确定第t个子特征。由于在第t个视频分段中信息的基础上叠加了第t-1个视频分段中信息，而第t-1个视频分段中又携带了其前一个视频分段中信息，依次类推，相当于确定出的第t个子特征携带有用于体现备选视频从第1个视频分段至第t个视频分段中信息的特征，从而强化子特征中运动对象的相关信息，有助于提高查询准确性。

需要说明的是，相比于传统方式，由于传统方式不考虑运动对象的运动趋势，直接采用卷积长短期记忆神经网络(ConvLSTM)来确定第t个子特征。卷积长短期记忆神经网络的原理示意参见图3所示，其中，x _t表示第t个视频分段对应的图像静态特征，h _t-1表示第t-1个子特征，h _t表示第t个子特征。即传统方式中所采用的卷积长短期记忆神经网络直接利用第t个视频分段对应的图像静态特征x _t和第t-1个子特征h _t-1确定第t个子特征h _t。

而本申请实施例提供的根据运动时序信息确定子特征的方式中，所采用的是错位长短期记忆神经网络，错位长短期记忆神经网络是对传统卷积长短期记忆神经网络进行的改造，错位长短期记忆神经网络的原理示意可以参见图4所示。其中，x _t表示第t个视频分段对应的图像静态特征，h _t-1表示第t-1个子特征，h _t表示第t个子特征，h’ _t-1表示根据目标运动趋势调整后的第t-1个子特征。即本申请实施例所采用的错位长短期记忆神经网络例利用第t个视频分段对应的图像静态特征x _t和调整后的第t-1个子特征h’ _t-1确定第t个子特征h _t。

接下来，将详细介绍如何根据目标运动趋势，调整运动对象在第t-1个子特征的特征平面中对应的目标区域。

在一种可能的实现方式中，可以在特征平面上定义一些控制点，这些控制点均匀的分布在特征平面上，例如在图4当中，有9个控制点，分别坐落在三条横线和三条竖线的交点处。利用{(x ₁,y ₁),…,(x _n,y _n)}来表示定义好的n个控制点，则特征平面的计算公式为：

其中，S(x,y)表示特征平面，

是径向基函数，w _i,v ₁,v ₂,v ₃都是插值参数，(x _i,y _i)为第i个控制点的坐标，n为控制点的个数，i为不大于n的正整数。

定义好控制点之后，使用错位长短期记忆神经网络的一个卷积层来预测每个控制点的偏移值(dx _i；dy _i)。对于第i个控制点(x _i；y _i)，偏移之后的位置变成(x _i+dx _i；y _i+dy _i)。移动控制点的同时，控制点附近的区域也会随之移动，比如类似于骨骼动画中的加权移动。因此，移动目标区域相当于移动目标区域中的控制点，为了调整目标区域，可以先根据目标运动趋势确定目标区域内的控制点对应的偏移值，然后，根据偏移值移动控制点，以移动后的控制点为基准调整运动对象在第t-1个子特征的特征平面中对应的目标区域。

在这种情况下，错位长短期记忆神经网络的公式表示如下：

d _t-1＝w _xd*x _t+w _hd*h _t-1+b _d

其中，d _t-1表示目标区域内的控制点对应的偏移值(dx _i；dy _i)，x _t是第t个视频分段对应的图像静态特征，作为错位长短期记忆神经网络的输入，h _t-1是第t-1个子特征；

是根据偏移值d _t-1移动控制点后得到的第t-1个子特征，

与

共同构成第t-1个子特征，warp()是错位函数；σ()表示sigmoid激活函数；i _t、g _t、f _t、和o _t分别是错位长短期记忆神经网络的输入门、新输入、遗忘门和输出门；w _xd、w _hd、w _xi、w _hi、w _xg、w _hg、w _xf、w _hf、w _xo、w _ho、b _d、b _i、b _g、b _f、b _o都是模型参数；h _t为得到的第t个子特征，作为错位长短期记忆神经网络模型的输出，⊙表示同或运算。

在视频分段中，子特征除了包括能够体现出运动对象的相关信息，还会包括其他信息，例如视频背景等与运动对象明显不相关的信息。故为了减少计算与目标对象是否相关时的计算量，可以预先去除这部分区域的信息，保留可能与目标对象相关区域的信息，以提高视频查询效率。

针对第t个子特征，S203的一种可能实现方式为，通过去除与目标对象明显不相关的信息的方式，确定在第t个子特征的特征平面与目标对象具有关联关系的目标区域。

在本实施例中，可以通过以下方式确定目标区域以及目标区域的区域特征。在一个视频分段当中，均匀的放置一些方框，这些方框可以覆盖视频分段当中所有的位置，而且这些方框有一定的重叠。然后，采用区域提案网络(Region Proposal Network，RPN)判断该方框中所对应的区域是否与目标对象具有关联关系，从而确定出目标区域。其中，确定目标区域的公式如下所示：

p _k＝PRN(h _i)

其中，p _k是第k个目标区域，h _i是第i个子特征，PRN为区域提案函数。

在确定出目标区域后，根据第t个子特征确定目标区域对应的区域特征，从而根据所述区域特征以及所述媒体特征，确定第t个视频分段中的所述运动对象是否与所述目标对象相关。其中，确定目标区域对应的区域特征的公式如下所示：

其中，

是目标区域的区域特征，p _k是第k个目标区域，h _i是第i个子特征，ROI是区域池化函数。

当待查媒体为视频格式时，即为待查视频时，可能目标对象并不会在待查视频的每一视频帧中都有出现，或者在一些视频帧中较为模糊或不完整。在这种情况下，如果根据待查视频对应的视频特征作为查询依据的话，可能会由于该视频特征中携带有较多其他信息而增加计算量，或降低查询准确度。例如匹配出的备选视频中视频背景内容与待查视频的视频背景内容相近而没有目标对象的情况。为了避免这类情况发生，并降低计算量，本申请实施例采用了一种注意力加权的方式来确定出更能体现目标对象相关信息的待查视频特征。

在确定第t个视频分段中的运动对象是否与目标对象相关的过程中，首先，通过注意力模型确定待查视频中视频帧内容与目标对象间的权重，通常情况下，待查视频中视频帧内容中包括的目标对象越完整或越清晰，则得到的待查视频中视频帧内容与目标对象间的权重越大。例如，可以根据待查视频与备选视频中目标区域的相关性确定权重，其中，待查视频与备选视频中目标区域的相关性，以及权重的计算公式为：

其中，

表示待查视频的视频特征，

表示目标区域的区域特征，e _k,j表示

和

相关性的向量，avg是取平均值函数，α _k,j是待查视频中视频帧内容与目标对象间的权重，W ^q、W ^r、ω、b _p和b _s都是模型参数，而ω ^T是ω的转置。

这样，在根据确定的权重确定待查视频的待查视频特征时，降低了目标对象之外的其他信息对待查视频特征的影响，强化了待查视频特征中目标对象的相关信息，便于更加准确的根据区域特征以及待查视频特征，确定第t个视频分段中的运动对象是否与目标对象相关。

其中，待查视频特征的计算公式为：

其中，

是加权之后的待查视频特征，α _k,j是待查视频中视频帧内容与目标对象间的权重，

是待查视频的视频特征。

例如，待查视频包括20个视频帧，其中，第5个视频帧包括了完整且清晰的目标对象，而其余个视频帧中目标对象没有出现，或者较为模糊或不完整。那么，通过注意力模型确定各个视频帧与目标对象间的权重可能分别为：第5个视频帧对应的权重为0.9，其余视频帧对应的权重为0.1。则在根据确定的权重确定待查视频的待查视频特征时，由于第5个视频帧对应的权重明显高于其余视频帧对应的权重，得到的待查视频特征主要体现的是第5个视频帧中目标对象的相关信息，降低了目标对象之外的其他信息对待查视频特征的影响，强化了待查视频特征中目标对象的相关信息，便于更加准确的视频分段中的运动对象是否与目标对象相关。

需要说明的是，得到待查视频特征

和目标区域的区域特征

之后，可以将这两个特征拼接在一起，然后经过两个卷积层和两个全连接层，分别输出目标区域是否和待查视频相关，以及与待查视频相关的目标区域精确的区域坐标。

根据区域特征以及待查视频特征，确定第t个视频分段中的运动对象是否与目标对象相关的计算公式，以及与待查视频相关的目标区域精确的区域坐标的计算公式为：

l＝softmax[FC(Conv(f))]

bb＝FC(Conv(f))

其中，f为将

和

这两个特征进行拼接得到的特征，l是分类得到的相关还是不相关的类别，bb是精确之后的区域坐标，Conv代表卷积层，FC代表全连接层，softmax是Softmax激活函数。

接下来，将结合实际应用场景对本申请实施例提供的视频查询方法进行介绍。在该应用场景中，待查媒体为待查视频(例如发布的短视频)，用户希望通过查询该待查视频确定备选视频中是否存在拷贝该短视频的情况。为此，可以通过本申请实施例提供的方法进行视频查询。

利用本申请实施例提供的方法进行视频查询主要包括：视频特征提取、长视频错位累积、区域提案、注意力加权和区域精确化五个部分。该视频查询方法的流程结构图参见图5所示。

第一部分：视频特征提取：

对于给定一个待查视频以及一个备选视频，首先分别对待查视频和备选视频进行特征提取。例如，可以分别对查询视频和备选视频进行分段，分别得到多个视频分段，然后利用三维卷积网络分别对备选视频和待查视频的各个视频分段进行特征提取，得到各个视频片段分别对应的图像静态特征。

第二部分：长视频错位累积：

由于备选视频中包括运动对象，为了准确的捕捉到运动中运动对象所体现的信息，可以采用错位长短期记忆神经网络(WarpLSTM)来汇集备选视频当中的运动时序信息，根据运动时序信息对备选视频的各个视频片段的子特征进行错位调整，以便在确定第t个子特征时，可以根据调整后的第t-1个子特征和提取到的第t个视频分段对应的图像静态特征确定第t个子特征。

第三部分：区域提案：

利用区域提案网络(RPN)选出备选视频中可能和待查视频中目标对象具有关联关系的目标区域，通过区域池化的方式确定目标区域对应的区域特征。

第四部分：注意力加权：

针对待查视频，为了确定出更能体现目标对象相关信息的待查视频特征，可以对待查视频进行注意力加权，得到加权后的待查视频特征。

第五部分：区域精确化：

得到待查视频特征和目标区域的区域特征之后，可以将这两个特征拼接在一起，然后经过卷积层和两个全连接层与备选视频进行比对，分别输出目标区域是否和待查视频相关的类别，以及与待查视频相关的目标区域精确的区域坐标，从而精确化定位出备选视频中哪些视频片段的哪些区域与待查视频相关。其中，输出目标区域是否和待查视频相关的过程可以称为分类过程，输出与待查视频相关的目标区域精确的区域坐标可以通过对目标区域进行标识的方式体现，例如为目标区域设置醒目颜色的外框，此时，输出与待查视频相关的目标区域精确的区域坐标的过程可以称为框回归。

本申请提供了一种端到端的视频时空再定位方法。在给定一个短的查询视频之后，本申请可以在其它长的备选视频中，查询到与查询视频包含相同语义内容的时空视频片段。所谓“时空视频片段”，在时间维度上是指：在在较长的备选视频中定位出一个视频频段；在空间维度上是指在查询到的视频片段中精确地返回目标区域，目标区域是与待查视频相关的区域。在一个示例中，用户在给定一个短的查询视频之后，本申请能够在长的备选视频中快速定位到用户感兴趣的部分，用户不必亲自去从头到尾浏览，从而节省时间。另外，本技术也可以用于视频拷贝检测，用于检测侵犯版权的视频传播。

基于前述实施例提供的一种视频查询方法，本申请实施例还提供一种视频查询装置，参见图6，所述装置包括获取单元601、第一确定单元602和第二确定单元603：

所述获取单元601，用于获取待查媒体的媒体特征和备选视频对应的图像静态特征；所述待查媒体包括目标对象，所述备选视频中包括运动对象；

所述第一确定单元602，用于根据所述图像静态特征以及所述备选视频中所述运动对象的运动时序信息，确定所述备选视频的视频特征；

所述第二确定单元603，用于根据所述媒体特征以及所述视频特征，确定所述备选视频中的所述运动对象是否与所述目标对象相关。

在一种可能的实现方式中，所述视频特征包括所述备选视频中的n个视频分段对应的子特征；第t个视频分段对应第t个子特征，所述运动时序信息体现所述运动对象在相邻视频分段间的运动趋势，t为大于1且不大于n的正整数，n为大于1的整数；

所述第一确定单元602，具体用于：

确定第t-1个子特征中的所述运动对象在第t个视频分段中的目标运动趋势；

根据所述目标运动趋势，调整所述运动对象在所述第t-1个子特征的特征平面中对应的目标区域；

根据调整后的第t-1个子特征和所述第t个视频分段对应的图像静态特征，确定所述第t个子特征。

在一种可能的实现方式中，所述第一确定单元602，还用于：

根据所述目标运动趋势确定所述目标区域内的控制点对应的偏移值；

根据所述偏移值移动所述控制点，以移动后的所述控制点为基准调整所述运动对象在所述第t-1个子特征的特征平面中对应的目标区域。

在一种可能的实现方式中，所述第二确定单元603，具体用于：

确定在第t个子特征的特征平面与所述目标对象具有关联关系的目标区域；

根据所述第t个子特征确定所述目标区域对应的区域特征；

根据所述区域特征以及所述媒体特征，确定所述第t个视频分段中的所述运动对象是否与所述目标对象相关。

在一种可能的实现方式中，所述第二确定单元603，还用于：

通过注意力模型确定所述待查视频中的视频帧内容与所述目标对象之间的权重；

根据所述权重确定所述待查视频的待查视频特征；

根据所述区域特征以及所述待查视频特征，确定所述第t个视频分段中的所述运动对象是否与所述目标对象相关。

在一种可能的实现方式中，若第t个视频分段中的所述运动对象是否与所述目标对象相关，参见图7，所述装置还包括标识单元604：

所述标识单元604，用于在所述备选视频的第t个视频分段中对所述目标区域进行标识。

由上述技术方案可以看出，获取待查媒体的媒体特征和备选视频对应的图像静态特征。待查媒体包括目标对象，备选视频中包括运动对象。根据图像静态特征以及备选视频中运动对象的运动时序信息，确定所述备选视频的视频特征。由于通过运动时序信息可以准确的捕捉到运动中运动对象所体现的信息，故以此确定出的该视频特征可以准确的描述出该运动对象，有效的避免了在视频查询中原本运动对象带来的识别难度。从而可以根据媒体特征以及该视频特征，准确的确定出备选视频中的运动对象是否与待查媒体中目标对象相关，提高了用户的查询体验。

本申请实施例还提供了一种用于视频查询的设备，下面结合附图对用于视频查询的设备进行介绍。请参见图8所示，本申请实施例提供了一种用于视频查询的设备700，该设备700还可以是终端设备，该终端设备可以,包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图8示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图8，手机包括：射频(Radio Frequency，简称RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(wireless fidelity，简称WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图7中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，简称LNA)、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(General Packet Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器(Liquid Crystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图7中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理单元；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池)，优选的，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器780还具有以下功能：

本申请实施例提供的用于视频查询的设备可以是服务器，请参见图9所示，图9为本申请实施例提供的服务器800的结构图，服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤，可以基于该图9所示的服务器结构。

其中，CPU 822至少用于执行如下步骤：

可选地，CPU 822还用于执行上述方法实施例所述的视频查询方法。

本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述实施例所述的视频查询方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种视频查询方法，其特征在于，应用于电子设备中，所述方法包括：

获取待查媒体的媒体特征和备选视频对应的图像静态特征；所述待查媒体包括目标对象，所述备选视频中包括运动对象；

根据所述图像静态特征以及所述备选视频中所述运动对象的运动时序信息，确定所述备选视频的视频特征；

根据所述媒体特征以及所述视频特征，确定所述备选视频中的所述运动对象是否与所述目标对象相关。
根据权利要求1所述的方法，其特征在于，所述视频特征包括所述备选视频中n个视频分段对应的子特征；第t个视频分段对应第t个子特征，所述运动时序信息体现所述运动对象在相邻视频分段间的运动趋势，t为大于1且不大于n的正整数，n为大于1的整数；

所述根据所述图像静态特征以及备选视频中所述运动对象的运动时序信息，确定所述备选视频的视频特征，包括：

确定第t-1个子特征中的所述运动对象在第t个视频分段中的目标运动趋势；

根据所述目标运动趋势，调整所述运动对象在所述第t-1个子特征的特征平面中对应的目标区域；

根据调整后的第t-1个子特征和所述第t个视频分段对应的图像静态特征，确定所述第t个子特征。
根据权利要求2所述的方法，其特征在于，所述根据所述目标运动趋势调整所述运动对象在所述第t-1个子特征的特征平面中对应的目标区域，包括：

根据所述目标运动趋势确定所述目标区域内的控制点对应的偏移值；

根据所述偏移值移动所述控制点，以移动后的所述控制点为基准调整所述运动对象在所述第t-1个子特征的特征平面中对应的目标区域。
根据权利要求2所述的方法，其特征在于，所述根据所述媒体特征以及所述视频特征，确定所述备选视频中的所述运动对象是否与所述目标对象相关，包括：

确定在所述第t个子特征的特征平面与所述目标对象具有关联关系的目标区域；

根据所述第t个子特征确定所述目标区域对应的区域特征；

根据所述区域特征以及所述媒体特征，确定所述第t个视频分段中的所述运动对象是否与所述目标对象相关。
根据权利要求4所述的方法，其特征在于，所述待查媒体为待查视频，所述根据所述区域特征以及所述媒体特征，确定所述第t个视频分段中的所述运动对象是否与所述目标对象相关，包括：

通过注意力模型确定所述待查视频中的视频帧内容与所述目标对象之间的权重；

根据所述权重确定所述待查视频的待查视频特征；

根据所述区域特征以及所述待查视频特征，确定所述第t个视频分段中的所述运动对象是否与所述目标对象相关。
根据权利要求4或5所述的方法，其特征在于，若第t个视频分段中的所述运动对象与所述目标对象相关，所述方法还包括：

在所述备选视频的第t个视频分段中对所述目标区域进行标识。
一种视频查询装置，其特征在于，所述装置包括：获取单元、第一确定单元和第二确定单元：

所述获取单元，用于获取待查媒体的媒体特征和备选视频对应的图像静态特征；所述待查媒体包括目标对象，所述备选视频中包括运动对象；

所述第一确定单元，用于根据所述图像静态特征以及所述备选视频中所述运动对象的运动时序信息，确定所述备选视频的视频特征；

所述第二确定单元，用于根据所述媒体特征以及所述视频特征，确定所述备选视频中的所述运动对象是否与所述目标对象相关。
根据权利要求7所述的装置，其特征在于，所述视频特征包括所述备选视频中n个视频分段对应的子特征；第t个视频分段对应第t个子特征，所述运动时序信息体现所述运动对象在相邻视频分段间的运动趋势，t为大于1且不大于n的正整数，n为大于1的整数；

所述第一确定单元，具体用于：

确定第t-1个子特征中的所述运动对象在第t个视频分段中的目标运动趋势；

根据所述目标运动趋势，调整所述运动对象在所述第t-1个子特征的特征平面中对应的目标区域；

根据调整后的第t-1个子特征和所述第t个视频分段对应的图像静态特征，确定所述第t个子特征。
根据权利要求8所述的装置，其特征在于，所述第一确定单元，还用于：

根据所述目标运动趋势确定所述目标区域内的控制点对应的偏移值；

根据所述偏移值移动所述控制点，以移动后的所述控制点为基准调整所述运动对象在所述第t-1个子特征的特征平面中对应的目标区域。
根据权利要求8所述的装置，其特征在于，所述第二确定单元，具体用于：

确定在所述第t个子特征的特征平面与所述目标对象具有关联关系的目标区域；

根据所述第t个子特征确定所述目标区域对应的区域特征；

根据所述区域特征以及所述媒体特征，确定所述第t个视频分段中的所述运动对象是否与所述目标对象相关。
根据权利要求10所述的装置，其特征在于，所述第二确定单元，还用于：

通过注意力模型确定所述待查视频中的视频帧内容与所述目标对象之间的权重；

根据所述权重确定所述待查视频的待查视频特征；

根据所述区域特征以及所述待查视频特征，确定所述第t个视频分段中的所述运动对象是否与所述目标对象相关。
根据权利要求10或11所述的装置，其特征在于，若第t个视频分段中的所述运动对象与所述目标对象相关，所述装置还包括标识单元：

所述标识单元，用于在所述备选视频的第t个视频分段中对所述目标区域进行标识。
一种用于视频查询的设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行权利要求1至6任一所述的视频查询方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1至6任一所述的视频查询方法。