WO2017114388A1

WO2017114388A1 - 一种视频搜索方法及装置

Info

Publication number: WO2017114388A1
Application number: PCT/CN2016/112390
Authority: WO
Inventors: 肖瑛; 杨振宇
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2015-12-30
Filing date: 2016-12-27
Publication date: 2017-07-06
Also published as: US10642892B2; CN105677735A; CN105677735B; US20180025079A1

Abstract

本发明公开了一种视频搜索方法及装置，其中该方法包括：利用预设的分类模型，预测待标注视频中视频帧的视频帧标签；将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对待标注视频标注相应的视频帧标签；在接收到指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定搜索请求相应的视频帧标签；在候选视频中查找标注有视频帧标签的目标视频；对目标视频进行展示。本发明实施例通过对视频帧标签进行预测、合并以及标注，从而基于视频帧标签的标注结果确定搜索请求相应的视频帧标签，即利用预先标注的视频帧标签对视频的内容进行搜索，相对于基于人工添加标题的方式，大大的提高了视频搜索的效率以及搜索结果的准确率。

Description

一种视频搜索方法及装置

本申请要求于2015年12月30日提交中国专利局、申请号为201511017439.6、发明名称“一种视频搜索方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明属于通信技术领域，尤其涉及一种视频搜索方法及装置。

背景技术

随着互联网技术的迅速发展，互联网上可供用户搜索查询的网络资源也越来越多，在这众多的资源中，准确搜索出用户需要的资源也显得尤为重要。

以视频资源为例，通常情况下采用人工运营的方式，将视频进行拆分和剪辑，编辑出多个片段视频，并添加相关标题。用户通过统一的综合搜索框，输入搜索词进行全网搜索，若搜索词跟添加的标题完全匹配时，展示搜索结果。

在对现有技术的研究和实践过程中，本发明的发明人发现，由于现有技术中从视频的拆分、剪辑到标题的添加，都需要人工进行，人工运营成分较多，容易出现标题不全面或不准确的现象，因此会直接导致视频搜索效率低以及搜索结果准确率不高的问题。

发明内容

本发明的目的在于提供一种视频搜索方法及装置，旨在提高搜索效率以及搜索结果的准确率。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种视频搜索方法，其中包括：

获取待标注视频，并利用预设的分类模型，预测所述待标注视频中视频帧的视频帧标签；

将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对所述待标注视频标注相应的视频帧标签；

在接收到指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签；

在候选视频中，查找标注有所述视频帧标签的目标视频，并对所述目标视频进行展示。

为解决上述技术问题，本发明实施例还提供以下技术方案：

一种视频搜索装置，其中包括：

标签预测单元，被设置为获取待标注视频，并利用预设的分类模型，预测所述待标注视频中视频帧的视频帧标签；

第一标注单元，被设置为将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对所述待标注视频标注相应的视频帧标签；

标签确定单元，被设置为在接收到指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签；

查找单元，被设置为在候选视频中，查找标注有所述视频帧标签的目标视频；

展示单元，被设置为对所述目标视频进行展示。

相对于现有技术，本发明实施例，首先利用预设的分类模型，对待标注视频中视频帧的视频帧标签进行预测，并将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对待标注视频标注相应的视频帧标签；其后，在接收到用户指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定搜索请求相应的视频帧标签，从而在候选视频中查找出标注有该视频帧标签的目标视频并进行展示；本实施例中，通过对视频帧标签进行预测、合并以及标注，从而基于视频帧标签的标注结果确定搜索请求相应的视频帧标签，即利用预先标注的视频帧标签对视频的内容进行搜索，相对于基于人工添加标题的方式，大大的提高了视频搜索的效率以及搜索结果的准确率。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其它有益效果显而易见。

图1a是本发明实施例提供的视频搜索装置的场景示意图；

图1b是本发明第一实施例提供的视频搜索方法的流程示意图；

图2a至图2h为本发明第二实施例提供的视频搜索方法的场景示意图；

图3a为本发明第三实施例提供的视频搜索装置的结构示意图；

图3b为本发明第三实施例提供的视频搜索装置的另一结构示意图；

图4是根据本发明实施例的一种终端的结构框图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本发明的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境，其中包括了任何的上述系统或装置。

本发明实施例提供一种视频搜索方法及装置。

参见图1a，该图为本发明实施例提供的视频搜索装置所处系统的场景示意图，该视频搜索系统可以包括视频搜索装置，主要用于利用预设的分类模型，预测待标注视频中视频帧的视频帧标签，并将时间相邻的且具有相同的视频帧标签的视频帧进行合并，从而实现对待标注视频标注相应的视频帧标签；其后，接收用户输入的指示搜索视频的搜索请求，如指示搜索“A剧集吻戏”、“B剧集搞笑戏”等等，基于视频帧标签的标注结果，确定与搜索请求相应的视频帧标签，接着，在候选视频中，如某一指定视频、或者全网视频等，查找出标注有该视频帧标签的目标视频，最后对目标视频进行展示。

此外，该视频搜索系统还可以包括视频库，主要用于存储待标注视频，以使视频搜索装置可以对待标注视频标注相应的视频帧标签；该视频库中还存储有实际场景中涉及到的搜索内容以及与所述搜索内容对应的意图标签，以使得视频搜索装置基于此进行训练，生成神经网络模型；另外，该视频库还存储有大量候选视频，以供视频搜索装置从中查找出目标视频，等等。当然，该视频搜索系统还可以包括用户终端，用于通过输入装置，如键盘、鼠标等，接收用户直接输入搜索请求，并在确定出目标视频后，通过输出装置，如终端屏幕等，对目标视频进行播放。

以下将分别进行详细说明。

第一实施例

在本实施例中，将从视频搜索装置的角度进行描述，该视频搜索装置具体可以集成在服务器或网关等网络设备中。

一种视频搜索方法，包括：获取待标注视频，并利用预设的分类模型，预测待标注视频中视频帧的视频帧标签；将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对待标注视频标注相应的视频帧标签；在接收到指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定搜索请求相应的视频帧标签；在候选视频中，查找标注有该视频帧标签的目标视频，并对该目标视频进行展示。

请参阅图1b，图1b是本发明第一实施例提供的视频搜索方法的流程示意图，具体流程可以包括：

在步骤S101中，获取待标注视频，并利用预设的分类模型，预测所述待标注视频中视频帧的视频帧标签。

在步骤S102中，将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对待标注视频标注相应的视频帧标签。

在步骤S103中，在接收到指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定搜索请求相应的视频帧标签。

其中，所述步骤S101至步骤S103可具体为：

可以理解的是，一方面，在对搜索请求进行处理前，需要先对全网视频标注视频帧标签，即利用预设的分类模型，预测待标注视频中视频帧的视频帧标签，将时间相邻的且具有相同的视频帧标签的视频帧进行合并，并对待标注视频标注相应的视频帧标签，从而得到视频帧标签的标注结果。

也就是说，本实施例提供的视频搜索实质上是为基于内容的视频搜索，首先利用预设的分类模型，对待标注视频中视频帧的视频帧标签进行预测，预测后，对这些视频帧进行整理，将时间相邻且视频帧标签相同的视频帧进行合并，从而可以得到一视频片段，最后，给这些视频片段分别标注上相应的视频帧标签，从而得到视频片段的标注结果，完成待标注视频的视频帧标签标注。

进一步的，“利用预设的分类模型，预测待标注视频中视频帧的视频帧标签”可以具体如下：

(11)利用关键帧提取算法提取待标注视频的视频帧，并确定为第一视频帧；

(12)获取每个第一视频帧的图像特征，并确定为第一图像特征；

(13)根据确定出的第一图像特征，利用预设的分类模型预测第一视频帧的视频帧标签。

可以理解的是，为便于区分理解，本实施例将待标注视频的视频帧称为第一视频帧，将第一视频帧的图像特征称为第一图像特征，不构成对方案实现的限定。

基于此，“将时间相邻的且具有相同的视频帧标签的视频帧进行合并”可以具体为：将时间相邻的且具有相同的视频帧标签的第一视频帧进行合并。

其中，关键帧提取算法就是在视频序列上进行镜头分割，再在镜头内提取出能够代表镜头内容的关键帧，利用从关键帧提取的低层特征(颜色、纹理、形状等)进行镜头的索引和检索。其中，关键帧提取可以基于镜头边界进行提取、也可以基于内容分析进行提取、也可以基于聚类进行提取等等，此处不作具体限定。

又比如，在提取完标注视频的视频帧(即第一视频帧)后，可以采用深度学习模型(GoogLeNet)获取每个第一视频帧图像特征(即第一图像特征)，从而再利用预设的分类模型，如支持向量机(SVM，Support Vector Machine)分类模型预测每个第一视频帧的视频帧标签。

更进一步的，在对全网视频标注视频帧标签之前，还可以先对分类模型进行确定，比如，可以具体如下：

a、收集预先已进行场景标签标注的原有视频；

b、利用关键帧提取算法提取原有视频的视频帧，并确定为第二视频帧；

c、根据场景标签，对第二视频帧标注视频帧标签；

d、获取每个第二视频帧的图像特征，并确定为第二图像特征；

e、基于对第二视频帧标注的视频帧标签以及第二图像特征进行训练，生成分类模型。

容易想到的是，为便于区分理解，本实施例将已进行场景标签标注的原有视频的视频帧称为第二视频帧，将第二视频帧的图像特征称为第二图像特征，不构成对方案实现的限定。

基于此，“根据第一图像特征，利用预设的分类模型预测第一视频帧的视频帧标签”可以具体为：根据第一图像特征，利用所述分类模型预测第一视频帧的视频帧标签。

可具体的，比如，将已进行人工标注场景标签的视频片段(可称为原有视频)，以及视频片段对应的场景标签作为训练数据，利用与上述同样的关键帧提取算法提取原有视频的视频帧，以及利用与上述同样的方式获取原有视频的视频帧的图像特征，通过SVM支持向量机训练算法，训练出所述SVM分类模型，完成训练过程。

可以理解的是，在接收到指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签(步骤S103)的方式有很多，比如：

(21)在接收到指示搜索视频的搜索请求时，基于预设的神经网络模型，对所述搜索请求进行语义识别；

(22)结合语义识别的结果以及视频帧标签的标注结果，确定所述搜索请求相应的视频帧标签。

也就是说，在另一方面，在对搜索请求进行处理前，需要确定进行语义识别的网络模型，比如，可以具体如下：

收集搜索内容以及与所述搜索内容对应的意图标签，基于所述搜索内容以及所述意图标签进行训练，生成神经网络模型。

其中，搜索内容以及对应的意图标签，可以从实际用户搜索请求中获取，比如，将搜索内容以及对应的意图标签作为训练数据，训练深层神经网络(DNN，Deep Neural Network)，从而生成神经网络模型。

基于此，“基于预设的神经网络模型，对所述搜索请求进行语义识别，确定相应的视频帧标签”可以具体为：基于所述神经网络模型，对所述搜索请求进行语义识别，确定相应的视频帧标签。

在步骤S104中，在候选视频中，查找标注有该视频帧标签的目标视频，并对目标视频进行展示。

在一种可能的实施方式中，当所述候选视频为一个当前播放的视频时，“接收指示搜索视频的搜索请求”可以具体为：在所述当前播放的视频对应的搜索框中，接收指示搜索视频的搜索请求；

基于此，“对所述目标视频进行展示”可以具体为：在所述当前播放的视频的播放进度条中，确定出所述目标视频的播放位置，并基于所述播放位置进行标注提示，以供用户选择进行段落播放。

也就是说，在该实施方式中，针对一个当前视频的播放页，会设置有一搜索框，在该搜索框中进行视频搜索，可以获取到该视频下的目标视频，此处目标视频属于该当前视频的某一段落。

在另一种可能的实施方式中，当所述候选视频为全网视频集合时，“接收指示搜索视频的搜索请求”可以具体为：在全网搜索框中，接收指示搜索视频的搜索请求；

基于此，“对所述目标视频进行展示”可以具体为：将所述目标视频以及目标视频的属性信息以列表形式进行展示。

也就是说，在该实施方式中，是针对全网的视频进行目标视频搜索，搜索到目标视频后，将目标视频以列表形式进行展示；由于全网搜索得到的搜索结果较多，因此，还会将该目标视频对应的属性信息一并进行展示，其中，属性信息可以包括电视剧名、集数、综艺名、期数、片断时长、出场人物等信息中的一个或多个组合。

由上述可知，本实施例提供的视频搜索方法，首先利用预设的分类模型，对待标注视频中视频帧的视频帧标签进行预测，并将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对待标注视频标注相应的视频帧标签；其后，在接收到用户指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定搜索请求相应的视频帧标签，从而在候选视频中查找出标注有该视频帧标签的目标视频并进行展示；本实施例中，通过对视频帧标签进行预测、合并以及标注，从而基于视频帧标签的标注结果确定搜索请求相应的视频帧标签，即利用预先标注的视频帧标签对视频的内容进行搜索，相对于基于人工添加标题的方式，大大的提高了视频搜索的效率以及搜索结果的准确率。

第二实施例

根据第一实施例所描述的方法，以下将举例作进一步详细说明。

现有技术中，在视频搜索前，首先利用人工运营的方式，将视频进行拆分和剪辑，编辑出多个片段视频，并添加相关标题，请参考图2a，为现有技术中一种视频搜索的示意图，用户通过统一的综合搜索框(用黑边框标示)输入搜索词进行全网搜索，搜索内容可以包括电影、电视、综艺节目等OGC(Occupationally-generated-Content，职业生产内容)、PGC(Professionally-generated Content，专业生产内容)视频或者长尾的UGC(User-generated-Content，用户生产内容)视频；当搜索词跟添加的标题完全匹配时，展示搜索结果，当搜索词跟添加的标题不匹配时，展示未收到相关视频的提示信息。

本发明实施例中，首先，基于现有的已进行场景标签标注的原有视频进行训练学习，生成一分类模型；并且，利用该分类模型，预测出视频中视频帧的视频帧标签并标注；同时，基于实际应用中收集到的搜索内容及相应的意图标签进行训练学习，生成一神经网络模型；从而，在接收到搜索视频内容的搜索请求时，利用前述神经网络模型对搜索请求进行语义识别，确定相应的视频帧标签，并查找标注有该视频帧标签的视频内容，以向用户展示播放。

本技术可以在指定剧集、或全网视频中进行视频内容搜索，并标识出相关视频片段；采用了高级语义识别技术，大大提高了口语化搜索的结果准确率，在很大程度上解放人力，同时给用户提供更为丰富的场景维度搜索。以下将进行详细说明。

(一)对当前正在观看中的视频进行视频内容搜索

可具体的，本发明实施例中，首先，如图2b所示，在视频播放页的一角(如右上角)设置有一个搜索icon标识(用黑边框标示)，如图2c所示，当鼠标移入该标识，可以打开搜索框(用黑边框标示)，用户可以搜索框内进行搜索词输入，按“enter键”/或“搜索icon”视为提交该搜索请求，并设定在一短时间范围内(如3秒、5秒等)无任何操作，该搜索框自动收回。

基于此，当用户在该搜索框内输入想要搜索的视频(也可称视频片段)，确认后，该视频播放页下方的视频播放播放进度条中对想要搜索的视频片段，在对应的播放位置进行标注提示，如图2d所示，用户根据提示点击对应的播放位置，可以对该视频片段进行播放，比如，在该搜索框内输入搜索词“吻戏”，确认后，在当前播放视频的进度条中对匹配的两个视频片段进行提示。

可一并参考图2e，为搜索流程示意，包括：S21、用户输入搜索词；S22、语义识别；S23、若相关则返回视频片段结果；S24、若相似则返回同类视频结果；S25、若无匹配则返回未找到视频结果的提示。即，在视频搜索过程中，查询到标注有相应视频帧标签，可以包括：如果能匹配到相关的用户搜索的视频片段，则在下方给出相应片段的标注提示；若未匹配到相关的用户搜索的视频片段，但有相似片段，可给出提示；另外，若未匹配用户搜索视频片段也无相似片段，则给出未找到结果的提示。

(二)对全网视频进行视频内容搜索

如图2f所示，在综合搜索框(用黑边框标示)直接输入需要查找的视频内容，如输入“韩剧的吻戏”，系统识别出需求后，从全网的视频集合中，返回提取好的视频片段结果列表，并将视频片段的标题(电视剧名、集数、综艺名、期数等)、片断时长和时间、出场人物等属性信息进行展示，以供用户选择。

以下对技术架构方案分别陈述。

1)如何自动识别视频片段对应的视频帧标签

比如，请参考图2g，为基于现有的已进行场景标签标注的原有视频进行训练学习，生成一分类模型；以及，利用该分类模型，预测出视频中视频帧的视频帧标签并标注的过程示意。

可具体的，在模型训练时，首先从现有的已进行场景标签人工标注视频库中，获取视频片段(可称为原有视频或现有视频)和该片段对应的场景标签，作为训练数据，利用关键帧提取算法提取原有视频中关键帧图片(即第二视频帧)，并依据原有视频的场景标签给这这些图片打上视频帧标签。

针对每帧图片，利用训练好的GoogleNet网络提取1024维浮点数作为图像特征(即第二图像特征)，再结合视频帧标签，采用支持向量机SVM训练算法训练出SVM分类模型，至此完成训练过程。其中，SVM分类模型是一个有监督的学习模型，通常用来进行模式识别、分类、以及回归分析。

在预测即视频帧标签自动标注时，首先采用与训练过程相同的关键帧提取算法提取视频片段(即待标注视频)的视频帧(即第一视频帧)，对每个视频帧同样采用GoogleNet获取1024维图像特征(即第一图像特征)，然后再利用训练过程输出的SVM分类模型预测每个视频帧的视频帧标签，最后将时间相邻的且具有相同的视频帧标签的视频帧进行归并，得到该视频片段的标注结果。

2)如何对用户的搜索词进行语义识别

比如，请参考图2h，为基于实际应用中收集到的搜索内容及相应的意图标签进行训练学习，生成一神经网络模型，以及利用神经网络模型对搜索请求进行语义识别的过程示意。

在训练时，先收集实际应用中涉及的搜索内容以及与搜索内容对应的意图标签，即以真实Query(询问、即搜索内容)和Query对应的搜索意图标签为训练数据，训练出深层神经网络DNN(即神经网络模型)，最小化分类的交叉熵损失函数，使得Query和Query对应标签的cos距离较小。

在预测时，首先利用训练好的网络模型，将搜索Query在语义的层面与视频帧标签进行相关性计算，即，将用户的Query转化为128维的向量，然后将此向量与所有视频帧标签对应的128维向量分别求cos距离，将cos距离最小的标签作为预测输出。

第三实施例

为便于更好的实施本发明实施例提供的视频搜索方法，本发明实施例还提供一种基于上述视频搜索方法的装置。其中名词的含义与上述视频搜索的方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3a，图3a为本发明实施例提供的视频搜索装置的结构示意图，该装置可以包括标签预测单元301、第一标注单元302、标签确定单元303、查找单元304以及展示单元305。

其中，所述标签预测单元301，用于获取待标注视频，并利用预设的分类模型，预测所述待标注视频中视频帧的视频帧标签；第一标注单元302，用于将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对所述待标注视频标注相应的视频帧标签。

标签确定单元303，用于在接收到指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签；查找单元304，用于在候选视频中，查找标注有所述视频帧标签的目标视频；展示单元305，用于对所述目标视频进行展示。

进一步的，所述标签预测单元301可以包括：

(11)提取子单元，用于利用关键帧提取算法提取所述待标注视频的视频帧，并确定为第一视频帧；

(12)获取子单元，用于获取每个所述第一视频帧的图像特征，并确定为第一图像特征；

(13)预测子单元，用于根据所述第一图像特征，利用预设的分类模型预测第一视频帧的视频帧标签。

基于此，所述第一标注单元302，可以具体用于将时间相邻的且具有相同的视频帧标签的第一视频帧进行合并，并对所述待标注视频标注相应的视频帧标签。

又比如，在提取完标注视频的视频帧(即第一视频帧)后，可以采用深度学习模型(GoogLeNet)获取每个第一视频帧图像特征(即第一图像特征)，从而再利用预设的分类模型，如支持向量机SVM分类模型预测每个第一视频帧的视频帧标签。

更进一步的，可一并参考图3b，为视频搜索装置的另一结构示意图，在对全网视频标注视频帧标签之前，还可以先对分类模型进行确定，比如，所述装置还可以包括：

a、第一收集单元306，用于收集预先已进行场景标签标注的原有视频；

b、提取单元307，用于利用关键帧提取算法提取所述原有视频的视频帧，并确定为第二视频帧；

c、第二标注单元308，用于根据所述场景标签，对所述第二视频帧标注视频帧标签；

d、第二获取单元309，甩获取每个所述第二视频帧的图像特征，并确定为第二图像特征；

e、第一训练单元310，用于基于对所述第二视频帧标注的视频帧标签以及所述第二图像特征进行训练，生成分类模型。

基于此，所述预测子单元可以具体用于：根据所述第一图像特征，利用所述分类模型预测第一视频帧的视频帧标签。

可以理解的是，所述标签确定单元303确定所述搜索请求相应的视频帧标签的方式有很多，比如，可以具体包括：

(21)接收子单元，用于接收指示搜索视频的搜索请求；

(22)识别子单元，用于基于预设的神经网络模型，对所述搜索请求进行语义识别；

(23)标签确定子单元，用于结合语义识别的结果以及视频帧标签的标注结果，确定所述搜索请求相应的视频帧标签。

也就是说，在另一方面，在对搜索请求进行处理前，需要确定进行语义识别的网络模型，比如，述装置还可以包括：

第二收集单元311，用于收集搜索内容以及与所述搜索内容对应的意图标签；

第二训练单元312，用于基于所述搜索内容以及所述意图标签进行训练，生成神经网络模型。

其中，搜索内容以及对应的意图标签，可以从实际用户搜索请求中获取，比如，将搜索内容以及对应的意图标签作为训练数据，训练深层神经网络DNN，从而生成神经网络模型。

基于此，所述识别子单元可以具体用于：基于所述神经网络模型，对所述搜索请求进行语义识别。

对所述目标视频进行展示，在一种可能的实施方式中，当所述候选视频为一个当前播放的视频时，所述接收子单元具体用于：在所述当前播放的视频对应的搜索框中，接收指示搜索视频的搜索请求；

基于此，所述展示单元305可以具体用于：在所述当前播放的视频的播放进度条中，确定出所述目标视频的播放位置，并基于所述播放位置进行标注提示，以供用户选择进行段落播放。

在另一种可能的实施方式中，当所述候选视频为全网视频集合时，所述接收子单元具体用于：在全网搜索框中，接收指示搜索视频的搜索请求；

基于此，所述展示单元305可以具体用于：将所述目标视频以及目标视频的属性信息以列表形式进行展示。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

该视频搜索装置具体可以集成在服务器或网关等网络设备中。

由上述可知，本实施例提供的视频搜索装置，首先利用预设的分类模型，对待标注视频中视频帧的视频帧标签进行预测，并将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对待标注视频标注相应的视频帧标签；其后，在接收到用户指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定搜索请求相应的视频帧标签，从而在候选视频中查找出标注有该视频帧标签的目标视频并进行展示；本实施例中，通过对视频帧标签进行预测、合并以及标注，从而基于视频帧标签的标注结果确定搜索请求相应的视频帧标签，即利用预先标注的视频帧标签对视频的内容进行搜索，相对于基于人工添加标题的方式，大大的提高了视频搜索的效率以及搜索结果的准确率。

第四实施例

根据本发明实施例，还提供了一种用于实施上述视频搜索方法的终端。

图4是根据本发明实施例的一种终端的结构框图，如图4所示，该终端可以包括：一个或多个(图中仅示出一个)处理器201、存储器203、以及传输装置205，如图4所示，该终端还可以包括输入输出设备207。

其中，存储器203可用于存储软件程序以及模块，如本发明实施例中的视频搜索方法和装置对应的程序指令/模块，处理器201通过运行存储在存储器203内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频搜索方法。存储器203可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器203可进一步包括相对于处理器201远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置205用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置205包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置205为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器203用于存储应用程序。

处理器201可以调用存储器203存储的应用程序，以执行下述步骤：获取待标注视频，并利用预设的分类模型，预测待标注视频中视频帧的视频帧标签；将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对待标注视频标注相应的视频帧标签；在接收到指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定搜索请求相应的视频帧标签；在候选视频中，查找标注有视频帧标签的目标视频，并对目标视频进行展示。

处理器201还用于执行下述步骤：利用关键帧提取算法提取待标注视频的视频帧，并确定为第一视频帧；获取每个第一视频帧的图像特征，并确定为第一图像特征；根据第一图像特征，利用预设的分类模型预测第一视频帧的视频帧标签；将时间相邻的且具有相同的视频帧标签的第一视频帧进行合并。

处理器201还用于执行下述步骤：获取待标注视频之前，收集预先已进行场景标签标注的原有视频；利用关键帧提取算法提取原有视频的视频帧，并确定为第二视频帧；根据场景标签，对第二视频帧标注视频帧标签；获取每个第二视频帧的图像特征，并确定为第二图像特征；基于对第二视频帧标注的视频帧标签以及第二图像特征进行训练，生成分类模型；根据第一图像特征，利用分类模型预测第一视频帧的视频帧标签。

处理器201还用于执行下述步骤：在接收到指示搜索视频的搜索请求时，基于预设的神经网络模型，对搜索请求进行语义识别；结合语义识别的结果以及视频帧标签的标注结果，确定搜索请求相应的视频帧标签。

处理器201还用于执行下述步骤：接收指示搜索视频的搜索请求之前，收集搜索内容以及与搜索内容对应的意图标签；基于搜索内容以及意图标签进行训练，生成神经网络模型；基于神经网络模型，对搜索请求进行语义识别。

处理器201还用于执行下述步骤：在当前播放的视频对应的搜索框中，接收到指示搜索视频的搜索请求；在当前播放的视频的播放进度条中，确定出目标视频的播放位置，并基于播放位置进行标注提示，以供用户选择进行段落播放。

处理器201还用于执行下述步骤：在全网搜索框中，接收到指示搜索视频的搜索请求；将目标视频以及目标视频的属性信息以列表形式进行展示。

本领域普通技术人员可以理解，图4所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图4其并不对上述电子装置的结构造成限定。例如，终端还可包括比图4中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图4所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

第五实施例

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行视频搜索方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，获取待标注视频，并利用预设的分类模型，预测待标注视频中视频帧的视频帧标签；

S2，将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对待标注视频标注相应的视频帧标签；

S3，在接收到指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定搜索请求相应的视频帧标签；

S4，在候选视频中，查找标注有视频帧标签的目标视频，并对目标视频进行展示。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：利用关键帧提取算法提取待标注视频的视频帧，并确定为第一视频帧；获取每个第一视频帧的图像特征，并确定为第一图像特征；根据第一图像特征，利用预设的分类模型预测第一视频帧的视频帧标签；将时间相邻的且具有相同的视频帧标签的第一视频帧进行合并。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：获取待标注视频之前，收集预先已进行场景标签标注的原有视频；利用关键帧提取算法提取原有视频的视频帧，并确定为第二视频帧；根据场景标签，对第二视频帧标注视频帧标签；获取每个第二视频帧的图像特征，并确定为第二图像特征；基于对第二视频帧标注的视频帧标签以及第二图像特征进行训练，生成分类模型；根据第一图像特征，利用分类模型预测第一视频帧的视频帧标签。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在接收到指示搜索视频的搜索请求时，基于预设的神经网络模型，对搜索请求进行语义识别；结合语义识别的结果以及视频帧标签的标注结果，确定搜索请求相应的视频帧标签。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：接收指示搜索视频的搜索请求之前，收集搜索内容以及与搜索内容对应的意图标签；基于搜索内容以及意图标签进行训练，生成神经网络模型；基于神经网络模型，对搜索请求进行语义识别。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在当前播放的视频对应的搜索框中，接收到指示搜索视频的搜索请求；在当前播放的视频的播放进度条中，确定出目标视频的播放位置，并基于播放位置进行标注提示，以供用户选择进行段落播放。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在全网搜索框中，接收到指示搜索视频的搜索请求；将目标视频以及目标视频的属性信息以列表形式进行展示。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对视频搜索方法的详细描述，此处不再赘述。

本发明实施例提供的所述视频搜索装置，譬如为计算机、平板电脑、具有触摸功能的手机等等，所述视频搜索装置与上文实施例中的视频搜索方法属于同一构思，在所述视频搜索装置上可以运行所述视频搜索方法实施例中提供的任一方法，其具体实现过程详见所述视频搜索方法实施例，此处不再赘述。

需要说明的是，对本发明所述视频搜索方法而言，本领域普通测试人员可以理解实现本发明实施例所述视频搜索方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在终端的存储器中，并被该终端内的至少一个处理器执行，在执行过程中可包括如所述视频搜索方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本发明实施例的所述视频搜索装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本发明实施例所提供的一种视频搜索方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种视频搜索方法，其中，包括：

获取待标注视频，并利用预设的分类模型，预测所述待标注视频中视频帧的视频帧标签；

将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对所述待标注视频标注相应的视频帧标签；

在接收到指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签；

在候选视频中，查找标注有所述视频帧标签的目标视频，并对所述目标视频进行展示。
根据权利要求1所述的视频搜索方法，其中，所述利用预设的分类模型，预测所述待标注视频中视频帧的视频帧标签，包括：

利用关键帧提取算法提取所述待标注视频的视频帧，并确定为第一视频帧；

获取每个所述第一视频帧的图像特征，并确定为第一图像特征；

根据所述第一图像特征，利用预设的分类模型预测第一视频帧的视频帧标签；

所述将时间相邻的且具有相同的视频帧标签的视频帧进行合并具体为：将时间相邻的且具有相同的视频帧标签的第一视频帧进行合并。
根据权利要求2所述的视频搜索方法，其中，所述获取待标注视频之前，还包括：

收集预先已进行场景标签标注的原有视频；

利用关键帧提取算法提取所述原有视频的视频帧，并确定为第二视频帧；

根据所述场景标签，对所述第二视频帧标注视频帧标签；

获取每个所述第二视频帧的图像特征，并确定为第二图像特征；

基于对所述第二视频帧标注的视频帧标签以及所述第二图像特征进行训练，生成分类模型；

所述根据所述第一图像特征，利用预设的分类模型预测第一视频帧的视频帧标签具体为：根据所述第一图像特征，利用所述分类模型预测第一视频帧的视频帧标签。
根据权利要求1至3任一项所述的视频搜索方法，其中，所述在接收到指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签，包括：

在接收到指示搜索视频的搜索请求时，基于预设的神经网络模型，对所述搜索请求进行语义识别；

结合语义识别的结果以及视频帧标签的标注结果，确定所述搜索请求相应的视频帧标签。
根据权利要求4所述的视频搜索方法，其中，所述接收指示搜索视频的搜索请求之前，还包括：

收集搜索内容以及与所述搜索内容对应的意图标签；

基于所述搜索内容以及所述意图标签进行训练，生成神经网络模型；

所述基于预设的神经网络模型，对所述搜索请求进行语义识别具体为：基于所述神经网络模型，对所述搜索请求进行语义识别。
根据权利要求1所述的视频搜索方法，其中，

当所述候选视频为一个当前播放的视频时，所述接收到指示搜索视频的搜索请求具体为：在所述当前播放的视频对应的搜索框中，接收到指示搜索视频的搜索请求；

所述对所述目标视频进行展示具体为：在所述当前播放的视频的播放进度条中，确定出所述目标视频的播放位置，并基于所述播放位置进行标注提示，以供用户选择进行段落播放。
根据权利要求1所述的视频搜索方法，其中，

当所述候选视频为全网视频集合时，所述接收到指示搜索视频的搜索请求具体为：在全网搜索框中，接收到指示搜索视频的搜索请求；

所述对所述目标视频进行展示具体为：将所述目标视频以及目标视频的属性信息以列表形式进行展示。
一种视频搜索装置，其中，包括：

标签预测单元，被设置为获取待标注视频，并利用预设的分类模型，预测所述待标注视频中视频帧的视频帧标签；

第一标注单元，被设置为将时间相邻的且具有相同的视频帧标签的视频帧进行合并，对所述待标注视频标注相应的视频帧标签；

标签确定单元，被设置为在接收到指示搜索视频的搜索请求时，基于视频帧标签的标注结果确定所述搜索请求相应的视频帧标签；

查找单元，被设置为在候选视频中，查找标注有所述视频帧标签的目标视频；

展示单元，被设置为对所述目标视频进行展示。
根据权利要求8所述的视频搜索装置，其中，所述标签预测单元包括：

提取子单元，被设置为利用关键帧提取算法提取所述待标注视频的视频帧，并确定为第一视频帧；

获取子单元，被设置为获取每个所述第一视频帧的图像特征，并确定为第一图像特征；

预测子单元，被设置为根据所述第一图像特征，利用预设的分类模型预测第一视频帧的视频帧标签；

所述第一标注单元，被设置为将时间相邻的且具有相同的视频帧标签的第一视频帧进行合并，并对所述待标注视频标注相应的视频帧标签。
根据权利要求9所述的视频搜索装置，其中，所述装置还包括：

第一收集单元，被设置为收集预先已进行场景标签标注的原有视频；

提取单元，被设置为利用关键帧提取算法提取所述原有视频的视频帧，并确定为第二视频帧；

第二标注单元，被设置为根据所述场景标签，对所述第二视频帧标注视频帧标签；

第二获取单元，被设置为获取每个所述第二视频帧的图像特征，并确定为第二图像特征；

第一训练单元，被设置为基于对所述第二视频帧标注的视频帧标签以及所述第二图像特征进行训练，生成分类模型；

所述预测子单元被设置为：根据所述第一图像特征，利用所述分类模型预测第一视频帧的视频帧标签。
根据权利要求8至10任一项所述的视频搜索装置，其中，所述标签确定单元，包括：

接收子单元，被设置为接收指示搜索视频的搜索请求；

识别子单元，被设置为基于预设的神经网络模型，对所述搜索请求进行语义识别；

标签确定子单元，被设置为结合语义识别的结果以及视频帧标签的标注结果，确定所述搜索请求相应的视频帧标签。
根据权利要求11所述的视频搜索装置，其中，所述装置还包括：

第二收集单元，被设置为收集搜索内容以及与所述搜索内容对应的意图标签；

第二训练单元，被设置为基于所述搜索内容以及所述意图标签进行训练，生成神经网络模型；

所述识别子单元被设置为：基于所述神经网络模型，对所述搜索请求进行语义识别。
根据权利要求8所述的视频搜索装置，其中，

当所述候选视频为一个当前播放的视频时，所述接收子单元被设置为：在所述当前播放的视频对应的搜索框中，接收指示搜索视频的搜索请求；

所述展示单元被设置为：在所述当前播放的视频的播放进度条中，确定出所述目标视频的播放位置，并基于所述播放位置进行标注提示，以供用户选择进行段落播放。
根据权利要求8所述的视频搜索装置，其中，

当所述候选视频为全网视频集合时，所述接收子单元被设置为：在全网搜索框中，接收指示搜索视频的搜索请求；

所述展示单元被设置为：将所述目标视频以及目标视频的属性信息以列表形式进行展示。