WO2019144850A1

WO2019144850A1 - 一种基于视频内容的视频搜索方法和视频搜索装置

Info

Publication number: WO2019144850A1
Application number: PCT/CN2019/072392
Authority: WO
Inventors: 罗江春; 陈锡岩
Original assignee: 北京一览科技有限公司
Priority date: 2018-01-26
Filing date: 2019-01-18
Publication date: 2019-08-01
Also published as: CN108388583A

Abstract

一种基于视频内容的视频搜索方法和视频搜索装置，该方法包括：接收用户输入的查询序列（S201），根据视频帧索引确定其中包括的与所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频，其中，所述视频帧索引根据对视频中每一个视频帧对应的信息的识别所建立或更新（S202），根据所述至少一个视频帧对应的时间戳，定位其对应的至少一个视频的播放位置，以所述播放位置将所述至少一个视频提供给所述用户（S203）。可以基于视频中每一个视频帧的信息来搜索与查询序列匹配对应的视频，为用户精准地找到其要观看的视频，而且在搜索出对应的视频后，可将视频的播放位置定位至与查询序列对应的视频帧处进行播放，减少了用户的操作时间，提高了视频搜索的准确率。

Description

一种基于视频内容的视频搜索方法和视频搜索装置

相关申请的交叉引用

本申请享有2018年1月26日提交的专利申请号为201810077785.0、名称为“一种基于视频内容的视频搜索方法和视频搜索装置”的中国专利申请的优先权，该在先申请的内容以引用方式合并于此。

技术领域

本发明涉及视频搜索领域，尤其涉及一种基于视频内容的视频搜索技术。

背景技术

随着多媒体业务的不断发展，数据库中存储的视频数量越来越多，用户对视频搜索的需求也越来越大。

现有技术主要通过视频标注的外部标签，例如，视频标题，发布者名称，视频摘要，或者简介信息来实现从海量的数据中搜索用户需要的视频。但是用户有时候只能记得某个画面，或者该画面展示或者介绍的内容，经常无法根据视频标注的笼统的外部标签，搜索到包括该画面的视频。

因此，如何提出一种基于视频的内容或者视频帧的内容进行视频搜索的方法，成为本领域亟需解决的技术问题之一。

发明内容

本发明的目的是提供一种基于视频内容的视频搜索装置和视频搜索方法。

根据本发明的一个方面，提供了一种基于视频内容的视频搜索装置，其中，该视频搜索装置包括：

接收装置，用于接收用户输入的查询序列；

确定装置，用于根据视频帧索引确定其中包括的与所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频，其中，所述视频帧索引根据对视频中每一个视频帧对应的信息的识别所建立或更新；

定位装置，用于根据所述至少一个视频帧对应的时间戳，定位其对应的至少一个视频的播放位置，以所述播放位置将所述至少一个视频提供给所述用户。

优选地，该视频搜索装置还包括：

第一识别装置，用于对每一个视频中每一个视频帧对应的信息进行识别，获得对应的标注信息；

更新装置，用于根据所述标注信息，建立或更新所述视频帧索引；

其中，在确定装置中根据所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频的方式包括：

根据所述查询序列，在所述视频帧索引中匹配确定具有与所述查询序列相匹配的标注信息的至少一个视频帧及其对应的至少一个视频。

优选地，该视频搜索装置还包括：

第二识别装置，用于对每一个视频中每一个视频帧对应的信息进行识别，获得对应的标注信息；

建立装置，用于根据所述标注信息，为每一个视频建立一个子索引；

根据所述查询序列，依次在各个视频分别对应的各个子索引中匹配确定具有与所述查询序列相匹配的标注信息的至少一个视频帧。

优选地，所述标注信息通过以下至少任一项获得：

识别一个视频帧图像的图像特征，根据所述图像特征确定所述一个视频帧图像对应的标注信息；

识别一个视频帧图像的图像特征，并根据识别的所述一个视频帧图像的前置图像和后置图像的图像特征，确定对应的标注信息；

识别至少一个连续的视频帧所对应的音频信息，将所述音频信息转换成文字信息，根据所述文字信息确定所述至少一个连续的视频帧对应的标注信息；

提取至少一个连续的视频帧所对应的字幕信息，根据所述字幕信息确定所述至少一个连续的视频帧对应的标注信息。

优选地，该视频搜索装置还包括：

排序装置，用于对所述至少一个视频进行排序，获得排序后的至少一个视频；

其中，定位装置用于：

根据所述至少一个视频帧，定位其对应的所述排序后的至少一个视频的播放位置，以所述播放位置将所述排序后的至少一个视频提供给所述用户。

优选地，根据以下至少任一项对所述至少一个视频进行排序：

视频中所包括的与所述查询序列匹配的视频帧的数量；

视频对应的视频发布者信息；

视频的来源信息；

视频的清晰度；

视频的主题信息；

用户对视频的反馈信息。

优选地，所述定位装置还用于：

获取所述用户自所述至少一个视频中所选择的一个目标视频；

若所述目标视频中包括多个与所述查询序列匹配的视频帧，则按以下任一项来定位所述目标视频的播放位置：

默认根据所述目标视频中第一个与所述查询序列匹配的视频帧的时间戳来确定；

默认定位至与所述查询序列匹配程度最高的视频帧；

由所述用户选择。

根据本发明的另一个方面，还提供了一种基于视频内容的视频搜索方法，其中，该视频搜索方法包括：

a.接收用户输入的查询序列；

b.根据视频帧索引确定其中包括的与所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频，其中，所述视频帧索引根据对视频中每一个视频帧对应的信息的识别所建立或更新；

c.根据所述至少一个视频帧对应的时间戳，定位其对应的至少一个视频的播放位置，以所述播放位置将所述至少一个视频提供给所述用户。

优选地，该视频搜索方法还包括：

对每一个视频中每一个视频帧对应的信息进行识别，获得对应的标注信息；

根据所述标注信息，建立或更新所述视频帧索引；

其中，步骤b中根据所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频的方式包括：

优选地，该视频搜索方法还包括：

根据所述标注信息，为每一个视频建立一个子索引；

优选地，所述标注信息通过以下至少任一项获得：

识别一个视频帧图像的图像特征，并根据识别的所述视频帧图像的前置图像和后置图像的图像特征，确定对应的标注信息；

识别一个视频帧所对应的音频信息，将所述音频信息转换成文字信息，根据所述文字信息确定所述视频帧对应的标注信息；

提取一个视频帧所对应的字幕信息，根据所述字幕信息确定所述视频帧对应的标注信息。

优选地，该视频搜索方法还包括：

对所述至少一个视频进行排序，获得排序后的至少一个视频；

其中，步骤c包括：

视频中所包括的与所述查询序列匹配的视频帧的数量；

视频对应的视频发布者信息；

视频的来源信息；

视频的清晰度；

视频的主题信息；

用户对视频的反馈信息。

优选地，步骤c中以所述播放位置将所述至少一个视频提供给所述用户还包括：

默认定位至与所述查询序列匹配程度最高的视频帧；

由所述用户选择。

根据本发明的又一个方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如上任一项所述的视频搜索方法被执行。

根据本发明的再一个方面，还提供了一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如上任一项所述的视频搜索方法被执行。

根据本发明的再一个方面，还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机代码，所述处理器被配置来通过执行所述计算机代码以执行如上任一项所述的方法。

与现有技术相比，本发明具有以下优点：

本发明根据视频帧索引确定其中包括的与所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频，并且所述视频帧索引根据对视频中每一个视频帧对应的信息的识别所建立或更新，然后根据所述至少一个视频帧对应的时间戳，定位其对应的至少一个视频的播放位置，以所述播放位置将所述至少一个视频提供给所述用户，不仅可以基于视频中每一个视频帧的信息来确定与查询序列匹配对应的视频，为用户精准的找到其要观看的视频，而且在搜索出对应的视频后，可以将视频的播放位置定位至与查询序列对应的视频帧处进行播放，使得用户可以快速的观看到与所述查询序列对应的视频片段，减少了用户的操作时间，而且能准确的为用户定位至与查询序列对应的播放位置。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个方面的一种基于视频内容的视频搜索装置的结构示意图；

图2示出根据本发明另一个方面的一种基于视频内容的视频搜索方法的流程示意图；

图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

所述计算机设备包括用户设备与网络设备。其中，所述用户设备包括但不限于电脑、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备或网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

应当理解的是，当一个单元被称为“连接”或“耦合”到另一单元时，其可以直接连接或耦合到所述另一单元，或者可以存在中间单元。与此相对，当一个单元被称为“直接连接”或“直接耦合”到另一单元时，则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”，“与...邻近”相比于“与...直接邻近”等等)。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个方面的一种基于视频内容的视频搜索装置的结构示意图。视频搜索装置1包括：接收装置101、确定装置102、和定位装置103。

在此，视频搜索装置1例如位于计算机设备中，所述计算机设备包括用户设备与网络设备。以下以该视频搜索装置1位于网络设备中为例进行详细描述。

其中，所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

接收装置101接收用户输入的查询序列。具体地，用户若想搜索某个与查询序列相关的视频片段，或想搜索某个包括前述视频片段的视频时，其通过输入界面输入查询序列，并点击搜索按钮，接收装置101接收用户输入的查询序列，以便后续装置在视频数据库中搜索其中包括与查询序列对应的视频片段，或进一步地，包括该视频片段的视频。例如，用户想搜索其中包括“黄晓明在家吃饭”的视频片段或者其中包括该视频片段的视频，用户在视频搜索输入界面输入：“黄晓明在家吃饭”这一查询序列，接收装置101例如通过一次或者多次调用应用程序接口的方式接收用户输入的“黄晓明在家吃饭”这一查询序列。

确定装置102根据视频帧索引确定其中包括的与所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频，其中，所述视频帧索引根据对视频中每一个视频帧对应的信息的识别所建立或更新。

在此，所述视频帧索引可以为包括所有视频中的视频帧的总索引，也可以是为每个视频分别建立的一个子索引。通过将每一个视频中的每一个视频帧分别进行识别，识别出每一个视频帧所包括的信息，其中，同一个视频帧可以包括不同信息，然后根据每一个视频帧以及每个视频帧分别包括的信息，建立一个对应于所有视频的总的视频帧索引，或者为每一个视频分别建立一个视频帧索引。所述视频帧索引中包括：每一个视频帧分别与其包括的至少一个信息的对应关系。进一步地，所述每一个视频帧还可以分别包括一个属性标记，该属性标记用于标记该视频帧属于哪一个视频。

具体地，视频搜索装置1对每一个视频中每一个视频帧对应的信息进行识别后，自每一个视频帧分别获得至少一个对应该视频帧的内容的内容摘要，所述内容摘要例如分别为根据该视频帧内所包括的不同的信息总结出来的关键词，在此称之为标注信息，因此，视频帧索引中包括至少一个：视频帧分别与该视频帧的不同的标注信息的对应关系。确定装置102根据接收到的查询序列信息，通过精确匹配、模糊匹配或者两者相结合的方式，在视频帧索引中进行匹配查询，如依次判断该查询序列是否命中该视频帧索引中各个视频帧所对应的标注信息，若命中某个标注信息，则该标注信息对应的视频帧即是该用户输入的查询序列所对应的视频帧，并进而可以确定该视频帧对应的视频。例如，确定装置102根据所述至少一个视频帧的属性标记即可确定与其对应的至少一个视频。其中，与所述查询序列匹配对应的所述至少一个视频帧可以是属于同一个视频的视频帧，也可以是属于不同视频的视频帧；所述至少一个视频帧可以是连续的视频帧，也可以是不连续的视频帧。其中，对视频中每一个视频帧对应的信息的识别包括但不限于：基于单独一帧图像的场景识别、基于连续多帧图像的场景识别、基于图像对应的音频信息的识别、基于图像对应的字幕信息的识别。

例如，视频V1的第1000个视频帧是黄晓明在家吃饭的画面，该视频帧还展示了黄晓明吃炸酱面的内容，或者黄晓明父母的画面，则对该视频帧中信息进行识别后，视频帧索引中可以包括：属性标记为视频V1的第1000个视频帧分别与“黄晓明在家吃饭”、“黄晓明吃炸酱面”和“黄晓明父母”的对应关系。若视频V1的第1000-1049个视频帧都为包括黄晓明在家吃饭，黄晓明吃的是炸酱面，以及黄晓明父母三者的画面，但是第1025-1049个视频帧中没有出现黄晓明父母，则在视频帧索引中，视频V1的第1000-1024个视频帧中的每一个视频帧都分别对应“黄晓明在家吃饭”、“黄晓明吃炸酱面”和“黄晓明父母”；视频V1的第1025-1049个视频帧中的每一个视频帧都分别对应“黄晓明在家吃饭”和“黄晓明吃炸酱面”。若搜索视频的视频数据库中包括视频V1，视频V2，视频V3……等多个视频，可以建立包括该数据库中所有视频中的视频帧的总的视频帧索引，也可以为每一个视频建立一个仅包括其视频帧的视频帧索引，例如为视频V1建立一个对应的视频帧索引时，确定装置102依次在每个视频对应的视频帧索引中为所述查询序列匹配对应的至少一个视频帧。

若接收装置101接收到的查询序列为“黄晓明在家吃饭”，确定装置102可以采用模糊匹配的方式，在所述视频帧索引中查询被“黄晓明”、“黄晓明吃饭”、“黄晓明在家”、“黄晓明在家吃饭”、“明星在家吃饭”、“黄晓明和angelababy在家吃饭”等关键词命中的标注信息，命中的所述标注信息对应的视频帧即是与“黄晓明在家吃饭”所对应的视频帧，并进而可以确定该视频帧对应的视频；或者采用精确匹配方式，仅在所述视频帧索引中搜索对应于“黄晓明在家吃饭”的视频帧及其对应的视频；或者采用模糊匹配和精确匹配相结合的方式为用户匹配对应的视频帧及视频。若在视频帧索引中被“黄晓明在家吃饭”这一查询序列命中的标注信息为54个，确定装置102确定命中的54个标注信息在视频帧索引中分别对应于：视频V1的第1000-1049个视频帧，视频V3的第225个视频帧，以及视频V8的第25帧、第126帧、第127帧，则与“黄晓明在家吃饭”对应的视频帧包括视频V1的第1000-1049个视频帧，视频V3的第225个视频帧，以及视频V8的第25、126、127个视频帧，与“黄晓明在家吃饭”对应的视频分别为视频V1、V3和V8。

在此，确定装置102根据视频帧索引确定与查询序列对应的视频，其中，所述视频帧索引根据对视频中每一个视频帧对应的信息的识别所建立或者更新的，因此，确定装置102可以根据视频帧索引，对视频中的每一个视频帧的信息进行检索匹配，确定其中被查询序列命中的信息，根据命中的所述信息确定与查询序列对应的视频帧，从而确定与所述查询序列对应的视频，提供给用户。基于视频的内容，即视频中每一个视频帧的信息进行搜索，使得用户可以更加精准的搜索到自己想要观看的视频，提升了用户的搜索体验。

本领域技术人员应能理解，对视频中每一个视频帧对应的信息的识别的方式仅为举例，现有的或者今后可能出现的对视频中每一个视频帧对应的信息的识别的方式，如可适用于本发明也应包含在本发明保护范围内，并在此以引用的方式包含于此。

定位装置103根据所述至少一个视频帧对应的时间戳，定位其对应的至少一个视频的播放位置，以所述播放位置将所述至少一个视频提供给所述用户。具体地，视频中的每个视频帧都有其在该视频中对应的时间戳。确定装置102确定与查询序列对应的所述至少一个视频帧后，定位装置103获得其中的每一个视频帧在各自对应的视频中的时间戳，然后将与所述至少一个视频帧分别对应的视频的播放位置定位至与查询序列匹配的视频帧的位置，以便用户选中该视频进行观看时，该视频自与查询序列对应的视频帧处开始播放。定位装置103使得用户可以直接观看其想看到的视频片段。

优选地，所述定位装置103获取所述用户自所述至少一个视频中所选择的一个目标视频，若所述目标视频中包括多个与所述查询序列匹配的视频帧，则按以下任一项定位所述目标视频的播放位置：默认根据所述目标视频中第一个与所述查询序列匹配的视频帧的时间戳来确定；由所述用户选择。具体地，用户自定位装置103提供的至少一个视频中选中一目标视频进行观看时，定位装置103获取用户选中的所述目标视频。如果该目标视频中包括多个与所述查询序列匹配的视频帧，则：可以默认将该视频的播放位置定位至时间戳最小的那个视频帧的位置，即播放时间最早的视频帧的位置，也可以默认定位至匹配程度最高的视频帧；将该视频的播放位置随机定位至任意一个匹配的视频帧；或者由用户选择播放位置定位至哪个视频帧，选择的方法有列表形式和播放进度条标注形式，其中所述列表形式包括且不仅仅包括弹窗列表，例如，一视频被用户选中后，定位装置103以弹窗列表的形式为用户提供一个选择框，由用户选择自哪个对应的视频帧开始播放。然后定位装置103将定位了播放位置的所述至少一个视频提供给用户，使得用户无论从中选择哪个视频进行观看，该视频都会直接从与所述查询序列匹配的视频帧处开始播放，因而用户可以直接观看与所述查询序列对应的画面。

接上例，视频V1中与“黄晓明吃饭”匹配的视频帧为：视频V1中的第1000-1049个视频帧、视频V3中的第225个视频帧、视频V8中的第25、126、127个视频帧，则可默认将视频V1的播放位置定位至第1000个视频帧，默认将V3的播放位置定位至第225个视频帧，默认将V8的播放位置定位至第25个视频帧；或者V1定位至第1000-1049个视频帧中的任意一个视频帧、V8的第25、126、127个视频帧中的任意一个视频帧；或者可以由用户选择将播放位置定位至哪个匹配的视频帧。

在此，视频搜索装置1不仅可以基于视频中每一个视频帧的信息来搜索与查询序列匹配对应的视频，为用户准确的找到满足用户观看条件的视频，而且在确定装置102确定对应的视频后，定位装置103可以准确的将该视频的播放位置定位至与查询序列对应的位置，使该视频自与查询序列对应的视频帧处进行播放，从而使得用户可以更加快速的观看到与所述查询序列对应的视频片段，提高了用户的搜索效率，减少了用户的操作时间。因此，视频搜索装置1不仅能为用户准确的搜索到想观看视频，还能将视频的播放位置精确的定位至用户想观看的视频段的位置。

优选地，视频搜索装置1还包括第一识别装置104(未示出)和更新装置105(未示出)。

第一识别装置104对每一个视频中每一个视频帧对应的信息进行识别，获得对应的标注信息。具体地，第一识别装置104分别对每一个视频中的每一个视频帧进行图像识别，以及对每一个视频帧对应的相关音频信息或者字幕信息进行识别，获得对应的至少一个标注信息，其中，所述标注信息为对应的视频帧所包括的内容的摘要。例如，视频V1的第1000个视频帧是黄晓明在家吃饭的画面，该视频帧还包括黄晓明吃炸酱面的内容，或者黄晓明的父母，因此，视频V1的第1000个视频帧分别与标注信息：黄晓明在家吃饭、黄晓明吃炸酱面、黄晓明父母对应。

优选地，获得对应的所述至少一个标注信息的方式包括但不限于：

1)识别一个视频帧图像的图像特征，根据所述图像特征确定所述一个视频帧图像对应的标注信息。具体地，通过图像识别的方式，识别所述视频帧图像的图像特征，根据所述图像特征确定所述视频帧图像中包括的至少一个标注信息，所述至少一个标注信息分别为该视频帧所包括的不同内容的摘要。

2)识别一个视频帧图像的图像特征，并根据识别的所述一个视频帧图像的前置图像和后置图像的图像特征，确定对应的标注信息。具体地，若仅根据所述视频帧图像无法确定标注信息，可以根据该视频帧图像的前置至少一个视频帧和后置至少一个视频帧的图像特征，综合判断，确定该视频帧图像包括的至少一个内容摘要，例如，根据前后多个视频帧中物体的位置移动确定视频帧中该物体的状态，然后将所述至少一个内容摘要分别作为该帧视频的至少一个标注信息，并该视频帧的至少一个标注信息分别该视频帧对应关系更新至所述视频帧索引中。例如，一视频帧图像显示的内容为一辆汽车，仅根据一个视频帧无法识别出该视频帧内出现的该汽车是停止的状态还是运动的状态，因此需要根据该视频帧的前置图像或者后置图像共同确定该汽车的运行状态，若根据该视频帧中出现的汽车在其前置图像和后置图像中的位置变化，判断该汽车为运行状态，并且根据位置变化的大小判断汽车为高速运行状态，然后将汽车运行或者汽车高速运行作为该视频帧的标注信息，在视频帧索引中与该视频帧对应。

3)识别一个视频帧所对应的音频信息，将所述音频信息转换成文字信息，根据所述文字信息确定所述视频帧对应的标注信息。具体地，识别所述视频帧对应的音频信息，将所述音频信息进行语音识别，转换成文字信息，根据所述文字信息确定所述视频帧对应的标注信息。

4)提取一个视频帧所对应的字幕信息，根据所述字幕信息确定所述视频帧对应的标注信息。

5)通过人工智能的方式，自动识别一个视频帧图像的图像特征、该视频帧图像的前置图像和后置图像的图像特征、该视频帧图像所对应的音频信息的内容、以及该视频帧图像对应的字幕信息的内容，并基于通过人智能识别的上述信息确定该视频帧图像对应的标注信息。

本领域技术人员应能理解，上述获得对应的所述至少一个标注信息的方式仅为举例，现有的或者今后可能出现的其他获得对应的所述至少一个标注信息的方式，如可适用于本发明也应包含在本发明保护范围内，并在此以引用的方式包含于此。

更新装置105根据所述标注信息，建立或更新所述视频帧索引，其中，在确定装置中根据所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频的方式包括：根据所述查询序列，在所述视频帧索引中匹配确定具有与所述查询序列相匹配的标注信息的至少一个视频帧及其对应的至少一个视频。具体地，更新装置105根据视频中每一个视频帧与其对应的标注信息之间的对应关系建立视频帧索引。其中，视频帧索引中包括：每一个视频帧分别与其对应的至少一个标注信息的对应关系，以便视频搜索装置1将查询序列与视频帧索引中的标注信息进行匹配，若匹配成功，则该标注信息对应的视频帧为与查询序列匹配的视频帧，然后视频搜索装置1根据每一个视频帧的属性标记便能确定该视频帧所在的视频。其中，所述视频帧索引可以是根据每一个视频的每一个视频帧建立的总索引，也可以是分别根据任意一个视频中的每一个视频帧建立的一个子索引。当所述视频帧索引为包括每一个视频中的每一个视频帧的总索引时，在接收装置101接收用户的查询序列后，确定装置102根据该查询序列在该视频帧索引中进行匹配，然后根据匹配的至少一个视频帧分别确定其各自对应的视频；若所述视频帧为与每个视频分别对应的至少一个子索引，确定装置102根据接收的查询序列依次在每个视频对应的子索引中进行匹配，在匹配得到对应的视频帧时，确定装置102可以直接获知与该视频帧对应的视频。

例如，视频V112的第48个视频帧是张杰在唱歌的画面，通过该视频帧的音频信息、字幕信息、以及该视频帧上出现的海报信息，第一识别装置104可识别出该视频帧的内容还包括：张杰在中国新歌声唱歌，张杰唱逆战等信息，因此将“张杰在唱歌”、“张杰在中国新歌声唱歌”、“张杰唱逆战”作为该视频帧的标注信息。在获得该视频中其他视频帧的标注信息以及其他视频的视频帧的标注信息后，更新装置105建立包括视频帧与标注信息的对应关系的视频帧索引。若所述视频帧索引为总的视频帧索引，则其中包括：属性标记为视频V112的第48个视频帧分别与标注信息“张杰在唱歌”、“张杰在中国新歌声唱歌”、“张杰唱逆战”对应；或者若所述视频帧为对应于每个视频的子索引，则视频V112对应的视频帧索引中包括：第112个视频帧分别与标注信息“张杰在唱歌”、“张杰在中国新歌声唱歌”、“张杰唱逆战”对应。其中，每一个视频帧的标注信息可以有多个，以从不同方面对该视频帧进行全面标注，以便该视频帧被更容易的检索到或者匹配到。

优选地，视频搜索装置1还包括第二识别装置106(未示出)和更新装置107(未示出)。

第二识别装置106对每一个视频中每一个视频帧对应的信息进行识别，获得对应的标注信息；建立装置107根据所述标注信息，为每一个视频建立一个子索引；其中，在确定装置中根据所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频的方式包括：根据所述查询序列，依次在各个视频分别对应的各个子索引中匹配确定具有与所述查询序列相匹配的标注信息的至少一个视频帧。在此，第二识别装置106与前述第一识别装置104的实现方式相同。具体地，第二识别装置106获得与视频帧对应的标注信息，建立装置107根据所述标注信息，为每一个视频建立一个子索引，接收装置101接收用户的查询序列后，确定装置102依次将各个视频分别对应的视频帧子索引中的标注信息与所述查询序列进行匹配对应，并根据与所述查询序列匹配对应的至少一个标注信息确定与所述至少一个标注信息所分别对应的视频帧。

优选地，可以基于视频搜索装置1为用户提供在视频内搜索任意视频段的视频内搜索功能，使得用户在观看视频时通过对其输入的关键词的搜索，便可以直接将播放位置定位至其想观看的视频帧位置。若用户自定位装置103提供的至少一个视频中选择一个视频进行播放观看，或者用户任意点选一个视频进行播放，用户可以根据该视频对应的视频帧索引，即子索引，在视频内搜索功能输入框中输入用户想观看的任意视频帧或者视频片段所对应的标注信息，以便视频搜索装置1在该视频内进行搜索。在获得该标注信息对应的视频帧后，视频搜索装置1将播放位置定位至与所述标注信息对应的视频帧处。其中，若与该标注信息对应的视频帧为多个时，定位装置103默认将播放位置定位至其时间戳最小的视频帧处，即处于最早播放位置的视频帧处。例如，视频V27为电影视频《冰雪奇缘》的片段，存在与视频V27对应的视频帧索引，其中视频帧索引中包括第285个视频帧与标注信息“冰雪女王施魔法建冰雪宫殿”的对应关系。用户在该视频V27对应的搜索功能输入框中输入“冰雪宫殿”这一查询序列，确定装置102会为用户匹配“冰雪女王施魔法建冰雪宫殿”这一标注信息，然后根据该标注信息确定其对应的视频帧为第285个视频帧，定位装置103根据第285个视频帧的时间戳，将播放位置定位至播放第285个视频帧的位置，并向用户询问是否自该位置开始播放。若用户同意，则该视频直接自“冰雪女王施魔法建冰雪宫殿”这一视频帧开始播放。在此，通过视频搜索装置1实现无需用户手动拖拽，便能通过搜索便直接定位至想观看的位置进行播放。

优选地，视频搜索装置1还包括排序装置108(未示出)。

排序装置对所述至少一个视频进行排序，获得排序后的至少一个视频；其中，定位装置103用于：根据所述至少一个视频帧，定位其对应的所述排序后的至少一个视频的播放位置，以所述播放位置将所述排序后的至少一个视频提供给所述用户。具体地，对所述至少一个视频进行排序的方式包括但不限于：

1)视频中所包括的与所述查询序列匹配的视频帧的数量。具体地，例如，与所述查询序列匹配的视频帧的数量多的视频的排序优先级高，或者排序权重较高。

2)视频对应的视频发布者信息。具体地，若视频发布者发布视频的历史记录比较多，且评价较高，则该视频的排序优先级较高或者排序权重较高。

3)视频的来源信息。具体地，若视频来源于比较知名的大网站，例如，爱奇艺，优酷，搜狐等知名网站，则该视频的排序优先级较高或者排序权重较高。

4)视频的清晰度或流畅度。具体地，若视频的清晰度越高，或者播放越流畅，则该视频的排序优先级较高或者排序权重较高。

5)视频的主题信息。具体地，若视频的主题在最近一段时期内比较热门，则该视频的排序优先级较高或者排序权重较高。

6)用户对视频的反馈信息。具体地，若用户对该视频的反馈或者评分比较高，则该视频的排序优先级较高或者排序权重较高。

7)通过何种方式进行匹配查询，例如，模糊匹配还是精确匹配的方式，若该视频为通过精确匹配获得，则该视频的排序优先级较高或者排序权重较高；若该视频为通过模糊匹配获得，则该视频的排序优先级较高或者排序权重较高。

本领域技术人员应能理解，上述对所述视频进行排序的方式仅为举例，现有的或者今后可能出现的其他对视频进行排序的方式，如可适用于本发明也应包含在本发明保护范围内，并在此以引用的方式包含于此。

图2示出根据本发明另一个方面的一种基于视频内容的视频搜索方法的流程示意图。

在步骤S201中，视频搜索装置1接收用户输入的查询序列。具体地，用户若想搜索某个与查询序列相关的视频片段，或想搜索某个包括前述视频片段的视频时，其通过输入界面输入查询序列，并点击搜索按钮，视频搜索装置1接收用户输入的查询序列，以便后续装置在视频数据库中搜索其中包括与查询序列对应的视频片段，或进一步地，包括该视频片段的视频。例如，用户想搜索其中包括“黄晓明在家吃饭”的视频片段或者其中包括该视频片段的视频，用户在视频搜索输入界面输入：“黄晓明在家吃饭”这一查询序列，在步骤S201 中，视频搜索装置1例如通过一次或者多次调用应用程序接口的方式接收用户输入的“黄晓明在家吃饭”这一查询序列。

在步骤S202中，视频搜索装置1根据视频帧索引确定其中包括的与所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频，其中，所述视频帧索引根据对视频中每一个视频帧对应的信息的识别所建立或更新。

具体地，视频搜索装置1对每一个视频中每一个视频帧对应的信息进行识别后，自每一个视频帧分别获得至少一个对应该视频帧的内容的内容摘要，所述内容摘要例如分别为根据该视频帧内所包括的不同的信息总结出来的关键词，在此称之为标注信息，因此，视频帧索引中包括至少一个：视频帧分别与该视频帧的不同的标注信息的对应关系。在步骤S202中，视频搜索装置1根据接收到的查询序列信息，通过精确匹配、模糊匹配或者两者相结合的方式，在视频帧索引中进行匹配查询，如依次判断该查询序列是否命中该视频帧索引中各个视频帧所对应的标注信息，若命中某个标注信息，则该标注信息对应的视频帧即是该用户输入的查询序列所对应的视频帧，并进而可以确定该视频帧对应的视频。例如，在步骤S202中，视频搜索装置1根据所述至少一个视频帧的属性标记即可确定与其对应的至少一个视频。其中，与所述查询序列匹配对应的所述至少一个视频帧可以是属于同一个视频的视频帧，也可以是属于不同视频的视频帧；所述至少一个视频帧可以是连续的视频帧，也可以是不连续的视频帧。其中，对视频中每一个视频帧对应的信息的识别包括但不限于：基于单独一帧图像的场景识别、基于连续多帧图像的场景识别、基于图像对应的音频信息的识别、基于图像对应的字幕信息的识别。

例如，视频V1的第1000个视频帧是黄晓明在家吃饭的画面，该视频帧还展示了黄晓明吃炸酱面的内容，或者黄晓明父母的画面，则对该视频帧中信息进行识别后，视频帧索引中可以包括：属性标记为视频V1的第1000个视频帧分别与“黄晓明在家吃饭”、“黄晓明吃炸酱面”和“黄晓明父母”的对应关系。若视频V1的第1000-1049个视频帧都为包括黄晓明在家吃饭，黄晓明吃的是炸酱面，以及黄晓明父母三者的画面，但是第1025-1049个视频帧中没有出现黄晓明父母，则在视频帧索引中，视频V1的第1000-1024个视频帧中的每一个视频帧都分别对应“黄晓明在家吃饭”、“黄晓明吃炸酱面”和“黄晓明父母”；视频V1的第1025-1049个视频帧中的每一个视频帧都分别对应“黄晓明在家吃饭”和“黄晓明吃炸酱面”。若搜索视频的视频数据库中包括视频V1，视频V2，视频V3……等多个视频，可以建立包括该数据库中所有视频中的视频帧的总的视频帧索引，也可以为每一个视频建立一个仅包括其视频帧的视频帧索引，例如为视频V1建立一个对应的视频帧索引时，在步骤S202中，视频搜索装置1依次在每个视频对应的视频帧索引中为所述查询序列匹配对应的至少一个视频帧。

若在步骤S201中，视频搜索装置1接收到的查询序列为“黄晓明在家吃饭”，在步骤S202中，视频搜索装置1可以采用模糊匹配的方式，在所述视频帧索引中查询被“黄晓明”、“黄晓明吃饭”、“黄晓明在家”、“黄晓明在家吃饭”、“明星在家吃饭”、“黄晓明和angelababy在家吃饭”等关键词命中的标注信息，命中的所述标注信息对应的视频帧即是与“黄晓明在家吃饭”所对应的视频帧，并进而可以确定该视频帧对应的视频；或者采用精确匹配方式，仅在所述视频帧索引中搜索对应于“黄晓明在家吃饭”的视频帧及其对应的视频；或者采用模糊匹配和精确匹配相结合的方式为用户匹配对应的视频帧及视频。若在视频帧索引中被“黄晓明在家吃饭”这一查询序列命中的标注信息为54个，在步骤S202中，视频搜索装置1确定命中的54个标注信息在视频帧索引中分别对应于：视频V1的第1000-1049个视频帧，视频V3的第225个视频帧，以及视频V8的第25帧、第126帧、第127帧，则与“黄晓明在家吃饭”对应的视频帧包括视频V1的第1000-1049个视频帧，视频V3的第225个视频帧，以及视频V8的第25、126、127个视频帧，与“黄晓明在家吃饭”对应的视频分别为视频V1、V3和V8。

在此，在步骤S202中，视频搜索装置1根据视频帧索引确定与查询序列对应的视频，其中，所述视频帧索引根据对视频中每一个视频帧对应的信息的识别所建立或者更新的，因此，在步骤S202中，视频搜索装置1可以根据视频帧索引，对视频中的每一个视频帧的信息进行检索匹配，确定其中被查询序列命中的信息，根据命中的所述信息确定与查询序列对应的视频帧，从而确定与所述查询序列对应的视频，提供给用户。基于视频的内容，即视频中每一个视频帧的信息进行搜索，使得用户可以更加精准的搜索到自己想要观看的视频，提升了用户的搜索体验。

在步骤S203中，视频搜索装置1根据所述至少一个视频帧对应的时间戳，定位其对应的至少一个视频的播放位置，以所述播放位置将所述至少一个视频提供给所述用户。具体地，视频中的每个视频帧都有其在该视频中对应的时间戳。在步骤S202中，视频搜索装置1 确定与查询序列对应的所述至少一个视频帧后，在步骤S203中，视频搜索装置1获得其中的每一个视频帧在各自对应的视频中的时间戳，然后将与所述至少一个视频帧分别对应的视频的播放位置定位至与查询序列匹配的视频帧的位置，以便用户选中该视频进行观看时，该视频自与查询序列对应的视频帧处开始播放。视频搜索装置1使得用户可以直接观看其想看到的视频片段。

优选地，视频搜索装置1在步骤S203中获取所述用户自所述至少一个视频中所选择的一个目标视频，若所述目标视频中包括多个与所述查询序列匹配的视频帧，则按以下任一项定位所述目标视频的播放位置：默认根据所述目标视频中第一个与所述查询序列匹配的视频帧的时间戳来确定；由所述用户选择。具体地，用户自视频搜索装置1提供的至少一个视频中选中一目标视频进行观看时，在步骤S203中，视频搜索装置1获取用户选中的所述目标视频。如果该目标视频中包括多个与所述查询序列匹配的视频帧，则：可以默认将该视频的播放位置定位至时间戳最小的那个视频帧的位置，即播放时间最早的视频帧的位置，也可以默认定位至匹配程度最高的视频帧；将该视频的播放位置随机定位至任意一个匹配的视频帧；或者由用户选择播放位置定位至哪个视频帧，选择的方法有列表形式和播放进度条标注形式，其中所述列表形式包括且不仅仅包括弹窗列表，例如，一视频被用户选中后，在步骤S203中，视频搜索装置1以弹窗列表的形式为用户提供一个选择框，由用户选择自哪个对应的视频帧开始播放。然后在步骤S203中，视频搜索装置1将定位了播放位置的所述至少一个视频提供给用户，使得用户无论从中选择哪个视频进行观看，该视频都会直接从与所述查询序列匹配的视频帧处开始播放，因而用户可以直接观看与所述查询序列对应的画面。

在此，视频搜索装置1不仅可以基于视频中每一个视频帧的信息来搜索与查询序列匹配对应的视频，为用户准确的找到满足用户观看条件的视频，而且在视频搜索装置1确定对应的视频后，在步骤S203中，视频搜索装置1可以准确的将该视频的播放位置定位至与查询序列对应的位置，使该视频自与查询序列对应的视频帧处进行播放，从而使得用户可以更加快速的观看到与所述查询序列对应的视频片段，提高了用户的搜索效率，减少了用户的操作时间。因此，视频搜索装置1不仅能为用户准确的搜索到想观看视频，还能将视频的播放位置精确的定位至用户想观看的视频段的位置。

优选地，视频搜索装置1还包括步骤S204(未示出)和步骤S205(未示出)。

在步骤S204中，视频搜索装置1对每一个视频中每一个视频帧对应的信息进行识别，获得对应的标注信息。具体地，在步骤S204中，视频搜索装置1分别对每一个视频中的每一个视频帧进行图像识别，以及对每一个视频帧对应的相关音频信息或者字幕信息进行识别，获得对应的至少一个标注信息，其中，所述标注信息为对应的视频帧所包括的内容的摘要。例如，视频V1的第1000个视频帧是黄晓明在家吃饭的画面，该视频帧还包括黄晓明吃炸酱面的内容，或者黄晓明的父母，因此，视频V1的第1000个视频帧分别与标注信息：黄晓明在家吃饭、黄晓明吃炸酱面、黄晓明父母对应。

在步骤S205中，视频搜索装置1根据所述标注信息，建立或更新所述视频帧索引，其中，在确定装置中根据所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频的方式包括：根据所述查询序列，在所述视频帧索引中匹配确定具有与所述查询序列相匹配的标注信息的至少一个视频帧及其对应的至少一个视频。具体地，在步骤S205中，视频搜索装置1根据视频中每一个视频帧与其对应的标注信息之间的对应关系建立视频帧索引。其中，视频帧索引中包括：每一个视频帧分别与其对应的至少一个标注信息的对应关系，以便视频搜索装置1将查询序列与视频帧索引中的标注信息进行匹配，若匹配成功，则该标注信息对应的视频帧为与查询序列匹配的视频帧，然后视频搜索装置1根据每一个视频帧的属性标记便能确定该视频帧所在的视频。其中，所述视频帧索引可以是根据每一个视频的每一个视频帧建立的总索引，也可以是分别根据任意一个视频中的每一个视频帧建立的一个子索引。当所述视频帧索引为包括每一个视频中的每一个视频帧的总索引时，在视频搜索装置1接收用户的查询序列后，视频搜索装置1根据该查询序列在该视频帧索引中进行匹配，然后根据匹配的至少一个视频帧分别确定其各自对应的视频；若所述视频帧为与每个视频分别对应的至少一个子索引，视频搜索装置1根据接收的查询序列依次在每个视频对应的子索引中进行匹配，在匹配得到对应的视频帧时，视频搜索装置1可以直接获知与该视频帧对应的视频。

例如，视频V112的第48个视频帧是张杰在唱歌的画面，通过该视频帧的音频信息、字幕信息、以及该视频帧上出现的海报信息，在步骤S204中，视频搜索装置1可识别出该视频帧的内容还包括：张杰在中国新歌声唱歌，张杰唱逆战等信息，因此将“张杰在唱歌”、“张杰在中国新歌声唱歌”、“张杰唱逆战”作为该视频帧的标注信息。在获得该视频中其他视频帧的标注信息以及其他视频的视频帧的标注信息后，在步骤S205中，视频搜索装置1建立包括视频帧与标注信息的对应关系的视频帧索引。若所述视频帧索引为总的视频帧索引，则其中包括：属性标记为视频V112的第48个视频帧分别与标注信息“张杰在唱歌”、“张杰在中国新歌声唱歌”、“张杰唱逆战”对应；或者若所述视频帧为对应于每个视频的子索引，则视频V112对应的视频帧索引中包括：第112个视频帧分别与标注信息“张杰在唱歌”、“张杰在中国新歌声唱歌”、“张杰唱逆战”对应。其中，每一个视频帧的标注信息可以有多个，以从不同方面对该视频帧进行全面标注，以便该视频帧被更容易的检索到或者匹配到。

优选地，视频搜索装置1还包括步骤S206(未示出)和步骤S207(未示出)。

在步骤S206中，视频搜索装置1对每一个视频中每一个视频帧对应的信息进行识别，获得对应的标注信息；在步骤S207中，视频搜索装置1根据所述标注信息，为每一个视频建立一个子索引；其中，根据所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频的方式包括：根据所述查询序列，依次在各个视频分别对应的各个子索引中匹配确定具有与所述查询序列相匹配的标注信息的至少一个视频帧。在此，步骤S206与前述S204的实现过程相同。具体地，在步骤S206中，视频搜索装置1获得与视频帧对应的标注信息，在步骤S207中，视频搜索装置1根据所述标注信息，为每一个视频建立一个子索引，在步骤S201中，视频搜索装置1接收用户的查询序列后，在步骤S202中，视频搜索装置1依次将各个视频分别对应的视频帧子索引中的标注信息与所述查询序列进行匹配对应，并根据与所述查询序列匹配对应的至少一个标注信息确定与所述至少一个标注信息所分别对应的视频帧。

优选地，可以基于视频搜索装置1为用户提供在视频内搜索任意视频段的视频内搜索功能，使得用户在观看视频时通过对其输入的关键词的搜索，便可以直接将播放位置定位至其想观看的视频帧位置。若用户自视频搜索装置1提供的至少一个视频中选择一个视频进行播放观看，或者用户任意点选一个视频进行播放，用户可以根据该视频对应的视频帧索引，即子索引，在视频内搜索功能输入框中输入用户想观看的任意视频帧或者视频片段所对应的标注信息，以便视频搜索装置1在该视频内进行搜索。在获得该标注信息对应的视频帧后，视频搜索装置1将播放位置定位至与所述标注信息对应的视频帧处。其中，若与该标注信息对应的视频帧为多个时，在步骤S203中，视频搜索装置1默认将播放位置定位至其时间戳最小的视频帧处，即处于最早播放位置的视频帧处。例如，视频V27为电影视频《冰雪奇缘》的片段，存在与视频V27对应的视频帧索引，其中视频帧索引中包括第285个视频帧与标注信息“冰雪女王施魔法建冰雪宫殿”的对应关系。用户在该视频V27对应的搜索功能输入框中输入“冰雪宫殿”这一查询序列，在步骤S202中，视频搜索装置1会为用户匹配“冰雪女王施魔法建冰雪宫殿”这一标注信息，然后根据该标注信息确定其对应的视频帧为第285个视频帧，在步骤S203中，视频搜索装置1根据第285个视频帧的时间戳，将播放位置定位至播放第285个视频帧的位置，并向用户询问是否自该位置开始播放。若用户同意，则该视频直接自“冰雪女王施魔法建冰雪宫殿”这一视频帧开始播放。在此，通过视频搜索装置1实现无需用户手动拖拽，便能通过搜索便直接定位至想观看的位置进行播放。

优选地，视频搜索装置1还包括步骤S208(未示出)。

在步骤S208中，视频搜索装置1对所述至少一个视频进行排序，获得排序后的至少一个视频；其中，在步骤S203中，视频搜索装置 1用于：根据所述至少一个视频帧，定位其对应的所述排序后的至少一个视频的播放位置，以所述播放位置将所述排序后的至少一个视频提供给所述用户。具体地，对所述至少一个视频进行排序的方式包括但不限于：

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如上任一项所述的视频搜索方法被执行。

本发明还提供了一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如上任一项所述的视频搜索方法被执行。

本发明还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机代码，所述处理器被配置来通过执行所述计算机代码以执行如上任一项所述的视频搜索方法。

图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图3显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图3未示出，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图3中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理。

例如，存储器28中存储有用于执行本发明的各项功能和处理的计算机程序，处理单元16执行相应计算机程序时，本发明在网络端对来电意图的识别被实现。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

一种基于视频内容的视频搜索方法，其中，所述视频搜索方法包括：

a.接收用户输入的查询序列；

b.根据视频帧索引确定其中包括的与所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频，其中，所述视频帧索引根据对视频中每一个视频帧对应的信息的识别所建立或更新；

c.根据所述至少一个视频帧对应的时间戳，定位其对应的至少一个视频的播放位置，以所述播放位置将所述至少一个视频提供给所述用户。
根据权利要求1所述的视频搜索方法，其中，该视频搜索方法还包括：

对每一个视频中每一个视频帧对应的信息进行识别，获得对应的标注信息；

根据所述标注信息，建立或更新所述视频帧索引；

其中，步骤b中根据所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频的方式包括：

根据所述查询序列，在所述视频帧索引中匹配确定具有与所述查询序列相匹配的标注信息的至少一个视频帧及其对应的至少一个视频。
根据权利要求1所述的视频搜索方法，其中，该视频搜索方法还包括：

对每一个视频中每一个视频帧对应的信息进行识别，获得对应的标注信息；

根据所述标注信息，为每一个视频建立一个子索引；

其中，步骤b中根据所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频的方式包括：

根据所述查询序列，依次在各个视频分别对应的各个子索引中匹配确定具有与所述查询序列相匹配的标注信息的至少一个视频帧。
根据权利要求2或3所述的视频搜索方法，其中，所述标注信息通过以下至少任一项获得：

识别一个视频帧图像的图像特征，根据所述图像特征确定所述一个视频帧图像对应的标注信息；

识别一个视频帧图像的图像特征，并根据识别的所述视频帧图像的前置图像和后置图像的图像特征，确定对应的标注信息；

识别一个视频帧所对应的音频信息，将所述音频信息转换成文字信息，根据所述文字信息确定所述视频帧对应的标注信息；

提取一个视频帧所对应的字幕信息，根据所述字幕信息确定所述视频帧对应的标注信息。
根据权利要求1至4中任一项所述的视频搜索方法，其中，该视频搜索方法还包括：

对所述至少一个视频进行排序，获得排序后的至少一个视频；

其中，步骤c包括：

根据所述至少一个视频帧，定位其对应的所述排序后的至少一个视频的播放位置，以所述播放位置将所述排序后的至少一个视频提供给所述用户。
根据权利要求5中任一项所述的视频搜索方法，其中，根据以下至少任一项对所述至少一个视频进行排序：

视频中所包括的与所述查询序列匹配的视频帧的数量；

视频对应的视频发布者信息；

视频的来源信息；

视频的清晰度；

视频的主题信息；

用户对视频的反馈信息。
根据权利要求1至6中任一项所述的视频搜索方法，其中，步骤c中以所述播放位置将所述至少一个视频提供给所述用户还包括：

获取所述用户自所述至少一个视频中所选择的一个目标视频；

若所述目标视频中包括多个与所述查询序列匹配的视频帧，则按以下任一项来定位所述目标视频的播放位置：

默认根据所述目标视频中第一个与所述查询序列匹配的视频帧的时间戳来确定；

由所述用户选择。
一种基于视频内容的视频搜索装置，其中，所述视频搜索装置包括：

接收装置，用于接收用户输入的查询序列；

确定装置，用于根据视频帧索引确定其中包括的与所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频，其中，所述视频帧索引根据对视频中每一个视频帧对应的信息的识别所建立或更新；

定位装置，用于根据所述至少一个视频帧对应的时间戳，定位其对应的至少一个视频的播放位置，以所述播放位置将所述至少一个视频提供给所述用户。
根据权利要求8所述的视频搜索装置，其中，该视频搜索装置还包括：

第一识别装置，用于对每一个视频中每一个视频帧对应的信息进行识别，获得对应的标注信息；

更新装置，用于根据所述标注信息，建立或更新所述视频帧索引；

其中，在确定装置中根据所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频的方式包括：

根据所述查询序列，在所述视频帧索引中匹配确定具有与所述查询序列相匹配的标注信息的至少一个视频帧及其对应的至少一个视频。
根据权利要求8所述的视频搜索装置，其中，该视频搜索装置还包括：

第二识别装置，用于对每一个视频中每一个视频帧对应的信息进行识别，获得对应的标注信息；

建立装置，用于根据所述标注信息，为每一个视频建立一个子索引；

其中，在确定装置中根据所述查询序列匹配对应的至少一个视频帧及其对应的至少一个视频的方式包括：

根据所述查询序列，依次在各个视频分别对应的各个子索引中匹配确定具有与所述查询序列相匹配的标注信息的至少一个视频帧。
根据权利要求9或10所述的视频搜索装置，其中，所述标注信息通过以下至少任一项获得：

识别一个视频帧图像的图像特征，根据所述图像特征确定所述一个视频帧图像对应的标注信息；

识别一个视频帧图像的图像特征，并根据识别的所述一个视频帧图像的前置图像和后置图像的图像特征，确定对应的标注信息；

识别一个视频帧所对应的音频信息，将所述音频信息转换成文字信息，根据所述文字信息确定所述视频帧对应的标注信息；

提取一个视频帧所对应的字幕信息，根据所述字幕信息确定所述视频帧对应的标注信息。
根据权利要求8至11中任一项所述的视频搜索装置，其中，该视频搜索装置还包括：

排序装置，用于对所述至少一个视频进行排序，获得排序后的至少一个视频；

其中，定位装置用于：

根据所述至少一个视频帧，定位其对应的所述排序后的至少一个视频的播放位置，以所述播放位置将所述排序后的至少一个视频提供给所述用户。
根据权利要求12中任一项所述的视频搜索装置，其中，根据以下至少任一项对所述至少一个视频进行排序：

视频中所包括的与所述查询序列匹配的视频帧的数量；

视频对应的视频发布者信息；

视频的来源信息；

视频的清晰度；

视频的主题信息；

用户对视频的反馈信息。
根据权利要求8至13中任一项所述的视频搜索装置，其中，所述定位装置还用于：

获取所述用户自所述至少一个视频中所选择的一个目标视频；

若所述目标视频中包括多个与所述查询序列匹配的视频帧，则按以下任一项来定位所述目标视频的播放位置：

默认根据所述目标视频中第一个与所述查询序列匹配的视频帧的时间戳来确定；

由所述用户选择。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如权利要求1至7中任一项所述的视频搜索方法被执行。
一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如权利要求1至7中任一项所述的视频搜索方法被执行。
一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的视频搜索方法。