WO2018205838A1

WO2018205838A1 - 一种相似视频的检索方法、装置和存储介质

Info

Publication number: WO2018205838A1
Application number: PCT/CN2018/084580
Authority: WO
Inventors: 张媛媛; 于群; 占飞; 华枭; 張永燊; 熊磊
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-05-11
Filing date: 2018-04-26
Publication date: 2018-11-15
Also published as: CN107066621A; US10853660B2; US20190332867A1; CN107066621B

Abstract

本申请实施例公开了一种相似视频的检索方法、装置和存储介质，该方法包括：获取需要检索相似视频的视频信息，其中，所述视频信息包括视频标签和视频标题；根据预设的知识图谱从视频库中获取与所述视频信息匹配的视频，得到第一候选视频集合；采用预设的文本深度表示模型对所述视频信息进行训练，以将所述视频信息转化为词向量；根据所述词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合；根据所述第一候选视频集合和第二候选视频集合确定所述视频信息的相似视频。

Description

一种相似视频的检索方法、装置和存储介质

本申请要求于2017年5月11日提交中国专利局、申请号为201710331203.2，申请名称为“一种相似视频的检索方法、装置和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术领域，具体涉及一种相似视频的检索方法、装置和存储介质。

背景技术

在信息爆炸的时代，面对海量的视频，如何从中准确且全面地检索到相似视频，对于用户查询和视频信息推荐等场景，都有着积极的意义。

在检索相似视频时，一般都会采用文本深度表示模型(word2vec)来进行建模，然后，基于该模型计算视频标题的相似度，并根据该相似度来查找相似的视频。其中，训练word2vec模型的语料主要来自于网络，若语料发生更新，则该word2vec模型需要重新进行训练。

发明内容

本申请实施例提供一种相似视频的检索方法、装置和存储介质，不仅可以提高召回率和检索结果的准确性，而且可以降低模型训练的频率，节省计算资源。

本申请实施例提供一种相似视频的检索方法，应用于计算设备，包括：

获取需要检索相似视频的视频信息，其中，所述视频信息包括视频标签和视频标题；

根据预设的知识图谱从视频库中获取与所述视频信息匹配的视频，得到第一候选视频集合；

采用预设的文本深度表示模型对所述视频信息进行训练，以将所述视频信息转化为词向量；

根据所述词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合；

根据所述第一候选视频集合和第二候选视频集合确定所述视频信息的相似视频。

相应的，本申请实施例还提供一种相似视频的检索装置，包括：

处理器以及与所述处理器相连接的存储器，所述存储器中存储有可由所述处理器执行的机器可读指令，所述处理器执行所述机器可读指令完成以下操作：

本申请实施例还提供一种非易失性计算机可读存储介质，所述存储介质中存储有机器可读指令，所述机器可读指令可以由处理器执行以完成以下操作：

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的相似视频的检索方法的场景示意图；

图1b是本申请实施例提供的相似视频的检索方法的另一场景示意图；

图1c是本申请实施例提供的相似视频的检索方法的流程图；

图2a是本申请实施例提供的相似视频的检索方法的另一流程图；

图2b是本申请实施例提供的相似视频的检索方法中关系边的示例图；

图3a是本申请实施例提供的相似视频的检索装置的结构示意图；

图3b是本申请实施例提供的相似视频的检索装置的另一结构示意图；

图4是本申请实施例提供的计算设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

传统的检索相似视频的方法非常依赖于分词效果、语料的量级以及语料更新的及时性。若语料更新不及时，对于一些新出现的视频信息，则可能无法取得正确的分词结果，进而影响word2vec模型的训练结果，最终导致召回率(R，Recall，也称为查全率)较低，检索结果不准确。而若语料更新频率过大，则需要消耗大量的训练时间和计算资源，导致严重的资源浪费。

有鉴于此，本申请实施例提供一种相似视频的检索方法、装置和存储介质，不仅可以提高召回率和检索结果的准确性，而且可以降低模型训练的频率，节省计算资源。

其中，该相似视频的检索装置具体可以集成在服务器或终端等计算设备中。例如，以集成在服务器中为例，则参见图1a，服务器在获取到需要检索相似视频的视频信息，比如视频标签和视频标题后，一方面，可以根据预设知识图谱从视频库中获取与该视频信息匹配的视频，得到第一候选视频集合，另一方面，可以采用预设的word2vec模型(文本深度表示模型)对该视频信息进行训练，以将视频信息转化为词向量，并根据词向量从该视频库中筛选与该视频信息相似的视频，得到第二候选视频集合，然后，根据该第一候选视频集合和第二候选视频集合确定该视频信息的相似视频，此后，便可以将该相似视频提供给多种场景使用，比如，参见图1b，可以将该相似视频提供或推荐给用户，或者，也可以通过这种方式对视频进行分类，等等。

以下分别进行详细说明。

本实施例将从相似视频的检索装置的角度进行描述，该相似视频的检索装置具体可以集成在服务器或终端等计算设备中。

一种相似视频的检索方法，应用于计算设备，包括：获取需要检索相似视频的视频信息，该视频信息包括视频标签和视频标题，根据预设知识图谱从视频库中获取与该视频信息匹配的视频，得到第一候选视频集合，采用预设word2vec模型对该视频信息进行训练，以将视频信息转化为词向量，根据词向量从该视频库中筛选与该视频信息相似的视频，得到第二候选视频集合，根据该第一候选视频集合和第二候选视频集合确定该视频信息的相似视频。

如图1c所示，该相似视频的检索方法的具体流程可以如下：

步骤101、获取需要检索相似视频的视频信息。

例如，相似视频的检索装置可以接收终端发送的检索请求，其中，该检索请求指示需要检索相似视频的视频信息；或者，也可以在需要对视频进行分类时，在本地(即相似视频的检索装置)或由其他设备生成相应的检索请求，然后，由该相似视频的检索装置根据该检索请求获取需要检索相似视频的视频信息，等等。

其中，该视频信息可以包括视频标签和视频标题等信息，视频标签指的是可以用来表示视频内容和/或类型的信息，比如可以是电影、电视剧、喜剧、冒险片，等等；在本申请一些实施例中，该视频标签还可以是与该视频具有关联关系的信息，比如某明星、某导演、某景点、或某制作公司，等等。而视频标题指的是该视频的标题内容，具体可以包括标题中的文字和符号。

步骤102、根据预设知识图谱从视频库中获取与该视频信息匹配的视频，得到第一候选视频集合，例如，具体可以如下：

(1)从该视频标签和视频标题中抽取实体词，得到种子(也称为种子词，seed words)。

其中，实体词指的是具有特定语义的词语，具体可以是能够指代某项事物的名词，比如张三、或XX电视剧，等等。

(2)根据预设知识图谱从视频库中获取与该种子匹配的视频，得到第一候选视频集合。

其中，该视频库保存有多个视频，每个视频均具有相应的视频信息，该视频信息可以包括视频标签和视频标题等信息。

例如，具体可以根据预设知识图谱确定与该种子具有强关联关系的实体词，将所述实体词确定为候选词，从视频库中获取视频信息中包含该候选词的视频，得到第一候选视频集合。

其中，强关联关系指的是关系度小于或等于设定值，即若某实体词与该种子的关系度小于或等于设定值，则表明该实体词与该种子具有强关联关系，也就是说，步骤“根据预设知识图谱确定与该种子具有强关联关系的实体词，将所述实体词确定为候选词”可以包括：

将该种子映射到预设实体库中的实体词上，确定该种子与该实体库中各个实体词的关系度，选取关系度小于或等于设定值的实体词作为候选词，其中，该实体库可以根据预设知识图谱建立而成。

其中，该设定值可以根据实际应用的需求进行设置，比如，一般可以将关系度为1度和2度的，称为关系“近”的实体，因此，可以将1度作为该设定值，等等。

比如，具体可以通过命名实体链接(NEL，Named Entity Linking)技术等方式将该种子映射到预设知识库中的相应的实体上，然后，获取该种子在该知识库中与其他实体的关系边数量，得到该种子与其他实体在该知识库中的关系度。

其中，命名实体链接，简称实体链接(Entity Linking)，是把种子链接到知识库中一个无歧义实体的过程，包括同义实体的合并、以及歧义实体的消歧等。

而关系边数量则用于描述实体之间关联关系的远近，指的是在实体关系图中从实体A到实体B所需经过的关系边的数量，一般可以表示为度数，为了描述方便，在本申请实施例中，将该度数称为关系度。其中，关系边数量越少，则关系度(即度数)越低，而关系度越低，则表明一个实体越贴近本身，比如，如果一个实体走向本身，则其关系度(度数)为0，等等，在此不再赘述。

在本申请一些实施例中，实体库可以由运维人员预先进行设置，或者，也可以由该相似视频的检索装置自行建立而成，即在步骤“将该种子映射到预设实体库中的实体词上”之前，该相似视频的检索方法还可以包括：

设置基础词库，根据该基础词库获取互联网信息，并对该互联网信息进行非实体词清洗，根据该基础词库、以及清洗后的互联网信息构建实体词之间的三元组关系，得到实体库。

比如，可以从一些应用的细胞词库中取得基础的分类实体词，例如明星、电影等作为基础词库，然后根据这个基础词库获取互联网信息，比如可以获取一些包含百科资料的网页，将这些网页中的非实体词清洗掉，并构建实体词与实体词之间的三元组关系，如(<张三，明星>，<属于>，<一二三四，电视剧>)，等等，从而得到保存有这些三元组关系的实体库。

需说明的是，为了保证检索结果的准确性，可以定时或实时地对该基础词库和互联网信息进行更新，进而对实体库进行更新。具体更新时，可以按照上述建立实体库的方式进行建立，也可以进行差量更新，即对于新增的信息，可以先进行分析，以确定该新增的信息中所包含的实体词是否已存在于该实体库中，若存在，则无需添加至实体库，反之，若不存在，则表明该新增的信息中所包含的实体词为新实体词，此时可以获取相应的互联网信息，对该互联网信息进行非实体词清洗，然后，构建该新的实体词与清洗后互联网信息中的实体词的三元组关系，并将构建的三元组关系添加至实体库中。

步骤103、采用预设word2vec模型对该视频信息进行训练，以将视频信息转化为词向量。

例如，具体可以对视频标签和视频标题等进行分词，得到分词后视频文本，然后，采用预设的word2vec模型对该分词后视频文本进行训练，得到该分词后视频文本的词向量，即得到该分词后视频文本中每个词都对应的词向量。

其中，词向量，顾名思义，指的是采用向量来表达词。需说明的是，该训练得到的每个词对应的词向量均具有固定的维度，这样，可以有效防止维度爆炸，降低后续相似度计算的计算量。

其中，该word2vec模型可以由运维人员预先进行设置，也可以由该相似视频的检索装置预先进行建立，即在步骤“采用预设word2vec模型对该分词后视频文本进行训练”之前，该相似视频的检索方法还可以包括：

获取预设的语料集，并对该语料集中的句子进行分词，根据分词后的句子对预设的原始模型进行学习，得到word2vec模型。

其中，该语料集中的内容可以根据实际应用的需求进行设置，比如，可以对一定期限内的用户原创内容(UGC，User Generated Content)进行抽样，以及对网络信息，如各类百科语料进行抓取，来构建该语料集，等等。

需说明的是，步骤102和103的执行可以不分先后。

步骤104、根据词向量从该视频库中筛选与该视频信息相似的视频，得到第二候选视频集合。

例如，若在步骤103中，训练得到分词后视频文本的词向量，则此时，可以根据该分词后视频文本的词向量从该视频库中筛选与该视频信息相似的视频，得到第二候选视频集合，比如，具体可以如下：

根据该分词后视频文本的词向量，分别计算该视频信息与该视频库中各个视频的相似度，选取相似度高于预设阈值的视频，得到第二候选视频集合。

其中，该预设阈值可以根据实际应用的需求进行设置，而两个视频之间的相似度可以通过计算这两个视频的词向量的点积来得到，或者，也可以采用其他的相似度算法来计算，在此不再赘述。

步骤105、根据该第一候选视频集合和第二候选视频集合确定该视频信息的相似视频。

例如，具体分别对第一候选视频集合和第二候选视频集合中的视频进行评分，根据这些评分计算各个视频的综合分数值，然后，将综合分数值较高的视频，比如将综合分数值大于预设分数值的视频确定为该视频信息的相似视频，等等。

在本申请一些实施例中，为了提高灵活性，还可以通过为第一候选视频集合和第二候选视频集合中的视频分别设定相应的权重进行微调，从而使得检索结果更为准确，即步骤“根据该第一候选视频集合和第二候选视频集合确定该视频信息的相似视频”可以包括：

分别对该第一候选视频集合中的视频进行评分，得到第一分数值；分别对该第二候选视频集合中的视频进行评分，得到第二分数值；分别计算该第一分数值和相应的第二分数值的加权值，得到各个视频的综合分数值；将综合分数值大于预设分数值的视频确定为该视频信息的相似视频，用公式表示即可以如下：

S＝α*A+β*B；

其中，S为视频X的综合分数值，A为第一候选视频集合中的视频X的第一分数值，B为第二候选视频集合中该视频X的第二分数值，α为第一分数值的权重(即第一候选视频集合中的视频的权重)，β为第二分数值的权重(即第二候选视频集合中的视频的权重)，α和β的和为1，α和β的具体取值可以通过实际应用的需求，比如通过用户的反馈来进行设置。

需说明的是，第一分数值和第二分数值的打分范围可以根据实际应用的需求进行设置，比如，可以设置为在[0,1]之间，等等。另外，还需说明的是，若第二候选视频集合中不存在视频X，则该视频X的第二分数值为0，同理，若第二候选视频集合中的某视频L不在第一候选视频集合中，则该视频L的第一分数值为0。

由上可知，本实施例在获取需要检索相似视频的视频信息后，一方面可以根据预设知识图谱从视频库中获取与该视频信息匹配的视频，得到第一候选视频集合；另一方面，可以采用预设word2vec模型对该视频信息进行训练，并根据训练结果从视频库中筛选与该视频信息相似的视频，得到第二候选视频集合，然后，根据第一候选视频集合和第二候选视频集合确定该视频信息的相似视频，从而达到检索相似视频的目的。由于该方案采用了知识图谱和文本相似度相结合的方案来检索相似视频，因此，既可以利用知识图谱，来弥补因为语料更新频率和数量问题所导致的召回率低和计算资源消耗较大的问题，也可以利用相似度计算来增加请求视频(即需要进行检索的视频)的上下文信息，规约一词多义导致召回结果跑偏的问题，所以，采用该方案不仅可以提高召回率和检索结果的准确性，而且可以降低模型训练的频率，节省计算资源。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中将以该相似视频的检索装置具体集成在服务器中为例进行说明。

如图2a所示，一种相似视频的检索方法，具体流程可以如下：

步骤201、服务器获取需要检索相似视频的视频信息。

例如，服务器具体可以接收终端发送的检索请求，其中，该检索请求指示需要检索相似视频的视频信息；或者，服务器也可以在需要对视频进行分类时，在本地(即服务器)或由其他设备生成相应的检索请求，然后，由该服务器根据该检索请求获取需要检索相似视频的视频信息，等等。

步骤202、服务器从该视频信息，如视频标签和视频标题中抽取实体词，得到种子。

例如，若需要检索相似视频的视频为视频K，该视频K为某古装电视剧“琅X榜”，且其视频标题为“琅X榜第一集”，视频标签为“古装”、以及“电视剧”等，则此时，可以从该视频K的视频标题和视频标签中抽取实体词，如“琅X榜”、“古装”和“电视剧”等，得到种子。

步骤203、服务器根据预设知识图谱确定与该种子具有强关联关系的实体词，将所述实体词确定为候选词，从视频库中获取视频信息中包含该候选词的视频，得到第一候选视频集合。

其中，强关联关系指的是关系度小于或等于设定值，即若某实体词与该种子的关系度小于或等于设定值，则表明该实体词与该种子具有强关联关系，比如，与该种子一致的词语、该种子的近义词、同义词、以及与该种子具有预设特定关系的词，均可认为与该种子具有强关联关系。也就是说，步骤“服务器根据预设知识图谱确定与该种子具有强关联关系的实体词，将所述实体词确定为候选词”可以包括：

服务器将该种子映射到预设实体库中的实体词上，确定该种子与该实体库中各个实体词的关系度，选取关系度小于或等于设定值的实体词作为候选词。

其中，该设定值可以根据实际应用的需求进行设置，而该实体库则可以根据预设知识图谱建立而成，比如，具体可以通过NEL技术等方式将该种子映射到预设知识库中的相应的实体上，然后，获取该种子在该知识库中与其他实体的关系边数量，得到该种子与其他实体在该知识库中的关系度。

比如，还是以视频K的种子“琅X榜”为例，如图2b所示，由于电视剧《琅X榜》的主演为明星“张三”和“王五”，而“张三”的妻子为“张太太”，搭档为“李四”，因此，种子“琅X榜”与实体词“王五”的关系边数量为“1”，相应的关系度为1度；种子“琅X榜”与实体词“张三”的关系边数量为“1”，相应的关系度为1度；种子“琅X榜”与实体词“张太太”的关系边数量为“2”，相应的关系度为2度；种子“琅X榜”与实体词“李四”的关系边数量为“2”，相应的关系度为2度。若设置的设定值为1度，所以，此时可以将“张三”和“王五”作为候选词。

在本申请一些实施例中，实体库可以由运维人员预先进行设置，或者，也可以由该服务器建立而成，例如，具体可以如下：

服务器设置基础词库，根据该基础词库获取互联网信息，并对该互联网信息进行非实体词清洗，根据该基础词库、以及清洗后的互联网信息构建实体词之间的三元组关系，得到实体库。

比如，可以从一些应用的细胞词库中取得基础的分类实体词，例如明星、电影等作为基础词库，然后根据这个基础词库获取互联网信息，比如可以获取一些包含百科资料的网页，将这些网页中的非实体词清洗掉，并构建实体词与实体词之间的三元组关系，如(<张三，明星>，<属于>，<琅X榜，电视剧>)，等等，从而得到保存有这些三元组关系的实体库。

需说明的是，为了保证检索结果的准确性，可以定时或实时地对该基础词库和互联网信息进行更新，进而对实体库进行更新，具体可参见前述实施例中的描述，在此不再赘述。

步骤204、服务器对该视频标签和视频标题等进行分词，得到分词后视频文本。

例如，还是以视频K为例，如该视频K的视频标题为“琅X榜第一集”，视频标签为“古装”、以及“电视剧”等，则可以对这些文本进行分词，比如将视频标题“琅X榜第一集”划分为“琅X榜”和“第一集”，将视频标签“古装”划分为“古装”，将视频标签“电视剧”划分为“电视剧”，等等，得到分词后视频文本。

需说明的是，步骤202和204的执行可以不分先后。

步骤205、服务器采用预设的word2vec模型对该分词后视频文本进行训练，得到该分词后视频文本的词向量。

比如，若在步骤204中，得到分词后视频文本包括“琅X榜”、“第一集”、“古装”、以及“电视剧”，则此时，可以采用预设的word2vec模型分别对这些分词进行训练，得到各个分词对应的词向量。

其中，该word2vec模型可以由运维人员预先进行设置，也可以由该相似视频的检索装置预先进行建立，比如，服务器具体可以获取预设的语料集，并对该语料集中的句子进行分词，然后，根据分词后的句子对预设的原始模型进行学习，得到word2vec模型。

其中，该语料集中的内容可以根据实际应用的需求进行设置，比如，可以对一定期限内的UGC，比如全年的UGC进行抽样，以及对网络信息，如各类百科语料进行抓取，来构建该语料集，等等，在此不再赘述。

步骤206、服务器根据该分词后视频文本的词向量从该视频库中筛选与该视频信息相似的视频，得到第二候选视频集合，例如，具体可以如下：

服务器根据该分词后视频文本的词向量，分别计算该视频信息与该视频库中各个视频的相似度，选取相似度高于预设阈值的视频，得到第二候选视频集合。

步骤207、服务器根据该第一候选视频集合和第二候选视频集合确定该视频信息的相似视频。

例如，服务器可以分别对第一候选视频集合和第二候选视频集合中的视频进行评分，根据这些评分计算各个视频的综合分数值，然后，将综合分数值较高的视频，比如将综合分数值大于预设分数值的视频确定为该视频信息的相似视频，等等。

在本申请一些实施例中，为了提高灵活性，还可以通过为第一候选视频集合和第二候选视频集合中的视频分别设定相应的权重进行微调，从而使得检索结果更为准确，即步骤“服务器根据该第一候选视频集合和第二候选视频集合确定该视频信息的相似视频”具体可以包括：

(1)服务器分别对该第一候选视频集合中的视频进行评分，得到第一分数值。

(2)服务器分别对该第二候选视频集合中的视频进行评分，得到第二分数值。

(3)服务器分别计算该第一分数值和相应的第二分数值的加权值，得到各个视频的综合分数值。

(4)服务器将综合分数值大于预设分数值的视频确定为该视频信息的相似视频，用公式表示即可以如下：

S＝α*A+β*B；

为了更好地实施以上方法，本申请实施例还提供一种相似视频的检索装置，该相似视频的检索装置具体可以集成在在服务器或终端等计算设备中。

例如，如图3a所示，该相似视频的检索装置可以包括获取单元301、匹配单元302、训练单元303、筛选单元304、以及确定单元305。

获取单元301，用于获取需要检索相似视频的视频信息，该视频信息包括视频标签和视频标题。

其中，该视频信息可以包括视频标签和视频标题等信息，视频标签指的是可以用来表示视频内容和/或类型的信息以及与该视频具有关联关系的信息。而视频标题指的是该视频的标题内容，具体可以包括标题中的文字和符号。

匹配单元302，用于根据预设知识图谱从视频库中获取与该视频信息匹配的视频，得到第一候选视频集合。

例如，该匹配单元302可以包括抽取子单元和匹配子单元。

该抽取子单元，可以用于从该视频标签和视频标题中抽取实体词，得到种子。

该匹配子单元，可以用于根据预设知识图谱从视频库中获取与该种子匹配的视频，得到第一候选视频集合。

比如，该匹配子单元，具体可以用于根据预设知识图谱确定与该种子具有强关联关系的实体词，将所述实体词确定为候选词，从视频库中获取视频信息中包含该候选词的视频，得到第一候选视频集合。

其中，强关联关系指的是关系度小于或等于设定值，即若某实体词与该种子的关系度小于或等于设定值，则表明该实体词与该种子具有强关联关系，即：

该匹配子单元，具体可以用于将该种子映射到预设实体库中的实体词上，确定该种子与该实体库中各个实体词的关系度，选取关系度小于或等于设定值的实体词作为候选词，其中，该实体库可以根据预设知识图谱建立而成。

比如，具体可以通过NEL技术等方式将该种子映射到预设知识库中的相应的实体上，然后，获取该种子在该知识库中与其他实体的关系边数量，得到该种子与其他实体在该知识库中的关系度。

在本申请一些实施例中，实体库可以由运维人员预先进行设置，或者，也可以由该相似视频的检索装置自行建立而成，即如图3b所示，该相似视频的检索装置还可以包括实体库建立单元306。

该实体库建立单元306，可以用于设置基础词库，根据该基础词库获取互联网信息，并对该互联网信息进行非实体词清洗，根据该基础词库、以及清洗后的互联网信息构建实体词之间的三元组关系，得到实体库。

比如，该实体库建立单元306具体可以从一些应用的细胞词库中取得基础的分类实体词，例如明星、电影等作为基础词库，然后根据这个基础词库获取互联网信息，比如可以获取一些包含百科资料的网页，将这些网页中的非实体词清洗掉，并构建实体词与实体词之间的三元组关系，从而得到保存有这些三元组关系的实体库。

需说明的是，为了保证检索结果的准确性，该实体库建立单元306还可以定时或实时地对该基础词库和互联网信息进行更新，进而对实体库进行更新，具体可参见前面的实施例，在此不再赘述。

训练单元303，用于采用预设word2vec对该视频信息进行训练，以将视频信息转化为词向量。

例如，该训练单元303，具体可以用于对视频标签和视频标题进行分词，得到分词后视频文本，采用预设word2vec对该分词后视频文本进行训练，得到该分词后视频文本的词向量。

其中，该word2vec模型可以由运维人员预先进行设置，也可以由该相似视频的检索装置预先进行建立，即如图3b所示，该相似视频的检索装置还可以包括模型建立单元307，如下：

该模型建立单元307，可以用于获取预设的语料集，并对该语料集中的句子进行分词，根据分词后的句子对预设的原始模型进行学习，得到word2vec模型。

其中，该语料集中的内容可以根据实际应用的需求进行设置，比如，可以对一定期限内的UGC进行抽样，以及对网络信息，如各类百科语料进行抓取，来构建该语料集，等等，具体可参见前面的实施例，在此不再赘述。

筛选单元304，用于根据词向量从该视频库中筛选与该视频信息相似的视频，得到第二候选视频集合；

例如，若训练单元303训练得到分词后视频文本的词向量，则该筛选单元304可以根据该分词后视频文本的词向量从该视频库中筛选与该视频信息相似的视频，得到第二候选视频集合，比如，可以如下：

该筛选单元304，具体可以用于根据该分词后视频文本的词向量，分别计算该视频信息与该视频库中各个视频的相似度，选取相似度高于预设阈值的视频，得到第二候选视频集合。

其中，该预设阈值可以根据实际应用的需求进行设置，而两个视频之间的相似度可以通过计算这两个视频的词向量的点积来得到，或者，也可以采用其他的相似度算法来计算。

确定单元305，用于根据该第一候选视频集合和第二候选视频集合确定该视频信息的相似视频。

例如，该确定单元305，具体可以用于分别对该第一候选视频集合中的视频进行评分，得到第一分数值；分别对该第二候选视频集合中的视频进行评分，得到第二分数值；分别计算该第一分数值和相应的第二分数值的加权值，得到各个视频的综合分数值；将综合分数值大于预设分数值的视频确定为该视频信息的相似视频，具体可参见前面的实施例，在此不再赘述。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例所提供相似视频的检索装置在获取需要检索相似视频的视频信息后，一方面可以由匹配单元302根据预设知识图谱从视频库中获取与该视频信息匹配的视频，得到第一候选视频集合；另一方面，可以由训练单元303采用预设word2vec模型对该视频信息进行训练，以将视频信息转化为词向量，并由筛选单元304根据词向量从视频库中筛选与该视频信息相似的视频，得到第二候选视频集合，然后，由确定单元305根据第一候选视频集合和第二候选视频集合确定该视频信息的相似视频，从而达到检索相似视频的目的。由于该方案采用了知识图谱和文本相似度相结合的方案来检索相似视频，因此，既可以利用知识图谱，来弥补因为语料更新频率和数量问题所导致的召回率低和计算资源消耗较大的问题，也可以利用相似度计算来增加请求视频(即需要进行检索的视频)的上下文信息，规约一词多义导致召回结果跑偏的问题，所以，采用该方案不仅可以提高召回率和检索结果的准确性，而且可以降低模型训练的频率，节省计算资源。

本申请实施例还提供一种计算设备(如前述的服务器)，如图4所示，其示出了本申请实施例所涉及的计算设备的结构示意图，具体来讲：

该计算设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的计算设备结构并不构成对计算设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算设备的控制中心，利用各种接口和线路连接整个计算设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算设备的各种功能和处理数据，从而对计算设备进行整体监控。在本申请一些实施例中，处理器401可包括一个或多个处理核心；处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算设备还包括给各个部件供电的电源403，在本申请一些实施例中，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件(机器可读指令)加载到存储器402中，并由处理器401来运行存储在存储器402中的机器可读指令(如用于实现前述的相似视频的检索方法的应用程序)，从而实现各种功能，如下：

获取需要检索相似视频的视频信息，该视频信息包括视频标签和视频标题，根据预设知识图谱从视频库中获取与该视频信息匹配的视频，得到第一候选视频集合，采用预设word2vec模型对该视频信息进行训练，以将视频信息转化为词向量，并根据词向量从该视频库中筛选与该视频信息相似的视频，得到第二候选视频集合，根据该第一候选视频集合和第二候选视频集合确定该视频信息的相似视频。

所述处理器401执行存储在存储器402中的机器可读指令可完成以下操作：

从该视频标签和视频标题中抽取实体词，得到种子，然后根据预设知识图谱从视频库中获取与该种子匹配的视频，得到第一候选视频集合；以及，对该视频标签和视频标题进行分词，得到分词后视频文本，采用预设的word2vec模型对该分词后视频文本进行训练，得到该分词后视频文本的词向量，然后，根据该分词后视频文本的词向量从该视频库中筛选与该视频信息相似的视频，得到第二候选视频集合。

其中，该word2vec模型可以由运维人员预先进行设置，也可以由该计算设备预先进行建立，即处理器401还可以运行存储在存储器402中的应用程序(即机器可读指令)，从而实现以下功能：

其中，该语料集中的内容可以根据实际应用的需求进行设置，比如，可以对一定期限内的UGC进行抽样，以及对网络信息，如各类百科语料进行抓取，来构建该语料集，等等。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的计算设备在获取需要检索相似视频的视频信息后，一方面可以根据预设知识图谱从视频库中获取与该视频信息匹配的视频，得到第一候选视频集合；另一方面，可以采用预设word2vec对该视频信息进行训练，以将视频信息转化为词向量，并根据词向量从视频库中筛选与该视频信息相似的视频，得到第二候选视频集合，然后，根据第一候选视频集合和第二候选视频集合确定该视频信息的相似视频，从而达到检索相似视频的目的。由于该方案采用了知识图谱和文本相似度相结合的方案来检索相似视频，因此，既可以利用知识图谱，来弥补因为语料更新频率和数量问题所导致的召回率低和计算资源消耗较大的问题，也可以利用相似度计算来增加请求视频(即需要进行检索的视频)的上下文信息，规约一词多义导致召回结果跑偏的问题，所以，采用该方案不仅可以提高召回率和检索结果的准确性，而且可以降低模型训练的频率，节省计算资源。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一非易失性计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条机器可读指令，该机器可读指令能够被处理器进行加载，以执行本申请实施例所提供的任一种相似视频的检索方法中的步骤。例如，该机器可读指令可以由处理器执行以完成以下操作：

获取需要检索相似视频的视频信息，该视频信息包括视频标签和视频标题，根据预设知识图谱从视频库中获取与该视频信息匹配的视频，得到第一候选视频集合，采用预设word2vec模型对该视频信息进行训练，以将视频信息转化为词向量，根据词向量从该视频库中筛选与该视频信息相似的视频，得到第二候选视频集合，根据该第一候选视频集合和第二候选视频集合确定该视频信息的相似视频。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种相似视频的检索方法中的步骤，因此，可以实现本申请实施例所提供的任一种相似视频的检索方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种相似视频的检索方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种相似视频的检索方法，应用于计算设备，包括：

获取需要检索相似视频的视频信息，其中，所述视频信息包括视频标签和视频标题；

根据预设的知识图谱从视频库中获取与所述视频信息匹配的视频，得到第一候选视频集合；

采用预设的文本深度表示模型对所述视频信息进行训练，以将所述视频信息转化为词向量；

根据所述词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合；

根据所述第一候选视频集合和第二候选视频集合确定所述视频信息的相似视频。
根据权利要求1所述的方法，所述根据预设的知识图谱从视频库中获取与所述视频信息匹配的视频，得到第一候选视频集合，包括：

从所述视频标签和视频标题中抽取实体词，得到种子；

根据预设的知识图谱从所述视频库中获取与所述种子匹配的视频，得到第一候选视频集合。
根据权利要求2所述的方法，所述根据预设的知识图谱从所述视频库中获取与所述种子匹配的视频，得到第一候选视频集合，包括：

根据预设的知识图谱确定与所述种子具有强关联关系的实体词，将所述实体词确定为候选词；

从所述视频库中获取视频信息中包含所述候选词的视频，得到第一候选视频集合。
根据权利要求3所述的方法，所述根据预设的知识图谱确定与所述种子具有强关联关系的实体词，将所述实体词确定为候选词，包括：

将所述种子映射到预设实体库中的实体词上，其中，所述实体库根据预设知识图谱建立而成；

确定所述种子与所述实体库中各个实体词的关系度；

选取关系度小于或等于设定值的实体词作为候选词。
根据权利要求4所述的方法，所述将所述种子映射到预设实体库中的实体词上之前，还包括：

设置基础词库；

根据所述基础词库获取互联网信息，并对所述互联网信息进行非实体词清洗；

根据所述基础词库以及清洗后的互联网信息构建实体词之间的三元组关系，得到所述实体库。
根据权利要求1至5任一项所述的方法，所述采用预设的文本深度表示模型对所述视频信息进行训练，以将所述视频信息转化为词向量，包括：

对所述视频标签和视频标题进行分词，得到分词后视频文本；

采用预设文本深度表示模型对所述分词后视频文本进行训练，得到所述分词后视频文本的词向量；

所述根据词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合，包括：

根据所述分词后视频文本的词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合。
根据权利要求6所述的方法，所述根据所述分词后视频文本的词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合，包括：

根据所述分词后视频文本的词向量，分别计算所述视频信息与所述视频库中各个视频的相似度；

选取相似度高于预设阈值的视频，得到第二候选视频集合。
根据权利要求6所述的方法，采用预设文本深度表示模型对所述分词后视频文本进行训练之前，还包括：

获取预设的语料集，并对所述语料集中的句子进行分词；

根据分词后的句子对预设的原始模型进行学习，得到所述文本深度表示模型。
根据权利要求1至5任一项所述的方法，所述根据所述第一候选视频集合和第二候选视频集合确定所述视频信息的相似视频，包括：

分别对所述第一候选视频集合中的视频进行评分，得到第一分数值；

分别对所述第二候选视频集合中的视频进行评分，得到第二分数值；

分别计算所述第一分数值和相应的第二分数值的加权值，得到各个视频的综合分数值；

将综合分数值大于预设分数值的视频确定为所述视频信息的相似视频。
一种相似视频的检索装置，包括：

处理器以及与所述处理器相连接的存储器，所述存储器中存储有可由所述处理器执行的机器可读指令，所述处理器执行所述机器可读指令完成以下操作：

获取需要检索相似视频的视频信息，其中，所述视频信息包括视频标签和视频标题；

根据预设的知识图谱从视频库中获取与所述视频信息匹配的视频，得到第一候选视频集合；

采用预设的文本深度表示模型对所述视频信息进行训练，以将所述视频信息转化为词向量；

根据所述词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合；

根据所述第一候选视频集合和第二候选视频集合确定所述视频信息的相似视频。
根据权利要求10所述的装置，所述处理器执行所述机器可读指令完成以下操作：

从所述视频标签和视频标题中抽取实体词，得到种子；

根据预设的知识图谱从所述视频库中获取与所述种子匹配的视频，得到第一候选视频集合。
根据权利要求11所述的装置，所述处理器执行所述机器可读指令完成以下操作：

根据预设的知识图谱确定与所述种子具有强关联关系的实体词，将所述实体词确定为候选词，从所述视频库中获取视频信息中包含所述候选词的视频，得到第一候选视频集合。
根据权利要求12所述的装置，所述处理器执行所述机器可读指令完成以下操作：

将所述种子映射到预设实体库中的实体词上，其中，所述实体库根据预设知识图谱建立而成，确定所述种子与所述实体库中各个实体词的关系度，选取关系度小于或等于设定值的实体词作为候选词。
根据权利要求10至13任一项所述的装置，所述处理器执行所述机器可读指令完成以下操作：

对所述视频标签和视频标题进行分词，得到分词后视频文本，采用预设文本深度表示模型对所述分词后视频文本进行训练，得到所述分词后视频文本的词向量；

根据所述分词后视频文本的词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合。
一种非易失性计算机可读存储介质，所述存储介质中存储有机器可读指令，所述机器可读指令可以由处理器执行以完成以下操作：

获取需要检索相似视频的视频信息，其中，所述视频信息包括视频标签和视频标题；

根据预设的知识图谱从视频库中获取与所述视频信息匹配的视频，得到第一候选视频集合；

采用预设的文本深度表示模型对所述视频信息进行训练，以将所述视频信息转化为词向量；

根据所述词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合；

根据所述第一候选视频集合和第二候选视频集合确定所述视频信息的相似视频。
根据权利要求15所述的非易失性计算机可读存储介质，所述根据预设的知识图谱从视频库中获取与所述视频信息匹配的视频，得到第一候选视频集合，包括：

从所述视频标签和视频标题中抽取实体词，得到种子；

根据预设的知识图谱从所述视频库中获取与所述种子匹配的视频，得到第一候选视频集合。
根据权利要求16所述的非易失性计算机可读存储介质，所述根据预设的知识图谱从所述视频库中获取与所述种子匹配的视频，得到第一候选视频集合，包括：

根据预设的知识图谱确定与所述种子具有强关联关系的实体词，将所述实体词确定为候选词；

从所述视频库中获取视频信息中包含所述候选词的视频，得到第一候选视频集合。
根据权利要求17所述的非易失性计算机可读存储介质，所述根据预设的知识图谱确定与所述种子具有强关联关系的实体词，将所述实体词确定为候选词，包括：

将所述种子映射到预设实体库中的实体词上，其中，所述实体库根据预设知识图谱建立而成；

确定所述种子与所述实体库中各个实体词的关系度；

选取关系度小于或等于设定值的实体词作为候选词。
根据权利要求18所述的非易失性计算机可读存储介质，所述将所述种子映射到预设实体库中的实体词上之前，还包括：

设置基础词库；

根据所述基础词库获取互联网信息，并对所述互联网信息进行非实体词清洗；

根据所述基础词库以及清洗后的互联网信息构建实体词之间的三元组关系，得到所述实体库。
根据权利要求15至19任一项所述的非易失性计算机可读存储介质，所述采用预设的文本深度表示模型对所述视频信息进行训练，以将所述视频信息转化为词向量，包括：

对所述视频标签和视频标题进行分词，得到分词后视频文本；

采用预设文本深度表示模型对所述分词后视频文本进行训练，得到所述分词后视频文本的词向量；

所述根据词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合，包括：

根据所述分词后视频文本的词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合。
根据权利要求20所述的非易失性计算机可读存储介质，所述根据所述分词后视频文本的词向量从所述视频库中筛选与所述视频信息相似的视频，得到第二候选视频集合，包括：

根据所述分词后视频文本的词向量，分别计算所述视频信息与所述视频库中各个视频的相似度；

选取相似度高于预设阈值的视频，得到第二候选视频集合。
根据权利要求20所述的非易失性计算机可读存储介质，采用预设文本深度表示模型对所述分词后视频文本进行训练之前，还包括：

获取预设的语料集，并对所述语料集中的句子进行分词；

根据分词后的句子对预设的原始模型进行学习，得到所述文本深度表示模型。
根据权利要求15至19任一项所述的非易失性计算机可读存储介质，所述根据所述第一候选视频集合和第二候选视频集合确定所述视频信息的相似视频，包括：

分别对所述第一候选视频集合中的视频进行评分，得到第一分数值；

分别对所述第二候选视频集合中的视频进行评分，得到第二分数值；

分别计算所述第一分数值和相应的第二分数值的加权值，得到各个视频的综合分数值；

将综合分数值大于预设分数值的视频确定为所述视频信息的相似视频。