WO2017096819A1

WO2017096819A1 - 一种同义词数据挖掘方法和系统

Info

Publication number: WO2017096819A1
Application number: PCT/CN2016/088681
Authority: WO
Inventors: 李建南
Original assignee: 乐视控股（北京）有限公司; 乐视网信息技术（北京）股份有限公司
Priority date: 2015-12-09
Filing date: 2016-07-05
Publication date: 2017-06-15
Also published as: US20170169012A1; CN105868236A

Abstract

一种同义词数据挖掘方法和系统，所述方法包括：获取在词典、视频文件库和搜索日志记录中的词汇对和相似度值，建立候选同义词库（101）；根据候选同义词库中的数据信息，训练并获得同义词模型（102）；将相似度值代入同义词模型，判断结果是否大于阈值，将该结果对应的词汇对存储在同义词库中或舍弃（103）。所述方法可以建立一个具有高准确性的同义词库，并且能够应用于检索应用中，从而使用户在检索应用中检索到更多的内容，提高检索质量。

Description

一种同义词数据挖掘方法和系统

本申请要求于2015年12月9日提交中国专利局、申请号为201510908015.2、发明名称为“一种同义词数据挖掘方法和系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及媒体传播技术领域，特别是指一种同义词数据挖掘方法和系统。

背景技术

随着网络技术的飞速发展，人们对于网络的需求体现在生活的每个角落，开始对社会产生深远的影响。而数据挖掘一般是从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程，数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现。

目前，将数据挖掘和网络技术进行结合，出现的网络检索应用中，可以通过输入关键字，并根据该关键字检索到相关的所有内容。但是，在现有技术中网络检索应用只能是具有同样关键字的内容检索出来，从而检索范围很小，无法满足用户的检索需求。另外，如果输入的关键字不准确则要检索的目标内容就可能不会被检索到，现有的网络检索应用使用起来需要大量的时间在确定关键字上，从而用户体验非常差。因此，现在的网络检索应用中急需一种同义词词典库，使其能够检索到更多的内容。

发明内容

有鉴于此，本发明实施例的目的在于提出一种同义词数据挖掘方法和系统，解决了在现有技术中网络检索应用只能是具有同样关键字的内容检索出来的问题。

基于上述目的本发明实施例提供的同义词数据挖掘方法，包括步骤：

获取在词典、视频文件库和搜索日志记录中词汇对，以及该词汇对的相似度值，建立词汇对与相似度值相关联的候选同义词库；

根据候选同义词库中的数据信息，训练并获得同义词模型；

将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值；将所述输出数值大于预设的阈值的词汇对存储在同义词库中。

在一些实施例中，所述在词典中词汇对以及该词汇对的相似度值，通过将词典中所有词汇进行编码，把词汇解释中出现的词汇作为预备同义词向量，然后按照树形结构进行排列，将该词汇作为父节点，而它的预备同义词向量作为子节点，再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度；

所述在视频文件库中词汇对以及该词汇对的相似度值，通过在一个预先设置的视频文件库中抽取视频的标题，在同一个标题中出现的词汇互相加入到对方的预备同义词向量中；对于词汇w1和与w1相对应的同义词w2，计算词汇与其相对应的每个预备同义词向量的相似度

其中，count(w1)为w1出现的标题数量，count(w2)为w2出现的标题数量，count(w1,w2)为w1、w2在相同的标题中同时出现的数量；

所述在搜索日志记录中，在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇，互为对方的预备同义词向量；对于词汇w1和与w1相对应的同义词w2，计算词汇与其相对应的每个预备同义词向量的相似度

其中，count(w1)为w1出现的查询数量，count(w2)为w2出现的查询数量，count(w1,w2)为w1、w2在相同的查询中同时出现的数量，same(w1,w2)为w1、w2在不同查询中但搜索了同一个结果的数量。

在一些实施例中，所述在建立词汇对与相似度值相关联的候选同义词库之前，还包括：将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值，并存储在候选同义词库中；

还有，所述的候选同义词库表示为(w1，w2，T1，T2，T3，T)，其中T1为词汇对w1、w2在词典中相似度值，T2为词汇对w1、w2在视频文件库中相似度值， T3为词汇对w1、w2在搜索日志记录中相似度值，T为词汇对w1、w2相似度平均值。

在一些实施例中，所述训练并获得同义词模型包括：从候选同义词库中提取第1条至第n条数据信息(w1，w2，T)作为输入，从候选同义词库中提取第n+1条至第2n条数据信息(w1，w2，T)作为输出，训练梯度提升决策树模型；

获得同义词梯度提升决策树模型：F(T)＝α₁β₁(T)+α₂β₂(T)+...+α_mβ_m(T)

其中，β₁-β_m是m棵决策树，α₁-α_m是每棵树的权重，T是每一对词汇相对应的三个向量的相似度值相加后的平均值。

在一些实施例中，所述将候选同义词库中每个词汇对对应的相似度值代入同义词模型是将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中，获得所述同义词梯度提升决策树模型的输出数值。

在另一方面，本发明实施例还提供了一种同义词数据挖掘系统，包括：

候选同义词库建立单元，用于获取在词典、视频文件库和搜索日志记录中词汇对，以及该词汇对的相似度值，建立词汇对与相似度值相关联的候选同义词库；

同义词模型建立单元，用于根据候选同义词库中的数据信息，训练并获得同义词模型；

同义词库建立单元，用于将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值；将所述输出数值大于预设的阈值的词汇对存储在同义词库中。

在一些实施例中，所述候选同义词库建立单元在词典中词汇对以及该词汇对的相似度值，通过将词典中所有词汇进行编码，把词汇解释中出现的词汇作为预备同义词向量，然后按照树形结构进行排列，将该词汇作为父节点，而它的预备同义词向量作为子节点，再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度；

在视频文件库中词汇对以及该词汇对的相似度值，通过在一个预先设置的视频文件库中抽取视频的标题，在同一个标题中出现的词汇互相加入到对方的预备同义词向量中；对于词汇w1和与w1相对应的同义词w2，计算词汇与其相对应的每个预备同义词向量的相似度

在搜索日志记录中，在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇，互为对方的预备同义词向量；对于词汇w1和与w1相对应的同义词w2，计算词汇与其相对应的每个预备同义词向量的相似度

在一些实施例中，所述候选同义词库建立单元还用于将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值，并存储在候选同义词库中；

还有，所述的候选同义词库表示为(w1，w2，T1，T2，T3，T)，其中T1为词汇对w1、w2在词典中相似度值，T2为词汇对w1、w2在视频文件库中相似度值，T3为词汇对w1、w2在搜索日志记录中相似度值，T为词汇对w1、w2相似度平均值。

在一些实施例中，所述同义词模型建立单元训练并获得同义词模型包括：从候选同义词库中提取第1条至第n条数据信息(w1，w2，T)作为输入，从候选同义词库中提取第n+1条至第2n条数据信息(w1，w2，T)作为输出，训练梯度提升决策树模型；

在一些实施例中，所述同义词库建立单元将候选同义词库中每个词汇对对应的相似度值代入同义词模型是将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中，获得所述同义词梯度提升决策树模型的输出数值。

再一方面，本申请实施例还提供了一种计算机存储介质，该计算机存储介质可存储有程序，该程序执行时可实现前述同义词数据挖掘方法各实现方式中的部分或全部步骤。

从上面所述可以看出，本发明实施例提供的同义词数据挖掘方法和系统，通过获取在词典、视频文件库和搜索日志记录中的词汇对，以及该词汇对的相似度值，建立词汇对与相似度值相关联的候选同义词库；根据候选同义词库中的数据信息，训练并获得同义词模型；将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值；将所述输出数值大于预设的阈值的词汇对存储在同义词库中。从而，可以建立一个具有很高准确性的同义词库，并且能够应用于检索应用中，用户在使用检索应用中可以检索到更多的内容，提高检索质量。

附图说明

图1为本发明第一实施例中同义词数据挖掘方法的流程示意图；

图2为本发明可参考实施例中同义词数据挖掘方法的流程示意图；

图3为本发明同义词数据挖掘系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

根据网络检索应用的使用现状，根据用户的检索需求，无法实现用户检索到更多的内容，导致对于每一个用户在网络检索应用上可以查找到的信息很少，只能是具有同样关键字的内容。为了解决这一问题，本发明从用户角度，体会到用户希望在网络检索应用上能够检索到更多的内容。因此，本发明的思路是在网络检索应用上，设置同义词的检索功能。

参阅图1所示，为本发明第一实施例中同义词数据挖掘方法流程示意图，所述同义词数据挖掘方法包括：

步骤101，获取在词典、视频文件库和搜索日志记录中的词汇对，以及该词汇对的相似度值，建立词汇对与相似度值相关联的候选同义词库。

较佳地，基于词典建立预备同义词库，在词典预备同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说，是通过将词典中所有词汇进行编码，把词汇解释中出现的词汇作为预备同义词向量。然后，按照树形结构进行排列，将该词汇作为父节点，而它的预备同义词向量作为子节点。再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度。

较佳地，基于视频文件建立预备同义词库，在视频文件预备同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说，是通过在一个预先设置的视频文件库中抽取视频的标题，在同一个标题中出现的词汇互相加入到对方的预备同义词向量中；对于词汇w1和与w1相对应的同义词w2，计算词汇与其相对应的每个预备同义词向量的相似度

其中，count(w1)为w1出现的标题数量，count(w2)为w2出现的标题数量，count(w1,w2)为w1、w2在相同的标题中同时出现的数量。

在另一个较佳地实施例中，基于搜索日志建立预备同义词库，在搜索日志预备同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说，在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇，互为对方的预备同义词向量；对于词汇w1和与w1相对应的同义词w2，计算词汇与其相对应的每个预备同义词向量的相似度

优选地，获取词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中共同具有预备同义词关系的所有词汇对。并且，提取每个词汇对分别在词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中对应的相似度值。然后，建立候选同义词库。

作为另一个实施例，将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值，并存储在候选同义词库中。因此，候选同义词库表示为(w1，w2，T1，T2，T3，T)，其中T1为词汇对w1、w2在词典中相似度值，T2为词汇对w1、w2在视频文件库中相似度值，T3为词汇对w1、w2在搜索日志记录中相似度值，T为词汇对w1、w2相似度平均值。

步骤102，根据候选同义词库中的数据信息，训练并获得同义词模型。

较佳地，从候选同义词库中提取第1条至第n条数据信息(w1，w2，T)作为输入，从候选同义词库中提取第n+1条至第2n条数据信息(w1，w2，T)作为输出，训练梯度提升决策树模型。然后便获得同义词梯度提升决策树模型：F(T)＝α₁β₁(T)+α₂β₂(T)+...+α_mβ_m(T)

步骤103，将候选同义词库中每个词汇对应的相似度值代入同义词模型，判断获得的输出数值是否大于预设的阈值；若大于，则将该输出数值果对应的词汇对从候选同义词库中提取，存储在同义词库中；若小于，则舍弃该结果对应的词汇对。

优选地，将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中，获得所述同义词梯度提升决策树模型的输出结果。

需要说明的是，最后形成的同义词库可以在检索应用中进行使用。在使用时，可以通过获取用户输入的关键词，在同义词库中查找到该关键词相对应的同义词，然后可以搜索到与该关键词以及该关键词的同义词相关的信息。值得说明的是，在同义词库应用于各种搜索应用，用户输入关键词进行搜索时可以选择是否将该关键词的同义词也进行搜索，若选择是，则可以搜索到与该关键词以及该关键词的同义词相关的信息。若选择否，则只搜索该关键词相关的信息。因此，可以看出本发明不仅可以建立一个准确性很高的同义词库，同时还能够提供在检索应用中，更为重要的是可以提供给用户自行设置是否进行同义词检索的功能。

作为一个可参考的实施例，参阅图2所示，所述同义词数据挖掘方法具体可采用如下步骤：

步骤201，基于词典、视频文件库和搜索日志记录，分别建立相应的预备同义词库。

作为实施例，基于词典建立预备同义词库时，将所有词汇进行编码，可以把每个词汇的解释中出现的词汇作为预备同义词向量，然后按照树形结构进行排列。即将该词汇作为父节点，而它的预备同义词向量作为子节点。最后，利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度。

而基于视频文件建立预备同义词库时，是在一个预先设置的视频文件库中抽取视频的标题，在同一个标题中出现的词汇互相加入到对方的预备同义词向量中。较佳地，在计算每个词汇与其相对应的每个预备同义词向量的相似度时，是通过如下方法：对于词汇w1和与w1相对应的同义词w2，统计w1在多少个标题中出现，记为count(w1)，同样统计w2在多少个标题中出现记为count(w2)，然后w1、w2在相同的标题中同时出现的数量记为count(w1,w2),计算w1、w2的相似度：

而基于搜索日志建立预备同义词库时，是基于用户搜索日志，对两个词汇w1、w2，统计w1在多少个查询query中出现，记为count(w1),同样统计w2在多少个query中出现记为count(w2)。w1、w2在相同的query中同时出现的数量记为count(w1,w2)，即w1、w2互为对方的预备同义词向量。另外，w1、w2出现在不同query中，但是搜索了同一个结果，记为same(w1,w2)。计算w1、w2的相似度：

步骤202，获取词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中共同具有预备同义词关系的所有词汇对。

步骤203，提取每个词汇对分别在词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中对应的相似度值。

步骤204，将候选同义词库中的每一对词汇相对应的三个向量的相似度值相加求平均值T。

步骤205，建立候选同义词库。

在实施例中，在候选同义词库中存储有一对一对的词汇，并且在每对词汇上存储有该词汇对在词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中对应的相似度值，即三个向量的相似度。具体的实施方式中，候选同义词库表示为(w1，w2，T1，T2，T3)，其中w1和w2为具有预备同义词关系的词汇，T1为词典预备同义词库向量的相似度，T2为视频文件预备同义词库向量的相似度，T3为搜索日志预备同义词库向量的相似度。

步骤206，从候选同义词库中提取第1条至第n条数据信息(w1，w2，T)作为输入，从候选同义词库中提取第n+1条至第2n条数据信息(w1，w2，T)作为输出，训练梯度提升决策树(GBDT)模型。

步骤207，获得同义词梯度提升决策树(GBDT)模型：

F(T)＝α₁β₁(T)+α₂β₂(T)+...+α_mβ_m(T)

步骤208，将候选同义词库中每对词汇对应的三个向量的相似度值相加后的平均值代入到同义词GBDT模型中，获得输出的数值。

步骤209，判断该输出数值是否大于预设的阈值，若大于则进行步骤210，若小于则进行步骤211。

步骤210，将该输出数值对应的词汇对从候选同义词库中提取，存储在同义词库中。

步骤211，舍弃该结果对应的词汇对。

在本发明实施例的另一方面，还提供了一种同义词数据挖掘系统，如图3所示，所述的同义词数据挖掘系统包括依次连接的候选同义词库建立单元301、同义词模型建立单元302、同义词库建立单元303。其中，候选同义词库建立单元301用于获取在词典、视频文件库和搜索日志记录中的词汇对，以及该词汇对的相似度值，建立词汇对与相似度值相关联的候选同义词库。同义词模型建立单元 302用于根据候选同义词库中的数据信息，训练并获得同义词模型。同义词库建立单元303用于将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值；将所述输出数值大于预设的阈值的词汇对存储在同义词库中。

可选地，所述候选同义词库建立单元301基于词典建立预备同义词库，在词典预备同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说，是通过将词典中所有词汇进行编码，把词汇解释中出现的词汇作为预备同义词向量。然后，按照树形结构进行排列，将该词汇作为父节点，而它的预备同义词向量作为子节点。再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度。

基于视频文件建立预备同义词库，在视频文件预备同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说，是通过在一个预先设置的视频文件库中抽取视频的标题，在同一个标题中出现的词汇互相加入到对方的预备同义词向量中；对于词汇w1和与w1相对应的同义词w2，计算词汇与其相对应的每个预备同义词向量的相似度

基于搜索日志建立预备同义词库，在搜索日志预备同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说，在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇，互为对方的预备同义词向量；对于词汇w1和与w1相对应的同义词w2，计算词汇与其相对应的每个预备同义词向量的相似度

可选地，候选同义词库建立单元301获取词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中共同具有预备同义词关系的所有词汇对。并且，提取每个词汇对分别在词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中对应的相似度值。然后建立候选同义词库。

另外，候选同义词库建立单元301将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值，并存储在候选同义词库中。因此，候选同义词库表示为(w1，w2，T1，T2，T3，T)，其中T1为词汇对w1、w2在词典中相似度值，T2为词汇对w1、w2在视频文件库中相似度值，T3为词汇对w1、w2在搜索日志记录中相似度值，T为词汇对w1、w2相似度平均值。

作为另一个实施例，同义词模型建立单元302从候选同义词库中提取第1条至第n条数据信息(w1，w2，T)作为输入，从候选同义词库中提取第n+1条至第2n条数据信息(w1，w2，T)作为输出，训练梯度提升决策树模型。然后便获得同义词梯度提升决策树模型：F(T)＝α₁β₁(T)+α₂β₂(T)+...+α_mβ_m(T)

可选地，同义词库建立单元303将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中，获得所述同义词梯度提升决策树模型的输出结果。

需要说明的是，在本发明所述的同义词数据挖掘系统的具体实施内容，在上面所述的同义词数据挖掘方法中已经详细说明了，故在此重复内容不再说明。

综上所述，本发明实施例提供的同义词数据挖掘方法、系统，创造性地提供了一种同义词库的建立方法和系统；而且，该同义词库中的同义词都是经过多层筛选、计算获得的高精确的同义词汇对；并且，该同义词库可以应用于搜索应用中，不仅满足了用户需要检索到更多内容的要求，还能够满足用户自定义检索内容(是否包括同义词的检索结果)；因此本发明具有广泛、重大的推广意义；最后，整个所述的同义词数据挖掘方法和系统紧凑，易于限制。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质可存储有程序，该程序执行时可实现前述同义词数据挖掘方法各实现方式中的部分或全部步骤。

所属领域的普通技术人员应当理解：以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种同义词数据挖掘方法，其特征在于，包括步骤：

获取词典、视频文件库和搜索日志记录中的词汇对，以及所述词汇对的相似度值，建立所述词汇对与相似度值相关联的候选同义词库；

根据所述候选同义词库中的数据信息，训练并获得同义词模型；

将所述候选同义词库中每个词汇对应的相似度值代入所述同义词模型得到输出数值；

将所述输出数值大于预设的阈值的词汇对存储在同义词库中。
根据权利要求1所述的方法，其特征在于，所述获取词典中的词汇对以及所述词汇对的相似度值包括：

将词典中所有词汇进行编码，把每个词汇的词汇解释中出现的词汇作为预备同义词向量，按照树形结构进行排列，将所述每个词汇作为父节点，而它的预备同义词向量作为子节点，再利用向量的余弦相似度算法计算所述每个词汇与相对应的每个预备同义词向量的相似度；

所述获取视频文件库中词汇对以及所述词汇对的相似度值包括：在一个预先设置的视频文件库中抽取视频的标题，在同一个标题中出现的词汇互相加入到对方的预备同义词向量中；对于词汇w1和与w1相对应的同义词w2，计算词汇与其相对应的每个预备同义词向量的相似度
其中，count(w1)为w1出现的标题数量，count(w2)为w2出现的标题数量，count(w1,w2)为w1、w2在相同的标题中同时出现的数量；

所述获取搜索日志记录中词汇对以及所述词汇对的相似度值包括，在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇，互为对方的预备同义词向量；对于词汇w1和与w1相对应的同义词w2，计算词汇与其相对应的每个预备同义词向量的相似度
其中，count(w1)为w1出现的查询数量，count(w2)为w2出现的查询数量，count(w1,w2)为w1、w2在相同的查询中同时出现的数量，same(w1,w2)为w1、w2在不同查询中但搜索了同一个结果的数量。
根据权利要求2所述的方法，其特征在于，在所述建立所述词汇对与相似度值相关联的候选同义词库之前，还包括：

将所述每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值，并存储在候选同义词库中；

所述的候选同义词库表示为(w1，w2，T1，T2，T3，T)，其中T1为词汇对w1、w2在词典中相似度值，T2为词汇对w1、w2在视频文件库中相似度值，T3为词汇对w1、w2在搜索日志记录中相似度值，T为词汇对w1、w2相似度平均值。
根据权利要求3所述的方法，其特征在于，所述训练并获得同义词模型包括：从候选同义词库中提取第1条至第n条数据信息(w1，w2，T)作为输入，从候选同义词库中提取第n+1条至第2n条数据信息(w1，w2，T)作为输出，训练梯度提升决策树模型；

获得同义词梯度提升决策树模型：F(T)＝α₁β₁(T)+α₂β₂(T)+...+α_mβ_m(T)

其中，β₁-β_m是m棵决策树，α₁-α_m是每棵树的权重，T是每一对词汇相对应的三个向量的相似度值相加后的平均值。
根据权利要求4所述的方法，其特征在于，所述将所述候选同义词库中所述每个词汇对对应的相似度值代入所述同义词模型包括：将所述候选同义词库中所述每个词汇对对应的相似度平均值代入到所述同义词梯度提升决策树模型中，获得所述同义词梯度提升决策树模型的输出数值。
一种同义词数据挖掘系统，其特征在于，包括：

候选同义词库建立单元，用于获取词典、视频文件库和搜索日志记录中的词汇对，以及所述词汇对的相似度值，建立所述词汇对与相似度值相关联的候选同义词库；

同义词模型建立单元，用于根据所述候选同义词库中的数据信息，训练并获得同义词模型；

同义词库建立单元，用于将所述候选同义词库中每个词汇对应的相似度值代入所述同义词模型得到输出数值；将所述输出数值大于预设的阈值的词汇对存储在同义词库中。
根据权利要求6所述的系统，其特征在于，

所述候选同义词库建立单元，还用于将词典中所有词汇进行编码，把每个词汇的词汇解释中出现的词汇作为预备同义词向量，按照树形结构进行排列，将所述每个词汇作为父节点，而它的预备同义词向量作为子节点，再利用向量的余弦相似度算法计算所述每个词汇与相对应的每个预备同义词向量的相似度；

同义词模型建立单元，还用于在一个预先设置的视频文件库中抽取视频的标题，在同一个标题中出现的词汇互相加入到对方的预备同义词向量中；对于词汇w1和与w1相对应的同义词w2，计算词汇与其相对应的每个预备同义词向量的相似度
其中，count(w1)为w1出现的标题数量，count(w2)为w2出现的标题数量，count(w1,w2)为w1、w2在相同的标题中同时出现的数量；

同义词库建立单元，还用于在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇，互为对方的预备同义词向量；对于词汇w1和与w1相对应的同义词w2，计算词汇与其相对应的每个预备同义词向量的相似度
其中，count(w1)为w1出现的查询数量，count(w2)为w2出现的查询数量，count(w1,w2)为w1、w2在相同的查询中同时出现的数量，same(w1,w2)为w1、w2在不同查询中但搜索了同一个结果的数量。
根据权利要求7所述的系统，其特征在于，

所述候选同义词库建立单元还用于，将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值，并存储在候选同义词库中；

所述的候选同义词库表示为(w1，w2，T1，T2，T3，T)，其中T1为词汇对w1、w2在词典中相似度值，T2为词汇对w1、w2在视频文件库中相似度值， T3为词汇对w1、w2在搜索日志记录中相似度值，T为词汇对w1、w2相似度平均值。
根据权利要求8所述的系统，其特征在于，

所述同义词模型建立单元，还用于从候选同义词库中提取第1条至第n条数据信息(w1，w2，T)作为输入，从候选同义词库中提取第n+1条至第2n条数据信息(w1，w2，T)作为输出，训练梯度提升决策树模型；

获得同义词梯度提升决策树模型：F(T)＝α₁β₁(T)+α₂β₂(T)+...+α_mβ_m(T)

其中，β₁-β_m是m棵决策树，α₁-α_m是每棵树的权重，T是每一对词汇相对应的三个向量的相似度值相加后的平均值。
根据权利要求9所述的系统，其特征在于，

所述同义词库建立单元，还用于将所述候选同义词库中所述每个词汇对对应的相似度值代入所述同义词模型是将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中，获得所述同义词梯度提升决策树模型的输出数值。