WO2021042526A1

WO2021042526A1 - 基于相似度值的搜索方法、装置、计算机设备和存储介质

Info

Publication number: WO2021042526A1
Application number: PCT/CN2019/117213
Authority: WO
Inventors: 刘伟
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-06
Filing date: 2019-11-11
Publication date: 2021-03-11
Also published as: CN110737751B; CN110737751A

Abstract

一种基于相似度值的搜索方法、装置、计算机设备和存储介质，该方法包括：获取数据条，根据预设的预处理方法对数据条进行预处理，得到数据条单词序列（S1）；调取预存的指定标准句子，根据预设的相似度算法，计算数据条单词序列与指定标准句子的相似度值（S2）；将数据条存入预设的数据库中，并在数据库中新增相似字段，其中数据条的相似字段记录相似度值（S3）；获取用户输入的搜索句子，并对搜索句子进行预处理，得到搜索单词序列（S4）；根据预设的相似度算法，计算搜索单词序列与指定标准句子的搜索用相似度值（S5）；生成命中范围[搜索用相似度值-a,搜索用相似度值+a]，并从数据库中调取相似度值处于命中范围中的数据条，并记为目标数据条，其中a为预设的范围参数，a为大于0的正数（S6）；根据预设的排序规则，对目标数据条进行排序得到数据条序列，并输出数据条序列（S7）。从而在仅需要少量计算机资源的前提下实现搜索。

Description

基于相似度值的搜索方法、装置、计算机设备和存储介质

本申请要求于2019年9月6日提交中国专利局、申请号为201910844343.9，发明名称为“基于相似度值的搜索方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及到计算机领域，特别是涉及到一种基于相似度值的搜索方法、装置、计算机设备和存储介质。

背景技术

搜索是利用计算机的高性能来有目的的穷举一个问题解空间的部分或所有的可能情况，从而求出问题的解的一种方法。传统的搜索是通过对输入进行分词，分词后的关键字再进行词条匹配达到搜索的目的。这种搜索方法虽然简单，但必须以正确且大量的词条为基础；如果搜索的目标具有多维属性，那么词条就是爆炸性的增长，后期维护成本大且容易出错。例如，搜索目标有M个属性，每个属性有N种可能，那么词条总数量就需要高达到N的M次方。因此现有技术的搜索方法需要的词条数量太多，需要过多的计算机资源。

技术问题

本申请的主要目的为提供一种基于相似度值的搜索方法、装置、计算机设备和存储介质，旨在仅需要少量计算机资源的前提下实现准确搜索。

技术解决方案

为了实现上述发明目的，本申请提出一种基于相似度值的搜索方法，包括以下步骤：

获取数据条，并根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列；

调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值；

将所述数据条存入预设的数据库中，并在所述数据库中新增相似字段，其中所述数据条的所述相似字段记录所述相似度值；

获取用户输入的搜索句子，并对所述搜索句子进行预处理，得到搜索单词序列；

根据预设的相似度算法，计算所述搜索单词序列与所述指定标准句子的搜索用相似度值；

生成命中范围[搜索用相似度值-a,搜索用相似度值+a]，并从所述数据库中调取相似度值处于所述命中范围中的数据条，并记为目标数据条，其中a为预设的范围参数，a为大于0的正数；

根据预设的排序规则，对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列。

有益效果

本申请的基于相似度值的搜索方法、装置、计算机设备和存储介质，获取数据条，对所述数据条进行预处理，得到数据条单词序列；调取预存的指定标准句子，计算所述数据条单词序列与所述指定标准句子的相似度值；将所述数据条存入预设的数据库中，并在所述数据库中新增相似字段；获取用户输入的搜索句子，并对所述搜索句子进行预处理，得到搜索单词序列；计算所述搜索单词序列与所述指定标准句子的搜索用相似度值；生成命中范围[搜索用相似度值-A,搜索用相似度值+A]，并从所述数据库中调取相似度值处于所述命中范围中的数据条，并记为目标数据条；对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列，从而在仅需要少量计算机资源的前提下实现搜索。

附图说明

图1为本申请一实施例的基于相似度值的搜索方法的流程示意图；

图2为本申请一实施例的基于相似度值的搜索装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本申请的最佳实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于相似度值的搜索方法，包括以下步骤：

S1、获取数据条，并根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列；

S2、调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值；

S3、将所述数据条存入预设的数据库中，并在所述数据库中新增相似字段，其中所述数据条的所述相似字段记录所述相似度值；

S4、获取用户输入的搜索句子，并对所述搜索句子进行预处理，得到搜索单词序列；

S5、根据预设的相似度算法，计算所述搜索单词序列与所述指定标准句子的搜索用相似度值；

S6、生成命中范围[搜索用相似度值-a,搜索用相似度值+a]，并从所述数据库中调取相似度值处于所述命中范围中的数据条，并记为目标数据条，其中a为预设的范围参数，a为大于0的正数；

S7、根据预设的排序规则，对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列。

本申请采用相似度值作为搜索匹配的依据，相对于相有的技术方案，仅需要一个字段记录相似度值，若相似度值的数量有N个，那么仅需要N个词条(即一个字段值构成)即可，从而仅需要少量计算机资源即可实现搜索的目的。

如上述步骤S1所述，获取数据条，并根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列。其中所述数据条是指包含信息的句子，例如为北京在A日的猪肉价格为B元；上海在A日的金融产品C的成交数量为D等等。其中预处理例如为：对所述数据条进行分词处理，从而得到由多个单词组成的初始单词序列；通过查询预设的无意义单词库，判断所述初始单词序列中是否存在无意义单词；若所述初始单词序列中存在无意义单词，则将所述初始单词序列中的无意义单词去除，从而获得中间单词序列；通过查询预设的同义词库，判断所述中间单词序列中是否存在同义词组；若所述中间单词序列中存在同义词组，则将所述同义词组中所有单词替换为所述同义词组中的任意一个，从而得到数据条单词序列。例如将北京在A日的猪肉价格为B元进行预处理得到：|北京|A日|猪肉价格|，其中”在”、“的”、“为”被视为无意义单词被去除。

如上述步骤S2所述，调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值。本申请采用指定标准句子作为参照标准，以获得相似度值，所述用于后续判断搜索是否命中的标准。其中预设的相似度算法可以为任意算法，用于计算句子与句子间的相似度即可，例如为：调取预存的指定标准句子；查询预设的词向量库以获取所述指定标准句子中各个单词对应的词向量，从而获得所述指定标准句子对应的标准词向量序列；查询预设的词向量库以获取所述数据条单词序列中各个单词对应的词向量，从而获得所述数据条单词序列对应的数据条词向量序列；采用预设的距离计算公式，计算所述标准词向量序列与所述数据条词向量序列之间的距离值，并将所述距离值记为所述相似度值。其中词向量库可以通过word2vec工具训练得到，word2vec是用于训练词向量的工具，包括CBOW(Continuous Bag of Words，连续词袋模型)和Skip-Gram两种模型。CBOW是从原始语句推测目标字词；而Skip-Gram是从目标字词推测出原始语句。

如上述步骤S3所述，将所述数据条存入预设的数据库中，并在所述数据库中新增相似字段，其中所述数据条的所述相似字段记录所述相似度值。从而完成了往数据库中存储数据条，并且由于所述数据条的相似字段记录了所述相似度值，因此可以基于所述相似度值搜索找到该数据条。

如上述步骤S4所述，获取用户输入的搜索句子，并对所述搜索句子进行预处理，得到搜索单词序列。其中预处理的方法可以与前述对所述数据条进行预处理的方法相同，也可以不相同，但对所述搜索句子进行预处理的方法至少包括了对所述搜索句子进行分词，从而得到搜索单词序列。并且为了满足数据处理的一致性，从而达到提高搜索准确度的目的，本申请优选采用前述对所述数据条进行预处理的方法对所述搜索句子进行预处理。其中搜索句子例如为：北京的猪肉价格；上海的金融产品C的成交量等等。

如上述步骤S5所述，根据预设的相似度算法，计算所述搜索单词序列与所述指定标准句子的搜索用相似度值。其中所述预设的相似度算法可以与前述计算所述数据条单词序列与所述指定标准句子的相似度值的方法相同，也可以不同，本申请优选与前述计算所述数据条单词序列与所述指定标准句子的相似度值的方法相同。其中计算得到的搜索用相似度值反应了所述搜索句子与所述指定标准句子的匹配程度，将在后续中作为确定搜索命中目标的依据。

如上述步骤S6所述，生成命中范围[搜索用相似度值-a,搜索用相似度值+a]，并从所述数据库中调取相似度值处于所述命中范围中的数据条，并记为目标数据条，其中a为预设的范围参数，a为大于0的正数。本申请采用生成命中范围[搜索用相似度值-a,搜索用相似度值+a]的方式，减少了本申请的搜索方法的漏检率。若仅以搜索用相似度值和所述数据库中调取相似度值相同的方式，确定搜索命中目标，则有些相近的数据条会被漏检，从而造成搜索效果不佳。而采用了生成命中范围[搜索用相似度值-a,搜索用相似度值+a]的方式，使得命中范围扩大，达到避免漏检的效果。

如上述步骤S7所述，根据预设的排序规则，对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列。预设的排序规则可以为任意的排序规则，例如为根据所述搜索用相似度值与所述相似字段记录的相似度值的差值的绝对值进行升序或者降序排列，从而得到数据条序列。更进一步地，预设的排序规则例如为：获取所述用户的搜索记录，其中所述搜索记录中记载了搜索关键词；根据所述目标数据条是否具有所述搜索关键词，将所述目标数据条分类为第一数据条和第二数据条，其中所述第一数据条具有所述搜索关键词；计算得到所述搜索用相似度值与所述目标数据条的相似字段记录的相似度值的差值的绝对值；将所述第一数据条和所述第二数据条分别根据所述绝对值大小进行降序或者升序排列，从而得到第一数据条序列和第二数据条序列；以优先展示所述第一数据条序列的方式组合所述第一数据条序列和第二数据条序列，从而得到数据条序列，并输出所述数据条序列。据此，实现了仅依靠少量资源的前提下实现了搜索目的。

在一个实施方式中，所述根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列的步骤S1,包括：

S101、对所述数据条进行分词处理，从而得到由多个单词组成的初始单词序列；

S102、通过查询预设的无意义单词库，判断所述初始单词序列中是否存在无意义单词；

S103、若所述初始单词序列中存在无意义单词，则将所述初始单词序列中的无意义单词去除，从而获得中间单词序列；

S104、通过查询预设的同义词库，判断所述中间单词序列中是否存在同义词组；

S105、若所述中间单词序列中存在同义词组，则将所述同义词组中所有单词替换为所述同义词组中的任意一个，从而得到数据条单词序列。

如上所述，实现了根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列。其中分词可使用开源的分词工具，例如jieba、THULAC、NLPIR等。例如将北京在A日的猪肉价格为B元，划分为：|北京|在|A日|的|猪肉价格|为|B元|。更进一步的预处理包括：无意义单词去除和同义词替换，从而完成预处理，以得到数据条单词序列。具体地，通过查询预设的无意义单词库，判断所述初始单词序列中是否存在无意义单词；若所述初始单词序列中存在无意义单词，则将所述初始单词序列中的无意义单词去除，从而获得中间单词序列的方式，实现无意义单词去除的步骤。以前述例子为例，其中的在、的、为即为无意义词汇，将其去除。具体地，通过查询预设的同义词库，判断所述中间单词序列中是否存在同义词组；若所述中间单词序列中存在同义词组，则将所述同义词组中所有单词替换为所述同义词组中的任意一个，从而得到数据条单词序列，实现同义词替换。其中，同义词库中包括多个同义词条，若在所述单词序列中有两个以上单词出现在同一个同义词条中，表明所述两个以上单词构成了同义词组。一般而言，同义词的替换并不会导致单句的原义发生改变，因此采用同义词替换的方式以减少计算量与数据存储量。例如北京与首都可构成一个同义词组。

在一个实施方式中，所述数据条存在多个，所述数据条单词序列存在多个，所述调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值的步骤S2之前，包括：

S11、统计多个数据条单词序列中各个单词的出现次数，获取出现次数最多的单词，并记为指定单词；

S12、判断所述指定单词的出现次数是否大于预设的次数阈值；

S13、若所述指定单词的出现次数大于预设的次数阈值，则根据预设的单词与标准句子的对应关系，获取与所述指定单词对应的指定标准句子。

如上所述，实现了获取与所述指定单词对应的指定标准句子。本申请是采用指定标准句子作为相似度值的参照标准，因此指定标准句子的选取尤为重要，关系到搜索结果的准确性。因此本申请采用统计多条数据条单词序列中各个单词的出现次数，获取出现次数最多的单词，并记为指定单词；若所述指定单词的出现次数大于预设的次数阈值，则根据预设的单词与标准句子的对应关系，获取与所述指定单词对应的指定标准句子的方式，采用使指定标准句子与待存入的数据条的相关性达到最大的原则，从而获得指定标准句子。若所述指定单词的出现次数大于预设的次数阈值，表明该指定单词是多条数据条的代表特征，依据该指定单词找出的指定标准句子更为恰当。其中所述指定标准句子例如为包括指定单词的句子。进一步地，所述统计多条数据条单词序列中各个单词的出现次数，获取出现次数最多的单词，并记为指定单词还可替换为：统计多条数据条单词序列中各个单词的出现次数，获取出现次数超过预设数量值的单词，并记为指定单词；从而使用多个指定单词对标准句子的对应关系，得到指定标准句子，从而进一步提高搜索准确性。

在一个实施方式中，所述调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值的步骤S2,包括：

S201、调取预存的指定标准句子；

S202、查询预设的词向量库以获取所述指定标准句子中各个单词对应的词向量，从而获得所述指定标准句子对应的标准词向量序列；

S203、查询预设的词向量库以获取所述数据条单词序列中各个单词对应的词向量，从而获得所述数据条单词序列对应的数据条词向量序列；

S204、采用预设的距离计算公式，计算所述标准词向量序列与所述数据条词向量序列之间的距离值，并将所述距离值记为所述相似度值。

其中预设的词向量库是指存储有单词与向量映射关系的数据库，用于单词映射为向量，从而实现了将计算机无法识别的自然语言转变为数字。词向量库可以用任意方式获得，例如直接采用已训练好的词向量库，或者使用word2vec工具对预先准备的词料进行训练词得到，word2vec包括CBOW(Continuous Bag of Words，连续词袋模型)模型。CBOW是从原始语句推测目标字词，本申请优选采用CBOW模型进行词向量训练。从而，查询预设的词向量库以使单词映射为词向量，进而获得所述指定标准句子对应的标准词向量序列；获得所述数据条单词序列对应的数据条词向量序列；再采用预设的距离计算公式，计算所述标准词向量序列与所述数据条词向量序列之间的距离值，并将所述距离值记为所述相似度值。其中本申请的距离计算公式是用于计算两个词向量序列之间的距离(相似度)，可以采用任意可行的距离算法，例如基于欧式距离的算法，或者基于余弦相似度的算法。

在一个实施方式中，所述采用预设的距离计算公式，计算所述标准词向量序列与所述数据条词向量序列之间的距离值，并将所述距离值记为所述相似度值的步骤S204,包括：

S2041、采用公式：

，满足

计算所述标准词向量序列与所述数据条词向量序列之间的距离值，并将所述距离值记为所述相似度值；其中Distance(I,R)为标准词向量序列I与数据条词向量序列R的距离；I为所述标准词向量序列；R为所述数据条词向量序列；Tij为标准词向量序列I中第i个单词至数据条词向量序列R中的第j个单词的权重转移量；di为第i个词在标准词向量序列I中的词频；d’ _j为第j个词在数据条词向量序列R中的词频；c(i,j)为标准词向量序列I中的第i个词与数据条词向量序列R中第j个词的欧氏距离；m为标准词向量序列I中具有词向量的单词数量；n为数据条词向量序列R中具有词向量的单词数量。

如上所述，实现了计算所述标准词向量序列与所述数据条词向量序列之间的距离值。其中，上述公式利用了词向量的欧氏距离。所述欧氏距离的计算公式为：

其中d(x,y)为词向量x＝(x1,x2,x3…,xn)与词向量y＝(y1,y2,y3…,yn)间的欧氏距离，n为词向量的维度。将欧氏距离计算公式代入所述计算所述标准词向量序列与所述数据条词向量序列之间的距离值的公式中，即可算出所述标准词向量序列与所述数据条词向量序列之间的距离值。

在一个实施方式中，所述生成命中范围[搜索用相似度值-a,搜索用相似度值+a]，并从所述数据库中调取相似度值处于所述命中范围中的数据条，并记为目标数据条，其中a为预设的范围参数，a为大于0的正数的步骤S6之前，包括：

S51、判断所述数据库中是否存在相似度值等于所述搜索用相似度值的数据条；

S52、若所述数据库中不存在相似度值等于所述搜索用相似度值的数据条，则根据预设的标准句子与范围参数的对应关系，获取与所述指定标准句子对应的范围参数a；

S53、生成命中范围生成指令，其中所述命中范围生成指令用于指示根据所述范围参数a和所述搜索用相似度值生成命中范围。

如上所述，实现了获取与所述指定标准句子对应的范围参数a。本申请采用生成命中范围[搜索用相似度值-a,搜索用相似度值+a]能够实现搜索范围的扩大(模糊检索)，避免漏检。但是若用户已获知准确的相调取的数据条，并且用户输入的搜索句子与数据条完全相同，那么先采用精准搜索的方式能够提高搜索效率并提高用户体验。因此本申请在生成命中范围[搜索用相似度值-a,搜索用相似度值+a]之前，先采用判断所述数据库中是否存在相似度值等于所述搜索用相似度值的数据条的方式，进行精准检索，若精准检索未命中，即若所述数据库中不存在相似度值等于所述搜索用相似度值的数据条，则根据预设的标准句子与范围参数的对应关系，获取与所述指定标准句子对应的范围参数a，从而再次进行模糊检索。据此，实现了先精准检索再模糊检索，且精准检索消耗的计算机资源并不多，从而在较少的计算机资源的前提下提高了检索效率。

在一个实施方式中，所述根据预设的排序规则，对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列的步骤S7，包括：

S701、获取所述用户的搜索记录，其中所述搜索记录中记载了搜索关键词；

S702、根据所述目标数据条是否具有所述搜索关键词，将所述目标数据条分类为第一数据条和第二数据条，其中所述第一数据条具有所述搜索关键词；

S703、计算得到所述搜索用相似度值与所述目标数据条的相似字段记录的相似度值的差值的绝对值；

S704、将所述第一数据条和所述第二数据条分别根据所述绝对值大小进行降序或者升序排列，从而得到第一数据条序列和第二数据条序列；

S705、以优先展示所述第一数据条序列的方式组合所述第一数据条序列和第二数据条序列，从而得到数据条序列，并输出所述数据条序列。

如上所述，实现了对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列。对于搜索结果的排序问题很重要，应该将最符合用户需求的数据条优先展示给用户。本申请先获取所述用户的搜索记录，其中所述搜索记录中记载了搜索关键词；将所述目标数据条分类为第一数据条和第二数据条，其中所述第一数据条具有所述搜索关键词，从而第一数据条应优先展现，因为第一数据条更符合用户的搜索习惯，即更符合用户的需求。再计算得到所述搜索用相似度值与所述目标数据条的相似字段记录的相似度值的差值的绝对值；将所述第一数据条和所述第二数据条分别根据所述绝对值大小进行降序或者升序排列，从而得到第一数据条序列和第二数据条序列。由于“所述搜索用相似度值与所述目标数据条的相似字段记录的相似度值的差值的绝对值”反应了搜索句子与目标数据条的匹配程度，据此进行排序。再以优先展示所述第一数据条序列的方式组合所述第一数据条序列和第二数据条序列，从而得到数据条序列，并输出所述数据条序列。从而实现了以是否具有搜索关键词为第一优先原则，再以所述绝对值大小为第二优选原则进行排序，从而得到数据条序列。

本申请的基于相似度值的搜索方法，获取数据条，对所述数据条进行预处理，得到数据条单词序列；调取预存的指定标准句子，计算所述数据条单词序列与所述指定标准句子的相似度值；将所述数据条存入预设的数据库中，并在所述数据库中新增相似字段；获取用户输入的搜索句子，并对所述搜索句子进行预处理，得到搜索单词序列；计算所述搜索单词序列与所述指定标准句子的搜索用相似度值；生成命中范围[搜索用相似度值-a,搜索用相似度值+a]，并从所述数据库中调取相似度值处于所述命中范围中的数据条，并记为目标数据条；对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列。从而在仅需要少量计算机资源的前提下实现搜索。

参照图2，本申请实施例提供一种基于相似度值的搜索装置，包括：

数据条单词序列获取单元10，用于获取数据条，并根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列；

第一相似度值计算单元20，用于调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值；

存储单元30，用于将所述数据条存入预设的数据库中，并在所述数据库中新增相似字段，其中所述数据条的所述相似字段记录所述相似度值；

搜索单词序列获取单元40，用于获取用户输入的搜索句子，并对所述搜索句子进行预处理，得到搜索单词序列；

第二相似度值计算单元50，用于根据预设的相似度算法，计算所述搜索单词序列与所述指定标准句子的搜索用相似度值；

目标数据条获取单元60，用于生成命中范围[搜索用相似度值-a,搜索用相似度值+a]，并从所述数据库中调取相似度值处于所述命中范围中的数据条，并记为目标数据条，其中a为预设的范围参数，a为大于0的正数；

数据条序列输出单元70，用于根据预设的排序规则，对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列。

其中上述单元分别用于执行的操作与前述实施方式的基于相似度值的搜索方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述数据条单词序列获取单元10,包括：

初始单词序列获取子单元，用于对所述数据条进行分词处理，从而得到由多个单词组成的初始单词序列；

无意义单词判断子单元，用于通过查询预设的无意义单词库，判断所述初始单词序列中是否存在无意义单词；

中间单词序列获取子单元，用于若所述初始单词序列中存在无意义单词，则将所述初始单词序列中的无意义单词去除，从而获得中间单词序列；

同义词组判断子单元，用于通过查询预设的同义词库，判断所述中间单词序列中是否存在同义词组；

数据条单词序列获取子单元，用于若所述中间单词序列中存在同义词组，则将所述同义词组中所有单词替换为所述同义词组中的任意一个，从而得到数据条单词序列。

其中上述子单元分别用于执行的操作与前述实施方式的基于相似度值的搜索方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述数据条存在多个，所述数据条单词序列存在多个，所述装置，包括：

指定单词获取单元，用于统计多个数据条单词序列中各个单词的出现次数，获取出现次数最多的单词，并记为指定单词；

次数阈值判断单元，用于判断所述指定单词的出现次数是否大于预设的次数阈值；

指定标准句子获取单元，用于若所述指定单词的出现次数大于预设的次数阈值，则根据预设的单词与标准句子的对应关系，获取与所述指定单词对应的指定标准句子。

在一个实施方式中，所述第一相似度值计算单元20,包括：

指定标准句子调取子单元，用于调取预存的指定标准句子；

标准词向量序列获取子单元，用于查询预设的词向量库以获取所述指定标准句子中各个单词对应的词向量，从而获得所述指定标准句子对应的标准词向量序列；

数据条词向量序列获取子单元，用于查询预设的词向量库以获取所述数据条单词序列中各个单词对应的词向量，从而获得所述数据条单词序列对应的数据条词向量序列；

第一相似度值计算子单元，用于采用预设的距离计算公式，计算所述标准词向量序列与所述数据条词向量序列之间的距离值，并将所述距离值记为所述相似度值。

在一个实施方式中，所述第一相似度值计算子单元,包括：

第一相似度值计算模块，用于采用公式：

，满足

其中上述模块分别用于执行的操作与前述实施方式的基于相似度值的搜索方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述装置，包括：

数据条判断单元，用于判断所述数据库中是否存在相似度值等于所述搜索用相似度值的数据条；

范围参数a获取单元，用于若所述数据库中不存在相似度值等于所述搜索用相似度值的数据条，则根据预设的标准句子与范围参数的对应关系，获取与所述指定标准句子对应的范围参数a；

命中范围生成指令生成单元，用于生成命中范围生成指令，其中所述命中范围生成指令用于指示根据所述范围参数a和所述搜索用相似度值生成命中范围。

在一个实施方式中，所述数据条序列输出单元70，包括：

搜索记录获取子单元，用于获取所述用户的搜索记录，其中所述搜索记录中记载了搜索关键词；

数据条分类子单元，用于根据所述目标数据条是否具有所述搜索关键词，将所述目标数据条分类为第一数据条和第二数据条，其中所述第一数据条具有所述搜索关键词；

绝对值获取子单元，用于计算得到所述搜索用相似度值与所述目标数据条的相似字段记录的相似度值的差值的绝对值；

数据条排列子单元，用于将所述第一数据条和所述第二数据条分别根据所述绝对值大小进行降序或者升序排列，从而得到第一数据条序列和第二数据条序列；

数据条序列输出子单元，用于以优先展示所述第一数据条序列的方式组合所述第一数据条序列和第二数据条序列，从而得到数据条序列，并输出所述数据条序列。

其中上述子单元分别用于执行的操作与前述实施方式的基于相似度值的搜索方法的步骤一一对应, 在此不再赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于相似度值的搜索方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于相似度值的搜索方法。

上述处理器执行上述基于相似度值的搜索方法，其中所述方法包括的步骤分别与执行前述实施方式的基于相似度值的搜索方法的步骤一一对应,在此不再赘述。

本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于相似度值的搜索方法，其中所述方法包括的步骤分别与执行前述实施方式的基于相似度值的搜索方法的步骤一一对应,在此不再赘述。其中所述计算机可读存储介质，例如为非易失性的计算机可读存储介质，或者为易失性的计算机可读存储介质。

Claims

一种基于相似度值的搜索方法，其特征在于，包括：

获取数据条，并根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列；

调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值；

将所述数据条存入预设的数据库中，并在所述数据库中新增相似字段，其中所述数据条的所述相似字段记录所述相似度值；

获取用户输入的搜索句子，并对所述搜索句子进行预处理，得到搜索单词序列；

根据预设的相似度算法，计算所述搜索单词序列与所述指定标准句子的搜索用相似度值；

生成命中范围[搜索用相似度值-a,搜索用相似度值+a]，并从所述数据库中调取相似度值处于所述命中范围中的数据条，并记为目标数据条，其中a为预设的范围参数，a为大于0的正数；

根据预设的排序规则，对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列。
根据权利要求1所述的基于相似度值的搜索方法，其特征在于，所述根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列的步骤,包括：

对所述数据条进行分词处理，从而得到由多个单词组成的初始单词序列；

通过查询预设的无意义单词库，判断所述初始单词序列中是否存在无意义单词；

若所述初始单词序列中存在无意义单词，则将所述初始单词序列中的无意义单词去除，从而获得中间单词序列；

通过查询预设的同义词库，判断所述中间单词序列中是否存在同义词组；

若所述中间单词序列中存在同义词组，则将所述同义词组中所有单词替换为所述同义词组中的任意一个，从而得到数据条单词序列。
根据权利要求1所述的基于相似度值的搜索方法，其特征在于，所述数据条存在多个，所述数据条单词序列存在多个，所述调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值的步骤之前，包括：

统计多个数据条单词序列中各个单词的出现次数，获取出现次数最多的单词，并记为指定单词；

判断所述指定单词的出现次数是否大于预设的次数阈值；

若所述指定单词的出现次数大于预设的次数阈值，则根据预设的单词与标准句子的对应关系，获取与所述指定单词对应的指定标准句子。
根据权利要求1所述的基于相似度值的搜索方法，其特征在于，所述调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值的步骤,包括：

调取预存的指定标准句子；

查询预设的词向量库以获取所述指定标准句子中各个单词对应的词向量，从而获得所述指定标准句子对应的标准词向量序列；

查询预设的词向量库以获取所述数据条单词序列中各个单词对应的词向量，从而获得所述数据条单词序列对应的数据条词向量序列；

采用预设的距离计算公式，计算所述标准词向量序列与所述数据条词向量序列之间的距离值，并将所述距离值记为所述相似度值。
根据权利要求4所述的基于相似度值的搜索方法，其特征在于，所述采用预设的距离计算公式，计算所述标准词向量序列与所述数据条词向量序列之间的距离值，并将所述距离值记为所述相似度值的步骤,包括：

采用公式：

，满足

计算所述标准词向量序列与所述数据条词向量序列之间的距离值，并将所述距离值记为所述相似度值；其中Distance(I,R)为标准词向量序列I与数据条词向量序列R的距离；I为所述标准词向量序列；R为所述数据条词向量序列；Tij为标准词向量序列I中第i个单词至数据条词向量序列R中的第j个单词的权重转移量；di为第i个词在标准词向量序列I中的词频；d’ _j为第j个词在数据条词向量序列R中的词频；c(i,j)为标准词向量序列I中的第i个词与数据条词向量序列R中第j个词的欧氏距离；m为标准词向量序列I中具有词向量的单词数量；n为数据条词向量序列R中具有词向量的单词数量。
根据权利要求1所述的基于相似度值的搜索方法，其特征在于，所述生成命中范围[搜索用相似度值-a,搜索用相似度值+a]，并从所述数据库中调取相似度值处于所述命中范围中的数据条，并记为目标数据条，其中a为预设的范围参数，a为大于0的正数的步骤之前，包括：

判断所述数据库中是否存在相似度值等于所述搜索用相似度值的数据条；

若所述数据库中不存在相似度值等于所述搜索用相似度值的数据条，则根据预设的标准句子与范围参数的对应关系，获取与所述指定标准句子对应的范围参数a；

生成命中范围生成指令，其中所述命中范围生成指令用于指示根据所述范围参数a和所述搜索用相似度值生成命中范围。
根据权利要求1所述的基于相似度值的搜索方法，其特征在于，所述根据预设的排序规则，对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列的步骤，包括：

获取所述用户的搜索记录，其中所述搜索记录中记载了搜索关键词；

根据所述目标数据条是否具有所述搜索关键词，将所述目标数据条分类为第一数据条和第二数据条，其中所述第一数据条具有所述搜索关键词；

计算得到所述搜索用相似度值与所述目标数据条的相似字段记录的相似度值的差值的绝对值；

将所述第一数据条和所述第二数据条分别根据所述绝对值大小进行降序或者升序排列，从而得到第一数据条序列和第二数据条序列；

以优先展示所述第一数据条序列的方式组合所述第一数据条序列和第二数据条序列，从而得到数据条序列，并输出所述数据条序列。
一种基于相似度值的搜索装置，其特征在于，包括：

数据条单词序列获取单元，用于获取数据条，并根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列；

第一相似度值计算单元，用于调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值；

存储单元，用于将所述数据条存入预设的数据库中，并在所述数据库中新增相似字段，其中所述数据条的所述相似字段记录所述相似度值；

搜索单词序列获取单元，用于获取用户输入的搜索句子，并对所述搜索句子进行预处理，得到搜索单词序列；

第二相似度值计算单元，用于根据预设的相似度算法，计算所述搜索单词序列与所述指定标准句子的搜索用相似度值；

目标数据条获取单元，用于生成命中范围[搜索用相似度值-a,搜索用相似度值+a]，并从所述数据库中调取相似度值处于所述命中范围中的数据条，并记为目标数据条，其中a为预设的范围参数，a为大于0的正数；

数据条序列输出单元，用于根据预设的排序规则，对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列。
根据权利要求8所述的基于相似度值的搜索装置，其特征在于，所述数据条单词序列获取单元,包括：

初始单词序列获取子单元，用于对所述数据条进行分词处理，从而得到由多个单词组成的初始单词序列；

无意义单词判断子单元，用于通过查询预设的无意义单词库，判断所述初始单词序列中是否存在无意义单词；

中间单词序列获取子单元，用于若所述初始单词序列中存在无意义单词，则将所述初始单词序列中的无意义单词去除，从而获得中间单词序列；

同义词组判断子单元，用于通过查询预设的同义词库，判断所述中间单词序列中是否存在同义词组；

数据条单词序列获取子单元，用于若所述中间单词序列中存在同义词组，则将所述同义词组中所有单词替换为所述同义词组中的任意一个，从而得到数据条单词序列。
根据权利要求8所述的基于相似度值的搜索装置，其特征在于，所述数据条存在多个，所述数据条单词序列存在多个，所述装置，包括：

指定单词获取单元，用于统计多个数据条单词序列中各个单词的出现次数，获取出现次数最多的单词，并记为指定单词；

次数阈值判断单元，用于判断所述指定单词的出现次数是否大于预设的次数阈值；

指定标准句子获取单元，用于若所述指定单词的出现次数大于预设的次数阈值，则根据预设的单词与标准句子的对应关系，获取与所述指定单词对应的指定标准句子。
根据权利要求8所述的基于相似度值的搜索装置，其特征在于，所述第一相似度值计算单元,包括：

指定标准句子调取子单元，用于调取预存的指定标准句子；

标准词向量序列获取子单元，用于查询预设的词向量库以获取所述指定标准句子中各个单词对应的词向量，从而获得所述指定标准句子对应的标准词向量序列；

数据条词向量序列获取子单元，用于查询预设的词向量库以获取所述数据条单词序列中各个单词对应的词向量，从而获得所述数据条单词序列对应的数据条词向量序列；

第一相似度值计算子单元，用于采用预设的距离计算公式，计算所述标准词向量序列与所述数据条词向量序列之间的距离值，并将所述距离值记为所述相似度值。
根据权利要求11所述的基于相似度值的搜索装置，其特征在于，所述第一相似度值计算子单元,包括：

第一相似度值计算模块，用于采用公式：

，满足

计算所述标准词向量序列与所述数据条词向量序列之间的距离值，并将所述距离值记为所述相似度值；其中Distance(I,R)为标准词向量序列I与数据条词向量序列R的距离；I为所述标准词向量序列；R为所述数据条词向量序列；Tij为标准词向量序列I中第i个单词至数据条词向量序列R中的第j个单词的权重转移量；di为第i个词在标准词向量序列I中的词频；d’ _j为第j个词在数据条词向量序列R中的词频；c(i,j)为标准词向量序列I中的第i个词与数据条词向量序列R中第j个词的欧氏距离；m为标准词向量序列I中具有词向量的单词数量；n为数据条词向量序列R中具有词向量的单词数量。
根据权利要求8所述的基于相似度值的搜索装置，其特征在于，所述装置，包括：

数据条判断单元，用于判断所述数据库中是否存在相似度值等于所述搜索用相似度值的数据条；

范围参数a获取单元，用于若所述数据库中不存在相似度值等于所述搜索用相似度值的数据条，则根据预设的标准句子与范围参数的对应关系，获取与所述指定标准句子对应的范围参数a；

命中范围生成指令生成单元，用于生成命中范围生成指令，其中所述命中范围生成指令用于指示根据所述范围参数a和所述搜索用相似度值生成命中范围。
根据权利要求8所述的基于相似度值的搜索装置，其特征在于，所述数据条序列输出单元，包括：

搜索记录获取子单元，用于获取所述用户的搜索记录，其中所述搜索记录中记载了搜索关键词；

数据条分类子单元，用于根据所述目标数据条是否具有所述搜索关键词，将所述目标数据条分类为第一数据条和第二数据条，其中所述第一数据条具有所述搜索关键词；

绝对值获取子单元，用于计算得到所述搜索用相似度值与所述目标数据条的相似字段记录的相似度值的差值的绝对值；

数据条排列子单元，用于将所述第一数据条和所述第二数据条分别根据所述绝对值大小进行降序或者升序排列，从而得到第一数据条序列和第二数据条序列；

数据条序列输出子单元，用于以优先展示所述第一数据条序列的方式组合所述第一数据条序列和第二数据条序列，从而得到数据条序列，并输出所述数据条序列。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现基于相似度值的搜索方法，所述基于相似度值的搜索方法，包括：

获取数据条，并根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列；

调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值；

将所述数据条存入预设的数据库中，并在所述数据库中新增相似字段，其中所述数据条的所述相似字段记录所述相似度值；

获取用户输入的搜索句子，并对所述搜索句子进行预处理，得到搜索单词序列；

根据预设的相似度算法，计算所述搜索单词序列与所述指定标准句子的搜索用相似度值；

生成命中范围[搜索用相似度值-a,搜索用相似度值+a]，并从所述数据库中调取相似度值处于所述命中范围中的数据条，并记为目标数据条，其中a为预设的范围参数，a为大于0的正数；

根据预设的排序规则，对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列。
根据权利要求15所述的计算机设备，其特征在于，所述根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列的步骤,包括：

对所述数据条进行分词处理，从而得到由多个单词组成的初始单词序列；

通过查询预设的无意义单词库，判断所述初始单词序列中是否存在无意义单词；

若所述初始单词序列中存在无意义单词，则将所述初始单词序列中的无意义单词去除，从而获得中间单词序列；

通过查询预设的同义词库，判断所述中间单词序列中是否存在同义词组；

若所述中间单词序列中存在同义词组，则将所述同义词组中所有单词替换为所述同义词组中的任意一个，从而得到数据条单词序列。
根据权利要求15所述的计算机设备，其特征在于，所述数据条存在多个，所述数据条单词序列存在多个，所述调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值的步骤之前，包括：

统计多个数据条单词序列中各个单词的出现次数，获取出现次数最多的单词，并记为指定单词；

判断所述指定单词的出现次数是否大于预设的次数阈值；

若所述指定单词的出现次数大于预设的次数阈值，则根据预设的单词与标准句子的对应关系，获取与所述指定单词对应的指定标准句子。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现基于相似度值的搜索方法，所述基于相似度值的搜索方法，包括：

获取数据条，并根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列；

调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值；

将所述数据条存入预设的数据库中，并在所述数据库中新增相似字段，其中所述数据条的所述相似字段记录所述相似度值；

获取用户输入的搜索句子，并对所述搜索句子进行预处理，得到搜索单词序列；

根据预设的相似度算法，计算所述搜索单词序列与所述指定标准句子的搜索用相似度值；

生成命中范围[搜索用相似度值-a,搜索用相似度值+a]，并从所述数据库中调取相似度值处于所述命中范围中的数据条，并记为目标数据条，其中a为预设的范围参数，a为大于0的正数；

根据预设的排序规则，对所述目标数据条进行排序得到数据条序列，并输出所述数据条序列。
根据权利要求18所述的计算机可读存储介质，其特征在于，所述根据预设的预处理方法对所述数据条进行预处理，得到数据条单词序列的步骤,包括：

对所述数据条进行分词处理，从而得到由多个单词组成的初始单词序列；

通过查询预设的无意义单词库，判断所述初始单词序列中是否存在无意义单词；

若所述初始单词序列中存在无意义单词，则将所述初始单词序列中的无意义单词去除，从而获得中间单词序列；

通过查询预设的同义词库，判断所述中间单词序列中是否存在同义词组；

若所述中间单词序列中存在同义词组，则将所述同义词组中所有单词替换为所述同义词组中的任意一个，从而得到数据条单词序列。
根据权利要求18所述的计算机可读存储介质，其特征在于，所述数据条存在多个，所述数据条单词序列存在多个，所述调取预存的指定标准句子，根据预设的相似度算法，计算所述数据条单词序列与所述指定标准句子的相似度值的步骤之前，包括：

统计多个数据条单词序列中各个单词的出现次数，获取出现次数最多的单词，并记为指定单词；

判断所述指定单词的出现次数是否大于预设的次数阈值；

若所述指定单词的出现次数大于预设的次数阈值，则根据预设的单词与标准句子的对应关系，获取与所述指定单词对应的指定标准句子。