WO2020020287A1

WO2020020287A1 - 一种获取文本相似度的方法、装置、设备及可读存储介质

Info

Publication number: WO2020020287A1
Application number: PCT/CN2019/097691
Authority: WO
Inventors: 李鹏
Original assignee: 中兴通讯股份有限公司
Priority date: 2018-07-25
Filing date: 2019-07-25
Publication date: 2020-01-30
Also published as: CN110852056B; CN110852056A

Abstract

本公开公开了一种获取文本相似度的方法、装置、设备及可读存储介质。该方法包括：根据文本对的数据集得到所述文本对的数值特征；通过所述文本对的数值特征构造样本特征矩阵；根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。摘图1

Description

一种获取文本相似度的方法、装置、设备及可读存储介质

技术领域

本公开涉及但不限于通信技术领域，尤其涉及一种获取文本相似度的方法、装置、设备及可读存储介质。

背景技术

在信息爆炸的时代下，人们对从海量信息中快速准确获取所需内容的需求与日俱增。为实现这一需求，许多应用应运而生，如信息检索、智能问答、文献查重、个性推荐等。在这些应用背后，文本相似度计算技术是关键的核心技术之一。

文本相似度在不同领域被广泛讨论。由于应用场景不同，其内涵有所差异，故没有统一、公认的定义。从信息论的角度来看，文本相似度与文本之间的共性和差异有关。共性越大、差异越小，则文本间的相似度越高；反之，共性越小、差异越大，则文本间的相似度越低。

发明内容

本公开在于提供一种获取文本相似度的方法、装置、设备及可读存储介质。

根据一个方面，本公开的一个实施例提供的一种获取文本相似度的方法，包括：根据文本对的数据集得到所述文本对的数值特征；通过所述文本对的数值特征构造样本特征矩阵；根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；以及获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。

根据另一个方面，本公开的一个实施例提供的一种获取文本相似度的装置，包括：训练模块，被配置为根据文本对的数据集得到所述文本对的数值特征；矩阵构造模块，被配置为通过所述文本对的数值特征构造样本特征矩阵；预测模块，被配置为根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；以及在线获取模块，被配置为获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。

根据再一个方面，本公开的一个实施例提供的一种电子设备，包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，所述应用程序被配置为用于执行以上所述的获取文本相似度的方法。

根据再一个方面，本公开的一个实施例提供的一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以上所述的获取文本相似度的方法。

附图说明

图1为本公开实施例提供的一种获取文本相似度的方法的流程图；

图2为图1中步骤S10的流程图；

图3为图1中步骤S40的流程图；

图4为本公开实施例提供的一种获取文本相似度的装置的示范性结构框图；

图5为图4中训练模块的示范性结构框图；

图6为图4中在线获取模块的示范性结构框图。

具体实施方式

为了使本公开所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本公开进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本公开，并不用于限定本公开。

本公开的一个实施例提供了一种获取文本相似度的方法。如图1所示，该方法包括：

S10、根据文本对的数据集得到所述文本对的数值特征；

S20、通过所述文本对的数值特征构造样本特征矩阵；

S30、根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；以及

S40、获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。

在本实施例中，通过获取文本对的多个数值特征，兼顾语义和句法结构，来判断文本相似度。该获取文本相似度的方法考虑了文本间包含词义、编辑距离、词袋模型等特征在内的语义相似度，还考虑了包含句法结构的语法相似度。同时，该获取文本相似度的方法将语义与句法相结合，使用神经网络进行更高层面的特征抽取，具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点，从而提高了用户体验。

在步骤S10中，首先要准备大量已标注文本对数据作为训练语料；训练语料中每个样本为一组文本对和对应的标注相似度得分，例如，可形式化表述为[text1；text2；score]，其中text1和text2为用于相似度获取的文本对，score为标注的text1和text2的相似度得分。标注得分可以来源于人工标注，亦可来源于其它先验信息，如问答系统中用户对系统答复的满意程度、检索系统中用户对系统排列信息的浏览情况等。所有样本保存在文件originalData.txt中，每行为一个训练样本，每个训练样本中text1、text2、score之间可通过制表符tab进行分割。在一个示例性实施例中，标注相似度得分score为0到1之间的实数，数字越大表示文本对之间相似度越高，反之亦然。可以理解的是，score为0表示文本对完全不相关，score为1表示文本对完全相同。根据来源不同，score的精度不固定。例如，来源于人工标注可能为0.3、0.6等一位精度的小数，而来源于其他应用系统可能为0.563、0.8192等多位精度的小数。可以理解的是，训练语料可以用作标准的参照语料。

在一个示例性实施例中，文件originalData.txt形式如下：

在本实施例中，假设训练语料文件共M行文本对，且针对训练语料中的每个文本对得到N个数值特征，则从训练语料中抽取出的样本特征矩阵可以表示为X∈R ^M×N。针对训练语料中的每个文本对将其标注相似度得分作为该样本的预测值，可以从训练语料中抽取出预测向量y∈R ^M×1。因此，训练数据集可以表示为D＝[X,y]。

在本实施例中，所述数值特征包括：基于有序编辑距离的语义特征，基于无序编辑距离的语义特征，基于词义距离的语义特征，基于依存关系的句法特征。

在本实施例中，除了有序编辑距离，还考虑了无序词语的移动距离，这对简单颠倒语序的文本具有更强的适应性，可大大提升系统召回率。而且，本实施例的方法还根据语句中的有效依存配对的数量来获取句法相似度，可以更好的衡量句中核心词和与其存在依赖关系的词的数量。

如图2所示，在本实施例中，所述步骤S10包括：

S11、获取训练语料文件，所述训练语料文件包括若干组文本对及每组文本对的相似度得分；

S12、根据所述训练语料文件得到训练数据集；以及

S13、从所述训练数据集中得到词向量矩阵。

在本实施例中，例如，词向量训练方法可以采用Word2Vec方法，具体步骤包括：

S131、由文件originalData.txt生成新的训练语料文件originalDataForWord2Vec.txt，对文件originalData.txt中每行样本只获取text1和text2，然后将text1和text2分为两行存储，其中

语料文件originalDataForWord2Vec.txt形式如下：

我想问下在哪里可以购入中兴手机

中兴手机在哪里购买

中兴公司在南京市雨花台区

南京雨花台区的中兴通讯公司

智能问答系统团队又出新成果

智能问答领域日新月异

办理信用卡的渠道有哪些

借记卡申请的方式；

S132、采用word2vec进行词向量训练，其中，向量长度记为d _w(比如，d _w＝400)；

S133、将训练得到的wordv2ec模型记为矩阵

其中V为语料文件中所有词汇构成的词汇表，|V|为该词汇表中的词汇个数，

表示|V|行d _w列的实数矩阵；以及

S134、用该wordv2ec模型得到的词向量表示单词w，

其中，

表示词向量为1行d _w列的矩阵，其中，w为变量，可以指代任意单词，如“中兴”。

所述步骤S10还包括：S14、根据所述词向量矩阵和编辑距离，获取文本对之间的第一改进编辑距离，作为基于有序编辑距离的语义特征。

在本实施例中，第一改进编辑距离c _A中定义的编辑操作包括：匹配(Mat)、插入(Ins)、删除(Del)、替换(Sub)，分别对应的操作代价为c _Mat、c _Ins、c _Del、c _Sub。具体计算步骤包括：

S141、对文本text1和text2，分别进行分词、去停止词操作后，得到词序列t1和t2。

例如，text1为“我想申请内购中兴手机了”，分词后为[我|想|申请|内购|中兴|手机|了]，去掉停止词后，得到词序列t1为[申请|内购|中兴|手机]；text2为“如何申请一下中兴产品的内购呢”，分词后为[如何|申请|一下|中兴|产品|的|内购|呢]，去掉停止词后，得到词序列t2为[如何|申请|中兴|产品|内购]。这里，“我”“想”“了”“一下”“的”“呢”均为停止词。

S142、使用通用方法(如基于动态规划的方法)计算词序列t1到词序列t2的编辑路径Path _A和对应编辑元素序列Elements _A。

例如，使用通用方法可以计算出t1＝[申请|内购|中兴|手机]到t2＝[如何|申请|中兴|产品|内购]的编辑路径Path _A为[Ins,Mat,Sub,Sub,Sub]，对应编辑元素序列Elements _A为[如何,申请,内购→中兴,中兴→产品,手机→内购]。其中，无箭头表示Mat、Ins、Del操作，有箭头表示Sub操作。

S143、对编辑路径Path _A得到相应的编辑操作代价向量Action _A。

具体的，在S143中，将所有编辑操作换成对应的操作代价，形成编辑操作代价向量即可。

例如，编辑路径Path _A为[Ins,Mat,Sub,Sub,Sub]，对应编辑操作代价向量即为[c _Ins,c _Mat,c _Sub,c _Sub,c _Sub]。

S144、对编辑元素序列Elements _A中每个元素计算编辑元素距离，从而得到编辑元素距离向量Dis _A。具体的，进行Mat、Ins、Del操作的编辑元素距离为1，进行Sub操作的编辑元素距离为sim _cos(w ₁,w ₂)。其中，

为词w ₁和词w ₂的余弦相似度，可以表示为

例如，编辑元素序列Elements _A为[如何,申请,内购→中兴,中兴→产品,手机→内购]，对应的编辑元素距离向量Dis _A为[1,1,0.218,0.294,0.511]。

S145、根据编辑操作代价向量Action _A和对应的编辑元素距离向量Dis _A，计算两文本间的改进编辑距离

作为基于有序编辑距离的语义特征。

例如，编辑操作代价向量为[c _Ins,c _Mat,c _Sub,c _Sub,c _Sub]，对应的编辑元素距离向量为[1,1,0.218,0.294,0.511]，则有：

c _A＝1*c _Ins+1*c _Mat+1*c _Ins+0.218*c _Sub+0.294*c _Sub+0.511*c _Sub。

所述步骤S10还包括：S15、根据所述编辑距离和词袋(bag-of-word)模型，计算文本对之间的第二改进编辑距离，作为基于无序编辑距离的语义特征。

在本实施例中，第二改进编辑距离c _B中定义的编辑操作包括：匹配(Mat)、插入(Ins)、删除(Del)，分别对应的操作代价为c _Mat、c _Ins、c _Del。具体计算步骤包括：

S151、对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。

S152、将词序列t1和t2中所有不重复的词加入到集合中，构成词袋BOW。

例如，针对t1＝[申请|内购|中兴|手机]和t2＝[如何|申请|中兴|产品|内购]，得到的词袋BOW为[如何|申请|内购|中兴|手机|产品]。

S153、根据词袋BOW和t1、t2，计算t1到t2的编辑距离。

在一个示例性计算方式中，对于词袋BOW中的某词w，若t1中存在该词或其同义词，t2中存在该词或其同义词，则进行操作Mat；若t1中存在该词或其同义词，t2中不存在该词或其同义词，则进行操作Del；若t1中不存在该词或其同义词，t2中存在该词或其同义词，则进行操作Ins。对词袋BOW中所有词依次执行上述操作后，可以得到编辑路径Path _B，进而得到相应的编辑操作代价向量Action _B。

例如，t1＝[申请|内购|中兴|手机]到t2＝[如何|申请|中兴|产品|内购]的编辑路径Path _B为[Ins,Mat,Mat,Mat,Del,Ins]，则编辑操作代价向量Action _B为[c _Ins,c _Mat,c _Mat,c _Mat,c _Del,c _Ins]。

S154、将编辑操作代价向量Action _B中所有元素加和，得到两文本间的第二改进编辑距离c _B，作为基于无序编辑距离的语义特征。

例如，对编辑操作代价向量Action _B＝[c _Ins,c _Mat,c _Mat,c _Mat,c _Del,c _Ins]，c _B＝c _Ins+c _Mat+c _Mat+c _Mat+c _Del+c _Ins。

所述步骤S10还包括：S16、根据所述词向量矩阵，计算文本对之间的词义距离，作为基于词义距离的语义特征。

在本步骤中，首先，对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。假设t1包含的词为

t2包含的词为

其次，计算词

与词

之间的词义距离

其中，以

为例，下标m表示t1词序列的总数，上标1表示该词属于t1，序列，同理，

表示，下标n表示t2词序列的总数，上标2表示该词属于t2，从而定义t1中词

与t2的词义距离为

t2中词

与t1的词义距离为

最后，计算两文本间的词义相似度

作为基于词义距离的语义特征。

所述步骤S10还包括：S17、对文本对进行依存句法分析，计算文本对之间的句法距离，作为基于依存关系的句法特征。

在本步骤中，首先，对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。其次，使用通用方法(如StanfordNLP、FNLP等工具)，对t1和t2分别进行依存句法分析，并分别计算t1和t2中有效词搭配对的数量，记为p ₁和p ₂。其中，有效词搭配对，指句中核心词和直接依存于它的有效词组成的搭配对。核心词，即句子经依存句法分析后得到的全句中唯一的核心词汇；有效词，即句子经依存句法分析后的名词、动词和形容词。

例如，针对t1＝[申请|内购|中兴|手机]，经依存句法分析后，核心词为“内购”，与之直接依存的词有“申请”“手机”，且这两个词都是有效词，因此，t1的有效搭配对数量为2。根据为p ₁和p ₂计算两文本间的句法结构距离c _D＝|p ₁-p ₂|，作为基于依存关系的句法特征。

如图3所示，在本实施例中，所述步骤S40包括：

S41、获取目标文本对，获取所述目标文本对的数值特征，构成目标文本对的特征向量；以及

S42、将所述目标文本对的特征向量代入所述预测模型，获得所述目标文本对的相似度得分。

在本实施例中，首先搭建训练用的网络结构，然后根据上节得到的样本特征矩阵X和预测向量y进行模型训练，最后保存模型用于后续的在线获取。

在一个示例性实施例中，网络结构采用多层感知机(MLP，Multi-layer Perceptron)，利用样本特征矩阵X和预测向量y，使用通用方法，对上述网络结构进行模型训练。

训练后，得到的模型参数记为W ^1*、b ^1*、W ^2*、b ^2*，其中，W ^1*表示MLP中第一层的连接权重，b ^1*为MLP中第二层的偏置，W ^2*为MLP中第二层的连接权重，b ^2*为MLP中第二层的偏置。预测模型可以表示为

其中g ¹为MLP中第一层的非线性激活函数，g ²为MLP中第二层的非线性激活函数，x ^T为目标文本对的特征向量。

在本实施例中，针对输入系统的目标文本对t1和t2，根据上述数值特征的计算步骤，依次计算出文本对的四个数值特征c _A、c _B、c _C、c _D，构成目标文本对的特征向量x ^T＝[c _A,c _B,c _C,c _D]。

将上述目标文本对的特征向量代入预测模型，即可得到目标文本对t1和t2的相似度得分：

本公开的一个实施例提供了一种获取文本相似度的装置，如图4所示，该装置包括：

训练模块10，被配置为根据文本对的数据集得到所述文本对的数值特征；

矩阵构造模块20，被配置为通过所述文本对的数值特征构造样本特征矩阵；

预测模块30，被配置为根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；以及

在线获取模块40，被配置为获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。

在本实施例中，通过获取文本对的多个数值特征，兼顾语义和句法结构，来判断文本相似度。该获取文本相似度的装置考虑了文本间包含词义、编辑距离、词袋模型等特征在内的语义相似度，还考虑了包含句法结构的语法相似度。同时，该获取文本相似度的装置将语义与句法相结合，使用神经网络进行更高层面的特征抽取，具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点，从而提高了用户体验。

在本实施例中，首先要准备大量已标注文本对数据作为训练语料；训练语料中每个样本为一组文本对和对应的标注相似度得分，例如，可形式化表述为[text1；text2；score]，其中text1和text2为用于相似度计算的文本对，score为标注的text1和text2的相似度得分。标注得分可以来源于人工标注，亦可来源于其它先验信息，如问答系统中用户对系统答复的满意程度、检索系统中用户对系统排列信息的浏览情况等。所有样本保存在文件originalData.txt中，每行为一个训练样本，每个训练样本中text1、text2、score之间可通过制表符tab进行分割。在一个示例性实施例中，标注相似度得分score为0到1之间的实数，数字越大表示文本对之间相似度越高，反之亦然。可以理解的是，score为0表示文本对完全不相关，score为1表示文本对完全相同。根据来源不同，score的精度不固定。例如，来源于人工标注可能为0.3、0.6等一位精度的小数，而来源于其他应用系统可能为0.563、0.8192等多位精度的小数。可以理解的是，训练语料可以用作标准的参照语料。

在一个示例性实施例中，文件originalData.txt形式如下：

在本实施例中，除了有序编辑距离，还考虑了无序词语的移动距离，这对简单颠倒语序的文本具有更强的适应性，可大大提升系统召回率。而且，本实施例的装置还根据语句中的有效依存配对的数量来计算句法相似度，可以更好的衡量句中核心词和与其存在依赖关系的词的数量。

如图5所示，在本实施例中，所述训练模块10包括：

获取单元11，被配置为获取训练语料文件，所述训练语料文件包括若干组文本对及每组文本对的相似度得分；

提取单元12，被配置为根据所述训练语料文件得到训练数据集；以及

词向量获取单元13，被配置为从所述训练数据集中得到词向量矩阵。

语料文件originalDataForWord2Vec.txt形式如下：

我想问下在哪里可以购入中兴手机

中兴手机在哪里购买

中兴公司在南京市雨花台区

南京雨花台区的中兴通讯公司

智能问答系统团队又出新成果

智能问答领域日新月异

办理信用卡的渠道有哪些

借记卡申请的方式；

S132、采用word2vec进行词向量训练，其中，向量长度记为d _w(比如d _w＝400)；

S133、将训练得到的wordv2ec模型记为矩阵

表示|V|行d _w列的实数矩阵；以及

S134、用该wordv2ec模型得到的词向量表示单词w，

其中，

所述训练模块10还包括：有序编辑距离获取单元14，被配置为根据所述词向量矩阵和编辑距离，获取文本对之间的第一改进编辑距离，作为基于有序编辑距离的语义特征。

为词w ₁和词w ₂的余弦相似度，可以表示为

作为基于有序编辑距离的语义特征。

c _A＝1*c _Ins+1*c _Mat+1*c _Ins+0.218*c _Sub+0.294*c _Sub+0.511*c _Sub。

所述训练模块10还包括：无序编辑距离获取单元15，被配置为根据所述编辑距离和词袋(bag-of-word)模型，获取文本对之间的第二改进编辑距离，作为基于无序编辑距离的语义特征。

S153、根据词袋BOW和t1、t2，计算t1到t2的编辑距离。

所述训练模块10还包括：词义距离获取单元16，被配置为根据所述词向量矩阵，获取文本对之间的词义距离，作为基于词义距离的语义特征。

在本实施例中，首先，对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。假设t1包含的词为

t2包含的词为

其次，计算词

与词

之间的词义距离

其中，以

与t2的词义距离为

t2中词

与t1的词义距离为

最后，计算两文本间的词义相似度

作为基于词义距离的语义特征。

所述训练模块10还包括：句法距离获取单元17，被配置为对文本对进行依存句法分析，获取文本对之间的句法距离，作为基于依存关系的句法特征。

在本实施例中，首先，对文本text1和text2进行分词、去停止词操作后得到的词序列t1和t2。其次，使用通用方法(如StanfordNLP、FNLP等工具)，对t1和t2分别进行依存句法分析，并分别计算t1和t2中有效词搭配对的数量，记为p ₁和p ₂。其中，有效词搭配对，指句中核心词和直接依存于它的有效词组成的搭配对。核心词，即句子经依存句法分析后得到的全句中唯一的核心词汇；有效词，即句子经依存句法分析后的名词、动词和形容词。

如图6所示，在本实施例中，所述在线获取模块40包括：

特征向量获取单元41，被配置为获取目标文本对，计算所述目标文本对的数值特征，构成目标文本对的特征向量；以及

相似度获取单元42，被配置为将所述目标文本对的特征向量代入所述预测模型，获得所述目标文本对的相似度得分。

在本实施例中，首先搭建训练用的网络结构，然后根据上节得到的样本特征矩阵X和预测向量y进行模型训练，最后保存模型被配置为后续的在线计算。

在一个示例性实施例中，网络结构采用多层感知机(MLP)，利用样本特征矩阵X和预测向量y，使用通用方法，对上述网络结构进行模型训练。

训练后，得到的模型参数记为W ^1*、b ^1*、W ^2*、b ^2*，则预测模型可以表示为

其中，W ^1*表示MLP中第一层的连接权重，b ^1*为MLP中第二层的偏置，W ^2*为MLP中第二层的连接权重，b ^2*为MLP中第二层的偏置。预测模型可以表示为

本公开的一个实施例提供了一种电子设备，包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，所述应用程序被配置为用于执行实施例一所述的获取文本相似度的方法。

本公开的一个实施例提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述获取文本相似度的方法实施例中任一所述的方法实施例。

需要说明的是，上述装置(设备)实施例和可读存储介质实施例与方法实施例属于同一构思，其具体实现过程详见方法实施例。所述方法实施例中的技术特征在装置实施例中均对应适用，这里不再赘述。

本公开实施例的一种获取文本相似度的方法、装置、设备及可读存储介质，该方法包括：根据文本对的数据集得到所述文本对的数值特征；通过所述文本对的数值特征构造样本特征矩阵；根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。通过获取文本对的多个数值特征，该获取文本相似度的方法兼顾语义和句法结构，来判断文本相似度，具有权重可训练、人工干预少、简单快捷、易于实施、准确率高等优点，从而提高了用户体验。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上参照附图说明了本公开的优选实施例，并非因此局限本公开的权利范围。本领域技术人员不脱离本公开的范围和实质内所作的任何修改、等同替换和改进，均应在本公开的权利范围之内。

Claims

一种获取文本相似度的方法，包括：

根据文本对的数据集得到所述文本对的数值特征；

通过所述文本对的数值特征构造样本特征矩阵；

根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；以及

获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。
根据权利要求1所述的方法，其中，所述数值特征包括：基于有序编辑距离的语义特征，基于无序编辑距离的语义特征，基于词义距离的语义特征，基于依存关系的句法特征。
根据权利要求2所述的方法，其中，所述根据文本对的数据集得到所述文本对的数值特征的步骤包括：

获取训练语料文件，所述训练语料文件包括若干组文本对及每组文本对的相似度得分；

根据所述训练语料文件得到训练数据集；

从所述训练数据集中得到词向量矩阵；

根据所述词向量矩阵和编辑距离，获取文本对之间的第一改进编辑距离，作为基于有序编辑距离的语义特征；

根据所述编辑距离和词袋模型，获取文本对之间的第二改进编辑距离，作为基于无序编辑距离的语义特征；

根据所述词向量矩阵，获取文本对之间的词义距离，作为基于词义距离的语义特征；以及

对文本对进行依存句法分析，获取文本对之间的句法距离，作为基于依存关系的句法特征。
根据权利要求3所述的方法，其中，所述获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分的步骤包括：

获取目标文本对，获取所述目标文本对的数值特征，构成目标文本对的特征向量；以及

将所述目标文本对的特征向量代入所述预测模型，获得所述目标文本对的相似度得分。
一种获取文本相似度的装置，包括：

训练模块，被配置为根据文本对的数据集得到所述文本对的数值特征；

矩阵构造模块，被配置为通过所述文本对的数值特征构造样本特征矩阵；

预测模块，被配置为根据所述样本特征矩阵和预测向量进行模型训练，得到预测模型；以及

在线获取模块，被配置为获取目标文本对，根据所述样本特征矩阵和所述预测模型获取所述目标文本对的相似度得分。
根据权利要求1所述的装置，其中，所述数值特征包括：基于有序编辑距离的语义特征，基于无序编辑距离的语义特征，基于词义距离的语义特征，基于依存关系的句法特征。
根据权利要求6所述的装置，其中，所述训练模块包括：

获取单元，被配置为获取训练语料文件，所述训练语料文件包括若干组文本对及每组文本对的相似度得分；

提取单元，被配置为根据所述训练语料文件得到训练数据集；

词向量获取单元，被配置为从所述训练数据集中得到词向量矩阵；

有序编辑距离获取单元，被配置为根据所述词向量矩阵和编辑距离，获取文本对之间的第一改进编辑距离，作为基于有序编辑距离的语义特征；

无序编辑距离获取单元，被配置为根据所述编辑距离和词袋模型，获取文本对之间的第二改进编辑距离，作为基于无序编辑距离的语义特征；

词义距离获取单元，被配置为根据所述词向量矩阵，获取文本对之间的词义距离，作为基于词义距离的语义特征；以及

句法距离获取单元，被配置为对文本对进行依存句法分析，获取文本对之间的句法距离，作为基于依存关系的句法特征。
根据权利要求7所述的装置，其中，所述在线获取模块包括：

特征向量获取单元，被配置为获取目标文本对，获取所述目标文本对的数值特征，构成目标文本对的特征向量；

相似度获取单元，被配置为将所述目标文本对的特征向量代入所述预测模型，获得所述目标文本对的相似度得分。
一种电子设备，包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，其中，所述应用程序被配置为被配置为执行权利要求1-4任一项所述的获取文本相似度的方法。
一种可读存储介质，存储有计算机程序，其中，该计算机程序被处理器执行时实现如权利要求1-4任一所述的获取文本相似度的方法。