WO2021207939A1

WO2021207939A1 - 句式挖掘方法、装置、电子设备以及存储介质

Info

Publication number: WO2021207939A1
Application number: PCT/CN2020/084769
Authority: WO
Inventors: 李森林
Original assignee: 深圳市欢太数字科技有限公司
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2021-10-21
Also published as: CN115039105A

Abstract

一种句式挖掘方法、装置、电子设备以及存储介质，涉及电子设备技术领域。所述方法包括：获取多条待挖掘语料（S110），对多条待挖掘语料进行双序列比对，获得多条待挖掘语料对应的多个通用句式（S120），对多个通用句式进行过滤，从多个通用句式中筛选出符合指定标准的通用句式作为标准句式（S130）。所述方法通过对待挖掘语料进行双序列比对获得通用句式，再对通用句式进行过滤获得标准句式，以快速便捷的从待挖掘语料中获得标准句式以供处理。

Description

句式挖掘方法、装置、电子设备以及存储介质

技术领域

本申请涉及电子设备技术领域，更具体地，涉及一种句式挖掘方法、装置、电子设备以及存储介质。

背景技术

在实际的互联网业务中，经常可以接触到大量的格式化信息，如何通过通用句式挖掘有效处理这些结构化信息分析成为众多自然语言处理研究者关注的方向之一。

发明内容

鉴于上述问题，本申请提出了一种句式挖掘方法、装置、电子设备以及存储介质，以解决上述问题。

第一方面，本申请实施例提供了一种句式挖掘方法，所述方法包括：获取多条待挖掘语料；对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式；对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。

第二方面，本申请实施例提供了一种句式挖掘装置，所述装置包括：待挖掘语料获取模块，用于获取多条待挖掘语料；通用句式获得模块，用于对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式；标准句式获得模块，用于对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

本申请实施例提供的句式挖掘方法、装置、电子设备以及存储介质，获取多条待挖掘语料，对多条待挖掘语料进行双序列比对，获得多条待挖掘语料对应的多个通用句式，对多个通用句式进行过滤，从多个通用句式中筛选出符合指定标准的通用句式作为标准句式，从而通过对待挖掘语料进行双序列比对获得通用句式，再对通用句式进行过滤获得标准句式，以快速便捷的从待挖掘语料中获得标准句式以供处理。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请一个实施例提供的句式挖掘方法的流程示意图；

图2示出了本申请又一个实施例提供的句式挖掘方法的流程示意图；

图3示出了本申请实施例提供的多个通用句式之间的句式包含关系的示意图；

图4示出了本申请的图2所示的句式挖掘方法的步骤S240的流程示意图；

图5示出了本申请再一个实施例提供的句式挖掘方法的流程示意图；

图6示出了本申请的图5所示的句式挖掘方法的步骤S330的流程示意图；

图7示出了本申请的图6所示的句式挖掘方法的步骤S332的流程示意图；

图8示出了本申请另一个实施例提供的句式挖掘方法的流程示意图；

图9示出了本申请的图8所示的句式挖掘方法的步骤S440的流程示意图；

图10示出了本申请又再一个实施例提供的句式挖掘方法的流程示意图；

图11示出了本申请实施例提供的句式挖掘装置的模块框图；

图12示出了本申请实施例用于执行根据本申请实施例的句式挖掘方法的电子设备的框图；

图13示出了本申请实施例的用于保存或者携带实现根据本申请实施例的句式挖掘方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

近年来，随着人工智能(artificial intelligence，AI)相关技术的飞速发展，已经有越来越多的应用场景得以落地实现，例如计算机视觉(computer vision，CV)和自然语音处理(natural language processing，NLP)，极大的改善了人们的衣食住行。特别的，近些年研究者对于NLP的热衷使得相关语言模型的发展日新月异，例如谷歌基于纯粹注意力机制的transformer模型，基于transformer模型的BERT(bidirectional encoder representations from transformers)模型等都是最近的研究成果。在实际的互联网业务中，经常可以接触到大量的用户格式化信息，如何通过通用句式挖掘有效处理这些结构化信息，从而便于相应的NLP下游任务(例如智能客服、社区问答、短文本分类等)分析成为众多NLP研究者关注的方向之一。

一般地，目前的句式挖掘方法可以分为以下两类：

(1)人工挖掘正则表达式：通过人工分析格式化数据，找到相关句式的通用格式，生成正则表达式用于下游NLP任务。

(2)基于大规模语言模型的方式：利用大量语料训练，经过大规模语言模型(如BERT)训练得到相关固定句式的嵌入式表达。

发明人经过研究发现，对于人工挖掘正则表达式，通过人工发现整理的方式总结归纳出相关句式的正则表达式的方式虽然能保证准确率，但在智能客服、社区问答场景的数据符合长尾分布，很多特殊句式可能无法被有效挖掘，且数据量巨大，费时费力。对于基于大规模语言模型，短文本分类场景中部分句式的领域类别仅依赖于实体部分，如[entity]是什么，[entity]是谁，[entity]多样多变，该类问题的分类无法很好的使用基于神经网络的语言模型处理，因此希望挖掘出相关句式，通过整合句式和[entity]校验的方式处理此类问题；且基于神经网络的语言模型实验成本极高，计算周期长，不适用于拥有大量语料数据并希望快速迭代落地的中小企业。

针对上述问题，发明人经过长期的研究发现，并提出了本申请实施例提供的句式挖掘方法、装置、电子设备以及存储介质，通过对待挖掘语料进行双序列比对获得通用句式，再对通用句式进行过滤获得标准句式，以快速便捷的从待挖掘语料中获得标准句式以供处理。其中，具体的句式挖掘方法在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一个实施例提供的句式挖掘方法的流程示意图。所述句式挖掘方法用于通过对待挖掘语料进行双序列比对获得通用句式，再对通用句式进行过滤获得标准句式，以快速便捷的从待挖掘语料中获得标准句式以供处理。其中，在具体的实施例中，所述句式挖掘方法应用于如图11所示的句式挖掘装置200以及配置有句式挖掘装置200的电子设备100(图12)。下面将以电子设备为例，说明本实施例的具体流程，其中，本实施例所应用的电子设备可以包括移动终端、平板电脑、台式电脑、穿戴式电子设备等，在此不做限定。下面将针对图1所示的流程进行详细的阐述，所述句式挖掘方法具体可以包括以下步骤：

步骤S110：获取多条待挖掘语料。

在本实施例中，可以获取多条待挖掘语料。在一些实施方式中，多条待挖掘语料可以从社区问答中获取，可以从短文本中获取，也可以部分从社区问答中获取，另一部分从短文本中获取等，在此不做限定。

在一些实施方式中，多条待挖掘语料可以从服务器获取，例如，从服务器中记录的社区问答或短文本中获取，多条待挖掘语料也可以从其他电子设备获取，例如，从其他电子设备记录的社区问答或短文本中获取，其中，当多条待挖掘语料从服务器或者其他电子设备获取时，可以通过无线网络或者数据网络从服务器或者其他电子设备获取。

在一些实施方式中，以多条待挖掘语料从社区问答中获取为例，可以从社区问答中获取“栗胸白脸刺莺是居住在哪个国家的鸟”作为待挖掘语料，可以从社区问答中获取“阿尔文是哪个国家的城市”作为待挖掘语料等，在此不做限定。

步骤S120：对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式。

在本实施例中，在获取多条待挖掘语料后，可以对多条待挖掘语料进行双序列比对(pairwise alignment)，获得多条待挖掘语料对应的多个通用句式。其中，双序列比对是生物信息学研究的领域之一，其研究方法是设计具有针对性的有效算法对两个DNA或蛋白质序列进行比较，找出两者之间的最大相似性匹配进而判断其是否具有同源性。于本实施例中，采用双序列比对的方式对多条待挖掘语料进行处理，以获取多条待挖掘语料之间的最大相似匹配句式，即多条待挖掘语料对应的多个通用句式，从而通过引入生物信息学中的双序列比对算法对句式学习进行迁移，能够在字节单位进行匹配句式，避免了传统分割方法由于语义分割错误和人为拼写错误造成的误差。在一些实施方式中，在获取多条待挖掘语料后，可以将多条待挖掘语料两两进行双序列比对，获得多条待挖掘语料对应的多个通用句式。

例如，以多个待挖掘语料包括“栗胸白脸刺莺是居住在哪个国家的鸟”和“阿尔文是哪个国家的城市”为例，对待挖掘语料“栗胸白脸刺莺是居住在哪个国家的鸟”和待挖掘语料“阿尔文是哪个国家的城市”进行双序列比对，获得多条待挖掘语料的通用句式为：(.+？)是(.+？)哪个国家的(.+？)。又例如，以多个待挖掘语料包括“成都坐火车去北京要多久”和“成都坐飞机去北京要多久”为例，对待挖掘语料“成都坐火车去北京要多久”和待挖掘语料“成都坐飞机去北京要多久”进行双序列比对，获得多条待挖掘语料的通用句式为：成都(.+？)去北京要多久。

步骤S130：对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。

其中，对多个待挖掘语料进行双序列比对，一般会提取出大量的通用句式，因此，可以采用一种量化的机制能够挖掘出具有一定具象含义且有一定的泛化能力的句式。在本实施例中，在对多条待挖掘语料进行双序列比对获得多个通用句式后，可以对多个通用句式进行过滤，以从多个通用句式中筛选出符合指定标准的通用句式作为标准句式，其中，符合指定标准的通用句式可以指具有一定具象含义且具有一定泛化能力的句式，从而用量化的指标衡量标准句式的泛化程度和具象意义，以使得从多个待挖掘语料中挖掘获得的标准句式更加准确。

在一些实施方式中，可以预先设置并存储通用句式过滤规则，在获得多条待挖掘语料对应的多个通用句式后，可以基于通用句式过滤规则对多个通用句式进行过滤，以从多个通用句式中筛选出符合指定标准的通用句式作为标准句式。作为一种方式，在获得多条待挖掘语料对应的多个通用句式后，可以依次判断多个通用句式是否满足通用句式过滤规则，并根据判断结果从多个通用句式中筛选出符合指定标准的通用句式作为标准句式，具体地，可以将判断结果表征满足通用句式过滤规则的通用句式确定为满足指定标准，即确定为标准句式，将判断结果表征不满足通用句式过滤规则的通用句式确定为不满足指定标准，即确定为非标准句式。

本申请一个实施例提供的句式挖掘方法，获取多条待挖掘语料，对多条待挖掘语料进行双序列比对，获得多条待挖掘语料对应的多个通用句式，对多个通用句式进行过滤，从多个通用句式中筛选出符合指定标准的通用句式作为标准句式，从而通过对待挖掘语料进行双序列比对获得通用句式，再对通用句式进行过滤获得标准句式，以快速便捷的从待挖掘语料中获得标准句式以供处理。

请参阅图2，图2示出了本申请又一个实施例提供的句式挖掘方法的流程示意图。下面将针对图2所示的流程进行详细的阐述，所述句式挖掘方法具体可以包括以下步骤：

步骤S210：获取多条待挖掘语料。

步骤S220：对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式。

其中，步骤S210-步骤S220的具体描述请参阅步骤S110-步骤S120，在此不再赘述。

步骤S230：获取所述多个通用句式之间的句式包含关系，并获取所述多个通用句式中的每个通用句式的句式复杂度。

在本实施例中，在获取多个通用句式后，可以获取多个通用句式之间的句式包含关系。在一些实施方式中，在获取多个通用句式后，可以基于多个通用句式的样本覆盖量，获取多个通用句式之间的句式包含关系，具体地，在获取多个通用句式后，可以基于多个通用句式的样本覆盖量，划分出父子节点关系，将覆盖量最大的句式设定为父节点，根据剩余通用句式从大到小的样本覆盖量，划分出从上到下不同层级的子节点，也就是说，父节点的泛化能力最大，但其不具备一定的具象含义，从上到下不同层级的子节点的泛化能力依次减小，但其具象含义依次增大。

请参阅图3，图3示出了本申请实施例提供的多个通用句式之间的句式包含关系的示意图。如图3所示，多个通用句式包括：通用句式S ₀、通用句式S ₁、通用句式

通用句式

……，其中，通用句式S ₀覆盖通用句式

通用句式

以及通用句式

通用句式S ₁覆盖通用句式

通用句式

以及通用句式

通用句式

覆盖通用句式

和通用句式

通用句式

覆盖通用句式

和通用句式

通用句式

覆盖通用句式

因此，可以将通用句式S ₀和通用句式S ₁确定为父节点，将通用句式

通用句式

……确定为子节点。

在本实施例中，在获取多个通用句式后，可以获取多个通用句式中的每个通用句式的句式复杂度。其中，通用句式的句式复杂度越大，表征该通用句式越复杂，越具有具象含义，通用局势哦的句式复杂度越小，表征该通用句式越简单，越不具有具象含义。在一些实施方式中，可以基于

获取多个通用句式中的每个通用句式的句式复杂度，其中，n表示通用句式被分割的次数，t表示通用句式中的每个分隔段的字数，例如，通用句式“(.+？)是(.+？)哪个国家的(.+？)”的句式复杂度

步骤S240：基于所述多个通用句式之间的句式包含关系和所述每个通用句式的句式复杂度对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。

其中，多个通用句式之间的句式包含关系可以用于反应多个通用句式中的每个通用句式的泛化能力，多个通用句式中的每个通用句式的句式复杂度可以用于反应多个通用句式中的每个通用句式的具象含义，因此，在本实施例中，在获取多个通用句式之间的句式包含关系和每个通用句式的句式复杂度后，可以基于多个通用句式之间的句式包含关系和每个通用句式的句式复杂度对多个通用句式进行过滤，以从多个通用句式中筛选出符合指定标准的通用句式作为标准句式。可以理解的，从多个通用句式中筛选出的符合指定标准的通用句式，可以根据需求具有一定的泛化能力且具有一定的具象含义。

在一些实施方式中，若所设定的需求为筛选出泛化能力较强且具象含义较弱的通用句式时，则可以基于多个通用句式之间的句式包含关系和每个通用句式的句式复杂度对多个通用句式进行过滤，以筛选出样本覆盖量较大且句式复杂度较小的通用句式作为标准句式。

在一些实施方式中，若所设定的需求为筛选出泛化能力较弱且具象含义较强的通用句式时，则可以基于多个通用句式之间的句式包含关系和每个通用句式的句式复杂度对多个通用句式进行过滤，以筛选出样本覆盖量较小且句式复杂度较大的通用句式作为标准句式。

在一些实施方式中，若所设定的需求为筛选出具有一定的泛化能力且具有一定的具象含义的通用句式时，则可以基于多个通用句式之间的句式包含关系和每个通用句式的句式复杂度对多个通用句式进行过滤，以从多个通用句式中筛选出与其他通用句式之间的句式包含关系满足第一指定标准，且句式复杂度满足第二指定标准的通用句式作为标准句式。其中，第一指定标准可以预先设置并存储作为某个通用句式与其他通用句式之间的句式包含关系的判断依据，因此，在获取某个通用句式与其他通用句式之间的句式包含关系后，可以将某个通用句式与其他通用句式之间的句式包含关系与第一指定标准进行比较，以判断某个通用句式与其他通用句式之间的句式包含关系是否满足第一指定标准。其中，第二指定标准可以预先设置并存储作为每个通用句式的句式复杂度的判断依据，因此，在获取每个通用句式的句式复杂度后，可以将每个通用句式的句式复杂度与第二指定标准机型比较，以判断每个通用句式的句式复杂度是否满足第二指定标准。

请参阅图4，图4示出了本申请的图2所示的句式挖掘方法的步骤S240的流程示意图。下面将针对图4所示的流程进行详细的阐述，所述方法具体可以包括以下步骤：

步骤S241：基于所述多个通用句式之间的句式包含关系，获取所述多个通用句式中的每个通用句式的图入度。

在本实施例中，在获取多个通用句式之间的句式包含关系后，可以基于多个通用句式之间的句式包含关系，获取多个通用句式中的每个通用句式的图入度。在一些实施方式中，在获取多个通用句式之间的句式包含关系后，可以基于多个通用句式之间的句式包含关系，获取多个通用句式中的每个通用句式的图入度

其中，图入度

在一定程度上反应了该通用句式的泛化能力，如图3所示，多个通用句式中的通用句式

的图入度

多个通用句式中的通用句式

的图入度

说明通用句式

的泛化能力比通用句式

的泛化能力强。

步骤S242：基于所述每个通用句式的图入度和所述每个通用句式的复杂度对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。

其中，多个通用句式中的每个通用句式的图入度可以用于反应多个通用句式中的每个通用句式的泛化能力，多个通用句式中的每个通用句式的句式复杂度可以用于反应多个通用句式中的每个通用句式的具象含义，因此，在本实施例中，在获取每个通用句式的图入度和每个通用句式的句式复杂度后，可以基于每个通用句式的图入度和每个通用句式的句式复杂度对多个通用句式进行过滤，以从多个通用句式中筛选出符合指定标准的通用句式作为标准句式。可以理解的，从多个通用句式中筛选出的符合指定标准的通用句式，可以根据需求具有一定的泛化能力且具有一定的具象含义。

在一些实施方式中，若所设定的需求为筛选出泛化能力较强且具象含义较弱的通用句式时，则可以基于每个通用句式的图入度和每个通用句式的句式复杂度对多个通用句式进行过滤，以筛选出图入度较大且句式复杂度较小的通用句式作为标准句式。

在一些实施方式中，若所设定的需求为筛选出泛化能力较弱且具象含义较强的通用句式时，则可以基于每个通用句式的图入度和每个通用句式的句式复杂度对多个通用句式进行过滤，以筛选出图入度较小且句式复杂度较大的通用句式作为标准句式。

在一些实施方式中，若所设定的需求为筛选出具有一定的泛化能力且具有一定的具象含义的通用句式时，则可以基于每个通用句式的图入度和每个通用句式的句式复杂度对多个通用句式进行过滤，以从多个通用句式中筛选出图入度满足第三指定标准，且句式复杂度满足第二指定标准的通用句式作为标准句式。其中，第三指定标准可以预先设置并存储作为通用句式的图入度的判断依据，因此，在获取通用句式的图入度后，可以将通用句式的图入度与第三指定标准进行比较，以判断通用句式的图入度是否满足第三指定标准。

在一些实施方式中，可以预先设置并存储指定图入度，该指定图入度用于作为每个通用句式的图入度的判断依据，其中，当通用句式的图入度大于指定图入度时，可以确定该通用句式的图入度满足第三指定标准，当通用句式的图入度不大于指定图入度时，可以确定该通用句式的图入度不满足第三指定标准。可以预先设置并存储指定复杂度，该指定复杂度用于作为每个通用句式的复杂度的判断依据，其中，当通用句式的复杂度大于指定复杂度时，可以确定该通用句式的复杂度满足第二指定标准，当通用句式的复杂度不大于指定复杂度时，可以确定该通用句式的复杂度不满足第二指定标准。因此，在本实施例中，基于上述指定图入度和指定复杂度，可以从多个通用句式中筛选出图入度大于指定图入度，且句式复杂度大于指定复杂度的通用句式作为标准句式，以使获得的标准句式具有一定的泛化能力且具有一定的具象含义。

本申请又一个实施例提供的句式挖掘方法，获取多条待挖掘语料，对多条待挖掘语料进行双序列比对，获得多条待挖掘语料的多个通用句式，获取多个通用句式之间的句式包含关系，并获取多个通用句式中的每个通用句式的句式复杂度，基于多个通用句式之间的句式包含关系和每个通用句式的句式复杂度对多个通用句式进行过滤，从多个通用句式中筛选出符合指定标准的通用句式作为标准句式。相较于图1所示的句式挖掘方法，本实施例通过获取多个通用句式之间的句式包含关系和每个通用句式的句式复杂度对多个通用句式进行过滤，以获取标准句式，以提升获取的标准句式的准确性。

请参阅图5，图5示出了本申请再一个实施例提供的句式挖掘方法的流程示意图。下面将针对图5所示的流程进行详细的阐述，所述句式挖掘方法具体可以包括以下步骤：

步骤S310：获取多条待挖掘语料。

其中，步骤S310的具体描述请参阅步骤S110，在此不再赘述。

步骤S320：获取所述多条待挖掘语料中的每条待挖掘语料的序列类型。

在一些实施方式中，双序列比对可以包括全局比对和局部比对，其中，全局比对是将每个通用句式中的每个剩余部分对齐，通常应用于序列类型相似或者序列长度大致相同的情况，在本实施例中，全局比对可以为基于动态规划的Needleman–Wunsch算法，局部比对更适用于序列类型不太相似的情况，在本实施例中，局部比对可以为Smith–Waterman算法。

在本实施例中，为了从全局比对和局部比对中选取一种更适用的方式对多条待挖掘语料进行双序列比对，可以获取多条待挖掘语料中的每条待挖掘语料的序列类型。

步骤S330：基于所述每条待挖掘语料的序列类型，确定对所述多条待挖掘语料进行双序列比对的处理方式。

在本实施例中，在获取每条待挖掘语料的序列类型后，可以基于每条待挖掘语料的序列类型，确定对多条待挖掘语料进行双序列比对的处理方式。在一些实施方式中，在获取每条待挖掘语料的序列类型后，可以基于每条待挖掘语料的序列类型，从全局比对和局部比对中确定对多条待挖掘语料进行双序列比对的处理方式。

请参阅图6，图6示出了本申请的图5所示的句式挖掘方法的步骤S330的流程示意图。下面将针对图6所示的流程进行详细的阐述，所述方法具体可以包括以下步骤：

步骤S331：基于所述每条待挖掘语料的序列类型，获取所述多条待挖掘语料之间的序列相似度。

在一些实施方式中，在获取每条待挖掘语料的序列类型后，可以基于每条待挖掘语料的序列类型，获取多条待挖掘语料之间的序列相似度。作为一种方式，在获取每条待挖掘语料的序列类型后，可以将多条待挖掘语料的序列类型进行匹配，以获取多条待挖掘语料之间的序列相似度。

步骤S332：基于所述多条待挖掘语料之间的序列相似度，从所述全局比对和所述局部比对中确定对所述多条待挖掘语料进行双序列比对的处理方式。

在一些实施方式中，在获取多条待挖掘语料之间的序列相似度后，可以基于多条待挖掘语料之间的序列相似度，从全局比对和局部比对中确定对多条待挖掘语料进行双序列比对的处理方式，即基于多条待挖掘语料之间的序列相似度，确定采用全局比对作为对多条待挖掘语料进行双序列比对的处理方式，或者确定采用局部比对作为多条待挖掘语料进行双序列比对的处理方式。

请参阅图7，图7示出了本申请的图6所示的句式挖掘方法的步骤S332的流程示意图。下面将针对图7所示的流程进行详细的阐述，所述方法具体可以包括以下步骤：

步骤S3321：当所述多条待挖掘语料之间的序列相似度大于指定相似度时，将所述全局比对确定为对所述多条待挖掘语料进行双序列比对的处理方式。

其中，由于全局比对是将每个序列中的每个剩余部分对齐，通常应用于序列类型相似或者序列长度大致相同的情况，因此，在本实施例中，当多条待挖掘语料之间的序列相似度大于指定相似度时，可以将全局比对确定为对多条待挖掘语料进行双序列比对的处理方式。

步骤S3322：当所述多条待挖掘语料之间的序列相似度不大于指定相似度时，将所述局部比对确定为对所述多条待挖掘语料进行双序列比对的处理方式。

其中，由于局部比对更加适用于序列类型不太相似的情况，因此，在本实施例中，在多条待挖掘语料之间的序列相似度不大于指定相似度时，可以将局部比对确定为对多条待挖掘语料进行双序列比对的处理方式。

步骤S340：基于所述处理方式对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式。

步骤S350：对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。

其中，步骤S340-步骤S350的具体描述请参阅步骤S120-步骤S130，在此不再赘述。

本申请再一个实施例提供的句式挖掘方法，获取多条待挖掘语料，获取多条待挖掘语料中的每条待挖掘语料的序列类型，基于每条待挖掘语料的序列类型，确定对多条待挖掘语料进行双序列比对的处理方式，基于该处理方式对多条待挖掘语料进行双序列比对，获得多条待挖掘语料对应的多个通用句式，对多个通用句式进行过滤，从多个通用句式中筛选出符合指定标准的通用句式作为标准句式。相较于图1所示的句式挖掘方法，本实施例基于每条待挖掘语料的语料类型，确定所采用的双序列比对方式，以提升获得的通用句式的准确性。

请参阅图8，图8示出了本申请另一个实施例提供的句式挖掘方法的流程示意图。下面将针对图8所示的流程进行详细的阐述，所述句式挖掘方法具体可以包括以下步骤：

步骤S410：获取多条待挖掘语料。

步骤S420：对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式。

步骤S430：对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。

其中，步骤S410-步骤S430的具体描述请参阅步骤S110-步骤S130，在此不再赘述。

步骤S440：输出所述标准句式。

在一些实施方式中，在获取标准句式后，可以输出该标准句式为后续NLP下游任务服务。基于此，本实施例可以用于辅助意图识别：自动从用户历史问答数据中挖掘高频问句/问法，辅助分析人员/产品经理快速了解用户意图，解放人工成本。基于此，本实施例还可以用于提升文本分类模型效果：短文本分类任务中，部分句式配合实体信息有效处理实体依赖的分类文本，作为先验/外部知识嵌入模型。基于此，本实施例还可以用于社区问答任务答案模板：NLP问答任务中，发现用户的高频问法，再针对性地准备答案模板句式(部分敏感性垂域问答中一些问题的答案需要限定为某种句式，如金融客服)，或者从大规模社区问答(Q，A)对中挖掘Q和A的句式，将A整理为Q的答案模板。

请参阅图9，图9示出了本申请的图8所示的句式挖掘方法的步骤S440的流程示意图。下面将针对图9所示的流程进行详细的阐述，所述方法具体可以包括以下步骤：

步骤S441：当所述标准句式为询问句式时，基于所述标准句式获取标准答复句式。

在一些实施方式中，可以对所确定的标准句式的句式格式进行识别，其中，句式格式可以包括陈述句式、询问句式等，在本实施例中，当识别到标准句式为询问句式时，可以基于该标准句式获取与该标准句式对应的标准答复句式，其中，一个标准句式可以对应一个标准答复句式，可以对应多个标准答复句式等，在此不做限定。

步骤S442：输出所述标准句式和所述标准答复句式。

在一些实施方式中，在获取标准句式和标准答复句式后，可以输出该标准句式和标准答复句式。

本申请另一个实施例提供的句式挖掘方法，获取多条待挖掘语料，对多条待挖掘语料进行双序列比对，获得多条待挖掘语料对应的多个通用句式，对多个通用句式进行过滤，从多个通用句式中筛选出符合指定标准的通用句式作为标准句式，输出标准句式。相较于图1所示的句式挖掘方法，本实施例还输出标准句式以供相应的下游任务使用，以提升下游任务的的准确响应。

请参阅图10，图10示出了本申请又再一个实施例提供的句式挖掘方法的流程示意图。下面将针对图10所示的流程进行详细的阐述，所述句式挖掘方法具体可以包括以下步骤：

步骤S510：获取训练数据集，所述训练数据集包括多个语料和多个标准句式。

其中，本申请实施例中还包括句式挖掘模型的训练方法，其中，对句式挖掘模型的训练可以是根据获取的训练数据集预先进行的，后续在每次进行句式挖掘时，则可以根据该句式挖掘模型进行挖掘处理，而无需每次进行句式时对句式挖掘模型进行训练。

在一些实施方式中，可以收集训练数据集，其中，训练数据集包括多个语料和多个标准问句。

步骤S520：基于所述训练数据集，将每个语料作为输入数据，以及每个标准句式作为输出数据，通过机器学习算法进行训练，获得已训练的句式挖掘模型。

在本申请实施例中，针对该训练数据集，可以采用机器学习算法进行训练，从而获句式挖掘模型。其中，采用的机器学习算法可以包括：神经网络、长短期记忆(Long Short-Term Memory,LSTM)网络、门限循环单元、简单循环单元、自动编码器、决策树、随机森林、特征均值分类、分类回归树、隐马尔科夫、K最近邻(k-NearestNeighbor，KNN)算法、逻辑回归模型、贝叶斯模型、高斯模型以及KL散度(Kullback–Leibler divergence)等。具体的机器学习算法可以不作为限定。

下面以神经网络为例，对根据训练数据集合训练初始模型进行说明。

训练数据集中一组数据中的语料作为神经网络的输入样本(输入数据)，一组数据中的标准句式作为神经网络的输出样本(输出数据)。输入层中的神经元与隐藏层的神经元全连接，隐藏层的神经元与输出层的神经元全连接，从而能够有效提取不同粒度的潜在特征。并且隐藏层数目可以为多个，从而能更好地拟合非线性关系，使得训练得到的句式挖掘模型更加准确。

可以理解的，对句式挖掘模型的训练过程可以由电子设备完成，也可以不由电子设备完成。当训练过程不由电子设备完成时，则电子设备可以只是作为直接使用者，也可以是间接使用者。

在一些实施方式中，句式挖掘模型可以周期性的或者不定期的获取新的训练数据，对该句式挖掘模型进行训练和更新。

步骤S530：获取多条待挖掘语料。

步骤S540：对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式。

步骤S550：对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。

其中，步骤S530-步骤S540的具体描述请参阅步骤S110-步骤S130，在此不再赘述。

本申请又再一个实施例提供的句式挖掘方法，获取训练数据集，训练数据集包括多个语料和多个标准句式，基于训练数据集，将每个语料作为输入数据，以及每个标准句式作为输出数据，通过机器学习算法进行训练，获得已训练的句式挖掘模型，获取多条待挖掘语料，对多条待挖掘语料进行双序列比对，获得多条待挖掘语料对应的多个通用句式，对多个通用句式进行过滤，从多个通用句式中筛选出符合指定标准的通用句式作为标准句式。相较于图1所示的句式挖掘方法，本实施例还收集训练数据集进行训练获得句式挖掘模型进行语料的标准句式挖掘，以提升获取的标准句式的准确性。

请参阅图11，图11示出了本申请实施例提供的句式挖掘装置200的模块框图，下面将针对图11所示的框图进行阐述，所述句式挖掘装置200包括：待挖掘语料获取模块210、通用句式获得模块220以及标准句式获得模块230，其中：

待挖掘语料获取模块210，用于获取多条待挖掘语料。

通用句式获得模块220，用于对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式。

进一步地，通用句式获得模块220包括：序列类型获取子模块、处理方式确定子模块以及通用句式获得子模块，其中：

序列类型获取子模块，用于获取所述多条待挖掘语料中的每条待挖掘语料的序列类型。

处理方式确定子模块，用于基于所述每条待挖掘语料的序列类型，确定对所述多条待挖掘语料进行双序列比对的处理方式。

进一步地，所述处理方式确定子模块包括：处理方式确定单元，其中：

处理方式确定单元，用于基于所述每条待挖掘语料的序列类型，从全局比对和局部比对中确定对所述多条待挖掘语料进行双序列比对的处理方式。

进一步地，所述处理方式确定单元包括：序列相似度获取子单元和处理方式确定子单元，其中：

序列相似度获取子单元，用于基于所述每条待挖掘语料的序列类型，获取所述多条待挖掘语料之间的序列相似度。

处理方式确定子单元，用于基于所述多条待挖掘语料之间的序列相似度，从所述全局比对和所述局部比对中确定对所述多条待挖掘语料进行双序列比对的处理方式。

进一步地，所述处理方式确定子单元包括：第一处理方式确定子子单元和第二处理方式确定子子单元，其中：

第一处理方式确定子子单元，用于当所述多条待挖掘语料之间的序列相似度大于指定相似度时，将所述全局比对确定为对所述多条待挖掘语料进行双序列比对的处理方式。

第二处理方式确定子子单元，用于当所述多条待挖掘语料之间的序列相似度不大于指定相似度时，将所述局部比对确定为对所述多条待挖掘语料进行双序列比对的处理方式。

通用句式获得子模块，用于基于所述处理方式对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式。

标准句式获得模块230，用于对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。

进一步地，所述标准句式获得模块230包括：信息获取子模块和标准句式获得子模块，其中：

信息获取子模块，用于获取所述多个通用句式之间的句式包含关系，并获取所述多个通用句式中的每个通用句式的句式复杂度。

进一步地，所述信息获取子模块包括：句式复杂度获取单元，其中：

句式复杂度获取单元，用于基于

获取所述多个通用句式中的每个通用句式的句式复杂度，其中，n表示所述通用句式被分割的次数，t表示所述通用句式中的每个分隔段的字数。

标准句式获得子模块，用于基于所述多个通用句式之间的句式包含关系和所述每个通用句式的句式复杂度对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。

进一步地，所述标准句式获得子模块包括：第一标准句式获得单元，其中：

第一标准句式获得单元，用于从所述多个通用句式中筛选出与其他通用句式之间的句式包含关系满足第一指定标准，且句式复杂度满足第二指定标准的通用句式作为标准句式。

进一步地，所述标准句式获得子模块包括：图入度获取单元和第二标准句式获得单元，其中：

图入度获取单元，用于基于所述多个通用句式之间的句式包含关系，获取所述多个通用句式中的每个通用句式的图入度。

第二标准句式获得单元，用于基于所述每个通用句式的图入度和所述每个通用句式的复杂度对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。

进一步地，所述第二标准句式获得单元包括：标准句式获得子单元，其中：

标准句式获得子单元，用于从所述多个通用句式中筛选出图入度满足第三指定标准，且句式复杂度满足第二指定标准的通用句式作为标准句式。

进一步地，所述标准句式获得子单环包括：标准句式获得子子单元，其中：

标准句式获得子子单元，用于从所述多个通用句式中筛选出图入度大于指定图入度，且句式复杂度大于指定复杂度的通用句式作为标准句式。

进一步地，所述句式挖掘装置200还包括：标准句式输出模块，其中：

标准句式输出模块，用于输出所述标准句式。

进一步地，所述标准句式输出模块包括：标准答复句式获取子模块和标准句式输出子模块，其中：

标准答复句式获取子模块，用于当所述标准句式为询问句式时，基于所述标准句式获取标准答复句式。

标准句式输出子模块，用于输出所述标准句式和所述标准答复句式。

进一步地，所述句式挖掘装置200还包括：训练数据集获取模块和句式挖掘模型训练模块，其中：

训练数据集获取模块，用于获取训练数据集，所述训练数据集包括多个语料和多个标准句式。

句式挖掘模型训练模块，那个鱼基于所述训练数据集，将每个语料作为输入数据，以及每个标准句式作为输出数据，通过机器学习算法进行训练，获得已训练的句式挖掘模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图12，其示出了本申请实施例提供的一种电子设备100的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

其中，处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责待显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图13，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质300中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的句式挖掘方法、装置、电子设备以及存储介质，获取多条待挖掘语料，对多条待挖掘语料进行双序列比对，获得多条待挖掘语料对应的多个通用句式，对多个通用句式进行过滤，从多个通用句式中筛选出符合指定标准的通用句式作为标准句式，从而通过对待挖掘语料进行双序列比对获得通用句式，再对通用句式进行过滤获得标准句式，以快速便捷的从待挖掘语料中获得标准句式以供处理。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种句式挖掘方法，其特征在于，所述方法包括：

获取多条待挖掘语料；

对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式；

对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。
根据权利要求1所述的方法，其特征在于，所述对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式，包括：

获取所述多个通用句式之间的句式包含关系，并获取所述多个通用句式中的每个通用句式的句式复杂度；

基于所述多个通用句式之间的句式包含关系和所述每个通用句式的句式复杂度对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。
根据权利要求2所述的方法，其特征在于，所述从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式，包括：

从所述多个通用句式中筛选出与其他通用句式之间的句式包含关系满足第一指定标准，且句式复杂度满足第二指定标准的通用句式作为标准句式。
根据权利要求2所述的方法，其特征在于，所述基于所述多个通用句式之间的句式包含关系和所述每个通用句式的句式复杂度对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式，包括

基于所述多个通用句式之间的句式包含关系，获取所述多个通用句式中的每个通用句式的图入度；

基于所述每个通用句式的图入度和所述每个通用句式的复杂度对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。
根据权利要求4所述的方法，其特征在于，所述从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式，包括：

从所述多个通用句式中筛选出图入度满足第三指定标准，且句式复杂度满足第二指定标准的通用句式作为标准句式。
根据权利要求5所述的方法，其特征在于，所述从所述多个通用句式中筛选出图入度满足第三指定标准，且句式复杂度满足第二指定标准的通用句式作为标准句式，包括：

从所述多个通用句式中筛选出图入度大于指定图入度，且句式复杂度大于指定复杂度的通用句式作为标准句式。
根据权利要求2-6任一项所述的方法，其特征在于，所述获取所述多个通用句式中的每个通用句式的句式复杂度，包括：

基于
获取所述多个通用句式中的每个通用句式的句式复杂度，其中，n表示所述通用句式被分割的次数，t表示所述通用句式中的每个分隔段的字数。
根据权利要求1-7任一项所述的方法，其特征在于，所述对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式，包括：

获取所述多条待挖掘语料中的每条待挖掘语料的序列类型；

基于所述每条待挖掘语料的序列类型，确定对所述多条待挖掘语料进行双序列比对的处理方式；

基于所述处理方式对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式。
根据权利要求8所述的方法，其特征在于，所述基于所述每条待挖掘语料的序列类型，确定对所述多条待挖掘语料进行双序列比对的处理方式，包括：

基于所述每条待挖掘语料的序列类型，从全局比对和局部比对中确定对所述多条待挖掘语料进行双序列比对的处理方式。
根据权利要求9所述的方法，其特征在于，所述基于所述每条待挖掘语料的序列类型，从全局比对和局部比对中确定对所述多条待挖掘语料进行双序列比对的处理方式，包括：

基于所述每条待挖掘语料的序列类型，获取所述多条待挖掘语料之间的序列相似度；

基于所述多条待挖掘语料之间的序列相似度，从所述全局比对和所述局部比对中确定对所述多条待挖掘语料进行双序列比对的处理方式。
根据权利要求10所述的方法，其特征在于，所述基于所述多条待挖掘语料之间的序列相似度，从所述全局比对和所述局部比对中确定对所述多条待挖掘语料进行双序列比对的处理方式，包括：

当所述多条待挖掘语料之间的序列相似度大于指定相似度时，将所述全局比对确定为对所述多条待挖掘语料进行双序列比对的处理方式；

当所述多条待挖掘语料之间的序列相似度不大于指定相似度时，将所述局部比对确定为对所述多条待挖掘语料进行双序列比对的处理方式。
根据权利要求9-11任一项所述的方法，其特征在于，所述全局比对包括Needleman–Wunsch算法。
根据权利要求9-12任一项所述的方法，其特征在于，所述局部比对包括Smith–Waterman算法。
根据权利要求1-13任一项所述的方法，其特征在于，所述对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式，包括：

输出所述标准句式。
根据权利要求14所述的方法，其特征在于，所述输出所述标准句式，包括：

当所述标准句式为询问句式时，基于所述标准句式获取标准答复句式；

输出所述标准句式和所述标准答复句式。
根据权利要求1-15任一项所述的方法，其特征在于，所述获取多条待挖掘语料之前，还包括：

获取训练数据集，所述训练数据集包括多个语料和多个标准句式；

基于所述训练数据集，将每个语料作为输入数据，以及每个标准句式作为输出数据，通过机器学习算法进行训练，获得已训练的句式挖掘模型。
一种句式挖掘装置，其特征在于，所述装置包括：

待挖掘语料获取模块，用于获取多条待挖掘语料；

通用句式获得模块，用于对所述多条待挖掘语料进行双序列比对，获得所述多条待挖掘语料对应的多个通用句式；

标准句式获得模块，用于对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。
根据权利要求17所述的装置，其特征在于，所述标准句式获得模块，包括：

信息获取子模块，用于获取所述多个通用句式之间的句式包含关系，并获取所述多个通用句式中的每个通用句式的句式复杂度；

标准句式获得子模块，用于基于所述多个通用句式之间的句式包含关系和所述每个通用句式的句式复杂度对所述多个通用句式进行过滤，从所述多个通用句式中筛选出符合指定标准的通用句式作为标准句式。
一种电子设备，其特征在于，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行如权利要求1-16任一项所述的方法。
一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-16任一项所述的方法。