WO2021237562A1

WO2021237562A1 - 文本模板提取方法、电子设备和存储介质

Info

Publication number: WO2021237562A1
Application number: PCT/CN2020/092871
Authority: WO
Inventors: 汪庆华
Original assignee: 深圳市欢太数字科技有限公司
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2021-12-02
Also published as: CN115803748A

Abstract

一种文本模板提取方法、电子设备(100)和存储介质。文本模板提取方法包括：获取文本数据集中的一组原始语句组，原始语句组包括多个待处理语句(S12)；建立多个待处理语句的匹配矩阵(S13)；根据匹配矩阵确定多个待处理语句中是否存在匹配部分(S14)；在根据匹配矩阵确定多个待处理语句中存在匹配部分时，移除每个待处理语句中的匹配部分，以更新多个待处理语句(S17)，并进入确定多个待处理语句的匹配矩阵的步骤；在根据匹配矩阵确定多个待处理语句中不存在匹配部分时，将当前的多个待处理语句作为最终语句组，并根据通配符和最终语句组处理原始语句组，以得到原始语句组的模板(S18)。

Description

文本模板提取方法、电子设备和存储介质

技术领域

本申请涉及数据处理技术领域，特别涉及一种文本模板提取方法、电子设备和存储介质。

背景技术

大数据时代产生了大量的格式化信息。这些格式化信息蕴含着大量的用户的使用习惯、行为习惯等目标信息，具有较高价值。相关技术通常从这些格式化信息中提取模板，以通过模板更有效、更准确地从格式化信息中获取目标信息。然而，相关技术在从格式化信息中提取模板的过程中，人工介入的程度较高，模板提取的效率和准确性较低。

发明内容

本申请提供了一种文本模板提取方法、电子设备和存储介质。

本申请实施方式提供了一种文本模板提取方法。所述文本模板提取方法包括：

获取文本数据集中的一组原始语句组，所述原始语句组包括多个待处理语句；

建立多个所述待处理语句的匹配矩阵；

根据所述匹配矩阵确定多个所述待处理语句中是否存在匹配部分；

在根据所述匹配矩阵确定多个所述待处理语句中存在匹配部分时，移除每个所述待处理语句中的所述匹配部分，以更新多个所述待处理语句，并进入所述确定多个所述待处理语句的匹配矩阵的步骤；

在根据所述匹配矩阵确定多个所述待处理语句中不存在匹配部分时，将当前的多个所述待处理语句作为最终语句组，并根据通配符和所述最终语句组处理所述原始语句组，以得到所述原始语句组的模板。

本申请实施方式提供了一种电子设备。所述电子设备包括处理器，所述处理器用于获取文本数据集中的一组原始语句组，所述原始语句组包括多个待处理语句；及用于建立多个所述待处理语句的匹配矩阵；及用于根据所述匹配矩阵确定多个所述待处理语句中是否存在匹配部分；及用于在根据所述匹配矩阵确定多个所述待处理语句中存在匹配部分时，移除每个所述待处理语句中的所述匹配部分，以更新多个所述待处理语句，并进入所述确定多个所述待处理语句的匹配矩阵的步骤；以及用于在根据所述匹配矩阵确定多个所述待处理语句中不存在匹配部分时，将当前的多个所述待处理语句作为最终语句组，并根据通配符和所述最终语句组处理所述原始语句组，以得到所述原始语句组的模板。

本申请实施方式提供了一种包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行上述的文本模板提取方法。

本申请实施方式的文本模板提取方法、电子设备和存储介质，从文本数据集中获取一组原始语句组，原始语句组包括多个待处理语句，再直接对多个待处理语句进行提取处理，以得到原始语句组的模板，无需在提取处理前对待处理语句进行标注和编码，既避免了标注和编码产生的误差，又减少了人工介入，有利于提高模板提取的效率和准确性。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请实施方式的文本模板提取方法的流程示意图；

图2是本申请实施方式的电子设备的模块示意图；

图3是本申请另一实施方式的文本模板提取方法的流程示意图；

图4是本申请又一实施方式的文本模板提取方法的流程示意图；

图5是本申请再一实施方式的文本模板提取方法的流程示意图；

图6是本申请实施方式的文本模板提取方法的匹配矩阵的建立过程示意图；

图7是本申请另一实施方式的文本模板提取方法的流程示意图；

图8是本申请又一实施方式的文本模板提取方法的流程示意图；

图9是本申请再一实施方式的文本模板提取方法的流程示意图；

图10是本申请另一实施方式的文本模板提取方法的流程示意图；

图11是本申请又一实施方式的文本模板提取方法的流程示意图；

图12是本申请再一实施方式的文本模板提取方法的流程示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

请参阅图1，本申请实施方式提供了一种文本模板提取方法。文本模板提取方法包括：

步骤S12：获取文本数据集中的一组原始语句组，原始语句组包括多个待处理语句；

步骤S13：建立多个待处理语句的匹配矩阵；

步骤S14：根据匹配矩阵确定多个待处理语句中是否存在匹配部分；

步骤S17：在根据匹配矩阵确定多个待处理语句中存在匹配部分时，移除每个待处理语句中的匹配部分，以更新多个待处理语句，并进入确定多个待处理语句的匹配矩阵的步骤；

步骤S18：在根据匹配矩阵确定多个待处理语句中不存在匹配部分时，将当前的多个待处理语句作为最终语句组，并根据通配符和最终语句组处理原始语句组，以得到原始语句组的模板。

请参阅图2，本申请实施方式提供了一种电子设备100。电子设备100包括处理器101，处理器101用于获取文本数据集中的一组原始语句组，原始语句组包括多个待处理语句；及用于建立多个待处理语句的匹配矩阵；及用于根据匹配矩阵确定多个待处理语句中是否存在匹配部分；及用于在根据匹配矩阵确定多个待处理语句中存在匹配部分时，移除每个待处理语句中的匹配部分，以更新多个待处理语句，并进入确定多个待处理语句的匹配矩阵的步骤；以及用于在根据匹配矩阵确定多个待处理语句中不存在匹配部分时，将当前的多个待处理语句作为最终语句组，并根据通配符和最终语句组处理原始语句组，以得到原始语句组的模板。

本申请实施方式的文本模板提取方法和电子设备100，从文本数据集中获取一组原始语句组，原始语句组包括多个待处理语句，再直接对多个待处理语句进行提取处理，以得到原始语句组的模板，无需在提取处理前对待处理语句进行标注和编码，既避免了标注和编码产生的误差，又减少了人工介入，有利于提高模板提取的效率和准确性。

可以理解，大数据时代产生了大量的格式化信息。这些格式化信息蕴含着大量的用户的使用习惯、行为习惯等目标信息，具有较高价值。相关技术通常从这些格式化信息中提取模板，以通过模板更有效、更准确地从格式化信息中获取目标信息。

例如，相关技术通常以纯人工的方式从格式化信息中提取模板。然而，当下的信息量已呈井喷之势，通过纯人工提取模板，费时费力。纯人工的方式仅能在小数据集上使用，对于工业界中的实际应用而言，不具备应用价值。

又如，相关技术可先将待处理的文本分词向量化(embedding)，例如通过word2vector算法向量化，然后进行聚类，再对每一类抽样，最后由人工提取出模板。这种方法在一定程度上减少了人力。然而，由于向量化之前需要先对文本分词，因此分词的开销不可避免。而且，由于分词源词典的不同，不同的分词算法可能会得到不同的结果。另外，受限于分词词典，分词结果的准确性大大地影响着本方案的准确程度。此外，采用聚类的方法将相同模板的数据聚到一起，受到聚类算法的限制。不同的聚类算法可能会得到不同的结果。同时聚类算法是随机初始化的无监督算法，在未知分布的数据集上进行聚类时，很有可能出现偏差较大的情况，大大增加了后续人工提取的成本。

换言之，相关技术在从格式化信息中提取模板的过程中，人工介入的程度较高，模板提取的效率和准确性较低。

而本申请实施方式的文本模板提取方法和电子设备100，在语句的维度，基于语句的字，直接对多个待处理语句进行提取处理，以得到原始语句组的模板，无需在提取处理前对待处理语句进行分词、标注和编码，既避免了分词、标注和编码产生的误差和额外开销，又减少了人工介入，有利于提高模板提取的效率和准确性。

在步骤S12中，文本数据集可为格式化语句的数据集。或者说，多个待处理语句可为格式化语句。可以理解，格式化语句是指语句具备固定的格式，这些格式与本申请实施方式的方法所要提取出的模板相关。如此，提高从多个待处理语句中提取出模板的可能性，避免由于语句为非格式化语句而导致无法从待处理语句中提取出模板。

格式化语句可为短信息，例如验证码类的短信、通知类的短信。或者说，本申请实施方式的文本模板提取方法可应用于短信息的模板提取的场景。

可以理解，本申请实施方式的文本模板提取方法还可应用于push消息的模板提取、邮件主题的模板提取、垃圾邮件过滤规则生成等场景。在此不进行限定。

一组原始语句组所包括的多个待处理语句的数量可以为：2个、3个、4个、5个或其他数值。在此不进行限定。

在步骤S13中，匹配矩阵的具体形式可与待处理语句的数量对应。例如，在待处理语句的数量为两个的情况下，匹配矩阵可为二维矩阵；又如，在待处理语句的数量为三个的情况下，匹配矩阵可为三维矩阵；再如，在待处理语句的数量为四个的情况下，匹配矩阵可为四维矩阵。

在步骤S14中，匹配部分可指每个待处理语句中的相同部分、相似部分、对应部分中的至少一种。可以通过用户输入的输入信息确定具体的判断标准，在此不进行限定。如此，可以灵活设置具体的判断标准，提高文本模板提取方法的适用性。

为方便解释和说明，接下来以匹配部分指每个待处理语句中的相同部分为例进行解释和说明。

在步骤S17和步骤S18中，根据匹配矩阵确定多个待处理语句中存在匹配部分，是指，每个待处理语句中均包括匹配部分。换言之，匹配部分是每个待处理语句的子字符串。

例如，待处理语句的数量为三个，分别为：“欢迎来到上海”、“欢迎来到深圳”、“欢迎来到北京”，则可确定多个待处理语句中存在匹配部分，匹配部分为“欢迎来到”。

又如，待处理语句的数量为三个，分别为：“上海”、“深圳”、“北京”，则可确定多个待处理语句中不存在匹配部分。

可以理解，由于本申请实施方式的文本模板提取方法可以提高模板提取的准确性，因此，利用模板从待处理信息中获取目标信息的准确性也会提高，也即是可以更有效、更准确地从格式化信息中获取目标信息。

例如，原始语句组包括三个待处理语句，分别为：“欢迎来到上海”、“欢迎来到深圳”、“欢迎来到北京”。经过本申请实施方式的方法处理后，得到的原始语句组的模板是：“欢迎来到*”。

这样，就可以通过“欢迎来到*”的模板，提取目标信息，即用户的出行地点。而且可以避免噪音对提取目标信息的影响。噪音例如为“今天北京的气温是10度到20度”、“您本月的流量已经用完请及时充值”。

又如，原始语句组包括两个待处理语句，分别为：“今天北京的气温是10度到20度”、“今天深圳的气温是5度到15度”。经过本申请实施方式的方法处理后，得到的原始语句组的模板是：“今天*的气温是*度到*度”

这样，就可以通过“今天*的气温是*度到*度”的模板，提取目标信息，即用户出行地的气温范围。而且可以避免噪音对提取目标信息的影响。噪音例如为“欢迎来到北京”、“您本月的流量已经用完请及时充值”。

再如，原始语句组包括两个待处理语句，分别为：“您本月的流量已经用完请及时充值”、“您本月的话费已经用完请及时充值”。经过本申请实施方式的方法处理后，得到的原始语句组的模板是：“您本月的*已经用完请及时充值”

这样，就可以通过“您本月的*已经用完请及时充值”的模板，提取目标信息，即用户需要充值的对象。而且可以避免噪音对提取目标信息的影响。噪音例如为“欢迎来到北京”、“今天北京的气温是10度到20度”。

在步骤S18中，根据通配符和最终语句组处理原始语句组，使得原始语句组的模板包括通配符。而通配符可以通用匹配，以对数据进行模糊搜索。这样，后续就可以利用原始语句组的搜索数据，从而使得搜索到的数据满足模板。可以理解，原始语句组的模板，可为正则表达式。

请参阅图3，在某些实施方式中，步骤S13包括：

步骤S131：确定每个待处理语句中的每个待处理字符与其他待处理语句中的每个待处理字符的匹配分值；

步骤S132：根据匹配分值建立匹配矩阵。

在某些实施方式中，处理器101用于确定每个待处理语句中的每个待处理字符与其他待处理语句中的每个待处理字符的匹配分值；以及用于根据匹配分值确定匹配矩阵。

如此，通过待处理字符的匹配分值来建立多个待处理语句的匹配矩阵，可以在字符级别对匹配程度进行量化，从而使得匹配矩阵的建立更加细致、高效、准确。

具体地，在步骤S131中，对于每个待处理语句，可根据该待处理语句的字符顺序，依次确定每个待处理字符与其他待处理语句中的每个待处理字符的匹配分值。如此，使得确定匹配分值的过程更加规律，避免由于确定过程混乱而引起的结果错误。

例如，待处理语句的数量为两个，分别为：“请向北”、“请向南”。可先确定“请向北”中的“请”，与“请向南”中的“请”的匹配分值；再确定“请向北”中的“请”，与“请向南”中的“向”的匹配分值；再确定“请向北”中的“请”，与“请向南”中的“南”的匹配分值；

然后，可确定“请向北”中的“向”，与“请向南”中的“请”的匹配分值；再确定“请向北”中的“向”，与“请向南”中的“向”的匹配分值；再确定“请向北”中的“向”，与“请向南”中的“南”的匹配分值；

然后，可确定“请向北”中的“北”，与“请向南”中的“请”的匹配分值；再确定“请向北”中的“北”，与“请向南”中的“向”的匹配分值；再确定“请向北”中的“北”，与“请向南”中的“南”的匹配分值。

在步骤S132中，根据匹配分值建立匹配矩阵，可将匹配分值直接作为匹配矩阵的矩阵值；也可根据匹配分值计算匹配矩阵的矩阵值。在此不对根据匹配分值建立匹配矩阵的具体方式进行限定。

请参阅图4，在某些实施方式中，多个待处理语句包括第一语句和第二语句，步骤S131包括：

步骤S1311：在第一语句的第一当前字符与第二语句的第二当前字符匹配时，将第一预设分值作为第一当前字符和第二当前字符的匹配分值；

步骤S1312：在第一当前字符与第二当前字符不匹配时，将第二预设分值作为第一当前字符和第二当前字符的匹配分值，第二预设分值小于第一预设分值。

在某些实施方式中，多个待处理语句包括第一语句和第二语句，处理器101用于在第一语句的第一当前字符与第二语句的第二当前字符匹配时，将第一预设分值作为第一当前字符和第二当前字符的匹配分值；以及用于在第一当前字符与第二当前字符不匹配时，将第二预设分值作为第一当前字符和第二当前字符的匹配分值，第二预设分值小于第一预设分值。

如此，通过第一预设分值和第二预设分值，实现匹配分值的确定，可以避免匹配分值的数值种类过多，可以减少计算的复杂度，有利于缩短文本模板提取方法的执行时间。

请注意，第一当前字符与第二当前字符匹配，可指第一当前字符与第二当前字符相同、相似、对应中的至少一种情况。可以通过用户输入的输入信息确定具体的匹配标准，在此不进行限定。如此，可以灵活设置具体的匹配标准，提高文本模板提取方法的适用性。

为方便解释和说明，接下来以第一当前字符与第二当前字符匹配指第一当前字符与第二当前字符相同为例进行解释和说明。

在本实施方式中，第一语句为：A＝a ₁a ₂a ₃…a _n；第二语句为：B＝b ₁b ₂b ₃…b _m。其中，n和m分别为第一语句和第二语句的长度。可通过以下公式确定匹配分值：

其中，i＝1,2,3……n；j＝1,2,3……m。+3为第一预设分值；-3为第二预设分值；a _i为第一当前字符；b _j为第二当前字符；S(a _i，b _j)为第一当前字符与第二当前字符的匹配分值。

也即是说，在a _i＝b _j时，即，第一当前字符与第二当前字符相同时，第一当前字符与第二当前字符的匹配分值为+3，也即是第一预设分值；在a _i≠b _j时，即，第一当前字符与第二当前字符不相同时，第一当前字符与第二当前字符的匹配分值为-3，也即是第二预设分值。

可以理解，在其他的示例中，第一预设分值也可为+1、+2、+4或其他数值；第二预设分值也可为-1、-2、-5或其他数值；第一预设分值和第二预设分值可互为相反数，也可不互为相反数。在此不对第一预设分值和第二预设分值的具体数值和具体关系进行限定。

请参阅图5，在某些实施方式中，多个待处理语句包括第一语句和第二语句，第一语句包括第一当前字符，第二语句包括第二当前字符，匹配分值包括第一当前字符与第二当前字符的当前匹配分值，匹配矩阵包括当前位置，步骤S132包括：

步骤S1320：以预设的初始值初始化匹配矩阵的第一行和第一列；

步骤S1321：根据当前匹配分值，和当前位置的左上方位置的矩阵值，确定当前位置的第一待选值；

步骤S1322：将当前位置的每个上方位置的矩阵值减去第一惩罚值，以得到每个上方惩罚值，并将上方惩罚值中的最大值作为当前位置的第二待选值；

步骤S1323：将当前位置的每个左方位置的矩阵值减去第二惩罚值，以得到每个左方惩罚值，并将左方惩罚值中的最大值作为当前位置的第三待选值；

步骤S1324：将第一待选值、第二待选值、第三待选值和初始值中的最大值，作为当前位置的矩阵值。

在某些实施方式中，多个待处理语句包括第一语句和第二语句，第一语句包括第一当前字符，第二语句包括第二当前字符，匹配分值包括第一当前字符与第二当前字符的当前匹配分值，匹配矩阵包括当前位置，处理器101用于以预设的初始值初始化匹配矩阵的第一行和第一列；及用于根据当前匹配分值，和当前位置的左上方位置的矩阵值，确定当前位置的第一待选值；及用于将当前位置的每个上方位置的矩阵值减去第一惩罚值，以得到每个上方惩罚值，并将上方惩罚值中的最大值作为当前位置的第二待选值；及用于将当前位置的每个左方位置的矩阵值减去第二惩罚值，以得到每个左方惩罚值，并将左方惩罚值中的最大值作为当前位置的第三待选值；以及用于将第一待选值、第二待选值、第三待选值和初始值中的最大值，作为当前位置的矩阵值。

如此，根据当前匹配分值和矩阵值确定第一待选值，根据矩阵值和惩罚值确定第二待选值和第三待选值，从而根据第一待选值、第二待选值、第三待选值和初始值确定当前位置的矩阵值，能够实现匹配矩阵的建立。

而且，由于当前矩阵值与其他位置的矩阵值相关，因此，当前矩阵值，能够反映从第一语句的第一个字符至第一当前字符的字符串，与第二语句的第一个字符至第二当前字符的字符串，的匹配程度。这样，避免了字符与字符间的孤立匹配，使得匹配矩阵的矩阵值能够衡量子串与子串是否匹配，进而使得根据匹配矩阵确定第一语句和第二语句中是否存在匹配部分的准确性更高。

具体地，在步骤S1320中，预设的初始值可为-3，-2，-1，0，+1，+2，+3或其他数值。在此不进行限定。在本实施方式中，初始值为0，如此，可以减少后续计算的复杂度，从而缩短方法的执行时长。

在步骤S1321中，本实施方式中，可将当前匹配分值与左上方位置的矩阵值之和作为第一待选值。如此，使得当前位置的矩阵值与左上方位置的矩阵值相关。

可以理解，在其他的一些实施方式中，也可将当前匹配分值与左上方位置的矩阵值之积作为第一待选值；在其他的另一些实施方式中，也可将当前匹配分值与左上方位置的矩阵值代入预设公式，并将所得到的值作为第一待选值。在此不对步骤S1321的具体方式进行限定。

在步骤S1322中，可将当前位置的每个上方位置的矩阵值减去对应的第一惩罚值，以得到每个上方惩罚值。例如，将当前位置的第一上方位置的矩阵值减去第一惩罚子值；将当前位置的第二上方位置的矩阵值减去第二惩罚子值；将当前位置的第三上方位置的矩阵值减去第三惩罚子值。如此，可以对当前位置的每个上方位置的矩阵值进行不同程度的惩罚，使得惩罚更加灵活。

类似地，在步骤S1323中，可将当前位置的每个左方位置的矩阵值减去对应的第二惩罚值，以得到每个左方惩罚值。例如，将当前位置的第一左方位置的矩阵值减去第一惩罚子值；将当前位置的第二左方位置的矩阵值减去第二惩罚子值；将当前位置的第三左方位置的矩阵值减去第三惩罚子值。如此，可以对当前位置的每个左方位置的矩阵值进行不同程度的惩罚，使得惩罚更加灵活。

当然，也可将当前位置的每个上方位置的矩阵值减去相同的第一惩罚值，以得到每个上方惩罚值。也可将当前位置的每个左方位置的矩阵值减去相同的第二惩罚值，以得到每个左方惩罚值。

第一惩罚值可为-3，-2，-1，0，+1，+2，+3或其他数值。第二惩罚值可为-3，-2，-1，0，+1，+2，+3或其他数值。第一惩罚值和第二惩罚值可以相同，也可以不同。在此不对第一惩罚值和第二惩罚值进行限定。

在本实施方式中，第一惩罚值和第二惩罚值相同。如此，可以减少后续计算的复杂度，从而缩短方法的执行时长。

请参阅图6，可以预设的初始值，即0，初始化匹配矩阵H的第一行和第一列。即：H _k,0＝H _0,l＝0；其中，(0≤k≤n，0≤l≤m)。

然后，通过如下公式确定匹配矩阵H的当前位置的矩阵值为H _i,j：

其中，H _i,j为匹配矩阵H的当前位置的矩阵值，H _i-1,j-1为当前位置的左上方位置的矩阵值，S(a _i，b _j)为当前匹配分值，H _i-k,j为当前位置的每个上方位置的矩阵值，W _k为第一惩罚值，k为1至i的遍历，H _i,j-l为当前位置的每个左方位置的矩阵值，l为1至j的遍历，W _l为第二惩罚值，0为初始值。

换言之，可通过公式(2)的H _i-1,j-1+S(a _i，b _j)，求得第一待选值；可通过公式(2)的max _k≥1{H _i-k,j-W _k}，求得第二待选值；可通过公式(2)的max _l≥1{H _i,j-l-W _l}，求得第三待选值；可通过公式(2)的0为初始值。然后，可将第一待选值、第二待选值、第三待选值和初始值中的最大值，作为当前位置的矩阵值。

可以理解，由于当前位置的矩阵值，与当前位置的左上方位置的矩阵值、当前位置的每个上方位置的矩阵值、以及当前位置的每个左方位置的矩阵值相关，因此，匹配矩阵H的填充顺序是：从左至右，从上至下。

可以理解，由于以0初始化了匹配矩阵H的第一行和第一列。因此，匹配矩阵H的大小为n+1行，m+1列。可以理解，H _i,j＝0表示a ₁a ₂a ₃…a _i与b ₁b ₂b ₃…b _j无相似性。

请参阅图7，在某些实施方式中，步骤S14包括：

步骤S141：在匹配矩阵的矩阵值全为预设的初始值时，确定多个待处理语句中不存在匹配部分；

步骤S142：在匹配矩阵的矩阵值不全为预设的初始值时，确定匹配矩阵的最大矩阵值；

步骤S143：根据最大矩阵值回溯匹配矩阵，以确定多个待处理语句中的匹配部分。

在某些实施方式中，处理器101用于在匹配矩阵的矩阵值全为预设的初始值时，确定多个待处理语句中不存在匹配部分；及用于在匹配矩阵的矩阵值不全为预设的初始值时，确定匹配矩阵的最大矩阵值；以及用于根据最大矩阵值回溯匹配矩阵，以确定多个待处理语句中的匹配部分。

如此，实现根据匹配矩阵确定多个待处理语句中是否存在匹配部分，较为简单，有利于提高模板提取的提取效率和准确性。可以理解，“匹配矩阵的矩阵值不全为预设的初始值”，是指，匹配矩阵的矩阵值中存在与初始值不同的值。在一个例子中，预设的初始值为0，匹配矩阵的矩阵值全为0，确定多个待处理语句中不存在匹配部分。在另一个例子中，预设的初始值为0，匹配矩阵的矩阵值除了0还有3，则可确定多个待处理语句中存在匹配部分。

具体地，在步骤S142和步骤S143中，在匹配矩阵的最大矩阵值的数量为一个的情况下，可根据该一个最大矩阵值回溯匹配矩阵，以确定多个待处理语句中的一个匹配部分。在匹配矩阵的最大矩阵值为多个的情况下，可分别根据多个最大矩阵值回溯匹配矩阵，以确定多个待处理语句中的多个匹配部分。在此不进行限定。为方便解释和说明，接下来以匹配矩阵的最大矩阵值的数量为一个进行解释和说明。

具体地，在步骤S143中，可根据最大矩阵值和上述的公式(2)回溯匹配矩阵，以确定多个待处理语句中的匹配部分。如此，可以准确高效地确定匹配部分。

可以理解，基于公式(2)，当前位置的矩阵值H _i,j是第一待选值、第二待选值、第三待选值和初始值中的最大值。而在匹配矩阵的矩阵值不全为预设的初始值时，匹配矩阵的最大矩阵值必然不为初始值。

所以，匹配矩阵的最大矩阵值，必然与其左上方位置的矩阵值、其上方位置的矩阵值或其左方位置的矩阵值中的一个相关。因此，可从最大矩阵值回溯到与最大矩阵值相关的矩阵值，也即是回溯到第一相关值。

接着，对于第一相关值，可以类似的方式继续回溯，以从第一相关值回溯到与第一相关值相关的矩阵值，即第二相关值。对于第二相关值，可以类似的方式继续回溯，以从第二相关值回溯到与第二相关值相关的矩阵值，即第三相关值。以此类推，直到回溯到的值为初始值，无法继续回溯。这样，就可以通过回溯得到一串相关的矩阵值。

而每一个矩阵值，都对应于第一语句的一个字符，和第二语句的一个字符。故，可通过回溯得到的一串相关的矩阵值，确定第一语句的第一子字符串，和第二语句的第二子字符串，第一子字符串和第二子字符串即为匹配部分。

请参阅图8，在某些实施方式中，原始语句组包括原始语句，最终语句组包括与原始语句对应的最终语句，步骤S18包括：

步骤S181：确定原始语句与最终语句的不同字符；

步骤S182：利用通配符连接在原始语句中不相邻的不同字符。

在某些实施方式中，处理器101用于确定原始语句与最终语句的不同字符；以及用于利用通配符连接在原始语句中不相邻的不同字符。

如此，可以实现根据通配符和最终语句组处理原始语句组，以得到原始语句组的模板。具体地，通配符包括但不限于：“*”、“？”、“-”、“+”、“/”中的至少一种。在此不进行限定。

可以理解，原始语句也即是原始语句组中未经处理的语句。最终语句也即是不存在匹配部分的语句。故，原始语句与最终语句的不同字符，也即是原始语句中的匹配部分的字符。

若在原始语句中连续的两个不同字符相邻，则可确定在原始语句中该连续的两个不同字符之间没有其他的字符。若在原始语句中连续的两个不同字符不相邻，则可确定在原始语句中该连续的两个不同字符之间存在其他字符，而这些其他字符，是原始语句组中不匹配的部分。故，可利用通配符连接在原始语句中不相邻的不同字符，以表示该两个不同字符之间存在着不匹配部分。

在步骤S182中，利用通配符连接在原始语句中不相邻的不同字符，是指，将在原始语句中不相邻的不同字符之间的内容用预定数量的通配符替换。在本实施方式中，将在原始语句中不相邻的不同字符之间的内容用一个通配符替换。

如此，可以保证一组原始语句组得到一个模板。可以理解，不同的原始语句中，不相邻的不同字符之间的内容，即不匹配部分，的长度可能不同，如果将在原始语句中不相邻的不同字符之间的内容用通配符逐字符替换，容易导致一组原始语句得到多个模板。

例如，原始语句组包括两个原始语句：“我爱你”、“我讨厌你”。移除匹配部分后，可得到两个最终语句：“爱”、“讨厌”。其中，原始语句“我爱你”和最终语句“爱”对应，不同字符是“我”、“你”。这两个不同字符在原始语句“我爱你”中不相邻，若用通配符“*”在“我爱你”中逐字符替换“我”、“你”之间的内容，则得到的模板是：“我*你”。而原始语句“我讨厌你”和最终语句“讨厌”对应，不同字符是“我”、“你”。这两个不同字符在原始语句“我讨厌你”中不相邻，若用通配符“*”在“我讨厌你”中逐字符替换“我”、“你”之间的内容，则得到的模板是：“我**你”。这样，一组原始语句组，就会得到两个模板。

而如果将在原始语句中不相邻的不同字符之间的内容用一个通配符替换，那么，基于对应的原始语句“我爱你”和最终语句“爱”，所得到的模板是：“我*你”。基于对应的原始语句“我讨厌你”和最终语句“讨厌”，所得到的模板也是：“我*你”。这样，就保证了一组原始语句组得到一个模板。

当然，在其他的实施方式中，可以确定原始语句与最终语句的相同字符；利用通配符替换相同字符以得到待处理模板；将待处理模板中连续的多个通配符缩减为一个以得到原始语句组的模板。如此，也可以实现根据通配符和最终语句组处理原始语句组，以得到原始语句组的模板。在此不对得到原始语句组的模板的具体方式进行限定。

另外，步骤S18还可包括：在模板的首字符与原始语句的首字符不同时，在模板的首字符前添加通配符，以更新模板；在模板的尾字符与原始语句的尾字符不同时，在模板的尾字符后添加通配符，以更新模板。如此，使得提取出的原始语句组的模板的准确性更高。

例如，原始语句组包括两个原始语句：“他说我爱你啊”、“她想我讨厌你吧”。移除匹配部分后，可得到两个最终语句：“他说爱啊”、“她想讨厌吧”。

其中，原始语句“他说我爱你啊”和最终语句“他说爱啊”对应，不同字符是“我”、“你”。将在原始语句中不相邻的不同字符之间的内容用一个通配符替换，那么，所得到的模板是：“我*你”。

而模板“我*你”的首字符“我”与原始语句“他说我爱你啊”的首字符“他”不同，则在模板“我*你”的首字符“我”前添加通配符，以更新模板而得到：“*我*你”。模板“我*你”的尾字符“你”与原始语句的尾字符“啊”不同，则在模板“我*你”的尾字符“你”后添加通配符，以更新模板而得到：“*我*你*”。

类似地，原始语句“她想我讨厌你吧”和最终语句“她想讨厌吧”对应，不同字符是“我”、“你”。将在原始语句中不相邻的不同字符之间的内容用一个通配符替换，那么，所得到的模板是：“我*你”。

而模板“我*你”的首字符“我”与原始语句“她想我讨厌你吧”的首字符“她”不同，则在模板“我*你”的首字符前添加通配符，以得到：“*我*你”。模板“我*你”的尾字符“你”与原始语句的尾字符“吧”不同，则在模板“我*你”的尾字符后添加通配符，以得到：“*我*你*”。

这样，原始语句组的模板是：“*我*你*”。

请注意，以上仅为示例，并不代表对根据通配符和最终语句组处理原始语句组，以得到原始语句组的模板限定。

请参阅图9，在某些实施方式中，文本模板提取方法包括：

步骤S11：将文本数据集中的语句分组，以得到多个原始语句组；

步骤S19：在得到全部原始语句组的模板后，从全部原始语句组的模板中筛选出文本数据集的模板。

在某些实施方式中，处理器101用于将文本数据集中的语句分组，以得到多个原始语句组；以及用于在得到全部原始语句组的模板后，从全部原始语句组的模板中筛选出文本数据集的模板。

如此，实现提取文本数据集的模板，效率较高，准确性也较高。可以理解，由于文本数据集的模板基于全部的原始语句组的模板，因此，可以避免原始语句组的模板的遗漏，从而提高文本数据集的模板的准确性。

具体地，在步骤S11中，可将文本数据集中的两个语句分为一组。如此，可以使得比对的过程更加简单，有利于减少方法的执行时长。

可以理解，对于每个原始语句组，可分别执行步骤S12、步骤S13、步骤S14、步骤S17和步骤S18，以得到每个原始语句组的模板，从而可以从全部的原始语句组的模板中筛选出文本数据集的模板。

请参阅图10，在某些实施方式中，步骤S19包括：

步骤S191：对全部原始语句组的模板进行去重处理，以得到多个待选模板；

步骤S192：确定每个待选模板的模板分值；

步骤S193：根据模板分值从多个待选模板中筛选出文本数据集的模板。

在某些实施方式中，处理器101用于对全部原始语句组的模板进行去重处理，以得到多个待选模板；及用于确定每个待选模板的模板分值；以及用于根据模板分值从多个待选模板中筛选出文本数据集的模板。

如此，可以快速且准确地从全部原始语句组的模板中筛选出文本数据集的模板。可以理解，全部原始语句组的模板可能存在重复的、相同的，对全部原始语句组的模板进行去重处理，可以使得多个待选模板均不同，从而避免对同一个模板进行重复的处理，有利于节约计算资源并提高筛选的效率。另外，基于模板分值进行筛选，可以量化筛选的标准，从而提高筛选的准确性。

请参阅图11，在某些实施方式中，步骤S192包括：

步骤S1921：确定每个待选模板的重复次数；

步骤S1922：将每个待选模板与文本数据集中的每个语句进行匹配，以确定每个待选模板在文本数据集中进行匹配的成功次数；

步骤S1923：确定每个待选模板中非通配符的字符的数量；

步骤S1924：根据重复次数、成功次数和数量中的至少一个，确定每个待选模板的模板分值。

在某些实施方式中，处理器101用于确定每个待选模板的重复次数；及用于将每个待选模板与文本数据集中的每个语句进行匹配，以确定每个待选模板在文本数据集中进行匹配的成功次数；及用于确定每个待选模板中非通配符的字符的数量；以及用于根据重复次数、成功次数和数量中的至少一个，确定每个待选模板的模板分值。

如此，可以快速、准确地实现确定每个待选模板的模板分值。可以理解，在步骤S1921中，确定每个待选模板的重复次数，可与步骤S191对全部原始语句组的模板进行去重处理，同时进行。如此，在去重的过程中确定每个待选模板的重复次数，可以从整体上缩短方法的执行时长。

在步骤S1922中，将每个待选模板与文本数据集中的每个语句进行匹配，也即是在文本数据集中对每个待选模板进行全量匹配。或者说，对于每个待选模板，在该待选模板与文本数据集中的一个语句匹配时，将该待选模板对应的成功次数加1；在该待选模板与文本数据集中的一个语句不匹配时，保持该待选模板对应的成功次数。这样，就可以确定每个待选模板的成功次数。

在步骤S1924中，可以根据重复次数、成功次数和数量中的一个、两个或者全部，确定每个待选模板的模板分值。在本实施方式中，根据重复次数、成功次数和数量确定每个待选模板的模板分值。如此，模板分值基于重复次数、成功次数和数量三个维度，使得模板分值能够更加准确地量化待选模板在文本数据集中的情况，从而使得基于模板分值筛选出的文本数据集的模板更加准确。

具体地，在本实施方式中，对于每个待选模板，可采用如下的公式，根据重复次数、成功次数和数量确定模板分值：

S＝I·logm·logn；公式(3)

其中，S为待选模板的模板分值，I为待选模板中非通配符的字符的数量，m为待选模板在文本数据集中进行匹配的成功次数，n为待选模板的重复次数。

如此，使得文本数据集的模板尽可能多地覆盖文本数据集，并尽可能少地损失信息。例如，待选模板为“*”，可以匹配所有数据，但会丢失待选模板本身全部的信息。又如，待选模板为“AAAA”，虽然保存了所有的信息，但只能匹配一条数据。而采用上述公式(3)来确定模板分值，以评价待选模板的有效性，从而从多个待选模板中筛选出文本数据集的模板，可以使得模板提取的效果较好。

可以理解，也可将重复次数、成功次数和数量之和作为模板分值；还可将重复次数、成功次数和数量之积作为模板分值。在此不对模板分值的具体确定方式进行限定。

可以理解，在其他的一些实施方式中，可根据重复次数确定每个待选模板的模板分值；在其他的另一些实施方式中，可根据重复次数和成功次数确定每个待选模板的模板分值。在此不进行限定。

请参阅图12，在某些实施方式中，步骤S193包括：

步骤S1931：按照模板分值由高至低的顺序，对多个待选模板排序，以得到多个待选模板的序列号；

步骤S1932：将序列号小于预设序列号的待选模板，作为文本数据集的模板。

在某些实施方式中，处理器101用于按照模板分值由高至低的顺序，对多个待选模板排序，以得到多个待选模板的序列号；以及用于将序列号小于预设序列号的待选模板，作为文本数据集的模板。

如此，通过排序，实现根据模板分值从多个待选模板中筛选出文本数据集的模板，效率较高。可以理解，这样筛选出来的文本数据集的模板，也即是模板分值由高至低的顺序中前预设数量的待选模板。

具体地，预设数量可以基于输入信息确定。如此，用户可以根据需要对文本数据集的模板的数量进行调整。

另外，预设数量也可基于待选模板的数量确定。例如，将待选模板的数量的预定比例作为预设数量。预设数量也可基于文本数据集的语句数量确定。例如，将文本数据集的语句数量的预定比例作为预设数量。在此不对预设数量的具体确定方式进行限定。

例如，预设数量为2个，待选模板的数量为5个，分别为：“欢迎来到*”、“今天*的气温是*度到*度”、“您本月的*已经用完请及时充值”、“今天*的天气*”、“*欢迎您”。“欢迎来到*”的模板分值为3、“今天*的气温是*度到*度”的模板分值为5、“您本月的*已经用完请及时充值”的模板分值为10、“今天*的天气*”的模板分值为7、“*欢迎您”的模板分值为4。根据5个模板分值由高到低的顺序对5个待选模板进行排序，得到的顺序是：“您本月的*已经用完请及时充值”、“今天*的天气*”、“今天*的气温是*度到*度”、“*欢迎您”、“欢迎来到*”。所以，筛选出的文本数据集的模板为：“您本月的*已经用完请及时充值”、“今天*的天气*”。

本申请实施方式提供了一种包含计算机可执行指令的非易失性计算机可读存储介质，当计算机可执行指令被一个或多个处理器101执行时，使得处理器101执行上述的文本模板提取方法。

例如执行：步骤S12：获取文本数据集中的一组原始语句组，原始语句组包括多个待处理语句；步骤S13：建立多个待处理语句的匹配矩阵；步骤S14：根据匹配矩阵确定多个待处理语句中是否存在匹配部分；步骤S17：在根据匹配矩阵确定多个待处理语句中存在匹配部分时，移除每个待处理语句中的匹配部分，以更新多个待处理语句，并进入确定多个待处理语句的匹配矩阵的步骤；步骤S18：在根据匹配矩阵确定多个待处理语句中不存在匹配部分时，将当前的多个待处理语句作为最终语句组，并根据通配符和最终语句组处理原始语句组，以得到原始语句组的模板。

本申请实施方式的存储介质，从文本数据集中获取一组原始语句组，原始语句组包括多个待处理语句，再直接对多个待处理语句进行提取处理，以得到原始语句组的模板，无需在提取处理前对待处理语句进行标注和编码，既避免了标注和编码产生的误差，又减少了人工介入，有利于提高模板提取的效率和准确性。

综合以上，本发明提出了一种基于史密斯-沃特曼算法(Smith-Waterman Algorithm，SW算法)的文本模板提取方法。该方法基于字的维度处理文本来提取模板，克服了因分词产生的额外开销以及可能存在的分词误差。同时最大程度地降低了人工介入，大大减少了人工产生的主观误差以及开销，使结果尽可能地客观而高效。SW算法是一种生物信息学中用于找出两个核苷酸序列或蛋白质序列之间的相似区域的算法。本方法将SW算法应用于文本模板的提取中，使得提取的效率和效果更好。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种文本模板提取方法，其特征在于，包括：

获取文本数据集中的一组原始语句组，所述原始语句组包括多个待处理语句；

建立多个所述待处理语句的匹配矩阵；

根据所述匹配矩阵确定多个所述待处理语句中是否存在匹配部分；

在根据所述匹配矩阵确定多个所述待处理语句中存在匹配部分时，移除每个所述待处理语句中的所述匹配部分，以更新多个所述待处理语句，并进入所述确定多个所述待处理语句的匹配矩阵的步骤；

在根据所述匹配矩阵确定多个所述待处理语句中不存在匹配部分时，将当前的多个所述待处理语句作为最终语句组，并根据通配符和所述最终语句组处理所述原始语句组，以得到所述原始语句组的模板。
根据权利要求1所述的文本模板提取方法，其特征在于，建立多个所述待处理语句的匹配矩阵，包括：

确定每个所述待处理语句中的每个待处理字符与其他待处理语句中的每个待处理字符的匹配分值；

根据所述匹配分值建立所述匹配矩阵。
根据权利要求2所述的文本模板提取方法，其特征在于，多个所述待处理语句包括第一语句和第二语句，确定每个所述待处理语句中的每个待处理字符与其他待处理语句中的每个待处理字符的匹配分值，包括：

在所述第一语句的第一当前字符与所述第二语句的第二当前字符匹配时，将第一预设分值作为所述第一当前字符和所述第二当前字符的所述匹配分值；

在所述第一当前字符与所述第二当前字符不匹配时，将第二预设分值作为所述第一当前字符和所述第二当前字符的所述匹配分值，所述第二预设分值小于所述第一预设分值。
根据权利要求2所述的文本模板提取方法，其特征在于，多个所述待处理语句包括第一语句和第二语句，所述第一语句包括第一当前字符，所述第二语句包括第二当前字符，所述匹配分值包括所述第一当前字符与所述第二当前字符的当前匹配分值，所述匹配矩阵包括当前位置，根据所述匹配分值建立所述匹配矩阵，包括：

以预设的初始值初始化所述匹配矩阵的第一行和第一列；

根据所述当前匹配分值，和所述当前位置的左上方位置的矩阵值，确定所述当前位置的第一待选值；

将所述当前位置的每个上方位置的矩阵值减去第一惩罚值，以得到每个上方惩罚值，并将所述上方惩罚值中的最大值作为所述当前位置的第二待选值；

将所述当前位置的每个左方位置的矩阵值减去第二惩罚值，以得到每个左方惩罚值，并将所述左方惩罚值中的最大值作为所述当前位置的第三待选值；

将所述第一待选值、所述第二待选值、所述第三待选值和所述初始值中的最大值，作为所述当前位置的矩阵值。
根据权利要求1所述的文本模板提取方法，其特征在于，根据所述匹配矩阵确定多个所述待处理语句中是否存在匹配部分，包括：

在所述匹配矩阵的矩阵值全为预设的初始值时，确定多个所述待处理语句中不存在匹配部分；

在所述匹配矩阵的矩阵值不全为预设的初始值时，确定所述匹配矩阵的最大矩阵值；

根据所述最大矩阵值回溯所述匹配矩阵，以确定所述多个所述待处理语句中的所述匹配部分。
根据权利要求1所述的文本模板提取方法，其特征在于，所述原始语句组包括原始语句，所述最终语句组包括与所述原始语句对应的最终语句，根据通配符和多个所述最终语句组处理所述原始语句组，包括：

确定所述原始语句与所述最终语句的不同字符；

利用所述通配符连接在所述原始语句中不相邻的所述不同字符。
根据权利要求1所述的文本模板提取方法，其特征在于，所述文本模板提取方法包括：

将所述文本数据集中的语句分组，以得到多个原始语句组；

在得到全部所述原始语句组的模板后，从全部所述原始语句组的模板中筛选出所述文本数据集的模板。
根据权利要求7所述的文本模板提取方法，其特征在于，从全部所述原始语句组的模板中筛选出所述文本数据集的模板，包括：

对全部所述原始语句组的模板进行去重处理，以得到多个待选模板；

确定每个所述待选模板的模板分值；

根据所述模板分值从多个所述待选模板中筛选出所述文本数据集的模板。
根据权利要求8所述的文本模板提取方法，其特征在于，确定每个所述待选模板的模板分值，包括：

确定每个所述待选模板的重复次数；

将每个所述待选模板与所述文本数据集中的每个语句进行匹配，以确定每个所述待选模板在所述文本数据集中进行匹配的成功次数；

确定每个所述待选模板中非通配符的字符的数量；

根据所述重复次数、所述成功次数和所述数量中的至少一个，确定每个所述待选模板的模板分值。
根据权利要求8所述的文本模板提取方法，其特征在于，根据所述模板分值从多个待选模板中筛选出所述文本数据集的模板，包括：

按照所述模板分值由高至低的顺序，对多个所述待选模板排序，以得到多个所述待选模板的序列号；

将序列号小于预设序列号的所述待选模板，作为所述文本数据集的模板。
一种电子设备，其特征在于，包括处理器，所述处理器用于获取文本数据集中的一组原始语句组，所述原始语句组包括多个待处理语句；及用于建立多个所述待处理语句的匹配矩阵；及用于根据所述匹配矩阵确定多个所述待处理语句中是否存在匹配部分；及用于在根据所述匹配矩阵确定多个所述待处理语句中存在匹配部分时，移除每个所述待处理语句中的所述匹配部分，以更新多个所述待处理语句，并进入所述确定多个所述待处理语句的匹配矩阵的步骤；以及用于在根据所述匹配矩阵确定多个所述待处理语句中不存在匹配部分时，将当前的多个所述待处理语句作为最终语句组，并根据通配符和所述最终语句组处理所述原始语句组，以得到所述原始语句组的模板。
根据权利要求11所述的电子设备，其特征在于，所述处理器用于确定每个所述待处理语句中的每个待处理字符与其他待处理语句中的每个待处理字符的匹配分值；以及用于根据所述匹配分值建立所述匹配矩阵。
根据权利要求12所述的电子设备，其特征在于，多个所述待处理语句包括第一语句和第二语句，所述处理器用于在所述第一语句的第一当前字符与所述第二语句的第二当前字符匹配时，将第一预设分值作为所述第一当前字符和所述第二当前字符的所述匹配分值；以及用于在所述第一当前字符与所述第二当前字符不匹配时，将第二预设分值作为所述第一当前字符和所述第二当前字符的所述匹配分值，所述第二预设分值小于所述第一预设分值。
根据权利要求12所述的电子设备，其特征在于，多个所述待处理语句包括第一语句和第二语句，所述第一语句包括第一当前字符，所述第二语句包括第二当前字符，所述匹配分值包括所述第一当前字符与所述第二当前字符的当前匹配分值，所述匹配矩阵包括当前位置，所述处理器用于以预设的初始值初始化所述匹配矩阵的第一行和第一列；及用于根据所述当前匹配分值，和所述当前位置的左上方位置的矩阵值，确定所述当前位置的第一待选值；及用于将所述当前位置的每个上方位置的矩阵值减去第一惩罚值，以得到每个上方惩罚值，并将所述上方惩罚值中的最大值作为所述当前位置的第二待选值；及用于将所述当前位置的每个左方位置的矩阵值减去第二惩罚值，以得到每个左方惩罚值，并将所述左方惩罚值中的最大值作为所述当前位置的第三待选值；以及用于将所述第一待选值、所述第二待选值、所述第三待选值和所述初始值中的最大值，作为所述当前位置的矩阵值。
根据权利要求11所述的电子设备，其特征在于，所述处理器用于在所述匹配矩阵的矩阵值全为预设的初始值时，确定多个所述待处理语句中不存在匹配部分；及用于在所述匹配矩阵的矩阵值不全为预设的初始值时，确定所述匹配矩阵的最大矩阵值；以及用于根据所述最大矩阵值回溯所述匹配矩阵，以确定所述多个所述待处理语句中的所述匹配部分。
根据权利要求11所述的电子设备，其特征在于，所述原始语句组包括原始语句，所述最终语句组包括与所述原始语句对应的最终语句，所述处理器用于确定所述原始语句与所述最终语句的不同字符；以及用于利用所述通配符连接在所述原始语句中不相邻的所述不同字符。
根据权利要求11所述的电子设备，其特征在于，所述处理器用于将所述文本数据集中的语句分组，以得到多个原始语句组；以及用于在得到全部所述原始语句组的模板后，从全部所述原始语句组的模板中筛选出所述文本数据集的模板。
根据权利要求17所述的电子设备，其特征在于，所述处理器用于对全部所述原始语句组的模板进行去重处理，以得到多个待选模板；及用于确定每个所述待选模板的模板分值；以及用于根据所述模板分值从多个所述待选模板中筛选出所述文本数据集的模板。
根据权利要求18所述的电子设备，其特征在于，所述处理器用于确定每个所述待选模板的重复次数；及用于将每个所述待选模板与所述文本数据集中的每个语句进行匹配，以确定每个所述待选模板在所述文本数据集中进行匹配的成功次数；及用于确定每个所述待选模板中非通配符的字符的数量；以及用于根据所述重复次数、所述成功次数和所述数量中的至少一个，确定每个所述待选模板的模板分值。
根据权利要求18所述的电子设备，其特征在于，所述处理器用于按照所述模板分值由高至低的顺序，对多个所述待选模板排序，以得到多个所述待选模板的序列号；以及用于将序列号小于预设序列号的所述待选模板，作为所述文本数据集的模板。
一种包含计算机可执行指令的非易失性计算机可读存储介质，其特征在于，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行权利要求1-10中任一项所述的文本模板提取方法。