WO2021068683A1

WO2021068683A1 - 正则表达式生成方法、装置、服务器及计算机可读存储介质

Info

Publication number: WO2021068683A1
Application number: PCT/CN2020/112341
Authority: WO
Inventors: 唐志辉
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-10-11
Filing date: 2020-08-30
Publication date: 2021-04-15
Also published as: CN110909160A

Abstract

一种正则表达式生成方法、装置、服务器及计算机可读存储介质，该方法包括：接收用户输入的文本信息（S400）；对所述文本信息进行过滤，以提取关键信息（S402）；对提取出的所述关键信息按照预定的类目体系进行文本分类（S404）；针对经过所述文本分类处理后的文本信息，通过机器学习自动识别出相应的正则表达式（S406）。该方法能够根据用户输入的文本信息自动生成相应的正则表达式代码，并满足各种特定的场景需要，使用方便快捷、高效。

Description

正则表达式生成方法、装置、服务器及计算机可读存储介质

本申请要求于2019年10月11日提交中国专利局、申请号为201910967226.1，发明名称为“正则表达式生成方法、服务器及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器学习技术领域，尤其涉及一种正则表达式生成方法、装置、服务器及计算机可读存储介质。

背景技术

在编写处理字符串的程序或网页时，经常有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具，也就是记录文本规则的代码。正则表达式是对字符串，包括普通字符（例如a到z之间的字母）和特殊字符（称为“元字符”）操作的一种逻辑公式，就是用事先定义好的一些特定字符及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，模式描述在搜索文本时要匹配的一个或多个字符串，通常被用来检索、替换那些符合某个模式（规则）的文本。

正则表达式生成器可以根据用户想要匹配的字符串生成对应的正则表达式代码。现有的正则表达式生成器一般都是提供常用正则表达式供用户选择。例如，用户选择了“手机号”按钮，工具就生成与“手机号”相应的正则表达式。但是，发明人意识到这些正则表达式生成器中供选择的正则表达式较少，且不能满足特定的场景，无法达到用户的使用要求，影响了用户体验。

技术解决方案

本申请提出一种正则表达式生成方法，该方法包括步骤：

接收用户输入的文本信息；

对所述文本信息进行过滤，以提取关键信息；

对提取出的所述关键信息按照预定的类目体系进行文本分类；及

针对经过所述文本分类处理后的文本信息，通过机器学习自动识别出相应的正则表达式。

一种正则表达式生成装置，该装置包括：

接收模块：用于接收用户输入的文本信息；

提取模块：用于对所述文本信息进行过滤，以提取关键信息；

分类模块：对提取出的所述关键信息按照预定的类目体系进行文本分类；及

识别模块：用于针对经过所述文本分类处理后的文本信息，通过机器学习自动识别出相应的正则表达式。

一种服务器，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的正则表达式生成程序，所述正则表达式生成程序被所述处理器执行时实现如下步骤：

接收用户输入的文本信息；

对所述文本信息进行过滤，以提取关键信息；

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有正则表达式生成程序，所述正则表达式生成程序可被至少一个处理器执行，以使所述至少一个处理器执行如下步骤：

接收用户输入的文本信息；

对所述文本信息进行过滤，以提取关键信息；

有益效果

相较于现有技术，本申请所提出的正则表达式生成方法、装置、服务器及计算机可读存储介质，可以根据用户输入的文本信息，自动生成相应的正则表达式代码，不是仅仅提供少量的常用正则表达式供用户选择，而是能根据用户需求对文本信息进行自动分类和识别，生成对应的正则表达式，还可以满足各种特定的场景需要。该正则表达式生成方法更加智能，使用方便快捷、高效，可以让非开发人员也能自己生成正则表达式，自己维护构建各种文本解析工具。

附图说明

图1是本申请服务器一可选的硬件架构的示意图；

图2是本申请正则表达式生成装置第一实施例的模块示意图；

图3是本申请正则表达式生成装置第二实施例的模块示意图；

图4是本申请正则表达式生成方法第一实施例的流程示意图；

图5是本申请正则表达式生成方法第二实施例的流程示意图；

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

参阅图1所示，是本申请服务器2一可选的硬件架构的示意图。

本实施例中，所述服务器2可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图1仅示出了具有组件11-13的服务器2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述服务器2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备，该服务器2可以是独立的服务器，也可以是多个服务器所组成的服务器集群。

所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述服务器2的内部存储单元，例如该服务器2的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述服务器2的外部存储设备，例如该服务器2上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，所述存储器11还可以既包括所述服务器2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器11通常用于存储安装于所述服务器2的操作系统和各类应用软件，例如正则表达式生成程序20的代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器2的总体操作。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述的正则表达式生成程序20的代码等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述服务器2与其他电子设备之间建立通信连接。

至此，己经详细介绍了本申请相关设备的硬件结构和功能。下面，将基于上述介绍提出本申请的各个实施例。

首先，本申请提出一种正则表达式生成装置200。

参阅图2所示，是本申请正则表达式生成装置200第一实施例的模块示意图。

本实施例中，所述正则表达式生成装置200包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本申请各实施例的正则表达式生成操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，正则表达式生成装置200可以被划分为一个或多个模块。例如，在图2中，所述正则表达式生成装置200可以被分割成接收模块201、提取模块202、分类模块203、识别模块204。其中：

所述接收模块201，用于接收用户输入的文本信息。

具体地，针对用户需要搜索或者替换的一些文本信息，可以通过正则表达式生成器自动生成对应的正则表达式代码。首先，用户需要在所述正则表达式生成器工具中输入所需的文本信息，工具接收用户输入的文本信息后，对其进行后续处理。

所述提取模块202，用于对输入的文本信息进行过滤，以提取关键信息。

具体地，对于所接收到的用户输入的文本信息，为了准确转化对应的正则表达式，以查找到用户真正想要的文本信息，首先要过滤掉所输入的文本信息中的一些无意义的字符，仅保留关键信息。

对于中文文本信息的处理，提取关键信息主要包括文本分词和去停用词两个阶段。对于中文文本信息，例如一条中文的句子，词与词之间是连续的，而数据分析的最小单位粒度最好是词语，所以需要进行分词工作，这样就给下一步的工作做准备。具体到中文分词，不同于英文有天然的空格间隔，需要设计复杂的分词算法。传统算法主要有基于字符串匹配的正向/逆向/双向最大匹配、基于理解的句法和语义分析消歧、基于统计的互信息/条件随机场（Conditional Random Field，CRF）方法。另外，随着深度学习的应用，WordEmbedding+Bi-LSTM+CRF方法逐渐成为主流。而停用词是文本信息中一些高频的代词连词介词等对文本分类无意义（对文本特征没有任何贡献作用）的词。在一些文本信息也能针对性的去掉一些词，例如形容词。通常维护一个停用词表，提取关键信息过程中删除停用词表中出现的词。

所述分类模块203，用于对提取出的关键信息进行文本分类。

具体地，文本分类指的是计算机通过算法对输入的文本按照预定的类目体系进行自动化归类的过程。例如，所输入文本信息的是汉字还是数字，以及如果是数字，数字的位数是多少，如果是18位的数字，一般情况下是身份证号。

所述识别模块204，用于通过机器学习自动识别出分类后的文本信息相应的正则表达式。

具体地，所述正则表达式生成器通过大量的样本训练、机器学习，可以针对经过所述文本分类处理后的文本信息自动识别出相应的正则表达式。

在机器学习和模式识别等领域中，一般需要将样本分成独立的三部分训练集（train set），验证集（validation set)和测试集（test set）。其中训练集用来估计模型，验证集用来确定网络结构或者控制模型复杂程度的参数，而测试集则检验最终选择最优的模型的性能如何。另外，一般情况下，还可以只将样本数据集分成两类，即训练集和测试集，采用K折交叉验证法，先将样本数据集D划分为k个大小相似的互斥子集。每个子集都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的子集作为测试集。这样就可以获得k组训练/测试集，从而可以进行k次训练和测试，最终返回的是k个测试结果的均值。

在本实施例中，可以将以往使用过的文本信息和对应的正则表达式作为样本数据集，将样本数据集均分为10份，轮流选择其中9份作为训练集，另外1份作为测试集。采用训练集的9份数据对所述正则表达式生成器的机器学习模型进行训练，然后用测试集的1份数据验证测试结果。

经过上述训练和测试的机器学习模型，可以在后续直接根据输入的经过所述文本分类处理后的文本信息自动输出相应的正则表达式。用户（例如非开发人员）可以将所述正则表达式生成器生成的正则表达式放到Excel中，根据配置在Excel中的规则解析文本信息，从而自己维护构建各种文本解析工具。

本实施例提供的正则表达式生成装置，可以根据用户输入的文本信息，自动生成相应的正则表达式代码。不是仅仅提供少量的常用正则表达式供用户选择，而是能根据用户需求对文本信息进行自动分类和识别，生成对应的正则表达式，还可以满足各种特定的场景需要。该正则表达式生成装置更加智能，使用方便快捷、高效，可以让非开发人员也能自己生成正则表达式，自己维护构建各种文本解析工具。

参阅图3所示，是本申请正则表达式生成装置200第二实施例的模块示意图。本实施例中，所述分类模块203具体包括特征提取子模块300、文本分类子模块302和后处理子模块304。其中：

所述特征提取子模块300，用于对所提取出的关键信息进行特征提取和文本表示。

具体地，文本分类的核心都是如何从文本信息中抽取出能够体现文本特点的关键特征，抓取特征到类别之间的映射，所以特征提取很重要。文本表示的目的是把文本预处理后的转换成计算机可理解的方式，是决定文本分类质量最重要的部分。传统做法常用词袋模型（Bag Of Words，BOW）和/或向量空间模型（Vector Space Model，VSM），词袋模型是向量空间模型的基础，因此向量空间模型通过特征项选择降低维度，通过特征权重计算增加稠密性。向量空间模型的文本表示方法的特征提取对应特征项的选择和特征权重计算两部分。特征选择的基本思路是根据某个评价指标独立的对原始特征项（词项）进行评分排序，从中选择得分最高的一些特征项，过滤掉其余的特征项。常用的评价有文档频率、互信息、信息增益、χ²统计量等。特征权重主要是经典的词频-逆文档词率（term frequency–inverse document frequency，TF-IDF）方法及其扩展方法，主要思路是一个词的重要度与在类别内的词频成正比，与所有类别出现的次数成反比。

在本实施例中，先从所述关键信息中抽取出能够体现文本特点的关键特征，将对应文本转化为预定格式的特征编码，转化后的特征编码能够携带越多的文本特征，就越能帮助分类算法预测出对应的类别。在提取了特征值之后，再采用One-hot或TF-IDF等方法将每个特征编码转化为固定长度的特征编码作为分类算法的输入，也就是进行文本表示。通常情况下中文文本中长串的数字代表手机号、车牌号、用户名ID等文本内容，或者将其转换为归一化的特征编码，例如是否出现长串数字的布尔值特征HAS_DIGITAL、按长度归一的DIGIAL_LEN_10等。

One-hot编码，又称独热编码、一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。One-hot编码在特征提取上属于词袋模型，优点一是解决了分类器不好处理离散数据的问题，二是在一定程度上也起到了扩充特征的作用。

TF-IDF是信息检索（IR）中最常用的一种文本表示法。算法的思想也很简单，就是统计每个词出现的词频（TF），然后再为其附上一个权值参数，即逆文档词率（IDF）。其中，词频（TF）=某个词的出现次数/总次数，逆文档词率（IDF）=log(语料库的文档总数/(包含该词的文档数+1))。TF很容易理解就是计算词频，IDF衡量词的常见程度。为了计算IDF需要事先准备一个语料库用来模拟语言的使用环境，如果一个词越是常见，那么该公式中分母就越大，逆文档频率就越小越接近于0。TF-IDF的计算公式如下：TF-IDF=词频（TF）*逆文档词率（IDF）。根据公式很容易看出，TF-IDF的值与该词出现的频率成正比，与该词在整个语料库中出现的频率成反比，因此可以很好的实现提取关键词的目的。该方法的优点是简单快速，结果比较符合实际。

所述文本分类子模块302，用于对文本表示后的数据采用文本分类算法进行分类。

具体地，将文本表示为广义特征数据结构以后，将特征放入文本分类算法学习模型，然后根据测试数据集的预测，得到分类结果。常用的分类算法包括：决策树、Rocchio算法、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、最近邻算法（kNN）、遗传算法、最大熵等。在本实施例中，可以采用决策树算法，将所述特征提取和文本表示后得到的固定长度的特征编码作为输入，从而对所述文本信息进行分类。

分类决策树模型是一种描述对实例进行分类的树形结构，它是一个预测模型，代表的是对象属性与对象值之间的一种映射关系。决策树由结点和有向边组成。结点有两种类型：内部节点和叶节点，内部节点表示一个特征或属性，叶节点表示一个类。分类的时候，从根节点开始，对实例的某一个特征进行测试，根据测试结果，将实例分配到其子结点；此时，每一个子结点对应着该特征的一个取值。如此递归向下移动，直至达到叶结点，最后将实例分配到叶结点的类中。通俗点说就是一个if-then的过程。常见的决策树有ID3、C4.5、CART等。

另外，还可以采用朴素贝叶斯算法对文本表示后的数据进行分类。

朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法，其公式为概率P(“属于某类”|“具有某特征”)=P(“具有某特征”|“属于某类”)P(“属于某类”)/P(“具有某特征”)。例如，针对输入的文本信息mayun@pingan.com.cn，得到分词结果为mayun/nx @/n pingan.com/nx .cn/nx，可以采用朴素贝叶斯算法计算出该文本信息是Email地址的概率P(“Email地址”|“mayun”,“@”,“pingan.com”,“.cn”)。根据所计算出的所述文本信息属于各种类别的概率值，可以得出所述文本信息最有可能（概率值最大）的分类结果。在本实施例中，所述类别可以包括中文字符、Email地址、网址URL、国内电话号码、腾讯QQ号、中国邮政编码、18位身份证号、手机号、固定电话号码、IP地址、(年-月-日)格式日期、正整数、负整数、整数、非负整数、非正整数、正浮点数、负浮点数等。根据该步骤的分类结果，后续可以匹配与该类别对应的正则表达式。

所述后处理子模块304，用于对分类后的文本信息按预设规则进行后处理。

具体地，关键词规则是最常用的后处理方法，其特点在于能够直接地将领域知识引入到分类系统当中。关键词规则不仅可以实现一个或多个关键词对应一个类别，更可以在上层算法给出概率输出的情况下实现一对多和多对多的规则映射。并且，还可以根据实际情况对不同的关键词规则设定作用强度和优先级，从而更加灵活地调整得到预测结果。

此外，本申请还提出一种正则表达式生成方法。

参阅图4所示，是本申请正则表达式生成方法第一实施例的流程示意图。在本实施例中，根据不同的需求，图4所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

该方法包括以下步骤：

步骤S400，接收用户输入的文本信息。

步骤S402，对输入的文本信息进行过滤，以提取关键信息。

对于中文文本信息的处理，提取关键信息主要包括文本分词和去停用词两个阶段。对于中文文本信息，例如一条中文的句子，词与词之间是连续的，而数据分析的最小单位粒度最好是词语，所以需要进行分词工作，这样就给下一步的工作做准备。具体到中文分词，不同于英文有天然的空格间隔，需要设计复杂的分词算法。传统算法主要有基于字符串匹配的正向/逆向/双向最大匹配、基于理解的句法和语义分析消歧、基于统计的互信息/CRF方法。另外，随着深度学习的应用，WordEmbedding+Bi-LSTM+CRF方法逐渐成为主流。而停用词是文本信息中一些高频的代词连词介词等对文本分类无意义（对文本特征没有任何贡献作用）的词。在一些文本信息也能针对性的去掉一些词，例如形容词。通常维护一个停用词表，提取关键信息过程中删除停用词表中出现的词。

步骤S404，对提取出的关键信息进行文本分类。

步骤S406，通过机器学习自动识别出分类后的文本信息相应的正则表达式。

本实施例提供的正则表达式生成方法，可以根据用户输入的文本信息，自动生成相应的正则表达式代码。不是仅仅提供少量的常用正则表达式供用户选择，而是能根据用户需求对文本信息进行自动分类和识别，生成对应的正则表达式，还可以满足各种特定的场景需要。该正则表达式生成方法更加智能，使用方便快捷、高效，可以让非开发人员也能自己生成正则表达式，自己维护构建各种文本解析工具。

如图5所示，是本申请正则表达式生成方法的第二实施例的流程示意图。在本实施例中，所述步骤S404具体包括：

步骤S500，对所提取出的关键信息进行特征提取和文本表示。

具体地，文本分类的核心都是如何从文本信息中抽取出能够体现文本特点的关键特征，抓取特征到类别之间的映射，所以特征提取很重要。文本表示的目的是把文本预处理后的转换成计算机可理解的方式，是决定文本分类质量最重要的部分。传统做法常用词袋模型和/或向量空间模型，词袋模型是向量空间模型的基础，因此向量空间模型通过特征项选择降低维度，通过特征权重计算增加稠密性。向量空间模型的文本表示方法的特征提取对应特征项的选择和特征权重计算两部分。特征选择的基本思路是根据某个评价指标独立的对原始特征项（词项）进行评分排序，从中选择得分最高的一些特征项，过滤掉其余的特征项。常用的评价有文档频率、互信息、信息增益、χ²统计量等。特征权重主要是经典的TF-IDF方法及其扩展方法，主要思路是一个词的重要度与在类别内的词频成正比，与所有类别出现的次数成反比。

在本实施例中，先从所述关键信息中抽取出能够体现文本特点的关键特征，将对应文本转化为一定格式的特征编码，转化后的特征编码能够携带越多的文本特征，就越能帮助分类算法预测出对应的类别。在提取了特征值之后，再采用One-hot或TF-IDF等方法将每个特征编码转化为固定长度的特征编码作为分类算法的输入，也就是进行文本表示。通常情况下中文文本中长串的数字代表手机号、车牌号、用户名ID等文本内容，或者将其转换为归一化的特征编码，例如是否出现长串数字的布尔值特征HAS_DIGITAL、按长度归一的DIGIAL_LEN_10等。

TF-IDF是信息检索中最常用的一种文本表示法。算法的思想也很简单，就是统计每个词出现的词频（TF），然后再为其附上一个权值参数，即逆文档词率（IDF）。其中，词频（TF）=某个词的出现次数/总次数，逆文档词率（IDF）=log(语料库的文档总数/(包含该词的文档数+1))。TF很容易理解就是计算词频，IDF衡量词的常见程度。为了计算IDF需要事先准备一个语料库用来模拟语言的使用环境，如果一个词越是常见，那么该公式中分母就越大，逆文档频率就越小越接近于0。TF-IDF的计算公式如下：TF-IDF=词频（TF）*逆文档词率（IDF）。根据公式很容易看出，TF-IDF的值与该词出现的频率成正比，与该词在整个语料库中出现的频率成反比，因此可以很好的实现提取关键词的目的。该方法的优点是简单快速，结果比较符合实际。

步骤S502，对文本表示后的数据采用文本分类算法进行分类。

朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法，其公式为概率P(“属于某类”|“具有某特征”)=P(“具有某特征”|“属于某类”)P(“属于某类”)/P(“具有某特征”)。例如，针对输入的文本信息mayun@pingan.com.cn，得到分词结果为mayun/nx @/n pingan.com/nx .cn/nx，可以采用朴素贝叶斯算法计算出该文本信息是Email地址的概率P(“Email地址”|“mayun”,“@”,“pingan.com”,“.cn”)。根据所计算出的所述文本信息属于各种类别的概率值，可以得出所述文本信息最有可能（概率值最大）的分类结果。

在本实施例中，所述类别可以包括中文字符、Email地址、网址URL、国内电话号码、腾讯QQ号、中国邮政编码、18位身份证号、手机号、固定电话号码、IP地址、(年-月-日)格式日期、正整数、负整数、整数、非负整数、非正整数、正浮点数、负浮点数等。根据该步骤的分类结果，后续可以匹配该类别对应的正则表达式。

步骤S504，对分类后的文本信息按预设规则进行后处理。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读存储介质存储有正则表达式生成程序，所述正则表达式生成程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的正则表达式生成方法的步骤。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种正则表达式生成方法，其中，所述方法包括步骤：

接收用户输入的文本信息；

对所述文本信息进行过滤，以提取关键信息；

对提取出的所述关键信息按照预定的类目体系进行文本分类；及

针对经过所述文本分类处理后的文本信息，通过机器学习自动识别出相应的正则表达式。
如权利要求1所述的正则表达式生成方法，其中，所述对提取出的所述关键信息按照预定的类目体系进行文本分类的步骤包括：

对所提取出的所述关键信息进行特征提取和文本表示；

对文本表示后的数据采用文本分类算法进行分类；

对分类后的文本信息按预设规则进行后处理。
如权利要求1或2所述的正则表达式生成方法，其中，所述提取关键信息包括文本分词和去停用词。
如权利要求1或2所述的正则表达式生成方法，其中，所述通过机器学习自动识别出相应的正则表达式的步骤包括：

将以往使用过的文本信息和对应的正则表达式作为样本数据集，对正则表达式生成器的机器学习模型进行训练和测试；

采用经过所述训练和测试的机器学习模型，根据输入的经过所述文本分类处理后的文本信息，自动输出相应的正则表达式。
如权利要求2所述的正则表达式生成方法，其中，所述对所提取出的所述关键信息进行特征提取和文本表示的步骤包括：

从所述关键信息中抽取出能够体现文本特点的关键特征，将对应文本转化为预定格式的特征编码，再采用独热编码One-hot或词频-逆文档词率TF-IDF方法将每个特征编码转化为固定长度的特征编码。
如权利要求5所述的正则表达式生成方法，其中，在所述对文本表示后的数据采用文本分类算法进行分类的步骤中，采用分类决策树算法，将所述特征提取和文本表示后得到的固定长度的特征编码作为输入，从而对所述文本信息进行分类。
如权利要求2所述的正则表达式生成方法，其中，在所述对文本表示后的数据采用文本分类算法进行分类的步骤中，采用朴素贝叶斯算法对文本表示后的数据进行分类，计算所述文本信息属于各种类别的概率值，得出概率值最大的分类结果。
如权利要求2所述的正则表达式生成方法，其中，所述后处理步骤中的预设规则为关键词规则，用于将所述文本信息中的关键词和所述分类的类别之间建立规则映射。
一种正则表达式生成装置，其中，所述正则表达式生成装置包括：

接收模块：用于接收用户输入的文本信息；

提取模块：用于对所述文本信息进行过滤，以提取关键信息；

分类模块：用于对提取出的所述关键信息按照预定的类目体系进行文本分类；及

识别模块：用于针对经过所述文本分类处理后的文本信息，通过机器学习自动识别出相应的正则表达式。
一种服务器，其中，所述服务器包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的正则表达式生成程序，所述正则表达式生成程序被所述处理器执行时实现如下步骤：

接收用户输入的文本信息；

对所述文本信息进行过滤，以提取关键信息；

对提取出的所述关键信息按照预定的类目体系进行文本分类；及

针对经过所述文本分类处理后的文本信息，通过机器学习自动识别出相应的正则表达式。
如权利要求10所述的服务器，其中，所述对提取出的所述关键信息按照预定的类目体系进行文本分类的步骤包括：

对所提取出的所述关键信息进行特征提取和文本表示；

对文本表示后的数据采用文本分类算法进行分类；

对分类后的文本信息按预设规则进行后处理。
如权利要求10或11所述的服务器，其中，所述提取关键信息包括文本分词和去停用词。
如权利要求10或11所述的服务器，其中，所述通过机器学习自动识别出相应的正则表达式的步骤包括：

将以往使用过的文本信息和对应的正则表达式作为样本数据集，对正则表达式生成器的机器学习模型进行训练和测试；

采用经过所述训练和测试的机器学习模型，根据输入的经过所述文本分类处理后的文本信息，自动输出相应的正则表达式。
如权利要求11所述的服务器，其中，所述对所提取出的所述关键信息进行特征提取和文本表示的步骤包括：

从所述关键信息中抽取出能够体现文本特点的关键特征，将对应文本转化为预定格式的特征编码，再采用独热编码One-hot或词频-逆文档词率TF-IDF方法将每个特征编码转化为固定长度的特征编码。
如权利要求14所述的服务器，其中，在所述对文本表示后的数据采用文本分类算法进行分类的步骤中，采用分类决策树算法，将所述特征提取和文本表示后得到的固定长度的特征编码作为输入，从而对所述文本信息进行分类。
如权利要求11所述的服务器，其中，在所述对文本表示后的数据采用文本分类算法进行分类的步骤中，采用朴素贝叶斯算法对文本表示后的数据进行分类，计算所述文本信息属于各种类别的概率值，得出概率值最大的分类结果。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有正则表达式生成程序，所述正则表达式生成程序可被至少一个处理器执行，以使所述至少一个处理器执行如下步骤：接收用户输入的文本信息；

对所述文本信息进行过滤，以提取关键信息；

对提取出的所述关键信息按照预定的类目体系进行文本分类；及

针对经过所述文本分类处理后的文本信息，通过机器学习自动识别出相应的正则表达式。
如权利要求17所述的计算机可读存储介质，其中，所述对提取出的所述关键信息按照预定的类目体系进行文本分类的步骤包括：

对所提取出的所述关键信息进行特征提取和文本表示；

对文本表示后的数据采用文本分类算法进行分类；

对分类后的文本信息按预设规则进行后处理。
如权利要求17或18所述的计算机可读存储介质，其中，所述提取关键信息包括文本分词和去停用词。
如权利要求17或18所述的计算机可读存储介质，其中，所述通过机器学习自动识别出相应的正则表达式的步骤包括：

将以往使用过的文本信息和对应的正则表达式作为样本数据集，对正则表达式生成器的机器学习模型进行训练和测试；

采用经过所述训练和测试的机器学习模型，根据输入的经过所述文本分类处理后的文本信息，自动输出相应的正则表达式。