WO2024045399A1

WO2024045399A1 - 一种基于文本特征相似度的用户名黑名单模糊匹配方法

Info

Publication number: WO2024045399A1
Application number: PCT/CN2022/136824
Authority: WO
Inventors: 黄心泓
Original assignee: 天翼电子商务有限公司
Priority date: 2022-08-29
Filing date: 2022-12-06
Publication date: 2024-03-07

Abstract

本发明公开了一种基于文本特征相似度的用户名黑名单模糊匹配方法，它涉及电子信息技术领域。首先使用英文注音针对字符量较少的非英文字符串进行语义补充，去除空格字符统一大小写，然后使用按不同长度的间隔切割字符串再合并切割结果的方法进行分词，并使用深度学习技术实现字符串的编码，在离线情况下完成黑名单特征的编码，并获得编码字典。在实时运作时，将输入的字符串进行相同的字符串分割操作，并根据编码字典进行编码，最后并使用余弦相似度找出在黑名单中编码最相似的单词，完成一次模糊匹配。本发明能够快速给出在黑名单中可能存在的对应相似字符，并且返回可能的关联黑名单结果，使用场景更宽泛，具有一定实时性。

Description

一种基于文本特征相似度的用户名黑名单模糊匹配方法

技术领域

本发明涉及的是电子信息技术领域，具体涉及一种基于文本特征相似度的用户名黑名单模糊匹配方法。

背景技术

在数字信贷中如何侦测出注册文字是否存在违规字样是一个非常重要的问题。用户在申请贷款的过程中，往往需要填写姓名、出生地、居住地等信息，而针对某些出现过问题的历史客户，或者一些可疑的用户信息，往往需要在贷前就发送提醒给审核人员。

为了精准快速识别，通常的方法会针对敏感的字符串建立一个黑名单库。当确认输入字符串是否合法时，会查询一遍黑名单库，若字符串在黑名单中，则会拒绝申请。传统的方法往往对字符串进行分割并对产生的小字符串或字符两两匹配进行查询。但是有些欺诈团伙为了躲避黑名单会修改部分字符串。比如“张三”，变成“张三1”、“张三a”、“张_三”等变种字符串，那么传统方法会往往会失效。

现在主流的对抗方法有如使用模糊代码等方法对字符串进行编码，再进行匹配，但是这种编码方式对字符串分割的方法有限制，针对不同场景需要进行不同的字符串分割策略调整，同时如果字符串中同时还有多种语言的字符，也会提高字符串分割的难度。所以针对黑名单匹配的主要难点在于：(1)如何对各种语言的字符串进行字符串分割；(2)如何对不同种类的文字编码使其可以在通用场景下运作；(3)如何在大规模的数据下实时匹配到目标字符串；(4)如何提高针对变种字符串的抗干扰能力。基于此，开发一种基于文本特征相似度的用户名黑名单模糊匹配方法尤为必要。

发明内容

针对现有技术上存在的不足，本发明目的是在于提供一种基于文本特征相似度的用户名黑名单模糊匹配方法，能够快速给出在黑名单中可能存在的对应相似字符，并且返回可能的关联黑名单结果，使用场景更宽泛，具有一定实时性，易于推广使用。

为了实现上述目的，本发明是通过如下的技术方案来实现：一种基于文本特征相似度的用户名黑名单模糊匹配方法，其步骤为：

(1)黑名单字符串预处理模块，在离线情况下对已有的黑名单中过短的非英文字符串进行注音，再去除所有空格字符，并将所有英文字符全部变为小写字符；

(2)黑名单字符串分割模块，在离线情况下将预处理后的黑名单中每个字符串按不同长度进行文字分割，得到对应的短字符串组，最后将短字符串组合并，得到与原字符串对应地分割完的字符串组；

(3)黑名单文字特征训练编码模块，在离线情况下对分割完的字符串组进行特征训练，得到特征编码库，并根据特征编码库对预处理后黑名单中的字符串进行编码；

(4)数据采集预处理模块，接收在线输入的字符串，并类似步骤(1)规则若是过短的非英文字符串则注音，再将字符串进行与步骤(2)相同的字符串分割方法得到对应字符串组；

(5)输入字符串特征编码模块，将步骤(3)得到的字符串组根据离线情况下获得的特征编码库D中寻找每个字符串对应的特征并累加，最后再把累加得到的特征进行归一化；

(6)相似度检索与输出模块，将步骤(4)得到的输入字符串的特征，与黑名单的每个字符串编码计算余弦相似度，再按得到的值的大小排序，选出最小的十个字符串，得到最后的模糊匹配结果。

作为优选，所述的步骤(1)包括：

①将已有的黑名单A中的少于8个字符的字符串(不包括空格字符)通过音译，统一在原名单后加上英文注音；

②对处理后的黑名单，再直接删除所有空格字符，并且把所有英文字符变为中文，得到预处理后的黑名单A2。

作为优选，所述的步骤(2)包括：

①将黑名单A2中每个字符串Z1视为一组，分别以1，2，3，4个字符为间隔进行文字分割，得到四个对应的四种长度的短字符串组z1，z2，z3，z4；

②将四个短字符串组z1，z2，z3，z4合并，得到与原字符串Z1对应的分割完的字符串群组Z2。

作为优选，所述的步骤(3)包括：

①使用深度学习的方法将步骤(2)得到的分割完的字符串组进行特征训练，得到每个短字符串的特征编码字典D；

②将Z2所有的短字符串找到D中对应的编码，并把编码全部相加，得到Z1的编码C1，再将C1进行L2归一化，得到Z1的最终编码C2，把A2的全部字符串对应的编码保存成编码集合B，同时保存特征编码字典D。

作为优选，所述的步骤(4)包括：

①接收输入的字符串X，并同步骤(1)的步骤，若输入字符串少于8个字符，则在原字符串后加上英文注音，再去除空格；

②同步骤(2)的步骤，再把X分别以1，2，3，4个字符为间隔进行文字分割，得到四个对应的四种长度的短字符串组x1，x2，x3，x4并合并，得到对应的分割完的字符串群组X1。

作为优选，所述的步骤(5)包括：

①得到的字符串组X1中的每个短字符串x，在特征编码字典D中寻找对应的特征c，若不在特征编码库D中则记为0；

②将每个短字符串x的特征c直接相加，得到X的特征编码C3，再将C3进行L2归一化，得到X的最终编码C4。

本发明的有益效果：本方法能够快速给出在黑名单中可能存在的对应相似字符，发现在信贷申请过程中可能存在的非法字符串，并且返回可能的关联黑名单结果，以便发现可能的黑产团伙，使用场景更宽泛，具有一定实时性，应用前景广阔。

附图说明

下面结合附图和具体实施方式来详细说明本发明；

图1为本发明的流程图；

图2为本发明黑名单字符串预处理模块的流程图；

图3为本发明黑名单字符串分割模块的流程图；

图4为本发明字符串分割示例图；

图5为本发明黑名单文字特征训练编码模块的流程图；

图6为本发明数据采集预处理模块的流程图；

图7为本发明输入字符串特征编码模块的流程图；

图8为本发明相似度检索与输出模块的流程图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

参照图1-8，本具体实施方式采用以下技术方案：一种基于文本特征相似度的用户名黑名单模糊匹配方法，其步骤为：

(1)黑名单字符串预处理模块，在离线情况下对已有的黑名单中过短的非英文字符串进行注音，再去除所有空格字符，并将所有英文字符全部变为小写字符。

(2)黑名单字符串分割模块，在离线情况下将预处理后的黑名单中每个字符串按不同长度进行文字分割，得到对应的短字符串组，最后将短字符串组合并，得到与原字符串对应地分割完的字符串组。

(3)黑名单文字特征训练编码模块，在离线情况下对分割完的字符串组进行特征训练，得到特征编码库，并根据特征编码库对预处理后黑名单中的字符串进行编码。

(4)数据采集预处理模块，接收在线输入的字符串，并类似步骤(1)规则若是过短的非英文字符串则注音，再将字符串进行与步骤(2)相同的字符串分割方法得到对应字符串组。

(5)输入字符串特征编码模块，将步骤(3)得到的字符串组根据离线情况下获得的特征编码库D中寻找每个字符串对应的特征并累加，最后再把累加得到的特征进行归一化。

本具体实施方式首先使用英文注音针对字符量较少的非英文字符串进行语义补充，去除空格字符统一大小写，然后使用按不同长度的间隔切割字符串再合并切割结果的方法进行分词，并使用深度学习技术实现字符串的编码，在离线情况下完成黑名单特征的编码，并获得编码字典。在实时运作时，将输入的字符串进行相同的字符串分割操作，并根据编码字典进行编码，最后并使用余弦相似度找出在黑名单中编码最相似的10个单词，完成一次模糊匹配。

本方法通过字符串分割与特征训练相结合，能实时给出批量的与黑名单内字符串相似的字符串候选，在提取字符串特征前，先通使用一致的字符串分割方法，得到只含有较短字符串，再进行特征训练，使得字符串特征信息更加丰富，此外，对于提取字符串的特征使用了深度学习的方法，并且同时使用余弦距离判断字符串相似度，能够实时找出所有可能的在黑名单中相似的字符串，对变体的字符串也有很强的侦查能力。其技术优势在于：

(1)可以对任意字符串使用一致的字符串分割方法，而不局限于词语的语义和长度，使得本方法能在更加广泛的场景被使用。

(2)本方法使用的深度学习训练被分解的字符串特征，再聚合所有被分解的字符串特征，从而使得提炼出的原字符串特征具有多重语义，从而找出与黑名单相似又不一定完全相同的字符串。

(3)在匹配环节使用余弦距离判断字符串之间的相似度，能够进行大批量的计算，批量返回可能的相似结果，具有一定实时性。通过该步骤可以协助检测人员快速寻找可疑的字符串。

实施例1：一种基于文本特征相似度的用户名黑名单模糊匹配方法，具体实施时，先在离线情况下对黑名单进行预处理，然后分割字符串用以训练编码，生成黑名单特征库和字符串特征字典库。然后实时接收字符串时，先预处理字符串，再根据生成的字符串特征字典库对字符串编码，最后对比黑名单特征库，找出余弦相似度最大的10个词语并输出。

根据图1所示的在信贷场景下使用基于文本特征相似度的黑名单模糊匹配方法的流程图，其具体包括以下步骤：

S1.黑名单字符串预处理模块，在离线情况下对已有的黑名单中过短的非英文字符串进行注音，再去除所有空格字符，并将所有英文字符全部变为小写字符。

具体的，由于黑名单中可能出现多种语言，而某些语言的名字字符串可能过短，如中文，日文等往往名字仅有3到5个字。同时中文名、日文名字符特异性比较高，有些字符的出现频率不高。在黑名单中又可能出现同音字代替原字符，导致不利于后面的特征训练。

根据图2所示的黑名单字符串预处理模块，其包括如下步骤：

S1.1：将已有的黑名单A中的少于8个字符的字符串(不包括空格字符)通过音译，统一在原名单后加上英文注音。

具体的，遍历黑名单A中的所有字符串，若字符串长度少于8则为其添加英文注音，直接与原字符串拼接。并取代A中原字符串。

S1.2：针对S1.1处理后的黑名单，再直接删除所有空格字符，得到预处理后的黑名单A2。

具体的，空格字符会影响分割过程中的结果，同时也会使分割后的字符串总长度增加，不利于训练，因此对A中所有的字符串直接删除所有空格字符，同时把所有的英语大写字符变为小写字符，并把得到的字符串代替原字符串，达到黑名单A2。

S2.黑名单字符串分割模块，在离线情况下将预处理后的黑名单中每个字符串按不同长度进行文字分割，得到对应的短字符串组，最后将短字符串组合并，得到与原字符串对应地分割完的字符串组。

具体的，遍历黑名单中的字符串，针对每次取出的长字符串Z，采取不同长度的分割，得到多种长度的短字符串组，丰富了字符串的语义信息，并把得到的几个短字符串组合并，得到原长字符串Z分割后的对应短字符串组Z2。

根据图3所示的黑名单字符串分割模块，对S1输出的预处理数据进行分割的示意图，其包括如下步骤：

S2.1：将黑名单A2中每个字符串Z1视为一组，分别以1，2，3，4个字符为间隔进行文字分割，得到四个对应的四种长度的短字符串组z1，z2，z3，z4。

具体的，如图4所示，假设输入单词Z1为‘abcde’，则分别按1，2， 3，4，四个长度的短字符串组{a，b，c，d，e}，{ab，bc，cd，de}，{abc，bcd，cde}，{abcd，bcde}。

S2.2：将S1.2的四个短字符串组z1，z2，z3，z4合并，得到与原字符串Z1对应的分割完的字符串群组Z2。

具体的，如图四所示，把S2.1得到的{a，b，c，d，e}，{ab，bc，cd，de}，{abc，bcd，cde}，{abcd，bcde}合并起来成为{a，b，c，d，e，ab，bc，cd，de，abc，bcd，cde，abcd，bcde}作为Z1对应的短字符串组。

S3：名单文字特征训练编码模块，在离线情况下对分割完的字符串组进行特征训练，得到特征编码库，并根据特征编码库对预处理后黑名单中的字符串进行编码。

具体的，使用深度学习的方法，给每个短字符串训练特征，再把这些短字符串整合成一个特征编码字典D。然后通过Z2所有对应的编码相加归一化后，获得Z1的编码，最后整合成黑名单编码库。

根据图5所示的黑名单文字特征训练编码模块，对S2输出的分割后的数据进行编码示意图，其包括如下步骤：

S3.1：使用深度学习的方法将S2.2得到的分割完的字符串组进行特征训练，得到每个短字符串的特征编码字典D。

具体的，先将S2.2获得的所有短字符串组整合成一个没有重复字符串的字典，给所有的短字符串赋予一个随机的长度为128维的向量。再把这些短字符串整合成一个特征编码字典D，然后遍历Z2，取出每个短字符串组Q，把Q里的短字符串标记为1，其余在D中的短字符串标记为0。然后计算Q中短字符串与D中的短字符串的余弦相似度。具体公式如下：

其中，x，y是S4.2中得到特征向量，然后使用交叉熵损失损失函数更新特征。具体公式如下：

其中，y _i是样本i的标记，为1或0。p _i为预测出来的余弦相似度。

S3.2：将Z2所有的短字符串找到D中对应的编码，并把编码全部相加，得到Z1的编码C1，再将C1进行L2归一化，得到Z1的最终编码C2，把A2的全部字符串对应的编码保存成编码集合B。同时保存特征编码字典D。

具体的，Z2所有的短字符串在D中都会找到一个对应的编码，然后把这些编码直接线性相加，得到一个128维的向量，再使用L2归一化，使得向量的模长都为1。这样就得到了Z1的最终编码C2。把所有的Z1和对应编码集合起来就变成了黑名单特征库B。

S4.数据采集预处理模块，接收在线输入的字符串，并类似S1规则若是过短的非英文字符串则注音。再将字符串进行与S2相同的字符串分割方法得到对应字符串组。

具体的，接收到的字符串X对它作与之前黑名单一样的预处理和分割，获得字符串对应的短字符串组X1。

根据图6所示的数据采集预处理模块，其包括如下步骤：

S4.1：接收输入的字符串X，并同S1.1，S1.2的步骤，若输入字符串少于8个字符，则在原字符串后加上英文注音，再去除空格，把英文字符变为小写。

具体的，同之前黑名单制作的过程相似，直接在字符串后补充英文注音，并删除空格，英文字符变为小写。

S4.2：同S2.1，S2.2步骤，再把X分别以1，2，3，4个字符为间隔进行文字分割，得到四个对应的四种长度的短字符串组x1，x2，x3，x4并合并，得到对应的分割完的字符串群组X1。

具体的，同之前黑名单制作的过程相似，拆分字符串X变为字符串群组X1。

S5.输入字符串特征编码模块，将S3得到的字符串组根据离线情况下获得的特征编码库D中寻找每个字符串对应的特征并累加，最后再把累加得到的特征进行归一化。

具体的，利用S3得到的特征编码字典D，让X1找到对应的特征并且相加，获得字符串特征编码C4。

根据图7所示的数据采集预处理模块，其包括如下步骤：

S5.1：S4.2得到的字符串组X1中的每个短字符串x，在特征编码字典D中寻找对应的特征c，若不在特征编码字典D中则记为0。

具体的，针对字符串组X1的每个短字符串x，若在特征编码字典D中没有对应x的编码，则x对应的编码则为0，最后所有的对应特征编码全部取出保存。

S5.2：将每个短字符串x的特征c直接相加，得到X的特征编码C3，再将C3进行L2归一化，得到X的最终编码C4。

具体的，若短字符串编码为0，则相加后的结果不变，最后得到的特征编码C3，再进行L2归一化，得到X的最终编码C4。

S6.相似度检索与输出模块，将S4得到的输入字符串的特征，与黑名单的每个字符串编码计算余弦相似度，再按得到的值的大小排序，选出最小的十个字符串，得到最后的模糊匹配结果。

具体的，由于编码存在不稳定性的情况，使用余弦相似度匹配最相似的10个特征，找到对应的黑名单文字，将余弦相似度一起作为模糊匹配的结果输出。

根据图8所示的相似度检索与输出模块，将S5.2得到的C4和S2.2中得到的B中的所有特征分别计算余弦相似度，得到值R，并且按R的大小排序，取前十个值r1，r2，...，r10和对应的字符串y1，y2，...，y10，将y1到y10与对应分值r1到r10输出作为最终结果。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

一种基于文本特征相似度的用户名黑名单模糊匹配方法，其特征在于，其步骤为：

(1)黑名单字符串预处理模块，在离线情况下对已有的黑名单中过短的非英文字符串进行注音，再去除所有空格字符，并将所有英文字符全部变为小写字符；

(2)黑名单字符串分割模块，在离线情况下将预处理后的黑名单中每个字符串按不同长度进行文字分割，得到对应的短字符串组，最后将短字符串组合并，得到与原字符串对应地分割完的字符串组；

(3)黑名单文字特征训练编码模块，在离线情况下对分割完的字符串组进行特征训练，得到特征编码库，并根据特征编码库对预处理后黑名单中的字符串进行编码；

(4)数据采集预处理模块，接收在线输入的字符串，并类似步骤(1)规则若是过短的非英文字符串则注音，再将字符串进行与步骤(2)相同的字符串分割方法得到对应字符串组；

(5)输入字符串特征编码模块，将步骤(3)得到的字符串组根据离线情况下获得的特征编码库D中寻找每个字符串对应的特征并累加，最后再把累加得到的特征进行归一化；

(6)相似度检索与输出模块，将步骤(4)得到的输入字符串的特征，与黑名单的每个字符串编码计算余弦相似度，再按得到的值的大小排序，选出最小的十个字符串，得到最后的模糊匹配结果。
根据权利要求1所述的一种基于文本特征相似度的用户名黑名单模糊匹配方法，其特征在于，所述的步骤(1)包括：

①将已有的黑名单A中的少于8个字符的字符串(不包括空格字符)通过音译，统一在原名单后加上英文注音；

②对处理后的黑名单，再直接删除所有空格字符，并且把所有英文字符变为中文，得到预处理后的黑名单A2。
根据权利要求1所述的一种基于文本特征相似度的用户名黑名单模糊匹配方法，其特征在于，所述的步骤(2)包括：

①将黑名单A2中每个字符串Z1视为一组，分别以1，2，3，4个字符为间隔进行文字分割，得到四个对应的四种长度的短字符串组z1，z2，z3，z4；

②将四个短字符串组z1，z2，z3，z4合并，得到与原字符串Z1对应的分割完的字符串群组Z2。
根据权利要求1所述的一种基于文本特征相似度的用户名黑名单模糊匹配方法，其特征在于，所述的步骤(3)包括：

①使用深度学习的方法将步骤(2)得到的分割完的字符串组进行特征训练，得到每个短字符串的特征编码字典D；

②将Z2所有的短字符串找到D中对应的编码，并把编码全部相加，得到Z1的编码C1，再将C1进行L2归一化，得到Z1的最终编码C2，把A2的全部字符串对应的编码保存成编码集合B，同时保存特征编码字典D。
根据权利要求1所述的一种基于文本特征相似度的用户名黑名单模糊匹配方法，其特征在于，所述的步骤(4)包括：

①接收输入的字符串X，并同步骤(1)的步骤，若输入字符串少于8个字符，则在原字符串后加上英文注音，再去除空格；

②同步骤(2)的步骤，再把X分别以1，2，3，4个字符为间隔进行文字分割，得到四个对应的四种长度的短字符串组x1，x2，x3，x4并合并，得到对应的分割完的字符串群组X1。
根据权利要求1所述的一种基于文本特征相似度的用户名黑名单模糊匹配方法，其特征在于，所述的步骤(5)包括：

①得到的字符串组X1中的每个短字符串x，在特征编码字典D中寻找对应的特征c，若不在特征编码库D中则记为0；

②将每个短字符串x的特征c直接相加，得到X的特征编码C3，再将C3进行L2归一化，得到X的最终编码C4。