WO2022063133A1

WO2022063133A1 - 敏感信息检测方法、装置、设备与计算机可读存储介质

Info

Publication number: WO2022063133A1
Application number: PCT/CN2021/119658
Authority: WO
Inventors: 刘宇滨
Original assignee: 深圳前海微众银行股份有限公司
Priority date: 2020-09-27
Filing date: 2021-09-22
Publication date: 2022-03-31
Also published as: CN112052364A

Abstract

一种敏感信息检测方法，包括：向目标地址发送第一请求和第二请求，以得到第一请求对应的第一内容和第二请求对应的第二内容(S10)；基于第一内容和第二内容，确定目标地址对应的目标内容(S20)；确定目标内容对应的原始字符，并提取原始字符中的目标标签(S30)；基于目标标签，生成目标页面，并检测目标页面中是否存在目标敏感信息，以获得检测结果(S40)。还公开了一种敏感信息检测装置、设备和计算机可读存储介质。

Description

敏感信息检测方法、装置、设备与计算机可读存储介质

优先权信息

本申请要求于2020年9月27日申请的、申请号为202011036671.5的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及金融科技(Fintech)技术领域，尤其涉及敏感信息检测方法、装置、设备与计算机可读存储介质。

背景技术

近年来，随着金融科技(Fintech)，尤其是互联网金融的不断发展，信息检测技术被引入银行等金融机构的日常服务中。在银行等金融机构的日常服务过程中，为避免敏感信息，如银行等金融机构的报价信息等被他人上传至外部网站，导致银行等金融机构的敏感信息被外人获知，银行等金融机构往往需要对敏感信息进行泄露检测，以便及时知晓敏感信息被泄露，从而采取补救措施，如删除等。

目前的敏感信息检测方式主要通过对页面进行HTML关键字检测，从而识别敏感信息是否被发布在该页面上，具体的，获取该页面的HTML源码，再对HTML源码进行关键字识别，从而判断是否存在敏感信息，如HTML源码中有关键字“关于印发xxx四项制度的通知”，则表示可能泄露了某银行机构的公文。

此种敏感信息检测方式仅针对HTML源码关键字进行识别，并不能排除一些动态因素的影响，如广告等，且HTML源码并不代表真正的数据，如含有资源请求的标签，以及代码执行后才能获取的数据等并不能直接获得，可见，目前的敏感信息检测方式由于动态因素的干扰或者无法获取到真正的数据，导致检测准确率较低。

发明内容

本申请的主要目的在于提出一种敏感信息检测方法、装置、设备与计算机可读存储介质，旨在提高敏感信息检测的准确率。

为实现上述目的，本申请提供一种敏感信息检测方法，所述敏感信息检测方法包括如下步骤：

向目标地址发送第一请求和第二请求，以得到第一请求对应的第一内容和第二请求对应的第二内容；

基于第一内容和第二内容，确定所述目标地址对应的目标内容；

确定所述目标内容对应的原始字符，并提取所述原始字符中的目标标签；

基于所述目标标签，生成目标页面，并检测所述目标页面中是否存在目标敏感信息，以获得检测结果。

在一实施例中，所述目标标签包括内容标签和样式标签，所述基于所述目标标签，生成目标页面的步骤包括：

确定所述内容标签的第一层级关系，并基于第一层级关系和所述内容标签，构建文档模型树；

确定所述样式标签的第二层级关系，并基于第二层级关系和所述样式标签，构建样式模型树；

基于所述文档模型树和所述样式模型树，生成渲染树；

遍历所述渲染树的节点，并基于所述节点和所述节点的节点关系，生成目标页面。

在一实施例中，所述基于第一层级关系和所述内容标签，构建文档模型树的步骤包括：

依次确定所述内容标签的标签类型；

若当前内容标签为脚本标签，则执行所述脚本标签对应的执行代码，并在所述执行代码执行完毕之后，确定下一内容标签的标签类型；

若当前内容标签为资源标签，则获取所述资源标签对应的资源，并将所述资源生成文档节点；

基于第一层级关系和所述文档节点，构建文档模型树。

在一实施例中，所述基于所述文档模型树和所述样式模型树，生成渲染树的步骤包括：

遍历所述文档模型树中的第一节点，并依次确定第一节点在所述样式模型树中对应的第二节点；

基于第一节点和第二节点，生成第三节点，并基于第三节点，生成渲染树。

在一实施例中，所述检测所述目标页面中是否存在目标敏感信息，以获得检测结果的步骤包括：

确定所述目标页面对应的第一字符串，以及所述目标敏感信息对应的第二字符串，并基于第一字符串的首位页面字符和第二字符串的首位敏感字符，将第一字符串与第二字符串对齐；

依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配；

若当前页面字符与当前敏感字符不匹配，则将第二字符串的末位敏感字符所对应的页面字符的下一页面字符确定为目标字符，并确定第二字符串中是否存在所述目标字符；

若不存在，则基于所述目标字符的下一页面字符和第二字符串的首位敏感字符，将第一字符串和第二字符串对齐，并执行依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配的步骤；

若存在，则基于所述目标字符，将第一字符串与第二字符串对齐，并执行依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配的步骤；

若匹配，则记录第二字符串在第一字符串的匹配位置，并基于所述匹配位置输出检测结果。

在一实施例中，在生成目标页面之后，所述敏感信息检测方法还包括：

确定所述目标页面的标识信息，并基于所述标识信息，确定预设数据库中是否存在与所述标识信息一致的目标标识信息；

若不存在，则执行检测所述目标页面中是否存在目标敏感信息，以获得检测结果的步骤，并在获得所述检测结果后，将所述检测结果和所述标识信息关联保存在预设数据库中；

若存在，则获取所述目标标识信息对应的检测结果。

在一实施例中，所述基于第一内容和第二内容，确定所述目标地址对应的目标内容的步骤包括：

确定第一内容对应的第一序列，以及第二内容对应的第二序列，并基于第一序列和第二序列，生成目标矩阵；

基于所述目标矩阵，确定第一序列与第二序列的最长公共子序列，并基于所述最长公共子序列，确定所述目标地址对应的目标内容。

在一实施例中，所述向所述目标地址发送第一请求和第二请求，以得到所述目标地址返回的第一请求对应的第一内容和第二请求对应的第二内容的步骤之前，所述敏感信息检测方法还包括：

向所述目标地址发送第三请求，以得到第三请求对应的状态码；

若所述状态码为目标状态码，则执行向目标地址发送第一请求和第二请求的步骤。

此外，为实现上述目的，本申请还提供一种敏感信息检测装置，所述敏感信息检测装置包括：

发送模块，用于向目标地址发送第一请求和第二请求，以得到第一请求对应的第一内容和第二请求对应的第二内容；

确定模块，用于基于第一内容和第二内容，确定所述目标地址对应的目标内容；

提取模块，用于确定所述目标内容对应的原始字符，并提取所述原始字符中的目标标签；

生成模块，用于基于所述目标标签，生成目标页面；

检测模块，用于检测所述目标页面中是否存在目标敏感信息，以获得检测结果。

在一实施例中，所述目标标签包括内容标签和样式标签，所述生成模块还用于：

基于所述文档模型树和所述样式模型树，生成渲染树；

在一实施例中，所述生成模块还用于：

依次确定所述内容标签的标签类型；

基于第一层级关系和所述文档节点，构建文档模型树。

在一实施例中，所述生成模块还用于：

在一实施例中，所述检测模块还用于：

若存在，则获取所述目标标识信息对应的检测结果。

在一实施例中，所述确定模块还用于：

在一实施例中，所述发送模块还用于：

此外，为实现上述目的，本申请还提供一种敏感信息检测设备，所述敏感信息检测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的敏感信息检测程序，所述敏感信息检测程序被所述处理器执行时实现如上所述的敏感信息检测方法的步骤。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有敏感信息检测程序，所述敏感信息检测程序被处理器执行时实现如上所述的敏感信息检测方法的步骤。

本申请提出的敏感信息检测方法，向目标地址发送第一请求和第二请求，以得到第一请求对应的第一内容和第二请求对应的第二内容；基于第一内容和第二内容，确定目标地址对应的目标内容；确定目标内容对应的原始字符，并提取原始字符中的目标标签；基于目标标签，生成目标页面，并检测目标页面中是否存在目标敏感信息，以获得检测结果。本申请通过同一地址的两次请求，剔除地址中动态因素的干扰，从而得到固定的内容，再通过提取标签，生成包含完整数据的页面，使得页面的内容固定且完整，再在该页面中进行敏感信息的检测，提高了敏感信息检测的准确率。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本申请敏感信息检测方法第一实施例的流程示意图；

图3为本申请敏感信息检测方法第一实施例中，目标矩阵的一种示意图；

图4为本申请敏感信息检测方法第一实施例中，文档模型树的一种示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，图1是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请实施例设备可以是移动终端或服务器设备。

如图1所示，该设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及敏感信息检测程序。

其中，操作系统是管理和控制敏感信息检测设备与软件资源的程序，支持网络通信模块、用户接口模块、敏感信息检测程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1002；用户接口模块用于管理和控制用户接口1003。

在图1所示的敏感信息检测设备中，所述敏感信息检测设备通过处理器1001调用存储器1005中存储的敏感信息检测程序，并执行下述敏感信息检测方法各个实施例中的操作。

基于上述硬件结构，提出本申请敏感信息检测方法实施例。

参照图2，图2为本申请敏感信息检测方法第一实施例的流程示意图，所述方法包括：

步骤S10，向目标地址发送第一请求和第二请求，以得到第一请求对应的第一内容和第二请求对应的第二内容；

步骤S20，基于第一内容和第二内容，确定所述目标地址对应的目标内容；

步骤S30，确定所述目标内容对应的原始字符，并提取所述原始字符中的目标标签；

步骤S40，基于所述目标标签，生成目标页面，并检测所述目标页面中是否存在目标敏感信息，以获得检测结果。

本实施例敏感信息检测方法运用于理财机构或者银行系统等金融机构的敏感信息检测设备中，敏感信息检测设备可以是终端、机器人或者PC设备，为描述方便，敏感信息检测设备以检测设备简称。在本实施例中，相关人员事先根据银行等金融机构的实际情况，建立敏感信息文本库，从而规定哪些信息是不允许泄露的，如将“关于xxx的通知”、“xxx报价单”“xxx客户名单”等信息设置为敏感信息，其中该敏感信息文本库可以设置在检测设备本地，也可以设置在与检测设备连接的服务器中。此外，为确保精准检测，检测设备需要对所有可能泄露敏感信息的站点进行监控，而这些站点合法且可访问，也即，检测设备在访问某站点时，先根据正则匹配，判断该站点的url是否合法，并在合法的情况下，向其发送访问请求，最后根据返回的访问结果确定该站点是否可用，在可用的情况下，检测设备才对该站点进行敏感信息的检测。

本实施例为避免站点页面中存在广告等动态因素的干扰，通过对同一站点进行两次访问，再根据两次访问的差异，剔除动态因素的干扰，从而得到固定的目标内容，再通过提取标签，将目标内容生成包含完整数据的页面，使得页面的内容固定且完整，此时，再在该页面中进行敏感信息的检测，使得检测结果更加可靠。

以下将对各个步骤进行详细说明：

在本实施例中，检测设备向同一目标地址分别发送第一请求和第二请求，从而分别得到第一内容和第二内容，其中，若目标地址存在动态因素的影响，如广告的存在，则针对同一地址的不同访问请求，所返回的访问结果不同，也即，此时的第一内容与第二内容不同，当然，若不存在动态因素的影响，针对同一地址的不同访问请求，所返回的访问结果一致，也即，此时的第一内容与第二内容相同。

进一步地，在一实施例中，步骤S10之前，敏感信息检测方法还包括：

步骤a1，向所述目标地址发送第三请求，以得到第三请求对应的状态码；

在一实施例中，先向目标地址发送第三请求，从而得到对应的状态码，其中，第三请求为head请求，而状态码用于表示当前请求是否产生错误，在具体实施时，状态码为401、403、404等即为错误，状态码为200即为正常，因此，可事先设200的状态码为目标状态码。

步骤a2，若所述状态码为目标状态码，则执行向目标地址发送第一请求和第二请求的步骤。

在一实施例中，若确定当前状态码为200，则执行向目标地址发送第一请求和第二请求的步骤，其中，第一请求和第二请求为get请求。

也即，在一实施例中，不直接对目标地址发送get请求，而是先发送head请求，根据head请求返回的状态码判断目标地址对应的页面是否正常，因为get请求会返回header数据和body数据，而head请求只返回header数据，在实际检测过程中，在header数据无效的情况下，body数据大多也为无效数据，因此，为提高检测效率效率，先发送一次head请求，根据head请求返回的状态码判断是否产生错误，如状态码为401、403、404等，如果产生错误，则停止对当前目标地址进行检测；在状态码正常时，如状态码为200，则会发送两次get请求，以获得两次请求对应的第一内容和第二内容。

步骤S20，基于第一内容和第二内容，确定所述目标地址对应的目标内容。

在本实施例中，检测设备根据第一内容和第二内容，剔除动态因素，从而确定目标地址对应的目标内容，其中，目标内容为第一内容和第二内容的共有部分，也即，在去除动态因素时，将第一内容和第二内容中非共有部分定义为动态内容，也即动态因素。

具体的，在一实施例中，步骤S20包括：

步骤b1，确定第一内容对应的第一序列，以及第二内容对应的第二序列，并基于第一序列和第二序列，生成目标矩阵；

在一实施例中，通过查找第一内容和第二内容的最长公共子序列作为第一内容和第二内容的共有部分。具体的，先确定第一内容对应的第一序列A，再确定第二内容对应的第二序列B，再进一步确定第一序列A的长度为M，第二序列B的长度为N，从而生成大小为(m+1)*(n+1)的目标矩阵C，初始元素全部为0，如图3所示，以第一序列A＝[A，B，C，B，D，A，B]，长度为7，第二序列B＝[B，D，C，A，B，A]，长度为6为例，生成一个 8×7的目标矩阵C。

步骤b2，基于所述目标矩阵，确定第一序列与第二序列的最长公共子序列，并基于所述最长公共子序列，确定所述目标地址对应的目标内容。

接着，通过目标矩阵C，查找第一序列与第二序列的最长公共子序列。

具体公式如下：

其解法为设当前矩阵C初始值均为0，由于i，j均大于0，忽略矩阵的第0行，及第0列，从第i行，第1列开始计算，此时By[1]＝B，当i＝1时，Ax[1]＝A，两者不相等，取C[i-1][j]与C[i][j-1]两者之间最大的值，可知此时为0，当i＝2时，Ax[2]＝B，两者相等，取C[i-1][j-1]+1，可知此时应为0+1＝1当i＝3时，以此类推，最终得到最长子序列为[B，C，B，A]，长度为4。

最后，将第一内容和第二内容的最长公共子序列确定为第一内容和第二内容的共有部分，也即目标内容。

步骤S30，确定所述目标内容对应的原始字符，并提取所述原始字符中的目标标签。

在本实施例中，在向目标地址发送get请求时，返回的body数据中有bytes源码，如：

\u003c\u0068\u0074\u006d\u006c\u003e\u000a\u0020\u0020\u0020\u0020\u003c\u0068\u0065\u0061\u0064\u003e\u000a\u0020\u0020\u0020\u0020\u0020\u0020\u0020\u0020\u003c\u006d\u0065\...

此时，检测设备需读取该body的原始字节，再根据预设编码解析为可识别的原始字符，如：

<html>

<head>

</head>

<body>

<imgsrc＝’x’>

<p>

文本信息1

<span>

文本信息2

</span>

文本信息3

</p>

</body>

</html>

也即，将其转换成html源码，此时，检测设备再提取原始字符，也即html源码中的目标标签，如：<imgsrc＝’x’>等。

在一实施例中，在提取目标标签的过程中检测设备可根据预设标签结构进行提取，也即满足预设标签结构的都为目标标签。

此外，需要说明的是，html源码中的文本信息也需要提取，后续在生成文档模型树时，根据文本信息所属的父子关系，将文本信息放置在文档模型树的相应位置。

在本实施例中，在得到目标标签之后，即可根据目标标签，获得更为完整的数据，并以此生成目标页面，检测设备再在目标页面上检测是否有敏感信息存在在该目标页面中，从而获得更为准确的检测结果。

具体的，在一实施例中，基于所述目标标签生成目标页面的步骤包括：

步骤c1，确定所述内容标签的第一层级关系，并基于第一层级关系和所述内容标签，构建文档模型树；

在一实施例中，目标标签包括内容标签和样式标签，其中，内容标签用户描述具体内容，而样式标签用于描述具体内容的布局。

在具体实施时，先确定各内容标签的第一层级关系，然后，将内容标签生成节点，如上述部分html源码中，内容标签<html>为父层，<head>和<body>为<html>的子层，参照图4，按照第一层级关系和内容标签对应的节点，构建文档模型树(DOM树)。

进一步地，在一实施例中，基于第一层级关系和所述内容标签，构建文档模型树的步骤包括：

步骤c11，依次确定所述内容标签的标签类型；

在一实施例中，针对一些使用JavaScript(后面简称js)动态渲染的页面，html源码所能够获取的，只是js的代码或js代码的路径，并不是检测设备真正能够获取到的数据。此外，还有一些含有资源请求的标签(如<script src＝’a.com’></script>，)，检测设备若只获取该标签，并不能拉取真正的数据。

因此，在具体实施时，需要依次确定内容标签的标签类型，其中，标签类型包括资源标签和脚本标签。

步骤c12，若当前内容标签为脚本标签，则执行所述脚本标签对应的执行代码，并在所述执行代码执行完毕之后，确定下一内容标签的标签类型；

在一实施例中，若确定当前内容标签为脚本标签，则检测设备执行脚本标签对应的执行代码，暂时放弃对DOM树的构建，并在执行完毕之后，继续确定下一内容标签的标签类型，也即，检测设备在构建DOM树过程中，若遇到一个script标签时(即遇上js)，则阻塞DOM树的构建，通过检测设备的js引擎执行该段js代码。js代码执行完毕后，再继续DOM树的构建。

需要说明的是，阻塞DOM树的构建的目的在于提高整体的效率，避免DOM树某个节点创建完成之后，又被js代码删除，导致整体效率低下的情况发生。

步骤c13，若当前内容标签为资源标签，则获取所述资源标签对应的资源，并将所述资源生成文档节点；

在一实施例中，若当前内容标签为资源标签，则检测设备获取资源标签对应的资源，具体的，检测设备根据资源标签中的请求，如<imgsrc＝’x’>，<a href＝’x’>，发送http请求获取该资源标签对应的资源，并保存在本地，再将资源生成文档节点。

步骤c14，基于第一层级关系和所述文档节点，构建文档模型树。

在一实施例中，检测设备根据生成的文档节点，按照第一层级关系的顺序，构建文档模型树。

步骤c2，确定所述样式标签的第二层级关系，并基于第二层级关系和所述样式标签，构建样式模型树；

在一实施例中，检测设备以类似的方式，确定样式标签的第二层级关系，并通过第二层级关系和样式标签，构建样式模型树(CSS树)，具体过程以构建文档模型树类似，在此不再赘述。

步骤c3，基于所述文档模型树和所述样式模型树，生成渲染树；

在一实施例中，检测设备对获取到的html源码进行后台渲染，具体的，将文档模型树和样式模型树，生成渲染树。

在一实施例中，步骤c3包括：

步骤c31，遍历所述文档模型树中的第一节点，并依次确定第一节点在所述样式模型树中对应的第二节点；

在一实施例中，可以理解的，DOM树与CSS树存在对应关系，因此，检测设备在遍历DOM树的所有节点，也即第一节点时，可通过查询CSS树对应的第二节点，找到其样式。

步骤c32，基于第一节点和第二节点，生成第三节点，并基于第三节点，生成渲染树。

在一实施例中，通过第一节点和第二节点，生成第三节点，再将其添加到渲染树中，从而将文档模型树和样式模型树生成渲染树。

需要说明的是，对于不可见的(如设置了display:none)节点，现有技术为了数据的完整性并不会忽略不可见的节点，从而造成了渲染效率低下的问题，在本实施例中，检测设备并不会对不可见的数据进行扫描，因此该部分节点可以被忽略，可提高渲染效率。

步骤c4，遍历所述渲染树的节点，并基于所述节点和所述节点的节点关系，生成目标页面。

在一实施例中，检测设备通过遍历渲染树的所有节点，由节点间的关系生成最后的html页面，也即目标页面。

可以理解的，渲染树中的节点，既有内容描述，也有样式描述，因此，可生成一个包含完整数据的目标页面。

最后，检测设备再在该目标页面中进行敏感信息关键字的识别匹配，具体的，将敏感信息中的关键字，与目标页面中的字符进行一一匹配，从而得到检测结果，其中，目标敏感信息为敏感信息文本库中的敏感信息，检测结果包括泄露或者未泄露。

本实施例的检测设备向目标地址发送第一请求和第二请求，以得到第一请求对应的第一内容和第二请求对应的第二内容；基于第一内容和第二内容，确定目标地址对应的目标内容；确定目标内容对应的原始字符，并提取原始字符中的目标标签；基于目标标签，生成目标页面，并检测目标页面中是否存在目标敏感信息，以获得检测结果。本申请通过同一地址的两次请求，剔除地址中动态因素的干扰，从而得到固定的内容，再通过提取标签，生成包含完整数据的页面，使得页面的内容固定且完整，再在该页面中进行敏感信息的检测，提高了敏感信息检测的准确率。

进一步地，基于本申请敏感信息检测方法第一实施例，提出本申请敏感信息检测方法第二实施例。

敏感信息检测方法的第二实施例与敏感信息检测方法的第一实施例的区别在于，检测目标页面中是否存在目标敏感信息的步骤包括：

步骤d1，确定所述目标页面对应的第一字符串，以及所述目标敏感信息对应的第二字符串，并基于第一字符串的首位页面字符和第二字符串的首位敏感字符，将第一字符串与第二字符串对齐；

步骤d2，依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配；

步骤d3，若当前页面字符与当前敏感字符不匹配，则将第二字符串的末位敏感字符所对应的页面字符的下一页面字符确定为目标字符，并确定第二字符串中是否存在所述目标字符；

步骤d4，若不存在，则基于所述目标字符的下一页面字符和第二字符串的首位敏感字符，将第一字符串和第二字符串对齐，并执行依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配的步骤；

步骤d5，若存在，则基于所述目标字符，将第一字符串与第二字符串对齐，并执行依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配的步骤；

步骤d6，若匹配，则记录第二字符串在第一字符串的匹配位置，并基于所述匹配位置输出检测结果。

本实施例由于多次批量检测时，生成的文件体积较大，也即目标页面较多，如果使用传统的关键字逐一匹配的方法进行检测，将耗时过多，也即检测效率低下，因此，本实施例提供了一种改进的匹配方法，其基本原理是将敏感信息作为一个整体进行匹配，且在匹配过程中，在目标页面也截取与敏感信息等长的字符作为匹配对象，使得匹配过程加快，提高检测效率。

以下将对各个步骤进行详细说明：

在本实施例中，检测设备先分别确定目标页面对应的第一字符串，以及目标敏感信息对应的第二字符串，再以第一字符串为基础，构建一个位置轴，其中，第一字符串中的每一个页面字符在位置轴上都对应一个位置，且固定不变，再在位置轴上，将第一字符串与第二字符串对齐，具体以首位页面字符与首位敏感字符对齐。

在本实施例中，检测设备依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配，如位于位置轴上第一位置的敏感字符与位于第一位置的页面字符是否匹配。

在本实施例中，若确定当前页面字符与当前敏感字符不匹配，则检测设备将第二字符串的末位敏感字符所对应的页面字符的下一页面字符确定为目标字符，在具体实施时，可先确定第二字符串的字符长度，再在该字符长度加一，此时在位置轴上所对应的位置，即为目标字符的位置，此时检测设备在该位置上获取到的即为目标字符。

接着，确定第二字符串中是否存在目标字符，也即目标字符是否是敏感字符。

在本实施例中，若确定第二字符串中不存在目标字符，则跳过目标字符，以目标字符的下一页面字符作为对齐字符，也即，将目标字符的下一字符和第二字符串的首位敏感字符作为对齐基准，将第二字符串在位置轴上进行移动，此时第二字符串同样对应有相同字符长度的页面字符，检测设备继续执行依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配的步骤。

在本实施例中，若确定第二字符串中存在目标字符，则以目标字符作为对齐字符，将第二字符串在位置轴上进行移动，此时第二字符串同样对应有相同字符长度的页面字符，且第二字符串与对应的页面字符至少有一个字符相同，检测设备继续执行依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配的步骤。

在本实施例中，若确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符匹配，则记录第二字符串在第一字符串中的匹配位置，并输出包含匹配位置的检测结果。

可以理解的，若直至第一字符串匹配结束都匹配不到，说明第一字符串中没有包含第二字符串中的敏感字符，说明目标敏感信息未在目标页面泄露，则输出未泄露的检测结果。

以第一字符串为A，第二字符串为B为例，其中：

A＝[I,A,M,J,O,H,N,I,L,I,K,E,P,L,A,Y,I,N,G,F,O,O,T,B,A,L,L,]；

B＝[N,I,L,I]。

在具体实施时，先把字符串A与字符串B以首位字符对齐，如：

在位置0处，字符串A和字符串B不匹配，此时取出字符串B的最末位字符I对应的页面字符J的下一位字符，即位置4的字符O。再去判断字符串B中是否有O。

由于字符串B中并没有字符O，此时，将B[0]和O的下一位(即A[5])对齐如下：

此时H和N也不匹配，则取出字符串B末位对应的页面字符的下一位，这里为I。

I存在于字符串B中，检测设备便将字符串B右边移动1位，将两个字符串中的I对齐，需要说明的是，在字符串B存在多个I的情况下，依次以任一I作为对齐字符进行对齐。

此时得到字符串B在字符串A中的匹配位置：

检测设备则输出包含该匹配位置的检测结果。

本实施例的检测设备将敏感信息作为一个整体进行匹配，且在匹配过程中，在目标页面也截取与敏感信息等长的字符作为匹配对象，使得匹配过程加快，提高检测效率。

进一步地，基于本申请敏感信息检测方法第一、第二实施例，提出本申请敏感信息检测方法第三实施例。

敏感信息检测方法的第三实施例与敏感信息检测方法的第一、第二实施例的区别在于，在生成目标页面之后，敏感信息检测方法还包括：

步骤e1，确定所述目标页面的标识信息，并基于所述标识信息，确定预设数据库中是否存在与所述标识信息一致的目标标识信息；

步骤e2，若不存在，则执行检测所述目标页面中是否存在目标敏感信息，以获得检测结果的步骤，并在获得所述检测结果后，将所述检测结果和所述标识信息关联保存在预设数据库中；

步骤e3，若存在，则获取所述目标标识信息对应的检测结果。

本实施例为避免重复检测，在得到去除动态因素影响的目标页面之后，计算其标识信息，并与数据库中的标识信息进行比较，若数据库中不存在一致的标识信息，则对其进行敏感信息泄露检测，并将最终的检测结果与标识信息关联存储在数据库中；若数据库中存在一致的标识信息，则直接输出对应的检测结果，不需要再做检测，减少检测操作，提高检测效率。

以下将对各个步骤进行详细说明：

在本实施例中，检测设备在得到去除动态因素影响的目标页面之后，计算目标页面的标识信息，其中，标识信息可以为hash值，或者MD5值等，用于表明当前目标页面唯一的信息。

然后，将目标页面的标识信息与预设数据库中的标识信息进行比较，确定预设数据库中是否存在与目标页面的标识信息一致的目标标识信息。

在本实施例中，若确定预设数据库中不存在与目标页面的标识信息一致的目标标识信息，说明目标页面之前没有检测过，则执行检测目标页面中是否存在目标敏感信息的步骤，具体过程参见上一实施例，在此不再赘述，从而得到对应的检测结果，然后，将该检测结果与目标页面的标识信息进行关联绑定，并保存在预设数据库中，以避免对目标页面进行重复检测。

在本实施例中，若确定预设数据库中存在与目标页面的标识信息一致的目标标识信息，说明目标页面之前检测过了，则直接在预设数据库中获取目标标识信息对应的检测结果进行输出。

本实施例为避免重复检测，在得到去除动态因素影响的目标页面之后，计算其标识信息，通过标识信息确定当前目标页面是否检测过，若检测过，则直接输出之前的检测结果，不需要再做检测，减少检测操作，提高检测效率。

本申请还提供一种敏感信息检测装置。本申请敏感信息检测装置包括：

生成模块，用于基于所述目标标签，生成目标页面；

基于所述文档模型树和所述样式模型树，生成渲染树；

在一实施例中，所述生成模块还用于：

依次确定所述内容标签的标签类型；

基于第一层级关系和所述文档节点，构建文档模型树。

在一实施例中，所述生成模块还用于：

在一实施例中，所述检测模块还用于：

若存在，则获取所述目标标识信息对应的检测结果。

在一实施例中，所述确定模块还用于：

在一实施例中，所述发送模块还用于：

本申请还提供一种计算机可读存储介质。

本申请计算机可读存储介质上存储有敏感信息检测程序，所述敏感信息检测程序被处理器执行时实现如上所述的敏感信息检测方法的步骤。

其中，在所述处理器上运行的敏感信息检测程序被执行时所实现的方法可参照本申请敏感信息检测方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书与附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种敏感信息检测方法，其中，所述敏感信息检测方法包括如下步骤：

向目标地址发送第一请求和第二请求，以得到第一请求对应的第一内容和第二请求对应的第二内容；

基于第一内容和第二内容，确定所述目标地址对应的目标内容；

确定所述目标内容对应的原始字符，并提取所述原始字符中的目标标签；

基于所述目标标签，生成目标页面，并检测所述目标页面中是否存在目标敏感信息，以获得检测结果。
如权利要求1所述的敏感信息检测方法，其中，所述目标标签包括内容标签和样式标签，所述基于所述目标标签，生成目标页面的步骤包括：

确定所述内容标签的第一层级关系，并基于第一层级关系和所述内容标签，构建文档模型树；

确定所述样式标签的第二层级关系，并基于第二层级关系和所述样式标签，构建样式模型树；

基于所述文档模型树和所述样式模型树，生成渲染树；

遍历所述渲染树的节点，并基于所述节点和所述节点的节点关系，生成目标页面。
如权利要求2所述的敏感信息检测方法，其中，所述基于第一层级关系和所述内容标签，构建文档模型树的步骤包括：

依次确定所述内容标签的标签类型；

若当前内容标签为脚本标签，则执行所述脚本标签对应的执行代码，并在所述执行代码执行完毕之后，确定下一内容标签的标签类型；

若当前内容标签为资源标签，则获取所述资源标签对应的资源，并将所述资源生成文档节点；

基于第一层级关系和所述文档节点，构建文档模型树。
如权利要求2所述的敏感信息检测方法，其中，所述基于所述文档模型树和所述样式模型树，生成渲染树的步骤包括：

遍历所述文档模型树中的第一节点，并依次确定第一节点在所述样式模型树中对应的第二节点；

基于第一节点和第二节点，生成第三节点，并基于第三节点，生成渲染树。
如权利要求1所述的敏感信息检测方法，其中，所述检测所述目标页面中是否存在目标敏感信息，以获得检测结果的步骤包括：

确定所述目标页面对应的第一字符串，以及所述目标敏感信息对应的第二字符串，并基于第一字符串的首位页面字符和第二字符串的首位敏感字符，将第一字符串与第二字符串对齐；

依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配；

若当前页面字符与当前敏感字符不匹配，则将第二字符串的末位敏感字符所对应的页面字符的下一页面字符确定为目标字符，并确定第二字符串中是否存在所述目标字符；

若不存在，则基于所述目标字符的下一页面字符和第二字符串的首位敏感字符，将第一字符串和第二字符串对齐，并执行依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配的步骤；

若存在，则基于所述目标字符，将第一字符串与第二字符串对齐，并执行依次确定第二字符串的敏感字符与对应同一位置的第一字符串的页面字符是否匹配的步骤；

若匹配，则记录第二字符串在第一字符串的匹配位置，并基于所述匹配位置输出检测结果。
如权利要求1所述的敏感信息检测方法，其中，在生成目标页面之后，所述敏感信息检测方法还包括：

确定所述目标页面的标识信息，并基于所述标识信息，确定预设数据库中是否存在与所述标识信息一致的目标标识信息；

若不存在，则执行检测所述目标页面中是否存在目标敏感信息，以获得检测结果的步骤，并在获得所述检测结果后，将所述检测结果和所述标识信息关联保存在预设数据库中；

若存在，则获取所述目标标识信息对应的检测结果。
如权利要求1所述的敏感信息检测方法，其中，所述基于第一内容和第二内容，确定所述目标地址对应的目标内容的步骤包括：

确定第一内容对应的第一序列，以及第二内容对应的第二序列，并基于第一序列和第二序列，生成目标矩阵；

基于所述目标矩阵，确定第一序列与第二序列的最长公共子序列，并基于所述最长公共子序列，确定所述目标地址对应的目标内容。
如权利要求1-7任一项所述的敏感信息检测方法，其中，所述向所述目标地址发送第一请求和第二请求，以得到所述目标地址返回的第一请求对应的第一内容和第二请求对应的第二内容的步骤之前，所述敏感信息检测方法还包括：

向所述目标地址发送第三请求，以得到第三请求对应的状态码；

若所述状态码为目标状态码，则执行向目标地址发送第一请求和第二请求的步骤。
一种敏感信息检测装置，其中，所述敏感信息检测装置包括：

发送模块，用于向目标地址发送第一请求和第二请求，以得到第一请求对应的第一内容和第二请求对应的第二内容；

确定模块，用于基于第一内容和第二内容，确定所述目标地址对应的目标内容；

提取模块，用于确定所述目标内容对应的原始字符，并提取所述原始字符中的目标标签；

生成模块，用于基于所述目标标签，生成目标页面；

检测模块，用于检测所述目标页面中是否存在目标敏感信息，以获得检测结果。
一种敏感信息检测设备，其中，所述敏感信息检测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的敏感信息检测程序，所述敏感信息检测程序被所述处理器执行时实现如权利要求1至8中任一项所述的敏感信息检测方法的步骤。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有敏感信息检测程序，所述敏感信息检测程序被处理器执行时实现如权利要求1至8中任一项所述的敏感信息检测方法的步骤。