WO2021232593A1

WO2021232593A1 - 基于产品协议字符识别的恶意条款识别方法、装置、设备

Info

Publication number: WO2021232593A1
Application number: PCT/CN2020/105774
Authority: WO
Inventors: 普璇
Original assignee: 平安国际智慧城市科技股份有限公司
Priority date: 2020-05-22
Filing date: 2020-07-30
Publication date: 2021-11-25
Also published as: CN111783781B; CN111783781A

Abstract

本申请属于人工智能领域，公开了一种基于产品协议字符识别的恶意条款识别方法、装置、计算机设备及可读存储介质。所述方法通过终端上的触发关键字的触发接口，识别触发关键字，调用屏幕滑动截图接口对触发关键字对应的文字页面进行滚动截屏，得到待提取协议图片，再通过预设的单字符的长宽比结合具体地字符条图片的长宽确定待提取协议图片中单字符的平均宽度，进行单字符的切割，解决了现有技术中基于OCR文字识别因为条款协议的文字过小导致的条款识别不准确的技术问题。

Description

基于产品协议字符识别的恶意条款识别方法、装置、设备

本申请以2020年5月22日提交的申请号为202010439266.1，名称为“基于产品协议字符识别的恶意条款识别方法、装置、设备”的中国发明专利申请为基础，并要求其优先权。

技术领域

本申请涉及人工智能领域，特别是涉及一种基于产品协议字符识别的恶意条款识别方法、装置、计算机设备和存储介质。

背景技术

现在APP、网站等许多应用服务在用户使用时都会出现免责声明，用户注册时会出现《用户注册协议》《隐私政策》等协议内容，需要用户同意才能正常使用部分服务。然而这些协议内容都枯燥乏味，但重要信息往往隐藏其中，用户难以发现。即使用户看到这些信息，但由于描述抽象繁杂，很多用户也难以理解其背后的真实含义。因此现在绝大部分用户为了能够正常使用产品，都会直接勾选同意，导致被动接受服务商提出的霸王条款，甚至是恶意免责条款，用户的利益收到损失，后续难以维权。中国发明专利申请CN109918635A公开了一种合同文本风险检测方法，通过根据待检测的合同文本所述的商业领域获取对应的条款分类模型，然后利用条款分类模型对合同文本的条款进行分类，得到合同文本的条款文本及对应的条款类型，最后对每个条款类型的条款文本进行风险评估，确定每个条款文本的风险程度，解决现有技术中对合同文本解析和风险判决难以实现的技术问题。

在实现本申请的过程中，发明人意识到现有技术对合同或者条款进行文本提取一般采用OCR技术，而文字识别的关键之所在就是在于文字的切割，切割的准确度极大的影响了文字识别的正确率，但是由于汉字的特殊性以及条款协议上文字较小导致截图后文字过小，造成切割文字切割困难，比如相邻两汉字是捺和撇，会出现对预处理后的文字图片切割时将多个汉字切割为一个图片方块，最终于文字库进行匹配时出现识别错误的情况，最终导致条款识别不准确的技术问题，而这种问题在文字较小的条款协议中尤为严重。

发明内容

基于此，有必要针对上述技术问题，本申请提供一种基于产品协议字符识别的恶意条款识别方法、装置、计算机设备及存储介质，以解决现有技术中基于OCR文字识别因为条款协议的文字过小导致的条款识别不准确的技术问题。

一种基于产品协议字符识别的恶意条款识别方法，所述方法包括：

识别触发关键字，并对所述触发关键字对应的页面进行滚动截屏，得到待提取协议图片；

对所述待提取协议图片进行横向扫描后切割，得到若干行的字符条图片；

计算所述字符条图片中的长与宽，按照预设字符长宽比确定所述字符条图片中单字符的平均宽度；

根据所述平均宽度对所述字符条图片进行切割，得到包括单字符的字符图片；

对所述字符图片进行特征提取，并将得到的维度特征与预设特征模块库的文字的特征进行字符匹配，得到文本特征信息；

将所述文本特征信息输入到预先训练好的恶意条款判别器中进行恶意条款的判断，得到判断结果。

一种基于产品协议字符识别的恶意条款识别装置，所述装置包括：

协议截取模块，用于识别触发关键字，并对所述触发关键字对应的页面进行滚动截屏，得到待提取协议图片；

图片切割模块，用于对所述待提取协议图片进行横向扫描后切割，得到若干行的字符条图片；

宽度计算模块，用于计算所述字符条图片中的长与宽，按照预设字符长宽比确定所述字符条图片中单字符的平均宽度；

字符切割模块，用于根据所述平均宽度对所述字符条图片进行切割，得到包括单字符的字符图片；

特征提取模块，用于对所述字符图片进行特征提取，并将得到的维度特征与预设的特征模块库的文字的特征进行字符匹配，得到文本特征信息；

条款判别模块，用于将所述文本特征信息输入到预先训练好的恶意条款判别器中进行恶意条款的判断，得到判断结果。

一种计算机设备，包括存储器和处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述基于产品协议字符识别的恶意条款识别方法的步骤：

对所述字符图片进行特征提取，并将得到的维度特征与预设的特征模块库的文字的特征进行字符匹配，得到文本特征信息；

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述基于产品协议字符识别的恶意条款识别方法的步骤：

进一步地，所述计算机可用存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

上述基于产品协议字符识别的恶意条款识别方法、装置、计算机设备和存储介质，通过终端上的触发关键字的触发接口，识别触发关键字，调用屏幕滑动截图接口对触发关键字对应的文字页面进行滚动截屏，得到待提取协议图片，再通过预设的单字符的长宽比结合具体地字符条图片的长宽确定待提取协议图片中单字符的平均宽度，进行单字符的切割，解决了现有技术中基于OCR文字识别因为条款协议的文字过小导致的条款识别不准确的技术问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为基于产品协议字符识别的恶意条款识别方法的应用环境示意图；

图2为基于产品协议字符识别的恶意条款识别方法的流程示意图；

图3为图2中步骤204的横向扫描像素点占用示意图；

图4为图2中步骤202的流程示意图；

图5为基于产品协议字符识别的恶意条款识别装置的示意图；

图6为一个实施例中计算机设备的示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的基于产品协议字符识别的恶意条款识别方法，可以应用于如图1所示的应用环境中。其中，该应用环境可以包括终端102、网络以及服务端104，网络用于在终端102和服务端104之间提供通信链路介质，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端102通过网络与服务端104交互，以接收或发送消息等。终端102上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端102可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务端104可以是提供各种服务的服务器，例如对终端102上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于产品协议字符识别的恶意条款识别方法一般由服务端/终端执行，相应地，基于产品协议字符识别的恶意条款识别装置一般设置于服务端/终端设备中。

应该理解，图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

其中，终端102通过网络与服务端104进行通信。终端102识别触发关键字，并对协议条款进行截屏，然后再扫描截图得到的待提取协议图片，对待提取协议图片进行切割。计算切割后的单字符的平均长度，根据平均长度将字符条图片切割为字符图片。从服务端104获取特征模块库与根据字符图片提取到的维度特征进行字符匹配，得到文本特征信息，再将文本特征信息输入预先训练好的恶意条款判别器中进行判断，得到判断结果。其中，终端102和服务端104之间通过网络进行连接，该网络可以是有线网络或者无线网络，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务端104可以用独立的服务器或者是多个组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于产品协议字符识别的恶意条款识别方法，以该方法应用于图1中的服务端为例进行说明，包括以下步骤：

步骤202，识别触发关键字，并对触发关键字对应的页面进行滚动截屏，得到待提取协议图片。

在一些实施例中，终端(如手机、平板或电脑等安装有操作系统的终端设备)上可以设置能够检测第一次安装的应用、打开的网页的触发接口，实现当检测到用户打开了该新安装的应用，并弹出了新弹窗，则对手机屏幕上显示的文字进行识别的功能，如果识别到触发关键字，比如“请阅读条款”、“用户协议”、“用户条款”或“使用警告”等与用户阅读同意某条款、协议具有直接相关性的触发关键字，则调用屏幕滑动截图接口对触发关键字对应的文字页面进行滚动截屏，得到待提取协议图片。

步骤204，对待提取协议图片进行横向扫描后切割，得到若干行的字符条图片。

对待提取协议图片进行预处理，比如灰度化、二值化、噪声去除、倾斜校正等。在一些实施例中因为是对基于条款协议得到的待提取协议图片进行处理，所以一般不会出现字符倾斜的情况，所以主要是对待提取协议图片进行灰度化、二值化以及图像降噪处理。

具体地，可以使用直方图方式(也叫双峰法)来寻找二值化的阈值，直方图是图像的重要特质。直方图方式认为图像是由前景和背景组成，在灰度直方图上，前景和背景都形成高峰，在双峰之间的最低谷就是阈值所在。

一般待提取协议图片中会有背景图像，二值化的待提取协议图片会显示很多小黑点，这些都是不需要的信息，会对后面的字符切割识别造成极大的影响。

具体地，对待提取协议图片进行横向扫描，横向扫描就是一次从左向右统计，得出每一像素行上的黑色点的数量，如图3所示像素点占用示意图，y轴数值不为0的区域就是文字存在的区域，为0的区域就是每行字符相隔的距离。由此可知，可以找出每一行文字的起始点和终止点，以定位该行的文字区域，以此确定待提取协议图片上所有的文字区域。然后在非文字区域对待提取协议图片进行切割，得到字符条图片。其中，每一字符条图片上包括一个单行字符。

步骤206，计算字符条图片中的长与宽，按照预设字符长宽比确定字符条图片中单字符的平均宽度。

由于汉字是方块字，可以认为每个字的长宽比例都差不多，基本都是1:1。所以，对于整体连接在一起的文字，可以先计算整体的长宽比。如果比例是接近于整数的(±0.2)，则可以认为这是整体连接在一起的多个字。然后再计算该字符条图片中每个字符的平均宽度进行切割。

比如，如果字符条图片的长宽比：106/27≈3.926，而3.926>4-0.2，那么可以得到在该字符条图片中单字符的数量为4，106/4＝26.5,26.5/27≈0.98,0.98接近预设字符长宽比1:1，则可以确定，单字符的平均宽度为26.2。则可以根据得到的平均宽度对字符条图片进行切割，得到4个单字符图片。

步骤208，根据平均宽度对字符条图片进行切割，得到包括单字符的字符图片。

得到该字符条图片上单字符的数量，单字符的平均宽度后，可以根据平均宽度等距对字符条图片进行切割，得到单字符。对于其他字符条图片也进行相同的操作。这种切割方式可以根据汉字的结构特性结合具体的情况进行文字切割，可以有效地提高切割精度，提高文字识别准确率。

进一步地，因为不同的字符条图片可能其长度不同，所以对于具有相同长度的字符条图片可以按照第一个已经计算好的字符条图片的切割方式进行切割。这种切割不必计算每一字符条图片的宽度，降低终端的计算量，提高文字识别效率和判别效率。

步骤210，对字符图片进行特征提取，并将得到的维度特征与预设的特征模块库的文字的特征进行字符匹配，得到文本特征信息。

维度特征可以是文字的统计特征或者结构特征。对切割后得到的字符图片进行特征提取，特征提取是从单个字符图像上提取统计特征或结构特征的过程。所提取的特征的稳定性及有效性，决定了识别的性能。对于统计特征的提取，可利用统计模式识别中的特征提取方法；具体地，可以将每个单字符视为一个网格分布的二维矩阵，通过统计被占用的像素点在每个网格中所占的比例，属于统计特征中局部特征的一种，体现了文字点阵的整体形状的分布。它将字符图像二值化以后，再把单字符图像分成mxn个网格，并统计每个网格中属于文字点阵的像数量，记为i；统计整个图像中属于文字点阵的像素量，记为j；并计算二者的比例P＝i/j。将每个网格统汁的百分比P組合起来作为单字符的统计特征，用以实现对字符的识别。文字点阵比例反映了文字笔画在二维平面空间的分布特征。而对结构特征的提取，应根据具体文字所确定的识别基元确定相应的特征提取方式。在相当长的文字识别的研究过程中，是利用人们的经验知识，指导文字特征的提取。例如边缘特征、变换特征、穿透特征、网格特征、特征点特征、方向线素特征等等。

特征匹配是从已有的特征模块库中找到与字符图片上的待识别文字相似度最高的文字的过程。当对待识别文字提取完特征之后，不管使用的是统计特征，还是结构特征，都需要有一个特征模块库来进行比对，特征模块库中应包含欲识别字符集中所有文字的特征。特征匹配的方式有很多，比较常用的有:欧式空间的比对法、松弛比对法、动态程序比对法以及HMM(HiddneMarkovModel)法等等。在汉字OCR领域，一直采用的就是这种模板匹配的方式。每一个字符都有其对应的序号，所以每一个字符识别后不需要理解其语义，最后得到识别后的文本特征信息。

步骤212，将文本特征信息输入到预先训练好的恶意条款判别器中进行恶意条款的判断，得到判断结果。

恶意条款判别器是基于BERT(Bidirectional Encoder Representations from Transformers)模型训练得到的条款分类模型。

具体地，收集大量非标注的条款语料文本，可以不区分正常条款和恶意条款，将其标记为训练语料A；

收集少量包含恶意条款的语料，也可以在正常条款的基础上进行适当改写，构造包括恶意条款的语料文本，标记为训练语料B；

收集少量正常条款文本，作为训练语料C；

将训练语料B和C放在一起构成训练语料D，构造深度学习预训练BERT(Bidirectional Encoder Representations from Transformers)模型，标记为BERT-1；

使用训练语料A对构造的BERT-1模型进行预训练，将BERT-1模型构造成二分类的判别模型BERT-2模型进行微调训练；最终得到可以判别是否存在恶意条款的深度学习二分类判断器BERT-3，其中，分类C1表示正常条款，分类C2表示恶意条款。基于OCR技术识别得到的文本特征信息，直接输入给BERT-3模型；如果BERT-3模型输出分类为C1，则表示条款正常；如果BERT-3模型输出的分类为C2，则表示条款包含恶意内容。

上述基于产品协议字符识别的恶意条款识别方法中，通过终端上的触发关键字的触发接口，识别触发关键字，调用屏幕滑动截图接口对触发关键字对应的文字页面进行滚动截屏，得到待提取协议图片，再通过预设的单字符的长宽比结合具体地字符条图片的长宽确定待提取协议图片中单字符的平均宽度，进行单字符的切割，解决了现有技术中基于OCR文字识别因为条款协议的文字过小导致的条款识别不准确的技术问题。

在一个实施例中，如图4所示，步骤202，包括：

步骤402，对当前滚屏的页面进行截屏，得到产品协议图片。

滚动截屏接口会自动控制协议所在页面滚动，并定时进行截屏操作，得到产品协议图片。

步骤404，通过帧间差分算法检测当前截屏得到的产品协议图片与上一张产品协议图片之间的相似度。

帧间差分算法是一种通过对视频图像序列的连续两帧图像做差分运算获取运动目标轮廓的算法。当监控场景中出现异常目标运动时，相邻两帧图像之间会出现较为明显的差别，两帧相减，求得图像对应位置像素值差的绝对值，判断其是否大于某一阈值，进而分析视频或图像序列的物体运动特性。其数学公式(1)描述如下：

其中，D(x,y)为连续两帧图像之间的差分图像，I(t)和I(t-1)分别为t和t-1时刻的图像，T为差分图像二值化时选取的阈值，D(x,y)＝1表示前景，D(x,y)＝0表示背景。

帧间差分算法实现简单，程序设计复杂度低，运行速度快；动态环境自适应性强，对场景光线变化不敏感。在一些实施例中，对相邻两张图片中文字、或者具有标识性的图案在相邻两张主要包括文字图片做差分算法，将其在相邻两张图片中对应的像素点相减后的灰度差的绝对值作为两张图片的相似度，来判断两张图片是否为同一张图片。

步骤406，若相似度达到预设值，则停止滚动截屏，并删除当前截屏得到的产品协议图片，得到待提取协议图片。

若两张图片之间的所有像素无明显差别，即图像对应位置像素值差的绝对值不大于一个阈值，则说明该两张图片为同一张图片，则停止滚动截屏，并删除当前滚动截屏得到的产品协议图片，得到待提取协议图片，以保证得到的待提取协议图片无重复，减少数据计算量。

进一步地，根据行像素确定相邻两张产品协议图片的重叠部分，并裁剪去相邻两张产品协议图片中任意一张产品协议图片中的重叠部分，得到裁剪后的待提取协议图片。

具体地，假设先截取一张图片P1，然后又截取一张图片P2，P1和P2两张图片存在重叠部分。其中，P1图片由像素[pixel1_1,pixel1_2…pixel1_n]组成，其中，pixel1_x为图片的一行像素，pixel1_n为最后一行。P2图片由像素[pixel2_1,pixel2_2…pixel2_n]组成，其中，pixel2_x为图片的一行像素，pixel2_n为最后一行。

将P1图片中的最后一行向量pixel1_n，依次与P2图片中的行像素pixel2_1-pixel2_n进行比较，直到遇到和pixel1_n完全相同的行像素pixel2_x，同时，保证pixel1_(n-x)-pixel1_n与pixel2_1-pixel2_x完全相等。将P1图片中的pixel1_(n-x)-pixel1_n丢弃掉，然后，将剩余的像素与P2图片拼接，获得去重的待提取协议图片。

本实施例通过帧间差分算法确定重复截取到的图片，以保证得到的待提取协议图片无重复且不缺少，又通过裁剪去相邻两张图片中的重叠部分，减少数据计算量，提高了工作效率。

在一个实施例中，步骤204，具体地包括：二值化待提取协议图片得到字符矩阵图。获取字符矩阵图中像素列、像素行的第一像素占用结果。根据第一像素占用结果确定字符矩阵图上的文字区域。切割文字区域得到字符条图片。

获取像素列(纵向的像素点)、像素行(横向的像素点)上的像素点是否被占用，被占用的像素点上用1表示、没占用的用0表示，可以得到像素矩阵：

其中，第一像素占用结果为若第一像素占用结果为连续m列像素列上的像素点为0，且连续n行像素行上的像素点为0，则确定连续m列像素列上的像素点为0，且连续n行像素行上的像素点为0的像素点范围外的像素区域为文字区域。第9、10列上全部都是0，说明是两个单字符的中间空白区，然后就在第9或10列像素点进行切割。第6行像素行上全部都是0，说明这可能是两行字符的分割线，则可以在该行上进行切割，这些全部未被占用的行、列上的像素点之外的像素区域可以确认为文字区域。

本实施例以精确地像素点确定文字区域对待提取协议图片进行切割，就算是条款协议的文字很小，也可以确保文字区域切割的精确度，提高文字识别精度，提高条款判断的准确度。

在一个实施例中，步骤208，具体包括：

获取字符条图片上像素列的第二像素占用结果；第二像素占用结果是字符条图片上像素列的像素占用结果。根据第二像素占用结果与平均宽度确定相邻两单字符的切割坐标；并在切割坐标切割字符条图片。具体地，可以选择先获取第二像素占用结果大致确定单字符的切割范围，然后通过单字符的平均宽度确定相邻两单字符的切割坐标。可以降低终端的数据计算量，提高单字符的切割效率，而且双重条件限定还可以提高切割坐标的确定的准确率，避免特殊符号或者特殊字符被分割的问题。

比如，字符条图片的某部分的矩阵后的表示如下：

第6列上全部都是0，说明是两个单字符的中间空白区，然后就在该列像素点进行字符图片的切割。

若同一个单字符的两个偏旁的空白区，比如“什么”中间明显有一列像素点是没有黑点的(该处为空白像素点)，那么该列为矩阵表现为0，而“川”、“加”、“时”等左右结构的汉字中间会有至少一列的空白像素点。这种情况需要对字符长宽比进行限定之后，比如1:1，再进行切割。

比如得到了汉字“好”的偏旁，女和子，但是由于偏旁的长宽比不符合单字符的长宽比1:1，所以将相邻两个这样的单字符合并在一起进行切割。

可选的，还可以根据平均宽度确定相邻两单字符的切割坐标范围；确定切割坐标范围中每一像素列上的第二像素占用结果；根据第二像素占用结果从切割坐标范围中确定切割坐标。具体地，切割坐标的确认可以从切割坐标范围内选择，比如可以以切割坐标范围内的最中间的那列像素列，也可以去中间多列进行单字符的切割。

本申请实施例通过单字符的平均宽度和像素列的占用情况切断单字符的切割坐标，双重条件的限制提高切割坐标的确定的准确率，避免特殊符号或者特殊字符被分割的问题。

应该理解的是，虽然图2、图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于产品协议字符识别的恶意条款识别装置，该基于产品协议字符识别的恶意条款识别装置与上述实施例中基于产品协议字符识别的恶意条款识别方法一一对应。该基于产品协议字符识别的恶意条款识别装置包括：

协议截取模块502，用于识别触发关键字，并对触发关键字对应的页面进行滚动截屏，得到待提取协议图片；

图片切割模块504，用于对待提取协议图片进行横向扫描后切割，得到若干行的字符条图片；

宽度计算模块506，用于计算字符条图片中的长与宽，按照预设字符长宽比确定字符条图片中单字符的平均宽度；

字符切割模块508，用于根据平均宽度对字符条图片进行切割，得到包括单字符的字符图片；

特征提取模块510，用于对字符图片进行特征提取，并将得到的维度特征与预设的特征模块库进行字符匹配，得到文本特征信息；

条款判别模块512，用于将文本特征信息输入到预先训练好的恶意条款判别器中进行恶意条款的判断，得到判断结果。

进一步地，协议截取模块502，包括：

屏幕截取子模块，用于对当前滚屏的页面进行截屏，得到产品协议图片。

相似度确认子模块，用于通过帧间差分算法检测当前截屏得到的产品协议图片与上一张产品协议图片之间的相似度。

图片去重子模块，用于若相似度达到预设值，则停止滚动截屏，并删除当前截屏得到的产品协议图片，得到待提取协议图片。

进一步地，图片切割模块504，包括：

二值化子模块，用于二值化所述待提取协议图片得到字符矩阵图；

第一像素统计子模块，用于获取所述字符矩阵图中像素列、像素行的第一像素占用结果；

文字区域确定子模块，用于根据所述第一像素占用结果确定所述字符矩阵图上的文字区域；并

字符条切割子模块，用于切割所述文字区域得到所述字符条图片。

进一步地，字符切割模块508，包括：

第二像素统计子模块，用于获取所述字符条图片上像素列的第二像素占用结果；

坐标确定子模块，用于根据所述第二像素占用结果与所述平均宽度确定相邻两单字符的切割坐标；

字符切割子模块，用于在所述切割坐标切割所述字符条图片。

进一步地，坐标确定子模块，包括：

范围定位单元，用于根据所述平均宽度确定相邻两单字符的切割坐标范围；

像素占用确认单元，用于确定所述切割坐标范围中每一像素列上的第二像素占用结果；

坐标确认单元，用于根据所述第二像素占用结果从所述切割坐标范围中确定所述切割坐标。

上述基于产品协议字符识别的恶意条款识别装置，通过终端上的触发关键字的触发接口，识别触发关键字，调用屏幕滑动截图接口对触发关键字对应的文字页面进行滚动截屏，得到待提取协议图片，再通过预设的单字符的长宽比结合具体地字符条图片的长宽确定待提取协议图片中单字符的平均宽度，进行单字符的切割，解决了现有技术中基于OCR文字识别因为条款协议的文字过小导致的条款识别不准确的技术问题。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于产品协议字符识别的恶意条款识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例中基于产品协议字符识别的恶意条款识别方法的步骤，例如图2所示的步骤202至步骤212，或者，处理器执行计算机可读指令时实现上述实施例中基于产品协议字符识别的恶意条款识别装置的各模块/单元的功能，例如图5所示模块502至模块512的功能。为避免重复，此处不再赘述。通过识别触发关键字，调用屏幕滑动截图接口对触发关键字对应的文字页面进行滚动截屏，得到待提取协议图片，再通过预设的单字符的长宽比结合具体地字符条图片的长宽确定待提取协议图片中单字符的平均宽度，进行单字符的切割，解决了现有技术中基于OCR文字识别因为条款协议的文字过小导致的条款识别不准确的技术问题。进一步地，所述计算机可用存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形、改进或者对部分技术特征进行等同替换，而这些修改或者替换，并不使相同技术方案的本质脱离本申请个实施例技术方案地精神和范畴，都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种基于产品协议字符识别的恶意条款识别方法，其中，所述方法包括：

识别触发关键字，并对所述触发关键字对应的页面进行滚动截屏，得到待提取协议图片；

对所述待提取协议图片进行横向扫描后切割，得到若干行的字符条图片；

计算所述字符条图片中的长与宽，按照预设字符长宽比确定所述字符条图片中单字符的平均宽度；

根据所述平均宽度对所述字符条图片进行切割，得到包括单字符的字符图片；

对所述字符图片进行特征提取，并将得到的维度特征与预设的特征模块库的文字的特征进行字符匹配，得到文本特征信息；

将所述文本特征信息输入到预先训练好的恶意条款判别器中进行恶意条款的判断，得到判断结果。
根据权利要求1所述的方法，其中，所述对所述触发关键字对应的页面进行滚动截屏，得到待提取协议图片，包括：

对当前滚屏的页面进行截屏，得到产品协议图片；

通过帧间差分算法检测当前截屏得到的产品协议图片与上一张产品协议图片之间的相似度；

若所述相似度达到预设值，则停止滚动截屏，并删除当前截屏得到的产品协议图片，得到待提取协议图片。
根据权利要求2所述的方法，其中，所述对当前滚屏的页面进行截屏，得到产品协议图片之后，还包括：

根据行像素确定相邻两张所述产品协议图片的重叠部分，并裁剪去相邻两张所述产品协议图片中任意一张产品协议图片中的重叠部分，得到裁剪后的待提取协议图片。
根据权利要求1所述的方法，其中，所述对所述待提取协议图片进行横向扫描后切割，得到若干行的字符条图片，包括：

二值化所述待提取协议图片得到字符矩阵图；

获取所述字符矩阵图中像素列、像素行的第一像素占用结果；

根据所述第一像素占用结果确定所述字符矩阵图上的文字区域；并

切割所述文字区域得到所述字符条图片。
根据权利要求4所述的方法，其中，所述根据所述第一像素占用结果确定所述字符矩阵图上的文字区域，包括：

若所述第一像素占用结果为连续m列像素列上的像素点为0，且连续n行像素行上的像素点为0，则确定所述连续m列像素列上的像素点为0，且连续n行像素行上的像素点为0的像素点范围外的像素区域为文字区域。
根据权利要求4所述的方法，其中，所述根据所述平均宽度对所述字符条图片进行切割，包括：

获取所述字符条图片上像素列的第二像素占用结果；

根据所述第二像素占用结果与所述平均宽度确定相邻两单字符的切割坐标；并

在所述切割坐标切割所述字符条图片。
根据权利要求6所述的方法，其中，所述根据所述第二像素占用结果与所述平均宽度确定相邻两单字符的切割坐标，包括：

根据所述平均宽度确定相邻两单字符的切割坐标范围；

确定所述切割坐标范围中每一像素列上的第二像素占用结果；

根据所述第二像素占用结果从所述切割坐标范围中确定所述切割坐标。
一种基于产品协议字符识别的恶意条款识别装置，其中，包括：

协议截取模块，用于识别触发关键字，并对所述触发关键字对应的页面进行滚动截屏，得到待提取协议图片；

图片切割模块，用于对所述待提取协议图片进行横向扫描后切割，得到若干行的字符条图片；

宽度计算模块，用于计算所述字符条图片中的长与宽，按照预设字符长宽比确定所述字符条图片中单字符平均宽度；

字符切割模块，用于根据所述平均宽度对所述字符条图片进行切割，得到包括单字符的字符图片；

特征提取模块，用于对所述字符图片进行特征提取，并将得到的维度特征与预设的特征模块库的文字特征进行字符匹配，得到文本特征信息；

条款判别模块，用于将所述文本特征信息输入到预先训练好的恶意条款判别器中进行恶意条款的判断，得到判断结果。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下基于产品协议字符识别的恶意条款识别方法的步骤：

识别触发关键字，并对所述触发关键字对应的页面进行滚动截屏，得到待提取协议图片；

对所述待提取协议图片进行横向扫描后切割，得到若干行的字符条图片；

计算所述字符条图片中的长与宽，按照预设字符长宽比确定所述字符条图片中单字符的平均宽度；

根据所述平均宽度对所述字符条图片进行切割，得到包括单字符的字符图片；

对所述字符图片进行特征提取，并将得到的维度特征与预设的特征模块库的文字的特征进行字符匹配，得到文本特征信息；

将所述文本特征信息输入到预先训练好的恶意条款判别器中进行恶意条款的判断，得到判断结果。
根据权利要求9所述的计算机设备，其中，所述对所述触发关键字对应的页面进行滚动截屏，得到待提取协议图片，包括：

对当前滚屏的页面进行截屏，得到产品协议图片；

通过帧间差分算法检测当前截屏得到的产品协议图片与上一张产品协议图片之间的相似度；

若所述相似度达到预设值，则停止滚动截屏，并删除当前截屏得到的产品协议图片，得到待提取协议图片。
根据权利要求10所述的计算机设备，其中，所述对当前滚屏的页面进行截屏，得到产品协议图片之后，还包括：

根据行像素确定相邻两张所述产品协议图片的重叠部分，并裁剪去相邻两张所述产品协议图片中任意一张产品协议图片中的重叠部分，得到裁剪后的待提取协议图片。
根据权利要求9所述的计算机设备，其中，所述对所述待提取协议图片进行横向扫描后切割，得到若干行的字符条图片，包括：

二值化所述待提取协议图片得到字符矩阵图；

获取所述字符矩阵图中像素列、像素行的第一像素占用结果；

根据所述第一像素占用结果确定所述字符矩阵图上的文字区域；并

切割所述文字区域得到所述字符条图片。
根据权利要求12所述的计算机设备，其中，所述根据所述第一像素占用结果确定所述字符矩阵图上的文字区域，包括：

若所述第一像素占用结果为连续m列像素列上的像素点为0，且连续n行像素行上的像素点为0，则确定所述连续m列像素列上的像素点为0，且连续n行像素行上的像素点为0的像素点范围外的像素区域为文字区域。
根据权利要求12所述的计算机设备，其中，所述根据所述平均宽度对所述字符条图片进行切割，包括：

获取所述字符条图片上像素列的第二像素占用结果；

根据所述第二像素占用结果与所述平均宽度确定相邻两单字符的切割坐标；并

在所述切割坐标切割所述字符条图片。
根据权利要求14所述的计算机设备，其中，所述根据所述第二像素占用结果与所述平均宽度确定相邻两单字符的切割坐标，包括：

根据所述平均宽度确定相邻两单字符的切割坐标范围；

确定所述切割坐标范围中每一像素列上的第二像素占用结果；

根据所述第二像素占用结果从所述切割坐标范围中确定所述切割坐标。
一种计算机可读存储介质，其上存储有计算机可读指令，其中，所述计算机可读指令被处理器执行时实现如下基于产品协议字符识别的恶意条款识别方法的步骤：

识别触发关键字，并对所述触发关键字对应的页面进行滚动截屏，得到待提取协议图片；

对所述待提取协议图片进行横向扫描后切割，得到若干行的字符条图片；

计算所述字符条图片中的长与宽，按照预设字符长宽比确定所述字符条图片中单字符的平均宽度；

根据所述平均宽度对所述字符条图片进行切割，得到包括单字符的字符图片；

对所述字符图片进行特征提取，并将得到的维度特征与预设的特征模块库的文字的特征进行字符匹配，得到文本特征信息；

将所述文本特征信息输入到预先训练好的恶意条款判别器中进行恶意条款的判断，得到判断结果。
根据权利要求16所述的计算机可读存储介质，其中，所述对所述触发关键字对应的页面进行滚动截屏，得到待提取协议图片，包括：

对当前滚屏的页面进行截屏，得到产品协议图片；

通过帧间差分算法检测当前截屏得到的产品协议图片与上一张产品协议图片之间的相似度；

若所述相似度达到预设值，则停止滚动截屏，并删除当前截屏得到的产品协议图片，得到待提取协议图片。
根据权利要求17所述的计算机可读存储介质，其中，所述对当前滚屏的页面进行截屏，得到产品协议图片之后，还包括：

根据行像素确定相邻两张所述产品协议图片的重叠部分，并裁剪去相邻两张所述产品协议图片中任意一张产品协议图片中的重叠部分，得到裁剪后的待提取协议图片。
根据权利要求16所述的计算机可读存储介质，其中，所述对所述待提取协议图片进行横向扫描后切割，得到若干行的字符条图片，包括：

二值化所述待提取协议图片得到字符矩阵图；

获取所述字符矩阵图中像素列、像素行的第一像素占用结果；

根据所述第一像素占用结果确定所述字符矩阵图上的文字区域；并

切割所述文字区域得到所述字符条图片。
根据权利要求19所述的计算机可读存储介质，其中，所述根据所述第一像素占用结果确定所述字符矩阵图上的文字区域，包括：

若所述第一像素占用结果为连续m列像素列上的像素点为0，且连续n行像素行上的像素点为0，则确定所述连续m列像素列上的像素点为0，且连续n行像素行上的像素点为0的像素点范围外的像素区域为文字区域。
根据权利要求19所述的计算机可读存储介质，其中，所述根据所述平均宽度对所述字符条图片进行切割，包括：

获取所述字符条图片上像素列的第二像素占用结果；

根据所述第二像素占用结果与所述平均宽度确定相邻两单字符的切割坐标；并

在所述切割坐标切割所述字符条图片。
根据权利要求21所述的计算机可读存储介质，其中，所述根据所述第二像素占用结果与所述平均宽度确定相邻两单字符的切割坐标，包括：

根据所述平均宽度确定相邻两单字符的切割坐标范围；

确定所述切割坐标范围中每一像素列上的第二像素占用结果；

根据所述第二像素占用结果从所述切割坐标范围中确定所述切割坐标。