WO2019237549A1

WO2019237549A1 - 验证码识别方法、装置、计算机设备及存储介质

Info

Publication number: WO2019237549A1
Application number: PCT/CN2018/106400
Authority: WO
Inventors: 蔡俊
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-06-11
Filing date: 2018-09-19
Publication date: 2019-12-19
Also published as: CN109086591A

Abstract

一种验证码识别方法、装置、计算机设备及存储介质，所述方法包括：通过获取目标网站上的待识别验证码图片，基于Tesseract对验证码图片进行识别处理，得到识别结果，然后，判断识别结果是否为算式，若是，则将计算结果填入输入框，若否，则将识别结果填入输入框，通过基于Tesseract对验证码图片进行识别，得到验证码内容信息，并当该验证码内容信息为算式时，自动计算出计算结果，将该计算结果或非算式的验证码内容信息填入验证码图片对应的输入框，从而当在目标网站上获取目标资源信息时，不需要花费时间由人工输入目标网站的验证码内容信息，进而提高了获取资源信息的效率。

Description

验证码识别方法、装置、计算机设备及存储介质

本申请以2018年06月11日提交的申请号为201810595668.3，名称为“验证码识别方法、装置、计算机设备及存储介质”的中国发明专利申请为基础，并要求其优先权。

技术领域

本申请涉及金融领域，尤其涉及一种验证码识别方法、装置、计算机设备及存储介质。

背景技术

在信息时代的今天，资源信息对于每个公司都起着至关重要的作用。

由于互联网给人们带来了极大的便捷性，公司的人员常常通过网络到网站上获取资源信息，网站为了保证访问质量，设置了有些资源信息需要账号密码登录后才能浏览，同时在设置账号密码登录的基础上也设置了验证码图片。但是，当用户通过账号密码登录网站获取该网站上的这些资源信息时，由原来不需要输入验证码图片中的验证码内容信息变成了需要花费时间由人工输入验证码图片中的验证码内容信息，从而导致获取资源信息的效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种可以提高获取资源信息的效率的验证码识别方法、装置、计算机设备及存储介质。

一种验证码识别方法，包括：获取目标网站上的待识别验证码图片；基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果，其中，Tesseract为一款光学字符识别工具；判断所述识别结果是否为算式；若所述识别结果为算式，则将所述识别结果对应的计算结果填入所述待识别验证码图片对应的输入框；若所述识别结果为非算式，则将所述识别结果填入所述待识别验证码图片对应的输入框。

一种验证码识别装置，包括：识别处理模块，用于基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果，其中，Tesseract为一款光学字符识别工具；判断模块，用于判断所述识别结果是否为算式；第一填入模块，用于若所述识别结果为算式，则将所述识别结果对应的计算结果填入所述待识别验证码图片对应的输入框；第二填入模块，用于若所述识别结果为非算式，则将所述识别结果填入所述待识别验证码图片对应的输入框。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述验证码识别方法的步骤。

一个或多个存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行所述验证码识别方法的步骤。

本申请的一个或多个实施例的细节在下面的的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权力要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中验证码识别方法的一应用环境示意图；

图2是本申请一实施例中验证码识别方法的一流程图；

图3是本申请一实施例中验证码识别方法中步骤S20的一流程图；

图4是本申请一实施例中验证码识别方法中步骤S30的一流程图；

图5是本申请一实施例中验证码识别方法中对待识别验证码图片进行预处理的一流程图；

图6是本申请一实施例中验证码识别方法中未去干扰线处理的待识别图片；

图7是本申请一实施例中验证码识别方法中已去干扰线处理的待识别图片；

图8是本申请一实施例中验证码识别方法中未做去噪处理的二值化图；

图9是本申请一实施例中验证码识别方法中已做去噪后的待识别验证码图片；

图10是本申请一实施例中验证码识别方法中对各个目标网站上的各个待识别验证码图片进行识别的一流程图；

图11是本申请一实施例中验证码识别装置的一示意图；

图12是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本申请提供的验证码识别方法，可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。服务端获取客户端的目标网站上的待识别验证码图片，服务端基于Tesseract对待识别验证码图片进行识别处理，得到待识别验证码图片对应的识别结果，服务端判断识别结果是否为算式，若识别结果为算式，则服务端将识别结果对应的计算结果填入待识别验证码图片对应的输入框，若识别结果为非算式，则服务端将识别结果填入待识别验证码图片对应的输入框。其中，计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种验证码识别方法，该验证码识别方法应用在金融行业中，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10：获取目标网站上的待识别验证码图片；

在本实施例中，目标网站是指需要获取的资源信息对应的网站。

具体地，首先，成功登录目标网站，并获取待识别验证码图片的路径信息，然后，根据待识别验证码图片的路径信息，在目标网站上提取该待识别验证码图片。

S20：基于Tesseract对待识别验证码图片进行识别处理，得到待识别验证码图片对应的识别结果；

在本实施例中，Tesseract，是一款被广泛使用的开源OCR工具。OCR，英文全称为 Optical Character Recognition，中文名为光学字符识别，是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

具体地，基于Tesseract对目标网站上的待识别验证码图片进行识别处理，得到待识别验证码图片对应的识别结果。

需要说明的是，待识别验证码图片与识别结果记录着一一对应的关系。

S30：判断识别结果是否为算式；

在本实施例中，算式是指含有等号“＝”的式子。

具体地，判断目标网站上的待识别验证码图片对应的识别结果是否为算式。

S40：若识别结果为算式，则将识别结果对应的计算结果填入待识别验证码图片对应的输入框；

具体地，若目标网站上的待识别验证码图片对应的识别结果为算式，则将该识别结果对应的计算结果填入待识别验证码图片对应的输入框。

需要说明的是，待识别验证码图片与输入框记录着一一对应的关系。

为了更好地理解步骤S40，下面通过一个例子进行说明，具体表述如下：

例如，假设目标网站为中国铁路货运官网，待识别验证码图片为查询货物的车号和货票号的页面图片，该待识别验证码图片对应的识别结果为“36+21＝”，则，确定中国铁路货运官网上的该待识别验证码图片对应的“36+21＝”，则将“36+21＝”对应的“57”填入车号输入框。

S50：若识别结果为非算式，则将识别结果填入待识别验证码图片对应的输入框。

具体地，若目标网站上的待识别验证码图片对应的识别结果为非算式，则将该识别结果填入待识别验证码图片对应的输入框。

在图2对应的实施例中，首先，通过获取需要获取的资源信息对应的网站上的验证码图片，基于Tesseract对该验证码图片进行识别处理，得到识别结果，然后，判断识别结果是否为算式，若是，则将该识别结果对应的计算结果填入输入框，若否，则将识别结果填入输入框，通过基于Tesseract对目标资源信息对应的目标网站上的验证码图片进行识别，得到验证码内容信息，并且当该验证码内容信息为算式时，自动计算出该验证码内容信息对应的计算结果，然后，将该计算结果或非算式的验证码内容信息填入验证码图片对应的输入框，从而当在目标网站上获取目标资源信息时，不需要花费时间由人工输入目标网站的验证码内容信息，进而提高了获取资源信息的效率。

在一实施例中，该验证码识别方法应用在金融行业中，如图3所示，步骤S20具体为基于Tesseract对待识别验证码图片进行识别处理，得到待识别验证码图片对应的识别结果。具体包括如下步骤：

S201：采用垂直投影法对待识别验证码图片进行分割，得到各个子验证码图片；

在本实施例中，垂直投影法，是指二值化的字符图形的笔画像素个数进行垂直方向上的统计，通过检测得到的垂直投影图上的波谷来确定字符的边界的方法。子验证码图片是指待识别验证码图片上各个字符被分割后，得到的各个字符对应的验证码子图片。

具体地，采用垂直投影法对目标网站上的待识别验证码图片进行分割，得到各个子验证码图片。

为了更好地理解步骤S201，下面通过一个例子进行说明，具体表述如下：

例如，假设目标网站为江苏网上车管所官网，待识别验证码图片为车牌“苏E.UK722”图片，则采用垂直投影法，将“苏E.UK722”图片进行分割，得到“苏”、“E”、“U”、“K”、“7”、“2”和“2”图片。

S202：按照预设的尺寸规格将各个子验证码图片进行尺寸归一处理，得到各个规格化后的子验证码图片；

在本实施例中，尺寸归一，是指将验证码图片上的单个字符的尺寸进行归为同一个尺寸。预设的尺寸规格可以为6cm*10cm。cm，中文名为厘米，是指一种长度单位。预设的尺寸规格的具体内容，可以根据实际应用进行设定，此处不做限制。

具体地，按照预设的尺寸规格将各个子验证码图片进行尺寸归一处理，得到各个规格化后的子验证码图片。

S203：基于Tesseract对各个规格化后的子验证码图片进行识别，得到各个规格化后的子验证码图片对应的各个验证码内容信息；

在本实施例中，验证码内容信息是指子验证码图片上的具体字符信息。

具体地，基于Tesseract对各个规格化后的子验证码图片进行识别，得到各个规格化后的子验证码图片对应的各个验证码内容信息。

需要说明的是，规格化后的子验证码图片与验证码内容信息记录着一一对应关系。

S204：按照验证码图片分割前的由左到右的顺序将各个验证码内容信息进行拼接，得到待识别验证码图片对应的识别结果，识别结果包括一个以上字符；

具体地，按照目标网站上的待识别验证码图片分割前的由左到右的顺序将各个验证码内容信息进行拼接，得到该待识别验证码图片对应的识别结果。

需要说明的是，识别结果包括一个以上的字符。

在图3对应的实施例中，首先，通过采用垂直投影法对验证码图片进行分割，得到各个子验证码图片，然后，将各个子验证码图片进行尺寸归一处理，得到各个规格化后的子验证码图片，接下来，基于Tesseract对各个规格化后的子验证码图片进行识别，得到各个验证码内容信息，最后，将各个验证码内容信息进行拼接，得到识别结果，通过采用定位精准的垂直投影法准确地将验证码图片准确地分割成各个子验证码图片，然后，将尺寸不齐的子验证码图片进行尺寸归一，得到便于识别读取的规格化后的子验证码图片，接下来，基于许多机器学习算法不断优化识别精准度的Tesseract识别出规格化后的子验证码图片的验证码内容信息，最后，将各个验证码内容信息拼接得到需要的识别结果，从而提高了识别验证码图片的精准度。

在一实施例中，该验证码识别方法应用在金融行业中，如图4所示，步骤S30具体为判断识别结果是否为算式。具体包括如下步骤：

S301：按照识别结果中的各个字符从左到右顺序排列，并将识别结果中的各个字符按照从左到右顺序排列顺序压入栈；

在本实施例中，栈，是限定仅在表尾进行插入或删除操作的线性表，是一种数据结构，它按照后进先出的原则存储数据，先进入的数据被压入栈底，最后的数据在栈顶，需要读数据的时候从栈顶开始弹出数据。

具体地，首先，按照识别结果中的各个字符从左到右顺序排列，然后，将识别结果中的各个字符按照从左到右顺序排列顺序压入栈中。

S302：按照出栈先后顺序排列从栈中获取各个字符中的最先出栈的一个字符作为当前字符；

具体地，按照出栈先后顺序排列从栈中获取各个字符中的最先出栈的一个字符作为当前字符。

S303：采用运算符号查询方法对当前字符进行查询，得到查询结果；

在本实施例中，运算符号数据库专门用于存储着所有的运算符号。运算符号可以为逻辑运算符号或算式符号。

具体地，在运算符号数据库中查询当前字符是否存在，若存在，则得到该当前字符为运算符号的查询结果；若不存在，则得到该当前字符的字符类型为非运算符号的查询结果。

S304：根据查询结果，确定查询结果的字符类型，其中，字符类型包括运算符类型和非运算符类型；

在本实施例中，字符类型包括运算符类型和非运算符类型。

具体地，若当前字符为运算符号，则将该当前字符的字符类型确定为运算符类型，并将该当前字符存储到目标运算符号数据库中。

若当前字符为非运算符号，则将该当前字符的字符类型确定为非运算符类型。

S305：若查询结果的字符类型为运算符类型，则获取预设的运算符号原始值作为当前数量；

具体地，若查询结果的字符类型为运算符类型，则获取预设的运算符号原始值作为当前数量。

若查询结果的字符类型为非运算符类型，则将该查询结果存储到备用数据库，以便需要用到时进行提取。

需要说明的是，预设的运算符号原始值可以为0或1等，预设的运算符号原始值的具体内容，可以根据实际应用进行设定，此处不做限制。

S306：将当前数量与数字1进行算术相加运算，得到数量结果；

具体地，将当前数量与数字1进行算术相加运算，得到数量结果。

S307：判断当前字符是否为按照出栈先后顺序排列的各个字符中的最后出栈的一个字符；

具体地，判断当前字符是否为按照出栈先后顺序排列的各个字符中的最后出栈的一个字符。

S308：若当前字符是为按照出栈先后顺序排列的各个字符中的最后出栈的一个字符，则判断数量结果是否大于或等于预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中是否存在等号；

具体地，若该当前字符是为按照出栈先后顺序排列的各个字符中的最后出栈的一个字符，则首先，提取目标运算符号数据库中的所有的字符，然后，判断运算符号数量值是否大于或等于预设的运算符号原始值与数字2的和，并且目标运算符号数据库中的所有的字符中是否存在有等号字符。

S309：若数量结果大于或等于所述预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中存在等号，则确定识别结果为算式；

具体地，若计算得到的数量结果大于或等于所述预设的运算符号原始值与数字2的和，并且查询结果的字符类型为运算符类型的所有字符中存在等号，则确定识别结果为算式。

S310：若数量结果不大于或不等于所述预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中不存在等号，则确定识别结果为非算式；

具体地，若计算得到的数量结果不大于或不等于所述预设的运算符号原始值与数字2的和，并且查询结果的字符类型为运算符类型的所有字符中不存在等号则确定识别结果为非算式。

S311：若当前字符不是为按照出栈先后顺序排列的各个字符中的最后出栈的一个字符，则获取按照出栈先后顺序排列的各个字符中的下一个出栈的字符作为当前字符，获取数量结果作为当前数量，返回执行采用运算符号查询方法对当前字符进行查询，得到查询结果的步骤；

具体地，若当前字符不是为按照出栈先后顺序排列的各个字符中的最后出栈的一个字符，则获取按照出栈先后顺序排列的各个字符中的下一个出栈的字符作为当前字符，返回执行步骤S303。

为了更好地理解步骤S301、步骤S302、步骤S303、步骤S304、步骤S305、步骤S306、步骤S307、步骤S308、步骤S309、步骤S310和步骤S311，下面通过一个例子进行说明，具体表述如下：

例如，假设识别结果为“9+7＝”，目标运算符号数据库为第一MYSQL数据库，运算符号数据库为第二MYSQL数据库，预设的运算符号原始值为0，则，按照“9+7＝”由左到右顺序将“9”、“+”、“7”和“＝”压入栈，获取“＝”作为当前字符，确定“＝”在第二MYSQL数据库中存在，确定“＝”为运算符号，并将“＝”记录为运算符类型，并将“＝”存储到第一MYSQL数据库中，同时获取0作为当前数量，将0与数字1进行算术相加运算，得到1，接下来，判断当前字符是否为“9”，若是，则提取第一MYSQL数据库中的“+”和“＝”，确定4是大于0与数字2的和，且“9”、“+”、“7”和“＝”是存在等号，则确定“9+7＝”为算式，若“＝”不是“9”，则获取“7”作为当前字符，返回执行步骤S303。

在图4对应的实施例中，首先，通过按照识别结果的由左到右顺序排列的将识别结果中的各个字符压入栈，获取最先出栈的字符作为当前字符，采用运算符号查询方法对当前字符进行查询，得到查询结果，然后，根据查询结果，确定查询结果的字符类型，若查询结果的字符类型为运算符类型，则获取预设的运算符号原始值作为当前数量，将当前数量与数字1进行相加，得到数量结果，最后，判断当前字符是否为最后出栈的字符，若是，则判断数量结果是否大于或等于预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中是否存在等号，若是，则确定识别结果为算式，若否，则确定识别结果为非算式，若当前字符不是最后出栈的字符，则获取按下一个出栈的字符作为当前字符，获取数量结果作为当前数量，返回执行采用运算符号查询方法对当前字符进行查询，得到查询结果的步骤，通过栈先入后出的特性，能够保证有序地查询各个字符在运算符号数据库中是否存在，当存在时，则将数量结果加1，接着，判断该字符是否为最后出栈的字符，若是最后出栈的字符，则判断数量结果是否大于或等于预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中是否存在有等号，若是，确定当前验证码内容信息为算式，若否，确定当前验证码内容信息为非算式，若不是最后出栈的字符，则继续获取下一个出栈的字符作为当前字符，获取数量结果作为当前数量，返回执行步骤S303，从而能够准确地分辨出当前验证码内容信息是算式还是非算式，进而提高了验证码识别的准确性。

在一实施例中，该验证码识别方法应用在金融行业中，如图5所示，在步骤S20之前，该验证码识别方法还包括如下步骤：

S61：采用深度优先搜索算法对待识别验证码图片进行去除干扰线处理，得到去干扰后的待识别验证码图片；

在本实施例中，深度优先搜索算法，英文名称为Depth First Search算法，是指在一个HTML文件中，当一个超链被选择后，被链接的HTML文件将执行深度优先搜索，即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止，然后返回到某一个HTML文件，再继续选择该HTML文件中的其他超链图算法。HTML文件是由HTML命令组成的描述性文本。HTML命令是指由HTML构成的指令。HTML，全称为HyperTextMark-upLanguage，是指超文本标记语言。

具体地，采用DFS算法对目标网站上的待识别图片进行去干扰处理，得到去干扰后的待识别验证码图片。

为了更好地理解步骤S61，下面通过一个例子进行说明，具体表述如下：

例如，假设图6为未去干扰线处理的待识别图片，图7为已去干扰线处理的待识别图片，基于DFS对图6进行去除干扰线，得到图7。

S62：按照预设的转换方式将去干扰后的待识别验证码图片进行转换处理，得到灰度图片；

在本实施例中，灰度图片是指把白色与黑色之间按对数关系分为若干等级的图片。RGB颜色模式是工业界的一种颜色标准，是通过对R、G和B三个颜色通道的变化及它们相互之间的叠加来得到各式各样的颜色，其中，R代表红色，G代表绿色，B代表绿色。按照预设的转换方式可以为采用计算公式将RGB颜色模式图片转换成灰度图片。

需要说明的是，RGB颜色模式图片转换成灰度图片的计算公式为：GREY＝(R+G+B)/3，其中R、G、B分别是像素点的三个颜色通道的值，GREY为该像素点对应的灰度值，其中，灰度值范围为0-255之间。按照预设的转换方式的具体内容，可以根据实际应用进行设定，此处不做限制。

具体地，通过公式GREY＝(R+G+B)/3，依次读取去干扰线后的待识别RGB颜色模式图验证码图片每个像素点，获取该像素点的R、G、B值，取R、G、B三者的平均值作为新图片对应像素点的灰度值，得到灰度图片。

S63：采用聚类算法对灰度图片进行二值化处理，得到二值化图片；

在本实施例中，K-means算法，是一种聚类算法，该聚类算法是数据挖掘算法之一，是指以空间中k个点为中心进行聚类，对最靠近他们的对象归类，通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果的算法。二值化处理，是指就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的处理过程。

具体地，首先，采用K-means算法计算得到最佳预设的阈值，然后，将灰度图片的背景颜色和字符区分开来，接下来，对于灰度图片上每个像素点的灰度值，若灰度值大于最佳预设的阈值，则将该像素点的灰度值都设置为255，若灰度值小于等于最佳预设的阈值，则将该像素点的灰度值都设置为0，最后，得到二值化图片。

S64：采用洪水填充算法对二值化图片进行去噪处理，得到去噪后的待识别验证码图片；

在本实施例中，FloodFill算法，又叫洪水填充算法，是指把一个点的所有相邻的点都涂上该点的颜色，一直填充下去，直到这个区域内所有的点都被填充完为止的算法。去噪是指对二值化图片进行去除噪音或噪点的过程。

具体地，采用FloodFill算法对二值化图片进行去噪处理，得到去噪后的待识别验证码图片。

为了更好地理解步骤S90，下面通过一个例子进行说明，具体表述如下：

例如，假设图8为未做去噪处理的二值化图，图9为已做去噪后的待识别验证码图片，则采用FloodFill算法对图8进行去噪处理，得到图9。

在图5对应的实施例中，首先，通过采用递归处理方式的DFS算法对待识别验证码图片进行全面地去除干扰线处理，得到不残留干扰线的待识别验证码图片，然后，通过转换公式GREY＝(R+G+B)/3将彩色的待识别验证码图片进行转换为黑白灰度图片，接下来，采用包含机器学习方法的聚类K-means算法计算出最佳预设的阈值，将灰度值大于最佳预设的阈值的像素点设为255，将灰度值小于等于最佳预设的阈值的像素点设为0，得到亮暗明显的二值化图片，再接下来，采用全填充方式的FloodFill算法将二值化图片上全部的噪点除去，得到完全干净的待识别验证码图片，从而可以避免因干扰而误读验证码图片，进而提高了验证码识别的精准度。

在一实施例中，该验证码识别方法应用在金融行业中，如图10所示，步骤S10具体为获取目标网站上的待识别验证码图。包括的步骤具体为：S101：获取各个目标网站上的各个待识别验证码图片；

具体地，首先，获取各个待识别验证码图片的路径信息，然后，根据各个待识别验证码图片的路径信息，在各个目标网站上提取各个该待识别验证码图片。

在步骤S20之前，该验证码识别方法还包括如下步骤：S65：确定各个待识别的验证码图片中的一张待识别的验证码图片为当前验证码图片；

具体地，确定各个目标网站上的各个待识别的验证码图片中的一张待识别的验证码图片为当前验证码图片。

步骤S20具体为：S201：基于Tesseract对当前验证码图片进行识别处理，得到当前验证码图片对应的识别结果；

具体地，基于Tesseract对当前验证码图片进行识别处理，得到当前验证码图片对应的识别结果。

在步骤S40中，即将识别结果对应的计算结果填入待识别验证码图片对应的输入框，或者步骤S50中，即将识别结果填入待识别验证码图片对应的输入框之后，该验证码识别方法还包括如下步骤：S66：将各个待识别验证码图片中的一个未识别的待识别验证码图片确定为当前验证码图片，返回执行步骤S201，直到各个待识别验证码图片均被识别处理并得到对应的识别结果；

具体地，将各个待识别验证码图片中的一个未识别的待识别验证码图片确定为当前验证码图片，返回执行步骤S201，直到各个待识别验证码图片均被识别处理并得到对应的识别结果。

在图10对应的实施例中，首先，通过获取各个目标网站上的各个待识别验证码图片，确定各个待识别的验证码图片中的其中一张待识别的验证码图片为当前验证码图片，然后，基于Tesseract对当前验证码图片进行识别处理，得到验证码内容信息，接下来，判断该验证码内容信息是否为算式，若为算式，则计算结果填入输入框，若为非算式，则将该验证码内容信息填入输入框，最后，将未识别的待识别验证码图片确定为当前验证码图片，返回执行步骤S201，直到各个待识别验证码图片均被识别处理并得到对应的识别结果，从而能够依次对所需要获取的资源信息对应的各个网站上的各个验证码图片进行识别，不需要花费大量的时间由人工逐个输入各个网站的各个验证码内容信息，进而提高了获取资源信息的效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种验证码识别装置，该验证码识别装置与上述实施例中验证码识别方法一一对应。如图11所示，该验证码识别装置包括获取模块701、识别处理模块702、判断模块703、第一填入模块704、第二填入模块705、去除模块706、转换模块707、二值化处理模块708、去噪处理模块709、第一确定模块710和第二确定模块711。各功能模块详细说明如下：

获取模块701，用于获取目标网站上的待识别验证码图片；

识别处理模块702，用于基于Tesseract对待识别验证码图片进行识别处理，得到待识别验证码图片对应的识别结果，其中，Tesseract为一款光学字符识别工具；

判断模块703，用于判断识别结果是否为算式；

第一填入模块704，用于若识别结果为算式，则将识别结果对应的计算结果填入待识别验证码图片对应的输入框；

第二填入模块705，用于若识别结果为非算式，则将识别结果填入待识别验证码图片对应的输入框；

去除模块706，用于采用深度优先搜索算法对待识别验证码图片进行去除干扰线处理，得到去干扰后的待识别验证码图片；

转换模块707，用于按照预设的转换方式将去干扰后的待识别验证码图片进行转换处理，得到灰度图片；

二值化处理模块708，用于采用聚类算法对灰度图片进行二值化处理，得到二值化图片；

去噪处理模块709，用于采用洪水填充算法对二值化图片进行去噪处理，得到去噪后的待识别验证码图片；

第一确定模块710，用于确定各个待识别的验证码图片中的一张待识别的验证码图片为当前验证码图片；

第二确定模块711，用于将各个待识别验证码图片中的一个未识别的待识别验证码图片确定为当前验证码图片，返回执行基于Tesseract对当前验证码图片进行识别处理，得到当前验证码图片对应的识别结果的步骤，直到各个待识别验证码图片均被识别处理并得到对应的识别结果。

进一步地，获取模块701具体为：第三提取子模块7011，用于获取各个目标网站上的各个待识别验证码图片；

进一步地，识别处理模块702具体为：第二辨别子模块7025，用于基于Tesseract对当前验证码图片进行识别处理，得到当前验证码图片对应的识别结果；

进一步地，识别处理模块702包括：

分割子模块7021，用于采用垂直投影法对待识别验证码图片进行分割，得到各个子验证码图片；

归一子模块7022，用于按照预设的尺寸规格将各个子验证码图片进行尺寸归一处理，得到各个规格化后的子验证码图片；

第一辨别子模块7023，用于基于Tesseract对各个规格化后的子验证码图片进行识别，得到各个规格化后的子验证码图片对应的各个验证码内容信息；

拼接子模块7024，用于按照验证码图片分割前的由左到右的顺序将各个验证码内容信息进行拼接，得到待识别验证码图片对应的识别结果，识别结果包括一个以上字符。

进一步地，判断模块703包括：

压入子模块7031，用于按照识别结果中的各个字符从左到右顺序排列，并将识别结果中的各个字符按照从左到右顺序排列顺序压入栈；

第一提取子模块7032，用于按照出栈先后顺序排列从栈中获取各个字符中的最先出栈的一个字符作为当前字符；

查询子模块7033，用于采用运算符号查询方法对当前字符进行查询，得到查询结果；

第一断定子模块7034，用于根据查询结果，确定查询结果的字符类型，其中，字符类型包括运算符类型和非运算符类型；

第二提取子模块7035，用于若查询结果的字符类型为运算符类型，则获取预设的运算符号原始值作为当前数量；

运算子模块7036，用于将当前数量与数字1进行算术相加运算，得到数量结果；

第一判别子模块7037，用于判断当前字符是否为按照出栈先后顺序排列的各个字符中的最后出栈的一个字符，若是，则触发第二判别子模块7038，若否，则触发第三提取子模块7039；

第二判别子模块7038，用于判断数量结果是否大于或等于预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中是否存在等号，若是，则触发第二断定子模块70310，若否，则触发第三断定子模块70311；

第三提取子模块7039，用于获取按照出栈先后顺序排列的各个字符中的下一个出栈的字符作为当前字符，获取数量结果作为当前数量，并触发查询子模块7033；

第二断定子模块70310，用于确定识别结果为算式；

第三断定子模块70311，用于确定识别结果为非算式。

关于验证码识别装置的具体限定可以参见上文中对于验证码识别方法的限定，在此不再赘述。上述验证码识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储验证码识别方法涉及到的图片或数据信息等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种验证码识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现上述实施例验证码识别方法的步骤，例如图2所示的步骤S10至步骤S50。或者，处理器执行计算机可读指令时实现上述实施例中验证码识别装置的各模块/单元的功能，例如图11所示模块701至模块711的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，该一个或多个存储有计算机可读指令的非易失性可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行计算机可读指令时实现上述方法实施例中验证码识别方法，或者，该一个或多个存储有计算机可读指令的非易失性可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行计算机可读指令时实现上述装置实施例中验证码识别装置中各模块/单元的功能。为避免重复，这里不再赘述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种验证码识别方法，其特征在于，所述验证码识别方法包括：

获取目标网站上的待识别验证码图片；

基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果，其中，Tesseract为一款光学字符识别工具；

判断所述识别结果是否为算式；

若所述识别结果为算式，则将所述识别结果对应的计算结果填入所述待识别验证码图片对应的输入框；

若所述识别结果为非算式，则将所述识别结果填入所述待识别验证码图片对应的输入框。
如权利要求1所述的验证码识别方法，其特征在于，所述基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果包括：

采用垂直投影法对所述待识别验证码图片进行分割，得到各个子验证码图片；

按照预设的尺寸规格将各个所述子验证码图片进行尺寸归一处理，得到各个规格化后的子验证码图片；

基于Tesseract对各个所述规格化后的子验证码图片进行识别，得到各个所述规格化后的子验证码图片对应的各个验证码内容信息；

按照所述验证码图片分割前的由左到右的顺序将各个所述验证码内容信息进行拼接，得到所述待识别验证码图片对应的识别结果，所述识别结果包括一个以上字符。
如权利要求1所述的验证码识别方法，其特征在于，所述判断所述识别结果是否为算式包括：

按照所述识别结果中的各个字符从左到右顺序排列，并将所述识别结果中的各个字符按照从左到右顺序排列顺序压入栈；

按照出栈先后顺序排列从栈中获取所述各个字符中的最先出栈的一个字符作为当前字符；

采用运算符号查询方法对所述当前字符进行查询，得到查询结果；

根据所述查询结果，确定所述查询结果的字符类型，其中，所述字符类型包括运算符类型和非运算符类型；

若所述查询结果的字符类型为所述运算符类型，则获取预设的运算符号原始值作为当前数量；

将所述当前数量与数字1进行算术相加运算，得到数量结果；

判断所述当前字符是否为按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符，若所述当前字符是按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符，则判断所述数量结果是否大于或等于所述预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中是否存在等号；

若所述数量结果大于或等于所述预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中存在等号，则确定所述识别结果为算式，若所述数量结果不大于或不等于所述预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中不存在等号，则确定所述识别结果为非算式；

若所述当前字符不是按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符，则获取按照出栈先后顺序排列的所述各个字符中的下一个出栈的字符作为当前字符，获取所述数量结果作为所述当前数量，返回执行所述采用运算符号查询方法对所述当前字符进行查询，得到查询结果的步骤。
如权利要求1所述的验证码识别方法，其特征在于，在所述基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果之前，所述验证码识别方法还包括：

采用深度优先搜索算法对所述待识别验证码图片进行去除干扰线处理，得到去干扰后的待识别验证码图片；

按照预设的转换方式将所述去干扰后的待识别验证码图片进行转换处理，得到灰度图片；

采用聚类算法对所述灰度图片进行二值化处理，得到二值化图片；

采用洪水填充算法对所述二值化图片进行去噪处理，得到去噪后的待识别验证码图片。
如权利要求1至4中任一项所述的验证码识别方法，其特征在于，所述获取目标网站上的待识别验证码图具体为：获取各个目标网站上的各个待识别验证码图片；

在所述基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果之前，所述验证码识别方法还包括：确定所述各个待识别的验证码图片中的一张待识别的验证码图片为当前验证码图片；

所述基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果具体为：基于Tesseract对所述当前验证码图片进行识别处理，得到所述当前验证码图片对应的识别结果；

在将所述识别结果对应的计算结果填入所述验证码图片对应的输入框，或者将所述识别结果填入所述验证码图片对应的输入框之后，所述验证码识别方法还包括：将所述各个待识别验证码图片中的一个未识别的待识别验证码图片确定为当前验证码图片，返回执行所述基于Tesseract对所述当前验证码图片进行识别处理，得到所述当前验证码图片对应的识别结果的步骤，直到所述各个待识别验证码图片均被识别处理并得到对应的识别结果。
一种验证码识别装置，其特征在于，所述验证码识别装置包括：

获取模块，用于获取目标网站上的待识别验证码图片；

识别处理模块，用于基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果，其中，Tesseract为一款光学字符识别工具；

判断模块，用于判断所述识别结果是否为算式；

第一填入模块，用于若所述识别结果为算式，则将所述识别结果对应的计算结果填入所述待识别验证码图片对应的输入框；

第二填入模块，用于若所述识别结果为非算式，则将所述识别结果填入所述待识别验证码图片对应的输入框。
如权利要求6所述的验证码识别装置，其特征在于，所述识别处理模块包括：

分割子模块，用于采用垂直投影法对所述待识别验证码图片进行分割，得到各个子验证码图片；

归一子模块，用于按照预设的尺寸规格将各个所述子验证码图片进行尺寸归一处理，得到各个规格化后的子验证码图片；

第一辨别子模块，用于基于Tesseract对各个所述规格化后的子验证码图片进行识别，得到各个所述规格化后的子验证码图片对应的各个验证码内容信息；

拼接子模块，用于按照所述验证码图片分割前的由左到右的顺序将各个所述验证码内容信息进行拼接，得到所述待识别验证码图片对应的识别结果，所述识别结果包括一个以上字符。
如权利要求6所述的验证码识别装置，其特征在于，所述判断模块包括：

压入子模块，用于按照所述识别结果中的各个字符从左到右顺序排列，并将所述识别结果中的各个字符按照从左到右顺序排列顺序压入栈；

第一提取子模块，用于按照出栈先后顺序排列从栈中获取所述各个字符中的最先出栈的一个字符作为当前字符；

查询子模块，用于采用运算符号查询方法对所述当前字符进行查询，得到查询结果；

第一断定子模块，用于根据所述查询结果，确定所述查询结果的字符类型，其中，所述字符类型包括运算符类型和非运算符类型；

第二提取子模块，用于若所述查询结果的字符类型为所述运算符类型，则获取预设的运算符号原始值作为当前数量；

运算子模块，用于将所述当前数量与数字1进行算术相加运算，得到数量结果；

第一判别子模块，用于判断所述当前字符是否为按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符，若是，则触发第二判别子模块，若否，则触发第三提取子模块；

第二判别子模块，用于判断所述数量结果是否大于或等于所述预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中是否存在等号，若是，则触发第二断定子模块，若否，则触发第三断定子模块；

第三提取子模块，用于获取按照出栈先后顺序排列的各个字符中的下一个出栈的字符作为当前字符，获取数量结果作为当前数量，并触发查询子模块；

第二断定子模块，用于确定所述识别结果为算式；

第三断定子模块，用于确定所述识别结果为非算式。
如权利要求6所述的验证码识别装置，其特征在于，所述验证码识别装置还包括：

去除模块，用于采用深度优先搜索算法对所述待识别验证码图片进行去除干扰线处理，得到去干扰后的待识别验证码图片；

转换模块，用于按照预设的转换方式将所述去干扰后的待识别验证码图片进行转换处理，得到灰度图片；

二值化处理模块，用于采用聚类算法对所述灰度图片进行二值化处理，得到二值化图片；

去噪处理模块，用于采用洪水填充算法对所述二值化图片进行去噪处理，得到去噪后的待识别验证码图片。
如权利要求6至9中任一项所述的验证码识别装置，其特征在于，所述获取模块包括第三提取子模块，用于获取各个目标网站上的各个待识别验证码图片，所述验证码识别装置还包括：

第一确定模块，用于确定所述各个待识别的验证码图片中的一张待识别的验证码图片为当前验证码图片；

所述识别处理模块包括第二辨别子模块，用于基于Tesseract对所述当前验证码图片进行识别处理，得到所述当前验证码图片对应的识别结果；

第二确定模块，用于将所述各个待识别验证码图片中的一个未识别的待识别验证码图片确定为当前验证码图片，返回执行所述基于Tesseract对所述当前验证码图片进行识别处理，得到所述当前验证码图片对应的识别结果的步骤，直到所述各个待识别验证码图片均被识别处理并得到对应的识别结果。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

获取目标网站上的待识别验证码图片；

基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果，其中，Tesseract为一款光学字符识别工具；

判断所述识别结果是否为算式；

若所述识别结果为算式，则将所述识别结果对应的计算结果填入所述待识别验证码图片对应的输入框；

若所述识别结果为非算式，则将所述识别结果填入所述待识别验证码图片对应的输入框。
如权利要求11所述的计算机设备，其特征在于，所述基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果包括：

采用垂直投影法对所述待识别验证码图片进行分割，得到各个子验证码图片；

按照预设的尺寸规格将各个所述子验证码图片进行尺寸归一处理，得到各个规格化后的子验证码图片；

基于Tesseract对各个所述规格化后的子验证码图片进行识别，得到各个所述规格化后的子验证码图片对应的各个验证码内容信息；

按照所述验证码图片分割前的由左到右的顺序将各个所述验证码内容信息进行拼接，得到所述待识别验证码图片对应的识别结果，所述识别结果包括一个以上字符。
如权利要求11所述的计算机设备，其特征在于，所述判断所述识别结果是否为算式包括：

按照所述识别结果中的各个字符从左到右顺序排列，并将所述识别结果中的各个字符按照从左到右顺序排列顺序压入栈；

按照出栈先后顺序排列从栈中获取所述各个字符中的最先出栈的一个字符作为当前字符；

采用运算符号查询方法对所述当前字符进行查询，得到查询结果；

根据所述查询结果，确定所述查询结果的字符类型，其中，所述字符类型包括运算符类型和非运算符类型；

若所述查询结果的字符类型为所述运算符类型，则获取预设的运算符号原始值作为当前数量；

将所述当前数量与数字1进行算术相加运算，得到数量结果；

判断所述当前字符是否为按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符，若所述当前字符是按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符，则判断所述数量结果是否大于或等于所述预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中是否存在等号；

若所述数量结果大于或等于所述预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中存在等号，则确定所述识别结果为算式，若所述数量结果不大于或不等于所述预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中不存在等号，则确定所述识别结果为非算式；

若所述当前字符不是按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符，则获取按照出栈先后顺序排列的所述各个字符中的下一个出栈的字符作为当前字符，获取所述数量结果作为所述当前数量，返回执行所述采用运算符号查询方法对所述当前字符进行查询，得到查询结果的步骤。
如权利要求11所述的计算机设备，其特征在于，在所述基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果之前，所述处理器执行所述计算机可读指令时还实现如下步骤：

采用深度优先搜索算法对所述待识别验证码图片进行去除干扰线处理，得到去干扰后的待识别验证码图片；

按照预设的转换方式将所述去干扰后的待识别验证码图片进行转换处理，得到灰度图片；

采用聚类算法对所述灰度图片进行二值化处理，得到二值化图片；

采用洪水填充算法对所述二值化图片进行去噪处理，得到去噪后的待识别验证码图片。
如权利要求11至14中任一项所述的计算机设备，其特征在于，所述获取目标网站上的待识别验证码图具体为：获取各个目标网站上的各个待识别验证码图片；

在所述基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果之前，所述处理器执行所述计算机可读指令时还实现如下步骤：

确定所述各个待识别的验证码图片中的一张待识别的验证码图片为当前验证码图片；

所述基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果具体为：基于Tesseract对所述当前验证码图片进行识别处理，得到所述当前验证码图片对应的识别结果；

在将所述识别结果对应的计算结果填入所述验证码图片对应的输入框，或者将所述识别结果填入所述验证码图片对应的输入框之后，所述处理器执行所述计算机可读指令时还实现如下步骤：将所述各个待识别验证码图片中的一个未识别的待识别验证码图片确定为当前验证码图片，返回执行所述基于Tesseract对所述当前验证码图片进行识别处理，得到所述当前验证码图片对应的识别结果的步骤，直到所述各个待识别验证码图片均被识别处理并得到对应的识别结果。
一个或多个存储有计算机可读指令的非易失性可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取目标网站上的待识别验证码图片；

基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果，其中，Tesseract为一款光学字符识别工具；

判断所述识别结果是否为算式；

若所述识别结果为算式，则将所述识别结果对应的计算结果填入所述待识别验证码图片对应的输入框；

若所述识别结果为非算式，则将所述识别结果填入所述待识别验证码图片对应的输入框。
如权利要求16所述的非易失性可读存储介质，其特征在于，所述基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果包括：

采用垂直投影法对所述待识别验证码图片进行分割，得到各个子验证码图片；

按照预设的尺寸规格将各个所述子验证码图片进行尺寸归一处理，得到各个规格化后的子验证码图片；

基于Tesseract对各个所述规格化后的子验证码图片进行识别，得到各个所述规格化后的子验证码图片对应的各个验证码内容信息；

按照所述验证码图片分割前的由左到右的顺序将各个所述验证码内容信息进行拼接，得到所述待识别验证码图片对应的识别结果，所述识别结果包括一个以上字符。
如权利要求16所述的非易失性可读存储介质，其特征在于，所述判断所述识别结果是否为算式包括：

按照所述识别结果中的各个字符从左到右顺序排列，并将所述识别结果中的各个字符按照从左到右顺序排列顺序压入栈；

按照出栈先后顺序排列从栈中获取所述各个字符中的最先出栈的一个字符作为当前字符；

采用运算符号查询方法对所述当前字符进行查询，得到查询结果；

根据所述查询结果，确定所述查询结果的字符类型，其中，所述字符类型包括运算符类型和非运算符类型；

若所述查询结果的字符类型为所述运算符类型，则获取预设的运算符号原始值作为当前数量；

将所述当前数量与数字1进行算术相加运算，得到数量结果；

判断所述当前字符是否为按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符，若所述当前字符是按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符，则判断所述数量结果是否大于或等于所述预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中是否存在等号；

若所述数量结果大于或等于所述预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中存在等号，则确定所述识别结果为算式，若所述数量结果不大于或不等于所述预设的运算符号原始值与数字2的和，且字符类型为运算符类型的所有字符中不存在等号，则确定所述识别结果为非算式；

若所述当前字符不是按照出栈先后顺序排列的所述各个字符中的最后出栈的一个字符，则获取按照出栈先后顺序排列的所述各个字符中的下一个出栈的字符作为当前字符，获取所述数量结果作为所述当前数量，返回执行所述采用运算符号查询方法对所述当前字符进行查询，得到查询结果的步骤。
如权利要求16所述的非易失性可读存储介质，其特征在于，在所述基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果之前，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

采用深度优先搜索算法对所述待识别验证码图片进行去除干扰线处理，得到去干扰后的待识别验证码图片；

按照预设的转换方式将所述去干扰后的待识别验证码图片进行转换处理，得到灰度图片；

采用聚类算法对所述灰度图片进行二值化处理，得到二值化图片；

采用洪水填充算法对所述二值化图片进行去噪处理，得到去噪后的待识别验证码图片。
如权利要求16至19中任一项所述的非易失性可读存储介质，其特征在于，所述获取目标网站上的待识别验证码图具体为：获取各个目标网站上的各个待识别验证码图片；

在所述基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果之前，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：确定所述各个待识别的验证码图片中的一张待识别的验证码图片为当前验证码图片；

所述基于Tesseract对所述待识别验证码图片进行识别处理，得到所述待识别验证码图片对应的识别结果具体为：基于Tesseract对所述当前验证码图片进行识别处理，得到所述当前验证码图片对应的识别结果；

在将所述识别结果对应的计算结果填入所述验证码图片对应的输入框，或者将所述识别结果填入所述验证码图片对应的输入框之后，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：将所述各个待识别验证码图片中的一个未识别的待识别验证码图片确定为当前验证码图片，返回执行所述基于Tesseract对所述当前验证码图片进行识别处理，得到所述当前验证码图片对应的识别结果的步骤，直到所述各个待识别验证码图片均被识别处理并得到对应的识别结果。