WO2021146951A1

WO2021146951A1 - 文本检测方法及装置、存储介质

Info

Publication number: WO2021146951A1
Application number: PCT/CN2020/073622
Authority: WO
Inventors: 李月; 黄光伟; 饶天珉
Original assignee: 京东方科技集团股份有限公司
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2021-07-29
Also published as: CN113498521A

Abstract

一种文本检测方法及装置、存储介质。该文本检测方法包括：基于文本图像，获取对应于文本图像的文本特征图像；将文本特征图像中的靠近文本特征图像的第一边缘的部分区域作为基础区域，其中，文本特征图像的第一边缘对应于文本图像的第一边缘，待检测文本靠近文本图像的第一边缘，基础区域中的至少部分像素为正像素；对基础区域中的至少部分正像素进行分组，以得到至少一个连通域；将至少一个连通域沿远离文本特征图像的第一边缘的方向进行扩展，以得到至少一个最终连通域；确定至少一个最终连通域对应的至少一个特征框，并将至少一个特征框映射到文本图像中，以得到至少一个文本框，其中，文本框包括待检测文本的文本框。

Description

文本检测方法及装置、存储介质

技术领域

本公开的实施例涉及一种文本检测方法、文本检测装置及存储介质。

背景技术

随着科学技术的发展，当用户阅读外文文章，遇到生词需要查询时，不再局限于使用字典、电子词典、手机APP(应用程序)等进行查询，还可以使用例如翻译笔进行查询。字典不易携带，且翻阅查询效率低；手机APP和电子词典使用键盘输入，不仅耗时、操作繁琐，还容易打断思路、分散精力。相比之下，翻译笔具有使用方便、易于携带、更加贴近用户阅读习惯等优点，可以在用户阅读外文文章时，为用户提供良好的翻译和查询体验。

发明内容

本公开至少一个实施例提供一种文本检测方法，包括：基于文本图像，获取对应于所述文本图像的文本特征图像；将所述文本特征图像中的靠近所述文本特征图像的第一边缘的部分区域作为基础区域，其中，所述文本特征图像的第一边缘对应于所述文本图像的第一边缘，所述文本图像中的待检测文本靠近所述文本图像的第一边缘，所述基础区域中的至少部分像素为正像素；对所述基础区域中的至少部分正像素进行分组，以得到至少一个连通域；将所述至少一个连通域沿远离所述文本特征图像的第一边缘的方向进行扩展，以得到与所述至少一个连通域对应的至少一个最终连通域；以及确定所述至少一个最终连通域对应的至少一个特征框，并将所述至少一个特征框映射到所述文本图像中，以得到至少一个文本框，其中，所述至少一个文本框包括所述待检测文本的文本框。

例如，在本公开一些实施例提供的文本检测方法中，在所述文本特征图像包括h行w列像素的情况下，所述基础区域包括h _base行w列像素，其中，h、w、h _base均为正整数，且h _base/h≤1/2。

例如，在本公开一些实施例提供的文本检测方法中，所述文本特征图像中的每个像素与直接相邻的像素之间具有连接概率；对所述基础区域中的至少部分正像素进行分组，以得到所述至少一个连通域，包括：基于并查集算法，根据所述基础区域中的所述至少部分正像素中的每个正像素与直接相邻的像素之间的连接概率，对所述基础区域中的所述至少部分正像素进行分组，以得到所述至少一个连通域。

例如，在本公开一些实施例提供的文本检测方法中，基于所述并查集算法，根据所述基础区域中的所述至少部分正像素中的每个正像素与直接相邻的像素之间的连接概率，对所述基础区域中的所述至少部分正像素进行分组，以得到所述至少一个连通域，包括：基于所述基础区域中的所述至少部分正像素构建索引集合，其中，所述索引集合包括所述基础区域中的所述至少部分正像素，且在所述索引集合中，每个正像素对应一个根节点，每个正像素的根节点的初始值为其自身；响应于所述索引集合中的每个正像素的任一直接相邻的像素为正像素且所述每个正像素与所述直接相邻的像素之间具有正连接关系，将所述直接相邻的像素的根节点的值设置为所述每个正像素的根节点的值；以及将具有相同根节点的值的每组正像素作为一个连通域，以得到所述至少一个连通域。

例如，在本公开一些实施例提供的文本检测方法中，在所述基础区域中的每个正像素与直接相邻的像素之间的连接概率大于连接概率阈值情况下，确定所述每个正像素与所述直接相邻的像素之间具有所述正连接关系。

例如，在本公开一些实施例提供的文本检测方法中，所述基础区域中的每个正像素的直接相邻的像素包括：在垂直于所述文本特征图像的第一边缘的第一方向上与所述每个正像素直接相邻的像素，以及在平行于所述文本特征图像的第一边缘的第二方向上与所述每个正像素直接相邻的像素。

例如，在本公开一些实施例提供的文本检测方法中，所述基础区域中的每个正像素具有四个直接相邻的像素。

例如，在本公开一些实施例提供的文本检测方法中，将所述至少一个连通域沿远离所述文本特征图像的第一边缘的方向进行扩展，以得到与所述至少一个连通域对应的所述至少一个最终连通域，包括：提取当前的连通域中的在垂直于所述文本特征图像的第一边缘的第一方向上距离所述文本特征图像的第一边缘最远的正像素作为第一正像素；将所述文本特征图像中在所述第一正像素的远离所述文本特征图像的第一边缘的一侧且与所述第一正像素直接相邻的像素作为第一邻近像素；响应于所述第一邻近像素为正像素且所述第一正像素与所述第一邻近像素之间具有正连接关系，将所述第一邻近像素的根节点的值修改为所述第一正像素的根节点的值，并将所述第一邻近像素加入第一邻近像素集合；在平行于所述文本特征图像的第一边缘的第二方向上对所述第一邻近像素集合进行扩展；以及将当前的连通域扩展为包括所述第一邻近像素集合中的全部像素，并继续将当前的连通域沿远离所述文本特征图像的第一边缘的方向进行扩展，直到无法继续扩展为止。

例如，在本公开一些实施例提供的文本检测方法中，在平行于所述文本特征图像的第一边缘的第二方向上对所述第一邻近像素集合进行扩展，包括：将在平行于所述文本特征图像的第一边缘的第二方向上与所述第一邻近像素集合中的任一像素直接相邻且具有正连接关系的正像素加入所述第一邻近像素集合，直到无法继续在平行于所述文本特征图像的第一边缘的方向上对所述第一邻近像素集合进行扩展为止。

例如，在本公开一些实施例提供的文本检测方法中，所述至少一个最终连通域包括所述基本区域内的无法沿远离所述文本特征图像的第一边缘的方向进行扩展的连通域。

例如，在本公开一些实施例提供的文本检测方法中，基于所述文本图像，获取对应于所述文本图像的所述文本特征图像，包括：使用文本检测神经网络对所述文本图像进行处理，以得到所述文本特征图像，并得到所述文本特征图像中的每个像素与直接相邻的像素之间的连接概率。

例如，在本公开一些实施例提供的文本检测方法中，所述文本检测神经网络包括第一至第六卷积模块、第一至第五下采样模块、第一至第四上采样模块、以及分类器；使用所述文本检测神经网络对所述文本图像进行处理，以得到所述文本特征图像，并得到所述文本特征图像中的每个像素与直接相邻的像素之间的连接概率，包括：使用第一卷积模块对所述文本图像进行卷积处理，以得到第一卷积特征图组；使用第一下采样模块对所述第一卷积特征图组进行下采样处理，以得到第一下采样特征图组；使用第二卷积模块对所述第一下采样特征图组进行卷积处理，以得到第二卷积特征图组；使用第二下采样模块对所述第二卷积特征图组进行下采样处理，以得到第二下采样特征图组，且使用第五降维模块对所述第二卷积特征图组进行降维处理，以得到第五降维特征图组；使用第三卷积模块对所述第二下采样特征图组进行卷积处理，以得到第三卷积特征图组；使用第三下采样模块对所述第三卷积特征图组进行下采样处理，以得到第三下采样特征图组，且使用第四降维模块对所述第三卷积特征图组进行降维处理，以得到第四降维特征图组；使用第四卷积模块对所述第三下采样特征图组进行卷积处理，以得到第四卷积特征图组；使用第四下采样模块对所述第四卷积特征图组进行下采样处理，以得到第四下采样特征图组，且使用第三降维模块对所述第四卷积特征图组进行降维处理，以得到第三降维特征图组；使用第五卷积模块对所述第四下采样特征图组进行卷积处理，以得到第五卷积特征图组；使用第五下采样模块对所述第五卷积特征图组进行下采样处理，以得到第五下采样特征图组，且使用第二降维模块对所述第五卷积特征图组进行降维处理，以得到第二降维特征图组；使用第六卷积模块对所述第五下采样特征图组进行卷积处理，以得到第六卷积特征图组；使用第一上采样模块对所述第六卷积特征图组进行上采样处理，以得到第一上采样特征图组；使用第一降维模块对所述第一上采样特征图组进行降维处理，以得到第一降维特征图组；对所述第一降维特征图组和所述第二降维特征图组进行融合处理，以得到第一融合特征图组；使用第二上采样模块对所述第一融合特征图组进行上采样处理，以得到第二上采样特征图组；对所述第二上采样特征图组和所述第三降维特征图组进行融合处理，以得到第二融合特征图组；使用第三上采样模块对所述第二融合特征图组进行上采样处理，以得到第三上采样特征图组；对所述第三上采样特征图组和所述第四降维特征图组进行融合处理，以得到第三融合特征图组；使用第四上采样模块对所述第三融合特征图组进行上采样处理，以得到第四上采样特征图组；对所述第四上采样特征图组和所述第五降维特征图组进行融合处理，以得到所述第四融合特征图组；使用分类器对所述第四融合特征图组进行分类处理，以得到文本分类预测图像和连接概率预测图像；以及基于所述文本分类预测图像和所述连接概率预测图像，得到所述文本特征图像，并得到所述文本特征图像中的每个像素与直接相邻的像素之间的连接概率。

例如，在本公开一些实施例提供的文本检测方法中，所述文本分类预测图像中的每个像素具有类型概率，所述连接概率预测图像中的每个像素具有所述像素与直接相邻的像素之间的连接概率；基于所述文本分类预测图像和所述连接概率预测图像，得到所述文本特征图像，并得到所述文本特征图像中的每个像素与其相邻像素之间的连接概率，包括：将所述文本分类预测图像中的类型概率大于或等于类型概率阈值的像素作为正像素，将所述文本分类预测图像中的类型概率小于所述类型概率阈值的像素作为负像素，以得到所述文本特征图像，所述文本特征图像中的每个像素与直接相邻的像素之间的连接概率可以对应地从连接概率预测图像中查询得到。

例如，在本公开一些实施例提供的文本检测方法中，确定所述至少一个最终连通域对应的所述至少一个特征框，包括：使用轮廓检测算法对所述至少一个最终连通域进行轮廓检测，以得到所述至少一个最终连通域的轮廓；使用最小外接矩形算法对所述至少一个最终连通域的轮廓进行处理，以得到所述至少一个最终连通域对应的所述至少一个特征框。

例如，本公开一些实施例提供的文本检测方法，还包括：从所述至少一个文本框中确定出所述待检测文本的文本框。

例如，在本公开一些实施例提供的文本检测方法中，从所述至少一个文本框中确定出所述待检测文本的文本框，包括：在所述文本图像中构建虚拟检测框；以及计算所述虚拟检测框与各个文本框的重叠面积，将与所述虚拟检测框具有最大重叠面积的文本框作为所述待检测文本的文本框。

例如，本公开一些实施例提供的文本检测方法，还包括：基于所述待检测文本的文本框，对所述待检测文本进行识别处理。

例如，本公开一些实施例提供的文本检测方法，还包括：使用点译笔的图像采集元件采集所述文本图像；其中，在采集所述文本图像时，所述点译笔的笔尖点在所述待检测文本的靠近所述文本图像的第一边缘的一侧，所述文本图像包括所述待检测文本。

本公开至少一实施例还提供一种文本检测装置，包括：存储器，用于存储文本图像以及计算机可读指令；处理器，用于读取所述文本图像，并运行所述计算机可读指令，所述计算机可读指令被所述处理器运行时执行本公开任一实施例提供的文本检测方法。

例如，本公开一些实施例提供的文本检测装置，还包括：图像采集元件，用于采集所述文本图像。

例如，在本公开一些实施例提供的文本检测装置中，所述文本检测装置为点译笔，其中，所述图像采集元件设置在所述点译笔上，所述点译笔用于选择所述待检测文本。

本公开至少一实施例还提供一种存储介质，非暂时性地存储计算机可读指令，其中，当所述计算机可读指令由计算机执行时能够执行本公开任一实施例提供的文本检测方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为一种点译笔的工作原理的示意图；

图2为本公开至少一实施例提供的一种文本检测方法的示例性流程图；

图3为本公开至少一实施例提供的一种文本图像的示意图；

图4为本公开至少一实施例提供的一种文本检测神经网络的示意图；

图5为本公开至少一实施例提供的一种像素邻接关系的示意图；

图6为本公开至少一实施例提供的一种文本特征图像的示意图；

图7为本公开至少一实施例提供的一种对应于图2中所示的步骤S400的示例性流程图；

图8为本公开至少一实施例提供的一种对应于图2中所示的步骤S600的示例性流程图；

图9为本公开至少一实施例提供的一种对应于图2中所示的步骤S600的操作示意图；

图10为本公开至少一实施例提供的一种文本检测装置的示意性框图；以及

图11为本公开至少一实施例提供的一种存储介质的示意图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

下面通过几个具体的实施例对本公开进行说明。为了保持本公开实施例的以下说明清楚且简明，可省略已知功能和已知部(元)件的详细说明。当本公开实施例的任一部(元)件在一个以上的附图中出现时，该部(元)件在每个附图中由相同或类似的参考标号表示。

翻译笔通常包括扫描式翻译笔(简称“扫译笔”)和点译式翻译笔(简称“点译笔”)。扫译笔在使用时，需要直立笔身在待翻译的文本上滑动(即进行扫描)，该使用模式有别于通常的用笔习惯，因此，用户使用扫译笔时通常需要有一个适应过程。不同于扫译笔的使用模式，点译笔在使用时，仅需要将笔尖对准待翻译文本的下方，轻轻一点，即可进行对应的识别和翻译，因此使用方法更加灵活，也更加贴近用户的用笔习惯，可以提供更好的用户体验。

当前的点译笔的工作原理主要是：先将点译笔的笔尖点击在待检测文本(例如，英语单词，但不限于此)的下方，使用点译笔的笔身摄像头拍摄得到文本图像，例如得到如图1所示的文本图像；然后，对整幅文本图像的每个像素位置进行遍历式的文本检测处理，得到文本图像上的所有文本框(如图1中的包围各个单词的实线框所示)；再找出笔尖附近的文本框，即待检测文本的文本框(即围绕待检测文本的文本框)，对其中的文本进行识别和翻译。在进行文本检测时，需要对整幅文本图像进行遍历式的处理，但是文本图像上检测到的大部分文本框都是冗余的(即与待检测文本无关)，这会限制点译笔的响应速度，降低点译笔的工作效率。

如果可以仅聚焦在笔尖位置附近的区域(即图1所示的文本图像中靠下部的区域)进行文本的检测与识别，则可以大大提高处理速度，减少响应时间和计算资源的占用。然而，由于点译笔需要识别不同字号大小的文本，如果人为限定文本图像中需要检测的区域，则可能出现以下问题：一方面，如果人为限定的需要检测的区域过大，则有益效果(即提高处理速度，减少响应时间和计算资源的占用等)可能并不明显；另一方面，如果人为限定的需要检测的区域偏小，则可能由于其无法覆盖大号字体的文本，导致无法完整检测并识别大号字体的文本，反而会限制点译笔的使用范围。

本公开至少一实施例提供一种文本检测方法。该检测方法包括：基于文本图像，获取对应于文本图像的文本特征图像；将文本特征图像中的靠近文本特征图像的第一边缘的部分区域作为基础区域，其中，文本特征图像的第一边缘对应于文本图像的第一边缘，文本图像中的待检测文本靠近文本图像的第一边缘，基础区域中的至少部分像素为正像素；对基础区域中的至少部分正像素进行分组，以得到至少一个连通域；将至少一个连通域沿远离文本特征图像的第一边缘的方向进行扩展，以得到与至少一个连通域对应的至少一个最终连通域；以及确定至少一个最终连通域对应的至少一个特征框，并将至少一个特征框映射到文本图像中，以得到至少一个文本框，其中，该至少一个文本框包括待检测文本的文本框。

本公开的一些实施例还提供对应于上述文本检测方法的文本检测装置以及存储介质。

本公开的实施例提供的文本检测方法，可以基于预先设定的基础区域，采用连通域的思想进行文本检测，由此可以减少文本检测的运算量(即减少遍历次数)，减少文本检测的响应时间。该文本检测方法适用于点译笔等，可以提高点译笔的处理速度，改善用户使用体验。

下面结合附图对本公开的一些实施例及其示例进行详细说明。

图2为本公开至少一实施例提供的一种文本检测方法的示例性流程图。例如，本公开的实施例提供的文本检测方法可以应用于点译笔获取的文本图像，但不限于此。例如，如图2所示，该文本检测方法包括但不限于步骤S100至步骤S600。

步骤S100：基于文本图像，获取对应于文本图像的文本特征图像。

例如，在步骤S100中，文本图像可以包括通过图像采集装置或元件拍摄的图像。例如，在一些实施例中，该文本检测方法在步骤S100之前，还包括步骤S000：采集文本图像。

例如，在一些示例中，可以使用例如点译笔等采集文本图像。例如，点译笔可以包括图像采集元件，例如摄像头；例如，该摄像头可以设置在点译笔的例如笔身上。从而，可以使用点译笔(点译笔上的摄像头)执行步骤S000，即采集文本图像。例如，在使用点译笔的图像采集元件采集文本图像时，点译笔的笔尖一般点在待检测文本的下方，从而相对于文本图像而言，点译笔的笔尖相当于点在待检测文本的靠近文本图像的边缘的一侧。为了区别于文本图像的其他边缘，该边缘称为文本图像的第一边缘(参考图3中的文本图像的第一边缘FE所示)。

例如，文本图像可以为灰度图像，也可以为彩色图像。文本图像的形状可以为矩形、菱形、圆形等，本公开的实施例对此不作限制。在本公开的实施例中，以文本图像为矩形为例进行说明，但不应视作对本公开的限制。

例如，文本图像可以为图像采集装置或元件直接采集到的原始图像，也可以是对原始图像进行预处理之后获得的图像。例如，为了避免文本图像的数据质量、数据不均衡等对于文字识别的影响，在对文本图像进行文本检测之前，本公开的实施例提供的文本检测方法还可以包括对文本图像进行预处理的操作。预处理可以消除文本图像中的无关信息或噪声信息，以便于更好地对文本图像进行处理。预处理例如可以包括对文本图像进行缩放、剪裁、伽玛(Gamma)校正、图像增强或降噪滤波等处理。

例如，文本图像包括至少一个文本，该至少一个文本包括待检测文本。例如，该待检测文本通常靠近于文本图像的第一边缘(例如，下边缘)。需要说明的是，待检测文本即为用户希望检测的文本。文本图像是指以可视化方式呈现文本的形式，例如包括文本的图片、视频等。

例如，待检测文本可以包括：英语、法语、德语、西班牙语等语言之一的一个单词，或者中文、日语、韩语等语言之一的一个字或词；但不限于此。

图3为本公开至少一实施例提供的一种文本图像的示意图。例如，如图3所示，该文本图像包括多个文本，例如，一个文本可以为一个英文单词(例如，图3中的“Tecent”、“the”等)、一个或一串数字(例如，图3中的“61622214”等)等，但不限于此。例如，在图3所示的文本图像中，待检测文本可以为“Tecent”；例如，在一些示例中，使用点译笔选择“Tecent”作为待检测文本时，点译笔的笔尖点在“Tecent”的下方(靠近第一边缘FE)，并使用设置在点译笔的笔身上的摄像头进行拍摄，以得到图3所示的文本图像。

例如，在一些实施例中，在步骤S100中，可以使用文本检测神经网络对文本图像进行处理，以得到文本特征图像，并得到所述文本特征图像中的每个像素与直接相邻的像素之间的连接概率。

图4为本公开至少一实施例提供的一种文本检测神经网络的示意图。例如，如图4所示，该文本检测神经网络包括第一至第六卷积模块、第一至第五下采样模块、第一至第四上采样模块、以及分类器。

例如，第一至第六卷积模块中的每个均可以包括卷积层。卷积层是卷积神经网络的核心层。卷积层可以对输入图像应用若干个卷积核(也称为滤波器)，以提取输入图像的多种类型的特征。每个卷积核可以提取一种类型的特征。卷积核一般以随机小数矩阵的形式初始化，在卷积神经网络的训练过程中卷积核将通过学习以得到合理的权值。对输入图像应用一个卷积核之后得到的结果被称为特征图像(feature map)，特征图像的数目与卷积核的数目相等。例如，在本公开的实施例中，如图4所示，文本图像作为输入图像。需要说明的是，本公开的实施例对第一至第六卷积模块中包括的卷积层的数目不作限制。

例如，在一些实施例中，上述每个卷积模块还可以包括激活层。激活层包括激活函数，激活函数用于给卷积神经网络引入非线性因素，以使卷积神经网络可以更好地解决较为复杂的问题。激活函数可以包括线性修正单元(ReLU)函数、带泄露的线性修正单元函数(LeakyReLU)、S型函数(Sigmoid函数)或双曲正切函数(tanh函数)等。ReLU函数和LeakyReLU函数为非饱和非线性函数，Sigmoid函数和tanh函数为饱和非线性函数。

例如，在一些实施例中，上述每个卷积模块还可以包括例如批量标准化(batch normalization，BN)层等。例如，批量标准化层用于对小批量(mini-batch)的样本(即输入图像)的特征图像进行批量标准化处理，以使各特征图像的像素的灰度值在预定范围内变化，从而降低计算难度，提高对比度。例如，预定范围可以为[-1，1]，但不限于此。例如，批量标准化层可以根据每个小批量的样本的特征图像的均值和方差，对各特征图像进行批量标准化处理。

例如，第一至第五下采样模块中的每个均可以包括下采样层。一方面，下采样层可以用于缩减输入图像的规模，简化计算的复杂度，在一定程度上减小过拟合的现象；另一方面，下采样层也可以进行特征压缩，提取输入图像的主要特征。下采样层能够减少特征图像的尺寸，但不改变特征图像的数量。例如，一个尺寸为12×12的输入图像，通过2×2的下采样层过滤器对其进行采样，那么可以得到6×6的特征图像，这意味着输入图像上的4个像素合并为特征图像中的1个像素。

例如，下采样层可以采用最大值池化(max pooling)、平均值池化(average pooling)、跨度卷积(strided convolution)、欠采样(decimation，例如选择固定的像素)、解复用输出(demuxout，将输入图像拆分为多个更小的图像)等下采样方法进行下采样处理。例如，在一些实施例中，第一至第五下采样模块中的下采样层的下采样因子均为1/(2×2)，本公开包括但不限于此。

例如，第一至第四上采样模块中的每个均可以包括上采样层。例如，上采样层可以采用跨度转置卷积(strided transposed convolution)、插值算法等上采样方法进行上采样处理。插值算法例如可以包括内插值、双线性插值、两次立方插值(Bicubic Interprolation)等算法。上采样处理用于增大特征图像的尺寸，从而增加特征图像的数据量。例如，在一些实施例中，第一至第四上采样模块中的上采样层的上采样因子均为2×2，本公开包括但不限于此。

例如，第一至第五降维模块中的每个均可以包括采用1×1卷积核的卷积层。例如，上述每个降维模块均可以采用1×1卷积核对数据进行降维，减少特征图像的数量，从而减少后续处理中的参数数量，降低计算量，以提高处理速度。例如，在一些实施例中，第一至第五降维模块中的每个均可以包括10个1×1卷积核，从而每个降维模块均可以对应输出10幅特征图像。

例如，分类器可以包括两个softmax分类器，分别为第一softmax分类器和第二softmax分类器。第一softmax分类器用于对每个像素是文本像素(即正像素)或非文本像素(即负像素)进行文本分类预测，第二softmax分类器对每个像素与其直接相邻的四个像素是否存在连接(link)关系进行连接分类预测。需要说明的是，在本公开中，还可以采用其他任意可行的方法进行文本分类预测和连接分类预测，包括但不限于上述第一和第二softmax分类器。

需要说明的是，在本公开中，卷积层、下采样层、上采样层等这些层每个都指代对应的处理操作，即卷积处理、下采样处理、上采样处理等，以下不再重复说明。

例如，使用文本检测神经网络对文本图像进行处理，以得到对应的文本特征图像，包括：使用第一卷积模块对文本图像进行卷积处理，以得到第一卷积特征图组；使用第一下采样模块对第一卷积特征图组进行下采样处理，以得到第一下采样特征图组；使用第二卷积模块对第一下采样特征图组进行卷积处理，以得到第二卷积特征图组；使用第二下采样模块对第二卷积特征图组进行下采样处理，以得到第二下采样特征图组，且使用第五降维模块对第二卷积特征图组进行降维处理，以得到第五降维特征图组；使用第三卷积模块对第二下采样特征图组进行卷积处理，以得到第三卷积特征图组；使用第三下采样模块对第三卷积特征图组进行下采样处理，以得到第三下采样特征图组，且使用第四降维模块对第三卷积特征图组进行降维处理，以得到第四降维特征图组；使用第四卷积模块对第三下采样特征图组进行卷积处理，以得到第四卷积特征图组；使用第四下采样模块对第四卷积特征图组进行下采样处理，以得到第四下采样特征图组，且使用第三降维模块对第四卷积特征图组进行降维处理，以得到第三降维特征图组；使用第五卷积模块对第四下采样特征图组进行卷积处理，以得到第五卷积特征图组；使用第五下采样模块对第五卷积特征图组进行下采样处理，以得到第五下采样特征图组，且使用第二降维模块对第五卷积特征图组进行降维处理，以得到第二降维特征图组；使用第六卷积模块对第五下采样特征图组进行卷积处理，以得到第六卷积特征图组；使用第一上采样模块对第六卷积特征图组进行上采样处理，以得到第一上采样特征图组；使用第一降维模块对第一上采样特征图组进行降维处理，以得到第一降维特征图组；对第一降维特征图组和第二降维特征图组进行融合处理，以得到第一融合特征图组；使用第二上采样模块对第一融合特征图组进行上采样处理，以得到第二上采样特征图组；对第二上采样特征图组和第三降维特征图组进行融合处理，以得到第二融合特征图组；使用第三上采样模块对第二融合特征图组进行上采样处理，以得到第三上采样特征图组；对第三上采样特征图组和第四降维特征图组进行融合处理，以得到第三融合特征图组；使用第四上采样模块对第三融合特征图组进行上采样处理，以得到第四上采样特征图组；对第四上采样特征图组和第五降维特征图组进行融合处理，以得到第四融合特征图组；使用分类器对第四融合特征图组进行分类处理，以得到文本分类预测图像和连接概率预测图像；以及基于文本分类预测图像和连接概率预测图像，得到文本特征图像，并得到文本特征图像中的每个像素与直接相邻的像素之间的连接概率。

例如，在本公开的实施例中，每个特征图组通常包括多幅特征图像。

例如，在本公开的实施例中，如图4所示，融合处理可以包括对位相加处理ADD。例如，对位相加处理ADD通常是指将一组输入的图像的每个通道的图像矩阵的每一行、每一列的数值与另一组输入的图像的对应通道的图像矩阵的每一行、每一列的数值相加。例如，作为对位相加处理ADD的输入的两组图像的通道数相同，例如，对位相加处理ADD的输出的图像的通道数也与输入的任一组图像的通道数相同。因此，“融合处理”表示将一个特征图组中的每个特征图像中的每个像素与另一个特征图组中的对应的特征图像的对应像素的值进行相加，以得到新的特征图像。“融合处理”不改变特征图像的数量和尺寸。

例如，在一些实施例中，文本分类预测图像包括2个特征图像，连接概率预测图像包括8个特征图像。需要说明的是，文本分类预测图像和连接概率预测图像中的每个特征图像中的像素的值均大于等于0且小于等于1，且表示文本预测概率或连接预测概率。文本分类预测图像中的特征图像表示每个像素是否为文本的概率图，连接概率预测图像中的特征图像表示每个像素与该像素的直接相邻的像素是否连接的概率图。

例如，文本分类预测图像中的2个特征图像包括文本概率图像和非文本概率图像，文本概率图像表示各个像素属于文本的预测概率(即各个像素的类型概率)，非文本概率图像表示各个像素属于非文本的预测概率，该2个特征图像的对应的像素点的值相加为1。例如，在一些实施例中，可以设置类型概率阈值，例如，为0.75；若一个像素的属于文本的预测概率大于或等于类型概率阈值，则表示该像素属于文本，即该像素为正像素(positive pixel)；若一个像素的属于文本的预测概率小于类型概率阈值，则表示该像素属于非文本，即该像素为负像素(negative pixel)。

图5为本公开至少一实施例提供的一种像素邻接关系的示意图。例如，在一些实施例中，如图4所示，在方向R1上，像素PX3和像素PX4与像素PX0直接相邻，在方向C1上，像素PX1和像素PX2与像素PX0直接相邻，也就是说，像素PX1至PX4为像素PX0的直接相邻的四个像素，且分别位于像素PX0的上方、下方、左方、右方。例如，在一些实施例中，每个特征图像中的像素阵列排布为多行多列。例如，方向C1可以表示垂直于第一边缘(包括文本图像的第一边缘和文本特征图像的第一边缘)的第一方向，例如列方向；方向R1可以表示平行于第一边缘(包括文本图像的第一边缘和文本特征图像的第一边缘)的第二方向，例如行方向。

例如，连接概率预测图像中的8个特征图像可以包括第一连接分类图像、第二连接分类图像、第三连接分类图像、第四连接分类图像、第五连接分类图像、第六连接分类图像、第七连接分类图像和第八连接分类图像。例如，如图4所示，对于像素PX0，第一连接分类图像中的像素PX0的值表示从像素PX0指向像素PX1方向的连接预测概率，第二连接分类图像中的像素PX0的值表示从像素PX0指向像素PX1方向的不连接预测概率；第三连接分类图像中的像素PX0的值表示从像素PX0指向像素PX2方向的连接预测概率，第四连接分类图像中的像素PX0的值表示从像素PX0指向像素PX2方向的不连接预测概率；第五连接分类图像中的像素PX0的值表示从像素PX0指向像素PX3方向的连接预测概率，第六连接分类图像中的像素PX0的值表示从像素PX0指向像素PX3方向的不连接预测概率；第七连接分类图像中的像素PX0的值表示从像素PX0指向像素PX4方向的连接预测概率，第八连接分类图像中的像素PX0的值表示从像素PX0指向像素PX4方向的不连接预测概率。应当理解的是，第一连接分类图像和第二连接分类图像的对应的像素点的值相加为1，第三连接分类图像和第四连接分类图像的对应的像素点的值相加为1，第五连接分类图像和第六连接分类图像的对应的像素点的值相加为1，第七连接分类图像和第八连接分类图像的对应的像素点的值相加为1。

例如，在一些实施例中，可以设置连接概率阈值，例如，为0.7；当两个直接相邻的像素的连接预测概率大于或等于连接概率阈值，则表示这两个相邻像素之间可以相互连接；当两个直接相邻的像素的连接预测概率小于连接概率阈值，则表示这两个直接相邻的像素之间不可以相互连接。

需要说明的是，上述类型概率阈值和连接概率阈值仅仅是示意性的，类型概率阈值和连接概率阈值可以根据实际应用需求进行设置。

例如，在一些实施例中，文本特征图像为二值图像，但不限于此。例如，在一些实施例中，基于文本分类预测图像和连接概率预测图像，得到文本特征图像，并得到文本特征图像中的每个像素与直接相邻的像素之间的连接概率，可以包括：将文本分类预测图像中的文本概率图像中的每个像素根据其像素值(属于文本的预测概率，即类型概率)与类型概率阈值的大小比较关系进行二值化，以得到文本特征图像，且文本特征图像中的每个像素与直接相邻的像素之间的连接概率可以对应地从连接概率预测图像中查询得到。例如，在文本概率图像中，若一个像素的属于文本的预测概率大于或等于类型概率阈值，则将该像素作为正像素(positive pixel)，也就是说，正像素的文本预测概率大于或等于类型概率阈值；若一个像素的属于文本的预测概率小于类型概率阈值，则将该像素作为负像素(negative pixel)，也就是说，负像素的文本预测概率小于类型概率阈值；由此可以得到一幅包括正、负像素的文本特征图像。

图6为本公开至少一实施例提供的一种文本特征图像的示意图。如图6所示，该文本特征图像包括正像素(如图6中的每个灰色方格所示)和负像素(如图6中的每个白色方格所示)。

应当理解的是，文本特征图像的尺寸大小与文本分类预测图像和连接概率预测图像中的各特征图像的尺寸大小相同。

需要说明的是，图4所示的文本检测神经网络是示意性的。在实际应用中，还可以采用具有其他结构形式的神经网络执行步骤S100的操作；当然，也可以对图4所示的文本检测神经网络进行部分修改以得到同样可以执行步骤S100的操作的新的文本检测神经网络。例如，在一些示例中，可以省略图4所示的文本检测神经网络中的第四上采样模块和第五降维模块以及相应的融合处理，同时，使用分类器对第三融合特征图组进行分类处理，以得到文本分类预测图像和连接概率预测图像。需要说明的是，本公开的实施例对此不作限制。

应当理解的是，在一些示例提供的文本检测方法中，也可以设定：文本特征图像中的每一个像素与其上方、下方、左方、右方、左上方、左下方、右上方、右下方的8个像素直接相邻；在此情况下，连接概率预测图像可以对应包括16个特征图像。本公开的实施例包括但不限于此。例如，与每个像素具有8个直接相邻的像素的文本检测方法相比，每个像素具有4个直接相邻的像素的文本检测方法，可以减少运算量，提高处理速度，同时可以改善后续得到的文本框中可能出现文本粘连的问题。

步骤S200：将文本特征图像中的靠近文本特征图像的第一边缘的部分区域作为基础区域，其中，基础区域中的至少部分像素为正像素。

例如，文本特征图像的第一边缘对应于文本图像的第一边缘，文本图像中的待检测文本靠近文本图像的第一边缘(参考图3的相关描述)。

例如，在一些实施例中，如图6所示，可以将文本特征图像中的靠下的部分区域(即靠近文本特征图像的第一边缘的部分区域，如图6中虚线框所示)作为基础区域，该基础区域中的至少部分像素为正像素(如图6的虚线框中的灰色方格所示)。

例如，在一些实施例中，假设文本特征图像的尺寸大小为h*w(即包括h行w列像素)，则基础区域的尺寸大小可以设置为h _base*w(即包括h _base行w列像素)，其中，h、w、h _base均为正整数，且h _base/h≤1。例如，在一些示例中，h _base/h≤1/2；例如，在一些示例中，h _base/h的取值范围为例如1/10～1/2，例如1/5～2/5，例如1/4～1/3等。例如，h _base/h的取值范围可以根据实际应用需求进行设置，例如可以根据需要识别的字体大小的范围以及文本图像的覆盖范围的大小进行设置。应当注意的是，如果h _base/h的取值过小，可能导致基础区域中不包括正像素，进而导致本公开的实施例提供的文本检测方法不能有效实施；如果h _base/h的取值过大，则可能导致文本检测的运算量的减小不明显，进而降低本公开的实施例的有益效果；因此，h _base/h的取值应当根据实际应用需求进行合理设置。

例如，由于待检测文本的长度可能不是固定的，例如，英语单词通常长短不一，因此，在本公开的实施例中，可以将基础区域的宽度设置为与文本特征图像的宽度相同，即均为w。

步骤S300：对基础区域中的至少部分正像素进行分组，以得到至少一个连通域。

例如，在步骤S300中，可以基于并查集算法，根据基础区域中的各个正像素与直接相邻的像素之间的连接概率，对基础区域中的至少部分正像素进行分组，以得到至少一个连通域(Connected Components)。

例如，在一些实施例中，并查集算法可以包括：首先，基于基础区域中的至少部分正像素构建索引集合，例如，该索引集合包括基础区域中的至少部分正像素，且在该索引集合中，每个正像素对应一个根节点，每个正像素的根节点的初始值为其自身；然后，响应于索引集合中的每个正像素的任一直接相邻的像素为正像素且该每个正像素与该直接相邻的像素之间具有正连接关系，将该直接相邻的像素的根节点的值设置为该正像素的根节点的值；最后，将具有相同根节点的值的每组正像素作为一个连通域，以得到至少一个连通域。需要说明的是，上述并查集算法的具体过程是示意性的，本公开的实施例对此不作限制。例如，在一些示例中，用于构建索引集合的基础区域中的至少部分正像素包括基础区域中的全部正像素；例如，在另一些示例中，用于构建索引集合的基础区域中的至少部分正像素包括不包括基础区域中的例如最靠近文本特征图像的第一边缘的一行或若干行(可以根据实际需求进行设定)中的正像素，从而可以减少运算量，提高处理速度。本公开的实施例对此不作限制。

例如，每个正像素的直接相邻的像素包括在垂直于文本特征图像的第一边缘的第一方向上与每个正像素直接相邻的像素以及在平行于文本特征图像的第一边缘的第二方向上与每个正像素直接相邻的像素。例如，每个正像素具有四个直接相邻的像素。

例如，在本公开的实施例中，当两个直接相邻的像素之间的连接概率大于连接概率阈值时，两者之间具有正连接关系。

示例性地，在图6所示的文本特征图像中，对基础区域中的全部正像素进行分组，得到了四个连通域。

例如，在一些实施例中，为了防止噪声的影响，可以对上述至少一个连通域进行去噪处理。例如，在一些示例中，可以将上述至少一个连通域中的面积小于T1个像素的连通域或者宽度(或高度)小于T2个像素的宽度(或高度)的连通域去除，并将执行去噪处理后剩下的一个或多个连通域用于确定待检测文本对应的最终连通域(参考下述步骤S400中的相关描述)。例如，在一些示例中，T1可以为例如100～300，例如200，但不限于此；例如，在一些示例中，T2可以为例如5～15，例如10，但不限于此。应当理解的是，T1、T2的取值可以根据实际应用需求进行设置。

步骤S400：将至少一个连通域沿远离文本特征图像的第一边缘的方向进行扩展，以得到与至少一个连通域对应的至少一个最终连通域。

例如，在步骤S400中，至少一个最终连通域包括一个与待检测文本对应的最终连通域。

图7为本公开至少一实施例提供的一种对应于图2中所示的步骤S400的示例性流程图。以下，结合图6所示的文本特征图像对图7所示的步骤S400进行详细说明。

例如，如图7所示，将至少一个连通域沿远离文本特征图像的第一边缘的方向进行扩展，以得到与至少一个连通域一一对应的至少一个最终连通域，即步骤S400，包括步骤S410至步骤S450。

步骤S410：提取当前的连通域中的在垂直于文本特征图像的第一边缘的第一方向上距离文本特征图像的第一边缘最远的正像素作为第一正像素。

例如，在步骤S410中，当前的连通域为基础区域中的至少一个连通域。例如，如图6所示，当前的连通域中的在垂直于第一边缘(即图6所示的文本特征图像的下边缘)的第一方向(即自下而上的列方向)上距离文本特征图像的第一边缘最远的正像素包括像素点1-5，从而，将像素点1-5均作为第一正像素。例如，如图6所示，第一正像素(即像素点1-5)位于同一行。例如，如图6所示，像素点1-2属于同一个连通域，因此像素点1-2具有相同的根节点；像素点3-5属于同一个连通域，因此像素点3-5具有相同的根节点(不同于像素点1-2的根节点)。

步骤S420：将文本特征图像中在第一正像素的远离文本特征图像的第一边缘的一侧且与第一正像素直接相邻的像素作为第一邻近像素。

例如，如图6所示，将像素点1-5上一行的分别与像素点1-5直接相邻的五个像素点作为第一邻近像素。例如，如图6所示，第一邻近像素包括像素点6-8等；其中，像素点6与像素点1直接相邻，像素点7与像素点2直接相邻，像素点8与像素点4直接相邻，像素点3、5的第一邻近像素均未给出附图标记。

步骤S430：响应于第一邻近像素为正像素且第一正像素与第一邻近像素之间具有正连接关系，将第一邻近像素的根节点的值修改为第一正像素的根节点的值，并将第一邻近像素加入第一邻近像素集合。

例如，在一些实施例中，当第一正像素与第一邻近像素之间的连接概率大于连接概率阈值时，两者之间具有正连接关系。

例如，在一些实施例中，第一邻近像素集合具有与前述索引集合相似的形式，即该第一邻近像素集合中的每个像素也具有对应的根节点。例如，在一些示例中，如图6所示，像素点6为正像素且像素点6与像素点1具有正连接关系，从而可以将像素点6加入第一邻近像素集合，且像素点6的根节点的值与像素点1的根节点的值相同。类似地，像素点7也可以加入第一邻近像素，且像素点7的根节点的值与像素点2的根节点的值相同，即与像素点1和6的根节点的值相同；像素点8也可以加入第一邻近像素，且像素点8的根节点的值与像素点3的根节点的值相同。

步骤S440：在平行于文本特征图像的第一边缘的第二方向上对第一邻近像素集合进行扩展。

例如，在一些实施例中，步骤S440可以包括：将在平行于文本特征图像的第一边缘的第二方向上与第一邻近像素集合中的任一像素直接相邻且具有正连接关系的正像素加入第一邻近像素集合，直到无法继续在平行于文本特征图像的第一边缘的方向上对第一邻近像素集合进行扩展为止。

例如，在一些实施例中，步骤S440中的正连接关系的判别条件与前述步骤S430中的判别条件相同。

例如，在一些示例中，如图6所示，像素点9为正像素且像素点9与像素点6具有正连接关系，从而可以将像素点9加入第一邻近像素集合，且像素点9的根节点的值与像素点6的根节点的值相同；进一步地，像素点10为正像素且像素点10与像素点9具有正连接关系，从而可以将像素点10也加入第一邻近像素集合，且像素点10的根节点的值与像素点9的根节点的值相同。例如，如图6所示，第一邻近像素集合在扩展前仅包括像素点6-8，经过扩展后则包括像素点6-11。其中，像素点6-7和9-11具有相同的根节点。

步骤S450：将当前的连通域扩展为包括第一邻近像素集合中的全部像素，并继续将当前的连通域沿远离文本特征图像的第一边缘的方向进行扩展，直到无法继续扩展为止。

例如，如图6所示，基础区域中的包括像素点1-2的连通域(第一连通域)经过第一次扩展后还包括像素点6-11，包括像素点3-5的连通域(第二连通域)经过第一次扩展后还包括像素点8。

例如，可以基于第一次扩展后的连通域，重复步骤S410值步骤S450的操作以完成对连通域的第二次扩展。例如，在第二次扩展时，可以将第一次扩展时得到的第一邻近像素集合中的像素(即像素点6-11)作为第一正像素。例如，如图6所示，经过第二次扩展后，第一连通域还包括像素点12-14，第二连通域还包括像素点15-16。

以此类推，经过多次扩展后，如图6所示，第一连通域在基本区域之外还包括像素点6-14、17和19-20，第二连通域在基本区域之外还包括像素点8、15-16、18和21。由此，可以分别得到两个最终连通域。

需要说明的是，在本公开的实施例中，图6所示的文本特征图像中的连通域的扩展时示例性的，而非限制性的。例如，在一些实施例中，基础区域中可以向外(向基本区域外)进行扩展的连通域可以是一个或多个，而不限于图6所示的两个。例如，在一些实施例中，基础区域中的两个或两个以上的连通域向外进行扩展后，可以共同形成一个最终连通域，而不限于每个连通域对应一个最终连通域。例如，在一些实施例中，基础区域内还包括经过步骤S400的处理后面积不发生变化的连通域，例如不能向外进行扩展(即不能沿远离文本特征图像的第一边缘的方向进行扩展)的连通域，这样的连通域在经过步骤S400的处理后也作为最终连通域。

步骤S500：确定至少一个最终连通域对应的至少一个特征框，并将至少一个特征框映射到文本图像中，以得到至少一个文本框，其中，该至少一个文本框包括待检测文本的文本框。

例如，在一些实施例中，确定至少一个最终连通域对应的至少一个特征框，可以包括：使用轮廓检测算法对至少一个最终连通域进行轮廓检测，以得到至少一个最终连通域的轮廓；使用最小外接矩形算法对至少一个最终连通域的轮廓进行处理，以得到至少一个最终连通域对应的至少一个特征框。例如，轮廓检测算法可以包括但不限于OpenCV的轮廓检测(findContours)函数；例如，最小外接矩形算法可以包括但不限于OpenCV的最小外接矩形(minAreaRect)函数。

例如，在本公开的实施例中，特征框可以为矩形框，相应地，文本框也可以为矩形框。需要说明的是，本公开的实施例包括但不限于此。

例如，在一些实施例中，如图3所示，文本特征图像中的至少一个特征框映射到文本图像中后，可以得到至少一个文本框(如图3中的实线框所示)。例如，映射包括尺度变换和投影两个过程。例如，以文本特征图像的尺寸大小为文本图像的尺寸大小的1/(2×2)为例，在尺度变换过程中，将特征框的宽度和高度分别扩大两倍；在投影过程中，保持文本框与文本图像的相对位置和特征框与文本特征图像的相对位置一致，从而可以得到对应的文本框。例如，如图3所示，每个文本框中包括一个文本。

例如，如图3所示，在本公开的实施例提供的文本检测方法中，仅需要对文本图像中的待检测文本(如图3中的“Tecent”所示)附近的部分区域进行检测，从而仅得到文本图像中部分文本的文本框(包括待检测文本的文本框)。相比之下，图1所示的文本图像对应的常用的文本检测方法，需要对文本图像的整个区域进行遍历式的检测，以得到文本图像中全部文本的文本框。因此，本公开的实施例提供的文本检测方法，可以减少文本检测的运算量(即减少遍历次数)，减少文本检测的响应时间。

步骤S600：从至少一个文本框中确定出待检测文本的文本框。

例如，在一些实施例中，文本图像由设置在点译笔的笔身上的摄像头拍摄得到，而待检测文本由点译笔的笔尖选择。由于点译笔的笔尖和摄像头的相对位置是固定的，因此，点译笔的笔尖(假设在文本图像所在平面虚拟出一个点译笔的笔尖，即虚拟笔尖)与摄像头拍摄得到的文本图像的相对位置也是固定的。从而，可以基于上述原理实现步骤S600。

图8为本公开至少一实施例提供的一种对应于图2中所示的步骤S600的示例性流程图，图9为本公开至少一实施例提供的一种对应于图2中所示的步骤S600的操作示意图。以下，结合图9对图8所示的步骤S600进行详细说明。

例如，如图8所示，从至少一个文本框中确定出待检测文本的文本框，即步骤S600包括步骤S610至步骤S620。

步骤S610：在文本图像中构建虚拟检测框；

步骤S620：计算虚拟检测框与各个文本框的重叠面积，将与虚拟检测框具有最大重叠面积的文本框作为待检测文本的文本框。

例如，在一些实施例中，如图9所示，可以先在文本图像(如图9中灰色实线框所示)虚拟出一个点译笔的笔尖，即虚拟笔尖。例如，在一些示例中，虚拟笔尖(如图9中黑色圆点所示)可以设置在文本图像的第一边缘上，但不限于此；例如，在另一些示例中，虚拟笔尖可以设置在文本图像外，且靠近第一边缘。例如，如图9所示，虚拟笔尖一般可以设置在文本图像的第一边缘的中垂线上，或者可以设置在文本图像的第一边缘的中垂线附近，本公开的实施例对此不作限制。应当理解的是，虚拟笔尖可以根据实际应用需求进行设置，本公开的实施例对此不作限制。

然后，以虚拟笔尖为虚拟检测框的底边中点，构建一个高度为H、宽度为W的虚拟检测框(如图9中虚线框所示)。例如，在一些实施例中，H＝H1+H2，其中，H1表示虚拟笔尖与文本图像中的各个文本框的中心在垂直于第一边缘的第一方向(即列方向)上的距离的最小值，H2为预先设置的高度数值；例如，H2可以设置为例如30个像素的高度值，但不限于此。例如，在一些实施例中，宽度W为预先设置的宽度数值；例如，W可以设置为例如60个像素的宽度值，但不限于此。应当理解的是，H2和W可以根据实际应用需求进行设置，本公开的实施例对此不作限制。

例如，在一些实施例中，在确定出待检测文本的文本框，本公开的实施例提供的文本检测方法，还可以进一步包括：基于待检测文本的文本框，对待检测文本进行文本识别处理。例如，可以采用常用的文本处理方法进行文本识别处理，本公开的实施例对此不作限制。例如，常用的文本处理方法可以包括但不限于使用神经网络(例如多目标纠正注意网络(MORAN)等)进行文本识别处理。

例如，在实际应用中，还可以基于文本识别处理的结果，进行文本翻译，以得到并输出待检测文本的翻译结果。例如，使用词典数据库对文本识别处理的结果进行索引，以检索得到翻译结果。例如，待检测文本的翻译结果可以通过显示器进行显示，也可以通过扬声器等进行语音输出。

需要说明的是，在本公开的实施例中，上述文本检测方法的流程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行。虽然上文描述的文本检测方法的流程包括特定顺序出现的多个操作，但是应该清楚地了解，多个操作的顺序并不受限制。上文描述的文本检测方法可以执行一次，也可以按照预定条件执行多次。

需要说明的是，在本公开的实施例中，文本检测神经网络以及文本检测神经网络中的各种功能模块和功能层等均可以采用软件、硬件、固件或其任意组合等方式实现，从而执行相应的处理过程。

本公开的实施例提供的文本检测方法，可以基于预先设定的基础区域，采用连通域的思想进行文本检测，由此可以减少文本检测的运算量(即减少遍历次数)，减少文本检测的响应时间，该文本检测方法适用于点译笔，可以提高点译笔的处理速度，改善用户使用体验。

本公开至少一实施例还提供一种文本检测装置。图10为本公开至少一实施例提供的一种文本检测装置的示意性框图。

例如，如图10所示，文本检测装置1000包括存储器1001和处理器1002。应当理解的是，图10所示的文本检测装置1000的组件只是示例性的，而非限制性的，根据实际应用需要，该文本检测装置1000还可以包括其他组件。

例如，存储器1001用于存储文本图像以及计算机可读指令；处理器1002用于读取文本图像，并运行计算机可读指令，计算机可读指令被处理器1002运行时执行根据上述任一实施例所述的文本检测方法中的一个或多个步骤。

例如，在一些实施例中，如图10所示，文本检测装置还可以包括图像采集元件1003。例如，图像采集元件1003用于采集文本图像。例如，图像采集元件1003即为上述文本检测方法的实施例中描述的图像采集装置或元件，例如，图像采集元件1003可以是各种类型的摄像头。

例如，在一些实施例中，文本检测装置1000可以为点译笔，但不限于此。例如，点译笔用于选择待检测文本。例如，图像采集元件1003可以设置在点译笔上，例如，图像采集元件1003可以为设置在点译笔上的摄像头。

需要说明的是，存储器1001和处理器1002也可以集成在点译笔中，也就是说，图像采集元件1003、存储器1001和处理器1002均可以集成在点译笔中，本公开的实施例包括但不限于此。

例如，文本检测装置1000还可以包括输出单元，输出单元用于输出待检测文本的识别结果和/或翻译结果。例如，输出单元可以包括显示器、扬声器等，显示器可以用于显示待检测文本的识别结果和/或翻译结果，扬声器可以用于将待检测文本的识别结果和/或翻译结果以语音的形式输出。例如，点译笔还可以包括通信模块，通信模块用于实现点译笔与输出单元之间的通信，例如，将翻译结果传输至输出单元。

例如，处理器1002可以控制文本检测装置1000中的其它组件以执行期望的功能。处理器1002可以是中央处理单元(CPU)、张量处理器(TPU)等具有数据处理能力和/或程序执行能力的器件。中央处理元(CPU)可以为X86或ARM架构等。GPU可以单独地直接集成到主板上，或者内置于主板的北桥芯片中。GPU也可以内置于中央处理器(CPU)上。

例如，存储器1001可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机可读指令，处理器1002可以运行所述计算机可读指令，以实现文本检测装置1000的各种功能。

例如，图像采集元件1003、存储器1001、存储器1230和输出单元等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信，无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。本公开对网络的类型和功能在此不作限制。

例如，关于文本检测装置1000执行文本检测处理的过程的详细说明可以参考文本检测方法的实施例中的相关描述，重复之处在此不再赘述。

本公开的实施例提供的文本检测装置的技术效果可以参考上述实施例中关于文本检测方法的相应描述，在此不再赘述。

本公开至少一实施例还提供一种存储介质。图11为本公开至少一实施例提供的一种存储介质的示意图。例如，如图11所示，在存储介质1100上可以非暂时性地存储一个或多个计算机可读指令1101。例如，当所述计算机可读指令1101由计算机执行时能够执行根据上文所述的文本检测方法中的一个或多个步骤。

例如，该存储介质1100可以应用于上述文本检测装置1000中，例如，其可以作为文本检测装置1000中的存储器1001。关于存储介质1100的说明可以参考文本检测装置100的实施例中对于存储器的描述，重复之处不再赘述。

本公开的实施例提供的存储介质的技术效果可以参考上述实施例中关于文本检测方法的相应描述，在此不再赘述。

对于本公开，有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)为了清晰起见，在用于描述本公开的实施例的附图中，层的厚度或区域的尺寸被放大或缩小，即这些附图并非按照实际的比例绘制。可以理解，当诸如层、膜、区域或基板之类的元件被称作位于另一元件“上”或“下”时，该元件可以“直接”位于另一元件“上”或“下”，或者可以存在中间元件。

(3)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅是本公开的示范性实施方式，而非用于限制本公开的保护范围，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围由所附的权利要求确定。

Claims

一种文本检测方法，包括：

基于文本图像，获取对应于所述文本图像的文本特征图像；

将所述文本特征图像中的靠近所述文本特征图像的第一边缘的部分区域作为基础区域，其中，所述文本特征图像的第一边缘对应于所述文本图像的第一边缘，所述文本图像中的待检测文本靠近所述文本图像的第一边缘，所述基础区域中的至少部分像素为正像素；

对所述基础区域中的至少部分正像素进行分组，以得到至少一个连通域；

将所述至少一个连通域沿远离所述文本特征图像的第一边缘的方向进行扩展，以得到与所述至少一个连通域对应的至少一个最终连通域；以及

确定所述至少一个最终连通域对应的至少一个特征框，并将所述至少一个特征框映射到所述文本图像中，以得到至少一个文本框，其中，所述至少一个文本框包括所述待检测文本的文本框。
根据权利要求1所述的文本检测方法，其中，在所述文本特征图像包括h行w列像素的情况下，所述基础区域包括h _base行w列像素，

其中，h、w、h _base均为正整数，且h _base/h≤1/2。
根据权利要求1或2所述的文本检测方法，其中，所述文本特征图像中的每个像素与直接相邻的像素之间具有连接概率；

对所述基础区域中的至少部分正像素进行分组，以得到所述至少一个连通域，包括：

基于并查集算法，根据所述基础区域中的所述至少部分正像素中的每个正像素与直接相邻的像素之间的连接概率，对所述基础区域中的所述至少部分正像素进行分组，以得到所述至少一个连通域。
根据权利要求3所述的文本检测方法，其中，基于所述并查集算法，根据所述基础区域中的所述至少部分正像素中的每个正像素与直接相邻的像素之间的连接概率，对所述基础区域中的所述至少部分正像素进行分组，以得到所述至少一个连通域，包括：

基于所述基础区域中的所述至少部分正像素构建索引集合，其中，所述索引集合包括所述基础区域中的所述至少部分正像素，且在所述索引集合中，每个正像素对应一个根节点，每个正像素的根节点的初始值为其自身；

响应于所述索引集合中的每个正像素的任一直接相邻的像素为正像素且所述每个正像素与所述直接相邻的像素之间具有正连接关系，将所述直接相邻的像素的根节点的值设置为所述每个正像素的根节点的值；以及

将具有相同根节点的值的每组正像素作为一个连通域，以得到所述至少一个连通域。
根据权利要求4所述的文本检测方法，其中，在所述基础区域中的每个正像素与直接相邻的像素之间的连接概率大于连接概率阈值情况下，确定所述每个正像素与所述直接相邻的像素之间具有所述正连接关系。
根据权利要求4或5所述的文本检测方法，其中，所述基础区域中的每个正像素的直接相邻的像素包括：

在垂直于所述文本特征图像的第一边缘的第一方向上与所述每个正像素直接相邻的像素，以及在平行于所述文本特征图像的第一边缘的第二方向上与所述每个正像素直接相邻的像素。
根据权利要求4-6任一项所述的文本检测方法，其中，所述基础区域中的每个正像素具有四个直接相邻的像素。
根据权利要求4-7任一项所述的文本检测方法，其中，将所述至少一个连通域沿远离所述文本特征图像的第一边缘的方向进行扩展，以得到与所述至少一个连通域对应的所述至少一个最终连通域，包括：

提取当前的连通域中的在垂直于所述文本特征图像的第一边缘的第一方向上距离所述文本特征图像的第一边缘最远的正像素作为第一正像素；

将所述文本特征图像中在所述第一正像素的远离所述文本特征图像的第一边缘的一侧且与所述第一正像素直接相邻的像素作为第一邻近像素；

响应于所述第一邻近像素为正像素且所述第一正像素与所述第一邻近像素之间具有正连接关系，将所述第一邻近像素的根节点的值修改为所述第一正像素的根节点的值，并将所述第一邻近像素加入第一邻近像素集合；

在平行于所述文本特征图像的第一边缘的第二方向上对所述第一邻近像素集合进行扩展；以及

将当前的连通域扩展为包括所述第一邻近像素集合中的全部像素，并继续将当前的连通域沿远离所述文本特征图像的第一边缘的方向进行扩展，直到无法继续扩展为止。
根据权利要求8所述的文本检测方法，其中，在平行于所述文本特征图像的第一边缘的第二方向上对所述第一邻近像素集合进行扩展，包括：

将在平行于所述文本特征图像的第一边缘的第二方向上与所述第一邻近像素集合中的任一像素直接相邻且具有正连接关系的正像素加入所述第一邻近像素集合，直到无法继续在平行于所述文本特征图像的第一边缘的方向上对所述第一邻近像素集合进行扩展为止。
根据权利要求8或9所述的文本检测方法，其中，所述至少一个最终连通域包括所述基本区域内的无法沿远离所述文本特征图像的第一边缘的方向进行扩展的连通域。
根据权利要求3-10任一项所述的文本检测方法，其中，基于所述文本图像，获取对应于所述文本图像的所述文本特征图像，包括：

使用文本检测神经网络对所述文本图像进行处理，以得到所述文本特征图像，并得到所述文本特征图像中的每个像素与直接相邻的像素之间的连接概率。
根据权利要求11所述的文本检测方法，其中，所述文本检测神经网络包括第一至第六卷积模块、第一至第五下采样模块、第一至第四上采样模块、以及分类器；

使用所述文本检测神经网络对所述文本图像进行处理，以得到所述文本特征图像，并得到所述文本特征图像中的每个像素与直接相邻的像素之间的连接概率，包括：

使用第一卷积模块对所述文本图像进行卷积处理，以得到第一卷积特征图组；

使用第一下采样模块对所述第一卷积特征图组进行下采样处理，以得到第一下采样特征图组；

使用第二卷积模块对所述第一下采样特征图组进行卷积处理，以得到第二卷积特征图组；

使用第二下采样模块对所述第二卷积特征图组进行下采样处理，以得到第二下采样特征图组，且使用第五降维模块对所述第二卷积特征图组进行降维处理，以得到第五降维特征图组；

使用第三卷积模块对所述第二下采样特征图组进行卷积处理，以得到第三卷积特征图组；

使用第三下采样模块对所述第三卷积特征图组进行下采样处理，以得到第三下采样特征图组，且使用第四降维模块对所述第三卷积特征图组进行降维处理，以得到第四降维特征图组；

使用第四卷积模块对所述第三下采样特征图组进行卷积处理，以得到第四卷积特征图组；

使用第四下采样模块对所述第四卷积特征图组进行下采样处理，以得到第四下采样特征图组，且使用第三降维模块对所述第四卷积特征图组进行降维处理，以得到第三降维特征图组；

使用第五卷积模块对所述第四下采样特征图组进行卷积处理，以得到第五卷积特征图组；

使用第五下采样模块对所述第五卷积特征图组进行下采样处理，以得到第五下采样特征图组，且使用第二降维模块对所述第五卷积特征图组进行降维处理，以得到第二降维特征图组；

使用第六卷积模块对所述第五下采样特征图组进行卷积处理，以得到第六卷积特征图组；

使用第一上采样模块对所述第六卷积特征图组进行上采样处理，以得到第一上采样特征图组；

使用第一降维模块对所述第一上采样特征图组进行降维处理，以得到第一降维特征图组；

对所述第一降维特征图组和所述第二降维特征图组进行融合处理，以得到第一融合特征图组；

使用第二上采样模块对所述第一融合特征图组进行上采样处理，以得到第二上采样特征图组；

对所述第二上采样特征图组和所述第三降维特征图组进行融合处理，以得到第二融合特征图组；

使用第三上采样模块对所述第二融合特征图组进行上采样处理，以得到第三上采样特征图组；

对所述第三上采样特征图组和所述第四降维特征图组进行融合处理，以得到第三融合特征图组；

使用第四上采样模块对所述第三融合特征图组进行上采样处理，以得到第四上采样特征图组；

对所述第四上采样特征图组和所述第五降维特征图组进行融合处理，以得到所述第四融合特征图组；

使用分类器对所述第四融合特征图组进行分类处理，以得到文本分类预测图像和连接概率预测图像；以及

基于所述文本分类预测图像和所述连接概率预测图像，得到所述文本特征图像，并得到所述文本特征图像中的每个像素与直接相邻的像素之间的连接概率。
根据权利要求12所述的文本检测方法，其中，所述文本分类预测图像中的每个像素具有类型概率，所述连接概率预测图像中的每个像素具有所述像素与直接相邻的像素之间的连接概率；

基于所述文本分类预测图像和所述连接概率预测图像，得到所述文本特征图像，并得到所述文本特征图像中的每个像素与其相邻像素之间的连接概率，包括：

将所述文本分类预测图像中的类型概率大于或等于类型概率阈值的像素作为正像素，将所述文本分类预测图像中的类型概率小于所述类型概率阈值的像素作为负像素，以得到所述文本特征图像，所述文本特征图像中的每个像素与直接相邻的像素之间的连接概率可以对应地从连接概率预测图像中查询得到。
根据权利要求1-13任一项所述的文本检测方法，其中，确定所述至少一个最终连通域对应的所述至少一个特征框，包括：

使用轮廓检测算法对所述至少一个最终连通域进行轮廓检测，以得到所述至少一个最终连通域的轮廓；使用最小外接矩形算法对所述至少一个最终连通域的轮廓进行处理，以得到所述至少一个最终连通域对应的所述至少一个特征框。
根据权利要求1-14任一项所述的文本检测方法，还包括：从所述至少一个文本框中确定出所述待检测文本的文本框。
根据权利要求15所述的文本检测方法，其中，从所述至少一个文本框中确定出所述待检测文本的文本框，包括：

在所述文本图像中构建虚拟检测框；以及

计算所述虚拟检测框与各个文本框的重叠面积，将与所述虚拟检测框具有最大重叠面积的文本框作为所述待检测文本的文本框。
根据权利要求15或16所述的文本检测方法，还包括：基于所述待检测文本的文本框，对所述待检测文本进行识别处理。
根据权利要求1-17任一项所述的文本检测方法，还包括：使用点译笔的图像采集元件采集所述文本图像；

其中，在采集所述文本图像时，所述点译笔的笔尖点在所述待检测文本的靠近所述文本图像的第一边缘的一侧，

所述文本图像包括所述待检测文本。
一种文本检测装置，包括：

存储器，用于存储文本图像以及计算机可读指令；

处理器，用于读取所述文本图像，并运行所述计算机可读指令，所述计算机可读指令被所述处理器运行时执行根据权利要求1-18任一项所述的文本检测方法。
根据权利要求19所述的文本检测装置，还包括：

图像采集元件，用于采集所述文本图像。
根据权利要求20所述的文本检测装置，其中，所述文本检测装置为点译笔，其中，

所述图像采集元件设置在所述点译笔上，所述点译笔用于选择所述待检测文本。
一种存储介质，非暂时性地存储计算机可读指令，其中，当所述计算机可读指令由计算机执行时能够执行根据权利要求1-18任一项所述的文本检测方法。