WO2022012121A1

WO2022012121A1 - 版面分析方法、阅读辅助设备、电路和介质

Info

Publication number: WO2022012121A1
Application number: PCT/CN2021/092338
Authority: WO
Inventors: 李林峰; 蔡海蛟; 冯歆鹏; 周骥
Original assignee: 上海肇观电子科技有限公司
Priority date: 2020-07-13
Filing date: 2021-05-08
Publication date: 2022-01-20
Also published as: JP7132654B2; KR102399508B1; KR20220008224A; JP2022017202A; EP3940589A1; CN111832476A; EP3940589B1; CN111832476B

Abstract

提供一种版面分析方法、芯片电路、阅读辅助设备、电子设备以及计算机可读存储介质。该版面分析方法包括：获取图像中的多个文字行的坐标信息；根据所述坐标信息创建所述图像的版面模型；基于该版面模型分析所述文字行的版面结构；以及基于该版面结构确定文字行相对于彼此的顺序。

Description

版面分析方法、阅读辅助设备、电路和介质

技术领域

本公开涉及数据处理领域，特别涉及一种版面分析方法、芯片电路、阅读辅助设备、电子设备以及计算机可读存储介质。

背景技术

相关技术中存在对图像进行版面分析的技术，它利用图像处理、人工智能等技术完成印刷品图像文件中的文字域的分类和识别，以方便后续进行例如电子书的生成以及有声读物的生成等应用。已知的技术通常基于印刷品的原图进行版面分析，导致处理速度较慢。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

根据本公开的一些实施例，提供了一种版面分析方法，包括：获取图像中的多个文字行的坐标信息；根据该坐标信息创建图像的版面模型；基于该版面模型分析文字行的版面结构；以及基于该版面结构确定文字行相对于彼此的顺序。

根据本公开的一些实施例，提供了一种芯片电路，包括：被配置为执行根据本公开实施例中所述的方法的电路单元。

根据本公开的一些实施例，提供了一种阅读辅助设备，包括：如前所述的芯片电路；以及图像传感器，被配置为获取所述图像。

根据本公开的一些实施例，提供了一种电子设备，包括：处理器；以及存储程序的存储器，该程序包括指令，指令在由处理器执行时使处理器执行本公开中所述的方法。

根据本公开的一些实施例，提供了一种存储程序的计算机可读存储介质，该程序包括指令，指令在由电子设备的处理器执行时，致使电子设备执行本公开中所述的方法。

根据在下文中所描述的实施例，本公开的这些和其它方面将是清楚明白的，并且将参考在下文中所描述的实施例而被阐明。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1是示出根据示例性实施例的可以应用本文描述的各种方法的示例性应用场景的示意图；

图2是示出可以在图1的应用场景中用于识别图像中的文字并语音播报所识别的文字的示例性方法的流程图；

图3是示出根据示例性实施例的版面分析方法的流程图；

图4是示出根据示例性实施例的包含文字区域的图像的示意图；

图5是示出根据示例性实施例的为图4所示的图像创建的版面模型的示意图；

图6是示出根据示例性实施例的分析文字行的版面结构的方法的流程图；

图7是示出根据示例性实施例的通过将图5中的矩形块进行宽度调整以形成多个连通区域所得到的版面模型的示意图；

图8是示出图6的方法中分析多个连通区域的空间布局的示例过程的流程图；

图9是示出图8的方法中选择性校正多个连通区域的取向的示例过程的流程图；

图10是示出根据示例性实施例的通过将图7所示版面模型进行角度校正后得到的版面模型的示意图；

图11是示出图8的方法中选择性去除与版面模型两侧边中任一侧直接相邻的连通区域的示例过程的流程图；

图12是示出根据示例性实施例的对图10所示版面模型进行垂直投影的示意图；

图13是示出根据图12的投影结果从图10所示版面模型中去除代表不完整页面的连通区域后得到的版面模型的示意图；

图14-17分别是示出根据示例性实施例的对图13所示的版面模型进行投影分割的示意图；

图18是示出根据示例性实施例的包括最终得到的一组分割区带的版面模型的示意图；

图19是示出将图18所示版面模型调整为原倾斜状态并按阅读顺序对分割区带进行排序后的示意图；

图20是示出根据示例性实施例的将多个连通区域与分割区带进行匹配并排序后的示意图；

图21是示出根据示例性实施例的根据版面分析结果对图4的图像中的文字行进行排序的示意图；

图22是示出根据示例性实施例的确定文字行主版面类型的示例过程的流程图；

图23是示出根据示例性实施例的选择性地舍弃次版面类型文字的示例过程的流程图；

图24是示出根据示例性实施例的阅读辅助设备的结构框图；以及

图25是示出能够应用于示例性实施例的示例性计算设备的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。术语“基于”是指至少部分地基于。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

在本公开中，空间相对术语“水平”和“垂直”与版面模型结合使用。在这样的上下文中，“水平方向”是指版面模型的行方向，而“垂直方向”是指版面模型的列方向。另外，空间相对术语“上”、“下”、“左”、“右”也与版面模型结合使用。“上”、“下”、“左”、“右”指示，当读物(例如，书籍或杂志)相对于读者被正确地取向以供阅读时，从图像传感器(例如由读者佩戴或握持)的视角所观察到的该读物的图像(或等同地，该图像的版面模型)上的方位。因此，“上下方向”基本上对应于版面模型的列方向，而“左右方向”基本上对应于版面模型的行方向。

对本公开的以下描述主要基于文字行相对于读者在基本左右方向延伸(即横版读物)的情况，但是本公开的技术方案不限于此。本公开的技术方案也适用于文字行相对于读者在基本上下方向延伸(即竖版读物)的情况，即本公开的方法也适用于竖版读物的情况。在横版的情况下，文字行为基本上左右方向(横向)延伸的文字序列，而在竖版的情况下，文字行为基本上上下方向(竖向)延伸的文字序列。

在阅读诸如书籍或杂志之类的读物时，视觉正常的人通过视觉捕获视野中的图像，通过大脑识别出图像中的文字区域并按照阅读顺序依次阅读该文字区域中的文字。然而，对于视障人士而言，可能需要依赖于阅读辅助设备对读物进行文字的识别和播报。在这种情况下，阅读辅助设备不仅需要对图像中的文字进行文字识别，还要通过一定算法对文字区域中的文字行的顺序进行判断以能够以正确的阅读顺序“阅读”该读物中的文字。

图1是示出根据示例性实施例的可以应用本文描述的各种方法的示例性应用场景100的示意图。如图1所示，该示例性场景100可以包括但不限于盲人阅读辅助、智能朗读等应用。诸如智能眼镜110之类的阅读辅助设备配备有文字识别装置，通过该文字识别装置实现对读物116中的包含一个或多个文字行114的文字区域进行拍摄。文字识别装置通过其内置的芯片和算法对其拍摄范围112内的文字进行识别和播报。

图2是示出可以在应用场景100中用于识别图像中的文字并语音播报所识别的文字的示例性方法200的流程图。如图2所示，该方法200包括以下步骤：采集图像并检测图像中的文字行区域(步骤210)；对图像中的文字行进行版面分析(步骤220)；以及对文字行中的文字进行识别并根据版面分析的结果对识别的文字进行语音播报(步骤230)。文字区域的检测(步骤210)和文字的识别(步骤230)可以通过各种方法实现，包括例如传统的图像处理算法(例如MSER)和/或深度学习方法等。

为了使得本公开的主题更为清晰，下面详细描述如何对图像中的文字行进行版面分析(步骤220)。将理解的是，上面关于图1和图2描述的应用场景100和方法200仅仅是示例性的，意味着根据本公开实施例的版面分析方法不限于上面描述的应用。

图3是示出根据本公开的示例性实施例的版面分析方法300的流程图。版面分析方法300可以用于实现图2中的步骤220。如图3所示，该版面分析方法300包括以下步骤：获取图像中的多个文字行的坐标信息(步骤310)，根据坐标信息创建图像的版面模型(步骤320)，基于版面模型分析文字行的版面结构(步骤330)以及基于版面结构确定文字行相对于彼此的顺序(步骤340)。

如从下文的描述将更清楚的，版面分析方法300不是在原图像的基础上进行操作，也无需进行语义分析，而是将包含文字的图像区域转化为模拟图像中的文字分布但结构更为简单的版面模型，进而对该版面模型中的数据进行空间布局分析。

在步骤310中，获取图像中的多个文字行的坐标信息。

由于本公开的示例性方法主要基于文字的坐标信息而非文字的原图像本身进行版面分析，因此在此步骤中，获取图像中的多个文字行的坐标信息，供后续处理使用。该图像可以是通过图像传感器获取的电子图像数据。根据一些实施例，图像传感器可以设置于用户的可穿戴设备或眼镜等物品上，例如在图1中所示的应用场景100中。

图4是示出根据示例性实施例的包含文字区域的图像400的示意图。如图4所示，该图像400可包含文字(可以包括各种国家和地区的文字、数字、字符、标点符号等)、图片等内容，其中示出了包含文字的文字行410。根据一些实施例，图像400可以是经过了预处理的图像，所述预处理例如可以包括但不限于颜色校正、模糊去除等等。

如前所述，文字区域的检测可以通过各种方法实现，例如图像处理算法(例如MSER)或深度学习方法。通过检测图像400中的文字区域，可得到图像400中各个文字行的坐标信息。文字行的坐标信息例如可以从其他机器(例如远程服务器或云计算设备)获得，也可以通过本地的检测算法来获得。根据一些实施例，获得的文字行的坐标信息可以存储在本地存储设备或存储介质中以供后续使用。如本文使用的，术语文字行是指连续的一行文字，其例如可以是左右方向上相邻文字间距小于阈值间距的文字的序列，或者是上下方向上相邻文字间距小于阈值间距的文字的序列。

根据一些实施例，一个文字行的坐标信息可以是包含该文字行的矩形(例如包含该文字行的最小外接矩形，或者将包含该文字行的最小外接矩形向上、下、左和/或右膨胀一定倍数后得到的矩形)的坐标信息。文字行的坐标信息例如可以包括该矩形的四个顶点的坐标信息，该文字行的坐标信息也可包括该矩形的任一顶点的坐标信息以及该矩形的高度信息和长度信息。然而，文字行的坐标信息定义不限于此，只要其能够代表文字行占据的空间位置和尺寸即可。

返回参考图3，在步骤320中，根据坐标信息创建图像的版面模型。如本文使用的，术语“版面模型”是指将包含文字的图像转化为模拟图像中的文字分布但结构更为简单的数据结构。

根据一些实施例，通过对数据结构中与该获取的坐标信息对应的数据元素填充数据值得到版面模型。该数据结构可以包括多个数据元素，填充有数据值的数据元素形成多个矩形块，该多个矩形块对应于多个文字行中的相应文字行。

根据一些实施例，该数据结构可以是存储器(例如，内存、缓存等)中的一个文件，或者是用像素表达的图像，也可以是一个表格或者数据阵列。该数据结构不限于任何具体的数据结构，只要其中的数据能够对图像中的文字行进行模拟即可。该数据结构的尺寸可以与图像尺寸相同，也可以具有相对于图像尺寸按照比例缩放的尺寸。例如，如果图像具有3840×2160的像素尺寸，则该数据结构(以及相应的版面模型)可以与图像具有相同尺寸(即，具有3840×2160个矩阵元素)。可替换地，该数据结构可以仅在水平方向上进行缩放(例如，具有1920×2160个矩阵元素)，可以仅在垂直方向上进行缩放 (例如，具有3840×1080个矩阵元素)，也可以在水平方向和垂直方向两者上进行缩放(例如，具有1920×1080个矩阵元素，或具有1280×1080个矩阵元素)等等。无论数据结构的尺寸与图像尺寸相同或具有相对于图像尺寸按照比例缩放的尺寸，该数据结构中的数据元素均可以与图像中的像素建立对应或映射关系。

图5是示出根据示例性实施例的为图4中的图像400创建的版面模型500的示意图。如图5所示，在数据结构中填充相应的数据值以使得填充有数据值的数据元素形成与图4中的文字行410相对应的矩形块510。在该示例中，版面模型500的尺寸与图像400的尺寸相同。

由填充了数据值的数据元素所形成的矩形块表示与其相对应的图像区域中存在文字，而与文字的语义或内容无关。根据一些实施例，该数据结构可以包括二维矩阵，例如，二维空白矩阵。二维空白矩阵是指矩阵元素的数据值均默认为“0”的二维矩阵。在创建图像400的版面模型500时，可以对该二维矩阵的与图像400中的文字行坐标信息对应的矩阵元素填充数据值“1”。然而该数据值不限于此，只要能区分在该区域中是否存在文字或文字行即可。例如，对于采用8比特数据元素的数据结构，可以向与图像400中的文字行坐标信息对应的数据元素填充数据值“255”。

返回参考图3，在步骤330中，基于版面模型分析文字行的版面结构。通过基于该版面模型来分析文字行的版面结构，无需对原图像进行操作。因此，可快速地实现文字行的版面结构的分析，提高了版面分析的效率。

图6是示出根据示例性实施例的用于实现步骤330的过程的流程图。如图6所示，该过程包括：选择性地调整多个矩形块的宽度(步骤610)；以及分析多个连通区域的空间布局(步骤620)。

在步骤610中，选择性地调整多个矩形块的宽度，以使得该多个矩形块被合并成彼此分离的多个连通区域。

图7是示出根据示例性实施例的通过将图5中的矩形块510进行宽度调整以形成多个连通区域710所得到的版面模型700的示意图。所得到的多个连通区域710对应于文字行的多个段落。因此，步骤610的操作可以称为段落划分。

根据一些实施例，选择性地调整多个矩形块的宽度。对于每个矩形块，如果该矩形块的宽度小于或等于该多个矩形块的代表性宽度，使该矩形块的宽度增大第一量。如果该矩形块的宽度大于该代表性宽度且小于或等于该代表性宽度的第一倍数，使该矩形块的宽度增大第二量。如果该矩形块的宽度大于该代表性宽度的第一倍数且小于或等于该代表性宽度的第二倍数，不调整该矩形块的宽度。如果该矩形块的宽度大于该代表性宽度的第二倍数，使该矩形块的宽度减小第三量。

根据一些实施例，在上述选择性地调整多个矩形块的宽度的步骤中，该代表性宽度可以为多个矩形块的子集的平均宽度，多个矩形块的该子集由该多个矩形块中除宽度大于阈值宽度百分位数的那些矩形块之外的矩形块组成。在这样的实施例中，在版面模型的多个矩形块中先过滤掉那些宽度较大(对应文字行中的字体较大，例如标题行等)的矩形块后，再计算剩余矩形块的平均宽度以作为该代表性宽度。其中，使其矩形块宽度大于阈值宽度百分位数的那些矩形块不参与平均宽度的计算，而不是去除该部分矩形块。例如，可以设置阈值宽度百分位数90％、95％等等，其具体数值根据实际应用具体设置即可，在此不做具体限定。这可以避免宽度过大的矩形块影响段落划分的准确性，例如，将本该划分为两段的段落合并成单个段落。

将理解的是，在本上下文中，对于文字行相对于读者在基本左右方向延伸(即横版读物)的情况，与文字行对应的矩形块的长度方向为基本左右延伸的方向，并且矩形块的宽度方向为与该基本左右延伸的方向基本垂直的方向(即基本上下延伸的方向)；而对于文字行相对于读者在基本上下方向延伸(即竖版读物)的情况，与文字行对应的矩形块的长度方向为基本上下延伸的方向，并且矩形块的宽度方向为与该基本上下延伸的方向基本垂直的方向(即基本左右延伸的方向)。因此，对于文字行相对于读者在基本左右方向延伸(即横版读物)的情况，该代表性宽度为字体上下方向的高度(即行高)；而对于文字行相对于读者在基本上下方向延伸(即竖版读物)的情况，该代表性宽度为字体左右方向的高度(即列宽)。

根据一些实施例，该代表性宽度也可以为上述多个矩形块的平均宽度。这可以简化段落划分的计算量，在一些情况下(例如，如果标题文字行的尺寸与正文文字行的尺寸接近)可以是适用的。

根据一些实施例，该第一量可以包括0.5倍。使该矩形块的宽度在宽度方向上的两端处均增大该矩形块的宽度的0.5倍。在一些实施例中，将该矩形块的四个顶点的坐标在其宽度方向上各自增加或减小0.5倍矩形块宽度的数值。应当理解，该第一量的具体数值可以根据实际应用具体设置，在此不做具体限定。

根据一些实施例，该第一倍数可以包括1.5倍。使该矩形块的宽度增大第二量包括：使该矩形块的宽度在宽度方向上的两端处均增大该代表性宽度的0.5倍。应当理解，该第一倍数和第二量的具体数值可以根据实际应用具体设置，在此不做具体限定。

根据一些实施例，该第二倍数可以包括2倍。使该矩形块的宽度减小第三量包括：使该矩形块的宽度在宽度方向上的两端处均减小该代表性宽度的0.5倍。应当理解，该第二倍数和第三量的具体数值可以根据实际应用具体设置，在此不做具体限定。

返回参考图6，在步骤620中，分析多个连通区域的空间布局。

图8是示出用于实现步骤620的示例过程的流程图。根据一些实施例，分析多个连通区域的空间布局可以包括：选择性地校正或不校正多个连通区域在版面模型中的取向(步骤810)；选择性地去除或不去除版面模型中在行方向上与版面模型的两侧边中任一侧边直接相邻的连通区域，以得到各选定连通区域(步骤820)；以及对各选定连通区域进行投影分割，以得到一组分割区带和该分割区带相对于彼此的顺序(步骤830)。

在步骤810中，选择性地校正或不校正多个连通区域在版面模型中的取向。

根据一些实施例，选择性地校正或不校正所述多个连通区域在所述版面模型中的取向可以包括：确定该多个连通区域相对于版面模型的行方向和列方向中的任一个是否处于倾斜状态；以及如果确定该多个连通区域处于倾斜状态，旋转该多个连通区域一校正角度以使得该多个连通区域不处于倾斜状态。校正倾斜状态的操作对于诸如图1所示的应用场景100之类的应用而言尤其是有利的。在这些应用中，读者通常手持书本或其他读物，图像传感器获取的图像中的文字区域往往是倾斜的。通过将多个连通区域旋转该校正角度以使得该多个连通区域不处于倾斜状态，可以大大提高版面分析的准确性。这提供了相对于常规版面分析技术的优点。在常规版面分析技术中，分析对象通常是例如通过扫描仪扫描得到的平整图像，其中文字区域没有倾斜。因此，这样的常规技术可能不能适用于辅助阅读的场景。

根据一些实施例，确定该多个连通区域相对于版面模型的行方向和列方向中的任一个是否处于倾斜状态可以通过以下过程来实现。首先，在该多个连通区域中搜索特定连通区域，其中该特定连通区域的最小外接矩形在该多个连通区域的最小外接矩形中具有最大面积。然后，确定该特定连通区域的最小外接矩形的一边是否平行于该行方向和列方向中的任一个。如果确定该特定连通区域的最小外接矩形的所述边不平行于该行方向和列方向中的任一个，确定该多个连通区域处于倾斜状态。如果确定该特定连通区域的最小外接矩形的所述边平行于该行方向和列方向中的任一个，确定该多个连通区域不处于倾斜状态。

图9是示出图8的方法中选择性校正多个连通区域的取向的示例过程的流程图。如图9所示，在步骤910中，在选择性地调整多个矩形块的宽度后所得到的多个连通区域中，确定其最小外接矩形具有最大面积的特定连通区域。如果该特定连通区域的最小外接矩形的一边不平行于行方向或列方向(步骤920，“否”)，将多个连通区域旋转一校正角度以使得该特定连通区域的最小外接矩形的一边平行于行方向或列方向(步骤930)；否则(步骤920，“是”)不做校正处理。

图10是示出根据示例性实施例的通过将图7所示版面模型700进行角度校正后得到的版面模型的示意图。根据一些实施例，在该多个连通区域不处于倾斜状态的情况下，将该多个连通区域的最小外接矩形均围绕其质心(即中心点)以相同的角度和方向进行旋转，以使得该特定连通区域的最小外接矩形的一条边平行于行方向或列方向。

根据一些实施例，可以对特定连通区域的最小外接矩形应用例如霍夫变换法进行倾斜角检测，以得到该特定连通区域的倾斜角，并在该倾斜角大于或等于预设的第一倾斜角阈值(例如5°)的情况下，才对该多个连通区域进行倾斜校正，并记录下在校正过程中该多个连通区域的旋转方向和角度。

将理解的是，上面描述的倾斜校正方法仅仅是示例性的，在其他实施例中，可以采用任何其他适当的校正方法。

返回参考图8，在步骤820中，选择性地去除或不去除版面模型中在行方向上与版面模型的两侧边中任一侧边直接相邻的连通区域，以得到各选定连通区域。

在一些情况下，还需要实现对杂志、书本等读物的被折叠或未拍摄完整的不完整页面的过滤，从而避免不完整页面中的文字行在后续过程中被文字识别和播报。针对这些情况，根据一些实施例，如果该多个连通区域不处于倾斜状态，则对该版面模型执行垂直投影分割。然后，取决于垂直投影分割的结果，从该多个连通区域中选择性地去除或不去除在行方向上与该版面模型的两侧中任一侧直接相邻的连通区域，从而得到各选定连通区域。如本文使用的，短语“连通区域与版面模型的一侧直接相邻”是指该连通区域与版面模型的该侧之间没有其他的连通区域。

图11是示出图8的方法中对选择性去除与版面模型两侧边中任一侧直接相邻的连通区域的示例过程的流程图。通过图11所示的过程，将代表不完整页面中的段落的连通区域从版面模型中过滤掉。如图11所示，首先对该版面模型执行垂直投影分割(步骤1110)。确定通过该垂直投影分割是否从该版面模型分割出至少两个区带(步骤1120)，其中该至少两个区带包含所述多个连通区域。如果确定从该版面模型未分割出至少两个区带(步骤1120，“否”)，则不执行该去除(步骤1180)。如果确定从该版面模型分割出至少两个区带(步骤1120，“是”)，确定该至少两个区带在行方向上的相应有效尺寸(步骤1130)，并且对于该至少两个区带中在行方向上与该版面模型的两侧中任一侧直接相邻的每个侧边区带，执行以下操作：如果从该版面模型分割出两个区带(步骤1140，“是”)，并且该侧边区带在行方向上的有效尺寸小于该相应有效尺寸中的最大尺寸的第一阈值百分比且小于该两个区带中另一区带在行方向上的有效尺寸的第二阈值百分比(步骤1150，“是”)，去除该侧边区带中的连通区域(步骤1170)，否则不去除该侧面区域中的连通区域(步骤1180)；以及如果从该版面模型分割出多于两个区带(步骤1140，“否”)，并且该侧边区带在行方向上的有效尺寸小于所述相应有效尺寸中的最大尺寸的第三阈值百分比且小于各区带中与该侧边区带直接相邻的区带在行方向上的有效尺寸的第四阈值百分比(步骤1160，“是”)，去除该侧边区带中的连通区域(步骤1170)，否则不去除该侧边区域中的连通区域(步骤1180)。

如本文使用的，短语“区带与版面模型的一侧边直接相邻”是指该区带与版面模型的该侧边之间没有其他的区带。

如本文使用的，区带在行方向上的有效尺寸是指该区带中的连通区域在行方向上的尺寸，例如这些连通区域的最小外接矩形在行方向上的尺寸。在一些实施例中，区带在行方向上的有效尺寸可以是该区带中的所有连通区域在行方向上的尺寸的平均值。

通过上述步骤，可以实现对杂志、书本等读物的被折叠或未拍摄完整的不完整页面的过滤，从而避免不完整页面中的文字行在后续过程中被文字识别和播报，导致阅读内容的混乱。这可以大大提升版面分析的准确性，从而改善用户体验。

根据一些实施例，该第一阈值百分比小于该第二阈值百分比，并且该第三阈值百分比等于该第四阈值百分比。

根据一些实施例，例如该第一阈值百分比为60％，该第二阈值百分比为70％；该第三阈值百分比为70％，该第四阈值百分比为70％。应当理解，该第一阈值百分比、第二阈值百分比、第三阈值百分比和第四阈值百分比的具体数值可以根据实际应用具体设置，在此不做具体限定。

应当理解的是，“水平投影分割”和“垂直投影分割”本身是已知的文本分割技术。水平投影分割涉及在二维图像中搜索满足预定条件的像素行作为水平分界线。在二值化图像的情况下，这样的像素行可以是像素值之和等于零的像素行。垂直投影分割涉及在二维图像中搜索满足预定条件的像素列作为垂直分界线。在二值化图像的情况下，这样的像素列可以是像素值之和等于零的像素列。在本公开的一些实施例中，版面模型的数据结构可以为二维矩阵形式，并且像素值为该二维矩阵的矩阵元素的数据值。

图12是示出根据示例性实施例的对图10所示版面模型进行垂直投影的示意图。为了便于直观地理解，图12示出了指示每个数据列的数据元素的数据值之和的波形1210、指示连接该波形1210的波峰和波谷的连线1220、以及垂直分界线1230。如图12所示，对于垂直分界线1230所对应的数据列，数据元素的数据值之和为最小值(例如，零)，因此该数据列可以被选择作为垂直分界线。类似地，对于位于垂直分界线1230右侧的若干数据列，它们中的每一个的数据元素的数据值之和也为最小值，并且因此这些数据列中的任一个也可以被选择作为垂直分界线。

图13是示出根据图12的投影结果从图10所示版面模型中去除代表不完整页面的连通区域后得到的版面模型的示意图。如图13所示，位于图12中最右侧的代表不完整页面中段落的连通区域已经被去除。

根据一些实施例，在对版面模型执行垂直投影分割之前，可以适当地对文字行进行左右方向的尺寸调整，以便提高去除不完整页面的准确性。对于确定为横版类型的文字行所对应的每个矩形块，可以使该矩形块的长度在长度方向上的两端处均增大若干数据元素。对于确定为竖版类型的文字行所对应的每个矩形块，可以使该矩形块的宽度在宽度方向上的两端处均增大若干数据元素。上述若干数据元素例如为0.5倍代表性宽度等。将理解的是，对于矩形块而言，长度通常大于宽度。在一些示例中，版面类型可以是默认的类型(例如，默认为横版)。在另外的示例中，用户也可以通过手动切换来设置版面类型。例如，用户可以将默认的版面类型改变为竖版。在执行垂直投影分割以去除不完整页面之前，通过适当地对文字行进行左右方向的尺寸调整，能够提高去除不完整页面的准确性。这是因为左右方向的尺寸调整使得代表位于同一页的段落的连通区域难以通过垂直投影分割从版面模型中分割出来，从而减少被错误地去除的几率。

返回参考图8，在步骤830中，对各选定连通区域进行投影分割，以得到一组分割区带和该分割区带相对于彼此的顺序。

根据一些实施例，在对该版面模型的不完整页面进行过滤之后，对该版面模型的各选定连通区域递归地和交替地执行水平投影分割和垂直投影分割，以便从该版面模型分割出一组分割区带，并基于阅读顺序规则，确定该一组分割区带中的各个分割区带相对于彼此的顺序。

根据一些实施例，对该各选定连通区域递归地和交替地执行水平投影分割和垂直投影分割可以包括循环地执行以下操作：对通过水平投影分割得到的水平分割区带中的每一个执行垂直投影分割，以及对通过垂直投影分割得到的垂直分割区带中的每一个执行水平投影分割，直至每个分割区带均无法通过水平投影分割和垂直投影分割进行分割。无法通过水平投影分割和垂直投影分割进行分割的分割区带形成该一组分割区带。

将理解的是，水平投影分割和垂直投影分割的顺序可以调换。也即，在上述循环操作中，第一次投影分割可以是水平投影分割，或者可以是垂直投影分割。本公开在此方面不受限制。还将理解的是，递归是指把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解的策略。在计算机编程的语境下，递归策略只需少量的程序就可描述出解题过程所需要的多次重复计算，可以大大地减少程序的代码量。

根据一些实施例，对通过水平投影分割得到的每个水平分割区带执行垂直投影分割包括：在该水平分割区带中搜索一组数据列，其中对于该组数据列中的每个数据列，数据元素的数据值之和处于零至第一阈值的范围中。该第一阈值大于零，例如为一倍代表性宽度等。如果通过搜索得到该一组数据列，从该一组数据列中选择用于分割该水平分割区带的垂直分界线，并利用所选择的垂直分界线分割该水平分割区带，以得到垂直分割区带。此处，指示垂直分界线的数据列的数据值之和被选择为处于零至第一阈值的范围中，而不是等于零。这是因为位于同一页的段落之间的水平间隔较小，选择较大的指示垂直分界线的数据列的数据值之和可以有利于垂直投影分割的正确执行。

根据一些实施例，对通过垂直投影分割得到的每个垂直分割区带执行水平投影分割包括：在该垂直分割区带中搜索一组数据行，其中对于该组数据行中的每个数据行，矩阵元素的数据值之和处于零至第二阈值的范围中。该第二阈值大于零，例如为一倍代表性宽度等。如果通过搜索得到该一组数据行，从该一组数据行中选择用于分割该垂直分割区带的水平分界线，并利用所选择的水平分界线分割该垂直分割区带，以得到水平分割区带。此处，指示水平分界线的数据列的数据值之和被选择为处于零至第二阈值的范围中，而不是等于零。这是因为位于同一页的段落之间的垂直间隔较小，选择较大的指示水平分界线的数据列的数据值之和可以有利于水平投影分割的正确执行。

根据一些实施例，根据上述用于分割该版面模型的水平分界线和垂直分界线，从版面模型中分割得到该一组分割区带。

图14-17分别是示出根据示例性实施例的对图13所示的版面模型进行分割的示意图。在该示例中，如图14所示，执行一次水平投影分割，此次投影并未分割出相应的区带。然后如图15所示，再执行垂直投影分割，此次分割过程将版面模型最右侧的区带与该版面模型的其他部分分割开。继续执行水平投影分割，对图15分割出的区带以及剩余连通区域分别进行水平投影分割，而上一步骤已分割出的区带无法再继续分割。如图16所示，图15中剩余连通区域在此次水平投影分割过程中分割出左上方的多个分割区带。如图17所示，对上一步骤分割出的区带继续执行垂直分割，直到每个分割区带均无法通过水平投影分割和垂直投影分割进行分割。最后，全部分割出的一组分割区带形成如图18所示的版面模型。

根据一些实施例，确定该一组分割区带中的各个分割区带相对于彼此的顺序包括：在该循环地执行操作中，将水平分割区带之间、垂直分割区带之间、以及水平分割区带和垂直分割区带之间的等级关系记录在等级树数据结构中，其中该等级树数据结构中的叶子节点代表该一组分割区带；以及根据该阅读顺序规则遍历这些叶子节点，其中遍历叶子节点的顺序表示该一组分割区带中的各个分割区带相对于彼此的顺序。

在一些示例中，叶子节点可以记录相应区带的坐标信息，例如区带之间的分界线的坐标信息或由分界线所形成的矩形的坐标信息。这些坐标信息反映了不同区带之间的位置关系，使得在遍历叶子节点的过程中，能够根据阅读顺序规则来确定不同区带之间的顺序。阅读顺序规则将在稍后进行描述。

在一些示例中，在该循环执行操作中，将每次分割出的分割区带均按照阅读顺序将其标记在等级树数据结构中。对于能够再次通过水平投影分割或垂直投影分割继续进行分割的分割区带，在下一次对该分割区带进行分割后，从该分割区带分割出的分割区带按阅读顺序作为该分割区带的子节点标记在该等级树数据结构中，直到每个分割区带均无法通过水平投影分割和垂直投影分割进行分割，此时标记完整个等级树数据结构。

根据一些实施例，该阅读顺序规则包括：如果确定该多个文字行为横版类型，根据垂直分割区带之间的位置关系将垂直分割区带从左向右顺序排序，并且根据水平分割区带之间的位置关系将水平分割区带从上向下顺序排序。替换地，如果确定该多个文字行为竖版类型，根据垂直分割区带之间的位置关系将垂直分割区带从右向左顺序排序，并且根据水平分割区带之间的位置关系将水平分割区带从上向下顺序排序。

通过利用树形结构来保存分割区带之间的等级关系，并且通过阅读顺序规则确定叶子节点之间的排序，使得根据本公开实施例的版面分析方法可自适应横版和竖版，从而提高了版面分析方法的通用性。

根据一些实施例，分析该多个连通区域的空间布局还可以包括在对各选定连通区域进行投影分割之后：确定该各选定连通区域是否曾经被旋转一校正角度；以及如果确定该各选定连通区域曾经被旋转校正角度，使该一组分割区带反向旋转该校正角度。图19是示出将图18所示版面模型调整为原倾斜状态并按阅读顺序对分割区带进行排序后的示意图，其中数字0至8代表分割区带的编号和阅读顺序。通过将版面模型调整为原倾斜状态，可以方便在后续处理中将原图中的文字行与版面模型中的矩形块进行匹配，提高处理速度。

现在返回参考图3，在步骤340中，基于版面结构确定文字行相对于彼此的顺序。

根据一些实施例，基于版面结构确定文字行相对于彼此的顺序可以包括：根据各选定连通区域相对于该一组分割区带中的各个分割区带的相对位置，确定该各选定连通区域与该各个分割区带之间的对应关系，其中每个分割区带包含相应的一组选定连通区域；根据该相应的一组选定连通区域中的选定连通区域之间的位置关系，对该相应的一组选定连通区域中的选定连通区域进行排序；根据每个选定连通区域中的矩形块之间的位置关系，对每个选定连通区域中的矩形块进行排序；以及根据该多个文字行与该多个矩形块之间的对应关系，将该多个文字行与该各选定连通区域中的矩形块相匹配。

在一些示例中，可以通过确定各选定连通区域的中心或质心相对于该一组分割区带中的各个分割区带的相对位置，来确定该各选定连通区域分别位于哪个分割区带之内。例如，如果某个选定连通区域的中心或质心落入某个分割区带内，则可以确定该选定连通区域位于该分割区带内。在这些示例中，基于分割区带内的各选定连通区域的中心或质心位置，可以对该分割区带内的这些选定连通区域进行排序。

根据一些实施例，对该相应的一组选定连通区域中的选定连通区域进行排序可以包括：如果确定该多个文字行为横版类型，将该相应的一组选定连通区域中的选定连通区域从上向下顺序排序；以及如果确定该多个文字行为竖版类型，将该相应的一组选定连通区域中的选定连通区域从右向左顺序排序。

图20是示出根据示例性实施例的将多个连通区域与分割区带进行匹配并排序后的示意图。如图20所示，连通区域0-5分别与图19所示的相应的分割区带0-5相匹配，连通区域6-8与图19所示的分割区带6相匹配，连通区域9与图19所示的分割区带7相匹配，以及连通区域10-11与图19所示的分割区带8相匹配。

在对连通区域进行排序之后，可以对每个连通区域中的矩形块进行排序。

根据一些实施例，对每个选定连通区域中的矩形块进行排序包括：如果确定该多个文字行为横版类型，将每个选定连通区域中的矩形块从上向下顺序排序；以及如果确定该多个文字行为竖版类型，将每个选定连通区域中的矩形块从右向左顺序排序。

在版面模型的尺寸与图像的尺寸相同的情况下，图像中的文字行的坐标信息与版面模型中的矩形块的坐标信息一致。在版面模型的尺寸与图像的尺寸相比有缩放的情况下，图像中的文字行的坐标信息也相对于版面模型中的矩形块的坐标信息进行相应的反向缩放即可。由此，可以根据图像中的多个文字行与版面模型中的多个矩形块之间的对应关系，将图像中的多个文字行与各选定连通区域中的矩形块相匹配，从而实现对图像中的文字行的排序。

图21是示出示例性实施例的根据版面分析结果对图像400中的文字行进行排序的示意图。如图21所示，文字行0-5分别在图20所示的相应的连通区域0-5内，文字行6-26在图20所示的连通区域6内，文字行27-35在图20所示的连通区域7内，文字行36在图20所示的连通区域8内，文字行37-66在图20所示的连通区域9内，文字行67-92在图20所示的连通区域10内，以及文字行93-105在图20所示的连通区域11内。

根据一些实施例，图6中分析该多个连通区域的空间布局的步骤620还可以包括，在对各选定连通区域递归地和交替地执行水平投影分割和垂直投影分割之前，执行以下操作：如果确定该多个文字行为横版类型，使该各选定连通区域中的每个矩形块的长度在长度方向上的两端处均减小若干数据元素；以及如果确定该多个文字行为竖版类型，使该各选定连通区域中的每个矩形块的宽度在宽度方向上的两端处均减小若干数据元素。

在对各选定连通区域递归地和交替地执行水平投影分割和垂直投影分割之前，通过对与相应文字行相对应的矩形块进行左右方向上的尺寸调整，可以消除段落之间的图像底色等的干扰，提高分割的准确性。

上面已经描述了在版面分析过程中将文字行的版面类型默认确定为横版或竖版(可以通过手动切换)的实施例。在下文中，将描述本公开的一些附加实施例，其中文字行的版面类型被自动地识别。自动识别版面类型可以提供一些优点。例如，可以根据自动识别出的版面类型来正确地确定文字行相对于彼此的顺序，而无需用户的手动切换。在图像既包括主版面类型(例如，横版)的文字行又包括次版面类型(例如，竖版)的文字行的情况下，这进一步允许实现一些有用的功能。例如，可以先对主版面类型文字行进行版面分析，然后对次版面类型文字行进行版面分析，使得主版面类型文字行可以首先被识别并语音播报。这可以提高阅读辅助设备的用户的使用体验，因为主版面类型的文字行通常是用户希望首先了解的内容。

根据一些实施例，在基于版面模型分析文字行的版面结构之前：识别多个文字行的主版面类型。该主版面类型包括选自横版类型和竖版类型所组成的组中的一项。根据一些实施例，识别多个文字行的主版面类型可以包括：根据图像中的多个文字行的坐标信息确定多个矩形块各自的几何参数；以及基于多个矩形块各自的几何参数，确定多个文字行的主版面类型。

在一些示例中，返回参考图4和图5，可以根据图像400中的多个文字行410的坐标信息以及该多个文字行410与版面模型500中的多个矩形块510之间的对应关系，确定版面模型500中的各个矩形块510的几何参数。例如，在版面模型500的尺寸与图像400的尺寸相同的情况下，矩形块510在版面模型500中的坐标与对应的文字行410在图像400中的坐标相同，并且可以直接从该对应的文字行410的坐标(例如，四个顶点坐标)确定该矩形块510的几何参数。

根据一些实施例，该几何参数包括多个矩形块510各自的长度方向、长度、宽度方向和宽度中的至少一项。对于文字行相对于读者在基本左右方向延伸(即横版读物)的情况，该长度方向为基本左右延伸的方向，宽度方向为与该基本左右延伸的方向基本垂直的方向(即基本上下延伸的方向)；而对于文字行相对于读者在基本上下方向延伸(即竖版读物)的情况，该长度方向为基本上下延伸的方向，宽度方向为与该基本上下延伸的方向基本垂直的方向(即基本左右延伸的方向)。

根据一些实施例，根据矩形块510各自的几何参数，确定与该矩形块510对应的文字行410的文字排列方向，以确定该文字行410的版面类型为横版还是竖版。在一些实施例中，文字行410的版面类型可以通过确定与该文字行410对应的矩形块510的长度方向而得到。例如，如果该矩形块510在左右方向上延伸，则对应的文字行410即为横版，而如果该矩形块510在上下方向上延伸，则对应的文字行410即为竖版。在整个图像400的文字区域中，如果某一版面类型(横版或竖版)的文字行410的占比超过预定阈值，则该版面类型即为主版面类型。

图22是示出基于多个矩形块各自的几何参数确定多个文字行的主版面类型的示例过程的流程图。在该示例中，主版面类型的判断规则为，如果对应于竖版文字行的矩形块的总面积与所有矩形块的总面积之比大于或等于预定阈值，则主版面类型为竖版，否则主版面类型为横版。

在步骤2210中，确定多个矩形块的子集，该多个矩形块的该子集由该多个矩形块中满足下述条件的矩形块组成：每个矩形块的长度方向与版面模型的列方向之间的夹角小于阈值角度。根据一些实施例，该阈值角度例如可以为10°、20°或30°等，但并不限于这些示例，可根据实际应用具体设置。如本文使用的，多个元素的子集可以包括该多个元素中的一些或全部，即子集可以是“全集”、“真子集”或“空集”。在“全集”的情况下，多个矩形块中所有的矩形块都满足上述条件。在“真子集”的情况下，多个矩形块中一些矩形块满足上述条件。在“空集”的情况下，多个矩形块中没有矩形块满足上述条件。

在步骤2220中，确定该多个矩形块的子集的总面积以及该多个矩形块的总面积，并在步骤2230中，确定该多个矩形块的子集的总面积与该多个矩形块的总面积的比率是否小于第一阈值比率。如果该多个矩形块的子集的总面积与该多个矩形块的总面积的比率小于第一阈值比率(步骤2230，“是”)，确定该主版面类型为横版类型(步骤2240)；否则(步骤2230，“否”)确定该主版面类型为竖版类型(步骤2250)。根据一些实施例，该第一阈值比率可以为80％，但并不限于此，可根据实际应用具体设置。

将理解的是，上面描述的主版面类型的判断规则仅仅是示例性的，在其他实施例中，可以采用其他的判断规则。

根据一些实施例，基于版面模型分析文字行的版面结构还可以包括分析主版面类型的文字行的版面结构。根据一些实施例，在基于版面模型分析文字行的版面结构之前可以选择性地舍弃对应于图像中的不重要文字的矩形块。

根据一些实施例，在分析主版面类型的文字行的版面结构之前从多个矩形块中选择性地去除或不去除次版面类型的矩形块，其中次版面类型包括选自横版类型和竖版类型所组成的组中的另一项。

在一些示例中，可以将面积占比小的次版面类型的文字行认为是不重要文字。在这样的实施例中，在分析该主版面类型的文字行的版面结构之前，可以基于多个矩形块各自的几何参数，确定该多个文字行的次版面类型。如前所述，主版面类型可以是横版类型和竖版类型中的一项(例如，横版类型)，那么该次版面类型可以是横版类型和竖版类型中的另一项(例如，竖版类型)。然后，从多个矩形块中选择性地去除或不去除该次版面类型的矩形块，从而得到该各选定矩形块。如本文使用的，术语“去除”可以是指将版面模型的数据元素的数据值修改为默认值(例如零)。通过舍弃掉一部分不重要的文字，能够实现在文字识别和播报时尽量不打断主要版面文字的阅读次序，提升用户体验。

图23是示出选择性地舍弃对应于图像中的不重要文字的矩形块的示例过程的流程图。如图23所示，可以通过计算该次版面类型的矩形块占该多个矩形块总面积的比率来确定是否去除该次版面类型的矩形块。首先，在步骤2310中，确定该次版面类型的矩形块的总面积和该多个矩形块的总面积，即确定次版面类型的矩形块的总面积和该版面模型中所有矩形块的总面积。然后，在步骤2320中，确定该次版面类型的矩形块的总面积与该多个矩形块的总面积的比率是否小于第二阈值比率。如果确定该次版面类型的矩形块的总面积与该多个矩形块的总面积的比率小于第二阈值比率(步骤2320，“是”)，则从该多个矩形块中去除该次版面类型的矩形块(步骤2330)。如果确定该次版面类型的矩形块的总面积与该多个矩形块的总面积的比率不小于第二阈值比率(步骤2320，“否”)，则不从该多个矩形块中去除该次版面类型的矩形块(步骤2340)。根据一些实施例，该第二阈值比率可根据实际应用进行设置，例如为3％、5％、7％等，本公开在此方面不受限制。

在执行完该操作后，进入分析主版面类型的文字行的版面结构的步骤。主版面类型的文字行的版面结构的分析与上面关于图6至图21描述的分析的方法类似，并且为了简洁起见在此不再重复。

根据一些实施例，在分析该主版面类型的文字行的版面结构之后，如果该次版面类型的矩形块未从该多个矩形块中去除，则可以继续分析该次版面类型的文字行的版面结构。次版面类型的文字行的版面结构的分析与上面关于图6至图21描述的分析的方法类似，并且为了简洁起见在此不再重复。

以上已经结合附图描述了根据本公开的版面分析的示例性方法。在进行版面分析之后，还可以进行后续处理，例如可以结合文字识别结果，按照文字行排序结果而将逐个文字行中识别出的文字数据转换成声音数据，这可以用于例如与有声读物相关的应用以及视障辅助应用中。在该图像的文字行包括横版以及竖版并且该作为次版面类型在版面分析时也未被去除的情况下，在进行后续处理以结合文字识别结果进行文字播报时，可以先识别和播报主版面类型的文字行中的文字，在该主版面类型的文字行中文字播报完毕后，再去识别和播报该次版面类型的文字行中的文字。

图24是示出根据本公开的示例性实施例的阅读辅助设备的结构框图。如图24所示，所述阅读辅助设备2400包括：图像传感器2410(例如可实现为摄像头、照相机等)，被配置为获取前述的图像(图像例如可以是静态图像或视频图像，图像中可包含文字)；以及芯片电路2420，所述芯片电路被配置为执行根据前述任何方法的步骤的电路单元。

如本文所使用的，术语“电路”可指代以下电路的一部分或包括以下电路：专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共用、专用或组)和/或存储器(共用、专用或组)、提供所述功能的组合逻辑电路和/或其它合适的硬件组件。在一些实施例中，可通过一个或多个软件或固件模块来实现电路或者与电路相关联的功能。在一些实施例中，电路可包括在硬件中至少部分地可操作的逻辑。本文描述的实施例可实现为使用任何适当配置的硬件和/或软件的系统。

根据一些实施例，该芯片电路还可以包括被配置对图像进行文字识别以获得文字数据的电路单元，以及被配置为按照文字行排序结果而将逐个文字行中的文字数据转换成声音数据的电路单元。所述被配置对图像进行文字识别以获得文字数据的电路单元例如可以利用任何文字识别(例如光学文字识别OCR)软件或电路，被配置为按照文字行排序结果而将逐个文字行中的文字数据转换成声音数据的电路单元例如可以利用任何文字语音转换软件或电路。这些电路单元例如可通过ASIC芯片或FPGA芯片来实现。该阅读辅助设备2400还可以包括声音输出设备2430(例如扬声器、耳机等等)，被配置为输出所述声音数据(即语音数据)。

本公开的一个方面可包括一种电子设备，该电子设备可包括处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行前述任何方法。根据一些实施例，所述程序还可以包括在由所述处理器执行时按照文字行排序结果而将逐个文字行中的文字数据转换成声音数据的指令。根据一些实施例，这种电子设备例如可以是阅读辅助设备。根据一些实施例，这种电子设备可以是与阅读辅助设备进行通信的另一设备(例如手机、计算机、服务器等)。在这种电子设备是与阅读辅助设备进行通信的另一设备的情况下，阅读辅助设备可以将拍摄到的图像发送到所述另一设备，由另一设备执行前述任何方法，再将方法的处理结果(例如版面分析结果、文字识别结果、和/或将文字数据转换而成的声音数据等等)返回到阅读辅助设备，并由阅读辅助设备执行之后的处理(例如，将声音数据播放给用户)。

根据一些实施方式，所述阅读辅助设备可以被实施为可穿戴设备，例如可以被实施为可作为眼镜形式而被佩戴的设备、头戴式设备(例如头盔或帽子等)、可佩戴在耳朵上的设备、可附接到眼镜(例如眼镜架、眼镜腿等)上的配件、可附接到帽子上的配件等等。

借助该阅读辅助设备，视力障碍用户可以与视力正常读者一样，采用类似的阅读姿势即可实现对常规读物(例如书本、杂志等)的“阅读”。在“阅读”过程中，阅读辅助设备按照前述实施例中的方法自动对捕获的版面图像进行版面分析以对文字行进行排序，并依照文字行的顺序依次将文字行中的文字转化为声音，通过扬声器或耳机等输出装置发出供用户聆听。

本公开的一个方面可包括存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行前述任何方法。参照图25，现将描述计算设备2500，其是可以应用于本公开的各方面的硬件设备的示例。计算设备2500可以是被配置为执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、智能电话、车载计算机、可穿戴设备或其任何组合。根据一些实施方式，上述的阅读辅助设备或电子设备也可以全部或至少部分地由计算设备2500或类似设备或系统实现。

计算设备2500可以包括(可能经由一个或多个接口)与总线2502连接或与总线2502通信的元件。例如，计算设备2500可以包括总线2502、一个或多个处理器2504(其可以用于实施前述的阅读辅助设备所包含的处理器或芯片电路)、一个或多个输入设备2506以及一个或多个输出设备2508。一个或多个处理器2504可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2506可以是能向计算设备2500输入信息的任何类型的设备，并且可以包括但不限于传感器(例如前文所述的获取图像的传感器)、鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备2508可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器(例如可用于实施前文所述的输出声音数据的输出设备)、视频/音频输出终端、振动器和/或打印机。计算设备2500还可以包括存储设备2510或者与存储设备2510连接，所述存储设备(例如可以用于实施前文所述的计算机可读存储介质)可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。存储设备2510可以从接口拆卸。存储设备2510可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2500还可以包括通信设备2512。通信设备2512可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算设备2500还可以包括工作存储器2514(其可以用于实施前述的阅读辅助设备所包含的存储器)，其可以是可以存储对处理器2504的工作有用的程序(包括指令)和/ 或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器2514中，包括但不限于操作系统2516、一个或多个应用(即应用程序)2518、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用2518中。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备2510)中，并且在执行时可以被存入工作存储器2514中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

在将图25所示的计算设备2500应用于本公开的实施方式时，工作存储器2514可以存储用于执行本公开的流程图的程序代码和/或待识别的包含文字内容的图像，其中应用2518中可以包括由第三方提供的光学字符识别应用(例如Adobe)、语音转换应用、可编辑文字处理应用等等。输入设备2506可以是传感器用于获取包含文字内容的图像。其中所存储的包含文字内容的图像或者所获取的图像可以被OCR应用处理为包含文字的输出结果，输出设备2508例如是扬声器或耳机用于语音播报，其中处理器2504用于根据工作存储器2514中的程序代码来执行根据本公开的各方面的方法步骤。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现特定元件(例如上述的芯片电路)。例如，所公开的方法和设备中的一些或全部(例如上述的芯片电路中的各个电路单元)可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

还应该理解，计算设备2500的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算设备2500的其他组件也可以类似地分布。这样，计算设备2500可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

一种版面分析方法，包括：

获取图像中的多个文字行的坐标信息；

根据所述坐标信息创建所述图像的版面模型；

基于所述版面模型分析所述文字行的版面结构；以及

基于所述版面结构确定所述文字行相对于彼此的顺序。
如权利要求1所述的方法，其中，根据所述坐标信息创建所述图像的版面模型包括：

对数据结构中与所述坐标信息对应的数据元素填充数据值，以得到所述版面模型，其中，填充有数据值的数据元素形成多个矩形块，所述多个矩形块对应于所述多个文字行中的相应文字行。
如权利要求2所述的方法，其中，基于所述版面模型分析所述文字行的版面结构包括：

选择性地调整所述多个矩形块的宽度，以使得所述多个矩形块被合并成彼此分离的多个连通区域；以及

分析所述多个连通区域的空间布局，以得到所述文字行的版面结构。
如权利要求3所述的方法，其中，选择性地调整所述多个矩形块的宽度包括：

对于每个矩形块：

响应于该矩形块的宽度小于或等于所述多个矩形块的代表性宽度，使该矩形块的宽度增大第一量；

响应于该矩形块的宽度大于所述代表性宽度且小于或等于所述代表性宽度的第一倍数，使该矩形块的宽度增大第二量；

响应于该矩形块的宽度大于所述代表性宽度的所述第一倍数且小于或等于所述代表性宽度的第二倍数，不调整该矩形块的宽度；以及

响应于该矩形块的宽度大于所述代表性宽度的所述第二倍数，使该矩形块的宽度减小第三量。
如权利要求4所述的方法，其中，所述代表性宽度为所述多个矩形块的子集的平均宽度，所述多个矩形块的该子集由所述多个矩形块中除宽度大于阈值宽度百分位数的那些矩形块之外的矩形块组成。
如权利要求4所述的方法，其中，所述代表性宽度为所述多个矩形块的平均宽度。
如权利要求3所述的方法，其中，分析所述多个连通区域的空间布局包括：

选择性地校正或不校正所述多个连通区域在所述版面模型中的取向；

选择性地去除或不去除所述版面模型中在行方向上与所述版面模型的两侧边中任一侧边直接相邻的连通区域，以得到各选定连通区域；以及

对所述各选定连通区域进行投影分割，以得到一组分割区带和所述分割区带相对于彼此的顺序。
如权利要求7所述的方法，其中，选择性地校正或不校正所述多个连通区域在所述版面模型中的取向包括：

确定所述多个连通区域相对于所述版面模型的行方向和列方向中的任一个是否处于倾斜状态；以及

响应于确定所述多个连通区域处于所述倾斜状态，旋转所述多个连通区域一校正角度以使得所述多个连通区域不处于所述倾斜状态。
如权利要求8所述的方法，其中，确定所述多个连通区域相对于所述版面模型的行方向和列方向中的任一个是否处于倾斜状态包括：

在所述多个连通区域中搜索特定连通区域，其中该特定连通区域的最小外接矩形在所述多个连通区域的最小外接矩形中具有最大面积；

确定所述特定连通区域的最小外接矩形的一边是否平行于所述行方向和列方向中的任一个；

响应于确定所述特定连通区域的最小外接矩形的所述边不平行于所述行方向和列方向中的任一个，确定所述多个连通区域处于所述倾斜状态；以及

响应于确定所述特定连通区域的最小外接矩形的所述边平行于所述行方向和列方向中的任一个，确定所述多个连通区域不处于所述倾斜状态。
如权利要求8或9所述的方法，其中，选择性地去除或不去除所述版面模型中在行方向上与所述版面模型的两侧边中任一侧边直接相邻的连通区域包括：

响应于所述多个连通区域不处于所述倾斜状态，对所述版面模型执行垂直投影分割；以及

取决于所述垂直投影分割的结果，从所述多个连通区域中选择性地去除或不去除在行方向上与所述版面模型的两侧边中任一侧边直接相邻的连通区域。
如权利要求10所述的方法，其中，从所述多个连通区域中选择性地去除或不去除在行方向上与所述版面模型的两侧边中任一侧边直接相邻的连通区域包括：

响应于确定所述垂直投影分割从所述版面模型未分割出至少两个区带，不执行所述去除；以及

响应于确定所述垂直投影分割从所述版面模型分割出至少两个区带，确定所述至少两个区带在行方向上的相应有效尺寸，并且对于所述至少两个区带中在行方向上与所述版面模型的两侧边中任一侧边直接相邻的每个侧边区带，执行以下操作：

响应于从所述版面模型分割出两个区带，并且该侧边区带在行方向上的有效尺寸小于所述相应有效尺寸中的最大尺寸的第一阈值百分比且小于所述两个区带中另一区带在行方向上的有效尺寸的第二阈值百分比，去除该侧边区带中的连通区域；以及

响应于从所述版面模型分割出多于两个区带，并且该侧边区带在行方向上的有效尺寸小于所述相应有效尺寸中的最大尺寸的第三阈值百分比且小于各区带中与该侧边区带直接相邻的区带在行方向上的有效尺寸的第四阈值百分比，去除该侧边区带中的连通区域。
如权利要求11所述的方法，

其中，所述第一阈值百分比小于所述第二阈值百分比，并且

其中，所述第三阈值百分比等于所述第四阈值百分比。
如权利要求10所述的方法，其中，分析所述多个连通区域的空间布局还包括，在对所述版面模型执行垂直投影分割之前：

响应于确定所述多个文字行为横版类型，使每个矩形块的长度在长度方向上的两端处均增大若干数据元素；或者

响应于确定所述多个文字行为竖版类型，使每个矩形块的宽度在宽度方向上的两端处均增大若干数据元素。
如权利要求7所述的方法，其中，对所述各选定连通区域进行投影分割包括：

对所述各选定连通区域递归地和交替地执行水平投影分割和垂直投影分割，以便从所述版面模型分割出所述一组分割区带；以及

基于阅读顺序规则，确定所述一组分割区带中的各个分割区带相对于彼此的顺序。
如权利要求14所述的方法，其中，对所述各选定连通区域递归地和交替地执行水平投影分割和垂直投影分割包括：

循环地执行操作，所述操作包括：

对通过水平投影分割得到的水平分割区带中的每一个执行垂直投影分割；以及

对通过垂直投影分割得到的垂直分割区带中的每一个执行水平投影分割，

直至每个分割区带均无法通过水平投影分割和垂直投影分割进行分割，

其中，无法通过水平投影分割和垂直投影分割进行分割的分割区带形成所述一组分割区带。
如权利要求15所述的方法，其中，对通过水平投影分割得到的每个水平分割区带执行垂直投影分割包括：

在该水平分割区带中搜索一组数据列，其中对于该组数据列中的每个数据列，数据值之和处于零至第一阈值的范围中，所述第一阈值大于零；

响应于通过搜索得到所述一组数据列，从所述一组数据列中选择用于分割该水平分割区带的垂直分界线；以及

利用所选择的垂直分界线分割该水平分割区带，以得到垂直分割区带。
如权利要求15所述的方法，其中，对通过垂直投影分割得到的每个垂直分割区带执行水平投影分割包括：

在该垂直分割区带中搜索一组数据行，其中对于该组数据行中的每个数据行，数据值之和处于零至第二阈值的范围中，所述第二阈值大于零；

响应于通过搜索得到所述一组数据行，从所述一组数据行中选择用于分割该垂直分割区带的水平分界线；以及

利用所选择的水平分界线分割该垂直分割区带，以得到水平分割区带。
如权利要求15所述的方法，其中，确定所述一组分割区带中的各个分割区带相对于彼此的顺序包括：

在所述循环地执行操作中，将水平分割区带之间、垂直分割区带之间、以及水平分割区带和垂直分割区带之间的等级关系记录在等级树数据结构中，其中所述等级树数据结构中的叶子节点代表所述一组分割区带；以及

根据所述阅读顺序规则遍历所述叶子节点，其中遍历所述叶子节点的顺序表示所述一组分割区带中的各个分割区带相对于彼此的顺序。
如权利要求15所述的方法，其中，所述阅读顺序规则包括：

响应于确定所述多个文字行为横版类型，根据垂直分割区带之间的位置关系将垂直分割区带从左向右顺序排序，并且根据水平分割区带之间的位置关系将水平分割区带从上向下顺序排序；或者

响应于确定所述多个文字行为竖版类型，根据垂直分割区带之间的位置关系将垂直分割区带从右向左顺序排序，并且根据水平分割区带之间的位置关系将水平分割区带从上向下顺序排序。
如权利要求8所述的方法，其中，分析所述多个连通区域的空间布局还包括，在对所述各选定连通区域进行投影分割之后：

确定所述各选定连通区域是否曾经被旋转所述校正角度；以及

响应于确定所述各选定连通区域曾经被旋转所述校正角度，使所述一组分割区带反向旋转所述校正角度。
如权利要求20所述的方法，其中，基于所述版面结构确定所述文字行相对于彼此的顺序包括：

根据所述各选定连通区域相对于所述一组分割区带中的各个分割区带的相对位置，确定所述各选定连通区域与所述各个分割区带之间的对应关系，其中每个分割区带包含相应的一组选定连通区域；

根据所述相应的一组选定连通区域中的选定连通区域之间的位置关系，对所述相应的一组选定连通区域中的选定连通区域进行排序；

根据每个选定连通区域中的矩形块之间的位置关系，对每个选定连通区域中的所述矩形块进行排序；以及

根据所述多个文字行与所述多个矩形块之间的对应关系，将所述多个文字行与所述各选定连通区域中的所述矩形块相匹配。
如权利要求21所述的方法，其中，对所述相应的一组选定连通区域中的选定连通区域进行排序包括：

响应于确定所述多个文字行为横版类型，将所述相应的一组选定连通区域中的选定连通区域从上向下顺序排序；或者

响应于确定所述多个文字行为竖版类型，将所述相应的一组选定连通区域中的选定连通区域从右向左顺序排序。
如权利要求21所述的方法，其中，对每个选定连通区域中的所述矩形块进行排序包括：

响应于确定所述多个文字行为横版类型，将每个选定连通区域中的所述矩形块从上向下顺序排序；或者

响应于确定所述多个文字行为竖版类型，将每个选定连通区域中的所述矩形块从右向左顺序排序。
如权利要求14所述的方法，其中，分析所述多个连通区域的空间布局还包括，在对所述各选定连通区域递归地和交替地执行水平投影分割和垂直投影分割之前：

响应于确定所述多个文字行为横版类型，使所述各选定连通区域中的每个矩形块的长度在长度方向上的两端处均减小若干数据元素；或者

响应于确定所述多个文字行为竖版类型，使所述各选定连通区域中的每个矩形块的宽度在宽度方向上的两端处均减小若干数据元素。
如权利要求2所述的方法，还包括，在基于所述版面模型分析所述文字行的版面结构之前：

识别所述多个文字行的主版面类型，其中，所述主版面类型包括选自横版类型和竖版类型所组成的组中的一项。
如权利要求25所述的方法，其中，识别所述多个文字行的主版面类型包括：

根据所述坐标信息确定所述多个矩形块各自的几何参数；以及

基于所述多个矩形块各自的几何参数，确定所述多个文字行的主版面类型。
如权利要求26所述的方法，其中，所述几何参数包括所述多个矩形块各自的长度方向、长度、宽度方向和宽度中的至少一项。
如权利要求27所述的方法，其中，确定所述多个文字行的主版面类型包括：

确定所述多个矩形块的子集，其中所述多个矩形块的该子集由所述多个矩形块中满足下述条件的矩形块组成：每个矩形块的长度方向与所述版面模型的列方向之间的夹角小于阈值角度；

确定所述多个矩形块的所述子集的总面积与所述多个矩形块的总面积的比率；

响应于所述多个矩形块的所述子集的总面积与所述多个矩形块的总面积的比率小于第一阈值比率，确定所述主版面类型为横版类型；以及

响应于所述多个矩形块的所述子集的总面积与所述多个矩形块的总面积的比率不小于所述第一阈值比率，确定所述主版面类型为竖版类型。
如权利要求25所述的方法，其中，基于所述版面模型分析所述文字行的版面结构包括：

分析所述主版面类型的文字行的版面结构。
如权利要求29所述的方法，还包括，在分析所述主版面类型的文字行的版面结构之前：

从所述多个矩形块中选择性地去除或不去除次版面类型的矩形块，其中所述次版面类型包括选自横版类型和竖版类型所组成的组中的另一项。
如权利要求30所述的方法，其中，从所述多个矩形块中选择性地去除或不去除次版面类型的矩形块包括：

确定所述次版面类型的矩形块的总面积与所述多个矩形块的总面积的比率；

响应于所述次版面类型的矩形块的总面积与所述多个矩形块的总面积的比率小于第二阈值比率，从所述多个矩形块中去除所述次版面类型的矩形块；以及

响应于所述次版面类型的矩形块的总面积与所述多个矩形块的总面积的比率不小于第二阈值比率，不从所述多个矩形块中去除所述次版面类型的矩形块。
如权利要求30所述的方法，还包括，在分析所述主版面类型的文字行的版面结构之后：

响应于所述次版面类型的矩形块未从所述多个矩形块中去除，分析所述次版面类型的文字行的版面结构。
如权利要求2所述的方法，其中，所述数据结构包括二维空白矩阵。
一种芯片电路，包括：

被配置为执行根据权利要求1-33中任一项所述的方法的电路单元。
一种阅读辅助设备，包括：

如权利要求34所述的芯片电路；以及

图像传感器，被配置为获取所述图像。
一种电子设备，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-33中任一项所述的方法。
一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据权利要求1-33中任一项所述的方法。