WO2022036997A1

WO2022036997A1 - 图表信息提取方法、装置和存储介质

Info

Publication number: WO2022036997A1
Application number: PCT/CN2021/070082
Authority: WO
Inventors: 陈松波; 李聪; 谭伟; 王文博; 胡金磊; 徐刚; 汪密; 李文航; 欧阳业; 陈俊
Original assignee: 广东电网有限责任公司清远供电局
Priority date: 2020-08-21
Filing date: 2021-01-04
Publication date: 2022-02-24
Also published as: CN111985506A

Abstract

一种图表信息提取方法、装置和存储介质，方法包括：获取待提取信息图表，并对待提取信息图表进行预处理（S101）；基于开闭运算原理提取预处理后的待提取信息图表的横向框线和纵向框线（S102）；将提取出的横向框线和纵向框线做交集运算，得到待提取信息图表的交点（S103）；基于待提取信息图表的交点、横向框线和纵向框线确定待提取信息图表的多个最小识别单元（S104）；对待提取信息图表中的每个最小识别单元进行文本识别，得到待提取信息图表的图表信息（S105）。

Description

图表信息提取方法、装置和存储介质

本申请要求在2020年8月21日提交中国专利局、申请号为202010851106.8的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及图像识别技术领域，例如涉及一种图表信息提取方法、装置和存储介质。

背景技术

日常的电力生产和运行维护过程中，通常伴随着大量的图像表格，一方面，这些图表可以用于记录多项数据，另一方面，有些图表还可以用于指导规范的操作。

但是，这些图像表格存在数量多、格式固定、表格间的关联性强以及需要检查的关键信息分散等特点，因而极大地影响了电网安全监察人员审查这些图像表格的工作效率。

发明内容

本申请提供一种图表信息提取方法、装置和存储介质，不仅能够高效、灵活、准确地提取出图像表格中的关键信息，还提高了电网安全监察人员对相关图像表格审查的工作效率。

本申请实施例提供了一种图表信息提取方法，所述方法包括：

获取待提取信息图表，并对所述待提取信息图表进行预处理；

基于开闭运算原理提取预处理后的所述待提取信息图表的横向框线和纵向框线；

将提取出的所述横向框线和所述纵向框线做交集运算，得到所述待提取信息图表的交点；

基于所述待提取信息图表的交点、所述横向框线和所述纵向框线确定所述待提取信息图表的多个最小识别单元；

对所述待提取信息图表中的每个最小识别单元进行文本识别，得到所述待提取信息图表的图表信息。

本申请实施例还提供了一种图表信息提取装置，所述装置包括：

预处理单元，设置为获取待提取信息图表，并对所述待提取信息图表进行预处理；

框线提取单元，设置为基于开闭运算原理提取预处理后的所述待提取信息图表的横向框线和纵向框线；

交点确定单元，设置为提取出的所述横向框线和所述纵向框线做交集运算，得到所述待提取信息图表的交点；

区域确定单元，设置为基于所述待提取信息图表的交点、所述横向框线和所述纵向框线确定所述待提取信息图表的多个最小识别单元；

文本识别单元，设置为对所述待提取信息图表中的每个最小识别单元进行文本识别，得到所述待提取信息图表的图表信息。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请任一实施例所述的图表信息提取方法。

附图说明

图1是本申请实施例提供的一种图表信息提取方法的流程图；

图2是本申请实施例提供的一种最小识别单元的示意图；

图3是本申请实施例提供的另一种图表信息提取方法的流程图；

图4是本申请实施例提供的又一种图表信息提取方法的流程图；

图5是本申请实施例提供的另一种最小识别单元的示意图；

图6是本申请实施例提供的又一种图表信息提取方法的流程图；

图7是本申请实施例提供的又一种图表信息提取方法的流程图；

图8是本申请实施例提供的一种图表信息提取装置的结构图。

具体实施方式

下面结合附图和实施例对本申请进行说明。此处所描述的实施例仅仅用于解释本申请，而非对本申请的限定。另外，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

本申请的说明书和权利要求书及附图中的术语第一、第二等是用于区别不同对象，而不是用于限定指定顺序。本申请下述多个实施例可以单独执行，多个实施例之间也可以相互结合执行，本申请实施例对此不作限制。

图1是本申请实施例提供的一种图表信息提取方法的流程图。

如图1所述，该图表信息提取方法包括如下步骤：

步骤S101，获取待提取信息图表，并对待提取信息图表进行预处理。

对于纸质的图像表格来说，要提取出图像表格中的关键信息，首先需要将纸质的图像表格变为图像数据，因此需要对纸质的图像表格进行扫描，以获取纸质的图像表格的图像数据，然后对图像数据进行预处理，得到预处理后的图像信息。

步骤S102，基于开闭运算原理提取预处理后的待提取信息图表的横向框线和纵向框线。

由于电力行业中的图像表格都是由横向框线和纵向框线组成的，因此，可以将预处理后的待提取信息图表的横向框线和纵向框线提取出来，以备后续通过横向框线和纵向框线确定待提取信息图表的文本信息的位置。横向框线为行方向的框线，纵向框线为列方向的框线。

可选地，步骤S102，基于开闭运算原理提取预处理后的待提取信息图表的横向框线和纵向框线包括：利用公式

提取预处理后的待提取信息图表的横向框线和纵向框线，其中，F为待提取信息图表，Y为框线提取结果，G表示结构元素。

可以利用公式

使用数学形态中的开闭运算来提取表格的横向框线和纵向框线，F表示待提取信息图表，Y表示框线提取结果，G表示结构元素。

待提取信息图表的框线的提取可以分为纵向框线提取和横向框线提取。这两种框线的提取过程是通过分别定义两个不同形状的结构元素G _h和G _w来实现的。G _h是一个横向长度为1个像素点、纵向长度为h个像素点的矩形区域，表示为G _h(1,h)，而G _w是一个横向长度为h个像素点、纵向长度为1个像素点的矩形区域，表示为G _w(h,1)，h是表格中显示一个文字横向或纵向所需的最大像素点的个数。

步骤S103，将提取出的横向框线和纵向框线做交集运算，得到待提取信息图表的交点。

表格的横向框线和纵向框线的提取结果记为Yw和Yh。在提取出预处理后的待提取信息图表的横向框线和纵向框线之后，可以通过交集运算得到待提取信息图表的交点。可以通过公式M ₁＝Y _w∩Y _h对提取出的横向框线和纵向框线进行交集运算，M ₁为相应的表格交点提取结果。

步骤S104，基于待提取信息图表的交点、横向框线和纵向框线确定待提取信息图表的多个最小识别单元。

最小识别单元是组成图像表格的最小图形单元，图2是本申请实施例提供的一种最小识别单元的示意图。参见图2，图2中所示的最小图形单元A、B、C等均为最小识别单元。

步骤S105，对待提取信息图表中的每个最小识别单元进行文本识别，得到待提取信息图表的图表信息。

在确定出待提取信息图表中的最小识别单元之后，对待提取信息图表中的每个最小识别单元进行文本识别，最终得到待提取信息图表的图表信息。可以灵活采用第三方提供的在线或离线文本识别服务来完成对每个最小识别单元进行文本识别，以满足不同场景的需求。

在本申请实施例中，通过提取出的横向框线和纵向框线确定待提取信息图表的交点，并进一步确定待提取信息图表的最小识别单元，继而通过提取最小识别单元的文本信息得到待提取信息的图表信息，不仅能够高效、灵活、准确地提取出图像表格中的关键信息，还提高了电网安全监察人员对相关图像表格审查的工作效率。

基于上述技术方案，本实施例对上述实施例中获取待提取信息图表，并对待提取信息图表进行预处理进行说明。图3是本申请实施例提供的另一种图表信息提取方法的流程图，如图3所示，本实施例提供的图表信息提取方法包括如下步骤：

步骤S301，获取待提取信息图表的图像。

步骤S302，判断图像是否发生倾斜。

步骤S303，若图像发生倾斜，则利用基于方向投影的图像倾角检测算法对图像进行校正。

步骤S304，对校正后的图像进行二值化处理，得到预处理后的待提取信息图表。

针对图像表格在扫描过程中纸质表格的位置可能摆放不正而造成扫描得到的图像表格存在倾斜的问题，在获取到待提取信息图表的图像数据之后，需要判断该图像是否发生倾斜，若该图像发生倾斜，则需要对发生倾斜的图像进行校正；为了使得校正算法的计算量小且鲁棒性强，选择基于方向投影的图像倾角检测算法来完成图像的校正；在完成校正之后，对校正后的图像进行二值化处理，最终得到预处理后的待提取信息图表。

步骤S305，基于开闭运算原理提取预处理后的待提取信息图表的横向框线和纵向框线。

步骤S306，将提取出的横向框线和纵向框线做交集运算，得到待提取信息图表的交点。

步骤S307，基于待提取信息图表的交点、横向框线和纵向框线确定待提取信息图表的多个最小识别单元。

步骤S308，对待提取信息图表中的每个最小识别单元进行文本识别，得到待提取信息图表的图表信息。

通过使用本实施例提供的图表信息提取方法，不仅能够高效、灵活、准确地提取出图像表格中的关键信息，还提高了电网安全监察人员对相关图像表格审查的工作效率。

基于上述技术方案，本实施例对基于所述待提取信息图表的交点、所述横向框线和所述纵向框线确定所述待提取信息图表的最小识别单元进行说明。图4是本申请实施例提供的又一种图表信息提取方法的流程图，如图4所示，本实施例提供的图表信息提取方法包括如下步骤：

步骤S401，获取待提取信息图表，并对待提取信息图表进行预处理。

步骤S402，基于开闭运算原理提取预处理后的待提取信息图表的横向框线和纵向框线。

步骤S403，将提取出的横向框线和纵向框线做交集运算，得到待提取信息图表的交点。

步骤S404，检测待提取信息图表的交点的横向是否存在虚假交点，若待提取信息图表的交点的横向存在虚假交点，则过滤掉检测到的虚假交点，得到目标横向交点。

步骤S405，检测目标横向交点的纵向是否存在虚假交点，若目标横向交点的纵向存在虚假交点，则将检测到的虚假交点过滤掉，得到目标交点。

步骤S406，基于目标交点、横向框线和纵向框线确定待提取信息图表的多个最小识别单元。

参见图2，对于最小识别单元A来说，两个虚线圆形框内的交点对于确定最小识别单元A来说没有实际的意义，换句话说，利用虚线圆形框内的两个交点不能确定最小识别单元A，此时，虚线圆形框内的交点即为虚假交点。为了能够准确得到最小识别单元，需要先检测得到的待提取信息图表的交点中是否存在虚假交点。

对于虚假交点的确定，首先需要检测待提取信息图表的交点的横向是否存在虚假交点，例如图2中所示的虚线圆形框内的两个交点，对于最小识别单元A左上角的交点来说就是两个虚假交点；在将横向的虚假交点过滤掉之后，得到的剩余交点即为目标横向交点，然后对目标横向交点进一步检测，以确定每个目标横向交点的纵向是否存在虚假交点，在将纵向的虚假交点过滤掉之后，剩余的交点即为目标交点。图5是本申请实施例提供的另一种最小识别单元的示意图，参见图5，图5所示的虚线圆形框内的两个交点，对于最小识别单元N(2,1)左上角的交点来说为两个纵向的虚假交点，需要过滤掉。

通过剩余的目标交点以及识别出的横向框线和纵向框线即可准确地确定出待提取信息图表的多个最小识别单元。

步骤S407，对待提取信息图表中的每个最小识别单元进行文本识别，得到待提取信息图表的图表信息。

基于上述技术方案，在实施例对检测所述待提取信息图表的交点的横向是否存在虚假交点，若所述待提取信息图表的交点的横向存在虚假交点，则过滤掉检测到的虚假交点，得到目标横向交点；以及检测所述目标横向交点的纵向是否存在虚假交点，若所述目标横向交点的纵向存在虚假交点，则将检测到的虚假交点过滤掉，得到目标交点分别进行说明。如图6所示，本实施例提供的图表信息提取方法包括如下步骤：

步骤S601，获取待提取信息图表，并对待提取信息图表进行预处理。

步骤S602，基于开闭运算原理提取预处理后的待提取信息图表的横向框线和纵向框线。

步骤S603，将提取出的横向框线和纵向框线做交集运算，得到待提取信息图表的交点。

步骤S604，沿横向从左至右依次检测每个待提取信息图表的交点(mi，j)的纵向下方是否存在直线，其中，交点(mi，j)为第i行第j列的交点，1≤i≤n1，1≤j≤n2，n1为所述信息图表的总行数，n2为所述信息图表的总列数。

在本实施例中，以图2为例，图2所示的信息图表中共存在5行7列，其中，位于最小识别单元N(1,1)的左上角的交点、位于最小识别单元N(1,2)的左上角的交点、位于最小识别单元N(1,3)的左上角的交点、位于最小识别单元N(1,4)的左上角的交点、位于最小识别单元N(2,3)的左上角的交点、位于最小识别单元N(2,4)的左上角的交点以及位于最小识别单元N(2,4)的右下角的交点分别位于信息图表的7列中。

步骤S605，若待提取信息图表的交点(mi，j)的纵向不存在直线，则待提取信息图表的交点(mi，j)为虚假交点，将虚假交点过滤掉，得到目标横向交点。

纵向即图表的第一行指向最后一行的方向。对于横向虚假交点的确定，只需要确定待提取信息图表的交点的纵向下方是否存在直线即可，以图2中的最小识别单元N(2，2)为例，最小识别单元N(2，2)的左上角第一个交点(m2，2)的纵向有直线，即最小识别单元N(2，2)的左侧纵向框线，因此，交点(m2，2)不是虚假交点，对于交点(m2，3)来说，其纵向没有直线，因此，交点(m2，3)是虚假交点，需要过滤掉，相应的，交点(m2，4)也是虚假交点，也要过滤掉，而交点(m2，5)不是虚假交点，需要保留。

步骤S606，依次获取每个目标横向交点的水平相邻的目标横向交点的纵向下方的全部交点，得到所述每个目标横向交点的多个对角线点，其中，所述全部交点中的一个交点为所述多个对角线交点中的一个对角线点。

步骤S607，检测所述每个目标横向交点与所述每个目标横向交点的每个对角线点之间的连线在横向上的投影处是否存在对应的横向框线。

步骤S608，若所述每个目标横向交点与所述每个对角线点之间的连线在横向上的投影处不存在对应的横向框线，则所述每个对角线点为虚假交点，将虚假交点过滤掉，得到目标交点。

对于纵向虚假交点的确定，在确定了目标横向交点之后，仅需要依次检测由该目标横向交点沿水平方向的相邻目标横向交点的纵向下方的交点(即对角线点)，该目标横向交点与该交点之间的连线在横向上的投影处是否存在对应的横向框线，若该目标横向交点与对角线点之间的连线在横向上的投影处存在对应的横向框线，则可确定该对角线点为所需要的目标交点，予以保留，若该目标横向交点与对角线点之间的连线在横向上的投影处不存在对应的横向框线，该对角线点为虚假交点，需要过滤掉，然后沿着该目标横向交点的水平相邻目标横向交点的纵向下方继续判别下一个交点，直到检测到该目标横向交点与对角线点之间的连线在横向上的投影存在横向框线为止，与该目标横向交点之间的连线在横向上的投影处不存在对应的横向框线的对角线点均为需要过滤掉的纵向虚假交点。

参见图5，以图5中的最小识别单元N(2，1)为例，最小识别单元N(2，1)的左上角第一个交点(m2，1)为目标横向交点，该目标横向交点(m2，1)的水平相邻目标横向交点(m2，2)的纵向下方的第一个交点作为对角线点(m3，2)(即图5中上方的圆形虚线框内的交点)，目标横向交点(m2，1)与对角线点(m3，2)之间的连线在横向上的投影处不存在对应的横向框线(即图5中所示虚线处存在横向框线)，因此，对角线点(m3，2)是虚假交点，需要过滤掉；同理，对角线点(m4，2)(即图5中下方的圆形虚线框内的交点)也是虚假交点，也要过滤掉，而由于交点(m5，2)(即图5中方形虚线框内的交点)和目标横向交点(m2，1)的连线在横向上的投影处存在横向框线，因此交点(m5，2)不是虚假交点，需要保留。

步骤S609，基于目标交点、横向框线和纵向框线确定待提取信息图表的多个最小识别单元。

步骤S610，对待提取信息图表中的每个最小识别单元进行文本识别，得到待提取信息图表的图表信息。

基于上述技术方案，本实施例对上述实施例进行说明。如图7所示，本实施例提供的图表信息提取方法还包括如下步骤：

步骤S701，获取待提取信息图表，并对待提取信息图表进行预处理。

步骤S702，基于开闭运算原理提取预处理后的待提取信息图表的横向框线和纵向框线。

步骤S703，将提取出的横向框线和纵向框线做交集运算，得到待提取信息图表的交点。

步骤S704，基于待提取信息图表的交点、横向框线和纵向框线确定待提取信息图表的多个最小识别单元。

步骤S705，利用确定出的多个最小识别单元对待提取信息图表进行区域定位。

步骤S706，对区域定位后的待提取信息图表中的每个最小识别单元进行文本识别。

为了准确地找到待提取信息图表中的每一块最小识别单元在待提取信息图表中的位置，还需要对确定出的多个最小识别单元在待提取信息图表中进行区域定位，最终对区域定位后的待提取信息图表中的每个最小识别单元进行文本识别，得到待提取信息图表的图表信息。

可选地，步骤S705，利用确定出的多个最小识别单元对待提取信息图表进行区域定位包括：

依据确定出的多个最小识别单元对待提取信息图表进行切割；

对切割后的每个最小识别单元进行编码，得到区域定位后的待提取信息图表。

为了准确地找到表格中每一块最小识别单元在表格中的位置，首先需要对待提取信息图表进行切割，切割的依据为得出的每个最小识别单元，即每一个最小识别单元切割成一个图片，然后对切割出来的图片进行编号。示例性地，参见图2和图6，可将一个最小识别单元的图片编码记为N(p，q)，(p和q均为大于等于1的正整数)。p表示最小识别单元所在的行数，q表示最小识别单元所在行的列数。因此，从待提取信息图表中提取的关键信息可表示为提取一串序列N(p，q)所对应的信息。

本申请实施例还提供了一种图表信息提取装置，该图表信息提取装置用于执行本申请上述实施例所提供的图表信息提取方法，以下对本申请实施例提供的图表信息提取装置做介绍。

图8是本申请实施例提供的一种图表信息提取装置的结构图，如图8所示，该图表信息提取装置主要包括：预处理单元81，框线提取单元82，交点确定单元83，区域确定单元84和文本识别单元85，其中：预处理单元81，设置为获取待提取信息图表，并对待提取信息图表进行预处理；框线提取单元82，设置为基于开闭运算原理提取预处理后的待提取信息图表的横向框线和纵向框线；交点确定单元83，设置为提取出的横向框线和纵向框线做交集运算，得到待提取信息图表的交点；区域确定单元84，设置为基于待提取信息图表的交点、横向框线和纵向框线确定待提取信息图表的多个最小识别单元；文本识别单元85，设置为对待提取信息图表中的每个最小识别单元进行文本识别，得到待提取信息图表的图表信息。

通过使用本申请实施例提供的图表信息提取装置，不仅能够高效、灵活、准确地提取出图像表格中的关键信息，还提高了电网安全监察人员对相关图像表格审查的工作效率。

可选地，区域确定单元84，包括：横向检测子单元，设置为检测待提取信息图表的交点的横向是否存在虚假交点，若待提取信息图表的交点的横向存在虚假交点，则过滤掉检测到的虚假交点，得到目标横向交点；纵向检测子单元，设置为检测目标横向交点的纵向是否存在虚假交点，若目标横向交点的纵向存在虚假交点，则将检测到的虚假交点过滤掉，得到目标交点；确定子单元，设置为基于目标交点、横向框线和纵向框线确定待提取信息图表的多个最小识别单元。

可选地，横向检测子单元是设置为：沿横向从左至右依次检测每个待提取信息图表的交点(mi，j)的纵向下方是否存在直线，其中，交点(mi，j)为第i行第j列交点，1≤i≤n1，1≤j≤n2，n1为所述信息图表的总行数，n2为所述信息图表的总列数；若待提取信息图表的交点(mi，j)的纵向不存在直线，则待提取信息图表的交点(mi，j)为虚假交点，将虚假交点过滤掉，得到目标横向交点。

可选地，纵向检测子单元是设置为：依次获取每个目标横向交点的水平相邻的目标横向交点的纵向下方的全部交点，得到所述每个目标横向交点的多个对角线点，其中，所述全部交点中的一个交点为所述多个对角线交点中的一个对角线点；检测所述每个目标横向交点与所述每个目标横向交点的每个对角线点之间的连线在横向上的投影处是否存在对应的横向框线；若所述每个目标横向交点与所述每个对角线点之间的连线在横向上的投影处不存在对应的横向框线，则所述每个对角线点为虚假交点，将虚假交点过滤掉，得到目标交点。

可选地，该图表信息提取装置还包括：区域定位单元，设置为利用确定出的多个最小识别单元对待提取信息图表进行区域定位。

可选地，区域定位单元包括：切割子单元，设置为依据确定出的多个最小识别单元对待提取信息图表进行切割；编码子单元，设置为对切割后的每个最小识别单元进行编码，得到区域定位后的待提取信息图表。

可选地，预处理单元81包括：获取子单元，设置为获取待提取信息图表的图像；判断子单元，设置为判断图像是否发生倾斜；校正子单元，设置为若所述图像发生倾斜，则利用基于方向投影的图像倾角检测算法对图像进行校正；二值化子单元，设置为对校正后的图像进行二值化处理，得到预处理后的待提取信息图表。

可选地，框线提取单元82是设置为：利用公式

本申请实施例所提供的图表信息提取装置，实现原理和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本申请实施例提供的图表信息提取方法，与上述实施例提供的图表信息提取装置具有相同的技术特征，所以也能解决相同的技术问题。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在由计算机处理器执行时用于执行本申请任意实施例提供的图表信息提取方法。

该图表信息提取方法包括：获取待提取信息图表，并对所述待提取信息图表进行预处理；基于开闭运算原理提取预处理后的所述待提取信息图表的横向框线和纵向框线；将提取出的所述横向框线和所述纵向框线做交集运算，得到所述待提取信息图表的交点；基于所述待提取信息图表的交点、所述横向框线和所述纵向框线确定所述待提取信息图表的多个最小识别单元；对所述待提取信息图表中的每个所述最小识别单元进行文本识别，得到所述待提取信息图表的图表信息。

本申请实施例所提供的一种计算机可读存储介质，其计算机可读存储介质上存储的计算机程序由计算机处理器执行时不限于如上所述的方法操作，还可以执行本申请任意实施例所提供的图表信息提取方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以了解到，本申请可借助软件及通用硬件来实现，当然也可以通过硬件实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请的多个实施例所述的方法。

上述图表信息提取装置的实施例中，所包括的多个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，多个功能单元的名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

在本申请实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据情况理解上述术语在本申请中的含义。

Claims

一种图表信息提取方法，包括：

获取待提取信息图表，并对所述待提取信息图表进行预处理；

基于开闭运算原理提取预处理后的所述待提取信息图表的横向框线和纵向框线；

将提取出的所述横向框线和所述纵向框线做交集运算，得到所述待提取信息图表的交点；

基于所述待提取信息图表的交点、所述横向框线和所述纵向框线确定所述待提取信息图表的多个最小识别单元；

对所述待提取信息图表中的每个最小识别单元进行文本识别，得到所述待提取信息图表的图表信息。
根据权利要求1所述的图表信息提取方法，其中，所述基于所述待提取信息图表的交点、所述横向框线和所述纵向框线确定所述待提取信息图表的多个最小识别单元，包括：

检测所述待提取信息图表的交点的横向是否存在虚假交点，响应于所述待提取信息图表的交点的横向存在虚假交点的检测结果，过滤掉检测到的虚假交点，得到目标横向交点；

检测所述目标横向交点的纵向是否存在虚假交点，响应于所述目标横向交点的纵向存在虚假交点的检测结果，将检测到的虚假交点过滤掉，得到目标交点；

基于所述目标交点、所述横向框线和所述纵向框线确定所述待提取信息图表的多个最小识别单元。
根据权利要求2所述的图表信息提取方法，其中，所述检测所述待提取信息图表的交点的横向是否存在虚假交点，响应于所述待提取信息图表的交点的横向存在虚假交点的检测结果，过滤掉检测到的虚假交点，得到目标横向交点，包括：

沿横向从左至右依次检测每个待提取信息图表的交点(mi，j)的纵向下方是否存在直线，其中，交点(mi，j)为第i行第j列交点，1≤i≤n1，1≤j≤n2，n1为所述信息图表的总行数，n2为所述信息图表的总列数；

响应于所述待提取信息图表的交点(mi，j)的纵向不存在直线的检测结果，所述待提取信息图表的交点(mi，j)为所述虚假交点，将所述虚假交点过滤掉，得到所述目标横向交点。
根据权利要求2所述的图表信息提取方法，其中，所述检测所述目标横向交点的纵向是否存在虚假交点，响应于所述目标横向交点的纵向存在虚假交点的检测结果，将检测到的虚假交点过滤掉，得到目标交点，包括：

依次获取每个目标横向交点的水平相邻的目标横向交点的纵向下方的全部交点，得到所述每个目标横向交点的多个对角线点，其中，所述全部交点中的一个交点为所述多个对角线交点中的一个对角线点；

检测所述每个目标横向交点与所述每个目标横向交点的每个对角线点之间的连线在横向上的投影处是否存在对应的横向框线；

响应于所述每个目标横向交点与所述每个对角线点之间的连线在横向上的投影处不存在对应的横向框线的检测结果，所述每个对角线点为所述虚假交点，将所述虚假交点过滤掉，得到所述目标交点。
根据权利要求1所述的图表信息提取方法，在对所述待提取信息图表中的每个最小识别单元进行文本识别之前，还包括：

利用确定出的所述多个最小识别单元对所述待提取信息图表进行区域定位；

对区域定位后的所述待提取信息图表中的每个最小识别单元进行文本识别。
根据权利要求5所述的图表信息提取方法，其中，所述利用确定出的所述多个最小识别单元对所述待提取信息图表进行区域定位，包括：

依据确定出的所述多个最小识别单元对所述待提取信息图表进行切割；

对切割后的每个最小识别单元进行编码，得到区域定位后的所述待提取信息图表。
根据权利要求1所述的图表信息提取方法，其中，所述获取待提取信息图表，并对所述待提取信息图表进行预处理，包括：

获取所述待提取信息图表的图像；

判断所述图像是否发生倾斜；

响应于所述图像发生倾斜的判断结果，利用基于方向投影的图像倾角检测算法对所述图像进行校正；

对校正后的所述图像进行二值化处理，得到预处理后的所述待提取信息图表。
根据权利要求1所述的图表信息提取方法，其中，所述基于开闭运算原理提取预处理后的所述待提取信息图表的横向框线和纵向框线，包括：

利用公式Y＝(FοG)·G提取预处理后的所述待提取信息图表的横向框线和纵向框线，其中，F为所述待提取信息图表，Y为框线提取结果，G表示结构元素。
一种图表信息提取装置，包括：

预处理单元，设置为获取待提取信息图表，并对所述待提取信息图表进行预处理；

框线提取单元，设置为基于开闭运算原理提取预处理后的所述待提取信息图表的横向框线和纵向框线；

交点确定单元，设置为提取出的所述横向框线和所述纵向框线做交集运算，得到所述待提取信息图表的交点；

区域确定单元，设置为基于所述待提取信息图表的交点、所述横向框线和所述纵向框线确定所述待提取信息图表的多个最小识别单元；

文本识别单元，设置为对所述待提取信息图表中的每个最小识别单元进行文本识别，得到所述待提取信息图表的图表信息。
一种计算机可读存储介质，存储有计算机程序，该程序被处理器执行时实现如权利要求1-8任一所述的图表信息提取方法。