WO2021190146A1

WO2021190146A1 - 图片处理方法、装置、存储介质及电子设备

Info

Publication number: WO2021190146A1
Application number: PCT/CN2021/074706
Authority: WO
Inventors: 刘鹏
Original assignee: Oppo广东移动通信有限公司
Priority date: 2020-03-27
Filing date: 2021-02-01
Publication date: 2021-09-30
Also published as: CN111444922A

Abstract

本申请公开了一种图片处理方法、装置、存储介质及电子设备。该方法包括：获取待处理图片；调用预训练的图像语义分割模型将待处理图片划分为多个区域，其中，每个区域对应一类别，类别包括文本类别、表格类别和图片类别；从多个区域中确定出目标区域；对目标区域进行文字识别处理，以识别得到目标区域中的文字。

Description

图片处理方法、装置、存储介质及电子设备

本申请要求于2020年3月27日提交中国专利局、申请号为202010230790.8、申请名称为“图片处理方法、装置、存储介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于电子技术领域，尤其涉及一种图片处理方法、装置、存储介质及电子设备。

背景技术

在现实生活中，文字无处不在。然而，很多文字信息最初是通过拍摄以图片形式存在的，如身份证、银行卡、护照、名片、票据、书籍等等。若需要获取这些文字信息，则需要对图片中的文字进行识别，并输出识别出的文字。

在实际应用中，在需要对图片中的文字进行识别时，可能存在需要识别一张图片中的所有文字的用户需求，也可能存在仅需要识别一张图片的部分区域中的文字的用户需求。

发明内容

本申请实施例提供一种图片处理方法、装置、存储介质及电子设备，可以提高对图片中的文字进行识别的灵活性。

第一方面，本申请实施例提供一种图片处理方法，包括：

获取待处理图片；

调用预训练的图像语义分割模型将所述待处理图片划分为多个区域，其中，每个区域对应一类别，所述类别包括文本类别、表格类别和图片类别；

从所述多个区域中确定出目标区域；

对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字。

第二方面，本申请实施例提供一种图片处理装置，包括：

获取模块，用于获取待处理图片；

调用模块，用于调用预训练的图像语义分割模型将所述待处理图片划分为多个区域，其中，每个区域对应一类别，所述类别包括文本类别、表格类别和图片类别；

确定模块，用于从所述多个区域中确定出目标区域；

识别模块，用于对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字。

第三方面，本申请实施例提供一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行本申请实施例提供的图片处理方法中的流程。

第四方面，本申请实施例还提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本申请实施例提供的图片处理方法中的流程。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其有益效果显而易见。

图1是本申请实施例提供的图片处理方法的第一种流程示意图。

图2是本申请实施例提供的待处理图片示意图。

图3是本申请实施例提供的场景示意图。

图4是本申请实施例提供的图片处理方法的第二种示意图。

图5是本申请实施例提供的图像语义分割模型的网络结构示意图。

图6是本申请实施例提供的图片处理装置的结构示意图。

图7是本申请实施例提供的电子设备的第一种结构示意图。

图8是本申请实施例提供的电子设备的第二种结构示意图。

图9是本申请实施例提供的图像处理电路的结构示意图。

具体实施方式

请参照图示，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例提供一种图片处理方法，包括：

获取待处理图片；

从所述多个区域中确定出目标区域；

在一种实施方式中，所述获取待处理图片之前，还包括：

获取样本图片，所述样本图片包括多个样本区域，每个样本区域对应一类别；

获取待训练的图像语义分割模型；

利用所述样本图片对所述待训练的图像语义分割模型进行训练。

在一种实施方式中，所述目标区域包括表格区域，所述对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字之后，还包括：

识别所述表格区域中的表格的行数与列数；

根据所述行数与列数，生成表格；

将所述文字填充至所述表格中。

在一种实施方式中，所述目标区域还包括文本区域，所述将所述文字填充至所述表格中之后，还包括：

根据所述待处理图片的排版格式，对所述表格和从所述文本区域中识别出的文字进行排版；

输出排版后的表格和从所述文本区域中识别出的文字。

在一种实施方式中，所述输出排版后的表格和从所述文本区域中识别出的文字，包括：

显示编辑界面，所述编辑界面为供用户进行编辑操作的界面；

将排版后的表格和从所述文本区域中识别出的文字输出至所述编辑界面。

在一种实施方式中，所述对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字，包括：

获取预训练的文字识别模型；

利用所述文字识别模型对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字。

在一种实施方式中，所述利用所述文字识别模型对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字之前，还包括：

当所述多个区域均为目标区域时，判断所述待处理图片的长度是否大于预设长度；

若所述待处理图片的长度大于预设长度，则对所述待处理图片进行裁切处理，以将所述待处理图片裁切为多个子图片，其中，每个子图片与一区域对应；

所述利用所述文字识别模型对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字，包括：

利用所述文字识别模型对每个子图片进行文字识别处理，以识别得到每个子图片中的文字。

可以理解的是，本申请实施例的执行主体可以是诸如智能手机或平板电脑等电子设备。

请参阅图1，图1是本申请实施例提供的图片处理方法的第一种流程示意图，流程可以包括：

在101中，获取待处理图片。

其中，该待处理图片的类别可至少包括两种类别。比如，若某图片中包括文本和图片，则该图片的类别可以包括文本类别和图片类别，电子设备可将该图片确定为待处理图片。又比如，若某图片中包括文本、图片和表格，则该图片的类别可以包括文本类别、图片类别和表格类别，电子设备可将该图片确定为待处理图片。

例如，该待处理图片可如图2所示。该待处理图片G1中包括文本、表格和图片。该待处理图片G1的类别可以包括文本类别、表格类别和图片类别。

在102中，调用预训练的图像语义分割模型将待处理图片划分为多个区域，其中，每个区域对应一类别，该类别包括文本类别、表格类别和图片类别。

相关技术中，在对图片进行文字识别时，通常会将该图片中包含的全部文字识别处理。以如图2所示的待处理图片G1为例，若采用相关技术提供的方案对该待处理图片G1进行文字识别，那么，无论是图片中的文本区域的文字，还是表格区域的文字，亦或是图片区域中的文字，均会被识别并输出。

然而，用户可能仅需要得到文本区域的文字，若采用相关技术的方案，用户还得将识别出来的表格区域和图片区域的文字删除，才能得到文本区域的文字，这一过程相当麻烦。因此，在本申请实施例中，在获取待处理图片，并对待处理图片进行文字识别之前，电子设备会先调用预训练的图像语义分割模型将待处理图片划分为多个区域。其中，每个区域对应一类别，该类别包括文本类别、表格类别和图片类别。如图3所示，待处理图片G1将会被划分为3个区域，分别为文本所在的文本区域A1、表格所在的表格区域A2和图片所在的图片区域A3。其中，文本区域A1对应文本类别，文本区域A2对应表格类别，文本区域A3对应图片类别。

在一些实施例中，电子设备可预先对u-net网络进行训练，并将训练好的u-net网络作为预训练的图像语义分割模型。

在103中，从多个区域中确定出目标区域。

比如，可以由用户从多个区域中指定出目标区域。例如，若用户想识别表格区域的文字，那么，用户可点击待处理图片的表格区域。当电子设备接收到用户的点击操作时，电子设备可根据用户的点击操作所点击的位置确定目标区域为表格区域。

在一些实施例中，电子设备可预先将表格区域、文本区域或图片区域中的一种或多种设置为预设区域。在调用预训练的图像语义分割模型将待处理图片划分为多个区域之后，电子设备可将多个区域中与预设区域匹配的区域确定为目标区域。例如，若预设区域包括表格区域和文本区域，多个区域包括表格区域、文本区域和图片区域，那么，目标区域可以为表格区域和文本区域。又例如，若预设区域为文本区域，多个区域包括表格区域、文本区域和图片区域，那么，目标区域可以为文本区域。

在104中，对目标区域进行文字识别处理，以识别得到目标区域中的文字。

例如，请继续参阅图3，若目标区域为文本区域A1，那么，电子设备可对该文本区域A1进行文字识别处理，以识别得到该文本区域A1中的文字。

在识别得到目标区域中的文字之后，电子设备还可将目标区域中的文字输出。例如，电子设备可将文本区域A1中的文字保存为可编辑的形式，如word、TXT格式等。

本申请实施例中，可调用预训练的图像语义分割模型将待处理图片划分为多个区域，从而在仅需要识别多个区域中的某一个区域的文字时，可以将该区域确定为目标区域；在需要识别出整个待处理图片中的文字时，可将该多个区域均确定为目标区域，再对确定出的目标区域进行文字识别处理。可见，本申请实施例提供的图片处理方法可以提高对图片中的文字进行识别的灵活性。

请参阅图4，图4是本申请实施例提供的图片处理方法的第二种流程示意图，流程可以包括：

在201中，电子设备获取待处理图片。

需要说明的是，上述类别仅仅是本申请实施例提供的一种示例，并不用于限制本申请。

还需要说明的是，由于本申请实施例采用模型对待处理图片进行处理，而模型通常对输入的图片的属性有一些要求，待处理图片应当符合这些要求，以使模型能够正常处理。

可以理解的是，当电子设备获取的图片为不符合模型要求的图片时，电子设备可对该图片进行预处理，以使该图片符合模型的要求。

例如，假设模型要求输入图片的尺寸为预设尺寸，例如256×256。若电子设备获取的图片不为预设尺寸，那么，电子设备需将该图片的尺寸调整为预设尺寸，得到待处理图片。

又例如，假设模型要求输入图片的像素值应当归一化，例如，像素值应为[0,1]之间的实数，若电子设备获取的图片未归一化，电子设备应当将其归一化，得到待处理图片。例如，某图片的像素值表示为[0,255]之间的整数，可以通过除以255的方式进行归一化。可以理解的是，归一化可以有不同的定义，例如在另一种归一化的定义中，像素值应当为[-1,1]之间的实数，针对不同的归一化定义，归一化的方式应当相应地调整。

其中，该待处理图片可以为彩色图片，也可以为灰度图片。

在202中，电子设备将待处理图片输入编码模块，得到编码特征图集合。

在203中，电子设备将编码特征图集合输入解码模块，得到目标图像，其中，该目标图像中的每个像素点对应一类别，该类别包括文本类别、表格类别和图片类别。

可以理解的是，电子设备可预先创建一图像语义分割模型，并对该图像语义分割模型进行训练，然后将训练好的语义分割模型作为预训练的图像语义分割模型，并保存该预训练的图像语义分割模型。其中，该预训练的图像语义分割模型可包括编码模块和解码模块。

在得到待处理图片之后，电子设备可将该待处理图片输入该编码模块，得到编码特征图集合。其中，编码特征图集合包括多个编码特征图，多个编码特征图的尺寸可以相同，也可以不相同。

当得到编码特征图集合之后，电子设备可将该编码特征图集合输入该解码模块，得到目标图像，其中，目标图像可为一个双通道的图像。其中，一个通道的目标图像中每个像素点的像素值表示该像素点所属的类别，另一个通道的目标图像中每个像素点的像素值表示该像素点属于某个类别的概率。例如，另一个通道的图像中的像素点的像素值可以取值为0～3，其中，0表示背景类别、1表示文本类别、2表示表格类别、3表示图片类别。

在一些实施例中，假设类别有4类，电子设备将该编码特征图集合输入该解码模块之后，可得到4个通道的特征图。然后，电子设备可根据这4个通道的特征图，得到目标图像。

其中，每个通道的特征图中的每个像素点的像素值表示该像素点属于4个类别中的其中一个类别的概率。4个通道的特征图中相同位置的像素点的像素值之和为1。比如，通道C1的特征图中每个像素点的像素值表示该像素点属于背景类别的概率，通道C2的特征图中每个像素点的像素值表示该像素点属于文本类别的概率，通道C3的特征图中每个像素点的像素值表示该像素点属于表格类别的概率，通道C4的特征图中每个像素点的像素值表示该像素点属于图片类别的概率。

电子设备可将4个通道的特征图中相同位置的像素点的最大像素值作为其中一个通道的目标图像的相应位置的像素点的像素值。例如，假设4个通道的特征图中某相同位置的像素点的像素值分别为0.1、0.1、0.1、0.7。则可将0.7作为其中一个通道的目标图像的相应位置的像素点的像素值。且若0.7对应为该像素点属于图片类别的概率，那么另一个通道的目标图像的相应位置的像素值可取值为3(表示该像素点属于图片类别，且属于图片类别的概率为0.7)。

其中，类别的数量由前期训练过程决定。例如，若前期训练过程采用了3个类别，分别为表格类别、文本类别和图片类别，则该目标图像中的像素点对应的类别即为该3个类别中的其中一个类别。

在204中，电子设备利用目标图像中的每个像素点对应的类别，将待处理图片划分为多个区域，其中，每个区域对应一类别。

其中，目标图像的大小与待处理图片的大小一致。那么，当得到目标图像之后，电子设备可利用目标图像中的每个像素点对应的类别，将待处理图片划分为多个区域。若待处理图片如图3所示，那么，目标图像中与文本区域A1对应的区域中的每个像素点均对应文本类别，目标图像中与表格区域A2对应的区域中的每个像素点均对应表格类别，目标图像中与图片区域A3对应的区域中的每个像素点均对应类别，从而可知，该待处理图片可被划分为文本区域A1、表格区域A2和图片区域A3。

在205中，电子设备从多个区域中确定出目标区域。

在206中，电子设备对目标区域进行文字识别处理，以识别得到目标区域中的文字。

在一些实施例中，在识别得到目标区域中的文字之后，电子设备还可接收用户的保存指令，该保存指令用于指示将识别出的目标区域中的文字的保存格式。随后，电子设备可根据该保存指令保存识别出的目标区域中的文字。例如，若该保存指令指示将识别出的目标区域中的文字保存为word格式，那么，电子设备可将识别出的目标区域中的文字保存为word格式。

在一些实施例中，编码模块可包括第一编码子模块、第二编码子模块、第三编码子模块、第四编码子模块和第五编码子模块，流程202可以包括：

电子设备调用第一编码子模块对待处理图片进行编码处理，得到第一编码特征图；

电子设备调用第二编码子模块对第一编码特征图进行编码处理，得到第二编码特征图；

电子设备调用第三编码子模块对第二编码特征图进行编码处理，得到第三编码特征图；

电子设备调用第四编码子模块对第三编码特征图进行编码处理，得到第四编码特征图；

电子设备调用第五编码子模块对第四编码特征图进行编码处理，得到第五编码特征图；

第一编码特征图、第二编码特征图、第三编码特征图、第四编码特征图和第五编码特征图构成编码特征图集合。

其中，对图像进行编码处理可以理解为对图像进行下采样处理、池化处理或卷积处理等。

比如，电子设备可调用第一编码子模块对待处理图片(灰度图片)进行卷积处理，得到第一编码特征图。其中，第一编码子模块可包括多个卷积核。卷积核的数量可以为64个或128个等，卷积核的大小可以为7×7或者8×8等，步长为2或者3等，此处不作具体限制。第一编码特征图的尺寸小于待处理图片的尺寸。

在一些实施例中，电子设备可调用第一编码子模块对待处理图片(彩色图片)进行卷积处理，得到第一编码特征图。其中，第一编码子模块可包括多个卷积核。卷积核的数量为64，卷积核的大小可根据实际情况而定。卷积核可为3个维度的卷积核。该处的卷积处理即计算待处理图片与每一3个维度的卷积核的矩阵内积，得到64个维度的第一编码特征图。

其中，假设某彩色图片的像素矩阵为

某卷积核为

则该彩色图片与卷积核的矩阵内积为

当得到第一编码特征图之后，电子设备可调用第二编码子模块对该第一编码特征图进行池化处理，得到池化特征图，其中，池化尺度为2×2。然后，电子设备可调用第二编码子模块的瓶颈结构对池化特征图进行多次，如2次或3次处理，得到第二编码特征图。其中，第一编码特征图的维度可以为64，第二编码特征图的维度可以为256。第二编码特征图的尺寸小于第一编码特征图的尺寸。

当得到第二编码特征图之后，电子设备可调用第三编码子模块的瓶颈结构对该第二编码特征图进行多次，如3次或4次处理，得到第三编码特征图。第三编码特征图的维度可以为512。第三编码特征图的尺寸小于第二编码特征图的尺寸。

当得到第三编码特征图之后，电子设备可调用第四编码子模块的瓶颈结构对该第三编码特征图进行多次，如4次或5次处理，得到第四编码特征图。第四编码特征图的维度可以为1024。第四编码特征图的尺寸小于第三编码特征图的尺寸。

当得到第四编码特征图之后，电子设备可调用第五编码子模块的瓶颈结构对该第四编码特征图进行多次，如3次或4次处理，得到第五编码特征图。第五编码特征图的维度可以为512。第五编码特征图的尺寸小于第四编码特征图的尺寸。

在一些实施例中，解码模块可包括第一解码子模块、第二解码子模块、第三解码子模块、第四解码子模块和第五解码子模块，流程203，可以包括：

电子设备调用第一解码子模块对第五编码特征图进行解码处理，得到第一解码特征图，并对第一解码特征图与根据第四编码特征图确定的目标特征图进行融合处理，得到第一融合特征图；

电子设备调用第二解码子模块对第一融合特征图进行解码处理，得到第二解码特征图，并对第二解码特征图与第三编码特征图进行融合处理，得到第二融合特征图；

电子设备调用第三解码子模块对第二融合特征图进行解码处理，得到第三解码特征图，并对第三解码特征图与第二编码特征图进行融合处理，得到第三融合特征图；

电子设备调用第四解码子模块对第三融合特征图进行解码处理，得到第四解码特征图，并对第四解码特征图与第一编码特征图进行融合处理，得到第四融合特征图；

电子设备调用第五解码子模块对第四融合特征图进行解码处理，得到第五解码特征图，并对第五解码特征图与待处理图片进行融合处理，得到第五融合特征图，并根据第五融合特征图确定目标图像。

其中，对图像进行解码处理可以理解为对图像进行上采样处理、反池化处理、反卷积处理或卷积处理等。

比如，电子设备可调用第一解码子模块对第五编码特征图进行反卷积处理或上采样处理，得到第一解码特征图。其中，上采样的尺寸可根据实际情况确定。反卷积对应的卷积核也可根据实际情况确定。随后，电子设备可对第一解码特征图与根据第四编码特征图确定的目标特征图进行融合处理，得到第一融合特征图。其中，第一融合特征图的通道数为目标特征图的通道数与第一解码特征图的通道数之和。根据第四编码特征图确定的目标特征图为对第四编码特征图进行卷积处理得到。其中，卷积处理对应的卷积核可根据实际情况确定。

随后，电子设备可调用第二解码子模块对第一融合特征图进行卷积及上采样处理，得到第二解码特征图。其中，该卷积处理对应的卷积核可根据实际情况确定。电子设备可调用第二解码子模块对第二解码特征图与第三编码特征图进行融合处理，得到第二融合特征图。其中，第二融合特征图的通道数为第二解码特征图的通道数与第三编码特征图的通道数之和。

接着，电子设备可调用第三解码子模块对第二融合特征图进行卷积处理，得到第三解码特征图。其中，该卷积处理对应的卷积核可根据实际情况确定。电子设备可调用第三解码子模块对第三解码特征图与第二编码特征图进行融合处理，得到第三融合特征图。其中，第三融合特征图的通道数为第三解码特征图的通道数与第二编码特征图的通道数之和。

之后，电子设备可调用第四解码子模块对第三融合特征图进行卷积处理，得到第四解码特征图。其中，该卷积处理对应的卷积核可根据实际情况确定。电子设备可调用第四解码子模块对第四解码特征图与第一编码特征图进行融合处理，得到第四融合特征图。其中，第四融合特征图的通道数为第四解码特征图的通道数与第一编码特征图的通道数之和。

随后，电子设备可调用第五解码子模块对第四融合特征图进行卷积处理，得到第五解码特征图。其中，该卷积处理对应的卷积核可根据实际情况确定。电子设备可调用第五解码子模块对第五解码特征图与待处理图片进行融合处理，得到第五融合特征图。其中，第五融合特征图的通道数为第五解码特征图的通道数与待处理图片的通道数之和。电子设备还可调用该第五解码子模块根据该第五融合特征图确定目标图像。

其中，电子设备调用该第五解码子模块根据该第五融合特征图确定目标图像，可以包括：电子设备调用该第五解码子模块对该第五融合特征图进行卷积处理，得到第六解码特征图。其中，该卷积处理对应的卷积核可根据实际情况确定。电子设备调用该第五解码子模块对该第六解码特征图进行卷积处理，得到第七解码特征图。其中，假设共有4个类别，那么第七解码特征图为4个通道的特征图。每个通道的特征图中的每个像素点的像素值用于表示该像素点属于4个类别中的其中一个类别的概率。每个通道的特征图与一类别对应。随后，电子设备可调用第五解码子模块根据该第七解码特征图，确定目标图像。

其中，目标图像为双通道图像，电子设备可调用第五解码子模块根据该第七解码特征图，确定目标图像可以为：电子设备可将4个通道的第七编码特征图中相同位置的像素点的最大像素值作为一个通道的目标图像的相应位置的像素点的像素值。例如，假设4个通道的第七编码特征图中某相同位置的像素点的像素值分别为0.1、0.1、0.1、0.7。则可将0.7作为一个通道的目标图像的相应位置的像素点的像素值。且若0.7对应为该像素点属于图片类别的概率，那么另一个通道的目标图像的相应位置的像素值可取值为3(表示该像素点属于图片类别，且属于图片类别的概率为0.7)。

在一些实施例中，在流程201之前，还可以包括：

电子设备获取样本图片，样本图片包括多个样本区域，每个样本区域对应一类别；

电子设备获取待训练的图像语义分割模型；

电子设备利用样本图片对待训练的图像语义分割模型进行训练。

比如，电子设备可收集多张手机截图，再通过图像标注工具对该多张截图的每个像素点进行标注，得到标注好的截图，该标注好的截图可作为样本图片。其中，每个像素点可标注为背景类别、文本类别、图片类别和表格类别四种类别中的一种。

例如，电子设备可用不同的颜色标记该多张截图的每个像素点。例如，若某截图的某个像素点为背景类别，则电子设备可将其标注为黑色(RGB[0,0,0])；若某截图的某个像素点为文本类别，则电子设备可将其标注为红色(RGB[255,0,0])；若某截图的某个像素点为图片类别，则电子设备可将其标注为绿色(RGB[0,255,0])；若某截图的某个像素点为表格类别，则电子设备可将其标注为蓝色(RGB[0,0,255])。

在一些实施例中，若手机截图如图2所示，即文本类别的像素点、表格类别的像素点和图片类别的像素点均集中在某一区域。那么，电子设备也可从多张标注好的截图中，选取出部分文本区域(标注为文本类别的像素点集中所在的区域)、表格区域(标注为表格类别的像素点集中所在的区域)和图片区域(标注为图片类别的像素点集中所在的区域)，然后进行随机组合，组合出多张组合图片，该多张组合图片也可以作为样本图片。其中，组合图片的数量可以与标注好的截图的数量相同，也可以不相同。

当按照上述方式得到多个样本图片之后，电子设备可将该多个样本图片划分为训练集、验证集和测试集。其中，训练集、验证集和测试集的比例可以为3:1:1。例如，训练集可包括6000个样本图片，验证集和测试集可分别包括2000个样本图片。

随后，电子设备可获取待训练的图像语义分割模型，设置训练参数，选取学习率。其中，该待训练的图像语义分割模型可包括编码模块和解码模块。编码模块可包括第一编码子模块、第二编码子模块、第三编码子模块、第四编码子模块和第五编码子模块。解码模块可包括第一解码子模块、第二解码子模块、第三解码子模块、第四解码子模块和第五解码子模块。学习率可以为1×10 ^-5。最大单次样本总数为64。训练迭代次数为300次。每迭代1次进行验证并更新一次模型输出。

接着，电子设备可利用样本图片对该待训练的图像语义分割模型进行训练，以对待训练的图像语义分割模型的参数进行调整，直至待训练的图像语义分割模型收敛，得到预训练的图像语义分割模型。

在一些实施例中，电子设备还可对样本图片进行旋转、缩放、翻转、平移、加噪声、模糊等数据增强操作，得到数据增强图像，再利用该数据增强图像对该待训练的图像语义分割模型进行训练，从而可提高模型的识别能力和泛化能力。其中，旋转角度可以为[-0,1,0,1]rad。缩放倍数可以为[0.8,1.2]。

其中，在该待训练的图像语义分割模型的训练过程中，可采用交叉熵损失函数作为样本图片的损失函数。

在一些实施例中，交叉熵损失函数的公式可以为：

其中，L _log(Y,P)表示样本图片的损失值，y _i,k表示样本图片的第i个像素点的真实类别。P _i,k表示样本图片的第i个像素点属于第k个类别的概率。N表示像素点的数量。

可以理解的是，上述公式仅仅是本申请提供的一种示例，并不用于限制本申请。在实际应用中，还可以采用其他交叉熵损失函数作为样本图片的损失函数，此处不作具体限制。

在本申请实施例中，该待训练的图像语义分割模型对应的损失值可以为所有样本图片的损失值之和的平均值。

在该待训练的图像语义分割模型的训练过程中，电子设备可根据待训练的图像语义分割模型对应的损失值计算各个参数的梯度，然后通过反向传播算法，对整个网络的参数进行更新。

在该待训练的图像语义分割模型的训练过程中，每迭代一次，可采用验证集对该待训练的图像语义分割模型进行验证，并利用评价函数计算出该次迭代的评价值和评价损失值，并输出保存好的图像语义分割模型。其中，评价值与评价损失值之和可以为1。单个样本图片的评价函数的公式可以为：

其中，IoU表示样本图片的评价值，X表示图像语义分割模型对样本图片的预测结果，Y表示样本图片的真实标注结果。

其中，当验证结果趋于收敛时，可停止对图像语义分割模型进行训练。

需要说明的是，在实际应用中，像素点对应的类别不仅仅限于上述类别，还可以是其他类别。例如，当电子设备收集的截图为即时通讯类应用的聊天界面时，由于该类截图中包含有聊天气泡，因此，像素点对应的类别还可以包括气泡类别。又例如，当电子设备收集的截图包括word、ppt或pdf等格式的文档类图片时，由于该类图片中通常包括页眉、页脚和标题。因此，像素点对应的类别还可以包括页眉类别、页脚类别和标题类别。

在一些实施例中，目标区域可以包括表格区域，流程206之后，还可以包括：

电子设备识别表格区域中的表格的行数与列数；

电子设备根据行数与列数，生成表格；

电子设备将文字填充至表格中。

比如，当目标区域包括表格区域时，电子设备可在识别出表格区域中的文字之后，识别表格区域中的表格的行数与列数，并根据表格的行数与列数，生成表格，再将文字填充至表格中。其中，该表格的格式可以为excel格式等可编辑的格式，从而使得用户可对该表格进行编辑操作。其中，编辑操作可包括复制、粘贴、删除等操作。

在一些实施例中，目标区域还包括文本区域，“将文字填充至表格中”之后，还包括：

电子设备根据待处理图片的排版格式，对表格和从文本区域中识别出的文字进行排版；

电子设备输出排版后的表格和从文本区域中识别出的文字。

比如，当目标区域包括文本区域和表格区域时，在将从表格区域识别出的文字填充至表格中之后，电子设备还可按照待处理图片中的排版格式对从文本区域中识别出的文字、表格进行排版组合，使得最终输出结果的排版格式与待处理图片的排版格式一致，从而使得用户无需对识别出的文字进行手动排版。

在一些实施例中，“电子设备输出排版后的表格和从文本区域中识别出的文字”，可以包括：

电子设备显示编辑界面，编辑界面为供用户进行编辑操作的界面；

电子设备将排版后的表格和从文本区域中识别出的文字输出至编辑界面。

其中，编辑界面可以为word文档编辑界面、备忘录编辑界面、短信编辑界面等可供用户进行编辑操作的界面。

比如，当对表格和从文本区域中识别出的文字进行排版之后，电子设备可自动开启word文档应用，并进入word文档编辑界面，电子设备即显示编辑界面。然后，电子设备可将排版后的表格和从文本区域中识别出的文字输出至该编辑界面，从而使得用户可在该编辑界面对排版后的表格和从文本区域中识别出的文字进行相应的编辑操作。

其中，编辑操作可包括复制、粘贴、删除、修改、新增等操作。例如，对于表格来说，用户可新增一行或一列，并在新增的行和列中输入新的内容，以最终形成新的表格。对于从文本区域中识别出的文字来说，用户可新增其他文字，或者删除一些文字，等等。

在一些实施例中，多个区域中的其中一个区域可以为图片区域，“将文字填充至表格中”之后，还可以包括：

电子设备获取图片区域中的图片；

“电子设备根据待处理图片的排版格式，对表格和从文本区域中识别出的文字进行排版”，可以包括：

电子设备根据待处理图片的排版格式，对表格、图片和从文本区域中识别出的文字进行排版；

“电子设备输出排版后的表格和从文本区域中识别出的文字”，可以包括：

电子设备输出排版后的表格、图片和从文本区域中识别出的文字。

比如，当多个区域中的其中一个区域为图片区域，目标区域包括文本区域和表格区域时，在将从表格区域识别出的文字填充至表格中之后，电子设备还可裁切出图片区域中的图片，并按照待处理图片中的排版格式对从文本区域中识别出的文字、表格和图片进行排版组合，使得最终输出结果的排版格式与待处理图片的排版格式一致，从而使得用户无需手动将从文本区域中识别出的文字、表格和图片排版成与待处理图片相同的格式。

在一些实施例中，“电子设备输出排版后的表格、图片和从文本区域中识别出的文字”，可以包括：

电子设备将排版后的表格、图片和从文本区域中识别出的文字输出至编辑界面。

比如，当对表格、图片和从文本区域中识别出的文字进行排版之后，电子设备可自动开启word文档应用，并进入word文档编辑界面，电子设备即显示编辑界面。然后，电子设备可将排版后的表格、图片和从文本区域中识别出的文字输出至该编辑界面，从而使得用户可在该编辑界面对排版后的表格、图片和从文本区域中识别出的文字进行相应的编辑操作。

其中，对图片进行编辑操作可以包括：对图片进行放大、缩小、翻转、删除等操作。

在一些实施例中，流程206，可以包括：

电子设备获取预训练的文字识别模型；

电子设备调用预训练的文字识别模型对目标区域进行文字识别处理，以识别得到目标区域中的文字。

比如，电子设备可获取一待训练的文字识别模型，并对该待训练的文字识别模型进行训练，得到训练好的模型，该训练好的模型可作为预训练的文字识别模型。当从多个区域中确定出目标区域之后，电子设备可调用该预训练的文字识别模型对目标区域进行文字识别处理，以识别得到目标区域中的文字，从而提高了文字识别的精度。

在一些实施例中，“电子设备利用文字识别模型对目标区域进行文字识别处理，以识别得到目标区域中的文字”之前，还可以包括：

当多个区域均为目标区域时，电子设备判断待处理图片的长度是否大于预设长度；

若待处理图片的长度大于预设长度，则电子设备对待处理图片进行裁切处理，以将待处理图片裁切为多个子图片，其中，每个子图片与一区域对应；

“电子设备利用文字识别模型对目标区域进行文字识别处理，以识别得到目标区域中的文字”，可以包括：

电子设备利用文字识别模型对每个子图片进行文字识别处理，以识别得到每个子图片中的文字。

可以理解的是，当输入文字识别模型中的图片的长度过长时，可能影响到文字识别模型的识别结果。因此，当需要对整个待处理图片进行文字识别时，电子设备可判断待处理图片的长度是否大于预设长度，若待处理图片的长度大于预设长度，电子设备可对待处理图片进行裁切处理，以将待处理图片裁切为多个子图片，其中，每个子图片与一区域对应。当得到多个子图片之后，电子设备可利用文字识别模型对每个子图片进行文字识别处理。

其中，子图片的数量与区域的数量对应，电子设备调用预训练的图像语义分割模型将待处理图片划分为多少个区域，则电子设备可根据待处理图片相应裁切出多少个子图片。预设长度可以根据文字识别模型所支持的图片长度确定。例如，若文字识别模型所支持的图片长度为256像素，则预设长度为256像素。

在一些实施例中，电子设备也可将从别处获取的训练好的文字识别模型作为预训练的文字识别模型。

在一些实施例中，流程205，可以包括：

电子设备接收用户输入的生物特征信息；

电子设备将多个区域中与生物特征信息对应的区域确定为目标区域。

其中，生物特征信息可包括指纹信息、声纹信息、人脸特征信息、虹膜信息等。

比如，电子设备可预先设置生物特征信息与区域的对应关系。例如，假设设置指纹J1对应文本区域，指纹J2对应表格区域，指纹J3对应图片区域。

当电子设备将待处理图片划分为文本区域、表格区域和图片区域这3个区域之后，电子设备可接收用户输入的指纹信息，并将该指纹信息对应的区域确定为目标区域。例如，假设用户输入的指纹信息为指纹J1，则目标区域为文本区域。

在一些实施例中，在将待处理图片划分为多个区域(如表格区域、文本区域和图片区域)之后，电子设备可将图片区域和表格区域从待处理图片中分离出来，并将待处理图片中被扣除的区域填充为白色(RGB[255,255,255])，得到文本图片。随后，电子设备可对该文本图片进行文字识别处理，以识别得到该文本图片中的文字。然后，电子设备可提取该识别出的文字，并保存为文本格式。该文本格式为可编辑的格式，从而使得用户可对该识别出的文字进行编辑操作。电子设备也可对表格区域进行文字识别，以识别得到表格区域中的文字。然后，电子设备可识别表格区域中的表格的行数和列数，并根据表格的行数和列数生成可编辑格式的表格。之后，电子设备可将从表格区域中识别出的文字填充至该表格中，以供用户对该表格进行编辑操作。

之后，电子设备还可按照待处理图片中的排版格式对从文本图片中识别出的文字、表格、分离出的图片进行排版组合，使得最终输出结果的排版格式与待处理图片的排版格式一致。其中，最终输出结果中的文字和表格部分可编辑，最终输出结果中的图片可拉伸翻转。

在一些实施例中，电子设备也可提供图片区域的文字识别接口，从而在需要对图片区域的文字进行识别时，可触发识别得到图片区域的文字。

请参阅图5，图5为本申请实施例提供的图像语义分割模型的网络结构示意图。

该图像语义分割模型包括编码模块和解码模块。其中，编码模块主要用于进行特征提取，从输入的数据中提取不同分辨率的特征图。解码模块主要用于进行上采样，且每上采样一次，就和编码模块输出的相应特征图融合。前期，可以获取样本图片对该模型进行训练，从而最终得到训练好的模型，即预训练的图像语义分割模型。

后期，可调用该预训练的图像语义分割模型将待处理图片划分为多个区域。其中，待处理图片的大小可为300×300，维度(通道数)为1。需要说明的是，本申请实施例所提供的待处理图片通常可包括表格、图片和文本三个区域，如图3所示。在一些实施例中，待处理图片还可包括背景区域，如图3所示，背景区域可为待处理图片G1中除文本区域A1、表格区域A2和图片区域A3之外的区域。

其中，“调用该预训练的图像语义分割模型将待处理图片G1划分为多个区域”，可以包括：

电子设备可将待处理图片输入该预训练的图像语义分割模型中，利用卷积核cv1对该待处理图片进行卷积处理，得到第一编码特征图，其中，该第一编码特征图的维度为64。卷积核cv1的数量为64，卷积核cv1的大小为7×7，步长为2。第一编码特征图的尺寸小于待处理图片的尺寸。

电子设备可利用尺寸为2×2的过滤器对第一编码特征图进行池化(pool)处理，得到特征图F1。其中，该特征图F1的维度为64。该特征图F1的尺寸小于第一编码特征图的尺寸。电子设备可利用瓶颈结构b1对特征图F1进行处理，得到特征图F2。其中，该特征图F2的维度为256。该特征图F2的尺寸跟特征图F1的尺寸相同。电子设备可利用瓶颈结构b2对特征图F2进行处理，得到第二编码特征图。其中，第二编码特征图的维度为256。第二编码特征图的尺寸与特征图F2的尺寸相同。

电子设备可利用瓶颈结构b3对第二编码特征图进行处理，得到特征图F3。其中，特征图F3的维度为256。特征图F3的尺寸小于第二编码特征图的尺寸。电子设备可利用瓶颈结构b4对特征图F3进行处理，得到特征图F4。其中，特征图F4的维度为512。特征图F4的尺寸与特征图F3的尺寸相同。电子设备可利用瓶颈结构b5对特征图F4进行处理，得到特征图F5。其中，特征图F5的维度为512。特征图F5的尺寸与特征图F4的尺寸相同。电子设备可利用瓶颈结构b6对特征图F5进行处理，得到第三编码特征图。其中，第三编码特征图的维度为512。第三编码特征图的尺寸与特征图F5的尺寸相同。

电子设备可利用瓶颈结构b7对第三编码特征图进行处理，得到特征图F6。其中，特征图F6的维度为512。特征图F6的尺寸小于第三编码特征图的尺寸。电子设备可利用瓶颈结构b8对特征图F6进行处理，得到特征图F7。其中，特征图F7的维度为1024。特征图F7的尺寸与特征图F6的尺寸相同。电子设备可利用瓶颈结构b9对特征图F7进行处理，得到特征图F8。其中，特征图F8的维度为1024。特征图F8的尺寸与特征图F7的尺寸相同。电子设备可利用瓶颈结构b10对特征图F8进行处理，得到特征图F9。其中，特征图F9的维度为1024。特征图F9的尺寸与特征图F8的尺寸相同。电子设备可利用瓶颈结构b11对特征图F9进行处理，得到特征图F10。其中，特征图F10的维度为1024。特征图F10的尺寸与特征图F9的尺寸相同。电子设备可利用瓶颈结构b12对特征图F10进行处理，得到第四编码特征图。其中，第四编码特征图的维度为1024。第四编码特征图的尺寸与特征图F10的尺寸相同。电子设备可利用卷积核cv2对第四编码特征图进行卷积处理，得到目标特征图。其中，目标特征图的维度为512。目标特征图的尺寸与特征图F10的尺寸相同。

电子设备可利用瓶颈结构b13对第四编码特征图进行处理，得到特征图F11。其中，特征图F11的维度为1024。特征图F11的尺寸小于特征图F10的尺寸。电子设备可利用瓶颈结构b14对特征图F11进行处理，得到特征图F12。其中，特征图F12的维度为2048。特征图F12的尺寸与特征图F11的尺寸相同。电子设备可利用瓶颈结构b15对特征图F12进行处理，得到特征图F13。其中，特征图F13的维度为2048。特征图F13的尺寸与特征图F12的尺寸相同。电子设备可利用瓶颈结构b16对特征图F13进行处理，得到特征图F14。其中，特征图F14的维度为2048。特征图F14的尺寸与特征图F13的尺寸相同。电子设备可利用卷积核cv3对特征图F14进行卷积处理，得到第五编码特征图。其中，第五编码特征图的维度为512。第五编码特征图的尺寸与特征图F14的尺寸相同。卷积核cv3的数量为512，卷积核cv3的大小为1×1，步长为1。

电子设备可对第五编码特征图进行上采样(uc1)处理，得到第一解码特征图。其中，第一解码特征图的维度为512。第一解码特征图的尺寸大于第五编码特征图的尺寸。上采样的倍数可以为2倍、4倍等(视具体情况而定)。电子设备可对第一解码特征图与目标特征图进行融合处理，得到第一融合特征图。其中，第一融合特征图的维度为1024。第一融合特征图的尺寸与第一解码特征图的尺寸相同。

电子设备可利用卷积核cv4对第一融合特征图进行卷积处理，得到特征图F15。其中，特征图F15的维度为512。特征图F15的尺寸与第一融合特征图的尺寸可以相同，也可以不相同。卷积核cv4的数量为256，卷积核cv4的大小为1×1或3×3，步长为1。电子设备可对特征图F15进行上采样(uc2)处理，得到第二解码特征图。其中，第二解码特征图的维度为512。第二解码特征图的尺寸大于特征图F15的尺寸。其中，采样倍数可根据实际情况设置。电子设备可对第二解码特征图和第三编码特征图进行融合处理，得到第二融合特征图。其中，第二融合特征图的维度为1024。第二融合特征图的尺寸与第三解码特征图的尺寸可以相同。

电子设备可利用卷积核cv5对第二融合特征图进行卷积处理，得到特征图F16。其中，特征图F16的维度为256。特征图F16的尺寸与第一融合特征图的尺寸可以相同，也可以不相同，视卷积核的大小而定。电子设备可对特征图F16进行上采样(uc3)处理，得到第三解码特征图。其中，第三解码特征图的维度为256。第三解码特征图的尺寸大于特征图F16的尺寸。电子设备可对第三解码特征图和第二编码特征图进行融合处理，得到第三融合特征图。其中，第三融合特征图的维度为512。第三融合特征图的尺寸与第三解码特征图的尺寸相同。

电子设备可利用卷积核cv6对第三融合特征图进行卷积处理，得到特征图F17。其中，特征图F17的维度为128。特征图F17的尺寸与第三融合特征图的尺寸可以相同，也可以不相同，视实际情况而定。电子设备可对特征图F17进行上采样(uc4)处理，得到第四解码特征图。其中，第四解码特征图的维度为128。第四解码特征图的尺寸大于特征图F17的尺寸。电子设备可对第四解码特征图与第一编码特征图进行融合处理，得到第四融合特征图。其中，第四融合特征图的维度为192。第四融合特征图的尺寸与第四解码特征图的尺寸相同。

电子设备可利用卷积核cv7对第四融合特征图进行卷积处理，得到特征图F18。其中，特征图F18的维度为64。特征图F18的尺寸与第四融合特征图的尺寸可以相同，也可以不相同，视实际情况而定。电子设备可对特征图F18进行上采样(uc5)处理，得到第五解码特征图。其中，第五解码特征图的维度为64。第五解码特征图的尺寸大于特征图F18的尺寸。电子设备可对第五解码特征图与待处理图片进行融合处理，得到第五融合特征图。其中，第五融合特征图的维度为65。第五融合特征图的尺寸与第五解码特征图的尺寸相同。

电子设备可利用卷积核cv8对第五融合特征图进行卷积处理，得到特征图F19。其中，特征图F19的维度为32。特征图F19的尺寸与第五融合特征图的尺寸可以相同，也可以不相同。电子设备可利用卷积核cv9对特征图F19进行卷积处理，得到特征图F20。其中，特征图F20的维度为4。特征图F20的尺寸与待处理图片的尺寸相同。其中，每个维度的特征图F20中每个像素点的像素值表示该像素点属于某个类别的概率。每个维度的特征图F20均与1个类别对应。例如，第一个维度的特征图F20可对应背景类别，则该维度的特征图中的每个像素点的像素值表示该像素点属于背景类别的概率。以此类推，第二个维度的特征图F20可对应文本类别，第三个维度的特征图F20可对应表格类别。第四个维度的特征图F20可对应图片类别。其中，4个维度的特征图中相同位置的像素值之和为1。电子设备可确定4个维度的特征图F20中相同位置的最大像素值。然后，电子设备可根据最大像素值确定目标图像。其中，目标图像的维度为2。其中一个维度的目标图像中像素点的像素值为电子设备得到的最大像素值。另一个维度的目标图像中像素点的像素值表示该像素点所属的类别，取值可为0～3，分别对应背景类别、文本类别、表格类别和图片类别。例如，假设电子设备确定表格类别对应的特征图F20中某个像素点的像素值最大，那么，电子设备可将该像素值作为目标图像的相应位置的像素点的像素值，并将表格类别作为该像素点对应的类别。

需要说明的是，由于需要进行融合处理的特征图可能会存在尺寸不相同的问题。因此，当需要进行融合处理的特征图的尺寸不相同时，电子设备可对尺寸较大的特征图进行裁剪处理，以使需要进行融合处理的特征图的尺寸相同。其中，电子设备可对尺寸较大的特征图的四周进行裁剪，使得裁剪后的特征图与尺寸较小的特征图的尺寸相同。

还需要说明的是，该图像语义分割模型的网络结构仅仅是本申请提供的一种示例，并不用于限制本申请。本申请的图像语义分割模型的网络结构还可为unet网络结构或者根据unet网络结构做出的变形结构，等等，此处不作具体限制。

请参阅图6，图6为本申请实施例提供的图片处理装置的结构示意图。该图片处理装置300包括：获取模块301，调用模块302，确定模块303。

获取模块301，用于获取待处理图片；

调用模块302，用于调用预训练的图像语义分割模型将所述待处理图片划分为多个区域，其中，每个区域对应一类别，所述类别包括文本类别、表格类别和图片类别；

确定模块303，用于从所述多个区域中确定出目标区域；

识别模块304，用于对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字。

在一些实施例中，所述获取模块301，可以用于：获取样本图片，所述样本图片包括多个样本区域，每个样本区域对应一类别；获取待训练的图像语义分割模型；利用所述样本图片对所述待训练的图像语义分割模型进行训练。

在一些实施例中，所述目标区域包括表格区域，识别模块304，可以用于：识别所述表格区域中的表格的行数与列数；根据所述行数与列数，生成表格；将所述文字填充至所述表格中。

在一些实施例中，所述目标区域还包括文本区域，识别模块304，可以用于：根据所述待处理图片的排版格式，对所述表格和从所述文本区域中识别出的文字进行排版；输出排版后的表格和从所述文本区域中识别出的文字。

在一些实施例总，识别模块304，可以用于：显示编辑界面，所述编辑界面为供用户进行编辑操作的界面；将排版后的表格和从所述文本区域中识别出的文字输出至所述编辑界面。

在一些实施例中，所述识别模块304，可以用于：获取预训练的文字识别模型；利用所述文字识别模型对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字。

在一些实施例中，所述识别模块304，可以用于：当所述多个区域均为目标区域时，判断所述待处理图片的长度是否大于预设长度；若所述待处理图片的长度大于预设长度，则对所述待处理图片进行裁切处理，以将所述待处理图片裁切为多个子图片，其中，每个子图片与一区域对应；利用所述文字识别模型对每个子图片进行文字识别处理，以识别得到每个子图片中的文字。

本申请实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行如本实施例提供的图片处理方法中的流程。

本申请实施例还提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本实施例提供的图片处理方法中的流程。

例如，上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图7，图7为本申请实施例提供的电子设备的结构示意图。

该电子设备400可以包括摄像模组401、存储器402、处理器403等部件。本领域技术人员可以理解，图7中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

摄像模组401可以包括透镜、图像传感器和图像信号处理器，其中透镜用于采集外部的光源信号提供给图像传感器，图像传感器感应来自于透镜的光源信号，将其转换为数字化的原始图像，即RAW图像，并将该RAW图像提供给图像信号处理器处理。图像信号处理器可以对该RAW图像进行格式转换，降噪等处理，得到YUV图像。其中，RAW是未经处理、也未经压缩的格式，可以将其形象地称为“数字底片”。YUV是一种颜色编码方法，其中Y表示亮度，U表示色度，V表示浓度，人眼从YUV图像中可以直观的感受到其中所包含的自然特征。

存储器402可用于存储应用程序和数据。存储器402存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器403通过运行存储在存储器402的应用程序，从而执行各种功能应用以及数据处理。

处理器403是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的应用程序，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本实施例中，电子设备中的处理器403会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器402中，并由处理器403来运行存储在存储器402中的应用程序，从而执行：

获取待处理图片；

从所述多个区域中确定出目标区域；

请参阅图8，电子设备400可以包括摄像模组401、存储器402、处理器403、触摸显示屏404、扬声器405、麦克风406等部件。

摄像模组401可以包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义图像信号处理(Image Signal Processing)管线的各种处理单元。图像处理电路至少可以包括：摄像头、图像信号处理器(Image Signal Processor，ISP处理器)、控制逻辑器、图像存储器以及显示器等。其中摄像头至少可以包括一个或多个透镜和图像传感器。图像传感器可包括色彩滤镜阵列(如Bayer滤镜)。图像传感器可获取用图像传感器的每个成像像素捕捉的光强度和波长信息，并提供可由图像信号处理器处理的一组原始图像数据。

图像信号处理器可以按多种格式逐个像素地处理原始图像数据。例如，每个图像像素可具有8、10、12或14比特的位深度，图像信号处理器可对原始图像数据进行一个或多个图像处理操作、收集关于图像数据的统计信息。其中，图像处理操作可按相同或不同的位深度精度进行。原始图像数据经过图像信号处理器处理后可存储至图像存储器中。图像信号处理器还可从图像存储器处接收图像数据。

图像存储器可为存储器装置的一部分、存储设备、或电子设备内的独立的专用存储器，并可包括DMA(Direct Memory Access，直接直接存储器存取)特征。

当接收到来自图像存储器的图像数据时，图像信号处理器可进行一个或多个图像处理操作，如时域滤波。处理后的图像数据可发送给图像存储器，以便在被显示之前进行另外的处理。图像信号处理器还可从图像存储器接收处理数据，并对所述处理数据进行原始域中以及RGB和YCbCr颜色空间中的图像数据处理。处理后的图像数据可输出给显示器，以供用户观看和/或由图形引擎或GPU(Graphics Processing Unit，图像处理器)进一步处理。此外，图像信号处理器的输出还可发送给图像存储器，且显示器可从图像存储器读取图像数据。在一种实施方式中，图像存储器可被配置为实现一个或多个帧缓冲器。

图像信号处理器确定的统计数据可发送给控制逻辑器。例如，统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、透镜阴影校正等图像传感器的统计信息。

控制逻辑器可包括执行一个或多个例程(如固件)的处理器和/或微控制器。一个或多个例程可根据接收的统计数据，确定摄像头的控制参数以及ISP控制参数。例如，摄像头的控制参数可包括照相机闪光控制参数、透镜的控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。ISP控制参数可包括用于自动白平衡和颜色调整(例如，在RGB处理期间)的增益水平和色彩校正矩阵等。

请参阅图9，图9为本实施例中图像处理电路的结构示意图。如图9所示，为便于说明，仅示出与本申请实施例相关的图像处理技术的各个方面。

例如图像处理电路可以包括：摄像头、图像信号处理器、控制逻辑器、图像存储器、显示器。其中，摄像头可以包括一个或多个透镜和图像传感器。在一些实施例中，摄像头可为长焦摄像头或广角摄像头中的任一者。

摄像头采集的第一图像传输给图像信号处理器进行处理。图像信号处理器处理第一图像后，可将第一图像的统计数据(如图像的亮度、图像的反差值、图像的颜色等)发送给控制逻辑器。控制逻辑器可根据统计数据确定摄像头的控制参数，从而摄像头可根据控制参数进行自动对焦、自动曝光等操作。第一图像经过图像信号处理器进行处理后可存储至图像存储器中。图像信号处理器也可以读取图像存储器中存储的图像以进行处理。另外，第一图像经过图像信号处理器进行处理后可直接发送至显示器进行显示。显示器也可以读取图像存储器中的图像以进行显示。

此外，图中没有展示的，电子设备还可以包括CPU和供电模块。CPU和逻辑控制器、图像信号处理器、图像存储器和显示器均连接，CPU用于实现全局控制。供电模块用于为各个模块供电。

存储器402存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器403通过运行存储在存储器402的应用程序，从而执行各种功能应用以及数据处理。

触摸显示屏404可以用于接收用户对电子设备的触摸控制操作。扬声器405可以播放声音信号。传感器406可包括陀螺仪传感器、加速度传感器、方向传感器、磁场传感器等，其可用于获取电子设备400的当前姿态。

获取待处理图片；

从所述多个区域中确定出目标区域；

在一种实施方式中，处理器403执行获取待处理图片之前，还可以执行：获取样本图片，所述样本图片包括多个样本区域，每个样本区域对应一类别；获取待训练的图像语义分割模型；利用所述样本图片对所述待训练的图像语义分割模型进行训练。

在一种实施方式中，所述目标区域包括表格区域，处理器403执行对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字之后，还可以执行：识别所述表格区域中的表格的行数与列数；根据所述行数与列数，生成表格；将所述文字填充至所述表格中。

在一种实施方式中，所述目标区域还包括文本区域，处理器403执行将所述文字填充至所述表格中之后，还可以执行：根据所述待处理图片的排版格式，对所述表格和从所述文本区域中识别出的文字进行排版；输出排版后的表格和从所述文本区域中识别出的文字。

在一种实施方式中，处理器403执行输出排版后的表格和从所述文本区域中识别出的文字时，可以执行：显示编辑界面，所述编辑界面为供用户进行编辑操作的界面；将排版后的表格和从所述文本区域中识别出的文字输出至所述编辑界面。

在一种实施方式中，处理器403执行对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字时，可以执行：获取预训练的文字识别模型；利用所述文字识别模型对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字。

在一种实施方式中，处理器403执行利用所述文字识别模型对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字之前，还可以执行：当所述多个区域均为目标区域时，判断所述待处理图片的长度是否大于预设长度；若所述待处理图片的长度大于预设长度，则对所述待处理图片进行裁切处理，以将所述待处理图片裁切为多个子图片，其中，每个子图片与一区域对应；处理器403执行利用所述文字识别模型对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字时，可以执行：利用所述文字识别模型对每个子图片进行文字识别处理，以识别得到每个子图片中的文字。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对图片处理方法的详细描述，此处不再赘述。

本申请实施例提供的所述图片处理装置与上文实施例中的图片处理方法属于同一构思，在所述图片处理装置上可以运行所述图片处理方法实施例中提供的任一方法，其具体实现过程详见所述图片处理方法实施例，此处不再赘述。

需要说明的是，对本申请实施例所述图片处理方法而言，本领域普通技术人员可以理解实现本申请实施例所述图片处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在存储器中，并被至少一个处理器执行，在执行过程中可包括如所述图片处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的所述图片处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种图片处理方法、装置、存储介质以及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种图片处理方法，其中，包括：

获取待处理图片；

调用预训练的图像语义分割模型将所述待处理图片划分为多个区域，其中，每个区域对应一类别，所述类别包括文本类别、表格类别和图片类别；

从所述多个区域中确定出目标区域；

对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字。
根据权利要求1所述的图片处理方法，其中，所述获取待处理图片之前，还包括：

获取样本图片，所述样本图片包括多个样本区域，每个样本区域对应一类别；

获取待训练的图像语义分割模型；

利用所述样本图片对所述待训练的图像语义分割模型进行训练。
根据权利要求1所述的图片处理方法，其中，所述目标区域包括表格区域，所述对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字之后，还包括：

识别所述表格区域中的表格的行数与列数；

根据所述行数与列数，生成表格；

将所述文字填充至所述表格中。
根据权利要求3所述的图片处理方法，其中，所述目标区域还包括文本区域，所述将所述文字填充至所述表格中之后，还包括：

根据所述待处理图片的排版格式，对所述表格和从所述文本区域中识别出的文字进行排版；

输出排版后的表格和从所述文本区域中识别出的文字。
根据权利要求4所述的图片处理方法，其中，所述输出排版后的表格和从所述文本区域中识别出的文字，包括：

显示编辑界面，所述编辑界面为供用户进行编辑操作的界面；

将排版后的表格和从所述文本区域中识别出的文字输出至所述编辑界面。
根据权利要求1所述的图片处理方法，其中，所述对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字，包括：

获取预训练的文字识别模型；

利用所述文字识别模型对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字。
根据权利要求6所述的图片处理方法，其中，所述利用所述文字识别模型对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字之前，还包括：

当所述多个区域均为目标区域时，判断所述待处理图片的长度是否大于预设长度；

若所述待处理图片的长度大于预设长度，则对所述待处理图片进行裁切处理，以将所述待处理图片裁切为多个子图片，其中，每个子图片与一区域对应；

所述利用所述文字识别模型对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字，包括：

利用所述文字识别模型对每个子图片进行文字识别处理，以识别得到每个子图片中的文字。
一种图片处理装置，其中，包括：

获取模块，用于获取待处理图片；

调用模块，用于调用预训练的图像语义分割模型将所述待处理图片划分为多个区域，其中，每个区域对应一类别，所述类别包括文本类别、表格类别和图片类别；

确定模块，用于从所述多个区域中确定出目标区域；

识别模块，用于对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字。
根据权利要求8所述的图片处理装置，其中，所述获取模块，用于：

获取样本图片，所述样本图片包括多个样本区域，每个样本区域对应一类别；

获取待训练的图像语义分割模型；

利用所述样本图片对所述待训练的图像语义分割模型进行训练。
根据权利要求8所述的图片处理装置，其中，所述目标区域包括表格区域，所述识别模块，用于：

识别所述表格区域中的表格的行数与列数；

根据所述行数与列数，生成表格；

将所述文字填充至所述表格中。
根据权利要求10所述的图片处理装置，其中，所述目标区域还包括文本区域，所述识别模块，用于：

根据所述待处理图片的排版格式，对所述表格和从所述文本区域中识别出的文字进行排版；

输出排版后的表格和从所述文本区域中识别出的文字。
根据权利要求11所述的图片处理装置，其中，所述识别模块，用于：

显示编辑界面，所述编辑界面为供用户进行编辑操作的界面；

将排版后的表格和从所述文本区域中识别出的文字输出至所述编辑界面。
一种存储介质，其中，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行权利要求1所述的图片处理方法。
一种电子设备，其中，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行：

获取待处理图片；

调用预训练的图像语义分割模型将所述待处理图片划分为多个区域，其中，每个区域对应一类别，所述类别包括文本类别、表格类别和图片类别；

从所述多个区域中确定出目标区域；

对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字。
根据权利要求14所述的电子设备，其中，所述处理器用于执行：

获取样本图片，所述样本图片包括多个样本区域，每个样本区域对应一类别；

获取待训练的图像语义分割模型；

利用所述样本图片对所述待训练的图像语义分割模型进行训练。
根据权利要求14所述的电子设备，其中，所述目标区域包括表格区域，所述处理器用于执行：

识别所述表格区域中的表格的行数与列数；

根据所述行数与列数，生成表格；

将所述文字填充至所述表格中。
根据权利要求16所述的电子设备，其中，所述目标区域还包括文本区域，所述处理器用于执行：

根据所述待处理图片的排版格式，对所述表格和从所述文本区域中识别出的文字进行排版；

输出排版后的表格和从所述文本区域中识别出的文字。
根据权利要求17所述的电子设备，其中，所述处理器用于执行：

显示编辑界面，所述编辑界面为供用户进行编辑操作的界面；

将排版后的表格和从所述文本区域中识别出的文字输出至所述编辑界面。
根据权利要求14所述的电子设备，其中，所述处理器用于执行：

获取预训练的文字识别模型；

利用所述文字识别模型对所述目标区域进行文字识别处理，以识别得到所述目标区域中的文字。
根据权利要求19所述的电子设备，其中，所述处理器用于执行：

当所述多个区域均为目标区域时，判断所述待处理图片的长度是否大于预设长度；

若所述待处理图片的长度大于预设长度，则对所述待处理图片进行裁切处理，以将所述待处理图片裁切为多个子图片，其中，每个子图片与一区域对应；

利用所述文字识别模型对每个子图片进行文字识别处理，以识别得到每个子图片中的文字。