WO2020043057A1

WO2020043057A1 - 图片处理方法、任务数据处理方法和装置

Info

Publication number: WO2020043057A1
Application number: PCT/CN2019/102587
Authority: WO
Inventors: 辛遥
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-08-27
Filing date: 2019-08-26
Publication date: 2020-03-05
Also published as: CN109325494A; CN109325494B; EP3846079A1; EP3846079A4; US20200401829A1

Abstract

本申请涉及一种图片处理方法、任务数据处理方法和装置，所述方法包括：通过机器学习模型中各子结构所对应的处理单元执行相应的子任务来实现，至少部分所述处理单元包括FPGA单元；获取待处理图片；提取所述待处理图片中的文本特征；根据所述文本特征确定所述待处理图片中任意角度的候选文本框；对各所述候选文本框进行旋转感兴趣区域的池化处理，将各所述候选文本框投影到固定大小的特征图，得到各所述候选文本框对应的文本框特征图；识别所述文本框特征图中文本，得到文本识别结果。本申请通过FPGA架构，可并行处理数据以实现上述图片处理方法，能够在降低成本和功耗的同时，提高待处理图片中文本识别准确率和效率。

Description

图片处理方法、任务数据处理方法和装置

本申请要求于2018年08月27日提交、申请号为201810980841.1、发明名称为“图片处理方法、任务数据处理方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理领域，特别是涉及一种图片处理方法、任务数据处理方法和装置。

背景技术

随着计算技术的飞速发展，越来越多的数据都需要计算机来处理。尤其随着数据量的迅猛增长，导致对数据处理效率的要求越来越高。例如在场景文本识别领域，文本检测是场景文本识别的前提条件，要解决的问题是如何在杂乱无序、千奇百怪的复杂场景图片中准确地定位出文字的位置并识别出文字。由于背景的复杂性、光照的多变性以及字体的不可预测性等原因，文本检测面临着极大的挑战。

例如，在硬件方面，通常是通过CPU(Central Processing Unit，中央处理器)或GPU(Graphics Processing Unit，图形处理器)处理图片数据并进行文本检测等。CPU采用串行处理，即在处理过程中需要等待对前一任务数据处理完毕，得到前一任务数据对应的执行结果后，才能继续执行下一个任务数据，这样相较于大量的任务数据量，任务数据处理的效率较低。而通过GPU处理的成本较高，且具有超大的功耗。

发明内容

基于此，有必要针对传统方法存在的问题，提供一种图片处理方法、任务数据处理方法和装置。

一种图片处理方法，通过机器学习模型中各子结构所对应的处理单元执行相应的子任务来实现，至少部分所述处理单元包括现场可编程门阵列FPGA单元；所述方法包括：

获取待处理图片；

提取所述待处理图片中的文本特征；

根据所述文本特征确定所述待处理图片中任意角度的候选文本框；

对各所述候选文本框进行旋转感兴趣区域的池化处理，将各所述候选文本框投影到固定大小的特征图，得到各所述候选文本框对应的文本框特征图；

识别所述文本框特征图中文本，得到文本识别结果。

上述图片处理方法，根据待处理图片的文本特征，确定待处理图片中各任意角度的候选文本框，可以识别不同角度的候选文本框。对各候选文本框进行池化处理，并将不同大小的各候选文本框投影到固定大小的特征图，得到各候选文本框的文本框特征图，提高了处理候选文本框的适应性，可以处理不同尺寸和不同角度的候选文本框，通过识别文本框特征图中文本，得到各候选文本框的文本识别结果。同时，通过FPGA架构，可并行处理数据以实现上述图片处理方法，能够在降低成本和功耗的同时，提高待处理图片中文本识别准确率和效率。

一种任务数据处理方法，所述方法包括：

获取多个任务数据；

对于每个所述任务数据，分别按照机器学习模型中子结构的顺序，依次通过各所述子结构所对应的处理单元执行相应子结构的子任务；至少部分所述处理单元包括现场可编程门阵列FPGA单元；

在每个所述处理单元的处理过程中，当处理单元处于空闲状态时，并行执行下一个任务数据对应的子任务。

一种任务数据处理方法，应用于分布式服务器主机主机，所述方法包括：

接收终端发送的任务数据；

确定为所述任务数据分配的分布式服务器从机地址；

根据所述分配的分布式服务器从机地址，将所述任务数据发送至分布式服务器从机；

所述分布式服务器从机，用于将所述任务数据放入线程池，当对任务数据进行处理时，从所述线程池获取多个任务数据；对于每个所述任务数据，分别按照机器学习模型中子结构的顺序，依次通过各所述子结构所对应的处理单元执行相应子结构的子任务；至少部分所述处理单元包括现场可编程门阵列FPGA单元；在每个所述处理单元的处理过程中，当处理单元处于空闲状态时，并行执行下一个任务数据对应的子任务。

一种任务数据处理方法，应用于分布式服务器从机，所述方法包括：

当接收到分布式服务器主机发送的任务数据时，将所述任务数据放入线程池；

当对任务数据进行处理时，从所述线程池获取多个任务数据；

对于每个所述任务数据，分别按照机器学习模型中子结构的顺序，依次通过各所述子结构所对应的处理单元执行相应子结构的子任务；至少部分所述处理单元包括现场可编程门阵列FPGA单元；在每个所述处理单元的处理过程中，当处理单元处于空闲状态时，并行执行下一个任务数据对应的子任务。

一种任务数据处理装置，所述装置包括：任务调度单元和现场可编程门阵列FPGA单元，所述任务调度单元与所述FPGA单元相连接；

所述任务调度单元，用于获取多个任务数据；对于每个所述任务数据，分别按照机器学习模型中子结构的顺序，依次通过各所述子结构所对应的处理单元执行相应子结构的子任务；至少部分所述处理单元包括FPGA单元；在每个所述处理单元的处理过程中，当处理单元处于空闲状态时，并行执行下一个任务数据对应的子任务。

上述任务数据处理方法和装置，通过部分FPGA单元执行机器学习模型中子结构对应的子任务，且在获取多个任务数据时，各FPGA单元并行执行各任务数据对应的子任务，从而使得各任务数据对应的子任务可以被并行处理，从而提高了多个任务数据的处理效率。

一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现上述的图片处理方法中所执行的操作。

一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现上述的任务数据处理方法中所执行的操作。

一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述所述的图片处理方法。

一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的任务数据处理方法。

一种分布式服务器主机，所述分布式服务器主机包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的任务数据处理方法。

一种分布式服务器从机，所述分布式服务器从机包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的任务数据处理方法。

附图说明

图1为一个实施例中任务数据处理方法的应用场景图；

图2为一个实施例中计算机设备的内部结构示意图；

图3为一个实施例中任务数据处理装置的框图；

图4为一个实施例中任务数据处理装置的内部结构示意图；

图5为一个实施例中任务数据处理方法的流程示意图；

图6为一个实施例中任务数据的封装示意图；

图7为一个实施例中多线程任务并行执行的示意图；

图8为一个实施例中多线程任务并行执行的时序图；

图9为一个实施例中多线程任务并行执行的时序图；

图10为一个实施例中CPU和FPGA单元并行处理任务的示意图；

图11为另一个实施例中任务数据处理方法的应用环境图；

图12为一个实施例中分布式服务器从机的内部环境图；

图13为一个实施例中任务数据处理方法的流程示意图；

图14为一个实施例中任务数据处理方法的软件架构图；

图15为一个实施例中各子结构处理图像处理任务数据的步骤的流程示意图；

图16为一实施例中获得分类结果的步骤的流程示意图；

图17为一个实施例中获得图像处理结果的流程示意图；

图18为一个实施例中图片处理方法的流程示意图；

图19为一个实施例中文本识别的流程示意图；

图20为一个应用场景对应的文本识别结果示意图；

图21为另一个应用场景对应的文本识别结果示意图；

图22为另一个应用场景对应的文本识别结果示意图；

图23为另一个应用场景对应的文本识别结果示意图；

图24为另一个应用场景对应的文本识别结果示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中任务数据处理方法的应用场景图。参照图1，该应用场景中包括CPU110、板卡接口120和任务数据处理装置130。CPU 110通过板卡接口120与任务数据处理装置130进行通信。板卡接口120和CPU 110集成在计算机设备的主板上，板卡接口120可以是主板上的板卡插槽，任务数据处理装置130插入板卡插槽即可与CPU110进行通信。任务数据处理装置130中集成有至少一个FPGA(Field-Programmable Gate Array，现场可编程门阵列)单元。

图2为集成有图1中的CPU 110和板卡接口120的计算机设备的内部结构示意图。参照图2，该计算机设备包括通过系统总线连接的CPU 110、存储器、网络接口和板卡接口120，板卡接口120连接任务数据处理装置130。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时，可使得CPU 110执行下述任务数据处理方法。该任务数据处理装置130和计算机设备的CPU 110用于提供计算和控制能力，支撑整个计算机设备和任务数据处理装置130的运行。该内存储器中可储存有计算机程序，该计算机程序被CPU 110执行时，可使得CPU 110执行下述任务数据处理方法。计算机设备的网络接口用于进行网络通信。计算机设备可以是分布式服务器从机。该板卡接口120可以为PCIE gen3x8接口。

本领域技术人员可以理解，图2示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图2中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提供一种任务数据处理装置130，该装置具体包括：任务数据获取模块132、任务数据处理模块134和执行结果获取模块136。

任务数据获取模块132，用于获取多个任务数据。

任务数据处理模块134，用于对于每个任务数据，分别按照机器学习模型中子结构的顺序，依次通过各子结构所对应的处理单元执行相应子结构的子任务；至少部分处理单元包括FPGA单元；当处理单元处于空闲状态时，执行下一个任务数据对应的子任务。

执行结果获取模块136，用于当每个任务数据在各子结构的子任务执行完毕后，获得相应的任务执行结果。

在一个实施例中，本申请提供的任务数据处理装置130可以实现为一种计算机程序的形式，计算机程序可在如图2所示的计算机设备上运行。计算机设备的存储器中可存储组成该任务数据处理装置130的各个程序模块，比如，图3所示的任务数据获取模块132、任务数据处理模块134和执行结果获取模块136。各个程序模块构成的计算机程序使得CPU 110执行本说明书中描述的本申请各个实施例的任务数据处理方法中的步骤。

例如，图2所示的计算机设备可以通过如图3所示的任务数据处理装置130中的任务数据获取模块132获取多个任务数据。计算机设备可通过任务数据处理模块134对于每个任务数据，分别按照机器学习模型中子结构的顺序，依次通过各子结构所对应的处理单元执行相应子结构的子任务；至少部分处理单元包括FPGA单元；在每个处理单元的处理过程中，当处理单元处于空闲状态时，执行下一个任务数据对应的子任务。计算机设备可通过执行结果获取模块136当每个任务数据在各子结构的子任务执行完毕后，获得相应的任务执行结果。

如图4所示，在另一个实施例中，任务数据处理装置130包括任务调度单元和一个或多个FPGA单元，任务调度单元与每个FPGA单元相连接。在图4中，以任务数据处理装置130包括任务调度单元和4个FPGA单元为例进行说明。

任务调度单元用于获取多个任务数据；对于每个任务数据，分别按照机器学习模型中子结构的顺序，依次调度机器学习模型中各子结构所对应的处理单元执行相应子结构的子任务；至少部分处理单元包括一个或多个FPGA单元。

FPGA单元用于在每个处理单元的处理过程中，当处理单元处于空闲状态时，执行下一个任务数据对应的子任务；当每个任务数据在各子结构的子任务执行完毕后，获得相应的任务执行结果并输出。

继续参见图4，在一个实施例中，任务数据处理装置130还包括：寄存器和存储器；存储器与FPGA单元相连接；寄存器与任务调度单元相连接。

任务调度单元还用于从寄存器中读取处理单元调用数据，以根据处理单元处理数据对于每个任务数据，分别按照机器学习模型中子结构的顺序，依次调度机器学习模型中各子结构所对应的处理单元执行相应子结构的子任务。

FPGA单元还用于从存储器中读取由CPU 110写入的任务数据，在每个处理单元的处理过程中，当处理单元处于空闲状态时，执行下一个任务数据对应的子任务；当每个任务数据在各子结构的子任务执行完毕后，获得相应的任务执行结果；将任务执行结果存储到存储器。

继续参见图4，在一个实施例中，任务数据处理装置130还包括：总线控制器；总线控制器分别与存储器和每个FPGA单元相连接。每个FPGA单元通过总线控制器将任务执行结果存储到存储器中。该存储器可以为DDR4存储器。

在一个实施例中，任务数据处理装置130通过板卡接口120与CPU110相连接；处理单元还包括CPU 110。

如图5所示，在一个实施例中，提供一种任务数据处理方法。任务数据处理方法可以应用于上述图1中的任务数据处理装置130中。本实施例主要以该方法应用于上述图1中的任务数据处理装置130来举例说明。参照图5，该任务数据处理方法，具体包括以下步骤：

S502，获取多个任务数据。

其中，任务数据为待处理任务所对应的数据。

在本步骤中，CPU 110获取任务数据，将任务数据发送至任务数据处理装置130，任务数据处理装置130将接收到的任务数据进行存储。当对任务数据进行处理时，任务数据处理装置130从存储的任务数据中读取多个任务数据。

在一个实施例中，CPU 110从计算机设备的存储器中读取任务数据，将读取到的任务数据发送至任务数据处理装置130。任务数据处理装置130接收CPU 110发送的任务数据，将任务数据存储在存储器中。当对任务数据进行处理时，CPU 110向任务数据处理装置130发送任务执行指令；任务数据处理装置130接收CPU 110发送的任务执行指令，确定对任务数据进行处理，根据该任务执行指令从存储器中读取多个任务数据。

需要说明的一点是，任务数据处理装置130在缓存任务数据时，采用双缓存乒乓操作，数据读入和计算同时进行，减少两部分互相等待时延，提高了处理效率。

以下以图6举例说明，图6为一个实施例中任务数据的封装示意图。CPU110获取到任务数据后，将任务数据封装成FPGA线程任务。FPGA线程任务中包括任务数据和FPGA执行指令，FPGA执行指令包括写指令、读指令和开始指令。FPGA执行指令用于调用FPGA单元对任务数据进行处理。CPU 110将封装后的FPGA线程任务放入到线程池中，任务数据处理装置130从线程池中获取FPGA线程任务，从FPGA线程任务中读取任务数据。任务数据处理装置130还可以从FPGA线程任务中读取FPGA执行指令。

S504，对于每个任务数据，分别按照机器学习模型中子结构的顺序，依次通过各子结构所对应的处理单元执行相应子结构的子任务；其中，至少部分处理单元包括FPGA单元；当处理单元监测到自身处于空闲状态时，通过线程提取下一个任务数据，在线程对应的处理单元中执行下一个任务数据对应的子任务。

需要说明的是，任务数据处理装置130中包括多个处理单元。本实施例中，多个处理单元包括FPGA单元以及CPU单元。机器学习模型为预先训练好的任务数据处理的数据模型。对于机器学习模型中每个子结构，都存在对应的处理单元。处理单元用于执行所对应机器学习模型中子结构所对应的子任务。

任务数据处理装置130将多个任务数据输入到机器学习模型对应的处理单元，通过机器学习模型的处理单元对任务数据进行处理。

在一个实施例中，对于每个任务数据，任务数据处理装置130通过处理单元按照机器学习模型中子结构的顺序，执行任务数据所对应的子任务；且在每个处理单元的处理过程中，检测前一任务数据在当前子结构的子任务是否执行完毕，检测当前的任务数据在前一子结构的子任务是否执行完毕；在检测到前一个任务数据在当前子结构的子任务执行完毕，同时检测到当前的任务数据在前一子结构的子任务执行完毕后，即当前子结构对应的处理单元处于空闲状态时，开始执行当前的任务数据在当前子结构的子任务。

在一个实施例中，对于每个任务数据，任务数据处理装置130将任务数据输入机器学习模型中第一个子结构对应的处理单元，通过第一个子结构对应的处理单元，根据任务数据执行第一个子结构对应的子任务，得到第一子任务数据。任务数据处理装置130又将第一子任务数据输入机器学习模型中第二个子结构对应的处理单元，通过第二个子结构对应的处理单元，根据第一子任务数据执行第二子结构对应的子任务，得到第二子任务数据。任务数据处理装置又将第二子任务数据输入机器学习模型中第三个子结构，直至获得机器学习模型中最后一个子结构输出的任务执行结果。

在一个实施例中，在每个处理单元的处理过程中，任务数据处理装置130将前一任务数据输入机器学习模型中第一个子结构对应的处理单元，通过第一个子结构对应的处理单元，根据前一任务数据执行第一个子结构对应的子任务，得到前一任务数据对应的第一子任务数据。

在第一个子结构对应的处理单元，根据前一任务数据执行完毕第一个子结构的子任务后，任务数据处理装置130将当前任务数据输入机器学习模型中第一个子结构对应的处理单元，通过第一个子结构对应的处理单元，根据当前任务数据执行第一个子结构对应的子任务，同时任务数据处理装置将前一任务数据对应的第一子任务数据，输入到机器学习模型中第二个子结构对应的处理单元，通过第二个子结构对应的处理单元，根据前一任务数据对应的第一子任务数据，执行第二个子结构对应的子任务，得到前一任务数据对应的第二子任务数据。

在第一个子结构对应的处理单元，根据当前任务数据执行完毕第一个子结构的字任务，获得当前任务数据对应的第一子任务数据后，且在得到前一任务数据对应的第二子任务数据后，任务数据处理装置130将当前任务数据对应的第一子任务数据，输入到机器学习模型中第二个子结构对应的处理单元，通过第二个子结构对应的处理单元，根据当前任务数据对应的第一子任务数据，执行第二个子结构对应的子任务，得到当前任务数据对应的第二子任务数据，同时任务数据处理装置130将前一任务数据对应的第二子任务数据，输入到机器学习模型中第三个子结构对应的处理单元，直至获取机器学习模型中的最后子机构输出前一任务数据对应的任务执行结果和当前任务数据对应的任务执行结果。

在一个实施例中，S504的步骤包括：对于每个任务数据，任务数据处理装置130从寄存器中读取处理单元调用数据；处理单元调用数据由CPU 110写入到寄存器中；根据处理单元调用数据，按照机器学习模型中子结构的顺序，依次调用各子结构所对应的处理单元执行相应子结构的子任务。

其中，处理单元调用数据为任务数据处理装置130调用处理单元所需要的数据。处理单元调用数据可以包括处理单元标识，还可以包括调用处理单元所用的指令。调用处理单元所用的指令可以包括单元写指令、单元读指令和单元执行指令中的至少一种。

在本步骤中，通过CPU 110将每个任务数据对应的处理单元调用数据写入到寄存器中。任务数据处理装置130从寄存器中读取每个任务数据对应的处理单元调用数据，提取处理单元调用数据中的处理单元标识，根据提取到的处理单元标识对应的处理单元，按照机器学习模型中子结构的顺序，依次调用各子结构所对应的处理单元执行相应子结构的子任务。

在一个实施例中，S504的步骤还包括：当处理单元均未处于空闲状态时，等待当前子结构的子任务所对应的处理单元被释放。例如，在每个处理单元的处理过程中，在前一任务数据在当前子结构的子任务未执行完毕，且当前的任务数据在前一子结构的子任务执行完毕时，等待当前子结构的子任务所对应的处理单元被释放。在当前子结构的子任务所对应的处理单元被释放后，调用当前子结构的子任务所对应的处理单元，执行当前的任务数据在当前子结构的子任务。

请参照图7，图7为一个实施例中多线程任务并行执行的示意图。任务数据处理装置130从线程池读取线程任务1、线程任务2和线程任务3，线程任务1、线程任务2和线程任务3按顺序连接。在通过FPGA单元处理线程任务1、线程任务2和线程任务3时，FPGA单元1的输出作为FPGA单元2的输入，FPGA单元2的输出作为FPGA单元3的输入，即FPGA单元1、FPGA单元2和FPGA单元3成流水线式处理，且各FPGA单元执行的子任务不同。线程任务调用各线程任务可以单独调用每个FPGA单元，从而实现不同的FPAG单元可以同时运行不同线程任务，提高吞吐量。

图8和图9为一个实施例中多线程任务并行执行的时序图。任务数据对应的线程任务需要依次通过FPGA单元1、FPGA单元2和FPGA单元3执行相应的子任务，才能得到该任务数据的任务执行结果。请参照图8和图9，当FPGA单元1、FPGA单元2和FPGA单元3处于空闲状态时，线程任务1获取任务数据1，调用FPGA单元1执行任务数据1的子任务1。当FPGA单元1执行完毕线程任务1的子任务1时，线程任务1调用FPGA单元2执行子任务2，同时线程任务2获取任务数据2，调用FPGA单元1执行线程任务2的子任务1。当FPGA单元2执行完毕线程任务1的子任务2，且FPGA单元1执行完毕线程任务2的子任务1时，线程任务1调用FPGA单元3执行子任务3，同时线程任务2调用FPGA单元2执行子任务2，同时线程任务3获取任务数据3，调用FPGA单元1执行子任务1。当FPGA单元3执行完毕线程任务1的子任务3，且FPGA单元2执行完毕线程任务2的子任务2时，线程任务2调用FPGA单元3执行子任务3，同时当FPGA单元1执行完毕线程任务3的子任务1时，线程任务3调用FPGA单元2执行子任务2，且线程任务1又可以获取任务数据4，调用FPGA单元1执行线子任务1，直至通过线程任务调用FPGA单元获取的各任务数据对应的任务执行结果。其中，线程任务的数量可以设置为n个，n为正整数。

在一个实施例中，多个处理单元可以包括CPU 110和FPGA单元。图10为一个实施例中CPU 110和FPGA单元并行处理任务的示意图。如图10所示，线程任务1、线程任务2和线程任务3调用处理单元的顺序都一样，线程任务1调用FPGA单元1，在线程任务1释放FPGA单元1后，线程任务1调用CPU 110,线程任务2调用FPGA单元1；当线程任务1释放CPU后，线程任务1调用FPGA单元2；当线程任务1释放CPU 110，且线程任务2释放FPGA单元1后，线程任务2调用CPU 110，线程任务3调用FPGA单元1；当线程任务1释放FPGA单元2后，线程任务1调用FPGA单元3；当线程任务1释放FPGA单元2，且线程任务2释放CPU 110后，线程任务2调用FPGA单元2；当线程任务2释放CPU 110，线程任务3释放FPGA单元1后，线程任务3调用CPU 110；当线程任务1释放FPGA单元3后，等待FPAG单元1被线程任务3释放，当FPGA单元1被释放后，线程任务3再次调用FPGA单元1，从而保证各线程任务的并行处理，直至各并行处理的线程任务得到相应的任务执行结果。

S506，当每个任务数据在各子结构的子任务执行完毕后，获得相应的任务执行结果。

对于每个任务数据，任务数据处理装置130检测到机器学习模型中各子结构的子任务执行完毕后，获取机器学习模型中最后子结构对应的处理单元输出的任务执行结果，从而得到每个任务数据对应的任务执行结果。

本实施例中，在获取多个任务数据后，对于每个任务数据，分别按照机器学习模型中子结构的顺序，依次通过各子结构所对应的处理单元执行相应子结构的子任务，每个处理单元对应一个机器学习模型的子结构，且至少部分处理单元包括FPGA单元。在每个处理单元的处理过程中，在前一个任务数据在当前子结构的子任务执行完毕，且当前的任务数据在前一子结构的子任务执行完毕后，开始执行当前的任务数据在当前子结构的子任务，各处理单元并行处理多个任务数据的子任务，使得机器学习模型可以在低成本和低功耗的结构中并行处理多个任务数据，从而提高了任务数据的处理效率。

图11为一个实施例中任务数据处理方法的应用环境图。图11中包括终端、分布式服务器主机和分布式服务器从机，终端通过网络与分布式服务器主机相连接，分布式服务器主机通过网络与分布式服务器从机相连接，分布式服务器从机可以是一个或者多个。分布式服务器从机中设置有线程池和处理单元调度程序，分布式服务器从机的板卡接口连接有任务数据处理装置130，任务数据处理装置130中设置有FPGA单元。分布式服务器从机通过执行处理单元调度程序实时任务数据处理方法，分布式服务器从机执行处理调度程序时，从线程池中的线程任务中读取任务数据，根据任务数据执行线程任务。

图12为一个实施例中分布式服务器从机的内部环境图。分布式服务器从机中设置有线程池和处理单元调度程序。分布式服务器从机通过执行处理单元调度程序实时任务数据处理方法，在执行处理单元调度程序时，从线程池的线程任务中获取任务数据，根据任务数据按照单元调度程序中子任务的顺序调度FPGA单元和CPU 110执行相应的子任务，且处理单元调度程序可以并行处理多个线程任务，经过处理单元调度程序处理得到多个线程任务的任务执行结果，将任务执行结果返回至相应的线程任务，通过分布式服务器从机返回至分布式服务器主机。其中，处理单元调度程序中包括n个子任务，n为正整数。

如图13所示，在一个实施例中，提供一种任务数据处理方法，应用于分布式服务器主机，方法包括以下内容：

S1302，分布式服务器主机接收终端发送的任务数据；确定为任务数据分配的分布式服务器从机地址；根据分配的分布式服务器从机地址将任务数据发送至分布式服务器从机。

该任务数据可以为图像处理任务数据；在一个实施例中，分布式服务器主机可以根据每个分布式服务器从机的工作状态为任务数据分配分布式从机；相应的，分布式服务器主机确定为任务数据分配的分布式服务器从机地址的步骤可以为：分布式服务器主机根据每个分布式服务器从机的工作状态，从每个分布式服务器从机中选择处于空闲状态的分布式服务器从机，确定该选择的分布式服务器从机地址。

在另一个实施例中，分布式服务器主机可以根据任务数据的类型为任务数据分配分布式从机；相应的，分布式服务器主机确定为任务数据分配的分布式服务器从机地址的步骤可以为：分布式服务器主机根据该任务数据的类型，从每个分布式服务器从机中选择用于处理该类型的分布式服务器从机，确定该选择的分布式服务器从机地址。

S1304，分布式服务器从机将任务数据放入线程池，从线程池获取多个任务数据；对于每个任务数据，分别按照机器学习模型中子结构的顺序，依次通过各子结构所对应的处理单元执行相应子结构的子任务；至少部分处理单元包括FPGA单元；在每个处理单元的处理过程，当处理单元处于空闲状态时，执行下一个任务数据对应的子任务。

当该任务数据为图像处理任务数据时，机器学习模型可以为图像处理模型；相应的，对于每个图像处理任务数据，分别按照图像处理模型中子结构的顺序，依次通过各子结构对应的处理单元，执行相应子结构的图像处理子任务。

分布式服务器从机接收到分布式服务器主机发送的任务数据时，将该任务数据放入线程池中；当对任务数据进行处理时，分布式服务器从机从线程池中获取多个任务数据。

其中，可以由分布式服务器主机指示分布式从机对任务数据进行处理；相应的，当分布式服务器从机接收到分布式服务器主机发送的FPGA执行指令时，分布式服务器从机才从线程池中获取多个任务数据。

需要说明的一点是，在本步骤中，可以由FPGA单元执行相应子结构的子任务；相应的，对于每个任务数据，分布式服务器从机分别按照机器学习模型中子结构的顺序，依次通过各子结构所对应的FPGA单元执行相应子结构的子任务；在FPGA单元的处理过程中，当FPGA单元处于空闲状态时，执行下一个任务数据对应的子任务。

需要说明的另一点是，当处理单元处于非空闲状态时，当该处理单元被释放时，才通过该处理单元执行下一个任务数据对应的子任务；或者调用其他处理单元执行下一个任务数据对应的子任务。

S1306，当每个任务数据在各子结构的子任务执行完毕后，分布式服务器从机获得相应的任务执行结果；将获取到任务执行结果返回至分布式服务器主机。

FPGA单元在获得相应的任务执行结果时，将该任务执行结果存储到存储器中；CPU 110从该存储器中读取任务执行结果，将该任务执行结果返回至分布式服务器主机。

S1308，分布式服务器主机接收分布式服务器从机返回的任务执行结果，将返回的任务执行结果发送至终端。

任务数据处理装置130获取多个图像处理任务数据，对于每个图像处理任务数据，分别按照图像处理模型中子结构的顺序，依次通过各子结构对应的处理单元，执行相应子结构的图像处理子任务；在每个处理单元的处理过程中，在前一个图像处理任务数据在当前子结构的图像处理子任务执行完毕，且当前的图像处理任务数据在前一子结构的图像处理子任务执行完毕后，开始执行当前的图像处理任务数据在当前子结构的图像处理子任务。在每个处理单元的处理过程中，各处理单元并行处理多个图像处理任务数据的图像处理子任务，使得通过图像处理模型可以在低成本和低功耗的结构中并行处理多个图像处理任务数据，从而提高了图像处理任务数据的处理效率。

如图14所示，在又一个实施例中，任务数据为图像处理任务数据；机器学习模型为图像处理模型；任务执行结果为图像处理结果。其中，图像处理结果可以是图像识别结果；图像识别结果可以为从图像中识别出的文本等。参见图14，本申请实施例提供了一种处理图像数据的系统，该处理图像数据的系统包括与终端连接的接入层、分布式服务器主机、位于系统层的一个或多个分布式服务器从机以及算法层。分布式服务器从机通过接口(如API(Application Programming Interface，应用程序编程接口))与算法层连接。线程池设置在分布式服务器从机中。算法层设置有机器学习模型。处理单元包括CPU和FPGA单元。终端通过接入层接入到分布式服务器主机。分布式服务器主机与系统层的分布式服务器从机进行数据交互。分布式服务器从机通过API接口(板卡接口)调用算法层的caffe-FPGA.so文件中的算法，根据caffe-FPGA.so文件中的算法调用FPGA单元与CPU配置对任务数据进行处理。分布式服务器从机的线程池中包括多个线程任务，每个线程任务根据caffe-FPGA.so调用FPGA和CPU对线程任务进行并行处理。

本申请实施例是基于caffe的OCR(Optical Character Recognition，光学字符识别)场景文字检测FPGA加速器的软件架构，将caffe进行改造，加入支持FPGA单元调用及多FPGA单元并行调用的类，使之支持多线程并发机制；同时，将caffe封装成caffe-FPGA.so文件中，通过增加API来支持算法，caffe-FPGA.so承载在分布式服务器架构之下来调度FPGA单元，从而实现FPGA单元对线程任务的并行处理。

在本实施例中，机器学习模型包括卷积层、RPN(Region Proposal Network，候选区域生成网络)、池化层、全连接层、第一分类层等。并且，卷积层的输出端与RPN的输入端连接，RPN的输出段与池化层的输入端连接，池化层的输出端与全连接层的输入端连接，全连接层的输出端与第一分类层的输入端连接。其中，第一分类层用于输出图像处理结果。

其中，RPN进一步包括RPN卷积层、第二分类层、候选区域确定层(Proposals)以及NMS(Non Maximum Suppression，非极大值抑制)层。相应的，卷积层的输出端与RPN卷积层的输入端连接，RPN卷积层的输出端与第二分类层的输入端连接，第二分类层的输出端与候选区域确定层的输入端连接，候选区域确定层的输出端与NMS层的输入端连接，NMS层的输出端与池化层的输入端连接。

在机器学习模型中除了RPN中的候选区域确定层和最后的识别结果输出部分采用CPU 110处理外，其他所有部分都基于FPGA单元实现，从而能够将数据处理量较大的部分通过FPGA单元并行处理，而数据处理量较低的部分则仍然保持CPU 110处理，由此，提高了数据处理效率，同时降低成本。

如图15所示，在有一个实施例中，对于每个图像处理任务数据，分别按照图像处理模型中子结构的顺序，依次通过各子结构对应的处理单元，执行相应子结构的图像处理子任务包括各子结构处理图像处理任务数据的步骤，该步骤具体包括内容：

S1502，将图像处理任务数据输入图像处理模型中卷积层子结构对应的FPGA单元，获得卷积结果。

其中，图像处理模型为根据图像数据预先训练好的处理图像处理任务数据的数据模型。图像处理模型中包括卷积层子结构。按照图像处理模型中子结构的顺序，卷积层子结构可以是图像处理模型中第一个子结构。卷积层子结构对应的处理单元为FPGA单元。

任务数据处理装置130从寄存器中读取处理单元调用数据，提取处理单元调用数据中处理单元标识，根据处理单元标识确定图像处理模型中卷积层子结构对应的FPGA单元，向卷积层子结构对应的FPGA单元发送任务执行通知。卷积层子结构对应的FPGA单元接收到任务执行通知时，从存储器读取图像处理任务数据，对图像处理任务数据进行卷积层子结构对应的卷积处理，得到图像处理任务数据的卷积结果。

在一个实施例中，卷积层子结构对应的FPGA单元从存储器中读取图像处理模型的模型参数，根据读取到的模型参数进行配置，使得卷积层子结构对应的FPGA单元根据模型参数对图像处理任务数据进行卷积处理，得到图像处理任务数据的卷积结果。

在一个实施例中，卷积层子结构对应的FPGA单元在得到图像处理任务的卷积结果时，将卷积结果存储到存储器中。

需要说明的一点是，在初始化工作时，CPU 110通过PCIE(Peripheral Component Interconnect Express，高速串行计算机扩展总线标准)DMA写操作的方式，将模型参数写入到存储器中。

S1504，将卷积结果发送至CPU 110，通过CPU 110执行图像处理模型中候选网络子结构对应候选区域选取任务，得到区域选取结果。

其中，图像处理模型中包括卷积层子结构。按照图像处理模型中子结构的顺序，候选网络子结构可以是图像处理模型中第二个子结构。候选网络子结构对应的处理单元为CPU单元。候选网络子结构对应的子任务为候选区域选取任务，候选区域选取任务用于在图像处理任务数据对应的图像中选取待处理的候选区域。

当图像处理模型用于从图像中识别出文本时，在本步骤中，待处理的候选区域可以为包括文本的区域。

任务数据处理装置130检测到卷积层子结构对应的FPGA单元将卷积结果存储到存储器后，向CPU 110发送候选区域选取任务执行通知。CPU 110在接收到候选区域选取任务执行通知后，从存储器中读取卷积结果，根据卷积结果执行候选网络子结构对应的候选区域选取任务，得到区域选取结果，将区域选取结果存储到存储器中。

在一个实施例中，CPU 110从存储器中读取图像处理模型的模型参数，根据模型参数配置候选网络子结构，通过配置的候选网络子结构，根据卷积结果执行候选区域选取任务，得到区域选取结果。

S1506，通过图像处理模型中分类子结构对应的FPGA单元，对区域选取结果进行分类处理，得到分类结果。

其中，图像数据处理模型包括分类子结构，按照图像数据处理模型中子结构的顺序，分类子结构可以是图像处理模型中第三个子结构。

任务数据处理装置130检测到CPU 110将区域选取结果存储到存储器后，向分类子结构对应的FPGA单元发送任务执行通知。分类子结构对应的FPGA单元接收到任务执行通知时，从存储器中读取区域选取结果，对读取到的区域选取结果进行分类处理，得到分类结果，将分类结果存储到存储器中。

在一个实施例中，分类子结构对应的FPGA单元从存储器中读取图像处理模型的模型参数，根据模型参数配置分类子结构，通过分类子结构对区域选取结构进行分类处理，得到分类结果。

S1508，通过CPU 110根据分类结果，确定图像处理任务数据对应的任务执行结果。

任务数据处理装置130在检测到分类子结构对应的FPGA单元将分类结果存储到存储器时，向CPU 110发送任务结果确定通知。CPU 110接收到任务结果确定通知时，从存储器中读取分类结果，根据分类结果中提取图像处理任务数据对应的任务执行结果。举例说明，图像处理任务数据对应的任务执行结果可以对图像识别结果。

如图16所示，在一个实施例中，S1506具体还包括获得分类结果的步骤，该步骤具体包括以下内容：

S1602，调用图像处理模型中非极大值抑制子结构对应的FPGA单元，对区域选取结果进行非极大值抑制处理，得到非极大值抑制结果。

其中，图像处理模型中还包括非极大值抑制子结构。非极大值抑制子结构对应的处理单元为FPGA单元。非极大值抑制子结构对应的子任务为非极大值抑制处理任务，非极大值抑制结果为非极大值抑制处理任务对应的处理结果。

任务数据处理装置130检测到CPU 110将区域选取结果存储到存储器时，向非极大值抑制子结构对应的FPGA单元发送任务执行通知。非极大值抑制子结构对应的FPGA单元接收到任务执行通知时，从存储器中读取区域选取结果，对读取到的区域选取结果进行非极大值抑制处理，得到非极大值抑制结果，将非极大值抑制结果存储到存储器中。

在一个实施例中，非极大值抑制子结构对应的FPGA单元从存储器中读取图像处理模型的模型参数，根据模型参数配置非极大值抑制子结构，通过非极大值抑制子结构对区域选取结果进行非极大值抑制处理，得到非极大值抑制结果。

S1604，通过图像处理模型中池化层子结构对应的FPGA单元，对非极大值抑制结果进行池化层处理，得到池化结果。

其中，图像数据处理模型中还包括池化层子结构，池化层子结构对应的处理单元为FPGA单元。池化层子结构对应的子任务为池化层子任务，池化层子任务对应的处理结果为池化结果。

任务数据处理装置110检测到非极大值抑制子结构对应的FPGA单元将非极大值抑制结果存储到存储器时，向池化层子结构对应的FPGA单元发送任务执行通知。池化层子结构对应的FPGA单元接收到任务执行通知时，从存储器中读取非极大值抑制结果，根据非极大值抑制结果执行池化层子任务，即对非极大值抑制结果进行池化处理，得到池化结果，将池化结果存储到存储器中。

在一个实施例中，池化层子结构对应的FPGA单元从存储器中读取图像处理模型的模型参数，根据模型参数配置池化层子结构，通过池化层子结构对非极大值抑制结果进行池化处理，得到池化结果。

S1606，将池化结果输入图像处理模型中全连接层子结构对应的FPGA单元，获得分类结果。

其中，图像处理模型中还包括全连接层子结构，全连接层子结构对应的处理单元为FPGA单元。全连接层子结构对应的子任务为全连接处理任务，全连接处理任务对应的处理结果为分类结果。

任务数据处理装置130检测到池化层子结构对应的FPGA单元将池化结果存储到存储器时，向全连接层子结构对应的FPGA单元发送任务执行通知。全连接层子结构对应的FPGA单元接收到任务执行通知时，从存储器读取池化结果，根据池化结果执行全连接处理任务，得到分类结果，将分类结果存储到存储器中。

在一个实施例中，全连接层子结构对应的FPGA单元从存储器中读取图像处理模型的模型参数，根据读取到的模型参数配置全连接层子结构，通过全连接层子结构对池化结果进行全连接处理，得到分类结果。

在一个实施例中，图像处理结果可以是图像识别结果。图像识别结果可以是OCR识别结果，也可以是图像目标识别结果。

请参照图17，当需要进行文本识别，例如是OCR识别时，分布式服务器从机获取待处理图片，将待处理图片封装为线程任务。线程任务调用基础卷积层应的FPGA单元，对待处理图片进行卷积处理，得到文本特征。在得到文本特征时，线程任务将文本特征输入候选区域生成网络,在候选区域生成网络中，线程任务调用RPN卷积对应的FPGA单元，对文本特征进行RPN卷积处理，得到文本特征对应的卷积结果。线程任务调用分类对应的FPGA单元，对文本特征对应的卷积结果进行分类处理得到分类结果，线程任务调用CPU 110根据分类结果确定候选文本框，调用CPU 110对确定的候选文本框进行回归调整，得到各任意角度的候选文本框，调用非极大值抑制对应的FPGA单元，对候选文本框中重叠的候选文本框进行处理，得到不重叠的各任意角度的候选文本框。线程任务调用旋转感兴趣区域池化对应的FPGA单元，对候选区域生成网络输出的各任意角度的候选文本框进行池化处理，对各任意角度的候选文本框进行旋转调整，将旋转调整后的候选文本框投射到固定大小的特征图，得到各候选文本框对应的文本框特征图。线程任务调用识别结果输出对应的FPGA单元对文本框特征图中的文本进行识别，输出文本识别结果。

在本实施例中，除了RPN中的Proposal(候选区域确定层)和最后的识别结果输出部分，其他所有部分都基于FPGA实现。由此，能够将数据处理量较大的部分通过成本较低的FPGA 并行实现，以及数据处理量较大的部分则由CPU处理，从而在保持处理效率的同时降低了成本。

需要说明的一点是，不同的处理单元具有不同的输入输出并行度，卷积层对应的FPGA采用32路输入32路输出的并行度；分类对应的FPGA采用16路输入64路输出的并行度；RPN卷积对应的FPGA单元采用8路输入8路输出的并行度，提高了处理效率。

如图18所示，在一个实施例中，提供一种图片处理方法以实现上述OCR识别。该方法具体包括以下内容：

S1802，获取待处理图片。

其中，待处理图片为待进行文本识别处理的图片。文本识别可以是通过OCR(Optical Character Recognition，光学字符识别)技术对图片中的文本进行识别。当终端需要对待处理图片进行识别时，向CPU110发送文本识别请求；CPU 110接收文本识别请求，根据文本识别请求获取待处理图片。

在一个实施例中，该文本识别请求携带待处理图片。相应的，CPU 110根据文本识别请求获取待处理图片的步骤可以为：CPU 110从该文本识别请求中获取待处理图片。

在另一个实施例中，该文本识别请求携带待处理图片的图片标识。相应的，该文本识别请求携带待处理图片的步骤可以为：CPU 110对文本识别请求进行解析，通过解析提取文本识别请求中的图片标识，根据图片标识从存储器中读取待处理图片。图片标识可以是图片在存储器中的存储地址。

需要说明的一点是，该待处理图片的尺寸可以为任一尺寸；因此，本申请可以的图片处理方法能够支持不同尺寸的待处理图片，对不同尺寸的图片进行自适应配置，最大支持1024*1024尺寸的待处理图片。

S1804，提取待处理图片中的文本特征。

其中，文本特征为表示待处理图片中文本的特征。CPU 110获取到待处理图片时，对待处理图片进行卷积处理，通过卷积处理提取待处理图片中的文本特征。

在一个实施例中，S1804的步骤包括以下内容：CPU 110将待处理图片输入卷积层；根据卷积层的卷积核对待处理图片进行卷积处理，得到待处理图片的文本特征。

CPU 110将待处理图片输入机器学习模型的卷积层，通过卷积层的卷积核对待处理图片进行卷积处理，经过卷积处理得到待处理图片的文本特征。其中机器学习模型可以是用于对待处理图片进行文本识别处理的图片处理模型。

S1806，根据文本特征确定待处理图片中任意角度的候选文本框。

其中，候选文本框为待处理图片中包括文本的区域框。CPU 110在提取到待处理图片的文本特征时，根据文本特征在待处理图片中确定包括文本的候选文本框。候选文本框可以是任意角度的候选文本框，任意角度的候选文本框，可以是水平角度、垂直角度和倾斜角度中任意一种角度的候选文本框。

在一个实施例中，CPU 110将从待处理图片中提取到文本特征时，输入到机器学习模型的候选区域生成网络(RPN,Region Proposal Network)，通过候选区域生成网络根据文本特征，确定待处理图片中各任意角度的候选文本框。候选区域生成网络可以是旋转候选区域生成网络(RRPN,Rotation RPN)

在本公开实施例中，RRPN算法能够提高准确性；由于RRPN算法流程复杂，在CPU 110端运算速度较慢，本申请实施例中，将加速器架构覆盖了算法中最耗时的部分，将整体运算效率大大提升，与CPU 110软件版本相比，实现了十倍以上的提升，吞吐量是GPU的1.4倍，成本降低到30％。

S1808，对各候选文本框进行池化处理，将各候选文本框投影到固定大小的特征图，得到各候选文本框对应的文本框特征图。

CPU 110对各任意角度的候选文本框池化处理，通过池化处理将各任意角度的候选文本框进行投影到固定大小的特征图，得到各候选文本框对应的大小相同的文本框特征图。

在一个实施例中，CPU 110将各任意角度的候选文本框输入机器学习模型的池化层，经过池化层将各候选文本框投影到固定大小的特征图，得到各候选文本框对应的固定大小的文本框特征图。池化层可以是旋转感兴趣区(RROI,Rotation ROI)池化层。

在一个实施例中，S1808还包括：将各候选文本框输入池化层；根据预设特征图的固定大小确定各候选文本框的投影参数；根据投影参数将各候选文本框投影为固定大小的特征图，得到各候选文本框对应的文本框特征图。

S1810，识别文本框特征图中文本，得到文本识别结果。

CPU 110对每个文本框特征图中的文本进行识别，通过识别的得到每个文本框特征图对应的文本识别结果。

在一个实施例中，CPU 110将每个文本框特征图输入机器学习模型的输出层，通过输出层对文本框特征图进行OCR识别，得到每个文本框特征图对应的文本识别结果。

本实施例中，根据待处理图片的文本特征，确定待处理图片中各任意角度的候选文本框，可以识别不同角度的候选文本框。对各候选文本框进行池化处理，并将各候选文本框投影到固定大小的特征图，得到各候选文本框的文本框特征图，提高了处理候选文本框的适应性，可以处理不同尺寸和不同角度的候选文本框，通过识别文本框特征图中文本，得到各候选文本框的文本识别结果，提高了待处理图片中文本识别准确率和效率。

在一个实施例中，图片处理方法还包括以下内容：通过至少一个线程将待处理图片输入到机器学习模型中，按照机器学习模型中子结构的顺序，依次通过各子结构所对应的处理单元执行相应子结构的子任务；至少部分处理单元包括FPGA单元。

其中，在执行每个子任务时，执行下述步骤中的一个步骤：提取待处理图片中的文本特征；根据文本特征确定待处理图片中任意角度的候选文本框；对各候选文本框进行池化处理，将各候选文本框投影到固定大小的特征图，得到各候选文本框对应的文本框特征图；识别文本框特征图中文本，得到文本识别结果。

本实施例中，通过各处理单元实施图片处理方法的子任务，可以使得多待处理图片的子任务并行处理，且部分子任务通过处理单元中的FPGA单元实施，提高了待处理图片中文本识别的效率。

在一个实施例中，S1806具体包括以下内容：将文本特征输入到候选区域生成网络；通过候选区域生成网络中候选区域卷积层，对文本特征进行卷积处理，得到文本特征卷积结果；根据文本特征卷积结果，确定待处理图片中各候选文本框的位置信息；对各候选文本框的位置信息进行非极大值抑制处理，得到各任意角度的候选文本框。

CPU 110将文本特征输入到候选区域生成网络，通过候选区域生成网络中候选区域卷积层对文本特征进行卷积处理，通过卷积处理得到文本特征卷积结果，根据文本特征卷积结果，在待处理图片中确定各候选文本框，获取确定的各候选文本框的位置信息，CPU 110对各候选文本框的位置信息进行非极大值抑制处理，得到各任意角度的候选文本框。

在一个实施例中，对各候选文本框的位置信息进行非极大值抑制处理，得到各任意角度的候选文本框包括：根据候选文本框的位置信息，确定待处理图片中各任意角度的候选文本框；确定重叠的候选文本框；对重叠的候选文本框进行非极大值抑制处理，以得到不重叠的各任意角度的候选文本框。

CPU 110根据候选文本框的位置信息，确定待处理图片中各任意角度的候选文本框，从各候选文本框中筛选存在重叠的候选文本框，对重叠的候选文本框进行非极大值抑制处理，得到不重叠的各任意角度的候选文本框。

本实施例中，通过候选区域生成网络可以确定待处理图片中各任意角度的候选文本框，通过对任意角度的候选文本框进行非极大值抑制处理，得到不重叠的各任意角度的候选文本框，提高了确定候选文本框的准确性。

在一个实施例中，机器学习模型包括与池化层连接的全连接层；S1610具体包括以下内容：将文本框特征图输入全连接层；通过文本特征图确定各文本分类对应的概率值；选取最大概率值对应的文本分类作为文本特征图的文本识别结果。

CPU 110得到各候选文本框分别对应的文本框特征图后，将文本框特征图输入到机器学习模型的全连接层，通过全连接层对各文本框特征图进行处理，得到文本特征图对应的各文本分类对应的概率值，在各概率值中确定最大概率值，选取最大概率值对应的文本分类作为文本特征图的文本识别结果。

在一个实施例中，多个处理单元包括FPGA单元和CPU；待处理图片为多个待处理图片；将当前的待处理图片输入卷积层对应的FPGA单元进行处理，得到待处理图片的文本特征；将文本特征输入候选区域生成网络对应的CPU进行处理，确定任意角度的候选文本框；通过池化层对应的FPGA单元，根据任意角度的候选文本框，确定各候选文本框对应的文本框特征图；根据识别结果层对应的FPGA单元，对文本框特征图中文本进行识别，得到文本识别结果；其中，在每个处理单元的处理过程中，当处理单元处于空闲状态时，并行执行下一个待处理图片对应的子任务。

本实施例中，通过部分FPGA单元和CPU执行机器学习模型中子结构对应的子任务，且在获取多个待处理图片时，各FPGA单元和CPU并行执行各待处理图片对应的子任务，从而使得各待处理图片对应的子任务可以被并行处理，从而提高了多个待处理图片的处理效率。

图19为一个实施例中文本识别的流程示意图。对待处理图片1802通过基础卷积处理得到待处理图片1902的文本特征，通过候选区域生成网络(RPN)对待处理图片1902的文本特征进行处理，得到待处理图片1902中任意角度的候选文本框，通过旋转感兴趣区域池化层对任意角度的候选文本框进行调整，得到各候选文本框对应的固定大小的文本框特征图，通过识别结果输出对文本框特征图进行识别，输出文本识别结果1904。文本识别结果1904中的白色框中为识别到的文本。

图20-24为各应用场景对应的文本识别结果示意图。其中，图20为对广告图片中的文本进行识别得到的文本识别结果，黑色框中为识别到的文本。图21对自然场景图片中的文本进行识别得到的文本识别结果，白色框中为识别到的文本。图22和23为对游戏图片中的文本进行识别得到的文本识别结果，黑色框中为识别到的文本。图24为对银行卡图片中文本进行识别得到的文本识别结果，灰色框中的数字为识别到的文本。

本实施例中，通过部分FPGA单元执行机器学习模型中子结构对应的子任务，且在获取多个任务数据时，各FPGA单元并行执行各任务数据对应的子任务，从而使得各任务数据对应的子任务可以被并行处理，从而提高了多个任务数据的处理效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种图片处理方法，其特征在于，通过机器学习模型中各子结构所对应的处理单元执行相应的子任务来实现，至少部分所述处理单元包括现场可编程门阵列FPGA单元；所述方法包括：

获取待处理图片；

提取所述待处理图片中的文本特征；

根据所述文本特征确定所述待处理图片中任意角度的候选文本框；

对各所述候选文本框进行旋转感兴趣区域的池化处理，将各所述候选文本框投影到固定大小的特征图，得到各所述候选文本框对应的文本框特征图；

识别所述文本框特征图中文本，得到文本识别结果。
根据权利要求1所述的方法，其特征在于，所述机器学习模型包括卷积层；所述提取所述待处理图片中的文本特征包括：

将所述待处理图片输入卷积层；

根据所述卷积层的卷积核对所述待处理图片进行卷积处理，得到所述待处理图片的文本特征。
根据权利要求2所述的方法，其特征在于，所述机器学习模型包括与所述卷积层连接的候选区域生成网络；所述根据所述文本特征确定所述待处理图片中任意角度的候选文本框包括：

将所述文本特征输入到候选区域生成网络；

通过所述候选区域生成网络中的候选区域卷积层，对所述文本特征进行卷积处理，得到文本特征卷积结果；

根据文本特征卷积结果，确定所述待处理图片中各候选文本框的位置信息；

对各候选文本框的位置信息进行非极大值抑制处理，得到各任意角度的候选文本框。
根据权利要求3所述的方法，其特征在于，所述对各候选文本框的位置信息进行非极大值抑制处理，得到各任意角度的候选文本框包括：

根据候选文本框的位置信息，确定所述待处理图片中各任意角度的候选文本框；

确定重叠的候选文本框；

对重叠的候选文本框进行非极大值抑制处理，得到不重叠的各任意角度的候选文本框。
根据权利要求3所述的方法，其特征在于，所述机器学习模型包括与所述候选区域生成网络依次连接的池化层；所述对各所述候选文本框进行旋转感兴趣区域的池化处理，将各所述候选文本框投影到固定大小的特征图，得到各所述候选文本框对应的文本框特征图包括：

将各所述候选文本框输入所述池化层；

根据预设特征图的固定大小确定各所述候选文本框的投影参数；根据所述投影参数将各所述候选文本框投影为固定大小的特征图，得到各所述候选文本框对应的文本框特征图。
根据权利要求5所述的方法，其特征在于，所述机器学习模型包括与池化层连接的全连接层；所述识别所述文本框特征图中文本，得到文本识别结果包括：

将所述文本框特征图输入所述全连接层；

通过所述文本特征图确定各文本分类对应的概率值；

选取最大概率值对应的文本分类作为所述文本特征图的文本识别结果。
根据权利要求1所述的方法，其特征在于，所述处理单元包括FPGA单元和CPU；所述待处理图片为多个待处理图片；

所述提取所述待处理图片中的文本特征包括：将当前的待处理图片输入卷积层对应的FPGA单元进行处理，得到待处理图片的文本特征；

所述根据所述文本特征确定所述待处理图片中任意角度的候选文本框包括：将所述文本特征输入候选区域生成网络对应的CPU进行处理，确定任意角度的候选文本框；

所述对各所述候选文本框进行旋转感兴趣区域的池化处理，将各所述候选文本框投影到固定大小的特征图，得到各所述候选文本框对应的文本框特征图包括：通过池化层对应的FPGA单元，根据所述任意角度的候选文本框，确定各候选文本框对应的文本框特征图；

所述识别所述文本框特征图中文本，得到文本识别结果包括：根据识别结果层对应的FPGA单元，对所述文本框特征图中文本进行识别，得到文本识别结果；

其中，在每个所述处理单元的处理过程中，当处理单元处于空闲状态时，并行执行下一个待处理图片对应的子任务。
一种任务数据处理方法，其特征在于，所述方法包括：

获取多个任务数据；

对于每个所述任务数据，分别按照机器学习模型中子结构的顺序，依次通过各所述子结构所对应的处理单元执行相应子结构的子任务；至少部分所述处理单元包括现场可编程门阵列FPGA单元；

在每个所述处理单元的处理过程中，当处理单元处于空闲状态时，并行执行下一个任务数据对应的子任务。
根据权利要求8所述的方法，其特征在于，所述对于每个所述任务数据，分别按照机器学习模型中子结构的顺序，依次通过各所述子结构所对应的处理单元执行相应子结构的子任务包括：

对于每个所述任务数据，从寄存器中读取处理单元调用数据；所述处理单元调用数据由中央处理器CPU写入到所述寄存器中；

根据所述处理单元调用数据，按照机器学习模型中子结构的顺序，依次调用各所述子结构所对应的处理单元执行相应子结构的子任务。
根据权利要求8所述的方法，其特征在于，所述任务数据为图像处理任务数据；所述机器学习模型为图像处理模型；所述任务执行结果为图像处理结果；

所述对于每个所述任务数据，分别按照机器学习模型中子结构的顺序，依次通过各所述子结构所对应的处理单元执行相应子结构的子任务包括：

对于每个所述图像处理任务数据，分别按照图像处理模型中子结构的顺序，依次通过各所述子结构对应的处理单元，执行相应子结构的图像处理子任务。
根据权利要求10所述的方法，其特征在于，所述处理单元还包括CPU，所述对于每个所述图像处理任务数据，分别按照图像处理模型中子结构的顺序，依次通过各所述子结构对应的处理单元，执行相应子结构的图像处理子任务包括：

将所述图像处理任务数据输入所述图像处理模型中卷积层子结构对应的FPGA单元，获得卷积结果；

将所述卷积结果发送至CPU，通过所述CPU执行所述图像处理模型中候选网络子结构对应候选区域选取任务，得到区域选取结果；

通过所述图像处理模型中分类子结构对应的FPGA单元，对所述区域选取结果进行分类处理，得到分类结果；

根据所述分类结果，通过所述CPU确定所述图像处理任务数据对应的任务执行结果。
根据权利要求11所述的方法，其特征在于，所述通过所述图像处理模型中分类子结构对应的FPGA单元，对所述区域选取结果进行分类处理，得到分类结果包括：

调用所述图像处理模型中非极大值抑制子结构对应的FPGA单元，对所述区域选取结果进行非极大值抑制处理，得到非极大值抑制结果；

通过所述图像处理模型中池化层子结构对应的FPGA单元，对所述非极大值抑制结果进行池化层处理，得到池化结果；

将所述池化结果输入所述图像处理模型中全连接层子结构对应的FPGA单元，获得分类结果。
根据权利要求8所述的方法，其特征在于，所述方法还包括：

在每个所述处理单元的处理过程中，在前一任务数据在当前子结构的子任务未执行完毕，且当前的任务数据在前一子结构的子任务执行完毕时，等待所述当前子结构的子任务所对应的处理单元被释放；

当所述当前子结构的子任务所对应的处理单元被释放后，调用所述当前子结构的子任务所对应的处理单元，执行当前的任务数据在当前子结构的子任务。
一种任务数据处理方法，其特征在于，应用于分布式服务器主机，所述方法包括：

接收终端发送的任务数据；

确定为所述任务数据分配的分布式服务器从机地址，将所述任务数据发送至对应的分布式服务器从机；

所述分布式服务器从机，用于将所述任务数据放入线程池，当对任务数据进行处理时，从所述线程池获取多个任务数据；对于每个所述任务数据，分别按照机器学习模型中子结构的顺序，依次通过各所述子结构所对应的处理单元执行相应子结构的子任务；至少部分所述处理单元包括现场可编程门阵列FPGA单元；在每个所述处理单元的处理过程中，当处理单元处于空闲状态时，并行执行下一个任务数据对应的子任务。
一种任务数据处理方法，其特征在于，应用于分布式服务器从机，所述方法包括：

当接收到分布式服务器主机发送的任务数据时，将所述任务数据放入线程池；

当对任务数据进行处理时，从所述线程池获取多个任务数据；

对于每个所述任务数据，分别按照机器学习模型中子结构的顺序，依次通过各所述子结构所对应的处理单元执行相应子结构的子任务；至少部分所述处理单元包括现场可编程门阵列FPGA单元；在每个所述处理单元的处理过程中，当处理单元处于空闲状态时，并行执行下一个任务数据对应的子任务。
一种任务数据处理装置，其特征在于，所述装置至少包括相互连接的任务调度单元和现场可编程门阵列FPGA单元；所述任务调度单元，用于获取多个任务数据；对于每个所述任务数据，分别按照机器学习模型中子结构的顺序，依次通过各所述子结构所对应的处理单元执行相应子结构的子任务；至少部分所述处理单元包括所述FPGA单元；在每个所述处理单元的处理过程中，当处理单元处于空闲状态时，并行执行下一个任务数据对应的子任务。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至8任一权利要求所述的图片处理方法中所执行的操作。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求9至13任一权利要求所述的任务数据处理方法中所执行的操作。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求14所述的任务数据处理方法中所执行的操作。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求15所述的任务数据处理方法中所执行的操作。
一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的图片处理方法。
一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求9至13任一所述的任务数据处理方法。
一种分布式服务器主机，其特征在于，所述分布式服务器主机包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求14所述的任务数据处理方法。
一种分布式服务器从机，其特征在于，所述分布式服务器从机包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求15所述的任务数据处理方法。