WO2023029559A1

WO2023029559A1 - 一种数据处理方法以及装置

Info

Publication number: WO2023029559A1
Application number: PCT/CN2022/091839
Authority: WO
Inventors: 吴华珍; 季军; 占鹏超
Original assignee: 华为技术有限公司
Priority date: 2021-08-30
Filing date: 2022-05-10
Publication date: 2023-03-09
Also published as: CN115731115A

Abstract

一种数据处理方法以及装置，用于使用神经网络来对原始raw数据进行目标增强，在减少增强工作量的同时得到增强效果更好的输出图像。该方法包括：获取第一帧数据（401），第一帧数据是图像传感器采集到的原始数据中的其中一帧；从第一帧数据中获取紧致框对应的数据，得到第一数据（402），紧致框在第一帧数据中覆盖的范围包括从第一帧数据中检测出的目标对象；从第一帧数据中获取宽松框对应的数据，得到第二数据（403），宽松框在第一帧数据中覆盖的范围包括且大于紧致框在第一帧数据中覆盖的范围；将第一数据和第二数据分别作为目标网络的输入，得到输出图像（404），目标网络用于提取输入的数据中的多个通道的信息，并根据多个通道的信息得到输出图像。

Description

一种数据处理方法以及装置

本申请要求于2021年08月30日提交中国专利局、申请号为202111001658.0、申请名称为“一种基于目标增强的ISP系统方法”的中国专利申请的优先权，以及要求于2021年12月01日提交中国专利局、申请号为202111458295.3、申请名称为“一种数据处理方法以及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，尤其涉及一种数据处理方法以及装置。

背景技术

视频成像是当前交通管理、农业管理和工业生产的重要手段。随着成像技术的发展，当前成像设备在理想情况下，可获得较好的成像结果。但随着成像条件裂化，其成像结果会存在分辨率低，对比度差，图像细节丢失等问题。

常用的图像信号处理器(image signal processor，ISP)成像系统涉及大量参数，需要根据各个成像场景特性分别调优，调优工作量巨大。若后续需要进行图像增强，则基于ISP输出的图像进行图像增强。但ISP输出图像的调优工作量巨大，且调优效果受限于调优人工经验，可能存在信息丢失的情况。因此，如何得到更准确的图像，成为亟待解决的问题。

发明内容

本申请提供一种数据处理方法以及装置，用于使用神经网络来对原始raw数据进行目标增强，在减少增强工作量的同时得到增强效果更好的输出图像。

有鉴于此，第一方面，本申请提供一种数据处理方法，包括：获取第一帧数据，第一帧数据是图像传感器采集到的原始数据中的其中一帧；从第一帧数据中获取紧致框对应的数据，得到第一数据，紧致框在第一帧数据中覆盖的范围包括从第一帧数据中检测出的目标对象；从第一帧数据中获取宽松框对应的数据，得到第二数据，宽松框在第一帧数据中覆盖的范围包括且大于紧致框在第一帧数据中覆盖的范围；将第一数据和第二数据分别作为目标网络的输入，得到输出图像，目标网络用于提取输入的数据中的多个通道的信息，并根据多个通道的信息得到输出图像。

本申请实施方式中，通过紧致框扣取了覆盖目标对象的区域的信息，并作为神经网络的输入得到紧致区域的增强结果，通过宽松框提取了宽松区域的信息并作为神经网络的输入，得到宽松区域的增强结果，随后融合紧致区域的增强结果与宽松区域的增强结果，得到目标对象的增强结果。因此，无需通过常用的ISP调优参数，减少了调参工作量，高效准确地得到目标增强结果。并且，可以通过神经网络来替代常用的ISP处理方式，无需对硬件进行升级，在无需提高成本的情况下，实现了对原始(raw)数据更好的增强，得到增强效果更好的图像。

在一种可能的实施方式中，目标网络可以包括第一网络和第二网络；将第一数据和第二数据分别作为目标网络的输入，得到输出图像，可以包括：将第一数据作为第一网络的输入，得到第一增强信息，第一网络用于提取输入的数据中亮度通道的信息；将第二数据作为第二网络的输入，得到第二增强信息，第二网络用于提取输入的数据的多个通道的信息；融合第一增强信息和第二增强信息，得到输出图像。

因此，本申请实施方式中，目标网络可以包括两部分，分别对紧致框和宽松框对应的信息进行处理，相对于目标网络基于整体raw进行增强，通过不同的子网络分别进行处理可以实现并行处理，且可以降低开销，提高工作效率。

在一种可能的实施方式中，上述方法还可以包括：对第一帧数据进行目标检测，得到第一帧数据中目标对象的位置信息；根据目标对象的位置信息生成紧致框和宽松框。

因此，本申请可以通过目标检测的方式来识别raw数据中的目标对象，从而可以快速准确地找到目标对象的位置，进而准确地确定紧致框和宽松框的位置和尺寸。

在一种可能的实施方式中，上述的获取第一帧数据，可以包括：接收用户输入数据，并根据用户输入数据从原始数据中提取第一帧数据；或者，对原始数据中的每一帧进行目标检测，根据检测结果从原始数据中提取第一帧数据。

因此，本申请实施方式中，可以由用户来选择需要进行目标增强的帧，从而可以针对用户的需求进行目标增强，提高用户体验。或者，也可以通过目标检测，来从raw数据中筛选出需要进行目标增强的帧，从而可以更准确地识别出哪些帧需要进行目标增强，得到更准确清晰的输出图像。

在一种可能的实施方式中，目标网络为结合识别网络以及训练集进行训练得到，识别网络用于获取输入的图像中的语义信息，其中，在对目标网络进行训练的过程中，以识别网络的输出结果作为约束对目标网络进行更新。

因此，本申请实施方式中，在对目标网络进行训练时，可以将识别网络的输出作为约束，从而约束目标网络的输出图像被识别的准确度更高，进而提高目标网络的输出准确度。

第二方面，本申请提供一种神经网络训练方法，包括：获取训练集，训练集中包括图像传感器采集到的原始数据以及对应的真值标签；将训练集作为目标网络的输入，得到增强结果，目标网络用于从输入的数据中提取紧致框对应的亮度通道的信息，以及从输入数据中提取宽松框对应的多个通道的信息，对亮度通道的信息和多个通道的信息进行融合得到增强结果，宽松框在输入的数据中覆盖的范围包括且大于紧致框在输入的数据中覆盖的范围；将训练集作为识别网络的输入，得到第一识别结果，识别网络用于获取输入的图像中的语义信息；将增强结果作为识别网络的输入，得到第二识别结果；根据增强结果和真值标签之间的差值，以及第一识别结果和第二识别结果之间的差值，对目标网络进行更新，得到更新后的目标网络。

本申请实施方式中，可以以识别网络的输出结果为约束，来对目标网络进行更新，从而使目标网络的输出更准确。可以理解为，可以使用识别网络对真值图像与目标网络的输出图像都进行识别，并将识别结果作为约束对目标网络进行更新，使目标网络的输出图像的识别结果与真值图像的识别结果更接近，从输出图像中的目标对象的准确度的维度来使目标网络收敛，提高目标网路的输出图像被识别正确的概率。

在一种可能的实施方式中，目标网络包括第一网络和第二网络，第一网络用于从训练集中的数据中提取紧致框对应的亮度通道的信息，第二网络用于从输入数据中提取宽松框对应的多个通道的信息。

因此，本申请实施方式中，目标网络可以分为多个部分，从而在训练以及应用的过程中，可以分别对紧致框以及宽松框对应的数据并行进行处理，从而提高目标网路的输出效率。

在一种可能的实施方式中，增强结果中包括第一网络输出的第一信息以及第二网络输出的第二信息，第二识别结果包括第一信息对应的第三识别结果以及第二信息对应的第四识别结果；根据增强结果和真值标签之间的差值，以及第一识别结果和第二识别结果之间的差值，对目标网络进行更新，得到更新后的目标网络，可以包括：根据第一信息和真值标签之间的差值，以及第三识别结果和第一识别结果之间的差值，更新第一网络，得到更新后的第一网络；根据第二信息和真值标签之间的差值，以及第四识别结果和第一识别结果之间的差值，更新第二网络，得到更新后的第二网络。

因此，本申请实施方式中，可以分别对第一网络以及第二网络进行训练，从而可以有针对性地对目标网络中的子网络进行训练，提高子网络的输出准确性，从而提高目标网络的整体输出准确性。

在一种可能的实施方式中，前述的根据增强结果和真值标签之间的差值，以及第一识别结果和第二识别结果之间的差值，对目标网络进行更新，得到更新后的目标网络，可以包括：根据增强结果和真值标签之间的差值得到第一损失值；根据第一识别结果和第二识别结果之间的差值得到第二损失值；融合第一损失值和第二损失值，得到第三损失值；根据第三损失值对目标网络进行更新，得到更新后的目标网络。

因此，本申请实施方式中，也可以对目标网络整体进行训练，从而使目标网络的整体输出效果更好，得到输出更准确的目标网络。

第三方面，本申请提供一种数据处理装置，包括：

获取模块，用于获取第一帧数据，第一帧数据是图像传感器采集到的原始数据中的其中一帧；

紧致扣取模块，用于从第一帧数据中获取紧致框对应的数据，得到第一数据，紧致框在第一帧数据中覆盖的范围包括从第一帧数据中检测出的目标对象；

宽松扣取模块，用于从第一帧数据中获取宽松框对应的数据，得到第二数据，宽松框在第一帧数据中覆盖的范围包括且大于紧致框在第一帧数据中覆盖的范围；

输出模块，用于将第一数据和第二数据分别作为目标网络的输入，得到输出图像，目标网络用于提取输入的数据中的多个通道的信息，并根据多个通道的信息得到输出图像。

在一种可能的实施方式中，目标网络包括第一网络和第二网络；

输出模块，具体用于：将第一数据作为第一网络的输入，得到第一增强信息，第一网络用于提取输入的数据中亮度通道的信息；将第二数据作为第二网络的输入，得到第二增强信息，第二网络用于提取输入的数据的多个通道的信息；融合第一增强信息和第二增强信息，得到输出图像。

在一种可能的实施方式中，装置还包括：目标检测模块，用于对第一帧数据进行目标检测，得到第一帧数据中目标对象的位置信息；根据目标对象的位置信息生成紧致框和宽松框。

在一种可能的实施方式中，获取模块，具体用于：接收用户输入数据，并根据用户输入数据从原始数据中提取第一帧数据；或者，对原始数据中的每一帧进行目标检测，根据检测结果从原始数据中提取第一帧数据。

第四方面，本申请提供一种神经网络训练装置，包括：

获取模块，用于获取训练集，训练集中包括图像传感器采集到的原始数据以及对应的真值标签；

增强模块，用于将训练集作为目标网络的输入，得到增强结果，目标网络用于从输入的数据中提取紧致框对应的亮度通道的信息，以及从输入数据中提取宽松框对应的多个通道的信息，对亮度通道的信息和多个通道的信息进行融合得到增强结果，宽松框在输入的数据中覆盖的范围包括且大于紧致框在输入的数据中覆盖的范围；

语义分割模块，用于将训练集作为识别网络的输入，得到第一识别结果，识别网络用于获取输入的图像中的语义信息；

语义分割模块，还用于将增强结果作为识别网络的输入，得到第二识别结果；

更新模块，用于根据增强结果和真值标签之间的差值，以及第一识别结果和第二识别结果之间的差值，对目标网络进行更新，得到更新后的目标网络。

在一种可能的实施方式中，增强结果中包括第一网络输出的第一信息以及第二网络输出的第二信息，第二识别结果包括第一信息对应的第三识别结果以及第二信息对应的第四识别结果；更新模块，具体用于：根据第一信息和真值标签之间的差值，以及第三识别结果和第一识别结果之间的差值，更新第一网络，得到更新后的第一网络；根据第二信息和真值标签之间的差值，以及第四识别结果和第一识别结果之间的差值，更新第二网络，得到更新后的第二网络。

在一种可能的实施方式中更新模块，具体用于：根据增强结果和真值标签之间的差值得到第一损失值；根据第一识别结果和第二识别结果之间的差值得到第二损失值；融合第一损失值和第二损失值，得到第三损失值；根据第三损失值对目标网络进行更新，得到更新后的目标网络。

第五方面，本申请实施例提供一种数据处理装置，包括：处理器和存储器，其中，处理器和存储器通过线路互联，处理器调用存储器中的程序代码用于执行上述第一方面任一项所示的数据处理方法中与处理相关的功能。可选地，该电子设备可以是芯片。

第六方面，本申请实施例提供一种神经网络训练装置，包括：处理器和存储器，其中，处理器和存储器通过线路互联，处理器调用存储器中的程序代码用于执行上述第一方面任一项所示的神经网络训练方法中与处理相关的功能。可选地，该电子设备可以是芯片。

第七方面，本申请实施例提供了一种电子设备，该电子设备也可以称为数字处理芯片或者芯片，芯片包括处理单元和通信接口，处理单元通过通信接口获取程序指令，程序指令被处理单元执行，处理单元用于执行如上述第一方面或第二方面任一可选实施方式中与处理相关的功能。

第八方面，本申请实施例提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述第一方面或第二方面任一可选实施方式中的方法。

第九方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第二方面任一可选实施方式中的方法。

附图说明

图1是本申请应用的一种人工智能主体框架示意图；

图2是本申请提供的一种系统架构示意图；

图3是本申请提供的一种电子设备的结构示意图；

图4是本申请提供的一种数据处理方法的流程示意图；

图5是本申请提供的另一种数据处理方法的流程示意图；

图6是本申请提供的一种应用场景示意图；

图7是本申请提供的另一种应用场景示意图；

图8是本申请提供的一种掩膜示意图；

图9是本申请提供的另一种数据处理方法的流程示意图；

图10是本申请提供的另一种应用场景示意图；

图11是本申请提供的另一种应用场景示意图；

图12是本申请提供的一种神经网络训练方法的流程示意图；

图13是本申请提供的一种训练数据示意图；

图14是本申请提供的另一种神经网络训练方法的流程示意图；

图15是本申请提供的另一种应用场景示意图；

图16是本申请提供的另一种应用场景示意图；

图17是本申请提供的另一种应用场景示意图；

图18是本申请提供的一种数据处理装置的结构示意图；

图19是本申请提供的一种神经网络训练装置的结构示意图

图20是本申请提供的另一种数据处理装置的结构示意图；

图21是本申请提供的另一种神经网络训练装置的结构示意图；

图22是本申请提供的一种芯片的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种数据处理方法、神经网络训练方法以及装置，结合了神经网络来对图像传感器采集到的数据进行处理，从而得到增强效果更好的输出图像。为便于理解，下面首先分别对神经网络和本申请提供的包括了图像传感器的电子设备分别进行介绍。

首先对人工智能系统总体工作流程进行描述，请参见图1，图1示出的为人工智能主体框架的一种结构示意图，下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中，“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片，如中央处理器(central processing unit，CPU)、网络处理器(neural-network processing unit，NPU)、图形处理器(英语：graphics processing unit，GPU)、专用集成电路(application specific integrated circuit,ASIC)或现场可编程逻辑门阵列(field programmable gate array，FPGA)等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能终端、智能交通、智能医疗、自动驾驶、智慧城市等。

本申请实施例涉及了神经网络以及图像的相关应用，为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于对神经网络中获取到的特征进行非线性变换，将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量。由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取特征的方式与位置无关。卷积核可以以随机大小的矩阵的形式化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。该损失函数通常可以包括误差平方均方、交叉熵、对数、指数等损失函数。例如，可以使用误差均方作为损失函数，定义为

具体可以根据实际应用场景选择具体的损失函数。

(5)反向传播算法

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的网络模型中的参数的大小，使得模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的模型中的参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的模型参数，例如，权重矩阵。

本申请实施方式中，在训练阶段，可以采用BP算法来对模型进行训练，得到训练后的模型。

(6)梯度：损失函数关于参数的导数向量。

(7)随机梯度：机器学习中样本数量很大，所以每次计算的损失函数都由随机采样得到的数据计算，相应的梯度称作随机梯度。

(8)YUV：YUV是一种颜色空间，Y表示明亮度(Luminance或Luma)，也就是灰阶值；而“U”和“V”表示的则是色度(Chrominance或Chroma)，用于指定像素的颜色。“U”和“V”是构成彩色的两个分量。采用YUV色彩空间的重要性是它的亮度信号Y和色度信号U、V是分离的。如果只有Y信号分量而没有U、V信号分量，那么这样表示的图像就是黑白的灰度图像。

(9)裸(raw)数据：Raw数据记录了相机传感器的原始信息，是未经处理、也未经压缩的格式，可以把RAW概念化为“原始图像编码数据”或更形象的称为“数字底片”。

本申请提供了一种神经网络训练方法以及数据处理方法，通过本申请提供的神经网络训练方法得到的神经网络，可以应用于本申请提供的数据处理方法中。本申请提供的数据处理方法可以用于对传感器采集到的原始raw数据进行处理，从而得到输出图像。

下面介绍本申请实施例提供的系统架构。

参见图2，本申请实施例提供了一种系统架构200。如系统架构200所示，数据采集设备260可以用于采集训练数据。在数据采集设备260采集到训练数据之后，将这些训练数据存入数据库230，训练设备220基于数据库230中维护的训练数据训练得到目标模型/规则201。

下面对训练设备220基于训练数据得到目标模型/规则201进行描述。示例性地，训练设备220对多帧样本图像进行处输出对应的预测标签，并计算预测标签和样本的原始标签之间的损失，基于该损失对分类网络进行更新，直到预测标签接近样本的原始标签或者预测标签和原始标签之间的差异小于阈值，从而完成目标模型/规则201的训练。具体描述详见后文中的训练方法。

本申请实施例中的目标模型/规则201具体可以为神经网络。需要说明的是，在实际的应用中，数据库230中维护的训练数据不一定都来自于数据采集设备260的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备220也不一定完全基于数据库230维护的训练数据进行目标模型/规则201的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备220训练得到的目标模型/规则201可以应用于不同的系统或电子设备中，如应用于图2所示的执行设备220，所述执行设备220可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端，电视等，还可以是服务器或者云端等电多种电子设备中。在图2中，执行设备220配置有收发器212，该收发器可以包括输入/输出(input/output，I/O)接口或者其他无线或者有线的通信接口等，用于与外部设备进行数据交互，以I/O接口为例，用户可以通过客户设备240向I/O接口输入数据。

在执行设备220对输入数据进行预处理，或者在执行设备220的计算模块212执行计算等相关的处理过程中，执行设备220可以调用数据存储系统250中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统250中。

最后，I/O接口212将处理结果返回给客户设备240，从而提供给用户。

值得说明的是，训练设备220可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则201，该相应的目标模型/规则201即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在附图2中所示情况下，用户可以手动给定输入数据，该手动给定可以通过收发器212提供的界面进行操作。另一种情况下，客户设备240可以自动地向收发器212发送输入数据，如果要求客户设备240自动发送输入数据需要获得用户的授权，则用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看执行设备220输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端，采集如图所示输入收发器212的输入数据及输出收发器212的输出结果作为新的样本数据，并存入数据库230。当然，也可以不经过客户设备240进行采集，而是由收发器212直接将如图所示输入收发器212的输入数据及输出收发器212的输出结果，作为新的样本数据存入数据库230。

需要说明的是，附图2仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图2中，数据存储系统250相对执行设备220是外部存储器，在其它情况下，也可以将数据存储系统250置于执行设备220中。

如图2所示，根据训练设备220训练得到目标模型/规则201，该目标模型/规则201在本申请实施例中可以是本申请以下提及的中的神经网络。

可以理解为，前述图2中所示出的训练设备，可以用于执行本申请提供的神经网络训练方法，得到训练后的神经网络。训练后的神经网络可以部署于执行设备中，用于执行本申请提供的数据处理方法，即该执行设备可以是本申请提供的电子设备。

本申请实施例中提供的电子设备具体可以包括手持设备、车载设备、可数据处理装置、计算设备等包括图像传感器或者与图像传感器连接的电子设备。还可以包括数码相机(digital camera)、蜂窝电话(cellular phone)、相机、智能手机(smart phone)、个人数字助理(personal digital assistant，PDA)电脑、平板型电脑、膝上型电脑(laptop computer)、机器类型通信(machine type communication，MTC)终端、销售终端(point of sales，POS)、车载电脑、头戴设备、数据处理装置(如手环、智能手表等)、安防设备、虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备以及其他具有成像功能的电子设备。

以数码相机为例，数码相机是数字式照相机的简称，是一种利用光电传感器把光学影像转化成数字信号的照相机。与传统相机依靠胶卷上的感光化学物质的变化来记录图像不同，数码相机的传感器是一种光感式的电荷耦合器件(charge-coupled device，CCD)或互补金属氧化物半导体(complementary metal oxide semiconductor，CMOS)。相比于传统相机，数码相机因直接使用光电转换的图像传感器，具有更为便利，快捷，可重复，更具有及时性等优势。随着CMOS加工工艺的发展，数码相机的功能也愈发强大，已几乎全面取代传统胶片式相机，在消费电子，人机交互，计算机视觉，自动驾驶等领域有着极其广泛的应用。

示例性地，图3示出了本申请提供的一种电子设备的示意图，如图所示，电子设备可以包括镜头(lens)组110、图像传感器(sensor)120和电信号处理器130。电信号处理器130可以包括模数(A/D)转换器131和数字信号处理器132。其中模数转换器131即模拟信号转数字信号转换器，用于将模拟电信号转换为数字电信号。

应理解，图3中示出的电子设备并不限于包括以上器件，还可以包括更多或者更少的其他器件，例如电池、闪光灯、按键、传感器等，本申请实施例仅以安装有图像传感器120的电子设备为例进行说明，但电子设备上安装的元件并不限于此。

被摄物体反射的光信号通过镜头组110汇聚，成像在图像传感器120上。图像传感器120将光信号转换为模拟电信号。模拟电信号在电信号处理器130中通过模数(A/D)转换器131转换为数字电信号，并通过数字信号处理器132对数字电信号进行处理，例如通过一系列复杂的数学算法运算，对数据电信号进行优化，最终输出图像。电信号处理器130还可以包括模拟信号预处理器133，用于将图像传感器传输的模拟电信号进行预处理后输出至模数转换器131。

图像传感器120的性能影响最终输出的图像的质量。图像传感器120也可以称为感光芯片、感光元件等，包含有几十万到几百万的光电转换元件，受到光照射时，会产生电荷，通过模数转换器芯片转换成数字信号。通常，图像传感器输出的数字信号，可以称为裸(raw)数据，即未经图像处理的数据。

一些常用的图像增强方式中，图像信号处理器(image signal processor，ISP)成像系统包含多个功能模块，涉及大量参数，需要根据各个成像场景特性分别调优，调优工作量巨大，且调优效果受限于调优工作人员的经验。此外，一些常用的ISP多关注视频质量调优，但在现实成像应用中，许多场景更关注特定目标成像质量而非视频质量，如交通场景关注车牌区域成像质量，工业检测场景关注特定工件的成像质量。该特定目标通常存在较多先验信息。

具体例如，常用的ISP处理过程的关键处理步骤可以包括数据矫正、细节处理、颜色调整、亮度调整、图像增强等。每个步骤可以包含多个经典算法，各算法都有相应的调优参数，且各步骤之间的顺序可根据实际情况调整，因此传统的ISP处理过程中参数调优是个复杂的工作，需要消耗较大的人力成本。此外，传统ISP处理的场景适应性较差，针对不同的场景需要分别调优，调优工足量巨大。raw数据通常为12(也可以是14或16)bit的无压缩数据，经过ISP处理后，转为为8bit的图像数据，该转化过程存在一定信息损失。此外，若输入的原始RAW数据质量较差，ISP会因为多个处理过程错误累积，在图像中引入伪纹理，且不同的ISP参数引入的伪纹理差别较大。现有的基于特定目标的增强算法大都是在ISP处理之后的RGB或YUV图像上实现，由于传统的ISP处理已经在图像中引入了各异的伪纹理，在RGB或YUV图像上的目标增强算法的效果上限较低，且泛化性较弱，需要分别适配到不同ISP芯片成像风格。若仅在原始Raw数据域实现目标增强，需要配合后续ISP的调优，来获得最终的增强效果，整体流程复杂，且无法避免繁杂的ISP调优工作。

此外，一些常用的图像增强方式，通常是针对ISP处理后的图像进行增强，然而在ISP处理的过程中可能丢失部分信息，导致图像增强效果不好，且参数调优工作量大，导致增强效率低。

因此，本申请提供了一种数据处理方法，可以在不升级成像硬件的前台下，提升特定目标的成像质量同时减少调优工作量，减少开销。

在本申请提供的方法中，通过神经网络来实现对raw数据的增强，无需大量的参数调优，仅需将训练后的神经网络部署于ISP芯片中即可。下面分别对神经网络的应用和训练过程分别进行介绍。

一、应用过程

参阅图4，本申请提供的一种数据处理方法的流程示意图，如下所述。

401、获取第一帧数据。

其中，在步骤401之前，可以获取图像传感器采集到的原始数据，即raw数据，第一帧数据是raw数据中的其中一帧数据，即需要进行图像增强的数据。

可选地，可以接收用户输入数据，然后根据用户输入数据从raw数据中确定第一帧数据；或者，对raw数据中的每一帧进行目标检测，然后根据检测结果从原始数据中提取第一帧数据；或者，也可以从raw数据中随机选取一帧作为第一帧数据等。如从raw数据中提取目标更清晰的一帧作为第一帧数据，或者，从raw数据中提取目标纹理更复杂的一帧作为第一帧数据等，具体可以根据实际应用场景选择，当然也可以对raw数据中的每一帧进行增强，本申请示例性地，以第一帧数据为例进行示例性说明。

通常，第一帧数据中可以包括多个通道的信息，具体的通道数量可以根据图像传感器采集到的数据来确定。例如，图像传感器可以采集亮度、色度等通道的信息。

402、从第一帧数据中获取紧致框对应的数据得到第一数据。

其中，在从raw数据中选取了第一帧数据之后，即可基于该第一帧数据生成紧致框和宽松框，从第一帧数据中提取紧致框对应的数据，即可得到第一数据，该紧致框覆盖了第一帧数据中目标对象所在的区域，从而可以从第一帧数据中提取到包括了目标对象的信息的第一数据。

403、从第一帧数据中获取宽松框对应的数据得到第二数据。

其中，宽松款的尺寸大于且覆盖紧致框在第一帧数据中对应的范围，从第一帧数据中提取宽松框对应的数据得到第二数据。

具体地，可以对第一帧数据进行目标检测，识别出第一帧数据中的目标对象的位置，然后基于目标对象的位置来生成紧致框和宽松框。可以理解为，紧致框在第一帧数据中覆盖的范围包括了目标对象的信息，与目标对象贴合更紧密，宽松框在第一帧数据中覆盖的范围，除了包括目标对象的信息，还可以包括目标对象相邻的像素点的信息。

404、将第一数据和第二数据分别作为目标网络的输入得到输出图像。

其中，目标网络用于基于第一数据和第二数据对目标对象进行增强，从而得到增强后的图像，即输出图像。

可选地，目标网络可以包括多个部分，如可以包括第一网络和第二网络，第一网络可以用于从输入的输入中提取亮度信息并进行增强，第二网络可以用于从输入的数据中分别提取多个通道的信息并进行增强。可以将第一数据作为第一网络的输入，得到第一增强信息，将第二数据作为第二网络的输入，得到第二增强信息，融合第一增强信息和第二增强信息，从而得到输出图像。因此，可以通过紧致框来对目标对象的纹理细节进行增强，从而提高目标对象的清晰度，使输出图像中的目标对象更清晰。

当然，第一网络除了可以提取亮度信息并进行增强之外，也可以对其他通道的信息进行提取并增强，本申请示例性地，以从输入的输入中提取亮度信息并进行增强为例进行示例性说明，并不作为限定。

因此，本申请实施方式中，可以通过紧致框来提取目标对象中亮度通道的信息并进行增强，通过宽松框来提取目标对象及其附近的多个通道的信息并进行增强，从而可以对目标对象的纹理进行增强，从而使输出图像包括的目标对象更清晰，得到增强了目标对象的输出图像。如在一些成像成精中，更关注特定目标的成像质量，本申请通过对目标对象进行图像增强，从而提高输出图像的成像效果。且相对于常用的ISP，其调参工作量大，且在处理过程中可能存在信息丢失，本申请通过神经网络来对原始的包括全量信息的raw数据进行处理，实现端到端的目标增强，减少调参工作量。

此外，在对目标网络进行训练时，可以结合识别网络以及训练集进行训练，该识别网络可以用于获取输入的图像中的语义信息，如可以通过识别网络来识别输入图像中的对象的信息，如对象的类别、大小或位置等信息，在对目标网络进行训练的过程中，可以以识别网络的输出结果来作为约束对目标网络进行更新，得到更新后的目标网络。因此，本申请实施方式中，在训练目标网络时，可以以识别网络的输出结果来作为约束，使目标网络的输出结果的识别结果更准确，从而可以提高目标网络的输出图像的准确度以及清晰度，提高目标网络的图像增强效果。

可以理解为，本申请可以将神经网络部署于ISP系统中，从而可以通过神经网络来代替常用的ISP处理系统，从而提高目标增强效率。

示例性地，本申请提供的另一种数据处理方法的流程可以如图5所示。

501、获取raw数据。

通常，该raw数据可以是由图像传感器采集得到，为了基于未压缩的raw数据来实现端到端的目标增强，可以在ISP系统中缓存一定量的raw数据。例如，在传感器采集到raw数据之后，即可传输至ISP系统中，进行后续处理。

502、提取目标帧。

在得到raw数据之后，可以对其中的每一帧都进行目标增强，也可以是从raw数据中选择一帧或者多帧进行目标增强。示例性地，本实施例以选择其中一帧作为目标帧(即前述的第一帧数据)进行目标增强为例进行示例性说明。

具体地，可以对raw数据进行目标检测，从raw数据中筛选出了包括了目标对象的一帧或者多帧作为目标帧。或者，可以由用户来选择将某一帧作为目标帧，并从raw数据中提取到目标帧。

例如,可以使用目标检测算法，获取视频的每一帧中目标对象的大小、清晰度等信息，然后从视频中选择其中目标对象的大小相对更大或者清晰度更高的一帧作为目标帧，同时可以得到目标帧中目标对象的位置。

又例如，在一些场景中，如工业检测场景中，可以由用户来设定目标帧以及目标对象的位置，如用户设置特定帧号作为抓拍帧，同时可以通过摄像机与目标对象之间的相对位置关系，确定目标对象在画面中的具体位置。

此外，在得到目标帧之后，可以对目标帧进行目标检测，识别出目标帧中的目标对象的具体信息，或者通过用户手动设置来确定目标对象的信息，如目标对象的位置、尺寸或者形状等信息。然后即可基于目标对象的具体信息生成紧致框和宽松框，紧致框可以理解为与目标对象紧密贴合的框，宽松框除了包括紧致框覆盖的范围，还可以包括目标对象邻近的一定范围内的范围。可以理解为，紧致框紧致包裹目标对象，与目标对象的轮廓更贴合，而宽松框大于且覆盖紧致框，包括了目标对象及其周围的一定范围。

503、扣取紧致框作为Target_ISPNet输入。

其中，为便于理解，本实施例将第一网络称为Target_ISPNet，可以从目标帧中提取紧致框所覆盖的范围的信息，并将提取到的信息作为Target_ISPNet的输入，输出亮度增强信息。

例如，如图6所示，可以从目标帧中扣取紧致框601覆盖的信息，作为Target_ISPNet的输入，得到紧致框覆盖的范围的细节、对比度增强后的亮度通道的信息，如表示为Yt。

当然，Target_ISPNet也可以对其他通道如色度通道的信息进行增强，本申请示例性地，以Target_ISPNet对亮度通道的信息进行提取并增强为例进行示例性说明。

504、扣取宽松框作为Full_ISPNet输入。

其中，为便于理解，本实施例将第二网络称为Full_ISPNet，可以从目标帧中提取宽松框覆盖的信息，并将提取到的信息作为Full_ISPNet的输入，输出对各个通道都进行增强后的多通道增强信息。

例如，如图7所示，可以从目标帧中扣取宽松框602覆盖范围的信息，作为Full_ISPNet的输入，得到宽松框覆盖范围内的亮度通道增强信息Yf以及颜色通道的增强信息UfVf。

505、融合增强信息得到输出图像。

在得到亮度通道增强信息以及多个通道增强信息之后，即可融合亮度通道增强信息以及多个通道增强信息，得到增强后的输出图像。

将Target_ISPNet的亮度通道输出Yt，与Full_ISPNet的输出YfUfVf融合，获得最终的目标增强结果，该融合可以通过多种方式来实现，如加权融合、泊松融合的等方式来进行融合。

示例性地，以加权融合为例，通常紧致框和宽松框在紧致区域内的纹理一致，紧致区域即紧致框覆盖的范围，可以使用掩膜(mask)与Yt和YfUfVf融合。通常可以从紧致框对应的区域中提取亮度信息并进行增强，因此在融合的过程中，亮度通道可以融合Yf和Yt，UV则可以使用UfVf。当然，若Target_ISPNet也输出UV通道的增强信息，也可以融合Target_ISPNet输出的UV通道的信息和Full_ISPNet输出的UV通道的信息融合，具体可以根据实际应用场景来调整。

如各个通道的融合方式可以表示为：

Yout＝Yt*mask+Yf*(1-mask)

Uout＝Uf

Vout＝Vf

该掩膜中的像素值可以作为融合权重，如图8所示，如紧致框中心区域内接近1，紧致框外区域接近0，紧致框附可以使用近线性过度。

为便于理解，以交通场景中的车牌图像增强为例进行示例性说明，整体流程可以参阅图9。

首先，抓拍到的车牌图像如图10所示，可以通过目标检测网络来识别图像中车牌所在的位置，然后根据车牌的位置生成紧致框和宽松框。如图11所示，紧致包围在车牌周围的检测框称为紧致框，将紧致框外扩一定范围即可得到宽松框，外扩的比例可以预先设定，也可以由用户来设定，如可以由用户来设定需要增强的车牌部分的大小。如在车牌抓拍图中，紧致框的大小占宽松框的30％。

通常，常用的ISP系统需要实现细节、对比度、亮度、颜色等信息的调整与增强。而在ISP处理过程中，细节增强、对比度增强、亮度调整与颜色调整任务差异较大，细节与对比度属于高频信息，而亮度和颜色属于低频信息，因此，细节、对比度增强的任务难度较高，需要消耗更多网络算例。此外，人眼通常只关注目标紧致框内的细节与对比度增强，因此，本申请提供的目标网络中可以包括至少两部分，即针对紧致框的增强网络Target_ISPNet以及针对宽松框的增强网络Full_ISPNet，从而通过Target_ISPNet对检测目标的亮度通道进行增强，实现紧致框区域的细节以及对比度的增强，通过Full_ISPNet来实现宽松框区域的亮度调整和颜色调整，从而从多个维度提高目标对象的清晰度，提高用户的观感体验。

为充分挖掘目标成像对象的先验信息，从系统中获取目标帧号及对应目标位置后，从目标帧中抠取紧致框与宽松框覆盖的范围分别作为Target_ISPNet和Full_ISPNet的输入。如图9中所示，Target_ISPNet获得细节对比度增强后的紧致区域的亮度通道Yt，Full_ISPNet则获得宽松区域的亮度以颜色调整后的Yf、Uf、Vf，融合Yt和Yf，得到融合后的紧致区域的亮度信息，然后将紧致区域的亮度信息贴回宽松框区域，得到宽松框区域的多通道信息。

本申请实施方式中，通过紧致框扣取了覆盖目标对象的区域的信息，并作为神经网络的输入得到紧致区域的增强结果，通过宽松框提取了宽松区域的信息并作为神经网络的输入，得到宽松区域的增强结果，随后融合紧致区域的增强结果与宽松区域的增强结果，得到目标对象的增强结果。因此，无需通过常用的ISP调优参数，减少了调参工作量，高效准确地得到目标增强结果。并且，可以通过神经网络来替代常用的ISP处理方式，无需对硬件进行升级，在无需提高成本的情况下，实现了对raw数据更好的增强。

二、训练过程

前述对本申请提供的数据处理方法进行了介绍，其中，将从目标帧中扣取的紧致框和宽松框对应的数据分别作为目标网络的输入，从而得到目标增强的结果，目标网络可以是经过训练的神经网络，参阅图12，本申请提供的一种神经网络训练方法，如下所述。

1201、获取训练集。

其中，该训练集中可以包括多个样本以及每个样本对应的标签，该训练集中可以包括图像传感器采集到的raw数据以及对应的真值图像。

可以理解为，该训练集中可以包括图像传感器采集到的raw数据(即样本)以及进行增强后的图像，即真值图像。

通常，训练数据与目标网络的训练方式相关，例如，若分别对目标网络的子网络，即Target_ISPNet和Full_ISPNet进行训练，则训练集中的真值图像可以分为多种，如紧致框对应的真值图像以及宽松框对应的图像，若对目标网络整体进行训练，则训练集中可以包括raw数据以及对应的经过增强后的图像。

示例性地，raw数据和对应的真值图像可以如图13所示，其中raw数据可以包括拍摄到的携带噪声的车牌raw数据，以及对应的经过降噪、细节增强、对比度增强等ISP处理后的真值图像。

1202、将训练集作为目标网络的输入，得到增强结果。

其中，该目标网络可以用于从输入的数据中提取紧致框对应的亮度通道的信息，以及从输入数据中提取宽松框对应的多个通道的信息，对亮度通道的信息和多个通道的信息进行融合得到增强结果。

可选地，目标网络包括第一网络和第二网络，第一网络用于从训练集中的数据中提取紧致框对应的亮度通道的信息，第二网络用于从输入数据中提取宽松框对应的多个通道的信息。

相应地，增强结果中可以包括第一网络输出的第一信息以及第二网络输出的第二信息

具体地，目标网络可以参阅前述图4-图11所提及的目标网络，此处不再赘述。

需要说明的是，本申请实施方式中，针对目标网络的训练过程可以是迭代训练的过程，可以对目标网络进行多次迭代更新，即步骤1202-步骤1206可以多次执行，本实施例示例性地，仅对其中一次迭代过程进行示例性说明，并不作为限定。

1203、将训练集作为识别网络的输入，得到第一识别结果。

其中，该识别网络可以用于识别输入的图像中的目标对象的信息，得到第一识别结果，如目标对象的位置、类别、大小等信息。该识别网络具体可以包括目标检测网络、语义分割网络或者分类网络等，可以用于提取输入图像中的语义信息，然后可以基于提取到的语义信息进行检测、分割或者分类等任务，得到输入图像中的对象的具体信息。

1204、将增强结果作为识别网络的输入，得到第二识别结果。

其中，将目标网络的输出结果也作为识别网络的输入，得到第二识别结果，该第二识别结果中可以包括识别网络识别出的增强结果中的目标对象的信息，如目标对象的位置、类别、大小等信息。

此外，第二识别结果中可以包括第一信息对应的第三识别结果以及第二信息对应的第四识别结果。可以理解为，目标网络的输出结果中可以包括第一网络的输出结果和第二网络的输出结果，可以使用识别网络分别对第一网络的输出结果和第二网络的输出结果进行语义分割，分别得到第一信息中目标对象的信息以及第二信息中目标对象的信息。

1205、根据增强结果和真值标签之间的差值，以及第一识别结果和第二识别结果之间的差值，对目标网络进行更新，得到更新后的目标网络。

其中，可以计算增强结果和真值标签之间的损失值，以及第一识别结果和第二识别结果之间的损失值，将第一识别结果和第二识别结果之间的损失值作为约束，使用增强结果和真值标签之间的损失值对目标网络进行更新，得到更新后的目标网络。

具体地，目标网络中可以包括第一网络和第二网络，若针对目标网络整体进行更新，则可以计算目标网络的整体损失值，若对第一网络和第二网络分别进行更新，则分别针对第一网络的输出和第二网络的输出来计算损失值，从而分别对第一网络和第二网络进行更新。

更具体地，若对第一网络和第二网络分别进行更新，第二识别结果中可以包括第三识别结果和第四识别结果，则可以根据所述第一信息和所述真值标签之间的差值，以及所述第三识别结果和所述第一识别结果之间的差值，更新所述第一网络，得到更新后的第一网络；根据所述第二信息和所述真值标签之间的差值，以及所述第四识别结果和所述第一识别结果之间的差值，更新所述第二网络，得到更新后的第二网络，从而实现对目标网络的更新。

若对目标网络整体进行更新，则可以根据增强结果和真值标签之间的差值得到第一损失值；根据第一识别结果和第二识别结果之间的差值得到第二损失值；融合第一损失值和第二损失值，得到第三损失值；根据第三损失值对目标网络进行更新，得到更新后的目标网络。

因此，本申请实施方式中，针对目标网络的更新提供了多种方式，可以以识别网络的输出结果为约束，来对目标网络进行更新，从而使目标网络的输出更准确。可以理解为，可以使用识别网络对真值图像与目标网络的输出图像都进行识别，并将识别结果作为约束对目标网络进行更新，使目标网络的输出图像的识别结果与真值图像的识别结果更接近，从输出图像中的目标对象的准确度的维度来使目标网络收敛，提高目标网路的输出图像被识别正确的概率。例如，若真值图像中识别出目标对象为“狗”，训练目标网络的过程即为使针对目标网络的输出图像的识别结果也更接近“狗”，从而使目标网络的输出结果更准确。

1206、判断是否满足收敛条件，若是，则执行步骤1207，若否，则继续执行步骤1202。

在得到更新后的目标网络之后，可以判断是否符合收敛条件，若符合收敛条件，则可以输出更新后的目标网络，即完成对目标网络的训练。若不符合收敛条件，则可以将更新后的目标网络作为新的目标网络，并继续对新的目标网络进行训练，即重复执行步骤1202，直到满足收敛条件。

其中，该收敛条件可以包括以下一项或者多项：对目标网络的训练次数达到预设次数，或者，目标网络的输出精度高于预设精度值，或者，目标网络的平均精度高于预设平均值，或者，目标网络的训练时长超过预设时长，或者，识别网络针对目标网络的输出图像的识别准确率高于预设准确率等。

1207、停止训练。

在确定目标网络满足收敛条件之后，即得到了符合期望的目标网络，则可以停止对目标网络的训练，输出当前次迭代更新后的目标网络。

因此，本申请实施方式中，在对目标网络进行训练的过程中，使用了识别结果针对真值图像以及输出图像的识别结果之间的损失值作为约束，使目标网络的输出图像的识别结果和真值图像的识别结果更接近，相当于使目标对象的输出图像中的目标对象与真值图像更接近，提高目标网络的输出图像的清晰度以及准确度。

示例性地，为便于理解，详细流程如图14所示，以一个详细的应用场景为例进行示例性说明。

首先，将训练集中分别作为目标网络和识别网络的输入。

其中，可以将训练集中的每个样本中的raw数据作为目标网路的输入，得到输出图像。

分别将每个样本中的真值图像(如表示为Gt)作为识别网络的输入，得到第一识别结果。

以及将目标网络的输出图像作为识别网络的输出，得到第二识别结果。

然后分别基于输出图像、第一识别结果和第二识别结果计算损失值，并使用损失值更新目标网络。

根据损失值判断目标网络是否收敛，若是，则可以停止迭代，若否，则可以继续进行迭代。

在对目标网络的更新过程中，可以针对目标网络整体进行更新，则在计算损失值的过程中，可以计算输出图像和真值图像之间的损失值，以及第一识别结果和第二识别结果之间的损失值，然后融合这两种损失值来对目标网络进行反向更新。

若对Target_ISPNet和Full_ISPNet分别进行更新，则可以分别计算各个网络的损失值，然后分别进行更新。

例如，以车牌分割为例，针对紧致框增强任务，利用高质量彩色图像Gt_Y做监督训练，其对应的损失函数(Loss)可以表示为：

其中P表示不同位置的像素，Yt表示Target_ISPNet网络输出。该损失函数约束输出图像与增强后的高清图像尽可能相似，实现紧致区域增强。

为了进一步提升车牌紧致区域增强效果，在训练过程中，增加车牌分割子任务。首先利分割网络获得车牌分割结果Lable_gt，作为分割子任务的Gt。紧致区域的真值图像以及分割结果可以如图15所示。

通常，仅需在Target_ISPNet网络增加一个小模块，获得分割输出Lable _out，仅需在训练时执行，不增加应用侧的开销，如分割子任务的损失可以表示为：

针对Target_ISPNet的损失最终可以表示为：

L＝L _inhance+γL _semantic

可以通过调整γ参数来整增强任务与语义分割任务权重。

又例如，针对Full_ISPNet的训练过程，可以利用高质量彩色图像YUVgt做监督训练，其对应的损失函数(Loss)可以表示为：

其中P表示不同位置的像素，Yf Uf Vf表示Full_ISPNet网络的输出。该损失函数约束输出图像与训练数据中的高清图像尽可能相似，实现车牌宽松区域增强。

获取紧致框与宽松框的增强结果后，可以利用加权融合获得车牌增强的最终结果，其融合公式可以表示为：

Yout＝Yt*mask+Yf*(1-mask)

Uout＝Uf

Vout＝Vf

示例性地，Yf Uf Vf以及mask可以如图16所示。

因此，考虑目标图像特性，进一步将目标分为紧致框输入与宽松框输入，减少网络开销。该示例中，若仅用单一网络实现车牌目标增强，为达到相同的增强效果，其网络开销大概需要200ms，而拆分为子网络后，Target_ISPNet的开销为30ms和Full_ISPNet的开销为10ms，网络性能提升了5倍。

本申请实施方式中，在对目标网络更新的过程中，引入了分割任务的分割结果作为约束，从而可以约束目标网络的输出图像的分割结果与真值图像的分割结果更接近，从而可以使目标网络的输出图像更准确。并且不增加目标网络应用时的开销，使目标网络可以替代常用的ISP处理方式，高效地对raw数据进行处理得到输出图像，且得到的输出图像更准确。

例如，常用的ISP处理方式的成像效果与目标网络的成像效果对比可以如图17所示。显然，通过目标网络输出的车牌的成像效果更优，增强效果更好。

前述对本申请提供的方法流程进行了介绍，下面对本申请提供的装置进行介绍。

参阅图18，本申请提供一种数据处理装置的结构示意图，包括：

获取模块1801，用于获取第一帧数据，第一帧数据是图像传感器采集到的原始数据中的其中一帧；

紧致扣取模块1802，用于从第一帧数据中获取紧致框对应的数据，得到第一数据，紧致框在第一帧数据中覆盖的范围包括从第一帧数据中检测出的目标对象；

宽松扣取模块1803，用于从第一帧数据中获取宽松框对应的数据，得到第二数据，宽松框在第一帧数据中覆盖的范围包括且大于紧致框在第一帧数据中覆盖的范围；

输出模块1804，用于将第一数据和第二数据分别作为目标网络的输入，得到输出图像，目标网络用于提取输入的数据中的多个通道的信息，并根据多个通道的信息得到输出图像。

输出模块1804，具体用于：将第一数据作为第一网络的输入，得到第一增强信息，第一网络用于提取输入的数据中亮度通道的信息；将第二数据作为第二网络的输入，得到第二增强信息，第二网络用于提取输入的数据的多个通道的信息；融合第一增强信息和第二增强信息，得到输出图像。

在一种可能的实施方式中，装置还包括：目标检测模块1805，用于对第一帧数据进行目标检测，得到第一帧数据中目标对象的位置信息；根据目标对象的位置信息生成紧致框和宽松框。

在一种可能的实施方式中，获取模块1804，具体用于：接收用户输入数据，并根据用户输入数据从原始数据中提取第一帧数据；或者，对原始数据中的每一帧进行目标检测，根据检测结果从原始数据中提取第一帧数据。

在一种可能的实施方式中，目标网络为结合识别网络以及训练集进行训练得到，其中，在对目标网络进行训练的过程中，以识别网络的输出结果作为约束对目标网络进行更新。

参阅图19，本申请提供的一种神经网络训练装置的结构示意图，包括：

获取模块1901，用于获取训练集，训练集中包括图像传感器采集到的原始数据以及对应的真值标签；

增强模块1902，用于将训练集作为目标网络的输入，得到增强结果，目标网络用于从输入的数据中提取紧致框对应的亮度通道的信息，以及从输入数据中提取宽松框对应的多个通道的信息，对亮度通道的信息和多个通道的信息进行融合得到增强结果，宽松框在输入的数据中覆盖的范围包括且大于紧致框在输入的数据中覆盖的范围；

语义分割模块1903，用于将训练集作为识别网络的输入，得到第一识别结果；

语义分割模块1903，还用于将增强结果作为识别网络的输入，得到第二识别结果；

更新模块1904，用于根据增强结果和真值标签之间的差值，以及第一识别结果和第二识别结果之间的差值，对目标网络进行更新，得到更新后的目标网络。

在一种可能的实施方式中，增强结果中包括第一网络输出的第一信息以及第二网络输出的第二信息，第二识别结果包括第一信息对应的第三识别结果以及第二信息对应的第四识别结果；更新模块1904，具体用于：根据第一信息和真值标签之间的差值，以及第三识别结果和第一识别结果之间的差值，更新第一网络，得到更新后的第一网络；根据第二信息和真值标签之间的差值，以及第四识别结果和第一识别结果之间的差值，更新第二网络，得到更新后的第二网络。

在一种可能的实施方式中更新模块1904，具体用于：根据增强结果和真值标签之间的差值得到第一损失值；根据第一识别结果和第二识别结果之间的差值得到第二损失值；融合第一损失值和第二损失值，得到第三损失值；根据第三损失值对目标网络进行更新，得到更新后的目标网络。

请参阅图20，本申请提供的另一种数据处理装置的结构示意图，如下所述。

该数据处理装置可以包括处理器2001和存储器2002。该处理器2001和存储器2002通过线路互联。其中，存储器2002中存储有程序指令和数据。

存储器2002中存储了前述图4-图11中的步骤对应的程序指令以及数据。

处理器2001用于执行前述图4-图11中任一实施例所示的数据处理装置执行的方法步骤。

可选地，该数据处理装置还可以包括收发器2003，用于接收或者发送数据。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于生成车辆行驶速度的程序，当其在计算机上行驶时，使得计算机执行如前述图4-图11所示实施例描述的方法中的步骤。

可选地，前述的图20中所示的数据处理装置为芯片，如ISP芯片。

本申请实施例还提供了一种数据处理装置，该数据处理装置也可以称为数字处理芯片或者芯片，芯片包括处理单元和通信接口，处理单元通过通信接口获取程序指令，程序指令被处理单元执行，处理单元用于执行前述图4-图11中任一实施例所示的数据处理装置执行的方法步骤。

请参阅图21，本申请提供的另一种神经网络训练装置的结构示意图，如下所述。

该神经网络训练装置可以包括处理器2101和存储器2102。该处理器2101和存储器2102通过线路互联。其中，存储器2102中存储有程序指令和数据。

存储器2102中存储了前述图12-图17中的步骤对应的程序指令以及数据。

处理器2101用于执行前述图12-图17中任一实施例所示的神经网络训练装置执行的方法步骤。

可选地，该神经网络训练装置还可以包括收发器2103，用于接收或者发送数据。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于生成车辆行驶速度的程序，当其在计算机上行驶时，使得计算机执行如前述图12-图17所示实施例描述的方法中的步骤。

可选地，前述的图21中所示的神经网络训练装置为芯片。

本申请实施例还提供了一种神经网络训练装置，该神经网络训练装置也可以称为数字处理芯片或者芯片，芯片包括处理单元和通信接口，处理单元通过通信接口获取程序指令，程序指令被处理单元执行，处理单元用于执行前述图12-图17中任一实施例所示的神经网络训练装置执行的方法步骤。

本申请实施例还提供一种数字处理芯片。该数字处理芯片中集成了用于实现上述处理器2001、2101，或者处理器2001、2101的功能的电路和一个或者多个接口。当该数字处理芯片中集成了存储器时，该数字处理芯片可以完成前述实施例中的任一个或多个实施例的方法步骤。当该数字处理芯片中未集成存储器时，可以通过通信接口与外置的存储器连接。该数字处理芯片根据外置的存储器中存储的程序代码来实现上述实施例中数据处理装置执行的动作。

本申请实施例中还提供一种包括计算机程序产品，当其在计算机上行驶时，使得计算机执行如前述图4-图17所示实施例描述的方法中的步骤。

本申请实施例提供的数据处理装置可以为芯片，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使服务器内的芯片执行上述图4-图17所示实施例描述的神经网络训练方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

具体地，前述的处理单元或者处理器可以是中央处理器(central processing unit，CPU)、网络处理器(neural-network processing unit，NPU)、图形处理器(graphics processing unit，GPU)、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit,ASIC)或现场可编程逻辑门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者也可以是任何常规的处理器等。

示例性地，请参阅图22，图22为本申请实施例提供的芯片的一种结构示意图，所述芯片可以表现为神经网络处理器NPU 220，NPU 220作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路2203，通过控制器2204控制运算电路2203提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路2203内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路2203是二维脉动阵列。运算电路2203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路2203是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器2202中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器2201中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)2208中。

统一存储器2206用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)2205，DMAC被搬运到权重存储器2202中。输入数据也通过DMAC被搬运到统一存储器2206中。

总线接口单元(bus interface unit，BIU)2210，用于AXI总线与DMAC和取指存储器(instruction fetch buffer，IFB)2209的交互。

总线接口单元2210(bus interface unit，BIU)，用于取指存储器2209从外部存储器获取指令，还用于存储单元访问控制器2205从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器2206或将权重数据搬运到权重存储器2202中或将输入数据数据搬运到输入存储器2201中。

向量计算单元2207包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/全连接层网络计算，如批归一化(batch normalization)，像素级求和，对特征平面进行上采样等。

在一些实现中，向量计算单元2207能将经处理的输出的向量存储到统一存储器2206。例如，向量计算单元2207可以将线性函数和/或非线性函数应用到运算电路2203的输出，例如对卷积层提取的特征平面进行线性插值，再例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元2207生成归一化的值、像素级求和的值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路2203的激活输入，例如用于在神经网络中的后续层中的使用。

控制器2204连接的取指存储器(instruction fetch buffer)2209，用于存储控制器2204使用的指令；

统一存储器2206，输入存储器2201，权重存储器2202以及取指存储器2209均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

其中，循环神经网络中各层的运算可以由运算电路2203或向量计算单元2207执行。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述图4-图16的方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如， DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

最后应说明的是：以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

一种数据处理方法，其特征在于，包括：

获取第一帧数据，所述第一帧数据是图像传感器采集到的原始数据中的其中一帧；

从所述第一帧数据中获取紧致框对应的数据，得到第一数据，所述紧致框在所述第一帧数据中覆盖的范围包括从所述第一帧数据中检测出的目标对象；

从所述第一帧数据中获取宽松框对应的数据，得到第二数据，所述宽松框在所述第一帧数据中覆盖的范围包括且大于所述紧致框在所述第一帧数据中覆盖的范围；

将所述第一数据和所述第二数据分别作为目标网络的输入，得到输出图像，所述目标网络用于提取输入的数据中的多个通道的信息，并根据所述多个通道的信息得到所述输出图像。
根据权利要求1所述的方法，其特征在于，所述目标网络包括第一网络和第二网络；

所述将所述第一数据和所述第二数据分别作为目标网络的输入，得到输出图像，包括：

将所述第一数据作为第一网络的输入，得到第一增强信息，所述第一网络用于提取输入的数据中亮度通道的信息；

将所述第二数据作为第二网络的输入，得到第二增强信息，所述第二网络用于提取输入的数据的多个通道的信息；

融合所述第一增强信息和第二增强信息，得到输出图像。
根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

对所述第一帧数据进行目标检测，得到所述第一帧数据中所述目标对象的位置信息；

根据所述目标对象的位置信息生成所述紧致框和所述宽松框。
根据权利要求1-3中任一项所述的方法,其特征在于，所述获取第一帧数据，包括：

接收用户输入数据，并根据所述用户输入数据从所述原始数据中提取所述第一帧数据；

或者，

对所述原始数据中的每一帧进行目标检测，根据检测结果从所述原始数据中提取所述第一帧数据。
根据权利要求1-4中任一项所述的方法，其特征在于，

所述目标网络为结合识别网络以及训练集进行训练得到，所述识别网络用于获取输入的图像中的语义信息；

其中，在对所述目标网络进行训练的过程中，以所述识别网络的输出结果作为约束对所述目标网络进行更新。
一种神经网络训练方法，其特征在于，包括：

获取训练集，所述训练集中包括图像传感器采集到的原始数据以及对应的真值标签；

将所述训练集作为目标网络的输入，得到增强结果，所述目标网络用于从输入的数据中提取紧致框对应的亮度通道的信息，以及从输入数据中提取宽松框对应的多个通道的信息，对所述亮度通道的信息和所述多个通道的信息进行融合得到所述增强结果，所述宽松框在输入的数据中覆盖的范围包括且大于所述紧致框在输入的数据中覆盖的范围；

将所述训练集作为识别网络的输入，得到第一识别结果，识别网络用于获取输入的图像中的语义信息；

将所述增强结果作为所述识别网络的输入，得到第二识别结果；

根据所述增强结果和所述真值标签之间的差值，以及所述第一识别结果和所述第二识别结果之间的差值，对所述目标网络进行更新，得到更新后的目标网络。
根据权利要求6所述的方法，其特征在于，所述目标网络包括第一网络和第二网络，所述第一网络用于从所述训练集中的数据中提取紧致框对应的亮度通道的信息，所述第二网络用于从输入数据中提取宽松框对应的多个通道的信息。
根据权利要求7所述的方法，其特征在于，所述增强结果中包括所述第一网络输出的第一信息以及所述第二网络输出的第二信息，所述第二识别结果包括所述第一信息对应的第三识别结果以及所述第二信息对应的第四识别结果；

所述根据所述增强结果和所述真值标签之间的差值，以及所述第一识别结果和所述第二识别结果之间的差值，对所述目标网络进行更新，得到更新后的目标网络，包括：

根据所述第一信息和所述真值标签之间的差值，以及所述第三识别结果和所述第一识别结果之间的差值，更新所述第一网络，得到更新后的第一网络；

根据所述第二信息和所述真值标签之间的差值，以及所述第四识别结果和所述第一识别结果之间的差值，更新所述第二网络，得到更新后的第二网络。
根据权利要求6或7所述的方法，其特征在于，所述根据所述增强结果和所述真值标签之间的差值，以及所述第一识别结果和所述第二识别结果之间的差值，对所述目标网络进行更新，得到更新后的目标网络，包括：

根据所述增强结果和所述真值标签之间的差值得到第一损失值；

根据所述第一识别结果和所述第二识别结果之间的差值得到第二损失值；

融合所述第一损失值和所述第二损失值，得到第三损失值；

根据所述第三损失值对所述目标网络进行更新，得到更新后的目标网络。
一种数据处理装置，其特征在于，包括：

获取模块，用于获取第一帧数据，所述第一帧数据是图像传感器采集到的原始数据中的其中一帧；

紧致扣取模块，用于从所述第一帧数据中获取紧致框对应的数据，得到第一数据，所述紧致框在所述第一帧数据中覆盖的范围包括从所述第一帧数据中检测出的目标对象；

宽松扣取模块，用于从所述第一帧数据中获取宽松框对应的数据，得到第二数据，所述宽松框在所述第一帧数据中覆盖的范围包括且大于所述紧致框在所述第一帧数据中覆盖的范围；

输出模块，用于将所述第一数据和所述第二数据分别作为目标网络的输入，得到输出图像，所述目标网络用于提取输入的数据中的多个通道的信息，并根据所述多个通道的信息得到所述输出图像。
根据权利要求10所述的装置，其特征在于，所述目标网络包括第一网络和第二网络；

所述输出模块，具体用于：

将所述第一数据作为第一网络的输入，得到第一增强信息，所述第一网络用于提取输入的数据中亮度通道的信息；

将所述第二数据作为第二网络的输入，得到第二增强信息，所述第二网络用于提取输入的数据的多个通道的信息；

融合所述第一增强信息和第二增强信息，得到输出图像。
根据权利要求10或11所述的装置，其特征在于，所述装置还包括：目标检测模块，用于：

对所述第一帧数据进行目标检测，得到所述第一帧数据中所述目标对象的位置信息；

根据所述目标对象的位置信息生成所述紧致框和所述宽松框。
根据权利要求10-12中任一项所述的装置,其特征在于，所述获取模块，具体用于：

接收用户输入数据，并根据所述用户输入数据从所述原始数据中提取所述第一帧数据；

或者，

对所述原始数据中的每一帧进行目标检测，根据检测结果从所述原始数据中提取所述第一帧数据。
根据权利要求10-13中任一项所述的装置，其特征在于，

所述目标网络为结合识别网络以及训练集进行训练得到，所述识别网络用于获取输入的图像中的语义信息，

其中，在对所述目标网络进行训练的过程中，以所述识别网络的输出结果作为约束对所述目标网络进行更新。
一种神经网络训练装置，其特征在于，包括：

获取模块，用于获取训练集，所述训练集中包括图像传感器采集到的原始数据以及对应的真值标签；

增强模块，用于将所述训练集作为目标网络的输入，得到增强结果，所述目标网络用于从输入的数据中提取紧致框对应的亮度通道的信息，以及从输入数据中提取宽松框对应的多个通道的信息，对所述亮度通道的信息和所述多个通道的信息进行融合得到所述增强结果，所述宽松框在输入的数据中覆盖的范围包括且大于所述紧致框在输入的数据中覆盖的范围；

语义分割模块，用于将所述训练集作为识别网络的输入，得到第一识别结果，所述识别网络用于获取输入的图像中的语义信息；

所述语义分割模块，还用于将所述增强结果作为所述识别网络的输入，得到第二识别结果；

更新模块，用于根据所述增强结果和所述真值标签之间的差值，以及所述第一识别结果和所述第二识别结果之间的差值，对所述目标网络进行更新，得到更新后的目标网络。
根据权利要求15所述的装置，其特征在于，所述目标网络包括第一网络和第二网络，所述第一网络用于从所述训练集中的数据中提取紧致框对应的亮度通道的信息，所述第二网络用于从输入数据中提取宽松框对应的多个通道的信息。
根据权利要求16所述的装置，其特征在于，所述增强结果中包括所述第一网络输出的第一信息以及所述第二网络输出的第二信息，所述第二识别结果包括所述第一信息对应的第三识别结果以及所述第二信息对应的第四识别结果；

所述更新模块，具体用于：

根据所述第一信息和所述真值标签之间的差值，以及所述第三识别结果和所述第一识别结果之间的差值，更新所述第一网络，得到更新后的第一网络；

根据所述第二信息和所述真值标签之间的差值，以及所述第四识别结果和所述第一识别结果之间的差值，更新所述第二网络，得到更新后的第二网络。
根据权利要求15或16所述的装置，其特征在于，所述更新模块，具体用于：

根据所述增强结果和所述真值标签之间的差值得到第一损失值；

根据所述第一识别结果和所述第二识别结果之间的差值得到第二损失值；

融合所述第一损失值和所述第二损失值，得到第三损失值；

根据所述第三损失值对所述目标网络进行更新，得到更新后的目标网络。
一种数据处理装置，其特征在于，包括一个或多个处理器，所述一个或多个处理器和存储器耦合，所述存储器存储有程序，当所述存储器存储的程序指令被所述一个或多个处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
一种神经网络训练装置，其特征在于，包括一个或多个处理器，所述一个或多个处理器和存储器耦合，所述存储器存储有程序，当所述存储器存储的程序指令被所述一个或多个处理器执行时实现权利要求6-9中任一项所述的方法的步骤。
一种计算机可读存储介质，其特征在于，包括程序，当其被处理单元所执行时，执行如权利要求1至9中任一项所述的方法。
一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。