WO2023273934A1

WO2023273934A1 - 一种模型超参数的选择方法及相关装置

Info

Publication number: WO2023273934A1
Application number: PCT/CN2022/099779
Authority: WO
Inventors: 高寒; 宋元巍; 欧功畅
Original assignee: 华为技术有限公司
Priority date: 2021-06-28
Filing date: 2022-06-20
Publication date: 2023-01-05
Also published as: CN115601513A

Abstract

本申请公开了一种模型超参数的选择方法，应用于人工智能技术领域。该方法包括：获取神经网络模型的多组超参数；基于多组超参数，分别对模型进行多轮迭代训练，以得到模型在训练过程中的多组权重，多组权重与多组超参数一一对应，多组权重中的每组权重包括多次迭代训练得到的权重；执行多个地形图的绘制，其中，多个地形图中的每个地形图基于多组权重中的一组绘制；得到目标超参数，目标超参数为目标地形图所对应的一组超参数，目标地形图为多个地形图中平整程度最高的地形图。本方案中，通过选择模型在部分训练过程中的权重来绘制地形图，无需将模型训练至收敛，能够节省选择模型超参数的时间，提高模型超参数的选择效率。

Description

一种模型超参数的选择方法及相关装置

本申请要求于2021年6月28日提交中国专利局、申请号为202110722986.3、发明名称为“一种模型超参数的选择方法及相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种模型超参数的选择方法及相关装置。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

深度学习方法，是近年来人工智能领域发展的一个关键推动力，目前广泛应用于复杂数据的特征提取及推理预测。例如，深度学习方法应用于计算机视觉任务，能够实现图像增强；又例如，深度学习方法应用于数据分类任务，能够对文本或语音等数据进行分类。

深度学习方法通常是通过训练得到的神经网络模型对数据进行处理。在神经网络模型的训练过程中，用户为模型所设置的超参数(例如学习率或优化器)能够影响模型的泛化精度。因此，为了尽可能地提高模型的泛化精度，人们通常需要在模型训练前选择合理的超参数。

目前，超参数的选择方法主要是在模型的训练集中挑选部分训练数据，并且基于部分训练数据对采用了不同超参数的模型进行训练，直至训练收敛；然后，再通过对比训练得到的模型来选择相应的超参数。由于这种超参数的选择方法需要将模型训练至收敛，往往需要进行的长时间训练，超参数的选择效率较低。

发明内容

本申请提供了一种模型超参数的选择方法，能够提高模型超参数的选择效率。

本申请第一方面提供一种模型超参数的选择方法，应用于人工智能技术领域。该方法包括以下的步骤：电子设备获取神经网络模型的多组超参数。其中，超参数是一种用于控制模型训练过程的参数。超参数是在开始模型训练过程之前所设置的参数，而不是通过训练得到的参数数据。在电子设备所获取的多组超参数中，每组超参数均包括一个或多个超参数，且每组超参数所包括的超参数的类型是相同的。对于任意两组超参数，这两组超参数中至少有一个超参数的取值是不相同的。例如，电子设备获取到的多组超参数中均包括两个超参数，这两个超参数分别为学习率和优化器。

然后，电子设备基于所述多组超参数，分别对所述模型进行多次迭代训练，以得到所述模型在训练过程中的多组权重，所述多组权重与所述多组超参数一一对应，所述多组权重中的每组权重包括多次迭代训练得到的权重。具体地，电子设备可以基于多组超参数，对神经网络模型进行多组重复的训练。在每一组对神经网络模型的训练中，神经网络模型的训练次数和训练数据均相同。

其次，电子设备执行多个地形图的绘制，其中，所述多个地形图中的每个地形图基于所述多组权重中的一组绘制，所述多个地形图中的每个地形图均用于表示所述模型的损失函数在训练过程中的变化趋势。在每个地形图中，所述模型的损失函数的位置是基于该地形图对应的一组权重确定的。由于每组权重包括多次迭代训练所对应的权重，且基于每一次迭代训练所得到的权重可以获取到一个损失函数的值，因此每组权重均具有对应的多个损失函数的值。具体地，基于所述多组权重，电子设备可以绘制每一组权重所对应的地形图，从而得到与所述多组权重一一对应的多个地形图。例如，在电子设备获得5组权重的情况下，电子设备可以绘制得到5个地形图，每一个地形图都是基于一组权重绘制得到的。

最后，电子设备得到目标超参数。所述目标超参数为目标地形图所对应的一组超参数，所述目标超参数用于训练所述模型，所述目标地形图为所述多个地形图中平整程度最高的地形图，所述平整程度用于表示所述模型的损失函数在地形图中的变化程度。所述模型的损失函数在地形图中的变化越大，则该地形图的平整程度越小；所述模型的损失函数在地形图中的变化越小，则该地形图的平整程度越高。

本方案中，通过对采用不同超参数的模型进行训练，并且基于模型在训练过程中的权重绘制地形图，该地形图能够表示模型的损失函数在训练过程中的变化趋势。通过对比不同超参数所对应的地形图的平整程度，来选择最终用于模型训练的超参数。由于本方案是选择模型在部分训练过程中的权重来绘制地形图，无需将模型训练至收敛，因此能够节省选择模型超参数的时间，提高模型超参数的选择效率。

在一种可能的实现方式中，所述每个地形图的平整程度与所述多个地形图中每个地形图的面积和所述等值线长度之和有关，所述多个地形图中的每个地形图均包括相同数量的等值线，所述等值线上的点对应的损失值相同。

具体地，电子设备可以确定所述多个地形图中每个地形图的等值线长度之和，所述多个地形图中的每个地形图均包括相同数量的等值线，所述等值线上的点对应的损失值相同。基于所述多个地形图中每个地形图的面积和所述等值线长度之和，电子设备确定所述每个地形图的平整程度。其中，地形图的等直线长度之和是指地形图中的所有等值线的长度之和，损失值是指损失函数的值。

本方案中，通过求取地形图中的等值线长度，来确定各个地形图对应的平整程度，能够基于定量的方式来实现确定地形图的平整程度，从而便于进一步确定平整程度最高的地形图，提高了方案的可行性。

在一种可能的实现方式中，所述电子设备基于所述多组超参数，分别对所述模型进行训练，包括：电子设备获取训练子集，所述训练子集包括所述模型的训练集中的部分训练数据；电子设备采用所述训练子集，基于所述多组超参数分别对所述模型进行多次迭代训练，以得到所述模型在训练过程中的多组权重，所述多组权重中的每组权重包括所述模型在每次迭代训练后的权重集合。

简单来说，电子设备基于任意一组超参数设置了所述神经网络模型的超参数之后，电子设备采用所述训练子集对所述神经网络模型进行多次迭代训练。在对神经网络模型所进行的每一次迭代训练过程中，神经网络模型中的权重都会进行更新。因此，在对所述神经网络模型进行多次迭代训练所得到的一组权重中包括多个权重集合，每个权重集合分别包括神经网络模型在每次迭代训练后的权重。

本方案中，通过采用训练子集分别对多组超参数进行多次迭代训练，来得到用于绘制地形图的权重，避免了基于整个训练集将模型训练至收敛，因此能够节省选择模型超参数的时间，提高模型超参数的选择效率。

在一种可能的实现方式中，所述电子设备基于所述多组权重，分别执行地形图的绘制，以得到多个地形图，包括：电子设备对第一组权重进行降维处理，得到作为二维空间中投影方向的两个高维向量，所述第一组权重为所述多组权重中的一组权重，所述第一组权重包括所述模型在每次迭代训练后的权重集合。其中，所述两个高维向量的维度与所述模型中所包括的权重的数量相同。例如，假设所述模型中共包括N个权重，在对所述模型执行5次迭代训练的情况下，所述第一组权重中包括5个权重集合，每个权重集合中包括N个权重参数。在对第一组权重进行降维处理后，可以得到2个高维向量，每个高维向量的维度为N维，即每个高维向量包括N个元素。

然后，电子设备基于所述第一组权重和所述两个高维向量，确定第一地形图中的多个采样点所对应的权重，所述多个地形图包括所述第一地形图。并且，电子设备基于所述多个采样点所对应的权重，确定所述模型对应的损失值，以绘制得到第一地形图。

具体地，电子设备可以基于所述第一组权重和所述两个高维向量，确定所述第一组权重中每次迭代训练后的权重在二维空间的坐标；电子设备基于所述每次迭代训练后的权重在二维空间的坐标，确定第一地形图的边界；电子设备根据所述第一地形图的边界，将所述第一地形图划分为多个区域，以得到所述多个区域中每个区域的采样点；电子设备基于所述第一地形图中每个采样点所对应的权重，确定所述模型对应的损失值，以绘制得到所述第一地形图，所述多个地形图包括所述第一地形图。

在一种可能的实现方式中，所述电子设备基于所述多个采样点所对应的权重，确定所述模型对应的损失值，包括：电子设备基于所述模型和所述第一地形图中的多个采样点对应的权重，构建得到多个子模型，所述多个子模型与所述多个采样点对应的权重一一对应，所述多个子模型的结构均与所述模型的结构相同。电子设备将相同的训练数据分别输入至所述多个子模型，以得到所述多个采样点对应的损失值。

也就是说，对于电子设备所构建得到的多个子模型，所述多个子模型的结构相同，但所述多个子模型中的神经单元的权重分别对应于所述多个采样点对应的权重。这样，在得到多个子模型之后，电子设备可以基于相同的输入数据，在同一个硬件上同时并行地对多个子模型进行推理运算，从而得到多个采样点对应的损失值。

通过基于多个采样点对应的权重，构建得到多个子模型，能够并行地对多个子模型进行推理运算，从而能够同时得到多个采样点对应的损失值，提高了地形图的绘制效率。

在一种可能的实现方式中，所述方法还包括：电子设备确定所述第一地形图中每个区域的崎岖程度，所述崎岖程度用于表示每个区域内的等值线的密集程度，所述等值线上的点对应的损失值相同；电子设备根据所述崎岖程度，在所述第一地形图中增加采样点，以更新所述第一地形图；其中，所述第一地形图中区域的采样点密集程度与所述区域的崎岖程度具有正相关关系。

本方案中，通过先对地形图进行较为稀疏的等距采样，然后基于各个采样区域的崎岖程度，在崎岖程度较高的区域增加采样点，可以实现了基于较少的采样点近似达到全量采样的地形图可视效果。在保证地形图能够准确地描绘损失值在地形图中的变化趋势的同时，提高了地形图的绘制效率。

在一种可能的实现方式中，所述电子设备根据所述崎岖程度，在所述第一地形图中增加采样点，包括：按照崎岖程度从高到低的顺序，电子设备对所述第一地形图中的多个区域进行排序，以得到所述多个区域的排序结果；电子设备基于所述多个区域的排序结果，依次在所述多个区域中增加采样点，直至所增加的采样点的数量达到预设阈值。

在一种可能的实现方式中，所述确定所述第一地形图中每个区域的崎岖程度，包括：电子设备分别确定所述第一地形图中每个区域的采样点的二阶导数矩阵；电子设备计算所述二阶导数矩阵的两个特征值，并确定所述两个特征值的绝对值之和，以得到所述第一地形图中每个区域的崎岖程度。

本申请第二方面提供一种电子设备，包括获取单元和处理单元。所述获取单元，用于获取神经网络模型的多组超参数；所述处理单元，用于基于所述多组超参数，分别对所述模型进行多次迭代训练，以得到所述模型在训练过程中的多组权重，所述多组权重与所述多组超参数一一对应，所述多组权重中的每组权重包括多次迭代训练得到的权重；所述处理单元，还用于执行多个地形图的绘制，其中，所述多个地形图中的每个地形图基于所述多组权重中的一组绘制，所述多个地形图中的每个地形图均用于表示所述模型的损失函数在训练过程中的变化趋势；所述处理单元，还用于得到目标超参数，所述目标超参数为目标地形图所对应的一组超参数，所述目标超参数用于训练所述模型，所述目标地形图为所述多个地形图中平整程度最高的地形图，所述平整程度用于表示所述模型的损失函数在地形图中的变化程度。

在一种可能的实现方式中，所述每个地形图的平整程度与所述多个地形图中每个地形图的面积和等值线长度之和有关，所述多个地形图中的每个地形图均包括相同数量的等值线，所述等值线上的点对应的损失值相同。

在一种可能的实现方式中，所述获取单元，还用于获取训练子集，所述训练子集包括所述模型的训练集中的部分训练数据；所述处理单元，还用于采用所述训练子集，基于所述多组超参数分别对所述模型进行多次迭代训练，以得到所述模型在训练过程中的多组权重，所述多组权重中的每组权重包括所述模型在每次迭代训练后的权重集合。

在一种可能的实现方式中，所述处理单元，还用于对第一组权重进行降维处理，得到作为二维空间中投影方向的两个高维向量，所述第一组权重为所述多组权重中的一组权重，所述第一组权重包括所述模型在每次迭代训练后的权重集合；所述处理单元，还用于基于所述第一组权重和所述两个高维向量，确定第一地形图中的多个采样点所对应的权重，所述多个地形图包括所述第一地形图；所述处理单元，还用于基于所述多个采样点所对应的权重，确定所述模型对应的损失值，以绘制得到第一地形图。

在一种可能的实现方式中，所述处理单元，还用于基于所述模型和所述第一地形图中的多个采样点对应的权重，构建得到多个子模型，所述多个子模型与所述多个采样点对应的权重一一对应，所述多个子模型的结构均与所述模型的结构相同；所述处理单元，还用于将相同的训练数据分别输入至所述多个子模型，以得到所述多个采样点对应的损失值。

在一种可能的实现方式中，所述处理单元，还用于确定所述第一地形图中每个区域的崎岖程度，所述崎岖程度用于表示每个区域内的等值线的密集程度，所述等值线上的点对应的损失值相同；所述处理单元，还用于根据所述崎岖程度，在所述第一地形图中增加采样点，以更新所述第一地形图；其中，所述第一地形图中区域的采样点密集程度与所述区域的崎岖程度具有正相关关系。

在一种可能的实现方式中，所述处理单元，还用于按照崎岖程度从高到低的顺序，对所述第一地形图中的多个区域进行排序，以得到所述多个区域的排序结果；所述处理单元，还用于基于所述多个区域的排序结果，依次在所述多个区域中增加采样点，直至所增加的采样点的数量达到预设阈值。

在一种可能的实现方式中，所述处理单元，还用于分别确定所述第一地形图中每个区域的采样点的二阶导数矩阵；所述处理单元，还用于计算所述二阶导数矩阵的两个特征值，并确定所述两个特征值的绝对值之和，以得到所述第一地形图中每个区域的崎岖程度。

本申请第三方面提供了一种电子设备，可以包括处理器，处理器和存储器耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时实现上述第一方面所述的方法。对于处理器执行第一方面的各个可能实现方式中的步骤，具体均可以参阅第一方面，此处不再赘述。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本申请第五方面提供了一种电路系统，所述电路系统包括处理电路，所述处理电路配置为执行上述第一方面所述的方法。

本申请第六方面提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本申请第七方面提供了一种芯片系统，该芯片系统包括处理器，用于支持服务器或门限值获取装置实现上述第一方面中所涉及的功能，例如，发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存服务器或通信设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

附图说明

图1为人工智能主体框架的一种结构示意图；

图2为本申请实施例提供的卷积神经网络的示意图；

图3为本申请实施例提供的卷积神经网络的示意图；

图4为本申请实施例提供的一种系统架构的示意图；

图5为现有技术中用于选择超参数的一种网格搜索方法的示意图；

图6为本申请实施例提供的一种模型超参数的选择方法的流程示意图；

图7为本申请实施例提供的两个地形图的对比示意图；

图8为本申请实施例提供的一种孪生参数并行方法的示意图；

图9为本申请实施例提供的一种绘制地形图的总流程示意图；

图10为本申请实施例提供的一种基于采样点绘制得到地形图的流程示意图；

图11为本申请实施例提供的一种基于区域的崎岖程度增加采样点的示意图；

图12为本申请实施例提供的一种训练过程可视分析系统的架构示意图；

图13为本申请实施例提供的一种训练过程可视分析系统的工作流程示意图；

图14为本申请实施例提供的一种计算加速模块的工作流程示意图；

图15为本申请实施例提供的不同学习率的地形图的对比示意图；

图16为本申请实施例提供的一种基于地形图指导模型结构的示意图；

图17为本申请实施例所提供的未添加Batch Normalization层的VGG模型的地形图；

图18为本申请实施例所提供的添加Batch Normalization层的VGG模型的地形图；

图19为本申请实施例提供的VGG模型添加Batch Normalization层前后的效果对比示意图；

图20为本申请实施例提供的一种电子设备的结构示意图；

图21为本申请实施例提供的执行设备的一种结构示意图；

图22为本申请实施例提供的芯片的一种结构示意图；

图23为本申请实施例提供的一种计算机可读存储介质的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

首先对人工智能系统总体工作流程进行描述，请参见图1，图1示出的为人工智能主体框架的一种结构示意图，下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中，“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施。

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据。

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理。

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力。

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用。

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能电子设备、智能交通、智能医疗、自动驾驶、智慧城市等。

下面从模型训练侧和模型应用侧对本申请提供的方法进行描述：

本申请实施例提供的模型训练方法，具体可以应用于数据训练、机器学习、深度学习等数据处理方法，对训练数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等，最终得到训练好的神经网络模型(如本申请实施例中的目标神经网络模型)；并且目标神经网络模型可以用于进行模型推理，具体可以将输入数据输入到目标神经网络模型中，得到输出数据。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

(1)神经网络。

神经网络可以是由神经单元组成的，神经单元可以是指以xs(即输入数据)和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，Ws为xs的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)卷积神经网络(Convosutionas Neuras Network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层(例如本实施例中的第一卷积层、第二卷积层)。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，我们都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

具体的，如图2所示，卷积神经网络(CNN)100可以包括输入层110，卷积层/池化层120，其中池化层为可选的，以及神经网络层130。

其中，卷积层/池化层120以及神经网络层130组成的结构可以为本申请中所描述的第一卷积层以及第二卷积层，输入层110和卷积层/池化层120连接，卷积层/池化层120连接与神经网络层130连接，神经网络层130的输出可以输入至激活层，激活层可以对神经网络层130的输出进行非线性化处理。

卷积层/池化层120。卷积层：如图2所示卷积层/池化层120可以包括如示例121-126层，在一种实现中，121层为卷积层，122层为池化层，123层为卷积层，124层为池化层，125为卷积层，126为池化层；在另一种实现方式中，121、122为卷积层，123为池化层，124、125为卷积层，126为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

以卷积层121为例，卷积层121可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同，经过该多个维度相同的权重矩阵提取后的特征图维度也相同，再将提取到的多个维度相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息，从而帮助卷积神经网络100进行正确的预测。

当卷积神经网络100有多个卷积层的时候，初始的卷积层(例如121)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络100深度的加深，越往后的卷积层(例如126)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，即如图2中120所示例的121-126各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。

神经网络层130：在经过卷积层/池化层120的处理后，卷积神经网络100还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层120只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息)，卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层130中可以包括多层隐含层(如图2所示的131、132至13n)以及输出层140，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在神经网络层130中的多层隐含层之后，也就是整个卷积神经网络100的最后层为输出层140，该输出层140具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络100的前向传播(如图2由110至140的传播为前向传播)完成，反向传播(如图2由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络100的损失及卷积神经网络100通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图2所示的卷积神经网络100仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在，例如，如图3所示的多个卷积层/池化层并行，将分别提取的特征均输入给全神经网络层130进行处理。

(3)深度神经网络。

深度神经网络(Deep Neural Network，DNN)，也称多层神经网络，可以理解为具有很多层隐含层的神经网络，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，则系数W和偏移向量

的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(4)损失函数。

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。

因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。也就是说，训练过程实际上是基于训练得到的损失函数，不断调整深度神经网络中的权重向量，从而使得所得到的损失函数不断变小。

(5)反向传播算法。

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的超分辨率模型中参数的大小，使得超分辨率模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的超分辨率模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的超分辨率模型的参数，例如权重矩阵。

图4是本申请实施例提供的一种系统架构的示意图，在图4中，执行设备110配置输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据。

在执行设备120对输入数据进行预处理，或者在执行设备120的计算模块111执行计算等相关的处理(比如进行本申请中神经网络的功能实现)过程中，执行设备120可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果返回给客户设备140，从而提供给用户。

可选地，客户设备140，例如可以是自动驾驶系统中的控制单元、手机中的功能算法模块，例如该功能算法模块可以用于实现相关的任务。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则(例如本实施例中的目标神经网络模型)，该相应的目标模型/规则即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图4中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，图4仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图4中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

本申请实施例所提供的模型超参数的选择方法可以应用于电子设备上。示例性地，该电子设备例如可以是服务器、监控摄像装置、手机(mobile phone)、个人电脑(personal computer，PC)、笔记本电脑、平板电脑、智慧电视、移动互联网设备(mobile internet device，MID)、可穿戴设备，虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等。

可以参阅图5，图5为现有技术中用于选择超参数的一种网格搜索方法的示意图。如图5所示，神经网络模型中存在两个待设置的超参数，分别为学习率(Learning rate，LR)和优化器。其中，学习率的取值范围包括0.2、0.4和0.6；优化器的选择范围则包括随机梯度下降(Stochastic gradient descent，SGD)优化器和Adam优化器。其中，优化器指的是基于损失函数调整神经网络模型权重的优化方式，不同的优化器采用不同的优化方式来调整神经网络模型的权重。因此，基于3个不同的学习率和2个不同的优化器，一共可以得到6组超参数。这6组超参数分别为：(0.2，Adam)、(0.2，SGD)、(0.4，Adam)、(0.4，SGD)、(0.6，Adam)和(0.6，SGD)。因此，用户需要基于这6组超参数，选择部分训练数据对模型进行6次训练，且每次训练都必须收敛，最终选出一组合适的超参数。由于对于每一组超参数，都需要将模型训练至收敛，因此往往需要进行的长时间训练，导致超参数的选择效率较低。

有鉴于此，本申请实施例提供了一种模型超参数的选择方法，通过对采用不同超参数的模型进行训练，并且基于模型在训练过程中的权重绘制地形图，该地形图能够表示模型的损失函数在训练过程中的变化趋势。通过对比不同超参数所对应的地形图的平整程度，来选择最终用于模型训练的超参数。由于本方案是选择模型在部分训练过程中的权重来绘制地形图，无需将模型训练至收敛，因此能够节省选择模型超参数的时间，提高模型超参数的选择效率。

可以参阅图6，图6为本申请实施例提供的一种模型超参数的选择方法的流程示意图。如图6所示，该模型超参数的选择方法包括以下的步骤601-604。

步骤601，获取神经网络模型的多组超参数。

本实施例中，在基于训练集中的所有数据(即全量训练集)对神经网络模型执行正式的训练之前，电子设备可以先获取神经网络模型的多组超参数，并从多组超参数中选择一组合适的超参数用于神经网络模型的训练。其中，超参数又称为超参，是一种用于控制模型训练过程的参数。超参数是在开始模型训练过程之前所设置的参数，而不是通过训练得到的参数数据。在大部分的模型训练情况下，需要对超参数进行优化，给模型训练选择一组最优的超参数，以提高训练得到的模型的性能。

具体地，在电子设备所获取的多组超参数中，每组超参数均包括一个或多个超参数，且每组超参数所包括的超参数的类型是相同的。对于任意两组超参数，这两组超参数中至少有一个超参数的取值是不相同的。例如，电子设备获取到的多组超参数中均包括两个超参数，这两个超参数分别为学习率和优化器。并且，学习率的取值范围包括0.2、0.4和0.6；优化器的选择范围则包括SGD优化器和Adam优化器。因此，基于3个不同的学习率和2个不同的优化器，电子设备可以是获取到6组超参数。这6组超参数分别为：(0.2，Adam)、(0.2，SGD)、(0.4，Adam)、(0.4，SGD)、(0.6，Adam)和(0.6，SGD)。

在模型训练过程中，优化器用于控制模型适应目标问题所改变的方向；学习率用于控制模型适应目标问题所改变的幅度。简单来说，优化器指示了模型在每次迭代训练后如何调整模型中的权重，学习率则指示了模型在每次迭代训练后权重调整的幅度。需要说明的是，除了上述的学习率和优化器之外，电子设备所获取到的多组超参数中也可以是包括其他的超参数，本实施例并不对超参数的类型做具体限定。

可选的，电子设备可以是通过获取用户所设置的多组超参数的取值，来获取神经网络模型的多组超参数。例如，用户在电子设备上分别输入每组超参数中所包括的超参数以及每组内超参数的取值，从而使得电子设备能够获取到上述的多组超参数。

电子设备也可以是通过获取用户所设置的多个超参数的取值范围，自动生成神经网络模型的多组超参数。例如，用户在电子设备上输入神经网络模型的超参数包括学习率和优化器，且学习率具有三个不同的取值，优化器则具有两个不同的取值。这样，电子设备可以基于学习率和优化器这两个超参数的取值范围，自动生成学习率和优化器之间的不同组合，从而得到六组超参数。

步骤602，基于所述多组超参数，分别对所述模型进行多次迭代训练，以得到所述模型在训练过程中的多组权重，所述多组权重与所述多组超参数一一对应，所述多组权重中的每组权重包括多次迭代训练得到的权重。

本实施例中，电子设备可以基于多组超参数，对神经网络模型进行多组重复的训练。在每一组对神经网络模型的训练中，神经网络模型的训练次数和训练数据均相同。具体地，电子设备可以基于多组超参数中的某一组超参数，设置神经网络模型在训练过程中的超参数；然后，电子设备再基于训练数据对神经网络模型执行一定次数的迭代训练，从而得到一组权重。以此类推，电子设备基于多组超参数依次设置神经网络模型在训练过程中的超参数，并且在设置神经网络模型的超参数后对神经网络模型执行相同次数的迭代训练，从而得到多组权重。其中，多组权重中的每组权重都是基于相同的训练数据训练得到的，且多组权重与多组超参数一一对应。

其中，多组权重中的每一组权重都包括所述神经网络模型在多次迭代训练中每次迭代训练后所得到的权重。神经网络模型在一次迭代训练后所得到的权重为一个模型中的所有权重参数，是一个高维向量。一个神经网络模型中的所有权重参数是指模型中的所有神经单元的权重参数。通常，一个神经网络模型中包括几十万至几百万的神经单元，因此神经网络模型在一次迭代训练后所得到的权重实际上包括了几十万至几百万的神经单元的权重参数，即一次迭代训练后所得到的权重是一个几十万维至几百万维的高维向量。

示例性地，电子设备可以先获取训练子集，所述训练子集包括所述神经网络模型的训练集中的部分训练数据。其中，所述神经网络模型的训练集包括模型正式训练过程中需要用到的全部训练数据，训练子集则是仅包括从训练集中选择出来的部分训练数据。例如，训练集可以是包括128万个训练数据，训练子集中则是包括5万个训练数据。

然后，基于所述多组超参数，电子设备分别采用所述训练子集对所述神经网络模型进行多次迭代训练，以得到所述神经网络模型在训练过程中的多组权重，所述多组权重中的每组权重包括所述神经网络模型在每次迭代训练后的权重集合。

例如，假设神经网络模型中共包括m个神经单元，在对神经网络模型进行一次迭代训练得到权重θ _i。其中，权重θ _i∈R ^m是该神经网络模型中的所有权重，权重θ _i是一个m维的高维向量。那么，基于一组超参数，对神经网络模型进行n次迭代训练后，得到一组权重，该组权重可以表示为(θ ₁，θ ₂，...，θ _n)。其中，θ ₁表示对神经网络模型进行第1次迭代训练后得到的权重，θ ₂表示对神经网络模型进行第2次迭代训练后得到的权重，θ _n表示对神经网络模型进行第n次迭代训练后得到的权重。

步骤603，执行多个地形图的绘制，其中，所述多个地形图中的每个地形图基于所述多组权重中的一组绘制，所述多个地形图中的每个地形图均用于表示所述模型的损失函数在训练过程中的变化趋势。

本实施例中，地形图是指损失函数的地形图，能够将成百上千的损失函数的值映射到权重空间中。基于所述多组权重，电子设备可以绘制每一组权重所对应的地形图，从而得到与所述多组权重一一对应的多个地形图。在每个地形图中，所述模型的损失函数的位置是基于该地形图对应的一组权重确定的。由于每组权重包括多次迭代训练所对应的权重，且基于每一次迭代训练所得到的权重可以获取到一个损失函数的值，因此每组权重均具有对应的多个损失函数的值。

例如，在电子设备获得5组权重的情况下，电子设备可以绘制得到5个地形图，每一个地形图都是基于一组权重绘制得到的。

由于每一组权重中包括多次迭代训练得到的权重，而每次迭代训练得到的权重实际上包括了几十万甚至几百万的权重参数，即迭代训练得到的权重为一个高维向量。因此，为了便于展示模型的优化地形，在绘制地形图的过程中，电子设备可以将每一组权重都进行降维处理。然后，电子设备再基于降维后的参数与损失函数之间的关系，绘制得到地形图，从而展示神经网络模型的损失函数在训练过程中的变化趋势。

步骤604，得到目标超参数，所述目标超参数为目标地形图所对应的一组超参数，所述目标超参数用于训练所述模型，所述目标地形图为所述多个地形图中平整程度最高的地形图，所述平整程度用于表示所述模型的损失函数在地形图中的变化程度。

在得到多组权重中每一组权重所对应的地形图之后，电子设备可以确定每个地形图的平整程度。具体地，地形图中的等值线排布越整齐稀疏，则表示模型的损失函数在地形图中的变化越小，地形图的平整程度越高；地形图中的等值线排布越密集且杂乱无章，则表示模型的损失函数在地形图中的变化越大，地形图的陡峭程度越高，地形图的平整程度越低。

此外，经过申请人研究发现，不同的超参数在模型的训练初期会使得梯度协方差矩阵的性质产生较大的差异，从而改变训练过程中损失函数在高维优化空间的运行轨迹，导致损失函数进入到不同的优化空间区域。在长时间训练后，基于不同超参数的模型最终训练得到的损失值基本相同，但是模型的泛化精度会存在较大的差别。并且，在模型的初期训练过程中，不同的超参数对应于不同的地形图平整程度。超参数所对应的地形图的平整程度越高，则基于该超参数训练得到的模型的泛化精度越高；超参数所对应的地形图的平整程度越低，则基于该超参数训练得到的模型的泛化精度较低。其中，模型的泛化精度是指模型拟合新数据的能力。

示例性地，可以参阅图7，图7为本申请实施例提供的两个地形图的对比示意图。如图7所示，图7中左边的地形图为平整程度较高的地形图，图7中右边的地形图为平整程度较低的地形图。由图7可以看出，平整程度较高的地形图中的等值线较为平滑以及规整，且损失函数对应的轨迹附近的等值线之间呈近似平行排布；平整程度较低的地形图中的等值线较为崎岖且杂乱无章，并且等值线还存在很多的闭环，导致损失函数的轨迹可能存在局部最优点。

基于此，在电子设备确定多个地形图的平整程度之后，电子设备可以选择平整程度最高的目标地形图所对应的一组超参数作为目标超参数，以基于该目标超参数来执行神经网络模型的正式训练。

本实施例中，通过对采用不同超参数的模型进行训练，并且基于模型在训练过程中的权重绘制地形图，该地形图能够表示模型的损失函数在训练过程中的变化趋势。通过对比不同超参数所对应的地形图的平整程度，来选择最终用于模型训练的超参数。由于本方案是选择模型在部分训练过程中的权重来绘制地形图，无需将模型训练至收敛，因此能够节省选择模型超参数的时间，提高模型超参数的选择效率。

在一个可能的实施例中，电子设备可以是通过求取地形图中的等值线长度，来确定各个地形图对应的平整程度。

示例性地，在绘制地形图之前，可以先设定地形图中的等值线的数量。其中，等值线是指制图对象某一数量指标值相等的各点连成的平滑曲线。同一条等值线上的各个点所对应的损失函数的值(即损失值)相同。例如，设定地形图的等值线的数量为100。这样，在电子设备绘制地形图的过程中，电子设备可以基于所设定的数量在各个地形图中绘制相应的等值线。这样，在电子设备绘制得到的多个地形图中，每个地形图均包括相同数量的等值线。

然后，电子设备确定所述多个地形图中每个地形图的等值线长度之和。其中，地形图的直线长度之和是指地形图中的所有等值线的长度之和。例如，电子设备可以基于以下的公式1来确定地形图中的等值线长度之和。

其中，L表示地形图中的等值线长度之和；m表示地形图中的等值线的数量；k表示每条等值线中，等间距采集k个节点；P _i表示一条等值线中的某个点，P _i-1表示等值线中位于P _i之前的一个点。

最后，基于所述多个地形图中每个地形图的面积和所述等值线长度之和，确定所述每个地形图的平整程度。由于每个地形图的面积可能是不一样的，因此电子设备可以通过将地形图中的等值线长度之和除以地形图的面积和，得到该地形图中单位面积的等值线长度。这样一来，电子设备最终可以得到多个地形图中每个地形图的单位面积的等值线长度，从而确定地形图的平整程度。具体地，地形图的平整程度与地形图的单位面积的等值线长度成负相关相关。地形图中单位面积的等值线长度越大，则地形图的平整程度越小；地形图中单位面积的等值线长度越小，则地形图的平整程度越大。

示例性地，地形图的平整程度与地形图的单位面积的等值线长度可以是呈反比关系。在确定地形图的单位面积的等值线长度之后，可以通过求取地形图的单位面积的等值线长度的倒数，来确定地形图的平整程度。

以上详细介绍了电子设备确定地形图的平整程度的过程，为了便于理解，以下将详细介绍基于得到的多组权重，绘制地形图的过程。具体地，以下将以多组权重中的一组权重为例，详细介绍基于该组权重绘制得到对应的地形图的过程。

示例性地，电子设备首先对第一组权重进行降维处理，得到作为二维空间中投影方向的两个高维向量，以实现将作为高维向量的权重投影到二维空间中。其中，所述第一组权重为所述多组权重中的一组权重，所述第一组权重包括所述模型在每次迭代训练后的权重。例如，第一组权重可以表示为(θ ₁，θ ₂，...，θ _n)。θ ₁表示对神经网络模型进行第1次迭代训练后得到的权重，θ ₂表示对神经网络模型进行第2次迭代训练后得到的权重，θ _n表示对神经网络模型进行第n次迭代训练后得到的权重。权重θ _i∈R ^m是该神经网络模型中的所有权重，权重θ _i是一个m维的高维向量，m表示该神经网络模型中所有神经单元的数量。降维处理后所得到的两个高维向量例如可以表示为

且

也就是说，向量

和向量

均为m维的高维向量。

其中，降维是指将数据从原始所在的高维空间降至低维空间，同时在低维空间的表示保持某些高维原始数据的有意义的特征。电子设备对第一组权重进行降维处理的方法可以是采用常用的高维降维方法，例如主成分分析(Principal component analysis，PCA)方法。采用PCA方法作为降维方法，能够有效地保留权重数据中的大部分方差，即尽可能地保留权重数据本身的特征。

然后，电子设备基于所述第一组权重和所述两个高维向量，确定所述第一组权重中每次迭代训练后的权重在二维空间的坐标。具体地，假设第一组权重中的某一次迭代训练后的权重位于二维空间的中心点(0,0)，则可以基于通过建立方程组来确定第一组权重中的其余每次迭代训练后的权重在二维空间中的坐标。

示例性地，假设第一组权重可以表示为(θ ₁，θ ₂，...，θ _n)，θ _n位于中心点(0,0)，则可以基于

确定第一组权重中每次迭代训练后的权重在二维空间中的坐标。具体地，可以建立如下所示的方程组。

其中，上述方程组中的(α _i，β _i)为未知系数，α _i和β _i分别用于表示(θ ₁，θ ₂，...，θ _n-1)在二维空间中相应的横坐标和纵坐标。由于上述方程组中(θ ₁，θ ₂，...，θ _n)和

是已知的，因此可以基于最小二乘法来计算出方程组中的(α _i，β _i)，从而确定第一组权重中每次迭代训练后的权重(θ ₁，θ ₂，...，θ _n)在二维空间中的坐标。

其次，在确定权重在二维空间的坐标之后，电子设备可以进一步基于所述每次迭代训练后的权重在二维空间的坐标，确定第一地形图的边界。示例性地，电子设备可以基于所得到的多个坐标(即每次迭代训练后的权重在二维空间的坐标)，确定多个坐标分别在x轴和y轴上的最大值和最小值，从而确定第一地形图的边界。

例如，假设第一组权重(θ ₁，θ ₂，...，θ ₅)在二维空间上的坐标分别为(-0.7，0.15)，(-0.4，0.1)，(0.5，-0.2)，(-0.1，0.15)，(0，0)，则可以确定该多个坐标在x轴上的最大值为0.5，最小值为-0.7；该多个坐标在y轴上的最大值为0.15，最小值为-0.2。这样一来，第一地形图的边界则可以是基于坐标点(0.5，0.15)，(0.5，-0.2)，(-0.7，0.15)，(-0.7，-0.2)来确定。此外，为了便于观察，第一地形图的边界可以是在上述的四个坐标点的基础上适当延伸，以避免第一组权重对应的坐标过于靠近第一地形图的边界。

在电子设备确定第一地形图的边界后，根据所述第一地形图的边界，将所述第一地形图划分为多个区域，以得到所述多个区域中每个区域的采样点。简单来说，在确定第一地形图的边界之后，电子设备可以在第一地形图等间距地进行区域划分，从而将第一地形图划分为多个面积相等的区域。这样，电子设备以第一地形图中的每个区域作为采样单位，确定每个区域中的采样点。例如，在电子设备将第一地形图划分为多个正方形区域的情况下，电子设备分别确定多个正方形区域的中心点或者边界点为采样点。

示例性地，电子设备可以是基于以下的公式2来实现第一地形图中的区域划分。

x＝i(max(α)-min(α))/N

y＝i(max(β)-min(β))/N 公式2

其中，x表示划分得到的区域中的采样点的横坐标，y表示划分得到的区域中的采样点的纵坐标，i的取值为(0,1，…N)，N表示第一地形图在x轴和y轴上的划分次数，max(α)表示第一组权重在二维空间上的坐标中x轴的最大值，min(α)表示第一组权重在二维空间上的坐标中x轴的最小值，max(β)表示第一组权重在二维空间上的坐标中y轴的最大值，min(β)表示第一组权重在二维空间上的坐标中y轴的最小值。

最后，电子设备可以基于所述第一地形图中每个采样点所对应的权重，确定所述模型对应的损失值，以绘制得到所述第一地形图。其中，所述多个地形图包括所述第一地形图，所述第一地形图是基于多组权重中的第一组权重所绘制得到的一个地形图。

具体地，由于每个采样点在二维空间中的坐标是确定的，因此基于类似于上述方程组中的公式，即可确定每个采样点对应的权重。然后，将每个采样点的权重传入模型中，对模型进行正向计算，即可得到模型对应的损失值，从而得到每个采样点对应的三维坐标。基于每个采样点对应的三维坐标，电子设备可以实现地形图的绘制。

示例性地，对于任意一个采样点(x，y)，可以将该采样点对应的权重传入模型中，并对模型进行正向推理计算，得到损失值Z，构成地形图中的一个三维坐标(x，y，z)。例如，对于采样点(x，y)，可以基于以下的公式3来表示该采样点的损失值Z。

其中，Z表示采样点的损失值，L()表示基于该采样点对应的权重进行模型的正向推理计算，

表示该采样点对应的权重。

在一个可能的实施例中，在电子设备基于所述第一地形图中每个采样点所对应的权重，确定所述模型对应的损失值的过程中，电子设备可以采用孪生参数并行的方式来求取各个采样点所对应的损失值，以提高地形图的绘制效率。

具体地，电子设备可以是基于同一个模型，给模型中的神经单元设置不同的权重参数，从而得到多个结构相同但权重不同的子模型。然后，电子设备基于相同的输入数据，在同一个硬件(例如同一个GPU)上并行地执行模型的推理运算，从而分别得到多个子模型的损失值。这多个子模型的损失值则分别对应于多个采样点的损失值。

示例性地，电子设备基于所述模型和所述第一地形图中的多个采样点对应的权重，构建得到多个子模型，所述多个子模型与所述多个采样点对应的权重一一对应，所述多个子模型的结构均与所述模型的结构相同。然后，电子设备将相同的训练数据分别输入至所述多个子模型，以得到所述多个采样点对应的损失值。其中，用于输入至多个子模型中的训练数据可以为训练集中的部分数据。

也就是说，对于电子设备所构建得到的多个子模型，所述多个子模型的结构相同，但所述多个子模型中的神经单元的权重分别对应于所述多个采样点对应的权重。例如，电子设备计算得到采样点1对应的权重1，以及采样点对应的权重2。电子设备可以基于权重1和权重2和神经网络模型，构建得到子模型1和子模型2；其中，子模型1和子模型2的结构相同，子模型1中神经单元的权重为采样点1对应的权重1，子模型2中神经单元的权重为采样点2对应的权重2。

这样，在得到多个子模型之后，电子设备可以基于相同的输入数据，在同一个硬件上同时并行地对多个子模型进行推理运算，从而得到多个采样点对应的损失值。通过基于多个采样点对应的权重，构建得到多个子模型，能够并行地对多个子模型进行推理运算，从而能够同时得到多个采样点对应的损失值，提高了地形图的绘制效率。

可以参阅图8，图8为本申请实施例提供的一种孪生参数并行方法的示意图。如图8 所示，电子设备可以基于2组权重参数(分别为权重参数1和权重参数2)和神经网络模型，构建得到孪生模型。该孪生模型中包括结构相同的子模型1和子模型2。

在进行推理运算之前，孪生模型需要读取该孪生模型中神经单元的权重参数，以便于执行后续的推理运算。一般来说，在神经网络模型框架中，神经网络模型通过唯一的变量名来识别和读取权重参数。因此，本实施例中，电子设备可以基于孪生模型中的子模型的名称，对应修改权重参数的名称，以确保各个子模型能够读取和识别到对应的权重参数。例如，假设子模型1和子模型2的名称分别为Net1和Net2，则对应于子模型1的权重参数1的名称修改为Net1.param，对应于子模型2的权重参数2的名称则修改为Net2.param。

具体地，在推理运算过程中，孪生模型读取修改名称后的权重参数，从而使得孪生模型中的子模型1配置对应的权重参数1，子模型2配置对应的权重参数2。然后，向孪生模型输入一批训练数据，基于相同的一批训练数据，分别对孪生模型中的子模型1和子模型2进行推理运算，并采用拼接(concat)算子拼接孪生模型中多个子模型的损失函数，得到孪生模型的输出。最后，通过分割(split)算子将孪生模型中的各个子模型的损失函数拆开，生成各个子模型对应的损失函数，从而获得多组权重对应的损失值，即获得多个采样点对应的损失值。

以上介绍了电子设备采用孪生参数并行的方式来求取各个采样点所对应的损失值，以绘制地形图的过程。以下将结合附图介绍绘制地形图的具体流程。

可以参阅图9和图10，图9为本申请实施例提供的一种绘制地形图的总流程示意图；图10为本申请实施例提供的一种基于采样点绘制得到地形图的流程示意图。如图9所示，电子设备在得到任意一组权重(θ ₁，θ ₂，...，θ _n)之后，可以对该组权重进行降维处理，得到两个高维向量

然后，电子设备基于最小二乘法，确定该组权重中每次迭代训练后的权重在二维空间中的坐标。基于求得的坐标，电子设备取地形图的边界，并生成地形图中等面积的网格。对于地形图中各个网格，电子设备对各个网格进行采样，确定每个采样点对应的权重。基于每个采样点对应的权重，电子设备在模型中传入权重，并进行正向计算，以得到每个采样点对应的损失值，进而确定每个采样点在地形图中的三维坐标。最后，基于每个采样点在地形图中的三维坐标，绘制得到地形图。

以上介绍了在绘制得到第一地形图之后，均匀地对第一地形图进行多区域的划分，以实现第一地形图的采样。然而，在第一地形图中，不同的区域之间的崎岖程度可以是不一样的，越崎岖的区域，损失值变化得越快；越平坦的区域，损失值则变化得越慢。因此，为了尽可能地详细描绘损失值在地形图中的变化趋势，电子设备可以识别地形图中的崎岖区域，并且增加在崎岖区域的采样点。

在一个可能的实施例中，在对第一地形图进行多区域划分之后，电子设备可以确定所述第一地形图中每个区域的崎岖程度。示例性地，电子设备可以基于数值方法分别确定所述第一地形图中每个区域的采样点的二阶导数矩阵H。然后，电子设备再计算所述二阶导数矩阵H的两个特征值，并确定所述两个特征值的绝对值之和，以得到所述第一地形图中每个区域的崎岖程度。

例如，假设电子设备计算得到的二阶导数矩阵H的两个特征值分别为λ ₁和λ ₂，则电子设备可以通过将这两个特征值的绝对值相加，得到区域的崎岖程度f＝|λ ₁|+|λ ₂|。

在确定第一地形图中每个区域的崎岖程度之后，电子设备根据每个区域的崎岖程度，在所述第一地形图中增加采样点，以更新所述第一地形图。其中，所述第一地形图中区域的采样点密集程度与所述区域的崎岖程度具有正相关关系。简单来说，电子设备增加采样点的原则可以为：区域的崎岖程度越高，则增加的采样点越多；区域的崎岖程度越低，则增加的采样点越少，甚至是不增加采样点。

在一个可能的示例中，电子设备可以是按照崎岖程度从高到低的顺序，对所述第一地形图中的多个区域进行排序，以得到所述多个区域的排序结果。在该多个区域的排序结果中，崎岖程度越高的区域，排序越靠前；崎岖程度越低的区域，排序越靠后。基于所述多个区域的排序结果，电子设备依次在所述多个区域中增加采样点，直至所增加的采样点的数量达到预设阈值。

例如，假设第一地形图被设定为总的采样点为1600个，则电子设备可以基于20*20的方式来对第一地形图进行多区域划分，共划分得到400个区域，并且得到初始的400个采样点。然后，电子设备基于上述的崎岖程度计算方法，计算得到该400个区域对应的崎岖程度，并基于区域的崎岖程度对该400个区域进行排序。由于第一地形图中总的采样点为1600个，而已进行采样的采样点为400个，因此还剩余900个采样点没有采集。基于此，电子设备可以基于多个区域的排序结果，将崎岖程度较高的区域重新划分为四个较小的区域，并且重新划分得到的区域内增加采样点，直至所增加的采样点达到900个。最后，对于第一地形图中剩余没有增加采样点的区域，同样可以将这些区域划分为四个较小的区域，采用线性插值的方式确定这些区域中的网格点的损失值。

示例性地，可以参阅图11，图11为本申请实施例提供的一种基于区域的崎岖程度增加采样点的示意图。如图11所示，对于地形图中左侧较为崎岖的区域，增加了采样点，保证了地形图能够准确地描绘损失值在地形图中的变化趋势。

在另一个可能的示例中，电子设备可以提前获取或者建立崎岖程度与采样点数量之间的映射关系。这样，在确定第一地形图中每个区域的崎岖程度之后，电子设备可以基于崎岖程度与采样点数量之间的映射关系，确定每个区域需要增加的采样点，从而实现采样点的增加。其中，对于崎岖程度与采样点数量之间的映射关系来说，区域的崎岖程度越高，则对应的采样点数量越大；区域的崎岖程度越低，则对应的采样点数量越小。在实际应用中，可以是基于电子设备的算力以及地形图的精确度要求，综合确定崎岖程度与采样点数量之间具体的映射关系，在此并不限定崎岖程度与采样点数量之间具体的映射关系。

本实施例中，先对地形图进行较为稀疏的等距采样，然后基于各个采样区域的崎岖程度，在崎岖程度较高的区域增加采样点，可以实现了基于较少的采样点近似达到全量采样的地形图可视效果。在保证地形图能够准确地描绘损失值在地形图中的变化趋势的同时，提高了地形图的绘制效率。

为便于理解，以下将结合例子介绍本申请实施例提供的模型超参数的选择方法的实现方式。

可以参阅图12，图12为本申请实施例提供的一种训练过程可视分析系统的架构示意图。如图12所示，训练过程可视分析系统可以从服务器或者主机目录中读取神经网络模型所需的超参数配置文件，并基于该超参数配置文件对神经网络模型的超参数进行配置。基于配置了超参数的神经网络模型，利用计算加速模块进行地形图的绘制，得到每组超参数对应的地形图。最后，基于定量分析模块对地形图进行分析，确定需要选择的超参数。此外，绘制得到的地形图以及所确定的超参数可以基于前端服务的交互请求，而返回前端服务中，以实现在前端渲染展示地形图以及超参数。

可以参阅图13，图13为本申请实施例提供的一种训练过程可视分析系统的工作流程示意图。如图13所示，训练过程可视分析系统的工作流程包括以下的步骤1至步骤5。

步骤1，选择超参数的不同取值(如超参数1和超参数2)与合适的数据子集，对神经网络模型进行小规模的训练，得到神经网络模型每次迭代训练后的权重。例如，基于数据子集，对神经网络模型进行5个epoch的训练。其中，1个epoch表示使用训练集的全部数据对模型进行了一次完整的训练。

步骤2，基于选定的降维方法(例如PCA方法)，确定属于高维参数空间的权重的降维方向和采样范围。

步骤3，结合计算加速模块进行地形图绘制计算。可以参阅图14，图14为本申请实施例提供的一种计算加速模块的工作流程示意图。如图14所示，计算加速模块采用了自适应采样粒度方法，能够先对地形图进行较为稀疏的等距采样，然后基于各个采样区域的崎岖程度，在崎岖程度较高的区域增加采样点，可以实现了基于较少的采样点近似达到全量采样的地形图可视效果。此外，计算加速模块在执行采样的过程中，例如计算采样点所在位置时，采用多张运算卡(chip)来并列采样，以提高计算效率。另外，在计算各个采样点对应的损失值的过程中，计算加速模块还采用了上述的孪生参数并行方法对模型进行训练，以提高模型的训练效率。

步骤4，在绘制得到地形图之后，通过对地形图进行分析，从而选择更优的超参数配置。

步骤5，将得到的超参数在全量数据集上进行大规模训练，得到最终模型。

为了便于理解本申请实施例所提供的模型超参数的选择方法的有益效果，以下将结合具体的实验例子详细描述本申请实施例所提供的模型超参数的选择方法相较于现有技术的提升。

实验描述：选择ResNet50网络作为神经网络模型，使用Imagenet数据集在GPU上训练ResNet50网络，并且确定如何设置ResNet50网络的学习率才能够获得更好的泛化精度。

实验步骤：

(1)从Imagenet数据集的所有数据中(Imagenet数据集中包括128万个数据)，按类别随机均匀地选取一个数据子集，数据子集中例如可以包括5万个数据。此外，选择0.1、0.4 和0.8这三个初始的学习率，在数据子集上进行5个epoch的训练。

(2)采用PCA降维方法，绘制得到三个学习率分别对应的地形图，并且在地形图中可视化训练轨迹，得到如图15所示的地形图。此外，基于等值线长度度量方法得到每个地形图的平整度指数(flatness)，指数越小，代表地形图的平整程度越高。如图15所示，图15为本申请实施例提供的不同学习率的地形图的对比示意图。

(3)通过分析每个地形图的平整程度，可以确定当学习率为0.8时，地形图的平整程度最高。因此，选择学习率为0.8作为模型全数据集长时间训练的学习率。

(4)基于学习率为0.8的超参数，对模型进行全数据集(即128万个数据)的长时间训练，得到最终的模型。

基于上述的实验步骤，采用不同学习率对模型进行全数据集的长时间训练，得到不同学习率下的长时间训练结果对比。具体地，不同学习率下的长时间训练结果对比如表1所示。

表1

网络名称	学习率	测试精度	平整度指数
ResNet50	0.8	0.76965	644
ResNet50	0.4	0.74217	3937
ResNet50	0.1	0.74257	1659

由表1可知，通过本申请实施例提供的模型超参数的选择方法所选择的学习率0.8，具有最低的平整度指数。并且，基于学习率0.8所训练得到的最终模型也达到了最高的测试精度。也就是说，基于本申请实施例提供的模型超参数的选择方法所选择的超参数能够保证训练得到的模型的精度。

以下将介绍本申请实施例提供的模型超参数的选择方法相较于现有技术的效率提升情况。

整体结论：相较于现有技术，本申请实施例提供的模型超参数的选择方法能够提升约3倍的超参数选择效率。

实验场景：用户需要确定模型的一个初始学习率，以使得模型能够具有更高的泛化精度。假设，用于训练模型的全量数据集的数量为N，基于全量数据集训练一次模型所消耗的时间为T。

现有技术：用户在全量数据集中随机、均匀地选取一个小的数据子集，并基于数据子集来执行模型的训练。假设，使用该数据子集训练模型直至收敛所消耗的时间为T ₀，用户需要在P个初始学习率中确定一个学习率，则基于P个初始学习率训练模型直至收敛所消耗的总时间为PT ₀。

本申请实施例的方案：用户在全量数据集中随机、均匀地选取一个小的数据子集，并基于数据子集来执行模型的短时间训练。在短时间训练后，绘制各个学习率对应的地形图，从而根据地形图确定最终的学习率。假设，使用该数据子集短时间训练模型所消耗的时间为T _s，绘制一个地形图所消耗的时间为T _m，则基于P个初始学习率实现地形图绘制所消耗的总时间为P(T _s+T _m)。

那么，本申请实施例的方案相对于现有技术的效率提升比率为：

以上述的实验为例，即基于Image数据集训练ResNet50网络，首先在Image数据集中均匀选取一个数据子集。示例性地，Image数据集中的cifar10数据集包括5万个数据，因此可以将cifar10数据集看作为所选取的一个数据子集。基于cifar10数据集执行训练的信息如下表2所示。

表2

其中，Epoch表示训练的迭代轮数，1个epoch表示使用训练集的全部数据对模型进行了一次完整的训练。Batch表示使用训练集中的一部分样本对模型权重进行一次反向传播的参数更新，这一小部分样本被称为“一批数据”，即batch。Batch_size即表示批数据的大小。Steps per epoch表示一个epoch包含的步数，每一步是送入batch_size个数据来进行训练。

基于表2，可以确定上述的T ₀＝20.2。即使用cifar10数据集训练模型直至收敛所消耗的时间为20.2分钟。

此外，在表2所示资源的场景下，绘制一张ResNet50对应的地形图，所需的时间约为5.2分钟，即上述的T _m＝5.2。使用cifar10数据集短时间训练模型(即模型训练的epoch为5)所消耗的时间T _s＝1.3(即20.2*5/90＝1.3)。

基于上述的具体数据，本申请实施例的方案相对于现有技术的效率提升比率可以如公式4所示。

也就是说，相较于现有技术，本申请实施例提供的模型超参数的选择方法能够提升约3倍的超参数选择效率。

以上是以学习率为待选择的超参数为例，介绍了基于地形图的平整程度来选择相应的学习率的过程。以下将以批标准化(Batch Normalization)层为模型的超参数为例，介绍基于地形图的平整程度来选择是否添加Batch Normalization层的过程。经申请人研究发现，在神经网络模型中添加Batch Normalization层，可以使得神经网络模型训练的优化空间更加平滑，从而更有利于梯度下降，使模型收敛更快、更平稳。反之，神经网络模型中没有添加Batch Normalization层，将会导致神经网络模型的收敛变慢且更收敛过程更为曲折。具体地，在VGG类型的神经网络模型中，如果没有添加Batch Normalization层，则神经网络模型的训练轨迹周边会存在明显的凸起和崎岖形状。

基于此，电子设备在绘制得到神经网络模型的地形图之后，电子设备可以对地形图中损失函数的训练路径进行识别。在电子设备识别到地形图具有特定的平整程度时，例如地形图中的训练路径具有特定的崎岖形状，电子设备则可以生成相应的提示信息，以指示用户选择特定的超参数，即指示用户在神经网络模型中选择超参数--Batch Normalization层。

示例性地，可以参阅图16，图16为本申请实施例提供的一种基于地形图指导模型结构的示意图。如图16所示，电子设备在得到地形图之后，如果识别到地形图中训练路径的地形平缓且无明显凸起，则可以是不生成提示信息，无需建议用户为模型选择超参数--Batch Normalization层；如果电子设备识别到地形图中训练路径周边存在损失值过大的明显凸起区域，则电子设备可以生成提示信息，以提示用户检查模型是否已添加Batch Normalization层，即提示用户为模型选择超参数--Batch Normalization层。

其中，地形图中训练路径的形状可以用于表示地形图的平整程度，地形图中训练路径所具有的特定形状则可以认为是特定的平整程度。示例性地，训练路径上的每个点在二维空间中具有对应的位置坐标点，且训练路径上的每个点还具有对应的损失值，因此基于每个点在二维空间的位置坐标点以及损失值，可以在三维空间中绘制训练路径。例如，以训练路径上的每个点在二维空间的位置坐标点为x轴和y轴的坐标，以每个点对应的损失值为z轴的坐标，即可得到训练路径上的每个点在三维空间中的坐标点，从而绘制得到三维地形图中的训练路径。这样一来，基于三维地形图中的训练路径的形状即可以确定地形图的平整程度。例如，训练路径在z轴方向上变化越大，则代表地形图中的损失函数变化程度越大，地形图的平整程度越小；训练路径在z轴方向上变化越小，则代表地形图中的损失函数变化程度越小，地形图的平整程度越高。

在实际应用中，电子设备在识别到地形图中训练路径具有特定的形状时，则可以认为地形图具有特定的平整程度，从而生成提示信息，以指示用户选择特定的超参数。

为验证上述通过识别地形图中特定的崎岖形状来选择神经网络模型结构的效果，以下将结合具体的实验来详细说明。

实验描述：使用cifar10数据集训练超分辨率测试序列(Visual Geometry Group，VGG)类型的神经网络模型(以下简称VGG模型)，该神经网络模型用于进行图片分类。实验目的为：如何加快模型训练的收敛速度。

实验步骤：

(1)对VGG模型进行初始阶段的训练，例如对VGG模型进行5个epoch的训练。

(2)采用PCA降维方法，绘制得到VGG模型对应的地形图，并且在地形图中可视化训练轨迹，得到如图17所示的地形图。图17为本申请实施例所提供的未添加Batch Normalization层的VGG模型的地形图。

(3)通过识别如图17所示的地形图，发现地形图中训练轨迹周边存在明显的凸起及崎岖形状。基于对地形图的识别结果，生成提示信息，以提示用户在VGG模型中添加Batch Normalization层。

(4)用户在VGG模型中添加Batch Normalization层后，再次对添加了Batch Normalization层的VGG模型进行训练，并绘制相应的地形图，得到如图18所示的地形图。图18为本申请实施例所提供的添加Batch Normalization层的VGG模型的地形图。如图18所示，在添加了Batch Normalization层后，VGG模型对应的地形图中的训练轨迹形状得到了明显的改善。

此外，可以参阅图19，图19为本申请实施例提供的VGG模型添加Batch Normalization层前后的效果对比示意图。由图19可以看出，在VGG模型添加了Batch Normalization层之后，VGG模型在训练过程中收敛变得更快且更为平稳。

可以参阅图20，图20为本申请实施例提供的一种电子设备的结构示意图。如图20所示，本申请实施例提供的一种电子设备，包括：获取单元2001和处理单元2002。所述获取单元2001，用于获取神经网络模型的多组超参数；所述处理单元2002，用于基于所述多组超参数，分别对所述模型进行多次迭代训练，以得到所述模型在训练过程中的多组权重，所述多组权重与所述多组超参数一一对应，所述多组权重中的每组权重包括多次迭代训练得到的权重；所述处理单元2002，还用于执行多个地形图的绘制，其中，所述多个地形图中的每个地形图基于所述多组权重中的一组绘制，所述多个地形图中的每个地形图均用于表示所述模型的损失函数在训练过程中的变化趋势；所述处理单元2002，还用于得到目标超参数，所述目标超参数为目标地形图所对应的一组超参数，所述目标超参数用于训练所述模型，所述目标地形图为所述多个地形图中平整程度最高的地形图，所述平整程度用于表示所述模型的损失函数在地形图中的变化程度。

在一种可能的实现方式中，所述获取单元2001，还用于获取训练子集，所述训练子集包括所述模型的训练集中的部分训练数据；所述处理单元2002，还用于采用所述训练子集，基于所述多组超参数分别对所述模型进行多次迭代训练，以得到所述模型在训练过程中的多组权重，所述多组权重中的每组权重包括所述模型在每次迭代训练后的权重集合。

在一种可能的实现方式中，所述处理单元2002，还用于对第一组权重进行降维处理，得到作为二维空间中投影方向的两个高维向量，所述第一组权重为所述多组权重中的一组权重，所述第一组权重包括所述模型在每次迭代训练后的权重集合；所述处理单元2002，还用于基于所述第一组权重和所述两个高维向量，确定第一地形图中的多个采样点所对应的权重，所述多个地形图包括所述第一地形图；所述处理单元2002，还用于基于所述多个采样点所对应的权重，确定所述模型对应的损失值，以绘制得到第一地形图。

在一种可能的实现方式中，所述处理单元2002，还用于基于所述模型和所述第一地形图中的多个采样点对应的权重，构建得到多个子模型，所述多个子模型与所述多个采样点对应的权重一一对应，所述多个子模型的结构均与所述模型的结构相同；所述处理单元2002，还用于将相同的训练数据分别输入至所述多个子模型，以得到所述多个采样点对应的损失值。

在一种可能的实现方式中，所述处理单元2002，还用于确定所述第一地形图中每个区域的崎岖程度，所述崎岖程度用于表示每个区域内的等值线的密集程度，所述等值线上的点对应的损失值相同；所述处理单元2002，还用于根据所述崎岖程度，在所述第一地形图中增加采样点，以更新所述第一地形图；其中，所述第一地形图中区域的采样点密集程度与所述区域的崎岖程度具有正相关关系。

在一种可能的实现方式中，所述处理单元2002，还用于按照崎岖程度从高到低的顺序，对所述第一地形图中的多个区域进行排序，以得到所述多个区域的排序结果；所述处理单元2002，还用于基于所述多个区域的排序结果，依次在所述多个区域中增加采样点，直至所增加的采样点的数量达到预设阈值。

在一种可能的实现方式中，所述处理单元2002，还用于分别确定所述第一地形图中每个区域的采样点的二阶导数矩阵；所述处理单元2002，还用于计算所述二阶导数矩阵的两个特征值，并确定所述两个特征值的绝对值之和，以得到所述第一地形图中每个区域的崎岖程度。

接下来介绍本申请实施例提供的一种执行设备，请参阅图21，图21为本申请实施例提供的执行设备的一种结构示意图，执行设备2100具体可以表现为手机、平板、笔记本电脑、智能穿戴设备、服务器等，此处不做限定。其中，执行设备2100上可以部署有图21对应实施例中所描述的数据处理装置，用于实现图21对应实施例中数据处理的功能。具体的，执行设备2100包括：接收器2101、发射器2102、处理器2103和存储器2104(其中执行设备2100中的处理器2103的数量可以一个或多个，图21中以一个处理器为例)，其中，处理器2103可以包括应用处理器21031和通信处理器21032。在本申请的一些实施例中，接收器2101、发射器2102、处理器2103和存储器2104可通过总线或其它方式连接。

存储器2104可以包括只读存储器和随机存取存储器，并向处理器2103提供指令和数据。存储器2104的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory，NVRAM)。存储器2104存储有处理器和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。

处理器2103控制执行设备的操作。具体的应用中，执行设备的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器2103中，或者由处理器2103实现。处理器2103可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器2103中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2103可以是通用处理器、数字信号处理器(digital signal processing，DSP)、微处理器或微控制器，还可进一步包括专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器2103可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器2104，处理器2103读取存储器2104中的信息，结合其硬件完成上述方法的步骤。

接收器2101可用于接收输入的数字或字符信息，以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器2102可用于通过第一接口输出数字或字符信息；发射器2102还可用于通过第一接口向磁盘组发送指令，以修改磁盘组中的数据；发射器2102还可以包括显示屏等显示设备。

本申请实施例中，在一种情况下，处理器2103，用于执行图6对应实施例中的执行设备执行的模型超参数的选择方法。

本申请实施例提供的执行设备、训练设备或电子设备具体可以为芯片，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使执行设备内的芯片执行上述实施例描述的模型超参数的选择方法，或者，以使训练设备内的芯片执行上述实施例描述的模型超参数的选择方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

具体的，请参阅图22，图22为本申请实施例提供的芯片的一种结构示意图，所述芯片可以表现为神经网络处理器NPU 2200，NPU 2200作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路2203，通过控制器2204控制运算电路2203提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路2203内部包括多个处理单元(Process Engine,PE)。在一些实现中，运算电路2203是二维脉动阵列。运算电路2203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路2203是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器2202中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器2201中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)2208中。

统一存储器2206用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller，DMAC)2205，DMAC被搬运到权重存储器2202中。输入数据也通过DMAC被搬运到统一存储器2206中。

BIU为Bus Interface Unit即，总线接口单元2213，用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer，IFB)2209的交互。

总线接口单元2213(Bus Interface Unit，简称BIU)，用于取指存储器2209从外部存储器获取指令，还用于存储单元访问控制器2205从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器2206或将权重数据搬运到权重存储器2202中或将输入数据数据搬运到输入存储器2201中。

向量计算单元2207包括多个运算处理单元，在需要的情况下，对运算电路2203的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/全连接层网络计算，如Batch Normalization(批归一化)，像素级求和，对特征平面进行上采样等。

在一些实现中，向量计算单元2207能将经处理的输出的向量存储到统一存储器2206。例如，向量计算单元2207可以将线性函数；或，非线性函数应用到运算电路2203的输出，例如对卷积层提取的特征平面进行线性插值，再例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元2207生成归一化的值、像素级求和的值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路2203的激活输入，例如用于在神经网络中的后续层中的使用。

控制器2204连接的取指存储器(instruction fetch buffer)2209，用于存储控制器2204使用的指令；

统一存储器2206，输入存储器2201，权重存储器2202以及取指存储器2209均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述程序执行的集成电路。

可以参阅图23，图23为本申请实施例提供的一种计算机可读存储介质的结构示意图。本申请还提供了一种计算机可读存储介质，在一些实施例中，上述图6所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。

图23示意性地示出根据这里展示的至少一些实施例而布置的示例计算机可读存储介质的概念性局部视图，示例计算机可读存储介质包括用于在计算设备上执行计算机进程的计算机程序。

在一个实施例中，计算机可读存储介质2300是使用信号承载介质2301来提供的。信号承载介质2301可以包括一个或多个程序指令2302，其当被一个或多个处理器运行时可以提供以上针对图6描述的功能或者部分功能。因此，例如，参考图6中所示的实施例，步骤601-604的一个或多个特征可以由与信号承载介质2301相关联的一个或多个指令来承担。此外，图23中的程序指令2302也描述示例指令。

在一些示例中，信号承载介质2301可以包含计算机可读介质2303,诸如但不限于，硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、ROM或RAM等等。

在一些实施方式中，信号承载介质2301可以包含计算机可记录介质2304，诸如但不限于，存储器、读/写(R/W)CD、R/W DVD、等等。在一些实施方式中，信号承载介质2301可以包含通信介质2305,诸如但不限于，数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路、等等)。因此，例如，信号承载介质2301可以由无线形式的通信介质2305(例如，遵守IEEE 802.23标准或者其它传输协议的无线通信介质)来传达。

一个或多个程序指令2302可以是，例如，计算机可执行指令或者逻辑实施指令。在一些示例中，计算设备的计算设备可以被配置为，响应于通过计算机可读介质2303、计算机可记录介质2304、和/或通信介质2305中的一个或多个传达到计算设备的程序指令2302，提供各种操作、功能、或者动作。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线 (例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

一种模型超参数的选择方法，其特征在于，包括：

获取神经网络模型的多组超参数；

基于所述多组超参数，分别对所述模型进行多次迭代训练，以得到所述模型在训练过程中的多组权重，所述多组权重与所述多组超参数一一对应，所述多组权重中的每组权重包括多次迭代训练得到的权重；

执行多个地形图的绘制，其中，所述多个地形图中的每个地形图基于所述多组权重中的一组绘制，所述多个地形图中的每个地形图均用于表示所述模型的损失函数在训练过程中的变化趋势；

得到目标超参数，所述目标超参数为目标地形图所对应的一组超参数，所述目标超参数用于训练所述模型，所述目标地形图为所述多个地形图中平整程度最高的地形图，所述平整程度用于表示所述模型的损失函数在地形图中的变化程度。
根据权利要求1所述的方法，其特征在于，

所述每个地形图的平整程度与所述多个地形图中每个地形图的面积和等值线长度之和有关，所述多个地形图中的每个地形图均包括相同数量的等值线，所述等值线上的点对应的损失值相同。
根据权利要求1或2所述的方法，其特征在于，所述基于所述多组超参数，分别对所述模型进行训练，包括：

获取训练子集，所述训练子集包括所述模型的训练集中的部分训练数据；

采用所述训练子集，基于所述多组超参数分别对所述模型进行多次迭代训练，以得到所述模型在训练过程中的多组权重，所述多组权重中的每组权重包括所述模型在每次迭代训练后的权重集合。
根据权利要求1-3任意一项所述的方法，其特征在于，所述基于所述多组权重，分别执行地形图的绘制，以得到多个地形图，包括：

对第一组权重进行降维处理，得到作为二维空间中投影方向的两个高维向量，所述第一组权重为所述多组权重中的一组权重，所述第一组权重包括所述模型在每次迭代训练后的权重集合；

基于所述第一组权重和所述两个高维向量，确定第一地形图中的多个采样点所对应的权重，所述多个地形图包括所述第一地形图；

基于所述多个采样点所对应的权重，确定所述模型对应的损失值，以绘制得到第一地形图。
根据权利要求4所述的方法，其特征在于，所述基于所述多个采样点所对应的权重，确定所述模型对应的损失值，包括：

基于所述模型和所述第一地形图中的多个采样点对应的权重，构建得到多个子模型，所述多个子模型与所述多个采样点对应的权重一一对应，所述多个子模型的结构均与所述模型的结构相同；

将相同的训练数据分别输入至所述多个子模型，以得到所述多个采样点对应的损失值。
根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

确定所述第一地形图中每个区域的崎岖程度，所述崎岖程度用于表示每个区域内的等值线的密集程度，所述等值线上的点对应的损失值相同；

根据所述崎岖程度，在所述第一地形图中增加采样点，以更新所述第一地形图；

其中，所述第一地形图中区域的采样点密集程度与所述区域的崎岖程度具有正相关关系。
根据权利要求6所述的方法，其特征在于，所述根据所述崎岖程度，在所述第一地形图中增加采样点，包括：

按照崎岖程度从高到低的顺序，对所述第一地形图中的多个区域进行排序，以得到所述多个区域的排序结果；

基于所述多个区域的排序结果，依次在所述多个区域中增加采样点，直至所增加的采样点的数量达到预设阈值。
根据权利要求6或7所述的方法，其特征在于，所述确定所述第一地形图中每个区域的崎岖程度，包括：

分别确定所述第一地形图中每个区域的采样点的二阶导数矩阵；

计算所述二阶导数矩阵的两个特征值，并确定所述两个特征值的绝对值之和，以得到所述第一地形图中每个区域的崎岖程度。
一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有代码，所述处理器被配置为执行所述代码，当所述代码被执行时，所述电子设备执行如权利要求1至8任意一项所述的方法。
一种计算机存储介质，其特征在于，所述计算机存储介质存储有指令，所述指令在由计算机执行时使得所述计算机实施权利要求1至8任意一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品存储有指令，所述指令在由计算机执行时使得所述计算机实施权利要求1至8任意一项所述的方法。