WO2023151201A1

WO2023151201A1 - 一种快速灵活全纯嵌入式神经网络广域寻优训练方法

Info

Publication number: WO2023151201A1
Application number: PCT/CN2022/094901
Authority: WO
Inventors: 汪涛; 谭洪宇; 高子雄; 何晓斌
Original assignee: 中山大学
Priority date: 2022-02-10
Filing date: 2022-05-25
Publication date: 2023-08-17
Also published as: CN114548400A

Abstract

本发明提供了一种快速灵活全纯嵌入式神经网络广域寻优训练方法，具体步骤为：步骤1，确定需要求解的微分方程，在定义域内采样获得训练数据和测试数据；步骤2，构建神经网络模型，嵌入基于分段有理逼近的激活函数层；步骤3，调整超参数，训练神经网络模型；步骤4，进行模型预测，预测结果若满足要求，则模型训练成功，结束训练；否则返回步骤3。本发明使用分段有理逼近方法构造的激活函数，在训练时间和训练精度上都要优于一般的激活函数，为快速准确地解决实际工程计算任务涉及到的高维偏微分方程问题提供了强有力的解决方案。

Description

一种快速灵活全纯嵌入式神经网络广域寻优训练方法

技术领域

本发明涉及到信息科学和工程计算技术领域，具体的说是一种快速灵活全纯嵌入式神经网络广域寻优训练方法。

背景技术

偏微分方程被广泛地应用到自然科学的各个领域和工程应用，比如油气勘探、桥梁设计、机械制造。但在一些复杂的场景下，很难有解析解。所以更加常用的是数值方法，比如有限差分、有限元、有限体等传统方法。但是传统方法需要将区域剖分成若干网格单元来近似偏微分方程的求解空间，当维度非常高时网格数量巨大，为此计算代价非常大。而使用神经网络(Neural Networks，NN)求解偏微分方程，不必进行网格划分而是在空间内进行随机采样作为模型的输入，从而避免了维度灾难。

在过去的十年中，深度神经网络(DNNs)已经发展成为机器学习的基础技术和关键工具。研究发现，在图像分类、语音识别、图像分割和医学成像等许多实际应用中，它们的性能优于传统的统计学习技术(如核方法、支持向量机、随机森林)。

神经网络是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。神经网络具有如下四个基本特征：

(i).非线性：非线性关系是自然界的普遍特性。大脑的智慧就是一种非线性现象。人工神经元处于激活或抑制二种不同的状态，这种行为在数学上表现为一种非线性关系。具有阈值的神经元构成的网络具有更好的性能，可以提高容错性和存储容量。

(ii).非局限性：一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征，而且可能主要由单元之间的相互作用、相互连接所决定。通过单元间的大量连接模拟大脑的非局限性。联想记忆是非局限性的典型例子。

(iii).非常定性：人工神经网络具有自适应、自组织、自学习能力。神经网络不但处理的信息可以有各种变化，而且在处理信息的同时，非线性动力系统本身也在不断变化。经常采用迭代过程描述动态或时变系统的演化过程。

(iv).非凸性：一个系统的演化方向，在一定条件下将取决于某个特定的状态函数。例如能量函数，它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值，故系统具有多个较稳定的平衡态，这将导致系统演化的多样性。

激活函数对于人工神经网络模型在学习和理解复杂的变化规律时(通常是高度非线性的)具有十分重要的作用。它们将非线性特性引入到网络中。在神经元中，输入通过加权、求和、被作用在一个函数上，这个函数就是激活函数。激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

技术问题

激活函数的选择现在还没有许多明确的指导性理论原则，通常的选择有ReLu函数、Sigmoid函数和双曲正切函数。现有的激活函数往往是上面三种函数之一或者这三种函数的变种(比如带一到两个可训练的参数)。这三种激活函数的优缺点在于：

(i).ReLu函数是现代神经网络中最常用的激活函数，大多数前馈神经网络默认使用的激活函数。它的优点是算法收敛较快，同时在x＞0的区域上不会出现梯度饱和、梯度消失等问题；另外，其缺点也是明显的，包括：在负数区域ReLu函数恒为零从而导致的神经元坏死的现象，此时该神经元的以及这个神经元之后的梯度永远为零，在该训练轮次内无法再进行更新；同时因为ReLu函数在正数和负数区域内的二阶导数以及更高阶导数都是零，所以在某些特殊的应用(比如使用神经网络求解微分方程)上会导致神经网络模型得不到有效的训练。

(ii).Sigmoid函数的优点在于函数的输出在(0,1)之间，优化稳定，也是连续函数且方便求导；缺点在于函数在变量取绝对值非常大时会出现饱和现象，从而对输入和输出不敏感。

(iii).双曲正切函数可以看做是Sigmoid函数的变形，仍然存在梯度饱和的问题。

因此，有必要提出一种表达能力强、光滑性好且便于计算的快速灵活全纯嵌入式神经网络广域寻优训练方法。

技术解决方案

为了达到上述目的，本发明是通过以下技术方案来实现的：

本发明是一种快速灵活全纯嵌入式神经网络广域寻优训练方法，包括如下步骤：

步骤1，确定需要求解的微分方程，在定义域内采样获得训练数据和测试数据；

步骤2，构建神经网络模型，嵌入基于分段有理逼近的激活函数层；

步骤3，调整超参数，训练神经网络模型；

步骤4，进行模型预测，预测结果若满足要求，则模型训练成功，结束训练；否则返回步骤3。

本发明的进一步改进在于：步骤1中微分方程为Burgers方程。

本发明的进一步改进在于：步骤2构建的神经网络模型包括输入层、四个全连接层、四个激活函数层和输出层。

本发明的进一步改进在于：步骤2中的分段有理逼近的激活函数的构造如下：

假设在某个点x ₀处使用单点帕德近似方法逼近函数f(x)，单点帕德近似函数形式如下：

其中p _k和q _k是需要求出的系数，L表示分子中x的最高阶次，M表示在分母中的x最高阶次。当L+M为常数时，取L＝M时，分子与分母通过以下方式求解。设L＝M＝n,首先求解线性方程Aq＝b,得到(q ₁,q ₂,q ₃,…,q _n)的值，其中：

通过下式求出(p ₀,p ₁,p ₂,…,p _n)的值：

多点帕德逼近则是单点帕德逼近的推广形式。设被逼近函数f(x)，如果在n+1个插值点x ₀,x ₁,x ₂,…,x _n处已知其函数值，则有有理分式：

其中L+M＝n，u ^[L/M](x)是最高阶次为L的多项式，v ^[L/M](x)是最高阶次为M的多项式：

这里，u ^[L/M](x)与v ^[L/M](x)是需要通过均差构造的多项式函数；

首先，f(x)的均差定义如下：

令f _i,j为f[x _i,x _i+1,…,x _j],j≥i；则，u ^[L/M](x)可通过以下方式计算：

同时，v ^[L/M](x)可通过以下方式计算：

本发明使用的分段帕德逼近是通过给出各个插值点、插值点处的函数值和从一阶到m阶的导数值，基于多点帕德逼近来构造各分段，是多点帕德逼近的一种特殊形式，构造方式如下。

设被逼近函数为f(x)，且在n+1个插值点x ₀,x ₁,x ₂,…,x _n处已知：

其中

表示在x _i处f(x)的τ阶导数值；

任取一段区间[x _k,x _k+1]，构造帕德逼近表达式：

其中L+M+1＝n，

和

的表达形式已在公式(8)与(9)中给出。其具体计算过程需要考虑2m+2个点构成的等价集合：

根据公式(8)和公式(9)，均差f _i,j＝f[z _i,z _i+1,…,z _j],0≤i≤j≤2m+1；

由均差的性质和公式(10)得出：

当0≤i≤m且m+1≤j≤2m+1时,有递推公式如下：

当i+1≥m+1时，根据公式(14)直接求出；

当j-1≤m时，根据公式(13)直接求出；

把求得的f _i,j带入到公式(8)和公式(9)中，即求出

和

进而求出

由分段帕德逼近构造的函数r ^L/M(x)表示为：

本发明的进一步改进在于：步骤3中设训练轮次为N，训练步骤如下：

步骤3.1，将训练数据输入到神经网络中，执行步骤3.2；

步骤3.2，模块内数据正向传播，数据H _n×m输入到激活函数层，执行下一步；

步骤3.3，由激活函数层的超参数x ₀,x ₁,x ₂,…,x _n和可训练参数

分别作为插值点和零阶到m阶的导数值，根据公式(10)-(16)，求出分段函数

构成分段激活函数r ^[L/M](x)；

步骤3.4，数据H _n×m经过激活函数后r ^[L/M](x)，得到输出Z _n×m，表示为：

得到输出Z _n×m；

步骤3.5，数据继续正向传播，直至遇到下一个激活函数层，跳到步骤3.3，否则，执行步骤3.6；

步骤3.6，得到训练结果，计算损失函数的值，由框架自动进行反向传播、更新神经网络权重和可训练参数；若当前轮次小于等于N，新取一批训练数据，跳转至步骤3.2；否则模型训练流程结束。

本发明的进一步改进在于：步骤4中进行模型预测，预测结果若满足要求，则模型训练成功，结束训练；否则返回步骤3。

有益效果

本发明根据快速灵活全纯嵌入(FFHE)的思想，提出了基于分段有理逼近的激活函数。首先初始化函数点、函数值以及各阶导数值，再利用分段有理逼近的方法构造分段激活函数。其优点如下：

(i).表达能力更强：分段函数的表达能力比普通函数更强，拥有坚实的理论基础。现有文献已证明，在Lipschitz条件下，通过引入一个边界将逐点非线性的性质与网络的全局Lipschitz常数联系起来，然后利用该边界做正则化可以导出一个表示定理，它表明最优构型是由一个深度样条网络实现的，其中每个激活函数都是一个自带适应节点的分段线性样条函数。

(ii).光滑性更佳：ReLu函数、PReLu函数和分段线性样条等其他常用激活函数都只是分段一阶可导的，这在某些场景下受到了限制，比如用神经网络求解微分方程往往需要求网络输出对输入的二阶导数甚至更高阶导数，只是一阶可导的激活函数会导致梯度为零而无法有效地更新参数，而本发明设计的分段有理激活函数拥有连续的高阶导数且可有效地更新参数。

(iii).更加灵活且易于计算：基于分段有理逼近的激活函数，通过设置初始化函数点、函数值以及各阶导数，把函数值和各阶导数值作为可以随着神经网络训练而调整的参数，这些参数的自适应调整使神经网络的反向传播向着最陡峭的方向更新，比其他激活函数需要更少的轮次便可达到预期的精度。

附图说明

图1是本发明流程示意图。

图2是基于分段有理逼近激活函数的神经网络模型训练流程图。

图3是本发明的神经网络模型结构示意图。

图4是PINNs模型结构示意图。

图5是LeakyReLu、ReLu、Tanh和FFHE激活函数训练曲线图。

本发明的实施方式

以下将结合附图详细描述本发明的实施方式，为明确说明起见，许多实施的细节将在以下叙述中一并说明。然而，应了解到，这些实施上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实施上的细节是非必要的。

如图1-3所示，本发明是一种快速灵活全纯嵌入式神经网络广域寻优训练方法，包括如下步骤：

步骤3，调整超参数，训练神经网络模型；

步骤1需要求解的微分方程为Burgers方程，Burgers方程对于很多物理问题来说，是一个非常有用的数学模型，比如激波、浅水波问题和交通流动力学等问题，是描述物理世界扩散现象的重要数学模型。它是一个模拟冲击波的传播和反射的非线性偏微分方程，其定义如下：

u _t+uu _x-(0.01/π)u _xx＝0,x∈[-1,1],t∈[0,1],

u(0,x)＝-sin(πx),

u(t,-1)＝u(t,1)＝0.

该方程是一个时变、z状态空间一维、有初值条件和边界条件的偏微分方程。

步骤2中采用的是PINNs模型，该模型的大致结构如图4所示，以微分方程的自变量x,t作为输入，因变量u作为输出。图中NN(x,t；θ)表示为全连接神经网络，θ是神经网络隐藏层的权重。图中PDE(λ)部分，表示在该神经网络模型中损失函数的构成。PINNs的损失函数分为两个部分：一块是初始条件和边界部分，一块是方程等式本身。

以Burgers方程为例，设边界和初值上采样个数为N _u，在边界内采样个数为N _f。损失函数的第一个部分是计算模型的输出在初始和边界条件上的MSE：

损失函数的第二个部分是计算模型的输出在方程上的MSE：

设

γ＝u _t+uu _x-(0.01/π)u _xx.

则有：

最终的损失函数为二者之和：

MSE＝MSE _u+MSE _f.

如图3所示，本发明中，PINNs的全连接神经网络，共有四个隐藏层，每层有20个神经元。在边界内和初值上采样得到25600个(x,t)数据对，在所有数据中再采用拉丁超立方采样方法，于边界内得到10000个(x,t)数据对、在边界和初值上得到100个(x,t)数据对，总共10100个数据对作为模型的训练数据。其余(x,t)数据对作为模型的测试数据。

本发明每个全连接隐藏层后接基于分段有理逼近的激活函数层，每个激活函数层有六个可训练参数，在每个激活函数层部分，都有n+1个超参数x ₀,x ₁,x ₂,…,x _n代表插值点，(m+1)(n+1)个可训练参数

代表从零阶到m阶的导数值。

本发明根据快速灵活全纯嵌入(FFHE)的思想，结合分段有理逼近相关的数学知识，设计了激活函数。其中，帕德近似是构造有理函数逼近的一种方法，帕德近似往往比截断的泰勒级数更准确；而且，即使当泰勒级数不收敛的情况，帕德近似往往也可收敛。另外，在构造插值函数时，为了避免产生高次多项式带来的龙格现象，通常采用分段插值的手法，即插值结果仅取决于周围少数几个点，最终形成复合分段函数。

步骤2中基于分段有理逼近的激活函数构造过程为：

该部分已说明，详见公式(10)-(16)

步骤3中设最大训练轮次为N，训练神经网络模型的具体步骤如下：

步骤3.1，将训练数据输入到神经网络中，执行步骤3.2；

构成分段激活函数r ^[L/M](x)；

步骤4.4，数据H _n×m经过激活函数后r ^[L/M](x)，得到输出Z _n×m，表示为：

得到输出Z _n×m；

步骤4中进行模型预测，预测结果若满足要求，则模型训练成功，结束训练；否则返回步骤3。

训练7000轮，学习率设置为0.002。LeakyReLu激活函数和ReLu激活函数的训练效果最差，图5中对应的训练曲线是最上面两条几乎重合的曲线。分段帕德逼近构造的激活函数每百轮的平均训练时间为4.307s，Tanh函数每百轮的平均训练时间为3.532s；分段帕德逼近构造的激活函数在第1500轮训练误差就达到了9.4067E-04，而Tanh函数训练到7000轮才刚刚将训练误差降到9.1780E-04。也就是说，使用FFHE方法只需经过Tanh所需的训练轮次的五分之一左右，便可将其误差降到同等水平；如果都训练7000轮，那么FFHE方法所得结果比使用Tanh所得结果的精度提高超过两个数量级(100倍)。由此可见,本发明使用FFHE(分段帕德逼近)方法构造的激活函数，在训练时间和训练精度上都要优于一般的激活函数。为此，本发明为快速准确地解决实际工程计算任务涉及到的高维偏微分方程问题提供了强有力的解决方案。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

一种快速灵活全纯嵌入式神经网络广域寻优训练方法，其特征在于：包括如下步骤：

步骤1，确定需要求解的微分方程，在定义域内采样获得训练数据和测试数据；

步骤2，构建神经网络模型，嵌入基于分段有理逼近的激活函数层；

步骤3，调整超参数，训练神经网络模型；

步骤4，进行模型预测，预测结果若满足要求，则模型训练成功，结束训练；否则返回步骤3。
根据权利要求1所述一种快速灵活全纯嵌入式神经网络广域寻优训练方法，其特征在于：步骤1中微分方程为Burgers方程。
根据权利要求1所述一种快速灵活全纯嵌入式神经网络广域寻优训练方法，其特征在于：步骤2构建的神经网络模型包括输入层、四个全连接层、四个激活函数层和输出层。
根据权利要求1所述一种快速灵活全纯嵌入式神经网络广域寻优训练方法，其特征在于：步骤2中的分段有理逼近的激活函数的构造如下：

假设在某个点x ₀处使用单点帕德近似方法逼近函数f(x)，单点帕德近似函数形式如下：

其中p _k和q _k是需要求出的系数，L表示分子中x的最高阶次，M表示在分母中的x最高阶次。当L+M为常数时，取L＝M时，分子与分母通过以下方式求解。设L＝M＝n,首先求解线性方程Aq＝b,得到(q ₁,q ₂,q ₃,…,q _n)的值，其中：

通过下式求出(p ₀,p ₁,p ₂,…,p _n)的值：

多点帕德逼近则是单点帕德逼近的推广形式。设被逼近函数f(x)，如果在n+1个插值点x ₀,x ₁,x ₂,…,x _n处已知其函数值，则有有理分式：

其中L+M＝n，u ^[L/M](x)是最高阶次为L的多项式，v ^[L/M](x)是最高阶次为M的多项式：

这里，u ^[L/M](x)与v ^[L/M](x)是需要通过均差构造的多项式函数；

首先，f(x)的均差定义如下：

令f _i,j为f[x _i,x _i+1,…,x _j],j≥i；则，u ^[L/M](x)可通过以下方式计算：

同时，v ^[L/M](x)可通过以下方式计算：

本发明使用的分段帕德逼近是通过给出各个插值点、插值点处的函数值和从一阶到m阶的导数值，基于多点帕德逼近来构造各分段，是多点帕德逼近的一种特殊形式，构造方式如下。

设被逼近函数为f(x)，且在n+1个插值点x ₀,x ₁,x ₂,…,x _n处已知：

其中
表示在x _i处f(x)的τ阶导数值；

任取一段区间[x _k,x _k+1]，构造帕德逼近表达式：

其中L+M+1＝n，
和
的表达形式已在公式(8)与(9)中给出。其具体计算过程需要考虑2m+2个点构成的等价集合：

根据公式(8)和公式(9)，均差f _i,j＝f[z _i,z _i+1,…,z _j],0≤i≤j≤2m+1；

由均差的性质和公式(10)得出：

当0≤i≤m且m+1≤j≤2m+1时,有递推公式如下：

当i+1≥m+1时，根据公式(14)直接求出；

当j-1≤m时，根据公式(13)直接求出；

把求得的f _i,j带入到公式(8)和公式(9)中，即求出
和
进而求出
由分段帕德逼近构造的函数r ^L/M(x)表示为：
根据权利要求1所述一种快速灵活全纯嵌入式神经网络广域寻优训练方法，其特征在于：步骤3中设训练轮次为N，训练步骤如下：

步骤3.1，将训练数据输入到神经网络中，执行步骤3.2；

步骤3.2，模块内数据正向传播，数据H _n×m输入到激活函数层，执行下一步；步骤3.3，由激活函数层的超参数x ₀,x ₁,x ₂,…,x _n和可训练参数

分别作为插值点和零阶到m阶的导数值，根据公式(10)-(16)，求出分段函数
构成分段激活函数r ^[L/M](x)；

步骤3.4，数据H _n×m经过激活函数后r ^[L/M](x)，得到输出Z _n×m，表示为：

得到输出Z _n×m；

步骤3.5，数据继续正向传播，直至遇到下一个激活函数层，跳到步骤3.3，否则，执行步骤3.6；

步骤3.6，得到训练结果，计算损失函数的值，由框架自动进行反向传播、更新神经网络权重和可训练参数；若当前轮次小于等于N，新取一批训练数据，跳转至步骤3.2；否则模型训练流程结束。
根据权利要求1所述一种快速灵活全纯嵌入式神经网络广域寻优训练方法，其特征在于：步骤4中进行模型预测，预测结果若满足要求，则模型训练成功，结束训练；否则返回步骤3。