WO2017107337A1

WO2017107337A1 - 一种基于改进的按位替换法求矩阵三角分解的模块及方法

Info

Publication number: WO2017107337A1
Application number: PCT/CN2016/078460
Authority: WO
Inventors: 张多利; 王浩; 宋宇鲲; 杜高明; 贾靖华
Original assignee: 合肥工业大学
Priority date: 2015-12-22
Filing date: 2016-04-05
Publication date: 2017-06-29
Also published as: CN105608059A; JP6388713B2; JP2018506757A

Abstract

一种基于改进的按位替换法求矩阵三角分解的模块及方法，还提供了利用该模块进行信号处理的设备。该模块包括：边界元素获取单元、内部元素获取单元、上三角矩阵分解单元和下三角矩阵分解单元；边界元素获取单元用于获取待分解矩阵的约化系数矩阵的边界元素；内部元素获取单元用于获得待分解矩阵的约化系数矩阵的内部元素；从而获得约化系数矩阵；上三角矩阵分解单元用于分解待分解矩阵的上三角矩阵；下三角矩阵分解单元用于分解待分解矩阵的下三角矩阵。上述模块及方法在工程应用中能够统一矩阵上、下三角分解的运算形式，优化分解运算的并行性，压缩运算所需存储空间。

Description

一种基于改进的按位替换法求矩阵三角分解的模块及方法

相关申请

本申请主张于2015年12月22日提交的、名称为“一种基于改进的按位替换法求矩阵三角分解的模块”、申请号为201510981481.3的中国发明专利申请的优先权。

技术领域

本发明涉及科学和工程计算领域，尤其涉及一种应用于科学计算或工程计算中的基于改进的按位替换法求矩阵三角分解的新型模块及计算方法。

背景技术

目前，在通信、计算机、图像处理等技术领域均会涉及到科学计算或工程计算，在计算时往往需要利用计算机或其他处理器进行大量的运算操作，这些运算操作的计算速度和精确度也往往是制约相应行业发展的瓶颈。

矩阵运算是科学和工程计算的基础。矩阵简洁直观的表述方式、运算的灵活性和高数值稳定性使矩阵运算成为众多工程项目的关键技术和核心问题。矩阵运算包括矩阵乘法、矩阵分解、矩阵求逆等。其中矩阵分解是矩阵乘法的逆过程，是矩阵求逆的一种简化的求解方式，发展也最为普及。由于分解后的矩阵具有更加明显的数值特征或物理含义，矩阵分解在数值分析和工程领域获得广泛应用。例如在模式识别、数字图像处理和加密、计算流体动力学、信号处理和控制等大规模数据分析领域，矩阵分解算法已经或正在成为核心支撑。如何有效利用资源实现快速大规模矩阵分解运算成为了设计的重点和难点。

目前矩阵分解种类繁多，工程应用中，常用的有QR分解、LU分解、奇异值分解等，结合具体的应用可选择不同的分解方法。其中QR分解可用于任意矩阵的分解，其本质是将任意矩阵A分解成一个正交矩阵Q与一个三角矩阵R的乘积。QR分解经典算法有gram-schmidt法、householder变换法和givens旋转法，采用递推方法，计算复杂度大，流程控制困难，并行性差。LU分解是针对非奇异阵(即矩阵顺序主子式均不为0)的一种矩阵分解方式，它的本质是将矩阵A分解为一个下三角阵L与上三角阵U的乘积。但LU分解采用迭代递推方法交替计算上、下三角阵，同步并行性不强，计算复杂度高，占用存储空间大。奇异值分解是矩阵分析中正规矩阵酉对角化的推广，奇异值分解的本质是将一个复矩阵A分解为两个酉矩阵U、V以及一个对角阵S的乘积。但奇异值分解很难拆成不相关子运算，奇异值分解并行性较差，计算复杂度较高，计算效率、实时性较差。

综上，目前现有的矩阵分解技术在工程应用中仍有一定的局限性，主要归结为以下几点不足：

第一，采用递推迭代方法，串行性要求较高，进行并行运算难度较大，难以满足工程应用中实时性要求。

第二，运算复杂度较高，运算量较大，计算时间较长。

第三，运算空间复杂度较高，占用的存储空间较大，在具体工程应用中资源利用率不高。

发明内容

本发明为避免现有技术的不足之处，提出一种新的基于改进的按位替换法求矩阵三角分解的模块及方法，以期优化工程应用中矩阵分解的设计，降低运算复杂度，压缩存储空间，改善运算的并行性。

本发明为解决技术问题采用如下技术方案：

首先，本发明提供了一种基于改进的按位替换法求矩阵三角分解的模块，其包括：边界元素获取单元、内部元素获取单元、上三角矩阵分解单元和下三角矩阵分解单元；

所述边界元素获取单元用于获得待分解矩阵

的约化系数矩阵N的边界元素；所述待分解矩阵A为满足各阶顺序主子式不为0的M阶方阵；a_ji表示第j行第i列元素；i,j＝1,2,3,…,M；

所述内部元素获取单元用于获得待分解矩阵A的约化系数矩阵N的内部元素；从而获得约化系数矩阵N；

所述上三角矩阵分解单元用于分解待分解矩阵A的上三角矩阵；

所述下三角矩阵分解单元用于分解待分解矩阵A的下三角矩阵。

本发明所述的基于改进的按位替换法求矩阵三角分解的模块的特点也在于：

所述边界元素获取单元根据待分解矩阵A，利用式(1)获得约化系数矩阵N的边界元素n_1i·0和n_j1·0：

所述内部元素获取单元利用式(2)获得约化系数矩阵N的对角元素n_ii·(i-1)：

式(2)中，k＝2,3,…i-1；

所述内部元素获取单元利用式(3)获得约化系数矩阵N的下三角元素n_ji·(i-1)：

式(3)中，i＝2,3,…,M-1；j＝i+1,i+2,…,M；

所述内部元素获取单元利用式(4)获得约化系数矩阵N的上三角元素n_ji·(j-1)：

式(4)中，i＝j+1,j+2,…,M；j＝2,3,…,M-1；

从而获得约化系数矩阵N为：

所述下三角矩阵分解单元根据所述约化系数矩阵N，利用式(5)将所述待分解矩阵A分解为下三角矩阵

所述上三角矩阵分解单元根据所述约化系数矩阵N，利用式(6)将所述待分解矩阵A分解为上三角矩阵

另一方面，本发明提供一种在工程计算中求矩阵三角分解的方法，其特征是，所述方法包括下述步骤：

步骤1、获取待分解矩阵

步骤2、获取待分解矩阵A的约化系数矩阵N的内部元素，从而获得约化系数矩阵N；

步骤3、分解待分解矩阵A的下三角矩阵；

步骤4、分解待分解矩阵A的上三角矩阵。

在一种优选实现方式中，所述步骤1包括利用式(1)获得约化系数矩阵N的边界元素n_1i·0和n_j1·0：

所述步骤2包括：

步骤2.1、利用式(2)获得约化系数矩阵N的对角元素n_ii·(i-1)：

式(2)中，k＝2,3,…i-1；

步骤2.2、利用式(3)获得约化系数矩阵N的下三角元素n_ji·(i-1)：

式(3)中，i＝2,3,…,M-1；j＝i+1,i+2,…,M；

步骤2.3、利用式(4)获得约化系数矩阵N的上三角元素n_ji·(j-1)：

式(4)中，i＝j+1,j+2,…,M；j＝2,3,…,M-1；

从而获得约化系数矩阵N为：

所述步骤3包括根据所述约化系数矩阵N，利用式(5)将所述待分解矩阵A分解为下三角矩阵

所述步骤4包括根据所述约化系数矩阵N，利用式(6)将所述待分解矩阵A分解为上三角矩阵

另一方面，本发明提供一种数字信号处理设备，其特征在于，所述数字信号处理设备包括信号接收装置、数据运算装置以及信号输出装置，所述数据运算装置包括上述的基于改进的按位替换法求矩阵三角分解的模块，并且当所述数据运算装置在数字信号处理过程中需要对矩阵进行三角分解时，所述数据运算装置调用所述基于改进的按位替换法求矩阵三角分解的模块对待分解的矩阵进行三角分解运算。

在一种优选实现方式中，所述信号处理设备用于对通信信号或图像信号进行处理。

在另一种优选实现方式中，所述数字信号处理设备采用基于FPGA的硬件电路实现方式，用于进行空间飞行器平台的剩余使用寿命预测等信息处理应用。

在另一种优选实现方式中，所述数字信号处理设备采用软件编程的实现方式，用于对数字图像信号进行处理和加密，如数字水印等应用。

与已有技术相比，本发明有益效果体现在：

1、本发明提出的矩阵分解模块，在基于原按位替换法进行矩阵三角分解算法的基础上，对其算法进行了修正和改进，产生了改进的高效矩阵分解算法。本发明提出的矩阵分解模块基于改进的按位替换矩阵分解算法，不仅拓宽了运算适用范围，且大大简化了运算过程，使运算复杂度更低。

2、本发明提出的矩阵分解模块，在整个运算过程中，只有在内部元素获取单元、下三角矩阵分解单元中和上三角矩阵分解单元中，需要对约化系数矩阵的对角元素做开方或倒数(除法)，整个分解模块的其余部分只涉及简单的乘加运算过程，避免了现有技术中大量的开方、平方、求范数、除法等运算，简化了运算过程。且上、下三角分解单元运算形式相同，便于软件编程和硬件设计，降低设计平台的运算资源和存储资源消耗。

3、本发明提出的矩阵分解模块，通过在边界元素获取单元和内部元素获取单元中获取并创建约化系数矩阵，分解了串行迭代过程，使得在获取约化系数矩阵元素的同时，上三角矩阵分解单元和下三角矩阵分解单元内部可以由前级得到的约化系数矩阵元素，同步并行求解上、下三角矩阵元素，克服了现有矩阵分解技术中，由于采用迭代串行运算交替计算上、下三角矩阵元素导致的可并行性不强的问题。

4、本发明提出的矩阵分解模块，基于按位替换的方法，使得整个模块除输入待分解矩阵所占用的存储空间外，无需占用额外的存储空间。现有矩阵分解技术，由于要占用大量的存储空间，从而在超大规模矩阵分解的工程应用中具有一定的局限性，本发明正是解决了这一问题。

5、本发明提出的矩阵分解模块，各单元内部运算过程的运算复杂度较低，且各单元内部可按上、下三角并行独立执行运算过程。对于工程应用中固定阶数为M的矩阵分解模块，通过补0的方式，可扩展实现M阶以内任意阶的非奇异矩阵分解。解决了现有软/硬件工程设计中，固定阶数的分解模块可扩展性不强的问题(现有技术方案中，如Matlab自带的分解函数和固定分解阶数M的FPGA电路模块，由于需要严格根据运算条件，补0则无法运算，因此扩展性不强)。

具体实施方式

实施例1

本实施例中的基于改进的按位替换法求矩阵三角分解的模块包括：边界元素获取单元、内部元素获取单元、上三角矩阵分解单元和下三角矩阵分解单元；其分解思路是：1根据给定的待分解矩阵，求其约化系数矩阵的边界元素；2根据待分解矩阵和其约化系数矩阵的边界元素，求其约化系数矩阵的内部元素；3根据约化系数矩阵，将待分解矩阵分解为上三角矩阵和下三角矩阵，从而完成整个矩阵的分解；具体的说，

边界元素获取单元用于获得待分解矩阵

的约化系数矩阵N的边界元素；待分解矩阵A为满足各阶顺序主子式不为0的M阶方阵；a_ji表示第j行第i列元素；i,j＝1,2,3,…,M；在本实施例中，采用Matlab创建的待分解矩阵A为随机产生的各阶顺序主子式不为0的8阶方阵：

具体的说，边界元素获取单元是根据待分解矩阵A利用式(1)获得约化系数矩阵N的边界元素n_1i·0和n_j1·0：

在本实施例中，边界元素获取单元是根据输入的待分解矩阵A利用式(1)得到约化系数矩阵N的边界元素，如式(1.1)所示：

内部元素获取单元用于获得待分解矩阵A的约化系数矩阵N的内部元素；从而获得约化系数矩阵N；

具体的说，内部元素获取单元先利用式(2)获得约化系数矩阵N的对角元素n_ii·(i-1)：

式(2)中，k＝2,3,…i-1；

在本实施例中，内部元素获取单元利用式(2)获得约化系数矩阵的对角元素，如式(2.1)所示：

内部元素获取单元再利用式(3)获得约化系数矩阵N的下三角元素n_ji·(i-1)：

式(3)中，i＝2,3,…,M-1；j＝i+1,i+2,…,M；

在本实施例中，内部元素获取单元利用式(3)获得约化系数矩阵的下三角元素，如式(3.1)所示：

内部元素获取单元最后利用式(4)获得约化系数矩阵N的上三角元素n_ji·(j-1)：

式(4)中，i＝j+1,j+2,…,M；j＝2,3,…,M-1；

在本实施例中，内部元素获取单元利用式(4)获得约化系数矩阵的上三角元素，如式(4.1)所示：

从而获得约化系数矩阵N为：

在本实施例中，获得的约化系数矩阵N为：

上三角矩阵分解单元用于分解待分解矩阵A的上三角矩阵；

具体的说，上三角矩阵分解单元根据约化系数矩阵N，利用式(5)将待分解矩阵A分解为下三角矩阵

在本实施例中，上三角矩阵分解单元根据式(4.1)，利用式(5)将待分解矩阵A分解为下三角矩阵L，如式(5.1)所示：

下三角矩阵分解单元用于分解待分解矩阵A的下三角矩阵；

具体的说，下三角矩阵分解单元根据约化系数矩阵N，利用式(6)将待分解矩阵A分解为上三角矩阵

在本实施例中，下三角矩阵分解单元，根据式(4.1)，利用式(6)将待分解矩阵A分解为上三角矩阵R，如式(6.1)所示：

为了验证本专利中提出的矩阵分解模块的效果，随机选取多组阶数M不同、矩阵元素取值范围不同的矩阵，作为待分解样本矩阵输入该新型矩阵三角分解模块中进行矩阵分解实验。为了客观的评价本专利提出的矩阵分解模块的性能，将采用本专利分解模块分解后的三角矩阵乘积结果和原待分解样本矩阵进行对比，采用式(7)来计算获得最大绝对误差ε，并对不同实验条件下的结果进行了评测，具体结果如下表1所示：

ε＝Max(|A-D|),D＝L·R (7)

表1 不同矩阵分解实验误差结果

表1中，实验随机选取了8阶、64阶、1024阶三种规模样本矩阵，每种规模矩阵元素范围分别为(-1，1)、(-20，20)、(-1000，1000)，每种条件随机选取四组不同的样本矩阵进行测试，由表中最大误差结果数据可知，采用本专利提出的矩阵分解模块分解后的三角矩阵相乘结果和原待分解样本矩阵非常接近，绝对误差和相对误差均较小，具有较高的运算精度，采用本专利提出的分解模块进行分解有效。

此外，由实施例运算过程可知，本专利提出的分解模块，在进行分解时，先由约化系数矩阵元素替换对应位的原矩阵元素，再由分解后的三角矩阵元素替换对应位的约化系数矩阵元素，整个过程均为原位替换，不需额外占用存储空间。并且模块中各单元内部运算过程简单，且各单元同步可并行度很高，并行工程设计中压缩了分解运算用时。从而可知，本专利提出的矩阵分解模块具有较高的效率，采用的分解算法不仅运算精度较高，并且运算复杂度低、并行性和可扩展性强、节省存储空间，具有非常好的理论和工程应用价值。

实施例2

在本实施例中，提供了一种在工程计算中求矩阵三角分解的方法。需要说明的是，在本实施例中，该方法中所用的公式与实施例1相同，因此，这里基于实施例1中的公式简要介绍该方法。

该方法包括下述步骤：

步骤1、获取待分解矩阵

的约化系数矩阵N的边界元素；该待分解矩阵A为满足各阶顺序主子式不为0的M阶方阵；a_ji表示第j行第i列元素；i,j＝1,2,3,…,M，该步骤包括利用实施例1中的式(1)获得约化系数矩阵N的边界元素n_1i·0和n_j1·0；

步骤2、获取待分解矩阵A的约化系数矩阵N的内部元素，从而获得约化系数矩阵N，其具体包括：

步骤2.1、利用实施例1中的式(2)获得约化系数矩阵N的对角元素n_ii·(i-1)；

步骤2.2、利用实施例1中的式(3)获得约化系数矩阵N的下三角元素n_ji·(i-1)；

步骤2.3、利用实施例1中的式(4)获得约化系数矩阵N的上三角元素n_ji·(j-1)；从而获得约化系数矩阵N；

步骤3、利用实施例1中的式(5)将所述待分解矩阵A分解为下三角矩阵；

步骤4、利用实施例1中的式(6)将所述待分解矩阵A分解为上三角矩阵。

实施例3

在本实施例中，本发明提供一种数字信号处理设备，该数字信号处理设备包括信号接收装置、数据运算装置以及信号输出装置，所述数据运算装置可以根据具体的应用平台，采用软件编程等软件方式实现，或采用基于FPGA的电路模块等硬件方式实现。数据运算装置包括实施例1中的基于改进的按位替换法求矩阵三角分解的模块，并且当数据运算装置在信号处理过程中需要对矩阵进行三角分解时，数据运算装置调用实施例1中的基于改进的按位替换法求矩阵三角分解的模块，对待分解的矩阵进行三角分解运算。

该数字信号处理设备可以应用在信号处理相关领域中，用于对通信信号或图像信号以及其他涉及到矩阵运算的信号进行处理。例如，将其应用于信息安全中数字水印技术中的水印嵌入环节，对信息进行加密。将其应用于图像处理领域，用于鉴别数字图像的细微差别。或将其应用于空间飞行器平台的剩余使用寿命预测。

所述数字信号处理设备包括下述工作步骤：

步骤1、所述数字信号处理设备在接收到数据处理请求信息后，对数据处理请求信息进行解析，并利用信号接收装置由外部接收待处理的数字信号作为待分解矩阵

步骤2、所述数字信号处理设备的数据运算装置从信号接收装置中读取并存储待分解矩阵A，待数据存储完毕后，根据解析后的处理请求，配置启动矩阵三角分解运算，其具体步骤包括：

步骤2.1、利用实施例1中的式(1)获得所述待分解矩阵A的约化系数矩阵N的边界元素n_1i·0和n_j1·0；

步骤2.2、利用实施例1中的式(2)、式(3)和式(4)执行运算，获得约化系数矩阵N的内部元素；

步骤2.3、利用实施例1中的式(5)和式(6)并行执行运算，将待分解矩阵A分解为下三角矩阵和上三角矩阵；

步骤3、待分解运算完成后，所述数据运算装置将矩阵分解结果传输到所述信号输出装置；

步骤4、所述信号输出装置根据解析后的数据处理请求要求，对矩阵分解结果数据进行处理，并输出到所述数字信号处理设备外部，完成所述数字信号处理设备与外部的通信。

Claims

一种基于改进的按位替换法求矩阵三角分解的模块，其特征是包括：边界元素获取单元、内部元素获取单元、上三角矩阵分解单元和下三角矩阵分解单元；

所述边界元素获取单元用于获得待分解矩阵
的约化系数矩阵N的边界元素；所述待分解矩阵A为满足各阶顺序主子式不为0的M阶方阵；a_ji表示第j行第i列元素；i,j＝1,2,3,…,M；

所述内部元素获取单元用于获得待分解矩阵A的约化系数矩阵N的内部元素；从而获得约化系数矩阵N；

所述上三角矩阵分解单元用于分解待分解矩阵A的上三角矩阵；

所述下三角矩阵分解单元用于分解待分解矩阵A的下三角矩阵。
根据权利要求1所述的基于改进的按位替换法求矩阵三角分解的模块，其特征是：

所述边界元素获取单元根据待分解矩阵A，利用式(1)获得约化系数矩阵N的边界元素n_1i·0和n_j1·0：

所述内部元素获取单元利用式(2)获得约化系数矩阵N的对角元素n_ii·(i-1)：

式(2)中，k＝2,3,…i-1；

所述内部元素获取单元利用式(3)获得约化系数矩阵N的下三角元素n_ji·(i-1)：

式(3)中，i＝2,3,…,M-1；j＝i+1,i+2,…,M；

所述内部元素获取单元利用式(4)获得约化系数矩阵N的上三角元素n_ji·(j-1)：

式(4)中，i＝j+1,j+2,…,M；j＝2,3,…,M-1；

从而获得约化系数矩阵N为：

所述下三角矩阵分解单元根据所述约化系数矩阵N，利用式(5)将所述待分解矩阵A分解为下三角矩阵

l_ji＝0,j＝1,2,…,M-1；i＝j+1,j+2,…,M

所述上三角矩阵分解单元根据所述约化系数矩阵N，利用式(6)将所述待分解矩阵A分解为上三角矩阵

r_ji＝0,i＝1,2,…,M-1；j＝i+1,i+2,…,M
一种在工程计算中求矩阵三角分解的方法，其特征是，所述方法包括下述步骤：

步骤1、获取待分解矩阵
的约化系数矩阵N的边界元素；所述待分解矩阵A为满足各阶顺序主子式不为0的M阶方阵；a_ji表示第j行第i列元素；i,j＝1,2,3,…,M；

步骤2、获取待分解矩阵A的约化系数矩阵N的内部元素，从而获得约化系数矩阵N；

步骤3、分解待分解矩阵A的上三角矩阵；

步骤4、分解待分解矩阵A的下三角矩阵。
根据权利要求3所述的在工程计算中求矩阵三角分解的方法，其特征是：

所述步骤1包括利用式(1)获得约化系数矩阵N的边界元素n_1i·0和n_j1·0：

所述步骤2包括：

步骤2.1、利用式(2)获得约化系数矩阵N的对角元素n_ii·(i-1)：

式(2)中，k＝2,3,…i-1；

步骤2.2、利用式(3)获得约化系数矩阵N的下三角元素n_ji·(i-1)：

式(3)中，i＝2,3,…,M-1；j＝i+1,i+2,…,M；

步骤2.3、利用式(4)获得约化系数矩阵N的上三角元素n_ji·(j-1)：

式(4)中，i＝j+1,j+2,…,M；j＝2,3,…,M-1；

从而获得约化系数矩阵N为：

所述步骤4包括根据所述约化系数矩阵N，利用式(5)将所述待分解矩阵A分解为下三角矩阵

l_ji＝0,j＝1,2,…,M-1；i＝j+1,j+2,…,M

所述步骤3包括根据所述约化系数矩阵N，利用式(6)将所述待分解矩阵A分解为上三角矩阵

r_ji＝0,i＝1,2,…,M-1；j＝i+1,i+2,…,M
一种数字信号处理设备，其特征在于，所述数字信号处理设备包括信号接收装置、数据运算装置以及信号输出装置，所述数据运算装置包括根据权利要求1或2所述的基于改进的按位替换法求矩阵三角分解的模块，并且当所述数据运算装置在信号处理过程中需要对矩阵进行三角分解时，所述数据运算装置调用所述基于改进的按位替换法求矩阵三角分解的模块，利用权利要求3或4所述的方法对待分解的矩阵进行三角分解。
根据权利要求5所述的数字信号处理设备，其特征在于，所述数字信号处理设备用于对通信信号或图像信号进行处理。
根据权利要求5所述的数字信号处理设备，其特征在于，所述数据运算装置为基于FPGA的电路模块。