WO2018232615A1

WO2018232615A1 - 一种信号处理方法及装置

Info

Publication number: WO2018232615A1
Application number: PCT/CN2017/089302
Authority: WO
Inventors: 许若圣
Original assignee: 华为技术有限公司
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2018-12-27
Also published as: CN110998610A; CN110998610B

Abstract

一种信号处理方法及装置，其中方法包括：获取至少两个实数输入信号矩阵；将所述至少两个实数输入信号矩阵拼接为复数输入信号矩阵；获取所述复数输入信号矩阵的复数卷积核矩阵；对所述复数输入信号矩阵以及所述复数卷积核矩阵分别进行傅里叶变换，得到所述复数输入信号矩阵的第一矩阵，所述复数卷积核矩阵的第二矩阵；对所述第一矩阵以及所述第二矩阵进行复数矩阵点乘，得到第三矩阵；通过对所述第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵。通过本申请实施例可以在一定程度上降低信号处理运算量，从而提高信号处理效率。

Description

一种信号处理方法及装置

技术领域

本申请涉及信号处理技术领域，尤其涉及一种信号处理方法及装置。

背景技术

人工神经网络(artificial neural networks，ANN)，也简称为神经网络(NN)，是一种模仿动物神经网络行为特征进行信息处理的网络结构。将待处理信号输入这种网络，通过内部大量节点对信号进行非线性变换，从而达到处理信息的目的。

神经网络的基本单元是“神经元”，可以看作一个计算与存储单元。计算是神经元对其的输入信号进行计算。存储是神经元暂存计算结果，并传递到下一层神经元。神经网络的基本结构是将许多个输入神经元的信号联结起来，作为一个输出神经元的输出信号。而这个输出神经元的输出信号也可以是另一个“神经元”的输入。

现有技术采用参数共享的方法对神经网络的输入信号进行处理，即采用较小参数模板在输入信号空间域上滑动滤波，类似于采用卷积模板对输入信号进行卷积。因此这种人工神经网络又称之为卷积神经网络(convolutional neural network，CNN)。主流的卷积神经网络规模庞大，运算量非常大，巨大的运算需求是基于CNN的人工智能算法实现的主要障碍。故而如何改进相关算法，提高CNN算法的处理效率，从而降低CNN卷积层的运算量是目前关注和研究的热点问题。

发明内容

本申请实施例所要解决的技术问题在于，提供一种信号处理方法及装置，可以在一定程度上降低信号处理运算量，从而提高信号处理效率。

第一方面，本申请实施例提供了一种信号处理方法，该方法包括：首先获取至少两个实数输入信号矩阵，并将该至少两个实数输入信号矩阵拼接为复数输入信号矩阵；然后获取该复数输入信号矩阵的复数卷积核矩阵，接着对该复数输入信号矩阵以及该复数卷积核矩阵分别进行傅里叶变换，得到该复数输入信号矩阵的第一矩阵，该复数卷积核矩阵的第二矩阵，并对该第一矩阵以及该第二矩阵进行复数矩阵点乘，得到第三矩阵；最后通过对该第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵。

本申请实施例中，该实数输入信号矩阵包括多个实数元素，每个实数元素为计算机可处理的初始信号；该复数卷积核矩阵包括多个复数元素，每个复数元素为复数卷积核系数，该复数卷积核系数是根据实数卷积核系数拼接得到的，该复数卷积核矩阵与该复数输入信号矩阵一一对应；该实数输出信号矩阵为卷积运算结果，且包括多个计算机可处理的输出信号。

本申请实施例在将接收到的至少两个实数输入信号矩阵拼接为复数输入信号矩阵之后，通过对该复数输入信号矩阵以及与该复数输入信号矩阵对应的复数卷积核矩阵进行傅里叶变换得到实数输出信号矩阵，相对于通过对该至少两个实数输入信号矩阵以及与该至少两个实数输入信号矩阵对应的实数卷积核矩阵直接进行卷积运算得到实数输出信号矩阵，本申请实施例可以有效降低信号处理的运算量，从而在一定程度上节省软硬件资源，提高信号处理效率。

在一种可能的实施例中，获取至少两个实数输入信号矩阵，包括：首先接收至少两个实数输入信号矩阵，然后对该至少两个实数输入信号矩阵进行分组，每个分组包括两个实数输入信号矩阵。其中，将该至少两个实数输入信号矩阵拼接为复数输入信号矩阵，包括：针对每个分组，将每个分组包括的两个实数输入信号矩阵拼接为复数输入信号矩阵，每个分组对应得到一个复数输入信号矩阵。该复数输入信号矩阵的实部为每个分组包括的两个实数输入信号矩阵中的一个实数输入信号矩阵，该复数输入信号矩阵的虚部为每个分组包括的两个实数输入信号矩阵中的另一个实数输入信号矩阵。

在一种可能的实施例中，该复数输入信号矩阵的实部为每个分组包括的两个实数输入信号矩阵中的一个实数输入信号矩阵，该复数输入信号矩阵的虚部为每个分组包括的两个实数输入信号矩阵中的另一个实数输入信号矩阵符号取反后得到的实数输入信号矩阵。

在一种可能的实施例中，获取该复数输入信号矩阵的复数卷积核矩阵，包括：首先获取至少两个实数卷积核矩阵，然后将该至少两个实数卷积核矩阵拼接为复数卷积核矩阵。该复数卷积核矩阵与该复数输入信号矩阵一一对应，该复数卷积核矩阵的实部为该复数输入信号矩阵的实部对应的实数卷积核矩阵，该复数卷积核矩阵的虚部为该复数输入信号矩阵的虚部对应的实数卷积核矩阵符号取反后得到的实数卷积核矩阵。

在一种可能的实施例中，该复数卷积核矩阵的实部为该复数输入信号矩阵的实部对应的实数卷积核矩阵，该复数卷积核矩阵的虚部为该复数输入信号矩阵的虚部对应的实数卷积核矩阵。

在一种可能的实施例中，若接收到的至少两个实数输入信号矩阵为两个实数输入信号矩阵，则只能将该两个实数输入信号矩阵拼接为一个复数输入信号矩阵，对应只能得到一个第三矩阵，故而通过对该第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵，包括：首先对该第三矩阵进行傅里叶逆变换，得到复数输出信号矩阵；然后获取该复数输出信号矩阵的实部，得到该实数输出信号矩阵。

在一种可能的实施例中，若接收到的至少两个实数输入信号矩阵包括多于两个的实数输入信号矩阵，则可以将多于两个的实数输入信号矩阵拼接为多个复数输入信号矩阵，对应可以得到多个第三矩阵。故而对该第一矩阵以及该第二矩阵进行复数矩阵点乘，得到第三矩阵，包括：针对每个分组，对每个分组的第一矩阵以及第二矩阵进行复数矩阵点乘，每个分组对应得到一个第三矩阵。其中，通过对该第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵，包括：首先将每个分组的第三矩阵进行相加，得到和矩阵；然后对该和矩阵进行傅里叶逆变换，得到复数输出信号矩阵；最后获取该复数输出信号矩阵的实部，得到该实数输出信号矩阵。

本申请实施例中，该初始信号为图像信号、音频信号、传感器信号或通信信号中的至少一项；该实数输入信号矩阵为前一级的实数输出信号矩阵，该实数输入信号矩阵通过电路接口或者软件逻辑接口输入；该实数卷积核矩阵是根据预置的卷积核系数得到的，该卷积核系数是反序存储的。

第二方面，本申请实施例提供了一种信号处理装置，该装置包括：第一获取模块、拼接模块、第二获取模块、第一处理模块、第二处理模块、第三获取模块，上述各个模块用于执行上述第一方面所述的任一种方法。

第三方面，本申请实施例提供了一种数据处理装置，包括：处理器、存储器，该处理器、该存储器通过总线连接，该存储器存储有可执行程序代码，该处理器用于调用该可执行程序代码，执行如权利要求1～10中任一项所述的信号处理方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例和现有技术中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种全连接神经网络的结构示意图；

图2是本申请实施例提供的一种神经网络实施场景的示意图；

图3是本申请实施例提供的一种FFT加速卷积算法的示意图；

图4是本申请实施例提供的一种信号处理方法的流程示意图；

图5a是本申请实施例提供的另一种FFT加速卷积算法的示意图；

图5b是本申请实施例提供的又一种FFT加速卷积算法的示意图；

图6是本申请实施例提供的一种实现信号处理方法的示意图；

图7是本申请实施例提供的一种信号处理装置的结构示意图；

图8是本申请实施例提供的另一种信号处理装置的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

本申请实施例描述的一种信号处理方法应用于人工智能领域的神经网络中，神经网络的基本单元是“神经元”，可以将“神经元”看作一个软件的或硬件的计算与存储单元。请参见图1，图1是本申请实施例提供的一种全连接(full-connect，FC)神经网络的结构示意图。如图1所示，用圆圈来表示神经网络的一个节点，即神经元的计算与存储单元，其存储值即为该节点的信号值。图中标上“+1”的圆圈为偏置节点。神经网络最左边所有节点组成的一层叫做输入层Layer L₁，计算机可处理的输入信号通过输入层输入，该输入信号包括图像信号、音频信号、传感器信号、通信信号等，该输入信号可以通过电路接口或者软件逻辑接口输入。神经网络中间所有节点组成的一层叫做隐藏层Layer L₂，图1仅以隐藏层只包括一层节点为例，实际上也可以由多个隐藏层。神经网络最右边所有节点组成的一层叫做输出层Layer L₃，图1仅以输出层只包括一个节点为例，实际上可以是多个节点。神经网络将多个输入神经元的信号联结起来，作为一个输出神经元的输出信号，而这个输出神经元的输出信号也可以是另一个神经元的输入。神经网络中的任一层可以被认为是对信号进行了一级逻辑上的运算处理。其中，x₁,x₂,x₃为输入信号，通过神经网络的输入层输入；H_W，b(X)为输出信号，通过神经网络的输出层输出。神经网络通过内部大量节点对输入信号进行非线性变换，从而达到处理信息的目的。本申请实施例以采用非线性激活函数f(x)对输入信号进行处理为例，函数f(x)例如可以是修正线性单元(Rectified Linear Units，

最后根据

确定输出信号H_W，b(X)，例如可以是将

相加或者取最大值。神经网络确定输出信号后，可以将输出信号直接输出，也可以将输出信号作为神经网络下一级的神经元的输入信号，从而继续对其进行处理。

上述处理过程为神经网络的前向传播的一个实施例，神经网络的前向传播可以用于对信号进行判决，而且卷积神经网络的应用通常用于进行前向传播。全连接神经网络的参数数量比较多，可能导致神经网络尺寸过于庞大。因此本申请实施例提供了一种参数共享的方法，即采用较小参数模板在输入信号空间域上滑动滤波，类似于采用卷积模板对输入信号进行卷积。因此这种神经网络又称为卷积神经网络CNN，卷积神经网络可以包括多个卷积层。其运算可以用以下公式来描述。

令待卷积输入信号为f(u),u＝0～N-1,卷积核为h(v),v＝0～n-1,n≤N；其中，N为输入信号的个数，n为卷积核的个数；两者的线性卷积为：

其中，h(i)＝0,i＜0or i＞n-1。

对于神经网络的某一个卷积层，

输入通道channell的输入信号为in_l(n₀,n₁)∈R，n₀,n₁＝0～N-1,l＝0～L-1；L为输入通道数量，可以对应输入节点或输入信号数量。

输出channelk的输出信号为h_k(n₀,n₁)∈R，n₀,n₁＝0～N-1,k＝0～K-1；K为输出通道数量，可以对应输出节点或输入信号数量。

卷积核为f_l,k(n₀,n₁)∈R，n₀,n₁＝0～N-1,l＝0～L-1,k＝0～K-1；

则，

卷积神经网络可以用于进行图像处理等功能，例如图像物体检测，图像物体分类等。目前主流的卷积神经网络规模依旧很大。如何对卷积层运算加速，是部署CNN的关键。本申请实施例提供了一种利用快速傅里叶变换(Fast Fourier Transform，FFT)来实现卷积运算的方法，可以利用FFT运算的高效性来加速卷积运算，且保证神经网络的预测性能不变。具体运算过程可以用以下公式来描述：

将上述f(u)填0扩展为u＝0～N+n-1，h(u)填0扩展为u＝0～N+n-1；并计算f(u)与h(u)的循环卷积：

其中，f_N+n(u)，h_N+n(u)为周期N+n的函数；y_c(i)＝y(i),i＝0～N+n-1。

两个函数的循环卷积，如

可以通过FFT和快速傅里叶逆变换(Inverse Fast Fourier Transform，IFFT)实现：

其中，符号

表示复数矩阵点乘。

以上所述的神经网络可应用于各类通信、语音、图像处理、计算处理等应用场景。在一些可行的实施例中，该神经网络的输入信号可以是语音信号、文本信号、图像信号、温度信号等各种形式的信号，该语音信号可以是录音设备录制的语音信号、移动手机或固定电话在通话过程中接收的语音信号、以及收音机接收的电台发送的语音信号等，文本信号可以是TXT文本信号、Word文本信号、以及PDF文本信号等，图像信号可以是相机拍摄的风景信号、监控设备捕捉的社区环境的图像信号以及门禁系统获取的人脸的面部信号等，该神经网络的输入信号包括其他各种计算机可处理的工程信号，在此不再一一列举。

本申请实施例提供一种该神经网络100具体的实施场景，如图2所示，移动智能手机客户201向移动智能手机客户205发起语音呼叫，语音信号经智能手机202发出，经基站203转送给智能手机204，由于发起语音呼叫时暴雨骤起且伴有强烈的电闪雷鸣，导致输入信号206被严重削弱且含有较大的噪声，该输入信号可以例如为一维数字语音信号，智能手机204中配备有神经网络100，该神经网络可以是以专用电路的形式在芯片中实现，也可以是运行在中央处理单元(Central Processing Unit，CPU)或其他处理器中的程序指令。输入信号206在智能手机204中的神经网络中经过处理，该处理包括噪声去除以及有效信号增强等，得到输出信号207，该输出信号完整的保留了主叫用户传送的语音信息，避免了恶劣自然环境对信号的干扰。

如之前实施例所述，提高卷积运算能力对神经网络很重要。本申请实施例进一步提供了一种针对卷积神经网络的每个卷积层的FFT加速卷积算法，如图3所示，图3仅以两个实数输入信号为例，其他情况以此类推。具体地，首先将输入信号in_l，卷积核f_l,k扩充为虚部为0的复数矩阵，然后将输入信号以及卷积核分别进行FFT，并对两者的FFT结果进行复数点乘，最后对L个输入channel的点乘结果进行累加，即复数矩阵求和，并将累加结果进行IFFT，得到卷积层第k个输出channel的结果：

上述方法中，快速傅里叶变化是基于复数运算实现的，采用上述方法，可以利用FFT运算的高效性进一步加速卷积运算，且保证神经网络的预测性能不变。

传统卷积神经网络多用于图像处理，卷积神经网络用于图像处理时的输入信号为实数二维矩阵。因此上述方法将输入实数矩阵扩充为虚部为0的复数矩阵后进行FFT运算，存在一定的运算冗余。本申请实施例提供了一种信号处理方法，可以解决输入信号为二维实数矩阵的卷积神经网络，使用FFT对卷积运算进行加速时复数运算利用率过低的问题，从而进一步降低信号处理运算量，提高信号处理效率。

本申请实施例提供的一种信号处理方法，可以应用于人工智能领域的卷积神经网络中。该方法可以应用在包括一个或多个运算单元(例如CPU)，一个或多个存储单元(例如硬盘) 的计算机系统上。所述计算机系统包括但不限于PC，服务器，图形处理器(graphics processing unit，GPU)，手机，专用的计算处理芯片(例如人工智能处理芯片)。神经网络可以是运行在CPU或者其它处理器上的一段程序，也可以是以专用电路的形式在芯片中实现。

本申请实施例提供的一种信号处理方法以应用于卷积神经网络的某一卷积层为例进行说明，卷积神经网络的其他卷积层的信号处理过程则以此类推。

图3所针对的方法其实还有进一步优化的空间。有鉴于此，请参见图4，是本申请实施例提供的另一种信号处理方法，即对前面的图3的运算处理过程进行进一步的优化处理以提高运算效率，该方法包括但不限于如下步骤：

S401、获取至少两个实数输入信号矩阵。

本申请实施例中，该实数输入信号矩阵包括多个实数元素，每个实数元素为计算机可处理的初始信号，该初始信号为图像信号、音频信号、传感器信号或通信信号中的至少一项。该实数输入信号矩阵可以为数组，也可以为一维向量，还可以为二维向量等，本申请实施例不作限定。该至少两个实数输入信号矩阵可以为卷积神经网络的初始输入信号矩阵，即卷积神经网络的输入层存储或者接收到的信号值，也可以为卷积神经网络前一级的实数输出信号矩阵。其中，该实数输入信号矩阵可以是通过电路接口输入的，也可以是通过软件逻辑接口输入的。

在一些可行的实施方式中，获取至少两个实数输入信号矩阵的具体方式包括：针对卷积神经网络的当前卷积层，若当前卷积层只有两个输入通道，则直接接收两个输入通道输入的实数输入信号矩阵；若当前卷积层只有一路输入通道或者有多于两个的输入通道，则首先接收各个输入通道输入的至少两个实数输入信号矩阵，然后对接收到的至少两个实数输入信号矩阵进行分组，每个分组包括两个实数输入信号矩阵。其中，实数输入信号矩阵与其输入的通道相对应，分组过程可以是根据实数输入信号矩阵对应的通道标识进行分组的。

S402、将所述至少两个实数输入信号矩阵拼接为复数输入信号矩阵。

本申请实施例中，在对该至少两个实数输入信号矩阵进行分组之后，每个分组包括两个实数输入信号矩阵。针对每个分组，将每个分组包括的两个实数输入信号矩阵拼接为复数输入信号矩阵，每个分组对应得到一个复数输入信号矩阵，包括：将该两个实数输入信号矩阵中的一个实数输入信号矩阵作为复数输入信号矩阵的实部，将该两个实数输入信号矩阵中的另一个实数输入信号矩阵作为复数输入信号矩阵的虚部。

在一些可行的实施方式中，针对每个分组，将每个分组包括的两个实数输入信号矩阵拼接为复数输入信号矩阵，每个分组对应得到一个复数输入信号矩阵。其中，该复数输入信号矩阵的实部为每个分组包括的两个实数输入信号矩阵中的一个实数输入信号矩阵，该复数输入信号矩阵的虚部为每个分组包括的两个实数输入信号矩阵中的另一个实数输入信号矩阵符号取反后得到的实数输入信号矩阵。

在一些可行的实施方式中，若当前卷积层只有两个输入通道，则不需对接收到的至少两个实数输入信号进行分组，可以根据实数输入信号矩阵的输入顺序将从该两个输入通道中的某一个输入通道输入的实数输入信号矩阵作为复数输入信号矩阵的实部，将从该两个输入通道中的另一个输入通道输入的实数输入信号矩阵作为复数输入信号矩阵的虚部。也可以是将从该两个输入通道中的某一个输入通道输入的实数输入信号矩阵作为复数输入信号矩阵的实部，将从该两个输入通道中的另一个输入通道输入的实数输入信号矩阵符号取反后得到的实数输入信号矩阵作为复数输入信号矩阵的虚部。

本申请实施例中，若该至少两个实数输入信号矩阵的个数为奇数，则在将该至少两个实数输入信号矩阵拼接为复数输入信号矩阵时，会剩余一个实数输入信号矩阵无法与其他实数输入信号矩阵进行拼接。针对该剩余的一个实数输入信号矩阵，可以将该剩余的一个实数输入信号矩阵作为复数输入信号矩阵的实部，且将该复数输入信号矩阵的虚部置0；也可以对该剩余的一个实数输入信号矩阵直接进行卷积运算。其中，将该至少两个实数输入信号矩阵拼接为复数输入信号矩阵之后，可以只得到一个复数输入信号矩阵或多个复数输入信号矩阵作为输出结果。

S403、获取所述复数输入信号矩阵的复数卷积核矩阵。

本申请实施例中，该复数卷积核矩阵包括多个复数元素，每个复数元素为复数卷积核系数，该复数卷积核系数是根据实数卷积核系数拼接得到的。该复数卷积核矩阵与该复数输入信号矩阵一一对应。具体地，首先获取至少两个实数卷积核矩阵，该实数卷积核矩阵包括多个实数元素，每个实数元素为实数卷积核系数，该至少两个实数卷积核矩阵与该至少两个实数输入信号矩阵一一对应，例如可以是包括相同的通道标识；然后将该至少两个实数卷积核矩阵拼接为复数卷积核矩阵，其中，复数卷积核矩阵的实部为与其对应的复数输入信号矩阵的实部对应的实数卷积核矩阵，复数卷积核矩阵的虚部为与其对应的复数输入信号矩阵的虚部对应的实数卷积核矩阵符号取反后得到的实数卷积核矩阵。

在一些可行的实施方式中，将该至少两个实数卷积核矩阵拼接为复数卷积核矩阵，包括：将与该复数输入信号矩阵的实部对应的实数卷积核矩阵作为该复数卷积核矩阵的实部，将与该复数输入信号矩阵的虚部对应的实数卷积核矩阵作为该复数卷积核矩阵的虚部。

在一些可行的实施方式中，该复数卷积核矩阵可以是相关设备根据预设规则预置的，可以直接获取与拼接得到的复数输入信号矩阵对应的复数卷积核矩阵。从而避免了通过对实数卷积核矩阵进行拼接得到复数卷积核矩阵的操作，可以在一定程度上降低卷积神经网络的运算量，提高信号处理的效率。

S404、对所述复数输入信号矩阵以及所述复数卷积核矩阵分别进行傅里叶变换，得到所述复数输入信号矩阵的第一矩阵，所述复数卷积核矩阵的第二矩阵。

本申请实施例中，对该复数输入信号矩阵以及该复数卷积核矩阵分别进行傅里叶变换，包括：对该复数输入信号矩阵以及该复数卷积核矩阵分别进行离散傅里叶变换(discrete fourier transform，DFT)或者快速傅里叶变换。每个复数输入信号矩阵进行傅里叶变换后对应得到一个第一矩阵，每个复数卷积核矩阵进行傅里叶变换后对应得到一个第二矩阵，该第一矩阵以及该第二矩阵为复数矩阵。

S405、对所述第一矩阵以及所述第二矩阵进行复数矩阵点乘，得到第三矩阵。

S406、通过对所述第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵。

本申请实施例中，该实数输出信号矩阵为卷积神经网络当前卷积层的卷积运算结果，且包括多个计算机可处理的输出信号。其中，若获取到的至少两个实数输入信号矩阵为两个实数输入信号矩阵，则只能将该两个实数输入信号矩阵拼接为一个复数输入信号矩阵，对该第一矩阵以及该第二矩阵进行复数矩阵点乘，对应只能得到一个第三矩阵。故而通过对该第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵，包括：首先对该第三矩阵进行傅里叶逆变换，得到复数输出信号矩阵；然后获取该复数输出信号矩阵的实部，得到该实数输出信号矩阵。若接收到的至少两个实数输入信号矩阵包括多于两个的实数输入信号矩阵，则可以将多于两个的实数输入信号矩阵拼接为多个复数输入信号矩阵，对应可以得到多个第三矩阵。其中，对该第一矩阵以及该第二矩阵进行复数矩阵点乘，得到第三矩阵，包括：针对每个分组，对每个分组的第一矩阵以及第二矩阵进行复数矩阵点乘，每个分组对应得到一个第三矩阵。通过对该第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵，包括：首先将每个分组的第三矩阵进行相加，即各个第三矩阵中对应位置的元素分别进行相加，得到和矩阵；然后对该和矩阵进行傅里叶逆变换，得到复数输出信号矩阵；最后获取该复数输出信号矩阵的实部，得到该实数输出信号矩阵。

需要说明的是，上述确定卷积神经网络当前卷积层的实数输出信号矩阵的具体实现方式，为确定卷积神经网络当前卷积层的某一输出通道的实数输出信号矩阵的具体步骤，确定卷积神经网络当前卷积层的其他输出通道的实数输出信号矩阵的具体方式则可以以此类推，在此不再赘述。获取到卷积神经网络当前卷积层的实数输出信号矩阵后，可以将该实数输出信号矩阵直接输出卷积神经网络，也可以将该实数输出信号矩阵作为卷积神经网络的下一卷积层的实数输入信号矩阵。

下面将通过举例子的方式对本申请实施例提供的信号处理方法进行说明，以卷积神经网络用于进行图像处理为例。卷积神经网络用于进行图像处理时，卷积神经网络每个卷积层的输入信号为L个2D图像(或者说2D实数矩阵)的组合。卷积神经网络的卷积层除了输入红绿蓝RGB图像时输入channel数L＝3为奇数，输入其它类型的图像时一般输入channel数L为偶数。对于卷积神经网络当前卷积层的某个输出channel，选择与其对应的两个输入channel l＝0和l＝1为例进行分析说明。请一并参见图5a，图5a仅以两个实数输入信号为例。首先将两个输入channel的实数输入信号2D矩阵按以下规则拼接为复数输入信号矩阵：in_C(n₀,n₁)＝in₀(n₀,n₁)+in₁(n₀,n₁)·i；其中，n₀,n₁为实数输入信号2D矩阵的坐标，in₀(n₀,n₁)/in₁(n₀,n₁)对应实数输入信号2D矩阵上的某个点。

然后，将相应的两个实数卷积核2D矩阵按以下规则拼接为复数卷积核矩阵：f_C(n₀,n₁)＝f_0,k(n₀,n₁)-f_1,k(n₀,n₁)·i；其中，实数卷积核矩阵f_0,k(n₀,n₁)对应实数输入信号2D矩阵in₀(n₀,n₁)，实数卷积核矩阵f_1,k(n₀,n₁)对应实数输入信号2D矩阵in₁(n₀,n₁)。

接着，分别对上述拼接得到的复数输入信号矩阵和复数卷积核矩阵分别进行傅里叶变换，下面以傅里叶变换为FFT为例，得到下式：

FFT(in_C)＝FFT(in₀)+FFT(in₁)·i (1)；

FFT(f_C)＝FFT(f_0,k)-FFT(f_1,k)·i (2)；

进一步地，将式(1)以及式(2)进行复数点乘得到：

最后对式(3)进行快速傅里叶逆变换IFFT，得到：

即复数输出信号矩阵。最后获取复数输出信号矩阵的实部，得到实数输出信号矩阵。

可以证明，

即等于两个实数输入信号矩阵的FFT分别与对应的实数卷积核的FFT进行点乘后相加，最后进行IFFT，即：

在一些可行的实施方式中，请一并参见图5b，图5b也仅以两个实数输入信号为例。首先将两个输入channel的实数输入信号2D矩阵按以下规则拼接为复数输入信号矩阵：in_C(n₀,n₁)＝in₀(n₀,n₁)-in₁(n₀,n₁)·i；然后，将相应的两个实数卷积核2D矩阵按以下规则拼接为复数卷积核矩阵：f_C(n₀,n₁)＝f_0,k(n₀,n₁)+f_1,k(n₀,n₁)·i。接着，分别对上述拼接得到的复数输入信号矩阵和复数卷积核矩阵分别进行傅里叶变换，下面以傅里叶变换为FFT为例，得到下式：

FFT(in_C)＝FFT(in₀)-FFT(in₁)·i (4)；

FFT(f_C)＝FFT(f_0,k)+FFT(f_1,k)·i (5)；

进一步地，将式(4)以及式(5)进行复数点乘得到：

最后对式(6)进行快速傅里叶逆变换IFFT，得到：

可以证明，

本申请实施例提供的信号处理方法实现2个卷积求和，只需要2次FFT，一次IFFT。而上述提到的另一种FFT加速卷积算法(如图3)实现2个卷积求和需要4次FFT，一次IFFT。在输入channel数较大的情况下，本申请实施例提供的信号处理方法只需要百分之五十的FFT运算量以及相同的复数点乘数，即可实现FFT卷积。故而本申请实施例提供的信号处理方法可以有效降低FFT运算量，提高信号处理效率。同时，本申请实施例提供的信号处理方法采用复数FFT统一了处理的数据类型，可以避免实数FFT在专用集成电路(application specific integrated circuit，ASIC)实现中采用厄米特Hermitian矩阵的对称性带来的处理流程复杂度增加，有利于模块实现。

进一步举例说明，在获取到至少两个实数输入信号矩阵之后，首先将该至少两个实数输入信号矩阵in(n₀,n₁,l)按输入通道标识(channel index)进行两两分组，下面以按照channel index的顺序进行分组为例，得到：

l＝0/1；2/3；...；(In_chan_num-2)/(In_chan_num-1)；共

个分组，每个分组包括两个实数输入信号矩阵in_l(n₀,n₁)。

与该至少两个实数输入信号矩阵对应的In_chan_num个实数卷积核矩阵也采用同样的方法进行分组。然后将每个分组包括的两个in_l(n₀,n₁)拼接为复数输入信号矩阵，以l＝0和l＝1举例，令in_C(n₀,n₁)＝in₀(n₀,n₁)+in₁(n₀,n₁)·i；in_C为复数输入信号2D矩阵。此时in_C比FFT的尺寸(size)要小，在矩阵in_C的右侧和下方填零，使得in_C的size与FFT的size一致。与每个分组包括的两个in_l(n₀,n₁)对应的两个实数卷积核矩阵也拼接为复数卷积核矩阵，f_C(n₀,n₁)＝f_0,k(n₀,n₁)-f_1,k(n₀,n₁)·i。接着，分别对每个分组的复数输入信号矩阵进行2D FFT，每个分组得到一个第一矩阵，结果保存备用；分别对每个分组的复数卷积核矩阵进行2D FFT，每个分组得到一个第二矩阵。进一步，将每个分组的第一矩阵与相应的第二矩阵进行复数矩阵点乘，每个分组对应得到一个第三矩阵，将每个分组的第三矩阵进行累加，得到和矩阵，即卷积神经网络当前卷积层的某一输出channel k对应的FFT矩阵Freq_Sum：

其中，

即为复数输入信号矩阵FFT(in_C_l)和复数卷积核矩阵FFT(f_C_l,k)中对应位置的元素分别相乘。最后对Freq_Sum进行IFFT，得到复数输出信号矩阵，获取复数输出信号矩阵的实部，得到实数输出信号矩阵，即该输出channel k的实数输出信号矩阵。

在一些可行的实施方式中，将每个分组包括的两个in_l(n₀,n₁)拼接为复数输入信号矩阵也可以是，令in_C(n₀,n₁)＝in₀(n₀,n₁)-in₁(n₀,n₁)·i；将与每个分组包括的两个in_l(n₀,n₁)对应的两个实数卷积核矩阵拼接为复数卷积核矩阵，也可以是，令f_C(n₀,n₁)＝f_0,k(n₀,n₁)+f_1,k(n₀,n₁)·i；其余步骤可以参考上述描述，此处不再赘述。

需要说明的是，本申请实施例可以按照channel index的顺序对该至少两个实数输入信号矩阵进行两两分组，也可以按照channel index的奇偶性对该至少两个实数输入信号矩阵进行两两分组，当然也可以按照其他规则对该至少两个实数输入信号矩阵进行两两分组，本申请实施例不作限定。

本申请实施例提供的信号处理方法通过将两个输入channel的实数输入信号矩阵拼接成复数输入信号矩阵，并将其相应的实数卷积核矩阵拼接成复数卷积核矩阵之后，将复数输入信号矩阵以及复数卷积核矩阵进行FFT运算，从而最大限度的利用了FFT的复数运算性能，降低了卷积层中FFT的使用量；从而减少处理器运行卷积神经网络的时间，降低系统功耗，节省了软硬件资源。其中，该处理器包括通用处理器(例如CPU)或者逻辑电路处理器。

本申请实施例提供的一种信号处理方法可以应用于基于CPU进行运算的卷积神经网络，也可以应用于基于ASIC实现的卷积神经网络，还可以应用于基于GPU进行运算的卷积神经网络。传统的基于CPU或者GPU或者ASIC实现CNN的方案中，卷积神经网络的模型文件存储在外接的存储介质，例如双倍速率同步动态随机存储器DDR内存中。当卷积神经网络进行某一层卷积层的运算时，CPU或者GPU或者ASIC的运算单元首先从存储介质中的模型文件读取当前卷积层的卷积核系数，以及当前卷积层的参数，包括：输入通道数，输出通道数，卷积核大小，卷积步长等，然后根据上述卷积核系数以及参数进行CNN运算。运算单元处理过程中的中间数据也可以在存储介质中暂存，并在需要读取时进行回读。在一些可行的实施方式中，请一并参见图6，本申请实施例可以将卷积神经网络的原始模型文件进行模型预处理后，将经过模型预处理的模型文件存储在内部或外接的存储介质中。当卷积神经网络进行某一层卷积层的运算时，运算单元首先从存储介质中的经过模型预处理的模型文件读取当前卷积层的模型系数，以及当前卷积层的参数，然后进行CNN运算。运算单元处理过程中的中间数据也可以在存储介质中暂存，并在需要读取时进行回读。

下面对卷积神经网络的原始模型文件的模型预处理过程进行详细描述。本申请实施例中，卷积神经网络参数的定义与传统的卷积运算略有差异，经典卷积运算的公式为:

而CNN中卷积层的运算公式为：

可以看出，CNN中的卷积系数是经典卷积系数的反序。因此，对原始模型文件进行预处理包括：将原始实数卷积核系数反序后存放至模型文件中。从而可以避免在卷积神经网络进行实时处理时对实数卷积核矩阵进行倒序操作，减少卷积神经网络的运算量。进一步地，可以根据反序存放的实数卷积核系数确定实数卷积核矩阵，并将实数卷积核矩阵存放在存储介质中。从而可以避免在卷积神经网络进行实时处理时根据实数卷积核系数确定实数卷积核矩阵的操作，进一步减少卷积神经网络的运算量。

例如，令卷积神经网络的实数卷积核矩阵为：

经过模型预处理过程之后，卷积神经网络的实数卷积核矩阵在存储介质中的存放格式为：

另外，由于将获取到的至少两个实数卷积核矩阵拼接为复数卷积核矩阵的具体操作为：f_C(n₀,n₁)＝f_0,k(n₀,n₁)-f_1,k(n₀,n₁)·i，可以看出复数卷积核矩阵虚部的实数卷积核矩阵需要符号取反。为了避免在卷积神经网络进行实时运算时进行符号取反操作，在一些可行的实施方式中，对原始模型文件进行预处理还包括：对于根据预设规则确定的将作为复数卷积核矩阵虚部的实数卷积核矩阵，将其符号取反后存放至存储介质中。进一步地，可以根据预设规则将实数卷积核矩阵拼接为复数卷积核矩阵，并将复数卷积核矩阵存放在存储介质中。从而可以进一步提高卷积神经网络的运算效率。需要说明的是，实数卷积核矩阵在存储介质中的存储格式可以根据处理器的复数格式进行相应调整，以便于更好的读取实数卷积核矩阵。

在一些可行的实施方式中，从存储介质中的模型文件读取到卷积神经网络当前卷积层的模型系数以及当前卷积层的其他参数之后，根据预设规则确定是否使用FFT实现卷积。例如可以是检测与当前卷积层对应的卷积核矩阵的分块大小或者秩是否大于或者等于预设值，若是，则采用本申请实施例提供的信号处理方法对卷积神经网络的信号进行处理；若否，则采用传统卷积运算对卷积神经网络的信号进行处理。

本申请实施例中，首先获取至少两个实数输入信号矩阵，并将该至少两个实数输入信号矩阵拼接为复数输入信号矩阵，然后获取该复数输入信号矩阵的复数卷积核矩阵，并对该复数输入信号矩阵以及该复数卷积核矩阵分别进行傅里叶变换，得到该复数输入信号矩阵的第一矩阵，该复数卷积核矩阵的第二矩阵；最后对该第一矩阵以及该第二矩阵进行复数矩阵点乘，得到第三矩阵，并通过对该第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵，可以在一定程度上降低信号处理运算量，从而提高信号处理效率。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参见图7图7是本申请实施例提供的一种信号处理装置的结构示意图。其中，图7所示的信号处理装置可以包括第一获取模块701、拼接模块702、第二获取模块703、第一处理模块704、第二处理模块705、第三获取模块706，其中，各个模块的详细描述如下。

第一获取模块701，用于获取至少两个实数输入信号矩阵，所述实数输入信号矩阵包括多个实数元素，每个所述实数元素为计算机可处理的初始信号。

拼接模块702，用于将所述至少两个实数输入信号矩阵拼接为复数输入信号矩阵。

第二获取模块703，用于获取所述复数输入信号矩阵的复数卷积核矩阵，所述复数卷积核矩阵包括多个复数元素，每个复数元素为复数卷积核系数。

第一处理模块704，用于对所述复数输入信号矩阵以及所述复数卷积核矩阵分别进行傅里叶变换，得到所述复数输入信号矩阵的第一矩阵，所述复数卷积核矩阵的第二矩阵。

第二处理模块705，还用于对所述第一矩阵以及所述第二矩阵进行复数矩阵点乘，得到第三矩阵。

第三获取模块706，还用于通过对所述第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵，所述实数输出信号矩阵为卷积运算结果，且包括多个计算机可处理的输出信号。

在一些可行的实施方式中，所述第一获取模块701，具体包括：

接收单元7011，用于接收至少两个实数输入信号矩阵。

分组单元7012，用于对所述至少两个实数输入信号矩阵进行分组，每个分组包括两个实数输入信号矩阵。

其中，所述拼接模块702，具体用于针对所述每个分组，将所述两个实数输入信号矩阵拼接为所述复数输入信号矩阵。

所述复数输入信号矩阵的实部为所述两个实数输入信号矩阵中的一个实数输入信号矩阵，所述复数输入信号矩阵的虚部为所述两个实数输入信号矩阵中的另一个实数输入信号矩阵。

在一些可行的实施方式中，所述复数输入信号矩阵的实部为所述两个实数输入信号矩阵中的一个实数输入信号矩阵，所述复数输入信号矩阵的虚部为所述两个实数输入信号矩阵中的另一个实数输入信号矩阵符号取反后得到的实数输入信号矩阵。

在一些可行的实施方式中，所述第二获取模块703，具体包括：

第一获取单元7031，用于获取至少两个实数卷积核矩阵。

拼接单元7032，还用于将所述至少两个实数卷积核矩阵拼接为所述复数卷积核矩阵。

所述复数卷积核矩阵的实部为所述复数输入信号矩阵的实部对应的实数卷积核矩阵，所述复数卷积核矩阵的虚部为所述复数输入信号矩阵的虚部对应的实数卷积核矩阵符号取反后得到的实数卷积核矩阵。

在一些可行的实施方式中，所述复数卷积核矩阵的实部为所述复数输入信号矩阵的实部对应的实数卷积核矩阵，所述复数卷积核矩阵的虚部为所述复数输入信号矩阵的虚部对应的实数卷积核矩阵。

在一些可行的实施方式中，所述第三获取模块706，具体包括：

处理单元7061，用于对所述第三矩阵进行傅里叶逆变换，得到复数输出信号矩阵。

第二获取单元7062，用于获取所述复数输出信号矩阵的实部，得到所述实数输出信号矩阵。

在一些可行的实施方式中，所述第二处理模块705，具体用于针对所述每个分组，对所述第一矩阵以及所述第二矩阵进行复数矩阵点乘，得到第三矩阵。

其中，所述第三获取模块706，具体包括：

相加单元7063，还用于将每个分组的第三矩阵进行相加，得到和矩阵。

处理单元7061，还用于对所述和矩阵进行傅里叶逆变换，得到复数输出信号矩阵。

本申请实施例中，所述初始信号为图像信号、音频信号、传感器信号或通信信号中的至少一项。所述实数输入信号矩阵为前一级的实数输出信号矩阵，所述实数输入信号矩阵通过电路接口或者软件逻辑接口输入。所述实数卷积核矩阵是根据预置的卷积核系数得到的，所述卷积核系数是反序存储的。

需要说明的是，本申请实施例的数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

请参见图8，图8是本申请实施例提供的一种信号处理装置的结构示意图，本申请实施例中所描述的信号处理装置包括：处理器801、通信接口802、存储器803。其中，处理器801、通信接口802、存储器803可通过总线或其他方式连接，本申请实施例以通过总线连接为例。

处理器801可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)，图形处理器(英文：graphics processing unit，缩写：GPU)，或者CPU、GPU和NP的组合。处理器801也可以是多核CPU、多核GPU或多核NP中用于实现通信标识绑定的核。

上述处理器801可以是硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic array logic，缩写：GAL)或其任意组合。

上述通信接口802可用于收发信息或信令的交互，以及信号的接收和传递。上述存储器803可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的存储程序(比如文字存储功能、位置存储功能等)；存储数据区可存储根据装置的使用所创建的数据(比如图像数据、文字数据)等，并可以包括应用存储程序等。此外，存储器803可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

上述存储器803还用于存储程序指令。当上述处理器801是非硬件芯片的处理器时，可以调用上述存储器803存储的程序指令，实现如本申请实施例所示的信号处理方法。

具体的，上述处理器801调用存储在上述存储器803存储的程序指令执行以下步骤：

获取至少两个实数输入信号矩阵，所述实数输入信号矩阵包括多个实数元素，每个所述实数元素为计算机可处理的初始信号；

将所述至少两个实数输入信号矩阵拼接为复数输入信号矩阵；

获取所述复数输入信号矩阵的复数卷积核矩阵，所述复数卷积核矩阵包括多个复数元素，每个复数元素为复数卷积核系数；

对所述复数输入信号矩阵以及所述复数卷积核矩阵分别进行傅里叶变换，得到所述复数输入信号矩阵的第一矩阵，所述复数卷积核矩阵的第二矩阵；

对所述第一矩阵以及所述第二矩阵进行复数矩阵点乘，得到第三矩阵；

通过对所述第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵，所述实数输出信号矩阵为卷积运算结果，且包括多个计算机可处理的输出信号。

本申请实施例中处理器执行的方法均从处理器的角度来描述，可以理解的是，本申请实施例中处理器要执行上述方法需要其他硬件结构的配合。本申请实施例对具体的实现过程不作详细描述和限制。

在一些可行的实施方式中，上述通信接口802，用于接收至少两个实数输入信号矩阵。

上述处理器801，用于对所述至少两个实数输入信号矩阵进行分组，每个分组包括两个实数输入信号矩阵。

上述处理器801，具体用于针对所述每个分组，将所述两个实数输入信号矩阵拼接为所述复数输入信号矩阵。

其中，所述复数输入信号矩阵的实部为所述两个实数输入信号矩阵中的一个实数输入信号矩阵，所述复数输入信号矩阵的虚部为所述两个实数输入信号矩阵中的另一个实数输入信号矩阵。

在一些可行的实施方式中，上述处理器801，还用于获取至少两个实数卷积核矩阵。

上述处理器801，还用于将所述至少两个实数卷积核矩阵拼接为所述复数卷积核矩阵。

其中，所述复数卷积核矩阵的实部为所述复数输入信号矩阵的实部对应的实数卷积核矩阵，所述复数卷积核矩阵的虚部为所述复数输入信号矩阵的虚部对应的实数卷积核矩阵符号取反后得到的实数卷积核矩阵。

在一些可行的实施方式中，上述处理器801，还用于对所述第三矩阵进行傅里叶逆变换，得到复数输出信号矩阵。

上述处理器801，还用于获取所述复数输出信号矩阵的实部，得到所述实数输出信号矩阵。

在一些可行的实施方式中，上述处理器801，具体用于针对所述每个分组，对所述第一矩阵以及所述第二矩阵进行复数矩阵点乘，得到第三矩阵。

上述处理器801，还用于将每个分组的第三矩阵进行相加，得到和矩阵。

上述处理器801，还用于对所述和矩阵进行傅里叶逆变换，得到复数输出信号矩阵。

具体实现中，本申请实施例中所描述的处理器801、通信接口802、存储器803可执行本申请实施例提供的一种信号处理方法中所描述的实现方式，也可执行本申请实施例图8提供的一种信号处理装置中所描述的实现方式，在此不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

综上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种信号处理方法，其特征在于，所述方法包括：

获取至少两个实数输入信号矩阵，所述实数输入信号矩阵包括多个实数元素，每个所述实数元素为计算机可处理的初始信号；

将所述至少两个实数输入信号矩阵拼接为复数输入信号矩阵；

获取所述复数输入信号矩阵的复数卷积核矩阵，所述复数卷积核矩阵包括多个复数元素，每个复数元素为复数卷积核系数；

对所述复数输入信号矩阵以及所述复数卷积核矩阵分别进行傅里叶变换，得到所述复数输入信号矩阵的第一矩阵，所述复数卷积核矩阵的第二矩阵；

对所述第一矩阵以及所述第二矩阵进行复数矩阵点乘，得到第三矩阵；

通过对所述第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵，所述实数输出信号矩阵为卷积运算结果，且包括多个计算机可处理的输出信号。
根据权利要求1所述的方法，其特征在于，所述获取至少两个实数输入信号矩阵，包括：

接收至少两个实数输入信号矩阵；

对所述至少两个实数输入信号矩阵进行分组，每个分组包括两个实数输入信号矩阵；

其中，所述将所述至少两个实数输入信号矩阵拼接为复数输入信号矩阵，包括：

针对所述每个分组，将所述两个实数输入信号矩阵拼接为所述复数输入信号矩阵；

所述复数输入信号矩阵的实部为所述两个实数输入信号矩阵中的一个实数输入信号矩阵，所述复数输入信号矩阵的虚部为所述两个实数输入信号矩阵中的另一个实数输入信号矩阵。
根据权利要求2所述的方法，其特征在于，所述获取所述复数输入信号矩阵的复数卷积核矩阵，包括：

获取至少两个实数卷积核矩阵；

将所述至少两个实数卷积核矩阵拼接为所述复数卷积核矩阵；

所述复数卷积核矩阵的实部为所述复数输入信号矩阵的实部对应的实数卷积核矩阵，所述复数卷积核矩阵的虚部为所述复数输入信号矩阵的虚部对应的实数卷积核矩阵符号取反后得到的实数卷积核矩阵。
根据权利要求1所述的方法，其特征在于，所述获取至少两个实数输入信号矩阵，包括：

接收至少两个实数输入信号矩阵；

对所述至少两个实数输入信号矩阵进行分组，每个分组包括两个实数输入信号矩阵；

其中，所述将所述至少两个实数输入信号矩阵拼接为复数输入信号矩阵，包括：

针对所述每个分组，将所述两个实数输入信号矩阵拼接为所述复数输入信号矩阵；

所述复数输入信号矩阵的实部为所述两个实数输入信号矩阵中的一个实数输入信号矩阵，所述复数输入信号矩阵的虚部为所述两个实数输入信号矩阵中的另一个实数输入信号矩阵符号取反后得到的实数输入信号矩阵。
根据权利要求4所述的方法，其特征在于，所述获取所述复数输入信号矩阵的复数卷积核矩阵，包括：

获取至少两个实数卷积核矩阵；

将所述至少两个实数卷积核矩阵拼接为所述复数卷积核矩阵；

所述复数卷积核矩阵的实部为所述复数输入信号矩阵的实部对应的实数卷积核矩阵，所述复数卷积核矩阵的虚部为所述复数输入信号矩阵的虚部对应的实数卷积核矩阵。
根据权利要求1至5任一项所述的方法，其特征在于，所述通过对所述第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵，包括：

对所述第三矩阵进行傅里叶逆变换，得到复数输出信号矩阵；

获取所述复数输出信号矩阵的实部，得到所述实数输出信号矩阵。
根据权利要求2至5中任一项所述的方法，其特征在于，所述对所述第一矩阵以及所述第二矩阵进行复数矩阵点乘，得到第三矩阵，包括：

针对所述每个分组，对所述第一矩阵以及所述第二矩阵进行复数矩阵点乘，得到第三矩阵；

其中，所述通过对所述第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵，包括：

将每个分组的第三矩阵进行相加，得到和矩阵；

对所述和矩阵进行傅里叶逆变换，得到复数输出信号矩阵；

获取所述复数输出信号矩阵的实部，得到所述实数输出信号矩阵。
根据权利要求1至7中任一项所述的方法，其特征在于，所述初始信号为图像信号、音频信号、传感器信号或通信信号中的至少一项。
根据权利要求1至8中任一项所述的方法，其特征在于，所述实数输入信号矩阵为前一级的实数输出信号矩阵，所述实数输入信号矩阵通过电路接口或者软件逻辑接口输入。
根据权利要求3或5所述的方法，其特征在于，所述实数卷积核矩阵是根据预置的卷积核系数得到的，所述卷积核系数是反序存储的。
一种信号处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取至少两个实数输入信号矩阵，所述实数输入信号矩阵包括多个实数元素，每个所述实数元素为计算机可处理的初始信号；

拼接模块，用于将所述至少两个实数输入信号矩阵拼接为复数输入信号矩阵；

第二获取模块，用于获取所述复数输入信号矩阵的复数卷积核矩阵，所述复数卷积核矩阵包括多个复数元素，每个复数元素为复数卷积核系数；

第一处理模块，用于对所述复数输入信号矩阵以及所述复数卷积核矩阵分别进行傅里叶变换，得到所述复数输入信号矩阵的第一矩阵，所述复数卷积核矩阵的第二矩阵；

第二处理模块，用于对所述第一矩阵以及所述第二矩阵进行复数矩阵点乘，得到第三矩阵；

第三获取模块，用于通过对所述第三矩阵进行傅里叶逆变换，获取实数输出信号矩阵，所述实数输出信号矩阵为卷积运算结果，且包括多个计算机可处理的输出信号。
根据权利要求11所述的装置，其特征在于，所述第一获取模块，具体包括：

接收单元，用于接收至少两个实数输入信号矩阵；

分组单元，用于对所述至少两个实数输入信号矩阵进行分组，每个分组包括两个实数输入信号矩阵；

其中，所述拼接模块，具体用于针对所述每个分组，将所述两个实数输入信号矩阵拼接为所述复数输入信号矩阵；

所述复数输入信号矩阵的实部为所述两个实数输入信号矩阵中的一个实数输入信号矩阵，所述复数输入信号矩阵的虚部为所述两个实数输入信号矩阵中的另一个实数输入信号矩阵。
根据权利要求12所述的装置，其特征在于，所述第二获取模块，具体包括：

第一获取单元，用于获取至少两个实数卷积核矩阵；

拼接单元，用于将所述至少两个实数卷积核矩阵拼接为所述复数卷积核矩阵；

所述复数卷积核矩阵的实部为所述复数输入信号矩阵的实部对应的实数卷积核矩阵，所述复数卷积核矩阵的虚部为所述复数输入信号矩阵的虚部对应的实数卷积核矩阵符号取反后得到的实数卷积核矩阵。
根据权利要求11所述的方法，其特征在于，所述第一获取模块，具体包括：

接收单元，用于接收至少两个实数输入信号矩阵；

分组单元，用于对所述至少两个实数输入信号矩阵进行分组，每个分组包括两个实数输入信号矩阵；

其中，所述拼接模块，具体用于针对所述每个分组，将所述两个实数输入信号矩阵拼接为所述复数输入信号矩阵；

所述复数输入信号矩阵的实部为所述两个实数输入信号矩阵中的一个实数输入信号矩阵，所述复数输入信号矩阵的虚部为所述两个实数输入信号矩阵中的另一个实数输入信号矩阵符号取反后得到的实数输入信号矩阵。
根据权利要求14所述的方法，其特征在于，所述第二获取模块，具体包括：

第一获取单元，用于获取至少两个实数卷积核矩阵；

拼接单元，还用于将所述至少两个实数卷积核矩阵拼接为所述复数卷积核矩阵；

所述复数卷积核矩阵的实部为所述复数输入信号矩阵的实部对应的实数卷积核矩阵，所述复数卷积核矩阵的虚部为所述复数输入信号矩阵的虚部对应的实数卷积核矩阵。
根据权利要求11至15任一项所述的装置，其特征在于，所述第三获取模块，具体包括：

处理单元，用于对所述第三矩阵进行傅里叶逆变换，得到复数输出信号矩阵；

第二获取单元，用于获取所述复数输出信号矩阵的实部，得到所述实数输出信号矩阵。
根据权利要求12至15任一项所述的装置，其特征在于，

所述第二处理模块，具体用于针对所述每个分组，对所述第一矩阵以及所述第二矩阵进行复数矩阵点乘，得到第三矩阵；

其中，所述第三获取模块，具体包括：

相加单元，用于将每个分组的第三矩阵进行相加，得到和矩阵；

处理单元，用于对所述和矩阵进行傅里叶逆变换，得到复数输出信号矩阵；

第二获取单元，用于获取所述复数输出信号矩阵的实部，得到所述实数输出信号矩阵。
根据权利要求11至17中任一项所述的装置，其特征在于，所述初始信号为图像信号、音频信号、传感器信号或通信信号中的至少一项。
根据权利要求11至18中任一项所述的装置，其特征在于，所述实数输入信号矩阵为前一级的实数输出信号矩阵，所述实数输入信号矩阵通过电路接口或者软件逻辑接口输入。
根据权利要求13或15所述的装置，其特征在于，所述实数卷积核矩阵是根据预置的卷积核系数得到的，所述卷积核系数是反序存储的。
一种信号处理装置，其特征在于，包括：处理器、存储器，所述处理器、所述存储器通过总线连接，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行如权利要求1～10中任一项所述的信号处理方法。