WO2023044961A1

WO2023044961A1 - 基于自注意力变换网络的多特征融合回声消除方法及系统

Info

Publication number: WO2023044961A1
Application number: PCT/CN2021/122348
Authority: WO
Inventors: 涂卫平; 刘雅洁; 韩畅; 肖立; 杨玉红; 刘陈建树
Original assignee: 武汉大学
Priority date: 2021-09-23
Filing date: 2021-09-30
Publication date: 2023-03-30
Also published as: CN113870874A

Abstract

本发明公开了一种基于自注意力变换网络的多特征融合回声消除方法及系统，使用独立的卷积编码器对近端信号和远端信号分别提取潜在特征；将编码后的双端信号经过多头注意力计算注意力权重矩阵，与双端信号的潜在特征进行拼接，并使用一个深度可分离卷积网络对拼接信号进行融合；融合信号通过维度转换操作后生成块内特征，经过一个深度动态自注意力变换网络，再利用残差连接与注意力权重矩阵相加，转换为块间特征后再次经过深度动态自注意力变换网络；重复块内及块间操作，计算出掩码值；将掩蔽后的编码信号进行解码，得到消除回声后的近端信号。本发明能够在多种场景下消除回声，能够在保持近端语音完整性的情况下极大地提升回声消除的效果。

Description

基于自注意力变换网络的多特征融合回声消除方法及系统

技术领域

本发明属于音频技术领域，涉及一种回声消除方法及系统，特别是涉及一种基于深度自注意力变换网络的多特征融合回声消除方法及系统。

背景技术

在全双工语音通信系统中，当本地扬声器外放接收到的远端信号时，本地麦克风会同时采集到扬声器播放的远端信号和近端说话人的声音，形成近端混合信号，并将这种混合信号发送到远端，使得远端说话人听到自己刚刚说的话音。这种经过传输-播放-再次采集并传输回来的声音信号叫做回声。回声的存在会严重降低通信质量。声学回声消除的目标就是最大程度地去除近端混合信号中包含的远端信号形成的回声信号，同时保留近端说话人的语音信息。

传统的声学回声消除算法通常以接收到的远端信号作为参考信号，使用一个有限脉冲滤波器来自适应地估计回声信号，然后将其从麦克风采集的混合信号中减去。然而，传统方法在非线性回声以及带噪声的复杂环境下很难准确地估计回声信号。

近些年，基于深度神经网络的方法在回声消除领域得到应用。相较于传统回声消除算法，基于深度神经网络的方法能够更好地拟合非线性回声并消除背景噪声，在低信噪比的情况下更加具有竞争力。深度网络对于非线性特征的拟合非常优秀，但随着网络深度的增加，会导致网络的退化以及部分不可逆的信息损失，尤其是在一些复杂的深度网络结构中。

发明内容

为了解决上述技术问题，本发明提供了一种基于深度自注意力变换网络的多特征融合回声消除方法及系统。

本发明的方法采用的技术方案是：一种基于自注意力变换网络的多特征融合回声消除方法，包括以下步骤：

步骤1：计算近端混合信号和远端参考信号间的时延，将双端信号进行对齐；

步骤2：将近端混合信号和远端参考信号分别提取潜在特征，并计算近端混合信号潜在特征和远端参考信号潜在特征的注意力权重矩阵，将混合信号特征、注意力权重矩阵以及参考信号特征进行拼接，然后生成融合特征；

步骤3：将步骤2中提取的融合特征分割为指定大小的块，将融合特征分为块内特征以及块间特征两种路径形式；

步骤4：将步骤3中的块内特征送入深度动态自注意力变换网络，然后将网络的输出利用残差连接与步骤2中计算出的注意力权重矩阵进行相加后，转换为块间特征，再次送入深度动态自注意力变换网络；重复上述的块内及块间的操作过程，计算出掩码值；

步骤5：利用步骤4中计算的掩码值与近端混合信号的潜在特征进行掩蔽，得到消除回声的信号特征；

步骤6：将步骤5中掩蔽后的信号特征进行解码并重建信号，得到经过回声消除后的近端信号。

本发明的系统采用的技术方案是：一种深度自注意力变换网络的多特征融合回声消除系统，包括以下模块：

模块1，用于计算近端混合信号和远端参考信号间的时延，将双端信号进行对齐；

模块2，用于将近端混合信号和远端参考信号分别提取潜在特征，并计算近端混合信号潜在特征和远端参考信号潜在特征的注意力权重矩阵，将混合信号特征、注意力权重矩阵以及参考信号特征进行拼接，然后生成融合特征；

模块3，用于将模块2中提取的融合特征分割为指定大小的块，将融合特征分为块内特征以及块间特征两种路径形式；

模块4，用于将模块3中的块内特征送入深度动态自注意力变换网络，然后将网络的输出利用残差连接与模块2中计算出的注意力权重矩阵进行相加后，转换为块间特征，再次送入深度动态自注意力变换网络；重复上述的块内及块间的操作过程，计算出掩码值；

模块5，用于利用模块4中计算的掩码值与近端混合信号的潜在特征进行掩蔽，得到消除回声的信号特征；

模块6，用于将模块5中掩蔽后的信号特征进行解码并重建信号，得到经过回声消除后的近端信号。

本发明提供了一种基于深度自注意力变换网络的多特征融合回声消除方法及系统，使双端信号的潜在特征在回声消除网络中能够更加充分地融合，并引入深度自注意力变换网络(Transformer)对信号进行拟合。本发明通过采用多特征融合的残差网络弥补了深度自注意力变换网络中的信息损失，同时加快了网络的训练过程，在背景噪声、双端通话以及非线性失真等复杂环境下大大提升了回声消除的效果和应用范围，同时使回声消除网络在复杂环境下具有更强的泛化性。

附图说明

图1：为本发明实施例的方法流程图；

图2：为本发明实施例的系统结构图；

图3：为本发明实施例中融合参考信号以及混合信号的潜在特征的流程图；

图4：为本发明实施例中深度动态自注意力变换网络的结构图；

图5：为本发明实施例中语音能量控制组件的结构图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例首先计算近端混合信号和远端参考信号之间的时延以对齐，然后将对齐的双端信号独立地提取潜在特征，并采用多头注意力机制与深度可分离网络进行特征融合。采用矩阵维度转换的路径切分方式，融合特征可以被分为块内特征以及块间特征。将块内特征送入深度自注意力变换网络，然后将网络的输出利用残差连接与注意力权重矩阵相加后，转换为块间特征，再次送入深度自注意力变换网络。重复6次上述的块内及块间的操作过程，计算出掩码值。最后利用掩码对近端信号进行掩蔽、解码和重建，得到经过回声消除后的近端信号。

请见图1，本发明提供的一种基于深度自注意力变换网络的多特征融合回声消除方法，包括以下步骤：

步骤1：采用基于广义互相关函数的时延估计方法计算近端混合信号和远端参考信号间的时延，将双端信号进行对齐；

在本技术领域中，近端指的是本地麦克风采集到的信号，混合信号是指该信号既录制了本地说话人的语音，又录制了本地扬声器播放的远端信号；参考信号是指远端信号作为网络的参照物，参与到网络的训练中，因为本地麦克风采集到的信号的回声部分是远端信号经过非线性失真得到的。

本实施例中，时延估计方法具体为广义互相关-相位变换方法(GCC-PHAT)：

本实施例中，计算近端混合信号和远端参考信号的互相关函数峰值来确定时延值，互相关函数为两个序列的滑动乘积求和，反映出两个函数在不同相对位置上的匹配程度。由于远端参考信号和近端混合信号之间具有很强的相关性，理想情况下能够准确计算出参考信号的时延。

本实施例中，麦克风中采集和处理的信号采样频率均为16KHZ。

步骤2：将近端混合信号和远端参考信号分别通过对应的编码器提取潜在特征，并采用多头注意力机制计算近端混合信号潜在特征和远端参考信号潜在特征的注意力权重矩阵，将混合信号特征、注意力权重矩阵以及参考信号特征进行拼接，然后经过一个深度可分离网络生成融合特征；

本实施例中，步骤2的具体实现包括以下子步骤：

步骤2.1：近端混合信号和远端参考信号独立地通过编码器分别提取相应的潜在特征；

本实施例采用的编码器为一维卷积层和relu激活函数，其中卷积核大小为步长的两倍，窗长根据显存大小确定，以达到性能与显存占用的平衡，本实施例中取值为20；编码器提取的潜在特征均需要经过组归一化(Group Normalization)和瓶颈层(Bottleneck Layer)对数据进行处理；其中瓶颈层为1×1的卷积神经网络，另外可根据网络的训练效果增加卷积层数以及激活函数，以更好地拟合信号的高维非线性潜在特征。

步骤2.2：将步骤2.1的近端混合信号潜在特征和远端参考信号潜在特征通过多头注意力机制计算出注意力权重矩阵；

步骤2.3：将步骤2.1计算出的潜在特征与步骤2.2中计算出注意力权重矩阵在同一维度上进行拼接，获得拼接矩阵；

步骤2.4：利用深度可分离网络将步骤2.3中的拼接矩阵进行分组操作，将拼接矩阵的输出通道缩减为原来的1/3，形成充分结合近端混合信号和远端参考信号信息的深度融合特征。

请见图3，本实施例中深度可分离卷积网络，由一个深度卷积层以及一个点积卷积层组成，大大降低了所需的计算量。

本实施例，采用多头注意力机制计算双端信号潜在特征的注意力权重矩阵，将该矩阵与双端信号潜在特征进行拼接，形成多特征拼接矩阵；使用深度可分离卷积将多特征拼接矩阵进行分组操作，将输出通道缩减为原来的1/3。公式可表示为：

Q _i＝Enc(Mix),K _i＝Enc(Mix),V _i＝Enc(far)

M _i＝Point wise(Depthwise(J _i))

其中，mix和far分别代表近端混合信号及远端参考信号，经过Enc()卷积编码器获取相应的潜在特征，将近端混合信号mix的潜在特征作为多头注意力所需的查询Q以及键K，远端参考信号far的潜在特征则作为值V，其中下标i表示多头注意力中头的个数；经过多头注意力Attention()计算注意力权重矩阵，具体为缩放点积模型：即Q点乘K的转置除以向量维度d的平方根，再经过softmax激活函数计算出分数，再与V相乘得到最终的注意力权重矩阵。

之后将近端和远端信号的潜在特征以及它们之间的注意力权重矩阵拼接起来得到拼接矩阵J；最后送入由深度卷积层和点积卷积层组成的深度可分离卷积，计算出融合特征M。

上述注意力权重矩阵同时将由一个残差网络连接到步骤4中块间特征矩阵的训练中。

步骤3：将步骤2中提取的融合特征分割为指定大小的块，将分割后的融合特征进行层归一化处理后，采用矩阵维度变换的方式，将融合特征分为块内特征以及块间特征两种路径形式；

本实施例中，融合特征为长序列输入，将其分割为更小的块，使输入长度与原始序列长度的平方根接近，以优化数据空间；将分割后的融合特征进行层归一化处理；将经过处理后的融合特征进行维度变换操作，能够生成同一数据在不同维度上的块内特征及块间特征。

步骤4：将步骤3中的块内特征送入深度动态自注意力变换网络，然后将网络的输出利用残差连接与步骤2中计算出的注意力权重矩阵进行相加后，转换为块间特征，再次送入深度动态自注意力变换网络；重复6次上述的块内及块间的操作过程，计算出掩码值，能够充分利用双端特征进行局域建模和全局建模；

请见图4，本实施例的深度动态自注意力变换网络，为动态掩码注意力网络(DMAN)、自注意力网络及前馈神经网络的顺序分层结构；前馈神经网络由长短时记忆网络、激活函数以及线性连接层组成。

本实施例引入了一种新的动态掩码注意网络(dynamic mask attetion network,DMAN)，与Transformer原始的自注意网络(self-Attention network,SAN)和前馈网络(feedforward network,FFN)相结合，以DMAN→SAN→FFN的顺序分层结构进行数据流动。

改进网络的动态掩码注意模块公式如下：

A _M(Q,K,V)＝S _M(Q,K)V；

其中，Q、K、V分别为注意力机制中的查询、键和值；注意力A _M(Q,K,V)为注意力打分函数S _M(Q,K)与值V的乘积；d _k为向量维度；M _i,j是0到1的数，可以为动态或静态。为全1矩阵时，MAN退化为SAN，为单位矩阵时退化为FFN。从直觉上看，FFN只关注自己的信息，无法感知相邻的其他信息；而在SAN中，每个标识(token)对其他任何token都具有相等的联系。

另外，DMAN通过理论证明其能够改善SAN会引入噪声的缺点，以更好地建模局部信息；因此将DMAN加入回声消除网络中，能够使除回声之外的噪声更加平稳，以应对信噪比较低的环境。

本实施例的深度动态自注意力变换网络同时也保留了自注意力网络以及前馈神经网络，保证整个网络在不同尺度下的建模效果。前馈神经网络由长短时记忆网络、激活函数以及线性层组成，其中长短时记忆网络是为了捕捉序列的时间信息。

本实施例中，掩码值将经过一个二维卷积块，该模块由prelu激活函数以及一个二维卷积层组成，将特征映射到隐藏层中；然后按照步骤3中分割矩阵的方式还原特征序列；最后经过一个激活函数组件，其组件包括由卷积层、tanh、 sigmoid以及relu激活函数组成的语音能量控制组件。

如图5所示，掩码值首先经过平行的两个链路，分别是一维卷积层+tanh函数以及一维卷积层+sigmoid函数。两个链路输出的结果相乘，其点积再次经过激活函数relu。

由于tanh函数的取值为(-1,1)，sigmoid函数的取值为(0,1)，relu函数的取值为[0,∞)；因此最终使掩码值被限制在0到1之间。该语音能量控制组件的公式如下所示：

c_mask＝relu(tanh(1d_conv(mask)*sigmoid(1d_conv(mask))))；

各激活函数公式及取值为：

y＝relu(x)＝max(0,x),y∈[0,∞)；

原始掩码值mask经过一个一维卷积层1d_conv()，并分别经过激活函数tanh()和sigmoid()；两个函数的点积经过激活函数relu()，得到语音控制后的c_mask。

本实施例中，解码过程为一个线性连接层，重建信号具体为将高维矩阵还原为一维语音序列，类似于分帧合成的重叠相加过程；最终得到消除回声后的近端说话人信号。

请见图2，本发明提供的一种基于深度自注意力变换网络的多特征融合回声消除系统，包括以下模块：

通过上述方法和来自AEC-Challenge数据集的训练，初步验证了该结论。在远端信号带噪的情况下，AEC-Challenge的baseline的SI-SNR为12.20dB，DTLN-aec中网络的最好结果为13.59dB；本发明的网络测试结果为15.28dB。

本发明在网络结构上充分利用远端参考信号的高维特征信息，解决了深度自注意力变换网络中随深度增加而产生的网络退化问题，同时弥补了部分不可逆的信息损失；该结构也加速了整个网络的训练过程，在背景噪声、双端通话以及非线性失真的复杂环境下大大提升了回声消除的效果和应用范围。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

一种基于自注意力变换网络的多特征融合回声消除方法，其特征在于，包括以下步骤：

步骤1：计算近端混合信号和远端参考信号间的时延，将双端信号进行对齐；

步骤2：将近端混合信号和远端参考信号分别提取潜在特征，并计算近端混合信号潜在特征和远端参考信号潜在特征的注意力权重矩阵，将混合信号特征、注意力权重矩阵以及参考信号特征进行拼接，然后生成融合特征；

步骤3：将步骤2中提取的融合特征分割为指定大小的块，将融合特征分为块内特征以及块间特征两种路径形式；

步骤4：将步骤3中的块内特征送入深度动态自注意力变换网络，然后将网络的输出利用残差连接与步骤2中计算出的注意力权重矩阵进行相加后，转换为块间特征，再次送入深度动态自注意力变换网络；重复上述的块内及块间的操作过程，计算出掩码值；

步骤5：利用步骤4中计算的掩码值与近端混合信号的潜在特征进行掩蔽，得到消除回声的信号特征；

步骤6：将步骤5中掩蔽后的信号特征进行解码并重建信号，得到经过回声消除后的近端信号。
根据权利要求1所述的基于自注意力变换网络的多特征融合回声消除方法，其特征在于：步骤1中，采用基于广义互相关函数的时延估计方法计算近端混合信号和远端参考信号间的时延。
根据权利要求1所述的基于自注意力变换网络的多特征融合回声消除方法，其特征在于，步骤2的具体实现包括以下子步骤：

步骤2.1：近端混合信号和远端参考信号独立地通过编码器分别提取相应的潜在特征；

步骤2.2：将步骤2.1所述的近端混合信号潜在特征和远端参考信号潜在特征通过多头注意力机制计算出注意力权重矩阵；

步骤2.3：将步骤2.1计算出的潜在特征与步骤2.2中计算出注意力权重矩阵在同一维度上进行拼接，获得拼接矩阵；

步骤2.4：利用深度可分离卷积网络将步骤2.3中的拼接矩阵进行分组操作，将拼接矩阵的输出通道缩减为原来的1/3，形成充分结合近端混合信号和远端参考信号信息的深度融合特征。
根据权利要求3所述的基于自注意力变换网络的多特征融合回声消除方法，其特征在于：步骤2.1中所述编码器，为卷积层和relu激活函数，其中，卷积层数以及激活函数，根据训练效果确定；其中卷积核大小为步长的两倍，窗长根据显存大小确定，以达到性能与显存占用的平衡；编码器提取的潜在特征均经过组归一化和瓶颈层对数据进行处理；其中瓶颈层为1×1的卷积神经网络。
根据权利要求3所述的基于自注意力变换网络的多特征融合回声消除方法，其特征在于：步骤2.4中所述深度可分离卷积网络，由一个深度卷积层以及一个点积卷积层组成。
根据权利要求1所述的基于自注意力变换网络的多特征融合回声消除方法，其特征在于：步骤3中，将分割后的融合特征进行层归一化处理后，采用矩阵维度变换的方式，将融合特征分为块内特征以及块间特征两种路径形式，
根据权利要求1所述的基于自注意力变换网络的多特征融合回声消除方法，其特征在于：步骤4中所述深度动态自注意力变换网络为动态掩码注意力网络、自注意力网络及前馈神经网络的顺序分层结构；所述前馈神经网络由长短时记忆网络、激活函数以及线性连接层组成。
根据权利要求1所述的基于自注意力变换网络的多特征融合回声消除方法，其特征在于：步骤5中，掩码值经过一个二维卷积块，将特征映射到隐藏层中，所述二维卷积块由prelu激活函数以及一个二维卷积层组成；然后按照步骤3中分割方式还原特征序列，掩码值经过平行的两个链路，分别是一维卷积层+tanh函数以及一维卷积层+sigmoid函数；最后经过一个激活函数组件，所述激活函数组件为由卷积层、tanh、sigmoid以及relu激活函数组成的语音能量控制组件；两个链路输出的结果相乘，其点积再次经过激活函数relu；由于tanh函数的取值为(-1,1)，sigmoid函数的取值为(0,1)，relu激活函数的取值为[0,∞)；因此最终使掩码值被限制在0到1之间。
根据权利要求1-8任意一项所述的基于自注意力变换网络的多特征融合回声消除方法，其特征在于：步骤6中，解码过程为一个线性连接层，重建信号具体为将高维矩阵还原为一维语音序列，最终得到消除回声后的近端说话人信号。
一种基于自注意力变换网络的多特征融合回声消除系统，其特征在于，包括以下模块：

模块1，用于计算近端混合信号和远端参考信号间的时延，将双端信号进行对齐；

模块2，用于将近端混合信号和远端参考信号分别提取潜在特征，并计算近端混合信号潜在特征和远端参考信号潜在特征的注意力权重矩阵，将混合信号特征、注意力权重矩阵以及参考信号特征进行拼接，然后生成融合特征；

模块3，用于将模块2中提取的融合特征分割为指定大小的块，将融合特征分为块内特征以及块间特征两种路径形式；

模块4，用于将模块3中的块内特征送入深度动态自注意力变换网络，然后将网络的输出利用残差连接与模块2中计算出的注意力权重矩阵进行相加后，转换为块间特征，再次送入深度动态自注意力变换网络；重复上述的块内及块间的操作过程，计算出掩码值；

模块5，用于利用模块4中计算的掩码值与近端混合信号的潜在特征进行掩蔽，得到消除回声的信号特征；

模块6，用于将模块5中掩蔽后的信号特征进行解码并重建信号，得到经过回声消除后的近端信号。