WO2021077247A1

WO2021077247A1 - 一种人工耳蜗信号处理方法、装置及计算机可读存储介质

Info

Publication number: WO2021077247A1
Application number: PCT/CN2019/112174
Authority: WO
Inventors: 郑能恒; 史裕鹏; 康迂勇; 张伟
Original assignee: 深圳大学
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2021-04-29

Abstract

根据本发明实施例公开的人工耳蜗信号处理方法、装置及计算机可读存储介质，首先获取训练语音信号，并将训练语音信号经过预处理后输入至包络提取网络进行网络训练，其中，包络提取网络包括依次顺序连接的三个深度神经网络；然后将采集的实时语音信号经预处理后输入至训练完成的包络提取网络，提取个数对应于体内植入电极个数的通道包络；最后对所提取的通道包络依次进行非线性压缩、通道选择、电极映射以及脉冲调制，输出目标数量的电极刺激信号至对应数量的体内植入电极。通过本发明所提供的计算复杂度较低的轻量级包络提取网络，有效降低了功率消耗，提升了处理效率以及降噪处理效果，并保证了CI信号处理与降噪的无缝融合。

Description

一种人工耳蜗信号处理方法、装置及计算机可读存储介质

技术领域

本发明涉及信号处理技术领域，尤其涉及一种人工耳蜗信号处理方法、装置及计算机可读存储介质。

背景技术

人工耳蜗(CI，CochlearImplant)是一种听觉仿生装置，主要用于为重度听觉外周损伤(如内耳毛细胞坏死)的耳聋患者提供言语感知。当前，最先进的CI装置在安静声学环境下能够使CI植入者达到与正常人相当的言语感知效果。但是，现实生活中的背景噪声(如环境噪声或者多人交谈的情况)会严重影响CI植入者的言语感知体验。

近年来，学术界和工业界提出了许多将降噪算法与传统CI信号处理策略相结合的、用于改进CI言语感知效果的信号处理系统。但是，一方面，目前的降噪算法的模型参数庞大、计算复杂度较高，导致实际应用中的信号处理效率低、消耗功率高；另一方面，目前的降噪算法并不能可靠地提取出声音中的时域精细结构，降噪处理效果较为局限；另外，经过目前的降噪算法处理后的语音信号输入至CI信号处理单元进行处理时，无法保证最终的输出能够达到最佳言语感知效果，从而降噪算法与CI处理策略之间的适配性较差。

发明内容

本发明实施例的主要目的在于提供一种人工耳蜗信号处理方法、装置及计算机可读存储介质，至少能够解决相关技术中所采用的降噪算法的处理效率低、消耗功率高、降噪处理效果较为局限，以及无法很好适配于CI处理策略的问题。

为实现上述目的，本发明实施例第一方面提供了一种基于深度学习的人工耳蜗信号处理方法，应用于人工耳蜗装置，该方法包括：

获取训练语音信号，并将所述训练语音信号经过预处理后输入至包络提取网络，对所述包络提取网络进行训练；其中，所述包络提取网络包括依次顺序连接的第一深度神经网络、第二深度神经网络以及第三深度神经网络，所述第一深度神经网络用于从输入的特征中提取高维特征，所述第二深度神经网络用于估计增强后的所述训练语音信号的特征，所述第三深度神经网络用于从所述第二深度神经网络所估计的特征中，提取个数对应于体内植入电极个数的通道包络；

将采集到的实时语音信号经过预处理后输入至训练完成的包络提取网络，提取个数对应于体内植入电极个数的通道包络；

对从所述实时语音信号中所提取的通道包络依次进行非线性压缩、通道选择、电极映射以及脉冲调制，然后输出目标数量的电极刺激信号至对应数量的体内植入电极。

为实现上述目的，本发明实施例第二方面提供了一种基于深度学习的人工耳蜗信号处理装置，应用于人工耳蜗装置，该装置包括：

训练模块，用于获取训练语音信号，并将所述训练语音信号经过预处理后输入至包络提取网络，对所述包络提取网络进行训练；其中，所述包络提取网络包括依次顺序连接的第一深度神经网络、第二深度神经网络以及第三深度神经网络，所述第一深度神经网络用于从输入的特征中提取高维特征，所述第二深度神经网络用于估计增强后的所述训练语音信号的特征，所述第三深度神经网络用于从所述第二深度神经网络所估计的特征中，提取个数对应于体内植入电极个数的通道包络；

提取模块，用于将采集到的实时语音信号经过预处理后输入至训练完成的包络提取网络，提取个数对应于体内植入电极个数的通道包络；

处理模块，用于对从所述实时语音信号中所提取的通道包络依次进行非线性压缩、通道选择、电极映射以及脉冲调制，然后输出目标数量的电极刺激信号至对应数量的体内植入电极。

为实现上述目的，本发明实施例第三方面提供了一种人工耳蜗装置，该人工耳蜗装置包括：处理器、存储器和通信总线；

所述通信总线用于实现所述处理器和存储器之间的连接通信；

所述处理器用于执行所述存储器中存储的一个或者多个程序，以实现上述任意一种人工耳蜗信号处理方法的步骤。

为实现上述目的，本发明实施例第四方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任意一种人工耳蜗信号处理方法的步骤。

根据本发明实施例提供的人工耳蜗信号处理方法、装置及计算机可读存储介质，获取训练语音信号，并将训练语音信号经过预处理后输入至包络提取网络，对包络提取网络进行训练，其中，包络提取网络包括依次顺序连接的第一深度神经网络、第二深度神经网络以及第三深度神经网络；将采集到的实时语音信号经过预处理后输入至训练完成的包络提取网络，提取个数对应于体内植入电极个数的通道包络；对从实时语音信号中所提取的通道包络依次进行非线性压缩、通道选择、电极映射以及脉冲调制，然后输出目标数量的电极刺激信号至对应数量的体内植入电极。通过本发明所提供的计算复杂度较低的轻量级包络提取网络，有效降低了功率消耗，提升了处理效率以及降噪处理效果，并保证了CI信号处理与降噪的无缝融合。

本发明其他特征和相应的效果在说明书的后面部分进行阐述说明，且应当理解，至少部分效果从本发明说明书中的记载变的显而易见。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的人工耳蜗信号处理方法的基本流程示意图；

图2为本发明第一实施例提供的网络训练方法的流程示意图；

图3为本发明第一实施例提供的包络提取网络的训练示意图；

图4为本发明第二实施例提供的人工耳蜗信号处理装置的结构示意图；

图5为本发明第三实施例提供的人工耳蜗装置的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例：

为了解决相关技术中所采用的降噪算法的处理效率低、消耗功率高、降噪处理效果较为局限，以及无法很好适配于CI处理策略的技术问题，本实施例提出了一种人工耳蜗信号处理方法，应用于人工耳蜗装置，如图1所示为本实施例提供的人工耳蜗信号处理方法的基本流程示意图，本实施例提出的人工耳蜗信号处理方法包括以下的步骤：

步骤101、获取训练语音信号，并将训练语音信号经过预处理后输入至包络提取网络，对包络提取网络进行训练。

具体的，本实施例中的包络提取网络包括依次顺序连接的第一深度神经网络(DNN1)、第二深度神经网络(DNN2)以及第三深度神经网络(DNN3)，第一深度神经网络优选的可以为长短时记忆网络(LSTM，Long Short-Term Memory)，用于从输入的特征中提取高维特征，第二深度神经网络用于估计增强后的训练语音信号的特征，第三深度神经网络用于从第二深度神经网络所估计的特征中，提取个数对应于体内植入电极个数的通道包络。应当理解的是，本实施例中的特征在实际应用中可以为频域特征(如对数幅度谱、幅度谱等)或时域特征。

目前市场上主流的CI装置包含体内植入体和体外机两部分，本实施例的CI的信号处理系统优选的设置在体外机中，并且本实施例的CI产品的植入电极数目优选可以为22个。本实施例通过包络提取网络来提取数量与实际CI产品植入电极数量相同的通道的子带信号包络，使得包络中包含更丰富的原始声音细节信息。

还应当说明的是，在实际应用中，训练语音信号可以是现成的训练语音样本，例如从预设的样本数据库中直接获取，还可以是自行录制得到，本实施例在此不作唯一限定。

在本实施例一种可选的实施方式中，获取训练语音信号包括：从预设的语音数据库中随机挑选目标数量的干净语音样本，以及从预设的噪声集中挑选预设类型的噪声样本；基于干净语音样本以及噪声样本，在预设的信噪比下结合生成训练语音信号。

具体的，本实施例通过选取合适的语音数据库和噪声数据库来自行构造训练语音样本。其中，可以从清华中文语音数据库的训练集中随机挑选2500句语音组成本实施例的包络提取网络的干净语音样本集，以及可以从noiseX-92噪声集中挑选类型分别为whitenoise和babble的两种噪声作为噪声样本集。然后将2500句语音与噪声在信噪比分别为-5dB、0dB、5dB及无噪声四种情况下随机结合，即可生成用于训练包络提取网络的带噪的训练语音信号。

如图2所示为本实施例提供的一种网络训练方法的流程示意图，在本实施例一种可选的实施方式中，将训练语音信号经过预处理后输入至包络提取网络，对包络提取网络进行训练具体包括以下步骤：

步骤1011、对训练语音信号进行预处理得到连续预设帧数的特征；

步骤1012、将连续预设帧数的特征输入至包含128个神经元的第一深度神经网络进行高维特征提取；

步骤1013、将第一深度神经网络的输出，经过由两个均包含512个神经元的全连接层以及一个包含65个神经元的线性层组成的第二深度神经网络，估计增强后的训练语音信号的特征；

步骤1014、将第二深度神经网络的输出，经过由一个包含256个神经元的全连接层以及一个包含22个神经元的线性层组成的第三深度神经网络，提取个数对应于体内植入电极个数的通道包络；

步骤1015、采用反向传播算法对包络提取网络进行参数优化，并迭代训练至包络提取网络收敛，得到训练完成的包络提取网络。

具体的，本实施例首先可以对带噪语音及其对应的干净语音样本分别进行预处理得到短时傅里叶变换对数能量谱特征(Log-powermagnitudes-LPS，8ms/帧，帧移为1ms)。考虑语音相邻帧间的相关性，本实施例的包络提取网络的输入可以为连续25帧特征作为一个连续特征块。将连续25帧的带噪语音的LPS特征(维度为25×65)输入一层单向DNN1(例如LSTM)，DNN1的输出先经过DNN2输出估计的LPS(维度为25×65)，并将DNN2的输出继续输入至DNN3，输出估计的22个通道包络(维度为25×22)，然后再采用反向传播算法对网络进行参数优化来得到最终的网络模型。

应当说明的是，在反向传播过程中，通过损失函数来调整网络的各种参数的值，损失函数用来估计所训练的网络模型的预测值与真实值的逼近程度，是一个凸优化过程，其中，损失函数越小，模型的包络提取和处理能力越强。本实施例根据损失函数更新网络参数后继续迭代网络训练过程，直至网络收敛，也即损失函数的函数值基本停止降低，即训练完成本实施例的包络提取网络的网络模型。

进一步地，在本实施例一种可选的实施方式中，包络提取网络的损失函数表示为：

loss＝w _stft*loss _stft+w _env*loss _env+w _waveform*loss _waveform，

其中，loss _stft为第二深度神经网络所输出的特征，与对应于训练语音信号的干净语音样本的特征的误差，loss _env为第三深度神经网络所提取的通道包络特征，与干净语音样本经过传统CI处理策略提取的通道包络特征的误差，loss _waveform为基于第三深度神经网络所提取的通道包络经过电极映射等处理后所得到的仿真语音信号，与干净语音样本的误差，w _stft、w _env、w _waveform分别为各误差所对应的加权因子。应当理解的是，本实施例的上述误差可以优选为L1范式误差。

如图3所示为本实施例提供的一种包络提取网络的训练示意图，其中，A表示输入的训练语音信号，B表示用于与噪声一起生成训练语音信号的干净语音样本，C表示包络提取网络。承接前述所优选的包络提取网络的尺度，在本实施例中，将带噪语音的特征(维度为25×65)输入DNN1进行高维特征提取，DNN1的输出经过DNN2后输出估计的LPS特征(维度为25×65)，可以基于DNN2输出的65维LPS特征与对应的干净语音样本的65维LPS特征计算loss _stft，这里loss _stft的计算可以借鉴音频编码普遍使用的加权感知方法，目的在于引导模型对共振峰附近的噪声不那么敏感，对非共振峰的谷底附近的噪声较为敏感；另外，基于DNN3输出的22维通道包络与对应干净语音样本经现有的传统CI处理策略例如ACE(advanced combination encoders)策略提取的22维通道包络计算loss _env；此外，还由DNN3输出的22维通道包络构造仿真语音信号，计算该仿真语音信号与干净语音波形误差loss _waveform，从而迫使本实施例的包络提取网络学习干净语音的细节信息，有效克服了传统CI策略无法有效提取时域细节信息的缺点。

最后，将三种误差通过三个可调整的加权因子加权后相加，作为对包络提取网络进行优化学习的目标函数。在优选的实施方式中，整个包络提取网络使用Adam梯度优化器训练60个epoch，保存其中验证loss最小的模型作为最终训练完成的包络提取网络模型。

应当说明的是，通过本实施例提供的损失函数，既能在一定程度上引导模型学习传统CI处理策略如何从傅里叶能量谱提取得到包络能量，又能够在频域和时域两个域迫使网络学习如何逼近干净语音的数据分布，间接使得包络提取网络输出的包络信号具备更多细节信息，在很大程度上克服了传统CI处理策略本身无法提取到语音信号时间序列上细节信息的缺陷。

步骤102、将采集到的实时语音信号经过预处理后输入至训练完成的包络提取网络，提取个数对应于体内植入电极个数的通道包络。

具体的，CI装置的语音采集单元例如麦克风在接收到外界的语音信号时，对信号进行预处理后输出至训练好的包络提取网络，本实施例优选的植入电极数量可以为22个，那么网络输出22个通道包络信号。应当说明的是，本实施例中的包络提取网络模型相对于现有的算法模型更为精简，大小仅约为1.9MB，网络的参数数量为0.46M，系统复杂度显著降低，平均每帧(8ms)解码处理用时约为0.1～0.2ms。由于网络模型的参数总量和计算复杂度大大降低，功耗也相应降低(内存和CPU占比都很小)，确保了本实施例的包络提取网络模型应用于实际CI产品的可行性。

步骤103、对从实时语音信号中所提取的通道包络依次进行非线性压缩、通道选择、电极映射以及脉冲调制，然后输出目标数量的电极刺激信号至对应数量的体内植入电极。

具体的，本实施例中的预处理、非线性压缩处理、通道选择处理、电极映射处理脉冲调制处理以及仿真语音信号的生成均采用与传统CI处理策略相同的方式，在此不再赘述。应当说明的是，在进行通道选择时，本实施例可以选择能量最大和/或信噪比最高的N个包络信号进行电极映射，例如体内植入电极的总数量为22个时，所选择的通道可以为8个，经过脉冲调制后的电刺激信号则输出至相应的8个植入电极。

利用本实施例的包络提取网络强大的学习能力，通过构造合适的带噪语音数据进行训练，可以很好的达到降噪效果，在不需另外增加其他前端降噪模块的情况下已具备传统CI处理策略所无法具备的抗噪性能。

此外，本实施例的包络提取网络能够通过第二深度神经网络来学习得到一个类似于现有CI处理策略中的三角滤波器组的参数的可调参数，且基于仿真语音与真实语音所得的误差反向传播优化包络提取网络，使得所提取的包络具备更多的细节信息，在安静环境下所实现的语音处理效果优于传统CI处理策略，且在噪声环境下的降噪性能明显优于将维纳滤波或一些轻量级DNN作为前端降噪模块的传统CI处理策略。

根据本发明实施例提供的人工耳蜗信号处理方法，获取训练语音信号，并将训练语音信号经过预处理后输入至包络提取网络，对包络提取网络进行训练，其中，包络提取网络包括依次顺序连接的第一深度神经网络、第二深度神经网络以及第三深度神经网络；将采集到的实时语音信号经过预处理后输入至训练完成的包络提取网络，提取个数对应于体内植入电极个数的通道包络；对从实时语音信号中所提取的通道包络依次进行非线性压缩、通道选择、电极映射以及脉冲调制，然后输出目标数量的电极刺激信号至对应数量的体内植入电极。通过本发明所提供的计算复杂度较低的轻量级包络提取网络，有效降低了功率消耗，提升了处理效率以及降噪处理效果，并保证了CI信号处理与降噪的无缝融合。

第二实施例：

为了解决相关技术中所采用的降噪算法的处理效率低、消耗功率高、降噪处理效果较为局限，以及无法很好适配于CI处理策略的技术问题，本实施例示出了一种人工耳蜗信号处理装置，应用于人工耳蜗装置，具体请参见图4，本实施例的人工耳蜗信号处理装置包括：

训练模块401，用于获取训练语音信号，并将训练语音信号经过预处理后输入至包络提取网络，对包络提取网络进行训练；其中，包络提取网络包括依次顺序连接的第一深度神经网络、第二深度神经网络以及第三深度神经网络，第一深度神经网络用于从输入的特征中提取高维特征，第二深度神经网络用于估计增强后的训练语音信号的特征，第三深度神经网络用于从第二深度神经网络所估计的特征中，提取个数对应于体内植入电极个数的通道包络；

提取模块402，用于将采集到的实时语音信号经过预处理后输入至训练完成的包络提取网络，提取个数对应于体内植入电极个数的通道包络；

处理模块403，用于对从实时语音信号中所提取的通道包络依次进行非线性压缩、通道选择、电极映射以及脉冲调制，然后输出目标数量的电极刺激信号至对应数量的体内植入电极。

在本实施例一种可选的实施方式中，训练模块401在将训练语音信号经过预处理后输入至包络提取网络，对包络提取网络进行训练时，具体用于：对训练语音信号进行预处理得到连续预设帧数的特征；将连续预设帧数的特征输入至包含128个神经元的第一深度神经网络进行高维特征提取；将第一深度神经网络的输出，经过由两个均包含512个神经元的全连接层以及一个包含65个神经元的线性层组成的第二深度神经网络，估计增强后的训练语音信号的特征；将第二深度神经网络的输出，经过由一个包含256个神经元的全连接层以及一个包含22个神经元的线性层组成的第三深度神经网络，提取个数对应于体内植入电极个数的通道包络；采用反向传播算法对包络提取网络进行参数优化，并迭代训练至包络提取网络收敛，得到训练完成的包络提取网络。

在本实施例一种可选的实施方式中，训练模块401在获取训练语音信号时，具体用于：从预设的语音数据库中随机挑选目标数量的干净语音样本，以及从预设的噪声集中挑选预设类型的噪声样本；基于干净语音样本以及噪声样本，在预设的信噪比下结合生成训练语音信号。

loss＝w _stft*loss _stft+w _env*loss _env+w _waveform*loss _waveform，

其中，loss _stft为第二深度神经网络所输出的特征，与对应于训练语音信号的干净语音样本的特征的误差，loss _env为第三深度神经网络所提取的通道包络特征，与干净语音样本经过传统CI处理策略提取的通道包络特征的误差，loss _waveform为基于第三深度神经网络所提取的通道包络得到的仿真语音信号，与干净语音样本的误差，w _stft、w _env、w _waveform分别为各误差所对应的加权因子。

应当说明的是，前述实施例中的人工耳蜗信号处理方法均可基于本实施例提供的人工耳蜗信号处理装置实现，所属领域的普通技术人员可以清楚的了解到，为描述的方便和简洁，本实施例中所描述的人工耳蜗信号处理装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

采用本实施例提供的人工耳蜗信号处理装置，获取训练语音信号，并将训练语音信号经过预处理后输入至包络提取网络，对包络提取网络进行训练，其中，包络提取网络包括依次顺序连接的第一深度神经网络、第二深度神经网络以及第三深度神经网络；将采集到的实时语音信号经过预处理后输入至训练完成的包络提取网络，提取个数对应于体内植入电极个数的通道包络；对从实时语音信号中所提取的通道包络依次进行非线性压缩、通道选择、电极映射以及脉冲调制，然后输出目标数量的电极刺激信号至对应数量的体内植入电极。通过本发明所提供的计算复杂度较低的轻量级包络提取网络，有效降低了功率消耗，提升了处理效率以及降噪处理效果，并保证了CI信号处理与降噪的无缝融合。

第三实施例：

本实施例提供了一种人工耳蜗装置，参见图5所示，其包括处理器501、存储器502及通信总线503，其中：通信总线503用于实现处理器501和存储器502之间的连接通信；处理器501用于执行存储器502中存储的一个或者多个计算机程序，以实现上述实施例一中的人工耳蜗信号处理方法中的至少一个步骤。

本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory，随机存取存储器),ROM(Read-Only Memory，只读存储器),EEPROM(Electrically Erasable Programmable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

本实施例中的计算机可读存储介质可用于存储一个或者多个计算机程序，其存储的一个或者多个计算机程序可被处理器执行，以实现上述实施例一中的方法的至少一个步骤。

本实施例还提供了一种计算机程序，该计算机程序可以分布在计算机可读介质上，由可计算装置来执行，以实现上述实施例一中的方法的至少一个步骤；并且在某些情况下，可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。

本实施例还提供了一种计算机程序产品，包括计算机可读装置，该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。

可见，本领域的技术人员应该明白，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。

此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

一种人工耳蜗信号处理方法，应用于人工耳蜗装置，其特征在于，包括：

获取训练语音信号，并将所述训练语音信号经过预处理后输入至包络提取网络，对所述包络提取网络进行训练；其中，所述包络提取网络包括依次顺序连接的第一深度神经网络、第二深度神经网络以及第三深度神经网络，所述第一深度神经网络用于从输入的特征中提取高维特征，所述第二深度神经网络用于估计增强后的所述训练语音信号的特征，所述第三深度神经网络用于从所述第二深度神经网络所估计的特征中，提取个数对应于体内植入电极个数的通道包络；

将采集到的实时语音信号经过预处理后输入至训练完成的包络提取网络，提取个数对应于体内植入电极个数的通道包络；

对从所述实时语音信号中所提取的通道包络依次进行非线性压缩、通道选择、电极映射以及脉冲调制，然后输出目标数量的电极刺激信号至对应数量的体内植入电极。
如权利要求1所述的人工耳蜗信号处理方法，其特征在于，所述将所述训练语音信号经过预处理后输入至包络提取网络，对所述包络提取网络进行训练包括：

对所述训练语音信号进行预处理得到连续预设帧数的特征；

将所述连续预设帧数的特征输入至包含128个神经元的第一深度神经网络进行高维特征提取；

将所述第一深度神经网络的输出，经过由两个均包含512个神经元的全连接层以及一个包含65个神经元的线性层组成的第二深度神经网络，估计增强后的所述训练语音信号的特征；

将所述第二深度神经网络的输出，经过由一个包含256个神经元的全连接层以及一个包含22个神经元的线性层组成的第三深度神经网络，提取个数对应于体内植入电极个数的通道包络；

采用反向传播算法对所述包络提取网络进行参数优化，并迭代训练至所述包络提取网络收敛，得到训练完成的包络提取网络。
如权利要求1所述的人工耳蜗信号处理方法，其特征在于，所述获取训练语音信号包括：

从预设的语音数据库中随机挑选目标数量的干净语音样本，以及从预设的噪声集中挑选预设类型的噪声样本；

基于所述干净语音样本以及所述噪声样本，在预设的信噪比下生成训练语音信号。
如权利要求1至3中任意一项所述的人工耳蜗信号处理方法，其特征在于，所述包络提取网络的损失函数表示为：

loss＝w _stft*loss _stft+w _env*loss _env+w _waveform*loss _waveform，

其中，loss _stft为所述第二深度神经网络所输出的特征，与对应于所述训练语音信号的干净语音样本的特征的误差，loss _env为所述第三深度神经网络所提取的通道包络特征，与所述干净语音样本经过传统CI处理策略提取的通道包络特征的误差，loss _waveform为基于所述第三深度神经网络所提取的通道包络得到的仿真语音信号，与所述干净语音样本的误差，w _stft、w _env、w _waveform分别为各误差所对应的加权因子。
一种人工耳蜗信号处理装置，应用于人工耳蜗装置，其特征在于，包括：

训练模块，用于获取训练语音信号，并将所述训练语音信号经过预处理后输入至包络提取网络，对所述包络提取网络进行训练；其中，所述包络提取网络包括依次顺序连接的第一深度神经网络、第二深度神经网络以及第三深度神经网络，所述第一深度神经网络用于从输入的特征中提取高维特征，所述第二深度神经网络用于估计增强后的所述训练语音信号的特征，所述第三深度神经网络用于从所述第二深度神经网络所估计的特征中，提取个数对应于体内植入电极个数的通道包络；

提取模块，用于将采集到的实时语音信号经过预处理后输入至训练完成的包络提取网络，提取个数对应于体内植入电极个数的通道包络；

处理模块，用于对从所述实时语音信号中所提取的通道包络依次进行非线性压缩、通道选择、电极映射以及脉冲调制，然后输出目标数量的电极刺激信号至对应数量的体内植入电极。
如权利要求5所述的人工耳蜗信号处理装置，其特征在于，所述训练模块在将所述训练语音信号经过预处理后输入至包络提取网络，对所述包络提取网络进行训练时，具体用于：

对所述训练语音信号进行预处理得到连续预设帧数的特征；

将所述连续预设帧数的特征输入至包含128个神经元的第一深度神经网络进行高维特征提取；

将所述第一深度神经网络的输出，经过由两个均包含512个神经元的全连接层以及一个包含65个神经元的线性层组成的第二深度神经网络，估计增强后的所述训练语音信号的特征；

将所述第二深度神经网络的输出，经过由一个包含256个神经元的全连接层以及一个包含22个神经元的线性层组成的第三深度神经网络，提取个数对应于体内植入电极个数的通道包络；

采用反向传播算法对所述包络提取网络进行参数优化，并迭代训练至所述包络提取网络收敛，得到训练完成的包络提取网络。
如权利要求5所述的人工耳蜗信号处理装置，其特征在于，所述训练模块在获取训练语音信号时，具体用于：

从预设的语音数据库中随机挑选目标数量的干净语音样本，以及从预设的噪声集中挑选预设类型的噪声样本；

基于所述干净语音样本以及所述噪声样本，在预设的信噪比下结合生成训练语音信号。
如权利要求5至7中任意一项所述的人工耳蜗信号处理装置，其特征在于，所述包络提取网络的损失函数表示为：

loss＝w _stft*loss _stft+w _env*loss _env+w _waveform*loss _waveform，

其中，loss _stft为所述第二深度神经网络所输出的特征，与对应于所述训练语音信号的干净语音样本特征的误差，loss _env为所述第三深度神经网络所提取的通道包络特征，与所述干净语音样本经过传统CI处理策略提取的通道包络特征的误差，loss _waveform为基于所述第三深度神经网络所提取的通道包络得到的仿真语音信号，与所述干净语音样本的误差，w _stft、w _env、w _waveform分别为各误差所对应的加权因子。
一种人工耳蜗装置，其特征在于，包括：处理器、存储器和通信总线；

所述通信总线用于实现所述处理器和存储器之间的连接通信；

所述处理器用于执行所述存储器中存储的一个或者多个程序，以实现如权利要求1至4中任意一项所述的人工耳蜗信号处理方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至4中任意一项所述的人工耳蜗信号处理方法的步骤。