WO2021129196A1

WO2021129196A1 - 一种语音信号处理方法及装置

Info

Publication number: WO2021129196A1
Application number: PCT/CN2020/127546
Authority: WO
Inventors: 张献春; 钟金云
Original assignee: 荣耀终端有限公司
Priority date: 2019-12-25
Filing date: 2020-11-09
Publication date: 2021-07-01
Also published as: EP4021008A1; EP4021008A4; CN113038315A; EP4021008B1; US20230024984A1

Abstract

本申请提供一种语音信号处理方法及装置，涉及信号处理技术和耳机领域，用于监听环境音信号，提高监听效果和用户体验。该方法应用于耳机中，该耳机包括至少一个外部语音采集器，包括：预处理至少一个外部语音采集器采集到的语音信号，得到外部语音信号；提取外部语音信号中的环境音信号；根据第一语音信号和环境音信号的幅值和相位、以及至少一个外部语音采集器的位置，对第一语音信号和环境音信号做混音处理，得到目标语音信号。

Description

一种语音信号处理方法及装置

本申请要求于2019年12月25日提交国家知识产权局、申请号为201911359322.4、申请名称为“一种语音信号处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信号处理技术和耳机领域，尤其涉及一种语音信号处理方法及装置。

背景技术

为了营造更好的听音环境，实现更好的声音效果，现有耳机都采用了各种降噪技术，用于对周边环境中的其他声音起到隔绝或智能消除的作用。但是，隔离环境声音之后，用户几乎听不到周围环境的声音，也会给用户带来诸多问题。比如，当用户需要与身边人谈话时，用户需要取下耳机才听得见对方说话。再比如，当用户在室外行走时，用户很难听到车辆喇叭声，当有车辆经过时容易发生危险情况。因此，具有监听环境音的功能的耳机成为一种需求。

图1为现有技术中一种耳机的示意图，该耳机设置有噪声麦克风(microphone，MIC)，图1中表示为MIC1，在用户佩戴耳机时MIC1靠近用户的耳朵。对于设置有MIC1的耳机，现有技术中通常采用以下方法来监听环境音：在主动降噪(active noise cancellation，ANC)芯片中将MIC1采集到的语音信号经过高通滤波器和低通滤波器进行滤波处理，以保留某一频段的语音信号，再将保留的语音信号经过均衡器(equalizer，EQ)优化后通过扬声器输出。但是，通过这种方法监听到的环境音信号很不自然，从而监听效果不佳。

发明内容

本申请技术方案提供一种语音信号处理方法及装置，用于监听环境音信号，提高监听效果和用户体验。

第一方面，本申请技术方案提供一种语音信号处理方法，应用于耳机中，该耳机包括至少一个外部语音采集器，包括：预处理至少一个外部语音采集器采集到的语音信号，得到外部语音信号，预处理具体可以包括用于提高外部语音信号的信噪比比的相关处理，比如，降噪、调整幅值或增益等处理；提取外部语音信号中的环境音信号，比如，提取外部语音信号中的汽笛声、广播声或者婴儿哭声等；根据第一语音信号和环境音信号的幅值和相位、以及至少一个外部语音采集器的位置，对第一语音信号和环境音信号做混音处理，得到目标语音信号；其中，第一语音信号可以为与该耳机连接的电子设备传输给该耳机的待播放的语音信号，比如歌曲或广播等；或者，第一语音信号为该耳机的麦克风采集到的语音信号，比如用户的通话语音等。

上述技术方案中，外部语音采集器在用户佩戴该耳机时位于用户耳道外，从而预处理至少一个外部语音采集器采集到的语音信号可以得到外部语音信号。提取外部语音信号中的环境音信号可以得到所需要的环境音信号，对第一语音信号和环境音信号做混音处理，得到目标语音信号，从而在播放该目标语音信号时，可以使用户听到清晰、自然的第一语音信号和外部环境中重要的环境音信号，从而实现了环境音的监听，且提高监听效果和用户体验。

在第一方面的一种可能的实现方式中，对第一语音信号和环境音信号做混音处理，包括：调整第一语音信号的幅值、相位或输出时延中的至少一个；和/或，调整环境音信号的幅值、相位或输出时延中的至少一个；将调整后的第一语音信号和调整后的环境音信号融合为一个语音信号。上述可能的实现方式中，通过调整第一语音信号和环境音信号，可以使得用户听到的第一语音信号清晰、自然，同时听到的环境音信号不会产生刺耳、或者听不见等不适的问题，从而提高了语音信号的质量和用户体验。

在第一方面的一种可能的实现方式中，提取外部语音信号中的环境音信号，包括：将外部语音信号与样本语音信号做相干性处理，得到环境音信号。其中，将外部语音信号与样本语音信号做相干性处理可以包括：确定外部语音信号的功率谱密度，确定样本语音信号的功率谱密度，以及确定外部语音信号与样本语音信号的互谱密度；根据所述功率谱密度和所述互谱密度确定外部语音信号和样本语音信号的相干性系数，进而根据相干性系数确定环境音信号，比如，可以将外部语音信号中相干性系数等于1或接近于1时对应的语音信号确定为环境音信号。上述可能的实现方式中，提供的提取环境音信号的方式的准确性高，且得到的环境音信号的信噪比高。

在第一方面的一种可能的实现方式中，至少一个外部语音采集器包括至少两个外部语音采集器，则提取外部语音信号中的环境音信号包括：将至少两个外部语音采集器对应的外部语音信号做相干性处理，得到环境音信号，每个外部语音采集器对应的外部语音信号是指预处理该外部语音采集器采集到的语音信号后得到的外部语音信号。上述可能的实现方式中，通过相干性处理提供的提取环境音信号的方式的准确性高，且得到的环境音信号的信噪比高。

在第一方面的一种可能的实现方式中，该耳机还包括耳道语音采集器，该方法还包括：预处理耳道语音采集器采集到的语音信号，得到第一语音信号，第一语音信号可以仅包括用户语音信号(比如，用户的自语音信号等)，也可以同时包括用户语音信号和环境音信号。相应的，根据第一语音信号和环境音信号的幅值和相位、以及至少一个外部语音采集器的位置，对第一语音信号和环境音信号做混音处理，包括：根据第一语音信号和环境音信号的幅值和相位、以及至少一个外部语音采集器和耳道语音采集器的位置，对第一语音信号和环境音信号做混音处理。比如，至少一个外部语音采集器的位置为位置1、且第一语音信号与环境音信号的幅值差小于某一幅值阈值时，增大环境音信号的幅值至预设幅值阈值，以及调整环境音信号的输出时延；再比如，至少一个外部语音采集器的位置为位置2、且第一语音信号与环境音信号相邻的幅值对应的时刻差小于某一时刻差阈值时，将环境音信号拉宽并设置输出时延。上述可能的实现方式中，第一语音信号是预处理耳道语音采集器采集到的语音信号得到的，从而可以使得用户在目标语音信号播放时可以听到清楚、自然的自语音信号，比如通话语音信号等，从而提高了通话质量。

在第一方面的一种可能的实现方式中，预处理耳道语音采集器采集到的语音信号，包括：对耳道语音采集器采集到的语音信号做以下至少一种处理：幅度调整、增益增强、回波消除或者噪声抑制。上述可能的实现方式中，耳道语音采集器采集到的第的语音信号可能会存在幅度较小、增益较低的情况，该语音信号中也会存在有回波信号或环境噪声等各种噪声信号，通过对该语音信号做幅度调整、增益增强、回波消除或者噪声抑制中的至少一种处理，可以有效降低该语音信号中的噪声信号，提高信噪比。

在第一方面的一种可能的实现方式中，耳道语音采集器包括：耳道麦克风或者耳骨纹传感器中的至少一个。上述可能的实现方式中，提高了耳道语音采集器的使用多样性和灵活性。

在第一方面的一种可能的实现方式中，预处理至少一个外部语音采集器采集到的语音信号，包括：对至少一个外部语音采集器采集到的语音信号做以下至少一种处理：幅度调整、增益增强、回波消除或者噪声抑制。上述可能的实现方式中，至少一个外部语音采集器采集到的语音信号可能会存在幅度较小、增益较低的情况，该语音信号中也会存在有回波信号和环境噪声等各种噪声信号，通过对该语音信号做上述至少一种处理，可以有效降低该语音信号中的噪声信号，提高信噪比。

在第一方面的一种可能的实现方式中，方法还包括：对目标语音信号做以下至少一种处理并输出，至少一种处理包括：噪声抑制、均衡处理、数据包丢失补偿、自动增益控制或者动态范围调整。上述可能的实现方式中，语音信号在处理过程中可能会产生新的噪声信号，在传输过程中可能会产生数据包丢失的情况，通过对输出目标语音信号做上述至少一种处理，可以有效提高目标语音信号的信噪比，提高通话的质量和用户体验。

在第一方面的一种可能的实现方式中，至少一个外部语音采集器包括：通话麦克风或者降噪麦克风。

在第一方面的一种可能的实现方式中，当该耳机包括耳道麦克风和通话麦克风时，根据第一语音信号和环境音信号的幅值和相位、以及至少一个外部语音采集器的位置，对第一语音信号和环境音信号做混音处理，包括：根据耳道麦克风和通话麦克风的位置，以及耳道麦克风和通话麦克风采集到的同一环境音信号的幅值差和/或相位差，确定该环境音信号对应的声源与用户之间的距离，进而基于该距离调节环境音信号和/或第一语音信号的幅值、相位或者输出时延中的至少一个。

第二方面，本申请技术方案提供一种语音信号处理装置，该装置包括至少一个外部语音采集器，还包括：处理单元，用于预处理至少一个外部语音采集器采集到的语音信号，得到外部语音信号，预处理具体可以包括用于提高外部语音信号的信噪比比的相关处理，比如，降噪、调整幅值或增益等处理；处理单元，还用于提取外部语音信号中的环境音信号，比如，提取外部语音信号中的汽笛声、广播声或者婴儿哭声等；处理单元，还用于根据第一语音信号和环境音信号的幅值和相位、以及至少一个外部语音采集器的位置，对第一语音信号和环境音信号做混音处理，得到目标语音信号；其中，第一语音信号可以为与该耳机连接的电子设备传输给该耳机的待播放的语音信号，比如歌曲或广播等；或者，第一语音信号为该耳机的麦克风采集到的语音信号，比如用户的通话语音等。

在第二方面的一种可能的实现方式中，处理单元具体用于：调整第一语音信号的幅值、相位或输出时延中的至少一个；和/或，调整环境音信号的幅值、相位或输出时延中的至少一个；将调整后的第一语音信号和调整后的环境音信号融合为一个语音信号。

在第二方面的一种可能的实现方式中，处理单元还具体用于：将外部语音信号与样本语音信号做相干性处理，得到环境音信号。

在第二方面的一种可能的实现方式中，至少一个外部语音采集器包括至少两个外部语音采集器；处理单元还具体用于：将至少两个外部语音采集器对应的外部语音信号做相干性处理，得到环境音信号，每个外部语音采集器对应的外部语音信号是指预处理该外部语音采集器采集到的语音信号后得到的外部语音信号。在一种可能的实施例中，处理单元具体用于：确定外部语音信号的功率谱密度，确定样本语音信号的功率谱密度，以及确定外部语音信号与样本语音信号的互谱密度；根据所述功率谱密度和所述互谱密度确定外部语音信号和样本语音信号的相干性系数，进而根据相干性系数确定环境音信号，比如，可以将外部语音信号中相干性系数等于1或接近于1时对应的语音信号确定为环境音信号。

在第二方面的一种可能的实现方式中，该耳机还包括耳道语音采集器，处理单元还用于：预处理耳道语音采集器采集到的语音信号，得到第一语音信号；相应的，处理单元，还具体用于：根据第一语音信号和环境音信号的幅值和相位、以及至少一个外部语音采集器和耳道语音采集器的位置，对第一语音信号和环境音信号做混音处理。比如，至少一个外部语音采集器的位置为位置1、且第一语音信号与环境音信号的幅值差小于某一幅值阈值时，增大环境音信号的幅值至预设幅值阈值，以及调整环境音信号的输出时延；再比如，至少一个外部语音采集器的位置为位置2、且第一语音信号与环境音信号相邻的幅值对应的时刻差小于某一时刻差阈值时，将环境音信号拉宽并设置输出时延。

在第二方面的一种可能的实现方式中，处理单元还用于：对耳道语音采集器采集到的语音信号做以下至少一种处理：幅度调整、增益增强、回波消除或者噪声抑制。

在第二方面的一种可能的实现方式中，耳道语音采集器包括：耳道麦克风或者耳骨纹传感器中至少一个。

在第二方面的一种可能的实现方式中，处理单元还用于：对至少一个外部语音采集器采集到的语音信号做以下至少一种处理：幅度调整、增益增强、回波消除或者噪声抑制。

在第二方面的一种可能的实现方式中，处理单元还用于：对目标语音信号做以下至少一种处理并输出，至少一种处理包括：噪声抑制、均衡处理、数据包丢失补偿、自动增益控制或者动态范围调整。

在第二方面的一种可能的实现方式中，至少一个外部语音采集器包括：通话麦克风或者降噪麦克风。

在第二方面的一种可能的实现方式中，当该装置包括耳道麦克风和通话麦克风时，处理单元具体用于：根据耳道麦克风和通话麦克风的位置，以及耳道麦克风和通话麦克风采集到的同一环境音信号的幅值差和/或相位差，确定该环境音信号对应的声源与用户之间的距离，进而基于该距离调节环境音信号和/或第一语音信号的幅值、相位或者输出时延中的至少一个。

在第二方面的一种可能的实现方式中，该语音信号处理装置为耳机，比如，该耳机可以为无线耳机、有线耳机，该无线耳机可以为蓝牙耳机、WiFi耳机或者红外耳机等。

在本申请技术方案的另一方面，提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在设备上运行时，使得设备执行上述第一方面或第一方面的任一种可能的实现方式所提供的语音信号处理方法。

在本申请技术方案的另一方面，提供一种计算机程序产品，当计算机程序产品在设备上运行时，使得设备执行上述第一方面或第一方面的任一种可能的实现方式所提供的语音信号处理方法。

可以理解地，上述提供的任一种语音信号处理方法的装置、计算机存储介质或者计算机程序产品均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1为一种耳机中的麦克风的布局示意图；

图2为本申请实施例提供的一种耳机中的语音采集器的布局示意图；

图3为本申请实施例提供的一种信号处理方法的流程示意图；

图4为本申请实施例提供的另一种信号处理方法的流程示意图；

图5为本申请实施例提供的一种语音信号处理装置的结构示意图；

图6为本申请实施例提供的另一种语音信号处理装置的结构示意图。

具体实施方式

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下中的至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a、b、c、a和b、a和c、b和c、或a、b和c，其中a、b、c可以是单个，也可以是多个。另外，在本申请的实施例中，“第一”、“第二”等字样并不对数量和执行次序进行限定。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

图2为本申请实施例提供的一种耳机中语音采集器的布局示意图，该耳机上可以设置有至少两个语音采集器，每个语音采集器均可用于采集语音信号，比如，每个语音采集器可以为麦克风或者声音传感器等。至少两个语音采集器中可以包括耳道语音采集器和外部语音采集器，耳道语音采集器可以是指当用户佩戴该耳机时位于用户耳道内的语音采集器，外部语音采集器可以是指当用户佩戴该耳机时位于用户耳道外的语音采集器。

上述图2中以至少两个语音采集器包括三个语音采集器，且分别表示为MIC1、MIC2和MIC3为例进行说明。其中，MIC1和MIC2为外部语音采集器，当用户佩戴该耳机时，MIC1靠近佩戴者的耳朵、MIC2靠近佩戴者的嘴巴；MIC3为耳道语音采集器，当用户佩戴该耳机时，MIC3位于佩戴者的耳道内。在实际应用中，MIC1可以为降噪麦克风或者前馈麦克风，MIC2可以为通话麦克风，MIC3可以为耳道麦克风或者耳骨纹传感器。

其中，该耳机可以通过有线连接或者无线连接的方式与手机、笔记本电脑、计算机、手表等各种电子设备配合使用，处理电子设备的媒体、通话等音频业务。例如，该音频业务可以包括在电话、微信语音消息、音频通话、视频通话、游戏、语音助手等通话业务场景下，为用户播放对端的语音数据，或采集用户的语音数据发送给对端等；还可以包括为用户播放音乐、录音、视频文件中的声音、游戏中的背景音乐、来电提示音等媒体业务。在一种可能的实施例中，该耳机可以为无线耳机，该无线耳机可以为蓝牙耳机、WiFi耳机或者红外耳机等。在另一种可能的实现实施例中，该耳机可以为颈戴式耳机、头戴式耳机或者耳戴式耳机等。

进一步的，该耳机还可以包括处理电路和扬声器，至少两个语音采集器和扬声器均与处理电路连接。该处理电路可用于接收至少两个语音采集器采集到的语音信号并处理，比如，对语音采集器采集到的语音信号进行降噪处理。该扬声器可用于接收处理电路传输的音频数据，并为用户播放音频数据，比如，在用户通过手机通话的过程中将对方的语音数据播放给用户，或者将手机上的音频数据播放给用户。图2中未示出处理电路和扬声器。

在一些可行的实施例中，处理电路可以包括中央处理器单元、通用处理器、数字信号处理器(digital signal processor，DSP)、微控制器或微处理器等。除此以外，处理电路还可进一步包括其他硬件电路或加速器，如专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理电路也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等。

图3为本申请实施例提供的一种语音信号处理方法的流程示意图，该方法可应用于图2所示的耳机中，具体可以由该耳机中的处理电路执行。参见图3，该方法包括以下几个步骤。

S301：预处理至少一个外部语音采集器采集到的语音信号，得到外部语音信号。

其中，至少一个外部语音采集器可以包括一个或者多个外部语音采集器。当用户佩戴该耳机时，外部语音采集器位于用户的耳道外，耳道外的语音信号具有干扰多、频段宽的特性。比如，至少一个外部语音采集器可以包括通话麦克风，当用户佩戴该耳机时，通话麦克风靠近用户的嘴巴，从而可以用于采集外部环境中的语音信号。

当用户通过该耳机连接手机等电子设备播放音乐、广播或者通话语音等音频数据时，至少一个外部语音采集器可以采集外部环境中的语音信号，采集到的语音信号具有噪声大、频段宽的特性，该频段可以是中高频段，比如，该频段可以为100Hz至10KHz。示例性的，当用户处于室外环境使用该耳机时，至少一个外部语音采集器可以采集外部环境中的汽笛声、警铃声、广播声或者周围人说话声等；当用户处于室内环境使用该耳机时，至少一个外部语音采集器可以采集室内环境中的门铃声、婴儿哭声或者周围人说话声等。

具体的，当至少一个外部语音采集器采集到语音信号时，至少一个外部语音采集器可以将采集到的语音信号传输给处理电路，由处理电路预处理该语音信号，以去除一部分噪音信号，得到外部语音信号。比如，当至少一个外部语音采集器包括通话麦克风时，通话麦克风可以将采集到的语音信号传输至处理电路，由处理电路去除该语音信号中的一部分噪音信号。

在一种实现方式中，预处理至少一个外部语音采集器采集到的语音信号可以包括下述四种单独的处理方式，也可以包括下述四种单独的处理方式中的任意两种或者多种处理方式的结合。下面分别对这四种独立的处理方法进行介绍说明。

第一种、对至少一个外部语音采集器采集到的语音信号做幅度调整处理。

对至少一个外部语音采集器采集到的语音信号做幅度调整处理可以包括：增加该语音信号的幅度，或者减小该语音信号幅度。通过对该语音信号做幅度调整处理，可以提高该语音信号的信噪比。

示例性的，当外部环境中的语音信号的幅度较小时，至少一个外部语音采集器采集到的语音信号的幅度比较小，此时，通过增加该语音信号的幅度，可以提高该语音信号的信噪比，从而便于在后续处理时有效识别该语音信号的幅度。

第二种、对至少一个外部语音采集器采集到的语音信号做增益增强处理。

对至少一个外部语音采集器采集到的语音信号做增益增强处理，可以是指放大至少一个外部语音采集器采集到的语音信号，放大倍数越大(即增益越大)，该语音信号的信号值越大。该语音信号可以包括外部环境中的多种语音信号，比如，该语音信号包括汽笛声对应的语音信号和风噪声，放大该语音信号，即同时放大汽笛声对应的语音信号和风噪声。

示例性的，当外部环境中的语音信号较弱时，至少一个外部语音采集器采集到的语音信号的增益比较小，从而在后续处理时可能会导致较大的误差，此时，通过对该语音信号做增益增强处理，可以增大该语音信号的增益，从而便于在后续处理时有效减小该语音信号的处理误差。

第三种、对至少一个外部语音采集器采集到的语音信号做回波消除处理。

用户在通过该耳机播放音频数据的过程中，至少一个外部语音采集器采集到的语音信号中除了包括外部的环境音信号，还可能会包括回波信号，该回波信号可以是指外部语音采集器采集到的耳机的扬声器发出的声音。比如，用户在通过该耳机播放音频数据的过程中，耳机的外部语音采集器在采集语音信号时，除了采集到外部环境中的语音信号外，还会采集到扬声器播放的音频数据(即回波信号)，从而外部语音采集器采集到的语音信号中会包括回波信号。

其中，对至少一个外部语音采集器采集到的语音信号做回波消除处理，可以是指消除至少一个外部语音采集器采集到的语音信号中的回波信号，比如通过自适应回波滤波器对外部语音采集器采集到的语音信号做滤波处理可消除该回波信号。该回波信号是一种噪声信号，通过消除该回波信号可以提高该语音信号的信噪比，从而提高耳机播放音频数据的质量。关于回波消除的具体实现过程可以参见回波消除的相关技术中的描述，本申请实施例对此不作具体限制。

第四种、对至少一个外部语音采集器采集到的语音信号做噪声抑制。

用户在通过该耳机播放音频数据的过程中，若该用户所处的环境中存在多种环境音，比如，汽笛声、风噪声或者用户周围的其他人的说话声等，则至少一个外部语音采集器采集到的语音信号中会包括多种环境音信号。若所需要的环境音信号为汽笛声对应的语音信号时，对至少一个外部语音采集器采集到的语音信号做噪声抑制，可以是指降低或消除该语音信号中除所需要的环境音信号之外的其他环境音信号(也可以称为噪声信号或背景噪声)，通过消除该噪声信号可以提高至少一个外部语音采集器采集到的语音信号的信噪比。示例性，通过对至少一个外部语音采集器采集到的语音信号做滤波处理可以消除该语音信号中的噪声信号。

S302：提取外部语音信号中的环境音信号。

外部语音信号可以包括一种或者多种环境音信号，提取外部语音信号中的环境音信号可以是指将所需要的环境音信号从外部语音信号中提取出来。比如，外部语音信号中包括汽笛声、风声等多种环境音信号，若所需要的环境音信号为汽笛声，则可以将外部语音信号中汽笛声对应的环境音信号提取出来。具体的，本申请中提取外部语音信号中的环境音信号可以包括以下两种不同的实现方式，如下所述。

第I种、将外部语音信号与样本语音信号做相干性处理，得到环境音信号。

其中，样本语音信号可以是处理电路内部存储的语音信号，该耳机可以通过外部语音采集器预先采集的方式得到该样本语音信号。比如，预先在噪声较小的环境中播放汽笛声，通过该耳机采集该汽笛声，将采集到的语音信号进行降噪等一系列处理后作为样本语音信号存储中该耳机中的处理电路中。

另外，信号的相关性可以是指两个信号之间的同步相似性，比如，若两个信号具有相关性，可以是指这两个信号的某个特性标记(比如，振幅、频率、相位等)在某一时间内是同步变化的，且变化规律是相似的。

将两个信号做相关性处理，可以通过确定这两个信号的相干性系数来实现。对于任意两个信号x和信号y，相干性系数定义为功率谱密度(power-spectrum density，PSD)和互谱密度(cross-spectrum density，CSD)的函数，具体可通过如下公式(1)确定。式中，P _xx(f)和P _yy(f)分别表示信号x和信号y的PSD，P _xy(f)表示信号x和信号y之间的CSD。Coh _xy表示信号x和信号y在频率f处的相干性系数，式中0≤Coh _xy≤1；若Coh _xy＝0，信号x和信号y不相干；若Coh _xy＝1，信号x和信号y完全相干。

Coh ² _xy＝|P _xy(f)| ²/(P _xx(f)×P _yy(f)) (1)。

当公式(1)中的信号x和信号y分别为外部语音信号和样本语音信号时，即可实现外部语音信号与样本语音信号的相干性处理。

当处理电路得到外部语音信号时，处理电路可以通过样本语音信号对外部语音信号做相干性处理，以从外部语音信号中提取出高度相干(比如，相干性系数等于1或接近于1)的语音信号，即从外部语音信号中提取出环境音信号。由于样本语音信号是预先采集得到的信噪比较高的某一环境音对应的语音信号，提取出的环境音信号与样本语音信号高度相干，从而提取得到的环境音信号与样本语音信号为同一环境音的语音信号，且信噪比较高。

具体的，以外部语音信号表示为信号x、样本语音信号表示为信号y为例，处理电路可以将外部语音信号x和样本语音信号y分别做傅里叶变换，得到F(x)和F(y)，将F(x)与F(y)相乘即得到外部语音信号x和样本语音信号y的互谱密度P _xy(f)函数，将F(x)与F(x)的共轭相乘即得到外部语音信号x的功率谱密度P _xx(f)，将F(y)与F(y)的共轭相乘即得到样本语音信号y的功率谱密度P _yy(f)，将P _xy(f)、P _xx(f)和P _yy(f)代入上述公式(1)得到外部语音信号x和样本语音信号y的相干性系数，进而根据相干性系数获取高度相似的环境音信号。

第II种、至少一个外部语音采集器包括至少两个外部语音采集器，对至少两个外部语音采集器对应的外部语音信号做相关性处理，得到环境音信号。

其中，至少两个外部语音采集器可以包括两个或者两个以上的外部语音采集器，每个外部语音采集器采集到的语音信号经过预处理后得到一个外部语音信号，从而至少两个外部语音采集器对应得到至少两个外部语音信号。由于至少两个外部语音采集器可对同一环境音作采集，从而得到的至少两个外部语音信号中的每个外部语音信号中均包括同一环境音对应的环境音信号，对至少两个外部语音信号做相关性处理即可得到环境音信号。

示例性的，以至少两个外部语音采集器包括通话麦克风和降噪麦克风为例，若通话麦克风采集到的语音信号经过预处理后得到第一外部语音信号，降噪麦克风采集到的语音信号经过预处理后得到第二外部语音信号，则处理电路可以将第一外部语音信号和第二外部语音信号做相关性处理，得到环境音信号。

需要说明的是，将第一外部语音信号和第二外部语音信号做相关性处理的具体过程，与上述第I种方式中将外部语音信号与样本语音信号做相干性处理的具体过程类似，具体可以参见上述第I种方式中的描述，本申请实施例在此不再赘述。

S303：根据第一语音信号和环境音信号的幅值和相位、以及至少一个外部语音采集器的位置，对第一语音信号和环境音信号做混音处理，得到目标语音信号。

其中，第一语音信号可以为待播放的语音信号，比如，第一语音信号可以是带播放的歌曲的语音信号、待播放的通话对方的语音信号、待播放的用户自身的语音信号或者待播放的其他音频数据的语音信号等。在一种实现方式中，第一语音信号可以由连接该耳机的电子设备传输给该耳机的处理电路，也可以由该耳机通过耳道语音采集器等其他语音采集器采集得到。

具体的，对第一语音信号和环境音信号做混音处理，可以包括：调整第一语音信号的幅值、相位或者输出时延中的至少一个；和/或，调整环境音信号的幅值、相位或者输出时延中的至少一个；将调整后的第一语音信号与调整后的环境音信号融合为一个语音信号，得到目标语音信号。

在一种实现方式中，处理电路可以根据预先设置的混音规则对第一语音信号和环境音信号做混音处理，该混音规则可以由本领域技术人员根据实际情况进行设置，或者通过语音数据训练得到，本申请实施例对具体的混音规则不作具体限制。

比如，当至少一个外部语音采集器的位置为位置1、且第一语音信号与环境音信号的幅值差小于某一幅值阈值时，可以增大环境音信号的幅值至预设幅值阈值，还可以调整环境音信号的输出时延，以在融合得到的目标语音信号中突显出环境音信号。这样当该环境音信号为汽笛声时，通过调整环境音信号的幅值和输出时延，可以使得用户在目标语音信号播放的时候清晰地听到汽笛声，从而提高用户在室外环境中的安全性。

再比如，当至少一个外部语音采集器的位置为位置2、且第一语音信号与环境音信号相邻的幅值对应的时刻差小于某一时刻差阈值时，可以将环境音信号拉宽并设置输出时延，以将融合得到的目标语音信号中的环境音信号以立体声的形式体现出来。这样当该环境音信号为室内婴儿的哭声或者人说话的声音时，通过环境音信号以立体声的形式体现，可以使得用户能够在第一时间清楚的听到婴儿的哭声或者人说话的声音，从而避免用户需要摘下耳机聆听室内婴儿的动静、或者需要摘下耳机与家人说话时的不便。

可选的，该耳机还包括耳道语音采集器，当第一语音信号由耳道语音采集器等其他语音采集器采集得到时，如图4所示，该方法还包括：S300。其中，S300与S301-S302可以不分先后顺序，图4中以S300与S301-S302并列执行为例进行说明。

S300：预处理耳道语音采集器采集到的语音信号，得到第一语音信号。

该耳道语音采集器可以为耳道麦克风或者耳骨纹传感器。当用户佩戴该耳机时，耳道语音采集器位于用户的耳道内，耳道内的语音信号具有干扰少、频段窄的特性。当用户通过该耳机连接手机等电子设备进行通话或者播放音频数据时，耳道语音采集器可以采集耳道内的语音信号，采集器到的语音信号的噪声小，且频段范围窄。该频段可以是低中频段，比如，该频段可以为100Hz至4KHz、或者200Hz至5KHz等。

当耳道语音采集器采集到语音信号时，耳道语音采集器可以将该语音信号传输给处理电路，由处理电路预处理该语音信号，比如，处理电路对耳道语音采集器采集到的语音信号进行单通道消噪，以得到第一语音信号。第一语音信号为去除耳道语音采集器采集到的语音信号中的噪声之后的语音信号。比如，当用户通过该耳机连接手机等电子设备通话时，对耳道语音采集器采集到的语音信号进行单通道消噪后，得到的第一语音信号可以包括用户的通话语音信号或者自语音信号。在一种实现方式中，第一语音信号中还可以包括环境音信号，该环境音信号与S303中的环境音信号来自同一声源。

具体的，预处理耳道语音采集器采集到的语音信号，可以包括：对耳道语音采集器采集到的语音信号做以下至少一种处理：幅度调整、增益增强、回波消除或者噪声抑制。也即是，预处理耳道语音采集器采集到的语音信号的方法与上述S301中所描述的预处理至少一个外部语音采集器采集到的语音信号方法类似，即可以采用上述S301中所述的四种单独的处理方式，或者采用上述四种单独的处理方式中的任意两种或者多种处理方式的结合。具体过程可以参见上述S301中的相关描述，本申请实施例在此不再赘述。

相应的，当第一语音信号由耳道语音采集器采集得到时，S303具体可以为：根据第一语音信号和环境音信号的幅值和相位、以及至少一个外部语音采集器的位置和耳道语音采集器的位置，对第一语音信号和环境音信号做混音处理，得到目标语音信号。在一种实现方式中，根据外部语音采集器的位置和耳道语音采集器的位置，以及耳道语音采集器和外部语音采集器采集到的同一环境音信号的幅值差和/或相位差，确定该环境音信号对应的声源与用户之间的距离，进而基于该距离可以调节环境音信号的幅值、相位或者输出时延中的至少一个，和/或，调整第一语音信号的幅值、相位或者输出时延中的至少一个；并将调整后的第一语音信号与调整后的环境音信号融合为一个语音信号，得到目标语音信号。

S304：输出目标语音信号。

当得到目标语音信号时，处理电路可以输出该目标语音信号，比如处理电路可以将该目标语音信号输出至该耳机的扬声器，以播放该目标语音信号。由于目标语音信号是通过调整后的第一语音信号和调整后的环境音信号融合得到的，这样在用户佩戴并使用耳机时，可以使用户能够听到清晰、自然的第一语音信号和外部环境中的环境音信号。此外，目标语音信号中的环境音信号是调整后的信号，这样可以使用户听到的环境音信号不会产生刺耳、或者听不见等不适的问题，从而提高了语音信号的质量和用户体验。

在一种实现方式中，在输出目标语音信号之前，处理电路还可以进一步地对目标语音信号进行其他处理，以进一步提高目标语音信号的信噪比。具体的，处理电路可以对目标语音信号做以下至少一种处理：噪声抑制、均衡处理、数据包丢失补偿、自动增益控制或者动态范围调整。

其中，语音信号在处理过程中可能会产生新的噪声信号，比如，语音信号在降噪过程、和/或相干性处理过程中产生了新的噪声，即目标语音信号中会包括噪声信号，通过噪声抑制处理可以降低或消除目标语音信号中的噪声信号，从而提高目标语音信号的信噪比。

语音信号在传输过程中可能会产生数据包丢失的情况，比如，语音信号在从语音采集器传输至处理电路的过程中发生了丢包，从而目标语音信号对应的数据包中可能存在丢包问题，从而在输出目标语音信号时会影响通话的质量，通过对目标语音信号做数据包丢失补偿处理，可以解决丢包问题，进而提高输出目标语音信号时的通话质量。

处理电路得到的目标语音信号的增益可能较大也可以较小，从而在输出目标语音信号时会影响通话的质量，通过对目标语音信号做自动增益控制处理、和/或动态范围调整，可以将目标语音信号的增益调整到一个合适的范围内，从而提高目标语音播放的质量和用户体验。

上述主要从耳机的角度对本申请实施例提供的方案进行了介绍。可以理解的是，耳机为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对耳机进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图5示出了上述实施例中所涉及的一种语音信号处理装置的一种可能的结构示意图。参见图5，该装置包括：至少一个外部语音采集器502，该装置还包括处理单元503和输出单元504。在实际应用中，处理单元503可以为DSP、微处理电路、专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合等。输出单元504可以是输出接口、通信接口或者扬声器等。进一步的，该装置还可以包括耳道语音采集器501。

在本申请实施例中，处理单元503用于预处理至少一个外部语音采集器502采集到的语音信号，得到外部语音信号；处理单元503还用于从外部语音信号中提取环境音信号；处理单元503还用于根据第一语音信号和环境音信号的幅值和相位、以及至少一个外部语音采集器的位置，对第一语音信号和环境音信号做混音处理，得到目标语音信号。可选的，输出单元504，用于输出目标语音信号。

在一种可能的实现方式中，处理单元503具体用于：调整第一语音信号的幅值、相位和输出时延中的至少一个；调整环境音信号的幅值、相位和输出时延中的至少一个；将调整后的第一语音信号和调整后的环境音信号融合为一个语音信号。

在一种实现方式中，处理单元503还具体用于：将外部语音信号与样本语音信号做相干性处理，得到环境音信号；或者，至少一个外部语音采集器包括至少两个外部语音采集器，将至少两个外部语音采集器对应的外部语音信号做相干性处理，得到环境音信号。

在另一种可能的实现方式中，处理单元503还用于：预处理耳道语音采集器采集到的语音信号，得到第一语音信号。示例性的，处理单元503对耳道语音采集器采集到的语音信号做以下至少一种处理：幅度调整、增益增强、回波消除或者噪声抑制。

在一种实现方式中，处理单元503还具体用于：对至少一个外部语音采集器采集到的语音信号做以下至少一种处理：幅度调整、增益增强、回波消除或者噪声抑制。

进一步的，处理单元503还用于：对输出目标语音信号做以下至少一种处理：噪声抑制、均衡处理、数据包丢失补偿、自动增益控制或者动态范围调整。

在一种可能的实现方式中，耳道语音采集器501包括：耳道麦克风、或者耳骨纹传感器；至少一个外部语音采集器502包括：通话麦克风、降噪麦克风。

示例性的，图6为本申请实施例提供的一种语音信号处理装置的结构示意图，图6中以耳道语音采集器501为耳道麦克风，至少一个外部语音采集器502包括通话麦克风和降噪麦克风，处理电路503为DSP，输出单元504为扬声器为例进行说明。

在本申请实施例中，外部语音采集器502在用户佩戴该耳机时位于用户耳道外，从而预处理至少一个外部语音采集器采集到的语音信号可以得到外部语音信号。提取外部语音信号中的环境音信号可以得到所需要的环境音信号，对第一语音信号和环境音信号做混音处理，得到目标语音信号，从而在播放该目标语音信号时，可以使用户听到清晰、自然的第一语音信号和外部环境中重要的环境音信号，从而实现了环境音的监听，且提高监听效果和用户体验。

在本申请的另一实施例中，还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当一个设备(可以是单片机、芯片或者处理电路等)运行该指令时，使得该设备执行上文所提供的语音信号处理方法。前述的计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请的另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括指令，该指令存储在计算机可读存储介质中；当一个设备(可以是单片机、芯片或者处理电路等)运行该指令时，使得该设备执行上文所提供的语音信号处理方法。前述的计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音信号处理方法，其特征在于，应用于耳机中，所述耳机包括至少一个外部语音采集器，包括：

预处理所述至少一个外部语音采集器采集到的语音信号，得到外部语音信号；

提取所述外部语音信号中的环境音信号；

根据第一语音信号和所述环境音信号的幅值和相位、以及所述至少一个外部语音采集器的位置，对所述第一语音信号和所述环境音信号做混音处理，得到目标语音信号。
根据权利要求1所述的方法，其特征在于，所述对所述第一语音信号和所述环境音信号做混音处理，包括：

调整所述第一语音信号的幅值、相位或输出时延中的至少一个；和/或，

调整所述环境音信号的幅值、相位或输出时延中的至少一个；

将调整后的所述第一语音信号和调整后的所述环境音信号融合为一个语音信号。
根据权利要求1或2所述的方法，其特征在于，所述提取所述外部语音信号中的环境音信号，包括：

将所述外部语音信号与样本语音信号做相干性处理，得到所述环境音信号。
根据权利要求1或2所述的方法，其特征在于，所述至少一个外部语音采集器包括至少两个外部语音采集器，所述提取所述外部语音信号中的环境音信号，包括：

将所述至少两个外部语音采集器对应的外部语音信号做相干性处理，得到所述环境音信号，每个外部语音采集器对应的外部语音信号是预处理所述外部语音采集器采集到的语音信号得到的外部语音信号。
根据权利要求1-4任一项所述的方法，其特征在于，所述耳机还包括耳道语音采集器，所述方法还包括：

预处理所述耳道语音采集器采集到的语音信号，得到所述第一语音信号；

相应的，根据第一语音信号和所述环境音信号的幅值和相位、以及所述至少一个外部语音采集器的位置，对所述第一语音信号和所述环境音信号做混音处理，包括：

根据所述第一语音信号和所述环境音信号的幅值和相位、以及所述至少一个外部语音采集器和所述耳道语音采集器的位置，对所述第一语音信号和所述环境音信号做混音处理。
根据权利要求5所述的方法，其特征在于，所述预处理所述耳道语音采集器采集到的语音信号，包括：

对所述耳道语音采集器采集到的语音信号做以下至少一种处理：幅度调整、增益增强、回波消除或者噪声抑制。
根据权利要求5或6所述的方法，其特征在于，所述耳道语音采集器包括：耳道麦克风或者耳骨纹传感器中的至少一个。
根据权利要求1-7任一项所述的方法，其特征在于，所述预处理所述至少一个外部语音采集器采集到的语音信号，包括：

对所述至少一个外部语音采集器采集到的语音信号做以下至少一种处理：幅度调整、增益增强、回波消除或者噪声抑制。
根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

对所述目标语音信号做以下至少一种处理并输出，所述至少一种处理包括：噪声抑制、均衡处理、数据包丢失补偿、自动增益控制或者动态范围调整。
根据权利要求1-9任一项所述的方法，其特征在于，所述至少一个外部语音采集器包括：通话麦克风或者降噪麦克风。
一种语音信号处理装置，其特征在于，该装置包括至少一个外部语音采集器，还包括：

处理单元，用于预处理所述至少一个外部语音采集器采集到的语音信号，得到外部语音信号；

所述处理单元，还用于提取所述外部语音信号中的环境音信号；

所述处理单元，还用于根据第一语音信号和所述环境音信号的幅值和相位、以及所述至少一个外部语音采集器的位置，对所述第一语音信号和所述环境音信号做混音处理，得到目标语音信号。
根据权利要求11所述的装置，其特征在于，所述处理单元，具体用于：

调整所述第一语音信号的幅值、相位或输出时延中的至少一个；和/或，

调整所述环境音信号的幅值、相位或输出时延中的至少一个；

将调整后的所述第一语音信号和调整后的所述环境音信号融合为一个语音信号。
根据权利要求11或12所述的装置，其特征在于，所述处理单元，还具体用于：

将所述外部语音信号与样本语音信号做相干性处理，得到所述环境音信号。
根据权利要求11或12所述的装置，其特征在于，所述至少一个外部语音采集器包括至少两个外部语音采集器；所述处理单元，还具体用于：

将所述至少两个外部语音采集器对应的外部语音信号做相干性处理，得到所述环境音信号，每个外部语音采集器对应的外部语音信号是预处理所述外部语音采集器采集到的语音信号得到的外部语音信号。
根据权利要求11-14任一项所述的装置，其特征在于，所述装置还包括耳道语音采集器，所述处理单元，还用于：

预处理所述耳道语音采集器采集到的语音信号，得到所述第一语音信号；

相应的，所述处理单元，还具体用于：根据所述第一语音信号和所述环境音信号的幅值和相位、以及所述至少一个外部语音采集器和所述耳道语音采集器的位置，对所述第一语音信号和所述环境音信号做混音处理。
根据权利要求15所述的装置，其特征在于，所述处理单元，还用于：

对所述耳道语音采集器采集到的语音信号做以下至少一种处理：幅度调整、增益增强、回波消除或者噪声抑制。
根据权利要求15或16所述的装置，其特征在于，所述耳道语音采集器包括：耳道麦克风或者耳骨纹传感器中的至少一个。
根据权利要求11-17任一项所述的装置，其特征在于，所述处理单元，还用于：

对所述至少一个外部语音采集器采集到的语音信号做以下至少一种处理：幅度调整、增益增强、回波消除或者噪声抑制。
根据权利要求11-18任一项所述的装置，其特征在于，所述处理单元，还用于：

对所述目标语音信号做以下至少一种处理并输出，所述至少一种处理包括：噪声抑制、均衡处理、数据包丢失补偿、自动增益控制或者动态范围调整。
根据权利要求11-19任一项所述的装置，其特征在于，所述至少一个外部语音采集器包括：通话麦克风或者降噪麦克风。