WO2023020620A1

WO2023020620A1 - 基于音频的处理方法和装置

Info

Publication number: WO2023020620A1
Application number: PCT/CN2022/113733
Authority: WO
Inventors: 程光伟
Original assignee: 深圳地平线机器人科技有限公司
Priority date: 2021-08-20
Filing date: 2022-08-19
Publication date: 2023-02-23
Also published as: US20240304201A1; CN113674754A

Abstract

一种基于音频的处理方法和装置，处理方法包括：从麦克风阵列采集的混合音频信号中提取出目标声源信号(S1)；从目标声源信号中识别出与目标声源信号对应的文本内容(S2)；基于文本内容确定目标扬声器(S3)；控制目标扬声器播放目标声源信号对应的语音(S4)；基于目标扬声器的位置、目标声源信号所归属音区内的扬声器位置和目标扬声器的语音播放音量，对目标声源信号所归属音区内的扬声器进行回声消除(S5)。可以实现在车辆高速行驶状态下车内人员之间的顺畅交流，还可以避免通过说话者自身所归属音区的扬声器播放自己说话的声音，提升了用户体验。

Description

基于音频的处理方法和装置

本申请要求于2021年8月20日提交到国家知识产权局、申请号为202110959350.0、发明名称为“基于音频的处理方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及车辆技术领域和音频处理技术领域，尤其涉及一种基于音频的处理方法和装置。

背景技术

在车辆高速行驶过程中，车内的噪音会严重影响车内人员的听觉，尤其是针对驾驶员，较强的噪音会导致驾驶员分散注意力，影响行车安全。

相关技术中，通过信号采集和降噪，可以在一定程度上降低噪音。但是，现有的降噪方式是对风噪和胎噪进行抑制，当车内存在多人闲聊时，扬声器播放的信号是多人声的混合信号，听者会从扬声器听到自己说话的声音，用户体验差。

发明内容

为了解决上述技术问题，本公开的实施例提供了一种基于音频的处理方法和装置。

根据本公开实施例的第一方面，提供了一种基于音频的处理方法，包括：

从麦克风阵列采集的混合音频信号中提取出目标声源信号；

从所述目标声源信号中识别出与所述目标声源信号对应的文本内容；

基于所述文本内容确定所述目标扬声器；

控制所述目标扬声器播放所述目标声源信号对应的语音；

基于所述目标扬声器的位置、所述目标声源信号所归属音区内的扬声器位置和所述目标扬声器的语音播放音量，对所述目标声源信号所归属音区内的扬声器进行回声消除。

根据本公开实施例的第二方面，提供了一种基于音频的处理装置，包括：

声源信号提取模块，用于从麦克风阵列采集的混合音频信号中提取出目标声源信号；

声源信号识别模块，用于从所述目标声源信号中识别出与所述目标声源信号对应的文本内容；

目标扬声器确定模块，用于基于所述文本内容确定所述目标扬声器；

控制模块，用于控制所述目标扬声器播放所述目标声源信号对应的语音；

回声消除模块，用于基于所述目标扬声器的位置、所述目标声源信号所归属音区内的扬声器位置和所述目标扬声器的语音播放音量，对所述目标声源信号所归属音区内的扬声器进行回声消除。

根据本公开实施例的第三方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面所述的基于音频的处理方法。

根据本公开实施例的第四方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面所述的基于音频的处理方法。

基于本公开上述实施例提供的基于音频的处理方法和装置，从麦克风阵列采集的混合音频信号中提取出目标声源信号，然后从所述目标声源信号中识别出与所述目标声源信号对应的文本内容，接着根据文本内容确定所需使用的扬声器，再接着一方面控制所述目标扬声器播放所述目标声源信号对应的语音，实现在车辆高速行驶状态下车内人员之间的顺畅交流，另一方面基于目标扬声器的位置、目标声源信号所归属音区内的扬声器位置和语音的音量，对目标声源信号所归属音区内的扬声器进行回声消除，避免说话者通过自身所归属音区的扬声器播放自己说话的声音，提升了用户体验。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开实施例的基于音频的处理方法的流程示意图。

图2是本公开实施例的基于音频的处理装置的结构框图。

图3是本公开一个实施例中回声消除模块250的结构框图。

图4是本公开一个实施例中声源信号提取模块210的结构框图。

图5是本公开一个实施例中目标扬声器确定模块230的结构框图。

图6是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

示例性方法

图1是本公开实施例的基于音频的处理方法的流程示意图。本实施例可应用在电子设备上，如图1所示，包括如下步骤：

S1：从麦克风阵列采集的混合音频信号中提取出目标声源信号。

具体地，在车内设置麦克风阵列，可以通过麦克风阵列采集每个座位处乘客的声源信号。其中，为每个座位分别设置一个麦克风和一个扬声器。以两排五座车辆为例，麦克风阵列包括五个麦克风，分别设置在主驾驶位、副驾驶位、后排左乘客位、后排中间乘客位和后排右乘客位。每个麦克风归属一个固定的音区，例如主驾驶位的麦克风归属主驾驶位音区，副驾驶位的麦克风归属副驾驶位的音区，等等。

通过麦克风阵列采集到包括噪音和至少一个人声的混合音频信号之后，通过对混合音频信号进行处理，可以从混合音频信号中提取目标声源信号，例如某个乘客的语音信号。其中，通过麦克风阵列采集的混合音频信号，在某个时间段内(例如5秒内)如果只有一个人说话，则该时间段内仅包括噪音和这个人的声源信号；如果该时间段内有多个人说话，则该时间段内的混合音频信号包括噪声和多个人的声源信号，需要从多个人的声源信号中提取出目标声源信号，并针对目标声源信号以外剩余的每个声源信号，也通过后续步骤(即步骤S2至S5)进行相同处理。

S2：从目标声源信号中识别出与目标声源信号对应的文本内容。

具体地，使用音频识别技术对目标声源信号进行识别，得到与目标声源信号对应的文本内容。

S3：基于文本内容确定目标扬声器。

具体地，对文本内容进行文本处理，例如分词处理，可以得到每句话中的名词、动词和形容词，等等。由于文本内容通常会出现一些可以确定聊天对象的词语，基于对文本内容进行文本处理后可以确定包含聊天对象的词语，进一步的，可以确定与聊天对象对应的扬声器，并将该扬声器作为目标扬声器。

S4：控制目标扬声器播放目标声源信号对应的语音。

S5：基于目标扬声器的位置、目标声源信号所归属音区内的扬声器位置和语音的音量，对目标声源信号所归属音区内的扬声器进行回声消除。

具体地，车载音频系统中预先存储有各个扬声器的位置信息，且车载音频系统预先对车内各个位置实际发声测量建模，计算获取各个位置最优抵消函数。基于说话者所归属音区的扬声器位置(即目标声源信号所归属音区内的扬声器位置)、聊天对象所归属音区的扬声器位置(即目标扬声器的位置)和播放语音的音量，通过最优抵消函数生成用于抵消说话者音频的抵消信号，基于抵消信号可以抵消说话者所归属音区的扬声器中自己说话的声音。

在本实施例中，从麦克风阵列采集的混合音频信号中提取出目标声源信号，然后从目标声源信号中识别出与目标声源信号对应的文本内容，接着根据文本内容确定所需使用的扬声器，再接着一方面控制目标扬声器播放文本内容对应的语音，实现在车辆高速行驶下车内人员之间的顺畅交流，另一方面基于目标扬声器的位置、目标声源信号所归属音区内的扬声器位置和语音的音量，对目标声源信号所归属音区内的扬声器进行回声消除，避免说话者通过自身所归属音区的扬声器播放自己说话的声音，提升了用户体验。

在本公开的一个实施例中，步骤S5包括：

S5-1：获取目标声源信号的产生人员的听觉器官在空间中的位置。

在本公开的一个示例中，在车内安装有用于拍摄车内视频或车内图像的摄像头。基于摄像头拍摄的图像和摄像头的参数，通过图像分析可以确定目标声源信号的产生人员的听觉器官在空间中的位置，即说话者的耳朵位置。其中，摄像头的参数包括摄像头的焦距和分辨率等参数。

在本公开的另一个示例中，在车内安装有雷达，通过雷达扫描的点云数据进行分析，可以确定目标声源信号的产生人员的听觉器官在空间中的位置。

S5-2：基于目标声源信号的产生人员的听觉器官在空间中的位置、目标扬声器的位置、目标声源信号所归属音区内的扬声器位置和语音的音量，对目标声源信号所归属音区内的扬声器进行回声消除。

具体地，可以基于人耳位置和说话者所归属音区的扬声器位置计算出该扬声器与人耳之间的距离。在使用最优抵消函数时，基于该扬声器与人耳之间的距离，以及聊天对象所归属音区的扬声器位置(即目标扬声器的位置)和播放语音的音量，通过最优抵消函数生成用于抵消说话者音频的最优抵消信号，基于最优抵消信号可以最大程度地抵消说话者所归属音区的扬声器中自己说话的声音。

在本实施例中，通过获取说话者的听觉器官在空间中的位置和说话者的扬声器位置可以确定说话者与扬声器之间的距离，基于实时的距离可以动态调整抵消信号，从而可以最大程度地抵消说话者所归属音区的扬声器中自己说话的声音。

在本公开的一个实施例中，步骤S 1包括：

S1-1：检测车内各个座位上是否乘坐有人。

具体地，可以通过图像识别、红外线检测或者座椅重量检测等方式确定车内各个座位上是否乘坐有人。

S1-2：基于乘坐有人的座位对应的麦克风的所归属音区，对目标音频信号进行人声分离，根据人声分离结果提取目标声源信号，其中，麦克风阵列包括设置在车内各个座位处的麦克风。

具体地，仅对乘坐有人的座位对应的麦克风进行人声分离后，进行胎噪抑制和风噪抑制，最终可以得到目标声源信号。在本实施例中，可以通过对多个声源信号进行训练人声分离模型，例如通过经常乘坐该车辆人员的声源信号训练人声分离模型，基于训练好的人声分离模型可以进行有效的人声分离。在本实施例中，预先给出根据动态的胎噪噪音和风噪噪音进行抑制的动态增益控制函数，基于动态增益控制函数对实时的胎噪噪音和风噪噪音进行抑制。

在本实施例中，仅对座位上有人的麦克风进行人声分离，可以提升人声分离效率，降低系统资源消耗。此外，通过动态增益控制函数可以进行实时的胎噪抑制和风噪抑制。在人声分离、胎噪抑制和风噪抑制之后，可以准确地提取出目标声源信号。

在本公开的一个实施例中，步骤S3包括：

S3-1：提取文本内容中的关键词。其中，对文本内容进行分词处理和关键词提取，可以提取出文本内容中的关键词。

S3-2：将文本内容中的关键词与多个预设关键词进行匹配。其中，多个预设关键词中的每个关键词均对应有相应的扬声器。

S3-3：基于匹配结果确定目标扬声器。示例性地，对于扬声器A，对应的预设关键词包括A ₁、A ₂和A ₃，如果文本内容中包括A ₁、A ₂和A ₃中的任何一个关键词，则可以确定扬声器A为目标扬声器。对于其他的扬声器，也对应设置有相应的预设关键词。

在本实施例中，将文本内容中的关键词与多个预设关键词进行匹配，根据匹配结果可以快速、准确地确定目标扬声器。

在本公开的一个实施例中，步骤S3-3包括：

S3-3-1：建立至少两个扬声器与多个预设关键词之间的对应关系。其中，至少两个扬声器中包括与目标声源信号的所归属音区对应的扬声器。

具体地，至少两个扬声器包括说话者的扬声器和聊天对象的扬声器。可选地，预先建立好所有扬声器与对应关键词之间的对应关系，例如五座车内设置了五个扬声器，则可以预先建立好五个扬声器与对应的预设关键词之间的对应关系。

S3-3-2：将多个预设关键词中的每个关键词分别与文本内容中的关键词进行匹配，得到至少两个扬声器和文本内容之间的匹配结果。

S3-3-3：基于匹配结果和对应关系，确定目标扬声器。

在本实施例中，可以仅针对车内部分扬声器，建立部分扬声器与预设关键词的对应关系。如果文本内容中的关键词与多个预设关键词中某个预设关键词匹配成功，则表示声源信号的说话者有指定的聊天对象，此时将匹配成功的预设关键词对应的扬声器作为目标扬声器；如果文本内容中的关键词与多个预设关键词中的所有关键词均匹配失败，则表示声源信号的说话者没有指定的聊天对象，可以是将所有座位上乘坐有人的扬声器或所有扬声器作为目标扬声器。

在本公开的一个实施例中，步骤S3-3-1包括：

S3-3-1-1：建立至少两个目标座位与多个预设关键词之间的第一匹配关系，和/或建立至少两个目标座位上的人员与多个关键词之间的第二匹配关系，其中，至少两个目标座位与至少两个扬声器一一对应设置。

具体地，可以通过将目标座位与预设关键词进行绑定，也可以将目标座位上的人员与预设关键词进行绑定。在将目标座位上的人员与预设关键词进行绑定时，可以将目标座位上人员的人名、别名或代号与预设关键词进行绑定。例如将别名为“老三”与指定人员进行绑定。

S3-3-1-2：基于第一匹配关系和/或第二匹配关系，建立至少两个扬声器与多个预设关键词之间的对应关系。

具体地，可以基于第一匹配关系，建立至少两个扬声器与多个预设关键词之间的对应关系。例如可以是将主驾驶位的扬声器与“主驾驶位”、“主驾”、“司机”和“驾驶员”等关键词建立对应关系。例如还可以是将副驾驶位的扬声器与“副驾驶位”、“副驾”和“前排乘客”等关键词建立对应关系。

此外，还可以基于第二匹配关系，建立至少两个扬声器与多个预设关键词之间的对应关系。例如别名为“老三”的人员坐在了后排左乘客位，通过图像识别等方式确定了别名为“老三”的人员的乘坐位置后，可以是将后排左乘客位的扬声器与关键词“老三”建立对应关系，且可以是将左乘客位的扬声器与“老三”的真名建立对应关系。

在本实施例中，可以基于座位、人名、别名或代号，与扬声器之间建立匹配关系，作为扬声器与预设关键词之间的对应关系。当目标声源信号对应的文本内容的关键词中出现了匹配关系中的某个预设关键词时，可以快速、准确地确定目标扬声器和聊天对象。

在本公开的一个实施例中，基于音频的处理方法还包括：在指定扬声器播放目标类型音频时，基于指定扬声器的位置、指定扬声器以外剩余扬声器的位置和目标音频的音量，对剩余扬声器进行降噪。

在本实施例中，目标类型音频包括某个乘客进行人机交互、听音乐或看电影时的输出音频。在某个乘客进行人机交互、听音乐或看电影时，可以基于该乘客处的扬声器播放音频的音量、该乘客处的扬声器的位置和需要进行降噪的扬声器(例如座位上有人，且座位上的人不希望被打扰的位置处的扬声器)的位置进行降噪。

在本公开的一个实施例中，在步骤S5之后，还包括：

S6：如果从麦克风阵列采集的混合音频信号中识别出预设的结束聊天关键词时，关闭结束聊天关键词对应的声源信号所归属的扬声器。

在本实施例中，在车辆人员聊天过程中，如果检测到某个人说出了预设的结束聊天关键词(例如“不聊了”或“不说了”等)，表示这个人不想继续聊天了，此时关闭这个人的扬声器，避免其他人聊天时(例如某个人与无目的对象的闲聊)打扰这个人。

本公开实施例提供的任一种基于音频的处理方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种基于音频的处理方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种基于音频的处理方法。下文不再赘述。

示例性装置

图2是本公开实施例的基于音频的处理装置的结构框图。如图2所示，本公开实施例的基于音频的处理装置，包括：声源信号提取模块210、声源信号识别模块220、目标扬声器确定模块230、控制模块240和回声消除模块250。

其中，声源信号提取模块210，用于从麦克风阵列采集的混合音频信号中提取出目标声源信号；

声源信号识别模块220，用于从目标声源信号中识别出与目标声源信号对应的文本内容；

目标扬声器确定模块230，用于基于文本内容确定目标扬声器；

控制模块240，用于控制目标扬声器播放目标声源信号对应的语音；

回声消除模块250，用于基于目标扬声器的位置、目标声源信号所归属音区内的扬声器位置和目标扬声器的语音播放音量，对目标声源信号所归属音区内的扬声器进行回声消除。

图3是本公开一个实施例中回声消除模块250的结构框图。如图3所示，在本公开的一个实施例中，回声消除模块250包括：

听觉器官定位单元2501，用于获取目标声源信号的产生人员的听觉器官在空间中的位置；

回声消除单元2502，用于基于目标声源信号的产生人员的听觉器官在空间中的位置、目标扬声器的位置、目标声源信号所归属音区内的扬声器位置和语音的音量，对目标声源信号所归属音区内的扬声器进行回声消除。

图4是本公开一个实施例中声源信号提取模块210的结构框图。如图4所示，在本公开的一个实施例中，声源信号提取模块210包括：

检测单元2101，用于检测车内各个座位上是否乘坐有人；

声源信号处理单元2102，用于基于乘坐有人的座位对应的麦克风的所归属音区，对目标音频信号进行人声分离，根据人声分离结果提取目标声源信号，其中，麦克风阵列包括设置在车内各个座位处的麦克风。

图5是本公开一个实施例中目标扬声器确定模块230的结构框图。如图5所示，在本公开的一个实施例中，目标扬声器确定模块230包括：

关键词提取单元2301，用于提取文本内容中的关键词；

关键词匹配单元2302，用于将文本内容中的关键词与多个预设关键词进行匹配；

目标扬声器确定单元2303，用于基于匹配结果确定目标扬声器。

在本公开的一个实施例中，目标扬声器确定单元2303，用于建立至少两个扬声器与多个预设关键词之间的对应关系，其中，至少两个扬声器中包括与目标声源信号的所归属音区对应的扬声器；

目标扬声器确定单元2303，还用于将多个预设关键词中的每个关键词分别与文本内容中的关键词进行匹配，得到至少两个扬声器和文本内容之间的匹配结果；

目标扬声器确定单元2303，还用于基于匹配结果和对应关系，确定目标扬声器。

在本公开的一个实施例中，目标扬声器确定单元2303，用于建立至少两个目标座位与多个预设关键词之间的第一匹配关系，和/或建立至少两个目标座位上的人员与多个关键词之间的第二匹配关系，其中，至少两个目标座位与至少两个扬声器一一对应设置；

目标扬声器确定单元2303，还用于基于第一匹配关系和/或第二匹配关系，建立至少两个扬声器与多个预设关键词之间的对应关系。

在本公开的一个实施例中，控制模块240，还用于在指定扬声器播放目标类型音频时，基于指定扬声器的位置、指定扬声器以外剩余扬声器的位置和目标音频的音量，对剩余扬声器进行降噪。

需要说明的是，本公开实施例的基于音频的处理装置的具体实施方式与本公开实施例的基于音频的处理方法的具体实施方式类似，具体参见基于音频的处理方法部分，为了减少冗余，不作赘述。

示例性电子设备

下面，参考图6来描述根据本公开实施例的电子设备。

图6图示了根据本公开实施例的电子设备的框图。如图6所示，电子设备10包括一个或多个处理器610和存储器620。

处理器610可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器620可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的基于音频的处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备还可以包括：输入装置630和输出装置640，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入设备630还可以包括例如键盘、鼠标等等。

该输出装置640可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于音频的处理方法中的步骤。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

Claims

一种基于音频的处理方法，包括：

从麦克风阵列采集的混合音频信号中提取出目标声源信号；

从所述目标声源信号中识别出与所述目标声源信号对应的文本内容；

基于所述文本内容确定所述目标扬声器；

控制所述目标扬声器播放所述目标声源信号对应的语音；

基于所述目标扬声器的位置、所述目标声源信号所归属音区内的扬声器位置和所述目标扬声器的语音播放音量，对所述目标声源信号所归属音区内的扬声器进行回声消除。
根据权利要求1所述的基于音频的处理方法，其中，所述基于所述目标扬声器的位置、所述目标声源信号所归属音区内的扬声器位置和所述语音的音量，对所述目标声源信号所归属音区内的扬声器进行回声消除，包括：

获取所述目标声源信号的产生人员的听觉器官在空间中的位置；

基于所述目标声源信号的产生人员的听觉器官在空间中的位置、所述目标扬声器的位置、所述目标声源信号所归属音区内的扬声器位置和所述语音的音量，对所述目标声源信号所归属音区内的扬声器进行回声消除。
根据权利要求1所述的基于音频的处理方法，其中，所述从麦克风阵列采集的混合音频信号中提取出目标声源信号，包括：

检测车内各个座位上是否乘坐有人；

基于乘坐有人的座位对应的麦克风的所归属音区，对所述目标音频信号进行人声分离，根据人声分离结果提取所述目标声源信号，其中，所述麦克风阵列包括设置在车内各个座位处的麦克风。
根据权利要求1所述的基于音频的处理方法，其中，所述基于所述文本内容确定所述目标扬声器，包括：

提取所述文本内容中的关键词；

将所述文本内容中的关键词与多个预设关键词进行匹配；

基于匹配结果确定所述目标扬声器。
根据权利要求4所述的基于音频的处理方法，其中，所述将所述文本内容中的关键词与多个预设关键词进行匹配，基于匹配结果确定目标扬声器，包括：

建立至少两个扬声器与所述多个预设关键词之间的对应关系，其中，所述至少两个扬声器中包括与所述目标声源信号的所归属音区对应的扬声器；

将所述多个预设关键词中的每个关键词分别与所述文本内容中的关键词进行匹配，得到所述至少两个扬声器和所述文本内容之间的匹配结果；

基于所述匹配结果和所述对应关系，确定所述目标扬声器。
根据权利要求5所述的基于音频的处理方法，其中，所述建立至少两个扬声器与所述多个预设关键词之间的对应关系，包括：

建立至少两个目标座位与所述多个预设关键词之间的第一匹配关系，和/或建立所述至少两个目标座位上的人员与所述多个关键词之间的第二匹配关系，其中，所述至少两个目标座位与所述至少两个扬声器一一对应设置；

基于所述第一匹配关系和/或所述第二匹配关系，建立所述建立至少两个扬声器与所述多个预设关键词之间的对应关系。
根据权利要求1所述的基于音频的处理方法，其中，还包括：

在指定扬声器播放目标类型音频时，基于所述指定扬声器的位置、所述指定扬声器以外剩余扬声器的位置和所述目标音频的音量，对所述剩余扬声器进行降噪。
一种基于音频的处理装置，包括：

声源信号提取模块，用于从麦克风阵列采集的混合音频信号中提取出目标声源信号；

声源信号识别模块，用于从所述目标声源信号中识别出与所述目标声源信号对应的文本内容；

目标扬声器确定模块，用于基于所述文本内容确定所述目标扬声器；

控制模块，用于控制所述目标扬声器播放所述目标声源信号对应的语音；

回声消除模块，用于基于所述目标扬声器的位置、所述目标声源信号所归属音区内的扬声器位置和所述目标扬声器的语音播放音量，对所述目标声源信号所归属音区内的扬声器进行回声消除。
一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的基于音频的处理方法。
一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的基于音频的处理方法。