WO2022062979A1

WO2022062979A1 - 音频处理方法、计算机可读存储介质、及电子设备

Info

Publication number: WO2022062979A1
Application number: PCT/CN2021/118398
Authority: WO
Inventors: 杨枭; 田立生; 李肖; 张海宏; 朱统
Original assignee: 华为技术有限公司
Priority date: 2020-09-23
Filing date: 2021-09-15
Publication date: 2022-03-31
Also published as: CN116437256A; EP4210344A1; CN114257905B; CN114257905A; EP4210344A4

Abstract

本申请提供一种音频处理方法、计算机可读存储介质以及电子设备。其中，根据一种实施方式的音频处理方法，包括：电子设备启动直播类应用，所述直播类应用发布音频并且接收与所述音频关联的反馈音频；电子设备接收包括伴奏音提供设备发送的伴奏音信号在内的音频信号，并将所接收的音频信号为或经处理后为用于发布的第一音频信号；电子设备通过所述直播类应用发布所述第一音频信号，并经由所述直播类应用通过互联网接收作为反馈音频的第二音频信号；电子设备基于所述第一音频信号以及所述第二音频信号混合得到第三音频信号；电子设备将所述第三音频信号通过无线通信发送给与电子设备关联的无线耳机以进行监听。

Description

音频处理方法、计算机可读存储介质、及电子设备

本申请要求于2020年09月23日提交中国专利局、申请号为202011008015.4申请名称为“音频处理方法、计算机可读存储介质、及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，具体涉及一种音频处理方法、计算机可读存储介质、及电子设备。

背景技术

随着网络技术的发展，直播逐渐成为一种热门的应用，用户群数量很大。某些网红主播，甚至具有百万“粉丝”。直播方式能够充分发挥移动互联网的优势，可以将产品展示、会议、测评、调查、访谈、课堂、培训等内容现场播出。直播完成后，其音视频内容还可以随时重播、点播以发挥直播内容的最大价值。

因此，为了提高直播时的体验感，需要高质量的采集现场的音视频。目前，采集音视频的主要设备有手机和直播声卡。

其中，对于视频采集而言，无论是前摄还是后摄，手机摄像头的性能已经达到很高水平，用手机做图像采集在技术上可以满足需求，主播没有必要购买独立的用于直播的摄像设备。

然而，直播现场的音频采集则不同。一方面，受尺寸限制，手机内部不能设计专业级的声音采集结构，也不能应用大尺寸的话筒器件。另一方面，直播时往往需要将现场主播的主播音与背景的伴奏音混合以作为发布的音频进行发布，同时主播还需要听到远方观众反馈的音频。

发明内容

有鉴于此，本申请提供一种音频处理方法、电子设备以及计算机可读存储介质，该音频处理方法不存在时延问题，连线少，便于实现。

本申请人经过研究发现，无线耳机大量快速普及是一个行业趋势，随着双耳真无线蓝牙耳机(TWS)销量逐渐增大，越来越多的用户在使用此类耳机。

TWS耳机的优点在于体积小巧，完全去除了连线，不会影响用户活动。

另一方面，在用于声音采集时，由于其被佩戴在外耳，位置是基本固定的，因而其与人嘴很近，同时二者的相对位置也是基本固定的，这显示了用TWS采集人声具有的独特的优越性。在此基础上，本申请人等提出了将无线耳机，尤其是TWS耳机用于直播，通过手机和无线耳机配合，使TWS耳机与直播应用紧密结合的直播音频处理方案，以消除连线、简化设备数量和提升方便性。

以下从多个方面介绍本申请，以下多个方面的实施方式和有益效果可互相参考。

第一方面，本申请提供一种音频处理方法，用于音频处理系统，所述音频处理系统包括电子设备、伴奏音提供设备、以及无线耳机。

根据本申请的一种实施方式，所述音频处理方法包括：

所述电子设备启动直播类应用，所述直播类应用发布音频，并且接收与所述音频关联的反馈音频；

所述电子设备接收包括所述伴奏音提供设备发送的伴奏音信号在内的音频信号，并将所接收的音频信号作为或处理后作为第一音频信号；

所述电子设备通过所述直播类应用发布所述第一音频信号，并经由所述直播类应用通过互联网接收反馈音频，所述反馈音频为第二音频信号；

所述电子设备基于所述第一音频信号以及所述第二音频信号混合得到第三音频信号；

所述电子设备将所述第三音频信号通过无线通信发送给与所述电子设备关联的所述无线耳机以进行监听。

以直播场景为例，其中，电子设备可以是主播进行直播用的终端，例如手机、平板电脑等电子设备。伴奏音提供设备可以是伴奏手机、音频播放器等能够提供音频输出的设备。无线耳机和电子设备通过无线连接，用于收听由电子设备基于第一音频信号与第二音频信号混音得到的第三音频信号(也即由伴奏音、主播音、观众音混音形成的音频信号)，去除了连线，不会影响用户活动，提升便携性。由此，主播通过携带较少的电子设备进行就能进行直播，减少有线连接，提升便携性，且直播效果较好，没有延时，避免了图2(a)所示的设备多、连线复杂等问题和图2(b)所示的存在时延差，并且用户也很难发觉存在时延差的问题，这将直接影响直播效果的问题。其中，所述无线耳机例如可以是蓝牙耳机，其可以通过蓝牙模块与直播手机连接以传递音频信号。当然，不限于此，任何可以通过非有线方式在耳机与手机之间进行音频信号传递的无线耳机，都应该被理解为属于本申请的范畴之内。

在上述第一方面的一种可能的实现中，音频处理系统还包括音频处理器(提供混音等音频处理)与声音采集装置(用于采集主播音)，所述伴奏音提供设备和所述声音采集装置分别连接所述声音采集装置，且所述声音采集装置与所述电子设备连接，所述电子设备接收包括所述伴奏音提供设备发送的伴奏音信号在内的音频信号，并将所接收的音频信号作为或处理后作为第一音频信号包括：所述音频处理器分别通过有线通信接收由所述伴奏音提供设备提供的伴奏音频信号以及由所述声音采集装置采集的主播音信号，并混合得到所述第一音频信号，所述电子设备通过有线通信接收由所述音频处理器提供的所述第一音频信号。

也就是说，在该实现方式中，所述电子设备接收的音频信号是由音频处理器混音后的音频信号，将其直接作为第一音频信号。具体而言，所述伴奏音信号由所述伴奏音提供设备传送给所述音频处理器，所述主播音信号由所述声音采集装置采集并传送给所述音频处理器，所述音频处理器将所述伴奏音信号与所述主播音信号进行混音，得到所述第一音频信号，电子设备通过有线通信连接音频处理器，接收来自音频处理器的第一音频信号。由此，可以保证来自音频处理器的音频信号不受外界干扰，而且通信过程中信号损失比较少，从而能够提高音质。同时，电子设备通过直播类应用播放第一音频信号的同时，经由互联网接收体现反馈的音频信号，能够使得主播面向更广泛的观众，观众的收听观看比较便捷。

其中，音频处理器、声音采集装置、以及伴奏音提供设备可以集成在一个电子设备内，也可以由多个电子设备共同实现这些功能。声音采集装置可以是单独的话筒、麦克风，也可以是具有话筒零部件的手机等电子设备，能够提供主播音信号。伴奏音提供设备可以是伴奏手机、唱片机等能够播放音频的电子设备，能够提供伴奏音信号。伴奏音提供设备和声音采集装置均可以通过有线的方式连接音频处理器，音频处理器将伴奏音信号与主播音信号进行混音，得到所述第一音频信号。由此，通过音频处理器、声音采集装置、以及伴奏音提供设备，能够便捷地获得品质较好第一音频信号。

可选地，所述第一音频信号是数字音频信号。也就是说，音频处理器输出的第一音频可以是数字音频信号，可以通过数字输入方式连接电子设备，例如音频处理器通过USB接头、TypeC接头连接电子设备的USB接口或TypeC接口。

此外，所述第一音频信号也可以为模拟音频信号。在此情况下，通过所述电子设备将模拟信号的第一音频信号转化为数字信号的第一音频信号，并将发布数字信号的第一音频信号。也就是说，音频处理器输出的第一音频可以是模拟音频信号，通过模拟输入方式连接电子设备，例如音频处理器通过耳机接头连接电子设备的耳机座。为了便于通过无线网络发布第一音频信号，电子设备可以通过底层的Codec(编译码器)将模拟音频信号转化为数字音频信号，再通过无线网络发布该数字音频信号。也就是说，电子设备可以适应不同种类音频信号的音频处理器，均能以数字音频信号进行传输，增加音频传输的精确性和稳定性。

进一步地，所述电子设备包括混音模块与通路控制模块，当所述电子设备启动所述直播类应用，所述通路控制模块使得所述电子设备同时启用无线音频接口与有线音频接口，所述通路控制模块启动所述混音模块以便进行混音，同时建立第一通路、第二通路、第三通路、以及第四通路，其中，所述第一通路将来自所述有线音频接口的所述第一音频信号发送给所述直播类应用，以通过所述应用进行发布，所述第二通路将来自所有线音频接口的所述第一音频信号发送给所述混音模块，所述第三通路由所述直播类应用将通过无线网络接收的第二音频信号发送给所述混音模块，所述第四通路将由所述混音模块基于所述第一音频信号与所述第二音频信号混音得到的所述第三音频信号通过无线通信发送给所述无线音频接口，以便所述无线耳机监听。

也就是说，电子设备通过系统底层的应用层的直播类应用启动直播，通过框架层的混音模块和通路控制模块进行混音和通路控制，从而实现音频的混合和传输。由此，通过在电子设备的系统底层的框架层设置通路控制模块与混音模块，能够在进行音频混合的基础上，准确稳定地进行音频传输，并实现无线耳机收听。

此外，在上述第一方面的另一种可能的实现中，所述电子设备接收包括所述伴奏音提供设备发送的伴奏音信号在内的音频信号，并将所接收的音频信号作为或处理后作为第一音频信号包括：

所述电子设备经由有线通信接收所述伴奏音提供设备发送的伴奏音信号；

所述无线耳机采集主播音信号，并经由无线通信将所述主播音信号发送至所述电子设备；

所述电子设备基于所述伴奏音信号和所述主播音信号，进行混音处理以得到所述第一音频信号。

也就是说，在该实现方式中，所述电子设备将所接收到的音频信号经过混音处理后作为所述第一音频信号。

以直播场景为例，电子设备可以是主播的直播用终端，例如手机、平板电脑等电子设备。伴奏音提供设备可以是伴奏手机、唱片机等能够播放音频的电子设备，以提供伴奏音信号电子设备和伴奏音提供设备通过有线通信连接，可以保证来自伴奏音提供设备的伴奏音信号不受外界干扰，而且通信过程中信号损失比较少，从而能够提高音质。电子设备通过所述直播类应用发布第一音频信号的同时，接收体现反馈的音频信号，能够使得主播面向更广泛的观众(观众可以通过互联网收听观看电子设备播放的应用)，观众的收听观看比较便捷。无线耳机和电子设备通过无线连接，用于由无线耳机对主播音进行拾音并提供给电子设备，同时接收由电子设备基于混音得到的第三音频信号(也即由伴奏音、主播音、观众音混音形成的音频信号)，无线连接完全去除了连线，不会影响用户活动，提升便携性。无线耳机由于其被佩戴在外耳，位置是基本固定的，因而其与人嘴很近，同时二者的相对位置也是基本固定的，这显示了用无线耳机采集人声具有的独特的优越性。由此，主播通过携带更少的电子设备进行就能进行直播，主播仅需携带电子设备、伴奏音提供设备和无线耳机即可进行直播，而且仅伴奏音提供设备和电子设备有线连接，有线连接较少，进一步提升便携性，且直播效果较好，没有延时，避免了图2(a)所示的设备多、连线复杂等问题和图2(b)所示的存在时延差，并且用户也很难发觉存在时延差的问题，这将直接影响直播效果的问题。

可选地，所述伴奏音信号为数字音频信号。伴奏音提供设备输出的第一音频可以是数字音频信号，可以通过数字输入方式连接电子设备，例如伴奏音提供设备通过USB接头、TypeC接头连接电子设备的USB接口或TypeC接口。

此外，所述伴奏音信号也可以为模拟音频信号。在此情况下，模拟信号的伴奏音信号通过所述电子设备转化为数字信号的伴奏音信号，此后，所述电子设备基于数字信号的伴奏音信号与所述主播音信号进行混音。也就是说，伴奏音提供设备输出的第一音频可以是模拟音频信号，可以通过模拟输入方式连接电子设备，例如伴奏音提供设备通过耳机接头连接电子设备的耳机座。为了便于通过网络发布音频信号，电子设备可以通过底层的Codec(编译码器)将模拟音频信号转化为数字音频信号，再通过网络发布数字音频信号。由此，电子设备能够适应伴奏音提供设备的音频信号的不同种类，均能以数字音频信号进行发布，增加音频传输的精确性和稳定性。

进一步地，所述电子设备包括混音模块与通路控制模块，当所述电子设备启动所述直播类应用，所述通路控制模块使得所述电子设备同时启用无线音频接口与有线音频接口，所述通路控制模块启动所述混音模块以便进行混音，同时建立a通路、b通路、c通路、d通路、以及e通路，其中，所述a通路将来自所述有线音频接口的所述伴奏音信号发送给所述混音模块，所述b通路将来自所述无线音频接口的主播音信号发送给所述混音模块，所述c通路将由所述混音模块基于所述伴奏音信号与所述主播音信号进行混音得到的第一音频信号从所述混音模块发送给所述直播类应用，以通过互联网进行发布，所述d通路由所述直播类应用将通过互联网接收的第二音频信号发送给所述混音模块，所述e通路将由所述混音模块基于所述第一音频信号与所述第二音频信号混音得到的所述第三音频信号发送给所述无线音频接口，以通过无线网络发送给与所述电子设备相关联的所述无线耳机。

也就是说，电子设备通过系统底层的应用层的应用启动直播，通过框架层的混音模块和通路控制模块进行混音和通路控制，从而实现音频的混合和传输。由此，通过在电子设备的系统底层的框架层设置通路控制模块与混音模块，能够实现由无线耳机进行拾音，并基于混音模块将拾音得到的主播音与伴奏音、观众反馈音(第二音频信号)进行混音，再通过无线通信传送给主播供主播收听。

在上述第一方面的一种可能的实现中，所述混音通过线性法、固定权重法、动态权重法中的任一混音算法进行。也就是说，可以通过线性法、固定权重法、动态权重法等混音算法对音频进行混音。由此，能够简便地实现混音，且混音效果较好。

第二方面，本身请提供一种音频处理方法，用于直播端的电子设备，所述方法包括：启动直播类应用，所述直播类应用发布音频并且接收与发布的音频关联的反馈音频；接收包括伴奏音信号在内的音频信号，并将所接收的音频信号作为或处理后作为用于发布的第一音频信号；通过所述直播类应用发布所述第一音频信号，并经由所述直播类应用通过互联网接收反馈音频，所述反馈音频为第二音频信号；将所述第一音频信号与所述第二音频信号混合，得到第三音频信号；通过无线通信传输所述第三音频信号，以便所述无线耳机进行监听。

也就是说，作为直播端的电子设备，将发布用音频信号(即第一音频信号)与反馈音频信号(即第二音频信号)进行混音后通过无线通信传输给无线耳机，实现直播现场的监听。由此，主播能够携带更少的电子设备，连线更简单更少，便捷地进行直播。

在第二方面的一种可能的实现中，所述接收包括伴奏音信号在内的音频信号，并将所接收的音频信号作为或处理后作为第一音频信号包括：经由有线通信接收第一音频信号，所述第一音频信号混合有伴奏音信号与主播音信号。

也就是说，上述实现方式的音频处理方法，电子设备通过有线通信直接输入混合有伴奏音信号与主播音信号的第一音频信号，通过互联网进行发布并接收与该第一音频信号关联的第二音频信号，并将第一音频信号与第二音频信号混音后通过无线通信进行发送，以实现无线耳机监听。

可选地，所述第一音频信号为数字音频信号。

可选地，所述第一音频信号为模拟音频信号，所述模拟音频信号通过所述电子设备转化为用于生成所述发布的音频的数字音频信号。

在本申请的一种可能的实现中，所述电子设备包括混音模块与通路控制模块，当所述电子设备启动所述直播类应用，所述通路控制模块使得所述电子设备同时启用无线音频接口与有线音频接口，所述通路控制模块启动所述混音模块以便进行混音，同时建立第一通路、第二通路、第三通路、以及第四通路，其中，所述第一通路将来自所述有线音频接口的所述第一音频信号发送给所述直播类应用，以通过所述应用进行发布，所述第二通路将来自所有线音频接口的所述第一音频信号发送给所述混音模块，所述第三通路由所述直播类应用将通过无线网络接收的第二音频信号发送给所述混音模块，所述第四通路将由所述混音模块基于所述第一音频信号与所述第二音频信号混音得到的所述第三音频信号通过无线通信发送给所述无线音频接口，以便所述无线耳机监听。

在第二方面的另一种可能的实现中，所述接收包括伴奏音信号在内的音频信号，并将所接收的音频信号作为或处理后作为第一音频信号包括：经由有线通信接收所述伴奏音信号；经由无线通信接收主播音信号；基于所述伴奏音信号与所述主播音信号进行混音，得到所述第一音频信号。

也就是说，上述实现方式的音频处理方法，电子设备通过有线通信输入伴奏音信号，通过无线耳机进行拾音并将拾取的主播音信号通过无线通信发送给电子设备，电子设备将伴奏音信号与主播音信号混音形成第一音频信号，通过互联网进行发布并接收与该第一音频信号关联的第二音频信号，并将第一音频信号与第二音频信号混音后通过无线通信进行发送，以实现无线耳机监听。换言之，通过无线耳机同时实现了拾音与监听的功能。能够进一步减少设备、减少连线，更加便利。

可选地，所述伴奏音信号为数字音频信号。

可选地，所述伴奏音信号为模拟音频信号，所述模拟音频信号通过所述电子设备转化为数字音频信号，所述电子设备基于所述数字音频信号的伴奏音信号与所述主播音信号进行混音。

在本申请的另一种可能的实现中，所述电子设备包括混音模块与通路控制模块，当所述电子设备启动所述直播类应用，所述通路控制模块使得所述电子设备同时启用无线音频接口与有线音频接口，所述通路控制模块启动所述混音模块以便进行混音，同时建立a通路、b通路、c通路、d通路、以及e通路，其中，所述a通路将来自所述有线音频接口的所述伴奏音信号发送给所述混音模块，所述b通路将来自所述无线音频接口的主播音信号发送给所述混音模块，所述c通路将由所述混音模块基于所述伴奏音信号与所述主播音信号进行混音得到的第一音频信号从所述混音模块发送给所述直播类应用，以通过互联网进行发布，所述d通路由所述直播类应用将通过互联网接收的第二音频信号发送给所述混音模块，所述e通路将由所述混音模块基于所述第一音频信号与所述第二音频信号混音得到的所述第三音频信号发送给所述无线音频接口，以通过无线网络发送给与所述电子设备相关联的所述无线耳机。

在第二方面的一种可能的实现中，所述混音通过线性法、固定权重法、动态权重法中的任一混音算法进行。

第三方面，本申请提供一种计算机可读存储介质，存储了计算机可读代码，所述计算机可读代码当由一个或多个处理器运行时，使得所述处理器执行根据上述第二方面任一种实现方式的音频处理方法。

第四方面，本申请提供一种电子设备，用于通过所述直播类应用发布音频并接收与所发布的音频关联的反馈音频，包括：无线音频接口与有线音频接口；音频信号采集模块，用于通过所述无线音频接口以及有线音频接口接收包括伴奏音信号在内的音频信号；通路控制模块和混音模块，所述通路控制模块用于当所述电子设备启动所述直播类应用时，启用所述无线音频接口与有线音频接口，并且将所述音频信号采集模块所采集得到的音频信号发送给所述混音模块，所述混音模块用于基于所述音频信号采集模块所接收的音频信号，获得用于通过所述直播类应用进行发布的第一音频信号，且所述混音模块还用于基于所述第一音信号与所述直播类应用接收的作为反馈的第二音频信号进行混音生成第三音频信号，所述通路控制模块还用于将所述第三音频信号发送给所述无线音频接口，以通过无线通信进行传输，以便与所述电子设备关联的无线耳机进行监听。

在第四方面的一种可能的实现中，当所述电子设备启动所述直播类应用，所述通路控制模块使得所述电子设备同时启用无线音频接口与有线音频接口，所述通路控制模块启动所述混音模块以便进行混音，并建立第一通路、第二通路、第三通路、以及第四通路，其中，所述第一通路将来自所述有线音频接口的所述第一音频信号发送给所述直播类应用，以通过所述直播类应用进行播放，所述第二通路将来自所述有线音频接口的所述第一音频信号发送给所述混音模块，所述第三通路由所述直播类应用将通过互联网接收的第二音频信号发送给所述混音模块，所述混音模块将所述第一音频信号与所述第二音频信号进行混音，得到所述第三音频信号，所述第四通路将所述第三音频信号由所述混音模块发送给无线音频接口。

在第四方面的另一种可能的实现中，当所述应用层启动所述直播类应用，所述通路控制模块使得所述电子设备同时启用无线音频接口与有线音频接口，所述通路控制模块启动所述混音模块以便进行混音，同时建立a通路、b通路、c通路、d通路、以及e通路，

其中，所述a通路将来自有线音频接口的所述伴奏音信号发送给所述混音模块，

所述b通路将来自无线音频接口的主播音信号发送给所述混音模块，

所述c通路将由所述混音模块基于所述伴奏音信号与所述主播音信号进行混音得到的第一音频信号从所述混音模块发送给所述直播类应用以通过互联网进行发布，

所述d通路由所述直播类应用将通过无线网络接收的第二音频信号发送给所述混音模块，

所述e通路将由所述混音模块基于所述第一音频信号与所述第二音频信号混音得到的所述第三音频信号发送给所述无线音频接口，以通过无线网络发送给所述无线耳机。

附图说明

图1是根据本申请实施例提供的音频处理方法的应用场景图；

图2(a)是根据一个现有技术的直播音频处理系统的示意图；

图2(b)是根据另一个现有技术的直播音频处理系统的示意图；

图3是直播音频处理系统的架构图；

图4是根据本申请一个实施例提供的电子设备的结构示意图；

图5是根据本申请一个实施例提供的电子设备的软件结构框图；

图6是根据本申请一个实施例提供的音频处理系统的示意图；

图7是根据本申请一些实施例的直播手机同时启用多个耳机(音频接口)的一种实现方式示意图；

图8(a)为应用图6的音频处理系统进行音频处理方法的流程示意图；

图8(b)为应用图6的音频处理系统进行音频处理方法的另一流程示意图；

图9为根据图6的音频处理系统中主播侧的架构图；

图10为根据图6的音频处理系统中的直播手机的系统架构图；

图11是根据本申请另一个实施例提供的音频处理系统的示意图；

图12(a)是应用图11的音频处理系统的音频处理方法流程示意图图；

图12(b)是应用图11的音频处理系统的音频处理方法的另一流程示意图；

图13为图11中主播侧的架构图；

图14为图13中直播手机的系统架构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

下面，参考附图对本申请的实施例进行进一步详细说明。

图1是根据本申请的音频处理方法和系统的示例性的应用场景。图1示出了主播(即表演者)通过主播端设备(手机或平板电脑等电子设备)通过特定的直播类应用，例如快手TM，抖音TM等，在互联网上进行直播活动。在直播的过程中除了发布直播侧的视频影像之外，还发布直播者的音频，例如演唱歌曲、朗诵，或者对产品的介绍等。作为直播活动的接受者，观众通过观众端设备(手机、平板电脑等电子设备)经由该直播类应用来观看直播。同时，针对直播活动，观众可以通过观众侧设备进行对应的反馈。除了通过直播类应用执行评论、购买、点赞等操作以外，还可以以声音的方式与直播者互动。也就是说，观众侧设备可以接收直播侧设备发送的音频，也可以向直播侧设备发送响应于该音频的反馈音频，以便让直播者可以和观众进行更好的互动。

以一个演唱类的直播活动为例，基于直播应用提供的平台，主播通过其手机发布演唱歌曲的视频和音频，观众通过手机或平板电脑观看到该节目的时候，除常规的通过应用进行评论、点赞等以外，还可以通过手机等设备与直播者语音互动，例如，点评或者合唱。

作为现有技术中实施上述直播活动的一种方案，如图2(a)所示，直播侧的设备包括用于直播的直播手机1001、声卡1002、伴奏手机1003、以及话筒1004、有线耳机1005a等。直播手机 1001中运行直播类应用，并且通过直播手机1001与观众进行互动。声卡1002包括多个输入接口和输出接口。直播手机1001通过有线方式与声卡1002的其中之一输出接口连接，声卡1002将音频输出至直播手机1001。伴奏手机1003、话筒1004、以及有线耳机1005a通过有线方式分别与声卡1002连接，以分别将伴奏音与通过话筒1004采集的主播音输出至声卡1002进行混音，并将混音后的音频一方面通过直播手机1001传输给观众，一方面通过有线耳机1005a提供给主播进行鉴听。

上述方案，能够实现既有人声(例如主播的演唱声)又有伴奏(演唱歌曲的伴奏乐曲)，还能获取观众声(即观众的互动声音)，实现了声音采集，混音，收听和监听的功能。但是同时却导致了设备过多、操作复杂以及连线过于杂乱的问题，影响了主播的活动。另外，为了使直播具有良好的声音效果，主播一般需要购置专业话筒1004、声卡1002和有线耳机1005a、伴奏手机1003等设备，体积庞大，上述方案基本不适用于室外场合，尤其是经常变动直播地点的情况。

此外，目前还提出了一种使用蓝牙耳机1005b的直播方案。如图2(b)所示，该方法中使用三台手机，其中一台作为直播手机1001，另外两台提供伴奏音的伴奏手机1003。其中一台伴奏手机1003A连接蓝牙耳机1005b，用于向主播以蓝牙通信方式提供伴奏音，另一台伴奏手机1003B与声卡1002连接以将该伴奏音与话筒1004采集的主播音通过声卡1002进行混音。

然而，该方案在使用时，需要两台伴奏手机1003A、1003B启动相同的音乐APP，进入相同的播放界面，并且要求用户双手同时点击播放按钮。该方案虽然通过使用蓝牙耳机1005b减少了连线，但其使用场景受限，通常仅仅适用于唱歌的情形。更突出的问题是，用户双手点击两台伴奏手机1003A、1003B的播放按钮，难以严格同步，不可避免地会存在时延差，并且用户也很难发觉存在时延差的问题，这将直接影响直播效果。该方案虽然通过使用蓝牙耳机减少了连线，由于蓝牙耳机只能收听到伴奏音，对于观众的反馈、主播自己的声音不能实现监听，因此但其使用场景受限，通常仅仅适用于唱歌的情形。

相对于此，

下面，首先简单描述一下一个完整直播类应用的原理、流程、及系统架构。

直播的原理在于，把主播录制的音视频，推送到服务器，再由服务器分发给观众观看。观众在观看的同时可以参与，与主播之间进行互动。

其流程主要包括：音视频采集、数据处理、音视频编码、推流、数据分发、拉流、音视频解码、音视频播放、互动。

就系统架构而言，如图3所示，主要包括采集端1(也即主播端)、流媒体服务器2、以及播放端3(即观众端)。其中，采集端1实现音视频的采集、数据处理、音视频编码、并进行音视频的封装、以及推流；流媒体服务器2实现数据分发、转码、鉴黄、截屏等；播放端3主要实现拉流、音视频解码、音视频的播放。

此外，直播之所以火爆主要还在于观众参与，从而与主播之间产生互动。在互动的场景下，播放端3在进行音视频播放之外，还采集观众的反馈(可以包括音视频)，并将其进行编码、封装后，推流至流媒体服务器2，并由流媒体服务器2实现数据分发，进而反馈至播放端1，使得主播能够收听，从而实现互动。为了更好地进行互动，主播通常需要对直播的音频内容、以及观众的反馈音频内容通过耳机进行监听。

本申请是针对采集端1提出的一种音频处理方案，以期使主播更方便实现监听。

本申请的音频处理方案，通过同时启用直播手机1001的无线音频接口与有线音频接口，利用无线耳机接收无线音频接口发送的音频来实现监听。

根据本申请的一个具体方案，采用有线方式将伴奏音和主播音混合后输入直播手机，利用直播手机通过互联网进行发布，换言之，提供给观众侧手机，观众侧手机通过互联网将针对所发布音频的反馈音频发送给服务器以传递给直播手机中的应用，直播手机将伴奏音、主播音和观众反馈声音混合后通过无线通信发送到无线耳机，为与直播手机无线通信的无线耳机提供监听功能。也就是说，通过无线耳机来实现监听功能。

根据本申请的另一个具体方案，采用有线方式将伴奏音输入直播手机，此外与直播手机无线通信的无线耳机拾取主播音，利用直播手机将伴奏音和人声混合后通过互联网进行发布以便观众侧手机收听并进行反馈，直播手机将伴奏音、人声和观众反馈声音混合后发送到无线耳机以实现无线耳机的监听功能。也就是说，通过无线耳机同时实现了拾音与监听的功能。

图4示出了根据本申请一些实施例的电子设备100的结构示意图。例如，本申请的上述应用场景中所提及的直播手机等采集侧1的终端设备。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接头130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，话筒1004170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器110可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。例如，以根据本发明的一个方案的直播手机为例，在直播手机启动应用后，运行指令以建立多个音频通路，并进行相应的混音，以及将各音频信号发送给各对应的装置。具体而言，直播手机接收音频处理器发送的发布用音频信号(发布用音频信号中混合了伴奏音信号与主播音信号)，并通过互联网将发布用音频信号发送给观众手机；接收来自观众的反馈音信号，并将发布用音频信号与反馈音频信号进行混音，生成监听用音频信号；并且将监听用音频信号通过蓝牙通信发送给蓝牙耳机。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机1005b接听电话的功能。根据本申请的音频处理方法，即是将音频模块170处理得到的发布用音频信号(由伴奏音和主播音混音形成的信号)传送给远端观众实现分享，监听用音频信号(即由伴奏音、观众音、主播音混音后的音频信号)传送给蓝牙耳机1005b以实现鉴听。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机1005b接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机1005b播放音乐的功能。

内部存储器121作为计算机可读存储介质，可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性计算机可读介质。例如，内部存储器121可以包括闪存等任何合适的非易失性存储器和/或任何合适的非易失性存储设备，例如一个或多个硬盘驱动器(Hard-Disk Drive，HDD(s))，一个或多个光盘(Compact Disc，CD)驱动器，和/或一个或多个数字通用光盘(Digital Versatile Disc，DVD)驱动器。根据本申请的一些实施例，作为计算机可读存储介质的存储器121上存储有指令，该指令在计算机上执行时使处理器110执行根据本申请实施例中的音频处理方法，具体可参照上述实施例的方法，在此不再赘述。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图5是本发明实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)的系统库，以及内核层。

应用程序层可以包括一系列应用程序包。例如，启动本申请的音频处理方法的直播APP即处于该应用程序层。

如图5所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图5所示，根据本申请的音频处理系统中的直播用手机(作为电子设备的示例)，其应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器、通路控制模块、以及混音模块等。

其中，通路控制模块用于进行音频通路配置并建立音频通路，以进行音频信号的传输。混音模块用于对音频信号进行混音。

每一条音频通路，本质上就是缓冲区(buffer)之间的数据搬运。也就是说，在音频通路的始端是一个数据缓冲区，终端是另一个缓冲区。在通路控制模块的控制下，数据从始端的缓冲区搬到终端的缓冲区，逻辑上看就是有一条通路。

通路控制模块是经由CPU运行特定代码实现的软件模块。通路控制模块读取输入缓冲区中的数据，处理后存入输出缓冲区，从而达成对数据的处理。将上述代码以“库”的形式存在，库中封装多个用于实现通路控制的功能的函数。调用这些函数，就能建立输入、输出缓冲区，启动数据搬运和复制的工作，也包括撤销缓冲区释放“通路”的功能。例如，调用“库”的接口函数就可实现读取数据，处理和输出，也即实现音频通路的建立。

混音模块也是经由CPU运行特定代码实现的软件模块。混音模块的本质即对输入信号的求和。混音模块进行混音可以通过线性法、固定权重法(随信号幅值)、动态权重法(参数变化改变求和的权重)中的任一混音算法进行。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面，以蓝牙耳机作为无线耳机的示例，该蓝牙耳机通过蓝牙通信与直播手机进行音频信号的传递，对于本申请的上述两种方案进行更详细的说明。

首先，结合图6～图10，说明本申请一个实施例的音频处理方法及实现该音频处理方法的音频处理系统。

如图6所示，实现该实施例的音频处理方法的音频处理系统包括：直播手机1001、伴奏手机1003、声卡1002、话筒1004以及蓝牙耳机1005b。为了后续便于对该音频处理系统的工作流程进行理解，图6中还示出了用于播放直播手机1001发布的音频的观众手机1006。

在本实施例中，直播手机1005是电子设备的实例，声卡1002是音频处理器的实例，且伴奏手机1003是伴奏音提供设备的实例，话筒1004是声音采集装置的实例，声卡1002是音频处理器的实例。

声卡1002是一种外置声卡，用于将来自话筒1004、以及伴奏手机1003的音频信号进行相应处理后传送给直播手机1001。也就是说，声卡1002具有多个音频输入接口，以分别从话筒1004、伴奏手机1003等设备输入音频信号，通过声卡1002进行相应处理。此外，声卡1002还具有一个音频输出接口，以通过该音频输出接口输出处理后的音频信号给直播手机1001。

声卡1002例如可以进行美声处理，例如电音处理、混音处理、变音处理等。此外，直播声卡1002还可以使用自带的掌声、亲嘴、鄙视、笑声等趣味音效，让直播显得没有那么单调。此外，声卡1002还可以具有降噪功能，以便主播们讲话的时候背景音乐会突然降低，当主播说完背景音乐就恢复音量。

当前，市场上常见的声卡例如包括ICKBTM SO8声卡、客所思TMFX5声卡、得胜TMMX1直播声卡、森然播吧TM声卡、唱吧TMK10声卡等。

伴奏手机1003以及话筒1004，通过有线接入声卡1002的音频输入接口。在直播演唱的场景中，伴奏手机1003用于将所演唱的歌曲的伴奏音输入至声卡1002中，话筒1004用于收集主播演唱的声音并输入声卡1002中。声卡1002将伴奏音的音频和演唱音的音频混合并进行相应的处理后，通过音频输出接口以有线通信方式输出给直播手机1001。

直播手机1001与声卡1002采用有线方式连接。直播手机1001通过其上运行的直播应用，将声卡1002发送的伴奏音和主播演唱音的混合音进行发布并推流至流媒体服务器，观众手机1006通过从该流媒体服务器进行拉流即可进行播放。另外，直播手机1001还通过直播应用会通过互联网接收到观众侧的反馈音频，并且将反馈音频和伴奏音、人声混合并以蓝牙通信的方式发送给蓝牙耳机1005b。通过蓝牙耳机1005b，直播者可以监听伴奏音、自己演唱的声音，以及来自观众手机1006的反馈音频。

话筒1004采集的主播音信号和伴奏手机1003提供的伴奏音信号进行混音之后形成的发布用音频信号作为第一音频信号的实例。所谓发布用音频信号是指该音频信号是通过直播类应用进行直播发布的。

体现观众侧的反馈音的反馈音频信号作为第二音频信号的实例。直播手机1001将接收到的反馈音频信号，和伴奏音、人声混合后得到的监听用音频信号作为第三音频信号的实例。所谓监听用音频信号是指，该音频信号是用于传送给主播，以对直播内容进行监听。

直播手机1001用于启动应用以通过应用向观众手机1006发布音频，并且接收来自观众手机1006的反馈。

伴奏手机1003和话筒1004均有线连接声卡1002，声卡1002有线连接直播手机1001。声卡1002用于对话筒1004采集的主播演唱的声音和伴奏手机1003提供的伴奏音进行混音，形成发布用音频信号，将发布用音频信号通过有线连接发送给直播手机1001。

观众手机1006通过互联网连接直播手机1001，以接收由直播手机1001发布的发布用音频信号，并将体现反馈的音频信号发送给直播手机1001。

蓝牙耳机1005b与直播手机1001通过蓝牙通信连接，直播手机1001还用于将发布用音频信号与反馈音频信号进行混音，生成监听用音频信号并将监听用音频信号发送给蓝牙耳机1005b，以供主播进行监听。

根据本申请的音频处理系统，直播手机1001一方面通过有线连接声卡1002(即有线连接声卡1002的音频输出接口)以输入发布用音频信号，同时直播手机1001通过蓝牙通信连接蓝牙耳机1005b以输出监听用音频信号，也就是说，上述直播手机1001同时启用模拟耳机和蓝牙耳机1005b功能。并基于此，通过在直播手机1001、声卡1002、蓝牙耳机1005b以及观众手机1006之间建立多条音频通路，并将来自声卡1002的发布用音频信号与来自观众手机1006的反馈音频信号进行混音，生成监听用音频信号并通过蓝牙通信提供给蓝牙耳机1005b，由此实现蓝牙耳机的监听功能。

下面参考图7，对上直播手机1001同时启用两个音频接口(模拟耳机和蓝牙耳机1005b)的实现方式进行说明。

一个手机允许同时启用模拟耳机和蓝牙耳机1005b，可以通过软件来实现。

具体而言，以安卓系统为例，可以修改安卓framework(编程框架)中的audiopolicy(音频控制)配置，设成输入输出设备包含两个耳机的IOProfile(用户配置文件输入输出)。具体地，如图6所示，在音频配置文件(audio_policy.conf)中，同时定义了多个音频(audio)接口，每一个audio接口包含若干output(输出)和input(输入)，而每个output和input又同时支持多种IOprofile，每种IOProfile又支持若干种设备，因此两个耳机作为两个设备，配置到对应的IOprofile即可。也就是说，通过修改配置文件，即可以实现同时启用多个音频接口，在此基础上，实现本申请的音频处理方法。

如图8(a)所示，用于上述实施例的音频处理系统的音频处理方法包括：

步骤S110，首先，直播手机1001启动直播类应用。通过该直播类应用，直播手机1001可以经由流媒体服务器向收看该直播应用的观众手机1006发布音频。此外，直播手机1001还可以接收经由所述流媒体服务器获得的来自观众的反馈音频。

该直播类应用可以是应用于直播的软件，例如抖音TM、快手TM等。主播通过直播手机1001打开直播类应用，通过该直播类应用经由互联网通过流媒体服务器发送音频至观众手机1006，观众通过观众手机1006打开同样的应用接听来自主播的音频，并通过观众手机1006将反馈音频即观众音信号经由互联网通过流媒体服务器发送至直播手机1001。主播通过直播手机1001接收来自观众的反馈音频，例如用户的评论、用户的合唱等。根据一些实施例，在本申请的音频处理系统中，直播手机1001启动直播类应用时，直播手机1001启动蓝牙耳机1005b收听功能。此后，执行如图8(a)所示的音频处理方法中的S120-S160步骤。

步骤S120，在启动蓝牙耳机1005b收听功能之后，直播手机1001经由有线通信接收声卡1002发送的发布用音频信号，发布用音频信号混合有伴奏音信号与主播音信号。更具体而言，具体地，参考上述对于图6的说明，声卡1002分别通过有线音频输入接口连接伴奏手机1003以及话筒1004，并通过有线音频输出接口连接直播手机1001。伴奏手机1003通过有线通信将伴奏音信号传递给声卡1002，话筒1004通过有线通信将主播音信号传递给声卡1002，声卡1002将伴奏音信号和主播音信号进行混音，得到发布用音频信号。声卡1002通过有线通信将发布用音频信号发送给直播手机1001。

步骤S130，直播手机1001经由应用通过互联网对发布用音频信号进行发布。具体地，直播应用将伴奏音信号和主播音信号混合得到的发布用音频信号通过互联网发送到应用关联的服务器上，以由观众手机1006实现进行。

步骤S140，直播手机1001经由直播类应用通过互联网接收来自观众手机1006的观众音。也就是说，观众手机1006接收发布用音频信号，并将发布用音频信号的反馈音频信号，即观众音(也就是第二音频信号)经由互联网发送给直播手机1001。

步骤S150，直播手机1001将发布用音频信号与反馈音频信号进行混音，生成监听用音频信号。混音方法如上所述，通过直播手机1001的应用程序框架层中的混音模块来进行。在此不再赘述。

步骤S160，直播手机1001将监听用音频信号通过蓝牙通信网络发送给蓝牙耳机1005b。

上述步骤通过图8(b)能够更直观地了解各个设备间信号处理的示例性流程。

步骤10，直播手机1001启动直播类应用。在启动直播类应用的情况下，直播手机1001通过修改操作系统默认音频通路配置，允许同时启用有线耳机(模拟耳机)和蓝牙耳机1005b。并且通过检测有线音频接口来确认模拟耳机是否插入，通过检测蓝牙是否配对来确认蓝牙耳机1005b是否配对成功。在确认模拟耳机插入以及蓝牙耳机1005b配对成功的情况下，直播手机1001进入收听模式。

步骤S11，直播手机1001通过声卡1002获取由伴奏音与主播音混合形成的观众用音频。步骤S12,，直播手机1001将该观众用音频通过应用传送给观众手机1006。步骤S13，直播手机1001接收来自观众手机1006的反馈音频。步骤S14，直播手机1001将观众用音频与反馈音频混音后形成的监听用音频通过蓝牙通信发送给蓝牙耳机1005b。

也就是说，声卡1002通过其音频输出接口有线连接直播手机1001的模拟耳机接口，可以保证来自声卡1002的音频信号不受外界干扰，而且通信过程中信号损失比较少，从而能够提高音质。直播手机1001和观众手机1006，通过互联网实现连接，例如，具体可以通过网络服务器进行连接，能够使得主播面向更广泛的观众，观众的收听观看比较便捷。蓝牙耳机1005b和直播手机1001通过蓝牙通信连接，完全去除了连线，不会影响用户活动，提升便携性。直播手机1001输入为来自声卡1002的发布用音频信号(伴奏音信号和主播音混音而成)和来自观众手机1006的反馈音频信号(体现反馈的观众音信号)。声卡1002的输出为发布用音频信号。观众手机1006的输入为发布用音频信号，输出为反馈音频信号。蓝牙耳机1005b，用于收听，输入为监听用音频信号(发布用音频信号和反馈音频信号混音而成)。由此，主播通过携带较少的电子设备进行就能进行直播，减少有线连接，提升便携性，且直播效果较好，没有延时，避免了图2(a)所示的设备多、连线复杂等问题和图2(b)所示的存在时延差，并且用户也很难发觉存在时延差的问题，这将直接影响直播效果的问题。

下面，结合图9说明实现上述音频处理方法中各电子设备间的信号传递。

图9所示的实施根据本申请的音频处理方法的系统包括如图5所示的各电子设备。更进一步地，图9中还示出了直播手机1001中包括的与运行本实施例的方案相关的各硬件模块。应用程序处理器(AP)、通信模块(蜂窝或WIFI通信模块)、蓝牙模块、编译码器(Codec)、及显示模块等。AP用于程序的处理，即程序在AP中运行，以实现相应的功能，例如，混音、设备内部的通信等。通信模块用于在不同设备之间进行通信以实现音频信号传输。

在启动直播类应用(即上述步骤S110)后，伴奏手机1003播放音乐或者背景音作为伴奏以提供伴奏音频，话筒1004收集主播的人声以提供主播音频，话筒1004和伴奏手机1003将各音频信号输出给声卡1002，以混合成发布用音频信号。声卡1002将发布用音频信号发送至直播手机1001。其中，发布用音频信号即可以以模拟信号的方式发送给直播手机1001，也可以以数字信号的方式发送给直播手机1001。当已模拟信号的方式发送，直播手机1001通过Codec转换成数字音频信号(对应图9中信号A)，此后通过应用处理器AP经由通信模块将发布用音频信号发送至观众。观众手机1006将观众根据观众用音频的反馈音频(对应于图9中的远端声信号C)发送至直播手机1001。直播手机混合观众用音频A和反馈音频信号C生成监听用音频信号(对应图9中信号B)，并将监听用音频信号通过蓝牙模块发送至蓝牙耳机1005b。

具体而言，首先，直播手机1001通过有线通信连接声卡1002并经由有线通信接收声卡1002发送的发布用音频信号(图中A信号)，即对应于图8(a)中的步骤S120。

直播手机1001接收来自声卡1002的伴奏和主播音的方式有两种。

方式1，声卡1002产生的发布用音频信号为数字信号。声卡1002通过数字输入方式连接直播手机1001。

例如，声卡1002能够提供数字音频信号，且配有USB接头，将USB接头插入直播手机1001的USB接口，直播手机1001通过USB数据通路接收声卡1002提供的发布用音频信号，并将发布用音频信号传递至AP。

方式2，声卡1002产生的发布用音频信号为模拟信号。声卡1002通过模拟输入方式连接直播手机1001。模拟音频信号通过直播手机1001的系统底层的编解码器(Codec)转化为数字音频信号，直播手机1001将数字音频信号发送给观众手机1006。

例如，声卡1002通过3.5mm耳机头(有线耳机，也可称之为模拟耳机)插入直播手机1001的3.5mm耳机座，直播手机1001将来自声卡1002的模拟信号的发布用音频信号传递至Codec，经过Codec内部的ADC采样后转换成数字信号的发布用音频信号，发布用音频信号(图中信号A)通过总线(例如I2S，集成电路内置音频总线，或slimbus，串行低功耗芯片内部媒体总线等)输入给AP。

此后，AP将该发布用音频信号通过通信模块发送给观众手机1006，即对应于图8(a)中步骤S130。

直播手机1001的通过AP将发布用音频信号传递至通信模块，以通过通信模块将发布用音频信号发送流媒体服务器，以便观众手机1006播放。由此，实现了直播手机1001通过直播类应用对发布用音频信号进行发布。

然后，直播手机1001接收来自观众的作为反馈的反馈音频信号(图9中C信号)，即对应于图8(a)中步骤S140。

具体地，由蜂窝或网络通信模块通过互联网接收来自观众手机1006的反馈音频信号，AP接收来自蜂窝或网络通信模块的反馈音频信号。由此，实现了直播手机1001接收来自观众的反馈音频信号。

然后，直播手机1001将发布用音频信号与反馈音频信号进行混音，生成监听用音频信号(图中B信号)，即对应于图8(a)中步骤S150。

直播手机1001通过AP将来自声卡1002的发布用音频信号和来自观众手机1006的反馈音频信号进行混音，生成监听用音频信号。

然后，直播手机1001通过蓝牙通信连接蓝牙耳机1005b并将监听用音频信号通过蓝牙通信发送给蓝牙耳机1005b，实现蓝牙耳机1005b的收听，即对应于图8(a)中步骤S160。

直播手机1001通过AP将监听用音频信号通过蓝牙模块发送监听用音频信号至蓝牙耳机1005b，从而使得主播通过蓝牙耳机1005b能够听到监听用音频信号。

接下来，结合图10的直播手机1001的功能模块图进一步详细说明根据本申请的直播手机1001中音频处理方法的在操作系统中的实施过程。

如图10所示，直播手机1001的操作系统包括应用层、框架层、硬件访问层。其中，在应用层设置应用(直播应用)，在框架层设置通路控制模块和混音模块，通过硬件访问层对硬件进行访问。

主播侧的硬件包括声卡1002、直播手机1001、蓝牙耳机1005b，观众侧的硬件包括观众手机1006。

当启动直播类应用后，操作系统将启动信息通知通路控制模块，通路控制模块确定蓝牙耳机1005b与模拟耳机是否连接成功。当确定蓝牙耳机1005b配对成功且声卡1002与直播手机1001有线连接，通路控制模块启动混音模块以便进行混音，同时建立第一通路、第二通路、第三通路、以及第四通。

其中，第一通路将来自声卡1002的发布用音频信号发送给直播类应用进行发布，以便观众手机1006通过进行播放。

第二通路将来自声卡1002的发布用音频信号发送给混音模块，由混音模块在框架层进行处理。

第三通路由直播应用将通过互联网接收的来自观众手机1006的反馈音频信号发送给混音模块，由混音模块在框架层进行处理。

混音模块将发布用音频信号与反馈音频信号进行混音，得到监听用音频信号。

第四通路将由混音模块基于发布用音频信号与反馈音频信号混音得到的监听用音频信号通过蓝牙网络发送给蓝牙耳机1005b。由此，能够实现主播侧的蓝牙耳机1005b收听功能。

下面，结合图11～图14，说明本申请另一个实施例的音频处理方法及实现该音频处理方法的音频处理系统。与上述实施例不同，根据本实施例，蓝牙耳机1005b不仅启用其收听功能，同时还启用其拾音功能，也就是说，主播音通过蓝牙耳机1005b拾取后，经蓝牙通信发送给直播手机1001进行用于混音。

具体地，如图11所示，实现实施例的音频处理方法的音频处理系统包括：直播手机1001、伴奏手机1003、观众手机1006以及蓝牙耳机1005b。

其中，直播手机1001作为电子设备的示例，伴奏手机1003作为伴奏音提供设备的示例。

直播手机1001与伴奏手机1003之间有线连接以经由有线通信接收伴奏手机1003发送的伴奏音信号。

直播手机1001与蓝牙耳机1005b之间蓝牙通信连接，并通过蓝牙耳机1005b接收主播音信号。

直播手机1001将伴奏音信号与主播音信号进行混音，得到发布用音频信号并将发布用音频信号发送给与直播手机1001之间通过无线网络连接的观众手机1006，并接收来自观众手机1006的体现反馈音频的反馈音频信号(即观众音信号)。

此外，直播手机1001还将发布用音频信号与反馈音频信号进行混音，生成监听用音频信号并将监听用音频信号通过蓝牙通信网络发送给蓝牙耳机1005b，以实现监听功能。

也就是说，与上述结合图5～图10描述的实施例不同的是，根据本实施例，蓝牙耳机1005b不仅具有收听功能，同时还具有拾音功能，通过蓝牙耳机1005b拾取主播音，将该主播音信号通过蓝牙通信发送给直播手机1001，由直播手机基于该主播音信号进行混音并发布给观众侧。

为了实现蓝牙耳机1005b的拾音加监听功能，同样地，直播手机1001在启动应用之后，需要修改音频通路配置来允许同时启用有线耳机和蓝牙耳机1005b。具体实施方式可以参考上述参考图8的描述，在此省略其详细说明。

相应地，如图12(a)所示，通过上述音频处理系统实现的音频处理方法包括：

步骤S210，直播手机1001启动直播类应用。关于该直播类应用的具体细节，参考上述实施例，在此省略其详细说明。

步骤S220，直播手机1001经由有线通信接收伴奏手机1003发送的伴奏音信号。具体地，将伴奏手机1003通过有线音频接口与直播手机1001进行连接，从而直播手机1001经由有线通信接收伴奏手机1003发送的伴奏音信号。

步骤S230，直播手机1001通过无线通信接收来自蓝牙耳机1005b的主播音信号。具体而言，蓝牙耳机1005b接收主播音信号，并经由蓝牙通信将主播音信号发送至直播手机1001。

也就是说，在本实施例中，与上述实施例不同的是，主播音信号是通过蓝牙耳机1005b进行拾音，并通过蓝牙通信传送给直播手机1001的。由此，相比于上述实施方式，无需特意配备声卡1002来对伴奏音信号与主播音信号直接通过直播手机1001中的混音模块进行混音。从而进一步简化了设备以及连线。

而且，蓝牙耳机1005b在用于声音采集时，由于其被佩戴在外耳，位置是基本固定的，因而其与人嘴很近，同时二者的相对位置也是基本固定的，这显示了用TWS采集人声具有的独特的优越性。关于利用蓝牙耳机1005b进行拾音，可以通过现有的方法来实现，例如通过蓝牙耳机1005b隐藏的麦进行拾音等，在此省略其详细说明。

步骤S240，直播手机1001基于伴奏音信号和主播音信号进行混音处理以得到发布用音频信号。

步骤S250，直播手机1001经由应用发布该发布用音频信号。也就是说，直播手机1001通过直播应用发布该直播用音频信号，以推流给流媒体服务器，广州手机1006通过互联网从该流媒体服务器进行拉流，播放该发布用音频信号。

步骤S260，直播手机1001通过该直播应用接收反馈音频信号。具体而言，观众手机1006经由应用接收发布用音频信号，将反馈音频信号经由无线网络发送给直播手机1001。

步骤S270，直播手机1001基于发布用音频信号与反馈音频信号进行混音，生成监听用音频信号。

步骤S280，直播手机1001将监听用音频信号通过蓝牙通信发送给蓝牙耳机1005b。

上述步骤通过图12(b)能够更直观地了解。

步骤S20：首先，直播手机1001启动应用。然后直播手机1001通过伴奏手机1003获取由伴奏音并通过蓝牙耳机1005b拾取主播音。步骤S21：此后直播手机1001将该两音频进行混合形成的发布用音频信号。步骤S22：直播手机1001将该发布用音频信号通过应用传送给观众手机1006。步骤S23：并接收来自观众手机1006的反馈音频信号。步骤S24：此后直播手机将发布用音频信号与反馈音频信号混音后形成的监听用音频信号，通过蓝牙通信发送给蓝牙耳机1005b。

也就是说，本实施方式中，混音模块进行2次混音，即将伴奏音信号与主播音信号进行混音，得到发布用音频信号，提供给观众手机1006，此外，还将发布用音频信号进一步与来自观众手机1006的观众音信号进行混音，通过蓝牙模块提供给主播进行监听。

根据本实施例，蓝牙耳机1005b，用于收听和拾音，输入为监听用音频信号，输出为主播音。蓝牙耳机1005b由于其被佩戴在外耳，位置是基本固定的，因而其与人嘴很近，同时二者的相对位置也是基本固定的，这显示了用蓝牙耳机1005b采集人声具有的独特的优越性。由此，主播通过携带更少的电子设备进行就能进行直播，主播仅需携带直播手机1001、伴奏音提供设备和蓝牙耳机1005b即可进行直播，而且仅伴奏手机1003和直播手机1001有线连接，有线连接较少，进一步提升便携性，且直播效果较好，没有延时，避免了图2(a)所示的设备多、连线复杂等问题和图2(b)所示的存在时延差，并且用户也很难发觉存在时延差的问题，这将直接影响直播效果的问题。

下面，结合图13说明实现上述音频处理方法中各电子设备间的信号传递。

图13所示的实施根据本申请的音频处理方法的系统包括如图11所示的各硬件。更进一步地，图13示出了直播手机1001包括应用程序处理器(AP)、通信模块(蜂窝或WIFI通信模块)、蓝牙模块、编译码器(Codec)、及显示模块等。

在启动应用(即上述步骤S210)后，伴奏手机1003播放音乐或者背景音以提供伴奏音频，蓝牙耳机1005b收集主播的人声以提供主播音频，蓝牙耳机1005b和伴奏手机1003将音频输出给直播手机1001，以混合成观众用音频。直播手机1001将观众用音频发送至观众。观众手机1006将观众根据观众用音频的反馈音频发送至主播手机。主播手机混合观众用音频和反馈音频生成监听用音频，并将监听用音频发送至蓝牙耳机1005b。

首先，直播手机1001通过有线通信连接伴奏手机1003并经由有线通信接收伴奏手机1003发送的伴奏音信号(图中A信号)，即对应于图12(a)中的步骤S220。

与上述实施例同样地，直播手机1001接收来自伴奏手机1003的伴奏音信号可以是模拟信号，也可以是数字信号。关于具体的信号处理，可以参考上述实施例中对于发布用音频信号的处理，在此省略其详细说明。

接着，直播手机1001通过蓝牙通信连接蓝牙耳机1005b，并通过蓝牙耳机1005b接收主播音信号(图中E信号)，即对应于图12(a)中的步骤S230。

直播手机1001通过蓝牙模块接收主播音信号并将主播音信号输入给AP。

接下来，直播手机1001将伴奏音信号与主播音信号进行混音，得到发布用音频信号(图中D信号)，即对应于图12(a)中的步骤S240。

直播手机1001通过AP将来自伴奏手机1003的伴奏音信号和来自蓝牙耳机1005b的主播音信号进行混音，得到发布用音频信号。

然后，直播手机1001经由应用通过无线网络连接观众手机1006并将发布用音频信号发送给观众手机1006，即对应于图12(a)中的步骤S250。

观众手机1006经由应用接收发布用音频信号并将体现反馈的反馈音频信号(图中C信号)经由无线网络发送给直播手机1001，即对应于图12(a)中的步骤S260。

直播手机1001的通过AP将发布用音频信号传递至通信模块，通信模块将发布用音频信号发送至观众手机1006。由此，实现了直播手机1001将发布用音频信号发送至观众手机1006。

无线通信模块接收来自观众手机1006的反馈音频信号，AP接收来自无线通信模块的反馈音频信号。由此，实现了直播手机1001接收来自观众的反馈音频信号。

此后，直播手机1001将发布用音频信号和反馈音频信号进行混音，生成监听用音频信号(图中B信号)，即对应于图12(a)中的步骤S270。

直播手机1001通过AP将发布用音频信号和来自观众手机1006的反馈音频信号进行混音，生成监听用音频信号。

最后，直播手机1001将监听用音频信号发送至蓝牙耳机1005b，即对应于图12(a)中的步骤S280。

直播手机1001通过AP将监听用音频信号发送至蓝牙模块，通过蓝牙模块发送监听用音频信号至蓝牙耳机1005b，从而使得主播通过蓝牙耳机1005b能够听到监听用音频信号。

下面，结合图14说明上述直播手机1001实施音频处理方法中的工作流程。

直播手机1001的操作系统包括应用层、框架层、硬件访问层。其中，在应用层设置应用(直播应用)，在框架层设置通路控制模块和混音模块，通过硬件访问层对硬件进行访问。其中，主播侧的硬件包括伴奏手机1003、直播手机1001、蓝牙耳机1005b，观众侧的硬件包括观众手机1006。

当确定蓝牙配对成功且伴奏手机1003与直播手机1001有线连接，通路控制模块启动混音模块以便进行混音，同时建立a通路，b通路、c通路、d通路、以及e通路。由此，实现蓝牙耳机1005b的拾音和收听功能。

其中，a通路将来自伴奏手机1003的伴奏音信号，也就是来自有线音频接口的伴奏音信号发送给混音模块。

b通路将来自蓝牙耳机1005b的主播音信号，也就是来自无线音频接口的主播音信号发送给混音模块。

c通路将由混音模块基于伴奏音信号与主播音信号进行混音得到的发布用音频信号从混音模块发送给直播应用，以便通过互联网发送给观众手机1006。

d通路由直播应用将通过互联网接收的来自观众手机1006的反馈音频信号发送给混音模块。

e通路将由混音模块基于发布用音频信号与反馈音频信号混音得到的监听用音频信号发送给无线音频接口，以便通过蓝牙通信发送给蓝牙耳机1005b。

上述的实施例中，直播手机1001作为电子设备的示例。伴奏手机1003为伴奏音提供设备的示例。话筒1004为声音采集装置的示例。话筒1004和伴奏手机1003均与声卡1002有线连接。发布用音频信号为第一音频信号的示例，反馈音频信号为第二音频信号的示例，监听用音频信号为第三音频信号的示例。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明书附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，在不偏离本申请的精神和范围内可以在形式上和细节上对其作各种改变、变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种音频处理方法，用于音频处理系统，所述音频处理系统包括电子设备、伴奏音提供设备、以及无线耳机，其特征在于，包括：

所述电子设备启动直播类应用，所述直播类应用发布音频，并且接收与所述音频关联的反馈音频；

所述电子设备接收包括所述伴奏音提供设备发送的伴奏音信号在内的音频信号，并将所接收的音频信号作为第一音频信号，或处理后作为第一音频信号；

所述电子设备通过所述直播类应用发布所述第一音频信号，并经由所述直播类应用通过互联网接收反馈音频，所述反馈音频为第二音频信号；

所述电子设备基于所述第一音频信号以及所述第二音频信号混合得到第三音频信号；

所述电子设备将所述第三音频信号通过无线通信发送给与所述电子设备关联的所述无线耳机以进行监听。
根据权利要求1所述的音频处理方法，所述音频处理系统还包括音频处理器与声音采集装置，所述伴奏音提供设备和所述声音采集装置分别连接所述声音采集装置，且所述声音采集装置与所述电子设备连接，其特征在于，所述电子设备接收包括所述伴奏音提供设备发送的伴奏音信号在内的音频信号，并将所接收的音频信号作为或处理后作为第一音频信号包括：

所述音频处理器分别通过有线通信接收由所述伴奏音提供设备提供的伴奏音频信号以及由所述声音采集装置采集的主播音信号，并混合得到所述第一音频信号，

所述电子设备通过有线通信接收由所述音频处理器提供的所述第一音频信号。
根据权利要求2所述的音频处理方法，其特征在于，所述音频处理器得到的所述第一音频信号是数字音频信号。
根据权利要求2所述的音频处理方法，其特征在于，所述音频处理器得到的所述第一音频信号为模拟信号，所述电子设备将模拟信号的第一音频信号转化为数字信号的第一音频信号，并将数字信号的第一音频信号通过所述直播类应用进行发布。
根据权利要求3或4所述的音频处理方法，其特征在于，所述电子设备包括混音模块与通路控制模块，

当所述电子设备启动所述直播类应用，所述通路控制模块同时启用无线音频接口与有线音频接口，所述通路控制模块启动所述混音模块以便进行混音，同时建立第一通路、第二通路、第三通路、以及第四通路，

其中，所述第一通路将来自所述有线音频接口的所述第一音频信号发送给所述直播类应用，以通过所述应用进行发布，

所述第二通路将来自所有线音频接口的所述第一音频信号发送给所述混音模块，

所述第三通路由所述直播类应用将通过无线网络接收的第二音频信号发送给所述混音模块，

所述第四通路将由所述混音模块基于所述第一音频信号与所述第二音频信号混音得到的所述第三音频信号通过无线通信发送给所述无线音频接口，以便所述无线耳机监听。
根据权利要求1所述的音频处理方法，其特征在于，所述电子设备接收包括所述伴奏音提供设备发送的伴奏音信号在内的音频信号，并将所接收的音频信号作为或处理后作为第一音频信号包括：

所述电子设备经由有线通信接收所述伴奏音提供设备发送的伴奏音信号；

所述无线耳机采集主播音信号，并经由无线通信将所述主播音信号发送至所述电子设备；

所述电子设备基于所述伴奏音信号和所述主播音信号，进行混音处理得到所述第一音频信号。
根据权利要求6所述的音频处理方法，其特征在于，所述伴奏音信号为数字音频信号。
根据权利要求6所述的音频处理方法，其特征在于，所述伴奏音信号为模拟信号，模拟信号的伴奏音信号通过所述电子设备转化为数字信号的伴奏音信号，所述电子设备基于数字信号的伴奏音信号与所述主播音信号进行混音。
根据权利要求7或8所述的音频处理方法，其特征在于，所述电子设备包括混音模块与通路控制模块，

当所述电子设备启动所述直播类应用，所述通路控制模块使得所述电子设备同时启用无线音频接口与有线音频接口，所述通路控制模块启动所述混音模块以便进行混音，同时建立a通路、b通路、c通路、d通路、以及e通路，

其中，所述a通路将来自所述有线音频接口的所述伴奏音信号发送给所述混音模块，

所述b通路将来自所述无线音频接口的主播音信号发送给所述混音模块，

所述c通路将由所述混音模块基于所述伴奏音信号与所述主播音信号进行混音得到的第一音频信号从所述混音模块发送给所述直播类应用，以通过互联网进行发布，

所述d通路由所述直播类应用将通过互联网接收的第二音频信号发送给所述混音模块，

所述e通路将由所述混音模块基于所述第一音频信号与所述第二音频信号混音得到的所述第三音频信号发送给所述无线音频接口，以通过无线网络发送给与所述电子设备相关联的所述无线耳机。
根据权利要求1至9任一项所述的音频处理方法，其特征在于，所述混音通过线性法、固定权重法、动态权重法中的任一混音算法进行。
一种音频处理方法，用于电子设备，其特征在于，

启动直播类应用，所述直播类应用发布音频并且接收与发布的音频关联的反馈音频；

接收包括伴奏音信号在内的音频信号，并将所接收的音频信号作为或处理后作为用于直播类应用发布的第一音频信号；

通过所述直播类应用发布所述第一音频信号，并经由所述直播类应用通过互联网接收反馈音频，所述反馈音频为第二音频信号；

将所述第一音频信号与所述第二音频信号混合，得到第三音频信号；

通过无线通信向无线耳机传输所述第三音频信号。
根据权利要求11所述的音频处理方法，其特征在于，所述接收包括伴奏音信号在内的音频信号，并将所接收的音频信号作为或处理后作为第一音频信号包括：

经由有线通信接收第一音频信号，所述第一音频信号混合有伴奏音信号与主播音信号。
根据权利要求12所述的音频处理方法，其特征在于，所述第一音频信号为数字音频信号。
根据权利要求12所述的音频处理方法，其特征在于，所述第一音频信号为模拟音频信号，所述模拟音频信号通过所述电子设备转化为用于生成所述发布的音频的数字音频信号。
根据权利要求12所述的音频处理方法，其特征在于，所述电子设备包括混音模块与通路控制模块，

当所述电子设备启动所述直播类应用，所述通路控制模块使得所述电子设备同时启用无线音频接口与有线音频接口，所述通路控制模块启动所述混音模块以便进行混音，同时建立第一通路、第二通路、第三通路、以及第四通路，

其中，所述第一通路将来自所述有线音频接口的所述第一音频信号发送给所述直播类应用，以通过所述应用进行发布，

所述第二通路将来自所有线音频接口的所述第一音频信号发送给所述混音模块，

所述第三通路由所述直播类应用将通过无线网络接收的第二音频信号发送给所述混音模块，

所述第四通路将由所述混音模块基于所述第一音频信号与所述第二音频信号混音得到的所述第三音频信号通过无线通信发送给所述无线音频接口，以便所述无线耳机监听。
根据权利要求11所述的音频处理方法，其特征在于，所述接收包括伴奏音信号在内的音频信号，并将所接收的音频信号作为或处理后作为第一音频信号包括：

经由有线通信接收所述伴奏音信号；

经由无线通信接收主播音信号；

基于所述伴奏音信号与所述主播音信号进行混音，得到所述第一音频信号。
根据权利要求16所述的方法，其特征在于，所述伴奏音信号为数字音频信号。
根据权利要求16所述的音频处理方法，其特征在于，所述伴奏音信号为模拟音频信号，所述模拟音频信号通过所述电子设备转化为数字音频信号，所述电子设备基于所述数字音频信号的伴奏音信号与所述主播音信号进行混音。
根据权利要求16所述的音频处理方法，其特征在于，所述电子设备包括混音模块与通路控制模块，

当所述电子设备启动所述直播类应用，所述通路控制模块使得所述电子设备同时启用无线音频接口与有线音频接口，所述通路控制模块启动所述混音模块以便进行混音，同时建立a通路、b通路、c通路、d通路、以及e通路，

其中，所述a通路将来自所述有线音频接口的所述伴奏音信号发送给所述混音模块，

所述b通路将来自所述无线音频接口的主播音信号发送给所述混音模块，

所述c通路将由所述混音模块基于所述伴奏音信号与所述主播音信号进行混音得到的第一音频信号从所述混音模块发送给所述直播类应用，以通过互联网进行发布，

所述d通路由所述直播类应用将通过互联网接收的第二音频信号发送给所述混音模块，

所述e通路将由所述混音模块基于所述第一音频信号与所述第二音频信号混音得到的所述第三音频信号发送给所述无线音频接口，以通过无线网络发送给与所述电子设备相关联的所述无线耳机。
根据权利要求11至19任一项所述的音频处理方法，其特征在于，所述混音通过线性法、固定权重法、动态权重法中的任一混音算法进行。
一种计算机可读存储介质，其特征在于，存储了计算机可读代码，所述计算机可读代码当由一个或多个处理器运行时，使得所述处理器执行如权利要求11至20任一项所述的音频处理方法。
一种电子设备，用于通过直播类应用发布音频并接收与所发布的音频关联的反馈音频，其特征在于，包括：

无线音频接口与有线音频接口；

音频信号采集模块，用于通过所述无线音频接口以及有线音频接口接收包括伴奏音信号在内的音频信号；

通路控制模块和混音模块，

所述通路控制模块用于当所述电子设备启动所述直播类应用时，启用所述无线音频接口与有线音频接口，并且将所述音频信号采集模块所采集得到的音频信号发送给所述混音模块，

所述混音模块用于基于所述音频信号采集模块所接收的音频信号，获得用于通过所述直播类应用进行发布的第一音频信号，且所述混音模块还用于基于所述第一音信号与所述直播类应用接收的作为反馈的第二音频信号进行混音生成第三音频信号，

所述通路控制模块还用于将所述第三音频信号发送给所述无线音频接口，以通过无线通信进行传输，以便与所述电子设备关联的无线耳机进行监听。
根据权利要求22所述的电子设备，其特征在于，所述电子设备的包括所述混音模块与所述通路控制模块，

当所述电子设备启动所述直播类应用，所述通路控制模块使得所述电子设备同时启用无线音频接口与有线音频接口，

所述通路控制模块启动所述混音模块以便进行混音，并建立第一通路、第二通路、第三通路、以及第四通路，

其中，所述第一通路将来自所述有线音频接口的所述第一音频信号发送给所述直播类应用，以通过所述直播类应用进行发布，

所述第二通路将来自所述有线音频接口的所述第一音频信号发送给所述混音模块，

所述第三通路由所述直播类应用将通过互联网接收的第二音频信号发送给所述混音模块，

所述混音模块将所述第一音频信号与所述第二音频信号进行混音，得到所述第三音频信号，

所述第四通路将所述第三音频信号由所述混音模块发送给无线音频接口。
根据权利要求22所述的电子设备，其特征在于，所述电子设备包括混音模块与通路控制模块，

当所述电子设备启动所述直播类应用，所述通路控制模块使得所述电子设备同时启用无线音频接口与有线音频接口，

所述通路控制模块启动所述混音模块以便进行混音，同时建立a通路、b通路、c通路、d通路、以及e通路，

其中，所述a通路将来自有线音频接口的所述伴奏音信号发送给所述混音模块，

所述b通路将来自无线音频接口的主播音信号发送给所述混音模块，

所述c通路将由所述混音模块基于所述伴奏音信号与所述主播音信号进行混音得到的第一音频信号从所述混音模块发送给所述直播类应用以通过互联网进行发布，

所述d通路由所述直播类应用将通过无线网络接收的第二音频信号发送给所述混音模块，

所述e通路将由所述混音模块基于所述第一音频信号与所述第二音频信号混音得到的所述第三音频信号发送给所述无线音频接口，以通过无线网络发送给所述无线耳机。
根据权利要求22至24任一项所述的电子设备，其特征在于，所述混音模块通过线性法、固定权重法、动态权重法中的任一混音算法进行混音。