WO2022218027A1

WO2022218027A1 - 音频播放方法、装置、计算机可读存储介质及电子设备

Info

Publication number: WO2022218027A1
Application number: PCT/CN2022/076239
Authority: WO
Inventors: 朱长宝; 牛建伟; 余凯
Original assignee: 深圳地平线机器人科技有限公司
Priority date: 2021-04-16
Filing date: 2022-02-14
Publication date: 2022-10-20
Also published as: US20240004606A1; CN113126951B; CN113126951A; JP2023527473A; JP7453712B2

Abstract

本公开实施例公开了一种音频播放方法、装置、计算机可读存储介质及电子设备，其中，该方法包括：获取针对目标空间内的至少一个用户采集的意图判决数据；基于意图判决数据，确定至少一个用户具有目标发声意图，再确定表征至少一个用户的当前特征的特征信息；从预设音频库中提取并播放与特征信息对应的音频。本公开实施例实现了由电子设备自动判断用户的目标发声意图，无需用户主动触发音频播放的操作，减少了用户进行音频播放的操作的步骤，提高了音频播放操作的便利性。此外，通过确定用户当前的特征，使播放的音频与用户的特征相适应，从而实现了更精准地播放用户想收听音频，提高了自动播放音频的针对性。

Description

音频播放方法、装置、计算机可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，尤其是一种音频播放方法、装置、计算机可读存储介质及电子设备。

背景技术

近年来，随着智能电子设备的不断推广，人机交互的手段越来越丰富。人与设备可以通过语音识别、手势识别等方式进行交互。例如在智能汽车领域，用户可以通过手动操作、语音控制等方式操控车载电子设备，如开启音乐播放、打开或关闭空调、设置导航、修改导航等。在用户控制音频播放设备时，目前主要采用手动控制、语音识别等方式主动地控制音频播放设备播放音乐、打开收音机等。

发明内容

本公开的实施例提供了一种音频播放方法、装置、计算机可读存储介质及电子设备。

本公开的实施例提供了一种音频播放方法，该方法包括：获取针对目标空间内的至少一个用户采集的意图判决数据；基于意图判决数据，确定所述至少一个用户具有的目标发声意图；基于所述目标发声意图，确定表征所述至少一个用户的当前特征的特征信息；从预设音频库中提取并播放与特征信息对应的音频。

根据本公开实施例的另一个方面，提供了一种音频播放装置，该装置包括：获取模块，用于获取针对目标空间内的至少一个用户采集的意图判决数据；第一确定模块，用于基于所述意图判决数据，确定所述至少一个用户具有的目标发声意图；第二确定模块，基于所述目标发声意图，确定表征所述至少一个用户的当前特征的特征信息；第一播放模块，用于从预设音频库中提取并播放与特征信息对应的音频。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述音频播放方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述音频播放方法。

基于本公开上述实施例提供的音频播放方法、装置、计算机可读存储介质及电子设备，通过对目标空间内的至少一个用户采集意图判决数据，根据意图判决数据，确定至少一个用户具有的目标发声意图，再根据目标发声意图确定特征信息，最后从预设音频库中提取与特征信息对应的音频并播放，从而实现了由电子设备自动判断用户的目标发声意图，并在判定用户具有发声意图的情况下，由电子设备自动进行音频的播放，无需用户主动触发音频播放的操作，减少了用户进行音频播放的操作的步骤，提高了音频播放操作的便利性。此外，通过确定用户当前的特征，使播放的音频与用户的特征相适应，从而实现了更精准地播放用户想收听的音频，提高了自动播放音频的针对性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的音频播放方法的流程示意图。

图3是本公开另一示例性实施例提供的音频播放方法的流程示意图。

图4是本公开另一示例性实施例提供的音频播放方法的流程示意图。

图5是本公开另一示例性实施例提供的音频播放方法的流程示意图。

图6是本公开另一示例性实施例提供的音频播放方法的流程示意图。

图7是本公开另一示例性实施例提供的音频播放方法的流程示意图。

图8是本公开另一示例性实施例提供的音频播放方法的流程示意图。

图9是本公开一示例性实施例提供的音频播放装置的结构示意图。

图10是本公开另一示例性实施例提供的音频播放装置的结构示意图。

图11是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

目前的音频播放系统，通常需要由用户手动选择播放的音频，或者通过语音识别、手势识别等方式触发音频播放。这些方式往往需要用户主动与音频播放系统进行交互，无法做到自动对用户的发声意图进行判决音频播放的便利性不足，并且无法做到根据用户的特征自动播放相应的音频，音频播放的针对性也不足。

示例性系统

图1示出了可以应用本公开的实施例的音频播放方法或音频播放装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102，服务器103和信息采集设备104。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如音频播放器、视频播放器、网页浏览器应用、即时通信工具等。

终端设备101可以是各种能够进行音频播放的电子设备，包括但不限于诸如车载终端、移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)等等的移动终端以及诸如数字TV、台式计算机、智能家电等等的固定终端。

信息采集设备104可以是各种用于采集用户相关信息(包括意图判决数据)的设备，包括但不限于以下至少一种：摄像头、麦克风等。

通常，终端设备101设置在一个被限定范围的空间105内，信息采集设备104与空间105关联。例如，信息采集设备104可以设置在空间105内，用于采集用户的图像、声音等各种信息，也可以设置在空间105外，用于采集空间105周围的图像、声音等各种信息。空间105可以是各种被限定范围的空间，例如车辆内部、房间内部等。

服务器103可以是提供各种服务的服务器，例如对终端设备101上播放的音频提供支持的后台音频服务器。后台音频服务器可以对接收到的意图判决数据进行处理，得到用户的目标发声意图、用户的特征信息、待播放的音频等信息)。

需要说明的是，本公开的实施例所提供的音频播放方法可以由服务器103执行，也可以由终端设备101执行，相应地，音频播放装置可以设置于服务器103中，也可以设置于终端设备101中。本公开的实施例所提供的音频播放方法还可以由终端设备101和服务器103共同执行，例如，获取意图判决数据和确定目标发声意图的步骤由终端设备101执行，确定特征信息和提取音频的步骤由服务器103执行，相应地，音频播放装置包括的各模块可以分别设置于终端设备101和服务器103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、服务器和信息采集设备。例如，在预设音频库设置在本地的情况下，上述系统架构可以不包括网络和服务器，只包括终端设备和信息采集设备。

示例性方法

图2是本公开一示例性实施例提供的音频播放方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上，如图2所示，该方法包括如下步骤：

步骤201，获取针对目标空间内的至少一个用户采集的意图判决数据。

在本实施例中，电子设备可以获取针对目标空间内的至少一个用户采集的意图判决数据。其中，目标空间(例如图1中的空间105)可以是各种空间，例如车辆内部、房间内部等。意图判决数据可以是各种被用来判定用户的意图的数据，例如包括但不限于以下至少一种：用户的脸部图像数据、用户发出的语音等。

步骤202，基于意图判决数据，确定至少一个用户具有的目标发声意图。

在本实施例中，电子设备可以基于意图判决数据，确定至少一个用户具有的目标发声意图。其中，目标发声意图表示的发声类型可以是预先设定的。例如，目标发声意图可以包括但不限于以下至少一种：唱歌意图、朗诵意图等。电子设备可以根据意图判决数据的类型，选择相应的方式进行目标发声意图的判定。

作为示例，当意图判决数据包括用户的脸部图像数据时，可以对脸部图像进行情绪识别，得到情绪类型，如果情绪类型是喜悦，则可以确定上述至少一个用户有目标发声意图(例如唱歌意图)。当意图判决数据包括用户发出的声音信号时，可以对声音信号进行识别，如果识别结果表示用户正在哼唱，则可以确定有目标发声意图。

步骤203，基于所述目标发声意图，确定表征所述至少一个用户的当前特征的特征信息。

在本实施例中，电子设备可以确定表征至少一个用户的当前特征的特征信息。其中，用户当前特征可以包括但不限于以下至少一种：用户的情绪、用户的数量、用户的收听习惯等。电子设备可以采用与上述各种特征分别对应的方式，确定特征信息。例如，可以获取摄像头对用户拍摄的脸部图像，对脸部图像进行情绪识别，得到表征用户当前情绪的特征信息。再例如，可以获取用户的历史播放记录，根据历史播放记录确定用户习惯收听的音频的类型作为特征信息。

步骤204，从预设音频库中提取并播放与特征信息对应的音频。

在本实施例中，电子设备可以从预设音频库中提取并播放与特征信息对应的音频。其中，预设音频库可以是设置在上述电子设备中，也可以设置在与上述电子设备通信连接的其他电子设备中。上述特征信息对应于音频的类型，电子设备可以根据特征信息，确定待播放的音频的类型，并从该类型的音频中，选择(例如按播放量选择，随机选择等方式)音频进行播放。

作为示例，当特征信息表示用户当前的情绪为喜悦时，可以从预设音频库中提取标记为喜悦类型的音频播放。当特征信息表示用户习惯收听摇滚乐时，可以从预设音频库中提取摇滚类型的音频播放。

本公开的上述实施例提供的方法，通过对目标空间内的至少一个用户采集意图判决数据，根据意图判决数据，确定用户具有的目标发声意图，再根据目标发声意图确定特征信息，最后从预设音频库中提取与特征信息对应的音频并播放，从而实现了由电子设备主动判断用户的目标发声意图，无需用户触发音频播放的操作，并在判定用户具有发声意图的情况下，由电子设备自动进行音频的播放，减少了用户进行音频播放的操作的步骤，提高了音频播放操作的便利性。此外，通过确定用户当前的特征，使播放的音频与用户的特征相适应，从而实现了更精准地播放用户想收听的音频，提高了自动播放音频的针对性。

在一些可选的实现方式中，上述步骤202中，可以基于如下任一方式确定上述至少一个用户具有的目标发声意图：

方式一，响应于确定意图判决数据包括至少一个用户的脸部图像，将脸部图像输入预先训练的第三情绪识别模型，得到情绪类别信息；如果情绪类别信息为预设情绪类型信息，确定至少一个用户有目标发声意图。

其中，第三情绪识别模型可以预先利用预设的训练样本集合，通过对预设的用于训练第三情绪识别模型的初始模型训练得到。训练样本集合中的训练样本可以包括样本脸部图像和对应的情绪类别信息。电子设备可以将样本脸部图像作为初始模型(例如包括卷积神经网络、分类器等)的输入，将输入的样本脸部图像对应的情绪类别信息作为初始模型的期望输出，对初始模型进行训练，得到上述第三情绪识别模型。

上述预设情绪类型信息表征的预设情绪可以是诸如兴奋、喜悦、悲伤等各种情绪，当第三情绪识别模型输出的情绪类型信息表征用户的情绪是上述预设情绪时，确定至少一个用户有目标发声意图。例如，当情绪类型信息表征用户的情绪是兴奋时，表示用户此时可能想唱歌来表达自己的心情，此时确定用户具有唱歌意图。

方式二，响应于确定意图判决数据包括至少一个用户的声音信息，对声音信息进行语音识别，得到语音识别结果；如果语音识别结果表征至少一个用户指示播放音频，确定至少一个用户有目标发声意图。

其中，对声音信息进行语音识别的方法是现有技术，这里不再赘述。作为示例，当识别到某用户发出“这首歌不错，我想唱唱”的语音时，确定上述至少一个用户有目标发声意图(即唱歌意图)。

方式三，响应于确定意图判决数据包括至少一个用户的声音信息，对声音信息进行旋律识别，得到旋律识别结果；如果旋律识别结果表征至少一个用户正在进行目标形式的发声，确定至少一个用户有目标发声意图。

其中，上述目标形式的发声与目标发声意图相对应。例如，目标形式的发声可以包括唱歌、朗诵、哼唱等。对声音信息进行旋律识别的方法为现有技术，通常按照如下步骤进行：对输入旋律识别模型的人声通过音符切分和基音提取进行旋律提取，通过旋律提取获取音符序列。电子设备进一步将旋律识别模型输出的音符序列与音频库中的音频的音符序列进行匹配，如果输出的音符序列与某个音频的音符序列之间的相似度大于预设的相似度阈值，表示用户正在唱歌(即目标形式的发声)，此时确定上述至少一个用户有目标发声意图。

本实现方式提供了多种确定用户的目标发声意图的方式，从而实现了通过情绪识别、语音识别、旋律识别等多模态的方式全面地对用户的目标发声意图进行检测，其检测准确性更高，无需用户手动操作即可在后续基于目标发声意图对用户播放音频，从而提高了音频播放操作的便利性。

在一些可选的实现方式中，步骤203中，可以按照如下至少一种方式确定特征信息：

方式一，获取针对至少一个用户的历史音频播放记录；基于历史音频播放记录，确定至少一个用户的收听习惯信息；基于收听习惯信息，确定特征信息。

其中，电子设备可以从本地或从远程获取历史音频播放记录，收听习惯信息用于表征用户经常收听的音频的类型、收听时间等特征。例如，可以根据历史音频播放记录，确定收听次数最多的音频类型作为收听习惯信息。通常，可以将收听习惯信息作为特征信息包括的信息。

方式二，获取至少一个用户的脸部图像，将脸部图像输入预先训练的第四情绪识别模型，得到表征至少一个用户当前的情绪的情绪类别信息；基于情绪类别信息，确定特征信息。

其中，第四情绪识别模型可以是用于对脸部图像进行情绪分类的神经网络模型，其可以与上述可选的实现方式中描述的第三情绪识别模型相同，也可以不同，但训练方法与训练第三情绪识别模型的方法基本相同，这里不再赘述。通常，可以将情绪类别信息作为特征信息包括的信息。

方式三，获取至少一个用户所处的环境的环境图像，将环境图像输入预先训练的环境识别模型，得到环境类型信息；基于环境类型信息，确定特征信息。

其中，环境图像可以是摄像头对上述目标空间以外的环境拍摄得到的。环境识别模型可以是用于对环境图像进行分类的神经网络模型，电子设备可以预先利用预设的训练样本集合，通过对预设的用于训练环境识别模型的初始模型训练得到环境识别模型。训练样本集合中的训练样本可以包括样本环境图像和对应的环境类型信息。电子设备可以将样本环境图像作为初始模型(例如包括卷积神经网络、分类器等)的输入，将输入的样本环境图像对应的环境类型信息作为初始模型的期望输出，对初始模型进行训练，得到上述环境识别模型。

环境类型信息用于表征上述至少一个用户所处的环境的类型。作为示例，环境的类型为郊外、高速公路、乡村等地点类型，还可以为晴天、雨天、雪天等天气类型。通常，可以将环境类型信息作为特征信息包括的信息。

方式四，获取对目标空间拍摄得到空间内图像；基于空间内图像，确定目标空间内的人数；基于人数，确定特征信息。

其中，空间内图像可以是设置在目标空间内的摄像头拍摄的图像，空间内图像的数量可以为一个或多个，电子设备可以基于现有的目标检测方法，从各个空间内图像中确定其中的人物并统计人数。通常，可以将人数作为特征信息包括的信息。

本实现方式通过提供上述四种方式确定用户的特征信息，可以全面地对用户当前的状态进行检测，得到的特征信息更加全面，进而可以有助于基于特征信息更有针对性地提取用户感兴趣的音频，提高为用户播放音频的精准性。

在一些可选的实现方式中，基于上述四种确定特征信息的方式，步骤204可以如下执行：

响应于确定特征信息包括收听习惯信息，提取并播放与收听习惯对应的音频。

响应于确定特征信息包括情绪类别信息，提取并播放与情绪类别信息对应的音频。

响应于确定特征信息包括环境类型信息，提取并播放与环境类型信息对应的音频。

响应于确定特征信息包括人数，提取并播放与人数对应的音频。

作为示例，如果收听习惯信息表示用户喜欢听摇滚乐，可以提取摇滚类型的音频并播放。如果情绪类别信息表示用户当前的情绪为高兴，则可以提取快节奏类型的音频并播放。如果环境类型信息表示用户当前所处的环境为野外，可以提取节奏舒缓类型的音频并播放。如果所确定的用户人数为大于等于2人，则可以提取合唱类型的音频并播放。

需要说明的是，当特征信息包括收听习惯信息、情绪类别信息、环境类型信息、人数中的至少两种时，可以取各种信息分别对应的音频类型包含的音频的交集作为待播放的音频。

本实现方式由于采用了能够全面地表示用户的特征的特征信息，可以使提取的音频对用户更有吸引力，从而提高了为用户播放音频的精准性。

进一步参考图3，示出了音频播放方法的又一个实施例的流程示意图。如图3所示，在上述图2所示实施例的基础上，在步骤204之后，还可以包括如下步骤：

步骤205，从当前的混合声音信号中提取用户音频信息。

其中，上述混合声音信号可以是设置在上述目标空间内的如图1所示的信息采集设备104(即麦克风)采集的信号。用户音频信息即一个用户发出的声音。通常麦克风采集的声音信号包括了噪声信号，或者包括至少两个用户同时发出的声音信号，此时采集的声音信号为混合声音信号。也就是说，混合声音信号可包括噪声信号，或者可包括用户发出的声音信息，或者同时包括噪声信号和用户发出的声音信号。在本实施例中，可以采用现有的语音分离方法(例如盲源分离(BSS，Blind Source Separation)方法、听觉场景分析(ASA，Auditory Scene Analysis)方法等)，从混合声音信号中提取出各个用户分别对应的用户音频信息。

步骤206，在用户音频信息符合预设条件的情况下，播放用户音频信息。

具体地，电子设备可以对提取的用户音频信息进行分析，如果用户音频信息满足预设条件，则播放用户音频信息。作为示例，电子设备若识别出用户音频信息表征用户正在唱歌，则通过扬声器播放音量放大后的用户音频信息。或者，电子设备若识别出用户音频信息表征用户发出的声音的旋律与当前播放的音频匹配，则播放用户音频信息。

通常，步骤205-步骤206是在播放步骤204中描述的音频的同时执行的。例如，播放的音频可以为音乐，播放音乐的同时，实时地从至少一个用户当前发出的混合声音信号中提取用户音频信息，若用户音频信息与播放的音乐匹配，播放用户音频信息，从而实现了用户随着音乐演唱的场景。

可选的，还可以采用现有的反馈声消除方法，将麦克风采集的来自扬声器播放的声音信号滤除，从而降低反馈声对播放用户音频信息的干扰。

图3对应实施例提供的方法，通过从混合声音信号中提取并播放用户音频信息，可以实现将用户音频信息与从预设音频库中提取的音频同时播放，无需为用户单独提供专用于播放用户声音的麦克风，只需使用用于采集目标空间内的各个用户的混合声音的麦克风即可从混合声音信号中提取用户发出的声音并与当前播放的音频同时播放，从而简化了播放用户音频信息所需的硬件，提高了用户实现目标发声意图的便利性。此外，播放符合预设条件的用户音频信息，可以避免将用户交谈等内容播放出去造成的对播放用户音频信息的干扰。

进一步参考图4，示出了音频播放方法的又一个实施例的流程示意图。如图4所示，在上述图3所示实施例的基础上，步骤205进一步包括如下步骤：

步骤2051，获取设置在目标空间的音频采集设备采集的初始音频信息。该初始音频信息可包括混合声音信号。

其中，音频采集设备即为如图1所示的信息采集设备104包括的设备。音频采集设备的数量可以是一个或多个，初始音频信息的路数与音频采集设备的数量一致，即每个音频采集设备采集一路初始音频信息。作为示例，当目标空间为车辆内部空间时，音频采集设备的数量可以与车内的座位数量匹配。即每个座位附近安装一个音频采集设备。

步骤2052，对初始音频信息进行人声分离，得到至少一路用户音频信息。

其中，至少一路用户音频信息分别对应于一个用户。具体地，电子设备可以利用现有的语音分离方法，从初始音频信息中提取出各个用户分别对应的用户音频信息。作为示例，可以采用盲源分离算法从初始音频信息中分离出至少一路用户音频信息。或者，当音频采集设备的数量为大于等于两个时，可以采用现有的基于麦克风阵列的语音分离算法从各个音频采集设备采集的初始音频信息中分离出至少一路用户音频信息。

图4对应实施例提供的方法，通过对初始音频信息进行人声分离得到至少一路用户音频信息，可以实现在播放音频的过程中，实时地采集多个用户各自的用户音频信息，且每路用户音频信息排除了其他用户的声音干扰，使后续播放的用户音频信息可以清晰地反映各个用户的声音，提高播放多个用户的声音的质量。

在一些可选的实现方式中，基于上述步骤2051-步骤2052，上述图3对应实施例中的步骤206可以如下执行：

将至少一路用户音频信息的音量分别调整至目标音量并合成调整音量后的用户音频信息，以及播放合成后的用户音频信息。每路用户音频信息对应的目标音量可以相同，也可以不同。例如，可以将音量最大的一路用户音频信息的音量作为目标音量，其他路用户音频信息的音量均调整至目标音量；也可以设定一个固定音量作为目标音量，各路用户音频信息均设置为相同的目标音量。进一步地，可以将各路用户音频信息合成为立体声播放，或合成为同一声道播放。

通过对各路用户音频信息调整音量并合成后进行播放，可以使播放的各个用户音频信息的音量趋于一致或达到各自设定的音量，避免用户发出的音量较小造成播放时音量过小。

在一些可选的实现方式中，基于上述图3对应实施例，上述步骤206可以基于如下至少一种方式播放用户音频信息：

方式一，对用户音频信息进行旋律识别，得到用户旋律信息；将用户旋律信息与当前播放的音频的旋律信息进行匹配，基于得到的第一匹配结果播放用户音频信息。

其中，对用户音频信息进行旋律识别的方法为现有技术，通常按照如下步骤进行：对输入旋律识别模型的用户音频信息通过音符切分和基音提取进行旋律提取，通过旋律提取获取音符序列作为旋律信息。电子设备进一步将旋律识别模型输出的旋律信息与当前播放的音频的旋律信息进行相似度计算，如果相似度(即第一匹配结果)大于或等于预设的第一相似度阈值，可以确定第一匹配结果符合预设条件，可以播放用户音频信息。

方式二，对用户音频信息进行语音识别，得到语音识别结果；将语音识别结果与当前播放的音频的对应文本信息进行匹配，基于得到的第二匹配结果播放用户音频信息。

其中，语音识别结果可以为文本信息。需要说明的是，对用户音频信息进行语音识别的方法是现有技术，这里不再赘述。当前播放的音频的对应文本信息为预先与音频建立对应关系的文本信息，例如，若当前播放的音频为歌曲，其对应文本信息可以为歌词；若当前播放的音频为诗词朗读，其对应的文本信息即为朗读的诗词原文。电子设备可以对语音识别结果和上述对应文本信息进行相似度计算，如果相似度(即第二匹配结果)大于或等于预设的第二相似度阈值，可以确定第二匹配结果符合预设条件，可以播放用户音频信息。

应当理解，电子设备可以执行上述方式一和方式二的任一种从而播放用户音频信息。还可以同时执行上述方式一和方式二，如果基于第一匹配结果和第二匹配结果确定两种方式均可以播放用户音频信息时，播放用户音频信息。还需要说明的是，当上述用户音频信息的数量为大于1路时，可以对每路用户音频信息执行方式一和/或方式二。

本实现方式通过对用户音频信息进行旋律识别和/或语音识别，可以使用户音频信息在满足一定的条件时进行播放，从而避免播放与当前播放的音频无关的用户音频信息，使播放的用户音频信息与当前播放的音频的匹配程度更高，进而提高播放用户音频信息的质量。

在一些可选的实现方式中，基于上述图3对应实施例的方法，上述步骤206进一步包括：

首先，确定用户音频信息的音高。其中，确定用户音频信息的音高的方法是现有技术，这里不再赘述。

然后，执行如下至少一个步骤：

步骤一，将当前播放的音频的音高调整至与用户音频信息的音高相匹配的目标音高。

具体地，可以将当前播放的音频的音高与用户音频信息的音高进行比较，若两者的差值处于预设的差值范围外，则调整当前播放的音频的音高使其与用户音频信息的音高的差值处于预设的差值范围内。

作为示例，当用户音频信息为用户唱歌的音频信息，当前播放的音频为歌曲音乐时，若确定用户音频信息的音高与当前播放的音乐的音高相比较高或较低时，可以动态调整音乐的音高使其适应用户唱歌的音高，即调整播放的音乐的跟唱难度，使用户更好地适应播放的音乐。

步骤二，输出用于推荐与用户音频信息的音高相对应的音频的推荐信息。

其中，与用户音频信息的音高相对应的音频可以是与用户音频信息的音高的差值处于预设的差值范围内的音频。推荐信息可以以提示音、显示文字、图像等的方式输出，输出推荐信息后，用户可以选择是否播放推荐的音频，从而使重新播放的音频的音高与用户的音高匹配。

本实现方式通过确定用户音频信息的音高，并基于音高调整播放的音频，使播放的音频的音高自动与用户的音高相适应，从而使用户音频信息的播放效果更好，同时用户无需通过手动或语音控制等主动的方式调整播放的音频的音高，提高了调整音频的便利性。

进一步参考图5，示出了音频播放方法的又一个实施例的流程示意图。如图5所示，在上述图3所示实施例的基础上，在步骤206之后，还可以包括如下步骤：

步骤207，从至少一个用户中确定用户音频信息对应的目标用户并获取目标用户的脸部图像。

其中，脸部图像可以是设置在目标空间中的如图1中的信息采集设备104包括的摄像头拍摄的图像。具体地，电子设备在从混合声音信号中提取用户音频信息时，可以基于现有的语音分离方法，确定用户音频信息对应的声源的位置(例如采用现有的基于麦克风阵列的多音区语音分离方法确定用户音频信息对应于目标空间中的哪个位置)，声源的位置即用户的位置，用户的位置可以由对用户拍摄的图像确定，进而可以得到用户音频信息对应的用户的脸部图像。

步骤208，将至少一个用户各自的脸部图像输入预先训练的第一情绪识别模型，得到至少一个用户分别对应的情绪类别信息。也就是说，该步骤中，会将用户音频信息对应的目标用户的脸部图像输入预先训练的第一情绪识别模型，相应的，会得到目标用户对应的情绪类别信息。

其中，第一情绪识别模型可以与上述可选的实现方式中描述的第三情绪识别模型和第四情绪识别模型中的至少一个相同，也可以不同，但训练方法与第三情绪识别模型和第四情绪识别模型中的至少一个的训练方法基本相同，这里不再赘述。

步骤209，基于情绪类别信息，确定表征至少一个用户的情绪与当前播放的音频的类型的匹配程度的第一评分。该步骤中的情绪类别信息如果为目标用户对应的情绪类别信息，则确定的第一评分用于表征目标用户的情绪与当前播放的音频的类型的匹配程度。

其中，第一评分可以基于第一情绪识别模型计算得到的与输出的情绪类别信息对应的概率值得到。通常，第一情绪识别模型可以对输入的脸部图像进行分类，得到多个情绪类别信息和每个情绪类别信息分别对应的概率值，最大概率值对应的情绪类别信息可以确定为本次识别的脸部图像的情绪类别信息。

如果本次识别的脸部图像的情绪类别信息为一种，可根据这一种情绪类别信息对应的概率确定第一评分。如果本次识别的脸部图像的情绪类别信息包括多种，可以从多个情绪类别信息中确定与当前播放的音频的类型相匹配的情绪类别信息作为目标情绪类别信息，然后根据目标情绪类别信息对应的概率确定第一评分。第一评分的数值越大，表示与当前播放的音频的匹配程度越大。其中，当前播放的音频的类型与情绪类别信息的对应关系可以预先设定。例如，当前播放的音频的类型标记为“欢快”，则第一评分可以基于模型输出的表征欢快情绪的情绪类别信息对应的概率得到。

步骤210，基于第一评分，确定用户音频信息的评分并输出。

具体地，可以将用户音频信息的评分按照各种方式输出，例如在显示屏上显示，通过扬声器输出评分的声音等。用户音频信息的评分的确定方法可以包括多种，作为示例，可以将第一评分确定为用户音频信息的评分。

可替换地，步骤209可以如下执行：基于用户音频信息，确定表征用户音频信息与当前播放的音频的匹配程度的第二评分，也就是说，该步骤中，基于用户音频信息确定第二评分，该第二评分用于表征用户音频信息与当前播放的音频的匹配程度。

步骤210可以如下执行：基于第二评分，确定用户音频信息的评分并输出。

其中，第二评分可以利用现有的对用户音频信息进行打分的方法确定，例如，当用户音频信息表示用户在唱歌时，可以基于现有的唱歌打分方法确定第二评分。进一步地，可以将第二评分确定为用户音频信息的评分。

可选的，步骤210还可以如下执行：基于第一评分和第二评分，确定用户音频信息的评分并输出。

例如，可以基于第一评分和第二评分分别对应的预设权重，对第一评分和第二评分进行加权求和，得到用户音频信息的评分。

图5对应实施例提供的方法，基于脸部图像识别和/或音频打分确定用户音频信息的评分，可以使评分能够充分反映用户音频信息与播放的音频的匹配程度，提高了对用户音频信息进行打分的准确性。

在一些可选的实现方式中，步骤208可以如下执行：

将至少一个用户各自的脸部图像输入第一情绪识别模型，得到至少一个用户分别对应的第一情绪类别信息序列。其中，第一情绪类别信息序列中的情绪类别信息分别对应于一个脸部图像子序列。在本实施例中，用户的脸部图像的数量为至少两个，即输入第一情绪识别模型的是用户的脸部图像序列，通常，某个用户的脸部图像序列可以是对该用户的脸部拍摄的视频中包括的脸部图像组成的图像序列。情绪类别信息序列可以利用向量的形式表示，其中，向量中的每个数值对应一个脸部图像子序列并且表示某种情绪类别。每个脸部图像子序列可以包括至少一个脸部图像。作为示例，当前播放的音频的时长为3分钟，播放期间对用户脸部拍摄了3分钟，可以将这3分钟的脸部图像序列分成100个脸部图像子序列，依次将每个子序列输入第一情绪识别模型，得到包括100个数值的向量作为情绪类别信息序列。

基于上述第一情绪类别信息序列，如图6所示，上述步骤209中，可以采用如下步骤确定第一评分：

步骤2091，获取当前播放的音频对应的视频，并从视频中提取目标人物的脸部图像序列。

其中，目标人物可以是与当前播放的音频相关的人物。例如，若当前播放的音频为歌曲，其对应的视频可以是包括该歌曲的演唱者的图像的视频，目标人物可以是歌曲的演唱者，也可以是随歌曲表演的人物。目标人物可以预先由人工设定，也可以由电子设备对视频进行识别得到，例如基于现有的嘴部动作识别方法，识别出嘴部动作频率与歌曲的节奏相匹配的人物为目标人物。

电子设备可以采用现有的脸部图像检测方法，根据预先设定或识别出的目标人物，从视频包括的图像帧中提取出目标人物的脸部图像序列。

步骤2092，将脸部图像序列输入第一情绪识别模型，得到第二情绪类别信息序列。

该步骤与上述确定第一情绪类别信息序列的步骤基本相同，这里不再赘述。

步骤2093，确定第一情绪类别信息序列和第二情绪类别信息序列之间的相似度。

其中，第一情绪类别信息序列和第二情绪类别信息序列可以均为向量的形式，电子设备可以确定向量之间的距离，基于距离确定相似度(例如距离的倒数为相似度)。

步骤2094，基于相似度，确定第一评分。

作为示例，可以将相似度确定为第一评分，或者对相似度按照预设比例缩放，得到第一评分。

本实现方式通过对比用户的第一情绪类别信息序列和原视频中的目标人物的第二情绪类别序列，可以准确地确定用户的情绪与原视频的情绪的相符程度，得到的第一评分更准确地反映用户的情绪与当前播放的音频的相符程度，从而提高了对用户音频信息进行评分的准确性。

进一步参考图7，示出了音频播放方法的又一个实施例的流程示意图。如图7所示，在上述图3所示实施例的基础上，在步骤206之后，还可以包括如下步骤：

步骤211，从至少一个用户中确定用户音频信息对应的目标用户并获取目标用户的脸部图像。

该步骤与上述步骤207基本一致，这里不再赘述。

步骤212，将用户音频信息对应的目标用户的脸部图像和用户音频信息输入预先训练的第二情绪识别模型，得到情绪类别信息。

其中，本步骤中的第二情绪识别模型与上述第一情绪识别模型、第三情绪识别模型、第四情绪识别模型均不同，第二情绪识别模型可以同时接收图像和音频作为输入，对图像和音频进行联合分析，输出情绪类别信息。第二情绪识别模型可以预先利用预设的训练样本集合，通过对预设的用于训练第二情绪识别模型的初始模型训练得到。训练样本集合中的训练样本可以包括样本脸部图像、样本音频信息和对应的情绪类别信息。电子设备可以将样本脸部图像和样本音频信息作为初始模型(例如包括神经网络、分类器等)的输入，将输入的样本脸部图像和样本音频信息对应的情绪类别信息作为初始模型的期望输出，对初始模型进行训练，得到上述第三情绪识别模型。通常，初始模型包括的神经网络可以确定输入的样本脸部图像和样本音频信息的特征信息，分类器可以对特征信息进行分类，实际输出的信息与期望输出进行比较，调整初始模型的参数，使实际输出与期望输出的差距逐渐减小直到收敛，从而训练得到上述第二情绪识别模型。

步骤213，基于情绪类别信息，确定表征用户音频信息对应的目标用户的情绪与当前播放的音频的类型的匹配程度的评分并输出。

其中，评分可以基于第二情绪识别模型计算得到的与输出的情绪类别信息对应的概率值得到。基于概率值确定评分的方法与上述步骤209中确定第一评分的方法基本一致，这里不再赘述。

图7对应实施例提供的方法，通过将脸部图像和用户音频信息同时输入第二情绪识别模型，直接得到评分，无需单独对脸部图像和用户音频信息进行评分，从而简化了评分步骤，提高了评分效率。由于第二情绪识别模型可以综合输入的脸部图像和用户音频信息的特征进行分类，从而使评分可以准确地反映用户的声音与播放的音频的匹配程度。

在一些可选的实现方式中，步骤212可以如下执行：

将用户音频信息对应的用户的脸部图像和用户音频信息输入第二情绪识别模型，得到第三情绪类别信息序列。其中，第三情绪类别信息序列中的情绪类别信息分别对应于一个脸部图像子序列。第三情绪类别信息序列的定义与上述第一情绪类别信息基本相同，这里不再赘述。

基于此，如图8所示，步骤213可以如下执行：

步骤2131，获取当前播放的音频对应的视频，并从视频中提取目标人物的脸部图像序列。

该步骤与上述步骤2091基本相同，这里不再赘述。

步骤2132，将脸部图像序列和当前播放的音频输入第二情绪识别模型，得到第四情绪类别信息序列。

该步骤与上述确定第三情绪类别信息序列的步骤基本相同，这里不再赘述。

步骤2133，确定第三情绪类别信息序列和第四情绪类别信息序列之间的相似度。

其中，第三情绪类别信息序列和第四情绪类别信息序列可以均为向量的形式，电子设备可以确定向量之间的距离，基于距离确定相似度(例如距离的倒数为相似度)。

步骤2134，基于相似度，确定表征用户音频信息对应的用户的情绪与当前播放的音频的类型的匹配程度的评分。

作为示例，可以将相似度确定为评分，或者对相似度按照预设比例缩放，得到评分。

本实现方式中的第三情绪类别信息序列和第四情绪类别信息序列由于是基于用户的脸部图像和用户音频信息得到的，在进行情绪分类时综合了图像和音频，因此，两个情绪类别信息序列表示情绪的准确性更高，因此，利用两个情绪类别信息序列之间的相似度确定的评分可以更准确地表示用户的情绪与原视频的情绪的相符程度，进一步提高了对用户音频信息进行评分的准确性。

示例性装置

图9是本公开一示例性实施例提供的音频播放装置的结构示意图。本实施例可应用在电子设备上，如图9所示，音频播放装置包括：获取模块901，用于获取针对目标空间内的至少一个用户采集的意图判决数据；第一确定模块902，用于基于意图判决数据，确定至少一个用户具有的目标发声意图；第二确定模块903，用于基于所述目标发声意图，确定表征至少一个用户的当前特征的特征信息；第一播放模块904，用于从预设音频库中提取并播放与特征信息对应的音频。

在本实施例中，获取模块901可以获取针对目标空间内的至少一个用户采集的意图判决数据。其中，目标空间(例如图1中的空间105)可以是各种空间，例如车辆内部、房间内部等。意图判决数据可以是各种被用来判定用户的意图的信息，例如包括但不限于以下至少一种：用户的脸部图像、用户发出的语音等。

在本实施例中，第一确定模块902可以基于意图判决数据，确定至少一个用户具有的目标发声意图。其中，目标发声意图表示的发声类型可以是预先设定的。例如，目标发声意图可以包括但不限于以下至少一种：唱歌意图、朗诵意图等。第一确定模块902可以根据意图判决数据的类型，选择相应的方式进行目标发声意图的判定。

作为示例，当意图判决数据包括用户的脸部图像时，可以对脸部图像进行情绪识别，得到情绪类型，如果情绪类型是喜悦，则可以确定上述至少一个用户有目标发声意图(例如唱歌意图)。当意图判决数据包括用户发出的声音信号时，可以对声音信号进行识别，如果识别结果表示用户正在哼唱，则可以确定有目标发声意图。

在本实施例中，第二确定模块903可以确定表征至少一个用户的当前特征的特征信息。其中，用户当前的特征可以包括但不限于以下至少一种，用户的情绪、用户的数量、用户的收听习惯等。第二确定模块903可以采用与上述各种特征分别对应的方式，确定特征信息。例如，可以获取摄像头对用户拍摄的脸部图像，对脸部图像进行情绪识别，得到表征用户当前的情绪的特征信息。再例如，可以获取用户的历史播放记录，根据历史播放记录确定用户习惯收听的音频的类型作为特征信息。

在本实施例中，第一播放模块904可以从预设音频库中提取并播放与特征信息对应的音频。其中，预设音频库可以是设置在上述电子设备中，也可以设置在与上述电子设备通信连接的其他电子设备中。上述特征信息对应于音频的类型，第一播放模块904可以根据特征信息，确定待播放的音频的类型，并从该类型的音频中，选择(例如按播放量选择，随机选择等方式)音频进行播放。

参照图10，图10是本公开另一示例性实施例提供的音频播放装置的结构示意图。

在一些可选的实现方式中，装置还包括：提取模块905，用于从当前的混合声音信号中提取用户音频信息；第二播放模块906，用于在所述用户音频信息符合预设条件的情况下，播放所述用户音频信息。

在一些可选的实现方式中，装置还包括：第三确定模块907，用于从至少一个用户中确定用户音频信息对应的目标用户并获取目标用户的脸部图像；第一情绪识别模块908，用于将用户音频信息对应的目标用户的脸部图像输入预先训练的第一情绪识别模型，得到目标用户分别对应的情绪类别信息；第四确定模块909，用于基于情绪类别信息，确定表征用户音频信息对应的目标用户的情绪与当前播放的音频的类型的匹配程度的第一评分；和/或，第五确定模块910，用于基于用户音频信息，确定表征用户音频信息与当前播放的音频的匹配程度的第二评分；第六确定模块911，用于基于第一评分和/或第二评分，确定用户音频信息的评分并输出。

在一些可选的实现方式中，第一情绪识别模块908包括：第一情绪识别单元9081，用于将至少一个用户各自的脸部图像输入第一情绪识别模型，得到至少一个用户分别对应的第一情绪类别信息序列，其中，第一情绪类别信息序列中的情绪类别信息分别对应于一个脸部图像子序列；第一确定单元9082，用于基于情绪类别信息，确定表征至少一个用户的情绪与当前播放的音频的类型的匹配程度的第一评分，包括：第一获取单元9083，用于获取当前播放的音频对应的视频，并从视频中提取目标人物的脸部图像序列；第二情绪识别单元9084，用于将脸部图像序列输入第一情绪识别模型，得到第二情绪类别信息序列；第二确定单元9085，用于确定第一情绪类别信息序列和第二情绪类别信息序列之间的相似度；第三确定单元9086，用于基于相似度，确定第一评分。

在一些可选的实现方式中，装置还包括：第七确定模块912，用于从至少一个用户中确定用户音频信息对应的目标用户并获取目标用户的脸部图像；第二情绪识别模块913，用于将用户音频信息对应的目标用户的脸部图像和用户音频信息输入预先训练的第二情绪识别模型，得到情绪类别信息；第八确定模块914，用于基于情绪类别信息，确定表征用户音频信息对应的目标用户的情绪与当前播放的音频的类型的匹配程度的评分并输出。

在一些可选的实现方式中，第二情绪识别模块913进一步用于：将用户音频信息对应的用户的脸部图像和用户音频信息输入第二情绪识别模型，得到第三情绪类别信息序列，其中，第三情绪类别信息序列中的情绪类别信息分别对应于一个脸部图像子序列；第八确定模块914包括：第二获取单元9141，用于获取当前播放的音频对应的视频，并从视频中提取目标人物的脸部图像序列；第三情绪识别单元9142，用于将脸部图像序列和当前播放的音频输入第二情绪识别模型，得到第四情绪类别信息序列；第四确定单元9143，用于确定第三情绪类别信息序列和第四情绪类别信息序列之间的相似度；第五确定单元9144，用于基于相似度，确定表征用户音频信息对应的用户的情绪与当前播放的音频的类型的匹配程度的评分。

在一些可选的实现方式中，提取模块905包括：第三获取单元9051，用于获取设置在目标空间的音频采集设备采集的初始音频信息，该初始音频信息包括混合声音信号；分离单元9052，用于对初始音频信息进行人声分离，得到至少一路用户音频信息，其中，至少一路用户音频信息分别对应于一个用户。

在一些可选的实现方式中，第二播放模块906进一步用于：将至少一路用户音频信息的音量分别调整至目标音量并合成调整音量后的用户音频信息，以及播放合成后的用户音频信息。

在一些可选的实现方式中，第二播放模块906包括：第一旋律识别单元9061，用于对用户音频信息进行旋律识别，得到用户旋律信息；将用户旋律信息与当前播放的音频的旋律信息进行匹配，基于得到的第一匹配结果播放用户音频信息；和/或，第一语音识别单元9062，用于对用户音频信息进行语音识别，得到语音识别结果；将语音识别结果与当前播放的音频的对应文本信息进行匹配，基于得到的第二匹配结果播放用户音频信息。

在一些可选的实现方式中，第二播放模块906包括：第六确定单元9063，用于确定用户音频信息的音高；调整单元9064，用于将当前播放的音频的音高调整至与用户音频信息的音高相匹配的目标音高；和/或，输出单元9065，用于输出用于推荐与用户音频信息的音高相对应的音频的推荐信息。

在一些可选的实现方式中，第一确定模块902包括：第四情绪识别单元9021，用于响应于确定意图判决数据包括至少一个用户的脸部图像，将脸部图像输入预先训练的第三情绪识别模型，得到情绪类别信息；如果情绪类别信息为预设情绪类型信息，确定至少一个用户有目标发声意图；或者，第二语音识别单元9022，用于响应于确定意图判决数据包括至少一个用户的声音信息，对声音信息进行语音识别，得到语音识别结果；如果语音识别结果表征至少一个用户指示播放音频，确定至少一个用户有目标发声意图；或者，第二旋律识别单元9023，用于响应于确定意图判决数据包括至少一个用户的声音信息，对声音信息进行旋律识别，得到旋律识别结果；如果旋律识别结果表征至少一个用户正在进行目标形式的发声，确定至少一个用户有目标发声意图。

在一些可选的实现方式中，第二确定模块903包括：第七确定单元9031，用于获取针对至少一个用户的历史音频播放记录；基于历史音频播放记录，确定至少一个用户的收听习惯信息；基于收听习惯信息，确定特征信息；和/或，第五情绪识别单元9032，用于获取至少一个用户的脸部图像，将脸部图像输入预先训练的第四情绪识别模型，得到表征至少一个用户当前的情绪的情绪类别信息；基于情绪类别信息，确定特征信息；和/或，环境识别单元9033，用于获取至少一个用户所处的环境的环境图像，将环境图像输入预先训练的环境识别模型，得到环境类型信息；基于环境类型信息，确定特征信息；和/或，第八确定单元9034，用于获取对目标空间拍摄得到空间内图像；基于空间内图像，确定目标空间内的人数；基于人数，确定特征信息。

在一些可选的实现方式中，第一播放模块904包括：第一播放单元9041，用于响应于确定特征信息包括收听习惯信息，提取并播放与收听习惯对应的音频；第二播放单元9042，用于响应于确定特征信息包括情绪类别信息，提取并播放与情绪类别信息对应的音频；第三播放单元9043，用于响应于确定特征信息包括环境类型信息，提取并播放与环境类型信息对应的音频；第四播放单元9044，用于响应于确定特征信息包括人数，提取并播放与人数对应的音频。

本公开上述实施例提供的音频播放装置，通过对目标空间内的至少一个用户采集意图判决数据，根据意图判决数据，确定用户具有的目标发声意图，再根据目标发声意图确定特征信息，最后从预设音频库中提取与特征信息对应的音频并播放，从而实现了由电子设备自动判断用户的目标发声意图，并在判定用户具有发声意图的情况下，由电子设备自动进行音频的播放，无需用户主动触发音频播放的操作，减少了用户进行音频播放的操作的步骤，提高了音频播放操作的便利性。此外，通过确定用户当前的特征，使播放的音频与用户的特征相适应，从而实现了更精准地播放用户想收听的音频，提高了自动播放音频的针对性。

示例性电子设备

下面，参考图11来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图11图示了根据本公开实施例的电子设备的框图。

如图11所示，电子设备1100包括一个或多个处理器1101和存储器1102。

处理器1101可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1100中的其他组件以执行期望的功能。

存储器1102可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1101可以运行程序指令，以实现上文的本公开的各个实施例的音频播放方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如意图判决数据、特征信息、音频等各种内容。

在一个示例中，电子设备1100还可以包括：输入装置1103和输出装置1104，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置1103可以是摄像头、麦克风等设备，用于输入意图判决数据。在该电子设备是单机设备时，该输入装置1103可以是通信网络连接器，用于从终端设备101和服务器103接收所输入的意图判决数据。

该输出装置1104可以向外部输出各种信息，包括提取出的音频。该输出设备1104可以包括例如显示器、扬声器、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图11中仅示出了该电子设备1100中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1100还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的音频播放方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的音频播放方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器((Erasable Programmable Read-Only Memory，EPROM)或闪存)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

一种音频播放方法，包括：

获取针对目标空间内的至少一个用户采集的意图判决数据；

基于所述意图判决数据，确定所述至少一个用户具有的目标发声意图；

基于所述目标发声意图，确定表征所述至少一个用户的当前特征的特征信息；

从预设音频库中提取并播放与所述特征信息对应的音频。
根据权利要求1所述的方法，其中，在所述提取并播放与所述特征信息对应的音频之后，所述方法还包括：

从当前的混合声音信号中提取用户音频信息；

在所述用户音频信息符合预设条件的情况下，播放所述用户音频信息。
根据权利要求2所述的方法，其中，在所述播放所述用户音频信息之后，所述方法还包括：

从所述至少一个用户中确定所述用户音频信息对应的目标用户并获取所述目标用户的脸部图像；

将所述用户音频信息对应的目标用户的脸部图像输入预先训练的第一情绪识别模型，得到所述目标用户对应的情绪类别信息；

基于所述情绪类别信息，确定表征所述用户音频信息对应的目标用户的情绪与当前播放的音频的类型的匹配程度的第一评分；和/或，

基于所述用户音频信息，确定表征所述用户音频信息与所述当前播放的音频的匹配程度的第二评分；

基于所述第一评分和/或所述第二评分，确定所述用户音频信息的评分并输出。
根据权利要求2所述的方法，其中，在所述播放所述用户音频信息之后，所述方法还包括：

从所述至少一个用户中确定所述用户音频信息对应的目标用户并获取所述目标用户的脸部图像；

将所述用户音频信息对应的目标用户的脸部图像和所述用户音频信息输入预先训练的第二情绪识别模型，得到情绪类别信息；

基于所述情绪类别信息，确定表征所述用户音频信息对应的目标用户的情绪与当前播放的音频的类型的匹配程度的评分并输出。
根据权利要求4所述的方法，其中，所述将所述用户音频信息对应的目标用户的脸部图像和所述用户音频信息输入预先训练的第二情绪识别模型，得到情绪类别信息，包括：

将所述用户音频信息对应的目标用户的脸部图像和所述用户音频信息输入所述第二情绪识别模型，得到第三情绪类别信息序列，其中，所述第三情绪类别信息序列中的情绪类别信息分别对应于一个脸部图像子序列；

所述基于所述情绪类别信息，确定表征所述用户音频信息对应的目标用户的情绪与当前播放的音频的类型的匹配程度的评分，包括：

获取所述当前播放的音频对应的视频，并从所述视频中提取目标人物的脸部图像序列；

将所述脸部图像序列和所述当前播放的音频输入所述第二情绪识别模型，得到第四情绪类别信息序列；

确定所述第三情绪类别信息序列和所述第四情绪类别信息序列之间的相似度；

基于所述相似度，确定表征所述用户音频信息对应的用户的情绪与当前播放的音频的类型的匹配程度的评分。
根据权利要求2所述的方法，其中，所述从当前的混合声音信号中提取用户音频信息，包括：

获取设置在所述目标空间的音频采集设备采集的初始音频信息，所述初始音频信息包括所述混合声音信号；

对所述初始音频信息进行人声分离，得到至少一路用户音频信息，其中，所述至少一路用户音频信息分别对应于一个用户。
根据权利要求2所述的方法，其中，所述基于所述用户音频信息，播放所述用户音频信息，包括：

对所述用户音频信息进行旋律识别，得到用户旋律信息；将所述用户旋律信息与当前播放的音频的旋律信息进行匹配，基于得到的第一匹配结果播放所述用户音频信息；和/或，

对所述用户音频信息进行语音识别，得到语音识别结果；将所述语音识别结果与当前播放的音频的对应文本信息进行匹配，基于得到的第二匹配结果播放所述用户音频信息。
根据权利要求1所述的方法，其中，所述基于所述意图判决数据，确定所述至少一个用户具有的目标发声意图，包括：

响应于确定所述意图判决数据包括所述至少一个用户的脸部图像，将所述脸部图像输入预先训练的第三情绪识别模型，得到情绪类别信息；如果所述情绪类别信息为预设情绪类型信息，确定所述至少一个用户有目标发声意图；或者，

响应于确定所述意图判决数据包括所述至少一个用户的声音信息，对所述声音信息进行语音识别，得到语音识别结果；如果所述语音识别结果表征所述至少一个用户指示播放音频，确定所述至少一个用户有目标发声意图；或者

响应于确定所述意图判决数据包括所述至少一个用户的声音信息，对所述声音信息进行旋律识别，得到旋律识别结果；如果所述旋律识别结果表征所述至少一个用户正在进行目标形式的发声，确定所述至少一个用户有目标发声意图。
根据权利要求1所述的方法，其中，所述确定表征所述至少一个用户的当前特征的特征信息，包括：

获取针对所述至少一个用户的历史音频播放记录；基于所述历史音频播放记录，确定所述至少一个用户的收听习惯信息；基于所述收听习惯信息，确定所述特征信息；和/或，

获取所述至少一个用户的脸部图像，将所述脸部图像输入预先训练的第四情绪识别模型，得到表征所述至少一个用户当前的情绪的情绪类别信息；基于所述情绪类别信息，确定所述特征信息；和/或，

获取所述至少一个用户所处的环境的环境图像，将所述环境图像输入预先训练的环境识别模型，得到环境类型信息；基于所述环境类型信息，确定所述特征信息；和/或，

获取对所述目标空间拍摄得到空间内图像；基于所述空间内图像，确定所述目标空间内的人数；基于所述人数，确定所述特征信息。
一种音频播放装置，包括：

获取模块，用于获取针对目标空间内的至少一个用户采集的意图判决数据；

第一确定模块，用于基于所述意图判决数据，确定所述至少一个用户具有的目标发声意图；

第二确定模块，用于确定表征所述至少一个用户的当前特征的特征信息；

第一播放模块，用于从预设音频库中提取并播放与所述特征信息对应的音频。
一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-9任一所述的方法。
一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-9任一所述的方法。