WO2022161264A1

WO2022161264A1 - 音频信号处理、会议记录与呈现方法、设备、系统及介质

Info

Publication number: WO2022161264A1
Application number: PCT/CN2022/073092
Authority: WO
Inventors: 郑斯奇; 索宏彬
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2021-01-26
Filing date: 2022-01-21
Publication date: 2022-08-04
Also published as: CN114792522A

Abstract

一种音频信号处理、会议记录与呈现方法、设备、系统及介质，该方法包括：对在多人发言场景中采集到的音频信号进行声源定位，以得到声源位置的变更点（101b）；根据声源位置的变更点将音频信号切分为多个音频片段，并提取多个音频片段的声纹特征（102b）；根据多个音频片段的时长、声纹特征和声源位置，对多个音频片段进行分层次聚类，得到对应同一发言人的音频片段（103b）；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号（104b）。

Description

音频信号处理、会议记录与呈现方法、设备、系统及介质

本申请要求2021年01月26日递交的申请号为202110105959.1、发明名称为“音频信号处理、会议记录与呈现方法、设备、系统及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频信号处理技术领域，尤其涉及一种音频信号处理、会议记录与呈现方法、设备、系统及介质。

背景技术

在会议、庭审现场等多人发言场景中，为了满足对会议内容进行记录的需求，通常采用一些具有语音采集功能的产品，例如拾音器、录音笔等，实时采集多人发言场景中的语音信号。基于这些产品采集的语音信号，可以直接基于语音信号查询多人发言场景中的发言内容，或者，也可以将语音信号转写为文字后进行查询。

为了便于在查询时能够了解发言内容对应的发言人信息，在采集到语音信号之后，还需要对发言人进行识别，即识别出“哪些发言内容是哪个发言人说的”。在现有技术中，采用神经网络模型提取语音信号中的声纹特征，根据声纹特征来区分同一发言人对应的发言内容。

但是，在实际应用中，多人发言场景中可能存在较强的噪音干扰，发言人的声纹特征也可能受情绪影响而发生变化，这些会导致基于声纹特征的识别结果存在误判，识别准确率较低。

发明内容

本申请的多个方面提供一种音频信号处理、会议记录与呈现方法、设备、系统及介质，用以能够更加准确地识别同一发言人对应的音频片段，提高识别的效率。

本申请实施例提供一种音频信号处理方法，包括：识别在多人发言场景中采集到的音频信号中的发言人变更点；根据发言人变更点将音频信号切分为多个音频片段，并提取多个音频片段的声纹特征；根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

本申请实施例还提供一种音频信号处理方法，包括：对在多人发言场景中采集到的音频信号进行声源定位，以得到声源位置的变更点；根据声源位置的变更点将音频信号切分为多个音频片段，并提取多个音频片段的声纹特征；根据多个音频片段的声纹特征和声源位置，对多个音频片段进行聚类，得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

本申请实施例还提供一种会议记录方法，包括：采集多人会议场景中的音频信号，识别所述音频信号中的发言人变更点；根据所述发言人变更点将所述音频信号切分为多个音频片段，并提取所述多个音频片段的声纹特征；根据所述多个音频片段的时长和声纹特征，对所述多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，根据添加用户标记的音频信号生成会议记录信息，所述会议记录信息包括会议标识。

本申请实施例还提供一种会议记录呈现方法，包括：接收会议查阅请求，所述会议查阅请求包含待呈现的会议标识；根据所述会议标识，获取待呈现的会议记录信息；呈现所述会议记录信息，所述会议记录信息是根据多人会议场景中添加用户标记的音频信号生成的；其中，根据所述音频信号中的发言人变更点所切分出的多个音频片段中，对应同一发言人的音频片段添加有相同的有用户标记，对应同一发言人的音频片段是根据所述多个音频片段的时长和声纹特征对所述多个音频片段进行分层次聚类得到的。本申请实施例还提供一种音频处理系统，包括：拾音设备和服务端设备；拾音设备部署在多人发言场景中，用于采集多人发言场景中的音频信号，识别音频信号中的发言人变更点，根据发言人变更点将音频信号切分为多个音频片段，并提取多个音频片段对应的声纹特征；服务端设备，用于根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

本申请实施例还提供一种音频处理系统，包括：拾音设备和服务端设备；拾音设备部署在多人发言场景中，用于采集多人发言场景中的音频信号，识别音频信号中的发言人变更点，根据发言人变更点将音频信号切分为多个音频片段；服务端设备，用于提取多个音频片段对应的声纹特征，根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

本申请实施例还提供一种拾音设备，包括：处理器和存储器；存储器，用于存储计算机程序；处理器与存储器耦合，用于执行计算机程序，以用于：识别在多人发言场景中采集到的音频信号中的发言人变更点；根据发言人变更点将音频信号切分为多个音频片段，并提取多个音频片段的声纹特征；根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

本申请实施例还提供一种拾音设备，包括：处理器和存储器；存储器，用于存储计算机程序；处理器与存储器耦合，用于执行计算机程序，以用于：对在多人发言场景中采集到的音频信号进行声源定位，以得到声源位置的变更点；根据声源位置的变更点将音频信号切分为多个音频片段，并提取多个音频片段的声纹特征；根据多个音频片段的声纹特征和声源位置，对多个音频片段进行聚类，得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

本申请实施例还提供一种服务端设备，包括：处理器和存储器；存储器，用于存储计算机程序；处理器与存储器耦合，用于执行计算机程序，以用于：接收拾音设备发送的多个音频片段及其对应的声纹特征；根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

本申请实施例还提供一种服务端设备，包括：处理器和存储器；存储器，用于存储计算机程序；处理器与存储器耦合，用于执行计算机程序，以用于：接收拾音设备发送的多个音频片段；提取多个音频片段对应的声纹特征，根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器实现本申请实施例提供的各方法中的步骤。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，致使处理器实现本申请实施例提供的各方法中的步骤。

在本申请实施例中，针对多人发言场景的音频信号，先基于发言人变更点将音频信号切为多个音频片段，再根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，识别出对应同一发言人的音频片段并添加用户标记。其中，不再单纯利用声纹特征进行聚类，而是结合了音频片段的时长和声纹特征进行分层次聚类，分层次聚类可以先对声纹特征更加稳定的音频片段进行聚类，相比于同时对所有音频片段进行聚类，分层次聚类可以减少声纹特征不稳定的音频片段带来的误差，能够更加准确地识别同一发言人对应的音频片段，提高识别的效率，用户标记结果更加准确。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a为本申请示例性实施例提供的一种音频信号处理方法的流程示意图；

图1b为本申请示例性实施例提供的另一种音频信号处理方法的流程示意图；

图1c为本申请示例性实施例提供的又一种音频信号处理方法的流程示意图；

图2a为对每层中的音频片段进行聚类的示意图；

图2b为对每层中的音频片段进行聚类的示意图；

图2c为对第一层中的音频片段进行聚类的示意图；

图3a为拾音设备在多人会议场景下的使用状态示意图；

图3b为拾音设备在商务合作商谈场景下的使用状态示意图；

图3c为拾音设备在教学场景下的使用状态示意图；

图3d为本申请示例性实施例提供的一种会议记录方法的流程示意图；

图3e为本申请示例性实施例提供的一种会议记录呈现方法的流程示意图；

图4a为本申请示例性实施例提供的一种音频处理系统的结构示意图；

图4b为本申请示例性实施例提供的另一种音频处理系统的结构示意图；

图5为本申请示例性实施例提供的一种拾音设备的结构示意图；

图6为本申请示例性实施例提供的一种服务端设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对实际应用中，多人发言场景中可能存在较强的噪音干扰，发言人的声纹特征也可能受情绪影响而发生变化，这些会导致基于声纹特征的识别结果存在误判，识别准确率较低的技术问题。针对该问题，在本申请一些实施例中，针对多人发言场景的音频信号，先基于发言人变更点将音频信号切为多个音频片段，再根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，识别出对应同一发言人的音频片段并添加用户标记。其中，不再单纯利用声纹特征进行聚类，而是结合了音频片段的时长和声纹特征进行分层次聚类，分层次聚类可以先对声纹特征更加稳定的音频片段进行聚类，相比于同时对所有音频片段进行聚类，分层次聚类可以减少声纹特征不稳定的音频片段带来的误差，能够更加准确地识别同一发言人对应的音频片段，提高识别的效率，用户标记结果更加准确。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1a为本申请示例性实施例提供的一种音频信号处理方法的流程示意图。如图1a所示，该方法包括：

101a、识别在多人发言场景中采集到的音频信号中的发言人变更点；

102a、根据发言人变更点将音频信号切分为多个音频片段，并提取多个音频片段的声纹特征；

103a、根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；

104a、为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

在本实施例中，发言人变更点是指音频信号中区分不同发言人的位置点，也就是发言人变更事件的发生位置，其数量可以是1个，也可以是多个，例如2个，3个或者5个。在本实施例中，并不限定发言人变更点的识别方式，下面举例说明。

例如，可以通过语音端点检测(Voice Activity Detection，VAD)技术，识别音频信号中的发言人变更点。VAD中的端点是指静音和有效语音信号变化临界点。对于在多人发言场景中采集到的音频信号，采用VAD技术，可以找出每一语音段对应的起点、尾点，区分出语音时段与非语音时段，而且还可以去除静音、噪音等。在本实施例中，可结合这些起点、尾点之间的停顿时长，确定发言人变更点。例如，对于起点、尾点之间停顿时间间隔大于设定阈值的情况，可以将该情况下的语音端点(即起点和尾点)位置视为发言人变更点。

又例如，还可以对在多人发言场景中采集到的音频信号进行声纹特征提取，根据音频信号中声纹特征的变化，将音频信号中声纹发生变化的位置点作为发言人变更点。或者，可以将VAD技术与声纹特征相结合，针对VAD检测出的每一语音时段对应的起点、尾点，进一步结合相邻起点和尾点处的声纹特征，若相邻起点和尾点处的声纹特征发生变化，则可确定该语音端点(即起点和尾点)位置为发言人变更点。

又例如，在采集音频信号时，可以基于麦克风阵列对音频信号进行声源定位，以得到声源位置的变更点，根据声源位置的变更点，可以确定音频信号中的发言人变更点。例如，在每个发言人位置固定不变的发言场景中，可以将声源位置的变更点作为发言人变更点。

当然，在一些发言场景中，发言人可能会走动，即其发言位置不是固定的，对于这种情况，可以将声源定位与VAD技术相结合，利用声源定位技术定位声源位置的变更点，利用VAD技术确定出音频信号中，每一语音时段对应的起点、尾点；根据VAD确定出的起点、尾点对声源位置的变更点进行修正，从而得到准确地的发言人变更点。具体地，可以将声源位置的变更点与VAD检测结果在时间轴上进行对齐，判断该声源位置的变更点前后一定时间内，是否存在检测出的语音端点，例如起点或尾点，如果存在，则可以将该语音端点所在的位置确定为发言人变更点。通过上述方式，可以更准确地确定发言人变更点，进而可以更准确地对语音识别结果进行截断，避免出现丢字首、丢字尾等现象。

在本实施例中，可以根据发言人变更点将音频信号切分为多个语音片段，例如，对于一段音频信号来说，将其开始位置记为A1，将其结束位置记为A2，在识别出该音频信号包含有一个发言人变更点B1的情况下，根据该发言人变更点B1可将该音频信号切分为音频片段A1—>B1和音频片段B1—>A2。

在本实施例中，根据发言人变更点切分出多个音频片段之后，可以提取多个音频片段的声纹特征，声纹特征可以用特征向量来表示。声纹特征是音频片段的特征体现，对应不同发言人的音频片段的声纹特征一般不同。在本实施例中，并不限定提取多个语音片段声纹特征的实施方式。例如，可以预先训练用于提取声纹特征的神经网络模型，采用预先训练出的神经网络模型来提取多个语音片段的声纹特征，其中，神经网络模型可以是但不限于：基于梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，简称MFCC)的模型或者高斯混合-通用背景模型(Gaussian Mixture Model-Universal Background Model，GMM-UBM)等。

在本实施例中，被发言人变更点切分出的多个音频片段中，每个音频片段均对应一个发言人，不同的音频片段可能对应于同一个发言人，也可能对应于不同发言人。在需要为音频片段添加用户标记的应用中，需要识别对应同一发言人的音频片段，从而为对应同一发言人的音频片段添加相同用户标记。为了更加准确地识别同一发言人对应的语音片段，在本实施例中，可以以多个音频片段的声纹特征为基础，对多个音频片段进行聚类，尽量将声纹特征相同的音频片段聚类在一起。在本实施例中，将声纹特征相同或相近的音频片段视为同一用户对应的音频片段。另外，由于发言人说话习惯、方式和特殊需求等因素，多人发言场景中可能存在特别短的发言，例如嗯、啊、是的，好等，这样被切分出的音频片段中可能存在一些较短的音频片段。音频片段的时长越长，其对应的声纹特征也就越稳定，反之，音频片段的时长越短，其对应的声纹特征的稳定性也就会降低，区分性也就没那么明显了。例如，对于用户A说的“啊”和用户B说的“啊”在声纹特征上区别不是很明显。鉴于此，在本实施例中，进一步考虑音频片段的时长，结合多个音频片段的时长对多个音频片段进行分层次聚类，分层次聚类是指对多个音频片段进行分层后，再对分层后的音频片段逐层进行聚类的过程，用以充分发挥较长的音频片段的优势，降低较短音频片段可能造成的干扰。因此，在本实施例中，在得到多个音频片段及其声纹特征之后，根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段。

由于音频片段的时长越长，其对应的声纹特征也就越稳定，基于此，在本申请一些可选实施例中，可以根据多个音频片段的时长，对多个音频片段进行分层，以得到对应不同时长范围的多层音频片段；根据多个音频片段对应的声纹特征，按照时长范围由长到短的顺序对多层音频片段进行分层次聚类，以得到至少一个聚类结果，每个聚类结果中包括对应同一发言人的音频片段。在分层次聚类中，不单单利用声纹特征对多个音频片段进行聚类，而是结合了音频片段的时长，先根据声纹特征对时长范围较长的音频片段进行聚类，再根据声纹特征对时长较短的音频片段进行聚类，在对时长较短的音频片段进行聚类的过程中，需要判断时长较短的音频片段是否属于前面由时长较长的音频片段聚类出的结果，在不属于的情况下可建立新的聚类结果，以此类推完成所有层上音频片段的聚类，这样按照时长由长到短的顺序分层聚类，可以时长较长的音频片段的聚类结果为主，减少了由于时长较短音频片段发的声纹特征不稳定，而带来的识别误差，提高了识别对应同一发言人的音频片段的准确率。

在本实施例中，得到对应同一发言人的音频片段之后，可以为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。在本实施例中，并不限定添加用户标记的实施方式。例如，可以在每一音频片段之前，插入带有用户标记的语音片段，例如，在对应于用户C1的音频片段之前，可以插入语音片段“用户C1请发言”。又例如，在音轨上为对应同一发言人的音频片段添加相同的用户标记点，例如，对应发言人C2的音频片段添加红色标记点，对应发言人C3的音频片段添加绿色标记点，对应发言人E的音频片段添加黄色标记点等。

在本实施例中，并不限定根据多个音频片段的时长，对多个音频片段进行分层，以得到对应不同时长范围的多层音频片段的实施方式。在一可选实施例中，可以设定各层的数量阈值，将多个音频片段按照时长进行排序，将排序后的多个音频片段，按照预先设定的各层的数量阈值进行分层，以得到多层音频片段。在又一可选实施例中，可以预先设定的各层的时长阈值，根据多个音频片段的时长和预先设定的各层的时长阈值，对多个音频片段进行分层，以得到对应不同时长范围的多层音频片段；其中，层数越小，对应的时长阈值越大，且每层中音频片段的时长大于或等于该层的时长阈值。例如，可以将时长超过20s的音频片段划分为第一层，将时长为10s～20s的音频片段划分为第二层，将时长为5s～10s的音频片段划分为第三层，将时长小于5s的音频片段划分为第四层。

在本实施例中，得到多层音频片段之后，并不限定对多层音频片段进行分层次聚类，以得到至少一个聚类结果的实施方式。下面详细说明。

在一可选实施例中，可以对根据每层中音频片段对应的声纹特征，对每层中的音频片段进行聚类，得到每层的聚类结果；按照层数由小到大的顺序，根据每层聚类结果的声纹特征，依次对相邻两层的聚类结果进行聚类，以得到至少一个聚类结果。其中，每层的聚类结果可以是一个，也可以是多个，例如，2个、3个或者5个等，对此不做限定。如图2a所示，根据多个音频片段的时长，将多个音频片段分为三层，根据每层音频片段的声纹特征，对每层音频片段进行聚类，得到每层的聚类结果，第一层有两个聚类结果 D1和D2，第二层有三个聚类结果D3、D4和D5，第三层有两个聚类结果D6和D7；接着根据第二层聚类结果的声纹特征，将第二层的聚类结果向第一层的聚类结果D1或D2进行聚类，其中，可以根据聚类结果D3、D4和D5的声纹特征，判断聚类结果D3、D4和D5是否可以聚类到聚类结果D1和D2中，假设聚类结果D3和D4可以聚类到聚类结果D1中，得到聚类结果E1，聚类结果D5可以聚类到聚类结果D2中，得到聚类结果E2，这样第二层的聚类结果向第一层的聚类结果进行聚类后，可以得到两个聚类结果E1和E2；最后，根据第三层聚类结果的声纹特征，将第三层的聚类结果向已有聚类结果E1和E2进行聚类，其中，可以根据聚类结果D6和D7的声纹特征，判断聚类结果D6和D7是否可以聚类到聚类结果E1或E2中，假设聚类结果D6可以聚类到聚类结果E1中，得到聚类结果E3，聚类结果D7可以聚类到聚类结果E2，得到聚类结果E4，最终得到两个聚类结果E3和E4，也即得到两个发言人对应的音频片段。

在另一可选实施例中，先对第一层的音频片段进行聚类，然后以第一层的聚类结果为基础，按照层次由小到大的顺序，将每一层的音频片段都向已有的聚类结果中进行聚类。具体地，首先对于第一层中的音频片段，根据第一层中音频片段对应的声纹特征，对第一层中的音频片段进行聚类，得到至少一个聚类结果；然后，对于非第一层中的音频片段，按照层数由小到大的顺序，依次根据非第一层中音频片段对应的声纹特征，将非第一层中的音频片段向已有的聚类结果进行聚类；以及若非第一层中存在未被聚类到已有聚类结果中的剩余音频片段，则根据剩余音频片段对应的声纹特征对剩余音频片段进行聚类，以产生新的聚类结果，直至所有层上的每个音频片段均被聚类到一个聚类结果中为止。下面以音频片段被切分为三层为例，对整个分层聚类过程进行举例说明。

如图2b所示，首先，根据第一层音频片段的声纹特征，对第一层的音频片段进行聚类得到两个聚类结果F1和F2，聚类结果F1中包含音频片段g1和音频片段g2，聚类结果F2中包含音频片段g3；接着，将第二层的音频片段聚类向第一层已有的聚类结果F1和F2进行聚类，其中，第二层包含三个音频片段，分别为音频片段g4、音频片段g5和音频片段g6，则根据音频片段g4、音频片段g5和音频片段g6的声纹特征，判断音频片段g4、音频片段g5和音频片段g6是否可以聚类到聚类结果F1或F2中，假设音频片段g5和音频片段g6聚类到聚类结果F2中，音频片段g4无法聚类到第一层的聚类结果F1和F2中，则将音频片段g4单独作为一个聚类结果F3，这样，将第二层的音频片段向第一层的聚类结果进行聚类之后得到三个聚类结果F1、F2和F3；最后，将第三层的聚类结果向已有的聚类结果F1、F2和F3进行聚类，其中，第三层包含两个音频片段，分别为音频片段g7和音频片段g8；可以根据音频片段g7和音频片段g8的声纹特征，判断音频片段g7和音频片段g8是否可以聚类到已有的聚类结果F1、F2或F3中，假设将音频片段g7聚类到聚类结果F1中，将音频片段g8聚类到聚类结果F2中；最后可以得到三个聚类结果F1、F2和F3，也即三个发言人对应的音频片段。

在本实施例中，并不限定对多个音频片段进行聚类的实施方式，例如可以采用但不限定于：K均值(K-Means)聚类、均值漂移聚类、基于密度的聚类(DBSCAN)、用高斯混合模型(GMM)的最大期望(EM)聚类、凝聚层次聚类或者图团体检测(Graph Community Detection)聚类等。

在本实施例中，并不限定对于第一层的音频片段，根据第一层中音频片段对应的声纹特征，对第一层中的音频片段进行聚类，得到至少一个聚类结果的实施方式。一种根据第一层中音频片段对应的声纹特征，对第一层中的音频片段进行聚类，得到至少一个聚类结果的实施方式，包括：在第一层至少包含两个音频片段的情况下，根据第一层中至少两个音频片段对应的声纹特征，计算第一层中至少两个音频片段之间的整体相似度，可选地，可以将至少两个音频片段之间的声纹特征相似度作为至少两个音频片段之间的整体相似度；根据第一层中至少两个音频片段之间的整体相似度，将第一层中至少两个音频片段划分至少一个聚类结果中；以及根据至少一个聚类结果中包含的音频片段对应的声纹特征，分别计算至少一个聚类结果的聚类中心，聚类中心包括中心声纹特征。具体地，对于第一层中的任一音频片段，可以根据该音频片段对应的声纹特征和第一层中其它音频片段对应的声纹特征，计算该音频片段与第一层中其它音频片段的整体相似度；若第一层中其它音频片段中存在与该音频片段的整体相似度满足设定相似度条件的目标音频片段，则将该音频片段与目标音频片段进行聚类，得到一个目标聚类结果，并根据该音频片段与目标音频片段对应的声纹特征更新该目标聚类结果的聚类中心。进一步，可以计算该目标聚类结果与第一层中剩余音频片段是否可以聚类，对于无法聚类到目标聚类结果的剩余音频片段，可以根据剩余音频片段对应的声纹特征，对剩余音频片段进行聚类，以产生新的聚类结果，直至所有第一层上的每个音频片段均被聚类到一个聚类结果中为止。

例如，第一层中包含三个音频片段的情况下，三个音频片段分别为音频片段h1、音频片段h2以及音频片段h3，可以先计算音频片段h1和音频片段h2的声纹特征相似度，将该声纹特征相似度作为两个音频片段h1和h2之间的整体相似度，若该整体相似度满足设定条件，则认为音频片段h1和音频片段h2来自于同一发言人，可以将音频片段h1和音频片段h2聚类一个聚类结果H1中，并计算该聚类结果H1的聚类中心，也即中心声纹特征，例如，可以直接将音频片段h1的声纹特征作为中心声纹特征，也可以将音频片段h2的声纹特征作为中心声纹特征，还可以对音频片段h1的声纹特征和音频片段h2的声纹特征取平均得到中心声纹特征，对此不做限定；在获取到聚类结果H1之后，可以计算聚类结果H1的中心声纹特征和音频片段h3的声纹特征的相似度，将该声纹特征的相似度作为聚类结果H1与音频片段h3之间的整体相似度，若该整体相似度满足设定条件，则认为聚类结果H1与音频片段h3来自于同一发言人，则可以将聚类结果H1与音频片段h3聚类到一个聚类结果H2，并根据聚类结果H1与音频片段h3的声纹特征，计算聚类结果H2的中心声纹特征；若该相似度阈值不满足设定条件，则认为聚类结果H1与音频片段h3不是来自于同一发言人，则可以将音频片段h3单独作为一个聚类结果H3。

在本实施例中，也不限定对于非第一层中的音频片段，按照层数由小到大的顺序，依次根据非第一层中音频片段对应的声纹特征，将非第一层中的音频片段向已有的聚类结果进行聚类的实施方式，例如，对任意一个非第一层中的每个音频片段，根据该音频片段对应的声纹特征和已有聚类结果的聚类中心，计算该音频片段与已有聚类结果的整体相似度；若已有聚类结果中存在与该音频片段的整体相似度满足设定相似度条件的目标聚类结果，将该音频片段加入目标聚类结果中，并根据该音频片段对应的声纹特征更新目标聚类结果的聚类中心。

在本实施例中，并不限定根据音频片段对应的声纹特征更新目标聚类结果的聚类中心的实施方式，在一可选实施例中，直接对目标聚类结果中包含的各音频片段的声纹特征取平均，得到新的中心声纹特征作为目标聚类结果更新后的聚类中心。在另一可选实施例中，确定目标聚类结果中包含的各音频片段所属的层数，不同层数设定不同的权重，且层数越小，对应的权重越大；根据各音频片段所属的层数对应的权重，对各音频片段对应的声纹特征进行加权求和，得到新的中心声纹特征作为目标聚类结果更新后的聚类中心。例如，目标聚类结果中包含有第一层的音频片段j1和音频片段j2，第二层的音频片段j3，计算聚类中心时，为第一层的音频片段设定权重为k1，为第二层的音频片段设定权重为k2，k1>k2且k1+k2＝1，则目标聚类结果的中心声纹特征为：(j1的声纹特征)*k1+(j2的声纹特征)*k1+(j3的声纹特征)*k2。

在本申请实施例中，由于具体的多人发言场景中，例如，多人会议等，具体发言人通常可以在自己的座位等处进行发言，在会议过程中，发言人的位置通常不会发生变化，因此，可以通过识别出声源方向的突变，来判断是否存在发言人变更的事件。基于此，本申请实施例还提供的一种音频信号处理方法，如图1b所示，该方法包括：

101b、对在多人发言场景中采集到的音频信号进行声源定位，以得到声源位置的变更点；

102b、根据所述声源位置的变更点将音频信号切分为多个音频片段，并提取多个音频片段的声纹特征；

103b、根据多个音频片段的时长、声纹特征和声源位置，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；

104b、为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

在本实施例中，对音频信号进行声源定位，以得到声源位置的变更点；根据声源位置的变更点切分音频信号，以得到多个音频片段，每个音频片段对应有唯一的声源位置，对于发言人的位置不发生变化的情况，可认为每个声源位置对应有一个发言人，也即每个音频片段对应有一个发言人，对于发言人的位置发生变化的情况，发言人的音频片段可能会分为两个音频片段，一个音频片段对应于位置变化前，一个音频片段对应于位置变化后，此时，每个音频片段也对应有一个发言人。

在本实施例中，将音频片段按照声源位置的变更点切分为多个音频片段之后，可以提取多个音频片段的声纹特征，关于提取声纹特征的实施方式，可参见前述实施例，在此不再赘述。

在本实施例中，被声源位置的变更点切分出的多个音频片段中，每个音频片段均对应一个发言人，不同的音频片段可能对应于同一个发言人，也可能对应于不同发言人。在需要为音频片段添加用户标记的应用中，需要识别对应同一发言人的音频片段，从而为对应同一发言人的音频片段添加相同用户标记。为了更加准确地识别同一发言人对应的语音片段，在本实施例中，可以以多个音频片段的声纹特征为基础，对多个音频片段进行聚类，尽量将声纹特征相同的音频片段聚类在一起。在本实施例中，将声纹特征相同或相近的音频片段视为同一用户对应的音频片段。进一步，还可以结合音频片段对应的声源位置，如果两个音频片段的声纹特征相同或相似且来自同一声源位置，则这两个音频片段对应同一用户的概率会更高。另外，考虑到音频片段的时长越长，其对应的声纹特征也就越稳定，反之，音频片段的时长越短，其对应的声纹特征的稳定性也就会降低，区分性也就没那么明显了。因此，在本实施例中，进一步考虑音频片段的时长，结合多个音频片段的时长对多个音频片段进行分层次聚类，分层次聚类是指对多个音频片段进行分层后，再对分层后的音频片段逐层进行聚类的过程，用以充分发挥较长的音频片段的优势，降低较短音频片段可能造成的干扰。因此，在本实施例中，在得到多个音频片段及其声纹特征和声源位置之后，根据多个音频片段的时长、声纹特征以及声源位置，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段。

在本申请一可选实施例中，一种根据多个音频片段的时长、声纹特征以及声源位置，对多个音频片段进行分层次聚类的实施方式，包括：根据多个音频片段的时长，对多个音频片段进行分层，以得到对应不同时长范围的多层音频片段；根据多个音频片段对应的声纹特征和声源位置，按照时长范围由长到短的顺序对多层音频片段进行分层次聚类，以得到至少一个聚类结果，每个聚类结果中包括对应同一发言人的音频片段。

其中，根据多个音频片段的时长，对多个音频片段进行分层，以得到对应不同时长范围的多层音频片段的实施方式，可参见前述实施例，在此不再赘述。在本实施例中，并不限定根据多个音频片段对应的声纹特征和声源位置，按照时长范围由长到短的顺序对多层音频片段进行分层次聚类，以得到至少一个聚类结果的实施方式。下面举例说明。

在一可选实施例中，可以根据每层中音频片段对应的声纹特征和声源位置，对每层中的音频片段进行聚类，得到每层的聚类结果；按照层数由小到大的顺序，根据每层聚类结果的声纹特征和声源位置，依次对相邻两层的聚类结果进行聚类，以得到至少一个聚类结果。

在另一可选实施例中，可以先对第一层的音频片段进行聚类，然后以第一层的聚类结果为基础，按照层次由小到大的顺序，将每一层的音频片段都向已有的聚类结果中进行聚类。具体地，首先对于第一层的音频片段，根据第一层中音频片段对应的声纹特征和声源位置，对第一层中的音频片段进行聚类，得到至少一个聚类结果；然后，对于非第一层中的音频片段，按照层数由小到大的顺序，依次根据非第一层中音频片段对应的声纹特征和声源位置，将非第一层中的音频片段向已有的聚类结果进行聚类；以及若非第一层中存在未被聚类到已有聚类结果中的剩余音频片段，则根据剩余音频片段对应的声纹特征和声源位置对剩余音频片段进行聚类，以产生新的聚类结果，直至所有层上的每个音频片段均被聚类到至少一个聚类结果中为止。

在本申请一可选实施例中，根据第一层中音频片段对应的声纹特征和声源位置，对第一层中的音频片段进行聚类的实施方式，包括：如果第一层只包括一个音频片段，则该音频片段自己形成一个聚类结果；如果第一层上至少包含两个音频片段，则在第一层至少包含两个音频片段的情况下，根据第一层中至少两个音频片段对应的声纹特征和声源位置，计算第一层中至少两个音频片段之间的整体相似度。例如，可以先计算至少两个音频片段的声纹特征相似度，再计算至少两个音频片段的声源位置相似度，对声纹特征相似度和声源位置相似度进行加权，得到第一层中至少两个音频片段之间的整体相似度。进一步，可以根据第一层中至少两个音频片段之间的整体相似度，将第一层中至少两个音频片段划分至少一个聚类结果中。进一步，还需要根据至少一个聚类结果中包含的音频片段对应的声纹特征和声源位置，分别计算至少一个聚类结果的聚类中心，该聚类中心包括中心声纹特征和中心声源位置，为非第一层上的音频片段向所述至少一个聚类结果进行聚类提供基础。例如，对每个聚类结果，可以将该聚类结果中包含的音频片段对应的声纹特征的平均值作为该聚类结果的中心声纹特征，将该聚类结果中包含的音频片段对应的声源位置的平均值作为该聚类结果的中心声源位置。又例如，可以直接将该聚类结果中包含的任一音频片段的声纹特征作为该聚类结果的中心声纹特征，将该聚类结果中包含的任一音频片段的声源位置作为该聚类结果的中心声纹位置。

如图2c所示，第一层的音频片段包括：音频片段m1-音频片段m6，可以计算任意两个音频片段之间的整体相似度，将整体相似度高于设定相似度阈值(例如，90％)的两个音频片段进行聚类，例如，音频片段m1与音频片段m3的整体相似度阈值为91％，音频片段m2与音频片段m4的整体相似度阈值为93％，音频片段m3与音频片段m6的整体相似度阈值为95％，则可以将音频片段m1与音频片段m3进行聚类得到聚类结果M1，音频片段m2与音频片段m4进行聚类得到聚类结果M2，将音频片段m3与音频片段m6进行聚类得到聚类结果M3，分别计算聚类结果M1、聚类结果M2以及聚类结果 M3的聚类中心，根据两两聚类结果的聚类中心，计算两个聚类结果的整体相似度，若该整体相似度超过设定阈值(例如90％)，则将继续将两个聚类结果进行聚类。例如，聚类结果M1和聚类结果M2的整体相似度为90％，聚类结果M1和聚类结果M3的整体相似度为85％，聚类结果M2和聚类结果M3的整体相似度为80％，则将聚类结果M1和聚类结果M2继续聚类为聚类结果M4，将聚类结果M3单独作为一个聚类结果，最终，第一层的音频片段得到两个聚类结果M3和M4。

进一步可选地，对任意一个非第一层中的每个音频片段，一种将其向已有聚类结果进行聚类的过程包括：根据该音频片段对应的声纹特征和声源位置和已有聚类结果的聚类中心，计算该音频片段与已有聚类结果的整体相似度；若已有聚类结果中存在与该音频片段的整体相似度满足设定相似度条件的目标聚类结果，则可以认为该音频片段与目标聚类结果中的音频片段来自于同一发言人，将该音频片段加入目标聚类结果中，并根据该音频片段对应的声纹特征和声源位置更新目标聚类结果的聚类中心。

对目标聚类结果，在有新的音频片段加入该目标聚类结果时，可以采用但不限于下述方式更新该目标聚类结果的聚类中心。例如，可以对目标聚类结果中包含的所有音频片段的声纹特征取平均，将平均值作为目标聚类结果的聚类中心的中心声纹特征；对目标聚类结果中音频片段的声源位置取平均，将平均值作为目标聚类结果的聚类中心的中心声源位置。又例如，可以确定目标聚类结果中包含的各音频片段所属的层数，为不同层数设定不同的权重，且层数越小，对应的权重越大；根据各音频片段所属的层数对应的权重，对目标聚类结果中包含的各音频片段对应的声纹特征进行加权求和，得到新的中心声纹特征；根据各音频片段所属的层数对应的权重，对目标聚类结果中包含的各音频片段对应的声源位置进行加权求和，得到新的中心声源位置；新的中心声纹特征和新的中心声源位置形成目标聚类结果更新后的聚类中心。

在本申请实施例中，针对多人发言场景的音频信号，先基于声源位置将音频信号切为多个音频片段，再根据多个音频片段的时长、声纹特征以及声源位置，对多个音频片段进行分层次聚类，识别出对应同一发言人的音频片段并添加用户标记。其中，不再单纯利用声纹特征进行聚类，而是将声源位置、声纹特征以及分层次聚合进行结合，其中，声源位置可以准确地对音频信号进行分段，分层次聚合可以减少短语音对识别结果的影响，在此基础上，再利用声纹特征识别同一发言人对应的音频片段，可大幅提高识别的效率，用户标记结果更加准确。

本实施例还提供一种音频信号处理方法，如图1c所示，该方法包括：

101c、对在多人发言场景中采集到的音频信号进行声源定位，以得到声源位置的变更点；

102c、根据声源位置的变更点将音频信号切分为多个音频片段，并提取多个音频片段的声纹特征；

103c、根据多个音频片段的声纹特征和声源位置，对多个音频片段进行聚类，得到对应同一发言人的音频片段；

104c、为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

其中，根据声源位置的变更点将音频信号切分为多个音频片段，包括：将声源位置的变更点作为发言人变更点，从而将音频信号切分为多个音频片段；或者，结合VAD技术，利用VAD技术检测出该音频信号的起点、尾点；根据起点、尾点对声源位置的变更点进行修正，得到发言人变更点，进而根据发言人变更点，从而将音频信号切分为多个音频片段。

在一可选实施例中，根据多个音频片段的声纹特征和声源位置，对多个音频片段进行聚类，得到对应同一发言人的音频片段，包括：根据多个音频片段的时长，对多个音频片段进行分层，以得到对应不同时长范围的多层音频片段；根据多个音频片段对应的声纹特征和声源位置，按照时长范围由长到短的顺序对多层音频片段进行层次聚类，以得到至少一个聚类结果，每个聚类结果中包括对应同一发言人的音频片段。关于本实施例中，各步骤的详细描述可参见前述实施例，在此不再赘述。

本申请各实施例提供的音频信号处理方法，可应用于到各种多人发言场景中，例如多人会议场景、商务会谈场景或者教学场景等。在这些应用场景中，本实施例的拾音设备会被部署在这些场景中，用于采集多人发言场景中的音频信号，并实现本申请上述各方法实施例以及下述系统实施例中所描述的其它功能。为了有更好的采集效果，便于对音频信号进行声源定位，可以根据多人发言场景的具体部署情况合理确定拾音设备的放置位置。如图3a所示，在多人会议场景中，拾音设备部署在会议桌的中央，多个发言人分布在拾音设备的不同方位，方便拾取每个发言人的语音；如图3b所示，在商务合作会谈场景下，第一商务方和第二商务方相对落座，会议组织方位于第一商务方和第二商务方之间，负责组织两方商谈，拾音设备部署在会议组织方、第一商务方、第二商务方的中心位置，第一商务方、第二商务方和会议组织方拾音设备的不同方位上，方便拾音设备拾音；如图3c所示，在教学场景中，拾音设备部署在讲课桌上，教师与学生位于拾音设备的不同方位上，方便同时拾取教师与学生的语音。

以上述实施例提供的音频信号处理方法在多人会议场景中的应用为例，则可以针对多人会议场景进行会议记录，进一步还可以针对会议记录呈现或再现。如图3d所示，本申请示例性实施例提供的一种会议记录方法，包括以下步骤：

301d、采集多人会议场景中的音频信号，识别所述音频信号中的发言人变更点；

302d、根据所述发言人变更点将所述音频信号切分为多个音频片段，并提取所述多个音频片段的声纹特征；

303d、根据所述多个音频片段的时长和声纹特征，对所述多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；

304d、为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号；

305d、根据添加用户标记的音频信号生成会议记录信息，所述会议记录信息包括会议标识。

关于步骤301d-304d的详细描述可参见前述实施例，在此不再赘述。在本实施例中，重点针对步骤305d进行描述。具体地，在得到添加用户标记的音频信号之后，可以根据该添加用户标记的音频信号生成会议记录信息，并为该会议记录信息添加对应的会议标识，该会议标识具有唯一性，可唯一标识一场多人会议。在一可选实施例中，可以直接将添加用户标记的音频信号作为会议记录信息。在另一可选实施例中，可以将添加用户标记的音频信号转换为带有发言人信息的文本信息，该文本信息中可以包括类似但不限于下述格式的内容：A发言人：xxxx；B发言人：yyy等；之后将带有发言人信息的文本信息作为会议记录信息。无论是哪种形式的会议记录信息，基于会议记录信息，可以再现会议场景，便于进行会议内容的查询或查阅。

图3e为本申请示例性实施例提供的一种会议记录呈现方法的流程示意图，如图3e所示，该方法包括：

301e、接收会议查阅请求，该会议查阅请求包括待呈现的会议标识；

302e、根据上述会议标识，获取待呈现的会议记录信息；

303e、呈现会议记录信息，该会议记录信息是根据多人会议场景中添加用户标记的音频信号生成的；其中，根据音频信号中的发言人变更点所切分出的多个音频片段中，对应同一发言人的音频片段添加有相同的用户标记，对应同一发言人的音频片段是根据多个音频片段的时长和声纹特征对多个音频片段进行分层次聚类得到的。

在本实施例中，针对多人会议场景，可进行会议记录，会议记录过程为：采集多人会议场景中的音频信号，识别出音频信号中的发言人变更点；根据音频信号中的发言人变更点将音频信号切分为多个音频片段，并提取多个音频片段的声纹特征；进而，根据音频片段的时长和声纹特征对多个音频片段进行分层次聚类，得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同用户标记，得到添加用户标记的音频信号；根据添加用户标记的音频信号生成会议记录信息，并为该会议记录信息添加对应的会议标识。关于会议记录的相关过程可参见前述实施例，在此不再赘述。

在得到会议记录信息之后，可以通过会议记录信息查阅相关会议内容，于是对外提供会议查阅服务。基于此，可接收外部发出的会议查阅请求，该请求中携带待呈现的会议标识；基于该会议标识和各会议记录信息中的会议标识，可以从中得到待呈现的会议记录信息，并呈现该会议记录信息。可选地，若该会议记录信息是添加用户标记的音频信号，则可以通过播放器播放添加用户标记的音频信号，或者，也可以将添加用户标记的音频信号转换为文本信息之后进行显示；若该会议记录信息是由添加用户标记的音频信号转换成的带有发言人信息的文本信息，则可以通过显示器显示该带有发言人信息的文本信息，或者，也可以通过播放器播放带有发言人信息的文本信息。这样，可满足会议内容的查询或查阅需求。

另外，需要说明的是，由于会议记录信息中体现了发言人信息或对应的用户标记，因此，在查阅会议记录时，可单独查阅或回放某个发言人对应的会议内容，而不是多个发言人的信息混淆在一起，提高了对会议发言人和会议内容的识别度。例如，在会议查阅请求中除了包含待呈现的会议标识之外，还可以同时包含发言人信息或用户标记，发言人信息与用户标记存在对应关系，这样，可以根据会议标识，获取待呈现的会议记录信息；根据发言人信息或用户标记，获取会议记录信息中对应于该发言人信息或用户标记的部分会议内容，呈现对应于发言人信息或用户标记的部分会议内容。

需要说明的是，本申请实施例提供的方法可以全部由拾音设备完成，也可以将一部分功能在服务端设备上实现，对此不做限定。其中，拾音设备可以实现为录音笔、录音棒、录音机或拾音器等，也可以实现为带有录音功能的终端设备或者音视频会议设备等。基于此，本实施例提供一种音频处理系统，对音频信号处理方法基于拾音设备和服务端设备共同实现的过程进行说明。如图4a所示，该音频处理系统400包括：拾音设备401和服务端设备402。该音频处理系统400可以应用到多人发言场景中，例如图3a所示的多人会议场景，图3b所示的商务合作商谈场景以及图3c所示的教学场景等。在这些场景中，拾音设备401可与服务端设备402配合实现本申请上述各方法实施例，在图3a至图3c所示多人发言场景中未示出服务端设备402。

本实施例的拾音设备401具有开机按键、调节按键、麦克风阵列以及扬声器等功能模块，进一步可选地，还可以包括显示屏。拾音设备401可以实现自动录音、MP3播放、FM调频、数码相机功能、电话录音、定时录音、外部转录、复读机或编辑等功能。如图4a所示，拾音设备401可以在多人发言场景中，采集多人发言场景中的音频信号，识别音频信号中的发言人变更点，根据发言人变更点将音频信号切分为多个音频片段，并提取多个音频片段对应的声纹特征，并将多个音频片段及其对应的声纹特征发送至服务端设备402。

在本实施例中，服务端设备402可以接收拾音设备401发送的多个音频片段及其对应的声纹特征，根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

在本实施例中，拾音设备401可以利用麦克风阵列拾取多人发言场景中的音频信号，基于麦克风阵列中不同位置上麦克风拾取到的同一声音信号的强度，可以计算出该声音信号的声源位置。基于此，在本申请一可选实施例中，拾音设备401在识别音频信号中的发言人变更点时，可以对音频信号进行声源定位，以得到声源位置的变更点；根据声源位置的变更点，确定音频信号中的发言人变更点，进一步，可以根据发言人变更点切分出多个音频片段，每个音频对应有唯一的声源位置。相应地，服务端设备402在根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段时，可以根据多个音频片段的时长、声纹特征和声源位置，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段。

在本实施例中，如图4b所示，还提供一种音频处理系统，图4b所示实施例与图4a所示实施例的区别在于：在图4a中，提取多个音频片段对应的声纹特征的过程在拾音设备401上实现，而在图4b中，提取多个音频片段对应的声纹特征的过程在服务端设备402上实现，其它内容图4a与图4b所示内容相同或相似，详细内容可参见前述实施例，在此不再赘述。

在本实施例中，服务端设备402为对应同一发言人的音频片段添加相同的用户标记之后，可以对添加用户标记的音频信号进行存储，以备后续查询与使用。在一可选实施例中，如图4a所示，音频处理系统中还包括转写设备403，服务端设备402可以将添加用户标记的音频信号发送给转写设备403，转写设备403接收该添加用户标记的音频信号，将添加用户标记的音频信号转换为带有用户标记的文本信息，并将该带有用户标记的文本信息返回给服务端设备402或者存储至数据库406。进一步，如图4a所示，音频处理系统中还包括查询端404，查询端404可以向服务端设备402发送第一查询请求，第一查询请求包括待查询的用户标记，服务端设备402接收第一查询请求，从带有用户标记的文本信息中获取与待查询的用户标记对应的文本信息并返回给查询端404。

在另一可选实施例中，如图4a所示，服务端设备402在生成带有用户标记的音频信号后，可以将带有用户标记的音频信号输出至服务端设备402上的上层应用，例如上层应用可以是远程会议应用或者社交应用等，上层应用可以获取多人发言场景中的用户信息，例如，用户的标识信息，如姓名、昵称或者声纹特征等，上层应用可以将用户信息与带有用户标记的音频信号进行关联。其中，用户信息与带有用户标记的音频信号的关联方式并不限定，例如，上层应用中存储有用户标记与用户信息的对应关系，基于此对应关系，可以找到用户标记对应的用户信息，将该用户信息与带有用户标记的音频信号进行关联。

进一步，如图4a所示，查询端404可以向服务端设备402发送第二查询请求，第二查询请求包括待查询的音频片段，服务端设备402接收第二查询请求，从添加用户标记的音频信号中提取与待查询的音频片段对应的用户标记，并将用户标记和/或用户标记对应的用户信息返回给查询端404。

在又一可选实施例中，如图4b所示，音频处理系统中还包括回放设备405，回放设备405可以向服务端设备402发送音频信号获取请求，服务端设备402可以基于该请求将添加用户标记的音频信号输出至回放设备405，回放设备405接收并播放该添加用户标记的音频信号。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101a至步骤103a的执行主体可以为设备A；又比如，步骤101a和102a的执行主体可以为设备A，步骤103a的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101a、102a等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图5为本申请示例性实施例提供的一种拾音设备的结构示意图。如图5所示，该拾音设备包括：处理器55和存储器54。

存储器54，用于存储计算机程序，并可被配置为存储其它各种数据以支持在拾音设备上的操作。这些数据的示例包括用于在拾音设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器54可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器55，与存储器54耦合，用于执行存储器54中的计算机程序，以用于：识别在多人发言场景中采集到的音频信号中的发言人变更点；根据发言人变更点将音频信号切分为多个音频片段，并提取多个音频片段的声纹特征；根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。

其中，上述过程可以全部在拾音设备上完成，也可以将部分功能放在服务端设备上执行，例如，提取多个音频片段的声纹特征；根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号的部分可以由服务端配合完成。

在一可选实施例中，处理器55在根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段时，具体用于：根据多个音频片段的时长，对多个音频片段进行分层，以得到对应不同时长范围的多层音频片段；根据多个音频片段对应的声纹特征，按照时长范围由长到短的顺序对多层音频片段进行分层次聚类，以得到至少一个聚类结果，每个聚类结果中包括对应同一发言人的音频片段。

在一可选实施例中，处理器55在根据多个音频片段的时长，对多个音频片段进行分层，以得到对应不同时长范围的多层音频片段时，具体用于：根据多个音频片段的时长和预先设定的各层的时长阈值，对多个音频片段进行分层，以得到对应不同时长范围的多层音频片段；其中，层数越小，对应的时长阈值越大，且每层中音频片段的时长大于或等于该层的时长阈值。

在一可选实施例中，处理器55在根据多个音频片段对应的声纹特征，按照时长范围由长到短的顺序对多层音频片段进行分层次聚类，以得到至少一个聚类结果时，具体用于：对于第一层中的音频片段，根据第一层中音频片段对应的声纹特征，对第一层中的音频片段进行聚类，得到至少一个聚类结果；对于非第一层中的音频片段，按照层数由小到大的顺序，依次根据非第一层中音频片段对应的声纹特征，将非第一层中的音频片段向已有的聚类结果进行聚类；以及若非第一层中存在未被聚类到已有聚类结果中的剩余音频片段，则根据剩余音频片段对应的声纹特征对剩余音频片段进行聚类，以产生新的聚类结果，直至所有层上的每个音频片段均被聚类到一个聚类结果中为止。

在一可选实施例中，处理器55在识别在多人发言场景中采集到的音频信号中的发言人变更点时，具体用于：对音频信号进行声源定位，以得到声源位置的变更点；根据声源位置的变更点，确定音频信号中的发言人变更点；其中，由发言人变更点切分出的每个音频片段对应有唯一的声源位置。

在一可选实施例中，处理器55在根据多个音频片段对应的声纹特征，按照时长范围由长到短的顺序对多层音频片段进行分层次聚类，以得到至少一个聚类结果时，具体用于：根据多个音频片段对应的声纹特征和声源位置，按照时长范围由长到短的顺序对多层音频片段进行层次聚类，以得到至少一个聚类结果，每个聚类结果中包括对应同一发言人的音频片段。

在一可选实施例中，处理器55在根据多个音频片段对应的声纹特征和声源位置，按照时长范围由长到短的顺序对多层音频片段进行层次聚类，以得到至少一个聚类结果时，具体用于：对于第一层的音频片段，根据第一层中音频片段对应的声纹特征和声源位置，对第一层中的音频片段进行聚类，得到至少一个聚类结果；对于非第一层中的音频片段，按照层数由小到大的顺序，依次根据非第一层中音频片段对应的声纹特征和声源位置，将非第一层中的音频片段向已有的聚类结果进行聚类；以及若非第一层中存在未被聚类到已有聚类结果中的剩余音频片段，则根据剩余音频片段对应的声纹特征和声源位置对剩余音频片段进行聚类，以产生新的聚类结果，直至所有层上的每个音频片段均被聚类到一个聚类结果中为止。

在一可选实施例中，对于第一层的音频片段，处理器55在根据第一层中音频片段对应的声纹特征和声源位置，对第一层中的音频片段进行聚类，得到至少一个聚类结果时，具体用于：在第一层至少包含两个音频片段的情况下，根据第一层中至少两个音频片段对应的声纹特征和声源位置，计算第一层中至少两个音频片段之间的整体相似度；根据第一层中至少两个音频片段之间的整体相似度，将第一层中至少两个音频片段划分至少一个聚类结果中；以及根据至少一个聚类结果中包含的音频片段对应的声纹特征和声源位置，分别计算至少一个聚类结果的聚类中心，聚类中心包括中心声纹特征和中心声源位置。

在一可选实施例中，对于非第一层中的音频片段，处理器55在按照层数由小到大的顺序，依次根据非第一层中音频片段对应的声纹特征和声源位置，将非第一层中的音频片段向已有的聚类结果进行聚类时，具体用于：对任意一个非第一层中的每个音频片段，根据该音频片段对应的声纹特征和声源位置和已有聚类结果的聚类中心，计算该音频片段与已有聚类结果的整体相似度；若已有聚类结果中存在与该音频片段的整体相似度满足设定相似度条件的目标聚类结果，将该音频片段加入目标聚类结果中，并根据该音频片段对应的声纹特征和声源位置更新目标聚类结果的聚类中心。

在一可选实施例中，处理器55在根据该音频片段对应的声纹特征和声源位置更新目标聚类结果的聚类中心时，具体用于：确定目标聚类结果中包含的各音频片段所属的层数，其中，不同层数对应不同的权重，且层数越小，对应的权重越大；根据各音频片段所属的层数对应的权重，对各音频片段对应的声纹特征和声源位置分别进行加权求和，得到新的中心声纹特征和新的中心声源位置作为目标聚类结果更新后的聚类中心。

在一可选实施例中，处理器55在根据多个音频片段对应的声纹特征和声源位置，按照时长范围由长到短的顺序对多层音频片段进行层次聚类，以得到至少一个聚类结果时，具体用于：根据每层中音频片段对应的声纹特征，对每层中的音频片段进行聚类，得到每层的聚类结果；按照层数由小到大的顺序，根据每层聚类结果的声纹特征，依次对相邻两层的聚类结果进行聚类，以得到至少一个聚类结果。

在一可选实施例中，处理器55还用于：将添加用户标记的音频信号输出至转写设备，以供转写设备将添加用户标记的音频信号转换为带有用户标记的文本信息；或者将添加用户标记的音频信号输出至回放设备，以供回放设备播放带有用户标记的音频信号；或者将添加用户标记的音频信号输出至上层应用，以供上层应用获取用户标记对应的用户信息并与带有用户标记的音频片段进行关联。

在一可选实施例中，处理器55还用于：接收第一查询请求，第一查询请求包括待查询的用户标记，从带有用户标记的文本信息中获取与待查询的用户标记对应的文本信息，并返回给发起第一查询请求的查询端；或者接收第二查询请求，第二查询请求包括待查询的音频片段，从添加用户标记的音频信号中提取与待查询的音频片段对应的用户标记，并将用户标记和/或用户标记对应的用户信息返回给发起第二查询请求的查询端。

关于各操作的详细描述可参见前述方法实施例中的描述，在此不再赘述。

进一步，如图5所示，该拾音设备还包括：通信组件56、显示器57、电源组件58、音频组件59等其它组件。图5中仅示意性给出部分组件，并不意味着拾音设备只包括图5所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时，致使处理器能够实现图1a和图1b所示方法实施例中可由拾音设备执行的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时，致使处理器能够实现图1a和图1b所示方法实施例中可由拾音设备执行的各步骤。

本申请实施例还提供一种拾音设备，该拾音设备的实现结构与图5所示拾音设备的实现结构相同或类似，可参照图5所示拾音设备的结构实现。本实施例提供的拾音设备与图5所示实施例中拾音设备的区别主要在于：处理器执行存储器中存储的计算机程序所实现的功能不同。对本实施例提供的拾音设备来说，其处理器执行存储器中存储的计算机程序，可用于：对在多人发言场景中采集到的音频信号进行声源定位，以得到声源位置的变更点；根据声源位置的变更点将音频信号切分为多个音频片段，并提取多个音频片段的声纹特征；根据多个音频片段的声纹特征和声源位置，对多个音频片段进行聚类，得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。关于各操作的详细描述可参见前述方法实施例中的描述，在此不再赘述。

其中，上述过程可以全部在拾音设备上完成，也可以将部分功能放在服务端设备上执行，例如，提取多个音频片段的声纹特征；根据多个音频片段的声纹特征和声源位置，对多个音频片段进行聚类，得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号的过程，可以由服务端设备配合完成。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时，致使处理器能够实现图1c所示方法实施例中可由拾音设备执行的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时，致使处理器能够实现图1c所示方法实施例中可由拾音设备执行的各步骤。

图6为本申请示例性实施例提供的一种服务端设备的结构示意图。如图6所示，该服务端设备包括：处理器65和存储器64。

存储器64，用于存储计算机程序，并可被配置为存储其它各种数据以支持在服务端设备上的操作。这些数据的示例包括用于在服务端设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器64可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器65，与存储器64耦合，用于执行存储器64中的计算机程序，以用于：接收拾音设备发送的多个音频片段及其对应的声纹特征；根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。关于各操作的详细描述可参见前述方法实施例中的描述，在此不再赘述。

进一步，如图6所示，该服务端设备还包括：通信组件66、电源组件68等其它组件。图6中仅示意性给出部分组件，并不意味着服务端设备只包括图6所示组件。

本申请实施例还提供一种服务端设备，该服务端设备的实现结构与图6所示服务端设备的实现结构相同或类似，可参照图6所示服务端设备的结构实现。本实施例提供的服务端设备与图6所示实施例中服务端设备的区别主要在于：处理器执行存储器中存储的计算机程序所实现的功能不同。对本实施例提供的服务端设备来说，其处理器执行存储器中存储的计算机程序，可用于：接收拾音设备发送的多个音频片段；提取多个音频片段对应的声纹特征，根据多个音频片段的时长和声纹特征，对多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。关于各操作的详细描述可参见前述方法实施例中的描述，在此不再赘述。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时，致使处理器能够实现音频信号处理方法实施例中可由服务端设备执行的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时，致使处理器能够实现上述音频信号处理方法实施例中可由服务端设备执行的各步骤。

除了上述设备之外，本申请实施例还提供一种会议记录设备，该会议记录设备包括：存储器和处理器；存储器用于存储计算机程序；处理器与处理器耦合，用于执行存储器中存储的计算机程序，以用于：采集多人会议场景中的音频信号，识别所述音频信号中的发言人变更点；根据所述发言人变更点将所述音频信号切分为多个音频片段，并提取所述多个音频片段的声纹特征；根据所述多个音频片段的时长和声纹特征，对所述多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号；根据所述添加用户标记的音频信号生成会议记录信息，所述会议记录信息包括会议标识。

本申请实施例还提供一种会议记录呈现设备，该会议记录呈现设备包括：存储器和处理器；存储器用于存储计算机程序；处理器与处理器耦合，用于执行存储器中存储的计算机程序，以用于：接收会议查阅请求，所述会议查阅请求包含待呈现的会议标识；根据所述会议标识，获取待呈现的会议记录信息；呈现所述会议记录信息，所述会议记录信息是根据多人会议场景中添加用户标记的音频信号生成的；其中，根据所述音频信号中的发言人变更点所切分出的多个音频片段中，对应同一发言人的音频片段添加有相同的用户标记，对应同一发言人的音频片段是根据所述多个音频片段的时长和声纹特征对所述多个音频片段进行分层次聚类得到的。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时，致使处理器能够实现图3d或图3e所示方法实施例中的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时，致使处理器能够实现图3d或图3e所示方法实施例中的各步骤。

上述图5和图6中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述图5中的显示器包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

上述图5和图6中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图5中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种音频信号处理方法，其特征在于，包括：

识别在多人发言场景中采集到的音频信号中的发言人变更点；

根据所述发言人变更点将所述音频信号切分为多个音频片段，并提取所述多个音频片段的声纹特征；

根据所述多个音频片段的时长和声纹特征，对所述多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；

为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。
根据权利要求1所述的方法，其特征在于，根据所述多个音频片段的时长和声纹特征，对所述多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段，包括：

根据所述多个音频片段的时长，对所述多个音频片段进行分层，以得到对应不同时长范围的多层音频片段；

根据所述多个音频片段对应的声纹特征，按照时长范围由长到短的顺序对所述多层音频片段进行分层次聚类，以得到至少一个聚类结果，每个聚类结果中包括对应同一发言人的音频片段。
根据权利要求2所述的方法，其特征在于，根据所述多个音频片段的时长，对所述多个音频片段进行分层，以得到对应不同时长范围的多层音频片段，包括：

根据所述多个音频片段的时长和预先设定的各层的时长阈值，对所述多个音频片段进行分层，以得到对应不同时长范围的多层音频片段；

其中，层数越小，对应的时长阈值越大，且每层中音频片段的时长大于或等于该层的时长阈值。
根据权利要求3所述的方法，其特征在于，根据所述多个音频片段对应的声纹特征，按照时长范围由长到短的顺序对所述多层音频片段进行分层次聚类，以得到至少一个聚类结果，包括：

对于第一层中的音频片段，根据第一层中音频片段对应的声纹特征，对第一层中的音频片段进行聚类，得到至少一个聚类结果；

对于非第一层中的音频片段，按照层数由小到大的顺序，依次根据非第一层中音频片段对应的声纹特征，将非第一层中的音频片段向已有的聚类结果进行聚类；以及

若非第一层中存在未被聚类到已有聚类结果中的剩余音频片段，则根据所述剩余音频片段对应的声纹特征对所述剩余音频片段进行聚类，以产生新的聚类结果，直至所有层上的每个音频片段均被聚类到一个聚类结果中为止。
根据权利要求3所述的方法，其特征在于，识别在多人发言场景中采集到的音频信号中的发言人变更点，包括：

对所述音频信号进行声源定位，以得到声源位置的变更点；

根据所述声源位置的变更点，确定所述音频信号中的发言人变更点；其中，由所述发言人变更点切分出的每个音频片段对应有唯一的声源位置。
根据权利要求5所述的方法，其特征在于，根据所述多个音频片段对应的声纹特征，按照时长范围由长到短的顺序对所述多层音频片段进行分层次聚类，以得到至少一个聚类结果，包括：

根据所述多个音频片段对应的声纹特征和声源位置，按照时长范围由长到短的顺序对所述多层音频片段进行层次聚类，以得到至少一个聚类结果，每个聚类结果中包括对应同一发言人的音频片段。
根据权利要求6所述的方法，其特征在于，根据所述多个音频片段对应的声纹特征和声源位置，按照时长范围由长到短的顺序对所述多层音频片段进行层次聚类，以得到至少一个聚类结果，包括：

对于第一层的音频片段，根据第一层中音频片段对应的声纹特征和声源位置，对第一层中的音频片段进行聚类，得到至少一个聚类结果；

对于非第一层中的音频片段，按照层数由小到大的顺序，依次根据非第一层中音频片段对应的声纹特征和声源位置，将非第一层中的音频片段向已有的聚类结果进行聚类；以及

若非第一层中存在未被聚类到已有聚类结果中的剩余音频片段，则根据所述剩余音频片段对应的声纹特征和声源位置对所述剩余音频片段进行聚类，以产生新的聚类结果，直至所有层上的每个音频片段均被聚类到一个聚类结果中为止。
根据权利要求7所述的方法，其特征在于，对于第一层的音频片段，根据第一层中音频片段对应的声纹特征和声源位置，对第一层中的音频片段进行聚类，得到至少一个聚类结果，包括：

在第一层至少包含两个音频片段的情况下，根据第一层中至少两个音频片段对应的声纹特征和声源位置，计算所述第一层中至少两个音频片段之间的整体相似度；

根据所述第一层中至少两个音频片段之间的整体相似度，将所述第一层中至少两个音频片段划分至少一个聚类结果中；以及

根据所述至少一个聚类结果中包含的音频片段对应的声纹特征和声源位置，分别计算所述至少一个聚类结果的聚类中心，所述聚类中心包括中心声纹特征和中心声源位置。
根据权利要求8所述的方法，其特征在于，对于非第一层中的音频片段，按照层数由小到大的顺序，依次根据非第一层中音频片段对应的声纹特征和声源位置，将非第一层中的音频片段向已有的聚类结果进行聚类，包括：

对任意一个非第一层中的每个音频片段，根据该音频片段对应的声纹特征和声源位置和已有聚类结果的聚类中心，计算该音频片段与已有聚类结果的整体相似度；

若已有聚类结果中存在与该音频片段的整体相似度满足设定相似度条件的目标聚类结果，将该音频片段加入所述目标聚类结果中，并根据该音频片段对应的声纹特征和声源位置更新所述目标聚类结果的聚类中心。
根据权利要求9所述的方法，其特征在于，根据该音频片段对应的声纹特征和声源位置更新所述目标聚类结果的聚类中心，包括：

确定所述目标聚类结果中包含的各音频片段所属的层数，其中，不同层数对应不同的权重，且层数越小，对应的权重越大；

根据所述各音频片段所属的层数对应的权重，对所述各音频片段对应的声纹特征和声源位置分别进行加权求和，得到新的中心声纹特征和新的中心声源位置作为所述目标聚类结果更新后的聚类中心。
根据权利要求6所述的方法，其特征在于，根据所述多个音频片段对应的声纹特征和声源位置，按照时长范围由长到短的顺序对所述多层音频片段进行层次聚类，以得到至少一个聚类结果，包括：

根据每层中音频片段对应的声纹特征，对每层中的音频片段进行聚类，得到每层的聚类结果；

按照层数由小到大的顺序，根据每层聚类结果的声纹特征，依次对相邻两层的聚类结果进行聚类，以得到至少一个聚类结果。
根据权利要求1-11任一项所述的方法，其特征在于，还包括：

将添加用户标记的音频信号输出至转写设备，以供所述转写设备将所述添加用户标记的音频信号转换为带有用户标记的文本信息；

或者

将添加用户标记的音频信号输出至回放设备，以供所述回放设备播放所述带有用户标记的音频信号；

或者

将添加用户标记的音频信号输出至上层应用，以供所述上层应用获取所述用户标记对应的用户信息并与带有用户标记的音频片段进行关联。
根据权利要求12所述的方法，其特征在于，还包括：

接收第一查询请求，所述第一查询请求包括待查询的用户标记，从带有用户标记的文本信息中获取与待查询的用户标记对应的文本信息，并返回给发起第一查询请求的查询端；

或者

接收第二查询请求，所述第二查询请求包括待查询的音频片段，从添加用户标记的音频信号中提取与待查询的音频片段对应的用户标记，并将所述用户标记和/或所述用户标记对应的用户信息返回给发起第二查询请求的查询端。
一种音频信号处理方法，其特征在于，包括：

对在多人发言场景中采集到的音频信号进行声源定位，以得到声源位置的变更点；

根据所述声源位置的变更点将所述音频信号切分为多个音频片段，并提取所述多个音频片段的声纹特征；

根据所述多个音频片段的声纹特征和声源位置，对所述多个音频片段进行聚类，得到对应同一发言人的音频片段；

为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。
根据权利要求14所述的方法，其特征在于，根据所述多个音频片段的声纹特征和声源位置，对所述多个音频片段进行聚类，得到对应同一发言人的音频片段，包括：

根据所述多个音频片段的时长，对所述多个音频片段进行分层，以得到对应不同时长范围的多层音频片段；

根据所述多个音频片段对应的声纹特征和声源位置，按照时长范围由长到短的顺序对所述多层音频片段进行层次聚类，以得到至少一个聚类结果，每个聚类结果中包括对应同一发言人的音频片段。
一种会议记录方法，其特征在于，包括：

采集多人会议场景中的音频信号，识别所述音频信号中的发言人变更点；

根据所述发言人变更点将所述音频信号切分为多个音频片段，并提取所述多个音频片段的声纹特征；

根据所述多个音频片段的时长和声纹特征，对所述多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；

为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号；

根据所述添加用户标记的音频信号生成会议记录信息，所述会议记录信息包括会议标识。
一种会议记录呈现方法，其特征在于，包括：

接收会议查阅请求，所述会议查阅请求包含待呈现的会议标识；

根据所述会议标识，获取待呈现的会议记录信息；

呈现所述会议记录信息，所述会议记录信息是根据多人会议场景中添加用户标记的音频信号生成的；

其中，根据所述音频信号中的发言人变更点所切分出的多个音频片段中，对应同一发言人的音频片段添加有相同的用户标记，对应同一发言人的音频片段是根据所述多个音频片段的时长和声纹特征对所述多个音频片段进行分层次聚类得到的。
一种音频处理系统，其特征在于，包括：拾音设备和服务端设备；

所述拾音设备部署在多人发言场景中，用于采集多人发言场景中的音频信号，识别所述音频信号中的发言人变更点，根据所述发言人变更点将所述音频信号切分为多个音频片段，并提取所述多个音频片段对应的声纹特征；

所述服务端设备，用于根据所述多个音频片段的时长和声纹特征，对所述多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。
根据权利要求18所述的系统，其特征在于，

所述拾音设备具体用于：对所述音频信号进行声源定位，以得到声源位置的变更点；根据所述声源位置的变更点，确定所述音频信号中的发言人变更点；其中，由所述发言人变更点切分出的每个音频片段对应有唯一的声源位置；

所述服务端设备具体用于：根据所述多个音频片段的时长、声纹特征和声源位置，对所述多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段。
一种音频处理系统，其特征在于，包括：拾音设备和服务端设备；

所述拾音设备部署在多人发言场景中，用于采集多人发言场景中的音频信号，识别所述音频信号中的发言人变更点，根据所述发言人变更点将所述音频信号切分为多个音频片段；

所述服务端设备，用于提取所述多个音频片段对应的声纹特征，根据所述多个音频片段的时长和声纹特征，对所述多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。
一种拾音设备，其特征在于，包括：处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器与所述存储器耦合，用于执行所述计算机程序，以用于：识别在多人发言场景中采集到的音频信号中的发言人变更点；根据所述发言人变更点将所述音频信号切分为多个音频片段，并提取所述多个音频片段的声纹特征；根据所述多个音频片段的时长和声纹特征，对所述多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。
一种拾音设备，其特征在于，包括：处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器与所述存储器耦合，用于执行所述计算机程序，以用于：对在多人发言场景中采集到的音频信号进行声源定位，以得到声源位置的变更点；根据所述声源位置的变更点将所述音频信号切分为多个音频片段，并提取所述多个音频片段的声纹特征；根据所述多个音频片段的声纹特征和声源位置，对所述多个音频片段进行聚类，得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。
一种服务端设备，其特征在于，包括：处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器与所述存储器耦合，用于执行所述计算机程序，以用于：接收拾音设备发送的多个音频片段及其对应的声纹特征；根据所述多个音频片段的时长和声纹特征，对所述多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。
一种服务端设备，其特征在于，包括：处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器与所述存储器耦合，用于执行所述计算机程序，以用于：接收拾音设备发送的多个音频片段；提取所述多个音频片段对应的声纹特征，根据所述多个音频片段的时长和声纹特征，对所述多个音频片段进行分层次聚类，以得到对应同一发言人的音频片段；为对应同一发言人的音频片段添加相同的用户标记，以得到添加用户标记的音频信号。
一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1-17任一项所述方法中的步骤。
一种计算机程序产品，包括计算机程序/指令，其特征在于，当所述计算机程序/指令被处理器执行时，致使所述处理器实现权利要求1-17任一项所述方法中的步骤。