WO2023088448A1

WO2023088448A1 - 语音处理方法、设备及存储介质

Info

Publication number: WO2023088448A1
Application number: PCT/CN2022/133015
Authority: WO
Inventors: 王宪亮; 索宏彬
Original assignee: 阿里巴巴达摩院(杭州)科技有限公司
Priority date: 2021-11-18
Filing date: 2022-11-18
Publication date: 2023-05-25
Also published as: CN113808612A; CN113808612B

Abstract

一种语音处理方法、设备及存储介质，其中方法包括：根据待处理语音中的角色变更点信息，对待处理语音进行分割，得到多个语音片段(401)；其中，角色变更点信息用于表示待处理语音中发言角色发生变更的位置；多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；对多个第一片段进行聚类，并将至少一个第二片段分配到聚类后得到的类别中，得到待处理语音的角色分离结果(402)。有效提高角色分离的准确性和稳定性。

Description

语音处理方法、设备及存储介质

本申请要求于2021年11月18日提交中国专利局、申请号为202111365392.8、申请名称为“语音处理方法、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频处理技术领域，尤其涉及一种语音处理方法、设备及存储介质。

背景技术

角色分离技术能够判断语音中的每一部分是哪个角色说的，在会议系统等领域有着广泛的应用需求。

现有的角色分离技术，通常先对语音进行分段，得到多个预设时长的语音片段，然后计算片段两两间的相似度，基于相似度得分由高到低逐步合并片段，当相似度得分低于事先设定的阈值时停止合并，从而得到角色分离结果。

现有技术的不足之处在于，通过对预设时长的语音片段进行聚类，得到的结果碎片化严重，且角色分离的准确性较差，影响用户体验。

发明内容

本申请实施例的主要目的在于提供一种语音处理方法、设备及存储介质，以减少角色分离结果的碎片化，提升角色分离效果。

第一方面，本申请实施例提供一种语音处理方法，包括：

获取会议系统采集的多个参会角色对应的单通道语音；

根据所述单通道语音中的角色变更点信息，对所述单通道语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述单通道语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；

对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述单通道语音的角色分离结果；

根据所述角色分离结果与所述单通道语音对应的文本信息，输出各个参会角色对应的发言文本。

第二方面，本申请实施例提供一种语音处理方法，包括：

根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述待处理语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；

对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果。

第三方面，本申请实施例提供一种语音处理方法，包括：

对待处理语音进行分割，得到多个语音片段；其中，所述多个语音片段包括多个第一片段以及可信度小于所述第一片段的至少一个第二片段；

对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果；

其中，所述语音片段的可信度用于表征基于所述语音片段进行聚类得到的聚类结果的可信度。

第四方面，本申请实施例提供一种语音处理装置，包括：

获取模块，用于获取会议系统采集的多个参会角色对应的单通道语音；

第一分割模块，用于根据所述单通道语音中的角色变更点信息，对所述单通道语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述单通道语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；

第一处理模块，用于对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述单通道语音的角色分离结果；

输出模块，用于根据所述角色分离结果与所述单通道语音对应的文本信息，输出各个参会角色对应的发言文本。

第五方面，本申请实施例提供一种语音处理装置，包括：

第二分割模块，用于根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述待处理语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；

第二处理模块，用于对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果。

第六方面，本申请实施例提供一种语音处理装置，包括：

第三分割模块，用于对待处理语音进行分割，得到多个语音片段；其中，所述多个语音片段包括多个第一片段以及可信度小于所述第一片段的至少一个第二片段；

第三处理模块，用于对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果；

第七方面，本申请实施例提供一种语音处理设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述语音处理设备执行第一方面或第二方面或第三方面所述的方法。

第八方面，本申请实施例提供一种语音处理设备，包括：处理装置以及与所述处理装置通信连接的下述至少一项：语音输入装置、显示装置；

其中，所述语音输出装置用于采集待分析语音并发送给所述处理装置；

所述显示装置用于显示所述处理装置确定的角色分离结果和/或通过所述角色分离结果确定的语音转文信息；

所述处理装置，用于执行第一方面或第二方面或第三方面所述的方法。

第九方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现第一方面或第二方面或第三方面所述的方法。

第十方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面或第二方面或第三方面所述的方法。

本申请提供的语音处理方法、设备及存储介质，可以根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段，其中，所述角色变更点信息用于表示所述待处理语音中发言角色发生变更的位置，所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度，对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果，从而可以实现基于第一片段的聚类结果指导第二片段的分类，大大减少了碎片化的问题，明显提升用户体验效果，且不依赖于使用阈值决定聚类终止条件，在不同环境下具有更好的鲁棒性，有效提高了角色分离的准确性和稳定性。

附图说明

图1为本申请实施例的一种应用场景示意图；

图2为本申请实施例提供的一种语音处理方法的流程示意图；

图3为本申请实施例提供的一种角色分离结果的应用示意图；

图4为本申请实施例提供的另一种语音处理方法的流程示意图；

图5为本申请实施例提供的一种角色分离的原理示意图；

图6为本申请实施例提供的一种确定语音窗的原理示意图；

图7为本申请实施例提供的一种聚类方法的流程示意图；

图8为本申请实施例提供的另一种语音处理方法的流程示意图；

图9为本申请实施例提供的又一种语音处理方法的流程示意图；

图10为本申请实施例提供的一种语音处理装置的结构示意图；

图11为本申请实施例提供的另一种语音处理装置的结构示意图；

图12为本申请实施例提供的又一种语音处理装置的结构示意图；

图13为本申请实施例提供的一种语音处理设备的结构示意图；

图14为本申请实施例提供的另一种语音处理设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请实施例可以用于实现语音的角色分离技术，尤其可以用于实现单通道语音的角色分离。图1为本申请实施例的一种应用场景示意图。如图1所示，在会议中，多个用户A、B、C可以使用同一语音输入装置例如麦克风，语音输入装置将获取到的单通道的待处理语音传输给处理装置，由处理装置对待处理语音进行角色分离，区分出语音中各部分对应的角色。

在一些技术中，可以先对语音按预设时长例如1秒进行分段，得到多个1秒的片段后，提取每个片段的特征，并计算片段两两间的相似度，采用聚类算法，基于相似度得分由高到低逐步合并片段，当相似度得分低于的阈值时停止合并。

该方法在实际会议系统应用中存在一些问题：

在短时的语音片段上进行两两合并，得到的聚类结果碎片化严重，影响用户体验效果；并且，采用阈值作为合并终止条件，由于不同噪声环境下的得分差别较大，不同环境下聚类效果差别很大，经常会得到远超实际角色数目的结果，因此，角色分离结果的准确性和稳定性较差。

有鉴于此，本申请实施例提供一种可应用于会议系统的语音处理方法，可以对单通道语音按角色变更点进行分段，先对其中的长片段进行聚类，再将短片段分配到对应的类别中心，从而可以实现基于长片段的聚类结果指导短片段的分类，大大减少了碎片化的问题，明显提升用户体验效果，且不依赖于使用阈值决定聚类终止条件，在不同环境下具有更好的鲁棒性，有效提高了角色分离的准确性和稳定性。

下面结合附图，对本申请的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图2为本申请实施例提供的一种语音处理方法的流程示意图。本实施例中的方法可以应用于图1所示场景，所述方法的执行主体可以为任意具有数据处理功能的设备，例如图1中的处理装置。可选的，语音输入装置和处理装置可以是分离的，也可以是集成在一起的，例如，可以通过一体机会议系统，或者，通过手机、计算机、平板设备等终端来实现本申请实施例提供的方法，或者，终端可以向服务器发送待处理的语音，服务器通过本申请实施例提供的方法得到角色分离结果后，将结果反馈给终端。

如图2所示，所述方法可以包括：

步骤201、获取会议系统采集的多个参会角色对应的单通道语音。

可选的，所述会议系统可以通过硬件、软件或者软硬件结合的方式来实现。例如，会议系统可以包括图1中语音输入装置和处理装置，会议系统中的语音输入装置采集多个参会角色对应的语音，该语音为单通道语音；或者，会议系统可以包括安装在设备中的应用程序，能够对采集到的单通道语音进行处理。

步骤202、根据所述单通道语音中的角色变更点信息，对所述单通道语音进行分割，得到多个语音片段。

其中，所述角色变更点信息用于表示所述单通道语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度。

步骤203、对多个第一片段进行聚类，并将至少一个第二片段分配到聚类后得到的类别中，得到所述单通道语音的角色分离结果。

可选的，对采集到的语音进行分割、聚类和分配的具体实现方式可以参见本申请其他实施例，此处不做过多描述。

步骤204、根据所述角色分离结果与所述单通道语音对应的文本信息，输出各个参会角色对应的发言文本。

可选的，可以对所述单通道语音进行文字识别，得到对应的文本信息，再结合角色分离结果，可以确定每个参会角色对应的发言文本。

其中，不同的参会角色可以有不同的标识方式。例如，多个参会角色可以分别标记为角色ID1、角色ID2、……；或者，多个参会角色可以分别标记为角色A、B、C、……等。

图3为本申请实施例提供的一种角色分离结果的应用示意图。如图3所示，在会议结束后，可以将会议中采集的待处理语音进行文本识别，得到对应的文本信息。但是，该文本信息中没有区分各个参会角色。可以按照本申请一个或多个实施例提供的方法，对采集到的单通道语音进行角色分离，角色分离结果可以用于表示每个语音片段对应的角色ID，从而结合会议的文本信息，确定各文字部分所属的角色，并把每句话标注好说话的角色，从而有效实现了会议记录和分类，提高用户体验度。

本实施例提供的语音处理方法，可以获取会议系统采集的多个参会角色对应的单通道语音，根据所述单通道语音中的角色变更点信息，对所述单通道语音进行分割，得到多个语音片段，其中，所述角色变更点信息用于表示所述单通道语音中发言角色发生变更的位置，所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度，对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述单通道语音的角色分离结果，根据所述角色分离结果与所述单通道语音对应的文本信息，输出各个参会角色对应的发言文本，能够快速准确地对会议系统中的单通道语音实现角色分离，并且在不同噪声环境下均有较强的表现，满足不同环境下的会议需求，提高用户体验度。

除了图1所示场景外，本申请一个或多个实施例中提供的语音处理方法还可以应用于任意需要角色分离的场景。下面举例说明。

在一种可选的实现方式中，本申请的一个或多个实施例可以应用于教育场景，包括线下场景和/或线上场景，涉及到的角色有多种身份，例如教师、学生、助教等，每种身份可以有至少一个角色。例如，教师有一个，学生有多个。通过教育辅助系统，对课堂、课外采集到的语音进行采集并处理，可以实现对不同角色的分离。

可选的，在教育场景下，一种语音处理方法，可以包括：获取教育辅助系统采集的多个角色输出的待处理语音，所述多个角色输出的待处理语音为单通道语音；根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述待处理语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果；根据所述待处理语音的角色分离结果，提取至少部分角色对应的发言信息；所述发言信息为语音和/或文本形式。

示例性地，课堂讨论环节由多个学生发言，可以采集对应的语音并使用本申请实施例提供的方法进行角色分离，得到每一学生发言的片段，并从中选取部分或全部学生的发言信息显示给教师，方便教师进行评价或指导。

在另一种可选的实现方式中，本申请的一个或多个实施例可以应用于庭审场景。通过庭审辅助系统，可以对庭审现场采集到的语音进行处理，进而实现对不同角色的分离。

可选的，在庭审场景下，一种语音处理方法，可以包括：获取庭审现场采集的多个角色输出的待处理语音，所述待处理语音为单通道语音；根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述待处理语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果；根据所述待处理语音的角色分离结果与所述待处理语音对应的文本信息，生成庭审记录。

示例性地，在庭审过程中，可以对庭审现场的语音进行采集，并通过本申请提供的方法针对语音实现角色分离，再结合语音对应的文本，可以生成对应的庭审记录，提高庭审记录的生成效率和准确率，为庭审提供更高效、更可靠的文本记录。

在又一种可选的实现方式中，本申请的一个或多个实施例可以应用于录音整理。具体的，可以对一份或多分录音进行整理，所述录音的采集对象可以是人或者机器输出的语音，录音的采集时间不作限制。

可选的，在录音整理场景下，一种语音处理方法，可以包括：获取至少一份待处理语音；根据所述待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述待处理语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果；基于所述角色分离结果对所述至少一份待处理语音进行整理。

可选的，语音整理可以包括但不限于：将多份语音按照角色进行分类、或者排序；标注每一份语音对应的角色数量；提取出角色重合度高的多份语音；将至少一份语音中出现的角色按照时长进行排序；提取至少一份语音中的部分或全部角色对应的语音片段、或语音片段对应的文本；等等。基于角色分离技术，可以快速准确地实现对语音或语音片段的整理，有效提高了语音整理的效果，满足不同用户的使用需求。

下面对本申请实现角色分离的语音处理过程和原理作详细说明。下述的语音处理过程可以应用于上述任一场景或者其它实际场景。

图4为本申请实施例提供的另一种语音处理方法的流程示意图。如图4所示，所述方法可以包括：

步骤401、根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段。

可选的，本实施例中的方法可以应用于任一场景。例如，在会议场景下，所述待处理语音可以是会议系统采集的单通道语音；在教育场景下，所述待处理语音可以教育辅助系统采集的单通道语音；在庭审场景下，所述待处理语音可以是庭审现场采集的单通道语音；在录音整理场景下，所述待处理语音可以是待整理的至少一份语音。当应用于其他场景时，具体的实现手段类似，不再赘述。

其中，所述角色变更点信息用于表示所述待处理语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度。

示例性地，所述待处理语音有30秒，角色变更点信息用于表示这30秒中，在第几秒时发言角色发生了变化，所述角色变更点信息可以包括：第5秒、15秒、20秒的发言角色发生变更，则可以将所述待处理语音至少分为四个语音片段：第0至5秒的语音片段、第5至15秒的语音片段，第15至第20秒的语音片段、第20至30秒的语音片段，每一语音片段可以对应一个角色，但是，尚且无法区分各个语音片段对应的角色ID。

在本实施例中，可以将多个语音片段划分为长片段和短片段，分别记为第一片段和第二片段。在所述多个语音片段中，任意一个第一片段的长度均可以大于任意一个第二片段的长度。

可选的，长短的划分可以根据实际需要来设置，例如，超过5秒的片段可以认为是第一片段，小于等于5秒的片段可以认为是第二片段。

需要说明的是，不同语音片段之间可以是完全分离的，或者，不同语音片段之间可以允许有少量重叠，从而使每一语音片段可以包含更多的信息，提高角色分离效果。

步骤402、对多个第一片段进行聚类，并将至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果。

可选的，可以先对多个第一片段进行聚类，得到的聚类结果可以包括多个类别以及每个类别的类别中心，其中，多个类别的数量用于表示待处理语音对应的角色数目，每一类别对应的类别中心可以用于表示该类别的第一片段对应的质心。

在得到聚类结果后，可以将第二片段分配到聚类结果中。可选的，可以判断每个第二片段与多个类别中的哪一个类别最接近，并将第二片段分配到最接近的类别中。

图5为本申请实施例提供的一种角色分离的原理示意图。如图5所示，待处理语音可以基于角色变更点信息被划分为10个片段，分别记为片段1至片段10，其中，片段1-3、5、8-10的时长较长，属于第一片段，片段4、6、7时长较短，属于第二片段。

将对多个第一片段进行聚类，得到3个类别，其中，片段1、10属于类别1，片段3、5、9属于类别2，片段2、8属于类别3。再将多个第二片段分配到这三个类别中，其中，片段4、6属于类别1，片段7属于类别2。类别1至类别3可以分别对应角色A、B、C。根据聚类结果和分配结果，可以得到待处理语音中每一部分对应的角色。从而为待处理语音做好标记，便于后续进行语音转文等操作，增强会议效果。

综上，本申请实施例提供的语音处理方法，可以根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段，其中，所述角色变更点信息用于表示所述待处理语音中发言角色发生变更的位置，所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度，对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，从而可以实现基于第一片段的聚类结果指导第二片段的分类，大大减少了碎片化的问题，明显提升用户体验效果，且不依赖于使用阈值决定聚类终止条件，在不同环境下具有更好的鲁棒性，有效提高了角色分离的准确性和稳定性。

在本申请的一个或者多个实施例中，可选的，根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段，可以包括：通过语音活动端点检测确定所述待处理语音中的至少一个有效语音片段；对所述有效语音片段进行角色变更点检测，并根据得到的角色变更点信息，将所述至少一个有效语音片段分割为所述多个语音片段；其中，每一语音片段为单个角色对应的语音。

其中，语音活动端点检测(Voice Activity Detection，VAD)，又称为语音活动检测，能够判断说话人从什么时候开始说话，从什么时候停止说话，这样，可以剔除待处理语音中的无效语音片段，得到至少一个有效语音片段。

角色变更点检测(Chang point detection，CPD)能够检测出语音中发言角色发生变化的位置。对所述至少一个有效语音片段中的每一语音片段进行角色变更点检测，可以将所述至少一个有效语音片段进一步分割为多个语音片段，每一语音片段可以认为是单个角色的发言片段。

通过语音活动端点检测和角色变更点检测，可以将待处理语音快速地分割为多个语音片段，剔除了待处理语音中的无效语音，并将有效语音片段按照角色变更的位置进一步划分，提高了后续聚类操作的准确性和效率。

在其他可选的实现方式中，也可以先进行角色变更点检测，将待处理语音分割为至少一个语音片段，再通过语音活动端点检测进一步分割，得到所述多个语音片段；或者，语音活动端点检测可以不是必须的，直接通过角色变更点检测将待处理语音分割为所述多个语音片段。

在本申请的一个或者多个实施例中，可选的，对所述有效语音片段进行角色变更点检测，可以包括：基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗，并提取所述语音窗的特征；根据相邻语音窗的特征的相似度，确定角色变更点信息。

图6为本申请实施例提供的一种确定语音窗的原理示意图。如图6所示，对于任一有效语音片段，可以按照预设窗长和滑动时长将该有效语音片段划分为多个语音窗，例如，预设窗长为1.5秒，滑动时长为0.75秒，则一个时长为4.5秒的有效语音片段，可以划分为5个语音窗：0-1.5秒、0.75-2.25秒、1.5-3秒、2.25-3.75秒、3-4.5秒，分别记为语音窗1-5，相邻两个语音窗有0.75秒的重叠部分。

在得到语音窗后，可以提取每一语音窗对应的特征，可选的，可以通过xvector (基于神经网络模型的嵌入式向量表示方法)等方法提取语音窗的embedding(嵌入)特征。相邻两个语音窗的特征计算相似度，根据相似度可以进行角色变更点的检测。

可选的，若某两个相邻的语音窗之间的相似度小于一定的相似度阈值，则说明可能存在角色变更。

举例来说，若语音窗1与语音窗2之间的相似度、语音窗2与语音窗3之间的相似度均大于相似度阈值，语音窗4与语音窗5之间的相似度也大于相似度阈值，只有语音窗3与语音窗4之间的相似度小于相似度阈值，则可以认为在语音窗3、4之间出现了角色变更，将所述有效语音片段进一步划分为两个语音片段，两个语音片段分别包括语音窗1-3、语音窗4-5。

可选的，也可以仅基于预设窗长对有效语音片段进行划分，相邻语音窗之间不存在重叠部分；或者，也可以仅基于预设的滑动时长对有效语音片段进行划分，每个语音窗的窗长可以是不固定的。预设窗长和滑动时长的具体数值可以根据实际需要进行调整，本申请实施例对此不作限制。

可选的，还可以进一步对相邻有效语音片段之间的相邻语音窗进行检测，若相邻的两个有效语音片段中，前一有效语音片段中的最后一个语音窗与后一有效语音片段中的第一个语音窗的相似度大于相似度阈值，则可以认为这两个语音窗属于同一角色，进而可以将这两个语音窗合并，实现对多个有效语音片段之间的角色变更的检测。

通过基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗，并提取所述语音窗的特征，可以根据相邻语音窗的特征的相似度，确定角色变更点信息，从而能够基于有效语音片段的特征的不断变化情况检测角色变更点，提高检测准确性。

在本申请的一个或者多个实施例中，可选的，可以通过并行的方式提取有效语音片段的特征。

其中，基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗，并提取所述语音窗的特征，可以包括：采用多线程对各有效语音片段进行并行化处理，对每一有效语音片段，基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗，并提取所述语音窗的特征。

具体地，可以采用多个线程，每一线程处理一个或多个有效语音片段。每一线程将所需处理的有效语音片段划分为多个语音窗并提取各语音窗的特征。可选的，还可以采用多个线程对多个语音窗进行并行处理，以进一步提升提取特征的效率。

根据得到的角色变更点信息，将所述至少一个有效语音片段分割为所述多个语音片段，可以包括：将并行化处理后得到的特征按时间顺序进行拼接，并结合角色变更点信息，将所述至少一个有效语音片段分割为所述多个语音片段。

可选的，并行处理时可以携带时间信息，所述时间信息可以为每一有效语音片段在整个待处理语音中的位置或者序号，并行处理完成后，可以将得到的特征按照时间顺序进行拼接，并结合角色变更点信息得到多个用于进行聚类或分配的语音片段，从而有效提升处理速度。

在其他可选的实现方式中，也可以对多个有效语音片段依次进行顺序处理，这样无需携带时间信息，所有有效语音片段处理完成后，直接得到按时间顺序排列的多个语音窗的特征。

在本申请的一个或者多个实施例中，可选的，还可以在聚类前对语音片段进行后处理操作。

可选的，若分割得到的多个语音片段中，存在包含的语音窗数量小于预设阈值的语音片段，则可以将该语音片段与相邻的语音片段进行合并，并根据合并操作后得到的多个语音片段，区分第一片段和第二片段。

示例性地，所述预设阈值可以为2，在通过VAD和CPD分割得到多个语音片段后，若任一语音片段仅包含单个语音窗，则将该语音片段与前一语音片段或者后一语音片段进行合并，合并完成后，将得到的多个语音片段划分第一片段和第二片段进行聚类和分配，能够减少碎片化的语音片段，进一步提高聚类的准确性。

在本申请的一个或者多个实施例中，可选的，对于所述多个语音片段中的每一语音片段，可以根据阈值确定其属于第一片段还是第二片段。

可选的，若所述语音片段包含的语音窗的数量大于数量阈值，则所述语音片段为第一片段；若所述语音片段包含的语音窗的数量小于数量阈值，则所述语音片段为第二片段。

示例性地，所述数量阈值可以为5，若某一语音片段包含5个以上的语音窗，则该语音片段为第一片段，反之，则为第二片段。通过数量阈值可以快速准确地对语音片段进行划分。

在其他可选的实现方式中，也可以根据语音分割的结果，动态调整阈值。例如，若多个语音片段对应的语音窗数量的中位数为k，则可以将数量阈值调整为0.5k，从而可以根据不同待处理语音的实际情况动态调整划分长短片段的阈值，满足不同环境下的应用需求，提高适用性。

或者，对于得到的多个语音片段，可以按照比例划分第一片段和第二片段，例如，长度在前70％的被划分为第一片段，在后30％的被划分为第二片段，避免第一片段过多或过少，影响后续的聚类和分配效果。

在本申请的一个或者多个实施例中，可选的，对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，可以包括：对于每一第一片段，将所述第一片段对应的至少一个语音窗的特征求均值，得到所述第一片段对应的特征，并根据多个第一片段对应的特征，对多个第一片段进行聚类；对于每一第二片段，将所述第二片段对应的至少一个语音窗的特征求均值，得到所述第二片段对应的特征，并根据至少一个第二片段对应的特征，将所述至少一个第二片段分配到聚类后得到的类别中。

示例性地，每个1.5秒的语音窗得到的embedding特征可以为512维的向量，每个第一片段包含至少一个语音窗，对所述至少一个语音窗的特征求均值，得到512维向量，可以表征所述第一片段整体对应的特征。类似地，可以以第二片段包含的至少一个语音窗的特征的均值表征第二片段整体对应的特征。通过语音窗提取特征并进一步计算第一片段和第二片段的特征，能够使最终得到的特征更加准确地反映第一片段和第二片段的语音特点，再根据第一片段和第二片段的特征进行聚类和分配，能够有效提升聚类和分配的准确性。

在其他可选的实现方式中，也可以不使用语音窗，直接对语音片段提取特征，可以省略求均值的步骤。或者，也可以进行不依赖于embedding特征的角色变更点检测，检测完成后再提取每个语音片段对应的特征用于进行聚类或分配。

可选的，本申请的一个或者多个实施例可以应用于实现无监督的角色分离，其中，无监督角色分离可以是指，在实际角色信息未知的情况下，得到语音中的角色数目和每个角色发言的时间信息。

可选的，在进行聚类时，可以遍历各可选的类别数，依次确定各类别数下的聚类结果，并从中选择最终聚类结果，实现整体无监督的角色分离。

图7为本申请实施例提供的一种聚类方法的流程示意图。如图7所示，对所述多个第一片段进行聚类，可以包括：

步骤701、遍历2至预设类别数，在遍历到的类别数下通过有监督聚类算法对所述多个第一片段进行聚类，得到所述类别数对应的聚类结果。

其中，所述预设类别数可以根据实际需要来设置，本申请实施例中将预设类别数记为M，M为大于2的正整数。遍历2至M，对于遍历到的每一个数值，以该数值作为类别数，进行有监督聚类，得到该类别数下的聚类结果，所述聚类结果用于表示该类别数下聚类得到的类别以及每个类别对应的类别中心。

可选的，可以使用kmeans(k均值)聚类算法实现所述多个第一片段的聚类。

示例性地，可以先选取2作为kmeans算法的类别数，然后初始化两个类别对应的类别中心并进行聚类，得到的聚类结果表示所述多个第一片段中每个第一片段属于这两个类别中的哪一个，以及聚类后确定的类别中心；类似地，再选择3作为类别数，得到对应的聚类结果；以此类推，直到得到2至M中各个类别数对应的聚类结果。

步骤702、根据不同类别数对应的聚类结果，确定所述待处理语音对应的角色数目和聚类结果。

可选的，根据不同类别数对应的聚类结果，确定所述待处理语音对应的角色数目和聚类结果，可以通过如下方式实现。

将当前类别数设置为所述预设类别数，并重复执行下述步骤，直至得到最终聚类结果：计算当前类别数下聚类结果的类间距离和类内距离；若类间距离和类内距离满足要求，则所述待处理语音对应的角色数目为所述当前类别数，且最终聚类结果为当前类别数下的聚类结果；若类间距离和类内距离不满足要求，则当前类别数减一。

可选的，所述要求可以根据实际需求来设置，例如，类间距离大于类内距离，或者，类间距离与类内距离的比值位于预设范围内。

示例性地，先计算预设类别数M对应的聚类结果是否满足要求。具体地，可以计算聚类结果中M个类别对应的类内距离和类间距离，若类间距离大于类内距离，则确定满足要求，该聚类结果为最终聚类结果，且待处理语音对应的角色数目为M，每一角色对应一个类别。

若M对应的聚类结果中类间距离小于等于类内距离，则不满足要求，进而计算M-1对应的聚类结果是否满足要求，若满足则为最终聚类结果，反之则继续计算M-2，直至得到满足要求的结果。

通过依次计算各个聚类结果的类间距离和类内距离是否满足要求，可以使最终确定的聚类结果更加精准，提升聚类准确性。

本实施例中，通过遍历2至预设类别数，在遍历到的类别数下通过有监督聚类算法对所述多个第一片段进行聚类，得到所述类别数对应的聚类结果，并根据不同类别数对应的聚类结果，确定所述待处理语音对应的角色数目和聚类结果，无需事先得知角色数目，也能够快速准确地实现无监督的角色分离。

在其他可选的实现方式中，也可以从预设类别数M开始，直接计算聚类结果并判断是否满足要求，若满足则停止，若不满足则继续进行下一个类别数对应的聚类结果的计算和判断，无需先遍历计算2至M的聚类结果，有效提高聚类的效率。

在其他可选的实现方式中，也可以取消遍历，通过神经网络模型对待处理语音进行分析，得到待处理语音的角色数目，并基于角色数目进行聚类，实现整体无监督的角色分离。

此外，本申请的一个或者多个实施例也可以应用于实现有监督的角色分离。可选的，可以由用户输入角色数目，或者，根据会议信息确定角色数目，再基于角色数目进行聚类，实现整理有监督的角色分离。

在本申请的一个或者多个实施例中，可选的，将所述至少一个第二片段分配到聚类后得到的类别中，可以包括：根据所述第二片段与所述待处理语音的聚类结果中各类别中心的相似度，将所述第二片段分配到对应的类别中。

示例性地，第一片段对应的特征可以为512维的向量，在对多个第一片段进行聚类后，得到的类别中心用于表征该类别下的第一片段的质心，也可以用512维的向量来表示。

在分配每一第二片段时，可以将所述第二片段对应的特征，即一个512维的向量与每一类别中心计算相似度，并根据相似度确定第二片段所属的类别。

通过先根据多个第一片段的特征进行聚类，并根据得到的聚类结果，将较短的第二片段的特征分配到类别中心上，使得第二片段的特征与分配到的类别的特征更加匹配，提高了第二片段的分配准确性。

在本申请的一个或者多个实施例中，可选的，还可以在聚类后对语音片段进行后处理操作。

可选的，在确定各个语音片段对应的角色后，若存在时长小于预设时长的语音片段，且该语音片段前后相邻的两个语音片段对应同一角色，则将该语音片段对应的角色修改为前后两个语音片段对应的角色，并将该语音片段与前后相邻的两个语音片段合并。

示例性地，所述预设时长可以为0.5秒，在聚类和分配操作后，若任一语音片段小于0.5秒，对应于角色A，而其前一语音片段和后一语音片段均对应于角色B，则可以将该语音片段对应的角色由A修正为B，实现角色分离的平滑处理，提升用户体验。

可选的，若存在时长小于预设时长的语音片段，且该语音片段的前一语音片段和后一语音片段对应不同的角色，则可以根据特征相似度，将该语音片段与前一语音片段或后一语音片段进行合并。

图8为本申请实施例提供的另一种语音处理方法的流程示意图。如图8所示，可以采用并行化特征提取加先聚类再分配的方法实现角色分离，具体可以包括如下步骤。

步骤a、对待处理语音做VAD，去除语音中无效语音，得到有效语音片段。

如图8所示，有效语音片段可以包括VAD片段1、VAD片段2、……、VAD片段n。

步骤b、对每个有效语音片段提取嵌入特征。

可选的，为了提高处理速度，可以采用并行化的处理方式。在每个有效语音片段上按照1.5秒的窗长、0.75秒的滑动时长，采用xvector提取每个语音窗的embedding特征。

步骤c、对每个VAD片段进行CPD检测，得到VAD片段中的角色变更点信息。

可选的，对于每个VAD片段，可以利用相邻语音窗的embedding特征实现CPD检测。CPD检测完成后，可以进行后处理操作，将VAD加CPD分割得到的语音片段进行修正。修正后可以得到语音片段对应的特征。

通过上述方法，可以得到VAD片段1、VAD片段2、……、VAD片段n中每一语音片段对应的特征。

步骤d、对并行化的特征按时间顺序进行拼接，结合角色变更点信息得到多个语音片段，所述多个语音片段按语音窗数量进行分类。

可选的，本步骤可以包括特征拼接、合并再分段。

其中，拼接可以是指将并行处理得到的多个特征按照时间顺序拼接起来，合并再分段可以是指合并后的特征，按照角色变更点进行再分段，得到多个语音片段。按照每个语音片段包含的语音窗数量，将语音片段分为长片段和短片段，分别对应于前述第一片段和第二片段。

步骤e、将长片段求均值，从2到最大角色数遍历进行有监督kmeans聚类。

可选的，可以将步骤d中得到的长片段包含的语音窗求均值，得到每个长片段对应的特征，并通过Kmeans聚类算法和Speakercount得到的聚类结果。其中，Speakercount可以是指说话人人数，也就是角色数目，可以从2到最大角色数(即预设类别数)遍历进行有监督kmeans聚类。

步骤f、使用聚类结果判断角色数目。

可选的，可以从最大角色数到2，计算不同类别数下的聚类结果的类间距离和类内距离，当类间距离大于类内距离时，得到的类别数及聚类结果即为最终结果。

步骤g、将短片段按相似度分配到步骤f得到的类别中心上。

可选的，可以将步骤d中得到的短片段，按包含的语音窗的特征求均值，得到每个短片段对应的特征，并根据特征与类别中心的相似度，将短片段分配到对应的类别中心上，得到分配(assignment)结果。

步骤h、对结果进行后处理，对与前后角色信息不一致的点进行结果更新。

可选的，经过前述步骤a至步骤g，可以得到各个语音片段对应的类别，每一类别对应一角色ID，为了提高正确率，可以进行后处理操作，对很短的语音片段(例如小于0.5秒)所对应的角色进行修正。

本方案在聚类时对片段按连续时长(例如5个语音窗为界限)进行分类，先对长片段进行聚类，再将短片段分到聚类中心上，同时通过后处理操作对前后结果不一致的点进行更新，大大减少碎片化的问题，提升了用户的体验效果；并且，本方案避免了使用阈值的方式决定聚类终止条件，效果更稳定，在不同环境下具有更好的鲁棒性。在同一测试集上，传统方法角色分离正确率大约为65％，本方案可达到92％的分离准确率。

在上述各实施例提供的技术方案的基础上，可选的，embedding特征提取方法还可以采用不同的神经网络结果，例如TDNN(Time Delay Neural Network,时间延迟网络)、Resnet等，聚类方法可采用kmeans或其他聚类方法，例如AHC(Agglomerative hierarchical clustering，层次聚类算法)、各种社区聚类方法等。

图9为本申请实施例提供的又一种语音处理方法的流程示意图。如图9所示，所述方法包括：

步骤901、对待处理语音进行分割，得到多个语音片段；其中，所述多个语音片段包括多个第一片段以及可信度小于所述第一片段的至少一个第二片段。

可选的，可以通过所述语音片段的长度、所述语音片段在所述待处理语音中的位置、深度学习模型中的至少一项确定所述语音片段的可信度。在所述多个语音片段中，可信度大于预设值的，被划分为第一片段，可信度小于预设值的，被划分为第二片段。

在一种可选的实现方式中，可以通过语音片段的长度确定可信度。长度越长，可信度越高，长度越短，可信度越低。

相应的，可以将所述多个语音片段按长度划分为多个第一片段以及至少一个第二片段，任一第一片段的长度大于任一第二片段的长度。所述长度可以通过语音片段的时长或者包含的语音窗的数量表示。

进一步地，可以根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段，再区分第一片段和第二片段。具体的处理方法可以参见前述各实施例，此处不再赘述。

在另一种可选的实现方式中，可以通过语音片段在待处理语音中的位置，确定所述语音片段的可信度。例如，在会议开始、结束时可能比较嘈杂，因此，开始和结束位置的语音片段的可信度可以小于其他位置的语音片段的可信度。

可选的，也可以由用户输入可信度较低的语音片段的位置。例如，用户可以根据实际会议情况，输入会议的各个阶段在待处理语音中的位置，讨论阶段的可信度要小于个人发言阶段的可信度，从而能够从多个语音片段中筛选出较为合适的片段进行聚类，再将其他片段分配到聚类结果中，具有较快的处理速度，并且可以满足不同会议场景下的需求。

在又一种可选的实现方式中，可以通过深度学习模型来计算各个语音片段的可信度。可选的，可以通过训练样本对深度学习模型进行训练，训练样本可以包括语音样本与对应的标签，标签可以通过人工打标的方式获取。训练完成后，可以将待处理语音输入到深度学习模型中，确定对应的可信度。通过深度学习模型可以更加快速准确地确定语音片段的可信度。

此外，还可以通过所述语音片段的时长、所述语音片段在所述待处理语音中的位置、深度学习模型中的至少两项结合起来确定可信度。

一个示例中，可以将语音片段的时长和位置进行结合分析，若时长和位置均满足一定的要求，才被划分为第一片段，反之则被划分为第二片段。

另一示例中，可以将语音片段的时长和深度学习模型进行结合分析，只有时长大于一定阈值的，才被送入深度学习模型进行可信度的预测，并根据预测结果判断是属于第一片段还是第二片段，时长较短的，直接被划分为第二片段。

又一示例中，可以将语音片段的时长、位置和深度学习模型进行结合分析，若时长和位置均满足一定的要求，才被送入深度学习模型进行可信度的预测，并根据预测结果判断是属于第一片段还是第二片段，若时长和位置不满足一定的要求，直接被划分为第二片段。

通过将语音片段的时长、位置和深度学习模型进行综合分析，能够更加准确地确定语音片段的可信度，提高后续聚类和分配的效果。

步骤902、对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果。

本步骤的具体实现原理和过程可以参见前述各实施例，此处不再赘述。

本实施例提供的语音处理方法，可以对待处理语音进行分割，得到多个语音片段，其中，所述语音片段的可信度用于表征基于所述语音片段进行聚类得到的聚类结果的可信度，所述多个语音片段包括多个第一片段以及可信度小于所述第一片段的至少一个第二片段，对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果，从而可以实现基于可信度较高的片段的聚类结果指导可信度较低的片段的分类，大大减少了碎片化的问题，明显提升用户体验效果，且不依赖于使用阈值决定聚类终止条件，在不同环境下具有更好的鲁棒性，有效提高了角色分离的准确性和稳定性。

图10为本申请实施例提供的一种语音处理装置的结构示意图。如图10所示，所述语音处理装置可以包括：

获取模块1001，用于获取会议系统采集的多个参会角色对应的单通道语音；

第一分割模块1002，用于根据所述单通道语音中的角色变更点信息，对所述单通道语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述单通道语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；

第一处理模块1003，用于对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述单通道语音的角色分离结果；

输出模块1004，用于根据所述角色分离结果与所述单通道语音对应的文本信息，输出各个参会角色对应的发言文本。

本实施例提供的语音处理装置，可以用于执行图1至图3所示实施例提供的技术方案，其实现原理和技术效果类似，此处不再赘述。

图11为本申请实施例提供的另一种语音处理装置的结构示意图。如图11所示，所述语音处理装置可以包括：

第二分割模块1101，用于根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述待处理语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；

第二处理模块1102，用于对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果。

在本申请的一个或多个实施例中，所述第二分割模块1101具体用于：通过语音活动端点检测确定所述待处理语音中的至少一个有效语音片段；对所述有效语音片段进行角色变更点检测，并根据得到的角色变更点信息，将所述至少一个有效语音片段分割为所述多个语音片段；其中，每一语音片段为单个角色对应的语音。

在本申请的一个或多个实施例中，所述第二分割模块1101在对所述有效语音片段进行角色变更点检测时，具体用于：基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗，并提取所述语音窗的特征；根据相邻语音窗的特征的相似度，确定角色变更点信息。

在本申请的一个或多个实施例中，所述第二分割模块1101在基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗，并提取所述语音窗的特征时，具体用于：采用多线程对各有效语音片段进行并行化处理，对每一有效语音片段，基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗，并提取所述语音窗的特征；在本申请的一个或多个实施例中，所述第二分割模块1101在根据得到的角色变更点信息，将所述至少一个有效语音片段分割为所述多个语音片段时，具体用于：将并行化处理后得到的特征按时间顺序进行拼接，并结合角色变更点信息，将所述至少一个有效语音片段分割为所述多个语音片段。

在本申请的一个或多个实施例中，若所述语音片段包含的语音窗的数量大于数量阈值，则所述语音片段为第一片段；若所述语音片段包含的语音窗的数量小于数量阈值，则所述语音片段为第二片段。

在本申请的一个或多个实施例中，所述第二处理模块1102具体用于：对于每一第一片段，将所述第一片段对应的至少一个语音窗的特征求均值，得到所述第一片段对应的特征，并根据多个第一片段对应的特征，对多个第一片段进行聚类；对于每一第二片段，将所述第二片段对应的至少一个语音窗的特征求均值，得到所述第二片段对应的特征，并根据至少一个第二片段对应的特征，将所述至少一个第二片段分配到聚类后得到的类别中。

在本申请的一个或多个实施例中，所述第二处理模块1102在对所述多个第一片段进行聚类时，具体用于：遍历2至预设类别数，在遍历到的类别数下通过有监督聚类算法对所述多个第一片段进行聚类，得到所述类别数对应的聚类结果；根据不同类别数对应的聚类结果，确定所述待处理语音对应的角色数目和聚类结果。

在本申请的一个或多个实施例中，所述第二处理模块1102在根据不同类别数对应的聚类结果，确定所述待处理语音对应的角色数目和聚类结果时，具体用于：将当前类别数设置为所述预设类别数，并重复执行下述步骤，直至得到最终聚类结果：计算当前类别数下聚类结果的类间距离和类内距离；若类间距离和类内距离满足要求，则所述待处理语音对应的角色数目为所述当前类别数，且最终聚类结果为当前类别数下的聚类结果；若类间距离和类内距离不满足要求，则当前类别数减一。

在本申请的一个或多个实施例中，所述第二处理模块1102在将所述至少一个第二片段分配到聚类后得到的类别中时，具体用于：根据所述第二片段与所述待处理语音的聚类结果中各类别中心的相似度，将所述第二片段分配到对应的类别中。

在本申请的一个或多个实施例中，所述第二处理模块1102还用于：若分割得到的多个语音片段中，存在包含的语音窗数量小于预设阈值的语音片段，则将该语音片段与相邻的语音片段进行合并，并根据合并操作后得到的语音片段，区分第一片段和第二片段；和/或，在确定各个语音片段对应的角色后，若存在时长小于预设时长的语音片段，且该语音片段前后相邻的两个语音片段对应同一角色，则将该语音片段与前后相邻的两个语音片段合并。

本实施例提供的语音处理装置，可以用于执行图4至图8所示实施例提供的技术方案，其实现原理和技术效果类似，此处不再赘述。

图12为本申请实施例提供的又一种语音处理装置的结构示意图。如图12所示，所述语音处理装置可以包括：

第三分割模块1201，用于对待处理语音进行分割，得到多个语音片段；其中，所述多个语音片段包括多个第一片段以及可信度小于所述第一片段的至少一个第二片段；

第三处理模块1202，用于对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果；

在本申请的一个或多个实施例中，第三分割模块1201还用于：通过所述语音片段的长度、所述语音片段在所述待处理语音中的位置、深度学习模型中的至少一项确定所述语音片段的可信度。

本实施例提供的语音处理装置，可以用于执行图9所示实施例提供的技术方案，其实现原理和技术效果类似，此处不再赘述。

图13为本申请实施例提供的一种语音处理设备的结构示意图。如图13所示，本实施例的语音处理设备可以包括：至少一个处理器1301；以及与所述至少一个处理器通信连接的存储器1302；其中，所述存储器1302存储有可被所述至少一个处理器1301执行的指令，所述指令被所述至少一个处理器1301执行，以使所述语音处理设备执行如上述任一实施例所述的方法。

可选地，存储器1302既可以是独立的，也可以跟处理器1301集成在一起。

本实施例提供的语音处理设备的实现原理和技术效果可以参见前述各实施例，此处不再赘述。

图14为本申请实施例提供的另一种语音处理设备的结构示意图。如图14所示，本实施例的语音处理设备可以包括：处理装置1402以及与所述处理装置通信连接的下述至少一项：语音输入装置1401、显示装置1403；

其中，所述语音输入装置1401用于采集待分析语音并发送给所述处理装置1402；所述显示装置1403用于显示所述处理装置1402确定的角色分离结果和/或通过所述角色分离结果确定的语音转文信息；所述处理装置1402，用于执行前述任一实施例所述的语音处理方法。

可选的，所述语音输入装置1401可以为麦克风等能够采集语音的装置，所述显示装置1403可以为显示屏等具有显示功能的装置。

可选的，处理装置1402、语音输入装置1401、显示装置1403可以是集成在一起的，也可以是分离设置的。语音输入装置1401、显示装置1403和处理装置1402可以通过有线或无线的方式实现通信连接。

显示装置1403可以显示所述处理装置1402确定的角色分离结果，例如显示第几秒至第几秒为哪个角色在发言，或者，可以显示通过所述角色分离结果确定的语音转文信息，所述语音转文信息可以为包含了角色分离结果的文本信息，所述文本信息为待处理语音对应的文本信息，例如所述语音转文结果可以为图3右侧显示的内容，当然，也可以将角色分离结果和语音转文信息同时或先后进行显示，方便用户查看会议记录，提高用户体验。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现前述任一实施例所述的方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一实施例所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种语音处理方法，其特征在于，包括：

获取会议系统采集的多个参会角色对应的单通道语音；

根据所述单通道语音中的角色变更点信息，对所述单通道语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述单通道语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；

对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述单通道语音的角色分离结果；

根据所述角色分离结果与所述单通道语音对应的文本信息，输出各个参会角色对应的发言文本。
一种语音处理方法，其特征在于，包括：

根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述待处理语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；

对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果。
根据权利要求2所述的方法，其特征在于，根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段，包括：

通过语音活动端点检测确定所述待处理语音中的至少一个有效语音片段；

对所述有效语音片段进行角色变更点检测，并根据得到的角色变更点信息，将所述至少一个有效语音片段分割为所述多个语音片段；

其中，每一语音片段为单个角色对应的语音。
根据权利要求3所述的方法，其特征在于，对所述有效语音片段进行角色变更点检测，包括：

基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗，并提取所述语音窗的特征；

根据相邻语音窗的特征的相似度，确定角色变更点信息。
根据权利要求4所述的方法，其特征在于，基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗，并提取所述语音窗的特征，包括：

采用多线程对各有效语音片段进行并行化处理，对每一有效语音片段，基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗，并提取所述语音窗的特征；

相应的，根据得到的角色变更点信息，将所述至少一个有效语音片段分割为所述多个语音片段，包括：

将并行化处理后得到的特征按时间顺序进行拼接，并结合角色变更点信息，将所述至少一个有效语音片段分割为所述多个语音片段。
根据权利要求4或5所述的方法，其特征在于，对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，包括：

对于每一第一片段，将所述第一片段对应的至少一个语音窗的特征求均值，得到所述第一片段对应的特征，并根据多个第一片段对应的特征，对多个第一片段进行聚类；

对于每一第二片段，将所述第二片段对应的至少一个语音窗的特征求均值，得到所述第二片段对应的特征，并根据至少一个第二片段对应的特征，将所述至少一个第二片段分配到聚类后得到的类别中。
根据权利要求2-6任一项所述的方法，其特征在于，对所述多个第一片段进行聚类，包括：

遍历2至预设类别数，在遍历到的类别数下通过有监督聚类算法对所述多个第一片段进行聚类，得到所述类别数对应的聚类结果；

根据不同类别数对应的聚类结果，确定所述待处理语音对应的角色数目和聚类结果。
根据权利要求7所述的方法，其特征在于，根据不同类别数对应的聚类结果，确定所述待处理语音对应的角色数目和聚类结果，包括：

将当前类别数设置为所述预设类别数，并重复执行下述步骤，直至得到最终聚类结果：

计算当前类别数下聚类结果的类间距离和类内距离；

若类间距离和类内距离满足要求，则所述待处理语音对应的角色数目为所述当前类别数，且最终聚类结果为当前类别数下的聚类结果；

若类间距离和类内距离不满足要求，则当前类别数减一。
一种语音处理方法，其特征在于，包括：

对待处理语音进行分割，得到多个语音片段；其中，所述多个语音片段包括多个第一片段以及可信度小于所述第一片段的至少一个第二片段；

对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果；

其中，所述语音片段的可信度用于表征基于所述语音片段进行聚类得到的聚类结果的可信度。
一种语音处理装置，其特征在于，包括：

获取模块，用于获取会议系统采集的多个参会角色对应的单通道语音；

第一分割模块，用于根据所述单通道语音中的角色变更点信息，对所述单通道语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述单通道语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；

第一处理模块，用于对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述单通道语音的角色分离结果；

输出模块，用于根据所述角色分离结果与所述单通道语音对应的文本信息，输出各个参会角色对应的发言文本。
一种语音处理装置，其特征在于，包括：

第二分割模块，用于根据待处理语音中的角色变更点信息，对所述待处理语音进行分割，得到多个语音片段；其中，所述角色变更点信息用于表示所述待处理语音中发言角色发生变更的位置；所述多个语音片段包括多个第一片段和至少一个第二片段，且任一第一片段的长度大于任一第二片段的长度；

第二处理模块，用于对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果。
一种语音处理装置，其特征在于，包括：

第三分割模块，用于对待处理语音进行分割，得到多个语音片段；其中，所述多个语音片段包括多个第一片段以及可信度小于所述第一片段的至少一个第二片段；

第三处理模块，用于对所述多个第一片段进行聚类，并将所述至少一个第二片段分配到聚类后得到的类别中，得到所述待处理语音的角色分离结果；

其中，所述语音片段的可信度用于表征基于所述语音片段进行聚类得到的聚类结果的可信度。
一种语音处理设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述语音处理设备执行权利要求1-9任一项所述的方法。
一种语音处理设备，其特征在于，包括：处理装置以及与所述处理装置通信连接的下述至少一项：语音输入装置、显示装置；

其中，所述语音输入装置用于采集待分析语音并发送给所述处理装置；

所述显示装置用于显示所述处理装置确定的角色分离结果和/或通过所述角色分离结果确定的语音转文信息；

所述处理装置，用于执行权利要求1-9任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-9任一项所述的方法。
一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-9任一项所述的方法。