WO2022012215A1

WO2022012215A1 - 一种识别说话对象的方法、装置、设备及可读存储介质

Info

Publication number: WO2022012215A1
Application number: PCT/CN2021/098659
Authority: WO
Inventors: 谭聪慧
Original assignee: 深圳前海微众银行股份有限公司
Priority date: 2020-07-17
Filing date: 2021-06-07
Publication date: 2022-01-20
Also published as: CN111883138A

Abstract

一种识别说话对象的方法、装置、设备及可读存储介质，该方法包括：确定目标音频文件中说话对象的相似度值（102）；根据确定的相似度值和预设动态规划模型，确定目标音频文件的任一帧文件对应的说话对象对应的决策值，其中，预设动态规划模型用于根据任一帧文件的前后帧文件对应的说话对象确定任一帧文件对应的说话对象的决策值（103）；将决策值中最大值对应的说话对象确定为任一帧文件的说话对象，以识别目标音频文件中所有帧文件对应的说话对象（104）。

Description

一种识别说话对象的方法、装置、设备及可读存储介质

相关申请的交叉引用

本申请要求在2020年07月17日提交中国专利局、申请号为202010693717.4、申请名称为“一种识别说话对象的方法、装置、设备及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及金融科技(Fintech)的声纹识别技术领域，尤其涉及一种识别说话对象的方法、装置、设备及可读存储介质。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，语音识别技术也不例外。但由于金融行业的安全性、实时性要求，也对声纹识别技术提出的更高的要求。

目前，在各种公司会议或者是研讨会等场景中，通常会出现多个人说话的场景，而为了更准确高效的记录会议中发言内容和对应的发言人，相关技术中通过在会议中进行录音获取音频文件，并对音频文件进行语音识别处理，从而确定会议中说话的对象以及该对象的说话内容。

然而，相关技术中仅是通过确定音频文件中语音信息与多个说话人的语音的相似度，并根据相似度直接确定语音信息对应的说话人，这样的方案，可能会存在由于说话人声音改变或相近，导致对音频文件中说话人识别的准确性较差。

可见，相关技术中存在说话人识别的准确性较差的技术问题。

发明内容

本发明的主要目的在于提供一种识别说话对象的方法、装置、设备及可读存储介质，旨在解决相关技术中说话人识别准确性较差的技术问题。

为实现上述目的，本发明提供一种识别说话对象的方法，所述识别说话对象的方法包括：

确定目标音频文件中说话对象的相似度值；

根据所述确定的相似度值和预设动态规划模型，确定所述目标音频文件的任一帧文件对应的说话对象对应的决策值；其中，所述预设动态规划模型用于根据所述任一帧文件的前后帧文件对应的说话对象确定所述任一帧文件对应的说话对象的决策值；

将决策值中最大值对应的说话对象确定为所述任一帧文件的说话对象，以识别所述目标音频文件中所有帧文件对应的说话对象。

在一种可能的实施方式中，所述根据所述确定的相似度值和预设动态规划模型，确定所述目标音频文件的任一帧文件对应的说话对象对应的决策值，包括：

根据预设状态转移条件对所述任一帧文件对应的M个说话对象的相似度进行处理，确定所述任一帧文件对应的M个说话对象的关联值；其中，所述预设状态转移条件用于根据所述任一帧文件的前一个帧文件的关联值递推所述任一帧文件的关联值，其中，M为大于1的正整数；

根据所述关联值和所述预设动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值。

在一种可能的实施方式中，所述根据所述关联值和所述预设动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值，包括：

确定所述任一帧文件是否为所述多个帧文件中最后一个帧文件，所述多个帧文件按照划分顺序排列；

若所述任一帧文件为所述最后一个帧文件，则从所述预设动态规划模型中确定第一预设动态规划子模型，并根据所述任一帧文件对应的所述M个说话对象的关联值和所述第一预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值；以及，

若确定所述任一帧文件不为所述最后一个帧文件，则从所述预设动态规划模型中确定第二预设动态规划子模型，并根据所述任一文件对应的所述M个说话对象的关联值和第二预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值。

在一种可能的实施方式中，所述根据所述任一帧文件对应的所述M个说话对象的关联值和所述第一预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值，包括：

将所述最后一个帧文件对应的所述M个说话对象的关联值，输入所述第一预设子动态规划模型，获得所述最后一个帧文件对应的M个说话对象对应的决策值；

其中，所述第一预设子动态规划模型用于将所述M个说话对象的关联值作为所述最后一个帧文件对应的M个说话对象对应的决策值输出。

在一种可能的实施方式中，所述根据所述任一帧文件对应的所述M个说话对象的关联值和第二预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值，包括：

将所述任一帧文件对应的任一说话对象的关联值、所述任一帧文件的后一个帧文件的说话对象的相似度以及所述后一个帧文件的说话对象与所述任一说话对象是否相同对应的指标值和预设权重值，输入所述第二预设子动态规划模型，获得所述任一帧文件对应的任一说话对象对应的决策值，以确定所述任一帧文件对应的M个说话对象对应的决策值；

其中，所述第二预设子动态规划模型用于对所述任一说话对象的关联值和所述后一个帧文件的说话对象的相似度进行相加处理，获得第一处理值；以根据所述指标值和所述预设权重值确定第二处理值，并根据所述第一处理值和所述第二处理值，确定决策值。

在一种可能的实施方式中，所述确定目标音频文件的说话对象的相似度值之前，所述方法还包括：

确定音频文件的属性信息，其中，所述属性信息用于表征所述音频文件是否录制完成；

若根据所述属性信息确定所述音频文件为录制完成文件，则基于所述预设帧长度对所述音频文件进行划分处理，以确定目标音频文件；以及，

若确定所述音频文件为正在录制文件，则对所述正在录制文件已录制完成的第一文件基于所述预设帧长度进行划分处理，以确定第一音频文件；将所述第一音频文件作为目标音频文件，以确定所述目标音频文件。

在一种可能的实施方式中，所述方法还包括：

若已识别所述第一音频文件中每个帧文件对应的说话对象，则对所述正在录制文件已录制完成的第二文件，基于所述预设帧长度进行划分处理，以确定第二音频文件；

将所述第二音频文件作为目标音频文件，以确定所述目标音频文件；

其中，所述第二文件用于表征所述正在录制文件已录制完成且未识别说话对象的音频文件。

此外，为实现上述目的，本发明还提供一种识别说话对象的装置，所述识别说话对象的装置包括：

第一确定单元，用于确定目标音频文件中说话对象的相似度值；

第二确定单元，用于根据所述确定的相似度值和预设动态规划模型，确定所述目标音频文件的任一帧文件对应的说话对象对应的决策值；其中，所述预设动态规划模型用于根据所述任一帧文件的前后帧文件对应的说话对象确定所述任一帧文件对应的说话对象的决策值；

识别单元，用于将决策值中最大值对应的说话对象确定为所述任一帧文件的说话对象，以识别所述目标音频文件中所有帧文件对应的说话对象。

此外，为实现上述目的，本发明还提供一种识别说话对象的设备，所述识别说话对象的设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的说话对象的识别程序，所述识别说话对象的程序被所述处理器执行时实现如识别说话对象的方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有识别说话对象的程序，所述识别说话对象的程序被处理器执行时实现如上所述的识别说话对象的步骤。

此外，为实现上述目的，本发明还提供一种包含指令的计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行时实现如上所述的识别说话对象的步骤。

在本发明实施例中，可以确定目标音频文件中说话对象的相似度值，然后根据确定的目标音频文件中的说话对象的相似度值和预设动态规划模型，确定任一帧文件对应的说话对象对应的决策值，并将决策值中最大值对应的说话对象确定为任一帧文件的说话对象。即本发明实施例中提供的方法，不仅仅确定任一帧文件对应说话对象的相似度值，还结合预设动态规划模型，即根据任一帧文件的前后帧文件的说话对象综合确定任一帧文件对应的说话对象对应的决策值，然后选择决策值中最大值对应的说话对象作为任一帧文件对应的说话对象，可以更为准确的实现对目标音频文件对应的说话对象的识别。

附图说明

图1是本发明实施例中识别说话对象的方法的流程示意图；

图2是本发明实施例中对已经录制完成的音频文件识别说话对象的方法的流程示意图；

图3是本发明实施例中对正在录制的音频文件识别说话对象的方法的流程示意图；

图4是本发明识别说话对象的装置较佳实施例的功能示意图模块图；

图5是本发明实施例方案涉及的硬件运行环境的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以用各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如前所述，相关技术中存在对音频文件中语音信息对应的说话人识别准确度较低的问题。鉴于此，本发明实施例提供一种识别说话对象的方法，通过该方法可以对音频文件中的帧文件的相似度值进行调整，以根据调整后的最大值对应的说话对象确定帧文件对应的说话对象，从而可以提高对音频文件对应的说话对象的识别的准确度。

介绍完本发明实施例的设计思想之后，下面对本发明实施例中的技术方案适用的应用场景做一些简单介绍，需要说明的是，本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

本发明实施例可以应用于任一涉及多人语音交互的场景，例如公司会议、小组会议、研讨会、线上会议、小组讨论等。在前述场景中，可以通过采集设备将采集到的语音信息及时反馈给识别说话对象的设备，从而可以通过识别说话对象的设备对语音信息对应的说话对象进行识别。具体的，该采集设备可以是任一可以采集语音的设备，例如录音机、录音笔等。

在具体的实施过程中，采集设备与识别说话对象的设备之间可以通过一个或者多个网络进行通信连接。该网络可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真(WIreless-Fidelity，WIFI)网络，当然还可以是其他可能的网络，本发明实施例对此不做限定。

在本发明实施例中，识别说话对象的设备可以是为服务器或者终端，终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)等移动终端，以及诸如数字TV、台式计算机等固定终端。服务器可以包括诸如个人计算机、大中型计算机、计算机集群，等等。

为进一步说明本发明实施例提供的识别说话对象的方法的方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本发明实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本发明实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的应用环境)。

请参见图1，图1为本发明实施例提供的识别说话对象的方法流程图，具体包括：

步骤101：确定目标音频文件。

在本发明实施例中，可以确定待识别说话对象的音频文件，然后确定待识别说话对象的目标音频文件，需要说明的是，本发明实施例中的目标音频文件用于表征记录M个说话对象语音交互的信息的文件，M为大于1的正整数；其中，目标音频文件包括按照预设帧长度进行划分处理获得的多个帧文件，预设帧长度根据目标音频文件对应的采集场景对应确定。

具体的，该目标音频文件可以是已经录制完成的音频文件，也可以是正在录制的音频文件。下面分别针对已经录制完成的音频文件和正在录制的音频文件确定目标音频文件的方式进行详细的说明。

在本发明实施例中，针对已经录制完成的音频文件，确定目标音频文件的方式具体如下：

步骤a1：确定音频文件的属性信息，其中，属性信息用于表征音频文件是否录制完成。

步骤a2：若根据属性信息确定音频文件为录制完成文件，则基于预设帧长度对音频文件进行划分处理，以确定目标音频文件。

在本发明实施例中，可以获取采集设备采集的音频文件，当根据音频文件的属性信息，确定音频文件为录制完成的音频文件时，可以直接获取该音频文件。

在具体的实施过程中，音频文件的属性信息可以用标识字段的方式对应增加到音频文件中，例如标识“1”表示音频文件为已经录制完成的音频文件，标识“0”标识音频文件为正在录制的音频文件，当在音频文件中解析出标识“1”，则确定该音频文件为已经录制完成的音频文件，并获取该音频文件。

在本发明实施例中，当获取音频文件之后，可以按照预设帧长度对音频文件进行划分处理，从而可以获得多个帧文件，从而可以将处理后的音频文件确定为目标音频文件，其中，预设帧长度根据音频文件对应的采集场景对应确定。

在本发明实施例中，根据音频文件对应的采集场景，可以对应匹配该场景中说话对象的平均说话语速，从而可以对应确定针对该音频文件的预设帧长度。

在本发明实施例中，若音频文件对应的采集场景为常规的会议，即多个说话对象正常语速交流的会议场景，则考虑到实际应用中该场景中说话对象的说话语速，可以将预设帧长度设置为1秒。例如，对音频文件按照1秒的帧长度进行划分的帧长度为1秒，音频文件对应的录音时长为3秒，则可以将音频文件划分为3个帧文件。

在本发明实施例中，若音频文件对应的采集场景为头脑风暴的多人语音交互场景，即多个说话对象快速语速交流的会议场景，则考虑到实际应用中该场景中说话对象的说话语速，可以将预设帧长度设置为0.5秒。例如，对音频文件按照1秒的帧长度进行划分的帧长度为0.5秒，音频文件对应的录音时长为3秒，则可以将音频文件划分为6个帧文件。

即本发明实施例中的目标音频文件是经过按照预设帧长度划分处理的文件，且由于预设帧长度是根据目标音频文件对应的采集场景对应确定的，即针对音频文件的划分粒度可以更贴合当前的音频文件的识别说话对象的基础需求，可以较大程度实现每个帧文件中仅包含一个说话对象的语音信息，从而为后续对目标音频文件对应的说话对象的识别提供更较好的处理基础。以及，通过采用较细的划分粒度对音频文件进行划分，从而使得获得的帧文件对应的语音信息较单一，即每一个帧文件对应一个说话对象。

在本发明实施例中，针对正在录制的音频文件，确定目标音频文件的方式具体如下：

步骤b1:确定音频文件的属性信息，其中，属性信息用于表征音频文件是否录制完成。

步骤b2:若确定音频文件为正在录制文件，则对正在录制文件已录制完成的第一文件基于预设帧长度进行划分处理，以确定第一音频文件；将第一音频文件作为目标音频文件，以确定目标音频文件。

步骤b3:若已识别第一音频文件中每个帧文件对应的说话对象，则对正在录制文件已录制完成的第二文件，基于预设帧长度进行划分处理，以确定第二音频文件；

步骤b4:将第二音频文件作为目标音频文件，以确定目标音频文件；其中，第二文件用于表征正在录制文件已录制完成且未识别说话对象的音频文件。

在本发明实施例中，可以确定音频文件的属性信息，当根据音频文件的属性信息确定音频文件为正在录制的音频文件时，可以对当前已经录制完成的文件进行识别说话对象的处理，而无需等到该音频文件整个录制完成再进行说话对象的识别，即本发明实施例提供的技术方案可以支持对正在录制的音频文件的说话对象的识别，扩大了对音频文件的识别范围。

在本发明实施例中，若确定当前获取的音频文件为正在录制文件，则可以对正在录制文件已经录制完成的第一文件，基于预设帧长度进行划分处理，从而可以确定第一音频文件，然后将第一音频文件作为目标音频文件，从而可以获取目标音频文件。

在本发明实施例中，若已识别第一音频文件中帧文件对应的说话对象，则可以对正在录制文件已录制完成的第二文件，基于预设帧长度进行划分处理，以确定第二音频文件，然后将第二音频文件作为目标音频文件，以获取目标音频文件。其中，从第二文件用于表征正在录制文件已录制完成且未识别说话对象的音频文件。也就是说，本发明实施例提供的技术方案，可以不用等待录音结束再执行对音频文件对应的说话对象的识别，可以是对已经录制完成的音频文件确定执行一次说话对象的识别处理。

在本发明实施例中，还可以是对已经录制完成的音频文件确定若干帧的方式执行一次说话对象的识别处理。例如，若预设帧数为10帧，则可以基于预设帧长度对音频文件划分帧数为10的帧文件，然后对1-10帧对应的帧文件进行说话对象的识别处理，对11-20帧进行说话对象的识别处理。这样的方式，可以解决现有技术中只能针对整个音频文件录制完成的文件进行处理的问题，即可以一边录制一边对已经录制完成的音频文件进行说话对象的识别处理，提升用户的使用体验。

在具体的实施过程中，可以对正在录制文件基于预设帧长度划分预设帧数，确定目标音频文件，直到前述的正在录制文件全部录制完成，即该文件对应的场景内的说话对象停止语音交互。

步骤102：确定目标音频文件中说话对象的相似度值。

在本发明实施例中，当对目标音频文件进行划分获得多个帧文件之后，可以利用X-vector识别每个帧文件对应的M个说话对象的M个相似度值，其中，相似度值用于表征帧文件对应的语音与说话对象语音的相似度。

例如，确定目标音频文件对应的采集场景中的说话对象为5个，分别为第1个说话对象，第2个说话对象、第3个说话对象、第4个说话对象以及第5个说话对象，然后可以利用X-vector识别第1个帧文件对应的第1个说话对象的相似度值为35％、第2个说话对象的相似度值30％、第3个说话对象的相似度值40％、第4个说话对象的相似度值60％以及第5个说话对象的相似度值82％，即可以确定该帧文件对应的5个说话对象分别对应的相似度值。

步骤103：根据确定的相似度值和预设动态规划模型，确定目标音频文件的任一帧文件对应的说话对象对应的决策值；其中，预设动态规划模型用于根据任一帧文件的前后帧文件对应的说话对象确定任一帧文件对应的说话对象的决策值。

在本发明实施例中，当确定每个帧文件对应的M个说话对象的M个相似度值后，可以根据任一帧文件对应的M个说话对象的相似度值和预设动态规划模型，确定任一帧文件对应的M个说话对象对应的决策值，并将决策值中的最大值对应的说话对象确定为任一帧文件的说话对象。

具体的，可以采用但不限于以下步骤确定目标音频文件的任一帧文件对应的说话对象对应的决策值：

步骤c1:根据预设状态转移条件对任一帧文件对应的M个说话对象的相似度进行处理，确定任一帧文件对应的M个说话对象的关联值；其中，预设状态转移条件用于根据任一帧文件的前一个帧文件的关联值递推任一帧文件的关联值，其中，M为大于1的正整数。

步骤c2:根据关联值和预设动态规划模型，确定任一帧文件对应的M个说话对象对应的决策值。

具体的，执行步骤c2时，可以采用但不限于以下步骤：

步骤c20：确定任一帧文件是否为多个帧文件中最后一个帧文件，多个帧文件按照划分顺序排列。

步骤c21:若任一帧文件为最后一个帧文件，则从预设动态规划模型中确定第一预设动态规划子模型，并根据任一帧文件对应的M个说话对象的关联值和第一预设子动态规划模型，确定任一帧文件对应的M个说话对象对应的决策值。

在本发明实施例中，将最后一个帧文件对应的M个说话对象的关联值，输入第一预设子动态规划模型，获得最后一个帧文件对应的M个说话对象对应的决策值；其中，第一预设子动态规划模型用于将M个说话对象的关联值作为最后一个帧文件对应的M个说话对象对应的决策值输出。

在本发明实施例中，若任一帧文件为最后一个帧文件，则可以结合在其之前的帧文件对应的说话对象和最后一个帧文件的相似度，确定最后一个帧文件的说话对象，这样的方式，可以考虑到帧文件由于采用较细的划分粒度确定的，因而其可能是一个说话对象的一段话的一部分，即与其之前的帧文件存在关联关系，因而结合在其之前的帧文件的说话对象，对最后一个帧文件对应的说话对象的识别有一定的参考，提高了对最后一个帧文件的对应的说话对象的识别的准确度。

步骤c22:确定任一帧文件不为最后一个帧文件，则从预设动态规划模型中确定第二预设动态规划子模型，并根据任一文件对应的M个说话对象的关联值和第二预设子动态规划模型，确定任一帧文件对应的M个说话对象对应的决策值。

在本发明实施例中，将任一帧文件对应的任一说话对象的关联值、任一帧文件的后一个帧文件的说话对象的相似度以及后一个帧文件的说话对象与任一说话对象是否相同对应的指标值和预设权重值，输入第二预设子动态规划模型，获得任一帧文件对应的任一说话对象对应的决策值，以确定任一帧文件对应的M个说话对象对应的决策值；其中，第二预设子动态规划模型用于对任一说话对象的关联值和后一个帧文件的说话对象的相似度进行相加处理，获得第一处理值；以根据指标值和预设权重值确定第二处理值，并根据第一处理值和第二处理值，确定决策值。

在本发明实施例中，若任一帧文件不为最后一个帧文件，则可以结合在其之前的帧文件和之后的帧文件对应的说话对象和任一帧文件的相似度，确定任一帧文件的说话对象，这样的方式，可以考虑到帧文件由于采用较细的划分粒度确定的，因而其可能是一个说话对象的一段话的一部分，即与其之前的帧文件存在关联关系，因而结合在其之前和之后的帧文件的说话对象，对任一帧文件对应的说话对象的判别有一定的辅助作用，提高了对任一帧文件的对应的说话对象的识别的准确度。

在本发明实施例中，若确定任一帧文件对应的说话对象的模型表示为：

其中，

1 _i≠j为指标函数，用于表征当所述任一帧文件t对应的任一说话对象i和所述任一帧文件t的前一帧文件对应的任一说话对象j不相同时值为1以及相同时值为0，

用于表征任一帧文件t对应的任一说话对象i的相似度值；p为预设参数，p的取值范围为大于0，f(0,j)＝0；

为指标函数，用于表征当所述任一帧文件t对应的任一说话对象i和所述任一帧文件t的后一帧文件t+1的说话对象不相同时值为1以及相同时值为0；

用于表征所述任一帧文件t的后一帧文件t+1的说话对象的相似度值；

对应的值用于表征所述任一帧文件t对应的任一说话对象i的决策值；当t＝T时，argmax _i用于表征f(T,i)取最大值时对应的i；当t<T，argmax _i用于表征取

中最大值时对应的说话对象i。

需要说明的是，在具体的实施过程中，argmax _y f(N，y)用于表征当函数f(N，y)取最大值对应y的函数，其中，y属于Y中的任一个表征值。

在本发明实施例中，若任一帧文件为多个帧文件中的最后一个帧文件，且当确定任一帧文件对应的说话对象的模型表示为前述表达式所对应的模型时，即当t＝T时，则可以确定第一预设子动态规划模型可以理解为

在具体的实施过程中，可以将最后一个帧文件记为第T帧，任一说话对象记为i，则最后一个帧文件对应的说话对象的决策值表示为f(T,i)，且根据预设状态转移条件确定，具体的，该预设状态转移条件表示为

对该方程进行初始化，即设置f(0,j)＝0，则可以从第1个帧文件开始计算每个帧文件对应的f(t,j)，具体地，后一个帧文件对应f(t+1,i)根据前一个帧文件的f(t,i)对应确定，即可以根据最后一个帧文件之前的帧文件对应的f(t,i)确定最后一个帧文件对应的决策值f(T,i)，然后从M个决策值中确定最大值对应的说话对象作为最后一个帧文件对应的说话对象。

在本发明实施例中，若任一帧文件不为多个帧文件中的最后一个帧文件，则从前述的确定任一帧文件对应的说话对象的模型中确定任一帧文件对应的第二预设子动态规划模型，并确定任一帧文件的说话对象。在本发明实施例中，当预设动态规划模型为前述表达式所对应的模型时，则可以确定第二预设子动态规划模型为

在具体的实施过程中，可以根据预设状态转移条件即

确定最后一个帧文件之前的任一个帧文件对应的f(t,i)即关联值，然后根据第二预设子动态规划模型计算每个帧文件中任一说话对象i对应的决策值。

步骤104：将决策值中最大值对应的说话对象确定为任一帧文件的说话对象，以识别目标音频文件中所有帧文件对应的说话对象。

在本发明实施例中，为了更好的对本发明实施例中提供确定目标音频文件中帧文件的说话对象的方案进行说明，下面以一个具体的例子进行说明。

假定划分处理后的目标音频文件共有5个帧文件，按照顺序分别为帧文件1、帧文件2、帧文件3、帧文件4以及帧文件5，且目标音频文件对应采集场景中一共有两个说话对象，分别为说话对象A和说话对象B。需要说明的是，为了便于理解，后文中将说话对象A写为：说话人A，以及将说话对象B写为：说话人B。然后可以利用X-vector识别5个帧文件中每个帧文件中说话人A和说话人B的对应的相似度值，具体如下表1所示：

表1

然后可以进行计算。具体的，可以假定预设参数p＝0.5，并根据

进行计算，确定初始化状态时，f(0,A)＝f(0,B)＝0，然后可以确定帧文件1对应的f(t,i)，即可以确定f(1,A)＝0.8，f(1,B)＝0.2。进一步地，可以确定帧文件2对应的f(t,i)为：

进一步地，可以确定帧文件3对应的f(t,i)为：

进一步地，可以确定帧文件4对应的f(t,i)为：

进一步地，可以确定帧文件5对应的f(t,i)为：

具体的，将上述各个帧文件对应的f(t,i)进行汇总，得到以下表2：

f(t,i)	帧文件1	帧文件2	帧文件3	帧文件4	帧文件5
说话人A	0.8	1.5	1.7	2.2	2.5
说话人B	0.2	0.7	1.6	2.0	2.9

表2

当确定针对最后一个帧文件即帧文件5的说话对象时，则可以按第一预设动态规划模型确定决策值，即计算π ₅＝argmax _i f(5,i)，即从“2.5”和“2.9”中选取f(5,i)中最大值对应的说话对象，可以确定帧文件5对应的说话对象为B。

进一步地，可以根据第二预设动态规划模型确定决策值，从而计算前4帧文件对应的说话对象。具体的，针对帧文件4，即当t＝4，则可以确定帧文件4对应的说话对象A对应的决策值为：

以及帧文件4对应的说话对象B对应的决策值为：

很显然，说话对象B对应的决策值最大，可以确定帧文件4对应的说话对象为B，即π ₄＝B。

具体地，针对帧文件3，即当t＝3时，则可以确定帧文件3对应的说话对象A对应的决策值为：

以及帧文件3对应的说话对象B对应的决策值为：

很显然，说话对象B对应的决策值最大，可以确定帧文件3对应的说话对象为B，即π ₃＝B。

具体地，针对帧文件2，即当t＝2时，则可以确定帧文件2对应的说话对象A对应的决策值为：

以及帧文件2对应的说话对象B对应的决策值为：

很显然，说话对象A对应的决策值最大，可以确定帧文件2对应的说话对象为A，即π ₂＝A。

具体地，针对帧文件1，即当t＝1时，则可以确定帧文件1对应的说话对象A对应的决策值为：

以及帧文件1对应的说话对象 B对应的决策值为：

很显然，说话对象A对应的决策值最大，可以确定帧文件1对应的说话对象为A，即π ₁＝A。

根据上述具体的例子，可以很明显的知晓，本发明实施例提供的确定目标音频文件中帧文件的说话对象的方案是通过从最后一个帧文件到第一个帧文件的顺序对应确定的，这样的方式，可以结合每一个帧文件对应的前后帧文件，对应确定每一个帧文件的说话对象，提高确定说话对象的准确度。

下面对已经录制完成的音频文件的说话对象的识别过程进行说明。

请参见图2，在本发明实施例中，识别说话对象的具体流程如下：

步骤201：获取音频文件，其中，音频文件用于表征记录M个说话对象语音交互的信息的文件，M为大于1的正整数。

步骤202：对音频文件按照预设帧长度进行划分处理，获得多个帧文件，以确定目标音频文件，其中，预设帧长度根据音频文件对应的采集场景对应确定。

步骤203：确定每个帧文件对应的M个说话对象的M个相似度值，其中，相似度值用于表征帧文件对应的语音与说话对象语音的相似度。

步骤204：根据任一帧文件对应的M个说话对象的相似度值和预设动态规划模型，确定任一帧文件对应的M个说话对象对应的决策值，并将决策值中的最大值对应的说话对象确定为任一帧文件的说话对象。

在本发明实施例中，步骤201和步骤202的具体实施方式可参见前面的步骤a1-a2的具体实施方式，步骤203和步骤204可以的具体实施方式可参见前面的步骤103和步骤104的具体实施方式，这里不再赘述。

在本发明实施例中，针对已经录制完成的目标音频文件，通过与音频文件对应的采集场景确定的较细的划分粒度对音频文件的划分，可以较大程度实现帧文件中仅包含一个说话对象的语音信息。进一步地，由于划分粒度较细，任一帧文件的语音信息与其前后帧的语音信息可能是同一个人的一段语音，因而可以结合帧文件的前后帧是否为同一说话对象和帧文件的相似度综合确定决策值，可以较为准确根据决策值确定帧文件对应的说话对象，提高对帧文件对应的说话对象的识别的准确度，即提高了对已经录制完成的目标音频文件的说话对象的识别的准确度。

下面对正在录制的音频文件的说话对象的识别过程进行说明。

请参见图3，在本发明实施例中，识别说话对象的具体流程如下：

步骤301：确定目标音频文件，其中，目标音频文件根据正在录制文件已录制完成的文件对应确定。

步骤302：确定每个帧文件对应的M个说话对象的M个相似度值，其中，相似度值用于表征帧文件对应的语音与说话对象语音的相似度，M为大于1的正整数。

步骤303：根据任一帧文件对应的M个说话对象的相似度值和预设动态规划模型，确定任一帧文件对应的M个说话对象对应的决策值，并将决策值中的最大值对应的说话对象确定为任一帧文件的说话对象。

步骤304：判断正在录制文件已录制完成的第二文件，基于预设帧长度是否足够划分，若是，则执行步骤301；若不是，则执行步骤304。

在本发明实施例中，步骤301的具体实施方式可以参见前面的步骤b1-b4的实施内容实施，步骤302和步骤303的实施内容实施，这里不再赘述。具体的，当对正在录制的音频文件中，第一次确定的待识别说话对象的目标音频文件识别完成后，可以执行步骤304，即再次确定新的目标音频文件，对新的目标音频文件进行说话对象的识别处理。

在本发明实施例中，当执行第一文件之后的任一文件(例如第二文件)的说话对象识别时，其第一帧对应的前一个帧文件为第一文件中的最后一个帧文件，这样的方式，可以避免第一文件截取的目标音频文件的最后一个帧文件和第二文件对应获取的目标音频文件中的第一个帧文件，对应一个说话对象的一个句子的不同帧导致误判的情况出现，可以较为准确的将正在录制文件整个文件对应的说话对象进行识别。

此外，本发明实施例还提供一种识别说话对象的装置，参照图4，所述识别说话对象的装置包括：

第一确定单元401，用于确定目标音频文件中说话对象的相似度值；

第二确定单元402，用于根据确定的相似度值和预设动态规划模型，确定目标音频文件的任一帧文件对应的说话对象对应的决策值；其中，预设动态规划模型用于根据任一帧文件的前后帧文件对应的说话对象确定任一帧文件对应的说话对象的决策值；

识别单元403，用于将决策值中最大值对应的说话对象确定为任一帧文件的说话对象，以识别目标音频文件中所有帧文件对应的说话对象。

在一种可能的实施方式中，所述第二确定单元402用于：

在一种可能的实施方式中，所述装置还包括处理单元，用于：

在一种可能的实施方式中，所述处理单元，还用于：

本发明实施例提供的识别说话对象的装置具体实施方式与上述识别说话对象的方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提供一种识别说话对象的设备。如图5所示，图5是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图5即可为识别说话对象的设备的硬件运行环境的结构示意图。本发明实施例识别说话对象的设备可以是前述的服务器或者是终端。

如图5所示，该识别说话对象的设备可以包括：处理器501，例如CPU，存储器505，用户接口503，网络接口504，通信总线502。其中，通信总线502用于实现这些组件之间的连接通信。用户接口503可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选的，用户接口503还可以包括标准的有线接口、无线接口。网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器505可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。可选的，存储器505还可以是独立于前述处理器501的存储装置。

本领域技术人员可以理解，图5中示出的识别说话对象的设备结构并不构成对识别说话对象的设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示，作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及识别说话对象的程序。其中，操作系统是管理和控制识别说话对象的设备硬件和软件资源的程序，支持识别说话对象的程序以及其它软件或程序的运行。

在图5所示的识别说话对象的设备中，用户接口503主要用于连接采集设备，与采集设备进行数据通信，可通过采集设备采集音频文件和/或获取音频文件；网络接口504主要用于后台服务器，与后台服务器进行数据通信；处理器501可以用于调用存储器505中存储的识别说话对象的程序，并执行如上所述的识别说话对象的方法的步骤。

本发明识别说话对象的设备具体实施方式与上述识别说话对象的方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有识别说话对象的程序，所述识别说话对象的程序被处理器执行时实现如上所述的识别说话对象的方法的步骤。

本发明计算机可读存储介质具体实施方式与上述识别说话对象的方法各实施例基本相同，在此不再赘述。

此外，本发明还提供一种包含指令的计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行时实现如上所述的识别说话对象的步骤。

本发明计算机程序产品具体实施方式与上述识别说话对象的方法各实施例基本相同，在此不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM，磁碟，光盘)中，包括若干指令用以使得一台终端设备或服务器(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

一种识别说话对象的方法，其特征在于，所述方法包括：

确定目标音频文件中说话对象的相似度值；

根据所述确定的相似度值和预设动态规划模型，确定所述目标音频文件的任一帧文件对应的说话对象对应的决策值；其中，所述预设动态规划模型用于根据所述任一帧文件的前后帧文件对应的说话对象确定所述任一帧文件对应的说话对象的决策值；

将决策值中最大值对应的说话对象确定为所述任一帧文件的说话对象，以识别所述目标音频文件中所有帧文件对应的说话对象。
如权利要求1所述的方法，其特征在于，所述根据所述确定的相似度值和预设动态规划模型，确定所述目标音频文件的任一帧文件对应的说话对象对应的决策值，包括：

根据预设状态转移条件对所述任一帧文件对应的M个说话对象的相似度进行处理，确定所述任一帧文件对应的M个说话对象的关联值；其中，所述预设状态转移条件用于根据所述任一帧文件的前一个帧文件的关联值递推所述任一帧文件的关联值，其中，M为大于1的正整数；

根据所述关联值和所述预设动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值。
如权利要求2所述的方法，其特征在于，所述根据所述关联值和所述预设动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值，包括：

确定所述任一帧文件是否为所述多个帧文件中最后一个帧文件，所述多个帧文件按照划分顺序排列；

若所述任一帧文件为所述最后一个帧文件，则从所述预设动态规划模型中确定第一预设动态规划子模型，并根据所述任一帧文件对应的所述M个说话对象的关联值和所述第一预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值；以及，

确定所述任一帧文件不为所述最后一个帧文件，则从所述预设动态规划模型中确定第二预设动态规划子模型，并根据所述任一文件对应的所述M个说话对象的关联值和第二预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值。
如权利要求3所述的方法，其特征在于，所述根据所述任一帧文件对应的所述M个说话对象的关联值和所述第一预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值，包括：

将所述最后一个帧文件对应的所述M个说话对象的关联值，输入所述第一预设子动态规划模型，获得所述最后一个帧文件对应的M个说话对象对应的决策值；

其中，所述第一预设子动态规划模型用于将所述M个说话对象的关联值作为所述最后一个帧文件对应的M个说话对象对应的决策值输出。
如权利要求3所述的方法，其特征在于，所述根据所述任一帧文件对应的所述M个说话对象的关联值和第二预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值，包括：

将所述任一帧文件对应的任一说话对象的关联值、所述任一帧文件的后一个帧文件的说话对象的相似度以及所述后一个帧文件的说话对象与所述任一说话对象是否相同对应的指标值和预设权重值，输入所述第二预设子动态规划模型，获得所述任一帧文件对应的任一说话对象对应的决策值，以确定所述任一帧文件对应的M个说话对象对应的决策值；

其中，所述第二预设子动态规划模型用于对所述任一说话对象的关联值和所述后一个帧文件的说话对象的相似度进行相加处理，获得第一处理值；以根据所述指标值和所述预设权重值确定第二处理值，并根据所述第一处理值和所述第二处理值，确定决策值。
如权利要求1所述的方法，其特征在于，所述确定目标音频文件的说话对象的相似度值之前，所述方法还包括：

确定音频文件的属性信息，其中，所述属性信息用于表征所述音频文件是否录制完成；

若根据所述属性信息确定所述音频文件为录制完成文件，则基于所述预设帧长度对所述音频文件进行划分处理，以确定目标音频文件；以及，

若确定所述音频文件为正在录制文件，则对所述正在录制文件已录制完成的第一文件基于所述预设帧长度进行划分处理，以确定第一音频文件；将所述第一音频文件作为目标音频文件，以确定所述目标音频文件。
如权利要求6所述的方法，其特征在于，所述方法还包括：

若已识别所述第一音频文件中每个帧文件对应的说话对象，则对所述正在录制文件已录制完成的第二文件，基于所述预设帧长度进行划分处理，以确定第二音频文件；

将所述第二音频文件作为目标音频文件，以确定所述目标音频文件；

其中，所述第二文件用于表征所述正在录制文件已录制完成且未识别说话对象的音频文件。
一种识别说话对象的装置，其特征在于，包括：

第一确定单元，用于确定目标音频文件中说话对象的相似度值；

第二确定单元，用于根据确定的相似度值和预设动态规划模型，确定所述目标音频文件的任一帧文件对应的说话对象对应的决策值；其中，所述预设动态规划模型用于根据所述任一帧文件的前后帧文件对应的说话对象确定所述任一帧文件对应的说话对象的决策值；

识别单元，用于将决策值中最大值对应的说话对象确定为所述任一帧文件的说话对象，以识别所述目标音频文件中所有帧文件对应的说话对象。
如权利要求8所述的装置，其特征在于，所述第二确定单元用于：

根据预设状态转移条件对所述任一帧文件对应的M个说话对象的相似度进行处理，确定所述任一帧文件对应的M个说话对象的关联值；其中，所述预设状态转移条件用于根据所述任一帧文件的前一个帧文件的关联值递推所述任一帧文件的关联值，其中，M为大于1的正整数；

根据所述关联值和所述预设动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值。
如权利要求9所述的装置，其特征在于，所述第二确定单元用于：

确定所述任一帧文件是否为所述多个帧文件中最后一个帧文件，所述多个帧文件按照划分顺序排列；

若所述任一帧文件为所述最后一个帧文件，则从所述预设动态规划模型中确定第一预设动态规划子模型，并根据所述任一帧文件对应的所述M个说话对象的关联值和所述第一预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值；以及，

确定所述任一帧文件不为所述最后一个帧文件，则从所述预设动态规划模型中确定第二预设动态规划子模型，并根据所述任一文件对应的所述M个说话对象的关联值和第二预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值。
如权利要求10所述的装置，其特征在于，所述第二确定单元用于：

将所述最后一个帧文件对应的所述M个说话对象的关联值，输入所述第一预设子动态规划模型，获得所述最后一个帧文件对应的M个说话对象对应的决策值；

其中，所述第一预设子动态规划模型用于将所述M个说话对象的关联值作为所述最后一个帧文件对应的M个说话对象对应的决策值输出。
如权利要求10所述的装置，其特征在于，所述第二确定单元用于：

将所述任一帧文件对应的任一说话对象的关联值、所述任一帧文件的后一个帧文件的说话对象的相似度以及所述后一个帧文件的说话对象与所述任一说话对象是否相同对应的指标值和预设权重值，输入所述第二预设子动态规划模型，获得所述任一帧文件对应的任一说话对象对应的决策值，以确定所述任一帧文件对应的M个说话对象对应的决策值；

其中，所述第二预设子动态规划模型用于对所述任一说话对象的关联值和所述后一个帧文件的说话对象的相似度进行相加处理，获得第一处理值；以根据所述指标值和所述预设权重值确定第二处理值，并根据所述第一处理值和所述第二处理值，确定决策值。
如权利要求8所述的装置，其特征在于，所述装置还包括处理单元，用于：

确定音频文件的属性信息，其中，所述属性信息用于表征所述音频文件是否录制完成；

若根据所述属性信息确定所述音频文件为录制完成文件，则基于所述预设帧长度对所述音频文件进行划分处理，以确定目标音频文件；以及，

若确定所述音频文件为正在录制文件，则对所述正在录制文件已录制完成的第一文件基于所述预设帧长度进行划分处理，以确定第一音频文件；将所述第一音频文件作为目标音频文件，以确定所述目标音频文件。
如权利要求13所述的装置，其特征在于，所述处理单元还用于：

若已识别所述第一音频文件中每个帧文件对应的说话对象，则对所述正在录制文件已录制完成的第二文件，基于所述预设帧长度进行划分处理，以确定第二音频文件；

将所述第二音频文件作为目标音频文件，以确定所述目标音频文件；

其中，所述第二文件用于表征所述正在录制文件已录制完成且未识别说话对象的音频文件。
一种识别说话对象的设备，其特征在于，所述识别说话对象的设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的识别说话对象的程序，所述识别说话对象的程序被所述处理器执行时实现如权利要求1至7中任一项所述的识别说话对象的方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的识别说话对象的方法的步骤。
一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1至7中任一项所述识别说话对象的方法的步骤。