WO2022160749A1

WO2022160749A1 - 一种用于语音处理装置的角色分离方法及其语音处理装置

Info

Publication number: WO2022160749A1
Application number: PCT/CN2021/120412
Authority: WO
Inventors: 陈文明; 张世明; 吕周谨; 朱浩华; 陈永金
Original assignee: 深圳壹秘科技有限公司
Priority date: 2021-01-29
Filing date: 2021-09-24
Publication date: 2022-08-04
Also published as: CN112908336A

Abstract

一种用于语音处理装置的角色分离方法及其语音处理装置。方法包括：对声音拾取装置获取的音频信息进行语音识别，获取第一文本信息(S110)；其中，第一文本信息包含文字信息和文字信息对应的第一时间信息；通过声音拾取装置获取音频信息的方位信息，方位信息包括角度信息和第二时间信息(S120)；其中，角度信息为声源相对于语音处理装置上预设的0度之间的转角，角度信息与角色信息相对应；根据第一时间信息与第二时间信息，将文字信息与角度信息对应的角色信息相关联(S130)。本方法及装置可以在不增加硬件成本、硬件部署，也不采用传统算法和深度学习方法的情况下，提升角色分离的准确度，实现语音信息处理中的角色分离功能。

Description

一种用于语音处理装置的角色分离方法及其语音处理装置

技术领域

本发明涉及音频技术领域，尤其涉及一种语音识别的技术领域。

背景技术

在语音识别技术领域中，角色分离技术早在几十年前就被提出，但实际应用的结果却令人不甚满意。所谓角色分离，就是从语音信息中区分出两个或两个人以上不同人的声音。

角色分离技术最初体现为语音分离技术，源于“鸡尾酒会效应”，即在复杂的混合声音中，人类能有效地选择并跟踪其中某一人的声音。这是人类自有的生理特性，但要通过科学技术来实现，并不容易。20世纪80年代的Herault和Jutten提出的盲源信号分离概念，指的是从多个观测到的混合信号中分析出没有观测的原始信号。盲信号的“盲”字强调了两点：1)不知道原始信号；2)不知道信号混合的方法。传统常用的盲源分离方法，主要是三种方法，即基于信息论或似然估计的盲分离算法、基于二阶统计量的盲分离算法、基于高阶统计量(HOS，Higher-Order Statistics)的盲分离算法，这三种方法都是基于统计信息的分类方法来实现的，存在误差，特别是在人声嘈杂的环境下，误差会更大。

由于盲源分离算法不准确，后来出现了基于硬件来确定声源的方案。比如在会场中，每个人对应一个麦克风，这样收集到的每个人的语音都是独立的，角色自然也就分离出来了。这种方法虽然比以往盲源分离技术更准确，但是需要预先部署硬件，前期准备工作多，操作复杂，投入成本高，使用不灵活。

近几年随着人工智能的发展，深度学习取代了一些传统算法，于是也出现了不少采用深度学习来实现角色分离的方案。该方案广泛使用MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)来提取声音特征，再经过神经网络训练出模型，为了进一步提升识别率，还可以预先录制一段语音，其准确率比传统算法高。但是，这需要庞大的数据来支撑，成本高，并且也存在一定的不准确性。

发明内容

本申请提供一种能准确性较高的角色分离的方法及其语音处理装置。

本申请提供以下技术方案：

一方面，提供一种用于语音处理装置的角色分离方法，其包括：对获取的音频信息进行语音识别，获取第一文本信息；其中，所述第一文本信息包含文字信息和所述文字信息对应的第一时间信息；获取所述音频信息的方位信息，所述方位信息包括角度信息和第二时间信息；其中，所述角度信息为声源相对于语音处理装置上预设的0度之间的转角，所述角度信息与角色信息相对应；根据所述第一时间信息与所述第二时间信息，将所述文字信息与所述角度信息对应的所述角色信息相关联。

另一方面，提供一种语音处理装置，其包括：语音识别单元，用于对获取的音频信息进行语音识别，获取第一文本信息；其中，所述第一文本信息包含文字信息和所述文字信息对应的第一时间信息；方位获取单元，用于获取所述音频信息的方位信息，所述方位信息包括角度信息和第二时间信息，所述角度信息为相对于语音处理装置上预设的0度之间的转角，所述角度信息与角色信息相对应；角色分离单元，用于根据所述第一时间信息与所述第二时间信息，将所述文字信息与所述角度信息对应的所述角色信息相关联。

本申请的有益效果在于，对获取的音频信息进行语音识别后，获取其文字信息以及文字信息对应的第一时间信息，同时还获取该音频信息对应的声源传入声音拾取装置的角度信息，以及该角度信息对应的第二时间信息。其中角度信息是与角色信息对应的。通过第一时间信息与所述第二时间信息，确定出文字信息对应的角色信息，从而实现角色分离。本方案中，由于是通过音源输入声音拾取装置的角度来确定角色信息的，因此，既不需要增加硬件部署，针对每个角色设置对应的声音拾取装置，也不需要采用算法或者深度学习的方法将音频信息中的角色进行分离，因此，既可以节省硬件成本，还不受场地限制，应用起来灵活方便。同时，由于是直接用角度信息来确定对应角色的，而角度信息也是比较精准的，因此，也可以不需要采用传统算法或则深度学习的方法进行角色分离，因此，还可以降低语音处理装置的运算复杂性以及提升角色分离的准确性。

附图说明

图1为本申请实施方式一提供的一种用于语音处理装置的角色分离方法的流程图。

图2为本申请实施方式一中对语音处理装置周围空间进行分区的示意图。

图3为本申请实施方式一中进行文字信息与角色信息匹配的方式一的示意图。

图4为本申请实施方式一中进行文字信息与角色信息匹配的方式二的示意图。

图5为本申请实施方式二提供的一种语音处理装置的方框示意图。

图6本申请实施方式三提供的一种语音处理装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施方式，对本申请进行进一步详细说明。应当理解，此处所描述的实施方式仅用以解释本申请，并不用于限定本申请。但是，本申请可以以多种不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本实用新型的公开内容的理解更加透彻全面。

除非另有定义，本文所实用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在限制本申请。

应理解，本文中术语“系统”或“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请实施例可以应用于各种带有语音录入功能的语音处理装置中。例如：录音笔、音频会议终端、或者有录音功能的智能电子设备等。

本申请实施方式优选的应用场景是人员位置相对固定场景，例如：一对一访谈、面对面的访谈或采访。以下将通过具体的实施方式对本申请的技术方案进行阐述。

实施方式一

请参看图1，为本申请实施方式一提供的一种用于语音处理装置的角色分离方法，其包括：

S110，对获取的音频信息进行语音识别，获取第一文本信息；其中，所述第一文本信息包含文字信息和所述文字信息对应的第一时间信息；可选的，是通过声音拾取装置获取该音频信息；可选的，该声音拾取装置可以是麦克风，或者麦克风阵列；可选的，所述第一时间信息为所述文字信息的开始时间与结束时间；可选的，所述第一文本信息可以转换成JSON格式；

S120，获取所述音频信息的方位信息，所述方位信息包括角度信息和第二时间信息；其中，所述角度信息为声源相对于语音处理装置上预设的0度之间的转角，所述角度信息与角色信息相对应；其中，所述转角可以是声源与上述0度之间的顺时针方向转动的角度，也可以是逆时针方向转动的角度；可选的，每间隔一预设的时间间隔，生成并记录一次所述方位信息；可选的，所述第二时间信息则为记录所述角度信息的时刻；

S130，根据所述第一时间信息与所述第二时间信息，将所述文字信息与所述角度信息对应的所述角色信息相关联。

可选的，所述第一时间的开始时间、所述第一时间的结束时间、所述第二时间均为相对于声音拾取装置开始拾取声音时刻的时间偏移量，即时间差值。通常，开始拾取声音的时刻，也是音频装置开始识别语音的时刻，故，所述第一时间的开始时间、所述第一时间的结束时间、所述第二时间也可以是相对于开始进行语音识别时刻的时间偏移量。

可选的，S110，所述对获取的音频信息进行语音识别，获取第一文本信息，包括：

对获取的音频信息进行语音识别，识别出所述文字信息中每个词语对应的所述第一时间信息。

以下对S110进行举例说明。假设，用户说了“这是一个完整的句子。”音频装置该段语音信息之后，识别出如下信息：

即，识别出的文字内容是“这是一个完整的句子”，这个句子的第一时间信息包括：这个句子的起始时间是500毫秒，即该起始时间相对于开始进行语音识别的时刻间隔500毫秒；这个句子的结束时间是2500毫秒，即该结束时间相对于开始进行语音识别的时刻间隔2500毫秒。

进一步优化，还可以将该句子中每个词语识别出来，同时也确定每个词语的起始时间和结束时间。每个词语的第一时间信息分别为：“这是”的起始时间是500毫秒，结束时间是800毫秒；“一个”的起始时间是800毫秒，结束时间是1200毫秒；“完整的”起始时间是1200毫秒，结束时间是1800毫秒，“句子”的起始时间是1800毫秒，结束时间是2500毫秒。

可选的，S120，获取所述音频信息的方位信息；若是通过声音拾取装置获取所述音频信息，则可以是根据所述声音拾取装置的波达方向(DOA，Direction of Arrival)技术生成所述角度信息，其中，所述声音拾取装置可以是麦克风或麦克风阵列；也可以是根据所述声音拾取装置的音源和位置信息生成所述方位信息，其中，所述声音拾取装置可以是指向型麦克风。

请参看图2，所述角度信息是声源方向相对于声音拾取装置上的0度方向之间的角度。可选的，0度是该语音处理装置上的一个固定方向，可以在该语音处理装置上进行标识。该标识对应的方向即为零度。

假设角色信息至少包括第一角色(图2中角色1)与第二角色(图2中角色2)，则对语音处理装置周围的空间划分出两个空间，一个空间对应角色1，另一个空间对应角色2。例如：若声源方向与0度之间的沿顺时针方向的夹角在第一预设范围以内，如0至90度之间或者270度至360度之间时，该声源会被为确认为角色1的声音；若声源方向与0度之间的沿顺时针方向的夹角在第二预设范围以内，如90度至270度之间时，该声源会被为确认为角色2的声音。

例如：有两个人A和B在进行访谈或会话，声源A与0度之间的沿顺时针方向的夹角为80度，则声源A会被确认认为角色1；声源B与0度之间的沿顺时针方向的夹角250度，则声源B会被确认为角色2。

使用时，角色1与角色2相对而坐，将语音处理装置的0度朝向角色1。在访谈或采访过程中，语音处理装置获取到语音信息，则可根据发出该语音信息的声源方向与语音处理装置的0度方向之间的角度，确定是角色1的语音信息还是角色2的语音信息。

以上两个角色仅为举例，可选的，该方案也可以设置三个或四个角色。

可选的，所述方位信息还包括会话类型信息，所述会话类型信息可以用于区分所述角度信息的用途。

可选的，所述会话类型信息可以包括以下中至少一种：1表示会话类型为本地双人对话，2表示会话类型为电话模式，3表示会话类型为演讲模式。

可选的，所述类型信息可以是通过硬件输入的方式获取的，即，在语音处理装置上预设对应类型的按钮，当对应类型的按钮被触发时，该语音处理装置即可获取对应的类型信息；或者，所述类型信息可以是通过语音信息获取的途径、语音信息中包含的角色数量等信息自行判断的，如，语音信息中两个角色的声音都是通过本地的语音拾取装置获取的，那么确定为本地双人会话；如果语音信息中只有一个角色的声音，且是通过本地的语音拾取装置获取的，那么确定为演讲模式；如果语音信息中有两个角色的声音，一个是通过本地的语音拾取装置获取的，一个是内部电路的通信模块获取的，则确认为通话模式。

例如：当会话类型为1，即本地双人会话时，则该方法会将获取的角度信息根据预设的范围划分角色，如角色1与角色2。其划分方式请参看图2以及上述关于图2的文字说明。

再如：当会话类型为2，即电话模式时，则直接将对方角色(假设为角色1)的角度值设置为一个预设值，该预设值可以是0至360度以外的任意一个数值，如361度，而本地接收到的音频信息的角度可能是0至360度之间的任意一个角度，则将角度信息在0至360度之间的声音信息确认为本地角色(假设为角色2)。由此，即可在通话模式下，通过角度信息将本地角色与对方角色区分开。

又如：当会话模式为3，即演讲模式时，因只有一个角色的语音输入，此时，则确定所有的角度信息均对应一个角色(假设为角色1)，所有的文字信息均与该角色1对应。优化的，在演讲模式下，角度信息还可用来调整麦克风阵列的拾音方向，即，指定该角度的声音加强，其他方向削弱。

以下举例说明，S120中获取的方位信息。假设，语音处理装置每隔40毫秒生成并记录该方位信息，则获取的信息可采用如下表1的格式进行存储或记录：

第二时间信息	会话类型信息	角度信息
0	1	80
40	1	250

表1

针对表1中的方位信息，语音处理装置可确定：在第二时间信息为0毫秒的时刻，生成并记录的方位信息中，会话类型为1，即为本地双人对话，此时的语音信息与角色1相对应；在第二时间信息为40毫秒的时刻，生成并记录的方位信息中，会话类型仍然为本地双人对话，此时的语音信息与角色2相对应。

可选的，S130，根据所述第一时间信息与所述第二时间信息，将所述文字信息与所述角度信息对应的所述角色信息相关联，其具体实现方式可以包含以下两种：

方式一：请参见图3，先确定角度信息对应的角色信息，在根据第一时间和第二时间，将所述文字信息与该角色信息关联上。具体的，其包括以下步骤：

S1311，确定所述角度信息对应的角色信息；

S1312，当所述第二时间与所述第一时间相匹配时，确认所述文字信息与所述角度信息对应的角色信息相匹配。本申请中所称的第二时间与第一时间相匹配相匹配，可以是第二时间与第一时间相同，或者第二时间在第一时间的时间范围以内；所称的文字信息与角色信息相匹配，可以是确认二者相关联的，即，确认该文字信息是与该角色信息相对应的。

具体的，根据第一时间信息和第二时间信息，获取在第一时间信息的时间段内生成并记录的方位信息，该方位信息已在步骤S1311中确认了其对应的角色信息，因此，可将第一时间信息对应的文字信息与角色信息相匹配。

方式二：请参见图4，先根据第一时间和第二时间的时间戳，将所述文字信息与角度信息进行关联；在根据角度信息确定对应的角色信息，从而将文字信息与所述角色信息关联上。具体的，其包括以下步骤：

S1321，当所述第二时间与所述第一时间相匹配时，确认所述文字信息与所述角度信息对应；

S1322，确定所述角度信息对应的角色信息；

S1323，确定所述文字信息与所述角度信息对应的角色信息相匹配。

具体的，根据第一时间信息和第二时间信息，获取在第一时间信息的时间段内生成并记录的方位信息，然后，确定该方位信息对应的角色信息，最后，即可将第一时间信息对应的文字信息与角色信息相匹配。

可选的，S1312和S1323中，确认所述文字信息与所述角度信息对应的角色信息相匹配，具体包括：

统计所述第一时间段内第一角色和第二角色出现的次数；

当第一角色出现的次数大于或者远大于第二角色出现的次数时，确定所述第一时间范围内的文字信息对应第一角色。

如图3所示，在第一时间范围(500ms至2500ms)内，第一角色(角色1)出现48次，第二角色(角色2)出现3次，则确定第一时间范围内的文字信息“这事一个完整的句子”对应的第一角色。

可选的，本方案还可以针对每个词语统计对应的每个角色出现的次数。例如：“完整的”这个词语的第一时间信息为，起始时间是1200ms，结束时间为1800ms；则获取1200ms至1800ms之间的方位信息，根据方位信息统计在该时间段内的第一角色和第二角色出现的次数，以出现次数多的角色作为该词语对应的角色信息。

可选的，该方法还包括：

S140，输出第二文本信息，所述第二文本信息所述包含所述角色信息以及与所述角色信息对应的文字信息。可选的，可采用打印，或者生成电子文本文件的形式输出，以便于用户可以查看或编辑。

本申请的实施方式一，对获取的音频信息进行语音识别后，获取其文字信息以及文字信息对应的第一时间信息，同时还获取该音频信息对应的声源与语音处理装置的0度之间的角度信息，以及该角度信息对应的第二时间信息。其中角度信息是与角色信息对应的。通过第一时间信息与所述第二时间信息，确定出文字信息对应的角色信息，从而实现角色分离。实施方式一中，由于是根据音源输入的角度来确定该音频信息转化成的文字信息所对应角色，因此，既不需要增加硬件部署，针对每个角色设置对应的声音拾取装置，也不需要采用算法或者深度学习的方法，将音频信息中的角色进行分离，因此，既可以节省硬件成本，还不受场地限制，应用起来灵活方便。同时，由于是直接用角度信息来确定对应角色的，而角度信息比较精准，不似采用算法或则深度学习的方法进行角色分离容易出现误差，因此，还可以降低语音处理装置的运算复杂性以及提升角色分离的准确性。

实施方式二

请参看图5，为本申请实施方式二提供的一种语音处理装置200。该语音处理装置200包括但不限于录音笔、音频会议终端、或者有录音功能的智能电子设备等中任意一种该语音处理装置，也可以是不包含语音拾取功能，仅包含角色分离处理功能的语音装置、电脑或其他智能电子设备。在本实施方式二中不做限定。故，该语音处理装置200包括：

语音识别单元210，用于对获取的音频信息进行语音识别，获取第一文本信息；其中，所述第一文本信息包含文字信息和所述文字信息对应的第一时间信息；可选的，是通过声音拾取装置获取该音频信息；可选的，该声音拾取装置可以是麦克风，或者麦克风阵列；可选的，所述第一时间信息为所述文字信息的开始时间与结束时间；

方位获取单元220，用于获取所述音频信息的方位信息，所述方位信息包括角度信息和第二时间信息，所述角度信息为声源相对于语音处理装置上预设的0度之间的转角，所述角度信息与角色信息相对应；其中，所述转角可以是声源与上述0度之间的顺时针方向转动的角度，也可以是逆时针方向转动的角度；可选的，每间隔一预设的时间间隔，生成并记录一次所述方位信息；可选的，所述第二时间信息则为记录所述角度信息的时刻；

角色分离单元230，用于根据所述第一时间信息与所述第二时间信息，将所述文字信息与所述角度信息对应的所述角色信息相关联。

可选的，该语音处理装置200还包括：声音拾取装置240，用于获取语音信息。具体的，该声音拾取装置240可以是麦克风，或者，麦克风阵列。

可选的，该语音识别单元210，具体用于对获取的音频信息进行语音识别，识别出所述文字信息中每个词语对应的所述第一时间信息。具体举例可参见实施方式一中针对S110的举例，在此不做重复赘述。

可选的，该方位获取单元220可以是采用声音拾取装置获取所述方位信息；则可根据声音拾取装置的波达方向(DOA，Direction of Arrival)技术生成所述角度信息，其中，所述声音拾取装置可以是麦克风或麦克风阵列；也可以是根据所述声音拾取装置的音源和位置信息生成所述方位信息，其中，所述声音拾取装置可以是指向型麦克风。其中，角度信息和角色信息之间如何关联对应的，请参看实施方式一以及图2针对S120的描述，在此不做重复赘述。

可选的，该角色分离单元230可以有两种方式实现将所述文字信息与该角色信息关联。具体的：

方式一：角色分离单元230，具体用于当所述第二时间与所述第一时间相匹配时，确认所述文字信息与所述角度信息对应的角色信息相匹配。其详细描述请参见实施方式一以及图3，对S1311以及S1312的描述，在此不做重复赘述。

方式二：该角色分离单元230，具体用于当所述第二时间与所述第一时间相匹配时，确认所述文字信息与所述角度信息对应；确定所述角度信息对应的角色信息；确定所述文字信息与所述角度信息对应的角色信息相匹配。其详细描述请参见实施方式一以及图4，对S1321至S1323的描述，在此不做重复赘述。

可选的，该角色分离单元230，还具体用于统计所述第一时间段内第一角色和第二角色出现的次数；当第一角色出现的次数远大于第二角色出现的次数时，确定所述第一时间范围内的文字信息对应第一角色。具体举例请参见实施方式一中对应的描述，在此不做重复赘述。

可选的，所述角色信息至少包括第一角色与第二角色；所述角度信息在第一范围内的为所述第一角色，所述角度信息在第二范围内的为所述第二角色。

可选的，所述方位信息还包括会话类型，所述会话类型用于区分所述角度信息的用途。

可选的，该角色分离单元230，还用于输出第二文本信息，所述第二文本信息所述包含所述角色信息以及与所述角色信息对应的文字信息。

本实施方式二中有不详尽之处，请参见上述实施方式一中相同或对应的部分，在此不做重复赘述。

实施方式三

请参看图6，本申请实施方式三提供的一种语音处理装置300的结构示意图。该视频处理装置300包括：处理器310、存储器320以及通信接口340。处理器310、存储器320与通信接口340之间通过总线系统实现相互的通信连接。

该处理器310可以是一个独立的元器件，也可以是多个处理元件的统称。例如，可以是CPU，也可以是ASIC，或者被配置成实施以上方法的一个或多个集成电路，如至少一个微处理器DSP，或至少一个可编程门这列FPGA等。存储器320为一计算机可读存储介质，其上存储可在处理器310上运行的程序。

处理器310调用存储器320中的程序，执行上述实施方式一提供的任意一种用于语音处理装置的角色分离方法，并通过通信接口340将处理器310获得的结果，通过无线或有线的方式，传输给其他装置。

可选的，该语音处理装置300还包括：声音拾取装置330用于获取语音信息。处理器310、存储器320、声音拾取装置330与通信接口340之间通过总线系统实现相互的通信连接。处理器310调用存储器320中的程序，执行上述实施方式一提供的任意一种用于语音处理装置的角色分离方法，处理该声音拾取装置330获取的语音信息，并通过通信接口340将处理器310获得的结果，通过无线或有线的方式，传输给其他装置。

本实施方式三中有不详尽之处，请参见上述实施方式一中相同或对应的部分，在此不做重复赘述。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请具体实施方式所描述的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成。软件模块可以被存放于计算机可读存储介质中，所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(Digital Video Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。所述计算机可读存储介质包括但不限于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质。一种示例性的计算机可读存储介质耦合至处理器，从而使处理器能够从该计算机可读存储介质读取信息，且可向该计算机可读存储介质写入信息。当然，计算机可读存储介质也可以是处理器的组成部分。处理器和计算机可读存储介质可以位于ASIC中。另外，该ASIC可以位于接入网设备、目标网络设备或核心网设备中。当然，处理器和计算机可读存储介质也可以作为分立组件存在于接入网设备、目标网络设备或核心网设备中。当使用软件实现时，也可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机或芯片上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请具体实施方式所述的流程或功能，该芯片可包含有处理器。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序指令可以存储在上述计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

上述实施方式说明但并不限制本发明，本领域的技术人员能在权利要求的范围内设计出多个可代替实例。所属领域的技术人员应该意识到，本申请并不局限于上面已经描述并在附图中示出的精确结构，对在没有违反如所附权利要求书所定义的本发明的范围之内，可对具体实现方案做出适当的调整、修改、、等同替换、改进等。因此，凡依据本发明的构思和原则，所做的任意修改和变化，均在所附权利要求书所定义的本发明的范围之内。

Claims

一种用于语音处理装置的角色分离方法，其特征在于，所述方法包括：

对获取的音频信息进行语音识别，获取第一文本信息；其中，所述第一文本信息包含文字信息和所述文字信息对应的第一时间信息；

获取所述音频信息的方位信息，所述方位信息包括角度信息和第二时间信息；其中，所述角度信息为声源相对于语音处理装置上预设的0度之间的转角，所述角度信息与角色信息相对应；

根据所述第一时间信息与所述第二时间信息，将所述文字信息与所述角度信息对应的所述角色信息相关联。
如权利要求1所述的用于语音处理装置的角色分离方法，其特征在于，所述对获取的音频信息进行语音识别，获取第一文本信息，包括：

对获取的所述音频信息进行语音识别，识别出所述文字信息中每个词语对应的所述第一时间信息。
如权利要求1所述的用于语音处理装置的角色分离方法，其特征在于，所述根据所述第一时间信息与所述第二时间信息，将所述文字信息与所述角度信息对应的所述角色信息相关联，包括：

确定所述角度信息对应的角色信息；

当所述第二时间与所述第一时间相匹配时，确认所述文字信息与所述角度信息对应的角色信息相匹配。
如权利要求1所述的用于语音处理装置的角色分离方法，其特征在于，所述根据所述第一时间信息与所述第二时间信息，将所述文字信息与所述角度信息对应的所述角色信息相关联，包括：

当所述第二时间与所述第一时间相匹配时，确认所述文字信息与所述角度信息对应；

确定所述角度信息对应的角色信息；

确定所述文字信息与所述角度信息对应的角色信息相匹配。
如权利要求1至4中任意一项所述的用于语音处理装置的角色分离方法，其特征在于，所述角色信息至少包括第一角色与第二角色；所述角度信息在第一范围内的为所述第一角色，所述角度信息在第二范围内的为所述第二角色。
如权利要求1至4中任意一项所述的用于语音处理装置的角色分离方法，其特征在于，所述方位信息还包括会话类型，所述会话类型用于区分所述角度信息的用途。
如权利要求1至4中任意一项所述的用于语音处理装置的角色分离方法，其中，该方法还包括：输出第二文本信息，所述第二文本信息所述包含所述角色信息以及与所述角色信息对应的文字信息。
一种语音处理装置，其特征在于，所述语音处理装置包括：

语音识别单元，用于对获取的音频信息进行语音识别，获取第一文本信息；其中，所述第一文本信息包含文字信息和所述文字信息对应的第一时间信息；

方位获取单元，用于获取所述音频信息的方位信息，所述方位信息包括角度信息和第二时间信息，所述角度信息为相对于语音处理装置上预设的0度之间的转角，所述角度信息与角色信息相对应；

角色分离单元，用于根据所述第一时间信息与所述第二时间信息，将所述文字信息与所述角度信息对应的所述角色信息相关联。
如权利要求8所述的语音处理装置，其特征在于，所述语音识别单元，具体用于对获取的所述音频信息进行语音识别，识别出所述文字信息中每个词语对应的所述第一时间信息。
如权利要求8所述的语音处理装置，其特征在于，所述角色分离单元，具体用于当所述第二时间与所述第一时间相匹配时，确认所述文字信息与所述角度信息对应的角色信息相匹配。
如权利要求8所述的语音处理装置，其特征在于，所述角色分离单元，具体用于当所述第二时间与所述第一时间相匹配时，确认所述文字信息与所述角度信息对应；确定所述角度信息对应的角色信息；确定所述文字信息与所述角度信息对应的角色信息相匹配。
如权利要求8至11中任意一项所述的语音处理装置，其特征在于，所述角色信息至少包括第一角色与第二角色；所述角度信息在第一范围内的为所述第一角色，所述角度信息在第二范围内的为所述第二角色。
如权利要求8至11中任意一项所述的语音处理装置，其特征在于，所述方位信息还包括会话类型，所述会话类型用于区分所述角度信息的用途。
如权利要求8至11中任意一项所述的语音处理装置，其特征在于，所述角色分离单元，还用于输出第二文本信息，所述第二文本信息所述包含所述角色信息以及与所述角色信息对应的文字信息。