WO2021169170A1

WO2021169170A1 - 基于大数据的语音生成方法、装置、设备及介质

Info

Publication number: WO2021169170A1
Application number: PCT/CN2020/105040
Authority: WO
Inventors: 曹绪文
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-02-28
Filing date: 2020-07-28
Publication date: 2021-09-02
Also published as: CN111445906A

Abstract

一种基于大数据的语音生成方法，包括：获取说话人音频信号（S101）；对说话人音频信号进行音频分析，得到说话人的音频因素（S102）；根据说话人的音频因素获取说话人的情感标签（S103）；获取说话人的情感标签对应的机器人的情感标签（S104）；根据机器人的情感标签获取机器人的音频因素（S105）；根据机器人的音频因素生成待输出的机器人音频信号（S106）。本方法实现了在机器人对话中融入情感因素，使得机器人可与用户进行富有情感的对话，有效地解决了现有人机对话中的对话语音不带情感、话术生硬和单一的问题。

Description

基于大数据的语音生成方法、装置、设备及介质

本申请要求于2020年2月28日提交中国专利局、申请号为202010127344.4，发明名称为“基于大数据的语音生成方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息技术领域，尤其涉及一种基于大数据的语音生成方法、装置、设备及介质。

背景技术

人机对话是计算机的一种工作方式，即计算机操作员或用户与计算机之间，通过控制台或终端显示屏幕，以对话方式进行工作。目前的人机对话场景中，机器人的对话语音是不带情感的，话术也非常生硬和单一，对于用户来说，对话体验欠佳，从而无法提供情感类服务，无法应用到例如心理咨询、疏通情感等场景中，应用场景受限。

因此，寻找一种方法解决现有人机对话中的对话语音不带情感、话术生硬和单一的问题成为本领域技术人员亟需解决的技术问题。

发明内容

本申请实施例提供了一种基于大数据的语音生成方法、装置、设备及介质，以解决现有人机对话中的对话语音不带情感、话术生硬和单一的问题。

一种基于大数据的语音生成方法，包括：

获取说话人音频信号；

对所述说话人音频信号进行音频分析，得到所述说话人的音频因素；

根据所述说话人的音频因素获取说话人的情感标签；

获取所述说话人的情感标签对应的机器人的情感标签；

根据所述机器人的情感标签获取机器人的音频因素；

根据所述机器人的音频因素生成待输出的机器人音频信号。

可选地，所述对所述说话人音频信号进行音频分析，得到所述说话人的音频因素包括：

通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则；

获取所述说话人音频信号的频率信息，根据所述频率信息查询频率与音调之间的映射关系，得到说话人的音调信息；

获取所述说话人音频信号的波形信息，根据所述波形信息查询波形与音色之间的映射关系，得到说话人的音色信息，所述音色信息包括情感信息和年龄信息；

获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数，根据所述时间间隔和说话字数匹配所述语速规则，得到说话人的语速信息。

可选地，所述根据所述说话人的音频因素获取说话人的情感标签包括：

根据业务场景设置说话人的音频因素与情感标签之间的映射关系；

根据所述说话人的音频因素查询所述说话人的音频因素与情感标签之间的映射关系，得到所述说话人的情感标签。

可选地，所述获取所述说话人的情感标签对应的机器人的情感标签包括：

根据业务场景设置对话情感映射关系，所述对话情感映射关系包括说话人的情感标签及其对应的机器人的情感标签；

根据说话人的情感标签查询所述对话情感映射关系，得到机器人的情感标签。

可选地，所述根据所述机器人的情感标签获取机器人的音频因素包括：

根据业务场景设置机器人的情感标签与音频因素之间的映射关系；

根据所述机器人的情感标签查询所述机器人的情感标签与音频因素之间的映射关系，得到所述机器人的音频因素。

可选地，所述根据所述机器人的音频因素生成待输出的机器人音频信号包括：

通过命名实体识别和关系抽取技术从大数据对话表中获取所述说话人音频信号的文本信息对应的机器人的文本信息；

根据所述机器人的音频因素将所述机器人的文本信息转换为待输出的机器人音频信号。

一种基于大数据的语音生成装置，包括：

音频信号获取模块，用于获取说话人音频信号；

音频信号分析模块，用于对所述说话人音频信号进行音频分析，得到所述说话人的音频因素；

第一标签获取模块，用于根据所述说话人的音频因素获取说话人的情感标签；

第二标签获取模块，用于获取所述说话人的情感标签对应的机器人的情感标签；

音频因素获取模块，用于根据所述机器人的情感标签获取机器人的音频因素；

音频信号生成模块，用于根据所述机器人的音频因素生成待输出的机器人音频信号。

可选地，所述音频信号分析模块包括：

建立单元，用于通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则；

音调获取单元，用于获取所述说话人音频信号的频率信息，根据所述频率信息查询频率与音调之间的映射关系，得到说话人的音调信息；

音色获取单元，用于获取所述说话人音频信号的波形信息，根据所述波形信息查询波形与音色之间的映射关系，得到说话人的音色信息，所述音色信息包括情感信息和年龄信息；

语速获取单元，用于获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数，根据所述时间间隔和说话字数匹配所述语速规则，得到说话人的语速信息。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取说话人音频信号；

根据所述说话人的音频因素获取说话人的情感标签；

获取所述说话人的情感标签对应的机器人的情感标签；

根据所述机器人的情感标签获取机器人的音频因素；

一个或多个存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取说话人音频信号；

根据所述说话人的音频因素获取说话人的情感标签；

获取所述说话人的情感标签对应的机器人的情感标签；

根据所述机器人的情感标签获取机器人的音频因素；

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中基于大数据的语音生成方法的一流程图；

图2是本申请一实施例中基于大数据的语音生成方法中步骤S102的一流程图；

图3是本申请一实施例中基于大数据的语音生成方法中步骤S103的一流程图；

图4是本申请一实施例中基于大数据的语音生成方法中步骤S104的一流程图；

图5是本申请一实施例中基于大数据的语音生成方法中步骤S105的一流程图；

图6是本申请一实施例中基于大数据的语音生成方法中步骤S106的一流程图；

图7 是本申请一实施例中基于大数据的语音生成装置的一原理框图；

图8是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下对本实施例提供的基于大数据的语音生成方法进行详细的描述。本申请实施例提供的基于大数据的语音生成方法的目的是为了克服现有人机对话中的对话语音不带情感、话术生硬和单一而导致的对话体验欠佳、应用场景受限的问题，实现人工智能（Artificial Intelligence，英文缩写为AI）调整机器人的对话语音情感。首先通过使用大量的音频素材建立音调映射关系、音色映射关系、语速规则；然后根据用户的对话音频查询所述音调映射关系、音色映射关系以及语速规则，得到用户的情感标签；基于所述情感标签确定机器人的对话情感，并按照所述机器人的对话情感处理待输出的音频信息，生成机器人的对话音频，最后输出所述对话音频；从而实现在机器人对话中融入情感因素，使得机器人可以富有情感的与用户进行对话，有效地解决了现有人机对话中的对话语音不带情感、话术生硬和单一的问题。

在一实施例中，如图1所示，一种基于大数据的语音生成方法，包括如下步骤：

在步骤S101中，获取说话人音频信号。

在这里，本申请实施例对获取的说话人音频信号进行去重噪声处理，排除干扰信息，以便后续获得准确的情感信息。

在步骤S102中，对所述说话人音频信号进行音频分析，得到所述说话人的音频因素。

在这里，所述音频因素是指描述声音特性的要素，包括但不限于音调信息、音色信息以及语速信息。其中音调是指说话人声音的高低，音色信息是指说话人声音的品质和特性，语速信息是指说话人说话的速度。本申请实施例预先设置音调分析模块、音色分析模块以及语速分析模块，并建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则，以实现对说话人音频信号进行音频分析。

可选地，图2示出了本申请实施例提供的步骤S102的具体实现流程。如图2所示，步骤S102 所述的对所述说话人音频信号进行音频分析，得到所述说话人的音频因素包括：

在步骤S201中，通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则。

在这里，音调信息与音频的频率有关。本实施例通过将带有音调标注信息的大数据音频素材输入所述音调分析模块，进行机器学习，以识别声音的频率与音调之间的关系，建立频率与音调之间的映射关系。其中，所述音调标注包括但不限于高音音频、中音音频以及低音音频。

音色信息与音频的波形有关。在本申请实施例中，所述音色信息包括年龄信息与情感信息。本申请实施例通过分析音频的波形分别获取年龄信息和情感信息。对于年龄信息，本实施例通过将带有年龄特性标注的大数据音频素材输入所述音色分析模块，进行机器学习，以识别声音的波形与年龄信息之间的关系，建立波形与年龄信息之间的映射关系。年龄特性标注为具有年龄特征的角色标注，年龄特征用于表示年龄大小，角色用于表示性别、性格，因此所述年龄特性标注包括但不限于男童音女童音、少女音、少年音、大叔音、大妈音、老年音。对于情感信息，本实施例通过将带有情感特性标注的大数据音频素材输入所述音色分析模块，进行机器学习，以识别声音的波形与情感信息之间的关系，建立波形与情感信息之间的映射关系。其中，所述情感特性标注为具有情感特征的标注，包括但不限于欢快、高兴、兴奋、悲伤、惊讶、好奇。

语速信息与说话快慢有关，本申请实施例根据人类说话的常规语速设置相关的语速规则。首先通过将大数据音频素材输入所述语速分析模块，进行机器学习，得到人类在预设单位时间内的常规说话字数以及说话字数的正太分布，根据正太分布以常规说话字数为基础划分出多个语速等级，以建立语速规则。可选地，对于每一个音频素材，所述语速分析模块可通过识别相邻的两次停顿（例如2s不说话，认为是停顿），获取该两次停顿之间的时间信息，并统计该两次停顿之间的说话字数，根据说话字数与时间信息计算预设时间单位内的说话字数；遍历所有输入的大数据音频素材，得到多个预设时间单位内的说话字数，并对所述预设时间单位内的说话字数进行分布分析，得到人类在预设时间单位内的常规说话字数以及说话字数的正太分布。每一个语速规则为在预设时间单位内的说话字数与语速等级之间的对应关系；示例性地，假设经过语速分析模块得到的常规说话字数为每分钟[200-250）字，对应设置为语速等级5时，往下每分钟[0-50）、[50-100）、[100-150）、[150-200）字时分别对应设置语速等级1、2、3、4，往上每分钟[250-275）、[275-300）、[300-325）、[325-350）字时分别对应设置语速等级6、7、8、9，供9条语速规则。

在步骤S202中，获取所述说话人音频信号的频率信息，根据所述频率信息查询频率与音调之间的映射关系，得到说话人的音调信息。

在对说话者进行音频分析时，将说话人音频信号输入训练好的所述音调分析模块，通过音调分析模块识别说话人音频信号的频率信息，以及将识别得到的频率信息和频率与音调之间的映射关系进行匹配，得到说话人的音调信息。

在步骤S203中，获取所述说话人音频信号的波形信息，根据所述波形信息查询波形与音色之间的映射关系，得到说话人的音色信息，所述音色信息包括情感信息和年龄信息。

同理，对于说话人的音色信息，将说话人音频信号输入训练好的所述音色分析模块，通过音色分析模块识别说话人音频信号的波形信息，以及将识别得到的波形信息和波形与音色之间的映射关系进行匹配，具体为将识别得到的波形信息和波形与年龄信息之间的映射关系、波形与情感信息之间的映射关系进行匹配，得到说话人的年龄信息和情感信息。

在步骤S204中，获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数，根据所述时间间隔和说话字数匹配所述语速规则，得到说话人的语速信息。

对于说话人的语速信息，将说话人音频信号输入训练好的所述语速分析模块，通过所述语速分析模块识别相邻的两次停顿（例如2s不说话，认为是停顿），获取该两次停顿之间的时间信息，并统计该两次停顿之间的说话字数，根据说话字数与时间信息计算在预设时间单位内的说话字数，再将所述预设时间单位内的说话字数和语速规则进行匹配，得到语速等级，从而得到说话人的语速信息。

在步骤S103中，根据所述说话人的音频因素获取说话人的情感标签。

所述说话人的情感标签是指基于说话人的音频因素得到的说话人在当前业务场景下的整体情感信息。在上述实施例中，所述音频因素包括音调信息、音色信息以及语速信息，所述说话人的情感标签是指基于说话人的音调信息、音色信息以及语速信息得到的说话人的整体情感信息。可选地，图3示出了本申请实施例提供的步骤S103的具体实现流程。如图3所示，步骤S103所述的根据所述说话人的音频因素获取说话人的情感标签包括：

在步骤S301中，根据业务场景设置说话人的音频因素与情感标签之间的映射关系。

在这里，本申请实施例根据不同的业务场景，设置说话人的音频因素与情感标签之间的映射关系，以定义说话人的情感模型。每一个业务场景对应一条或多条说话人的音频因素与情感标签之间的映射关系。业务场景不同，相同的音频因素对应的说话人的情感标签不完全相同。示例性地，在游乐场中,音调信息为大声说话3级、音色信息为高兴的萝莉音4级别、语速信息为语速等级6，对应的说话人的情感标签为兴奋激动的萝莉8级；在一般场所中，音调信息为大声说话3级、音色信息为高兴的萝莉音4级别、语速信息为语速等级6，对应的说话人的情感标签为开心的萝莉4级。

在步骤S302中，根据所述说话人的音频因素查询所述说话人的音频因素与情感标签之间的映射关系，得到所述说话人的情感标签。

在得到说话人的音频因素之后，获取当前业务场景下的说话人的音频因素与情感标签之间的映射关系，然后基于说话人的音频因素，查询所获取的映射关系，得到说话人的情感标签，从而得到用户在当前业务场景中的整体情感信息。

在步骤S104中，获取所述说话人的情感标签对应的机器人的情感标签。

如前所述，所述说话人的情感标签是指基于说话人的音频因素得到的说话人在当前业务场景下的整体情感信息。对应的，机器人的情感标签是指在当前业务场景下机器人面对说话人的应有的整体情感信息。可选地，图4示出了本申请实施例提供的步骤S104的具体实现流程。如图4所示，步骤S104所述的获取所述说话人的情感标签对应的机器人的情感标签包括：

在步骤S401中，根据业务场景设置对话情感映射关系，所述对话情感映射关系包括说话人的情感标签及其对应的机器人的情感标签。

在这里，本实施例基于人类对话情感常理，根据业务场景设置说话人的情感标签与机器人的情感标签之间的对应关系，以定义人机情感模型，实现基于说话人的对话情感选择机器人的对话情感。不同的业务场景对应的对话映射关系是不相同的。示例性地，在普通对话场景中，当说话人的情感标签是欢快时，对应机器人的情感标签也是欢快，那么机器人将以欢快的情感进行对话；在心理咨询场景中，当说话人的情感标签是悲伤时，对应机器人的情感标签是感同身受，那么机器人将以安慰的情感进行对话；在交友场景中，当说话人的情感标签是少年兴奋5级，对应的机器人的情感标签是少女兴奋5级，那么机器人将以少女兴奋5级的情感进行对话。

在步骤S402中，根据说话人的情感标签查询所述对话情感映射关系，得到机器人的情感标签。

在得到说话人的情感标签之后，获取当前业务场景下的对话情感映射关系，然后基于说话人的情感标签，查询所获取的对话情感映射关系，得到机器人的情感标签，从而得到在当前业务场景中机器人面对用户的应有的整体情感信息。

通过配置对话情感映射关系，由三对三（说话人的音频、语速、音色对机器人的音频、语速、音色）简化为一对一（说话人的情感标签对机器人的情感标签）进行配置，极大地简化了在实际应用中配置机器人整体情感的逻辑；在物理层面上，实现从底层的语音处理技术中抽离出来，使得开发员或者业务员一目了然，便于开发员或者业务员在不同的业务场景中配置人机情感模型。

在步骤S105中，根据所述机器人的情感标签获取机器人的音频因素。

如前所述，机器人的情感标签是指在当前业务场景下机器人面对说话人的应有的整体情感信息。本实施例中所研究的音频因素包括但不限于音调信息、音色信息以及语速信息。因此，在生成待输出的机器人音频信号时，本申请实施例基于机器人的情感标签确定待输出的机器人音频信号的音调信息、音色信息以及语速信息。可选地，图5示出了本申请实施例提供的步骤S105的具体实现流程。如图5所示，步骤S105所述的根据所述机器人的情感标签获取机器人的音频因素包括：

在步骤S501中，根据业务场景设置机器人的情感标签与音频因素之间的映射关系。

在这里，本申请实施例根据不同的业务场景，设置机器人的情感标签与音频因素之间的映射关系，以定义机器人的情感模型。每一个业务场景对应一条或多条机器人的情感标签与音频因素之间的映射关系。业务场景不同，相同的机器人的情感标签对应的音频因素不完全相同。

在步骤S502中，根据所述机器人的情感标签查询所述机器人的情感标签与音频因素之间的映射关系，得到所述机器人的音频因素。

在得到机器人的情感标签之后，获取当前业务场景下的机器人的情感标签与音频因素之间的映射关系，然后基于机器人的情感标签，查询所获取的映射关系，得到机器人的音频因素，即在当前业务场景中机器人面对说话人应该具有的音调信息、音色信息以及语速信息。

在步骤S106中，根据所述机器人的音频因素生成待输出的机器人音频信号。

在这里，所述机器人音频信号是指机器人回应说话人的对话音频。本申请实施例直接根据当前业务场景中机器人面对说话人应该具有的音调信息、音色信息以及语速信息生成机器人音频信号。可选地，图6示出了本申请实施例提供的步骤S106的具体实现流程。如图6所示，步骤S106所述的根据所述机器人的音频因素生成待输出的机器人音频信号包括：

在步骤S601中，通过命名实体识别和关系抽取技术从大数据对话表中获取所述说话人音频信号的文本信息对应的机器人的文本信息。

在这里，本申请实施例采用HMM声学模型技术将说话人音频信号转换为对应的文本信息。然后通过命名实体识别和关系抽取技术，根据所述说话人的文本信息从预设的大数据对话表中获取机器人的文本信息。应当理解，所述机器人的文本信息为机器人回应说话人的文本信息，与说话人的文本信息是对应的，是机器人音频信号的内容。所述大数据对话表中预先存储了人机对话中说话人的文本信息及对应的机器人文本信息。

在步骤S602中，根据所述机器人的音频因素将所述机器人的文本信息转换为待输出的机器人音频信号。

在得到机器人的文本信息之后，将所述机器人的文本信息和机器人的音频因素传入信号发生器。所述信号发生器是指TIS语音合成技术，信号发生器将参照所述机器人的音频因素和所述机器人的文本信息生成对应的机器人音频信号，实现人机之间的情感对话。

综上所述，本申请实施例通过使用大量的音频素材建立音调映射关系、音色映射关系、语速映射关系；然后根据用户的对话音频查询所述音调映射关系、音色映射关系以及语速映射关系，得到用户的情感标签；基于所述情感标签确定机器人的对话情感，并按照所述机器人的对话情感处理待输出的音频信息，生成机器人的对话音频，最后输出所述对话音频；从而实现在机器人对话中融入情感因素，使得机器人可与用户进行富有情感的对话，有效地解决了现有人机对话中的对话语音不带情感、话术生硬和单一的问题。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种基于大数据的语音生成装置，该基于大数据的语音生成装置与上述实施例中基于大数据的语音生成方法一一对应。如图7所示，该基于大数据的语音生成装置包括音频信号获取模块71、音频信号分析模块72、第一标签获取模块73、第二标签获取模块74、音频因素获取模块75、音频信号生成模块76。各功能模块详细说明如下：

音频信号获取模块71，用于获取说话人音频信号；

音频信号分析模块72，用于对所述说话人音频信号进行音频分析，得到所述说话人的音频因素；

第一标签获取模块73，用于根据所述说话人的音频因素获取说话人的情感标签；

第二标签获取模块74，用于获取所述说话人的情感标签对应的机器人的情感标签；

音频因素获取模块75，用于根据所述机器人的情感标签获取机器人的音频因素；

音频信号生成模块76，用于根据所述机器人的音频因素生成待输出的机器人音频信号。

可选地，所述音频信号分析模块72包括：

可选地，所述第一标签获取模块73包括：

第一映射关系设置单元，用于根据业务场景设置说话人的音频因素与情感标签之间的映射关系；

第一标签获取单元，用于根据所述说话人的音频因素查询所述说话人的音频因素与情感标签之间的映射关系，得到所述说话人的情感标签。

可选地，所述第二标签获取模块74包括：

第二映射关系设置单元，用于根据业务场景设置对话情感映射关系，所述对话情感映射关系包括说话人的情感标签与机器人的情感标签之间的对应关系；

第二标签获取单元，用于根据说话人的情感标签查询所述对话情感映射关系，得到机器人的情感标签。

可选地，所述音频因素获取模块75包括：

第三映射关系设置单元，用于根据业务场景设置机器人的情感标签与音频因素之间的映射关系；

音频因素获取单元，用于根据所述机器人的情感标签查询所述机器人的情感标签与音频因素之间的映射关系，得到所述机器人的音频因素。

可选地，所述音频信号生成模块76包括：

文本信息获取单元，用于通过命名实体识别和关系抽取技术从大数据对话表中获取所述说话人音频信号的文本信息对应的机器人的文本信息；

音频信号生成单元，用于根据所述机器人的音频因素将所述机器人的文本信息转换为待输出的机器人音频信号。

关于基于大数据的语音生成装置的具体限定可以参见上文中对于基于大数据的语音生成方法的限定，在此不再赘述。上述基于大数据的语音生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于大数据的语音生成方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

获取说话人音频信号；

根据所述说话人的音频因素获取说话人的情感标签；

获取所述说话人的情感标签对应的机器人的情感标签；

根据所述机器人的情感标签获取机器人的音频因素；

在一个实施例中，提供了一个或多个存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取说话人音频信号；

根据所述说话人的音频因素获取说话人的情感标签；

获取所述说话人的情感标签对应的机器人的情感标签；

根据所述机器人的情感标签获取机器人的音频因素；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种基于大数据的语音生成方法，其中，包括：

获取说话人音频信号；

对所述说话人音频信号进行音频分析，得到所述说话人的音频因素；

根据所述说话人的音频因素获取说话人的情感标签；

获取所述说话人的情感标签对应的机器人的情感标签；

根据所述机器人的情感标签获取机器人的音频因素；

根据所述机器人的音频因素生成待输出的机器人音频信号。
如权利要求1所述的基于大数据的语音生成方法，其中，所述对所述说话人音频信号进行音频分析，得到所述说话人的音频因素包括：

通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则；

获取所述说话人音频信号的频率信息，根据所述频率信息查询频率与音调之间的映射关系，得到说话人的音调信息；

获取所述说话人音频信号的波形信息，根据所述波形信息查询波形与音色之间的映射关系，得到说话人的音色信息，所述音色信息包括情感信息和年龄信息；

获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数，根据所述时间间隔和说话字数匹配所述语速规则，得到说话人的语速信息。
如权利要求1或2所述的基于大数据的语音生成方法，其中，所述根据所述说话人的音频因素获取说话人的情感标签包括：

根据业务场景设置说话人的音频因素与情感标签之间的映射关系；

根据所述说话人的音频因素查询所述说话人的音频因素与情感标签之间的映射关系，得到所述说话人的情感标签。
如权利要求1或2所述的基于大数据的语音生成方法，其中，所述获取所述说话人的情感标签对应的机器人的情感标签包括：

根据业务场景设置对话情感映射关系，所述对话情感映射关系包括说话人的情感标签及其对应的机器人的情感标签；

根据说话人的情感标签查询所述对话情感映射关系，得到机器人的情感标签。
如权利要求1或2所述的基于大数据的语音生成方法，其中，所述根据所述机器人的情感标签获取机器人的音频因素包括：

根据业务场景设置机器人的情感标签与音频因素之间的映射关系；

根据所述机器人的情感标签查询所述机器人的情感标签与音频因素之间的映射关系，得到所述机器人的音频因素。
如权利要求1或2所述的基于大数据的语音生成方法，其中，所述根据所述机器人的音频因素生成待输出的机器人音频信号包括：

通过命名实体识别和关系抽取技术从大数据对话表中获取所述说话人音频信号的文本信息对应的机器人的文本信息；

根据所述机器人的音频因素将所述机器人的文本信息转换为待输出的机器人音频信号。
一种基于大数据的语音生成装置，其中，所述装置包括：

音频信号获取模块，用于获取说话人音频信号；

音频信号分析模块，用于对所述说话人音频信号进行音频分析，得到所述说话人的音频因素；

第一标签获取模块，用于根据所述说话人的音频因素获取说话人的情感标签；

第二标签获取模块，用于获取所述说话人的情感标签对应的机器人的情感标签；

音频因素获取模块，用于根据所述机器人的情感标签获取机器人的音频因素；

音频信号生成模块，用于根据所述机器人的音频因素生成待输出的机器人音频信号。
如权利要求7所述的基于大数据的语音生成装置，其中，所述音频信号分析模块包括：

建立单元，用于通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则；

音调获取单元，用于获取所述说话人音频信号的频率信息，根据所述频率信息查询频率与音调之间的映射关系，得到说话人的音调信息；

音色获取单元，用于获取所述说话人音频信号的波形信息，根据所述波形信息查询波形与音色之间的映射关系，得到说话人的音色信息，所述音色信息包括情感信息和年龄信息；

语速获取单元，用于获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数，根据所述时间间隔和说话字数匹配所述语速规则，得到说话人的语速信息。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

获取说话人音频信号；

对所述说话人音频信号进行音频分析，得到所述说话人的音频因素；

根据所述说话人的音频因素获取说话人的情感标签；

获取所述说话人的情感标签对应的机器人的情感标签；

根据所述机器人的情感标签获取机器人的音频因素；

根据所述机器人的音频因素生成待输出的机器人音频信号。
如权利要求9所述的计算机设备，其中，所述对所述说话人音频信号进行音频分析，得到所述说话人的音频因素包括：

通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则；

获取所述说话人音频信号的频率信息，根据所述频率信息查询频率与音调之间的映射关系，得到说话人的音调信息；

获取所述说话人音频信号的波形信息，根据所述波形信息查询波形与音色之间的映射关系，得到说话人的音色信息，所述音色信息包括情感信息和年龄信息；

获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数，根据所述时间间隔和说话字数匹配所述语速规则，得到说话人的语速信息。
如权利要求9或10所述的计算机设备，其中，所述根据所述说话人的音频因素获取说话人的情感标签包括：

根据业务场景设置说话人的音频因素与情感标签之间的映射关系；

根据所述说话人的音频因素查询所述说话人的音频因素与情感标签之间的映射关系，得到所述说话人的情感标签。
如权利要求9或10所述的计算机设备，其中，所述获取所述说话人的情感标签对应的机器人的情感标签包括：

根据业务场景设置对话情感映射关系，所述对话情感映射关系包括说话人的情感标签及其对应的机器人的情感标签；

根据说话人的情感标签查询所述对话情感映射关系，得到机器人的情感标签。
如权利要求9或10所述的计算机设备，其中，所述根据所述机器人的情感标签获取机器人的音频因素包括：

根据业务场景设置机器人的情感标签与音频因素之间的映射关系；

根据所述机器人的情感标签查询所述机器人的情感标签与音频因素之间的映射关系，得到所述机器人的音频因素。
如权利要求9或10所述的计算机设备，其中，所述根据所述机器人的音频因素生成待输出的机器人音频信号包括：

通过命名实体识别和关系抽取技术从大数据对话表中获取所述说话人音频信号的文本信息对应的机器人的文本信息；

根据所述机器人的音频因素将所述机器人的文本信息转换为待输出的机器人音频信号。
一个或多个存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取说话人音频信号；

对所述说话人音频信号进行音频分析，得到所述说话人的音频因素；

根据所述说话人的音频因素获取说话人的情感标签；

获取所述说话人的情感标签对应的机器人的情感标签；

根据所述机器人的情感标签获取机器人的音频因素；

根据所述机器人的音频因素生成待输出的机器人音频信号。
如权利要求15所述的非易失性可读存储介质，其中，所述对所述说话人音频信号进行音频分析，得到所述说话人的音频因素包括：

通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则；

获取所述说话人音频信号的频率信息，根据所述频率信息查询频率与音调之间的映射关系，得到说话人的音调信息；

获取所述说话人音频信号的波形信息，根据所述波形信息查询波形与音色之间的映射关系，得到说话人的音色信息，所述音色信息包括情感信息和年龄信息；

获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数，根据所述时间间隔和说话字数匹配所述语速规则，得到说话人的语速信息。
如权利要求15或16所述的非易失性可读存储介质，其中，所述根据所述说话人的音频因素获取说话人的情感标签包括：

根据业务场景设置说话人的音频因素与情感标签之间的映射关系；

根据所述说话人的音频因素查询所述说话人的音频因素与情感标签之间的映射关系，得到所述说话人的情感标签。
如权利要求15或16所述的非易失性可读存储介质，其中，所述获取所述说话人的情感标签对应的机器人的情感标签包括：

根据业务场景设置对话情感映射关系，所述对话情感映射关系包括说话人的情感标签及其对应的机器人的情感标签；

根据说话人的情感标签查询所述对话情感映射关系，得到机器人的情感标签。
如权利要求15或16所述的非易失性可读存储介质，其中，所述根据所述机器人的情感标签获取机器人的音频因素包括：

根据业务场景设置机器人的情感标签与音频因素之间的映射关系；

根据所述机器人的情感标签查询所述机器人的情感标签与音频因素之间的映射关系，得到所述机器人的音频因素。
如权利要求15或16所述的非易失性可读存储介质，其中，所述根据所述机器人的音频因素生成待输出的机器人音频信号包括：

通过命名实体识别和关系抽取技术从大数据对话表中获取所述说话人音频信号的文本信息对应的机器人的文本信息；

根据所述机器人的音频因素将所述机器人的文本信息转换为待输出的机器人音频信号。