WO2021114617A1

WO2021114617A1 - 语音合成方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: WO2021114617A1
Application number: PCT/CN2020/098887
Authority: WO
Inventors: 吴华; 罗幼樵; 徐建超
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-05-28
Filing date: 2020-06-29
Publication date: 2021-06-17
Also published as: CN111696517A

Abstract

一种语音合成方法、装置、计算机设备及计算机可读存储介质。所述语音合成方法获取语音服务器中用户的语音数据样本、语音数据样本对应的文本数据样本、语音数据样本的语音类型和待合成文本（101）；根据语音类型从云服务器获取第一语音合成模型的模型参数（102）；用第一语音合成模型的模型参数初始化本地的第二语音合成模型，第一语音合成模型的超参数与第二语音模型的超参数一致（103）；通过语音服务器和云服务器用语音数据样本和文本数据样本联合训练第二语音合成模型，得到训练后的语音合成模型（104）；基于训练后的语音合成模型，根据待合成文本合成目标语音数据（105）。该方法提升了语音合成的准确率和效率。

Description

语音合成方法、装置、计算机设备及计算机可读存储介质

本申请要求于2020年05月28日提交中国专利局，申请号为202010470714.4申请名称为“语音合成方法、装置、计算机设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，具体涉及一种语音合成方法、装置、计算机设备及计算机可读存储介质。

背景技术

语音合成被广泛运用于智能阅读、智能播报等应用场景。如根据文本播放语音，或在具体流程中播放预设语音。

发明人意识到如何提升语音合成的准确率和效率成为亟待解决的问题。

发明内容

鉴于以上内容，有必要提出一种语音合成方法、装置、计算机设备及计算机可读存储介质，其可以根据文本合成语音数据。

本申请的第一方面提供一种语音合成方法，所述语音合成方法包括：

获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本；

根据所述语音类型从云服务器获取第一语音合成模型的模型参数；

用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型，所述第一语音合成模型的超参数与所述第二语音模型的超参数一致；

通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型，得到训练后的语音合成模型；

基于所述训练后的语音合成模型，根据所述待合成文本合成目标语音数据。

本申请的第二方面提供一种语音合成装置，所述语音合成装置包括：

第一获取模块，用于获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本；

第二获取模块，用于根据所述语音类型从云服务器获取第一语音合成模型的模型参数；

初始化模块，用于用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型，所述第一语音合成模型的超参数与所述第二语音模型的超参数一致；

训练模块，用于通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型，得到训练后的语音合成模型；

合成模块，用于基于所述训练后的语音合成模型，根据所述待合成文本合成目标语音数据。

本申请的第三方面提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机可读指令以实现以下步骤：

本申请的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现以下步骤：

本申请用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型，所述第一语音合成模型的超参数与所述第二语音模型的超参数一致；通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型，得到训练后的语音合成模型，提升了对所述语音合成模型进行训练的效率。基于所述训练后的语音合成模型，根据所述待合成文本合成目标语音数据，提升了语音合成的准确率。因此，本申请实现了根据文本合成语音数据，提升了语音合成的准确率和效率。

附图说明

图1是本申请实施例提供的语音合成方法的流程图。

图2是本申请实施例提供的语音合成装置的结构图。

图3是本申请实施例提供的计算机设备的示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

优选地，本申请的语音合成方法应用在一个或者多个计算机设备中。所述计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本申请实施例一提供的语音合成方法的流程图。所述语音合成方法应用于计算机设备，用于根据文本合成语音数据。

所述语音合成方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

101，获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本。

在一具体实施例中，在所述获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本之前，在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型；在所述语音服务器中存储所述待合成文本。

具体地，所述在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型包括：

向所述用户提供语音录制界面；

通过所述语音录制界面接收所述用户输入的文本数据样本和语音类型，获取所述用户上传录入的语音数据样本；

将所述用户输入的文本数据样本、语音类型和上传录入的语音数据样本关联存储至所述语音服务器。

可以将所述用户输入的文本数据样本、语音类型和上传录入的语音数据样本关联存储至所述语音服务器的预设文件夹中，如将用户user001用户输入的文本数据样本、语音类型和上传录入的语音数据样本存储在文件夹“…/voiceSer/user001/flow1/”中。其中，flow1为所述待合成文本对应的应用场景。

在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型之前，判断所述语音数据样本是否正确；当所述语音数据样本正确时，在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型。具体地，将所述语音数据样本识别为待检验文本数据；当所述待检验文本数据与所述文本数据样本一致时，所述语音数据样本正确；当所述待检验文本数据与所述文本数据样本不一致时，所述语音数据样本错误。

在一具体实施例中，通过所述语音录制界面接收所述用户输入的文本数据样本包括：

通过所述语音录制界面接收所述用户自定义输入的文本数据样本；或者

通过所述语音录制界面接收所述用户从多个预设文本数据样本中选择的目标预设文本数据样本。

在一具体实施例中，所述获取所述用户上传录入的语音数据样本包括：

在所述语音录制界面展现所述文本数据样本；

当所述用户朗读所述文本数据样本时，通过录音设备获取所述用户录入的语音数据样本。

102，根据所述语音类型从云服务器获取第一语音合成模型的模型参数。

所述语音类型包括音色、音质、比特率等。

所述语音类型还包括女声、男声、童声女、童声男等。

在一具体实施例中，所述根据所述语音类型从云服务器获取第一语音合成模型的模型参数包括：

根据所述语音类型获取所述语音类型与语音合成模型的关联关系；

根据所述关联关系从所述云服务器获取所述第一语音合成模型的模型参数。

例如，根据语音类型(男声)获取所语音类型与语音合成模型的关联关系为“男生-语音合成模型002”；根据关联关系从云服务器获取第一语音合成模型(语音合成模型002)的模型参数。

不同性别、年龄的声音区别较大，可以用不同声音训练相应的语音合成模型。比如，女声比男声的频率普遍地高一些，在声学上对应于基频特征上的差异。因此根据所述语音类型从云服务器获取第一语音合成模型的模型参数，即对于不同的声音类别采用不同的基频特征参数，例如基频特征的上、下限。另外，在进行语音合成模型的训练时，当前用户上传的语音数据样本较少，为了提高语音合成模型的准确度，可以结合语音类型一致的其他用户的语音数据作为语音合成模型的训练数据。

103，用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型，所述第一语音合成模型的超参数与所述第二语音模型的超参数一致。

所述第一语音合成模型可以是经过多次迭代训练的语音合成模型，且没有达到预设条件，还需要继续训练。所述预设条件包括达到收敛条件、达到预设训练次数、达到预设合成精度。

所述第一语音合成模型的超参数与所述第二语音模型的超参数一致，即所述第一语音合成模型的结构、神经元数量等与所述第二语音模型一致。

在一具体实施例中，所述第一语音合成模型的模型参数是经过预设加密算法加密后的模型参数。

在一具体实施例中，所述第一语音合成模型和所述第二语音合成模型是基于wavenet网络构建而成的神经网络模型。wavenet网络是一种基于CNN(卷积神经网络)的自回归网络。

104，通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型，得到训练后的语音合成模型。

在一具体实施例中，所述通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型包括：

(1)通过所述语音服务器用所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练，更新所述第二语音合成模型的参数，得到更新后的模型参数。

通过本地训练可以根据所述语音数据样本和所述文本数据样本优化所述第二语音合成模型的参数。同时，与所述云服务器相连的各个语音服务器也会根据各个语音服务器中的样本优化语音合成模型的参数。达到了利用各个语音服务器中的样本同时训练语音合成模型的效果。

(2)通过所述语音服务器将所述更新后的模型参数上传至所述云服务器，使所述云服务器对各个语音服务器上传的参数进行聚合处理，得到聚合参数。

所述云服务器对各个语音服务器上传的参数进行聚合处理，聚合处理可以是对各个语音服务器上传的参数进行加权平均。通过所述云服务器对各个语音服务器上传的参数进行聚合处理，可以不用获取各个语音服务器的样本数据，保护了各个语音服务器中的数据安全性及数据隐私。

(3)用所述语音服务器接收所述云服务器下发的所述聚合参数，用所述聚合参数更新所述第二语音合成模型的参数，得到所述训练后的语音合成模型。

具体地，可以用所述聚合参数替换所述第二语音合成模型的参数，使替换参数后的语音合成模型(即所述训练后的语音合成模型)能够更加准确地合成语音。因为通过所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练具有局限性，样本可能不充足或样本类型相近(如相同声音、近似的文本)，对所述第二语音合成模型进行单独训练难以达到较好的训练效果。通过用所述聚合参数更新所述第二语音合成模型的参数，可以综合各个语音服务器的训练效果，在所述训练后的语音合成模型中使用所述聚合参数，可以提升通过所述训练后的语音合成模型合成的语音的质量。

在一具体实施例中，所述通过所述语音服务器用所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练包括：

使用预设文本解析模型对所述文本数据样本进行解析，获得所述文本数据样本对应的文本参数；

根据所述语音数据样本生成所述语音数据样本的声学特征序列；

将所述文本数据样本对应的文本参数输入所述第二语音合成模型，通过所述第二语音合成模型计算中间特征序列；

根据所述声学特征序列和所述中间特征序列基于反向传播算法优化所述第二语音合成模型的模型参数。

所述文本数据样本的文本参数包括字词的音调、韵律、音节等。所述预设文本解析模型可以解析文本中所包含的所有字词的音调、韵律、音节等信息，并生成相应的文本参数(可以使用语境信息标注文件的形式表现)。获得的文本参数可以通过语音合成模型转换成合成语音。所述预设文本解析模型以汉语普通话的声韵母为语音合成基元，(基于语法词典、语法规则库)通过文本规范化、语法分析、韵律预测分析、字音转换，依次获得文本的语句信息、词信息、韵律结构信息和每个汉字的声韵母；从而获得文本的语音合成基元(声韵母)的信息以及每个语音合成基元的上下文相关信息，最终生成的文本参数包括了文本中各字词的单音素标注和上下文相关的标注。

在一具体实施例中，所述根据所述语音数据样本生成所述语音数据样本的声学特征序列包括：

将所述语音数据样本切分为多个语音帧；

分别计算各个语音帧的声学特征，声学特征包括基频、能量、梅尔频率倒谱系数；

将各个语音帧的声学特征按时序排序，生成所述语音数据样本的声学特征序列。

105，基于所述训练后的语音合成模型，根据所述待合成文本合成目标语音数据。

在一具体实施例中，所述基于所述训练后的语音合成模型，根据所述待合成文本合成目标语音数据包括：

使用预设文本解析模型对所述待合成文本进行解析，获得所述待合成文本对应的文本参数；

将所述待合成文本对应的文本参数输入所述训练后的语音合成模型，获得所述目标语音数据的声学特征序列；

根据所述目标语音数据的声学特征序列生成所述目标语音数据。

实施例一的语音合成方法用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型，所述第一语音合成模型的超参数与所述第二语音模型的超参数一致；通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型，得到训练后的语音合成模型，提升了对所述语音合成模型进行训练的效率。基于所述训练后的语音合成模型，根据所述待合成文本合成目标语音数据，提升了语音合成的准确率。因此，本申请实现了根据文本合成语音数据，提升了语音合成的准确率和效率。

在另一实施例中，所述方法还包括：

将所述目标语音数据从所述语音服务器同步至播报服务器；

控制所述播报服务器根据所述目标语音数据进行语音播报。

在另一实施例中，所述方法还包括：

将所述待合成文本和所述训练后的语音合成模型的模型参数发送至播报服务器；

控制所述播报服务器用本地的语音合成模型，根据所述待合成文本和所述训练后的语音合成模型的模型参数合成所述目标语音数据；

控制所述播报服务器根据所述目标语音数据进行语音播报。

实施例二

图2是本申请实施例二提供的语音合成装置的结构图。所述语音合成装置20应用于计算机设备。所述语音合成装置20用于用于根据文本合成语音数据。

如图2所示，所述语音合成装置20可以包括第一获取模块201、第二获取模块202、初始化模块203、训练模块204、合成模块205。

第一获取模块201，用于获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本。

向所述用户提供语音录制界面；

在所述语音录制界面展现所述文本数据样本；

第二获取模块202，用于根据所述语音类型从云服务器获取第一语音合成模型的模型参数。

所述语音类型包括音色、音质、比特率等。

所述语音类型还包括女声、男声、童声女、童声男等。

初始化模块203，用于用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型，所述第一语音合成模型的超参数与所述第二语音模型的超参数一致。

训练模块204，用于通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型，得到训练后的语音合成模型。

将所述语音数据样本切分为多个语音帧；

合成模块205，用于基于所述训练后的语音合成模型，根据所述待合成文本合成目标语音数据。

实施例二的语音合成装置20用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型，所述第一语音合成模型的超参数与所述第二语音模型的超参数一致；通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型，得到训练后的语音合成模型，提升了对所述语音合成模型进行训练的效率。基于所述训练后的语音合成模型，根据所述待合成文本合成目标语音数据，提升了语音合成的准确率。因此，本申请实现了根据文本合成语音数据，提升了语音合成的准确率和效率。

在另一实施例中，所述语音合成装置20还包括播报模块，用于将所述目标语音数据从所述语音服务器同步至播报服务器；控制所述播报服务器根据所述目标语音数据进行语音播报。

在另一实施例中，所述播报模块还用于将所述待合成文本和所述训练后的语音合成模型的模型参数发送至播报服务器；

控制所述播报服务器根据所述目标语音数据进行语音播报。

实施例三

本实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机可读指令，所述计算机可读存储介质可以是非易失性，也可以是易失性。该计算机可读指令被处理器执行时实现上述语音合成方法实施例中的步骤，例如图1所示的步骤101-105：

101，获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本；

102，根据所述语音类型从云服务器获取第一语音合成模型的模型参数；

103，用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型，所述第一语音合成模型的超参数与所述第二语音模型的超参数一致；

104，通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型，得到训练后的语音合成模型；

或者，该计算机可读指令被处理器执行时实现上述装置实施例中各模块的功能，例如图2中的模块201-205：

第一获取模块201，用于获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本；

第二获取模块202，用于根据所述语音类型从云服务器获取第一语音合成模型的模型参数；

初始化模块203，用于用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型，所述第一语音合成模型的超参数与所述第二语音模型的超参数一致；

训练模块204，用于通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型，得到训练后的语音合成模型；

实施例四

图3为本申请实施例四提供的计算机设备的示意图。所述计算机设备30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机可读指令303，例如语音合成程序。所述处理器302执行所述计算机可读指令303时实现上述语音合成方法实施例中的步骤，例如图1所示的步骤101-105：

示例性的，所述计算机可读指令303可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器301中，并由所述处理器302执行，以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机可读指令303在所述计算机设备30中的执行过程。例如，所述计算机可读指令303可以被分割成图2中的第一获取模块201、第二获取模块202、初始化模块203、训练模块204、合成模块205，各模块具体功能参见实施例二。

所述计算机设备30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图3仅仅是计算机设备30的示例，并不构成对计算机设备30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机设备30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等，所述处理器302是所述计算机设备30的控制中心，利用各种接口和线路连接整个计算机设备30的各个部分。

所述存储器301可用于存储所述计算机可读指令303，所述处理器302通过运行或执行存储在所述存储器301内的计算机可读指令或模块，以及调用存储在存储器301内的数据，实现所述计算机设备30的各种功能。所述存储器301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备30的使用所创建的数据等。此外，存储器301可以包括硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)或其他非易失性/易失性存储器件。

所述计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是非易失性，也可以是易失性。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机可读指令可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机可读指令的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、只读存储器(ROM)、随机存取存储器(RAM)。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述语音合成方法的部分步骤。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

一种语音合成方法，所述语音合成方法包括：

获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本；

根据所述语音类型从云服务器获取第一语音合成模型的模型参数；

用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型，所述第一语音合成模型的超参数与所述第二语音模型的超参数一致；

通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型，得到训练后的语音合成模型；

基于所述训练后的语音合成模型，根据所述待合成文本合成目标语音数据。
如权利要求1所述的语音合成方法，其中，在所述获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本之前，所述方法还包括：

在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型；

在所述语音服务器中存储所述待合成文本。
如权利要求2所述的语音合成方法，其中，在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型之前，所述方法还包括：

判断所述语音数据样本是否正确；

当所述语音数据样本正确时，在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型。
如权利要求1所述的语音合成方法，其中，所述根据所述语音类型从云服务器获取第一语音合成模型的模型参数包括：

根据所述语音类型获取所述语音类型与语音合成模型的关联关系；

根据所述关联关系从所述云服务器获取所述第一语音合成模型的模型参数。
如权利要求1所述的语音合成方法，其中，所述通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型包括：

通过所述语音服务器用所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练，更新所述第二语音合成模型的参数，得到更新后的模型参数；

通过所述语音服务器将所述更新后的模型参数上传至所述云服务器，使所述云服务器对各个语音服务器上传的参数进行聚合处理，得到聚合参数；

用所述语音服务器接收所述云服务器下发的所述聚合参数，用所述聚合参数更新所述第二语音合成模型的参数，得到所述训练后的语音合成模型。
如权利要求1-5中任一项所述语音合成方法，其中，所述语音合成方法还包括：

将所述目标语音数据从所述语音服务器同步至播报服务器；

控制所述播报服务器根据所述目标语音数据进行语音播报。
如权利要求1-5中任一项所述语音合成方法，其中，所述语音合成方法还包括：

将所述待合成文本和所述训练后的语音合成模型的模型参数发送至播报服务器；

控制所述播报服务器用本地的语音合成模型，根据所述待合成文本和所述训练后的语音合成模型的模型参数合成所述目标语音数据；

控制所述播报服务器根据所述目标语音数据进行语音播报。
一种语音合成装置，其中，所述语音合成装置包括：

获取模块，用于获取样本数据和所述样本数据的标识码；

转化模块，用于将所述样本数据转化为向量，得到所述样本数据的向量表示；

编码模块，用于对所述向量表示进行编码，得到所述样本数据的特征向量；

传输模块，用于将所述特征向量和所述标识码传输给数据请求端，使所述数据请求端根据所述标识码查找所述样本数据的标签，根据所述特征向量和所述标签进行语音合成模型训练。
一种计算机设备，其中，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机可读指令以实现以下步骤：

第一获取模块，用于获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本；

第二获取模块，用于根据所述语音类型从云服务器获取第一语音合成模型的模型参数；

初始化模块，用于用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型，所述第一语音合成模型的超参数与所述第二语音模型的超参数一致；

训练模块，用于通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型，得到训练后的语音合成模型；

合成模块，用于基于所述训练后的语音合成模型，根据所述待合成文本合成目标语音数据。
如权利要求9所述的计算机设备，其中，在所述获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本之前，所述处理器执行所述存储器中存储的计算机可读指令还用以实现以下步骤：

在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型；

在所述语音服务器中存储所述待合成文本。
如权利要求10所述的计算机设备，其中，在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型之前，所述处理器执行所述存储器中存储的计算机可读指令还用以实现以下步骤：

判断所述语音数据样本是否正确；

当所述语音数据样本正确时，在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型。
如权利要求9所述的计算机设备，其中，所述处理器执行所述存储器中存储的计算机可读指令以实现所述根据所述语音类型从云服务器获取第一语音合成模型的模型参数时，包括：

根据所述语音类型获取所述语音类型与语音合成模型的关联关系；

根据所述关联关系从所述云服务器获取所述第一语音合成模型的模型参数。
如权利要求9所述的计算机设备，其中，所述处理器执行所述存储器中存储的计算机可读指令以实现所述通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型时，包括：

通过所述语音服务器用所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练，更新所述第二语音合成模型的参数，得到更新后的模型参数；

通过所述语音服务器将所述更新后的模型参数上传至所述云服务器，使所述云服务器对各个语音服务器上传的参数进行聚合处理，得到聚合参数；

用所述语音服务器接收所述云服务器下发的所述聚合参数，用所述聚合参数更新所述第二语音合成模型的参数，得到所述训练后的语音合成模型。
如权利要求9-13中任一项所述的计算机设备，其中，所述处理器执行所述存储器中存储的计算机可读指令还用以实现以下步骤：

将所述目标语音数据从所述语音服务器同步至播报服务器；

控制所述播报服务器根据所述目标语音数据进行语音播报。
如权利要求9-13中任一项所述的计算机设备，其中，所述处理器执行所述存储器中存储的计算机可读指令还用以实现以下步骤：

将所述待合成文本和所述训练后的语音合成模型的模型参数发送至播报服务器；

控制所述播报服务器用本地的语音合成模型，根据所述待合成文本和所述训练后的语音合成模型的模型参数合成所述目标语音数据；

控制所述播报服务器根据所述目标语音数据进行语音播报。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其中，所述计算机可读指令被处理器执行时实现以下步骤：

获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本；

根据所述语音类型从云服务器获取第一语音合成模型的模型参数；

用所述第一语音合成模型的模型参数初始化本地的第二语音合成模型，所述第一语音合成模型的超参数与所述第二语音模型的超参数一致；

通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型，得到训练后的语音合成模型；

基于所述训练后的语音合成模型，根据所述待合成文本合成目标语音数据。
如权利要求16所述的存储介质，其中，在所述获取语音服务器中用户的语音数据样本、所述语音数据样本对应的文本数据样本、所述语音数据样本的语音类型和待合成文本之前，所述计算机可读指令被所述处理器执行还用以实现以下步骤：

在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型；

在所述语音服务器中存储所述待合成文本。
如权利要求17所述的存储介质，其中，在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型之前，所述计算机可读指令被所述处理器执行还用以实现以下步骤：

判断所述语音数据样本是否正确；

当所述语音数据样本正确时，在所述语音服务器中关联存储所述语音数据样本、所述文本数据样本、所述语音类型。
如权利要求16所述的存储介质，其中，所述计算机可读指令被所述处理器执行以实现所述根据所述语音类型从云服务器获取第一语音合成模型的模型参数时，包括：

根据所述语音类型获取所述语音类型与语音合成模型的关联关系；

根据所述关联关系从所述云服务器获取所述第一语音合成模型的模型参数。
如权利要求16所述的存储介质，其中，所述计算机可读指令被所述处理器执行以实现所述通过所述语音服务器和所述云服务器用所述语音数据样本和所述文本数据样本联合训练所述第二语音合成模型时，包括：

通过所述语音服务器用所述语音数据样本和所述文本数据样本对所述第二语音合成模型进行本地训练，更新所述第二语音合成模型的参数，得到更新后的模型参数；

通过所述语音服务器将所述更新后的模型参数上传至所述云服务器，使所述云服务器对各个语音服务器上传的参数进行聚合处理，得到聚合参数；

用所述语音服务器接收所述云服务器下发的所述聚合参数，用所述聚合参数更新所述第二语音合成模型的参数，得到所述训练后的语音合成模型。
如权利要求16-20中任一项所述的存储介质，其中，所述计算机可读指令被所述处理器执行还用以实现以下步骤：

将所述目标语音数据从所述语音服务器同步至播报服务器；

控制所述播报服务器根据所述目标语音数据进行语音播报。
如权利要求16-20中任一项所述的存储介质，其中，所述计算机可读指令被所述处理器执行还用以实现以下步骤：

将所述待合成文本和所述训练后的语音合成模型的模型参数发送至播报服务器；

控制所述播报服务器用本地的语音合成模型，根据所述待合成文本和所述训练后的语音合成模型的模型参数合成所述目标语音数据；

控制所述播报服务器根据所述目标语音数据进行语音播报。