WO2022141870A1 - 基于人工智能的语音合成方法、装置、计算机设备和介质 - Google Patents

基于人工智能的语音合成方法、装置、计算机设备和介质 Download PDF

Info

Publication number
WO2022141870A1
WO2022141870A1 PCT/CN2021/084214 CN2021084214W WO2022141870A1 WO 2022141870 A1 WO2022141870 A1 WO 2022141870A1 CN 2021084214 W CN2021084214 W CN 2021084214W WO 2022141870 A1 WO2022141870 A1 WO 2022141870A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
speech
feature
training data
features
Prior art date
Application number
PCT/CN2021/084214
Other languages
English (en)
French (fr)
Inventor
缪陈峰
梁爽
马骏
王少军
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2022141870A1 publication Critical patent/WO2022141870A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Definitions

  • the present application relates to the field of big data technology, and in particular, to a method, apparatus, computer equipment and medium for speech synthesis based on artificial intelligence.
  • an embodiment of the present application provides an artificial intelligence-based speech synthesis device, including:
  • an encoding processing module used for encoding and processing the text data to obtain text features corresponding to the text data
  • the prediction processing is used to perform prediction processing on the text features to obtain the alignment information of the corresponding text features
  • an embodiment of the present application provides a computer device, including: a memory, a processor, and a computer program stored in the memory and executable on the processor, where the processor executes the computer program When realized:
  • the text features are aligned and transformed to obtain the target speech corresponding to the speech synthesis request.
  • the server can input the parsed text data into a text encoder, namely Text-Encoder, and encode the text data through the text encoder to generate text features corresponding to the text data, or it can also be called is the text feature vector.
  • a text encoder namely Text-Encoder
  • the voice feature refers to feature data corresponding to voice format data, that is, feature data corresponding to voice data.
  • the text features are aligned and transformed by the alignment matrix to obtain the aligned voice features corresponding to the text features, so that the generated voice features are more accurate, thereby improving the accuracy of the target voice generated after decoding processing.
  • the server can input the text features into the initial prediction model, through the learning and training of the initial prediction model, and predict the prediction results of the output text features, that is, predict the prediction alignment matrix of the corresponding text features, and the prediction alignment matrix is the predicted text.
  • the feature alignment is transformed into an initial matrix of speech training data.
  • the prediction alignment matrix obtained from the training output of the initial prediction model can be a one-dimensional vector matrix, which can be represented by ⁇ , and ⁇ j represents the jth vector element of the vector matrix ⁇ , and
  • the text training data and the voice training data in the training data pair are encoded respectively to obtain the text features corresponding to the text training data and the voice features corresponding to the voice training data, and then determine the text length based on the text features. , based on the voice features, determine the voice length, and generate the alignment matrix corresponding to the training data pair according to the text length and voice length, so that the obtained alignment matrix can be the standard matrix corresponding to the text training data and the voice training data, which can improve the model training performance. accuracy, thereby improving the accuracy of predictions.
  • the storage in the node of the blockchain can be guaranteed.
  • the privacy of data can improve the security of data.
  • the prediction processing 300 performs prediction processing on the text features, and obtains alignment information corresponding to the text features as predicted by a pre-trained prediction model.
  • the above device may also include:
  • the training module is used to train the prediction model according to the preset training method.
  • the training module may include:
  • an alignment matrix corresponding to the training data pair is generated according to the text feature and the voice feature, which may include: determining a text feature vector corresponding to the text feature based on the text feature; based on the voice feature , determine the speech feature vector corresponding to the speech feature; generate an alignment matrix corresponding to the training data pair according to the text feature vector and the speech feature vector.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

涉及大数据技术领域,特别是涉及一种基于人工智能的语音合成方法、装置、计算机设备和存储介质。所述方法包括:接收语音合成请求,语音合成请求携带有待合成语音的文本数据(S202);对文本数据进行编码处理,得到对应文本数据的文本特征(S204);对文本特征进行预测处理,得到对应文本特征的对齐信息(S206);基于对齐信息,构建对应文本特征的对齐矩阵(S208);通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音(S210)。采用本方法能够提升语音合成准确性。还涉及区块链技术领域,语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音等均可以上传至区块链。

Description

基于人工智能的语音合成方法、装置、计算机设备和介质
本申请要求于2020年12月31日在中国专利局提交的、申请号为2020116385828、发明名称为“基于人工智能的语音合成方法、装置、计算机设备和介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及大数据技术领域,特别是涉及一种基于人工智能的语音合成方法、装置、计算机设备和介质。
背景技术
随着神经网络模型的发展,基于神经网络的语音合成(Text To Speech,TTS)技术已经越来越升入人们的生活中。
发明人意识到在传统方式中,基于神经网络的语音合成系统分为两大类,即自回归和非自回归模型,自回归模型存在合成音频时间长以及效果差的问题,而非自回归模型受限于输入输出长度不一致,很难对齐,从而合成的语音效果较差,准确性低。
技术问题
本申请实施例提供了一种基于人工智能的语音合成方法、装置、计算机设备和介质,包括但不限于解决传统方式中文本数据与语音数据难以对齐的问题。
技术解决方案
第一方面,本申请实施例提供了一种基于人工智能的语音合成方法,包括:
接收语音合成请求,语音合成请求携带有待合成语音的文本数据;
对文本数据进行编码处理,得到对应文本数据的文本特征;
对文本特征进行预测处理,得到对应文本特征的对齐信息;
基于对齐信息,构建对应文本特征的对齐矩阵;
通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音。
第二方面,本申请实施例提供了一种基于人工智能的语音合成装置,包括:
语音合成请求接收模块,用于接收语音合成请求,语音合成请求携带有待合成语音的文本数据;
编码处理模块,用于对文本数据进行编码处理,得到对应文本数据的文本特征;
预测处理,用于对文本特征进行预测处理,得到对应文本特征的对齐信息;
对齐矩阵构建模块,用于基于对齐信息,构建对应文本特征的对齐矩阵;
对齐转换模块,用于通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音。
第三方面,本申请实施例提供了一种计算机设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现:
接收语音合成请求,语音合成请求携带有待合成语音的文本数据;
对文本数据进行编码处理,得到对应文本数据的文本特征;
对文本特征进行预测处理,得到对应文本特征的对齐信息;
基于对齐信息,构建对应文本特征的对齐矩阵;
通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现:
接收语音合成请求,语音合成请求携带有待合成语音的文本数据;
对文本数据进行编码处理,得到对应文本数据的文本特征;
对文本特征进行预测处理,得到对应文本特征的对齐信息;
基于对齐信息,构建对应文本特征的对齐矩阵;
通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音。
有益效果
本申请实施例与现有技术相比存在的有益效果是:通过接收语音合成请求,语音合成请求携带有待合成语音的文本数据;对文本数据进行编码处理,得到对应文本数据的文本特征;对文本特征进行预测处理,得到对应文本特征的对齐信息;基于对齐信息,构建对应文本特征的对齐矩阵;通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音。从而,可以根据文本数据对应的文本特征对对应的对齐信息预测,并基于预测得到的对齐信息进行对齐矩阵的建立,并进行对齐转换,可以解决传统方式中文本数据与语音数据难以对齐的问题,可以提升目标语音的生成效果,提升准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或示范性技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为一个实施例中基于人工智能的语音合成方法的应用场景图;
图2为一个实施例中基于人工智能的语音合成方法的流程示意图;
图3为另一个实施例中基于人工智能的语音合成方法的示意图;
图4为一个实施例中预测模型训练过程的示意图;
图5为一个实施例中基于人工智能的语音合成装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
本发明的实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于人工智能的语音合成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。用户可以通过终端102生成语音合成请求,并发送至服务器104,语音合成请求携带有待合成语音的文本数据,。服务器104在接收到语音合成请求后,可以对文本数据进行编码处理,得到对应文本数据的文本特征。然后服务器104可以对文本特征进行预测处理,得到对应文本特征的对齐信息,并基于对齐信息,构建对应文本特征的对齐矩阵。进一步,服务器104可以通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于人工智能的语音合成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,接收语音合成请求,语音合成请求携带有待合成语音的文本数据。
其中,语音合成请求是指请求合成语音数据的请求,语音合成请求中可以包括待合成语音的文本数据,例如,文本内容“abc”等。
在本实施例中,文本数据可以包括但不限于各种不同语言或者是不同表现形式的文本数据,例如,可以是中文汉字,也可以是数字,或者是英文字符等。
在本实施例中,用户可以通过终端设备输入待合成的语音对应的文本数据,然后通过终端设备生成语音合成请求,并发送至服务器。服务器在接收到语义合成请求的时候,可以基于语音合成请求中的文本数据,进行后续的处理。
步骤S204,对文本数据进行编码处理,得到对应文本数据的文本特征。
其中,编码处理是指将文本数据转变为高维文本特征的处理过程。
在本实施例中,服务器在获取到语音合成请求后,可以对语音合成请求进行解析处理,以从中解析出对应的文本数据。
进一步,参考图3,服务器可以将解析得到的文本数据输入文本编码器,即Text-Encoder中,并通过文本编码器对文本数据进行编码处理,生成对应文本数据的文本特征,或者也可以称之为文本特征向量。
具体地,服务器可以通过Text-Encoder将文本数据拆分为多个文本字符,然后将各个文本字符转化为文本特征向量。
步骤S206,对文本特征进行预测处理,得到对应文本特征的对齐信息。
其中,对齐信息是指与文本特征所对应的初始对齐矩阵,通过初始对齐矩阵可以建立与文本特征与对应语音数据之间的对应关系。
在本实施例中,初始对齐矩阵可以表示为π,初始对齐矩阵π可以是一个一维向量,πj表示向量矩阵π的第j个向量元素,且满足关系式Δπ j=π jj-1,且0≤Δπ j≤1。
在本实施例中,服务器可以通过预先训练完成的预测模型,对得到的文本特征进行预测处理,以得到对应文本特征的对齐信息。继续参考图3,服务器可以通过A.P.Predictor(Aligned position predictor,对齐位置预测器)对文本特征进行预测处理。
步骤S208,基于对齐信息,构建对应文本特征的对齐矩阵。
其中,对齐矩阵是指用于对文本特征进行对齐转换的矩阵,对齐矩阵可以用于对文本特征进行对齐转换,以得到时间对齐后的数据。
在本实施例中,服务器可以基于预测到的对齐信息,即初始对齐矩阵π,构建对应文本特征的对齐矩阵。
例如,服务器可以根据初始对齐矩阵π以及文本特征pi,构建对应文本特征的对齐矩阵α,具体可以通过如下公式(1)表示:
Figure PCTCN2021084214-appb-000001
其中,α i,j表示对齐矩阵α中第i行第j列的矩阵元素,pi表示文本特征中的第i个特征,pm表示文本特征中的第m个特征,δ代表对齐方差,T1表示文本特征的长度。
步骤S210,通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音。
具体地,服务器可以根据得到的对齐矩阵,对文本数据对应的各文本特征进行对齐转换,转换为对应的语音数据,以得到对应所述语音合成请求的目标语音。
在本实施例中,服务器得到的目标语音可以是语音频谱或者是语音,例如,服务器可以通过语义生成器直接生成语音频谱,或者是通过声码器直接生成语音。
上述基于人工智能的语音合成方法中,通过接收语音合成请求,语音合成请求携带有待合成语音的文本数据;对文本数据进行编码处理,得到对应文本数据的文本特征;对文本特征进行预测处理,得到对应文本特征的对齐信息;基于对齐信息,构建对应文本特征的对齐矩阵;通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音。从而,可以根据文本数据对应的文本特征对对应的对齐信息预测,并基于预测得到的对齐信息进行对齐矩阵的建立,并进行对齐转换,可以解决传统方式中文本数据与语音数据难以对齐的问题,可以提升目标语音的生成效果,提升准确性。
在其中一个实施例中,通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音,可以包括:通过对齐矩阵,对文本特征进行对齐转换,得到对应文本特 征对齐后的语音特征;对语音特征进行解码处理,生成对应语音合成请求的目标语音。
其中,语音特征是指对应于语音格式数据的特征数据,即对应语音数据的特征数据。
在本实施例中,语音数据可以是指语音频谱或者是语音,或者是二者的组合,本申请对此不作限制。
在本实施例中,服务器可以通过对齐矩阵,将文本特征中各特征数据进行一一对齐转换,转换为对应位置的语音特征。继续参考图3,服务器可以通过重构模块Align.reconstruction,将文本编码器Text-Encoder生成的文本特征对齐转换为对应目标语音的语音特征。
在本实施例中,服务器对各文本特征进行对齐转换可以是并行进行的,从而可以提升对齐转换的效率,节约对齐转换的时间。
进一步,服务器在完成对文本特征的转换后,可以通过对转换得到的语音特征进行解码处理,即通过图3中生成器Decoder将语音特征解码为对应的目标语音。
具体地,服务器通过生成器Decoder将向量化的语音特征转换为一段一段的声音信号,然后按照先后顺序,将声音信号组合成语音数据,并输出为目标语音。
上述实施例中,通过对齐矩阵对文本特征进行对齐转换,得到对应文本特征且对齐后的语音特征,使得生成的语音特征较为准确,进而可以提升解码处理后生成的目标语音的准确性。
在其中一个实施例中,对文本特征进行预测处理,得到对应文本特征的对齐信息为预先训练的预测模型预测的,预测模型的训练方式可以包括:获取训练数据对,训练数据对包括配对的文本训练数据以及语音训练数据;对文本训练数据以及语音训练数据分别进行编码处理,得到对应文本训练数据的文本特征以及对应语音训练数据的语音特征;将文本特征输入初始预测模型中,对初始预测模型进行训练,并通过初始预测模型输出对应文本特征的预测结果;根据文本特征以及语音特征,生成对应训练数据对的对齐矩阵;根据对齐矩阵以及预测结果,确定初始预测模型的模型损失,并基于模型损失,对初始预测模型进行迭代训练,得到预测模型。
其中,训练数据对是指包括配对的文本训练数据以及对应的语音训练数据的数据,例如,文本数据“abc”及其对应的语音频谱或者是语音。
在本实施例中,服务器可以通过编码器对文本训练数据以及语音训练数据分别进行编码处理。参考图4,例如,服务器可以通过文本编码器Text-Encoder对文本训练数据进行拆分,并进行编码处理,得到对应文本训练数据的文本特征,以及通过频谱编码器Mel-Encoder将语音训练数据拆分为多段语音,并进行编码转化,得到对应语音训练数据的语音特征。该文本特征以及语音特征均为向量化的特征数据。
进一步,服务器可以将文本特征输入初始预测模型中,通过初始预测模型的学习训练,并预测输出文本特征的预测结果,即预测对应文本特征的预测对齐矩阵,该预测对齐矩阵为预测得到的将文本特征对齐转换为语音训练数据的初始矩阵。
在本实施例中,继续参考图4,初始预测模型可以是图中的A.P.Predictor(Aligned position predictor,对齐位置预测器)。
在本实施例中,为了简化模型的训练复杂度,初始预测模型训练输出得到的预测对齐矩阵可以是一维的向量矩阵,可以通过π表示,πj表示向量矩阵π的第j个向量元素,且满足关系式π 0=0,Δπ j=π jj-1,且0≤Δπ j≤1。
其中,0≤Δπ j≤1表示向量矩阵π中,前一向量元素必然大于后一向量元素,预测模型是单调递增的模型。
在本实施例中,继续参考图4,服务器还可以通过索引映射向量生成器(index mapping vector Generator,IMV Generator),根据文本训练数据以及语音训练数据,生成索引映射 向量(index mapping vector,IMV),即对齐矩阵,该对齐矩阵为将文本训练数据对齐转化为语音训练数据的标准矩阵。
在本实施例中,对齐矩阵可以通过α表示,α i,j表示对齐矩阵α中第i行第j列的矩阵元素。
在本实施例中,为了使得预测模型可以仅根据文本数据预测得到对应的语音数据,预测对齐矩阵π与对齐矩阵α之间需要满足如下对应关系,即如公式(2)所示。
Figure PCTCN2021084214-appb-000002
其中,pi为文本特征。
进一步,服务器可以根据预测得到的预测对齐矩阵和根据文本训练数据以及语音训练数据得到的对齐矩阵进行模型损失的计算,即计算初始预测模型的模型损失A.P.Loss。
在本实施例中,服务器可以基于文本特征将一维的预测对齐矩阵π转换为二维的预测对齐矩阵,然后基于二维的预测对齐矩阵与对齐矩阵α进行模型损失的计算。
进一步,服务器可以通过计算得到的模型损失A.P.Loss对初始预测模型进行参数更新,并进行迭代训练,直至模型损失A.P.Loss趋于稳定,模型训练完成。
在本实施例中,服务器也可以设定模型训练的新来参数,例如,训练次数,新来精度等,以使得基于训练参数进行模型的训练。
上述实施例中,通过对初始预测模型进行训练,得到预测模型,然后通过训练完成的预测模型进行对齐信息的预测,可以提升得到的对齐信息的准确性,进而可以提升得到的目标语音的准确性。
在其中一个实施例中,根据文本特征以及语音特征,生成对应训练数据对的对齐矩阵,可以包括:基于文本特征,确定对应文本特征的文本特征向量;基于语音特征,确定对应语音特征的语音特征向量;根据文本特征向量以及语音特征向量,生成对应训练数据对的对齐矩阵。
在本实施例中,服务器可以基于得到的文本特征以及语音特征,确定对应的文本特征向量以及语音特征向量,文本特征向量可以表示为P,pi标识文本特征向量中第i个向量元素,文本特征向量P中向量元素数量为t1,语音特征向量可以表示为Q,qj表示语音特征向量中第j个向量元素,语音特征向量Q中向量元素数量为t2。
进一步,服务器基于确定的文本特征向量以及语音特征向量,通过索引映射向量生成器IMV Generator建立对应的对齐矩阵IMV,例如,根据文本特征向量P以及语音特征向量Q建立对齐矩阵α,对齐矩阵α为t1*t2的矩阵。
上述实施例中,通过对训练数据对中的文本训练数据以及语音训练数据分别进行编码处理,得到对应文本训练数据的文本特征以及对应语音训练数据的语音特征,然后基于文本特征,确定文文本长度,基于语音特征,确定语音长度,并根据文本长度以及语音长度,生成对应训练数据对的对齐矩阵,可以使得得到的对齐矩阵为对应文本训练数据以及语音训练数据的标准矩阵,可以提升模型训练的准确性,进而提升预测的准确性。
在其中一个实施例中,根据文本特征以及语音特征,生成对应训练数据对的对齐矩阵之后,还可以包括:根据对齐矩阵,对文本训练数据进行对齐转换,得到文本转换语音特征;对文本转换语音特征进行解码转换,生成对应文本训练数据的转换语音数据;根据转换语音数据以及语音训练数据,计算解码转换的转换损失,并根据转换损失进行迭代训练,直至转换损失稳定。
继续参考图4,服务器通过索引映射向量生成器IMV Generator生成对应训练数据对的 对齐矩阵IMV后,可以将文本训练数据以及对齐矩阵IMV输入重构模块Align.reconstruction中,通过对齐矩阵IMV对文本训练数据进行对齐转换,生成对应的文本转换语音特征。
进一步,服务器可以通过生成器Decoder对生成的本转换语音特征进行解码处理,以生成对应文本训练数据对应的转换语音数据。
在本实施例中,服务器可以根据生成的转换语音数据以及训练数据对中的语音训练数据,进行损失计算,以确定在对文本转换语音特征进行解码转换过程中的转换损失。
在本实施例中,转换损失主要是生成器Decoder的生成转换损失Decoder Loss。服务器可以基于计算得到的生成转换损失Decoder Loss对生成器Decoder进行迭代训练,并在生成转换损失Decoder Loss区域稳定时,确定生成器Decoder训练完成。
上述实施例中,通过根据对齐矩阵,对文本训练数据进行对齐转换,得到文本转换语音特征,然后对文本转换语音特征进行解码转换,生成对应文本训练数据的转换语音数据,并根据转换语音数据以及语音训练数据,计算解码转换的转换损失,并根据转换损失进行迭代训练,直至转换损失稳定,从而,可以使得解码转换处理更加准确,可以提升生成的目标语音的准确性。
在其中一个实施例中,上述方法还可以包括:将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中的至少一个上传至区块链节点中进行存储。
其中,区块链是指分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Block chain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
具体地,区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本实施例中,服务器可以将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中的一个或者多个数据上传并存储于区块链的节点中,以保证数据的私密性和安全性。
上述实施例中,通过将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中至少一个上传至区块链并存储于区块链的节点中,从而可以保障存储至区块链节点中数据的私密性,可以提升数据的安全性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种基于人工智能的语音合成装置,包括:语音合成请求接收模块100、编码处理模块200、预测处理300、对齐矩阵构建模块400以及对齐转换模块500,其中:
语音合成请求接收模块100,用于接收语音合成请求,语音合成请求携带有待合成语音的文本数据。
编码处理模块200,用于对文本数据进行编码处理,得到对应文本数据的文本特征。
预测处理300,用于对文本特征进行预测处理,得到对应文本特征的对齐信息。
对齐矩阵构建模块400,用于基于对齐信息,构建对应文本特征的对齐矩阵。
对齐转换模块500,用于通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音。
在其中一个实施例中,对齐转换模块500可以包括:
语音特征生成子模块,用于通过对齐矩阵,对文本特征进行对齐转换,得到对应文本 特征对齐后的语音特征。
解码处理模块,用于对语音特征进行解码处理,生成对应语音合成请求的目标语音。
在其中一个实施例中,预测处理300对文本特征进行预测处理,得到对应文本特征的对齐信息为预先训练的预测模型预测的。上述装置还可以包括:
训练模块,用于根据预设的训练方式进行预测模型的训练。
在本实施例中,训练模块可以包括:
训练数据对获取子模块,用于获取训练数据对,训练数据对包括配对的文本训练数据以及语音训练数据。
编码处理子模块,用于对文本训练数据以及语音训练数据分别进行编码处理,得到对应文本训练数据的文本特征以及对应语音训练数据的语音特征。
训练与预测子模块,用于将文本特征输入初始预测模型中,对初始预测模型进行训练,并通过初始预测模型输出对应文本特征的预测结果。
对齐矩阵建立子模块,用于根据文本特征以及语音特征,生成对应训练数据对的对齐矩阵。
模型损失计算子模块,用于根据对齐矩阵以及预测结果,确定初始预测模型的模型损失,并基于模型损失,对初始预测模型进行迭代训练,得到预测模型。
在其中一个实施例中,对齐矩阵建立子模块可以包括:
文本特征向量确定单元,用于基于文本特征,确定对应文本特征的文本特征向量。
语音特征向量确定单元,用于基于语音特征,确定对应语音特征的语音特征向量。
对齐矩阵建立单元,用于根据文本特征向量以及语音特征向量,生成对应训练数据对的对齐矩阵。
在其中一个实施例中,上述装置还可以包括:
文本转换语音特征生成模块,用于根据文本特征以及语音特征,生成对应训练数据对的对齐矩阵之后,根据对齐矩阵,对文本训练数据进行对齐转换,得到文本转换语音特征。
解码转换模块,用于对文本转换语音特征进行解码转换,生成对应文本训练数据的转换语音数据。
转换损失计算模块,用于根据转换语音数据以及语音训练数据,计算解码转换的转换损失,并根据转换损失进行迭代训练,直至转换损失稳定。
在其中一个实施例中,上述装置还可以包括:
存储模块,用于将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中的至少一个上传至区块链节点中进行存储。
关于基于人工智能的语音合成装置的具体限定可以参见上文中对于基于人工智能的语音合成方法的限定,在此不再赘述。上述基于人工智能的语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的语音合成方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可 以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:接收语音合成请求,语音合成请求携带有待合成语音的文本数据;对文本数据进行编码处理,得到对应文本数据的文本特征;对文本特征进行预测处理,得到对应文本特征的对齐信息;基于对齐信息,构建对应文本特征的对齐矩阵;通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音。
在其中一个实施例中,处理器执行计算机程序时实现通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音,可以包括:通过对齐矩阵,对文本特征进行对齐转换,得到对应文本特征对齐后的语音特征;对语音特征进行解码处理,生成对应语音合成请求的目标语音。
在其中一个实施例中,处理器执行计算机程序时实现对文本特征进行预测处理,得到对应文本特征的对齐信息为预先训练的预测模型预测的,预测模型的训练方式可以包括:获取训练数据对,训练数据对包括配对的文本训练数据以及语音训练数据;对文本训练数据以及语音训练数据分别进行编码处理,得到对应文本训练数据的文本特征以及对应语音训练数据的语音特征;将文本特征输入初始预测模型中,对初始预测模型进行训练,并通过初始预测模型输出对应文本特征的预测结果;根据文本特征以及语音特征,生成对应训练数据对的对齐矩阵;根据对齐矩阵以及预测结果,确定初始预测模型的模型损失,并基于模型损失,对初始预测模型进行迭代训练,得到预测模型。
在其中一个实施例中,处理器执行计算机程序时实现根据文本特征以及语音特征,生成对应训练数据对的对齐矩阵,可以包括:基于文本特征,确定对应文本特征的文本特征向量;基于语音特征,确定对应语音特征的语音特征向量;根据文本特征向量以及语音特征向量,生成对应训练数据对的对齐矩阵。
在其中一个实施例中,处理器执行计算机程序时实现根据文本特征以及语音特征,生成对应训练数据对的对齐矩阵之后,还可以实现以下步骤:根据对齐矩阵,对文本训练数据进行对齐转换,得到文本转换语音特征;对文本转换语音特征进行解码转换,生成对应文本训练数据的转换语音数据;根据转换语音数据以及语音训练数据,计算解码转换的转换损失,并根据转换损失进行迭代训练,直至转换损失稳定。
在其中一个实施例中,处理器执行计算机程序时还可以实现以下步骤:将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中的至少一个上传至区块链节点中进行存储。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收语音合成请求,语音合成请求携带有待合成语音的文本数据;对文本数据进行编码处理,得到对应文本数据的文本特征;对文本特征进行预测处理,得到对应文本特征的对齐信息;基于对齐信息,构建对应文本特征的对齐矩阵;通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音。
在其中一个实施例中,计算机程序被处理器执行时实现通过对齐矩阵,对文本特征进行对齐转换,得到对应语音合成请求的目标语音,可以包括:通过对齐矩阵,对文本特征进行对齐转换,得到对应文本特征对齐后的语音特征;对语音特征进行解码处理,生成对应语音合成请求的目标语音。
在其中一个实施例中,计算机程序被处理器执行时实现对文本特征进行预测处理,得到对应文本特征的对齐信息为预先训练的预测模型预测的,预测模型的训练方式可以包括:获取训练数据对,训练数据对包括配对的文本训练数据以及语音训练数据;对文本训练数据以及语音训练数据分别进行编码处理,得到对应文本训练数据的文本特征以及对应语音训练数据的语音特征;将文本特征输入初始预测模型中,对初始预测模型进行训练,并通过初始预测模型输出对应文本特征的预测结果;根据文本特征以及语音特征,生成对应训 练数据对的对齐矩阵;根据对齐矩阵以及预测结果,确定初始预测模型的模型损失,并基于模型损失,对初始预测模型进行迭代训练,得到预测模型。
在其中一个实施例中,计算机程序被处理器执行时实现根据文本特征以及语音特征,生成对应训练数据对的对齐矩阵,可以包括:基于文本特征,确定对应文本特征的文本特征向量;基于语音特征,确定对应语音特征的语音特征向量;根据文本特征向量以及语音特征向量,生成对应训练数据对的对齐矩阵。
在其中一个实施例中,计算机程序被处理器执行时实现根据文本特征以及语音特征,生成对应训练数据对的对齐矩阵之后,还可以实现以下步骤:根据对齐矩阵,对文本训练数据进行对齐转换,得到文本转换语音特征;对文本转换语音特征进行解码转换,生成对应文本训练数据的转换语音数据;根据转换语音数据以及语音训练数据,计算解码转换的转换损失,并根据转换损失进行迭代训练,直至转换损失稳定。
在其中一个实施例中,计算机程序被处理器执行时还可以实现以下步骤:将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中的至少一个上传至区块链节点中进行存储。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (20)

  1. 一种基于人工智能的语音合成方法,其中,所述方法包括:
    接收语音合成请求,所述语音合成请求携带有待合成语音的文本数据;
    对所述文本数据进行编码处理,得到对应所述文本数据的文本特征;
    对所述文本特征进行预测处理,得到对应所述文本特征的对齐信息;
    基于所述对齐信息,构建对应所述文本特征的对齐矩阵;
    通过所述对齐矩阵,对所述文本特征进行对齐转换,得到对应所述语音合成请求的目标语音。
  2. 根据权利要求1所述的方法,其中,所述通过所述对齐矩阵,对所述文本特征进行对齐转换,得到对应所述语音合成请求的目标语音,包括:
    通过所述对齐矩阵,对所述文本特征进行对齐转换,得到对应所述文本特征对齐后的语音特征;
    对所述语音特征进行解码处理,生成对应所述语音合成请求的目标语音。
  3. 根据权利要求1所述的方法,其中,所述对所述文本特征进行预测处理,得到对应所述文本特征的对齐信息为预先训练的预测模型预测的,所述预测模型的训练方式包括:
    获取训练数据对,所述训练数据对包括配对的文本训练数据以及语音训练数据;
    对所述文本训练数据以及所述语音训练数据分别进行编码处理,得到对应所述文本训练数据的文本特征以及对应所述语音训练数据的语音特征;
    将所述文本特征输入初始预测模型中,对所述初始预测模型进行训练,并通过所述初始预测模型输出对应所述文本特征的预测结果;
    根据所述文本特征以及所述语音特征,生成对应所述训练数据对的对齐矩阵;
    根据所述对齐矩阵以及所述预测结果,确定所述初始预测模型的模型损失,并基于所述模型损失,对所述初始预测模型进行迭代训练,得到所述预测模型。
  4. 根据权利要求3所述的方法,其中,所述根据所述文本特征以及所述语音特征,生成对应所述训练数据对的对齐矩阵,包括:
    基于所述文本特征,确定对应所述文本特征的文本特征向量;
    基于所述语音特征,确定对应所述语音特征的语音特征向量;
    根据所述文本特征向量以及所述语音特征向量,生成对应所述训练数据对的对齐矩阵。
  5. 根据权利要求3所述的方法,其中,所述根据所述文本特征以及所述语音特征,生成对应所述训练数据对的对齐矩阵之后,还包括:
    根据所述对齐矩阵,对所述文本训练数据进行对齐转换,得到文本转换语音特征;
    对所述文本转换语音特征进行解码转换,生成对应所述文本训练数据的转换语音数据;
    根据所述转换语音数据以及所述语音训练数据,计算所述解码转换的转换损失,并根据所述转换损失进行迭代训练,直至所述转换损失稳定。
  6. 根据权利要求1至5任一项所述的方法,其中,所述方法还包括:
    将所述语音合成请求、所述文本特征、所述对齐信息、所述对齐矩阵以及所述目标语音中的至少一个上传至区块链节点中进行存储。
  7. 一种基于人工智能的语音合成装置,其中,所述装置包括:
    语音合成请求接收模块,用于接收语音合成请求,所述语音合成请求携带有待合成语音的文本数据;
    编码处理模块,用于对所述文本数据进行编码处理,得到对应所述文本数据的文本特征;
    预测处理,用于对所述文本特征进行预测处理,得到对应所述文本特征的对齐信息;
    对齐矩阵构建模块,用于基于所述对齐信息,构建对应所述文本特征的对齐矩阵;
    对齐转换模块,用于通过所述对齐矩阵,对所述文本特征进行对齐转换,得到对应所 述语音合成请求的目标语音。
  8. 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现:
    接收语音合成请求,所述语音合成请求携带有待合成语音的文本数据;
    对所述文本数据进行编码处理,得到对应所述文本数据的文本特征;
    对所述文本特征进行预测处理,得到对应所述文本特征的对齐信息;
    基于所述对齐信息,构建对应所述文本特征的对齐矩阵;
    通过所述对齐矩阵,对所述文本特征进行对齐转换,得到对应所述语音合成请求的目标语音。
  9. 如权利要求8所述的计算机设备,其中,所述处理器执行所述计算机程序时还实现:
    通过语音识别算法对所述语音信息进行识别,提取所述语音信息中的声学特征;
    根据所述声学特征,将语音信息转化为文本信息。
  10. 如权利要求8所述的计算机设备,其中,所述处理器执行所述计算机程序时还实现:
    通过所述对齐矩阵,对所述文本特征进行对齐转换,得到对应所述文本特征对齐后的语音特征;
    对所述语音特征进行解码处理,生成对应所述语音合成请求的目标语音。
  11. 如权利要求8所述的计算机设备,其中,所述处理器执行所述计算机程序时还实现:
    获取训练数据对,所述训练数据对包括配对的文本训练数据以及语音训练数据;
    对所述文本训练数据以及所述语音训练数据分别进行编码处理,得到对应所述文本训练数据的文本特征以及对应所述语音训练数据的语音特征;
    将所述文本特征输入初始预测模型中,对所述初始预测模型进行训练,并通过所述初始预测模型输出对应所述文本特征的预测结果;
    根据所述文本特征以及所述语音特征,生成对应所述训练数据对的对齐矩阵;
    根据所述对齐矩阵以及所述预测结果,确定所述初始预测模型的模型损失,并基于所述模型损失,对所述初始预测模型进行迭代训练,得到所述预测模型。
  12. 如权利要求11所述的计算机设备,其中,所述处理器执行所述计算机程序时还实现:
    基于所述文本特征,确定对应所述文本特征的文本特征向量;
    基于所述语音特征,确定对应所述语音特征的语音特征向量;
    根据所述文本特征向量以及所述语音特征向量,生成对应所述训练数据对的对齐矩阵。
  13. 如权利要求11所述的计算机设备,其中,所述处理器执行所述计算机程序时还实现:
    根据所述对齐矩阵,对所述文本训练数据进行对齐转换,得到文本转换语音特征;
    对所述文本转换语音特征进行解码转换,生成对应所述文本训练数据的转换语音数据;
    根据所述转换语音数据以及所述语音训练数据,计算所述解码转换的转换损失,并根据所述转换损失进行迭代训练,直至所述转换损失稳定。
  14. 如权利要求8-13任一项所述的计算机设备,其中,所述处理器执行所述计算机程序时还实现:
    将所述语音合成请求、所述文本特征、所述对齐信息、所述对齐矩阵以及所述目标语音中的至少一个上传至区块链节点中进行存储。
  15. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现:
    接收语音合成请求,所述语音合成请求携带有待合成语音的文本数据;
    对所述文本数据进行编码处理,得到对应所述文本数据的文本特征;
    对所述文本特征进行预测处理,得到对应所述文本特征的对齐信息;
    基于所述对齐信息,构建对应所述文本特征的对齐矩阵;
    通过所述对齐矩阵,对所述文本特征进行对齐转换,得到对应所述语音合成请求的目标语音。
  16. 如权利要求15所述的计算机可读存储介质,其中,所述计算机程序被处理器执行时还实现:
    通过所述对齐矩阵,对所述文本特征进行对齐转换,得到对应所述文本特征对齐后的语音特征;
    对所述语音特征进行解码处理,生成对应所述语音合成请求的目标语音。
  17. 如权利要求15所述的计算机可读存储介质,其中,所述计算机程序被处理器执行时还实现:
    获取训练数据对,所述训练数据对包括配对的文本训练数据以及语音训练数据;
    对所述文本训练数据以及所述语音训练数据分别进行编码处理,得到对应所述文本训练数据的文本特征以及对应所述语音训练数据的语音特征;
    将所述文本特征输入初始预测模型中,对所述初始预测模型进行训练,并通过所述初始预测模型输出对应所述文本特征的预测结果;
    根据所述文本特征以及所述语音特征,生成对应所述训练数据对的对齐矩阵;
    根据所述对齐矩阵以及所述预测结果,确定所述初始预测模型的模型损失,并基于所述模型损失,对所述初始预测模型进行迭代训练,得到所述预测模型。
  18. 如权利要求17所述的计算机可读存储介质,其中,所述计算机程序被处理器执行时还实现:
    基于所述文本特征,确定对应所述文本特征的文本特征向量;
    基于所述语音特征,确定对应所述语音特征的语音特征向量;
    根据所述文本特征向量以及所述语音特征向量,生成对应所述训练数据对的对齐矩阵。
  19. 如权利要求17所述的计算机可读存储介质,其中,所述计算机程序被处理器执行时还实现:
    根据所述对齐矩阵,对所述文本训练数据进行对齐转换,得到文本转换语音特征;
    对所述文本转换语音特征进行解码转换,生成对应所述文本训练数据的转换语音数据;
    根据所述转换语音数据以及所述语音训练数据,计算所述解码转换的转换损失,并根据所述转换损失进行迭代训练,直至所述转换损失稳定。
  20. 如权利要求15-19任一项所述的计算机可读存储介质,其中,所述计算机程序被处理器执行时还实现:
    将所述语音合成请求、所述文本特征、所述对齐信息、所述对齐矩阵以及所述目标语音中的至少一个上传至区块链节点中进行存储。
PCT/CN2021/084214 2020-12-31 2021-03-31 基于人工智能的语音合成方法、装置、计算机设备和介质 WO2022141870A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011638582.8 2020-12-31
CN202011638582.8A CN112837673B (zh) 2020-12-31 2020-12-31 基于人工智能的语音合成方法、装置、计算机设备和介质

Publications (1)

Publication Number Publication Date
WO2022141870A1 true WO2022141870A1 (zh) 2022-07-07

Family

ID=75926789

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/084214 WO2022141870A1 (zh) 2020-12-31 2021-03-31 基于人工智能的语音合成方法、装置、计算机设备和介质

Country Status (2)

Country Link
CN (1) CN112837673B (zh)
WO (1) WO2022141870A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450761B (zh) * 2021-06-17 2023-09-22 清华大学深圳国际研究生院 一种基于变分自编码器的并行语音合成方法和装置
CN113591639A (zh) * 2021-07-20 2021-11-02 北京爱笔科技有限公司 对齐框架的训练方法、装置、计算机设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
US20160365087A1 (en) * 2015-06-12 2016-12-15 Geulah Holdings Llc High end speech synthesis
US20180247636A1 (en) * 2017-02-24 2018-08-30 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
CN111161702A (zh) * 2019-12-23 2020-05-15 爱驰汽车有限公司 个性化语音合成方法、装置、电子设备、存储介质
CN111710326A (zh) * 2020-06-12 2020-09-25 携程计算机技术(上海)有限公司 英文语音的合成方法及系统、电子设备及存储介质
CN112002305A (zh) * 2020-07-29 2020-11-27 北京大米科技有限公司 语音合成方法、装置、存储介质及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215632B (zh) * 2018-09-30 2021-10-08 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
KR102311239B1 (ko) * 2019-01-15 2021-10-12 한양대학교 산학협력단 심화 신경망 기반의 비-자동회귀 음성 합성 방법 및 시스템
CN109767752B (zh) * 2019-02-27 2023-05-26 平安科技(深圳)有限公司 一种基于注意力机制的语音合成方法及装置
KR20200115102A (ko) * 2019-03-28 2020-10-07 에스케이하이닉스 주식회사 유사도에 따라 후보 선택을 가속하는 방법 및 후보 선택을 수행하는 가속기
CN110264991B (zh) * 2019-05-20 2023-12-22 平安科技(深圳)有限公司 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
US20160365087A1 (en) * 2015-06-12 2016-12-15 Geulah Holdings Llc High end speech synthesis
US20180247636A1 (en) * 2017-02-24 2018-08-30 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
CN111161702A (zh) * 2019-12-23 2020-05-15 爱驰汽车有限公司 个性化语音合成方法、装置、电子设备、存储介质
CN111710326A (zh) * 2020-06-12 2020-09-25 携程计算机技术(上海)有限公司 英文语音的合成方法及系统、电子设备及存储介质
CN112002305A (zh) * 2020-07-29 2020-11-27 北京大米科技有限公司 语音合成方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112837673A (zh) 2021-05-25
CN112837673B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN109271646B (zh) 文本翻译方法、装置、可读存储介质和计算机设备
CN110534087B (zh) 一种文本韵律层级结构预测方法、装置、设备及存储介质
CN112687259B (zh) 一种语音合成方法、装置以及可读存储介质
CN111061847A (zh) 对话生成及语料扩充方法、装置、计算机设备和存储介质
WO2020048292A1 (zh) 神经网络的网络表示生成方法、装置、存储介质和设备
US20190221202A1 (en) Statistical parameter model establishing method, speech synthesis method, server and storage medium
US9177549B2 (en) Method and system for cross-lingual voice conversion
BR112019014822A2 (pt) Redes neurais de transdução de sequências baseadas em atenção
CN112712813B (zh) 语音处理方法、装置、设备及存储介质
WO2022141870A1 (zh) 基于人工智能的语音合成方法、装置、计算机设备和介质
US11355097B2 (en) Sample-efficient adaptive text-to-speech
CN109710953B (zh) 一种翻译方法及装置、计算设备、存储介质和芯片
WO2021127821A1 (zh) 语音合成模型的训练方法、装置、计算机设备及存储介质
CN112786009A (zh) 语音合成方法、装置、设备及存储介质
WO2022252904A1 (zh) 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品
CN116030792B (zh) 用于转换语音音色的方法、装置、电子设备和可读介质
WO2022121179A1 (zh) 语音合成方法、装置、设备及存储介质
CN111797611B (zh) 对联生成模型、对联生成方法、装置、计算机设备及介质
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN116434741A (zh) 语音识别模型训练方法、装置、计算机设备及存储介质
CN113450765A (zh) 语音合成方法、装置、设备及存储介质
CN112735377B (zh) 语音合成方法、装置、终端设备及存储介质
CN113362804A (zh) 一种合成语音的方法、装置、终端及存储介质
CN116959465A (zh) 语音转换模型训练方法、语音转换方法、装置及介质
Chen et al. Lightgrad: Lightweight diffusion probabilistic model for text-to-speech

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21912640

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21912640

Country of ref document: EP

Kind code of ref document: A1