WO2021155662A1

WO2021155662A1 - 文本信息的处理方法及装置、计算机设备和可读存储介质

Info

Publication number: WO2021155662A1
Application number: PCT/CN2020/115007
Authority: WO
Inventors: 邓利群; 魏建生; 张旸; 王雅圣; 孙文华
Original assignee: 华为技术有限公司
Priority date: 2020-02-03
Filing date: 2020-09-14
Publication date: 2021-08-12
Also published as: CN111274807B; EP4102397A4; CN111274807A; EP4102397A1

Abstract

一种文本信息的处理方法及装置、计算机设备和可读存储介质，适用于人工智能领域的情感语音合成，所述处理方法在为文本中的语句确定情感类别的过程中，不仅考虑了为该语句个体所预测的情感类别，还考虑了语句所在文本的整体情感类别，按照所述方法为文本中语句生成语音信息，有利于为文本生成更加符合人的情感表达习惯的语音信息，提高智能语音设备的拟人程度。

Description

文本信息的处理方法及装置、计算机设备和可读存储介质

本申请要求于2020年2月3日提交中国专利局、申请号为“202010078977.0”、申请名称为“文本信息的处理方法及装置、计算机设备和可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息处理领域，尤其涉及一种文本信息的处理方法及装置、计算机设备和可读存储介质。

背景技术

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。近年来，语音合成技术取得了极大进步，机器语音播报在智能移动终端、智能家居、车载音响等设备上得以广泛应用。人们对语音合成的要求也不再仅仅是“能听清”，而是转变成“高度逼真，富有情感”，合成语音的质量成为衡量智能语音产品竞争力的一大重要因素。

但是，目前缺少为文本信息生成符合人的情感表达习惯的语音信息的研究，这制约了拟人机器人的发展。

发明内容

本申请实施例提供了一种文本信息的处理方法及装置、计算机设备和可读存储介质，有利于为文本生成符合人的情感表达习惯的语音信息，提高智能语音设备的拟人程度。

第一方面，本申请实施例提供一种文本信息的处理方法，包括：对目标文本进行语句划分，得到语句序列；确定所述目标文本的情感类别；分别确定所述语句序列中各语句的初始情感类别；基于所述目标文本的情感类别和所述语句序列中各语句的初始情感类别，从所述语句序列中确定出第一关键语句，所述第一关键语句的初始情感类别与所述目标文本的情感类别相同；根据所述第一关键语句的初始情感类别和所述目标语句的文本特征得到所述目标语句的修正情感类别，所述目标语句为所述语句序列中与所述第一关键语句相邻的语句，且所述目标语句的初始情感类别与所述目标文本的情感类别不同；基于所述目标语句的修正情感类别生成所述目标语句的语音信息。

人对文本中任一语句的含义的理解，通常不会孤立的进行，而是需要结合文本中的上下文来辅助理解该语句的含义。类似的，人对以语音形式表达的文本中任一语句的情感的理解和表达，同样如此。本申请实施例在为文本中的语句确定情感类别的过程中，不仅考虑了为该语句个体所预测的情感类别，还考虑了语句所在文本的整体情感类别，按照本申请实施例提供的方法为文本中语句生成语音信息，有利于为文本生成更加符合人的情感表达习惯的语音信息，提高智能语音设备的拟人程度。

由于文本是非结构化的数据,为了便于计算机从文本中挖掘有用的信息，就需要将文本转化为计算机可处理的结构化形式的信息，称作文本特征，该文本特征一般为多维的向量。

在一种可能的实现方式中，目标文本的文本特征可以是根据语句序列中各语句的文本特征得到的。

在一种可能的实现方式中，所述对目标文本进行语句划分，包括：将所述目标文本按照语调短语划分规则进行语句划分。

在一种可能的实现方式中，所述对目标文本进行语句划分，包括：预测目标文本的韵律信息；以语调短语为单位对目标文本进行语句划分，得到语句序列。语句序列中的每个语句为一个语调短语。

在一种可能的实现方式中，文本的韵律信息可以用于指示目标文本中的韵律词、韵律短语和语调短语。

韵律词是一组在实际语流中联系密切的、经常联在一起发音的音节。一般，可以先行预测目标文本中的韵律词。

韵律短语是介于韵律词和语调短语之间的中等节奏组块。韵律短语可能小于句法上的短语，一个韵律短语一般包括一个或多个韵律词，韵律短语内部各个韵律词之间可能出现韵律上的节奏边界，具有相对稳定的短语语调模式和短语重音配置模式。韵律短语是指组成韵律短语的几个韵律词听起来是共用一个节奏群。预测得到目标文本的韵律词之后，可以根据预测得到的韵律词预测目标文本中的韵律短语。

语调短语就是将几个韵律短语按照一定的语调模式连接起来，一个语调短语一般包括一个或多个韵律短语。预测得到目标文本的韵律短语之后，可以根据预测得到的韵律短语预测目标文本中的语调短语。

在一种可能的实现方式中，语句序列中第一语句的文本特征可以为根据第一语句中各韵律词的文本特征得到的，第一语句可以为语句序列中的任意一个语句。

在一种可能的实现方式中，韵律词的文本特征可以为根据韵律词的词向量和/或韵律词的位置特征生成的。

在一种可能的实现方式中，韵律词的词向量可以是通过神经网络得到的，该神经网络可以是对Word2Vec模型或GloVe模型或Bert模型进行训练得到的。

在一种可能的实现方式中，韵律词的位置特征可以用于表示该韵律词在所在语调短语中的位置。例如，一个韵律词的位置特征可以用一个25维的向量表示，该向量的第一至第十维用于表示该韵律词在语调短语中的次序，该向量的第十一至第二十维用于表示该语调短语中韵律词的个数，该向量第二十一至二十五维用于该韵律词的韵律结果，例如，韵律结果可以用于表示该韵律词是否位于韵律短语或语调短语的结尾。

在一种可能的实现方式中，所述目标文本的情感类别为预先设定的，便于用户根据喜好设置语音信息的情感基调。

或者，目标文本的情感类别可以为基于所述目标文本的文本特征获得的。

在一种可能的实现方式中，所述分别确定所述语句序列中各语句的初始情感类别，具体为：基于所述语句序列中待确定语句的文本特征确定所述待确定语句的初始情感类别。

在一种可能的实现方式中，所述根据所述第一关键语句的初始情感类别、目标语句的初始情感类别和所述目标语句的文本特征得到所述目标语句的修正情感类别，具体为：基于所述目标语句除所述第一关键语句外的另一相邻语句的初始情感类别与所述目标文本的情感类别相同，根据所述第一关键语句的初始情感类别、所述另一相邻语句的初始情感类别和所述目标语句的文本特征得到所述目标语句的修正情感类别。

在一种可能的实现方式中，在一种可能的实现方式中，在得到所述目标语句的修正情感类别之后，所述方法还包括：基于所述目标语句除所述第一关键语句外的另一相邻语句的初始情感类别与所述目标文本的情感类别不同，根据所述目标语句的修正情感类别和所述另一相邻语句的文本特征得到所述另一相邻语句的修正情感类别；基于所述另一相邻语句的修正情感类别生成所述另一相邻语句的语音信息。

以关键语句为中心，依次修正其左右非关键语调短语的情感类别，有利于保持目标文本中相邻语句间情感变化的连贯性。

第二方面，本申请实施例提供一种文本信息的处理装置，该装置包括用于执行上述第一方面或第一方面任意一种可能实现方式的方法的一个或多个功能单元。这些功能单元可以通过硬件实现，或者可以通过硬件执行相应的软件实现，或者由软件结合必要的硬件实现。

在一种可能的实现方式中，文本信息的处理装置可以包括：语句划分模块，用于对目标文本进行语句划分，得到语句序列；确定模块，用于执行如下步骤：确定所述目标文本的情感类别；分别确定所述语句序列中各语句的初始情感类别；基于所述目标文本的情感类别和所述语句序列中各语句的初始情感类别，从所述语句序列中确定出第一关键语句，所述第一关键语句的初始情感类别与所述目标文本的情感类别相同；根据所述第一关键语句的初始情感类别和所述目标语句的文本特征得到所述目标语句的修正情感类别，所述目标语句为所述语句序列中与所述第一关键语句相邻的语句，且所述目标语句的初始情感类别与所述目标文本的情感类别不同；语音生成模块，用于基于所述确定模块确定的所述目标语句的修正情感类别生成所述目标语句的语音信息。

在一种可能的实现方式中，所述语句划分模块用于，将所述目标文本按照语调短语划分规则进行语句划分。

在一种可能的实现方式中，所述目标文本的情感类别为预先设定的，或者，为基于所述目标文本的文本特征获得的。

在一种可能的实现方式中，所述确定模块用于，基于所述语句序列中待确定语句的文本特征确定所述待确定语句的初始情感类别。

在一种可能的实现方式中，所述确定模块用于，基于所述目标语句除所述第一关键语句外的另一相邻语句的初始情感类别与所述目标文本的情感类别相同，根据所述第一关键语句的初始情感类别、所述另一相邻语句的初始情感类别和所述目标语句的文本特征得到所述目标语句的修正情感类别所述。

在一种可能的实现方式中，所述确定模块还用于，在得到所述目标语句的修正情感类别之后，基于所述目标语句除所述第一关键语句外的另一相邻语句的初始情感类别与所述目标文本的情感类别不同，根据所述目标语句的修正情感类别和所述另一相邻语句的文本特征得到所述另一相邻语句的修正情感类别；所述语音生成模块还用于，基于所述另一相邻语句的修正情感类别生成所述另一相邻语句的语音信息。

第三方面，本申请实施例提供一种计算机设备，包括：处理器和存储器；该存储器用于存储计算机执行指令，当该计算机设备运行时，该处理器执行该存储器存储的该计算机执行指令，以使该计算机设备执行如上述第一方面或第一方面任意一种可能实现方式的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机可以执行上述第一方面或第一方面任意一种可能实现方式的方法。

第五方面，本申请实施例提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机可以执行上述第一方面或第一方面任意一种可能实现方式的方法。

第六方面，本申请实施例提供一种芯片系统，该芯片系统包括处理器，用于支持计算机设备实现上述第一方面或第一方面任意一种可能的实现方式中所涉及的功能。在一种可能的设计中，芯片系统还包括存储器，存储器，用于保存计算机设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。

其中，第二方面、第三方面、第四方面、第五方面、第六方面中任一种实现方式所带来的技术效果可参见第一方面中相应实现方式所带来的技术效果，此处不再赘述。

附图说明

图1A是本申请实施例一个可能的应用场景的示意图；

图1B是本申请实施例智能语音设备一种可能的结构示意图；

图1C是本申请实施例另一个可能的应用场景的示意图；

图1D是本申请实施例服务器一种可能的结构示意图；

图2是本申请文本信息的处理方法一种可能的实施例示意图；

图3是本申请对目标文本进行语句划分的一个示意图；

图4是步骤201一种可能的细化流程示意图；

图5-1A是本申请文本信息的处理方法第一阶段过程的实施例示意图；

图5-1B是本申请基于CRF模型预测韵律信息的方法一种可能实施例示意图；

图5-2A是本申请文本信息的处理方法第二阶段过程的实施例示意图；

图5-2B是本申请情感类别分类模型一种可能的结构示意图；

图5-2C是本申请方法对《猴子穿鞋》故事中各语调短语的初始情感类别和不同全局情感下的修正情感类别的一种可能的预测结果；

图5-3是本申请文本信息的处理方法第三阶段过程的实施例示意图；

图5-4A是本申请文本信息的处理方法第四阶段过程的实施例示意图；

图5-4B是本申请情感声学模型的一种可能的结构示意图；

图6是本申请文本信息的处理装置一种可能的实施例示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

本发明提出一种文本信息的处理方法，可以用于计算机设备，实现有情感的语音合成。

首先，对本申请实施例的应用场景进行介绍。

示例性的，图1A为本申请实施例一个可能的应用场景的示意图。在图1A对应的应用场景中，计算机设备可以是具备情感分析和处理的能力以及语音合成和输出的能力的实体(称作智能语音设备1)。示例性的，智能语音设备1可以是智能手机、或可发声的穿戴式终端上的智能语音助手、或智能音箱、或可与人对话的机器人等，图1A以智能语音设备1为智能手机为例。智能手机1可以将通过互联网获取(图1A以虚线箭头表示)的或本地存储的文本转化为有情感的语音信息，并向用户输出该有情感的语音信息(图1A以波动的曲线表示)。

图1B是本申请提供的智能语音设备1的一个实施例示意图。智能语音设备可以包括处理器11、存储器12和语音输出模块13。存储器12用于存储计算机程序；处理器11用于执行存储器12中的计算机程序，执行本申请提供的文本信息的处理方法；语音输出模块13用于向用户(人或其他机器人)输出有情感的语音信息，例如，输出模块13可以为扬声器。

在一种可能的实现方式中，智能语音设备1还可以包括输入模块14，输入模块14可以包括触摸屏、摄像头和麦克风阵列等中的一种或多种，触摸屏用于接收用户的触摸指令，摄像头用于检测图像信息，麦克风阵列用于检测音频数据。

在一种可能的实现方式中，智能语音设备1还包括通信接口15，用于与其他设备(例如服务器)进行通信。

在一种可能的实现方式中，智能语音设备中的各个模块可以通过总线16相互连接。

示例性的，图1C为本申请实施例另一个可能的应用场景的示意图。在图1C对应的一种应用场景中，计算机设备可以是服务器2，服务器2可以与智能语音设备1通信连接，图1C中以智能语音设备1为机器人为例。机器人1在与用户交流的过程中，服务器2可以将通过互联网获取的或机器人1发送的文本转化为有情感的语音信息，并将得到的语音信息发送给机器人1，由机器人1向用户输出该有情感的语音信息(图1C以波动的曲线表示)。

或者，继续参考图1C，在图1C对应的另一种应用场景中，计算机设备可以包括通信相连的智能语音设备1和服务器2。智能机器人1和服务器2可以相互配合，共同实现情感分析和处理以及语音合成的功能，例如，服务器2实现情感分析和处理的功能，智能机器人1根据服务器2的情感处理结果，实现语音合成和语音输出。

参考图1D，本申请实施例还提供一种服务器2。服务器2可以包括处理器21和存储器 22。存储器22用于存储计算机程序；处理器21用于执行存储器22中的计算机程序，执行本申请提供的文本信息的处理方法。

在一种可能的实现方式中，处理器21和存储器22可以通过总线24相互连接。

在一种可能的实现方式中，服务器2还可以包括通信接口23，用于与其他设备(例如智能语音设备1)进行通信。

图1B和/或图1D中的处理器可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。虽然图中仅仅示出了一个处理器，该装置可以包括多个处理器或者处理器包括多个处理单元。具体的，处理器可以是一个单核处理器，也可以是一个多核或众核处理器。该处理器可以是ARM架构处理器。

图1B和/或图1D中的存储器用于存储处理器执行的计算机指令。存储器可以是存储电路也可以是存储器。存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。存储器可以独立于处理器，一种可能的实现方式中，处理器和存储器可以通过总线相互连接。总线可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。或者，存储器也可以是处理器中的存储单元，与处理器直接相连(attach)，在此不做限定。虽然图中仅仅示出了一个存储器，该装置也可以包括多个存储器或者存储器包括多个存储单元。

下面对本申请实施例方法进行介绍。

参考图2，本申请文本信息的处理方法一个实施例可以包括：

201、对目标文本进行语句划分，得到语句序列；

计算机设备可以获取待转化为语音信息的文本，称作目标文本。过长的句子不便于后续语音生成，因此可以对目标文本进行语句划分，得到语句序列，通过将目标文本划分成更短的句子单位，以便后续语音生成。

为了便于理解，下面对步骤201进行举例说明。图3中，以多个交叉符号代表目标文本的内容，每个交叉符号可以代表一个或多个字符，这里的字符可以为汉字字符，也可以为非汉字字符(例如阿拉伯数字或英文符号等)。图3示出了8条横线，同一横线上的交叉符号代表被划分为同一语句，8条横线代表将目标文本进行语句划分得到8个语句，为了便于描述，以横线下方的数字代表相应的语句，语句序列中的语句依次为：语句1、语句2、……、语句8句序列。

202、确定目标文本的情感类别；

获取目标文本后，可以确定目标文本的情感类别。目标文本的情感类别是指目标文本对应的一种情感类别。

在一种可能的实现方式中，目标文本的情感类别可以为出厂时设置的，也可以由用户根据需要设置。或者，在一种可能的实现方式中，目标文本的情感类别可以按照某种算法预测得到。在一种可能的实现方式中，可以基于目标文本的文本特征预测目标文本的初始情感类别。示例性的，可以将目标文本的文本特征输入训练好的神经网络，该神经网络用于预测文本的情感类别，从而可以得到目标文本的情感类别。

203、分别确定语句序列中各语句的初始情感类别；

得到语句序列后，可以按照某种算法预测各语句的情感类别(称作初始情感类别)。

在一种可能的实现方式中，对于语句序列中任一待确定初始情感类别的语句(简称待确定语句)，可以基于待确定语句的文本特征确定该待确定语句的初始情感类别。示例性的，可以将待确定语句的文本特征输入训练好的神经网络，该神经网络用于对语句的情感类别进行分类，或者说，预测语句的情感类别，从而可以得到该语句的情感类别。

示例性的，该神经网络可以通过深度神经网络或支持向量机或隐马尔科夫模型等分类模型构建并预先使用训练语料训练得到。

204、基于目标文本的情感类别和语句序列中各语句的初始情感类别，从语句序列中确定出第一关键语句；

确定目标文本的情感类别和语句序列中各语句的初始情感类别后，可以从语句序列中确定初始情感类别与目标文本的情感类别相同的语句，称作关键语句，关键语句的初始情感类别与目标文本的情感类别相同。

示例性的，继续参考图3，假设目标文本的情感类别为A，语句1、语句5和语句7的初始情感类别为A，可以确定语句1、语句5和语句7为语句序列中的关键语句，图3中以虚线框标识关键语句。

为了便于描述，将目标文本的一个关键语句称作第一关键语句。

205、根据第一关键语句的初始情感类别和目标语句的文本特征得到目标语句的修正情感类别；

确定语句序列中的第一关键语句，并且确定语句序列中各语句的初始情感类别之后，可以对语句序列中关键语句以外的语句的情感类别进行修正。

具体的，可以从语句序列中确定满足以下条件的语句(称作目标语句)：与第一关键语句相邻，并且初始情感类别与目标文本的情感类别不同。之后，可以根据第一关键语句的初始情感类别(即目标文本的情感类别)和目标语句的文本特征得到目标语句的修正情感类别。

继续以图3的语句序列为例，假设语句序列中语句2、语句3、语句4、语句6、语句8的初始情感类别依次为：B、C、D、B、C。若语句1为第一关键语句，那么语句2为目标语句；若语句5为第一关键语句，那么语句4和语句6均为目标语句；若语句7为第一关键语句，那么语句6和8均为目标语句。以语句1为第一关键语句，语句2为目标语句为例，可以根据情感类别A和语句2的文本特征，得到语句2的修正情感类别。

206、基于目标语句的修正情感类别生成目标语句的语音信息；

得到目标语句的修正情感类别之后，可以基于目标语句的修正情感类别生成目标语句的语音信息。之后，通过语音播放模块播放该语音信息，可以在输出目标语句的文本内容的同时，表达其修正情感类别对应的情感。

人对文本中任一语句的含义的理解，通常不会孤立的进行，而是需要结合文本中的上下文来辅助理解该语句的含义。类似的，人对以语音形式表达的文本中任一语句的情感的理解和表达，同样如此。本申请实施例可以为文本中的语句确定其情感类别，并为相应短句生成能够表达该情感类别的情感的语音信息。本申请实施例在为语句确定情感类别的过程中，不仅考虑了为该语句个体所预测的情感类别，还考虑了语句所在文本的整体情感类别，按照本申请实施例提供的方法为文本中语句生成语音信息，有利于为文本生成更加符合人的情感表达习惯的语音信息，提高智能语音设备的拟人程度。

本申请实施例中步骤号对应的步骤执行顺序仅作为一种可能的执行顺序，例如，本申请实施例不限定步骤202与步骤201和步骤203之间的时序关系，只要步骤202在步骤204之前执行即可。

在一种可能的实现方式中，可以基于第一关键语句的初始情感类别生成第一关键语句的语音信息。之后，通过语音播放模块播放该语音信息时，可以在输出第一关键语句的文本内容的同时，表达第一关键语句的初始情感类别对应的情感。

在一种可能的实现方式中，在确定关键语句的初始情感类别、非关键语句的修正情感类别之后，可以分别根据各语句和与各语句相应的情感类别生成各语句的语音，之后，可以按照各语句在短句序列中的次序将各语句的语音拼接为目标文本的语音。

在一种可能的实现方式中，当确定目标语句除所属第一关键语句外的另一相邻语句为关键语句(即另一相邻语句的初始情感类别与目标文本的情感类别相同)时，步骤205可以具体为：

根据第一关键语句的初始情感类别、另一相邻语句的初始情感类别和目标语句的文本特征得到目标语句的修正情感类别。

继续参考图3，假设第一关键语句为语句5，目标语句为语句6，由于语句7为关键语句，因此，可以根据情感类别A、情感类别A和目标语句的文本特征，得到语句6的修正情感类别。

在一种可能的实现方式中，若语句序列中的第一语句和第二语句的初始情感类别相同，且与目标文本的情感类别不同，第一语句仅有一个相邻语句为关键语句，第二语句的两个相邻语句都是关键语句，那么，和第一语句的修正情感类别相比，第二语句的修正情感类别更接近目标文本的情感类别。

关于步骤201，一种常用语句划分方式是按目标文本中的标点符号(如逗号，句号，叹号等)对目标文本进行语句划分。对文本进行语句划分的粒度大小决定着文本语音所能表达的情感的细腻程度，粒度越大，例如以目标文本为一个语句，那么，该目标文本的语音信息只能表达一种情感类别；按照标点符号划分得到语句，其包含的内容可能较多，以这样的语句为最小粒度来生成目标文本的语音信息，无法体现语句内情感的波动，不利于提高文本语音所能表达的情感的细腻程度。

在一种可能的实现方式中，步骤201可以包括：将目标文本按照语调短语划分规则进行语句划分，得到语句序列。

在一种可能的实现方式中，参考图4，步骤201可以具体包括如下步骤：

2011、预测目标文本的韵律信息；

文本的韵律信息可以用于指示目标文本中的韵律词、韵律短语和语调短语。

2012、以语调短语为单位对目标文本进行语句划分，得到语句序列；

预测得到目标文本的语调短句后，可以以语调短语为单位，对目标文本进行语句划分，得到语句序列。语句序列中的每个语句为一个语调短语。

和按标点符号对目标文本进行语句划分相比，按照语调短语进行语句划分得到的语句粒度更小，有利于体现两个标点符号之间语句的情感波动，有利于提高文本语音所能表达的情感的细腻程度。并且，实验结果显示，以语调短语为单位进行语句划分，预测语句的情感类别，可以使得情感预测更为可控，而又不会对合成的语音的韵律带来负面影响。

示例性的，韵律词的词向量可以是通过神经网络得到的，该神经网络可以是对Word2Vec模型或GloVe模型或Bert模型进行训练得到的。

在一种可能的实现方式中，在得到各语句的文本特征和情感类别(关键语句的初始情感类别和非关键语句的修正情感类别)后，可以分别根据各语句的文本特征和情感类别，预测各语句的情感强度。具体的，假设第一语句为语句序列中的任一语句，在一种可能的实现方式中，可以根据第一语句的文本特征及情感类别，预测第一语句的初始情感强度控制向量；可以确定该目标文本的全局情感强度；之后，利用全局情感强度等级和第一语句的初始情感强度控制向量确定第一语句的修正情感强度。

在一种可能的实现方式中，目标语句的第一强度差异大于目标语句的第二强度差异，目标语句的第一强度差异为目标语句的初始情感强度与目标文本的全局情感强度之间的差异，目标语句的第二强度差异为目标语句的修正情感强度与目标文本的全局情感强度之间的差异。

在一种可能的实现方式中，可以根据目标语句的修正情感类别和目标语句的修正情感强度生成目标语句的语音信息。

下面以《猴子穿鞋》这段文本的情感语音合成为例，介绍本申请文本信息的处理方法一种可能的实施例，该实施例基于端到端声学模型(如Tacotron)的语音合成框架，用于对大段文本进行情感语音的合成处理。

儿童故事《猴子穿鞋》的内容如下：

“一只小猴跑到山下去，看见人们都穿着鞋走路，感到很好玩。他偷偷地溜到一户人家，拿了一双鞋跑回山上，很得意地走来走去。这时来了一只凶猛的老虎，猴子们纷纷爬上了树。小猴穿着鞋怎么也爬不上树。猴妈妈大叫赶紧把鞋扔掉。小猴扔掉鞋很快爬上了树，从此再也不乱模仿别人了。”

以上述《猴子穿鞋》的内容为目标文本，下面描述本申请对目标文本的处理方法一种可能的具体实施例，本申请文本信息的处理方法另一种可能的实施例可以包括如下几个阶段的步骤：

参考图5-1A，第一阶段S1可以包括如下步骤：

S1-1、对目标文本进行规范化处理；

将待合成的文本中的非汉字字符，如阿拉伯数字、英文符号、各种符号等根据其上下文语义转化成对应的汉字字符；本实施例使用基于规则的方法，即收集和定义一个规则集合，遇到待规范化的文本时则同这些规则一一匹配，以得到对应的规范措施。本实施例所用的《猴子穿鞋》文本已经为规范了的中文文本。可以另举例如：对于句子“遇到困难请拨打110”，其将会匹配到规则“(拨|打|呼叫|按|联系|call)(110|120|119|112|911)”，从而根据该规则判断得出数字应该按电报读法规范化。

S1-2、预测目标文本中的韵律信息；

预测目标文本中的韵律信息，韵律信息用于指示目标文本中的韵律结构，韵律结构包括韵律词、韵律短语和语调短语。依次预测不同层级的韵律结构的韵律信息，如韵律词、韵律短语、语调短语，不同的韵律结构的结尾在合成的语音中体现为不同的停顿时长。为了准确预测这些韵律信息，一般需要对文本事先进行分词和词性标注预测，继而依次按韵律词->韵律短语->语调短语的层级顺序进行预测。

图5-1B给出了本实例所用的基于条件随机森林(condition random forest，CRF)模型韵律预测例子，其输入文本为表1中的第三个句子。图5-1B中的流程图用于表示S1-2的一种可能的细化流程，流程图中每个步骤右侧的文字用于示例性表示相应步骤的结果。

参考图5-1B，步骤S1-2包括如下步骤：

S1-21、基于CRF模型的分词、词性标注；

以“/”代表分词的结尾，以字母代表前面分词的词性。

例如，可以“a”代表形容词，以“d”代表副词，以“f”代表方位词，以“m”代表数词，以“n”代表名词，以“q”代表量词，以“r”代表代词，以“u”代表助词，以“v”代表动词，以“w”代表标点符号。

S1-22、基于CRF模型的韵律词预测；

S1-23、基于CRF模型的韵律短语预测；

S1-24、基于CRF模型的语调短语预测；

表1中的第三个句子包括两个语调短语，分别为“这时来了一只凶猛的老虎”和“猴子们纷纷爬上了树”。

S1-3、以语调短语为单位对目标文本进行语句划分，得到语句序列；

过长的句子不便于后续语音生成，从而该步骤将输入的大段文本划分成更短的句子单位，以便后续语音生成。一种常用的划分方式是按标点符号(如句号，叹号等)将大段文本划分成各个子句子。而本实施例采用更小粒度的语调短语作为划分的短句子结果，语句序列中的任一语句为一个语调短语。后续步骤也即以语调短语为合成单位进行情感特征预测和语音生成，这是因为实验显示以语调短语为单位可以使得情感特征转换更为可控，而又不会对合成语音的韵律带来负面影响。即如图5-1B中所示的例子中，对应的输入句子将被划分成两个语调短语用于后续合成步骤。

S1-4、预测目标文本中汉字的注音；

对语调短语中的汉字预测其对应的拼音。如图5-1B中的两个语调短语的文字注音结果分别为：

zhe4 shi2 lai2 le5 yi4 zhi1 xiong1 meng3 de5 lao2 hu3；

hou2 zi5 men5 fen1 fen5 pa2 shang4 le5 shu4。

其中，拼音后的数字用于表示汉字的声调，例如，以“1”代表一声，以“2”代表二声，以“3”代表三声，以“4”代表四声，以“5”代表其他声调，例如轻声。

S1-5、根据语句序列中各语调短语的韵律信息和注音生成各语调短语的基于音素的文本特征A；

经过步骤S1-1～S1-4的处理后，该步骤可以将以上特征组合成包括包含以上特征的音素级的文本特征(称作文本特征A)，这样，每个语调短语的文本特征A用于指示相应语调短语的拼音、韵律词和韵律短语等。对于图5-1B中得到的两个语调短语，其基于音素的文本特征A结果分别如下：

^ #0 zhe4 #0 shi2 #2 lai2 #0 le5 #yi4 #0 zhi1 #1 xiong1 #0 meng3 #0 de5#1 lao2 #0 hu3#3 $；

^ #0 hou2 #0 zi5 #0 men5 #2 fen1 #0 fen5 #1 pa2 #0 shang4 #0 le5 #1 shu4 #3 $。

其中，^表示句首开始符，$为句尾结束符，#0，#1，#2，#3分别表示音节、韵律词、韵律短语和语调短语结束位置符号。

S1-6、为各语调短语中各韵律词生成词向量；

词向量生成，以语调短语为单位，将每个语调短语中的每个韵律词通过预训练好的词向量模型(本实施例使用的是Word2Vec模型，也可以使用其他模型，如GloVe，Bert等)转换成对应的词向量。比如对于“这时来了一只凶猛的老虎”这句语调短语，其中的韵律词“这时”、“来了”、“一只”、“凶猛的”、“老虎”分别通过Word2Vec模型转换为一个200维的词向量。

S1-7：根据各词向量生成相应语调短语的基于词向量的文本特征B；

对于每个语调短语，组合其中各个词的词向量以及上下文特征，生成一个语调短语级的文本特征。示例性的，该组合操作可以具体指拼接操作。示例性的，最终每个词对应的特征包括200维的词特征向量和25维的上下文特征。上下文特征可以采用独热(one-hot)编码的方式，表征当前词在语调短语中的位置、当前语调短语中韵律词的个数、当前词的韵律结果等。

在第一阶段S1完成之后，可以执行第二阶段S2的步骤，参考图5-2A，第二阶段可以具体包括如下步骤：

S2-1、识别各语调短语的初始情感类别；

利用预训练好的文本情感分类模型，以S1-7输出的各语调短语的文本特征B作为该分类模型的输入，分别确定各语调短语对应的初始情感类别。

该文本情感分类模型可通过深度神经网络、支持向量机、隐马尔科夫模型等分类模型构建并预先使用训练语料训练，本实例采用循环神经网络模型，即图5-2B所示的2层长短期记忆(long short-term memory，LSTM)网络作为情感类别分类模型。

S2-2、确定目标文本对应的全局情感类别；

当前大段文本的情感类别，或称全局情感类别，可以由用户事先指定，也可以通过情感分类模型自动识别；若为后者，则将所有的语调短语的文本特征B作为输入特征，使用S2-1所述的预先训练好的文本情感分类模型进行识别。

此处的“用户”可以包括智能终端程序的开发者，也可以智能终端的使用者，可以将全局情感偏好设置为积极(或正向)的情绪，例如高兴。

S2-3、确定关键语调短语；

根据S2-1和S2-2的识别结果，将S2-1得到的情感类别同S2-2所得的情感类别一致的语调短语标记为关键语调短语。关键语调短语的情感类别在后续步骤中将不会被改变。

S2-4、对语句序列中非关键语调短语的情感类别进行修正，得到修正情感类别；

其具体做法是事先使用情感文本训练数据训练一个基于上下文的情感类别修正模型。如同图5-2B所示，该模型是一个两层LSTM的神经网络模型，其可根据大量的用于识别任务的情感语音数据训练而成，其输入是由待修正的当前语调短语的左右语调短语的情感类别、全局情感类别、以及当前语调短语的文本特征A等拼接而成，而输出则为当前语调短语的情感类别。利用该情感类别修正模型，以关键语调短语为中心，依次修正其左右非关键语调短语的情感类别，直至所有非关键语调短语的类别特征被修正完毕为止。

图5-2C示例性示出了《猴子穿鞋》故事中各语调短语的初始情感类别和不同全局情感下的修正情感类别。在修正情感类别对应的列中，以符号“★”代表S2-3确定的关键语调短语。如图5-2C所示，在全局情感类别影响下，部分非关键语调短语的初始情感类别会得到修正，即修正情感类别与初始情感类别不同。

第二阶段完成之后，可以执行第三阶段S3的步骤，参考图5-3，第三阶段S3可以具体包括如下步骤：

S3-1、根据各语调短语的文本特征B和修正后的情感类别，预测各语调短语的情感强度声学特征向量；

该步骤会利用事先训练好的情感强度声学特征预测模型，将S1得到语调短语的文本特征B和S2得到的情感类别作为输入，输出情感声学特征向量。该情感强度声学特征预测模型使用2层双向长短时记忆网络(bidirectional long short-term memory，BLSTM)和2层深度神经网络(deep neural networks，DNN)层的神经网络模型构建，并事先使用准备好的情感训练语料训练而成，其输入是以词向量表征的语调短语的文本特征B和语调短语的情感类别拼接而成，而输出则为如下表所示的该语调短语的七维情感强度声学特征向量。

表1

从而，对于每个语调短语，便可得到一个七维的情感强度声学特征向量。

S3-2、将各语调短语的情感强度声学特征向量映射成情感强度控制向量；

由于高维度的情感强度特征向量存在不易控制的缺点，所以该步骤对所获的情感强度特征向量进行映射处理，使其转换成低维度的情感强度控制向量(比如目标维度为3维)。

本实施例便采用多维缩放(multidimensional scaling，MDS)算法来进行该映射。对于每种情感类别，我们事先利用该类别的训练语料训练一个多维标度法(multidimensional scaling，MDS)的特征矩阵M(M∈R3*7)。假设当前语调短语的情感强度声学特征向量为x(x∈R7*1)，则最终该语调短语的情感控制向量为y＝M'*x,得到一个三维的向量结果(其中M’为当前语调短语的情感类别对应的特征矩阵)。可以发现，情感强度同该三维控制向量的第一维特征和第二维特征(即MDS1和MDS2)正相关，而同第三维特征(MDS3)负相关。因而，若要增加情感强度，则可通过调大MDS1与MDS2的值，或调小MDS3值而获得；反之，若要减弱情感强度，则需调小MDS1与MDS2，或增大MDS3。

S3-3、确定关键语调短语的情感强度；

对于步骤S2-3所确定的关键语调短语，若用户事先设定偏好的情感强度，则以用户的设置值来设定情感强度；假设用户可设置的情感强度为“强”、“中”、“弱”三等，则可以分别以情感控制向量空间中的表示“强”的区域的中心值，整个空间的中心值，以及表示“弱”的区域的中心值来初始化情感控制向量，即情感强度。

这里仅以三个等级的情感强度为例，在实际使用中，也可以提供更多等级的情感强度。

S3-4、对语句序列中非关键语调短语的情感强度进行修正；

步骤S2-4用以修正非关键语调短语的情感类别，类似的，步骤S3-4用以修正非关键语调短语的情感强度，使得相邻语调短语的情感语音在情感强度上能过渡自然连贯。本实施例采用一种基于情感强度等级预测模型的实现方法。如同图5-2B所示，该模型是一个两层LSTM的神经网络模型，其可根据大量的用于识别任务的情感语音数据训练而成，其输入是由左右语调短语的情感类别和情感强度、全局情感类别和情感强度(即关键语调短语的情感类别和情感强度)、以及当前语调短语的情感类别和S3-1所得的情感声学特征向量等拼接而成，而输出则为当前语调短语的情感强度(“强”，“中”，“弱”三个类别)。利用该情感强度等级预测模型，以关键语调短语为中心，依次按以下步骤修正其左右非关键语调短语的情感强度，直至所有非关键语调短语的强度特征被修正完毕为止。

具体修正方式可以为：

1)参考S3-4，利用情感强度等级预测模型，预测得到当前非关键语调短语的初始情感强度。

2)确定S3-2所得情感强度控制向量对应的等级，与1)中的结果进行比较，根据比较结果对当前非关键语调短语的情感强度控制向量进行修正；

具体的，若二者相同，则可以不对S3-2得到的当前非关键语调短语的情感强度控制向量进行调整；

若S3-2所得情感强度对应的等级低于1)的结果，则对S3-2得到的当前非关键语调短语的情感强度控制向量进行调整，使得其对应的情感强度增加一定比例(例如，增加的比例记为a，0<a<1)；

若S3-2所得情感强度对应的等级高于1)的结果，则对S3-2得到的当前非关键语调短语的情感强度控制向量进行调整，使得对应的情感强度减小一定比例(例如，减小的比例记为b，0<b<1)。

如S3-2所述，情感强度控制向量是一个三维的向量，其中前两维正相关，后一维负相关，因此，作为举例，增加a的具体操作可以为将MDS1和MDS2的值分别乘以(1+a),而MDS3得值则乘以(1-a)；同理，对于降低b，则其操作相反。

待以上三个阶段的步骤完成后，可以执行第四阶段S4的步骤，合成目标文本的语音信息。具体的，可以将以第一阶段S1输出的文本特征A、第二阶段S2确定的各语调短语的情感类别、第三阶段S3输出的各语调短语的情感强度控制向量，通过预训练好的基于深度神经网络的端到端声学模型，预测出对应的情感声学特征，最终通过声码器生成情感语音。所有的语料短语对应的情感语音按序拼接成大段文本对应的情感语音。

更为具体的，参考图5-4A，第四阶段S4可以具体包括如下步骤：

S4-1、根据各语调短语的文本特征A、情感类别和情感强度控制向量预测各语调短语的情感声学特征；

情感声学模型通过声谱预测网络(Tacotron)构建，Tacotron型包括编码器(encoder)、解码器(decoder)和用作编码器和解码器的桥接的注意力(attention)，如图5-4B所示。其输入是S1所得的各语调短语的基于音素的文本特征A、S2确定的各语调短语的情感类别、S3输出的各语调短语的情感强度控制向量，输出特征则为各语调短语的帧级(如每12.5毫秒为一帧)的线性谱声学特征(维度1025维)。

S4-2、将各语调短语的情感声学特征通过声码器合成相应的语音信息；

该步骤使用声码器(例如Griffin-Lim声码器)将S4-1所生成的情感声学特征进行计算，合成各语调短语的语音信息(或称音频信息)，这些语调短语的语音信息按序拼接后，即为大段目标文本对应的最终合成的语音信息。

以语调短语为单位进行文本特征处理，情感特征预测和语音生成，更小的合成单位较之原始的句子级单位，具有更大的操作灵活性，使得预测的情感结果更为丰富，单元间的情感表现更为可控。

对于情感特征预测，“先各个短语单元独立预测后基于全局情感进行修正”的方式，可使得既最大化局部情感特征的多样性，又可保证大段文本的全局情感基调可控，合成的情感语音更具情感表现力。

从一种语音情感过渡到另一种语音情感，其中不仅涉及情感类别的转换，也是需要考虑情感强度的逐渐过渡转变。采用本发明的情感强度修正方法，使得情感强度的变化衔接更连贯。

结合图1B，上述任一方法实施例可以由智能语音设备1执行，存储器12用于存储执行本申请方案的计算机指令，处理器11用于执行存储器12中的计算机指令时，执行本申请提供的任意一个方法实施例，输出模块13用于输出合成的有感情的语音信息。

结合图1D，上述任一方法实施例可以由服务器2，存储器22用于存储执行本申请方案的计算机指令，处理器21用于执行存储器22中的计算机指令时，执行本申请实施例提供的任意一个方法实施例。

结合图1D，上述任一方法实施例可以由服务器2和智能语音设备1共同执行，例如，智能语音设备1用于将目标文本发送给服务器2，服务器2用于确定目标文本中各语句的情感类别，并将情感类别发送给智能语音设备1，智能语音设备1还用于根据服务器2发送的情感类别生成目标文本的语音信息，并输出该语音信息。

上面从方法和实体设备的角度对本申请实施例进行了介绍。下面，从功能模块的角度，介绍本申请实施例提供的文本信息的处理装置。

从功能模块的角度，本申请可以根据上述方法实施例对执行文本信息的处理方法的装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个功能模块中。上述集成的功能模块既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

比如，以采用集成的方式划分各个功能单元的情况下，图6示出了一种文本信息的处理装置的结构示意图。如图6所示，本申请文本信息的处理装置600的一个实施例可以包括语句划分模块601、确定模块602和语音生成模块603，其中，语句划分601用于对目标文本进行语句划分，得到语句序列。确定模块602，用于执行如下步骤：确定目标文本的情感类别；分别确定语句序列中各语句的初始情感类别；基于目标文本的情感类别和语句序列中各语句的初始情感类别，从语句序列中确定出第一关键语句，第一关键语句的初始情感类别与目标文本的情感类别相同；根据第一关键语句的初始情感类别和目标语句的文本特征得到目标语句的修正情感类别，目标语句为语句序列中与第一关键语句相邻的语句，且目标语句的初始情感类别与目标文本的情感类别不同。语音生成模块603，用于基于确定模块确定的目标语句的修正情感类别生成目标语句的语音信息。

在一种可能的实现方式中，语句划分模块601用于，将目标文本按照语调短语划分规则进行语句划分。

在一种可能的实现方式中，目标文本的情感类别为预先设定的，或者，为基于目标文本的文本特征获得的。

在一种可能的实现方式中，确定模块602用于，基于语句序列中待确定语句的文本特征确定待确定语句的初始情感类别。

在一种可能的实现方式中，确定模块602用于，基于目标语句除第一关键语句外的另一相邻语句的初始情感类别与目标文本的情感类别相同，根据第一关键语句的初始情感类别、另一相邻语句的初始情感类别和目标语句的文本特征得到目标语句的修正情感类别。

在一种可能的实现方式中，确定模块602还用于，在得到目标语句的修正情感类别之后，基于目标语句除第一关键语句外的另一相邻语句的初始情感类别与目标文本的情感类别不同，根据目标语句的修正情感类别和另一相邻语句的文本特征得到另一相邻语句的修正情感类别；语音生成模块603还用于，基于另一相邻语句的修正情感类别生成另一相邻语句的语音信息。

一种可能的实现方式，本申请实施例中的计算机执行指令或计算机指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

上述实施例，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机执行指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。在本申请实施例中，“多个”指两个或两个以上。

本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请的各实施例中，为了方面理解，进行了多种举例说明。然而，这些例子仅仅是一些举例，并不意味着是实现本申请的最佳实现方式。

以上对本申请所提供的技术方案进行了详细介绍，本申请中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种文本信息的处理方法，其特征在于，包括：

对目标文本进行语句划分，得到语句序列；

确定所述目标文本的情感类别；

分别确定所述语句序列中各语句的初始情感类别；

基于所述目标文本的情感类别和所述语句序列中各语句的初始情感类别，从所述语句序列中确定出第一关键语句，所述第一关键语句的初始情感类别与所述目标文本的情感类别相同；

根据所述第一关键语句的初始情感类别和所述目标语句的文本特征得到所述目标语句的修正情感类别，所述目标语句为所述语句序列中与所述第一关键语句相邻的语句，且所述目标语句的初始情感类别与所述目标文本的情感类别不同；

基于所述目标语句的修正情感类别生成所述目标语句的语音信息。
根据权利要求1所述的方法，其特征在于，所述对目标文本进行语句划分，包括：

将所述目标文本按照语调短语划分规则进行语句划分。
根据权利要求1所述的方法，其特征在于，所述目标文本的情感类别为预先设定的，或者，为基于所述目标文本的文本特征获得的。
根据权利要求1所述的方法，其特征在于，所述分别确定所述语句序列中各语句的初始情感类别，具体为：

基于所述语句序列中待确定语句的文本特征确定所述待确定语句的初始情感类别。
根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述第一关键语句的初始情感类别、目标语句的初始情感类别和所述目标语句的文本特征得到所述目标语句的修正情感类别，具体为：

基于所述目标语句除所述第一关键语句外的另一相邻语句的初始情感类别与所述目标文本的情感类别相同，根据所述第一关键语句的初始情感类别、所述另一相邻语句的初始情感类别和所述目标语句的文本特征得到所述目标语句的修正情感类别。
根据权利要求1至5中任一项所述的方法，其特征在于，在得到所述目标语句的修正情感类别之后，所述方法还包括：

基于所述目标语句除所述第一关键语句外的另一相邻语句的初始情感类别与所述目标文本的情感类别不同，根据所述目标语句的修正情感类别和所述另一相邻语句的文本特征得到所述另一相邻语句的修正情感类别；

基于所述另一相邻语句的修正情感类别生成所述另一相邻语句的语音信息。
一种文本信息的处理装置，其特征在于，包括：

语句划分模块，用于对目标文本进行语句划分，得到语句序列；

确定模块，用于执行如下步骤：

确定所述目标文本的情感类别；

分别确定所述语句序列中各语句的初始情感类别；

基于所述目标文本的情感类别和所述语句序列中各语句的初始情感类别，从所述语句序列中确定出第一关键语句，所述第一关键语句的初始情感类别与所述目标文本的情感类别相同；

根据所述第一关键语句的初始情感类别和所述目标语句的文本特征得到所述目标语句的修正情感类别，所述目标语句为所述语句序列中与所述第一关键语句相邻的语句，且所述目标语句的初始情感类别与所述目标文本的情感类别不同；

语音生成模块，用于基于所述确定模块确定的所述目标语句的修正情感类别生成所述目标语句的语音信息。
根据权利要求7所述的装置，其特征在于，所述语句划分模块用于，将所述目标文本按照语调短语划分规则进行语句划分。
根据权利要求7所述的装置，其特征在于，所述目标文本的情感类别为预先设定的，或者，为基于所述目标文本的文本特征获得的。
根据权利要求7所述的装置，其特征在于，所述确定模块用于，基于所述语句序列中待确定语句的文本特征确定所述待确定语句的初始情感类别。
根据权利要求7至10中任一项所述的装置，其特征在于，所述确定模块用于，基于所述目标语句除所述第一关键语句外的另一相邻语句的初始情感类别与所述目标文本的情感类别相同，根据所述第一关键语句的初始情感类别、所述另一相邻语句的初始情感类别和所述目标语句的文本特征得到所述目标语句的修正情感类别所述。
根据权利要求7至11中任一项所述的装置，其特征在于，所述确定模块还用于，在得到所述目标语句的修正情感类别之后，基于所述目标语句除所述第一关键语句外的另一相邻语句的初始情感类别与所述目标文本的情感类别不同，根据所述目标语句的修正情感类别和所述另一相邻语句的文本特征得到所述另一相邻语句的修正情感类别；

所述语音生成模块还用于，基于所述另一相邻语句的修正情感类别生成所述另一相邻语句的语音信息。
一种计算机设备，其特征在于，包括处理器和存储器，所述处理器在运行所述存储器存储的计算机指令时，执行如权利要求1至6中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至6中任一项所述的方法。
一种计算机程序产品，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至6中任一项所述的方法。