WO2021139486A1

WO2021139486A1 - 文本增量方法、装置及终端设备

Info

Publication number: WO2021139486A1
Application number: PCT/CN2020/136069
Authority: WO
Inventors: 王健宗; 于凤英; 程宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-01-08
Filing date: 2020-12-14
Publication date: 2021-07-15
Also published as: CN111241815A

Abstract

一种文本增量方法、装置及终端设备，适用于自然语言处理技术领域，所述方法包括：获取待增量文本（S201）；对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵（S202）；确定所述待增量文本的文本主题（S203）；将所述特征矩阵输入与所述文本主题对应的变分自编码器，获得所述待增量文本的增量文本（S204）。该方法提高了增量文本与待增量文本的相关度，从而大大提高了生成文本的准确度。

Description

文本增量方法、装置及终端设备

本申请要求于2020年01月08日在中国专利局提交的、申请号为 202010019294.8 、发明名称为“文本增量方法、装置及终端设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于自然语言处理技术领域，尤其涉及一种文本增量方法、装置、终端设备及计算机可读存储介质。

背景技术

当前，发明人意识到，在诸如问答系统、机器翻译等很多人工智能领域，都有根据原始文本数据生成其他文本数据的需求。例如人机问答系统中，当用户询问机器人时，机器人的回答需与用户的问题相关，也就是说，要求机器人生成的回答文本数据与用户询问的文本数据之间相关联。

但是传统的文本生成模型面临的挑战是，生成的文本随机性过强，因此，亟需提供一种新的文本增量方案。

技术问题

本申请实施例的目的之一在于：提供一种文本增量方法、装置、终端设备及计算机可读存储介质，提供了一种新的文本增量方案，提高了增量文本与待增量文本的相关度。

技术解决方案

为解决上述技术问题，本申请实施例采用的技术方案是：

本申请实施例的第一方面提供了一种文本增量方法，包括：

获取待增量文本；

对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵；

确定所述待增量文本的文本主题；

将所述特征矩阵输入与所述文本主题对应的变分自编码器，获得所述待增量文本的增量文本。

本申请实施例的第二方面提供了一种文本增量装置，包括：

获取模块，用于获取待增量文本；

提取模块，用于对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵；

确定模块，用于确定所述待增量文本的文本主题；

增量模块，用于将所述特征矩阵输入与所述文本主题对应的变分自编码器，获得所述待增量文本的增量文本。

本申请实施例的第三方面提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现：

获取待增量文本；

确定所述待增量文本的文本主题；

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：

获取待增量文本；

确定所述待增量文本的文本主题；

本申请实施例的第五方面还提供了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行时实现：

获取待增量文本；

确定所述待增量文本的文本主题；

有益效果

本申请实施例与现有技术相比存在的有益效果是：通过先提取待增量文本的特征矩阵，确定待增量文本的文本主题，再结合与文本主题对应的VAE生成增量文本。一方面，利用与文本主题对应的VAE生成增量文本，不同的主题设置一个不同的VAE；另一方面，由于VAE计算出的分布依赖于输入的变量，所有对这个分布的采样都会生成与输入相似或相关的输出，其本身可以帮助生成文本时实现确定性，因而通过这两方面的双重作用就避免了生成文本时的完全随机性，提高了增量文本与待增量文本的相关度，从而可以大幅提升文本生成的质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或示范性技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请一实施例提供的文本增量方法所适用于的手机的结构示意图；

图2是本申请一实施例提供的文本增量方法的流程示意图；

图3是本申请一实施例提供的文本增量方法中步骤202的流程示意图；

图4是本申请一实施例提供的文本增量方法中VAE的结构示意图；

图5是本申请一实施例提供的文本增量装置的结构示意图；

图6是本申请一实施例提供的文本增量方法所适用于的终端设备的结构示意图。

本发明的实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

下面通过具体实施例来说明本申请的技术方案。

本申请实施例提供的文本增量方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、或服务器等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。其中，服务器包括但不限于独立服务器、云端服务器、分布式服务器和服务器集群等。

例如，所述终端设备可以是WLAN中的站点(STAION，ST)，可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，SIP)电话、无线本地环路(Wireless Local Loop，WLL)站、PDA、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、车联网终端、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(set top box，STB)、用户驻地设备(customer premise equipment，CPE)和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G网络中的移动终端或者未来演进的公共陆地移动网络(Public Land Mobile Network，PLMN)网络中的移动终端等。

作为示例而非限定，当所述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

以所述终端设备为手机为例。图1示出的是与本申请实施例提供的手机的部分结构的框图。参考图1，手机包括：射频（Radio Frequency，RF）电路110、存储器120、输入单元130、显示单元140、传感器150、音频电路160、无线保真（wireless fidelity，WiFi）模块170、处理器180、以及电源190等部件。本领域技术人员可以理解，图1中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对手机的各个构成部件进行具体的介绍：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器180处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low Noise Amplifier，LNA）、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（Global System of Mobile communication，GSM）、通用分组无线服务（General Packet Radio Service，GPRS）、码分多址（Code Division Multiple Access，CDMA）、宽带码分多址（Wideband Code Division Multiple Access，WCDMA）、长期演进（Long Term Evolution，LTE）、电子邮件、以及短消息服务（Short Messaging Service，SMS）等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）、引导装载程序（Boot Loader）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。可以理解的是，本申请实施例中，存储器120中存储有文本增量的程序。

输入单元130可用于接收输入的数字或字符信息，以及产生与手机100的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触控面板131以及其他输入设备132。触控面板131，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板131上或在触控面板131附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板131。除了触控面板131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元140可包括显示面板141，可选的，可以采用液晶显示器（Liquid Crystal Display，LCD）、有机发光二极管（Organic Light-Emitting Diode, OLED）等形式来配置显示面板141。进一步的，触控面板131可覆盖显示面板141，当触控面板131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中，触控面板131与显示面板141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板131与显示面板141集成而实现手机的输入和输出功能。

手机100还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160，扬声器161，传声器162可提供用户与手机之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一手机，或者将音频数据输出至存储器120以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块170，但是可以理解的是，其并不属于手机100的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理单元；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。可以理解的是，本申请实施例中，存储器120中存储有文本增量的程序，而处理器180可以用于调用存储器120中存储的文本增量的程序并执行，以实现本申请实施例的文本增量方法。

手机100还包括给各个部件供电的电源190（比如电池），优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机100还可以包括摄像头。可选地，摄像头在手机100的上的位置可以为前置的，也可以为后置的，还可以为内置的（在使用时可伸出机身），本申请实施例对此不作限定。

可选地，手机100可以包括单摄像头、双摄像头或三摄像头等，本申请实施例对此不作限定。摄像头包括但不限于广角摄像头、长焦摄像头或深度摄像头等。

例如，手机100可以包括三摄像头，其中，一个为主摄像头、一个为广角摄像头、一个为长焦摄像头。

可选地，当手机100包括多个摄像头时，这多个摄像头可以全部前置，或者全部后置，或者全部内置，或者至少部分前置，或者至少部分后置，或者至少部分内置等，本申请实施例对此不作限定。

另外，尽管未示出，手机100还可以包括蓝牙模块等，在此不再赘述。

图2示出了本申请实施例提供的一种文本增量方法的实现流程图。所述文本增量方法应用于终端设备。作为示例而非限定，该文本增量方法可以应用于具有上述硬件结构的手机100中。所述文本增量方法包括步骤S201至步骤S204，各个步骤的具体实现原理如下。

S201，获取待增量文本。

在本申请实施例中，所述待增量文本为进行文本增量的对象，例如句子文本等。

待增量文本可以是用户通过终端设备的输入单元即时输入的文本；还可以是用户通过终端设备的音频采集单元即时采集到的语音数据；还可以是用户通过终端设备的摄像头即时拍摄到的包括文本的图片；还可以是用户通过终端设备的扫描装置即时扫描到的包括文本的图片；还可以是原本已存储在终端设备中的文本；甚至可以是终端设备通过有线或无线网络从其它终端设备处所获取到的文本等。

需要说明的是，针对包括文本的图片，需要通过启用终端设备的图片识别功能提取图片中的文本作为待增量文本；针对语音数据，需要通过启动终端设备的音频转文字功能识别语音数据中的文本作为待增量文本。

在本申请一种非限定性使用场景中，当用户通过终端设备的音频采集单元采集到用户语音输入的一段语音数据后，启用音频转文字功能，获取到用户输入的文本，这时若用户想要进行文本增量，用户可以通过点击终端设备特定的物理按键或者虚拟按键的方式启用终端设备的文本增量功能，在这种模式下，终端设备会对用户输入的文本自动按照步骤S202至步骤S204的过程进行处理，得到增量文本。此处需要说明的是，用户输入文本和点击按键的顺序可以互换，即也可以先点击按键，再获取用户输入的文本，最后针对用户输入的文本自动按照步骤S202至步骤S204的过程进行处理。

在本申请另一种非限定性使用场景中，当用户想要对终端设备已经存储的文本进行增量时，可以通过点击特定的物理按键或者虚拟按键的方式启用终端设备的文本增量功能，并选定待增量文本，则终端设备会对选定的待增量文本自动按照步骤S202至步骤S204的过程进行处理，得到增量文本。此处需要说明的是，点击按键和选定文本的顺序可以互换，即也可以先选定文本，再启用终端设备的文本增量功能。

S202，对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵。

步骤S202为对待增量文本进行特征提取的步骤，获得所述待增量文本对应的特征矩阵，实现采用低维的矩阵表示文本。

在本申请一些实施例中，可以通过词向量模型对待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵。也就是说，通过词向量模型将待增量文本转换成特征矩阵。

词向量模型包括但不限于word2vec（word to vector），ELMo，和BERT（Bidirectional Encoder Representation from Transformers）等模型。本申请实施例通过步骤S202，利用词向量模型，把真实世界抽象存在的文本转换成可以进行数学公式操作的向量或矩阵。将数据处理成可由机器处理的数据，使得本申请能够实施。

需要说明的是，在利用词向量模型之前，需要完成对词向量模型的训练，预训练产生词向量。此外，在对词向量模型的训练过程中，为了获得更准确的特征提取结果，可以保留待增量文本中的标点符号，对完整的待增量文本进行特征提取。

示例性地，BERT模型的训练过程中，为了能够在庞大的数据集上进行非监督的预训练，在训练过程中随机选择了用于训练的训练语句中15%的词作为要遮盖的词。这样的遮盖设计是为了让BERT模型实现对被遮盖位置进行填空，实现非监督的训练。

作为本申请一非限制性示例，步骤S202包括：通过预设的BERT模型对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵。

示例性地，通过预设的BERT模型将所述待增量文本转换为N×768维的特征矩阵，预设的所述BERT模型包括24层编码层，也就是说采用的是BERT Large模型，该模型中Transformer 块的个数为24个；其中，所述待增量文本包括N个字符，N为正整数。

特征矩阵中的每一行对应着待增量文本的一个外文字符（或一个中文字），显然特征矩阵可以反映待增量文本的语义特征。

例如，待增量文本为“我爱我的祖国！”，包括标点符号的中文字的字数为7，不包括标点符号的中文字的字数为6。

另一示例性地，采用包括12层编码层的BERT模型，即BERT Base模型，该模型中Transformer 块的个数为12个。

作为本申请另一非限制性示例，如图3所示，步骤S202包括步骤S2021至步骤S2023。

S2021，获取所述待增量文本的关键词。

其中，针对所述待增量文本，先进行分词和词性标注，然后根据预设的停用词词典去除停用词，并且根据分词后的词语的词性，去掉介词、方位词和语气词等非特征词，得到待增量文本的关键词集合。

步骤S2021通过获取待增量文本的关键词，过滤了一些噪音数据，保证结果精度的同时，也适当的减少了数据量，提高了处理效率，减少了系统资源占用，降低了算力成本。

S2022，获取每个所述关键词对应的特征向量。

其中，终端设备预存有关键词与特征向量的对应关系，通过查找关键词与特征向量的对应关系，获取每个关键词对应的特征向量。

需要说明的是，在步骤S2022之前，预先建立关键词与特征向量的对应关系，对应关系的建立方法如下：

首先，通过网络爬虫技术爬取各种渠道的语料整理成为文档集合。

然后，运用开源的分词工具，对每篇文档进行分词和词性标注，然后根据预设的停用词词典去除停用词，并且根据分词后的词语的词性，去掉介词、方位词和语气词等非特征词，得到关键词集合。

最后，利用开源的词向量训练工具Word2Vec，训练上述关键词集合，得到不同的关键词对应的特征向量，将关键词与特征向量的对应关系进行存储，存储于词向量数据库。示例性的，每个特征向量都具有相同的维度，利用N维（N为正整数）的词向量，每个词向量的数值均在0至1，或-1至1之间。

通过上述方法建立好了关键词与特征向量的对应关系。通过查找对应关系，就可以获取到关键词对应的特征向量，从而将每个关键词转化成特征向量。

S2023，将所有所述关键词对应的所述特征向量进行组合，生成特征矩阵。

其中，将所有关键词对应的特征向量进行组合，是将所有关键词的特征向量进行拼接，以生成特征矩阵。

例如，当特征向量为1×N维，预设数量为M（M为正整数）时，M个1×N维的特征向量组合得到的特征矩阵可以为M×N维，也可以为1×（M+N）维。

在本申请一些实施例中，利用深度学习网络模型对待增量文本进行特征提取，获得与待增量文本对应的特征矩阵。

深度学习网络模型用于提取待增量文本的特征。当待增量文本输入深度学习网络模型，深度学习网络模型输出待增量文本对应的特征矩阵。深度学习网络模型可以为以机器学习技术为基础的深度学习网络模型，包括但不限于深度卷积神经网络模型，和深度残差卷积神经网络模型（Res Net）等。其中，深度卷积神经网络模型包括但不限于AlexNet，VGG-Net，和DenseNet等。

可以理解的是，在利用深度学习网络模型之前，需要完成对深度学习网络模型的训练。在训练深度学习网络模型的过程中，采用的损失函数可以为0-1损失函数，绝对值损失函数，对数损失函数，指数损失函数和铰链损失函数中的一种或者至少两者的组合。

需要说明的是，训练模型的过程，包括训练深度学习网络模型和训练词向量模型的过程，可以在终端设备实现，也可以在与终端设备进行通信连接的其他终端设备上实现。当终端设备将训练好的模型存储好，或者其他终端设备将训练好的模型推送至终端设备后，从而实现在终端设备对获取到的待增量文本进行特征提取。需要说明的是，终端设备在文本增量过程中获得的待增量文本还可以用以增加训练模型的样本数据库的数据，在终端设备或其他终端设备端执行模型的进一步优化，终端设备或其他终端设备再将进一步优化的模型存储到终端设备中以替换之前的模型。通过这种方式优化模型，提高了模型的数据广度，从而提高了本申请方案的适用范围。

S203，确定所述待增量文本的文本主题。

在步骤203中，确定待增量文本的文本主题，从而在后续的步骤S204中通过与文本主题对应的变分自编码器（Variational Autoencoder，VAE）实现对特征矩阵的增量。

在本申请一些实施例中，利用文档主题生成模型（Latent Dirichlet Allocation，LDA）识别所述待增量文本的文本主题。LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。

可以理解的是，此处仅为示例性说明，不能解释为对本申请的具体限制。所有能实现确定待增量文本的文本主题的方式都适用于本申请。

需要说明的是，虽然步骤S202和步骤S203在描述上有前后之分，标号也有大小之分，但是描述上的前后之分和标号的大小之分都不代表具体限制了步骤的先后时序关系。在本申请实施例中，步骤S202可以在步骤S203之前执行，还可以在步骤S203之后执行，还可以与步骤S203同时执行，本申请不具体限定步骤S202和S203之间的时序关系。

S204，将所述特征矩阵输入与所述文本主题对应的变分自编码器VAE，获得所述待增量文本的增量文本。

在本申请实施例中，终端设备预存有多个VAE，每个VAE对应一种文本主题。在步骤203确定待增量文本的文本主题后，从预存的多个VAE中确定出待增量文本的文本主题对应的VAE，从而基于确定出的VAE对待增量文本进行增量。

将特征矩阵输入文本主题对应的VAE，获得待增量文本的增量文本。基于与待增量文本的文本主题对应的VAE进行文本增量，大大提高了增量文本与待增量文本的相关程度，大幅提升了文本生成的准确度。

如图4所示，VAE由两部分构成，包括编码器与解码器。VAE的编码器不直接输出编码，而是认为所有的编码都符合一个正态分布，编码器的均值和方差计算模块计算出正态分布的均值与方差，基于均值与方差可以确定一个正态分布，从确定出的正态分布中进行采样获得一个采样编码，之后将这个采样编码输入到解码器的生成器中生成增量文本数据。也就是说，在本申请实施例中，可以认为每个待增量文本都对应着正态分布中的一个编码，先通过已有的训练数据估计出这个正态分布，之后只需要从正态分布中采样就可以获得新的编码来生成增量文本数据。

作为本申请一非限制性示例，使用一个较为简单的循环神经网络（Recurrent Neural Network，RNN）作为编码器和解码器。该编码器会接收特征矩阵作为输入，输出方差和均值，解码器基于方差和均值确定正态分布，在正态分布中进行采样获得采样编码。将从正态分布中采样得到的采样编码向量在解码器的RNN的每一个时间步进行输入，这样每一个时间步的输出在接入一个全连接层和softmax函数后生成每个词在该位置出现的概率，我们选择概率最大的词作为出现在这个时间步的词。需要说明的是，若生成的文本长度实际没有那么多个时间步，则超出长度的部分均会生成一个预设字符代表填充。

示例性地，上文所提到BERT Large模型输出的N×768维的特征矩阵，编码器接收这个特征矩阵后返回一个维度为1×256的向量；这个向量之后分别接入两个全连接层，两个全连接层分别输出两个大小为1×256的向量，这两个输出就是均值和方差。基于均值和方差确定一个正态分布，在正态分布进行采样，获得采样编码，将采样编码加上一个方差后输入到解码器中，解码器会逐字符的生成增量文本。需要说明的是，本申请实施例能够生成增量文本，是因为对采样编码加上了方差，所以不会生成完全一样的增量文本。

在上述示例中，一方面，使用BERT模型输出的高维文本向量蕴含了极为丰富的信息量，非常适合于VAE的编码器将其加工为语义编码，另一方面，VAE计算出的分布依赖于输入的变量，所有对这个分布的采样都会生成与输入相似或相关的输出，其本身可以帮助生成文本时实现确定性，因而通过BERT模型和VAE结合的双重作用避免了生成文本时的随机性，大大提高了增量文本与待增量文本的相关度，从而可以大幅提升文本生成的质量。

可以理解的是，在利用VAE进行文本增量之前，需要完成对VAE的训练。

在本申请一非限制性示例中，获取到用于训练模型的大规模语料集后，先对语料集中的语料进行文本主题分类，再针对每个类别的语料，分别训练一个VAE，从而得到多个对应不同文本主题的VAE。

在本申请另一非限制性示例中，获取到用于训练模型的大规模语料集后，先基于语料集中的语料训练一个基础VAE；然后，在对语料集中的语料进行文本主题分类的基础上，针对每个类别的语料，基于基础VAE进行再训练，得到一个VAE，从而得到多个对应不同文本主题的VAE。

可以理解的是，在上述两个非限制性示例中，为了提高VAE文本增量结果的准确度，针对每种文本主题，语料集中都有对应的大规模语料。

本申请实施例通过先提取待增量文本的特征矩阵，并确定待增量文本的文本主题，再结合与文本主题对应的VAE生成增量文本。一方面，利用与文本主题对应的VAE生成增量文本，不同的主题设置一个不同的VAE；另一方面，由于VAE计算出的分布依赖于输入的变量，所有对这个分布的采样都会生成与输入相似或相关的输出，其本身可以帮助生成文本时实现确定性，因而通过这两方面的双重作用就避免了生成文本时的完全随机性，提高了增量文本与待增量文本的相关度，从而可以大幅提升文本生成的质量。

需要说明的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的文本的增量方法，图5示出了本申请实施例提供的文本的增量装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图5，该装置包括：

获取模块51，用于获取待增量文本；

提取模块52，用于对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵；

确定模块53，用于确定所述待增量文本的文本主题；

增量模块54，用于将所述特征矩阵输入与所述文本主题对应的变分自编码器，获得所述待增量文本的增量文本。

其中，所述提取模块52，具体包括：

转换子模块，用于通过预设的词向量模型将所述待增量文本转换成特征矩阵。

其中，所述转换子模块，具体包括：

转换单元，用于通过预设的BERT模型对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵。

其中，所述转换单元，具体包括：

转换子单元，用于通过预设的BERT模型将所述待增量文本转换为N×768维的特征矩阵，预设的所述BERT模型包括24层编码层；其中，所述待增量文本包括N个字符，N为正整数。

其中，所述转换子模块，具体包括：

第一获取单元，用于获取所述待增量文本的关键词；

第二获取单元，用于获取每个所述关键词对应的特征向量；

组合单元，用于将所有所述关键词对应的所述特征向量进行组合，生成特征矩阵。

其中，所述增量模块54，具体包括：

输入子模块，用于将所述特征矩阵输入与所述文本主题对应的变分自编码器的编码器，得到所述特征矩阵的均值和方差；

采样子模块，用于根据所述均值和所述方差确定正态分布，从所述正态分布中进行采样获得采样编码；

生成子模块，用于将所述采样编码输入到变分自编码器的解码器中生成所述待增量文本的增量文本。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例部分的说明即可。

图6为本申请一实施例提供的终端设备的结构示意图。如图6所示，该实施例的终端设备6包括：至少一个处理器60（图6中仅示出一个处理器）、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62，所述处理器60执行所述计算机程序62时实现上述各个方法实施例中的步骤。

在本申请实施例中，一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现：

获取待增量文本；

确定所述待增量文本的文本主题；

在本申请实施例中，所述处理器执行所述计算机程序时还实现：

通过预设的词向量模型将所述待增量文本转换成特征矩阵。

通过预设的BERT模型对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵。

通过预设的BERT模型将所述待增量文本转换为N×768维的特征矩阵，预设的所述BERT模型包括24层编码层；其中，所述待增量文本包括N个字符，N为正整数。

获取所述待增量文本的关键词；

获取每个所述关键词对应的特征向量；

将所有所述关键词对应的所述特征向量进行组合，生成特征矩阵。

将所述特征矩阵输入与所述文本主题对应的变分自编码器的编码器，得到所述特征矩阵的均值和方差；

根据所述均值和所述方差确定正态分布，从所述正态分布中进行采样获得采样编码；

将所述采样编码输入到变分自编码器的解码器中生成所述待增量文本的增量文本。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：

获取待增量文本；

确定所述待增量文本的文本主题；

在本申请实施例中，所述计算机程序被处理器执行时还实现：

通过预设的词向量模型将所述待增量文本转换成特征矩阵。

获取所述待增量文本的关键词；

获取每个所述关键词对应的特征向量；

本领域普通技术人员可以理解，所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制。尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种文本增量方法，其中，包括：

获取待增量文本；

对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵；

确定所述待增量文本的文本主题；

将所述特征矩阵输入与所述文本主题对应的变分自编码器，获得所述待增量文本的增量文本。
如权利要求1所述的文本增量方法，其中，对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵，包括：

通过预设的词向量模型将所述待增量文本转换成特征矩阵。
如权利要求2所述的文本增量方法，其中，所述通过预设的词向量模型将所述待增量文本转换成特征矩阵，包括：

通过预设的BERT模型对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵。
如权利要求3所述的文本增量方法，其中，所述通过预设的BERT模型对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵，包括：

通过预设的BERT模型将所述待增量文本转换为N×768维的特征矩阵，预设的所述BERT模型包括24层编码层；其中，所述待增量文本包括N个字符，N为正整数。
如权利要求2所述的文本增量方法，其中，通过预设的词向量模型将所述待增量文本转换成特征矩阵，包括：

获取所述待增量文本的关键词；

获取每个所述关键词对应的特征向量；

将所有所述关键词对应的所述特征向量进行组合，生成特征矩阵。
如权利要求1所述的文本增量方法，其中，所述将所述特征矩阵输入与所述文本主题对应的变分自编码器，获得所述待增量文本的增量文本，包括：

将所述特征矩阵输入与所述文本主题对应的变分自编码器的编码器，得到所述特征矩阵的均值和方差；

根据所述均值和所述方差确定正态分布，从所述正态分布中进行采样获得采样编码；

将所述采样编码输入到变分自编码器的解码器中生成所述待增量文本的增量文本。
一种文本增量装置，其中，包括：

获取模块，用于获取待增量文本；

提取模块，用于对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵；

确定模块，用于确定所述待增量文本的文本主题；

增量模块，用于将所述特征矩阵输入与所述文本主题对应的变分自编码器，获得所述待增量文本的增量文本。
如权利要求7所述的文本增量装置，其中，所述提取模块，具体包括：

转换子模块，用于通过预设的词向量模型将所述待增量文本转换成特征矩阵。
如权利要求8所述的文本增量装置，其中，所述转换子模块，具体包括：

转换单元，用于通过预设的BERT模型对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵。
如权利要求9所述的文本增量装置，其中，所述转换单元，具体包括：

转换子单元，用于通过预设的BERT模型将所述待增量文本转换为N×768维的特征矩阵，预设的所述BERT模型包括24层编码层；其中，所述待增量文本包括N个字符，N为正整数。
如权利要求8所述的文本增量装置，其中，所述转换子模块，具体包括：

第一获取单元，用于获取所述待增量文本的关键词；

第二获取单元，用于获取每个所述关键词对应的特征向量；

组合单元，用于将所有所述关键词对应的所述特征向量进行组合，生成特征矩阵。
一种终端设备，其中，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现：

获取待增量文本；

对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵；

确定所述待增量文本的文本主题；

将所述特征矩阵输入与所述文本主题对应的变分自编码器，获得所述待增量文本的增量文本。
如权利要求12所述的终端设备，其中，所述处理器执行所述计算机程序时还实现：

通过预设的词向量模型将所述待增量文本转换成特征矩阵。
如权利要求13所述的终端设备，其中，所述处理器执行所述计算机程序时还实现：

通过预设的BERT模型对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵。
如权利要求14所述的终端设备，其中，所述处理器执行所述计算机程序时还实现：

通过预设的BERT模型将所述待增量文本转换为N×768维的特征矩阵，预设的所述BERT模型包括24层编码层；其中，所述待增量文本包括N个字符，N为正整数。
如权利要求13所述的终端设备，其中，所述处理器执行所述计算机程序时还实现：

获取所述待增量文本的关键词；

获取每个所述关键词对应的特征向量；

将所有所述关键词对应的所述特征向量进行组合，生成特征矩阵。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现：

获取待增量文本；

对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵；

确定所述待增量文本的文本主题；

将所述特征矩阵输入与所述文本主题对应的变分自编码器，获得所述待增量文本的增量文本。
如权利要求17所述的计算机可读存储介质，其中，所述处理器执行所述计算机程序时还实现：

通过预设的词向量模型将所述待增量文本转换成特征矩阵。
如权利要求18所述的计算机可读存储介质，其中，所述处理器执行所述计算机程序时还实现：

通过预设的BERT模型对所述待增量文本进行特征提取，获得所述待增量文本对应的特征矩阵。
如权利要求19所述的计算机可读存储介质，其中，所述处理器执行所述计算机程序时还实现：

通过预设的BERT模型将所述待增量文本转换为N×768维的特征矩阵，预设的所述BERT模型包括24层编码层；其中，所述待增量文本包括N个字符，N为正整数。