WO2023159758A1

WO2023159758A1 - 数据增强方法和装置、电子设备、存储介质

Info

Publication number: WO2023159758A1
Application number: PCT/CN2022/090666
Authority: WO
Inventors: 陶清; 王彦; 马骏; 王少军
Original assignee: 平安科技（深圳）有限公司
Priority date: 2022-02-22
Filing date: 2022-04-29
Publication date: 2023-08-31
Also published as: CN114595327A

Abstract

本申请实施例提供数据增强方法和装置、电子设备、存储介质，涉及人工智能技术领域。该数据增强方法，包括：获取原始文本样本输入到预训练的主题模型，计算每个句子中每个主题词对文本句子的贡献值，然后根据主题词对文本句子的贡献值得到待替换词集合，然后在预先训练得到的词向量集合中选取候选词，最后利用候选词替换待替换词，得到数据增强文本样本。利用主题模型得到原始文本样本中每个句子对应的主题分布概率信息，从而很好的衡量句子中每个词对文本句子主题的贡献值，在句子主题分布不受影响的情况下完成数据增强，同时借助预训练词向量，选择与待替换词语义相近的词作为替换词，最大程度保证句子的语义信息。

Description

数据增强方法和装置、电子设备、存储介质

本申请要求于2022年02月22日提交中国专利局、申请号为202210163920.X，发明名称为“数据增强方法和装置、电子设备、存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及数据增强方法和装置、电子设备、存储介质。

背景技术

数据增强是一种数据处理方法，通常应用于图像处理、语音处理等领域，比如在图像处理领域，研究人员通常会使用旋转、裁剪等操作对图片数据进行处理，达到数据增强、丰富数据样本的目的。不同于图像处理和语音处理领域，对文本数据的增强处理，不能简单地使用文本转换操作，如顺序调换、丢弃部分词等操作，因为文本中的词顺序是会形成严格的句法和语义，这些简单的操作会造成文本语义信息的损失。

相关技术中，在文本分类任务上使用的数据增强方法主要有：基于同义词表的数据增强方法、基于回译的数据增强方法或基于预训练词向量的数据增强方法。

技术问题

以下是发明人意识到的现有技术的技术问题：基于同义词表的数据增强方法不能有效地适应特定领域的文本；基于回译的数据增强方法需要借助额外的翻译模型才能实现，并且数据大量的双语语料，这个在特定领域中也是严重缺乏的；而使用预训练词向量进行数据增强时，也面临如何选取合适词进行替换的问题。

技术解决方案

第一方面，本申请实施例提出了一种数据增强方法，其中，所述方法包括：

获取待增强的原始文本样本；其中，所述原始文本样本包括至少一个文本句子，所述原始文本样本包括至少一个主题词；

将所述原始文本样本输入到预先训练得到的主题模型，得到每一所述文本句子对应的主题分布概率信息，所述主题模型为隐形狄利克雷分配主题模型；

根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值；

根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合；

根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；

利用所述候选词替换所述待替换词，得到数据增强文本样本。

第二方面，本申请实施例提出了一种文本样本数据增强装置，包括：

样本获取模块，用于获取待增强的原始文本样本；其中，所述原始文本样本包括至少一个文本句子，所述原始文本样本包括至少一个主题词；

主题分布概率计算模块，用于将所述原始文本样本输入到预先训练得到的主题模型，得到每一所述文本句子对应的主题分布概率信息，所述主题模型为隐形狄利克雷分配主题模型；

贡献值计算模块，用于根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值；

待替换词选取模块，用于根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合；

候选词选取模块，用于根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；

数据增强模块，用于利用所述候选词替换所述待替换词，得到数据增强文本样本。

第三方面，本申请实施例提出了一种电子设备，包括：至少一个存储器；至少一个处理器；所述存储器存储有计算机程序，处理器执行所述计算机程序以实现一种数据增强方法，其中，所述一种数据增强方法包括：获取待增强的原始文本样本；其中，所述原始文本样本包括至少一个文本句子，所述原始文本样本包括至少一个主题词；将所述原始文本样本输入到预先训练得到的主题模型，得到每一所述文本句子对应的主题分布概率信息，所述主题模型为隐形狄利克雷分配主题模型；根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值；根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合；根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；利用所述候选词替换所述待替换词，得到数据增强文本样本。

第四方面，本申请实施例提出了一种存储介质，所述存储介质为计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使计算机执行一种数据增强方法，其中，所述一种数据增强方法包括：获取待增强的原始文本样本；其中，所述原始文本样本包括至少一个文本句子，所述原始文本样本包括至少一个主题词；将所述原始文本样本输入到预先训练得到的主题模型，得到每一所述文本句子对应的主题分布概率信息，所述主题模型为隐形狄利克雷分配主题模型；根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值；根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合；根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；利用所述候选词替换所述待替换词，得到数据增强文本样本。

有益效果

本申请实施例提出的数据增强方法和装置、电子设备、存储介质，可以在句子主题分布不受影响的情况下完成数据增强，同时借助预训练词向量，可以选择与待替换词语义相近的词作为替换词，从而保证句子的语义信息。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请实施例提供的数据增强方法的流程图。

图2是本申请另一实施例提供的数据增强方法的部分流程图图。

图3是本申请另一实施例提供的数据增强方法的部分流程图。

图4是本申请另一实施例提供的数据增强方法的部分流程图。

图5是本申请又一实施例提供的数据增强方法的部分流程图。

图6是本申请又一实施例提供的数据增强方法的流程图。

图7是本申请又一实施例提供的文本样本数据增强装置的结构框图。

图8是本申请实施例提供的电子设备的硬件结构示意图。

本发明的实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

隐形狄利克雷分配(Latent Dirichlet Allocation，LDA)模型：LDA模型是一种非监督机器学习技术，属于文本语义分析中的一种模型，用来推测文档的主题分布。可以将文档集合中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出主题分布后，便可以根据主题分布进行主题聚类或文本分类。LDA模型是一种词袋模型，假设文档之间相互独立，文档中的词汇之间相互独立，词袋模型仅考虑一个词汇是否在一篇文档中出现，而不考虑其在文档中出现的顺序，例如在词袋模型中，“我喜欢你”和“你喜欢我”是等价的。

自然语言处理(Natural Language Processing,NLP)：是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，自然语言处理是一门融语言学、计算机科学、数学于一体的科学。简单来说即是计算机接受用户自然语言形式的输入，并在内部通过人类所定义的算法进行加工、计算等系列操作，以模拟人类对自然语言的理解，并返回用户所期望的结果。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

Gensim工具：是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。支持包括TF-IDF，LSA，LDA和word2vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算，信息检索等一些常用任务的API接口。

Word2vec：Word2Vec是词嵌入(Word Embedding)方式之一，属于NLP领域，是语言模型中的一种，是用来生成词向量的工具，从大量文本预料中以无监督方式学习语义知识的模型，被广泛地应用于自然语言处理中。Word Embedding是将不可计算的非结构化的词转化为可计算的结构化的向量。

Gibbs采样：是一种特殊的马尔可夫链算法，常被用于解决包括矩阵分解、张量分解等在内的一系列问题，也被称为交替条件采样(alternating conditional sampling)，其中，“交替”一词是指Gibbs采样是一种迭代算法，并且相应的变量会在迭代的过程中交替使用，除此之外，加上“条件”一词是因为Gibbs采样的核心是贝叶斯理论，围绕先验知识和观测数据，以观测值作为条件从而推断出后验分布。

数据增强是一种常用的数据处理方法，广泛用于图像、语音处理领域，比如在图像领域，研究人员通常会使用旋转、裁剪等简单操作对图片数据进行处理，达到数据增强丰富数据样本的目的，这种数据增强方法被证实能够有效地提升模型在测试数据上的泛化能力。不同于图像和语音领域，对文本数据进行增强时，不能使用一些简单的文本转换，如顺序调换、丢弃部分词等，因为文本中的词顺序是会形成严格的句法和语义，这些简单的操作会造成文本语义信息的损失。

在文本领域最佳的数据增强方法是使用人工对句子进行改写，但考虑到数据集的量级，这种方法是不切实际且成本高昂的。相关技术中，在文本分类任务上使用的数据增强方法主要有：基于同义词表的数据增强方法、基于回译(如先将中文翻译为英文，再将英文回译为中文)的数据增强方法或基于预训练词向量的数据增强方法。但是基于同义词表的数据增强方法一般使用现有公开的、通用领域的词表进行词替换，不能有效地适应特定领域的文本，比如金融或医学领域，而从头建立一个领域的同义词典又是成本巨大的；基于回译的数据增强方法需要借助额外的翻译模型才能实现，并且数据大量的双语语料，这个在特定领域中也是严重缺乏的；而使用预训练词向量进行数据增强是前两种方法的一个折中，因为其可以利用特定领域的无标注文本，但是使用这种方法时存在一个问题就是：如何选择文本中的哪些词进行替换，因为这些选择的词要最小程度地影响句子的语义，否则不能很有效地提升分类模型效果。

基于此，本申请实施例提供一种数据增强方法和装置、电子设备、存储介质，利用主题模型得到原始文本样本中每个句子对应的主题分布概率信息，从而很好的衡量句子中每个词对文本句子主题的贡献值，可以保证在句子主题分布不受影响的情况下完成数据增强，同时借助预训练词向量，可以选择与待替换词语义相近的词作为替换词，从而最大程度的保证句子的语义信息。

本申请实施例提供数据增强方法和装置、电子设备、存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的数据增强方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的数据增强方法，涉及人工智能技术领域，尤其涉及数据挖掘技术领域。本申请实施例提供的数据增强方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现数据增强方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

图1是本申请实施例提供的数据增强方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S110至步骤S160。

步骤S110，获取待增强的原始文本样本。

文本分类任务是自然语言处理中的一项基础任务，目前一些深度学习模型，如(CNN、RNN和Transformer等)在一些分类任务如新闻分类和情感分析上取得了不错的效果。但这些深度模型都要求大规模、高质量的标注数据，而这些标注数据在真实的业务场景中通常是难以获得的或者说标注成本很高。

在一实施例中，原始文本样本包括至少一个文本句子，原始文本样本包括至少一个主题词，一个句子中可能包含不同的主题词，也可能并不包含主题词。并且原始文本样本为预设领域中的已标注样本，其中预设领域可以根据实际需求选取，通过对已标注的文本样本进行增强，得到该预设领域相关的大规模增强标注文本。其中预设领域的文本样本中的标注信息不仅可以基于半监督分类模型自动标注的方式得到，还可以利用人工标注的方式得到，由于人工标注的标注文本的类别标签的准确度较高，因此能够提高标注文本的标注精度

在一实施例中，获取到原始文本样本后还需要对其进行文本预处理，得到预处理后的文本语料，其中文本预处理包括但不限于：去除非法字符、去除停用词、去除冗余词和分词等。

在一实施例中，可以利用预设词典对原始文本样本进行分词处理，并且去除样本集合中各样本文本中的停用词。其中，预设词典具体可以是预设领域对应的自定义词典，该自定义词典中可以包括预先自定义的多个分词，当对原始文本样本进行分词处理时，具体可以采用该自定义词典对原始文本样本进行分词处理，例如从原始文本样本中获取与自定义词典中各分词匹配的分词，从而将原始文本样本分解成多个与自定义词典中的分词匹配的分词，以提高对原始文本样本进行分词的准确率。

另外，在信息检索时为提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词就被称为停用词，停用词大致可分为如下两类：一类是使用十分广泛，甚至是过于频繁的一些单词，如“我”、“是”等；另一类是文本中实际意义不大的词，这类词包括了语气助词、副词、介词、连词等，通常自身并无明确意义，只有将其放入一个完整的句子中才有一定作用的词语，如常见的“的”、“在”、“和”、“接着”之类。因此，本实施例中在对原始文本样本进行分词处理后，可以通过去停用词，去掉一些语气词、感叹词或非法字符等无意义词汇。通过对预设领域的大量文本样本做特征分析，计算不同度量词的重要性值，例如通过tf-idf、信息增益等方式计算得到重要性值，根据重要性值生成预设领域的停用词集合，结合通用领域的停用词，得到最终的停用词集合。本实施例的停用词去除就是对分词后的词序列删除属于停用词集合中的词。

在一实施例中，在对原始文本样本进行分词处理后，还可以去除冗余词。其中，冗余词过滤是指将语义上重复冗余的词去掉，将两个中文文本分词后得到的各词语分别与预设的语义模板进行匹配，通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语，将上位的词语识别为语义冗余的词语，进一步滤除，冗余词的语义模板在此不做具体限定，可以采用本领域现有的或公知的计算方法来计算，只要其可以应用到本申请中。

步骤S120，将原始文本样本输入到预先训练好的主题模型，得到原始文本样本中每个文本句子对应的主题分布概率信息。

在一实施例中，主题模型为隐形狄利克雷分配主题模型，使用的工具是Gensim工具。该实施例中利用隐形狄利克雷分配主题模型获得经过预处理之后的原始文本样本中各基础词(例如通过分词得到各主题词)到主题的概率分布、原始文本样本到主题的概率分布。可以理解的是，隐形狄利克雷分配主题模型可以采用本领域现有的或公知的计算方法来计算，只要其可以应用到本申请中。隐形狄利克雷分配主题模型的计算可以包含多种方式，例如可以以一个处理器单训练线程来计算，也可以以多个处理器多个训练线程来计算，甚至是进行分布式计算。

在一实施例中，首先对隐形狄利克雷分配主题模型进行训练，参照图2，训练隐形狄利克雷分配主题模型的过程包括但不限于步骤S210至步骤S240：

步骤S210，获取预设领域的训练样本集。

在一实施例中训训练样本集包括预设领域中未标注的训练文本样本和对应的概率标签。可以理解的是，对于训练文本样本同样可以进行上述文本预处理操作，其中文本预处理包括但不限于：去除非法字符和分词等。

步骤S220，将训练文本样本输入初始主题模型中，根据预设主题数得到训练文本样本的预测主题分布概率。

步骤S230，根据预测主题分布概率和对应的概率标签计算得到损失值。

在一实施例中，首先设置预设主题数，预设主题数可以根据先验知识或者实际需求设定，在此不做具体限定。然后将训练文本样本输入初始主题模型中进行迭代处理，计算初始主题模型，获得该训练文本样本的预测主题分布概率，其中预测主题分布概率包括：训练文本样本的基础词到主题的概率分布和训练文本样本到主题的概率分布。

在一实施例中，基础词到主题的概率分布为一个词到主题的矩阵，矩阵的行是词、列是隐含计算的主题。训练文本样本到主题的概率分布为文本到主题的矩阵，矩阵的行为每个训练文本样本，列是隐含计算的主题。主题的词向量就是词到主题的矩阵中该矩阵的列向量。这些矩阵初始为随机值，通过Gibbs采样迭代，逐渐优化计算矩阵的每个值，即得到预测主题分布概率，最终可以通过词到主题的矩阵，得到词的聚类从而指引关键词。本实施例中根据预测主题分布概率和对应的概率标签计算得到损失值。

步骤S240，利用损失函数根据损失值调整初始主题模型的模型权值，直至损失函数满足收敛条件，训练得到主题模型。

在一实施例中，迭代之后，利用损失函数根据损失值判断基础LDA模型是否达到收敛条件，从而调整初始主题模型的模型权值，直至损失函数满足收敛条件，训练得到主题模型。例如收敛条件可以是迭代次数，如果未达到收敛条件，则继续计算各个训练文本样本的初始主题模型；如果达到收敛条件，训练得到主题模型。

在一实施例中，根据上述预训练的主题模型，得到原始文本样本中每个句子对应的主题分布概率信息，其中主题分布概率信息包括：主题词的主题分布概率和句子的主题分布概率。

步骤S130，根据主题分布概率信息计算每个句子中每个主题词对文本句子的贡献值。

在一实施例中，根据第一公式计算文本句子的主题分布概率，然后计算主题词的主题分布概率，最后根据第二公式将预设的平滑参数、主题分布概率、主题分布概率进行相乘计算，得到贡献值；

具体的，第一公式表示为：

第二公式表示为：

其中，ω _i表示主题词，s＝s(ω ₁,ω ₂,...,ω _i,...,ω _N)表示文本句子，文本句子中包含N个主题词，

表示主题词对文本句子中的贡献值，p(t|ω _i)表示主题词的主题分布概率，p(t|s)表示文本句子的主题分布概率，τ表示平滑参数。

在一实施例中，平滑参数τ用于控制词替换概率的平滑度，一般可以取0.75。

步骤S140，根据主题词的贡献值计算得到主题词的替换概率，并根据替换概率从文本句子中选出待替换词，得到待替换词集合。

在一实施例中，得到句子中每个主题词对文本句子主题的贡献值，进一步根据主题词对文本句子的贡献值计算得到主题词的替换概率，并利用替换概率选取文本句子待替换词得到待替换词集合。另外，如果一个文本句子中不包含主题词，则主题词对该文本句子的贡献值为零。参照图3，步骤S140包括但不限于步骤S141至步骤S143：

步骤S141，根据主题词在文本句子中的贡献值计算得到主题词的替换概率。

在一实施例中，根据第三公式计算文本句子中所有主题词的最大贡献值，然后根据第四公式计算所有主题词的贡献值减去最大贡献值得到的贡献值总和，最后根据第五公式利用主题词对文本句子中的贡献值、最大贡献值和贡献值总和计算主题词的替换概率；

计算文本句子中所有主题词的最大贡献值，表示为：

然后计算每一主题词的贡献值与最大贡献值之间的差值，将所有差值进行求和得到贡献值总和，贡献值总和表示为：

最后计算每一差值与贡献值总和之间的比值，得到主题词的替换概率，主题词的替换概率表示为：

其中，

表示主题词对文本句子中的贡献值，

表示主题词的替换概率，M表示文本句子中所有主题词的最大贡献值，Z表示所有主题词的贡献值减去最大贡献值之后的贡献值总和。

在一实施例中，主题词对文本句子主题的贡献值

越高，其主题词的替换概率

就越低，说明一个主题词对一个句子主题的贡献值越高，就不考虑将其进行替换，这种方式能够保证该句子在预设领域的主题意义。

步骤S142，根据预设替换词数量和替换概率采样得到待替换词。

步骤S143，利用待替换词组成待替换词集合。

在一实施例中，首先随机选取预设替换词数量r，其中预设替换词数量r服从几何分布，表示为：

P[r]～p ^r

P(X＝r)＝p(1-p) ^r-1

在一实施例中，几何分布是离散型概率分布，定义为：在n次伯努利试验中，试验k次才得到第一次成功的机率，即前k-1次皆失败，第k次成功的概率。在伯努利试验中，成功的概率为p，该实施例中p的取值可以是0.5，在此不做具体限定。

在得到预设替换词数量r后，基于上述得到的主题词对文本句子主题的贡献值进行随机采样，得到r个词作为待替换词，将得到的待替换词组合得到待替换词集合。

步骤S150，根据待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词。

在一实施例中，预先训练得到的词向量集合是利用Word2vec工具训练得到的，Word2Vec是Google在2013年开源的一款将词表征为实数值向量的工具，其利用深度学习的思想，可以通过训练，把对训练文本样本的文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示训练文本样本在文本语义上的相似度。参照图4，预先训练得到词向量集合的步骤包括但不限于步骤S410至步骤S430：

步骤S410，获取预设领域的训练文本样本。

在一实施例中，该训练文本样本可以利用训练隐形狄利克雷分配主题模型时使用的预设领域的训练文本样本。

步骤S420，利用Word2vec工具训练训练文本样本得到预训练词向量。

步骤S430，利用预训练词向量构成词向量集合。

在一实施例中，训练后得到与预设领域相关的预训练词向量，训练时的词向量维度设置可根据具体语料量级确定，在此不做具体限定。

在一实施例中，得到词向量集合后，在词向量集合中选取与待替换词集合中待替换词相似的词作为的候选词。参照图5，步骤S150包括但不限于步骤S151至步骤S153：

步骤S151，计算待替换词集合中待替换词与词向量集合中预训练词向量在向量空间中的距离。

在一实施例中，可以通过计算待替换词集合中待替换词和词向量集合中预训练词向量之间的距离，得到距离矩阵，向量距离可以采用现有技术或未来发展的技术中用于确定两个向量之间的距离的方法确定，本申请对此不作限定。例如使用欧式距离公式计算得到或者使用余弦距离公式计算得到等。

在一实施例中，待替换词集合中待替换词和词向量集合中预训练词向量之间的距离在距离矩阵的具体表示形式为：d _ij，i和j分别表示该距离在距离矩阵的行和列。由于本实施例中通过距离从词向量集合中选取待替换词的同义词，而两个词是否是同义词与矩阵中两个词向量之间的距离有关，如果两个词向量之间的距离为预设距离之内时，可以确定两词互为同义词，因此，本实施例可以通过距离矩阵可以方便快捷地的找到待替换词的同义词，提高了待替换词替换的可靠性。

步骤S152，对距离进行排序得到距离排序结果。

在一实施例中，对距离矩阵中的距离进行排序得到距离排序结果，然后利用预设距离判断词向量集合中哪些预训练词向量与待替换词集合中待替换词属于同义词。

步骤S153，根据距离排序结果，在词向量集合中选取预设数量的词作为候选词。

在一实施例中，根据距离排序结果选取距离矩阵中两个词向量之间的距离位于预设距离之内的词向量集合中预训练词向量作为对应待替换词的候选词，例如有k个预训练词向量符合候选词的标准。

在一实施例中，如果词向量集合中候选词较多时，可以根据候选词的位置分布选取需求数量的候选词。例如可以设定候选词在词向量集合中的位置s分布服从几何分布，表示为：

P[r]～p ^r

其中，q的取值可以是0.5，在此不做具体限定。

步骤S160，利用候选词替换待替换词，得到数据增强文本样本。

在一实施例中，通过将句子中的待替换词更改为候选词，可以得到一个或多个更新后的句子，对原始文本样本中每个句子都进行对应的更新，即可得到一个或多个数据增强文本样本。可以理解的是，对于同一个句子可以对其进行多次增强，具体的次数在不同的数据集上有差异，例如同一个句子可以进行2到4次的增强，原始文本样本中每个句子都增强完毕后，即得到一个或多个数据增强后的标注语料，即数据增强文本样本。

另外，参照图6，为本申请一实施例提供的数据增强方法流程示意图。

步骤S600，获取预设领域中大量未标注文本样本作为训练文本样本。

步骤S610，对训练文本样本进行文本预处理，其中，文本预处理包括但不限于：去除非法字符、去除停用词、去除冗余词和分词等。

步骤S620，利用训练文本样本对初始主题模型训练得到主题模型。

步骤S630，利用Word2vec工具训练训练文本样本得到预训练词向量集。

步骤S640，将预设领域中已标注文本样本作为原始文本样本，以进行文本样本数据增强。

步骤S650，对原始文本样本进行文本预处理，其中，文本预处理包括但不限于：去除非法字符、去除停用词、去除冗余词和分词等。

步骤S660，计算原始文本样本中各主题词对文本句子的贡献值，具体是：利用步骤S620得到的主题模型得到原始文本样本中每个句子对应的主题分布概率信息，并根据主题分布概率信息计算每个句子中每个主题词对文本句子的贡献值

步骤S670，根据主题词对文本句子的贡献值得到待替换词集合，具体是：根据主题词对文本句子的贡献值计算得到主题词的替换概率，并利用替换概率选取文本句子待替换词得到待替换词集合。

步骤S680，利用步骤S630得到的词向量集合，从中选取候选词，具体是：在词向量集合中选取与待替换词集合中待替换词相似的词作为的候选词。

步骤S690，得到数据增强文本样本，具体是：利用候选词替换待替换词。

本申请实施例提供的数据增强方法，通过获取原始文本样本，将原始文本样本输入到预训练的主题模型，得到原始文本样本中每个句子对应的主题分布概率信息，主题模型为基于LDA隐形狄利克雷分配主题模型，再根据主题分布概率信息计算每个句子中每个主题词对文本句子的贡献值，然后根据主题词对文本句子的贡献值计算得到主题词的替换概率，并利用替换概率选取文本句子待替换词得到待替换词集合，然后在预先训练得到的词向量集合中选取与待替换词集合中待替换词相似的词作为的候选词，最后利用候选词替换待替换词，得到数据增强文本样本。

本实施例利用主题模型得到原始文本样本中每个句子对应的主题分布概率信息，从而很好的衡量句子中每个词对文本句子主题的贡献值，可以保证在句子主题分布不受影响的情况下完成数据增强，同时借助预训练词向量，可以选择与待替换词语义相近的词作为替换词，从而最大程度的保证句子的语义信息。

另外，本申请实施例还提供一种文本样本数据增强装置，可以实现上述数据增强方法，参照图7，该装置包括：

样本获取模块710，用于获取待增强的原始文本样本；其中，原始文本样本包括至少一个文本句子，原始文本样本包括至少一个主题词；

主题分布概率计算模块720，用于将原始文本样本输入到预先训练得到的主题模型，得到每一文本句子对应的主题分布概率信息，主题模型为隐形狄利克雷分配主题模型；

贡献值计算模块730，用于根据主题分布概率信息计算每一主题词对文本句子的贡献值；

待替换词选取模块740，用于根据主题词的贡献值计算得到主题词的替换概率，并根据替换概率从文本句子中选出待替换词，得到待替换词集合；

候选词选取模块750，用于根据待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；

数据增强模块760，用于利用候选词替换待替换词，得到数据增强文本样本。

在一实施例中，主题分布概率信息包括：主题词的主题分布概率和句子的主题分布概率，贡献值计算模块730中每个主题词对文本句子的贡献值，表示为：

在一实施例中，待替换词选取模块740，还用于根据主题词对文本句子的贡献值计算得到主题词的替换概率，然后根据预设替换词数量和替换概率采样得到待替换词，最后利用待替换词组成待替换词集合。

在一实施例中，候选词选取模块750，还用于计算待替换词集合中待替换词与预先训练得到的词向量集合中预训练词向量在向量空间中的距离，然后对距离进行排序得到距离排序结果，最后根据距离排序结果，在词向量集合中选取预设数量的词作为候选词，候选词在词向量集合中的位置分布服从几何分布。

本实施例的文本样本数据增强装置的具体实施方式与上述数据增强方法的具体实施方式基本一致，在此不再赘述。

本申请实施例还提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本申请实施例的一种数据增强方法。该电子设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、车载电脑等任意智能终端。

请参阅图8，图8示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器801，可以采用通用的CPU(Central ProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器802，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器802可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器802中，并由处理器801来调用执行一种数据增强方法，其中，所述数据增强方法包括：获取待增强的原始文本样本；其中，原始文本样本包括至少一个文本句子，原始文本样本包括至少一个主题词；将原始文本样本输入到预先训练得到的主题模型，得到每一文本句子对应的主题分布概率信息，主题模型为隐形狄利克雷分配主题模型；根据主题分布概率信息计算每一主题词对文本句子的贡献值；根据主题词的贡献值计算得到主题词的替换概率，并根据替换概率从文本句子中选出待替换词，得到待替换词集合；根据待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；利用候选词替换待替换词，得到数据增强文本样本。

输入/输出接口803，用于实现信息输入及输出；

通信接口804，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线805，在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息；

其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性。该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行一种数据增强方法，其中，所述数据增强方法包括：获取待增强的原始文本样本；其中，原始文本样本包括至少一个文本句子，原始文本样本包括至少一个主题词；将原始文本样本输入到预先训练得到的主题模型，得到每一文本句子对应的主题分布概率信息，主题模型为隐形狄利克雷分配主题模型；根据主题分布概率信息计算每一主题词对文本句子的贡献值；根据主题词的贡献值计算得到主题词的替换概率，并根据替换概率从文本句子中选出待替换词，得到待替换词集合；根据待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；利用候选词替换待替换词，得到数据增强文本样本。

本申请实施例提出的数据增强方法、文本样本数据增强装置、电子设备、存储介质，利用主题模型得到原始文本样本中每个句子对应的主题分布概率信息，从而很好的衡量句子中每个词对文本句子主题的贡献值，可以保证在句子主题分布不受影响的情况下完成数据增强，同时借助预训练词向量，可以选择与待替换词语义相近的词作为替换词，从而最大程度的保证句子的语义信息。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

该实施例提供的非暂态软件程序以及非暂态性计算机可执行程序均可用于执行如下步骤：通过获取原始文本样本，将原始文本样本输入到预训练的主题模型，得到原始文本样本中每个句子对应的主题分布概率信息，主题模型为基于LDA隐形狄利克雷分配主题模型，再根据主题分布概率信息计算每个句子中每个主题词对文本句子的贡献值，然后根据主题词对文本句子的贡献值计算得到主题词的替换概率，并利用替换概率选取文本句子待替换词得到待替换词集合，然后在预先训练得到的词向量集合中选取与待替换词集合中待替换词相似的词作为的候选词，最后利用候选词替换待替换词，得到数据增强文本样本。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1-5中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

一种数据增强方法，其中，所述方法包括：

获取待增强的原始文本样本；其中，所述原始文本样本包括至少一个文本句子，所述原始文本样本包括至少一个主题词；

将所述原始文本样本输入到预先训练得到的主题模型，得到每一所述文本句子对应的主题分布概率信息，所述主题模型为隐形狄利克雷分配主题模型；

根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值；

根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合；

根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；

利用所述候选词替换所述待替换词，得到数据增强文本样本。
根据权利要求1所述的数据增强方法，其中，所述将所述原始文本样本输入到预训练的主题模型之前，还包括：

获取预设领域的训练样本集，所述训练样本集包括未标注的训练文本样本和对应的概率标签；

将所述训练文本样本输入初始主题模型中，根据预设主题数得到所述训练文本样本的预测主题分布概率；

根据所述预测主题分布概率和对应的所述概率标签计算得到损失值；

利用损失函数根据所述损失值调整所述初始主题模型的模型权值，直至损失函数满足收敛条件，训练得到所述主题模型。
根据权利要求1所述的数据增强方法，其中，所述主题分布概率信息包括：主题词的主题分布概率和文本句子的主题分布概率，所述根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值，包括：

根据第一公式计算文本句子的主题分布概率；

计算主题词的主题分布概率；

将预设的平滑参数、所述主题分布概率、所述主题分布概率进行相乘计算，得到所述贡献值；

其中，所述第一公式为：

其中，ω _i表示主题词，s＝s(ω ₁,ω ₂,...,ω _i,...,ω _N)表示文本句子，所述文本句子中包含N个主题词，p(t|ω _i)表示主题词的主题分布概率，p(t|s)表示文本句子的主题分布概率。
根据权利要求3所述的数据增强方法，其中，所述根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合，包括：

根据所述主题词对文本句子的贡献值计算得到所述主题词的替换概率；

根据预设替换词数量和所述替换概率采样得到所述待替换词；

利用所述待替换词组成所述待替换词集合。
根据权利要求4所述的数据增强方法，其中，所述根据所述主题词对文本句子的贡献值计算得到所述主题词的替换概率，包括：

计算文本句子中所有主题词的最大贡献值；

计算每一所述主题词的贡献值与所述最大贡献值之间的差值，将所有所述差值进行求和得到贡献值总和；

计算每一所述差值与所述贡献值总和之间的比值，得到所述主题词的替换概率。
根据权利要求1所述的数据增强方法，其中，所述在根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词之前，还包括：

获取预设领域的训练文本样本；

利用Word2vec工具训练所述训练文本样本得到预训练词向量；

利用所述预训练词向量构成所述词向量集合。
根据权利要求1至6任一项所述的数据增强方法，其中，所述根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词，包括：

计算所述待替换词集合中待替换词与所述词向量集合中预训练词向量在向量空间中的距离；

对所述距离进行排序得到距离排序结果；

根据所述距离排序结果，在所述词向量集合中选取预设数量的词作为所述候选词，所述候选词在所述词向量集合中的位置分布服从几何分布。
一种文本样本数据增强装置，其中，包括：

样本获取模块，用于获取待增强的原始文本样本；其中，所述原始文本样本包括至少一个文本句子，所述原始文本样本包括至少一个主题词；

主题分布概率计算模块，用于将所述原始文本样本输入到预先训练得到的主题模型，得到每一所述文本句子对应的主题分布概率信息，所述主题模型为隐形狄利克雷分配主题模型；

贡献值计算模块，用于根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值；

待替换词选取模块，用于根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合；

候选词选取模块，用于根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；

数据增强模块，用于利用所述候选词替换所述待替换词，得到数据增强文本样本。
一种电子设备，其中，包括：

至少一个存储器；

至少一个处理器；

所述存储器存储有计算机程序，处理器执行所述计算机程序以实现一种数据增强方法，其中，所述数据增强方法包括：

获取待增强的原始文本样本；其中，所述原始文本样本包括至少一个文本句子，所述原始文本样本包括至少一个主题词；

将所述原始文本样本输入到预先训练得到的主题模型，得到每一所述文本句子对应的主题分布概率信息，所述主题模型为隐形狄利克雷分配主题模型；

根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值；

根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合；

根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；

利用所述候选词替换所述待替换词，得到数据增强文本样本。
根据权利要求9所述的一种电子设备，其中，所述将所述原始文本样本输入到预训练的主题模型之前，所述方法还包括：

获取预设领域的训练样本集，所述训练样本集包括未标注的训练文本样本和对应的概率标签；

将所述训练文本样本输入初始主题模型中，根据预设主题数得到所述训练文本样本的预测主题分布概率；

根据所述预测主题分布概率和对应的所述概率标签计算得到损失值；

利用损失函数根据所述损失值调整所述初始主题模型的模型权值，直至损失函数满足收敛条件，训练得到所述主题模型。
根据权利要求9所述的一种电子设备，其中，所述主题分布概率信息包括：主题词的主题分布概率和文本句子的主题分布概率，所述根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值，包括：

根据第一公式计算文本句子的主题分布概率；

计算主题词的主题分布概率；

将预设的平滑参数、所述主题分布概率、所述主题分布概率进行相乘计算，得到所述贡献值；

其中，所述第一公式为：

其中，ω _i表示主题词，s＝s(ω ₁,ω ₂,...,ω _i,...,ω _N)表示文本句子，所述文本句子中包含N个主题词，p(t|ω _i)表示主题词的主题分布概率，p(t|s)表示文本句子的主题分布概率。
根据权利要求11所述的一种电子设备，其中，所述根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合，包括：

根据所述主题词对文本句子的贡献值计算得到所述主题词的替换概率；

根据预设替换词数量和所述替换概率采样得到所述待替换词；

利用所述待替换词组成所述待替换词集合。
根据权利要求12所述的一种电子设备，其中，所述根据所述主题词对文本句子的贡献值计算得到所述主题词的替换概率，包括：

计算文本句子中所有主题词的最大贡献值；

计算每一所述主题词的贡献值与所述最大贡献值之间的差值，将所有所述差值进行求和得到贡献值总和；

计算每一所述差值与所述贡献值总和之间的比值，得到所述主题词的替换概率。
根据权利要求9所述的一种电子设备，其中，所述在根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词之前，所述方法还包括：

获取预设领域的训练文本样本；

利用Word2vec工具训练所述训练文本样本得到预训练词向量；

利用所述预训练词向量构成所述词向量集合。
一种存储介质，所述存储介质为计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使计算机执行一种数据增强方法，其中，所述数据增强方法包括：

获取待增强的原始文本样本；其中，所述原始文本样本包括至少一个文本句子，所述原始文本样本包括至少一个主题词；

将所述原始文本样本输入到预先训练得到的主题模型，得到每一所述文本句子对应的主题分布概率信息，所述主题模型为隐形狄利克雷分配主题模型；

根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值；

根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合；

根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词；

利用所述候选词替换所述待替换词，得到数据增强文本样本。
根据权利要求15所述的一种存储介质，其中，所述将所述原始文本样本输入到预训练的主题模型之前，所述方法还包括：

获取预设领域的训练样本集，所述训练样本集包括未标注的训练文本样本和对应的概率标签；

将所述训练文本样本输入初始主题模型中，根据预设主题数得到所述训练文本样本的预测主题分布概率；

根据所述预测主题分布概率和对应的所述概率标签计算得到损失值；

利用损失函数根据所述损失值调整所述初始主题模型的模型权值，直至损失函数满足收敛条件，训练得到所述主题模型。
根据权利要求15所述的一种存储介质，其中，所述主题分布概率信息包括：主题词的主题分布概率和文本句子的主题分布概率，所述根据所述主题分布概率信息计算每一所述主题词对所述文本句子的贡献值，包括：

根据第一公式计算文本句子的主题分布概率；

计算主题词的主题分布概率；

将预设的平滑参数、所述主题分布概率、所述主题分布概率进行相乘计算，得到所述贡献值；

其中，所述第一公式为：

其中，ω _i表示主题词，s＝s(ω ₁,ω ₂,...,ω _i,...,ω _N)表示文本句子，所述文本句子中包含N个主题词，p(t|ω _i)表示主题词的主题分布概率，p(t|s)表示文本句子的主题分布概率。
根据权利要求17所述的一种存储介质，其中，所述根据所述主题词的贡献值计算得到所述主题词的替换概率，并根据所述替换概率从所述文本句子中选出待替换词，得到待替换词集合，包括：

根据所述主题词对文本句子的贡献值计算得到所述主题词的替换概率；

根据预设替换词数量和所述替换概率采样得到所述待替换词；

利用所述待替换词组成所述待替换词集合。
根据权利要求18所述的一种存储介质，其中，所述根据所述主题词对文本句子的贡献值计算得到所述主题词的替换概率，包括：

计算文本句子中所有主题词的最大贡献值；

计算每一所述主题词的贡献值与所述最大贡献值之间的差值，将所有所述差值进行求和得到贡献值总和；

计算每一所述差值与所述贡献值总和之间的比值，得到所述主题词的替换概率。
根据权利要求15所述的一种存储介质，其中，所述在根据所述待替换词集合中的待替换词从预先训练得到的词向量集合中筛选得到候选词之前，所述方法还包括：

获取预设领域的训练文本样本；

利用Word2vec工具训练所述训练文本样本得到预训练词向量；

利用所述预训练词向量构成所述词向量集合。