WO2022095354A1

WO2022095354A1 - 基于bert的文本分类方法、装置、计算机设备及存储介质

Info

Publication number: WO2022095354A1
Application number: PCT/CN2021/090505
Authority: WO
Inventors: 王晶
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-11-03
Filing date: 2021-04-28
Publication date: 2022-05-12
Also published as: CN112328786A

Abstract

一种基于BERT的文本分类方法、装置、计算机设备及存储介质，该方法包括：接收用户通过请求终端发送的携带有咨询数据的会话请求（S101）；响应会话请求，将咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量（S102）；将会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果（S103）；读取话术数据库，在话术数据库中获取与预测分类结果相对应的话术答复信息（S104）；向请求终端发送话术答复信息，以完成咨询会话答复（S105）。此外，该方法还涉及区块链技术，用户的咨询数据可存储于区块链中。该方法可以极大减少噪音标签的影响，有效解决传统BERT的基本分类结构容易受噪音标签影响的问题。

Description

基于BERT的文本分类方法、装置、计算机设备及存储介质

本申请以2020年11月03日提交的申请号为202011212539.5，名称为“基于BERT的文本分类方法、装置、计算机设备及存储介质”的中国发明专利申请为基础，并要求其优先权。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种基于BERT的文本分类方法、装置、计算机设备及存储介质。

背景技术

近年来，随着网络技术的快速发展，互联网上在线文本信息数据的急剧增加，文本分类在信息处理上起着至关重要的作用，是处理较大规模文本信息的关键技术，并推动了信息处理朝着自动化的方向发展。

对文本数据进行自动化分类是文本数据挖掘、自然语言处理等人工智能技术的重要应用领域，其主要功能是把以数字化形式存储的非结构化文本数据，通过自然语言处理技术、文本数据挖掘技术，自动按照事先组织好的与具体业务相关的类别进行分类。随着信息时代技术的不断发展，对文本数据进行自动化分类是提高企业生产效率和竞争优势的一种重要技术措施。

然而，申请人意识到传统的文本分类方法中，大多是基于深度学习方法大部分采用CNN(Convolutional Neural Networks，卷积神经网络)模型或RNN(Recurrent Neural Network，循环神经网络)模型来解决文本分类问题，然而，现有通用的模型容易受噪音标签影响。

发明内容

本申请实施例的目的在于提出一种基于BERT的文本分类方法、装置、计算机设备及存储介质，以解决现有通用的模型容易受噪音标签影响的问题。

为了解决上述技术问题，本申请实施例提供一种基于BERT的文本分类方法，采用了如下所述的技术方案：

接收用户通过请求终端发送的携带有咨询数据的会话请求；

响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；

将所述会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果；

读取话术数据库，在所述话术数据库中获取与所述预测分类结果相对应的话术答复信息；

向所述请求终端发送所述话术答复信息，以完成咨询会话答复。

为了解决上述技术问题，本申请实施例还提供一种基于BERT的文本分类装置，采用了如下所述的技术方案：

请求接收模块，用于接收用户通过请求终端发送的携带有咨询数据的会话请求；

特征转化模块，用于响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；

类别预测模块，用于将所述会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果；

话术获取模块，用于读取话术数据库，在所述话术数据库中获取与所述预测分类结果相对应的话术答复信息；

会话答复模块，用于向所述请求终端发送所述话术答复信息，以完成咨询会话答复。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如下所述的基于BERT的文本分类方法的步骤：

接收用户通过请求终端发送的携带有咨询数据的会话请求；

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下所述的基于BERT的文本分类方法的步骤：

接收用户通过请求终端发送的携带有咨询数据的会话请求；

与现有技术相比，本申请实施例提供的基于BERT的文本分类方法、装置、计算机设备及存储介质主要有以下有益效果：

本申请提供的基于BERT的文本分类方法、装置、计算机设备及存储介质，通过接收用户通过请求终端发送的携带有咨询数据的会话请求；响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；将所述会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果；读取话术数据库，在所述话术数据库中获取与所述预测分类结果相对应的话术答复信息；向所述请求终端发送所述话术答复信息，以完成咨询会话答复。通过Triplet loss的损失函数对BERT网络进行训练，可以极大减少噪音标签的影响，有效解决传统BERT等encoder+Dense层+交叉熵损失的基本分类结构容易受噪音标签影响的问题。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的基于BERT的文本分类方法的实现流程图；

图2是本申请实施例一提供的BERT网络训练方法的实现流程图；

图3是本申请实施例一提供的向量相似度计算操作的示意图；

图4是图2中步骤S205的一种实现方式的流程图；

图5是图2中步骤S205的另一种实现方式的流程图；

图6是本申请实施例二提供的基于BERT的文本分类装置的结构示意图；

图7是本申请实施例二提供的BERT网络训练装置的结构示意图；

图8是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

实施例一

参阅图1，示出了本申请实施例一提供的基于BERT的文本分类方法的实现流程图，为了便于说明，仅示出与本申请相关的部分。

在步骤S101中，接收用户通过请求终端发送的携带有咨询数据的会话请求。

在本申请实施例中，请求终端主要用于采集携带有用户咨询语义的内容信息，该内容信息可以是文本信息、语音信息、视频信息等等，相应的，该请求终端至少包括文本采集模块、语音采集模块或者视频采集模块中的一种或多种组合。

在本申请实施例中，请求终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端，应当理解，此处对请求终端的举例仅为方便理解，不用于限定本申请。

在本申请实施例中，咨询数据指的是用户与系统在进行咨询会话的过程中，通过请求终端发送的语音数据、文本数据等等携带有用户咨询语义的内容信息，该信息即为咨询数据。

在步骤S102中，响应会话请求，将咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量。

在本申请实施例中，基于三元组损失函数训练好的BERT(Bidirectional Encoder Representations from Transformers,预训练的语言表征模型)网络指的是通过Triplet loss损失函数对BERT网络进行训练，使得BERT网络在进行特征表达时，尽可能缩小同类数据之间的特征转换距离，同时尽可能拉大异类数据之间的特征转换距离，从而有效解决传统BERT网络的基本分类结构容易受噪音标签影响的问题。

在步骤S103中，将会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果。

在本申请实施例中，Dense分类层主要用于完成多分类任务，该Dense分类层采用Focal loss作为损失。Focal loss降低了大量简单负样本在训练中所占的权重，其中多分类下，每个样本的Focal loss为:FL(p _t)＝-α*(1-p _t) ^γ*y _true*log(p _t+ε),其中每个样本的p _t为one-hot标签为1的index对应的预测结果值，即max(y _pred*y _true,axis＝-1)；不同于二分类，α在多分类中只有调节总loss模长的作用；γ是为了调节样本对模型产生的贡献，在一定范围(例如0-5)内的γ取不同值可以发现，γ越大，简单的、易被分的样本对总loss的贡献越小，越有利于难分样本的分类；ε是个极小值，作用是避免log(p _t)中p _t为0；用y _true log(p _t+ε)是为了让one-hot标签中为0的位置产生的loss为0。

在步骤S104中，读取话术数据库，在话术数据库中获取与预测分类结果相对应的话术答复信息。

在本申请实施例中，话术数据库主要用于存储与预测分类结果相对应的答复信息数据，当将会话特征向量输入至Dense分类层进行类别预测操作得到预测分类结果之后，可在该话术数据库中通过索引等方式获取与该预测分类结果相对应的话术答复信息，从而完成咨询会话答复工作。

在步骤S105中，向请求终端发送话术答复信息，以完成咨询会话答复。

在本申请实施例中，提供了一种基于BERT的文本分类方法，接收用户通过请求终端发送的携带有咨询数据的会话请求；响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；将所述会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果；读取话术数据库，在所述话术数据库中获取与所述预测分类结果相对应的话术答复信息；向所述请求终端发送所述话术答复信息，以完成咨询会话答复。通过Triplet loss的损失函数对BERT网络进行训练，可以极大减少噪音标签的影响，有效解决传统BERT等encoder+Dense层+交叉熵损失的基本分类结构容易受噪音标签影响的问题。

继续参阅图2，示出了本申请实施例一提供的BERT网络训练方法的实现流程图，为了便于说明，仅示出与本申请相关的部分。

在本申请实施例一的一些可选的实现方式中，本申请提供的基于BERT的文本分类方法还包括：步骤S201、步骤S202、步骤S203以及步骤S205。

在步骤S201中，读取训练数据库，在训练数据库中获取训练文本数据集，训练文本数据集至少包括第一正例样本、与第一正例样本类别相同的第二正例样本以及与第一正例样本类别不同的随机样本。

在本申请实施例中，训练文本数据集为(句1，句2，句3)的三元组数据集，句1、句2、句3的类别分别为A、A、B。前两个元素为同一个类别的任意两正例样本，最后一个元素可以从不同类中随机抽取，或从与类A难以区分的类中抽取，或组合前两种方式抽取。

在步骤S202中，将第一正例样本、第二正例样本以及随机样本分别输入至原始BERT网络进行特征转化操作，得到第一特征向量、第二特征向量以及随机特征向量。

在本申请实施例中，原始BERT网络指的是没有经过任何训练的原始特征向量转化模型。输入的三元组通过同一个BERT层。BERT起到encoder(编码)的作用，目的是输出表征了语义的句向量。

在步骤S203中，对所述第一特征向量以及所述第二特征向量进行向量相似度计算操作，得到同类向量相似度。

在步骤S204中，对所述第一特征向量以及所述随机特征向量进行所述向量相似度计算操作，得到非同类向量相似度。

在本申请实施例中，参阅图3，示出了向量相似度计算操作的示意图，图中sent1、所有sent2、sent3是共享BERT层输出的句向量。由于每组样本中存在噪音样本的可能，可以取每组样本种所有样本向量与sent1的相似度的均值计算Triplet loss，或正例bag所有样本向量与sent1的相似度的最大值(表示与句1最相似)及负例bag所有样本向量与sent1的相似度的最小值(表示与句1最不相似)计算Triplet loss。

在步骤S205中，基于同类向量相似度、非同类向量相似度以及三元组损失函数对BERT网络进行训练操作，得到基于三元组损失函数训练好的BERT网络。

在本申请实施例中，假设多实例学习的每个BAG中有三个句子。那么上述(1)里对应的(句1，句2，句3)的三元组，变为(句1，[句2[0],句2[1],句2[2]]，[句3[0],句3[1],句3[2]]),即输入一个正例样本，一组同类的正例样本，一组不同类的负例样本。

训练步骤1：这7条句子同时通过共享权重的同一个模型BERT，输出7个向量vector。

训练步骤2：分别计算句1与其他6句的相似度。

训练步骤3：取正例BAG中，与句1最相似的：Max(Sim(句1,句2[0]),Sim(句1,句2[0]),Sim(句1,句2[2]))(三个里面最高的相似度可能是句1与句2[1]的。由于句2[0]实际上是个标签错误的噪音数据，这种计算可以弱化它对模型的影响)。

训练步骤4：取负例BAG中，与句1最不相似的：Min(Sim(句1,句3[0]),Sim(句1,句3[0]),Sim(句1,句3[2]))(三个里最不相似的假设是句3[1])。

训练步骤5：Triplet loss:让训练步骤3和训练步骤4里的相似度差距尽可能大。

训练步骤6：同时做另一个任务：除了上面拉开类间差距的Triplet loss的任务，句1最后做一个多分类。

训练步骤7：模型训练完以后，既能得到句1的分类，又能使得过程中，在弱化标注噪音的努力下让类和类更有区分。此时只需要保留句1到句1类别预测的模型部分，就可以用来预测随便一条输入句子的分类了。

继续参阅图4，示出了图2中步骤S205的一种实现方式的流程图，为了便于说明，仅示出与本申请相关的部分。

在本申请实施例一的一些可选的实现方式中，上述步骤S205具体包括：步骤S401、步骤S402以及步骤S403。

在步骤S401中，计算同类相似度的平均值，得到平均同类向量。

在实际应用中，若句1与句2[0]的同类相似度为60，句1与句2[1]的同类相似度为70，句1与句2[2]的同类相似度为80，由平均值计算可知同类相似度的平均值为70，那么，平均同类向量则与Sim(句1,句2[1])相等。

在步骤S402中，计算非同类相似度的平均值，得到平均非同类向量。

在本申请实施例中，计算非同类相似度的平均值与上述计算同类相似度的平均值的实现方式相同。

在步骤S403中，基于第一特征向量、平均同类向量、平均非同类向量以及三元组损失函数对BERT网络进行反向更新操作，得到基于三元组损失函数训练好的BERT网络。

在本申请实施例中，反向更新操作主要用于根据平均同类向量、平均非同类向量的变化动态更新BERT网络的表征参数。

继续参阅图5，示出了图2中步骤S205的另一种实现方式的流程图，为了便于说明，仅示出与本申请相关的部分。

在本申请实施例一的一些可选的实现方式中，上述步骤S205具体包括：步骤S501、步骤S502以及步骤S503。

在步骤S501中，基于同类相似度在第二特征向量中获取相似度最大的最大同类向量。

在本申请实施例中，若句1与句2[0]的同类相似度为60，句1与句2[1]的同类相似度为70，句1与句2[2]的同类相似度为80，由最大值计算可知相似度最大的为80，那么最大同类向量则为Sim(句1,句2[2])。

在步骤S502中，基于非同类相似度在随机特征向量中获取相似度最小的最小随机向量。

在本申请实施例中，获取相似度最小的最小随机向量的实现方式与上述获取相似度最大的最大同类向量的相同。

在步骤S503中，基于第一特征向量、最大同类向量、最小随机向量以及三元组损失函数对BERT网络进行反向更新操作，得到基于三元组损失函数训练好的BERT网络。

在本申请实施例中，反向更新操作主要用于根据最大同类向量、最小随机向量的变化动态更新BERT网络的表征参数。

在本申请实施例一的一些可选的实现方式中，上述三元组损失函数表示为：

其中，N表示整个训练集的总数；

表示第一正例样本；

表示第一特征向量；

表示第二正例样本；

表示第二特征向量；

表示随机样本；

表示随机特征向量；α表示第一正例样本与第二正例样本之间的距离和第一正例样本与随机样本之间的距离的最小间隔。

在本申请实施例中，a指的是anchor，代表第一正例样本元组；p指的是positive，代表第二正例样本元组；n指的是negative，代表随机样本元组。

在本申请实施例中，+表示[]内的值大于零的时候，取该值为损失，小于零的时候，损失为零。

当

与

之间的距离小于

与

之间的距离与α的和时，[]内的值大于零，就会产生损失。

当

与

之间的距离大于或等于

与

之间的距离与α的和时，损失为零。

需要强调的是，为进一步保证上述咨询数据的私密和安全性，上述咨询数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请提供了一种基于BERT的文本分类方法，通过多实例的三元组损失函数对BERT网络进行训练，可以极大减少噪音标签的影响，有效解决传统BERT等encoder+Dense层+交叉熵损失的基本分类结构容易受噪音标签影响的问题。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

实施例二

进一步参考图6，作为上述图1所示方法的实现，本申请提供了一种基于BERT的文本分类装置，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本申请实施例二提供的基于BERT的文本分类装置100包括：请求接收模块110、特征转化模块120、类别预测模块130、话术获取模块140以及会话答复模块150。其中：

请求接收模块110，用于接收用户通过请求终端发送的携带有咨询数据的会话请求；

特征转化模块120，用于响应会话请求，将咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；

类别预测模块130，用于将会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果；

话术获取模块140，用于读取话术数据库，在话术数据库中获取与预测分类结果相对应的话术答复信息；

会话答复模块150，用于向请求终端发送话术答复信息，以完成咨询会话答复。

在本申请实施例中，基于三元组损失函数训练好的BERT网络指的是通过Triplet loss损失函数对BERT网络进行训练，使得BERT网络在进行特征表达时，尽可能缩小同类数据之间的特征转换距离，同时尽可能拉大异类数据之间的特征转换距离，从而有效解决传统BERT网络的基本分类结构容易受噪音标签影响的问题。

在本申请实施例中，Dense分类层主要用于完成多分类任务，该Dense分类层采用Focal loss作为损失。Focal loss降低了大量简单负样本在训练中所占的权重，其中多分类下，每个样本的Focal loss为:

其中每个样本的p _t为one-hot标签为1的index对应的预测结果值，即max(y _pred*y _true,axis＝1)；不同于二分类，α在多分类中只有调节总loss模长的作用；γ是为了调节样本对模型产生的贡献，在一定范围(例如0-5)内的γ取不同值可以发现，γ越大，简单的、易被分的样本对总loss的贡献越小，越有利于难分样本的分类；ε是个极小值，作用是避免log(p _t)中p _t为0；用y _true log(p _t+ε)是为了让one-hot标签中为0的位置产生的loss为0。

在本申请实施例中，提供了一种基于BERT的文本分类装置，包括：请求接收模块，用于接收用户通过请求终端发送的携带有咨询数据的会话请求；特征转化模块，用于响应会话请求，将咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；类别预测模块，用于将会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果；话术获取模块，用于读取话术数据库，在话术数据库中获取与预测分类结果相对应的话术答复信息；会话答复模块，用于向请求终端发送话术答复信息，以完成咨询会话答复。通过多实例的三元组损失函数对BERT网络进行训练，可以极大减少噪音标签的影响，有效解决传统BERT等encoder+Dense层+交叉熵损失的基本分类结构容易受噪音标签影响的问题。

继续参阅图7，示出了本申请实施例二提供的BERT网络训练装置的结构示意图，为了便于说明，仅示出与本申请相关的部分。

在本申请实施例二的一些可选的实现方式中，上述基于BERT的文本分类装置100还包括：训练文本获取模块160、特征转化训练模块170、相似度计算模块180以及网络训练模块190。其中：

训练文本获取模块160，用于读取训练数据库，在训练数据库中获取训练文本数据集，训练文本数据集至少包括第一正例样本、与第一正例样本类别相同的第二正例样本以及与第一正例样本类别不同的随机样本；

特征转化训练模块170，用于将第一正例样本、第二正例样本以及随机样本分别输入至原始BERT网络进行特征转化操作，得到第一特征向量、第二特征向量以及随机特征向量；

相似度计算模块180，用于分别对第一特征向量与第二特征向量、第一特征向量与随机特征向量进行向量相似度计算操作，同类向量相似度以及非同类向量相似度；

网络训练模块190，用于基于同类向量相似度、非同类向量相似度以及三元组损失函数对BERT网络进行训练操作，得到基于三元组损失函数训练好的BERT网络。

在本申请实施例中，训练文本数据集为(句1，句2，句3)的三元组数据集，句1、2、3的类别分别为A、A、B。前两个元素为同一个类别的任意两正例样本，最后一个元素可以从不同类中随机抽取，或从与类A难以区分的类中抽取，或组合前两种方式抽取。

在本申请实施例中，原始BERT网络指的是没有经过任何训练的原始特征向量转化模型。输入的三元组通过同一个BERT层。BERT起到encoder的作用，目的是输出表征了语义的句向量。

训练步骤2：分别计算句1与其他6句的相似度。

在本申请实施例二的一些可选的实现方式中，上述网络训练模块190包括：同类平均值计算子模块、非同类平均值计算子模块以及第一反向更新子模块。其中：

同类平均值计算子模块，用于计算同类相似度的平均值，得到平均同类向量；

非同类平均值计算子模块，用于计算非同类相似度的平均值，得到平均非同类向量；

第一反向更新子模块，用于基于所述第一特征向量、平均同类向量、平均非同类向量以及三元组损失函数对所述BERT网络进行反向更新操作，得到所述基于三元组损失函数训练好的BERT网络。

在本申请实施例二的一些可选的实现方式中，上述网络训练模块190还包括：最大值获取子模块、最小值获取子模块以及第二反向更新子模块。其中：

最大值获取子模块，用于基于同类相似度在所述第二特征向量中获取相似度最大的最大同类向量；

最小值获取子模块，用于基于非同类相似度在所述随机特征向量中获取相似度最小的最小随机向量；

第二反向更新子模块，用于基于所述第一特征向量、最大同类向量、最小随机向量以及三元组损失函数对所述BERT网络进行反向更新操作，得到所述基于三元组损失函数训练好的BERT网络。

在本申请实施例二的一些可选的实现方式中，上述三元组损失函数表示为：

其中，N表示整个训练集的总数；

表示第一正例样本；

表示第一特征向量；

表示第二正例样本；

表示第二特征向量；

表示随机样本；

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图8，图8为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器210、处理器220、网络接口230。需要指出的是，图中仅示出了具有组件210-230的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器210至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等，所述计算机可读存储介质可以是非易失性，也可以是易失性。在一些实施例中，所述存储器210可以是所述计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述存储器210也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器210还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，所述存储器210通常用于存储安装于所述计算机设备200的操作系统和各类应用软件，例如基于BERT的文本分类方法的计算机可读指令等。此外，所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器220在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器220通常用于控制所述计算机设备200的总体操作。本实施例中，所述处理器220用于运行所述存储器210中存储的计算机可读指令或者处理数据，例如运行所述基于BERT的文本分类方法的计算机可读指令。

所述网络接口230可包括无线网络接口或有线网络接口，该网络接口230通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

本申请提供的基于BERT的文本分类方法，通过多实例的三元组损失函数对BERT网络进行训练，可以极大减少噪音标签的影响，有效解决传统BERT等encoder+Dense层+交叉熵损失的基本分类结构容易受噪音标签影响的问题。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于BERT的文本分类方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

一种基于BERT的文本分类方法，其中，包括下述步骤：

接收用户通过请求终端发送的携带有咨询数据的会话请求；

响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；

将所述会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果；

读取话术数据库，在所述话术数据库中获取与所述预测分类结果相对应的话术答复信息；

向所述请求终端发送所述话术答复信息，以完成咨询会话答复。
根据权利要求1所述的基于BERT的文本分类方法，其中，在所述响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量的步骤之前，所述方法还包括下述步骤：

读取训练数据库，在所述训练数据库中获取训练文本数据集，所述训练文本数据集至少包括第一正例样本、与所述第一正例样本类别相同的第二正例样本以及与所述第一正例样本类别不同的随机样本；

将所述第一正例样本、所述第二正例样本以及所述随机样本分别输入至原始BERT网络进行所述特征转化操作，得到第一特征向量、第二特征向量以及随机特征向量；

对所述第一特征向量以及所述第二特征向量进行向量相似度计算操作，得到同类向量相似度；

对所述第一特征向量以及所述随机特征向量进行所述向量相似度计算操作，得到非同类向量相似度；

基于所述同类向量相似度、所述非同类向量相似度以及所述三元组损失函数对所述BERT网络进行训练操作，得到所述基于三元组损失函数训练好的BERT网络。
根据权利要求2所述的基于BERT的文本分类方法，其中，所述基于所述同类向量相似度、非同类向量相似度以及三元组损失函数对所述Bert网络进行训练操作，得到所述基于三元组损失函数训练好的Bert网络的步骤，具体包括下述步骤：

计算所述同类相似度的平均值，得到平均同类向量；

计算所述非同类相似度的平均值，得到平均非同类向量；

基于所述第一特征向量、所述平均同类向量、所述平均非同类向量以及所述三元组损失函数对所述BERT网络进行反向更新操作，得到所述基于三元组损失函数训练好的BERT网络。
根据权利要求2所述的基于BERT的文本分类方法，其中，所述基于所述同类向量相似度、非同类向量相似度以及三元组损失函数对所述BERT网络进行训练操作，得到所述基于三元组损失函数训练好的BERT网络的步骤，具体包括下述步骤：

基于所述同类相似度在所述第二特征向量中获取相似度最大的最大同类向量；

基于所述非同类相似度在所述随机特征向量中获取相似度最小的最小随机向量；

基于所述第一特征向量、所述最大同类向量、所述最小随机向量以及所述三元组损失函数对所述BERT网络进行反向更新操作，得到所述基于三元组损失函数训练好的BERT网络。
根据权利要求2所述的基于BERT的文本分类方法，其中，所述三元组损失函数表示为：

其中，N表示整个训练集的总数；
表示第一正例样本；
表示第一特征向量；
表示第二正例样本；
表示第二特征向量；
表示随机样本；
表示随机特征向量；α 表示第一正例样本与第二正例样本之间的距离和第一正例样本与随机样本之间的距离的最小间隔。
根据权利要求1所述的基于BERT的文本分类方法，其中，所述接收用户通过请求终端发送的携带有咨询数据的会话请求的步骤之后，还包括：

将所述咨询数据存储至区块链中。
一种基于BERT的文本分类装置，其中，包括：

请求接收模块，用于接收用户通过请求终端发送的携带有咨询数据的会话请求；

特征转化模块，用于响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；

类别预测模块，用于将所述会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果；

话术获取模块，用于读取话术数据库，在所述话术数据库中获取与所述预测分类结果相对应的话术答复信息；

会话答复模块，用于向所述请求终端发送所述话术答复信息，以完成咨询会话答复。
根据权利要求7所述的基于BERT的文本分类装置，其中，所述装置还包括：

训练文本获取模块，用于读取训练数据库，在所述训练数据库中获取训练文本数据集，所述训练文本数据集至少包括第一正例样本、与所述第一正例样本类别相同的第二正例样本以及与所述第一正例样本类别不同的随机样本；

特征转化训练模块，用于将所述第一正例样本、第二正例样本以及随机样本分别输入至原始BERT网络进行所述特征转化操作，得到第一特征向量、第二特征向量以及随机特征向量；

相似度计算模块，用于分别对第一特征向量与第二特征向量、第一特征向量与随机特征向量进行向量相似度计算操作，同类向量相似度以及非同类向量相似度；

网络训练模块，用于基于所述同类向量相似度、非同类向量相似度以及三元组损失函数对所述BERT网络进行训练操作，得到所述基于三元组损失函数训练好的BERT网络。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如下所述的基于BERT的文本分类方法的步骤：

接收用户通过请求终端发送的携带有咨询数据的会话请求；

响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；

将所述会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果；

读取话术数据库，在所述话术数据库中获取与所述预测分类结果相对应的话术答复信息；

向所述请求终端发送所述话术答复信息，以完成咨询会话答复。
根据权利要求9所述的计算机设备，其中，在所述响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量的步骤之前，所述方法还包括下述步骤：

读取训练数据库，在所述训练数据库中获取训练文本数据集，所述训练文本数据集至少包括第一正例样本、与所述第一正例样本类别相同的第二正例样本以及与所述第一正例样本类别不同的随机样本；

将所述第一正例样本、所述第二正例样本以及所述随机样本分别输入至原始BERT网络进行所述特征转化操作，得到第一特征向量、第二特征向量以及随机特征向量；

对所述第一特征向量以及所述第二特征向量进行向量相似度计算操作，得到同类向量相似度；

对所述第一特征向量以及所述随机特征向量进行所述向量相似度计算操作，得到非同类向量相似度；

基于所述同类向量相似度、所述非同类向量相似度以及所述三元组损失函数对所述BERT网络进行训练操作，得到所述基于三元组损失函数训练好的BERT网络。
根据权利要求10所述的计算机设备，其中，所述基于所述同类向量相似度、非同类向量相似度以及三元组损失函数对所述Bert网络进行训练操作，得到所述基于三元组损失函数训练好的Bert网络的步骤，具体包括下述步骤：

计算所述同类相似度的平均值，得到平均同类向量；

计算所述非同类相似度的平均值，得到平均非同类向量；

基于所述第一特征向量、所述平均同类向量、所述平均非同类向量以及所述三元组损失函数对所述BERT网络进行反向更新操作，得到所述基于三元组损失函数训练好的BERT网络。
根据权利要求10所述的计算机设备，其中，所述基于所述同类向量相似度、非同类向量相似度以及三元组损失函数对所述BERT网络进行训练操作，得到所述基于三元组损失函数训练好的BERT网络的步骤，具体包括下述步骤：

基于所述同类相似度在所述第二特征向量中获取相似度最大的最大同类向量；

基于所述非同类相似度在所述随机特征向量中获取相似度最小的最小随机向量；

基于所述第一特征向量、所述最大同类向量、所述最小随机向量以及所述三元组损失函数对所述BERT网络进行反向更新操作，得到所述基于三元组损失函数训练好的BERT网络。
根据权利要求10所述的计算机设备，其中，所述三元组损失函数表示为：

其中，N表示整个训练集的总数；
表示第一正例样本；
表示第一特征向量；
表示第二正例样本；
表示第二特征向量；
表示随机样本；
表示随机特征向量；α表示第一正例样本与第二正例样本之间的距离和第一正例样本与随机样本之间的距离的最小间隔。
根据权利要求9所述的计算机设备，其中，所述接收用户通过请求终端发送的携带有咨询数据的会话请求的步骤之后，还包括：

将所述咨询数据存储至区块链中。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下所述的基于BERT的文本分类方法的步骤：

接收用户通过请求终端发送的携带有咨询数据的会话请求；

响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量；

将所述会话特征向量输入至Dense分类层进行类别预测操作，得到预测分类结果；

读取话术数据库，在所述话术数据库中获取与所述预测分类结果相对应的话术答复信息；

向所述请求终端发送所述话术答复信息，以完成咨询会话答复。
根据权利要求15所述的计算机可读存储介质，其中，在所述响应所述会话请求，将所述咨询数据输入至基于三元组损失函数训练好的BERT网络进行特征转化操作，得到会话特征向量的步骤之前，所述方法还包括下述步骤：

读取训练数据库，在所述训练数据库中获取训练文本数据集，所述训练文本数据集至少包括第一正例样本、与所述第一正例样本类别相同的第二正例样本以及与所述第一正例样本类别不同的随机样本；

将所述第一正例样本、所述第二正例样本以及所述随机样本分别输入至原始BERT网络进行所述特征转化操作，得到第一特征向量、第二特征向量以及随机特征向量；

对所述第一特征向量以及所述第二特征向量进行向量相似度计算操作，得到同类向量相似度；

对所述第一特征向量以及所述随机特征向量进行所述向量相似度计算操作，得到非同类向量相似度；

基于所述同类向量相似度、所述非同类向量相似度以及所述三元组损失函数对所述BERT网络进行训练操作，得到所述基于三元组损失函数训练好的BERT网络。
根据权利要求16所述的计算机可读存储介质，其中，所述基于所述同类向量相似度、非同类向量相似度以及三元组损失函数对所述Bert网络进行训练操作，得到所述基于三元组损失函数训练好的Bert网络的步骤，具体包括下述步骤：

计算所述同类相似度的平均值，得到平均同类向量；

计算所述非同类相似度的平均值，得到平均非同类向量；

基于所述第一特征向量、所述平均同类向量、所述平均非同类向量以及所述三元组损失函数对所述BERT网络进行反向更新操作，得到所述基于三元组损失函数训练好的BERT网络。
根据权利要求16所述的计算机可读存储介质，其中，所述基于所述同类向量相似度、非同类向量相似度以及三元组损失函数对所述BERT网络进行训练操作，得到所述基于三元组损失函数训练好的BERT网络的步骤，具体包括下述步骤：

基于所述同类相似度在所述第二特征向量中获取相似度最大的最大同类向量；

基于所述非同类相似度在所述随机特征向量中获取相似度最小的最小随机向量；

基于所述第一特征向量、所述最大同类向量、所述最小随机向量以及所述三元组损失函数对所述BERT网络进行反向更新操作，得到所述基于三元组损失函数训练好的BERT网络。
根据权利要求16所述的计算机可读存储介质，其中，所述三元组损失函数表示为：

其中，N表示整个训练集的总数；
表示第一正例样本；
表示第一特征向量；
表示第二正例样本；
表示第二特征向量；
表示随机样本；
表示随机特征向量；α表示第一正例样本与第二正例样本之间的距离和第一正例样本与随机样本之间的距离的最小间隔。
根据权利要求15所述的计算机可读存储介质，其中，所述接收用户通过请求终端发送的携带有咨询数据的会话请求的步骤之后，还包括：

将所述咨询数据存储至区块链中。