WO2019179022A1

WO2019179022A1 - 文本数据质检方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2019179022A1
Application number: PCT/CN2018/102069
Authority: WO
Inventors: 张雨嘉; 任鹏飞; 倪振
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-03-22
Filing date: 2018-08-24
Publication date: 2019-09-26
Also published as: CN108446388A

Abstract

一种文本数据质检方法、装置、设备及计算机可读存储介质。所述方法包括：获取消息级别的对话文本数据和会话级别的会话文本数据并进行预处理；根据预先设定的质检点和质检点对应的规则，分别利用全文搜索引擎和预设神经网络模型，从预处理后的对话文本数据和会话文本数据中标记出质检点；根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果进行整合，以作为最终的质检点结果。

Description

文本数据质检方法、装置、设备及计算机可读存储介质

本申请要求于2018年3月22日提交中国专利局、申请号为201810240050.5、发明名称为“文本数据质检方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种文本数据质检方法、装置、设备及计算机可读存储介质。

背景技术

在坐席销售的过程中，可能会与客户产生大量的对话文本，这些对话文本会保存在坐席销售的平台中。若要想对对话文本进行分析，目前采用的方法是先随机抽取一定条数的文本内容，再通过人工的方法进行分析。然而机器随机抽取的结果中，可能包含大量合规的文本内容。这样不仅使得分析人员工作效率不高，而且会遗漏大量的文本内容。如果遗漏的文本内容包含不合规(存在错误的地方)的内容，如重大违规项，则会引起客户不满，带来不小影响。

发明内容

本申请实施例提供一种文本数据质检方法、装置、设备及计算机可读存储介质，可将与全文搜索引擎匹配得到的质检结果，和利用预设神经网络模型分类出的质检结果，按照预设规则结合，以提高质检效率和准确率。

第一方面，本申请实施例提供了一种文本数据质检方法，该方法包括：

获取消息级别的对话文本数据和会话级别的会话文本数据；将所述对话文本数据和会话文本数据进行预处理；根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并在预处理后的会话文本数据中标记；利用预设神经网络模型，将预处理后的对话文本数据和会话文本数据中的数据进行分类并在预处理后的会话文本数据标记出分类的质检点；在预处理后的会话文本数据中，根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合，并将整合后的质检点结果作为最终的质检点结果。

第二方面，本申请实施例提供了一种文本数据质检装置，该装置包括用于执行上述第一方面所述的文本数据质检方法的单元。

第三方面，本申请实施例提供了一种计算机设备，所述计算机设备包括存储器，以及与所述存储器相连的处理器；所述存储器用于存储计算机程序，所述处理器用于运行所述存储器中存储的计算机程序，以执行上述第一方面所述的文本数据质检的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，实现上述第一方面所述的文本数据质检的方法。

本申请实施例可将与全文搜索引擎匹配得到的质检结果，和利用预设神经网络模型分类出的质检结果，按照预设规则结合，以提高文本数据质检效率和准确率。

附图说明

图1是本申请实施例提供的一种文本数据质检方法的流程示意图；

图2是本申请实施例提供的一种文本数据质检方法的子流程示意图；

图3是本申请实施例提供的一种文本数据质检方法的另一子流程示意图；

图4是本申请实施例提供的一种文本数据质检方法的另一子流程示意图；

图5是本申请实施例提供的一种文本数据质检方法的另一子流程示意图；

图6是本申请实施例提供的一种文本数据质检装置的示意性框图；

图7是本申请实施例提供的第一标记单元的示意性框图；

图8是本申请实施例提供的训练单元的示意性框图；

图9是本申请实施例提供的第二标记单元的示意性框图；

图10是本申请实施例提供的整合单元的示意性框图；

图11是本申请实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，应当理解，尽管术语第一、第二等可以在此用来描述各种元素，但这些元素不应该受限于这些术语。这些术语仅用来将这些元素彼此区分开。例如，在不脱离本申请范围的前提下，第一获取单元可以被称为第二获取单元，并且类似地，第二获取单元可以被称为第一获取单元。第一获取单元和第二获取单元均为获取单元，但它们并非同一获取单元。

图1为本申请实施例提供的一种文本数据质检方法的流程示意图。该方法包括以下步骤S101-S106。

S101，获取消息级别的对话文本数据和会话级别的会话文本数据。其中，消息级别的对话文本数据从坐席销售的平台中得到，该对话文本数据中保存的是坐席与客户之间的对话文本。该对话文本数据属于消息级别，可以理解为对话文本数据是以坐席与客户之间发送的消息为单位保存的数据，该对话文本数据由众多的消息文本数据组成，每一条消息文本数据包括消息编号、发送人、接收人、具体的消息内容、发送消息的时间等。会话级别的会话文本数据理解为以坐席与客户之间的一个对话(会话)为单位保存的数据，即会话文本数据中保存的是坐席与客户之间的多个对话数据，如每个对话数据中包括对话编号、对话内容。每个对话内容中对应有多条消息文本数据。消息级别的对话文本数据由于是以消息为单位保存的数据，所以会存在散乱无序、无上下文关系、无人员关系等，不便于用户查看。

会话级别的会话文本数据可以根据消息级别的对话文本数据加工处理后得到，具体加工处理的流程包括：对消息级别的对话文本数据进行预处理，如去重等；从预处理后的消息级别的对话文本数据中找出每条消息文本数据中的发送人和接收人；将发送人和接收人作为一个集合，按照集合对对话文本数据中的消息文本数据进行分组，将集合相同的消息文本数据分成一组，如此就分成了多组的数据，这意味分成一组的发送人和接收人是同一个对话中的两个人，不同对话分成了不同的组；将每组中的消息文本数据按照按照时间先后顺序进行排序，并将排序后的消息文本数据按照预定格式显示，如预定格式可以为：发送消息的时间[空格]发送人[冒号]具体的消息内容。如2017-01-01 12：01：02张三：李老师，在吗？可以理解为，会话级别的会话文本数据是将消息级别的对话文本数据中的消息文本数据按照时间的先后顺序和发送人接收人信息整理后的以对话为单位的多个对话数据。其中，消息级别的对话文本数据和会话级别的会话文本数据是以数据表的形式保存在数据库中，如Oracle数据库等。消息级别的对话文本数据和会话级别的会话文本数据根据数据量的多少，分别可以保存为多个数据表，也可以保存为一个数据表。

S102，将对话文本数据和会话文本数据进行预处理。预处理的方法包括替换，过滤等。替换包括将对话文本数据和会话文本数据中对应消息文本数据中的英文替换为中文等；过滤包括将对话文本数据和会话文本数据中对应消息文本数据中的数字、标点符号、表情、乱码过滤掉。将对话文本数据和会话文本数据中的消息文本数据进行预处理，以保留消息文本数据中的具体的消息内容中的纯文本消息，方便后续的处理。

S103，根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记。其中，质检点可以理解为不合规或者违规的地方，也就是存在错误的地方。每个质检点有质检点标识，如A47，表示A类中第47个质检点，质检点对应的规则包括关键词和逻辑运算。质检点和质检点对应的规则，举例如：A47，基金and分红。其中，关键词包括：基金、分红，逻辑运算包括and。A47质检点表示，若一条消息中同时出现了基金和分红，那么认为该条消息违规了。可以理解为，基金这个产品不涉及分红，也可以理解为，当说到基金这个产品时不会想到会说分红，若一条消息中同时出现基金和分红，那么这条消息违规，也就是出现错误。全文搜索引擎，指的是ElasticSearch(简写为ES)搜索引擎。ES使用关键词，并利用ES的API接口must，should，must not组合分装实现质检点对应的规则，从对话文本数据和会话文本数据中进行查询搜索，找出匹配的质检点并标记，其中标记用质检点标识来标记。分别从对话文本数据和会话文本数据中进行查询搜索，可以理解为，有一些质检点可以通过消息级别的文本表现出来，那么从对话文本数据中进行查询搜索；有一些质检点单从消息级别的文本中得不到，而需要从前后多个消息级别的文本中才可以得到，那么需要从会话文本数据中进行查询搜索。

在一实施例中，如图2所示，所述步骤S103包括以下步骤S201-S203。

S201，将预处理后的对话文本数据和会话文本数据进行分词。通过全文搜索引擎中的分词将预处理后的对话文本数据和会话文本数据中每个消息文本数据中的具体消息内容分成多个单词，如消息“我来到北京清华大学”，分词的结果为“我来到北京清华大学”。

S202，对分词后的数据建立倒排索引。具体地，统计分成的词在对对话文本数据和会话文本数据中出现的次数和位置；根据出现的次数和位置对分成的词进行倒排索引。如统计词“分红”在对话文本数据和会话文本数据中出现的次数和位置，其中，在对话文本数据中的位置包括在哪个对话文本数据表、哪个消息文本数据(可以用消息编号来表示)，在会话文本数据中的位置包括在哪个会话文本数据表、哪段会话(可以用对话编号表示)等。其中，倒排索引是实现“单词-文档矩阵”的一种存储形式，通过倒排索引，可以根据单词快速获取包含这个单词的“文档列表”。如在会话文本数据中，通过该倒排索引可以根据分成的词快速获取包含这个词的对话列表，如哪些对话中出现了该词。

S203，根据预先设定的质检点和质检点对应的规则，利用建立的倒排索引和全文搜索引擎，从对话文本表和会话文本表中查询出匹配的质检点并进行标记。根据质检点对应的规则查询搜索到匹配的质检点后，进行质检点标记。如对话文本数据中标记可以理解为在对话文本数据中的每一个消息文本数据后进行相应的质检点标记，在会话文本数据中标记可以理解为在会话文本数据中每一个对话内容对应的多个消息文本数据后进行相应的质检点标记。建立倒排索引后，可以加快查询匹配的速度。在数据量很大的情况下，仍能快速的完成质检点的查询匹配和标记。

S104，从训练过的神经网络模型中选取其中一个作为预设神经网络模型。

其中，从训练过的神经网络模型中选取其中一个作为预设神经网络模型包括：从多个不同的训练过的神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型。其中，多个神经网络模型可以为长短时神经网络模型(LSTM，Long Short-Term Memory)(简称为模型1)、长短时神经网络模型结合注意力机制(Attention Mechanism)(简称为模型2)、双向长短时记忆神经网络(Bidirectional Long Short-term Memory，BLSTM)(简称为模型3)、双向长短期记忆神经网络结合注意力机制(简称为模型4)等，也可以是其他的适用的神经网络模型。

获取训练过的模型1、模型2、模型3、模型4后，获取测试样本集，如可以预先获取一定数量的含有质检点的对话文本数据和会话文本数据作为测试样本集，其中，含有质检点的对话文本数据和会话文本数据，可以通过利用全文搜索引擎对对话文本数据和会话文本数据进行标记并保存得到，也可以结合人工质检的结果；利用测试样本集，对模型1、模型2、模型3、模型4进行质检点分类并标记出分类的质检点；计算每个模型的分类准确率，其中，准确率计算公式为：(A _i∩B)/C，C表示人工复核样本数量，A表示人工复核样本数量中模型质检点个数，B表示人工复核样本数量中人工质检点个数，i∈(1，2，3，4)，分别表示对应模型；选择分类准确率较高的模型作为预设神经网络模型。可以理解地，从多个不同的神经网络模型中选择出分类准确率较高的模型作为预设神经网络模型，来对对话文本数据和会话文本数据进行分类并标记出分类的质检点，以提高模型分类质检点的准确率。

在其他实施例中，从多个不同的训练过的神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型之前，还包括对多个不同神经网络模型进行训练，如可以预先获取一定数量的含有质检点的对话文本数据和会话文本数据作为训练样本集，需要注意的是，训练样本集与测试样本集不含有相同的数据，一般来说，训练样本集的数据大于测试样本集的数据；利用训练样本集，同时训练模型1、模型2、模型3和模型4，得到训练过的模型1、模型2、模型3、模型4。

需要指出的是，在另一些实施例中，从训练过的神经网络模型中选取其中一个作为预设神经网络模型包括：将训练过的一个神经网络模型作为预设神经网络模型。可以理解地，只选择一个神经网络模型进行训练，将训练好的神经网络模型作为预设神经网络模型。如此，就无需从多个神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型。然而，无论是一个神经网络模型，还是从多个神经网络模型中选择一个分类准确率最高的神经网络模型，都需要对神经网络模型进行训练的过程。

在一实施例中，如图3所示，训练神经网络模型的过程包括以下步骤S301-S304。

S301，获取含有质检点的对话文本数据和会话文本数据。其中，若含有质检点的对话文本数据和会话文本数据没有经过预处理，那么还需要进行预处理，预处理的方法包括替换，过滤等。替换包括将对话文本数据和会话文本数据中对应消息文本数据中的英文替换为中文等；过滤包括将对话文本数据和会话文本数据中对应消息文本数据中的数字、标点符号、表情、乱码过滤掉等。获取含有质检点的对话文本数据和会话文本数据作为训练样本集。

S302，利用分词工具对含有质检点的对话文本数据和会话文本数据中的文本信息进行分词。其中，分词工具可以为结巴分词，利用结巴分词对对话文本数据和会话文本数据中每个消息文本数据分成多个单词。结巴分词支持三种模式：一，精确模式，试图将句子最精确地切开，适合文本分析；二，全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；三，搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。在本实施例中，选用精确模式对含有质检点的对话文本数据和会话文本数据进行分词。通过分词将对话文本数据每个消息文本数据分成多个单词，如消息“我来到北京清华大学”，分词的结果为“我来到北京清华大学”。

S303，利用预设词向量模型对分词后的数据进行处理，得到对应的词向量。其中，词向量(word embedding)模型指的是gensim的word2vec词向量模型。其中，gensim是一个通过衡量词组(或更高级结构，如整句或文档)模式来挖掘文档语义结构的工具。gensim以文本文档的集合作为输入，并生成一个“向量”来表征该文集的文本内容，从而实现语义挖掘，该向量表示可被用于训练一个“模型”。word2vec是gensim的一个“模型”，可以计算词向量。word2vec实际上是个浅层的神经网络，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练，训练得到的训练结果为词向量，可以很好地度量词与词之间的相似性。

预设词向量模型通过预先训练得到，训练词向量模型的过程如下：获取对含有质检点的对话文本数据和会话文本数据，其中，若含有质检点的对话文本数据和会话文本数据没有经过预处理，那么还需要进行预处理，预处理的方法包括替换，过滤等；对含有质检点的对话文本数据和会话文本数据进行分词，其中，可以使用结巴分词工具的精确模式对含有质检点的对话文本数据和会话文本数据进行分词；设置训练word2vec词向量模型的参数，如最小次数min_count＝5，该最小次数表示小于5次的单词会被丢弃，神经网络隐藏层的单元数size＝128，迭代的次数iterator＝5等；将分词后的数据作为训练数据集，训练word2vec词向量模型得到预设词向量模型。

其中，需要指出的是，用来训练词向量模型的数据量通常非常大，要远大于训练神经网络模型所需要的数据量。在实际使用中，可以先对大量的含有质检点的对话文本数据和会话文本数据进行分词，使用分词后的数据来训练词向量模型得到预设词向量模型，然后从分词后的数据中拿出一部分数据，来训练神经网络模型，以得到预设神经网络模型。可以理解地，训练词向量模型和训练神经网络模型的数据可以是同一批的数据，在其他实施例中也可以是不同批的数据，即训练词向量模型的数据和训练神经网络模型的数据不一样。

S304，根据词向量和对应的质检点，训练神经网络模型。具体地：将词向量和对应的质检点输入，训练神经网络，如若神经网络模型是长短时神经网络模型，那么训练长短时神经网络，若神经网络模型是双向长短时记忆神经网络模型，那么训练双向长短时神经网络；将神经网络各个节点输出的数据输入到平均池化层，以融合神经网络各个节点的结果；再将经过平均池化层后的数据输入到softmax函数，以得到分类结果，最终使得到的分类结果和标记的质检点结果尽可能多的相同。

需要指出的是，每隔一段时间，如一个星期，半个月等，需要对预设神经网络模型或者对预设词向量模型进行更新，具体地，以新的含有质检点的对话文本数据和会话文本数据作为输入来进行更新，以使预设神经网络模型或者词向量模型总能适应新的数据的变化。

S105，利用预设神经网络模型，将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点。

在一实施例中，如图4所示，所述步骤S105包括以下步骤S401-S404。

S401，获取预处理后的对话文本数据和会话文本数据。

S402，利用分词工具对预处理后的对话文本数据和会话文本数据中的文本信息进行分词。其中，分词工具可以为结巴分词，利用结巴分词对对话文本数据和会话文本数据中每个消息文本数据分成多个单词。具体地，选用结巴分词中的精确模式对含有质检点的对话文本数据和会话文本数据进行分词。通过分词将对话文本数据每个消息文本数据分成多个单词。

S403，利用预设词向量模型对分词后的数据进行处理，得到对应的词向量。

S404，根据对应的词向量，利用预设神经网络模型进行分类，得到分类出的质检点并标记出质检点。对话文本数据中标记可以理解为在对话文本数据中的每一个消息文本数据后进行相应的质检点标记，在会话文本数据中标记可以理解为在会话文本数据中每一个对话内容对应的多个消息文本数据后进行相应的质检点标记。

S106，根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合，并将整合后的质检点结果作为最终的质检点结果。

在一实施例中，如图5所示，所述步骤S106包括如下步骤S501-S504。

S501，将利用全文搜索引擎在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并，得到全文搜索引擎标记出的质检点结果。具体地，将利用全文搜索引擎标记出的含有质检点的对话文本数据进行加工处理得到加工后的会话文本数据，并将加工后的会话文本数据和利用全文搜索引擎标记出的含有质检点的会话文本数据进行合并，得到全文搜索引擎标记出的质检点结果，其中，加工后的会话文本数据中是以消息文本数据为单位标记的质检点。全文搜索引擎标记出的质检点结果中有以消息文本数据为单位标记的质检点，也有以对话为单位标记的质检点。全文搜索引擎标记出的质检点结果最终是在会话文本数据中显示的，可以理解为，在会话文本数据中显示可以方便用户进一步的查阅相关内容。其中，加工处理的过程主要包括：从利用全文搜索引擎标记出的含有质检点的对话文本数据中找出每条消息文本数据中的发送人和接收人；将发送人和接收人作为一个集合，按照集合对对话文本数据中的消息文本数据进行分组；将每组中的消息文本数据按照时间先后顺序进行排序，并将排序后的消息文本数据按照预定格式显示，如预定格式可以为：发送消息的时间[空格]发送人[冒号]具体的消息内容。可以理解为，加工后的会话文本数据是将对话文本数据中的消息文本数据按照时间的先后顺序整理后的以对话为单位的多个对话数据。

S502，将利用预设神经网络模型在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并，得到预设神经网络模型标记出的质检点结果。具体地，将利用预设神经网络模型标记出的含有质检点的对话文本数据进行加工处理得到加工后的会话文本数据，并将加工后的会话文本数据和利用预设神经网络模型标记出的含有质检点的会话文本数据进行合并，得到预设神经网络模型标记出的质检点结果，其中，加工后的会话文本数据中有以消息文本数据为单位标记的质检点。预设神经网络模型标记出的质检点结果中有以消息文本数据为单位标记的质检点，也有以对话为单位标记的质检点。预设神经网络模型标记出的质检点结果最终是在会话文本数据中显示的，可以理解为，在会话文本数据中显示可以方便用户进一步的查阅相关内容。其中，加工处理的过程如前述所述，在此不再赘述。

S503，根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合。其中，预设规则可以为合并，可以理解为进行逻辑与运算，即将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果进行逻辑与运算。如对于对话文本数据中的某一条消息文本数据，利用全文搜索引擎标记出的质检点结果为A47，而利用预设神经网络模型标记出的质检点结果为B16，进行逻辑与运算后，该条消息文本数据的质检点结果为A47，B16；如对于对话文本数据中的某一条消息文本数据，利用全文搜索引擎标记出的质检点结果为A47，而利用预设神经网络模型标记出的质检点结果为空，那么进行逻辑与运算后，该条消息文本数据的质检点结果为A47。预设规则也可以是选择两者中准确率较高的质检点结果作为整合后的质检点结果。如若利用全文搜索引擎标记出的质检点结果准确率低于利用预设神经网络模型标记出的质检点结果的准确率，那么选择预设神经网络模型标记出的质检点结果作为整合后的质检点结果；若利用全文搜索引擎标记出的质检点结果准确率不低于利用预设神经网络模型标记出的质检点结果的准确率，那么选择全文搜索引擎标记出的质检点结果作为整合后的质检点结果。

S504，将整合后的质检点结果作为最终的质检点结果。

在其他实施例中，也可以根据预设规则将利用全文搜索引擎在预处理后的对话文本数据中标记出的质检点和利用预设神经网络模型在预处理后的对话文本数据标记出的质检点进行处理，再根据预设规则将利用全文搜索引擎在预处理后的会话文本数据中标记出的质检点和利用预设神经网络模型在预处理后的会话文本数据标记出的质检点进行处理，将两次处理后的结果进行合并，以得到最终的质检点结果。

以上实施例，通过利用全文搜索引擎和预设神经网络模型从预处理后的对话文本和会话文本中标记出质检点，避免了机器随机抽取、人工抽检的方法而造成的只对一部分数据进行处理，而遗漏其他可能的质检点。该方案可对全部数据进行处理，高效质检全部数据，提高质检效率。同时利用全文搜索引擎和预设神经网络模型，这两个不同模型从预处理后的对话文本和会话文本中标记出质检点，并将两个不同模型的质检点进行整合，找出所有可能的质检点，提高质检的准确率。

图6是本申请实施例提供的一种文本数据质检装置的示意性框图。如图6所示，该装置60包括获取单元601、预处理单元602、第一标记单元603、选择单元604、第二标记单元605、整合单元606、训练单元607。

获取单元601，用于，获取消息级别的对话文本数据和会话级别的会话文本数据。

预处理单元602，用于将对话文本数据和会话文本数据进行预处理。预处理的方法包括替换，过滤等。

第一标记单元603，用于根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记。

在一实施例中，如图7所示，第一标记单元603包括数据分词单元701、索引单元702、查询标记单元703。

数据分词单元701，用于将预处理后的对话文本数据和会话文本数据进行分词。

索引单元702，用于对分词后的数据建立倒排索引。

查询标记单元703，用于根据预先设定的质检点和质检点对应的规则，利用建立的倒排索引和全文搜索引擎，从对话文本表和会话文本表中查询出匹配的质检点并进行标记。

选择单元604，用于从训练过的神经网络模型中选取其中一个作为预设神经网络模型。

在其他实施例中，装置60还包括训练单元607。

如图8所示，训练单元607包括第一获取单元801、第一分词单元802、第一词向量单元803、模型训练单元804。

第一获取单元801，用于获取含有质检点的对话文本数据和会话文本数据。第一分词单元802，用于利用分词工具对含有质检点的对话文本数据和会话文本数据中的文本信息进行分词。

第一词向量单元803，用于利用预设词向量模型对分词后的数据进行处理，得到对应的词向量。

预设词向量模型通过预先训练得到，即在其他实施例中，训练单元还包括预设词向量获取单元，预设词向量获取单元用于训练词向量模型以得到预设词向量模型。具体地，预设词向量获取单元包括质检数据获取单元、质检数据分词单元、设置单元、词向量训练单元。

模型训练单元804，用于根据词向量和对应的质检点，训练神经网络模型。

第二标记单元605，用于利用预设神经网络模型，将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点。

在一实施例中，如图9所示，第二标记单元605包括第二获取单元901、第二分词单元902、第二词向量单元903、分类单元904。

第二获取单元901，用于获取预处理后的对话文本数据和会话文本数据。

第二分词单元902，用于利用分词工具对预处理后的对话文本数据和会话文本数据中的文本信息进行分词。

第二词向量单元903，用于利用预设词向量模型对分词后的数据进行处理，得到对应的词向量。

在其他实施例中，第二标记单元还包括预设词向量获取单元，预设词向量获取单元用于训练词向量模型以得到预设词向量模型。具体地，预设词向量获取单元包括质检数据获取单元、质检数据分词单元、设置单元、词向量训练单元。具体地，请参看训练单元中预设词向量获取单元部分的描述。

分类单元904，用于根据对应的词向量，利用预设神经网络模型进行分类，得到分类出的质检点并标记出质检点。

整合单元606，用于根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合，并将整合后的质检点结果作为最终的质检点结果。

在一实施例中，如图10所示，整合单元606包括第一合并单元101、第二合并单元102、结果整合单元103、质检点结果确定单元104。

第一合并单元101，用于将利用全文搜索引擎在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并，得到全文搜索引擎标记出的质检点结果。

第二合并单元102，用于将利用预设神经网络模型在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并，得到预设神经网络模型标记出的质检点结果。

结果整合单元103，用于根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合。

质检点结果确定单元104，用于将整合后的质检点结果作为最终的质检点结果。

上述装置实施例的具体工作过程和达到的有益效果，请参看前述方法实施例对应的实施过程和有益效果，再次不再赘述。

上述装置可以实现为一种计算机程序的形式，计算机程序可以在如图11所示的计算机设备上运行。

图11为本申请实施例提供的一种计算机设备的示意性框图。该计算机设备110可以是手机、pad等便携式设备，也可以是台式机等非便携式设备。该设备110包括通过系统总线111连接的处理器112、存储器和网络接口113，其中，存储器可以包括非易失性存储介质114和内存储器115。

该非易失性存储介质114可存储操作系统1141和计算机程序1142。该计算机程序1142被执行时，可使得处理器112执行一种文本数据质检方法。该处理器112用于提供计算和控制能力，支撑整个设备110的运行。该内存储器115为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器112执行时，可使得处理器112执行一种文本数据质检方法。该网络接口113 用于进行网络通信，如获取数据等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的设备110的限定，具体的设备110可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器112用于运行存储在存储器中的计算机程序，以实现前述文本数据质检方法的任一实施例。

应当理解，在本申请实施例中，所称处理器112可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，以实现前述文本数据质检方法的任一实施例。

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种文本数据质检方法，其特征在于，所述方法包括：

获取消息级别的对话文本数据和会话级别的会话文本数据；

将所述对话文本数据和会话文本数据进行预处理；

根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记；

利用预设神经网络模型，将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点；

根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果进行整合，并将整合后的质检点结果作为最终的质检点结果。
根据权利要求1所述的方法，其特征在于，在所述利用预设神经网络模型，将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点之前，所述方法还包括训练神经网络模型并从训练过的神经网络模型中选取其中一个作为预设神经网络模型，其中，训练神经网络模型，包括：

获取含有质检点的对话文本数据和会话文本数据；

利用分词工具对含有质检点的对话文本数据和会话文本数据中的文本信息进行分词；

利用预设词向量模型对分词后的数据进行处理，得到对应的词向量；

根据词向量和对应的质检点，训练神经网络模型。
根据权利要求2所述的方法，其特征在于，从训练过的神经网络模型中选取其中一个作为预设神经网络模型，包括：

从多个不同的训练过的神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型。
根据权利要求1所述的方法，其特征在于，所述利用预设神经网络模型，将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点，包括：

获取预处理后的对话文本数据和会话文本数据；

利用分词工具对预处理后的对话文本数据和会话文本数据中的文本信息进行分词；

利用预设词向量模型对分词后的数据进行处理，得到对应的词向量。

根据对应的词向量，利用预设神经网络模型进行分类，得到分类出的质检点并标记出质检点。
根据权利要求4所述的方法，其特征在于，获取预设词向量模型包括：

获取对含有质检点的对话文本数据和会话文本数据进行分词后的数据；

设置训练词向量模型的参数；

将分词后的数据作为训练数据集，训练词向量模型后得到预设词向量模型。
根据权利要求1所述的方法，其特征在于，所述根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记，包括：

将预处理后对话文本数据和会话文本数据进行分词；

对分词后的数据建立倒排索引；

根据预先设定的质检点和质检点对应的规则，利用建立的倒排索引和全文搜索引擎，从对话文本表和会话文本表中查询出匹配的质检点并进行标记。
根据权利要求1所述的方法，其特征在于，所述根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合，并将整合后的质检点结果作为最终的质检点结果，包括：

将利用全文搜索引擎在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并，得到全文搜索引擎标记出的质检点结果；

将利用预设神经网络模型在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并，得到预设神经网络模型标记出的质检点结果；

根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合；

将整合后的质检点结果作为最终的质检点结果。
一种文本数据质检装置，其特征在于，所述文本数据质检装置包括：

获取单元，用于获取消息级别的对话文本数据和会话级别的会话文本数据；

预处理单元，用于将所述对话文本数据和会话文本数据进行预处理；

第一标记单元，用于根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记；

第二标记单元，用于利用预设神经网络模型，将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点；

整合单元，用于根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果进行整合，并将整合后的质检点结果作为最终的质检点结果。
根据权利要求8所述的文本数据质检装置，其特征在于，所述第二标记单元包括：

第二获取单元，用于获取预处理后的对话文本数据和会话文本数据；

第二分词单元，用于利用分词工具对预处理后的对话文本数据和会话文本数据中的文本信息进行分词；

第二词向量单元，用于利用预设词向量模型对分词后的数据进行处理，得到对应的词向量；

分类单元，用于根据对应的词向量，利用预设神经网络模型进行分类，得到分类出的质检点并标记出质检点。
根据权利要求8所述的文本数据质检装置，其特征在于，所述整合单元包括：

第一合并单元，用于将利用全文搜索引擎在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并，得到全文搜索引擎标记出的质检点结果；

第二合并单元，用于将利用预设神经网络模型在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并，得到预设神经网络模型标记出的质检点结果；

结果整合单元，用于根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合；

质检点结果确定单元，用于将整合后的质检点结果作为最终的质检点结果。
一种计算机设备，其特征在于，所述计算机设备包括存储器，以及与所述存储器相连的处理器；

所述存储器用于存储计算机程序；所述处理器用于运行所述存储器中存储的计算机程序，以执行如下步骤：

获取消息级别的对话文本数据和会话级别的会话文本数据；

将所述对话文本数据和会话文本数据进行预处理；

根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记；

利用预设神经网络模型，将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点；

根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果进行整合，并将整合后的质检点结果作为最终的质检点结果。
根据权利要求11所述的计算机设备，其特征在于，在所述利用预设神经网络模型，将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点之前，所述处理器还执行如下步骤：训练神经网络模型并从训练过的神经网络模型中选取其中一个作为预设神经网络模型；其中，所述处理器执行所述训练神经网络模型时，具体执行如下步骤：

获取含有质检点的对话文本数据和会话文本数据；

利用分词工具对含有质检点的对话文本数据和会话文本数据中的文本信息进行分词；

利用预设词向量模型对分词后的数据进行处理，得到对应的词向量；

根据词向量和对应的质检点，训练神经网络模型。
根据权利要求12所述的计算机设备，其特征在于，所述处理器在执行所述从训练过的神经网络模型中选取其中一个作为预设神经网络模型时，具体执行如下步骤：从多个不同的训练过的神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型。
根据权利要求11所述的计算机设备，其特征在于，所述处理器在执行所述利用预设神经网络模型，将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点时，具体执行如下步骤：

获取预处理后的对话文本数据和会话文本数据；

利用分词工具对预处理后的对话文本数据和会话文本数据中的文本信息进行分词；

利用预设词向量模型对分词后的数据进行处理，得到对应的词向量；

根据对应的词向量，利用预设神经网络模型进行分类，得到分类出的质检点并标记出质检点。
根据权利要求14所述的计算机设备，其特征在于，所述处理器还执行如下步骤：获取预设词向量模型，所述处理器在执行所述获取预设词向量模型时，具体执行如下步骤：

获取对含有质检点的对话文本数据和会话文本数据进行分词后的数据；

设置训练词向量模型的参数；

将分词后的数据作为训练数据集，训练词向量模型后得到预设词向量模型。
根据权利要求11所述的计算机设备，其特征在于，所述处理器在执行所述根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记时，具体执行如下步骤：

将预处理后对话文本数据和会话文本数据进行分词；

对分词后的数据建立倒排索引；

根据预先设定的质检点和质检点对应的规则，利用建立的倒排索引和全文搜索引擎，从对话文本表和会话文本表中查询出匹配的质检点并进行标记。
根据权利要求11所述的计算机设备，其特征在于，所述处理器在执行所述根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合，并将整合后的质检点结果作为最终的质检点结果时，具体执行如下步骤：

将利用全文搜索引擎在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并，得到全文搜索引擎标记出的质检点结果；

将利用预设神经网络模型在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并，得到预设神经网络模型标记出的质检点结果；

根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合；

将整合后的质检点结果作为最终的质检点结果。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，实现如下步骤：

获取消息级别的对话文本数据和会话级别的会话文本数据；

将所述对话文本数据和会话文本数据进行预处理；

根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记；

利用预设神经网络模型，将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点；

根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果进行整合，并将整合后的质检点结果作为最终的质检点结果。
根据权利要求18所述的计算机可读存储介质，其特征在于，所述处理器在执行所述利用预设神经网络模型，将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点时，具体实现如下步骤：

获取预处理后的对话文本数据和会话文本数据；

利用分词工具对预处理后的对话文本数据和会话文本数据中的文本信息进行分词；

利用预设词向量模型对分词后的数据进行处理，得到对应的词向量；

根据对应的词向量，利用预设神经网络模型进行分类，得到分类出的质检点并标记出质检点。
根据权利要求18所述的计算机可读存储介质，其特征在于，所述处理器在执行所述根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合，并将整合后的质检点结果作为最终的质检点结果时，具体实现如下步骤：

将利用全文搜索引擎在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并，得到全文搜索引擎标记出的质检点结果；

将利用预设神经网络模型在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并，得到预设神经网络模型标记出的质检点结果；

根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合；

将整合后的质检点结果作为最终的质检点结果。