WO2023279692A1

WO2023279692A1 - 基于问答平台的数据处理方法、装置及相关设备

Info

Publication number: WO2023279692A1
Application number: PCT/CN2022/071320
Authority: WO
Inventors: 陈聪; 舒畅; 陈又新
Original assignee: 平安科技（深圳）有限公司
Priority date: 2021-07-09
Filing date: 2022-01-11
Publication date: 2023-01-12
Also published as: CN113486203A; CN113486203B

Abstract

涉及数据处理技术，提供一种基于问答平台的数据处理方法、装置、计算机设备与存储介质，包括：调用问题检测模型检测目标文本集中是否包含问题文本；当检测结果为是时，获取问题文本集；获取每一问题文本对应的目标文档内容，并将问题文本与目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本；聚类分析每一目标问题文本，得到若干个问题簇；计算每一问题簇的目标指标值，并组合目标指标值，得到每一问题簇对应的目标特征值；将目标特征值输入至重要程度计算模型中，得到每一问题簇对应的重要程度；输出问题簇对应的答案。能够提高基于问答平台的数据处理效率与准确性，促进智慧城市的快速发展。

Description

基于问答平台的数据处理方法、装置及相关设备

本申请要求于2021年7月9日提交中国专利局，申请号为202110778011.2发明名称为“基于问答平台的数据处理方法、装置及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种基于问答平台的数据处理方法、装置、计算机设备及介质。

背景技术

问答平台是为用户提供的一个交流平台，用户可以在问答平台接受专家的帮助，同时也尽力给其他用户提供有效的帮助。问答平台大多涉及在线互动，如举手、提问、刷屏及弹幕等操作。对于用户的提问，需尽快进行相应解答，若仅依靠专家人工应付问答平台的提问，问答处理的效率与准确率均无法保证。

在实现本申请的过程中，发明人发现现有技术存在如下技术问题：现有的问答平台采用任务助手的方式，采集用户输出的问题，并根据问题与答案的相关性为用户匹配相应的答案。然而，在高频高并发的问答场景中，用户数量多，每个用户输出的问题数量也多，若仅是采用相关性匹配的方法，无法满足有效时间内尽可能多的正确回答用户提问的需求，导致问答处理的效率与准确性较低。

因此，有必要提供一种基于问答平台的数据处理方法，能够提高问答处理的效率与准确性。

发明内容

鉴于以上内容，有必要提出一种基于问答平台的数据处理方法、基于问答平台的数据处理装置、计算机设备及介质，能够提高基于问答平台的数据处理效率与准确性。

本申请实施例第一方面提供一种基于问答平台的数据处理方法，所述基于问答平台的数据处理方法包括：

采集目标文本集，并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本；

当检测结果为所述目标文本集中包含问题文本时，获取所述目标文本集中的问题文本，得到问题文本集；

获取所述问题文本集中每一问题文本对应的目标文档内容，并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本，得到目标问题文本集；

聚类分析所述目标问题文本集中的每一所述目标问题文本，得到若干个问题簇；

计算每一所述问题簇的目标指标值，并按照预设数据格式组合所述目标指标值，得到每一所述问题簇对应的目标特征值；

将所述目标特征值输入至预先训练好的重要程度计算模型中，得到每一所述问题簇对应的重要程度；

按照所述重要程度的顺序输出所述问题簇对应的答案。

本申请实施例第二方面还提供一种基于问答平台的数据处理装置，所述基于问答平台的数据处理装置包括：

问题检测模块，用于采集目标文本集，并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本；

问题获取模块，用于当检测结果为所述目标文本集中包含问题文本时，获取所述目标文本集中的问题文本，得到问题文本集；

相关度计算模块，用于获取所述问题文本集中每一问题文本对应的目标文档内容，并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本，得到目标问题文本集；

聚类分析模块，用于聚类分析所述目标问题文本集中的每一所述目标问题文本，得到若干个问题簇；

指标计算模块，用于计算每一所述问题簇的目标指标值，并按照预设数据格式组合所述目标指标值，得到每一所述问题簇对应的目标特征值；

重要程度计算模块，用于将所述目标特征值输入至预先训练好的重要程度计算模型中，得到每一所述问题簇对应的重要程度；

答案输出模块，用于按照所述重要程度的顺序输出所述问题簇对应的答案。

本申请实施例第三方面还提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机可读指令以实现以下步骤：

按照所述重要程度的顺序输出所述问题簇对应的答案。

本申请实施例第四方面还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其中，所述计算机可读指令被处理器执行时实现以下步骤：

按照所述重要程度的顺序输出所述问题簇对应的答案。

本申请实施例提供的上述基于问答平台的数据处理方法、基于问答平台的数据处理装置、计算机设备以及计算机可读存储介质，在采集到目标文本集后，调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本进行智能识别问题，继而针对问题文本快速匹配答案，能够在高频高并发的问答场景中提高数据处理效率；且本申请通过文本的相关性识别，能够实现仅针对与目标文档内容相关的问题文本进行解答，避免对目标文档内容不相关的问题文本进行解答，能够提高问答的准确性；此外，本申请通过对目标问题文本进行聚类分析，得到若干问题簇，继而对每个问题簇进行问题重要性评估，优先解答重要性高的问题簇对应的目标问题文本，继而提高问答处理的效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中，比如智慧政务的基于问答平台的数据处理模块等，能够促进智慧城市的快速发展。

附图说明

图1是本申请实施例一提供的基于问答平台的数据处理方法的流程图。

图2是本申请实施例二提供的基于问答平台的数据处理装置的结构图。

图3是本申请实施例三提供的计算机设备的结构示意图。

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

本申请实施例提供的基于问答平台的数据处理方法由计算机设备执行，相应地，基于问答平台的数据处理装置运行于计算机设备中。

图1是本申请第一实施方式的基于问答平台的数据处理方法的流程图。如图1所示，所述基于问答平台的数据处理方法可以包括如下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略：

S11，采集目标文本集，并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本，当检测结果为所述目标文本集中包含问题文本时，执行步骤S12。

在本申请的至少一实施例中，所述基于问答平台的数据处理方法可应用于在线直播教学平台的问答处理或者其他平台的问答处理，本申请以在线直播教学平台的问答处理为例，在线直播教学平台包括教师端和学生端，所述教师端用于输出相应的教学文档内容，所述学生端用于针对教学文档内容输出相应的应答内容，例如，应答内容可以是“懂了、明白”等内容，还可以是向老师提问的问题内容。在一实施例中，所述目标文本集是指所述学生端输出的应答内容组成的文本集合。由于所述目标文本集中包含“懂了、明白”等内容以及向老师提问的问题内容，本申请在采集到目标文本集后，调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本进行智能识别问题，继而针对问题文本快速匹配答案，能够在高频高并发的问答场景中提高数据处理效率。

可选地，在所述调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本之前，所述方法还包括：

获取携带预设问题标签的文本样本集，并拆分所述文本样本集为文本训练集与文本测试集，其中，所述预设问题标签用于标记所述文本样本集中的问题文本；

将所述文本训练集输入至初始神经网络模型中进行训练，得到问题检测模型；

将所述文本测试集输入至所述问题检测模型中，计算模型的准确率，并在所述准确率超过预设准确率阈值时，确定所述问题检测模型训练完成。

其中，所述预设问题标签是指用于标记所述文本样本集中的问题文本的标签，所述预设问题标签可以为数字标签、字母标签或者颜色标签等，在此不做限制。所述预设准确率阈值为预先设置的用于评估模型训练准确性的阈值，例如，所述预设准确率阈值可以为98％。所述初始神经网络模型可以为FastText模型，在此不做限制。

S12，获取所述目标文本集中的问题文本，得到问题文本集。

在本申请的至少一实施例中，获取所述目标文本集中的问题文本，得到问题文本集。

S13，获取所述问题文本集中每一问题文本对应的目标文档内容，并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本，得到目标问题文本集。

在本申请的至少一实施例中，所述问题文本集中每一问题文本携带有时间戳，所述时间戳用于标识该问题文本输出的时间点，通过获取与该时间戳对应的目标文档内容，能够检测该问题文本是否与目标文档内容相关。本申请通过文本的相关性识别，能够实现仅针对与目标文档内容相关的问题文本进行解答，避免对目标文档内容不相关的问题文本进行解答，能够提高问答的准确性。

可选地，所述获取所述问题文本集中每一问题文本对应的目标文档内容包括：

获取所述问题文本集中每一问题文本携带的时间戳；

确定所述时间戳对应的目标时间段；

根据所述目标时间段遍历预先设置的时间段与目标文档内容的映射关系，得到所述目标时间段对应的目标文档内容。

其中，所述时间戳可以是格式为2021/2/1/16:00的时间点，每一个时间戳都有唯一对应的时间段，所述时间段可以为2021/2/1/15:30-2021/2/1/16:30格式，在此不做限制。对于每一个时间段，都预先设置有目标文档内容与之对应，所述时间段与所述目标文档内容间的映射关系可存储于预设数据库中。在一实施例中，考虑到数据存储的隐私性与私密性，所述预设数据库可以为区块链的目标节点。

可选地，所述将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本，得到目标问题文本集包括：

向量化处理所述问题文本，得到问题文本向量；

向量化处理所述目标文档内容，得到文档内容向量；

按照预设相关度计算模型计算所述问题文本向量与所述文档内容向量的相关度；

检测所述相关度是否超过预设相关度阈值；

当检测结果为所述相关度超过所述预设相关度阈值时，确定所述相关度超过所述预设相关度阈值的问题文本为目标问题文本；

组合所述目标问题文本，得到目标问题文本集。

其中，可以调用双塔模型对所述问题文本与所述目标文档内容的相关度进行分析，所述双塔模型分别对所述问题文本与所述目标文档内容进行向量化处理，得到问题文本向量与文档内容向量。所述预设相关度计算模型是指预先设置的用于计算两个向量间的相关度的数学模型，所述预设相关度计算模型的具体内容不做限制，可以为向量距离计算模型等。所述预设相关度阈值为预先设置的用于标识相关程度的阈值，例如，所述预设相关度阈值为0.5，当所述问题文本向量与所述文档内容向量的相关度超过0.5时，确定所述问题文本向量与所述文档内容向量相关；当所述问题文本向量与所述文档内容向量的相关度未超过0.5时，确定所述问题文本向量与所述文档内容向量不相关。

S14，聚类分析所述目标问题文本集中的每一所述目标问题文本，得到若干个问题簇。

在本申请的至少一实施例中，将所述目标问题文本集中的每一所述目标问题文本进行聚类分析，得到若干个问题簇，每一个问题簇中的问题文本的相似度较高，不同的问题簇中的问题文本间的相似度较低。本申请通过对目标问题文本进行聚类分析，得到若干问题簇，继而对每个问题簇进行问题重要性评估，优先解答重要性高的问题簇对应的目标问题文本，继而提高问答的效率。

可选地，所述聚类分析所述目标问题文本集中的每一所述目标问题文本，得到若干个问题簇包括：

从所述目标问题文本集中随机选取预设数量的第一目标问题文本，并将所述第一目标问题文本作为初始簇中心；

计算与所述初始簇中心的距离最近的第二目标问题文本，并由所述第一目标问题文本与所述第二目标问题文本组成所述初始簇中心对应的问题簇；

获取所述问题簇中所述第一目标问题文本与所述第二目标问题文本的问题文本均值，并将所述问题文本均值作为第一簇中心；

计算与所述第一簇中心的距离最近的第三目标问题文本，并更新所述问题文本均值与所述第三目标问题文本组成所述第一簇中心对应的问题簇；

重复上述步骤，得到目标问题文本均值作为目标簇中心，计算与所述目标簇中心的距离最近的第四目标问题文本，并更新所述目标问题文本均值与所述第四目标问题文本组成所述目标簇中心对应的目标问题簇。

其中，可调用K-means算法对所述目标问题文本集中的每一所述目标问题文本进行聚类分析，得到若干问题簇。所述预设数量为预先设置的初始簇中心的数量。

S15，计算每一所述问题簇的目标指标值，并按照预设数据格式组合所述目标指标值，得到每一所述问题簇对应的目标特征值。

在本申请的至少一实施例中，所述目标指标值可以包括但不限于所述问题簇的大小值、所述问题簇的平均长度、所述问题簇与预设文档内容的重合度、所述问题簇与所述预设文档内容的相似度以及所述问题簇的向量式。

可选地，所述计算每一所述问题簇的目标指标值包括：

计算每一所述问题簇的大小值；

计算每一所述问题簇的平均长度；

计算每一所述问题簇与预设文档内容的重合度；

计算每一所述问题簇与所述预设文档内容的相似度；

计算每一所述问题簇的向量式。

其中，所述计算每一所述问题簇的大小值也即包括：计算每一所述问题簇中包含的问题文本的数量。可以理解的是，所述问题簇中包含的问题文本的数量越大，说明该类问题被提问的频次越高，覆盖的学生人数越多。

其中，所述计算每一所述问题簇的平均长度也即包括：获取每一所述问题簇中包含的每一问题文本的长度；计算所述问题簇中所有问题文本的平均长度。可以理解的是，所述平均长度越小，说明该类问题越短，该类问题的问题难度越低。

其中，所述预设文档内容是指预先设置的与问答平台相关的文档内容，例如，所述预设文档内容可以为课堂备案文本。所述计算每一所述问题簇与预设文档内容的重合度也即包括：利用BLEU(q,D)模型度量所述问题簇与预设文档内容的重合度，其中，q表示所述问题簇中的问题文本，D表示预设文档内容。可以理解的是，当BLEU的分数越接近1，说明所述问题簇与预设文档内容的重合度越高；当BLEU的分数越远离1，说明所述问题簇与预设文档内容的重合度越低。

其中，所述计算每一所述问题簇与所述预设文档内容的相似度也即包括：利用BM25分数计算所述问题簇中的问题文本与所述预设文档内容的相似度。可以理解的是，当BM25分数越高，说明所述问题簇中的问题文本与所述预设文档内容的相似度越高；当BM25分数越低，说明所述问题簇中的问题文本与所述预设文档内容的相似度越低。

其中，所述计算每一所述问题簇的向量式也即包括：向量化处理每一所述问题簇中的问题文本，得到问题文本向量；将所述问题文本向量进行平均处理，得到所述问题簇的向量式。

可选地，所述按照预设数据格式组合所述目标指标值，得到每一所述问题簇对应的目标特征值包括：

向量化处理所述目标指标值，得到若干指标向量；

获取每一所述指标向量的排列顺序；

按照所述排列顺序拼接所述指标向量，得到目标特征值向量；

确定所述目标特征值向量中的向量元素作为目标特征值。

其中，所述目标指标值可以包括但不限于所述问题簇的大小值、所述问题簇的平均长度、所述问题簇与预设文档内容的重合度、所述问题簇与所述预设文档内容的相似度以及所述问题簇的向量式，将上述目标指标值进行向量化处理，分别得到向量形式的目标指标值，也称为指标向量。所述排列顺序是指预先设置的各个目标指标值的拼接顺序，在此不做限制。按照所述排列顺序拼接所述指标向量，得到目标特征值向量，所述目标特征值向量中包含的所有向量元素作为目标特征值。

在本申请的至少一实施例中，按照预设数据格式组合若干个所述目标指标值，得到每一所述问题簇对应的目标特征值，所述预设数据格式可以为预先设置的用于组合多个目标指标值的格式，在此不做限制。

S16，将所述目标特征值输入至预先训练好的重要程度计算模型中，得到每一所述问题簇对应的重要程度。

在本申请的至少一实施例中，所述重要程度计算模型用于计算每一所述问题簇对应的重要程度，所述重要程度可以通过字母或者数字的形式标识，例如，当所述重要程度通过字母形式标识时，可以设置字母A、B与C，其中，A的重要程度最高，C的重要程度最低。所述重要程度计算模型可以为Learning to Rank模型，在此不做限制。

S17，按照所述重要程度的顺序输出所述问题簇对应的答案。

在本申请的至少一实施例中，通过对目标问题文本进行聚类分析，得到若干问题簇，继而对每个问题簇进行问题重要性评估，优先解答重要性高的问题簇对应的目标问题文本，继而提高问答的效率。

可选地，所述按照所述重要程度的顺序输出所述问题簇对应的答案包括：

按照所述重要程度的顺序排列所述问题簇；

获取所述问题簇对应的目标关键词；

根据所述目标关键词遍历预先设置的关键词与答案之间的关联关系，得到所述目标关键词对应的答案；

按照所述重要程度的顺序输出所述答案。

其中，所述关键词与答案之间的关联关系可存储于所述预设数据库中。所述目标关键词是指所述问题簇中能够表明问题文本主旨的关键词，获取目标关键词的方式为现有技术，在此不做赘述。

在本申请的至少一实施例中，在所述按照所述重要程度的顺序输出所述答案之后，所述方法还包括：采集预设终端输出的最终答案，并检测所述最终答案与所述答案是否一致；当检测结果为所述最终答案与所述答案不一致时，将所述最终答案更新至预设数据库中，并调整预先设置的关键词与答案之间的关联关系。

本申请实施例提供的上述基于问答平台的数据处理方法，在采集到目标文本集后，调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本进行智能识别问题，继而针对问题文本快速匹配答案，能够在高频高并发的问答场景中提高数据处理效率；且通过文本的相关性识别，能够实现仅针对与目标文档内容相关的问题文本进行解答，避免对目标文档内容不相关的问题文本进行解答，能够提高问答的准确性；此外，本申请通过对目标问题文本进行聚类分析，得到若干问题簇，继而对每个问题簇进行问题重要性评估，优先解答重要性高的问题簇对应的目标问题文本，继而提高问答的效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中，比如智慧政务的基于问答平台的数据处理模块等，能够促进智慧城市的快速发展。

在一些实施例中，所述基于问答平台的数据处理装置20可以包括多个由计算机程序段所组成的功能模块。所述基于问答平台的数据处理装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)基于问答平台的数据处理的功能。

本实施例中，所述基于问答平台的数据处理装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：问题检测模块201、问题获取模块202、相关度计算模块203、聚类分析模块204、指标计算模块205、重要程度计算模块206以及答案输出模块207。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述问题检测模块201用于采集目标文本集，并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本。

所述问题获取模块202用于当检测结果为所述目标文本集中包含问题文本时，获取所述目标文本集中的问题文本，得到问题文本集。

所述相关度计算模块203用于获取所述问题文本集中每一问题文本对应的目标文档内容，并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本，得到目标问题文本集。

所述聚类分析模块204用于聚类分析所述目标问题文本集中的每一所述目标问题文本，得到若干个问题簇。

所述指标计算模块205用于计算每一所述问题簇的目标指标值，并按照预设数据格式组合所述目标指标值，得到每一所述问题簇对应的目标特征值。

所述重要程度计算模块206用于将所述目标特征值输入至预先训练好的重要程度计算模型中，得到每一所述问题簇对应的重要程度。

所述答案输出模块207用于按照所述重要程度的顺序输出所述问题簇对应的答案。

参阅图3所示，为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中，所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的计算机设备的结构并不构成本申请实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述计算机设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本申请，也应包含在本申请的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31中存储有计算机程序，所述计算机程序被所述至少一个处理器32执行时实现如所述的基于问答平台的数据处理方法中的全部或者部分步骤。示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。例如，图2中所述的各个模块是存储在所述存储器31中的计算机程序，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到基于大数据的信息处理的目的。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。所述计算机可读存储介质可以是非易失性，也可以是易失性。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中，所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit)，利用各种接口和线路连接整个计算机设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行计算机设备3的各种功能和处理数据。例如，所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的基于问答平台的数据处理方法的全部或者部分步骤；或者实现基于问答平台的数据处理装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述计算机设备3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，计算机设备，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

一种基于问答平台的数据处理方法，其中，所述基于问答平台的数据处理方法包括：

采集目标文本集，并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本；

当检测结果为所述目标文本集中包含问题文本时，获取所述目标文本集中的问题文本，得到问题文本集；

获取所述问题文本集中每一问题文本对应的目标文档内容，并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本，得到目标问题文本集；

聚类分析所述目标问题文本集中的每一所述目标问题文本，得到若干个问题簇；

计算每一所述问题簇的目标指标值，并按照预设数据格式组合所述目标指标值，得到每一所述问题簇对应的目标特征值；

将所述目标特征值输入至预先训练好的重要程度计算模型中，得到每一所述问题簇对应的重要程度；

按照所述重要程度的顺序输出所述问题簇对应的答案。
根据权利要求1所述的基于问答平台的数据处理方法，其中，在所述调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本之前，所述方法还包括：

获取携带预设问题标签的文本样本集，并拆分所述文本样本集为文本训练集与文本测试集，其中，所述预设问题标签用于标记所述文本样本集中的问题文本；

将所述文本训练集输入至初始神经网络模型中进行训练，得到问题检测模型；

将所述文本测试集输入至所述问题检测模型中，计算模型的准确率，并在所述准确率超过预设准确率阈值时，确定所述问题检测模型训练完成。
根据权利要求1所述的基于问答平台的数据处理方法，其中，所述获取所述问题文本集中每一问题文本对应的目标文档内容包括：

获取所述问题文本集中每一问题文本携带的时间戳；

确定所述时间戳对应的目标时间段；

根据所述目标时间段遍历预先设置的时间段与目标文档内容的映射关系，得到所述目标时间段对应的目标文档内容。
根据权利要求1所述的基于问答平台的数据处理方法，其中，所述将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本，得到目标问题文本集包括：

向量化处理所述问题文本，得到问题文本向量；

向量化处理所述目标文档内容，得到文档内容向量；

按照预设相关度计算模型计算所述问题文本向量与所述文档内容向量的相关度；

检测所述相关度是否超过预设相关度阈值；

当检测结果为所述相关度超过所述预设相关度阈值时，确定所述相关度超过所述预设相关度阈值的问题文本为目标问题文本；

组合所述目标问题文本，得到目标问题文本集。
根据权利要求1所述的基于问答平台的数据处理方法，其中，所述聚类分析所述目标问题文本集中的每一所述目标问题文本，得到若干个问题簇包括：

从所述目标问题文本集中随机选取预设数量的第一目标问题文本，并将所述第一目标问题文本作为初始簇中心；

计算与所述初始簇中心的距离最近的第二目标问题文本，并由所述第一目标问题文本与所述第二目标问题文本组成所述初始簇中心对应的问题簇；

获取所述问题簇中所述第一目标问题文本与所述第二目标问题文本的问题文本均值，并将所述问题文本均值作为第一簇中心；

计算与所述第一簇中心的距离最近的第三目标问题文本，并更新所述问题文本均值与所述第三目标问题文本组成所述第一簇中心对应的问题簇；

重复上述步骤，得到目标问题文本均值作为目标簇中心，计算与所述目标簇中心的距离最近的第四目标问题文本，并更新所述目标问题文本均值与所述第四目标问题文本组成所述目标簇中心对应的目标问题簇。
根据权利要求1所述的基于问答平台的数据处理方法，其中，所述按照预设数据格式组合所述目标指标值，得到每一所述问题簇对应的目标特征值包括：

向量化处理所述目标指标值，得到若干指标向量；

获取每一所述指标向量的排列顺序；

按照所述排列顺序拼接所述指标向量，得到目标特征值向量；

确定所述目标特征值向量中的向量元素作为目标特征值。
根据权利要求1所述的基于问答平台的数据处理方法，其中，所述按照所述重要程度的顺序输出所述问题簇对应的答案包括：

按照所述重要程度的顺序排列所述问题簇；

获取所述问题簇对应的目标关键词；

根据所述目标关键词遍历预先设置的关键词与答案之间的关联关系，得到所述目标关键词对应的答案；

按照所述重要程度的顺序输出所述答案。
一种基于问答平台的数据处理装置，其中，所述基于问答平台的数据处理装置包括：

问题检测模块，用于采集目标文本集，并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本；

问题获取模块，用于当检测结果为所述目标文本集中包含问题文本时，获取所述目标文本集中的问题文本，得到问题文本集；

相关度计算模块，用于获取所述问题文本集中每一问题文本对应的目标文档内容，并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本，得到目标问题文本集；

聚类分析模块，用于聚类分析所述目标问题文本集中的每一所述目标问题文本，得到若干个问题簇；

指标计算模块，用于计算每一所述问题簇的目标指标值，并按照预设数据格式组合所述目标指标值，得到每一所述问题簇对应的目标特征值；

重要程度计算模块，用于将所述目标特征值输入至预先训练好的重要程度计算模型中，得到每一所述问题簇对应的重要程度；

答案输出模块，用于按照所述重要程度的顺序输出所述问题簇对应的答案。
一种计算机设备，其中，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机可读指令以实现以下步骤：

采集目标文本集，并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本；

当检测结果为所述目标文本集中包含问题文本时，获取所述目标文本集中的问题文本，得到问题文本集；

获取所述问题文本集中每一问题文本对应的目标文档内容，并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本，得到目标问题文本集；

聚类分析所述目标问题文本集中的每一所述目标问题文本，得到若干个问题簇；

计算每一所述问题簇的目标指标值，并按照预设数据格式组合所述目标指标值，得到每一所述问题簇对应的目标特征值；

将所述目标特征值输入至预先训练好的重要程度计算模型中，得到每一所述问题簇对应的重要程度；

按照所述重要程度的顺序输出所述问题簇对应的答案。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令以实现在所述调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本之前，还包括：

获取携带预设问题标签的文本样本集，并拆分所述文本样本集为文本训练集与文本测试集，其中，所述预设问题标签用于标记所述文本样本集中的问题文本；

将所述文本训练集输入至初始神经网络模型中进行训练，得到问题检测模型；

将所述文本测试集输入至所述问题检测模型中，计算模型的准确率，并在所述准确率超过预设准确率阈值时，确定所述问题检测模型训练完成。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令以实现所述获取所述问题文本集中每一问题文本对应的目标文档内容时，包括：

获取所述问题文本集中每一问题文本携带的时间戳；

确定所述时间戳对应的目标时间段；

根据所述目标时间段遍历预先设置的时间段与目标文档内容的映射关系，得到所述目标时间段对应的目标文档内容。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令以实现所述将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本，得到目标问题文本集时，包括：

向量化处理所述问题文本，得到问题文本向量；

向量化处理所述目标文档内容，得到文档内容向量；

按照预设相关度计算模型计算所述问题文本向量与所述文档内容向量的相关度；

检测所述相关度是否超过预设相关度阈值；

当检测结果为所述相关度超过所述预设相关度阈值时，确定所述相关度超过所述预设相关度阈值的问题文本为目标问题文本；

组合所述目标问题文本，得到目标问题文本集。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令以实现所述聚类分析所述目标问题文本集中的每一所述目标问题文本，得到若干个问题簇时，包括：

从所述目标问题文本集中随机选取预设数量的第一目标问题文本，并将所述第一目标问题文本作为初始簇中心；

计算与所述初始簇中心的距离最近的第二目标问题文本，并由所述第一目标问题文本与所述第二目标问题文本组成所述初始簇中心对应的问题簇；

获取所述问题簇中所述第一目标问题文本与所述第二目标问题文本的问题文本均值，并将所述问题文本均值作为第一簇中心；

计算与所述第一簇中心的距离最近的第三目标问题文本，并更新所述问题文本均值与所述第三目标问题文本组成所述第一簇中心对应的问题簇；

重复上述步骤，得到目标问题文本均值作为目标簇中心，计算与所述目标簇中心的距离最近的第四目标问题文本，并更新所述目标问题文本均值与所述第四目标问题文本组成所述目标簇中心对应的目标问题簇。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令以实现所述按照预设数据格式组合所述目标指标值，得到每一所述问题簇对应的目标特征值时，包括：

向量化处理所述目标指标值，得到若干指标向量；

获取每一所述指标向量的排列顺序；

按照所述排列顺序拼接所述指标向量，得到目标特征值向量；

确定所述目标特征值向量中的向量元素作为目标特征值。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令以实现所述按照所述重要程度的顺序输出所述问题簇对应的答案时，包括：

按照所述重要程度的顺序排列所述问题簇；

获取所述问题簇对应的目标关键词；

根据所述目标关键词遍历预先设置的关键词与答案之间的关联关系，得到所述目标关键词对应的答案；

按照所述重要程度的顺序输出所述答案。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其中，所述计算机可读指令被处理器执行时实现以下步骤：

采集目标文本集，并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本；

当检测结果为所述目标文本集中包含问题文本时，获取所述目标文本集中的问题文本，得到问题文本集；

获取所述问题文本集中每一问题文本对应的目标文档内容，并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本，得到目标问题文本集；

聚类分析所述目标问题文本集中的每一所述目标问题文本，得到若干个问题簇；

计算每一所述问题簇的目标指标值，并按照预设数据格式组合所述目标指标值，得到每一所述问题簇对应的目标特征值；

将所述目标特征值输入至预先训练好的重要程度计算模型中，得到每一所述问题簇对应的重要程度；

按照所述重要程度的顺序输出所述问题簇对应的答案。
根据权利要求16所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行以实现在所述调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本之前，还包括：

获取携带预设问题标签的文本样本集，并拆分所述文本样本集为文本训练集与文本测试集，其中，所述预设问题标签用于标记所述文本样本集中的问题文本；

将所述文本训练集输入至初始神经网络模型中进行训练，得到问题检测模型；

将所述文本测试集输入至所述问题检测模型中，计算模型的准确率，并在所述准确率超过预设准确率阈值时，确定所述问题检测模型训练完成。
根据权利要求16所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行以实现所述获取所述问题文本集中每一问题文本对应的目标文档内容时，包括：

获取所述问题文本集中每一问题文本携带的时间戳；

确定所述时间戳对应的目标时间段；

根据所述目标时间段遍历预先设置的时间段与目标文档内容的映射关系，得到所述目标时间段对应的目标文档内容。
根据权利要求16所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行以实现所述将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本，得到目标问题文本集时，包括：

向量化处理所述问题文本，得到问题文本向量；

向量化处理所述目标文档内容，得到文档内容向量；

按照预设相关度计算模型计算所述问题文本向量与所述文档内容向量的相关度；

检测所述相关度是否超过预设相关度阈值；

当检测结果为所述相关度超过所述预设相关度阈值时，确定所述相关度超过所述预设相关度阈值的问题文本为目标问题文本；

组合所述目标问题文本，得到目标问题文本集。
根据权利要求16所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行以实现所述聚类分析所述目标问题文本集中的每一所述目标问题文本，得到若干个问题簇时，包括：

从所述目标问题文本集中随机选取预设数量的第一目标问题文本，并将所述第一目标问题文本作为初始簇中心；

计算与所述初始簇中心的距离最近的第二目标问题文本，并由所述第一目标问题文本与所述第二目标问题文本组成所述初始簇中心对应的问题簇；

获取所述问题簇中所述第一目标问题文本与所述第二目标问题文本的问题文本均值，并将所述问题文本均值作为第一簇中心；

计算与所述第一簇中心的距离最近的第三目标问题文本，并更新所述问题文本均值与所述第三目标问题文本组成所述第一簇中心对应的问题簇；

重复上述步骤，得到目标问题文本均值作为目标簇中心，计算与所述目标簇中心的距离最近的第四目标问题文本，并更新所述目标问题文本均值与所述第四目标问题文本组成所述目标簇中心对应的目标问题簇。