WO2023045725A1

WO2023045725A1 - 用于数据集创建的方法、电子设备和计算机程序产品

Info

Publication number: WO2023045725A1
Application number: PCT/CN2022/116381
Authority: WO
Inventors: 张欣勃; 袁莉萍; 周浩
Original assignee: 北京有竹居网络技术有限公司
Priority date: 2021-09-26
Filing date: 2022-08-31
Publication date: 2023-03-30
Also published as: CN113806489A

Abstract

提供了用于数据集创建的方法、设备、装置和介质。方法包括获取一组第一前提语句以及与一组第一前提语句相关联的一组第二前提语句（S410）；生成与一组第一前提语句和一组第二前提语句相关联的多个结论语句（S420）；以及至少基于一组第一前提语句、一组第二前提语句与多个结论语句确定目标数据集（S430）。以此方式得到的数据集模型能够解决自然语言推理方面数据集缺乏的问题，从而使得基于此数据集训练的语言模型能够具备推理的能力而非基于简单的规则模式，因此使得经训练的语言模型的性能更加优化。

Description

用于数据集创建的方法、电子设备和计算机程序产品

相关申请的交叉引用

本申请要求2021年9月26日递交的，标题为“用于数据集创建的方法、电子设备和计算机程序产品”、申请号为CN202111130224.0的中国发明专利申请的优先权。

技术领域

本公开的实施例一般地涉及数据处理系统，并且更特别地，涉及一种用于数据集创建的方法、电子设备和计算机程序产品。

背景技术

利用外部知识系统进行推理是人工智能多年来致力于追求的方向。常见的做法是将自然语言进行语义解析，再利用形式逻辑进行推理。这种做法中存在语义解析带来的错误传播以及形式逻辑的表达能力有限的问题。

迄今为止，尚未有工作提出基于自然语言的推理生成任务，因此与自然语言推理方面相关的数据集是缺乏的。然而，自然语言推理在针对语言模型的训练方面的意义十分重要。

发明内容

根据本公开的示例实施例，提供了一种用于数据集创建的方案。

在本公开的第一方面，提供了一种由计算机实现的方法。该方法包括获取一组第一前提语句以及与所述一组第一前提语句相关联的一组第二前提语句；生成与所述一组第一前提语句和所述一组第二前提语句相关联的多个结论语句，所述多个结论语句指示所述一组第一前提语句和所述一组第二前提语句之间的相关性；以及至少基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句确定目标数据集。

在本公开的第二方面，提供了一种电子设备。该设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行以下动作：获取一组第一前提语句以及与所述一组第一前提语句相关联的一组第二前提语句；生成与所述一组第一前提语句和所述一组第二前提语句相关联的多个结论语句，所述多个结论语句指示所述一组第一前提语句和所述一组第二前提语句之间的相关性；以及至少基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句确定目标数据集。

在本公开的第三方面，提供了一种用于数据集创建的装置。该装置包括：获取模块，被配置为获取一组第一前提语句以及与所述一组第一前提语句相关联的一组第二前提语句；生成模块，被配置为生成与所述一组第一前提语句和所述一组第二前提语句相关联的多个结论语句，所述多个结论语句指示所述一组第一前提语句和所述一组第二前提语句之间的相关性；以及确定模块，被配置为至少基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句确定目标数据集。

在本公开的第四方面，提供了一种计算机可读存储介质。介质上存储有计算机程序，程序被处理器执行时实现第一方面的方法。

应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施例，其中：

图1示出了本公开的实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的创建数据集的过程的示意图；

图3示出了根据本公开的一些实施例的创建数据集的过程的示意图；

图4示出了根据本公开的一些实施例的创建数据集的过程的流程图；

图5示出了根据本公开的一些实施例的创建数据集的装置的框图；以及

图6示出了能够实施本公开的多个实施例的设备的框图。

贯穿所有附图，相同或者相似的参考标号被用来表示相同或者相似的组件。

具体实施方式

下面将参考附图中所示出的若干示例性实施例来描述本公开的原理和精神。应当理解，描述这些具体的实施例仅是为了使本领域的技术人员能够更好地理解并实现本公开，而并非以任何方式限制本公开的范围。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。

“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而增加网络的深度。神经网络的各个层按顺序相连，从而前一层的输出被提供作为后一层的输入，其中输入层接收神经网络的输入，而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。

通常，机器学习大致可以包括三个阶段，即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段，给定的模型可以使用大量的训练数据进行训练，不断迭代更新参数值，直到模型能够从训练数据中获取一致的满足预期目标的推理。通过训练，模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段，将测试输入应用到训练后的模型，测试模型是否能够提供正确的输出，从而确定模型的性能。在应用阶段，模型可以被用于基于训练得到的参数值，对实际的输入进行处理，确定对应的输出。

上文已经提到，利用外部知识系统进行推理是人工智能多年来致力于追求的方向。常见的做法是将自然语言进行语义解析，再利用形式逻辑进行推理。这种做法中存在语义解析带来的错误传播以及形式逻辑的表达能力有限的问题。

迄今为止，尚未有工作提出基于自然语言的推理生成任务。一些目前存在的数据集提出了在问答任务中，生成推理过程的任务。这类数据集给定多个事实和规则、问题以及候选答案，需要回答出正确的答案以及写出整个推理过程。

然而，这类的数据集涉及到的推理能力仅仅涉及简单的规则模式。建立在这些数据集上模型训练或机器学习网络的并不是真正的学习到了推理能力，而只是学习到一些简单的规则模式。

基于此，当前与自然语言推理方面相关的数据集是缺乏的。然而，自然语言推理在针对语言模型的训练方面的意义十分重要。

示例环境

图1示出了本公开的实施例能够在其中实现的示例环境的示意图。

如图1所示，示例环境100可以包括计算设备110。该计算设备110可以执行对于数据的处理。对数据的处理例如可以包括数据采集、数据分析、数据片段提取、数据片段变换、数据筛选以及数据集生成等操作。

计算设备110可以从知识库120中获取、查找或搜索目标数据。例如，当计算设备110旨在建立基于自然语言的数据集的过程中。计算设备110可以从知识库120获取多个自然语言语句作为计算设备110所收集的数据。计算设备110例如也可以基于某些特定语句元素而在知识库120中搜索所需的目标数据。

此外，计算设备110例如还可以对所收集的数据进行分类、变换、筛选或标注。

计算设备110可以基于所处理的数据生成所需的数据集。所生成的数据集可以由计算设备110发送至语言训练模型130处作为语言训练模型130的输入，从而实现对于语言训练模型130的基于该数据集实现所期望的学习效果。

应当理解，图1的示例环境110中的示出的计算设备110可以是能够进行数据处理的任意计算设备，包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。

应当理解，图1示出的环境中的部件和布置仅是示例，适于用于实现本公开所描述的示例实施例的计算系统可以包括一个或多个不同的部件、其他部件和/或不同的布置方式。例如，虽然被示出为是分离的，但计算设备110和语言训练模型130可以集成在相同系统或设备。本公开的实施例在此方面不受限制。

以下将继续参考附图，分别描述示例实施例。

数据集的创建

根据本公开的实施例，提出了一种用于数据集创建的方案。根据该方案，在创建数据集的过程中，计算设备110可以获取一组第一前提语句以及与所述一组第一前提语句相关联的一组第二前提语句。计算设备110还可以生成与所述一组第一前提语句和所述一组第二前提语句相关联的多个结论语句。该多个结论语句指示所述一组第一前提语句和所述一组第二前提语句之间的相关性。计算设备110还可以至少基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句确定目标数据集。

图2示出了根据本公开的一些实施例的创建数据集的过程的示意图。

如图2所示，计算设备110可以获取一个或多个第一前提语句210。该第一前提语句210例如可以是自然语言语句。计算设备110可以从自然语言知识库中获取到该获取一个或多个第一前提语句210。

计算设备110还可以获取与一个或多个第一前提语句210相关联的相应的第二前提语句220。应当理解，针对相同的第一前提语句210可以获取一个或多个第二前提语句220。该第二前提语句210例如可以是自然语言语句。

在一些实施例中，计算设备110可以从一个或多个第一前提语句210提取任意语段作为关键词。基于该关键词和一个或多个第一前提语句210的语义，计算设备110可以从自然语言知识库中搜索与第一前提语句具有相关性的自然语言语句作为第二前提语句。

例如，第一前提语句为“在食物链过程中，绿色植物作为生产者的角色可以为消费者提供食物”。如果以“绿色植物”作为所提取的关键词，第二前提语句可以是“绿色植物通过光合作用为消费者提供食物”。

应当理解，针对从第一前提语句中所提取的不同关键词，计算设备110所获取的第二前提语句可能不同。还应当理解，针对从第一前提语句中所提取的同一关键词，计算设备110也可以获取到多个不同的第二前提语句。

基于所获取的一个或多个第一前提语句210和与一个或多个第一前提语句210相关联的相应的第二前提语句220，计算设备110可以生成与该第一前提语句和第二前提语句相关联的多个结论语句。该结论语句可以指示一个或多个第一前提语句中的一个第一前提语句和一个或多个第二前提语句中的相应第二前提语句之间的相关性。

仍以在上文中描述的示例为例。如果第一前提语句为“在食物链过程中，绿色植物作为生产者的角色可以为消费者提供食物”，而第二前提语句是“绿色植物通过光合作用为消费者提供食物”。计算设备120所生成的结论语句可以是“在食物链过程中，绿色植物通过光合作用而被作为生产者的角色”。

在一些实施例中，该结论语句例如可以通过一组参考前提语句之间的关联关系来给出。该关联关系例如可以涉及预先训练好的用于表征多个前提语句之间相关性的模型。由计算设备110获取到的第一前提语句和与该第一前提语句相关联的第二前提语句可以作为该模型的输入，该模型的输出可以是用于指示第一前提语句和与该第一前提语句相关联的第二前提语句之间的相关性的结论语句。

在一些实施例中，也可以通过人工标注的方式而使得计算设备110确定用于指示所获取的一个或多个第一前提语句210和与一个或多个第一前提语句210相关联的相应的第二前提语句220之间的相应相关性的结论语句。该结论语句例如可以被输入到计算设备110。

基于第一前提语句210、与该第一前提语句210相关联的第二前提语句220以及用于指示该第一前提语句210和第二前提语句220之间的相关性的结论语句，计算设备110可以确定要生成的数据集中的其中一个数据条目。该数据条目例如可以具有如下格式：<提前1、前提2、结论>。

在一些实施例中，如果基于第一前提语句210和与该第一前提语句210相关联的第二前提语句220可以得到结论语句，则在上述格式中的结论字段处标注用于描述指示该第一前提语句210和第二前提语句220之间的相关性的结论的语句。

在一些实施例中，如果基于第一前提语句210和与该第一前提语句210相关联的第二前提语句220无法得到结论语句，则在上述格式中的结论字段处标注“无有效结论”。

以此方式，计算设备110可以根据由一个或多个第一前提语句210、与一个或多个第一前提语句210相关联的相应的第二前提语句220以及相对应的结论语句来生成数据集，该数据集可以包括多个数据条目，每个数据条目均由一个第一前提语句，与该第一前提语句相关联的第二前提语句以及用于指示该第一前提语句和第二前提语句之间的相关性的结论语句组成。

例如，如图2所示，由计算设备110所生成的数据集230可以包括条目231至23N。如果可以推理出第一前提语句和第二前提语句的结论，则可以如在图2中示出的条目231那样，在结论语句字段处标识出具体的结论。而如果无法推理出第一前提语句和第二前提语句的结论，则可以如在图2中示出的条目232那样，在结论语句字段处标识出“无有效结论”。

应当理解，数据集230可以包括任意数目的数据条目，而不限于在图2中所示出的示例。

在一些实施例中，在结合图2描述的创建数据集的过程中生成的数据集可以被视作计算设备110所生成的初始数据集。该数据集可以被用作对自然语言模型进行训练的训练数据集。然而，为了进一步增加推理的复杂性以使得自然语言模型能够被更加完善的训练，可以对该初始数据集进行进一步优化。

图3示出了根据本公开的一些实施例的创建数据集的过程的示意图。

为了对初始数据集进行优化，计算设备110可以移除结论语句字段被标注为“无有效结论”的数据条目。此外，为了增加推理的复杂度，计算设备110可以对具有有效结论，即在结论语句字段处标注有具体结论的数据条目进行变换。

在一些实施例中，对数据条目进行变换可以包括对第一前提语句和第二前提语句中的至少一项进行变换。

在一些实施例中，对上述第一前提语句和第二前提语句所进行的变换可以包括对第一前提语句和第二前提语句中的至少一项中的特定语段进行变换来实现。

在一些实施例中，特定语段可以涉及第一前提语句和第二前提语句中的中项。在本申请中的术语“中项”涉及逻辑学上三段论的概念。三段论推理是演绎推理中的一种简单判断推理。它包含两个直言命题构成的前提(即上文中描述的第一前提语句和第二前提语句)，和一个直言命题构成的结论。一个正确的三段论有且仅有三个词项，其中联系第一前提语句和第二前提语句的词项叫中项，在前提中可以出现两次。

在一些实施例中，对第一前提语句和第二前提语句中的至少一项中的特定语段进行的变换可以包括同义语段替换、反义语段替换、上位语段替换、下位语段替换、否定语段替换、双重否定语段替换、以及反向翻译语段替换中的至少一种。

在一些实施例中，同义语段替换、反义语段替换、上位语段替换、下位语段替换可以基于在上文中提及的第一前提语句和第二前提语句中的中项来操作。例如，对于每个中项，先进行语义消歧找到其在词库，例如“wordnet”，中对应的词义项，然后找到相应的变换词，最后再进行语法纠错。

在一些实施例中，否定语段替换、双重否定语段替换、以及反向翻译语段替换可以利用一些语言变换工具，例如TextFlint工具包进行变换。

如图3所示，例如可以对具有有效结论的数据条目231进行变换生成数据条目231’和数据条目231”。数据条目231’例如可以包括经变换的第一前提语句，原始第二前提语句以及结论。而数据条目 231”例如可以包括原始第一前提语句、经变换的第二前提语句以及结论。

在一些实施例中，可能出现的是，在对第一前提语句或第二前提语句中的至少一项进行变换后，无法得出有效结论。因此经处理的原始数据条目的结论语句字段可以被标注为“无有效结论”。

在一些实施例中，如果经处理的数据条目的结论语句字段存在具体结论，也可以比较该经处理的数据条目的结论语句字段中描述的结论与原始数据条目的结论语句字段中描述的结论是否一致。

经过对初始数据集130的进一步处理，如图3所示，计算设备110可以生成数据集330，该数据集可以包括初始数据集中的数据条目231和232，以及经过对原始数据条目231进行处理而获得的数据条目231’和数据条目231”。

本公开的实施例所描述的方案基于自然语言的推理。自然逻辑具有比形式逻辑更丰富的表达能力，如它能够表示概率、数量等问题。同时，利用大规模预训练的语言模型，也可以在推理中结合常识信息。

此外，为了增加数据集难度，对数据集中的每条数据的前提进行微小的扰动，迫使相似的前提却推出完全不同的结论，从而避免模型学习到简单的规则模式。

以此方式得到的数据集模型能够解决自然语言推理方面数据集缺乏的问题，从而使得基于此数据集训练的语言模型能够具备推理的能力而非基于简单的规则模式，因此使得经训练的语言模型的性能更加优化。

在一些实施例中，还可以对已经生成的数据集中的数据条目进行校验。例如将第一前提语言和第二前提语言多次输入或输入至不同的用于表征前提语言之间的关联关系的模型中。如果多次校验所得到的与第一前提语言和第二前提语言相关联的结论的偏差小于阈值偏差，则将该数据条目视作有效条目。如果多次校验所得到的与第一前提语言和第二前提语言相关联的结论的偏差大于阈值偏差，则将该数据条目移除出数据集。

同样的，在一些实施例中，上述校验过程也可以通过人工标注的方式来实现。例如可以判断数据条目中的结论是否正确。如果将数据条目的结论判断为正确的校验者的人数与总校验者的比例大于阈值比例，则将该数据条目视作有效条目。反正则将该数据条目移除出数据集。

在一些实施例中，为了评估模型生成结论的质量，可以为数据集中的每个数据条目提供机器生成的结论并进行人工标注生成结论是否正确。利用这些数据精调模型，例如BLEURT模型，可以得到一个评估器来对模型的生成结果进行评估。以此方式，能够考虑到推理结果的多样性，避免了基于单词重叠的评估方法难以评估模型生成结论的好坏的弊端。

示例过程

图4示出了根据本公开的一些实施例的用于文档与摘要的一致性检测的过程400的流程图。过程400可以被实现在图1中示出的计算设备110处。

在框410，获取一组第一前提语句以及与所述一组第一前提语句相关联的一组第二前提语句。

在一些实施例中，在获取所述一组第二前提语句时，可以提取所述一组第一前提语句中的各一个关键词；以及基于所述各一个关键词和所述一组第一前提语句的语义获取所述一组第二前提语句。

在框420，生成与所述一组第一前提语句和所述一组第二前提语句相关联的多个结论语句。该多个结论语句指示所述一组第一前提语句和所述一组第二前提语句之间的相关性。

在一些实施例中，在生成结论语句时，可以获取一组参考前提语句之间的关联关系。如果确定基于所述关联关系成功地推断出所述一组第一前提语句中的第一部分第一前提语句和所述一组第二前提语句中的第一部分第二前提语句之间的相关性，则生成用于描述所述相关性的结论语句。

在一些实施例中，在生成结论语句时，如果确定基于所述关联关系未成功地推断出所述一组第一前提语句中的第二部分第一前提语句和所述一组第二前提语句中的第二部分第二前提语句之间的相关性，则生成所述相关性不具备有效结论的指示。

在框430，至少基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句确定目标数据集。

在一些实施例中，在确定目标数据集时，如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断，对所述第一目标前提语句进行变化。生成指示经变化的第一目标前提语句和所述第二目标前提语句之间的相关性的结论语句。基于经变化的第一目标前提语句、所述第二目标前提语句以及所述结论语句确定所述目标数据集。

在一些实施例中，在确定目标数据集时，如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断，对所述第二目标前提语句进行变化。生成指示所述第一目标前提语句和经变化的第二目标前提语句之间的相关性的结论语句。基于所述第一目标前提语句、所述经变化的第二目标前提语句以及所述结论语句确定所述目标数据集。

在一些实施例中，在确定目标数据集时，如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断，对所述第一目标前提语句和所述第二目标前提语句进行变化。生成指示经变化的第一目标前提语句和经变化的第二目标前提语句之间的相关性的结论语句。基于所述经变化的第一目标前提语句、所述经变化第二目标前提语句以及所述结论语句确定所述目标数据集。

在一些实施例中，在对所述第一目标前提语句和第二目标前提语句中的至少一项进行变化时，对所述目标变换语段执行以下操作中的至少一项：同义语段替换；反义语段替换；上位语段替换；下位语段替换；否定语段替换；双重否定语段替换；以及反向翻译语段替换。

在一些实施例中，在确定目标数据集时，对基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句生成的初始数据集进行校验；如果确定所述多个结论语句中的部分结论语句出现错误，通过删除所述出现错误的部分结论语句和与所述出现错误的部分结论语句相关联的所述一组第一前提语句的相应部分和所述一组第二前提语句的相应部分来更新所述初始数据集；以及将经更新的初始数据集确定为所述目标数据集。

在一些实施例中，所述一组第一前提语句和所述一组第二前提语句包括自然语言语句。

示例装置和设备

图5示出了根据本公开的一些实施例的用于数据集创建的装置500的框图。装置500可以被实现为或者被包括在图1中示出的计算设备110中。装置500中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如图所示，装置500包括获取模块510，被配置为获取一组第一前提语句以及与所述一组第一前提语句相关联的一组第二前提语句。装置500还包括生成模块520，被配置为生成与所述一组第一前提语句和所述一组第二前提语句相关联的多个结论语句，所述多个结论语句指示所述一组第一前提语句和所述一组第二前提语句之间的相关性。装置500还包括确定模块，被配置为至少基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句确定目标数据集。

在一些实施例中，获取模块510包括：关键词提取模块，被配置为提取所述一组第一前提语句中的各一个关键词；以及第二前提语句获取模块，被配置为基于所述各一个关键词和所述一组第一前提语句的语义获取所述一组第二前提语句。

在一些实施例中，生成模块520包括关联关系获取模块，被配置为获取一组参考前提语句之间的关联关系；以及第一结论语句生成模块，被配置为如果确定基于所述关联关系成功地推断出所述一组第一前提语句中的第一部分第一前提语句和所述一组第二前提语句中的第一部分第二前提语句之间的相关性，则生成用于描述所述相关性的结论语句。

在一些实施例中，生成模块520还包括第二结论语句生成模块，被配置为如果确定基于所述关联关系未成功地推断出所述一组第一前提语句中的第二部分第一前提语句和所述一组第二前提语句中的第二部分第二前提语句之间的相关性，则生成所述相关性不具备有效结论的指示。

在一些实施例中，确定模块还被配置为如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断，对所述第一目标前提语句进行变化。生成指示经变化的第一目标前提语句和所述第二目标前提语句之间的相关性的结论语句。基于经变化的第一目标前提语句、所述第二目标前提语句以及所述结论语句确定所述目标数据集。

在一些实施例中，确定模块还被配置为如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断，对所述第二目标前提语句进行变化。生成指示所述第一目标前提语句和经变化的第二目标前提语句之间的相关性的结论语句。基于所述第一目标前提语句、所述经变化的第二目标前提语句以及所述结论语句确定所述目标数据集。

在一些实施例中，确定模块还被配置为如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断，对所述第一目标前提语句和所述第二目标前提语句进行变化。生成指示经变化的第一目标前提语句和经变化的第二目标前提语句之间的相关性的结论语句。基于所述经变化的第一目标前提语句、所述经变化第二目标前提语句以及所述结论语句确定所述目标数据集。

在一些实施例中，装置500还可以包括变化模块，被配置为在对所述第一目标前提语句和第二目标前提语句中的至少一项进行变化时，对所述目标变换语段执行以下操作中的至少一项：同义语段替换；反义语段替换；上位语段替换；下位语段替换；否定语段替换；双重否定语段替换；以及反向翻译语段替换。

在一些实施例中，确定模块还被配置为对基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句生成的初始数据集进行校验；如果确定所述多个结论语句中的部分结论语句出现错误，通过删除所述出现错误的部分结论语句和与所述出现错误的部分结论语句相关联的所述一组第一前提语句的相应部分和所述一组第二前提语句的相应部分来更新所述初始数据集；以及将经更新的初始数据集确定为所述目标数据集。

图6示出了示出了其中可以实施本公开的一个或多个实施例的计算设备600的框图。应当理解，图6所示出的计算设备600仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。图6所示出的计算设备600可以用于实现图1的计算设备110。

如图6所示，计算设备600是通用计算设备的形式。计算设备600的组件可以包括但不限于一个或多个处理器或处理单元610、存储器620、存储设备630、一个或多个通信单元640、一个或多个输入设备650以及一个或多个输出设备660。处理单元610可以是实际或虚拟处理器并且能够根据存储器620中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备600的并行处理能力。

计算设备600通常包括多个计算机存储介质。这样的介质可以是计算设备600可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器620可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备630可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备600内被访问。

计算设备600可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图6中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器620可以包括计算机程序产品625，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元640实现通过通信介质与其他计算设备进行通信。附加地，计算设备600的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备600可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备650可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备660可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备600还可以根据需要通过通信单元640与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备600交互的设备进行通信，或者与使得计算设备600与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims

一种由计算机实现的方法，包括：

获取一组第一前提语句以及与所述一组第一前提语句相关联的一组第二前提语句；

生成与所述一组第一前提语句和所述一组第二前提语句相关联的多个结论语句，所述多个结论语句指示所述一组第一前提语句和所述一组第二前提语句之间的相关性；以及

至少基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句确定目标数据集。
根据权利要求1所述的方法，其中获取所述一组第二前提语句包括：

提取所述一组第一前提语句中的各一个关键词；以及

基于所述各一个关键词和所述一组第一前提语句的语义获取所述一组第二前提语句。
根据权利要求1所述的方法，其中生成所述结论语句包括：

获取一组参考前提语句之间的关联关系；以及

如果确定基于所述关联关系成功地推断出所述一组第一前提语句中的第一部分第一前提语句和所述一组第二前提语句中的第一部分第二前提语句之间的相关性，则生成用于描述所述相关性的结论语句。
根据权利要求3所述的方法，还包括：

如果确定基于所述关联关系未成功地推断出所述一组第一前提语句中的第二部分第一前提语句和所述一组第二前提语句中的第二部分第二前提语句之间的相关性，则生成所述相关性不具备有效结论的指示。
根据权利要求1所述的方法，其中确定所述目标数据集包括：

如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断，对所述第一目标前提语句进行变化；

生成指示经变化的第一目标前提语句和所述第二目标前提语句之间的相关性的结论语句；以及

基于经变化的第一目标前提语句、所述第二目标前提语句以及所述结论语句确定所述目标数据集。
根据权利要求1所述的方法，其中确定所述目标数据集包括：

如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断，对所述第二目标前提语句进行变化；

生成指示所述第一目标前提语句和经变化的第二目标前提语句之间的相关性的结论语句；以及

基于所述第一目标前提语句、所述经变化的第二目标前提语句以及所述结论语句确定所述目标数据集。
根据权利要求1所述的方法，其中确定所述目标数据集包括：

如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断，对所述第一目标前提语句和所述第二目标前提语句进行变化；

生成指示经变化的第一目标前提语句和经变化的第二目标前提语句之间的相关性的结论语句；以及

基于所述经变化的第一目标前提语句、所述经变化第二目标前提语句以及所述结论语句确定所述目标数据集。
根据权利要求5至7中任一项所述的方法，其中对所述第一目标前提语句和第二目标前提语句中的至少一项进行变化包括：

从所述第一目标前提语句和第二目标前提语句中的至少一项所包含的语段中确定可变换语义的目标变换语段；

对所述目标变换语段执行以下操作中的至少一项：

同义语段替换；

反义语段替换；

上位语段替换；

下位语段替换；

否定语段替换；

双重否定语段替换；以及

反向翻译语段替换。
根据权利要求1所述的方法，其中确定所述目标数据集包括：

对基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句生成的初始数据集进行校验；

如果确定所述多个结论语句中的部分结论语句出现错误，通过删除所述出现错误的部分结论语句和与所述出现错误的部分结论语句相关联的所述一组第一前提语句的相应部分和所述一组第二前提语句的相应部分来更新所述初始数据集；以及

将经更新的初始数据集确定为所述目标数据集。
根据权利要求1所述的方法，其中所述一组第一前提语句和所述一组第二前提语句包括自然语言语句。
一种电子设备，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述设备执行以下动作：

获取一组第一前提语句以及与所述一组第一前提语句相关联的一组第二前提语句；

生成与所述一组第一前提语句和所述一组第二前提语句相关联的多个结论语句，所述多个结论语句指示所述一组第一前提语句和所述一组第二前提语句之间的相关性；以及

至少基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句确定目标数据集。
根据权利要求11所述的设备，其中获取所述一组第二前提语句包括：

提取所述一组第一前提语句中的各一个关键词；以及

基于所述各一个关键词和所述一组第一前提语句的语义获取所述一组第二前提语句。
根据权利要求11所述的设备，其中生成所述结论语句包括：

获取一组参考前提语句之间的关联关系；以及

如果确定基于所述关联关系成功地推断出所述一组第一前提语句中的第一部分第一前提语句和所述一组第二前提语句中的第一部分第二前提语句之间的相关性，则生成用于描述所述相关性的结论语句。
根据权利要求13所述的设备，还包括：

如果确定基于所述关联关系未成功地推断出所述一组第一前提语句中的第二部分第一前提语句和所述一组第二前提语句中的第二部分第二前提语句之间的相关性，则生成所述相关性不具备有效结论的指示。
根据权利要求11所述的设备，其中确定所述目标数据集包括：

如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断，对所述第一目标前提语句进行变化；

生成指示经变化的第一目标前提语句和所述第二目标前提语句之间的相关性的结论语句；以及

基于经变化的第一目标前提语句、所述第二目标前提语句以及所述结论语句确定所述目标数据集。
根据权利要求11所述的设备，其中确定所述目标数据集包括：

如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断，对所述第二目标前提语句进行变化；

生成指示所述第一目标前提语句和经变化的第二目标前提语句之间的相关性的结论语句；以及

基于所述第一目标前提语句、所述经变化的第二目标前提语句以及所述结论语句确定所述目标数据集。
根据权利要求11所述的设备，其中确定所述目标数据集包括：

如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断，对所述第一目标前提语句和所述第二目标前提语句进行变化；

生成指示经变化的第一目标前提语句和经变化的第二目标前提语句之间的相关性的结论语句；以及

基于所述经变化的第一目标前提语句、所述经变化第二目标前提语句以及所述结论语句确定所述目标数据集。
根据权利要求15至17中任一项所述的设备，其中对所述第一目标前提语句和第二目标前提语句中的至少一项进行变化包括：

从所述第一目标前提语句和第二目标前提语句中的至少一项所包含的语段中确定可变换语义的目标变换语段；

对所述目标变换语段执行以下操作中的至少一项：

同义语段替换；

反义语段替换；

上位语段替换；

下位语段替换；

否定语段替换；

双重否定语段替换；

反向翻译语段替换。
根据权利要求11所述的设备，其中确定所述目标数据集包括：

对基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句生成的初始数据集进行校验；

如果确定所述多个结论语句中的部分结论语句出现错误，通过删除所述出现错误的部分结论语句和与所述出现错误的部分结论语句相关联的所述一组第一前提语句的相应部分和所述一组第二前提语句的相应部分来更新所述初始数据集；以及

将经更新的初始数据集确定为所述目标数据集。
根据权利要求1所述的设备，其中所述一组第一前提语句和所述一组第二前提语句包括自然语言语句。
一种用于数据集创建的装置，包括：

获取模块，被配置为获取一组第一前提语句以及与所述一组第一前提语句相关联的一组第二前提语句；

生成模块，被配置为生成与所述一组第一前提语句和所述一组第二前提语句相关联的多个结论语句，所述多个结论语句指示所述一组第一前提语句和所述一组第二前提语句之间的相关性；以及

确定模块，被配置为至少基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句确定目标数据集。
一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至10中任一项所述的方法。