WO2021068615A1

WO2021068615A1 - 文书中问答数据获取方法、装置、计算机设备和存储介质

Info

Publication number: WO2021068615A1
Application number: PCT/CN2020/106124
Authority: WO
Inventors: 朱昱锦; 徐国强
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2019-10-12
Filing date: 2020-07-31
Publication date: 2021-04-15
Also published as: CN110955761A

Abstract

一种文书中问答数据获取方法、装置、计算机设备和存储介质，涉及人工智能领域，文书中问答数据获取方法包括：获取待处理文书以及输入的文书问题（S202），通过实体词识别技术识别文书问题中的实体词，将识别出的实体词作为文书问题的关键词（S204）；对关键词分别进行同义词扩展以及语义扩展，得到提问因子（S206）；对待处理文书进行拆分，得到多个文书片段，将包含提问因子的文书片段作为候选片段（S208）；基于提问因子在候选片段中查找，得到文书问题的候选答案（S210）；及根据相似度对各候选答案进行排序，将排序最前的候选答案作为文书问题的答案（S212）。

Description

文书中问答数据获取方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2019年10月12日提交中国专利局，申请号为201910970168.8，申请名称为“文书中问答数据获取方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种文书中问答数据获取方法、装置、计算机设备和存储介质。

背景技术

文书指的是一种记录信息、表达意图的文字材料。文书可以是机关、团体、企事业单位以及个人在社会活动中，为了某种需要，按照一定的体式和要求形成的书面文字材料。在进件、审核、更新文库等需要对大量文书进行快速审阅的场合，通过自定义提取文书问答信息的需求十分迫切。

传统的文书问答信息的获取一般都是基于关键词的检索，然而，发明人意识到，用关键词进行检索的方式停留在语法层面，检索返回的内容有些和答案的关联不太紧密，导致通过检索方式获取到的问答信息的准确率不高。

发明内容

根据本申请公开的各种实施例，提供一种文书中问答数据获取方法、装置、计算机设备和存储介质。

一种文书中问答数据获取方法包括：

获取待处理文书以及输入的文书问题；

通过实体词识别技术识别所述文书问题中的实体词，将识别出的实体词作为所述文书问题的关键词；

对所述关键词分别进行同义词扩展以及语义扩展，得到提问因子；

对所述待处理文书进行拆分，得到多个文书片段，将包含所述提问因子的文书片段作为候选片段；

基于所述提问因子在所述候选片段中查找，得到所述文书问题的候选答案；及

根据相似度对各所述候选答案进行排序，将排序最前的候选答案作为所述文书问题的答案。

一种文书中问答数据获取装置包括：

信息获取模块，用于获取待处理文书以及输入的文书问题；

关键词获取模块，用于通过实体词识别技术识别所述文书问题中的实体词，将识别出的实体词作为所述文书问题的关键词；

提问因子获取模块，用于对所述关键词分别进行同义词扩展以及语义扩展，得到提问因子；

候选片段获取模块，用于对所述待处理文书进行拆分，得到多个文书片段，将包含所述提问因子的文书片段作为候选片段；

候选答案获取模块，用于基于所述提问因子在所述候选片段中查找，得到所述文书问题的候选答案；及

候选答案处理模块，用于根据相似度对各所述候选答案进行排序，将排序最前的候选答案作为所述文书问题的答案。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待处理文书以及输入的文书问题；

一个或多个存储有计算机可读指令的计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

获取待处理文书以及输入的文书问题；

上述文书中问答数据获取方法、装置、计算机设备和存储介质，通过实体词识别技术识别输入的文书问题中的实体词，将识别出的实体词作为文书问题的关键词，再对关键词分别进行同义词扩展以及语义扩展，得到提问因子，由此得到的提问因子涵盖了同义词和语义两个层面，对待处理文书进行拆分，得到多个文书片段，将包含提问因子的文书片段作为候选片段，这样得到的候选片段的范围更广，基于提问因子在候选片段中查找，得到文书问题的候选答案，再根据相似度对各候选答案进行排序，将排序最前的候选答案作为文书问题的答案，这样候选答案覆盖广，再对候选答案进行筛选最终确定文书问题的答案，可以有效提高获取到的提问答案的准确率。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中文书中问答数据获取方法的应用场景图；

图2为根据一个或多个实施例中文书中问答数据获取方法的流程示意图；

图3为根据一个或多个实施例中候选答案获取步骤的流程示意图；

图4为根据一个或多个实施例中候选答案排序步骤的流程示意图；

图5为根据一个或多个实施例中文书中问答数据获取装置的框图；

图6为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文书中问答数据获取方法，可以应用于如图1所示的应用环境中。终端102与服务器104通过网络进行通信。服务器104从终端102获取待处理文书以及输入的文书问题，通过实体词识别技术识别文书问题中的实体词，将识别出的实体词作为文书问题的关键词；对关键词分别进行同义词扩展以及语义扩展，得到提问因子；对待处理文书进行拆分，得到多个文书片段，将包含提问因子的文书片段作为候选片段；基于提问因子在候选片段中查找，得到文书问题的候选答案；及根据相似度对各候选答案进行排序，将排序最前的候选答案作为文书问题的答案。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种文书中问答数据获取方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取待处理文书以及输入的文书问题。

待处理文书可由用户通过用户终端上传，用户进行问答的文书。文书问题是指用户对待处理文书提出的问题，例如针对某一文书提问律师费，文书问题具体可以是“律师费是多少”，也可是“律师费的金额”，还可以是对可能附带信息的补充说明，比如可以是经验上经常与问题出现的词组或句式，也可以是问题中词语的别称。比如经常与律师费前后出现的词可以是支付、承担等。

步骤204，通过实体词识别技术识别文书问题中的实体词，将识别出的实体词作为文书问题的关键词。

通过实体词识别技术识别文书问题中的实体词具体是指对于输入的文书问题，先进行分词处理，通过分词工具对文书问题进行分词处理，分词工具可以是jieba、SnowNLP、pynlpir、thulac等工具。比如通过分词工具对文书问题“律师费的金额”进行分词处理，得到分词处理的结果为“律师费/的/金额”。也可以通过最大匹配法、逆向最大匹配法等方式进行分词处理。在分词处理之后进行词性标注，词性标注是指将词分为名词、动词、形容词等类别，词性标注可以基于概率统计或基于预设规则实现。实体词是指表示人名、地名、组织名等的词，实体词具体可以是名词。以分词处理结果“律师费/的/金额”为例，提取名词对应的词语作为文书问题的关键词，得到关键词为“律师费”和“金额”。

步骤206，对关键词分别进行同义词扩展以及语义扩展，得到提问因子。

可以基于预设同义词词典对关键词进行同义词扩展，对关键词进行词典查询，在词典中找到该关键词后，返回该关键词对应的同义词。基于预设常识性知识库对关键词进行语义扩展，比如，应用知网的同义关系扩展，通过知网的同义词查找方式，得到与关键词同义的所有词。

步骤208，对待处理文书进行拆分，得到多个文书片段，将包含提问因子的文书片段作为候选片段。

在其中一个实施例中，对待处理文书进行拆分，得到多个文书片段，包括：将待处理文书转换成字符串，当待处理文书的字符串长度大于预设长度且待处理文书包括多个自然段时，按照自然段将待处理文书拆分为不同的文书片段；当待处理文书的字符串长度小于或等于预设长度时，基于预设滑窗长度和预设间距将待处理文书拆分为不同的文书片段。比如字符串长度对应的字数超过1万个字且待处理文书包括多个自然段，直接按自然段将待处理文书拆分成不同的文书片段。当待处理文书的字符串长度较短时，则使用滑窗与间距对待处理文书进行拆分，例如300字的短文书，可以定义滑窗长度为5句，间距为2句，即每5句组成一个文书片段，每隔2句作为下一文书片段的起始。

步骤210，基于提问因子在候选片段中查找，得到文书问题的候选答案。

可以通过标准的阅读理解任务模型QANet，将提问因子和候选片段输入至阅读理解任务模型，模型输出候选答案。当提问因子的数量为M，待处理文书中包含提问因子的文书片段的数量为N时，假设每个问题返回一个答案，则一共生成M×N个答案。

在其中一个实施例中，如图3所示，基于提问因子在所述候选片段中查找，得到文书问题的候选答案，包括：步骤302，获取已训练的阅读理解任务模型，阅读理解任务模型包括依次连接的嵌入层、嵌入编码层、语境-查询注意力层、模型编码层以及输出层；步骤304，将提问因子和候选片段输入至嵌入层，通过嵌入编码层分别对提问因子和候选片段进行编码，得到提问因子编码块和候选片段编码块；步骤306，通过语境-查询注意力层，获取提问因子编码块与候选片段编码块之间的相似度；步骤308，基于提问因子编码块与候选片段编码块之间的相似度，通过模型编码层获得候选答案的预测位置；步骤310，通过输出层解码计算每一个预测位置为候选答案开始位置的概率和候选答案结尾位置的概率，将概率大于预设第一阈值的预测位置作为候选答案开始位置，将概率大于预设第二阈值的预测位置作为候选答案结尾位置。阅读理解任务模型QANet包含五个主要的组成部分：嵌入层、嵌入编码层、语境-查询注意力层、模型编码层以及输出层。QANet的嵌入编码器和模型编码器摒弃了RNN(Recurrent Neural Network，循环神经网络)的复杂递归结构，通过使用卷积和自注意力机制构建了一个神经网络，使得该模型的训练速率和推断速率大大加快，并且可以并行处理输入的词。输入候选片段和提问因子至阅读理解任务模型的嵌入层，再由嵌入编码层分别编码候选片段和提问因子，然后在语境-查询注意力层学习这两个编码块之间的相似度，将经过注意力层的向量由模型编码层对编码块编码，获得候选答案的预测位置，最后通过输出层解码计算出每一个预测位置是文书问题对应的候选答案的开头和结尾的概率。假设候选片段C包括n个词，用数学式可以表示为C＝{c_1，c_2，...，c_n}，提问因子Q包括m个词，Q＝{q_1，q_2，...，q_m}，输出一个Span集，S＝{c_i，c_(i+1)，...，c_(i+j)}，Span是指从候选片段中抽取一段连续的片段作为答案。

步骤212，根据相似度对各候选答案进行排序，将排序最前的候选答案作为文书问题的答案。

在其中一个实施例中，如图4所示，根据相似度对各候选答案进行排序，将排序最前的候选答案作为文书问题的答案，包括：步骤402，对单个候选片段对应的多个候选答案进行两两相似度匹配计算，将相似度均值最高的候选答案作为单个候选片段的候选答案；步骤404，将单个候选片段的候选答案与单个候选片段的其它候选答案的相似度均值作为单个候选片段的候选权值；步骤406，获取单个候选片段与提问因子的匹配度，根据匹配度以及单个候选片段的候选权值，得到候选答案的权值；步骤408，获取各候选片段的候选答案对应的权值，将各个权值中最高值对应的候选答案作为文书问题的答案。可以通过Fuzzywuzzy模型实现对每个候选片段得到的多个答案进行两两相似度匹配计算。FuzzyWuzzy模型用于计算字符串之间的匹配度，先将从每个候选片段得到的答案转换成字符串，再基于转换后的字符串通过调用FuzzyWuzzy模型中的函数，输出字符串的相似匹配度，即得到每两个答案之间的相似匹配度。具体地，可以将匹配度以及各个候选片段的候选权值进行归一化处理，根据归一化处理后的匹配度以及候选权值进行加权求和，得到各个候选答案的权值，通过归一化处理简化计算，从而提高答案获取效率。更为具体地，匹配度与候选权值按照6.5：3.5的比例进行加权求和，经多次试验验证在该比例时，获取到的答案的准确率更高。

上述文书中问答数据获取方法，通过实体词识别技术识别输入的文书问题中的实体词，将识别出的实体词作为文书问题的关键词，再对关键词进行同义词扩展以及语义扩展，得到提问因子，由此得到的提问因子涵盖了同义词和语义两个层面，对待处理文书进行拆分，得到多个文书片段，将包含提问因子的文书片段作为候选片段，这样得到的候选片段的范围更广，基于提问因子在候选片段中查找，得到文书问题的候选答案，再根据相似度对各候选答案进行排序，将排序最前的候选答案作为文书问题的答案，这样候选答案覆盖广，再对候选答案进行筛选最终确定文书问题的答案，可以有效提高获取到的提问答案的准确率。

在其中一个实施例中，获取单个候选片段与提问因子的匹配度，包括：获取同义词扩展处理后的第一词语数量以及语义扩展处理后的第二词语数量；将第一词语数量与第二词语数量之比以及单个候选片段输入至Elasticsearch检索模型，得到单个候选片段与提问因子的匹配度。比如可以将各文书片段分别存储至Elasticsearch检索模型中，Elasticsearch检索模型用于快速检索存储文档，将每个文书片段视为一篇文档。Elasticsearch检索模型可以先根据检索语句，比如以提问因子对文档进行粗提取，具体来说以提问因子遍历各个文书片段，排除不包括提问因子的文书片段，得到候选片段，即候选片段为包括提问因子的文书片段。然后根据提问因子中同义词扩展后的词语与语义扩展后的词语之比，返回候选片段与提问因子的匹配度。其中，同义词扩展后的词语与语义扩展后的词语之比具体可以是3：1，经多次试验验证在该比例时，获取到的答案的准确率更高。具体可以将候选片段放在候选列表中输出，Elasticsearch检索模型在返回候选片段时，还会返回相应的匹配度，匹配度具体可以是匹配程度的分值，将该分值作min-max归一化处理，并存入分值列表。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图5所示，提供了一种文书中问答数据获取装置，包括：信息获取模块502、关键词获取模块504、提问因子获取模块506、候选片段获取模块508、候选答案获取模块510和候选答案处理模块512。信息获取模块，用于获取待处理文书以及输入的文书问题。关键词获取模块，用于通过实体词识别技术识别文书问题中的实体词，将识别出的实体词作为文书问题的关键词。提问因子获取模块，用于对关键词分别进行同义词扩展以及语义扩展，得到提问因子。候选片段获取模块，用于对待处理文书进行拆分，得到多个文书片段，将包含提问因子的文书片段作为候选片段。候选答案获取模块，用于基于提问因子在候选片段中查找，得到文书问题的候选答案。候选答案处理模块，用于根据相似度对各候选答案进行排序，将排序最前的候选答案作为文书问题的答案。

在其中一个实施例中，候选片段获取模块包括：第一拆分单元，用于将待处理文书转换成字符串，当待处理文书的字符串长度大于预设长度且待处理文书包括多个自然段时，按照自然段将待处理文书拆分为不同的文书片段；第二拆分单元，用于当待处理文书的字符串长度小于或等于预设长度时，基于预设滑窗长度和预设间距将待处理文书拆分为不同的文书片段。

在其中一个实施例中，候选答案获取模块包括：模型获取单元，用于获取已训练的阅读理解任务模型，阅读理解任务模型包括依次连接的嵌入层、嵌入编码层、语境-查询注意力层、模型编码层以及输出层；编码单元，用于将提问因子和候选片段输入至所述嵌入层，通过嵌入编码层分别对提问因子和候选片段进行编码，得到提问因子编码块和候选片段编码块；编码块处理单元，用于通过语境-查询注意力层获取提问因子编码块与候选片段编码块之间的相似度；位置获取单元，用于基于提问因子编码块与候选片段编码块之间的相似度，通过模型编码层获得候选答案的预测位置；位置处理单元，用于通过输出层解码计算每一个预测位置为候选答案开始位置的概率和候选答案结尾位置的概率，将概率大于预设第一阈值的预测位置作为候选答案开始位置，将概率大于预设第二阈值的预测位置作为候选答案结尾位置。

在其中一个实施例中，候选答案处理模块还用于对单个候选片段对应的多个候选答案进行两两相似度匹配计算，将相似度均值最高的候选答案作为单个候选片段的候选答案；将单个候选片段的候选答案与单个候选片段的其它候选答案的相似度均值作为单个候选片段的候选权值；获取单个候选片段与提问因子的匹配度，根据匹配度以及单个候选片段的候选权值，得到候选答案的权值；获取各候选片段的候选答案对应的权值，将各个权值中最高值对应的候选答案作为文书问题的答案。

在其中一个实施例中，候选答案处理模块还用于获取同义词扩展处理后的第一词语数量以及语义扩展处理后的第二词语数量；将第一词语数量与第二词语数量之比以及单个候选片段输入至Elasticsearch检索模型，得到单个候选片段与提问因子的匹配度。

关于文书中问答数据获取装置的具体限定可以参见上文中对于文书中问答数据获取方法的限定，在此不再赘述。上述文书中问答数据获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性或易失性存储介质、内存储器。该非易失性或易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储待处理文书、文书问题、提问因子、候选答案等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种文书中问答数据获取方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：

获取待处理文书以及输入的文书问题；

通过实体词识别技术识别文书问题中的实体词，将识别出的实体词作为文书问题的关键词；

对关键词分别进行同义词扩展以及语义扩展，得到提问因子；

对待处理文书进行拆分，得到多个文书片段，将包含提问因子的文书片段作为候选片段；

基于提问因子在候选片段中查找，得到文书问题的候选答案；及

根据相似度对各候选答案进行排序，将排序最前的候选答案作为文书问题的答案。

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：

将待处理文书转换成字符串，当待处理文书的字符串长度大于预设长度且待处理文书包括多个自然段时，按照自然段将待处理文书拆分为不同的文书片段；及

当待处理文书的字符串长度小于或等于预设长度时，基于预设滑窗长度和预设间距将待处理文书拆分为不同的文书片段。

获取已训练的阅读理解任务模型，阅读理解任务模型包括依次连接的嵌入层、嵌入编码层、语境-查询注意力层、模型编码层以及输出层；

将提问因子和候选片段输入至嵌入层，通过嵌入编码层分别对提问因子和候选片段进行编码，得到提问因子编码块和候选片段编码块；

通过语境-查询注意力层获取提问因子编码块与候选片段编码块之间的相似度；

基于提问因子编码块与候选片段编码块之间的相似度，通过模型编码层获得候选答案的预测位置；及

通过输出层解码计算每一个预测位置为候选答案开始位置的概率和候选答案结尾位置的概率，将概率大于预设第一阈值的预测位置作为候选答案开始位置，将概率大于预设第二阈值的预测位置作为候选答案结尾位置。

对单个候选片段对应的多个候选答案进行两两相似度匹配计算，将相似度均值最高的候选答案作为单个候选片段的候选答案；

将单个候选片段的候选答案与单个候选片段的其它候选答案的相似度均值作为单个候选片段的候选权值；

获取单个候选片段与提问因子的匹配度，根据匹配度以及单个候选片段的候选权值，得到候选答案的权值；及

获取各候选片段的候选答案对应的权值，将各个权值中最高值对应的候选答案作为文书问题的答案。

获取同义词扩展处理后的第一词语数量以及语义扩展处理后的第二词语数量；及

将第一词语数量与第二词语数量之比以及单个候选片段输入至Elasticsearch检索模型，得到单个候选片段与提问因子的匹配度。

获取待处理文书以及输入的文书问题；

其中，该计算机可读存储介质可以是非易失性，也可以是易失性的。

在其中一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种文书中问答数据获取方法，包括：

获取待处理文书以及输入的文书问题；

通过实体词识别技术识别所述文书问题中的实体词，将识别出的实体词作为所述文书问题的关键词；

对所述关键词分别进行同义词扩展以及语义扩展，得到提问因子；

对所述待处理文书进行拆分，得到多个文书片段，将包含所述提问因子的文书片段作为候选片段；

基于所述提问因子在所述候选片段中查找，得到所述文书问题的候选答案；及

根据相似度对各所述候选答案进行排序，将排序最前的候选答案作为所述文书问题的答案。
根据权利要求1所述的方法，其中，所述对所述待处理文书进行拆分，得到多个文书片段，包括：

将所述待处理文书转换成字符串，当所述待处理文书的字符串长度大于预设长度且所述待处理文书包括多个自然段时，按照自然段将所述待处理文书拆分为不同的文书片段；及

当所述待处理文书的字符串长度小于或等于预设长度时，基于预设滑窗长度和预设间距将所述待处理文书拆分为不同的文书片段。
根据权利要求1所述的方法，其中，所述基于所述提问因子在所述候选片段中查找，得到所述文书问题的候选答案，包括：

获取已训练的阅读理解任务模型，所述阅读理解任务模型包括依次连接的嵌入层、嵌入编码层、语境-查询注意力层、模型编码层以及输出层；

将所述提问因子和所述候选片段输入至所述嵌入层，通过所述嵌入编码层分别对所述提问因子和所述候选片段进行编码，得到提问因子编码块和候选片段编码块；

通过所述语境-查询注意力层，获取所述提问因子编码块与所述候选片段编码块之间的相似度；

基于所述提问因子编码块与所述候选片段编码块之间的相似度，通过模型编码层获得候选答案的预测位置；及

通过所述输出层解码计算所述每一个预测位置为候选答案开始位置的概率和候选答案结尾位置的概率，将概率大于预设第一阈值的预测位置作为所述候选答案开始位置，将概率大于预设第二阈值的预测位置作为所述候选答案结尾位置。
根据权利要求1所述的方法，其中，所述根据相似度对各所述候选答案进行排序，将排序最前的候选答案作为所述文书问题的答案，包括：

对单个候选片段对应的多个候选答案进行两两相似度匹配计算，将相似度均值最高的候选答案作为所述单个候选片段的候选答案；

将所述单个候选片段的候选答案与所述单个候选片段的其它候选答案的相似度均值作为所述单个候选片段的候选权值；

获取所述单个候选片段与所述提问因子的匹配度，根据所述匹配度以及所述单个候选片段的候选权值，得到所述候选答案的权值；及

获取各候选片段的候选答案对应的权值，将各个权值中最高值对应的候选答案作为所述文书问题的答案。
根据权利要求4所述的方法，其中，所述获取所述单个候选片段与所述提问因子的匹配度，包括：

获取同义词扩展处理后的第一词语数量以及语义扩展处理后的第二词语数量；及

将所述第一词语数量与所述第二词语数量之比以及所述单个候选片段输入至Elasticsearch检索模型，得到所述单个候选片段与所述提问因子的匹配度。
根据权利要求4所述的方法，其中，所述根据所述匹配度以及所述单个候选片段的候选权值，得到所述候选答案的权值，包括：

将所述匹配度以及所述单个候选片段的候选权值进行归一化处理，根据归一化处理后的匹配度以及候选权值进行加权求和，得到所述候选答案的权值。
根据权利要求1所述的方法，其中，所述对所述关键词分别进行同义词扩展以及语义扩展，得到提问因子，包括：

基于所述关键词在预设同义词词典中查询，获得所述关键词对应的同义词；

基于所述关键词在预设常识性知识库的同义关系中查找，获得所述关键词的同义词；及

将获得的关键词对应的同义词作为提问因子。
一种文书中问答数据获取装置，其中，所述装置包括：

信息获取模块，用于获取待处理文书以及输入的文书问题；

关键词获取模块，用于通过实体词识别技术识别所述文书问题中的实体词，将识别出的实体词作为所述文书问题的关键词；

提问因子获取模块，用于对所述关键词分别进行同义词扩展以及语义扩展，得到提问因子；

候选片段获取模块，用于对所述待处理文书进行拆分，得到多个文书片段，将包含所述提问因子的文书片段作为候选片段；

候选答案获取模块，用于基于所述提问因子在所述候选片段中查找，得到所述文书问题的候选答案；及

候选答案处理模块，用于根据相似度对各所述候选答案进行排序，将排序最前的候选答案作为所述文书问题的答案。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待处理文书以及输入的文书问题；

通过实体词识别技术识别所述文书问题中的实体词，将识别出的实体词作为所述文书问题的关键词；

对所述关键词分别进行同义词扩展以及语义扩展，得到提问因子；

对所述待处理文书进行拆分，得到多个文书片段，将包含所述提问因子的文书片段作为候选片段；

基于所述提问因子在所述候选片段中查找，得到所述文书问题的候选答案；及

根据相似度对各所述候选答案进行排序，将排序最前的候选答案作为所述文书问题的答案。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

将所述待处理文书转换成字符串，当所述待处理文书的字符串长度大于预设长度且所述待处理文书包括多个自然段时，按照自然段将所述待处理文书拆分为不同的文书片段；及

当所述待处理文书的字符串长度小于或等于预设长度时，基于预设滑窗长度和预设间距将所述待处理文书拆分为不同的文书片段。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取已训练的阅读理解任务模型，所述阅读理解任务模型包括依次连接的嵌入层、嵌入编码层、语境-查询注意力层、模型编码层以及输出层；

将所述提问因子和所述候选片段输入至所述嵌入层，通过所述嵌入编码层分别对所述提问因子和所述候选片段进行编码，得到提问因子编码块和候选片段编码块；

通过所述语境-查询注意力层，获取所述提问因子编码块与所述候选片段编码块之间的相似度；

基于所述提问因子编码块与所述候选片段编码块之间的相似度，通过模型编码层获得候选答案的预测位置；及

通过所述输出层解码计算所述每一个预测位置为候选答案开始位置的概率和候选答案结尾位置的概率，将概率大于预设第一阈值的预测位置作为所述候选答案开始位置，将概率大于预设第二阈值的预测位置作为所述候选答案结尾位置。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

对单个候选片段对应的多个候选答案进行两两相似度匹配计算，将相似度均值最高的候选答案作为所述单个候选片段的候选答案；

将所述单个候选片段的候选答案与所述单个候选片段的其它候选答案的相似度均值作为所述单个候选片段的候选权值；

获取所述单个候选片段与所述提问因子的匹配度，根据所述匹配度以及所述单个候选片段的候选权值，得到所述候选答案的权值；及

获取各候选片段的候选答案对应的权值，将各个权值中最高值对应的候选答案作为所述文书问题的答案。
根据权利要求12所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取同义词扩展处理后的第一词语数量以及语义扩展处理后的第二词语数量；及

将所述第一词语数量与所述第二词语数量之比以及所述单个候选片段输入至Elasticsearch检索模型，得到所述单个候选片段与所述提问因子的匹配度。
根据权利要求12所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

将所述匹配度以及所述单个候选片段的候选权值进行归一化处理，根据归一化处理后的匹配度以及候选权值进行加权求和，得到所述候选答案的权值。
一个或多个存储有计算机可读指令的计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待处理文书以及输入的文书问题；

通过实体词识别技术识别所述文书问题中的实体词，将识别出的实体词作为所述文书问题的关键词；

对所述关键词分别进行同义词扩展以及语义扩展，得到提问因子；

对所述待处理文书进行拆分，得到多个文书片段，将包含所述提问因子的文书片段作为候选片段；

基于所述提问因子在所述候选片段中查找，得到所述文书问题的候选答案；及

根据相似度对各所述候选答案进行排序，将排序最前的候选答案作为所述文书问题的答案。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

将所述待处理文书转换成字符串，当所述待处理文书的字符串长度大于预设长度且所述待处理文书包括多个自然段时，按照自然段将所述待处理文书拆分为不同的文书片段；及

当所述待处理文书的字符串长度小于或等于预设长度时，基于预设滑窗长度和预设间距将所述待处理文书拆分为不同的文书片段。
根据权利要求16所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

获取已训练的阅读理解任务模型，所述阅读理解任务模型包括依次连接的嵌入层、嵌入编码层、语境-查询注意力层、模型编码层以及输出层；

将所述提问因子和所述候选片段输入至所述嵌入层，通过所述嵌入编码层分别对所述提问因子和所述候选片段进行编码，得到提问因子编码块和候选片段编码块；

通过所述语境-查询注意力层，获取所述提问因子编码块与所述候选片段编码块之间的相似度；

基于所述提问因子编码块与所述候选片段编码块之间的相似度，通过模型编码层获得候选答案的预测位置；及

通过所述输出层解码计算所述每一个预测位置为候选答案开始位置的概率和候选答案结尾位置的概率，将概率大于预设第一阈值的预测位置作为所述候选答案开始位置，将概率大于预设第二阈值的预测位置作为所述候选答案结尾位置。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

对单个候选片段对应的多个候选答案进行两两相似度匹配计算，将相似度均值最高的候选答案作为所述单个候选片段的候选答案；

将所述单个候选片段的候选答案与所述单个候选片段的其它候选答案的相似度均值作为所述单个候选片段的候选权值；

获取所述单个候选片段与所述提问因子的匹配度，根据所述匹配度以及所述单个候选片段的候选权值，得到所述候选答案的权值；及

获取各候选片段的候选答案对应的权值，将各个权值中最高值对应的候选答案作为所述文书问题的答案。
根据权利要求18所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

获取同义词扩展处理后的第一词语数量以及语义扩展处理后的第二词语数量；及

将所述第一词语数量与所述第二词语数量之比以及所述单个候选片段输入至Elasticsearch检索模型，得到所述单个候选片段与所述提问因子的匹配度。
根据权利要求18所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

将所述匹配度以及所述单个候选片段的候选权值进行归一化处理，根据归一化处理后的匹配度以及候选权值进行加权求和，得到所述候选答案的权值。