WO2021159760A1

WO2021159760A1 - 文章截断点的设定方法、装置以及计算机设备

Info

Publication number: WO2021159760A1
Application number: PCT/CN2020/125150
Authority: WO
Inventors: 吴汇哲; 顾大中
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-09-09
Filing date: 2020-10-30
Publication date: 2021-08-19
Also published as: CN112016292A; CN112016292B

Abstract

一种文章截断点的设定方法、装置以及计算机设备，涉及人工智能领域，其中方法包括：从所述文章中选取目标句子，并将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量；将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离；将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点。所述方法充分考虑了所有句子的信息，对文章的截断点作出更好的选取。

Description

文章截断点的设定方法、装置以及计算机设备

本申请要求于2020年09月09日提交中国专利局、申请号为202010941600.3，发明名称为“文章截断点的设定方法、装置以及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，特别涉及一种文章截断点的设定方法、装置以及计算机设备。

背景技术

针对未分段的文章，如何对段落进行截段是一个非常棘手的问题。很多时候，错误的切分会导致原本不属于同一段落的句子被归纳到一段，对正确生成段落或者分析段落造成困难。发明人意识到，针对文章的分段主要是通过计算相邻两个句子包含的信息的相似度，而忽略了其余句子的信息，具有一定局限性，不能对文章作出更好的截断选择。因此，亟需一种文章截断点的设定方法。

技术问题

本申请的主要目的为提供一种文章截断点的设定方法、装置以及计算机设备，旨在解决现有技术中主要是计算相邻两个句子包含的信息的相似度，而忽略了其余句子的信息的问题。

技术解决方案

本申请提供了一种文章截断点的设定方法，包括：

将文章中的每个句子输入bert模型得到每个句子对应的多个词向量，并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量，其中所述第一句向量为按照所述词向量序列依次拼接而成，所述第二句向量为按照反序的所述词向量序列依次拼接而成；

将每个句子的所述第一句向量的末端与所述第二句向量的首端拼接，得到每个句子的目标向量；

从所述文章中选取目标句子，并将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量，将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量；其中，所述第一向量的维度等于所述第二向量的维度；

将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离；

将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点。

进一步地，所述将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离的步骤，包括：

通过公式

计算所述第一相似度值，其中，

为所述第一相似度值，

表示第一向量，

表示第二向量，

表示第一向量的第i维，

表示第二向量的第i维；

通过公式

计算非线性映射至(0,1) 区间的映射值；

根据所述映射值求出与1的所述线性距离。

进一步地，所述将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点的步骤之后，还包括：

获取每个所述初始截断点至所述文章首端的第一文本距离，以及至所述文章末端的第二文本距离；

根据公式

计算每个所述初始截断点的位置分值，其中所述K为位置分值，X为所述第一文本距离，Y为所述第二文本距离；

根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断。

进一步地，所述根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断的步骤，包括：

将所有所述初始截断点构成的集合记为第一集合；

从所述第一集合中选取所述预设个数的初始截断点构成的集合记为第二集合；

通过计算公式计算各第二集合的得分值；其中所述计算公式为

w和m分别为预设的权重参数；h ₁，h ₂，…，h _n为所述第二集合中的元素对应的第一相似度值；ΔR _i为第i组从第二集合中挑选出的两个元素对应的第一相似度值之差；n表示第二集合中元素的个数，F(n)表示得分值；

选取所述得分值最高的所述第二集合，并将该集合中的初始截断点作为所述目标截断点。

进一步地，所述根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断的步骤之前，还包括：

将所述文章中每个句子的所述第一句向量进行拼接得到所述文章的文章向量；

根据所述文章向量的维度在预设的列表中查找对应所述目标截断点的所述预设个数；其中，所述预设的列表中包含了所述文章向量的维度与所述目标截断点的所述预设个数的对应关系。

进一步地，所述将文章中的每个句子输入bert模型得到每个句子对应的多个词向量，并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量的步骤，包括：

将所述句子进行预处理，并按照所述句子在所述文章中的位置建立TOKEN列表对所述句子的位置进行记录，其中所述预处理包括剔除所述问题中的标点符号、统一语种、删除不相关词句，所述不相关词句包括问候语、形容词以及脏词；

通过所述bert模型读取数据集的文本数据，并通过所述bert模型fine-tuning的方式构建所述词向量，其中所述bert模型基于词语数据库训练而成；

将所述词向量按照在所述句子中的先后顺序构成所述词向量序列，并根据所述词向量序列依次拼接构成第一句向量，以及反序依次拼接构成第二句向量。

进一步地，所述将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点的步骤之后，包括：

计算每个初始截断点相邻两个句子的目标句向量的第二相似度值；

将所述第二相似度值小于预设相似度值的所述初始截断点提取出来作为第一截断点；

通过预设的规则在第一截断点中筛选出目标截断点，并通过所述目标截断点对所述文章进行截断。

本申请还提供了一种文章截断点的设定装置，包括：

向量化模块，用于将文章中的每个句子输入bert模型得到每个句子对应的多个词向量，并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量，其中所述第一句向量为按照所述词向量序列依次拼接而成，所述第二句向量为按照反序的所述词向量序列依次拼接而成；

向量拼接模块，用于将每个句子的所述第一句向量的末端与所述第二句向量的首端拼接，得到每个句子的目标向量；

加权和计算模块，用于从所述文章中选取目标句子，并将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量，将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量；其中，所述第一向量的维度等于所述第二向量的维度；

第一相似度值计算模块，用于将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离；

初始截断点设定模块，用于将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现

文章截断点的设定方法的步骤：

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现文章截断点的设定方法的步骤：

有益效果

通过将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量，与将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量，进行相似度计算，充分考虑了所有句子的信息，可以对文章的截断点作出更好的选取。

附图说明

图1是本申请一实施例的一种文章截断点的设定方法的流程示意图；

图2是本申请一实施例的一种文章截断点的设定方法的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本发明的最佳实施方式

参照图1，本申请提出一种文章截断点的设定方法，包括：

S1：将文章中的每个句子输入bert模型得到每个句子对应的多个词向量，并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量，其中所述第一句向量为按照所述词向量序列依次拼接而成，所述第二句向量为按照反序的所述词向量序列依次拼接而成；

S2：将每个句子的所述第一句向量的末端与所述第二句向量的首端拼接，得到每个句子的目标向量；

S3：从所述文章中选取目标句子，并将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量，将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量；其中，所述第一向量的维度等于所述第二向量的维度；

S4：将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离；

S5：将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点。

如上述步骤S1所述，将文章中的每个句子输入至bert模型中，以得到每个句子对应的多个词向量，其中文章中句子的划分，是通过分句符号进行划分，即从文章开头至第一个分句符号的内容为一个句子，分句符号之间的内容为一个句子，其中分句符号可以是中文表示的分句符号，也可以是英文表示的分句符号，分句符号可以是句号、感叹号、问号等符号。其中，bert模型可以基于不同的类别的语料数据库进行训练，即得到不同的bert模型，然后根据文章的类别选取对应的bert模型进行输入，由于对应的bert模型是基于对应类别的语料数据库训练的，故而通过该模型生成的词向量也会更优。

如上述步骤S2所述，为了使每句话所包含的信息可以得到更好的计算，可以将按照词向量序列依次拼接而成的第一向量和反序的所述词向量序列依次拼接而成的第二向量进行拼接形成目标向量，通过目标向量可以减少后续计算的损失值，使后续进行相似度计算的结果更好。

如上述步骤S3所述，选取目标句子，其中目标句子的选取可以是对文章中的每个句子依次选取，然后将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量，将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量，其中加权和计算包括对第一向量和/或第二向量进行升维计算或降维计算等，目的是为了使第一向量和第二向量的维度保持一致，以便于后续进行相似度计算。

如上述步骤S4所述，对第一向量和第二向量进行相似度计算，其中相似度计算的公式可以是WMD算法(word mover’s distance)、simhash算法、基于余弦相似度的算法、基于SVM(Support Vector Machine)向量模型进行计算等，可以计算出第一向量和第二向量的相似度即可。然后再将计算得到的第一相似度值映射值(0,1)区间中，使相似度的值可以体现在与1的线性距离中，便于后续与阈值之间的判断。

如上述步骤S5所述，将相似度值与设定阈值进行比较，可以判断各个句子的末端是否满足分段的初始条件，当满足该初始条件后，可以将对应的目标句子的末尾位置作为初始截断点，后续可以直接以初始截断点作为最终的截断点对文章进行截断，当包含了多个截断点的时候，可以在其中选取一个或者多个的初始截断点对文章进行截断，选取的规则不做限定，例如可以是使截断之后的各个段落的字数尽可能相差不大的初始截断点，也可以是选取其中相似度最小的初始截断点进行截断。

在一个实施例中，所述将每个截断点对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离的步骤S4，包括：

S401：通过公式

计算所述第一相似度值，其中，

为所述第一相似度值，

表示第一向量，

表示第二向量，

表示第一向量的第i维，

表示第二向量的第i维；

S402：通过公式

计算非线性映射至(0,1)区间的映射值；

S403：根据所述映射值求出与1的所述线性距离。

如上述步骤S401-S403所述，由于第一向量和第二向量的维数是相同的，故而可以对每一维度进行单独的计算，然后进行综合，得到第一相似度值，使相似度的计算尽可能多的使用输入值，减少函数的计算损失，使计算的效果更佳，然后再通过sigmoid函数计算每个第一相似度值在(0,1)区间的映射值，最后根据映射值求出与1的线性距离，求出的方式为通过1减去该映射值。

在一个实施例中，所述将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点的步骤S5之后，还包括：

S601：获取每个所述初始截断点至所述文章首端的第一文本距离，以及至所述文章末端的第二文本距离；

S602：根据公式

S603：根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断。

如上述步骤S601-S603所述，当存在多个初始截断点时，可以考虑每个截断点在文章中的位置，即第一文本距离和第二文本距离，然后优选在文章的中心位置处进行截断，因此可以对初始截断点的位置进行打分，即位置分值，然后根据公式

计算每个所述初始截断点的位置分值，然后根据位置分值和第一相似度值进行综合计算，选取预设个数的初始截断点作为目标截断点。

在一个实施例中，所述根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断的步骤S603，包括：

S6031：将所有所述初始截断点构成的集合记为第一集合；

S6032：从所述第一集合中选取所述预设个数的初始截断点构成的集合记为第二集合；

S6033：通过计算公式计算各第二集合的得分值；其中所述计算公式为

如上述步骤S6031-S6033所述，将各初始截断点构成的集合记为第一集合，当文章比较长的时候，初始截断点的数量会比较多，所需要的目标截断点也会相应比较多，因此，可以根据需要截断点的个数，即预设个数，从第一集合中筛选出不同的组合作为第二集合，然后通过公式计算第二集合的得分值，然后通过为第一相似度值和第二相似度值赋予不同的权重系数w和m，应当理解的是，当位置分值影响的因素比较大时，可以增大权重系数w，当第一相似度影响的因素比较大时，可以增大权重系数m，然后计算每个初始截断点的得分值，根据得分值的高低选取目标截断点。

在一个实施例中，所述根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断的步骤S603之前，还包括：

S6021：将所述文章中每个句子的所述第一句向量进行拼接得到所述文章的文章向量；

S6022：根据所述文章向量的维度在预设的列表中查找对应所述目标截断点的所述预设个数；其中，所述预设的列表中包含了所述文章向量的维度与所述目标截断点的所述预设个数的对应关系。

如上述步骤S6021-S6022所述，将文章中每个句子的第一句向量进行拼接得到文章的文章向量，此时可以根据文章向量的长度去预设的列表中查询目标截断点的预设个数，其中，预设的列表为事先设置的目标截断点的预设个数与文章向量的长度的对应关系。

在一个实施例中，所述将文章中的每个句子输入bert模型得到每个句子对应的多个词向量，并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量的步骤S1，包括：

S101：将所述句子进行预处理，并按照所述句子在所述文章中的位置建立TOKEN列表对所述句子的位置进行记录，其中所述预处理包括剔除所述问题中的标点符号、统一语种、删除不相关词句，所述不相关词句包括问候语、形容词以及脏词；

S102：通过所述bert模型读取数据集的文本数据，并通过所述bert模型fine-tuning的方式构建所述词向量，其中所述bert模型基于词语数据库训练而成；

S103：将所述词向量按照在所述句子中的先后顺序构成所述词向量序列，并根据所述词向量序列依次拼接构成第一句向量，以及反序依次拼接构成第二句向量。

如上述步骤S101-S103所述，为了简化生成的句向量，摒弃掉其他不相干的影响因素，可以将句子进行预处理，将标点符号、不相干的词句进行删除，以及将语种进行统一等，然后建立TOKEN列表，其目的是为了对每个句子进行标记，方便后续过程对各个句子进行计算，不至于发生位置的错乱。然后通过bert模型构建词向量，然后根据词向量序列进行依次拼接和反序的依次拼接形成第一句向量和第二句向量。

在另一个实施例中，所述将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点的步骤S5之后，包括：

S601：计算每个初始截断点相邻两个句子的目标句向量的第二相似度值；

S602：将所述第二相似度值小于预设相似度值的所述初始截断点提取出来作为第一截断点；

S603：通过预设的规则在第一截断点中筛选出目标截断点，并通过所述目标截断点对所述文章进行截断。

如上述步骤S601-S603所述，还可以是计算相邻两个句子的目标句向量的第二相似度值进行进一步的判定，当线性距离满足大于设定阈值的初始截断点，然后再计算该初始截断点相邻两个句向量的第二相似度值，然后将第二相似度值小于预设相似度值的初始截断点提取出来作为第一截断点，然后通过预设的规则，例如选取第二相似度最小的第一截断点作为目标截断点对文章进行截断，从而对文章完成分段。

参照图2，本申请还提供了一种文章截断点的设定装置，包括：

向量化模块10，用于将文章中的每个句子输入bert模型得到每个句子对应的多个词向量，并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量，其中所述第一句向量为按照所述词向量序列依次拼接而成，所述第二句向量为按照反序的所述词向量序列依次拼接而成；

向量拼接模块20，用于将每个句子的所述第一句向量的末端与所述第二句向量的首端拼接，得到每个句子的目标向量；

加权和计算模块30，用于从所述文章中选取目标句子，并将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量，将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量；其中，所述第一向量的维度等于所述第二向量的维度；

第一相似度值计算模块40，用于将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离；

初始截断点设定模块50，用于将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点。

将文章中的每个句子输入至bert模型中，以得到每个句子对应的多个词向量，其中文章中句子的划分，是通过分句符号进行划分，即从文章开头至第一个分句符号的内容为一个句子，分句符号之间的内容为一个句子，其中分句符号可以是中文表示的分句符号，也可以是英文表示的分句符号，分句符号可以是句号、感叹号、问号等符号。其中，bert模型可以基于不同的类别的语料数据库进行训练，即得到不同的bert模型，然后根据文章的类别选取对应的bert模型进行输入，由于对应的bert模型是基于对应类别的语料数据库训练的，故而通过该模型生成的词向量也会更优。

为了使每句话所包含的信息可以得到更好的计算，可以将按照词向量序列依次拼接而成的第一向量和反序的所述词向量序列依次拼接而成的第二向量进行拼接形成目标向量，通过目标向量可以减少后续计算的损失值，使后续进行相似度计算的结果更好。

选取目标句子，其中目标句子的选取可以是对文章中的每个句子依次选取，然后将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量，将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量，其中加权和计算包括对第一向量和/或第二向量进行升维计算或降维计算等，目的是为了使第一向量和第二向量的维度保持一致，以便于后续进行相似度计算。

对第一向量和第二向量进行相似度计算，其中相似度计算的公式可以是WMD算法(word mover’s distance)、simhash算法、基于余弦相似度的算法、基于SVM(Support Vector Machine)向量模型进行计算等，可以计算出第一向量和第二向量的相似度即可。然后再将计算得到的第一相似度值映射值(0,1)区间中，使相似度的值可以体现在与1的线性距离中，便于后续与阈值之间的判断。

将相似度值与设定阈值进行比较，可以判断各个句子的末端是否满足分段的初始条件，当满足该初始条件后，可以将对应的目标句子的末尾位置作为初始截断点，后续可以直接以初始截断点作为最终的截断点对文章进行截断，当包含了多个截断点的时候，可以在其中选取一个或者多个的初始截断点对文章进行截断，选取的规则不做限定，例如可以是使截断之后的各个段落的字数尽可能相差不大的初始截断点，也可以是选取其中相似度最小的初始截断点进行截断。

在一个实施例中，第一相似度值计算模块40，包括：

第一相似度值计算子模块，用于通过公式

计算所述第一相似度值，其中，

为所述第一相似度值，

表示第一向量，

表示第二向量，

表示第一向量的第i维，

表示第二向量的第i维；

映射值计算子模块，用于通过公式

计算非线性映射至(0,1)区间的映射值；

线性距离计算子模块，用于根据所述映射值求出与1的所述线性距离。

由于第一向量和第二向量的维数是相同的，故而可以对每一维度进行单独的计算，然后进行综合，得到第一相似度值，使相似度的计算尽可能多的使用输入值，减少函数的计算损失，使计算的效果更佳，然后再通过sigmoid函数计算每个第一相似度值在(0,1)区间的映射值，最后根据映射值求出与1的线性距离，求出的方式为通过1减去该映射值。

在一个实施例中，文章截断点的设定装置，还包括：

文本距离获取模块，用于获取每个所述初始截断点至所述文章首端的第一文本距离，以及至所述文章末端的第二文本距离；

位置分值计算模块，用于根据公式

目标截断点选取模块，用于根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断。

当存在多个初始截断点时，可以考虑每个截断点在文章中的位置，即第一文本距离和第二文本距离，然后优选在文章的中心位置处进行截断，因此可以对初始截断点的位置进行打分，即位置分值，然后根据公式

在一个实施例中，目标截断点选取模块，包括：

第一集合构成子模块，用于将所有所述初始截断点构成的集合记为第一集合；

第二集合构成子模块，用于从所述第一集合中选取所述预设个数的初始截断点构成的集合记为第二集合；

得分值计算子模块，用于通过计算公式计算各第二集合的得分值；其中所述计算公式为

选取子模块，用于选取所述得分值最高的所述第二集合，并将该集合中的初始截断点作为所述目标截断点。

将各初始截断点构成的集合记为第一集合，当文章比较长的时候，初始截断点的数量会比较多，所需要的目标截断点也会相应比较多，因此，可以根据需要截断点的个数，即预设个数，从第一集合中筛选出不同的组合作为第二集合，然后通过公式计算第二集合的得分值，然后通过为第一相似度值和第二相似度值赋予不同的权重系数w和m，应当理解的是，当位置分值影响的因素比较大时，可以增大权重系数w，当第一相似度影响的因素比较大时，可以增大权重系数m，然后计算每个初始截断点的得分值，根据得分值的高低选取目标截断点。

在一个实施例中，第一相似度值计算模块40，还包括：

文章向量拼接子模块，用于将所述文章中每个句子的所述第一句向量进行拼接得到所述文章的文章向量；

目标截断点查找子模块，用于根据所述文章向量的维度在预设的列表中查找对应所述目标截断点的所述预设个数；其中，所述预设的列表中包含了所述文章向量的维度与所述目标截断点的所述预设个数的对应关系。

将文章中每个句子的第一句向量进行拼接得到文章的文章向量，此时可以根据文章向量的长度去预设的列表中查询目标截断点的预设个数，其中，预设的列表为事先设置的目标截断点的预设个数与文章向量的长度的对应关系。

在一个实施例中，向量化模块10，包括：

预处理子模块，用于将所述句子进行预处理，并按照所述句子在所述文章中的位置建立TOKEN列表对所述句子的位置进行记录，其中所述预处理包括剔除所述问题中的标点符号、统一语种、删除不相关词句，所述不相关词句包括问候语、形容词以及脏词；

词向量读取子模块，用于通过所述bert模型读取数据集的文本数据，并通过所述bert模型fine-tuning的方式构建所述词向量，其中所述bert模型基于词语数据库训练而成；

词向量序列构成模块，用于将所述词向量按照在所述句子中的先后顺序构成所述词向量序列，并根据所述词向量序列依次拼接构成第一句向量，以及反序依次拼接构成第二句向量。

为了简化生成的句向量，摒弃掉其他不相干的影响因素，可以将句子进行预处理，将标点符号、不相干的词句进行删除，以及将语种进行统一等，然后建立TOKEN列表，其目的是为了对每个句子进行标记，方便后续过程对各个句子进行计算，不至于发生位置的错乱。然后通过bert模型构建词向量，然后根据词向量序列进行依次拼接和反序的依次拼接形成第一句向量和第二句向量。

在另一个实施例中，文章截断点的设定装置，包括：

第二相似度值计算模块，用于计算每个初始截断点相邻两个句子的目标句向量的第二相似度值；

第二相似度值判断模块，用于将所述第二相似度值小于预设相似度值的所述初始截断点提取出来作为第一截断点；

目标截断点筛选模块，用于通过预设的规则在第一截断点中筛选出目标截断点，并通过所述目标截断点对所述文章进行截断。

还可以是计算相邻两个句子的目标句向量的第二相似度值进行进一步的判定，当线性距离满足大于设定阈值的初始截断点，然后再计算该初始截断点相邻两个句向量的第二相似度值，然后将第二相似度值小于预设相似度值的初始截断点提取出来作为第一截断点，然后通过预设的规则，例如选取第二相似度最小的第一截断点作为目标截断点对文章进行截断，从而对文章完成分段。

本申请的有益效果：通过将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量，与将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量，进行相似度计算，充分考虑了所有句子的信息，可以对文章的截断点作出更好的选取。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种词向量等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的文章截断点的设定方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一实施例所述的文章截断点的设定方法。

Claims

一种文章截断点的设定方法，包括：

将文章中的每个句子输入bert模型得到每个句子对应的多个词向量，并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量，其中所述第一句向量为按照所述词向量序列依次拼接而成，所述第二句向量为按照反序的所述词向量序列依次拼接而成；

将每个句子的所述第一句向量的末端与所述第二句向量的首端拼接，得到每个句子的目标向量；

从所述文章中选取目标句子，并将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量，将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量；其中，所述第一向量的维度等于所述第二向量的维度；

将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离；

将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点。
如权利要求1所述的文章截断点的设定方法，其中，所述将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离的步骤，包括：

通过公式
计算所述第一相似度值，其中，
为所述第一相似度值，
表示第一向量，
表示第二向量，
表示第一向量的第i维，
表示第二向量的第i维；

通过公式
计算非线性映射至(0,1)区间的映射值；

根据所述映射值求出与1的所述线性距离。
如权利要求1所述的文章截断点的设定方法，其中，所述将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点的步骤之后，还包括：

获取每个所述初始截断点至所述文章首端的第一文本距离，以及至所述文章末端的第二文本距离；

根据公式
计算每个所述初始截断点的位置分值，其中所述K为位置分值，X为所述第一文本距离，Y为所述第二文本距离；

根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断。
如权利要求3所述的文章截断点的设定方法，其中，所述根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断的步骤，包括：

将所有所述初始截断点构成的集合记为第一集合；

从所述第一集合中选取所述预设个数的初始截断点构成的集合记为第二集合；

通过计算公式计算各第二集合的得分值；其中所述计算公式为

w和m分别为预设的权重参数；h ₁，h ₂，…，h _n为所述第二集合中的元素对应的第一相似度值；ΔR _i为第i组从第二集合中挑选出的两个元素对应的第一相似度值之差；n表示第二集合中元素的个数，F(n)表示得分值；

选取所述得分值最高的所述第二集合，并将该集合中的初始截断点作为所述目标截断点。
如权利要求3所述的文章截断点的设定方法，其中，所述根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断的步骤之前，还包括：

将所述文章中每个句子的所述第一句向量进行拼接得到所述文章的文章向量；

根据所述文章向量的维度在预设的列表中查找对应所述目标截断点的所述预设个数；其中，所述预设的列表中包含了所述文章向量的维度与所述目标截断点的所述预设个数的对应关系。
如权利要求1所述的文章截断点的设定方法，其中，所述将文章中的每个句子输入bert模型得到每个句子对应的多个词向量，并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量的步骤，包括：

将所述句子进行预处理，并按照所述句子在所述文章中的位置建立TOKEN列表对所述句子的位置进行记录，其中所述预处理包括剔除所述问题中的标点符号、统一语种、删除不相关词句，所述不相关词句包括问候语、形容词以及脏词；

通过所述bert模型读取数据集的文本数据，并通过所述bert模型fine-tuning的方式构建所述词向量，其中所述bert模型基于词语数据库训练而成；

将所述词向量按照在所述句子中的先后顺序构成所述词向量序列，并根据所述词向量序列依次拼接构成第一句向量，以及反序依次拼接构成第二句向量。
如权利要求1所述的文章截断点的设定方法，其中，所述将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点的步骤之后，包括：

计算每个初始截断点相邻两个句子的目标句向量的第二相似度值；

将所述第二相似度值小于预设相似度值的所述初始截断点提取出来作为第一截断点；

通过预设的规则在第一截断点中筛选出目标截断点，并通过所述目标截断点对所述文章进行截断。
一种文章截断点的设定装置，包括：

向量化模块，用于将文章中的每个句子输入bert模型得到每个句子对应的多个词向量，并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量，其中所述第一句向量为按照所述词向量序列依次拼接而成，所述第二句向量为按照反序的所述词向量序列依次拼接而成；

向量拼接模块，用于将每个句子的所述第一句向量的末端与所述第二句向量的首端拼接，得到每个句子的目标向量；

加权和计算模块，用于从所述文章中选取目标句子，并将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量，将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量；其中，所述第一向量的维度等于所述第二向量的维度；

第一相似度值计算模块，用于将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离；

初始截断点设定模块，用于将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现文章截断点的设定方法的步骤：

将文章中的每个句子输入bert模型得到每个句子对应的多个词向量，并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量，其中所述第一句向量为按照所述词向量序列依次拼接而成，所述第二句向量为按照反序的所述词向量序列依次拼接而成；

将每个句子的所述第一句向量的末端与所述第二句向量的首端拼接，得到每个句子的目标向量；

从所述文章中选取目标句子，并将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量，将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量；其中，所述第一向量的维度等于所述第二向量的维度；

将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离；

将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点。
如权利要求9所述的计算机设备，其中，所述将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离的步骤，包括：

通过公式
计算所述第一相似度值，其中，
为所述第一相似度值，
表示第一向量，
表示第二向量，
表示第一向量的第i维，
表示第二向量的第i维；

通过公式
计算非线性映射至(0,1)区间的映射值；

根据所述映射值求出与1的所述线性距离。
如权利要求9所述的计算机设备，其中，所述将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点的步骤之后，还包括：

获取每个所述初始截断点至所述文章首端的第一文本距离，以及至所述文章末端的第二文本距离；

根据公式
计算每个所述初始截断点的位置分值，其中所述K为位置分值，X为所述第一文本距离，Y为所述第二文本距离；

根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断。
如权利要求11所述的计算机设备，其中，所述根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断的步骤，包括：

将所有所述初始截断点构成的集合记为第一集合；

从所述第一集合中选取所述预设个数的初始截断点构成的集合记为第二集合；

通过计算公式计算各第二集合的得分值；其中所述计算公式为

w和m分别为预设的权重参数；h ₁，h ₂，…，h _n为所述第二集合中的元素对应的第一相似度值；ΔR _i为第i组从第二集合中挑选出的两个元素对应的第一相似度值之差；n表示第二集合中元素的个数，F(n)表示得分值；

选取所述得分值最高的所述第二集合，并将该集合中的初始截断点作为所述目标截断点。
如权利要求11所述的计算机设备，其中，所述根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断的步骤之前，还包括：

将所述文章中每个句子的所述第一句向量进行拼接得到所述文章的文章向量；

根据所述文章向量的维度在预设的列表中查找对应所述目标截断点的所述预设个数；其中，所述预设的列表中包含了所述文章向量的维度与所述目标截断点的所述预设个数的对应关系。
如权利要求9所述的计算机设备，其中，所述将文章中的每个句子输入bert模型得到每个句子对应的多个词向量，并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量的步骤，包括：

将所述句子进行预处理，并按照所述句子在所述文章中的位置建立TOKEN列表对所述句子的位置进行记录，其中所述预处理包括剔除所述问题中的标点符号、统一语种、删除不相关词句，所述不相关词句包括问候语、形容词以及脏词；

通过所述bert模型读取数据集的文本数据，并通过所述bert模型fine-tuning的方式构建所述词向量，其中所述bert模型基于词语数据库训练而成；

将所述词向量按照在所述句子中的先后顺序构成所述词向量序列，并根据所述词向量序列依次拼接构成第一句向量，以及反序依次拼接构成第二句向量。
如权利要求1所述的计算机设备，其中，所述将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点的步骤之后，包括：

计算每个初始截断点相邻两个句子的目标句向量的第二相似度值；

将所述第二相似度值小于预设相似度值的所述初始截断点提取出来作为第一截断点；

通过预设的规则在第一截断点中筛选出目标截断点，并通过所述目标截断点对所述文章进行截断。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现文章截断点的设定方法的步骤：

将文章中的每个句子输入bert模型得到每个句子对应的多个词向量，并用词向量序列形式输入到双向长短期记忆网络中得到每个句子对应的第一句向量和第二句向量，其中所述第一句向量为按照所述词向量序列依次拼接而成，所述第二句向量为按照反序的所述词向量序列依次拼接而成；

将每个句子的所述第一句向量的末端与所述第二句向量的首端拼接，得到每个句子的目标向量；

从所述文章中选取目标句子，并将文章的首端至所述目标句子末端的每一个句子对应的目标向量进行加权和计算得到第一向量，将所述目标句子末端至所述文章末端的每一个句子对应的目标向量进行加权和计算得到第二向量；其中，所述第一向量的维度等于所述第二向量的维度；

将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离；

将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点。
如权利要求16所述的计算机可读存储介质，其中，所述将所述目标句子对应的第一向量和第二向量进行相似度计算，将计算得到的第一相似度值再进行sigmoid非线性映射至(0,1)区间，求出与1的线性距离的步骤，包括：

通过公式
计算所述第一相似度值，其中，
为所述第一相似度值，
表示第一向量，
表示第二向量，
表示第一向量的第i维，
表示第二向量的第i维；

通过公式
计算非线性映射至(0,1)区间的映射值；

根据所述映射值求出与1的所述线性距离。
如权利要求16所述的计算机可读存储介质，其中，所述将所述线性距离与设定阈值比较，当所述线性距离高于设定阈值时，将所述目标句子的末尾位置作为初始截断点的步骤之后，还包括：

获取每个所述初始截断点至所述文章首端的第一文本距离，以及至所述文章末端的第二文本距离；

根据公式
计算每个所述初始截断点的位置分值，其中所述K为位置分值，X为所述第一文本距离，Y为所述第二文本距离；

根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断。
如权利要求18所述的计算机可读存储介质，其中，所述根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断的步骤，包括：

将所有所述初始截断点构成的集合记为第一集合；

从所述第一集合中选取所述预设个数的初始截断点构成的集合记为第二集合；

通过计算公式计算各第二集合的得分值；其中所述计算公式为

w和m分别为预设的权重参数；h ₁，h ₂，…，h _n为所述第二集合中的元素对应的第一相似度值；ΔR _i为第i组从第二集合中挑选出的两个元素对应的第一相似度值之差；n表示第二集合中元素的个数，F(n)表示得分值；

选取所述得分值最高的所述第二集合，并将该集合中的初始截断点作为所述目标截断点。
如权利要求18所述的计算机可读存储介质，其中，所述根据各所述初始截断点对应的所述第一相似度值以及所述位置分值，从所述初始截断点中选取预设个数的目标截断点对所述文章进行截断的步骤之前，还包括：

将所述文章中每个句子的所述第一句向量进行拼接得到所述文章的文章向量；

根据所述文章向量的维度在预设的列表中查找对应所述目标截断点的所述预设个数；其中，所述预设的列表中包含了所述文章向量的维度与所述目标截断点的所述预设个数的对应关系。