WO2021213155A1

WO2021213155A1 - 文本添加标点的方法、装置、介质及电子设备

Info

Publication number: WO2021213155A1
Application number: PCT/CN2021/084169
Authority: WO
Inventors: 颜泽龙; 王健宗; 吴天博; 程宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-11-25
Filing date: 2021-03-30
Publication date: 2021-10-28
Also published as: CN112464642A

Abstract

一种文本添加标点方法、装置、介质及电子设备，涉及人工智能领域。该方法包括：获取待添加文本，将待添加文本进行分词得到多个词语（210），获取多个词语中各个词语之间的关系，得到各个词语的依赖词及各个词语与其依赖词之间的关系（220），基于各个词语、各个词语的依赖词及各个词语与其依赖词之间的关系，确定各个词语的关系向量（230），获取多个词语的关系向量之间的关系（240），基于关系向量之间的关系，在多个词语之间添加标点（250），考虑到了待添加文本中词与词之间的关系，并且考虑到了待添加文本中词与文本之间的关系，能够在一定程度上提高标点添加的准确性。

Description

文本添加标点的方法、装置、介质及电子设备

本申请要求于2020年11月25日提交中国专利局、申请号为202011344671.1，申请名称为“文本添加标点的方法、装置、介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于人工智能技术领域，特别涉及一种文本添加标点的方法、装置、介质及电子设备。

背景技术

随着人工智能的不断发展，各种深度学习营运而生。在当下，无论是语音识别生成的文本，还是各种社交网络语料，都是不带任何标点符号的文本。由于缺乏必要的句子边界和标点信息，文本的可读性较低，对下游的一些自然语言处理任务，如意图识别、命名实体识别等有一定的影响。发明人意识到现有的标点添加方法需要人为构建特征作为输入，没有考虑到待添加文本自身的特征，添加的标点不够准确。

技术问题

根据上述技术问题，本申请提供一种文本添加标点的方法、装置、介质及电子设备，其能够在一定程度上提高标点添加的准确性。

技术解决方案

根据本申请实施例的一个方面，提供了一种文本添加标点方法包括：获取待添加文本，将所述待添加文本进行分词得到多个词语；获取所述多个词语中各个词语之间的关系，得到各个词语的依赖词及所述各个词语与其依赖词之间的关系；基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系，确定所述各个词语的关系向量；获取所述多个词语的关系向量之间的关系；基于所述关系向量之间的关系，在所述多个词语之间添加标点。

根据本申请实施例的一个方面，提供了一种文本添加标点装置，包括：获取模块，配置为获取待添加文本，将所述待添加文本进行分词得到多个词语；获取所述多个词语中各个词语之间的关系，得到各个词语的依赖词及所述各个词语与其依赖词之间的关系；确定模块，配置为基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系，确定所述各个词语的关系向量；添加模块，配置为获取所述多个词语的关系向量之间的关系，基于所述关系向量之间的关系，在所述多个词语之间添加标点。

根据本申请实施例的一个方面，提供了一种计算机可读程序介质，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，所述至少一个指令被处理器执行时实现时执行以下步骤：获取待添加文本，将所述待添加文本进行分词得到多个词语；获取所述多个词语中各个词语之间的关系，得到各个词语的依赖词及所述各个词语与其依赖词之间的关系；基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系，确定所述各个词语的关系向量；获取所述多个词语的关系向量之间的关系；基于所述关系向量之间的关系，在所述多个词语之间添加标点。

根据本申请实施例的一个方面，提供了一种电子装置，包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述处理器执行所述计算机可读指令时执行以下步骤：获取待添加文本，将所述待添加文本进行分词得到多个词语；获取所述多个词语中各个词语之间的关系，得到各个词语的依赖词及所述各个词语与其依赖词之间的关系；基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系，确定所述各个词语的关系向量；获取所述多个词语的关系向量之间的关系；基于所述关系向量之间的关系，在所述多个词语之间添加标点。

有益效果

在本申请的一些实施例所提供的技术方案中，通过获取待添加文本，将待添加文本进行分词得到多个词语，获取多个词语中各个词语之间的关系，得到各个词语的依赖词及各个词语与其依赖词之间的关系，基于各个词语、各个词语的依赖词及各个词语与其依赖词之间的关系，确定各个词语的关系向量，获取多个词语的关系向量之间的关系，基于关系向量之间的关系，在多个词语之间添加标点，考虑到了待添加文本中词与词之间的关系，并且考虑到了待添加文本中词与文本之间的关系，能够在一定程度上提高标点添加的准确性。

附图说明

图1示出了可以应用本申请实施例的技术方案的示例性系统架构示意图；

图2示意性示出了本申请的一个实施例的文本添加标点方法的流程图；

图3示意性示出了本申请的一个实施例的文本添加标点的系统的结构示意图；

图4示意性示出了根据本申请的一个实施例的文本添加标点装置的框图；

图5是根据一示例性实施例示出的一种电子装置的硬件图；

图6是根据一示例性实施例示出的一种用于实现方法的计算机可读存储介质。

本发明的实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构100示意图。

如图1所示，系统架构100可以包括终端设备101（可以是智能手机、平板电脑和便携式计算机中的一种或多种，当然也可以是台式计算机等等）、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备101、网络102和服务器103的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备101、网络102和服务器103。比如服务器103可以是多个服务器组成的服务器集群等。

在本申请的一个实施例中，服务器103通过获取待添加文本，将待添加文本进行分词得到多个词语，获取多个词语中各个词语之间的关系，得到各个词语的依赖词及各个词语与其依赖词之间的关系，基于各个词语、各个词语的依赖词及各个词语与其依赖词之间的关系，确定各个词语的关系向量，获取多个词语的关系向量之间的关系，基于关系向量之间的关系，在多个词语之间添加标点，考虑到了待添加文本中词与词之间的关系，并且考虑到了待添加文本中词与文本之间的关系，能够在一定程度上提高标点添加的准确性。

需要说明的是，本申请实施例所提供的文本添加标点方法一般由服务器103执行，相应地，文本添加标点装置一般设置于中服务器103。但是，在本申请的其它实施例中，终端设备101也可以与服务器103具有相似的功能，从而执行本申请实施例所提供的文本添加标点方法。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示意性示出了根本申请的一个实施例的文本添加标点方法的流程图，该文本添加标点方法的执行主体可以是服务器，比如可以是图1中所示的服务器103。

参照图2所示，该文本添加标点方法至少包括步骤S210至步骤S250，详细介绍如下：

在步骤S210中，获取待添加文本，将待添加文本进行分词得到多个词语。

在本申请的一个实施例中，可以将待添加文本按照文本顺序进行分词，得到第一分词结果；将待添加文本按照文本倒序进行分词，得到第二分词结果；获取第一分词结果与第二分词结果之间的差异，将差异对应的待添加文本从中间到两边进行分词，得到差异结果；将第一分词结果中与第二分词结果之间的差异替换为差异结果，将替换后的第一分词结果作为多个词语。

在本申请的一个实施例中，可以对待添加文本中的无意义字符进行过滤后分词。

在本申请的一个实施例中，可以识别所述待添加文本中的每个字，获取每个字和与该字相近的字结合后对照预设的词语表，将在预设词语表中的词语进行分词。

在本申请的一个实施例中，可以获取每个字的字义，若相邻的字的字义能够结合，则将该字和相邻的字作为一个词语。

在本申请的一个实施例中，可以将待添加文本输入预训练的分词模型，得到分词模型输出的多个词语。

在步骤S220中，获取多个词语中各个词语之间的关系，得到各个词语的依赖词及各个词语与其依赖词之间的关系。

在本申请的一个实施例中，可以获取各个词语的词性和位置；根据各个词语的词性和位置，确定各个词语之间的关系。

在本申请的一个实施例中，可以获取每个词语的词义，根据词义确定多个词语之间的关系。

在本申请的一个实施例中，对于多个词语中的每个词语，可以分别根据该词语和多个词语中的任一词语查找词语关系表，得到与该词语具有关联的依赖词以及该词语与依赖词之间的关系。

在本申请的一个实施例中，可以将多个词语输入预训练的关系获取模型，得到关系获取模型输出的多个词语之间的关系。

在本申请的一个实施例中，关系获取模型可以是句法依存树模型。

在本申请的一个实施例中，依赖关系可以包括：主从关系、动宾关系、被动关系、从属关系、固定搭配、同位语、形容词等。

在本申请的一个实施例中，可以为每一种依赖关系设定一个标签，以方便下文根据标签生成向量。

在步骤S230中，基于各个词语、各个词语的依赖词及各个词语与其依赖词之间的关系，确定各个词语的关系向量。

在本申请的一个实施例中，可以获取基于各个词语得到的第一向量；获取基于各个词语的依赖词得到的第二向量；获取基于各个词语与其依赖词之间的关系得到的第三向量；将第一向量、第二向量和第三向量进行组合，得到各个词语对应的关系向量。

在本申请的一个实施例中，可以将各个词语进行编码得到第一序列；将各个词语的依赖词进行编码得到第二序列；将各个词语与其依赖词之间的关系进行编码得到第三序列；对第一序列、第二序列和第三序列进行截断或补零，将截断或补零后的第一序列映射为第一向量，将截断或补零后的第二序列映射为第二向量，将截断或补零后的第三序列映射为第三向量。

在本申请的一个实施例中，可以将第一序列、第二序列和第三序列从前向后进行截断。

在步骤S240中，获取多个词语的关系向量之间的关系。

在本申请的一个实施例中，可以将多个词语的关系向量输入预训练的注意力模型，得到多个词语的关系向量之间的关系，预训练的注意力模型能够充分考虑到每个关系向量之间的关系。

在步骤S250中，基于关系向量之间的关系，在多个词语之间添加标点。

在本申请的一个实施例中，可以通过条件随机场在多个词语之间添加标点。

在本申请的一个实施例中，可以将标点添加在多个词语之间，以得到多种添加方式；通过双向LSTM层对关系向量之间的关系进行特征提取；基于特征，利用维特比算法计算各种添加方式的概率，基于多种方式中概率最大的添加方式在多个词语之间添加标点。

在该实施例中，双向LSTM层能够对文本进行更深层次的特定提取，得到文本的特征输出向量N*K，K是LSTM层是神经元的个数。

例如：假设在某某场景中，预测的标点类型有三类，无标点，逗号，句号。对于预测文本【小张的医生是小李】，总共有5个位置需要预测，没每个位置有3中可能情况，总共有3*3*3*3**3种预测结果，假设【无标点，无标点，无标点，无标点，句号】是其中概率值最大的结果，则最终的预测结果为【小张的医生是小李。】

在图2的实施例中，通过获取待添加文本，将待添加文本进行分词得到多个词语，获取多个词语中各个词语之间的关系，得到各个词语的依赖词及各个词语与其依赖词之间的关系，基于各个词语、各个词语的依赖词及各个词语与其依赖词之间的关系，确定各个词语的关系向量，获取多个词语的关系向量之间的关系，基于关系向量之间的关系，在多个词语之间添加标点，考虑到了待添加文本中词与词之间的关系，并且考虑到了待添加文本中词与文本之间的关系，能够在一定程度上提高标点添加的准确性。

本申请的文本添加标点的方法，通过对缺乏句子边界信息的中文文本添加标点符号，补充必要的句子结构信息，提高文本的可读性，进而提高下游自然语言处理任务的效果。

在本申请的一个实施例中，本申请提供了一种文本添加标点的系统，文本添加标点的系统应用本申请的文本添加标点的方法处理医待添加标点的文本，图3示意性示出了本申请的一个实施例的文本添加标点的系统的结构示意图，如图3所示，文本添加标点的系统可以包括输入模块（Input）、句法依存树模块（Dependency tree）、合并模块（concat）、注意力模块（Attention）、特征提取模块（BiLSTM）、条件随机场模块(CRF）和输出模块（Output）。

应用本申请的文本添加标点的方法处理医学信息文本的过程可以包括：输入模块，医学信息文本医学信息文本的长度可以为 l1通过句法依存树模块分词，经过分词可以获得以词为单位的序列,长度为 l2，以词为单位的序列长度会短于以字为单位的文本长度。然后再提取整句话的句法关系，可以提取到各个词的依赖词及各个词和其依赖词之间的关系，通过对得到的句法关系的整合，可以获取到每个词的相关依赖词和对应的语义关系。

例如：【小张的医生是小李】，长度为8，经过分词，各个位置的预测标签为【B E S B E S B E】,通过对标签的整合，得到【小张的医生是小李】长度为5的以词为单位的文本序列，然后经过语法依存树，得到各个位置三元组总共5个，如（小张，医生，1），（的，医生，2），（医生，是，3），（是，是，4），（小李，是，5）。经过对上述三元组的整合，可以获得对应的相关依赖词序列为【医生医生是是是】，和相应的语义关系序列【1 2 3 4 5】，这里的每一个数字代表着一种类型的语义关系，具体的语义关系总共有几十种，包括主从被动关系，固定搭配等等。如果当前位置的词处于句法依存数的根位置，那么它相应的相关词就是它自身，如样例中的【是】,对应的关系我们另外标记为【root】。

在本申请的一个实施例中，应用本申请的文本添加标点的方法处理医学信息文本的过程还可以包括：根据语义关系得到语义向量（参照上文获取第一向量、第二向量、第三向量的步骤），将语义向量进行长度标准化，标准长度设置为N，长度超过N进行截断，只保留前N个字，长度少于N的进行补零，得到三个长度为N的序列，将根据各个词语得到的第一向量（Word Emb），根据各个词语的依赖词得到的第二向量(Parent Emb)，根据各个词语与其依赖词之间的关系得到的第三向量(Relation Emb)。

在本申请的一个实施例中，可以将第一向量、第二向量和第三向量通过合并模块合并到一起，每一个词嵌入向量是M维度，所以会得到一个N*3M的向量。

在本申请的一个实施例中，应用本申请的文本添加标点的方法处理医学信息文本的过程还可以包括：通过条件随机场，将神经网络提取得到的向量作为输入，利用维特比算法，计算各个预测路径之间的概率，选取其中概率值最大的作为标点预测对的结果。假设在某某场景中，预测的标点类型有三类，无标点，逗号，句号。对于预测文本【小张的医生是小李】，总共有5个位置需要预测，没每个位置有3中可能情况，总共有3*3*3*3**3种预测结果，假设【无标点，无标点，无标点，无标点，句号】是其中概率值最大的结果，则最终的预测结果为【小张的医生是小李。】。

应用本申请的文本添加标点的方法处理医学信息文本，基于句法依存树和注意力机制的中文标点预测，既利用神经网络里面LSTM对的特征提取能力，有利用了条件随机场对输出序列的建模能力，还能巧妙的运用了句法依存树和注意力机制，能够充分考虑到词与词之间的联系，尽可能的挖掘其中的语义关系信息，将整句话当作一个整体，考虑到整体预测的合理性，在实际利用中效果明显由于现有的模型。本申请能自动为文本添加标点符号，补充必要的句子结构信息，会大大提高后续自然语言处理任务的效果。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的机器人控制方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的机器人控制方法的实施例。

图4示意性示出了根据本申请的一个实施例的文本添加标点装置的框图。

参照图4所示，根据本申请的一个实施例的文本添加标点装置400，包括获取模块401、确定模块402和添加模块403。

在本申请的一些实施例中，基于前述方案，获取模块401配置为，配置为获取待添加文本，将待添加文本进行分词得到多个词语；获取多个词语中各个词语之间的关系，得到各个词语的依赖词及各个词语与其依赖词之间的关系；确定模块402配置为基于各个词语、各个词语的依赖词及各个词语与其依赖词之间的关系，确定各个词语的关系向量；添加模块403配置为获取多个词语的关系向量之间的关系，基于关系向量之间的关系，在多个词语之间添加标点。

在本申请的一些实施例中，基于前述方案，获取模块401配置为：将待添加文本按照文本顺序进行分词，得到第一分词结果；将待添加文本按照文本倒序进行分词，得到第二分词结果；获取第一分词结果与第二分词结果之间的差异，将差异对应的待添加文本从中间到两边进行分词，得到差异结果；将第一分词结果中与第二分词结果之间的差异替换为差异结果，将替换后的第一分词结果作为多个词语。

在本申请的一些实施例中，基于前述方案，获取模块401配置为：获取各个词语的词性和位置；根据各个词语的词性和位置，确定各个词语之间的关系。

在本申请的一些实施例中，基于前述方案，确定模块402配置为：获取基于各个词语得到的第一向量；获取基于各个词语的依赖词得到的第二向量；获取基于各个词语与其依赖词之间的关系得到的第三向量；将第一向量、第二向量和第三向量进行组合，得到各个词语对应的关系向量。

在本申请的一些实施例中，基于前述方案，确定模块402配置为：将各个词语进行编码得到第一序列；将各个词语的依赖词进行编码得到第二序列；将各个词语与其依赖词之间的关系进行编码得到第三序列；对第一序列、第二序列和第三序列进行截断或补零，将截断或补零后的第一序列映射为第一向量，将截断或补零后的第二序列映射为第二向量，将截断或补零后的第三序列映射为第三向量。

在本申请的一些实施例中，基于前述方案，添加模块403配置为：将多个词语的关系向量输入预训练的注意力模型，得到多个词语的关系向量之间的关系。

在本申请的一些实施例中，基于前述方案，添加模块403配置为：将标点添加在多个词语之间，以得到多种添加方式；通过双向LSTM层对关系向量之间的关系进行特征提取；基于特征，利用维特比算法计算各种添加方式的概率，基于多种方式中概率最大的添加方式在多个词语之间添加标点。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图5来描述根据本申请的这种实施方式的电子设备50。图5显示的电子设备50仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，电子设备50以通用计算设备的形式表现。电子设备50的组件可以包括但不限于：上述至少一个处理单元51、上述至少一个存储单元52、连接不同系统组件（包括存储单元52和处理单元51）的总线53、显示单元54。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元51执行，使得所述处理单元51执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。

存储单元52可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）521和/或高速缓存存储单元522，还可以进一步包括只读存储单元（ROM）523。

存储单元52还可以包括具有一组（至少一个）程序模块525的程序/实用工具524，这样的程序模块525包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线53可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备50也可以与一个或多个外部设备（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备50交互的设备通信，和/或与使得该电子设备50能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口55进行。并且，电子设备50还可以通过网络适配器56与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器56通过总线53与电子设备50的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本申请实施方式的方法。

根据本申请一个实施例，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

参考图6所示，描述了根据本申请的实施方式的用于实现上述方法的程序产品60，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质可以是可读信号介质或者可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性。计算机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

此外，上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种文本添加标点的方法，其中，包括：

获取待添加文本，将所述待添加文本进行分词得到多个词语；

获取所述多个词语中各个词语之间的关系，得到各个词语的依赖词及所述各个词语与其依赖词之间的关系；

基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系，确定所述各个词语的关系向量；

获取所述多个词语的关系向量之间的关系；

基于所述关系向量之间的关系，在所述多个词语之间添加标点。
根据权利要求1所述的文本添加标点的方法，其中，所述将所述待添加文本进行分词得到多个词语,包括：

将所述待添加文本按照文本顺序进行分词，得到第一分词结果；

将所述待添加文本按照文本倒序进行分词，得到第二分词结果；

获取所述第一分词结果与所述第二分词结果之间的差异，将所述差异对应的待添加文本从中间到两边进行分词，得到差异结果；

将所述第一分词结果中与所述第二分词结果之间的差异替换为所述差异结果，将替换后的第一分词结果作为所述多个词语。
根据权利要求1所述的文本添加标点的方法，其中，所述获取所述多个词语之间的关系，包括：

获取所述各个词语的词性和位置；

根据所述各个词语的词性和位置，确定所述各个词语之间的关系。
根据权利要求1所述的文本添加标点的方法，其中，所述基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系，确定所述各个词语对应的关系向量，包括:

获取基于所述各个词语得到的第一向量；

获取基于所述各个词语的依赖词得到的第二向量；

获取基于所述各个词语与其依赖词之间的关系得到的第三向量；

将所述第一向量、所述第二向量和所述第三向量进行组合，得到所述各个词语对应的关系向量。
根据权利要求4所述的文本添加标点的方法，其中，所述获取基于所述各个词语得到的第一向量；获取基于所述各个词语的依赖词得到的第二向量；获取基于所述各个词语与其依赖词之间的关系得到的第三向量，包括：

将所述各个词语进行编码得到第一序列；

将所述各个词语的依赖词进行编码得到第二序列；

将所述各个词语与其依赖词之间的关系进行编码得到第三序列；

对所述第一序列、所述第二序列和所述第三序列进行截断或补零，将截断或补零后的第一序列映射为所述第一向量，将截断或补零后的第二序列映射为所述第二向量，将截断或补零后的第三序列映射为所述第三向量。
根据权利要求1所述的文本添加标点的方法，其中，所述获取所述多个词语的关系向量之间的关系，包括：

将所述所述多个词语的关系向量输入预训练的注意力模型，得到所述多个词语的关系向量之间的关系。
根据权利要求1所述的文本添加标点的方法，其中，所述基于所述关系向量之间的关系，在所述多个词语之间添加标点，包括：

将标点添加在所述多个词语之间，以得到多种添加方式；

通过双向LSTM层对所述关系向量之间的关系进行特征提取；

基于所述特征，利用维特比算法计算各种添加方式的概率，基于所述多种方式中概率最大的添加方式在所述多个词语之间添加标点。
一种文本添加标点的装置，其中，包括：

获取模块，配置为获取待添加文本，将所述待添加文本进行分词得到多个词语；获取所述多个词语中各个词语之间的关系，得到各个词语的依赖词及所述各个词语与其依赖词之间的关系；

确定模块，配置为基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系，确定所述各个词语的关系向量；

添加模块，配置为获取所述多个词语的关系向量之间的关系，基于所述关系向量之间的关系，在所述多个词语之间添加标点。
一种电子装置，其中，所述电子装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时执行以下步骤：

获取待添加文本，将所述待添加文本进行分词得到多个词语；

获取所述多个词语中各个词语之间的关系，得到各个词语的依赖词及所述各个词语与其依赖词之间的关系；

基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系，确定所述各个词语的关系向量；

获取所述多个词语的关系向量之间的关系；

基于所述关系向量之间的关系，在所述多个词语之间添加标点。
根据权利要求9所述的电子装置，其中，所述将所述待添加文本进行分词得到多个词语，包括：

将所述待添加文本按照文本顺序进行分词，得到第一分词结果；

将所述待添加文本按照文本倒序进行分词，得到第二分词结果；

获取所述第一分词结果与所述第二分词结果之间的差异，将所述差异对应的待添加文本从中间到两边进行分词，得到差异结果；

将所述第一分词结果中与所述第二分词结果之间的差异替换为所述差异结果，将替换后的第一分词结果作为所述多个词语。
根据权利要求9所述的电子装置，其中，所述获取所述多个词语之间的关系，包括：

获取所述各个词语的词性和位置；

根据所述各个词语的词性和位置，确定所述各个词语之间的关系。
根据权利要求9所述的电子装置，其中，所述基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系，确定所述各个词语对应的关系向量，包括:

获取基于所述各个词语得到的第一向量；

获取基于所述各个词语的依赖词得到的第二向量；

获取基于所述各个词语与其依赖词之间的关系得到的第三向量；

将所述第一向量、所述第二向量和所述第三向量进行组合，得到所述各个词语对应的关系向量。
根据权利要求12所述的电子装置，其中，所述获取基于所述各个词语得到的第一向量；获取基于所述各个词语的依赖词得到的第二向量；获取基于所述各个词语与其依赖词之间的关系得到的第三向量，包括：

将所述各个词语进行编码得到第一序列；

将所述各个词语的依赖词进行编码得到第二序列；

将所述各个词语与其依赖词之间的关系进行编码得到第三序列；

对所述第一序列、所述第二序列和所述第三序列进行截断或补零，将截断或补零后的第一序列映射为所述第一向量，将截断或补零后的第二序列映射为所述第二向量，将截断或补零后的第三序列映射为所述第三向量。
根据权利要求9所述的电子装置，其中，所述获取所述多个词语的关系向量之间的关系，包括：

将所述所述多个词语的关系向量输入预训练的注意力模型，得到所述多个词语的关系向量之间的关系。
根据权利要求9所述的电子装置，其中，所述基于所述关系向量之间的关系，在所述多个词语之间添加标点，包括：

将标点添加在所述多个词语之间，以得到多种添加方式；

通过双向LSTM层对所述关系向量之间的关系进行特征提取；

基于所述特征，利用维特比算法计算各种添加方式的概率，基于所述多种方式中概率最大的添加方式在所述多个词语之间添加标点。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现时执行以下步骤：

获取待添加文本，将所述待添加文本进行分词得到多个词语；

获取所述多个词语中各个词语之间的关系，得到各个词语的依赖词及所述各个词语与其依赖词之间的关系；

基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系，确定所述各个词语的关系向量；

获取所述多个词语的关系向量之间的关系；

基于所述关系向量之间的关系，在所述多个词语之间添加标点。
根据权利要求16所述的计算机可读存储介质，其中，所述将所述待添加文本进行分词得到多个词语，包括：

将所述待添加文本按照文本顺序进行分词，得到第一分词结果；

将所述待添加文本按照文本倒序进行分词，得到第二分词结果；

获取所述第一分词结果与所述第二分词结果之间的差异，将所述差异对应的待添加文本从中间到两边进行分词，得到差异结果；

将所述第一分词结果中与所述第二分词结果之间的差异替换为所述差异结果，将替换后的第一分词结果作为所述多个词语。
根据权利要求16所述的计算机可读存储介质，其中，所述获取所述多个词语之间的关系，包括：

获取所述各个词语的词性和位置；

根据所述各个词语的词性和位置，确定所述各个词语之间的关系。
根据权利要求16所述的计算机可读存储介质，其中，所述基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系，确定所述各个词语对应的关系向量，包括:

获取基于所述各个词语得到的第一向量；

获取基于所述各个词语的依赖词得到的第二向量；

获取基于所述各个词语与其依赖词之间的关系得到的第三向量；

将所述第一向量、所述第二向量和所述第三向量进行组合，得到所述各个词语对应的关系向量。
根据权利要求19所述的计算机可读存储介质，其中，所述获取基于所述各个词语得到的第一向量；获取基于所述各个词语的依赖词得到的第二向量；获取基于所述各个词语与其依赖词之间的关系得到的第三向量，包括：

将所述各个词语进行编码得到第一序列；

将所述各个词语的依赖词进行编码得到第二序列；

将所述各个词语与其依赖词之间的关系进行编码得到第三序列；

对所述第一序列、所述第二序列和所述第三序列进行截断或补零，将截断或补零后的第一序列映射为所述第一向量，将截断或补零后的第二序列映射为所述第二向量，将截断或补零后的第三序列映射为所述第三向量。