WO2021179570A1

WO2021179570A1 - 序列标注方法、装置、计算机设备和存储介质

Info

Publication number: WO2021179570A1
Application number: PCT/CN2020/117162
Authority: WO
Inventors: 陈桢博; 金戈; 徐亮
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-03-13
Filing date: 2020-09-23
Publication date: 2021-09-16
Also published as: CN111460807A; CN111460807B

Abstract

一种序列标注方法、装置、计算机设备和存储介质。通过获取待标注文本；确定所述待标注文本的字、词向量和位置向量（S302）；提取所述字、词向量和位置向量的特征信息（S304）；根据所述特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，以对所述待标注文本中各个字之间的关系进行注意力权重映射（S306）；将全连接层特征矩阵与所述注意力权重矩阵相加，以计算所述待标注文本中各个字属于各标签的概率，并将各个字所属各标签中的概率最高者作为标签序列预测结果输出（S308）。利用深度学习算法的卷积神经网络，借鉴了CV(Computer Vision，计算机视觉)领域EM算法的注意力机制，EM算法注意力机制的运算在NLP序列标注任务中降低了长文本的计算量，提高了序列标注的效率，并保证了序列标注任务的精度。

Description

序列标注方法、装置、计算机设备和存储介质

本申请要求于2020年03月13日提交中国专利局、申请号为202010174873.X，发明名称为“序列标注方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种序列标注方法、装置、计算机设备和存储介质。

背景技术

自然语言处理(NLP，Natural Language Processing)中的序列标注任务是指对于文本字词的序列标注，包括命名实体识别、词性标注、知识实体抽取等任务，通常通过监督学习算法实现。现有技术实现算法包括传统机器学习算法(CRF等)以及深度学习算法(Bi-LSTM)等，其中深度学习算法精度效果更佳。而目前前沿的深度学习算法，会在此类任务中额外加入注意力机制，以实现序列单元互相关联权重的特征信息提取。发明人意识到，注意力机制的运算是基于矩阵运算，会在模型训练中造成较高的计算量，从而导致较高的耗时。因此，有必要对现有技术进行改进以期获得更好的用户体验。

发明内容

基于此，有必要针对存在的问题，提供一种活体检测中视频图片的处理方法、装置和可读存储介质，以改善现有视频活体检测的效率。

一种序列标注方法，所述方法包括：

获取待标注文本，确定所述待标注文本的字、词向量和位置向量；

提取所述字、词向量和位置向量的特征信息；

根据所述特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，以对所述待标注文本中各个字之间的关系进行注意力权重映射；

将全连接层特征矩阵与所述注意力权重矩阵相加，以计算所述待标注文本中各个字属于各标签的概率，并将各个字所属各标签中的概率最高者作为标签序列预测结果输出。

一种序列标注装置，包括序列标注模型，所述序列标注模型包括：

嵌入层：用于获取待标注文本，并将所述待标注文本转化为向量形式，其中，向量形式包括各个字的字、词向量和位置向量；

卷积层：用于提取所述嵌入层输出向量的特征信息，并根据所述特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，以对所述待标注文本中各个字之间的关系进行注意力权重映射；

CRF层：用于将全连接层特征矩阵与所述卷积层输出的注意力权重矩阵相加，计算出所述待标注文本中各个字属于各标签的概率；

输出层：用于将所述CRF层中输出的所述待标注文本中各个字属于各标签的概率最高者作为标签序列预测结果输出。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行实现如下步骤：

获取待标注文本确定所述待标注文本的字、词向量和位置向量；

提取所述字、词向量和位置向量的特征信息；

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行实现如下步骤：

提取所述字、词向量和位置向量的特征信息；

与现有技术NLP技术中采用监督学习算法相比，上述序列标注方法、装置通过嵌入层计算文本的字向量和位置向量，通过卷积层提取文本字、词向量和位置向量的局部特征向量，然后利用EM算法(Exception Maximization Algorithm，期望最大化算法)的注意力机制计算出文本中各个字之间的关联权重，最后根据权重关系计算出文本中每个字属于各个标注的概率，将每个字所属的标注概率的最高概率的标签序列作为预测结果输出文本的序列标注。本申请利用深度学习算法的卷积神经网络，借鉴了CV(Computer Vision，计算机视觉)领域EM算法的注意力机制，EM算法注意力机制的运算在NLP序列标注任务中降低了长文本的计算量，提高了序列标注的效率，并保证了序列标注任务的精度。

附图说明

图1为一个实施例中提供的序列标注方法的实施环境图；

图2为一个实施例中计算机设备的内部结构框图；

图3为一个实施例中序列标注方法的流程图；

图4为一个实施例中序列标注装置的结构框图；

图5为一个实施例中卷积层的结构框图；

图6为一个实施例中CRF层的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中提供的序列标注方法的实施环境图，如图1所示，在该实施环境中，包括计算机设备110以及终端120。

计算机设备110为序列标注处理设备，例如为测试人员使用的电脑等计算机设备，计算机设备110上安装有序列标注处理工具。终端120上安装有需要进行序列标注处理的应用，当需要进行序列标注处理时，测试人员可以在终端120发出序列标注处理请求，该序列标注处理请求中携带有序列标注处理标识，计算机设备110接收该序列标注处理请求，根据序列标注处理标识获取计算机设备110中与序列标注处理标识对应的测试脚本，然后利用序列标注处理工具执行该测试脚本，对终端120上的应用进行测试，并获取测试脚本对应的序列标注处理结果。

需要说明的是，终端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机、服务器等，但并不局限于此。计算机设备110以及终端120可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者其他通讯连接方式进行连接，本申请在此不做限制。

图2为一个实施例中计算机设备的内部结构示意图。如图2所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机程序，数据库中可存储有控件信息序列，该计算机程序被处理器执行时，可使得处理器实现一种序列标注处理方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种序列标注处理方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提出了一种对自然语言需要处理的文本进行序列标注方法，该方法可以应用于上述的计算机设备110中，具体可以包括以下步骤S302～S308：

步骤S302，获取待标注文本，确定所述待标注文本的字、词向量和位置向量；

在本实施例中，获取待标注文本一般由计算机设备来完成，本实施例中采用后台服务器来完成，当然，此处采用后台服务器来完成并非限定于服务器来完成，如前所述的其他计算机设备也可以承担。在对自然语言处理文本的序列标注技术中，后台服务器承担着序列标注运算工作，将序列标注检测器设置在后台服务器端，在序列标注检测器接收到序列标注的检测请求后，序列标注检测器会获取到待标注的文本，并将待标注文本保存到内存中。

在一些实施例中，也可以将待标注文本保存到非易失性存储介质中进行处理。

在本实施例中，将文本信息转化为向量形式，包括了字、词向量和位置向量。根据字向量字典，能够将长度为m的文本字符，逐一映射为长度为n的向量，从而构建m*n的矩阵。例如，文本输入为[‘苹’，‘果’]，则能够将字‘苹’和‘果’两个字依次映射为300 维向量，从而构建2*300维的矩阵。字向量的生成一般通过经典算法Word2Vec来实现，该算法属于非监督学习算法，将训练语料中的语句编码为one-hot(独热编码，又称一位有效编码)形式，并通过c-bow方法(通过前后文预测中间字词)或者skip-gram方法(通过中间字词预测前后文)的形式，构建为中间字词one-hot编码、中间字词特征编码、前后文字词one-hot编码。由于one-hot编码为已知的，因此，通过训练中间特征编码从而获得字或词的字向量或词向量。位置向量则参照Google提出的方法，由于通过卷积神经网络对文本编码信息进行特征提取时会忽略词语顺序信息，加入位置向量以使模型可以利用词向量序列的顺序，位置向量PE采用公式PE(pos，2i)＝sin(pos/10000 ^2i/d)和PE(pos，2i+1)＝cos(pos/10000 ^2i/d)计算得出，其中，公式中的pos表示某个字的位置，i表示第i个维度，d则表示位置向量设定维度。

步骤S304，提取所述字、词向量和位置向量的特征信息；

在本实施例中，提取所述字、词向量和位置向量的特征信息具体来说，先构建一层1维卷积层降低特征维度；再构建多层1维卷积层实现局部特征信息提取，其中，输入的向量维度为m*n，1维卷积核维度预设为3*n，通道数为c；卷积核沿第1维方向进行步长为1的滑动卷积，最终多层卷积层输出维度为m*c的矩阵。设置多层卷积层依序提炼特征信息，更深的层次能够更好拟合数学分布。

步骤S306，根据所述特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，以对所述待标注文本中各个字之间的关系进行注意力权重映射；

在本实施例中，所述卷积层构建自注意力机制，计算待标注文本中各个字之间的注意力权重矩阵，用于对文本中各个字之间的关系进行注意力权重映射，以量化文本中各个字之间的相互影响。本实施例借鉴EM算法进行注意力权重的非监督运算，其中，EM算法包括：

E步对所述卷积层输出的维度为m*c的矩阵进行概率分布计算，包括计算m*k的注意力权重，其中，k<m，采用建立k个核心，各个字符a与核心的对应隐变量

通过当前参数完成注意力权重的估计其中，Kernal为核函数，x为各个字符a的向量形式表征，θ表示各个核心下的分布参数；

M步根据E步输出的概率分布重新估算算法参数，参数由公式

计算完成，其中，n为所述待标注文本的字符长度，t为EM步的迭代轮次，作用为对隐变量Z _ak求取加权平均值；这是一种无监督过程。

E步与M步再经过多次迭代收敛，以完成注意力权重矩阵计算，从而达到计算出待标注文本中各个字字之间的关联权重。

步骤S308，将全连接层特征矩阵与所属注意力权重矩阵相加，以计算所述待标注文本中各个字属于各标签的概率，并将各个字所属各标签中的概率最高者作为标签序列预测结果输出。

在本实施例中，全连接层特征矩阵是将所述待标注文本的字、词向量和位置向量的特征信息输入到全连接层进行计算得出，所述全连接层为卷积神经网络的全连接层，通过将待标注文本的字、词向量和位置向量的特征信息输入到该全连接层进行计算为现有技术，输出的全连接层矩阵计算过程不赘述。获得全连接层特征矩阵后，将该全连接层特征矩阵与所述注意力权重矩阵相加，计算出待标注文本中各个字属于各标签的概率，各个字属于各标签的概率P采用公式

实现。然后将各个字所属各标签中的最高概率者作为标签序列预测结果输出，输出的所述待标注文本中各个字属于各标签的概率最高者的预测结果采用公式Z(X)＝∑ _yexp(∑ _i，kλ _kt _k(y _i-1，y _i，x，i)+∑ _i，lμ _ls _l(y _i，x，i))实现，其中，t和s为特征函数，λ和μ是对应的权值。最后，将各个字所属各标签的概率最高者Z作为标注序列的预测结果输出。本技术方案中序列标注的含义是针对自然语言处理技术中处理字、词分解时，对每个待标注文本中的每个字进行对应标签属性的标注，输出的结果为标签序列，或者是标注序列。

如图4所示为一种实施例中提出的一种序列标注装置，该序列标注装置可以集成于上述的计算机设备110中，具体包括嵌入层402、卷积层404、CRF层406和输出层408。其中，

嵌入层402，用于获取待标注文本，并将所述待标注文本转化为向量形式；其中，向量形式包括各个字的字、词向量和位置向量；

在一些实施例中，也可以将待标注文本保存到非易失性存储介质中进行处理。所述嵌入层402将所述待标注文本转化为向量形式包括各个字的字、词向量和位置向量。根据字向量字典，能够将长度为m的文本字符，逐一映射为长度为n的向量，从而构建m*n的矩阵。例如，文本输入为[‘苹’，‘果’]，则能够将字‘苹’和‘果’两个字依次映射为300维向量，从而构建2*300维的矩阵。字向量的生成一般通过经典算法Word2Vec来实现，该算法属于非监督学习算法，将训练语料中的语句编码为one-hot(独热编码，又称一位有效编码)形式，并通过c-bow方法(通过前后文预测中间字词)或者skip-gram方法(通过中间字词预测前后文)的形式，构建为中间字词one-hot编码、中间字词特征编码、前后文字词one-hot编码。由于one-hot编码为已知的，因此，通过训练中间特征编码从而获得字或词的字向量或词向量。位置向量则参照Google提出的方法，由于通过卷积神经网络对文本编码信息进行特征提取时会忽略词语顺序信息，加入位置向量以使模型可以利用词向量序列的顺序，位置向量PE采用公式PE(pos，2i)＝sin(pos/10000 ^2i/d)和PE(pos，2i+1)＝cos(pos/10000 ^2i/d)计算得出，其中，公式中的pos表示某个字的位置，i表示第i个维度，d则表示位置向量设定维度。

卷积层404，用于提取所述嵌入层输出向量的特征信息，根据所述特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，以对所述待标注文本中各个字之间的关系进行注意力权重映射；

如图5所示，在一个实施例中，提供了卷积层的结构框图，该卷积层404还包括特征信息转化单元502与注意力权重矩阵计算单元504。所述特征信息转化单元502用于提取所述嵌入层402输出向量的特征信息，其提取所述字、词向量和位置向量的特征信息具体来说，先构建一层1维卷积层降低特征维度；再构建多层1维卷积层实现局部特征信息提取，其中，输入的向量维度为m*n，1维卷积核维度预设为3*n，通道数为c；卷积核沿第1维方向进行步长为1的滑动卷积，最终多层卷积层输出维度为m*c的矩阵。设置多层卷积层依序提炼特征信息，更深的层次能够更好拟合数学分布。

所述注意力矩阵计算单元504用于根据所述向量的特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，所述卷积层构建自注意力机制，用于对文本中各个字之间的关系进行注意力权重映射，以量化文本中各个字之间的相互影响。本实施例借鉴EM算法进行注意力权重的非监督运算，其中，EM算法包括：

M步根据E步输出的概率分布重新估算算法参数，参数由公式

E步与M步再经过多次迭代收敛，以完成注意力权重矩阵计算，从而达到计算出待标注文本中各个字之间的关联权重。

CRF层406，用于将全连接层特征矩阵与所述卷积层输出的注意力权重矩阵相加，计算出所述待标注文本中各个字属于各标签的概率；

如图6所示，在一个实施例中，提供了CRF层的结构框图，所述CRF层406还包括全连接层矩阵计算单元602与标签概率计算单元604，所述全连接层矩阵计算单元602用于接收所述字、词向量和位置向量的特征信息，并输入到全连接层计算，以输出全连接层特征矩阵；在本实施例中，全连接层特征矩阵是将所述待标注文本的字、词向量和位置向量的特征信息输入到全连接层进行计算得出，所述全连接层为卷积神经网络的全连接层，通过将待标注文本的字、词向量和位置向量的特征信息输入到该全连接层进行计算为现有技术，输出的全连接层矩阵计算过程不赘述。所述标签概率计算单元604用于将所述全连接层特征矩阵与所述注意力权重矩阵相加，根据公式

计算出所述待标注文本中各个字属于各标签的概率P；再根据公式Z(X)＝∑ _yexp(∑ _i，kλ _kt _k(y _i-1，y _i，x，i)+∑ _i，lμ _ls _l(y _i，x，i))计算中各个字所述各标签中的概率最高者Z；其中，t和s为特征函数，λ和μ是对应的权值。

输出层408，用于将所述CRF层中输出的所述待标注文本中各个字属于各标签中的概率最高者作为标签序列预测结果输出。

在本实施例中，所述输出层408是将各个字所属各标签的概率最高者Z输出为一个标签序列，即待标注文本中各个字对应有各个标签概率最高者Z的标签序列，将该标签序列作为预测结果输出。

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

提取所述字、词向量和位置向量的特征信息；

在本实施例中，将待标注文本的文本信息转化为向量形式，包括了字、词向量和位置向量。根据字向量字典，能够将长度为m的文本字符，逐一映射为长度为n的向量，从而构建m*n的矩阵。例如，文本输入为[‘苹’，‘果’]，则能够将字‘苹’和‘果’两个字依次映射为300维向量，从而构建2*300维的矩阵。字向量的生成一般通过经典算法Word2Vec来实现，该算法属于非监督学习算法，将训练语料中的语句编码为one-hot(独热编码，又称一位有效编码)形式，并通过c-bow方法(通过前后文预测中间字词)或者skip-gram方法(通过中间字词预测前后文)的形式，构建为中间字词one-hot编码、中间字词特征编码、前后文字词one-hot编码。由于one-hot编码为已知的，因此，通过训练中间特征编码从而获得字或词的字向量或词向量。位置向量则参照Google提出的方法，由于通过卷积神经网络对文本编码信息进行特征提取时会忽略词语顺序信息，加入位置向量以使模型可以利用词向量序列的顺序，位置向量PE采用公式PE(pos，2i)＝sin(pos/10000 ^2i/d)和PE(pos，2i+1)＝cos(pos/10000 ^2i/d)计算得出，其中，公式中的pos表示某个字的位置，i表示第i个维度，d则表示位置向量设定维度。

通过当前参数完成权重的估计其中，Kernal为核函数，x为各个字符a的向量形式表征，θ表示各个核心下的分布参数；

M步根据E步输出的概率分布重新估算算法参数，参数由公式

计算完成，其中，n为所述待标注文本的字符长度，t为EM步的迭代轮次，作用为对隐变量Z _ak求取加权平均值，这是一个无监督过程。

实现。然后将各个字所属各标签中的最高概率者作为标签序列预测结果输出，输出的所述待标注文本中各个字属于各标签的概率最高者的预测结果采用公式Z(X)＝∑ _yexp(∑ _i，kλ _kt _k(y _i-1，y _i，x，i)+∑ _i，lμ _ls _l(y _i，x，i))实现，其中，t和s为特征函数，λ和μ是对应的权值。最后，将各个字所属各标签的概率最高者Z作为标注序列的预测结果输出。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性的。该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

提取所述字、词向量和位置向量的特征信息；

M步根据E步输出的概率分布重新估算算法参数，参数由公式

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种序列标注方法，其中，所述方法包括：

获取待标注文本，确定所述待标注文本的字、词向量和位置向量；

提取所述字、词向量和位置向量的特征信息；

根据所述特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，以对所述待标注文本中各个字之间的关系进行注意力权重映射；

将全连接层特征矩阵与所述注意力权重矩阵相加，以计算所述待标注文本中各个字属于各标签的概率，并将各个字所属各标签中的概率最高者作为标签序列预测结果输出。
如权利要求1所述的序列标注方法，其中，所述字、词向量的生成采用将训练语料中的语句编码为one-hot形式，并通过c-bow方法或者skip-gram方法的形式，构建为中间字词one-hot编码、中间字词特征编码、前后文字词one-hot编码；

所述位置向量由公式PE(pos，2i)＝sin(pos/10000 ^2i/d)和PE(pos，2i+1)＝cos(pos/10000 ^2i/d)确认，其中，pos表示某个字的位置，i表示第i维度，d表示位置向量设定维度。
如权利要求1或2所述的序列标注方法，其中，所述提取所述字、词向量和位置向量的特征信息具体包括如下步骤：

构建一层1维卷积层降低特征维度；

再构建多层1维卷积层实现局部特征信息提取，其中，输入的向量维度为m*n，1维卷积核维度预设为3*n，通道数为c；

卷积核沿第1维方向进行步长为1的滑动卷积，最终多层卷积层输出维度为m*c的矩阵，以得到所述待标注文本的字、词向量和位置向量的特征信息。
如权利要求3所述的序列标注方法，其中，所述根据所述特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，以对所述待标注文本中各个字之间的关系进行注意力权重映射具体包括如下步骤：

采用EM算法的E步对所述多层卷积层输出的维度为m*c的矩阵进行概率分布计算，包括计算m*k的注意力权重，其中，k<m，采用建立k个核心，各个字符a与核心的对应隐变量
通过当前参数完成权重的估计，其中，Kernal为核函数，x为各个字符a的向量形式表征，θ表示各个核心下的分布参数；

采用EM算法的M步根据E步输出的概率分布重新估算算法参数，参数由公式
计算完成，其中，n为所述待标注文本的字符长度，t为EM步的迭代轮次；

E步与M步再经过多次迭代收敛，以输出所述待标注文本中各个字之间的注意力权重矩阵，实现对所述待标注文本中各个字之间的关系进行注意力权重映射。
如权利要求4所述的序列标注方法，其中，所述将全连接层输出矩阵与所述注意力权重矩阵相加，以计算所述待标注文本中各个字属于各标签的概率，并将各个字所属各标签中的概率最高者作为预测结果序列输出具体包括如下步骤：

将所述字、词向量和位置向量的特征信息输入到全连接层计算，以输出全连接层特征矩阵；

将所述全连接层特征矩阵与所述注意力权重矩阵相加，根据公式
计算出所述待标注文本中各个字属于各标签的概率P；

根据公式Z(X)＝∑ _yexp(∑ _i，kλ _kt _k(y _i-1，y _i，x，i)+∑ _i，lμ _ls _l(y _i，x，i))计算中各个字所述各标签中的概率最高者Z；其中，t和s为特征函数，λ和μ是对应的权值；

将各个字所述各标签的概率最高者Z作为标注序列的预测结果输出。
一种序列标注装置，其中，包括序列标注模型，所述序列标注模型包括：

嵌入层：用于获取待标注文本，并将所述待标注文本转化为向量形式，其中，向量形式包括各个字的字、词向量和位置向量；

卷积层：用于提取所述嵌入层输出向量的特征信息，并根据所述特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，以对所述待标注文本中各个字之间的关系进行注意力权重映射；

CRF层：用于将全连接层特征矩阵与所述卷积层输出的注意力权重矩阵相加，计算出所述待标注文本中各个字属于各标签的概率；

输出层：用于将所述CRF层中输出的所述待标注文本中各个字属于各标签的概率最高者作为标签序列预测结果输出。
如权利要求6所述的序列标注装置，其中，所述卷积层还包括特征信息转化单元与注意力权重矩阵计算单元；

所述特征信息转化单元用于提取所述嵌入层输出向量的特征信息，包括：

构建一层1维卷积层降低特征维度；

再构建多层1维卷积层实现局部特征信息提取，其中，输入的向量维度为m*n，1维卷积核维度预设为3*n，通道数为c；

卷积核沿第1维方向进行步长为1的滑动卷积，最终多层卷积层输出维度为m*c的矩阵，以得到所述待标注文本的字、词向量和位置向量的特征信息。
如权利要求6或7所述的序列标注装置，其中，所述卷积层具体用于：

采用EM算法的E步对所述卷积层输出的维度为m*c的矩阵进行概率分布计算，包括计算m*k的注意力权重，其中，k<m，采用建立k个核心，各个字符a与核心的对应隐变量
通过当前参数完成注意力权重的估计，其中，Kernal为核函数，x为各个字符a的向量形式表征，θ表示各个核心下的分布参数；

采用EM算法的M步根据E步输出的概率分布重新估算算法参数，参数由公式

计算完成，其中，n为所述待标注文本的字符长度，t为EM步的迭代轮次；

E步与M步再经过多次迭代收敛，以输出所述待标注文本中各个字之间的注意力权重矩阵，实现对所述待标注文本中各个字之间的关系进行注意力权重映射。
如权利要求8所述的序列标注装置，其中，所述CRF层还包括全连接层矩阵计算单元与标签概率计算单元；

所述全连接层矩阵计算单元用于接收所述字、词向量和位置向量的特征信息，并输入到全连接层计算，以输出全连接层特征矩阵；

所述标签概率计算单元用于将所述全连接层特征矩阵与所述注意力权重矩阵相加，根据公式
计算出所述待标注文本中各个字属于各标签的概率P；再根据公式Z(X)＝∑ _yexp(∑ _i，kλ _kt _k(y _i-1，y _i，x，i)+∑ _i，lμ _ls _l(y _i，x，i))计算中各个字所述各标签中的概率最高者Z；其中，t和s为特征函数，λ和μ是对应的权值。
如权利要求6所述的序列标注装置，其中，所述字、词向量的生成采用将训练语料中的语句编码为one-hot形式，并通过c-bow方法或者skip-gram方法的形式，构建为中间字词one-hot编码、中间字词特征编码、前后文字词one-hot编码；

所述位置向量由公式PE(pos，2i)＝sin(pos/10000 ^2i/d)和PE(pos，2i+1)＝cos(pos/10000 ^2i/d)确认，其中，pos表示某个字的位置，i 表示第i维度，d表示位置向量设定维度。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行实现如下步骤：

获取待标注文本，确定所述待标注文本的字、词向量和位置向量；

提取所述字、词向量和位置向量的特征信息；

根据所述特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，以对所述待标注文本中各个字之间的关系进行注意力权重映射；

将全连接层特征矩阵与所述注意力权重矩阵相加，以计算所述待标注文本中各个字属于各标签的概率，并将各个字所属各标签中的概率最高者作为标签序列预测结果输出。
如权利要求11所述的计算机设备，其中，所述字、词向量的生成采用将训练语料中的语句编码为one-hot形式，并通过c-bow方法或者skip-gram方法的形式，构建为中间字词one-hot编码、中间字词特征编码、前后文字词one-hot编码；

所述位置向量由公式PE(pos，2i)＝sin(pos/10000 ^2i/d)和PE(pos，2i+1)＝cos(pos/10000 ^2i/d)确认，其中，pos表示某个字的位置，i表示第i维度，d表示位置向量设定维度。
如权利要求11或12所述的计算机设备，其中，所述提取所述字、词向量和位置向量的特征信息具体包括如下步骤：

构建一层1维卷积层降低特征维度；

再构建多层1维卷积层实现局部特征信息提取，其中，输入的向量维度为m*n，1维卷积核维度预设为3*n，通道数为c；

卷积核沿第1维方向进行步长为1的滑动卷积，最终多层卷积层输出维度为m*c的矩阵，以得到所述待标注文本的字、词向量和位置向量的特征信息。
如权利要求13所述的计算机设备，其中，所述根据所述特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，以对所述待标注文本中各个字之间的关系进行注意力权重映射具体包括如下步骤：

采用EM算法的E步对所述多层卷积层输出的维度为m*c的矩阵进行概率分布计算，包括计算m*k的注意力权重，其中，k<m，采用建立k个核心，各个字符a与核心的对应隐变量
通过当前参数完成权重的估计，其中，Kernal为核函数，x为各个字符a的向量形式表征，θ表示各个核心下的分布参数；

采用EM算法的M步根据E步输出的概率分布重新估算算法参数，参数由公式
计算完成，其中，n为所述待标注文本的字符长度，t为EM步的迭代轮次；

E步与M步再经过多次迭代收敛，以输出所述待标注文本中各个字之间的注意力权重矩阵，实现对所述待标注文本中各个字之间的关系进行注意力权重映射。
如权利要求14所述的计算机设备，其中，所述将全连接层输出矩阵与所述注意力权重矩阵相加，以计算所述待标注文本中各个字属于各标签的概率，并将各个字所属各标签中的概率最高者作为预测结果序列输出具体包括如下步骤：

将所述字、词向量和位置向量的特征信息输入到全连接层计算，以输出全连接层特征矩阵；

将所述全连接层特征矩阵与所述注意力权重矩阵相加，根据公式
计算出所述待标注文本中各个字属于各标签的概率P；

根据公式Z(X)＝∑ _yexp(∑ _i，kλ _kt _k(y _i-1，y _i，x，i)+∑ _i，lμ _ls _l(y _i，x，i))计算中各个字所述各标签中的概率最高者Z；其中，t和s为特征函数，λ和μ是对应的权值；

将各个字所述各标签的概率最高者Z作为标注序列的预测结果输出。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时用于实现一种序列标注方法，所述方法包括以下步骤：

获取待标注文本，确定所述待标注文本的字、词向量和位置向量；

提取所述字、词向量和位置向量的特征信息；

根据所述特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，以对所述待标注文本中各个字之间的关系进行注意力权重映射；

将全连接层特征矩阵与所述注意力权重矩阵相加，以计算所述待标注文本中各个字属于各标签的概率，并将各个字所属各标签中的概率最高者作为标签序列预测结果输出。
如权利要求16所述的计算机可读存储介质，其中，所述字、词向量的生成采用将训练语料中的语句编码为one-hot形式，并通过c-bow方法或者skip-gram方法的形式，构建为中间字词one-hot编码、中间字词特征编码、前后文字词one-hot编码；

所述位置向量由公式PE(pos，2i)＝sin(pos/10000 ^2i/d)和PE(pos，2i+1)＝cos(pos/10000 ^2i/d)确认，其中，pos表示某个字的位置，i表示第i维度，d表示位置向量设定维度。
如权利要求16或17所述的计算机可读存储介质，其中，所述提取所述字、词向量和位置向量的特征信息具体包括如下步骤：

构建一层1维卷积层降低特征维度；

再构建多层1维卷积层实现局部特征信息提取，其中，输入的向量维度为m*n，1维卷积核维度预设为3*n，通道数为c；

卷积核沿第1维方向进行步长为1的滑动卷积，最终多层卷积层输出维度为m*c的矩阵，以得到所述待标注文本的字、词向量和位置向量的特征信息。
如权利要求18所述的计算机可读存储介质，其中，所述根据所述特征信息计算所述待标注文本中各个字之间的注意力权重矩阵，以对所述待标注文本中各个字之间的关系进行注意力权重映射具体包括如下步骤：

采用EM算法的E步对所述多层卷积层输出的维度为m*c的矩阵进行概率分布计算，包括计算m*k的注意力权重，其中，k<m，采用建立k个核心，各个字符a与核心的对应隐变量
通过当前参数完成权重的估计，其中，Kernal为核函数，x为各个字符a的向量形式表征，θ表示各个核心下的分布参数；采用EM算法的M步根据E步输出的概率分布重新估算算法参数，参数由公式
计算完成，其中，n为所述待标注文本的字符长度，t为EM步的迭代轮次；

E步与M步再经过多次迭代收敛，以输出所述待标注文本中各个字之间的注意力权重矩阵，实现对所述待标注文本中各个字之间的关系进行注意力权重映射。
如权利要求19所述的计算机可读存储介质，其中，所述将全连接层输出矩阵与所述注意力权重矩阵相加，以计算所述待标注文本中各个字属于各标签的概率，并将各个字所属各标签中的概率最高者作为预测结果序列输出具体包括如下步骤：

将所述字、词向量和位置向量的特征信息输入到全连接层计算，以输出全连接层特征矩阵；

将所述全连接层特征矩阵与所述注意力权重矩阵相加，根据公式
计算出所述待标注文本中各个字属于各标签的概率P；

根据公式Z(X)＝∑ _yexp(∑ _i，kλ _kt _k(y _i-1，y _i，x，i)+∑ _i，lμ _ls _l(y _i，x，i))计算中各个字所述各标签中的概率最高者Z；其中，t和s为特征函数，λ和μ是对应的权值；

将各个字所述各标签的概率最高者Z作为标注序列的预测结果输出。