WO2022242074A1

WO2022242074A1 - 一种多特征融合的中文医疗文本命名实体识别方法

Info

Publication number: WO2022242074A1
Application number: PCT/CN2021/131596
Authority: WO
Inventors: 王英龙; 李佳康; 舒明雷; 周书旺
Original assignee: 山东省人工智能研究院; 齐鲁工业大学
Priority date: 2021-05-21
Filing date: 2021-11-19
Publication date: 2022-11-24
Also published as: CN113191150B; CN113191150A

Abstract

一种多特征融合的中文医疗文本命名实体识别方法，使用添加了中文偏旁部首以及笔画顺序信息的字向量，对传统的神经网络输入进行改进，使字向量能够更加完整的表征中文病例中字的信息，解决一词多义，形声字的情况，提高模型的准确度。考虑到使用基于字向量的方法很难处理词语之间的信息，但使用基于词向量的方法会出现分词错误的情况，利用lattice-lstm网络的结构特性，添加词的信息，融合字词向量能够很好的解决这类问题。

Description

一种多特征融合的中文医疗文本命名实体识别方法

技术领域

本发明涉及中文命名实体识别领域，具体涉及一种多特征融合的中文医疗文本命名实体识别方法。

背景技术

随着国内电子病例技术的成熟和应用，产生了大量的电子病历数据，非专业人员认识难以有效利用。

命名实体识别技术能够有效的识别并获取电子病历中特定信息，例如病症、诊疗方案、等等，把这些信息识别出来，可以进行进一步的利用，统计这些不同类别的实体信息和分析这些实体信息之间的关系，为诊疗提供精确的数据支持。

目前，人们把深度学习技术应用到中文医学文本上来。但这些深度学习的方法大部分都是面向英文的电子病历的，存在以下问题：

1)使用基于字的词嵌入算法，难以利用词汇的信息。

2)使用基于词的词嵌入算法，会出现分词错误的情况。

3)由于中文的特殊性，带来的一词多义和形声字的问题很难解决。

发明内容

本发明为了克服以上技术的不足，提供了一种提升识别的效果的多特征融合的中文医疗文本命名实体识别方法。

本发明克服其技术问题所采用的技术方案是：

一种多特征融合的中文医疗文本命名实体识别方法，包括：

a)对中文电子病历数据进行预处理；

b)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分，分别得到字典D _c和词典D _w；

c)对预处理完成的数据插入并细化标签，完成标准化处理，得到数据集F；

d)从新华字典中获取笔画顺序信息，构建新字典D _{c_o1}；

e)从新华字典中收集部首信息，构建新字典D _{c_r}，并将D _{c_r}加入到新字典D _{c_o1}中生成字典D _{c_o}；

f)取字典D _{c_o}中x字的笔画n-gram的维度大小为|D _{c_o}|×1的one-hot编码x _re、部首维度大小为|D _{c_o}|×1的one-hot编码x _be以及字的维度大小为|D _{c_o}|×1的one-hot编码x _{e_o}，通过公式x _o＝x _re+x _be+x _{e_o}计算得到相加后的特征融合的输入向量x _o，其维度大小为|D _{c_o}|×1，其中x _re＝{x _re1...x _ren}，x _ren为第n个n-grams笔画顺序的one-hot编码；

g)通过索引映射将字典D _{c_o}中每个字映射到N维空间，初始化一个N维空间的矩阵作为权重矩阵

将字典D _{c_o}所有的字映射到矩阵

每个字与矩阵中的某一列相对应，通过公式

取出中心字x _o对应的字向量x _e；

h)初始化一个N维空间的矩阵作为权重矩阵

作为背景字向量的矩阵，通过公式

将字向量x _e与权重矩阵

中的上下文字做内积运算，得到每个字的计算结果q，式中y ₀为背景字索引为0的向量，T为转置；

i)通过公式

计算得到字向量x _e与字向量y ₀之间的相似度sim(x _e,y ₀)，

为x _e的嵌入，

为y ₀的嵌入；

j)计算损失函数L，使用随机梯度下降法优化损失函数L，优化后将矩阵

取出作为多特征字向量矩阵；

k)使用Word2vec训练中文电子病历数据的词向量，得到词向量矩阵

l)数据集F中的某一输入语句x，x＝z ₁,z ₂,...,z _m、x＝c ₁,c ₂,...,c _n，其中z _j为语句x的第j个字符，j∈{1,...,m}，c _i为语句x的第i个词，i∈{1,...,n}；

m)将字序列x＝z ₁,z ₂,...,z _m输入Lattice-Lstm模型的嵌入层，通过公式

计算每个字符z _j被embedding表示为多特征的字向量

e ^z为embedding层的权重矩阵；

n)将词序列x＝c ₁,c ₂,...,c _n输入Lattice-Lstm模型的嵌入层，通过公式

计算每个

被embedding表示为多特征的词向量

为第b个字符到第e个字符组成的词语，e ^c为embedding矩阵；

o)将字向量

输入到Lattice-Lstm模型的Lstm层，通过公式

计算得到Lstm层中的单词记忆单元

遗忘门

输入门

及遗忘门信息

式中σ为sigmoid函数，tanh为激活函数，

为权重矩阵，b ^z为偏置向量，

为第e个字符的多特征的字向量，

为e-1时刻的隐藏层状态，

为e时刻的隐藏层状态，

为对e-1时刻的细胞状态进行更新，

为存储信息的节点；

p)将字典中匹配的结尾是e的词输入到Lattice-Lstm模型中的Word-base cell，通过公式

计算得到Lattice-Lstm 模型中的单词记忆单元

遗忘门

输入门

及词格信息

b ^c为偏置向量，

为权重矩阵，

为词组首字的细胞状态，

为词组首字的隐藏状态；

q)通过公式

将词格

融入当前字符Cell计算得到输入门向量

式中

为权重矩阵；

r)通过公式

计算得到

归一化后的值

通过公式

计算得到

归一化的值

D为训练语料的全部文本；

s)通过公式

将句子中以字符e为结尾的词加入词格

信息后得到

t)通过公式

计算隐藏层的输出

u)通过公式

计算概率P(y|x)，式中

为第i个隐含层的输出，i∈{1,...,l}，l为一句话中字的个数，y′为任意label序列，l _i为第i个的输出，

为CRF模型中l _i的参数，

为CRF模型中每个l _i的参数，

为l _i-1到l _i的偏差，

为每个l _i-1到l _i的偏差，得到的预测的标签序列y＝l ₁,l ₂,...l _l为中文电子病历数据的文本命名输出结果。

进一步的，步骤a)中预处理的过程为：对收集的中文电子病历数据使用哈工大停词表去除数据中停用词的干扰，使用opencc工具将所有字符转换成中文简体。

进一步的，步骤d)中扫描新华字典中所有的字符，收集笔画顺序，保持所有的n-gram的长度大于等于3小于等于6，收集对应的笔画顺序n-grams后生成字典D _{c_b}，将字典D _{c_b}与字典D _c相加构建新字典D _{c_o1}。

进一步的，步骤e)中扫描新华字典中所有的字符，收集字的部首信息，生成字典D _{c_r}，将字典D _{c_r}加入到字典D _{c_o}中。

进一步的，步骤j)中通过公式

计算得到损失函数L，式中x为当前字，y为上下文字，T(w)为当前词语滑动窗口内的所有词语集合，D为训练语料的全部文本，σ为sigmoid函数，y′为随机选取的字，λ为负样例的个数，E _y′～p为y′按照字分布进行的采样，p为负采样分布的指数。步骤u)中通过公式

计算得到损失函数L，式中λ为正则化参数，θ为参数集，使用随机梯度下降的方法优化损失函数L。本发明的有益效果是：使用添加了中文偏旁部首以及笔画顺序信息的字向量，对传统的神经网络输入进行改进，使字向量能够更加完整的表征中文病例中字的信息，解决一词多义，形声字的情况，提高模型的准确度。考虑到使用基于字向量的方法很难处理词语之间的信息，但使用基于词向量的方法会出现分词错误的情况，利用lattice-lstm网络的结构特性，添加词的信息，融合字词向量能够很好的解决这类问题。

附图说明

图1为本发明的模型流程图。

具体实施方式

下面结合附图1对本发明做进一步说明。

一种多特征融合的中文医疗文本命名实体识别方法，包括：

a)对中文电子病历数据进行预处理；

d)从新华字典中获取笔画顺序信息，构建新字典D _{c_o1}；

将字典D _{c_o}所有的字映射到矩阵

每个字与矩阵中的某一列相对应，通过公式

取出中心字x _o对应的字向量x _e；

h)初始化一个N维空间的矩阵作为权重矩阵

作为背景字向量的矩阵，通过公式

将字向量x _e与权重矩阵

i)基于当前字多特征融合的嵌入和上下文词的嵌入，来定义他们之间的相似度，具体的通过公式

计算得到字向量x _e与字向量y ₀之间的相似度sim(x _e,y ₀)，

为x _e的嵌入，

为y ₀的嵌入；

取出作为多特征字向量矩阵；

计算每个字符z _j被embedding表示为多特征的字向量

e ^z为embedding层的权重矩阵；

计算每个

被embedding表示为多特征的词向量

为第b个字符到第e个字符组成的词语，e ^c为embedding矩阵；

o)Lattice-Lstm在传统的Lstm的基础上拓展了Word-base cell，将字向量

输入到Lattice-Lstm模型的Lstm层，通过公式

计算得到Lstm层中的单词记忆单元

遗忘门

输入门

及遗忘门信息

式中σ为sigmoid函数，tanh为激活函数，

为权重矩阵，b ^z为偏置向量，

为第e个字符的多特征的字向量，

为e-1时刻的隐藏层状态，

为e时刻的隐藏层状态，

为对e-1时刻的细胞状态进行更新，

为存储信息的节点；

计算得到Lattice-Lstm模型中的单词记忆单元

遗忘门

输入门

及词格信息

b ^c为偏置向量，

为权重矩阵，

为词组首字的细胞状态，

为词组首字的隐藏状态；

q)通过公式

将词格

融入当前字符Cell计算得到输入门向量

式中

为权重矩阵；

r)通过公式

计算得到

归一化后的值

通过公式

计算得到

归一化的值

D为训练语料的全部文本；

s)通过公式

将句子中以字符e为结尾的词加入词格

信息后得到

t)通过公式

计算隐藏层的输出

u)通过公式

计算概率P(y|x)，式中

为CRF模型中l _i的参数，

为CRF模型中每个l _i的参数，

为l _i-1到l _i的偏差，

本基于多特征融合的中文医疗文本命名实体识别方法，考虑到中文电子病历语义不清和形声字的情况，针对中文病历领域的特性，使用添加了中文偏旁部首以及笔画顺序信息的字向量，对传统的神经网络输入进行改进，使字向量能够更加完整的表征中文病例中字的信息，解决一词多义，形声字的情况，提高模型的准确度。考虑到使用基于字向量的方法很难处理词语之间的信息，但使用基于词向量的方法会出现分词错误的情况，利用lattice-lstm网络的结构特性，添加词的信息，融合字词向量能够很好的解决这类问题。

优选的，步骤a)中预处理的过程为：对收集的中文电子病历数据使用哈工大停词表去除数据中停用词的干扰，使用opencc工具将所有字符转换成中文简体。进一步的，步骤d)中扫描新华字典中所有的字符，收集笔画顺序，保持所有的n-gram的长度大于等于3小于等于6，收集对应的笔画顺序n-grams后生成字典D _{c_b}，将字典D _{c_b}与字典D _c相加构建新字典D _{c_o1}。

进一步的，步骤j)中通过公式

计算得到损失函数L，式中x为当前字，y为上下文字，T(w)为当前词语滑动窗口内的所有词语集合，D为训练语料的全部文本，σ为sigmoid函数，为了避免softmax 带来的巨大计算量，采用了负采样的方式，y′为随机选取的字，称为“负样例”，λ为负样例的个数，E _y′～p为y′按照字分布进行的采样，p为负采样分布的指数。其中语料中出现次数越多的词语越容易被采样到。模型使用随机梯度下降的方法优化损失函数，使模型达到最好的效果。

进一步的，利用维特比算法输出概率最大的序列，就是最终的标签序列P(y _i|x _i)进行连乘，得到添加log。通过极大似然估计，加上L2的惩罚参数作为损失函数。具体的：步骤u)中通过公式

计算得到损失函数L，式中λ为正则化参数，θ为参数集，模型使用随机梯度下降的方法优化损失函数L，使模型达到最好的效果。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种多特征融合的中文医疗文本命名实体识别方法，其特征在于，包括：

a)对中文电子病历数据进行预处理；

b)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分，分别得到字典D _c和词典D _w；

c)对预处理完成的数据插入并细化标签，完成标准化处理，得到数据集F；

d)从新华字典中获取笔画顺序信息，构建新字典D _{c_o1}；

e)从新华字典中收集部首信息，构建新字典D _{c_r}，并将D _{c_r}加入到新字典D _{c_o1}中生成字典D _{c_o}；

f)取字典D _{c_o}中x字的笔画n-gram的维度大小为|D _{c_o}|×1的one-hot编码x _re、部首维度大小为|D _{c_o}|×1的one-hot编码x _be以及字的维度大小为|D _{c_o}|×1的one-hot编码x _{e_o}，通过公式x _o＝x _re+x _be+x _{e_o}计算得到相加后的特征融合的输入向量x _o，其维度大小为|D _{c_o}|×1，其中x _re＝{x _re1…x _ren}，x _ren为第n个n-grams笔画顺序的one-hot编码；

g)通过索引映射将字典D _{c_o}中每个字映射到N维空间，初始化一个N维空间的矩阵作为权重矩阵
将字典D _{c_o}所有的字映射到矩阵
每个字与矩阵中的某一列相对应，通过公式
取出中心字x _o对应的字向量x _e；

h)初始化一个N维空间的矩阵作为权重矩阵
作为背景字向量的矩阵，通过公式
将字向量x _e与权重矩阵
中的上下文字做内积运算，得到每个字的计算结果q，式中y ₀为背景字索引为0的向量，T为转置；

i)通过公式
计算得到字向量x _e与字向量y ₀之间的相似度
为x _e的嵌入，
为y ₀的嵌入；

j)计算损失函数L，使用随机梯度下降法优化损失函数L，优化后将矩阵
取出作为多特征字向量矩阵；

k)使用Word2vec训练中文电子病历数据的词向量，得到词向量矩阵

l)数据集F中的某一输入语句x，x＝z ₁,z ₂,...,z _m、x＝c ₁,c ₂,...,c _n，其中z _j为语句x的第j个字符，j∈{1,...,m}，c _i为语句x的第i个词，i∈{1,...,n}；

m)将字序列x＝z ₁,z ₂,...,z _m输入Lattice-Lstm模型的嵌入层，通过公式r _i ^z＝e ^z(z _j)计算每个字符z _j被embedding表示为多特征的字向量r _i ^z，e ^z为embedding层的权重矩阵；

n)将词序列x＝c ₁,c ₂,...,c _n输入Lattice-Lstm模型的嵌入层，通过公式
计算每个
被embedding表示为多特征的词向量
为第b个字符到第e个字符组成的词语，e ^c为embedding矩阵；

o)将字向量r _i ^z输入到Lattice-Lstm模型的Lstm层，通过公式
计算得到Lstm层中的单词记忆单元
遗忘门
输入门
及遗忘门信息
式中σ为sigmoid函数，tanh为激活函数，
为权重矩阵，b ^z为偏置向量，
为第e个字符的多特征的字向量，
为e-1时刻的隐藏层状态，
为e时刻的隐藏层状态，
为对e-1时刻的细胞状态进行更新，
为存储信息的节点；

p)将字典中匹配的结尾是e的词输入到Lattice-Lstm模型中的Word-base cell，通过公式
计算得到Lattice-Lstm模型中的单词记忆单元
遗忘门
输入门
及词格信息
b ^c为偏置向量，
为权重矩阵，
为词组首字的细胞状态，
为词组首字的隐藏状态；

q)通过公式
将词格
融入当前字符Cell计算得到输入门向量
式中
为权重矩阵；

r)通过公式
计算得到
归一化后的值
通过公式
计算得到
归一化的值
D为训练语料的全部文本；

s)通过公式
将句子中以字符e为结尾的词加入词格
信息后得到

t)通过公式
计算隐藏层的输出

u)通过公式
计算概率P(y|x)，式中
为第i个隐含层的输出，i∈{1,...,l}，l为一句话中字的个数，y′为任意label序列，l _i为第i个的输出，
为CRF模型中l _i的参数，
为CRF模型中每个l _i的参数，
为l _i-1到l _i的偏差，
为每个l _i-1到l _i的偏差，得到的预测的标签序列y＝l ₁,l ₂,...l _l为中文电子病历数据的文本命名输出结果。
根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法，其特征在于，步骤a)中预处理的过程为：对收集的中文电子病历数据使用哈工大停词表去除数据中停用词的干扰，使用opencc工具将所有字符转换成中文简体。
根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法，其特征在于，步骤d)中扫描新华字典中所有的字符，收集笔画顺序，保持所有的n-gram的长度大于等于3小于等于6，收集对应的笔画顺序n-grams后生成字典D _{c_b}，将字典D _{c_b}与字典D _c相加构建新字典D _{c_o1}。
根据权利要求3所述的多特征融合的中文医疗文本命名实体识别方法，其特征在于，步骤e)中扫描新华字典中所有的字符，收集字的部首信息，生成字典D _{c_r}，将字典D _{c_r}加入到字典D _{c_o}中。
根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法，其特征在于：步骤j)中通过公式
计算得到损失函数L，式中x为当前字，y为上下文字，T(w)为当前词语滑动窗口内的所有词语集合，D为训练语料的全部文本，σ为sigmoid函数，y′为随机选取的字，λ为负样例的个数，E _y′～p为y′按照字分布进行的采样，p为负采样分布的指数。
根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法，其特征在于：步骤u)中通过公式
计算得到损失函数L，式中λ为正则化参数，θ为参数集，使用随机梯度下降的方法优化损失函数L。