WO2021139424A1

WO2021139424A1 - 文本内涵质量的评估方法、装置、设备及存储介质

Info

Publication number: WO2021139424A1
Application number: PCT/CN2020/131673
Authority: WO
Inventors: 唐蕊
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-05-14
Filing date: 2020-11-26
Publication date: 2021-07-15
Also published as: CN111737975A

Abstract

一种文本内涵质量的评估方法、装置、设备及存储介质，涉及人工智能技术领域，用于提高文本内涵质量的评估的准确性。从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息（101）；通过自然语言处理算法对所述初始文本进行文本预处理，得到目标文本（102）；通过预置词袋模型和预置自动编码模型对所述目标文本进行文本编码，得到第一文本特征（103）；对所述目标文本进行特征提取，得到第二文本特征，所述第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，所述特征提取包括计算各类型字词的数量、各类型符号的比率和所述各类型字词的比率（104）；通过训练好的逻辑回归模型对所述第一文本特征和所述第二文本特征进行评估处理，得到评估结果，所述评估结果用于标识所述预置病历文本的内涵质量等级（105）。所述方法还涉及区块链技术，所述目标文本存储于区块链中。

Description

文本内涵质量的评估方法、装置、设备及存储介质

本申请要求于2020年05月14日提交中国专利局、申请号为202010405915.6、发明名称为“文本内涵质量的评估方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及机器学习领域，尤其涉及一种文本内涵质量的评估方法、装置、设备及存储介质。

背景技术

病历系统记录了病人疾病的发生、发展、诊断和治疗情况，病历的质量控制是医院的医疗质量管理中重要组成部分。病历质控一般由专业质控人员通过人工方式对病历进行质量评估。然而，普遍存在专业质控人员不足、人工病历质控耗费精力大、效率低的问题。

随着电子病历系统在医院的普及，电子病历逐步取代了手工书写病历，使得病历信息的收集更加方便、快捷。然而，现有的电子病历系统一般只对病历的形式进行检查，不能对病历的质量进行检查。

传统的文本内涵质控系统一般是基于一些人工设定的规则对病历的内涵进行检查，从而实现对病历的质量进行评估。然而，发明人意识到，这些传统文本内涵质控并没有对整体的病历文本进行考虑，使得对文本内涵质量的评估的准确性较低。同时目前一些文本内涵质控系统通过自然语言处理和深度学习技术对大量病历数据的学习建立模型，实现病历的内涵质控，但是，这些文本内涵质控系统存在模型训练耗时大的问题。

发明内容

本申请的主要目的在于解决了基于人工设定规则进行内涵检查，导致文本内涵质量的评估的准确性较低，以及现有的文本内涵质控系统存在模型训练耗时大的技术问题。

为实现上述目的，本申请第一方面提供了一种文本内涵质量的评估方法，包括：从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息；通过自然语言处理算法对所述初始文本进行文本预处理，得到目标文本；通过预置词袋模型和预置自动编码模型对所述目标文本进行文本编码，得到第一文本特征；对所述目标文本进行特征提取，得到第二文本特征，所述第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，所述特征提取包括计算各类型字词的数量、各类型符号的比率和所述各类型字词的比率；通过训练好的逻辑回归模型对所述第一文本特征和所述第二文本特征进行评估处理，得到评估结果，所述评估结果用于标识所述预置病历文本的内涵质量等级。

本申请第二方面提供了一种文本内涵质量的评估设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息；通过自然语言处理算法对所述初始文本进行文本预处理，得到目标文本；通过预置词袋模型和预置自动编码模型对所述目标文本进行文本编码，得到第一文本特征；对所述目标文本进行特征提取，得到第二文本特征，所述第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，所述特征提取包括计算各类型字词的数量、各类型符号的比率和所述各类型字词的比率；通过训练好的逻辑回归模型对所述第一文本特征和所述第二文本特征进行评估处理，得到评估结果，所述评估结果用于标识所述预置病历文本的内涵质量等级。

本申请第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息；通过自然语言处理算法对所述初始文本进行文本预处理，得到目标文本；通过预置词袋模型和预置自动编码模型对所述目标文本进行文本编码，得到第一文本特征；对所述目标文本进行特征提取，得到第二文本特征，所述第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，所述特征提取包括计算各类型字词的数量、各类型符号的比率和所述各类型字词的比率；通过训练好的逻辑回归模型对所述第一文本特征和所述第二文本特征进行评估处理，得到评估结果，所述评估结果用于标识所述预置病历文本的内涵质量等级。

本申请第四方面提供了一种文本内涵质量的评估装置，包括：第一获取模块，用于从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息；预处理模块，用于通过自然语言处理算法对所述初始文本进行文本预处理，得到目标文本；编码模块，用于通过预置词袋模型和预置自动编码模型对所述目标文本进行文本编码，得到第一文本特征；提取模块，用于对所述目标文本进行特征提取，得到第二文本特征，所述第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，所述特征提取包括计算各类型字词的数量、各类型符号的比率和所述各类型字词的比率；评估模块，用于通过训练好的逻辑回归模型对所述第一文本特征和所述第二文本特征进行评估处理，得到评估结果，所述评估结果用于标识所述预置病历文本的内涵质量等级。

本申请提供的技术方案中，从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息；通过自然语言处理算法对所述初始文本进行文本预处理，得到目标文本；通过预置词袋模型和预置自动编码模型对所述目标文本进行文本编码，得到第一文本特征；对所述目标文本进行特征提取，得到第二文本特征，所述第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，所述特征提取包括计算各类型字词的数量、各类型符号的比率和所述各类型字词的比率；通过训练好的逻辑回归模型对所述第一文本特征和所述第二文本特征进行评估处理，得到评估结果，所述评估结果用于标识所述预置病历文本的内涵质量等级。本申请中，通过对病历文本进行编码得到的特征，以及从病历文本中提取文本内涵质量的特征，并将二者结合作为文本内涵质量的总特征，根据文本内涵质量的总特征和逻辑回归算法训练分类模型，提高对文本内涵质量评估的准确性，并提高文本内涵质量评估模型训练的效率。

附图说明

图1为本申请实施例中文本内涵质量的评估方法的一个实施例示意图；

图2为本申请实施例中文本内涵质量的评估方法的另一个实施例示意图；

图3为本申请实施例中文本内涵质量的评估装置的一个实施例示意图；

图4为本申请实施例中文本内涵质量的评估装置的另一个实施例示意图；

图5为本申请实施例中文本内涵质量的评估设备的一个实施例示意图。

具体实施方式

本申请实施例提供了一种文本内涵质量的评估方法、装置、设备及存储介质，用于通过对病历文本进行编码得到的特征，以及从病历文本中提取文本内涵质量的特征，并将二者结合作为文本内涵质量的总特征，根据文本内涵质量的总特征和逻辑回归算法训练分类模型，提高对文本内涵质量评估的准确性，并提高文本内涵质量评估模型训练的效率。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四” 等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本申请实施例的具体流程进行描述，请参阅图1，本申请实施例中文本内涵质量的评估方法的一个实施例包括：

101、从预置病历文本中获取初始文本，初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息。

其中，预置病历文本是预先采用电子设备保存、管理、传输以及重现的数字化的医疗记录，并用于取代手写纸张病历，预置病历文本的内容包括纸张病历的所有信息，也就是说，预置病历文本与纸张病历在文本层面是相同的。进一步地，服务器从预置数据库中按照预置病历文本的不同维度信息读取初始文本，不同维度信息用于指示初始文本的不同内容。

102、通过自然语言处理算法对初始文本进行文本预处理，得到目标文本。

服务器通过预设的自然语言处理算法对初始文本进行文本预处理，得到预处理后的目标文本，该预处理包括分词、词性标注以及医疗命名实体识别，预处理后的目标文本包括分词文本、词性标注文本和实体识别文本。

需要说明的是，自然语言处理算法就是智能分析，理解和从人类语言中获取数据的一种算法，包括正向最大匹配算法、逆向最大匹配算法、最大概率分词算法以及条件随机场算法。需要强调的是，为进一步保证上述目标文本的私密和安全性，上述目标文本还可以存储于一区块链的节点中。

103、通过预置词袋模型和预置自动编码模型对目标文本进行文本编码，得到第一文本特征。

服务器对目标文本进行文本编码，具体的，服务器首先将预处理后的目标文本的目标文本通过预置词袋模型转换为高维稀疏的特征向量，然后服务器将高维稀疏的特征向量通过预置自动编码模型转换为低维紧密的特征向量，服务器将该低维紧密的特征向量设置为目标文本的文本编码，也就是第一文本特征。其中，预置词袋模型是自然语言处理中在建模文本时常用的文本表示算法，预置自动编码模型对输入数据进行压缩编码，也就是将高维的原始数据采用低维的向量表示，使得压缩后的低维向量保留输入数据的典型特征，从而能够较为方便的恢复原始数据。

104、对目标文本进行特征提取，得到第二文本特征，第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，特征提取包括计算各类型字词的数量、各类型符号的比率和各类型字词的比率。

服务器对预处理后的目标文本提取第二文本特征，第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征。其中，预处理后的目标文本包括分词文本、词性标注文本和实体识别文本，特征的提取是通过计算某类词或者符号出现的频率，例如，各类型字词的数量、各类型符号的比率和各类型字词的比率，第二文本特征在一定程度上能够反映出病历的内涵质量。

105、通过训练好的逻辑回归模型对第一文本特征和第二文本特征进行评估处理，得到评估结果，评估结果用于标识预置病历文本的内涵质量等级。

其中，第一特征和第二特征为目标文本的文本编码和文本特征所结合的特征，训练逻辑回归模型进行病历文本内涵质量的评估。训练逻辑回归模型相对训练其它机器学习或者深度学习模型效率高。服务器通过训练好的逻辑回归模型对第一文本特征和第二文本特征进行评估处理，得到评估结果，该评估结果用于标识预置病历文本的内涵质量等级。具体的，服务器将第一文本特征和第二文本特征进行合并，并将合并后的文本特征输入到训练好的逻辑回归模型中；服务器通过训练好的逻辑回归模型进行评估处理，得到评估结果，该评估结果用于标识预置病历文本的内涵质量等级。其中，内涵质量等级分别采用2、1和0表示预置病历文本的等级，也就是高等级、中等级和低等级，例如，预置病历文本A通过训练好的逻辑回归模型进行分类处理后得到模型输出值为2，2也为评估结果，2表示预置病历文本的内涵质量等级为高等级。

需要说明的是，文本内涵质量的个性化评估是通过对病历文本特征的不同选择来实现的。不同的医院有不同的文本内涵质量评估要求，例如，A医院对病历文本的语法要求较高，将着重于能够反映病历文本语法的特征；B医院对病历文本中出现的医疗术语要求比较高，将着重于这些医疗实体相关的特征，具体此处不做限定。

本申请实施例中，通过对病历文本进行编码得到的特征，以及从病历文本中提取文本内涵质量的特征，并将二者结合作为文本内涵质量的总特征，根据文本内涵质量的总特征和逻辑回归算法训练分类模型，提高对文本内涵质量评估的准确性，并提高文本内涵质量评估模型训练的效率。

请参阅图2，本申请实施例中文本内涵质量的评估方法的另一个实施例包括：

201、从预置病历文本中获取初始文本，初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息。

具体的，服务器从预置数据库中按照预置病历文本的不同维度信息读取初始文本，不同维度信息用于指示初始文本的不同内容，初始文本的不同内容包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息。其中，预置病历文本是预先采用电子设备保存、管理、传输以及重现的数字化的医疗记录，并用于取代手写纸张病历。

202、通过自然语言处理算法对初始文本进行文本预处理，得到目标文本。

具体的，首先，服务器通过自然语言处理算法对初始文本进行分词，得到分词文本，其中，分词就是将连续的字符按照预置规则重新组合成词序列的过程，目标文本中包括句子和段落，句子和段落之间的字与词是连续的字符。具体的，服务器采用正向最大匹配算法或者逆向最大匹配算法对目标文本进行分词处理后，得到分词文本的最小单位粒度是词。

进一步地，服务器根据最大概率分词算法按照上下文语义对初始文本进行分词，以便于对初始文本进行歧义识别和新词识别，歧义是指对同一个待切分字符串存在多个分词结果，新词是指未被词典收录的词。具体的，服务器从初始文本中获取多个字串，服务器每个字串按照从左到右的顺序取出多个候选词；服务器从预置词典中查出每个候选词的概率值，并记录每个候选词的全部左邻词；服务器计算每个候选词的累计概率，并从每个候选词的全部左邻词中比较得到每个候选词的最佳左邻词；若当前词为字串的尾词，且累计概率为最大值，则服务器设置当前词为字串的终点词；将当前词设置为起点，服务器按照从右到左顺序依次将每个词的最佳左邻词输出，得到目标文本的字串的分词结果，重复执行以上过程，直到得到目标文本的全部分词结果。

然后，服务器对分词文本进行词性标注，得到词性标注文本。其中，词性标注就是对分词文本中句子逐个判定每个词的语法范畴、确定其词性并加以标注的过程，词性包括实词和虚词。可选的，服务器采用条件随机场算法对分词文本进行词性标注，得到词性标注文本。

其次，服务器对词性标注文本进行医疗命名实体识别，得到实体识别文本，该实体识别文本包括k个词，k为正整数。其中，医疗命名实体识别就是对词性标注文本中与医疗相关的专有名词进行识别并归类的过程，例如，专有名词包括感冒、上呼吸道、感染、发烧、改善以及治愈。可选的，服务器根据条件随机场算法对词性标注文本进行医疗命名实体识别，得到实体识别文本；最后，服务器将分词文本、词性标注文本述实体识别文本设置为目标文本。

203、通过预置词袋模型和预置自动编码模型对目标文本进行文本编码，得到第一文本特征。

具体的，首先，服务器从目标文本中提取多个目标词，并通过预置词袋模型将多个目标词转换为m维特征向量，m为正整数。进一步地，服务器通过预置词袋模型统计每个词在预处理后的目标文本中出现的次数，服务器将所有词和对应的次数进行合并后，将合并后的数据进行标准化处理，得到m维特征向量，m维特征向量为高维稀疏的特征向量，其中，m维特征向量中每个元素对应的位置表示对应的词在预置病历文本中出现的次数，其中，高维稀疏的特征向量的大部分特征为0。需要说明的是，预置词袋模型不考虑文本中词与词之间的上下文关系，仅仅只考虑所有词在文本中的权重，而权重与词在文本中出现的频率有关

其次，服务器通过预置自动编码模型将通过预置词袋模型得到的m维特征向量转换为n维特征向量，n为正整数，并且n小于m。具体的，服务器系统将m维特征向量输入到预置自动编码模型中，通过预置自动编码模型将m维特征向量转换为n维特征向量，其中，n维特征向量为低维紧密的特征向量。预置自动编码模型为预先训练好的自动编码网络模型，训练预置自动编码模型的具体过程进一步包括：服务器获取训练特征向量Z，训练特征向量的维数为x，x为正整数；服务器通过预置编码器对训练特征向量x进行编码得到目标特征向量，目标特征向量的维数为y，y为正整数，并且x＞y；服务器通过预置解码器对y维目标特征向量向量解码得到x维特征向量Z'；服务器计算Z和Z'的交叉熵损失函数，采用梯度下降算法迭代更新初始自动编码模型中各个参数，直到初始自动编码模型训练收敛时，得到训练好的预置自动编码模型。最后，服务器将n维特征向量设置为第一文本特征，并将n维特征向量存储到预置数据表中。

204、从分词文本中提取文本复杂度特征，文本复杂度特征包括目标文本中各类型字词的数量和句子的数量。

文本复杂度特征包括目标文本中各类型字词的数量和句子的数量，例如，分词文本中出现的字的数量、分词文本中出现的词的数量、分词文本中出现的句子的数量、分词文本中平均每个词的字数、分词文本中平均每个句子的字数以及分词文本中平均每个句子的词数。

205、从词性标注文本中提取文本语法风格特征，文本语法风格特征包括各类型符号的比率和各类型字词的比率。

其中，各类型符号的比率和各类型字词的比率，也就是通过计算某类词或者符号出现的频率，例如，词性标注文本中出现的实词占总词数的比率，实词包括名词、动词、形容词、数词、量词和代词；词性标注文本中出现的虚词占总词数的比率，其中，虚词包括副词、介词、连词、助词、叹词、拟声词；词性标注文本中出现的所有标点符号的数目，标点符号包括点号、标号和符号、词性标注文本中出现的点号的数目占所有标点符号数目的比率、词性标注文本中出现的标号的数目占所有标点符号数目的比率以及词性标注文本中出现的符号的数目占所有标点符号数目的比率。

206、从实体识别文本中确定与预置医疗关联的命名实体，得到医疗语义特征。

进一步地，服务器从实体识别文本中匹配并读取与预置医疗关联的命名实体，例如，医疗语义特征包括实体识别文本中出现的医疗实体的数目、实体识别文本中出现的属于症状的医疗实体的数目、实体识别文本中出现的属于疾病的医疗实体的数目、实体识别文本中出现的属于检验检查的医疗实体的数目以及实体识别文本中出现的属于药品的医疗实体的数目。

207、将文本复杂度特征、文本语法风格特征和医疗语义特征设置为第二文本特征。

也就是，服务器对文本复杂度特征、文本语法风格特征和医疗语义特征进行组装并合并为第二文本特征，可以理解的是，从分词处理的分词文本提取的文本复杂度特征用于指示文本中字、词和句子的属性特征；从词性标注处理的词性标注文本提取的文本语法风格特征用于指示文本中词和标点符号的属性特征；医疗语义特征用于指示疾病、症状、检验检查和药品的医疗实体的属性特征。

208、通过训练好的逻辑回归模型对第一文本特征和第二文本特征进行评估处理，得到评估结果，评估结果用于标识预置病历文本的内涵质量等级。

其中，训练逻辑回归模型相对训练其它机器学习或者深度学习模型效率高。具体的，服务器将第一文本特征和第二文本特征进行合并，并将合并后的文本特征输入到训练好的逻辑回归模型中；服务器通过训练好的逻辑回归模型对合并的特征进行评估处理，得到评估结果，该评估结果用于标识预置病历文本的内涵质量等级。其中，内涵质量等级分别采用A、B和C表示预置病历文本的等级，也就是高等级、中等级和低等级，例如，预置病历文本A通过训练好的逻辑回归模型进行分类处理后得到模型输出值为A，A也为评估结果，A表示预置病历文本的内涵质量等级为高等级，C表示预置病历文本的内涵质量等级为低等级。

服务器对初始逻辑回归模型进行训练，得到训练好的逻辑回归模型，将样本特征向量输入到待训练的初始逻辑回归模型，学习反映病历文本内涵的特征向量和文本内涵质量评分之间的关系，得到模型的输出。需要说明的是，使用测试数据对提出的文本内涵质控进行评估，计算准确率、精确率和召回率，逻辑回归模型在机器学习模型中是训练速度较快的。具体的，服务器获取预置文本特征样本；服务器从预置文本特征样本中按照预置比率选取训练数据集和测试数据集，该预置文本特征样本为预先通过人工标记分数的文本特征样本；服务器基于训练数据集获取初始逻辑回归模型对应的损失函数；服务器按照损失函数更新初始逻辑回归模型中的目标模型参数，得到训练好的逻辑回归模型，进一步地，服务器通过梯度下降算法对损失函数求解最小值，并计算得到模型参数的估计值，再将估计值代入目标逻辑回归模型函数中，多次迭代后模型收敛，得到训练好的逻辑回归模型；服务器将测试数据集输入到训练好的逻辑回归模型中进行内涵质量等级分类，得到分类结果，并基于分类结果迭代更新训练好的逻辑回归模型。

进一步地，服务器获取多个电子病历样本，电子病历样本用于指示已采用百分制分数进行内涵质量评估的样本；服务器对多个电子病历样本进行文本编码以及提取文本特征，得到第一特征集和第二特征集；服务器将第二特征集按照预置特征顺序构建多个电子病历样本的特征矩阵；服务器从已标记的多个电子病历样本中提取多个内涵质量评分，并将多个内涵质量评分组成列向量，得到评分矩阵；服务器根据预置公式对特征矩阵和评分矩阵进行计算，得到多个皮尔森相关系数，预置公式为：

其中 X _i为每个第二特征集中的文本特征，Y _i为每个内涵质量评分，r用来指示反映两个变量X _i和Y _i的线性相关程度；服务器判断每个皮尔森系数是否大于预置阈值；若每个皮尔森相关系数大于预置阈值，则服务器将对应的文本特征设置为目标文本特征，并将选取的目标文本特征和第一特征集设置为预置文本特征样本。

上面对本申请实施例中文本内涵质量的评估方法进行了描述，下面对本申请实施例中文本内涵质量的评估装置进行描述，请参阅图3，本申请实施例中文本内涵质量的评估装置的一个实施例包括：

第一获取模块301，用于从预置病历文本中获取初始文本，初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息；

预处理模块302，用于通过自然语言处理算法对初始文本进行文本预处理，得到目标文本；

第一编码模块303，用于通过预置词袋模型和预置自动编码模型对目标文本进行文本编码，得到第一文本特征；

提取模块304，用于对目标文本进行特征提取，得到第二文本特征，第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，特征提取包括计算各类型字词的数量、各类型符号的比率和各类型字词的比率；

评估模块305，用于通过训练好的逻辑回归模型对第一文本特征和第二文本特征进行评估处理，得到评估结果，评估结果用于标识预置病历文本的内涵质量等级。

请参阅图4，本申请实施例中文本内涵质量的评估装置的另一个实施例包括：

可选的，预处理模块302还可以具体用于：

通过自然语言处理算法对初始文本进行分词，得到分词文本；

对分词文本进行词性标注，得到词性标注文本；

对词性标注文本进行医疗命名实体识别，得到实体识别文本，实体识别文本包括k个词，k为正整数；

将分词文本、词性标注文本和实体识别文本设置为目标文本。

需要强调的是，为进一步保证上述目标文本的私密和安全性，上述目标文本还可以存储于一区块链的节点中。

可选的，第一编码模块303具体用于：

从目标文本中提取多个目标词，并通过预置词袋模型将多个目标词转换为m维特征向量，m为正整数；

通过预置自动编码模型将m维特征向量转换为n维特征向量，n为正整数，并且n小于m；

将n维特征向量设置为第一文本特征，并将第一文本特征存储到预置数据表中。

可选的，文本内涵质量的评估装置还包括：

第二获取模块306，用于获取训练特征向量Z，训练特征向量的维数为x，x为正整数；

第二编码模块307，用于通过预置编码器对训练特征向量进行编码，得到目标特征向量，目标特征向量的维数为y，y为正整数，并且x＞y；

解码模块308，用于通过预置解码器对y维目标特征向量进行解码，得到x维特征向量Z'；

处理模块309，用于计算Z和Z'的交叉熵损失函数，并采用梯度下降算法迭代更新初始自动编码模型中各个参数，直到初始自动编码模型训练收敛时，得到预置自动编码模型。

可选的，提取模块304还可以具体用于：

从分词文本中提取文本复杂度特征，文本复杂度特征包括目标文本中各类型字词的数量和句子的数量；

从词性标注文本中提取文本语法风格特征，文本语法风格特征包括各类型符号的比率和各类型字词的比率；

从实体识别文本中确定与预置医疗关联的命名实体的数量，得到医疗语义特征；

将文本复杂度特征、文本语法风格特征和医疗语义特征设置为第二文本特征。

可选的，文本内涵质量的评估装置还包括：

第三获取模块310，用于获取预置文本特征样本；

选取模块311，用于从预置文本特征样本中按照预置比率选取训练数据集和测试数据集，预置文本特征样本为预先通过人工标记分数的文本特征样本；

计算模块312，用于基于训练数据集计算初始逻辑回归模型对应的损失函数；

更新模块313，用于按照损失函数更新初始逻辑回归模型中的目标模型参数，得到训练好的逻辑回归模型；

测试模块314，用于将测试数据集输入到训练好的逻辑回归模型中进行内涵质量等级分类，得到分类结果，并基于分类结果迭代更新训练好的逻辑回归模型。

可选的，第三获取模块310还可以具体用于：

获取多个电子病历样本，电子病历样本用于指示已采用百分制分数进行内涵质量评估的样本；

对多个电子病历样本进行文本编码以及提取文本特征，得到第一特征集和第二特征集；

将第二特征集按照预置特征顺序构建多个电子病历样本的特征矩阵；

从已标记的多个电子病历样本中提取多个内涵质量评分，并将多个内涵质量评分组成列向量，得到评分矩阵；

根据预置公式对特征矩阵和评分矩阵进行计算，得到多个皮尔森相关系数，预置公式为：

其中，X _i为每个第二特征集中的文本特征，Y _i为每个内涵质量评分，r用来指示反映两个变量X _i和Y _i的线性相关程度；

判断每个皮尔森系数是否大于预置阈值；

若每个皮尔森相关系数大于预置阈值，则将对应的文本特征设置为目标文本特征，并将选取的目标文本特征和第一特征集设置为预置文本特征样本。

上面图3和图4从模块化功能实体的角度对本申请实施例中的文本内涵质量的评估装置进行详细描述，下面从硬件处理的角度对本申请实施例中文本内涵质量的评估设备进行详细描述。

图5是本申请实施例提供的一种文本内涵质量的评估设备的结构示意图，该文本内涵质量的评估设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对文本内涵质量的评估设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在文本内涵质量的评估设备500上执行存储介质530中的一系列指令操作。

文本内涵质量的评估设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的文本内涵质量的评估设备结构并不构成对文本内涵质量的评估设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，也可以为易失性计算机可读存储介质。计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息；

通过自然语言处理算法对所述初始文本进行文本预处理，得到目标文本；

通过预置词袋模型和预置自动编码模型对所述目标文本进行文本编码，得到第一文本特征；

对所述目标文本进行特征提取，得到第二文本特征，所述第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，所述特征提取包括计算各类型字词的数量、各类型符号的比率和所述各类型字词的比率；

通过训练好的逻辑回归模型对所述第一文本特征和所述第二文本特征进行评估处理，得到评估结果，所述评估结果用于标识所述预置病历文本的内涵质量等级。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种文本内涵质量的评估方法，其中，包括：

从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息；

通过自然语言处理算法对所述初始文本进行文本预处理，得到目标文本；

通过预置词袋模型和预置自动编码模型对所述目标文本进行文本编码，得到第一文本特征；

对所述目标文本进行特征提取，得到第二文本特征，所述第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，所述特征提取包括计算各类型字词的数量、各类型符号的比率和所述各类型字词的比率；

通过训练好的逻辑回归模型对所述第一文本特征和所述第二文本特征进行评估处理，得到评估结果，所述评估结果用于标识所述预置病历文本的内涵质量等级。
根据权利要求1所述的文本内涵质量的评估方法，其中，所述目标文本存储于区块链中，所述通过自然语言处理算法对所述初始文本进行文本预处理，得到目标文本，包括：

通过自然语言处理算法对所述初始文本进行分词，得到分词文本；

对所述分词文本进行词性标注，得到词性标注文本；

对所述词性标注文本进行医疗命名实体识别，得到实体识别文本，所述实体识别文本包括k个词，所述k为正整数；

将所述分词文本、所述词性标注文本和所述实体识别文本设置为目标文本。
根据权利要求1所述的文本内涵质量的评估方法，其中，所述通过预置词袋模型和预置自动编码模型对所述目标文本进行文本编码，得到第一文本特征，包括：

从所述目标文本中提取多个目标词，并通过预置词袋模型将所述多个目标词转换为m维特征向量，所述m为正整数；

通过预置自动编码模型将所述m维特征向量转换为n维特征向量，所述n为正整数，并且所述n小于所述m；

将所述n维特征向量设置为第一文本特征，并将所述第一文本特征存储到预置数据表中。
根据权利要求1所述的文本内涵质量的评估方法，其中，在所述从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息之前，还包括：

获取训练特征向量Z，所述训练特征向量的维数为x，所述x为正整数；

通过预置编码器对所述训练特征向量进行编码，得到目标特征向量，所述目标特征向量的维数为y，所述y为正整数，并且x＞y；

通过预置解码器对所述y维目标特征向量进行解码，得到所述x维特征向量Z'；

计算所述Z和所述Z'的交叉熵损失函数，并采用梯度下降算法迭代更新初始自动编码模型中各个参数，直到所述初始自动编码模型训练收敛时，得到预置自动编码模型。
根据权利要求2所述的文本内涵质量的评估方法，其中，所述对所述目标文本进行特征提取，得到第二文本特征，所述第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，所述特征提取包括计算各类型字词的数量、各类型符号的比率和所述各类型字词的比率，包括：

从所述分词文本中提取文本复杂度特征，所述文本复杂度特征包括所述目标文本中各类型字词的数量和句子的数量；

从所述词性标注文本中提取文本语法风格特征，所述文本语法风格特征包括各类型符号的比率和所述各类型字词的比率；

从所述实体识别文本中确定与预置医疗关联的命名实体的数量，得到医疗语义特征；

将所述文本复杂度特征、所述文本语法风格特征和所述医疗语义特征设置为第二文本特征。
根据权利要求1-5中任意一项所述文本内涵质量的评估方法，其中，在所述从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息之前，还包括：

获取预置文本特征样本；

从所述预置文本特征样本中按照预置比率选取训练数据集和测试数据集，所述预置文本特征样本为预先通过人工标记分数的文本特征样本；

基于所述训练数据集计算初始逻辑回归模型对应的损失函数；

按照所述损失函数更新所述初始逻辑回归模型中的目标模型参数，得到训练好的逻辑回归模型；

将所述测试数据集输入到所述训练好的逻辑回归模型中进行内涵质量等级分类，得到分类结果，并基于所述分类结果迭代更新所述训练好的逻辑回归模型。
根据权利要求6所述的文本内涵质量的评估方法，其中，所述获取预置文本特征样本，包括：

获取多个电子病历样本，所述电子病历样本用于指示已采用百分制分数进行内涵质量评估的样本；

对所述多个电子病历样本进行文本编码以及提取文本特征，得到第一特征集和第二特征集；

将所述第二特征集按照预置特征顺序构建所述多个电子病历样本的特征矩阵；

从已标记的多个电子病历样本中提取多个内涵质量评分，并将所述多个内涵质量评分组成列向量，得到评分矩阵；

根据预置公式对所述特征矩阵和所述评分矩阵进行计算，得到多个皮尔森相关系数，所述预置公式为：
其中，X _i为每个所述第二特征集中的文本特征，Y _i为每个所述内涵质量评分，r用来指示反映两个变量所述X _i和所述Y _i的线性相关程度；

判断每个皮尔森系数是否大于预置阈值；

若所述每个皮尔森相关系数大于所述预置阈值，则将对应的文本特征设置为目标文本特征，并将选取的目标文本特征和所述第一特征集设置为所述预置文本特征样本。
一种文本内涵质量的评估设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息；

通过自然语言处理算法对所述初始文本进行文本预处理，得到目标文本；

通过预置词袋模型和预置自动编码模型对所述目标文本进行文本编码，得到第一文本特征；

对所述目标文本进行特征提取，得到第二文本特征，所述第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，所述特征提取包括计算各类型字词的数量、各类型符号的比率和所述各类型字词的比率；

通过训练好的逻辑回归模型对所述第一文本特征和所述第二文本特征进行评估处理，得到评估结果，所述评估结果用于标识所述预置病历文本的内涵质量等级。
根据权利要求8所述的文本内涵质量的评估设备，所述处理器执行所述计算机程序时还实现以下步骤：

通过自然语言处理算法对所述初始文本进行分词，得到分词文本；

对所述分词文本进行词性标注，得到词性标注文本；

对所述词性标注文本进行医疗命名实体识别，得到实体识别文本，所述实体识别文本包括k个词，所述k为正整数；

将所述分词文本、所述词性标注文本和所述实体识别文本设置为目标文本。
根据权利要求8所述的文本内涵质量的评估设备，所述处理器执行所述计算机程序时还实现以下步骤：

从所述目标文本中提取多个目标词，并通过预置词袋模型将所述多个目标词转换为m维特征向量，所述m为正整数；

通过预置自动编码模型将所述m维特征向量转换为n维特征向量，所述n为正整数，并且所述n小于所述m；

将所述n维特征向量设置为第一文本特征，并将所述第一文本特征存储到预置数据表中。
根据权利要求8所述的文本内涵质量的评估设备，所述处理器执行所述计算机程序时还实现以下步骤：

获取训练特征向量Z，所述训练特征向量的维数为x，所述x为正整数；

通过预置编码器对所述训练特征向量进行编码，得到目标特征向量，所述目标特征向量的维数为y，所述y为正整数，并且x＞y；

通过预置解码器对所述y维目标特征向量进行解码，得到所述x维特征向量Z'；

计算所述Z和所述Z'的交叉熵损失函数，并采用梯度下降算法迭代更新初始自动编码模型中各个参数，直到所述初始自动编码模型训练收敛时，得到预置自动编码模型。
根据权利要求9所述的文本内涵质量的评估设备，所述处理器执行所述计算机程序时还实现以下步骤：

从所述分词文本中提取文本复杂度特征，所述文本复杂度特征包括所述目标文本中各类型字词的数量和句子的数量；

从所述词性标注文本中提取文本语法风格特征，所述文本语法风格特征包括各类型符号的比率和所述各类型字词的比率；

从所述实体识别文本中确定与预置医疗关联的命名实体的数量，得到医疗语义特征；

将所述文本复杂度特征、所述文本语法风格特征和所述医疗语义特征设置为第二文本特征。
根据权利要求8-12中任意一项所述的文本内涵质量的评估设备，所述处理器执行所述计算机程序时还实现以下步骤：

获取预置文本特征样本；

从所述预置文本特征样本中按照预置比率选取训练数据集和测试数据集，所述预置文本特征样本为预先通过人工标记分数的文本特征样本；

基于所述训练数据集计算初始逻辑回归模型对应的损失函数；

按照所述损失函数更新所述初始逻辑回归模型中的目标模型参数，得到训练好的逻辑回归模型；

将所述测试数据集输入到所述训练好的逻辑回归模型中进行内涵质量等级分类，得到分类结果，并基于所述分类结果迭代更新所述训练好的逻辑回归模型。
根据权利要求13所述的文本内涵质量的评估设备，所述处理器执行所述计算机程序时还实现以下步骤：

获取多个电子病历样本，所述电子病历样本用于指示已采用百分制分数进行内涵质量评估的样本；

对所述多个电子病历样本进行文本编码以及提取文本特征，得到第一特征集和第二特征集；

将所述第二特征集按照预置特征顺序构建所述多个电子病历样本的特征矩阵；

从已标记的多个电子病历样本中提取多个内涵质量评分，并将所述多个内涵质量评分组成列向量，得到评分矩阵；

根据预置公式对所述特征矩阵和所述评分矩阵进行计算，得到多个皮尔森相关系数，所述预置公式为：
其中，X _i为每个所述第二特征集中的文本特征，Y _i为每个所述内涵质量评分，r用来指示反映两个变量所述X _i和所述Y _i的线性相关程度；

判断每个皮尔森系数是否大于预置阈值；

若所述每个皮尔森相关系数大于所述预置阈值，则将对应的文本特征设置为目标文本特征，并将选取的目标文本特征和所述第一特征集设置为所述预置文本特征样本。
一种计算机可读存储介质，所述计算机可读存储介质中存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息；

通过自然语言处理算法对所述初始文本进行文本预处理，得到目标文本；

通过预置词袋模型和预置自动编码模型对所述目标文本进行文本编码，得到第一文本特征；

对所述目标文本进行特征提取，得到第二文本特征，所述第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，所述特征提取包括计算各类型字词的数量、各类型符号的比率和所述各类型字词的比率；

通过训练好的逻辑回归模型对所述第一文本特征和所述第二文本特征进行评估处理，得到评估结果，所述评估结果用于标识所述预置病历文本的内涵质量等级。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

通过自然语言处理算法对所述初始文本进行分词，得到分词文本；

对所述分词文本进行词性标注，得到词性标注文本；

对所述词性标注文本进行医疗命名实体识别，得到实体识别文本，所述实体识别文本包括k个词，所述k为正整数；

将所述分词文本、所述词性标注文本和所述实体识别文本设置为目标文本。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

从所述目标文本中提取多个目标词，并通过预置词袋模型将所述多个目标词转换为m维特征向量，所述m为正整数；

通过预置自动编码模型将所述m维特征向量转换为n维特征向量，所述n为正整数，并且所述n小于所述m；

将所述n维特征向量设置为第一文本特征，并将所述第一文本特征存储到预置数据表中。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

获取训练特征向量Z，所述训练特征向量的维数为x，所述x为正整数；

通过预置编码器对所述训练特征向量进行编码，得到目标特征向量，所述目标特征向量的维数为y，所述y为正整数，并且x＞y；

通过预置解码器对所述y维目标特征向量进行解码，得到所述x维特征向量Z'；

计算所述Z和所述Z'的交叉熵损失函数，并采用梯度下降算法迭代更新初始自动编码模型中各个参数，直到所述初始自动编码模型训练收敛时，得到预置自动编码模型。
根据权利要求16所述的计算机可读存储介质，当所述计算机指令在计算机上运行执行以下步骤时，使得计算机还执行以下步骤：

从所述分词文本中提取文本复杂度特征，所述文本复杂度特征包括所述目标文本中各类型字词的数量和句子的数量；

从所述词性标注文本中提取文本语法风格特征，所述文本语法风格特征包括各类型符号的比率和所述各类型字词的比率；

从所述实体识别文本中确定与预置医疗关联的命名实体的数量，得到医疗语义特征；

将所述文本复杂度特征、所述文本语法风格特征和所述医疗语义特征设置为第二文本特征。
一种文本内涵质量的评估装置，其中，所述文本内涵质量的评估装置包括：

第一获取模块，用于从预置病历文本中获取初始文本，所述初始文本包括主诉信息、现有病史信息、查体信息、首次病程记录信息、病程记录信息、查房记录信息以及手术记录信息；

预处理模块，用于通过自然语言处理算法对所述初始文本进行文本预处理，得到目标文本；

第一编码模块，用于通过预置词袋模型和预置自动编码模型对所述目标文本进行文本编码，得到第一文本特征；

提取模块，用于对所述目标文本进行特征提取，得到第二文本特征，所述第二文本特征包括文本复杂度特征、文本语法风格特征和医疗语义特征，所述特征提取包括计算各类型字词的数量、各类型符号的比率和所述各类型字词的比率；

评估模块，用于通过训练好的逻辑回归模型对所述第一文本特征和所述第二文本特征进行评估处理，得到评估结果，所述评估结果用于标识所述预置病历文本的内涵质量等级。