WO2020019797A1

WO2020019797A1 - 电子病历数据解析方法、装置、计算机及可读存储介质

Info

Publication number: WO2020019797A1
Application number: PCT/CN2019/084577
Authority: WO
Inventors: 张建中; 王列
Original assignee: 无锡慧方科技有限公司
Priority date: 2018-07-23
Filing date: 2019-04-26
Publication date: 2020-01-30
Also published as: CN109036576B; CN109036576A

Abstract

本发明公开了一种电子病历数据解析方法、装置、计算机及可读存储介质，涉及数据处理领域，该方法包括：确定业务需求，获取电子病历并确定病历模板，根据业务需求和病历模板从电子病历中提取目标文本，利用语料库对目标文本进行分词处理，利用医学指标分类库进行词标注并分类得到业务需求对应的指标数据，本申请将基于医学指标分类库的自然语言处理技术与对电子病历的业务分析结合，可以顺利地从电子病历的非结构化数据中解析并提取出业务所需的医疗数据，为医疗大数据的挖掘分析提供了数据基础，弥补了目前在电子病历的解析方面的技术空缺。

Description

电子病历数据解析方法、装置、计算机及可读存储介质

技术领域

本发明涉及数据处理领域，尤其是一种电子病历数据解析方法、装置、计算机及可读存储介质。

背景技术

随着信息技术的快速发展，医疗信息化呈现出前所未有的发展趋势，医院在医疗服务过程中会产生海量的数据，从而形成医疗大数据，大数据的意义不仅是掌握海量数据，更重要的是通过数据挖掘等专业方法进行分析来实现数据的价值和意义，因此，将数据挖掘与分析技术应用于医疗领域并与传统医学数据相结合，可实现精准化、个性化的健康医疗服务。

在对医疗大数据进行数据挖掘和分析的过程中，首先需要从医院信息系统中提取出医疗数据，目前比较常用的医院信息系统有HIS（Hospital Information System，医院信息系统）、LIS（Laboratory Information System，实验室信息系统）、PACS（Picture Archiving and Communication Systems，影像归档和通信系统）和EMR（Electronic Medical Record，电子病历）等。其中，HIS、LIS和PACS中的数据均为结构化数据，因此从这些信息系统中解析并提取出医疗数据比较方便。而EMR相比于上述几种系统来说，则是一种信息整合度和集成度更高的系统，EMR中往往包括首页、入院记录、病程记录、检查检验结果、医嘱、手术记录以及护理记录等等，可以记录病人完整的医疗过程，EMR中的数据为非结构化数据，因此对EMR的解析和数据提取难度较大，目前没有解决的有效方法。

技术问题

目前在进行医疗数据挖掘时，只能对HIS、LIS和PACS等信息系统中的结构化数据进行数据解析和提取，但EMR中的数据为非结构化数据，目前并没有对EMR进行解析和数据提取的有效方法。

技术解决方案

一种电子病历数据解析方法，该方法包括：

确定业务需求，业务需求用于指示目标指标项，目标指标项是待提取的指标数据的指标项；

从EMR系统中获取电子病历并确定电子病历使用的病历模板，电子病历中包括主题内容块，每个主题内容块中分别包括相应的病历文本；

根据业务需求和病历模板从电子病历中提取目标文本，目标文本是电子病历中包括待提取的指标数据的主题内容块中的病历文本；

利用语料库对目标文本进行分词处理得到目标文本的分词结果；

利用医学指标分类库对目标文本的分词结果进行词标注并输入分类器中进行分类得到目标文本的解析结果，目标文本的解析结果中包括目标文本中的各个指标数据，每个指标数据分别包括指标项和对应的数据结果，数据结果包括数值形式和/或字符串形式的结果；

输出目标指标项对应的指标数据。

其进一步技术方案为，输出目标指标项对应的指标数据，包括：

确定数据处理规则，数据处理规则用于指示将目标指标项对应的指标数据中的数据结果处理为预定格式；

按照所述数据处理规则对目标指标项对应的指标数据中的数据结果进行处理得到处理后的目标指标项对应的指标数据；

输出处理后的目标指标项对应的指标数据，输出的指标数据中包括指标项和具有预定格式的数据结果。

其进一步技术方案为，指标数据中的指标项采用单一标准术语形式表示，或者采用包括通配符的术语形式表示，或者采用具有父子节点结构的术语形式表示，或者采用具有疑问结构的术语形式表示，或者采用包括数据结果范围的术语形式表示。

其进一步技术方案为，根据业务需求和病历模板从电子病历中提取目标文本，包括：

根据业务需求和病历模板从电子病历中提取目标主题内容块，目标主题内容块是电子病历中包括待提取的指标数据的主题内容块；

对目标主题内容块中的病历文本进行格式预处理，得到纯文本格式的目标文本。

其进一步技术方案为，对目标主题内容块中的病历文本进行格式预处理，包括：

对病历文本的文件格式进行转换；

和/或，对病历文本中的表格数据进行行列转换；

和/或，删除病历文本中的特殊字符。

为了解决上述技术问题，本申请还提供了一种电子病历数据解析装置，该装置包括：

需求确定模块，用于确定业务需求，业务需求用于指示目标指标项，目标指标项是待提取的指标数据的指标项；

获取模块，用于从EMR系统中获取电子病历并确定电子病历使用的病历模板，电子病历中包括主题内容块，每个主题内容块中分别包括相应的病历文本；

文本提取模块，用于根据业务需求和病历模板从电子病历中提取目标文本，目标文本是电子病历中包括待提取的指标数据的主题内容块中的病历文本；

分词模块，用于利用语料库对目标文本进行分词处理得到目标文本的分词结果；

解析模块，用于利用医学指标分类库对目标文本的分词结果进行词标注并输入分类器中进行分类得到目标文本的解析结果，目标文本的解析结果中包括目标文本中的各个指标数据，每个指标数据分别包括指标项和对应的数据结果，数据结果包括数值形式和/或字符串形式的结果；

输出模块，用于输出目标指标项对应的指标数据。

其进一步技术方案为，输出模块包括：

规则确定单元，用于确定数据处理规则，所述数据处理规则用于指示将目标指标项对应的指标数据中的数据结果处理为预定格式；

处理单元，按照数据处理规则对目标指标项对应的指标数据中的数据结果进行处理得到处理后的目标指标项对应的指标数据；

输出单元，用于输出处理后的目标指标项对应的指标数据，输出的指标数据中包括指标项和具有预定格式的数据结果。

其进一步技术方案为，文本提取模块包括：

提取单元，用于根据业务需求和病历模板从电子病历中提取目标主题内容块，目标主题内容块是电子病历中包括待提取的指标数据的主题内容块；

预处理单元，用于对目标主题内容块中的病历文本进行格式预处理，得到纯文本格式的目标文本。

其进一步技术方案为，预处理单元用于：

对病历文本的文件格式进行转换；

和/或，对病历文本中的表格数据进行行列转换；

和/或，删除病历文本中的特殊字符。

为了解决上述技术问题，本申请还提供了一种计算机设备，该计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述电子病历数据解析方法的步骤。

为了解决上述技术问题，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有至少一条指令，至少一条指令由至少一个处理器加载并执行实现上述电子病历数据解析方法。

有益效果

本申请公开的电子病历数据解析方法、装置、计算机设备及计算机可读存储介质基于自然语言处理技术和对电子病历的业务分析对电子病历进行数据解析，且本申请在执行自然语言处理技术时是基于医学指标分类库处理的，利用本申请可以顺利地从电子病历的非结构化数据中解析并提取出业务所需的医疗数据，以便后续进行数据挖掘和分析，为医疗大数据的挖掘分析提供了数据基础，弥补了目前在电子病历的解析方面的技术空缺。

附图说明

图1是本申请的系统架构示意图。

图2是是本申请的电子病历数据解析方法的流程图。

图3-1是电子病历的病历记录部分的前半部分内容示意图。

图3-2是3-1示出的病历记录部分的后半部分内容示意图。

图4是电子病历的手术记录部分的内容示意图。

图5是电子病历的ERAS医用管道放置及并发症评估表的内容示意图。

图6是本申请的电子病历数据解析装置的结构示意图。

图7实现本申请的电子病历数据解析方法的计算机设备的硬件结构图。

本发明的实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的系统架构，该系统包括基于医院的信息平台的EMR系统10以及计算机设备20，计算机设备20与EMR系统10相连。EMR系统10连接院内系统中的各个子系统，常见的子系统比如门诊系统、化验系统、手术室系统、重症监护系统、影像系统、医生站和护士站等等。计算机设备20是用于实现本申请公开的电子病历数据解析方法的设备，该计算机设备20是一种能够按照事先设定或者存储的指令、自动进行信息处理的设备，本申请中的该计算机设备20可以由个人计算机、台式计算机、膝上型计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器（包括独立的服务器，或者多个服务器所组成的服务器集群）等实现。

实施例一

基于图1所示的系统架构，该实施例示出了本申请公开的电子病历数据解析方法的过程，本申请基于自然语言处理技术，其步骤图请参考图2，具体如下：

步骤S01，确定业务需求，本申请的业务需求通常是在针对某一医学指标进行医疗大数据的数据挖掘和分析过程中所产生的数据提取需求，也即该业务需求是需要提取特定的指标数据以进行进一步的数据挖掘和分析，因此该业务需求会指示待提取的指标数据的指标项，也即目标指标项，本申请中的指标项即为医学指标项，比如血压、体重、术后进食情况等等。比如，业务需求为需要提取手术中近（上）切缘的数据，则目标指标项即为“近（上）切缘”；再比如，业务需求为需要提取术前禁食时间的数据，则目标指标项即为“术前禁食时间”。

步骤S02，从EMR系统中获取电子病历并确定电子病历使用的病历模板，电子病历是基于模板生成的，不同医院的不同科室可以根据需要对病历模板进行自定义，在自定义设置完成后，病历模板通常就是固定不能随意修改的，因此EMR系统中的电子病历虽然可能基于不同的病历模板，但都一定是有固定的病历模板的，因此直接通过EMR系统就能确定电子病历使用的病历模板。

电子病历中一般都会包括若干个主题内容块，每个主题内容块对应不同的主题，且每个主题内容块中分别包括其对应的主题的病历文本，病历模板中各个主题内容块中所记载的病历文本的主题也是固定的。比如，在一个例子中，电子病历主要包括病历记录（前半部分见图3-1、后半部分见图3-2）、手术记录（见图4）以及ERAS医用管道放置及并发症评估表（见图5）三部分；以病例记录中后半部分为例，请参考图3-2，其中包括如下几个主题内容块：2017-08-21 16:50 术前讨论、2017-08-21 16:56 术前小结、2017-08-22 21:32 外科术后首次病程记录、2017-08-22 22:58 输血记录等，图中显示的其他主题内容块本申请不一一列举。其中，“2017-08-21 16:50 术前讨论”这一主题内容块记载术前讨论过程中的病情介绍以及各医师发言等，“2017-08-21 16:56 术前小结”这一主题内容块记载患者术前病情以及患者术前状况评估等，除此之外。

步骤S03，由步骤S02可知，由于电子病历使用的病历模板，以及每个主题内容块所记载的病历文本的主题都是相对固定的，也即电子病历中各个主题的内容的记载位置都是相对固定的。因此对于待提取的指标数据，只需要确定该指标数据属于哪一个主题，就能定位到其在电子病历中所在的主题内容块，而每一个指标数据所对应的主题都是预先设定好的，也即，每一个指标数据所对应的主题内容块都是预先设定好的，比如，“术前禁食时间”这一指标数据对应的主题内容块是“术前小结”，“术后第2天体温”这一指标数据对应的主题内容块是“外科术后首次病程记录”，“腹部切口长度”这一指标数据对应的主题内容块是“手术步骤”。因此根据业务需求指示的目标指标项和病历模板就能从电子病历中提取目标主题内容块，目标主题内容块指的是电子病历中包括待提取的指标数据的主题内容块，例如当待提取的指标数据是“术前禁食时间”这一指标数据时，提取的目标主题内容块即为“术前小结”。

步骤S04，提取到的目标主题内容块中的病历文本可能不是干净的文本数据，因此需要对目标主题内容块中的病历文本进行格式预处理，以为后续的数据解析做准备。比较常见的包括以下三种情况中的至少一种：

1、病历文本的文本格式不符合要求，则对病历文本的文本格式进行转换，比较常见的情况有几下几种：（1）、目标主题内容块中的病历文本采用标记语言存储格式进行存储，这里的标记语言存储模式主要包括HTML（HyperText Markup Language，超文本标记语言）格式或XML(Extensible Markup Language,可扩展标记语言)格式或者其他常见格式。在这种情况下，去除目标主题内容块中的病历文本的标记语言标签，也即：在采用HTML格式存储时，去除HTML标签；在采用XML格式存储时，去除XML标签，其余情况也是类似。比较特殊的是，对于数据结果作为属性值的情况则不会去除标签，比如，HTML中按如下格式存储数据风险因素总分，风险因素总分：<input style="width: 50px" id="countzf" type="text" class="txt-underline" name="txt200" value="4"/>分，这里的value="4"表示风险因素总分的分值为4分，则不会去除标签。（2）、病历文本采用text文件、json文件、webservice接口返回的报文格式或其他平台到处的数据格式例如excel格式等各种常见的文件格式，则对病历文件执行相应的解析操作。

2、目标主题内容块中的病历文本采用表格格式存储，例如在入院记录中的诊断数据就通常采用表格格式存储。在这种情况下，对表格格式的病历文本根据实际需要进行行列转换，例如，对入院记录中的诊断数据进行转换，将多列数据转换成行数据，具体的行列转换方式可以自定义设置。

3、病历文本中包括特殊字符，包括无法读取的特殊字符和/或非可见字符和/或空白字符等。

经过上述格式预处理后，目标主题内容块中的病历文本被处理为干净的纯文本格式的目标文本。

步骤S05，利用语料库对目标文本进行分词处理得到目标文本的分词结果，语料库可以根据实际情况进行维护，可以直接使用现有的完备的语料库，比较常用的语料库比如“现代汉语研究语料库”，该语料库中使用的汉字字种数为4868个，在语料库中的总字次为1857660。利用语料库进行分词的具体方法比较常用，因此本申请不再详述。

步骤S06，利用医学指标分类库对目标文本的分词结果进行词标注，该步骤进行词标注时，不同于现有的基于词性（动词/名词/分词等）进行词标注的方式，也不同于基于人名/地名等分类方式进行词标注的方式，而是基于医学指标分类库进行词标注，从而可以对目标文本中的医学的指标项进行标注，医学指标分类库中包括医学领域的各个指标项，例如：血压、体重、术后进食情况等，在使用过程中，该医学指标分类库还会不断补充和完善。词标注完成后输入分类器进行分类，从而可以将目标文本按照医学指标项进行分类并提取出相应的数据结果，也即得到目标文本的解析结果，每个指标数据分别包括指标项和对应的数据结果，该数据结果包括数值形式和/或字符串形式的结果。该方法的具体实现流程与现有的自然语言技术是类似的，只是本申请基于医学领域的各个指标项进行标注和分类，因此本申请对具体标注和分类的方法不作赘述。对于数据结果作为属性值而不去除标签的情况，由于仍有标记语言标签，因此无法直接提取到数据结果，通常会采用xpath解析来提取数据结果，比如对于上述风险因素总分的例子来说，在提取风险因素总分的数据结果时，将xpath定义为：//table[contains(@style,'width: 590px; font-size: 12px; border-collapse: collapse')]//tr[contains(td,' 风险因素总分')]//td[1]//input//@value，即可成功提取其数据结果。

例如，假设目标文本为“切缘：近（上）切缘5.0cm；远（下）切缘5.0cm”，分词结果为“切缘/：/近/（/上/）/切缘/5.0/cm/；/远/（/下/）/切缘/5.0/cm”，对分词结果进行词标注并分类，确定“近（上）切缘”和“远（下）切缘”为指标项，相应的数据结果均为5.0cm，则最终得到的解析结果为：“近（上）切缘，对应的原始值为5.0cm”；以及，“远（下）切缘，对应的原始值为5.0cm”。

实际解析得到指标数据可以有多种表示方式：

1、指标项采用单一标准术语形式表示，例如“近（上）切缘，对应的原始值为5.0cm”，直接采用单一标准术语“近（上）切缘”表示。

2、指标项采用包括通配符的术语形式表示，例如“术前*小时禁食，对应的结果为8”，此举例中的*表示通配符。

3、指标项采用具有父子节点结构的术语形式表示，例如“胃管-拔除时间，对应的结果为1”，胃管-拔除时间为父子节点结构，胃管作为父节点，拔除时间作为子节点，一个父节点可以对应多个子节点，一个子节点也可以对应多个父节点，比如对于导尿管这一父节点，其也可以存在子节点拔除时间。

4、指标项采用具有疑问结构的术语形式表示，例如“是否肠梗阻？对应的结果为否”。

5、指标项采用包括数据结果范围的术语形式表示，例如“年龄为41-60岁，对应的结果为是”。

步骤S07，解析后得到的数据结果为原始数据，这类数据会由于数据截取范围、全角半角和数值格式等问题依然无法转换为干净数据，因此在本申请中，引入与业务需求对应的数据处理规则，根据不同的业务需求对数据结果进行再次处理，数据处理规则可以自行配置，数据处理规则用于指示将目标指标项对应的指标数据中的数据结果处理为预定格式，比如，数据处理规则为：提取目标指标项对应的指标数据中的数据结果并将数据结果转换为小数点后2位。再比如，数据处理规则为：提取目标指标项对应的指标数据中的数据结果并将数据结果转换为英文字符。

步骤S08，按照数据处理规则对目标指标项对应的指标数据中的数据结果进行处理，将其处理为预定格式，实际通过目标文本解析得到的指标数据可能不止一个，比如上述例子中，目标文本为“切缘：近（上）切缘5.0cm；远（下）切缘5.0cm”时解析得到的指标数据包括“近（上）切缘，对应的原始值为5.0cm”；以及，“远（下）切缘，对应的原始值为5.0cm”，假设业务需求指示的目标指标项为“近（上）切缘”时，则目标指标项对应的指标数据为“近（上）切缘，对应的原始值为5.0cm”，对该数据结果执行数据处理规则为提取数据结果并将数据结果转换为小数点后2位，则处理后的指标数据为“近（上）切缘=5.00cm”。

再比如，目标指标项对应的指标数据为“是否肠梗阻？对应的结果为否”，对该数据结果执行数据处理规则为提取数据结果并将数据结果转换为英文字符，则处理后的指标数据为“是否肠梗阻？N”，也即中文字符“是”可以被转换为英文字符Y，中文字符“否”可以被转换为英文字符N。

步骤S09，输出处理后的目标指标项对应的指标数据，输出的指标数据中包括指标项和具有预定格式的数据结果。

为了更清楚的说明本申请的实现过程，以图3-1、图3-2、图4和图5示出的电子病历为例进行如下三个举例说明：

例1：

确定业务需求为“抽取手术中的近（上）切缘”，该业务需求指示的目标指标项为“近（上）切缘”。系统根据业务需求和电子病历的模板提取到目标文本为图4所示手术记录部分中的“切缘：近（上）切缘5.0cm；远（下）切缘5.0cm”。语料库选择“现代汉语研究语料库”，利用语料库进行分词得到分词结果为“切缘/:/近/（/上/）/切缘/5.0/cm/；/远/（/下/）/切缘/5.0/cm”，词标注“近（上）切缘”和“远（下）切缘5.0cm”为指标项，系统自动获取两者对应的数据结果均为5.0cm，标注终止符包括（：/；/空格/换行），则解析结果为“近（上）切缘，对应的原始值为5.0cm”，以及，“远（下）切缘，对应的原始值为5.0cm”。确定目标指标项对应的指标数据为“近（上）切缘，对应的原始值为5.0cm”，引入数据处理规则为：近（上）切缘，获取数据结果并转换数据格式为小数点后2位，则处理后的目标指标项对应的指标数据为“近（上）切缘=5.00cm”，输出该结果，解析完成。

例2：

确定业务需求为“获取患者的术前禁食时间”，该业务需求指示的目标指标项为“术前禁食时间”。系统根据业务需求和电子病历的模板提取到目标文本为图3-2所示的病历记录部分的“2017-08-21 16:56 术前小结”中的文本。语料库同例1，本申请利用语料库对目标文本进行分词、词标注和分类，由于目标文本中的内容较多，因此该举例仅重点以其中的“不行肠道准备；术前8小时禁食，术前8小时禁水”语句说明。词标注引入通配符概念，该语句得到的解析结果为“术前*小时禁食，对应的结果为8”，以及，“术前*小时禁水，对应的结果为8”。确定目标指标项对应的指标数据为“术前*小时禁食，对应的结果为8”，引入数据处理规则为：术前*小时禁食，获取数据结果并转换数据格式为小数点后2位，则处理后的目标指标项对应的指标数据为“术前*小时禁食=8.00”，输出该结果，解析完成。

例3：

确定业务需求为“获取患者的胃管拔除时间”，该业务需求指示的目标指标项为“胃管拔除时间”。系统根据业务需求和电子病历的模板提取到目标文本为图5所示的ERAS医用管道放置及并发症评估表部分的“医用管道放置及放置时间”中的文本。语料库同例1，本申请用语料库对目标文本进行分词、词标注和分类，由于目标文本中的内容较多，因此该举例仅重点以其中的：

“胃管：■留置□未留置拔除时间：术后第1天

导尿管：■留置□未留置拔除时间：术后第0天”说明。

词标注引入父子节点概念，父节点胃管存在子节点拔除时间，父节点导尿管也存在子节点拔除时间，则得到的解析结果为“胃管-拔除时间，对应的结果为1”，以及“导尿管-拔除时间，对应的结果为0”。确定目标指标项对应的指标数据为“胃管-拔除时间，对应的结果为1”，引入数据处理规则为：胃管-拔除时间，获取数据结果并转换数据格式为小数点后0位，则处理后的目标指标项对应的指标数据为“胃管-拔除时间=1天”，输出该结果，解析完成。

实施例二

请参阅图6，本申请还公开了一种电子病历数据解析装置600，该装置用以实现本申请提供的电子病历数据解析方法，在本实施例中，电子病历数据解析装置600可以包括或被分割成一个或多个程序模块，该一个或多个程序模块被存储在存储介质中，并由一个或多个处理器所执行，已完成实施例一公开的电子病历数据解析方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述电子病历数据解析装置600在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

需求确定模块610，用于确定业务需求，业务需求用于指示目标指标项，目标指标项是待提取的指标数据的指标项。

获取模块620，用于从EMR系统中获取电子病历并确定电子病历使用的病历模板，电子病历中包括主题内容块，每个主题内容块中分别包括相应的病历文本。

文本提取模块630，用于根据业务需求和病历模板从电子病历中提取目标文本，目标文本是电子病历中包括待提取的指标数据的主题内容块中的病历文本。文本提取模块630包括：提取单元631和预处理单元632，提取单元631用于根据业务需求和病历模板从电子病历中提取目标主题内容块，目标主题内容块是电子病历中包括待提取的指标数据的主题内容块。预处理单元632用于对目标主题内容块中的病历文本进行格式预处理，得到纯文本格式的目标文本。

分词模块640，用于利用语料库对目标文本进行分词处理得到目标文本的分词结果。

解析模块650，用于利用医学指标分类库对目标文本的分词结果进行词标注并输入分类器中进行分类得到目标文本的解析结果，目标文本的解析结果中包括目标文本中的各个指标数据，每个指标数据分别包括指标项和对应的数据结果，数据结果包括数值形式和/或字符串形式的结果。

输出模块660，用于输出目标指标项对应的指标数据。输出模块660包括：规则确定单元661、处理单元662和输出单元663。规则确定单元661用于确定数据处理规则，数据处理规则用于指示将目标指标项对应的指标数据中的数据结果处理为预定格式。处理单元662，用于按照数据处理规则对目标指标项对应的指标数据中的数据结果进行处理得到处理后的目标指标项对应的指标数据。输出单元663用于输出处理后的目标指标项对应的指标数据，输出的指标数据中包括指标项和具有预定格式的数据结果。

实施例三

计算机设备20至少包括，但不限于，可通过系统总线相互通信连接的存储器21、处理器22以及网络接口23。其中：

存储器21至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备20的内部存储模块，例如该计算机设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备20的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，存储器21还可以既包括计算机设备20的内部存储模块也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件，例如实施例二提供的电子病历数据解析装置600的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作，例如执行与计算机设备20进行数据交互或者通信相关的控制和处理等。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行实施例二提供的电子病历数据解析装置600的程序代码。

网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在计算机设备20与其他电子装置之间建立通信连接。例如，网络接口23用于通过网络将计算机设备20与外部终端相连，在计算机设备20与外部终端之间的建立数据传输通道和通信连接等。网络可以是企业内部网（Intranet）、互联网（Internet）、全球移动通讯系统（Global System of Mobile communication，GSM）、宽带码分多址（Wideband Code Division Multiple Access，WCDMA）、4G网络、5G网络、蓝牙（Bluetooth）、Wi-Fi等无线或有线网络。

需要指出的是，图7仅示出了具有存储器21、处理器22以及网络接口23的计算机设备20，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

实施例四

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储实施例二公开的电子病历数据解析装置，被处理器执行时实现实施例一的电子病历数据解析方法。

以上所述的仅是本申请的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

一种电子病历数据解析方法，其特征在于，所述方法包括：

确定业务需求，所述业务需求用于指示目标指标项，所述目标指标项是待提取的指标数据的指标项；

从EMR系统中获取电子病历并确定所述电子病历使用的病历模板，所述电子病历中包括主题内容块，每个所述主题内容块中分别包括相应的病历文本；

根据所述业务需求和所述病历模板从所述电子病历中提取目标文本，所述目标文本是所述电子病历中包括所述待提取的指标数据的主题内容块中的病历文本；

利用语料库对所述目标文本进行分词处理得到所述目标文本的分词结果；

利用医学指标分类库对所述目标文本的分词结果进行词标注并输入分类器中进行分类得到所述目标文本的解析结果，所述目标文本的解析结果中包括所述目标文本中的各个指标数据，每个所述指标数据分别包括指标项和对应的数据结果，数据结果包括数值形式和/或字符串形式的结果；

输出所述目标指标项对应的指标数据。
根据权利要求1所述的方法，其特征在于，所述输出所述目标指标项对应的指标数据，包括：

确定数据处理规则，所述数据处理规则用于指示将所述目标指标项对应的指标数据中的数据结果处理为预定格式；

按照所述数据处理规则对所述目标指标项对应的指标数据中的数据结果进行处理得到处理后的所述目标指标项对应的指标数据；

输出处理后的所述目标指标项对应的指标数据，输出的所述指标数据中包括指标项和具有所述预定格式的数据结果。
根据权利要求1所述的方法，其特征在于，

所述指标数据中的指标项采用单一标准术语形式表示，或者采用包括通配符的术语形式表示，或者采用具有父子节点结构的术语形式表示，或者采用具有疑问结构的术语形式表示，或者采用包括数据结果范围的术语形式表示。
根据权利要求1至3任一所述的方法，其特征在于，所述根据所述业务需求和所述病历模板从所述电子病历中提取目标文本，包括：

根据所述业务需求和所述病历模板从所述电子病历中提取目标主题内容块，所述目标主题内容块是所述电子病历中包括所述待提取的指标数据的主题内容块；

对所述目标主题内容块中的病历文本进行格式预处理，得到纯文本格式的所述目标文本。
根据权利要求4所述的方法，其特征在于，所述对所述目标主题内容块中的病历文本进行格式预处理，包括：

对所述病历文本的文件格式进行转换；

和/或，对所述病历文本中的表格数据进行行列转换；

和/或，删除所述病历文本中的特殊字符。
一种电子病历数据解析装置，其特征在于，所述装置包括：

需求确定模块，用于确定业务需求，所述业务需求用于指示目标指标项，所述目标指标项是待提取的指标数据的指标项；

获取模块，用于从EMR系统中获取电子病历并确定所述电子病历使用的病历模板，所述电子病历中包括主题内容块，每个所述主题内容块中分别包括相应的病历文本；

文本提取模块，用于根据所述业务需求和所述病历模板从所述电子病历中提取目标文本，所述目标文本是所述电子病历中包括所述待提取的指标数据的主题内容块中的病历文本；

分词模块，用于利用语料库对所述目标文本进行分词处理得到所述目标文本的分词结果；

解析模块，用于利用医学指标分类库对所述目标文本的分词结果进行词标注并输入分类器中进行分类得到所述目标文本的解析结果，所述目标文本的解析结果中包括所述目标文本中的各个指标数据，每个所述指标数据分别包括指标项和对应的数据结果，数据结果包括数值形式和/或字符串形式的结果；

输出模块，用于输出所述目标指标项对应的指标数据。
根据权利要求6所述的装置，其特征在于，所述文本提取模块包括：

提取单元，用于根据所述业务需求和所述病历模板从所述电子病历中提取目标主题内容块，所述目标主题内容块是所述电子病历中包括所述待提取的指标数据的主题内容块；

预处理单元，用于对所述目标主题内容块中的病历文本进行格式预处理，得到纯文本格式的所述目标文本。
根据权利要求7所述的装置，其特征在于，所述预处理单元用于：

对所述病历文本的文件格式进行转换；

和/或，对所述病历文本中的表格数据进行行列转换；

和/或，删除所述病历文本中的特殊字符。
一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一所述的电子病历数据解析方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有至少一条指令，所述至少一条指令由至少一个处理器加载并执行实现如权利要求1至5任一所述的电子病历数据解析方法。