WO2020019797A1 - 电子病历数据解析方法、装置、计算机及可读存储介质 - Google Patents

电子病历数据解析方法、装置、计算机及可读存储介质 Download PDF

Info

Publication number
WO2020019797A1
WO2020019797A1 PCT/CN2019/084577 CN2019084577W WO2020019797A1 WO 2020019797 A1 WO2020019797 A1 WO 2020019797A1 CN 2019084577 W CN2019084577 W CN 2019084577W WO 2020019797 A1 WO2020019797 A1 WO 2020019797A1
Authority
WO
WIPO (PCT)
Prior art keywords
medical record
data
target
text
index
Prior art date
Application number
PCT/CN2019/084577
Other languages
English (en)
French (fr)
Inventor
张建中
王列
Original Assignee
无锡慧方科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 无锡慧方科技有限公司 filed Critical 无锡慧方科技有限公司
Publication of WO2020019797A1 publication Critical patent/WO2020019797A1/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Definitions

  • pre-format the medical record text in the target subject content block including:
  • the target subject content block can be extracted from the electronic medical record according to the target indicator items and medical record templates indicated by the business needs.
  • the target subject content block refers to the subject content block in the electronic medical record that includes the index data to be extracted.
  • the index data is the index data of "preoperative fasting time”
  • the extracted target topic content block is the "preoperative summary”.
  • the medical record text in the target subject content block is stored in a tabular format.
  • the diagnostic data in the admission record is usually stored in a tabular format.
  • row and column conversion is performed on the medical record text in tabular format according to actual needs.
  • diagnosis data in the admission record is converted, and multiple columns of data are converted into row data.
  • the specific row and column conversion method can be customized.
  • Step S05 Use the corpus to perform word segmentation on the target text to obtain the segmentation result of the target text.
  • the corpus can be maintained according to the actual situation, and the existing complete corpus can be directly used.
  • a more commonly used corpus such as "Modern Chinese Research Corpus", The number of Chinese characters used in the text is 4868, and the total number of characters in the corpus is 1857660.
  • the specific method of using the corpus for word segmentation is relatively common, so this application is not described in detail.
  • index items are expressed by a single standard term, such as "near (upper) cut edge, the corresponding original value is 5.0cm", and the single standard term “near (upper) cut edge” is used directly.
  • index items are expressed in terms of a parent-child node structure, such as "stomach tube-removal time, the corresponding result is 1"
  • gastric tube-removal time is the parent-child node structure
  • the gastric tube is the parent node
  • the removal time is the child node
  • a parent node can correspond to multiple child nodes, and a child node can also correspond to multiple parent nodes. For example, for the parent node of a urinary catheter, there can also be a child node removal time.
  • index items are expressed in terms including the result range of the data. For example, "age is 41-60 years old, the corresponding result is yes".
  • step S07 the data obtained after analysis is raw data. Such data cannot be converted into clean data due to problems such as data interception range, full-width half-width, and numerical format. Therefore, in this application, data processing corresponding to business requirements is introduced. Data processing rules are processed again according to different business requirements. Data processing rules can be configured by themselves. Data processing rules are used to indicate that the data results in the indicator data corresponding to the target indicator item are processed into a predetermined format. For example, the data processing rule is : Extract the data result from the index data corresponding to the target index item and convert the data result to 2 digits after the decimal point. For another example, the data processing rule is: extract the data result in the index data corresponding to the target index item and convert the data result into English characters.
  • step S09 the index data corresponding to the processed target index item is output, and the output index data includes the index item and a data result with a predetermined format.
  • the system extracts the target text as the text in "Medical Pipe Placement and Placement Time" in the ERAS Medical Pipe Placement and Complications Assessment Form section shown in Figure 5.
  • the corpus is the same as in Example 1. This corpus uses the corpus to segment, tag, and classify the target text. Because there is more content in the target text, this example focuses on only the following:
  • this application also discloses an electronic medical record data analysis device 600, which is used to implement the electronic medical record data analysis method provided in this application.
  • the electronic medical record data analysis device 600 may include or be It is divided into one or more program modules, and the one or more program modules are stored in a storage medium and executed by one or more processors.
  • the electronic medical record data analysis method disclosed in the first embodiment has been completed.
  • the program module referred to in the present invention refers to a series of computer program instruction segments capable of performing specific functions, and is more suitable for describing the execution process of the electronic medical record data analysis device 600 in a storage medium than the program itself. The following description will specifically introduce the functions of the program modules of this embodiment:
  • the demand determination module 610 is configured to determine a business requirement, and the business demand is used to indicate a target index item, and the target index item is an index item of the index data to be extracted.
  • the text extraction module 630 is configured to extract target text from the electronic medical record according to the business requirements and the medical record template.
  • the target text is the medical record text in the subject content block of the electronic medical record including the index data to be extracted.
  • the text extraction module 630 includes an extraction unit 631 and a pre-processing unit 632.
  • the extraction unit 631 is configured to extract a target subject content block from the electronic medical record according to the business requirements and the medical record template.
  • the target subject content block is an electronic medical record that includes the index data to be extracted. Topic content block.
  • the pre-processing unit 632 is configured to pre-format the medical record text in the target subject content block to obtain the target text in plain text format.
  • a parsing module 650 is configured to use the medical index classification library to perform word labeling on the segmentation results of the target text and input them to the classifier for classification to obtain the parsing results of the target text.
  • the parsing results of the target text include each index data in the target text.
  • Each index data includes index items and corresponding data results, and the data results include results in numeric form and / or character string form.
  • the memory 21 includes at least one type of computer-readable storage medium.
  • the readable storage medium includes a flash memory, a hard disk, a multimedia card, a card-type memory (for example, SD or DX memory, etc.), a random access memory (RAM), and a static random access memory.
  • SRAM read-only memory
  • EEPROM electrically erasable programmable read-only memory
  • PROM programmable read-only memory
  • magnetic memory magnetic disks, optical disks, etc.
  • the memory 21 may be an internal storage module of the computer device 20, such as a hard disk or a memory of the computer device 20.
  • the memory 21 may also be an external storage device of the computer device 20, such as a plug-in hard disk, a smart media card (SMC), and a secure digital (Secure) Digital, SD) cards, flash cards, etc.
  • the memory 21 may also include both the internal storage module of the computer device 20 and its external storage device.
  • the memory 21 is generally used to store an operating system and various types of application software installed on the computer device 20, such as program codes of the electronic medical record data analysis apparatus 600 provided in the second embodiment.
  • the memory 21 may also be used to temporarily store various types of data that have been output or are to be output.
  • the processor 22 may be a central processing unit (CPU), a controller, a microcontroller, a microprocessor, or other data processing chips in some embodiments.
  • the processor 22 is generally used to control the overall operation of the computer device 20, for example, to perform control and processing related to data interaction or communication with the computer device 20.
  • the processor 22 is configured to run program code or process data stored in the memory 21, for example, program code of the electronic medical record data analysis apparatus 600 provided in the second embodiment.
  • the network interface 23 may include a wireless network interface or a wired network interface.
  • the network interface 23 is generally used to establish a communication connection between the computer device 20 and other electronic devices.
  • the network interface 23 is used to connect the computer device 20 with an external terminal through a network, and establish a data transmission channel and a communication connection between the computer device 20 and the external terminal.
  • the network can be an intranet, the Internet, the Global System of Mobile communication (GSM), a Wideband Code Division Multiple Access (WCDMA), a 4G network, a 5G network, Wireless or wired networks such as Bluetooth and Wi-Fi.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种电子病历数据解析方法、装置、计算机及可读存储介质,涉及数据处理领域,该方法包括:确定业务需求,获取电子病历并确定病历模板,根据业务需求和病历模板从电子病历中提取目标文本,利用语料库对目标文本进行分词处理,利用医学指标分类库进行词标注并分类得到业务需求对应的指标数据,本申请将基于医学指标分类库的自然语言处理技术与对电子病历的业务分析结合,可以顺利地从电子病历的非结构化数据中解析并提取出业务所需的医疗数据,为医疗大数据的挖掘分析提供了数据基础,弥补了目前在电子病历的解析方面的技术空缺。

Description

电子病历数据解析方法、装置、计算机及可读存储介质 技术领域
本发明涉及数据处理领域,尤其是一种电子病历数据解析方法、装置、计算机及可读存储介质。
背景技术
随着信息技术的快速发展,医疗信息化呈现出前所未有的发展趋势,医院在医疗服务过程中会产生海量的数据,从而形成医疗大数据,大数据的意义不仅是掌握海量数据,更重要的是通过数据挖掘等专业方法进行分析来实现数据的价值和意义,因此,将数据挖掘与分析技术应用于医疗领域并与传统医学数据相结合,可实现精准化、个性化的健康医疗服务。
在对医疗大数据进行数据挖掘和分析的过程中,首先需要从医院信息系统中提取出医疗数据,目前比较常用的医院信息系统有HIS(Hospital Information System,医院信息系统)、LIS(Laboratory Information System,实验室信息系统)、PACS(Picture Archiving and Communication Systems,影像归档和通信系统)和EMR(Electronic Medical Record,电子病历)等。其中,HIS、LIS和PACS中的数据均为结构化数据,因此从这些信息系统中解析并提取出医疗数据比较方便。而EMR相比于上述几种系统来说,则是一种信息整合度和集成度更高的系统,EMR中往往包括首页、入院记录、病程记录、检查检验结果、医嘱、手术记录以及护理记录等等,可以记录病人完整的医疗过程,EMR中的数据为非结构化数据,因此对EMR的解析和数据提取难度较大,目前没有解决的有效方法。
技术问题
目前在进行医疗数据挖掘时,只能对HIS、LIS和PACS等信息系统中的结构化数据进行数据解析和提取,但EMR中的数据为非结构化数据,目前并没有对EMR进行解析和数据提取的有效方法。
技术解决方案
一种电子病历数据解析方法,该方法包括:
确定业务需求,业务需求用于指示目标指标项,目标指标项是待提取的指标数据的指标项;
从EMR系统中获取电子病历并确定电子病历使用的病历模板,电子病历中包括主题内容块,每个主题内容块中分别包括相应的病历文本;
根据业务需求和病历模板从电子病历中提取目标文本,目标文本是电子病历中包括待提取的指标数据的主题内容块中的病历文本;
利用语料库对目标文本进行分词处理得到目标文本的分词结果;
利用医学指标分类库对目标文本的分词结果进行词标注并输入分类器中进行分类得到目标文本的解析结果,目标文本的解析结果中包括目标文本中的各个指标数据,每个指标数据分别包括指标项和对应的数据结果,数据结果包括数值形式和/或字符串形式的结果;
输出目标指标项对应的指标数据。
其进一步技术方案为,输出目标指标项对应的指标数据,包括:
确定数据处理规则,数据处理规则用于指示将目标指标项对应的指标数据中的数据结果处理为预定格式;
按照所述数据处理规则对目标指标项对应的指标数据中的数据结果进行处理得到处理后的目标指标项对应的指标数据;
输出处理后的目标指标项对应的指标数据,输出的指标数据中包括指标项和具有预定格式的数据结果。
其进一步技术方案为,指标数据中的指标项采用单一标准术语形式表示,或者采用包括通配符的术语形式表示,或者采用具有父子节点结构的术语形式表示,或者采用具有疑问结构的术语形式表示,或者采用包括数据结果范围的术语形式表示。
其进一步技术方案为,根据业务需求和病历模板从电子病历中提取目标文本,包括:
根据业务需求和病历模板从电子病历中提取目标主题内容块,目标主题内容块是电子病历中包括待提取的指标数据的主题内容块;
对目标主题内容块中的病历文本进行格式预处理,得到纯文本格式的目标文本。
其进一步技术方案为,对目标主题内容块中的病历文本进行格式预处理,包括:
对病历文本的文件格式进行转换;
和/或,对病历文本中的表格数据进行行列转换;
和/或,删除病历文本中的特殊字符。
为了解决上述技术问题,本申请还提供了一种电子病历数据解析装置,该装置包括:
需求确定模块,用于确定业务需求,业务需求用于指示目标指标项,目标指标项是待提取的指标数据的指标项;
获取模块,用于从EMR系统中获取电子病历并确定电子病历使用的病历模板,电子病历中包括主题内容块,每个主题内容块中分别包括相应的病历文本;
文本提取模块,用于根据业务需求和病历模板从电子病历中提取目标文本,目标文本是电子病历中包括待提取的指标数据的主题内容块中的病历文本;
分词模块,用于利用语料库对目标文本进行分词处理得到目标文本的分词结果;
解析模块,用于利用医学指标分类库对目标文本的分词结果进行词标注并输入分类器中进行分类得到目标文本的解析结果,目标文本的解析结果中包括目标文本中的各个指标数据,每个指标数据分别包括指标项和对应的数据结果,数据结果包括数值形式和/或字符串形式的结果;
输出模块,用于输出目标指标项对应的指标数据。
其进一步技术方案为,输出模块包括:
规则确定单元,用于确定数据处理规则,所述数据处理规则用于指示将目标指标项对应的指标数据中的数据结果处理为预定格式;
处理单元,按照数据处理规则对目标指标项对应的指标数据中的数据结果进行处理得到处理后的目标指标项对应的指标数据;
输出单元,用于输出处理后的目标指标项对应的指标数据,输出的指标数据中包括指标项和具有预定格式的数据结果。
其进一步技术方案为,指标数据中的指标项采用单一标准术语形式表示,或者采用包括通配符的术语形式表示,或者采用具有父子节点结构的术语形式表示,或者采用具有疑问结构的术语形式表示,或者采用包括数据结果范围的术语形式表示。
其进一步技术方案为,文本提取模块包括:
提取单元,用于根据业务需求和病历模板从电子病历中提取目标主题内容块,目标主题内容块是电子病历中包括待提取的指标数据的主题内容块;
预处理单元,用于对目标主题内容块中的病历文本进行格式预处理,得到纯文本格式的目标文本。
其进一步技术方案为,预处理单元用于:
对病历文本的文件格式进行转换;
和/或,对病历文本中的表格数据进行行列转换;
和/或,删除病历文本中的特殊字符。
为了解决上述技术问题,本申请还提供了一种计算机设备,该计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述电子病历数据解析方法的步骤。
为了解决上述技术问题,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有至少一条指令,至少一条指令由至少一个处理器加载并执行实现上述电子病历数据解析方法。
有益效果
本申请公开的电子病历数据解析方法、装置、计算机设备及计算机可读存储介质基于自然语言处理技术和对电子病历的业务分析对电子病历进行数据解析,且本申请在执行自然语言处理技术时是基于医学指标分类库处理的,利用本申请可以顺利地从电子病历的非结构化数据中解析并提取出业务所需的医疗数据,以便后续进行数据挖掘和分析,为医疗大数据的挖掘分析提供了数据基础,弥补了目前在电子病历的解析方面的技术空缺。
附图说明
图1是本申请的系统架构示意图。
图2是是本申请的电子病历数据解析方法的流程图。
图3-1是电子病历的病历记录部分的前半部分内容示意图。
图3-2是3-1示出的病历记录部分的后半部分内容示意图。
图4是电子病历的手术记录部分的内容示意图。
图5是电子病历的ERAS医用管道放置及并发症评估表的内容示意图。
图6是本申请的电子病历数据解析装置的结构示意图。
图7实现本申请的电子病历数据解析方法的计算机设备的硬件结构图。
本发明的实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的系统架构,该系统包括基于医院的信息平台的EMR系统10以及计算机设备20,计算机设备20与EMR系统10相连。EMR系统10连接院内系统中的各个子系统,常见的子系统比如门诊系统、化验系统、手术室系统、重症监护系统、影像系统、医生站和护士站等等。计算机设备20是用于实现本申请公开的电子病历数据解析方法的设备,该计算机设备20是一种能够按照事先设定或者存储的指令、自动进行信息处理的设备,本申请中的该计算机设备20可以由个人计算机、台式计算机、膝上型计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等实现。
实施例一
基于图1所示的系统架构,该实施例示出了本申请公开的电子病历数据解析方法的过程,本申请基于自然语言处理技术,其步骤图请参考图2,具体如下:
步骤S01,确定业务需求,本申请的业务需求通常是在针对某一医学指标进行医疗大数据的数据挖掘和分析过程中所产生的数据提取需求,也即该业务需求是需要提取特定的指标数据以进行进一步的数据挖掘和分析,因此该业务需求会指示待提取的指标数据的指标项,也即目标指标项,本申请中的指标项即为医学指标项,比如血压、体重、术后进食情况等等。比如,业务需求为需要提取手术中近(上)切缘的数据,则目标指标项即为“近(上)切缘”;再比如,业务需求为需要提取术前禁食时间的数据,则目标指标项即为“术前禁食时间”。
步骤S02,从EMR系统中获取电子病历并确定电子病历使用的病历模板,电子病历是基于模板生成的,不同医院的不同科室可以根据需要对病历模板进行自定义,在自定义设置完成后,病历模板通常就是固定不能随意修改的,因此EMR系统中的电子病历虽然可能基于不同的病历模板,但都一定是有固定的病历模板的,因此直接通过EMR系统就能确定电子病历使用的病历模板。
电子病历中一般都会包括若干个主题内容块,每个主题内容块对应不同的主题,且每个主题内容块中分别包括其对应的主题的病历文本,病历模板中各个主题内容块中所记载的病历文本的主题也是固定的。比如,在一个例子中,电子病历主要包括病历记录(前半部分见图3-1、后半部分见图3-2)、手术记录(见图4)以及ERAS医用管道放置及并发症评估表(见图5)三部分;以病例记录中后半部分为例,请参考图3-2,其中包括如下几个主题内容块:2017-08-21 16:50 术前讨论、2017-08-21 16:56 术前小结、2017-08-22 21:32 外科术后首次病程记录、2017-08-22 22:58 输血记录等,图中显示的其他主题内容块本申请不一一列举。其中,“2017-08-21 16:50 术前讨论”这一主题内容块记载术前讨论过程中的病情介绍以及各医师发言等,“2017-08-21 16:56 术前小结”这一主题内容块记载患者术前病情以及患者术前状况评估等,除此之外。
步骤S03,由步骤S02可知,由于电子病历使用的病历模板,以及每个主题内容块所记载的病历文本的主题都是相对固定的,也即电子病历中各个主题的内容的记载位置都是相对固定的。因此对于待提取的指标数据,只需要确定该指标数据属于哪一个主题,就能定位到其在电子病历中所在的主题内容块,而每一个指标数据所对应的主题都是预先设定好的,也即,每一个指标数据所对应的主题内容块都是预先设定好的,比如,“术前禁食时间”这一指标数据对应的主题内容块是“术前小结”,“术后第2天体温”这一指标数据对应的主题内容块是“外科术后首次病程记录”,“腹部切口长度”这一指标数据对应的主题内容块是“手术步骤”。因此根据业务需求指示的目标指标项和病历模板就能从电子病历中提取目标主题内容块,目标主题内容块指的是电子病历中包括待提取的指标数据的主题内容块,例如当待提取的指标数据是“术前禁食时间”这一指标数据时,提取的目标主题内容块即为“术前小结”。
步骤S04,提取到的目标主题内容块中的病历文本可能不是干净的文本数据,因此需要对目标主题内容块中的病历文本进行格式预处理,以为后续的数据解析做准备。比较常见的包括以下三种情况中的至少一种:
1、病历文本的文本格式不符合要求,则对病历文本的文本格式进行转换,比较常见的情况有几下几种:(1)、目标主题内容块中的病历文本采用标记语言存储格式进行存储,这里的标记语言存储模式主要包括HTML(HyperText Markup Language,超文本标记语言)格式或XML(Extensible Markup Language,可扩展标记语言)格式或者其他常见格式。在这种情况下,去除目标主题内容块中的病历文本的标记语言标签,也即:在采用HTML格式存储时,去除HTML标签;在采用XML格式存储时,去除XML标签,其余情况也是类似。比较特殊的是,对于数据结果作为属性值的情况则不会去除标签,比如,HTML中按如下格式存储数据风险因素总分,风险因素总分:<input style="width: 50px"  id="countzf" type="text" class="txt-underline" name="txt200" value="4"/>分,这里的value="4"表示风险因素总分的分值为4分,则不会去除标签。(2)、病历文本采用text文件、json文件、webservice接口返回的报文格式或其他平台到处的数据格式例如excel格式等各种常见的文件格式,则对病历文件执行相应的解析操作。
2、目标主题内容块中的病历文本采用表格格式存储,例如在入院记录中的诊断数据就通常采用表格格式存储。在这种情况下,对表格格式的病历文本根据实际需要进行行列转换,例如,对入院记录中的诊断数据进行转换,将多列数据转换成行数据,具体的行列转换方式可以自定义设置。
3、病历文本中包括特殊字符,包括无法读取的特殊字符和/或非可见字符和/或空白字符等。
经过上述格式预处理后,目标主题内容块中的病历文本被处理为干净的纯文本格式的目标文本。
步骤S05,利用语料库对目标文本进行分词处理得到目标文本的分词结果,语料库可以根据实际情况进行维护,可以直接使用现有的完备的语料库,比较常用的语料库比如“现代汉语研究语料库”,该语料库中使用的汉字字种数为4868个,在语料库中的总字次为1857660。利用语料库进行分词的具体方法比较常用,因此本申请不再详述。
步骤S06,利用医学指标分类库对目标文本的分词结果进行词标注,该步骤进行词标注时,不同于现有的基于词性(动词/名词/分词等)进行词标注的方式,也不同于基于人名/地名等分类方式进行词标注的方式,而是基于医学指标分类库进行词标注,从而可以对目标文本中的医学的指标项进行标注,医学指标分类库中包括医学领域的各个指标项,例如:血压、体重、术后进食情况等,在使用过程中,该医学指标分类库还会不断补充和完善。词标注完成后输入分类器进行分类,从而可以将目标文本按照医学指标项进行分类并提取出相应的数据结果,也即得到目标文本的解析结果,每个指标数据分别包括指标项和对应的数据结果,该数据结果包括数值形式和/或字符串形式的结果。该方法的具体实现流程与现有的自然语言技术是类似的,只是本申请基于医学领域的各个指标项进行标注和分类,因此本申请对具体标注和分类的方法不作赘述。对于数据结果作为属性值而不去除标签的情况,由于仍有标记语言标签,因此无法直接提取到数据结果,通常会采用xpath解析来提取数据结果,比如对于上述风险因素总分的例子来说,在提取风险因素总分的数据结果时,将xpath定义为://table[contains(@style,'width: 590px; font-size: 12px; border-collapse: collapse')]//tr[contains(td,' 风险因素总分')]//td[1]//input//@value,即可成功提取其数据结果。
例如,假设目标文本为“切缘:近(上)切缘5.0cm;远(下)切缘5.0cm”,分词结果为“切缘/:/近/(/上/)/切缘/5.0/cm/;/远/(/下/)/切缘/5.0/cm”,对分词结果进行词标注并分类,确定“近(上)切缘”和“远(下)切缘”为指标项,相应的数据结果均为5.0cm,则最终得到的解析结果为:“近(上)切缘,对应的原始值为5.0cm”;以及,“远(下)切缘,对应的原始值为5.0cm”。
实际解析得到指标数据可以有多种表示方式:
1、指标项采用单一标准术语形式表示,例如“近(上)切缘,对应的原始值为5.0cm”,直接采用单一标准术语“近(上)切缘”表示。
2、指标项采用包括通配符的术语形式表示,例如“术前*小时禁食,对应的结果为8”,此举例中的*表示通配符。
3、指标项采用具有父子节点结构的术语形式表示,例如“胃管-拔除时间,对应的结果为1”,胃管-拔除时间为父子节点结构,胃管作为父节点,拔除时间作为子节点,一个父节点可以对应多个子节点,一个子节点也可以对应多个父节点,比如对于导尿管这一父节点,其也可以存在子节点拔除时间。
4、指标项采用具有疑问结构的术语形式表示,例如“是否肠梗阻?对应的结果为否”。
5、指标项采用包括数据结果范围的术语形式表示,例如“年龄为41-60岁,对应的结果为是”。
步骤S07,解析后得到的数据结果为原始数据,这类数据会由于数据截取范围、全角半角和数值格式等问题依然无法转换为干净数据,因此在本申请中,引入与业务需求对应的数据处理规则,根据不同的业务需求对数据结果进行再次处理,数据处理规则可以自行配置,数据处理规则用于指示将目标指标项对应的指标数据中的数据结果处理为预定格式,比如,数据处理规则为:提取目标指标项对应的指标数据中的数据结果并将数据结果转换为小数点后2位。再比如,数据处理规则为:提取目标指标项对应的指标数据中的数据结果并将数据结果转换为英文字符。
步骤S08,按照数据处理规则对目标指标项对应的指标数据中的数据结果进行处理,将其处理为预定格式,实际通过目标文本解析得到的指标数据可能不止一个,比如上述例子中,目标文本为“切缘:近(上)切缘5.0cm;远(下)切缘5.0cm”时解析得到的指标数据包括“近(上)切缘,对应的原始值为5.0cm”;以及,“远(下)切缘,对应的原始值为5.0cm”,假设业务需求指示的目标指标项为“近(上)切缘”时,则目标指标项对应的指标数据为“近(上)切缘,对应的原始值为5.0cm”,对该数据结果执行数据处理规则为提取数据结果并将数据结果转换为小数点后2位,则处理后的指标数据为“近(上)切缘=5.00cm”。
再比如,目标指标项对应的指标数据为“是否肠梗阻?对应的结果为否”,对该数据结果执行数据处理规则为提取数据结果并将数据结果转换为英文字符,则处理后的指标数据为“是否肠梗阻?N”,也即中文字符“是”可以被转换为英文字符Y,中文字符“否”可以被转换为英文字符N。
步骤S09,输出处理后的目标指标项对应的指标数据,输出的指标数据中包括指标项和具有预定格式的数据结果。
为了更清楚的说明本申请的实现过程,以图3-1、图3-2、图4和图5示出的电子病历为例进行如下三个举例说明:
例1:
确定业务需求为“抽取手术中的近(上)切缘”,该业务需求指示的目标指标项为“近(上)切缘”。系统根据业务需求和电子病历的模板提取到目标文本为图4所示手术记录部分中的“切缘:近(上)切缘5.0cm;远(下)切缘5.0cm”。语料库选择“现代汉语研究语料库”,利用语料库进行分词得到分词结果为“切缘/:/近/(/上/)/切缘/5.0/cm/;/远/(/下/)/切缘/5.0/cm”,词标注“近(上)切缘”和“远(下)切缘5.0cm”为指标项,系统自动获取两者对应的数据结果均为5.0cm,标注终止符包括(:/;/空格/换行),则解析结果为“近(上)切缘,对应的原始值为5.0cm”,以及,“远(下)切缘,对应的原始值为5.0cm”。确定目标指标项对应的指标数据为“近(上)切缘,对应的原始值为5.0cm”,引入数据处理规则为:近(上)切缘,获取数据结果并转换数据格式为小数点后2位,则处理后的目标指标项对应的指标数据为“近(上)切缘=5.00cm”,输出该结果,解析完成。
例2:
确定业务需求为“获取患者的术前禁食时间”,该业务需求指示的目标指标项为“术前禁食时间”。系统根据业务需求和电子病历的模板提取到目标文本为图3-2所示的病历记录部分的“2017-08-21 16:56 术前小结”中的文本。语料库同例1,本申请利用语料库对目标文本进行分词、词标注和分类,由于目标文本中的内容较多,因此该举例仅重点以其中的“不行肠道准备;术前8小时禁食,术前8小时禁水”语句说明。词标注引入通配符概念,该语句得到的解析结果为“术前*小时禁食,对应的结果为8”,以及,“术前*小时禁水,对应的结果为8”。确定目标指标项对应的指标数据为“术前*小时禁食,对应的结果为8”,引入数据处理规则为:术前*小时禁食,获取数据结果并转换数据格式为小数点后2位,则处理后的目标指标项对应的指标数据为“术前*小时禁食=8.00”,输出该结果,解析完成。
例3:
确定业务需求为“获取患者的胃管拔除时间”,该业务需求指示的目标指标项为“胃管拔除时间”。系统根据业务需求和电子病历的模板提取到目标文本为图5所示的ERAS医用管道放置及并发症评估表部分的“医用管道放置及放置时间”中的文本。语料库同例1,本申请用语料库对目标文本进行分词、词标注和分类,由于目标文本中的内容较多,因此该举例仅重点以其中的:
“胃管:■留置□未留置拔除时间:术后第1天
导尿管:■留置□未留置拔除时间:术后第0天”说明。
词标注引入父子节点概念,父节点胃管存在子节点拔除时间,父节点导尿管也存在子节点拔除时间,则得到的解析结果为“胃管-拔除时间,对应的结果为1”,以及“导尿管-拔除时间,对应的结果为0”。确定目标指标项对应的指标数据为“胃管-拔除时间,对应的结果为1”,引入数据处理规则为:胃管-拔除时间,获取数据结果并转换数据格式为小数点后0位,则处理后的目标指标项对应的指标数据为“胃管-拔除时间=1天”,输出该结果,解析完成。
实施例二
请参阅图6,本申请还公开了一种电子病历数据解析装置600,该装置用以实现本申请提供的电子病历数据解析方法,在本实施例中,电子病历数据解析装置600可以包括或被分割成一个或多个程序模块,该一个或多个程序模块被存储在存储介质中,并由一个或多个处理器所执行,已完成实施例一公开的电子病历数据解析方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述电子病历数据解析装置600在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
需求确定模块610,用于确定业务需求,业务需求用于指示目标指标项,目标指标项是待提取的指标数据的指标项。
获取模块620,用于从EMR系统中获取电子病历并确定电子病历使用的病历模板,电子病历中包括主题内容块,每个主题内容块中分别包括相应的病历文本。
文本提取模块630,用于根据业务需求和病历模板从电子病历中提取目标文本,目标文本是电子病历中包括待提取的指标数据的主题内容块中的病历文本。文本提取模块630包括:提取单元631和预处理单元632,提取单元631用于根据业务需求和病历模板从电子病历中提取目标主题内容块,目标主题内容块是电子病历中包括待提取的指标数据的主题内容块。预处理单元632用于对目标主题内容块中的病历文本进行格式预处理,得到纯文本格式的目标文本。
分词模块640,用于利用语料库对目标文本进行分词处理得到目标文本的分词结果。
解析模块650,用于利用医学指标分类库对目标文本的分词结果进行词标注并输入分类器中进行分类得到目标文本的解析结果,目标文本的解析结果中包括目标文本中的各个指标数据,每个指标数据分别包括指标项和对应的数据结果,数据结果包括数值形式和/或字符串形式的结果。
输出模块660,用于输出目标指标项对应的指标数据。输出模块660包括:规则确定单元661、处理单元662和输出单元663。规则确定单元661用于确定数据处理规则,数据处理规则用于指示将目标指标项对应的指标数据中的数据结果处理为预定格式。处理单元662,用于按照数据处理规则对目标指标项对应的指标数据中的数据结果进行处理得到处理后的目标指标项对应的指标数据。输出单元663用于输出处理后的目标指标项对应的指标数据,输出的指标数据中包括指标项和具有预定格式的数据结果。
实施例三
计算机设备20至少包括,但不限于,可通过系统总线相互通信连接的存储器21、处理器22以及网络接口23。其中:
存储器21至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储模块,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储模块也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件,例如实施例二提供的电子病历数据解析装置600的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作,例如执行与计算机设备20进行数据交互或者通信相关的控制和处理等。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行实施例二提供的电子病历数据解析装置600的程序代码。
网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在计算机设备20与其他电子装置之间建立通信连接。例如,网络接口23用于通过网络将计算机设备20与外部终端相连,在计算机设备20与外部终端之间的建立数据传输通道和通信连接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图7仅示出了具有存储器21、处理器22以及网络接口23的计算机设备20,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储实施例二公开的电子病历数据解析装置,被处理器执行时实现实施例一的电子病历数据解析方法。
以上所述的仅是本申请的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。

Claims (10)

  1. 一种电子病历数据解析方法,其特征在于,所述方法包括:
    确定业务需求,所述业务需求用于指示目标指标项,所述目标指标项是待提取的指标数据的指标项;
    从EMR系统中获取电子病历并确定所述电子病历使用的病历模板,所述电子病历中包括主题内容块,每个所述主题内容块中分别包括相应的病历文本;
    根据所述业务需求和所述病历模板从所述电子病历中提取目标文本,所述目标文本是所述电子病历中包括所述待提取的指标数据的主题内容块中的病历文本;
    利用语料库对所述目标文本进行分词处理得到所述目标文本的分词结果;
    利用医学指标分类库对所述目标文本的分词结果进行词标注并输入分类器中进行分类得到所述目标文本的解析结果,所述目标文本的解析结果中包括所述目标文本中的各个指标数据,每个所述指标数据分别包括指标项和对应的数据结果,数据结果包括数值形式和/或字符串形式的结果;
    输出所述目标指标项对应的指标数据。
  2. 根据权利要求1所述的方法,其特征在于,所述输出所述目标指标项对应的指标数据,包括:
    确定数据处理规则,所述数据处理规则用于指示将所述目标指标项对应的指标数据中的数据结果处理为预定格式;
    按照所述数据处理规则对所述目标指标项对应的指标数据中的数据结果进行处理得到处理后的所述目标指标项对应的指标数据;
    输出处理后的所述目标指标项对应的指标数据,输出的所述指标数据中包括指标项和具有所述预定格式的数据结果。
  3. 根据权利要求1所述的方法,其特征在于,
    所述指标数据中的指标项采用单一标准术语形式表示,或者采用包括通配符的术语形式表示,或者采用具有父子节点结构的术语形式表示,或者采用具有疑问结构的术语形式表示,或者采用包括数据结果范围的术语形式表示。
  4. 根据权利要求1至3任一所述的方法,其特征在于,所述根据所述业务需求和所述病历模板从所述电子病历中提取目标文本,包括:
    根据所述业务需求和所述病历模板从所述电子病历中提取目标主题内容块,所述目标主题内容块是所述电子病历中包括所述待提取的指标数据的主题内容块;
    对所述目标主题内容块中的病历文本进行格式预处理,得到纯文本格式的所述目标文本。
  5. 根据权利要求4所述的方法,其特征在于,所述对所述目标主题内容块中的病历文本进行格式预处理,包括:
    对所述病历文本的文件格式进行转换;
    和/或,对所述病历文本中的表格数据进行行列转换;
    和/或,删除所述病历文本中的特殊字符。
  6. 一种电子病历数据解析装置,其特征在于,所述装置包括:
    需求确定模块,用于确定业务需求,所述业务需求用于指示目标指标项,所述目标指标项是待提取的指标数据的指标项;
    获取模块,用于从EMR系统中获取电子病历并确定所述电子病历使用的病历模板,所述电子病历中包括主题内容块,每个所述主题内容块中分别包括相应的病历文本;
    文本提取模块,用于根据所述业务需求和所述病历模板从所述电子病历中提取目标文本,所述目标文本是所述电子病历中包括所述待提取的指标数据的主题内容块中的病历文本;
    分词模块,用于利用语料库对所述目标文本进行分词处理得到所述目标文本的分词结果;
    解析模块,用于利用医学指标分类库对所述目标文本的分词结果进行词标注并输入分类器中进行分类得到所述目标文本的解析结果,所述目标文本的解析结果中包括所述目标文本中的各个指标数据,每个所述指标数据分别包括指标项和对应的数据结果,数据结果包括数值形式和/或字符串形式的结果;
    输出模块,用于输出所述目标指标项对应的指标数据。
  7. 根据权利要求6所述的装置,其特征在于,所述文本提取模块包括:
    提取单元,用于根据所述业务需求和所述病历模板从所述电子病历中提取目标主题内容块,所述目标主题内容块是所述电子病历中包括所述待提取的指标数据的主题内容块;
    预处理单元,用于对所述目标主题内容块中的病历文本进行格式预处理,得到纯文本格式的所述目标文本。
  8. 根据权利要求7所述的装置,其特征在于,所述预处理单元用于:
    对所述病历文本的文件格式进行转换;
    和/或,对所述病历文本中的表格数据进行行列转换;
    和/或,删除所述病历文本中的特殊字符。
  9. 一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5任一所述的电子病历数据解析方法的步骤。
  10. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有至少一条指令,所述至少一条指令由至少一个处理器加载并执行实现如权利要求1至5任一所述的电子病历数据解析方法。
PCT/CN2019/084577 2018-07-23 2019-04-26 电子病历数据解析方法、装置、计算机及可读存储介质 WO2020019797A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810812960.6 2018-07-23
CN201810812960.6A CN109036576B (zh) 2018-07-23 2018-07-23 电子病历数据解析方法、装置、计算机及可读存储介质

Publications (1)

Publication Number Publication Date
WO2020019797A1 true WO2020019797A1 (zh) 2020-01-30

Family

ID=64644360

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/084577 WO2020019797A1 (zh) 2018-07-23 2019-04-26 电子病历数据解析方法、装置、计算机及可读存储介质

Country Status (2)

Country Link
CN (1) CN109036576B (zh)
WO (1) WO2020019797A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968747A (zh) * 2020-08-20 2020-11-20 卫宁健康科技集团股份有限公司 Vte智能防治管理系统
CN111986817A (zh) * 2020-08-21 2020-11-24 南通大学 一种通过ace2筛选新冠covid-19治疗药物的方法
CN112614562A (zh) * 2020-12-23 2021-04-06 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN117195866A (zh) * 2023-11-03 2023-12-08 中电数据服务有限公司 一种电子病历数据解析方法及系统

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036576B (zh) * 2018-07-23 2019-09-06 无锡慧方科技有限公司 电子病历数据解析方法、装置、计算机及可读存储介质
CN109524074B (zh) * 2018-11-09 2021-06-25 医渡云(北京)技术有限公司 病例讨论方法、装置、计算机可读存储介质及电子设备
CN109947751B (zh) * 2018-12-29 2023-04-07 医渡云(北京)技术有限公司 一种医疗数据处理方法、装置、可读介质及电子设备
CN111563399B (zh) * 2019-02-14 2023-04-28 阿里巴巴集团控股有限公司 获取电子病历的结构化信息的方法及装置
CN109935289B (zh) * 2019-03-15 2023-06-27 深圳安泰创新科技股份有限公司 病历显示方法、装置、电子设备及计算机可读存储介质
CN110517788A (zh) * 2019-08-30 2019-11-29 山东健康医疗大数据有限公司 一种中文电子病历信息抽取的方法
CN111177309B (zh) * 2019-12-05 2024-04-12 宁波紫冬认知信息科技有限公司 病历数据的处理方法及装置
CN111199802A (zh) * 2020-01-10 2020-05-26 北京百度网讯科技有限公司 一种电子病历数据挖掘方法、装置、设备和介质
CN111370132B (zh) * 2020-02-28 2022-04-15 平安医疗健康管理股份有限公司 电子文件的解析方法及装置、计算机设备、存储介质
CN112420145A (zh) * 2020-12-08 2021-02-26 医惠科技有限公司 电子病历文书数据处理方法、装置及计算机可读存储介质
CN112927810B (zh) * 2021-03-23 2022-06-17 宁波宁帆信息科技有限公司 基于大数据的智慧医疗响应方法及智慧医疗云计算系统
CN113361254A (zh) * 2021-06-03 2021-09-07 重庆南鹏人工智能科技研究院有限公司 一种自动化电子病历解析方法与装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140172869A1 (en) * 2012-12-19 2014-06-19 International Business Machines Corporation Indexing of large scale patient set
CN106095913A (zh) * 2016-06-08 2016-11-09 广州同构医疗科技有限公司 一种电子病历文本结构化方法
CN107545934A (zh) * 2017-05-11 2018-01-05 新华三大数据技术有限公司 数值型指标的提取方法和装置
CN107578798A (zh) * 2017-10-26 2018-01-12 北京康夫子科技有限公司 电子病历的处理方法及系统
CN109036576A (zh) * 2018-07-23 2018-12-18 无锡慧方科技有限公司 电子病历数据解析方法、装置、计算机及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509012A (zh) * 2011-11-04 2012-06-20 厦门市智业软件工程有限公司 将电子病历的内容映射电子病历标准数据库的方法
CN107562732B (zh) * 2017-10-26 2022-06-14 北京康夫子健康技术有限公司 电子病历的处理方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140172869A1 (en) * 2012-12-19 2014-06-19 International Business Machines Corporation Indexing of large scale patient set
CN106095913A (zh) * 2016-06-08 2016-11-09 广州同构医疗科技有限公司 一种电子病历文本结构化方法
CN107545934A (zh) * 2017-05-11 2018-01-05 新华三大数据技术有限公司 数值型指标的提取方法和装置
CN107578798A (zh) * 2017-10-26 2018-01-12 北京康夫子科技有限公司 电子病历的处理方法及系统
CN109036576A (zh) * 2018-07-23 2018-12-18 无锡慧方科技有限公司 电子病历数据解析方法、装置、计算机及可读存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968747A (zh) * 2020-08-20 2020-11-20 卫宁健康科技集团股份有限公司 Vte智能防治管理系统
CN111968747B (zh) * 2020-08-20 2023-12-12 卫宁健康科技集团股份有限公司 Vte智能防治管理系统
CN111986817A (zh) * 2020-08-21 2020-11-24 南通大学 一种通过ace2筛选新冠covid-19治疗药物的方法
CN112614562A (zh) * 2020-12-23 2021-04-06 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112614562B (zh) * 2020-12-23 2024-05-31 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN117195866A (zh) * 2023-11-03 2023-12-08 中电数据服务有限公司 一种电子病历数据解析方法及系统
CN117195866B (zh) * 2023-11-03 2024-04-09 中电数据服务有限公司 一种电子病历数据解析方法及系统

Also Published As

Publication number Publication date
CN109036576B (zh) 2019-09-06
CN109036576A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
WO2020019797A1 (zh) 电子病历数据解析方法、装置、计算机及可读存储介质
CN106919793B (zh) 一种医疗大数据的数据标准化处理方法及装置
Friedman et al. Representing information in patient reports using natural language processing and the extensible markup language
CN108920453B (zh) 数据处理方法、装置、电子设备及计算机可读介质
US20220044812A1 (en) Automated generation of structured patient data record
US7233938B2 (en) Systems and methods for coding information
JP2019049964A (ja) 電子診療レコードからの医学的状態および事実の自動的特定および抽出
US20070143342A1 (en) Destination based extraction of XML clinical data
CN109524121B (zh) 医疗文件处理方法与装置
WO2021051869A1 (zh) 文本数据排版方法、装置、计算机设备及存储介质
US20080109400A1 (en) Method and device for configuring a variety of medical information
Malmasi et al. Canary: an NLP platform for clinicians and researchers
US20230154593A1 (en) Systems and methods for medical data processing
US20210202111A1 (en) Method of classifying medical records
US20090049104A1 (en) Method and system for configuring a variety of medical information
CN104598437B (zh) 电子病历中页眉信息的动态实现方法
Feng et al. Usability of the clinical care classification system for representing nursing practice according to specialty
US8321196B2 (en) System and method for generating radiological prose text utilizing radiological prose text definition ontology
Lohr et al. CDA-compliant section annotation of German-language discharge summaries: guideline development, annotation campaign, section classification
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
CN114334049B (zh) 一种电子病历结构化处理方法和装置及设备
JP2004295485A (ja) 診療支援装置、診療支援方法、診療支援プログラム及び電子カルテ
Tran et al. Scaling out and evaluation of obsecan, an automated section annotator for semi-structured clinical documents, on a large VA clinical corpus
Mercorella et al. An architectural model for extracting FHIR resources from CDA documents
CN112712866A (zh) 一种确定文本信息相似度的方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19840498

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19840498

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 24.06.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19840498

Country of ref document: EP

Kind code of ref document: A1