WO2019071661A1 - 电子装置、医疗文本实体命名的识别方法、系统及存储介质 - Google Patents

电子装置、医疗文本实体命名的识别方法、系统及存储介质 Download PDF

Info

Publication number
WO2019071661A1
WO2019071661A1 PCT/CN2017/108736 CN2017108736W WO2019071661A1 WO 2019071661 A1 WO2019071661 A1 WO 2019071661A1 CN 2017108736 W CN2017108736 W CN 2017108736W WO 2019071661 A1 WO2019071661 A1 WO 2019071661A1
Authority
WO
WIPO (PCT)
Prior art keywords
medical
entity
crf model
text
trained
Prior art date
Application number
PCT/CN2017/108736
Other languages
English (en)
French (fr)
Inventor
赵清源
吕梓燊
韦邕
徐亮
肖京
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2019071661A1 publication Critical patent/WO2019071661A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Definitions

  • the present application relates to the field of medical entity identification technologies, and in particular, to an electronic device, a method for identifying a medical text entity naming, and a storage medium.
  • vocabulary-based medical entity recognition relies only on termbase matching, lack of contextual context recognition, and term matching exists.
  • the existing medical entity recognition technology based on conditional random field lacks the application of big data corpus and language rules, which makes the model not perfect, lacks rules based on linguistics and medical information, and relies only on the model, and the data is not targeted enough. Therefore, the existing entity identification scheme cannot accurately identify the relevant entities in the medical text.
  • the present application provides an electronic device, a medical text entity naming identification method, and a storage medium, which can solve the problem that the existing entity identification scheme cannot accurately identify related entities in the medical text.
  • a first aspect of the present application provides an electronic device including a memory, a processor, and an identification of a medical text entity name stored on the memory and operable on the processor
  • the system when the identification system of the medical text entity naming is executed by the processor, implements the following steps:
  • the second aspect of the present application further provides a method for identifying a medical text entity naming, the method comprising the following steps:
  • the third aspect of the present application further provides a medical text entity naming and recognition system, where the medical text entity naming and recognition system includes:
  • a segmentation module configured to perform a word segmentation on the medical text to be recognized by using a predetermined word-cutting rule, and determine a sequence of words of the medical text to be identified;
  • a first identification module configured to identify the single word sequence by using a pre-trained first CRF model, and identify a medical term in the single word sequence
  • a second identification module configured to identify each medical term identified by the first CRF model by using a pre-trained second CRF model, and identify a tag sequence corresponding to each of the medical terms
  • a determining module configured to determine, according to a mapping relationship between the predetermined entity name and the tag sequence, an entity name included in each of the tag sequences.
  • a fourth aspect of the present application further provides a computer readable storage medium, where the computer readable storage medium stores an identification system for medical text entity naming, and the medical text entity naming identification system may Executed by at least one processor to cause the at least one processor to perform the following steps:
  • the entity name included in each of the tag sequences is determined according to a mapping relationship between the predetermined entity name and the tag sequence.
  • the electronic device, the medical text entity naming recognition method and the computer readable storage medium proposed by the present application firstly identify the medical text to be recognized by using the pre-trained first CRF model, and identify the to-be-identified Medical terminology in medical texts, secondly, using advance
  • the trained second CRF model identifies the medical term recognized by the first CRF model, identifies the tag sequence corresponding to each medical term, and finally determines the tag sequence according to the mapping relationship between the predetermined entity name and the tag sequence.
  • the name of the entity In this way, it is possible to solve the problem that the existing entity identification scheme cannot accurately identify the related entities in the medical text.
  • 1 is a schematic diagram of an optional hardware architecture of an electronic device of the present application
  • FIG. 2 is a program block diagram of an embodiment of a medical text entity naming and recognition system of the present application
  • FIG. 3 is a block diagram showing a program module of another embodiment of the medical text entity naming and recognition system of the present application.
  • FIG. 4 is a flowchart of an implementation of an embodiment of a medical text entity naming and identifying method of the present application
  • FIG. 5 is a flowchart of an implementation of another embodiment of a medical text entity naming and identifying method of the present application.
  • first, second and the like in the present application are for the purpose of description only, and are not to be construed as indicating or implying their relative importance or implicitly indicating the number of technical features indicated. .
  • features defining “first” and “second” may include at least one of the features, either explicitly or implicitly.
  • the technical solutions between the various embodiments may be combined with each other, but must be based on the realization of those skilled in the art, and when the combination of the technical solutions is contradictory or impossible to implement, it should be considered that the combination of the technical solutions does not exist. Nor is it within the scope of protection required by this application.
  • FIG. 1 it is an optional hardware architecture diagram of the electronic device of the present application.
  • the electronic device 10 can include, but is not limited to, the memory 11, the processor 12, and the network interface 13 can be connected to each other through a system bus. It is noted that FIG. 1 only shows the electronic device 10 having the components 11-13, but it should be understood that not all illustrated components may be implemented, and more or fewer components may be implemented instead.
  • the memory 11 includes at least one type of readable storage medium including a flash memory, a hard disk, a multimedia card, a card type memory (for example, SD or DX memory, etc.), a random access memory (RAM), and a static random access.
  • Memory SRAM
  • ROM read only memory
  • EEPROM electrically erasable programmable read only memory
  • PROM programmable read only memory
  • magnetic memory magnetic disk, optical disk, and the like.
  • the memory 11 may be an internal storage unit of the electronic device 10, such as a hard disk or memory of the electronic device 10.
  • the memory 11 may also be an external storage device of the electronic device 10, such as a plug-in hard device provided on the electronic device 10.
  • the memory 11 can also include both an internal storage unit of the electronic device 10 and an external storage device thereof.
  • the memory 11 is generally used to store an operating system installed in the electronic device 10 and various types of application software, such as program code of the medical text entity naming recognition system 200. Further, the memory 11 can also be used to temporarily store various types of data that have been output or are to be output.
  • Processor 12 may be a Central Processing Unit (CPU), controller, microcontroller, microprocessor, or other data processing chip in some embodiments.
  • the processor 12 is typically used to control the overall operation of the electronic device 10.
  • the processor 12 is configured to run program code or process data stored in the memory 11, such as an identification system 200 for running medical text entity naming.
  • the network interface 13 may include a wireless network interface or a wired network interface, which is typically used to establish a communication connection between the electronic device 10 and other electronic devices.
  • the present application proposes an identification system 200 for medical text entity naming.
  • FIG. 2 it is a program module diagram of an embodiment of the identification system 200 for medical text entity naming of the present application.
  • the medical text entity named recognition system 200 can be divided into one or more modules, one or more modules are stored in the memory 11 and processed by one or more processors (in this embodiment)
  • the device 12 is executed to complete the application.
  • the medical text entity named recognition system 200 can be segmented into a segmentation module 201, a medical term determination module 202, an entity tagging module 203, and an acquisition module 204.
  • the program module referred to in the present application refers to a series of computer program instruction segments capable of performing a specific function, and is more suitable for describing the execution process of the identification system 200 of the medical text entity naming in the electronic device 10 than the program.
  • the functions of each of the program modules 201-204 will be described in detail below.
  • the segmentation module 201 is configured to perform single word segmentation on the medical text to be recognized by using a predetermined word segmentation rule, and determine a sequence of words of the medical text to be identified.
  • the predetermined cutting rule includes: translating the Chinese characters in the medical text to be recognized into a full-width corner, converting the document of the medical text to be recognized into UTF-8, and performing Chinese characters, numbers, and common units for the medical text to be recognized respectively.
  • punctuation marks according to the result of the annotation, the combination of adjacent numbers is treated as a single word, the common unit is treated as a single word, the single punctuation is treated as a single word, and a single Chinese character is treated as a single word, where The unit includes Chinese units, English units, chemical units, and medical units.
  • Medical texts include outpatient prescriptions, physical examinations, case books, inpatient medical data, pharmaceutical drug data, pharmaceutical sales data, medical knowledge base and literature database data, and drug product data.
  • the outpatient prescription is the medical text to be identified, and the outpatient prescription includes irinotecan hydrochloride (Aili) for injection and amoxicillin capsule for oral administration, and the predetermined cut is utilized.
  • the word rule is divided into single words, the following sequence of words is obtained: “Note”, “shoot”, “use”, “salt”, “acid”, “I”, “ ⁇ ”, “("”A”, “ ⁇ ”, ")”,” “ ⁇ ”, “ ⁇ ”, “ ⁇ ”, “ ⁇ ”, “ ⁇ ”, “ ⁇ ”, “ ⁇ ”, “ ⁇ ”, “ ⁇ ”, “ ⁇ ”, “ ⁇ ”, “ ⁇ ”, “ ⁇ ”. ⁇ ”.
  • the first identification module 202 is configured to identify a single word sequence by using a pre-trained first CRF model to identify medical terms in the single word sequence.
  • the training process of the pre-trained first CRF model includes the following steps:
  • a single word sequence of each medical text is manually labeled to mark medical terms in a single word sequence of each medical text, and non-medical terms are deleted to obtain a single word sequence from each medical text.
  • a first training sample set consisting of medical terms
  • the first CRF model is trained according to the first training sample set to obtain a pre-trained first CRF model.
  • the predetermined database includes a hospital case file database, an outpatient question and answer database, a prescription list database, or a medical report form database; the medical text includes a prescription form, a case book, or a medical checklist.
  • the second identification module 203 is configured to identify each medical term identified by the first CRF model by using a pre-trained second CRF model, and identify a tag sequence corresponding to each medical term.
  • the training process of the pre-trained second CRF model includes the following steps:
  • the second CRF model is trained according to the second training sample set to obtain a pre-trained second CRF model.
  • the pre-set corpus records the context features of each statement in the medical term, the medical features of each sentence, the entities in each statement, and the position of the entities in each statement in each statement and the entity category.
  • the medical terminology in the sequence of words identified by the first CRF model includes amoxicillin capsules.
  • the amoxicillin capsule contains the entity amoxicillin and the entity capsule, Amo.
  • the entity category corresponding to Xilin is the drug name entity
  • the entity category corresponding to the capsule is the drug shape entity
  • the capsule corresponds to the back position of amoxicillin.
  • the predetermined entity marking rule includes: marking the word not belonging to the drug name entity A in the word sequence as W A , and the first word belonging to the drug name entity A, labeled as RA, will belong to the drug Name entity A, but not the first word of drug name entity A, the label marked as AI, the same as the word that does not belong to the drug shape entity B is marked as W B , will belong to the drug shape entity B A word, labeled RB, will belong to the drug name entity B, but not the first word of the drug name entity B, labeled as BI.
  • the obtained marker sequences are R-A, A-I, A-I, A-I, R-B, B-I.
  • the determining module 204 is configured to determine, according to a mapping relationship between the predetermined entity name and the tag sequence, an entity name included in each of the tag sequences.
  • the category of the entity includes a drug specification entity, a packaging entity, a drug name entity, and a body part obtained according to a predetermined drug specification database, or a package specification database, or a drug name database, or a medical specification database, or a case database.
  • Entity, health entity, etc., the preset entity tagging rules can be manually set according to different entity categories.
  • the medical text entity naming and recognition system of the present application firstly uses the pre-trained first CRF model to identify the medical text to be recognized, identifies the medical term in the medical text to be recognized, and secondly, utilizes the pre-trained The second CRF model identifies the medical term recognized by the first CRF model, identifies the tag sequence corresponding to each medical term, and finally determines the entity name included in each tag sequence according to the mapping relationship between the predetermined entity name and the tag sequence. .
  • the existing entity identification scheme cannot accurately identify the related entities in the medical text.
  • the ability to solve existing entity identification schemes does not accurately identify the relevant entities in the medical text.
  • the doctor can be assisted to better construct the drug knowledge system in the brain for the doctor.
  • It can also help patients to easily obtain the efficacy and contraindications of related drugs, and provide drug-related advice and tips for patients to recover health.
  • the physical examination report is the text named for the entity to be identified, the body part, the check item entity, the check value entity, etc. can be extracted from the medical examination report, which is convenient for the patient and the physician to quickly and accurately understand the medical examination result, and at the same time, It also contributes to the research and development of the consultation system.
  • FIG. 3 is a program module diagram of another embodiment of the medical text entity naming and recognition system of the present application.
  • the medical text entity naming and recognition system 200 further includes a first training module 205 and a second training module 206, as compared to the embodiment shown in FIG.
  • the first training module 205 is configured to train the first CRF model according to the first training sample set to obtain a pre-trained first CRF model.
  • the training process of the first CRF model includes: obtaining a first preset number of medical texts from a predetermined database, and separately dividing the first predetermined number of medical texts by using a predetermined cutting rule Obtaining a single word sequence for each medical text;
  • a single word sequence of each medical text is manually labeled to mark medical terms in a single word sequence of each medical text, and non-medical terms are deleted to obtain a single word sequence from each medical text.
  • a first training sample set consisting of medical terms
  • the first CRF model is trained according to the first training sample set to obtain a pre-trained first CRF model.
  • the predetermined database includes a hospital case file database, an outpatient question and answer database, a prescription list database, or a medical report form database; the medical text includes a prescription form, a case book, or a body Check the order.
  • the second training module 206 is configured to train the second CRF model according to the second training sample set to obtain a pre-trained second CRF model.
  • the training process of the second CRF model includes: determining a mark sequence corresponding to each medical term in the first training sample set by using a preset corpus and a preset entity mark rule to obtain a mark corresponding to each medical term a second training sample set of sequences;
  • the second CRF model is trained according to the second training sample set to obtain a pre-trained second CRF model.
  • the pre-set corpus records the context features of each statement in the medical term, the medical features of each sentence, the entities in each statement, and the position of the entities in each statement in each statement and the entity category.
  • the training process of the first CRF model and the second CRF model proposed in the present application may be that the first training sample set is trained by another system to obtain the first CRF model, and the second training sample is used.
  • the second CRF model obtained by the training may also be the first training sample set trained by the medical text entity naming recognition system 200, the obtained first CRF model, and the medical text entity naming recognition system 200 for the second training sample. Set the training to get the second CRF model.
  • FIG. 4 is a flowchart of an implementation of an embodiment of the medical text entity naming and identification method of the present application.
  • the medical text entity naming and identifying method includes steps S301 to S304.
  • Step S301 Perform a word segmentation on the medical text to be recognized by using a predetermined word-cutting rule to determine a sequence of words of the medical text to be identified.
  • the predetermined cutting rule includes: translating the Chinese characters in the medical text to be recognized into a full-width corner, converting the document of the medical text to be recognized into UTF-8, and performing Chinese characters, numbers, and common units for the medical text to be recognized respectively.
  • punctuation marks according to the result of the annotation, the combination of adjacent numbers is treated as a single word, the common unit is treated as a single word, the single punctuation is treated as a single word, and a single Chinese character is treated as a single word, where The unit includes Chinese units, English units, chemical units, and medical units.
  • Medical texts include outpatient prescriptions, physical examinations, case books, inpatient medical data, pharmaceutical drug data, pharmaceutical sales data, medical knowledge base and literature database data, and drug product data.
  • the outpatient prescription is the medical text to be identified, and the outpatient prescription includes irinotecan hydrochloride (Aili) for injection and amoxicillin capsule for oral administration, and the predetermined cutting rule is used.
  • the following sequence of words is obtained: “Note”, “shoot”, “use”, “salt”, “acid”, “I”, “ ⁇ ”, “(”Ai”, “force”, ")”, “ ⁇ ” “Service”, “medicine”, “A”, “Mo”, “West”, “Lin”, “Glue”, “Sac”.
  • Step S302 Identify the single word sequence by using the pre-trained first CRF model to identify the medical term in the single word sequence.
  • the training process of the pre-trained first CRF model includes the following steps:
  • a single word sequence of each medical text is manually labeled to mark medical terms in a single word sequence of each medical text, and non-medical terms are deleted to obtain a single word sequence from each medical text.
  • a first training sample set consisting of medical terms
  • the first CRF model is trained according to the first training sample set to obtain a pre-trained first CRF model.
  • the predetermined database includes a hospital case file database, an outpatient question and answer database, a prescription list database, or a medical report form database; the medical text includes a prescription form, a case book, or a medical checklist.
  • Step S303 using the pre-trained second CRF model to identify each medical term identified by the first CRF model, and identifying a tag sequence corresponding to each medical term.
  • the training process of the pre-trained second CRF model includes the following steps:
  • the second CRF model is trained according to the second training sample set to obtain a pre-trained second CRF model.
  • the pre-set corpus records the context features of each statement in the medical term, the medical features of each sentence, the entities in each statement, and the position of the entities in each statement in each statement and the entity category.
  • the medical terminology in the sequence of words identified by the first CRF model includes amoxicillin capsules.
  • the amoxicillin capsule contains the entity amoxicillin and the entity capsule, Amo.
  • the entity category corresponding to Xilin is the drug name entity
  • the entity category corresponding to the capsule is the drug shape entity
  • the capsule corresponds to the back position of amoxicillin.
  • the predetermined entity marking rule includes: marking the word not belonging to the drug name entity A in the word sequence as W A , and the first word belonging to the drug name entity A, labeled as RA, will belong to the drug Name entity A, but not the first word of drug name entity A, the label marked as AI, the same as the word that does not belong to the drug shape entity B is marked as W B , will belong to the drug shape entity B A word, labeled RB, will belong to the drug name entity B, but not the first word of the drug name entity B, labeled as BI.
  • the obtained marker sequences are R-A, A-I, A-I, A-I, R-B, B-I.
  • Step S304 determining an entity name included in each tag sequence according to a mapping relationship between the predetermined entity name and the tag sequence.
  • the category of the entity includes a drug specification entity, a packaging entity, a drug name entity, and a body part obtained according to a predetermined drug specification database, or a package specification database, or a drug name database, or a medical specification database, or a case database.
  • Entity, health entity, etc., the preset entity tagging rules can be manually set according to different entity categories.
  • the medical text entity naming and identifying method of the present application firstly uses the pre-trained first CRF model to identify the medical text to be recognized, identifies the medical term in the medical text to be recognized, and secondly, uses the pre-trained The second CRF model identifies the medical term recognized by the first CRF model, identifies the tag sequence corresponding to each medical term, and finally determines the entity name included in each tag sequence according to the mapping relationship between the predetermined entity name and the tag sequence. .
  • the existing entity identification scheme cannot accurately identify the related entities in the medical text.
  • the ability to solve existing entity identification schemes does not accurately identify the relevant entities in the medical text.
  • FIG. 5 is a program module diagram of another embodiment of the medical text entity naming and recognition system of the present application.
  • the medical text entity naming and identifying method includes steps S301 to S306 as compared with the embodiment shown in FIG.
  • step S301 is configured to train the first CRF model according to the first training sample set to obtain a pre-trained first CRF model.
  • the training process of the first CRF model includes: obtaining a first preset number of medical texts from a predetermined database, and separately dividing the first predetermined number of medical texts by using a predetermined cutting rule Obtaining a single word sequence for each medical text;
  • a single word sequence of each medical text is manually labeled to mark medical terms in a single word sequence of each medical text, and non-medical terms are deleted to obtain a single word sequence from each medical text.
  • a first training sample set consisting of medical terms
  • the first CRF model is trained according to the first training sample set to obtain a pre-trained first CRF model.
  • the predetermined database includes a hospital case file database, an outpatient question and answer database, a prescription list database, or a medical report form database; the medical text includes a prescription form, a case book, or a medical checklist.
  • Step S302 is configured to train the second CRF model according to the second training sample set to obtain a pre-trained second CRF model.
  • the training process of the second CRF model includes: determining, by using a preset corpus and a preset entity tagging rule, a tag sequence corresponding to each medical term in the first training sample set to obtain a tag sequence corresponding to each medical term. Second training sample set;
  • the second CRF model is trained according to the second training sample set to obtain a pre-trained second CRF model.
  • the pre-set corpus records the context features of each statement in the medical term, the medical features of each sentence, the entities in each statement, and the position of the entities in each statement in each statement and the entity category.
  • Step S303 performing a word segmentation on the medical text to be recognized by using a predetermined word-cutting rule, and determining a sequence of words of the medical text to be identified.
  • the predetermined cutting rule includes: translating the Chinese characters in the medical text to be recognized into a full-width corner, converting the document of the medical text to be recognized into UTF-8, and performing Chinese characters, numbers, and common units for the medical text to be recognized respectively. And punctuation marks, according to the results of the annotation will be phase
  • the combination of adjacent numbers is treated as a single word, treating the common unit as a single word, treating a single punctuation as a single word, and treating a single Chinese character as a single word, where the common unit includes Chinese units, English units, chemical units, and Medical unit.
  • Medical texts include outpatient prescriptions, physical examinations, case books, inpatient medical data, pharmaceutical drug data, pharmaceutical sales data, medical knowledge base and literature database data, and drug product data.
  • the outpatient prescription is the medical text to be identified, and the outpatient prescription includes irinotecan hydrochloride (Aili) for injection and amoxicillin capsule for oral administration, and the predetermined cutting rule is used.
  • the following sequence of words is obtained: “Note”, “shoot”, “use”, “salt”, “acid”, “I”, “ ⁇ ”, “(”Ai”, “force”, ")”, “ ⁇ ” “Service”, “medicine”, “A”, “Mo”, “West”, “Lin”, “Glue”, “Sac”.
  • Step S304 the single word sequence is identified by using the pre-trained first CRF model to identify medical terms in the single word sequence.
  • Step S305 using the pre-trained second CRF model to identify each medical term identified by the first CRF model, and identifying a tag sequence corresponding to each medical term.
  • Step S306 determining an entity name included in each tag sequence according to a mapping relationship between the predetermined entity name and the tag sequence.
  • the foregoing embodiment method can be implemented by means of software plus a necessary general hardware platform, and of course, can also be through hardware, but in many cases, the former is better.
  • Implementation Based on such understanding, the technical solution of the present application, which is essential or contributes to the prior art, may be embodied in the form of a software product stored in a storage medium (such as ROM/RAM, disk,
  • the optical disc includes a number of instructions for causing a terminal device (which may be a mobile phone, a computer, a server, an air conditioner, or a network device, etc.) to perform the methods described in various embodiments of the present application.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种电子装置、医疗文本实体命名识别方法及存储介质。所述方法包括:利用预先确定的切字规则对待识别医疗文本进行单字切分,确定待识别医疗文本的单字序列(S301);利用预先训练的第一CRF模型对单字序列进行识别,识别出单字序列中的医学术语(S302);利用预先训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别,识别出各个医学术语对应的标记序列(S303);根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称(S304)。这样,能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。

Description

电子装置、医疗文本实体命名的识别方法、系统及存储介质
本申请要求于2017年10月9日提交中国专利局、申请号为201710929637.2,发明名称为“电子装置、医疗文本实体命名的识别方法及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及医疗实体识别技术领域,尤其涉及一种电子装置、医疗文本实体命名的识别方法及存储介质。
背景技术
在近年来,随着网络和医疗信息技术的发展,互联网医疗逐渐兴起,医疗行业大数据也逐渐产生。人们开始探讨和学习如何利用大数据提高医药行业的经营管理及服务,例如,通过疗效对比得到最佳治疗路径,以提高临床医疗服务质量,分析临床试验数据和病人记录,确定药品更多的适应症和发现副作用等,以提高医学科研水平。而医药大数据的利用分析和挖掘的前提和基础之一是医疗文本中命名实体的识别,医疗文本中相关实体的识别是医疗大数据应用的基础工作。
目前,常见的实体识别技术有基于词表的医学实体识别和基于条件随机场的医学实体识别,然而基于词表的医学实体识别仅仅依靠术语库匹配,缺少上下文语境识别,且术语匹配存在较大局限性,比如对于药品来说,药品的厂家数量繁多,术语库可能难以一一涵盖。而已有的基于条件随机场的医学实体识别技术,缺少大数据语料库和语言规则的应用,使得模型不够完善,缺少基于语言学与医疗信息的规则,仅仅依靠模型,对数据的针对性不够强。因此,已有的实体识别方案并不能准确进行医疗文本中相关实体的识别。
发明内容
有鉴于此,本申请提出一种电子装置、医疗文本实体命名的识别方法及存储介质,能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。
首先,为实现上述目的,本申请第一方面提出一种电子装置,所述电子装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的医疗文本实体命名的识别系统,所述医疗文本实体命名的识别系统被所述处理器执行时实现如下步骤:
A、利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
B、利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
C、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医 学术语进行识别,识别出各个所述医学术语对应的标记序列;
D、根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
此外,为实现上述目的,本申请第二方面还提供一种医疗文本实体命名的识别方法,所述方法包括如下步骤:
S1、利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
S2、利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
S3、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
S4、根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
进一步地,为实现上述目的,本申请第三方面还提供一种医疗文本实体命名识别系统,所述医疗文本实体命名识别系统包括:
切分模块,用于利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
第一识别模块,用于利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
第二识别模块,用于利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
确定模块,用于根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
进一步地,为实现上述目的,本申请第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质存储有医疗文本实体命名的识别系统,所述医疗文本实体命名的识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如下步骤:
利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
相较于现有技术,本申请所提出的电子装置、医疗文本实体命名的识别方法及计算机可读存储介质,首先,利用预先训练的第一CRF模型对待识别医疗文本进行识别,识别出待识别医疗文本中的医学术语,其次,利用预先 训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别,识别出各个医学术语对应的标记序列,最后,根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称。这样,能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。
附图说明
图1是本申请的电子装置一可选的硬件架构的示意图;
图2是本申请医疗文本实体命名识别系统一实施例的程序模块图;
图3是本申请医疗文本实体命名识别系统另一实施例的程序模块图;
图4是本申请的医疗文本实体命名识别方法一实施例的实施流程图;
图5是本申请的医疗文本实体命名识别方法另一实施例的实施流程图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
参阅图1所示,是本申请的电子装置一可选的硬件架构示意图。
由图1可知,本实施例中,电子装置10可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、及网络接口13。需要指出的是,图1仅示出了具有组件11-13的电子装置10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,存储器11至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器11可以是电子装置10的内部存储单元,例如电子装置10的硬盘或内存。在另一些实施例中,存储器11也可以是电子装置10的外部存储设备,例如电子装置10上配备的插接式硬 盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器11还可以既包括电子装置10的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于电子装置10的操作系统和各类应用软件,例如医疗文本实体命名识别系统200的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。处理器12通常用于控制电子装置10的总体操作。本实施例中,处理器12用于运行存储器11中存储的程序代码或者处理数据,例如运行的医疗文本实体命名的识别系统200等。
网络接口13可包括无线网络接口或有线网络接口,网络接口13通常用于在电子装置10与其他电子设备之间建立通信连接。
至此,己经详细介绍了本申请各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本申请的各个实施例。
首先,本申请提出一种医疗文本实体命名的识别系统200。
参阅图2所示,是本申请医疗文本实体命名的识别系统200一实施例的程序模块图。本实施例中,医疗文本实体命名的识别系统200可以被分割成一个或多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例中为处理器12)所执行,以完成本申请。例如,在图2中,医疗文本实体命名的识别系统200可以被分割成切分模块201、医学术语确定模块202、实体标记模块203、以及获取模块204。本申请所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述医疗文本实体命名的识别系统200在电子装置10中的执行过程。以下将就各程序模块201-204的功能进行详细描述。
切分模块201,用于利用预先确定的切字规则对待识别医疗文本进行单字切分,确定待识别医疗文本的单字序列。
其中,预先确定的切字规则包括:将待识别医疗文本中的中文字符进行全角转半角,将待识别医疗文本的文档编码转换为UTF-8,对待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,通用单位包括中文单位、英文单位、化学单位、以及医用单位。
医疗文本包括门诊处方单、体检单、病例本、住院医嘱数据、医药企业药品数据、医药企业销售数据、医疗知识库及文献库数据、药品说明书数据等。
在一实施例中,以门诊处方单为待识别的医疗文本,且该门诊处方单包括注射用盐酸伊立替康(艾力)、口服药阿莫西林胶囊,则利用预先确定的切 字规则进行单字切分后,获得如下的单字序列:“注”“射”“用”“盐”“酸”“伊”“立”“(”“艾”“力”“)”“、”“口”“服”“药”“阿”“莫”“西”“林”“胶”“囊”。
第一识别模块202,用于利用预先训练的第一CRF模型对单字序列进行识别,识别出单字序列中的医学术语。
其中,预先训练的第一CRF模型的训练过程包括如下步骤:
从预先确定的数据库中获取第一预设数量的医疗文本,并利用预先确定的切字规则分别对第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个医疗文本的单字序列进行人工标记,以标记出各个医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练第一CRF模型,以得到预先训练的第一CRF模型。
其中,预先确定的数据库包括医院的病例档案数据库、门诊问答数据库、处方单数据库、或体检报告单数据库;医疗文本包括处方单、病例本、或体检单。
第二识别模块203,用于利用预先训练的第二CRF模型对第一CRF模型识别出的各个医学术语进行识别,识别出各个医学术语对应的标记序列。
其中,预先训练的第二CRF模型的训练过程包括如下步骤:
利用预先设置的语料库及预设的实体标记规则确定第一训练样本集中的各个医学术语对应的标记序列,以获得由各个医学术语对应的标记序列构成的第二训练样本集;
根据第二训练样本集训练第二CRF模型,以得到预先训练的第二CRF模型。
其中,预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
例如,在一实施例中,第一CRF模型识别出的单字序列中的医疗术语包括阿莫西林胶囊,根据预先设置的语料库可知,阿莫西林胶囊中包含实体阿莫西林和实体胶囊,阿莫西林对应的实体类别为药品名称实体、胶囊对应的实体类别为药品形状实体,且胶囊对应在阿莫西林的后面位置。
预先确定的实体标记规则包括,将单字序列中不属于药品名称实体A的单字贴上的标记为WA,将属于药品名称实体A的第一个字,贴上的标记为R-A,将属于药品名称实体A,但不是药品名称实体A的第一个字,贴上的标记为A-I,同理将不属于药品形状实体B的单字贴上的标记为WB,将属于药品形状实体B的第一个字,贴上的标记为R-B,将属于药品名称实体B,但不是药品名称实体B的第一个字,贴上的标记为B-I。
则获得的标记序列为R-A,A-I,A-I,A-I,R-B,B-I。
确定模块204,用于根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
可以理解地,实体的类别包括根据预先确定的药品规格数据库、或包装规格数据库、或药品名称数据库、或体检规格数据库、或病例数据库等获取的药品规格实体、包装实体、药品名称实体、身体部位实体、健康状况实体等,预先设置的实体标记规则根据不同的实体类别可以人工进行相应的设置。
根据上述实施例可知,本申请的医疗文本实体命名识别系统,首先,利用预先训练的第一CRF模型对待识别医疗文本进行识别,识别出待识别医疗文本中的医学术语,其次,利用预先训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别,识别出各个医学术语对应的标记序列,最后,根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称。这样,能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体的识别的问题。
由上述实施例可知,若将医生的处方单作为待识别文本,来识别处方单中的药品名称实体、药品特性实体等,则可以协助医生更好地构建自己大脑中的药品知识体系,为医生提供便捷的相关药品的剂量,禁忌,作用等信息,协助医生更好的作出诊断。也可以帮着患者方便的获取相关药品的功效、禁忌、为患者恢复健康提供与药品相关的建议与提示。还可以通过药品识别进一步帮助只要厂家建立药品知识图谱,帮助制药商认识当前药品市场的基本情形,为厂商进一步研发、提高、推广药品等提供参考。
若以体检报告为待识别实体命名的文本,则可以从体检报告中抽取得到身体部位的实体、检查项实体、检查值实体等,有利于病患和医师快速准确地对体检结果进行理解,同时也有助于问诊系统的研究与发展。
请参阅图3所示,是本申请的医疗文本实体命名识别系统另一实施例的程序模块图。由图3可知,本实施例相较于图2所示的实施例,医疗文本实体命名识别系统200还包括第一训练模块205、和第二训练模块206。
在本实施例中,第一训练模块205,用于根据第一训练样本集训练第一CRF模型,以得到预先训练的第一CRF模型。
具体地,第一CRF模型的训练过程包括:从预先确定的数据库中获取第一预设数量的医疗文本,并利用预先确定的切字规则分别对第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个医疗文本的单字序列进行人工标记,以标记出各个医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练第一CRF模型,以得到预先训练的第一CRF模型。
其中,预先确定的数据库包括医院的病例档案数据库、门诊问答数据库、处方单数据库、或体检报告单数据库;医疗文本包括处方单、病例本、或体 检单。
第二训练模块206,用于根据第二训练样本集训练第二CRF模型,以得到预先训练的第二CRF模型。
具体地,第二CRF模型的训练过程包括:利用预先设置的语料库及预设的实体标记规则确定所述第一训练样本集中的各个医学术语对应的标记序列,以获得由各个医学术语对应的标记序列构成的第二训练样本集;
根据第二训练样本集训练第二CRF模型,以得到预先训练的第二CRF模型。
其中,预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
需要说明的是,本申请中所提出的第一CRF模型及第二CRF模型的训练过程可以是由别的系统预先对第一训练样本集进行训练得到第一CRF模型,以及对第二训练样本集进行训练得到的第二CRF模型,也可以是由医疗文本实体命名识别系统200对第一训练样本集进行训练,得到的第一CRF模型,以及医疗文本实体命名识别系统200对第二训练样本集进行训练,得到的第二CRF模型。
请参阅图4,是本申请的医疗文本实体命名识别方法一实施例的实施流程图。由图4可知,在本实施例中,医疗文本实体命名识别方法包括步骤S301至步骤S304。
步骤S301,利用预先确定的切字规则对待识别医疗文本进行单字切分,确定待识别医疗文本的单字序列。
其中,预先确定的切字规则包括:将待识别医疗文本中的中文字符进行全角转半角,将待识别医疗文本的文档编码转换为UTF-8,对待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,通用单位包括中文单位、英文单位、化学单位、以及医用单位。
医疗文本包括门诊处方单、体检单、病例本、住院医嘱数据、医药企业药品数据、医药企业销售数据、医疗知识库及文献库数据、药品说明书数据等。
在一实施例中,以门诊处方单为待识别的医疗文本,且该门诊处方单包括注射用盐酸伊立替康(艾力)、口服药阿莫西林胶囊,则利用预先确定的切字规则进行单字切分后,获得如下的单字序列:“注”“射”“用”“盐”“酸”“伊”“立”“(”“艾”“力”“)”“、”“口”“服”“药”“阿”“莫”“西”“林”“胶”“囊”。
步骤S302,利用预先训练的第一CRF模型对单字序列进行识别,识别出单字序列中的医学术语。
其中,预先训练的第一CRF模型的训练过程包括如下步骤:
从预先确定的数据库中获取第一预设数量的医疗文本,并利用预先确定的切字规则分别对第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个医疗文本的单字序列进行人工标记,以标记出各个医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练第一CRF模型,以得到预先训练的第一CRF模型。
其中,预先确定的数据库包括医院的病例档案数据库、门诊问答数据库、处方单数据库、或体检报告单数据库;医疗文本包括处方单、病例本、或体检单。
步骤S303,利用预先训练的第二CRF模型对第一CRF模型识别出的各个医学术语进行识别,识别出各个医学术语对应的标记序列。
其中,预先训练的第二CRF模型的训练过程包括如下步骤:
利用预先设置的语料库及预设的实体标记规则确定第一训练样本集中的各个医学术语对应的标记序列,以获得由各个医学术语对应的标记序列构成的第二训练样本集;
根据第二训练样本集训练第二CRF模型,以得到预先训练的第二CRF模型。
其中,预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
例如,在一实施例中,第一CRF模型识别出的单字序列中的医疗术语包括阿莫西林胶囊,根据预先设置的语料库可知,阿莫西林胶囊中包含实体阿莫西林和实体胶囊,阿莫西林对应的实体类别为药品名称实体、胶囊对应的实体类别为药品形状实体,且胶囊对应在阿莫西林的后面位置。
预先确定的实体标记规则包括,将单字序列中不属于药品名称实体A的单字贴上的标记为WA,将属于药品名称实体A的第一个字,贴上的标记为R-A,将属于药品名称实体A,但不是药品名称实体A的第一个字,贴上的标记为A-I,同理将不属于药品形状实体B的单字贴上的标记为WB,将属于药品形状实体B的第一个字,贴上的标记为R-B,将属于药品名称实体B,但不是药品名称实体B的第一个字,贴上的标记为B-I。
则获得的标记序列为R-A,A-I,A-I,A-I,R-B,B-I。
步骤S304,根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称。
可以理解地,实体的类别包括根据预先确定的药品规格数据库、或包装规格数据库、或药品名称数据库、或体检规格数据库、或病例数据库等获取的药品规格实体、包装实体、药品名称实体、身体部位实体、健康状况实体等,预先设置的实体标记规则根据不同的实体类别可以人工进行相应的设置。
根据上述实施例可知,本申请的医疗文本实体命名识别方法,首先,利用预先训练的第一CRF模型对待识别医疗文本进行识别,识别出待识别医疗文本中的医学术语,其次,利用预先训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别,识别出各个医学术语对应的标记序列,最后,根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称。这样,能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体的识别的问题。
请参阅图5所示,是本申请的医疗文本实体命名识别系统另一实施例的程序模块图。由图5可知,本实施例相较于图4所示的实施例,医疗文本实体命名识别方法包括步骤S301至步骤S306。
在本实施例中,步骤S301,用于根据第一训练样本集训练第一CRF模型,以得到预先训练的第一CRF模型。
具体地,第一CRF模型的训练过程包括:从预先确定的数据库中获取第一预设数量的医疗文本,并利用预先确定的切字规则分别对第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个医疗文本的单字序列进行人工标记,以标记出各个医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练所述第一CRF模型,以得到预先训练的第一CRF模型。
其中,预先确定的数据库包括医院的病例档案数据库、门诊问答数据库、处方单数据库、或体检报告单数据库;医疗文本包括处方单、病例本、或体检单。
步骤S302,用于根据第二训练样本集训练第二CRF模型,以得到预先训练的第二CRF模型。
具体地,第二CRF模型的训练过程包括:利用预先设置的语料库及预设的实体标记规则确定第一训练样本集中的各个医学术语对应的标记序列,以获得由各个医学术语对应的标记序列构成的第二训练样本集;
根据第二训练样本集训练所述第二CRF模型,以得到预先训练的第二CRF模型。
其中,预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
步骤S303,利用预先确定的切字规则对待识别医疗文本进行单字切分,确定待识别医疗文本的单字序列。
其中,预先确定的切字规则包括:将待识别医疗文本中的中文字符进行全角转半角,将待识别医疗文本的文档编码转换为UTF-8,对待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相 邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,通用单位包括中文单位、英文单位、化学单位、以及医用单位。
医疗文本包括门诊处方单、体检单、病例本、住院医嘱数据、医药企业药品数据、医药企业销售数据、医疗知识库及文献库数据、药品说明书数据等。
在一实施例中,以门诊处方单为待识别的医疗文本,且该门诊处方单包括注射用盐酸伊立替康(艾力)、口服药阿莫西林胶囊,则利用预先确定的切字规则进行单字切分后,获得如下的单字序列:“注”“射”“用”“盐”“酸”“伊”“立”“(”“艾”“力”“)”“、”“口”“服”“药”“阿”“莫”“西”“林”“胶”“囊”。
步骤S304,利用预先训练的第一CRF模型对单字序列进行识别,识别出单字序列中的医学术语。
步骤S305,利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个医学术语对应的标记序列。
步骤S306,根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的医疗文本实体命名识别系统,所述医疗文本实体命名识别系统被所述处理器执行时实现如下步骤:
    A、利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
    B、利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
    C、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
    D、根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
  2. 如权利要求1所述的电子装置,其特征在于,所述预先确定的切字规则包括:
    将所述待识别医疗文本中的中文字符进行全角转半角,将所述待识别医疗文本的文档编码转换为UTF-8,对所述待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,所述通用单位包括中文单位、英文单位、化学单位、以及医用单位。
  3. 如权利要求2所述的电子装置,其特征在于,所述预先训练的第一CRF模型的训练过程包括如下步骤:
    从预先确定的数据库中获取第一预设数量的医疗文本,并利用所述预先确定的切字规则分别对所述第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
    基于预先确定的医学术语表,对各个所述医疗文本的单字序列进行人工标记,以标记出各个所述医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个所述医疗文本的单字序列中的医学术语构成的第一训练样本集;
    根据第一训练样本集训练所述第一CRF模型,以得到预先训练的第一CRF模型。
  4. 如权利要求3所述的电子装置,其特征在于,所述预先训练的第二CRF模型的训练过程包括如下步骤:
    利用预先设置的语料库及预设的实体标记规则确定所述第一训练样本集中的各个所述医学术语对应的标记序列,以获得由各个所述医学术语对应的标记序列构成的第二训练样本集;
    根据所述第二训练样本集训练所述第二CRF模型,以得到预先训练的第二CRF模型。
  5. 如权利要求4所述的电子装置,其特征在于,所述预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
  6. 一种医疗文本实体命名识别方法,其特征在于,所述方法包括如下步骤:
    S1、利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
    S2、利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
    S3、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
    S4、根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
  7. 如权利要求6所述的医疗文本实体命名识别方法,其特征在于,所述预先确定的切字规则包括:
    将所述待识别医疗文本中的中文字符进行全角转半角,将所述待识别医疗文本的文档编码转换为UTF-8,对所述待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,所述通用单位包括中文单位、英文单位、化学单位、以及医用单位。
  8. 如权利要求7所述的医疗文本实体命名识别方法,其特征在于,所述预先训练的第一CRF模型的训练过程包括如下步骤:
    从预先确定的数据库中获取第一预设数量的医疗文本,并利用所述预先确定的切字规则分别对所述第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
    基于预先确定的医学术语表,对各个所述医疗文本的单字序列进行人工标记,以标记出各个所述医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个所述医疗文本的单字序列中的医学术语构成的第一训练样本集;
    根据第一训练样本集训练所述第一CRF模型,以得到预先训练的第一CRF模型。
  9. 如权利要求8所述的医疗文本实体命名识别方法,其特征在于,所述预先训练的第二CRF模型的训练过程包括如下步骤:
    利用预先设置的语料库及预设的实体标记规则确定所述第一训练样本集中的各个所述医学术语对应的标记序列,以获得由各个所述医学术语对应的标记序列构成的第二训练样本集;
    根据所述第二训练样本集训练所述第二CRF模型,以得到预先训练的第二CRF模型。
  10. 如权利要求9所述的医疗文本命名识别方法,其特征在于,所述预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
  11. 一种医疗文本实体命名识别系统,其特征在于,所述医疗文本实体命名识别系统包括:
    切分模块,用于利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
    第一识别模块,用于利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
    第二识别模块,用于利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
    确定模块,用于根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
  12. 如权利要求11所述的医疗文本实体命名识别系统,其特征在于,所述预先确定的切字规则包括:
    将所述待识别医疗文本中的中文字符进行全角转半角,将所述待识别医疗文本的文档编码转换为UTF-8,对所述待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,所述通用单位包括中文单位、英文单位、化学单位、以及医用单位。
  13. 如权利12所述的医疗文本实体命名识别系统,其特征在于,所述医疗文本实体命名识别系统还包括第一训练模块,所述第一训练模块用于训练第一CRF模型,所述第一CRF模型的训练过程包括如下步骤:
    从预先确定的数据库中获取第一预设数量的医疗文本,并利用所述预先确定的切字规则分别对所述第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
    基于预先确定的医学术语表,对各个所述医疗文本的单字序列进行人工标记,以标记出各个所述医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个所述医疗文本的单字序列中的医学术语构成的第一训练样本集;
    根据第一训练样本集训练所述第一CRF模型,以得到预先训练的第一CRF模型。
  14. 如权利要求12所述的医疗文本实体命名识别系统,其特征在于,所述医疗文本实体命名识别系统还包括第二训练模块,所述第二训练模块用于训练第二CRF模型,所述第二CRF模型的训练过程包括如下步骤:
    从预先确定的数据库中获取第一预设数量的医疗文本,并利用所述预先确定的切字规则分别对所述第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
    基于预先确定的医学术语表,对各个所述医疗文本的单字序列进行人工标记,以标记出各个所述医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个所述医疗文本的单字序列中的医学术语构成的第一训练样本集;
    根据第一训练样本集训练所述第一CRF模型,以得到预先训练的第一CRF模型。
  15. 如权利要求14所述的医疗文本实体命名识别系统,其特征在于,所述预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
  16. 一种计算机可读存储介质,所述计算机可读存储介质存储有医疗文本实体命名的识别系统,所述医疗文本实体命名的识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如下步骤:
    利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
    利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
    利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
    根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
  17. 如权利要求16所述的计算机可读存储介质,其特征在于,所述预先确定的切字规则包括:
    将所述待识别医疗文本中的中文字符进行全角转半角,将所述待识别医疗文本的文档编码转换为UTF-8,对所述待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,所述通用单位包括中文单位、英文单位、化学单位、以及医用单位。
  18. 如权利要求17所述的计算机可读存储介质,其特征在于,所述预先训练的第一CRF模型的训练过程包括如下步骤:
    从预先确定的数据库中获取第一预设数量的医疗文本,并利用所述预先确定的切字规则分别对所述第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
    基于预先确定的医学术语表,对各个所述医疗文本的单字序列进行人工标记,以标记出各个所述医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个所述医疗文本的单字序列中的医学术语构成的第一训练样本集;
    根据第一训练样本集训练所述第一CRF模型,以得到预先训练的第一 CRF模型。
  19. 如权利要求18所述的计算机可读存储介质,其特征在于,所述预先训练的第二CRF模型的训练过程包括如下步骤:
    利用预先设置的语料库及预设的实体标记规则确定所述第一训练样本集中的各个所述医学术语对应的标记序列,以获得由各个所述医学术语对应的标记序列构成的第二训练样本集;
    根据所述第二训练样本集训练所述第二CRF模型,以得到预先训练的第二CRF模型。
  20. 如权利要求19所述的计算机可读存储介质,其特征在于,所述预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
PCT/CN2017/108736 2017-10-09 2017-10-31 电子装置、医疗文本实体命名的识别方法、系统及存储介质 WO2019071661A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710929637.2A CN107808124B (zh) 2017-10-09 2017-10-09 电子装置、医疗文本实体命名的识别方法及存储介质
CN201710929637.2 2017-10-09

Publications (1)

Publication Number Publication Date
WO2019071661A1 true WO2019071661A1 (zh) 2019-04-18

Family

ID=61584119

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/108736 WO2019071661A1 (zh) 2017-10-09 2017-10-31 电子装置、医疗文本实体命名的识别方法、系统及存储介质

Country Status (2)

Country Link
CN (1) CN107808124B (zh)
WO (1) WO2019071661A1 (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457678A (zh) * 2019-06-28 2019-11-15 创业慧康科技股份有限公司 一种电子病历修正方法及装置
CN110516251A (zh) * 2019-08-29 2019-11-29 秒针信息技术有限公司 一种电商实体识别模型的构建方法、构建装置、设备和介质
CN110826330A (zh) * 2019-10-12 2020-02-21 上海数禾信息科技有限公司 人名识别方法及装置、计算机设备及可读存储介质
CN110969021A (zh) * 2019-12-23 2020-04-07 竹间智能科技(上海)有限公司 单轮对话中的命名实体识别方法、装置、设备及介质
CN111028952A (zh) * 2019-11-27 2020-04-17 云知声智能科技股份有限公司 一种中文医学蕴含知识图谱构建方法及装置
CN111090990A (zh) * 2019-12-10 2020-05-01 中电健康云科技有限公司 一种医疗体检报告单文字识别及纠正方法
CN111160012A (zh) * 2019-12-26 2020-05-15 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111611806A (zh) * 2020-05-06 2020-09-01 北京智通云联科技有限公司 一种用于知识图谱问答的语义解析方法、系统及设备
CN111611775A (zh) * 2020-05-14 2020-09-01 沈阳东软熙康医疗系统有限公司 一种实体识别模型生成方法、实体识别方法及装置、设备
CN111797629A (zh) * 2020-06-23 2020-10-20 平安医疗健康管理股份有限公司 医疗文本数据的处理方法、装置、计算机设备和存储介质
CN111832294A (zh) * 2020-06-24 2020-10-27 平安科技(深圳)有限公司 标注数据的选择方法、装置、计算机设备和存储介质
CN111950277A (zh) * 2019-04-30 2020-11-17 中移(苏州)软件技术有限公司 商情实体确定方法、装置和存储介质
CN111949793A (zh) * 2020-08-13 2020-11-17 深圳市欢太科技有限公司 用户意图识别方法、装置及终端设备
CN112015900A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 医学属性知识图谱构建方法、装置、设备及介质
CN112036154A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 基于问诊对话的电子病历生成方法、装置和计算机设备
CN112101028A (zh) * 2020-08-17 2020-12-18 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及系统
CN112185572A (zh) * 2020-09-25 2021-01-05 志诺维思(北京)基因科技有限公司 一种肿瘤专病数据库构建系统、方法、电子设备和介质
CN112270181A (zh) * 2020-11-03 2021-01-26 北京明略软件系统有限公司 序列标注方法、系统、计算机可读存储介质及计算机设备
CN112420205A (zh) * 2020-12-08 2021-02-26 医惠科技有限公司 实体识别模型生成方法、装置及计算机可读存储介质
CN112507701A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 待纠错医疗数据的识别方法、装置、设备和存储介质
CN112686047A (zh) * 2021-01-21 2021-04-20 北京云上曲率科技有限公司 一种基于命名实体识别的敏感文本识别方法、装置、系统
CN112749562A (zh) * 2020-12-31 2021-05-04 合肥工业大学 命名实体识别方法、装置、存储介质及电子设备
CN112836498A (zh) * 2019-11-22 2021-05-25 阿里巴巴集团控股有限公司 数据处理方法、识别方法、装置及计算设备
CN112992301A (zh) * 2019-12-02 2021-06-18 金色熊猫有限公司 数据处理方法、装置、电子设备及存储介质
CN113488196A (zh) * 2021-07-26 2021-10-08 西南交通大学 一种药品说明书文本命名实体识别建模方法
CN114036950A (zh) * 2021-11-10 2022-02-11 山东大学 一种医疗文本命名实体识别方法及系统
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
WO2022160454A1 (zh) * 2021-01-28 2022-08-04 平安科技(深圳)有限公司 医疗文献的检索方法、装置、电子设备及存储介质
CN115759097A (zh) * 2022-11-08 2023-03-07 广东数鼎科技有限公司 一种车型名称识别方法
CN116628509A (zh) * 2023-07-21 2023-08-22 科大讯飞股份有限公司 模型训练方法、装置、设备及存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284491B (zh) * 2018-10-23 2023-08-22 北京惠每云科技有限公司 医学文本识别方法、语句识别模型训练方法
CN109299467B (zh) * 2018-10-23 2023-08-08 北京惠每云科技有限公司 医学文本识别方法及装置、语句识别模型训练方法及装置
CN109817300B (zh) * 2019-01-18 2020-10-02 杭州逸曜信息技术有限公司 一种基于人工智能的用药规则生成方法
CN111797626B (zh) * 2019-03-21 2024-06-21 阿里巴巴集团控股有限公司 一种命名实体识别方法及装置
CN110162784B (zh) * 2019-04-19 2023-10-27 平安科技(深圳)有限公司 中文病历的实体识别方法、装置、设备及存储介质
CN112949306B (zh) * 2019-12-10 2024-04-30 医渡云(北京)技术有限公司 命名实体识别模型创建方法、装置、设备及可读存储介质
CN111415748B (zh) * 2020-02-18 2023-08-08 云知声智能科技股份有限公司 一种实体链接方法及装置
CN111462913B (zh) * 2020-03-11 2023-08-15 云知声智能科技股份有限公司 一种病例文书中疾病诊断的自动切分方法及装置
CN113919290A (zh) * 2020-07-09 2022-01-11 中国科学院上海药物研究所 一种用于有机化合物的化学结构和命名双向自动转化的处理方法及装置
CN112257417A (zh) * 2020-10-29 2021-01-22 重庆紫光华山智安科技有限公司 一种多任务命名实体识别训练方法、介质及终端
CN112464667B (zh) * 2020-11-18 2021-11-16 北京华彬立成科技有限公司 文本的实体识别方法、装置、电子设备和存储介质
CN112667787A (zh) * 2020-11-26 2021-04-16 平安普惠企业管理有限公司 基于话术标签的智能应答方法、系统及存储介质
CN113297852B (zh) * 2021-07-26 2021-11-12 北京惠每云科技有限公司 一种医学实体词的识别方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210450A1 (en) * 2008-02-20 2009-08-20 Medicomp Systems, Inc. Clinically intelligent parsing
CN106251865A (zh) * 2016-08-04 2016-12-21 华东师范大学 一种基于语音识别的医疗健康记录自动填写方法
CN106407443A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
CN106934220A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
CN107122582A (zh) * 2017-02-24 2017-09-01 黑龙江特士信息技术有限公司 面向多数据源的诊疗类实体识别方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314507B (zh) * 2011-09-08 2013-07-03 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及系统
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
CN105787461B (zh) * 2016-03-15 2019-07-23 浙江大学 基于文本分类和条件随机场的文献不良反应实体识别方法
CN106202054B (zh) * 2016-07-25 2018-12-14 哈尔滨工业大学 一种面向医疗领域基于深度学习的命名实体识别方法
CN106897559B (zh) * 2017-02-24 2019-09-17 黑龙江特士信息技术有限公司 一种面向多数据源的症状体征类实体识别方法及装置
CN106919794B (zh) * 2017-02-24 2019-12-06 黑龙江特士信息技术有限公司 面向多数据源的药品类实体识别方法及装置
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
CN107168946A (zh) * 2017-04-14 2017-09-15 北京化工大学 一种医疗文本数据的命名实体识别方法
CN107168949A (zh) * 2017-04-24 2017-09-15 成都准星云学科技有限公司 基于实体组合的数学自然语言处理实现方法、系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210450A1 (en) * 2008-02-20 2009-08-20 Medicomp Systems, Inc. Clinically intelligent parsing
CN106251865A (zh) * 2016-08-04 2016-12-21 华东师范大学 一种基于语音识别的医疗健康记录自动填写方法
CN106407443A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
CN106934220A (zh) * 2017-02-24 2017-07-07 黑龙江特士信息技术有限公司 面向多数据源的疾病类实体识别方法及装置
CN107122582A (zh) * 2017-02-24 2017-09-01 黑龙江特士信息技术有限公司 面向多数据源的诊疗类实体识别方法及装置

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950277A (zh) * 2019-04-30 2020-11-17 中移(苏州)软件技术有限公司 商情实体确定方法、装置和存储介质
CN110457678A (zh) * 2019-06-28 2019-11-15 创业慧康科技股份有限公司 一种电子病历修正方法及装置
CN110516251B (zh) * 2019-08-29 2023-11-03 秒针信息技术有限公司 一种电商实体识别模型的构建方法、构建装置、设备和介质
CN110516251A (zh) * 2019-08-29 2019-11-29 秒针信息技术有限公司 一种电商实体识别模型的构建方法、构建装置、设备和介质
CN110826330A (zh) * 2019-10-12 2020-02-21 上海数禾信息科技有限公司 人名识别方法及装置、计算机设备及可读存储介质
CN110826330B (zh) * 2019-10-12 2023-11-07 上海数禾信息科技有限公司 人名识别方法及装置、计算机设备及可读存储介质
CN112836498A (zh) * 2019-11-22 2021-05-25 阿里巴巴集团控股有限公司 数据处理方法、识别方法、装置及计算设备
CN111028952A (zh) * 2019-11-27 2020-04-17 云知声智能科技股份有限公司 一种中文医学蕴含知识图谱构建方法及装置
CN111028952B (zh) * 2019-11-27 2023-08-04 云知声智能科技股份有限公司 一种中文医学蕴含知识图谱构建方法及装置
CN112992301A (zh) * 2019-12-02 2021-06-18 金色熊猫有限公司 数据处理方法、装置、电子设备及存储介质
CN112992301B (zh) * 2019-12-02 2024-03-29 金色熊猫有限公司 数据处理方法、装置、电子设备及存储介质
CN111090990B (zh) * 2019-12-10 2024-02-02 中电健康云科技有限公司 一种医疗体检报告单文字识别及纠正方法
CN111090990A (zh) * 2019-12-10 2020-05-01 中电健康云科技有限公司 一种医疗体检报告单文字识别及纠正方法
CN110969021A (zh) * 2019-12-23 2020-04-07 竹间智能科技(上海)有限公司 单轮对话中的命名实体识别方法、装置、设备及介质
CN111160012A (zh) * 2019-12-26 2020-05-15 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111160012B (zh) * 2019-12-26 2024-02-06 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111611806B (zh) * 2020-05-06 2023-08-11 北京智通云联科技有限公司 一种用于知识图谱问答的语义解析方法、系统及设备
CN111611806A (zh) * 2020-05-06 2020-09-01 北京智通云联科技有限公司 一种用于知识图谱问答的语义解析方法、系统及设备
CN111611775A (zh) * 2020-05-14 2020-09-01 沈阳东软熙康医疗系统有限公司 一种实体识别模型生成方法、实体识别方法及装置、设备
CN111611775B (zh) * 2020-05-14 2023-07-18 沈阳东软熙康医疗系统有限公司 一种实体识别模型生成方法、实体识别方法及装置、设备
CN111797629A (zh) * 2020-06-23 2020-10-20 平安医疗健康管理股份有限公司 医疗文本数据的处理方法、装置、计算机设备和存储介质
CN111797629B (zh) * 2020-06-23 2022-07-29 平安医疗健康管理股份有限公司 医疗文本数据的处理方法、装置、计算机设备和存储介质
CN111832294A (zh) * 2020-06-24 2020-10-27 平安科技(深圳)有限公司 标注数据的选择方法、装置、计算机设备和存储介质
CN111832294B (zh) * 2020-06-24 2022-08-16 平安科技(深圳)有限公司 标注数据的选择方法、装置、计算机设备和存储介质
CN111949793A (zh) * 2020-08-13 2020-11-17 深圳市欢太科技有限公司 用户意图识别方法、装置及终端设备
CN111949793B (zh) * 2020-08-13 2024-02-27 深圳市欢太科技有限公司 用户意图识别方法、装置及终端设备
CN112101028A (zh) * 2020-08-17 2020-12-18 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及系统
CN112036154A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 基于问诊对话的电子病历生成方法、装置和计算机设备
CN112036154B (zh) * 2020-08-31 2023-05-23 康键信息技术(深圳)有限公司 基于问诊对话的电子病历生成方法、装置和计算机设备
CN112015900A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 医学属性知识图谱构建方法、装置、设备及介质
CN112015900B (zh) * 2020-09-07 2024-05-03 平安科技(深圳)有限公司 医学属性知识图谱构建方法、装置、设备及介质
CN112185572B (zh) * 2020-09-25 2024-03-01 志诺维思(北京)基因科技有限公司 一种肿瘤专病数据库构建系统、方法、电子设备和介质
CN112185572A (zh) * 2020-09-25 2021-01-05 志诺维思(北京)基因科技有限公司 一种肿瘤专病数据库构建系统、方法、电子设备和介质
CN112270181A (zh) * 2020-11-03 2021-01-26 北京明略软件系统有限公司 序列标注方法、系统、计算机可读存储介质及计算机设备
CN112507701A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 待纠错医疗数据的识别方法、装置、设备和存储介质
CN112507701B (zh) * 2020-11-30 2024-03-15 北京百度网讯科技有限公司 待纠错医疗数据的识别方法、装置、设备和存储介质
CN112420205A (zh) * 2020-12-08 2021-02-26 医惠科技有限公司 实体识别模型生成方法、装置及计算机可读存储介质
CN112749562A (zh) * 2020-12-31 2021-05-04 合肥工业大学 命名实体识别方法、装置、存储介质及电子设备
CN112686047A (zh) * 2021-01-21 2021-04-20 北京云上曲率科技有限公司 一种基于命名实体识别的敏感文本识别方法、装置、系统
CN112686047B (zh) * 2021-01-21 2024-03-29 北京云上曲率科技有限公司 一种基于命名实体识别的敏感文本识别方法、装置、系统
WO2022160454A1 (zh) * 2021-01-28 2022-08-04 平安科技(深圳)有限公司 医疗文献的检索方法、装置、电子设备及存储介质
CN113488196B (zh) * 2021-07-26 2023-04-07 西南交通大学 一种药品说明书文本命名实体识别建模方法
CN113488196A (zh) * 2021-07-26 2021-10-08 西南交通大学 一种药品说明书文本命名实体识别建模方法
CN114036950B (zh) * 2021-11-10 2024-05-10 山东大学 一种医疗文本命名实体识别方法及系统
CN114036950A (zh) * 2021-11-10 2022-02-11 山东大学 一种医疗文本命名实体识别方法及系统
CN114596931B (zh) * 2022-05-10 2022-08-02 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN115759097A (zh) * 2022-11-08 2023-03-07 广东数鼎科技有限公司 一种车型名称识别方法
CN116628509B (zh) * 2023-07-21 2023-12-01 科大讯飞股份有限公司 模型训练方法、装置、设备及存储介质
CN116628509A (zh) * 2023-07-21 2023-08-22 科大讯飞股份有限公司 模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107808124A (zh) 2018-03-16
CN107808124B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
WO2019071661A1 (zh) 电子装置、医疗文本实体命名的识别方法、系统及存储介质
CN108920453B (zh) 数据处理方法、装置、电子设备及计算机可读介质
Trivedi et al. Automatic determination of the need for intravenous contrast in musculoskeletal MRI examinations using IBM Watson’s natural language processing algorithm
AU2015336146B2 (en) Identification of codable sections in medical documents
US20190006027A1 (en) Automatic identification and extraction of medical conditions and evidences from electronic health records
Doan et al. Integrating existing natural language processing tools for medication extraction from discharge summaries
WO2021012878A1 (zh) 医疗领域知识图谱问答处理方法、装置、设备及存储介质
CN109524121B (zh) 医疗文件处理方法与装置
CN113707300B (zh) 基于人工智能的搜索意图识别方法、装置、设备及介质
CN111210917A (zh) 基于线下扫码的用药指导方法和系统
CN111199784A (zh) 基于微信小程序的用药指导推送方法、装置及设备
US11581073B2 (en) Dynamic database updates using probabilistic determinations
CN111221979A (zh) 药品知识图谱构建方法及系统
US20160267115A1 (en) Methods and Systems for Common Key Services
CN115148322A (zh) 临床医疗通用数据结构模型的临床数据储存方法和系统
CN108920661A (zh) 国际疾病分类标记方法、装置、计算机设备及存储介质
CN114913956A (zh) 基于知识图谱的重复用药提醒方法、装置以及电子设备
CN111177309A (zh) 病历数据的处理方法及装置
CN109299214B (zh) 文本信息提取方法、装置、介质及电子设备
Hom et al. Facilitating clinical research through automation: Combining optical character recognition with natural language processing
US11901052B2 (en) System and method for handling exceptions during healthcare record processing
CN111863173A (zh) 一种病历质量评估方法及计算设备
CN115293163A (zh) 一种画像方法、装置、设备和存储介质
Henriksson et al. Prevalence estimation of protected health information in Swedish clinical text
CN113221541A (zh) 一种数据提取方法及装置

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 24/06/2020)

122 Ep: pct application non-entry in european phase

Ref document number: 17928427

Country of ref document: EP

Kind code of ref document: A1