WO2015014156A1 - 一种药品名称数据匹配方法和系统 - Google Patents

一种药品名称数据匹配方法和系统 Download PDF

Info

Publication number
WO2015014156A1
WO2015014156A1 PCT/CN2014/079159 CN2014079159W WO2015014156A1 WO 2015014156 A1 WO2015014156 A1 WO 2015014156A1 CN 2014079159 W CN2014079159 W CN 2014079159W WO 2015014156 A1 WO2015014156 A1 WO 2015014156A1
Authority
WO
WIPO (PCT)
Prior art keywords
words
drug name
data
word
drug
Prior art date
Application number
PCT/CN2014/079159
Other languages
English (en)
French (fr)
Inventor
贾西贝
边旭
Original Assignee
深圳市华傲数据技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市华傲数据技术有限公司 filed Critical 深圳市华傲数据技术有限公司
Publication of WO2015014156A1 publication Critical patent/WO2015014156A1/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Definitions

  • the present application relates to the field of data matching technology, and in particular, to a method and system for matching drug name data. Background technique
  • the prior art proposes a record matching method, which mainly includes: first, segmenting the drug name data to obtain a name word; and then comparing the drug name data of the similar name word to the same name data group display by comparing algorithms To the operator.
  • an open source word segmentation tool is used to segment a drug name.
  • a common such as "pediatric compound lysine granule”
  • it can be divided into “pediatric I compound I lysine I granule”
  • Amo "Xilin sodium”
  • Xilin sodium is an uncommon drug name whose result is "I amoxirin I for injection”.
  • It is a chemical (amoxicillin sodium) that is divided into two chemical combinations (amoxicillin). I sodium)b This situation will cause confusion between "amoxicillin” and “amoxicillin sodium”, which will affect the final comparison.
  • the technical problem to be solved by the present application is to provide a method and device for matching drug name data, which can provide the same drug name data group for the drug name faster.
  • the present application discloses a method for matching drug name data.
  • the preset dictionary includes at least: a prefix word font, a component word font, a drug effect word font, and a dosage form font library;
  • the drug name tag data is generated by the comparison algorithm to generate the same drug name data set.
  • segmentation of the drug name data according to the preset dictionary to generate the drug name labeling data includes:
  • the drug name data is segmented according to the prefix word font, the component word font, the drug effect word font and the dosage form font included in the preset dictionary, and the formed drug name labeling data includes a prefix word, a component word, a drug effect word and a dosage form word.
  • the data of the drug name labeling data generated by the comparison algorithm generates the same drug name data group including:
  • the comparing and calculating the prefix word, the component word, the drug effect word and the dosage form word in the drug name labeling data according to the preset fixed comparison algorithm comprises:
  • the comparing and calculating the prefix word, the component word, the drug effect word and the dosage form word in the drug name labeling data according to the preset fixed comparison algorithm comprises:
  • the similarity between the component words and the pharmacodynamics of the two drug name labeling data is calculated.
  • the drug name data corresponding to the two bottle name labeling data is determined to be the same name data group.
  • the application also provides a drug name data matching device, comprising:
  • a word segmentation module configured to perform segmentation of the drug name data according to a preset dictionary to generate drug name tagging data
  • the preset dictionary includes at least: a prefix word font library, a component word font library, a drug effect word font library, and a dosage form word font
  • the comparison module is configured to generate the same drug name data group by using a comparison algorithm for the drug name tag data.
  • word segmentation module is used to:
  • the drug name data is segmented according to the prefix word font, the component word font, the drug effect word font and the dosage form font included in the preset dictionary, and the medicine name label data includes at least a prefix word, a component word, a drug effect word and a dosage form word. .
  • comparison module is configured to:
  • comparison module is configured to:
  • comparison module is used to:
  • the similarity between the component word and the drug effect word of the two drug name label data is calculated.
  • the drug name data corresponding to the two bottle name label data is determined to be the same name data group.
  • the present application includes the following advantages: the word name data is segmented by a preset dictionary, and the drug name tag data obtained by the word segmentation is compared and calculated to obtain the same name data group, and the same drug name data is obtained.
  • the success rate reduces the amount of calculation.
  • FIG. 1 is a flow chart of an embodiment of a method for matching drug name data according to the present invention
  • FIG. 2 is a flow chart of a dictionary perfecting method for an embodiment of a drug name data matching method according to the present invention
  • FIG. 3 is a schematic diagram of word segmentation in an embodiment of a method for matching drug name data according to the present invention.
  • Fig. 4 is a view showing the configuration of an embodiment of a drug name data matching device of the present invention. detailed description
  • the word segmentation step mainly uses the open source word segmentation tool to segment the drug name data, because the specificity of the drug name data and the open source word segmentation tool do not have a complete dictionary (relative to the drug name) Therefore, the drug name labeling data obtained by the common open source word segmentation tool is not accurate. Therefore, a complete dictionary relative to the drug name is crucial for the identification of the drug name.
  • a method for matching a drug name data will be disclosed in the embodiment of the present invention. Includes:
  • Step S101 Obtaining drug name data
  • the drug name data can be obtained directly from the database of the existing drug name data.
  • Step S102 Perform segmentation on the drug name data according to the preset dictionary to generate drug name tag data;
  • the preset dictionary includes at least: a prefix word font, a component word font, a pharmacodynamic word font, and a dosage form font library.
  • the drug name data is provided.
  • Four fonts including prefix word font, component word font, pharmacodynamic word font and dosage form font library; each of the four fonts holds as many words of the same type, and the differences between the four types of words are as follows:
  • Prefix word There is special prefix information in the drug name data.
  • the "complex" in the drug name of "Compound Glycyrrhiza Tablet” is the prefix of the specification
  • the "child” in "Xiaoer Qingreing Granule” is the applicable object.
  • these prefix words do play an important role in the name of the drug, but it is easy to cause confusion when identifying different drug names, such as "children compound lysine granules ⁇ pediatric compound honeysuckle granules" two prefix words and dosage forms with the same name It is easy to cause confusion when the machine is recognized, so in the embodiment of the present invention, similar prefix information words are extracted for special processing.
  • ingredient words In the drug name data, there are component words that identify drugs. These words often have strong recognition. For example, “children's compound lysine granules ⁇ pediatric compound honeysuckle granules” have the same words in the two names. However, the word “lysine ⁇ honeysuckle”, which really has the function of identifying drugs, is different. Therefore, the use of component words is to better identify the drug name, and the generalized record matching algorithm does not have this ability.
  • Dosage type words There are words in the drug name data that reflect the characteristics of the dosage form, which are called dosage forms. These words have special recognition functions: 1. Use this word to know the dosage form information of the medicine; 2. Can help identify the name of the medicine. Ingredients, such as "amoxicillin capsule", “capsule” is the dosage form of the drug name, and the former "amoxicillin” is the component word in the drug name.
  • the dictionary can be imported into the word segmentation tool to obtain all the strings that are not present in the dictionary (segments of consecutive unrecognized words), and the unidentified words are generated.
  • the document is submitted to the operator for word segmentation of unidentified words; the annotation information includes: dosage form words, other suffix words, prefix words, pharmacodynamic words, component words, and other recognition words.
  • the annotation information includes: dosage form words, other suffix words, prefix words, pharmacodynamic words, component words, and other recognition words.
  • alias tables Because there are often wrong spellings in drug name words (even if they exist in the SFDA data), it is necessary to make common misspellings into alias tables. For example, you can find "furosemide tablets” on the website of the SFDA. And “furosemide tablets”, that is, the simultaneous use of "furosemide” and “furosemide” in the business system refers to the same chemical substance.
  • the alias table can be obtained correspondingly to the process of labeling the unidentified word manual participle, and the process will not be described in detail.
  • Step S103 Generate the same drug name data group by using a comparison algorithm for the drug name tag data.
  • segmentation of the drug name data according to the preset dictionary to generate the drug name labeling data includes:
  • the drug name data is segmented according to the prefix word font, the component word font, the drug effect word font and the dosage form font included in the preset dictionary, and the formed drug name labeling data includes a prefix word, a component word, a drug effect word and a dosage form word.
  • the data of the drug name labeling data generated by the comparison algorithm generates the same drug name data group including:
  • the two drug name data to be compared are segmented by using the above dictionary, and referring to FIG. 3, the drug name tag data of the drug name is obtained, and the drug name tag data may be marked with "prefix word”;"componentword”; The words “,””otheridentifiers”,”dosagewords”,”othersuffixes”, then compare the two drug name label data to the corresponding label information, and only agree on each label information. It is counted as the same name, if the similarity of the two drug names is similar to 0-1. In the two sets of words corresponding to the "prefix word”, they are identical, otherwise they are inconsistent. In the two groups of words corresponding to the "component word”, the alias table should be used as a reference.
  • the component words are consistent, otherwise they are inconsistent.
  • the way to judge the agreement on the "dosage type" is similar to the component word, and it is necessary to refer to the correspondence between the dosage form and the dosage form information.
  • the content recognition method of "drug effect word ⁇ other recognition words ⁇ other suffix words” is consistent with the "prefix word” recognition method.
  • the comparing and calculating the prefix word, the component word, the drug effect word and the dosage form in the drug name labeling data according to the preset fixed comparison algorithm may adopt the following method:
  • fuzzy comparison method in A can be used in the comparison process between B and C.
  • the drug name data is segmented by the preset dictionary, and the drug name tag data obtained by the segmentation is compared and calculated to obtain the same name data group, which improves the success rate of the same drug name data acquisition, and reduces the calculation amount.
  • the description is relatively simple, and the relevant parts can be referred to the description of the method embodiment.
  • a drug name data matching device includes: an obtaining module 41, configured to obtain drug name data;
  • the word segmentation module 42 is configured to perform segmentation of the drug name data according to the preset dictionary to generate drug name tagging data;
  • the preset dictionary includes at least: a prefix word font library, a component word font library, a pharmacodynamic word font library, and a dosage form word font;
  • the comparison module 43 is configured to generate the same drug name data group by using a comparison algorithm for the drug name tag data.
  • word segmentation module 42 is used to:
  • Deriving the drug name data according to the prefix word font, the component word font, the drug effect word font and the dosage form font included in the preset dictionary, and the medicine name labeling data is at least Prefix words, component words, pharmacodynamics, and dosage forms.
  • the word segmentation module 42 divides the two drug name data to be compared by using the above dictionary to obtain the drug name tag data of the drug name, and the drug name tag data can be marked with the "prefix word” component word;
  • the information of the "other identifier" dosage form "other suffix words”, and then the comparison module 43 compares the two drug name labeling data on the corresponding labeling information, and only agrees on the labeling information to be regarded as the name.
  • the similarity of the two drug names is similar to 0-1, the two groups of words corresponding to the "prefix word” are identical, otherwise they are inconsistent.
  • comparison module 43 is further configured to:
  • comparison module 43 is further configured to:
  • comparison module 43 is also used to:
  • the similarity between the component word and the drug effect word of the two drug name label data is calculated.
  • the drug name data corresponding to the two bottle name label data is determined to be the same name data group.
  • the comparison module 43 can ignore the prefix word and other suffix words if the compound word, the drug effect word, and the dosage form are compared at the same time when comparing and calculating the drug name tag data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种药品名称数据匹配方法,包括:获取药品名称数据;根据预置字典对所述药品名称数据进行分词生成药品名称标注数据;所述预置字典至少包括:前缀词字库、成分词字库、药效词字库和剂型词字库;对所述药品名称标注数据通过比较算法生成相同药品名称数据组。实施例还提供了对应的装置,通过预置字典对药品名称数据进行分词,将分词获得的药品名称标注数据进行比较计算,以获取相同名称数据组,提高了相同药品名称数据获取的成功率,减少了计算量。

Description

一种药品名称数据匹配方法和系统
技术领域
本申请涉及数据匹配技术领域,特别是涉及一种药品名称数据 匹配方法和系统。 背景技术
在医药行业中 ,存在大量的医药名称,可能同一类型的药因为剂 量、药名等细微的差异会产生大量数据,事实上企业很难确保其所积 累数据的质量,其原因是多种多样的,如:录入错误、 完整性约束缺 失、 信息的多种描述方式等。在一些医药批发等类似行业中 ,需要对 药品的名称进行确切识别,以方便用户获知同类型药品。
为了解决上述应用中的问题,现有技术提出一种记录匹配方法, 主要包括:首先对药品名称数据进行分词获取名称词;然后将相近名 称词的药品名称数据经过比较算法获得相同名称数据组展示给操作 员。现有技术中利用开源的分词工具对药品名称进行分词,对于常见 的如"小儿复方赖氨酸颗粒 "确实可以分为"小儿 I复方 I赖氨酸 I颗粒",可 是对于 "注射用阿莫西林钠 "这种不常见的药品名称,其分词结果为"注 射用 I阿莫西林 I钠"将原本是一种化学物质(阿莫西林钠)分成了两种 化学物质的组合(阿莫西林 I钠)b 这种情况将导致"阿莫西林"与"阿莫 西林钠"这两种化学物质混淆,影响最终的比较结果。
在现有的技术方案中 ,由于在分词过程中多半采用固定分词方式 难以获取针对药品名称数据精确的特征词,以至于无法精确比较,无 法完成对药品名称数据的相同类型确定。 发明内容
本申请所要解决的技术问题是提供一种药品名称数据匹配方法 和装置,能够针对药品名称更快的提供相同药品名称数据组。
为了解决上述问题,本申请公开了一种药品名称数据匹配方法 , 包括:
获取药品名称数据;
根据预置字典对所述药品名称数据进行分词生成药品名称标注 数据;所述预置字典至少包括:前缀词字库、 成分词字库、 药效词字 库和剂型词字库;
对所述药品名称标注数据通过比较算法生成相同药品名称数据 组。
进一步,所述根据预置字典对所述药品名称数据进行分词生成药 品名称标注数据包括:
根据预置字典中包含的前缀词字库、成分词字库、药效词字库和 剂型词字库对药品名称数据进行分词,形成的药品名称标注数据包括 前缀词、 成分词、 药效词和剂型词。
进一步,所述对药品名称标注数据通过比较算法生成相同药品名 称数据组包括:
根据预置固定比较算法对所述药品名称标注数据中的前缀词、成 分词、药效词和剂型词计算相似度,当所述相似度超过阈值的药品名 称标注数据对应的药品名称数据判定为相同名称数据组。
进一步,所述根据预置固定比较算法对所述药品名称标注数据中 的前缀词、 成分词、 药效词和剂型词进行比较计算包括:
计算两个药品名称标注数据的前缀词、剂型词和其他后缀词相似 度,当所述相似度达到或超过预定阈值,且判断其中一个药品标注数 据中的其他识别词与另一个药品名称中的成分词或药效词或其他识 别词通过拼音模糊匹配合格,则判定所述两个药品名称标注数据是模 糊相同。
进一步,所述根据预置固定比较算法对所述药品名称标注数据中 的前缀词、 成分词、 药效词和剂型词进行比较计算包括:
计算两个药品名称标注数据的成分词和药效词相似度,当所述相 似度为完全相同时,判定所述两个药瓶名称标注数据对应的药品名称 数据为相同名称数据组。 本申请还提供了一种药品名称数据匹配装置,包括:
获取模块,用于获取药品名称数据;
分词模块,用于根据预置字典对所述药品名称数据进行分词生成 药品名称标注数据;所述预置字典至少包括:前缀词字库、 成分词字 库、 药效词字库和剂型词字库;
比较模块,用于对所述药品名称标注数据通过比较算法生成相同 药品名称数据组。
进一步,所述分词模块用于:
根据预置字典中包含的前缀词字库、成分词字库、药效词字库和 剂型词字库对药品名称数据进行分词,所述药品名称标注数据至少包 括前缀词、 成分词、 药效词和剂型词。
进一步,所述比较模块用于:
根据预置固定比较算法对所述药品名称标注数据中的前缀词、成 分词、药效词和剂型词计算相似度,当所述相似度超过阈值的药品名 称标注数据对应的药品名称数据判定为相同名称数据组。
进一步,所述比较模块用于:
计算两个药品名称标注数据的前缀词、剂型词和其他后缀词相似 度,当所述相似度达到或超过预定阈值,且判断其中一个药品标注数 据中的其他识别词与另一个药品名称中的成分词或药效词或其他识 别词通过拼音模糊匹配合格,则判定所述两个药品名称标注数据是模 糊相同。
进一步,所比较模块用于:
计算两个药品名称标注数据的成分词和药效词相似度,当所述相 似度为完全相同时,判定所述两个药瓶名称标注数据对应的药品名称 数据为相同名称数据组。
与现有技术相比,本申请包括以下优点:通过预置字典对药品名 称数据进行分词,将分词获得的药品名称标注数据进行比较计算,以 获取相同名称数据组,提高了相同药品名称数据获取的成功率,减少 了计算量。 附图说明
图 1是本发明一种药品名称数据匹配方法一实施例的流程图 ; 图 2 是本发明一种药品名称数据匹配方法一实施例中字典完善 流程;
图 3 是本发明一种药品名称数据匹配方法一实施例中分词示意 图 ;
图 4 是本发明一种药品名称数据匹配装置一实施例的结构示意 图。 具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结 合附图和具体实施方式对本申请作进一步详细的说明。
参照图 1 ,示出了本申请一种药品名称数据匹配方法。
现有的药品名称数据的匹配方法中 ,针对分词步骤主要利用开源 的分词工具对药品名称数据进行分词,由于药品名称数据的特殊性和 开源的分词工具并不具备完整字典(相对于药品名称来说), 因此通 过常见开源的分词工具进行分词获取的药品名称标注数据并不精确, 因此,一个相对于药品名称来说完整的字典对于药品名称的识别是至 关重要的。在本发明实施例中将公开一种药品名称数据匹配方法。包 括:
步骤 S101、 获取药品名称数据;
本发明实施例可以直接从现有保存药品名称数据的数据库中获 取药品名称数据。
步骤 S102、 根据预置字典对所述药品名称数据进行分词生成药 品名称标注数据;所述预置字典至少包括:前缀词字库、成分词字库、 药效词字库和剂型词字库。
在本发明实施例中预置的字典中针对药品名称数据提供了至少 四个字库,包括前缀词字库、成分词字库、药效词字库和剂型词字库; 四个字库中分别保存了尽量多的同类型的词 ,其中对四个类型的词区 别如下:
前缀词 :在药品名称数据中存在特殊的前缀信息,如"复方甘草 片"这个药品名称中的"复方"就是体现规格的前缀、"小儿清热宁颗粒" 中的"小儿"就是体现适用对象的前缀,这些前缀词在药品名称中确实 担任重要作用 ,但在识别不同药品名称的时候容易造成混淆,如"小 儿复方赖氨酸颗粒 Γ小儿复方金银花颗粒 "两个名称相同的前缀词与 剂型词很容易造成机器识别时候的混淆,因此在本发明实施例中将类 似的前缀信息词提取出来做特殊处理。
成分词 :在药品名称数据中 ,存在标识药品的成分词 ,这些词往 往具有较强的辨识度,如"小儿复方赖氨酸颗粒 Γ小儿复方金银花颗 粒"两个名称中虽然相同的字很多,可是真正具有标识药品作用的成 分词"赖氨酸 Γ金银花 "却是不同的, 因此使用成分词是为了更好的识 别药品名称,通用化的记录匹配算法并不具备这种能力。
药效词 :有的药品名称命名时并不是使用药品的成分,而是利用 药品的功效来命名的 ,如"感冒清热颗粒 "中的 "感冒清热"就是用来表 征该药物的药效,而且药物名称数据中的药效词具有较强的辨识度
(如同成分词),可以用来识别药品名称。
剂型词 :在药品名称数据中存在体现剂型特征的词 ,称之为剂型 词,这些词具有特殊的识别作用 : 1.利用该词可以获知药品的剂型信 息; 2. 能够辅助识别药品名称中的成分,如"阿莫西林胶囊 "中"胶囊" 是药品名称的剂型词 ,前面的 "阿莫西林"则是药品名称中的成分词。
参照图 2 ,利用字典对药品名称数据进行分词时,可以将字典导 入到分词工具中获得所有不存在于字典中的字串(连续未识别字的片 段),产生未识别词的文档,将该文档提交给操作员对未识别词进行 分词标注;其标注信息包括:剂型词、其他后缀词、前缀词、药效词、 成分词、 其他识别词。 可以在处理一定量的数据(建议初识时为 200 后续迭代逐步增多)后,将新标注的词加入到字典中 ,利用新的字典 重新对药品名称数据进行分词,重复该过程即可得到最终的字典。 由于药品名称词中往往存在错误的拼写(即使药监局的数据中同 样存在), 因此有必要将常见的错误拼写组成别名表如:药监局网站 上可以同时查到"呋噻米片"和"呋塞米片",即在业务系统中同时使用 "呋噻米"和"呋塞米 "指代同一种化学物质。 该别名表可以随着对未识 别词人工分词标注的过程相应获得,不再详细描述该过程。
步骤 S103、 对所述药品名称标注数据通过比较算法生成相同药 品名称数据组。
进一步,所述根据预置字典对所述药品名称数据进行分词生成药 品名称标注数据包括:
根据预置字典中包含的前缀词字库、成分词字库、药效词字库和 剂型词字库对药品名称数据进行分词,形成的药品名称标注数据包括 前缀词、 成分词、 药效词和剂型词。
进一步,所述对药品名称标注数据通过比较算法生成相同药品名 称数据组包括:
根据预置固定比较算法对所述药品名称标注数据中的前缀词、成 分词、药效词和剂型词计算相似度,当所述相似度超过阈值的药品名 称标注数据对应的药品名称数据判定为相同名称数据组。
将待比较的两个药品名称数据利用上述字典对其分词,参照图 3 , 获得药品名称的药品名称标注数据,所述药品名称标注数据可以标注 "前缀词 '; "成分词 '; "药效词 "、 "其他识别词 "、 "剂型词 "、 "其他后缀词 "这样 的信息,然后将两个药品名称标注数据分别在对应标注信息上进行比 较,只有在各标注信息上都达成一致才能算作是名称相同,若两个药 品名称的相似度为 0-1的相似。 在"前缀词 "对应的两组词上,完全相 同则一致,否则不一致。 在"成分词 "对应的两组词上,要利用别名表 作为参照,如果完全相同或属于别名关系则成分词一致,否则不一致。 在"剂型词 "上判断一致的方式与成分词类似,需要参考剂型词与剂型 信息的对应关系。"药效词 Γ其他识别词 Γ其他后缀词"的内容识别方 式与"前缀词 "识别方式一致。 进一步,所述根据预置固定比较算法对所述药品名称标注数据中 的前缀词、成分词、药效词和剂型词进行比较计算可以采用如下方法:
A、 计算两个药品名称标注数据的前缀词、 剂型词和其他后缀词 相似度,当所述相似度达到或超过预定阈值,且判断其中一个药品标 注数据中的其他识别词与另一个药品名称中的成分词或药效词或其 他识别词通过拼音模糊匹配合格,则判定所述两个药品名称标注数据 是模糊相同。
B、 计算两个药品名称标注数据的成分词和药效词相似度, 当所 述相似度为完全相同时,判定所述两个药瓶名称标注数据对应的药品 名称数据为相同名称数据组。
C、 药品名称标注数据比较若同时比较计算成分词、 药效词、 剂 型词 ,则可以忽略前缀词、 其他后缀词。
值得注意的是在 B和 C的比较过程中都可以利用 A中的模糊比 较方法。
本发明实施例中通过预置字典对药品名称数据进行分词 ,将分词 获得的药品名称标注数据进行比较计算,以获取相同名称数据组,提 高了相同药品名称数据获取的成功率,减少了计算量。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述 的比较简单,相关之处参见方法实施例的部分说明即可。
如图 4所述为本发明提供的一种药品名称数据匹配装置,包括: 获取模块 41 ,用于获取药品名称数据;
分词模块 42 ,用于根据预置字典对所述药品名称数据进行分词 生成药品名称标注数据;所述预置字典至少包括:前缀词字库、 成分 词字库、 药效词字库和剂型词字库;
比较模块 43 ,用于对所述药品名称标注数据通过比较算法生成 相同药品名称数据组。
进一步,所述分词模块 42用于:
根据预置字典中包含的前缀词字库、成分词字库、药效词字库和 剂型词字库对药品名称数据进行分词,所述药品名称标注数据至少包 括前缀词、 成分词、 药效词和剂型词。
所述分词模块 42将待比较的两个药品名称数据利用上述字典对 其分词,获得药品名称的药品名称标注数据,所述药品名称标注数据 可以标注"前缀词 "成分词'; "药效词 "其他识别词 "剂型词 "其他后缀 词"这样的信息,然后比较模块 43将两个药品名称标注数据分别在对 应标注信息上进行比较,只有在各标注信息上都达成一致才能算作是 名称相同 ,若两个药品名称的相似度为 0-1的相似。 在"前缀词 "对应 的两组词上,完全相同则一致,否则不一致。 在"成分词 "对应的两组 词上,要利用别名表作为参照,如果完全相同或属于别名关系则成分 词一致,否则不一致。 在"剂型词 "上判断一致的方式与成分词类似, 需要参考剂型词与剂型信息的对应关系。"药效词 Γ其他识别词 Γ其他 后缀词 "的内容识别方式与 "前缀词"识别方式一致。
进一步,所述比较模块 43还用于:
根据预置固定比较算法对所述药品名称标注数据中的前缀词、成 分词、药效词和剂型词计算相似度,当所述相似度超过阈值的药品名 称标注数据对应的药品名称数据判定为相同名称数据组。
进一步,所述比较模块 43还用于:
计算两个药品名称标注数据的前缀词、剂型词和其他后缀词相似 度,当所述相似度达到或超过预定阈值,且判断其中一个药品标注数 据中的其他识别词与另一个药品名称中的成分词或药效词或其他识 别词通过拼音模糊匹配合格,则判定所述两个药品名称标注数据是模 糊相同。
进一步,所比较模块 43还用于:
计算两个药品名称标注数据的成分词和药效词相似度,当所述相 似度为完全相同时,判定所述两个药瓶名称标注数据对应的药品名称 数据为相同名称数据组。
比较模块 43在进行药品名称标注数据比较计算时,若同时比较 计算成分词、 药效词、 剂型词,则可以忽略前缀词、 其他后缀词。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重 点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的 部分互相参见即可。
以上对本申请所提供的一种药品名称数据匹配方法和装置,进行 了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行 了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心 思想;同时,对于本领域的一般技术人员 ,依据本申请的思想,在具 体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容 不应理解为对本申请的限制。

Claims

1、 一种药品名称数据匹配方法,其特征在于,包括: 获取药品名称数据;
根据预置字典对所述药品名称数据进行分词生成药品名称标注 数据;所述预置字典至少包括:前缀词字库、 成分词字库、 药效词字 库和剂型词字库;
对所述药品名称标注数据通过比较算法生成相同药品名称数据 组。
2、 根据权利要求 1所述的方法,其特征在于,所述根据预置字 典对所述药品名称数据进行分词生成药品名称标注数据包括:
根据预置字典中包含的前缀词字库、成分词字库、药效词字库和 剂型词字库对药品名称数据进行分词,形成的药品名称标注数据包括 前缀词、 成分词、 药效词和剂型词。
3、 根据权利要求 2所述的方法,其特征在于,所述对药品名称 标注数据通过比较算法生成相同药品名称数据组包括:
根据预置固定比较算法对所述药品名称标注数据中的前缀词、成 分词、药效词和剂型词计算相似度,当所述相似度超过阈值的药品名 称标注数据对应的药品名称数据判定为相同名称数据组。
4、 根据权利要求 3所述的方法,其特征在于,所述根据预置固 定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和 剂型词进行比较计算包括:
计算两个药品名称标注数据的前缀词、剂型词和其他后缀词相似 度,当所述相似度达到或超过预定阈值,且判断其中一个药品标注数 据中的其他识别词与另一个药品名称中的成分词或药效词或其他识 别词通过拼音模糊匹配合格,则判定所述两个药品名称标注数据是模 糊相同。
5、 根据权利要求 3所述的方法,其特征在于,所述根据预置固 定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和 剂型词进行比较计算包括:
计算两个药品名称标注数据的成分词和药效词相似度,当所述相 似度为完全相同时,判定所述两个药瓶名称标注数据对应的药品名称 数据为相同名称数据组。
6、 一种药品名称数据匹配装置,其特征在于,包括:
获取模块,用于获取药品名称数据;
分词模块 42 ,用于根据预置字典对所述药品名称数据进行分词 生成药品名称标注数据;所述预置字典至少包括:前缀词字库、 成分 词字库、 药效词字库和剂型词字库;
比较模块,用于对所述药品名称标注数据通过比较算法生成相同 药品名称数据组。
7、 根据权利要求 6所述的装置,其特征在于,所述分词模块 42 用于:
根据预置字典中包含的前缀词字库、成分词字库、药效词字库和 剂型词字库对药品名称数据进行分词,所述药品名称标注数据至少包 括前缀词、 成分词、 药效词和剂型词。
8、 根据权利要求 7所述的装置,其特征在于,所述比较模块用 于:
根据预置固定比较算法对所述药品名称标注数据中的前缀词、成 分词、药效词和剂型词计算相似度,当所述相似度超过阈值的药品名 称标注数据对应的药品名称数据判定为相同名称数据组。
9、 根据权利要求 8所述的装置,其特征在于,所述比较模块用 于:
计算两个药品名称标注数据的前缀词、剂型词和其他后缀词相似 度,当所述相似度达到或超过预定阈值,且判断其中一个药品标注数 据中的其他识别词与另一个药品名称中的成分词或药效词或其他识 别词通过拼音模糊匹配合格,则判定所述两个药品名称标注数据是模 糊相同。
10、根据权利要求 8所述的装置,其特征在于,所比较模块用于: 计算两个药品名称标注数据的成分词和药效词相似度,当所述相 似度为完全相同时,判定所述两个药瓶名称标注数据对应的药品名称 数据为相同名称数据组。
PCT/CN2014/079159 2013-07-31 2014-06-04 一种药品名称数据匹配方法和系统 WO2015014156A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310344291.1 2013-07-31
CN201310344291.1A CN104268137A (zh) 2013-07-31 2013-07-31 一种药品名称数据匹配方法和装置

Publications (1)

Publication Number Publication Date
WO2015014156A1 true WO2015014156A1 (zh) 2015-02-05

Family

ID=52159659

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/079159 WO2015014156A1 (zh) 2013-07-31 2014-06-04 一种药品名称数据匹配方法和系统

Country Status (2)

Country Link
CN (1) CN104268137A (zh)
WO (1) WO2015014156A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294378A (zh) * 2015-05-18 2017-01-04 腾讯科技(深圳)有限公司 应用识别方法和装置
CN104978400A (zh) * 2015-06-04 2015-10-14 无锡天脉聚源传媒科技有限公司 一种视频专辑名称的生成方法及装置
CN104978403B (zh) * 2015-06-04 2018-08-24 无锡天脉聚源传媒科技有限公司 一种视频专辑名称的生成方法及装置
CN105184052B (zh) * 2015-08-13 2018-02-16 易保互联医疗信息科技(北京)有限公司 一种药品信息的自动编码方法及系统
CN105068994B (zh) * 2015-08-13 2018-04-17 易保互联医疗信息科技(北京)有限公司 一种药品信息的自然语言处理方法及系统
CN107590146A (zh) * 2016-07-06 2018-01-16 北京搜狗科技发展有限公司 一种药方匹配方法和装置、一种用于药方匹配的装置
CN106777962A (zh) * 2016-12-13 2017-05-31 天津迈沃医药技术股份有限公司 一种医疗信息平台信息分析利用方法及系统
CN107818124B (zh) * 2017-03-03 2020-07-14 平安医疗健康管理股份有限公司 数据匹配方法及装置
CN107766395B (zh) * 2017-03-03 2020-12-25 平安医疗健康管理股份有限公司 数据匹配方法和装置
CN108875062B (zh) * 2018-06-26 2021-07-23 北京奇艺世纪科技有限公司 一种重复视频的确定方法及装置
CN109165326A (zh) * 2018-08-16 2019-01-08 蜜小蜂智慧(北京)科技有限公司 一种字符串匹配方法及装置
CN109841268A (zh) * 2019-01-18 2019-06-04 杭州逸曜信息技术有限公司 一种过敏信息的处理方法
CN110289058A (zh) * 2019-06-06 2019-09-27 北京市天元网络技术股份有限公司 一种电子病历规范化匹配方法以及装置
JP7436213B2 (ja) 2019-07-11 2024-02-21 聡子 鈴木 医薬品名称特定システム、医薬品名称特定方法、処理装置、及びコンピュータプログラム
CN111198887B (zh) * 2019-12-31 2021-02-26 北京左医健康技术有限公司 药品索引方法、药品检索方法及系统
CN111475686A (zh) * 2020-03-17 2020-07-31 平安科技(深圳)有限公司 一种药品分类方法、装置、存储介质和智能设备
CN112463895B (zh) * 2020-12-01 2024-06-11 零氪科技(北京)有限公司 基于药物名称挖掘自动发现药物成分的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN101221632A (zh) * 2007-01-12 2008-07-16 科达制药股份有限公司 药品调剂检核系统及其方法
CN101388023A (zh) * 2008-09-12 2009-03-18 北京搜狗科技发展有限公司 电子地图兴趣点数据冗余检测方法和系统
CN103177087A (zh) * 2013-03-08 2013-06-26 浙江大学 一种基于概率主题模型的相似中药检索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7529718B2 (en) * 2000-08-14 2009-05-05 Christophe Gerard Lambert Fast computer data segmenting techniques
CN101118562A (zh) * 2006-08-21 2008-02-06 凌强 中医临床参考系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221632A (zh) * 2007-01-12 2008-07-16 科达制药股份有限公司 药品调剂检核系统及其方法
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN101388023A (zh) * 2008-09-12 2009-03-18 北京搜狗科技发展有限公司 电子地图兴趣点数据冗余检测方法和系统
CN103177087A (zh) * 2013-03-08 2013-06-26 浙江大学 一种基于概率主题模型的相似中药检索方法

Also Published As

Publication number Publication date
CN104268137A (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
WO2015014156A1 (zh) 一种药品名称数据匹配方法和系统
WO2020253725A1 (zh) 一种药品推荐方法、电子设备和计算机可读存储介质
WO2017097166A1 (zh) 识别领域命名实体的方法及装置
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN109408631B (zh) 药品数据处理方法、装置、计算机设备和存储介质
Freifeld et al. Digital drug safety surveillance: monitoring pharmaceutical products in twitter
CN107783950B (zh) 药品说明书处理方法及装置
WO2021184729A1 (zh) 一种药品分类方法、装置、存储介质和智能设备
JP5937601B2 (ja) 動的構造化文書コーパスの構造化探索
CN112015900B (zh) 医学属性知识图谱构建方法、装置、设备及介质
CN108108426B (zh) 自然语言提问的理解方法、装置及电子设备
Levin et al. Extraction and mapping of drug names from free text to a standardized nomenclature
WO2023029513A1 (zh) 基于人工智能的搜索意图识别方法、装置、设备及介质
AU2019422006B2 (en) Disambiguation of massive graph databases
CN106682209A (zh) 一种跨语言科技文献检索方法及系统
WO2022147908A1 (zh) 基于表关联的丢失数据回收方法、装置、设备及介质
Zhang et al. Finding communities with hierarchical semantics by distinguishing general and specialized topics
Zhao et al. Validation of an algorithm to evaluate the appropriateness of outpatient antibiotic prescribing using big data of Chinese diagnosis text
EP2771813A1 (en) Aligning annotation of fields of documents
Peters et al. An approximate matching method for clinical drug names
CN112199494A (zh) 医疗信息搜索方法、装置、电子设备及存储介质
Attardi et al. UniPi: Recognition of mentions of disorders in clinical text
Kanjanawattana et al. A proposal for a method of graph ontology by automatically extracting relationships between captions and X-and Y-axis titles
TW201621800A (zh) 申請專利範圍之解構分析方法
WO2017206604A1 (zh) 一种数据推荐的处理交互方法、装置及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14831733

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14831733

Country of ref document: EP

Kind code of ref document: A1