WO2015014156A1

WO2015014156A1 - 一种药品名称数据匹配方法和系统

Info

Publication number: WO2015014156A1
Application number: PCT/CN2014/079159
Authority: WO
Inventors: 贾西贝; 边旭
Original assignee: 深圳市华傲数据技术有限公司
Priority date: 2013-07-31
Filing date: 2014-06-04
Publication date: 2015-02-05
Also published as: CN104268137A

Abstract

一种药品名称数据匹配方法，包括：获取药品名称数据；根据预置字典对所述药品名称数据进行分词生成药品名称标注数据；所述预置字典至少包括：前缀词字库、成分词字库、药效词字库和剂型词字库；对所述药品名称标注数据通过比较算法生成相同药品名称数据组。实施例还提供了对应的装置，通过预置字典对药品名称数据进行分词，将分词获得的药品名称标注数据进行比较计算，以获取相同名称数据组，提高了相同药品名称数据获取的成功率，减少了计算量。

Description

一种药品名称数据匹配方法和系统

技术领域

本申请涉及数据匹配技术领域，特别是涉及一种药品名称数据匹配方法和系统。背景技术

在医药行业中，存在大量的医药名称，可能同一类型的药因为剂量、药名等细微的差异会产生大量数据，事实上企业很难确保其所积累数据的质量，其原因是多种多样的，如：录入错误、完整性约束缺失、信息的多种描述方式等。在一些医药批发等类似行业中，需要对药品的名称进行确切识别，以方便用户获知同类型药品。

为了解决上述应用中的问题，现有技术提出一种记录匹配方法，主要包括：首先对药品名称数据进行分词获取名称词；然后将相近名称词的药品名称数据经过比较算法获得相同名称数据组展示给操作员。现有技术中利用开源的分词工具对药品名称进行分词，对于常见的如"小儿复方赖氨酸颗粒 "确实可以分为"小儿 I复方 I赖氨酸 I颗粒"，可是对于 "注射用阿莫西林钠 "这种不常见的药品名称，其分词结果为"注射用 I阿莫西林 I钠"将原本是一种化学物质（阿莫西林钠）分成了两种化学物质的组合（阿莫西林 I钠）b 这种情况将导致"阿莫西林"与"阿莫西林钠"这两种化学物质混淆，影响最终的比较结果。

在现有的技术方案中，由于在分词过程中多半采用固定分词方式难以获取针对药品名称数据精确的特征词，以至于无法精确比较，无法完成对药品名称数据的相同类型确定。发明内容

本申请所要解决的技术问题是提供一种药品名称数据匹配方法和装置，能够针对药品名称更快的提供相同药品名称数据组。

为了解决上述问题，本申请公开了一种药品名称数据匹配方法 , 包括：

获取药品名称数据；

根据预置字典对所述药品名称数据进行分词生成药品名称标注数据；所述预置字典至少包括：前缀词字库、成分词字库、药效词字库和剂型词字库；

对所述药品名称标注数据通过比较算法生成相同药品名称数据组。

进一步，所述根据预置字典对所述药品名称数据进行分词生成药品名称标注数据包括：

根据预置字典中包含的前缀词字库、成分词字库、药效词字库和剂型词字库对药品名称数据进行分词，形成的药品名称标注数据包括前缀词、成分词、药效词和剂型词。

进一步，所述对药品名称标注数据通过比较算法生成相同药品名称数据组包括：

根据预置固定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和剂型词计算相似度，当所述相似度超过阈值的药品名称标注数据对应的药品名称数据判定为相同名称数据组。

进一步，所述根据预置固定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和剂型词进行比较计算包括：

计算两个药品名称标注数据的前缀词、剂型词和其他后缀词相似度，当所述相似度达到或超过预定阈值，且判断其中一个药品标注数据中的其他识别词与另一个药品名称中的成分词或药效词或其他识别词通过拼音模糊匹配合格，则判定所述两个药品名称标注数据是模糊相同。

计算两个药品名称标注数据的成分词和药效词相似度，当所述相似度为完全相同时，判定所述两个药瓶名称标注数据对应的药品名称数据为相同名称数据组。本申请还提供了一种药品名称数据匹配装置，包括：

获取模块，用于获取药品名称数据；

分词模块，用于根据预置字典对所述药品名称数据进行分词生成药品名称标注数据；所述预置字典至少包括：前缀词字库、成分词字库、药效词字库和剂型词字库；

比较模块，用于对所述药品名称标注数据通过比较算法生成相同药品名称数据组。

进一步，所述分词模块用于：

根据预置字典中包含的前缀词字库、成分词字库、药效词字库和剂型词字库对药品名称数据进行分词，所述药品名称标注数据至少包括前缀词、成分词、药效词和剂型词。

进一步，所述比较模块用于：

进一步，所比较模块用于：

计算两个药品名称标注数据的成分词和药效词相似度，当所述相似度为完全相同时，判定所述两个药瓶名称标注数据对应的药品名称数据为相同名称数据组。

与现有技术相比，本申请包括以下优点：通过预置字典对药品名称数据进行分词，将分词获得的药品名称标注数据进行比较计算，以获取相同名称数据组，提高了相同药品名称数据获取的成功率，减少了计算量。附图说明

图 1是本发明一种药品名称数据匹配方法一实施例的流程图；图 2 是本发明一种药品名称数据匹配方法一实施例中字典完善流程；

图 3 是本发明一种药品名称数据匹配方法一实施例中分词示意图；

图 4 是本发明一种药品名称数据匹配装置一实施例的结构示意图。具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图 1 ,示出了本申请一种药品名称数据匹配方法。

现有的药品名称数据的匹配方法中，针对分词步骤主要利用开源的分词工具对药品名称数据进行分词，由于药品名称数据的特殊性和开源的分词工具并不具备完整字典（相对于药品名称来说），因此通过常见开源的分词工具进行分词获取的药品名称标注数据并不精确，因此，一个相对于药品名称来说完整的字典对于药品名称的识别是至关重要的。在本发明实施例中将公开一种药品名称数据匹配方法。包括：

步骤 S101、获取药品名称数据；

本发明实施例可以直接从现有保存药品名称数据的数据库中获取药品名称数据。

步骤 S102、根据预置字典对所述药品名称数据进行分词生成药品名称标注数据；所述预置字典至少包括：前缀词字库、成分词字库、药效词字库和剂型词字库。

在本发明实施例中预置的字典中针对药品名称数据提供了至少四个字库，包括前缀词字库、成分词字库、药效词字库和剂型词字库；四个字库中分别保存了尽量多的同类型的词，其中对四个类型的词区别如下：

前缀词：在药品名称数据中存在特殊的前缀信息，如"复方甘草片"这个药品名称中的"复方"就是体现规格的前缀、"小儿清热宁颗粒" 中的"小儿"就是体现适用对象的前缀，这些前缀词在药品名称中确实担任重要作用，但在识别不同药品名称的时候容易造成混淆，如"小儿复方赖氨酸颗粒 Γ小儿复方金银花颗粒 "两个名称相同的前缀词与剂型词很容易造成机器识别时候的混淆，因此在本发明实施例中将类似的前缀信息词提取出来做特殊处理。

成分词：在药品名称数据中，存在标识药品的成分词，这些词往往具有较强的辨识度，如"小儿复方赖氨酸颗粒 Γ小儿复方金银花颗粒"两个名称中虽然相同的字很多，可是真正具有标识药品作用的成分词"赖氨酸 Γ金银花 "却是不同的，因此使用成分词是为了更好的识别药品名称，通用化的记录匹配算法并不具备这种能力。

药效词：有的药品名称命名时并不是使用药品的成分，而是利用药品的功效来命名的，如"感冒清热颗粒 "中的 "感冒清热"就是用来表征该药物的药效，而且药物名称数据中的药效词具有较强的辨识度

(如同成分词），可以用来识别药品名称。

剂型词：在药品名称数据中存在体现剂型特征的词，称之为剂型词，这些词具有特殊的识别作用： 1.利用该词可以获知药品的剂型信息； 2. 能够辅助识别药品名称中的成分，如"阿莫西林胶囊 "中"胶囊" 是药品名称的剂型词，前面的 "阿莫西林"则是药品名称中的成分词。

参照图 2 ,利用字典对药品名称数据进行分词时，可以将字典导入到分词工具中获得所有不存在于字典中的字串（连续未识别字的片段），产生未识别词的文档，将该文档提交给操作员对未识别词进行分词标注；其标注信息包括：剂型词、其他后缀词、前缀词、药效词、成分词、其他识别词。可以在处理一定量的数据（建议初识时为 200 后续迭代逐步增多）后，将新标注的词加入到字典中，利用新的字典重新对药品名称数据进行分词，重复该过程即可得到最终的字典。由于药品名称词中往往存在错误的拼写（即使药监局的数据中同样存在），因此有必要将常见的错误拼写组成别名表如：药监局网站上可以同时查到"呋噻米片"和"呋塞米片"，即在业务系统中同时使用 "呋噻米"和"呋塞米 "指代同一种化学物质。该别名表可以随着对未识别词人工分词标注的过程相应获得，不再详细描述该过程。

步骤 S103、对所述药品名称标注数据通过比较算法生成相同药品名称数据组。

将待比较的两个药品名称数据利用上述字典对其分词，参照图 3 , 获得药品名称的药品名称标注数据，所述药品名称标注数据可以标注 "前缀词 '； "成分词 '； "药效词 "、 "其他识别词 "、 "剂型词 "、 "其他后缀词 "这样的信息，然后将两个药品名称标注数据分别在对应标注信息上进行比较，只有在各标注信息上都达成一致才能算作是名称相同，若两个药品名称的相似度为 0-1的相似。在"前缀词 "对应的两组词上，完全相同则一致，否则不一致。在"成分词 "对应的两组词上，要利用别名表作为参照，如果完全相同或属于别名关系则成分词一致，否则不一致。在"剂型词 "上判断一致的方式与成分词类似，需要参考剂型词与剂型信息的对应关系。"药效词 Γ其他识别词 Γ其他后缀词"的内容识别方式与"前缀词 "识别方式一致。进一步，所述根据预置固定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和剂型词进行比较计算可以采用如下方法：

A、计算两个药品名称标注数据的前缀词、剂型词和其他后缀词相似度，当所述相似度达到或超过预定阈值，且判断其中一个药品标注数据中的其他识别词与另一个药品名称中的成分词或药效词或其他识别词通过拼音模糊匹配合格，则判定所述两个药品名称标注数据是模糊相同。

B、计算两个药品名称标注数据的成分词和药效词相似度，当所述相似度为完全相同时，判定所述两个药瓶名称标注数据对应的药品名称数据为相同名称数据组。

C、药品名称标注数据比较若同时比较计算成分词、药效词、剂型词，则可以忽略前缀词、其他后缀词。

值得注意的是在 B和 C的比较过程中都可以利用 A中的模糊比较方法。

本发明实施例中通过预置字典对药品名称数据进行分词，将分词获得的药品名称标注数据进行比较计算，以获取相同名称数据组，提高了相同药品名称数据获取的成功率，减少了计算量。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

如图 4所述为本发明提供的一种药品名称数据匹配装置，包括：获取模块 41 ,用于获取药品名称数据；

分词模块 42 ,用于根据预置字典对所述药品名称数据进行分词生成药品名称标注数据；所述预置字典至少包括：前缀词字库、成分词字库、药效词字库和剂型词字库；

比较模块 43 ,用于对所述药品名称标注数据通过比较算法生成相同药品名称数据组。

进一步，所述分词模块 42用于：

所述分词模块 42将待比较的两个药品名称数据利用上述字典对其分词，获得药品名称的药品名称标注数据，所述药品名称标注数据可以标注"前缀词 "成分词'; "药效词 "其他识别词 "剂型词 "其他后缀词"这样的信息，然后比较模块 43将两个药品名称标注数据分别在对应标注信息上进行比较，只有在各标注信息上都达成一致才能算作是名称相同，若两个药品名称的相似度为 0-1的相似。在"前缀词 "对应的两组词上，完全相同则一致，否则不一致。在"成分词 "对应的两组词上，要利用别名表作为参照，如果完全相同或属于别名关系则成分词一致，否则不一致。在"剂型词 "上判断一致的方式与成分词类似，需要参考剂型词与剂型信息的对应关系。"药效词 Γ其他识别词 Γ其他后缀词 "的内容识别方式与 "前缀词"识别方式一致。

进一步，所述比较模块 43还用于：

进一步，所比较模块 43还用于：

比较模块 43在进行药品名称标注数据比较计算时，若同时比较计算成分词、药效词、剂型词，则可以忽略前缀词、其他后缀词。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上对本申请所提供的一种药品名称数据匹配方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1、一种药品名称数据匹配方法，其特征在于，包括：获取药品名称数据；

2、根据权利要求 1所述的方法，其特征在于，所述根据预置字典对所述药品名称数据进行分词生成药品名称标注数据包括：

3、根据权利要求 2所述的方法，其特征在于，所述对药品名称标注数据通过比较算法生成相同药品名称数据组包括：

4、根据权利要求 3所述的方法，其特征在于，所述根据预置固定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和剂型词进行比较计算包括：

5、根据权利要求 3所述的方法，其特征在于，所述根据预置固定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和剂型词进行比较计算包括：

6、一种药品名称数据匹配装置，其特征在于，包括：

获取模块，用于获取药品名称数据；

7、根据权利要求 6所述的装置，其特征在于，所述分词模块 42 用于：

8、根据权利要求 7所述的装置，其特征在于，所述比较模块用于：

9、根据权利要求 8所述的装置，其特征在于，所述比较模块用于：

10、根据权利要求 8所述的装置，其特征在于，所比较模块用于：计算两个药品名称标注数据的成分词和药效词相似度，当所述相似度为完全相同时，判定所述两个药瓶名称标注数据对应的药品名称数据为相同名称数据组。