WO2021174695A1

WO2021174695A1 - 基于机器学习的药物识别方法及相关设备

Info

Publication number: WO2021174695A1
Application number: PCT/CN2020/093319
Authority: WO
Inventors: 顾大中
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-03-04
Filing date: 2020-05-29
Publication date: 2021-09-10
Also published as: CN111523316A

Abstract

一种基于机器学习的药物识别方法及相关设备，该方法以第二药物样本的向量序列为输入，以根据第二药物样本的化学物质标签训练化学物质识别模型；用编码模型提取第三药物语句样本的向量序列，以第三药物样本的向量序列为输入，以根据第三药物样本的治疗物质标签训练治疗物质识别模型（105）；用编码模型提取待识别药物语句的向量序列，化学物质识别模型通过识别待识别药物语句的向量序列得到化学物质实体集，治疗物质识别模型通过识别待识别药物语句的向量序列得到治疗物质实体集（107）；将化学物质实体集和治疗物质实体集中都存在的物质实体确定为药物（108）。该方法提升了药物识别的效率和准确率。

Description

基于机器学习的药物识别方法及相关设备

本申请要求于2020年3月4日提交中国专利局、申请号为202010144271.X，申请名称为“基于机器学习的药物识别方法及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能的实体识别技术领域，具体涉及一种基于机器学习的药物识别方法、装置、计算机设备及计算机可读存储介质。

背景技术

对于许多医学文本而言，提取出其中的药物名称，对于理解文本内容有巨大帮助。发明人意识到，为帮助相关从业者和研究人员快速、高效地获取医学文本中的药物名称，迫切需要对药物命名实体进行识别，从大量的医学文本中有效获取药物命名实体。

实际应用中，命名实体识别技术在药物命名实体识别领域仍是一片空白。目前对药物的整理工作还是通过人工方式，效率低且准确率不高。

申请内容

鉴于以上内容，有必要提出一种基于机器学习的药物识别方法、装置、计算机装置及计算机可读存储介质，其可以识别待识别药物语句中的药物。

本申请的第一方面提供一种基于机器学习的药物识别方法，所述方法包括：

获取第一药物语句样本集，所述第一药物语句样本集中的每个第一药物语句样本包含一个缺失词和一个缺失词标签；

用所述第一药物语句样本集训练编码模型；

获取第二药物语句样本集和第三药物语句样本集，所述第二药物语句样本集中的每个第二药物语句样本包含一个化学物质标签，所述第三药物语句样本集中的每个第三药物语句样本包含一个治疗物质标签；

用所述编码模型提取所述第二药物语句样本的向量序列，以所述第二药物样本的向量序列为输入，以根据所述第二药物样本的化学物质标签训练化学物质识别模型；

用所述编码模型提取所述第三药物语句样本的向量序列，以所述第三药物样本的向量序列为输入，以根据所述第三药物样本的治疗物质标签训练治疗物质识别模型；

获取待识别药物语句；

用所述编码模型提取所述待识别药物语句的向量序列，用所述化学物质识别模型通过识别所述待识别药物语句的向量序列得到化学物质实体集，用所述治疗物质识别模型通过识别所述待识别药物语句的向量序列得到治疗物质实体集；

将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物。

本申请的第二方面提供一种基于机器学习的药物识别装置，所述装置包括：

第一获取模块，用于获取第一药物语句样本集，所述第一药物语句样本集中的每个第一药物语句样本包含一个缺失词和一个缺失词标签；

第一训练模块，用于用所述第一药物语句样本集训练编码模型；

第二获取模块，用于获取第二药物语句样本集和第三药物语句样本集，所述第二药物语句样本集中的每个第二药物语句样本包含一个化学物质标签，所述第三药物语句样本集中的每个第三药物语句样本包含一个治疗物质标签；

第二训练模块，用于用所述编码模型提取所述第二药物语句样本的向量序列，以所述第二药物样本的向量序列为输入，以根据所述第二药物样本的化学物质标签训练化学物质识别模型；

第三训练模块，用于用所述编码模型提取所述第三药物语句样本的向量序列，以所述第三药物样本的向量序列为输入，以根据所述第三药物样本的治疗物质标签训练治疗物质识别模型；

第三获取模块，用于获取待识别药物语句；

第一识别模块，用于用所述编码模型提取所述待识别药物语句的向量序列，用所述化学物质识别模型通过识别所述待识别药物语句的向量序列得到化学物质实体集，用所述治疗物质识别模型通过识别所述待识别药物语句的向量序列得到治疗物质实体集；

第二识别模块，用于将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物。

本申请的第三方面提供一种计算机设备，所述计算机装置包括存储器和处理器，所述处理器用于执行存储器中存储的计算机可读指令以实现如下步骤：

用所述第一药物语句样本集训练编码模型；

获取待识别药物语句；

本申请的第四方面提供一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

用所述第一药物语句样本集训练编码模型；

获取待识别药物语句；

本申请用所述编码模型提取所述第二药物语句样本的向量序列和所述第三药物语句样本的向量序列分别提升了训练所述化学物质识别模型和所述治疗物质识别模型的效率。识别所述待识别药物语句中的化学物质实体比识别所述待识别药物语句中的治疗物质实体更稳定，将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物，降低了误识别药物的风险。因此，本申请实现了识别所述待识别药物语句中的药物，提升了药物识别的效率和准确率。本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

图1是本申请实施例提供的基于机器学习的药物识别方法的流程图。

图2是本申请实施例提供的基于机器学习的药物识别装置的结构图。

图3是本申请实施例提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

本申请涉及人工智能技术领域。优选地，本申请的基于机器学习的药物识别方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本申请实施例一提供的基于机器学习的药物识别方法的流程图。所述基于机器学习的药物识别方法应用于计算机装置，用于识别待识别药物语句中的药物。

如图1所示，所述基于机器学习的药物识别方法包括：

101，获取第一药物语句样本集，所述第一药物语句样本集中的每个第一药物语句样本包含一个缺失词和一个缺失词标签。

在一具体实施例中，所述获取第一药物语句样本集包括：

(1)通过光学字符识别(OCR，Optical Character Recognition)对纸质版医学书籍进行扫描识别。

例如，可以通过光学扫描仪或数码相机获取纸质版医学书籍的书籍图像；对书籍图像进行二值化，通过设置预设二值化阈值，将书籍图像转化为黑白图像；对黑白图像进行去噪和倾斜校正等预处理；对预处理后的黑白图像进行基于神经网络或距离的文字识别。

(2)利用网络爬虫从网络上抓取电子版医学文档。

例如，可以使用网页爬虫以关键词“成分”、“中药”(或中药名)等从中文期刊文献数据库(如万方、知网)或百度百科进行电子版医学文档抓取。

(3)从扫描的纸质版医学书籍和抓取的电子版医学文档中提取多个药物语句。

例如，可以对扫描的纸质版医学书籍和抓取的电子版医学文档进行分句，并进行语句去重，得到多个药物语句。

(4)对所述多个药物语句进行清洗预处理。

例如，可以对提取的多个药物语句进行错别字校正、无关语句过滤等清洗预处理。

(5)确定所述多个药物语句中的每个药物语句的缺失词和缺失词标签。

例如，一个药物语句为“二甲双胍是一种白色粉末”，随机选择该药物语句中的一个词(如，粉末)为缺失词，得到确定缺失词的药物语句“<S>二甲双胍是一种白色<mask><E>”；其中“<S>”表示该药物语句的头部词，“<E>”表示该药物语句的尾部词，<mask>表示该药物语句的缺失词，“粉末”为该药物语句的缺失词标签。

102，用所述第一药物语句样本集训练编码模型。

在一具体实施例中，所述编码模型可以为BERT模型或词嵌入模型。

若所述编码模型为BERT模型，所述用所述第一药物语句样本集训练编码模型包括：

生成每个第一药物语句样本的输入向量序列；

以该第一药物语句样本的输入向量序列为输入，用所述BERT模型计算该第一药物语句样本的输出向量序列；

以该第一药物语句样本的输出向量序列为输入，用预设全连接层计算该第一药物语句样本的缺失词向量；

根据该第一药物语句样本的缺失词向量和标签优化所述BERT模型和所述预设全连接层。

在另一实施例中，所述生成每个第一药物语句样本的输入向量序列可以包括：

(1)对每个第一药物语句样本进行分词，得到每个第一药物语句样本包含的词语。

例如，对一个第一药物语句样本(二甲双胍是一种白色粉末)进行分词，得到该第一药物语句样本包含的词语“二甲双胍是一种白色粉末”。可以采用斯坦福分词工具对第一药物语句样本进行分词，也可以采用基于统计、基于字符串匹配的方法对第一药物语句样本进行分词。

(2)根据预设词语编码表获取每个第一药物语句样本的每个词语的编码向量。

所述预设词语编码表可以采用one-hot、word2vec等编码方式，每个词语的编码向量与该词语一一对应。

(3)根据每个第一药物语句样本的每个词语的位置编号生成该词语的位置向量。

例如，第一药物语句样本“二甲双胍是一种白色粉末”中，“二甲双胍”的位置编号为1，则该词语的位置向量为(0，1)。

(4)拼接每个第一药物语句样本的每个词语的编码向量和位置向量，得到该第一药物语句样本的每个词语的编码输入向量。

例如，一个第一药物语句样本的一个词语的编码向量为10维向量，位置向量为2维向量，则该词语的编码输入向量为该词语的编码向量和该词语的位置向量拼接组成的12维向量。

(5)依词序组合每个第一药物语句样本的每个词语的编码输入向量，得到该第一药物语句样本的输入向量序列。

103，获取第二药物语句样本集和第三药物语句样本集，所述第二药物语句样本集中的每个第二药物语句样本包含一个化学物质标签，所述第三药物语句样本集中的每个第三药物语句样本包含一个治疗物质标签。

例如，第二药物语句样本集中的一个第二药物语句样本为“二甲双胍是一种白色可溶于水的粉末”，该第二药物语句样本的标签为“B-H I-H I-H I-H O O O O O O O O B-H O O O”。第三药物语句样本集中的一个第三药物语句样本为“在糖尿病治疗中经常使用二甲双胍作为主要药物”，该第三药物语句样本的标签为“O O O O O O O O O O O B-Z I-Z I-Z I-Z O O O O O O”。其中，“O”为非命名实体，“B-H”为化学物质标签的起始标签，“I-H”为化学物质标签的中间标签，“B-Z”为治疗物质标签的起始标签，“I-Z”治疗物质标签的中间标签。

104，用所述编码模型提取所述第二药物语句样本的向量序列，以所述第二药物样本的向量序列为输入，以根据所述第二药物样本的化学物质标签训练化学物质识别模型。

在一具体实施例中，所述化学物质识别模型包括：

基于长短期记忆网络和条件随机场的模型；或

基于双向长短期记忆网络和条件随机场的模型；或

基于BiGRU和条件随机场的模型。

例如，所述化学物质识别模型由长短期记忆网络和接于长短期记忆网络后的条件随机场组成；可以用编码模型提取第二药物语句样本的向量序列，用长短期记忆网络提取第二药物语句样本的上下文语义特征，得到第二药物语句样本的中间向量序列；以中间向量序列为输入用条件随机场输出第二药物语句样本的化学物质预测标签，根据化学物质标签和化学物质预测标签优化长短期记忆网络和条件随机场的参数。

105，用所述编码模型提取所述第三药物语句样本的向量序列，以所述第三药物样本的向量序列为输入，以根据所述第三药物样本的治疗物质标签训练治疗物质识别模型。

在一具体实施例中，所述治疗物质识别模型包括：

基于长短期记忆网络和条件随机场的模型；或

基于双向长短期记忆网络和条件随机场的模型；或

基于BiGRU和条件随机场的模型。

例如，所述治疗物质识别模型由双向长短期记忆网络和接于双向长短期记忆网络后的条件随机场组成；可以用编码模型提取第三药物语句样本的向量序列，用双向长短期记忆网络提取第三药物语句样本的上下文语义特征，得到第三药物语句样本的中间向量序列；以中间向量序列为输入用条件随机场输出第三药物语句样本的治疗物质预测标签，根据治疗物质标签和治疗物质预测标签优化双向长短期记忆网络和条件随机场的参数。

106，获取待识别药物语句。

例如，待识别药物语句可以为“二甲双胍是一种白色可溶于水的粉末，在糖尿病治疗中经常使用二甲双胍作为主要药物，在用药期间患者应严格控制葡萄糖的摄入”。

107，用所述编码模型提取所述待识别药物语句的向量序列，用所述化学物质识别模型通过识别所述待识别药物语句的向量序列得到化学物质实体集，用所述治疗物质识别模型通过识别所述待识别药物语句的向量序列得到治疗物质实体集。

例如，用编码模型提取上述待识别药物语句的向量序列，用训练好的化学物质识别模型通过识别上述述待识别药物语句的向量序列得到的化学物质实体集为{二甲双胍，二甲双胍，葡萄糖}，用所述治疗物质识别模型通过识别上述待识别药物语句的向量序列得到的治疗物质实体集为{二甲双胍}。

108，将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物。

例如，化学物质实体集为{二甲双胍，二甲双胍，葡萄糖}，治疗物质实体集为{二甲双胍}，则将化学物质实体集和所述治疗物质实体集中都存在的物质实体“二甲双胍”识别为药物。

实施例一的基于机器学习的药物识别方法获取第一药物语句样本集，所述第一药物语句样本集中的每个第一药物语句样本包含一个缺失词和一个缺失词标签；用所述第一药物语句样本集训练编码模型；获取第二药物语句样本集和第三药物语句样本集，所述第二药物语句样本集中的每个第二药物语句样本包含一个化学物质标签，所述第三药物语句样本集中的每个第三药物语句样本包含一个治疗物质标签；用所述编码模型提取所述第二药物语句样本的向量序列，以所述第二药物样本的向量序列为输入，以根据所述第二药物样本的化学物质标签训练化学物质识别模型；用所述编码模型提取所述第三药物语句样本的向量序列，以所述第三药物样本的向量序列为输入，以根据所述第三药物样本的治疗物质标签训练治疗物质识别模型；获取待识别药物语句；用所述编码模型提取所述待识别药物语句的向量序列，用所述化学物质识别模型通过识别所述待识别药物语句的向量序列得到化学物质实体集，用所述治疗物质识别模型通过识别所述待识别药物语句的向量序列得到治疗物质实体集；将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物。用所述编码模型提取所述第二药物语句样本的向量序列和所述第三药物语句样本的向量序列分别提升了训练所述化学物质识别模型和所述治疗物质识别模型的效率。识别所述待识别药物语句中的化学物质实体比识别所述待识别药物语句中的治疗物质实体更稳定，将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物，降低了误识别药物的风险。因此，实施例一识别待识别药物语句中的药物，提升了药物识别的效率和准确率。

在另一实施例中，所述方法还包括：

输出所述化学物质实体集中存在且所述治疗物质实体集中不存在的物质实体；

发送识别提醒。

输出所述化学物质实体集中存在且所述治疗物质实体集中不存在的物质实体，可以避免误识别，并发送识别提醒给用户，接收用户的判定结果。

在另一实施例中，所述方法还包括：

用识别出的药物构建药物知识图谱。

可以在知识图谱中连接在一个药物语句中出现的两个药物，以此体现药物间的联系。

实施例二

图2是本申请实施例二提供的基于机器学习的药物识别装置的结构图。所述基于机器学习的药物识别装置20应用于计算机装置。所述基于机器学习的药物识别装置20用于识别待识别药物语句中的药物。

如图2所示，所述基于机器学习的药物识别装置20可以包括第一获取模块201、第一训练模块202、第二获取模块203、第二训练模块204、第三训练模块205、第三获取模块206、第一识别模块207、第二识别模块208。

第一获取模块201，用于获取第一药物语句样本集，所述第一药物语句样本集中的每个第一药物语句样本包含一个缺失词和一个缺失词标签。

在一具体实施例中，所述获取第一药物语句样本集包括：

(2)利用网络爬虫从网络上抓取电子版医学文档。

(4)对所述多个药物语句进行清洗预处理。

第一训练模块202，用于用所述第一药物语句样本集训练编码模型。

生成每个第一药物语句样本的输入向量序列；

第二获取模块203，用于获取第二药物语句样本集和第三药物语句样本集，所述第二药物语句样本集中的每个第二药物语句样本包含一个化学物质标签，所述第三药物语句样本集中的每个第三药物语句样本包含一个治疗物质标签。

第二训练模块204，用于用所述编码模型提取所述第二药物语句样本的向量序列，以所述第二药物样本的向量序列为输入，以根据所述第二药物样本的化学物质标签训练化学物质识别模型。

在一具体实施例中，所述化学物质识别模型包括：

基于长短期记忆网络和条件随机场的模型；或

基于双向长短期记忆网络和条件随机场的模型；或

基于BiGRU和条件随机场的模型。

第三训练模块205，用于用所述编码模型提取所述第三药物语句样本的向量序列，以所述第三药物样本的向量序列为输入，以根据所述第三药物样本的治疗物质标签训练治疗物质识别模型。

在一具体实施例中，所述治疗物质识别模型包括：

基于长短期记忆网络和条件随机场的模型；或

基于双向长短期记忆网络和条件随机场的模型；或

基于BiGRU和条件随机场的模型。

第三获取模块206，用于获取待识别药物语句。

第一识别模块207，用于用所述编码模型提取所述待识别药物语句的向量序列，用所述化学物质识别模型通过识别所述待识别药物语句的向量序列得到化学物质实体集，用所述治疗物质识别模型通过识别所述待识别药物语句的向量序列得到治疗物质实体集。

第二识别模块208，用于将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物。

实施例二的基于机器学习的药物识别装置20获取第一药物语句样本集，所述第一药物语句样本集中的每个第一药物语句样本包含一个缺失词和一个缺失词标签；用所述第一药物语句样本集训练编码模型；获取第二药物语句样本集和第三药物语句样本集，所述第二药物语句样本集中的每个第二药物语句样本包含一个化学物质标签，所述第三药物语句样本集中的每个第三药物语句样本包含一个治疗物质标签；用所述编码模型提取所述第二药物语句样本的向量序列，以所述第二药物样本的向量序列为输入，以根据所述第二药物样本的化学物质标签训练化学物质识别模型；用所述编码模型提取所述第三药物语句样本的向量序列，以所述第三药物样本的向量序列为输入，以根据所述第三药物样本的治疗物质标签训练治疗物质识别模型；获取待识别药物语句；用所述编码模型提取所述待识别药物语句的向量序列，用所述化学物质识别模型通过识别所述待识别药物语句的向量序列得到化学物质实体集，用所述治疗物质识别模型通过识别所述待识别药物语句的向量序列得到治疗物质实体集；将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物。用所述编码模型提取所述第二药物语句样本的向量序列和所述第三药物语句样本的向量序列分别提升了训练所述化学物质识别模型和所述治疗物质识别模型的效率。识别所述待识别药物语句中的化学物质实体比识别所述待识别药物语句中的治疗物质实体更稳定，将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物，降低了误识别药物的风险。因此，实施例二识别待识别药物语句中的药物，提升了药物识别的效率和准确率。

在另一实施例中，所述基于机器学习的药物识别装置20还包括：发送模块，用于输出所述化学物质实体集中存在且所述治疗物质实体集中不存在的物质实体；发送识别提醒。

在另一实施例中，所述基于机器学习的药物识别装置20还可以包括：构建模块，用于用识别出的药物构建药物知识图谱。

实施例三

本实施例提供了一个或多个存储有计算机可读指令的可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质；该计算机可读指令被一个或多个处理器执行时实现上述基于机器学习的药物识别方法实施例中的步骤，例如图1所示的步骤101-108：

101，获取第一药物语句样本集，所述第一药物语句样本集中的每个第一药物语句样本包含一个缺失词和一个缺失词标签；

102，用所述第一药物语句样本集训练编码模型；

103，获取第二药物语句样本集和第三药物语句样本集，所述第二药物语句样本集中的每个第二药物语句样本包含一个化学物质标签，所述第三药物语句样本集中的每个第三药物语句样本包含一个治疗物质标签；

104，用所述编码模型提取所述第二药物语句样本的向量序列，以所述第二药物样本的向量序列为输入，以根据所述第二药物样本的化学物质标签训练化学物质识别模型；

105，用所述编码模型提取所述第三药物语句样本的向量序列，以所述第三药物样本的向量序列为输入，以根据所述第三药物样本的治疗物质标签训练治疗物质识别模型；

106，获取待识别药物语句；

107，用所述编码模型提取所述待识别药物语句的向量序列，用所述化学物质识别模型通过识别所述待识别药物语句的向量序列得到化学物质实体集，用所述治疗物质识别模型通过识别所述待识别药物语句的向量序列得到治疗物质实体集；

或者，该计算机可读指令被处理器执行时实现上述装置实施例中各模块的功能，例如图2中的模块201-208：

第一获取模块201，用于获取第一药物语句样本集，所述第一药物语句样本集中的每个第一药物语句样本包含一个缺失词和一个缺失词标签；

第一训练模块202，用于用所述第一药物语句样本集训练编码模型；

第二获取模块203，用于获取第二药物语句样本集和第三药物语句样本集，所述第二药物语句样本集中的每个第二药物语句样本包含一个化学物质标签，所述第三药物语句样本集中的每个第三药物语句样本包含一个治疗物质标签；

第二训练模块204，用于用所述编码模型提取所述第二药物语句样本的向量序列，以所述第二药物样本的向量序列为输入，以根据所述第二药物样本的化学物质标签训练化学物质识别模型；

第三训练模块205，用于用所述编码模型提取所述第三药物语句样本的向量序列，以所述第三药物样本的向量序列为输入，以根据所述第三药物样本的治疗物质标签训练治疗物质识别模型；

第三获取模块206，用于获取待识别药物语句；

第一识别模块207，用于用所述编码模型提取所述待识别药物语句的向量序列，用所述化学物质识别模型通过识别所述待识别药物语句的向量序列得到化学物质实体集，用所述治疗物质识别模型通过识别所述待识别药物语句的向量序列得到治疗物质实体集；

实施例四

图3为本申请实施例三提供的计算机设备的示意图。所述计算机设备30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机可读指令303，例如基于机器学习的药物识别程序。所述处理器302执行所述计算机可读指令303时实现上述基于机器学习的药物识别方法实施例中的步骤，例如图1所示的101-108：

102，用所述第一药物语句样本集训练编码模型；

106，获取待识别药物语句；

第三获取模块206，用于获取待识别药物语句；

示例性的，所述计算机可读指令303可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器301中，并由所述处理器302执行，以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机可读指令指令段，该指令段用于描述所述计算机可读指令303在所述计算机设备30中的执行过程。例如，所述计算机可读指令303可以被分割成图2中的第一获取模块201、第一训练模块202、第二获取模块203、第二训练模块204、第三训练模块205、第三获取模块206、第一识别模块207、第二识别模块208，各模块具体功能参见实施例二。

本领域技术人员可以理解，所述示意图3仅仅是计算机设备30的示例，并不构成对计算机设备30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机设备30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等，所述处理器302是所述计算机设备30的控制中心，利用各种接口和线路连接整个计算机设备30的各个部分。

所述存储器301可用于存储所述计算机可读指令303，所述处理器302通过运行或执行存储在所述存储器301内的计算机可读指令或模块，以及调用存储在存储器301内的数据，实现所述计算机设备30的各种功能。所述存储器301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备30的使用所创建的数据(比如音频数据等)等。此外，存储器301可以包括非易失性存储器或/和易失性存储器，非易失性存储器可包括例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。

所述计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机可读指令包括计算机可读指令代码，所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读存储介质中。上述软件功能模块存储在一个可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

一种基于机器学习的药物识别方法，其中，所述方法包括：

获取第一药物语句样本集，所述第一药物语句样本集中的每个第一药物语句样本包含一个缺失词和一个缺失词标签；

用所述第一药物语句样本集训练编码模型；

获取第二药物语句样本集和第三药物语句样本集，所述第二药物语句样本集中的每个第二药物语句样本包含一个化学物质标签，所述第三药物语句样本集中的每个第三药物语句样本包含一个治疗物质标签；

用所述编码模型提取所述第二药物语句样本的向量序列，以所述第二药物样本的向量序列为输入，以根据所述第二药物样本的化学物质标签训练化学物质识别模型；

用所述编码模型提取所述第三药物语句样本的向量序列，以所述第三药物样本的向量序列为输入，以根据所述第三药物样本的治疗物质标签训练治疗物质识别模型；

获取待识别药物语句；

用所述编码模型提取所述待识别药物语句的向量序列，用所述化学物质识别模型通过识别所述待识别药物语句的向量序列得到化学物质实体集，用所述治疗物质识别模型通过识别所述待识别药物语句的向量序列得到治疗物质实体集；

将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物。
如权利要求1所述的方法，其中，所述获取第一药物语句样本集包括：

通过光学字符识别对纸质版医学书籍进行扫描识别；

利用网络爬虫从网络上抓取电子版医学文档；

从扫描的纸质版医学书籍和抓取的电子版医学文档中提取多个药物语句；

对所述多个药物语句进行清洗预处理；

确定所述多个药物语句中的每个药物语句的缺失词和缺失词标签。
如权利要求1所述的方法，其中，所述编码模型为BERT模型，所述用所述第一药物语句样本集训练编码模型包括：

生成每个第一药物语句样本的输入向量序列；

以该第一药物语句样本的输入向量序列为输入，用所述BERT模型计算该第一药物语句样本的输出向量序列；

以该第一药物语句样本的输出向量序列为输入，用预设全连接层计算该第一药物语句样本的缺失词向量；

根据该第一药物语句样本的缺失词向量和标签优化所述BERT模型和所述预设全连接层。
如权利要求3所述的方法，其中，所述生成每个第一药物语句样本的输入向量序列包括：

对每个第一药物语句样本进行分词，得到每个第一药物语句样本包含的词语；

根据预设词语编码表获取每个第一药物语句样本的每个词语的编码向量；

根据每个第一药物语句样本的每个词语的位置编号生成该词语的位置向量；

拼接每个第一药物语句样本的每个词语的编码向量和位置向量，得到该第一药物语句样本的每个词语的编码输入向量；

依词序组合每个第一药物语句样本的每个词语的编码输入向量，得到该第一药物语句样本的输入向量序列。
如权利要求1所述的方法，其中，所述化学物质识别模型包括：

基于长短期记忆网络和条件随机场的模型；或

基于双向长短期记忆网络和条件随机场的模型；或

基于BiGRU和条件随机场的模型。
如权利要求1所述的方法，其中，所述方法还包括：

输出所述化学物质实体集中存在且所述治疗物质实体集中不存在的物质实体；

发送识别提醒。
如权利要求1所述的方法，其中，所述方法还包括：

用识别出的药物构建药物知识图谱。
一种基于机器学习的药物识别装置，其中，所述装置包括：

第一获取模块，用于获取第一药物语句样本集，所述第一药物语句样本集中的每个第一药物语句样本包含一个缺失词和一个缺失词标签；

第一训练模块，用于用所述第一药物语句样本集训练编码模型；

第二获取模块，用于获取第二药物语句样本集和第三药物语句样本集，所述第二药物语句样本集中的每个第二药物语句样本包含一个化学物质标签，所述第三药物语句样本集中的每个第三药物语句样本包含一个治疗物质标签；

第二训练模块，用于用所述编码模型提取所述第二药物语句样本的向量序列，以所述第二药物样本的向量序列为输入，以根据所述第二药物样本的化学物质标签训练化学物质识别模型；

第三训练模块，用于用所述编码模型提取所述第三药物语句样本的向量序列，以所述第三药物样本的向量序列为输入，以根据所述第三药物样本的治疗物质标签训练治疗物质识别模型；

第三获取模块，用于获取待识别药物语句；

第一识别模块，用于用所述编码模型提取所述待识别药物语句的向量序列，用所述化学物质识别模型通过识别所述待识别药物语句的向量序列得到化学物质实体集，用所述治疗物质识别模型通过识别所述待识别药物语句的向量序列得到治疗物质实体集；

第二识别模块，用于将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物。
如权利要求8所述的装置，其中，所第一获取模块还用于：

通过光学字符识别对纸质版医学书籍进行扫描识别；

利用网络爬虫从网络上抓取电子版医学文档；

利用网络爬虫从网络上抓取电子版医学文档；

从扫描的纸质版医学书籍和抓取的电子版医学文档中提取多个药物语句；

对所述多个药物语句进行清洗预处理；

确定所述多个药物语句中的每个药物语句的缺失词和缺失词标签。
如权利要求8所述的装置，其中，所述编码模型为BERT模型，所述第一训练模块还用于：

生成每个第一药物语句样本的输入向量序列；

以该第一药物语句样本的输入向量序列为输入，用所述BERT模型计算该第一药物语句样本的输出向量序列；

以该第一药物语句样本的输出向量序列为输入，用预设全连接层计算该第一药物语句样本的缺失词向量；

根据该第一药物语句样本的缺失词向量和标签优化所述BERT模型和所述预设全连接层。
一种计算机设备，其中，所述计算机装置包括存储器和处理器，所述处理器用于执行存储器中存储的计算机可读指令以实现如下步骤：

获取第一药物语句样本集，所述第一药物语句样本集中的每个第一药物语句样本包含一个缺失词和一个缺失词标签；

用所述第一药物语句样本集训练编码模型；

获取第二药物语句样本集和第三药物语句样本集，所述第二药物语句样本集中的每个第二药物语句样本包含一个化学物质标签，所述第三药物语句样本集中的每个第三药物语句样本包含一个治疗物质标签；

用所述编码模型提取所述第二药物语句样本的向量序列，以所述第二药物样本的向量序列为输入，以根据所述第二药物样本的化学物质标签训练化学物质识别模型；

用所述编码模型提取所述第三药物语句样本的向量序列，以所述第三药物样本的向量序列为输入，以根据所述第三药物样本的治疗物质标签训练治疗物质识别模型；

获取待识别药物语句；

用所述编码模型提取所述待识别药物语句的向量序列，用所述化学物质识别模型通过识别所述待识别药物语句的向量序列得到化学物质实体集，用所述治疗物质识别模型通过识别所述待识别药物语句的向量序列得到治疗物质实体集；

将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物。
如权利要求11所述的计算机设备，其中，所述获取第一药物语句样本集包括：

通过光学字符识别对纸质版医学书籍进行扫描识别；

利用网络爬虫从网络上抓取电子版医学文档；

从扫描的纸质版医学书籍和抓取的电子版医学文档中提取多个药物语句；

对所述多个药物语句进行清洗预处理；

确定所述多个药物语句中的每个药物语句的缺失词和缺失词标签。
如权利要求11所述的计算机设备，其中，所述编码模型为BERT模型，所述用所述第一药物语句样本集训练编码模型包括：

生成每个第一药物语句样本的输入向量序列；

以该第一药物语句样本的输入向量序列为输入，用所述BERT模型计算该第一药物语句样本的输出向量序列；

以该第一药物语句样本的输出向量序列为输入，用预设全连接层计算该第一药物语句样本的缺失词向量；

根据该第一药物语句样本的缺失词向量和标签优化所述BERT模型和所述预设全连接层。
如权利要求13所述的计算机设备，其中，所述生成每个第一药物语句样本的输入向量序列包括：

对每个第一药物语句样本进行分词，得到每个第一药物语句样本包含的词语；

根据预设词语编码表获取每个第一药物语句样本的每个词语的编码向量；

根据每个第一药物语句样本的每个词语的位置编号生成该词语的位置向量；

拼接每个第一药物语句样本的每个词语的编码向量和位置向量，得到该第一药物语句样本的每个词语的编码输入向量；

依词序组合每个第一药物语句样本的每个词语的编码输入向量，得到该第一药物语句样本的输入向量序列。
如权利要求11所述的计算机设备，其中，所述化学物质识别模型包括：

基于长短期记忆网络和条件随机场的模型；或

基于双向长短期记忆网络和条件随机场的模型；或

基于BiGRU和条件随机场的模型。
如权利要求11所述的计算机设备，其中，所述处理器还用于执行存储器中存储的计算机可读指令以实现如下步骤：

输出所述化学物质实体集中存在且所述治疗物质实体集中不存在的物质实体；

发送识别提醒。
如权利要求11所述的计算机设备，其中，所述处理器还用于执行存储器中存储的计算机可读指令以实现如下步骤：

用识别出的药物构建药物知识图谱。
一个或多个存储有计算机可读指令的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取第一药物语句样本集，所述第一药物语句样本集中的每个第一药物语句样本包含一个缺失词和一个缺失词标签；

用所述第一药物语句样本集训练编码模型；

获取第二药物语句样本集和第三药物语句样本集，所述第二药物语句样本集中的每个第二药物语句样本包含一个化学物质标签，所述第三药物语句样本集中的每个第三药物语句样本包含一个治疗物质标签；

用所述编码模型提取所述第二药物语句样本的向量序列，以所述第二药物样本的向量序列为输入，以根据所述第二药物样本的化学物质标签训练化学物质识别模型；

用所述编码模型提取所述第三药物语句样本的向量序列，以所述第三药物样本的向量序列为输入，以根据所述第三药物样本的治疗物质标签训练治疗物质识别模型；

获取待识别药物语句；

用所述编码模型提取所述待识别药物语句的向量序列，用所述化学物质识别模型通过识别所述待识别药物语句的向量序列得到化学物质实体集，用所述治疗物质识别模型通过识别所述待识别药物语句的向量序列得到治疗物质实体集；

将所述化学物质实体集和所述治疗物质实体集中都存在的物质实体识别为药物。
如权利要求18所述的可读存储介质，其中，所述获取第一药物语句样本集包括：

通过光学字符识别对纸质版医学书籍进行扫描识别；

利用网络爬虫从网络上抓取电子版医学文档；

从扫描的纸质版医学书籍和抓取的电子版医学文档中提取多个药物语句；

对所述多个药物语句进行清洗预处理；

确定所述多个药物语句中的每个药物语句的缺失词和缺失词标签。
如权利要求18所述的可读存储介质，其中，所述编码模型为BERT模型，所述用所述第一药物语句样本集训练编码模型包括：

生成每个第一药物语句样本的输入向量序列；

以该第一药物语句样本的输入向量序列为输入，用所述BERT模型计算该第一药物语句样本的输出向量序列；

以该第一药物语句样本的输出向量序列为输入，用预设全连接层计算该第一药物语句样本的缺失词向量；

根据该第一药物语句样本的缺失词向量和标签优化所述BERT模型和所述预设全连接层。