WO2022041728A1

WO2022041728A1 - 医学领域意图识别方法、装置、设备及存储介质

Info

Publication number: WO2022041728A1
Application number: PCT/CN2021/084653
Authority: WO
Inventors: 贾声声
Original assignee: 康键信息技术（深圳）有限公司
Priority date: 2020-08-28
Filing date: 2021-03-31
Publication date: 2022-03-03
Also published as: CN112035637A

Abstract

一种医学领域意图识别方法、装置、设备及存储介质，应用于智慧医疗领域中，用于精准识别用户的医学领域意图，提高了医学领域意图识别的准确度。该方法包括：获取初始文本数据，初始文本数据包括目标用户输入的问题句子和/或问题词语（101）；调用预置的联合模型对初始文本数据进行改写，生成目标问题语句，目标问题语句为语义明确且无冗余的句子（102）；基于预置的医学专有特征词库对目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息（103）；调用预置的深度学习模型、多个目标特征权重和多个目标结构化信息对多个目标特征进行分类，得到分类结果，并根据分类结果确定目标用户的医学领域意图（104）。

Description

医学领域意图识别方法、装置、设备及存储介质

本申请要求于2020年8月28日提交中国专利局、申请号为202010885018.X、发明名称为“医学领域意图识别方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及医疗数据领域，尤其涉及一种医学领域意图识别方法、装置、设备及存储介质。

背景技术

意图识别是智能问答的重要组成部分，即通过分类的方法将用户的问题分到相应的医学意图种类。简单来说意图就是用户的意愿，即用户想要做什么，根据用户表达所涉及的领域和意图将其分类到先前定义好的意图类别中。意图识别的精准性关系到语义槽填充的性能并且有助于后续智能问答的研究。

现有方案主要是通过分法算法进行特征提取，需要对预料文本进行关键特征抽取，提取得到字符、词语等意图特征，常用的算法有朴素贝叶斯、支持向量机和逻辑回归等。

发明人意识到，在医疗问答中医学领域用户的表达不规范、描述较短，且具有一定的歧义性，很难获取较丰富的意图特征，导致对用户的医疗意图识别结果不准确。

发明内容

本申请提供了一种医学领域意图识别方法、装置、设备及存储介质，用于精准识别用户咨询的医学领域意图，提高了医学领域意图识别结果的准确度。

为实现上述目的，本申请第一方面提供了一种医学领域意图识别方法，包括：获取初始文本数据，所述初始文本数据包括目标用户输入的问题句子和/或问题词语；调用预置的联合模型对所述初始文本数据进行改写，生成目标问题语句，所述目标问题语句为语义明确且无冗余的句子；基于预置的医学专有特征词库对所述目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息；调用预置的深度学习模型、所述多个目标特征权重和所述多个目标结构化信息对所述多个目标特征进行分类，得到分类结果，并根据所述分类结果确定所述目标用户的医学领域意图。

本申请第二方面提供了一种医学领域意图识别设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：获取初始文本数据，所述初始文本数据包括目标用户输入的问题句子和/或问题词语；调用预置的联合模型对所述初始文本数据进行改写，生成目标问题语句，所述目标问题语句为语义明确且无冗余的句子；基于预置的医学专有特征词库对所述目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息；调用预置的深度学习模型、所述多个目标特征权重和所述多个目标结构化信息对所述多个目标特征进行分类，得到分类结果，并根据所述分类结果确定所述目标用户的医学领域意图。

本申请第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：获取初始文本数据，所述初始文本数据包括目标用户输入的问题句子和/或问题词语；调用预置的联合模型对所述初始文本数据进行改写，生成目标问题语句，所述目标问题语句为语义明确且无冗余的句子；基于预置的医学专有特征词库对所述目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息；调用预置的深度学习模型、所述多个目标特征权重和所述多个目标结构化信息对所述多个目标特征进行分类，得到分类结果，并根据所述分类结果确定所述目标用户的医学领域意图。

本申请第四方面提供了一种医学领域意图识别装置，包括：数据获取模块，用于获取初始文本数据，所述初始文本数据包括目标用户输入的问题句子和/或问题词语；数据改写模块，用于调用预置的联合模型对所述初始文本数据进行改写，生成目标问题语句，所述目标问题语句为语义明确且无冗余的句子；特征提取模块，用于基于预置的医学专有特征词库对所述目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息；意图确定模块，用于调用预置的深度学习模型、所述多个目标特征权重和所述多个目标结构化信息对所述多个目标特征进行分类，得到分类结果，并根据所述分类结果确定所述目标用户的医学领域意图。

本申请实施例提供的技术方案中，获取初始文本数据，初始文本数据包括目标用户输入的问题句子和/或问题词语；调用预置的联合模型对初始文本数据进行改写，生成目标问题语句，目标问题语句为语义明确且无冗余的句子；基于预置的医学专有特征词库对目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息；调用预置的深度学习模型、多个目标特征权重和多个目标结构化信息对多个目标特征进行分类，得到分类结果，并根据分类结果确定目标用户的医学领域意图。本申请实施例，能精准识别用户的医学领域意图，提高了医学领域意图识别的准确度。

附图说明

图1为本申请实施例中医学领域意图识别方法的一个实施例示意图；

图2为本申请实施例中医学领域意图识别方法的另一个实施例示意图；

图3为本申请实施例中医学领域意图识别装置的一个实施例示意图；

图4为本申请实施例中医学领域意图识别装置的另一个实施例示意图；

图5为本申请实施例中医学领域意图识别设备的一个实施例示意图。

具体实施方式

本申请提供了一种医学领域意图识别方法、装置、设备及存储介质，用于精准识别用户的医学领域意图，提高了医学领域意图识别的准确度。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例进行描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，本申请实施例提供的医学领域意图识别方法的流程图，具体包括：

101、获取初始文本数据，初始文本数据包括目标用户输入的问题句子和/或问题词语。

服务器获取初始文本数据，初始文本数据包括目标用户输入的问题句子和/或问题词语。其中，问题句子可以包括多种形式，问题句子可以是语义明确且表达简洁的句子，例如：“肠胃炎怎么治疗？”、“肠胃炎需要吃什么药？”、“小孩发烧需要怎么办？”等；问题句子也可以是语义不明确的句子，例如：“你帮我看一下”、“我这是怎么了”、“身体感到不适”、“总感觉头晕”等；问题句子还可以是表达冗余的句子，例如，“我的胃有点难受，身体不适”、“我嗓子有点不舒服，吞咽困难，可能是上火了”、“昨天去做肝脏彩超了，B超结果为回声致密、增强、增粗”，问题词语可以只包括一个关键词，例如，问题词语可以为“糖尿病”、“偏头痛”、“胃炎”“阴道炎”等。

可以理解的是，本申请的执行主体可以为医学领域意图识别装置，还可以是服务器，具体此处不做限定。本申请实施例以服务器为执行主体为例进行说明。

102、调用预置的联合模型对初始文本数据进行改写，生成目标问题语句，目标问题语句为语义明确且无冗余的句子。

服务器调用预置的联合模型对初始文本数据进行改写，生成目标问题语句，目标问题语句为语义明确且无冗余的句子。具体的，服务器调用预置的联合模型对初始文本数据进行实体抽取并进行归一化处理，得到多个标准实体；服务器在预置的医学领域知识图谱中查找每个标准实体对应的属性信息，得到多个标准属性信息，每个标准属性信息对应一个不同的标准实体；服务器根据多个标准属性信息和多个标准实体对初始文本数据进行信息补全，生成多个候选问题语句并将多个候选问题语句发送至终端；服务器根据终端反馈的指令确定目标问题语句，目标问题语句为语义明确且无冗余的句子。

例如，用户输入“胃炎”，无法理解用户想要咨询关于“胃炎”的具体问题，通过医学领域知识图谱查找“胃炎”的属性，生成两个候选问题语句“胃炎怎么治疗？”和“胃炎需要注意什么？”，将上述两个候选问题语句发送到目标用户使用的终端，以使得目标用户在终端上进行选择，当获取到终端反馈的指令时，确定目标问题语句。假如，目标用户选择了“胃炎怎么治疗？”，那么该问题语句为目标问题语句。可以理解的是，让用户进行选择，更加有利于理解用户的需求。

103、基于预置的医学专有特征词库对目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息。

服务器基于预置的医学专有特征词库对目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息。具体的，服务器调用预置的联合模型对目标问题语句进行实体特征抽取，得到多个候选特征；服务器调用预置的归一知识库对多个候选特征进行归一化处理，得到多个标准化特征；服务器从预置的医学领域知识图谱中查询多个标准化特征对应的上下文以及多个目标特征权重，每个标准化特征对应一个目标特征权重；服务器对对应的上下文进行结构化处理，得到多个目标结构化信息；服务器基于预置的医学专有特征词库对多个标准化特征进行筛选，得到多个目标特征。

其中，目标结构化信息可以是句子词语向量特征、位置向量、人工提取的特征或实体加权特征，还可以包括其他结构化信息，具体此处不做限定。

需要说明的是，基于专业医学文本描述的规范性和严谨性，提前构建医疗专有特征词库，如药品库、疾病库、治疗库等。医疗专有特征词库可以用于提高问分分词的准确度以及检索医学实体的相关信息。

104、调用预置的深度学习模型、多个目标特征权重和多个目标结构化信息对多个目标特征进行分类，得到分类结果，并根据分类结果确定目标用户的医学领域意图。

服务器调用预置的深度学习模型、多个目标特征权重和多个目标结构化信息对多个目标特征进行分类，得到分类结果，并根据分类结果确定目标用户的医学领域意图。

其中，深度学习模型使用改进后的textcnn模型，输入层包括句子词语向量特征、位置向量、人工提取的特征、实体加权特征，进行特征融合，得到输入层特征(融合特征)，将输入层特征传入卷积层，通过卷积层学习句子特征向量，使用句子特征向量通过全连接层完成意图分类，其中，卷积层的特征图的滑动步长的大小设置是根据训练数据实体和医学文本的特征构建的医疗信息库平均长度进行设定的。

需要说明的是，预置的深度学习模型为已经提前训练好的模型，为了提高模型的稳定性，对于有限的标注数据进行数据增强，使用已有的学习模型，对无监督数据进行预打标，选择置信度较高的数据加入到标注数据中，得到增强后的标注数据，即训练数据，从而实现训练数据的增强。

本申请实施例，将深度学习与医学文本专有的特征相结合，对用户输入的文本进行改写，并结合医学领域的知识图谱，对改写后的文本进行医学意图识别，能够精准识别用户咨询的医学领域意图，提高了医学领域意图识别结果的准确度。并且本方案可应用于智慧医疗领域中，从而推动智慧城市的建设。

请参阅图2，本申请实施例提供的医学领域意图识别方法的另一个流程图，具体包括：

201、获取初始文本数据，初始文本数据包括目标用户输入的问题句子和/或问题词语。

可选的，在步骤201之前，还可以包括：

服务器构建预置的医学知识图谱。

可选的，服务器构建预置的医学知识图谱具体包括：

服务器获取医学训练数据，并对医学训练数据进行整合；服务器对医学训练数据进行实体抽取和关系抽取，生成知识三元组；服务器对知识三元组进行数据标注，得到已标注数据；服务器基于已标注数据对预置的序列标注模型进行训练和知识推理，生成预置的医学知识图谱。

其中，可选的，服务器对医学训练数据进行实体抽取和关系抽取，生成知识三元组，包括：服务器对医学训练数据进行实体抽取，得到多个实体；服务器对多个实体之间的关系进行抽取，得到多个实体关系；服务器根据多个实体关系和多个实体生成知识三元组。

实体识别是指识别医学文本中具有特定意义的实体，主要包括主体、地点、检查项目、疾病等实体，实体关系抽取需要根据文本语义信息推测实体间的关系；比如给定句子：“孕妇可以吃螃蟹吗”，该句实体为“孕妇”孕妇与“螃蟹”，预置的联合抽取模型可以通过语义得到“不适宜”的关系，并最终抽取出(孕妇，不适宜，螃蟹)的知识三元组。知识三元组为有关系的实体三元组。

其中，预置的联合模型用于对实体和实体关系进行抽取，将采用“BIOES”模式的标注数据，其中，B表示开始，I表示内部，O表示非实体，E实体尾部，S表示改词本身就是一个实体。序列化标注模型为BILSTM+CRF深度学习模型，使用已标注数据(已标注的三元组)对BILSTM+CRF深度学习模型进行训练和优化，得到医学知识图谱。

202、调用预置的联合模型对初始文本数据进行实体抽取并进行归一化处理，得到多个标准实体；

具体的，服务器调用预置的联合模型对初始文本数据进行实体抽取，得到多个初始实体；服务器调用预置的归一知识库对多个初始实体进行归一化处理，得到多个标准实体。

例如，“验孕纸”和“测孕纸”都标准化为“验孕试纸”。又例如，“运动神经元病”和“夏科病”都标准化为“肌萎缩侧硬化”，“艾滋病”和“AIDS”都标准化为“获得性免疫缺陷综合症”。

需要说明的是，对用户的初始文本数据进行实体抽取并归一化，用户文本的标准化有助于后续意图识别，避免出现语义不准确和冗余。

203、在预置的医学领域知识图谱中查找每个标准实体对应的属性信息，得到多个标准属性信息，每个标准属性信息对应一个不同的标准实体；

不同的标准实体对应不同的标准属性信息，例如，“胃炎”对应的属性信息为“治疗方法”和“注意事项”、“阿莫西林”对应的属性信息为“适应症”和“禁忌症”。

204、根据多个标准属性信息和多个标准实体对初始文本数据进行信息补全，生成多个候选问题语句，并将多个候选问题语句发送至终端；

具体的，服务器将初始文本数据与预置句式模板进行匹配，得到目标句式模板；服务器按照目标句式模板对初始文本数据的句式进行调整，得到初始语句；服务器将初始语句中的多个初始实体替换为对应的多个标准实体，生成中间语句；服务器根据多个标准属性信息对中间语句进行补全，生成多个候选问题语句；服务器将多个候选问题语句发送至终端。

例如，初始文本数据为“B超和彩超有什么不同呢”，通过预置句式模板匹配到“a和b有什么区别”句式，该句式对应的模板有“((.*)([和同跟与])(.*))——{0}{和}{2}{有什么区别}”，根据改预置句式模板将“B超和彩超有什么不同呢”最终修改为“B超和彩超有什么区别”。

例如，用户输入的“阴道炎”，对应的标准实体也是“阴道炎”，通过知识图谱查找到“阴道炎”的属性信息为“治疗方法”和“注意事项”，那么补全信息后的对用户提问问题为“阴道炎怎么治疗？阴道炎需要注意什么？”

需要说明的是，属性信息是为实体构造的属性列表，药品的属性包括适应症、禁忌症，疾病的属性可以包括治疗药物、注意事项等，例如，阿莫西林是青霉素过敏者禁用。

例如，用户输入“胃炎”，无法理解用户想要咨询关于“胃炎”的具体问题，通过医学领域知识图谱查找“胃炎”的属性，生成两个候选问题语句“胃炎怎么治疗？”和“胃炎需要注意什么？”，将上述两个候选问题语句发送到目标用户使用的终端，以使得目标用户在终端上进行选择，当获取到终端反馈的指令时，确定目标问题语句。

205、根据终端反馈的指令确定目标问题语句，目标问题语句为语义明确且无冗余的句子；

例如，对于问题“胃炎怎么治疗？”和“胃炎需要注意什么？”，目标用户选择了“胃炎怎么治疗？”，那么该问题语句“胃炎怎么治疗？”确定为目标问题语句。可以理解的是，让目标用户进行选择，更加有利于理解用户的需求。

206、基于预置的医学专有特征词库对目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息。

207、调用预置的深度学习模型、多个目标特征权重和多个目标结构化信息对多个目标特征进行分类，得到分类结果，并根据分类结果确定目标用户的医学领域意图。

208、根据目标用户的医学领域意图搜索问题答案。

服务器根据目标用户的医学领域意图搜索问题答案。

可选的，当目标用户的医学领域意图为查询治疗胃溃疡的药物时，服务器将在预置的医学知识图谱中确定胃药的相关信息；服务器对胃药的相关信息进行分类，得到制酸类胃药的信息和治愈溃疡类胃药的信息；服务器将治愈溃疡类胃药的信息按照预置格式生成问题答案，并反馈给目标用户的目标终端。

因为能够准确识别到用户输入问题中的医学领域意图，因此，可以更精确的检索用户输入问题所需的答案，减少了答案的检索时长，提高了答案检索效率。

上面对本申请实施例中医学领域意图识别方法进行了描述，下面对本申请实施例中医学领域意图识别装置进行描述，请参阅图3，本申请实施例中医学领域意图识别装置的一个实施例包括：

数据获取模块301，用于获取初始文本数据，所述初始文本数据包括目标用户输入的问题句子和/或问题词语；

数据改写模块302，用于调用预置的联合模型对所述初始文本数据进行改写，生成目标问题语句，所述目标问题语句为语义明确且无冗余的句子；

特征提取模块303，用于基于预置的医学专有特征词库对所述目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息；

意图确定模块304，用于调用预置的深度学习模型、所述多个目标特征权重和所述多个目标结构化信息对所述多个目标特征进行分类，得到分类结果，并根据所述分类结果确定所述目标用户的医学领域意图。

请参阅图4，本申请实施例中医学领域意图识别装置的另一个实施例包括：

可选的，数据改写模块302包括：

抽取单元3021，用于调用预置的联合模型对所述初始文本数据进行实体抽取并进行归一化处理，得到多个标准实体；

查找单元3022，用于在预置的医学领域知识图谱中查找每个标准实体对应的属性信息，得到多个标准属性信息，每个标准属性信息对应一个不同的标准实体；

补全单元3023，用于根据所述多个标准属性信息和所述多个标准实体对所述初始文本数据进行信息补全，生成多个候选问题语句，并将所述多个候选问题语句发送至终端；

确定单元3024，用于根据所述终端反馈的指令确定目标问题语句，所述目标问题语句为语义明确且无冗余的句子。

可选的，抽取单元3021具体用于：

调用预置的联合模型对所述初始文本数据进行实体抽取，得到多个初始实体；调用预置的归一知识库对所述多个初始实体进行归一化处理，得到多个标准实体。

可选的，补全单元3023具体用于：

将所述初始文本数据与预置句式模板进行匹配，得到目标句式模板；按照所述目标句式模板对所述初始文本数据的句式进行调整，得到初始语句；将所述初始语句中的多个初始实体替换为对应的多个标准实体，生成中间语句；根据所述多个标准属性信息对所述中间语句进行补全，生成多个候选问题语句；将所述多个候选问题语句发送至终端。

可选的，特征提取模块303具体用于：

调用所述预置的联合模型对所述目标问题语句进行实体特征抽取，得到多个候选特征；调用预置的归一知识库对所述多个候选特征进行归一化处理，得到多个标准化特征；从预置的医学领域知识图谱中查询所述多个标准化特征对应的上下文以及多个目标特征权重，每个标准化特征对应一个目标特征权重；对所述对应的上下文进行结构化处理，得到多个目标结构化信息；基于预置的医学专有特征词库对所述多个标准化特征进行筛选，得到多个目标特征。

可选的，医学领域意图识别装置还包括：

图谱构建模块305，用于构建预置的医学知识图谱。

可选的，图谱构建模块305具体用于：

获取医学训练数据，并对医学训练数据进行整合；对所述医学训练数据进行实体抽取和关系抽取，生成知识三元组；对所述知识三元组进行数据标注，得到已标注数据；基于所述已标注数据对预置的序列标注模型进行训练和知识推理，生成预置的医学知识图谱。

上面图3至图4从模块化功能实体的角度对本申请实施例中的医学领域意图识别装置进行详细描述，下面从硬件处理的角度对本申请实施例中医学领域意图识别设备进行详细描述。

图5是本申请实施例提供的一种医学领域意图识别设备的结构示意图，该医学领域意图识别设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对医学领域意图识别设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在医学领域意图识别设备500上执行存储介质530中的一系列指令操作。

医学领域意图识别设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的医学领域意图识别设备结构并不构成对医学领域意图识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。处理器510可以执行上述实施例中数据获取模块301、数据改写模块302、特征提取模块303、意图确定模块304和图谱构建模块305的功能。

本申请还提供一种医学领域意图识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述医学领域意图识别设备执行上述医学领域意图识别方法中的步骤。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，也可以为易失性计算机可读存储介质。计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

获取初始文本数据，所述初始文本数据包括目标用户输入的问题句子和/或问题词语；

调用预置的联合模型对所述初始文本数据进行改写，生成目标问题语句，所述目标问题语句为语义明确且无冗余的句子；

基于预置的医学专有特征词库对所述目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息；

调用预置的深度学习模型、所述多个目标特征权重和所述多个目标结构化信息对所述多个目标特征进行分类，得到分类结果，并根据所述分类结果确定所述目标用户的医学领域意图。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种医学领域意图识别方法，包括：

获取初始文本数据，所述初始文本数据包括目标用户输入的问题句子和/或问题词语；

调用预置的联合模型对所述初始文本数据进行改写，生成目标问题语句，所述目标问题语句为语义明确且无冗余的句子；

基于预置的医学专有特征词库对所述目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息；

调用预置的深度学习模型、所述多个目标特征权重和所述多个目标结构化信息对所述多个目标特征进行分类，得到分类结果，并根据所述分类结果确定所述目标用户的医学领域意图。
根据权利要求1所述的医学领域意图识别方法，其中，所述调用预置的联合模型对所述初始文本数据进行改写，生成目标问题语句，所述目标问题语句为语义明确且无冗余的句子，包括：

调用预置的联合模型对所述初始文本数据进行实体抽取并进行归一化处理，得到多个标准实体；

在预置的医学领域知识图谱中查找每个标准实体对应的属性信息，得到多个标准属性信息，每个标准属性信息对应一个不同的标准实体；

根据所述多个标准属性信息和所述多个标准实体对所述初始文本数据进行信息补全，生成多个候选问题语句，并将所述多个候选问题语句发送至终端；

根据所述终端反馈的指令确定目标问题语句，所述目标问题语句为语义明确且无冗余的句子。
根据权利要求2所述的医学领域意图识别方法，其中，所述调用预置的联合模型对所述初始文本数据进行实体抽取并进行归一化处理，得到多个标准实体，包括：

调用预置的联合模型对所述初始文本数据进行实体抽取，得到多个初始实体；

调用预置的归一知识库对所述多个初始实体进行归一化处理，得到多个标准实体。
根据权利要求3所述的医学领域意图识别方法，其中，所述根据所述多个标准属性信息和所述多个标准实体对所述初始文本数据进行信息补全，生成多个候选问题语句，并将所述多个候选问题语句发送至终端，包括：

将所述初始文本数据与预置句式模板进行匹配，得到目标句式模板；

按照所述目标句式模板对所述初始文本数据的句式进行调整，得到初始语句；

将所述初始语句中的多个初始实体替换为对应的多个标准实体，生成中间语句；

根据所述多个标准属性信息对所述中间语句进行补全，生成多个候选问题语句；

将所述多个候选问题语句发送至终端。
根据权利要求1所述的医学领域意图识别方法，其中，所述基于预置的医学专有特征词库对所述目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息，包括：

调用所述预置的联合模型对所述目标问题语句进行实体特征抽取，得到多个候选特征；

调用预置的归一知识库对所述多个候选特征进行归一化处理，得到多个标准化特征；

从预置的医学领域知识图谱中查询所述多个标准化特征对应的上下文以及多个目标特征权重，每个标准化特征对应一个目标特征权重；

对所述对应的上下文进行结构化处理，得到多个目标结构化信息；

基于预置的医学专有特征词库对所述多个标准化特征进行筛选，得到多个目标特征。
根据权利要求1-5中任一项所述的医学领域意图识别方法，其中，在所述获取初始文本数据，所述初始文本数据包括目标用户输入的问题句子和/或问题词语之前，所述医学领域意图识别方法还包括：

构建预置的医学知识图谱。
根据权利要求6所述的医学领域意图识别方法，其中，所述构建预置的医学知识图谱，包括：

获取医学训练数据，并对医学训练数据进行整合；

对所述医学训练数据进行实体抽取和关系抽取，生成知识三元组；

对所述知识三元组进行数据标注，得到已标注数据；

基于所述已标注数据对预置的序列标注模型进行训练和知识推理，生成预置的医学知识图谱。
一种医学领域意图识别设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取初始文本数据，所述初始文本数据包括目标用户输入的问题句子和/或问题词语；

调用预置的联合模型对所述初始文本数据进行改写，生成目标问题语句，所述目标问题语句为语义明确且无冗余的句子；

基于预置的医学专有特征词库对所述目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息；

调用预置的深度学习模型、所述多个目标特征权重和所述多个目标结构化信息对所述多个目标特征进行分类，得到分类结果，并根据所述分类结果确定所述目标用户的医学领域意图。
根据权利要求8所述的医学领域意图识别设备，所述处理器执行所述计算机程序时还实现以下步骤：

调用预置的联合模型对所述初始文本数据进行实体抽取并进行归一化处理，得到多个标准实体；

在预置的医学领域知识图谱中查找每个标准实体对应的属性信息，得到多个标准属性信息，每个标准属性信息对应一个不同的标准实体；

根据所述多个标准属性信息和所述多个标准实体对所述初始文本数据进行信息补全，生成多个候选问题语句，并将所述多个候选问题语句发送至终端；

根据所述终端反馈的指令确定目标问题语句，所述目标问题语句为语义明确且无冗余的句子。
根据权利要求9所述的医学领域意图识别设备，所述处理器执行所述计算机程序时还实现以下步骤：

调用预置的联合模型对所述初始文本数据进行实体抽取，得到多个初始实体；

调用预置的归一知识库对所述多个初始实体进行归一化处理，得到多个标准实体。
根据权利要求10所述的医学领域意图识别设备，所述处理器执行所述计算机程序时还实现以下步骤：

将所述初始文本数据与预置句式模板进行匹配，得到目标句式模板；

按照所述目标句式模板对所述初始文本数据的句式进行调整，得到初始语句；

将所述初始语句中的多个初始实体替换为对应的多个标准实体，生成中间语句；

根据所述多个标准属性信息对所述中间语句进行补全，生成多个候选问题语句；

将所述多个候选问题语句发送至终端。
根据权利要求8所述的医学领域意图识别设备，所述处理器执行所述计算机程序时还实现以下步骤：

调用所述预置的联合模型对所述目标问题语句进行实体特征抽取，得到多个候选特征；

调用预置的归一知识库对所述多个候选特征进行归一化处理，得到多个标准化特征；

从预置的医学领域知识图谱中查询所述多个标准化特征对应的上下文以及多个目标特征权重，每个标准化特征对应一个目标特征权重；

对所述对应的上下文进行结构化处理，得到多个目标结构化信息；

基于预置的医学专有特征词库对所述多个标准化特征进行筛选，得到多个目标特征。
根据权利要求8-12中任一项所述的医学领域意图识别设备，所述处理器执行所述计算机程序时实现所述获取初始文本数据，所述初始文本数据包括目标用户输入的问题句子和/或问题词语之前，还包括以下步骤：

构建预置的医学知识图谱。
根据权利要求13所述的医学领域意图识别设备，所述处理器执行所述计算机程序时还实现以下步骤：

获取医学训练数据，并对医学训练数据进行整合；

对所述医学训练数据进行实体抽取和关系抽取，生成知识三元组；

对所述知识三元组进行数据标注，得到已标注数据；

基于所述已标注数据对预置的序列标注模型进行训练和知识推理，生成预置的医学知识图谱。
一种计算机可读存储介质，所述计算机可读存储介质中存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

获取初始文本数据，所述初始文本数据包括目标用户输入的问题句子和/或问题词语；

调用预置的联合模型对所述初始文本数据进行改写，生成目标问题语句，所述目标问题语句为语义明确且无冗余的句子；

基于预置的医学专有特征词库对所述目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息；

调用预置的深度学习模型、所述多个目标特征权重和所述多个目标结构化信息对所述多个目标特征进行分类，得到分类结果，并根据所述分类结果确定所述目标用户的医学领域意图。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

调用预置的联合模型对所述初始文本数据进行实体抽取并进行归一化处理，得到多个标准实体；

在预置的医学领域知识图谱中查找每个标准实体对应的属性信息，得到多个标准属性信息，每个标准属性信息对应一个不同的标准实体；

根据所述多个标准属性信息和所述多个标准实体对所述初始文本数据进行信息补全，生成多个候选问题语句，并将所述多个候选问题语句发送至终端；

根据所述终端反馈的指令确定目标问题语句，所述目标问题语句为语义明确且无冗余的句子。
根据权利要求16所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

调用预置的联合模型对所述初始文本数据进行实体抽取，得到多个初始实体；

调用预置的归一知识库对所述多个初始实体进行归一化处理，得到多个标准实体。
根据权利要求17所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

将所述初始文本数据与预置句式模板进行匹配，得到目标句式模板；

按照所述目标句式模板对所述初始文本数据的句式进行调整，得到初始语句；

将所述初始语句中的多个初始实体替换为对应的多个标准实体，生成中间语句；

根据所述多个标准属性信息对所述中间语句进行补全，生成多个候选问题语句；

将所述多个候选问题语句发送至终端。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行以下步骤：

调用所述预置的联合模型对所述目标问题语句进行实体特征抽取，得到多个候选特征；

调用预置的归一知识库对所述多个候选特征进行归一化处理，得到多个标准化特征；

从预置的医学领域知识图谱中查询所述多个标准化特征对应的上下文以及多个目标特征权重，每个标准化特征对应一个目标特征权重；

对所述对应的上下文进行结构化处理，得到多个目标结构化信息；

基于预置的医学专有特征词库对所述多个标准化特征进行筛选，得到多个目标特征。
一种医学领域意图识别装置，所述医学领域意图识别装置包括：

数据获取模块，用于获取初始文本数据，所述初始文本数据包括目标用户输入的问题句子和/或问题词语；

数据改写模块，用于调用预置的联合模型对所述初始文本数据进行改写，生成目标问题语句，所述目标问题语句为语义明确且无冗余的句子；

特征提取模块，用于基于预置的医学专有特征词库对所述目标问题语句进行特征提取，得到多个目标特征、多个目标特征权重和多个目标结构化信息；

意图确定模块，用于调用预置的深度学习模型、所述多个目标特征权重和所述多个目标结构化信息对所述多个目标特征进行分类，得到分类结果，并根据所述分类结果确定所述目标用户的医学领域意图。