WO2020244534A1

WO2020244534A1 - 医疗问答方法、医疗问答系统、电子设备和计算机可读存储介质

Info

Publication number: WO2020244534A1
Application number: PCT/CN2020/094068
Authority: WO
Inventors: 胡玉兰
Original assignee: 京东方科技集团股份有限公司
Priority date: 2019-06-05
Filing date: 2020-06-03
Publication date: 2020-12-10
Also published as: US20210375404A1; CN110176315A; CN110176315B

Abstract

一种医疗问答方法、系统、电子设备和计算机可读存储介质，所述方法包括：根据患者输入的病情描述语句识别患者的意图（S11）；根据所述患者的意图，从所述病情描述语句中抽取与病情特征对应的至少一个实体词（S12）；根据预设的同义词映射表获取与所述至少一个实体词中的每一个同义的标准表述词（S13）；其中，所述同义词映射表包括多个标准表述词与各自对应的实体词之间的映射关系；根据患者的意图和标准表述词生成语义解析结果（S14）；根据语义解析结果输出相应的答案（S15）。

Description

医疗问答方法、医疗问答系统、电子设备和计算机可读存储介质

相关申请的交叉引用

本申请要求于2019年6月5日提交的中国专利申请No.201910484808.4的优先权，该专利申请的全部内容通过引用方式合并于此。

技术领域

本公开涉及互联网技术领域，具体涉及一种医疗问答方法、一种医疗问答系统、一种电子设备和一种计算机可读存储介质。

背景技术

随着互联网的飞速发展，在健康相关的医疗领域，出现了许多在线疾病问答网站，它们可以为患者初期提供有建设性的疾病诊断建议。然而，由于患者在进行咨询时，存在口语化、描述多样性等问题，因此需要正确地理解患者输入的问题并对患者输入的问题进行回答。

发明内容

本公开的实施例提供了一种医疗问答方法、一种医疗问答系统、一种电子设备和一种非暂时性计算机可读存储介质。

本公开的第一方面提供了一种医疗问答方法，包括：

根据患者输入的医疗咨询语句识别患者的意图；

根据所述患者的意图，从所述医疗咨询语句中抽取与病情特征对应的至少一个实体词；

根据预设的同义词映射表获取与所述至少一个实体词中的每一个同义的标准表述词；其中，所述同义词映射表包括多个标准表述词与各自对应的实体词之间的映射关系；

根据所述患者的意图和所述标准表述词生成语义解析结果；以及

根据所述语义解析结果输出相应的答案。

在一个实施例中，所述根据患者输入的医疗咨询语句识别患者的意图，包括：

获取所述患者输入的医疗咨询语句的文档主题信息；

将所述患者输入的医疗咨询语句由文本数据转换为向量数据；

根据所述医疗咨询语句所对应的文档主题信息和所述向量数据，获取所述医疗咨询语句对应于每种预设的意图的分数；以及

根据所述医疗咨询语句对应于每种预设的意图的分数，确定所述患者的意图。

在一个实施例中，所述根据患者的意图，从所述医疗咨询语句中抽取与病情特征对应的至少一个实体词，包括：

获取与所述患者的意图相对应的语义槽模板，所述语义槽模板包括用于表征病情特征的多个语义槽；以及

从所述医疗咨询语句中抽取与所述语义槽模板中的所述多个语义槽对应的实体词。

在一个实施例中，所述从所述医疗咨询语句中抽取与所述语义槽模板中的所述多个语义槽对应的实体词，包括：

利用序列标注模型对所述医疗咨询语句进行序列标注，并根据序列标注结果获得与所述语义槽模板中的所述多个语义槽对应的实体词。

在一个实施例中，所述根据所述患者的意图和所述标准表述词生成语义解析结果，包括：

将所述患者的医疗咨询语句所对应的标准表述词填充至所述多个语义槽中相应的语义槽中；

判断当前的语义槽模板中是否存在未被填充的语义槽；

若判断的结果是当前的语义槽模板中存在未被填充的语义槽，则生成与未填充的语义槽对应的询问问题，并根据患者针对所述询问问题所输入的回答语句，对未填充的语义槽进行填充，直至当前的语义槽模板的所有的语义槽均被填充为止；以及

根据所述患者的意图、每个语义槽及其填充值生成所述语义解析结果。

在一个实施例中，所述根据所述语义解析结果输出相应的答案包括：

计算所述语义解析结果与医患问答知识库中各样本组的匹配度，每个所述样本组包括问题样本及其对应的答案样本；以及

将最大匹配度所对应的答案样本进行输出。

在一个实施例中，所述计算所述语义解析结果与医患问答知识库中各样本组的匹配度，包括：

计算所述语义解析结果与所述问题样本的相似度、以及所述语义解析结果与所述答案样本的相关度；以及

根据所述相似度和第一加权系数、以及所述相关度和第二加权系数，生成所述匹配度。

在一个实施例中，所述病情特征包括：发病症状、症状发生时间、症状持续时间、伴随症状、病史、治疗史和患者年龄中的至少一者。

在一个实施例中，在所述根据患者输入的医疗咨询语句识别患者的意图之前，所述医疗问答方法还包括：

生成标准词库，该标准词库中存储有多个标准表述词样本；

采集与每个标准表述词样本对应的至少一个同义词；

计算每个标准表述词样本与其对应的同义词的相似度；将大于预设值的相似度所对应的同义词保留，并将小于或等于所述预设值的相似度所对应的同义词去除；以及

根据每个同义词及其对应的、且当前保留的同义词，生成所述同义词映射表。

本公开的第二方面提供了一种医疗问答系统，包括：

意图识别器，用于根据患者输入的医疗咨询语句识别患者的意图；

实体词抽取器，用于根据所述患者的意图，从所述医疗咨询语句中抽取与病情特征对应的至少一个实体词；

标准词获取单元，用于根据预设的同义词映射表获取与所述至少一个实体词中的每一个同义的标准表述词；其中，所述同义词映射表包括多个标准表述词与各自对应的实体词之间的映射关系；

解析器，用于根据所述患者的意图和所述标准表述词生成语义解析结果；以及

输出单元，根据所述语义解析结果输出相应的答案。

在一个实施例中，所述意图识别器还用于：

获取所述患者输入的医疗咨询语句的文档主题信息；

在一个实施例中，所述实体词抽取器包括：

模板获取单元，用于获取与所述患者的意图相对应的语义槽模板，所述语义槽模板包括用于表征病情特征的多个语义槽；以及

识别单元，用于从所述医疗咨询语句中抽取与所述语义槽模板中的所述多个语义槽对应的实体词。

在一个实施例中，所述识别单元还用于：

在一个实施例中，所述解析器包括：

填充单元，用于将所述患者的医疗咨询语句所对应的标准表述词填充至所述多个语义槽中相应的语义槽中；

判断单元，用于判断所述语义槽模板中是否存在未被填充的语义槽；

询问单元，用于当所述语义槽模板中存在未填充的语义槽时，生成与未填充的语义槽对应的询问问题，并根据患者针对所述询问问题所输入的回答语句，对未填充的语义槽进行填充，直至当前的语义槽模板的所有的语义槽均被填充为止；以及

解析单元，用于根据所述患者的意图、每个语义槽及其填充值生成所述语义解析结果。

在一个实施例中，所述输出单元包括：

匹配度计算器，用于计算所述语义解析结果与医患问答知识库中各样本组的匹配度，每个所述样本组包括问题样本及其对应的答案样本；以及

输出单元，用于将最大匹配度所对应的答案样本进行输出。

在一个实施例中，所述匹配度计算器包括：

计算子单元，用于计算所述语义解析结果与所述问题样本的相似度、以及所述语义解析结果与所述答案样本的相关度；以及

生成子单元，用于根据所述相似度和第一加权系数、以及所述相关度和第二加权系数，生成所述匹配度。

在一个实施例中，所述医疗问答系统还包括：

标准词库生成器，用于生成标准词库，该标准词库中存储有多个标准表述词样本；

同义词采集器，用于采集与每个标准表述词样本对应的至少一个同义词；

筛选器，用于计算每个标准表述词样本与其对应的同义词的相似度，将大于预设值的相似度所对应的同义词保留，将小于或等于所述预设值的相似度所对应的同义词去除；以及

映射表生成器，用于根据每个同义词及其对应的、且当前保留的同义词，生成所述同义词映射表。

本公开的第三方面提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其中，所述计算机程序被所述处理器执行时实现根据本公开的第一方面的各个实施例中任意一个所述的医疗问答方法。

本公开的第四方面提供了一种非暂时性计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现根据本公开的第一方面的各个实施例中任意一个所述的医疗问答方法。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本公开实施例提供的一种医疗问答方法的流程图；

图2为本公开实施例提供的另一种医疗问答方法的流程图；

图3为本公开实施例提供的生成同义词映射表的流程示意图；

图4为本公开实施例提供的一种医疗问答系统的结构示意图；以及

图5为本公开实施例提供的一种医疗问答系统的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的医疗问答方法、医疗问答系统、电子设备和计算机可读存储介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一种”、“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。

本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。因此，实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

本公开的发明人发现，当患者(或用户)向相关的在线疾病问答网站进行咨询时，由于患者输入的问题一般是口语化并且描述是多样性的，导致相关的在线疾病问答网站(或相关的问答系统)不能很好地对患者输入的问题进行回答。

图1为本公开实施例提供的一种医疗问答方法的流程图。例如，该医疗问答方法可以由医疗问答系统来执行，该系统可以通过软件和/或硬件的方式来实现，该系统可以集成在电子设备中。如图1所示，医疗问答方法可以包括以下步骤S11至步骤S15。

步骤S11、根据患者(或用户)输入的医疗咨询语句识别患者的意图。

例如，患者的意图的种类可以包括“疾病诊断”、“治疗”、“用药”、“用药效果咨询”、“发病原因咨询”、“手术咨询”等。

例如，步骤S11可以利用预设的意图识别模型来确定患者意图的具体种类。

步骤S12、根据患者的意图，从医疗咨询语句中抽取与病情特征对应的至少一个实体词。

在一些实施例中，患者的病情特征包括：发病症状、症状发生时间、症状持续时间、伴随症状、病史、治疗史和患者年龄中的至少一者。每种意图可以对应预设的一种或多种病情特征。例如，实体词可以是与患者的发病症状、症状发生时间、症状持续时间、伴随症状、病史、治疗史和年龄中的至少一者相对应的词语。

例如，患者输入的医疗咨询语句为“成人发烧38.5度两天了怎么办？”，则识别出患者的意图为“治疗”、根据“治疗”这一意图，抽取出：与“患者年龄”对应的实体词“成人”、与“发病症状”对应的实体词“发烧”，与“症状持续时间”对应的实体词“两天”等。

步骤S13、根据预设的同义词映射表获取与所述至少一个实体词中的每一个同义的标准表述词。例如，同义词映射表可以包括多个标准表述词与各自对应的同义词(即，所述实体词)之间的映射关系。

例如，步骤S12中所抽取的实体词可以为口语化的词语，例如“拉肚子”、“吃不下饭”、“胃口不好”、“食欲不好”；根据同义词映射表可以得到与“拉肚子”对应的标准表述词为“腹泻”，以及“吃不下饭”、“胃口不好”、“食欲不好”对应的标准表述词均为“厌食”。

步骤S14、根据患者的意图和标准表述词生成语义解析结果。

步骤S15、根据语义解析结果输出相应的答案。

在相关的医疗问答系统中，由于患者在进行咨询时，存在口语化、描述多样性等问题，因此，并不能准确地判断出患者的真实表述含义，从而不能准确地进行回答。而在本公开实施例中，抽取出患者输入的医疗咨询语句中的一些疾病、症状及描述症状特征的相关词(即，所述实体词)之后，将所述相关词转换为标准表述词，从而有利于系统给出准确的回答。

图2为本公开实施例提供的另一种医疗问答方法的流程图。如图2所示，该医疗问答方法可以包括以下步骤S21至步骤S25。

步骤S21、根据患者输入的医疗咨询语句识别患者的意图。

在一些实施例中，该步骤S21可以包括以下步骤S211至步骤S213。

步骤S211、获取患者输入的医疗咨询语句的文档主题信息；以及将患者输入的医疗咨询语句由文本数据转换为向量数据。

可选地，可以利用文档主题生成(也称为Latent Dirichlet Allocation，简称为LDA)模型生成医疗咨询语句的文档主题信息，利用word2vec模型将医疗咨询语句转换为embedding词(word embedding)向量。

步骤S212、根据医疗咨询语句所对应的文档主题信息和向量数据，获取医疗咨询语句对应于每种预设的意图的分数。

例如，可以将医疗咨询语句所对应的文档主题信息和向量数据拼接得到包含词信息和主题信息的向量矩阵，并将该向量矩阵输入给双向门控循环单元(BiGRU)，以获得医疗咨询语句对应于每种预设的意图的分数。每种预设的意图可以根据预先学习的方式获得。

步骤S213、根据医疗咨询语句对应于每种预设的意图的分数，确定患者的意图。

例如，利用softmax分类器将对应于每个意图的分数映射为(0,1)之间的概率，从而根据最大概率确定患者的意图。在此处，softmax分类器仅为示意，其它的分类器，例如svm分类器也可以应用。

例如，步骤S21可以利用预设的意图识别模型来执行，意图识别模型可以包括word2vec模型、文档主题生成(LDA)模型、双向门控循环单元(BiGRU)和softmax分类器。

可以通过训练的方法获得所需功能的意图识别模型。在进行训练时，通过样本，即从专业医疗网站或App(如好大夫(参见www.haodf.com)、丁香医生(参见www.dxy.com)、平安好医生(参见www.jk.cn)等)或医疗问诊病历(病人与医生的问诊记录)采集医患问答数据，从中抽取患者的医疗咨询语句，并对医疗咨询语句的文本进行数据清洗(即，去除文本中的非关键词，例如“你好”等)。之后，采用聚类算法对文本数据进行聚类，并通过抽样的方式确定患者通常询问的意图种类；并由专业人员(医生或具有医学知识的专业人员)确定每类意图的具体种类。并根据每个医疗咨询语句及其对应的意图种类来训练意图识别模型。

以表1为例，显示了采集的部分医疗咨询语句及其对应的意图种类的示例。

表1

医疗咨询语句	意图的种类
重症胰腺炎炎症没好转怎么办？	治疗
多囊吃了来曲，想确定有无排卵	用药效果咨询
身上各个地方先后出现红色疹子	疾病诊断
腰肌劳损治愈的时间和用药情况	用药咨询
这是怎么回事，什么引起的发烧？	发生原因询问
挤眼，张嘴，点头症状严重吗？	疾病诊断
多囊，吃黄体酮七天后没来月经	用药效果咨询
多卵性卵巢囊肿需要小孩怎么办？	治疗
2岁半宝宝摩擦性苔藓，如何用药	用药咨询
多颗牙齿缺失能不能做种植牙？	手术咨询

在一些实施例中，意图的种类可以包括：“疾病诊断”、“治疗”、“用药咨询”、“用药效果咨询”、“发病原因询问”、“手术咨询”和“其他”，当根据意图识别模型判断出患者的意图为“其他”时，则可以直接提示用户无法回答此类问题。

步骤S22、根据患者的意图，从所述医疗咨询语句中抽取与病情特征对应的至少一个实体词。

示例性地，所述病情特征包括：发病症状、症状发生时间、症状持续时间、伴随症状、病史、治疗史和患者年龄中的至少一者。

在一些实施例中，该步骤S22可以包括以下步骤S221和步骤S222。

步骤S221、获取与患者的意图相对应的语义槽模板，每个语义槽模板包括多个用于表征病情特征的语义槽。

例如，每种意图所对应的语义槽模板可以预先设定。例如，“用药咨询”所对应的语义槽模板中包括用于表征“症状”、“症状发生的时间”、“伴随症状”、“病史”、“治疗史”的多个语义槽。

步骤S222、从医疗咨询语句中抽取与语义槽模板中的语义槽对应的实体词。

在一些实施例中，可以采用命名实体识别方法从医疗咨询语句中抽取与语义槽模板中的语义槽对应的实体词。

具体地，步骤S222可以包括：利用序列标注模型对所述医疗咨询语句进行序列标注，并根据序列标注结果获得与语义槽模板中的语义槽对应的实体词。

例如，序列标注模型可以为BiLSTM-CRF模型，该模型采用BIO标注集进行基于语义槽的名称的命名实体识别。例如，语义槽模板中包括两个语义槽：“疾病”和“症状名称”，采用BIO标注集进行标注时，以B-DIS代表疾病首字，I-DIS代表疾病非首字，B-SYM代表症状首字，I-SYM症状非首字，O代表该字不属于命名实体中的一部分。当然，语义槽模板包括其他数量的语义槽时，如：“疾病”、“发病时间”、“用药史”和“症状名称”，则可以以B1-DIS代表疾病首字，I1-DIS代表疾病非首字，B1-SYM代表症状首字，I1-SYM症状非首字，B2-DIS代表发病时间首字，I2-DIS代表发病时间非首字，B1-SYM代表用药史首字，I2-SYM症状非首字；O代表该字不属于命名实体中的一部分。

例如，BiLSTM-CRF模型可以通过训练的方式得到。在训练时，设置多个样本序列及其各自对应的标注序列，每个样本序列与其对应的标注序列具有相同的长度；将样本序列作为初始BiLSTM-CRF模型的输入、将样本序列对应的标注序列作为初始BiLSTM-CRF模型的输出，并通过多次训练得到所需功能的BiLSTM-CRF模型。

步骤S23、根据预设的同义词映射表获取与所述至少一个实体词中的每一个同义的标准表述词。例如，同义词映射表包括多个标准表述词与各自对应的同义词(即，所述实体词)之间的映射关系。

例如，同义词映射表可以在步骤S21之前提供。图3为本公开实施例提供的生成同义词映射表的流程示意图。如图3所示，生成同义词映射表的过程可以包括以下步骤S301至步骤S304。

步骤S301、生成标准词库，该标准词库中存储有多个标准表述词样本(即，多个标准表述词的样本)。

步骤S302、采集与每个标准表述词样本对应的至少一个同义词。

例如，与标准表述词样本对应的同义词是指，与标准表述词的含义相同或基本相同。可以从各大医疗网站、论坛、百度百科(参见 baike.baidu.com)等网站采集与标准表述词样本对应的同义词，该步骤采集到的同义词可以为口语化的非标准表述词。

例如，标准表述词可以从权威的医学教材、词典、手册等获取，例如医疗卫生管理部门发布的各类疾病的诊疗指南、医学行业协会发布的临床诊疗指南、医生案头手册(PDR，Physician’s Desk Reference)、药典等。

步骤S303、计算每个标准表述词样本与其对应的同义词的相似度(如余弦相似度)；将大于预设值的相似度所对应的同义词保留，并将小于或等于所述预设值的相似度所对应的同义词去除。

例如，可以利用现有的同义词识别模型(例如，可以使用word2vec来计算各个词之间的语义相似度)来计算相似度。当相似度过小时，则表明相应的标准表述词样本与采集到的同义词表达的含义并不相同，将该同义词去除即可。例如，该相似度可以是在0和1之间的值。

例如，用于判断每个标准表述词样本与其对应的同义词的相似度的预设值可以根据实际需要设置。

在自然语言处理技术领域，已经发展了多种识别同义词的模型。例如，Synonyms工具包、LRWE模型等。本公开的实施例也可以使用这些已知的模型来识别同义词。

步骤S304、根据每个标准表述词样本(即，标准表述词的样本)及其对应的、且当前保留的同义词，生成所述同义词映射表。

表2示例性地示出了同义词映射表的一部分。

表2

在步骤S23中，可以从同义词映射表中直接查询与实体词同义的标准表述词。

步骤S24、根据患者的意图和标准表述词生成语义解析结果。

在一些实施例中，步骤S24具体包括以下步骤S241至步骤S244。

步骤S241、将患者的医疗咨询语句所对应的标准表述词填充至当前的语义槽模板的所述多个语义槽中相应的语义槽中。

例如，患者输入的医疗咨询语句为“感冒、嗓子发干，请问需要吃什么药”，根据医疗咨询语句可以识别患者的意图为“用药咨询”，该意图所对应的语义槽模板中的多个语义槽包括：“症状”、“症状发生的时间”、“伴随症状”“病史”和“治疗史”。通过对医疗咨询语句进行命名实体识别，得到与“症状”的实体词为：“感冒、嗓子发干”；利用同义词映射表得到与“嗓子发干”得到的标准表述词为“喉咙干”，那么，则将“感冒、喉咙干”填充至“症状”的语义槽中。

步骤S242、判断当前的语义槽模板中是否存在未被填充的语义槽。

若判断的结果是当前的语义槽模板中不存在未被填充的语义槽，则继续进行至步骤S243，如下文所述。

若判断的结果是当前的语义槽模板中存在未被填充的语义槽，则继续进行至步骤S244。在步骤S244中，生成与未填充的语义槽对应的询问问题，并根据患者针对询问问题所输入的回答语句，对未填充的语义槽进行填充，直至所有的语义槽均被填充为止。

在一些实际应用场景中，患者第一次输入的医疗咨询语句中可能只包含少量的几个病情特征，例如，只包括症状和发病时间；而大多数情况下，患者症状出现的时间、特点、状态、伴随症状直接决定了患者可能患某种疾病的可能性。例如，呕吐是一种常见的症状，有可能是感冒引发的症状，也可能是其他原因引发的症状，呕吐时间不同，可能诊断的疾病结果不同。本公开实施例中，当用户的医疗咨询语句中的有用信息较少，而导致语义槽模板中的语义槽未完全填充时，可向用户(或患者)输出询问问题，进而得到更全面的信息。这样，根据本公开的实施例的医疗问答方法突破了传统的单轮式问答方式，实现多轮交互。

步骤S243、根据患者的意图、每个语义槽及其填充值生成语义解析结果。

例如，语义解析结果可以采用act(slot1＝value1，slot2＝value2……)三元组的形式，act表示意图，slot1、slot2为语义槽、value1、value2为各语义槽中填充的槽值。例如，意图为“用药咨询”、语义槽包括“症状”、“症状发生的时间”、“伴随症状”“病史”和“治疗史”；语义槽“症状”的槽值为“头痛”，语义槽“症状发生的时间”的槽值为“一天前”，语义槽“伴随症状”的槽值为“干呕”，语义槽“病史”的槽值为“大三阳”，语义槽“治疗史”的槽值为“抗病毒”；则三元组形式的语义解析结果即为：“用药咨询(症状＝头痛，症状发生的时间＝一天前，伴随症状＝干呕，病史＝大三阳，治疗史＝抗病毒)”。

步骤S25、根据语义解析结果输出相应的答案。

在一些实施例中，该步骤S25可以包括以下步骤S251和步骤S252。

步骤S251、计算语义解析结果与医患问答知识库中各样本组的匹配度，每个样本组包括问题样本(即，问题的样本)及其对应的答案样本(即，答案的样本)。

例如，步骤S251具体可以包括以下步骤S251a和步骤S251b。

步骤S251a、计算语义解析结果与问题样本的相似度、以及语义解析结果与答案样本的相关度。例如，语义解析结果与问题样本的相似度以及语义解析结果与答案样本的相关度均可以利用现有的相关度计算方法来计算，例如BM25算法。

步骤S251b、根据相似度和第一加权系数、以及相关度和第二加权系数，生成匹配度。即，匹配度为：相似度和第一加权系数的乘积与相关度和第二加权系数的乘积之和。

例如，第一加权系数和第二加权系数可以根据实际需要进行设置，第一加权系数和第二加权系数中的每一个在0和1之间，并且第一加权系数和第二加权系数之和等于1。

步骤S252、将最大匹配度所对应的答案样本进行输出。

由于匹配度是语义解析结果与问题样本的相似度以及语义解析结果与答案样本的加权和，因此，最大匹配度的样本组中，问题样本与语义解析结果的相似度以及答案样本与语义解析结果的相关度均较高。

当然，也可以采用其他的方式选择与语义解析结果对应的答案。例如，语义解析结果与某一问题样本的相似度超过预设的第一阈值，且语义解析结构与该问题样本所对应的答案样本的相关度超过第二阈值，则将该答案样本进行输出。

表3列举出了一种语义分析结果所对应的问题与各问题样本的相似度以及与各答案样本的相关度。

例如，表3中同一行的问题样本和答案样本为同一个样本组。对于表3中患者的医疗咨询语句“多颗牙齿缺失能不能做种植牙”，其语义解析结果与第一个问题样本的相似度以及与第一个答案样本的相关度均达到最大，此时，语义解析结果与第一组样本组的匹配度最高，因此，将第一个答案样本进行输出。

表3

下面举例介绍医疗问答系统方法。

例如，患者输入的医疗咨询语句为“感冒，鼻塞，头痛，嗓子发干，背部酸痛，太阳穴扎着痛，昨天早上开始生病的，大概就是流鼻涕，下午头有点痛，到昨晚喉咙干，胃有点翻，然后就失眠到两点多，今早起来一个鼻孔里流着清鼻涕，一个鼻孔流着黄鼻涕没多少，擦了三四次就变成了清鼻涕。今天下午发烧，边烧边流汗。请问需要吃什么药？”。首先，利用意图识别模型识别出患者的意图为“用药咨询”，其对应的语义槽模板中包括的语义槽为：症状、症状发生时间、伴随症状、病史、治疗史。抽取出医疗咨询语句中的与病情特征对应的实体词，并将其转换为标准表述词；将各标准表述词填充至当前的语义槽模板的所述多个语义槽中相应的语义槽中，得到：症状＝“感冒，鼻塞，头痛，喉咙干，背部酸痛，太阳穴刺痛”，症状发生时间＝“昨天早上开始”，伴随症状＝“流鼻涕，发烧，边烧边流汗”；之后，生成与“病史”对应的询问语句“有无病史”；以及生成与“治疗史”对应的询问语句“有无治疗史”。假设用户作出回答为：“得过大三阳，一直在抗病毒”，那么，在“病史”的语义槽中填充槽值“大三阳”，在“治疗史”的语义槽中填充槽值“抗病毒”；从而得到语义分析结果。最后，根据语义分析结果作出回答“您所患疾病为感冒(自愈性疾病)，用药建议：泰诺、板蓝根”。

图4为本公开实施例提供的一种医疗问答系统的结构示意图，该医疗问答系统可以用于执行上述医疗问答方法。如图4所示，该医疗问答系统可以包括：意图识别器10、实体词抽取器20、标准词获取单元30、解析器40和输出单元50。

例如，意图识别器10用于根据患者输入的医疗咨询语句识别患者的意图。

在一些实施例中，意图识别器10可以用于将患者输入的医疗咨询语句由文本数据转换为向量数据；将向量数据输入至预设的意图识别模型，以识别出患者的意图。

在一些实施例中，意图识别模型为基于文档主题生成模型和双向门控循环单元的分类模型。

在一些实施例中，所述意图识别器10还用于：获取所述患者输入的医疗咨询语句的文档主题信息；将所述患者输入的医疗咨询语句由文本数据转换为向量数据；根据所述医疗咨询语句所对应的文档主题信息和所述向量数据，获取所述医疗咨询语句对应于每种预设的意图的分数；以及根据所述医疗咨询语句对应于每种预设的意图的分数，确定所述患者的意图。

实体词抽取器20用于根据患者的意图，从所述医疗咨询语句中抽取至少一个与病情特征对应的实体词。可选地，所述病情特征包括：发病症状、症状发生时间、症状持续时间、伴随症状、病史、治疗史和患者年龄中的至少一者。

标准词获取单元30用于根据预设的同义词映射表获取与实体词同义的标准表述词。例如，同义词映射表包括多个标准表述词与各自对应的同义词(即，所述实体词)之间的映射关系。

解析器40用于根据患者的意图和标准表述词生成语义解析结果。

输出单元50用于根据所述语义解析结果输出相应的答案。

图5为本公开实施例提供的一种医疗问答系统的结构示意图。如图5所示，该医疗问答系统除了包括上述意图识别器10、实体词抽取器20、标准词获取单元30、解析器40、输出单元50之外，还包括：标准词库生成器60、同义词采集器70、筛选器80和映射表生成器90。

在一些实施例中，实体词抽取器20包括模板获取单元21和识别单元22。

模板获取单元21用于获取与患者的意图相对应的语义槽模板，每个语义槽模板包括多个用于表征病情特征的语义槽。

识别单元22用于从医疗咨询语句中抽取与语义槽模板中的语义槽对应的实体词。

例如，识别单元22可以用于利用序列标注模型对医疗咨询语句进行序列标注，并根据序列标注结果获得与语义槽模板中的语义槽对应的实体词。

此外，所述识别单元还可以用于：利用序列标注模型对所述医疗咨询语句进行序列标注，并根据序列标注结果获得与所述语义槽模板中的所述多个语义槽对应的实体词。

在一些实施例中，解析器40包括：填充单元41、判断单元42、询问单元43和解析单元44。

例如，填充单元41用于将患者的医疗咨询语句所对应的标准表述词填充至当前的语义槽模板的所述多个语义槽中相应的语义槽中。

判断单元42用于判断当前的语义槽模板中是否存在未被填充的语义槽。

询问单元43用于当当前的语义槽模板中存在未填充的语义槽时，生成与未填充的语义槽对应的询问问题，并根据患者针对询问问题所输入的回答语句，对未填充的语义槽进行填充，直至当前的语义槽模板中所有的语义槽均被填充。

解析单元44用于根据患者的意图、每个语义槽及其填充值生成语义解析结果。

在一些实施例中，输出单元50包括：匹配度计算器51和输出单元52。

例如，匹配度计算的单元51用于计算语义解析结果与医患问答知识库中各样本组的匹配度。每个样本组包括问题样本及其对应的答案样本。

在一些实施例中，匹配度计算器51包括：计算子单元511和生成子单元512。

例如，计算子单元511用于计算所述语义解析结果与所述问题样本的相似度、以及所述语义解析结果与所述答案样本的相关度。

生成子单元512用于根据所述相似度和第一加权系数、以及所述相关度和第二加权系数，生成所述匹配度。

输出单元52用于将最大匹配度所对应的答案样本进行输出。

标准词库生成器60用于生成标准词库，该标准词库中存储有多个标准表述词样本。

同义词采集器70用于采集与每个标准表述词样本对应的至少一个同义词。

筛选器80用于计算每个标准表述词样本与其对应的同义词的相似度；并将大于预设值的相似度所对应的同义词保留，将小于或等于预设值的相似度所对应的同义词去除。例如，该预设值可以为0.5、0.6、0.7、0.8或0.9等。

映射表生成器90用于根据每个同义词及其对应的、且当前保留的同义词，生成同义词映射表。

对于上述各模块和单元的实现细节和技术效果的描述，可以参见前述方法实施例的说明，此处不再赘述。

应当理解的是，图4或图5所示的医疗问答系统可以是单个计算机或单个计算装置，也可以是通过有线网络和/或无线网络连接起来的多个计算机或多个计算装置。此外，图4或图5所示的医疗问答系统的各个组件可以通过硬件的方式来实现，也可以通过硬件和软件相结合的方式来实现。例如，图4或图5所示的医疗问答系统的各个组件可以通过具有本公开的实施例所述的相应功能的中央处理器(CPU)、应用处理器(AP)、数字信号处理器(DSP)、现场可编程逻辑电路(FPGA)、微处理器(MCU)、集成电路(IC)或专用集成电路(ASIC)。例如，图4或图5所示的医疗问答系统的各个组件可以通过处理器、存储器和计算机程序相结合的方式来实现，所述计算机程序存储在所述存储器中，所述处理器从所述存储器中读取并执行所述计算机程序，从而用作图4或图5所示的医疗问答系统的各个组件。

本公开实施例还提供了一种电子设备，该电子设备包括：一个或多个处理器以及存储装置；其中，存储装置上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如前述各实施例所提供的医疗问答方法。

本公开实施例还提供了一非暂时性计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现如前述各实施例所提供的医疗问答方法。

应当理解的是，上述word Embedding技术、word2vec模型、softmax分类器、LDA模型、BiLSTM(Bi-directional Long Short-Term Memory)模型、双向门控循环单元(BiGRU)、BiLSTM-CRF模型、BIO标注集、BM25算法等都是人工智能领域和自然语言处理领域已知的技术。例如，word Embedding技术和word2vec模型的进一步信息可以参见Mikolov T,Chen K,Corrado G S,et al.Efficient Estimation of Word Representations in Vector Space[C].international conference on learning representations,2013以及位于网址https://code.google.com/p/word2vec/的Google开源的代码。softmax分类器的进一步信息可以参见网址 https://pytorch.org/docs/master/generated/torch.nn.Softmax.html。LDA模型的进一步信息可以参见Blei,D.M.,Ng,A.Y.,&Jordan,M.I.(2003).Latent dirichlet allocation.Journal of machine Learning research,3(Jan),993-1022。BiLSTM(Bi-directional Long Short-Term Memory)模型的进一步信息可以参见Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780。双向门控循环单元(BiGRU)的进一步信息可以参见Cho K,Van Merrienboer B,Gulcehre C,et al.Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[J].arXiv:Computation and Language,2014。BiLSTM-CRF模型的进一步信息可以参见Huang Z,Xu W,Yu K,et al.Bidirectional LSTM-CRF Models for Sequence Tagging.[J].arXiv:Computation and Language,2015。BIO标注集的进一步信息可以参见Sang E F,De Meulder F.Introduction to the CoNLL-2003shared task:language-independent named entity recognition[C].north american chapter of the association for computational linguistics,2003:142-147。BM25算法的进一步信息可以参见书籍《信息检索导论》。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器(CPU)、数字信号处理器(DSP)、现场可编程逻辑电路(FPGA)或微处理器(MCU)执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路(ASIC)。这样的软件可以分布在计算机可读存储介质上，计算机可读存储介质可以包括计算机存储介质(或非暂时性计算机可读存储介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

可以理解的是，以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式，然而本公开并不局限于此。对于本领域内的普通技术人员而言，在不脱离由所附的权利要求所限定的本公开的保护范围的情况下，可以做出各种变型和改进，这些变型和改进也落入本公开的保护范围。

Claims

一种医疗问答方法，包括：

根据患者输入的医疗咨询语句识别患者的意图；

根据所述患者的意图，从所述医疗咨询语句中抽取与病情特征对应的至少一个实体词；

根据预设的同义词映射表获取与所述至少一个实体词中的每一个同义的标准表述词；其中，所述同义词映射表包括多个标准表述词与各自对应的实体词之间的映射关系；

根据所述患者的意图和所述标准表述词生成语义解析结果；以及

根据所述语义解析结果输出相应的答案。
根据权利要求1所述的医疗问答方法，其中，所述根据患者输入的医疗咨询语句识别患者的意图，包括：

获取所述患者输入的医疗咨询语句的文档主题信息；

将所述患者输入的医疗咨询语句由文本数据转换为向量数据；

根据所述医疗咨询语句所对应的文档主题信息和所述向量数据，获取所述医疗咨询语句对应于每种预设的意图的分数；以及

根据所述医疗咨询语句对应于每种预设的意图的分数，确定所述患者的意图。
根据权利要求1或2所述的医疗问答方法，其中，所述根据患者的意图，从所述医疗咨询语句中抽取与病情特征对应的至少一个实体词，包括：

获取与所述患者的意图相对应的语义槽模板，所述语义槽模板包括用于表征病情特征的多个语义槽；以及

从所述医疗咨询语句中抽取与所述语义槽模板中的所述多个语义槽对应的实体词。
根据权利要求3所述的医疗问答方法，其中，所述从所述医疗咨询语句中抽取与所述语义槽模板中的所述多个语义槽对应的实体词，包括：

利用序列标注模型对所述医疗咨询语句进行序列标注，并根据序列标注结果获得与所述语义槽模板中的所述多个语义槽对应的实体词。
根据权利要求3所述的医疗问答方法，其中，所述根据所述患者的意图和所述标准表述词生成语义解析结果，包括：

将所述患者的医疗咨询语句所对应的标准表述词填充至所述多个语义槽中相应的语义槽中；

判断当前的语义槽模板中是否存在未被填充的语义槽；

若判断的结果是当前的语义槽模板中存在未被填充的语义槽，则生成与未填充的语义槽对应的询问问题，并根据患者针对所述询问问题所输入的回答语句，对未填充的语义槽进行填充，直至当前的语义槽模板的所有的语义槽均被填充为止；以及

根据所述患者的意图、每个语义槽及其填充值生成所述语义解析结果。
根据权利要求1至5中任意一项所述的医疗问答方法，其中，所述根据所述语义解析结果输出相应的答案包括：

计算所述语义解析结果与医患问答知识库中各样本组的匹配度，每个所述样本组包括问题样本及其对应的答案样本；以及

将最大匹配度所对应的答案样本进行输出。
根据权利要求6所述的医疗问答方法，其中，所述计算所述语义解析结果与医患问答知识库中各样本组的匹配度，包括：

计算所述语义解析结果与所述问题样本的相似度、以及所述语义解析结果与所述答案样本的相关度；以及

根据所述相似度和第一加权系数、以及所述相关度和第二加权系数，生成所述匹配度。
根据权利要求1至7中任意一项所述的医疗问答方法，其中，所述病情特征包括：发病症状、症状发生时间、症状持续时间、伴随症状、病史、治疗史和患者年龄中的至少一者。
根据权利要求1至7中任意一项所述的医疗问答方法，其中，在所述根据患者输入的医疗咨询语句识别患者的意图之前，所述医疗问答方法还包括：

生成标准词库，该标准词库中存储有多个标准表述词样本；

采集与每个标准表述词样本对应的至少一个同义词；

计算每个标准表述词样本与其对应的同义词的相似度；将大于预设值的相似度所对应的同义词保留，并将小于或等于所述预设值的相似度所对应的同义词去除；以及

根据每个同义词及其对应的、且当前保留的同义词，生成所述同义词映射表。
一种医疗问答系统，包括：

意图识别器，用于根据患者输入的医疗咨询语句识别患者的意图；

实体词抽取器，用于根据所述患者的意图，从所述医疗咨询语句中抽取与病情特征对应的至少一个实体词；

标准词获取单元，用于根据预设的同义词映射表获取与所述至少一个实体词中的每一个同义的标准表述词；其中，所述同义词映射表包括多个标准表述词与各自对应的实体词之间的映射关系；

解析器，用于根据所述患者的意图和所述标准表述词生成语义解析结果；以及

输出单元，根据所述语义解析结果输出相应的答案。
根据权利要求10所述的医疗问答系统，其中，所述意图识别器还用于：

获取所述患者输入的医疗咨询语句的文档主题信息；

将所述患者输入的医疗咨询语句由文本数据转换为向量数据；

根据所述医疗咨询语句所对应的文档主题信息和所述向量数据，获取所述医疗咨询语句对应于每种预设的意图的分数；以及

根据所述医疗咨询语句对应于每种预设的意图的分数，确定所述患者的意图。
根据权利要求10或11所述的医疗问答系统，其中，所述实体词抽取器包括：

模板获取单元，用于获取与所述患者的意图相对应的语义槽模板，所述语义槽模板包括用于表征病情特征的多个语义槽；以及

识别单元，用于从所述医疗咨询语句中抽取与所述语义槽模板中的所述多个语义槽对应的实体词。
根据权利要求12所述的医疗问答系统，其中，所述识别单元还用于：

利用序列标注模型对所述医疗咨询语句进行序列标注，并根据序列标注结果获得与所述语义槽模板中的所述多个语义槽对应的实体词。
根据权利要求12所述的医疗问答系统，其中，所述解析器包括：

填充单元，用于将所述患者的医疗咨询语句所对应的标准表述词填充至所述多个语义槽中相应的语义槽中；

判断单元，用于判断所述语义槽模板中是否存在未被填充的语义槽；

询问单元，用于当所述语义槽模板中存在未填充的语义槽时，生成与未填充的语义槽对应的询问问题，并根据患者针对所述询问问题所输入的回答语句，对未填充的语义槽进行填充，直至当前的语义槽模板的所有的语义槽均被填充为止；以及

解析单元，用于根据所述患者的意图、每个语义槽及其填充值生成所述语义解析结果。
根据权利要求10至14中任一项所述的医疗问答系统，其中，所述输出单元包括：

匹配度计算器，用于计算所述语义解析结果与医患问答知识库中各样本组的匹配度，每个所述样本组包括问题样本及其对应的答案样本；以及

输出单元，用于将最大匹配度所对应的答案样本进行输出。
根据权利要求15所述的医疗问答系统，其中，所述匹配度计算器包括：

计算子单元，用于计算所述语义解析结果与所述问题样本的相似度、以及所述语义解析结果与所述答案样本的相关度；以及

生成子单元，用于根据所述相似度和第一加权系数、以及所述相关度和第二加权系数，生成所述匹配度。
根据权利要求10至16中任意一项所述的医疗问答系统，还包括：

标准词库生成器，用于生成标准词库，该标准词库中存储有多个标准表述词样本；

同义词采集器，用于采集与每个标准表述词样本对应的至少一个同义词；

筛选器，用于计算每个标准表述词样本与其对应的同义词的相似度，将大于预设值的相似度所对应的同义词保留，将小于或等于所述预设值的相似度所对应的同义词去除；以及

映射表生成器，用于根据每个同义词及其对应的、且当前保留的同义词，生成所述同义词映射表。
一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其中，所述计算机程序被所述处理器执行时实现根据权利要求1至9中任意一项所述的医疗问答方法。
一种非暂时性计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现根据权利要求1至9中任意一项所述的医疗问答方法。