WO2023125335A1

WO2023125335A1 - 问答对生成的方法和电子设备

Info

Publication number: WO2023125335A1
Application number: PCT/CN2022/141700
Authority: WO
Inventors: 徐传飞; 李一同; 彭超
Original assignee: 华为技术有限公司
Priority date: 2021-12-28
Filing date: 2022-12-24
Publication date: 2023-07-06
Also published as: CN116415594A

Abstract

本申请提供了一种问答对生成的方法，该方法通过针对产品文档进行分析，得到产品文档对应的段落文本、段落文本关联的图片以及段落文本对应的关键词。将得到段落文本、段落文本关联的图片以及段落文本提取的关键词输入多模态问题生成模型，得到段落文本和段落文本关联的图片对应的多个文本问题、多个图片问题。并将段落文本和段落文本关联的图片作为答案，基于段落文本和段落文本关联的图片生成的文本问题和图片问题形成多个预选问答对。最后，对这些预选问答对中的问题和答案计算相似度，删除相似度小于相似度阈值的预选问答对，取预选问答对中相似度大于相似度阈值的问题与答案作为最终的问答对。

Description

问答对生成的方法和电子设备

本申请要求于2021年12月28日提交中国专利局、申请号为202111631090.0、申请名称为“问答对生成的方法和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端领域，尤其涉及问答对生成的方法和电子设备。

背景技术

随着人工智能技术的快速发展，用户对智能问答系统的需求越来越高，智能问答系统是以一问一答的形式，精确定位用户所需要提问的知识，通过与用户进行交互，为用户提供个性化的信息服务。

目前，为了更贴合现实生活中的用户的提问，多模态的智能问答系统受到了极大的关注，多模态的智能问答系统可以接收用户的多模态(例如图片、文本等模态)的问题，在多模态问答对库里检索与该用户问题匹配的多模态答案，并反馈用户该答案。这样，可以满足用户多模态问题输入的需求，提高用户信息查询的丰富性。

但是，目前多模态的智能问答系统中通常是使用人工维护录入的方式建立多模态问答对库，例如通过业务人员从文档中提取具备问答关系的问题和答案，生成问答对。这样人工编写的工作量大，需要消耗大量的人力。

发明内容

本申请提供了一种问答对生成的方法和电子设备，实施该方法能够自动生成大量的多模态的问答对。

第一方面，本申请实施例提供了一种问答对生成的方法，该方法包括，电子设备获取目标文档；电子设备对目标文档进行解析，得到目标文档的多个段落的数据，其中包括第一段落的数据；电子设备将第一段落的数据输入多模态问题生成模型，得到第一段落对应的多个多模态问题；第一段落对应的多模态问题包括第一段落对应的文本问题和第一段落对应的图片问题；电子设备基于第一段落的数据和第一段落对应的多个多模态问题，生成第一段落对应的多个预选问答对。

值得说明的是，本申请实施例中的多模态包括图片模态和文本模态，不限于此，多模态还可以包括音频模态等，本申请对此不作限定。

实施第一方面提供的方法，电子设备通过获取目标文档，基于目标文档可以自动生成大量的包含多模态问题和多模态答案的多模态问答对。这样，在问答系统中，无需人工编写大量的多模态问答对，节省了人力。

结合第一方面提供的方法，在一些实现方式中，第一段落的数据包括第一段落文本、第一段落文本关联的图片以及第一段落对应的关键词集合。

上述实现方式中，通过对目标文档进行处理，可以提取目标文档中的段落文本、段落文本关联的图片以及段落文本对应的关键词集合。这样，可以充分利用目标文档中文本信息、图片信息以及它们之间的关联信息，使得生成的问题更准确。另外，通过提取段落文本中的关键词信息，将生成的问题限定在需要的范围内，使得生成的问题更准确。

结合第一方面提供的方法，在一些实现方式中，电子设备对目标文档进行解析，得到目标文档的多个段落的数据，具体包括：电子设备基于目标文档的结构对目标文档进行段落划分和图片提取，得到目标文档对应的多个段落文本和多个图片；

电子设备将多个图片与多个段落文本进行关联，得到多个段落文本对应的图片；电子设备基于多个段落文本，提取关键词，得到多个段落文本对应的关键词集合。

结合第一方面提供的方法，在一些实现方式中，第一段落对应的预选问答对包括第一段落对应的答案和第一段落对应的问题，第一段落对应的答案包括第一段落文本和/或第一段落文本关联的图片，第一段落对应的问题包括第一段落对应的图片问题和/或第一段落对应的文本问题。

结合第一方面提供的方法，在一些实现方式中，生成第一段落对应的多个预选问答对之后，该方法还包括：电子设备计算第一段落对应的多个预选问答对中问题和答案的相似度；

电子设备基于第一段落对应多个预选问答对中问题和答案的相似度，从第一段落对应多个预选问答对中选取相似度符合预设相似度阈值的预选问答对作为第一段落的问答对。

上述实现方式中，通过对生成的预选问答对进行相似度计算，去除不符合规定的预选问答对，提高了问答对的质量。

结合第一方面提供的方法，在一些实现方式中，电子设备计算第一段落对应的多个预选问答对中问题和答案的相似度，具体包括：电子设备将第一段落对应的图片问题输入图片编码模型，并输出第一图片问题序列向量，将第一段落对应的文本问题输入文本编码模型，并输出第一文本问题序列向量；

电子设备将第一图片问题序列向量和第一文本问题序列向量输入跨模态编码模型进行融合编码，得到第二图片问题序列向量和第二文本问题序列向量；

电子设备将第一段落对应的图片输入图片编码模型，并输出第一图片答案序列向量，将第一段落对应的文本输入文本编码模型，并输出第一文本答案序列向量；

电子设备将第一图片答案序列向量和第一文本答案序列向量输入跨模态编码模型进行融合编码，得到第二图片答案序列向量和第二文本答案序列向量；

电子设备分别计算第二图片问题序列向量、第二文本问题序列向量、第二图片答案序列向量和第二文本答案序列向量之间的相似度。

上述实现方式中，通过将预选问答对中的图片问题和图片答案输入图片编码模型；文本问题和文本答案输入文本编码模型，可以将图片问题和图片答案映射到一个图片向量空间，得到对应的图片向量序列；将文本问题和文本答案映射到一个文本向量空间，得到对应的文本向量序列。然后通过跨模态编码模型，可以将图片问题、图片答案、文本问题和文本答案对应的向量序列映射在一个融合的空间，在融合空间中对问答和答案之间的相似度计算。这样，可以使得计算的问答对中问题和答案的相似度更准确。

结合第一方面提供的方法，在一些实现方式中，多模态问题生成模型包括文本编码模型、图片编码模型、跨模态编码模型、文本解码模型以及所述图片解码模型；

电子设备将第一段落的数据输入多模态问题生成模型，得到第一段落对应的多个多模态问题，具体包括：

电子设备将第一段落文本输入所述文本编码模型，得到第一文本特征表示，将第一段落文本对应的关键词集合输入第一文本编码模型，得到第二文本特征表示，将第一段落文本对应的图片输入图片编码模型，得到第一图片特征表示；

所述电子设备将第一文本特征表示和第二文本特征表示和所述第一图片特征表示输入所述跨模态编码模型，得到第一文本融合特征表示和第一图片融合特征表示；其中，第一文本融合特征表示包括所述第一文本特征表示、第二文本特征表示和第一图片特征表示，第一图片融合特征表示包括第一文本特征表示、第二文本特征表示和第一图片特征表示；

电子设备将第一文本融合特征表示输入文本解码模型，得到第一段落对应的多个文本问题，将第一图片融合特征表示输入图片解码模型，得到第一段落对应的多个图片问题。

上述实现方式中，通过将段落文本和段落文本对应的关键词输入文本编码模型，提取文本特征以及关键词特征，将段落文本关联的图片输入图片编码模型，提取图片特征，然后将提取的文本特征、关键词特征以及图片特征输入跨模态编码模型进行融合编码，可以既能够提取文本特征、关键词特征、图片特征，还能够提取到文本和图片之间跨模态的关联性特征，这样，可以使得生成的问题更准确。另外，在融合编码时加入关键词特征，可以将生成的问题限定在需要的范围内，使得生成的问题更准确。

结合第一方面提供的方法，在一些实现方式中，电子设备将第一段落的数据输入多模态问题生成模型之前，该方法还包括：

电子设备获取多模态训练数据，多模态训练数据包括多模态答案、多模态问题以及多模态答案对应的关键词集合；

电子设备将多模态答案和多模态答案对应的关键词集合输入多模态预训练模型，并输出预测多模态问题；其中，多模态预训练模型包括文本预训练模型、图片预训练模型和第一跨模态编码模型；

电子设备基于预测多模态问题和多模态问，确定预测误差；

电子设备基于预测误差对多模态问题生成模型进行调整，直到预测误差满足训练停止条件，得到多模态问题生成模型。

结合第一方面提供的方法，在一些实现方式中，电子设备将多模态答案和多模态答案对应的关键词集合输入多模态预训练模型之前，方法还包括：

电子设备获取预训练数据和预训练模型，预训练数据包括预训练文本数据和预训练图片数据；

电子设备使用预训练文本数据对预训练模型进行预训练，得到文本预训练模型，使用预训练图片数据对预训练模型进行预训练，得到图片预训练模型。

上述实现方式中，通过先进行预训练，在训练的基础上采用具有问答关系的多模态训练数据进行微调训练，得到多模态问题生成模型。这样，先使用预训练模型学习到通用的特征提取能力，在后续的微调得到问题生成任务时，只需要少量的人工标注数据微调训练即可，可以节省人工的工作量。

第二方面，本申请实施例提供了一种电子设备，该电子设备包括一个或多个处理器和一个或多个存储器；其中，一个或多个存储器与一个或多个处理器耦合，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。

第三方面，本申请实施例提供了一种芯片系统，该芯片系统应用于电子设备，该芯片系统包括一个或多个处理器，该处理器用于调用计算机指令以使得该电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。

第四方面，本申请实施例提供一种包含指令的计算机程序产品，当上述计算机程序产品在电子设备上运行时，使得上述电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。

第五方面，本申请实施例提供一种计算机可读存储介质，包括指令，当上述指令在电子设备上运行时，使得上述电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。

可以理解地，上述第二方面提供的电子设备、第三方面提供的芯片系统、第四方面提供的计算机程序产品和第五方面提供的计算机存储介质均用于执行本申请实施例所提供的方法。因此，其所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

附图说明

图1是本申请实施例提供的一种智能客服问答系统的界面示意图；

图2是本申请实施例提供的多模态问题生成模型的训练的过程的流程图；

图3是本申请实施例提供的预训练的流程图；

图4是本申请实施例提供的微调训练过程的流程图；

图5是本申请实施例提供的一种问答对生成的方法的流程示意图；

图6是本申请实施例提供的一种手环使用说明书的部分截图；

图7是本申请实施例提供的对目标文档进行解析，得到段落文本、段落文本关联的图片以及段落文本对应的关键词的过程示意图；

图8是本申请实施例提供的基于手环使用说明和多模态问题生成模型，生成多个问题的过程示意图；

图9是本申请实施例提供的多模态问答对的示意图；

图10是本申请实施例提供的一种计算问答对中问题和答案之间相似度的过程示意图；

图11是本申请实施例提供的一种电子设备100的硬件结构示意图；

图12是本申请实施例提供的一种电子设备100的软件架构示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请以下实施例中的术语“用户界面(user interface，UI)”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面是通过java、可扩展标记语言(extensible markup language，XML)等特定计算机语言编写的源代码，界面源代码在电子设备上经过解析，渲染，最终呈现为用户可以识别的内容。用户界面常用的表现形式是图形用户界面(graphic user interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的文本、图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

首先，介绍本申请实施例涉及的一种场景。

参见图1，图1为本申请实施例涉及的一种智能客服问答系统的界面示意图。如图1所示，客服问答系统在针对用户输入的多模态的图文问题进行解答。用户可以向智能客服输入文本问题和图片问题，可以得到智能客服输出的多模态的答案。例如，当用户输入手环图片和关于手环的问题“震动怎么关？”，智能客服对手环图片和关于手环的问题进行分析，并从多模态问答对库里查找与手环图片和手环问题对应的文本答案和图片答案，并向用户输出关于手环震动的文本答案和图片答案。

其中，多模态问答对库是需要人工预先编写，也就是说，预先需要业务人员根据产品手册或者说明书，对产品进行标注具备问答关系的多模态问题和多模态答案，形成多模态问答对库。这样人工编写的工作量大，需要消耗大量的人力。另外，不同的业务人员对问题和答案的理解标准不一致，标注的多模态问答对的质量也良莠不一，导致其问题和答案之间的匹配度不高。

因此，本申请实施例提出一种问答对生成的方法，该方法通过针对产品文档进行分析，得到产品文档对应的段落文本、段落文本关联的图片以及段落文本对应的关键词。将得到段落文本、段落文本关联的图片以及段落文本提取的关键词输入多模态问题生成模型，得到段落文本和段落文本关联的图片对应的多个文本问题、多个图片问题。并将段落文本和段落文本关联的图片作为答案，基于段落文本和段落文本关联的图片生成的文本问题和图片问题组成多个预选问答对。最后，对这些预选问答对中的问题和答案计算相似度，删除相似度小于相似度阈值的预选问答对，取预选问答对中相似度大于相似度阈值的问题与答案作为最终的问答对。

这样，一方面，通过产品文档自动生成大量的包含多模态的问题和多模态答案的问答对，形成多模态问答对库。在问答系统中，不需要大量的人工编写问答对，节省了人力。另一方面，通过对生成的预选问答对进行相似度计算，去除不符合规定的预选问答对，提高了问答对的质量。

在本申请实施例中，问答对生成的方法可分为两个部分，第一部分为多模态问题生成模型的训练阶段，第二部分为基于多模态问题生成模型生成问答对。

第一部分：多模态问题生成模型的训练阶段。

接下来对本申请涉及的多模态问题生成模型的训练进行介绍。参见图2，图2示例性示出了多模态问题生成模型的训练的过程。如图2所示，该多模态问题生成模型的训练过程包括步骤S101-S105。

在本申请实施例中，多模态问题生成模型的训练过程可分为两个阶段，第一阶段，步骤S101-S103，预训练阶段；第二阶段，步骤S104-S105，微调训练阶段。

其中，步骤S101-S102：介绍使用预训练数据对预训练模型进行预训练，得到文本预训练模型和图片预训练模型的过程；步骤S103：介绍基于文本预训练模型和图片预训练模型得到多模态预训练模型的过程；步骤S104-S105：介绍使用人工标注的训练数据对多模态预训练模型进行微调训练，得到多模态问题生成模型的过程。接下来分别进行描述。

(一)步骤S101-S103，预训练阶段。

S101、电子设备获取预训练数据，预训练数据包括预训练文本数据和预训练图片数据。

具体地，预训练数据可以是通过网络爬虫从网络上获取的，也可以人工编写的。例如，利用网络爬虫从维基百科、百度百科、百度知道、博客、论坛贴吧等获取到文档作为预训练数据。其中，文档可以是某个产品的文档，例如产品的维修手册或者使用说明书等，还可以是一篇文章等，本申请对此不作限定。

S102、电子设备基于预训练文本数据对预训练模型进行预训练，得到训练好的文本预训练模型，基于预训练图片数据对预训练模型进行预训练，得到训练好的图片预训练模型。

其中，预训练是指在大规模的无标注的数据集上训练一个与具体任务无关的通用模型，该通用模型可称为预训练模型，然后只需要对该预训练模型进行微调便能处理各种下游的任务。例如，图像识别、图像生成、文本生成、视觉问答，分类等任务。也就是说，预训练是通过采用大量无标注的数据集训练一个预训练模型，使得该预训练模型具有提取特征的能力。

可以理解的是，预训练模型可以是自然语言处理模型，也可以是图片处理模型，本申请对此不作限定。在一些实施例中，预训练模型可以包括编码(encoder)模型和解码(decoder)模型，编码模型和解码模型分别对应着输入序列和输出序列的两个循环神经网络(Recurrent Neural Network，RNN)。常见的encoder-decoder结构，其基本思想就是利用两个RNN，一个RNN作为encoder，另一个RNN作为decoder。encoder负责将输入序列压缩成指定长度的向量，这个向量可以看成是这个序列的语义，这个过程称为编码。而decoder则负责根据语义向量生成指定的序列，这个过程也称为解码。在一些实施例中，编码模型也称为编码器，解码模型也称为解码器，本申请对此不作限定。编码模型和解码模型可以是单向的神经网络模型，也可以是双向的神经网络，本申请实施例中对预训练模型的结构不作限制，例如，编码模型-解码模型可以是主流的Transformer模型、卷积神经网络(Convolutional Neural Networks，CNN)模型、长短期记忆神经网络(Long Short-Term Memory，LSTM)等。

在预训练阶段，分别使用两个单模态的预训练数据，对对应的单模态的预训练模型进行预训练。也就是说，使用预训练图片数据对图片预训练模型进行预训练，学习提取图片特征的能力，得到训练好的图片预训练模型；使用预训练文本数据对文本预训练模型进行预训练，学习提取文本特征的能力，得到训练好的文本训练模型。

例如，参见图3，图3示例性示出了预训练过程。如图3中(a)所示，针对文本数据来说，采用预训练模型中的文本编码模型110对预训练文本数据进行编码，提取文本特征，得到预训练文本数据的特征表示，然后采用预训练模型中文本解码模型120对预训练文本的特征表示进行解码，得到预测的文本数据。将预测的文本数据与预训练文本数据进行比较，计算预测预测误差，基于该预测误差反向调整文本编码模型110和文本解码模型120中的权重参数，直到预训练模型收敛，可以得到训练好的文本预训练模型。这样，可以训练预训练模型学习提取文本特征的能力。其中，模型收敛可以是预测误差值小于一个预设值，例如，0.001、0.0001等。也可以是模型训练次数达到一个预设次数，例如，模迭代次数达到10000次等，本申请对此不作限定。

相应地，如图3中(b)所示，对于图片数据来说，采用预训练模型中的图片编码模型210对预训练图片数据进行编码，提取图片特征，得到预训练图片数据的特征表示，然后采用预训练模型中图片解码模型220对预训练图片的特征表示进行解码，得到预测的图片数据。将预测的图片数据与预训练图片数据进行比较，计算预测预测误差，基于该预测误差反向调整图片编码模型210和图片解码模型220中的权重参数，直到预训练模型收敛，可以得到训练好的图片预训练模型。这样，可以训练预训练模型学习提取图片特征的能力。

S103、电子设备基于训练好的文本预训练模型和训练好的图片预训练模型，得到多模态预训练模型。

具体地，以步骤S102中训练好的文本预训练模型和训练好的图片预训练模型为基础，添加一个跨模态编码模型，得到多模态预训练模型。也就是说，在预训练时，通过预训练的方式，学习得到的文本预训练模型提取文本特征的能力和图片预训练模型提取图片特征的能力，即文本预训练模型收敛的权重参数和图片预训练模型收敛的权重参数。然后，再将文本预训练模型收敛时的权重参数作为多模态预训练模型中文本编码模型和文本解码模型的初始参数；将图片预训练模型收敛时的权重参数作为多模态预训练模型中图片编码模型和图片解码模型的初始参数。

示例性地，参见图4，图4示例性示出了多模态预训练模型的微调训练过程，如图4所示，多模态的预训练模型包括单模态编码层、跨模态编码层、单模态解码层。其中，单模态编码层又包括训练好的文本编码模型110和训练好的图片编码模型210；相应地，单模态解码层包括训练好的文本解码模型120和训练好的图片解码模型220。

其中，单模态编码层用于对单个模态的输入进行特征编码。例如，图片编码模型210用于对输入图片进行特征编码，得到图片特征表示，文本编码模型110用于对输入的文本进行特征编码，得到文本特征表示。跨模态编码模型310用于在各个单模态编码模型的基础上进行跨模态的关联性编码。例如，将图片特征表示和文本特征表示输入跨模态编码模型融合编码，进行特征融合，学习文本特征和图片特征之间的关联特征，可以输出图片的融合特征和文本的融合特征。其中，图片融合特征既包括图片自身的特征又包括文本的特征，文本融合特征既包括文本自身的特征又包含图片特征。单模态解码层用于对单个模态的输入进行特征解码，得到单个模态的问题。例如，将图片的特征融合输入图片解码模型220，得到图片问题；将文本的特征融合输入文本解码模型120，得到文本问题。

(二)步骤S104-S105，微调训练阶段。

S104、电子设备获取多模态训练数据。

其中，多模态训练数据是指包括多种模态的训练数据。在本申请实施例中以多模态训练数据为文本模态和图片模态的训练数据为例进行说明，在实际应用中，多模态数据还可以包括音频、视频模态等其他模态，本申请不作限定。

多模态训练数据包括多模态问题和多模态问题对应的多模态答案组成的多模态问答对。例如可以是人工基于某个产品文档编写的包括多模态问题和多模态答案的多模态问答对。其中，文档可以是产品的使用说明书或者维修手册等。人工可以提取该文档的多个段落文本、多个段落文本关联的图片以及多个段落文本中的关键词作为多模态答案，再基于多个段落文本、多个段落文本关联的图片以及多个段落文本中的关键词编写多个文本问题和图片问题，形成多模态的问答对。

在一些可能的实施例中，多模态训练数据还可以是电子设备使用网络爬虫从网络获取的包括多模态训问答和多模态训答案的多模态训问答对，例如，可以获取到从知乎、百度知道等公开的问答社区网站上获取多模态问题和多模态答案。

S105、电子设备基于多模态训练数据对多模态预训练模型进行微调训练，得到多模态问题生成模型。

具体地，采用人工标注的多模态问答对多模态预训练模型进行微调训练，得到多模态问题生成模型。其中，微调就是通过少量人工标注数据对多模态预训练模型进行微调训练，通过调整从文本预训练模型和图片预训练模型获取的权重参数，使得最终的模型更适合解决当前的问题生成任务。这样，先使用预训练模型学习到通用的特征提取能力，在后续的微调得到问题生成任务时，只需要少量的人工标注数据微调训练即可，可以节省人工的工作量。

具体地，下面结合图4具体介绍多模态问题生成模型的微调训练过程。

参见图4，图4示例性示出了多模态问题生成模型的微调训练过程。如图4所示，在微调训练阶段，使用人工标注的多模态问答对对多模态预训练模型进行训练。

在一些实现方式中，首先，将人工编写的多模态问答对分别输入单模态编码模型进行编码，得到单模态特征表示。即将段落文本对应的关键词集合输入文本编码模型110进行编码，提取关键词特征，得到关键词特征表示；将段落文本输入文本编码模型110进行编码，提取文本特征，得到文本特征表示；将段落文本关联的图片输入图片编码模型210，提取图片特征，得到图片特征表示。

其次，将得到各个单模态特征表示输入跨模态编码模型310，对各个单模态特征表示进行融合特征编码，得到融合特征表示。即，将关键词特征表示、文本特征表示以及图片特征表示输入跨模态编码器进行融合编码，提取并编码图片特征表示、文本特征表示、关键词特征表示之间的关联，从而得到图片的融合表示和文本的融合表示。

可以理解的是，图片的融合表示中不仅包括图片自身的特征，还包括关键词特征和文本特征。相应地，文本的融合表示中不仅包括文本自身的特征，还包括关键词特征和图片特征。

然后，将跨模态编码模型得到的融合表示分别输入各自的解码模型。即，将图片的融合表示输入图片解码模型220进行解码，生成多个图片问题；将文本的融合表示输入文本解码模型120进行解码，生成多个文本问题。

最后，将生成的图片问题和文本问题与人工标注的文本问题标签和图片问题标签计算损失函数，根据损失函数值对问题生成模型中各个编码模型、解码模型的权重参数进行调整，直到调整多模态预训练模型收敛。其中，模型收敛可以是损失函数值小于一个预设值，例如，0.001、0.0001等。也可以是模型训练次数达到一个预设次数，例如，模型次数达到10000次等。本申请对此不作限定。

需要说明的是，在各个单模态的预训练模型的训练结束时，各个单模态的预训练模型收敛，对应一个收敛参数。在多模态预训练模型的预训练中，文本编码模型110、图片编码模型210、文本解码模型120和图片解码模型220的初始参数采用上面训练好的各个单模态的预训练模型的收敛参数，跨模态编码模型可以采用随机初始化的方式配置初始参数。

上述实施例中的训练阶段的预训练是为了节省多模态训练数据，即使用少量的多模态训练数据即可训练得到训练好的多模态问题生成模型，不应对本申请实施例构成限定。在一些可选的实施例中，在训练阶段可以不用进行预训练，例如，可以采用具有问答关系的多模态训练数据直接对初始多模态问题生成模型进行训练，直到多模态问题生成模型收敛，得到训练好的多模态问题生成模型。

第二部分：多模态问题生成模型的应用阶段，生成多模态的问答对。

下面具体介绍多模态问答对生成的方法，请参见图5，图5是本申请实施例提供的一种问答对生成的方法的流程示意图，如图5所示，该问答对生成的方法包括以下全部或者部分步骤：

S201、电子设备获取目标文档。

其中，目标文档可以是目标产品的描述内容，描述内容包括文本和图片。产品的描述内容可以包括产品的型号、产品的使用说明、产品的使用注意事项、维修操作流程等。

需要说明的是，本实施例中的产品可以为实体的产品，比如手机产品、笔记本产品、穿戴产品等，也可以是虚拟网络中的产品，比如，网络游戏等，也可以为服务体验类型的产品，如游玩项目等。

在一些实施例中，目标文档可以是半结构化的文档。目标文档中包括篇章结构信息，篇章结构信息是指目标文档的多级目录、标题、段落、摘要、图片块、表格块、排版、缩进格式等。

示例性地，目标文档可以是手环使用说明书。参见图6，图6示例性示出了一种手环使用说明书的部分截图。如图6所示，手环使用说明书中包括多级标题。例如，大标题“智能闹钟”以及大标题下面的小标题“关闭闹钟”和“延迟震动”等。手环使用说明书中还包括多个标题下面对应的多个段落。例如，小标题“关闭闹钟”下面对应关于“关闭闹钟”的段落文本和图片。如图6所示，关于“关闭闹钟”的段落文本包括关闭手环闹钟的具体操作描述内容，于“关闭闹钟”的图片中包括手环、手环上显示的闹钟、向上滑动手环的操作以及点击手环侧键的操作。另外，手环使用说明书还包括缩进格式和换行符等，例如，每个段落的开始部分缩进两格，段落的结束部分以换行符结束等。

可以理解的是，图6中仅仅示意手环使用说明书的部分内容，图6中示意的产品说明书仅为举例，不应对本申请构成限定。在实际应用中，产品说明书还可以是其他的形式，本申请实施例对此不作任何限定。

S202、电子设备针对目标文档进行解析，得到段落文本、段落文本关联的图片、段落文本对应的关键词。

具体地，目标文档中包括至少一个段落，电子设备针对目标文档进行解析，可以得到目标文档的一个或多个段落的数据。即电子设备可以针对目标文档进行分段得到多个段落文本。电子设备还可以针对目标文档提取多个图片，并将每一个段落文本和该段落文本对应的图片关联。然后，电子设备针对多个段落文本提取关键词，可以得到每一个段落文本对应的关键词集合。

其中，目标文档的一个或多个段落的数据包括第一段落的数据，第一段落的数据包括第一段落文本、第一段落文本关联的图片以及第一段落文本对应的关键词集合。也就是说，电子设备对目标文档段落划分和图片提取，得到目标文档对应的多个段落文本和多个图片，其中包括第一段落文本和第一段落文本对应的图片，接着将第一段落文本和第一段落文本对应的图片进行关联，可以得到第一段落文本关联的图片，然后，针对第一段落文本进行关键词提取，得到第一段落文本对应的关键词集合。

在一些实施例中，电子设备按照目标文档中段落中的描述内容进行段落划分。例如，电子设备基于通用文档解析技术识别目标文档排版结构。例如，识别目标文档中的主题、小标题、以及小标题下面的段落和文本。

示例性地，如图7所示，电子设备可以识别手环使用说明书中的标题智能闹钟、小标题 “关闭闹钟”、小标题下面的关于手环关闭闹钟的操作描述以及操作描述对应的图片示意图。例如，电子设备先定位到“4.3智能闹钟”，再根据其随后的文本的标题样式以及缩进格式确定段落A，电子设备将使用说明书划分为如图7所示的段落文本A和段落文本B，段落文本A下面的图片为该段落文本A关联的图片。

电子设备在将目标文档划分为多个段落后，电子设备在基于得到的每个段落，提取每段落的关键词。其中，关键词可以是目标文档中段落的标题或者章节的标题、或者段落的主题、实体词等。

在一些实施例中，电子设备可以提取目标文档中的标题作为关键词。例如，如图7所示，电子设备识别出手环说明书中的标题，“智能闹钟”以及小标题“关闭闹钟”、“延迟震动”等作为关键词。

电子设备还可以提取目标文档中的主题词作为关键词。例如，电子设备可以统计段落文本中词的频次，取出现频次高的词作为关键词。例如，如图7所示，段落文本A中出现频次高的词为手环和关闭闹钟，段落文本B中出现频次高的词为延迟震动、震动、手环等，因此电子设备可以将这些词作为关键词。

电子设备还可以提取目标文档中的实体词作为关键词。电子设备使用实体识别技术识别出段落文本中的实体词。其中，实体包括命名实体，例如人名、地名、公司名、机构名等，数值类实体，如金额、日期、年龄等。例如，如图7所示，段落文本B中可以提取出实体词手环、以及数值“3次”、“10分钟”等。

上述示例仅仅用于解释本申请，不应构成限定，本申请实施例中不限于上述方式，还可以通过其他方式从目标文档中分析出段落，从段落中提取关键词等。

S203、电子设备将段落文本、段落文本关联的图片、段落文本对应的关键词输入多模态问题生成模型，得到段落文本和段落文本关联的图片对应的多个文本问题、多个图片问题。

具体地，参见图8，多模态问答生成模型包括单模态的编码层、跨模态编码层以及解码层。电子设备分别将得到的段落文本对应的关键词和段落文本输入文本编码模型110，得到文本特征，将段落文本对应的图片输入图片编码模型210，得到图片特征；然后，将文本特征和图片特征输入跨模态编码模型310，对文本和图片进行跨模态融合编码，得到文本和图片对应的融合特征。其中，文本对应的融合特征技能够反映文本模态自身的特征，又能够反正文本的图片之间跨模态的关联性的特征；相应地，图片对应的融合特征即能够反映图片模态自身的特征，又能够反正图片的文本之间跨模态的关联性的特征。最后，文本和图片对应的融合特征输入各自的解码模型，得到对应的一个或多个文本问题以及一个或多个图片问题。

值得说明的是，电子设备在将段落文本和关键词输入多模态问题生成模型之前，需要将段落文本映射为词向量形式。即通过词嵌入Word embedding，将段落文本中的词映射成词向量。然后再将词向量一一输入编码模型中。

下面以目标文档为手环的使用说明书为例，示意性说明基于目标文档生成问题的过程。

示例性地，电子设备基于目标文档可以得到多个段落文本、多个段落文本关联的图片以及多个段落文本对应的关键词集合。针对多个段落中的第一段落文本，电子设备将该第一段落文本、该第一段落文本关联的图片以及该第一段落文本对应的关键词集合输入多模态问题生成模型，得到该第一段落文本对应的问题。然后再将多个段落中的其他段落文本依次输入多模态问题生成模型，得到相应的问题。

例如，由图7可知，电子设备基于手环的使用说明书进行分段可以得到段落文本A、段落文本B、段落文本A对应的图片C、段落文本B对应的图片D、根据段落文本A得到的关键词集合E以及根据段落文本B得到关键词集合F。电子设备将段落文本A、段落文本A对应的图片C和段落文本A对应的关键词集合E输入多模态问题生成模型，接着将段落文本B、段落文本B对应的图片D和段落文本B对应的关键词集合F输入多模态问题生成模型。

参见图8，电子设备将段落文本A和段落文本A对应的关键词集合E输入文本编码模型110，得到文本特征表示X1和文本特征表示X2，将段落文本A对应的图片C输入图片编码模型210，得到图片特征表示Y。然后将文本特征表示X1、文本特征表示X2、图片特征表示Y输入跨模态编码模型310，输出文本对应的融合特征表示Z1和图片对应的融合特征表示Z2。其中，文本对应的融合特征表示Z1不仅包含了自身的文本特征表示X2，还融合了文本特征表示X1和图片特征表示Y，图片对应的融合特征表示Z2不仅包含了自身的图片特征表示Y，还融合了文本特征表示X1和文本特征表示X2。这样，在跨模态编码模型310将文本特特征和图片特征进行融合编码，不仅包含了文本模态的特征，还融合了图片模态的特征，可以在解码生成对应的问题时，提高问题的准确度。另外，在跨模态编码层融合了关键词对应的文本特征，这样可以使得生成的问题限定在需要的范围内，使得生成的问题更准确。

接着，再将文本对应的融合特征表示Z1和图片对应的融合特征表示Z2输入各自对应的解码层，生成对应的文本问题和图片问题。即，将文本对应的融合特征表示Z1输入文本解码模型120，生成文本对应的文本对应的问题T1、文本问题T2，例如，文本问题T1可以是“手环会持续震动吗？”，文本问题T2可以是“怎么关闭手环？”。将图片对应的融合特征表示Z2输入图片解码模型220，生成图片问题P1和图片问题P2。可以理解的是，上述得到问题的个数仅为举例，在实际应用中，可以得到多个问题，例如3个、5个或者10等，也可以是得到一个问题，本申请对此不作限定。

在本申请实施例中，上述段落文本A和段落文本B可以被称为第一段落文本，上述文本特征表示X1可以被称为第二文本特征表示，上述文本特征表示X2可以被称为第一文本特征表示，上述图片特征表示Y可以称为第一图片特征表示，上述文本对应的融合特征表示Z1可以被称为第一文本融合特征表示，图片对应的融合特征表示Z2可以被称为第一图片融合特征表示。

S204、电子设备基于段落文本、段落文本关联的图片、基于段落文本和段落文本关联的图片生成的多个图片问题和文本问题，得到多个预选问答对。

具体地，根据步骤S202得到的目标文档的段落文本和段落文本对应的图片作为多模态答案，基于段落文本和段落文本关联的图片生成的一个或多个文本问题和一个或多个图片问题作为多模态问题，两者形成预选问答对，得到一个或多个预选问答对。

示例性地，如图9中(a)所示，段落文本A、段落文本A对应的图片C和文本问题T2、图片问题P2为一个预选问答对。

不限于此，预选问答对还可以是单模态问题和多模态答案，即图片问题和图片答案、文本答案也可以是一个预选问答对。例如，如图9中(b)所示，文本问题T1、段落文本A、段落文本A对应的图片C为一个预选问答对。图片问题P1和段落文本A、段落文本A对应的图片C为一个预选问答对。

问答对还可以是多模态问题和单模态答案，即图片问题、文本问题和文本答案可以是一个问答对，图片问题、文本问题和图片答案可以是一个预选问答对。例如，文本问T1、图片问题P1和段落文本A组成一个问答对；文本问题T1、图片问题P1和图片C组成一个预选问答对。

问答对还可以是单模态问题和单模态答案，即文本问题和文本答案，文本问题和图片答案、图片问题和文本答案、图片问题和图片答案分别组成预选问答对。例如，如图9中(c)所示，段落文本A和文本问题T1可以组成一个预选问答对，段落文本A和文本问题T2也可以是一个预选问答对，图片C和图片问题P1也是一个预选问答对、图片C和图片问题P2也可以是一个预选问答对。

在本申请实施例中，上述段落文本A可以被称为第一段落文本，段落文本A对应的图片C可以被称为第一段落文本关联的图片，文本问题T1、文本问题T2可以被称为第一段落文本对应的文本问题，图片问题P、图片问题P2可以被称为第一段落文本对应的图片问题。

S205、电子设备计算多个预选问答对中问题和答案之间的相似度，删除相似度小于相似度阈值的预选问答对，得到多个问答对。

具体地，根据上述步骤S201到步骤S204，可以得到大量的预选问答对。需要对这些预选问答对进行质量校验，将不符合规则的预选问答对删除。也是就是说，电子设备分别计算段落的多个预选问答对中问题和答案之间的相似度，若相似度小于相似度阈值，则删除该预选问答对，若相似度大于或等于相似度阈值，则保留该预选问答对。例如，图片问题与图片答案之间的相似度、图片问题与文本答案之间的相似度、文本问题和文本答案之间的相似度、文本问题与文本答案之间的相似度，然后删除相似度小于相似度阈值的预选问答对。

在一些实现方式中，对于一个段落对应的预选问答对中的多个问题来说，电子设备将图片问题输入图片编码模型210，输出图片问题特征表示，即图片问题序列向量，将文本问题输入到文本编码模型110，输出问题文本特征表示，即文本问题序列向量。然后，将图片问题特征表示和文本问题特征表示输入跨模态编码模型310，进行特征融合编码，将图片问题序列向量和文本问题序列向量映射在同一个融合特征空间下，得到图片问题的融合特征表示和文本问题的融合特征表示，即图片问题的融合向量和文本问题的融合向量。

相应地，对于一个段落对应的预选问答对中的多个答案来说，电子设备将图片答案输入图片编码模型210，输出图片答案特征表示，即图片答案序列向量，将文本答案输入到文本编码模型110，输出文本答案特征表示，文本答案序列向量。再将图片答案特征表示和文本答案特征表示输入跨模态编码模型310，进行特征融合编码，将图片答案序列向量和文本答案序列向量映射在同一个融合特征空间下，得到图片答案的融合特征表示和文本答案的融合特征表示，即图片答案的融合向量和文本答案的融合向量。

然后，分别计算预选问答对中问题和答案之间的相似度，即计算图片问题的融合向量和图片答案的融合向量之间的相似度、图片问题的融合向量和文本答案的融合向量之间的相似度、文本问题的融合向量和图片答案的融合向量之间的相似度、文本问题的融合向量和文本答案的融合向量之间的相似度。若相似度小于相似度阈值，则删除该预选问答对，若相似度大于或等于相似度阈值，则保留该预选问答对。最后，对于目标文档中的多个段落，按照上述方法，去除不符合规则的预选问答对，可以得到该目标文档对应的最终的一个或多个问答对。

在一些可选的实施例中，电子设备还可以每一个预选问答对的相似度进行排序，例如，可以对相似度从大到小进行排序，电子设备取相似度排名靠前的预选问答对作为最终的问答对。

下面结合图10，以一个问答对中问题为段落文本A、图片C，答案为文本问题T1、图片问题P1为例，具体介绍相似度计算的过程。

参见图10，图10示例性示出了电子设备计算问答对中问题和答案之间相似度的过程。如图10所示，对于多模态答案来说，电子设备将段落文本A输入到文本编码模型110，输出文本答案特征表示x2；电子设备将图片C输入到图片编码模型210，输出图片答案特征表示y1。其中，电子设备段落文本A输入文本编码模型110中，对段落文本A进行编码，实际上是将段落文本A映射一个文本向量空间，得到文本答案特征表示x2为一个文本答案序列向量，即第一文本答案序列向量。电子设备将图片C输入到图片编码模型210中，对图片C进行编码，实际上是将图片C映射到一个图片向量空间中，得到的图片答案特征表示y1为一个图片答案序列向量，即第一图片答案序列向量。

相应地，对于多模态问题来说，电子设备将文本问题T1输入到文本编码模型110，并输出文本问题特征表示x3；将将图片问题P1输入到图片编码模型210，并输出图片问题特征表示y2。其中，电子设备文本问题T1输入文本编码模型110中，对文本问题T1进行编码，实际上是将文本问题T1映射一个文本向量空间，得到文本问题特征表示x3为一个文本问题序列向量，即第一文本问题序列向量。电子设备将图片问题P1输入到图片编码模型210中，对图片问题P1进行编码，实际上是将图片问题P1映射到一个图片向量空间中，得到的图片问题特征表示y2为一个图片序列向量，即第一图片问题序列向量。

值得说明的是，在自然语言处理中，将自然语言中的每一个词通过编码映射成一个固定长度的向量，将所有的这些向量放在一起就可以形成一个向量空间。

示例性地，如图10所示，经过编码得到的文本答案特征表示x2、图片答案特征表示y1、文本问题特征表示x3和图片问题特征表示y2对应文本向量空间和图片向量空间两个向量空间，因此需要将问题和答案映射到一个共同的空间，进行相似度计算。如图10所示，电子设备将文本答案特征表示x2、图片答案特征表示y1输入跨模态编码模型310，进行特征融合编码，将图片答案序列向量和文本答案序列向量映射在同一个融合特征空间下，得到图片答案的融合特征表示z2和文本答案的融合特征表示z1，即图片答案的融合向量和文本答案的融合序列向量。相应地，电子设备将文本问题特征表示x3和图片问题特征表示y2输入跨模态编码模型310，进行特征融合编码，将图片问题序列向量和文本问题序列向量映射在同一个融合特征空间下，得到图片问题的融合特征表示z4和文本问题的融合特征表示z3，即图片问题的融合向量和文本问题的融合向量。

在本申请实施例中，上述图片答案的融合向量可以被称为第二图片答案序列向量，上述文本答案的融合向量可以被称为第二文本答案序列向量。上述图片问题的融合向量可以被称为第二图片问题序列向量，上述文本问题的融合向量可以被称为第二文本问题序列向量。

其中，图片问题的融合向量、文本问题的融合向量、图片答案的融合向量和文本答案的融合向量分别为该融合特征空间中的四个点，在这个融合特征空间上引入“距离”，则可以根据向量之间的距离判断向量之间(语义上的)相似度。例如，如图10所示，可以计算文本答案的融合向量z1和文本问题的融合向量z3之间的相似度为s1，文本答案的融合向量z1和图片问题的融合向量z4之间的相似度为s2，图片答案的融合向量z2和文本答案的融合向量z3之间的相似度为s3，图片答案的融合向量z2和图片问题的融合向量z4之间的相似度为s4。

在一些可选的实施例中，问题序列向量与答案序列向量之间的相似度可以通过计算问题序列向量和答案序列向量之间的余弦相似度。余弦相似度用向量空间中两个向量的夹角的余弦值来衡量两个向量间的相似度。

以计算文本答案的融合向量z1和文本问题的融合向量z3之间的相似度为例，计算公式可以如下：

其中，cos为余弦相似度，

为文本答案的融合向量，

为文本问题的融合向量。

需要说明的是，实际应用中，计算问题与答案之间的相似度值的方法有多种，例如还可以采用语义词典方法、词性词序结合的方法、依存树法或者编辑距离法，具体本申请不做限定。

在计算得到各个问答对中问题和答案之间的相似度之后，判断每一个问答对中问题和答案的相似度小于是否小于相似度阈值，当问答对的相似度小于相似度阈值，删除该问答对，当问答对的相似度大于相似度阈值，则保留该问答对。其中，相似度阈值可以根据实际应用确定，例如可以是0.9、0.8等，本申请对此不作限定。

需要说明的是，对于上述方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

图11示出了电子设备100的硬件结构示意图。

电子设备100可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对该电子设备的具体类型不作特殊限制。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M、地磁传感器180N等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

在一些实施例中，处理器110可以用于针对目标文本进行分析，得到目标文档中的段落文本、段落文本关联的图片以及段落文本对应的关键词，并通过多模态问题生成模型得到该目标文档中段落文本和段落文本关联的图片对应的大量问题，这些问题与段落文本和段落文本关联的图片形成大量的问答对。具体关于多模态问题生成模型生成大量的问答对的描述可以参见上述内容，在此不再赘述。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。

充电管理模块140用于从充电器接收充电输入。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号解调以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统 (quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)。显示面板还可以采用有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，miniled，microled，micro-oled，量子点发光二极管(quantum dot light emitting diodes，QLED)等制造。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。

视频编解码器用于对数字视频压缩或解压缩。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。

内部存储器121可以包括一个或多个随机存取存储器(random access memory，RAM)和一个或多个非易失性存储器(non-volatile memory，NVM)。

在一些实施例中，内部存储器121可以包含训练数据库和模型数据库，模型数据库用于存储生成的多模态问题生成模型。具体关于数据库和模型数据库的描述可以参见上述内容，在此不再赘述。

内部存储器121可以用于存储生成的问答对。

外部存储器接口120可以用于连接外部的非易失性存储器，实现扩展电子设备100的存储能力。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。耳机接口170D用于连接有线耳机。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。环境光传感器180L用于感知环境光亮度。指纹传感器180H用于采集指纹。温度传感器180J用于检测温度。触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。骨传导传感器180M可以获取振动信号。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。马达191可以产生振动提示。指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口195用于连接SIM卡。

图12示出了本申请实施例提供的电子设备100的软件结构示意图。

如图12所示，电子设备100的软件结构可以包括：训练数据库、模型训练模块、解析模块、问答对生成模块、验证模块、模型数据库。其中，本申请实施例提供的电子设备100可用于实现问答对生成的全部功能。

训练数据库用于存储预训练数据和多模态训练数据。预训练数据可以是通过网络爬虫从网络上获取文档的，也可以人工编写的文章等。例如，利用网络爬虫从维基百科、百度百科、百度知道、博客、论坛贴吧等获取到文档作为预训练数据。多模态训练数据包括多模态问题以及多模态问题对应的多模态答案组成的多模态问答对。例如，如图4中所示手环使用说明书，以段落文本A和段落文本A对应的关键词集合E为答案，以“怎么关闭手环闹钟”为问题组成的问答对。

模型训练模块用于从训练数据库中获取预训练数据，使用预训练数据中的文本预训练数据对预训练模型进行训练，得到文本预训练模型；使用预训练中的图片预训练数据对预训练模型进行训练，得到图片预训练模型。具体关于预训练过程参见上述图3实施例中的相关描述，在此不再赘述。模型训练模块还用于从训练数据库中获取多模态训练数据，使用多模态训练数据对多模态预训练模型进行微调训练，得到训练好的多模态问题生成模型。并将训练好的多模态问题生成模型存储在模型数据库中，方便后续使用。具体关于微调训练的过程参见上述图4实施例中的相关描述，在此不再赘述。

模型数据库用于存储预训练模型和训练好的多模态问题生成模型。

解析模块用于对目标文档进行解析，得到目标文本中的多个段落文本、多个段落文本关联的图片以及多个段落文本对应的关键词集合。具体地，解析模块接收用户输入的目标文档，对目标文档进行段落划分，得到目标文档对应的多个段落文本；对目标文档其提取多个图片，并将多个图片与多个段落文档关联起来。解析模块针对多个段落文本中的每一个段落文档提取关键词，得到多个段落文本对应的关键词。具体关于对目标文档的解析参见上述图5实施例中的相关描述，在此不再赘述。

问答对生成模块用于从模型数据库中获取多模态问题生成模型和分析模型获取目标文本中的多个段落文本、多个段落文本关联的图片以及多个段落文本对应的关键词集合。问答对生成模块分别将目标文本中的多个段落文本、多个段落文本关联的图片以及多个段落文本对应的关键词集合输入多模态问题生成模型，得到多个段落对应的多个图片问题和多个文本问题。将这些问题与段落文本、段落文本对应的图片形成多个预选问答对。

验证模块用于获取问答对生成模块中生成的多个预选问答对，将这些预选问答对中问题和答案映射在一个融合特征向量空间，计算问题和答案之间的相似度。删除多个预选问答对中问题和答案之间相似度小于相似度阈值的预训问答对，保留相似度大于相似度阈值的预训问答对，得到最终的多个问答对。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

一种问答对生成的方法，其特征在于，所述方法包括：

电子设备获取目标文档；

所述电子设备对所述目标文档进行解析，得到所述目标文档的多个段落的数据，其中包括第一段落的数据；

所述电子设备将所述第一段落的数据输入多模态问题生成模型，得到第一段落对应的多个多模态问题；所述第一段落对应的多模态问题包括所述第一段落对应的文本问题和所述第一段落对应的图片问题；

所述电子设备基于所述第一段落的数据和所述第一段落对应的多个多模态问题，生成所述第一段落对应的多个预选问答对。
根据权利要求1所述的方法，其特征在于，所述第一段落的数据包括第一段落文本、所述第一段落文本关联的图片以及所述第一段落对应的关键词集合。
根据权利要求2所述的方法，其特征在于，所述电子设备对所述目标文档进行解析，得到所述目标文档的多个段落的数据，其中包括第一段落的数据，具体包括：

所述电子设备基于所述目标文档的结构对所述目标文档进行段落划分和图片提取，得到所述目标文档对应的多个段落文本和多个图片；

所述电子设备将所述多个图片与所述多个段落文本进行关联，得到所述第一段落文本对应的图片；

所述电子设备基于所述第一段落文本，提取关键词，得到所述第一段落文本对应的关键词集合。
根据权利要求1-3任一项所述的方法，其特征在于，所述第一段落对应的预选问答对包括所述第一段落对应的答案和所述第一段落对应的问题，所述第一段落对应的答案包括所述第一段落文本和/或所述第一段落文本关联的图片，所述第一段落对应的问题包括所述第一段落对应的图片问题和/或所述第一段落对应的文本问题。
根据权利要求1-4任一项所述的方法，其特征在于，所述生成所述第一段落对应的多个预选问答对之后，所述方法还包括：

所述电子设备计算所述第一段落对应的多个预选问答对中问题和答案的相似度；

所述电子设备基于所述第一段落对应多个预选问答对中问题和答案的相似度，从所述第一段落对应多个预选问答对中选取相似度符合预设相似度阈值的预选问答对作为所述第一段落的问答对。
根据权利要求5所述的方法，其特征在于，所述电子设备计算所述第一段落对应的多个预选问答对中问题和答案的相似度，具体包括：

所述电子设备将所述第一段落对应的图片问题输入图片编码模型，并输出第一图片问题序列向量，将所述第一段落对应的文本问题输入文本编码模型，并输出第一文本问题序列向量；

所述电子设备将所述第一图片问题序列向量和所述第一文本问题序列向量输入跨模态编码模型进行融合编码，得到第二图片问题序列向量和第二文本问题序列向量；

所述电子设备将所述第一段落对应的图片输入所述图片编码模型，并输出第一图片答案序列向量，将所述第一段落对应的文本输入所述文本编码模型，并输出第一文本答案序列向量；

所述电子设备将所述第一图片答案序列向量和所述第一文本答案序列向量输入所述跨模态编码模型进行融合编码，得到第二图片答案序列向量和第二文本答案序列向量；

所述电子设备分别计算所述第二图片问题序列向量、第二文本问题序列向量、第二图片答案序列向量和第二文本答案序列向量之间的相似度。
根据权利要求1-6中任一项所述的方法，其特征在于，所述多模态问题生成模型包括所述文本编码模型、所述图片编码模型、所述跨模态编码模型、所述文本解码模型以及所述图片解码模型；

所述电子设备将所述第一段落的数据输入多模态问题生成模型，得到第一段落对应的多个多模态问题，具体包括：

所述电子设备将所述第一段落文本输入所述文本编码模型，得到第一文本特征表示，将所述第一段落文本对应的关键词集合输入所述第一文本编码模型，得到第二文本特征表示，将所述第一段落文本对应的图片输入所述图片编码模型，得到第一图片特征表示；

所述电子设备将所述第一文本特征表示和第二文本特征表示和所述第一图片特征表示输入所述跨模态编码模型，得到第一文本融合特征表示和第一图片融合特征表示；其中，所述第一文本融合特征表示包括所述第一文本特征表示、所述第二文本特征表示和所述第一图片特征表示，所述第一图片融合特征表示包括所述第一文本特征表示、所述第二文本特征表示和所述第一图片特征表示；

所述电子设备将所述第一文本融合特征表示输入所述文本解码模型，得到所述第一段落对应的多个文本问题，将所述第一图片融合特征表示输入所述图片解码模型，得到所述第一段落对应的多个图片问题。
根据权利要求1-7中任一项所述的方法，其特征在于，所述电子设备将所述第一段落的数据输入多模态问题生成模型之前，所述方法还包括：

所述电子设备获取多模态训练数据，所述多模态训练数据包括多模态答案、多模态问题以及多模态答案对应的关键词集合；

所述电子设备将所述多模态答案和所述多模态答案对应的关键词集合输入所述多模态预训练模型，并输出预测多模态问题；其中，所述多模态预训练模型包括文本预训练模型、图片预训练模型和所述第一跨模态编码模型；

所述电子设备基于所述预测多模态问题和所述多模态问，确定预测误差；

所述电子设备基于所述预测误差对所述多模态问题生成模型进行调整，直到所述预测误差满足训练停止条件，得到多模态问题生成模型。
根据权利要求8所述的方法，其特征在于，所述电子设备将所述多模态答案和所述多模态答案对应的关键词集合输入所述多模态预训练模型之前，所述方法还包括：

所述电子设备获取预训练数据和所述预训练模型，所述预训练数据包括预训练文本数据和预训练图片数据；

所述电子设备使用所述预训练文本数据对所述预训练模型进行预训练，得到文本预训练模型，使用所述预训练图片数据对所述预训练模型进行预训练，得到图片预训练模型。
一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器；其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如权利要求1-9任一项所述的方法。
一种芯片系统，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行如权利要求1-9中任一项所述的方法。
一种包含指令的计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行如权利要求1-9任一项所述的方法。
一种计算机可读存储介质，包括指令，其特征在于，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1-9任一项所述的方法。