WO2022033208A1

WO2022033208A1 - 视觉对话方法、模型训练方法、装置、电子设备及计算机可读存储介质

Info

Publication number: WO2022033208A1
Application number: PCT/CN2021/102815
Authority: WO
Inventors: 陈飞龙; 孟凡东; 李鹏; 周杰; 徐波
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-08-12
Filing date: 2021-06-28
Publication date: 2022-02-17
Also published as: US20230082605A1; CN111897940B; CN111897940A

Abstract

一种视觉对话方法、模型训练方法、装置、电子设备及计算机可读存储介质，涉及视觉对话领域。该方法包括：获取输入图像的图像特征和前n轮历史问答对话对应的状态向量，n为正整数(201)；获取当前轮提问的问题特征(202)；对图像特征、前n轮历史问答对话对应的状态向量和问题特征进行多模态编码处理，得到当前轮提问对应的状态向量(203)；对当前轮提问对应的状态向量和图像特征进行多模态解码处理，得到当前轮提问对应的实际输出答案(204)。

Description

视觉对话方法、模型训练方法、装置、电子设备及计算机可读存储介质

相关申请的交叉引用

本申请基于申请号为202010805359.1、申请日为2020年08月12日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及视觉对话领域，涉及一种视觉对话方法、模型训练方法、装置、电子设备及计算机可读存储介质。

背景技术

视觉对话是指针对视觉内容(如图像)，以自然语言的会话语言与人类进行有意义的对话的过程。

一般来说，为实现视觉对话，通常基于输入图像、当前输入问题、上一轮历史问答对话和前一刻工作状态向量，来得到当前输入问题的输出答案。然而，上述获得输出答案的技术方案中，当输入的问题中携带有较多信息时，输出的答案准确率较低。

发明内容

本申请实施例提供了一种视觉对话方法、模型训练方法、装置、电子设备及计算机可读存储介质，通过结合前n轮历史问答对话对输入图像中包含的信息进行获取，能够提高针对输入问题所输出的答案的准确率。本申请实施例的技术方案如下：

本申请实施例提供了一种视觉对话方法，所述方法包括：

获取输入图像的图像特征和前n轮历史问答对话对应的状态向量，n为正整数；

获取当前轮提问的问题特征；

对所述图像特征、所述前n轮历史问答对话对应的状态向量和所述问题特征进行多模态编码处理，得到所述当前轮提问对应的状态向量；

对所述当前轮提问对应的状态向量和所述图像特征进行多模态解码处理，得到所述当前轮提问对应的实际输出答案。

本申请实施例提供了一种视觉对话模型的训练方法，所述方法包括：

获取输入图像样本的图像特征样本和前s轮历史问答对话样本对应的状态向量样本，s为正整数；

获取当前轮提问样本的问题特征样本和所述当前轮提问样本对应的真实答案的第一答案特征；

调用视觉对话模型对所述图像特征样本、所述前s轮历史问答对话样本对应的状态向量样本和所述问题特征样本进行多模态编码处理，得到所述当前轮提问样本对应的状态向量样本；

调用所述视觉对话模型对所述当前轮提问样本对应的状态向量样本、所述图像特征样本和所述第一答案特征进行多模态解码处理，得到所述当前轮提问样本对应的实际输出答案样本的第二答案特征；

根据所述第一答案特征和所述第二答案特征，对所述视觉对话模型进行训练，得到训练后的视觉对话模型。

本申请实施例提供了一种视觉对话装置，所述装置包括：

第一获取模块，配置为获取输入图像的图像特征和前n轮历史问答对话对应的状态向量，n为正整数；

所述第一获取模块，配置为获取当前轮提问的问题特征；

第一特征编码模块，配置为对所述图像特征、所述前n轮历史问答对话对应的状态向量和所述问题特征进行多模态编码处理，得到所述当前轮提问对应的状态向量；

第一特征解码模块，配置为对所述当前轮提问对应的状态向量和所述图像特征进行多模态解码处理，得到所述当前轮提问对应的实际输出答案。

本申请实施例提供了一种视觉对话模型的训练装置，所述装置包括：

第二获取模块，配置为获取输入图像样本的图像特征样本和前s轮历史问答对话样本对应的状态向量样本，s为正整数；

所述第二获取模块，配置为获取当前轮提问样本的问题特征样本和所述当前轮提问样本对应真实答案的第一答案特征；

第二特征编码模块，配置为调用视觉对话模型对所述图像特征样本、所述前s轮历史问答对话样本对应的状态向量样本和所述问题特征样本进行多模态编码处理，得到所述当前轮提问样本对应的状态向量样本；

第二特征解码模块，配置为调用所述视觉对话模型对所述当前轮提问样本对应的状态向量样本、所述图像特征样本和所述第一答案特征进行多模态解码处理，得到所述当前轮提问样本对应的实际输出答案样本的第二答案特征；

训练模块，配置为根据所述第一答案特征和所述第二答案特征，对所述视觉对话模型进行训练，得到训练后的视觉对话模型。

本申请实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述所述的视觉对话方法和视觉对话模型的训练方法。

本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述所述的视觉对话方法和视觉对话模型的训练方法。

本申请实施例提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。电子设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令时，所述电子设备执行如上所述的视觉对话方法和视觉对话模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

通过对输入图像以及关于输入图像的前n轮历史问答对话进行处理，能够联系上下文更好地理解输入图像中隐含的信息，以及利用多模态编码处理方式和多模态解码处理方式，能够更好地根据多种类型的信息，准确地输出当前轮提问对应的实际输出答案，从而，能够提高输出的答案的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的视觉对话系统的框架图；

图2是本申请一个示例性实施例提供的视觉对话方法的流程图；

图3是本申请一个示例性实施例提供的视觉对话模型的结构框架图；

图4是本申请另一个示例性实施例提供的视觉对话方法的流程图；

图5是本申请另一个示例性实施例提供的视觉对话模型的结构框架图；

图6是本申请一个示例性实施例提供的多模态增量式转换编码器的结构框架图；

图7是本申请另一个示例性实施例提供的多模态增量式转编码器的结构框架图；

图8是本申请一个示例性实施例提供的多模态增量式转换解码器的结构框架图；

图9是本申请另一个示例性实施例提供的多模态增量式转换解码器的结构框架图；

图10是本申请一个示例性实施例提供的视觉对话模型的训练方法的流程图；

图11是本申请一个示例性实施例提供的视觉对话装置的结构框图；

图12是本申请一个示例性实施例提供的视觉对话模型的训练装置的结构框图；

图13是本申请一个示例性实施例提供的服务器的装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例涉及的名词进行介绍。

1)计算机视觉技术(Computer Vision，CV)：是一门研究如何使机器“看”的科学，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉处理，并做图形处理，使处理结果成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术作为一个计算机视觉研究相关的理论和技术科学学科，用于建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维技术(3-Dimension，3D)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例中，通过计算机视觉技术对输入图像进行处理，并根据输入的问题输出答案，其中，输入的问题是与输入图像有关的问题。

2)视觉问答(Visual Question Answering，VQA)：是一种涉及计算机视觉和自然语言处理(Natural Language Processing，NLP)两大领域的学习任务。向电子设备中输入一张图像和一个关于这张图像的形式自由(free-form)、开放式(opened)的自然语言的问题，输出为：产生的自然语言的回答。视觉问答过程中，电子设备通过获取图像的内容、问题的含义和意图以及相关的常识的信息，实现根据输入的图像和问题输出一个符合自然语言规则且合理的答案。

3)视觉对话(Visual Dialog)：是VQA的拓展领域，其主要任务为：对视觉内容，以自然语言的会话语言与人类进行有意义的对话。也就是说，给定图像、对话历史和关于图像的问题，电子设备将问题置于图像中，从对话历史中推断上下文，并准确地回答问题。与VQA不同的是，视觉对话通过一个可以组合多个信息源的编码器对多轮对话历史的进行处理。

4)人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。也就是说，人工智能是计算机科学的一个综合技术，基于智能的实质，生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。在本申请实施例中，将基于人工智能技术实现视觉对话。

本申请实施例提供的视觉对话方法可以应用于如下场景：

一、智能客服

在该应用场景下，采用本申请实施例提供的视觉对话方法所训练的视觉对话模型可应用于购物应用程序、团购应用程序、出行管理应用程序(如票务订购应用程序、酒店订购应用程序)等应用程序中。上述应用程序设置有智能客服，用户可通过向智能客服进行对话从而得到自己需要解决的问题的答案。智能客服是通过应用程序的后台服务器中构建的视觉对话模型实现的，视觉对话模型是预先经过训练的。当视觉对话模型接收到用户输入的问题时，视觉对话模型输出关于该问题的答案。比如，智能客服是购物应用程序的客服，用户提出的问题是关于输入图像中物品A的问题，该问题是：销售物品A的店铺有哪？智能客服根据用户的提问输出答案：销售物品A的店铺为店铺1、店铺3以及店铺10。用户可根据输出的答案去浏览相应的店铺界面。

二、虚拟助理

在该应用场景下，采用本申请实施例提供的视觉对话方法所训练的视觉对话模型可应用于智能终端或智能家居等智能设备中。以智能终端中设置的虚拟助理为例，该虚拟助理是通过训练后的视觉对话模型实现的，该视觉对话模型是预先经过训练的。当视觉对话模型接收到用户输入的问题时，视觉对话模型输出关于该问题的答案。比如，用户A在社交平台上发布动态(该动态包括图像)，该图像是用户A在海边度假的照片，虚拟助理提醒用户B(用户B与用户A是好友关系)用户A发布了新照片，用户B向虚拟助理提出问题：照片里面都有什么？虚拟助理输出答案：用户A在海边玩耍。则用户B可以自行选择是否进入用户A的社交平台界面浏览照片。

上述仅以两种应用场景为例进行说明，本申请实施例提供的视觉对话方法还可以应用于其他需要视觉对话的场景(比如，为视力有损伤的人事讲解图片的场景等等)，本申请实施例并不对具体应用场景进行限定。

本申请实施例提供的视觉对话方法和视觉对话模型的训练方法可以应用于具有较强的数据处理能力的电子设备中。在一种可能的实施方式中，本申请实施例提供的视觉对话方法和视觉对话模型的训练方法可以应用于个人计算机、工作站或服务器中，即可以通过个人计算机、工作站或服务器实现视觉对话以及训练视觉对话模型。

而对于训练后的视觉对话模型，可以实施为应用程序的一部分，并被安装在终端中，如此，终端在接收到与输入图像有关的问题时，能够输出该问题对应的答案；或者，该训练后的视觉对话模型设置在应用程序的后台服务器中，以便安装有应用程序的终端借助后台服务器实现与用户进行视觉对话的功能。

请参考图1，图1示出了本申请一个示例性实施例提供的视觉对话系统的示意图。该视觉对话系统100包括电子设备110和服务器120，其中，电子设备110与服务器120之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

电子设备110中安装有支持视觉对话功能的应用程序，该应用程序可以是虚拟现实应用程序(Virtual Reality，VR)、增强现实应用程序(Augmented Reality，AR)、游戏应用程序、图片相册应用程序、社交应用程序等，本申请实施例对此不作限定。

在本申请实施例中，电子设备110可以是智能手机、智能手表、平板电脑、膝上便携式笔记本电脑、智能机器人、车载设备等移动终端，也可以是台式电脑、投影式电脑、智能电视等终端，本申请实施例对电子设备的类型不作限定。

服务器120可以实施为一台服务器，也可以实施为一组服务器构成的服务器集群，以及可以是物理服务器，也可以实现为云服务器。在一种可能的实施方式中，服务器120是电子设备110中应用程序的后台服务器。

如图1所示，在本申请实施例中，电子设备110中运行有聊天应用程序，用户可通过与聊天应用程序的聊天助手聊天获取输入图像中的信息。示意性地，输入图像11是通过电子设备110预先输入至服务器120中的图像，或者，输入图像11是服务器120中预先存储的图像。用户在聊天助手的聊天界面中输入与该输入图像有关的问题，电子设备110将问题发送至服务器120中，服务器120设置有训练后的视觉对话模型10，训练后的视觉对话模型10根据输入的问题输出答案，并将答案发送至电子设备110中，在电子设备110上显示有聊天助手关于该问题的答案。比如，用户提出问题：坐在车里的是女生吗？训练后的视觉对话模型10根据前几轮的历史问答对话(问题：图像中有几个人呢？答案：4个人)确定用户提出的问题是输入图像中位于车内的人的性别，根据车内的人的性别为男性，则输出答案：不是。

示意性地，服务器120中预先存储有前n轮历史问答对话对应的状态向量12(n为正整数)，训练后的视觉对话模型10在获取到输入图像11的图像特征111和当前轮提问的问题特征13时，结合前n轮历史问答对话对应的状态向量12，输出当前轮提问对应的状态向量14。训练后的视觉对话模型10根据输入图像11的图像特征111、当前轮提问对应的状态向量14和已输出的前x个字符串的特征15，得到输出答案16中的第x+1个字符串，x为正整数。

在本申请的一些实施例中，服务器120中可预先存储有前n轮历史问答对话，视觉对话模型从前n轮历史问答对话中提取对应的状态向量。

视觉对话模型在训练时需要结合输入图像样本的图像特征样本、当前轮提问样本对应的状态向量样本和当前轮提问样本对应的真实答案的答案特征进行训练。比如，当前轮提问样本的真实答案包括5个词语(字符串)，视觉对话模型输出答案时是按照每次输出一个词语的规则输出每轮提问的实际输出答案样本。当视觉对话模型输出第3个词语时，视觉对话模型结合真实答案中的第1个词语、第2个词语以及当前轮提问对应的状态向量输出第3个词语，并基于真实答案与实际输出答案样本的差异训练出视觉对话模型。

为了方便表述，下述以视觉对话模型的训练方法和视觉对话方法由服务器执行为例进行说明。

图2示出了本申请一个示例性实施例提供的视觉对话方法的流程图。本申请实施例以视觉对话方法用于如图1所示的视觉对话系统100中的服务器120为例进行说明，该视觉对话方法包括如下步骤：

步骤201，获取输入图像的图像特征和前n轮历史问答对话对应的状态向量，n为正整数。

在本申请实施例中，服务器对输入图像的特征进行提取，也就获得了输入图像的图像特征；而前n轮历史问题对话对应的状态向量是上一轮的输出，从而，服务器能够从上一轮的输出中，获得前n轮历史问答对话对应的状态向量。

示意性地，服务器中构建有视觉对话模型，该视觉对话模型是经过训练获得的，即是训练后的视觉对话模型；通过视觉对话模型获取输入图像，该输入图像可以是服务器预先存储的图像，还可以是用户通过终端上传至服务器的图像(包括终端存储的图像和终端拍摄的图像中的至少一种)，又可以是现有的图像集中的图像，本申请实施例对图像的类型不作限定。

视觉对话模型从输入图像中提取图像特征，在本申请的一些实施例中，视觉对话模型包括特征提取模型，通过特征提取模型从输入图像中提取图像特征。

一轮历史问答对话是指以用户提出一个问题开始，视觉对话模型输出关于该问题的答案结束，一问一答形成一轮历史问答对话。

示意性地，n轮历史问答对话是关于同一输入图像的历史问答对话。服务器将关于同一输入图像的n轮历史问答对话与该输入图像建立对应关系，当用户提出的问题是关于该输入图像的问题时，视觉对话模型将获取与该输入图像有关的前n轮历史问答对话。在一个示例中，用户提出的问题是关于图像1的，视觉对话模型获取与图像1对应的n ₁轮历史问答对话，然后用户又提出关于图像2的问题，视觉对话模型获取与图像2对应的n ₂轮历史问答对话，n ₁和n ₂均为正整数。

示意性地，如图3所示，视觉对话模型包括编码器21，编码器21包括多个多模态增量式转换编码器(Multimodal Increasemental Transformer Encoder，MITE)211，针对每轮历史问答对话设置有对应的MITE 211，在每轮历史问答对话对应的MITE 211输出本轮历史问答对话对应的状态向量时，还需要结合输入图像11的图像特征、本轮历史问答对话的历史问答特征以及上一轮历史问答对话对应的MITE 211输出的状态向量作为输入，得到每轮历史问答对话对应的状态向量。这里，针对第1轮对应的MITE 211，将输入图像11的图像特征、第1轮提问的问题特征作为输入，输出一个状态向量，并将输出的状态向量向后续轮传递，直至处理到当前轮；针对当前轮对应的MITE 211，将输入图像11的图像特征、当前轮提问的问题特征以及第n轮历史问答对话对应的MITE 211输出的状态向量作为输入，得到当前轮提问的状态向量。在本申请的一些实施例中，一轮历史问答对话对应的状态向量包括该轮历史问答对应的历史问答特征。

示意性地，服务器通过词嵌入操作(Word Embedding)将历史问答对话的文本映射为词向量，从而得到历史问答特征。

在本申请的一些实施例中，通过公式(1)获得一轮历史问答对话对应的状态向量，公式(1)为：

c _n＝MITE(v _n，u _n，c _n-1) (1)

其中，c _n表示MITE输出的第n轮历史问对话对应的状态向量，v _n表示输入图像的图像特征，u _n表示第n轮历史问答对话的历史问答特征(从历史问答对话的文本中提取)，c _n-1表示第n-1轮历史问答对话对应的状态向量。

步骤202，获取当前轮提问的问题特征。

在本申请实施例中，服务器提取当前轮提问对应的文本的特征，也就获得了当前轮提问的问题特征；这里，服务器可以通过视觉对话模型从当前轮提问的文本中提取问题特征。

本申请实施例以当前轮提问的问题特征包括问题中涉及的词向量和词向量的位置为例进行说明。

示意性地，服务器先通过词嵌入操作对当前轮提问的文本中的每个字符串进行映射，得到每个字符串的词向量，从而得到当前轮提问的文本对应的词向量。接着，服务器通过位置编码(Positional Encoding)使得当前轮提问的文本中的每个字符串按照一定的顺序进行编码，来获得当前轮提问的文本对应的每个词向量的位置；其中，位置编码包括绝对位置编码和相对位置编码。从而，服务器通过视觉对话模型获取到的问题特征包括词向量和每个词向量在句子中的位置。

可以理解的是，步骤201和步骤202可以同步实施，或者，步骤201先实施，步骤202后实施，或者，步骤202先实施，步骤201后实施；也就是说，步骤201和步骤202在执行顺序上不分先后。

步骤203，对图像特征、前n轮历史问答对话对应的状态向量和问题特征进行多模态编码处理，得到当前轮提问对应的状态向量。

在本申请实施例中，服务器综合图像特征、前n轮历史问答对话对应的状态向量和问题特征进行多模态编码处理，所获得的结果即与当前轮提问对应的状态向量。这里，服务器可以通过视觉对话模型执行多模态编码处理。

示意性地，视觉对话模型包括针对每轮历史问答对话设置的各自对应的MITE 211，针对当前轮提问，也存在对应的MITE 211。

示意性地，服务器将图像特征、第一轮历史问答对话的历史问答特征作为第一轮历史问答对话对应的MITE 211的输入，输出第一轮历史问答对话对应的状态向量；服务器将第一轮历史问答对话对应的状态向量、第二轮历史问答对话的历史问答特征和图像特征输入第二轮历史问答对话对应的MITE 211，输出第二轮历史问答对话对应的状态向量；以此类推。当前轮提问为第n+1轮，则将第n轮历史问答对话对应的状态向量(第n轮历史问答对话对应的MITE 211的输出)、图像特征和第n+1轮提问的问题特征输入至第n+1轮提问对应的MITE 211中，输出第n+1轮提问对应的状态向量。

步骤204，对当前轮提问对应的状态向量和图像特征进行多模态解码处理，得到当前轮提问对应的实际输出答案。

在本申请实施例中，服务器对获得的当前轮提问对应的状态向量和图像特征进行解码处理，所获得的解码结果即与当前轮提问对应的实际输出答案。其中，解码处理是一种多模态解码处理。这里，服务器可以通过视觉对话模型执行多模态解码处理。

示意性地，继续参见图3，如图3所示，视觉对话模型还包括解码器22，解码器22包括多模态增量式转换解码器(Multimodal Increasemental Transformer Decoder，MITD)221，通过将MITD 221输出的当前轮提问对应的状态向量、图像特征和已输出的字符串(目标输入)对应的嵌入层的输出输入至MITD 221中，MITD 221的输出经过逻辑回归层得到当前轮提问对应的实际输出答案中的某个字符串(目标输出)。

比如，当前轮提问的问题为：“How are you？”时，MITD结合已输出的单词(字符串)“I”、“am”以及当前轮提问对应的状态向量输出“fine”这个单词。

可以理解的是，本申请实施例提供的视觉对话方法，通过获取关于输入图像的前n轮历史问答对话对应的状态向量，使得视觉对话模型能够联系上下文更好地理解图像中隐含的信息，利用多模态编码处理方式和多模态解码处理方式，使得视觉对话模型能够更好地根据多种类型的信息，输出当前轮提问对应的实际输出答案，提高视觉对话模型输出的答案的准确率，且保证输出的答案与问题和输入图像的一致性，提升视觉对话的效果。

图4示出了本申请另一个示例性实施例提供的视觉对话方法的流程图。本申请实施例以该视觉对话方法用于如图1所示的视觉对话系统100中的服务器120为例进行说明，该视觉对话方法包括如下步骤：

步骤401，获取输入图像的图像特征和前n轮历史问答对话对应的状态向量，n为正整数。

示意性地，输入图像是现有的图像集中的图像。视觉对话模型包括特征提取模型，特征提取模型是基于卷积神经网络构建的模型。比如，通过快速区域检测卷积神经网络(Fast Region-CNN，Fast R-CNN)提取输入图像中的图像特征，如下公式(2)所示：

v＝FastR-CNN(I) (2)

其中，v表示输入图像的图像特征，I表示输入图像，FastR-CNN()表示Fast R-CNN对应的处理。

如图5所示，视觉对话模型的编码器21包括多个MITE 211，每轮历史问答对话对应一个MITE 211，上一轮历史问答对话对应的状态向量将作为输入，输入至下一轮历史问答对话对应的MITE 211中。以此类推，直至获取到当前轮提问的上一轮历史问答对话对应的状态向量。与图3不同的是，MITE 211的输入还包括图像描述17。

在本申请的一些实施例中，输入图像还对应有图像描述(caption)，图像描述用于描述输入图像中的实体以实体之间的关系，将图像描述也作为MITE 211的输入，有利于视觉对话模型更好地提取输入图像隐含的信息。比如，输入图像11对应有图像描述：四个人的自驾游旅行。

步骤402，获取当前轮提问的问题特征。

示意性地，特征提取模型还用于从当前轮提问中提取问题特征。问题特征u _n+1通过如下公式(3)和(4)提取：

u _n+1＝[u _n+1，1，u _n+1，2，…，u _n+1，L]∈R ^L×M (3)

u _n+1，l＝w _n+1，l+PE(l) (4)

其中，PE()为绝对位置编码函数对应的处理，w _n+1，l为当前轮提问中第l个字符串进行词嵌入操作后的词向量。u _n+1，l表示当前轮提问中第l个字符串的字符串特征，L表示当前轮提问中的字符串的最大数量，M表示的是每个字符串代表的维度，R代表域。

可以理解的是，上述绝对位置编码函数也可替换为相对位置编码函数。

在本申请的一些实施例中，n轮历史问答对话对应的历史问答特征也可通过上述公式(3)和(4)得到。

步骤403，获取第i轮历史问答对话对应的状态向量，i为正整数且i的起始值为1。

在本申请实施例中，服务器先通过第1个MITE 211编码出第1轮历史问答对应的状态向量；再通过第2个MITE 211对图像特征、第1轮历史问答对应的状态向量和问题特征进行多模态编码处理，得到第2轮历史问答对应的状态向量；如果第2轮不是当前轮，则继续基于上述处理获得第3轮历史问答对应的状态向量，如此迭代直至当前轮，获得第n+1轮历史问答对应的状态向量。这里，由于多模态增量式转换编码器与历史问答对话一一对应，当i为1时，第i轮历史问答对话对应的状态向量是第1个MITE 211对图像特征和问题特征进行编码获得的；当i大于1时，第i轮历史问答对话对应的状态向量是第i-1个MITE 211对图像特征和问题特征、以及第i-1轮历史问答对话对应的状态向量进行编码获得的。其中，i为变量，取值为1至n中的任一个。

以当前轮提问所属的轮次为第n+1轮，如图5所示，第n+1轮历史问答对话对应的状态向量是由第n+1轮历史问答对话对应的MITE 211输出的。每一轮历史问答对话对应有一个MITE 211，当前轮提问也对应一个MITE 211。本申请实施例以至少存在一轮历史问答对话为例进行说明。

步骤404，迭代i，调用视觉对话模型中的第i+1个多模态增量式转换编码器对图像特征、第i轮历史问答对话对应的状态向量和第i+1轮历史问答对话对应的问答特征进行多模态编码处理，得到第i+1轮历史问答对话对应的状态向量。

示意性地，服务器响应于第i+1轮为当前轮提问，通过第i+1轮历史问答对话对应的MITE 211输出当前轮提问对应的状态向量；服务器响应于第i+1轮为非当前轮提问，通过第i+1轮历史问答对话对应的MITE 211输出第i+1轮历史问答对话对应的状态向量。该第i+1轮历史问答对话对应的状态向量作为第i+2轮历史问答的输入。

在本申请实施例中，多模态增量式转换编码器包括K个子转换编码器，K为正整数，步骤404可替换为如下步骤：

步骤4041，获取第j个中间表示向量，第j个中间表示向量是对图像特征、第i轮历史问答对话对应的状态向量和第i+1轮历史问答对话对应的问答特征进行j次多模态编码处理得到的，第j个中间表示向量是第i+1轮历史问答对话对应的向量，j为正整数且j的起始值为1。

需要说明的是，j为变量，取值为1至K中的任一个。当j为1时，调用第1个子转换编码器对图像特征、第i轮历史问答对话对应的状态向量和第i+1轮历史问答对话对应的问答特征进行多模态编码处理，得到第1个中间编码向量(第j个中间表示向量)；当j大于1时，调用第j个子转换编码器对图像特征、第i轮历史问答对话对应的状态向量和第j-1个中间表示向量进行多模态编码处理，得到第j个中间编码向量(第j个中间表示向量)。

如图6所示，每个MITE 211包括K个子转换编码器212，K为正整数，每个子转换编码器212用于执行一次多模态编码处理，从而，一轮历史问答对话执行K次多模态编码处理。其中，一轮历史问答对话中，比如，针对第i+1轮历史问答对话对应的问答特征u _i+1(第i+1轮历史问答对话通过嵌入层获得的输出结果)，经过K次多模态编码处理，获得第i+1轮历史问答对话对应的状态向量c _i+1。

在本申请实施例中，每个MITE 211包括的子转换编码器的数量相同或不同，即各轮历史问答对话执行的多模态编码处理的次数相同或不同。

响应于第i+1轮为非当前轮提问，如图6所示，将图像特征v、第i轮历史问答对话对应状态向量c _i和历史问答特征u _i+1(由第i+1轮历史问答对话经过嵌入层获得)输入至第i+1个MITE 211中的第1个子转换编码器212中，输出中间表示向量，将该中间表示向量、图像特征v和第i+1轮历史问答对话对应的问答特征u _i+1输入至第2个子转换编码器212中。以此类推，第j个子转换编码器212输出j个中间表示向量，该j个中间表示向量是第i+1轮历史问答对话对应的向量。继续利用子转换编码器212执行处理，直至获得第K个子转换编码器212输出的中间表示向量；这里，第K个子转换编码器212输出的中间表示向量为第i+1轮历史问答对话对应的状态向量c _i+1。

响应于第i+1轮为当前轮提问，将图像特征v、第i轮历史问答对话对应的状态向量c _i和当前轮提问的问题特征u _i+1输入至第i+1个MITE 211中的第1个子转换编码器212中，输出中间表示向量，将该中间表示向量、图像特征v和历史问答特征u _i+1输入至第2个子转换编码器212中，以此类推，第j个子转换编码器212输出第j个中间表示向量，该第j个中间表示向量是当前轮提问对应的向量(非当前轮提问对应的状态向量)。

步骤4042，迭代j，调用第i+1个多模态增量式转换编码器中的第j+1个子转换编码器对第j个中间表示向量、图像特征和第i轮历史问答对话对应的状态向量进行多模态编码处理，得到第j+1个中间表示向量，第j+1个中间表示向量是第i+1轮历史问答对话对应的另一向量，j+1≤K。

在本申请实施例中，服务器将图像特征、第i+1轮历史问答对话的历史问答特征和第j个子转换编码器212输出的第j个中间表示向量输入至第j+1个子转换编码器212中，第j+1个子转换编码器输出第j+1个中间表示向量，该第j+1个中间表示向量也是第i+1轮历史问答对话对应的向量。

需要说明的是，若第j+1＜K，则第j+1个子转换编码器输出的第j+1个中间表示向量作为第j+2个子转换编码器的输入；若j+1＝K，则第j+1个子转换编码器输出的第j+1个中间表示向量为第i+1轮历史问答对话对应的状态向量。

步骤4043，将迭代j得到的第K个中间表示向量确定为第i+1轮历史问答对话对应的状态向量。

在本申请实施例中，服务器将前一个子转换编码器输出的中间表示向量输入至下一个子转换编码器中。直至一轮问答对话(包括一轮历史问答对话和当前轮提问)对应的MITE中的K个子转换编码器均进行了多模态编码处理，输出一轮问答对话对应的状态向量。

需要说明的是，服务器调用第i+1个MITE中的第1个子转换编码器对图像特征、第i轮历史问答对话对应的状态向量和第i+1轮历史问答对话的问答特征进行多模态编码处理，得到第j个中间表示向量；迭代j，调用第j+1个子转换编码器对图像特征、第i+1轮历史问答对话对应的状态向量和第j个中间表示向量进行多模态编码处理，得到第j+1个中间表示向量；其中，j为从1开始递增的正整数变量；将迭代j得到的第K个中间表示向量确定为第i+1轮历史问答对话对应的状态向量。

步骤405，将迭代i得到的第n+1轮历史问答对话对应的状态向量确定为当前轮提问对应的状态向量。

需要说明的是，每轮历史问答对话对应一个MITE 211，每个MITE 211输出的是每轮历史问答对话对应的状态向量，前一个MITE 211输出的状态向量作为下一个MITE 211的输入，直到输入至第n+1轮提问对应的MITE 211中，服务器通过第n+1轮提问对应的MITE 211输出当前轮提问对应的状态向量。

在本申请实施例中，服务器调用视觉对话模型中的第1个MITE对图像特征和第1轮历史问答对话的问答特征进行多模态编码处理，得到第1轮历史问答对话对应的状态向量；迭代i，调用第i+1个MITE对图像特征、第i+1轮历史问答对话对应的状态向量和第i+1轮历史问答对话对应的问答特征进行多模态编码处理，得到第i+1轮历史问答对话对应的状态向量；其中，i为从1开始递增的正整数变量；将迭代i得到的第n+1轮历史问答对话对应的状态向量确定为当前轮提问对应的状态向量。

步骤406，调用视觉对话模型中的多模态增量式转换解码器，获取当前轮提问对应的实际输出答案中已输出的字符串的字符串特征。

如图5所示，视觉对话模型包括多模态增量式转换解码器(MITD模型)221，用于解码出组成答案的字符串。示意性地，当前轮提问为：“How are you？”，实际输出答案为：“I am OK”。多模态增量式解码器221正在输出的字符串是“OK”，则向多模态增量式转换解码器中输入单词“I”和“am”。

在本申请实施例中，字符串特征可通过特征提取模型从已输出的答案对应的答案文本中提取。

步骤407，调用多模态增量式转换解码器对当前轮提问对应的状态向量、图像特征和字符串特征进行多模态解码处理，得到解码特征向量。

步骤408，根据解码特征向量确定当前轮提问对应的实际输出答案，其中，实际输出答案包括已输出的字符串。

在本申请实施例中，服务器通过向MITD 221输入已输出的字符串，并结合当前轮提问对应的状态向量和图像特征输出当前轮提问对应的实际输出答案中的一个字符串。

在本申请实施例中，多模态增量式转换解码器包括T个子转换编码器，T为正整数，上述步骤407可替换为如下步骤：

步骤4071，获取第m个中间表示向量，第m个中间表示向量是对当前轮提问对应的状态向量、图像特征和字符串特征进行m次多模态解码处理得到的，m为正整数且m的起始值为1。

需要说明的是，m为变量，取值为1至T中的任一个。当m为1时，利用第1个子转换解码器对当前轮提问对应的状态向量、图像特征和字符串特征进行多模态解码处理，得到第1个中间解码向量(第m个中间表示向量)；当m大于1时，利用第m个子转换解码器对当前轮提问对应的状态向量、图像特征和第m-1个中间解码向量(第m-1个中间表示向量)进行多模态解码处理，得到第m个中间解码向量(第m个中间表示向量)。

如图5所示，图5中的MITD 221包括T个子转换解码器222，每个子转换解码器222用于执行一次多模态解码处理，从而，一个MITD 221对输入的向量执行T次多模态解码处理。

在本申请的一些实施例中，视觉对话模型包括一个或多个MITD 221，本申请实施例以视觉对话模型包括一个MITD 221为例进行说明。

将图像特征v、字符串特征和当前轮提问对应的MITE 211输出的当前轮提问对应的状态向量c _n+1输入至MITD中的第1个子转换解码器222中，输出中间表示向量，将该中间表示向量、图像特征v和字符串特征输入至第2个子转换解码器222中。以此类推，第m个子转换解码器222输出第m个中间表示向量，该第m个中间表示向量是当前轮提问对应的向量。

步骤4072，迭代m，调用多模态增量式转换解码器中的第m+1个子转换解码器对第m个中间表示向量、图像特征和当前轮提问对应的状态向量进行多模态解码处理，得到第m+1个中间表示向量，m+1≤T。

在本申请实施例中，服务器将第m个子转换解码器输出的第m个中间表示向量输入至第m+1个子转换解码器222中，第m+1个子转换解码器输出第m+1个中间表示向量，该第m+1个中间表示向量也是当前轮提问对应的向量。

需要说明的是，若m+1＜T，则第m+1个子转换解码器输出的第m+1个中间表示向量作为第m+2个子转解码器的输入；若m+1＝T，则第m+1个子转换解码器输出的第m+1个中间表示向量为当前轮提问对应的解码特征向量，根据解码特征向量可确定输出的字符串。

步骤4073，将迭代m得到的第T个中间表示向量确定为解码特征向量。

在本申请实施例中，服务器将前一个子转换解码器输出的中间表示向量输入至下一个子转换解码器中，直到MITD中的T个子转换解码器均进行了多模态解码处理，输出当前轮提问对应的解码特征向量，该解码特征向量用于确定实际输出答案。

需要说明的是，服务器调用MITD中的第1个子转换解码器对图像特征、当前轮提问对应的状态向量和字符串特征进行多模态解码处理，得到第1个中间解码向量；迭代j，调用第m+1个子转换解码器对图像特征、当前轮提问对应的状态向量和第m个中间解码向量(第m个中间表示向量)进行多模态编码处理，得到第m+1个中间解码向量(第m+1个中间表示向量)；其中，m为从1开始递增的正整数变量；将迭代m得到的第T个中间解码向量(第T个中间表示向量)确定为解码特征向量。

可以理解的是，本申请实施例提供的视觉对话方法，通过获取关于输入图像的前n 轮历史问答对话对应的状态向量，使得视觉对话模型能够联系上下文更好地理解输入图像中隐含的信息，利用多模态编码处理方式和多模态解码处理方式，使得视觉对话模型能够更好地根据多种类型的信息，输出当前轮提问对应的实际输出答案，提高视觉对话模型输出的答案的准确率，且保证输出的答案与问题和输入图像的一致性，提升视觉对话的效果。

还可以理解的是，服务器通过视觉对话模型中的多模态增量式转换编码器对每一轮历史问答对话对应的状态向量进行多模态编码处理，以此类推，从而得到当前轮提问对应的状态向量，使得后续经过多模态解码处理后得到的输出答案更加准确。

还可以理解的是，服务器通过在每个多模态增量式转换编码器中设置K个子转换编码器，该K个子转换编码器之间依次将前一个子转换编码器输出的中间表示向量传递至下一个子转换编码器中，从而得到当前轮提问对应的状态向量，使得后续进行解码处理得到的输出答案更加准确。本申请实施例通过层状结构能够为后续输出答案提供准确的中间表示向量。

还可以理解的是，服务器通过视觉对话模型中的多模态增量式转换解码器对多模态增量式转换编码器输出的状态向量进行解码处理，从而使得视觉对话模型能够准确输出当前轮提问对应的实际输出答案。

还可以理解的是，服务器通过多模态增量式转换解码器中设置的T个子转换解码器，该T个子转换解码器之间依次将前一个子转换解码器输出的中间表示向量传递至下一个子转换解码器中，从而得到当前轮提问对应的实际输出答案。本申请实施例通过层状结构能够保证视觉对话模型输出的答案的准确率。

下面分别对子转换编码器和子转换解码器的内部结构进行说明。

图7示出了本申请一个示例性实施例提供的子转换编码器的结构示意图。一个子转换编码器212包括自注意力层(Self-Attention)213、跨模态注意力层(Cross-Modal Attention)214、历史注意力层(History Attention)215和前馈神经网络层(Feedforward Neural Network，FNN)216。K表示一个MITE 211包括K个子转换编码器212，即包括K个自注意力层213、K个跨模态注意力层214、K个历史注意力层215和K个前馈神经网络层216。

示意性地，以第j+1个子转换编码器的输入输出过程为例进行说明，该子转换编码器的输入输出过程如下：

步骤1、调用第i+1个多模态增量式转换编码器中的第j+1个子转换编码器对第j个中间表示向量进行中间编码处理，得到第一子向量。

在本申请实施例中，服务器将第j个子转换编码器输出的第j个中间表示向量输入至第j+1个子转换编码器的自注意力层213中，输出第一子向量。

示例性地，获取第j个子向量的过程可通过公式(5)实现，公式(5)如下：

A ^(j+1)＝MultiHead(C ^j，C ^j，C ^j) (5)

其中，A ^(j+1)表示第一子向量，C ^j表示前一个子转换编码器(第j个子转换编码器)输出的第j个中间表示向量，MultiHead()表示多头注意力机制对应的处理。

可以理解的是，第j个子转换编码器输出的第j个中间表示向量是第j个子转换编码器的前馈神经网络层输出的。

步骤2、对第一子向量和图像特征进行中间编码处理，得到第二子向量。

在本申请实施例中，服务器将第一子向量输入至跨模态注意力层214中，同时输入图像的图像特征v，输出第二子向量。

示例性地，获取第二子向量的过程可通过公式(6)实现，公式(6)如下：

B ^(j+1)＝MultiHead(A ^(j+1)，v，v) (6)

其中，B ^(j+1)表示第二子向量。

步骤3、对第二子向量和第i轮历史问答对话对应的状态向量进行中间编码处理，得到第三子向量。

在本申请实施例中，服务器将第二子向量输入至历史注意力层215中，同时输入第i轮历史问答对话对应的状态向量(即第i轮历史问答对话对应的MITE输出的状态向量)，输出第三子向量。

示例性地，获取第三子向量的过程可通过公式(7)实现，公式(7)如下：

F ^(j+1)＝MultiHead(B ^(j+1)，c _i，c _i) (7)

其中，F ^(j+1)表示第三子向量，c _i表示第i轮历史问答对话对应的状态向量。

步骤4、对第三子向量进行中间编码处理，得到第j+1个中间表示向量。

在本申请实施例中，服务器将第三子向量输入至前馈神经网络层216，输出与第j+1个子转换编码器对应的第j+1个中间表示向量。

示例性地，获取第二中间表示向量的过程可通过公式(8)实现，公式(8)如下：

C ^(j+1)＝FFN(F ^(j+1)) (8)

其中，C ^(j+1)表示第j+1个中间表示量，FFN()表示前馈神经网络层对应的处理。

需要说明的是，若第j+1个子转换编码器是第i+1轮历史问答对话的MITE中的最后一个子转换编码器(即j+1＝K)，则输出第i+1轮历史问答对话对应的状态向量.

示例性地，获取第i+1轮历史问答对话对应的状态向量的过程可通过公式(9)实现，公式(9)如下：

c _i+1＝C ^(j+1) (9)

其中，c _i+1表示第i+1轮历史问答对话对应的状态向量。

需要说明的是，若第j+1个子转换编码器不是MITE模型中的最后一个子转换编码器(即j+1＜K)，则输出中间表示向量，该中间表示向量将作为第j+2个子转换编码器的输入，以此类推，直到最后一个子转换编码器输出第i+1轮历史问答对话对应的状态向量。

需要说明的是，每一个MITE对应一轮历史问答对话，当前轮提问对应的MITE将上一轮历史问答对话对应的状态向量、问题特征和图像特征作为输入，输入至当前轮提问对应的MITE 211中的第一个子转换编码器212中的自注意力层213中，重复上述步骤，直到输出当前轮提问对应的状态向量。

可以理解的是，本申请实施例的视觉对话方法，通过子转换编码器中设置的多层结构，分别计算各个中间表示向量，使得每一个子转换编码器均能根据前一个子转换编码器准确输出中间表示向量，从而保证后续得到当前轮提问对应的状态向量是准确的。

图8示出了本申请一个示例性实施例提供的子转换解码器的结构示意图。一个子转换解码器222包括自注意力层(Self-attention)223、门控跨模态注意力层(Gated Cross Attention，GCA)224和前馈神经网络层(Feedforward Neural Network，FNN)225。T表示一个MITD 221包括T个子转换解码器222，即包括T个自注意力层223、T个门控跨模态注意力层224和T个前馈神经网络层225。一个子转换解码器222的输入包括输入图像的图像特征v、第n+1轮历史温度对话对应的状态向量、第n+1轮对应的问题特征和目标输入。

示意性地，以第m+1个子转换解码器的输入输出过程为例进行说明，该子转换解码器的输入输出过程如下：

步骤11、调用所述多模态增量式转换解码器中的第m+1个子转换解码器对第m个中间表示向量进行中间解码处理，得到第三子向量。

在本申请实施例中，服务器将第m个子转换解码器输出的第m个中间表示向量输入至第m+1个子转换解码器的自注意力层223中，输出第三子向量。

示例性地，获取第三子向量的过程可通过公式(10)实现，公式(10)如下：

J ^(m+1)＝MultiHead(R ^m，R ^m，R ^m) (10)

其中，J ^(m+1)表示第三子向量，R ^m表示前一个子转换解码器(第m个子转换解码器)输出的第m个中间表示向量，MultiHead()表示多头注意力机制。

需要说明的是，第1个子转换解码器之前无子转换解码器的输出作为输入，将目标输入R ⁰输入至第1个子转换解码器中(即实际输出答案的答案特征；在视觉对话模型的实际使用过程中，目标输入是已输出的前x个字符串的字符串特征；在视觉对话模型的训练过程中，目标输入是与已输出的前x个字符串对应的实际输出答案中的字符串的字符串特征。

可以理解的是，第m个子转换解码器输出的第m个中间表示向量是第m个子转换解码器的前馈神经网络层输出的。

步骤12、对第三子向量、图像特征和当前轮提问对应的状态向量进行中间解码处理，得到第四子向量。

在本申请实施例中，服务器将第三子向量、图像特征和当前轮提问对应的状态向量输入至门控跨模态注意力层224中，同时输入当前轮提问对应的状态向量和图像特征，输出第四子向量。

如图9所示，门控跨模态注意力层224中，跨模态注意力层226-1(Cross-modal Attention)接收当前轮提问(第n+1轮)对应的状态向量c _n+1，并根据第三子向量J ^(m+1)和当前轮提问对应的状态向量c _n+1输出向量E ^(m+1)；如公式(11)所示：

E ^(m+1)＝MultiHead(J ^(m+1)，c _n+1，c _n+1) (11)

继续参见图9，跨模态注意力层226-2接收图像特征v，输出向量G ^(m+1)；如公式(12)所示：

G ^(m+1)＝MultiHead(J ^(m+1)，v，v) (12)

需要说明的是，由于图9中的跨模态注意力层226-1和跨模态注意力层226-2是相同的，所以两侧的计算过程可以调换，即左侧的跨模态注意力层226-1输出向量G ^(m+1)，跨模态注意力层226-2输出向量E ^(m+1)。以图9中无标注的矩形表示输出的向量(E ^(m+1)和G ^(m+1))，矩形仅为示意不代表实际输出的特征向量的大小和个数。

继续参见图9，跨模态注意力层226-1输出的向量E ^(m+1)，通过全连接层(Fully Connected Layers，FC)227-1输出向量α ^(m+1)；如公式(13)所示：

α ^(m+1)＝σ(W _E[J ^(m+1)，E ^(m+1)]+b _E) (13)

其中，E ^(m+1)表示跨模态注意力层226-1输出的向量，σ表示逻辑回归函数(Sigmoid)，W _E、b _E表示跨模态注意力层226-1的参数。

继续参见图9，跨模态注意力层226-2输出的向量G ^(m+1)，通过全连接层227-2输出向量β ^(m+1)，如公式(14)所示：

β ^(m+1)＝σ(W _G[J ^(m+1)，G ^(m+1)]+b _G) (14)

其中，G ^(m+1))表示跨模态注意力层226-2输出的向量，σ表示逻辑回归函数，W _G、b _G表示跨模态注意力层226-2的参数。

最后，结合上述计算结果，利用哈达玛积(Hadamard Product)计算第四子向量P ^(m+1)并输出，如公式(15)所示：

P ^(m+1)＝α ^(m+1)οE ^(m+1)+β ^(m+1)οG ^(m+1) (15)

其中，ο表示哈达玛积。

需要说明的是，由于全连接层227-1和全连接层227-2是相同的，所以两侧的计算过程可以调换，即全连接层227-2输出向量α ^(m+1)，全连接层227-1输出向量β ^(m+1)。

步骤13、对第四子向量进行中间解码处理，得到第m+1个中间表示向量。

在本申请实施例中，服务器将第四子向量输入至前馈神经网络层225中，输出第m+1次多模态解码处理对应的第m+1个中间表示向量，如公式(16)所示：

R ^(m+1)＝FFN(P ^(m+1)) (16)

其中，R ^(m+1)表示第m+1个子转换解码器输出的第m+1个中间表示量。

需要说明的是，若第m+1个子转换解码器是MITD中的最后一个子转换编码器，对当前轮提问对应的状态向量、图像特征和字符串特征进行多模态解码处理，得到解码特征向量r _n+1，如公式(17)所示：

r _n+1＝R ^(m+1) (17)

需要说明的是，若第m+1个子转换解码器不是MITD模型中的最后一个子转换解码器，则输出中间表示向量，该中间表示向量将作为第m+2个子转换解码器的输入，以此类推，直到最后一个子转换解码器输出上述解码特征向量r _n+1。

在本申请实施例中，服务器根据解码特征向量得到实际输出答案中输出的字符串概率。

如图5所示，将MITD输出的特征向量输入至逻辑回归层，得到当前正在输出的字符串的概率，如公式(18)所示：

其中，

表示当前正在输出的字符串的概率(字符串概率)。

在本申请实施例，服务器根据字符串概率输出实际输出答案中的字符串。这里，服务器可以通过视觉对话模型来利用输出的字符串概率确定当前正在输出的字符串(目标输出)。

可以理解的是，本申请实施例的视觉对话方法，通过子转换解码器中设置的多层结构，分别计算各个中间表示向量，使得每一个子转换解码器均能根据前一个子转换解码器准确输出中间表示向量，从而保证后续得到的当前轮提问对应的解码特征向量是准确的。从而保证根据解码特征向量输出的实际输出答案的准确性。

可以理解的是，本申请实施例中多模态增量式转换编码器和多模态增量式转换解码器中的注意力模型可替换为其他的注意力模型，比如传统的注意力模型、局部和全局注意力模型、多头注意力模型等。

下面对视觉对话模型的训练方法进行说明。

图10示出了本申请一个示例性实施例提供的视觉对话模型的训练方法的流程图。本申请实施例以该视觉对话方法用于如图1所示的视觉对话系统100中的服务器120为例进行说明，该视觉对话方法包括如下步骤：

步骤1001，获取输入图像样本的图像特征样本和前s轮历史问答对话样本对应的状态向量样本，s为正整数。

需要说明的是，训练视觉对话模型的训练样本包括输入图像样本，输入图像样本是现有的图像集中的图像。视觉对话模型包括特征提取模型，特征提取模型是基于卷积神经网络构建的模型。从而，服务器通过快速区域检测卷积神经网络提取输入图像样本中的特征，所提取到的特征即图像特征样本；或者，服务器通过卷积神经网络提取输入图像样本中的图像特征样本；再或者，服务器通过视觉几何组网络(Visual Geometry Group Network，VGG)提取输入图像样本中的图像特征样本；又或者，通过残差神经网络(ResNET)提取输入图像样本中的图像特征样本。其中，训练视觉对话模型的过程中，包括训练特征提取模型的过程，从而，特征提取模型是训练好的特征提取模型。

需要说明的是，步骤1001对应的实现描述与步骤401的实现描述类似。

步骤1002，获取当前轮提问的问题特征和当前轮提问对应的真实答案的第一答案特征。

在本申请实施例中，服务器可采用公式(3)和(4)来获取问题特征和第一答案特征。这里，问题特征和第一答案特征可以是通过视觉对话模型获得的。

步骤1003，调用视觉对话模型对图像特征样本、前s轮历史问答对话样本对应的状态向量样本和问题特征样本进行多模态编码处理，得到当前轮提问样本对应的状态向量样本。

在本申请实施例中，服务器通过视觉对话模型针对前s轮历史问答对话样本设置有s个多模态增量式转换编码器(MITE)，针对当前轮提问样本设置有对应的MITE，前一个MITE输出的一轮历史问答对话样本对应的状态向量样本作为下一个MITE的输入。重复上述输出状态向量样本的过程，直到输出当前轮提问样本对应的状态向量样本。

步骤1004，调用视觉对话模型对当前轮提问样本对应的状态向量样本、图像特征样本和第一答案特征进行多模态解码处理，得到当前轮提问样本对应的实际输出答案样本的第二答案特征。

在本申请实施例中，视觉对话模型还包括多模态增量式转换解码器(MITD)，服务器将当前轮提问样本对应的状态向量样本、图像特征样本和第一答案特征输入至MITD中。MITD模型包括T个子转换解码器，前一个子转换解码器输出的中间表示向量作为下一个子转换解码器的输入。重复上述输出中间表示向量的过程，直到输出当前轮提问样本对应的最终解码特征向量样本。该解码特征向量样本为当前轮提问样本对应的实际输出答案样本的第二答案特征。

需要说明的是，在视觉对话模型的训练过程中，服务器通过视觉对话模型获取真实答案中前q个字符串的字符串特征标签(第一答案特征)，真实答案中前q个字符串与实际输出答案中已输出的q个字符串一一对应，q为正整数；根据当前轮提问样本对应的状态向量样本、图像特征样本和字符串特征标签得到实际输出答案中第q+1个字符串对应的第二答案特征。

比如，当前轮提问样本为：“How are you？”，且该当前轮提问样的真实答案为：“I am fine。”，视觉对话模型实际输出答案样本为：“I am OK。”时，在视觉对话模型的训练过程中，当视觉对话模型准备输出实际输出答案样本中的第三个单词(字符串)时，通过向MITD中输入真实答案中的单词“I”、“am”以当前轮提问样本对应的状态向量样本，从而视觉对话模型输出的答案中的第三个单词：OK(或者是good)。

步骤1005，根据第一答案特征和第二答案特征，对视觉对话模型进行训练，得到训练后的视觉对话模型。

在本申请实施例中，服务器根据第一答案特征和第二答案特征之间的差异对视觉对话模型进行训练。这里，训练后的视觉对话模型即步骤403中的视觉对话模型。

示例性地，结合实际输出单词“OK”和真实答案中的单词“fine”对视觉对话模型进行训练。

可以理解的是，本申请实施例的视觉对话方法，通过获取关于输入图像的前n轮历史问答对话对应的状态向量，使得训练后的视觉对话模型能够联系上下文更好地理解图像中隐含的信息，利用多模态编码处理方式和多模态解码处理方式，使得训练后的视觉对话模型能够更好地根据多种类型的信息，输出当前轮提问对应的实际输出答案，提高训练后的视觉对话模型输出的答案的准确率，且保证输出的答案与问题和输入图像的一致性，提升视觉对话的效果。

还可以理解的是，通过当前轮提问样本对应的状态向量样本、图像特征样本和真实答案对应的第一答案特征来训练得到视觉对话模型，使得训练后的视觉对话模型输出的答案的准确率提高。

在本申请实施例中，当训练后的视觉对话模型准备输出第q+1个字符串时，视觉对话模型是根据真实答案中第q+1个字符串之前的所有的字符串和当前轮提问样本对应的状态向量样本来确定输出的第q+1个字符串是什么字符串，从而使得训练后的视觉对话模型输出的字符串准确率更高，从而保证输出的答案的正确率更高。

可以理解的是，视觉对话模型的训练方法和使用方法相似，在训练视觉对话模型时，通过对当前轮提问样本对应的状态向量样本和图像特征样本进行多模态解码处理，得到当前轮提问对应的实际输出答案的第二答案特征，结合真实答案的第一答案特征和第二答案特征对视觉对话模型进行训练。在实际使用视觉对话模型时，向视觉对话模型输入问题后，训练后的视觉对话模型根据已输出的字符串和当前轮提问对应的状态向量输出准备输出的字符串。

在本申请实施例中，调用视觉对话模型中的多模态增量式转换编码器获取第a轮历史问答对话样本对应的第一状态向量样本，a为正整数，a为变量，a对应的取值为1至s中的任一个；获取第a轮历史问答对话样本对应的状态向量样本，a为正整数且a的起始值为1；迭代a，调用视觉对话模型中的第a+1个多模态增量式转换编码器对图像特征样本、第a轮历史问答对话样本对应的状态向量样本和第a+1轮历史问答对话样本对应的问答特征样本进行多模态编码处理，得到第a+1轮历史问答对话样本对应的状态向量样本，多模态增量式转换编码器与历史问答对话样本一一对应；将迭代a得到的第s+1轮历史问答对话样本对应的状态向量样本确定为当前轮提问样本对应的状态向量样本。

在本申请实施例中，多模态增量式转换编码器包括K个子转换编码器，K为正整数；获取第j个中间表示向量样本，第j个中间表示向量样本是对图像特征样本、第a轮历史问答对话样本对应的状态向量样本和第a+1轮历史问答对话样本对应的问答特征样本样本进行j次多模态编码处理得到的，第j个中间表示向量样本是第a+1轮历史问答对话样本对应的向量，j为正整数且j的起始值为1；迭代j，调用视觉对话模型中的第a+1个多模态增量式转换编码器中的第a+1个多模态增量式转换编码器中的第j+1个子转换编码器对第j个中间表示向量样本、图像特征样本和第i轮历史问答对话样本对应的状态向量样本进行多模态编码处理，得到第j+1个中间表示向量样本，第j+1个中间表示向量样本是第i+1轮历史问答对话样本对应的另一向量，j+1≤K；将迭代j得到的第K个中间表示向量样本确定为第a+1轮历史问答对话样本对应的状态向量样本。

在本申请实施例中，调用第a+1个多模态增量式转换编码器中的第j+1个子转换编码器对第j个中间表示向量样本进行中间编码处理，得到第一子向量样本；对第一子向量样本和图像特征样本进行中间编码处理，得到第二子向量样本；对第二子向量样本和第a轮历史问答对话样本对应的状态向量样本进行中间编码处理，得到第三子向量样本；对第三子向量样本进行中间编码处理，得到第j+1个中间表示向量样本。

在本申请实施例中，调用视觉对话模型中的多模态增量式转换解码器获取当前轮提问样本对应的实际输出答案样本中已输出的字符串的字符串特征样本；调用多模态增量式转换解码器对当前轮提问样本对应的状态向量样本、图像特征样本和字符串特征样本进行多模态解码处理，得到解码特征向量样本；根据解码特征向量样本确定当前轮提问对应的实际输出答案样本。

在本申请实施例中，多模态增量式转换解码器包括T个子转换解码器，T为正整数；获取第m个中间表示向量样本，第m个中间表示向量样本是对当前轮提问样本对应的状态向量样本、图像特征样本和字符串特征样本进行m次多模态解码处理得到的，m为正整数且m的起始值为1；迭代m，调用多模态增量式转换解码器中的第m+1个子转换解码器对第m个中间表示向量样本、图像特征样本和当前轮提问样本对应的状态向量样本进行多模态解码处理，得到第m+1个中间表示向量样本，m+1≤T；将迭代m得到的第T个中间表示向量样本确定为解码特征向量样本。

在本申请实施例中，调用多模态增量式转换解码器中的第m+1个子转换解码器对第m个中间表示向量样本进行中间解码处理，得到第三子向量样本；对第三子向量样本、图像特征样本和当前轮提问样本对应的状态向量样本进行中间解码处理，得到第四子向量样本；对第四子向量样本进行中间解码处理，得到第m+1个中间表示向量样本。

在本申请实施例中，根据解码特征向量样本得到实际输出答案样本中输出的字符串预估概率；根据字符串预估概率输出实际输出答案样本中的字符串样本。

表1示出了视觉对话模型与基准模型对比下的训练效果，以不同类型的评价指标综合评价上述方法实施例中提供的视觉对话模型。

表1

对于每个问题，视觉对话模型均会获取候选答案的列表，表1中的三种评估指标用于评价视觉对话模型检索答案的性能。

其中，MRR表示平均排序倒数(Mean Reciprocal Rank)，将候选答案的列表进行排序，若正确答案排在第a位，则MRR的值为1/a。MRR的值越高代表视觉对话模型输出的答案准确率越高，即视觉对话模型的效果越好。

R@K表示排名前K的答案中存在的人类反应等级(Existence of the Human Response in Top-K Ranked Responses)，R@K的值越高代表视觉对话模型输出的答案准确率越高，即视觉对话模型的效果越好。

Mean表示人类反应的平均等级，Mean的值越低代表视觉对话模型输出的答案的准确率越高，即是觉对话模型的效果越好。

由表1可知，本申请实施例提供的视觉对话模型在各项评价指标上均优于基准视觉对话模型(通常提高或降低1个点即是显著提高)。

图11是本申请一个示例性实施例提供的视觉对话装置的结构框图，该视觉对话装置11-1包括：

第一获取模块1110，配置为获取输入图像的图像特征和前n轮历史问答对话对应的状态向量，n为正整数；

所述第一获取模块1110，配置为获取当前轮提问的问题特征；

第一特征编码模块1120，配置为对图像特征、前n轮历史问答对话对应的状态向量和问题特征进行多模态编码处理，得到当前轮提问对应的状态向量；

第一特征解码模块1130，配置为对当前轮提问对应的状态向量和图像特征进行多模态解码处理，得到当前轮提问对应的实际输出答案。

在本申请实施例中，所述特征编码模块1120，还配置为获取第i轮历史问答对话对应的状态向量，i为正整数且i的起始值为1；迭代i，调用视觉对话模型中的第i+1个多模态增量式转换编码器对所述图像特征、所述第i轮历史问答对话对应的状态向量和第i+1轮历史问答对话样本对应的问答特征进行多模态编码处理，得到第i+1轮历史问答对话对应的状态向量，不同的所述多模态增量式转换编码器与不同的所述历史问答对话一一对应；将迭代i得到的第n+1轮历史问答对话对应的状态向量确定为所述当前轮提问对应的状态向量。

在本申请实施例中，多模态增量式转换编码器包括K个子转换编码器，K为正整数；所述第一特征编码模块1120，还配置为获取第j个中间表示向量，所述第j个中间表示向量是对所述图像特征、所述第i轮历史问答对话对应的状态向量和第i+1轮历史问答对话样本对应的问答特征进行j次多模态编码处理得到的，所述第j个中间表示向量是所述第i+1轮历史问答对话对应的向量，j为正整数且j的起始值为1；迭代j，调用所述视觉对话模型中的所述第i+1个多模态增量式转换编码器中的所述第i+1个多模态增量式转换编码器中的第j+1个子转换编码器对所述第j个中间表示向量、所述图像特征和所述第i轮历史问答对话对应的状态向量进行多模态编码处理，得到第j+1个中间表示向量，所述第j+1个中间表示向量是所述第i+1轮历史问答对话对应的另一向量，j+1≤K；将迭代j得到的第K个中间表示向量确定为所述第i+1轮历史问答对话对应的状态向量。

在本申请实施例中，所述第一特征编码模块1120，还配置为调用所述第i+1个多模态增量式转换编码器中的所述第j+1个子转换编码器对所述第j个中间表示向量进行中间编码处理，得到第一子向量；对所述第一子向量和所述图像特征进行中间编码处理，得到第二子向量；对所述第二子向量和所述第i轮历史问答对话对应的状态向量进行中间编码处理，得到第三子向量；对所述第三子向量进行中间编码处理，得到所述第j+1个中间表示向量。

在本申请实施例中，所述第一特征解码模块1130，还配置为调用视觉对话模型中的多模态增量式转换解码器获取当前轮提问对应的实际输出答案中已输出的字符串的字符串特征；调用所述多模态增量式转换解码器对当前轮提问对应的状态向量、图像特征和字符串特征进行多模态解码处理，得到解码特征向量；根据所述解码特征向量确定所述当前轮提问对应的所述实际输出答案，其中，所述实际输出答案包括所述已输出的字符串。

在本申请实施例中，所述第一特征解码模块1130，还配置为根据所述解码特征向量确定字符串概率；根据所述字符串概率确定所述实际输出答案中的字符串。

在本申请实施例中，多模态增量式转换解码器包括T个子转换解码器，T为正整数；所述第一特征解码模块1130，还配置为获取第m个中间表示向量，所述第m个中间表示向量是对所述当前轮提问对应的状态向量、所述图像特征和所述字符串特征进行m次多模态解码处理得到的，m为正整数且m的起始值为1；迭代m，调用所述多模态增量式转换解码器中的第m+1个子转换解码器对所述第m个中间表示向量、所述图像特征和所述当前轮提问对应的状态向量进行多模态解码处理，得到第m+1个中间表示向量，m+1≤T；将迭代m得到的第T个中间表示向量确定为所述解码特征向量。

在本申请实施例中，所述第一特征解码模块1130，还配置为调用所述多模态增量式转换解码器中的所述第m+1个子转换解码器对所述第m个中间表示向量进行中间解码处理，得到第三子向量；对所述第三子向量、所述图像特征和所述当前轮提问对应的状态向量进行中间解码处理，得到第四子向量；对所述第四子向量进行中间解码处理，得到所述第m+1个中间表示向量。

可以理解的是，本申请实施例提供的视觉对话装置，通过获取关于输入图像的前n轮历史问答对话对应的状态向量，使得视觉对话模型能够联系上下文更好地理解图像中隐含的信息，利用多模态编码处理方式和多模态解码处理方式，使得视觉对话模型能够更好地根据多种类型的信息，输出当前轮提问对应的实际输出答案，提高视觉对话模型输出的答案的准确率，且保证输出的答案与问题和输入图像的一致性，提升视觉对话的效果。

还可以理解的是，通过视觉对话模型中的多模态增量式转换编码器对每一轮历史问答对话对应的状态向量进行多模态编码处理，以此类推，从而得到当前轮提问对应的状态向量，使得后续经过多模态解码处理后得到的输出答案更加准确。

还可以理解的是，通过在每个多模态增量式转换编码器中设置K个子转换编码器，该K个子转换编码器之间依次将前一个子转换编码器输出的中间表示向量传递至下一个子转换编码器中，从而得到当前轮提问对应的状态向量，使得后续进行解码处理得到的输出答案更加准确。通过层状结构保证为后续输出答案提供准确的中间表示向量。

还可以理解的是，通过视觉对话模型中的多模态增量式转换解码器对多模态增量式转换编码器输出的状态向量进行解码处理，从而使得视觉对话模型能够准确输出当前轮提问对应的实际输出答案。

还可以理解的是，通过多模态增量式转换解码器中设置的T个子转换解码器，该T个子转换解码器之间依次将前一个子转换解码器输出的中间表示向量传递至下一个子转换解码器中，从而得到当前轮提问对应的实际输出答案。通过层状结构保证视觉对话模型输出的答案的准确率。

还可以理解的是，通过子转换编码器中设置的多层结构，分别计算各个中间表示向量，使得每一个子转换编码器均能根据前一个子转换编码器准确输出中间表示向量，从而保证后续得到当前轮提问对应的状态向量是准确的。

本申请实施例的视觉对话方法，通过子转换解码器中设置的多层结构，分别计算各个中间表示向量，使得每一个子转换解码器均能根据前一个子转换解码器准确输出中间表示向量，从而保证后续得到当前轮提问对应的解码特征向量是准确的。从而保证根据解码特征向量输出实际输出答案。

需要说明的是，本申请实施例提供的视觉对话装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视觉对话装置与视觉对话方法实施例属于同一构思，其具体实现过程详见本申请实施例提供的视觉对话方法，这里不再赘述。

图12是本申请一个示例性实施例提供的视觉对话模型的训练装置的结构框图，该训练装置12-1包括：

第二获取模块1210，配置为获取输入图像样本的图像特征样本和前s轮历史问答对话样本对应的状态向量样本，s为正整数；

所述第二获取模块1210，配置为获取当前轮提问样本的问题特征样本和所述当前轮提问样本对应真实答案的第一答案特征；

第二特征编码模块1220，配置为调用视觉对话模型对所述图像特征样本、所述前s轮历史问答对话样本对应的状态向量样本和所述问题特征样本进行多模态编码处理，得到所述当前轮提问样本对应的状态向量样本；

第二特征解码模块1230，配置为调用所述视觉对话模型对所述当前轮提问样本对应的状态向量样本、所述图像特征样本和所述第一答案特征进行多模态解码处理，得到所述当前轮提问样本对应的实际输出答案样本的第二答案特征；

训练模块1240，配置为根据所述第一答案特征和所述第二答案特征，对所述视觉对话模型进行训练，得到训练后的视觉对话模型。

在本申请实施例中，所述第二特征解码模块1230，还配置为获取所述真实答案中前q个字符串的字符串特征标签，所述真实答案中前q个字符串与所述实际输出答案样本中已输出的q个字符串一一对应，q为正整数，第一答案特征包括所述字符串特征标签；根据所述当前轮提问样本对应的状态向量样本、所述图像特征样本和所述字符串特征标签，得到所述当前轮提问样本对应的所述实际输出答案样本中第q+1个字符串对应的所述第二答案特征。

在本申请实施例中，所述第二特征编码模块1220，还配置为调用视觉对话模型中的多模态增量式转换编码器获取第a轮历史问答对话样本对应的第一状态向量样本，a为正整数，a为变量，a对应的取值为1至s中的任一个；获取第a轮历史问答对话样本对应的状态向量样本，a为正整数且a的起始值为1；迭代a，调用视觉对话模型中的第a+1个多模态增量式转换编码器对图像特征样本、第a轮历史问答对话样本对应的状态向量样本和第a+1轮历史问答对话样本对应的问答特征样本进行多模态编码处理，得到第a+1轮历史问答对话样本对应的状态向量样本，不同的多模态增量式转换编码器与不同的历史问答对话样本一一对应；将迭代a得到的第s+1轮历史问答对话样本对应的状态向量样本确定为当前轮提问样本对应的状态向量样本。

在本申请实施例中，多模态增量式转换编码器包括K个子转换编码器，K为正整数；所述第二特征编码模块1220，还配置为获取第j个中间表示向量样本，第j个中间表示向量样本是对图像特征样本、第a轮历史问答对话样本对应的状态向量样本和第a+1轮历史问答对话样本对应的问答特征样本进行j次多模态编码处理得到的，第j个中间表示向量样本是第a+1轮历史问答对话样本对应的向量，j为正整数且j的起始值为1；迭代j，调用视觉对话模型中的第a+1个多模态增量式转换编码器中的第a+1个多模态增量式转换编码器中的第j+1个子转换编码器对第j个中间表示向量样本、图像特征样本和第i轮历史问答对话样本对应的状态向量样本进行多模态编码处理，得到第j+1个中间表示向量样本，第j+1个中间表示向量样本是第i+1轮历史问答对话样本对应的另一向量，j+1≤K；将迭代j得到的第K个中间表示向量样本确定为第a+1轮历史问答对话样本对应的状态向量样本。

在本申请实施例中，所述第二特征编码模块1220，还配置为调用第a+1个多模态增量式转换编码器中的第j+1个子转换编码器对第j个中间表示向量样本进行中间编码处理，得到第一子向量样本；对第一子向量样本和图像特征样本进行中间编码处理，得到第二子向量样本；对第二子向量样本和第a轮历史问答对话样本对应的状态向量样本进行中间编码处理，得到第三子向量样本；对第三子向量样本进行中间编码处理，得到第j+1个中间表示向量样本。

在本申请实施例中，所述第二特征解码模块1230，还配置为调用视觉对话模型中的多模态增量式转换解码器获取当前轮提问样本对应的实际输出答案样本中已输出的字符串的字符串特征样本；调用多模态增量式转换解码器对当前轮提问样本对应的状态向量样本、图像特征样本和字符串特征样本进行多模态解码处理，得到解码特征向量样本；根据解码特征向量样本确定当前轮提问对应的实际输出答案样本。

在本申请实施例中，多模态增量式转换解码器包括T个子转换解码器，T为正整数；所述第二特征解码模块1230，还配置为获取第m个中间表示向量样本，第m个中间表示向量样本是对当前轮提问样本对应的状态向量样本、图像特征样本和字符串特征样本进行m次多模态解码处理得到的，m为正整数且m的起始值为1；迭代m，调用多模态增量式转换解码器中的第m+1个子转换解码器对第m个中间表示向量样本、图像特征样本和当前轮提问样本对应的状态向量样本进行多模态解码处理，得到第m+1个中间表示向量样本，m+1≤T；将迭代m得到的第T个中间表示向量样本确定为解码特征向量样本。

在本申请实施例中，所述第二特征解码模块1230，还配置为调用多模态增量式转换解码器中的第m+1个子转换解码器对第m个中间表示向量样本进行中间解码处理，得到第三子向量样本；对第三子向量样本、图像特征样本和当前轮提问样本对应的状态向量样本进行中间解码处理，得到第四子向量样本；对第四子向量样本进行中间解码处理，得到第m+1个中间表示向量样本。

在本申请实施例中，所述第二特征解码模块1230，还配置为解码特征向量样本得到实际输出答案样本中输出的字符串预估概率；根据字符串预估概率输出实际输出答案样本中的字符串样本。

图13示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器1300可以如图1所示的视觉对话系统100中的服务器120。如图13所示，服务器1300包括中央处理单元(CPU，Central Processing Unit)1301、包括随机存取存储器(RAM，Random Access Memory)1302和只读存储器(ROM，Read Only Memory)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。服务器1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统，Input Output System)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(图13中未示出)连接到中央处理单元1301。大容量存储设备1307及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说，大容量存储设备1307可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM，Compact Disc Read Only Memory)驱动器之类的计算机可读存储介质(图13中未示出)。

计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(DVD，Digital Versatile Disc)或固态硬盘(SSD，Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

在本申请实施例中，服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在系统总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(图13中未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在本申请实施例中，提供了一种电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视觉对话方法和视觉对话模型的训练方法。

在本申请实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视觉对话方法和视觉对话模型的训练方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

本申请实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。电子设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述电子设备执行如上方面所述的视觉对话方法和视觉对话模型的训练方法。

本领域普通技术人员可以理解实现上述本申请实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的计算机可读存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种视觉对话方法，所述方法由电子设备执行，所述方法包括：

获取输入图像的图像特征和前n轮历史问答对话对应的状态向量，n为正整数；

获取当前轮提问的问题特征；

对所述图像特征、所述前n轮历史问答对话对应的状态向量和所述问题特征进行多模态编码处理，得到所述当前轮提问对应的状态向量；

对所述当前轮提问对应的状态向量和所述图像特征进行多模态解码处理，得到所述当前轮提问对应的实际输出答案。
根据权利要求1所述的方法，其中，所述对所述图像特征、所述前n轮历史问答对话对应的状态向量和所述问题特征进行多模态编码处理，得到所述当前轮提问对应的状态向量，包括：

获取第i轮历史问答对话对应的状态向量，i为正整数且i的起始值为1；

迭代i，调用视觉对话模型中的第i+1个多模态增量式转换编码器对所述图像特征、所述第i轮历史问答对话对应的状态向量和第i+1轮历史问答对话对应的问答特征进行多模态编码处理，得到第i+1轮历史问答对话对应的状态向量，不同的所述多模态增量式转换编码器与不同的所述历史问答对话一一对应；

将迭代i得到的第n+1轮历史问答对话对应的状态向量确定为所述当前轮提问对应的状态向量。
根据权利要求2所述的方法，其中，所述第i+1个多模态增量式转换编码器包括K个子转换编码器，K为正整数；

所述调用视觉对话模型中的第i+1个多模态增量式转换编码器对所述图像特征、所述第i轮历史问答对话对应的状态向量和第i+1轮历史问答对话对应的问答特征进行多模态编码处理，得到第i+1轮历史问答对话对应的状态向量，包括：

获取第j个中间表示向量，所述第j个中间表示向量是对所述图像特征、所述第i轮历史问答对话对应的状态向量和第i+1轮历史问答对话对应的问答特征进行j次多模态编码处理得到的，所述第j个中间表示向量是所述第i+1轮历史问答对话对应的向量，j为正整数且j的起始值为1；

迭代j，调用所述第i+1个多模态增量式转换编码器中的第j+1个子转换编码器对所述第j个中间表示向量、所述图像特征和所述第i轮历史问答对话对应的状态向量进行多模态编码处理，得到第j+1个中间表示向量，所述第j+1个中间表示向量是所述第i+1轮历史问答对话对应的另一向量，j+1≤K；

将迭代j得到的第K个中间表示向量确定为所述第i+1轮历史问答对话对应的状态向量。
根据权利要求3所述的方法，其中，所述调用所述第i+1个多模态增量式转换编码器中的第j+1个子转换编码器对所述第j个中间表示向量、所述图像特征和所述第i轮历史问答对话对应的状态向量进行多模态编码处理，得到第j+1个中间表示向量，包括：

调用所述第i+1个多模态增量式转换编码器中的所述第j+1个子转换编码器对所述第j个中间表示向量进行中间编码处理，得到第一子向量；

对所述第一子向量和所述图像特征进行中间编码处理，得到第二子向量；

对所述第二子向量和所述第i轮历史问答对话对应的状态向量进行中间编码处理，得到第三子向量；

对所述第三子向量进行中间编码处理，得到所述第j+1个中间表示向量。
根据权利要求1至4任一所述的方法，其中，所述对所述当前轮提问对应的状态向量和所述图像特征进行多模态解码处理，得到所述当前轮提问对应的实际输出答案，包括：

调用视觉对话模型中的多模态增量式转换解码器获取所述当前轮提问对应的已输出的字符串的字符串特征；

调用所述多模态增量式转换解码器对所述当前轮提问对应的状态向量、所述图像特征和所述字符串特征进行多模态解码处理，得到解码特征向量；

根据所述解码特征向量确定所述当前轮提问对应的所述实际输出答案，其中，所述实际输出答案包括所述已输出的字符串。
根据权利要求5所述的方法，其中，所述根据所述解码特征向量确定所述当前轮提问对应的所述实际输出答案，包括：

根据所述解码特征向量确定字符串概率；

根据所述字符串概率确定所述实际输出答案中的字符串。
根据权利要求5所述的方法，其中，所述多模态增量式转换解码器包括T个子转换解码器，T为正整数；

所述调用所述多模态增量式转换解码器对所述当前轮提问对应的状态向量、所述图像特征和所述字符串特征进行多模态解码处理，得到解码特征向量，包括：

获取第m个中间表示向量，所述第m个中间表示向量是对所述当前轮提问对应的状态向量、所述图像特征和所述字符串特征进行m次多模态解码处理得到的，m为正整数且m的起始值为1；

迭代m，调用所述多模态增量式转换解码器中的第m+1个子转换解码器对所述第m个中间表示向量、所述图像特征和所述当前轮提问对应的状态向量进行多模态解码处理，得到第m+1个中间表示向量，m+1≤T；

将迭代m得到的第T个中间表示向量确定为所述解码特征向量。
根据权利要求7所述的方法，其中，所述调用所述多模态增量式转换解码器中的第m+1个子转换解码器对所述第m个中间表示向量、所述图像特征和所述当前轮提问对应的状态向量进行多模态解码处理，得到第m+1个中间表示向量，包括：

调用所述多模态增量式转换解码器中的所述第m+1个子转换解码器对所述第m个中间表示向量进行中间解码处理，得到第三子向量；

对所述第三子向量、所述图像特征和所述当前轮提问对应的状态向量进行中间解码处理，得到第四子向量；

对所述第四子向量进行中间解码处理，得到所述第m+1个中间表示向量。
一种视觉对话模型的训练方法，所述方法由电子设备执行，所述方法包括：

获取输入图像样本的图像特征样本和前s轮历史问答对话样本对应的状态向量样本，s为正整数；

获取当前轮提问样本的问题特征样本和所述当前轮提问样本对应的真实答案的第一答案特征；

调用视觉对话模型对所述图像特征样本、所述前s轮历史问答对话样本对应的状态向量样本和所述问题特征样本进行多模态编码处理，得到所述当前轮提问样本对应的状态向量样本；

调用所述视觉对话模型对所述当前轮提问样本对应的状态向量样本、所述图像特征样本和所述第一答案特征进行多模态解码处理，得到所述当前轮提问样本对应的实际输出答案样本的第二答案特征；

根据所述第一答案特征和所述第二答案特征，对所述视觉对话模型进行训练，得到训练后的视觉对话模型。
根据权利要求9所述的方法，其中，所述对所述当前轮提问样本对应的状态向量样本、所述图像特征样本和所述第一答案特征进行多模态解码处理，得到所述当前轮提问样本对应的实际输出答案样本的第二答案特征，包括：

获取所述真实答案中前q个字符串的字符串特征标签，所述真实答案中前q个字符串与所述实际输出答案样本中已输出的q个字符串一一对应，q为正整数，第一答案特征包括所述字符串特征标签；

根据所述当前轮提问样本对应的状态向量样本、所述图像特征样本和所述字符串特征标签，得到所述当前轮提问样本对应的所述实际输出答案样本中第q+1个字符串对应的所述第二答案特征。
一种视觉对话装置，所述装置包括：

第一获取模块，配置为获取输入图像的图像特征和前n轮历史问答对话对应的状态向量，n为正整数；

所述第一获取模块，配置为获取当前轮提问的问题特征；

第一特征编码模块，配置为对所述图像特征、所述前n轮历史问答对话对应的状态向量和所述问题特征进行多模态编码处理，得到所述当前轮提问对应的状态向量；

第一特征解码模块，配置为对所述当前轮提问对应的状态向量和所述图像特征进行多模态解码处理，得到所述当前轮提问对应的实际输出答案。
一种视觉对话模型的训练装置，所述装置包括：

第二获取模块，配置为获取输入图像样本的图像特征样本和前s轮历史问答对话样本对应的状态向量样本，s为正整数；

所述第二获取模块，配置为获取当前轮提问样本的问题特征样本和所述当前轮提问样本对应真实答案的第一答案特征；

第二特征编码模块，配置为调用视觉对话模型对所述图像特征样本、所述前s轮历史问答对话样本对应的状态向量样本和所述问题特征样本进行多模态编码处理，得到所述当前轮提问样本对应的状态向量样本；

第二特征解码模块，配置为调用所述视觉对话模型对所述当前轮提问样本对应的状态向量样本、所述图像特征样本和所述第一答案特征进行多模态解码处理，得到所述当前轮提问样本对应的实际输出答案样本的第二答案特征；

训练模块，配置为根据所述第一答案特征和所述第二答案特征，对所述视觉对话模型进行训练，得到训练后的视觉对话模型。
一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的视觉对话方法，或者，以实现权利要求9或10所述的视觉对话模型的训练方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的视觉对话方法，或者，以实现权利要求9或10所述的视觉对话模型的训练方法。