WO2024045444A1

WO2024045444A1 - 一种视觉问答任务的处理方法、装置、设备和非易失性可读存储介质

Info

Publication number: WO2024045444A1
Application number: PCT/CN2022/142512
Authority: WO
Inventors: 李仁刚; 张润泽; 赵雅倩; 郭振华; 范宝余; 李晓川
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2022-09-02
Filing date: 2022-12-27
Publication date: 2024-03-07
Also published as: CN115129848B; CN115129848A

Abstract

本申请涉及图像处理技术领域，公开了一种视觉问答任务的处理方法、装置、设备和非易失性可读存储介质，对待分析图像和第一文本进行特征融合处理，得到融合特征；融合特征包含各检测框的坐标信息。依据待分析图像与第一文本的相关性，从融合特征中筛选出满足相关性要求的目标检测框；将目标检测框对应的坐标信息、分类类别和语义特征输入训练好的视觉问答模型，以得到与第一文本匹配的第二文本；其中，第一文本与第二文本具有逻辑对应关系。通过对待分析图像和第一文本进行特征融合处理，可以实现对待分析图像和第一文本的综合分析。基于相关性对检测框进行删减，有效的降低了无效检测框造成的干扰，减少了视觉问答模型的计算量，提升了视觉问答任务的性能。

Description

一种视觉问答任务的处理方法、装置、设备和非易失性可读存储介质

相关申请的交叉引用

本申请要求于2022年9月2日提交中国专利局，申请号为202211068333.9，申请名称为“一种视觉问答任务的处理方法、装置、设备和介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，特别是涉及一种视觉问答任务的处理方法、装置、设备和非易失性可读存储介质。

背景技术

视觉问答指的是给定一张图像和一个与该图像有关的自然语言问题，计算机能产生一个正确的回答。视觉问答目前已经成为评估计算模型的推理能力和泛化能力的一个有趣测试。它涉及视觉识别、逻辑、算术、空间推理、直观物理、因果关系和多跳推理。它还需要结合两种不同性质的模式：图像和语言。高维的视觉模态涵盖很多无用信息，将注意力集中在与潜在推理问题最相关的信息上，这也需要识别关键区域或对象，并将他们及问题一同联系起来。

通常来说多模态理解任务中视觉起到了很重要的作用，给定一个问题，需要从视觉中找到线索，从而才能找到对应的答案。通常来说视觉线索来自于图片的语义特征：主要包含两种形式，一种是直接来自于图像分类网络；另一种则是来自于目标检测得到的坐标框。当前主流的多模态理解模型通常选择第二种。但是目前的实现方式并没有考虑到检测坐标框的质量及数量的权衡关系。

通常来说，使用分类置信度阈值可以限定坐标框的数量，但这样极大程度依赖于分类置信度的阈值。如果阈值太小，那么坐标框数量太多，存在很多冗余信息，这样无疑对后面的VQA(Visual Question Answer，视觉问答)模型增加了噪声；如果阈值太大，那么坐标框数量太少，可能会出现与问题直接或推理间接相关的坐标框被过滤掉。对于坐标框的质量，只有与问题直接或者间接相关的坐标框才能被称为是优质的坐标框。传统的目标检测根据分类置信度阈值提取的视觉线索往往存在较多冗余的目标框，导致视觉问答任务的性能较差。

可见，如何提升视觉问答任务的性能，是本领域技术人员需要解决的问题。

发明内容

本申请实施例的目的是提供一种视觉问答任务的处理方法、装置、设备和非易失性可读存储介质，可以提升视觉问答任务的性能。

为解决上述技术问题，本申请实施例提供一种视觉问答任务的处理方法，包括：

对待分析图像和第一文本进行特征融合处理，得到融合特征；其中，融合特征包含各检测框的坐标信息；

依据待分析图像与第一文本的相关性，从融合特征中筛选出满足相关性要求的目标检测框；

将目标检测框对应的坐标信息、分类类别和语义特征输入训练好的视觉问答模型，以得到与第一文本匹配的第二文本；其中，第一文本与第二文本具有逻辑对应关系。

可选地，依据待分析图像与第一文本的相关性，从融合特征中筛选出满足相关性要求的目标检测框包括：

计算待分析图像的图像特征中包含的各图像检测框与第一文本的文本特征对应的文本检测框的交并比；

从所有图像检测框中选取出交并比大于预设阈值的目标检测框。

利用训练好的目标检测模型从融合特征中筛选出满足相关性要求的目标检测框；其中，目标检测模型基于历史图像和历史文本训练得到。

可选地，针对于目标检测模型的训练过程，方法包括：

利用目标检测数据集训练初始检测模型，以得到初始检测模型对应的权重参数；

基于目标检测数据集中各样本对应的样本标签，对初始检测模型进行正负样本判别训练；

在完成正负样本判别训练后，计算初始检测模型的损失函数；其中，损失函数包括初始损失函数和正负样本对应的损失函数；

依据初始检测模型的损失函数，对初始检测模型中包含的语言编码模块和融合模块各自的初始化权重以及初始检测模型对应的权重参数进行调整，得到训练好的目标检测模型。

可选地，基于目标检测数据集中各样本对应的样本标签，对初始检测模型进行正负样本判别训练包括：

利用初始检测模型识别目标检测数据集中各样本对应的概率值；

依据目标检测数据集中各样本对应的样本标签以及概率值，确定出正负样本对应的损失函数；

基于正负样本对应的损失函数，调整初始检测模型中融合模块对应的参数，以完成正负样本判别训练。

可选地，依据目标检测数据集中各样本对应的样本标签以及概率值，确定出正负样本对应的损失函数包括：

将目标检测数据集中各样本对应的样本标签以及概率值输入至正负样本损失函数计算公式，以确定出正负样本对应的损失函数；其中，正负样本损失函数计算公式为：

其中，N表示样本总个数，y _i表示第i个样本的样本标签对应的数值，样本标签为正样本时y _i＝1，样本标签为负样本时y _i＝0，w ₊表示正样本对应的阈值，p _i表示第i个样本属于正样本的概率值，w _-表示负样本对应的阈值。

可选地，针对于视觉问答模型的训练过程，方法包括：

利用训练好的目标检测模型从目标检测数据集中筛选出正样本；

利用正样本对应的坐标信息、分类类别和语义特征对初始视觉问答模型进行训练，以得到训练好的视觉问答模型。

可选地，对待分析图像和第一文本进行特征融合处理，得到融合特征包括：

利用目标检测模型的目标检测模块提取待分析图像的图像特征；其中，图像特征包括多个检测框各自对应的图像特征；

利用目标检测模型的语言编码模块对第一文本进行特征编码，得到文本特征；

利用目标检测模型的融合模块将图像特征与文本特征进行融合，得到融合特征。

可选地，第一文本为问题文本；第二文本为与问题文本匹配的答案文本。

可选地，第一文本为多个问题文本，第二文本为与各问题文本各自匹配的答案文本；

相应的，依据待分析图像与第一文本的相关性，从融合特征中筛选出满足相关性要求的目标检测框包括：

利用训练好的目标检测模型对待分析图像以及多个问题文本进行并行分析，以得到各问题文本各自对应的目标检测框。

提取待分析图像的图像特征；其中，图像特征包括多个检测框各自对应的图像特征；

对第一文本进行特征编码，得到文本特征；

将图像特征与文本特征进行融合，得到融合特征。

本申请实施例还提供了一种视觉问答任务的处理装置，包括融合单元、筛选单元和得到单元；

融合单元，用于对待分析图像和第一文本进行特征融合处理，得到融合特征；其中，融合特征包含各检测框的坐标信息；

筛选单元，用于依据待分析图像与第一文本的相关性，从融合特征中筛选出满足相关性要求的目标检测框；

得到单元，用于将目标检测框对应的坐标信息、分类类别和语义特征输入训练好的视觉问答模型，以得到与第一文本匹配的第二文本；其中，第一文本与第二文本具有逻辑对应关系。

可选地，筛选单元包括计算子单元和选取子单元；

计算子单元，用于计算待分析图像的图像特征中包含的各图像检测框与第一文本的文本特征对应的文本检测框的交并比；

选取子单元，用于从所有图像检测框中选取出交并比大于预设阈值的目标检测框。

可选地，筛选单元用于利用训练好的目标检测模型从融合特征中筛选出满足相关性要求的目标检测框；其中，目标检测模型基于历史图像和历史文本训练得到。

可选地，针对于目标检测模型的训练过程，装置包括训练单元、判别单元、计算单元和调整单元；

训练单元，用于利用目标检测数据集训练初始检测模型，以得到初始检测模型对应的权重参数；

判别单元，用于基于目标检测数据集中各样本对应的样本标签，对初始检测模型进行正负样本判别训练；

计算单元，用于在完成正负样本判别训练后，计算初始检测模型的损失函数；其中，损失函数包括初始损失函数和正负样本对应的损失函数；

调整单元，用于依据初始检测模型的损失函数，对初始检测模型中包含的语言编码模块和融合模块各自的初始化权重以及初始检测模型对应的权重参数进行调整，得到训练好的目标检测模型。

可选地，判别单元包括识别子单元、确定子单元和参数调整子单元；

识别子单元，用于利用初始检测模型识别目标检测数据集中各样本对应的概率值；

确定子单元，用于依据目标检测数据集中各样本对应的样本标签以及概率值，确定出正负样本对应的损失函数；

参数调整子单元，用于基于正负样本对应的损失函数，调整初始检测模型中融合模块对应的参数，以完成正负样本判别训练。

可选地，确定子单元用于将目标检测数据集中各样本对应的样本标签以及概率值输入至正负样本损失函数计算公式，以确定出正负样本对应的损失函数；其中，正负样本损失函数计算公式为：

可选地，针对于视觉问答模型的训练过程，装置包括问答训练单元；

筛选单元还用于利用训练好的目标检测模型从目标检测数据集中筛选出正样本；

问答训练单元，用于利用正样本对应的坐标信息、分类类别和语义特征对初始视觉问答模型进行训练，以得到训练好的视觉问答模型。

可选地，融合单元包括提取子单元、编码子单元和特征融合子单元；

提取子单元，用于利用目标检测模型的目标检测模块提取待分析图像的图像特征；其中，图像特征包括多个检测框各自对应的图像特征；

编码子单元，用于利用目标检测模型的语言编码模块对第一文本进行特征编码，得到文本特征；

特征融合子单元，用于利用目标检测模型的融合模块将图像特征与文本特征进行融合，得到融合特征。

相应的，筛选单元用于利用训练好的目标检测模型对待分析图像以及多个问题文本进行并行分析，以得到各问题文本各自对应的目标检测框。

提取子单元，用于提取待分析图像的图像特征；其中，图像特征包括多个检测框各自对应的图像特征；

编码子单元，用于对第一文本进行特征编码，得到文本特征；

特征融合子单元，用于将图像特征与文本特征进行融合，得到融合特征。

本申请实施例还提供了一种终端设备，包括显示屏，输入接口，以及分别与显示屏、输入接口连接的处理器；

输入接口，用于接收待分析图像和第一文本；

处理器，用于对待分析图像和第一文本进行特征融合处理，得到融合特征；其中，融合特征包含各检测框的坐标信息；依据待分析图像与第一文本的相关性，从融合特征中筛选出满足相关性要求的目标检测框；将目标检测框对应的坐标信息、分类类别和语义特征输入训练好的视觉问答模型，以得到与第一文本匹配的第二文本；其中，第一文本与第二文本具有逻辑对应关系；

显示屏，用于展示第一文本及其对应的第二文本。

本申请实施例还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序以实现如上述视觉问答任务的处理方法的步骤。

本申请实施例还提供了一种非易失性可读存储介质，非易失性可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述视觉问答任务的处理方法的步骤。

由上述技术方案可以看出，对待分析图像和第一文本进行特征融合处理，得到融合特征；其中，融合特征包含各检测框的坐标信息；每个检测框有其对应的图像信息，融合特征中所对应的检测框数量往往较多，检测框中既包含与第一文本具有较强相关性的检测框，也包含与第一文本具有较弱相关性的检测框。为了能够删除相关性较弱的检测框，可以依据待分析图像与第一文本的相关性，从融合特征中筛选出满足相关性要求的目标检测框；将目标检测框对应的坐标信息、分类类别和语义特征输入训练好的视觉问答模型，以得到与第一文本匹配的第二文本；其中，第一文本与第二文本具有逻辑对应关系。在该技术方案中，通过对待分析图像和第一文本进行特征融合处理，可以实现对待分析图像和第一文本的综合分析。基于相关性对检测框进行删减，有效的降低了无效检测框造成的干扰，减少了视觉问答模型的计算量，提升了视觉问答任务的性能。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视觉问答任务的处理方法所适用的硬件组成框架示意图；

图2为本申请实施例提供的另一种视觉问答任务的处理方法所适用的硬件组成框架示意图；

图3为本申请实施例提供的一种视觉问答任务的处理方法的流程图；

图4为本申请实施例提供的一种目标检测模型的网络结构图；

图5为本申请实施例提供的一种目标检测模型的训练方法的流程图；

图6为本申请实施例提供的一种融合模块网络结构图；

图7为本申请实施例提供的一种在手机端并行处理不同的视觉问答任务的示意图；

图8为本申请实施例提供的一种视觉问答任务的处理装置的结构示意图；

图9为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

为了便于理解，先对本申请实施例提供的视觉问答任务的处理方法对应的方案所使用的硬件组成框架进行介绍。请参考图1，图1为本申请实施例提供的一种视觉问答任务的处理方法所适用的硬件组成框架示意图。其中电子设备100可以包括处理器101和存储器102，还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。

其中，处理器101用于控制电子设备100的整体操作，以完成视觉问答任务的处理方法中的全部或部分步骤；存储器102用于存储各种类型的数据以支持在电子设备100的操作，这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-Only Memory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。在本实施例中，存储器102中至少存储有用于实现以下功能的程序和/或数据：

多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器，用于输出音频信号。信息输入/信息输出(I/O)接口104为处理器101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件105可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

电子设备100可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行视觉问答任务的处理方法。

当然，图1所示的电子设备100的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备100可以包括比图1所示的更多或更少的部件，或者组合某些部件。

可以理解的是，本申请实施例中并不对电子设备的数量进行限定，其可以是多个电子设备共同协作完成视觉问答任务的处理方法。在一种可能的实施方式中，请参考图2，图2为本申请实施例提供的另一种视觉问答任务的处理方法所适用的硬件组成框架示意图。由图2可知，该硬件组成框架可以包括：第一电子设备11和第二电子设备12，二者之间通过网络13连接。

在本申请实施例中，第一电子设备11与第二电子设备12的硬件结构可以参考图1中电子设备100。即可以理解为本实施例中具有两个电子设备100，两者进行数据交互。进一步，本申请实施例中并不对网络13的形式进行限定，即，网络13可以是无线网络(如WIFI、蓝牙等)，也可以是有线网络。

其中，第一电子设备11和第二电子设备12可以是同一种电子设备，如第一电子设备11和第二电子设备12均为服务器；也可以是不同类型的电子设备，例如，第一电子设备11可以是智能手机或其它智能终端，第二电子设备12可以是服务器。在一种可能的实施方式中，可以利用计算能力强的服务器作为第二电子设备12来提高数据处理效率及可靠性，进而提高模型训练和/或视觉问答的处理效率。同时利用成本低，应用范围广的智能手机作为第一电子设备11，用于实现第二电子设备12与用户之间的交互。可以理解的是，该交互过程可以为：第一电子设备11将待分析图像和第一文本传输至第二电子设备12，第二电子设备12对待分析图像和第一文本进行特征融合处理，得到融合特征；其中，融合特征包含各检测框的坐标信息；依据待分析图像与第一文本的相关性，从融合特征中筛选出满足相关性要求的目标检测框；将目标检测框对应的坐标信息、分类类别和语义特征输入训练好的视觉问答模型，以得到与第一文本匹配的第二文本，从而将第二文本反馈至第一电子设备11。

接下来，详细介绍本申请实施例所提供的一种视觉问答任务的处理方法。图3为本申请实施例提供的一种视觉问答任务的处理方法的流程图，该方法包括：

S301：对待分析图像和第一文本进行特征融合处理，得到融合特征。

传统方式中，通常都是直接用目标检测预训练权重对数据集的所有图片进行推理，然后每张图片计算检测框、分类、分类置信度以及提取的坐标框语义特征。然后通过分类置信度设置阈值或者设定每张图像输出的检测框数量来选择相应的检测框。

检测框指的是图片中目标物所在的位置区域。其中，目标物可以是与文本相关联的人或物，也可以是与文本非关联的人或物。例如，一张图片中包含一个女孩、一条狗、一片天空，女孩、狗、天空均可以作为目标物，目标物对应的检测框可以包括女孩所在位置区域、狗所在的位置区域、天空所在的位置区域。

传统方式中产生的检测框数量往往较多，按照设置的阈值或设定的数量选择检测框的方式，并不能很好的选择出与文本具有强相关性的检测框，导致后续视觉问答模型生成的与文本对应的答案也并不合适。

因此在本申请实施例中，为了提升视觉问答任务的性能，可以对待分析图像和第一文本进行特征融合处理，得到融合特征，以便于依据融合特征对检测框进行筛选，删除与文本相关性较弱的检测框。

在实际应用中，可以提取待分析图像的图像特征；其中，图像特征包括多个检测框各自对应的图像特征。对第一文本进行特征编码，得到文本特征；将图像特征与文本特征进行融合，得到融合特征。融合特征包含各检测框的坐标信息。

在本申请实施例中，待分析图像可以为任意一幅图片，第一文本可以是针对于待分析图像所提出的问题。例如，图片中包含一个女孩和一条狗在海滩上坐着玩，第一文本可以是“Where is the women sitting(女生坐在哪)”。

S302：依据待分析图像与第一文本的相关性，从融合特征中筛选出满足相关性要求的目标检测框。

融合特征可以基于待分析图像的图像特征和第一文本的文本特征得到。

图像特征和文本特征均可以以检测框的形式呈现。对于待分析图像与第一文本的相关性，可以基于检测框之间的IOU值(Intersection Over Union，交并比)进行评估。

在具体实现中，可以计算图像特征中包含的各图像检测框与文本特征对应的文本检测框的交并比；从所有图像检测框中选取出交并比大于预设阈值的目标检测框。

预设阈值的取值可以根据实际需求灵活设置，例如可以设置为0.5。各图像检测框的处理方式类似，以一个图像检测框为例，可以计算图像检测框与文本检测框的IOU值。IOU值大于0.5，说明该图像检测框与文本检测框具有较强的相关性，属于正样本，此时可以将该图像检测框作为目标检测框，参与后续的分析流程。

S303：将目标检测框对应的坐标信息、分类类别和语义特征输入训练好的视觉问答模型，以得到与第一文本匹配的第二文本。

其中，第一文本与第二文本具有逻辑对应关系。例如，第一文本可以是问题文本，第二文本可以是答案文本。

目标检测框可以为一个或多个，目标检测框的数量小于图像特征中包含的图像检测框的数量。

在筛选出目标检测框后，可以通过前向传播网络(Feed-Forward Network，FFN)模块提取出目标检测框所对应的坐标信息、分类类别和语义特征。将目标检测框对应的坐标信息、分类类别和语义特征输入训练好的视觉问答模型，可以得到与第一文本匹配的第二文本。

视觉问答模型可以采用VINVL(Visual representations in Vision-Language Models，视觉语言模型中的视觉表示)或者LXMERT(Learning Cross-Modality Encoder Representations from Transformers，从变压器学习跨模态编码器表示)。

在本申请实施例中，可以采用目标检测模型和视觉问答模型相结合的方式，实现视觉问答任务的处理。目标检测模型可以对待分析图像和第一文本进行分析，从而筛选出满足相关性要求的目标检测框，并且提取出目标检测框对应的坐标信息、分类类别和语义特征。其中，目标检测模型可以基于历史图像和历史文本训练得到。

在实际应用中，可以利用训练好的目标检测模型对待分析图像和第一文本进行特征融合处理，从而得到融合特征，并从融合特征中筛选出满足相关性要求的目标检测框。

本申请实施例采用的目标检测模型所依赖的基础模型可以是DETR(DEtection TRansformer，基于transformer的目标检测网络)，该模型利用近来大火的transformer结构，将目标检测变为一个检测框与标准框(Ground Truth)的二分匹配问题。

图4为本申请实施例提供的一种目标检测模型的网络结构图，目标检测模型包括骨干网络、编码模块(Transformer encoder)、解码模块(Transformer decoder)、融合模块、前向传播网络模块(Feed-Forward Network，FFN)以及语言编码模块(Roberta)。其中，骨干网络、编码模块和解码模块可以实现图像特征的提取。语言编码模块可以提取文本特征。融合模块可以实现对图像特征和文本特征的融合，从而筛选出目标检测框。前向传播网络模块可以提取出目标检测框的坐标信息、分类类别和语义特征。

在本申请实施例中，可以将骨干网络、编码模块和解码模块作为目标检测模块。利用目标检测模型的目标检测模块提取待分析图像的图像特征；其中，图像特征可以包括多个检测框各自对应的图像特征。利用目标检测模型的语言编码模块对第一文本进行特征编码，得到文本特征；利用目标检测模型的融合模块将图像特征与文本特征进行融合，得到融合特征。

训练好的目标检测模型才能够用于实现对待分析图像和第一文本的分析处理。目标检测模型的训练是目标检测模型进行视觉问答任务处理的基础前提，图5为本申请实施例提供的一种目标检测模型的训练方法的流程图，该方法包括：

S501：利用目标检测数据集训练初始检测模型，以得到初始检测模型对应的权重参数。

目标检测数据集可以包括COCO(Common Obiects in Context，图像识别、分割和图像语义数据集)数据集、Visual Genome(视觉基因)数据集、Obiects365数据集等。

在模型训练阶段，图片首先通过骨干网络即CNN(Convolutional Neural Networks，卷积神经网络)提取特征，同时加入位置编码特征，位置编码特征是根据图像的分辨率自适应获得的，其意义是得到图像特征图的局部位置信息。采用transformer的encoder来编码图像特征，设置可学习的初始化嵌入参数query，从编码图像特征中解码出对应目标位置及分类。这些query相当于自适应anchor(目标检测预定义锚点)信息，通过解码器解码出对应物体的检测位置及相应类别。训练过程中引入了Bipartite Matching(二分图最大匹配)来完成Ground Truth坐标框同检测框的匹配。匹配策略如下：

其中，y ⁱ表示Ground Truth坐标框，y ⁱ _pred表示检测框，这里是利用了匈牙利匹配算法进行检测框及坐标框的匹配。argmin表示使

达到最小值时y ⁱ和y ⁱ _pred的取值。L _match表示检测框和坐标框的匹配度。

假设，图片中有N(N＜100)个物体，那么从100个query中经过匈牙利匹配算法后只有N个检测框与Ground Truth坐标框相对应，这样就不需要有传统目标检测框架中的NMS 去除重复框的操作了。

S502：基于目标检测数据集中各样本对应的样本标签，对初始检测模型进行正负样本判别训练。

以依据图像特征生成与问题对应的答案为例，正样本可以是与问题具有较强相关性的图像特征，负样本可以是与问题相关性较弱的图像特征。

在具体实现中，可以利用初始检测模型识别目标检测数据集中各样本对应的概率值。概率值越高，说明样本包含的图像特征与问题具有的相关性越强。

目标检测数据集中样本可以是目标检测数据集中各图片所对应的检测框，每个检测框有其对应的图像特征。

依据目标检测数据集中各样本对应的样本标签以及概率值，可以确定出正负样本对应的损失函数；基于正负样本对应的损失函数，调整初始检测模型中融合模块对应的参数，以完成正负样本判别训练。

对于正负样本损失函数的确定，可以设置正负样本损失函数计算公式，将目标检测数据集中各样本对应的样本标签以及概率值输入至正负样本损失函数计算公式，以确定出正负样本对应的损失函数；其中，正负样本损失函数计算公式为：

考虑到实际应用中，正负样本比例会存在不均衡的问题，正样本比例往往较小，因此可以令阈值w ₊＝40，w _-＝1。

S503：在完成正负样本判别训练后，计算初始检测模型的损失函数。

其中，损失函数可以包括初始损失函数和正负样本对应的损失函数。正负样本对应的损失函数的计算方式可以参见上述介绍，在此不再赘述。

初始损失函数的计算公式如下：

其中，初始损失函数包含三项，第一项表示分类损失，第二表示IOU损失、第三项表示L ₁损失。y表示ground truth坐标框，y _pred表示通过提取图像特征得到的检测框，σ _i表示ground truth序号为i的坐标框对应的检测框中的序号。p _σ(i)(c _i)表示与ground truth对应的检测框的分类概率。b _i表示ground truth序列为i的坐标位置，即[x1，y1，x2，y2]。同理，b _σ(i)为与ground truth匹配的检测框的坐标。λ _iou及λ ₁分别表示坐标框的回归损失系数，本申请中可以均设置为1。L _iou表示IOU损失，L ₁表示L ₁损失。

L _iou的计算公式如下：

L ₁的计算公式如下，即为检测框与Ground Truth四个点的坐标的绝对值之和：

L ₁(b _i，b _σ(i))＝|b _i-b _σ(i)|。

S504：依据初始检测模型的损失函数，对初始检测模型中包含的语言编码模块和融合模块各自的初始化权重以及初始检测模型对应的权重参数进行调整，得到训练好的目标检测模型。

相比于传统的目标检测模型，本申请基于问题的优化目标检测模型，添加了语言编码模块及融合模块。语言编码模块可以采用Roberta-base预训练权重，对问题产生编码特征q＝{q ₀，q ₁，...，q _Nw-1}，特征维度为768。

融合模块网络结构图如图6所示，融合模块包含有两个单一模态变压器模型(intra-attention)，一个跨模态变压器模型(cross-transformer)，一个线性层和一个正负样本判别模块。其中，线性层可以和目标检测模型的FFN模块连接。

在实际应用中，语言编码模块会将Roberta编码的文本特征输入intra-transformer网络模块中，解码模块会将DETR的解码器输出的图像特征输入到intra-transformer网络模块中。然后将两个模态融合的特征继续通过跨模态transformer(cross-transformer)网络模块中，最终将输出的融合特征输入线性层。DETR中预设了100个query向量，相当于会产生100个检测框。这里根据问题定位相关的坐标框给定每个检测框正样本或是负样本标签。判定准则可以是根据检测得到坐标框与GQA数据集中Ground Truth中给定的和问题相关的坐标框的IOU值。如果两者的IOU值大于0.5，则判定为正样本，否则判定为负样本。这里首先进行一个正负样本判别的训练，随着训练次数的增加，再逐渐添加FFN模块进行坐标框的分类及相关位置坐标回归的优化。

基于损失函数调整模型参数的方式属于现有较为常规的方式，在此不再赘述。

在得到训练好的目标检测模型之后，可以利用训练好的目标检测模型从目标检测数据集中筛选出正样本；利用正样本对应的坐标信息、分类类别和语义特征对初始视觉问答模型进行训练，以得到训练好的视觉问答模型。

本申请实施例提供的目标检测模型的框架着重优化目标检测提取视觉线索的流程，将问题输入到目标检测模型中，能够成功检测出和问题直接相关或者间接推理相关的目标检测框，能够极大地删除传统方案中多余的目标检测框；从视觉问答任务性能上来看，优化了视觉线索，从而极大地提升了任务性能。

本申请实施例提供的视觉问答任务的处理方案可以很便利地应用到手机、FPGA(Field-Programmable Gate Array，现场可编程门阵列)芯片等终端设备中。基于所需实现的功能，可以划分为优化视觉线索模块和视觉问答模块。其中，优化视觉线索模块主要由骨干网络、目标检测模块(包括编码模块和解码模块)及MLP(Multilayer Perceptron，多层感知器)模块(包括融合模块和FFN模块)组成。

骨干网络采用的是Swin Transformer结构，目标检测模块采用的是基础的Transformer encoder及Transformer decoder模块，MLP模块则是由一系列全连接及矩阵向量操作组成。因为Transformer和MLP网络中全部为矩阵的乘加操作，在硬件设备上可以很方便地进行并行加速处理。

因此在实际应用中，第一文本可以为多个问题文本，相应的，第二文本为与各问题文本各自匹配的答案文本。在具体实现中，可以利用训练好的目标检测模型对待分析图像以及多个问题文本进行并行分析，以得到各问题文本各自对应的目标检测框。

以手机为例，图7为本申请实施例提供的一种在手机端并行处理不同的视觉问答任务的示意图，手机上可以设置两个模型，每个模型均包含一个优化视觉线索模块和一个视觉问答模块。两个模型均不存在卷积操作，因此可以并行推理。其中，优化视觉线索模块的作用在于给定问题和整张图像，输出和问题相关的部分图像区域及对应区域的分类；如给定“Is the person happy”这个问题和整张图像，输出为女孩区域及狗的区域，并输出dog和girl。视觉问答模块将上一步得到的结果和问题一起作为输入，推理出最终的答案“Yes”。如给定“What is the weather like”这个问题和整张图像，输出为天空区域，并输出Sky。视觉问答模块将上一步得到的结果和问题一起作为输入，推理出最终的答案“Sunny”。

通过在终端设备上部署多个优化视觉线索模块和多个视觉问答模块，可以实现对多个视觉问答任务的并行处理，极大的提升了视觉问答任务的处理效率，并且可以充分发挥终端设备的性能。

图8为本申请实施例提供的一种视觉问答任务的处理装置的结构示意图，包括融合单元81、筛选单元82和得到单元83；

融合单元81，用于对待分析图像和第一文本进行特征融合处理，得到融合特征；其中，融合特征包含各检测框的坐标信息；

筛选单元82，用于依据待分析图像与第一文本的相关性，从融合特征中筛选出满足相关性要求的目标检测框；

得到单元83，用于将目标检测框对应的坐标信息、分类类别和语义特征输入训练好的视觉问答模型，以得到与第一文本匹配的第二文本；其中，第一文本与第二文本具有逻辑对应关系。

可选地，筛选单元包括计算子单元和选取子单元；

图8所对应实施例中特征的说明可以参见图3和图5所对应实施例的相关说明，这里不再一一赘述。

图9为本申请实施例提供的一种终端设备的结构示意图，包括显示屏91，输入接口92，以及分别与显示屏91、输入接口92连接的处理器；由于处理器内置于终端设备，因此在图9中未示出处理器。

输入接口92，用于接收待分析图像和第一文本；

显示屏91，用于展示第一文本及其对应的第二文本。

图9所对应实施例中特征的说明可以参见图3和图5所对应实施例的相关说明，这里不再一一赘述。

输入接口92可以用于实现与外部设备如U盘的连接。输入接口可以有多个，图9中以一个输入接口为例。在实际应用中，用户可以通过输入键盘向终端设备输入待分析图像和第一文本，也可以将待分析图像和第一文本写入U盘，将U盘插入终端设备的输入接口92。终端设备在获取到待分析图像和第一文本后，可以将待分析图像和第一文本传输至处理器，处理器在对待分析图像和第一文本分析后，可以得到与第一文本匹配的第二文本，此时终端设备可以通过显示屏91展示第二文本。

需要说明的是，图9中终端设备包含的显示屏91、输入接口92、处理器等功能模块仅是举例说明，在实际应用中，基于实际需求终端设备也可以包含更多或更少的功能模块，对此不做限定。

可以理解的是，如果上述实施例中的视觉问答任务的处理方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。

基于此，本申请实施例还提供了一种非易失性可读存储介质，非易失性可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述视觉问答任务的处理方法的步骤。

以上对本申请实施例所提供的一种视觉问答任务的处理方法、装置、设备和非易失性可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上对本申请所提供的一种视觉问答任务的处理方法、装置、设备和非易失性可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

一种视觉问答任务的处理方法，其特征在于，包括：

对待分析图像和第一文本进行特征融合处理，得到融合特征；其中，所述融合特征包含各检测框的坐标信息；

依据所述待分析图像与所述第一文本的相关性，从所述融合特征中筛选出满足相关性要求的目标检测框；

将所述目标检测框对应的坐标信息、分类类别和语义特征输入训练好的视觉问答模型，以得到与所述第一文本匹配的第二文本；其中，所述第一文本与所述第二文本具有逻辑对应关系。
根据权利要求1所述的视觉问答任务的处理方法，其特征在于，所述依据所述待分析图像与所述第一文本的相关性，从所述融合特征中筛选出满足相关性要求的目标检测框包括：

计算所述待分析图像的图像特征中包含的各图像检测框与所述第一文本的文本特征对应的文本检测框的交并比；

从所有所述图像检测框中选取出交并比大于预设阈值的目标检测框。
根据权利要求2所述的视觉问答任务的处理方法，其特征在于，所述目标检测框的数量小于所述图像特征中包含的图像检测框的数量。
根据权利要求1所述的视觉问答任务的处理方法，其特征在于，所述依据所述待分析图像与所述第一文本的相关性，从所述融合特征中筛选出满足相关性要求的目标检测框包括：

利用训练好的目标检测模型从所述融合特征中筛选出满足相关性要求的目标检测框；其中，所述目标检测模型基于历史图像和历史文本训练得到。
根据权利要求4所述的视觉问答任务的处理方法，其特征在于，所述目标检测模型包括骨干网络、编码模块、解码模块、融合模块、前向传播网络模块以及语言编码模块，其中：

所述骨干网络、所述编码模块和所述解码模块用于实现所述待分析图像的图像特征的提取；

所述语言编码模块用于提取所述第一文本的文本特征；

所述融合模块用于实现对所述图像特征和所述文本特征的融合，从而筛选出所述目标检测框；

所述前向传播网络模块用于提取出所述目标检测框的坐标信息、分类类别和语义特征。
根据权利要求5所述的视觉问答任务的处理方法，其特征在于，在所述目标检测模型的训练阶段，具有所述待分析图像的图片首先通过所述骨干网络提取所述图像特征，同时加入位置编码特征，位置编码特征是根据所述待分析图像的分辨率自适应获得的，其意义是得到图像特征图的局部位置信息；采用所述编码模块来编码所述图像特征，设置可学习的初始化嵌入参数，从编码图像特征中解码出对应目标位置及分类，所述初始化嵌入参数相当于目标检测预定义锚点信息，通过所述解码模块中的解码器解码出对应物体的检测位置及相应类别。
根据权利要求4所述的视觉问答任务的处理方法，其特征在于，针对于所述目标检测模型的训练过程，所述方法包括：

利用目标检测数据集训练初始检测模型，以得到所述初始检测模型对应的权重参数；

基于所述目标检测数据集中各样本对应的样本标签，对所述初始检测模型进行正负样本判别训练；

在完成正负样本判别训练后，计算所述初始检测模型的损失函数；其中，所述损失函数包括初始损失函数和正负样本对应的损失函数；

依据所述初始检测模型的损失函数，对所述初始检测模型中包含的语言编码模块和融合模块各自的初始化权重以及所述初始检测模型对应的权重参数进行调整，得到训练好的目标检测模型。
根据权利要求7所述的视觉问答任务的处理方法，其特征在于，所述融合模块包含有两个单一模态变压器模型、一个跨模态变压器模型，一个线性层和一个正负样本判别模块。
根据权利要求7所述的视觉问答任务的处理方法，其特征在于，所述基于所述目标检测数据集中各样本对应的样本标签，对所述初始检测模型进行正负样本判别训练包括：

利用所述初始检测模型识别所述目标检测数据集中各样本对应的概率值；

依据所述目标检测数据集中各样本对应的样本标签以及概率值，确定出正负样本对应的损失函数；

基于所述正负样本对应的损失函数，调整所述初始检测模型中融合模块对应的参数，以完成正负样本判别训练。
根据权利要求9所述的视觉问答任务的处理方法，其特征在于，所述依据所述目标检测数据集中各样本对应的样本标签以及概率值，确定出正负样本对应的损失函数包括：

将所述目标检测数据集中各样本对应的样本标签以及概率值输入至正负样本损失函数计算公式，以确定出正负样本对应的损失函数；其中，正负样本损失函数计算公式为：

其中，N表示样本总个数，y _i表示第i个样本的样本标签对应的数值，样本标签为正样本时y _i＝1，样本标签为负样本时y _i＝0，w ₊表示正样本对应的阈值，p _i表示第i个样本属于正样本的概率值，w _-表示负样本对应的阈值。
根据权利要求7所述的视觉问答任务的处理方法，其特征在于，针对于所述视觉问答模型的训练过程，所述方法包括：

利用训练好的目标检测模型从所述目标检测数据集中筛选出正样本；

利用所述正样本对应的坐标信息、分类类别和语义特征对初始视觉问答模型进行训练，以得到训练好的视觉问答模型。
根据权利要求7所述的视觉问答任务的处理方法，其特征在于，所述对待分析图像和第一文本进行特征融合处理，得到融合特征包括：

利用所述目标检测模型的目标检测模块提取所述待分析图像的图像特征；其中，所述图像特征包括多个检测框各自对应的图像特征；

利用所述目标检测模型的语言编码模块对所述第一文本进行特征编码，得到文本特征；

利用所述目标检测模型的融合模块将所述图像特征与所述文本特征进行融合，得到融合特征。
根据权利要求1-12任意一项所述的视觉问答任务的处理方法，其特征在于，所述第一文本为问题文本；所述第二文本为与所述问题文本匹配的答案文本。
根据权利要求13所述的视觉问答任务的处理方法，其特征在于，所述第一文本为多个问题文本，所述第二文本为与各所述问题文本各自匹配的答案文本；

相应的，所述依据所述待分析图像与所述第一文本的相关性，从所述融合特征中筛选出满足相关性要求的目标检测框包括：

利用训练好的目标检测模型对所述待分析图像以及多个所述问题文本进行并行分析，以得到各所述问题文本各自对应的目标检测框。
根据权利要求1所述的视觉问答任务的处理方法，其特征在于，所述对待分析图像和第一文本进行特征融合处理，得到融合特征包括：

提取所述待分析图像的图像特征；其中，所述图像特征包括多个检测框各自对应的图像特征；

对所述第一文本进行特征编码，得到文本特征；

将所述图像特征与所述文本特征进行融合，得到融合特征。
根据权利要求5所述的视觉问答任务的处理方法，其特征在于，还包括：

在筛选出所述目标检测框后，通过所述前向传播网络模块提取出所述目标检测框对应的坐标信息、分类类别和语义特征。
一种视觉问答任务的处理装置，其特征在于，包括融合单元、筛选单元和得到单元；

所述融合单元，用于对待分析图像和第一文本进行特征融合处理，得到融合特征；其中，所述融合特征包含各检测框的坐标信息；

所述筛选单元，用于依据所述待分析图像与所述第一文本的相关性，从所述融合特征中筛选出满足相关性要求的目标检测框；

所述得到单元，用于将所述目标检测框对应的坐标信息、分类类别和语义特征输入训练好的视觉问答模型，以得到与所述第一文本匹配的第二文本；其中，所述第一文本与所述第二文本具有逻辑对应关系。
一种终端设备，其特征在于，包括显示屏，输入接口，以及分别与所述显示屏、所述输入接口连接的处理器；

所述输入接口，用于接收待分析图像和第一文本；

所述处理器，用于对所述待分析图像和所述第一文本进行特征融合处理，得到融合特征；其中，所述融合特征包含各检测框的坐标信息；依据所述待分析图像与所述第一文本的相关性，从所述融合特征中筛选出满足相关性要求的目标检测框；将所述目标检测框对应的坐标信息、分类类别和语义特征输入训练好的视觉问答模型，以得到与所述第一文本匹配的第二文本；其中，所述第一文本与所述第二文本具有逻辑对应关系；

所述显示屏，用于展示所述第一文本及其对应的所述第二文本。
一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至16任意一项所述视觉问答任务的处理方法的步骤。
一种非易失性可读存储介质，其特征在于，所述非易失性可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至16任意一项所述视觉问答任务的处理方法的步骤。