WO2024082914A1

WO2024082914A1 - 视频问答方法及电子设备

Info

Publication number: WO2024082914A1
Application number: PCT/CN2023/120449
Authority: WO
Inventors: 姚淅峰; 许坤; 陈开济
Original assignee: 华为技术有限公司
Priority date: 2022-10-20
Filing date: 2023-09-21
Publication date: 2024-04-25
Also published as: CN117917696A

Abstract

一种视频问答方法及电子设备，方法中，获取目标视频和用户的问题信息；获取问题信息中的至少一个关联参数（S701），包括时间关联参数、对象关联参数和语义关联参数中的一个或多个；根据至少一个关联参数，对目标视频进行分割，得到至少一个视频片段（S703）；获取至少一个视频片段中，问题信息对应的问题答案；展示问题答案（S704）。

Description

视频问答方法及电子设备

本申请要求于2022年10月20日提交国家知识产权局、申请号为202211289300.7、申请名称为“视频问答方法及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端技术领域，尤其涉及一种视频问答方法及电子设备。

背景技术

在开启摄像头拍摄特定区域(如客厅、饭店、门口等)并录制视频的情况下，可以通过查看视频的方式追溯过去发生的事件，例如，钥匙在哪里、今天有多少人用餐、下午是否有人进门等等。为了提高事件追溯的效率，可以将追溯的事件对应的问题文本和录制的视频，输入视觉问答(Visual Question Answering，VQA)模型，通过VQA模型将视觉处理与自然语言处理相结合，自动求解并输出问题文本对应的答案，实现视频问答。

在相关技术中，视频问答的具体实现方式，可以包括：从问题文本和待处理的原始视频中，得到文本特征以及各帧图像的视觉特征和语义特征，并根据文本特征、视觉特征和语义特征得到各帧图像的全局视觉表示，最后根据文本特征和全局视觉表示，得到问题答案。

然而，上述视频问答方式需要得到待处理的原始视频的各帧图像的全局视觉表示，需要耗费大量的时间进行图像数据处理，导致得到问题答案的速度较慢。

发明内容

本申请实施例提供一种视频问答方法及电子设备，能够根据问题文本中隐含的时间、人物、语义等因素，提取问题文本的关联视频片段，减少隐含问题答案的视频帧的数量，进而减少处理关联视频片段的时间，从而提高得到问题答案的速度，提高视频问答效率和用户体验。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供了一种视频问答方法，应用于电子设备，在该方法中，首先，电子设备获取目标视频和用户的问题信息。然后，电子设备获取问题信息中的至少一个关联参数，其中，关联参数包括时间关联参数、对象关联参数或语义关联参数中的一个或多个。再者，电子设备根据至少一个关联参数，对目标视频进行分割，得到至少一个视频片段。接下来，电子设备获取至少一个视频片段中，问题信息对应的问题答案。最后，电子设备展示问题答案。

其中，目标视频是存储在视频库中的连续录制的视频。目标视频的连续时间可以为视频的最大存储时间(如7天、一星期、一个月等)，目标视频的录制时间从当前时间开始根据最大存储时间进行推算。目标视频的数据量较大，如果逐个视频帧进行判断得到问题答案的速度较慢。

如此，通过获取问题信息中的至少一个关联参数，对目标视频进行分割，并且得到至少一个视频片段，能够减少至少一个视频片段中隐含问题答案的视频帧的数量，进而减少处理至少一个视频片段的时间，以便于提高得到问题答案的速度。同时，能够避免目标视频中的不相关视频对问题答案的干扰，能够进一步提高得到问题答案的速度，并提高得到的问题答案的准确度。再者，获取问题文本对应的问题答案的过程中，分别处理至少一个视频片段中的每个视频片段，由于每个视频片段包含一个独立的语义，能够避免各个视频片段之间相互干扰，能够提高问题答案的准确度。

在第一方面的一种可实现方式中，电子设备获取问题信息中的至少一个关联参数，可以包括：首先，电子设备将问题信息转换为问题文本。然后，电子设备对问题文本进行分词，得到词向量。再者，电子设备将词向量输入预置文本编码模型，得到文本特征。接下来，电子设备提取文本特征中的时间特征和对象特征。最后，电子设备获取文本特征对应的语义关联参数，时间特征对应的时间关联参数，和对象特征对应的对象关联参数中的一个或多个。

其中，关联参数包括文本特征对应的语义关联参数，时间特征对应的时间关联参数，和对象特征对应的对象关联参数中的一个或多个。

需要说明的是，问题信息是响应于文本输入获取的，或者响应于语音输入获取的，或者响应于视频输入获取的。在获取问题信息后，电子设备对问题信息进行清洗、标准化等处理，得到问题文本。相比于问题信息，问题文本更容易进行文本处理，更容易被机器识别。

其中，预置文本编码模型可以是BERT模型，BERT模型的主要输入是文本中各个字/词(或者称为token)的原始词向量，原始词向量可以是通过查询字向量表将文本中的每个字转换为一维向量，也可以是将利用词向量模型进行预训练后得到的向量。BERT模型的输出是文本中各个字/词对应的融合全文语义信息后的向量表示。

可以理解的是，从问题文本中可能提取出文本特征、对象特征和时间特征中的一个或多个。

如此，通过对文本信息转换为问题文本，以及对文本问题件分词得到分词向量，再将分词向量输入预置文本编码模型，以此，得到文本特征，以及文本特征对应的语义关联参数，通过上述处理能够提高文本特征的准确性。通过将文本特征进行分类，提取其中的时间特征和对象特征，以此，获取时间特征对应的时间关联参数，以及对象特征对应的对象关联参数。如此，能够提高获取的关联参数的准确性。

在第一方面的一种可实现方式中，时间关联参数包括视频起始时刻和视频终止时刻。以此，可以根据时间特征是否有效，采用不同的方法获取时间特征对应的时间关联参数。具体包括：在时间特征为有效特征的情况下，根据预置映射规则，对时间特征对应的时间分词进行映射，确定视频终止时刻和视频起始时刻；在时间特征为无效特征的情况下，确定视频终止时刻为：获取问题文本的时刻，确定视频起始时刻为：与视频终止时刻相距预置时长的时刻。

如此，根据时间特征为有效特征还是无效特征，采用不同的方式，确定时间特征对应的时间关联参数，以使得时间关联参数与问题文本的关联程度更高，使得根据时间关联参数得到的关联视频与问题文本的关联程度更高，进一步提高获取的问题答案的准确性。

在第一方面的一种可实现方式中，对象特征为人物类别特征，电子设备获取对象特征对应的对象关联参数，包括：根据问题文本，确定用户身份信息；在预置身份关系表中，根据用户身份信息确定对象特征对应的目标人物；将目标人物对应的目标特征，确定为对象关联参数。

其中，目标特征包括以下至少一项：图像特征、行为特征和声纹特征。目标特征可以是根据预先存储的目标人物的人像、声音等数据，通过预置特征提取算法提取的，预置特征提取算法可以为残差网络ResNet算法。

需要说明的是，如果能够确认用户身份信息，并且人物分类器结果中包含的人物类别特征，即，确定对象特征为人物类别特征。示例性的，人物类别特征可以表示爸爸、妈妈、我、爷爷和奶奶等人物关系类别。例如，问题文本为“妈妈的钥匙”，人物分类器的结果为“妈妈”；问题文本为“找一下钥匙”，人物分类器的结果为“我”。

如此，能够根据预置身份关系表和用户身份信息，获取问题文本相关的目标人物的目标特征，提高获取的“人物”关联参数的准确性，最终提高得到的问题答案的准确性。

在第一方面的一种可实现方式中，电子设备根据问题文本，确定用户身份信息，包括以下任一项：在响应于文本输入获取问题信息的情况下，确定用户身份信息为：启动电子设备的生物特征对应的身份信息；在响应于语音输入获取问题信息的情况下，确定用户身份信息为：语音输入的语音流对应的声纹特征对应的身份信息；在响应于视频输入获取问题信息的情况下，确定用户身份信息为：视频输入的视频流对应的声纹特征和/或人脸特征对应的身份信息。

需要说明的是，电子设备可以根据问题文本的获取方式，选取目标身份确认方法，并根据目标身份确认方式确定提出问题文本的用户身份信息。如果无法确认用户身份信息，那么不输出人物关联参数。电子设备无法确认用户身份信息，也就是，输入问题文本的用户，不再预设人脸和预设声纹识别范围内，或者人物分类器结果没有该用户对应的目标人物。

如此，通过获取问题信息的方式，能够直接得到的生物特征、声纹信息或人脸特征，确定用户身份信息，以提高确定身份信息的速度。

在第一方面的一种可实现方式中，电子设备根据至少一个关联参数，对目标视频进行分割，得到至少一个视频片段，可以包括：获取目标视频中，至少一个关联参数对应的关联视频。接下来，将关联视频进行分割，得到至少一个视频片段。

其中，目标视频中的部分视频或全部视频被确定为至少一个关联参数对应的关联视频。关联视频对应的录制时间可能间断的。至少一个视频片段可以根据关联视频的录制时间是否间断进行分割。

如此，将关联视频分割为至少一个视频片段，以使得获取问题答案的过程中，分别处理至少一个视频片段中的每个视频片段，由于每个视频片段包含一个独立的语义，能够避免各个视频片段之间相互干扰，能够提高问题答案的准确度。

在第一方面的一种可实现方式中，电子设备获取目标视频中，至少一个关联参数对应的关联视频，具体包括：首先根据时间关联参数，从目标视频中提取第一视频。然后，根据对象关联参数，从第一视频中提取第二视频。最后，根据语义关联参数，从第二视频中提取关联视频。

需要说明的是，电子设备首先将时间关联参数作为视频录制时间段，提取目标视频中的第一视频。针对第一视频中的每个视频帧进行编码，获取每个视频帧的视频帧特征。电子设备计算对象关联参数(如，目标人物的目标特征)，与每个视频帧的视频帧特征的第一特征相似度，如果第一特征相似度大于预置阈值，则保留该视频帧，如果第一特征相似度小于预置阈值，则删除该视频帧，直至依次判断第一视频中每个视频帧保留或删除，得到第二视频。最后，电子设备计算语义关联参数(文本特征)，与第二视频帧的每个视频帧的视频帧特征的第二特征相似度，如果第二特征相似度大于预置阈值，则保留该视频帧，如果第二特征相似度小于预置阈值，则删除该视频帧，直至依次判断第二视频中每个视频帧保留或删除，得到关联视频。

如此，按照提取视频的数据处理速度从快到慢的顺序，以此根据时间关联参数、对象关联参数和语义关联参数提取目标视频中的关联视频。最先执行处理速度最快的提取第一视频的步骤，需要处理的数据量最大。最后执行处理速度最慢的提取相关视频的步骤，需要处理的数据量最小。通过平衡数据处理的处理速度和数据处理的数据量的关系，提高提取目标视频中关联视频的速度。

在第一方面的一种可实现方式中，电子设备将关联视频进行分割，得到至少一个视频片段，具体可以为：按照视频分割位置对关联视频进行分割，获取至少一个视频片段。

其中，视频分割位置为：关联视频中录制时间差大于预置时间差的相邻视频帧所在的位置。可以理解的，在确定分割位置过程中，可以首先确定关联视频中录制时间不连续的视频段进行判断，以此，减少计算相邻视频帧对应的录制时间差的次数，进一步减少得到问题答案所需的计算量，提高得到问题答案的速度。

如此，通过按照视频分割位置对关联视频进行分割，得到的至少一个视频段中的各个视频段在时间上不连续，以使得各个视频段包含一个独立的语义，能够避免各个视频片段之间相互干扰，能够提高问题答案的准确度。

在第一方面的一种可实现方式中，按照视频分割位置对关联视频进行分割，获取至少一个视频片段之后，在至少一个视频片段中的相邻视频片段的特征均值的特征相似度大于预置阈值的情况下，电子设备将相邻视频片段合并，重新生成至少一个视频片段。

其中，特征均值可以为视频片段中每个视频帧的视频帧特征相加的和值，再除以视频帧总数得到的平均值。特征相似度为相邻视频片段的两个特征均值相比的相似度。

如此，对于特征均值的相似度较高的视频片段，在视频帧特征、人物追踪等等方面，可以复用的数据较多，如果将特征均值的相似度较高的视频片段进行合并，可以减少后续数据处理所需的时间，进而提高得到问题答案的速度。

在第一方面的一种可实现方式中，本申请提供的视频问答方法还包括：首先，电子设备提取文本特征中的答案数量特征。然后，电子设备获取答案数量特征对应的答案数量关联参数。接下来，将关联视频进行分割，得到至少一个视频片段之后，在答案数量关联参数为1的情况下，电子设备删除至少一个视频片段中除了第一视频片段以外的其他片段，第一视频片段为：至少一个视频片段中最后录制的视频片段。

其中，电子设备将文本特征输入人物分类器，根据人物分类器结果中是否包含人物特征，且通过语义关联参数进行判断，则电子设备确定答案数量特征对应的答案数量关联参数为1或多。

可以理解的是，如果关联参数包括答案数量关联参数，在答案数量关联参数为1的情况下，电子设备保留至少一个视频片段中的录制时间最近的视频片段；在答案数量关联参数为多的情况下，电子设备保留至少一个视频片段中所有的视频片段。

需要说明的是，答案数量只与问题文本相关，与关联视频无关，是预先判断的问题答案的可能数量。当然，答案数量与问题答案具有一定的相关性，例如，在答案数量为一个的情况下，问题答案的实际数量可能为零个或一个；在答案数量为多个的情况下，问题答案的实际数量可能为任一自然数，如，0、1、2、3等数值。

如此，通过答案数量特征确定答案数量关联参数，对于答案数量关联参数为1的情况，能够对至少一个视频片段进行进一步筛选，仅保留录制时间最近的视频片段对应的视频片段，以便于进一步减少视频片段中的数据量，提高得到问题答案的速度。

在第一方面的一种可实现方式中，本申请提供的视频问答方法还包括：首先，电子设备提取文本特征中的答案序数特征。然后，电子设备获取答案序数特征对应的答案序数关联参数。接下来，将关联视频进行分割，得到至少一个视频片段之后，在答案数量关联参数为多，且，答案数量关联参数大于或等于答案序数关联参数的情况下，电子设备删除至少一个视频片段中除了第二视频片段以外的其他片段，其中，第二视频片段为至少一个视频片段中答案序数关联参数对应的视频片段，至少一个视频片段按照时间先后顺序排列。

如此，对于答案数量关联参数为多，且，答案数量关联参数大于或等于答案序数关联参数的情况，对至少一个视频片段进行进一步筛选，仅保留答案序数关联参数对应的视频片段，以便于进一步减少视频片段中的数据量，提高得到问题答案的速度。

在第一方面的一种可实现方式中，电子设备展示问题答案，具体包括：首先，在问题文本、至少一个视频片段或问题答案包含隐私信息的情况下，对用户身份信息进行身份校验。然后，在通过身份校验的情况下，展示问题答案。

其中，隐私信息与用户身份信息是相对而言的。假设问题文本为“保险箱密码”，对于在预置身份关系表中保存的用户身份信息都可以获取对应的问题答案，对于在预置身份关系表中未保存的用户身份信息(相对于预置身份关系表中各个人物而言的陌生人)，为了避免陌生人根据获取的问题答案实现非法目的，则不可获取对应的问题答案。

如此，通过判断问题文本、至少一个视频片段或问答答案是否包含隐私信息，确实用户身份信息是否需要进行身份校验，并在身份校验通过的情况下，才展示问题答案，在身份校验不通过的情况下，不展示问题答案，能够避免隐私泄露。

在第一方面的一种可实现方式中，电子设备展示问题答案，包括以下至少一项：通过语音播放方式，播放问题答案；通过文字显示方式，显示问题答案；通过视频显示方式，播放至少一个视频片段中问题答案对应的视频片段。

需要说明的是，由于想要获取问题答案的用户的个人感知能力有限，如，不识字、视力障碍或者耳聋等等，采用至少一种展示方式展示问题答案，增加展示问题答案的多样性，以便于提高用户获知问题答案的概率。

第二方面，本申请提供一种视频问答装置，该装置中包括获取单元、处理单元和展示单元；获取单元，用于获取目标视频和用户的问题信息。获取单元，还用于获取问题信息中的至少一个关联参数，其中，关联参数包括时间关联参数、对象关联参数或语义关联参数中的一个或多个。处理单元，用于根据至少一个关联参数，对目标视频进行分割，得到至少一个视频片段。展示单元，用于获取至少一个视频片段中，问题信息对应的问题答案；展示问题答案。

如此，能够减少关联视频中隐含问题答案的视频帧的数量，进而减少处理至少一个视频片段的时间，以便于提高得到问题答案的速度。同时，能够避免不关联视频对问题答案的干扰，能够进一步提高得到问题答案的速度，并提高得到的问题答案的准确度。再者，获取问题文本对应的问题答案的过程中，分别处理至少一个视频片段中的每个视频片段，由于每个视频片段包含一个独立的语义，能够避免各个视频片段之间相互干扰，能够提高问题答案的准确度。

第三方面，提供了一种电子设备，包括：存储器、一个或多个处理器；存储器和处理器耦合；其中，存储器中存储有计算机程序代码，计算机程序代码包括计算机指令，当计算机指令被处理器执行时，使得电子设备执行上述第一方面任一项所述的视频问答方法。

第四方面，提供了一种计算机可读存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述第一方面任一项所述的视频问答方法。

第五方面，提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述第一方面任一项所述的视频问答方法。

可以理解地，上述提供的第三方面所述的电子设备，第四方面所述的计算机可读存储介质，第五方面所述的计算机程序产品所能达到的有益效果，可参考第一方面及其任一种可能的设计方式中的有益效果，此处不再赘述。

附图说明

图1为第一种相关技术中的视频问答方法的流程示意图；

图2为第二种相关技术中的视频问答方法的流程示意图；

图3为本申请实施例示出的视频问答的场景示意图之一；

图4为本申请实施例示出的一种视频问答系统框架的结构示意图；

图5为本申请实施例示出的一种电子设备的硬件结构示意图；

图6为本申请实施例示出的一种电子设备的软件结构示意图；

图7为本申请实施例示出的一种视频问答方法的流程示意图之一；

图8为本申请实施例示出的一种获取关联参数的模型结构示意图；

图9为本申请实施例示出的一种家庭任务关系图；

图10为本申请实施例示出的一种视频问答方法的流程示意图之二；

图11为本申请实施例示出的一种视频片段的场景示意图；

图12为本申请实施例示出的一种VQA模型的结构示意图；

图13为本申请实施例示出的视频问答的场景示意图之二；

图14为本申请实施例示出的一种视频问答方法的流程示意图之三；

图15为本申请实施例示出的一种判断是否包含隐私信息的模型结构示意图；

图16为本申请实施例示出的一种视频问答方法的流程示意图之四；

图17为本申请实施例示出的一种视频问答方法装置的结构示意图；

图18为本申请实施例示出的另一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请的描述中，除非另有说明，“/”表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；本申请中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。并且，在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。同时，在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用

“示例性的”或者“例如”等词旨在以具体方式呈现相关概念，便于理解。

本申请实施例涉及的技术术语包括：

循环神经网络(Recurrent Neural Network,RNN)模型，是以序列数据为输入，在序列的演进方向进行递归且所有节点按链式连接的递归神经网络模型。

长短期记忆(Long-Short Term Memory，LSTM)模型，是时间循环神经网络模型，能够解决RNN模型存在的长期依赖的问题。RNN模型的单个循环结构内部只有一个状态，而LSTM模型的单个循环结构内部有四个状态。相比于RNN模型，LSTM模型循环结构之间保持一个持久的单元状态不断传递下去，用于决定哪些信息要遗忘或者继续传递，能够避免在循环过程中出现梯度爆炸或者梯度消失，进而导致无法处理较长序列数据，无法获取长距离数据的信息的问题。

基于变换器的双向编码器表示(Bidirectional Encoder Representations from Transformers，BERT)模型，是语言表征模型，采用掩码语言模型生成深度的双向语言表征，其目的在于，利用大规模无标注预料训练，获得文本的包含丰富语义信息的模型表示。

残差神经网络(Residual Neural Network，ResNet)模型，是通过将人工神经网络(Artificial Neural Networks，ANN)中的某些层跳过下一层神经元，与下下层的神经元隔层相连形成的，能够弱化每层之间的强联系。需要说明的是，通常ANN中卷积层和池化层的层数越多，获取到的图片特征信息越全面，学习效果也越好，但是，实际上随着卷积层和池化层的叠加，可能出现梯度消失和梯度爆炸的现象，为了避免出现该现象，提出的ResNet模型。

自动语音识别(Automatic Speech Recognition，ASR)技术，是将人的语音转换为文本的技术。其目的在于，“听写”出不同人所说的连续语音，是实现“声音”到“文字”转换的技术。

变换器(Transformer，TRM)模型，是利用注意力机制提高模型训练速度的模型，依赖于注意力机制的架构，包括注意力机制和前馈神经网络。其目的在于，输入一种语言，输出另一种语言，即，对通过ASR技术得到的自然语言进行处理，提取有效文本。

视觉问答(Visual Question Answer，VQA)模型，是一种结合计算机视觉(Computer Vision，CV)和自然语言处理(Natural Language Processing，NLP)的学习任务，用于根据输入的图片和问题文本输出一个符合自然语言规则且内容合理的答案。其中，CV用于对给定图像进行图像识别、图像分类、目标跟踪等处理，NLP用于对自然语言进行机器翻译、信息检索、生成文本摘要等处理。

随着人工智能技术的发展，可以应用在智能控制、智能搜索、语言理解和图像理解等方面。对于语言理解和图像理解，可以应用于视频问答场景，能够解决自动救援搜索、智能家居管理和多媒体信息检索等实际问题。示例性的，提出问题“是否有人进门”，通过获取能够捕捉到人像的视频，对“是否有人进门”和该视频进行语言理解和图像理解(即，视觉处理和自然语言处理)，查找问题对应的答案，实现视频问答。视频问答的具体实现方式，详见下述相关技术。

在第一种相关技术中，如图1所示，第一种视频问答的方法如下S101至S106所示。

S101、从待处理的原始视频及与原始视频对应的问题文本中，得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征。

S102、针对每帧图像中的每一目标，根据文本特征以及目标的第一视觉特征及第一语义特征，确定目标的第二视觉特征及第二语义特征。

S103、根据文本特征、目标的第二视觉特征及第二语义特征，得到该帧图像的第一全局视觉表示及第一全局语义表示。

S104、根据文本特征及各帧图像的第一全局视觉表示及第一全局语义表示，得到各帧图像的全局视觉表示。

S105、根据文本特征及各帧图像的全局视觉表示，得到原始视频的全局视觉特征表示。

S106、根据所述全局视觉特征表示及文本特征，可准确得到所述原始视频的问题答案。

如此，能够从视频中得到问题答案，然而，得到原始视频的各帧图像的全局视觉表示，耗费的时间较长，导致得到问题答案的速度较慢。

为了提高得到问题答案的速度，在第二种相关技术中，如图2所示，第二种视频问答的方法如下S201至S213所示。

S201、针对待回答的问题对应的视频，分别获取其中的各视频帧的描述信息。

S202、分别获取各个视频帧的描述信息与所述问题之间的相关性评分，按照相关性评分从大到小的顺序对各个视频帧进行排序，将排序后处于前M位的视频帧作为关键帧。

S203、获取所述视频对应的音频向量及所述问题对应的问题向量。

S204、针对任一关键帧，分别按照下述S205至S210所示方式进行处理。

S205、对该关键帧进行目标区域提取。

S206、对关键帧进行特征提取，得到关键帧对应的特征向量，并分别提取出各目标区域进行特征提取，得到各目标区域对应的特征向量。

S207、获取该关键帧对应的文本向量。

S208、针对该关键帧中的每个目标区域，分别进行以下处理：将该目标区域对应的特征向量与以下向量进行拼接：该关键帧对应的特征向量，该关键帧对应的文本向量和音量向量；获取该目标区域对应的空间注意力权重，将空间注意力权重与拼接结果相乘，将相乘结果作为该目标区域的向量表示。

S209、将各个目标区域的向量标识与该关键帧对应的特征向量进行拼接，将拼接结果作为该关键帧的向量表示。

S210、获取该关键帧对应的时序注意力权重，将所述时序注意力权重与该关键帧的向量表示相乘，得到更新后的该关键帧的向量表示。

S211、确定所述问题为直观问题还是非直观问题。若是直观问题，则执行S212；若是非直观问题，则执行S213。

S212、利用各关键帧的向量表示及所述问题确定出对应的答案。

S213、利用各关键帧的向量表示，所述问题及对应的知识图谱确定出对应的答案。

如此，通过上述S201至S213，可以通过视频帧描述和文本，选取固定数目的关键帧，能够减少进行特征提取的视频帧数量，以此能够提高得到问题答案的速度。其中，选取的关键帧可能包括图像噪声，导致利用关键帧的向量表示不足以确定出问题对应的答案。同时，如果视频帧数量较大，那么选取关键帧仍然耗费的时间较长，导致仍然存在得到问题答案的速度较慢的问题。

在视频问答的场景中，用于查找问题答案的视频，往往会持续几天或者几个月，无论通过上述第一种相关技术，还是通过上述第二种相关技术，都不能解决得到问题答案的速度较慢的问题。因此，本申请实施例提供一种视频问答方法，该方法中，首先，获取目标视频和用户的问题文本。然后，获取问题文本中隐含的时间、对象(如人物)、语义和答案数量等关联参数，然后获取关联参数对应的关联视频，将关联视频进行分割得到至少一个视频片段，最后将至少一个视频片段和问题文本输入VQA模型，得出问题答案。

其中，语义的表示方式可以为文字，还可以为文本向量。答案数量可以为一个或者多个。VQA模型中的文本处理过程，可采用BERT模型、LSTM模型、词向量word2vec模型等自然语言处理模型。VQA模型中在进行图像处理过程中，可采用Transformer网络模型、ResNet网络等图像处理网络模型。关联参数中的对象，可以为人物或事物对象等等。具体的，人物对象是指通过语义识别得到的具有人物特征的文本，事物对象是指通过语义识别得到的具有事物特征的文本，事物对象可以为不能自动移动的事物(如电脑、房屋、树木等)，以及可以自动移动的事物(如扫地机器人、宠物等)。

需要说明的是，答案数量只与问题文本相关，与关联视频无关，是预先判断的问题答案的可能数量。当然，答案数量与问题答案具有一定的相关性，例如，在答案数量为一个的情况下，问题答案的实际数量可能为零个或一个；在答案数量为多个的情况下，问题答案的实际数量可能为小于答案数量的任一自然数，如，0、1、2、3等数值。

示例性的，如图3所示，用户A向智能助手B提出问题文本“今天下午妈妈把钥匙放在哪里了”，其中，智能助手B能够拍摄视频、接收语音信息和播放问题答案。智能助手B理解“今天下午”对应的时间，“妈妈”对应的对象(人物对象)，“找钥匙”对应的语义，然后按照问题文本的实际含义需要对应的问题答案，如，钥匙在桌子上。智能助手B还可以对问题文本进一步理解，确定询问钥匙的位置(也就是钥匙现在的放置位置)，即使下午妈妈把钥匙放在3处不同的地方，问题答案只有一个。关联参数包括时间(今天下午)、目标人物(妈妈)、语义(找钥匙)和答案数量(1个)。

本申请实施例提供一种视频问答方法，获取关联参数对应的关联视频，能够减少隐含问题答案的视频帧的数量，进而减少VQA模型需要处理的至少一个视频片段的时间，以便于提高得到问题答案的速度。同时，避免不相关视频对问题答案的干扰，能够进一步提高得到问题答案的速度，并提高得到的问题答案的准确度。再者，通过VQA模型分别处理至少一个视频片段中的每个视频片段，由于每个视频片段包含一个独立的语义，能够避免各个视频片段之间相互干扰，能够提高问题答案的准确度。

本申请实施例提供的视频问答方法，可应用于视频问答系统框架。如图4所示，视频问答系统框架包括输入/前端处理模块、ASR语音识别模块、摄像模块和视频问答模块。上述视频问答系统框架，用于回答用户提出的询问问题。上述视频问答系统框架中的各个模块可以配置于同一电子设备中。

示例性的，电子设备可以是电视、笔记本电脑、个人计算机、手机、平板电脑、智能音箱等支持语音识别的设备，本申请实施例对电子设备的具体形式不做特殊限制。

需要说明的是，视频问答系统框架中的各个模块，还可以配置在多个电子设备中，每个电子设备中至少配置一个模块。例如，在第一电子设备中配置语音处理模块和语音识别模块、在第二电子设备中配置摄像模块、在第三电子设备中配置视频问答模块。例如，在第四电子设备中配置语音处理模块、语音识别模块和视频问答模块，在第五电子设备中配置摄像模块。配置有数据传输关系模块的电子设备之间，能够进行通信。本申请实施例对视频问答系统框架对应的电子设备的数量不做限定。

输入/前端处理模块，用于将输入的语音流(用户的询问问题)处理成预置的数据格式，具体包括：音频解码、利用声纹或其他特征对输入的语音流进行分离和降噪；通过分帧、开窗、短时傅里叶变换等音频处理算法，提取音频特征；将音频特征对应的音频向量发送至ASR语音识别模块。一般的，输入/前端处理模块在终端侧实现。

ASR语音识别模块，用于获取音频特征，通过声学模型和语言模型将输入的音频特征转换为文本，典型的实现方式包括：通过声学模型获取音频特征中的声学特征对应的音素，通过语音模型获取音频特征中的语言特征对应的文字，串联输出音素和文字输出语音流对应的文本。一般的，ASR语音识别模块可以在终端侧实现。在本申请实施例中，对ASR语音识别模块所采用的语音识别方法不做限定。

其中，声学模型和语言模型都是神经网络结构，在进行模型训练过程中，是联合训练的，因此，通过声学模型和语言模型输出的音频特征对应的文本，为汉字序列。

摄像模块，用于为特定区域的拍摄视频。摄像模块可以保存预置时长的视频。预置时长是指在拍摄的视频中，距离当前时间的时间长度，如3天、7天、一个月或三个月等等。需要说明的是，摄像模块还可以对拍摄的视频进行图像处理，例如分析视频语义、提取图像特征、提取人物特征、提取环境特征等等。

视频问答模块，用于接收文本(问题信息)和视频，输出问题信息对应的答案。典型的方式包括：通过提取文本特征和视频特征，并进行特征融合，利用分类或生成的方式得到问题的答案。

示例性的，上述视频问答系统框架可以应用在语音助手程序中，通过结合用户输入的语音文本以及摄像模块手机的视频，回答用户输入的语音文本包含的问题。

图5示出了电子设备的硬件结构示意图，能够实现视频问答模块的功能。如图5所示，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

示例性的，处理器110可以获取问题文本和目标视频；将问题文本输入编码器，输出问题文本的关联参数，关联参数包括：时间、对象、语义和答案数量；获取关联参数对应的关联视频，然后将关联视频进行分割得到至少一个视频片段，最后将至少一个视频片段和问题文本输入VQA模型，得出问题答案。其中，问题文本是由语音流经过ASR转化得到的，问题文本还可以是直接获取的文字；视频库包括连续录制的视频。其中，对象可以为人物对象和事物对象等。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

示例性的，USB接口130可以用于传输语音流、问题信息、目标视频、关联视频和问题答案等数据。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

示例性的，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以用于传输语音流、问题信息、目标视频、关联视频和问题答案等数据。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

示例性的，显示屏194可以用于显示问题文本、关联视频和问题答案等数据。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

示例性的，摄像头193可以用于连续录制的视频，构成视频库中的视频。目标视频为视频库中的视频。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

示例性的，外部存储器接口120和内部存储器121，可以用于存储语音流、问题信息、目标视频、关联视频和问题答案等数据。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

示例性的，受话器170B和麦克风170C可以用于接收用户输入的语音流，音频模块170可以用于将语音流经过ASR转化得到问题文本，扬声器170A可以用于播放问题答案。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

示例性的，SIM卡接口195可以在连接SIM卡后，电子设备100的天线1和移动通信模块150耦合，使得电子设备100能够用于传输语音流、问题文本、视频库中的视频和问题答案等数据。

基于图5所示的电子设备100实现本申请实施例中的视频问答方法时，电子设备100可以通过天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100通过无线通信技术获取语音流、问题信息、问题文本或视频库中的目标视频。电子设备100还可以通过USB接口130获取语音流、问题文本和目标视频。其中，语音流还可以通过受话器170B和麦克风170C响应于用户输入得到，相应的，问题文本还可以通过音频模块170将语音流经过ASR转化得到。视频库中的视频还可以通过摄像头193连续录制的视频。处理器110可以获取问题信息对应的问题文本和目标视频；将问题文本输入编码器，输出问题文本的关联参数，关联参数包括：时间、对象、语义和答案数量；获取关联参数对应的关联视频，然后将关联视频进行分割得到至少一个视频片段，最后将至少一个视频片段和问题文本输入VQA模型，得出问题答案。显示屏194可以用于显示问题文本、目标视频和问题答案等数据。显示屏194还可以用于显示问题答案对应的视频片段。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图6是本发明实施例的电子设备的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android Runtime)和系统库，以及内核层。

如图6所示，应用程序层可以包括一系列应用程序包。应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

示例性的，基于应用程序层可以启动视频问答方法对应的应用程序，以便于得到问题文本对应的问题答案。

如图6所示，应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

示例性的，应用程序框架层可以通过窗口管理器控制显示屏194的显示区域大小。应用程序框架层还可以通过内容提供器存放或获取问题文本、视频库中的视频、问题答案和问题答案对应的视频片段等数据。应用程序框架层还可以通过视图系统显示用于指示是否显示问题文本、视频库中的视频、问题答案和问题答案对应的视频片段等数据的可视控件。当然，视频库中的适配，可以通过资源管理器传输至内容提供器。

如图6所示，Android Runtime包括核心库和虚拟机。Android Runtime负责安卓系统的调度和管理。核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

如图6所示，系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

如图6所示，内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

示例性的，上述图5所示的USB接口130、天线1，天线2，移动通信模块150，无线通信模块160、外部存储器接口120、内部存储器121，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D、摄像头193和SIM卡接口195，需要通过内核层对应的驱动进行驱动后，才能实现传输语音流、问题信息、问题文本、目标视频和问题答案等数据，显示问题文本、目标视频和问题答案等数据，或者连续录制的视频。

下面结合视频问答场景，示例性说明电子设备100软件以及硬件的工作流程。

基于图5和图6所示的电子设备100实现本申请实施例中的视频问答方法时，示例性说明电子设备100软件以及硬件的工作流程。电子设备100可以通过内核层驱动天线1和移动通信模块150耦合，驱动天线2和无线通信模块160耦合，使得电子设备100通过无线通信技术获取语音流、问题信息、问题文本或目标视频。电子设备100还可以通过内核层驱动USB接口130获取语音流、问题文本和视频库中的视频。其中，电子设备100还可以通过内核层驱动受话器170B和麦克风170C响应于用户输入得到语音流，相应的，电子设备100还可以通过内核层驱动音频模块170将语音流经过ASR转化得到问题文本。电子设备100还可以通过内核层驱动摄像头193连续录制的视频库中的视频。电子设备的外部存储器接口120连接的外部存储设备，或者内部存储器121通过应用程序框架层中的内容提供器存储问题文本和视频库中视频。电子设备的处理器110通过应用程序框架层中的内容提供器获取问题文本和目标视频；通过Android Runtime和系统库，将问题文本输入编码器，输出问题文本的关联参数，关联参数包括：时间、对象、语义和答案数量；获取目标视频中关联参数对应的关联视频，将关联视频进行分割得到至少一个视频片段，将至少一个视频片段和问题文本输入VQA模型，得出问题答案。电子设备通过应用程序框架层的窗口管理器设置显示参数，并通过系统库的表面管理器与显示子系统进行管理，最后通过内核层驱动显示屏194显示问题文本、目标视频、问题答案以及问题答案对应的视频片段等数据。

在确保问题答案的准确性的基础上，为了解决得到问题答案的速度较慢的问题，本申请实施例提供一种视频问答方法，在实现过程中需要考虑以下两个方面：

第一、用于查找问题答案的视频，往往会持续几天或者几个月，需要获取与问题文本对应关联视频，以便于精确地理解关联视频，得到问题答案。因此，在提取关联视频中需要考虑问题文本中隐含的时间、人物、语义和答案数量等关联参数。

第二、一个问题文本可能对应多个视频片段，如果将关联视频作为一个整体，查找问题文本对应的问题答案，那么关联视频中多个视频片段之间可能互相干扰。因此，可以分割关联视频得到多个视频片段，并对各个视频片段分别进行理解。尤其是，对于一个问题文本存在多个问题答案的情况，在查找问题文本对应的问题答案过程中，多个视频片段之间的互相干扰可能造成对视频的错误理解，导致得到的问题答案与问题文本不一致。

以下将以电子设备为手机为例，对本申请实施例提供的视频问答方法进行说明。如图7所示，该方法可以包括如下步骤S701-S704。

S701、电子设备获取问题文本中的关联参数。

在一些实施例中，电子设备获取问题信息中的关联参数之前，电子设备还可以获取用户的问题信息。获取问题文本中的关联参数，也可以理解为，电子设备获取问题信息中的至少一个关联参数，至少一个关联参数包括时间关联参数、对象关联参数和语义关联参数中的一个或多个。

其中，问题文本与问题信息相对应，问题信息是指包括询问问题的视频、音频、文字(可以为书面形式的文字、也可以为口语化的文字)。问题文本是指包括询问问题的文本。

在一些实施例中，电子设备可以响应于用户的文字输入获取问题信息。电子设备还可以响应于用户的语音输入获取语音流，再通过语音识别技术将语音流转换为问题信息。电子设备还可以通过响应于用户的视频输入获取问题信息。电子设备还可以通过有线或无线方式，从其他电子设备获取问题信息。在本申请实施例中，对问题信息的来源不做限定。

在一些实施例中，电子设备获取关联参数的具体实现方式可以包括：首先，电子设备将问题信息转换为问题文本。然后，电子设备对问题文本进行分词，得到词向量。再者，电子设备将词向量输入预置文本编码模型，得到文本特征。接下来，电子设备提取文本特征中的时间特征和对象特征。最后，电子设备获取问题信息中的至少一个关联参数。

可以理解的是，在获取问题信息后，电子设备对问题信息进行清洗、标准化等处理，得到问题文本。从问题文本中可能提取出文本特征、对象特征和时间特征中的一个或多个。当然，电子设备从问题文本中提取文本特征、对象特征和时间特征的过程中，如果不能从问题文本中提取到文本特征、对象特征或时间特征对应的特征参数，那么电子设备可以将对应的特征赋值为预置参数，预置参数用于标识该特征为无效特征。

在本申请实施例中，预置参数为不干扰得到问题答案的过程的参数。

以下，以对象关联参数为人物关联参数为例，对问题信息中的关联参数进行详细说明。

针对语义关联参数而言，如图8中的(a)所示，电子设备可以将问题文本进行分词，并将分词对应的词向量输入文本编码器(如BERT模型)，通过文本编码器进行文本编码，获取文本特征，然后提取文本特征中的时间特征，再将文本特征中的非时间特征，输入人物分类器，提取人物特征和答案数量特征，最后获取时间特征对应的时间关联参数，人物特征对应的人物关联参数，以及答案数量特征对应的答案数量关联参数。文本特征即关联参数中的语义关联参数。

其中，文本编码器可以采用BERT模型，还可以采用LSTM模型。在本申请实施例中，以文本编码器可以采用BERT模型为例，说明如何获取关联参数。需要说明的是，BERT模型的主要输入是文本中各个字/词(或者称为token)的原始词向量，原始词向量可以是通过查询字向量表将文本中的每个字转换为一维向量，也可以是将利用词向量模型进行预训练后得到的向量。BERT模型的输出是文本中各个字/词对应的融合全文语义信息后的向量表示。

如此，从问题文本中获取与实际问题更相似的文本特征，能够提高语义关联参数的准确性，进一步提高得到的问题答案的准确性。

针对时间关联参数而言，如图8中的(b)所示，电子设备可以将问题文本中的每一个文本分词对应的分词特征输入时间分类器(以序列标注方式标记输入文本中的时间关联词)，提取文本特征中的时间特征。如此，通过序列标注方式获取时间特征，能够通过对序列标注方式的训练，提高获取的时间特征的准确性，进一步提高获取的时间关联参数的准确性，最终提高得到的问题答案的准确性。

需要说明的是，时间特征可以存在(有效特征)，可以不存在(无效特征)，获取时间特征之后，电子设备可以根据时间特征为有效特征还是无效特征，确定时间特征对应的时间关联参数。其中，时间关联参数包括视频起始时刻和视频终止时刻。

在时间特征为有效特征的情况下，根据预置映射规则，对时间特征对应的时间分词进行映射，确定视频起始时刻和视频终止时刻。可以理解为，如果问题文本中存在时间关联词，则将时间关联词映射的世界时间，确定为时间关联参数。

示例性的，问题文本为“今天下午钥匙放哪了”，时间分类器的分类结果为“BIIIO OOOO”，B表示时间关联词的第一个字，I标识时间关联词的内部字，O表示非时间词。根据分类结果“BIII”，获取问题文本对应的时间关联词“今天下午”，根据时间关联词“今天下午”，通过映射确定时间关联参数为“2022年9月7日12点至2022年9月7日18点”。

在时间特征为无效特征的情况下，确定视频终止时刻为：获取问题文本的时刻，确定视频起始时刻为：与视频终止时刻相距预置时长的时刻。可以理解为，如果问题文本中不存在时间关联词，则确定时间关联参数为从问题文本的获取时刻之前的N个小时。其中，N大于0，N小于视频库中视频的总时长。

示例性的，问题文本为“找钥匙”，时间分类器的分类结果为“OOO”。根据分类结果“OOO”，确定问题文本不存在对应的时间关联词。获取问题文本的获取时间(2022年9月7日15点30分)，确定时间关联参数为“2022年9月7日12点30分至2022年9月7日15点分”，N为3小时。

针对人物关联参数而言，如图8中的(c)所示，电子设备将文本特征中的非时间特征，输入人物分类器，提取人物类别特征(即，确定对象关联参数为人物关联参数的对象特征)。电子设备获取对象特征对应的对象关联参数，具体包括：电子设备根据问题文本，确定用户身份信息；在预置身份关系表中，电子设备根据用户身份信息确定对象特征对应的目标人物；电子设备将目标人物对应的目标特征，确定为对象关联参数，目标特征包括以下至少一项：图像特征、行为特征和声纹特征。

值得说明的是，如果能够确认用户身份信息，并且人物分类器结果中包含的人物类别特征，则电子设备在家庭成员关系表中，选取人物类别特征对应的目标人物。然后确定目标人物的目标特征为人物关联参数。其中，目标特征包括图像特征、行为特征和声纹特征等特征。目标特征可以是根据预先存储的目标人物的人像、声音等数据，通过预置特征提取算法提取的，预置特征提取算法可以为残差网络ResNet算法。

如此，通过人物分类器和用户身份信息获取目标特征，能够通过获取问题文本相关的目标人物的目标特征，提高获取的“人物”关联参数的准确性，最终提高得到的问题答案的准确性。

其中，上述电子设备根据问题文本，确定用户身份信息，可以包括以下任一项：在响应于文本输入获取问题信息的情况下，确定用户身份信息为：启动电子设备的生物特征对应的身份信息；在响应于语音输入获取问题信息的情况下，确定用户身份信息为：语音输入的语音流对应的声纹特征对应的身份信息；在响应于视频输入获取问题信息的情况下，确定用户身份信息为：视频输入的视频流对应的声纹特征和/或人脸特征对应的身份信息。

需要说明的是，如果问题信息是电子设备通过有线或无线方式从其他电子设备获取的，那么根据问题信息携带的声纹或人脸图像，确定用户身份信息。

其中，人物类别特征可以表示爸爸、妈妈、我、爷爷和奶奶等人物关系类别。例如，问题文本为“妈妈的钥匙”，人物分类器的结果为“妈妈”；问题文本为“找一下钥匙”，人物分类器的结果为“我”。

示例性的，如图9所示的家庭成员关系表，可以是预先设置的，也可以是随着电子设备的使用不断添加的。在家庭成员关系报表中，包括家庭成员和成员关系两个主要元素，如，人物1的妈妈是人物2，人物1的爸爸是人物2，人物2的妈妈是人物4，人物2的爸爸是人物5。家庭成员关系报表中的数据量，根据家庭成员的多少确定的，在本申请实施例中不做限定。

示例性的，在图9的基础上，如果电子设备提取的人物类别特征为“妈妈”，确定用户身份信息为人物1，则通过查找家庭关系表可以获取的目标人物为人物2，然后将人物2的目标特征确定为人物关联参数。

可以理解的是，如果电子设备直接获取问题文本，那么将开启电子设备采集的生物特征(如指纹、声纹、或人脸图像等)对应的用户身份信息，确定为提出问题文本的用户身份信息。如果电子设备通过语音流间接获取问题文本，那么根据语音流对应的声纹，确定提出问题文本的用户身份信息。如果电子设备通过视频间接获取问题文本，那么根据视频中语音对应的声纹，和/或视频中的人脸图像，确定提出问题文本的用户身份信息。

针对答案数量关联参数而言，如图8中的(d)所示，电子设备将文本特征输入人物分类器，根据人物分类器结果中是否包含人物特征，且通过语义关联参数进行判断，则电子设备确定答案数量特征对应的答案数量关联参数为1或多。如此，通过确定问题答案的答案数量，能够提高获取的答案数量关联参数的准确性，进一步提高得到的问题答案的准确性。

在另一些实施例中，在答案数量为多的情况下，在问题文本中还可能包括指定输出第几个答案。如图8中的(e)所示，电子设备将文本特征输入人物分类器(以序列标注方式标记输入文本中的序数关联词)，确定答案数量特征，同时，还提取问题文本中的答案序数特征。例如，问题文本为“今天下午第二个来的是谁”，虽然对应的答案数量为多，但是实际的答案为一个，答案序数为“第二”。

S702、电子设备获取关联参数对应的关联视频。

在一些实施例中，电子设备获取问题文本中的关联参数之前，电子设备还可以获取目标视频，然后获取目标视频中，关联参数对应的关联视频。

可以理解的是，电子设备还可以直接从视频库中目标视频，或者获取关联参数对应的关联视频。其中，目标视频可以存储在视频库中，视频库是指存放连续录制视频的数据库。视频库可以存储在电子设备中，也可以存储在服务器中、还可以存储在录制视频的录制设备中。

在第一种示例中，如果视频库可以存储在电子设备中，那么电子设备将关联参数作为筛选条件，从视频库的目标视频中获取符合筛选条件的关联视频。

在第二种示例中，如果视频库存储在服务器中，那么电子设备将关联参数作为筛选条件发送至服务器。服务器接收筛选条件，并从视频库的目标视频中提取符合筛选条件的关联视频，并将关联视频发送至电子设备，以使得电子设备获取关联参数对应的关联视频。

在第三种示例中，如果视频库存储在录制视频的录制设备中，那么电子设备将关联参数作为筛选条件发送至录制设备。录制设备接收筛选条件，并从视频库的目标视频中提取符合筛选条件的关联视频，并将关联视频发送至电子设备，以使得电子设备获取关联参数对应的关联视频。

在第四种示例中，如果视频库存储在录制视频的录制设备中，那么电子设备请求获取视频库中的全部视频(包括目标视频)，录制设备将全部视频发送至电子设备。电子设备在接收到全部视频后，将关联参数作为筛选条件，从全部视频中获取符合筛选条件的关联视频。

在另一些实施例中，如图10所示，上述获取目标视频中，关联参数对应的关联视频，可以通过下述步骤S1001至S1003实现。

S1001、电子设备根据时间关联参数，从目标视频中提取第一视频。

S1002、电子设备根据对象关联参数，从第一视频中提取第二视频。

S1003、电子设备根据语义关联参数，从第二视频中提取关联视频。

在本申请实施例中，电子设备将时间关联参数作为视频录制时间段，提取目标视频中的第一视频。针对第一视频中的每个视频帧进行编码，获取每个视频帧的视频帧特征。电子设备计算对象关联参数(如，目标人物的目标特征)，与每个视频帧的视频帧特征的第一特征相似度，如果第一特征相似度大于预置阈值，则保留该视频帧，如果第一特征相似度小于预置阈值，则删除该视频帧，直至依次判断第一视频中每个视频帧保留或删除，得到第二视频。最后，电子设备计算语义关联参数(文本特征)，与第二视频帧的每个视频帧的视频帧特征的第二特征相似度，如果第二特征相似度大于预置阈值，则保留该视频帧，如果第二特征相似度小于预置阈值，则删除该视频帧，直至依次判断第二视频中每个视频帧保留或删除，得到关联视频。

需要说明的是，每个视频帧的视频帧特征，可以实现视频问答方法的过程中生成的，还可以是在录制视频的过程中生成的。每个视频帧的视频帧特征，可以以预训练的ResNet网络为编码器进行编码得到。

为了计算第一特征相似度和第二特征相似度，可以采用向量乘积方式，即，将目标特征对应的向量与视频帧特征对应的向量进行向量乘积，得到第一特征相似度；将文本特征对应的向量与视频帧特征对应的向量进行向量乘积，得到第二特征相似度。

如此，获取关联参数对应的关联视频，能够减少关联视频中隐含问题答案的视频帧的数量，进而减少VQA模型处理至少一个视频片段的时间，以便于提高得到问题答案的速度。同时，能够避免不关联视频对问题答案的干扰，能够进一步提高得到问题答案的速度，并提高得到的问题答案的准确度。再者，通过VQA模型分别处理至少一个视频片段中的每个视频片段，由于每个视频片段包含一个独立的语义，能够避免各个视频片段之间相互干扰，能够提高问题答案的准确度。

S703、电子设备将关联视频进行分割，得到至少一个视频片段。

在本申请实施例中，电子设备可以按照视频分割位置对关联视频进行分割，获取至少一个视频片段，其中，视频分割位置为：关联视频中录制时间差大于预置时间差的相邻视频帧所在的位置。

在一些实施例中，电子设备针对关联视频的时间上不连续的视频段进行判断，在相邻视频段中相邻视频帧的录制时间差，大于预置时间间隔的情况下，则将相邻视频段分割为不同的视频片段，在相邻视频段中相邻视频帧的录制时间差，不大于预置时间间隔的情况下，则将相邻视频段分割为相同的视频片段，以此，得到至少一个视频片段。

示例性的，关联视频的时间上不连续的视频段，包括f1、f2和f3等等。首先将f1确定属于第一个视频片段，如果f1和f2中相邻视频帧的录制时间差大于10秒，则确定f2属于第二个视频片段，否则确定f2也属于第一个视频片段。

在一些实施例中，在至少一个视频片段中的相邻视频片段的特征均值的特征相似度大于预置阈值的情况下，将相邻视频片段合并，重新生成至少一个视频片段。

可以理解的是，在得到至少一个视频片段之后，电子设备还可以计算两个相邻视频片段的特征均值的相似度，如果该相似度大于预设阈值，则将两个相邻视频片段合并为一个视频片段。视频片段的特征均值，可以为视频片段中每个视频帧的视频帧特征相加的和值，再除以视频帧总数得到的平均值。

对于特征均值的特征相似度，可以采用向量乘积方式，即，将相邻视频片段中前一个视频片段的特征均值，与相邻视频片段中后一个视频片段的特征均值，进行向量乘积，得到两个相邻视频片段的特征均值的相似度。

示例性的，如图11所示，如果问题文本为“妈妈把炒锅放在哪里了”，那么追踪妈妈的位置，捕捉妈妈的动作，是得到问题答案的关键。假设，妈妈的活动场景包括，场景一为：妈妈在厨房备菜，餐厅处于无人状态；场景二为：厨房处于无人状态，妈妈在餐厅摆放菜品；场景三为：妈妈回到厨房备菜，餐厅处于无人状态。其中，场景一和场景三对应的厨房视频属于关联视频，且，场景一和场景三对应的厨房视频的特征均值的相似度大于预设阈值，是相邻视频片段。

如此，对于特征均值的相似度较高的视频片段，在视频帧特征、人物追踪等等方面，可以复用的数据较多，如果将特征均值的相似度较高的视频片段进行合并，可以减少后续数据处理所需的时间，进而提高得出问题文本对应的问题答案的速度。

在一些实施例中，电子设备还可以提取文本特征中的答案数量特征；获取答案数量特征对应的答案数量关联参数；然后在将关联视频进行分割，得到至少一个视频片段之后，电子设备还可以在答案数量关联参数为1的情况下，删除至少一个视频片段中除了第一视频片段以外的其他片段。其中，第一视频片段为：至少一个视频片段中最后录制的视频片段。

可以理解的是，如果关联参数包括答案数量关联参数，在答案数量关联参数为1的情况下，电子设备保留至少一个视频片段中的录制时间最近的视频片段；在答案数量关联参数为多的情况下，电子设备保留至少一个视频片段中所有的视频片段。也就是，对于答案数量关联参数为1的情况，仅保留录制时间最近的视频片段对应的视频片段，以便于进一步减少视频片段中的数据量，提高得到问题答案的速度。

在一些实施例中，如果关联参数包括答案数量关联参数和答案序数关联参数，在答案数量关联参数为多的情况下，电子设备得出问题文本对应的多个可能答案(即，对应于多个视频片段)，但是，如果关联参数中还包括答案序数关联参数，那么最终的问题答案为答案序数关联参数对应的一个问题答案(即，对应于多个视频片段中与答案序数关联参数对应的视频片段)。

具体的，电子设备还可以提取文本特征中的答案序数特征；获取答案序数特征对应的答案序数关联参数；然后在将关联视频进行分割，得到至少一个视频片段之后，电子设备还可以在答案数量关联参数为多，且，答案数量关联参数大于或等于答案序数关联参数的情况下，删除至少一个视频片段中除了第二视频片段以外的其他片段。

其中，第二视频片段为：至少一个视频片段中答案序数对应的视频片段，至少一个视频片段按照时间先后顺序排列。

如此，仅保留答案序数关联参数对应的视频片段，以便于进一步减少视频片段中的数据量，提高得到问题答案的速度。

S704、电子设备将至少一个视频片段和问题文本输入VQA模型，得出问题文本对应的问题答案，并展示问题答案。

在本申请实施例中，电子设备可以先获取至少一个视频片段中，问题文本对应的问题答案。再展示问题答案。

在一些实施例中，电子设备可以通过VQA模型，至少一个视频片段的视频帧特征，和问题文本的文本特征进行结合，得出问题文本对应的问题答案。在本申请实施例中，对特征结合方法不做限定。

如图12所示，T为文本特征，F为视频帧特征，将文本特征和视频帧特征输入变换Transformer神经网络，得到融合特征，再根据融合特征利用分类或生成方法得到问题答案。

可以理解的是，确定时间关联参数为从问题文本的获取时刻之前的N个小时，据此提取的关联视频中，可能不包括问题文本对应的问题答案。因此，如果电子设备不能得出问题文本对应的问题答案，那么电子设备可以提示用户在哪个时间段没有查找到问题文本对应的问题答案，并提示用户可以输入目标时间段，将目标时间段作为时间关联参数，重新查找问题文本对应的问题答案。

示例性的，如图13中的(a)所示，电子设备为手机C，手机C响应于用户A输入的问题文本“今天下午谁进门了”，手机C根据“今天下午(时间)”、“谁(任意人物)”和“进门(语义)”获取关联视频，将关联视频对应的所有至少一个视频片段输入VQA模型，依据各个视频片段确定下午进门的人物包括：人物甲、人物乙和人物丙，最后得到问题文本对应的问题答案即为人物甲、人物乙和人物丙。

示例性的，如图13中的(b)所示，电子设备为手机C，手机C响应于用户A输入的问题文本“今天下午第二个进门的是谁”，手机C根据“今天下午(时间)”、“谁(任意人物)”、“进门(语义)”和“第二(答案序数)”获取关联视频，并将关联视频对应的所有至少一个视频片段输入VQA模型，依据各个视频片段确定下午进门的人物包括：人物甲、人物乙和人物丙，最后得到问题文本对应的问题答案即为：上述人物中的第二个人物(人物乙)。

在本申请实施例中，电子设备展示问题答案可以包括以下至少一项：通过语音播放方式，播放问题答案；通过文字显示方式，显示问题答案；通过视频显示方式，播放至少一个视频片段中问题答案对应的视频片段。

简而言之，电子设备可以通过语音播放、文字显示、视频显示的方式展示问题答案。其中，视频显示方式，可以显示至少一个视频片段中问题答案对应的视频片段。示例性的，参见图3，如果电子设备为智能助手B，那么智能助手B通过语音展示问题答案：钥匙在桌子上。再示例性的，如果电子设备为手机，那么手机通过视频展示问题答案，在手机的显示屏上显示钥匙在位置上的图像。再示例性的，如果电子设备为手机，那么手机通过文字展示问题答案，在手机的显示屏上显示钥匙在位置上的图像。

本申请实施例提供一种视频问答方法，通过获取问题信息中的至少一个关联参数，对目标视频进行分割，并且得到至少一个视频片段，能够减少至少一个视频片段中隐含问题答案的视频帧的数量，进而减少处理至少一个视频片段的时间，以便于提高得到问题答案的速度。同时，能够避免目标视频中的不相关视频对问题答案的干扰，能够进一步提高得到问题答案的速度，并提高得到的问题答案的准确度。再者，获取问题文本对应的问题答案的过程中，分别处理至少一个视频片段中的每个视频片段，由于每个视频片段包含一个独立的语义，能够避免各个视频片段之间相互干扰，能够提高问题答案的准确度。

进一步地，在本申请实施例中，由于视频问答过程中，问题答案可能涉及隐私，因此，还可以在用户身份信息校验通过后再展示问题答案，比如，在图7的基础上，如图14所示，上述S704中的展示问题答案，还可以包括下述步骤S1401和S1402。

S1401、在问题文本、至少一个视频片段或问题答案包含隐私信息的情况下，电子设备对用户身份信息进行身份校验。

S1402、在身份校验通过的情况下，电子设备展示问题答案。

在本申请实施例中，如图15所示，将问题文本、至少一个视频片段或问答答案分别输入隐私特征提取模型，如果输出上述任一输入包含隐私信息，则电子设备对用户身份信息进行身份校验。其中，在获取人物关联参数过程中可以获取用户身份信息。

在一些实施例中，电子设备可以采用序列标注方法，判断输入特征是否包含隐私信息。

示例性的，如果问题文本为“保险箱密码”，显然，该问题文本包含隐私信息，需要电子设备对用户身份信息进行身份校验。对于在预置身份关系表中保存的用户身份信息都可以获取对应的问题答案，对于在预置身份关系表中未保存的用户身份信息(相对于预置身份关系表中各个人物而言的陌生人)，为了避免陌生人根据获取的问题答案实现非法目的，则不可获取对应的问题答案。

在一些实施例中，用户身份信息校验方式是根据问题文本的获取方式得到的。如果电子设备直接获取问题文本，那么将开启电子设备采集的生物特征(如指纹、声纹、或人脸图像等)对应的用户身份信息，确定为提出问题文本的用户身份信息。如果电子设备通过语音流间接获取问题文本，那么根据语音流对应的声纹，确定提出问题文本的用户身份信息。如果电子设备通过视频间接获取问题文本，那么根据视频中语音对应的声纹，和/或视频中的人脸图像，确定提出问题文本的用户身份信息。

可以理解的是，电子设备对用户身份信息进行校验采用的校验方式，与用户身份信息的实际信息类型相对应。在用户身份信息为指纹的情况下，根据指纹识别方法进行身份校验。

在另一些实施例中，在身份校验不通过的情况下，电子设备不展示问题答案，电子设备可以展示提示信息，提示不展示问题答案的原因，提示重新获取问题文本等等。

综上可知，如图16所示，本申请实施例提供的视频问答方法，将问题文本输入文本编码器，文本编码器可以进行文本特征识别、时间识别、人物识别和答案数量识别。如果根据时间识别确定问题文本中包括时间特征，则根据时间特征得到时间关联参数，从视频库中获取时间关联参数对应的第一视频。如果根据时间识别确定问题文本中不包括时间特征，则根据预置规则得到时间关联参数(确定时间关联参数为从问题文本的获取时刻之前的N个小时)，从视频库中获取时间关联参数对应的第一视频。其后，如果根据人物识别确定问题文本中包括目标人物，则确定目标人物对应的目标特征为人物关联参数，从第一视频中获取人物关联参数对应的第二视频。其后，根据语义关联参数(文本特征)，从第二视频中提取关联视频。其后，将关联视频进行分割，得到至少一个视频片段。其后，根据答案数量识别确定的答案数量，挑选至少一个视频片段中的与问题文本关联性更高的视频片段。最后根据VQA模型和是否包括隐私信息，展示问题答案。

如此，本申请实施例提供的视频问答方法，提出结合时间、人物、答案数量以及隐私的视频问答方案，能够快速定位问题文本对应的时间、人物的视频片段，并且能够根据文本语义准确输出一个或者多个答案，还能够识别文本和对应视频的隐私，支持身份校验。结合时间、目标人物以及文本语义相关性，对视频进行层层过滤，选取最相关的视频部分，能够快速响应，并且剔除了其它不相关干扰，能够准确回答问题。对筛选的视频部分按照时间间隔和语义相关性进行划分片段，因为问题可能包含多个时间段的答案，因此划分片段，对每一个片段进行回答，能够避免干扰，准确回答问题。根据文本识别答案的个数，进而按照时间维度选择视频片段进行回答，有些问题是有多个或者一个答案，因此能够选择最相关的片段去回答。

本申请实施例中还提供了一种视频问答装置，参见图17，该视频问答装置包括获取单元1701、分割单元1702和处理单元1703。

获取单元1701用于获取问题文本中的关联参数。例如执行前述实施例中的步骤S701。

获取单元1701用于获取关联参数对应的关联视频。例如执行前述实施例中的步骤S702。

分割单元1702用于将关联视频进行分割，得到至少一个视频片段。例如执行前述实施例中的步骤S703。

处理单元1703用于将至少一个视频片段和问题文本输入VQA模型，得出问题文本对应的问题答案，并展示问题答案。例如执行前述实施例中的步骤S704。

可以理解的是，为了实现上述功能，电子设备包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请实施例还提供一种电子设备，如图18所示，该电子设备可以包括一个或者多个处理器1001、存储器1002和通信接口1003。

其中，存储器1002、通信接口1003与处理器1001耦合。例如，存储器1002、通信接口1003与处理器1001可以通过总线1004耦合在一起。

其中，通信接口1003用于与其他设备进行数据传输。存储器1002中存储有计算机程序代码。计算机程序代码包括计算机指令，当计算机指令被处理器1001执行时，使得电子设备执行本申请实施例中的视频问答方法。

其中，处理器1001可以是处理器或控制器，例如可以是中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。

其中，总线1004可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。上述总线1004可以分为地址总线、数据总线、控制总线等。为便于表示，图18中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本申请实施例还提供一种计算机可读存储介质，该计算机存储介质中存储有计算机程序代码，当上述处理器执行该计算机程序代码时，电子设备执行上述方法实施例中的相关方法步骤。

本申请实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述方法实施例中的相关方法步骤。

其中，本申请提供的电子设备、计算机存储介质或者计算机程序产品均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种视频问答方法，其特征在于，应用于电子设备，所述方法包括：

获取目标视频和用户的问题信息；

获取所述问题信息中的至少一个关联参数，所述关联参数包括时间关联参数、对象关联参数和语义关联参数中的一个或多个；

根据所述至少一个关联参数，对所述目标视频进行分割，得到至少一个视频片段；

获取所述至少一个视频片段中，所述问题信息对应的问题答案；

展示所述问题答案。
根据权利要求1所述的方法，其特征在于，所述获取所述问题信息中的至少一个关联参数，包括：

将所述问题信息转换为问题文本；

对所述问题文本进行分词，得到词向量；

将所述词向量输入预置文本编码模型，得到文本特征；

提取所述文本特征中的时间特征和对象特征；

获取所述文本特征对应的语义关联参数，所述时间特征对应的时间关联参数，和所述对象特征对应的对象关联参数中的一个或多个。
根据权利要求2所述的方法，其特征在于，所述时间关联参数包括视频起始时刻和视频终止时刻；所述获取所述时间特征对应的时间关联参数，包括：

在所述时间特征为有效特征的情况下，根据预置映射规则，对所述时间特征对应的时间分词进行映射，确定所述视频终止时刻和所述视频起始时刻；

在所述时间特征为无效特征的情况下，确定所述视频终止时刻为：获取所述问题文本的时刻，确定所述视频起始时刻为：与所述视频终止时刻相距预置时长的时刻。
根据权利要求2或3所述的方法，其特征在于，所述对象特征为人物类别特征，所述获取所述对象特征对应的对象关联参数，包括：

根据所述问题文本，确定用户身份信息；

在预置身份关系表中，根据所述用户身份信息确定所述对象特征对应的目标人物；

将所述目标人物对应的目标特征，确定为所述对象关联参数，所述目标特征包括以下至少一项：图像特征、行为特征和声纹特征。
根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述至少一个关联参数，对所述目标视频进行分割，得到至少一个视频片段，包括：

获取所述目标视频中，所述至少一个关联参数对应的关联视频；

将所述关联视频进行分割，得到至少一个视频片段。
根据权利要求5所述的方法，其特征在于，所述获取所述目标视频中，所述至少一个关联参数对应的关联视频，包括：

根据所述时间关联参数，从所述目标视频中提取第一视频；

根据所述对象关联参数，从所述第一视频中提取第二视频；

根据所述语义关联参数，从所述第二视频中提取所述关联视频。
根据权利要求5或6所述的方法，其特征在于，所述将所述关联视频进行分割，得到至少一个视频片段，包括：

按照视频分割位置对所述关联视频进行分割，获取所述至少一个视频片段，其中，所述视频分割位置为：所述关联视频中录制时间差大于预置时间差的相邻视频帧所在的位置。
根据权利要求7所述的方法，其特征在于，所述按照视频分割位置对所述关联视频进行分割，获取所述至少一个视频片段之后，所述方法还包括：

在所述至少一个视频片段中的相邻视频片段的特征均值的特征相似度大于预置阈值的情况下，将所述相邻视频片段合并，重新生成所述至少一个视频片段。
根据权利要求8所述的方法，其特征在于，所述方法还包括：

提取所述文本特征中的答案数量特征；

获取所述答案数量特征对应的答案数量关联参数；

所述将所述关联视频进行分割，得到至少一个视频片段之后，所述方法还包括：

在所述答案数量关联参数为1的情况下，删除所述至少一个视频片段中除了第一视频片段以外的其他片段，所述第一视频片段为：所述至少一个视频片段中最后录制的视频片段。
根据权利要求9所述的方法，其特征在于，所述方法还包括：

提取所述文本特征中的答案序数特征；

获取所述答案序数特征对应的答案序数关联参数；

所述将所述关联视频进行分割，得到至少一个视频片段之后，所述方法还包括：

在所述答案数量关联参数为多，且，所述答案数量关联参数大于或等于所述答案序数关联参数的情况下，删除所述至少一个视频片段中除了第二视频片段以外的其他片段，其中，所述第二视频片段为所述至少一个视频片段中所述答案序数关联参数对应的视频片段，所述至少一个视频片段按照时间先后顺序排列。
一种电子设备，其特征在于，包括：存储器、一个或多个处理器；所述存储器与所述处理器耦合；其中，所述存储器中存储有计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述处理器执行时，使得所述电子设备执行如权利要求1-10任一项所述的视频问答方法。
一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-10任一项所述的视频问答方法。