WO2024124437A1

WO2024124437A1 - 视频数据的处理方法、装置、显示设备以及存储介质

Info

Publication number: WO2024124437A1
Application number: PCT/CN2022/139009
Authority: WO
Inventors: 姜庆兴; 高伟标
Original assignee: 惠州视维新技术有限公司
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2024-06-20

Abstract

本申请提供一种视频数据的处理方法、装置、显示设备以及存储介质。该方法通过构建与显示设备的显示屏幕匹配的弧面栅格，并获取显示屏幕与弧面栅格间的坐标转换关系；获取视频数据中的图像流以及音频流，根据图像流以及音频流识别音频流中不同音频元素对应声源对象在图像流中的运动轨迹坐标；根据声源对象的运动轨迹坐标以及坐标转换关系，获取各音频元素对应声源对象在弧面栅格上的空间轨迹坐标；基于图像流、音频流中各音频元素以及各音频元素对应声源对象的空间轨迹坐标，构建立体声视频。通过增加音频元素在弧面栅格的空间轨迹坐标，补全在垂直方向上音频声场信息，提升用户观看立体声视频时的沉浸感。

Description

视频数据的处理方法、装置、显示设备以及存储介质

技术领域

本申请涉及音视频数据处理技术领域，具体涉及一种视频数据的处理方法、装置、显示设备以及非易失性计算机可读存储介质(简称存储介质)。

背景技术

随着科技的发展，电视机等显示设备的显示屏幕越来越大，而显示设备的出声位置仍然设置于电视机的底部或两侧位置，而且现有大部分的视频数据中音频为双声道音频，显示屏在播放视频数据时在垂直方向上音频声场缺失，音频的空间感弱，难以与视频画面匹配，用户在使用显示设备过程中沉浸感低。

技术问题

本申请实施例提供一种视频数据的处理方法、装置、显示设备以及存储介质，用以提高音频的空间感以匹配视频画面。

技术解决方案

本申请实施例提供了一种视频数据的处理方法，应用于显示设备，该方法包括：

构建与显示设备的显示屏幕匹配的弧面栅格，并获取显示屏幕与弧面栅格间的坐标转换关系；

获取视频数据中的图像流以及音频流，根据图像流以及音频流识别音频流中不同音频元素对应声源对象在图像流中的运动轨迹坐标；

根据声源对象的运动轨迹坐标以及坐标转换关系，获取各音频元素对应声源对象在弧面栅格上的空间轨迹坐标；及

基于图像流、音频流中各音频元素以及各音频元素对应声源对象的空间轨迹坐标，构建立体声视频。

本申请提供一种视频数据的处理装置，应用于显示设备，该装置包括：

弧面栅格构建模块，用于构建与显示设备的显示屏幕匹配的弧面栅格，并获取显示屏幕与弧面栅格间的坐标转换关系；

运动轨迹获取模块，用于获取视频数据中的图像流以及音频流，根据图像流以及音频流识别音频流中不同音频元素对应声源对象在图像流中的运动轨迹坐标；

空间轨迹获取模块，用于根据声源对象的运动轨迹坐标以及坐标转换关系，获取各音频元素对应声源对象在弧面栅格上的空间轨迹坐标；及

立体声视频构建模块，用于基于图像流、音频流中各音频元素以及各音频元素对应声源对象的空间轨迹坐标，构建立体声视频。

本申请实施例还提供一种显示装置，该显示装置包括：一个或多个处理器；存储器；以及一个或多个计算机可读指令，其中一个或多个计算机可读指令被存储于存储器中，并配置为由处理器执行以实现以下步骤：

本申请实施例还提供一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

有益效果

本申请的有益效果为：通过构建与显示设备的显示屏幕匹配的弧面栅格，在获取到音频流中各个音频元素对应声源对象在图像流中的运行轨迹坐标后，基于运动轨迹坐标确定各个音频元素在对应弧面栅格的空间轨迹坐标，最终基于各个音频元素在对应弧面栅格的空间轨迹坐标构建包含空间音频的立体声视频，相较于原有的音频流，通过弧面栅格的空间轨迹坐标补全音频流在垂直方向上音频声场信息，使得立体声视频中的音频的空间感匹配视频画面，提升用户观看立体声视频时的沉浸感。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据一个或多个实施例中视频数据的处理方法的应用场景图。

图2是根据一个或多个实施例中视频数据的处理方法的流程示意图。

图3是根据一个或多个实施例中显示屏幕与弧面栅格的示意图。

图4A是根据一个或多个实施例中音频元素对应声源对象的运动轨迹坐标获取步骤的流程示意图。

图4B是根据一个或多个实施例中音频元素对应声源对象的运动轨迹坐标获取步骤的另一个示意图。

图5A是根据一个或多个实施例中音频元素对应声源对象的运动轨迹坐标的又一个示意图。

图5B根据一个或多个实施例中音频元素对应声源对象的运动轨迹坐标的再一个示意图。

图6是根据一个或多个实施例中视频数据的处理装置的结构示意图。

图7是根据一个或多个实施例中计算机设备的结构示意图。

本发明的实施方式

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请的描述中，“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

本申请提供的视频数据的处理方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与服务器120通过网络进行通信，以接收服务器120发送的视频数据，同时，终端110构建与显示屏幕匹配的弧面栅格，并获取显示屏幕与弧面栅格间的坐标转换关系，获取视频数据中的图像流以及音频流，根据图像流以及音频流识别音频流中不同音频元素对应声源对象在图像流中的运动轨迹坐标，根据声源对象的运动轨迹坐标以及坐标转换关系，获取各音频元素对应声源对象在弧面栅格上的空间轨迹坐标，最终，基于图像流、音频流中各音频元素以及各音频元素对应声源对象的空间轨迹坐标，构建立体声视频。其中，终端110是带有显示屏幕的计算机设备，可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120 可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

参阅图2，本申请实施例提供了一种视频数据的处理方法，主要以该方法应用于如图1所示的终端110来举例说明，该方法包括步骤S210至S240，具体如下：

步骤S210，构建与显示设备的显示屏幕匹配的弧面栅格，并获取显示屏幕与弧面栅格间的坐标转换关系。

其中，弧面栅格为基于显示设备的显示屏幕所在平面构建的虚拟栅格，用于模拟音频元素对应声源对象的空间位置，以补全音频元素在垂直方向上的声场信息。其中，显示屏幕与弧面栅格间的坐标转换关系，是指显示屏幕对应的二维坐标与弧面栅格对应三维坐标间的转换关系。可以理解的是，相较于显示屏幕对应二维坐标，弧面栅格对应三维坐标增加了垂直方向上的坐标信息。

具体地，构建与显示设备的显示屏幕匹配的弧面栅格，可以是基于显示设备的显示屏幕构建一个球面，进而，以显示屏幕所在的半球对应的球面作为弧面栅格，并基于球面坐标表达式获取显示屏幕与弧面栅格间的坐标转换关系。

例如，以显示设备是电视机为例，电视机的显示屏幕的尺寸一般为16:9，去显示屏幕的高为9个单位、宽为16个单位，按照最佳观影长度比，显示屏幕与观众间的距离设置为70个单位，因此，可以基于显示屏幕(假设其坐标信息为(0,0,0))以及观众所在位置信息(假设坐标信息为(0,0,-70))，构建以观众所在位置信息为球面中心且经过显示屏幕对于的顶点的球面，并将显示屏幕所在的半球对应的球面作为弧面栅格；参见图3，图3中二维平面310为显示屏幕，三维平面320为与显示屏幕匹配的弧面栅格。

步骤S220，获取视频数据中的图像流以及音频流，根据图像流以及音频流识别音频流中不同音频元素对应声源对象在图像流中的运动轨迹坐标。

其中，视频数据是指显示设备实时接收到的视频内容，图像流是指视频数据中的画面数据，音频流是指视频数据中的音频数据。具体地，显示设备在接收到视频数据后，可将视频数据中的图像数据以及音频数据进行分离，得到图像流以及音频流，便于后续分别对图像流以及音频流进行处理。

音频流中往往包括一个或多个不同的音频元素对应的音频元素，声源对象是指音频元素在图像流中各个帧图像中的发声对象。例如，当音频流中包括有人物声音，则音频流中包括有人物声音元素；当音频流中包括有汽车引擎声，则音频流中包括有汽车声音元素。具体地，显示设备获取到音频流后，可采用音频元素分离技术，对音频流中的音频元素进行分离，以获取音频流中的多个独立的音频元素；可理解的是，音频元素分离技术包括但不限于人声分离技术、乐器声分离技术等。

其中，音频元素的声源对象是指在图像流的帧图像中，音频元素对应的发声对象或发声点；运动轨迹坐标是指音频元素对应声源对象在图像流中的移动轨迹，例如，音频元素对应声源对象在图像流中第一帧帧图像的左下角，在图像流的第三帧帧图像的右上角，则音频元素对应声源对象在第一帧帧图像至第三帧帧图像的图像流中的运动轨迹坐标为从左下角的坐标点移动至右上角的坐标点；更具体地，运动轨迹坐标可以包括声源对象在图像流中各个帧图像的图像坐标。

具体地，在获取到视频数据中的音频流以及图像流后，针对音频流中的任意一个音频元素，可以识别该音频元素对应声源对象在图像流中各个帧图像中的图像坐标，进而基于该音频元素对应声源对象在各个帧图像对应的图像坐标获取其在图像流中的运动轨迹坐标。

步骤S230，根据声源对象的运动轨迹坐标以及坐标转换关系，获取各音频元素对应声源对象在弧面栅格上的空间轨迹坐标。

其中，空间轨迹坐标是指音频元素对应声源对象在弧面栅格上的坐标信息，可以理解的是，相较于运动轨迹坐标，空间轨迹坐标补充了音频元素对应声源对象在垂直方向上声场信息。

在确定到声源对象的运行轨迹坐标后，具体可以基于显示屏幕的二维平面坐标与弧面栅格的三维平面坐标间的坐标转换关系，将运动轨迹坐标中与各个帧图像对应的图像坐标转换为弧面栅格上的空间坐标，获得在弧面栅格上的空间轨迹坐标。

步骤S240，基于图像流、音频流中各音频元素以及各音频元素对应声源对象的空间轨迹坐标，构建立体声视频。

在获取到音频流中各个音频元素对应声源对象的空间轨迹坐标后，可基于各个音频元素对应声源对象的控件轨迹坐标，对各个音频元素的音频数据进行音频渲染处理，以获得立体声音频数据，进而结合立体声音频数据以及图像流，生成立体声视频。

上述视频数据的处理方法中，通过构建与显示设备的显示屏幕匹配的弧面栅格，并获取显示屏幕与弧面栅格间的坐标转换关系，然后，获取视频数据中的图像流以及音频流，根据图像流以及音频流识别音频流中不同音频元素对应声源对象在图像流中的运动轨迹坐标，根据声源对象的运动轨迹坐标以及坐标转换关系，获取各音频元素对应声源对象在弧面栅格上的空间轨迹坐标；基于图像流、音频流中各音频元素以及各音频元素对应声源对象的空间轨迹坐标，构建立体声视频。通过构建与显示设备的显示屏幕匹配的弧面栅格，在获取到音频流中各个音频元素对应声源对象在图像流中的运行轨迹坐标后，基于运动轨迹坐标确定各个音频元素在对应弧面栅格的空间轨迹坐标，最终基于各个音频元素在对应弧面栅格的空间轨迹坐标构建包含空间音频的立体声视频，相较于原有的音频流，通过弧面栅格的空间轨迹坐标补全音频流在垂直方向上音频声场信息，使得立体声视频中的音频的空间感匹配视频画面，提升用户观看立体声视频时的沉浸感。

在其中一个实施例中，参见图4A以及图4B，如图4A所示，根据图像流以及音频流识别音频流中不同音频元素对应声源对象在图像流中的运动轨迹坐标的步骤，包括：

S410，对音频流进行音频数据分离，得到音频元素。

其中，可采用音频元素分离技术，对音频流中的音频元素进行分离，以获取音频流中的多个独立的音频元素；可理解的是，音频元素分离技术包括但不限于人声分离技术、乐器声分离技术等。

S420，针对音频流中的目标音频元素，在图像流中截取与目标音频元素同步的第一图像流。

其中，在获取到音频流中的音频元素后，可依次将任意音频元素作为目标音频元素，以进行后续的处理。可以理解的是，当存在音频元素时才可能在图像流中定位音频元素对应声源对象的声源位置信息，因此，在获取到目标音频元素后，可先获取在目标音频元素持续时间段内的图像流，即获取与目标音频元素同步的第一图像流。

S430，将目标音频元素以及第一图像流的各个帧图像输入至声源定位模型，获取目标音频元素对应声源对象在各帧图像中的声源位置坐标。

其中，声源定位模型为已经过训练模型，用于在第一图像流的帧图像中预测目标音频元素对应声源对象的位置信息。可以理解的是，声源定位模型可以是神经网络模型、机器学习模型等。

在获取到目标音频元素以及目标音频元素对应的第一图像流后，可以将目标音频元素以及第一图像流中的各个帧图像输入至声源定位模块中，通过声源定位模型在帧图像中预测目标音频元素对应声源对象所在的预测位置坐标以及各个预测位置对应的置信度，进而基于各个预测位置坐标及其置信度从预测位置中确定目标音频元素对应声源对象的声源位置坐标。

在其中一个实施例中，将目标音频元素以及第一图像流的各个帧图像输入至声源定位模型，获取目标音频元素对应声源对象在各帧图像中的声源位置坐标的步骤，具体可以包括：从第一图像流中获取当前预测步序对应的目标帧图像以及历史帧图像；将目标音频元素以及历史帧图像输入至声源定位模型，获取目标音频元素对应声源对象在目标帧图像中不同预测区域的置信度；若各预测区域的置信度中的最大置信度大于预设置信度阈值，根据最大置信度对应的预测区域的位置信息确定目标音频元素对应声源对象在目标帧图像的声源位置坐标；若各预测区域的置信度中的最大置信度小于或等于预设置信度阈值，将目标音频元素对应声源对象在目标帧图像的声源位置坐标置为空值。

可以理解的是，声源定位模型是对第一图像流中的帧图像进行逐帧处理，即声源定位模型在每一个预测步序预测目标音频元素在一个帧图像中声源对象的位置信息。其中，当前预测步的目标帧图像是指第一图像流中声源定位模型当前处理的帧图像，历史帧图像是指第一图像流中目标帧图像对应的历史时间段的帧图像。例如，当前预测步的目标帧图像为第一图像流中第n帧的帧图像，该目标帧图像对应的历史帧图像可以是第一图像流中第(n-5)帧的帧图像至第(n-1)帧的帧图像。

其中，预测区域是指在当前帧图像中，可能为目标音频元素对应声源对象所处的位置，即目标音频元素的声源位置；预测区域的置信度是指预测区域为目标音频元素对应声源对象所处位置的概率值。具体地，在获取到历史帧图像后，可以将历史帧图像输入至声源定位模型中，通过声源定位模型预测目标音频元素在当前帧图像中的预测区域，以及各个预测区域的置信度。

确定各个预测区域中置信度最大的目标预测区域，当目标预测区域的置信度大于预设置信度阈值，将该目标预测区域确定为目标音频元素对应声源对象的声源位置，当目标预测区域的置信度小于或等于预设置信度阈值，则目标帧图像中所有预测区域的置信度均小于或等于预设置信度阈值，确定目标帧图像中无目标音频元素对应声源对象的声源位置，将目标音频元素对应声源对象在目标帧图像的声源位置信息置为空值。

可以理解的是，当目标音频元素对应声源对象在第一图像流中的所有帧图像的声源位置信息置均为空值时，目标音频元素为背景音频，后续不对该目标音效元素进行处理。

S440，根据在第一图像流各帧图像中的声源位置坐标确定音频元素对应声源对象在第一图像流中的运动轨迹坐标。

在获取到目标音频元素对应声源对象在第一图像流各个帧图像中的声源位置坐标后，可以将各个帧图像对应的声源位置坐标确定为音频元素对应声源对象在第一图像流中的运动轨迹坐标。

考虑到视频数据中可能存在上一帧帧图像中存在目标音频元素对应声源对象，而当前帧图像不存在目标音频元素对应声源对象，但下一帧帧图像中再次出现目标音频元素对应声源对象的情况，为了保证目标音频元素的运动轨迹的连续性，在其中一个实施例中，根据在各帧图像中的声源位置坐标确定目标音频元素对应声源对象在图像流中的运动轨迹坐标的步骤，包括：获取目标音频元素对应声源对象声源位置坐标为空值的无效帧图像；若无效帧图像中包括数量小于预设数值的连续无效帧图像，根据目标音频元素对应声源对象在前序帧图像的声源位置坐标以及在后序帧图像中的声源位置坐标，获取在无效帧图像中的声源位置坐标。

其中，前序帧图像是指无效帧图像对应的前序时刻的帧图像，后续帧图像是指无效帧图像对应的后序时刻的帧图像；例如，无效帧图像为(n-1)时刻、n时刻以及(n+1)时刻的帧图像，则无效帧图像对应的前序帧图像是指(n-2)时刻的帧图像，无效帧图像对应的后序帧图像是指(n+2)时刻的帧图像。

具体地，获取声源位置坐标为空值的无效帧图像，并获取所有无效帧图像中为连续的无效帧图像，当连续的无效帧图像的数量大于或等于预设数值，则确定该目标音频元素在连续的无效帧图像对应的时间段内为背景音频；当连续的无效帧图像的数量小于预设数值，则确定该目标音频元素在连续的无效帧图像对应时间内非背景音频，此时可以基于目标音频元素对应声源对象在前序帧图像的声源位置坐标以及在后序帧图像中的声源位置坐标，通过插值算法计算在无效帧图像中的声源位置坐标。

通过目标音频元素在前序帧图像中的声源位置坐标以及后序帧图像中的声源位置坐标，预测目标音频元素在无效帧图像中的声源位置坐标，以补全在第一图像流中的运行轨迹坐标，保证目标音频元素的运动轨迹坐标的完整性，后续基于目标音频元素的运动轨迹坐标实现立体声对象化，可有效提高目标音频元素的真实性。

参见图4B，图4B示出了不同音频元素对应声源对象在图像流中的运动轨迹坐标的获取过程，具体地，在接收到视频数据后，可在CPU处进行解码，以获取音频流以及图像流。进而，将音频流以及与音频流同步的第一图像流输入至声源定位模型中，通过声源定位模型在第一图像流中的各个帧图像中标记音频元素对应声源对象的声源位置坐标，最终基于音频元素对应声源对象在各个帧图像中的声源位置坐标，确定音频元素对应声源对象在第一图像流中的运动轨迹坐标。

在其中一个实施例中，参见图5A以及图5B，如图5A所示，根据图像流以及音频流识别音频流中不同音频元素对应声源对象在图像流中的运动轨迹坐标的步骤，包括：

步骤S510，对音频流进行音频元素分离得到多个音频元素，并识别各音频元素对应声源对象的声源对象类型。

其中，声源对象类型是指发出音频元素的物体等对象的类型，包括但不限于人像类型、乐器类型、动物类型、机械类型等。具体地，可采用音频元素分离技术，对音频流中的音频元素进行分离，以获取音频流中的多个独立的音频元素；在获取到各个音频元素后，可通过声源对象识别模型，识别音频元素对应声源对象的声源对象类型，其中，对象识别模型可以是预先训练好的、用于识别不同音频元素对应声源对象的声源对象类型的神经网络模型。

步骤S520，识别图像流中每个帧图像中的各个图像元素的平面坐标以及图像元素类型，并根据各图像元素在各帧图像中的平面坐标，获取各图像元素在图像流中的轨迹信息。

其中，图像元素是指帧图像中的不同物体，包括但不限于人像、乐器、动物、机械等；平面坐标是指图像元素在帧图像中的位置信息；图像元素类型是指用于标识图像元素对应的物体类型的信息。具体地，可以通过图像元素识别模型，识别帧图像中各个图像元素的所在位置信息(即平面坐标)及其类别信息(即图像元素类型)。其中，图像元素识别模型可以是预先训练好的、用于物体检测的神经网络模型。

在获取到不同图像元素在图像流中各个帧图像的平面坐标后，基于在各个帧图像中的平面坐标确定不同图像元素在图像流中的运动信息。

步骤S530，针对音频流中的目标音频元素，根据目标音频元素对应声源对象的声源对象类型以及各图像元素的图像元素类型，从图像元素中确定与目标音频元素对应声源对象匹配的目标图像元素。

在确定到音频元素后，依次任意音频元素确定为目标音频元素，进而在各个图像元素中确定与该目标音频元素对应的目标图像元素；具体地，可以将目标音频元素对应声源对象的声源对象类型与各个图像元素的图像元素类型进行匹配，若目标音频元素的声源对象类型与某个图像元素类型相同，则可以确定该图像元素类型对应的图像元素为目标音频元素的目标图像元素，即该图像元素为发出目标音频元素的物体。

步骤S540，若目标音频元素对应声源对象匹配到目标图像元素，根据目标图像元素的轨迹信息生成目标音频元素对应声源对象在图像流中的运动轨迹坐标。

在确定到目标音频元素对应声源对象匹配到目标图像元素后，将目标图像元素在图像流中的轨迹信息确定为目标音频元素对应声源对象在图像流中的运动轨迹坐标。

进一步地，若目标音频元素对应声源对象匹配不到目标图像元素，则目标音频元素为背景音频。

通过对音频数据以及图像数据解耦，分别识别不同音频元素的声源对象类型以及帧图像中不同图像元素的图像元素类型，进而基于声源对象类型以及图像元素类型确定与各个音频元素对应的图像元素，将对应图像元素的轨迹信息确定为音频元素对应声源对象在图像流中的运动轨迹坐标，可提高目标音频元素对应声源对象在图像流中的运动轨迹坐标的确定效率以及准确性。

参见图5B，图5B示出了不同音频元素对应声源对象在图像流中的运动轨迹坐标的获取过程，具体地，在接受到视频数据后，可在CPU处进行解码，以获取音频流以及图像流。进而，针对音频流，通过用于音频元素分离的神经网络模型对音频流进行音频元素分离为多个预设声源对象类型的音频元素，并标注各音频元素对应声源对象的声源对象类型，其中，声源对象类型包括人声、乐器、动物、机械以及其他等类型。针对图像流，通过用于物体检测的神经网络模型识别每个帧图像中的多个预设图像元素类型的图像元素，并标注图像元素在各个图像元素的平面坐标以及图像元素类型，其中，图像元素类型包括人像、乐器、动物以及机械品等类型。最后，通过元素匹配模块基于音频元素对应的声源对象类型和图像元素对应的图像元素类型，对音频元素与图像元素进行一一匹配，即可得到不同音频元素对应的图像元素，例如人声匹配人像、机械声匹配机械品等，进而基于音频元素对应的图像元素在各个图像元素的平面坐标，确定音频元素对应声源对象在图像流中的运动轨迹坐标。

在其中一个实施例中，构建与显示设备的显示屏幕匹配的弧面栅格的步骤，具体包括：基于预设的放大参数对显示屏幕对应的等效平面进行放大处理，得到基准二维平面，并基于显示屏幕的屏幕中心确定基准二维屏幕的基准原点；以基准二维平面的基准原点以及预设圆心距离构建球面栅格，将基准二维平面所在的半球面对应的球面栅格确定为弧面栅格。

其中，基准二维平面是指对显示屏幕对应的等效平面进行缩放后的基准二维平面，具体地，可以以显示屏幕对应的等效平面的平面中心为中心点，基于预设的放大参数对显示屏幕的等效平面进行放大处理；仍然以显示设备是电视机为例，电视机的显示屏幕的高为9乘16的平面，可以对显示屏幕的等效平面进行放大处理以获取20乘20的平面作为基准二维平面。

其中，预设圆心距离可以根据最佳观影长度比进行设置；例如，显示屏幕为电视机的显示屏幕，其尺寸为16:9，则预设圆心距离可以设置为70。

具体地，在确定到基准二维平面后，根据基准二维平面的基准原点以及预设圆心距离构建球面栅格；例如，假设预设球心距离为70，球心坐标为(0,0,0)，则基准二维平面的基准原点(即显示屏幕的屏幕中心)的坐标信息为(0,0,70)，进而以球心坐标构建一个经过基准二维平面四个顶点的球面栅格，并将基准二维平面所在的半球面的球面栅格确定为弧面栅格。仍然参见图3，图3中二维平面310为显示屏幕，二维平面330为与基准二维平面，三维平面320为弧面栅格。

在其中一个实施例中，根据声源对象的运动轨迹坐标以及坐标转换关系，获取各音频元素对应声源对象在弧面栅格上的空间轨迹坐标的步骤，包括：根据放大参数对运动轨迹坐标进行缩放处理，获取各音频元素对应声源对象在基准二维平面上的目标轨迹坐标；根据目标轨迹坐标，计算音频元素对应声源对象在弧面栅格的上的空间轨迹坐标。

在获取到不同音频元素对应声源对象在图像流中的运动轨迹坐标后，可以先基于预设的放大参数，计算音频元素对应声源对象在基准二维平面上的目标轨迹坐标，即音频元素对应声源对象在弧面栅格上X轴以及Y轴的坐标；进而，可基于下述式(1)计算音频元素对应声源对象在弧面栅格中垂直方向上的取值，即得到音频元素对应声源对象在弧面栅格上Z轴上的坐标值：

其中，X _sp、Y _sp为音频元素对应声源对象在弧面栅格(或者说基准二维平面)上的X轴以及Y轴的坐标；Z _sp为音频元素对应声源对象在弧面栅格上的Z轴的坐标。

通过将运动轨迹坐标中与各个帧图像对应的图像坐标转换为弧面栅格上的空间坐标，获得在弧面栅格上的空间轨迹坐标，并基于空间轨迹坐标定位音频元素所在位置，补全垂直方向上的声场信息。

应该理解的是，虽然图2、图4以及图5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图4以及图5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

为了更好实施本申请实施例提供的视频数据的处理方法，在本申请实施例所提视频数据的处理方法的基础之上，本申请实施例中还提供一种视频数据的处理装置，如图6所示，视频数据的处理装置600包括：

弧面栅格构建模块610，用于构建与显示设备的显示屏幕匹配的弧面栅格，并获取显示屏幕与弧面栅格间的坐标转换关系；

运动轨迹获取模块620，用于获取视频数据中的图像流以及音频流，根据图像流以及音频流识别音频流中不同音频元素对应声源对象在图像流中的运动轨迹坐标；

空间轨迹获取模块630，用于根据声源对象的运动轨迹坐标以及坐标转换关系，获取各音频元素对应声源对象在弧面栅格上的空间轨迹坐标；

立体声视频构建模块640，用于基于图像流、音频流中各音频元素以及各音频元素对应声源对象的空间轨迹坐标，构建立体声视频。

在本申请一些实施例中，运动轨迹获取模块620，用于对音频流进行音频数据分离，得到音频元素；针对音频流中的目标音频元素，在图像流中截取与目标音频元素同步的第一图像流；将目标音频元素以及第一图像流的各个帧图像输入至声源定位模型，获取目标音频元素对应声源对象在各帧图像中的声源位置坐标；根据在第一图像流各帧图像中的声源位置坐标确定目标音频元素对应声源对象在第一图像流中的运动轨迹坐标。

在本申请一些实施例中，运动轨迹获取模块620，用于从第一图像流中获取当前预测步序对应的目标帧图像以及历史帧图像；将目标音频元素以及历史帧图像输入至声源定位模型，获取目标音频元素对应声源对象在目标帧图像中不同预测区域的置信度；若各预测区域的置信度中的最大置信度大于预设置信度阈值，根据最大置信度对应的预测区域的位置信息确定目标音频元素对应声源对象在目标帧图像的声源位置坐标；若各预测区域的置信度中的最大置信度小于或等于预设置信度阈值，将目标音频元素对应声源对象在目标帧图像的声源位置坐标置为空值。

在本申请一些实施例中，运动轨迹获取模块620，用于获取目标音频元素对应声源对象声源位置坐标为空值的无效帧图像；若无效帧图像中包括数量小于预设数值的连续无效帧图像，根据目标音频元素对应声源对象在前序帧图像的声源位置坐标以及在后序帧图像中的声源位置坐标，获取在无效帧图像中的声源位置坐标。

在本申请一些实施例中，运动轨迹获取模块620，用于对音频流进行音频元素分离得到多个音频元素，并识别各音频元素对应声源对象的声源对象类型；识别图像流中每个帧图像中的各个图像元素的平面坐标以及图像元素类型，并根据各图像元素在各帧图像中的平面坐标，获取各图像元素在图像流中的轨迹信息；针对音频流中的目标音频元素，根据目标音频元素对应声源对象的声源对象类型以及各图像元素的图像元素类型，从图像元素中确定与目标音频元素对应声源对象匹配的目标图像元素；若目标音频元素对应声源对象匹配到目标图像元素，根据目标图像元素的轨迹信息生成目标音频元素对应声源对象在图像流中的运动轨迹坐标。

在本申请一些实施例中，弧面栅格构建模块610，用于基于预设的放大参数对显示屏幕对应的等效平面进行放大处理，得到基准二维平面，并基于显示屏幕的屏幕中心确定基准二维屏幕的基准原点；以基准二维平面的基准原点以及预设圆心距离构建球面栅格，将基准二维平面所在的半球面对应的球面栅格确定为弧面栅格。

在本申请一些实施例中，空间轨迹获取模块630，用于根据放大参数对运动轨迹坐标进行缩放处理，获取各音频元素对应声源对象在基准二维平面上的目标轨迹坐标；根据目标轨迹坐标，计算音频元素对应声源对象在弧面栅格的上的空间轨迹坐标。

关于视频数据的处理装置的具体限定可以参见上文中对于视频数据的处理方法的限定，在此不再赘述。上述视频数据的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请一些实施例中，视频数据的处理装置600可以实现为一种计算机可读指令的形式，计算机可读指令可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成该视频数据的处理装置600的各个程序模块，比如，图9所示的弧面栅格构建模块610、运动轨迹获取模块620、空间轨迹获取模块630以及立体声视频构建模块640。各个程序模块构成的计算机可读指令使得处理器执行本说明书中描述的本申请各个实施例的视频数据的处理方法中的步骤。

例如，图7所示的计算机设备可以通过如图6所示的视频数据的处理装置600中的弧面栅格构建模块610执行步骤S210。计算机设备可通过运动轨迹获取模块620执行步骤S220。计算机设备可通过空间轨迹获取模块630执行步骤S230。计算机设备可通过立体声视频构建模块640执行步骤S240。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机可读指令被处理器执行时以实现一种视频数据的处理方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请一些实施例中，提供了一种显示设备，包括一个或多个处理器；存储器；以及一个或多个计算机可读指令，其中一个或多个计算机可读指令被存储于存储器中，并配置为由处理器执行以下步骤：

根据声源对象的运动轨迹坐标以及坐标转换关系，获取各音频元素对应声源对象在弧面栅格上的空间轨迹坐标；

在本申请一些实施例中，提供了一种非易失性计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器进行加载，使得处理器执行以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上对本申请实施例所提供的一种视频数据的处理方法、装置、显示设备以及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种视频数据的处理方法，其特征在于，应用于显示设备，所述方法包括：

构建与所述显示设备的显示屏幕匹配的弧面栅格，并获取所述显示屏幕与所述弧面栅格间的坐标转换关系；

获取视频数据中的图像流以及音频流，根据所述图像流以及所述音频流识别所述音频流中不同音频元素对应声源对象在所述图像流中的运动轨迹坐标；

根据所述声源对象的运动轨迹坐标以及所述坐标转换关系，获取各所述音频元素对应声源对象在所述弧面栅格上的空间轨迹坐标；

基于所述图像流、所述音频流中各所述音频元素以及各所述音频元素对应声源对象的空间轨迹坐标，构建立体声视频。
根据权利要求1所述的方法，其特征在于，所述根据所述图像流以及所述音频流识别所述音频流中不同音频元素对应声源对象在所述图像流中的运动轨迹坐标的步骤，包括：

对所述音频流进行音频数据分离，得到音频元素；

针对所述音频流中的目标音频元素，在所述图像流中截取与所述目标音频元素同步的第一图像流；

将所述目标音频元素以及所述第一图像流的各个帧图像输入至声源定位模型，获取所述目标音频元素对应声源对象在各所述帧图像中的声源位置坐标；

根据在所述第一图像流各所述帧图像中的声源位置坐标确定所述目标音频元素对应声源对象在所述第一图像流中的运动轨迹坐标。
根据权利要求2所述的方法，其特征在于，所述将所述目标音频元素以及所述第一图像流的各个帧图像输入至声源定位模型，获取所述目标音频元素对应声源对象在各所述帧图像中的声源位置坐标的步骤，包括：

从所述第一图像流中获取当前预测步序对应的目标帧图像以及历史帧图像；

将所述目标音频元素以及所述历史帧图像输入至声源定位模型，获取所述目标音频元素对应声源对象在目标帧图像中不同预测区域的置信度；

若各所述预测区域的置信度中的最大置信度大于预设置信度阈值，根据所述最大置信度对应的预测区域的位置信息确定所述目标音频元素对应声源对象在目标帧图像的声源位置坐标；

若各所述预测区域的置信度中的最大置信度小于或等于预设置信度阈值，将所述目标音频元素对应声源对象在目标帧图像的声源位置坐标置为空值。
根据权利要求3所述的方法，其特征在于，所述根据在所述第一图像流各所述帧图像中的声源位置坐标确定所述目标音频元素对应声源对象在所述第一图像流中的运动轨迹坐标的步骤，包括：

获取所述目标音频元素对应声源对象声源位置坐标为空值的无效帧图像；

若所述无效帧图像中包括数量小于预设数值的连续无效帧图像，根据所述目标音频元素对应声源对象在前序帧图像的声源位置坐标以及在后序帧图像中的声源位置坐标，获取在所述无效帧图像中的声源位置坐标。
根据权利要求1所述的方法，其特征在于，所述根据所述图像流以及所述音频流识别所述音频流中不同音频元素对应声源对象在所述图像流中的运动轨迹坐标的步骤，包括：

对所述音频流进行音频元素分离得到多个音频元素，并识别各所述音频元素对应声源对象的声源对象类型；

识别所述图像流中每个帧图像中的各个图像元素的平面坐标以及图像元素类型，并根据各所述图像元素在各所述帧图像中的平面坐标，获取各所述图像元素在所述图像流中的轨迹信息；

针对所述音频流中的目标音频元素，根据所述目标音频元素对应声源对象的声源对象类型以及各所述图像元素的图像元素类型，从所述图像元素中确定与所述目标音频元素对应声源对象匹配的目标图像元素；

若所述目标音频元素对应声源对象匹配到目标图像元素，根据所述目标图像元素的轨迹信息生成所述目标音频元素对应声源对象在所述图像流中的运动轨迹坐标。
根据权利要求1所述的方法，其特征在于，所述构建与所述显示设备的显示屏幕匹配的弧面栅格的步骤，包括：

基于预设的放大参数对所述显示屏幕对应的等效平面进行放大处理，得到基准二维平面，并基于所述显示屏幕的屏幕中心确定所述基准二维屏幕的基准原点；

以所述基准二维平面的基准原点以及预设圆心距离构建球面栅格，将所述基准二维平面所在的半球面对应的球面栅格确定为弧面栅格。
根据权利要求6所述的方法，其特征在于，所述根据所述声源对象的运动轨迹坐标以及所述坐标转换关系，获取各所述音频元素对应声源对象在所述弧面栅格上的空间轨迹坐标的步骤，包括：

根据所述放大参数对所述运动轨迹坐标进行缩放处理，获取各所述音频元素对应声源对象在基准二维平面上的目标轨迹坐标；

根据目标轨迹坐标，计算音频元素对应声源对象在弧面栅格的上的空间轨迹坐标。
根据权利要求1所述的方法，其特征在于，基于所述图像流、所述音频流中各所述音频元素以及各所述音频元素对应声源对象的空间轨迹坐标，构建立体声视频的步骤，包括：

基于各所述音频元素对应声源对象的控件轨迹坐标，对各所述音频元素进行音频渲染处理，获得立体声音频数据；

结合立体声音频数据以及所述图像流，生成立体声视频。
一种视频数据的处理装置，其特征在于，应用于显示设备，所述装置包括：

弧面栅格构建模块，用于构建与所述显示设备的显示屏幕匹配的弧面栅格，并获取所述显示屏幕与所述弧面栅格间的坐标转换关系；

运动轨迹获取模块，用于获取视频数据中的图像流以及音频流，根据所述图像流以及所述音频流识别所述音频流中不同音频元素对应声源对象在所述图像流中的运动轨迹坐标；

空间轨迹获取模块，用于根据所述声源对象的运动轨迹坐标以及所述坐标转换关系，获取各所述音频元素对应声源对象在所述弧面栅格上的空间轨迹坐标；

立体声视频构建模块，用于基于所述图像流、所述音频流中各所述音频元素以及各所述音频元素对应声源对象的空间轨迹坐标，构建立体声视频。
一种显示设备，其特征在于，所述显示设备包括：

一个或多个处理器；

存储器；以及

一个或多个计算机可读指令，其中所述一个或多个计算机可读指令被存储于所述存储器中，并配置为由所述处理器执行以实现以下步骤：

构建与所述显示设备的显示屏幕匹配的弧面栅格，并获取所述显示屏幕与所述弧面栅格间的坐标转换关系；

获取视频数据中的图像流以及音频流，根据所述图像流以及所述音频流识别所述音频流中不同音频元素对应声源对象在所述图像流中的运动轨迹坐标；

根据所述声源对象的运动轨迹坐标以及所述坐标转换关系，获取各所述音频元素对应声源对象在所述弧面栅格上的空间轨迹坐标；

基于所述图像流、所述音频流中各所述音频元素以及各所述音频元素对应声源对象的空间轨迹坐标，构建立体声视频。
一种非易失性计算机可读存储介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令被处理器进行加载，以执行以下步骤：

构建与所述显示设备的显示屏幕匹配的弧面栅格，并获取所述显示屏幕与所述弧面栅格间的坐标转换关系；

获取视频数据中的图像流以及音频流，根据所述图像流以及所述音频流识别所述音频流中不同音频元素对应声源对象在所述图像流中的运动轨迹坐标；

根据所述声源对象的运动轨迹坐标以及所述坐标转换关系，获取各所述音频元素对应声源对象在所述弧面栅格上的空间轨迹坐标；

基于所述图像流、所述音频流中各所述音频元素以及各所述音频元素对应声源对象的空间轨迹坐标，构建立体声视频。