WO2023142266A1

WO2023142266A1 - 远程交互方法、远程交互设备以及计算机存储介质

Info

Publication number: WO2023142266A1
Application number: PCT/CN2022/084908
Authority: WO
Inventors: 张世明; 张正道; 倪世坤; 李达钦; 陈永金
Original assignee: 深圳壹秘科技有限公司
Priority date: 2022-01-29
Filing date: 2022-04-01
Publication date: 2023-08-03
Also published as: CN114594892A; CN114594892B

Abstract

一种远程交互方法、远程交互设备以及计算机存储介质，其中，该方法包括：获取目标空间内声源对象的发声范围，获取所述目标空间的全景视频（S10）；根据所述发声范围确定所述声源对象在所述全景视频中所处的目标图像范围（S20）；在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口（S30）。

Description

远程交互方法、远程交互设备以及计算机存储介质

相关申请

本申请要求于2022年1月29号申请的、申请号为202210111658.4的中国专利申请的优先权，其全部内容通过引用结合于此。

技术领域

本申请涉及远程交互技术领域，尤其涉及远程交互方法、远程交互设备和计算机存储介质。

背景技术

随着经济技术的发展，远程交互设备在日常生活、工作中的应用越来越广泛。例如，远程交互设备可应用于视频直播、视频互动、音视频会议等场景。目前，远程交互设备一般通过拍摄模块获取空间的全景视频数据，将全景视频数据显示于交互界面上，以实现与远端用户的交互。

然而，在交互场景中涉及的人员较多时，全景视频的输出容易导致交互界面所展现的只有距离拍摄模块较近用户的面部表情、肢体动作等交互细节，距离拍摄模块较远的用户的交互细节则无法在交互界面上展现，并且远端用户难以从全景视频中分辨当前发言的人员，这导致用户交互体验不佳。

申请内容

本申请的主要目的在于提供一种远程交互方法、远程交互设备以及计算机存储介质，旨在实现交互界面可突出显示发声对象的视频数据，提高远程交互过程中用户的交互体验。

为实现上述目的，本申请提供一种远程交互方法，所述远程交互方法包括以下步骤：

获取目标空间内声源对象的发声范围，获取所述目标空间的全景视频；

根据所述发声范围确定所述声源对象在所述全景视频中所处的目标图像范围；

在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口。

此外，为了实现上述目的，本申请还提出一种远程交互设备，所述远程交互设备包括：

拍摄模块；

麦克风阵列；以及

控制装置，所述全景拍摄模块和所述麦克风阵列均与所述控制装置连接，所述控制装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的远程交互程序，所述远程交互程序被所述处理器执行时实现如上任一项所述的远程交互方法的步骤。

此外，为了实现上述目的，本申请还提出一种计算机存储介质，所述计算机存储介质上存储有远程交互程序，所述远程交互程序被处理器执行时实现如上任一项所述的远程交互方法的步骤。

本申请提出的一种远程交互方法，该方法根据目标空间内声源对象的发声范围确定声源对象在所述目标空间的全景视频中所处的目标图像范围，在远端设备的第一目标显示窗口内输出目标图像范围内的子视频数据，子视频数据的输出可实现目标空间内发声对象可在远端设备的交互界面中突出显示，相比于全景视频更能体现目标空间内发声对象的交互细节，从而有效提高远程交互过程中用户的交互体验。

附图说明

图1为本申请远程交互设备所应用的远程交互场景的场景示意图；

图2为本申请远程交互设备一实施例运行涉及的硬件结构示意图；

图3为本申请远程交互方法第一实施例的流程示意图；

图4为本申请远程交互方法第二实施例的流程示意图；

图5为本申请远程交互方法第三实施例的流程示意图；

图6为本申请远程交互方法第四实施例的流程示意图；

图7为本申请远程交互方法第五实施例的流程示意图；

图8为本申请远程交互方法第六实施例的流程示意图；

图9为本申请远程交互方法实施例涉及的不同声源对象发声过程中目标对象的确定过程及其子窗口的排序过程的示意图；

图10为本申请远程交互方法第七实施例的流程示意图；

图11为本申请远程交互方法实施例涉及的拍摄范围调整前后采集的全景视频的示意图；

图12为本申请远程交互方法实施例涉及远程交互过程中第一目标显示窗口与第二目标显示窗口同时显示时的界面示意图；

图13为本申请远程交互方法实施例中发声范围以及目标空间范围确定过程涉及的空间范围示意图；

图14为本申请远程交互方法实施例中目标图像范围的确定以及调整涉及的图像范围示意图；

图15为本申请远程交互方法实施例涉及的声源对象移动触发目标图像范围调整的示意图；

图16为本申请远程交互方法实施例涉及的空间方位角和空间俯仰角的示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例的主要解决方案是：获取目标空间内声源对象的发声范围，获取所述目标空间的全景视频；根据所述发声范围确定所述声源对象在所述全景视频中所处的目标图像范围；在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口。

由于现有技术中，在交互场景中涉及的人员较多时，全景视频的输出容易导致交互界面所展现的只有距离拍摄模块较近用户的面部表情、肢体动作等交互细节，距离拍摄模块较远的用户的交互细节则无法在交互界面上展现，并且远端用户难以从全景视频中分辨当前发言的人员，这导致用户交互体验不佳。

本申请提供上述的解决方案，旨在实现交互界面可突出显示发声对象的视频数据，提高远程交互过程中用户的交互体验。

本申请实施例提出一种远程交互设备，应用于远程交互场景，这里的远程交互场景可以是同一空间内远距离的交互场景，也可以是不同空间或不同地域之间远距离的交互场景。例如，远程交互设备可应用于视频直播、视频互动、远程会议等场景。

其中，结合图1，对远程交互设备一实施例中所应用的交互场景进行介绍：远程交互设备所在空间内可设置有桌子，桌子可以是方形的桌子、也可以圆桌、还可以是任意形状的桌子。远程交互设备可放置于桌子上，例如远程交互设备可放置于桌子的中心、桌子的边缘或桌子上其他任意位置。需要进行远程交互的人员(例如多个参会人员)围绕在桌子的周围，另外除了人员以外设置为输出交互所需信息的设备(例如显示器、音频播放设备、平板电脑、手机登)也可设于桌子的一侧或桌子的边缘。

在本实施例中，参照图2，远程交互设备包括拍摄模块2、麦克风阵列3以及控制装置1。全景拍摄模块2和麦克风阵列3均与控制装置1连接。具体的，远程交互设备可包括壳体，拍摄模块2和麦克风阵列3均固定于壳体。

拍摄模块2被配置为采集其所在空间的全景视频数据。拍摄模块2还可被配置为采集其所在空间的场景图片等。在本实施例中，拍摄模块2设于壳体的顶部。在其他实施例中，拍摄模块2也可环绕壳体周向设置。

在本实施例中，拍摄模块2为鱼眼摄像头。在另一实施例中，拍摄模块2还可包括多个摄像头或可移动的摄像头，以通过多个摄像头采集的多个视频数据或可移动摄像头采集的多个视频数据进行拼接得到这里的全景视频数据。

具体的，拍摄模块2的取景角度范围可包括拍摄模块2所允许采集的图像所能覆盖的最大方位角范围和/或拍摄模块2所允许采集的图像所能覆盖的最大俯仰角范围。拍摄模块2的图像方位角的定义如下：以拍摄模块2的预设成像中心指向水平面上第一预设方向的线为第一基线，图像位置与预设成像中心的连线为第一目标方向线，第一目标方向线与第一基线形成的水平夹角则为图像方位角。这里的第一预设方向可根据拍摄模块2的安装位置或远程交互设备上其他功能模块的安装位置进行确定。在本实施例中，第一预设方向为预设成像中心朝向远程交互设备背面的方向。其中，定义第一基线沿顺时针方向与第一目标方向线形成的图像方位角为正值，定义第一基线沿逆时针方向与第一目标方向线形成的图像方位角为负值。基于此，为了便于计算，采用正值的图像方位角定义最大方位角范围，则拍摄模块2的最大方位角范围可为0度至360度。

拍摄模块2的图像俯仰角的定义如下：以拍摄模块2的预设成像中心指向垂直面上第二预设方向的线为第二基线，图像位置与预设成像中心的连线为第二目标方向线，第二目标方向线与第二基线在垂直面上形成夹角则为图像俯仰角。其中，第二目标方向线在第二基线下方时图像俯仰角为负值；第二目标方向线在第二基线上方时图像俯仰角为正值。在本实施例中，第二预设方向为远程交互设备放置于桌子上时，预设成像中心指向拍摄模块2所拍摄到的桌子边缘对应的图像位置的方向。基于此，为了便于计算，采用正值的图像俯仰角定义最大俯仰角范围，则拍摄模块2的最大俯仰角范围可为0度至69度，这里的69度可根据桌子尺寸的不同、声源对象高度的不同以及拍摄模块2安装位置的不同等实际情况设置为其他数值。另外，在其他实施例中，第二预设方向也可以是水平方向。

需要说明的是，拍摄模块2可预先设置有对其采集的图像数据进行图像位置表征的图像坐标系，图像坐标系可为极坐标或直角坐标系，这里的预设成像中心为图像坐标系的坐标原点。

进一步的，在本实施例中，拍摄模块2为鱼眼摄像头，其取景的最大方位角范围在200度至230度之间。在其他实施例中，最大方位角范围也可以更大，例如360度、270度等。

麦克风阵列3具体被配置为采集其所在空间中来自于不同空间方向的声音信号。控制装置1可根据麦克风阵列3采集的声音数据对空间内声源所在位置进行定位。麦克风阵列3具体包括多个阵列排布的麦克风。具体的，在本实施例中，多个麦克风呈环形阵列排布。在其他实施例中，多个麦克风也可呈三角形阵列排布或不规则形状排布。

具体的，壳体上可设有被配置为安装麦克风阵列3的多个孔位，孔位与麦克风阵列3中的麦克风一一对应设置，多个孔位可设于壳体的顶壁或多个孔位可设于壳体的侧壁且沿壳体的周向设置。

在本实施例中，麦克风阵列3拾音的方位角的角度范围为0度至360度，麦克风阵列3拾音的俯仰角的角度范围为16度至69度。需要说明的是，麦克风阵列3拾音的角度范围不限制于上述的数值范围内，可根据实际情况设置更大或更小的角度范围。

其中，参照图2，控制装置1包括：处理器1001(例如CPU)，存储器1002，计时器1003等。控制装置1中的各部件通过通信总线连接。存储器1002可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。具体的，在本实施例中，存储器1002包括嵌入式多媒体存储卡(eMMC)和双倍速率同步动态随机存储器(DDR)。在其他实施例中，存储器1002可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图2中示出的装置结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图2所示，作为一种计算机存储介质的存储器1002中可以包括远程交互程序。在图2所示的装置中，处理器1001可以被配置为调用存储器1002中存储的远程交互程序，并执行以下实施例中远程交互方法的相关步骤操作。

进一步的，在另一实施例中，参照图2，远程交互设备还可包括扬声器4，扬声器4与控制装置1连接。扬声器4可被配置为播放声频数据，这里的声频数据可为远端设备发送的远端设备所采集的声音数据，也可以是远程交互设备基于有线通信连接或无线通信连接获取到其所在空间内其他终端输入的声音数据。

具体的，扬声器4可安装于壳体内部，壳体上可设有与扬声器4所在腔体连通的多个出声孔，多个出声孔呈环形排布设于壳体的侧壁，扬声器4发出的声音可通过多个出声孔均匀地朝360度不同的方向传播。

具体的，扬声器4以最大音量播放声音时，确定与扬声器4距离为等于预设距离的空间位置上检测的声压级大于或等于预设分贝值。在本实施例中，预设距离为1米，预设分贝值为60dB。在其他实施例中，预设距离也可为1.3米、1.5米、2米等，预设分贝值也可为70dB、75dB等。

进一步的，在另一实施例中，参照图2，远程交互设备还包括按键模块5。按键模块5与控制装置1连接。按键模块5可为安装于壳体上的机械按键，也可以为安装于壳体上可设置为显示虚拟按键的触控模块，还可以其他可生成高低平电信号的按键模块5。按键模块5具体被配置为用户与远程交互设备之间的人机交互，具体的按键模块5响应于用户操作可生成相应的键值，控制装置1可被配置为获取按键模块5所生成的键值并根据键值对应的指令运行。

进一步的，在另一实施例中，参照图2，远程交互设备还可包括通信模块6，通信模块6具体为无线通信模块6，可被配置为实现远程交互设备与外部设备的无线通信连接。在本实施例中，无线通信模块6为蓝牙模块。在其他实施例中，无线通信模块6也可为WIFI模块、ZigBee模块、射频通信模块6等其他任意类型无线通信模块6。远程交互设备的控制终端(如手机、笔记本电脑、平板电脑、智能手表等)可基于无线通信模块6与远程交互设备建立无线通信连接，远程交互设备可基于无线通信连接接收控制终端发送的用户输入的控制指令或所获取的音视频数据。

进一步的，在另一实施例中，参照图2，远程交互设备还可包括数据接口7，数据接口7与控制装置1连接。数据接口7可被配置为与远程交互设备外部接入互联网的计算机设备有线通信连接。在本实施例中，数据接口7为USB接口。在其他实施例中，数据接口7也可为其他类型的接口，例如IEEE接口等。控制装置1可将需要远端设备输出的音视频数据基于数据接口7发送至计算机设备，计算机设备可通过互联网发送至远端设备，以使远端设备可输出远程交互设备所采集的音视频数据。此外，计算机设备与远程交互设备之间的控制信号可基于数据接口7双向传输。

其中，与远程交互设备连接的计算机设备中可安装有预设应用程序(例如直播软件、会议软件等)，预设应用程序可完成远程交互设备与远端设备各自产生的音视频数据在互联网的双向传输。

本申请实施例还提供一种远程交互方法，应用于上述远程交互设备。

参照图3，提出本申请远程交互方法第一实施例。在本实施例中，所述远程交互方法包括：

步骤S10，获取目标空间内声源对象的发声范围，获取所述目标空间的全景视频；

目标空间具体为远程交互设备所处的有限空间范围。

声源对象具体为目标空间内发出声音的对象，可为人体、也可为发出声音的装置(如手机、音箱、平板电脑等)。

发声范围具体为声源对象发声过程中其发声位置(如人体的嘴部等)活动的最大空间范围。发声范围可通过检测声源对象的声音信号进行确定，也可以通过检测声源对象的图像信号进行确定。

全景视频具体为拍摄模块连续采集的多个曲面图像帧(如球面图像或柱面图像)形成的多媒体数据，每个曲面图像帧的曲面中心为拍摄模块的预设成像中心。具体的，实时获取拍摄模块采集的数据可获得这里的全景视频。

需要说明的是，声音范围和全景视频在同一时间检测。

步骤S20，根据所述发声范围确定所述声源对象在所述全景视频中所处的目标图像范围；

具体的，可预先设置有目标空间的空间位置与全景视频中图像位置的之间的转换关系。基于该转换关系，可直接将发声范围对应的空间位置特征参数转换为图像位置特征参数，将转换得到的图像位置特征参数所对应的图像范围作为目标图像范围。另外，也可按照预设规则对发声范围进行放大后获得声源对象的目标区域(如人体的头部、人体的上身、整个播放设备等)对应的空间范围，基于该转换关系将所获得的空间范围对应的空间位置特征参数转换为图像位置特征参数，将转换得到的图像位置特征参数所对应的图像范围作为目标图像范围。

步骤S30，在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口。

远端设备具体为设置为与远程交互设备进行音视频数据双向传输、将接收到远程交互设备发送的音视频数据进行输出的设备，以实现远端设备的用户与目标空间内的用户进行远程交互。

第一目标显示窗口具体为设置为显示目标空间内所有允许发声的对象中声源对象的视频数据的窗口，以实现远端设备的用户在视觉上实现与目标空间内的声源对象进行近距离交流。

其中，在存在多于一个声源对象时，每个声源对象对应一个目标图像范围，每个声源对象在第一目标显示窗口内对应一个子窗口，则将每个声源对象对应的目标图像范围内的子视频数据在对应的子窗口输出，多于一个子窗口合并形成第一目标显示窗口。

具体的，可提取全景视频在目标图像范围内的子视频数据，将子视频数据添加至设置为远程交互的预设应用中的第一目标显示窗口中输出，将显示有子视频数据的第一目标显示窗口发送至任意安装并开启预设应用的远端设备，远端设备打开预设应用均可将第一目标显示窗口及其中的子视频数据进行显示。另外，从全景视频中提取得到的子视频数据也可直接基于互联网发送至远端设备，远端设备可将子视频数据调整成与第一目标显示窗口适配的显示数据，第一目标显示窗口具体为设置为远程交互的预设应用中的窗口，远端设备可在其安装的预设应用的第一目标显示窗口中对调整后的显示数据进行显示。又或者，在确定目标图像范围之后，可将目标图像范围和全景视频发送至远端设备，远端设备可基于所接收的目标图像范围对全景视频中相应位置的视频数据进行提取得到子视频数据，将提取得到的子视频数据在其预设应用的第一目标显示窗口内输出。

本申请实施例提出的一种远程交互方法，该方法根据目标空间内声源对象的发声范围确定声源对象在所述目标空间的全景视频中所处的目标图像范围，在远端设备的第一目标显示窗口内输出目标图像范围内的子视频数据，子视频数据的输出可实现目标空间内发声对象可在远端设备的交互界面中突出显示，相比于全景视频更能体现目标空间内发声对象的交互细节，从而有效提高远程交互过程中用户的交互体验。

进一步的，基于上述实施例，提出本申请远程交互方法第二实施例。在本实施例中，参照图4，所述步骤S10包括：

步骤S11，在预设时长内检测所述声源对象的发声位置的多个第一空间位置信息，获得多个声源位置信息；

声源对象为人体时发声位置可指的是嘴部(如图13(b)中的01)；声源对象为发声的设备时，发声位置可指的是声源对象的喇叭。

具体的，在预设时长内连续多个时刻检测声源对象的发声位置的空间位置信息(如图13(a)中的(X1，Y1))，时间先后相邻的两个时刻之间的时间间隔可为预设值。例如，可预设时长可为0.5秒，可在0.5秒内连续多次检测声源对象的发声位置的第一空间位置信息，获得多个声源位置信息。

具体的，可预先建立有表征目标空间内不同空间位置的空间坐标系，空间坐标系可以是极坐标系或直角坐标系。这里空间位置信息具体为空间位置信息可采用空间坐标系中的坐标进行表示。

在本实施例中，在每个声源位置信息检测的过程中，获取麦克风阵列检测的声音信号，根据预设声源定位算法对所获取的声音信号进行计算，计算得到的空间位置信息可作为声源位置信息。这里的预设声源定位算法可为基于麦克风阵列中各个麦克风接收声音信号的时间差对声源进行定位的算法，例如TDOA算法，TDOA算法可具体包括GCC-PHAT算法或SRP-PHAT算法等；预设声源定位算法也可为使用空间谱估计进行声源定位的方法，例如MUSIC算法等。

在本实施例中，在预设时长内多次检测所述声源对象的发声位置在所述目标空间中以拍摄模块为基点的方位角和俯仰角，获得多个第一空间方位角和多个第一空间俯仰角；其中，所述多个声源位置信息包括所述多个第一空间方位角和所述多个第一空间俯仰角，所述拍摄模块被配置为采集所述全景视频。

空间方位角(如图16(a)中的α)的定义如下：以拍摄模块所在空间位置为基点，基点指向水平面上第三预设方向的线为第三基线，空间位置与基点的连线为第三目标方向线，第三目标方向线与第三基线形成的水平夹角则为空间方位角。这里的第三预设方向可根据拍摄模块的安装位置或远程交互设备上其他功能模块的安装位置进行确定。在本实施例中，第三预设方向为预设成像中心朝向远程交互设备背面的方向。其中，定义第三基线沿顺时针方向与第三目标方向线形成的空间方位角为正值，定义第三基线沿逆时针方向与第三目标方向线形成的空间方位角为负值。

空间俯仰角(如图16(b)中的β)的定义如下：以拍摄模块所在空间位置为基点，基点指向垂直面上第四预设方向的线为第四基线，空间位置与基点的连线为第四目标方向线，第四目标方向线与第四基线在垂直面上形成夹角则为空间俯仰角。其中，第四目标方向线在第四基线下方时空间俯仰角为负值；第四目标方向线在第四基线上方时空间俯仰角为正值。在本实施例中，第四预设方向为远程交互设备放置于桌子上时，预设成像中心指向拍摄模块所拍摄到的桌子边缘对应的空间位置的方向。基于此，为了便于计算，采用正值的空间俯仰角定义最大俯仰角范围，则拍摄模块的最大俯仰角范围可为0度至69度，这里的69度可根据桌子尺寸(如图16(b)中的H1、W)的不同、声源对象高度(如图16(b)中的H3)的不同以及拍摄模块安装位置(如图16(b)中的H2)的不同等实际情况设置为其他数值。另外，在其他实施例中，第四预设方向也可以是水平方向。

在其他实施例中，第一空间位置信息也可包括空间方位角和空间俯仰角的其中一个；或者，第一空间位置信息也可包括发声位置相对于基点的方向和/或距离。

在其他实施例中，第一空间位置信息也可基于全景视频中声源对象对应的图像进行识别得到，例如识别全景视频中声源对象的图像中发声位置所在图像区域的图像位置信息，基于图像位置信息来确定这里的第一空间位置信息。

步骤S12，根据所述多个声源位置信息确定所述发声范围。

具体的，可根据多个声源位置信息确定发声范围中一个或多于一个特征位置点，根据所确定的特征位置点来计算这里的发声范围。

在本实施例中，发声范围为方形区域，在其他实施例中，发声范围也可为圆形区域、三角区域或其他形状的区域。发声范围的区域形状具体可根据第一目标显示窗口的窗口形状或第一目标显示窗口内用于显示与声源对象对应的子窗口的窗口形状所确定。

在本实施例中，多个声源位置信息包括上述的多个第一空间方位角和多个第一空间俯仰角时，可确定所述多个第一空间方位角中的最小空间方位角和最大空间方位角，确定所述多个第一空间俯仰角中的最小空间俯仰角和最大空间俯仰角；根据所述最小空间方位角、所述最大空间方位角、所述最小空间俯仰角以及所述最大空间俯仰角确定所述发声范围对应的多个第一空间角点位置；将所述多个第一空间角点位置围合形成的空间范围确定为所述发声范围。例如，如图13(b)所示，最小空间方位角为X2，最大空间方位角为X3，最小空间俯仰角为Y2，最大空间俯仰角为Y3，则可确定发声范围的四个第一空间角点位置分别为(X2，Y2)、(X2，Y3)、(X3，Y2)以及(X3，Y3)，这四个空间角点位置为何形成的方形空间区域可确定为发声范围。

在其他实施例中，也可根据多个声源位置信息确定发声范围的中点位置，例如确定多个第一空间方位角的第一均值和确定多个第一空间俯仰角的第二均值，空间方位角为第一均值且空间俯仰角为第二均值的空间位置可确定为中点位置。以中点位置为中心、且区域特征参数为预设值(如预设区域形状和/或预设空间尺寸等)的空间区域确定为发声范围，例如，将以中点位置为圆心、预设值为半径的圆形区域确定为发声范围。

在本实施例中，通过多次声源定位所确定的发声范围来声源对象在全景视频中的目标图像范围，有利于提高所确定的目标图像范围的准确性，从而保证即使声源对象发声过程中声源位置移动(例如发声人在发声过程中扭头等)，也可准确地获取到声源对象在全景视频中所对应的子视频数据，以保证声源对象的交互细节的突出显示，进一步远程交互过程中的用户体验。

进一步的，基于上述任一实施例，提出本申请远程交互方法第三实施例。在本实施例中，参照图5，所述步骤S20包括：

步骤S21，根据所述发声范围确定包含所述声源对象的目标区域的目标空间范围，所述目标区域为所述声源对象在交互时需展示的最小区域，目标空间范围大于或等于发声范围；

这里的目标区域可为预先设置的固定区域，也可为基于用户设置参数所确定的区域，还可根据声源对象的类型所确定的区域(不同类型可对应不同的目标区域)。例如，声源对象为人体时，目标区域可为头部或上身或肩部以上区域等；声源对象为设备时，目标区域可为设备上的显示区域。其中，目标区域大于发声范围，目标空间范围大于或等于目标区域。

在本实施例中，目标空间范围为方形区域。在其他实施例中，目标空间范围可为圆形区域、三角形区域或其他不规则形状的区域。

具体的，可直接将发声范围作为目标空间范围；也可按照预设规则对声音范围进行放大后的空间范围作为目标空间范围。需要说明的是，目标空间范围为基于上述实施例中的空间坐标系进行表征的区域范围。

具体的，可获取发声范围对应的区域调整值，根据区域调整值放大发声范围后获得目标空间范围。这里的区域调整值可为预先设置的固定参数，也可根据目标空间内实际场景情况所确定的参数。

步骤S22，根据预设对应关系，确定所述目标空间范围在所述全景视频中对应的图像范围为所述目标图像范围；其中，所述预设对应关系为预先设置的所述目标空间内的空间位置与所述全景视频对应的图像位置之间的对应关系。

具体的，这里的预设对应关系为上述实施例提及的图像坐标系与空间坐标系之间的坐标转换关系。

基于预设对应关系将目标空间范围对应的空间位置特征参数转换成图像位置特征参数，基于转换得到的图像位置参数确定目标图像范围。例如，可基于预设对应关系将目标空间范围的多个空间角点位置转换成多个图像角点位置，将全景视频中多个图像角点位置围合形成的图像区域作为目标图像范围；又如，目标空间范围为圆形区域，基于预设对应关系将目标空间范围的空间中点位置转换成图像中点位置，将目标空间范围对应的空间半径转换成图像半径，将全景视频中以图像中点位置为圆心、图像半径为半径的圆形图像区域作为目标图像范围。

在本实施例中，通过上述方式，基于发声范围确定包含有声源对象需显示的最小区域的目标空间范围后，基于所确定的目标空间范围在全景视频中对应的图像区域作为目标图像范围，有利于保证所确定的目标图像范围内子视频数据可包含有声源对象的目标区域的图像，以确保所提取的子视频数据可准确地包含声源对象交互所需的全部细节，以进一步提高远程交互过程中的用户体验。

进一步的，在本实施例中，步骤S21包括：获取所述目标空间内允许发声的对象的总数，获取所述发声范围内目标空间位置的第二空间位置信息；根据所述总数确定所述目标空间范围的大小特征值；根据所述第二空间位置信息和所述大小特征值确定所述目标空间范围。

这里的允许发声的对象包括具有发声功能的设备和人体。这里的总数由获取用户输入的参数确定，也可通过对全景视频进行目标识别确定。例如，目标空间内有8个人、1个手机以及1个显示播放设备，则可确定允许发声的对象的总数有10个。

目标空间位置具体为对发声范围的区域位置进行表征的位置。在本实施例中，目标空间位置为发声范围的中心位置。在其他实施例中，目标空间位置也可为发声范围的边缘位置、角点位置、重心位置或其他任意的位置。

不同的总数对应的不同的大小特征值，大小特征值表征的目标空间范围的大小与总数呈负相关，也就是说，总数越多则目标空间范围的尺寸越小。大小特征值可为目标空间范围的面积、半径、长和宽等表征区域大小的特征参数。其中，总数大于设定值时，大小特征值为预设大小特征值，总数小于或等于设定值时可根据总数计算大小特征值，基于此，可有效避免目标空间范围太小，从而保证声源对象的交互细节可准确展示。

具体的，根据大小特征值对第二空间位置信息进行调整后可获得目标空间范围对应的部分或全部空间位置信息，基于所获得的空间位置信息可确定目标空间范围。

在本实施例中，所述目标空间位置为发声范围的中心位置，所述第二空间位置信息包括所述目标空间位置以拍摄模块为基点的第二空间方位角，所述拍摄模块被配置为采集所述全景视频，所述根据所述第二空间位置信息和所述大小特征值确定所述目标空间范围的步骤包括：根据所述大小特征值确定空间方位角调整值；根据所述空间方位角调整值调整所述第二空间方位角，获得所述目标空间范围以所述拍摄模块为基点的方位角范围的最大临界值和最小临界值；根据所述最大临界值、所述最小临界值以及所述目标空间范围以所述拍摄模块为基点的预设俯仰角范围确定所述目标空间范围的多个第二空间角点位置；将多个所述第二空间角点位置围合形成的空间范围确定为所述目标空间范围。

其中，在本实施例中，大小特征值为目标空间范围的宽度，宽度越大则空间方位角调整值越大；宽度越小则空间方位角调整值越小。在其他实施例中，大小特征值也为目标空间范围的半径。

具体的，根据空间方位角调整值缩小第二空间方位角可获得目标空间范围对应的空间方位角的最小临界值，根据空间方位角调整值放大第二空间方位角可获得目标空间范围对应的空间方位角的最大临界值。

预设俯仰角范围可结合拍摄模块的安装位置、用于放置远程交互设备的桌子的尺寸以及声源对象允许出现的最大高度等信息确定。具体的，预设俯仰角范围中的最小俯仰角值可为用于放置远程交互设备的桌子的边缘位置与拍摄模块的连线与上述第四基线之间的夹角(例如0度等)；预设俯仰角范围中的最大俯仰角值可为声源对象的最高位置与拍摄模块的连线与第四基线的夹角(例如69度等)。在其他实施例中，预设俯仰角范围也可根据预设图像比例与上述确定的最大临界值和最小临界值确定。

预设俯仰角范围的最小值为目标空间范围的最小空间俯仰角，预设俯仰角范围的最大值为目标空间范围的最大空间俯仰角。

例如，以下列例子说明本实施例方案：

1)目标空间内允许发声的对象的总数为n，麦克风阵列的声音识别的最大方位角范围为0度至360度，则目标空间范围的宽度为360度/n，由于目标空间位置为中心位置可确定空间方位角调整值为360度/2n；

2)基于上述确定的声音范围(X2，Y2)、(X2，Y3)、(X3，Y2)以及(X3，Y3)(如图13(b)所示)可确定声音范围的中心位置的第二空间方位角为(X2+X3)/2，目标空间范围的空间方位角的最小临界值为X4＝(X2+X3)/2-360度/2n，目标空间范围的空间方位角的最大临界值为X5＝(X2+X3)/2+360度/2n；

3)预设俯仰角范围为0度至P度(如69度)，目标空间范围的空间俯仰角的最小临界值为Y4＝0，目标空间范围的空间俯仰角的最大临界值Y5＝P；

4)基于此，如图13(c)所示，可确定目标空间范围的四个空间角点位置分别为(X4，Y4)，(X4，Y5)，(X5，Y4)以及(X5，Y5)，这四个空间角点位置围合形成的四边形空间区域则为目标空间范围。

进一步的，基于上述任一实施例，提出本申请远程交互方法第四实施例。在本实施例中，参照图6，所述步骤S20之后，还包括：

步骤S201，识别所述目标图像范围内人体图像所在的图像区域；

具体的，可采用人体识别算法对目标图像范围内图像数据进行识别确定图像区域。例如，对目标图像范围内的图像数据进行人脸识别确定人脸图像，基于人脸图像进行人形推算得到这里的图像区域。

在本实施例中，图像区域为四边形区域。在其他实施例中，图像区域也可为圆形区域或人形形状的区域。

步骤S202，确定所述图像区域的面积与所述目标图像范围的面积的比值；

步骤S203，判断所述比值是否小于预设值；

响应于所述比值小于预设值的情况，执行步骤S204后执行步骤S30；响应于所述比值大于或等于所述预设值的情况，执行步骤S30。

预设值具体为人与人面对面交互时舒适距离所允许的图像区域与目标图像范围之间面积比的最小值。比值小于预设值表明远端设备的用户在看到子视频数据时会觉得其与声源对象的距离过远，用户无法基于子视频数据的输出获取到所需的交互细节；比值大于或等于预设值表明远端设备的用户在看到子视频数据时可清楚的看到声源对象的交互细节。

步骤S204，缩小所述目标图像范围，以使所述比值大于或等于所述预设值。

具体的，可根据预先设置的固定范围调整参数缩小目标图像范围，也可根据图像区域的尺寸特征或比值等确定的范围调整参数来缩小目标图像范围。

在缩小目标图像范围之后，可返回执行步骤S201，以确保调整后的目标图像范围对应的上述比值可大于或等于预设值。

在本实施例中，根据所述预设值放大所述图像区域获得缩小后的目标图像范围。具体的，可根据预设值确定用于放大图像区域的图像位置调整值，根据图像位置调整值对图像区域进行调整后获得缩小后的目标图像范围。

在本实施例中，根据预设值放大图像区域获得缩小后的目标图像范围的过程具体如下：确定所述图像区域内目标图像位置的图像位置参数，根据所述预设值和所述图像区域的宽度确定用于放大所述图像区域的图像位置调整值；根据所述图像位置调整值调整所述图像位置参数获得目标图像位置参数；根据所述目标图像位置参数确定缩小后的目标图像范围。

在本实施例中，目标图像位置为图像区域的图像中心位置。在其他实施例中，目标图像位置也可为声源对象的发声位置在所述图像区域内对应的图像位置、图像区域的边缘位置、角点位置或其他任意位置等。图像位置参数具体可为以上述实施例提及的图像坐标系进行表征的图像位置的特征参数。在本实施例中，图像位置参数包括目标图像位置以预设成像中心为基点的第一图像方位角和/或第一图像俯仰角。在其他实施例中，目标图像位置还可以包括目标图像位置与预设成像中心之间的距离和/或方向。

在本实施例中，图像区域的宽度具体指的是图像区域对应最大方位角与最小方位角的差值。在其他实施例中，图像区域的宽度也可为图像区域沿水平方向上两侧边缘之间的距离。具体的，可根据预设值和图像区域的宽度计算图像区域放大后的目标宽度，根据目标宽度确定这里的图像位置调整值。目标图像位置为图像中心位置时，可将目标宽度的1/2作为图像位置调整值；目标图像位置为图像区域沿水平方向上一侧边缘的图像边缘位置时，将目标宽度直接作为图像位置调整值。

具体的，可根据图像位置调整值对图像位置参数调整后作为目标图像位置参数。例如，图像位置参数包括图像方位角和图像俯仰角，图像位置调整值包括图像方位角调整值和图像俯仰角调整值，根据图像方位角调整值调整图像方位角后获得目标图像方位角，根据图像俯仰角调整值调整图像俯仰角后获得目标图像俯仰角，目标图像位置参数包括目标图像方位角和目标图像俯仰角。另外，还可根据图像位置调整值对图像位置参数调整后获得第一图像位置参数，根据第一图像位置参数和预设参数计算得到目标图像位置参数。例如，图像位置参数包括图像方位角，图像位置调整值包括方位角调整值，根据方位角调整值对图像方位角进行调整后获得目标图像方位角，根据目标图像方位角和缩小后的目标图像范围的目标图像比例确定目标图像俯仰角，目标图像位置参数包括目标图像方位角和目标图像俯仰角；又如，图像位置参数包括图像俯仰角，图像位置调整值包括俯仰角调整值，根据俯仰角调整值对图像俯仰角进行调整后获得目标图像俯仰角，根据目标图像俯仰角和缩小后的目标图像范围的目标图像比例确定目标图像方位角，目标图像位置参数包括目标图像方位角和目标图像俯仰角。

在本实施例中，通过上述方式，在人形图像比例较小时缩小目标图像范围，使目标图像范围中的人形图像比例可增大，保证所输出的子视频数据中人形图像的比例不会太小，以确保远端设备的用户基于输出的子视频数据可在视觉上实现与目标空间内的面对面交流，以保证远端设备的用户可在远程交互过程中清楚地看到子视频数据对应的声源对象的交互细节，以实现远程交互过程中用户体验的进一步提高。其中，基于预设值放大图像区域后作为缩小后的目标图像范围，可保证目标图像范围缩小前后人体图像所呈现的人体范围不变，确保声源对象的交互细节可放大呈现。

进一步的，在本实施例中，所述图像位置参数包括所述目标图像位置以所述全景视频对应的预设成像中心为基点的第一图像方位角，所述图像位置调整值包括图像方位角调整值，所述根据所述图像位置调整值和所述图像位置参数确定目标图像位置参数的步骤包括：根据所述图像方位角调整值调整所述第一图像方位角，获得调整后的目标图像范围以所述预设成像中心为基点的最大图像方位角和最小图像方位角；根据所述最大图像方位角、所述最小图像方位角、所述目标图像位置在所述图像区域的竖直方向上的位置特征参数以及所述目标图像范围的图像比例确定缩小后的目标图像范围以所述预设成像中心为基点的最大图像俯仰角和最小图像俯仰角；确定所述最大图像方位角、所述最小图像方位角、所述最大图像俯仰角以及所述最小图像俯仰角为所述目标图像位置参数。基于此，所述根据所述目标图像位置参数确定缩小后的目标图像范围的步骤包括：根据所述最大图像方位角、所述最小图像方位角、所述最大图像俯仰角以及所述最小图像俯仰角确定调整后的目标图像范围的多个图像角点位置；将所述多个图像角点位置围合形成的图像范围作为缩小后的目标图像范围。

在本实施例中，目标图像位置为位于所述图像区域的垂直平分线上的位置，其与图像区域两侧边缘的距离相等，例如可为图像区域的中点位置，也可为垂直平分线上除了中点位置以外的其他位置。具体的，根据图像方位角调整值缩小第一图像方位角后获得最小图像方位角，根据图像方位角调整值增大第一图像方位角后获得最大图像方位角。

定义图像区域对应的最大俯仰角与最小俯仰角之间的差值为目标角度幅值，定义图像区域对应的最大俯仰角与目标图像位置的图像俯仰角的差值为第一差值，定义目标图像位置的图像俯仰角与图像区域对应的最小俯仰角之间的差值为第二差值，所述目标图像位置在所述图像区域的竖直方向上的位置特征参数具体为第一差值与目标角度幅值的比值或第二差值与目标角度幅值的比值。其中，在本实施例中，目标角度幅值为固定值，在其他实施例中，目标角度幅值也可根据目标空间内的实际场景参数所确定的数值。

在本实施例中，所述目标图像位置为所述发声范围的中心位置在所述图像区域内对应的图像位置。图像比例为图像区域的长度与宽度的比值。

所述目标图像范围的图像比例具体为目标图像范围未缩小之前的宽度与长度的比例，定义目标图像范围缩小前的图像方位角度的最大值与图像方位角度的最小值之间的为第三差值，定义目标图像范围缩小前的图像俯仰角度的最大值与图像方位角度的最小值之间的为第四差值，目标图像范围的图像比例为第三差值与第四差值的比值。

在获得最小图像方位角和最大图像方位角之后，可根据最小图像方位角和最大图像方位角计算缩小后的目标图像范围的目标宽度(即最大图像方位角与最小图像方位角之间的差值)，基于目标图像范围缩放前后的图像比例相同，可根据目标宽度和图像比例计算缩小后的目标图像范围的目标长度(即最大图像俯仰角与最小图像俯仰角之间的差值)，根据目标图像位置在数值方向上对应的位置特征参数和目标长度可计算得到最大图像俯仰角和最小图像俯仰角。

在获得最大图像俯仰角、最小图像俯仰角、最大图像方位角以及最小图像方位角之后，确定缩小后目标图像范围的四个角点位置，将四个角点位置所围合形成的四边形图像区域可作为缩小后的目标图像范围。

为了更好理解本实施例涉及的缩小后的目标图像范围的确定过程(即图像区域的放大过程)，结合图13和图14，下面以具体应用进行说明：

1)、最小图像方位角定义为X8，最大图像方位角定义为X9，预设值为0.9:1，即图像区域与目标图像区域的面积比；如图14(a)所示，人体图像所在的图像区域的多个角点位置分别为(X6，Y6)、(X6，Y7)、(X7，Y6)以及(X7，Y7)，基于图像区域放大前后的沿水平方向上的中心不变，则：

最小图像方位角X8＝(X7-(X7-X6)/2)-((X7-X6)/0.9)/2；

最大图像方位角X9＝(X7-(X7-X6)/2)+((X7-X6)/0.9)/2；

其中，X7-(X7-X6)/2为第一图像方位角，((X7-X6)/0.9)/2为图像方位角调整值。

2)、最小图像俯仰角定义为Y8，最大图像俯仰角定义为Y9，发声范围的多个角点位置分别为图13中的(X2，Y2)、(X2，Y3)、(X3，Y2)以及(X3，Y3)，目标图像位置为发声范围的中心位置，则目标图像位置为Y3-(Y3-Y2)/2，未缩小之前的目标图像范围的多个角点位置分别为图14中的(X4’，Y4’)(X4’，Y5’)(X5’，Y4’)(X5’，Y5’)，基于目标图像范围缩放前后的图像比例不变，发声范围的中心位置在缩小后的目标图像范围的垂直方向的位置特征与发声范围的中心位置在所述图像区域的竖直方向上的位置特征参数(如0.65)一致，则：

最小图像俯仰角Y8＝(Y3-(Y3-Y2)/2)-((X9-X8)*(Y5’-Y4’)/(X5’-X4’)*0.65)；

最大图像俯仰角Y9＝Y8+(X9-X8)*(Y5’-Y4’)/(X5’-X4’)；

其中，(Y5’-Y4’)/(X5’-X4’)为目标图像范围的图像比例。

3)如图14(b)所示，放大后人体图像所在图像区域的图像角点位置分别为(X8,Y8)、(X8,Y9)、(X9,Y8)以及(X9,Y9)，这4个图像角点位置为围合形成的四边形图像区域则为缩小后的目标图像范围。

在本实施例中，通过上述方式，可保证目标图像范围缩小后人体图像的规格可与目标图像范围缩小前大致相同，保证目标图像范围缩小后子视频数据所呈现的人像比例较大同时人像可具有较佳的呈现效果，以进一步提高远程交互的用户体验。

进一步的，在本实施例中，所述根据所述最大图像方位角、所述最小图像方位角、所述最大图像俯仰角以及所述最小图像俯仰角确定调整后的目标图像范围的多个图像角点位置的步骤之后，还包括：确定所述多个图像角点位置围合形成的图像范围的区域面积相对于所述图像区域的区域面积的放大倍数；响应于所述放大倍数小于或等于预设倍数的情况，执行所述将所述多个图像角点位置围合形成的图像范围作为缩小后的目标图像范围的步骤；响应于所述放大倍数大于所述预设倍数的情况，将所述图像区域放大预设倍数后的图像范围作为缩小后的目标图像范围。这里，对图像区域的放大倍数进行限制，避免放大倍数过大导致目标图像范围缩小后子视频数据中的人像过于模糊，保证声源对象的交互细节可在子视频数据输出时清晰呈现，以进一步提高远程交互的用户体验。

进一步的，在本实施例中，所述识别所述目标图像范围内人体图像所在的图像区域的步骤之后，还包括：响应于所述目标图像范围内存在人体图像的情况，执行所述确定所述图像区域的面积与所述目标图像范围的面积的比值的步骤；响应于所述目标图像范围内不存在人体图像的情况，执行所述在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口的步骤。

进一步的，基于上述任一实施例，提出本申请远程交互方法第五实施例。在本实施例中，参照图7，所述步骤S30之后，还包括：

步骤S40，获取所述发声范围的空间位置变化参数或所述目标图像范围内人体图像区域的图像位置变化参数；

所述空间位置变化参数包括所述发声范围以拍摄模块为基点的空间方位角变化值和/或空间俯仰角变化值，所述拍摄模块被配置为采集所述全景视频；所述图像位置变化参数包括所述图像区域以所述全景视频的预设成像中心为基点的图像方位角变化值和/或图像俯仰角变化值。

在本实施例中，空间位置变化参数包括发声范围中的第一目标位置(例如中心位置)的空间方位角变化值和/或空间俯仰角变化值，图像位置变化参数包括目标图像范围内人体图像区域的第二目标位置(例如中心位置)的图像方位角变化值和/或图像俯仰角变化值。

步骤S50，根据所述空间位置变化参数或所述图像位置变化参数调整所述目标图像范围；

具体的，可根据空间位置变化参数或图像位置变化参数调整当前目标图像范围的部分或全部角点的第一图像位置参数后获得调整后目标图像范围各个图像角点位置的第二图像位置参数。

其中，当声源对象为人体时可根据图像位置变化参数调整所述目标图像范围；当声源对象为具有发声功能的装置(例如手机、音箱等)时可根据空间位置变化参数调整目标图像范围。

步骤S60，在所述第一目标显示窗口内输出调整后的目标图像范围内的子视频数据，并发送调整后的第一目标显示窗口至所述远端设备，以使所述远端设备显示调整后的第一目标显示窗口。

例如，如图15所示，定义当前的目标图像范围的图像角点位置分别为(X8,Y8)、(X8,Y9)、(X9,Y8)以及(X9,Y9)，当声源对象左右移动时会导致目标图像范围内人形图像区域的图像方位角发生变化时，可基于空间位置变化参数或图像位置变化参数计算移动后人形图像区域的中心位置的图像方位角(X12-X11)/2，定义调整后的目标图像范围的最小图像方位角为X13、调整后的目标图像范围的最大图像方位角为X14、调整后的目标图像范围的最小图像俯仰角为Y13、调整后的目标图像范围的最大图像俯仰角为Y14，基于调整前后目标图像范围的尺寸不变，则：

X13＝(X12-X11)/2-(X9-X8)/2；

X14＝(X12-X11)/2+(X9-X8)/2；

Y13＝Y8；

Y14＝Y9；

基于此，可确定调整后的目标图像范围对应的多个图像角点位置分别为(X13,Y13)、(X13,Y14)、(X14,Y13)以及(X14,Y14)，多个图像角点位置围合形成的图像区域为调整后的目标图像范围。

另外，当声源对象上下移动时会导致目标图像范围内人形图像区域的图像俯仰角发生变化时或当声源对象斜向移动时会导致目标图像范围内人形图像区域的图像俯仰角和图像方位角同时发生变化时，可类比这里的方式确定调整后的目标图像范围的图像俯仰角范围和图像方位角范围，在此不作追踪。

在本实施例中，通过上述方式，可保证声源对象即使在交互过程中移动，第一目标显示窗口中输出的子视频数据中声源对象的图像也可完整显示，以有效提高远程交互过程中的用户交互体验。

进一步的，基于上述任一实施例，提出本申请远程交互方法第六实施例。在本实施例中，参照图8，所述在第一目标显示窗口内输出所述目标图像范围内的子视频数据包括：

步骤S31，响应于所述声源对象的数量多于一个的情况，获取所述第一目标显示窗口中需显示的声源对象的目标数量；

需要说明的是，这里的声源对象具体可包括当前发声的声源对象和当前时刻之前发声的声源对象。

这里的目标数量可为用户自行设置，也可为默认设置的固定参数。声源对象的数量大于或等于这里的目标数量。

步骤S32，在多于一个所述声源对象中确定所述目标数量个声源对象作为目标对象；

这里目标数量的声源对象可由用户自行选择，也可根据预设规则从多于一个声源对象中选择，还可随机选取。

步骤S33，在每个所述目标对象对应的子窗口内输出所述目标对象对应的目标图像范围内的子视频数据，并在所述第一目标显示窗口内合并所述目标数量个子窗口。

不同的目标对象在第一目标显示窗口中对应不同的子窗口，不同子窗口分别输出不同目标对象的子视频数据。目标对象与子窗口一一对应设置。

具体的，在步骤S30之前，可获取所述目标空间的全景视频并获取目标空间内每个声源对象的发声范围，根据每个声源对象对应的发声范围确定声源对象在所述全景视频中对应的目标图像范围。基于此，目标对象在全景视频中对应目标图像范围内的子视频数据在目标对象所对应的子窗口中输出。

目标数量个子窗口可在第一目标显示窗口中随机排列，也可按照预设规则对目标数量个子窗口进行排列后显示于第一目标显示窗口内。

在本实施例中，通过上述方式，可保证远程交互过程中远端用户可基于第一目标显示窗口中显示的视频数据同时获取到目标空间内多于一个发声对象的交互细节，进一步提高远程交互的用户体验。

进一步的，在本实施例中，步骤S32包括：获取每个所述声源对象对应的发声状态参数，所述发声状态参数表征对应的声源对象的发声时间与当前时间之间的间隔时长；在多于一个所述声源对象中，根据各所述声源对象的发声状态参数确定所述目标数量个声源对象作为目标对象。

在本实施例中，发声状态参数的获取过程具体如下：获取每个所述声源对象当前分别对应的标签值，每个声源对象的标签值均大于或等于第一预设值，标签值表征对应的声源对象在当前时刻之前未发声的连续次数；根据预设规则更新每个所述声源对象当前的标签值，获得每个所述声源对象更新后的标签值作为每个所述声源对象的发声状态参数；其中，所述预设规则包括：当前处于发声状态的声源对象的标签值设置为所述第一预设值，当前未处于发声状态的声源对象的标签值增加第二预设值。其中，标签值在每次存在声源对象发声的过程中按照这里的预设规则进行更新。若所有声源对象均未有发声时可对每个声源对象对应的标签值进行初始化，每个声源对象对应的标签值的初始值可相同或不同。在本实施例中，第一预设值为0，第二预设值为1。在其他实施例中，第一预设值和第二预设值也可根据实际需求设置为其他数值，如第一预设值为1，第二预设值为2等。标签值所允许存在最小值为第一预设值。

基于按照预设规则更新得到各个声源对象的标签值，则在多于一个所述声源对象中，根据各所述声源对象的发声状态参数将所述目标数量个声源对象作为目标对象的步骤包括：将所有发声状态参数按照从小到大的顺序依次排列，获得排列结果；将所述排列结果中排列位次在前的目标数量个发声状态参数分别对应的声源对象确定为目标对象。其中，发声状态参数排列位次越前则表明对应的目标对象发声的时刻与当前时刻的间隔时长越短。

在其他实施例中，发声状态参数也可为每个声源对象的发声时间与当前时间之间的间隔时长。基于所有间隔时长从小到大的顺序依次排列，将排列位次在前的目标数量个间隔时长分别对应的声源对象确定为目标对象，获得所述目标数量个目标对象。

在本实施例中，按照上面的方式，可保证第一目标显示窗口内显示的是最近发声的目标数量个声源对象，从而保证远程交互过程中交互的实时性和便利性，以进一步提高远程交互过程中的用户体验。

进一步的，在本实施例中，目标数量个子窗口在第一目标显示窗口中合并显示的过程具体如下：确定每个所述目标对象的目标图像范围上的预设图像位置以所述全景视频的预设成像中心为基点的第二图像方位角；所述根据各所述目标对象对应的第二图像方位角之间的大小关系确定所述目标数量个子窗口的排列顺序；在所述第一目标显示窗口内按照所述排列顺序合并显示所述目标数量个子窗口。

在本实施例中，预设图像位置为目标图像范围的中心位置；在其他实施例中预设图像位置也可为目标图像范围的边缘位置或其他位置。

具体的，可按照第二图像方位角从大到小的顺序对目标数量个子窗口进行排列得到这里的排列顺序；也可按照第二图像方位角从小到大的顺序对目标数量个子窗口进行排列得到这里的排列顺序。

定义所述预设成像中心指向预设水平方向的射线为基准线，定义每个目标对象对应的预设图像位置与所述预设成像中心的连线为目标线，每个目标对象对应的第二图像方位角为所述基准线沿顺时针方向到所述目标对象对应的目标线的水平夹角，所述根据各所述目标对象对应的第二图像方位角之间的大小关系确定所述目标数量个子窗口的排列顺序的步骤包括：根据第二图像方位角从小到大的顺序依次排列所述目标数量个子窗口，获得所述排列顺序。

在本实施例中，基于第二图像方位角之间的大小关系对目标数量个子窗口进行排列显示，从而保证第一目标显示窗口输出的各个目标对象的子视频数据的排列顺序与各个目标对象在目标空间内的相对位置相同，以保证远端用户可基于输出的视频数据从视觉上模拟其身临目标空间内时的交互场景。其中，根据第二图像方位角从小到大的顺序依次排列所述目标数量个子窗口，从而最大程度地模拟远端用户在目标空间现场进行面对面交互时的场景，以进一步提高远程交互过程的用户体验。

为了更好地理解本实施例涉及的目标数量个目标对象的确定过程，结合图9和图12对本实施例方案进行说明：

图9中的交流窗口为本实施例中的第一目标显示窗口，W1、W2、W3为第一目标显示窗口中依次排列的子窗口，W4为当前新增的声源对象对应的虚拟子窗口、为在第一目标显示窗口中不显示的子窗口；图9和图12P2、P3、P5、P7等分别表征的是不同的声源对象。

其中，W1、W2、W3、W4分别对应一个标签值，W1、W2、W3上的目标对象对应的标签值的初始值依次为1、2、3；在当前存在声源对象发声的过程中，当前发声的声源对象的子窗口的标签值为0，当前未发声的声源对象的子窗口的标签值均增加1；同一声源对象连续发声时，其子窗口的标签值持续为0；每个声源对象对应的标签值最大为4，最小为0。

基于此，第一目标显示窗口内的声源对象当前处于发声状态时，则子窗口的排序不调整，每个声源对象对应的状态值按照上述规则更新；当第一目标显示窗口内的声源对象以外新增的声源对象当前处于发声状态时，确定，第一目标显示窗口内状态值最大的声源对象对应的子窗口删除，将新增的声源对象对应的子窗口与第一目标显示窗口内被删除的子窗口以外的其他子窗口按照图像方位角进行排序，每个声源对象对应的状态值按照上述规则更新。按照子窗口的最新排序将目标数量个子窗口在第一目标显示窗口内依次显示。

例如，第一目标显示窗口中当前显示P2、P3和P5对应的子窗口，之后P2、P3、P5以及P7的发声顺序依次为P3、P5、P7以及P2，则第一目标显示窗口内的显示情况、各声源对象对应的状态值以及基于图像方位角对各个目标对象对应的子窗口的排序结果可参照图9。

进一步的，基于上述任一实施例，提出本申请远程交互方法第七实施例。在本实施例中，参照图10，所述获取目标空间的全景图像的步骤之后，还包括：

步骤S101，识别所述全景视频的基准位置对应的人形图像区域，所述基准位置以所述全景视频的预设成像中心为基点的图像方位角为预设角度值，所述人形图像区域包括人体上目标区域对应的完整图像，所述目标区域为人体在交互时需展示的最小区域；

基准位置所在图像范围可为对应的图像方位角与预设角度值之间的差值小于或等于设定值的图像位置集合。具体的，可对基准位置所在图像范围内进行人体部位识别获得人体部位的特征图像，基于特征图像推算得到人形图像区域。

例如，目标区域为人体在肩部及其以上的区域时，若图像范围内存在人体的左肩和左边的半个头部对应的特征图像，可基于特征图像计算得到人体整个肩部和肩部以上的整个头部所对应的完整图像作为人形图像区域。

在本实施例中，所述基准位置为所述全景视频的图像边缘位置，预设角度值为0度。在其他实施例中，预设角度值也可为与0度夹角为单个人体图像区域对应的图像方位角幅度的整数倍的角度值。例如单个人体图像区域的最大图像方位角与最小图像方位角之间的角度差为a，则与0度夹角为a的整数倍的角度值可作为预设角度值。

步骤S102，确定所述人形图像区域以所述预设成像中心为基点的图像方位角的最小值；

步骤S103，响应于所述最小值小于所述预设角度值的情况，根据所述最小值与所述预设角度值的差值调整所述全景视频对应的拍摄范围，返回执行所述获取所述目标空间的全景视频的步骤；

步骤S104，响应于所述最小值大于或等于所述预设角度值的情况，执行所述根据所述发声范围确定所述声源对象在所述全景视频中所处的目标图像范围的步骤。

预设角度值具体为用于表征人体图像能否在全景视频中完整显示的临界图像方位角。最小值小于预设角度值时，表明人体图像不能在全景视频中完整显示；最小值大于或等于预设角度值时，表明人体图像可在全景视频中完整显示。

具体的，可将最小值与所述预设角度值之间差值作为目标旋转角度值或将最小值与所述预设角度值之间差值增大设定角度值后的数值作为目标旋转角度值。控制全景视频的拍摄模块将其拍摄范围沿水平方向旋转与目标旋转角度值一致的角度值，使人体上目标区域对应的完整图像可在全景视频中全部显示，基准位置对应的图像范围内不存在人体部位对应的图像。

例如，可基于上述方式将全景视频从图11(a)调整至图11(b)的状态。

在本实施例中，通过上述方式可保证人形图像可在全景视频中完整显示，以进一步提高远程交互的用户交互体验。

进一步的，基于上述任一实施例，步骤S30执行的同时还包括：在第二目标显示窗口内输出所述全景视频，并发送所述第二目标显示窗口至所述远端设备，以使所述远端设备合并显示所述第一目标显示窗口和所述第二目标显示窗口。

具体的，可将第一目标显示窗口和第二目标显示窗口合并后发送至远端设备；也可将第一目标显示窗口和第二目标显示窗口单独发送至远端设备，远端设备接收到第一目标显示窗口和第二目标显示窗口后对两个窗口进行合并显示。

例如，如图12所示，将第一目标显示窗口A与第二目标显示窗口B在远端设备上合并显示。

基于此，可保证远端用户可基于输出的视频数据同时知晓目标空间内整体场景情况和发声对象的交互细节，有利于进一步提高远程交互的用户体验。

进一步的，基于上述任一实施例，所述在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口的步骤之前，还包括：获取所述第一目标显示窗口对应的灵敏度参数；所述灵敏度参数表征所述第一目标显示窗口内视频数据的更新频率；根据所述灵敏度参数确定声音识别所需间隔的目标时长；所述在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口的步骤之后，还包括：间隔所述目标时长，返回执行所述获取目标空间内声源对象的发声范围，获取所述目标空间的全景视频的步骤。

其中，所述获取所述第一目标显示窗口对应的灵敏度参数的步骤包括：获取当前远程交互场景的场景特征参数或用户设置参数；根据所述场景特征参数或所述用户设置参数确定所述灵敏度参数。这里的场景特征参数可具体包括目标空间内的用户情况或远程交互场景的场景类型(如视频会议或视频直播等)。用户设置参数为用户基于其实际交互需求向远程交互设备输入关于第一目标显示窗口中视频数据的更新频率的参数。

具体的，可预先设置有多个预设灵敏度参数，不同的预设灵敏度参数对应不同的预设时长，根据场景特征参数或用户设置参数从多个预设灵敏度参数中确定当前的第一目标显示窗口对应的灵敏度参数，将当前的第一目标显示窗口对应的灵敏度参数对应的预设时长作为目标时长。

例如，多个预设灵敏度参数范围为1档灵敏度、2档灵敏度以及3档灵敏度，依次对应的预设时长为0.5秒、1秒以及1.5秒。

基于此，在第一目标显示窗口对若干个子视频数据进行输出后，在间隔目标时长后可重新基于目标空间进行声源对象的发声范围识别确定新的子视频数据在第一目标显示窗口中输出，从而保证第一目标显示窗口中视频的更新频率和当前远程交互场景下用户的实际交互需求精准匹配，以进一步提高用户的交互体验。

进一步的，基于上述任一实施例，本申请实施例中远程交互方法还包括：检测到静音指令，停止在远端设备输出目标空间内采集的音频数据。

在停止在远端设备输出目标空间内采集的音频数据之后，还可在远端设备中输出静音提示信息，以使远端用户可基于静音提示信息知晓目标空间内的静音状态。

其中，静音指令可通过按键、手机或电脑输入。

进一步的，基于上述任一实施例，本申请实施例中远程交互方法还包括：检测到关闭视频指令，停止在远端设备输出目标空间内采集的视频数据。

在停止在远端设备输出目标空间内采集的视频数据之后，还可在远端设备中输出视频关闭的提示信息，以使远端用户可基于视频关闭的提示信息知晓目标空间内的视频关闭状态。

其中，关闭视频指令可通过按键、手机或电脑输入。

进一步的，基于上述任一实施例，本申请实施例中远程交互方法还包括：检测到预设指令，停止执行所述步骤S10至步骤S30，只在远端设备上显示第二目标显示窗口，从而保护目标空间内人员的隐私。

其中，预设指令可通过按键、手机或电脑输入。

进一步的，基于上述任一实施例，本申请实施例中远程交互方法还包括：远端设备所在场景内的用户处于发声状态，停止执行S10至步骤S30；当远端设备所在场景内用户处于未发声状态，执行步骤S10至步骤S30。

这里远端设备所在场景内是否处于发声状态可由获取远端设备发送的信息确定。

此外，本申请实施例还提出一种计算机程序，所述计算机程序被处理器执行时实现如上远程交互方法任一实施例的相关步骤。

此外，本申请实施例还提出一种计算机存储介质，所述计算机存储介质上存储有远程交互程序，所述远程交互程序被处理器执行时实现如上远程交互方法任一实施例的相关步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，远程交互设备，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的可选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种远程交互方法，其中，所述远程交互方法包括以下步骤：

获取目标空间内声源对象的发声范围，获取所述目标空间的全景视频；

根据所述发声范围确定所述声源对象在所述全景视频中所处的目标图像范围；

在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口。
如权利要求1所述的远程交互方法，其中，所述获取目标空间内声源对象的发声范围的步骤包括：

在预设时长内检测所述声源对象的发声位置的多个第一空间位置信息，获得多个声源位置信息；

根据所述多个声源位置信息确定所述发声范围。
如权利要求2所述的远程交互方法，其中，所述在预设时长内检测所述声源对象的发声位置的多个第一空间位置信息，获得多个声源位置信息的步骤包括：

在所述预设时长内多次检测所述声源对象的发声位置在所述目标空间中以拍摄模块为基点的方位角和俯仰角，获得多个第一空间方位角和多个第一空间俯仰角；

其中，所述多个声源位置信息包括所述多个第一空间方位角和所述多个第一空间俯仰角，所述拍摄模块被配置为采集所述全景视频。
如权利要求3所述的远程交互方法，其中，所述根据所述多个声源位置信息确定所述发声范围的步骤包括：

确定所述多个第一空间方位角中的最小空间方位角和最大空间方位角，确定所述多个第一空间俯仰角中的最小空间俯仰角和最大空间俯仰角；

根据所述最小空间方位角、所述最大空间方位角、所述最小空间俯仰角以及所述最大空间俯仰角确定所述发声范围对应的多个第一空间角点位置；

将所述多个第一空间角点位置围合形成的空间范围确定为所述发声范围。
如权利要求1所述的远程交互方法，其中，所述根据所述发声范围确定所述声源对象在所述全景视频中所处的目标图像范围的步骤包括：

根据所述发声范围确定包含所述声源对象的目标区域的目标空间范围，所述目标区域为所述声源对象在交互时需展示的最小区域，所述目标空间范围大于或等于所述发声范围；

根据预设对应关系，确定所述目标空间范围在所述全景视频中对应的图像范围为所述目标图像范围；

其中，所述预设对应关系为预先设置的所述目标空间内的空间位置与所述全景视频对应的图像位置之间的对应关系。
如权利要求5所述的远程交互方法，其中，所述根据所述发声范围确定所述声源对象所在的目标空间范围的步骤包括：

获取所述目标空间内允许发声的对象的总数，获取所述发声范围内目标空间位置的第二空间位置信息；

根据所述总数确定所述目标空间范围的大小特征值；

根据所述第二空间位置信息和所述大小特征值确定所述目标空间范围。
如权利要求6所述的远程交互方法，其中，所述目标空间位置为中心位置，所述第二空间位置信息包括所述目标空间位置以拍摄模块为基点的第二空间方位角，所述拍摄模块被配置为采集所述全景视频，所述根据所述第二空间位置信息和所述大小特征值确定所述目标空间范围的步骤包括：

根据所述大小特征值确定空间方位角调整值；

根据所述空间方位角调整值调整所述第二空间方位角，获得所述目标空间范围以所述拍摄模块为基点的方位角范围的最大临界值和最小临界值；

根据所述最大临界值、所述最小临界值以及所述目标空间范围以所述拍摄模块为基点的预设俯仰角范围确定所述目标空间范围的多个第二空间角点位置；

将多个所述第二空间角点位置围合形成的空间范围确定为所述目标空间范围。
如权利要求1所述的远程交互方法，其中，所述根据所述发声范围确定所述声源对象在所述全景视频中所处的目标图像范围的步骤之后，还包括：

识别所述目标图像范围内人体图像所在的图像区域；

确定所述图像区域的面积与所述目标图像范围的面积的比值；

响应于所述比值小于预设值的情况，缩小所述目标图像范围，以使所述比值大于或等于所述预设值；

执行所述在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口的步骤。
如权利要求8所述的远程交互方法，其中，所述缩小所述目标图像范围的步骤包括：

根据所述预设值放大所述图像区域获得缩小后的目标图像范围。
如权利要求9所述的远程交互方法，其中，所述根据所述预设值放大所述图像区域获得缩小后的目标图像范围的步骤包括：

确定所述图像区域内目标图像位置的图像位置参数，根据所述预设值和所述图像区域的宽度确定用于放大所述图像区域的图像位置调整值；

根据所述图像位置调整值和所述图像位置参数确定目标图像位置参数；

根据所述目标图像位置参数确定缩小后的目标图像范围。
如权利要求10所述的远程交互方法，其中，所述图像位置参数包括所述目标图像位置以所述全景视频对应的预设成像中心为基点的第一图像方位角，所述图像位置调整值包括图像方位角调整值，所述根据所述图像位置调整值和所述图像位置参数确定目标图像位置参数的步骤包括：

根据所述图像方位角调整值调整所述第一图像方位角，获得调整后的目标图像范围以所述预设成像中心为基点的最大图像方位角和最小图像方位角；

根据所述最大图像方位角、所述最小图像方位角、所述目标图像位置在所述图像区域的竖直方向上的位置特征参数以及所述目标图像范围的图像比例确定缩小后的目标图像范围以所述预设成像中心为基点的最大图像俯仰角和最小图像俯仰角；

确定所述最大图像方位角、所述最小图像方位角、所述最大图像俯仰角以及所述最小图像俯仰角为所述目标图像位置参数。
如权利要求11所述的远程交互方法，其中，所述目标图像位置为所述发声范围的中心位置在所述图像区域内对应的图像位置。
如权利要求11所述的远程交互方法，其中，所述根据所述目标图像位置参数确定缩小后的目标图像范围的步骤包括：

根据所述最大图像方位角、所述最小图像方位角、所述最大图像俯仰角以及所述最小图像俯仰角确定调整后的目标图像范围的多个图像角点位置；

将所述多个图像角点位置围合形成的图像范围作为缩小后的目标图像范围。
如权利要求13所述的远程交互方法，其中，所述根据所述最大图像方位角、所述最小图像方位角、所述最大图像俯仰角以及所述最小图像俯仰角确定调整后的目标图像范围的多个图像角点位置的步骤之后，还包括：

确定所述多个图像角点位置围合形成的图像范围的区域面积相对于所述图像区域的区域面积的放大倍数；

响应于所述放大倍数小于或等于预设倍数的情况，执行所述将所述多个图像角点位置围合形成的图像范围作为缩小后的目标图像范围的步骤；

响应于所述放大倍数大于所述预设倍数的情况，将所述图像区域放大预设倍数后的图像范围作为缩小后的目标图像范围。
如权利要求8所述的远程交互方法，其中，所述确定所述图像区域的面积与所述目标图像范围的面积的比值的步骤之后，还包括：

响应于所述比值大于或等于所述预设值的情况，执行所述在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口的步骤。
如权利要求1所述的远程交互方法，其中，所述在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口的步骤之后，还包括：

获取所述发声范围的空间位置变化参数或所述目标图像范围内人体图像区域的图像位置变化参数；

根据所述空间位置变化参数或所述图像位置变化参数调整所述目标图像范围；

在所述第一目标显示窗口内输出调整后的目标图像范围内的子视频数据，并发送调整后的第一目标显示窗口至所述远端设备，以使所述远端设备显示调整后的第一目标显示窗口。
如权利要求16所述的远程交互方法，其中，所述空间位置变化参数包括所述发声范围以拍摄模块为基点的空间方位角变化值和/或空间俯仰角变化值，所述拍摄模块被配置为采集所述全景视频；

所述图像位置变化参数包括所述图像区域以所述全景视频的预设成像中心为基点的图像方位角变化值和/或图像俯仰角变化值。
如权利要求1至17所述的远程交互方法，其中，所述在第一目标显示窗口内输出所述目标图像范围内的子视频数据步骤包括：

响应于所述声源对象的数量多于一个的情况，获取所述第一目标显示窗口中需显示的声源对象的目标数量；

在多于一个所述声源对象中确定所述目标数量个声源对象作为目标对象；

在每个所述目标对象对应的子窗口内输出所述目标对象对应的目标图像范围内的子视频数据，并在所述第一目标显示窗口内合并所述目标数量个子窗口。
如权利要求18所述的远程交互方法，其中，所述在多于一个所述声源对象中确定所述目标数量个声源对象作为目标对象的步骤包括：

获取每个所述声源对象对应的发声状态参数，所述发声状态参数表征对应的声源对象的发声时间与当前时间之间的间隔时长；

在多于一个所述声源对象中，根据各所述声源对象的发声状态参数确定所述目标数量个声源对象作为目标对象。
如权利要求19所述的远程交互方法，其中，所述获取每个所述声源对象对应的发声状态参数的步骤包括：

获取每个所述声源对象当前分别对应的标签值，每个声源对象的标签值均大于或等于第一预设值，标签值表征对应的声源对象在当前时刻之前未发声的连续次数；

根据预设规则更新每个所述声源对象当前的标签值，获得每个所述声源对象更新后的标签值作为每个所述声源对象的发声状态参数；

其中，所述预设规则包括：当前处于发声状态的声源对象的标签值设置为所述第一预设值，当前未处于发声状态的声源对象的标签值增加第二预设值。
如权利要求20所述的远程交互方法，其中，所述在多于一个所述声源对象中，根据各所述声源对象的发声状态参数确定所述目标数量个声源对象作为目标对象的步骤包括：

将所有发声状态参数按照从小到大的顺序依次排列，获得排列结果；

将所述排列结果中排列位次在前的目标数量个发声状态参数分别对应的声源对象确定为目标对象。
如权利要求18所述的远程交互方法，其中，所述在所述第一目标显示窗口内合并所述目标数量个子窗口的步骤包括：

确定每个所述目标对象的目标图像范围上的预设图像位置以所述全景视频的预设成像中心为基点的第二图像方位角；

所述根据各所述目标对象对应的第二图像方位角之间的大小关系确定所述目标数量个子窗口的排列顺序；

在所述第一目标显示窗口内按照所述排列顺序合并显示所述目标数量个子窗口。
如权利要求22所述的远程交互方法，其中，定义所述预设成像中心指向预设水平方向的射线为基准线，定义每个目标对象对应的预设图像位置与所述预设成像中心的连线为目标线，每个目标对象对应的第二图像方位角为所述基准线沿顺时针方向到所述目标对象对应的目标线的水平夹角，所述根据各所述目标对象对应的第二图像方位角之间的大小关系确定所述目标数量个子窗口的排列顺序的步骤包括：

根据第二图像方位角从小到大的顺序依次排列所述目标数量个子窗口，获得所述排列顺序。
如权利要求1至17中任一项所述的远程交互方法，其中，所述在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备的步骤执行同时，还包括：

在第二目标显示窗口内输出所述全景视频，并发送所述第二目标显示窗口至所述远端设备，以使所述远端设备合并显示所述第一目标显示窗口和所述第二目标显示窗口。
如权利要求1至17中任一项所述的远程交互方法，其中，所述获取所述目标空间的全景视频的步骤之后，还包括：

识别所述全景视频的基准位置对应的人形图像区域，所述基准位置以所述全景视频的预设成像中心为基点的图像方位角为预设角度值，所述人形图像区域包括人体上目标区域对应的完整图像，所述目标区域为人体在交互时需展示的最小区域；

确定所述人形图像区域以所述预设成像中心为基点的图像方位角的最小值；

响应于所述最小值小于所述预设角度值的情况，则根据所述最小值与所述预设角度值的差值调整所述全景视频对应的拍摄范围，返回执行所述获取所述目标空间的全景视频的步骤；

响应于所述最小值大于或等于所述预设角度值的情况，则执行所述根据所述发声范围确定所述声源对象在所述全景视频中所处的目标图像范围的步骤。
如权利要求25所述的远程交互方法，其中，所述基准位置为所述全景视频的图像边缘位置。
如权利要求1至17中任一项所述的远程交互方法，其中，所述在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口的步骤之前，还包括：

获取所述第一目标显示窗口对应的灵敏度参数；所述灵敏度参数表征所述第一目标显示窗口内视频数据的更新频率；

根据所述灵敏度参数确定声音识别所需间隔的目标时长；

所述在第一目标显示窗口内输出所述目标图像范围内的子视频数据，并发送所述第一目标显示窗口至远端设备，以使所述远端设备显示所述第一目标显示窗口的步骤之后，还包括：

间隔所述目标时长，返回执行所述获取目标空间内声源对象的发声范围，获取所述目标空间的全景视频的步骤。
如权利要求27所述的远程交互方法，其中，所述获取所述第一目标显示窗口对应的灵敏度参数的步骤包括：

获取当前远程交互场景的场景特征参数或用户设置参数；

根据所述场景特征参数或所述用户设置参数确定所述灵敏度参数。
如权利要求1至17中任一项所述的远程交互方法，其中，所述远程交互方法还包括；

检测到静音指令，停止在远端设备输出目标空间内采集的音频数据；

且/或，所述远程交互方法还包括；

检测到关闭视频指令，停止在远端设备输出目标空间内采集的视频数据；

且/或，所述远程交互方法还包括；

检测到预设指令，停止执行所述获取目标空间内声源对象的发声范围的步骤；

且/或，所述远程交互方法还包括；

响应于远端设备所在场景内的用户处于发声状态的情况，停止执行所述获取目标空间内声源对象的发声范围的步骤；远端设备所在场景内用户处于未发声状态，执行所述获取目标空间内声源对象的发声范围的步骤。
一种远程交互设备，其中，所述远程交互设备包括：

拍摄模块；

麦克风阵列；以及

控制装置，所述全景拍摄模块和所述麦克风阵列均与所述控制装置连接，所述控制装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的远程交互程序，所述远程交互程序被所述处理器执行时实现如权利要求1至29中任一项所述的远程交互方法的步骤。
如权利要求30所述的远程交互设备，其中，所述远程交互设备还包括扬声器、按键模块、通信模块以及数据接口，所述扬声器、所述按键模块、所述通信模块以及所述数据接口均与所述控制装置连接。
一种计算机存储介质，其中，所述计算机存储介质上存储有远程交互程序，所述远程交互程序被处理器执行时实现如权利要求1至29中任一项所述的远程交互方法的步骤。