WO2016008209A1

WO2016008209A1 - 一种移动终端的工具及智能整合音视频的服务器

Info

Publication number: WO2016008209A1
Application number: PCT/CN2014/086576
Authority: WO
Inventors: 宋晨枫
Original assignee: 北京小鱼儿科技有限公司
Priority date: 2014-07-15
Filing date: 2014-09-15
Publication date: 2016-01-21
Also published as: US10349008B2; CN104135641B; CN104135641A; US20180176507A1

Abstract

本发明公开了一种安装于移动终端的工具和一种智能整合实时音视频的服务器，其中，安装于移动终端的工具包括：发送单元，被配置为响应于第一触发，发送对多个通信终端采集的实时视频的整合的视频的请求；接收单元，被配置为接收所述多个通信终端采集的实时视频的整合的视频，其中，发送单元基于在移动终端的显示器上显示的视频对应的、所述多个通信终端中的第一通信终端集合，发送对第一通信终端集合中的通信终端采集的实时音频的整合的音频的请求，接收单元接收第一通信终端集合中的通信终端采集的实时音频的整合的音频。本发明在被监视的场景超出了一个摄像头的拍摄范围的情况下能够让监视的人看到整个被监视场景，而不是被监视场景的一部分。

Description

一种移动终端的工具及智能整合音视频的服务器

本申请要求了2014年7月15日提交的、申请号为201410337180.2、发明名称为“一种移动终端的工具及智能整合音视频的服务器”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信和图像处理技术，尤其涉及一种移动终端的工具及智能整合音视频的服务器。

背景技术

现有技术中，例如长桌会议等环境下，由于会议场景狭长，超出了一个摄像头的拍摄范围，因此在利用远程摄像头等进行监控或使用视频终端进行远程双向视频通话的应用中，监控或通话的人只能通过该一个摄像头采集的视频，观看到会议场景的一部分。

发明内容

本发明解决的技术问题之一是在被监视的场景超出了一个摄像头的拍摄范围的情况下能够让监视的人看到整个被监视场景，而不是被监视场景的一部分。

根据本发明的一个实施例，提供了一种安装于移动终端的工具，包括：发送单元，被配置为响应于第一触发，发送对多个通信终端采集的实时视频的整合的视频的请求，其中所述多个通信终端分别采集特定场景的一部分的实时视频，所述多个通信终端分别采集的实时视频整合后构成所述特定场景的实时视频；接收单元，被配置为接收所述多个通信终端采集的实时视频的整合的视频，其中，发送单元基于在移动终端的显示器上显示的视频对应的、所述多个通信终端中的第一通信终端集合，发送对第一通信终端集合中的通信终端采集的实时音频的整合的音频的请求，接收单元接收第一通信终端集合中的通信终端采集的实时音频的整合的音频，其中在移动终端的显示器上显示的视频是所述多个通信终端采集的实时视频的整合的视频的一部分。

可选地，该工具还包括：配置单元，用于接收用户对所述多个通信终端采集的视音频进行整合的配置。

可选地，发送单元还向第一通信终端集合中的通信终端发起连接请求，并响应于第一通信终端集合中的通信终端的自动应答，与第一通信终端集合中的通信终端建立双向通信。

可选地，该工具还包括：缩放单元，被配置为响应于用户对移动终端的显示器上显示的视频的缩放操作，对移动终端的显示器上显示的视频进行缩放，从而显示器上显示的视频对应的第一通信终端集合改变。

可选地，该工具还包括：滑动单元，被配置为响应于用户对移动终端的显示器上显示的视频的滑动操作，对移动终端的显示器上显示的视频进行滑动，从而显示器上显示的视频对应的第一通信终端集合改变。

可选地，所述第一触发包括以下中的任一种：所述移动终端的开机；所述移动终端开机状态下所述工具的激活；所述移动终端开机状态下用户界面上的特定动作；所述移动终端开机状态下接收到的特定语音；所述移动终端开机状态下感测到的光线变强。

可选地，发送单元响应于接收到针对所述特定场景中特定人的选择，发送对所述多个通信终端采集的实时视、音频中涉及所述特定人的实时视、音频的整合的视、音频的请求，接收单元接收所述多个通信终端采集的实时视、音频中涉及所述特定人的实时视、音频的整合的视、音频。

可选地，发送单元响应于接收到针对所述特定场景中特定人的选择，向采集了涉及所述特定人的实时视、音频的通信终端发起连接请求，并响应于采集了涉及所述特定人的实时视、音频的通信终端的自动应答，与采集了涉及所述特定人的实时视、音频的通信终端建立双向通信。

可选地，针对所述特定场景中特定人的选择是对在移动终端的显示器上显示的视频中特定人的点击或说出特定人的名字。

根据本发明的一个实施例，还提供了一种智能整合实时音视频的服务器，包括：视、音频接收装置，被配置为接收来自多个通信终端的实时视、音频、来自移动终端的对所述多个通信终端采集的实时视频的整合的视频的请求、来自移动终端的对所述多个通信终端中第一通信终端集合中的通信终端采集的实时音频的整合的音频的请求；视、音频整合装置，被配置为响应于来自移动终端的对所述多个通信终端采集的实时视频的整合的视频的请求，对所述多个通信终端采集的实时视频进行整合，并响应于来自移动终端的对所述多个通信终端中第一通信终端集合中的通信终端采集的实时音频的整合的音频的请求，对所述多个通信终端中第一通信终端集合中的通信终端采集的实时音频进行整合；视、音频发送装置，被配置为将整合的视频或/和整合的音频发送到移动终端。

可选地，服务器还包括：通信建立单元，被配置为响应于接收到来自移动终端的向所述第一通信终端集合中的通信终端的连接请求，向所述第一通信终端集合中的通信终端转发该连接请求，并响应于第一通信终端集合中的通信终端的自动应答，在移动终端和第一通信终端集合中的通信终端间建立双向通信。

可选地，视、音频整合装置包括：视频画面比对模块，被配置为将所述多个通信终端采集的实时视频进行实时对比，确定所述多个通信终端采集的实时视频之间的重叠部分；重叠部分消除模块，被配置为消除所述多个通信终端采集的实时视频之间的重叠部分，从而对所述多个通信终端采集的实时视频进行整合。

可选地，服务器还包括：识别装置，响应于接收到来自移动终端的对所述多个通信终端采集的实时视、音频中涉及所述特定人的实时视、音频的整合的视、音频的请求，识别所述多个通信终端采集的实时视、音频中涉及所述特定人的实时视、音频，并且所述视、音频整合装置整合所述涉及所述特定人的实时视、音频，所述视、音频发送装置向移动终端发送整合的所述涉及所述特定人的实时视、音频。

可选地，服务器还包括：识别装置，响应于接收到来自移动终端的向采集了涉及所述特定人的实时视、音频的通信终端的连接请求，识别所述多个通信终端采集的实时视、音频中涉及所述特定人的实时视、音频，从而识别采集了涉及所述特定人的实时视、音频的通信终端，并且所述通信建立单元向采集了涉及所述特定人的实时视、音频的通信终端转发连接请求，并响应于采集了涉及所述特定人的实时视、音频的通信终端的自动应答，在移动终端和采集了涉及所述特定人的实时视、音频的通信终端之间建立双向通信。

由于本发明的一个实施例中，多个通信终端分别采集特定场景的一部分的实时视频，所述多个通信终端分别采集的实时视频整合后构成所述特定场景的实时视频，这样，移动终端发送对该整合视频的请求后，该整合视频就能显示在移动终端，达到了在被监视的场景超出了一个摄像头的拍摄范围的情况下能够让监视的人看到整个被监视场景的效果。

另外，由于被监视场景是例如狭长的，监视用户可能在某一时间点只要监视一部分场景，即看到这一部分场景的视频，听到这一部分场景的音频，因此本发明的实施例可以基于在移动终端的显示器上显示的视频对应的、所述多个通信终端中的第一通信终端集合，发送对第一通信终端集合中的通信终端采集的实时音频的整合的音频的请求，并只接收第一通信终端集合中的通信终端采集的实时音频的整合的音频。如此，当移动终端收到来自多个通信终端采集的实时视频的整合视频时，根据显示器的尺寸和视频画面在显示器当前可显示的画面大小自动知道显示器显示的视频对应于整合视频的哪一部分、以及其对应的第一通信终端集合，，并获取对该第一通信终端集合中的通信终端采集的实时音频的整合音频，也即，本实施例确保在显示器上显示的视频和用户听到的音频是对应的，达到了有效避免因接收所有音频而造成其它部分音频对显示器显示的部分视频的干扰的有益效果。一旦音频与视频不对应，监视用户会难以分清声音是否来自于当前显示的画面中的人，造成困惑。能够只听显示器画面中的人说话，同时抑制其他通信终端所采集到的音频，而不是听整个场景中所有的人说话，目前是监视系统尤其是会议监视系统的一个创举。

由于本发明的一个实施例的工具还包括配置单元，用于接收用户对所述多个通信终端采集的视音频进行整合的配置，也就是说，所述多个通信终端是由用户指定与用户的移动终端绑定的，这样，下次响应于第一触发，才能知道请求哪些移动终端的整合的视频。这样，可以实现由用户来指定与其移动终端绑定的用户希望整合其视音频的多个通信终端，达到了用户可以根据需要灵活指定与其终端绑定、并整合其视音频的通信终端的有益效果。

由于本发明的一个实施例提供的安装于移动终端的工具可以向第一通信终端集合中的通信终端发起连接请求，并响应于第一通信终端集合中的通信终端的自动应答，与第一通信终端集合中的通信终端建立双向通信，这样，本实施例可以根据识别出的特定的通信终端集合，向该集合中的通信终端自动发起连接请求，从而与识别出的通信终端建立通信，达到监视用户在显示器上看见谁、就能跟谁像打电话一样无障碍双向交流的有益效果，这是目前的会议监视系统做不到的，是监视系统目前的一个创举。另外，第一通信终端集合中的通信终端自动应答，确保了例如被监视会议场景的人感觉不到这种切换，实现了无缝会议监视，使开会和通话的流畅性不被打断。

由于本发明的一个实施例提供的安装于移动终端的工具还可以包括缩放单元和/或滑动单元，通过响应于用户的缩放操作和/或滑动操作，改变显示器上显示的视频所对应的第一通信终端集合。根据该实施例，用户可以根据观看视频的需要，任意地缩放和移动视频画面，这样，监视用户如果想跟被监视场景中的另一个人说话，就滑动视频画面，使显示器显示的画面变成含有那个人的画面；如果当前显示器的画面中含有多个人，但监视用户只想跟一个人说话，可以缩放显示器显示的画面变成只含有该人，这样，达到了监视用户随心所欲选择和被监视场景中的任何人说话的目的。这也是会议监视系统中的创举。

由于本发明的一个实施例提供的安装于移动终端的工具可以响应于接收到针对所述特定场景中特定人的选择，发送对所述多个通信终端采集的实时视、音频中涉及所述特定人的实时视、音频的整合的视、音频的请求并接收所述多个通信终端采集的实时视、音频中涉及所述特定人的实时视、音频的整合的视、音频，从而使得移动终端旁的用户非常清楚需要与特定场景中的哪些人实时对话时，仅说出或输入这些人的名字就不用再缩放或滑动显示器上的画面就能快速锁定并观看其中涉及这些人的整合的视音频，有效节省人工筛选的时间和精力。这也是会议监视系统的创举。

由于本发明的一个实施例提供的安装于移动终端的工具可以响应于接收到针对所述特定场景中特定人的选择，向采集了涉及所述特定人的实时视、音频的通信终端发起连接请求，并响应于采集了涉及所述特定人的实时视、音频的通信终端的自动应答，与采集了涉及所述特定人的实时视、音频的通信终端建立双向通信，从而使得移动终端旁的用户非常清楚需要与特定场景中的哪些人实时对话时，仅说出或输入这些人的名字就不用再缩放或滑动显示器上的画面就能快速锁定并进一步直接与这些人旁边的通信终端建立双向通信，有效节省人工筛选的时间和精力。这也是会议监视系统的创举。

根据本发明的一个实施例，针对所述特定场景中特定人的选择是对在移动终端的显示器上显示的视频中特定人的点击或说出特定人的名字，如此，用户可以通过说话或者手动操作地方式方便地选择特定场景中出现的特定人，并可以进一步触发发送对多个通信终端采集的实时视、音频中涉及所述特定人的实时视、音频的整合的视、音频的请求，或进一步触发向采集了涉及所述特定人的实时视、音频的通信终端发起连接请求，也即，根据本发明的实施例，可以响应于用户的说话或手动选择，触发一系列后续步骤的自动完成，对于用户而言，这种简单的触发方式节省了大量时间和精力。

由于根据本发明的另一个方面的一个实施例，提供了一种智能整合实时音视频的服务器，其可以根据来自移动终端的整合相应视音频的请求，对多个通信终端拍摄的视音频进行整合并将整合后的视音频发送给移动终端，从而实现了在被监视的场景超出了一个摄像头的拍摄范围的情况下能够让监视的人看到整个被监视场景，而不是被监视场景的一部分。

在本发明的一个实施例中，服务器既可以根据移动终端的请求来整合所有多个通信终端中的部分通信终端采集的音频并将整合的音频发送给移动终端，也可以整合所有多个通信终端采集的音频。无论如何，本实施例提供的服务器可以根据移动终端的具体请求自适应调整返回给移动终端的音频，从而使得移动终端的用户可以非常灵活地从服务器接收特定部分的整合的音频。例如，当一段终端的显示器上仅显示被监视场景中的一部分时，可以只向移动终端的用户发送这一部分场景相对应的音频，这样，监视用户看到的视频和音频是对应的，不受其它部分音频干扰。

由于根据本发明的一个实施例提供的服务器还可以响应于接收到来自移动终端的向第一通信终端集合中的通信终端的连接请求，向所述第一通信终端集合中的通信终端转发连接请求，并响应于第一通信终端集合中的通信终端的自动应答，在移动终端和第一通信终端集合中的通信终端间建立双向通信，由此，通过该服务器，可以自动建立移动终端与显示器上显示画面中的特定通信终端的连接，达到显示谁、就能和谁之间双向交流的效果。

由于根据本发明的一个实施例提供的服务器还可以对多个通信终端采集的实时视频进行实时对比，并消除实时视频之间的重叠部分，从而使得处理后的视频看上去的整体感更强。例如，在一个大型的会议场所，为了拍摄整个会议场所的所有视角，放置了多台通信终端，每台通信终端分别采集该会议场所的一部分实时音视频，由于通信终端的音视频采集镜头通常是广角的，因而相邻或邻近的通信终端所采集的视频画面必然存在重叠画面，本实施例通过对视频画面进行比对并对其中的重叠部分予以消除，使得最后整合的来自多个通信终端所采集的视频画面形成一个整体的、完整的视频画面，最后给用户呈现的整体画面使用户感觉不到是由多个通信终端分别采集而得的，而是感觉由一个独立的具有很长很宽的镜头的拍摄设备单独拍摄完成，画面的整体感很强。

由于本发明的一个实施例提供的服务器可以响应于接收到来自移动终端的对所述多个通信终端采集的实时视、音频中涉及所述特定人的实时视、音频的整合的视、音频的请求，识别所述多个通信终端采集的实时视、音频中涉及所述特定人的实时视、音频，并且整合所述涉及特定人的实时视音频，并向移动终端发送整合的所述涉及所述特定人的实时视音频，从而使得移动终端旁的用户非常清楚需要与特定场景中的哪些人实时对话时，仅发送对这些人的视、音频的请求不用再进一步地浏览整个被监视场景并选择，就能快速锁定并观看其中涉及这些人的整合的视音频，有效节省人工筛选的时间和精力。

由于本发明的一个实施例提供的服务器还可以包括识别装置，响应于接收到来自移动终端的向采集了涉及所述特定人的实时视、音频的通信终端的连接请求，识别所述多个通信终端采集的实时视、音频中涉及所述特定人的实时视、音频，从而识别采集了涉及所述特定人的实时视、音频的通信终端，并且，所述通信建立单元向采集了涉及所述特定人的实时视音频的通信终端转发连接请求，并响应于采集了涉及所述特定人的实时视音频的通信终端的自动应答，在移动终端和采集了涉及所述特定人的实时视音频的通信终端之间建立双向通信，从而使得移动终端旁的用户非常清楚需要与特定场景中的哪些人实时对话时，仅发送向这些人相关的通信终端的连接请求，从而与这些人相关的通信终端建立连接，就能快速与需要的人建立直接通信，有效节省人工筛选的时间和精力。

本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个实施例的安装于移动终端1的工具11的示意性框图；

图2示出了根据本发明一个优选实施例的多个通信终端进行实时视音频采集的示意图；

图3(a)示出了根据本发明一个实施例的由服务器整合后的六个通信终端拍摄的视频；

图3(b)示出了根据本发明一个实施例的安装于移动终端1的工具11激活后移动终端的显示器上显示的初始画面；

图3(c)示出了根据本发明一个实施例的缩放图3(b)中显示器上显示的画面后的结果；

图3(d)示出了根据本发明一个实施例的滑动图3(b)中显示器上显示的画面后的结果；

图3(e)示出了根据本发明一个实施例的当用户选择特定人时显示器上显示整合后的特定人所在的视频的情形；

图4示出了根据本发明一个优选实施例的移动终端与第一通信集合中的通信终端直接建立连接的示意图；

图5示出了根据本发明一个实施例的智能整合实时音视频的服务器的示意性框图；

图6示出了根据本发明一个优选实施例的基于服务器在移动终端和通信终端之间建立通信的示意图；

图7示出了根据本发明一个实施例的视音频整合装置的示意性框图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出了根据本发明一个实施例的安装于移动终端1的工具11的示意性框图。根据图1，所述安装于移动终端1的工具11，包括：

发送单元101，被配置为响应于第一触发，发送对多个通信终端2采集的实时视频的整合的视频的请求，其中所述多个通信终端2分别采集特定场景的一部分的实时视频，所述多个通信终端2分别采集的实时视频整合后构成所述特定场景的实时视频；

接收单元102，被配置为接收所述多个通信终端2采集的实时视频的整合的视频；

其中，发送单元101基于在移动终端1的显示器上显示的视频对应的、所述多个通信终端2中的第一通信终端集合，发送对第一通信终端集合中的通信终端2采集的实时音频的整合的音频的请求，接收单元102接收第一通信终端集合中的通信终端2采集的实时音频的整合的音频，其中在移动终端1的显示器上显示的视频是所述多个通信终端2采集的实时视频的整合的视频的一部分。

需要说明的是，上述视音频的整合包括但不限于多个视频画面的去重和拼接，多个音频的去重和降噪等。现有技术存在多种对图像进行整合的技术，例如申请号为“201410117927.3”、发明名称为“一种多路视频监控图像数据处理方法及系统”的专利公开了将多路图像拼接成一幅图像的技术方案。

上文中，所述安装于移动终端1的工具11以诸如应用程序(app)的方式安装于移动终端上，并以相应的应用图标的形式予以展示，或者app固化在一个芯片内插入移动终端，安装于移动终端1的工具11体现为该芯片。

第一触发指某种动作，该动作使发送单元发送对多个通信终端2采集的实时视频的整合的视频的请求。例如，它可以包括以下中的任一种：所述移动终端的开机；所述移动终端开机状态下所述工具的激活；所述移动终端开机状态下用户界面上的特定动作；所述移动终端开机状态下感测到的光线变强。其中，开机作为触发，就可以使得一开机就接收到整合的视频，用户不用激活工具，避免复杂操作。所述移动终端开机状态下所述工具的激活作为触发，好处是用户可以在开机之后再次决定是否要接收整合的视频，避免开机后自动激活但用户并不需要的情况。也可以通过所述移动终端开机状态下用户界面上的特定动作诸如点击、双击、长按等来进行第一触发，它的好处也是用户可以在开机之后再次决定是否要接收整合的视频，避免开机后自动激活但用户并不需要的情况。另外，还可以通过所述移动终端开机状态下感测到的光线变强进行第一触发，这样，实现例如用户从口袋里掏出移动终端使得移动终端感测到的光线变强而自动触发的有益效果，它不是开机作为触发，因为即使开机由于移动终端在用户的口袋里用户也不可能需要整合的视、音频，只要用户从口袋里掏出移动终端，它就自动开启整合视、音频的功能，避免了用户再开启整合功能的复杂操作。

所述第一触发还可以是其它方式，在此，对于所述工具的触发方式不作限定。

所述移动终端1包括但不限于任何一种可与用户进行人机交互的通信设备，在此不作限定。所述通信终端2包括但不限于任何一种可与用户通过触摸板、遥控设备、声控设备或键盘等进行人机交互的电子产品，例如计算机、平板电脑(PAD)等，本领域技术人员应能理解，其他设备如可适用于本发明，也应包含在本发明保护范围以内。

其中，通信终端2可以通过任何具有视频采集功能的装置(诸如摄像头)进行实时视频的采集，通信终端2可以通过任何具有音频采集功能的装置(诸如录音单元)进行实时音频的采集。所述通信终端2可以基于诸如传输控制协议(TCP)或用户数据报协议(UDP)等将实时采集的视音频实时或定时上传到相应的服务器，由服务器对多个通信终端2上传的视音频进行统一地整合处理。

实践中，所述多个通信终端2通常位于特定的场景，各个通信终端2通常负责采集特定场景的一部分实时视频，当各个通信终端2实时将所采集的各部分视音频信息上传到相应的服务器，由服务器对这些视音频进行整合，得到该特定场景的完整的实时视音频。当然，服务器可以对所述多个通信终端2中的一部分通信终端上传的视音频进行整合，也可以对全部所述多个通信终端上传的视音频进行整合。典型地，请参考图2，图2示出了根据本发明一个实施例的多个通信终端进行实时视音频采集的示意图。如图2所示，在一个长型场所，放置六台通信终端2，每个通信终端2负责采集该宴会场所的一定区域的视音频信息(由对应的视场决定)，位置相邻或相近的通信终端2通常所采集的视音频存在交叉或重叠，例如，相邻的两个通信终端2同时拍摄到同一个人，或同时捕捉到多个人的发言，则服务器经过对相邻的两个通信终端2上传的包含同一个人的多个视频或同时捕捉到多个人的发言的多个音频进行整合处理，在该整合的视频画面中，仅包含这个人的整合之后的整体画面，而不是包含这个人的具有画面重叠部分的两个独立的画面；在该整合的音频中，仅包含捕捉到的多个人的整合之后的一份音频，而不是包含捕捉到的多个人的重叠的两份独立音频的叠加音频。在图2中，6个通信终端2分别捕捉到6个人p1-p6的视音频，每个通信终端捕捉到一个人的视音频。

特定的场景可以是大型会议场所、宴会场所等，还可以是其他需要多个通信终端进行现场的实时视音频采集的场所。

图3(a)示出了根据本发明一个实施例的由服务器整合后的六个通信终端拍摄的视频。假设被监视场景中的六个人p1-p6分别位于六个通信终端采集的视频6-1、6-2……6-6中,其中每个通信终端采集的视频部分在整合视频中称为“窗口”。如果将图3(a)中整个的整合视频显示在移动终端1的显示器上，会导致每个窗口太小，看不清人。因此，本发明的一个实施例允许在移动终端1的显示器180上只显示部分窗口。如图3(b)所示，在安装于移动终端1的工具11激活后移动终端1的显示器180上显示的初始画面中只包括窗口6-2和6-3，即人p2、p3所在窗口。

由于显示器180上显示的是两个窗口，如果移动终端的扬声器输出所有窗口中(即所有通信终端采集的声音)的话，持有移动终端1的用户就会发生困惑，因为有些声音来自窗口6-2和6-3这两个窗口以外的窗口，用户会不知道是否是这两个窗口中的人发出的声音。因此，有必要此时让用户仅听到这两个窗口中的人相关的声音。发送单元101此时知道在移动终端1的显示器上显示的视频对应着哪些通信终端(在本例中第2、3个通信终端)，因此，它可以基于在移动终端1的显示器上显示的视频对应的、所述多个通信终端2中的第一通信终端集合(即第2、3个通信终端)，发送对第一通信终端集合中的通信终端2采集的实时音频的整合的音频的请求，接收单元102接收第一通信终端集合中的通信终端2采集的实时音频的整合的音频，从而移动终端1的扬声器只输出所述来自第一通信终端集合的通信终端2(在本例中即第2、3个通信终端)采集的实时音频的整合的音频，而不是来自所有6个通信终端2采集的实时音频的整合的音频。

应当理解，图1所示的框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些单元或装置。

根据本发明的一个优选实施例的工具11，发送单元101还向第一通信终端集合中的通信终端2发起连接请求，并响应于第一通信终端集合中的通信终端2的自动应答，与第一通信终端集合中的通信终端2建立双向通信。对此可参考图4，图4示出了根据本发明一个优选实施例的移动终端与第一通信集合中的通信终端直接建立连接的示意图。由此，无需移动终端旁的用户进行手动地选择待发起连接请求的对象，也无需在选定通信对象后手动启动通信连接请求。这样，移动终端旁的用户无需将当前播放的视频页面进行切换至向通信终端2发起连接请求的页面，因而使得移动终端旁用户可以在本移动终端与通信终端2建立通信的过程中无打扰地观看当前视频页面。例如，在图2b所示的显示器中显示窗口6-2、6-3，因此，发起向与窗口6-2、6-3相关(即拍摄了窗口6-2、6-3的视频)的第2、3个通信终端建立通信的连接请求。

根据本发明的一个优选实施例的工具11，还包括：缩放单元104，被配置为响应于用户对移动终端1的显示器上显示的视频的缩放操作，对移动终端1的显示器上显示的视频进行缩放，从而显示器上显示的视频对应的第一通信终端集合改变。如图3(c)所示，当用户看到图3(b)所示的窗口6-2、6-3的视频后仅想看窗口6-2的视频、听人p2的声音时，可以放大显示器上的画面，使显示器上只显示有人p2的窗口6-2，此时移动终端的扬声器只输出该窗口对应的通信终端采集的声音，因此，用户可以与人p2进行单独监视，可以只获得与p2有关的视、音频而不受其他人的干扰。

具体而言，缩放单元104可以响应于用户诸如双指移动或滑动的操作，对移动终端1当前显示的视频画面进行缩小或放大，当满足诸如视频画面的大小位于诸如根据该工具默认的或用户预先设定的视频画面大小的范围内等条件时，缩放后的视频对应的第一通信终端集合改变。

根据本发明的一个优选实施例的工具11，还包括：

滑动单元105，被配置为响应于用户对移动终端1的显示器上显示的视频的滑动操作，对移动终端1的显示器上显示的视频进行滑动，从而显示器上显示的视频对应的第一通信终端集合改变。如图3(d)所示，当用户看到图3(b)所示的窗口6-2、6-3的视频后想看p3的右边还有谁，可以向右滑动窗口，此时取代窗口6-2、6-3，窗口6-3、6-4显示在显示器上。此时，用户可以获得与人p3、p4有关的视、音频，取代与人p2、p3有关的视、音频。

具体而言，滑动单元105可以响应于用户诸如拖动、长按滑动、仅滑动等操作，对移动终端1的显示器上当前显示的视频进行滑动，当满足诸如滑动的距离超过一定的阈值等条件时，滑动后的视频对应的第一通信终端集合改变。

当然，在上文中，用户可以同时缩放和滑动当前显示的视频画面，也可以先缩放后滑动当前显示的视频画面，还可以先滑动后缩放当前显示的视频画面，则第一通信终端集合进行相应的改变。

根据本发明的一个优选实施例的工具11，发送单元101响应于接收到针对所述特定场景中特定人的选择，发送对所述多个通信终端2采集的实时视、音频中涉及所述特定人的实时视、音频的整合的视音频的请求，接收单元102接收第一通信终端集合中的通信终端2采集的实时音频的整合的音频。

具体地，所述接收到对所述特定场景中特定人的选择可以通过诸如以下的方式进行：例如，工具11识别出当前播放视频或接收到的视频中包含特定人的画面，将所识别出的特定人头像圈出以菜单的形式提供给用户进行选择；又如，通过响应于用户对在移动终端1的显示器上显示的视频中特定人的点击、双击等操作或接收到用户说出特定人的名字的音频等。如图3(e)所示，用户仅想知道人p2和p5在干什么，听到p2和p5在说什么，就直接说出p2和p5的名字，工具11通过语音识别从而识别出p2和p5,向服务器发送对p2和p5的视、音频的整合的视音频的请求。服务器识别出与窗口6-2、6-5相关联的第二通信终端、第五通信终端分别采集了p2、p5的视音频，将第二通信终端、第五通信终端采集的视频及音频分别整合，发送给工具11的接收单元102。这样，在移动终端的显示器上出现了图3(e)所示的整合后的窗口p2、p5,并且移动终端的扬声器输出的也是与窗口p2、p5对应的音频，达到了用户仅看到自己感兴趣的人的视频、听到自己感兴趣的人的音频的效果。

其中，所述工具11在识别当前播放视频或接收到的视频中包含特定人的画面的情况下，可以预先将特定人的人脸的模式和/或声音频率存储在存储器中，当接收到的视音频或当前播放的视音频中存在特定人的人脸的模式匹配或/和存在特定人的声音频率的匹配，则将特定人的头像从视频画面中截取并圈出，提供给用户进行选择。当然，所述工具也可以采用自学习的方法来识别包含特定人的画面的视频或/和音频。例如，如果接收到的视音频中频繁出现某个人的画面或/和某个人的声音频率，则可以在移动终端1的显示器上显示提示，提示的内容为识别出特定人，请移动终端1旁的用户判断并命名，如果移动终端旁的用户发现识别错误，则在显示器上输入反馈信息返回至该工具，在下一次识别中该工具根据历史反馈信息进行相应地纠正。在自学习的方式下，可以不预先将特定人的人脸的模式或/和声音频率存储在存储器中。

当用户做出选择后，发送单元101响应于接收到针对所述特定场景中特定人的选择，发送对所述多个通信终端2采集的实时视音频中涉及所述特定人的实时视音频的整合的视音频的请求并由接收单元102接收相应的整合的音频。其中，通信终端2可以基于人脸识别、身高识别、声音识别中的一个或多个来识别特定人。

根据本发明的一个优选实施例的工具11，发送单元101响应于接收到针对所述特定场景中特定人的选择，向采集了涉及所述特定人的实时视音频的通信终端2发起连接请求，并响应于采集了涉及所述特定人的实时视音频的通信终端2的自动应答，与采集了涉及所述特定人的实时视音频的通信终端2建立通信。这样，携带移动终端1的用户就不只是按照自己的意愿看到希望的人的视频、听到希望的人的音频而已，希望的人也看到了自己的视频，听到了自己的音频，即实现了与希望的人的双向通信。

具体地，发送单元101还可以向采集了涉及所述特定人的实时视音频的通信终端2发起连接请求，由此直接在移动终端1和通信终端2之间建立通信，以便于移动终端1直接与特定的一个或多个通信终端2进行实时通信，互相获取对方的实时视音频。

当然，上述移动终端1可以为一个或多个，当移动终端1为多个时，各移动终端1之间可以是相互关联的，也可以是相互独立的。

根据本发明的另一个方面的一个实施例，提供了一种智能整合实时音视频的服务器3。请参考图5，图5示出了根据本发明一个实施例的智能整合实时音视频的服务器的示意性框图。根据图5，所述服务器包括：

视、音频接收装置301，被配置为接收来自多个通信终端2的实时视音频、来自移动终端1的对所述多个通信终端采集的实时视频的整合的视频的请求、来自移动终端1的对所述多个通信终端2中第一通信终端集合中的通信终端2采集的实时音频的整合的音频的请求；

视音频整合装置302，被配置为响应于来自移动终端1的对所述多个通信终端2采集的实时视频的整合的视频的请求，对所述多个通信终端2采集的实时视频进行整合，并响应于来自移动终端1的对所述多个通信终端2中第一通信终端集合中的通信终端2采集的实时音频的整合的音频的请求，对所述多个通信终端2中第一通信终端集合中的通信终端2采集的实时音频进行整合；

视音频发送装置303，被配置为将整合的视频或/和整合的音频发送到移动终端1。

其中，所述服务器3可以包括但不限于单个网络服务器、多个网络服务器集或多个服务器构成的云。该服务器3一方面接收来自多个通信终端2实时或及时上传的视音频，一方面还可以接收来自移动终端1的对所述多个通信终端2采集的实时视频或/和实时音频的整合后的视频或/和音频，根据所接收到的对实时视频或/和实时音频的整合的请求，对相应的视频或/和音频进行整合并将整合后的视频或/和音频发送至移动终端1。

根据本发明的一个实施例，所述服务器3还包括：通信建立单元305，被配置为响应于接收到来自移动终端1的向所述第一通信终端集合中的通信终端2的连接请求，向所述第一通信终端集合中的通信终端2转发该连接请求，并响应于第一通信终端集合中的通信终端2的自动应答，在移动终端1和第一通信终端集合中的通信终端2间建立双向通信。

在该实施例中，所述服务器还可以作为通信中转站，在移动终端1和通信终端2之间建立通信。请参考图6，图6示出了根据本发明一个优选实施例的基于服务器在移动终端和通信终端之间建立通信的示意图。具体而言，服务器3接收到移动终端1的向第一通信终端集合中的通信终端或向特定的一个或多个通信终端发出的连接请求，则根据接收到的连接请求，向目标通信终端转发该连接请求，收到目标通信终端的自动应答后，与移动终端1和目标通信终端2建立双向通信连接。

请参考图7，图7示出了根据本发明一个实施例的视音频整合装置的示意性框图。根据本发明的一个实施例，所述视、音频整合装置302包括：

视频画面比对模块3021，被配置为将所述多个通信终端2采集的实时视频进行实时比对，确定所述多个通信终端2采集的实时视频之间的重叠部分；

重叠部分消除模块3022，被配置为消除所述多个通信终端2采集的实时视频之间的重叠部分，从而对所述多个通信终端2采集的实时视频进行整合。

具体而言，由于多个通信终端2中的每个通信终端通常负责采集特定场景的一部分音视频，由于采集的视频通常都是广角拍摄的，而为了采集特定场景的所有视角的视频，相邻或相近位置的通信终端采集的音视频通常存在重叠部分，而为了将多个通信终端采集的视频整合成一整幅完整的、无整合痕迹的、看上去由一个具有无限视场的通信终端采集的视频，需要对多个通信终端采集的视音频中重叠的部分予以消除，仅保留一份对相同场景采集的视音频。而为了将整合的视频实时发送至移动终端，需要对多个通信终端2采集的实时视频进行实时比对，以确定并消除其中重叠的视频画面。

根据本发明的一个实施例，所述服务器3还包括：识别装置304，响应于接收到来自移动终端1的对所述多个通信终端2采集的实时视音频中涉及所述特定人的实时视音频的整合的视音频的请求，识别所述多个通信终端2采集的视音频中涉及所述特定人的实时视音频，并且

所述视音频整合装置302整合所述涉及所述特定人的实时视、音频，

所述视音频发送装置303向移动终端1发送整合的所述涉及所述特定人的实时视、音频。

其中，服务器3也可以通过预先将特定人的人脸模式和/或声音频率存储在存储器或自学习等方式来识别所接收的来自多个通信终端2采集的视音频中涉及特定人的实时视音频，并对所识别出的实时视音频从所接收的所有视音频中筛选并进行整合，并发送给移动终端1。

根据本发明的一个实施例，所述服务器3还包括：识别装置304，响应于接收到来自移动终端1的向采集了涉及所述特定人的实时视音频的通信终端2的连接请求，识别所述多个通信终端2采集的实时视音频中涉及所述特定人的实时视音频，从而识别采集了涉及所述特定人的实时视音频的通信终端2，并且

所述通信建立单元305向采集了涉及所述特定人的实时视、音频的通信终端2转发连接请求，并响应于采集了涉及所述特定人的实时视、音频的通信终端2的自动应答，在移动终端1和采集了涉及所述特定人的实时视、音频的通信终端2之间建立双向通信。

在该实施例中，所述服务器3同样作为通信中转站，接收到来自移动终端1的向采集了涉及特定人的实时视音频的通信终端2的连接请求，在所述移动终端1和所述涉及特定人的实时视音频的通信终端2之间建立双向通信连接。

所属技术领域的技术人员知道，本发明可以实现为设备、装置、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件，也可以是完全的软件，还可以是硬件和软件结合的形式。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

一种安装于移动终端(1)的工具(11)，包括：

发送单元(101)，被配置为响应于第一触发，发送对多个通信终端(2)采集的实时视频的整合的视频的请求，其中所述多个通信终端(2)分别采集特定场景的一部分的实时视频，所述多个通信终端(2)分别采集的实时视频整合后构成所述特定场景的实时视频；

接收单元(102)，被配置为接收所述多个通信终端(2)采集的实时视频的整合的视频，

其中，发送单元(101)基于在移动终端(1)的显示器上显示的视频对应的、所述多个通信终端(2)中的第一通信终端集合，发送对第一通信终端集合中的通信终端(2)采集的实时音频的整合的音频的请求，接收单元(102)接收第一通信终端集合中的通信终端(2)采集的实时音频的整合的音频，其中在移动终端(1)的显示器上显示的视频是所述多个通信终端(2)采集的实时视频的整合的视频的一部分。
根据权利要求1所述的工具(11)，还包括：配置单元(103)，用于接收用户对所述多个通信终端(2)采集的视音频进行整合的配置。
根据权利要求1所述的工具(11)，其中发送单元(101)还向第一通信终端集合中的通信终端(2)发起连接请求，并响应于第一通信终端集合中的通信终端(2)的自动应答，与第一通信终端集合中的通信终端(2)建立双向通信。
根据权利要求1所述的工具(11)，还包括：

缩放单元(104)，被配置为响应于用户对移动终端(1)的显示器上显示的视频的缩放操作，对移动终端(1)的显示器上显示的视频进行缩放，从而显示器上显示的视频对应的第一通信终端集合改变。
根据权利要求1所述的工具(11)，还包括：

滑动单元(105)，被配置为响应于用户对移动终端(1)的显示器上显示的视频的滑动操作，对移动终端(1)的显示器上显示的视频进行滑动，从而显示器上显示的视频对应的第一通信终端集合改变。
根据权利要求1所述的工具(11)，其中所述第一触发包括以下中的任一种：

所述移动终端的开机；

所述移动终端开机状态下所述工具的激活；

所述移动终端开机状态下用户界面上的特定动作；

所述移动终端开机状态下接收到的特定语音；

所述移动终端开机状态下感测到的光线变强。
根据权利要求1所述的工具(11)，其中发送单元(101)响应于接收到针对所述特定场景中特定人的选择，发送对所述多个通信终端(2)采集的实时视、音频中涉及所述特定人的实时视、音频的整合的视、音频的请求，接收单元(102)接收所述多个通信终端(2)采集的实时视、音频中涉及所述特定人的实时视、音频的整合的视、音频。
根据权利要求1所述的工具(11)，其中发送单元(101)响应于接收到针对所述特定场景中特定人的选择，向采集了涉及所述特定人的实时视、音频的通信终端(2)发起连接请求，并响应于采集了涉及所述特定人的实时视、音频的通信终端(2)的自动应答，与采集了涉及所述特定人的实时视、音频的通信终端(2)建立双向通信。
根据权利要求1所述的工具(11)，其中针对所述特定场景中特定人的选择是对在移动终端(1)的显示器上显示的视频中特定人的点击或说出特定人的名字。
一种智能整合实时音视频的服务器(3)，包括：

视、音频接收装置(301)，被配置为接收来自多个通信终端(2)的实时视、音频、来自移动终端(1)的对所述多个通信终端(2)采集的实时视频的整合的视频的请求、来自移动终端(1)的对所述多个通信终端(2)中第一通信终端集合中的通信终端(2)采集的实时音频的整合的音频的请求；

视、音频整合装置(302)，被配置为响应于来自移动终端(1)的对所述多个通信终端(2)采集的实时视频的整合的视频的请求，对所述多个通信终端(2)采集的实时视频进行整合，并响应于来自移动终端(1)的对所述多个通信终端(2)中第一通信终端集合中的通信终端(2)采集的实时音频的整合的音频的请求，对所述多个通信终端(2)中第一通信终端集合中的通信终端(2)采集的实时音频进行整合；

视、音频发送装置(303)，被配置为将整合的视频或/和整合的音频发送到移动终端(1)。
根据权利要求10所述的服务器(3)，还包括：通信建立单元(305)，被配置为响应于接收到来自移动终端(1)的向所述第一通信终端集合中的通信终端(2)的连接请求，向所述第一通信终端集合中的通信终端(2)转发该连接请求，并响应于第一通信终端集合中的通信终端(2)的自动应答，在移动终端(1)和第一通信终端集合中的通信终端(2)间建立双向通信。
根据权利要求10所述的服务器(3)，其中视、音频整合装置(302)包括：

视频画面比对模块(3021)，被配置为将所述多个通信终端(2)采集的实时视频进行实时对比，确定所述多个通信终端(2)采集的实时视频之间的重叠部分；

重叠部分消除模块(3022)，被配置为消除所述多个通信终端(2)采集的实时视频之间的重叠部分，从而对所述多个通信终端(2)采集的实时视频进行整合。
根据权利要求10所述的服务器(3)，还包括：识别装置(304)，响应于接收到来自移动终端(1)的对所述多个通信终端(2)采集的实时视、音频中涉及所述特定人的实时视、音频的整合的视、音频的请求，识别所述多个通信终端(2)采集的实时视、音频中涉及所述特定人的实时视、音频，并且

所述视、音频整合装置(302)整合所述涉及所述特定人的实时视、音频，

所述视、音频发送装置(303)向移动终端(1)发送整合的所述涉及所述特定人的实时视、音频。
根据权利要求11所述的服务器(3)，还包括：识别装置(304)，响应于接收到来自移动终端(1)的向采集了涉及所述特定人的实时视、音频的通信终端(2)的连接请求，识别所述多个通信终端(2)采集的实时视、音频中涉及所述特定人的实时视、音频，从而识别采集了涉及所述特定人的实时视、音频的通信终端(2)，并且

所述通信建立单元(305)向采集了涉及所述特定人的实时视、音频的通信终端(2)转发连接请求，并响应于采集了涉及所述特定人的实时视、音频的通信终端(2)的自动应答，在移动终端(1)和采集了涉及所述特定人的实时视、音频的通信终端(2)之间建立双向通信。