WO2022068609A1

WO2022068609A1 - 图像处理方法、装置、电子设备及计算机可读介质

Info

Publication number: WO2022068609A1
Application number: PCT/CN2021/118951
Authority: WO
Inventors: 郭鹤
Original assignee: 北京字跳网络技术有限公司
Priority date: 2020-09-30
Filing date: 2021-09-17
Publication date: 2022-04-07
Also published as: CN112423142B; US20240007590A1; CN112423142A

Abstract

一种图像处理方法、设备及计算机可读介质，涉及图像处理技术领域。该方法包括：获取来自第一终端的第一图像和来自第二终端的第二图像，其中，第一图像包括第一人像，第二图像包括第二人像；对第二图像进行抠图处理，得到第二人像；通过增强现实AR技术将第二人像投放到第一图像中，得到第三图像；其中，第三图像用于在第一终端上进行显示。通过增强现实AR技术将一个图像中抠出的人像投放到另一包括人像的图像得到新的图像，并将该图像显示在终端上，以此来，满足用户对真实感面对面交互的需求，提升用户体验。

Description

图像处理方法、装置、电子设备及计算机可读介质

相关申请的交叉引用

本申请要求于2020年09月30日提交的，申请号为202011065674.1、发明名称为“图像处理方法、装置、电子设备及计算机可读介质”的中国专利申请的优先权，该申请的全文通过引用结合在本申请中。

技术领域

本公开涉及图像处理技术领域，尤其涉及一种图像处理方法、装置、电子设备及计算机可读介质。

背景技术

随着互联网技术的快速发展，基于网络技术的远程交互方式在越来越多的领域被广泛应用。

传统远程交互的方式有语音远程交互和传统视频远程交互：语音远程交互只能进行声音的沟通，没有图像传输，不形象不直观；传统视频远程交互与语音远程交互相比，视频交互增加了图像的实时传输，在可视性方面有了极大的突破。但传统的视频远程交互只是单纯的视频通话，无法满足用户对真实感面对面交互的需求，用户体验不佳。发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，提供了一种图像处理方法，终端所述方法包括：

获取来自第一终端的第一图像和来自第二终端的第二图像，其中，所述第一图像包括第一人像，所述第二图像包括第二人像；

对所述第二图像进行抠图处理，得到所述第二人像；

通过增强现实AR技术将所述第二人像投放到所述第一图像中，得到第三图像；

其中，所述第三图像用于在所述第一终端上进行显示。

第二方面，提供了一种图像处理装置，所述装置包括：

获取模块，用于获取来自第一终端的第一图像和来自第二终端的第二图像，其中，所述第一图像包括第一人像，所述第二图像包括第二人像；

处理模块，用于对所述第二图像进行抠图处理，得到所述第二人像；

投放模块，用于通过增强现实AR技术将所述第二人像投放到所述第一图像中，得到第三图像；

其中，所述第三图像用于在所述第一终端上进行显示第三方面，提供了一种电子设备，所述电子设备包括处理器；以及存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，使得所述处理器实现本公开第一方面所示的图像处理方法。

第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本公开第一方面所示的图像处理方法。

本公开实施例提供的技术方案带来的有益效果至少包括：

本公开提供了一种数据处理方法、装置、电子设备及介质，通过增强现实AR技术将一个图像中抠出的人像投放到另一包括人像的图像得到新的图像，并将该图像显示在终端上，以此来满足用户对真实感面对面交互的需求，提升用户体验。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1是本公开一个示例性实施例提供的一种图像处理方法的示意性流程图；

图2是本公开另一个示例性实施例提供的一种图像处理方法的示意性流程图；

图3是本公开另一个示例性实施例提供的一种图像处理方法的示意性流程图；

图4是本公开另一个示例性实施例提供的一种图像处理方法的示意性流程图；

图5是本公开另一个示例性实施例提供的一种图像处理方法的示意性流程图；

图6是本公开一个示例性实施例提供的一种图像处理方法的示意性流程图；

图7是本公开另一个示例性实施例提供的一种图像处理方法的示意性流程图；

图8是本公开一个示例性实施例提供的一种图像处理方法的数据传输示意图；

图9是本公开一个示例性实施例提供的一种图像处理方法的交互过程的示意性流程图；

图10是本公开一个示例性实施例提供的一种图像处理装置的示意性框图；

图11示出了本公开一个示例性实施例提供的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对装置、模块或单元进行区分，并非用于限定这些装置、模块或单元一定为不同的装置、模块或单元，也并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面以具体的实施例对本公开的技术方案以及本公开的技术方案如果解决上述技术文件进行详细说明，下面几个具体的实施例可以相互结合，对于相同或者相似的概念或过程可能在某些实施例中不再赘述，下面结合附图，对本公开的实施例进行描述。

图1是本公开一个示例性实施例提供的一种图像处理方法100，包括:

101、获取来自第一终端的第一图像和来自第二终端的第二图像，其中，所述第一图像包括第一人像，所述第二图像包括第二人像；

102、对所述第二图像进行抠图处理，得到所述第二人像；

103、通过增强现实AR技术将所述第二人像投放到所述第一图像中，得到第三图像；其中，所述第三图像用于在所述第一终端上进行显示。

具体的，在该实施例中，可以将来自不同终端的包含人像的图像，通过抠图的方式，将其中一个图像中的人像抠出投放到另一个图像中，得到新的图像，并将得到的新图像显示在其中一个终端上，从而可以满足用户对真实感面对面交互的需求，提升用户体验。

在一些实施例中，如图2所示，在步骤101之后，方法100还包括：终端

104、根据第一图像构建第一三维空间；

则103则具体为：通过增强现实AR技术将所述第二人像投放到所述第一三维空间中终端。

具体的，在该实施例中，步骤104具体可以利用即时定位与地图构建SLAM算法实现，即：利用即时定位与地图构建SLAM算法处理所述第一图像来构建所述第一三维空间。而利用SLAM算法构建空间地图的具体过程为现有技术，本领域技术人员可以获知，在此不再赘述。

在该实施例中，终端对来自第二终端的第二图像进行抠图处理，得到第二人像，并通过增强现实AR技术将第二人像投放到其构建的第一三维空间中，可以使得第一终端的持有者与第二人像对应的第一用户进行虚拟面对面交流。

由于5G技术提供了低延时的端到端的通信，该实施例中可以采用实时通信RTC技术支持多媒体数据的传输，AR技术支持构造虚拟人物为面对面的虚拟交流提供了可能。因此，本公开实施例中将上述三个技术的结合以实现虚拟的面对面交流，颠覆现今的线上交流方式，使得线上交流更加逼真，提升用户体验。

需要说明的是，在该实施例中，由于采用了RTC技术，终端可以实时接收RTC转发的图像，对其进行抠图处理，得到人像并将其投放至构建的空间中，因此，基于本公开实施例中的方法，可以实现交互双方进行沉浸式真实感面对面交互。

在一些实施例中，如图3所示，在步骤103之前，所述方法100还包括：

105、检测所述第一三维空间中是否有办公设备，并检测所述第二人像的姿态；

106、根据检测到的办公设备的位置信息和所述第二人像的姿态，确定将所述第二人像投放到所述第一三维空间中时所述第二人像所处的位置；

则步骤103具体为：

通过增强现实AR技术将所述第二人像投放到所述第一三维空间中的所述位置上。

也就是说，在该实施例中，可以基于所构建的空间中的办公设备，例如：办公桌，办公椅等，以及人像的姿态，例如：站姿、坐姿等来确定将人像投放到空间中的位置。

例如：当检测到空间中有办公桌且人像的姿态为站姿，那么将人像投放到空间中时可以投放到办公桌旁边，或者检测到第一终端的持有者在办公桌的一侧，则可以将人像投放到办公桌的对侧，以便第一终端的持有者与人像对应的用户进行虚拟面对面交流。

或者，当检测到空间中有椅子(或者还有桌子)且人像的姿态为坐姿，那么可以将人像投放到椅子上。

该实施例中，通过检测空间中是否有办公设备以及人像的姿态，来确定人像投放到空间中时人像所处的位置，使得虚拟面对面沟通更加逼真。

在一些实施例中，如图4所示，在步骤103之前，所述方法100还包括：

107、利用全息投影算法处理所述第二人像，得到所述第二人像的3D影像，

则步骤103具体为：

通过增强现实AR技术将所述第二人像的3D影像投放到所述第一三维空间中。

也就是说，在该实施例中，可以采用全息投影算法得到人像的3D影像，再将人像的3D影像投放到构建的空间中，以此实现沉浸式真实感面对面交互。

需要说明的是，在该实施例中，也可以包括上述实施例中的步骤105和106，则步骤103为：

通过增强现实AR技术将所述第二人像的3D影像投放到所述第一三维空间中的所述位置上。

也就是说，在该实施例中，在将人像的3D影像投放到构建的空间中时，可以将人像的3D影像投放到基于空间中的办公设备以及人像的姿态确定的位置上。

例如：当检测到空间中有办公桌且人像的姿态为站姿，那么将人像的3D影像投放到空间中时可以投放到办公桌旁边，或者检测到第一终端的持有者在办公桌的一侧，则可以将人像的3D影像投放到办公桌的对侧，以便第一终端的持有者与人像对应的用户进行虚拟面对面交流。

或者，当检测到空间中有椅子(或者还有桌子)且人像的姿态为坐姿，那么可以将人像的3D影像投放到椅子上。

在一些实施例中，如图5所示，在步骤103之前，所述方法100还包括：

10、获取所述第二人像与所述第二终端的飞行时间TOF摄像头之间的第一距离信息，以及所述第二人像的高度信息；

108、当所述第一距离信息不为0时，根据所述第一距离信息和所述高度信息，以及获取的所述第一终端的摄像头的镜头视角，确定所述第二人像在所述第一三维空间中的缩放比例；

具体的，在该实施例中，第一距离信息不为0，即：第二终端包含TOF摄像头，则可以获取第二人像和镜头的距离dist_a，以及镜头视角FOV：θ_a，则第二人像的高度为height_a＝tan(θ_a/2)*dist_a。

可以将第二人像投放到距离第一终端的镜头为dist_a的位置上，且第二人像的缩放比例λ为：

λ＝tan(θ_b/2)*dist_a/height_a，其中，θ_b为第一终端的镜头视角，height_a＝tan(θ_a/2)*dist_a。

109、当所述第一距离信息为0时，获取所述第二人像在所述第一三维空间中的位置与所述第一终端的摄像头之间的第二距离信息；

具体的，在该实施例中，第一距离信息为0，即：第二终端不包含TOF摄像头，则默认height_a＝180cm，dist_a＝0。

110、根据所述高度信息、所述第二距离信息和所述镜头视角，确定所述第二人像在所述第一三维空间中的缩放比例。

具体的，在该实施例中，不能把第二人像投放到距离第一终端的镜头dist_a的位置处时，获取在第一终端的持有者所处的SLAM空间中第二人像所处位置和第一终端的镜头之间的距离dist_b，则第二人像的缩放比例λ为：

λ＝tan(θ_b/2)*dist_b/height_a，其中，θ_b为第一终端的镜头视角，height_a＝180cm。

则步骤103具体为：

通过增强现实AR技术将所述第二人像按照所述缩放比例投放到所述第一三维空间中。

也就是说，在该实施例中，在将人像投放到SLAM空间中时，需要考虑投放距离与人像大小的关系，从而使得虚拟面对面的沟通更加真实。

需要说明的是，在该实施例中，也可以包括上述实施例中的步骤107，则步骤103为：

通过增强现实AR技术将所述第二人像的3D影像按照所述缩放比例投放到所述第一三维空间中。

也就是说，在该实施例中，在将人像的3D影像投放到构建的空间中时，可以将人像的3D影像按照确定的缩放比例进行投放。

具体的，在该实施例中，当通过所述第二终端的TOF摄像头获取所述第二图像时，所述获取所述第二人像的高度信息，包括：

根据所述第一距离信息和获取的所述第二终端的TOF摄像头的镜头视角，确定所述高度信息。

例如：第二人像的高度为：height_a＝tan(θ_a/2)*dist_a。

在另一实施例中，当通过除所述第二终端的TOF摄像头之外的摄像头获取所述第二图像时，所述第一距离信息为0，所述高度信息为预设值。

也就是说，为了确保将第二人像放到构建的第一三维空间中时，投放后的人像可以与第一终端的持有者进行面对面的沟通，第二终端需要将人像高度、人像和摄像头之间的距离随同第二图像同步传输给第一终端。

在一些实施例中，如图6所示，所述方法100还包括：

111、对所述第一图像进行抠图处理，得到所述第一人像；

112、通过增强现实AR技术将所述第一人像投放到所述第二图像中，得到第四图像；其中，所述第四图像用于在所述第二终端上进行显示。

也就是说，图像处理的过程中可以对自不同终端的包含人像的图像，通过抠图的方式，将其中一个图像中的第一人像抠出投放到另一个图像中，得到新的第一图像，并将得到的新图像显示在其中一个终端上，同时，也可以将另一图像中的第二图像抠出投放到一个图像中，得到新的第二图像，并将得到的新图像显示在另一个终端上，从而可以满足用户双方对真实感面对面交互的需求，提升用户体验。

在一些实施例中，如图7所示，在步骤101之后，所述方法100还包括：

113、根据所述第二图像构建第二三维空间；

则步骤112具体可以包括：

通过增强现实AR技术将所述第一人像投放到所述第二三维空间中。

应理解，在该实施例中，根据第二图像构建第二三维空间的过程与根据第一图像构建第一三维空间的过程类型，为了描述的简洁，在此不再赘述。

步骤112的具体实现过程与上述各实施例中步骤103的具体实现过程类型，为了描述的简洁，在此也不再赘述。

需要说明的是，在上述各个实施例中，方法100的执行主体可以为服务器也可以为终端，在此不做任何限定。若方法100的执行主体为终端时，第一终端可以作为接收端，而在一些实施例中，第一终端作为接收端的同时还可以作为发送端。

还需要说明的是，在该实施例中，第一图像可以是第一终端利用自身的图像采集设备采集的，也可以是接收外部图像采集设备采集后传输的图像，第二图像亦如此。若方法100的执行主体为服务器，则步骤101中可以是接收由实时通信服务器转发的第一图像和/或第二图像；若方法100的执行主体为终端，假设为第一终端，则第一图像为第一终端利用自身的图像采集设备采集的，第二图像为实时通信服务器转发的，第二图像可以是第一终端利用自身的图像采集设备采集的，也可以是接收外部图像采集设备采集后传输的图像。

也就是说，第一终端为如图8中所示的B设备，在接收到RTC服务器转发的A图像时，也可以将自身获得的B图像发送至RTC服务器，由RTC服务器转发至A设备。第二终端为如图8中所示的A设备，在将自身获得的A图像发送至RTC服务器，由RTC服务器转发至B设备时，也可以接收RTC服务器转发的B图像。

需要说明的是，在该实施例中，可以包括上述实施例中的步骤104、或者步骤105、106，或者步骤107，或者步骤10、108-110，各个步骤的执行顺序并非时间顺序或依照步骤的序号大小进行，而是基于各个步骤之间的内在逻辑关系确定的。

下面以终端为执行主体为例，并结合如图9所示的A设备和B设备之间的数据交互过程的示意流程图，描述本公开实施例的技术方案。如图8所示的方法200包括：

201、B设备打开后置摄像头采集所处环境的图像，即为第一图像，并基于第一图像构建第一三维空间；

202、A设备打开前置摄像头采集包含A人像的图像，即为第二图像；

203、A设备将第二图像发送至RTC服务器；

204、RTC服务器将第二图像转发至B设备；

205、B设备对第二图像进行抠图，得到A人像，即为第二人像；

206、B设备将A人像放到B设备构建的AR空间中，即为通过增强现实AR技术将第二人像投放到第一三维空间中。

需要说明的是，还可以通其他摄像头采集第二图像，也就是说，可以不用A设备采集，而是利用单独的图像采集设备进行采集，确保采集的第二图像中包含人像即可。

而为了确保B设备将A人像放到B设备构建的AR空间中时，投放后的人像可以与B进行面对面的沟通，A设备需要将人像高度、人像和摄像头之间的距离随同第二图像同步传输给B设备。

基于上述各实施例可知，本公开实施例中的图像处理方法可以进行影像的单向投放，也可以进行影像的双向投放。以图6所示为例，A、B两端进行双向传输时，每一端数据处理过程是相同的，由于A、B两端所处的环境不同，因此通过SLAM算法构建的空间不同。

单向投放的过程是，B设备通过SLAM算法处理其采集的所处环境的图像构建空间，A设备通过RTC服务器转发采集的包含A人像的图像，B设备将A人像抠出放到B设备构建的AR空间中。即A、B沉浸在B构建的AR空间中，从而实现B与A的虚拟面对面沟通。

单向投放的应用场景可以包括：云演唱会、线上教育、直播卖货等等。

例如：云演唱会的场景中，每一个观众可以通过各自的设备B采集的图像构建演唱会场馆的SLAM空间，歌星通过A设备把包含自己的影像的图像通过RTC服务器转发至设备B，设备B对接收的图像进行抠图得到歌星的影像并将其投放到构建的SLAM空间中，例如：投放到舞台上，也许歌星只是在自己的工作室里面，而观众们只是在自己的家中，但是大家却能体会到现场演唱会一般的气氛。对每个观众而言，其所持的设备B与歌星的设备A之间是单向投放。

线上教育的场景中，学生可以通过自己的设备B采集的图像构建教室或多功能厅的SLAM空间，老师通过A设备把包含自己的影像的图像通过RTC服务器转发至设备B，设备B对接收的图像进行抠图得到老师的影像并将其投放到构建的SLAM空间中，例如：投放到讲台上，也许老师和学生都是在自己的家中，但是大家却能体会到面授的气氛。对每个学生而言，其所持的设备B与老师的设备A之间是单向投放。

直播卖货的场景中，用户可以通过自己的B设备采集的图像构建卖货的展示场景或者用户自己所在场景的SLAM空间，主播通过A 设备把包含自己和物品的影像的图像通过RTC服务器转发至设备B，设备B对接收的图像进行抠图得到主播和物品的影像并将其投射到设备B构建的场景中。对每个用户而言，其所持的设备B与主播的设备A之间是单向投放。

而双向投放则是，B设备通过SLAM算法处理其采集的所处环境的图像构建第一三维空间，A设备通过RTC服务器转发采集的包含A人像的图像，B设备将A人像抠出放到B设备构建的第一AR空间中。即A、B沉浸在B构建的第一AR空间中，从而实现B与A的虚拟面对面沟通。

同时，A设备通过SLAM算法处理其采集的所处环境的图像构建第二三维空间，B设备通过RTC服务器转发采集的包含B人像的图像，A设备将B人像抠出放到A设备构建的第二AR空间中。即A、B沉浸在A构建的第二AR空间中，从而实现A与B的虚拟面对面沟通。

双向投放的应用场景可以包括：视频会议。

应理解，在上述示例中，云演唱会的场景中，还可以是设备B根据采集的图像构建演唱会场馆的SLAM空间并将其发送至中心服务器，歌星通过A设备把包含自己的影像的第一图像通过RTC服务器转发至中心服务器，中心服务器对第一图像进行抠图得到歌星的影像并将其投放到构建的SLAM空间中，例如：投放到舞台上，而每一个观众也可以通过各自的A设备把包含自己的影像的第二图像通过RTC服务器转发至中心服务器，中心服务器对第二图像进行抠图得到对应观众的影像并将其投放到构建的SLAM空间中，例如：投放到观众各自的座位上，中心服务器再将投放了歌星影像和观众影像的综合影像分发到每个用户的设备上。

线上教育的场景中也可以有类似的实现方式，为了描述的简洁，在此不再赘述。

基于相同的发明构思，本公开还提供了一种图像处理装置300，如图10所示，所述装置300，包括：

获取模块301，用于获取来自第一终端的第一图像和来自第二终端的第二图像，其中，所述第一图像包括第一人像，所述第二图像包括第二人像；

处理模块302，用于对所述第二图像进行抠图处理，得到所述第二人像；

投放模块303，用于通过增强现实AR技术将所述第二人像投放到所述第一图像中，得到第三图像；其中，所述第三图像用于在所述第一终端上进行显示。

关于上述实施例中的图像处理装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员应当理解，本公开实施例的图像处理装置中各模块的功能，可参照前述图像处理方法的相关描述而理解。本公开实施例的图像处理装置中的各模块的功能，可通过实现本公开实施例所述的功能的模拟电路而实现，也可以通过执行本公开实施例所述的功能的软件在终端上的运行而实现。

上述图像处理装置的有益效果可以参见前文中对于图像处理方法的描述，为了描述的简洁，在此不再赘述。

下面参考图11，其示出了适于用来实现本公开实施例的电子设备(例如图10中的A设备或B设备)400的结构示意图。本公开实施例中的用户设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图11示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

电子设备包括：存储器以及处理器，其中，这里的处理器可以称为下文所述的处理装置401，存储器可以包括下文中的只读存储器(ROM)402、随机访问存储器(RAM)403以及存储装置408中的至少一项，具体如下所示：

如图11所示，电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

通常，以下装置可以连接至I/O接口405：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407；包括例如磁带、硬盘等的存储装置408；以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图11示出了具有各种装置的电子设备400，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置409从网络上被下载和安装，或者从存储装置408被安装，或者从ROM 402被安装。在该计算机程序被处理装置401执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取来自第一终端的第一图像和来自第二终端的第二图像，其中，所述第一图像包括第一人像，所述第二图像包括第二人像；对所述第二图像进行抠图处理，得到所述第二人像；通过增强现实AR技术将所述第二人像投放到所述第一图像中，得到第三图像；其中，所述第三图像用于在所述第一终端上进行显示。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块或单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取模块还可以被描述为“获取来自第一终端的第一图像和来自第二终端的第二图像的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，【示例一】提供了一种图像处理装置300，还包括：构建模块304(附图中未示出)。

所述构建模块304，用于根据采集的所述第一图像构建第一三维空间；

则所述投放模块303，具体用于通过增强现实AR技术将所述第一第二人像投放到所述第一三维空间中。

根据本公开的一个或多个实施例，【示例二】提供了一种图像处理装置300，

包括：所述构建模块301具体用于，利用即时定位与地图构建SLAM算法处理所述第一图像，以构建所述第一三维空间。

根据本公开的一个或多个实施例，【示例三】提供了一种图像处理装置300，还包括：检测模块305(附图中未示出)。

所述检测模块305，用于检测所述第一三维空间中是否有办公设备，并检测所述第二人像的姿态；

所述处理模块302还用于，根据检测到的办公设备的位置信息和所述第二人像的姿态，确定将所述第二人像投放到所述第一三维空间中时所述第二人像所处的位置；

则所述投放模块303具体用于，通过增强现实AR技术将所述第二人像投放到所述第一三维空间中的所述位置上。

根据本公开的一个或多个实施例，【示例四】提供了一种图像处理装置300，包括：所述处理模块302还用于，利用全息投影算法处理所述第二人像，得到所述第二人像的3D影像；

则所述投放模块303具体用于，通过增强现实AR技术将所述第二人像的3D影像投放到所述第一三维空间中。

根据本公开的一个或多个实施例，【示例五】提供了一种图像处理装置300，所述获取模块301还用于：获取所述第二人像与第二终端的飞行时间TOF摄像头之间的第一距离信息，以及所述第二人像的高度信息；

所述处理模块302还用于，当所述第一距离信息不为0时，根据所述第一距离信息和所述高度信息，以及获取的所述第一终端的摄像头的镜头视角，确定所述第二人像在所述第一三维空间中的缩放比例；

或者，当所述第一距离信息为0时，获取所述第二人像在所述第一三维空间中的位置与所述第一终端的摄像头之间的第二距离信息；

根据所述高度信息、所述第二距离信息和所述镜头视角，确定所述第二人像在所述第一三维空间中的缩放比例；

则所述投放模块303具体用于，通过增强现实AR技术将所述第二人像按照所述缩放比例投放到所述第一三维空间中。

根据本公开的一个或多个实施例，【示例六】提供了一种图像处理装置300，当通过所述第二终端的TOF摄像头采集所述第二图像时，所述获取模块301具体用于，根据所述第一距离信息和获取的所述第二终端的TOF摄像头的镜头视角，确定所述高度信息。

根据本公开的一个或多个实施例，【示例七】提供了一种图像处理装置300，包括：当通过除所述第二终端的TOF摄像头之外的摄像头采集所述第二图像时，所述第一距离信息为0，所述高度信息为预设值。

根据本公开的一个或多个实施例，【示例八】提供了一种图像处理装置300，包括：所述处理模块302还用于，对所述第一图像进行抠图处理，得到所述第一人像；所述投放模块303还用于，通过增强现实AR技术将所述第一人像投放到所述第二图像中，得到第四图像；其中，所述第四图像用于在所述第二终端上进行显示。

根据本公开的一个或多个实施例，【示例九】提供了一种图像处理装置300，所述构建模块304还用于，根据所述第二图像构建第二三维空间；所述投放模块303还用于，通过增强现实AR技术将所述第一人像投放到所述第二三维空间中。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

一种图像处理方法，其特征在于，包括：

获取来自第一终端的第一图像和来自第二终端的第二图像，其中，所述第一图像包括第一人像，所述第二图像包括第二人像；

对所述第二图像进行抠图处理，得到所述第二人像；

通过增强现实AR技术将所述第二人像投放到所述第一图像中，得到第三图像；

其中，所述第三图像用于在所述第一终端上进行显示。
根据权利要求1所述的方法，其特征在于，在获取来自第一终端的第一图像和来自第二终端的第二图像之后，所述方法还包括：

根据所述第一图像构建第一三维空间；

则通过增强现实AR技术将所述第二人像投放到所述第一图像中，包括：

通过增强现实AR技术将所述第二人像投放到所述第一三维空间中。
根据权利要求2所述的方法，其特征在于，所述根据所述第一图像构建第一三维空间，包括：

利用即时定位与地图构建SLAM算法处理所述第一图像，以构建所述第一三维空间。
根据权利要求2所述的方法，其特征在于，在通过增强现实AR技术将所述第二人像投放到所述第一三维空间中之前，还包括：

检测所述第一三维空间中是否有办公设备，并检测所述第二人像的姿态；

根据检测到的办公设备的位置信息和所述第二人像的姿态，确定将所述第二人像投放到所述第一三维空间中时所述第二人像所处的位置，其中，

通过增强现实AR技术将所述第二人像投放到所述第一三维空间中，包括：

通过增强现实AR技术将所述第二人像投放到所述第一三维空间中的所述位置上。
根据权利要求2所述的方法，其特征在于，在通过增强现实AR技术将所述第二人像投放到所述第一三维空间中之前，还包括：

利用全息投影算法处理所述第二人像，得到所述第二人像的3D影像，其中，

通过增强现实AR技术将所述第二人像投放到所述第一三维空间中，包括：

通过增强现实AR技术将所述第二人像的3D影像投放到所述第一三维空间中。
根据权利要求2所述的方法，其特征在于，所述第一图像信息还包括：在通过增强现实AR技术将所述第二人像投放到所述第一三维空间中之前，所述方法还包括：

获取所述第二人像与所述第二终端的飞行时间TOF摄像头之间的第一距离信息，以及所述第二人像的高度信息；

当所述第一距离信息不为0时，根据所述第一距离信息和所述高度信息，以及获取的所述第一终端的摄像头的镜头视角，确定所述第二人像在所述第一三维空间中的缩放比例；

当所述第一距离信息为0时，获取所述第二人像在所述第一三维空间中的位置与所述第一终端的摄像头之间的第二距离信息；

根据所述高度信息、所述第二距离信息和所述镜头视角，确定所述第一人像在所述第一三维空间中的缩放比例，其中，

通过增强现实AR技术将所述第一人像投放到所述第一三维空间中，包括：

通过增强现实AR技术将所述第一人像按照所述缩放比例投放到所述第一三维空间中。
根据权利要求6所述的方法，其特征在于，当通过所述第二终端的TOF摄像头采集所述第二图像时，所述获取所述第二人像的高度信息，包括：

根据所述第一距离信息和获取的所述第二终端的TOF摄像头的镜头视角，确定所述高度信息。
根据权利要求6所述的方法，其特征在于，当通过除所述第二终端的TOF摄像头之外的摄像头采集所述第二图像时，所述第一距离信息为0，所述高度信息为预设值。
根据权利要求1～8中任一项所述的方法，其特征在于，所述方法还包括：

对所述第一图像进行抠图处理，得到所述第一人像；

通过增强现实AR技术将所述第一人像投放到所述第二图像中，得到第四图像；

其中，所述第四图像用于在所述第二终端上进行显示。
根据权利要求9所述的方法，其特征在于，在获取来自第一终端的第一图像和来自第二终端的第二图像之后，所述方法还包括：

根据所述第二图像构建第二三维空间；

则通过增强现实AR技术将所述第一人像投放到所述第二图像中，包括：

通过增强现实AR技术将所述第一人像投放到所述第二三维空间中。
一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取来自第一终端的第一图像和来自第二终端的第二图像，其中，所述第一图像包括第一人像，所述第二图像包括第二人像；

处理模块，用于对所述第二图像进行抠图处理，得到所述第二人像；

投放模块，用于通过增强现实AR技术将所述第二人像投放到所述第一图像中，得到第三图像；

其中，所述第三图像用于在所述第一终端上进行显示。
一种电子设备，其特征在于，所述电子设备包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，使得所述处理器实现权利要求1～10所述的图像处理方法。
一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～10所述的图像处理方法。