WO2018188277A1

WO2018188277A1 - 视线校正方法、装置、智能会议终端及存储介质

Info

Publication number: WO2018188277A1
Application number: PCT/CN2017/103270
Authority: WO
Inventors: 杨铭
Original assignee: 广州视源电子科技股份有限公司
Priority date: 2017-04-14
Filing date: 2017-09-25
Publication date: 2018-10-18
Also published as: CN106981078A; CN106981078B

Abstract

本发明公开了视线校正方法、装置、智能会议终端及存储介质。该方法包括：获取双摄像头同步捕获的两张当前画面帧，确定两张当前画面帧中各重合被摄点的深度信息，并合并形成一幅当前实景画面帧；检测当前实景画面帧中构成人脸图像的二维关键点，并确定二维关键点的坐标信息；根据二维关键点对应的深度信息及所述坐标信息，在三维空间中校正人脸图像获得二维的人脸正视图像。利用该方法，无需依赖特殊硬件或特殊摄像头，仅需两个普通的摄像头就能高效地对所捕获实景画面帧中被摄人物的视线进行校正处理，其成本消耗低且适用范围广，同时通过双摄像头还能带来更广的捕获视野，由此更好的增强了智能会议终端的实际使用体验。

Description

视线校正方法、装置、智能会议终端及存储介质

技术领域

本发明涉及图像处理技术领域，尤其视线校正方法、装置、智能会议终端及存储介质。

背景技术

随着科技的发展，视频会议也得到更广泛的应用，调查显示，视频会议过程中如果视频双方能够进行眼神交互，则更能给视频参与者带来良好的视频会议体验。一般而言，视频会议时，只有双方视频者盯着摄像头看时，另一方的视频者才觉得画面中的对方与自己存在眼神交互。然而，在视频会议场景中，如果双方视频者均往视频画面看，则视频画面中显示出的对方实则看向别处，此时双方无法进行眼神交流，影响了用户视频会议的视觉体验。

目前，技术人员提出了一些视线校正方案来保证视频会议中视频双方的眼神交流，常见的视线校正方案有：对视频设备中显示设备的改进，如采用半透明镜子或半透明显示屏实现视线校正，或者采用特殊的摄像头(如RGB-D摄像头)结合相应的算法实现视线校正，上述方案尽管具有较好的视线校正性能，但却需要依赖特殊硬件或特殊摄像头，其均具有较高的成本消耗且可应用的范围也存在限制。此外，技术人员也提出了一些采用普通单目摄像头结合相应算法进行视线校正的方案，但该种方案大多数无法保证在实时性的前提下合成高质量的图像，且该种方案主要依赖普通的单目摄像头进行视线校正，相对上述方案，该方案的视线校正精确性不佳。

发明内容

本发明实施例提供了视线校正方法、装置、智能会议终端及存储介质，能够对视频会议中的视频者进行高精度的视线校正，解决了视线校正成本消耗过高，适用范围过窄的问题。

一方面，本发明实施例提供了一种视线校正方法，包括：

获取双摄像头同步捕获的两张当前画面帧，确定所述两张当前画面帧中各重合被摄点的深度信息，并合并形成一幅当前实景画面帧；

检测所述当前实景画面帧中构成人脸图像的二维关键点，并确定所述二维关键点的坐标信息；

根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像。

另一方面，本发明实施例提供了一种视线校正装置，包括：

深度信息确定模块，用于获取双摄像头同步捕获的两张当前画面帧，确定所述两张当前画面帧中各重合被摄点的深度信息；

图像拼接合成模块，用于将所述两张当前画面帧合并形成一幅当前实景画面帧；

关键点信息确定模块，用于检测所述当前实景画面帧中构成人脸图像的二维关键点，并确定所述二维关键点的坐标信息；

人物视线校正模块，用于根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像。

又一方面，本发明实施例提供了一种智能会议终端，包括：

光轴平行的两个摄像头；

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的视线校正方法。

再一方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的视线校正方法。

在上述视线校正方法、装置、智能会议终端及存储介质中，首先获取双摄像头同步捕获的两张当前画面帧，确定两张当前画面帧中各重合被摄点的深度信息，并合并形成一幅当前实景画面帧；然后检测当前实景画面帧中构成人脸图像的二维关键点并确定二维关键点的坐标信息；最终根据二维关键点对应的深度信息及坐标信息在三维空间中校正人脸图像获得二维的人脸正视图像。上述视线校正方法、装置、智能会议终端及存储介质，与现有的视线校正方案相比，本发明的方案无需依赖特殊硬件或特殊摄像头，仅需两个普通的摄像头就能高效地对所捕获实景画面帧中被摄人物的视线进行校正处理，其成本消耗低且适用范围广，同时通过双摄像头还能带来更广的捕获视野，由此更好的增强了智能会议终端的实际使用体验。

附图说明

图1为本发明实施例一提供的一种视线校正方法的流程示意图；

图2a为本发明实施例二提供的一种视线校正方法的流程示意图；

图2b～图2c给出了基于本发明实施例二提供的视线校正方法进行视线校正的处理流程图；

图2d给出了一组存在一个被摄人物的待进行视线校正的第一实景画面帧；

图2e给出了对上述一组第一实景画面帧进行视线校正处理后的校正效果图；

图2f给出了一组存在多个被摄人物的待进行视线校正的第二实景画面帧；

图2g给出了对上述一组第二实景画面帧进行视线校正处理后的校正效果图；

图3为本发明实施例三提供的一种视线校正装置的结构框图；

图4为本发明实施例四提供的一种智能会议终端的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种视线校正方法的流程示意图，该方法适用于视频通话时对所捕获画面帧中的人物进行视线校正的情况，该方法可以由视线校正装置执行，其中该装置可由软件和/或硬件实现，并一般集成在具有视频通话功能的智能终端上。

在本实施例中，所述智能终端具体可以是手机、平板电脑、笔记本等智能移动终端，也可以是台式计算机、智能会议终端等固定式的具有视频通话功能的电子设备。本实施例优选的设定其应用场景为通过固定不动的智能终端进行视频通话，且优选地认为进行视频通话时视频者双方的实现均看向视频画面，此时基于本发明提供的视线校正方法，可以让视频者双方自然地对视实现视频通话时的视线交流。

如图1所示，本发明实施例一提供的一种视线校正方法，包括如下操作：

S101、获取双摄像头同步捕获的两张当前画面帧，确定该两张当前画面帧中各重合被摄点的深度信息，并合并形成一幅当前实景画面帧。

在本实施例中，在基于智能终端进行视频通话时，主要通过智能终端的摄像头捕获视频者当前所处场景的画面信息，本实施例中的智能终端具有两个光轴平行的摄像头，即所述智能终端具有双摄像头。在视频通话过程中，双摄像头可同步捕获当前所在场景的当前画面帧。

可以理解的是，由于双摄像头在智能终端上的安装位置不同，同步捕获的当前所在场景中的当前画面帧也不完全重合，但所述两张当前画面帧中仍存在同时被捕获的被摄点，本实施例将同时存在于所述两张当前画面帧中的被摄点称为重合被摄点。

在本实施例中，可以根据设定的画面帧立体匹配算法确定两张当前画面帧中各重合被摄点的视差值，之后，根据摄像头具有的焦距、各重合被摄点到所在当前画面帧中的视差值以及双摄像头光心连线的距离，可以确定各重合被摄点的深度信息。其中，所述深度信息具体可理解为重合被摄点到智能终端的深度值。此外，本实施例还可以对所捕获的两张画面帧进行合并拼接处理，由此将两张当前画面帧合并形成一幅当前实景画面帧。

S102、检测当前实景画面帧中构成人脸图像的二维关键点，并确定二维关键点的坐标信息。

本步骤可以根据关键点检测算法检测当前实景画面帧中的是否存在人脸图像并可确定构成人脸图像的二维关键点。具体地，可以根据人脸具有的特征标识在所述当前实景画面帧中检测构成人脸图像的二维关键点，同时可以确定各二维关键点在当前实景画面帧中的具体坐标信息。一般地，可将人脸中的双眼、鼻子以及两嘴角作为人脸的最基本特征标识，由此可以在当前画面帧中检测出构成人脸图像的五个二维关键点。示例性的，所述二维关键点的个数不限于五个，还可以是8个、10个甚至63个，可以理解的是，所检测的二维关键点个数越多，其在当前实景画面帧中确定的人脸图像的所在区域就越准确。本实施例为保证人脸图像所在区域的准确性，优选的进行63个二维关键点的检测，由此可在所述当前实景画面帧中确定出63个二维关键点的坐标信息。

S103、根据二维关键点对应的深度信息及所述坐标信息，在三维空间中校正人脸图像获得二维的人脸正视图像。

需要说明的是，本实施例认为智能终端上的双摄像头均可清晰的捕获当前所处场景中的视频者信息，即，可认为构成视频者图像(可以是人脸图像)的被摄点属于所述重合被摄点，因此，可从所获取的各重合被摄点的深度信息中获取构成人脸图像的各二维关键点的深度信息。

本步骤可以根据所确定的各二维关键点的深度信息以及坐标信息，对人脸图像的视线进行校正。需要说明的是，对人脸图像的视线校正具体可相当于对人脸图像的姿态进行校正，示例性的，当将人脸图像由仰视、俯视以及侧视等姿态校正为正视时，就相应的实现了人物视线的校正。

一般地，可以基于所确定二维关键点的坐标信息对当前的人脸图像进行实际三角剖分，同样可以根据预设的正视姿态下标准人脸图像的关键点坐标信息进行标准三角剖分，之后可以根据各二维关键点与标准人脸图像中各关键点的对应关系，建立各实际三角剖分与各标准三角剖分之间的纹理映射，最终根据其纹理映射将当前的人脸图像校正为正视姿态下的标准人脸图像。

上述操作可以实现人脸图像的姿态校正，但其校正效果的精准度较低，本步骤可通过各二维关键点的深度信息及坐标信息在三维空间中形成三维的实际人脸图像模型，之后可以根据几何变换矩阵将三维的实际人脸图像模型校正为正脸姿态的人脸图像模型，最终对正脸姿态的人脸图像模型进行投影映射形成二维的正脸姿态的人脸图像模型，由此可将该正脸姿态的人脸图像模型作为本实施例校正后的人脸正视图像。

本发明实施例一提供的一种视线校正方法，与现有的视线校正方案相比，该视线校正方法无需依赖特殊硬件或特殊摄像头，仅需两个普通的摄像头就能高效地对所捕获实景画面帧中被摄人物的视线进行校正处理，其成本消耗低且适用范围广，同时通过双摄像头还能带来更广的捕获视野，由此更好的增强了智能会议终端的实际使用体验。

实施例二

图2a为本发明实施例二提供的一种视线校正方法的流程示意图。本发明实施例二以上述实施例为基础进行优化，在本实施例中，可以将获取双摄像头同步捕获的两张当前画面帧，确定所述两张当前画面帧中各重合被摄点的深度信息，并合并形成一幅当前实景画面帧，进一步具体优化为：获取双摄像头在当前视频场景下同步捕获的两张当前画面帧；对所述两张当前画面帧进行立体匹配，获得所述两张当前画面帧中各重合被摄点的视差值；根据各重合被摄点的视差值及深度计算公式，确定各重合被摄点的深度信息；根据设定的图像合并策略，将所述两张当前画面帧合并成一幅无缝高分辨率的当前实景画面帧。

进一步地，该视线校正方法所述确定所述两张当前画面帧中各重合被摄点的深度信息之后，还优化包括：基于所述各重合被摄点的深度信息，形成所述各重合被摄点对应的深度图；基于设定的图像平滑算法对所述深度图进行平滑优化处理，获得与所述各重合被摄点对应的优化后的深度信息。

在上述实施例的基础上，该方法在根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像之后，还优化包括：将所述当前实景画面帧中的人脸图像替换为所述人脸正视图像，获得校正实景画面帧；对所述校正实景画面帧进行边缘融合处理，并显示处理后的校正实景图像帧。

此外，本实施例还进一步将根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像，具体优化为：查找各重合被摄点的深度信息，确定所述二维关键点对应的深度信息；根据所述深度信息及所述坐标信息，对预设的三维人脸参数模型进行人脸图像拟合，获得所述当前实景画面帧中人脸图像的实际三维人脸模型；根据确定的几何变换矩阵，将所述实际三维人脸模型由当前姿态变换投影成二维的人脸正视图像。

如图2a所示，本发明实施例二提供的一种视线校正方法，具体包括如下操作：

在本实施例中，S201～S204具体描述了重合被摄点深度信息的获取过程。

S201、获取双摄像头在当前视频场景下同步捕获的两张当前画面帧。

示例性的，在视频通话时，可通过设置于智能终端上的光轴平行的双摄像头在当前视频场景下同步进行画面捕获，相当于在两个不同视角下获得同一场景的两张当前画面帧。

S202、对两张当前画面帧进行立体匹配，获得两张当前画面帧中各重合被摄点的视差值。

在本实施例中，所述对两张当前画面帧的立体匹配，具体可理解为从不同视角所捕获的两张或多张图像中找点匹配的对应点，其中，所述对应点可理解为本实施例中的重合被摄点，本实施例对两张当前画面帧进行立体匹配后，可以确定各重合被摄点的视差值。

具体地，本实施例可以通过基于区域(窗口)的双目匹配算法实现对应点的匹配，示例性的，将两张当前画面帧划分为特定个数的区域，然后在每个区域中确定是否存在相匹配的对应点；本实施例还可以通过基于特征的双目匹配算法实现对应点的匹配，示例性的，在两张当前画面帧中划分出包含真实世界中物体具有明显特征的各个区间，然后在各个区间中确定是否存在相匹配的对应点。

需要说明的是，实现上述立体匹配的方法有多种，每种方法都存在自身的优缺点，如基于区域(窗口)的双目匹配算法，能够很容易地恢复出高纹理区域的视差，但在低纹理区域会造成大量的误匹配，从而导致边界模糊，同时对遮挡的区域也很难进行处理；又如，基于特征的双目匹配方法提取的特征点由于对噪声不是太敏感，所以能得到一个比较精准的匹配，但由于图像中的特征点很稀疏，此种方法只能获得一个稀疏的视差图。本实施例并未对待使用的双目匹配算法作进行具体限定，上述双目匹配算法均可使用，且可根据具体应用场景进行具体选择选择。

S203、根据各重合被摄点的视差值及深度计算公式，确定各重合被摄点的深度信息。

在本实施例中，深度计算公式表示为：

其中，Z表示重合被摄点到智能终端的深度值，b表示双摄像头光心的连线距离，f表示双摄像头具有的焦距，d表示重合被摄点的视差值。基于上述公式以及确定的视差值，可以确定各重合被摄点的深度信息。

S204、基于所述各重合被摄点的深度信息，形成所述各重合被摄点对应的深度图。

本步骤基于上述确定的各重合被摄点的深度信息以及各重合被摄点在当前实景画面帧中的像素坐标信息，可以形成各重合被摄点对应的深度图。

S205、基于设定的图像平滑算法对所述深度图进行平滑优化处理，获得与所述各重合被摄点对应的优化后的深度信息。

在本实施例中，由于上述立体匹配算法的局限性，其确定出的深度信息具有的可靠性较低，而根据上述深度信息形成的深度图中存在较多的空洞，由此需要对深度图进行优化处理，以填补深度图中的空洞，本实施例可以采用图像平滑算法进行平滑优化处理，示例性的，所述图像平滑算法可以是拉普拉斯平滑算法以及二维自适应滤波平滑算法等。此外，所获得各重合被摄点对应的深度信息可以用于后续S208的操作。

需要说明的是，为加快本实施例中对深度信息的优化处理速度，可以仅考虑对当前实景画面帧中包含人脸图像的深度信息进行优化处理，但本步骤无需确定人脸图像的具体区域，由于人脸图像一般处于当前实景画面帧中的前景区域，因此本实施例可以考虑仅对当前实景画面帧中的前景区域进行处理。具体地，本实施例可以通过确定周围平均深度值的方法判断所述当前实景画面帧中的前景区域。

S206、根据设定的图像合并策略，将所述两张当前画面帧合并成一幅无缝高分辨率的当前实景画面帧。

本步骤具体实现两张当前画面帧的拼接处理，基于本步骤可以将两张不同视角下拍摄的有重叠部分的图像拼接成一幅视野范围更广的无缝高分辨率图像。示例性地，本步骤中的图像合并策略可以是基于区域相关的拼接算法，也可以是基于特征相关的拼接算法。

具体的，所述基于区域相关的拼接算法的一种实现方式可表述为：首先将两张当前画面帧中的一张图像作为待配准图像，另一张作为参考图像，然后对待配准图像中一块区域与参考图像中的相同尺寸的区域使用最小二乘法或者其它数学方法计算其灰度值的差异，进行差异比较后来判断两张待拼接图像中重叠区域的相似程度，由此得到两张当前画面帧中重叠区域的范围和位置，从而实现两张当前画面帧的图像拼接。另一种实现方式可以通过FFT变换将两张当前画面帧的图像由时域变换到频域，然后建立两张当前画面帧之间的映射关系，当以两张当前画面帧中各块区域像素点灰度值的差别作为判别标准时，计算对应两块区域的像素点灰度值的相关系数，相关系数越大，则对应两块区域中图像的匹配程度越高，由此将图像匹配程度高的区域作为重叠区域，也可实现两张当前画面帧的拼接。

此外，基于特征相关的拼接算法的实现方式可表述为：首先基于特征进行重叠图像的匹配，该匹配过程不是直接利用每个当前画面帧中图像的像素值，而是通过像素导出每个当前画面帧中图像的特征，然后以图像特征为标准，通过搜索匹配确定图像重叠部分的对应特征区域，由此实现两张当前画面帧的拼接，其中，该类拼接算法有比较高的健壮性和鲁棒性。

需要说明的是，基于特征进行重叠图像的匹配具有两个过程：特征抽取和特征配准。首先从两张当前画面帧中提取灰度变化明显的点、线、区域等特征形成特征集；然后在两张当前画面帧对应的特征集中利用特征匹配算法尽可能地将存在对应关系的特征对选择出来。在上述过程中，一系列的图像分割技术都被用到特征的抽取和边界检测上，如Canny算子、拉普拉斯高斯算子、区域生长。此外，提取出的空间特征包括有闭合的边界、开边界、交叉线以及其他特征。同时，可通过交叉相关、距离变换、动态编程、结构匹配、链码相关等算法实现上述过程中的特征配准操作。

需要注意的是，本实施例并未对待使用的图像拼接算法作进行具体限定，上述提出的图像拼接算法均可使用，本实施例可根据具体应用场景进行具体选择选择。

S207、检测所述当前实景画面帧中构成人脸图像的二维关键点，并确定所述二维关键点的坐标信息。

示例性的，本实施例优选的对当前实景画面帧中构成人脸图像的63个二维关键点进行检测，并可获取各二维关键点在所述当前实景画面帧中的坐标信息。

S208、查找各重合被摄点的深度信息，确定所述二维关键点对应的深度信息。

需要说明的是，本步骤所采用的深度信息可以是基于S203获得的初始深度信息，也可以是基于S205优化后的深度信息，本实施例优选的采用优化后的深度信息进行后续的操作，由此可以更好地提高视线校正的精确性。

本步骤具体通过已确定的各重合被摄点的深度信息，本实施例可认为构成人脸图像的各二维关键点属于所述重合被摄点集合，由此可查找获得各二维关键点对应的深度信息。

在本实施例中，可通过下述S209和S210实现人脸图像的视线校正。

S209、根据所述深度信息及所述坐标信息，对预设的三维人脸参数模型进行人脸图像拟合，获得所述当前实景画面帧中人脸图像的实际三维人脸模型。

具体地，根据已确定的各二维关键点的深度信息和坐标信息，可以在给定的三维人脸参数模型上进行立体的人脸图像的拟合。所述三维人脸参数模型具体可理解为具有人脸轮廓的三维模型，其可根据所输入参数的不同，拟合出具有不同特征信息以及不同姿态的三维人脸模型。因此，本步骤可根据所输入的二维关键点的深度信息和坐标信息，拟合确定出对应于当前实景画面帧中人脸图像的实际三维人脸模型。

S210、根据确定的几何变换矩阵，将所述实际三维人脸模型由当前姿态变换投影成二维的人脸正视图像。

在本实施例中，拟合出的世纪三维人脸模型其具有的姿态可看作当前实景画面帧中人脸图像所具有的姿态(如仰视或者俯视等)，本步骤可通过对该实际三维人脸模型的几何变换获得人脸图像的正视姿态。具体地，本步骤可以首先将实际三维人脸模型与第一几何变换矩阵相乘，在三维空间中确定一个三维人脸正视模型，之后根据第二几何变换矩阵与三维人脸正视模型相乘，将三维人脸正视模型的纹理投影到二维平面上，获得二维的人脸正视图像。此外，本步骤也可以首先将第一几何变换矩阵和第二几何变换矩阵相乘，获得第三几何变换矩阵，最终将实际三维人脸模型与第三几何变化矩阵相乘，直接获得二维的人脸正视图像。

需要说明的是，本实施例中的第一几何变换矩阵由当前实景画面帧中所包含人物相对于智能终端屏幕的位置唯一确定，而所包含人物相对于智能终端屏幕的位置可通过上述深度信息获得，由此可根据构成人脸图像的深度信息唯一确定第一变换矩阵的具体值。本实施例中的第二几何变换矩阵具体用于三维到二维的降维投影，可根据三维空间下正姿态的三维人脸模型确定。

S211、将所述当前实景画面帧中的人脸图像替换为所述人脸正视图像，获得校正实景画面帧。

基于上述步骤获得所述人脸正视图像后，可基于本步骤进行人脸图像的替换获得校正实景画面帧，可以知道的是，所述校正实景画面帧中人脸图像所处的姿态为正视姿态，由此实现了视频通话时所捕获画面帧中人物视线的校正。

S212、对所述校正实景画面帧进行边缘融合处理，并显示处理后的校正实景图像帧。

需要说明的是，基于上述步骤形成的校正实景画面帧仅获得初步的校正效果，尽管视线得以校正，但替换合成的脸部边缘与原实景画面帧往往存在较大的不一致性，导致存在较明显的图像处理痕迹，因此，可基于本步骤对上述步骤的处理痕迹通过边缘融合的方法进行修复。

实现本步骤边缘融合的做法有多种，示例性的，可以将所形成校正实景图像帧中的人脸图像的轮廓外区域作为待切割区域，由此利用图像分割技术获得轮廓外区域的最佳切割边缘，之后与校正实景图像帧进行混合，最终获得边缘处理后的校正实景图像帧，本实施例最终可以将处理后的校正实景图像帧显示到本端以及对端的屏幕上。

在上述实施例的基础上，本实施例还进一步通过图示描述了视线校正的实现过程，具体地，图2b～图2c给出了基于本发明实施例二提供的视线校正方法进行视线校正的处理流程图。如图2b所示，在智能终端的两侧分别设置了光轴平行的摄像头20，摄像头20可通过步骤S1同步捕获两张当前画面帧21；然后可通过步骤S2对两张当前画面帧21进行立体匹配，获得重合被摄点的深度信息22，并可通过步骤S3获得优化后的深度信息23，同时还可通过步骤S4对两张当前画面帧21进行拼接获得当前实景画面帧24；之后，可根据步骤S5通过已确定的深度信息23以及检测出的二维关键点对当前实景画面帧24中的人脸图像进行视线校正操作，获得视线校正后的校正实景画面帧25；可以发现，校正实景画面帧25中人脸图像的额头部分26存在处理痕迹，由此可通过步骤S6对校正实景画面帧25进行边缘融合处理，获得处理后的校正实景画面帧27；还可以发现，处理后的校正实景画面帧27中人脸图像的额头部分28平滑显示，较好的修复了处理痕迹；最终通过步骤S7在对端的智能终端和/或本端的智能终端上实时显示校正后的实景画面帧29。

进一步地，本实施例还给出了基于所提供视线校正方法进行视线校正的效果图，图2d给出了一组存在一个被摄人物的待进行视线校正的第一实景画面帧；图2e给出了对一组第一实景画面帧视角校正处理后的校正效果图。通过图2d和图2e的比对，可以看出，视线校正处理后的被摄人物显示为正视姿态，对端视频者可与该姿态下的被摄人物进行视线交流。

此外，图2f给出了一组存在多个被摄人物的待进行视线校正的第二实景画面帧；图2g给出了对上述一组第二实景画面帧进行视线校正处理后的校正效果图。通过图2f和图2g的比对，可以看出，视线校正处理后的两个被摄人物均显示为正视姿态，对端视频者可与该姿态下的任一个被摄人物进行视线交流。

本发明实施例二提供的一种视线校正方法，具体描述了深度信息的确定过程，同时具体描述了画面帧中人物视线的校正过程，此外还增加了深度信息的优化操作以及人物视线校正后所形成校正画面帧的处理过程。利用该方法，能够通过双摄像头捕获的双画面帧确定各被摄点的深度信息，由此根据深度信息及检测的人脸关键点信息实现被摄人物的视线校正，与现有方法相比，该方法无需依赖特殊硬件或特殊摄像头，仅需两个普通的摄像头就能高效地对所捕获实景画面帧中被摄人物的视线进行校正处理，其成本消耗低且适用范围广，同时通过双摄像头还能带来更广的捕获视野，由此更好的增强了智能会议终端的实际使用体验。

实施例三

图3为本发明实施例三提供的一种视线校正装置的结构框图，该装置适用于视频通话时对所捕获画面帧中的人物进行视线校正的情况，该装置可由软件和/或硬件实现，并一般集成在具有视频通话功能的智能终端上。如图3所示，该装置包括：深度信息确定模块31、图像拼接合成模块32、关键点信息确定模块33以及人物视线校正模块34。

其中，深度信息确定模块31，用于获取双摄像头同步捕获的两张当前画面帧，确定所述两张当前画面帧中各重合被摄点的深度信息；

图像拼接合成模块32，用于将所述两张当前画面帧合并形成一幅当前实景画面帧；

关键点信息确定模块33，用于检测所述当前实景画面帧中构成人脸图像的二维关键点，并确定所述二维关键点的坐标信息；

人物视线校正模块34，用于根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像。

在本实施中，该视线校正装置首先深度信息确定模块31获取双摄像头同步捕获的两张当前画面帧，确定所述两张当前画面帧中各重合被摄点的深度信息；然后通过图像拼接合成模块32将所述两张当前画面帧合并形成一幅当前实景画面帧；然后通过关键点信息确定模块33检测所述当前实景画面帧中构成人脸图像的二维关键点，并确定所述二维关键点的坐标信息，最终通过人物视线校正模块34根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像。

本发明实施例三提供的一种视线校正装置，与现有的视线校正装置相比，该装置无需依赖特殊硬件或特殊摄像头，仅需两个普通的摄像头就能高效地对所捕获实景画面帧中被摄人物的视线进行校正处理，其成本消耗低且适用范围广，同时通过双摄像头还能带来更广的捕获视野，由此更好的增强了智能会议终端的实际使用体验。

进一步地，深度信息确定模块31，具体用于：获取双摄像头在当前视频场景下同步捕获的两张当前画面帧；对所述两张当前画面帧进行立体匹配，获得所述两张当前画面帧中各重合被摄点的视差值；根据各重合被摄点的视差值及深度计算公式，确定各重合被摄点的深度信息。

相应的，图像拼接合成模块32，具体用于：根据设定的图像合并策略，将所述两张当前画面帧合并成一幅无缝高分辨率的当前实景画面帧。

进一步地，该装置还优化增加了：

深度图确定模块35，用于在所述确定所述两张当前画面帧中各重合被摄点的深度信息之后，基于所述各重合被摄点的深度信息，形成所述各重合被摄点对应的深度图；

深度信息优化模块36，用于基于设定的图像平滑算法对所述深度图进行平滑优化处理，获得与所述各重合被摄点对应的优化后的深度信息。

进一步地，该装置还优化包括：

人脸图像替换模块37，用于在根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像之后，将所述当前实景画面帧中的人脸图像替换为所述人脸正视图像，获得校正实景画面帧；

校正图像处理模块38，用于对所述校正实景画面帧进行边缘融合处理，并显示处理后的校正实景画面帧。

在上述优化的基础上，人物视线校正模块34，具体用于：

查找各重合被摄点的深度信息，确定所述二维关键点对应的深度信息；根据所述深度信息及所述坐标信息，对预设的三维人脸参数模型进行人脸图像拟合，获得所述当前实景画面帧中人脸图像的实际三维人脸模型；根据确定的几何变换矩阵，将所述实际三维人脸模型由当前姿态变换投影成二维的人脸正视图像。

实施例四

图4为本发明实施例四提供的一种智能会议终端的硬件结构示意图，如图 4所示，本发明实施例四提供的智能会议终端，包括：光轴平行的两个摄像头41，处理器42和存储装置43。该智能会议终端中的处理器可以是一个或多个，图4中以一个处理器42为例，所述智能会议终端中的两个摄像头41可以通过总线或其他方式分别与处理器42和存储装置43连接，且处理器42和存储装置43也通过总线或其他方式连接，图4中以通过总线连接为例。

可以理解的是，智能会议终端属于上述智能终端中的一种，可以进行远程的视频会议通话。在本实施例中，智能会议终端中的处理器42可以控制两个摄像头41进行图像捕获，处理器42还可以根据两个摄像头所捕获的画面帧进行所需的操作，此外，两个摄像头41所捕获的画面帧还可以存储至存储装置43，以实现图像数据的存储。

该智能会议终端中的存储装置43作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例中视线校正方法对应的程序指令/模块(例如，附图3所示的视线校正装置中的模块，包括：深度信息确定模块31、图像拼接合成模块32、关键点信息确定模块33以及人物视线校正模块34)。处理器42通过运行存储在存储装置43中的软件程序、指令以及模块，从而执行智能会议终端的各种功能应用以及数据处理，即实现上述方法实施例中视线校正方法。

存储装置43可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储装置43可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置43可进一步包括相对于处理器42远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

并且，当上述智能会议终端所包括一个或者多个程序被所述一个或者多个处理器42执行时，程序进行如下操作：

获取双摄像头同步捕获的两张当前画面帧，确定所述两张当前画面帧中各重合被摄点的深度信息，并合并形成一幅当前实景画面帧；检测所述当前实景画面帧中构成人脸图像的二维关键点，并确定所述二维关键点的坐标信息；根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像。

此外，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被控制装置执行时实现本发明实施例一或实施例二提供的视线校正方法，该方法包括：获取双摄像头同步捕获的两张当前画面帧，确定所述两张当前画面帧中各重合被摄点的深度信息，并合并形成一幅当前实景画面帧；检测所述当前实景画面帧中构成人脸图像的二维关键点，并确定所述二维关键点的坐标信息；根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

一种视线校正方法，其特征在于，包括：

获取双摄像头同步捕获的两张当前画面帧，确定所述两张当前画面帧中各重合被摄点的深度信息，并合并形成一幅当前实景画面帧；

检测所述当前实景画面帧中构成人脸图像的二维关键点，并确定所述二维关键点的坐标信息；

根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像。
根据权利要求1所述的方法，其特征在于，所述获取双摄像头同步捕获的两张当前画面帧，确定所述两张当前画面帧中各重合被摄点的深度信息，并合并形成一幅当前实景画面帧，包括：

获取双摄像头在当前视频场景下同步捕获的两张当前画面帧；

对所述两张当前画面帧进行立体匹配，获得所述两张当前画面帧中各重合被摄点的视差值；

根据各重合被摄点的视差值及深度计算公式，确定各重合被摄点的深度信息；

根据设定的图像合并策略，将所述两张当前画面帧合并成一幅无缝高分辨率的当前实景画面帧。
根据权利要求1所述的方法，其特征在于，在所述确定所述两张当前画面帧中各重合被摄点的深度信息之后，还包括：

基于所述各重合被摄点的深度信息，形成所述各重合被摄点对应的深度图；

基于设定的图像平滑算法对所述深度图进行平滑优化处理，获得与所述各重合被摄点对应的优化后的深度信息。
根据权利要求1所述的方法，其特征在于，在根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像之后，还包括：

将所述当前实景画面帧中的人脸图像替换为所述人脸正视图像，获得校正实景画面帧；

对所述校正实景画面帧进行边缘融合处理，并显示处理后的校正实景图像帧。
根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像，包括：

查找各重合被摄点的深度信息，确定所述二维关键点对应的深度信息；

根据所述深度信息及所述坐标信息，对预设的三维人脸参数模型进行人脸图像拟合，获得所述当前实景画面帧中人脸图像的实际三维人脸模型；

根据确定的几何变换矩阵，将所述实际三维人脸模型由当前姿态变换投影成二维的人脸正视图像。
一种视线校正装置，其特征在于，包括：

深度信息确定模块，用于获取双摄像头同步捕获的两张当前画面帧，确定所述两张当前画面帧中各重合被摄点的深度信息；

图像拼接合成模块，用于将所述两张当前画面帧合并形成一幅当前实景画面帧；

关键点信息确定模块，用于检测所述当前实景画面帧中构成人脸图像的二维关键点，并确定所述二维关键点的坐标信息；

人物视线校正模块，用于根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像。
根据权利要求6所述的装置，其特征在于，还包括：

深度图确定模块，用于在所述确定所述两张当前画面帧中各重合被摄点的深度信息之后，基于所述各重合被摄点的深度信息，形成所述各重合被摄点对应的深度图；

深度信息优化模块，用于基于设定的图像平滑算法对所述深度图进行平滑优化处理，获得与所述各重合被摄点对应的优化后的深度信息。
根据权利要求6所述的装置，其特征在于，还包括：

人脸图像替换模块，用于在根据所述二维关键点对应的深度信息及所述坐标信息，在三维空间中校正所述人脸图像获得二维的人脸正视图像之后，将所述当前实景画面帧中的人脸图像替换为所述人脸正视图像，获得校正实景画面帧；

校正图像处理模块，用于对所述校正实景画面帧进行边缘融合处理，并显示处理后的校正实景画面帧。
一种智能会议终端，其特征在于，包括：光轴平行的两个摄像头；

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一项所述的视线校正方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的视线校正方法。