WO2021169325A1 - 眼神调节方法、装置及存储介质 - Google Patents

眼神调节方法、装置及存储介质 Download PDF

Info

Publication number
WO2021169325A1
WO2021169325A1 PCT/CN2020/121519 CN2020121519W WO2021169325A1 WO 2021169325 A1 WO2021169325 A1 WO 2021169325A1 CN 2020121519 W CN2020121519 W CN 2020121519W WO 2021169325 A1 WO2021169325 A1 WO 2021169325A1
Authority
WO
WIPO (PCT)
Prior art keywords
eye
image
adjustment
network model
network
Prior art date
Application number
PCT/CN2020/121519
Other languages
English (en)
French (fr)
Inventor
范蓉蓉
毛晓蛟
章勇
曹李军
Original Assignee
苏州科达科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 苏州科达科技股份有限公司 filed Critical 苏州科达科技股份有限公司
Publication of WO2021169325A1 publication Critical patent/WO2021169325A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请涉及一种眼神调节方法、装置及存储介质,属于图像处理技术领域,该方法包括:获取包括目标眼部图像的目标图像;获取眼神调节网络;基于目标眼部图像和眼神调节网络得到调节后的眼部图像,目标眼部图像的眼神角度相对于调节后的眼部图像中眼神角度的眼神角度之差为期望调节角度;可以解决通过改变硬件设备使得用户同时观看屏幕和摄像头,导致眼神矫正效率较低的问题;由于眼神调节网络可以基于期望调节角度生成编码图像、基于目标眼部图像和编码图像生成校正后的眼部图像,对校正后的眼部图像进行像素位置调节和颜色调节;因此可以实现基于眼神调节网络对眼部图像的眼神调节,无需改变硬件设备,可以提高眼神矫正效率。

Description

眼神调节方法、装置及存储介质
本申请要求申请号为:CN202010114683.9、申请日为2020.02.25的中国国家知识产权局的在先专利申请为优先权,该在先专利申请文本中的内容通过引用而完全加入本专利申请中。
技术领域
本申请涉及一种眼神调节方法、装置及存储介质,属于图像处理技术领域。
背景技术
视频会议系统(又称会议电视系统)是指两个或两个以上不同地方的个人或群体,通过传输线路及多媒体设备,将声音、影像及文件资料互传,实现即时且互动的沟通,以实现远程会议的系统。
现有的视频会议系统,摄像头一般设置于显示屏的上方或下方位置。这样,用户在观看显示屏的同时,摄像头能够不受显示屏的阻挡,而拍摄到用户。但是摄像头位于显示屏的上方或者下方,而用户视线是直视显示屏,摄像机采集得到的眼部图像效果是眼神上扬或下撇的状态,另一端与会人员观看到的图像是不存在眼神交互的图像。
为了提高视频会议效果,通常需要对与会人员的眼神进行校正。在一种典型的校正方法中,通过使用专门的硬件设备使得用户同时观看屏幕和摄像头。
但是,专门的硬件设备需要对已有的视频会议系统进行改造,眼神校正效率较低。
发明内容
本申请提供了一种眼神调节方法、装置及存储介质,可以解决通过改变硬件设备使得用户同时观看屏幕和摄像头,导致眼神矫正效率较低的问题。本申请提供如下技术方案:
第一方面,提供了一种眼神调节方法,所述方法包括:
获取包括目标眼部图像的目标图像;
获取眼神调节网络,所述眼神调节网络包括第一网络模型、与所述第一网络模型相连的第二网络模型、以及与所述第二网络模型相连的第三网络模型;所述第一网络模型用于基于输入的期望调节角度生成具有所述期望调节角度的编码图像,所述第二网络模型用于基于输入的图像和所述编码图像生成对输入的图像进行校正得到的校正后的眼部图像,所述第三网络模型用于对所述校正后的眼部图像进行像素位置调节和颜色调节;
基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,所述目标眼部图像的眼神角度相对于所述调节后的眼部图像中眼神角度的眼神角度之差为所述期望调节角度。
可选地,所述获取眼神调节网络之前,包括:
获取多个样本图像,所述多个样本图像包括具有各个眼神角度的图像;
获取损失函数;
使用所述多个样本图像和所述损失函数对预设网络模型进行训练,得到所述眼神调节网络。
可选地,所述使用所述多个样本图像和所述损失函数对预设网络模型进行训练,得到所述眼神调节网络,包括:
对每张样本图像进行眼部关键点检测,得到n个眼部关键点,所述n为正整数;
对于每张样本图像,基于对应的n个眼部关键点中每个眼部关键点的位置确定样本锚框,得到每个关键点对应的样本锚框;
将所述多张样本图像进行两两组合,并确定每组图像组合中眼神角度之差,得到训练集;所述训练集包括多组训练数据,每组训练数据包括基准样本图像、待调节样本图像、所述待调节样本图像对应的样本锚框以及所述待调节样本图像相对于所述基准样本图像的眼神角度之差;
将所述训练数据中的眼神角度之差、待调节样本图像、以及所述待调节样本图像对应的样本锚框输入所述预设网络模型,使用所述损失函数、所述训练数据中的基准样本图像对所述预设网络模型进行训练,得到所述眼神调节网络。
可选地,所述将所述训练数据中的眼神角度之差、待调节样本图像、以及所述待调节样本图像对应的样本锚框输入所述预设网络模型,包括:
将所述训练数据中的眼神角度之差输入所述预设网络模型中的第一网络模型;
将所述待调节样本图像、所述待调节样本图像对应的样本锚框和所述第一网络模型的输出结果输入所述预设网络模型中的第二网络模型;
将所述待调节样本图像和所述第二网络模型的输出结果输入所述预设网络模型中的第三网络模型。
可选地,所述损失函数包括第一损失函数、第二损失函数和第三损失函数;
所述第一损失函数用于使所述调节后的眼部图像与真实图像在像素级别的差异总和最小化;
所述第二损失函数用于使所述预设网络模型的模型输出结果的眼部结构与真实图像的眼部结构之间的差异最小化;
所述第三损失函数用于使所述预设网络模型的模型输出结果的眼部颜色与真实图像的眼部颜色之间的差异最小化。
可选地,所述第一网络模型为编码器,所述第二网络模型为校正网络,所述第三网络模型包括像素重定位分支模型和颜色调节分支模型;
其中,所述像素重定位分支模型包括预设激活函数和与所述预设激活函数相连的像素重定位模型,所述像素重定位分支模型用于对所述第二网络模型的输出结果进行收敛,以使所述输出结果中超出期望范围的局部像素收敛至所述期望范围内;所述颜色调节分支模型包括颜色调节网络模型、以及与所述颜色调节网络模型和所述像素重定位模型相连的颜色调节模型,所述颜色调节分支模型用于使用所述颜色调节网络模型的输出结果指示的颜色调节方式,对所述像素重定位模型的输出结果进行颜色调节。
可选地,所述基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,包括:
确定所述目标眼部图像的目标关键点;
基于所述目标关键点生成目标锚框;
获取所述目标眼部图像的期望调节角度;
将所述目标眼部图像、所述目标锚框和所述期望调节角度输入所述眼神调节网络,得到调节后的眼部图像。
可选地,所述第三网络模型包括像素重定位分支模型和颜色调节分支模型;所述将所述目标眼部图像、所述目标锚框和所述期望调节角度输入所述眼神调节网络,得到调节后的眼部图像,包括:
将所述期望调节角度输入所述第一网络模型,得到具有所述期望调节角度的编码图像;
将所述编码图像、所述目标眼部图像和所述目标锚框输入所述第二网络模型,得到所述校正后的眼部图像;
将所述目标眼部图像和所述校正后的眼部图像输入所述像素重定位分支模型,得到收敛后的眼部图像;
将所述收敛后的眼部图像和所述校正后的眼部图像输入所述颜色调节分支模型,得到所述调节后的眼部图像。
可选地,所述方法还包括:
将所述调节后的眼部图像与所述目标图像进行图像融合,得到融合后的图像。
第二方面,提供了一种眼神调节装置,所述装置包括:
图像获取模块,用于获取包括目标眼部图像的目标图像;
网络获取模块,用于获取眼神调节网络,所述眼神调节网络包括第一网络模型、与所述第一网络模型相连的第二网络模型、以及与所述第二网络模型相连的第三网络模型;所述第一网络模型用于基于输入的期望调节角度生成具有所述期望调节角度的编码图像,所述第二网络模型用于基于输入的图像和所述编码图像生成对输入的图像进行校正得到的校正后的眼部图像,所述第三网络模型用于对所述校正后的眼部图像进行像素位置调节和颜色调节;
眼神调节模块,用于基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,所述目标眼部图像的眼神角度相对于所述调节后的眼部图像中眼神角度的眼神角度之差为所述期望调节角度。
第三方面,提供一种眼神调节装置,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现第一方面所述的眼神调节方法。
第四方面,提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序由所述处理器加载并执行以实现第一方面所述的眼神调节方法。
本申请的有益效果在于:通过获取包括目标眼部图像的目标图像;获取眼神调节网络;基于目标眼部图像和眼神调节网络得到调节后的眼部图像,目标眼部图像的眼神角度相对于调节后的眼部图像中眼神角度的眼神角度之差为期望调节角度;可以解决通过改变硬件设备使得用户同时观看屏幕和摄像头,导致眼神矫正效率较低的问题;由于眼神调节网络包括第一网络模型、与第一网络模型相连的第二网络模型、以及与第二网络模型相连的第三网络模型;第一网络模型可以基于期望调节角度生成编码图像,第二网络模型可以基于编码图像对输入的图像进行校正,第三网络模型可以对校正后的眼部图像进行像素位置调节和颜色调节;因此,基于该眼神调节网络实现对目标图像中眼部图像的眼神调节,无需改变硬件设备,可以提高眼神矫正效率。
另外,由于校正后的眼部图像可能存在眼部像素不在眼部轮廓内的情况,因此,通过设置第三网络模型进行像素位置调节,可以保证输出的调节后的眼部图像中的眼部像素均在眼部轮廓内,提高调节后的眼部图像的真实性。
另外,由于校正后的眼部图像可能存在眼部颜色与现实中的眼部颜色不符的情况,因此,通过设置第三网络模型进行颜色调节,可以保证输出的调节后的眼部图像的颜色更符合真实的眼部颜色,提高调节后的眼部图像的真实性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
图1是本申请一个实施例提供的眼神调节方法的流程图;
图2是本申请一个实施例提供的眼神调节网络的结构示意图;
图3是本申请一个实施例提供的眼神调节网络的训练方法的流程图;
图4是本申请一个实施例提供的眼神调节过程的示意图;
图5是本申请一个实施例提供的眼神调节装置的框图;
图6是本申请一个实施例提供的眼神调节装置的框图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
首先,对本申请涉及的若干名词进行介绍:
编码器(encoder):是自编码器(Autoencoder)的一部分。编码器是一种用于提取输入的数据的特征的神经网络。它支持从输入的数据中提取特征,并将这些特征放在一张图像上。构成编码器的网络模型可以是全连接神经网络模型、卷积神经网络模型等,本申请不对编码器的网络模型的类型作限定。
校正网络:用于对输入的图像进行单应变换,以校正目标。校正网络可以是级联形状回归(Cascaded Shape Regressor,CSR)网络等深度神经网络,本申请不对校正网络的网络模型类型作限定。
锚框:是指以图像的一个像素点为中心生成的多个大小和宽高比不同的边界框。
可选地,本申请以各个实施例的执行主体为电子设备为例进行说明,该电子设备可以是终端或者服务器等具有数据处理能力的设备,其中,终端可以是视频会议终端、手机、电脑等,本实施例不对终端的类型作限定。
图1是本申请一个实施例提供的眼神调节方法的流程图。该方法至少包括以下几个步骤:
步骤101,获取包括目标眼部图像的目标图像。
目标图像可以是视频中的一帧图像;或者,也可以是单张的图像。目标图像包括目标眼部图像,比如:人的眼部图像,当然也可以是动物的眼部图像,本实施例对眼部图像所属生物的类型不作限定。
步骤102,获取眼神调节网络,该眼神调节网络包括第一网络模型、与第一网络模型相连的第二网络模型、以及与第二网络模型相连的第三网络模型;第一网络模型用于基于输入的期望调节角度生成具有该期望调节角度的编码图像,第二网络模型用于基于输入的图像和编码图像生成对输入的图像进行校正得到的校正后的眼部图像,第三网络模型用于对校正后的眼部图像进行像素位置调节和颜色调节。
可选地,第一网络模型为编码器,第二网络模型为校正网络,第三网络模型包括像素重定位分支模型和颜色调节分支模型。其中,像素重定位分支模型包括预设激活函数和与预设激活函数相连的像素重定位模型,像素重定位分支模型用于对第二网络模型的输出结果进行收敛,以使输出结果中超出期望范围的局部像素收敛至期望范围内;颜色调节分支模型包括颜色调节网络模型、以及与颜色调节网络模型和像素重定位模型相连的颜色调节模型,颜色调节分支模型用于使用颜色调节网络模型的输出结果指示的颜色调节方式,对像素重定位模型的输出结果进行颜色调节。
其中,期望范围可以是眼部轮廓构成的范围,或者,眼部轮廓所包括的范围。
需要补充说明的是,上述网络模型仅是示意性地,在实际实现时只要可以实现第一网络模型的功能的模型均可以作为第一网络模型、实现第二网络模型的功能的模型均可以作为第二网络模型、实现第三网络模型的功能的模型均可以作为第三网络模型,本实施例不对第一网络模型、第二网络模型和第三网络模型的模型结构作限定。
可选地,预设激活函数用于将校正网络对眼部图像的像素调整范围收敛至指定范围。预设激活函数可以是Tanh函数,当然,也可以是其它类型的激活函数,本实施例不对预设激活函数的类型作限定。
参考图2所示的眼神调节网络20,第一网络模型201为编码器,该编码器的输入为期望调节角度,输出为编码图像。编码图像为具有该期望调节角度的图像。第二网络模型202为校正网络,该校正网络的输入为眼部图像、基于该眼部图像得到的锚框和编码图像,输出为校正后的眼部图像。第三网络模型203包括像素重定位分支模型2031和颜色调节分支模型2032。像素重定位分支模型2031包括预设激活函数和与预设激活函数相连的像素重定位模型。其中,预设激活函数的输入为校正网络输出的校正后的眼部图像,输出为像素收敛值;像素重定位模型的输入为眼部图像和像素收敛值,输出为按照像素收敛值进行收敛后的眼部图像。将收敛后的眼部图像和校正后的眼部图像输入颜色调节分支模型2032,得到调节后的眼部图像。具体地,颜色调节分支模型2032包括颜色调节网络模型、以及与颜色调节网络模型和像素重定位模型相连的颜色调节模型。其中,颜色调节网络的输入为校正后的眼部图像,输出为待进行颜色调节的像素 位置和颜色调节方式。颜色调节模型的输入为收敛后的眼部图像、颜色调节的像素位置和颜色调节方式,输出为调节后的眼部图像。
可选地,获取眼神调节网络包括:调用预先训练的眼神调节网络。此时,在获取眼神调节网络之前还包括:获取多个样本图像,多个样本图像包括具有各个眼神角度的图像;获取损失函数;使用多个样本图像和损失函数对预设网络模型进行训练,得到眼神调节网络。
其中,参考图3,使用多个样本图像和损失函数对预设网络模型进行训练,得到眼神调节网络,至少包括一下步骤31-34:
步骤31,对每张样本图像进行眼部关键点检测,得到n个眼部关键点。n为正整数。
使用关键点检测算法获取样本图像中眼部关键点。可选地,关键点检测算法包括但不限于:可变形状模型(Active Shape Models,ASM)、主动外观模型(Active Appearance Models,AAM)、级联姿势回归(Cascaded pose regression,CPR)等,本实施例对眼部关键点的检测算法不作限定。
眼部关键点的个数(n的取值)可以是6个、8个等,本实施例对眼部关键点的个数不作限定。
步骤32,对于每张样本图像,基于对应的n个眼部关键点中每个眼部关键点的位置确定样本锚框,得到每个关键点对应的样本锚框。
每个眼部关键点的位置通过像素坐标表示,比如:眼部关键点1的位置为(x1,y1)。电子设备中存储有锚框的偏移量,对于每个眼部关键点,电子设备基于该眼部关键点的像素坐标与偏移量之差确定样本锚框的位置。示意性地,锚框的偏移量包括相对于x轴的第一偏移量和相对于y轴的第二偏移量,此时,对于每个眼部关键点,将该眼部关键点的x轴像素坐标与第一偏移量相减,得到样本锚框;将该眼部关键点的y轴像素坐标与第二偏移量相减,得到该眼部关键点对应的样本锚框。
步骤33,将多张样本图像进行两两组合,并确定每组图像组合中眼神角度之差,得到训练集。
训练集包括多组训练数据,每组训练数据包括基准样本图像、待调节样本图像、待调节样本图像对应的样本锚框以及待调节样本图像相对于基准样本图像的眼神角度之差。
本申请中,眼神角度的计算方式包括:根据瞳孔位置计算视线角度。比如:电子设备中预先存储有各个瞳孔位置与眼神角度的映射关系,然后,根据眼部图像中瞳孔的位置确定对应的眼神角度;或者,使用大量眼部图像和对应的眼神角度对深度学习网络模型进行训练,得到眼神角度计算模型,使用该眼神角度计算模型来确定眼部图像中的眼神角度,本实施例不对眼神角度的计算方式作限定。
可选地,调节样本图像以及待调节样本图像相对于基准样本图像的眼神角度之差是指:以基准样本图像中的眼神角度为0°,待调节样本图像相对于基准样本图像的眼神角度为眼神角度之差;或者,在公共坐标系中,待调节样本图像的眼神角度减去基准样本图像的眼神角度的差值,当然,眼神角度之差的确定方式也可以是其它方式,本实施例在此不再一一列举。
以样本图像的数量为3张为例,得到的训练数据包括6组,分别如下:
第一组:样本图像1为待调节样本图像、样本图像2为基准样本图像、样本图像1对应的样本锚框、眼神角度之差为样本图像1相对于样本图像2的眼神角度1。
第二组:样本图像1为待调节样本图像、样本图像3为基准样本图像、样本图像1对应的样本锚框、眼神角度之差为样本图像1相对于样本图像3的眼神角度2。
第三组:样本图像2为待调节样本图像、样本图像1为基准样本图像、样本图像2对应的样本锚框、眼神角度之差为样本图像2相对于样本图像1的眼神角度3。
第四组:样本图像2为待调节样本图像、样本图像3为基准样本图像、样本图像2对应的样本锚框、眼神角度之差为样本图像2相对于样本图像3的眼神角度4。
第五组:样本图像3为待调节样本图像、样本图像1为基准样本图像、样本图像3对应的样本锚框、眼神角度之差为样本图像3相对于样本图像1的眼神角度5。
第六组:样本图像3为待调节样本图像、样本图像2为基准样本图像、样本图像3对应的样本锚框、眼神角度之差样本图像1对应的样本锚框、为样本图像3相对于样本图像2的眼神角度6。
步骤34,将训练数据中的眼神角度之差、待调节样本图像、以及待调节样本图像对应的样本锚框输入预设网络模型,使用损失函数、训练数据中的基准样本图像对预设网络模型进行训练,得到眼神调节网络。
预设网络模型的网络结构与眼神调节网络的网络结构相同,即预设网络模型也包括第一网络模型、第二网络模型和第三网络模型。
依据图2所示的眼神调节网络同理可知,将训练数据中的眼神角度之差、待调节样本图像、待调节样本图像对应的样本锚框输入预设网络模型,包括:将训练数据中的眼神角度之差输入预设网络模型中的第一网络模型;将待调节样本图像、待调节样本图像对应的样本锚框和第一网络模型的输出结果输入预设网络模型中的第二网络模型;将待调节样本图像和第二网络模型的输出结果输入预设网络模型中的第三网络模型。
具体地,将待调节样本图像和第二网络模型的输出结果输入第三网络模型中的像素重定位分支模型;将像素重定位分支模型的输出结果和第二网络模型的输出结果输入颜色调节分支模型中的颜色调节模型,得到颜色调节模型输出的训练结果。
可选地,损失函数包括第一损失函数、第二损失函数和第三损失函数。
第一损失函数用于使调节后的眼部图像与真实图像在像素级别的差异总和最小化。
以第一损失函数为L2损失函数为例,该L2损失函数通过下式表示:
Figure PCTCN2020121519-appb-000001
其中,p’是训练结果I’中的像素,p t是真实图像I t(基准样本图像)中的像素。
第二损失函数用于使预设网络模型的模型输出结果的眼部结构与真实图像的眼部结构之间的差异最小化。
当对眼部图像进行调节时,为了保持眼部的结构和形状,期望的眼球和眼睑的像素点移动方向为相同的方向。另外,由于巩膜几乎都是白色的,瞳孔和虹膜的颜色通常比巩膜要深,每个区域的形状可以根据像素的亮度来保存。换句话说,颜色深的像素表示虹膜和瞳孔,颜色浅的像素表示巩膜,并且巩膜的移动有更大的自由度。
基于上述特性,第二损失函数包括眼球损失函数loss eb,通过下式表示:
Figure PCTCN2020121519-appb-000002
Figure PCTCN2020121519-appb-000003
其中,下标eb表示眼球,L(p)表示像素p所在的亮度,F(·)是训练得到的像素光流场。其中,光流场是指图像中所有像素点构成的一种二维瞬时速度场,其中的二维速度矢量是物体中可见点的三维速度矢量在成像表面的投影。
第二损失函数包括眼睑损失函数loss el,通过下式表示:
Figure PCTCN2020121519-appb-000004
下标el表示眼睑,F(·)是训练结果指示的像素光流场。
第三损失函数用于使预设网络模型的模型输出结果的眼部颜色与真实图像的眼部颜色之间的差异最小化。
本实施例中,通过使用颜色调节网络模型来减少由眼睑遮挡虹膜造成的人为的视觉效果。但是,在训练预设网络模型的过程中,颜色调节网络模型为了最小化L2距离,会显著的改变像素的颜色。基于上述技术问题,通过增加第三损失函数来修正颜色损失。
第三损失函数包括第一损失函数项loss p和第二损失函数项loss s
第一损失函数项loss p通过下式表示:
Figure PCTCN2020121519-appb-000005
Figure PCTCN2020121519-appb-000006
C(·)是预定义的惩罚图,惩罚图的值是从眼睛中心位置开始递增,一直到眼睛区域的边界位置。B(p)表示每个像素的亮度场。β和γ是任意常数,β用于控制惩罚图的曲线,γ用于控制惩罚图的系数,β可以为3、γ可以为5,当然,β和γ也可以设置为其它数值,本实施例对此不作限定。
第二损失函数项loss s通过下式表示:
Figure PCTCN2020121519-appb-000007
总的损失函数loss tot通过下式表示:
loss tot=loss L2+loss eb+loss el+loss p+loss s
可选地,步骤102可以在步骤101之后执行;或者,也可以在步骤101之前执行;或者,还可以与步骤101同时执行,本实施例不对步骤101与102之间的执行顺序作限定。
步骤103,基于目标眼部图像和眼神调节网络得到调节后的眼部图像,目标眼部图像的眼神角度相对于调节后的眼部图像中眼神角度的眼神角度之差为期望调节角度。
其中,基于目标眼部图像和眼神调节网络得到调节后的眼部图像,包括:确定目标眼部图像的目标关键点;基于目标关键点生成目标锚框;获取目标眼部图像的期望调节角度;将目标眼部图像、目标锚框和期望调节角度输入眼神调节网络,得到调节后的眼部图像。
其中,确定目标眼部图像中目标关键点的过程与步骤31相同;基于目标关键点生成目标锚框的过程与步骤32相同,本实施例在此不再赘述。
可选地,期望调节角度可以是用户输入的;或者,也可以是电子设备根据目标图像的眼神角度与基准角度之间的差值计算得到的,本实施例不对期望调节角度的获取方式作限定。
基于图2所示的眼神调节网络可知,目标眼部图像和目标锚框输入第二网络模型、期望调节角度输入第一网络模型、目标眼部图像还会输入第三网络模型,得到调节后的眼部图像。
可选地,在本步骤之后,电子设备还会将调节后的眼部图像与目标图像进行图像融合,得到融合后的图像。示意性地,电子设备使用图像融合算法进行图像融合,该图像融合算法包括但不限于:像素级图像融合算法、特征级图像融合算法或者决策级图像融合算法,本实施例不对图像融合算法的类型作限定。
为了更清楚地理解本申请提供的眼神调节方法,下面对该眼神调节方法进行举一个实例进行说明,参考图4,获取到目标图像后,对目标图像进行人脸检测,得到目标眼部图像;对目标眼部图像进行关键点检测,得到目标关键点;基于该目标关键点生成目标锚框;计算期望调节角度;将目标眼部图像、目标锚框和期望调节角度输入眼神调节网络,得到调节后的眼部图像;将该调节后的眼部图像与目标图像融合,得到融合后的图像。
综上所述,本实施例提供的眼神调节方法,通过获取包括目标眼部图像的目标图像;获取眼神调节网络;基于目标眼部图像和眼神调节网络得到调节后的眼部图像,目标眼部图像的眼神角度相对于调节后的眼部图像中眼神角度的眼神角度之差为期望调节角度;可以解决通过改变硬件设备使得用户同时观看屏幕和摄像头,导致眼神矫正效率较低的问题;由于眼神调节网络包括第一网络模型、与第一网络模型相连的第二网络模型、以及与第二网络模型相连的第三网络模型;第一网络模型可以基于期望调节角度生成编码图像,第二网络模型可以基于编码图像对输入的图像进行校正,第三网络模型用于对校正后的眼部图像进行像素位置调节和颜色调节;因此,基于该眼神调节网络实现对目标图像中眼部图像的眼神调节,无需改变硬件设备,可以提高眼神矫正效率。
另外,由于校正后的眼部图像可能存在眼部像素不在眼部轮廓内的情况,因此,通过设置第三网络模型进行像素位置调节,可以保证输出的调节后的眼部图像中的眼部像素均在眼部轮廓内,提高调节后的眼部图像的真实性。
另外,由于校正后的眼部图像可能存在眼部颜色与现实中的眼部颜色不符的情况,因此,通过设置第三网络模型进行颜色调节,可以保证输出的调节后的眼部图像的颜色更符合真实的眼部颜色,提高调节后的眼部图像的真实性。
图5是本申请一个实施例提供的眼神调节装置的框图。该装置至少包括以下几个模块:图像获取模块510、网络获取模块520和眼神调节模块530。
图像获取模块510,用于获取包括目标眼部图像的目标图像;
网络获取模块520,用于获取眼神调节网络,所述眼神调节网络包括第一网络模型、与所述第一网络模型相连的第二网络模型、以及与所述第二网络模型相连的第三网络模型;所述第一网络模型用于基于输入的期望调节角度生成编码图像,所述第二网络模型用于基于输入的图像和所述编码图像生成具有所述期望调节角度的校正后的眼部图像,所述第三网络模型用于对所述校正后的眼部图像进行像素位置调节和颜色调节;
眼神调节模块530,用于基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,所述目标眼部图像的眼神角度相对于所述调节后的眼部图像中眼神角度的眼神角度之差为所述期望调节角度。
相关细节参考上述方法实施例。
需要说明的是:上述实施例中提供的眼神调节装置在进行眼神调节时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将眼神调节装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的眼神调节装置与眼神调节方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本申请一个实施例提供的眼神调节装置的框图。该装置至少包括处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如:4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的眼神调节方法。
在一些实施例中,眼神调节装置还可选包括有:外围设备接口和至少一个外围设备。处理器601、存储器602和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地,外围设备包括但不限于:射频电路、触摸显示屏、音频电路、和电源等。
当然,眼神调节装置还可以包括更少或更多的组件,本实施例对此不作限定。
可选地,本申请还提供有一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的眼神调节方法。
可选地,本申请还提供有一种计算机产品,该计算机产品包括计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的眼神调节方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (11)

  1. 一种眼神调节方法,其特征在于,所述方法包括:
    获取包括目标眼部图像的目标图像;
    获取眼神调节网络,所述眼神调节网络包括第一网络模型、与所述第一网络模型相连的第二网络模型、以及与所述第二网络模型相连的第三网络模型;所述第一网络模型用于基于输入的期望调节角度生成具有所述期望调节角度的编码图像,所述第二网络模型用于基于输入的图像和所述编码图像生成对输入的图像进行校正得到的校正后的眼部图像,所述第三网络模型用于对所述校正后的眼部图像进行像素位置调节和颜色调节;
    基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,所述目标眼部图像的眼神角度相对于所述调节后的眼部图像中眼神角度的眼神角度之差为所述期望调节角度。
  2. 根据权利要求1所述的方法,其特征在于,所述获取眼神调节网络之前,包括:
    获取多个样本图像,所述多个样本图像包括具有各个眼神角度的图像;
    获取损失函数;
    使用所述多个样本图像和所述损失函数对预设网络模型进行训练,得到所述眼神调节网络。
  3. 根据权利要求2所述的方法,其特征在于,所述使用所述多个样本图像和所述损失函数对预设网络模型进行训练,得到所述眼神调节网络,包括:
    对每张样本图像进行眼部关键点检测,得到n个眼部关键点,所述n为正整数;
    对于每张样本图像,基于对应的n个眼部关键点中每个眼部关键点的位置确定样本锚框,得到每个关键点对应的样本锚框;
    将所述多张样本图像进行两两组合,并确定每组图像组合中眼神角度之差,得到训练集;所述训练集包括多组训练数据,每组训练数据包括基准样本图像、待调节样本图像、所述待调节样本图像对应的样本锚框以及所述待调节样本图像相对于所述基准样本图像的眼神角度之差;
    将所述训练数据中的眼神角度之差、所述待调节样本图像、以及所述待调节样本图像对应的样本锚框输入所述预设网络模型,使用所述损失函数、所述训练数据中的基准样本图像对所述预设网络模型进行训练,得到所述眼神调节网络。
  4. 根据权利要求3所述的方法,其特征在于,所述将所述训练数据中的眼神角度之差、待调节样本图像、以及所述待调节样本图像对应的样本锚框输入所述预设网络模型,包括:
    将所述训练数据中的眼神角度之差输入所述预设网络模型中的第一网络模型;
    将所述待调节样本图像、所述待调节样本图像对应的样本锚框和所述第一网络模型的输出结果输入所述预设网络模型中的第二网络模型;
    将所述待调节样本图像和所述第二网络模型的输出结果输入所述预设网络模型中的第三网络模型。
  5. 根据权利要求2所述的方法,其特征在于,所述损失函数包括第一损失函数、第二损失函数和第三损失函数;
    所述第一损失函数用于使所述调节后的眼部图像与真实图像在像素级别的差异总和最小化;
    所述第二损失函数用于使所述预设网络模型的模型输出结果的眼部结构与真实图像的眼部结构之间的差异最小化;
    所述第三损失函数用于使所述预设网络模型的模型输出结果的眼部颜色与真实图像的眼部颜色之间的差异最小化。
  6. 根据权利要求1至5任一所述的方法,其特征在于,所述第一网络模型为编码器,所述第二网络模型为校正网络,所述第三网络模型包括像素重定位分支模型和颜色调节分支模型;
    其中,所述像素重定位分支模型包括预设激活函数和与所述预设激活函数相连的像素重定位模型,所述像素重定位分支模型用于对所述第二网络模型的输出结果进行收敛,以使所述输出结果中超出期望范围的局部像素收敛至所述期望范围内;所述颜色调节分支模型包括颜色调节网络模型、以及与所述颜色调节网络模型和所述像素重定位模型相连的颜色调节模型,所述颜色调节分支模型用于使用所述颜色调节网络模型的输出结果指示的颜色调节方式,对所述像素重定位模型的输出结果进行颜色调节。
  7. 根据权利要求1至5任一所述的方法,其特征在于,所述基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,包括:
    确定所述目标眼部图像的目标关键点;
    基于所述目标关键点生成目标锚框;
    获取所述目标眼部图像的期望调节角度;
    将所述目标眼部图像、所述目标锚框和所述期望调节角度输入所述眼神调节网络,得到调节后的眼部图像。
  8. 根据权利要求7所述的方法,其特征在于,所述第三网络模型包括像素重定位分支模型和颜色调节分支模型;所述将所述目标眼部图像、所述目标锚框和所述期望调节角度输入所述眼神调节网络,得到调节后的眼部图像,包括:
    将所述期望调节角度输入所述第一网络模型,得到具有所述期望调节角度的编码图像;
    将所述编码图像、所述目标眼部图像和所述目标锚框输入所述第二网络模型,得到所述校正后的眼部图像;
    将所述目标眼部图像和所述校正后的眼部图像输入所述像素重定位分支模型,得到收敛后的眼部图像;
    将所述收敛后的眼部图像和所述校正后的眼部图像输入所述颜色调节分支模型,得到所述调节后的眼部图像。
  9. 一种眼神调节装置,其特征在于,所述装置包括:
    图像获取模块,用于获取包括目标眼部图像的目标图像;
    网络获取模块,用于获取眼神调节网络,所述眼神调节网络包括第一网络模型、与所述第一网络模型相连的第二网络模型、以及与所述第二网络模型相连的第三网络模型;所述第一网络模型用于基于输入的期望调节角度生成具有所述期望调节角度的编码图像,所述第二网络模型用于基于输入的图像和所述编码图像生成对输入的图像进行校正得到的校正后的眼部图像,所述第三网络模型用于对所述校正后的眼部图像进行像素位置调节和颜色调节;
    眼神调节模块,用于基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,所述目标眼部图像的眼神角度相对于所述调节后的眼部图像中眼神角度的眼神角度之差为所述期望调节角度。
  10. 一种眼神调节装置,其特征在于,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的眼神调节方法。
  11. 一种计算机可读存储介质,其特征在于,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如权利要求1至8任一项所述的眼神调节方法。
PCT/CN2020/121519 2020-02-25 2020-10-16 眼神调节方法、装置及存储介质 WO2021169325A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010114683.9 2020-02-25
CN202010114683.9A CN111339928B (zh) 2020-02-25 2020-02-25 眼神调节方法、装置及存储介质

Publications (1)

Publication Number Publication Date
WO2021169325A1 true WO2021169325A1 (zh) 2021-09-02

Family

ID=71185564

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/121519 WO2021169325A1 (zh) 2020-02-25 2020-10-16 眼神调节方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN111339928B (zh)
WO (1) WO2021169325A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220254106A1 (en) * 2021-11-19 2022-08-11 Beihang University Method of gaze estimation with 3d face reconstructing
CN117094966A (zh) * 2023-08-21 2023-11-21 青岛美迪康数字工程有限公司 基于图像扩增的舌图像识别方法、装置和计算机设备

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339928B (zh) * 2020-02-25 2022-06-28 苏州科达科技股份有限公司 眼神调节方法、装置及存储介质
TWI792137B (zh) * 2020-12-31 2023-02-11 瑞昱半導體股份有限公司 視線方向校正方法
CN112733797B (zh) * 2021-01-22 2021-10-08 腾讯科技(深圳)有限公司 人脸图像的视线矫正方法、装置、设备及存储介质
CN112733794B (zh) * 2021-01-22 2021-10-15 腾讯科技(深圳)有限公司 人脸图像的视线矫正方法、装置、设备及存储介质
CN112733795B (zh) * 2021-01-22 2022-10-11 腾讯科技(深圳)有限公司 人脸图像的视线矫正方法、装置、设备及存储介质
CN113362243A (zh) * 2021-06-03 2021-09-07 Oppo广东移动通信有限公司 模型训练方法、图像处理方法及装置、介质和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6806898B1 (en) * 2000-03-20 2004-10-19 Microsoft Corp. System and method for automatically adjusting gaze and head orientation for video conferencing
US9538130B1 (en) * 2015-12-10 2017-01-03 Dell Software, Inc. Dynamic gaze correction for video conferencing
CN107646112A (zh) * 2015-03-20 2018-01-30 高等教育自主非营利组织斯科尔科沃科学和技术研究所 使用机器学习对眼睛图像进行校正的方法以及机器学习的方法
CN108885784A (zh) * 2016-04-22 2018-11-23 英特尔公司 使用基于神经网络的机器学习的实时目光接触校正
CN109978804A (zh) * 2019-03-08 2019-07-05 清华大学 基于深度学习的人眼视线矫正方法及系统
CN111339928A (zh) * 2020-02-25 2020-06-26 苏州科达科技股份有限公司 眼神调节方法、装置及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838255A (zh) * 2012-11-27 2014-06-04 英业达科技有限公司 显示装置的视线角度调整系统及其方法
CN204168406U (zh) * 2014-08-20 2015-02-18 深圳市融创天下科技有限公司 一种用于视频通话的视线校正装置
CN106569611A (zh) * 2016-11-11 2017-04-19 努比亚技术有限公司 一种显示界面调整装置、方法及终端
TWI637288B (zh) * 2017-10-11 2018-10-01 緯創資通股份有限公司 用於眼球視線校正的影像處理方法及其系統

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6806898B1 (en) * 2000-03-20 2004-10-19 Microsoft Corp. System and method for automatically adjusting gaze and head orientation for video conferencing
CN107646112A (zh) * 2015-03-20 2018-01-30 高等教育自主非营利组织斯科尔科沃科学和技术研究所 使用机器学习对眼睛图像进行校正的方法以及机器学习的方法
US9538130B1 (en) * 2015-12-10 2017-01-03 Dell Software, Inc. Dynamic gaze correction for video conferencing
CN108885784A (zh) * 2016-04-22 2018-11-23 英特尔公司 使用基于神经网络的机器学习的实时目光接触校正
CN109978804A (zh) * 2019-03-08 2019-07-05 清华大学 基于深度学习的人眼视线矫正方法及系统
CN111339928A (zh) * 2020-02-25 2020-06-26 苏州科达科技股份有限公司 眼神调节方法、装置及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220254106A1 (en) * 2021-11-19 2022-08-11 Beihang University Method of gaze estimation with 3d face reconstructing
US11734889B2 (en) * 2021-11-19 2023-08-22 Beihang University Method of gaze estimation with 3D face reconstructing
CN117094966A (zh) * 2023-08-21 2023-11-21 青岛美迪康数字工程有限公司 基于图像扩增的舌图像识别方法、装置和计算机设备
CN117094966B (zh) * 2023-08-21 2024-04-05 青岛美迪康数字工程有限公司 基于图像扩增的舌图像识别方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111339928A (zh) 2020-06-26
CN111339928B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
WO2021169325A1 (zh) 眼神调节方法、装置及存储介质
US11699217B2 (en) Generating gaze corrected images using bidirectionally trained network
US10855909B2 (en) Method and apparatus for obtaining binocular panoramic image, and storage medium
US9639914B2 (en) Portrait deformation method and apparatus
KR102346691B1 (ko) 비디오 회의에서의 배경 수정
US10082867B2 (en) Display control method and display control apparatus
US20230401682A1 (en) Styled image generation method, model training method, apparatus, device, and medium
US11238569B2 (en) Image processing method and apparatus, image device, and storage medium
WO2019109758A1 (zh) 一种视频图像处理方法及装置
DE112018007721T5 (de) Aufnehmen und modifizieren von 3D-Gesichtern unter Verwendung neuronaler Bild-und Zeitverfolgungsnetze
CN110855972B (zh) 图像处理方法以及电子设备和存储介质
JP7101269B2 (ja) ポーズ補正
US20160142673A1 (en) System for enabling eye contact in electronic images
WO2021244172A1 (zh) 图像处理和图像合成方法、装置和存储介质
CN108682030B (zh) 脸皮替换方法、装置及计算机设备
CN109151540A (zh) 视频图像的交互处理方法及装置
WO2024022065A1 (zh) 虚拟表情生成方法、装置、电子设备和存储介质
US10152818B2 (en) Techniques for stereo three dimensional image mapping
US20150215602A1 (en) Method for ajdusting stereo image and image processing device using the same
CN108012139A (zh) 应用于真实感近眼显示的图像生成方法和装置
WO2022036338A2 (en) System and methods for depth-aware video processing and depth perception enhancement
JP2017212720A (ja) 画像処理装置、画像処理方法およびプログラム
CN113362243A (zh) 模型训练方法、图像处理方法及装置、介质和电子设备
CN115083000B (zh) 人脸模型训练方法、换脸方法、装置和电子设备
WO2024051289A1 (zh) 图像背景替换方法及相关设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20921593

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20921593

Country of ref document: EP

Kind code of ref document: A1