WO2020173329A1 - 一种图像融合的方法、模型训练的方法以及相关装置 - Google Patents

一种图像融合的方法、模型训练的方法以及相关装置 Download PDF

Info

Publication number
WO2020173329A1
WO2020173329A1 PCT/CN2020/075641 CN2020075641W WO2020173329A1 WO 2020173329 A1 WO2020173329 A1 WO 2020173329A1 CN 2020075641 W CN2020075641 W CN 2020075641W WO 2020173329 A1 WO2020173329 A1 WO 2020173329A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
trained
fused
fusion
network model
Prior art date
Application number
PCT/CN2020/075641
Other languages
English (en)
French (fr)
Inventor
黄浩智
胥森哲
胡事民
刘威
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Priority to EP20763746.3A priority Critical patent/EP3933754A4/en
Priority to JP2021517986A priority patent/JP7090971B2/ja
Publication of WO2020173329A1 publication Critical patent/WO2020173329A1/zh
Priority to US17/336,561 priority patent/US11776097B2/en

Links

Classifications

    • G06T3/18
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

一种图像融合的方法,由终端设备执行,包括:获取第一待融合图像以及第二待融合图像,其中,所述第一待融合图像包括多个第一区域,所述第二待融合图像包括多个第二区域(101);根据所述第一待融合图像获取第一特征集合,且根据所述第二待融合图像获取第二特征集合,其中,所述第一特征集合包括多个第一编码特征,且所述第一编码特征与所述第一区域一一对应,所述第二特征集合包括多个第二编码特征,且所述第二编码特征与所述第二区域一一对应(102);通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融合处理,得到第三待融合图像,其中,所述第三待融合图像包括至少一个第一编码特征以及至少一个第二编码特征(103);通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融合处理,得到目标融合图像(104)。还包含一种模型训练的方法及装置。

Description

一种图像融合的方法、 模型训练的方法以及相关装置 本申请要求于 2019年 2月 26日提交中国专利局、 申请号为 201910142210.7、 发明名称为“一种图像融合的方法、 模型训练的方法以及相关装置”的中国专利申请 的优先权, 其全部内容通过引用结合在本申请中。 技术领域 本申请涉及人工智能技术领域, 尤其涉及一种图像融合的方法、 模型训练的方 法以及相关装置。 岌明背景 人工智能 ( Artificial Intelligence, AI )是利用数字计算机或者数字计算机控制的 机器模拟、 延伸和扩展人的智能, 感知环境、 获取知识并使用知识获得最佳结果的 理论、 方法、 技术及应用系统。 换句话说, 人工智能是计算机科学的一个综合技术, 它企图了解智能的实质, 并生产出一种新的能以人类智能相似的方式做出反应的智 能机器。 人工智能也就是研究各种智能机器的设计原理与实现方法, 使机器具有感 知、 推理与决策的功能。
人工智能技术是一门综合学科, 涉及领域广泛, 既有硬件层面的技术也有软件 层面的技术。 人工智能基础技术一般包括如传感器、 专用人工智能芯片、 云计算、 分布式存储、 大数据处理技术、 操作 /交互系统、 机电一体化等技术。 人工智能软件 技术主要包括计算机视觉技术、 语音处理技术、 自然语言处理技术以及机器学习 / 深度学习等几大方向。
计算机视觉技术 (Computer Vision, CV)计算机视觉是一门研究如何使机器“看” 的科学, 更进一步的说, 就是指用摄影机和电脑代替人眼对目标进行识别、 跟踪和 测量等机器视觉, 并进一步做图形处理, 使电脑处理成为更适合人眼观察或传送给 仪器检测的图像。 作为一个科学学科, 计算机视觉研究相关的理论和技术, 试图建 立能够从图像或者多维数据中获取信息的人工智能系统。 计算机视觉技术通常包括 图像处理、 图像识别、 图像语义理解、 图像检索、 OCR、视频处理、 视频语义理解、 视频内容 /行为识别、 三维物体重建、 3D技术、 虚拟现实、 增强现实、 同步定位与 地图构建等技术, 还包括常见的人脸识别、 指纹识别等生物特征识别技术。
人脸融合是指依托人脸识别算法和深度学习引擎,快速精准地定位人脸关键点, 将用户上传的照片与特定形象进行面部层面融合, 使生成的图片同时具备用户与特 定形象的外貌特征。 在融合人脸的同时, 支持对上传的照片进行识别, 可提高活动 的安全性, 降低业务违规风险。
目前, 人脸融合的技术主要是利用对抗神经网络生成图像。 在人脸图像解缠绕 时采用无监督学习的方法, 即把人脸图像中的特征划分为若千个语块, 每一个语块 单独编码某一方面的特征, 最后生成融合后的人脸图像。
然而, 利用对抗神经网络生成的人脸图像不能保证该人脸图像的身份与原始输 入的身份一致, 从而降低了人脸识别的准确度。 此外, 由于在编码的过程中采用无 监督方法, 因此, 只能保证每个语块的独立性, 但不能确定每个语块所表示的含义, 从而不利于图像融合的灵活性。 发明内容 本申请实施例提供了一种图像融合的方法、 模型训练的方法以及相关装置, 可 以快速地对一个图像中的局部区域进行改变, 形成融合图像, 且融合图像的身份信 息与原始输入图像的身份信息没有发生变化。
有鉴于此, 本申请第一方面提供一种图像融合的方法, 由终端设备执行, 包括: 获取第一待融合图像以及第二待融合图像, 其中, 所述第一待融合图像包括多 个第一区域, 所述第二待融合图像包括多个第二区域;
根据所述第一待融合图像获取第一特征集合, 且根据所述第二待融合图像获取 第二特征集合, 其中, 所述第一特征集合包括多个第一编码特征, 且所述第一编码 特征与所述第一区域一一对应, 所述第二特征集合包括多个第二编码特征, 且所述 第二编码特征与所述第二区域一一对应;
通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融 合处理, 得到第三待融合图像, 其中, 所述第三待融合图像包括至少一个第一编码 特征以及至少一个第二编码特征;
通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融 合处理, 得到目标融合图像。
本申请第二方面提供一种模型训练的方法, 由服务器设备执行, 包括: 获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合, 其 中, 所述第一待训练图像包括多个第一训练区域, 所述第二待训练图像包括多个第 二训练区域, 所述第一特征集合包括多个第一编码特征, 且所述第一编码特征与所 述第一区域一一对应, 所述第二特征集合包括多个第二编码特征, 且所述第二编码 特征与所述第二区域一一对应;
通过待训练形状融合网络模型对所述第一待训练图像以及所述第二待训练图像 进行融合处理, 得到第三待训练图像, 其中, 所述第三待训练图像包括至少一个第 一编码特征以及至少一个第二编码特征;
通过待训练条件融合网络模型对所述第三待训练图像以及所述第一待训练图像 进行融合处理, 得到第四待训练图像;
通过所述待训练形状融合网络模型对所述第四待训练图像以及所述第一待训练 图像进行融合处理, 得到第五待训练图像, 其中, 所述第五待训练图像与所述第一 待训练图像具有对应的特征; 通过所述待训练条件融合网络模型对所述第五待训练图像以及所述第四待训练 图像进行融合处理, 得到目标图像;
采用目标损失函数以及所述目标图像, 对所述待训练形状融合网络模型以及所 述待训练条件融合网络模型进行训练, 得到形状融合网络模型以及条件融合网络模 型。
本申请第三方面提供一种图像融合装置, 包括:
获取模块, 用于获取第一待融合图像以及第二待融合图像, 其中, 所述第一待 融合图像包括多个第一区域, 所述第二待融合图像包括多个第二区域;
所述获取模块, 还用于根据所述第一待融合图像获取第一特征集合, 且根据所 述第二待融合图像获取第二特征集合, 其中, 所述第一特征集合包括多个第一编码 特征, 且所述第一编码特征与所述第一区域一一对应, 所述第二特征集合包括多个 第二编码特征, 且所述第二编码特征与所述第二区域—对应;
融合模块, 用于通过形状融合网络模型对所述第一待融合图像以及所述第二待 融合图像进行融合处理, 得到第三待融合图像, 其中, 所述第三待融合图像包括所 述获取模块获取的至少一个第一编码特征以及至少一个第二编码特征;
所述融合模块, 还用于通过条件融合网络模型对所述第三待融合图像以及所述 第一待融合图像进行融合处理, 得到目标融合图像。
本申请第四方面提供一种模型训练装置, 包括:
获取模块, 用于获取第一待训练图像的第一特征集合以及第二待训练图像的第 二特征集合, 其中, 所述第一待训练图像包括多个第一训练区域, 所述第二待训练 图像包括多个第二训练区域, 所述第一特征集合包括多个第一编码特征, 且所述第 一编码特征与所述第一区域一一对应, 所述第二特征集合包括多个第二编码特征, 且所述第二编码特征与所述第二区域一一对应;
融合模块, 用于通过待训练形状融合网络模型对所述获取模块获取的所述第一 待训练图像以及所述第二待训练图像进行融合处理, 得到第三待训练图像, 其中, 所述第三待训练图像包括所述获取模块获取的至少一个第一编码特征以及至少一个 第二编码特征;
所述融合模块, 还用于通过待训练条件融合网络模型对所述第三待训练图像以 及所述第一待训练图像进行融合处理, 得到第四待训练图像;
所述融合模块, 还用于通过所述待训练形状融合网络模型对所述第四待训练图 像以及所述第一待训练图像进行融合处理, 得到第五待训练图像, 其中, 所述第五 待训练图像与所述第一待训练图像具有对应的特征;
所述融合模块, 还用于通过所述待训练条件融合网络模型对所述第五待训练图 像以及所述第四待训练图像进行融合处理, 得到目标图像;
训练模块,用于采用目标损失函数以及所述融合模块融合得到的所述目标图像, 对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行训练, 得到 形状融合网络模型以及条件融合网络模型。 本申请第五方面提供一种终端设备, 包括: 存储器、 处理器; 其中, 所述存储器用于存储多条指令;
当运行所述存储器中存储的所述多条指令时, 所述处理器用于执行如下步骤: 获取第一待融合图像以及第二待融合图像, 其中, 所述第一待融合图像包括多 个第一区域, 所述第二待融合图像包括多个第二区域;
根据所述第一待融合图像获取第一特征集合, 且根据所述第二待融合图像获取 第二特征集合, 其中, 所述第一特征集合包括多个第一编码特征, 且所述第一编码 特征与所述第一区域一一对应, 所述第二特征集合包括多个第二编码特征, 且所述 第二编码特征与所述第二区域一一对应;
通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融 合处理, 得到第三待融合图像, 其中, 所述第三待融合图像包括至少一个第一编码 特征以及至少一个第二编码特征;
通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融 合处理, 得到目标融合图像。
本申请第六方面提供一种服务器设备, 包括: 存储器、 处理器;
其中, 所述存储器用于存储多条指令;
当运行所述存储器中存储的所述多条指令时, 所述处理器用于执行如下步骤: 获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合, 其 中, 所述第一待训练图像包括多个第一训练区域, 所述第二待训练图像包括多个第 二训练区域, 所述第一特征集合包括多个第一编码特征, 且所述第一编码特征与所 述第一区域一一对应, 所述第二特征集合包括多个第二编码特征, 且所述第二编码 特征与所述第二区域一一对应;
通过待训练形状融合网络模型对所述第一待训练图像以及所述第二待训练图像 进行融合处理, 得到第三待训练图像, 其中, 所述第三待训练图像包括至少一个第 一编码特征以及至少一个第二编码特征;
通过待训练条件融合网络模型对所述第三待训练图像以及所述第一待训练图像 进行融合处理, 得到第四待训练图像;
通过所述待训练形状融合网络模型对所述第四待训练图像以及所述第一待训练 图像进行融合处理, 得到第五待训练图像, 其中, 所述第五待训练图像与所述第一 待训练图像具有对应的特征;
通过所述待训练条件融合网络模型对所述第五待训练图像以及所述第四待训练 图像进行融合处理, 得到目标图像;
采用目标损失函数以及所述目标图像, 对所述待训练形状融合网络模型以及所 述待训练条件融合网络模型进行训练, 得到形状融合网络模型以及条件融合网络模 型。
本申请的第七方面提供了一种计算机可读存储介质, 所述计算机可读存储介质 中存储有指令, 当其在计算机上运行时, 使得计算机执行上述各方面所述的方法。 附图简要说明 图 i为本申请实施例中图像融合系统的一个架构示意图;
图 2为本申请实施例中图像融合系统的一个整体框架流程示意图;
图 3为本申请实施例中图像融合的方法一个实施例示意图;
图 4为本申请实施例中通过解缠绕编码器对图像进行编码的一个实施例示意 图;
图 5为本申请实施例中通过形状融合网络模型对图像进行融合的一个实施例示 意图;
图 6为本申请实施例中手绘形状的一个实施例示意图;
图 7为本申请实施例中模型训练的方法一个实施例示意图;
图 8为本申请实施例中对条件融合网络模型进行训练的一个实施例示意图; 图 9为本申请实施例中对解缠绕编码器进行训练的一个实施例示意图; 图 10为本申请实施例中图像融合装置的一个实施例示意图;
图 11为本申请实施例中图像融合装置的另一个实施例示意图;
图 12为本申请实施例中图像融合装置的另一个实施例示意图;
图 13为本申请实施例中模型训练装置的一个实施例示意图;
图 14为本申请实施例中模型训练装置的另一个实施例示意图;
图 15为本申请实施例中模型训练装置的另一个实施例示意图;
图 16为本申请实施例中终端设备的一个实施例示意图;
图 17为本申请实施例中终端设备的一个实施例示意图。 实施方式 本申请实施例提供了一种图像融合的方法、 模型训练的方法以及相关装置, 可 以快速地对一个图像中的局部区域进行改变, 形成融合图像, 且融合图像的身份信 息与原始输入图像的身份信息没有发生变化。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第 四”等(如果存在)是用于区别类似的对象, 而不必用于描述特定的顺序或先后次序。 应该理解这样使用的数据在适当情况下可以互换, 以便这里描述的本申请的实施例 例如能够以除了在这里图示或描述的那些以外的顺序实施。 此外, 术语“包括”和“对 应于”以及他们的任何变形, 意图在于覆盖不排他的包含, 例如, 包含了一系列步骤 或单元的过程、 方法、 系统、 产品或设备不必限于清楚地列出的那些步骤或单元, 而是可包括没有清楚地列出的或对于这些过程、 方法、 产品或设备固有的其它步骤 或单元。
应理解, 本申请可以应用于图像合成场景, 具体可以是人脸合成场景, 即计算 机合成虚拟的仿真人脸图像,人脸图像的虚拟合成是新一代人机交互中的重要技术, 也是当前国内外非常活跃的研究方向, 在计算机图形学和计算机视觉方面都将会得 到广泛的关注和应用。 其潜在的应用领域包括窄带视频传输、 计算机辅助教学、 电 影特效制作、 全球音乐电视台 ( music television, MTV ) 特效制作、 游戏制作、 虚 拟现实、 人工智能和机器人等等。 在人脸图像合成技术方面, 不同的应用领域, 不 同的研究人员提出的方法区别很大。 人脸虚拟合成技术将成为人机交互 ( human computer interaction )领域中重要的组成部分。 人机交互技术发展的最终目标: 一是 使计算机越来越智能化, 易于使用; 二是机器人的智能感知。
为了便于理解, 本申请提出了一种图像融合的方法, 该方法应用于图 1所示的 图像融合系统, 请参阅图 1, 图 1为本申请实施例中图像融合系统的一个架构示意 图, 如图所示, 首先, 客户端拍摄图像, 比如用户 A的人脸图像以及用户 B的人脸 图像, 输入其中一张图像, 比如输入用户 A的人脸图像, 客户端既可以在本地对用 户 A的人脸图像进行处理, 也可以将用户 A的人脸图像发送至服务器设备, 由服务 器设备对用户 A的人脸图像进行处理。处理方式主要是先对用户 A的人脸图像进行 编码, 分别使用不同的部件编码器 ( part- wise encoder ) 编码不同的部位形状, 比如 眼睛、 鼻子、 嘴巴、 眉毛、 脸型、 头发以及身体, 比如对于头发的部件编码器会输 出一个 1 * 1 * 128的一维特征向量。 通过形状融合网络模型将用户 A的人脸图像中某 一部位的特征向量用用户 B的人脸图像所对应特征向量进行替换, 之后把全部的特 征向量组合成为一个全体特征向量, 通过全局解码器将这个全体特征向量解码成一 张融合人脸。 接下来通过条件融合网络模型将编辑后的融合人脸转化成一张生成的 虚拟人脸图像, 条件融合网络模型同样也将原始输入图像作为条件输入。 本申请生 成的虚拟人脸图像不丢失输入人脸图片的身份信息, 但却修改了输入人脸图片某一 部位的形状。
需要说明的是, 客户端部署于终端设备上, 其中, 终端设备包含但不仅限于平 板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑 ( personal computer, PC ), 此处不做限定。 其中, 语音交互设备包含但不仅限于智能音响以及智能家电。
下面将结合图 2介绍图像融合系统, 请参阅图 2, 图 2为本申请实施例中图像 融合系统的一个整体框架流程示意图, 如图所示, 通过交换不同人脸的特征编码, 可以生成不同部位形状分别来自两张人脸的合成人脸图片。 假设需要将原始图像 A 的头发特征替换为原始图像 B的头发特征, 首先通过形状融合网络模型将原始图像 A的头发特征替换为原始图像 B的头发特征, 然后通过条件融合网络模型生成具有 指定发型的用户 A的人脸, 即得到融合图像 B。 本申请可以控制生成具有用户 B的 发型的用户 A的人脸。此外,本方法也支持生成直接指定特定部位形状的人脸图像, 例如用户可以直接指定人脸图像 A的发型 (比如通过绘制范围 ), 生成具有用户指 定发型的用户 A的人脸。
结合上述介绍, 下面将对本申请中图像融合的方法进行介绍, 请参阅图 3, 本 申请实施例中图像融合的方法由图 16所示的终端设备执行,该方法的一个实施例包 括:
101、 获取第一待融合图像以及第二待融合图像, 其中, 第一待融合图像包括多 个第一区域, 第二待融合图像包括多个第二区域;
本实施例中, 图像融合装置获取第一待融合图像以及第二待融合图像, 其中, 第一待融合图像和第二待融合图像通常是同一个类型的图像, 比如两者均为人脸图 像, 或者两者均为动物图像, 或者两者均为风景图像, 又或者是一个为人脸图像, 另一个为动物图像。 本实施例中将以两者均为人脸图像为例进行介绍, 然而, 这并 不应理解为对本申请的限定。
其中, 第一待融合图像以及第二待融合图像均包括多个区域, 具体地, 第一待 融合图像与第二待融合图像具有相似区域, 比如, 第一待融合图像包括多个第一区 域, 第一区域包括眼睛、 鼻子、 嘴巴、 眉毛、 脸型、 头发以及身体等。 第二待融合 图像包括多个第二区域, 第二区域包括眼睛、 鼻子、 嘴巴、 眉毛、 脸型、 头发以及 身体等。
102、根据第一待融合图像获取第一特征集合, 且根据第二待融合图像获取第二 特征集合, 其中, 第一特征集合包括多个第一编码特征, 且第一编码特征与第一区 域—对应, 第二特征集合包括多个第二编码特征, 且第二编码特征与第二区域一 一对应;
本实施例中, 图像融合装置需要分别对第一待融合图像以及第二待融合图像进 行特征提取, 即对第一待融合图像中每个第一区域提取相应的特征, 得到第一编码 特征, 比如, 针对第一待融合图像的眼睛部分可提取眼睛部分的第一编码特征, 针 对第一待融合图像的头发部分可提取头发部分的第一编码特征, 以此类推, 最终得 到包括多个第一编码特征的第一特征集合。 针对第二待融合图像的眼睛部分可提取 眼睛部分的第二编码特征, 针对第二待融合图像的头发部分可提取头发部分的第二 编码特征, 以此类推, 最终得到包括多个第二编码特征的第二特征集合。
103、通过形状融合网络模型对第一待融合图像以及第二待融合图像进行融合处 理, 得到第三待融合图像, 其中, 第三待融合图像包括至少一个第一编码特征以及 至少一个第二编码特征;
本实施例中, 图像融合装置将第一待融合图像以及第二待融合图像输入至形状 融合网络模型, 由该形状融合网络模型输出第三待融合图像, 这里的第三待融合图 像中同时包括第一待融合图像中的第一编码特征以及第二待融合图像中的第二编码 特征。
104、通过条件融合网络模型对第三待融合图像以及第一待融合图像进行融合处 理, 得到目标融合图像。
本实施例中, 图像融合装置将第三待融合图像以及第一待融合图像输入至条件 融合网络模型, 由该条件融合网络模型输出目标融合图像。 其中, 目标融合图像与 原始输入的第一待融合图像属于相同身份,即生成的虚拟图像中除了被编辑部位外, 其余部位与原始输入人脸图像保持一致, 使用户感到生成虚拟人脸图像的身份信息 与原始输入的人脸图像的身份信息没有发生变化。
本申请实施例中, 提供了一种图像融合的方法, 首先, 获取第一待融合图像以 及第二待融合图像, 其中, 第一待融合图像包括多个第一区域, 第二待融合图像包 括多个第二区域, 然后根据第一待融合图像获取第一特征集合, 且根据第二待融合 图像获取第二特征集合, 其中, 第一特征集合包括多个第一编码特征, 且第一编码 特征与第一区域—对应, 第二特征集合包括多个第二编码特征, 且第二编码特征 与第二区域—对应, 再通过形状融合网络模型对第一待融合图像以及第二待融合 图像进行融合处理, 得到第三待融合图像, 其中, 第三待融合图像包括至少一个第 一编码特征以及至少一个第二编码特征, 最后可以通过条件融合网络模型对第三待 融合图像以及第一待融合图像进行融合处理, 得到目标融合图像。 通过上述方式, 提取图像中各个局部区域的相应特征, 由此可以快速地对一个图像中的局部区域进 行改变, 也就是将该局部区域替换为另一个图像中相应的局部区域, 从而形成融合 图像。 此外, 融合图像除被编辑的局部区域以外, 其余区域与原始输入图像保持一 致, 使用户感到融合图像的身份信息与原始输入图像的身份信息没有发生变化。
在上述图 3对应的实施例的基础上, 本申请实施例提供的图像融合的方法第一 个实施例中, 根据第一待融合图像获取第一特征集合, 可以包括:
采用解缠绕编码器对第一待融合图像中的多个第一区域进行编码处理, 得到多 个第一编码特征, 其中, 解缠绕编码器包括多个部件编码器, 每个部件编码器用于 对一个第一区域进行编码;
根据第二待融合图像获取第二特征集合, 包括:
采用解缠绕编码器对第二待融合图像中的多个第二区域进行编码处理, 得到多 个第二编码特征, 其中, 解缠绕编码器包括多个部件编码器, 每个部件编码器用于 对一个第二区域进行编码。
本实施例中,将介绍图像融合装置获取第一特征集合以及第二特征集合的方法。 在图像融合装置获取到第一待融合图像以及第二待融合图像之后, 将该第一待融合 图像以及第二待融合图像分别输入至解缠绕编码器 ( disentangling encoder ), 其中, 解缠绕编码器由若千个部件编码器构成, 通过各个部件编码器对图像中的各个区域 进行编码, 即得到解缠绕后的面部形状。
具体地, 为了便于理解, 请参阅图 4, 图 4为本申请实施例中通过解缠绕编码 器对图像进行编码的一个实施例示意图, 如图所示, 将原始图像输入至解缠绕编码 器, 其中, 该原始图像可以是人脸图像。 解缠绕编码器包括多个部件编码器, 每个 部件编码器负责对人脸图像中的一个区域进行独立编码。 比如, 采用 1号部件编码 器对人脸图像中的眼睛部位进行编码, 得到 1号编码结果。 采用 2号部件编码器对 人脸图像中的鼻子部位进行编码, 得到 2号编码结果。 采用 3号部件编码器对人脸 图像中的嘴巴部位进行编码, 得到 3号编码结果。 采用 4号部件编码器对人脸图像 中的眉毛部位进行编码, 得到 4号编码结果。 采用 5号部件编码器对人脸图像中的 脸部轮廓进行编码, 得到 5号编码结果。 采用 6号部件编码器对人脸图像中的头发 部位进行编码, 得到 6号编码结果。 采用 7号部件编码器对人脸图像中的身体部位 进行编码, 得到 7号编码结果。 其中, 1号至 7号编码结果拼接在一起后即为面部 形状基因 ( face shape gene ), 即形成第一特征集合以及第二特征集合。
可以理解的是, 对第一待融合图像编码后得到第一特征集合, 对第二待融合图 像编码后得到第二特征集合, 其中, 第一特征集合中的每个第一编码特征与第二特 征集合中的每个第二编码特征具有相同维度的特征向量, 比如可以是 1*1*128的特 征向量。
其次, 本申请实施例中, 提供了一种图像编码方式, 即图像融合装置采用解缠 绕编码器对第一待融合图像中的多个第一区域进行编码处理, 得到多个第一编码特 征, 并且采用解缠绕编码器对第二待融合图像中的多个第二区域进行编码处理, 得 到多个第二编码特征, 解缠绕编码器包括多个部件编码器, 每个部件编码器用于对 一个第二区域进行编码。 通过上述方式, 采用部件编码器对图像中不同的区域进行 编码处理, 能够有效地保证图像编码的一致性, 从而便于进行后续的预测处理。
在上述图 3对应的实施例的基础上, 本申请实施例提供的图像融合的方法第二 个实施例中, 通过形状融合网络模型对第一待融合图像以及第二待融合图像进行融 合处理, 得到第三待融合图像之前, 还可以包括:
从第一待融合图像中确定待替换区域, 其中, 待替换区域属于多个第一区域中 的一个区域;
根据待替换区域获取第一待融合图像中的第一待替换编码特征, 并根据待替换 区域获取第二待融合图像中的第二待替换编码特征, 其中, 第一待替换编码特征属 于多个第一编码特征中的一个编码特征, 第二待替换编码特征属于多个第二编码特 征中的一个编码特征。
本实施例中, 将介绍图像融合装置在进行图像融合处理之前需要进行的操作。 首先, 图像融合装置需要从第一待融合图像中确定待替换区域, 以人脸图像为例, 待替换的区域可以为头发区域, 需要说明的是, 待替换区域属于第一待融合图像中 多个第一区域中的其中一个区域。 相应地, 在第二待融合图像中也有对应的待替换 区域, 以人脸图像为例, 该待替换区域也为头发区域。 然后, 图像融合装置会根据 待替换区域获取第一待融合图像中的第一待替换编码特征, 并根据待替换区域获耳又 第二待融合图像中的第二待替换编码特征。 例如, 可以在第一特征集合中的面部形 状基因中确定头发区域所对应的编码特征, 该头发区域所对应的编码特征为第一待 替换编码特征, 在第二特征集合中的面部形状基因中确定头发区域所对应的编码特 征, 该头发区域所对应的编码特征为第二待替换编码特征。
其次, 本申请实施例中, 介绍了一种图像融合之前的处理方式。 即图像融合装 置获取第三待融合图像之前, 需要先从第一待融合图像中确定待替换区域, 其中, 待替换区域属于多个第一区域中的一个区域, 然后根据待替换区域获取第一待融合 图像中的第一待替换编码特征, 并根据待替换区域获取第二待融合图像中的第二待 替换编码特征。 通过上述方式, 能够根据需求将待替换的区域确定出来, 随后将两 个图像中同一个区域的不同编码特征进行替换, 从而快速生成融合图像, 以便进行 后续处理。 在上述图 3对应的第二个实施例的基础上, 本申请实施例提供的图像融合的方 法第三个实施例中, 通过形状融合网络模型对第一待融合图像以及第二待融合图像 进行融合处理, 得到第三待融合图像, 可以包括:
通过形状融合网络模型, 将第一待融合图像中的第一待替换编码特征替换为第 二待融合图像中的第二待替换编码特征, 得到待解码图像;
通过形状融合网络模型, 对待解码图像进行解码处理, 得到第三待融合图像。 本实施例中, 将介绍图像融合装置通过形状融合网络模型得到第三待融合图像 的方式。 首先, 图像融合装置需要通过形状融合网络模型, 将第一待融合图像中的 第一待替换编码特征替换为第二待融合图像中的第二待替换编码特征, 得到待解码 图像, 然后采用全局解码器 ( overall decoder )对待解码图像进行解码处理, 得到第 三待融合图像。
为了便于理解, 请参阅图 5, 图 5为本申请实施例中通过形状融合网络模型对 图像进行融合的一个实施例示意图, 如图所示,假设第一待融合图像为原始图像 A, 第二待融合图像为原始图像 B , 分别将原始图像 A和原始图像 B输入至解缠绕编码 器, 由解缠绕编码器输出原始图像 A对应的第一特征集合, 第一特征集合包括编码 特征 A, 编码特征 A具体表示为 Al、 A2、 A3、 A4、 A5、 A6以及 A7。 类似地, 由 解缠绕编码器输出原始图像 B对应的第二特征集合,第二特征集合包括编码特征 B , 编码特征 B具体表示为 Bl、 B2、 B3、 B4、 B5、 B6以及 B7。 假设待替换区域为头 发区域, 那么对于第一特征集合而言, 第一待替换编码特征即为头发区域所对应的 特征 A6, 相应地, 对于第二特征集合而言, 第二待替换编码特征即为头发区域所对 应的特征 B6。接下来, 需要将特征 B6替换掉第一特征集合中的 A6, 进而形成新的 特征集合, 该特征集合包括编码特征 C , 编码特征 C具体为 Al、 A2、 A3、 A4、 A5、 B6以及 A7。 最后, 由形状融合网络模型中的全局解码器对编码特征 C进行解码处 理, 形成融合图像 A, 即得到第三待融合图像。
由上述介绍可以看出, 假设要将受体图像 ( receptor ) 的发型替换为供体图像 ( donor )的发型, 形状融合网络模型就可以把受体图像的面部形状基因对应的发型 区域的特征替换为供体图像的面部形状基因对应的发型区域, 得到修改后的混合面 部形状基因, 最后通过全局解码器将混合面部形状基因解码成编辑后的人脸图像。
全局解码器的具体结构可以表示为:
u5-512, u5-256, R256, R256, R256, R256, R256, u5-128 , u5-64, c7sl-3 其中, U5-512表示一个包含 512个 5x5的卷积核, 步长为 1/2的反卷积规范化 激活层 ( fractional-strided convolution instance norm-ReLU layer )。 u5-256表示一个包 含 256个 5x5的卷积核, 步长为 1/2的反卷积规范化激活层。 R256表示一个包含两 个 3 ><3卷积层, 且每个卷积层有 256个卷积核的残差块 ( residual block ) 的反卷积 规范化激活层。 U5-128表示一个包含 128个 5x5的卷积核, 步长为 1/2的反卷积规 范化激活层。 u5-64表示一个包含 64个 5><5的卷积核, 步长为 1/2的反卷积规范化 激活层。 c7sl-3表示一个包含 3个 7x7的卷积核, 且步长为 1的卷积规范化激活层 ( convolution-instance norm ReLU layer )。
需要说明的是, 全局解码器的具体结构还可以有其他的表示方式, 上述仅为一 个示意, 并不应理解为对本申请的限定。
再次, 本申请实施例中, 介绍了一种生成第三待融合图像的具体方式。 首先, 图像融合装置会通过形状融合网络模型, 将第一待融合图像中的第一待替换编码特 征替换为第二待融合图像中的第二待替换编码特征, 得到待解码图像, 然后继续通 过形状融合网络模型, 对待解码图像进行解码处理, 得到第三待融合图像。 通过上 述方式, 利用形状融合网络模型能够快速将两个图像进行融合, 并且可以有效地提 升图像融合效率, 同时对于原始输入的人脸图像, 所生成的虚拟人脸中除被编辑部 位外其余部位与原始输入的人脸图像保持一致, 使用户感到生成虚拟人脸的身份信 息与原始输入人脸的身份信息没有发生变化, 从而实现保持身份一致的操作。
在上述图 3对应的第二个或第三个实施例的基础上, 本申请实施例提供的图像 融合的方法第四个实施例中, 通过形状融合网络模型对第一待融合图像以及第二待 融合图像进行融合处理, 得到第三待融合图像之后, 还可以包括:
通过第三待融合图像接收区域调整指令, 其中, 区域调整指令用于调整图像中 至少一个区域的形状;
响应于区域调整指令, 对待替换区域进行调整, 得到待替换区域所对应的目标 替换区域;
根据目标替换区域对第三待融合图像进行处理, 得到第四待融合图像; 通过条件融合网络模型对第三待融合图像以及第一待融合图像进行融合处理, 得到目标融合图像, 可以包括:
通过条件融合网络模型对第四待融合图像以及第一待融合图像进行融合处理, 得到目标融合图像。
本实施例中, 将介绍一种调整待替换区域以生成融合图像的方法。 首先, 在图 像融合装置生成第三待融合图像之后, 可以将该第三待融合图像展示在终端设备的 显示界面上, 用户通过触摸操作触发区域调整指令, 即通过区域调整指令可以调整 第三待融合图像中的区域形状和大小, 图像融合装置根据用户触发的区域调整指令 对待替换区域进行调整, 得到调整后的目标替换区域, 然后根据目标替换区域对第 三待融合图像进行处理, 得到第四待融合图像, 最后图像融合装置通过条件融合网 络模型对第四待融合图像以及第一待融合图像进行融合处理, 得到目标融合图像。
为了便于理解, 请参阅图 6, 图 6为本申请实施例中手绘形状的一个实施例示 意图, 如图所示, 当终端设备的显示界面上显示第三待融合图像时, 用户可以直接 通过在界面上拖动某个区域来调整该区域的形状和大小, 比如, 用户可以按住头发 区域往外拖动, 形成调整后的头像区域, 即得到目标替换区域。 这个过程中, 用户 可以按照需求任意编辑区域形状来生成虚拟人脸图像。 在实际应用中, 用户还可以 对多个不同的区域进行编辑, 以此提升虚拟人脸图像。
进一步地, 本申请实施例中, 提供了一种用户调整第三待融合图像的方法, 即 图像融合装置得到第三待融合图像之后, 通过第三待融合图像接收区域调整指令, 响应于区域调整指令, 对待替换区域进行调整, 得到待替换区域所对应的目标替换 区域, 然后根据目标替换区域对第三待融合图像进行处理, 得到第四待融合图像, 最后通过条件融合网络模型对第四待融合图像以及第一待融合图像进行融合处理, 得到目标融合图像。 通过上述方式, 用户还可以根据需求调整待替换区域的形状和 大小, 实现用户指定编辑区域的方式, 并且可以手绘该区域形状以生成新的图像, 从而提升方案的灵活性和实用性。
在上述图 3以及图 3对应的第一个至第四个实施例中任一项的基础上, 本申请 实施例提供的图像融合的方法第五个实施例中, 通过条件融合网络模型对第三待融 合图像以及第一待融合图像进行融合处理, 得到目标融合图像, 可以包括:
对第三待融合图像以及第一待融合图像进行拼接处理, 得到多通道特征图像, 其中, 多通道特征图像用于将至少两个图像的色彩特征进行拼接;
通过条件融合网络模型获取多通道特征图像所对应的目标融合图像。
本实施例中, 介绍了一种通过条件融合网络模型获取目标融合图像的方法。 首 先, 即图像融合装置对第三待融合图像以及第一待融合图像进行拼接处理, 得到多 通道特征图像, 比如第一待融合图像包括三个通道, 具体为红色 ( red, R )通道、 绿色 ( green, G )通道以及蓝色 ( blue, B )通道, 第三待融合图像也包括三个通道, 具体为 R通道、 G通道以及 B通道, 将第一待融合图像的三个通道与第三待融合图 像的三个通道进行拼接, 得到包括六个通道的多通道特征图像, 最后将多通道特征 图像输入至条件融合网络模型, 由该条件融合网络模型输出相应的目标融合图像。
具体地, 条件融合网络模型可以把编辑后的第三待融合图像转化为逼真的目标 融合图像, 同时保证生成的目标融合图像与第一待融合图像的身份保持不变。 条件 融合网络模型以编辑后的第三待融合图像为输入,并以第一待融合图像为条件输入, 第一待融合图像和第三待融合图像拼接为多通道特征图像, 然后将多通道特征图像 送入至条件融合网络模型。 在实际应用中, 第一待融合图像可以利用部件解码器 ( part- wise decoder )得到去除待替换区域的图像。 如果第三待融合图像是用户手动 调整过的图像, 则该第三待融合图像即为第四待融合图像, 也就是说, 可以对第四 待融合图像以及第一待融合图像进行拼接处理, 得到多通道特征图像。
条件融合网络模型的具体结构可以表示为:
c7sl-64, c3s2-128 , c3s2-256, c3s2-512 , c3s2-1024, R1024, R1024, R1024,
R1024, R1024, R1024, R1024, R1024, R1024, u3-512, u3-256 , u3-128 , u3-64 , c7sl-3
其中, c7sl-64表示一个包含 64个 7x7的卷积核, 且步长为 1的卷积规范化激 活层。 c3s2-128表示一个包含 128个 3 x3的卷积核, 且步长为 2的卷积规范化激活 层。 c3s2-256表示一个包含 256个 3 x3的卷积核, 且步长为 2的卷积规范化激活层。 c3s2-512表示一个包含 512个 3 x3的卷积核, 且步长为 2的卷积规范化激活层。 c3s2-1024表示一个包含 1024个 3 x3的卷积核, 且步长为 2的卷积规范化激活层。 R1024表示一个包含两个 3 ><3卷积层,且每个卷积层有 1024个卷积核的 residual block 的反卷积规范化激活层。 U3-512表示一个包含 512个 3x3的卷积核, 步长为 1/2的 反卷积规范化激活层。 U3-256表示一个包含 256个 3x3的卷积核, 步长为 1/2的反 卷积规范化激活层。 U3-128表示一个包含 128个 3x3的卷积核, 步长为 1/2的反卷 积规范化激活层。 u3-64表示一个包含 64个 3x3的卷积核, 步长为 1/2的反卷积规 范化激活层。 c7sl-3表示一个包含 3个 7x7的卷积核, 且步长为 1的卷积规范化激 活层。
需要说明的是, 条件融合网络模型的具体结构还可以有其他的表示方式, 上述 仅为一个示意, 并不应理解为对本申请的限定。
更进一步地, 本申请实施例中, 提供了一种获取目标融合图像的方式, 即图像 融合装置先对第三待融合图像以及第一待融合图像进行拼接处理, 得到多通道特征 图像, 其中, 多通道特征图像用于将至少两个图像的色彩特征进行拼接, 然后通过 条件融合网络模型获取多通道特征图像所对应的目标融合图像。 通过上述方式, 利 用条件融合网络模型能够准确地拼接两个图像, 从而实现图像的融合, 由此提升方 案的可行性和可操作性。
结合上述介绍, 下面将对本申请中模型训练的方法进行介绍, 请参阅图 7, 本 申请实施例中由图 17所示的服务器设备执行的模型训练的方法一个实施例包括:
201、 获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集 合, 其中, 第一待训练图像包括多个第一训练区域, 第二待训练图像包括多个第二 训练区域, 第一特征集合包括多个第一编码特征, 且第一编码特征与第一区域一一 对应, 第二特征集合包括多个第二编码特征, 且第二编码特征与第二区域—对应; 本实施例中, 模型训练装置获取第一待训练图像以及第二待训练图像, 其中, 第一待训练图像和第二待训练图像通常是同一个类型的图像, 比如两者均为人脸图 像, 或者两则均为动物图像, 或者两者均为风景图像, 又或者是一个为人脸图像, 另一个为动物图像。 本实施例中将以两者均为人脸图像为例进行介绍, 然而, 这并 不应理解为对本申请的限定。
其中, 第一待训练图像以及第二待训练图像均包括多个区域, 具体地, 第一待 训练图像与第二待训练图像具有相似区域, 比如, 第一待训练图像包括多个第一区 域, 第一区域包括眼睛、 鼻子、 嘴巴、 眉毛、 脸型、 头发以及身体等。 第二待训练 图像包括多个第二区域, 第二区域包括眼睛、 鼻子、 嘴巴、 眉毛、 脸型、 头发以及 身体等。
模型训练装置需要分别对第一待训练图像以及第二待训练图像进行特征提取, 即对第一待训练图像中每个第一区域提取相应的特征, 得到第一编码特征, 比如, 针对第一待训练图像的眼睛部分可提取眼睛部分的第一编码特征, 针对第一待训练 图像的头发部分可提取头发部分的第一编码特征, 以此类推, 最终得到包括多个第 一编码特征的第一特征集合。 针对第二待训练图像的眼睛部分可提取眼睛部分的第 二编码特征, 针对第二待训练图像的头发部分可提取头发部分的第二编码特征, 以 此类推, 最终得到包括多个第二编码特征的第二特征集合。
202、通过待训练形状融合网络模型对第一待训练图像以及第二待训练图像进行 融合处理, 得到第三待训练图像, 其中, 第三待训练图像包括至少一个第一编码特 征以及至少一个第二编码特征;
本实施例中, 模型训练装置将第一待训练图像以及第二待训练图像输入至待训 练形状融合网络模型, 由该待训练形状融合网络模型输出第三待训练图像, 这里的 第三待训练图像中同时包括第一待训练图像中的第一编码特征以及第二待训练图像 中的第二编码特征。
203、通过待训练条件融合网络模型对第三待训练图像以及第一待训练图像进行 融合处理, 得到第四待训练图像;
本实施例中, 模型训练装置将第三待训练图像以及第一待训练图像输入至待训 练条件融合网络模型, 由该待训练条件融合网络模型输出第四待训练图像。 其中, 第四待训练图像与原始输入的第一待训练图像属于相同身份, 即生成的虚拟图像中 除了被编辑部位外, 其余部位与原始输入人脸图像保持一致, 使用户感到生成虚拟 人脸图像的身份信息与原始输入的人脸图像的身份信息没有发生变化。
204、通过待训练形状融合网络模型对第四待训练图像以及第一待训练图像进行 融合处理, 得到第五待训练图像, 其中, 第五待训练图像与第一待训练图像具有对 应的特征;
本实施例中, 模型训练装置将第四待训练图像以及第一待训练图像输入至待训 练形状融合网络模型后, 由该待训练形状融合网络模型输出第五待训练图像。 其中, 第五待训练图像与原始输入的第一待训练图像属于相同身份, 即生成的虚拟图像中 除了被编辑部位外, 其余部位与原始输入人脸图像保持一致, 使用户感到生成虚拟 人脸图像的身份信息与原始输入的人脸图像的身份信息没有发生变化。
205、通过待训练条件融合网络模型对第五待训练图像以及第四待训练图像进行 融合处理, 得到目标图像;
本实施例中, 模型训练装置将第五待训练图像以及第四待训练图像输入至待训 练条件融合网络模型, 由该待训练条件融合网络模型输出目标图像。 其中, 目标图 像与原始输入的第一待训练图像属于相同身份, 即生成的虚拟图像中除了被编辑部 位外, 其余部位与原始输入人脸图像保持一致, 使用户感到生成虚拟人脸图像的身 份信息与原始输入的人脸图像的身份信息没有发生变化。
206、 采用目标损失函数以及目标图像, 对待训练形状融合网络模型以及待训练 条件融合网络模型进行训练, 得到形状融合网络模型以及条件融合网络模型。
本实施例中, 模型训练装置采用目标损失函数、 第一待训练图像、 第二待训练 图像、 第三待训练图像、 第四待训练图像、 第五待训练图像以及目标图像, 对待训 练形状融合网络模型以及待训练条件融合网络模型进行训练, 从而得到形状融合网 络模型以及条件融合网络模型。
为了便于理解, 请参阅图 8, 图 8为本申请实施例中对条件融合网络模型进行 训练的一个实施例示意图, 如图所示, 待训练形状融合网络模型以受体图像为原始 图像 A (即第一待训练图像) 和供体图像为原始图像 B (即第二待训练图像) 作为 输入, 生成编辑后的融合图像 A(即第三待训练图像)。 待训练条件融合网络模型以 融合图像 A为输入, 以原始图像 A为条件输入, 可以得到编辑后的融合图像 B(即 第四待训练图像)。 接下来, 将融合图像 B作为受体图像 (即替代原始图像 A), 将 原始图像 A作为供体图像 (即替代原始图像 B), 把原始图像 A的原部位形状重新 替换回来, 待训练形状融合网络模型以受体图像为融合图像 B和供体图像为原始图 像 A作为输入, 生成编辑后的融合图像 C (即第五待训练图像)。 待训练条件融合 网络模型以融合图像 C作为输入, 以融合图像 B为条件输入, 可以得到编辑后的融 合图像 D(即目标图像)。 循环训练的约束目标是希望目标图像与第一待训练图像尽 可能相似, 而第五待训练图像与真实图像尽可能相似。
本申请实施例中, 提供了一种模型训练的方法, 首先模型训练装置获取第一待 训练图像的第一特征集合以及第二待训练图像的第二特征集合, 然后通过待训练形 状融合网络模型对第一待训练图像以及第二待训练图像进行融合处理, 得到第三待 训练图像, 再通过待训练条件融合网络模型对第三待训练图像以及第一待训练图像 进行融合处理, 得到第四待训练图像, 然后通过待训练形状融合网络模型对第四待 训练图像以及第一待训练图像进行融合处理, 得到第五待训练图像, 通过待训练条 件融合网络模型对第五待训练图像以及第四待训练图像进行融合处理, 得到目标图 像, 最后采用目标损失函数以及目标图像, 对待训练形状融合网络模型以及待训练 条件融合网络模型进行训练, 得到形状融合网络模型以及条件融合网络模型。 通过 上述方式, 能够在保证融合图像的身份信息与原始输入图像的身份信息一致的情况 下, 对模型进行训练, 从而提升模型训练的可靠性。
在上述图 7对应的实施例的基础上, 本申请实施例提供的模型训练的方法第一 个实施例中, 获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征 集合之前, 还可以包括:
获取待训练目标图像集合, 其中, 待训练目标图像集合包括至少一个待训练目 标图像, 每个待训练目标图像包括至少一个区域;
通过待训练解缠绕编码器对待训练目标图像集合中待训练目标图像的各个区域 进行编码处理, 得到编码结果, 其中, 待训练解缠绕编码器包括多个待训练部件编 码器, 每个待训练部件编码器用于对一个区域进行编码;
通过待训练解缠绕解码器对编码结果进行解码处理, 得到解码结果, 其中, 待 训练解缠绕解码器包括多个待训练部件解码器, 每个待训练部件解码器用于对一个 区域进行解码;
采用损失函数以及解码结果对待训练解缠绕编码器进行训练, 得到解缠绕编码 器, 其中, 解缠绕编码器包括多个部件编码器;
获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合, 可 以包括: 获取第一待训练图像以及第二待训练图像;
采用解缠绕编码器对第一待训练图像中的多个第一区域进行编码处理, 得到多 个第一编码特征, 其中, 每个部件编码器用于对一个第一区域进行编码;
采用解缠绕编码器对第二待训练图像中的多个第二区域进行编码处理, 得到多 个第二编码特征, 其中, 每个部件编码器用于对一个第二区域进行编码。
本实施例中, 介绍了一种训练得到解缠绕编码器的方式, 即模型训练装置首先 需要获取待训练目标图像集合, 其中, 待训练目标图像集合包括至少一个待训练目 标图像, 每个待训练目标图像包括至少一个区域。 然后可以通过待训练解缠绕编码 器对待训练目标图像集合中待训练目标图像的各个区域进行编码处理, 得到编码结 果。 需要说明的是, 待训练解缠绕编码器包括多个待训练部件编码器, 每个待训练 部件编码器用于对一个区域进行编码,比如 1号部件编码器编码的区域为鼻子区域, 2号部件编码器编码的区域为头发区域。 相应地, 模型训练装置为待训练解缠绕编 码器设置了对应的待训练解缠绕解码器, 其中, 待训练解缠绕解码器包括多个待训 练部件解码器, 每个待训练部件解码器用于对一个区域进行解码, 类似地, 比如 1 号部件解码器解码的区域为鼻子区域, 2号部件解码器解码的区域为头发区域。 结 合每一对部件编码器和部件解码器的解码结果, 采用损失函数对待训练解缠绕编码 器进行训练,得到解缠绕编码器。具体可以得到解缠绕编码器中的各个部件编码器。
为了便于理解, 请参阅图 9, 图 9为本申请实施例中对解缠绕编码器进行训练 的一个实施例示意图, 如图所示, 本申请使用基于卷积神经网络的编码器进行输入 图像的解缠绕特征提取工作。 本申请的解缠绕编码器由多个部件编码器构成, 每一 个部件编码器独立地编码一个指定的人脸图像部位的形状, 部件编码器输入一个人 脸图像, 可以输出是一个 1 * 1 * 128的 1维特征向量, 由此编码了该人脸图片特定部 位的形状。 本申请考虑的部位包含但不仅限于眼睛、 鼻子、 嘴巴、 眉毛、 脸型、 头 发及身体, 所有部位的特征向量拼接在一起形成特征集合, 可以称为面部形状基因。
在训练阶段中, 每一个部件编码器都会配置一个对应的部件解码器, 比如部件 编码器 配置对应的部件解码器 , 用于从部件编码器输出的特征向量中学习生 成对应面部部位的图像, 比如得到图像少1。 其中, 部件编码器和部件解码器结对一 起训练, 在部件解码器的监督下, 部件编码器会自动摒弃不需要编码的部位的形状 信息, 仅在输出特征中保留需要编码的部位的形状信息。
部件编码器的具体结构可以表示为:
c7sl-64, c5s4-128 , c5s4-256 , R256, R256, R256, R256, c5s4-512 , c5s4-128 其中, c7sl-64表示一个包含 64个 7x7的卷积核, 且步长为 1的卷积规范化激 活层。 c5s4-128表示一个包含 128个 5x5的卷积核, 且步长为 4的卷积规范化激活 层。 c5s4-256表示一个包含 256个 5x5的卷积核, 且步长为 4的卷积规范化激活层。 R256表示一个包含两个 3 ><3卷积层,且每个卷积层有 256个卷积核的 residual block 的反卷积规范化激活层。 c5s4-512表示一个包含 512个 5x5的卷积核, 且步长为 4 的卷积规范化激活层。 c5s4-128表示一个包含 128个 5x5的卷积核, 且步长为 4的 卷积规范化激活层。
需要说明的是, 部件编码器的具体结构还可以有其他的表示方式, 上述仅为一 个示意, 并不应理解为对本申请的限定。
部件解码器的具体结构为:
u5-512, u5-256, R256, R256, R256, R256, R256, u5-128 , u5-64, c7sl-3 其中, U5-512表示一个包含 512个 5x5的卷积核, 步长为 1/2的反卷积规范化 激活层。 U5-256表示一个包含 256个 5x5的卷积核, 步长为 1/2的反卷积规范化激 活层。 R256表示一个包含两个 3 ><3卷积层,且每个卷积层有 256个卷积核的 residual block的反卷积规范化激活层。 u5-128表示一个包含 128个 5><5的卷积核, 步长为 1/2的反卷积规范化激活层。 u5-64表示一个包含 64个 5x5的卷积核, 步长为 1/2的 反卷积规范化激活层。 c7sl-3表示一个包含 3个 7x7的卷积核, 且步长为 1的卷积 规范化激活层。
需要说明的是, 部件解码器的具体结构还可以有其他的表示方式, 上述仅为一 个示意, 并不应理解为对本申请的限定。
其次, 本申请实施例中, 介绍了一种训练得到解缠绕编码器的具体方式, 即模 型训练装置可以先获取待训练目标图像集合, 然后通过待训练解缠绕编码器对待训 练目标图像集合中待训练目标图像的各个区域进行编码处理, 得到编码结果, 再通 过待训练解缠绕解码器对编码结果进行解码处理, 得到解码结果, 采用损失函数以 及解码结果对待训练解缠绕编码器进行训练, 得到解缠绕编码器。 通过上述方式, 在模型训练阶段, 针对待训练解缠绕编码器会配置对应的待训练解缠绕解码器, 用 来从对待训练解缠绕编码器输出的特征向量中学习生成相应区域的形状图像, 从而 提升图像编码的准确度和可靠性。
在上述图 7对应的实施例的基础上, 本申请实施例提供的模型训练的方法第二 个实施例中, 采用目标损失函数以及目标图像, 对待训练形状融合网络模型以及待 训练条件融合网络模型进行训练, 得到形状融合网络模型以及条件融合网络模型之 前, 还可以包括:
根据第五待训练图像以及真实图像, 确定第一损失函数;
根据目标图像以及第一待训练图像, 确定第二损失函数;
根据第一待训练图像、 第二待训练图像、 第四待训练图像以及目标图像, 确定 第三损失函数;
根据第一损失函数、 第二损失函数以及第三损失函数, 确定目标损失函数。 本实施例中, 介绍了一种模型训练装置确定目标损失函数的方式。 循环训练的 约束目标是希望目标图像与第一待训练图像尽可能相似, 而第五待训练图像与真实 图像尽可能相似。 因此, 第一损失函数是根据第五待训练图像以及真实图像生成的, 其中, 真实图像指示第一待训练图像所对应的特征图像。 第二损失函数是根据目标 图像以及第一待训练图像生成的。 除了利用标签图和图像外观两个循环约束来保证 人物身份信息不丢失之外, 还可以使用对抗约束来要求模型生成的结果像是真实人 脸的图像, 即根据第一待训练图像、 第二待训练图像、 第四待训练图像以及目标图 像, 确定第三损失函数。 将第一损失函数、 第二损失函数以及第三损失函数相加, 得到目标损失函数。
其次, 本申请实施例中, 提供了一种得到目标损失函数的方式, 即模型训练装 置需要在得到形状融合网络模型以及条件融合网络模型之前, 先根据第五待训练图 像以及真实图像, 确定第一损失函数, 然后根据目标图像以及第一待训练图像, 确 定第二损失函数, 再根据第一待训练图像、 第二待训练图像、 第四待训练图像以及 目标图像, 确定第三损失函数, 最后根据第一损失函数、 第二损失函数以及第三损 失函数, 确定目标损失函数。 通过上述方式, 为方案的实现提供了一种可靠的方式, 结合多个图像生成最终的损失函数,考虑到了各个图像在模型训练过程中的重要性, 由此得到更准确的模型。
在上述图 7对应的第二个实施例的基础上, 本申请实施例提供的模型训练的方 法第三个实施例中, 模型训练装置根据第五待训练图像以及真实图像, 确定第一损 失函数, 可以包括:
采用如下方式计算第一损失函数:
kyc,L = EyyA [|/厂 xl +^GG|K /,) -K yA ];
其中,
Figure imgf000020_0001
表示第一损失函数, £表示期望值计算, 表示第五待训练图像, h表示真实图像, 表示损失比重调节系数, 0( )表示预训练网络模型输出的 特征;
模型训练装置根据目标图像以及第一待训练图像, 确定第二损失函数, 可以包 括:
采用如下方式计算第二损失函数:
Figure imgf000020_0002
其中, LcvcJ表示第二损失函数, 表示目标图像, ;表示第一待训练图像; 模型训练装置根据第一待训练图像、 第二待训练图像、 第四待训练图像以及目 标图像, 确定第三损失函数, 可以包括:
采用如下方式计算第三损失函数:
Figure imgf000020_0003
其中,
Figure imgf000020_0005
表示第三损失函数,
Figure imgf000020_0004
表示判别网络, ;表示第二待训练图像, I 表示第四待训练图像, X 表示目标图像;
根据第一损失函数、 第二损失函数以及第三损失函数, 确定目标损失函数, 可 以包括:
采用如下方式计算目标损失函数: LtOtal LcyCJ LQAN,
其中,
Figure imgf000021_0001
示目标损失函数。
本实施例中, 介绍了一种计算得到目标损失函数的具体方式。 第一损失函数可 以通过如下循环约束来确定:
Figure imgf000021_0002
表示第五待训练图像, ^表示真实图像, ^ 表示损失比重调节系数, 0( )表示预训练网络模型输出的 特征。 第二损失函数可以通过如下循环约束来确定:
Figure imgf000021_0003
;表示第一待训练图像。 可以理解的是, 上述两个公式均利用了 L1损失和 VGG损失两种类型, 具体地, L1 损 失 为 iK- xl 以 及 |卜 - IL , VGG 损 失 为 1^ (3^ ) j (X4 )IL 以 及 ll ^ ) - ;!。 4GG表示损失比重调节系数, 用于调整 L1损失和 VGG损失的 比重, 在本申请中可以取值 1.0, 即认为 L1损失和 VGG损失是等价的。 )表示 预训练网络模型输出的特征, 具体是指预先训练的 VGG19网络输出的特征, 在本 申请中使用卷积层 ( convolutional layer, conv ) 1-1、 卷积层 2-2、 卷积层 3-2、 卷积 层 4-4以及卷积层 5-4层的特征, 并且分别赋予每一卷积层如下权重 1/32 (即卷积 层 1-1的权重)、 1/16 (卷积层 2-2的权重)、 1/8 (卷积层 3-2的权重)、 1/4 (卷积层 4-4的权重) 以及 1 (卷积层 5-4的权重 X
可以理解的是, 上述权重值的设定仅为一个示意, 不应理解为对本申请的限定。 除了上述两个循环约束保证人物身份信息不丢失之外, 还需要使用一个对抗约 束来要求条件融合网络模型生成的结果更贴近真实人脸的图像, 第三损失函数可以 表示为:
Figure imgf000021_0004
其中, LGAN表示第三损失函数,
Figure imgf000021_0005
表示判别网络, ;表示第二待训练图像,
Figure imgf000021_0006
表示第四待训练图像, X 表示目标图像。 判别网络 的具体结构包括编码部分和 解码部分, 编码部分的结构可以为: c7sl-64, c5s4-128 , c5s4-256, R256, R256, R256, R256, c5s4-512, c5s4-128 解码部分的结构可以表示为: u5-512, u5-256, R256, R256, R256, R256, R256, u5-128 , u5-64, c7sl-3 此处仅为一个示意, 不应理解为对本申请的限定。 判别网络 Z),被训练成用于判断图像是否为真实图像, 且判别网络 A伴随着待训练形状融合网络模型和待训练条件融合网络模型一起训 练, 最大化第三损失函数 这个对抗约束, 能够尽量准确地区分生成图像和真实 的图像, 而待训练形状融合网络模型和待训练条件融合网络模型则会最小化第三损 失函数 以此期望能够生成尽量真实的图像。
由此, 有了用于训练待训练形状融合网络模型和待训练条件融合网络模型的总 的目标损失函数:
Figure imgf000022_0001
再次, 本申请实施例中, 介绍了计算损失函数的具体方式, 通过上述方式, 为 方案的实现提供了具体的依据, 从而提升了方案的可行性和可操作性。
下面对本申请中的图像融合装置进行详细描述, 请参阅图 10, 图 10为本申请 实施例中图像融合装置一个实施例示意图, 图像融合装置 30包括:
获取模块 301, 用于获取第一待融合图像以及第二待融合图像, 其中, 所述第 一待融合图像包括多个第一区域, 所述第二待融合图像包括多个第二区域;
所述获取模块 301, 还用于根据所述第一待融合图像获取第一特征集合, 且根 据所述第二待融合图像获取第二特征集合, 其中, 所述第一特征集合包括多个第一 编码特征, 且所述第一编码特征与所述第一区域一一对应, 所述第二特征集合包括 多个第二编码特征, 且所述第二编码特征与所述第二区域—对应;
融合模块 302, 用于通过形状融合网络模型对所述获取模块 301获取的所述第 一待融合图像以及所述第二待融合图像进行融合处理,得到第三待融合图像,其中, 所述第三待融合图像包括所述获取模块 301获取的至少一个第一编码特征以及至少 一个第二编码特征;
所述融合模块 302, 还用于通过条件融合网络模型对所述第三待融合图像以及 所述第一待融合图像进行融合处理, 得到目标融合图像。
本实施例中, 获取模块 301获取第一待融合图像以及第二待融合图像, 其中, 所述第一待融合图像包括多个第一区域, 所述第二待融合图像包括多个第二区域, 所述获取模块 301根据所述第一待融合图像获取第一特征集合, 且根据所述第二待 融合图像获取第二特征集合, 其中, 所述第一特征集合包括多个第一编码特征, 且 所述第一编码特征与所述第一区域一一对应, 所述第二特征集合包括多个第二编码 特征, 且所述第二编码特征与所述第二区域—对应, 融合模块 302通过形状融合 网络模型对所述获取模块 301获取的所述第一待融合图像以及所述第二待融合图像 进行融合处理, 得到第三待融合图像, 其中, 所述第三待融合图像包括所述获取模 块获取的至少一个第一编码特征以及至少一个第二编码特征, 所述融合模块 302通 过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融合处 理, 得到目标融合图像。
本申请实施例中, 提供了一种图像融合装置, 首先, 获取第一待融合图像以及 第二待融合图像, 其中, 第一待融合图像包括多个第一区域, 第二待融合图像包括 多个第二区域, 然后根据第一待融合图像获取第一特征集合, 且根据第二待融合图 像获取第二特征集合, 其中, 第一特征集合包括多个第一编码特征, 且第一编码特 征与第一区域—对应, 第二特征集合包括多个第二编码特征, 且第二编码特征与 第二区域一一对应, 再通过形状融合网络模型对第一待融合图像以及第二待融合图 像进行融合处理, 得到第三待融合图像, 其中, 第三待融合图像包括至少一个第一 编码特征以及至少一个第二编码特征, 最后可以通过条件融合网络模型对第三待融 合图像以及第一待融合图像进行融合处理, 得到目标融合图像。 通过上述方式, 提 取图像中各个局部区域的相应特征, 由此可以快速地对一个图像中的局部区域进行 改变, 也就是将该局部区域替换为另一个图像中相应的局部区域, 从而形成融合图 像。 此外, 融合图像除被编辑的局部区域以外, 其余区域与原始输入图像保持一致, 使用户感到融合图像的身份信息与原始输入图像的身份信息没有发生变化。
在上述图 10所对应的实施例的基础上, 本申请实施例提供的图像融合装置 30 的另一实施例中,
所述获取模块 301, 具体用于采用解缠绕编码器对所述第一待融合图像中的所 述多个第一区域进行编码处理, 得到所述多个第一编码特征, 其中, 所述解缠绕编 码器包括多个部件编码器, 每个部件编码器用于对一个第一区域进行编码;
采用所述解缠绕编码器对所述第二待融合图像中的所述多个第二区域进行编码 处理, 得到所述多个第二编码特征, 其中, 所述解缠绕编码器包括所述多个部件编 码器, 每个部件编码器用于对一个第二区域进行编码。
其次, 本申请实施例中, 提供了一种图像编码方式, 即采用解缠绕编码器对第 一待融合图像中的多个第一区域进行编码处理, 得到多个第一编码特征, 并且采用 解缠绕编码器对第二待融合图像中的多个第二区域进行编码处理, 得到多个第二编 码特征, 解缠绕编码器包括多个部件编码器, 每个部件编码器用于对一个第二区域 进行编码。 通过上述方式, 采用部件编码器对图像中不同的区域进行编码处理, 能 够有效地保证图像编码的一致性, 从而便于进行后续的预测处理。
在上述图 10所对应的实施例的基础上, 请参阅图 11, 本申请实施例提供的图 像融合装置 30的另一实施例中, 所述图像融合装置 30还包括确定模块 303;
所述确定模块 303, 用于在所述融合模块 302通过形状融合网络模型对所述第 一待融合图像以及所述第二待融合图像进行融合处理, 得到第三待融合图像之前, 从所述第一待融合图像中确定待替换区域, 其中, 所述待替换区域属于所述多个第 一区域中的一个区域;
所述获取模块 301, 还用于根据所述确定模块 303确定的所述待替换区域获取 所述第一待融合图像中的第一待替换编码特征, 并根据所述确定模块 303确定的所 述待替换区域获取所述第二待融合图像中的第二待替换编码特征, 其中, 所述第一 待替换编码特征属于所述多个第一编码特征中的一个编码特征, 所述第二待替换编 码特征属于所述多个第二编码特征中的一个编码特征。
在上述图 10或图 11所对应的实施例的基础上, 本申请实施例提供的图像融合 装置 30的另一实施例中,
所述融合模块 302, 具体用于通过所述形状融合网络模型, 将所述第一待融合 图像中的所述第一待替换编码特征替换为所述第二待融合图像中的所述第二待替换 编码特征, 得到待解码图像;
通过所述形状融合网络模型, 对所述待解码图像进行解码处理, 得到所述第三 待融合图像。
在上述图 10或图 11所对应的实施例的基础上, 请参阅图 12, 本申请实施例提 供的图像融合装置 30的另一实施例中, 所述图像融合装置 30还包括接收模块 304、 调整模块 305以及处理模块 306;
所述接收模块 304, 用于在所述融合模块 302通过形状融合网络模型对所述第 一待融合图像以及所述第二待融合图像进行融合处理, 得到第三待融合图像之后, 通过所述第三待融合图像接收区域调整指令, 其中, 所述区域调整指令用于调整图 像中至少一个区域的形状;
所述调整模块 305, 用于响应于所述接收模块 304接收的所述区域调整指令, 对所述待替换区域进行调整, 得到所述待替换区域所对应的目标替换区域;
所述处理模块 306, 用于根据所述调整模块 305调整得到的所述目标替换区域 对所述第三待融合图像进行处理, 得到第四待融合图像;
所述融合模块 302, 具体用于通过条件融合网络模型对所述第四待融合图像以 及所述第一待融合图像进行融合处理, 得到目标融合图像。
在上述图 10、 图 11或者图 12所对应的实施例的基础上, 本申请实施例提供的 图像融合装置 30的另一实施例中,
所述融合模块 302, 具体用于对所述第三待融合图像以及所述第一待融合图像 进行拼接处理, 得到多通道特征图像, 其中, 所述多通道特征图像用于将至少两个 图像的色彩特征进行拼接;
通过所述条件融合网络模型获取所述多通道特征图像所对应的所述目标融合图 像。
下面对本申请中的模型训练装置进行详细描述, 请参阅图 13, 图 13为本申请 实施例中图像融合装置一个实施例示意图, 模型训练装置 40包括:
获取模块 401, 用于获取第一待训练图像的第一特征集合以及第二待训练图像 的第二特征集合, 其中, 所述第一待训练图像包括多个第一训练区域, 所述第二待 训练图像包括多个第二训练区域, 所述第一特征集合包括多个第一编码特征, 且所 述第一编码特征与所述第一区域一一对应, 所述第二特征集合包括多个第二编码特 征, 且所述第二编码特征与所述第二区域一一对应;
融合模块 402, 用于通过待训练形状融合网络模型对所述获取模块 401获取的 所述第一待训练图像以及所述第二待训练图像进行融合处理,得到第三待训练图像, 其中, 所述第三待训练图像包括所述获取模块获取的至少一个第一编码特征以及至 少一个第二编码特征;
所述融合模块 402, 还用于通过待训练条件融合网络模型对所述第三待训练图 像以及所述第一待训练图像进行融合处理, 得到第四待训练图像;
所述融合模块 402, 还用于通过所述待训练形状融合网络模型对所述第四待训 练图像以及所述第一待训练图像进行融合处理, 得到第五待训练图像, 其中, 所述 第五待训练图像与所述第一待训练图像具有对应的特征;
所述融合模块 402, 还用于通过所述待训练条件融合网络模型对所述第五待训 练图像以及所述第四待训练图像进行融合处理, 得到目标图像;
训练模块 403, 用于采用目标损失函数以及所述融合模块 402融合得到的所述 目标图像, 对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行 训练, 得到形状融合网络模型以及条件融合网络模型。
本实施例中, 获取模块 401获取第一待训练图像的第一特征集合以及第二待训 练图像的第二特征集合, 其中, 所述第一待训练图像包括多个第一训练区域, 所述 第二待训练图像包括多个第二训练区域,所述第一特征集合包括多个第一编码特征, 且所述第一编码特征与所述第一区域一一对应, 所述第二特征集合包括多个第二编 码特征, 且所述第二编码特征与所述第二区域—对应, 融合模块 402通过待训练 形状融合网络模型对所述获取模块 401获取的所述第一待训练图像以及所述第二待 训练图像进行融合处理, 得到第三待训练图像, 其中, 所述第三待训练图像包括所 述获取模块获取的至少一个第一编码特征以及至少一个第二编码特征, 所述融合模 块 402通过待训练条件融合网络模型对所述第三待训练图像以及所述第一待训练图 像进行融合处理, 得到第四待训练图像, 所述融合模块 402通过所述待训练形状融 合网络模型对所述第四待训练图像以及所述第一待训练图像进行融合处理, 得到第 五待训练图像, 其中, 所述第五待训练图像与所述第一待训练图像具有对应的特征, 所述融合模块 402通过所述待训练条件融合网络模型对所述第五待训练图像以及所 述第四待训练图像进行融合处理, 得到目标图像, 训练模块 403采用目标损失函数 以及所述融合模块 402融合得到的所述目标图像, 对所述待训练形状融合网络模型 以及所述待训练条件融合网络模型进行训练, 得到形状融合网络模型以及条件融合 网络模型。
本申请实施例中, 提供了一种模型训练装置, 首先该模型训练装置获取第一待 训练图像的第一特征集合以及第二待训练图像的第二特征集合, 然后通过待训练形 状融合网络模型对第一待训练图像以及第二待训练图像进行融合处理, 得到第三待 训练图像, 再通过待训练条件融合网络模型对第三待训练图像以及第一待训练图像 进行融合处理, 得到第四待训练图像, 然后通过待训练形状融合网络模型对第四待 训练图像以及第一待训练图像进行融合处理, 得到第五待训练图像, 通过待训练条 件融合网络模型对第五待训练图像以及第四待训练图像进行融合处理, 得到目标图 像, 最后采用目标损失函数以及目标图像, 对待训练形状融合网络模型以及待训练 条件融合网络模型进行训练, 得到形状融合网络模型以及条件融合网络模型。 通过 上述方式, 能够在保证融合图像的身份信息与原始输入图像的身份信息一致的情况 下, 对模型进行训练, 从而提升模型训练的可靠性。
在上述图 13所对应的实施例的基础上, 请参阅图 14, 本申请实施例提供的模 型训练装置 40的另一实施例中, 所述模型训练装置 40还包括编码模块 404以及解 码模块 405;
所述获取模块 401, 还用于获取第一待训练图像的第一特征集合以及第二待训 练图像的第二特征集合之前, 获取待训练目标图像集合, 其中, 所述待训练目标图 像集合包括至少一个待训练目标图像, 每个待训练目标图像包括至少一个区域; 所述编码模块 404, 用于通过待训练解缠绕编码器对所述获取模块 401获取的 所述待训练目标图像集合中待训练目标图像的各个区域进行编码处理, 得到编码结 果, 其中, 所述待训练解缠绕编码器包括多个待训练部件编码器, 每个待训练部件 编码器用于对一个区域进行编码;
所述解码模块 405, 用于通过待训练解缠绕解码器对所述编码模块 404编码的 所述编码结果进行解码处理, 得到解码结果, 其中, 所述待训练解缠绕解码器包括 多个待训练部件解码器, 每个待训练部件解码器用于对一个区域进行解码;
所述训练模块 403, 还用于采用损失函数以及所述解码模块 405解码得到的解 码结果对所述待训练解缠绕编码器进行训练, 得到解缠绕编码器, 其中, 所述解缠 绕编码器包括多个部件编码器;
所述获取模块 401, 具体用于获取第一待训练图像以及第二待训练图像; 采用所述解缠绕编码器对所述第一待训练图像中的所述多个第一区域进行编码 处理, 得到所述多个第一编码特征, 其中, 每个部件编码器用于对一个第一区域进 行编码;
采用所述解缠绕编码器对所述第二待训练图像中的所述多个第二区域进行编码 处理, 得到所述多个第二编码特征, 其中, 每个部件编码器用于对一个第二区域进 行编码。
在上述图 13或图 14所对应的实施例的基础上, 请参阅图 15 , 本申请实施例提 供的模型训练装置 40的另一实施例中, 所述模型训练装置 40还包括确定模块 406; 所述确定模块 406, 用于所述训练模块 403采用目标损失函数以及所述目标图 像, 对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行训练, 得到形状融合网络模型以及条件融合网络模型之前, 根据所述第五待训练图像以及 真实图像, 确定第一损失函数;
所述确定模块 406, 还用于根据所述目标图像以及所述第一待训练图像, 确定 第二损失函数;
所述确定模块 406, 还用于根据所述第一待训练图像、 所述第二待训练图像、 所述第四待训练图像以及所述目标图像, 确定第三损失函数;
所述确定模块 406, 还用于根据所述第一损失函数、 所述第二损失函数以及所 述第三损失函数, 确定所述目标损失函数。
在上述图 15所对应的实施例的基础上, 本申请实施例提供的模型训练装置 40 的另一实施例中,
所述确定模块 406, 具体用于采用如下方式计算所述第一损失函数:
kyc,L = EyyA [|/厂 xl +^ |K /,) -K yA ]; 其中,
Figure imgf000027_0001
表示所述第一损失函数, 所述 表示期望值计算, 所述 表 示所述第五待训练图像,所述 h表示所述真实图像,所述; 表示损失比重调节系 数, 所述 0( )表示预训练网络模型输出的特征;
采用如下方式计算所述第二损失函数:
Figure imgf000027_0002
其中, 所述 表示所述第二损失函数, 所述 ·X 表示所述目标图像, 所述; 表示所述第一待训练图像;
采用如下方式计算所述第三损失函数:
Figure imgf000027_0003
其中,
Figure imgf000027_0004
表示所述第三损失函数, 所述 /^表示判别网络, 所述;表示 所述第二待训练图像, 所述 表示所述第四待训练图像, 所述 X 表示所述目标图 像;
采用如下方式计算所述目标损失函数:
Figure imgf000027_0005
标损失函数。
再次, 本申请实施例中, 介绍了计算损失函数的具体方式, 即模型训练装置可 以根据第五待训练图像以及真实图像, 计算得到第一损失函数, 然后根据目标图像 以及第一待训练图像, 计算得到第二损失函数, 最后根据第一损失函数、 第二损失 函数以及第三损失函数, 计算得到目标损失函数。 通过上述方式, 为方案的实现提 供了具体的依据, 从而提升了方案的可行性和可操作性。
本申请实施例还提供了另一种图像融合装置, 如图 16所示, 为了便于说明, 仅 示出了与本申请实施例相关的部分, 具体技术细节未揭示的, 请参照本申请实施例 方法部分。 该终端设备可以为包括手机、 平板电脑、 个人数字助理 ( Personal Digital Assistant, PDA )、销售终端设备 ( Point of Sales, POS )、车载电脑等任意终端设备, 以终端设备为手机为例:
图 16示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。 参考图 16,手机包括存储器 520和处理器 580。该手机还可以进一步包括:射频 ( Radio Frequency, RF ) 电路 510、 输入单元 530、 显示单元 540、 传感器 550、 音频电路 560、 无线保真 ( wireless fidelity, WiFi )模块 570、 以及电源 590等部件。 本领域 技术人员可以理解, 图 16中示出的手机结构并不构成对手机的限定, 可以包括比图 示更多或更少的部件, 或者组合某些部件, 或者不同的部件布置。
下面结合图 16对手机的各个构成部件进行具体的介绍:
RF电路 510可用于收发信息或通话过程中, 信号的接收和发送, 特别地, 将基 站的下行信息接收后, 给处理器 580处理; 另外, 将涉及上行的数据发送给基站。 通常, RF电路 510包括但不限于天线、 至少一个放大器、 收发信机、 耦合器、 低噪 声放大器 ( Low Noise Amplifier, LNA )、 双工器等。 此外, RF电路 510还可以通过 无线通信与网络和其他设备通信。 上述无线通信可以使用任一通信标准或协议, 包 括但不限于全球移动通讯系统 ( Global System of Mobile communication, GSM )、 通用分组无线服务 ( General Packet Radio Service, GPRS )、 码分多址 ( Code Division Multiple Access, CDMA )、 宽带码分多址 ( Wideband Code Division Multiple Access, WCDMA )、 长期演进 ( Long Term Evolution, LTE )、 电子邮件、 短消息服务 ( Short Messaging Service, SMS ) 等。
存储器 520可用于存储多条指令, 换言之, 可用于存储软件程序以及模块, 处 理器 580通过运行存储在存储器 520的多条指令, 从而执行手机的各种功能应用以 及数据处理。 存储器 520可主要包括存储程序区和存储数据区, 其中, 存储程序区 可存储操作系统、 至少一个功能所需的应用程序 (比如声音播放功能、 图像播放功 能等) 等; 存储数据区可存储根据手机的使用所创建的数据 (比如音频数据、 电话 本等) 等。 此外, 存储器 520可以包括高速随机存取存储器, 还可以包括非易失性 存储器, 例如至少一个磁盘存储器件、 闪存器件、 或其他易失性固态存储器件。
输入单元 530可用于接收输入的数字或字符信息, 以及产生与手机的用户设置 以及功能控制有关的键信号输入。 具体地, 输入单元 530可包括触控面板 531以及 其他输入设备 532。 触控面板 531, 也称为触摸屏, 可收集用户在其上或附近的触摸 操作 (比如用户使用手指、 触笔等任何适合的物体或附件在触控面板 531上或在触 控面板 531附近的操作 ), 并根据预先设定的程式驱动相应的连接装置。 触控面板 531可包括触摸检测装置和触摸控制器两个部分。 其中, 触摸检测装置检测用户的 触摸方位, 并检测触摸操作带来的信号, 将信号传送给触摸控制器; 触摸控制器从 触摸检测装置上接收触摸信息, 并将它转换成触点坐标, 再送给处理器 580, 并能 接收处理器 580发来的命令并加以执行。 此外, 可以采用电阻式、 电容式、 红外线 以及表面声波等多种类型实现触控面板 531。 除了触控面板 531, 输入单元 530还可 以包括其他输入设备 532。 具体地, 其他输入设备 532可以包括但不限于物理键盘、 功能键 (比如音量控制按键、 开关按键等)、 轨迹球、 鼠标、 操作杆等中的一种或多 种。
显示单元 540可用于显示由用户输入的信息或提供给用户的信息以及手机的各 种菜单。 显示单元 540可包括显示面板 541, 可以采用液晶显示器 ( Liquid Crystal Display, LCD )、 有机发光二极管 ( Organic Light-Emitting Diode, OLED )等形式来 配置显示面板 541。 进一步的, 触控面板 531可覆盖显示面板 541, 当触控面板 531 检测到在其上或附近的触摸操作后, 传送给处理器 580以确定触摸事件的类型, 随 后处理器 580根据触摸事件的类型在显示面板 541上提供相应的视觉输出。 虽然在 图 16中,触控面板 531与显示面板 541是作为两个独立的部件来实现手机的输入和 输出功能, 但是在某些实施例中, 可以将触控面板 531与显示面板 541集成而实现 手机的输入和输出功能。 手机还可包括至少一种传感器 550, 比如光传感器、 运动传感器以及其他传感 器。 具体地, 光传感器可包括环境光传感器及接近传感器, 其中, 环境光传感器可 根据环境光线的明暗来调节显示面板 541的亮度, 接近传感器可在手机移动到耳边 时, 关闭显示面板 541和 /或背光。 作为运动传感器的一种, 加速计传感器可检测各 个方向上(一般为三轴)加速度的大小, 静止时可检测出重力的大小及方向, 可用 于识别手机姿态的应用 (比如横竖屏切换、 相关游戏、 磁力计姿态校准)、 振动识别 相关功能(比如计步器、 敲击)等; 至于手机还可配置的陀螺仪、 气压计、 湿度计、 温度计、 红外线传感器等其他传感器, 在此不再赘述。
音频电路 560、扬声器 561, 传声器 562可提供用户与手机之间的音频接口。 音 频电路 560可将接收到的音频数据转换后的电信号, 传输到扬声器 561, 由扬声器 561转换为声音信号输出; 另一方面, 传声器 562将收集的声音信号转换为电信号, 由音频电路 560接收后转换为音频数据, 再将音频数据输出处理器 580处理后, 经 RF电路 510以发送给比如另一手机,或者将音频数据输出至存储器 520以便进一步 处理。
WiFi属于短距离无线传输技术, 手机通过 WiFi模块 570可以帮助用户收发电 子邮件、 浏览网页和访问流式媒体等, 它为用户提供了无线的宽带互联网访问。 虽 然图 16示出了 Wffi模块 570, 但是可以理解的是, 其并不属于手机的必须构成, 完全可以根据需要在不改变本申请的本质的范围内而省略。
处理器 580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分, 通过运行或执行存储在存储器 520内的软件程序和 /或模块, 以及调用存储在存储器 520内的数据, 执行手机的各种功能和处理数据, 从而对手机进行整体监控。 处理 器 580可包括一个或多个处理单元; 处理器 580可集成应用处理器和调制解调处理 器, 其中, 应用处理器主要处理操作系统、 用户界面和应用程序等, 调制解调处理 器主要处理无线通信。 可以理解的是, 上述调制解调处理器也可以不集成到处理器 580中。
手机还包括给各个部件供电的电源 590(比如电池), 电源可以通过电源管理系 统与处理器 580逻辑相连, 从而通过电源管理系统实现管理充电、 放电、 以及功耗 管理等功能。
尽管未示出, 手机还可以包括摄像头、 蓝牙模块等, 在此不再赘述。
在本申请实施例中, 通过运行存储在存储器 520内的多条指令, 该终端设备所 包括的处理器 580用于执行以下步骤:
获取第一待融合图像以及第二待融合图像, 其中, 所述第一待融合图像包括多 个第一区域, 所述第二待融合图像包括多个第二区域;
根据所述第一待融合图像获取第一特征集合, 且根据所述第二待融合图像获取 第二特征集合, 其中, 所述第一特征集合包括多个第一编码特征, 且所述第一编码 特征与所述第一区域一一对应, 所述第二特征集合包括多个第二编码特征, 且所述 第二编码特征与所述第二区域一一对应; 通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融 合处理, 得到第三待融合图像, 其中, 所述第三待融合图像包括至少一个第一编码 特征以及至少一个第二编码特征;
通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融 合处理, 得到目标融合图像。
通过运行存储在存储器 520内的多条指令, 处理器 580还用于执行如下步骤: 采用解缠绕编码器对所述第一待融合图像中的所述多个第一区域进行编码处 理, 得到所述多个第一编码特征, 其中, 所述解缠绕编码器包括多个部件编码器, 每个部件编码器用于对一个第一区域进行编码;
采用所述解缠绕编码器对所述第二待融合图像中的所述多个第二区域进行编码 处理, 得到所述多个第二编码特征, 其中, 所述解缠绕编码器包括所述多个部件编 码器, 每个部件编码器用于对一个第二区域进行编码。
通过运行存储在存储器 520内的多条指令, 处理器 580还用于执行如下步骤: 从所述第一待融合图像中确定待替换区域, 其中, 所述待替换区域属于所述多 个第一区域中的一个区域;
根据所述待替换区域获取所述第一待融合图像中的第一待替换编码特征, 并根 据所述待替换区域获取所述第二待融合图像中的第二待替换编码特征, 其中, 所述 第一待替换编码特征属于所述多个第一编码特征中的一个编码特征, 所述第二待替 换编码特征属于所述多个第二编码特征中的一个编码特征。
通过运行存储在存储器 520内的多条指令,处理器 580具体用于执行如下步骤: 通过所述形状融合网络模型, 将所述第一待融合图像中的所述第一待替换编码 特征替换为所述第二待融合图像中的所述第二待替换编码特征, 得到待解码图像; 通过所述形状融合网络模型, 对所述待解码图像进行解码处理, 得到所述第三 待融合图像。
通过运行存储在存储器 520内的多条指令, 处理器 580还用于执行如下步骤: 通过所述第三待融合图像接收区域调整指令, 其中, 所述区域调整指令用于调 整图像中至少一个区域的形状;
响应于所述区域调整指令, 对所述待替换区域进行调整, 得到所述待替换区域 所对应的目标替换区域;
根据所述目标替换区域对所述第三待融合图像进行处理,得到第四待融合图像; 通过条件融合网络模型对所述第四待融合图像以及所述第一待融合图像进行融 合处理, 得到目标融合图像。
通过运行存储在存储器 520内的多条指令, 处理器 580还用于执行如下步骤: 对所述第三待融合图像以及所述第一待融合图像进行拼接处理, 得到多通道特 征图像, 其中, 所述多通道特征图像用于将至少两个图像的色彩特征进行拼接; 通过所述条件融合网络模型获取所述多通道特征图像所对应的所述目标融合图 像。 图 17是本申请实施例提供的一种服务器设备结构示意图, 该服务器设备 600 可因配置或性能不同而产生比较大的差异, 可以包括一个或一个以上中央处理器 ( central processing units, CPU) 622(例如, 一个或一个以上处理器)和存储器 632。 该服务器设备 600还可以进一步包括一个或一个以上存储应用程序 642或数据 644 的存储介质 630(例如一个或一个以上海量存储设备)。 其中, 存储器 632和存储介 质 630可以是短暂存储或持久存储。 存储器 632和存储介质 630均可以存储多条指 令, 或者程序。 存储在存储器 632或存储介质 630的程序 (或多条指令)可以包括 一个或一个以上模块(图示未标出),每个模块可以包括对服务器设备中的一系列指 令操作。 更进一步地, 中央处理器 622可以设置为与存储器 632或存储介质 630通 信, 在服务器设备 600上执行存储器 632或存储介质 630中的一系列指令操作。
服务器设备 600还可以包括一个或一个以上电源 626, 一个或一个以上有线或 无线网络接口 650, 一个或一个以上输入输出接口 658, 和 /或, 一个或一个以上操 作系统 641,例如 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 等等。
上述实施例中由服务器设备所执行的步骤可以基于该图 17所示的服务器设备 结构。
在本申请实施例中,通过运行存储在存储器 632或存储介质 630内的多条指令, 该服务器设备所包括的 CPU 622用于执行以下步骤:
获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合, 其 中, 所述第一待训练图像包括多个第一训练区域, 所述第二待训练图像包括多个第 二训练区域, 所述第一特征集合包括多个第一编码特征, 且所述第一编码特征与所 述第一区域一一对应, 所述第二特征集合包括多个第二编码特征, 且所述第二编码 特征与所述第二区域一一对应;
通过待训练形状融合网络模型对所述第一待训练图像以及所述第二待训练图像 进行融合处理, 得到第三待训练图像, 其中, 所述第三待训练图像包括至少一个第 一编码特征以及至少一个第二编码特征;
通过待训练条件融合网络模型对所述第三待训练图像以及所述第一待训练图像 进行融合处理, 得到第四待训练图像;
通过所述待训练形状融合网络模型对所述第四待训练图像以及所述第一待训练 图像进行融合处理, 得到第五待训练图像, 其中, 所述第五待训练图像与所述第一 待训练图像具有对应的特征;
通过所述待训练条件融合网络模型对所述第五待训练图像以及所述第四待训练 图像进行融合处理, 得到目标图像;
采用目标损失函数以及所述目标图像, 对所述待训练形状融合网络模型以及所 述待训练条件融合网络模型进行训练, 得到形状融合网络模型以及条件融合网络模 型。
通过运行存储在存储器 632或存储介质 630内的多条指令, CPU 622还用于执 行如下步骤:
获取待训练目标图像集合, 其中, 所述待训练目标图像集合包括至少一个待训 练目标图像, 每个待训练目标图像包括至少一个区域;
通过待训练解缠绕编码器对所述待训练目标图像集合中待训练目标图像的各个 区域进行编码处理, 得到编码结果, 其中, 所述待训练解缠绕编码器包括多个待训 练部件编码器, 每个待训练部件编码器用于对一个区域进行编码;
通过待训练解缠绕解码器对所述编码结果进行解码处理,得到解码结果,其中, 所述待训练解缠绕解码器包括多个待训练部件解码器, 每个待训练部件解码器用于 对一个区域进行解码;
采用损失函数以及解码结果对所述待训练解缠绕编码器进行训练, 得到解缠绕 编码器, 其中, 所述解缠绕编码器包括多个部件编码器;
获取第一待训练图像以及第二待训练图像;
采用所述解缠绕编码器对所述第一待训练图像中的所述多个第一区域进行编码 处理, 得到所述多个第一编码特征, 其中, 每个部件编码器用于对一个第一区域进 行编码;
采用所述解缠绕编码器对所述第二待训练图像中的所述多个第二区域进行编码 处理, 得到所述多个第二编码特征, 其中, 每个部件编码器用于对一个第二区域进 行编码。
通过运行存储在存储器 632或存储介质 630内的多条指令, CPU 622还用于执 行如下步骤:
根据所述第五待训练图像以及真实图像, 确定第一损失函数;
根据所述目标图像以及所述第一待训练图像, 确定第二损失函数;
根据所述第一待训练图像、 所述第二待训练图像、 所述第四待训练图像以及所 述目标图像, 确定第三损失函数;
根据所述第一损失函数、 所述第二损失函数以及所述第三损失函数, 确定所述 目标损失函数。
通过运行存储在存储器 632或存储介质 630内的多条指令, CPU 622还用于执 行如下步骤:
采用如下方式计算所述第一损失函数:
Figure imgf000032_0001
其中, 所述 表示所述第一损失函数, 所述 £表示期望值计算, 所述 表 示所述第五待训练图像,所述 h表示所述真实图像,所述; 表示损失比重调节系 数, 所述 0( )表示预训练网络模型输出的特征;
所述根据所述目标图像以及所述第一待训练图像, 确定第二损失函数, 包括: 采用如下方式计算所述第二损失函数:
Figure imgf000032_0002
其中, 所述 表示所述第二损失函数, 所述 X 表示所述目标图像, 所述; 表示所述第一待训练图像;
所述根据所述第一待训练图像、 所述第二待训练图像、 所述第四待训练图像以 及所述目标图像, 确定第三损失函数, 包括:
采用如下方式计算所述第三损失函数:
Figure imgf000033_0001
其中,
Figure imgf000033_0002
表示所述第三损失函数, 所述 /^表示判别网络, 所述;表示 所述第二待训练图像, 所述 表示所述第四待训练图像, 所述 X 表示所述目标图 像;
所述根据所述第一损失函数、 所述第二损失函数以及所述第三损失函数, 确定 所述目标损失函数, 包括:
采用如下方式计算所述目标损失函数:
Lt tal - LLyC’L LcyCJ LQAN,
其中, 所述 表示所述目标损失函数。
所属领域的技术人员可以清楚地了解到, 为描述的方便和筒洁, 上述描述的系 统, 装置和单元的具体工作过程, 可以参考前述方法实施例中的对应过程, 在此不 再赘述。
在本申请所提供的几个实施例中, 应该理解到, 所揭露的系统, 装置和方法, 可以通过其它的方式实现。 例如, 以上所描述的装置实施例仅仅是示意性的, 例如, 所述单元的划分, 仅仅为一种逻辑功能划分, 实际实现时可以有另外的划分方式, 例如多个单元或组件可以结合或者可以集成到另一个系统, 或一些特征可以忽略, 或不执行。 另一点, 所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是 通过一些接口, 装置或单元的间接耦合或通信连接, 可以是电性, 机械或其它的形 式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元 显示的部件可以是或者也可以不是物理单元, 即可以位于一个地方, 或者也可以分 布到多个网络单元上。 可以根据实际的需要选择其中的部分或者全部单元来实现本 实施例方案的目的。
另外, 在本申请各个实施例中的各功能单元可以集成在一个处理单元中, 也可 以是各个单元单独物理存在, 也可以两个或两个以上单元集成在一个单元中。 上述 集成的单元既可以采用硬件的形式实现, 也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用 时, 可以存储在一个计算机可读取存储介质中。 基于这样的理解, 本申请的技术方 案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软 件产品的形式体现出来, 该计算机软件产品存储在一个存储介质中, 包括若千指令 用以使得一台计算机设备 (可以是个人计算机, 服务器设备, 或者网络设备等)执 行本申请各个实施例所述方法的全部或部分步骤, 比如上述的图像融合的方法以及 模型训练的方法。 而前述的存储介质包括: U盘、 移动硬盘、 只读存储器 ( read-only memory , ROM )、 随机存取存储器 ( random access memory, RAM )、 磁碟或者光盘 等各种可以存储程序代码的介质。
以上所述, 以上实施例仅用以说明本申请的技术方案, 而非对其限制; 尽管参 照前述实施例对本申请进行了详细的说明, 本领域的普通技术人员应当理解: 其依 然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行 等同替换; 而这些修改或者替换, 并不使相应技术方案的本质脱离本申请各实施例 技术方案的精神和范围。

Claims

权利要求书
1、 一种图像融合的方法, 由终端设备执行, 包括:
获取第一待融合图像以及第二待融合图像, 其中, 所述第一待融合图像包括多 个第一区域, 所述第二待融合图像包括多个第二区域;
根据所述第一待融合图像获取第一特征集合, 且根据所述第二待融合图像获取 第二特征集合, 其中, 所述第一特征集合包括多个第一编码特征, 且所述第一编码 特征与所述第一区域一一对应, 所述第二特征集合包括多个第二编码特征, 且所述 第二编码特征与所述第二区域一一对应;
通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融 合处理, 得到第三待融合图像, 其中, 所述第三待融合图像包括至少一个第一编码 特征以及至少一个第二编码特征;
通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融 合处理, 得到目标融合图像。
2、根据权利要求 1所述的方法, 其中, 所述根据所述第一待融合图像获取第一 特征集合, 包括:
采用解缠绕编码器对所述第一待融合图像中的所述多个第一区域进行编码处 理, 得到所述多个第一编码特征, 其中, 所述解缠绕编码器包括多个部件编码器, 每个部件编码器用于对一个第一区域进行编码。
3、根据权利要求 1所述的方法, 其中, 所述根据所述第二待融合图像获取第二 特征集合, 包括:
采用所述解缠绕编码器对所述第二待融合图像中的所述多个第二区域进行编码 处理, 得到所述多个第二编码特征, 其中, 所述解缠绕编码器包括所述多个部件编 码器, 每个部件编码器用于对一个第二区域进行编码。
4、根据权利要求 1所述的方法, 其中, 所述通过形状融合网络模型对所述第一 待融合图像以及所述第二待融合图像进行融合处理, 得到第三待融合图像之前, 所 述方法还包括:
从所述第一待融合图像中确定待替换区域, 其中, 所述待替换区域属于所述多 个第一区域中的一个区域;
根据所述待替换区域获取所述第一待融合图像中的第一待替换编码特征, 并根 据所述待替换区域获取所述第二待融合图像中的第二待替换编码特征, 其中, 所述 第一待替换编码特征属于所述多个第一编码特征中的一个编码特征, 所述第二待替 换编码特征属于所述多个第二编码特征中的一个编码特征。
5、根据权利要求 4所述的方法, 其中, 所述通过形状融合网络模型对所述第一 待融合图像以及所述第二待融合图像进行融合处理, 得到第三待融合图像, 包括: 通过所述形状融合网络模型, 将所述第一待融合图像中的所述第一待替换编码 特征替换为所述第二待融合图像中的所述第二待替换编码特征, 得到待解码图像; 通过所述形状融合网络模型, 对所述待解码图像进行解码处理, 得到所述第三 待融合图像。
6、根据权利要求 4或 5所述的方法, 其中, 所述通过形状融合网络模型对所述 第一待融合图像以及所述第二待融合图像进行融合处理,得到第三待融合图像之后, 所述方法还包括:
通过所述第三待融合图像接收区域调整指令, 其中, 所述区域调整指令用于调 整图像中至少一个区域的形状;
响应于所述区域调整指令, 对所述待替换区域进行调整, 得到所述待替换区域 所对应的目标替换区域;
根据所述目标替换区域对所述第三待融合图像进行处理,得到第四待融合图像。
7、根据权利要求 6所述的方法, 其中, 所述通过条件融合网络模型对所述第三 待融合图像以及所述第一待融合图像进行融合处理, 得到目标融合图像, 包括: 通过所述条件融合网络模型对所述第四待融合图像以及所述第一待融合图像进 行融合处理, 得到所述目标融合图像。
8、根据权利要求 1至 5中任一项所述的方法, 其中, 所述通过条件融合网络模 型对所述第三待融合图像以及所述第一待融合图像进行融合处理, 得到目标融合图 像, 包括:
对所述第三待融合图像以及所述第一待融合图像进行拼接处理, 得到多通道特 征图像, 其中, 所述多通道特征图像用于将至少两个图像的色彩特征进行拼接; 通过所述条件融合网络模型获取所述多通道特征图像所对应的所述目标融合图 像。
9、 一种模型训练的方法, 由服务器设备执行, 包括:
获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合, 其 中, 所述第一待训练图像包括多个第一训练区域, 所述第二待训练图像包括多个第 二训练区域, 所述第一特征集合包括多个第一编码特征, 且所述第一编码特征与所 述第一区域一一对应, 所述第二特征集合包括多个第二编码特征, 且所述第二编码 特征与所述第二区域一一对应;
通过待训练形状融合网络模型对所述第一待训练图像以及所述第二待训练图像 进行融合处理, 得到第三待训练图像, 其中, 所述第三待训练图像包括至少一个第 一编码特征以及至少一个第二编码特征;
通过待训练条件融合网络模型对所述第三待训练图像以及所述第一待训练图像 进行融合处理, 得到第四待训练图像;
通过所述待训练形状融合网络模型对所述第四待训练图像以及所述第一待训练 图像进行融合处理, 得到第五待训练图像, 其中, 所述第五待训练图像与所述第一 待训练图像具有对应的特征;
通过所述待训练条件融合网络模型对所述第五待训练图像以及所述第四待训练 图像进行融合处理, 得到目标图像; 采用目标损失函数以及所述目标图像, 对所述待训练形状融合网络模型以及所 述待训练条件融合网络模型进行训练, 得到形状融合网络模型以及条件融合网络模 型。
10、 根据权利要求 9所述的方法, 其中, 所述获取第一待训练图像的第一特征 集合以及第二待训练图像的第二特征集合之前, 所述方法还包括:
获取待训练目标图像集合, 其中, 所述待训练目标图像集合包括至少一个待训 练目标图像, 每个待训练目标图像包括至少一个区域;
通过待训练解缠绕编码器对所述待训练目标图像集合中待训练目标图像的各个 区域进行编码处理, 得到编码结果, 其中, 所述待训练解缠绕编码器包括多个待训 练部件编码器, 每个待训练部件编码器用于对一个区域进行编码;
通过待训练解缠绕解码器对所述编码结果进行解码处理,得到解码结果,其中, 所述待训练解缠绕解码器包括多个待训练部件解码器, 每个待训练部件解码器用于 对一个区域进行解码;
采用损失函数以及解码结果对所述待训练解缠绕编码器进行训练, 得到解缠绕 编码器, 其中, 所述解缠绕编码器包括多个部件编码器。
11、 根据权利要求 9所述的方法, 其中, 所述获取第一待训练图像的第一特征 集合以及第二待训练图像的第二特征集合, 包括:
获取第一待训练图像以及第二待训练图像;
采用所述解缠绕编码器对所述第一待训练图像中的所述多个第一区域进行编码 处理, 得到所述多个第一编码特征, 其中, 每个部件编码器用于对一个第一区域进 行编码;
采用所述解缠绕编码器对所述第二待训练图像中的所述多个第二区域进行编码 处理, 得到所述多个第二编码特征, 其中, 每个部件编码器用于对一个第二区域进 行编码。
12、 根据权利要求 9所述的方法, 其中, 所述采用目标损失函数以及所述目标 图像,对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行训练, 得到形状融合网络模型以及条件融合网络模型之前, 所述方法还包括:
根据所述第五待训练图像以及真实图像, 确定第一损失函数;
根据所述目标图像以及所述第一待训练图像, 确定第二损失函数;
根据所述第一待训练图像、 所述第二待训练图像、 所述第四待训练图像以及所 述目标图像, 确定第三损失函数;
根据所述第一损失函数、 所述第二损失函数以及所述第三损失函数, 确定所述 目标损失函数。
13、根据权利要求 12所述的方法, 其中, 所述根据所述第五待训练图像以及真 实图像, 确定第一损失函数, 包括:
采用如下方式计算所述第一损失函数:
kyc,L = EyyA [|/厂 xl +^ |K /,) -K yA ]; 其中,
Figure imgf000038_0001
表示所述第一损失函数, 所述 表示期望值计算, 所述 表 示所述第五待训练图像,所述 h表示所述真实图像,所述; 表示损失比重调节系 数, 所述 0( )表示预训练网络模型输出的特征。
14、根据权利要求 12所述的方法, 其中, 所述根据所述目标图像以及所述第一 待训练图像, 确定第二损失函数, 包括:
采用如下方式计算所述第二损失函数:
Figure imgf000038_0002
其中, 所述 表示所述第二损失函数, 所述 ·X 表示所述目标图像, 所述; 表示所述第一待训练图像。
15、 根据权利要求 12所述的方法, 其中, 所述根据所述第一待训练图像、 所述 第二待训练图像、 所述第四待训练图像以及所述目标图像, 确定第三损失函数, 包 括:
采用如下方式计算所述第三损失函数:
Figure imgf000038_0003
其中, 所述
Figure imgf000038_0004
表示所述第三损失函数, 所述 /^表示判别网络, 所述;表示 所述第二待训练图像, 所述 表示所述第四待训练图像, 所述 X 表示所述目标图 像。
16、 根据权利要求 12所述的方法, 其中, 所述根据所述第一损失函数、 所述第 二损失函数以及所述第三损失函数, 确定所述目标损失函数, 包括:
采用如下方式计算所述目标损失函数:
LtOtal CJ LQAN 1
其中,
Figure imgf000038_0005
示所述目标损失函数。
17、 一种图像融合装置, 包括:
获取模块, 用于获取第一待融合图像以及第二待融合图像, 其中, 所述第一待 融合图像包括多个第一区域, 所述第二待融合图像包括多个第二区域;
所述获取模块, 还用于根据所述第一待融合图像获取第一特征集合, 且根据所 述第二待融合图像获取第二特征集合, 其中, 所述第一特征集合包括多个第一编码 特征, 且所述第一编码特征与所述第一区域一一对应, 所述第二特征集合包括多个 第二编码特征, 且所述第二编码特征与所述第二区域—对应;
融合模块, 用于通过形状融合网络模型对所述第一待融合图像以及所述第二待 融合图像进行融合处理, 得到第三待融合图像, 其中, 所述第三待融合图像包括所 述获取模块获取的至少一个第一编码特征以及至少一个第二编码特征;
所述融合模块, 还用于通过条件融合网络模型对所述第三待融合图像以及所述 第一待融合图像进行融合处理, 得到目标融合图像。
18、 一种模型训练装置, 包括:
获取模块, 用于获取第一待训练图像的第一特征集合以及第二待训练图像的第 二特征集合, 其中, 所述第一待训练图像包括多个第一训练区域, 所述第二待训练 图像包括多个第二训练区域, 所述第一特征集合包括多个第一编码特征, 且所述第 一编码特征与所述第一区域一一对应, 所述第二特征集合包括多个第二编码特征, 且所述第二编码特征与所述第二区域一一对应;
融合模块, 用于通过待训练形状融合网络模型对所述获取模块获取的所述第一 待训练图像以及所述第二待训练图像进行融合处理, 得到第三待训练图像, 其中, 所述第三待训练图像包括所述获取模块获取的至少一个第一编码特征以及至少一个 第二编码特征;
所述融合模块, 还用于通过待训练条件融合网络模型对所述第三待训练图像以 及所述第一待训练图像进行融合处理, 得到第四待训练图像;
所述融合模块, 还用于通过所述待训练形状融合网络模型对所述第四待训练图 像以及所述第一待训练图像进行融合处理, 得到第五待训练图像, 其中, 所述第五 待训练图像与所述第一待训练图像具有对应的特征;
所述融合模块, 还用于通过所述待训练条件融合网络模型对所述第五待训练图 像以及所述第四待训练图像进行融合处理, 得到目标图像;
训练模块,用于采用目标损失函数以及所述融合模块融合得到的所述目标图像, 对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行训练, 得到 形状融合网络模型以及条件融合网络模型。
19、 一种终端设备, 包括: 存储器、 处理器;
其中, 所述存储器用于存储多条指令;
当运行所述存储器中存储的所述多条指令时, 所述处理器用于执行如下步骤: 获取第一待融合图像以及第二待融合图像, 其中, 所述第一待融合图像包括多 个第一区域, 所述第二待融合图像包括多个第二区域;
根据所述第一待融合图像获取第一特征集合, 且根据所述第二待融合图像获取 第二特征集合, 其中, 所述第一特征集合包括多个第一编码特征, 且所述第一编码 特征与所述第一区域一一对应, 所述第二特征集合包括多个第二编码特征, 且所述 第二编码特征与所述第二区域一一对应;
通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融 合处理, 得到第三待融合图像, 其中, 所述第三待融合图像包括至少一个第一编码 特征以及至少一个第二编码特征;
通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融 合处理, 得到目标融合图像。
20、 一种服务器设备, 包括: 存储器、 处理器;
其中, 所述存储器用于存储多条指令;
当运行所述存储器中的存储的所述多条指令时,所述处理器用于执行如下步骤: 获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合, 其 中, 所述第一待训练图像包括多个第一训练区域, 所述第二待训练图像包括多个第 二训练区域, 所述第一特征集合包括多个第一编码特征, 且所述第一编码特征与所 述第一区域一一对应, 所述第二特征集合包括多个第二编码特征, 且所述第二编码 特征与所述第二区域一一对应;
通过待训练形状融合网络模型对所述第一待训练图像以及所述第二待训练图像 进行融合处理, 得到第三待训练图像, 其中, 所述第三待训练图像包括至少一个第 一编码特征以及至少一个第二编码特征;
通过待训练条件融合网络模型对所述第三待训练图像以及所述第一待训练图像 进行融合处理, 得到第四待训练图像;
通过所述待训练形状融合网络模型对所述第四待训练图像以及所述第一待训练 图像进行融合处理, 得到第五待训练图像, 其中, 所述第五待训练图像与所述第一 待训练图像具有对应的特征;
通过所述待训练条件融合网络模型对所述第五待训练图像以及所述第四待训练 图像进行融合处理, 得到目标图像;
采用目标损失函数以及所述目标图像, 对所述待训练形状融合网络模型以及所 述待训练条件融合网络模型进行训练, 得到形状融合网络模型以及条件融合网络模 型。
21、 一种计算机可读存储介质, 包括指令, 当其在计算机上运行时, 使得计算 机执行如权利要求 1至 16中任一项所述的方法。
PCT/CN2020/075641 2019-02-26 2020-02-18 一种图像融合的方法、模型训练的方法以及相关装置 WO2020173329A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP20763746.3A EP3933754A4 (en) 2019-02-26 2020-02-18 IMAGE FUSION METHOD, MODEL TRAINING METHOD AND RELATED DEVICE
JP2021517986A JP7090971B2 (ja) 2019-02-26 2020-02-18 画像融合方法、モデル訓練方法、画像融合装置、モデル訓練装置、端末機器、サーバ機器、及びコンピュータプログラム
US17/336,561 US11776097B2 (en) 2019-02-26 2021-06-02 Image fusion method, model training method, and related apparatuses

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910142210.7 2019-02-26
CN201910142210.7A CN109919888B (zh) 2019-02-26 2019-02-26 一种图像融合的方法、模型训练的方法以及相关装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/336,561 Continuation US11776097B2 (en) 2019-02-26 2021-06-02 Image fusion method, model training method, and related apparatuses

Publications (1)

Publication Number Publication Date
WO2020173329A1 true WO2020173329A1 (zh) 2020-09-03

Family

ID=66962310

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/075641 WO2020173329A1 (zh) 2019-02-26 2020-02-18 一种图像融合的方法、模型训练的方法以及相关装置

Country Status (6)

Country Link
US (1) US11776097B2 (zh)
EP (1) EP3933754A4 (zh)
JP (1) JP7090971B2 (zh)
CN (1) CN109919888B (zh)
TW (1) TWI725746B (zh)
WO (1) WO2020173329A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668586A (zh) * 2020-12-18 2021-04-16 北京百度网讯科技有限公司 模型训练、图片处理方法及设备、存储介质、程序产品
CN114757938A (zh) * 2022-05-16 2022-07-15 国网四川省电力公司电力科学研究院 一种变压器漏油识别方法和系统
US11526712B2 (en) 2019-09-29 2022-12-13 Tencent Technology (Shenzhen) Company Limited Training method and apparatus for image fusion processing model, device, and storage medium
CN112668586B (zh) * 2020-12-18 2024-05-14 北京百度网讯科技有限公司 模型训练、图片处理方法及设备、存储介质、程序产品

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919888B (zh) * 2019-02-26 2023-09-19 腾讯科技(深圳)有限公司 一种图像融合的方法、模型训练的方法以及相关装置
CN112218080B (zh) * 2019-07-12 2022-04-19 北京新唐思创教育科技有限公司 图像处理方法、装置、设备及存储介质
CN110415166B (zh) * 2019-07-29 2023-01-06 腾讯科技(深圳)有限公司 融合图像处理模型的训练方法、图像处理方法、装置及存储介质
CN110472558B (zh) * 2019-08-13 2023-08-15 上海掌门科技有限公司 图像处理方法和装置
CN110633751A (zh) * 2019-09-17 2019-12-31 上海眼控科技股份有限公司 车标分类模型的训练方法、车标识别方法、装置及设备
CN111355021B (zh) * 2020-02-15 2022-05-03 杭州电子科技大学 一种基于自身形状融合的带宽增强方法
JP7446903B2 (ja) * 2020-04-23 2024-03-11 株式会社日立製作所 画像処理装置、画像処理方法及び画像処理システム
CN111724485A (zh) * 2020-06-11 2020-09-29 浙江商汤科技开发有限公司 实现虚实融合的方法、装置、电子设备及存储介质
CN111863539B (zh) * 2020-08-05 2022-04-12 沈阳铁路信号有限责任公司 一种电磁继电器的触头表面成分叠加融合方法
CN111915545B (zh) * 2020-08-06 2022-07-05 中北大学 一种多波段图像的自监督学习融合方法
CN114078083A (zh) * 2020-08-11 2022-02-22 北京达佳互联信息技术有限公司 头发变换模型生成方法和装置、头发变换方法和装置
CN111881926A (zh) * 2020-08-24 2020-11-03 Oppo广东移动通信有限公司 图像生成、图像生成模型的训练方法、装置、设备及介质
CN112184876B (zh) * 2020-09-28 2021-04-27 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备和存储介质
CN112529978B (zh) * 2020-12-07 2022-10-14 四川大学 一种人机交互式抽象画生成方法
TWI792137B (zh) * 2020-12-31 2023-02-11 瑞昱半導體股份有限公司 視線方向校正方法
CN112884691A (zh) * 2021-03-10 2021-06-01 深圳中科飞测科技股份有限公司 数据增强及装置、数据增强设备和存储介质
US20230114402A1 (en) * 2021-10-11 2023-04-13 Kyocera Document Solutions, Inc. Retro-to-Modern Grayscale Image Translation for Preprocessing and Data Preparation of Colorization
CN114187624B (zh) 2021-11-09 2023-09-22 北京百度网讯科技有限公司 图像生成方法、装置、电子设备及存储介质
CN114170342A (zh) * 2021-12-10 2022-03-11 北京字跳网络技术有限公司 图像处理方法、装置、设备及存储介质
CN114627338B (zh) * 2022-05-16 2022-09-09 浙江华是科技股份有限公司 一种船舶类别分类模型训练方法、系统及计算机存储介质
CN115239968A (zh) * 2022-07-25 2022-10-25 首都师范大学 一种图像处理方法、装置、计算机设备及存储介质
CN115512006B (zh) * 2022-11-23 2023-04-07 有米科技股份有限公司 基于多图像元素的图像智能合成方法及装置
CN117611644A (zh) * 2024-01-23 2024-02-27 南京航空航天大学 一种可见光图像到sar图像的转换方法、装置、介质及设备
CN117710373A (zh) * 2024-02-05 2024-03-15 中国科学院宁波材料技术与工程研究所 一种抗干扰的octa视网膜血管提取方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960345A (zh) * 2018-08-08 2018-12-07 广东工业大学 一种遥感图像的融合方法、系统及相关组件
CN109002852A (zh) * 2018-07-11 2018-12-14 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
US20190005069A1 (en) * 2017-06-28 2019-01-03 Google Inc. Image Retrieval with Deep Local Feature Descriptors and Attention-Based Keypoint Descriptors
CN109377448A (zh) * 2018-05-20 2019-02-22 北京工业大学 一种基于生成对抗网络的人脸图像修复方法
CN109919888A (zh) * 2019-02-26 2019-06-21 腾讯科技(深圳)有限公司 一种图像融合的方法、模型训练的方法以及相关装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI384406B (zh) * 2009-05-26 2013-02-01 Univ Nat Chiao Tung 人臉辨識與合成方法
US8884989B2 (en) * 2009-12-23 2014-11-11 Indian Institute Of Technology Bombay System and method for fusing images
JP5642583B2 (ja) 2011-02-07 2014-12-17 公立大学法人会津大学 画像生成装置および画像生成プログラム
GB201710560D0 (en) 2017-06-30 2017-08-16 Norwegian Univ Of Science And Tech (Ntnu) Detection of manipulated images
CN107437077A (zh) 2017-08-04 2017-12-05 深圳市唯特视科技有限公司 一种基于生成对抗网络的旋转面部表示学习的方法
CN107507216B (zh) * 2017-08-17 2020-06-09 北京觅己科技有限公司 图像中局部区域的替换方法、装置及存储介质
CN108460411B (zh) * 2018-02-09 2021-05-04 北京市商汤科技开发有限公司 实例分割方法和装置、电子设备、程序和介质
CN108647560B (zh) * 2018-03-22 2022-06-14 中山大学 一种基于cnn的保持表情信息的人脸转移方法
CN108520215B (zh) * 2018-03-28 2022-10-11 电子科技大学 基于多尺度联合特征编码器的单样本人脸识别方法
CN108665506B (zh) 2018-05-10 2021-09-28 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机存储介质及服务器
CN109005852A (zh) * 2018-08-30 2018-12-18 甘肃地道之源药业科技发展有限公司 一种中药材用浇灌装置
CN109325549B (zh) * 2018-10-25 2022-03-04 电子科技大学 一种人脸图像融合方法
CN111985265B (zh) * 2019-05-21 2024-04-12 华为技术有限公司 图像处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005069A1 (en) * 2017-06-28 2019-01-03 Google Inc. Image Retrieval with Deep Local Feature Descriptors and Attention-Based Keypoint Descriptors
CN109377448A (zh) * 2018-05-20 2019-02-22 北京工业大学 一种基于生成对抗网络的人脸图像修复方法
CN109002852A (zh) * 2018-07-11 2018-12-14 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN108960345A (zh) * 2018-08-08 2018-12-07 广东工业大学 一种遥感图像的融合方法、系统及相关组件
CN109919888A (zh) * 2019-02-26 2019-06-21 腾讯科技(深圳)有限公司 一种图像融合的方法、模型训练的方法以及相关装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11526712B2 (en) 2019-09-29 2022-12-13 Tencent Technology (Shenzhen) Company Limited Training method and apparatus for image fusion processing model, device, and storage medium
CN112668586A (zh) * 2020-12-18 2021-04-16 北京百度网讯科技有限公司 模型训练、图片处理方法及设备、存储介质、程序产品
US11928563B2 (en) 2020-12-18 2024-03-12 Beijing Baidu Netcom Science Technology Co., Ltd. Model training, image processing method, device, storage medium, and program product
CN112668586B (zh) * 2020-12-18 2024-05-14 北京百度网讯科技有限公司 模型训练、图片处理方法及设备、存储介质、程序产品
CN114757938A (zh) * 2022-05-16 2022-07-15 国网四川省电力公司电力科学研究院 一种变压器漏油识别方法和系统
CN114757938B (zh) * 2022-05-16 2023-09-15 国网四川省电力公司电力科学研究院 一种变压器漏油识别方法和系统

Also Published As

Publication number Publication date
JP7090971B2 (ja) 2022-06-27
US11776097B2 (en) 2023-10-03
EP3933754A1 (en) 2022-01-05
EP3933754A4 (en) 2022-05-04
JP2022502783A (ja) 2022-01-11
TW202032400A (zh) 2020-09-01
CN109919888B (zh) 2023-09-19
TWI725746B (zh) 2021-04-21
US20210295483A1 (en) 2021-09-23
CN109919888A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
WO2020173329A1 (zh) 一种图像融合的方法、模型训练的方法以及相关装置
WO2021043053A1 (zh) 一种基于人工智能的动画形象驱动方法和相关装置
US20200387698A1 (en) Hand key point recognition model training method, hand key point recognition method and device
WO2021244217A1 (zh) 一种表情迁移模型的训练方法、表情迁移的方法及装置
CN109978989B (zh) 三维人脸模型生成方法、装置、计算机设备及存储介质
WO2020177582A1 (zh) 视频合成的方法、模型训练的方法、设备及存储介质
WO2020233333A1 (zh) 图像处理方法和装置
WO2020192465A1 (zh) 一种三维对象重建方法和装置
JP2019145108A (ja) 顔に対応する3次元アバターを用いて顔の動きが反映された3dアバターを含むイメージを生成する電子装置
WO2021098338A1 (zh) 一种模型训练的方法、媒体信息合成的方法及相关装置
CN112562019A (zh) 图像色彩调整方法及装置、计算机可读介质和电子设备
CN113569614A (zh) 虚拟形象生成方法、装置、设备及存储介质
WO2024016611A1 (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN114332976A (zh) 虚拟对象处理方法、电子设备及存储介质
US20230107555A1 (en) Facial Expression Editing Method and Electronic Device
KR20120119244A (ko) 컨텐츠 제작 방법, 이를 위한 시스템 및 이를 위한 단말기
CN112528760B (zh) 图像处理方法、装置、计算机设备及介质
KR20230160926A (ko) 사용자-정의 맥락 공간들
CN111310701B (zh) 手势识别方法、装置、设备及存储介质
CN111797754A (zh) 图像检测的方法、装置、电子设备及介质
CN113763531B (zh) 三维人脸重建方法、装置、电子设备及存储介质
JP7482242B2 (ja) 表情トランスファーモデルの訓練方法、表情トランスファー方法及び装置並びにコンピュータ装置及びプログラム
US20240073402A1 (en) Multi-perspective augmented reality experience
CN114004922B (zh) 骨骼动画显示方法、装置、设备、介质及计算机程序产品
US20230324714A1 (en) Intelligent actuated temple attachments

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20763746

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021517986

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020763746

Country of ref document: EP

Effective date: 20210927