TW202032400A

TW202032400A - 圖像融合的方法、模型訓練的方法以及相關裝置

Info

Publication number: TW202032400A
Application number: TW109105563A
Authority: TW
Inventors: 黄浩智; 胥森哲; 胡事民; 劉威
Original assignee: 大陸商騰訊科技（深圳）有限公司
Priority date: 2019-02-26
Filing date: 2020-02-20
Publication date: 2020-09-01
Also published as: US11776097B2; CN109919888A; EP3933754A1; TWI725746B; WO2020173329A1; CN109919888B; EP3933754A4; JP7090971B2; JP2022502783A; US20210295483A1

Abstract

一種圖像融合的方法，包括：獲取第一待融合圖像及第二待融合圖像；分別根據第一和第二待融合圖像獲取第一和第二特徵集合，第一特徵集合包括多個第一編碼特徵，第二特徵集合包括多個第二編碼特徵；通過形狀融合網路模型對第一及第二待融合圖像進行融合處理得到第三待融合圖像，第三待融合圖像包括第一編碼特徵以及第二編碼特徵；通過條件融合網路模型對第三待融合圖像以及第一待融合圖像進行融合處理得到目標融合圖像。本申請可快速地對圖像中的局部區域進行改變，形成融合圖像，融合圖像的身份資訊與原始輸入圖像的身份資訊未發生變化。

Description

圖像融合的方法、模型訓練的方法以及相關裝置

本申請涉及人工智慧技術領域，尤其涉及一種圖像融合的方法、模型訓練的方法以及相關裝置。

人臉融合是指依託人臉識別演算法和深度學習引擎，快速精准地定位人臉關鍵點，將用戶上傳的照片與特定形象進行面部層面融合，使生成的圖片同時具備使用者與特定形象的外貌特徵。在融合人臉的同時，支持對上傳的照片進行識別，可提高活動的安全性，降低業務違規風險。

目前，人臉融合的技術主要是利用對抗神經網路生成圖像。在人臉圖像解纏繞時採用無監督學習的方法，即把人臉圖像中的特徵劃分為若干個語塊，每一個語塊單獨編碼某一方面的特徵，最後生成融合後的人臉圖像。

然而，利用對抗神經網路生成的人臉圖像不能保證該人臉圖像的身份與原始輸入的身份一致，從而降低到了人臉識別的準確度。此外，由於在編碼的過程中採用無監督方法，因此，只能保證每個語塊的獨立性，但不能確定每個語塊所表示的含義，從而不利於圖像融合的靈活性。

本發明實施例提供了一種三維人臉模型生成方法、裝置、電腦設備及儲存介質，可以解決相關技術中三維人臉模型不夠真實，並不能很好還原二維人臉圖像中人臉的細節的問題。所述技術方案如下：

本申請實施例提供了一種圖像融合的方法、模型訓練的方法以及相關裝置，可以快速地對一個圖像中的局部區域進行改變，形成融合圖像，且融合圖像的身份資訊與原始輸入圖像的身份資訊沒有發生變化。

有鑑於此，本申請第一方面提供一種圖像融合的方法，包括：

獲取第一待融合圖像以及第二待融合圖像，其中，所述第一待融合圖像包括多個第一區域，所述第二待融合圖像包括多個第二區域；

根據所述第一待融合圖像獲取第一特徵集合，且根據所述第二待融合圖像獲取第二特徵集合，其中，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應；

通過形狀融合網路模型對所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像，其中，所述第三待融合圖像包括至少一個第一編碼特徵以及至少一個第二編碼特徵；

通過條件融合網路模型對所述第三待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像。

本申請第二方面提供一種模型訓練的方法，包括：

獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合，其中，所述第一待訓練圖像包括多個第一訓練區域，所述第二待訓練圖像包括多個第二訓練區域，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應；

通過待訓練形狀融合網路模型對所述第一待訓練圖像以及所述第二待訓練圖像進行融合處理，得到第三待訓練圖像，其中，所述第三待訓練圖像包括至少一個第一編碼特徵以及至少一個第二編碼特徵；

通過待訓練條件融合網路模型對所述第三待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第四待訓練圖像；

通過所述待訓練形狀融合網路模型對所述第四待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第五待訓練圖像，其中，所述第五待訓練圖像與所述第一待訓練圖像具有對應的特徵；

通過所述待訓練條件融合網路模型對所述第五待訓練圖像以及所述第四待訓練圖像進行融合處理，得到目標圖像；

採用目標損失函數以及所述目標圖像，對所述待訓練形狀融合網路模型以及所述待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型。

本申請第三方面提供一種圖像融合裝置，包括：

獲取模組，用於獲取第一待融合圖像以及第二待融合圖像，其中，所述第一待融合圖像包括多個第一區域，所述第二待融合圖像包括多個第二區域；

所述獲取模組，還用於根據所述第一待融合圖像獲取第一特徵集合，且根據所述第二待融合圖像獲取第二特徵集合，其中，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應；

融合模組，用於通過形狀融合網路模型對所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像，其中，所述第三待融合圖像包括所述獲取模組獲取的至少一個第一編碼特徵以及至少一個第二編碼特徵；

所述融合模組，還用於通過條件融合網路模型對所述第三待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像。

在一種可能的設計中，在本申請實施例的第三方面的第一種實現方式中，

所述獲取模組，具體用於採用解纏繞編碼器對所述第一待融合圖像中的所述多個第一區域進行編碼處理，得到所述多個第一編碼特徵，其中，所述解纏繞編碼器包括多個部件編碼器，每個部件編碼器用於對一個第一區域進行編碼；

採用所述解纏繞編碼器對所述第二待融合圖像中的所述多個第二區域進行編碼處理，得到所述多個第二編碼特徵，其中，所述解纏繞編碼器包括所述多個部件編碼器，每個部件編碼器用於對一個第二區域進行編碼。

在一種可能的設計中，在本申請實施例的第三方面的第二種實現方式中，所述圖像融合裝置還包括確定模組；

所述確定模組，用於在所述融合模組通過形狀融合網路模型對所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像之前，從所述第一待融合圖像中確定待替換區域，其中，所述待替換區域屬於所述多個第一區域中的一個區域；

所述獲取模組，還用於根據所述待替換區域獲取所述第一待融合圖像中的第一待替換編碼特徵，並根據所述待替換區域獲取所述第二待融合圖像中的第二待替換編碼特徵，其中，所述第一待替換編碼特徵屬於所述多個第一編碼特徵中的一個編碼特徵，所述第二待替換編碼特徵屬於所述多個第二編碼特徵中的一個編碼特徵。

在一種可能的設計中，在本申請實施例的第三方面的第三種實現方式中，

所述融合模組，具體用於通過所述形狀融合網路模型，將所述第一待融合圖像中的所述第一待替換編碼特徵替換為所述第二待融合圖像中的所述第二待替換編碼特徵，得到待解碼圖像；

通過所述形狀融合網路模型，對所述待解碼圖像進行解碼處理，得到所述第三待融合圖像。

在一種可能的設計中，在本申請實施例的第三方面的第四種實現方式中，所述圖像融合裝置還包括接收模組、調整模組以及處理模組；

所述接收模組，用於在所述融合模組通過形狀融合網路模型對所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像之後，通過所述第三待融合圖像接收區域調整指令，其中，所述區域調整指令用於調整圖像中至少一個區域的形狀；

所述調整模組，用於回應於所述接收模組接收的所述區域調整指令，對所述待替換區域進行調整，得到所述待替換區域所對應的目標替換區域；

所述處理模組，用於根據所述調整模組調整得到的所述目標替換區域對所述第三待融合圖像進行處理，得到第四待融合圖像；

所述融合模組，具體用於通過條件融合網路模型對所述第四待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像。

在一種可能的設計中，在本申請實施例的第三方面的第五種實現方式中，

所述融合模組，具體用於對所述第三待融合圖像以及所述第一待融合圖像進行拼接處理，得到多通道特徵圖像，其中，所述多通道特徵圖像用於將至少兩個圖像的色彩特徵進行拼接；

通過所述條件融合網路模型獲取所述多通道特徵圖像所對應的所述目標融合圖像。

本申請第四方面提供一種模型訓練裝置，包括：

獲取模組，用於獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合，其中，所述第一待訓練圖像包括多個第一訓練區域，所述第二待訓練圖像包括多個第二訓練區域，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應；

融合模組，用於通過待訓練形狀融合網路模型對所述獲取模組獲取的所述第一待訓練圖像以及所述第二待訓練圖像進行融合處理，得到第三待訓練圖像，其中，所述第三待訓練圖像包括所述獲取模組獲取的至少一個第一編碼特徵以及至少一個第二編碼特徵；

所述融合模組，還用於通過待訓練條件融合網路模型對所述第三待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第四待訓練圖像；

所述融合模組，還用於通過所述待訓練形狀融合網路模型對所述第四待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第五待訓練圖像，其中，所述第五待訓練圖像與所述第一待訓練圖像具有對應的特徵；

所述融合模組，還用於通過所述待訓練條件融合網路模型對所述第五待訓練圖像以及所述第四待訓練圖像進行融合處理，得到目標圖像；

訓練模組，用於採用目標損失函數以及所述融合模組融合得到的所述目標圖像，對所述待訓練形狀融合網路模型以及所述待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型。

在一種可能的設計中，在本申請實施例的第四方面的第一種實現方式中，所述模型訓練裝置還包括編碼模組以及解碼模組；

所述獲取模組，還用於獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合之前，獲取待訓練目標圖像集合，其中，所述待訓練目標圖像集合包括至少一個待訓練目標圖像，每個待訓練目標圖像包括至少一個區域；

所述編碼模組，用於通過待訓練解纏繞編碼器對所述獲取模組獲取的所述待訓練目標圖像集合中待訓練目標圖像的各個區域進行編碼處理，得到編碼結果，其中，所述待訓練解纏繞編碼器包括多個待訓練部件編碼器，每個待訓練部件編碼器用於對一個區域進行編碼；

所述解碼模組，用於通過待訓練解纏繞解碼器對所述編碼模組編碼的所述編碼結果進行解碼處理，得到解碼結果，其中，所述待訓練解纏繞解碼器包括多個待訓練部件解碼器，每個待訓練部件解碼器用於對一個區域進行解碼；

所述訓練模組，還用於採用損失函數以及所述解碼模組解碼得到的解碼結果對所述待訓練解纏繞編碼器進行訓練，得到解纏繞編碼器，其中，所述解纏繞編碼器包括多個部件編碼器；

所述獲取模組，具體用於獲取第一待訓練圖像以及第二待訓練圖像；

採用所述解纏繞編碼器對所述第一待訓練圖像中的所述多個第一區域進行編碼處理，得到所述多個第一編碼特徵，其中，每個部件編碼器用於對一個第一區域進行編碼；

採用所述解纏繞編碼器對所述第二待訓練圖像中的所述多個第二區域進行編碼處理，得到所述多個第二編碼特徵，其中，每個部件編碼器用於對一個第二區域進行編碼。

在一種可能的設計中，在本申請實施例的第四方面的第二種實現方式中，所述模型訓練裝置還包括確定模組；

所述確定模組，用於所述訓練模組採用目標損失函數以及所述目標圖像，對所述待訓練形狀融合網路模型以及所述待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型之前，根據所述第五待訓練圖像以及真實圖像，確定第一損失函數；

所述確定模組，還用於根據所述目標圖像以及所述第一待訓練圖像，確定第二損失函數；

所述確定模組，還用於根據所述第一待訓練圖像、所述第二待訓練圖像、所述第四待訓練圖像以及所述目標圖像，確定第三損失函數；

所述確定模組，還用於根據所述第一損失函數、所述第二損失函數以及所述第三損失函數，確定所述目標損失函數。

在一種可能的設計中，在本申請實施例的第四方面的第三種實現方式中，

所述確定模組，具體用於採用如下方式計算所述第一損失函數：

；

其中，所述

表示所述第一損失函數，所述

表示期望值計算，所述

表示所述第五待訓練圖像，所述

表示所述真實圖像，所述

表示損失比重調節係數，所述

表示預訓練網路模型輸出的特徵；

採用如下方式計算所述第二損失函數：

；

其中，所述

表示所述第二損失函數，所述

表示所述目標圖像，所述

表示所述第一待訓練圖像；

採用如下方式計算所述第三損失函數：

；

其中，所述

表示所述第三損失函數，所述

表示判別網路，所述

表示所述第二待訓練圖像，所述

表示所述第四待訓練圖像，所述

表示所述目標圖像；

採用如下方式計算所述目標損失函數：

；

其中，所述

表示所述目標損失函數。

本申請第五方面提供一種終端設備，包括：記憶體、收發器、處理器以及匯流排系統；

其中，所述記憶體用於存儲程式；

所述處理器用於執行所述記憶體中的程式，包括如下步驟：

通過條件融合網路模型對所述第三待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像；

所述匯流排系統用於連接所述記憶體以及所述處理器，以使所述記憶體以及所述處理器進行通信。

本申請第六方面提供一種伺服器，包括：記憶體、收發器、處理器以及匯流排系統；

其中，所述記憶體用於存儲程式；

所述處理器用於執行所述記憶體中的程式，包括如下步驟：

採用目標損失函數以及所述目標圖像，對所述待訓練形狀融合網路模型以及所述待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型；

本申請的第七方面提供了一種電腦可讀存儲介質，所述電腦可讀存儲介質中存儲有指令，當其在電腦上運行時，使得電腦執行上述各方面所述的方法。

從以上技術方案可以看出，本申請實施例具有以下優點：

本申請實施例中，提供了一種圖像融合的方法，首先，獲取第一待融合圖像以及第二待融合圖像，其中，第一待融合圖像包括多個第一區域，第二待融合圖像包括多個第二區域，然後根據第一待融合圖像獲取第一特徵集合，且根據第二待融合圖像獲取第二特徵集合，其中，第一特徵集合包括多個第一編碼特徵，且第一編碼特徵與第一區域一一對應，第二特徵集合包括多個第二編碼特徵，且第二編碼特徵與第二區域一一對應，再通過形狀融合網路模型對第一待融合圖像以及第二待融合圖像進行融合處理，得到第三待融合圖像，其中，第三待融合圖像包括至少一個第一編碼特徵以及至少一個第二編碼特徵，最後可以通過條件融合網路模型對第三待融合圖像以及第一待融合圖像進行融合處理，得到目標融合圖像。通過上述方式，提取圖像中各個局部區域的相應特徵，由此可以快速地對一個圖像中的局部區域進行改變，也就是將該局部區域替換為另一個圖像中相應的局部區域，從而形成融合圖像。此外，融合圖像除被編輯的局部區域以外，其餘區域與原始輸入圖像保持一致，使使用者感到融合圖像的身份資訊與原始輸入圖像的身份資訊沒有發生變化。

為使本發明的目的、技術方案和優點更加清楚，下面將結合附圖對本發明實施方式作進一步地詳細描述。

本申請的說明書和請求項書及上述附圖中的術語“第一”、“第二”、“第三”、“第四”等（如果存在）是用於區別類似的物件，而不必用於描述特定的順序或先後次序。應該理解這樣使用的資料在適當情況下可以互換，以便這裡描述的本申請的實施例例如能夠以除了在這裡圖示或描述的那些以外的順序實施。此外，術語“包括”和“對應於”以及他們的任何變形，意圖在於覆蓋不排他的包含，例如，包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元，而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。

應理解，本申請可以應用于圖像合成場景，具體可以是人臉合成場景，即電腦合成虛擬的模擬人臉圖像，人臉圖像的虛擬合成是新一代人機交互中的重要技術，也是當前國內外非常活躍的研究方向，在電腦圖形學和電腦視覺方面都將會得到廣泛的關注和應用。其潛在的應用領域包括窄帶視頻傳輸、電腦輔助教學、電影特效製作、全球音樂電視臺（music television，MTV）特效製作、遊戲製作、虛擬實境、人工智慧和機器人等等。在人臉圖像合成技術方面，不同的應用領域，不用的研究人員提出的方法區別很大。人臉虛擬合成技術將成為人機交互（human computer interaction）領域中重要的組成部分。人機交互技術發展的最終目標：一是使電腦越來越智慧化，易於使用；二是機器人的智慧感知。

為了便於理解，本申請提出了一種圖像融合的方法，該方法應用於圖1所示的圖像融合系統，請參閱圖1，圖1為本申請實施例中圖像融合系統的一個架構示意圖，如圖所示，首先，用戶端拍攝圖像，比如使用者A的人臉圖像以及使用者B的人臉圖像，輸入其中一張圖像，比如輸入使用者A的人臉圖像，用戶端既可以在本地對使用者A的人臉圖像進行處理，也可以將使用者A的人臉圖像發送至伺服器，由伺服器對使用者A的人臉圖像進行處理。處理方式主要是先對使用者A的人臉圖像進行編碼，分別使用不同的部件編碼器（part-wise encoder）編碼不同的部位形狀，比如眼睛、鼻子、嘴巴、眉毛、臉型、頭髮以及身體，比如對於頭髮的part-wise encoder會輸出一個1*1*128的一維特徵向量。通過形狀融合網路模型將使用者A的人臉圖像中某一部位的特徵向量用使用者B的人臉圖像所對應特徵向量進行替換，之後把全部的特徵向量組合成為一個全體特徵向量，通過全域解碼器將這個全體特徵向量解碼成一張融合人臉。接下來通過條件融合網路模型將編輯後的融合人臉轉化成一張生成的虛擬人臉圖像，條件融合網路模型同樣也將原始輸入圖像作為條件輸入。本申請生成的虛擬人臉圖像不丟失輸入人臉圖片的身份資訊，但卻修改了輸入人臉圖片某一部位的形狀。

需要說明的是，用戶端部署於終端設備上，其中，終端設備包含但不僅限於平板電腦、筆記型電腦、掌上型電腦、手機、語音交互設備及個人電腦（personal computer，PC），此處不做限定。其中，語音交互設備包含但不僅限於智慧音響以及智慧家電。

下面將結合圖2介紹圖像融合系統，請參閱圖2，圖2為本申請實施例中圖像融合系統的一個整體框架流程示意圖，如圖所示，通過交換不同人臉的特徵編碼，可以生成不同部位形狀分別來自兩張人臉的合成人臉圖片。假設需要將原始圖像A的頭髮特徵替換為原始圖像B的頭髮特徵，首先通過形狀融合網路模型將原始圖像A的頭髮特徵替換為原始圖像B的頭髮特徵，然後通過條件融合網路模型生成具有指定髮型的用戶A的人臉，即得到融合圖像B。本申請可以控制生成具有用戶B的髮型的用戶A的人臉。此外，本方法也支援生成直接指定特定部位形狀的人臉圖像，例如使用者可以直接指定人臉圖像A的髮型（比如通過繪製範圍），生成具有用戶指定髮型的用戶A的人臉。

結合上述介紹，下面將對本申請中圖像融合的方法進行介紹，請參閱圖3，本申請實施例中圖像融合的方法一個實施例包括：

101、獲取第一待融合圖像以及第二待融合圖像，其中，第一待融合圖像包括多個第一區域，第二待融合圖像包括多個第二區域；

本實施例中，圖像融合裝置獲取第一待融合圖像以及第二待融合圖像，其中，第一待融合圖像和第二待融合圖像通常是同一個類型的圖像，比如兩者均為人臉圖像，或者兩則均為動物圖像，或者兩者均為風景圖像，又或者是一個為人臉圖像，另一個為動物圖像。本實施例中將以兩者均為人臉圖像為例進行介紹，然而，這並不應理解為對本申請的限定。

其中，第一待融合圖像以及第二待融合圖像均包括多個區域，具體地，第一待融合圖像與第二待融合圖像具有相似區域，比如，第一待融合圖像包括多個第一區域，第一區域包括眼睛、鼻子、嘴巴、眉毛、臉型、頭髮以及身體等。第二待融合圖像包括多個第二區域，第二區域包括眼睛、鼻子、嘴巴、眉毛、臉型、頭髮以及身體等。

102、根據第一待融合圖像獲取第一特徵集合，且根據第二待融合圖像獲取第二特徵集合，其中，第一特徵集合包括多個第一編碼特徵，且第一編碼特徵與第一區域一一對應，第二特徵集合包括多個第二編碼特徵，且第二編碼特徵與第二區域一一對應；

本實施例中，圖像融合裝置需要分別對第一待融合圖像以及第二待融合圖像進行特徵提取，即對第一待融合圖像中每個第一區域提取相應的特徵，得到第一編碼特徵，比如，針對第一待融合圖像的眼睛部分可提取眼睛部分的第一編碼特徵，針對第一待融合圖像的頭髮部分可提取頭髮部分的第一編碼特徵，以此類推，最終得到包括多個第一編碼特徵的第一特徵集合。針對第二待融合圖像的眼睛部分可提取眼睛部分的第二編碼特徵，針對第二待融合圖像的頭髮部分可提取頭髮部分的第二編碼特徵，以此類推，最終得到包括多個第二編碼特徵的第二特徵集合。

103、通過形狀融合網路模型對第一待融合圖像以及第二待融合圖像進行融合處理，得到第三待融合圖像，其中，第三待融合圖像包括至少一個第一編碼特徵以及至少一個第二編碼特徵；

本實施例中，圖像融合裝置將第一待融合圖像以及第二待融合圖像輸入至形狀融合網路模型，由該形狀融合網路模型輸出第三待融合圖像，這裡的第三待融合圖像中同時包括第一待融合圖像中的第一編碼特徵以及第二待融合圖像中的第二編碼特徵。

104、通過條件融合網路模型對第三待融合圖像以及第一待融合圖像進行融合處理，得到目標融合圖像。

本實施例中，圖像融合裝置將第三待融合圖像以及第一待融合圖像輸入至條件融合網路模型，由該條件融合網路模型輸出目標融合圖像。其中，目標融合圖像與原始輸入的第一待融合圖像屬於相同身份，即生成的虛擬影像中除了被編輯部位外，其餘部位與原始輸入人臉圖像保持一致，使使用者感到生成虛擬人臉圖像的身份資訊與原始輸入的人臉圖像的身份資訊沒有發生變化。

可選地，在上述圖3對應的實施例的基礎上，本申請實施例提供的圖像融合的方法第一個可選實施例中，根據第一待融合圖像獲取第一特徵集合，可以包括：

採用解纏繞編碼器對第一待融合圖像中的多個第一區域進行編碼處理，得到多個第一編碼特徵，其中，解纏繞編碼器包括多個部件編碼器，每個部件編碼器用於對一個第一區域進行編碼；

根據第二待融合圖像獲取第二特徵集合，包括：

採用解纏繞編碼器對第二待融合圖像中的多個第二區域進行編碼處理，得到多個第二編碼特徵，其中，解纏繞編碼器包括多個部件編碼器，每個部件編碼器用於對一個第二區域進行編碼。

本實施例中，將介紹圖像融合裝置獲取第一特徵集合以及第二特徵集合的方法。在圖像融合裝置獲取到第一待融合圖像以及第二待融合圖像之後，將該第一待融合圖像以及第二待融合圖像分別輸入至解纏繞編碼器（disentangling encoder），其中，disentangling encoder由若干個部件編碼器（part-wise encoder）構成，通過各個part-wise encoder對圖像中的各個區域進行編碼，即得到解纏繞後的面部形狀。

具體地，為了便於理解，請參閱圖4，圖4為本申請實施例中通過解纏繞編碼器對圖像進行編碼的一個實施例示意圖，如圖所示，將原始圖像輸入至disentangling encoder，其中，該原始圖像可以是人臉圖像。disentangling encoder包括多個part-wise encoder，每個part-wise encoder負責對人臉圖像中的一個區域進行獨立編碼。比如，採用1號part-wise encoder對人臉圖像中的眼睛部位進行編碼，得到1號編碼結果。採用2號part-wise encoder對人臉圖像中的鼻子部位進行編碼，得到2號編碼結果。採用3號part-wise encoder對人臉圖像中的嘴巴部位進行編碼，得到3號編碼結果。採用4號part-wise encoder對人臉圖像中的眉毛部位進行編碼，得到4號編碼結果。採用5號part-wise encoder對人臉圖像中的臉部輪廓進行編碼，得到5號編碼結果。採用6號part-wise encoder對人臉圖像中的頭髮部位進行編碼，得到6號編碼結果。採用7號part-wise encoder對人臉圖像中的身體部位進行編碼，得到7號編碼結果。其中，1號至7號編碼結果拼接在一起後即為面部形狀基因（face shape gene），即形成第一特徵集合以及第二特徵集合。

可以理解的是，對第一待融合圖像編碼後得到第一特徵集合，對第二待融合圖像編碼後得到第二特徵集合，其中，第一特徵集合中的每個第一編碼特徵與第二特徵集合中的每個第二編碼特徵具有相同維度的特徵向量，比如可以是1*1*128的特徵向量。

其次，本申請實施例中，提供了一種圖像編碼方式，即圖像融合裝置採用解纏繞編碼器對第一待融合圖像中的多個第一區域進行編碼處理，得到多個第一編碼特徵，並且採用解纏繞編碼器對第二待融合圖像中的多個第二區域進行編碼處理，得到多個第二編碼特徵，解纏繞編碼器包括多個部件編碼器，每個部件編碼器用於對一個第二區域進行編碼。通過上述方式，採用部件編碼器對圖像中不同的區域進行編碼處理，能夠有效地保證圖像編碼的一致性，從而便於進行後續的預測處理。

可選地，在上述圖3對應的實施例的基礎上，本申請實施例提供的圖像融合的方法第二個可選實施例中，通過形狀融合網路模型對第一待融合圖像以及第二待融合圖像進行融合處理，得到第三待融合圖像之前，還可以包括：

從第一待融合圖像中確定待替換區域，其中，待替換區域屬於多個第一區域中的一個區域；

根據待替換區域獲取第一待融合圖像中的第一待替換編碼特徵，並根據待替換區域獲取第二待融合圖像中的第二待替換編碼特徵，其中，第一待替換編碼特徵屬於多個第一編碼特徵中的一個編碼特徵，第二待替換編碼特徵屬於多個第二編碼特徵中的一個編碼特徵。

本實施例中，將介紹圖像融合裝置在進行圖像融合處理之前需要進行的操作。首先，圖像融合裝置需要從第一待融合圖像中確定待替換區域，以人臉圖像為例，待替換的區域可以為頭髮區域，需要說明的是，待替換區域屬於第一待融合圖像中多個第一區域中的其中一個區域。相應地，在第二待融合圖像中也有對應的待替換區域，以人臉圖像為例，該待替換區域也為頭髮區域。然後，圖像融合裝置會根據待替換區域獲取第一待融合圖像中的第一待替換編碼特徵，並根據待替換區域獲取第二待融合圖像中的第二待替換編碼特徵。例如，可以在第一特徵集合中的face shape gene中確定頭髮區域所對應的編碼特徵，該頭髮區域所對應的編碼特徵為第一待替換編碼特徵，在第二特徵集合中的face shape gene中確定頭髮區域所對應的編碼特徵，該頭髮區域所對應的編碼特徵為第二待替換編碼特徵。

其次，本申請實施例中，介紹了一種圖像融合之前的處理方式。即圖像融合裝置獲取第三待融合圖像之前，需要先從第一待融合圖像中確定待替換區域，其中，待替換區域屬於多個第一區域中的一個區域，然後根據待替換區域獲取第一待融合圖像中的第一待替換編碼特徵，並根據待替換區域獲取第二待融合圖像中的第二待替換編碼特徵。通過上述方式，能夠根據需求將待替換的區域確定出來，隨後將兩個圖像中同一個區域的不同編碼特徵進行替換，從而快速生成融合圖像，以便進行後續處理。

可選地，在上述圖3對應的第二個實施例的基礎上，本申請實施例提供的圖像融合的方法第三個可選實施例中，通過形狀融合網路模型對第一待融合圖像以及第二待融合圖像進行融合處理，得到第三待融合圖像，可以包括：

通過形狀融合網路模型，將第一待融合圖像中的第一待替換編碼特徵替換為第二待融合圖像中的第二待替換編碼特徵，得到待解碼圖像；

通過形狀融合網路模型，對待解碼圖像進行解碼處理，得到第三待融合圖像。

本實施例中，將介紹圖像融合裝置通過形狀融合網路模型得到第三待融合圖像的方式。首先，圖像融合裝置需要通過形狀融合網路模型，將第一待融合圖像中的第一待替換編碼特徵替換為第二待融合圖像中的第二待替換編碼特徵，得到待解碼圖像，然後採用全域解碼器（overall decoder）對待解碼圖像進行解碼處理，得到第三待融合圖像。

為了便於理解，請參閱圖5，圖5為本申請實施例中通過形狀融合網路模型對圖像進行融合的一個實施例示意圖，如圖所示，假設第一待融合圖像為原始圖像A，第二待融合圖像為原始圖像B，分別將原始圖像A和原始圖像B輸入至disentangling encoder，由disentangling encoder輸出原始圖像A對應的第一特徵集合，第一特徵集合包括編碼特徵A，編碼特徵A具體表示為A1、A2、A3、A4、A5、A6以及A7。類似地，由disentangling encoder輸出原始圖像B對應的第二特徵集合，第二特徵集合包括編碼特徵B，編碼特徵B具體表示為B1、B2、B3、B4、B5、B6以及B7。假設待替換區域為頭髮區域，那麼對於第一特徵集合而言，第一待替換編碼特徵即為頭髮區域所對應的特徵A6，相應地，對於第二特徵集合而言，第二待替換編碼特徵即為頭髮區域所對應的特徵B6。接下來，需要將特徵B6替換掉第一特徵集合中的A6，進而形成新的特徵集合，該特徵集合包括編碼特徵C，編碼特徵C具體為A1、A2、A3、A4、A5、B6以及A7。最後，由形狀融合網路模型中的overall decoder對編碼特徵C進行解碼處理，形成融合圖像A，即得到第三待融合圖像。

由上述介紹可以看出，假設要將受體圖像（receptor）的髮型替換為供體圖像（donor）的髮型，形狀融合網路模型就可以把receptor的face shape gene對應的髮型區域的特徵替換為donor的face shape gene對應的髮型區域，得到修改後的混合face shape gene，最後通過overall decoder將混合face shape gene解碼成編輯後的人臉圖像。

overall decoder的具體結構可以表示為：

u5-512，u5-256，R256，R256，R256，R256，R256，u5-128，u5-64，c7s1-3

其中，u5-512表示一個包含512個5×5的卷積核，步長為1/2的反卷積規範化啟動層（fractional-strided convolution instance norm-ReLU layer）。u5-256表示一個包含256個5×5的卷積核，步長為1/2的fractional-strided convolution instance norm-ReLU layer。R256表示一個包含兩個3×3卷積層，且每個卷積層有256個卷積核的殘差塊（residual block）的fractional-strided convolution instance norm-ReLU layer。u5-128表示一個包含128個5×5的卷積核，步長為1/2的fractional-strided convolution instance norm-ReLU layer。u5-64表示一個包含64個5×5的卷積核，步長為1/2的fractional-strided convolution instance norm-ReLU layer。c7s1-3表示一個包含3個7×7的卷積核，且步長為1的卷積規範化啟動層（convolution-instance norm ReLU layer）。

需要說明的是，overall decoder的具體結構還可以有其他的表示方式，上述僅為一個示意，並不應理解為對本申請的限定。

再次，本申請實施例中，介紹了一種生成第三待融合圖像的具體方式。首先，圖像融合裝置會通過形狀融合網路模型，將第一待融合圖像中的第一待替換編碼特徵替換為第二待融合圖像中的第二待替換編碼特徵，得到待解碼圖像，然後繼續通過形狀融合網路模型，對待解碼圖像進行解碼處理，得到第三待融合圖像。通過上述方式，利用形狀融合網路模型能夠快速將兩個圖像進行融合，並且可以有效地提升圖像融合效率，同時對於原始輸入的人臉圖像，所生成的虛擬人臉中除被編輯部位外其餘部位與原始輸入的人臉圖像保持一致，使使用者感到生成虛擬人臉的身份資訊與原始輸入人臉的身份資訊沒有發生變化，從而實現保身份的操作。

可選地，在上述圖3對應的第二個或第三個實施例的基礎上，本申請實施例提供的圖像融合的方法第四個可選實施例中，通過形狀融合網路模型對第一待融合圖像以及第二待融合圖像進行融合處理，得到第三待融合圖像之後，還可以包括：

通過第三待融合圖像接收區域調整指令，其中，區域調整指令用於調整圖像中至少一個區域的形狀；

回應於區域調整指令，對待替換區域進行調整，得到待替換區域所對應的目標替換區域；

根據目標替換區域對第三待融合圖像進行處理，得到第四待融合圖像；

通過條件融合網路模型對第三待融合圖像以及第一待融合圖像進行融合處理，得到目標融合圖像，可以包括：

通過條件融合網路模型對第四待融合圖像以及第一待融合圖像進行融合處理，得到目標融合圖像。

本實施例中，將介紹一種調整待替換區域以生成融合圖像的方法。首先，在圖像融合裝置生成第三待融合圖像之後，可以將該第三待融合圖像展示在終端設備的顯示介面上，使用者通過觸摸操作觸發區域調整指令，即通過區域調整指令可以調整第三待融合圖像中的區域形狀和大小，圖像融合裝置根據使用者觸發的區域調整指令對待替換區域進行調整，得到調整後的目標替換區域，然後根據目標替換區域對第三待融合圖像進行處理，得到第四待融合圖像，最後圖像融合裝置通過條件融合網路模型對第四待融合圖像以及第一待融合圖像進行融合處理，得到目標融合圖像。

為了便於理解，請參閱圖6，圖6為本申請實施例中手繪形狀的一個實施例示意圖，如圖所示，當終端設備的顯示介面上顯示第三待融合圖像時，使用者可以直接通過在介面上拖動某個區域來調整該區域的形狀和大小，比如，使用者可以按住頭髮區域網外拖動，形成調整後的頭像區域，即得到目標替換區域。這個過程中，使用者可以按照需求任意編輯區域形狀來生成虛擬人臉圖像。在實際應用中，用戶還可以對多個不同的區域進行編輯，以此提政虛擬人臉圖像。

進一步地，本申請實施例中，提供了一種使用者調整第三待融合圖像的方法，即圖像融合裝置得到第三待融合圖像之後，通過第三待融合圖像接收區域調整指令，回應於區域調整指令，對待替換區域進行調整，得到待替換區域所對應的目標替換區域，然後根據目標替換區域對第三待融合圖像進行處理，得到第四待融合圖像，最後通過條件融合網路模型對第四待融合圖像以及第一待融合圖像進行融合處理，得到目標融合圖像。通過上述方式，使用者還可以根據需求調整待替換區域的形狀和大小，實現使用者指定編輯區域的方式，並且可以手繪該區域形狀以生成新的圖像，從而提升方案的靈活性和實用性。

可選地，在上述圖3以及圖3對應的第一個至第四個實施例中任一項的基礎上，本申請實施例提供的圖像融合的方法第五個可選實施例中，通過條件融合網路模型對第三待融合圖像以及第一待融合圖像進行融合處理，得到目標融合圖像，可以包括：

對第三待融合圖像以及第一待融合圖像進行拼接處理，得到多通道特徵圖像，其中，多通道特徵圖像用於將至少兩個圖像的色彩特徵進行拼接；

通過條件融合網路模型獲取多通道特徵圖像所對應的目標融合圖像。

本實施例中，介紹了一種通過條件融合網路模型獲取目標融合圖像的方法。首先，即圖像融合裝置對第三待融合圖像以及第一待融合圖像進行拼接處理，得到多通道特徵圖像，比如第一待融合圖像包括三個通道，具體為紅色（red，R）通道、綠色（green，G）通道以及藍色（blue，B）通道，第三待融合圖像也包括三個通道，具體為R通道、G通道以及B通道，將第一待融合圖像的三個通道與第三待融合圖像的三個通道進行拼接，得到包括六個通道的多通道特徵圖像，最後將多通道特徵圖像輸入至條件融合網路模型，由該條件融合網路模型獲輸出相應的目標融合圖像。

具體地，條件融合網路模型可以把編輯後的第三待融合圖像轉化為逼真的目標融合圖像，同時保證生成的目標融合圖像與第一待融合圖像的身份保持不變。條件融合網路模型以編輯後的第三待融合圖像為輸入，並以第一待融合圖像為條件輸入，第一待融合圖像和第三待融合圖像拼接為多通道特徵圖像，然後將多通道特徵圖像送入至條件融合網路模型。在實際應用中，第一待融合圖像可以利用部件解碼器（part-wise decoder）得到去除待替換區域的圖像。如果第三待融合圖像是使用者手動調整過的圖像，則該第三待融合圖像即為第四待融合圖像，也就是說，可以對第四待融合圖像以及第一待融合圖像進行拼接處理，得到多通道特徵圖像。

條件融合網路模型的具體結構可以表示為：

c7s1-64，c3s2-128，c3s2-256，c3s2-512，c3s2-1024，R1024，R1024，R1024，R1024，R1024，R1024，R1024，R1024，R1024，u3-512，u3-256，u3-128，u3-64，c7s1-3

其中，c7s1-64表示一個包含64個7×7的卷積核，且步長為1的convolution-instance norm ReLU layer。c3s2-128表示一個包含128個3×3的卷積核，且步長為2的convolution-instance norm ReLU layer。c3s2-256表示一個包含256個3×3的卷積核，且步長為2的convolution-instance norm ReLU layer。c3s2-512表示一個包含512個3×3的卷積核，且步長為2的convolution-instance norm ReLU layer。c3s2-1024表示一個包含1024個3×3的卷積核，且步長為2的convolution-instance norm ReLU layer。R1024表示一個包含兩個3×3卷積層，且每個卷積層有1024個卷積核的residual block的fractional-strided convolution instance norm-ReLU layer。u3-512表示一個包含512個3×3的卷積核，步長為1/2的fractional-strided convolution instance norm-ReLU layer。u3-256表示一個包含256個3×3的卷積核，步長為1/2的fractional-strided convolution instance norm-ReLU layer。u3-128表示一個包含128個3×3的卷積核，步長為1/2的fractional-strided convolution instance norm-ReLU layer。u3-64表示一個包含64個3×3的卷積核，步長為1/2的fractional-strided convolution instance norm-ReLU layer。c7s1-3表示一個包含3個7×7的卷積核，且步長為1的convolution-instance norm ReLU layer。

需要說明的是，條件融合網路模型的具體結構還可以有其他的表示方式，上述僅為一個示意，並不應理解為對本申請的限定。

更進一步地，本申請實施例中，提供了一種獲取目標融合圖像的方式，即圖像融合裝置先對第三待融合圖像以及第一待融合圖像進行拼接處理，得到多通道特徵圖像，其中，多通道特徵圖像用於將至少兩個圖像的色彩特徵進行拼接，然後通過條件融合網路模型獲取多通道特徵圖像所對應的目標融合圖像。通過上述方式，利用條件融合網路模型能夠準確地拼接兩個圖像，從而實現圖像的融合，由此提升方案的可行性和可操作性。

結合上述介紹，下面將對本申請中模型訓練的方法進行介紹，請參閱圖7，本申請實施例中模型訓練的方法一個實施例包括：

201、獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合，其中，第一待訓練圖像包括多個第一訓練區域，第二待訓練圖像包括多個第二訓練區域，第一特徵集合包括多個第一編碼特徵，且第一編碼特徵與第一區域一一對應，第二特徵集合包括多個第二編碼特徵，且第二編碼特徵與第二區域一一對應；

本實施例中，模型訓練裝置獲取第一待訓練圖像以及第二待訓練圖像，其中，第一待訓練圖像和第二待訓練圖像通常是同一個類型的圖像，比如兩者均為人臉圖像，或者兩則均為動物圖像，或者兩者均為風景圖像，又或者是一個為人臉圖像，另一個為動物圖像。本實施例中將以兩者均為人臉圖像為例進行介紹，然而，這並不應理解為對本申請的限定。

其中，第一待訓練圖像以及第二待訓練圖像均包括多個區域，具體地，第一待訓練圖像與第二待訓練圖像具有相似區域，比如，第一待訓練圖像包括多個第一區域，第一區域包括眼睛、鼻子、嘴巴、眉毛、臉型、頭髮以及身體等。第二待訓練圖像包括多個第二區域，第二區域包括眼睛、鼻子、嘴巴、眉毛、臉型、頭髮以及身體等。

模型訓練裝置需要分別對第一待訓練圖像以及第二待訓練圖像進行特徵提取，即對第一待訓練圖像中每個第一區域提取相應的特徵，得到第一編碼特徵，比如，針對第一待訓練圖像的眼睛部分可提取眼睛部分的第一編碼特徵，針對第一待訓練圖像的頭髮部分可提取頭髮部分的第一編碼特徵，以此類推，最終得到包括多個第一編碼特徵的第一特徵集合。針對第二待訓練圖像的眼睛部分可提取眼睛部分的第二編碼特徵，針對第二待訓練圖像的頭髮部分可提取頭髮部分的第二編碼特徵，以此類推，最終得到包括多個第二編碼特徵的第二特徵集合。

202、通過待訓練形狀融合網路模型對第一待訓練圖像以及第二待訓練圖像進行融合處理，得到第三待訓練圖像，其中，第三待訓練圖像包括至少一個第一編碼特徵以及至少一個第二編碼特徵；

本實施例中，模型訓練裝置將第一待訓練圖像以及第二待訓練圖像輸入至待訓練形狀融合網路模型，由該待訓練形狀融合網路模型輸出第三待訓練圖像，這裡的第三待訓練圖像中同時包括第一待訓練圖像中的第一編碼特徵以及第二待訓練圖像中的第二編碼特徵。

203、通過待訓練條件融合網路模型對第三待訓練圖像以及第一待訓練圖像進行融合處理，得到第四待訓練圖像；

本實施例中，模型訓練裝置將第三待訓練圖像以及第一待訓練圖像輸入至待訓練條件融合網路模型，由該待訓練條件融合網路模型輸出第四待訓練圖像。其中，第四待訓練圖像與原始輸入的第一待訓練圖像屬於相同身份，即生成的虛擬影像中除了被編輯部位外，其餘部位與原始輸入人臉圖像保持一致，使使用者感到生成虛擬人臉圖像的身份資訊與原始輸入的人臉圖像的身份資訊沒有發生變化。

204、通過待訓練形狀融合網路模型對第四待訓練圖像以及第一待訓練圖像進行融合處理，得到第五待訓練圖像，其中，第五待訓練圖像與第一待訓練圖像具有對應的特徵；

本實施例中，模型訓練裝置將第四待訓練圖像以及第一待訓練圖像輸入至待訓練形狀融合網路模型對，由該待訓練形狀融合網路模型輸出第五待訓練圖像。其中，第五待訓練圖像與原始輸入的第一待訓練圖像屬於相同身份，即生成的虛擬影像中除了被編輯部位外，其餘部位與原始輸入人臉圖像保持一致，使使用者感到生成虛擬人臉圖像的身份資訊與原始輸入的人臉圖像的身份資訊沒有發生變化。

205、通過待訓練條件融合網路模型對第五待訓練圖像以及第四待訓練圖像進行融合處理，得到目標圖像；

本實施例中，模型訓練裝置將第五待訓練圖像以及第四待訓練圖像輸入至待訓練條件融合網路模型，由該待訓練條件融合網路模型輸出目標圖像。其中，目標圖像與原始輸入的第一待訓練圖像屬於相同身份，即生成的虛擬影像中除了被編輯部位外，其餘部位與原始輸入人臉圖像保持一致，使使用者感到生成虛擬人臉圖像的身份資訊與原始輸入的人臉圖像的身份資訊沒有發生變化。

206、採用目標損失函數以及目標圖像，對待訓練形狀融合網路模型以及待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型。

本實施例中，模型訓練裝置採用目標損失函數、第一待訓練圖像、第二待訓練圖像、第三待訓練圖像、第四待訓練圖像、第五待訓練圖像以及目標圖像，對待訓練形狀融合網路模型以及待訓練條件融合網路模型進行訓練，從而得到形狀融合網路模型以及條件融合網路模型。

為了便於理解，請參閱圖8，圖8為本申請實施例中對條件融合網路模型進行訓練的一個實施例示意圖，如圖所示，待訓練形狀融合網路模型以receptor為原始圖像A（即第一待訓練圖像）和donor為原始圖像B（即第二待訓練圖像）作為輸入，生成編輯後的融合圖像A（即第三待訓練圖像）。待訓練條件融合網路模型以融合圖像A為輸入，以原始圖像A為條件輸入，可以得到編輯後的融合圖像B（即第四待訓練圖像）。接下來，將融合圖像B作為receptor（即替代原始圖像A），將原始圖像A作為donor（即替代原始圖像B），把原始圖像A的原部位形狀重新替換回來，待訓練形狀融合網路模型以receptor為融合圖像B和donor為原始圖像A作為輸入，生成編輯後的融合圖像C（即第五待訓練圖像）。待訓練條件融合網路模型以融合圖像C作為輸入，以融合圖像B為條件輸入，可以得到編輯後的融合圖像D（即目標圖像）。迴圈訓練的約束目標是希望目標圖像與第一待訓練圖像盡可能相似，而第五待訓練圖像與真實圖像盡可能相似。

本申請實施例中，提供了一種模型訓練的方法，首先模型訓練裝置獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合，然後通過待訓練形狀融合網路模型對第一待訓練圖像以及第二待訓練圖像進行融合處理，得到第三待訓練圖像，再通過待訓練條件融合網路模型對第三待訓練圖像以及第一待訓練圖像進行融合處理，得到第四待訓練圖像，然後通過待訓練形狀融合網路模型對第四待訓練圖像以及第一待訓練圖像進行融合處理，得到第五待訓練圖像，通過待訓練條件融合網路模型對第五待訓練圖像以及第四待訓練圖像進行融合處理，得到目標圖像，最後採用目標損失函數以及目標圖像，對待訓練形狀融合網路模型以及待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型。通過上述方式，能夠在保證融合圖像的身份資訊與原始輸入圖像的身份資訊一致的情況下，對模型進行訓練，從而提升模型訓練的可靠性。

可選地，在上述圖7對應的實施例的基礎上，本申請實施例提供的模型訓練的方法第一個可選實施例中，獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合之前，還可以包括：

獲取待訓練目標圖像集合，其中，待訓練目標圖像集合包括至少一個待訓練目標圖像，每個待訓練目標圖像包括至少一個區域；

通過待訓練解纏繞編碼器對待訓練目標圖像集合中待訓練目標圖像的各個區域進行編碼處理，得到編碼結果，其中，待訓練解纏繞編碼器包括多個待訓練部件編碼器，每個待訓練部件編碼器用於對一個區域進行編碼；

通過待訓練解纏繞解碼器對編碼結果進行解碼處理，得到解碼結果，其中，待訓練解纏繞解碼器包括多個待訓練部件解碼器，每個待訓練部件解碼器用於對一個區域進行解碼；

採用損失函數以及解碼結果對待訓練解纏繞編碼器進行訓練，得到解纏繞編碼器，其中，解纏繞編碼器包括多個部件編碼器；

獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合，可以包括：

獲取第一待訓練圖像以及第二待訓練圖像；

採用解纏繞編碼器對第一待訓練圖像中的多個第一區域進行編碼處理，得到多個第一編碼特徵，其中，每個部件編碼器用於對一個第一區域進行編碼；

採用解纏繞編碼器對第二待訓練圖像中的多個第二區域進行編碼處理，得到多個第二編碼特徵，其中，每個部件編碼器用於對一個第二區域進行編碼。

本實施例中，介紹了一種訓練得到解纏繞編碼器對的方式，即模型訓練裝置首先需要獲取待訓練目標圖像集合，其中，待訓練目標圖像集合包括至少一個待訓練目標圖像，每個待訓練目標圖像包括至少一個區域。然後可以通過待訓練解纏繞編碼器對待訓練目標圖像集合中待訓練目標圖像的各個區域進行編碼處理，得到編碼結果。需要說明的是，待訓練解纏繞編碼器包括多個待訓練part-wise encoder，每個待訓練part-wise encoder用於對一個區域進行編碼，比如1號part-wise encoder編碼的區域為鼻子區域，2號part-wise encoder編碼的區域為頭髮區域。相應地，模型訓練裝置為待訓練解纏繞編碼器設置了對應的待訓練解纏繞解碼器，其中，訓練解纏繞解碼器包括多個待訓練部件解碼器（part-wise decoder），每個待訓練part-wise decoder用於對一個區域進行解碼，類似地，比如1號part-wise decoder解碼的區域為鼻子區域，2號part-wise decoder解碼的區域為頭髮區域。結合每一對part-wise encoder和part-wise decoder的解碼結果，採用損失函數對待訓練解纏繞編碼器進行訓練，得到解纏繞編碼器。具體可以得到解纏繞編碼器中的各個part-wise encoder。

為了便於理解，請參閱圖9，圖9為本申請實施例中對解纏繞編碼器進行訓練的一個實施例示意圖，如圖所示，本申請使用基於卷積神經網路的編碼器進行輸入圖像的解纏繞特徵提取工作。本申請的Disentangling Encoder由多個part-wise encoder構成，每一個part-wise encoder獨立地編碼一個指定的人臉圖像部位的形狀，part-wise encoder輸入一個人臉圖像，可以輸出是一個1*1*128的1維特徵向量，由此編碼了該人臉圖片特定部位的形狀。本申請考慮的部位包含但不僅限於眼睛、鼻子、嘴巴、眉毛、臉型、頭髮及身體，所有部位的特徵向量拼接在一起形成特徵集合，可以稱為Face Shape Gene。

在訓練階段中，每一個part-wise encoder都會配置一個對應的part-wise decoder，比如part-wise encoder

配置對應的part-wise decoder

，用於從part-wise encoder輸出的特徵向量中學習生成對應面部部位的圖像，比如得到圖像

。其中，part-wise encoder和part-wise decoder結對一起訓練，在part-wise decoder的監督下，part-wise encoder會自動摒棄不需要編碼的部位的形狀資訊，僅在輸出特徵中保留需要編碼的部位的形狀資訊。

part-wise encoder的具體結構可以表示為：

c7s1-64，c5s4-128，c5s4-256，R256，R256，R256，R256，c5s4-512，c5s4-128

其中，c7s1-64表示一個包含64個7×7的卷積核，且步長為1的convolution-instance norm ReLU layer。c5s4-128表示一個包含128個5×5的卷積核，且步長為4的convolution-instance norm ReLU layer。c5s4-256表示一個包含256個5×5的卷積核，且步長為4的convolution-instance norm ReLU layer。R256表示一個包含兩個3×3卷積層，且每個卷積層有256個卷積核的residual block的fractional-strided convolution instance norm-ReLU layer。c5s4-512表示一個包含512個5×5的卷積核，且步長為4的convolution-instance norm ReLU layer。c5s4-128表示一個包含128個5×5的卷積核，且步長為4的convolution-instance norm ReLU layer。

需要說明的是，part-wise encoder的具體結構還可以有其他的表示方式，上述僅為一個示意，並不應理解為對本申請的限定。

part-wise decoder的具體結構為：

u5-512，u5-256，R256，R256，R256，R256，R256，u5-128，u5-64，c7s1-3

其中，u5-512表示一個包含512個5×5的卷積核，步長為1/2的fractional-strided convolution instance norm-ReLU layer。u5-256表示一個包含256個5×5的卷積核，步長為1/2的fractional-strided convolution instance norm-ReLU layer。R256表示一個包含兩個3×3卷積層，且每個卷積層有256個卷積核的residual block的fractional-strided convolution instance norm-ReLU layer。u5-128表示一個包含128個5×5的卷積核，步長為1/2的fractional-strided convolution instance norm-ReLU layer。u5-64表示一個包含64個5×5的卷積核，步長為1/2的fractional-strided convolution instance norm-ReLU layer。c7s1-3表示一個包含3個7×7的卷積核，且步長為1的convolution-instance norm ReLU layer。

需要說明的是，part-wise decoder的具體結構還可以有其他的表示方式，上述僅為一個示意，並不應理解為對本申請的限定。

其次，本申請實施例中，介紹了一種訓練得到解纏繞編碼器的具體方式，即模型訓練裝置可以先獲取待訓練目標圖像集合，然後通過待訓練解纏繞編碼器對待訓練目標圖像集合中待訓練目標圖像的各個區域進行編碼處理，得到編碼結果，再通過待訓練解纏繞解碼器對編碼結果進行解碼處理，得到解碼結果，採用損失函數以及解碼結果對待訓練解纏繞編碼器進行訓練，得到解纏繞編碼器。通過上述方式，在模型訓練階段，針對待訓練解纏繞編碼器會配置對應的待訓練解纏繞解碼器，用來從對待訓練解纏繞編碼器輸出的特徵向量中學習生成相應區域的形狀圖像，從而提升圖像編碼的準確度和可靠性。

可選地，在上述圖7對應的實施例的基礎上，本申請實施例提供的模型訓練的方法第二個可選實施例中，採用目標損失函數以及目標圖像，對待訓練形狀融合網路模型以及待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型之前，還可以包括：

根據第五待訓練圖像以及真實圖像，確定第一損失函數；

根據目標圖像以及第一待訓練圖像，確定第二損失函數；

根據第一待訓練圖像、第二待訓練圖像、第四待訓練圖像以及目標圖像，確定第三損失函數；

根據第一損失函數、第二損失函數以及第三損失函數，確定目標損失函數。

本實施例中，介紹了一種模型訓練裝置確定目標損失函數的方式。迴圈訓練的約束目標是希望目標圖像與第一待訓練圖像盡可能相似，而第五待訓練圖像與真實圖像盡可能相似。因此，第一損失函數是根據第五待訓練圖像以及真實圖像生成的，其中，真實圖像指示第一待訓練圖像所對應的特徵圖像。第二損失函數是根據根據目標圖像以及第一待訓練圖像生成的。除了利用標籤圖和圖像外觀兩個迴圈約束來保證人物身份資訊不丟失之外，還是可以使用對抗約束來要求模型生成的結果像是真實人臉的圖像，即根據第一待訓練圖像、第二待訓練圖像、第四待訓練圖像以及目標圖像，確定第三損失函數。將第一損失函數、第二損失函數以及第三損失函數相加，得到目標損失函數。

其次，本申請實施例中，提供了一種得到目標損失函數的方式，即模型訓練裝置需要在得到形狀融合網路模型以及條件融合網路模型之前，先根據第五待訓練圖像以及真實圖像，確定第一損失函數，然後根據目標圖像以及第一待訓練圖像，確定第二損失函數，再根據第一待訓練圖像、第二待訓練圖像、第四待訓練圖像以及目標圖像，確定第三損失函數，最後根據第一損失函數、第二損失函數以及第三損失函數，確定目標損失函數。通過上述方式，為方案的實現提供了一種可靠的方式，結合多個圖像生成最終的損失函數，考慮到了各個圖像在模型訓練過程中的重要性，由此得到更準確的模型。

可選地，在上述圖7對應的第二個實施例的基礎上，本申請實施例提供的模型訓練的方法第三個可選實施例中，根據第五待訓練圖像以及真實圖像，確定第一損失函數，可以包括：

採用如下方式計算第一損失函數：

；

其中，

表示第一損失函數，

表示期望值計算，

表示第五待訓練圖像，

表示真實圖像，

表示損失比重調節係數，

表示預訓練網路模型輸出的特徵；

根據目標圖像以及第一待訓練圖像，確定第二損失函數，可以包括：

採用如下方式計算第二損失函數：

；

其中，

表示第二損失函數，

表示目標圖像，

表示第一待訓練圖像；

根據第一待訓練圖像、第二待訓練圖像、第四待訓練圖像以及目標圖像，確定第三損失函數，可以包括：

採用如下方式計算第三損失函數：

；

其中，

表示第三損失函數，

表示判別網路，

表示第二待訓練圖像，

表示第四待訓練圖像，

表示目標圖像；

根據第一損失函數、第二損失函數以及第三損失函數，確定目標損失函數，可以包括：

採用如下方式計算目標損失函數：

；

其中，

表示目標損失函數。

本實施例中，介紹了一種計算得到目標損失函數的具體方式。第一損失函數可以通過如下迴圈約束來確定：

；

其中，

表示第一損失函數，

表示期望值計算，

表示第五待訓練圖像，

表示真實圖像，

表示損失比重調節係數，

表示預訓練網路模型輸出的特徵。第二損失函數可以通過如下迴圈約束來確定：

；

其中，

表示第二損失函數，

表示目標圖像，

表示第一待訓練圖像。可以理解的是，上述兩個公式均利用了L1損失和VGG損失兩種類型，具體地，L1損失為

以及

，VGG損失為

以及

。

表示損失比重調節係數，用於調整L1損失和VGG損失的比重，在本申請中可以取值1.0，即認為L1損失和VGG損失是等價的。

表示預訓練網路模型輸出的特徵，具體是指預先訓練的VGG19網路輸出的特徵，在本申請中使用卷積層（convolutional layer，conv）1-1、conv2-2、conv3-2、conv4-4以及conv5-4層的特徵，並且分別賦予每一conv層如下權重1/32 （即conv1-1的權重）、1/16（conv2-2的權重）、1/8（conv3-2的權重）、1/4（conv4-4的權重）以及1（conv5-4的權重）。

可以理解的是，上述權重值的設定僅為一個示意，不應理解為對本申請的限定。

除了上述兩個迴圈約束保證人物身份資訊不丟失之外，還需要使用一個對抗約束來要求條件融合網路模型生成的結果更貼近真實人臉的圖像，第三損失函數可以表示為：

；

其中，

表示第三損失函數，

表示判別網路，

表示第二待訓練圖像，

表示第四待訓練圖像，

表示目標圖像。判別網路

的具體結構包括編碼部分和解碼部分，編碼部分的結構可以為：c7s1-64，c5s4-128，c5s4-256，R256，R256，R256，R256，c5s4-512，c5s4-128。解碼部分的結構可以表示為：u5-512，u5-256，R256，R256，R256，R256，R256，u5-128，u5-64，c7s1-3。此處僅為一個示意，不應理解為對本申請的限定。判別網路

被訓練成用於判斷圖像是否為真實圖像，且判別網路

伴隨著待訓練形狀融合網路模型和待訓練條件融合網路模型一起訓練，最大化第三損失函數

這個對抗約束，能夠儘量準確地區分生成圖像和真實的圖像，而待訓練形狀融合網路模型和待訓練條件融合網路模型則會最小化第三損失函數

，以此期望能夠生成儘量真實的圖像。

由此，有了用於訓練待訓練形狀融合網路模型和待訓練條件融合網路模型的總的目標損失函數：

；

再次，本申請實施例中，介紹了計算損失函數的具體方式，即模型訓練裝置可以根據第五待訓練圖像以及真實圖像，計算得到第一損失函數，然後根據目標圖像以及第一待訓練圖像，計算得到第二損失函數，最後根據第一損失函數、第二損失函數以及第三損失函數，計算得到目標損失函數。通過上述方式，為方案的實現提供了具體的依據，從而提升了方案的可行性和可操作性。

下面對本申請中的圖像融合裝置進行詳細描述，請參閱圖10，圖10為本申請實施例中圖像融合裝置一個實施例示意圖，圖像融合裝置30包括：

獲取模組301，用於獲取第一待融合圖像以及第二待融合圖像，其中，所述第一待融合圖像包括多個第一區域，所述第二待融合圖像包括多個第二區域；

所述獲取模組301，還用於根據所述第一待融合圖像獲取第一特徵集合，且根據所述第二待融合圖像獲取第二特徵集合，其中，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應；

融合模組302，用於通過形狀融合網路模型對所述獲取模組301獲取的所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像，其中，所述第三待融合圖像包括所述獲取模組獲取的至少一個第一編碼特徵以及至少一個第二編碼特徵；

所述融合模組302，還用於通過條件融合網路模型對所述第三待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像。

本實施例中，獲取模組301獲取第一待融合圖像以及第二待融合圖像，其中，所述第一待融合圖像包括多個第一區域，所述第二待融合圖像包括多個第二區域，所述獲取模組301根據所述第一待融合圖像獲取第一特徵集合，且根據所述第二待融合圖像獲取第二特徵集合，其中，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應，融合模組302通過形狀融合網路模型對所述獲取模組301獲取的所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像，其中，所述第三待融合圖像包括所述獲取模組獲取的至少一個第一編碼特徵以及至少一個第二編碼特徵，所述融合模組302通過條件融合網路模型對所述第三待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像。

本申請實施例中，提供了一種圖像融合裝置，首先，獲取第一待融合圖像以及第二待融合圖像，其中，第一待融合圖像包括多個第一區域，第二待融合圖像包括多個第二區域，然後根據第一待融合圖像獲取第一特徵集合，且根據第二待融合圖像獲取第二特徵集合，其中，第一特徵集合包括多個第一編碼特徵，且第一編碼特徵與第一區域一一對應，第二特徵集合包括多個第二編碼特徵，且第二編碼特徵與第二區域一一對應，再通過形狀融合網路模型對第一待融合圖像以及第二待融合圖像進行融合處理，得到第三待融合圖像，其中，第三待融合圖像包括至少一個第一編碼特徵以及至少一個第二編碼特徵，最後可以通過條件融合網路模型對第三待融合圖像以及第一待融合圖像進行融合處理，得到目標融合圖像。通過上述方式，提取圖像中各個局部區域的相應特徵，由此可以快速地對一個圖像中的局部區域進行改變，也就是將該局部區域替換為另一個圖像中相應的局部區域，從而形成融合圖像。此外，融合圖像除被編輯的局部區域以外，其餘區域與原始輸入圖像保持一致，使使用者感到融合圖像的身份資訊與原始輸入圖像的身份資訊沒有發生變化。

可選地，在上述圖10所對應的實施例的基礎上，本申請實施例提供的圖像融合裝置30的另一實施例中，

所述獲取模組301，具體用於採用解纏繞編碼器對所述第一待融合圖像中的所述多個第一區域進行編碼處理，得到所述多個第一編碼特徵，其中，所述解纏繞編碼器包括多個部件編碼器，每個部件編碼器用於對一個第一區域進行編碼；

其次，本申請實施例中，提供了一種圖像編碼方式，即採用解纏繞編碼器對第一待融合圖像中的多個第一區域進行編碼處理，得到多個第一編碼特徵，並且採用解纏繞編碼器對第二待融合圖像中的多個第二區域進行編碼處理，得到多個第二編碼特徵，解纏繞編碼器包括多個部件編碼器，每個部件編碼器用於對一個第二區域進行編碼。通過上述方式，採用部件編碼器對圖像中不同的區域進行編碼處理，能夠有效地保證圖像編碼的一致性，從而便於進行後續的預測處理。

可選地，在上述圖10所對應的實施例的基礎上，請參閱圖11，本申請實施例提供的圖像融合裝置30的另一實施例中，所述圖像融合裝置30還包括確定模組303；

所述確定模組303，用於在所述融合模組302通過形狀融合網路模型對所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像之前，從所述第一待融合圖像中確定待替換區域，其中，所述待替換區域屬於所述多個第一區域中的一個區域；

所述獲取模組301，還用於根據所述確定模組303確定的所述待替換區域獲取所述第一待融合圖像中的第一待替換編碼特徵，並根據所述確定模組303確定的所述待替換區域獲取所述第二待融合圖像中的第二待替換編碼特徵，其中，所述第一待替換編碼特徵屬於所述多個第一編碼特徵中的一個編碼特徵，所述第二待替換編碼特徵屬於所述多個第二編碼特徵中的一個編碼特徵。

可選地，在上述圖10或圖11所對應的實施例的基礎上，本申請實施例提供的圖像融合裝置30的另一實施例中，

所述融合模組302，具體用於通過所述形狀融合網路模型，將所述第一待融合圖像中的所述第一待替換編碼特徵替換為所述第二待融合圖像中的所述第二待替換編碼特徵，得到待解碼圖像；

可選地，在上述圖10或圖11所對應的實施例的基礎上，請參閱圖12，本申請實施例提供的圖像融合裝置30的另一實施例中，所述圖像融合裝置30還包括接收模組304、調整模組305以及處理模組306；

所述接收模組304，用於在所述融合模組302通過形狀融合網路模型對所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像之後，通過所述第三待融合圖像接收區域調整指令，其中，所述區域調整指令用於調整圖像中至少一個區域的形狀；

所述調整模組305，用於回應於所述接收模組304接收的所述區域調整指令，對所述待替換區域進行調整，得到所述待替換區域所對應的目標替換區域；

所述處理模組306，用於根據所述調整模組305調整得到的所述目標替換區域對所述第三待融合圖像進行處理，得到第四待融合圖像；

所述融合模組302，具體用於通過條件融合網路模型對所述第四待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像。

可選地，在上述圖10、圖11或者圖12所對應的實施例的基礎上，本申請實施例提供的圖像融合裝置30的另一實施例中，

所述融合模組302，具體用於對所述第三待融合圖像以及所述第一待融合圖像進行拼接處理，得到多通道特徵圖像，其中，所述多通道特徵圖像用於將至少兩個圖像的色彩特徵進行拼接；

下面對本申請中的模型訓練裝置進行詳細描述，請參閱圖13，圖13為本申請實施例中圖像融合裝置一個實施例示意圖，模型訓練裝置40包括：

獲取模組401，用於獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合，其中，所述第一待訓練圖像包括多個第一訓練區域，所述第二待訓練圖像包括多個第二訓練區域，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應；

融合模組402，用於通過待訓練形狀融合網路模型對所述獲取模組401獲取的所述第一待訓練圖像以及所述第二待訓練圖像進行融合處理，得到第三待訓練圖像，其中，所述第三待訓練圖像包括所述獲取模組獲取的至少一個第一編碼特徵以及至少一個第二編碼特徵；

所述融合模組402，還用於通過待訓練條件融合網路模型對所述第三待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第四待訓練圖像；

所述融合模組402，還用於通過所述待訓練形狀融合網路模型對所述第四待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第五待訓練圖像，其中，所述第五待訓練圖像與所述第一待訓練圖像具有對應的特徵；

所述融合模組402，還用於通過所述待訓練條件融合網路模型對所述第五待訓練圖像以及所述第四待訓練圖像進行融合處理，得到目標圖像；

訓練模組403，用於採用目標損失函數以及所述融合模組402融合得到的所述目標圖像，對所述待訓練形狀融合網路模型以及所述待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型。

本實施例中，獲取模組401獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合，其中，所述第一待訓練圖像包括多個第一訓練區域，所述第二待訓練圖像包括多個第二訓練區域，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應，融合模組402通過待訓練形狀融合網路模型對所述獲取模組401獲取的所述第一待訓練圖像以及所述第二待訓練圖像進行融合處理，得到第三待訓練圖像，其中，所述第三待訓練圖像包括所述獲取模組獲取的至少一個第一編碼特徵以及至少一個第二編碼特徵，所述融合模組402通過待訓練條件融合網路模型對所述第三待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第四待訓練圖像，所述融合模組402通過所述待訓練形狀融合網路模型對所述第四待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第五待訓練圖像，其中，所述第五待訓練圖像與所述第一待訓練圖像具有對應的特徵，所述融合模組402通過所述待訓練條件融合網路模型對所述第五待訓練圖像以及所述第四待訓練圖像進行融合處理，得到目標圖像，訓練模組403採用目標損失函數以及所述融合模組402融合得到的所述目標圖像，對所述待訓練形狀融合網路模型以及所述待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型。

本申請實施例中，提供了一種模型訓練裝置，首先該模型訓練裝置獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合，然後通過待訓練形狀融合網路模型對第一待訓練圖像以及第二待訓練圖像進行融合處理，得到第三待訓練圖像，再通過待訓練條件融合網路模型對第三待訓練圖像以及第一待訓練圖像進行融合處理，得到第四待訓練圖像，然後通過待訓練形狀融合網路模型對第四待訓練圖像以及第一待訓練圖像進行融合處理，得到第五待訓練圖像，通過待訓練條件融合網路模型對第五待訓練圖像以及第四待訓練圖像進行融合處理，得到目標圖像，最後採用目標損失函數以及目標圖像，對待訓練形狀融合網路模型以及待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型。通過上述方式，能夠在保證融合圖像的身份資訊與原始輸入圖像的身份資訊一致的情況下，對模型進行訓練，從而提升模型訓練的可靠性。

可選地，在上述圖13所對應的實施例的基礎上，請參閱圖14，本申請實施例提供的模型訓練裝置40的另一實施例中，所述模型訓練裝置40還包括編碼模組404以及解碼模組405；

所述獲取模組401，還用於獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合之前，獲取待訓練目標圖像集合，其中，所述待訓練目標圖像集合包括至少一個待訓練目標圖像，每個待訓練目標圖像包括至少一個區域；

所述編碼模組404，用於通過待訓練解纏繞編碼器對所述獲取模組401獲取的所述待訓練目標圖像集合中待訓練目標圖像的各個區域進行編碼處理，得到編碼結果，其中，所述待訓練解纏繞編碼器包括多個待訓練部件編碼器，每個待訓練部件編碼器用於對一個區域進行編碼；

所述解碼模組405，用於通過待訓練解纏繞解碼器對所述編碼模組編碼的所述編碼結果進行解碼處理，得到解碼結果，其中，所述待訓練解纏繞解碼器包括多個待訓練部件解碼器，每個待訓練部件解碼器用於對一個區域進行解碼；

所述訓練模組403，還用於採用損失函數以及所述解碼模組405解碼得到的解碼結果對所述待訓練解纏繞編碼器進行訓練，得到解纏繞編碼器，其中，所述解纏繞編碼器包括多個部件編碼器；

所述獲取模組401，具體用於獲取第一待訓練圖像以及第二待訓練圖像；

可選地，在上述圖13或圖14所對應的實施例的基礎上，請參閱圖15，本申請實施例提供的模型訓練裝置40的另一實施例中，所述模型訓練裝置40還包括確定模組406；

所述確定模組406，用於所述訓練模組403採用目標損失函數以及所述目標圖像，對所述待訓練形狀融合網路模型以及所述待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型之前，根據所述第五待訓練圖像以及真實圖像，確定第一損失函數；

所述確定模組406，還用於根據所述目標圖像以及所述第一待訓練圖像，確定第二損失函數；

所述確定模組406，還用於根據所述第一待訓練圖像、所述第二待訓練圖像、所述第四待訓練圖像以及所述目標圖像，確定第三損失函數；

所述確定模組406，還用於根據所述第一損失函數、所述第二損失函數以及所述第三損失函數，確定所述目標損失函數。

可選地，在上述圖15所對應的實施例的基礎上，本申請實施例提供的模型訓練裝置40的另一實施例中，

所述確定模組406，具體用於採用如下方式計算所述第一損失函數：

；

其中，所述

表示所述第一損失函數，所述

表示期望值計算，所述

表示所述第五待訓練圖像，所述

表示所述真實圖像，所述

表示損失比重調節係數，所述

表示預訓練網路模型輸出的特徵；

採用如下方式計算所述第二損失函數：

；

其中，所述

表示所述第二損失函數，所述

表示所述目標圖像，所述

表示所述第一待訓練圖像；

採用如下方式計算所述第三損失函數：

；

其中，所述

表示所述第三損失函數，所述

表示判別網路，所述

表示所述第二待訓練圖像，所述

表示所述第四待訓練圖像，所述

表示所述目標圖像；

採用如下方式計算所述目標損失函數：

；

其中，所述

表示所述目標損失函數。

本申請實施例還提供了另一種圖像融合裝置，如圖16所示，為了便於說明，僅示出了與本申請實施例相關的部分，具體技術細節未揭示的，請參照本申請實施例方法部分。該終端設備可以為包括手機、平板電腦、個人數位助理（Personal Digital Assistant，PDA）、銷售終端設備（Point of Sales， POS）、車載電腦等任意終端設備設備，以終端設備為手機為例：

圖16示出的是與本申請實施例提供的終端設備相關的手機的部分結構的框圖。參考圖16，手機包括：射頻（Radio Frequency，RF）電路510、記憶體520、輸入單元530、顯示單元540、感測器550、音訊電路560、無線保真（wireless fidelity，WiFi）模組570、處理器580、以及電源590等部件。本領域技術人員可以理解，圖16中示出的手機結構並不構成對手機的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件佈置。

下面結合圖16對手機的各個構成部件進行具體的介紹：

RF電路510可用於收發資訊或通話過程中，訊號的接收和發送，特別地，將基站的下行資訊接收後，給處理器580處理；另外，將設計上行的資料發送給基站。通常，RF電路510包括但不限於天線、至少一個放大器、收發信機、耦合器、低雜訊放大器（Low Noise Amplifier，LNA）、雙工器等。此外，RF電路510還可以通過無線通訊與網路和其他設備通信。上述無線通訊可以使用任一通信標準或協定，包括但不限於全球移動通訊系統（Global System of Mobile communication，GSM）、通用分組無線服務（General Packet Radio Service，GPRS）、碼分多址（Code Division Multiple Access，CDMA）、寬頻碼分多址（Wideband Code Division Multiple Access, WCDMA）、長期演進（Long Term Evolution，LTE）、電子郵件、短消息服務（Short Messaging Service，SMS）等。

記憶體520可用於存儲軟體程式以及模組，處理器580通過運行存儲在記憶體520的軟體程式以及模組，從而執行手機的各種功能應用以及資料處理。記憶體520可主要包括存儲程式區和存儲資料區，其中，存儲程式區可存儲作業系統、至少一個功能所需的應用程式（比如聲音播放功能、圖像播放功能等）等；存儲資料區可存儲根據手機的使用所創建的資料（比如音訊資料、電話本等）等。此外，記憶體520可以包括高速隨機存取記憶體，還可以包括非易失性記憶體，例如至少一個磁碟記憶體件、快閃記憶體器件、或其他易失性固態記憶體件。

輸入單元530可用於接收輸入的數位或字元資訊，以及產生與手機的用戶設置以及功能控制有關的鍵訊號輸入。具體地，輸入單元530可包括觸控面板531以及其他輸入裝置532。觸控面板531，也稱為觸控式螢幕，可收集用戶在其上或附近的觸摸操作（比如用戶使用手指、觸筆等任何適合的物體或附件在觸控面板531上或在觸控面板531附近的操作），並根據預先設定的程式驅動相應的連接裝置。可選的，觸控面板531可包括觸摸檢測裝置和觸摸控制器兩個部分。其中，觸摸檢測裝置檢測使用者的觸摸方位，並檢測觸摸操作帶來的訊號，將訊號傳送給觸摸控制器；觸摸控制器從觸摸檢測裝置上接收觸摸資訊，並將它轉換成觸點座標，再送給處理器580，並能接收處理器580發來的命令並加以執行。此外，可以採用電阻式、電容式、紅外線以及表面聲波等多種類型實現觸控面板531。除了觸控面板531，輸入單元530還可以包括其他輸入裝置532。具體地，其他輸入裝置532可以包括但不限於物理鍵盤、功能鍵（比如音量控制按鍵、開關按鍵等）、軌跡球、滑鼠、操作杆等中的一種或多種。

顯示單元540可用於顯示由使用者輸入的資訊或提供給使用者的資訊以及手機的各種功能表。顯示單元540可包括顯示面板541，可選的，可以採用液晶顯示器（Liquid Crystal Display，LCD）、有機發光二極體（Organic Light-Emitting Diode，OLED）等形式來配置顯示面板541。進一步的，觸控面板531可覆蓋顯示面板541，當觸控面板531檢測到在其上或附近的觸摸操作後，傳送給處理器580以確定觸摸事件的類型，隨後處理器580根據觸摸事件的類型在顯示面板541上提供相應的視覺輸出。雖然在圖16中，觸控面板531與顯示面板541是作為兩個獨立的部件來實現手機的輸入和輸入功能，但是在某些實施例中，可以將觸控面板531與顯示面板541集成而實現手機的輸入和輸出功能。

手機還可包括至少一種感測器550，比如光感測器、運動感測器以及其他感測器。具體地，光感測器可包括環境光感測器及接近感測器，其中，環境光感測器可根據環境光線的明暗來調節顯示面板541的亮度，接近感測器可在手機移動到耳邊時，關閉顯示面板541和/或背光。作為運動感測器的一種，加速計感測器可檢測各個方向上（一般為三軸）加速度的大小，靜止時可檢測出重力的大小及方向，可用於識別手機姿態的應用（比如橫豎屏切換、相關遊戲、磁力計姿態校準）、振動識別相關功能（比如計步器、敲擊）等; 至於手機還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線感測器等其他感測器，在此不再贅述。

音訊電路560、揚聲器561，傳聲器562可提供用戶與手機之間的音訊介面。音訊電路560可將接收到的音訊資料轉換後的電訊號，傳輸到揚聲器561，由揚聲器561轉換為聲音訊號輸出；另一方面，傳聲器562將收集的聲音訊號轉換為電訊號，由音訊電路560接收後轉換為音訊資料，再將音訊資料輸出處理器580處理後，經RF電路510以發送給比如另一手機，或者將音訊資料輸出至記憶體520以便進一步處理。

WiFi屬於短距離無線傳輸技術，手機通過WiFi模組570可以説明使用者收發電子郵件、流覽網頁和訪問流式媒體等，它為用戶提供了無線的寬頻互聯網訪問。雖然圖16示出了WiFi模組570，但是可以理解的是，其並不屬於手機的必須構成，完全可以根據需要在不改變發明的本質的範圍內而省略。

處理器580是手機的控制中心，利用各種介面和線路連接整個手機的各個部分，通過運行或執行存儲在記憶體520內的軟體程式和/或模組，以及調用存儲在記憶體520內的資料，執行手機的各種功能和處理資料，從而對手機進行整體監控。可選的，處理器580可包括一個或多個處理單元；可選的，處理器580可集成應用處理器和調製解調處理器，其中，應用處理器主要處理作業系統、使用者介面和應用程式等，調製解調處理器主要處理無線通訊。可以理解的是，上述調製解調處理器也可以不集成到處理器580中。

手機還包括給各個部件供電的電源590（比如電池），可選的，電源可以通過電源管理系統與處理器580邏輯相連，從而通過電源管理系統實現管理充電、放電、以及功耗管理等功能。

儘管未示出，手機還可以包括攝像頭、藍牙模組等，在此不再贅述。

在本申請實施例中，該終端設備所包括的處理器580還具有以下功能：

可選地，處理器580具體用於執行如下步驟：

採用解纏繞編碼器對所述第一待融合圖像中的所述多個第一區域進行編碼處理，得到所述多個第一編碼特徵，其中，所述解纏繞編碼器包括多個部件編碼器，每個部件編碼器用於對一個第一區域進行編碼；

可選地，處理器580還用於執行如下步驟：

從所述第一待融合圖像中確定待替換區域，其中，所述待替換區域屬於所述多個第一區域中的一個區域；

根據所述待替換區域獲取所述第一待融合圖像中的第一待替換編碼特徵，並根據所述待替換區域獲取所述第二待融合圖像中的第二待替換編碼特徵，其中，所述第一待替換編碼特徵屬於所述多個第一編碼特徵中的一個編碼特徵，所述第二待替換編碼特徵屬於所述多個第二編碼特徵中的一個編碼特徵。

可選地，處理器580具體用於執行如下步驟：

通過所述形狀融合網路模型，將所述第一待融合圖像中的所述第一待替換編碼特徵替換為所述第二待融合圖像中的所述第二待替換編碼特徵，得到待解碼圖像；

可選地，處理器580還用於執行如下步驟：

通過所述第三待融合圖像接收區域調整指令，其中，所述區域調整指令用於調整圖像中至少一個區域的形狀；

回應於所述區域調整指令，對所述待替換區域進行調整，得到所述待替換區域所對應的目標替換區域；

根據所述目標替換區域對所述第三待融合圖像進行處理，得到第四待融合圖像；

通過條件融合網路模型對所述第四待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像。

可選地，處理器580具體用於執行如下步驟：

對所述第三待融合圖像以及所述第一待融合圖像進行拼接處理，得到多通道特徵圖像，其中，所述多通道特徵圖像用於將至少兩個圖像的色彩特徵進行拼接；

圖17是本申請實施例提供的一種伺服器結構示意圖，該伺服器600可因配置或性能不同而產生比較大的差異，可以包括一個或一個以上中央處理器（central processing units，CPU）622（例如，一個或一個以上處理器）和記憶體632，一個或一個以上存儲應用程式642或資料644的存儲介質630（例如一個或一個以上海量存放裝置）。其中，記憶體632和存儲介質630可以是短暫存儲或持久存儲。存儲在存儲介質630的程式可以包括一個或一個以上模組（圖示沒標出），每個模組可以包括對伺服器中的一系列指令操作。更進一步地，中央處理器622可以設置為與存儲介質630通信，在伺服器600上執行存儲介質630中的一系列指令操作。

伺服器600還可以包括一個或一個以上電源626，一個或一個以上有線或無線網路介面650，一個或一個以上輸入輸出介面658，和/或，一個或一個以上作業系統641，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

上述實施例中由伺服器所執行的步驟可以基於該圖17所示的伺服器結構。

在本申請實施例中，該伺服器所包括的CPU 622還具有以下功能：

可選地，CPU 622還用於執行如下步驟：

獲取待訓練目標圖像集合，其中，所述待訓練目標圖像集合包括至少一個待訓練目標圖像，每個待訓練目標圖像包括至少一個區域；

通過待訓練解纏繞編碼器對所述待訓練目標圖像集合中待訓練目標圖像的各個區域進行編碼處理，得到編碼結果，其中，所述待訓練解纏繞編碼器包括多個待訓練部件編碼器，每個待訓練部件編碼器用於對一個區域進行編碼；

通過待訓練解纏繞解碼器對所述編碼結果進行解碼處理，得到解碼結果，其中，所述待訓練解纏繞解碼器包括多個待訓練部件解碼器，每個待訓練部件解碼器用於對一個區域進行解碼；

採用損失函數以及解碼結果對所述待訓練解纏繞編碼器進行訓練，得到解纏繞編碼器，其中，所述解纏繞編碼器包括多個部件編碼器；

獲取第一待訓練圖像以及第二待訓練圖像；

可選地，CPU 622還用於執行如下步驟：

根據所述第五待訓練圖像以及真實圖像，確定第一損失函數；

根據所述目標圖像以及所述第一待訓練圖像，確定第二損失函數；

根據所述第一待訓練圖像、所述第二待訓練圖像、所述第四待訓練圖像以及所述目標圖像，確定第三損失函數；

根據所述第一損失函數、所述第二損失函數以及所述第三損失函數，確定所述目標損失函數。

可選地，CPU 622具體用於執行如下步驟：

採用如下方式計算所述第一損失函數：

；

其中，所述

表示所述第一損失函數，所述

表示期望值計算，所述

表示所述第五待訓練圖像，所述

表示所述真實圖像，所述

表示損失比重調節係數，所述

表示預訓練網路模型輸出的特徵；

所述根據所述目標圖像以及所述第一待訓練圖像，確定第二損失函數，包括：

採用如下方式計算所述第二損失函數：

；

其中，所述

表示所述第二損失函數，所述

表示所述目標圖像，所述

表示所述第一待訓練圖像；

所述根據所述第一待訓練圖像、所述第二待訓練圖像、所述第四待訓練圖像以及所述目標圖像，確定第三損失函數，包括：

採用如下方式計算所述第三損失函數：

；

其中，所述

表示所述第三損失函數，所述

表示判別網路，所述

表示所述第二待訓練圖像，所述

表示所述第四待訓練圖像，所述

表示所述目標圖像；

所述根據所述第一損失函數、所述第二損失函數以及所述第三損失函數，確定所述目標損失函數，包括：

採用如下方式計算所述目標損失函數：

；

其中，所述

表示所述目標損失函數。

所屬領域的技術人員可以清楚地瞭解到，為描述的方便和簡潔，上述描述的系統，裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。

在本申請所提供的幾個實施例中，應該理解到，所揭露的系統，裝置和方法，可以通過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或元件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面，裝置或單元的間接耦合或通信連接，可以是電性，機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外，在本申請各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用軟體功能單元的形式實現。

所述集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時，可以存儲在一個電腦可讀取存儲介質中。基於這樣的理解，本申請的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來，該電腦軟體產品存儲在一個存儲介質中，包括若干指令用以使得一台電腦設備（可以是個人電腦，伺服器，或者網路設備等）執行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括：隨身碟、移動硬碟、唯讀記憶體（read-only memory，ROM）、隨機存取記憶體（random access memory，RAM）、磁碟或者光碟等各種可以存儲程式碼的介質。

以上所述，以上實施例僅用以說明本申請的技術方案，而非對其限制；儘管參照前述實施例對本申請進行了詳細的說明，本領域的普通技術人員應當理解：其依然可以對前述各實施例所記載的技術方案進行修改，或者對其中部分技術特徵進行等同替換；而這些修改或者替換，並不使相應技術方案的本質脫離本申請各實施例技術方案的精神和範圍。

101-104:步驟201-206:步驟 30:圖像融合裝置40:模型訓練裝置 301:獲取模組302:融合模組 303:確定模組304:接收模組 305:調整模組306:處理模組 401:獲取模組402:融合模組 403:訓練模組404:編碼模組 405:解碼模組406:確定模組 510:射頻電路520:記憶體 530:輸入單元531:觸控面板 532:其他輸入設備540:顯示單元 541:顯示面板561:揚聲器 562:傳聲器590:電源 550:感測器560:音訊電路 570:WiFi模組580:處理器 600:伺服器622:中央處理器 626:電源630:儲存介質 632:記憶體641:作業系統 642:應用程式644:資料 650:有線或無線網路介面658:輸入輸出介面

為了更清楚地說明本發明實施例中的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。

圖1為本申請實施例中圖像融合系統的一個架構示意圖；

圖2為本申請實施例中圖像融合系統的一個整體框架流程示意圖；

圖3為本申請實施例中圖像融合的方法一個實施例示意圖；

圖4為本申請實施例中通過解纏繞編碼器對圖像進行編碼的一個實施例示意圖；

圖5為本申請實施例中通過形狀融合網路模型對圖像進行融合的一個實施例示意圖；

圖6為本申請實施例中手繪形狀的一個實施例示意圖；

圖7為本申請實施例中模型訓練的方法一個實施例示意圖；

圖8為本申請實施例中對條件融合網路模型進行訓練的一個實施例示意圖；

圖9為本申請實施例中對解纏繞編碼器進行訓練的一個實施例示意圖；

圖10為本申請實施例中圖像融合裝置的一個實施例示意圖；

圖11為本申請實施例中圖像融合裝置的另一個實施例示意圖；

圖12為本申請實施例中圖像融合裝置的另一個實施例示意圖；

圖13為本申請實施例中模型訓練裝置的一個實施例示意圖；

圖14為本申請實施例中模型訓練裝置的另一個實施例示意圖；

圖15為本申請實施例中模型訓練裝置的另一個實施例示意圖；

圖16為本申請實施例中終端設備的一個實施例示意圖；

圖17為本申請實施例中終端設備的一個實施例示意圖。

101-104:步驟

Claims

一種圖像融合的方法，其包括：獲取第一待融合圖像以及第二待融合圖像，其中，所述第一待融合圖像包括多個第一區域，所述第二待融合圖像包括多個第二區域；根據所述第一待融合圖像獲取第一特徵集合，且根據所述第二待融合圖像獲取第二特徵集合，其中，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應；通過形狀融合網路模型對所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像，其中，所述第三待融合圖像包括至少一個第一編碼特徵以及至少一個第二編碼特徵；通過條件融合網路模型對所述第三待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像。
根據請求項1所述的方法，其中，所述根據所述第一待融合圖像獲取第一特徵集合，包括：採用解纏繞編碼器對所述第一待融合圖像中的所述多個第一區域進行編碼處理，得到所述多個第一編碼特徵，其中，所述解纏繞編碼器包括多個部件編碼器，每個部件編碼器用於對一個第一區域進行編碼；所述根據所述第二待融合圖像獲取第二特徵集合，包括：採用所述解纏繞編碼器對所述第二待融合圖像中的所述多個第二區域進行編碼處理，得到所述多個第二編碼特徵，其中，所述解纏繞編碼器包括所述多個部件編碼器，每個部件編碼器用於對一個第二區域進行編碼。
根據請求項1所述的方法，其中，所述通過形狀融合網路模型對所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像之前，所述方法還包括：從所述第一待融合圖像中確定待替換區域，其中，所述待替換區域屬於所述多個第一區域中的一個區域；根據所述待替換區域獲取所述第一待融合圖像中的第一待替換編碼特徵，並根據所述待替換區域獲取所述第二待融合圖像中的第二待替換編碼特徵，其中，所述第一待替換編碼特徵屬於所述多個第一編碼特徵中的一個編碼特徵，所述第二待替換編碼特徵屬於所述多個第二編碼特徵中的一個編碼特徵。
根據請求項3所述的方法，其中，所述通過形狀融合網路模型對所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像，包括：通過所述形狀融合網路模型，將所述第一待融合圖像中的所述第一待替換編碼特徵替換為所述第二待融合圖像中的所述第二待替換編碼特徵，得到待解碼圖像；通過所述形狀融合網路模型，對所述待解碼圖像進行解碼處理，得到所述第三待融合圖像。
根據請求項3或4所述的方法，其中，所述通過形狀融合網路模型對所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像之後，所述方法還包括：通過所述第三待融合圖像接收區域調整指令，其中，所述區域調整指令用於調整圖像中至少一個區域的形狀；回應於所述區域調整指令，對所述待替換區域進行調整，得到所述待替換區域所對應的目標替換區域；根據所述目標替換區域對所述第三待融合圖像進行處理，得到第四待融合圖像；所述通過條件融合網路模型對所述第三待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像，包括：通過條件融合網路模型對所述第四待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像。
根據請求項1至4中任一項所述的方法，其中，所述通過條件融合網路模型對所述第三待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像，包括：對所述第三待融合圖像以及所述第一待融合圖像進行拼接處理，得到多通道特徵圖像，其中，所述多通道特徵圖像用於將至少兩個圖像的色彩特徵進行拼接；通過所述條件融合網路模型獲取所述多通道特徵圖像所對應的所述目標融合圖像。
一種模型訓練的方法，其包括：獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合，其中，所述第一待訓練圖像包括多個第一訓練區域，所述第二待訓練圖像包括多個第二訓練區域，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應；通過待訓練形狀融合網路模型對所述第一待訓練圖像以及所述第二待訓練圖像進行融合處理，得到第三待訓練圖像，其中，所述第三待訓練圖像包括至少一個第一編碼特徵以及至少一個第二編碼特徵；通過待訓練條件融合網路模型對所述第三待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第四待訓練圖像；通過所述待訓練形狀融合網路模型對所述第四待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第五待訓練圖像，其中，所述第五待訓練圖像與所述第一待訓練圖像具有對應的特徵；通過所述待訓練條件融合網路模型對所述第五待訓練圖像以及所述第四待訓練圖像進行融合處理，得到目標圖像；採用目標損失函數以及所述目標圖像，對所述待訓練形狀融合網路模型以及所述待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型。
根據請求項7所述的方法，其中，所述獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合之前，所述方法還包括：獲取待訓練目標圖像集合，其中，所述待訓練目標圖像集合包括至少一個待訓練目標圖像，每個待訓練目標圖像包括至少一個區域；通過待訓練解纏繞編碼器對所述待訓練目標圖像集合中待訓練目標圖像的各個區域進行編碼處理，得到編碼結果，其中，所述待訓練解纏繞編碼器包括多個待訓練部件編碼器，每個待訓練部件編碼器用於對一個區域進行編碼；通過待訓練解纏繞解碼器對所述編碼結果進行解碼處理，得到解碼結果，其中，所述待訓練解纏繞解碼器包括多個待訓練部件解碼器，每個待訓練部件解碼器用於對一個區域進行解碼；採用損失函數以及解碼結果對所述待訓練解纏繞編碼器進行訓練，得到解纏繞編碼器，其中，所述解纏繞編碼器包括多個部件編碼器；所述獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合，包括：獲取第一待訓練圖像以及第二待訓練圖像；採用所述解纏繞編碼器對所述第一待訓練圖像中的所述多個第一區域進行編碼處理，得到所述多個第一編碼特徵，其中，每個部件編碼器用於對一個第一區域進行編碼；採用所述解纏繞編碼器對所述第二待訓練圖像中的所述多個第二區域進行編碼處理，得到所述多個第二編碼特徵，其中，每個部件編碼器用於對一個第二區域進行編碼。
根據請求項7所述的方法，其中，所述採用目標損失函數以及所述目標圖像，對所述待訓練形狀融合網路模型以及所述待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型之前，所述方法還包括：根據所述第五待訓練圖像以及真實圖像，確定第一損失函數；根據所述目標圖像以及所述第一待訓練圖像，確定第二損失函數；根據所述第一待訓練圖像、所述第二待訓練圖像、所述第四待訓練圖像以及所述目標圖像，確定第三損失函數；根據所述第一損失函數、所述第二損失函數以及所述第三損失函數，確定所述目標損失函數。
根據請求項9所述的方法，其中，所述根據所述第五待訓練圖像以及真實圖像，確定第一損失函數，包括：採用如下方式計算所述第一損失函數：
；其中，所述
表示所述第一損失函數，所述
表示期望值計算，所述
表示所述第五待訓練圖像，所述
表示所述真實圖像，所述
表示損失比重調節係數，所述
表示預訓練網路模型輸出的特徵；所述根據所述目標圖像以及所述第一待訓練圖像，確定第二損失函數，包括：採用如下方式計算所述第二損失函數：
；其中，所述
表示所述第二損失函數，所述
表示所述目標圖像，所述
表示所述第一待訓練圖像；所述根據所述第一待訓練圖像、所述第二待訓練圖像、所述第四待訓練圖像以及所述目標圖像，確定第三損失函數，包括：採用如下方式計算所述第三損失函數：
；其中，所述
表示所述第三損失函數，所述
表示判別網路，所述
表示所述第二待訓練圖像，所述
表示所述第四待訓練圖像，所述
表示所述目標圖像；所述根據所述第一損失函數、所述第二損失函數以及所述第三損失函數，確定所述目標損失函數，包括：採用如下方式計算所述目標損失函數：
；其中，所述
表示所述目標損失函數。
一種圖像融合裝置，其包括：獲取模組，用於獲取第一待融合圖像以及第二待融合圖像，其中，所述第一待融合圖像包括多個第一區域，所述第二待融合圖像包括多個第二區域；所述獲取模組，還用於根據所述第一待融合圖像獲取第一特徵集合，且根據所述第二待融合圖像獲取第二特徵集合，其中，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應；融合模組，用於通過形狀融合網路模型對所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像，其中，所述第三待融合圖像包括所述獲取模組獲取的至少一個第一編碼特徵以及至少一個第二編碼特徵；所述融合模組，還用於通過條件融合網路模型對所述第三待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像。
一種模型訓練裝置，其包括：獲取模組，用於獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合，其中，所述第一待訓練圖像包括多個第一訓練區域，所述第二待訓練圖像包括多個第二訓練區域，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應；融合模組，用於通過待訓練形狀融合網路模型對所述獲取模組獲取的所述第一待訓練圖像以及所述第二待訓練圖像進行融合處理，得到第三待訓練圖像，其中，所述第三待訓練圖像包括所述獲取模組獲取的至少一個第一編碼特徵以及至少一個第二編碼特徵；所述融合模組，還用於通過待訓練條件融合網路模型對所述第三待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第四待訓練圖像；所述融合模組，還用於通過所述待訓練形狀融合網路模型對所述第四待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第五待訓練圖像，其中，所述第五待訓練圖像與所述第一待訓練圖像具有對應的特徵；所述融合模組，還用於通過所述待訓練條件融合網路模型對所述第五待訓練圖像以及所述第四待訓練圖像進行融合處理，得到目標圖像；訓練模組，用於採用目標損失函數以及所述融合模組融合得到的所述目標圖像，對所述待訓練形狀融合網路模型以及所述待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型。
一種終端設備，其包括：記憶體、收發器、處理器以及匯流排系統；其中，所述記憶體用於存儲程式；所述處理器用於執行所述記憶體中的程式，包括如下步驟：獲取第一待融合圖像以及第二待融合圖像，其中，所述第一待融合圖像包括多個第一區域，所述第二待融合圖像包括多個第二區域；根據所述第一待融合圖像獲取第一特徵集合，且根據所述第二待融合圖像獲取第二特徵集合，其中，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應；通過形狀融合網路模型對所述第一待融合圖像以及所述第二待融合圖像進行融合處理，得到第三待融合圖像，其中，所述第三待融合圖像包括至少一個第一編碼特徵以及至少一個第二編碼特徵；通過條件融合網路模型對所述第三待融合圖像以及所述第一待融合圖像進行融合處理，得到目標融合圖像；所述匯流排系統用於連接所述記憶體以及所述處理器，以使所述記憶體以及所述處理器進行通信。
一種伺服器，其包括：記憶體、收發器、處理器以及匯流排系統；其中，所述記憶體用於存儲程式；所述處理器用於執行所述記憶體中的程式，包括如下步驟：獲取第一待訓練圖像的第一特徵集合以及第二待訓練圖像的第二特徵集合，其中，所述第一待訓練圖像包括多個第一訓練區域，所述第二待訓練圖像包括多個第二訓練區域，所述第一特徵集合包括多個第一編碼特徵，且所述第一編碼特徵與所述第一區域一一對應，所述第二特徵集合包括多個第二編碼特徵，且所述第二編碼特徵與所述第二區域一一對應；通過待訓練形狀融合網路模型對所述第一待訓練圖像以及所述第二待訓練圖像進行融合處理，得到第三待訓練圖像，其中，所述第三待訓練圖像包括至少一個第一編碼特徵以及至少一個第二編碼特徵；通過待訓練條件融合網路模型對所述第三待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第四待訓練圖像；通過所述待訓練形狀融合網路模型對所述第四待訓練圖像以及所述第一待訓練圖像進行融合處理，得到第五待訓練圖像，其中，所述第五待訓練圖像與所述第一待訓練圖像具有對應的特徵；通過所述待訓練條件融合網路模型對所述第五待訓練圖像以及所述第四待訓練圖像進行融合處理，得到目標圖像；採用目標損失函數以及所述目標圖像，對所述待訓練形狀融合網路模型以及所述待訓練條件融合網路模型進行訓練，得到形狀融合網路模型以及條件融合網路模型；所述匯流排系統用於連接所述記憶體以及所述處理器，以使所述記憶體以及所述處理器進行通信。
一種電腦可讀存儲介質，包括指令，當其在電腦上運行時，使得電腦執行如請求項1至6中任一項所述的方法，或者執行如請求項7至10中任一項所述的方法。