TWI779970B

TWI779970B - 圖像處理方法、處理器、電子設備與電腦可讀存儲介質

Info

Publication number: TWI779970B
Application number: TW110147169A
Authority: TW
Inventors: 何悅; 張韻璇; 張四維; 李誠
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-07-30
Filing date: 2019-12-03
Publication date: 2022-10-01
Also published as: JP7137006B2; KR20210057133A; WO2021017113A1; CN113569789A; CN113569791B; CN110399849B; TW202213265A; CN113569790B; TW202213275A; JP2022504579A; CN113569789B; TWI753327B; TW202105238A; CN110399849A; SG11202103930TA; TWI779969B; CN113569790A; CN113569791A; US20210232806A1

Abstract

一種圖像處理方法、處理器、電子設備與電腦可讀存儲介質其中，該圖像處理方法包含：獲取一參考人臉圖像和一參考人臉姿態圖像、對該參考人臉圖像進行編碼處理獲得該參考人臉圖像的一人臉紋理數據，並對該參考人臉姿態圖像進行人臉關鍵點提取處理獲得該參考人臉姿態圖像的一第一人臉掩膜、依據該人臉紋理數據和該第一人臉掩膜，獲得一目標圖像。

Description

圖像處理方法、處理器、電子設備與電腦可讀存儲介質

本發明是有關於一種圖像處理技術領域，特別是指一種圖像處理方法、處理器、電子設備與電腦可讀存儲介質。

隨著人工智能(artificial intelligence，AI)技術的發展，AI技術的應用也越來越多，如：透過AI技術對視訊或圖像中的人物進行“換臉”。所謂“換臉”是指保留視訊或圖像中的人臉姿態，並透過用目標人物的人臉紋理數據替換視訊或圖像中的人臉紋理數據，以實現將視訊或圖像中的人物的人臉更換為目標人物的人臉。其中，人臉姿態包括人臉輪廓的位置信息、五官的位置信息和面部表情信息，人臉紋理數據包括人臉皮膚的光澤信息、人臉皮膚的膚色信息、人臉的皺紋信息和人臉皮膚的紋理信息。

傳統方法透過將大量包含目標人物的人臉的圖像作為訓練集對神經網絡進行訓練，透過向訓練後的神經網絡輸入參考人臉姿態圖像(即包含人臉姿態信息的圖像)和包含目標人物的人臉的參考人臉圖像可獲得一張目標圖像，該目標圖像中的人臉姿態為參考人臉圖像中的人臉姿態，該目標圖像中的人臉紋理為目標人物的人臉紋理。

本發明提供一種圖像處理方法及裝置、處理器、電子設備及存儲介質。

本發明之第一方面，即在提供一種圖像處理方法。該圖像分割方法包含：獲取一參考人臉圖像和一參考人臉姿態圖像。對該參考人臉圖像進行編碼處理獲得該參考人臉圖像的一人臉紋理數據，並對該參考人臉姿態圖像進行人臉關鍵點提取處理獲得該參考人臉姿態圖像的一第一人臉掩膜。依據該人臉紋理數據和該第一人臉掩膜，獲得一目標圖像。在該方面中，透過對參考人臉圖像進行編碼處理可獲得參考人臉圖像中目標人物的人臉紋理數據，透過對參考人臉姿態圖像進行人臉關鍵點提取處理可獲得人臉掩膜，再透過對人臉紋理數據和人臉掩膜進行融合處理、編碼處理可獲得目標圖像，實現改變任意目標人物的人臉姿態。

在一種可能實現的方式中，該依據該人臉紋理數據和該第一人臉掩膜，獲得該目標圖像，進一步包括：對該人臉紋理數據進行解碼處理，獲得一第一人臉紋理數據。對該第一人臉紋理數據和該第一人臉掩膜進行n級目標處理，獲得該目標圖像。該n級目標處理包括一第m-1級目標處理和一第m級目標處理。該n級目標處理中的第1級目標處理的一輸入數據為該人臉紋理數據。該第m-1級目標處理的一輸出數據為該第m級目標處理的一輸入數據。該n級目標處理中的一第i級目標處理包括對該第i級目標處理的一輸入數據和調整該第一人臉掩膜的尺寸後獲得的數據依次進行融合處理、解碼處理。其中，n為大於或等於2的正整數、m為大於或等於2且小於或等於n的正整數、i為大於或等於1且小於或等於n的正整數。在該可能實現的方式中，透過在對第一人臉掩膜和第一人臉紋理數據進行n級目標處理的過程中對目標處理的輸入數據與調整尺寸後的第一人臉掩膜進行融合可提升第一人臉掩膜與第一人臉紋理數據融合的效果，進而提升基於對人臉紋理數據進行解碼處理和目標處理獲得目標圖像的質量。

在另一種可能實現的方式中，該對該第i級目標處理的該輸入數據和調整該第一人臉掩膜的尺寸後獲得的數據依次進行融合處理、解碼處理，進一步包括：根據該第i級目標處理的該輸入數據，獲得該第i級目標處理的一被融合數據。對該第i級目標處理的該被融合數據和一第i級人臉掩膜進行融合處理，獲得一第i級融合後的數據。該第i級人臉掩膜透過對該第一人臉掩膜進行下採樣處理獲得。該第i級人臉掩膜的尺寸與該第i級目標處理的該輸入數據的尺寸相同。對該第i級融合後的數據進行解碼處理，獲得該第i 級目標處理的一輸出數據。在該可能實現的方式中，將不同尺寸的人臉掩膜與不同級的目標處理的輸入數據融合，實現將人臉掩膜與人臉紋理數據融合，並可提升融合的效果，進而提升目標圖像的質量。

在又一種可能實現的方式中，該對該參考人臉圖像進行編碼處理獲得該參考人臉圖像的該人臉紋理數據之後，還包括：對該人臉紋理數據進行j級解碼處理。該j級解碼處理中的第1級解碼處理的一輸入數據為該人臉紋理數據。該j級解碼處理包括一第k-1級解碼處理和一第k級解碼處理。該第k-1級解碼處理的一輸出數據為該第k級解碼處理的一輸入數據。其中，j為大於或等於2的正整數、k為大於或等於2且小於或等於j的正整數。該根據該第i級目標處理的該輸入數據，獲得該第i級目標處理的該被融合數據，進一步包括：將該j級解碼處理中的一第r級解碼處理的一輸出數據與該第i級目標處理的該輸入數據進行合併，獲得一第i級合併後的數據，作為該第i級目標處理的該被融合數據。該第r級解碼處理的該輸出數據的尺寸與該第i級目標處理的該輸入數據的尺寸相同。其中，r為大於或等於1且小於或等於j的正整數。在該可能實現的方式中，將第r級解碼處理後的數據和第i級目標處理的輸入數據合併獲得第i級目標處理的被融合數據，進而在對第i級目標處理的被融合數據與第i級人臉掩膜進行融合時，可進一步提升人臉紋理數據與第一人臉掩膜的融合效果。

在又一種可能實現的方式中，該將該j級解碼處理中的該第r級解碼處理的該輸出數據與該第i級目標處理的該輸入數據進行合併，獲得該第i級合併後的數據，進一步包括：將該第r級解碼處理的該輸出數據與該第i級目標處理的該輸入數據在通道維度上合併，獲得該第i級合併後的數據。在該可能實現的方式中將第r級解碼處理的輸出數據和第i級目標處理的輸入數據在通道維度上合併實現對第r級解碼處理的輸入數據的信息與第i級目標處理的輸入數據的信息的合併，有利於提升後續基於第i級合併後的數據的獲得的目標圖像的質量。

在又一種可能實現的方式中，該第r級解碼處理包括對該第r級解碼處理的一輸入數據依次進行激活處理、反卷積處理、歸一化處理，獲得該第r級解碼處理的該輸出數據。在該可能實現的方式中，透過對人臉紋理數據進行逐級解碼處理，獲得不同尺寸下的人臉紋理數據(即不同解碼層的輸出數據)，以便在後續處理過程中對不同尺寸的人臉紋理數據與不同級的目標處理的輸入數據進行融合。

在又一種可能實現的方式中，該對該第i級目標處理的該被融合數據和該第i級人臉掩膜進行融合處理，獲得該第i級融合後的數據，進一步包括：使用一第一預定尺寸的卷積核對該第i級人臉掩膜進行卷積處理獲得一第一特徵數據，並使用一第二預定尺寸的卷積核對該第i級人臉掩膜進行卷積處理獲得一第二特徵數據。依據該第一特徵數據和該第二特徵數據確定一歸一化形式。依據該歸一化形式對該第i級目標處理的該被融合數據進行歸一化處理，獲得該第i級融合後的數據。在該可能實現的方式中，分別使用第一預定尺寸的卷積核和第二預定尺寸的卷積核對第i級人臉掩膜進行卷積處理，獲得第一特徵數據和第二特徵數據。並根據第一特徵數據和第二特徵數據對第i級目標處理的被融合數據進行歸一化處理，以提升人臉紋理數據與人臉掩膜的融合效果。

在又一種可能實現的方式中，該歸一化形式包括一目標仿射變換。依據該目標仿射變換對該第i級目標處理的該被融合數據進行仿射變換，獲得該第i級融合後的數據。在該可能實現的方式中，該歸一化形式為仿射變換，透過第一特徵數據和第二特徵數據確定仿射變換的形式，並根據仿射變換的形式對第i級目標處理的被融合數據進行仿射變換，實現對第i級目標處理的被融合數據的歸一化處理。

在又一種可能實現的方式中，該依據該人臉紋理數據和該第一人臉掩膜，獲得該目標圖像，進一步包括：對該人臉紋理數據和該第一人臉掩膜進行融合處理，獲得一目標融合數據。對該目標融合數據進行解碼處理，獲得該目標圖像。在該可能實現的方式中，透過先對人臉紋理數據和人臉掩膜進行融合處理獲得目標融合數據，再對目標融合數據進行解碼處理，可獲得目標圖像。

在又一種可能實現的方式中，該對該參考人臉圖像進行編碼處理獲得該參考人臉圖像的該人臉紋理數據，進一步包括：透過一多層編碼層對該參考人臉圖像進行逐級編碼處理，獲得該參考人臉圖像的該人臉紋理數據。該多層編碼層包括一第s層編碼層和一第s+1層編碼層。該多層編碼層中的一第1層編碼層的一輸入數據為該參考人臉圖像。該第s層編碼層的一輸出數據為該第s+1層編碼層的一輸入數據，其中，s為大於或等於1的正整數。在該可能實現的方式中，透過多層編碼層對參考人臉圖像進行逐級編碼處理，逐步從參考人臉圖像中提取出特徵信息，最終獲得人臉紋理數據。

在又一種可能實現的方式中，該多層編碼層中的每一層編碼層均包括：一卷積處理層、一歸一化處理層、一激活處理層。在該可能實現的方式中，每一層編碼層的編碼處理包括卷積處理、歸一化處理、激活處理，透過對每一層編碼層的輸入數據依次進行卷積處理、歸一化處理、激活處理可從每一層編碼層的輸入數據中提取特徵信息。

在又一種可能實現的方式中，圖像處理方法還包括：分別對該參考人臉圖像和該目標圖像進行人臉關鍵點提取處理，獲得該參考人臉圖像的一第二人臉掩膜和該目標圖像的一第三人臉掩膜。依據該第二人臉掩膜和該第三人臉掩膜之間的像素值的差異，確定一第四人臉掩膜；該參考人臉圖像中的一第一像素點的像素值與該目標圖像中的一第二像素點的像素值之間的差異與該第四人臉掩膜中的一第三像素點的值呈正相關。該第一像素點在該參考人臉圖像中的位置、該第二像素點在該目標圖像中的位置以及該第三像素點在該第四人臉掩膜中的位置均相同。將該第四人臉掩膜、該參考人臉圖像和該目標圖像進行融合處理，獲得一新的目標圖像。在該可能實現的方式中，透過對第二人臉掩膜和第三人臉掩膜獲得第四人臉掩膜，並依據第四人臉掩膜對參考人臉圖像和目標圖像進行融合可在提升目標圖像中的細節信息的同時，保留目標圖像中的五官位置信息、人臉輪廓位置信息和表情信息，進而提升目標圖像的質量。

在又一種可能實現的方式中，該根據該第二人臉掩膜和該第三人臉掩膜之間的像素值的差異，確定第四人臉掩膜，包括：依據該第二人臉掩膜和該第三人臉掩膜中相同位置的像素點的像素值之間的平均值，該第二人臉掩膜和該第三人臉掩膜中相同位置的像素點的像素值之間的方差，確定仿射變換形式。依據該仿射變換形式對該第二人臉掩膜和該第三人臉掩膜進行仿射變換，獲得該第四人臉掩膜。在該可能實現的方式中，根據第二人臉掩膜和第三人臉掩膜確定仿射變換形式，再依據仿射變換形式對第二人臉掩膜和第三人臉掩膜進行仿射變換，可確定第二人臉掩膜與第三人臉掩膜中相同位置的像素點的像素值的差異，有利於後續對像素點進行針對性的處理。

在又一種可能實現的方式中，該圖像處理方法應用於一人臉生成網絡。該人臉生成網絡的訓練過程包括：將一訓練樣本輸入至該人臉生成網絡，獲得該訓練樣本的一第一生成圖像和該訓練樣本的一第一重構圖像。該訓練樣本包括一樣本人臉圖像和一第一樣本人臉姿態圖像。該第一重構圖像透過對該樣本人臉圖像編碼後進行解碼處理獲得。根據該樣本人臉圖像和該第一生成圖像的一人臉特徵匹配度獲得一第一損失。根據該第一樣本人臉圖像中的一人臉紋理信息和該第一生成圖像中的一人臉紋理信息的差異獲得一第二損失。根據該第一樣本人臉圖像中一第四像素點的像素值和該第一生成圖像中一第五像素點的像素值的差異獲得一第三損失。根據該第一樣本人臉圖像中一第六像素點的像素值和該第一重構圖像中一第七像素點的像素值的差異獲得一第四損失。根據該第一生成圖像的真實度獲得一第五損失。該第四像素點在該第一樣本人臉圖像中的位置和該第五像素點在該第一生成圖像中的位置相同。該第六像素點在該第一樣本人臉圖像中的位置和該第七像素點在該第一重構圖像中的位置相同。該第一生成圖像的真實度越高表徵該第一生成圖像為真實圖片的概率越高。根據該第一損失、該第二損失、該第三損失、該第四損失和該第五損失，獲得該人臉生成網絡的一第一網絡損失。基於該第一網絡損失調整該人臉生成網絡的參數。在該可能實現的方式中，透過人臉生成網絡實現基於參考人臉圖像和參考人臉姿態圖像獲得目標圖像，並根據第一樣本人臉圖像、第一重構圖像和第一生成圖像獲得第一損失、第二損失、第三損失、第四損失和第五損失，再根據上述五個損失確定人臉生成網絡的第一網絡損失，並根據第一網絡損失完成對人臉生成網絡的訓練。

在又一種可能實現的方式中，該訓練樣本還包括一第二樣本人臉姿態圖像；該第二樣本人臉姿態圖像透過在該第二樣本人臉圖像中添加隨機擾動以改變該第二樣本人臉圖像的五官位置和/或人臉輪廓位置獲得。該人臉生成網絡的訓練過程還包括：將該第二樣本人臉圖像和該第二樣本人臉姿態圖像輸入至該人臉生成網絡，獲得該訓練樣本的一第二生成圖像和該訓練樣本的一第二重構圖像。該第二重構圖像透過對該第二樣本人臉圖像編碼後進行解碼處理獲得。根據該第二樣本人臉圖像和該第二生成圖像的人臉特徵匹配度獲得一第六損失。根據該第二樣本人臉圖像中的人臉紋理信息和該第二生成圖像中的人臉紋理信息的差異獲得一第七損失。根據該第二樣本人臉圖像中一第八像素點的像素值和該第二生成圖像中一第九像素點的像素值的差異獲得一第八損失。根據該第二樣本人臉圖像中一第十像素點的像素值和該第二重構圖像中一第十一像素點的像素值的差異獲得一第九損失。根據該第二生成圖像的真實度獲得一第十損失。該第八像素點在該第二樣本人臉圖像中的位置和該第九像素點在該第二生成圖像中的位置相同。該第十像素點在該第二樣本人臉圖像中的位置和該第十一像素點在該第二重構圖像中的位置相同。該第二生成圖像的真實度越高表徵該第二生成圖像為真實圖片的概率越高。根據該第六損失、該第七損失、該第八損失、該第九損失和該第十損失，獲得該人臉生成網絡的一第二網絡損失。基於該第二網絡損失調整該人臉生成網絡的參數。在該可能實現的方式中，透過將第二樣本人臉圖像和第二樣本人臉姿態圖像作為訓練集，可增加人臉生成網絡訓練集中圖像的多樣性，有利於提升人臉生成網絡的訓練效果，能提升訓練獲得的人臉生成網絡生成的目標圖像的質量。

在又一種可能實現的方式中，該獲取該參考人臉圖像和該參考人臉姿態圖像，進一步包括：接收一用戶向終端輸入的待處理人臉圖像。獲取一待處理視訊，該待處理視訊包括一人臉。將該待處理人臉圖像作為該參考人臉圖像，將該待處理視訊的圖像作為該參考人臉姿態圖像，獲得一目標視訊。在該可能實現的方式中，終端可將用戶輸入的待處理人臉圖像作為參考人臉圖像，並將獲取的待處理視頻中的圖像作為參考人臉姿態圖像，基於前面任意一種可能實現的方式，可獲得目標視頻。

本發明之第二方面，即在提供一種圖像處理裝置，該圖像處理裝置包括一獲取單元、一第一處理單元，與一第二處理單元。該獲取單元用於獲取一參考人臉圖像和一參考人臉姿態圖像。該第一處理單元用於對該參考人臉圖像進行編碼處理獲得該參考人臉圖像的一人臉紋理數據，並對該參考人臉姿態圖像進行人臉關鍵點提取處理獲得該人臉姿態圖像的一第一人臉掩膜。該第二處理單元用於依據該人臉紋理數據和該第一人臉掩膜，獲得一目標圖像。

在一種可能實現的方式中，該第二處理單元用於：對該人臉紋理數據進行解碼處理，獲得一第一人臉紋理數據，以及對該第一人臉紋理數據和該第一人臉掩膜進行n級目標處理，獲得該目標圖像。該n級目標處理包括一第m-1級目標處理和一第m級目標處理。該n級目標處理中的第1級目標處理的輸入數據為該人臉紋理數據。該第m-1級目標處理的輸出數據為該第m級目標處理的輸入數據。該n級目標處理中的第i級目標處理包括對該第i級目標處理的輸入數據和調整該第一人臉掩膜的尺寸後獲得的數據依次進行融合處理、解碼處理。其中，n為大於或等於2的正整數，m為大於或等於2且小於或等於n的正整數，i為大於或等於1且小於或等於n的正整數。

在另一種可能實現的方式中，該第二處理單元用於：根據該第i級目標處理的輸入數據，獲得該第i級目標處理的被融合數據；對該第i級目標處理的被融合數據和第i級人臉掩膜進行融合處理，獲得第i級融合後的數據；該第i級人臉掩膜透過對所述第一人臉掩膜進行下採樣處理獲得；該第i級人臉掩膜的尺寸與該第i級目標處理的輸入數據的尺寸相同；以及對該第i級融合後的數據進行解碼處理，獲得該第i級目標處理的輸出數據。

在又一種可能實現的方式中，該圖像處理裝置還包括一解碼處理單元與一第二處理單元。該解碼處理單元用於在該對該參考人臉圖像進行編碼處理獲得所該參考人臉圖像的人臉紋理數據之後，對該人臉紋理數據進行j級解碼處理。該j級解碼處理中的第1級解碼處理的輸入數據為該人臉紋理數據。該j級解碼處理包括一第k-1級解碼處理和一第k級解碼處理。該第k-1級解碼處理的輸出數據為該第k級解碼處理的輸入數據。其中，j為大於或等於2的正整數，k為大於或等於2且小於或等於j的正整數。第二處理單元用於將該j級解碼處理中的第r級解碼處理的輸出數據與該第i級目標處理的輸入數據進行合併，獲得第i級合併後的數據，作為該第i級目標處理的被融合數據。該第r級解碼處理的輸出數據的尺寸與該第i級目標處理的輸入數據的尺寸相同。其中，r為大於或等於1且小於或等於j的正整數。

在又一種可能實現的方式中，該第二處理單元用於：將該第r級解碼處理的輸出數據與該第i級目標處理的輸入數據在通道維度上合併，獲得該第i級合併後的數據。

在又一種可能實現的方式中，該第r級解碼處理包括：對該第r級解碼處理的輸入數據依次進行激活處理、反卷積處理、歸一化處理，獲得該第r級解碼處理的一輸出數據。

在又一種可能實現的方式中，該第二處理單元用於：使用第一預定尺寸的卷積核對該第i級人臉掩膜進行卷積處理獲得一第一特徵數據，並使用第二預定尺寸的卷積核對該第i級人臉掩膜進行卷積處理獲得一第二特徵數據；以及依據該第一特徵數據和所述第二特徵數據確定一歸一化形式；以及依據該歸一化形式對該第i級目標處理的被融合數據進行歸一化處理，獲得該第i級融合後的數據。

在又一種可能實現的方式中，該歸一化形式包括一目標仿射變換。該第二處理單元用於：依據該目標仿射變換對該第i級目標處理的被融合數據進行仿射變換，獲得該第i級融合後的數據。

在又一種可能實現的方式中，該第二處理單元用於：對該人臉紋理數據和該第一人臉掩膜進行融合處理，獲得目標融合數據；以及對該目標融合數據進行解碼處理，獲得該目標圖像。

在又一種可能實現的方式中，該第一處理單元用於：透過多層編碼層對該參考人臉圖像進行逐級編碼處理，獲得該參考人臉圖像的人臉紋理數據。該多層編碼層包括一第s層編碼層和一第s+1層編碼層。該多層編碼層中的第1層編碼層的輸入數據為該參考人臉圖像。該第s層編碼層的輸出數據為該第s+1層編碼層的輸入數據。其中，s為大於或等於1的正整數。

在又一種可能實現的方式中，該多層編碼層中的每一層編碼層均包括：一卷積處理層、一歸一化處理層、一激活處理層。

在又一種可能實現的方式中，該圖像處理裝置還包括一人臉關鍵點提取處理單元、一確定單元、一融合處理單元。該人臉關鍵點提取處理單元用於分別對該參考人臉圖像和該目標圖像進行人臉關鍵點提取處理，獲得該參考人臉圖像的一第二人臉掩膜和該目標圖像的一第三人臉掩膜。該確定單元用於依據該第二人臉掩膜和該第三人臉掩膜之間的像素值的差異，確定一第四人臉掩膜。該參考人臉圖像中的第一像素點的像素值與該目標圖像中的第二像素點的像素值之間的差異與該第四人臉掩膜中的第三像素點的值呈正相關。該第一像素點在該參考人臉圖像中的位置、該第二像素點在該目標圖像中的位置以及該第三像素點在該第四人臉掩膜中的位置均相同。該融合處理單元用於將該第四人臉掩膜、該參考人臉圖像和該目標圖像進行融合處理，獲得新的目標圖像。

在又一種可能實現的方式中，該確定單元用於：依據該第二人臉掩膜和該第三人臉掩膜中相同位置的像素點的像素值之間的平均值。該第二人臉掩膜和該第三人臉掩膜中相同位置的像素點的像素值之間的方差，確定仿射變換形式；以及依據該仿射變換形式對該第二人臉掩膜和該第三人臉掩膜進行仿射變換，獲得該第四人臉掩膜。

在又一種可能實現的方式中，該圖像處理裝置執行的圖像處理方法應用於一人臉生成網絡。該圖像處理裝置用於執行該人臉生成網絡訓練過程。該人臉生成網絡的訓練過程包括：將訓練樣本輸入至該人臉生成網絡，獲得該訓練樣本的第一生成圖像和該訓練樣本的第一重構圖像，該訓練樣本包括樣本人臉圖像和第一樣本人臉姿態圖像，該第一重構圖像透過對該樣本人臉圖像編碼後進行解碼處理獲得；根據該樣本人臉圖像和該第一生成圖像的人臉特徵匹配度獲得一第一損失；根據該第一樣本人臉圖像中的人臉紋理信息和該第一生成圖像中的人臉紋理信息的差異獲得一第二損失；根據該第一樣本人臉圖像中第四像素點的像素值和該第一生成圖像中第五像素點的像素值的差異獲得一第三損失；根據該第一樣本人臉圖像中第六像素點的像素值和該第一重構圖像中第七像素點的像素值的差異獲得一第四損失；根據該第一生成圖像的真實度獲得一第五損失；該第四像素點在該第一樣本人臉圖像中的位置和該第五像素點在該第一生成圖像中的位置相同；該第六像素點在該第一樣本人臉圖像中的位置和該第七像素點在該第一重構圖像中的位置相同；該第一生成圖像的真實度越高表徵該第一生成圖像為真實圖片的概率越高；根據該第一損失、該第二損失、該第三損失、該第四損失和該第五損失，獲得該人臉生成網絡的第一網絡損失；基於該第一網絡損失調整該人臉生成網絡的參數。

在又一種可能實現的方式中，該訓練樣本還包括第二樣本人臉姿態圖像；該第二樣本人臉姿態圖像透過在該第二樣本人臉圖像中添加隨機擾動以改變該第二樣本圖像的五官位置和/或人臉輪廓位置獲得；該人臉生成網絡的訓練過程還包括：將該第二樣本人臉圖像和第二樣本人臉姿態圖像輸入至該人臉生成網絡，獲得該訓練樣本的第二生成圖像和該訓練樣本的第二重構圖像；該第二重構圖像透過對該第二樣本人臉圖像編碼後進行解碼處理獲得；根據該第二樣本人臉圖像和該第二生成圖像的人臉特徵匹配度獲得第六損失；根據該第二樣本人臉圖像中的人臉紋理信息和該第二生成圖像中的人臉紋理信息的差異獲得第七損失；根據該第二樣本人臉圖像中第八像素點的像素值和該第二生成圖像中第九像素點的像素值的差異獲得第八損失；根據該第二樣本人臉圖像中第十像素點的像素值和該第二重構圖像中第十一像素點的像素值的差異獲得第九損失；根據該第二生成圖像的真實度獲得第十損失；該第八像素點在該第二樣本人臉圖像中的位置和該第九像素點在該第二生成圖像中的位置相同；該第十像素點在該第二樣本人臉圖像中的位置和該第十一像素點在該第二重構圖像中的位置相同；該第二生成圖像的真實度越高表徵該第二生成圖像為真實圖片的概率越高；根據該第六損失、該第七損失、該第八損失、該第九損失和該第十損失，獲得該人臉生成網絡的第二網絡損失；基於該第二網絡損失調整該人臉生成網絡的參數。

在又一種可能實現的方式中，該獲取單元用於：接收用戶向終端輸入的待處理人臉圖像；以及獲取待處理視頻，該待處理視頻包括人臉；以及將該待處理人臉圖像作為該參考人臉圖像，將該待處理視頻的圖像作為該人臉姿態圖像，獲得目標視頻。

本發明之第三方面，即在提供一種處理器，用於執行第一方面及其任意一種可能實現方式的圖像處理方法。

本發明之第四方面，即在提供一種執行第一方面及其任意一種可能實現方式的圖像處理方法的電子設備，該電子設備包括一用於儲存一包括一電腦指令的電腦程式代碼的記憶體和一執行該電腦指令的處理器。

本發明之第五方面，即在提供一種用於儲存一包括一程序指令的電腦程式的電腦可讀存儲介質，該程序指令被一處理器執行時執行第一方面及其任意一種可能實現方式圖像處理方法。

本發明之第六方面，提供了一種電腦程式，該電腦程式包括一電腦可讀代碼，當該電腦可讀代碼在電子設備中運行時，該電子設備中的處理器執行用於實現第一方面及其任意一種可能實現方式的圖像處理方法。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本發明。

101:獲取參考人臉圖像的步驟

102:獲得第一人臉掩膜的步驟

103:獲得目標圖像的步驟

A、B:數據

a~h:元素

501:透過多層編碼層的步驟

601:獲得第一人臉紋理數據的步驟

602:獲得目標圖像的步驟

901:進行人臉關鍵點提取處理的步驟

902:確定第四人臉掩膜的步驟

903:獲得新的目標圖像的步驟

c:參考人臉姿態圖像

d:參考人臉圖像

e:目標圖像

1:圖像處理裝置

11:獲取單元

12:第一處理單元

13:第二處理單元

14:解碼處理單元

15:人臉關鍵點提取處理單元

16:確定單元

17:融合處理單元

2:圖像處理裝置

21:處理器

22:記憶體

23:輸入裝置

24:輸出裝置

本發明的其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是本發明圖像處理方法之一實施例的一流程圖；圖2是該實施例的一人臉關鍵點的示意圖；圖3是該實施例的一種解碼層和融合處理的示意圖；圖4是該實施例提供的一種不同圖像中相同位置的元素的示意圖；圖5是該實施例的另一種圖像處理方法的流程圖；圖6為本發明實施例提供的另一種圖像處理方法的流程圖；圖7為本發明實施例提供的一種解碼層和目標處理的示意圖；圖8為本發明實施例提供的另一種解碼層和目標處理的示意圖；圖9為本發明實施例提供的另一種圖像處理方法的流程圖；圖10為本發明實施例提供的一種人臉生成網絡的示意圖；圖11為本發明實施例提供的一種基於參考人臉圖像和參考人臉姿態圖像獲得的目標圖像的示意圖；圖12為本發明實施例提供的一種圖像處理裝置的示意圖；及圖13為本發明實施例提供的一種圖像處理裝置的硬體方塊圖。

在本發明被詳細描述前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

為了使本技術領域的人員更好地理解本發明方案，下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬本發明保護的範圍。本發明的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用於區別不同對象，而不是用於描述特定順序。此外，術語“包括”和“具有”以及它們任何變形，意圖在於覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統、產品或設備沒有限定於已列出的步驟或單元，而是可選地還包括沒有列出的步驟或單元，或可選地還包括對於這些過程、方法、產品或設備固有的其他步驟或單元。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。在本文中提及“實施例”意味著，結合實施例描述的特定特徵、結構或特性可以包含在本發明的至少一個實施例中。在說明書中的各個位置出現該短語並不一定均是指相同的實施例，也不是與其它實施例互斥的獨立的或備選的實施例。本領域技術人員顯式地和隱式地理解的是，本文所描述的實施例可以與其它實施例相結合。

應用本發明實施例提供的技術方案可實現將參考人臉圖像中目標人物的面部表情、五官和人臉輪廓更換為參考人臉姿態圖像的面部表情、人臉輪廓和五官，而保留參考人臉圖像中的人臉紋理數據，得到目標圖像。其中，目標圖像中的面部表情、五官和人臉輪廓與參考人臉姿態圖像中的面部表情、五官和人臉輪廓的匹配度高，表徵目標圖像的質量高。同時，目標圖像中的人臉紋理數據與參考人臉圖像中的人臉紋理數據的匹配度高，也表徵目標圖像的質量高。下面結合本發明實施例中的附圖對本發明實施例進行描述。

請參閱圖1，本發明圖像處理方法之一實施例的流程圖，該圖像處理方法可以由終端設備或服務器或其它處理設備執行，其中，終端設備可以為用戶設備(User Equipment，UE)、移動設備、用戶終端、終端、蜂窩電話、無繩電話、個人數位助理(Personal Digital Assistant，PDA)、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中，該圖像處理方法可以透過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。圖像處理方法包含步驟101~103。

步驟101、獲取參考人臉圖像和參考人臉姿態圖像。

本發明實施例中，參考人臉圖像指包括目標人物的人臉圖像，其中，目標人物指待更換表情和人臉輪廓的人物。舉例來說，張三想要將自己的一張自拍照a中的表情和人臉輪廓更換為圖像b中的表情和人臉輪廓，那麼自拍照a為參考人臉圖像，張三為目標人物。

本發明實施例中，參考人臉姿態圖像可以是任意一張包含人臉的圖像。獲取參考人臉圖像和/或參考人臉姿態圖像的方式可以是接收用戶透過輸入組件輸入的參考人臉圖像和/或參考人臉姿態圖像，其中，輸入組件包括：鍵盤、鼠標、觸控屏、觸控板和音頻輸入器等。也可以是接收終端發送的參考人臉圖像和/或參考人臉姿態圖像，其中，終端包括手機、電腦、平板電腦、服務器等。本發明對獲取參考人臉圖像和參考人臉姿態圖像的方式不做限定。

步驟102、對參考人臉圖像進行編碼處理獲得參考人臉圖像的人臉紋理數據，並對參考人臉姿態圖像進行人臉關鍵點提取處理獲得人臉姿態圖像的第一人臉掩膜。

本發明實施例中，編碼處理可以是卷積處理，也可以是卷積處理、歸一化處理和激活處理的組合。

在一種可能實現的方式中，依次透過多層編碼層對參考人臉圖像進行逐級編碼處理，其中，每一層編碼層均包含卷積處理、歸一化處理和激活處理，且卷積處理、歸一化處理和激活處理依次串聯，即卷積處理的輸出數據為歸一化處理的輸入數據，歸一化處理的輸出數據為激活處理的輸入數據。卷積處理可透過卷積核對輸入編碼層的數據進行卷積實現，透過對編碼層的輸入數據進行卷積處理，可從編碼層的輸入數據中提取出特徵信息，並縮小編碼層的輸入數據的尺寸，以減小後續處理的計算量。而透過對卷積處理後的數據進行歸一化處理，可去除卷積處理後的數據中不同數據之間的相關性，突出卷積處理後的數據中不同數據之間的分佈差異，有利於透過後續處理從歸一化處理後的數據中繼續提取特徵信息。激活處理可透過將歸一化處理後的數據代入激活函數實現，可選的，激活函數為線性整流函數(rectified linear unit，ReLU)。

本發明實施例中，人臉紋理數據至少包括人臉皮膚的膚色信息、人臉皮膚的光澤度信息、人臉皮膚的皺紋信息、人臉皮膚的紋理信息。

本發明實施例中，人臉關鍵點提取處理指提取出參考人臉姿態圖像中的人臉輪廓的位置信息、五官的位置信息以及面部表情信息，其中，人臉輪廓的位置信息包括人臉輪廓上的關鍵點在參考人臉姿態圖像坐標系下的坐標，五官的位置信息包括五官關鍵點在參考人臉姿態圖像坐標系下的坐標。

舉例來說，如圖2所示，人臉關鍵點包含人臉輪廓關鍵點和五官關鍵點。五官關鍵點包括眉毛區域的關鍵點、眼睛區域的關鍵點、鼻子區域的關鍵點、嘴巴區域的關鍵點、耳朵區域的關鍵點。人臉輪廓關鍵點包括人臉輪廓線上的關鍵點。需要理解的是圖2所示人臉關鍵點的數量和位置僅為本發明實施例提供的一個示例，不應對本發明構成限定。

上述人臉輪廓關鍵點和五官關鍵點可根據用戶實施本發明實施例的實際效果進行調整。上述人臉關鍵點提取處理可透過任意人臉關鍵點提取算法實現，本發明對此不作限定。

本發明實施例中，第一人臉掩膜包括人臉輪廓關鍵點的位置信息和五官關鍵點的位置信息，以及面部表情信息。為表述方便，下文將人臉關鍵點的位置信息與面部表情信息稱為人臉姿態。

需要理解的是，本發明實施例中，獲得參考人臉圖像的人臉紋理數據和獲得人臉姿態圖像的第一人臉掩膜兩個處理過程之間不存在先後順序，可以是先獲得參考人臉圖像的人臉紋理數據再獲得參考人臉姿態圖像的第一人臉掩膜。也可以是先獲得參考人臉姿態圖像的第一人臉掩膜再獲得參考人臉圖像的人臉紋理數據。還可以是在對參考人臉圖像進行編碼處理獲得參考人臉圖像的人臉紋理數據的同時，對參考人臉姿態圖像進行人臉關鍵點提取處理獲得人臉姿態圖像的第一人臉掩膜。

步驟103、依據人臉紋理數據和第一人臉掩膜，獲得目標圖像。

由於對同一個人而言，人臉紋理數據是固定不變的，即如果不同的圖像中包含的人物相同，則對不同的圖像進行編碼處理獲得人臉紋理數據是相同的，也就是說，好比指紋信息、虹膜信息可作為一個人的身份信息，人臉紋理數據也可視為一個人的身份信息。因此，若透過將大量包含同一個人物的圖像作為訓練集對神經網絡進行訓練，該神經網絡將透過訓練學習到圖像中的人物的人臉紋理數據，得到訓練後的神經網絡。由於訓練後的神經網絡包含圖像中的人物的人臉紋理數據，在使用訓練後的神經網絡生成圖像時，也可以得到包含該人物的人臉紋理數據的圖像。舉例來說，將2000張包含李四的人臉的圖像作為訓練集對神經網絡進行訓練，則神經網絡在訓練的過程中將從這2000張圖像中學習到李四的人臉紋理數據。在應用訓練後的神經網絡生成圖像時，無論輸入的參考人臉圖像中包含的人物是否是李四，最終得到的目標圖像中的人臉紋理數據均為李四的人臉紋理數據，也就是說目標圖像中的人物是李四。

在步驟102中，本發明實施例透過對參考人臉圖像進行編碼處理以獲得參考人臉圖像中的人臉紋理數據，而不從參考人臉圖像中提取人臉姿態，以實現從任意一張參考人臉圖像中獲得目標人物人臉紋理數據，且目標人物的人臉紋理數據不包含目標人物的人臉姿態。再透過對參考人臉姿態圖像進行人臉關鍵點提取處理以獲得參考人臉姿態圖像的第一人臉掩膜，而不從參考人臉姿態圖像中提取人臉紋理數據，以實現獲得任意目標人臉姿態(用於替換參考人臉圖像中的人物的人臉姿態)，且目標人臉姿態不包含參考人臉姿態圖像中的人臉紋理數據。這樣，再透過對人臉紋理數據和第一人臉掩膜進行解碼、融合等處理可提高獲得的目標圖像中的人物的人臉紋理數據與參考人臉圖像的人臉紋理數據的匹配度，且可提高目標圖像中的人臉姿態與參考人臉姿態圖像中的人臉姿態的匹配度，進而提升目標圖像的質量。其中，目標圖像的人臉姿態與參考人臉姿態圖像的人臉姿態的匹配度越高，表徵目標圖像中的人物的五官、輪廓和面部表情與參考人臉姿態圖像中的人物的五官、輪廓和面部表情的相似度就越高。目標圖像中的人臉紋理數據與參考人臉圖像中的人臉紋理數據的匹配度越高，表徵目標圖像中的人臉皮膚的膚色、人臉皮膚的光澤度信息、人臉皮膚的皺紋信息、人臉皮膚的紋理信息與參考人臉圖像中的人臉皮膚的膚色、人臉皮膚的光澤度信息、人臉皮膚的皺紋信息、人臉皮膚的紋理信息的相似度就越高(在用戶的視覺感受上，目標圖像中的人物與參考人臉圖像中的人物就越像同一個人)。

在一種可能實現的方式中，將人臉紋理數據和第一人臉掩膜融合，獲得既包含目標人物的人臉紋理數據又包含目標人臉姿態的融合數據，再透過對融合數據進行解碼處理，即可獲得目標圖像。其中，解碼處理可以是反卷積處理。

在另一種可能實現的方式中，透過多層解碼層對人臉紋理數據進行逐級解碼處理，可獲得不同尺寸下的解碼後的人臉紋理數據(即不同的解碼層輸出的解碼後的人臉紋理數據的尺寸不同)，再透過將每一層解碼層的輸出數據與第一人臉掩膜進行融合，可提升人臉紋理數據與第一人臉掩膜在不同尺寸下的融合效果，有利於提升最終獲得的目標圖像的質量。舉例來說，如圖3所示，人臉紋理數據依次經過第一層解碼層，第二層解碼層，…，第八層解碼層的解碼處理獲得目標圖像。其中，將第一層解碼層的輸出數據與第一級人臉掩膜融合後的數據作為第二層解碼層的輸入數據，將第二層解碼層的輸出數據與第二級人臉掩膜融合後的數據作為第三層解碼層的輸入數據，…，將第七層解碼層的輸出數據與第七級人臉掩膜融合後的數據作為第八層解碼層的輸入數據，最終將第八層解碼層的輸出數據作為目標圖像。該第七級人臉掩膜為參考人臉姿態圖像的第一人臉掩膜，第一級人臉掩膜，第二級人臉掩膜，…，第六級人臉掩膜均可透過對參考人臉姿態圖像的第一人臉掩膜進行下採樣處理獲得。第一級人臉掩膜的尺寸與第一層解碼層的輸出數據的尺寸相同，第二級人臉掩膜的尺寸與第二層解碼層的輸出數據的尺寸相同，…，第七級人臉掩膜的尺寸與第七層解碼層的輸出數據的尺寸相同。該下採樣處理可以是線性插值、最近鄰插值、雙線性插值。

需要理解的是，圖3中的解碼層的數量僅是本實施例提供一個示例，不應對本發明構成限定。

上述融合可以是對進行融合的兩個數據在通道維度上合併(concatenate)。例如，第一級人臉掩膜的通道數為3，第一層解碼層的輸出數據的通道數為2，則將第一級人臉掩膜與第一層解碼層的輸出數據融合得到的數據的通道數為5。

上述融合也可以是將進行融合的兩個數據中的相同位置的元素相加。其中，兩個數據中的相同位置的元素可參見圖4，元素a在數據A中的位置與元素e在數據B中的位置相同，元素b在數據 A中的位置與元素f在數據B中的位置相同，元素c在數據A中的位置與元素g在數據B中的位置相同，元素d在數據A中的位置與元素h在數據B中的位置相同。

本實施例透過對參考人臉圖像進行編碼處理可獲得參考人臉圖像中目標人物的人臉紋理數據，透過對參考人臉姿態圖像進行人臉關鍵點提取處理可獲得第一人臉掩膜，再透過對人臉紋理數據和第一人臉掩膜進行融合處理、解碼處理可獲得目標圖像，實現改變任意目標人物的人臉姿態。

請參閱圖5，圖5是本發明一實施例提供的上述步驟102的一種可能實現方式，包含子步驟501。

子步驟501、透過多層編碼層對參考人臉圖像進行逐級編碼處理，獲得參考人臉圖像的人臉紋理數據，並對參考人臉姿態圖像進行人臉關鍵點提取處理獲得人臉姿態圖像的第一人臉掩膜。

對參考人臉姿態圖像進行人臉關鍵點提取處理獲得參考人臉姿態圖像的第一人臉掩膜的過程可參見步驟102，此處將不再贅述。

本實施例中，編碼層的數量大於或等於2，多層編碼層中的每個編碼層依次串聯，即上一層編碼層的輸出數據為下一層編碼層的輸入數據。假定多層編碼層包括第s層編碼層和第s+1層編碼層，則多層編碼層中的第1層編碼層的輸入數據為參考人臉圖像，第s層編碼層的輸出數據為第s+1層編碼層的輸入數據，最後一層編碼層的輸出數據為參考人臉圖像的人臉紋理數據。其中，每一層編碼層均包括卷積處理層、歸一化處理層、激活處理層，s為大於或等於1的正整數。透過多層編碼層對參考人臉圖像進行逐級編碼處理可從參考人臉圖像中提取出人臉紋理數據，其中，每層編碼層提取出的人臉紋理數據均不一樣。具體表現為，經過多層編碼層的編碼處理一步步地將參考人臉圖像中的人臉紋理數據提取出來，同時也將逐步去除相對次要的信息(此處的相對次要的信息指非人臉紋理數據，包括人臉的毛髮信息、輪廓信息)。因此，越到後面提取出的人臉紋理數據的尺寸越小，且人臉紋理數據中包含的人臉皮膚的膚色信息、人臉皮膚的光澤度信息、人臉皮膚的皺紋信息和人臉皮膚的紋理信息越濃縮。這樣，可在獲得參考人臉圖像的人臉紋理數據的同時，將圖像的尺寸縮小，減小系統的計算量，提高運算速度。

在一種可能實現的方式中，每層編碼層均包括卷積處理層、歸一化處理層、激活處理層，且這3個處理層依次串聯，即卷積處理層的輸入數據為編碼層的輸入數據，卷積處理層的輸出數據為歸一化處理層的輸入數據，歸一化處理層的輸出數據為激活處理層的輸出數據，最終經歸一化處理層獲得編碼層的輸出數據。卷積處理層的功能實現過程如下：對編碼層的輸入數據進行卷積處理，即利用卷積核在編碼層的輸入數據上滑動，並將編碼層的輸入數據中元素的值分別與卷積核中所有元素的值相乘，然後將相乘後得到的所有乘積的和作為該元素的值，最終滑動處理完編碼層的輸入數據中所有的元素，得到卷積處理後的數據。歸一化處理層可透過將卷積處理後的數據輸入至批歸一化處理(batch norm，BN)層實現，透過BN層對卷積處理後的數據進行批歸一化處理使卷積處理後的數據符合均值為0且方差為1的正態分佈，以去除卷積處理後的數據中數據之間的相關性，突出卷積處理後的數據中數據之間的分佈差異。由於前面的卷積處理層以及歸一化處理層從數據中學習複雜映射的能力較小，僅透過卷積處理層和歸一化處理層無法處理複雜類型的數據，例如圖像。因此，需要透過對歸一化處理後的數據進行非線性變換，以處理諸如圖像等複雜數據。在BN層後連接非線性激活函數，透過非線性激活函數對歸一化處理後的數據進行非線性變換實現對歸一化處理後的數據的激活處理，以提取參考人臉圖像的人臉紋理數據。可選的，該非線性激活函數為ReLU。

本實施例透過對參考人臉圖像進行逐級編碼處理，縮小參考人臉圖像的尺寸獲得參考人臉圖像的人臉紋理數據，可減小後續基於人臉紋理數據進行處理的數據處理量，提高處理速度，且後續處理可基於任意參考人臉圖像的人臉紋理數據以及任意人臉姿態(即第一人臉掩膜)獲得目標圖像，以獲得參考人臉圖像中的人物在任意人臉姿態下的圖像。

請參閱圖6，圖6為本發明一實施例提供的上述步驟103的一種可能實現的方式的流程示意圖，包含子步驟601~602。

子步驟601、對人臉紋理數據進行解碼處理，獲得第一人臉紋理數據。

解碼處理為編碼處理的逆過程，透過對人臉紋理數據進行解碼處理可獲得參考人臉圖像，但為了將人臉掩膜與人臉紋理數據融合，以獲得目標圖像，本實施例透過對人臉紋理數據進行多級解碼處理，並在多級解碼處理的過程中將人臉掩膜與人臉紋理數據融合。

在一種可能實現的方式中，如圖7所示，人臉紋理數據將依次經過第一層生成解碼層，第二層生成解碼層(即第一級目標處理中的生成解碼層)，…，第七層生成解碼層的解碼處理(即第六級目標處理中的生成解碼層)，最終獲得目標圖像。其中，將人臉紋理數據輸入至第一層生成解碼層進行解碼處理，獲得第一人臉紋理數據。在其他實施例中，人臉紋理數據也可以先經過前幾層(如前兩層)生成解碼層進行解碼處理，獲得第一人臉紋理數據。

子步驟602、對第一人臉紋理數據和第一人臉掩模進行n級目標處理，獲得目標圖像。

本實施例中，n為大於或等於2的正整數，目標處理包括融合處理和解碼處理，第一人臉紋理數據為第一級目標處理的輸入數據，即將第一人臉紋理數據作為第一級目標處理的被融合數據，對第一級目標處理的被融合數據與第一級人臉掩膜進行融合處理獲得第一級融合後的數據，再對第一級融合後的數據進行解碼處理獲得第一級目標處理的輸出數據，作為第二級目標處理的被融合數據，第二級目標處理再對第二級目標處理的輸入數據與第二級人臉掩膜進行融合處理獲得第二級融合後的數據，再對第二級融合後的數據進行解碼處理獲得第二級目標處理的輸出數據，作為第三級目標處理的被融合數據，…，直到獲得第n級目標處理的數據，作為目標圖像。該第n級人臉掩膜為參考人臉姿態圖像的第一人臉掩膜，第一級人臉掩膜，第二級人臉掩膜，…，第(n-1)級人臉掩膜均可透過對參考人臉姿態圖像的第一人臉掩膜進行下採樣處理獲得。且第一級人臉掩膜的尺寸與第一級目標處理的輸入數據的尺寸相同，第二級人臉掩膜的尺寸與第二級目標處理的輸入數據的尺寸相同，…，第n級人臉掩膜的尺寸與第n級目標處理的輸入數據的尺寸相同。

可選的，本實施中的解碼處理均包括反卷積處理和歸一化處理。n級目標處理中的任意一級目標處理透過對該目標處理的輸入數據和調整第一人臉掩膜的尺寸後獲得的數據依次進行融合處理、解碼處理實現。舉例來說，n級目標處理中的第i級目標處理透過對第i級目標處理的輸入數據和調整第一人臉掩膜的尺寸後獲得的數據先進行融合處理獲得第i級目標融合數據，再對第i級目標融合數據進行解碼處理，獲得第i級目標處理的輸出數據，即完成對第i級目標處理的輸入數據的第i級目標處理。

透過將不同尺寸的人臉掩膜(即調整第一人臉掩膜的尺寸後獲得的數據)與不同級的目標處理的輸入數據融合可提升人臉紋理數據與第一人臉掩膜的融合效果，有利於提升最終獲得的目標圖像的質量。

上述調整第一人臉掩膜的尺寸可以是對第一人臉掩膜進行上採樣處理，也可以是對第一人臉掩膜進行下採樣處理，本發明對此不作限定。

在一種可能實現的方式中，如圖7所示，第一人臉紋理數據依次經過第一級目標處理，第二級目標處理，…，第六級目標處理獲得目標圖像。由於若直接將不同尺寸的人臉掩膜與不同級目標處理的輸入數據進行融合，再透過解碼處理中的歸一化處理對融合後的數據進行歸一化處理時會使不同尺寸的人臉掩膜中的信息流失，進而降低最終得到的目標圖像的質量。本實施例根據不同尺寸的人臉掩膜確定歸一化形式，並依據歸一化形式對目標處理的輸入數據進行歸一化處理，實現將第一人臉掩膜與目標處理的數據進行融合。這樣可更好的將第一人臉掩膜中每個元素包含的信息與目標處理的輸入數據中相同位置的元素包含的信息融合，有利於提升目標圖像中每個像素點的質量。可選的，使用第一預定尺寸的卷積核對第i級人臉掩膜進行卷積處理獲得第一特徵數據，並使用第二預定尺寸的卷積核對第i級人臉掩膜進行卷積處理獲得第二特徵數據。再依據第一特徵數據和該第二特徵數據確定歸一化形式。其中，第一預定尺寸和第二預定尺寸不同，i為大於或等於1且小於或等於n的正整數。

在一種可能實現的方式中，透過對第i級目標處理的輸入數據進行仿射變換可實現對第i級目標處理的非線性變換，以實現更複雜的映射，有利於後續基於非線性歸一化後的數據生成圖像。假設第i級目標處理的輸入數據為β=x _1→m，共m個數據，輸出是y _i=BN(x)，對第i級目標處理的輸入數據進行仿射變換即對第i級目標處理的輸入數據進行如下操作：首先，求出該i級目標處理的輸入數據β=x _1→m的平均值，即

。再根據上述平均值μ_β，確定上述i級目標處理的輸入數據的方差，即

。然後根據上述平均值μ_β 和方差

，對該i級目標處理的輸入數據進行仿射變換，得到

。最後，基於縮放變量γ和平移變量δ，得到仿射變換的結果，即

δ。其中γ和δ可依據第一特徵數據和第二特徵數據獲得。例如，將第一特徵數據作為縮放變量γ，將第二特徵數據作為δ。在確定歸一化形式後，可依據歸一化形式對第i級目標處理的輸入數據進行歸一化處理，獲得第i級融合後的數據。再對第i級融合後的數據進行解碼處理，可獲得第i級目標處理的輸出數據。

為了更好的融合第一人臉掩膜和人臉紋理數據，可對參考人臉圖像的人臉紋理數據進行逐級解碼處理，獲得不同尺寸的人臉紋理數據，再將相同尺寸的人臉掩膜和目標處理的輸出數據融合，以提升第一人臉掩膜和人臉紋理數據的融合效果，提升目標圖像的質量。本實施例中，對參考人臉圖像的人臉紋理數據進行j級解碼處理，以獲得不同尺寸的人臉紋理數據。該j級解碼處理中的第1級解碼處理的輸入數據為人臉紋理數據，j級解碼處理包括第k-1級解碼處理和第k級解碼處理，第k-1級解碼處理的輸出數據為該第k級解碼處理的輸入數據。每一級解碼處理均包括激活處理、反卷積處理、歸一化處理，即對解碼處理的輸入數據依次進行激活處理、反卷積處理、歸一化處理可獲得解碼處理的輸出數據。其中，j為大於或等於2的正整數，k為大於或等於2且小於或等於j的正整數。

在一種可能實現的方式中，如圖8所示，重構解碼層的數量與目標處理的數量相同，且第r級解碼處理的輸出數據(即第r級重構解碼層的輸出數據)的尺寸與第i級目標處理的輸入數據的尺寸相同。透過將第r級解碼處理的輸出數據與第i級目標處理的輸入數據進行合併，獲得第i級合併後的數據，此時將第i級合併後的數據作為第i級目標處理的被融合數據，再對第i級被融合後的數據進行第i級目標處理，獲得第i級目標處理的輸出數據。透過上述方式，可將不同尺寸下的參考人臉圖像的人臉紋理數據更好的利用到獲得目標圖像的過程中，有利於提升獲得的目標圖像的質量。可選的，上述合併包括在通道維度上合併(concatenate)。此處對第i級被融合後的數據進行第i級目標處理的過程可參見上一種可能實現的方式。

需要理解的是，圖7中的目標處理中第i級被融合的數據為第i級目標處理的輸入數據，而在圖8中第i級被融合的數據為第i級目標處理的輸入數據與第r級解碼處理的輸出數據合併後獲得的數據，而後續對第i級被融合後的數據和第i級人臉掩膜進行融合處理的過程均相同。

需要理解的是，圖7和圖8中目標處理的數量以及圖8中合併的次數均為本發明實施例提供的示例，不應對本發明構成限定。例如，圖8包含6次合併，即每一層解碼層的輸出數據將與相同尺寸的目標處理的輸入數據進行合併。雖然每一次合併對最終獲得的目標圖像的質量會有提升(即合併的次數越多，目標圖像的質量越好)，但每一次合併將帶來較大的數據處理量，所需耗費的處理資源(此處為本實施例的執行主體的計算資源)也將增大，因此合併的次數可根據用戶的實際使用情況進行調整，例如可以使用部分(如最後一層或多層)重構解碼層的輸出數據與相同尺寸的目標處理的輸入數據進行合併。

本實施例透過在對人臉紋理數據進行逐級目標處理的過程中，將透過調整第一人臉掩膜的尺寸獲得的不同尺寸的人臉掩膜與目標處理的輸入數據進行融合，提升第一人臉掩膜與人臉紋理數據的融合效果，進而提升目標圖像的人臉姿態與參考人臉姿態圖像的人臉姿態的匹配度。透過對參考人臉圖像的人臉紋理數據進行逐級解碼處理，獲得不同尺寸的解碼後的人臉紋理數據(即不同的重構解碼層的輸出數據的尺寸不同)，並將相同尺寸的解碼後的人臉紋理數據和目標處理的輸入數據融合，可進一步提升第一人臉掩膜與人臉紋理數據的融合效果，進而提升目標圖像的人臉紋理數據與參考人臉圖像的人臉紋理數據的匹配度。在透過本實施例提供的方法提升以上兩個匹配度的情況下，可提升目標圖像的質量。

本發明實施例還提供了一種透過對參考人臉圖像的人臉掩膜和目標圖像的人臉掩膜進行處理的方案，豐富目標圖像中的細節(包括鬍鬚信息、皺紋信息以及皮膚的紋理信息)，進而提升目標圖像的質量。請參閱圖9，圖9是本發明圖像處理方法的另一種實施例的流程圖，包含步驟901~903。

步驟901、分別對參考人臉圖像和目標圖像進行人臉關鍵點提取處理，獲得參考人臉圖像的第二人臉掩膜和目標圖像的第三人臉掩膜。

本實施例中，人臉關鍵點提取處理可從圖像中提取出人臉輪廓的位置信息、五官的位置信息以及面部表情信息。透過分別對參考人臉圖像和目標圖像進行人臉關鍵點提取處理，可獲得參考人臉圖像的第二人臉掩膜和目標圖像的第三人臉掩膜。第二人臉掩膜的尺寸以及第三人臉掩膜的尺寸以及參考人臉圖像的尺寸以及參考目標圖像的尺寸均相同。第二人臉掩膜包括參考人臉圖像中的人臉輪廓關鍵點的位置信息和五官關鍵點的位置信息以及面部表情，第三人臉掩膜包括目標圖像中的人臉輪廓關鍵點的位置信息和五官關鍵點的位置信息以及面部表情。

步驟902、依據第二人臉掩膜和第三人臉掩膜之間的像素值的差異，確定第四人臉掩膜。

透過比較第二人臉掩膜和第三人臉掩膜之間的像素值的差異(如均值、方差、相關度等統計數據)，可獲得參考人臉圖像和目標圖像之間的細節差異，並基於該細節差異可確定第四人臉掩膜。

在一種可能實現的方式中，依據第二人臉掩膜和第三人臉掩膜中相同位置的像素點的像素值之間的平均值(下文將稱為像素平均值)，以及第二人臉掩膜和該第三人臉掩膜中相同位置的像素點的像素值之間的方差(下文將稱為像素方差)，確定仿射變換形式。再依據該仿射變換形式對第二人臉掩膜和第三人臉掩膜進行仿射變換，可獲得第四人臉掩膜。其中，可將像素平均值作為仿射變換的縮放變量，並將像素方差作為仿射變換的平移變量。也可將像素平均值作為仿射變換的平移變量，並將像素方差作為仿射變換的縮放變量。縮放變量和平移變量的含義可參見步驟602。本實施例中，第四人臉掩膜的尺寸與第二人臉掩膜的尺寸以及第三人臉掩膜的尺寸相同。第四人臉掩膜中每個像素點有一個數值。可選的，該數值的取值範圍為0至1。其中，像素點的數值越接近於1，表徵在該像素點所在的位置上，參考人臉圖像的像素點的像素值與目標圖像的像素點的像素值差異越大。舉例來說，第一像素點在參考人臉圖像中的位置以及第二像素點在目標圖像中的位置以及第三像素點在第四人臉掩膜中的位置均相同，第一像素點的像素值與第二像素點的像素值之間的差異越大，第三像素點的數值也就越大。

步驟903、將第四人臉掩膜、參考人臉圖像和該目標圖像進行融合處理，獲得新的目標圖像。

目標圖像與參考人臉圖像中相同位置的像素點的像素值的差異越小，目標圖像中的人臉紋理數據與參考人臉圖像中的人臉紋理數據的匹配度就越高。而透過步驟902的處理，可確定參考人臉圖像與目標圖像中相同位置的像素點的像素值的差異(下文將稱為像素值差異)。因此，可依據第四人臉掩膜使對目標圖像和參考人臉圖像進行融合，以減小融合後的圖像與參考人圖像相同位置的像素點的像素值的差異，使融合後的圖像與參考人臉圖像的細節的匹配度更高。在一種可能實現的方式中，可透過下式對參考人臉圖像和目標圖像進行融合：I _fuse=I _gen＊(1-mask)+I _ref＊mask...公式(1)

其中，I _fuse為融合後的圖像，I _gen為目標圖像，I _ref為參考人臉圖像，mask為第四人臉掩膜。(1-mask)指使用一張尺寸與第四人臉掩膜的尺寸相同，且每個像素點的數值均為1的人臉掩膜與第四人臉掩膜中相同位置的像素點的數值相減。I _gen＊(1-mask)指(1-mask)獲得的人臉掩膜與參考人臉圖像中相同位置的數值相乘。I _ref＊mask指將第四人臉掩膜與參考人臉圖像中相同位置的像素點的數值相乘。

透過I _gen＊(1-mask)可強化目標圖像中與參考人臉圖像的像素值差異小的位置的像素值，並弱化目標圖像中與參考人臉圖像的像素值差異大的位置的像素值。透過I _ref＊mask可強化參考人臉圖像中與目標圖像的像素值差異大的位置的像素值，並弱化參考人臉圖像中與目標圖像的像素值差異小的位置的像素值。再將I _gen＊(1-mask)獲得的圖像與I _ref＊mask獲得的圖像中相同位置的像素點的像素值相加，即可強化目標圖像的細節，提高目標圖像的細節與參考人臉圖像的細節匹配度。

舉例來說，假定像素點a在參考人臉圖像中的位置以及像素點b在目標圖像中的位置以及像素點c在第四人臉掩膜中的位置相同，且像素點a的像素值為255，像素點b的像素值為0，像素點c的數值為1。透過I _ref＊mask獲得的圖像中的像素點d的像素值為255(像素點d在透過I _ref＊mask獲得的圖像中的位置與像素點a在參考人臉圖像中的位置相同)，且透過I _gen＊(1-mask)獲得的圖像中的像素點e的像素值為0(像素點d在透過I _gen＊(1-mask)獲得的圖像中的位置與像素點a在參考人臉圖像中的位置相同)。再將像素點d的像素值和像素點e的像素值相加確定融合後的圖像中像素點f的像素值為255，也就是說，透過上述融合處理獲得的圖像中像素點f的像素值與參考人臉圖像中像素點a的像素值相同。

本實施例中，新的目標圖像為上述融合後的圖像。本實施透過第二人臉掩膜和第三人臉掩膜獲得第四人臉掩膜，並依據第四人臉掩膜對參考人臉圖像和目標圖像進行融合可在提升目標圖像中的細節信息的同時，保留目標圖像中的五官位置信息、人臉輪廓位置信息和表情信息，進而提升目標圖像的質量。

本發明實施例還提供了一種人臉生成網絡，用於實現本發明提供的上述實施例中的方法。請參閱圖10，圖10是本發明一實施例提供的一種人臉生成網絡的結構圖。如圖10所示，人臉生成網絡的輸入為參考人臉姿態圖像和參考人臉圖像。對參考人臉姿態圖像進行人臉關鍵點提取處理，獲得人臉掩膜。對人臉掩膜進行下採樣處理可獲得第一級人臉掩膜、第二級人臉掩膜、第三級人臉掩膜、第四級人臉掩膜、第五級人臉掩膜，並將人臉掩膜作為第六級人臉掩膜。其中，第一級人臉掩膜、第二級人臉掩膜、第三級人臉掩膜、第四級人臉掩膜、第五級人臉掩膜均是透過不同的下採樣處理獲得，該下採樣處理可透過以下任意一種方法實現：雙線性插值、最鄰近點插值、高階插值、卷積處理、池化處理。

透過多層編碼層對參考人臉圖像進行逐級編碼處理，獲得人臉紋理數據。再透過多層解碼層對人臉紋理數據進行逐級解碼處理，可獲得重構圖像。透過重構圖像和參考人臉圖像中相同位置之間的像素值的差異，可衡量透過對參考人臉圖像先進行逐級編碼處理再進行逐級解碼處理獲得的重構圖像與生成圖像之間的差異，該差異越小，表徵對參考人臉圖像的編碼處理和解碼處理獲得的不同尺寸的人臉紋理數據(包括圖中的人臉紋理數據和每個解碼層的輸出數據)的質量高(此處的質量高指不同尺寸的人臉紋理數據包含的信息與參考人臉圖像包含的人臉紋理信息的匹配度高)。

透過在對人臉紋理數據進行逐級解碼處理的過程中，將第一級人臉掩膜、第二級人臉掩膜、第三級人臉掩膜、第四級人臉掩膜、第五級人臉掩膜、第六級人臉掩膜分別與相應的數據進行融合，可獲得目標圖像。其中，融合包括自適應仿射變換，即分別使用第一預定尺寸的卷積核和第二預定尺寸的卷積核對第一級人臉掩膜或第二級人臉掩膜或第三級人臉掩膜或第四級人臉掩膜或第五級人臉掩膜或第六級人臉掩膜進行卷積處理，獲得第三特徵數據和第四特徵數據，再根據第三特徵數據和第四特徵數據確定仿射變換的形式，最後根據仿射變換的形式對相應的數據進行仿射變換。這樣可提升人臉掩膜與人臉紋理數據的融合效果，有利於提升生成圖像(即目標圖像)的質量。

透過對人臉紋理數據進行逐級解碼處理獲得重構圖像的過程中解碼層的輸出數據與對人臉紋理數據進行逐級解碼獲得目標圖像的過程中解碼層的輸出數據進行concatenate處理，可進一步提升人臉掩膜與人臉紋理數據的融合效果，更進一步提升目標圖像的質量。

從本發明實施例可以看出，本發明透過將從參考人臉姿態圖像中獲得人臉掩膜和從參考人臉圖像中獲得人臉紋理數據分開處理，可獲得參考人臉姿態圖像中任意人物的人臉姿態和參考人臉圖像中的任意人物的人臉紋理數據。這樣後續基於人臉掩膜和人臉紋理數據進行處理可獲得人臉姿態為參考人臉圖像中的人臉姿態，且人臉紋理數據為參考人臉圖像中的人臉紋理數據的目標圖像，即實現對任意人物進行“換臉”。

基於上述實現思想以及實現方式，本發明提供了一種人臉生成網絡的訓練方法，以使訓練後的人臉生成網絡可從參考人臉姿態圖像中獲得高質量的人臉掩膜(即人臉掩膜包含的人臉姿態信息與參考人臉姿態圖像包含的人臉姿態信息的匹配度高)，以及從參考人臉圖像中獲得高質量的人臉紋理數據(即人臉紋理數據包含的人臉紋理信息與參考人臉圖像包含的人臉紋理信息的匹配度高)，並可基於人臉掩膜和人臉紋理數據獲得高質量的目標圖像。在對人臉生成網絡進行訓練的過程中，可將第一樣本人臉圖像和第一樣本人臉姿態圖像輸入至人臉生成網絡，獲得第一生成圖像和第一重構圖像。其中，第一樣本人臉圖像中的人物與第一樣本人臉姿態圖像中的人物不同。

第一生成圖像是基於對人臉紋理數據進行解碼獲得的，也就是說，從第一樣本人臉圖像中提取的人臉紋理特徵的效果越好(即提取出的人臉紋理特徵包含的人臉紋理信息與第一樣本人臉圖像包含的人臉紋理信息的匹配度高)，後續獲得的第一生成圖像的質量越高(即第一生成圖像包含的人臉紋理信息與第一樣本人臉圖像包含的人臉紋理信息的匹配度高)。因此，本實施例透過分別對第一樣本人臉圖像和第一生成圖像進行人臉特徵提取處理，獲得第一樣本人臉圖像的特徵數據和第一生成圖像的人臉特徵數據，再透過人臉特徵損失函數衡量第一樣本人臉圖像的特徵數據和第一生成圖像的人臉特徵數據的差異，獲得第一損失。該人臉特徵提取處理可透過人臉特徵提取算法實現，本發明不做限定。

如步驟102所述，人臉紋理數據可視為人物身份信息，也就是說，第一生成圖像中的人臉紋理信息與第一樣本人臉圖像中的人臉紋理信息的匹配度越高，第一生成圖像中的人物與第一樣本人臉圖像中的人物的相似度就越高(從用戶的視覺感官上，第一生成圖像中的人物與第一樣本人臉圖像中的人物就越像同一個人)。因此，本實施例透過感知損失函數衡量第一生成圖像的人臉紋理信息和第一樣本人臉圖像的人臉紋理信息的差異，獲得第二損失。第一生成圖像與第一樣本人臉圖像的整體相似度越高(此處的整體相似度包括：兩張圖像中相同位置的像素值的差異、兩張圖像整體顏色的差異、兩張圖像中除人臉區域外的背景區域的匹配度)，獲得的第一生成圖像的質量也越高(從用戶的視覺感官上，第一生成圖像與第一樣本人臉圖像除人物的表情和輪廓不同之外，其他所有圖像內容的相似度越高，第一生成圖像中的人物與第一樣本人臉圖像中的人物就越像同一個人，且第一生成圖像中除人臉區域外的圖像內容與第一樣本人臉圖像中除人臉區域外的圖像內容的相似度也越高)。因此，本實施例透過重構損失函數來衡量第一樣本人臉圖像和第一生成圖像的整體相似度，獲得第三損失。在基於人臉紋理數據和人臉掩膜獲得第一生成圖像的過程中，透過將不同尺寸的解碼處理後的人臉紋理數據(即基於人臉紋理數據獲得第一重構圖像過程中每層解碼層的輸出數據)與基於人臉紋理數據獲得第一生成圖像過程中每層解碼層的輸出數據進行concatenate處理，以提升人臉紋理數據與人臉掩膜的融合效果。也就是說，基於人臉紋理數據獲得第一重構圖像的過程中每層解碼層的輸出數據的質量越高(此處指解碼層的輸出數據包含的信息與第一樣本人臉圖像包含的信息的匹配度高)，獲得的第一生成圖像的質量就越高，且獲得的第一重構圖像與第一樣本人臉圖像的相似度也越高。因此，本實施例透過重構損失函數衡量第一重構圖像與第一樣本人臉圖像之間的相似度，獲得第四損失。需要指出的是，在該人臉生成網絡的訓練過程中，將參考人臉圖像和參考人臉姿態圖像輸入至人臉生成網絡，獲得第一生成圖像和第一重構圖像，並透過該損失函數使第一生成圖像的人臉姿態儘量與第一樣本人臉圖像的人臉姿態保持一致，可使訓練後的人臉生成網絡中的多層編碼層對參考人臉圖像進行逐級編碼處理獲得人臉紋理數據時更專注於從參考人臉圖像中提取人臉紋理特徵，而不從參考人臉圖像中提取人臉姿態特徵，獲得人臉姿態信息。這樣在應用訓練後的人臉生成網絡生成目標圖像時，可減少獲得的人臉紋理數據中包含的參考人臉圖像的人臉姿態信息，更有利於提升目標圖像的質量。

本實施例提供的人臉生成網絡屬生成對抗網絡的生成網絡，第一生成圖像為透過人臉生成網絡生成的圖像，即第一生成圖像不是真實圖像(即透過攝像器材或攝影器材拍攝得到的圖像)，為提高獲得的第一生成圖像的真實度(第一生成圖像的真實度越高，從用戶的視覺角度來看，第一生成圖像就越像真實圖像)，可透過生成對抗網絡損失(generative adversarial networks，GAN)函數來衡量目標圖像的真實度獲得第五損失。基於該第一損失、第二損失、第三損失、第四損失、第五損失，可獲得人臉生成網絡的第一網絡損失，具體可參見下式：L _total=α₁ L ₁+α₂ L ₂+α₃ L ₃+α₄ L ₄+α₅ L ₅...公式(2)

其中，L _total為網絡損失，L ₁為第一損失，L ₂為第二損失，L ₃為第三損失，L ₄為第四損失，L ₅為第五損失。α₁，α₂，α₃，α₄，α₅均為任意自然數。可選的，α₄=25，α₃=25，α₁=α₂=α₅=1。可基於公式(2)獲得的第一網絡損失，透過反向傳播對人臉生成網絡進行訓練，直至收斂完成訓練，獲得訓練後的人臉生成網絡。可選的，在對人臉生成網絡進行訓練的過程，訓練樣本還可包括第二樣本人臉圖像和第二樣本姿態圖像。其中，第二樣本姿態圖像可透過在第二樣本人臉圖像中添加隨機擾動，以改變第二樣本人臉圖像的人臉姿態(如：使第二樣本人臉圖像中的五官的位置和/或第二樣本人臉圖像中的人臉輪廓位置發生偏移)，獲得樣第二本人臉姿態圖像。將第二樣本人臉圖像和第二樣本人臉姿態圖像輸入至人臉生成網絡進行訓練，獲得第二生成圖像和第二重構圖像。再根據第二樣本人臉圖像和第二生成圖像獲得第六損失(獲得第六損失的過程可參見根據第一樣本人臉圖像和第一生成圖像獲得第一損失的過程)，根據第二樣本人臉圖像和第二生成圖像獲得第七損失(獲得第七損失的過程可參見根據第一樣本人臉圖像和第一生成圖像獲得第二損失的過程)，根據第二樣本人臉圖像和第二生成圖像獲得第八損失(獲得第八損失的過程可參見根據第一樣本人臉圖像和第一生成圖像獲得第三損失的過程)，根據第二樣本人臉圖像和第二重構圖像獲得第九損失(獲得第九損失的過程可參見根據第一樣本人臉圖像和第一重構圖像獲得第四損失的過程)，根據第二生成圖像獲得第十損失(獲得第十損失的過程可參見根據第一生成圖像獲得第五損失的過程)。再基於該第六損失、第七損失、第八損失、第九損失、第十損失以及公式(3)，可獲得人臉生成網絡的第二網絡損失，基具體可參見下式：L _total2=α₆ L ₆+α₇ L ₇+α₈ L ₈+α₉ L ₉+α₁₀ L ₁₀...公式(3)

其中，L _total2為第二網絡損失，L ₆為第六損失，L ₇為第七損失，L ₈為第八損失，L ₉為第九損失，L ₁₀為第十損失。α₆，α₇，α₈，α₉，α₁₀均為任意自然數。可選的，α₉=25，α₈=25，α₆=α₇=α₁₀=1。

透過將第二樣本人臉圖像和第二樣本人臉姿態圖像作為訓練集，可增加人臉生成網絡訓練集中圖像的多樣性，有利於提升人臉生成網絡的訓練效果，能提升訓練獲得的人臉生成網絡生成的目標圖像的質量。

在該訓練過程中，透過使第一生成圖像中的人臉姿態與第一樣本人臉姿態圖像中的人臉姿態相同，或使第二生成圖像中的人臉姿態與第二樣本人臉姿態圖像中的人臉姿態相同，可使訓練後的人臉生成網絡對參考人臉圖像進行編碼處理獲得人臉紋理數據時更專注於從參考人臉圖像中提取人臉紋理特徵，以獲得人臉紋理數據，而不從參考人臉圖像中提取人臉姿態特徵，獲得人臉姿態信息。這樣在應用訓練後的人臉生成網絡生成目標圖像時，可減少獲得的人臉紋理數據中包含的參考人臉圖像的人臉姿態信息，更有利於提升目標圖像的質量。需要理解的是，基於本實施例提供的人臉生成網絡和人臉生成網絡訓練方法，訓練所用圖像數量可以是一張。即將一張包含人物的圖像作為樣本人臉圖像與任意一張樣本人臉姿態圖像輸入人臉生成網絡，利用該訓練方法完成對人臉生成網絡的訓練，獲得訓練後的人臉生成網絡。

還需要指出的是，應用本實施例所提供的人臉生成網絡獲得的目標圖像可包含參考人臉圖像中的“缺失信息”。上述“缺失信息”指由於參考人臉圖像中人物的面部表情和參考人臉姿態圖像中人物的面部表情之間的差異產生的信息。舉例來說，參考人臉圖像中人物的面部表情是閉眼睛，而參考人臉姿態圖像中人物的面部表情是睜開眼睛。由於目標圖像中的人臉面部表情需要和參考人臉姿態圖像中人物的面部表情保持一致，而參考人臉圖像中又沒有眼睛，也就是說，參考人臉圖像中的眼睛區域的信息是“缺失信息”。

再舉例來說(例1)，如圖11所示，參考人臉圖像d中的人物的面部表情是閉嘴，也就是說d中的牙齒區域的信息是“缺失信息”。而參考人臉姿態圖像c中的人物的面部表情是張嘴。

本發明實施例所提供的人臉生成網絡透過訓練過程學習到“缺失信息”與人臉紋理數據的映射關係。在應用訓練好的人臉生成網絡獲得目標圖像時，若參考人臉圖像中存在“缺失信息”，將根據參考人臉圖像的人臉紋理數據以及上述映射關係，為目標圖像“估計”該“缺失信息”。

接著例1繼續舉例，將c和d輸入至人臉生成網絡，人臉生成網絡從d中獲得d的人臉紋理數據，並從訓練過程中學習到的人臉紋理數據中確定與d的人臉紋理數據匹配度最高的人臉紋理數據，作為目標人臉紋理數據。再根據牙齒信息與人臉紋理數據的映射關係，確定與目標人臉紋理數據對應的目標牙齒信息。並根據目標牙齒信息確定目標圖像e中的牙齒區域的圖像內容。

本實施例基於第一損失、第二損失、第三損失、第四損失和第五損失對人臉生成網絡進行訓練，可使訓練後的人臉生成網絡從任意參考人臉姿態圖像中獲取人臉掩膜，並從任意參考人臉圖像中獲取人臉紋理數據，再基於人臉掩膜和人臉紋理數據可獲得目標圖像。即透過本實施例提供的人臉生成網絡和人臉生成網絡的訓練方法獲得的訓練後的人臉生成網絡，可實現將任意人物的臉替換至任意圖像中，即本發明提供的技術方案具有普適性(即可將任意人物作為目標人物)。基於本發明實施例提供的圖像處理方法，以及本發明實施例提供的人臉生成網絡和人臉生成網絡的訓練方法，本發明實施例還提供了幾種可能實現的應用場景。人們在對人物進行拍攝時，由於外界因素(如被拍攝人物的移動，拍攝器材的晃動，拍攝環境的光照強度較弱)的影響，拍攝獲得的人物照可能存在模糊(本實施例指人臉區域模糊)、光照差(本實施例指人臉區域光照差)等問題。終端(如手機、電腦等)可利用本發明實施例提供的技術方案，對模糊圖像或光照差的圖像(即存在模糊問題的人物圖像)進行人臉關鍵點提取處理，獲得人臉掩膜，再對包含模糊圖像中的人物的清晰圖像進行編碼處理可獲得該人物的人臉紋理數據，最後基於人臉掩膜和人臉紋理數據可獲得目標圖像。其中，目標圖像中的人臉姿態為模糊圖像或光照差的圖像中的人臉姿態。

此外，用戶還可透過本發明提供的技術方案獲得各種各樣表情的圖像。舉例來說，A覺得圖像a中的人物的表情很有趣，想獲得一張自己做該表情時的圖像，可將自己的照片和圖像a輸入至終端。終端將A的照片作為參考人臉圖像和並將圖像a作為參考姿態圖像，利用本發明提供的技術方案對A的照片和圖像a進行處理，獲得目標圖像。該目標圖像中，A的表情即為圖像a中的人物的表情。

在另一種可能實現的場景下，B覺得電影中的一段視訊很有意思，並想看看將電影中演員的臉替換成自己的臉後的效果。B可將自己的照片(即待處理人臉圖像)和該段視訊(即待處理視訊)輸入至終端，終端將B的照片作為參考人臉圖像，並將視訊中每一幀圖像中作為參考人臉姿態圖像，利用本發明提供的技術方案對B的照片和視訊中每一幀圖像進行處理，獲得目標視訊。目標視訊中的演員就被“替換”成了B。在又一種可能實現的場景下，C想用圖像c中的人臉姿態替換圖像d中的人臉姿態，如圖11所示，可將圖像c作為參考人臉姿態圖像，並將圖像d作為參考人臉圖像輸入至終端。終端依據本發明提供的技術方案對c和d進行處理，獲得目標圖像e。

需要理解的是，在使用本發明實施例所提供的方法或人臉生成網絡獲得目標圖像時，可同時將一張或多張人臉圖像作為參考人臉圖像，也可同時將一張或多張人臉圖像作為參考人臉姿態圖像。

舉例來說，將圖像f、圖像g、圖像h作為人臉姿態圖像依次輸入至終端，並將圖像i、圖像j、圖像k作為人臉姿態圖像依次輸入至終端，則終端將利用本發明所提供的技術方案基於圖像f和圖像i生成目標圖像m，基於圖像g和圖像j生成目標圖像n，基於圖像h和圖像k生成目標圖像p。

再舉例來說，將圖像q、圖像r作為人臉姿態圖像依次輸入至終端，並將圖像s、作為人臉姿態圖像輸入至終端，則終端將利用本發明所提供的技術方案基於圖像q和圖像s生成目標圖像t，基於圖像r和圖像s生成目標圖像u。

從本發明實施例提供的一些應用場景可以看出，應用本發明提供的技術方案可實現對將任意人物的人臉替換至任意圖像或視訊中，獲得目標人物(即參考人臉圖像中的人物)在任意人臉姿態下的圖像或視訊。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

上述詳細闡述了本發明實施例的方法，下面提供了本發明實施例的裝置。

請參閱圖12，圖12為本發明圖像處理裝置1之一實施例的方塊圖，該裝置1包括：一獲取單元11、一第一處理單元12和一第二處理單元13一解碼處理單元14、一人臉關鍵點提取處理單元15、一確定單元16以及一融合處理單元17。

獲取單元11用於獲取參考人臉圖像和參考人臉姿態圖像。第一處理單元12用於對該參考人臉圖像進行編碼處理獲得該參考人臉圖像的人臉紋理數據，並對該參考人臉姿態圖像進行人臉關鍵點提取處理獲得所述人臉姿態圖像的第一人臉掩膜。第二處理單元13用於依據該人臉紋理數據和該第一人臉掩膜，獲得目標圖像。

在一種可能實現的方式中，該第二處理單元13用於：對該人臉紋理數據進行解碼處理，獲得第一人臉紋理數據；以及對該第一人臉紋理數據和該第一人臉掩膜進行n級目標處理，獲得該目標圖像；該n級目標處理包括第m-1級目標處理和第m級目標處理；該n級目標處理中的第1級目標處理的輸入數據為該人臉紋理數據；該第m-1級目標處理的輸出數據為該第m級目標處理的輸入數據；該n級目標處理中的第i級目標處理包括對該第i級目標處理的輸入數據和調整該第一人臉掩膜的尺寸後獲得的數據依次進行融合處理、解碼處理；n為大於或等於2的正整數；m為大於或等於2且小於或等於n的正整數；i為大於或等於1且小於或等於所述n的正整數。

在另一種可能實現的方式中，該第二處理單元13用於：根據該第i級目標處理的輸入數據，獲得該第i級目標處理的被融合數據；對該第i級目標處理的被融合數據和第i級人臉掩膜進行融合處理，獲得第i級融合後的數據；該第i級人臉掩膜透過對該第一人臉掩膜進行下採樣處理獲得；該第i級人臉掩膜的尺寸與該第i級目標處理的輸入數據的尺寸相同；以及對該第i級融合後的數據進行解碼處理，獲得該第i級目標處理的輸出數據。

在又一種可能實現的方式中，圖像處理裝置1還包括一解碼處理單元14，解碼處理單元14用於在該對該參考人臉圖像進行編碼處理獲得該參考人臉圖像的人臉紋理數據之後，對該人臉紋理數據進行j級解碼處理；該j級解碼處理中的第1級解碼處理的輸入數據為該人臉紋理數據；該j級解碼處理包括第k-1級解碼處理和第k級解碼處理；該第k-1級解碼處理的輸出數據為該第k級解碼處理的輸入數據；所述j為大於或等於2的正整數；k為大於或等於2且小於或等於j的正整數；第二處理單元13，用於將該j級解碼處理中的第r級解碼處理的輸出數據與該第i級目標處理的輸入數據進行合併，獲得第i級合併後的數據，作為該第i級目標處理的被融合數據；該第r級解碼處理的輸出數據的尺寸與該第i級目標處理的輸入數據的尺寸相同；r為大於或等於1且小於或等於j的正整數。在又一種可能實現的方式中，該第二處理單元13用於：將該第r級解碼處理的輸出數據與該第i級目標處理的輸入數據在通道維度上合併，獲得該第i級合併後的數據。

在又一種可能實現的方式中，該第r級解碼處理包括：對該第r級解碼處理的輸入數據依次進行激活處理、反卷積處理、歸一化處理，獲得該第r級解碼處理的輸出數據。

在又一種可能實現的方式中，該第二處理單元13用於：使用第一預定尺寸的卷積核對該第i級人臉掩膜進行卷積處理獲得第一特徵數據，並使用第二預定尺寸的卷積核對該第i級人臉掩膜進行卷積處理獲得第二特徵數據；以及依據該第一特徵數據和該第二特徵數據確定歸一化形式；以及依據該歸一化形式對該第i級目標處理的被融合數據進行歸一化處理，獲得該第i級融合後的數據。在又一種可能實現的方式中，該歸一化形式包括目標仿射變換；該第二處理單元13用於：依據該目標仿射變換對該第i級目標處理的被融合數據進行仿射變換，獲得該第i級融合後的數據。在又一種可能實現的方式中，該第二處理單元13用於：對該人臉紋理數據和該第一人臉掩膜進行融合處理，獲得目標融合數據；以及對該目標融合數據進行解碼處理，獲得該目標圖像。在又一種可能實現的方式中，該第一處理單元12用於：透過多層編碼層對該參考人臉圖像進行逐級編碼處理，獲得該參考人臉圖像的人臉紋理數據；該多層編碼層包括第s層編碼層和第s+1層編碼層；該多層編碼層中的第1層編碼層的輸入數據為該參考人臉圖像；該第s層編碼層的輸出數據為該第s+1層編碼層的輸入數據；s為大於或等於1的正整數。在又一種可能實現的方式中，該多層編碼層中的每一層編碼層均包括：卷積處理層、歸一化處理層、激活處理層。

在又一種可能實現的方式中，圖像處理裝置1還包括：人臉關鍵點提取處理單元15，用於分別對該參考人臉圖像和該目標圖像進行人臉關鍵點提取處理，獲得該參考人臉圖像的第二人臉掩膜和該目標圖像的第三人臉掩膜；確定單元16，用於依據該第二人臉掩膜和該第三人臉掩膜之間的像素值的差異，確定第四人臉掩膜；該參考人臉圖像中的第一像素點的像素值與該目標圖像中的第二像素點的像素值之間的差異與所述第四人臉掩膜中的第三像素點的值呈正相關；該第一像素點在該參考人臉圖像中的位置、該第二像素點在該目標圖像中的位置以及該第三像素點在所述第四人臉掩膜中的位置均相同；融合處理單元17，用於將所述第四人臉掩膜、該參考人臉圖像和該目標圖像進行融合處理，獲得新的目標圖像。在又一種可能實現的方式中，確定單元16用於：依據該第二人臉掩膜和該第三人臉掩膜中相同位置的像素點的像素值之間的平均值，該第二人臉掩膜和該第三人臉掩膜中相同位置的像素點的像素值之間的方差，確定仿射變換形式；以及依據該仿射變換形式對該第二人臉掩膜和該第三人臉掩膜進行仿射變換，獲得所述第四人臉掩膜。

在又一種可能實現的方式中，圖像處理裝置1執行的圖像處理方法應用於人臉生成網絡；圖像處理裝置1用於執行該人臉生成網絡訓練過程；該人臉生成網絡的訓練過程包括：將訓練樣本輸入至該人臉生成網絡，獲得該訓練樣本的第一生成圖像和該訓練樣本的第一重構圖像；該訓練樣本包括樣本人臉圖像和第一樣本人臉姿態圖像；該第一重構圖像透過對該樣本人臉圖像編碼後進行解碼處理獲得；根據該樣本人臉圖像和該第一生成圖像的人臉特徵匹配度獲得第一損失；根據該第一樣本人臉圖像中的人臉紋理信息和該第一生成圖像中的人臉紋理信息的差異獲得第二損失；根據該第一樣本人臉圖像中第四像素點的像素值和該第一生成圖像中第五像素點的像素值的差異獲得第三損失；根據該第一樣本人臉圖像中第六像素點的像素值和該第一重構圖像中第七像素點的像素值的差異獲得第四損失；根據該第一生成圖像的真實度獲得第五損失；該第四像素點在該第一樣本人臉圖像中的位置和該第五像素點在該第一生成圖像中的位置相同；該第六像素點在該第一樣本人臉圖像中的位置和該第七像素點在該第一重構圖像中的位置相同；該第一生成圖像的真實度越高表徵該第一生成圖像為真實圖片的概率越高；根據該第一損失、該第二損失、該第三損失、該第四損失和該第五損失，獲得該人臉生成網絡的第一網絡損失；基於該第一網絡損失調整該人臉生成網絡的參數。

在又一種可能實現的方式中，該訓練樣本還包括第二樣本人臉姿態圖像；該第二樣本人臉姿態圖像透過在該第二樣本人臉圖像中添加隨機擾動以改變該第二樣本圖像的五官位置和/或人臉輪廓位置獲得；該人臉生成網絡的訓練過程還包括：將該第二樣本人臉圖像和第二樣本人臉姿態圖像輸入至該人臉生成網絡，獲得該訓練樣本的第二生成圖像和該訓練樣本的第二重構圖像；該第二重構圖像透過對該第二樣本人臉圖像編碼後進行解碼處理獲得；根據該第二樣本人臉圖像和該第二生成圖像的人臉特徵匹配度獲得第六損失；根據該第二樣本人臉圖像中的人臉紋理信息和該第二生成圖像中的人臉紋理信息的差異獲得第七損失；根據該第二樣本人臉圖像中第八像素點的像素值和該第二生成圖像中第九像素點的像素值的差異獲得第八損失；根據該第二樣本人臉圖像中第十像素點的像素值和該第二重構圖像中第十一像素點的像素值的差異獲得第九損失；根據該第二生成圖像的真實度獲得第十損失；該第八像素點在該第二樣本人臉圖像中的位置和該第九像素點在該第二生成圖像中的位置相同；該第十像素點在該第二樣本人臉圖像中的位置和該第十一像素點在所述第二重構圖像中的位置相同；該第二生成圖像的真實度越高表徵該第二生成圖像為真實圖片的概率越高；根據該第六損失、該第七損失、該第八損失、該第九損失和該第十損失，獲得該人臉生成網絡的第二網絡損失；基於該第二網絡損失調整該人臉生成網絡的參數。在又一種可能實現的方式中，該獲取單元11用於：接收用戶向終端輸入的待處理人臉圖像；以及獲取待處理視訊，該待處理視訊包括人臉；以及將該待處理人臉圖像作為該參考人臉圖像，將該待處理視訊的圖像作為該人臉姿態圖像，獲得目標視訊。本實施例透過對參考人臉圖像進行編碼處理可獲得參考人臉圖像中目標人物的人臉紋理數據，透過對參考人臉姿態圖像進行人臉關鍵點提取處理可獲得人臉掩膜，再透過對人臉紋理數據和人臉掩膜進行融合處理、編碼處理可獲得目標圖像，實現改變任意目標人物的人臉姿態。在一些實施例中，本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

圖13為本發明圖像處理裝置2之一另一實施例的硬體方塊圖。該圖像處理裝置2包括一處理器21、一記憶體22一輸入裝置23，和一輸出裝置24。該處理器21、記憶體22、輸入裝置23和輸出裝置24透過連接器相耦合，該連接器包括各類介面、傳輸線或總線等等，本發明實施例對此不作限定。應當理解，本發明的各個實施例中，耦合是指透過特定方式的相互聯繫，包括直接相連或者透過其他設備間接相連，例如可以透過各類介面、傳輸線、總線等相連。處理器21可以是一個或多個圖形處理器(graphics processing unit，GPU)，在處理器21是一個GPU的情況下，該GPU可以是單核GPU，也可以是多核GPU。處理器21可以是多個GPU構成的處理器組，多個處理器之間透過一個或多個總線彼此耦合。可選的，該處理器還可以為其他類型的處理器等等，本實施例不作限定。記憶體22可用於儲存電腦程式指令，以及用於執行本發明方案的程序代碼在內的各類電腦程式代碼。可選地，記憶體包括但不限於是隨機存取記憶體(random access memory，RAM)、唯讀記憶體(read-only memory，ROM)、可抹除可程式化唯讀記憶體(erasable programmable read only memory，EPROM)、或便攜式唯讀記憶體(compact disc read-only memory，CD-ROM)，該記憶體用於相關指令及數據。輸入裝置23用於輸入數據和/或信號，以及輸出裝置24用於輸出數據和/或信號。輸入裝置23和輸入裝置23可以是獨立的器件，也可以是一個整體的器件。可理解，實施例中，記憶體22不僅可用於儲存相關指令，還可用於儲存相關圖像，如該記憶體22可用於儲存透過輸入裝置23獲取的參考人臉圖像和參考人臉姿態圖像，又或者該記憶體22還可用於儲存透過處理器21搜索獲得的目標圖像等等，本發明實施例對於該記憶體中具體所儲存的數據不作限定。可以理解的是，圖13僅僅示出一種圖像處理裝置的簡化設計。在實際應用中，圖像處理裝置還可以分別包含必要的其他元件，包含但不限於任意數量的輸入/輸出裝置、處理器、記憶體等，而所有可以實現本發明實施例的圖像處理裝置都在本發明的保護範圍之內。

本發明實施例還提出一種處理器，該處理器用於執行該圖像處理方法。本實施例還提出一種電子設備，包括：一處理器與一用於儲存處理器可執行指令的記憶體；其中，處理器被配置為調用該記憶體儲存的指令，以執行該圖像處理方法。實施例還提出一種電腦可讀存儲介質，其上儲存有電腦程式指令，電腦程式指令被處理器執行時實現該圖像處理方法。電腦可讀存儲介質可以是揮發性(Volatile)電腦可讀存儲介質或非揮發性(Non-Volatile)電腦可讀存儲介質。本發明實施例還提供了一種電腦程式，包括電腦可讀代碼，當電腦可讀代碼在設備上運行時，設備中的處理器執行用於實現如上任一實施例提供的圖像處理方法的指令。本發明實施例還提供了另一種電腦程式產品，用於儲存電腦可讀指令，指令被執行時使得電腦執行上述任一實施例提供的圖像處理方法的操作。

本領域普通技術人員可以意識到，結合本文中所公開的實施例描述的各示例的單元及算法步驟，能夠以電子硬體、或者電腦軟體和電子硬體的結合來實現。這些功能究竟以硬體還是軟體方式來執行，取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本發明的範圍。所屬領域的技術人員可以清楚地瞭解到，為描述的方便和簡潔，上述描述的系統、裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。所屬領域的技術人員還可以清楚地瞭解到，本發明各個實施例描述各有側重，為描述的方便和簡潔，相同或類似的部分在不同實施例中可能沒有贅述，因此，在某一實施例未描述或未詳細描述的部分可以參見其他實施例的記載。在本發明所提供的幾個實施例中，應該理解到，所揭露的系統、裝置和方法，可以透過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或組件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是透過一些介面，裝置或單元的間接耦合或通信連接，可以是電性，機械或其它的形式。作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。另外，在本發明各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。在上述實施例中，可以全部或部分地透過軟件、硬件、固件或者其任意組合來實現。當使用軟件實現時，可以全部或部分地以電腦程式產品的形式實現。電腦程式產品包括一個或多個電腦指令。在電腦上加載和執行所述電腦程式指令時，全部或部分地產生按照本發明實施例所述的流程或功能。所述電腦可以是通用電腦、專用電腦、電腦網絡、或者其他可程式化裝置。電腦指令可以儲存在電腦可讀存儲介質中，或者透過所述電腦可讀存儲介質進行傳輸。電腦指令可以從一個網站站點、電腦、服務器或數據中心透過有線(例如同軸電纜、光纖、數位用戶線(digital subscriber line，DSL))或無線(例如紅外、無線、微波等)方式向另一個網站站點、電腦、服務器或數據中心進行傳輸。電腦可讀存儲介質可以是電腦能夠存取的任何可用介質或者是包含一個或多個可用介質集成的服務器、數據中心等數據存儲設備。所述可用介質可以是磁性介質，(例如，軟碟、硬碟、磁帶)、光介質(例如，數位通用光碟(digital versatile disc，DVD))、或者半導體介質(例如固態硬碟(solid state disk，SSD))等。

本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程，該流程可以由電腦程式來指令相關的硬件完成，該程序可儲存於電腦可讀取存儲介質中，該程序在執行時，可包括如上述各方法實施例的流程。而前述的存儲介質可為揮發性存儲介質或非揮發性存儲介質，包括：唯讀記憶體(read-only memory，ROM)或隨機存取記憶體(random access memory，RAM)、磁碟或者光盤等各種可儲存程序代碼的介質。

綜上所述，上述實施例實現改變任意目標人物的人臉姿態，提升目標圖像的質量，且透過將不同尺寸的人臉掩膜與不同級的目標處理的輸入數據融合，實現將人臉掩膜與人臉紋理數據融合，達到提升融合的效果，確實能達成本發明之目的。惟以上所述者，僅為本發明之實施例而已，當不能以此限定本發明實施之範圍，凡是依本發明申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍內。

101:獲取參考人臉圖像的步驟

102:獲得第一人臉掩膜的步驟

103:獲得目標圖像的步驟

Claims

一種圖像處理方法，包含：獲取一參考人臉圖像和一參考人臉姿態圖像；對該參考人臉圖像進行編碼處理獲得該參考人臉圖像的一人臉紋理數據，並對該參考人臉姿態圖像進行人臉關鍵點提取處理獲得該參考人臉姿態圖像的一第一人臉掩膜；依據該人臉紋理數據和該第一人臉掩膜，獲得一目標圖像；應用於一人臉生成網絡，該人臉生成網絡的訓練過程包括：將一訓練樣本輸入至該人臉生成網絡，獲得該訓練樣本的一第一生成圖像和該訓練樣本的一第一重構圖像；該訓練樣本包括一樣本人臉圖像和一第一樣本人臉姿態圖像；該第一重構圖像透過對該樣本人臉圖像編碼後進行解碼處理獲得；根據該樣本人臉圖像和該第一生成圖像的一人臉特徵匹配度獲得一第一損失；根據該第一樣本人臉圖像中的一人臉紋理信息和該第一生成圖像中的一人臉紋理信息的差異獲得一第二損失；根據該第一樣本人臉圖像中一第四像素點的像素值和該第一生成圖像中一第五像素點的像素值的差異獲得一第三損失；根據該第一樣本人臉圖像中一第六像素點的像素值和該第一重構圖像中一第七像素點的像素值的差異獲得一第四損失；根據該第一生成圖像的真實度獲得一第五損失；該第四像素點在該第一樣本人臉圖像中的位置和該第五像素點在該第一生成圖像中的位置相同；該第六像素點在該第一樣本人臉圖像中的位置和該第七像素點在該第一重構圖像中的位置相同；該第一生成圖像的真實度越高表徵該第一生成圖像為真實圖片的概率越高；根據該第一損失、該第二損失、該第三損失、該第四損失和該第五損失，獲得該人臉生成網絡的一第一網絡損失；基於該第一網絡損失調整該人臉生成網絡的參數。
如請求項1所述的圖像處理方法，其中，該依據該人臉紋理數據和該第一人臉掩膜，獲得該目標圖像，進一步包括：對該人臉紋理數據進行解碼處理，獲得一第一人臉紋理數據；對該第一人臉紋理數據和該第一人臉掩膜進行n級目標處理，獲得該目標圖像；該n級目標處理包括一第m-1級目標處理和一第m級目標處理；該n級目標處理中的第1級目標處理的一輸入數據為該人臉紋理數據；該第m-1級目標處理的一輸出數據為該第m級目標處理的一輸入數據；該n級目標處理中的一第i級目標處理包括對該第i級目標處理的一輸入數據和調整該第一人臉掩膜的尺寸後獲得的數據依次進行融合處理、解碼處理；其中，n為大於或等於2的正整數；其中，m為大於或等於2且小於或等於n的正整數；其中，i為大於或等於1且小於或等於n的正整數。
如請求項2所述的圖像處理方法，其中，該對該第i級目標處理的該輸入數據和調整該第一人臉掩膜的尺寸後獲得的數據依次進行融合處理、解碼處理，進一步包括：根據該第i級目標處理的該輸入數據，獲得該第i級目標處理的一被融合數據；對該第i級目標處理的該被融合數據和一第i級人臉掩膜進行融合處理，獲得一第i級融合後的數據；該第i級人臉掩膜透過對該第一人臉掩膜進行下採樣處理獲得；該第i級人臉掩膜的尺寸與該第i級目標處理的該輸入數據的尺寸相同；對該第i級融合後的數據進行解碼處理，獲得該第i級目標處理的一輸出數據。
如請求項3所述的圖像處理方法，其中，該對該參考人臉圖像進行編碼處理獲得該參考人臉圖像的該人臉紋理數據之後，還包括：對該人臉紋理數據進行j級解碼處理；該j級解碼處理中的第1級解碼處理的一輸入數據為該人臉紋理數據；該j級解碼處理包括一第k-1級解碼處理和一第k級解碼處理；該第k-1級解碼處理的一輸出數據為該第k級解碼處理的一輸入數據；j為大於或等於2的正整數；k為大於或等於2且小於或等於j的正整數；該根據該第i級目標處理的該輸入數據，獲得該第i級目標處理的該被融合數據，進一步包括：將該j級解碼處理中的一第r級解碼處理的一輸出數據與該第i級目標處理的該輸入數據進行合併，獲得一第i級合併後的數據，作為該第i級目標處理的該被融合數據；該第r級解碼處理的該輸出數據的尺寸與該第i級目標處理的該輸入數據的尺寸相同；r為大於或等於1且小於或等於j的正整數。
如請求項4所述的圖像處理方法，其中，該將該j級解碼處理中的該第r級解碼處理的該輸出數據與該第i級目標處理的該輸入數據進行合併，獲得該第i級合併後的數據，進一步包括：將該第r級解碼處理的該輸出數據與該第i級目標處理的該輸入數據在通道維度上合併，獲得該第i級合併後的數據。
如請求項4或5所述的圖像處理方法，其中，該第r級解碼處理包括對該第r級解碼處理的一輸入數據依次進行激活處理、反卷積處理、歸一化處理，獲得該第r級解碼處理的該輸出數據。
如請求項3至5中任一項所述的圖像處理方法，其中，該對該第i級目標處理的該被融合數據和該第i級人臉掩膜進行融合處理，獲得該第i級融合後的數據，進一步包括使用一第一預定尺寸的卷積核對該第i級人臉掩膜進行卷積處理獲得一第一特徵數據，並使用一第二預定尺寸的卷積核對該第i級人臉掩膜進行卷積處理獲得一第二特徵數據；依據該第一特徵數據和該第二特徵數據確定一歸一化形式；依據該歸一化形式對該第i級目標處理的該被融合數據進行歸一化處理，獲得該第i級融合後的數據。
如請求項7所述的圖像處理方法，其中，該歸一化形式包括一目標仿射變換；依據該目標仿射變換對該第i級目標處理的該被融合數據進行仿射變換，獲得該第i級融合後的數據。
如請求項1所述的圖像處理方法，其中，該依據該人臉紋理數據和該第一人臉掩膜，獲得該目標圖像，進一步包括：對該人臉紋理數據和該第一人臉掩膜進行融合處理，獲得一目標融合數據；對該目標融合數據進行解碼處理，獲得該目標圖像。
如請求項1至5、9中任一項所述的圖像處理方法，還包括：分別對該參考人臉圖像和該目標圖像進行人臉關鍵點提取處理，獲得該參考人臉圖像的一第二人臉掩膜和該目標圖像的一第三人臉掩膜；依據該第二人臉掩膜和該第三人臉掩膜之間的像素值的差異，確定一第四人臉掩膜；該參考人臉圖像中的一第一像素點的像素值與該目標圖像中的一第二像素點的像素值之間的差異與該第四人臉掩膜中的一第三像素點的值呈正相關；該第一像素點在該參考人臉圖像中的位置、該第二像素點在該目標圖像中的位置以及該第三像素點在該第四人臉掩膜中的位置均相同；將該第四人臉掩膜、該參考人臉圖像和該目標圖像進行融合處理，獲得一新的目標圖像。
如請求項10所述的圖像處理方法，其中，該根據該第二人臉掩膜和該第三人臉掩膜之間的像素值的差異，確定第四人臉掩膜，包括：依據該第二人臉掩膜和該第三人臉掩膜中相同位置的像素點的像素值之間的平均值，該第二人臉掩膜和該第三人臉掩膜中相同位置的像素點的像素值之間的方差，確定仿射變換形式；依據該仿射變換形式對該第二人臉掩膜和該第三人臉掩膜進行仿射變換，獲得該第四人臉掩膜。
如請求項1所述的圖像處理方法，其中，該訓練樣本還包括一第二樣本人臉姿態圖像；該第二樣本人臉姿態圖像透過在該第二樣本人臉圖像中添加隨機擾動以改變該第二樣本人臉圖像的五官位置和/或人臉輪廓位置獲得；該人臉生成網絡的訓練過程還包括：將該第二樣本人臉圖像和該第二樣本人臉姿態圖像輸入至該人臉生成網絡，獲得該訓練樣本的一第二生成圖像和該訓練樣本的一第二重構圖像；該第二重構圖像透過對該第二樣本人臉圖像編碼後進行解碼處理獲得；根據該第二樣本人臉圖像和該第二生成圖像的人臉特徵匹配度獲得一第六損失；根據該第二樣本人臉圖像中的人臉紋理信息和該第二生成圖像中的人臉紋理信息的差異獲得一第七損失；根據該第二樣本人臉圖像中一第八像素點的像素值和該第二生成圖像中一第九像素點的像素值的差異獲得一第八損失；根據該第二樣本人臉圖像中一第十像素點的像素值和該第二重構圖像中一第十一像素點的像素值的差異獲得一第九損失；根據該第二生成圖像的真實度獲得一第十損失；該第八像素點在該第二樣本人臉圖像中的位置和該第九像素點在該第二生成圖像中的位置相同；該第十像素點在該第二樣本人臉圖像中的位置和該第十一像素點在該第二重構圖像中的位置相同；該第二生成圖像的真實度越高表徵該第二生成圖像為真實圖片的概率越高；根據該第六損失、該第七損失、該第八損失、該第九損失和該第十損失，獲得該人臉生成網絡的一第二網絡損失；基於該第二網絡損失調整該人臉生成網絡的參數。
如請求項1至5、9中任一項所述的圖像處理方法，其中，該獲取該參考人臉圖像和該參考人臉姿態圖像，進一步包括：接收一用戶向終端輸入的待處理人臉圖像；獲取一待處理視訊，該待處理視訊包括一人臉；將該待處理人臉圖像作為該參考人臉圖像，將該待處理視訊的圖像作為該參考人臉姿態圖像，獲得一目標視訊。
一種處理器，該處理器用於執行如請求項1至13中任一項所述的圖像處理方法。
一種電子設備，包括：一處理器和一記憶體，該記憶體用於儲存一電腦程式代碼，該電腦程式代碼包括一電腦指令，當該處理器執行該電腦指令時，該電子設備執行如請求項1至13任一項所述的圖像處理方法。
一種電腦可讀存儲介質，該電腦可讀存儲介質中儲存有一電腦程式，該電腦程式包括一程式指令，該程式指令當被一電子設備的一處理器執行時，使該處理器執行請求項1至13任一項所述的圖像處理方法。