TW202217646A

TW202217646A - 影像處理方法、裝置、電子設備及儲存媒體

Info

Publication number: TW202217646A
Application number: TW110127854A
Authority: TW
Inventors: 朱昊; 吳潛溢; 吳文岩; 錢晨; 傅朝友; 郝然
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2020-10-21
Filing date: 2021-07-29
Publication date: 2022-05-01
Also published as: KR20220123091A; CN112330530B; WO2022083200A1; CN112330530A

Abstract

公開了一種影像處理方法、裝置、電子設備及儲存媒體，所述方法包括：獲取第一臉部影像的第一臉部特徵，所述第一臉部影像是基於源影像的臉部特徵與目標影像得到的；對所述第一臉部特徵進行映射得到第二臉部特徵，所述第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配；根據所述第一臉部影像以及所述第二臉部特徵，獲得目標臉部影像。

Description

影像處理方法、裝置、電子設備及儲存媒體

本公開涉及計算機視覺技術，尤其涉及一種影像處理方法、裝置、電子設備及儲存媒體。

諸如人臉交換的影像處理在數位娛樂和影視行業中具有廣泛的應用價值，例如通過人臉交換可以實現演員替身的效果等。

目前人臉交換是通過將源影像的人臉特徵遷移至目標影像的臉部區域並進行人臉姿態對齊實現的，存在著在源影像與目標影像的外觀差異較大場景下人臉交換性能降低的問題。

本公開實施例提供一種影像處理方案。

第一方面，提供一種影像處理方法，所述方法包括：獲取第一臉部影像的第一臉部特徵，所述第一臉部影像是基於源影像的臉部特徵與目標影像得到的；對所述第一臉部特徵進行映射得到第二臉部特徵，所述第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配；根據所述第一臉部影像以及所述第二臉部特徵，得到目標臉部影像。

結合本公開提供的任一實施方式，所述獲取第一臉部影像的第一臉部特徵，包括：獲取所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種；通過特徵編碼網路對所述第一臉部影像進行特徵提取處理，得到編碼特徵資訊；根據所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種和所述編碼特徵資訊，得到所述第一臉部影像的第一臉部特徵。

結合本公開提供的任一實施方式，所述對所述第一臉部特徵進行映射得到第二臉部特徵，包括：通過特徵映射網路，對所述第一臉部影像中像素的第一特徵進行映射，得到所述像素的第二特徵，所述像素的第二特徵的機率分佈與所述目標影像中相應像素的第三特徵的機率分佈之間的距離滿足設定條件；其中，所述第一臉部影像中像素的第一特徵屬所述第一臉部特徵，所述像素的第二特徵屬所述第二臉部特徵。

結合本公開提供的任一實施方式，所述根據所述第一臉部影像以及所述第二臉部特徵，得到所述目標臉部影像，包括：通過特徵解碼網路，對所述第二臉部特徵進行解碼，得到臉部區域的影像；根據所述第一臉部影像中除所述臉部區域之外的影像以及解碼得到的所述臉部區域的影像，得到所述目標臉部影像。

結合本公開提供的任一實施方式，所述編碼特徵資訊包括n階特徵資訊；根據所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種和所述編碼特徵資訊，得到所述第一臉部影像的第一臉部特徵，包括：將所述n階特徵資訊的前M階特徵資訊分別與所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種連接，得到M階連接特徵資訊；根據所述M階連接特徵資訊和後階特徵資訊得到所述第一臉部特徵，其中，所述後階特徵資訊包括所述編碼特徵資訊中除所述前M階特徵資訊之外的特徵資訊，n、M為正整數，M＜n。

結合本公開提供的任一實施方式，所述對所述第一臉部特徵進行映射得到第二臉部特徵，包括：對所述M階連接特徵資訊進行映射，得到與所述目標影像的特徵分佈相匹配的M階映射特徵資訊；所述通過特徵解碼網路，對所述第二臉部特徵進行解碼，得到臉部區域的影像，包括：對所述M階映射特徵資訊和所述後階特徵資訊進行解碼，得到所述臉部區域的影像。

結合本公開提供的任一實施方式，所述方法還包括，對所述特徵編碼網路、所述特徵映射網路、所述特徵解碼網路進行端到端訓練，其中，在每一代訓練中，所述特徵編碼網路和所述特徵解碼網路的訓練與特徵映射網路的訓練順次進行。

結合本公開提供的任一實施方式，所述特徵映射網路是利用優化遷移網路訓練得到的，所述優化遷移網路包括所述特徵映射網路和距離評估網路，所述訓練的網路損失包括：映射損失，用於指示所述距離評估網路確定的、所述第一臉部影像中像素的第二特徵的機率分佈與所述目標影像中相應像素的第三特徵的機率分佈之間的差異。

結合本公開提供的任一實施方式，所述特徵編碼網路和所述特徵解碼網路利用外觀遷移網路訓練得到的，所述外觀遷移網路包括所述特徵編碼網路、所述特徵解碼網路，所述訓練的網路損失包括：第一損失，用於指示所述第一臉部影像中像素的第二特徵，與第一特徵之間的差異；第二損失，用於指示所述第一臉部影像中像素的第二特徵，與所述目標影像中相應像素的第三特徵之間的差異。

結合本公開提供的任一實施方式，所述外觀遷移網路還包括臉部重建網路，所述臉部重建網路用於根據所述目標影像的臉部特徵重建得到重建臉部影像，所述訓練的網路損失還包括：第三損失，用於指示所述第一臉部影像中像素的第二特徵，與所述臉部重建網路輸出的臉部重建影像中相應像素的第四特徵之間的差異。

結合本公開提供的任一實施方式，所述外觀遷移網路還包括鑑別網路，所述訓練的網路損失還包括：第四損失，用於指示所述鑑別網路確定的混合影像樣本中像素的分類結果與所述混合影像樣本的標註資訊之間的差異，其中，所述混合影像樣本包括通過對所述目標臉部影像中的像素與所述目標影像或所述臉部重建影像中的像素進行混合得到的影像，所述標註資訊指示生成影像像素或指示真實影像像素。

第二方面，提供一種影像處理裝置，所述裝置包括：第一獲取單元，用於獲取第一臉部影像的第一臉部特徵，所述第一臉部影像是基於源影像的臉部特徵與目標影像得到的；映射單元，用於對所述第一臉部特徵進行映射得到第二臉部特徵，所述第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配；第二獲取單元，用於根據所述第一臉部影像以及所述第二臉部特徵，得到目標臉部影像。

第三方面，提供一種電子設備，設備包括儲存器、處理器，所述儲存器用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時實現本公開任一實施方式所述的影像處理方法。

第四方面，提供一種計算機可讀儲存媒體，其上儲存有計算機程式，所述程式被處理器執行時實現本公開任一實施方式所述的影像處理方法。

本公開一個或多個實施方式的影像處理方法、裝置、設備及儲存媒體，通過獲取基於源影像的臉部特徵與目標影像所得到的第一臉部影像的第一臉部特徵，對所述第一臉部特徵進行映射得到第二臉部特徵，所述第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配，可以提高源影像到目標影像的外觀遷移的精確度，根據所述第一臉部影像以及所述第二臉部特徵得到目標臉部影像，可以提高所述目標臉部影像中臉部區域與其他區域的連續性和一致性，從而提高了所述目標臉部影像的質量。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，並不能限制本公開。

這裡將詳細地對示例性實施例進行說明，其示例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同編號表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本公開相一致的所有實施方式。相反，它們僅是與如所附權利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

本公開實施例可以應用於計算機系統/伺服器，其可與眾多其它通用或專用計算系統、環境和/或配置一起操作。該計算系統、環境和/或配置的例子包括但不限於：個人計算機系統、伺服器計算機系統、瘦客戶端、胖客戶端、手持或膝上設備、基於微處理器的系統、機上盒、可編程消費電子產品、網路個人電腦、小型計算機系統、大型計算機系統和包括上述任何系統的分散式雲計算技術環境，等等。

圖1繪示根據本公開至少一個實施例的影像處理方法的流程圖。如圖1所示，所述方法包括步驟101~步驟103。

在步驟101中，獲取第一臉部影像的第一臉部特徵。

在本公開實施例中，所獲取的第一臉部影像的第一臉部特徵可以包括結構、紋理等多方面的特徵，例如可以包括表徵所述第一臉部影像中所包含的臉部的形狀、大小、方向等特徵。

其中，所述第一臉部影像是基於源影像的臉部特徵與目標影像得到的。

在本公開實施例中，所述源影像和所述目標影像中均包含臉部區域，所述第一臉部影像可以根據所述源影像中臉部區域的臉部特徵與所述目標影像生成。例如，通過將源影像中臉部區域的臉部特徵遷移至所述目標影像中的臉部區域，並將源影像中臉部的姿態與目標影像中臉部的姿態對齊，得到第一臉部影像。其中，所述源影像的臉部特徵可以是對所述源影像中的臉部區域進行特徵提取所得到的。示例性的，所述源影像和所述目標影像中的臉部區域可以是人的臉部區域、動物臉部區域、或者其它虛擬對象的指定區域等。

在所述第一臉部影像基於源影像的臉部特徵與目標影像得到的情況下，當所述源影像與所述目標影像存在較大的膚色差異或者照明差異時，所生成的第一臉部影像的臉部區域與該臉部區域以外的其他區域會存在較大的外觀差異，也即具有視覺不連續性。

在步驟102中，對所述第一臉部特徵進行映射得到第二臉部特徵，所述第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配。

在所述源影像和所述目標影像的外觀差異較大的情況下，兩個影像中的特徵分佈通常是不匹配的，在沒有定位資訊引導的情況下進行映射可能導致外觀的模糊遷移。其中，所述定位資訊為指示映射後特徵的位置的資訊。

在本公開實施例中，通過對所述第一臉部特徵進行映射，使所得到的第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配，提高了源影像的臉部特徵到目標影像的外觀遷移的精確度。

在步驟103中，根據所述第一臉部影像以及所述第二臉部特徵，得到目標臉部影像。

所述目標臉部影像，可以理解為將源影像的臉部區域的臉部特徵遷移至目標影像的臉部區域之後，通過特徵映射進一步優化發生遷移區域的特徵之後所形成的影像。從視覺上來看，目標臉部影像既可以反映出源影像的臉部區域的特徵，又可以反映出目標影像中除臉部區域之外的區域的特徵，從而實現自然的人臉交換效果。

由於通過特徵映射，得到了與所述目標影像的特徵分佈更加接近的第二臉部特徵，根據所述第二臉部特徵所得到的臉部區域的影像在外觀上，例如顏色空間分佈上，與目標影像的特徵分佈更為接近，因此根據所述第二臉部特徵以及所述第一臉部影像所得到的目標臉部影像消除了臉部區域的外觀與其他區域的不一致和不連續。

在本公開實施例中，通過獲取基於源影像的臉部特徵與目標影像所得到的第一臉部影像的第一臉部特徵，對所述第一臉部特徵進行映射得到第二臉部特徵，所述第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配，可以提高源影像的臉部區域的臉部特徵到目標影像的外觀遷移的精確度；根據所述第一臉部影像以及所述第二臉部特徵得到目標臉部影像，可以提高所述目標臉部影像中臉部區域與其他區域的連續性和一致性，從而提高了所述目標臉部影像的質量。

在一些實施例中，可以通過以下方式獲取所述第一臉部影像的第一臉部特徵。

首先，獲取所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種。

其中，所述臉部坐標資訊用於表徵影像中所包含的臉部的幾何資訊，例如為臉部點雲的投影正規化坐標編碼（Projected Normalized Coordinate Code，PNCC）資訊；所述臉部法向量資訊用於表徵臉部的照明方向資訊（lighting oriental information）。

在一個示例中，可以利用三維臉部擬合模型從包含臉部的影像中得到臉部點雲，例如通過三維稠密臉部對齊（3D Dense Face Alignment，3DDFA）得到臉部點雲，並通過將臉部點雲渲染投影至二維影像，得到臉部坐標資訊和/或臉部法向量資訊。

另一方面，可以通過特徵編碼網路對所述第一臉部影像中的臉部區域進行特徵提取處理，得到編碼特徵資訊，也即通過所述特徵編碼網路對所述第一臉部影像編碼以獲得高維特徵。

通過將臉部坐標資訊和/或臉部法向量資訊與所述編碼特徵資訊結合，可以得到所述第一臉部影像的第一臉部特徵。

在本公開實施例中，通過將第一臉部影像的臉部坐標資訊和/或臉部法向量資訊與特徵編碼網路所得到的編碼特徵資訊進行結合，以得到所述第一臉部影像的第一臉部特徵；通過將所述第一臉部特徵映射為符合所述目標影像的特徵分佈的第二臉部特徵，可以使生成的目標臉部影像中的臉部幾何資訊和/或照明方向資訊的分佈與目標影像一致，從而可以消除在所述源影像與所述目標影像存在較大膚色差異或者照明差異的情況下，第一臉部影像中的臉部區域的外觀與其他區域的不一致和不連續。

在一些實施例中，所述特徵編碼網路所輸出的編碼特徵資訊包括n階特徵資訊，也即輸出n個不同尺寸的特徵圖。可以通過將所述n階特徵資訊中前M階特徵資訊分別與所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種連接，得到M階連接特徵資訊，並根據所述M階連接特徵資訊和後階特徵資訊，得到所述第一臉部特徵。其中，所述後階特徵資訊包括所述n階特徵資訊中前M階特徵資訊之外的特徵資訊。在所述實施例中，n、M為正整數，且M＜n。

圖2繪示根據本公開至少一個實施例的一種影像處理方法中獲取第一臉部特徵方法的示意圖。如圖2所示，對於輸入影像

（例如為第一臉部影像

或目標影像

），一方面，通過特徵編碼網路201獲取所述輸入影像的編碼特徵資訊，所述編碼特徵資訊包括4階特徵資訊；另一方面，通過三維擬合模型202獲取所述輸入影像中所包含臉部的臉部點雲，通過對所述臉部點雲進行渲染得到PNCC資訊和/或法向量資訊，以及對所述PNCC資訊和/或法向量資訊進行投影，得到PNCC影像和/或法向量影像。接著，通過將所述PNCC影像和/或法向量影像分別縮放至與前3階特徵資訊匹配的尺寸後，將縮放後的所述PNCC影像和/或法向量影像分別與前3階特徵資訊進行連接，分別得到連接特徵資訊

、

、

。連接特徵資訊

、

、

以及第4階特徵資訊

形成所述輸入影像的第一臉部特徵。圖2中所示的獲取第一臉部特徵的結構，可以稱為感知編碼器。

在一些實施例中，可以通過特徵映射網路實現第一臉部特徵到第二臉部特徵的映射。

在一個示例中，通過特徵映射網路，對所述第一臉部影像中像素的第一特徵進行映射，得到所述像素對應的第二特徵，所述像素對應的第二特徵的機率分佈，與所述目標影像中相應像素的第三特徵的機率分佈之間的距離滿足設定條件；其中，所述第一臉部影像中像素對應的第一特徵屬所述第一臉部特徵，所述像素對應的第二特徵屬所述第二臉部特徵。

所述像素的第二特徵的機率分佈，與所述目標影像中相應像素的第三特徵的機率分佈之間的距離滿足設定條件包括：所述距離小於設定閾值或者所述距離達到最小。其中，所述設定閾值可以根據應用需要進行設置，本公開實施例對此不進行限制。

在一些實施例中，可以將所述第一臉部特徵所包含的部分特徵映射為符合目標影像的特徵分佈的第二臉部特徵，對於所述第一臉部特徵中的其他特徵直接進行傳輸，得到等同特徵。

例如，在所述第一臉部特徵資訊包括M階連接特徵資訊和後階特徵資訊的情況下，可以對M階連接特徵資訊進行映射，得到符合目標影像的特徵分佈的M階映射特徵資訊；並對所述後階特徵資訊直接進行傳輸，也即所得到的第二臉部特徵包含了M階映射特徵資訊，以及後階特徵資訊。

圖3繪示根據本公開至少一個實施例的一種影像處理方法中第一臉部特徵的映射方法的示意圖。

在本示例中，將像素的特徵以特徵向量

進行表示，其中

表示編碼特徵資訊，例如為利用卷積神經網路將像素空間編碼至隱層空間得到的k維特徵資訊，

表示臉部坐標資訊，例如3維PNCC特徵，

表示法向量資訊，例如3維法向量資訊。舉例來說，第一臉部影像

中像素的第一特徵，可以利用第一特徵向量

表示，所述像素的第二特徵，可以利用第二特徵向量

表示，所述目標影像

中像素的第三特徵，可以利用第三特徵向量

表示。

如圖3所示，首先通過映射函數

對所述第一臉部影像中像素的第一特徵向量

進行映射，得到像素｛m,n｝的第二特徵向量

。其中，i表示特徵的階數，｛m,n｝表示像素位置，其中m表示行號，n表示列號，

表示第一臉部影像的第i階特徵資訊，

表示第一臉部影像的第i階特徵資訊對應的映射特徵資訊。

在一個示例中，可以引入評估函數

確定影像中像素的特徵向量的機率分佈，從而可以確定第二特徵向量

與所述目標影像中像素所對應的第三特徵向量

之間的瓦瑟斯坦（Wasserstein）距離，也即所述第一臉部影像中像素的第二特徵向量的機率分佈，與所述目標影像中相應像素的第三特徵向量的機率分佈之間的距離。通過對映射函數

進行調整，使得第二特徵向量的機率分佈與第三特徵向量的機率分佈之間的距離滿足設定條件，例如小於設定閾值，或者使得所述距離達到最小，可以使第二特徵向量的分佈與目標影像的第三特徵向量的分佈趨於一致，從而實現了所述第一臉部影像中像素的第一特徵向量的優化遷移。

上述過程也可以通過公式（1）表示為極小化極大(minimax)問題：

(1)

其中，

表示期望值，

表示

受一階利普希茨（1-Lipschitz）約束，用於獲取影像中像素的特徵向量的機率分佈，

表示在第一臉部影像

向目標影像

轉換的基礎上，對像素的第一特徵向量進行映射。

在本公開實施例中，所述映射函數

的功能可以通過特徵映射網路實現，所述評估函數

的功能可以通過評估網路實現。

在對所述第一臉部影像的第一臉部特徵進行映射後，可以通過特徵解碼網路，對所述第二臉部特徵進行解碼，得到臉部區域的影像；並根據所述第一臉部影像中除所述臉部區域之外的影像以及解碼得到的所述臉部區域的影像，得到所述目標臉部影像。

例如,在映射得到的第二臉部特徵包含了M階映射特徵資訊，以及後階特徵資訊的情況下，可以對所述M階映射特徵資訊和所述後階特徵資訊進行解碼，得到所述臉部區域的影像。

圖4A繪示根據本公開至少一個實施例的一種影像處理方法的示意圖。如圖4A所示，根據源影像

和目標影像

，得到第一臉部影像

，將所述第一臉部影像

輸入至感知編碼器401，得到第一臉部特徵

、

、

、

。

通過利用特徵映射網路

對第一臉部特徵中的

、

、

進行映射，得到映射特徵

、

、

，並對臉部特徵

進行直接傳輸（映射為等同的特徵）；臉部解碼器402（特徵解碼網路）對映射特徵

、

、

以及臉部特徵

進行解碼得到臉部區域的影像，根據所述臉部區域的影像以及所述第一臉部影像中除所述臉部區域之外的影像得到目標臉部影像

。

下面說明本公開實施例中所應用的特徵編碼網路、特徵映射網路、特徵解碼網路的訓練過程。

在本公開實施例中，對所述特徵編碼網路、所述特徵映射網路、所述特徵解碼網路進行端到端訓練。其中，在每一代訓練中，所述特徵編碼網路和所述特徵解碼網路的訓練與所述特徵映射網路的訓練順次進行。也即，在一代訓練中，首先對所述特徵編碼網路和所述特徵解碼網路共同進行訓練，之後再對所述特徵映射網路進行訓練，如此交替進行每一代訓練。

首先說明特徵映射網路的訓練過程。

所述特徵映射網路是利用優化遷移網路訓練得到的，所述優化遷移網路包括所述特徵映射網路和距離評估網路，其中，所述距離評估網路用於確定所述第一臉部影像中像素的第二特徵的機率分佈，與所述目標影像中相應像素的第三特徵的機率分佈之間的距離。

進行所述特徵映射網路訓練的網路損失包括：映射損失，用於指示所述距離評估網路確定的、所述第一臉部影像中像素的第二特徵的機率分佈與所述目標影像中相應像素的第三特徵的機率分佈之間的差異。

在一個示例中，可以通過最小化所述映射損失調整所述特徵映射網路的網路參數。

在一個示例中，可以對特徵映射網路與所述距離評估網路進行交替訓練。例如，在一代訓練中，通過最大化所述映射損失來調整所述距離評估網路的網路參數，之後通過最小化所述映射損失來調整所述特徵映射網路的網路參數，如此交替進行每一代訓練。

所述映射損失可以用公式（2）表示：

(2)

其中，i表示特徵的階數，m表示像素的行號，n表示像素的列號，M表示總行數，N表示總列數，

表示期望值，

表示

表示在第一臉部影像

向目標影像

轉換的基礎上，對第一臉部影像中的像素｛m,n｝的第i階特徵向量進行映射。

以下說明特徵編碼網路和特徵解碼網路的訓練過程。對於所述特徵編碼網路和特徵解碼網路的訓練可以分為三種情況，第一種情況是利用所述特徵編碼網路和特徵解碼網路自身，不借助其他網路進行訓練。在這種情況下，將所述特徵編碼網路和所述特徵解碼網路共同稱為外觀遷移網路，訓練的網路損失包括：

第一損失，用於指示所述第一臉部影像中像素的第二特徵，與第一特徵之間的差異；

第二損失，用於指示所述第一臉部影像中像素的第二特徵，與所述目標影像中相應像素的第三特徵之間的差異。

在一個示例中，可以通過最小化所述第一損失和所述第二損失，對所述特徵編碼網路和所述特徵解碼網路的網路參數進行調整。

所述訓練的損失可以利用公式（3）表示：

（3）

其中，

表示利用vgg網路獲取影像的特徵，其中，第一損失可以體現目標臉部影像與第一臉部影像之間內容上的差異，第二損失可以體現目標臉部影像與目標影像之間外觀上的差異。

第二種情況是可以借助臉部重建網路對所述特徵編碼網路和特徵解碼網路進行訓練。在這種情況下，可以將所述特徵編碼網路、特徵解碼網路、臉部重建網路共同稱為外觀遷移網路。其中，所述臉部重建網路用於根據所述目標臉部影像的臉部特徵重建得到重建臉部影像。

圖4B繪示根據本公開至少一個實施例的一種影像處理方法中訓練特徵編碼網路和特徵解碼網路方法的示意圖。如圖4B所示，所述臉部重建網路包括與感知編碼器401和臉部解碼器402共享權值的感知編碼器403和臉部解碼器404。通過對感知編碼器403從目標影像

獲取的臉部特徵

、

、

、

進行直接傳輸，並通過臉部解碼器404對臉部特徵

、

、

、

進行解碼，得到重建影像

。

在這種情況下，所述訓練的網路損失除了所述第一損失和第二損失之外，還包括第三損失，所述第三損失用於指示所述第一臉部影像中像素的第二特徵，與所述臉部重建網路輸出的臉部重建影像中相應像素的第四特徵之間的差異。

所述訓練的損失可以利用公式（4）表示：

（4）

其中，第一損失和第二損失與公式（3）相同，第三損失可以體現重建臉部影像與目標影像之間外觀上的差異。

第三種情況是還可以借助混合網路和鑑別網路，對所述特徵編碼網路和特徵解碼網路進行訓練。在這種情況下，可以將所述特徵編碼網路、特徵解碼網路、混合網路和鑑別網路，或者連同所述臉部重建網路，共同稱為外觀遷移網路。其中，所述混合網路用於對所述目標臉部影像中的像素和所述目標影像/所述重建影像中的像素進行混合，以得到混合影像；所述鑑別網路用於確定所述混合影像中的像素的分類結果，也即所述像素是屬目標臉部影像的像素（生成影像像素）還是屬目標影像或重建臉部影像的像素（真實影像像素）。

圖4C繪示根據本公開至少一個實施例的一種影像處理方法中訓練特徵編碼網路和特徵解碼網路的另一種方法的示意圖。如圖4C所示，混合網路405利用隨機生成的掩模

生成混合影像

，例如通過公式（5）得到混合影像

：

（5）

其中，

表示掩模，

表示目標臉部影像，

表示目標影像。

鑑別網路406對於混合影像

，預測出混合影像中的像素是真實影像像素還是生成影像像素。

在這種情況下，所述訓練的損失可以利用公式（6）表示：

（6）

其中，E表示期望值，

表示混合影像，

表示掩模，

表示預測混合影像中基於像素的瓦瑟斯坦距離的函數，

表示MSD函數受一階利普希茨約束。

在這種訓練方式中，可以通過將被判斷為假的部分的損失（鑑別損失）最大化，以及將被判斷為真的部分的損失（生成損失）最小化，對所述特徵編碼網路和所述特徵解碼網路的參數進行調整。

在一個示例中，對所述特徵編碼網路和所述特徵解碼網路進行訓練的網路損失可以用公式（7）表示：

（7）

其中，

為加權係數，可以根據各部分損失的重要程度來確定。

以上結合圖4A到圖4C對本公開實施例的影像處理方法所使用的各種神經網路的訓練過程進行了描述。請注意，圖4A到圖4C中繪示的臉部特徵僅為示例性的，並不具有限制性。具體實施中，根據需要，該臉部特徵可以包括局部特徵，例如眼睛、鼻子、嘴巴等部位的特徵，也可以包括整張臉的全域特徵，或者既可以包括局部特徵又可以包括全域特徵，以及其它臉部特徵等等。

圖5繪示根據本公開至少一個實施例的一種影像處理裝置的結構示意圖，如圖5所示，所述裝置包括：第一獲取單元501，用於獲取第一臉部影像的第一臉部特徵，所述第一臉部影像是基於源影像的臉部特徵與目標影像得到的；映射單元502，用於對所述第一臉部特徵進行映射得到第二臉部特徵，所述第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配；第二獲取單元503，用於根據所述第一臉部影像以及所述第二臉部特徵，得到目標臉部影像。

在一些實施例中，所述第一獲取單元具體用於：獲取所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種；通過特徵編碼網路對所述第一臉部影像進行特徵提取處理，得到編碼特徵資訊；根據所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種和所述編碼特徵資訊，得到所述第一臉部影像的第一臉部特徵。

在一些實施例中，所述映射單元具體用於：通過特徵映射網路，對所述第一臉部影像中像素的第一特徵進行映射，得到所述像素的第二特徵，所述像素的第二特徵的機率分佈與所述目標影像中相應像素的第三特徵的機率分佈之間的距離滿足設定條件；其中，所述第一臉部影像中像素的第一特徵屬所述第一臉部特徵，所述像素的第二特徵屬所述第二臉部特徵。

在一些實施例中，所述第二獲取單元具體用於：通過特徵解碼網路，對所述第二臉部特徵進行解碼，得到臉部區域的影像；根據所述第一臉部影像中除所述臉部區域之外的影像以及解碼得到的所述臉部區域的影像，得到所述目標臉部影像。

在一些實施例中，所述編碼特徵資訊包括n階特徵資訊；所述第一獲取單元在用於根據所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種和所述編碼特徵資訊，得到所述第一臉部影像的第一臉部特徵時，具體用於：將所述n階特徵資訊的前M階特徵資訊分別與所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種連接，得到M階連接特徵資訊；根據所述M階連接特徵資訊和後階特徵資訊得到所述第一臉部特徵，其中，所述後階特徵資訊包括所述編碼特徵資訊中除所述前M階特徵資訊之外的特徵資訊，n、M為正整數，M＜n。

在一些實施例中，所述映射單元在用於對所述第一臉部特徵進行映射得到第二臉部特徵時，具體用於：對所述M階連接特徵資訊進行映射，得到與所述目標影像的特徵分佈相匹配的M階映射特徵資訊；所述第二獲取單元在用於通過特徵解碼網路，對所述第二臉部特徵進行解碼，得到臉部區域的影像時，具體用於：對所述M階映射特徵資訊和所述後階特徵資訊進行解碼，得到所述臉部區域的影像。

在一些實施例中，所述裝置還包括訓練單元，用於對所述特徵編碼網路、所述特徵映射網路、所述特徵解碼網路進行端到端訓練，其中，在每一代訓練中，所述特徵編碼網路和所述特徵解碼網路的訓練與特徵映射網路的訓練順次進行。

在一些實施例中，所述特徵映射網路是利用優化遷移網路訓練得到的，所述優化遷移網路包括所述特徵映射網路和距離評估網路，所述訓練的網路損失包括：映射損失，用於指示所述距離評估網路確定的、所述第一臉部影像中像素的第二特徵的機率分佈與所述目標影像中相應像素的第三特徵的機率分佈之間的差異。

在一些實施例中，所述特徵編碼網路和所述特徵解碼網路利用外觀遷移網路訓練得到的，所述外觀遷移網路包括所述特徵編碼網路、所述特徵解碼網路，所述訓練的網路損失包括：第一損失，用於指示所述第一臉部影像中像素的第二特徵，與第一特徵之間的差異；第二損失，用於指示所述第一臉部影像中像素的第二特徵，與所述目標影像中相應像素的第三特徵之間的差異。

在一些實施例中，所述外觀遷移網路還包括臉部重建網路，所述臉部重建網路用於根據所述目標影像的臉部特徵重建得到重建臉部影像，所述訓練的網路損失還包括：第三損失，用於指示所述第一臉部影像中像素的第二特徵，與所述臉部重建網路輸出的臉部重建影像中相應像素的第四特徵之間的差異。

在一些實施例中，所述外觀遷移網路還包括鑑別網路，所述訓練的網路損失還包括：第四損失，用於指示所述鑑別網路確定的混合影像樣本中像素的分類結果與所述混合影像樣本的標註資訊之間的差異，其中，所述混合影像樣本包括通過對所述目標臉部影像中的像素與所述目標影像或所述臉部重建影像中的像素進行混合得到的影像，所述標註資訊指示生成影像像素或指示真實影像像素。

圖6為本公開至少一個實施例提供的電子設備，所述設備包括儲存器601、處理器602，所述儲存器用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時實現本說明書任一實施例所述的影像處理方法。

本說明書至少一個實施例還提供了一種計算機可讀儲存媒體，其上儲存有計算機程式，所述程式被處理器執行時實現本說明書任一實施例所述的影像方法。

在本公開實施例中，計算機可讀儲存媒體可以是多種形式，比如，在不同的例子中，所述機器可讀儲存媒體可以是：RAM（Radom Access Memory，隨機存取記憶體）、揮發性記憶體、非揮發性記憶體、快閃記憶體、儲存驅動器（如硬碟驅動器）、固態硬碟、任何類型的儲存碟（如光碟、dvd等），或者類似的儲存媒體，或者它們的組合。特殊的，所述的計算機可讀媒體還可以是紙張或者其他合適的能夠打印程式的媒體。使用這些媒體，這些程式可以被通過電學的方式獲取到（例如，光學掃描）、可以被以合適的方式編譯、解釋和處理，然後可以被儲存到計算機媒體中。

以上所述僅為本公開的較佳實施例而已，並不用以限制本公開，凡在本公開的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本公開保護的範圍之內。

101:獲取第一臉部影像的第一臉部特徵，所述第一臉部影像是基於源影像的臉部特徵與目標影像得到的 102:對所述第一臉部特徵進行映射得到第二臉部特徵，所述第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配 103:根據所述第一臉部影像以及所述第二臉部特徵，得到目標臉部影像 401:感知編碼器 402:臉部解碼器 403:感知編碼器 404:臉部解碼器 405:混合網路 501:第一獲取單元 502:映射單元 503:第二獲取單元 601:儲存器 602:處理器

圖1繪示根據本公開至少一個實施例的一種影像處理方法的流程圖。圖2繪示根據本公開至少一個實施例的一種影像處理方法中獲取臉部特徵方法的示意圖。圖3繪示根據本公開至少一個實施例的一種影像處理方法中臉部特徵映射方法的示意圖。圖4A繪示根據本公開至少一個實施例的影像處理方法中一種訓練特徵編碼網路和特徵解碼網路方法的示意圖。圖4B繪示根據本公開至少一個實施例的影像處理方法中另一種訓練特徵編碼網路和特徵解碼網路方法的示意圖。圖4C繪示根據本公開至少一個實施例的影像處理方法又一種訓練特徵編碼網路和特徵解碼網路方法的示意圖。圖5繪示根據本公開至少一個實施例的一種影像處理裝置的結構示意圖。圖6繪示根據本公開至少一個實施例的一種電子設備的結構圖。

101:獲取第一臉部影像的第一臉部特徵，所述第一臉部影像是基於源影像的臉部特徵與目標影像得到的

102:對所述第一臉部特徵進行映射得到第二臉部特徵，所述第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配

103:根據所述第一臉部影像以及所述第二臉部特徵，得到目標臉部影像

Claims

一種影像處理方法，包括：獲取第一臉部影像的第一臉部特徵，所述第一臉部影像是基於源影像的臉部特徵與目標影像得到的；對所述第一臉部特徵進行映射得到第二臉部特徵，所述第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配；根據所述第一臉部影像以及所述第二臉部特徵，得到目標臉部影像。
如請求項1所述的影像處理方法，其中，所述獲取第一臉部影像的第一臉部特徵，包括：獲取所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種；通過特徵編碼網路對所述第一臉部影像進行特徵提取處理，得到編碼特徵資訊；根據所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種和所述編碼特徵資訊，得到所述第一臉部影像的第一臉部特徵。
如請求項1或2所述的影像處理方法，其中，所述對所述第一臉部特徵進行映射得到第二臉部特徵，包括：通過特徵映射網路，對所述第一臉部影像中像素的第一特徵進行映射，得到所述像素的第二特徵，所述像素的第二特徵的機率分佈與所述目標影像中相應像素的第三特徵的機率分佈之間的距離滿足設定條件；其中，所述第一臉部影像中像素的第一特徵屬所述第一臉部特徵，所述像素的第二特徵屬所述第二臉部特徵。
如請求項1或2所述的影像處理方法，其中，所述根據所述第一臉部影像以及所述第二臉部特徵，得到所述目標臉部影像，包括：通過特徵解碼網路，對所述第二臉部特徵進行解碼，得到臉部區域的影像；根據所述第一臉部影像中除所述臉部區域之外的影像以及解碼得到的所述臉部區域的影像，得到所述目標臉部影像。
如請求項2所述的影像處理方法，其中，所述編碼特徵資訊包括n階特徵資訊；根據所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種和所述編碼特徵資訊，得到所述第一臉部影像的第一臉部特徵，包括：將所述n階特徵資訊的前M階特徵資訊分別與所述第一臉部影像的臉部坐標資訊和臉部法向量資訊中的至少一種連接，得到M階連接特徵資訊；根據所述M階連接特徵資訊和後階特徵資訊得到所述第一臉部特徵，其中，所述後階特徵資訊包括所述編碼特徵資訊中除所述前M階特徵資訊之外的特徵資訊，n、M為正整數，M＜n。
如請求項5所述的影像處理方法，其中，所述對所述第一臉部特徵進行映射得到第二臉部特徵，包括：對所述M階連接特徵資訊進行映射，得到與所述目標影像的特徵分佈相匹配的M階映射特徵資訊；所述通過特徵解碼網路，對所述第二臉部特徵進行解碼，得到臉部區域的影像，包括：對所述M階映射特徵資訊和所述後階特徵資訊進行解碼，得到所述臉部區域的影像。
如請求項2、5、6之中任一項所述的影像處理方法，其中，所述方法還包括，對所述特徵編碼網路、所述特徵映射網路、所述特徵解碼網路進行端到端訓練，其中，在每一代訓練中，所述特徵編碼網路和所述特徵解碼網路的訓練與所述特徵映射網路的訓練順次進行。
如請求項7所述的影像處理方法，其中，所述特徵映射網路是利用優化遷移網路訓練得到的，所述優化遷移網路包括所述特徵映射網路和距離評估網路，所述訓練的網路損失包括：映射損失，用於指示所述距離評估網路確定的、所述第一臉部影像中像素的第二特徵的機率分佈與所述目標影像中相應像素的第三特徵的機率分佈之間的差異。
如請求項7所述的影像處理方法，其中，所述特徵編碼網路和所述特徵解碼網路利用外觀遷移網路訓練得到的，所述外觀遷移網路包括所述特徵編碼網路、所述特徵解碼網路，所述訓練的網路損失包括：第一損失，用於指示所述第一臉部影像中像素的第二特徵，與第一特徵之間的差異；第二損失，用於指示所述第一臉部影像中像素的第二特徵，與所述目標影像中相應像素的第三特徵之間的差異。
如請求項9所述的影像處理方法，其中，所述外觀遷移網路還包括臉部重建網路，所述臉部重建網路用於根據所述目標影像的臉部特徵重建得到重建臉部影像，所述訓練的網路損失還包括：第三損失，用於指示所述第一臉部影像中像素的第二特徵，與所述臉部重建網路輸出的臉部重建影像中相應像素的第四特徵之間的差異。
如請求項9所述的影像處理方法，其中，所述外觀遷移網路還包括鑑別網路，所述訓練的網路損失還包括：第四損失，用於指示所述鑑別網路確定的混合影像樣本中像素的分類結果與所述混合影像樣本的標註資訊之間的差異，其中，所述混合影像樣本包括通過對所述目標臉部影像中的像素與所述目標影像或所述臉部重建影像中的像素進行混合得到的影像，所述標註資訊指示生成影像像素或指示真實影像像素。
一種影像處理裝置，包括：第一獲取單元，用於獲取第一臉部影像的第一臉部特徵，所述第一臉部影像是基於源影像的臉部特徵與目標影像得到的；映射單元，用於對所述第一臉部特徵進行映射得到第二臉部特徵，所述第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配；第二獲取單元，用於根據所述第一臉部影像以及所述第二臉部特徵，得到目標臉部影像。
一種電子設備，包括儲存器、處理器，所述儲存器用於儲存可在處理器上運行的計算機指令，所述處理器在執行所述計算機指令時被促使：獲取第一臉部影像的第一臉部特徵，所述第一臉部影像是基於源影像的臉部特徵與目標影像得到的；對所述第一臉部特徵進行映射得到第二臉部特徵，所述第二臉部特徵中的至少部分特徵的分佈與所述目標影像的特徵分佈相匹配；根據所述第一臉部影像以及所述第二臉部特徵，得到目標臉部影像。
一種計算機可讀儲存媒體，其上儲存有計算機程式，其中，所述計算機程式被處理器執行時實現請求項1至11之中任一項所述的影像處理方法。