TWI672667B

TWI672667B - 訓練用於影像處理神經網路模型的方法及裝置和電腦可讀儲存媒體

Info

Publication number: TWI672667B
Application number: TW107107998A
Authority: TW
Inventors: 黃浩智; 王浩; 羅文寒; 馬林; 楊鵬; 姜文浩; 朱曉龍; 劉威
Original assignee: 大陸商騰訊科技（深圳）有限公司
Priority date: 2017-03-08
Filing date: 2018-03-08
Publication date: 2019-09-21
Also published as: US11610082B2; EP3540637A4; KR20190100320A; EP3540637A1; JP6755395B2; WO2018161775A1; US20210182616A1; US20190228264A1; US10970600B2; CN108304755B; KR102281017B1; JP2019534520A; TW201833867A; CN108304755A; EP3540637B1

Abstract

一種用於影像處理的神經網路模型的訓練方法及裝置和電腦可讀儲存介質，所述方法包括：獲取多個時間相鄰的視頻幀；將時間相鄰的視頻幀經過一神經網路模型處理以輸出相對應的中間圖像；獲取時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊；獲取時序在前的視頻幀所對應的中間圖像按光流資訊變化後之一圖像；獲取時序在後的視頻幀所對應的中間圖像與變化後之圖像之間的時間損耗；獲取時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗；以及根據時間損耗和特徵損耗調整神經網路模型。

Description

訓練用於影像處理神經網路模型的方法及裝置和電腦可讀儲存媒體

本揭示關於電腦技術領域，特別是關於一種用於影像處理的神經網路模型的訓練方法及裝置和電腦可讀儲存介質。

隨著電腦技術的發展，在影像處理技術中，通常會用到神經網路模型來對圖像的特徵進行轉換處理，例如圖像顏色特徵轉換、圖像光影特徵轉換或者圖像風格特徵轉換等。在通過神經網路模型對圖像進行特徵轉換處理之前，需要先訓練出用於影像處理的神經網路模型。

本揭示實施例提出一種用於影像處理的神經網路模型的訓練方法，應用於電子設備，所述方法包括：獲取多個時間相鄰的視頻幀；將所述多個時間相鄰的視頻幀分別經過一神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像；獲取所述多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊；獲取所述時序在前的視頻幀所對應的中間圖像按所述光流資訊變化後之一圖像；獲取所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像之間的時間損耗；獲取所述多個時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗；以及根據所述時間損耗和所述特徵損耗調整所述神經網路模型，返回所述獲取多個時間相鄰的視頻幀的步驟繼續訓練，直至所述神經網路模型滿足訓練結束條件。

本揭示實施例提出一種用於影像處理的神經網路模型的訓，練裝置，所述裝置包括一處理器以及與所述處理器相連接之一記憶體，所述記憶體中儲存有可由所述處理器執行的機器可讀指令模組，所述機器可讀指令模組包括：一輸入獲取模組，用於獲取多個時間相鄰的視頻幀；一輸出獲取模組，用於將所述多個時間相鄰的視頻幀分別經過一神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像；一損耗獲取模組，獲取所述多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊，獲取所述時序在前的視頻幀所對應的中間圖像按所述光流資訊變化後之一圖像，獲取所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像之間的時間損耗，獲取所述多個時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗；以及一模型調整模組，用於根據所述時間損耗和所述特徵損耗調整所述神經網路模型，返回所述獲取多個時間相鄰的視頻幀的步驟繼續訓練，直至所述神經網路模型滿足訓練結束條件。

本揭示實施例提出一種電腦可讀儲存介質，所述儲存介質中儲存有機器可讀指令，所述機器可讀指令由一處理器執行以完成：獲取多個時間相鄰的視頻幀；將所述多個時間相鄰的視頻幀分別經過一神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像；獲取所述多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊；獲取所述時序在前的視頻幀所對應的中間圖像按所述光流資訊變化後之一圖像；獲取所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像之間的時間損耗；獲取所述多個時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗；以及根據所述時間損耗和所述特徵損耗調整所述神經網路模型，返回所述獲取多個時間相鄰的視頻幀的步驟繼續訓練，直至所述神經網路模型滿足訓練結束條件。

1、100‧‧‧電子設備

2‧‧‧使用者終端

3‧‧‧網路

11、500、1032‧‧‧用於影像處理的神經網路模型的訓練裝置

101‧‧‧系統匯流排

102、610‧‧‧處理器

103‧‧‧非揮發性儲存介質

104、630‧‧‧記憶體

501、601‧‧‧輸入獲取模組

502、602‧‧‧輸出獲取模組

503、603‧‧‧損耗獲取模組

504、604‧‧‧模型調整模組

620‧‧‧匯流排

1031‧‧‧作業系統

S202-S214、S302-S322‧‧‧步驟

第1A圖為本揭示一實施例提供的用於影像處理的神經網路模型的訓練方法的實施環境示意圖。

第1B圖為本揭示一實施例中用於實現用於影像處理的神經網路模型的訓練方法的電子設備的內部結構示意圖。

第2圖為本揭示一實施例中用於影像處理的神經網路模型的訓練方法的流程示意圖。

第3圖為本揭示另一實施例中用於影像處理的神經網路模型的訓練方法的流程示意圖。

第4圖為本揭示一實施例中用於影像處理的神經網路模型的訓練架構圖。

第5圖為本揭示一實施例中用於影像處理的神經網路模型的訓練裝置的方塊圖。

第6圖為本揭示另一實施例中用於影像處理的神經網路模型的訓練裝置的方塊圖。

為了使本揭示的目的、技術方案及優點更加清楚明白，以下結合附圖及實施例，對本揭示進行進一步詳細說明。應當理解，此處所描述的具體實施例僅僅用以解釋本揭示，並不用於限定本揭示。

採用習知的神經網路模型訓練方法訓練出的用於影像處理的神經網路模型在對視頻進行特徵轉換時，由於沒有考慮各視頻幀(frame)之間的時間一致性，因此會引入大量的閃爍雜訊(flickering)，導致視頻特徵轉換的效果較差。

有鑑於此，本揭示實施例提出了一種用於影像處理的神經網路模型的訓練方法及裝置和儲存介質，在對神經網路模型進行訓練時，將時間損耗與特徵損耗協同作為回饋調整依據來調整神經網路模型，以訓練得到可用於影像處理的神經網路模型。在對神經網路模型進行訓練時，通過將時間相鄰的視頻幀作為輸入，以對時序在前的視頻幀所對應的中間圖像，按照時序在前的視頻幀變化至時序在後的視頻幀的光流資訊，得到時序在後的視頻幀預期所對應的中間圖像，從而得到時間損耗。該時間損耗反映了時間相鄰的視頻幀各自對應的中間圖像之間在時間一致性上的損耗。訓練後的神經網路模型在對視頻進行特徵轉換時，會考慮視頻的各視頻幀之間的時間一致性，極大地減少了特徵轉換過程中引入的閃爍雜訊，從而提高了對視頻進行特徵轉換時的轉換效果。同時，將神經網路模型計算與電子設備處理器能力結合在一起來處理視頻圖像，提高了處理器計算速度且不必犧牲視頻圖像特徵轉換效果，從而產生更優的用於影像處理的神經網路模型。

第1A圖為本揭示一實施例提供的用於影像處理的神經網路模型的訓練方法的實施環境示意圖。電子設備1包括有本揭示任一實施例提供的用於影像處理的神經網路模型的訓練裝置11，該用於影像處理的神經網路模型的訓練裝置11用於實現本揭示任一實施例提供的用於影像處理的神經網路模型的訓練方法。該電子設備1與使用者終端2之間通過網路3連接，所述網路3可以是有線網路，也可以是無線網路。

第1B圖為本揭示實施例中用於實現用於影像處理的神經網路模型的訓練方法的電子設備100的內部結構示意圖。參照第1B圖，該電子設備100包括通過系統匯流排101連接的處理器102、非揮發性儲存介質103和記憶體104。電子設備100的非揮發性儲存介質103儲存有作業系統1031，還儲存有用於影像處理的神經網路模型的訓練裝置1032，用於影像處理的神經網路模型的訓練裝置1032用於實現一種用於影像處理的神經網路模型的訓練方法。電子設備100的處理器102用於提供計算和控制能力，支撐整個電子設備100的運行。電子設備100中的記憶體104為非揮發性儲存介質 103中的用於影像處理的神經網路模型的訓練裝置的運行提供環境。該記憶體104中可儲存有電腦可讀指令，該電腦可讀指令被處理器102執行時，可使得處理器102執行一種用於影像處理的神經網路模型的訓練方法。該電子設備100可以是終端，也可以是伺服器。終端可以是個人電腦或者移動電子設備，移動電子設備包括手機、平板電腦、個人數位助理或者穿戴式設備等中的至少一種。伺服器可以用獨立的伺服器或者是多個物理伺服器組成的伺服器集群來實現。本揭示所屬技術領域中具有通常知識者可以理解，第1B圖中示出的結構僅僅是與本揭示方案相關的部分結構的方塊圖，並不構成對本揭示方案所應用於其上的電子設備的限定，具體的電子設備可以包括比第1B圖中所示更多或更少的部件，或者組合某些部件，或者具有不同的部件佈置。

第2圖為本揭示一實施例中用於影像處理的神經網路模型的訓練方法的流程示意圖。本實施例主要以該方法應用於上述第1B圖中的電子設備100來舉例說明。參照第2圖，該用於影像處理的神經網路模型的訓練方法具體包括如下步驟：

步驟S202，獲取多個時間相鄰的視頻幀。

具體地，視頻是指可分割為按時間順序排列的靜態圖像序列的資料。將視頻分割得到的靜態圖像可作為視頻幀。時間相鄰的視頻幀是指按時序排列的視頻幀中相鄰的視頻幀。獲取的時間相鄰的視頻幀具體可以是兩個或多於兩個且時間相鄰的視頻幀。例如，若按時序排列的視頻幀為p1，p2，p3，p4......，則p1和p2為時間相鄰的視頻幀，p1，p2和p3也是時間相鄰的視頻幀。

在本揭示一個實施例中，電子設備中設置有訓練樣本集，在訓練樣本集中儲存著多組時間相鄰的視頻幀，電子設備可從訓練樣本集中獲取任意一組時間相鄰的視頻幀。訓練樣本集中的時間相鄰的視頻幀可以是由電子設備根據從網際網路上獲取的視頻分割得到，也可以是由電子設備根據通過該電子設備包括的攝像設備錄製的視頻分割得到。

在本揭示一個實施例中，電子設備中可設置多個訓練樣本集，每個訓練樣本集都設置有對應的訓練樣本集標識。使用者通過電子設備可以訪問訓練樣本集，並通過電子設備選擇用於進行訓練的訓練樣本集。電子設備可檢測使用者觸發的攜帶有訓練樣本集標識的選擇指令，電子設備提取選擇指令中的訓練樣本集標識，從訓練樣本集標識對應的訓練樣本集中獲取時間相鄰的視頻幀。

步驟S204，將多個視頻幀分別經過神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像。

神經網路模型是指由多層互相連接而形成的複雜網路模型。在本實施例中，電子設備可對一個神經網路模型進行訓練，訓練結束後得到的神經網路模型可用於影像處理。神經網路模型可包括多層特徵轉換層，每層特徵轉換層都有對應的非線性變化運算元，每層的非線性變化運算元可以是多個，每層特徵轉換層中的一個非線性變化運算元對輸入的圖像進行非線性變化，得到特徵圖(feature map)作為運算結果。每個特徵轉換層接收前一層的運算結果，經過自身的運算，對下一層輸出本層的運算結果。

具體地，電子設備在獲取到時間相鄰的視頻幀之後，將時間相鄰的視頻幀分別輸入神經網路模型，依次通過神經網路模型的各特徵轉換層。在每一層特徵轉換層上，電子設備利用該特徵轉換層對應的非線性變化運算元，對上一層輸出的特徵圖中包括的像素點對應的像素值進行非線性變化，並輸出當前特徵轉換層上的特徵圖。如果當前特徵轉換層為第一級特徵轉換層，則上一層輸出的特徵圖為輸入的視頻幀。像素點對應的像素值具體可以為像素點的RGB(Red Green Blue)三通道顏色值。

舉例說明，在本揭示一個實施例中，需訓練的神經網路模型具體可包括3個卷積層、5個殘差模組、2個反卷積層和1個卷積層。電子設備將視頻幀輸入神經網路模型後，首先經過卷積層，該卷積層對應的各卷積核對輸入的視頻幀對應的像素值矩陣進行卷積操作，得到與該卷積層中各卷積核各自對應的像素值矩陣，亦即特徵圖，再將得到的各特徵圖共同作為下一層卷積層的輸入，逐層進行非線性變化，直至最後一層卷積層輸出相應卷積核數量的特徵圖，再按照各特徵圖對應的偏置項對各特徵圖中對應的像素位置的像素值進行運算，合成一個特徵圖作為輸出的中間圖像。

電子設備可設置在其中一層卷積層的卷積操作後進行下採樣操作。下採樣的方式具體可以是均值採樣或者極值採樣。例如，下採樣的方式為對2*2像素區域進行均值採樣，則其中一個2*2像素區域對應的像素值矩陣為[1,2,3,4]，下採樣得到的像素值為：(1+2+3+4)/4=2.5。下採樣操作後得到的特徵圖的解析度減小為輸入的視頻幀的解析度的1/4。進一步地，電子設備需在反卷積層的反卷積操作後設置與在前的下採樣操作相應的上採樣操作，使得上採樣操作後得到的特徵圖的解析度增大為上採樣操作前的特徵圖的解析度的4倍，以保證輸出的中間圖像與輸入的視頻幀的解析度一致。

神經網路模型中包括的層的個數以及層的類型可自訂調整，也可根據後續的訓練結果相應調整。但需滿足輸入神經網路模型的圖像的解析度與神經網路模型輸出的圖像的解析度一致。

步驟S206，獲取所述多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊。

光流可表示圖像中灰度模式的運動速度。圖像中按照空間位置排列的所有光流組成光流場。光流場表徵了圖像中像素點的變化情況，可用來確定圖像間相應像素點的運動資訊。

在本揭示實施例中，時序在前的視頻幀是指時間相鄰的視頻幀中時間戳記較早的視頻幀；時序在後的視頻幀則是指時間相鄰的視頻幀中時間戳記較晚的視頻幀。例如時間相鄰的視頻幀按時序排列依次為x1， x2和x3，則x1相對於x2和x3為時序在前的視頻幀；x2相對於x1為時序在後的視頻幀，x2相對於x3為時序在前的視頻幀。

在本揭示實施例中，時序在前的視頻幀變化至時序在後的視頻幀的光流資訊可由時序在前的視頻幀與時序在後的視頻幀之間的光流場表示。在本實施例中，用於計算光流資訊的方式具體可以是根據光流約束方程式得到的基於微分的光流演算法、基於區域匹配的光流演算法、基於能量的光流演算法、基於相位的光流演算法和神經動力學光流演算法等中的任意一種，本揭示實施例對此不做具體限定。

具體地，電子設備可按照用於計算光流資訊的方式計算時序在前的視頻幀變化至時序在後的視頻幀的光流資訊，得到時序在前的視頻幀中每個像素點相應的於時序在後的視頻幀中相應的像素點的光流。電子設備也可從時序在前的視頻幀中選取特徵點，採用稀疏光流計算方式，計算選取的特徵點相應的光流。例如，時序在前的視頻幀中像素點A的位置為(x1，y1)，時序在後的視頻幀中像素點A的位置為(x2，y2)，那麼像素點A的速度向量=(u,v)=(x1,y1)-(x2,y2)。時序在前的視頻幀中各像素點變化至時序在後的視頻幀中相應像素點的速度向量形成的向量場即為時序在前的視頻幀變化至時序在後的視頻幀的光流場。

在本揭示一個實施例中，當時間相鄰的視頻幀是多於兩個且為時間相鄰的視頻幀時，電子設備可計算時間相鄰的視頻幀中相鄰的兩幀視頻幀之間的光流資訊，也可以計算時間相鄰的視頻幀中不相鄰的兩幀視頻幀之間的光流資訊。例如，時間相鄰的視頻幀按時序排列依次為x1，x2和x3，電子設備可計算x1與x2之間的光流資訊，x2與x3之間的光流資訊，還可以計算x1與x3之間的光流資訊。

在本揭示一個實施例中，電子設備在按照用於計算光流資訊的方式計算時序在前的視頻幀變化至時序在後的視頻幀的光流資訊時，也可確定計算得到的光流資訊的置信度(confidence level)。光流資訊的置信度與光流資訊一一對應，用於表示相應的光流資訊的可信程度。光流資訊的置信度越高，表示計算得到的光流資訊所表徵的圖像中像素點的運動資訊越準確。

步驟S208，獲取時序在前的視頻幀所對應的中間圖像按光流資訊變化後的圖像。

具體地，電子設備可將時序在前的視頻幀所對應的中間圖像中包括的像素點，按照時序在前的視頻幀變化至時序在後的視頻幀的光流資訊進行變化，得到變化後的像素點形成的圖像，亦即得到時序在後的視頻幀預期所對應的中間圖像的像素值分佈。

在本揭示一個實施例中，當時間相鄰的視頻幀是多於兩個且為時間相鄰的視頻幀時，電子設備可按照時間相鄰的視頻幀中相鄰的兩幀視頻幀之間的光流資訊，對相鄰的兩幀視頻幀中時序在前的視頻幀所對應的中間圖像按照該光流資訊得到相鄰的兩幀視頻幀中時序在後的視頻幀預期所對應的中間圖像。例如，時間相鄰的視頻幀按時序排列依次為x1，x2和x3，神經網路模型輸出的x1、x2和x3的中間圖像相應排序依次為y1，y2和y3。x1變化至x2的光流資訊為g1，x2變化至x3的光流資訊為g2，電子設備可將y1按照g1變化為z2，將z2按照g2變化為z3，z2為x2預期對應的中間圖像，z3為x3預期對應的中間圖像。

在本揭示一個實施例中，電子設備也可按照時間相鄰的視頻幀中不相鄰的兩幀視頻幀之間的光流資訊，對不相鄰的兩幀視頻幀中時序在前的視頻幀所對應的中間圖像按照該光流資訊得到不相鄰的兩幀視頻幀中時序在後的視頻幀預期所對應的中間圖像。例如，時間相鄰的視頻幀按時序排列依次為x1，x2和x3，神經網路模型輸出的x1、x2和x3的中間圖像相應排序依次為y1，y2和y3。x1變化至x3的光流資訊為g3，電子設備可將y1按照g3變化為z3，z3為x3預期對應的中間圖像。

在本揭示一個實施例中，電子設備也可在將時序在前的視頻幀所對應的中間圖像中包括的像素點按照相應的光流資訊變化時，將光流資訊的置信度作為權重，修正變化後的像素點形成的圖像。

步驟S210，獲取時序在後的視頻幀所對應的中間圖像與步驟S208中獲取的變化後的圖像間的時間損耗。

時間損耗可用於表徵時間相鄰的視頻幀在時域上的變化，與時間相鄰的視頻幀通過神經網路模型處理後得到的圖像之間在時域上的變化的差異。具體地，電子設備可將時序在後的視頻幀所對應的中間圖像與將時序在前的視頻幀所對應的中間圖像按照時序在前的視頻幀變化至時序在後的視頻幀的光流資訊變化後的圖像進行比較，得到兩者之間的差異，根據該差異確定時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗。

舉例說明，假設時間相鄰的視頻幀的幀數為兩幀，時序在前的視頻幀為x ^t-1，時序在後的視頻幀為x ^t，且x ^t-1變化至x ^t的光流資訊為G ^t。x ^t-1經過神經網路模型處理後輸出的中間圖像為y ^t-1，x ^t經過神經網路模型處理後輸出的中間圖像為y ^t。電子設備可將y ^t-1按照x ^t-1變化至x ^t的光流資訊G ^t進行變化，得到z ^t，z ^t可作為預期的時序在後的視頻幀x ^t所對應的神經網路模型處理後輸出的圖像。電子設備可再比較y ^t與z ^t的差異，從而得到y ^t與z ^t間的時間損耗。

舉例說明，假設時間相鄰的視頻幀按時序排列依次為x1，x2和x3，神經網路模型輸出的x1、x2和x3對應的中間圖像相應排序依次為y1，y2和y3。x1變化至x2的光流資訊為g1，x2變化至x3的光流資訊為g2，x1變化至x3的光流資訊為g3。電子設備可將y1按照g1變化為z2，將z2按照g2變化為z3，將y1按照g3變化為z’3，z2為x2預期對應的中間圖像，z3與z’3均為x3預期對應的中間圖像，電子設備可比較y2與z2的差異，得到y2與z2之間的時間損耗；電子設備可比較y3與z3的差異，以及y3與z’3的差異，根據z3與z’3的權重得到y3與z3和z’3之間的時間損耗。

步驟S212，獲取多個時間相鄰的視頻幀對應的中間圖像與目標特徵圖像之間的特徵損耗。

神經網路模型用於對圖像進行特徵轉換時需轉換至的圖像特徵即為目標特徵圖像所對應的圖像特徵。特徵損耗為神經網路模型輸出的中間圖像所對應的圖像特徵與目標特徵圖像所對應的圖像特徵之間的差異。圖像特徵具體可以是圖像顏色特徵、圖像光影特徵或者圖像風格特徵等。相應地，目標特徵圖像具體可以是目標顏色特徵圖像、目標光影特徵圖像或者目標風格特徵圖像等；中間圖像與目標特徵圖像的特徵損耗具體可以是顏色特徵損耗、光影特徵損耗或者風格特徵損耗等。

具體地，電子設備可先確定需訓練至的圖像特徵，並獲取符合該圖像特徵的圖像作為目標特徵圖像。電子設備可再採用訓練完成的用於提取圖像特徵的神經網路模型分別提取中間圖像與目標特徵圖像對應的圖像特徵，再將中間圖像對應的圖像特徵與目標特徵圖像對應的圖像特徵進行比較，得到兩者之間的差異，根據該差異確定中間圖像與目標特徵圖像之間的特徵損耗。

舉例說明，假設神經網路模型用於對圖像進行圖像風格特徵轉換，目標風格特徵圖像為S，時間相鄰的視頻幀的幀數為兩幀，時序在前的視頻幀為x ^t-1，時序在後的視頻幀為x ^t。x ^t-1經過神經網路模型處理後輸出的中間圖像為y ^t-1，x ^t經過神經網路模型處理後輸出的中間圖像為y ^t。電子設備可分別比較y ^t-1與S的差異以及y ^t與S的差異，從而得到y ^t-1與S之間的風格特徵損耗以及y ^t與S之間的風格特徵損耗。

步驟S214，根據時間損耗和特徵損耗調整神經網路模型，返回獲取多個時間相鄰的視頻幀的步驟S202繼續訓練，直至神經網路模型滿足訓練結束條件。

具體地，訓練神經網路模型的過程為確定需訓練的神經網路模型中各特徵轉換層對應的非線性變化運算元的過程。在確定各非線性變化運算元時，電子設備可以先初始化需訓練的神經網路模型中各特徵轉換層對應的非線性變化運算元，並在後續的訓練過程中，不斷優化該初始化的非線性變化運算元，並將優化得到的最優的非線性變化運算元作為訓練好的神經網路模型的非線性變化運算元。

在本揭示一個實施例中，電子設備可根據時間損耗構建時間域損失函數，根據特徵損耗構建空間域損失函數，將時間域損失函數與空間域損失函數合併得到混合損失函數，再計算混合損失函數隨神經網路模型中各特徵轉換層對應的非線性變化運算元的變化率。電子設備可根據計算得到的變化率調整神經網路模型中各特徵轉換層對應的非線性變化運算元，使得計算得到的變化率變小，以使得神經網路模型得到訓練優化。

在本揭示一個實施例中，訓練結束條件可以是對神經網路模型的訓練次數達到預設訓練次數。電子設備可在對神經網路模型進行訓練時，對訓練次數進行計數，當計數達到預設訓練次數時，電子設備可判定神經網路模型滿足訓練結束條件，並結束對神經網路模型的訓練。

在本揭示一個實施例中，訓練結束條件也可以是混合損失函數滿足收斂條件。電子設備可在對神經網路模型進行訓練時，對每次訓練完成後計算得到的混合損失函數隨神經網路模型中各特徵轉換層對應的非線性變化運算元的變化率進行記錄，當計算得到的該變化率逐漸靠近於某一特定數值時，電子設備可判定神經網路模型滿足訓練結束條件，並結束對神經網路模型的訓練。

上述用於影像處理的神經網路模型的訓練方法，在對神經網路模型進行訓練時，將時間損耗與特徵損耗協同作為回饋調整依據來調整神經網路模型，以訓練得到可用於影像處理的神經網路模型。在對神經網路模型進行訓練時，通過將時間相鄰的視頻幀作為輸入，以對時序在前的視頻幀所對應的中間圖像按照時序在前的視頻幀變化至時序在後的視頻幀的光流資訊，得到時序在後的視頻幀預期所對應的中間圖像，從而得到時間損耗。該時間損耗反映了時間相鄰的視頻幀各自對應的中間圖像之間在時間一致性上的損耗。訓練後的神經網路模型在對視頻進行特徵轉換時，會考慮視頻的各視頻幀之間的時間一致性，極大地減少了特徵轉換過程中引入的閃爍雜訊，從而提高了對視頻進行特徵轉換時的轉換效果。同時，將神經網路模型計算與電子設備處理器能力結合在一起來處理視頻圖像，提高了處理器計算速度且不必犧牲視頻圖像特徵轉換效果，從而產生更優的用於影像處理的神經網路模型。

在本揭示一個實施例中，該用於影像處理的神經網路模型的訓練方法中，根據時間損耗和特徵損耗調整神經網路模型具體包括：獲取中間圖像與中間圖像對應的輸入的視頻幀之間的內容損耗；根據時間損耗、特徵損耗和內容損耗，生成訓練代價；按照訓練代價調整神經網路模型。

內容損耗是指通過神經網路模型輸出的中間圖像與相應的輸入的視頻幀之間在圖像內容上的差異。具體地，電子設備可採用訓練完成的用於提取圖像內容特徵的神經網路模型分別提取中間圖像對應的圖像內容特徵以及中間圖像對應的輸入的視頻幀對應的圖像內容特徵，再將中間圖像對應的圖像內容特徵與相應的輸入的視頻幀對應的圖像內容特徵進行比較，得到兩者之間的差異，根據該差異確定中間圖像與相應的視頻幀之間的內容損耗。

在本揭示一個實施例中，電子設備可根據時間損耗構建時間域損失函數，再根據特徵損耗和內容損耗聯合構建空間域損失函數，並生成與時間域損失函數正相關且與空間域損失函數正相關的訓練代價。電子設備可再計算訓練代價隨神經網路模型中各特徵轉換層對應的非線性變化運算元的變化率，並根據計算得到的變化率調整神經網路模型中各特徵轉換層對應的非線性變化運算元，使得計算得到的變化率變小，以使得神經網路模型得到訓練優化。

在本揭示一個實施例中，電子設備還可對神經網路模型輸出的中間圖像進行去雜訊處理。具體地，電子設備可基於實現全變分(Total Variation，TV)的去雜訊演算法，確定用於對中間圖像的邊緣像素點進行去雜訊處理的全變分最小化項，並將該全變分最小化項聯合特徵損耗和內容損耗來構建空間域損失函數，以進行神經網路模型訓練。這種採用全變分最小化項來對圖像進行去雜訊處理的方式提高了神經網路模型對視頻進行特徵轉換時的轉換效果。

在本實施例中，在對神經網路模型進行訓練時，將時間損耗、特徵損耗與內容損耗協同作為回饋調整依據來調整神經網路模型，以訓練得到可用於影像處理的神經網路模型，從時間、內容與特徵三個維度保證了圖像特徵轉換的準確性，提高了訓練得到的神經網路模型對視頻進行特徵轉換時的轉換效果。

在本揭示一個實施例中，步驟S210具體包括：將時序在後的視頻幀所對應的中間圖像與變化後的圖像中對應的像素位置的數值相減，得到差異分佈圖；根據差異分佈圖，確定時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗。

具體地，電子設備將時序在後的視頻幀所對應的中間圖像與變化後的圖像中對應的像素位置的數值相減得到的差異分佈圖，具體可以是像素值差異矩陣。電子設備可對差異分佈圖進行降維運算得到時間損耗數值。電子設備在首次計算時間損耗時選定採用的降維運算方式後，後續的時間損耗計算均採用選定的該降維運算方式。降維運算具體可以是均值降維或者極值降維。例如，像素值差異矩陣為[1,2,3,4]，均值降維運算得到的時間損耗為：(1+2+3+4)/4=2.5。

在本實施例中，通過時序在後的視頻幀所對應的中間圖像與變化後的圖像中對應的像素位置的像素值的差異，計算時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗，使得時間損耗的計算更為準確。

在本揭示一個實施例中，用於影像處理的神經網路模型的訓練方法中，獲取中間圖像與中間圖像對應的輸入的視頻幀之間的內容損耗的步驟包括：將視頻幀與相應的中間圖像輸入評價網路模型；獲取評價網路模型所包括的層輸出的與視頻幀對應的特徵圖和與中間圖像對應的特徵圖；根據中間圖像所對應的特徵圖和相應的視頻幀所對應的特徵圖，確定中間圖像與相應的視頻幀之間的內容損耗。

評價網路模型用於提取輸入圖像的圖像特徵。在本實施例中，評價網路模型具體可以是Alexnet網路模型、視覺幾何組(Visual Geometry Group，VGG)網路模型或者GoogLeNet網路。評價網路模型所包括的層對應有多個特徵提取因數，每個特徵提取因數提取不同的特徵。特徵圖是通過評價網路模型中的層的變化運算元對輸入的影像處理得到的影像處理結果，影像處理結果為圖像特徵矩陣，該圖像特徵矩陣由通過變化運算元對輸入的圖像矩陣進行處理得到的回應值構成。

具體地，電子設備將視頻幀與相應的中間圖像輸入評價網路模型後，評價網路模型可得到與輸入的視頻幀對應的像素值矩陣以及與相應的中間圖像對應的像素值矩陣。評價網路模型所包括的層按照該層所對應的特徵提取因數，對輸入的視頻幀或中間圖像對應的像素值矩陣進行操作，得到相應的回應值以構成特徵圖。評價網路模型中不同的層提取的特徵不同。電子設備可事先設置將評價網路模型中提取圖像內容特徵的層輸出的特徵圖作為進行內容損耗計算的特徵圖。評價網路模型中提取圖像內容特徵的層具體可以是一層，也可以是多層。

電子設備在獲取中間圖像所對應的特徵圖和中間圖像對應的輸入的視頻幀所對應的特徵圖後，將中間圖像所對應的特徵圖和相應的視頻幀所對應的特徵圖中對應的像素位置的像素值相減，得到兩者之間的內容差異矩陣，再對內容差異矩陣進行降維運算得到內容損耗。

在本實施例中，通過評價網路模型來提取特徵轉換前的視頻幀與特徵轉換後的中間圖像的圖像內容特徵，利用輸出的提取了圖像內容特徵的特徵圖來計算相應輸入的圖像之間的內容損耗，使得內容損耗的計算更為準確。

在本揭示一個實施例中，步驟S212具體包括：將中間圖像與目標特徵圖像輸入評價網路模型；獲取評價網路模型所包括的層輸出的與中間圖像對應的特徵圖和與目標特徵圖像對應的特徵圖；根據中間圖像所對應的特徵圖和目標特徵圖像所對應的特徵圖，確定中間圖像與目標特徵圖像之間的特徵損耗。

具體地，電子設備可事先設置將評價網路模型中提取圖像特徵的層輸出的特徵圖作為進行特徵損耗計算的特徵圖。評價網路模型中提取圖像特徵的層具體可以是一層，也可以是多層。在本實施例中，通過評價網路模型來提取目標特徵圖像與特徵轉換後的中間圖像的圖像特徵，利用評價網路模型輸出的提取了圖像特徵的特徵圖來計算相應輸入的圖像之間的特徵損耗，使得特徵損耗的計算更為準確。

在本揭示一個實施例中，用於影像處理的神經網路模型的訓練方法中，根據中間圖像所對應的特徵圖和目標特徵圖像所對應的特徵圖，確定中間圖像與目標特徵圖像之間的特徵損耗的步驟具體包括：根據中間圖像所對應的特徵圖，確定中間圖像所對應的特徵矩陣；根據目標特徵圖像所對應的特徵圖，確定目標特徵圖像所對應的特徵矩陣；將中間圖像所對應的特徵矩陣和目標特徵圖像所對應的特徵矩陣中對應位置的數值相減，得到特徵差異矩陣；根據特徵差異矩陣，確定中間圖像與目標特徵圖像間的特徵損耗。

在本揭示一個實施例中，神經網路模型用於對圖像進行圖像風格特徵轉換，中間圖像所對應的特徵矩陣具體可以是風格特徵矩陣。風格特徵矩陣是反映圖像風格特徵的矩陣。風格特徵矩陣具體可以是格拉姆矩陣(Gram Matrix)。電子設備可通過將中間圖像所對應的特徵圖求取內積得到相應的格拉姆矩陣作為中間圖像所對應的風格特徵矩陣，將目標風格圖像所對應的特徵圖求取內積得到相應的格拉姆矩陣作為目標風格圖像所對應的風格特徵矩陣。電子設備可再將中間圖像所對應的風格特徵矩陣和目標風格圖像所對應的風格特徵矩陣中對應位置的數值相減，得到風格差異特徵矩陣；再對風格差異特徵矩陣進行降維運算得到風格特徵損耗。

在本實施例中，採用了可反映圖像特徵的特徵矩陣具體計算特徵轉換得到的圖像與目標特徵圖像間的特徵損耗，使得特徵損耗的計算更為準確。

舉例說明，電子設備可選取VGG-19網路模型作為評價網路模型，該網路模型包括16層卷積層(convolution layer)和5層池化層(pooling layer)。試驗表明該模型的第四層卷積層提取的特徵能體現圖像內容特徵，該模型的第一、二、三、四層卷積層提取的特徵能體現圖像風格特徵。電子設備可獲取第四層卷積層輸出的中間圖像所對應的特徵圖和該中間圖像對應的輸入的視頻幀所對應的特徵圖，並基於獲取的特徵圖計算中間圖像與相應的視頻幀之間的內容損耗。電子設備可獲取第一、二、三、四層卷積層輸出的中間圖像所對應的特徵圖和所述中間圖像對應的輸入的視頻幀所對應的特徵圖，並基於獲取的特徵圖計算中間圖像與相應的視頻幀之間的風格特徵損耗。

在本揭示一個實施例中，用於影像處理的神經網路模型的訓練方法中，按照訓練代價調整神經網路模型的步驟包括：按照神經網路模型所包括的層的順序，逆序(逆順序)確定訓練代價隨各層所對應的非線性變化運算元的變化率；按逆序調整神經網路模型所包括的層所對應的非線性變化運算元，使得訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。

具體地，圖像被輸入神經網路模型後，每經過一層則進行一次非線性變化，並將輸出的運算結果作為下一層的輸入。電子設備可按照神經網路模型所包括的層的順序，從神經網路模型所包括的最後一層起，確定訓練代價隨當前層所對應的非線性變化運算元的變化率，再依次逆序確定訓練代價隨各層所對應的非線性變化運算元的變化率。電子設備可再按逆序依次調整神經網路模型所包括的層所對應的非線性變化運算元，使得訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。

舉例說明，假設訓練代價為L，按照神經網路模型所包括的層的順序，逆序第一層所對應的非線性變化運算元為z，則L隨z的變化率為/；逆序第二層所對應的非線性變化運算元為b，則L隨b的變化率為(/)g(/)；逆序第三層所對應的非線性變化運算元為c，則L隨c的變化率為(/)g(/)g(/)。在求解變化率時，鏈式求導會一層一層的將梯度傳導到在前的層。在逆序求解變化率至神經網路模型所包括的第一層時，電子設備可逆序依次調整非線性變化運算元z、b、c至神經網路模型所包括的第一層(即逆序最後一層)對應的非線性變化運算元，使得逆序最後一層求得的變化率減小。

在本揭示一個實施例中，訓練代價具體可表示為：

L _hybrid表示訓練代價，L _spatial(x ⁱ,y ⁱ,s)表示空間域損失函數；L _temporal(y ^t,y ^t-1)表示時間域損失函數，由時間損耗生成，λ為時間域損失函數相應的權重。空間域損失函數具體可表示為：

l表示評價網路模型中提取圖像特徵的層；(x ⁱ,y ⁱ)表示輸入神經網路模型的圖像與神經網路模型輸出的圖像之間的內容損耗；(s,y ⁱ)表示神經網路模型輸出的圖像與目標特徵圖像之間的特徵損耗；R _tv表示全變分最小化項；α、β和γ為各項損耗相應的權重。例如，α的取值可為1，β的取值可為1，γ的取值可為10⁴。

在本實施例中，通過反向傳播方式求解訓練代價隨神經網路模型各層所對應的非線性變化運算元的變化率，通過調節神經網路模型各層所對應的非線性變化運算元使得計算得到的變化率減小，以訓練神經網路模型，使得訓練得到的神經網路模型用於進行圖像轉換時的效果更優。

如第3圖所示，在本揭示一個具體的實施例中，用於影像處理的神經網路模型的訓練方法具體包括以下步驟：

步驟S302，獲取多個時間相鄰的視頻幀。

步驟S304，將多個視頻幀分別經過神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像。

步驟S306，獲取時序在前的視頻幀變化至時序在後的視頻幀的光流資訊。

步驟S308，獲取時序在前的視頻幀所對應的中間圖像按光流資訊變化後的圖像。

步驟S310，將時序在後的視頻幀所對應的中間圖像與變化後的圖像中對應的像素位置的數值相減，得到差異分佈圖；根據差異分佈圖，確定時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗。

步驟S312，將中間圖像與目標特徵圖像輸入評價網路模型；獲取評價網路模型所包括的層輸出的與中間圖像對應的特徵圖和與目標特徵圖像對應的特徵圖；根據中間圖像所對應的特徵圖，確定中間圖像所對應的特徵矩陣；根據目標特徵圖像所對應的特徵圖，確定目標特徵圖像所對應的特徵矩陣；將中間圖像所對應的特徵矩陣和目標特徵圖像所對應的特徵矩陣中對應位置的數值相減，得到特徵差異矩陣；根據特徵差異矩陣，確定中間圖像與目標特徵圖像間的特徵損耗。

步驟S314，將視頻幀與該視頻幀對應的中間圖像輸入評價網路模型；獲取評價網路模型所包括的層輸出的與視頻幀對應的特徵圖和與中間圖像對應的特徵圖；根據中間圖像所對應的特徵圖和相應的視頻幀所對應的特徵圖，確定中間圖像與相應的視頻幀之間的內容損耗。

步驟S316，根據時間損耗、特徵損耗和內容損耗，生成訓練代價。

步驟S318，按照神經網路模型所包括的層的順序，逆序確定訓練代價隨各層所對應的非線性變化運算元的變化率；按逆序調整神經網路模型所包括的層所對應的非線性變化運算元，使得訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。

步驟S320，判斷神經網路模型是否滿足訓練結束條件；若神經網路模型滿足訓練結束條件，則執行步驟S322；若神經網路模型不滿足訓練結束條件，則執行步驟S302。

步驟S322，結束訓練神經網路模型。

在本實施例中，在對用於影像處理的神經網路模型進行訓練時，將時間損耗、特徵損耗與內容損耗協同作為回饋調整依據來調整神經網路模型，在時間、特徵與內容三個維度來訓練神經網路模型，提高了神經網路模型的訓練效果。

第4圖示出了本揭示一實施例中用於影像處理的神經網路模型的訓練架構圖。參考第4圖，本實施例中神經網路模型由3個卷積層、5個殘差模組、2個反卷積層和1個卷積層組成，電子設備可將時序在前的視頻幀x ^t-1和時序在後的視頻幀x ^t分別輸入神經網路模型中，得到神經網路模型輸出的中間圖像為y ^t-1和y ^t。電子設備可按照x ^t-1與x ^t之間的光流資訊，得到y ^t-1與y ^t的時間域損失函數；再將x ^t-1、x ^t、y ^t-1、y ^t和目標特徵圖像S輸入評價網路模型，通過評價網路模型所包括的層輸出的特徵圖，得到x ^t-1與y ^t-1、x ^t與y ^t之間的內容損耗，y ^t-1與S、y ^t與S之間的特徵損耗，從而得到空間域損失函數。

在本揭示一個實施例中，電子設備按照用於影像處理的神經網路模型的訓練方法對神經網路模型訓練完成後，可將該神經網路模型用於進行視頻特徵轉換。電子設備可將需要進行特徵轉換的視頻分割為時間相鄰的視頻幀，依次將分割得到的視頻幀輸入訓練完成的神經網路模型，經神經網路模型處理後得到每幀視頻幀對應的特徵轉換後的輸出圖像，再將各輸出圖像按照所對應的輸入視頻幀的時間順序合併，得到特徵轉換後的視頻。神經網路模型可同時對多幀視頻幀進行特徵轉換。

如第5圖所示，在本揭示一個實施例中，提供一種用於影像處理的神經網路模型的訓練裝置500，該裝置具體包括：輸入獲取模組501、輸出獲取模組502、損耗獲取模組503和模型調整模組504。

輸入獲取模組501用於獲取多個時間相鄰的視頻幀。

輸出獲取模組502用於將所述多個視頻幀分別經過神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像。

損耗獲取模組503用於獲取所述多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊；獲取時序在前的視頻幀所對應的中間圖像按光流資訊變化後的圖像；獲取時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗；以及獲取多個時間相鄰的視頻幀對應的中間圖像與目標特徵圖像間的特徵損耗。

模型調整模組504用於根據時間損耗和特徵損耗調整神經網路模型，返回獲取多個時間相鄰的視頻幀的步驟繼續訓練，直至神經網路模型滿足訓練結束條件。

在本揭示一個實施例中，模型調整模組504還用於獲取多個時間相鄰的視頻幀對應的中間圖像與相應的視頻幀之間的內容損耗；根據時間損耗、特徵損耗和內容損耗，生成訓練代價；以及按照訓練代價調整神經網路模型。

在本揭示一個實施例中，模型調整模組504還用於將所述中間圖像與所述中間圖像對應的視頻幀輸入評價網路模型；獲取評價網路模型所包括的層輸出的與視頻幀對應的特徵圖和與中間圖像對應的特徵圖；以及根據中間圖像所對應的特徵圖和相應的視頻幀所對應的特徵圖，確定中間圖像與相應的視頻幀之間的內容損耗。

在本揭示一個實施例中，模型調整模組504還用於按照神經網路模型所包括的層的順序，逆序確定訓練代價隨各層所對應的非線性變化運算元的變化率；以及按逆序調整神經網路模型所包括的層所對應的非線性變化運算元，使得訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。

在本揭示一個實施例中，損耗獲取模組503還用於將時序在後的視頻幀所對應的中間圖像與變化後的圖像中對應的像素位置的數值相減，得到差異分佈圖；以及根據差異分佈圖，確定時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗。

在本揭示一個實施例中，損耗獲取模組503還用於將中間圖像與目標特徵圖像輸入評價網路模型；獲取評價網路模型所包括的層輸出的與中間圖像對應的特徵圖和與目標特徵圖像對應的特徵圖；以及根據中間圖像所對應的特徵圖和目標特徵圖像所對應的特徵圖，確定中間圖像與目標特徵圖像間的特徵損耗。

在本實施例中，通過評價網路模型來提取目標特徵圖像與特徵轉換後的中間圖像的圖像特徵，利用輸出的提取了圖像特徵的特徵圖來計算相應輸入的圖像之間的特徵損耗，使得特徵損耗的計算更為準確。

在本揭示一個實施例中，損耗獲取模組503還用於根據中間圖像所對應的特徵圖，確定中間圖像所對應的特徵矩陣；根據目標特徵圖像所對應的特徵圖，確定目標特徵圖像所對應的特徵矩陣；將中間圖像所對應的特徵矩陣和目標特徵圖像所對應的特徵矩陣中對應位置的數值相減，得到特徵差異矩陣；以及根據特徵差異矩陣，確定中間圖像與目標特徵圖像間的特徵損耗。

在本實施例中，採用了可反映圖像特徵的特徵矩陣具體計算特徵轉換得到的圖像與目標特徵圖像之間的特徵損耗，使得特徵損耗的計算更為準確。

第6圖是本揭示另一實施例提供的一種用於影像處理的神經網路模型的訓練裝置的方塊圖。如第6圖所示，該裝置包括：處理器610，與所述處理器610通過匯流排620相連接的記憶體630。所述記憶體630中儲存有可由所述處理器610執行的機器可讀指令模組。所述機器可讀指令模組包括：輸入獲取模組601、輸出獲取模組602、損耗獲取模組603和模型調整模組604。

輸入獲取模組601用於獲取多個時間相鄰的視頻幀。

輸出獲取模組602用於將所述多個視頻幀分別經過神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像。

損耗獲取模組603用於獲取所述多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊；獲取時序在前的視頻幀所對應的中間圖像按光流資訊變化後的圖像；獲取時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗；以及獲取多個時間相鄰的視頻幀對應的中間圖像與目標特徵圖像間的特徵損耗。

模型調整模組604用於根據時間損耗和特徵損耗調整神經網路模型，返回獲取多個時間相鄰的視頻幀的步驟繼續訓練，直至神經網路模型滿足訓練結束條件。

在本揭示實施例中，上述輸入獲取模組601、輸出獲取模組602、損耗獲取模組603和模型調整模組604的具體功能與前述的輸入獲取模組501、輸出獲取模組502、損耗獲取模組503和模型調整模組504相同，在此不再贅述。

上述用於影像處理的神經網路模型的訓練裝置，在對神經網路模型進行訓練時，將時間損耗與特徵損耗協同作為回饋調整依據來調整神經網路模型，以訓練得到可用於影像處理的神經網路模型。在對神經網路模型進行訓練時，通過將時間相鄰的視頻幀作為輸入，以對時序在前的視頻幀所對應的中間圖像，按照時序在前的視頻幀變化至時序在後的視頻幀的光流資訊，得到時序在後的視頻幀預期所對應的中間圖像，從而得到時間損耗。該時間損耗反映了時間相鄰的視頻幀各自對應的中間圖像之間在時間一致性上的損耗。訓練後的神經網路模型在對視頻進行特徵轉換時，會考慮視頻的各視頻幀之間的時間一致性，極大地減少了特徵轉換過程中引入的閃爍雜訊，從而提高了對視頻進行特徵轉換時的轉換效果。同時，將神經網路模型計算與電子設備處理器能力結合在一起來處理視頻圖像，提高了處理器計算速度且不必犧牲視頻圖像特徵轉換效果，從而產生更優的用於影像處理的神經網路模型。

本揭示所屬技術領域中具有通常知識者可以理解實現上述實施例方法中的全部或部分流程，是可以通過電腦程式來指令相關的硬體來完成，所述的電腦程式(機器可讀指令)可儲存於一非揮發性電腦可讀取儲存介質中，該電腦程式在執行時，可包括如上述各方法的實施例的流程。所述的電腦可讀取儲存介質可為磁碟、光碟、唯讀記憶體(Read-Only Memory，ROM)等。

以上實施例的各技術特徵可以進行任意的組合，為使描述簡潔，未對上述實施例中的各個技術特徵所有可能的組合都進行描述，然而，只要這些技術特徵的組合不存在矛盾，都應當認為是本揭示記載的範圍。

雖然本揭示已用較佳實施例揭露如上，然其並非用以限定本揭示，本揭示所屬技術領域中具有通常知識者在不脫離本揭示之精神和範圍內，當可作各種之更動與潤飾，因此本揭示之保護範圍當視後附之申請專利範圍所界定者為準。

Claims

一種訓練用於影像處理神經網路模型的方法，應用於電子設備，由一處理器執行以完成下列步驟：獲取多個時間相鄰的視頻幀；將多個時間相鄰的視頻幀分別經過一神經網路模型處理以使神經網路模型輸出相對應的中間圖像；獲取多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊；按光流資訊變化後之一圖像獲取時序在前的視頻幀所對應的中間圖像；獲取時序在後的視頻幀所對應的中間圖像與變化後之圖像之間的時間損耗，時間損耗用於表徵時間相鄰的視頻幀在時域上的變化；獲取多個時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗，特徵損耗為神經網路模型輸出的中間圖像所對應的圖像特徵與目標特徵圖像所對應的圖像特徵之間的差異；以及根據時間損耗和特徵損耗回饋調整神經網路模型，返回獲取多個時間相鄰的視頻幀的步驟繼續訓練，直至神經網路模型滿足訓練結束條件，訓練結束條件是指對神經網路模型的訓練次數達到預設訓練次數，或是指根據時間損耗及特徵損耗得到的混合損失函數滿足收斂條件。
如申請專利範圍第1項所述之方法，其中所述根據所述時間損耗和所述特徵損耗調整所述神經網路模型的步驟包括：獲取所述多個時間相鄰的視頻幀對應的中間圖像與相應的視頻幀之間的內容損耗；根據所述時間損耗、所述特徵損耗和所述內容損耗，生成一訓練代價；以及按照所述訓練代價調整所述神經網路模型。
如申請專利範圍第2項所述之方法，其中所述獲取所述多個時間相鄰的視頻幀對應的中間圖像與相應的視頻幀之間的內容損耗的步驟包括：將所述中間圖像與所述中間圖像對應的視頻幀輸入一評價網路模型；獲取所述評價網路模型所包括的層輸出的與所述中間圖像對應的特徵圖和與所述視頻幀對應的特徵圖；以及根據所述中間圖像所對應的特徵圖和所述視頻幀所對應的特徵圖，確定所述中間圖像與相應的視頻幀之間的內容損耗。
如申請專利範圍第2項所述之方法，其中所述按照所述訓練代價調整所述神經網路模型的步驟包括：按照所述神經網路模型所包括的層的順序，逆序確定所述訓練代價隨各層所對應的非線性變化運算元的變化率；以及按所述逆序調整所述神經網路模型所包括的層所對應的非線性變化運算元，使得所述訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。
如申請專利範圍第1至4項中任一項所述之方法，其中所述獲取時序在後的視頻幀所對應的中間圖像與變化後之所述圖像之間的時間損耗的步驟包括：將所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像中對應的像素位置的數值相減，得到一差異分佈圖；以及根據所述差異分佈圖，確定所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像間的時間損耗。
如申請專利範圍第1至4項中任一項所述之方法，其中所述獲取所述多個時間相鄰的視頻幀對應的中間圖像與所述目標特徵圖像之間的特徵損耗的步驟包括：將所述中間圖像與所述目標特徵圖像輸入評價網路模型；獲取所述評價網路模型所包括的層輸出的與所述中間圖像對應的特徵圖和與所述目標特徵圖像對應的特徵圖；以及根據所述中間圖像所對應的特徵圖和所述目標特徵圖像所對應的特徵圖，確定所述中間圖像與目標特徵圖像間的特徵損耗。
如申請專利範圍第6項所述之方法，其中所述根據所述中間圖像所對應的特徵圖和所述目標特徵圖像所對應的特徵圖，確定所述中間圖像與目標特徵圖像間的特徵損耗的步驟包括：根據所述中間圖像所對應的特徵圖，確定所述中間圖像所對應的特徵矩陣；根據所述目標特徵圖像所對應的特徵圖，確定所述目標特徵圖像所對應的特徵矩陣；將所述中間圖像所對應的特徵矩陣和所述目標特徵圖像所對應的特徵矩陣中對應位置的數值相減，得到一特徵差異矩陣；以及根據所述特徵差異矩陣，確定所述中間圖像與所述目標特徵圖像間的特徵損耗。
一種訓練用於影像處理神經網路模型的裝置，所述裝置包括一處理器以及與所述處理器相連接之一記憶體，所述記憶體中儲存有可由所述處理器執行的機器可讀指令模組，所述機器可讀指令模組包括：一輸入獲取模組，用於獲取多個時間相鄰的視頻幀；一輸出獲取模組，用於將多個時間相鄰的視頻幀分別經過一神經網路模型處理以使神經網路模型輸出相對應的中間圖像；一損耗獲取模組，獲取多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊，按光流資訊變化後之一圖像獲取時序在前的視頻幀所對應的中間圖像，獲取時序在後的視頻幀所對應的中間圖像與變化後之圖像之間的時間損耗，獲取多個時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗，時間損耗用於表徵時間相鄰的視頻幀在時域上的變化，特徵損耗為神經網路模型輸出的中間圖像所對應的圖像特徵與目標特徵圖像所對應的圖像特徵之間的差異；以及一模型調整模組，用於根據時間損耗和特徵損耗回饋調整神經網路模型，返回獲取多個時間相鄰的視頻幀的步驟繼續訓練，直至神經網路模型滿足訓練結束條件，訓練結束條件是指對神經網路模型的訓練次數達到預設訓練次數，或是指根據時間損耗及特徵損耗得到的混合損失函數滿足收斂條件。
如申請專利範圍第8項所述之裝置，其中所述模型調整模組還用於獲取所述多個時間相鄰的視頻幀對應的中間圖像與相應的視頻幀之間的內容損耗；根據所述時間損耗、所述特徵損耗和所述內容損耗，生成一訓練代價；以及按照所述訓練代價調整所述神經網路模型。
如申請專利範圍第9項所述之裝置，其中所述模型調整模組還用於將所述中間圖像與所述中間圖像對應的視頻幀輸入一評價網路模型；獲取所述評價網路模型所包括的層輸出的與所述中間圖像對應的特徵圖和與所述視頻幀對應的特徵圖；以及根據所述中間圖像所對應的特徵圖和所述視頻幀所對應的特徵圖，確定所述中間圖像與相應的視頻幀之間的內容損耗。
如申請專利範圍第9項所述之裝置，其中所述模型調整模組還用於按照所述神經網路模型所包括的層的順序，逆序確定所述訓練代價隨各層所對應的非線性變化運算元的變化率；以及按所述逆序調整所述神經網路模型所包括的層所對應的非線性變化運算元，使得所述訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。
如申請專利範圍第8至11項中任一項所述之裝置，其中所述損耗獲取模組還用於將所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像中對應的像素位置的數值相減，得到一差異分佈圖；以及根據所述差異分佈圖，確定所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像間的時間損耗。
如申請專利範圍第8至11項中任一項所述之裝置，其中所述損耗獲取模組還用於將所述中間圖像與所述目標特徵圖像輸入評價網路模型；獲取所述評價網路模型所包括的層輸出的與所述中間圖像對應的特徵圖和與所述目標特徵圖像對應的特徵圖；以及根據所述中間圖像所對應的特徵圖和所述目標特徵圖像所對應的特徵圖，確定所述中間圖像與目標特徵圖像間的特徵損耗。
如申請專利範圍第13項所述之裝置，其中所述損耗獲取模組還用於根據所述中間圖像所對應的特徵圖，確定所述中間圖像所對應的特徵矩陣；根據所述目標特徵圖像所對應的特徵圖，確定所述目標特徵圖像所對應的特徵矩陣；將所述中間圖像所對應的特徵矩陣和所述目標特徵圖像所對應的特徵矩陣中對應位置的數值相減，得到一特徵差異矩陣；以及根據所述特徵差異矩陣，確定所述中間圖像與所述目標特徵圖像間的特徵損耗。
一種電腦可讀儲存媒體，所述儲存媒體中儲存有機器可讀指令，所述機器可讀指令由一處理器執行以完成：獲取多個時間相鄰的視頻幀；將多個時間相鄰的視頻幀分別經過一神經網路模型處理以使神經網路模型輸出相對應的中間圖像；獲取多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊；按光流資訊變化後之一圖像獲取時序在前的視頻幀所對應的中間圖像；獲取時序在後的視頻幀所對應的中間圖像與變化後之圖像之間的時間損耗，時間損耗用於表徵時間相鄰的視頻幀在時域上的變化；獲取多個時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗，特徵損耗為神經網路模型輸出的中間圖像所對應的圖像特徵與目標特徵圖像所對應的圖像特徵之間的差異；以及根據時間損耗和特徵損耗回饋調整神經網路模型，返回獲取多個時間相鄰的視頻幀的步驟繼續訓練，直至神經網路模型滿足訓練結束條件，訓練結束條件是指對神經網路模型的訓練次數達到預設訓練次數，或是指根據時間損耗及特徵損耗得到的混合損失函數滿足收斂條件。
如申請專利範圍第15項所述之儲存媒體，其中所述根據所述時間損耗和所述特徵損耗調整所述神經網路模型的步驟包括：獲取所述多個時間相鄰的視頻幀對應的中間圖像與相應的視頻幀之間的內容損耗；根據所述時間損耗、所述特徵損耗和所述內容損耗，生成一訓練代價；以及按照所述訓練代價調整所述神經網路模型。
如申請專利範圍第16項所述之儲存媒體，其中所述獲取所述多個時間相鄰的視頻幀對應的中間圖像與相應的視頻幀之間的內容損耗的步驟包括：將所述中間圖像與所述中間圖像對應的視頻幀輸入一評價網路模型；獲取所述評價網路模型所包括的層輸出的與所述中間圖像對應的特徵圖和與所述視頻幀對應的特徵圖；以及根據所述中間圖像所對應的特徵圖和所述視頻幀所對應的特徵圖，確定所述中間圖像與相應的視頻幀之間的內容損耗。
如申請專利範圍第16項所述之儲存媒體，其中所述按照所述訓練代價調整所述神經網路模型的步驟包括：按照所述神經網路模型所包括的層的順序，逆序確定所述訓練代價隨各層所對應的非線性變化運算元的變化率；以及按所述逆序調整所述神經網路模型所包括的層所對應的非線性變化運算元，使得所述訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。
如申請專利範圍第15至18項中任一項所述之儲存媒體，其中所述獲取時序在後的視頻幀所對應的中間圖像與變化後之所述圖像之間的時間損耗的步驟包括：將所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像中對應的像素位置的數值相減，得到一差異分佈圖；以及根據所述差異分佈圖，確定所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像間的時間損耗。
如申請專利範圍第15至18項中任一項所述之儲存媒體，其中所述獲取所述多個時間相鄰的視頻幀對應的中間圖像與所述目標特徵圖像之間的特徵損耗的步驟包括：將所述中間圖像與所述目標特徵圖像輸入評價網路模型；獲取所述評價網路模型所包括的層輸出的與所述中間圖像對應的特徵圖和與所述目標特徵圖像對應的特徵圖；以及根據所述中間圖像所對應的特徵圖和所述目標特徵圖像所對應的特徵圖，確定所述中間圖像與目標特徵圖像間的特徵損耗。
如申請專利範圍第20項所述之儲存媒體，其中所述根據所述中間圖像所對應的特徵圖和所述目標特徵圖像所對應的特徵圖，確定所述中間圖像與目標特徵圖像間的特徵損耗的步驟包括：根據所述中間圖像所對應的特徵圖，確定所述中間圖像所對應的特徵矩陣；根據所述目標特徵圖像所對應的特徵圖，確定所述目標特徵圖像所對應的特徵矩陣；將所述中間圖像所對應的特徵矩陣和所述目標特徵圖像所對應的特徵矩陣中對應位置的數值相減，得到一特徵差異矩陣；以及根據所述特徵差異矩陣，確定所述中間圖像與所述目標特徵圖像間的特徵損耗。