TWI672667B - 訓練用於影像處理神經網路模型的方法及裝置和電腦可讀儲存媒體 - Google Patents
訓練用於影像處理神經網路模型的方法及裝置和電腦可讀儲存媒體 Download PDFInfo
- Publication number
- TWI672667B TWI672667B TW107107998A TW107107998A TWI672667B TW I672667 B TWI672667 B TW I672667B TW 107107998 A TW107107998 A TW 107107998A TW 107107998 A TW107107998 A TW 107107998A TW I672667 B TWI672667 B TW I672667B
- Authority
- TW
- Taiwan
- Prior art keywords
- feature
- image
- loss
- network model
- intermediate image
- Prior art date
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 217
- 238000012549 training Methods 0.000 title claims abstract description 149
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 title claims abstract description 60
- 230000008859 change Effects 0.000 claims abstract description 100
- 230000003287 optical effect Effects 0.000 claims abstract description 69
- 239000011159 matrix material Substances 0.000 claims description 64
- 238000011156 evaluation Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 23
- 230000007423 decrease Effects 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims 1
- 210000005036 nerve Anatomy 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 15
- 238000006243 chemical reaction Methods 0.000 description 60
- 238000004364 calculation method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 230000009467 reduction Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Quality & Reliability (AREA)
- Biodiversity & Conservation Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
一種用於影像處理的神經網路模型的訓練方法及裝置和電腦可讀儲存介質,所述方法包括:獲取多個時間相鄰的視頻幀;將時間相鄰的視頻幀經過一神經網路模型處理以輸出相對應的中間圖像;獲取時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊;獲取時序在前的視頻幀所對應的中間圖像按光流資訊變化後之一圖像;獲取時序在後的視頻幀所對應的中間圖像與變化後之圖像之間的時間損耗;獲取時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗;以及根據時間損耗和特徵損耗調整神經網路模型。
Description
本揭示關於電腦技術領域,特別是關於一種用於影像處理的神經網路模型的訓練方法及裝置和電腦可讀儲存介質。
隨著電腦技術的發展,在影像處理技術中,通常會用到神經網路模型來對圖像的特徵進行轉換處理,例如圖像顏色特徵轉換、圖像光影特徵轉換或者圖像風格特徵轉換等。在通過神經網路模型對圖像進行特徵轉換處理之前,需要先訓練出用於影像處理的神經網路模型。
本揭示實施例提出一種用於影像處理的神經網路模型的訓練方法,應用於電子設備,所述方法包括:獲取多個時間相鄰的視頻幀;將所述多個時間相鄰的視頻幀分別經過一神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像;獲取所述多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊;獲取所述時序在前的視頻幀所對應的中間圖像按所述光流資訊變化後之一圖像;獲取所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像之間的時間損耗;獲取所述多個時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗;以及根據所述時間損耗和所述特徵損耗調整所述神經網路模型,返回所述獲取多個時間相鄰的視頻幀的步驟繼續訓練,直至所述神經網路
模型滿足訓練結束條件。
本揭示實施例提出一種用於影像處理的神經網路模型的訓,練裝置,所述裝置包括一處理器以及與所述處理器相連接之一記憶體,所述記憶體中儲存有可由所述處理器執行的機器可讀指令模組,所述機器可讀指令模組包括:一輸入獲取模組,用於獲取多個時間相鄰的視頻幀;一輸出獲取模組,用於將所述多個時間相鄰的視頻幀分別經過一神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像;一損耗獲取模組,獲取所述多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊,獲取所述時序在前的視頻幀所對應的中間圖像按所述光流資訊變化後之一圖像,獲取所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像之間的時間損耗,獲取所述多個時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗;以及一模型調整模組,用於根據所述時間損耗和所述特徵損耗調整所述神經網路模型,返回所述獲取多個時間相鄰的視頻幀的步驟繼續訓練,直至所述神經網路模型滿足訓練結束條件。
本揭示實施例提出一種電腦可讀儲存介質,所述儲存介質中儲存有機器可讀指令,所述機器可讀指令由一處理器執行以完成:獲取多個時間相鄰的視頻幀;將所述多個時間相鄰的視頻幀分別經過一神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像;獲取所述多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊;獲取所述時序在前的視頻幀所對應的中間圖像按所述光流資訊變化後之一圖像;獲取所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像之間的時間損耗;獲取所述多個時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗;以及根據所述時間損耗和所述特徵損耗調整所述神經網路模型,返回所述獲取多個時間相鄰的視頻幀的步驟繼續訓練,直至所述神經網路模型滿足訓練結束條件。
1、100‧‧‧電子設備
2‧‧‧使用者終端
3‧‧‧網路
11、500、1032‧‧‧用於影像處理的神經網路模型的訓練裝置
101‧‧‧系統匯流排
102、610‧‧‧處理器
103‧‧‧非揮發性儲存介質
104、630‧‧‧記憶體
501、601‧‧‧輸入獲取模組
502、602‧‧‧輸出獲取模組
503、603‧‧‧損耗獲取模組
504、604‧‧‧模型調整模組
620‧‧‧匯流排
1031‧‧‧作業系統
S202-S214、S302-S322‧‧‧步驟
第1A圖為本揭示一實施例提供的用於影像處理的神經網路模型的訓練方法的實施環境示意圖。
第1B圖為本揭示一實施例中用於實現用於影像處理的神經網路模型的訓練方法的電子設備的內部結構示意圖。
第2圖為本揭示一實施例中用於影像處理的神經網路模型的訓練方法的流程示意圖。
第3圖為本揭示另一實施例中用於影像處理的神經網路模型的訓練方法的流程示意圖。
第4圖為本揭示一實施例中用於影像處理的神經網路模型的訓練架構圖。
第5圖為本揭示一實施例中用於影像處理的神經網路模型的訓練裝置的方塊圖。
第6圖為本揭示另一實施例中用於影像處理的神經網路模型的訓練裝置的方塊圖。
為了使本揭示的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本揭示進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本揭示,並不用於限定本揭示。
採用習知的神經網路模型訓練方法訓練出的用於影像處理的神經網路模型在對視頻進行特徵轉換時,由於沒有考慮各視頻幀(frame)之間的時間一致性,因此會引入大量的閃爍雜訊(flickering),導致視頻特徵轉換的效果較差。
有鑑於此,本揭示實施例提出了一種用於影像處理的神經網路模型的訓練方法及裝置和儲存介質,在對神經網路模型進行訓練時,將 時間損耗與特徵損耗協同作為回饋調整依據來調整神經網路模型,以訓練得到可用於影像處理的神經網路模型。在對神經網路模型進行訓練時,通過將時間相鄰的視頻幀作為輸入,以對時序在前的視頻幀所對應的中間圖像,按照時序在前的視頻幀變化至時序在後的視頻幀的光流資訊,得到時序在後的視頻幀預期所對應的中間圖像,從而得到時間損耗。該時間損耗反映了時間相鄰的視頻幀各自對應的中間圖像之間在時間一致性上的損耗。訓練後的神經網路模型在對視頻進行特徵轉換時,會考慮視頻的各視頻幀之間的時間一致性,極大地減少了特徵轉換過程中引入的閃爍雜訊,從而提高了對視頻進行特徵轉換時的轉換效果。同時,將神經網路模型計算與電子設備處理器能力結合在一起來處理視頻圖像,提高了處理器計算速度且不必犧牲視頻圖像特徵轉換效果,從而產生更優的用於影像處理的神經網路模型。
第1A圖為本揭示一實施例提供的用於影像處理的神經網路模型的訓練方法的實施環境示意圖。電子設備1包括有本揭示任一實施例提供的用於影像處理的神經網路模型的訓練裝置11,該用於影像處理的神經網路模型的訓練裝置11用於實現本揭示任一實施例提供的用於影像處理的神經網路模型的訓練方法。該電子設備1與使用者終端2之間通過網路3連接,所述網路3可以是有線網路,也可以是無線網路。
第1B圖為本揭示實施例中用於實現用於影像處理的神經網路模型的訓練方法的電子設備100的內部結構示意圖。參照第1B圖,該電子設備100包括通過系統匯流排101連接的處理器102、非揮發性儲存介質103和記憶體104。電子設備100的非揮發性儲存介質103儲存有作業系統1031,還儲存有用於影像處理的神經網路模型的訓練裝置1032,用於影像處理的神經網路模型的訓練裝置1032用於實現一種用於影像處理的神經網路模型的訓練方法。電子設備100的處理器102用於提供計算和控制能力,支撐整個電子設備100的運行。電子設備100中的記憶體104為非揮發性儲存介質 103中的用於影像處理的神經網路模型的訓練裝置的運行提供環境。該記憶體104中可儲存有電腦可讀指令,該電腦可讀指令被處理器102執行時,可使得處理器102執行一種用於影像處理的神經網路模型的訓練方法。該電子設備100可以是終端,也可以是伺服器。終端可以是個人電腦或者移動電子設備,移動電子設備包括手機、平板電腦、個人數位助理或者穿戴式設備等中的至少一種。伺服器可以用獨立的伺服器或者是多個物理伺服器組成的伺服器集群來實現。本揭示所屬技術領域中具有通常知識者可以理解,第1B圖中示出的結構僅僅是與本揭示方案相關的部分結構的方塊圖,並不構成對本揭示方案所應用於其上的電子設備的限定,具體的電子設備可以包括比第1B圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件佈置。
第2圖為本揭示一實施例中用於影像處理的神經網路模型的訓練方法的流程示意圖。本實施例主要以該方法應用於上述第1B圖中的電子設備100來舉例說明。參照第2圖,該用於影像處理的神經網路模型的訓練方法具體包括如下步驟:
步驟S202,獲取多個時間相鄰的視頻幀。
具體地,視頻是指可分割為按時間順序排列的靜態圖像序列的資料。將視頻分割得到的靜態圖像可作為視頻幀。時間相鄰的視頻幀是指按時序排列的視頻幀中相鄰的視頻幀。獲取的時間相鄰的視頻幀具體可以是兩個或多於兩個且時間相鄰的視頻幀。例如,若按時序排列的視頻幀為p1,p2,p3,p4......,則p1和p2為時間相鄰的視頻幀,p1,p2和p3也是時間相鄰的視頻幀。
在本揭示一個實施例中,電子設備中設置有訓練樣本集,在訓練樣本集中儲存著多組時間相鄰的視頻幀,電子設備可從訓練樣本集中獲取任意一組時間相鄰的視頻幀。訓練樣本集中的時間相鄰的視頻幀可以是由電子設備根據從網際網路上獲取的視頻分割得到,也可以是由電子設 備根據通過該電子設備包括的攝像設備錄製的視頻分割得到。
在本揭示一個實施例中,電子設備中可設置多個訓練樣本集,每個訓練樣本集都設置有對應的訓練樣本集標識。使用者通過電子設備可以訪問訓練樣本集,並通過電子設備選擇用於進行訓練的訓練樣本集。電子設備可檢測使用者觸發的攜帶有訓練樣本集標識的選擇指令,電子設備提取選擇指令中的訓練樣本集標識,從訓練樣本集標識對應的訓練樣本集中獲取時間相鄰的視頻幀。
步驟S204,將多個視頻幀分別經過神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像。
神經網路模型是指由多層互相連接而形成的複雜網路模型。在本實施例中,電子設備可對一個神經網路模型進行訓練,訓練結束後得到的神經網路模型可用於影像處理。神經網路模型可包括多層特徵轉換層,每層特徵轉換層都有對應的非線性變化運算元,每層的非線性變化運算元可以是多個,每層特徵轉換層中的一個非線性變化運算元對輸入的圖像進行非線性變化,得到特徵圖(feature map)作為運算結果。每個特徵轉換層接收前一層的運算結果,經過自身的運算,對下一層輸出本層的運算結果。
具體地,電子設備在獲取到時間相鄰的視頻幀之後,將時間相鄰的視頻幀分別輸入神經網路模型,依次通過神經網路模型的各特徵轉換層。在每一層特徵轉換層上,電子設備利用該特徵轉換層對應的非線性變化運算元,對上一層輸出的特徵圖中包括的像素點對應的像素值進行非線性變化,並輸出當前特徵轉換層上的特徵圖。如果當前特徵轉換層為第一級特徵轉換層,則上一層輸出的特徵圖為輸入的視頻幀。像素點對應的像素值具體可以為像素點的RGB(Red Green Blue)三通道顏色值。
舉例說明,在本揭示一個實施例中,需訓練的神經網路模型具體可包括3個卷積層、5個殘差模組、2個反卷積層和1個卷積層。電子設 備將視頻幀輸入神經網路模型後,首先經過卷積層,該卷積層對應的各卷積核對輸入的視頻幀對應的像素值矩陣進行卷積操作,得到與該卷積層中各卷積核各自對應的像素值矩陣,亦即特徵圖,再將得到的各特徵圖共同作為下一層卷積層的輸入,逐層進行非線性變化,直至最後一層卷積層輸出相應卷積核數量的特徵圖,再按照各特徵圖對應的偏置項對各特徵圖中對應的像素位置的像素值進行運算,合成一個特徵圖作為輸出的中間圖像。
電子設備可設置在其中一層卷積層的卷積操作後進行下採樣操作。下採樣的方式具體可以是均值採樣或者極值採樣。例如,下採樣的方式為對2*2像素區域進行均值採樣,則其中一個2*2像素區域對應的像素值矩陣為[1,2,3,4],下採樣得到的像素值為:(1+2+3+4)/4=2.5。下採樣操作後得到的特徵圖的解析度減小為輸入的視頻幀的解析度的1/4。進一步地,電子設備需在反卷積層的反卷積操作後設置與在前的下採樣操作相應的上採樣操作,使得上採樣操作後得到的特徵圖的解析度增大為上採樣操作前的特徵圖的解析度的4倍,以保證輸出的中間圖像與輸入的視頻幀的解析度一致。
神經網路模型中包括的層的個數以及層的類型可自訂調整,也可根據後續的訓練結果相應調整。但需滿足輸入神經網路模型的圖像的解析度與神經網路模型輸出的圖像的解析度一致。
步驟S206,獲取所述多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊。
光流可表示圖像中灰度模式的運動速度。圖像中按照空間位置排列的所有光流組成光流場。光流場表徵了圖像中像素點的變化情況,可用來確定圖像間相應像素點的運動資訊。
在本揭示實施例中,時序在前的視頻幀是指時間相鄰的視頻幀中時間戳記較早的視頻幀;時序在後的視頻幀則是指時間相鄰的視頻幀中時間戳記較晚的視頻幀。例如時間相鄰的視頻幀按時序排列依次為x1, x2和x3,則x1相對於x2和x3為時序在前的視頻幀;x2相對於x1為時序在後的視頻幀,x2相對於x3為時序在前的視頻幀。
在本揭示實施例中,時序在前的視頻幀變化至時序在後的視頻幀的光流資訊可由時序在前的視頻幀與時序在後的視頻幀之間的光流場表示。在本實施例中,用於計算光流資訊的方式具體可以是根據光流約束方程式得到的基於微分的光流演算法、基於區域匹配的光流演算法、基於能量的光流演算法、基於相位的光流演算法和神經動力學光流演算法等中的任意一種,本揭示實施例對此不做具體限定。
具體地,電子設備可按照用於計算光流資訊的方式計算時序在前的視頻幀變化至時序在後的視頻幀的光流資訊,得到時序在前的視頻幀中每個像素點相應的於時序在後的視頻幀中相應的像素點的光流。電子設備也可從時序在前的視頻幀中選取特徵點,採用稀疏光流計算方式,計算選取的特徵點相應的光流。例如,時序在前的視頻幀中像素點A的位置為(x1,y1),時序在後的視頻幀中像素點A的位置為(x2,y2),那麼像素點A的速度向量=(u,v)=(x1,y1)-(x2,y2)。時序在前的視頻幀中各像素點變化至時序在後的視頻幀中相應像素點的速度向量形成的向量場即為時序在前的視頻幀變化至時序在後的視頻幀的光流場。
在本揭示一個實施例中,當時間相鄰的視頻幀是多於兩個且為時間相鄰的視頻幀時,電子設備可計算時間相鄰的視頻幀中相鄰的兩幀視頻幀之間的光流資訊,也可以計算時間相鄰的視頻幀中不相鄰的兩幀視頻幀之間的光流資訊。例如,時間相鄰的視頻幀按時序排列依次為x1,x2和x3,電子設備可計算x1與x2之間的光流資訊,x2與x3之間的光流資訊,還可以計算x1與x3之間的光流資訊。
在本揭示一個實施例中,電子設備在按照用於計算光流資訊的方式計算時序在前的視頻幀變化至時序在後的視頻幀的光流資訊時,也可確定計算得到的光流資訊的置信度(confidence level)。光流資訊的置信 度與光流資訊一一對應,用於表示相應的光流資訊的可信程度。光流資訊的置信度越高,表示計算得到的光流資訊所表徵的圖像中像素點的運動資訊越準確。
步驟S208,獲取時序在前的視頻幀所對應的中間圖像按光流資訊變化後的圖像。
具體地,電子設備可將時序在前的視頻幀所對應的中間圖像中包括的像素點,按照時序在前的視頻幀變化至時序在後的視頻幀的光流資訊進行變化,得到變化後的像素點形成的圖像,亦即得到時序在後的視頻幀預期所對應的中間圖像的像素值分佈。
在本揭示一個實施例中,當時間相鄰的視頻幀是多於兩個且為時間相鄰的視頻幀時,電子設備可按照時間相鄰的視頻幀中相鄰的兩幀視頻幀之間的光流資訊,對相鄰的兩幀視頻幀中時序在前的視頻幀所對應的中間圖像按照該光流資訊得到相鄰的兩幀視頻幀中時序在後的視頻幀預期所對應的中間圖像。例如,時間相鄰的視頻幀按時序排列依次為x1,x2和x3,神經網路模型輸出的x1、x2和x3的中間圖像相應排序依次為y1,y2和y3。x1變化至x2的光流資訊為g1,x2變化至x3的光流資訊為g2,電子設備可將y1按照g1變化為z2,將z2按照g2變化為z3,z2為x2預期對應的中間圖像,z3為x3預期對應的中間圖像。
在本揭示一個實施例中,電子設備也可按照時間相鄰的視頻幀中不相鄰的兩幀視頻幀之間的光流資訊,對不相鄰的兩幀視頻幀中時序在前的視頻幀所對應的中間圖像按照該光流資訊得到不相鄰的兩幀視頻幀中時序在後的視頻幀預期所對應的中間圖像。例如,時間相鄰的視頻幀按時序排列依次為x1,x2和x3,神經網路模型輸出的x1、x2和x3的中間圖像相應排序依次為y1,y2和y3。x1變化至x3的光流資訊為g3,電子設備可將y1按照g3變化為z3,z3為x3預期對應的中間圖像。
在本揭示一個實施例中,電子設備也可在將時序在前的視頻 幀所對應的中間圖像中包括的像素點按照相應的光流資訊變化時,將光流資訊的置信度作為權重,修正變化後的像素點形成的圖像。
步驟S210,獲取時序在後的視頻幀所對應的中間圖像與步驟S208中獲取的變化後的圖像間的時間損耗。
時間損耗可用於表徵時間相鄰的視頻幀在時域上的變化,與時間相鄰的視頻幀通過神經網路模型處理後得到的圖像之間在時域上的變化的差異。具體地,電子設備可將時序在後的視頻幀所對應的中間圖像與將時序在前的視頻幀所對應的中間圖像按照時序在前的視頻幀變化至時序在後的視頻幀的光流資訊變化後的圖像進行比較,得到兩者之間的差異,根據該差異確定時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗。
舉例說明,假設時間相鄰的視頻幀的幀數為兩幀,時序在前的視頻幀為x t-1,時序在後的視頻幀為x t ,且x t-1變化至x t 的光流資訊為G t 。x t-1經過神經網路模型處理後輸出的中間圖像為y t-1,x t 經過神經網路模型處理後輸出的中間圖像為y t 。電子設備可將y t-1按照x t-1變化至x t 的光流資訊G t 進行變化,得到z t ,z t 可作為預期的時序在後的視頻幀x t 所對應的神經網路模型處理後輸出的圖像。電子設備可再比較y t 與z t 的差異,從而得到y t 與z t 間的時間損耗。
舉例說明,假設時間相鄰的視頻幀按時序排列依次為x1,x2和x3,神經網路模型輸出的x1、x2和x3對應的中間圖像相應排序依次為y1,y2和y3。x1變化至x2的光流資訊為g1,x2變化至x3的光流資訊為g2,x1變化至x3的光流資訊為g3。電子設備可將y1按照g1變化為z2,將z2按照g2變化為z3,將y1按照g3變化為z’3,z2為x2預期對應的中間圖像,z3與z’3均為x3預期對應的中間圖像,電子設備可比較y2與z2的差異,得到y2與z2之間的時間損耗;電子設備可比較y3與z3的差異,以及y3與z’3的差異,根據z3與z’3的權重得到y3與z3和z’3之間的時間損耗。
步驟S212,獲取多個時間相鄰的視頻幀對應的中間圖像與目標特徵圖像之間的特徵損耗。
神經網路模型用於對圖像進行特徵轉換時需轉換至的圖像特徵即為目標特徵圖像所對應的圖像特徵。特徵損耗為神經網路模型輸出的中間圖像所對應的圖像特徵與目標特徵圖像所對應的圖像特徵之間的差異。圖像特徵具體可以是圖像顏色特徵、圖像光影特徵或者圖像風格特徵等。相應地,目標特徵圖像具體可以是目標顏色特徵圖像、目標光影特徵圖像或者目標風格特徵圖像等;中間圖像與目標特徵圖像的特徵損耗具體可以是顏色特徵損耗、光影特徵損耗或者風格特徵損耗等。
具體地,電子設備可先確定需訓練至的圖像特徵,並獲取符合該圖像特徵的圖像作為目標特徵圖像。電子設備可再採用訓練完成的用於提取圖像特徵的神經網路模型分別提取中間圖像與目標特徵圖像對應的圖像特徵,再將中間圖像對應的圖像特徵與目標特徵圖像對應的圖像特徵進行比較,得到兩者之間的差異,根據該差異確定中間圖像與目標特徵圖像之間的特徵損耗。
舉例說明,假設神經網路模型用於對圖像進行圖像風格特徵轉換,目標風格特徵圖像為S,時間相鄰的視頻幀的幀數為兩幀,時序在前的視頻幀為x t-1,時序在後的視頻幀為x t 。x t-1經過神經網路模型處理後輸出的中間圖像為y t-1,x t 經過神經網路模型處理後輸出的中間圖像為y t 。電子設備可分別比較y t-1與S的差異以及y t 與S的差異,從而得到y t-1與S之間的風格特徵損耗以及y t 與S之間的風格特徵損耗。
步驟S214,根據時間損耗和特徵損耗調整神經網路模型,返回獲取多個時間相鄰的視頻幀的步驟S202繼續訓練,直至神經網路模型滿足訓練結束條件。
具體地,訓練神經網路模型的過程為確定需訓練的神經網路模型中各特徵轉換層對應的非線性變化運算元的過程。在確定各非線性變 化運算元時,電子設備可以先初始化需訓練的神經網路模型中各特徵轉換層對應的非線性變化運算元,並在後續的訓練過程中,不斷優化該初始化的非線性變化運算元,並將優化得到的最優的非線性變化運算元作為訓練好的神經網路模型的非線性變化運算元。
在本揭示一個實施例中,電子設備可根據時間損耗構建時間域損失函數,根據特徵損耗構建空間域損失函數,將時間域損失函數與空間域損失函數合併得到混合損失函數,再計算混合損失函數隨神經網路模型中各特徵轉換層對應的非線性變化運算元的變化率。電子設備可根據計算得到的變化率調整神經網路模型中各特徵轉換層對應的非線性變化運算元,使得計算得到的變化率變小,以使得神經網路模型得到訓練優化。
在本揭示一個實施例中,訓練結束條件可以是對神經網路模型的訓練次數達到預設訓練次數。電子設備可在對神經網路模型進行訓練時,對訓練次數進行計數,當計數達到預設訓練次數時,電子設備可判定神經網路模型滿足訓練結束條件,並結束對神經網路模型的訓練。
在本揭示一個實施例中,訓練結束條件也可以是混合損失函數滿足收斂條件。電子設備可在對神經網路模型進行訓練時,對每次訓練完成後計算得到的混合損失函數隨神經網路模型中各特徵轉換層對應的非線性變化運算元的變化率進行記錄,當計算得到的該變化率逐漸靠近於某一特定數值時,電子設備可判定神經網路模型滿足訓練結束條件,並結束對神經網路模型的訓練。
上述用於影像處理的神經網路模型的訓練方法,在對神經網路模型進行訓練時,將時間損耗與特徵損耗協同作為回饋調整依據來調整神經網路模型,以訓練得到可用於影像處理的神經網路模型。在對神經網路模型進行訓練時,通過將時間相鄰的視頻幀作為輸入,以對時序在前的視頻幀所對應的中間圖像按照時序在前的視頻幀變化至時序在後的視頻幀的光流資訊,得到時序在後的視頻幀預期所對應的中間圖像,從而得到時 間損耗。該時間損耗反映了時間相鄰的視頻幀各自對應的中間圖像之間在時間一致性上的損耗。訓練後的神經網路模型在對視頻進行特徵轉換時,會考慮視頻的各視頻幀之間的時間一致性,極大地減少了特徵轉換過程中引入的閃爍雜訊,從而提高了對視頻進行特徵轉換時的轉換效果。同時,將神經網路模型計算與電子設備處理器能力結合在一起來處理視頻圖像,提高了處理器計算速度且不必犧牲視頻圖像特徵轉換效果,從而產生更優的用於影像處理的神經網路模型。
在本揭示一個實施例中,該用於影像處理的神經網路模型的訓練方法中,根據時間損耗和特徵損耗調整神經網路模型具體包括:獲取中間圖像與中間圖像對應的輸入的視頻幀之間的內容損耗;根據時間損耗、特徵損耗和內容損耗,生成訓練代價;按照訓練代價調整神經網路模型。
內容損耗是指通過神經網路模型輸出的中間圖像與相應的輸入的視頻幀之間在圖像內容上的差異。具體地,電子設備可採用訓練完成的用於提取圖像內容特徵的神經網路模型分別提取中間圖像對應的圖像內容特徵以及中間圖像對應的輸入的視頻幀對應的圖像內容特徵,再將中間圖像對應的圖像內容特徵與相應的輸入的視頻幀對應的圖像內容特徵進行比較,得到兩者之間的差異,根據該差異確定中間圖像與相應的視頻幀之間的內容損耗。
在本揭示一個實施例中,電子設備可根據時間損耗構建時間域損失函數,再根據特徵損耗和內容損耗聯合構建空間域損失函數,並生成與時間域損失函數正相關且與空間域損失函數正相關的訓練代價。電子設備可再計算訓練代價隨神經網路模型中各特徵轉換層對應的非線性變化運算元的變化率,並根據計算得到的變化率調整神經網路模型中各特徵轉換層對應的非線性變化運算元,使得計算得到的變化率變小,以使得神經網路模型得到訓練優化。
在本揭示一個實施例中,電子設備還可對神經網路模型輸出的中間圖像進行去雜訊處理。具體地,電子設備可基於實現全變分(Total Variation,TV)的去雜訊演算法,確定用於對中間圖像的邊緣像素點進行去雜訊處理的全變分最小化項,並將該全變分最小化項聯合特徵損耗和內容損耗來構建空間域損失函數,以進行神經網路模型訓練。這種採用全變分最小化項來對圖像進行去雜訊處理的方式提高了神經網路模型對視頻進行特徵轉換時的轉換效果。
在本實施例中,在對神經網路模型進行訓練時,將時間損耗、特徵損耗與內容損耗協同作為回饋調整依據來調整神經網路模型,以訓練得到可用於影像處理的神經網路模型,從時間、內容與特徵三個維度保證了圖像特徵轉換的準確性,提高了訓練得到的神經網路模型對視頻進行特徵轉換時的轉換效果。
在本揭示一個實施例中,步驟S210具體包括:將時序在後的視頻幀所對應的中間圖像與變化後的圖像中對應的像素位置的數值相減,得到差異分佈圖;根據差異分佈圖,確定時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗。
具體地,電子設備將時序在後的視頻幀所對應的中間圖像與變化後的圖像中對應的像素位置的數值相減得到的差異分佈圖,具體可以是像素值差異矩陣。電子設備可對差異分佈圖進行降維運算得到時間損耗數值。電子設備在首次計算時間損耗時選定採用的降維運算方式後,後續的時間損耗計算均採用選定的該降維運算方式。降維運算具體可以是均值降維或者極值降維。例如,像素值差異矩陣為[1,2,3,4],均值降維運算得到的時間損耗為:(1+2+3+4)/4=2.5。
在本實施例中,通過時序在後的視頻幀所對應的中間圖像與變化後的圖像中對應的像素位置的像素值的差異,計算時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗,使得時間損耗的計算更 為準確。
在本揭示一個實施例中,用於影像處理的神經網路模型的訓練方法中,獲取中間圖像與中間圖像對應的輸入的視頻幀之間的內容損耗的步驟包括:將視頻幀與相應的中間圖像輸入評價網路模型;獲取評價網路模型所包括的層輸出的與視頻幀對應的特徵圖和與中間圖像對應的特徵圖;根據中間圖像所對應的特徵圖和相應的視頻幀所對應的特徵圖,確定中間圖像與相應的視頻幀之間的內容損耗。
評價網路模型用於提取輸入圖像的圖像特徵。在本實施例中,評價網路模型具體可以是Alexnet網路模型、視覺幾何組(Visual Geometry Group,VGG)網路模型或者GoogLeNet網路。評價網路模型所包括的層對應有多個特徵提取因數,每個特徵提取因數提取不同的特徵。特徵圖是通過評價網路模型中的層的變化運算元對輸入的影像處理得到的影像處理結果,影像處理結果為圖像特徵矩陣,該圖像特徵矩陣由通過變化運算元對輸入的圖像矩陣進行處理得到的回應值構成。
具體地,電子設備將視頻幀與相應的中間圖像輸入評價網路模型後,評價網路模型可得到與輸入的視頻幀對應的像素值矩陣以及與相應的中間圖像對應的像素值矩陣。評價網路模型所包括的層按照該層所對應的特徵提取因數,對輸入的視頻幀或中間圖像對應的像素值矩陣進行操作,得到相應的回應值以構成特徵圖。評價網路模型中不同的層提取的特徵不同。電子設備可事先設置將評價網路模型中提取圖像內容特徵的層輸出的特徵圖作為進行內容損耗計算的特徵圖。評價網路模型中提取圖像內容特徵的層具體可以是一層,也可以是多層。
電子設備在獲取中間圖像所對應的特徵圖和中間圖像對應的輸入的視頻幀所對應的特徵圖後,將中間圖像所對應的特徵圖和相應的視頻幀所對應的特徵圖中對應的像素位置的像素值相減,得到兩者之間的內容差異矩陣,再對內容差異矩陣進行降維運算得到內容損耗。
在本實施例中,通過評價網路模型來提取特徵轉換前的視頻幀與特徵轉換後的中間圖像的圖像內容特徵,利用輸出的提取了圖像內容特徵的特徵圖來計算相應輸入的圖像之間的內容損耗,使得內容損耗的計算更為準確。
在本揭示一個實施例中,步驟S212具體包括:將中間圖像與目標特徵圖像輸入評價網路模型;獲取評價網路模型所包括的層輸出的與中間圖像對應的特徵圖和與目標特徵圖像對應的特徵圖;根據中間圖像所對應的特徵圖和目標特徵圖像所對應的特徵圖,確定中間圖像與目標特徵圖像之間的特徵損耗。
具體地,電子設備可事先設置將評價網路模型中提取圖像特徵的層輸出的特徵圖作為進行特徵損耗計算的特徵圖。評價網路模型中提取圖像特徵的層具體可以是一層,也可以是多層。在本實施例中,通過評價網路模型來提取目標特徵圖像與特徵轉換後的中間圖像的圖像特徵,利用評價網路模型輸出的提取了圖像特徵的特徵圖來計算相應輸入的圖像之間的特徵損耗,使得特徵損耗的計算更為準確。
在本揭示一個實施例中,用於影像處理的神經網路模型的訓練方法中,根據中間圖像所對應的特徵圖和目標特徵圖像所對應的特徵圖,確定中間圖像與目標特徵圖像之間的特徵損耗的步驟具體包括:根據中間圖像所對應的特徵圖,確定中間圖像所對應的特徵矩陣;根據目標特徵圖像所對應的特徵圖,確定目標特徵圖像所對應的特徵矩陣;將中間圖像所對應的特徵矩陣和目標特徵圖像所對應的特徵矩陣中對應位置的數值相減,得到特徵差異矩陣;根據特徵差異矩陣,確定中間圖像與目標特徵圖像間的特徵損耗。
在本揭示一個實施例中,神經網路模型用於對圖像進行圖像風格特徵轉換,中間圖像所對應的特徵矩陣具體可以是風格特徵矩陣。風格特徵矩陣是反映圖像風格特徵的矩陣。風格特徵矩陣具體可以是格拉姆 矩陣(Gram Matrix)。電子設備可通過將中間圖像所對應的特徵圖求取內積得到相應的格拉姆矩陣作為中間圖像所對應的風格特徵矩陣,將目標風格圖像所對應的特徵圖求取內積得到相應的格拉姆矩陣作為目標風格圖像所對應的風格特徵矩陣。電子設備可再將中間圖像所對應的風格特徵矩陣和目標風格圖像所對應的風格特徵矩陣中對應位置的數值相減,得到風格差異特徵矩陣;再對風格差異特徵矩陣進行降維運算得到風格特徵損耗。
在本實施例中,採用了可反映圖像特徵的特徵矩陣具體計算特徵轉換得到的圖像與目標特徵圖像間的特徵損耗,使得特徵損耗的計算更為準確。
舉例說明,電子設備可選取VGG-19網路模型作為評價網路模型,該網路模型包括16層卷積層(convolution layer)和5層池化層(pooling layer)。試驗表明該模型的第四層卷積層提取的特徵能體現圖像內容特徵,該模型的第一、二、三、四層卷積層提取的特徵能體現圖像風格特徵。電子設備可獲取第四層卷積層輸出的中間圖像所對應的特徵圖和該中間圖像對應的輸入的視頻幀所對應的特徵圖,並基於獲取的特徵圖計算中間圖像與相應的視頻幀之間的內容損耗。電子設備可獲取第一、二、三、四層卷積層輸出的中間圖像所對應的特徵圖和所述中間圖像對應的輸入的視頻幀所對應的特徵圖,並基於獲取的特徵圖計算中間圖像與相應的視頻幀之間的風格特徵損耗。
在本揭示一個實施例中,用於影像處理的神經網路模型的訓練方法中,按照訓練代價調整神經網路模型的步驟包括:按照神經網路模型所包括的層的順序,逆序(逆順序)確定訓練代價隨各層所對應的非線性變化運算元的變化率;按逆序調整神經網路模型所包括的層所對應的非線性變化運算元,使得訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。
具體地,圖像被輸入神經網路模型後,每經過一層則進行一 次非線性變化,並將輸出的運算結果作為下一層的輸入。電子設備可按照神經網路模型所包括的層的順序,從神經網路模型所包括的最後一層起,確定訓練代價隨當前層所對應的非線性變化運算元的變化率,再依次逆序確定訓練代價隨各層所對應的非線性變化運算元的變化率。電子設備可再按逆序依次調整神經網路模型所包括的層所對應的非線性變化運算元,使得訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。
舉例說明,假設訓練代價為L,按照神經網路模型所包括的層的順序,逆序第一層所對應的非線性變化運算元為z,則L隨z的變化率為/;逆序第二層所對應的非線性變化運算元為b,則L隨b的變化率為(/)g(/);逆序第三層所對應的非線性變化運算元為c,則L隨c的變化率為(/)g(/)g(/)。在求解變化率時,鏈式求導會一層一層的將梯度傳導到在前的層。在逆序求解變化率至神經網路模型所包括的第一層時,電子設備可逆序依次調整非線性變化運算元z、b、c至神經網路模型所包括的第一層(即逆序最後一層)對應的非線性變化運算元,使得逆序最後一層求得的變化率減小。
在本揭示一個實施例中,訓練代價具體可表示為:
L hybrid 表示訓練代價,L spatial (x i ,y i ,s)表示空間域損失函數;L temporal (y t ,y t-1)表示時間域損失函數,由時間損耗生成,λ為時間域損失函數相應的權重。空間域損失函數具體可表示為:
l表示評價網路模型中提取圖像特徵的層;(x i ,y i )表示輸入神經網路模型的圖像與神經網路模型輸出的圖像之間的內容損耗;(s,y i )表示神經網路模型輸出的圖像與目標特徵圖像之間的特徵損耗;R tv 表示全變分最小化項;α、β和γ為各項損耗相應的權重。例如,α的取值可為1,β的取值可為1,γ的取值可為104。
在本實施例中,通過反向傳播方式求解訓練代價隨神經網路模型各層所對應的非線性變化運算元的變化率,通過調節神經網路模型各層所對應的非線性變化運算元使得計算得到的變化率減小,以訓練神經網路模型,使得訓練得到的神經網路模型用於進行圖像轉換時的效果更優。
如第3圖所示,在本揭示一個具體的實施例中,用於影像處理的神經網路模型的訓練方法具體包括以下步驟:
步驟S302,獲取多個時間相鄰的視頻幀。
步驟S304,將多個視頻幀分別經過神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像。
步驟S306,獲取時序在前的視頻幀變化至時序在後的視頻幀的光流資訊。
步驟S308,獲取時序在前的視頻幀所對應的中間圖像按光流資訊變化後的圖像。
步驟S310,將時序在後的視頻幀所對應的中間圖像與變化後的圖像中對應的像素位置的數值相減,得到差異分佈圖;根據差異分佈圖,確定時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗。
步驟S312,將中間圖像與目標特徵圖像輸入評價網路模型;獲取評價網路模型所包括的層輸出的與中間圖像對應的特徵圖和與目標特徵圖像對應的特徵圖;根據中間圖像所對應的特徵圖,確定中間圖像所對應的特徵矩陣;根據目標特徵圖像所對應的特徵圖,確定目標特徵圖像所對應的特徵矩陣;將中間圖像所對應的特徵矩陣和目標特徵圖像所對應的特徵矩陣中對應位置的數值相減,得到特徵差異矩陣;根據特徵差異矩陣,確定中間圖像與目標特徵圖像間的特徵損耗。
步驟S314,將視頻幀與該視頻幀對應的中間圖像輸入評價網路模型;獲取評價網路模型所包括的層輸出的與視頻幀對應的特徵圖和 與中間圖像對應的特徵圖;根據中間圖像所對應的特徵圖和相應的視頻幀所對應的特徵圖,確定中間圖像與相應的視頻幀之間的內容損耗。
步驟S316,根據時間損耗、特徵損耗和內容損耗,生成訓練代價。
步驟S318,按照神經網路模型所包括的層的順序,逆序確定訓練代價隨各層所對應的非線性變化運算元的變化率;按逆序調整神經網路模型所包括的層所對應的非線性變化運算元,使得訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。
步驟S320,判斷神經網路模型是否滿足訓練結束條件;若神經網路模型滿足訓練結束條件,則執行步驟S322;若神經網路模型不滿足訓練結束條件,則執行步驟S302。
步驟S322,結束訓練神經網路模型。
在本實施例中,在對用於影像處理的神經網路模型進行訓練時,將時間損耗、特徵損耗與內容損耗協同作為回饋調整依據來調整神經網路模型,在時間、特徵與內容三個維度來訓練神經網路模型,提高了神經網路模型的訓練效果。
第4圖示出了本揭示一實施例中用於影像處理的神經網路模型的訓練架構圖。參考第4圖,本實施例中神經網路模型由3個卷積層、5個殘差模組、2個反卷積層和1個卷積層組成,電子設備可將時序在前的視頻幀x t-1和時序在後的視頻幀x t 分別輸入神經網路模型中,得到神經網路模型輸出的中間圖像為y t-1和y t 。電子設備可按照x t-1與x t 之間的光流資訊,得到y t-1與y t 的時間域損失函數;再將x t-1、x t 、y t-1、y t 和目標特徵圖像S輸入評價網路模型,通過評價網路模型所包括的層輸出的特徵圖,得到x t-1與y t-1、x t 與y t 之間的內容損耗,y t-1與S、y t 與S之間的特徵損耗,從而得到空間域損失函數。
在本揭示一個實施例中,電子設備按照用於影像處理的神經 網路模型的訓練方法對神經網路模型訓練完成後,可將該神經網路模型用於進行視頻特徵轉換。電子設備可將需要進行特徵轉換的視頻分割為時間相鄰的視頻幀,依次將分割得到的視頻幀輸入訓練完成的神經網路模型,經神經網路模型處理後得到每幀視頻幀對應的特徵轉換後的輸出圖像,再將各輸出圖像按照所對應的輸入視頻幀的時間順序合併,得到特徵轉換後的視頻。神經網路模型可同時對多幀視頻幀進行特徵轉換。
如第5圖所示,在本揭示一個實施例中,提供一種用於影像處理的神經網路模型的訓練裝置500,該裝置具體包括:輸入獲取模組501、輸出獲取模組502、損耗獲取模組503和模型調整模組504。
輸入獲取模組501用於獲取多個時間相鄰的視頻幀。
輸出獲取模組502用於將所述多個視頻幀分別經過神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像。
損耗獲取模組503用於獲取所述多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊;獲取時序在前的視頻幀所對應的中間圖像按光流資訊變化後的圖像;獲取時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗;以及獲取多個時間相鄰的視頻幀對應的中間圖像與目標特徵圖像間的特徵損耗。
模型調整模組504用於根據時間損耗和特徵損耗調整神經網路模型,返回獲取多個時間相鄰的視頻幀的步驟繼續訓練,直至神經網路模型滿足訓練結束條件。
在本揭示一個實施例中,模型調整模組504還用於獲取多個時間相鄰的視頻幀對應的中間圖像與相應的視頻幀之間的內容損耗;根據時間損耗、特徵損耗和內容損耗,生成訓練代價;以及按照訓練代價調整神經網路模型。
在本實施例中,在對神經網路模型進行訓練時,將時間損耗、特徵損耗與內容損耗協同作為回饋調整依據來調整神經網路模型,以 訓練得到可用於影像處理的神經網路模型,從時間、內容與特徵三個維度保證了圖像特徵轉換的準確性,提高了訓練得到的神經網路模型對視頻進行特徵轉換時的轉換效果。
在本揭示一個實施例中,模型調整模組504還用於將所述中間圖像與所述中間圖像對應的視頻幀輸入評價網路模型;獲取評價網路模型所包括的層輸出的與視頻幀對應的特徵圖和與中間圖像對應的特徵圖;以及根據中間圖像所對應的特徵圖和相應的視頻幀所對應的特徵圖,確定中間圖像與相應的視頻幀之間的內容損耗。
在本實施例中,通過評價網路模型來提取特徵轉換前的視頻幀與特徵轉換後的中間圖像的圖像內容特徵,利用輸出的提取了圖像內容特徵的特徵圖來計算相應輸入的圖像之間的內容損耗,使得內容損耗的計算更為準確。
在本揭示一個實施例中,模型調整模組504還用於按照神經網路模型所包括的層的順序,逆序確定訓練代價隨各層所對應的非線性變化運算元的變化率;以及按逆序調整神經網路模型所包括的層所對應的非線性變化運算元,使得訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。
在本實施例中,通過反向傳播方式求解訓練代價隨神經網路模型各層所對應的非線性變化運算元的變化率,通過調節神經網路模型各層所對應的非線性變化運算元使得計算得到的變化率減小,以訓練神經網路模型,使得訓練得到的神經網路模型用於進行圖像轉換時的效果更優。
在本揭示一個實施例中,損耗獲取模組503還用於將時序在後的視頻幀所對應的中間圖像與變化後的圖像中對應的像素位置的數值相減,得到差異分佈圖;以及根據差異分佈圖,確定時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗。
在本實施例中,通過時序在後的視頻幀所對應的中間圖像與 變化後的圖像中對應的像素位置的像素值的差異,計算時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗,使得時間損耗的計算更為準確。
在本揭示一個實施例中,損耗獲取模組503還用於將中間圖像與目標特徵圖像輸入評價網路模型;獲取評價網路模型所包括的層輸出的與中間圖像對應的特徵圖和與目標特徵圖像對應的特徵圖;以及根據中間圖像所對應的特徵圖和目標特徵圖像所對應的特徵圖,確定中間圖像與目標特徵圖像間的特徵損耗。
在本實施例中,通過評價網路模型來提取目標特徵圖像與特徵轉換後的中間圖像的圖像特徵,利用輸出的提取了圖像特徵的特徵圖來計算相應輸入的圖像之間的特徵損耗,使得特徵損耗的計算更為準確。
在本揭示一個實施例中,損耗獲取模組503還用於根據中間圖像所對應的特徵圖,確定中間圖像所對應的特徵矩陣;根據目標特徵圖像所對應的特徵圖,確定目標特徵圖像所對應的特徵矩陣;將中間圖像所對應的特徵矩陣和目標特徵圖像所對應的特徵矩陣中對應位置的數值相減,得到特徵差異矩陣;以及根據特徵差異矩陣,確定中間圖像與目標特徵圖像間的特徵損耗。
在本實施例中,採用了可反映圖像特徵的特徵矩陣具體計算特徵轉換得到的圖像與目標特徵圖像之間的特徵損耗,使得特徵損耗的計算更為準確。
第6圖是本揭示另一實施例提供的一種用於影像處理的神經網路模型的訓練裝置的方塊圖。如第6圖所示,該裝置包括:處理器610,與所述處理器610通過匯流排620相連接的記憶體630。所述記憶體630中儲存有可由所述處理器610執行的機器可讀指令模組。所述機器可讀指令模組包括:輸入獲取模組601、輸出獲取模組602、損耗獲取模組603和模型調整模組604。
輸入獲取模組601用於獲取多個時間相鄰的視頻幀。
輸出獲取模組602用於將所述多個視頻幀分別經過神經網路模型處理以使所述神經網路模型輸出相對應的中間圖像。
損耗獲取模組603用於獲取所述多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊;獲取時序在前的視頻幀所對應的中間圖像按光流資訊變化後的圖像;獲取時序在後的視頻幀所對應的中間圖像與變化後的圖像間的時間損耗;以及獲取多個時間相鄰的視頻幀對應的中間圖像與目標特徵圖像間的特徵損耗。
模型調整模組604用於根據時間損耗和特徵損耗調整神經網路模型,返回獲取多個時間相鄰的視頻幀的步驟繼續訓練,直至神經網路模型滿足訓練結束條件。
在本揭示實施例中,上述輸入獲取模組601、輸出獲取模組602、損耗獲取模組603和模型調整模組604的具體功能與前述的輸入獲取模組501、輸出獲取模組502、損耗獲取模組503和模型調整模組504相同,在此不再贅述。
上述用於影像處理的神經網路模型的訓練裝置,在對神經網路模型進行訓練時,將時間損耗與特徵損耗協同作為回饋調整依據來調整神經網路模型,以訓練得到可用於影像處理的神經網路模型。在對神經網路模型進行訓練時,通過將時間相鄰的視頻幀作為輸入,以對時序在前的視頻幀所對應的中間圖像,按照時序在前的視頻幀變化至時序在後的視頻幀的光流資訊,得到時序在後的視頻幀預期所對應的中間圖像,從而得到時間損耗。該時間損耗反映了時間相鄰的視頻幀各自對應的中間圖像之間在時間一致性上的損耗。訓練後的神經網路模型在對視頻進行特徵轉換時,會考慮視頻的各視頻幀之間的時間一致性,極大地減少了特徵轉換過程中引入的閃爍雜訊,從而提高了對視頻進行特徵轉換時的轉換效果。同時,將神經網路模型計算與電子設備處理器能力結合在一起來處理視頻圖 像,提高了處理器計算速度且不必犧牲視頻圖像特徵轉換效果,從而產生更優的用於影像處理的神經網路模型。
本揭示所屬技術領域中具有通常知識者可以理解實現上述實施例方法中的全部或部分流程,是可以通過電腦程式來指令相關的硬體來完成,所述的電腦程式(機器可讀指令)可儲存於一非揮發性電腦可讀取儲存介質中,該電腦程式在執行時,可包括如上述各方法的實施例的流程。所述的電腦可讀取儲存介質可為磁碟、光碟、唯讀記憶體(Read-Only Memory,ROM)等。
以上實施例的各技術特徵可以進行任意的組合,為使描述簡潔,未對上述實施例中的各個技術特徵所有可能的組合都進行描述,然而,只要這些技術特徵的組合不存在矛盾,都應當認為是本揭示記載的範圍。
雖然本揭示已用較佳實施例揭露如上,然其並非用以限定本揭示,本揭示所屬技術領域中具有通常知識者在不脫離本揭示之精神和範圍內,當可作各種之更動與潤飾,因此本揭示之保護範圍當視後附之申請專利範圍所界定者為準。
Claims (21)
- 一種訓練用於影像處理神經網路模型的方法,應用於電子設備,由一處理器執行以完成下列步驟:獲取多個時間相鄰的視頻幀;將多個時間相鄰的視頻幀分別經過一神經網路模型處理以使神經網路模型輸出相對應的中間圖像;獲取多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊;按光流資訊變化後之一圖像獲取時序在前的視頻幀所對應的中間圖像;獲取時序在後的視頻幀所對應的中間圖像與變化後之圖像之間的時間損耗,時間損耗用於表徵時間相鄰的視頻幀在時域上的變化;獲取多個時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗,特徵損耗為神經網路模型輸出的中間圖像所對應的圖像特徵與目標特徵圖像所對應的圖像特徵之間的差異;以及根據時間損耗和特徵損耗回饋調整神經網路模型,返回獲取多個時間相鄰的視頻幀的步驟繼續訓練,直至神經網路模型滿足訓練結束條件,訓練結束條件是指對神經網路模型的訓練次數達到預設訓練次數,或是指根據時間損耗及特徵損耗得到的混合損失函數滿足收斂條件。
- 如申請專利範圍第1項所述之方法,其中所述根據所述時間損耗和所述特徵損耗調整所述神經網路模型的步驟包括:獲取所述多個時間相鄰的視頻幀對應的中間圖像與相應的視頻幀之間的內容損耗;根據所述時間損耗、所述特徵損耗和所述內容損耗,生成一訓練代價;以及按照所述訓練代價調整所述神經網路模型。
- 如申請專利範圍第2項所述之方法,其中所述獲取所述多個時間相鄰的視頻幀對應的中間圖像與相應的視頻幀之間的內容損耗的步驟包括:將所述中間圖像與所述中間圖像對應的視頻幀輸入一評價網路模型;獲取所述評價網路模型所包括的層輸出的與所述中間圖像對應的特徵圖和與所述視頻幀對應的特徵圖;以及根據所述中間圖像所對應的特徵圖和所述視頻幀所對應的特徵圖,確定所述中間圖像與相應的視頻幀之間的內容損耗。
- 如申請專利範圍第2項所述之方法,其中所述按照所述訓練代價調整所述神經網路模型的步驟包括:按照所述神經網路模型所包括的層的順序,逆序確定所述訓練代價隨各層所對應的非線性變化運算元的變化率;以及按所述逆序調整所述神經網路模型所包括的層所對應的非線性變化運算元,使得所述訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。
- 如申請專利範圍第1至4項中任一項所述之方法,其中所述獲取時序在後的視頻幀所對應的中間圖像與變化後之所述圖像之間的時間損耗的步驟包括:將所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像中對應的像素位置的數值相減,得到一差異分佈圖;以及根據所述差異分佈圖,確定所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像間的時間損耗。
- 如申請專利範圍第1至4項中任一項所述之方法,其中所述獲取所述多個時間相鄰的視頻幀對應的中間圖像與所述目標特徵圖像之間的特徵損耗的步驟包括:將所述中間圖像與所述目標特徵圖像輸入評價網路模型;獲取所述評價網路模型所包括的層輸出的與所述中間圖像對應的特徵圖和與所述目標特徵圖像對應的特徵圖;以及根據所述中間圖像所對應的特徵圖和所述目標特徵圖像所對應的特徵圖,確定所述中間圖像與目標特徵圖像間的特徵損耗。
- 如申請專利範圍第6項所述之方法,其中所述根據所述中間圖像所對應的特徵圖和所述目標特徵圖像所對應的特徵圖,確定所述中間圖像與目標特徵圖像間的特徵損耗的步驟包括:根據所述中間圖像所對應的特徵圖,確定所述中間圖像所對應的特徵矩陣;根據所述目標特徵圖像所對應的特徵圖,確定所述目標特徵圖像所對應的特徵矩陣;將所述中間圖像所對應的特徵矩陣和所述目標特徵圖像所對應的特徵矩陣中對應位置的數值相減,得到一特徵差異矩陣;以及根據所述特徵差異矩陣,確定所述中間圖像與所述目標特徵圖像間的特徵損耗。
- 一種訓練用於影像處理神經網路模型的裝置,所述裝置包括一處理器以及與所述處理器相連接之一記憶體,所述記憶體中儲存有可由所述處理器執行的機器可讀指令模組,所述機器可讀指令模組包括:一輸入獲取模組,用於獲取多個時間相鄰的視頻幀;一輸出獲取模組,用於將多個時間相鄰的視頻幀分別經過一神經網路模型處理以使神經網路模型輸出相對應的中間圖像;一損耗獲取模組,獲取多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊,按光流資訊變化後之一圖像獲取時序在前的視頻幀所對應的中間圖像,獲取時序在後的視頻幀所對應的中間圖像與變化後之圖像之間的時間損耗,獲取多個時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗,時間損耗用於表徵時間相鄰的視頻幀在時域上的變化,特徵損耗為神經網路模型輸出的中間圖像所對應的圖像特徵與目標特徵圖像所對應的圖像特徵之間的差異;以及一模型調整模組,用於根據時間損耗和特徵損耗回饋調整神經網路模型,返回獲取多個時間相鄰的視頻幀的步驟繼續訓練,直至神經網路模型滿足訓練結束條件,訓練結束條件是指對神經網路模型的訓練次數達到預設訓練次數,或是指根據時間損耗及特徵損耗得到的混合損失函數滿足收斂條件。
- 如申請專利範圍第8項所述之裝置,其中所述模型調整模組還用於獲取所述多個時間相鄰的視頻幀對應的中間圖像與相應的視頻幀之間的內容損耗;根據所述時間損耗、所述特徵損耗和所述內容損耗,生成一訓練代價;以及按照所述訓練代價調整所述神經網路模型。
- 如申請專利範圍第9項所述之裝置,其中所述模型調整模組還用於將所述中間圖像與所述中間圖像對應的視頻幀輸入一評價網路模型;獲取所述評價網路模型所包括的層輸出的與所述中間圖像對應的特徵圖和與所述視頻幀對應的特徵圖;以及根據所述中間圖像所對應的特徵圖和所述視頻幀所對應的特徵圖,確定所述中間圖像與相應的視頻幀之間的內容損耗。
- 如申請專利範圍第9項所述之裝置,其中所述模型調整模組還用於按照所述神經網路模型所包括的層的順序,逆序確定所述訓練代價隨各層所對應的非線性變化運算元的變化率;以及按所述逆序調整所述神經網路模型所包括的層所對應的非線性變化運算元,使得所述訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。
- 如申請專利範圍第8至11項中任一項所述之裝置,其中所述損耗獲取模組還用於將所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像中對應的像素位置的數值相減,得到一差異分佈圖;以及根據所述差異分佈圖,確定所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像間的時間損耗。
- 如申請專利範圍第8至11項中任一項所述之裝置,其中所述損耗獲取模組還用於將所述中間圖像與所述目標特徵圖像輸入評價網路模型;獲取所述評價網路模型所包括的層輸出的與所述中間圖像對應的特徵圖和與所述目標特徵圖像對應的特徵圖;以及根據所述中間圖像所對應的特徵圖和所述目標特徵圖像所對應的特徵圖,確定所述中間圖像與目標特徵圖像間的特徵損耗。
- 如申請專利範圍第13項所述之裝置,其中所述損耗獲取模組還用於根據所述中間圖像所對應的特徵圖,確定所述中間圖像所對應的特徵矩陣;根據所述目標特徵圖像所對應的特徵圖,確定所述目標特徵圖像所對應的特徵矩陣;將所述中間圖像所對應的特徵矩陣和所述目標特徵圖像所對應的特徵矩陣中對應位置的數值相減,得到一特徵差異矩陣;以及根據所述特徵差異矩陣,確定所述中間圖像與所述目標特徵圖像間的特徵損耗。
- 一種電腦可讀儲存媒體,所述儲存媒體中儲存有機器可讀指令,所述機器可讀指令由一處理器執行以完成:獲取多個時間相鄰的視頻幀;將多個時間相鄰的視頻幀分別經過一神經網路模型處理以使神經網路模型輸出相對應的中間圖像;獲取多個時間相鄰的視頻幀中時序在前的視頻幀變化至時序在後的視頻幀的光流資訊;按光流資訊變化後之一圖像獲取時序在前的視頻幀所對應的中間圖像;獲取時序在後的視頻幀所對應的中間圖像與變化後之圖像之間的時間損耗,時間損耗用於表徵時間相鄰的視頻幀在時域上的變化;獲取多個時間相鄰的視頻幀對應的中間圖像與一目標特徵圖像之間的特徵損耗,特徵損耗為神經網路模型輸出的中間圖像所對應的圖像特徵與目標特徵圖像所對應的圖像特徵之間的差異;以及根據時間損耗和特徵損耗回饋調整神經網路模型,返回獲取多個時間相鄰的視頻幀的步驟繼續訓練,直至神經網路模型滿足訓練結束條件,訓練結束條件是指對神經網路模型的訓練次數達到預設訓練次數,或是指根據時間損耗及特徵損耗得到的混合損失函數滿足收斂條件。
- 如申請專利範圍第15項所述之儲存媒體,其中所述根據所述時間損耗和所述特徵損耗調整所述神經網路模型的步驟包括:獲取所述多個時間相鄰的視頻幀對應的中間圖像與相應的視頻幀之間的內容損耗;根據所述時間損耗、所述特徵損耗和所述內容損耗,生成一訓練代價;以及按照所述訓練代價調整所述神經網路模型。
- 如申請專利範圍第16項所述之儲存媒體,其中所述獲取所述多個時間相鄰的視頻幀對應的中間圖像與相應的視頻幀之間的內容損耗的步驟包括:將所述中間圖像與所述中間圖像對應的視頻幀輸入一評價網路模型;獲取所述評價網路模型所包括的層輸出的與所述中間圖像對應的特徵圖和與所述視頻幀對應的特徵圖;以及根據所述中間圖像所對應的特徵圖和所述視頻幀所對應的特徵圖,確定所述中間圖像與相應的視頻幀之間的內容損耗。
- 如申請專利範圍第16項所述之儲存媒體,其中所述按照所述訓練代價調整所述神經網路模型的步驟包括:按照所述神經網路模型所包括的層的順序,逆序確定所述訓練代價隨各層所對應的非線性變化運算元的變化率;以及按所述逆序調整所述神經網路模型所包括的層所對應的非線性變化運算元,使得所述訓練代價隨相應調整的層所對應的非線性變化運算元的變化率減小。
- 如申請專利範圍第15至18項中任一項所述之儲存媒體,其中所述獲取時序在後的視頻幀所對應的中間圖像與變化後之所述圖像之間的時間損耗的步驟包括:將所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像中對應的像素位置的數值相減,得到一差異分佈圖;以及根據所述差異分佈圖,確定所述時序在後的視頻幀所對應的中間圖像與變化後之所述圖像間的時間損耗。
- 如申請專利範圍第15至18項中任一項所述之儲存媒體,其中所述獲取所述多個時間相鄰的視頻幀對應的中間圖像與所述目標特徵圖像之間的特徵損耗的步驟包括:將所述中間圖像與所述目標特徵圖像輸入評價網路模型;獲取所述評價網路模型所包括的層輸出的與所述中間圖像對應的特徵圖和與所述目標特徵圖像對應的特徵圖;以及根據所述中間圖像所對應的特徵圖和所述目標特徵圖像所對應的特徵圖,確定所述中間圖像與目標特徵圖像間的特徵損耗。
- 如申請專利範圍第20項所述之儲存媒體,其中所述根據所述中間圖像所對應的特徵圖和所述目標特徵圖像所對應的特徵圖,確定所述中間圖像與目標特徵圖像間的特徵損耗的步驟包括:根據所述中間圖像所對應的特徵圖,確定所述中間圖像所對應的特徵矩陣;根據所述目標特徵圖像所對應的特徵圖,確定所述目標特徵圖像所對應的特徵矩陣;將所述中間圖像所對應的特徵矩陣和所述目標特徵圖像所對應的特徵矩陣中對應位置的數值相減,得到一特徵差異矩陣;以及根據所述特徵差異矩陣,確定所述中間圖像與所述目標特徵圖像間的特徵損耗。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
??201710136471.9 | 2017-03-08 | ||
CN201710136471.9A CN108304755B (zh) | 2017-03-08 | 2017-03-08 | 用于图像处理的神经网络模型的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201833867A TW201833867A (zh) | 2018-09-16 |
TWI672667B true TWI672667B (zh) | 2019-09-21 |
Family
ID=62872021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107107998A TWI672667B (zh) | 2017-03-08 | 2018-03-08 | 訓練用於影像處理神經網路模型的方法及裝置和電腦可讀儲存媒體 |
Country Status (7)
Country | Link |
---|---|
US (2) | US10970600B2 (zh) |
EP (1) | EP3540637B1 (zh) |
JP (1) | JP6755395B2 (zh) |
KR (1) | KR102281017B1 (zh) |
CN (1) | CN108304755B (zh) |
TW (1) | TWI672667B (zh) |
WO (1) | WO2018161775A1 (zh) |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10181195B2 (en) * | 2015-12-28 | 2019-01-15 | Facebook, Inc. | Systems and methods for determining optical flow |
US10713754B1 (en) * | 2018-02-28 | 2020-07-14 | Snap Inc. | Remote distribution of neural networks |
CN109272486B (zh) * | 2018-08-14 | 2022-07-08 | 中国科学院深圳先进技术研究院 | Mr图像预测模型的训练方法、装置、设备及存储介质 |
US10318842B1 (en) * | 2018-09-05 | 2019-06-11 | StradVision, Inc. | Learning method, learning device for optimizing parameters of CNN by using multiple video frames and testing method, testing device using the same |
CN109068174B (zh) * | 2018-09-12 | 2019-12-27 | 上海交通大学 | 基于循环卷积神经网络的视频帧率上变换方法及系统 |
CN109389072B (zh) * | 2018-09-29 | 2022-03-08 | 北京字节跳动网络技术有限公司 | 数据处理方法和装置 |
CN109712228B (zh) * | 2018-11-19 | 2023-02-24 | 中国科学院深圳先进技术研究院 | 建立三维重建模型的方法、装置、电子设备及存储介质 |
CN109785249A (zh) * | 2018-12-22 | 2019-05-21 | 昆明理工大学 | 一种基于持续性记忆密集网络的图像高效去噪方法 |
CN111353597B (zh) * | 2018-12-24 | 2023-12-05 | 杭州海康威视数字技术股份有限公司 | 一种目标检测神经网络训练方法和装置 |
CN109919874B (zh) | 2019-03-07 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN111797855B (zh) * | 2019-04-09 | 2024-08-13 | 腾讯科技(深圳)有限公司 | 图像处理、模型训练方法、装置、介质和设备 |
CN109840598B (zh) * | 2019-04-29 | 2019-08-09 | 深兰人工智能芯片研究院(江苏)有限公司 | 一种深度学习网络模型的建立方法及装置 |
CN110532431B (zh) * | 2019-07-23 | 2023-04-18 | 平安科技(深圳)有限公司 | 短视频关键词提取方法、装置及存储介质 |
CN110378936B (zh) * | 2019-07-30 | 2021-11-05 | 北京字节跳动网络技术有限公司 | 光流计算方法、装置及电子设备 |
CN111797881B (zh) * | 2019-07-30 | 2024-06-28 | 华为技术有限公司 | 图像分类方法及装置 |
CN110555861B (zh) * | 2019-08-09 | 2023-04-25 | 北京字节跳动网络技术有限公司 | 光流计算方法、装置及电子设备 |
CN110677651A (zh) * | 2019-09-02 | 2020-01-10 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法 |
CN110599421B (zh) * | 2019-09-12 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 模型训练方法、视频模糊帧转换方法、设备及存储介质 |
US20210096934A1 (en) * | 2019-10-01 | 2021-04-01 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for enhancing a patient positioning system |
CN110717593B (zh) * | 2019-10-14 | 2022-04-19 | 上海商汤临港智能科技有限公司 | 神经网络训练、移动信息测量、关键帧检测的方法及装置 |
US11023791B2 (en) * | 2019-10-30 | 2021-06-01 | Kyocera Document Solutions Inc. | Color conversion using neural networks |
CN110753225A (zh) * | 2019-11-01 | 2020-02-04 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法、装置及终端设备 |
CN110830848B (zh) * | 2019-11-04 | 2021-12-07 | 上海眼控科技股份有限公司 | 图像插值方法、装置、计算机设备和存储介质 |
CN111091144B (zh) * | 2019-11-27 | 2023-06-27 | 云南电网有限责任公司电力科学研究院 | 基于深度伪孪生网络的图像特征点匹配方法及装置 |
CN110913218A (zh) * | 2019-11-29 | 2020-03-24 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
CN110830806A (zh) * | 2019-11-29 | 2020-02-21 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
CN110913219A (zh) * | 2019-11-29 | 2020-03-24 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
CN110913230A (zh) * | 2019-11-29 | 2020-03-24 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
US11080834B2 (en) * | 2019-12-26 | 2021-08-03 | Ping An Technology (Shenzhen) Co., Ltd. | Image processing method and electronic device |
CN111083479A (zh) * | 2019-12-31 | 2020-04-28 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
CN111083478A (zh) * | 2019-12-31 | 2020-04-28 | 合肥图鸭信息科技有限公司 | 一种视频帧重构方法、装置及终端设备 |
CN111083499A (zh) * | 2019-12-31 | 2020-04-28 | 合肥图鸭信息科技有限公司 | 一种视频帧重构方法、装置及终端设备 |
KR102207736B1 (ko) * | 2020-01-14 | 2021-01-26 | 한국과학기술원 | 심층 신경망 구조를 이용한 프레임 보간 방법 및 장치 |
CN111314733B (zh) * | 2020-01-20 | 2022-06-10 | 北京百度网讯科技有限公司 | 用于评估视频清晰度的方法和装置 |
CN111340905B (zh) * | 2020-02-13 | 2023-08-04 | 北京百度网讯科技有限公司 | 图像风格化方法、装置、设备和介质 |
KR102198480B1 (ko) * | 2020-02-28 | 2021-01-05 | 연세대학교 산학협력단 | 재귀 그래프 모델링을 통한 비디오 요약 생성 장치 및 방법 |
CN111340195B (zh) * | 2020-03-09 | 2023-08-22 | 创新奇智(上海)科技有限公司 | 网络模型的训练方法及装置、图像处理方法及存储介质 |
CN111524166B (zh) * | 2020-04-22 | 2023-06-30 | 北京百度网讯科技有限公司 | 视频帧的处理方法和装置 |
CN111726621B (zh) * | 2020-04-24 | 2022-12-30 | 中国科学院微电子研究所 | 一种视频转换方法及装置 |
CN111754503B (zh) * | 2020-07-01 | 2023-12-08 | 武汉楚精灵医疗科技有限公司 | 基于两通道卷积神经网络的肠镜退镜超速占比监测方法 |
CN111915573A (zh) * | 2020-07-14 | 2020-11-10 | 武汉楚精灵医疗科技有限公司 | 一种基于时序特征学习的消化内镜下病灶跟踪方法 |
US11272097B2 (en) * | 2020-07-30 | 2022-03-08 | Steven Brian Demers | Aesthetic learning methods and apparatus for automating image capture device controls |
CN112104830B (zh) * | 2020-08-13 | 2022-09-27 | 北京迈格威科技有限公司 | 视频插帧方法、模型训练方法及对应装置 |
CN111970518B (zh) * | 2020-08-14 | 2022-07-22 | 山东云海国创云计算装备产业创新中心有限公司 | 一种图像丢帧处理方法、系统、设备及计算机存储介质 |
CN112016041B (zh) * | 2020-08-27 | 2023-08-04 | 重庆大学 | 基于格拉姆求和角场图像化和Shortcut-CNN的时间序列实时分类方法 |
CN112116692B (zh) * | 2020-08-28 | 2024-05-10 | 北京完美赤金科技有限公司 | 模型渲染方法、装置、设备 |
CN112055249B (zh) * | 2020-09-17 | 2022-07-08 | 京东方科技集团股份有限公司 | 一种视频插帧方法及装置 |
CN112288621B (zh) * | 2020-09-21 | 2022-09-16 | 山东师范大学 | 基于神经网络的图像风格迁移方法及系统 |
JP7430815B2 (ja) | 2020-09-29 | 2024-02-13 | 富士フイルム株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
CN112561167B (zh) * | 2020-12-17 | 2023-10-24 | 北京百度网讯科技有限公司 | 出行推荐方法、装置、电子设备及存储介质 |
CN114760524A (zh) * | 2020-12-25 | 2022-07-15 | 深圳Tcl新技术有限公司 | 视频处理方法、装置、智能终端及计算机可读存储介质 |
EP4262207A4 (en) | 2021-02-22 | 2024-03-27 | Samsung Electronics Co., Ltd. | IMAGE ENCODING AND DECODING DEVICE USING AI AND IMAGE ENCODING AND DECODING METHOD USING SAID DEVICE |
EP4250729A4 (en) | 2021-02-22 | 2024-05-01 | Samsung Electronics Co., Ltd. | AI-BASED IMAGE ENCODING AND DECODING APPARATUS AND RELATED METHOD |
WO2022250372A1 (ko) * | 2021-05-24 | 2022-12-01 | 삼성전자 주식회사 | Ai에 기반한 프레임 보간 방법 및 장치 |
CN113542651B (zh) * | 2021-05-28 | 2023-10-27 | 爱芯元智半导体(宁波)有限公司 | 模型训练方法、视频插帧方法及对应装置 |
KR102404166B1 (ko) * | 2021-07-20 | 2022-06-02 | 국민대학교산학협력단 | 스타일 전이를 활용한 엑스레이 영상의 유체 탐지 방법 및 장치 |
WO2023004727A1 (zh) * | 2021-07-30 | 2023-02-02 | 华为技术有限公司 | 视频处理方法、视频处理装置及电子装置 |
CN113591761B (zh) * | 2021-08-09 | 2023-06-06 | 成都华栖云科技有限公司 | 一种视频镜头语言识别方法 |
CN113706414B (zh) * | 2021-08-26 | 2022-09-09 | 荣耀终端有限公司 | 视频优化模型的训练方法和电子设备 |
CN113705665B (zh) * | 2021-08-26 | 2022-09-23 | 荣耀终端有限公司 | 图像变换网络模型的训练方法和电子设备 |
CN113792654A (zh) * | 2021-09-14 | 2021-12-14 | 湖南快乐阳光互动娱乐传媒有限公司 | 视频片段的整合方法、装置、电子设备及存储介质 |
KR102658912B1 (ko) * | 2021-09-24 | 2024-04-18 | 한국과학기술원 | 도메인별 최적화를 위한 생성 신경망의 에너지 효율적인 재학습 방법 |
WO2024155015A1 (ko) * | 2023-01-18 | 2024-07-25 | 삼성전자 주식회사 | 영상 복호화 방법 및 장치, 및 영상 부호화 방법 및 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200714075A (en) * | 2005-06-28 | 2007-04-01 | Objectvideo Inc | Video surveillance system employing video primitives |
WO2015079470A2 (en) * | 2013-11-29 | 2015-06-04 | Protodesign S.R.L. | Video coding system for images and video from air or satellite platform assisted by sensors and by a geometric model of the scene |
CN105160310A (zh) * | 2015-08-25 | 2015-12-16 | 西安电子科技大学 | 基于3d卷积神经网络的人体行为识别方法 |
CN106407889A (zh) * | 2016-08-26 | 2017-02-15 | 上海交通大学 | 基于光流图深度学习模型在视频中人体交互动作识别方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101284561B1 (ko) * | 2011-02-14 | 2013-07-11 | 충남대학교산학협력단 | 멀티 모달리티 감정인식 시스템, 감정인식 방법 및 그 기록매체 |
CN102209246B (zh) * | 2011-05-23 | 2013-01-09 | 北京工业大学 | 一种实时视频白平衡处理系统 |
US8655030B2 (en) * | 2012-04-18 | 2014-02-18 | Vixs Systems, Inc. | Video processing system with face detection and methods for use therewith |
US9213901B2 (en) * | 2013-09-04 | 2015-12-15 | Xerox Corporation | Robust and computationally efficient video-based object tracking in regularized motion environments |
CN104504366A (zh) * | 2014-11-24 | 2015-04-08 | 上海闻泰电子科技有限公司 | 基于光流特征的笑脸识别系统及方法 |
US9741107B2 (en) * | 2015-06-05 | 2017-08-22 | Sony Corporation | Full reference image quality assessment based on convolutional neural network |
CN106469443B (zh) * | 2015-08-13 | 2020-01-21 | 微软技术许可有限责任公司 | 机器视觉特征跟踪系统 |
US10157309B2 (en) * | 2016-01-14 | 2018-12-18 | Nvidia Corporation | Online detection and classification of dynamic gestures with recurrent convolutional neural networks |
US10423830B2 (en) * | 2016-04-22 | 2019-09-24 | Intel Corporation | Eye contact correction in real time using neural network based machine learning |
CN106056628B (zh) * | 2016-05-30 | 2019-06-18 | 中国科学院计算技术研究所 | 基于深度卷积神经网络特征融合的目标跟踪方法及系统 |
US10037471B2 (en) * | 2016-07-05 | 2018-07-31 | Nauto Global Limited | System and method for image analysis |
CN106203533B (zh) * | 2016-07-26 | 2019-09-20 | 厦门大学 | 基于混合训练的深度学习人脸验证方法 |
CN106331433B (zh) * | 2016-08-25 | 2020-04-24 | 上海交通大学 | 基于深度递归神经网络的视频去噪方法 |
CN108073933B (zh) * | 2016-11-08 | 2021-05-25 | 杭州海康威视数字技术股份有限公司 | 一种目标检测方法及装置 |
US20180190377A1 (en) * | 2016-12-30 | 2018-07-05 | Dirk Schneemann, LLC | Modeling and learning character traits and medical condition based on 3d facial features |
-
2017
- 2017-03-08 CN CN201710136471.9A patent/CN108304755B/zh active Active
-
2018
- 2018-02-09 WO PCT/CN2018/075958 patent/WO2018161775A1/zh unknown
- 2018-02-09 KR KR1020197021770A patent/KR102281017B1/ko active IP Right Grant
- 2018-02-09 JP JP2019524446A patent/JP6755395B2/ja active Active
- 2018-02-09 EP EP18764177.4A patent/EP3540637B1/en active Active
- 2018-03-08 TW TW107107998A patent/TWI672667B/zh active
-
2019
- 2019-04-02 US US16/373,034 patent/US10970600B2/en active Active
-
2021
- 2021-02-26 US US17/187,473 patent/US11610082B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200714075A (en) * | 2005-06-28 | 2007-04-01 | Objectvideo Inc | Video surveillance system employing video primitives |
WO2015079470A2 (en) * | 2013-11-29 | 2015-06-04 | Protodesign S.R.L. | Video coding system for images and video from air or satellite platform assisted by sensors and by a geometric model of the scene |
CN105160310A (zh) * | 2015-08-25 | 2015-12-16 | 西安电子科技大学 | 基于3d卷积神经网络的人体行为识别方法 |
CN106407889A (zh) * | 2016-08-26 | 2017-02-15 | 上海交通大学 | 基于光流图深度学习模型在视频中人体交互动作识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US11610082B2 (en) | 2023-03-21 |
EP3540637A4 (en) | 2020-09-02 |
KR20190100320A (ko) | 2019-08-28 |
EP3540637A1 (en) | 2019-09-18 |
JP6755395B2 (ja) | 2020-09-16 |
WO2018161775A1 (zh) | 2018-09-13 |
US20210182616A1 (en) | 2021-06-17 |
US20190228264A1 (en) | 2019-07-25 |
US10970600B2 (en) | 2021-04-06 |
CN108304755B (zh) | 2021-05-18 |
KR102281017B1 (ko) | 2021-07-22 |
JP2019534520A (ja) | 2019-11-28 |
TW201833867A (zh) | 2018-09-16 |
CN108304755A (zh) | 2018-07-20 |
EP3540637B1 (en) | 2023-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI672667B (zh) | 訓練用於影像處理神經網路模型的方法及裝置和電腦可讀儲存媒體 | |
CN109670474B (zh) | 一种基于视频的人体姿态估计方法、装置及设备 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
KR20210139450A (ko) | 이미지 디스플레이 방법 및 디바이스 | |
WO2019218136A1 (zh) | 图像分割方法、计算机设备和存储介质 | |
CN106127688B (zh) | 一种超分辨率图像重建方法及其系统 | |
CN102915527A (zh) | 基于形态学成分分析的人脸图像超分辨率重建方法 | |
Guo et al. | Single image dehazing based on fusion strategy | |
CN114663509B (zh) | 一种关键点热力图引导的自监督单目视觉里程计方法 | |
CN114339030B (zh) | 一种基于自适应可分离卷积的网络直播视频稳像方法 | |
CN110298829A (zh) | 一种舌诊方法、装置、系统、计算机设备和存储介质 | |
Bare et al. | Real-time video super-resolution via motion convolution kernel estimation | |
Zhang et al. | Multi-frame pyramid refinement network for video frame interpolation | |
CN112085717A (zh) | 一种用于腹腔镜手术的视频预测方法及其系统 | |
CN103685858A (zh) | 视频实时处理的方法及设备 | |
Zeng et al. | Combining CNN and transformers for full-reference and no-reference image quality assessment | |
Wang et al. | Learning pixel-adaptive weights for portrait photo retouching | |
JP2023003763A (ja) | 学習装置、画像処理装置、学習処理方法、及びプログラム | |
Soh et al. | Joint high dynamic range imaging and super-resolution from a single image | |
Van Vo et al. | High dynamic range video synthesis using superpixel-based illuminance-invariant motion estimation | |
Zhang et al. | Perception-Driven Similarity-Clarity Tradeoff for Image Super-Resolution Quality Assessment | |
Zhang et al. | A variational Retinex model with structure-awareness regularization for single-image low-light enhancement | |
JP7512150B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN112927142B (zh) | 一种基于时域插值的高速高分辨率视频生成方法和装置 | |
Chen et al. | Implicit Multi-Spectral Transformer: An Lightweight and Effective Visible to Infrared Image Translation Model |