TWI749356B - 一種圖像風格轉換方法及設備、儲存介質 - Google Patents
一種圖像風格轉換方法及設備、儲存介質 Download PDFInfo
- Publication number
- TWI749356B TWI749356B TW108128796A TW108128796A TWI749356B TW I749356 B TWI749356 B TW I749356B TW 108128796 A TW108128796 A TW 108128796A TW 108128796 A TW108128796 A TW 108128796A TW I749356 B TWI749356 B TW I749356B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- gradient
- style
- feature map
- pixel
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000012549 training Methods 0.000 claims abstract description 181
- 238000006243 chemical reaction Methods 0.000 claims abstract description 137
- 238000005070 sampling Methods 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 34
- GJJFMKBJSRMPLA-HIFRSBDPSA-N (1R,2S)-2-(aminomethyl)-N,N-diethyl-1-phenyl-1-cyclopropanecarboxamide Chemical compound C=1C=CC=CC=1[C@@]1(C(=O)N(CC)CC)C[C@@H]1CN GJJFMKBJSRMPLA-HIFRSBDPSA-N 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 description 45
- 230000006870 function Effects 0.000 description 27
- 230000005284 excitation Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 7
- 238000011176 pooling Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本發明實施例公開了一種圖像風格轉換方法及裝置、設備、儲存介質,其中,所述方法包括:獲取待進行風格轉換的初始圖像;將所述初始圖像的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型獲得所述初始圖像的在梯度域上的特徵圖;所述圖像風格轉換模型是在梯度域基於像素級損失和感知損失訓練得到;根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
Description
本發明關於圖像技術,尤其關於一種圖像風格轉換方法及裝置、設備、儲存介質。
基於深度學習的圖像風格轉換是近年來新起的一個研究問題。圖像風格轉換問題雖然一直都存在,但是2015年德國的研究員Gatys才第一次使用神經網路的方法打開了用深度學習創造圖像藝術風格的大門。目前的技術並沒有對人臉照片的風格轉換進行優化,例如,現有的方法應用到自拍圖像上時,普遍存在的缺點是:圖像風格轉換後導致的人臉邊緣的變形及人臉膚色不一致。
有鑑於此,本發明實施例為解決現有技術中存在的至少一個問題而提供一種圖像風格轉換方法及裝置、設備、儲存介質。
本發明實施例的技術方案是這樣實現的:
本發明實施例提供一種圖像風格轉換方法,所述方法包括:獲取待進行風格轉換的初始圖像;將所述初始圖像的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型獲得所述初始圖像的在梯度域上的特徵圖;所述圖像風格轉換模型是在梯度域基於像素級損失和感知損失訓練得到;
根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
在其他實施例中,所述方法還包括:訓練所述圖像風格轉換模型;其中,所述圖像風格轉換模型的訓練目標為總的損失L total最小,其中,L total採用下式來表示:L total=αL feat +βL pixel;其中,所述L feat 表示感知損失,所述L pixel表示像素級損失,所述α和所述β的取值均為實數。
在其他實施例中,所述圖像風格轉換模型包括像素級損失模型和感知損失模型,其中所述像素級損失模型是通過在梯度域將像素級損失最小作為訓練目標而得到的,所述感知損失模型是通過在梯度域訓練將感知損失最小作為訓練目標而得到的。
在其他實施例中,所述像素級損失模型和所述感知損失模型的訓練過程包括:將訓練樣本的梯度輸入所述像素級損失模型,從所述像素級損失模型獲得所述訓練樣本的樣本輸出結果;確定所述訓練樣本對應的風格化的參考圖像的梯度;根據所述參考圖像的梯度在所述感知損失模型的第j層卷積層的第一輸出特徵圖,和根據樣本輸出結果在所述感知損失模型的第j層卷積層的第二輸出特徵圖,訓練所述感知損失模型。
在其他實施例中,所述根據所述參考圖像的梯度在所述感知損失模型的第j層卷積層的第一輸出特徵圖,和根據樣本輸出結果在所述感知損失模型的第j層卷積層的第二輸出特徵圖,訓練所述感知損失模型,包括:採用下式訓練所述感知損失模型:
其中,表示第i個訓練樣本的梯度,F W 表示像素級損失模型,表示第i個訓練樣本的梯度經過像素級損失模型的輸出結果;表示第i個訓練樣本的風格化的參考圖像的梯度;ψ j ( )表示感知損失模型採用感知損失模型時的第j層卷積層的輸出特徵圖,C j H j W j 別表示第j層卷積層對應的特徵圖的通道數、高和寬。
在其他實施例中,所述像素級損失模型的訓練過程包括:將訓練樣本的梯度作為所述像素級損失模型的輸入,從所述像素級損失模型獲得樣本輸出結果;確定所述訓練樣本對應的風格化的參考圖像的梯度;根據所述參考圖像的梯度和樣本輸出結果訓練所述像素級損失模型。
在其他實施例中,所述像素級損失模型包括第一卷積層集合、上採樣層和第二卷積層集合,所述根據所述參考圖像的梯度和樣本輸出結果訓練所述像素級損失模型包括:將所述訓練樣本的梯度輸入到所述第一卷積層集合,得到樣本特徵圖;將所述樣本特徵圖輸入到所述上採樣層,上採樣至所述初始圖像的像素尺寸;將上採樣後的樣本特徵圖輸入到所述第二卷積層集合,得到樣本輸出結果。
在其他實施例中,所述根據所述參考圖像的梯度和樣本輸出結果訓練所述像素級損失模型,包括:根據每一訓練樣本的與對應的之差的絕對值訓練所述像素級損失模型;其中,表示第i個訓練樣本的梯度,F W 表示像素級損失模型,表示第i個訓練樣本的梯度經過像素級損失模型F W 的輸出結果;表示第i個訓練樣本的風格化的參考圖像的梯度。
在其他實施例中,所述根據每一訓練樣本的與對應的之差的絕對值訓練所述像素級損失模型,包括:採用下式訓練所述像素級損失模型:
其中,表示第i個訓練樣本的梯度,F W 表示像素級損失模型,表示第i個訓練樣本的梯度經過像素級損失模型F W 的輸出結果;表示第i個訓練樣本的風格化的參考圖像的梯度,D表示訓練樣本集合中的樣本數。
在其他實施例中,所述根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,作為所述風格圖像;其中,所述風格圖像與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件,包括:所述風格圖像與所述初始圖像的結構差異程度小於相似度閾值,或者,所述風格圖像與所述初始圖像的結構差異程度最小,其中,結構差異程度為梯度域上的風格圖像與所述初始圖像的在梯度域上的特徵圖在至少一個參考方向的變化趨勢。
在其他實施例中,所述根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:根據進行圖像重構,得到風格圖像;其中:表示所述初始圖像在x方向的梯度,表示所述初始圖像在x方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示所述初始圖像在y方向的梯度,表示所述初始圖像在y方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示風格圖像在x方向的梯度,表示風格圖像在y方向的梯度。
在其他實施例中,所述根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:根據所述初始圖像的顏色資訊和所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
在其他實施例中,所述根據所述初始圖像的顏色資訊和所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,且將與所述初始圖像滿足顏色相似度條件的圖像,作為所述風格圖像。
在其他實施例中,所述方法還包括:對所述初始圖像進行特徵提取,得到所述初始圖像中的人臉區域;對應地,所述根據所述初始圖像的顏色資訊和所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,且將與所述初始圖像中的人臉區域滿足顏色相似度條件的圖像,作為所述風格圖像。
在其他實施例中,所述將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,且將與所述初始圖像滿足顏色相似度條件的圖像,作為所述風格圖像,包括:根據進行圖像重構,得到風格圖像;其中:I表示初始圖像,S表示風格圖像,表示所述初始圖像在x方向的梯度,表示所述初始圖像在x方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示所述初始圖像在y方向的梯度,表示所述初始圖像在y方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示風格圖像在x方向的梯度,表示風格圖像在y方向的梯度。
在其他實施例中,所述將所述初始圖像的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型獲得初始圖像的在梯度域上的特徵圖,包括:確定所述初始圖像在至少一個參考方向的梯度;將在至少一個參考方向的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型對應獲得初始圖像在至少一個參考方向的在梯度域上的特徵圖;對應地,根據在至少一個參考方向的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
在其他實施例中,所述至少一個參考方向包括在平面參考坐標系中的x、y方向上,對應地,確定所述初始圖像分別在x、y方向上的梯度;分別將在x、y方向上的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型對應獲得初始圖像在x、y方向上的在梯度域上的特徵圖;對應地,根據在x、y方向上的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
本發明實施例提供一種圖像風格轉換裝置,所述裝置包括:獲取單元,用於獲取待進行風格轉換的初始圖像;獲得單元,用於將所述初始圖像的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型獲得所述初始圖像的在梯度域上的特徵圖;所述圖像風格轉換模型是在梯度域基於像素級損失和感知損失訓練得到;重構單元,用於根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
在其他實施例中,所述裝置還包括:
訓練單元,用於訓練所述圖像風格轉換模型,其中所述圖像風格轉換模型的訓練目標為總的損失L total最小,其中,L total採用下式來表示:L total=αL feat +βL pixel;其中,所述L feat 表示感知損失,所述L pixel表示像素級損失,所述α和所述β的取值均為實數。
在其他實施例中,所述圖像風格轉換模型包括像素級損失模型和感知損失模型,其中所述像素級損失模型是通過在梯度域將像素級損失最小作為訓練目標而得到,所述感知損失模型是通過在梯度域訓練將感知損失最小作為訓練目標而得到。
在其他實施例中,所述訓練單元包括:第一輸入模組,用於將訓練樣本的梯度輸入所述像素級損失模型,從所述像素級損失模型獲得所述訓練樣本的樣本輸出結果;第一確定模組,用於確定所述訓練樣本對應的風格化的參考圖像的梯度;第一訓練模組,用於根據所述參考圖像的梯度在所述感知損失模型的第j層卷積層的第一輸出特徵圖,和根據樣本輸出結果在所述感知損失模型的第j層卷積層的第二輸出特徵圖訓練所述感知損失模型。
在其他實施例中,所述第一訓練模組,用於採用下式訓練所述感知損失模型:
其中,表示第i個訓練樣本的梯度,F W 表示像素級損失模型,表示第i個訓練樣本的梯度經過像素級損失模型的輸出結果;表示第i個訓練樣本的風格化的參考圖像的梯度;ψ j ( )表示感知損失模型採用感知損失模型時的第j層卷積層的輸出特徵圖,C j H j W j 別表示第j層卷積層對應的特徵圖的通道數、高和寬。
在其他實施例中,所述訓練單元包括:
第二確定模組,用於確定訓練樣本的梯度;第二輸入模組,用於將所述訓練樣本的梯度作為所述像素級損失模型的輸入,從所述像素級損失模型獲得樣本輸出結果;第三確定模組,用於確定所述訓練樣本對應的風格化的參考圖像的梯度;第二訓練模組,用於根據所述參考圖像的梯度和樣本輸出結果訓練所述像素級損失模型。
在其他實施例中,所述像素級損失模型包括第一卷積層集合、上採樣層和第二卷積層集合,所述第二訓練模組包括:第一輸入子模組,用於將所述訓練樣本的梯度輸入到所述第一卷積層集合,得到樣本特徵圖;上採樣子模組,用於將所述樣本特徵圖輸入到所述上採樣層,上採樣至所述初始圖像的像素尺寸;第二輸入子模組,用於將上採樣後的樣本特徵圖輸入到所述第二卷積層集合,得到樣本輸出結果。
在其他實施例中,所述第二訓練模組,用於根據每一訓練樣本的與對應的之差的絕對值訓練所述像素級損失模型;其中,表示第i個訓練樣本的梯度,F W 表示像素級損失模型,表示第i個訓練樣本的梯度經過像素級損失模型F W 的輸出結果;表示第i個訓練樣本的風格化的參考圖像的梯度。
在其他實施例中,所述第二訓練模組,用於採用下式訓練所述像素級損失模型:
其中,表示第i個訓練樣本的梯度,F W 表示像素級損失模型,表示第i個訓練樣本的梯度經過像素級損失模型F W 的輸出結果;表示第i個訓練樣本的風格化的參考圖像的梯度,D表示訓練樣本集合中的樣本數。
在其他實施例中,所述重構單元,用於將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,作為所述風格圖像;其中,所述風格圖像與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件,包括:所述風格圖像與所述初始圖像的結構差異程度小於相似度閾值,或者,所述風格圖像與所述初始圖像的結構差異程度最小,其中,結構差異程度為梯度域上的風格圖像與所述初始圖像的在梯度域上的特徵圖在至少一個參考方向的變化趨勢。
在其他實施例中,所述重構單元,用於:根據進行圖像重構,得到風格圖像;其中:表示所述初始圖像在x方向的梯度,表示所述初始圖像在x方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示所述初始圖像在y方向的梯度,表示所述初始圖像在y方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示風格圖像在x方向的梯度,表示風格圖像在y方向的梯度。
在其他實施例中,所述重構單元,用於根據所述初始圖像的顏色資訊和所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
在其他實施例中,所述重構單元,用於將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,且將與所述初始圖像滿足顏色相似度條件的圖像,作為所述風格圖像。
在其他實施例中,所述裝置還包括:提取單元,用於對所述初始圖像進行特徵提取,得到所述初始圖像中的人臉區域;
對應地,所述重構單元,用於將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,且將與所述初始圖像中的人臉區域滿足顏色相似度條件的圖像,作為所述風格圖像。
在其他實施例中,所述重構單元,用於根據進行圖像重構,得到風格圖像;其中:I表示初始圖像,S表示風格圖像,表示所述初始圖像在x方向的梯度,表示所述初始圖像在x方向的梯度經過所述圖像風格轉換模型的存梯度域上的特徵圖,表示所述初始圖像在y方向的梯度,表示所述初始圖像在y方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示風格圖像在x方向的梯度,表示風格圖像在y方向的梯度。
在其他實施例中,所述獲得單元,包括:第四確定模組,用於確定所述初始圖像在至少一個參考方向的梯度;獲得模組,用於將在至少一個參考方向的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型對應獲得初始圖像在至少一個參考方向的在梯度域上的特徵圖;對應地,所述重構單元,用於根據在至少一個參考方向的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
在其他實施例中,所述至少一個參考方向包括在平面參考坐標系中的x、y方向上,對應地,
確定單元,用於確定所述初始圖像分別在x、y方向上的梯度;所述獲得單元,用於分別將在x、y方向上的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型對應獲得初始圖像在x、y方向上的在梯度域上的特徵圖;對應地,所述重構單元,用於根據在x、y方向上的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
本發明實施例提供一種電腦設備,包括記憶體和處理器,所述記憶體儲存有可在處理器上運行的電腦程式,所述處理器執行所述程式時上述圖像風格轉換方法中的步驟。
本發明實施例提供一種電腦可讀儲存介質,其上儲存有電腦程式,該電腦程式被處理器執行時實現上述圖像風格轉換方法中的步驟。
本發明實施例提供一種電腦程式產品,所述電腦程式產品包括電腦可執行指令,該電腦可執行指令被執行後,能夠實現上述圖像風格轉換方法中的步驟。
本發明實施例提供的圖像風格轉換方法及裝置、設備、儲存介質,其中,獲取待進行風格轉換的初始圖像;將所述初始圖像的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型獲得所述初始圖像的在梯度域上的特徵圖;所述圖像風格轉換模型是在梯度域基於像素級損失和感知損失訓練得到;根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像;如此,通過在梯度域基於像素級損失和感知損失訓練得到的圖像風格轉換模型,能夠克服相關技術中人臉的邊緣變形和顏色不一致的缺點,能夠在實現圖像風格轉換的同時,對輸入的初始圖像進行美化和增強。
11:電子設備
1N:電子設備
12:電子設備
21:網路
31:伺服器
51:卷積神經網路
52:VGG-16網路(第二卷積神經網路)
53:網路部分
501:輸入層
502:特徵圖
511:上採樣層輸入
512:上採樣層輸入
51C:上採樣層輸入
521:上採樣圖像
522:上採樣圖像
52C:上採樣圖像
531:合成層
541:輸出層輸出
600:裝置
601:獲取單元
602:獲得單元
603:重構單元
700:電腦設備
701:處理器
702:通信介面
703:記憶體
圖1為本發明實施例網路架構的組成結構示意圖;圖2A為本發明實施例圖像風格轉換方法的實現流程示意圖;圖2B為本發明實施例的下載場景示意圖;圖3A為本發明實施例的實施場景示意圖一;圖3B為本發明實施例的實施場景示意圖二;圖4A為本發明實施例的實施場景示意圖三;圖4B為本發明實施例的實施場景示意圖四;
圖5A為本發明實施例提供的卷積神經網路模型的組成結構示意圖;圖5B為本發明實施例像素級損失模型的組成結構示意圖;圖6為本發明實施例圖像風格轉換裝置的組成結構示意圖;圖7為本發明實施例中電腦設備的一種硬體實體示意圖。
使用神經網路的方法生成風格圖的過程一般是這樣的:利用神經網路模型例如VGG16模型或VGG19,對一張原圖(Content Image)和一張風格圖像(Style Image)分別進行圖像特徵提取,即對原圖提取內容特徵,對風格圖提取風格特徵。通過利用對內容特徵和風格特徵構造損失函數,對一張隨機初始化圖像進行損失值計算並回饋重繪圖像得到生成圖(Generated Image),這張生成圖在內容上會與原圖相似,在風格上會與風格圖像相似。但是這個演算法每一次生成一張圖像都需要進行一次訓練,需要耗費的時間比較長。
基於快速風格轉移演算法,訓練一個網路,對於任意一張圖像都可以轉換成為網路對應的風格,所以每次生成一張圖像僅僅是前向傳播一次網路,速度會很快。
快速轉移演算法一般包含兩個網路:一個為圖像轉換網路(Image Transform Network),一個為損失網路(Loss Network)。圖像轉換網路用來對圖像進行轉換,它的參數是變化的,而損失網路的參數是保持不變的,可以用在ImageNet圖像庫訓練好的VGG-16網路作為損失網路,原圖經過圖像轉換網路的結果圖、風格圖和原圖這3張圖都通過損失網路,對其提取感知損失(Perceptual Loss),利用感知損失來對圖像轉換網路進行訓練。在訓練階段利用大量圖像對圖像轉換網路進行訓練得到模型,在輸出階段套用模型進行輸出得到生成圖,這樣得出的網路相對Gatys的模型得到生成圖的速度快上三個數量級。
但是,目前的技術並沒有對人臉照片的風格轉換進行優化,例如:現有的方法應用到自拍圖像上時,普遍存在兩個明顯的缺點:1)人臉的邊緣可能會偏離與原始的圖像,即輸出圖像的結構資訊發生變化;2)人臉的膚色可能與原始的膚色不一致,即輸出圖像的顏色資訊發生變化。這樣導致一個後果就是,在風格化之後,會讓用戶覺得不像是本人,例如初始圖像中使用者A的人像是圓臉,經過風格化之後,輸出的風格圖像中使用者A的人像是錐子臉;再如,用戶B的皮膚白皙,風格化之後,輸出的風格圖像的使用者B的皮膚黝黑。即如何更好地保持原初始圖像的結構資訊和顏色資訊成為需要解決的問題。
為了解決目前技術中的問題,本發明實施例提出了一種完全基於圖像梯度域的圖像風格轉換的卷積神經網路(Convolutional Neural Networks,CNN)結構;由於梯度域學習的保邊性,使得本實施例提供的圖像風格轉換網路可以克服以前方法的邊緣形變的缺點。
本發明實施例中,在圖像風格轉換的圖像重構階段,引入了稱為顏色置信度(color confidence)的術語來保持結果圖像皮膚顏色上的逼真性。圖像重構階段既利用了原圖的結構資訊,也利用了原圖的顏色資訊,這樣可以使得結果更為自然。
本發明實施例中,首次直接在梯度域使用感知損失(perceptual loss),使得學習到的風格資訊更聚焦在筆劃上而不是顏色上,使得其更適合與人臉的風格轉換任務。
為了更好地理解本發明的各實施例,現對有關名詞進行解釋:
採樣操作,通常採樣操作指的是下採樣(subsampled)操作或降採樣(down-sampled),如果採樣物件是連續信號,那麼連續信號經過下採樣操作之後,得到的是離散信號。對於圖像來說,下採樣操作的目的可能是為了在計算上比較方便而縮小圖像。下採樣操作的原理:對於一幅圖像I尺寸為
M*N,對其進行s倍下採樣,即得到(M/s)*(N/s)尺寸的得解析度圖像,當然s應該是M和N的公約數才行,如果考慮的是矩陣形式的圖像,就是把原始圖像s*s視窗內的圖像變成一個像素,這個像素點的值就是視窗內所有像素的均值。
上採樣操作,是下採樣操作的逆過程,也稱增取樣(Up-sampling)或內插(Interpolating)。對於圖像而言,經過上採樣操作可以得到高解析度的圖像。上採樣操作的原理:圖像放大幾乎都是採用內插值方法,即在原有圖像像素的基礎上在像素點之間採用合適的插值演算法插入新的像素。
通道(channel),該詞語有兩種不同的含義,第一種是對於樣本圖像(圖像作為訓練樣本),通道是指顏色通道(Number of color channels in the example images),下面將用顏色通道來表示樣本圖像的通道;第二種是輸出空間的維數,例如卷積操作中輸出通道的個數(The dimensionality of the output space,i.e.the number of output channels(filters)in the convolution),或者說每個卷積層中卷積核的數量。
顏色通道,把圖像分解成一個或多個顏色成分或顏色分量。
單顏色通道,一個像素點只需一個數值表示,只能表示灰度,0為黑色。
三顏色通道,如果採用紅綠藍(Red Green Blue,RGB)色彩模式,把圖像分為紅綠藍三個顏色通道,可以表示彩色,全0表示黑色。
四顏色通道,在RGB色彩模式的基礎上加上alpha通道,表示透明度,alpha=0表示全透明。
卷積神經網路,是一種多層的監督學習神經網路,隱含層的卷積層和池採樣層是實現卷積神經網路特徵提取功能的核心模組。卷積神經網路的低隱層是由卷積層和最大池採樣層交替組成,高層是全連接層對應傳統多層感知器的隱含層和邏輯回
歸分類器。第一個全連接層的輸入是由卷積層和子採樣層進行特徵提取得到的特徵圖像。最後一層輸出層是一個分類器,可以採用邏輯回歸,Softmax回歸甚至是支援向量機對初始圖像進行分類。CNN中每一層的由多個map組成,每個map由多個神經單元組成,同一個map的所有神經單元共用一個卷積核(即權重),卷積核往往代表一個特徵,比如某個卷積核代表一段弧,那麼把這個卷積核在整個圖像上卷積一遍,卷積值較大的區域就很有可能是一段弧。CNN一般採用卷積層與採樣層交替設置,即一層卷積層接一層採樣層,採樣層後接一層卷積;當然也可以多個卷積層接一個採樣層,這樣卷積層提取出特徵,再進行組合形成更抽象的特徵,最後形成對圖像物件的描述特徵,CNN後面還可以跟全連接層。
卷積神經網路結構包括卷積層、降採樣層和全連接層。每一層有多個特徵圖,每個特徵圖通過一種卷積濾波器提取輸入的一種特徵,每個特徵圖有多個神經元。
卷積層,使用卷積層的原因是卷積運算的一個重要特點是,通過卷積運算,可以使原信號特徵增強,並且降低噪音。
降採樣層,使用降採樣的原因是,根據圖像局部相關性的原理,對圖像進行子採樣可以減少計算量,同時保持圖像旋轉不變性。
全連接層,採用softmax全連接,得到的啟動值即卷積神經網路提取到的圖像特徵。
啟動函數,神經元是一個多層感知機的基本單元,它的函數就成為啟動傳輸。即對於一個神經元來說,輸入是部分或全部的卷積神經網路的輸入或部分或全部的前一層的輸出,經過啟動函數的計算,得出的結果作為神經元的輸出結果。常用的啟動函數有sigmoid函數、tanh函數、線性整流函數(Rectified Linear Unit,ReLu)。
像素級損失(Pixel-wise Loss),假設Iest是卷積神經網路的輸出結果,IHR是原始高解析度圖像,那麼pixel-wiseloss強調的是兩幅圖像Iest和IHR之間每個對應像素的匹配,這與人眼的感知結果有所區別。一般來說,通過pixel-wise loss訓練的圖像通常會較為平滑,缺少高頻資訊。
感知損失(Perceptual Loss),假設Iest表示卷積神經網路的輸出結果,IHR表示原始高解析度圖像,將Iest和IHR分別輸入到一個可微分的函數Φ中,這樣避免了要求網路輸出圖像與原始高解析度圖像在pixel-wise上的一致。
VGG模型,VGG模型結構簡單有效,前幾層僅使用3×3卷積核來增加網路深度,通過最大池化(max pooling)依次減少每層的神經元數量,最後三層分別是2個有4096個神經元的全連接層和一個softmax層。“16”和“19”表示網路中的需要更新需要權重(即weight,要學習的參數)的網路層數,VGG16模型和VGG19模型的權重都由ImageNet訓練而來。
模型參數,一般可以理解為模型內部的配置變數,可以用歷史資料或訓練樣本估計模型參數的值,或者說,模型參數是可以通過歷史資料或訓練樣本自動學習出的變數。在某種程度上,模型參數有以下特徵:進行模型預測時需要模型參數;模型參數值可以定義模型功能;模型參數用資料估計或資料學習得到;模型參數一般不由實踐者手動設置;模型參數通常作為學習模型的一部分保存;通常使用優化演算法估計模型參數,優化演算法是對參數的可能值進行的一種有效搜索。在人工神經網路中,網路模型的權重、偏差一般稱為模型參數。
模型超參數,一般可以理解為模型外部的配置,其值不能從資料估計得到。在某種程度上,模型超參數特徵有:模型超參數常應用於估計模型參數的過程中;模型超參數通常由實踐者直接指定;模型超參數通常可以使用啟發式方法來設置;模型超參數通常根據給定的預測建模問題而調整。換句話說,模型超參數就是用來確定模型的一些參數,超參數不同,模型是不同的。這個模型不同的意思就是有微小的區別,比如假設都是CNN模型,如果層數不同,模型不一樣,雖然都是CNN模型哈。在深度學習中,超參數有:學習速率、反覆運算次數、層數、每層神經元的個數等等。
下面結合附圖和實施例對本發明的技術方案進一步詳細闡述。
本實施例先提供一種網路架構,圖1為本發明實施例網路架構的組成結構示意圖,如圖1所示,該網路架構包括兩個或多個電子設備11至1N和伺服器31,其中電子設備11至1N與伺服器31之間通過網路21進行交互。電子設備在實現的過程中可以為各種類型的具有資訊處理能力的電腦設備,例如所述電子設備可以包括手機、平板電腦、桌上型電腦、個人數位助理、導航儀、數位電話、電視機等。
本實施例提出一種圖像風格轉換方法,能夠有效解決輸出圖像的結構資訊與初始圖像相比發生變化的問題,該方法應用於電子設備,該方法所實現的功能可以通過電子設備中的處理器調用程式碼來實現,當然程式碼可以保存在電腦儲存介質中,可見,該電子設備至少包括處理器和儲存介質。
圖2A為本發明實施例圖像風格轉換方法的實現流程示意圖,如圖2A所示,該方法包括:
步驟S201,獲取待進行風格轉換的初始圖像;本實施例提供的圖像風格轉換方法在實現的過程中可以通過用戶端(應用程式)來體現。參見圖2B所示,使用者在自己上的
電子設備12上從伺服器31下載用戶端,例如,電子設備12向伺服器31發送下載請求,該下載請求用於下載用戶端,伺服器31回應該下載請求,伺服器31向電子設備12發送下載回應,該下載回應中攜帶有用戶端,例如安卓系統時的安卓應用包(Android Package,APK)然後使用者在自己的電子設備上安裝下載的用戶端,然後電子設備運行用戶端,即電子設備可以實現本實施例提供的圖像風格轉換方法。
如果步驟S201是在電子設備側實現,那麼實現過程可以是這樣的:當使用者從相冊中選擇一張圖片,用戶端接收使用者的選擇圖片的操作,即用戶端將選擇的圖片確定為待進行風格轉換的初始圖像;或者,使用者用電子設備的相機或外置相機拍攝一張照片,用戶端接收用戶拍攝照片的操作,即用戶端將拍攝的照片確定為待進行風格轉換的初始圖像。本領域的技術人員應當理解,該步驟還可以有其他的實施方式。
步驟S202,將所述初始圖像的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型獲得所述初始圖像的在梯度域上的特徵圖;這裡,所述圖像風格轉換模型是經過訓練的,並且在梯度域基於像素級損失和感知損失訓練得到。在其他實施例中,所述圖像風格轉換模型是通過在梯度域將像素級損失和感知損失作為訓練目標而得到的。
步驟S203,根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
其中風格圖像,是重構的進行風格化的圖像。
在實現的過程中,經過訓練的圖像風格轉換模型可以在電子設備的本地,也可以是在伺服器端。當經過訓練的圖像風格轉換模型在電子設備本地時,可以是電子設備安裝用戶端的時候,即安裝了經過訓練的圖像風格轉換模型,這樣,參見圖3A所示,電子設備通過步驟S201獲得初始圖像,然後通過步驟S202
獲得所述初始圖像的在梯度域上的特徵圖(即輸出結果),最後通過步驟S203獲得輸出的風格圖像。從以上過程可以看出,電子設備在安裝完用戶端之後,上述的步驟S201至步驟S203都在電子設備本地執行,最後,電子設備將得到的風格圖像輸出給使用者。
在其他的實施例中,經過訓練的圖像風格轉換模型也可以位於伺服器端,參見圖3B所示,這樣電子設備將初始圖像發送給伺服器,這樣伺服器接收電子設備發送的初始圖像,這樣伺服器實現了步驟S201,換句話說,如果上述的方法是在伺服器端實現,那麼步驟S201,包括:伺服器接收電子設備發送的初始圖像,即伺服器獲取待進行風格轉換的初始圖像,然後伺服器通過步驟S202獲得所述初始圖像的在梯度域上的特徵圖,最後通過步驟S203獲得輸出的風格圖像;從以上過程可以看出,上述的步驟S201至步驟S203都在伺服器端執行,最後伺服器還可以將風格圖像發送給電子設備,這樣電子設備接收到風格圖像後,輸出風格圖像給使用者。本實施例中,電子設備在安裝完用戶端之後,用戶上傳使用者的初始圖像,以及接收伺服器發送的風格圖像,並將風格圖像輸出給使用者。
在其他的實施例中,上述的步驟S201至步驟S203還可以有部分是由電子設備來完成的,也可以有部分是由伺服器來完成,例如,參見圖4A,步驟S201和步驟S202可以由電子設備在本地來執行,然後電子設備將初始圖像的在梯度域上的特徵圖發送給伺服器,伺服器執行步驟S203之後,得到風格圖像,然後再將風格圖像發送給電子設備,由電子設備輸出風格圖像。又如,參見圖4B,步驟S201和步驟S202可以由伺服器來執行,伺服器將初始圖像的在梯度域上的特徵圖發送給電子設備,電子設備執行步驟S203之後,得到風格圖像,然後再將風格圖像輸出給使用者。
在其他的實施例中,所述方法還包括:訓練所述圖像風格轉換模型,其中,所述圖像風格轉換模型的訓練目標為總的損失L total最小,其中,L total採用下式來表示:
L total=αL feat +βL pixel;其中,所述L feat 表示感知損失,所述L pixel表示像素級損失,所述α和所述β的取值均為實數。所述α與所述β的比值大於10且小於10的五次方。本領域的例如,所述α的取值為10000,所述β的取值為1。本領域的技術人員應當理解,所述α與所述β的取值可以根據具體的應用場景而進行相應設置,本發明實施例對其取值不作限定。
在其他的實施例中,所述圖像風格轉換模型包括像素級損失模型和感知損失模型,其中,所述像素級損失模型是通過在梯度域將像素級損失最小作為訓練目標而得到的像素級損失模型,所述的感知損失模型是通過在梯度域訓練將感知損失最小作為訓練目標而得到的。
其中,所述像素級損失模型為像素級損失模型,且所述感知損失模型為感知損失模型時的訓練過程,包括:
步驟S12,將所述訓練樣本的梯度輸入所述像素級損失模型,從所述像素級損失模型獲得所述訓練樣本的樣本輸出結果;其中,將第i個訓練樣本I i 的梯度輸入所述像素級損失模型F W ,從像素級損失模型獲得訓練樣本的樣本輸出結果。
步驟S13,確定所述訓練樣本對應的風格化的參考圖像的梯度;其中,風格化的參考圖像可以為用現有的風格化演算法得到的令人不滿意的風格化參考圖片,那麼假設所述訓練樣本I i 對應的風格化的參考圖像為L(I i),那麼參考圖像的梯度為。
步驟S14,根據所述參考圖像的梯度在所述感知損失模型的第j層卷積層的第一輸出特徵圖,和根據樣本輸出結果在
所述感知損失模型的第j層卷積層的第二輸出特徵圖訓練所述感知損失模型。
其中,第j卷積層可以是卷積神經網路模型中的任意一層,當該卷積神經網路為VGG16時,第j卷積層可以為VGG16中的conv3-3層。
在其他的實施例中,所述像素級損失模型包括第一卷積層集合、上採樣層和第二卷積層集合,所述根據所述參考圖像的梯度和樣本輸出結果訓練所述像素級損失模型包括:將所述訓練樣本的梯度輸入到所述第一卷積層集合,得到樣本特徵圖;將所述樣本特徵圖輸入到所述上採樣層,上採樣至所述初始圖像的像素尺寸;將上採樣後的樣本特徵圖輸入到所述第二卷積層集合,得到樣本輸出結果。
在其他的實施例中,所述根據所述參考圖像的梯度在所述感知損失模型的第j層卷積層的第一輸出特徵圖,和根據樣本輸出結果在所述感知損失模型的第j層卷積層的第二輸出特徵圖,訓練所述感知損失模型,包括:採用下式訓練所述感知損失模型:
其中,表示第i個訓練樣本的梯度,F W 表示像素級損失模型,表示第i個訓練樣本的梯度經過像素級損失模型的輸出結果;表示第i個訓練樣本的風格化的參考圖像的梯度;ψ j ( )表示感知損失模型採用卷積神經網路模型時的第j層卷積層的輸出特徵圖,C j H j W j 別表示第j層卷積層對應的特徵圖的通道數、高和寬。
在其他的實施例中,當所述卷積神經網路模型採用VGG16時,第j層卷積層為conv3-3。
在其他的實施例中,所述像素級損失模型為像素級損失模型時的訓練過程包括:步驟S21,確定訓練樣本的梯度;步驟S22,將所述訓練樣本的梯度作為所述像素級損失模型的輸入,從所述像素級損失模型獲得樣本輸出結果;步驟S23,確定所述訓練樣本對應的風格化的參考圖像的梯度;步驟S24,根據所述參考圖像的梯度和樣本輸出結果訓練所述像素級損失模型。
其中,所述根據所述參考圖像的梯度和樣本輸出結果訓練所述像素級損失模型,包括:根據每一訓練樣本的與對應的之差的絕對值訓練所述像素級損失模型;其中,表示第i個訓練樣本的梯度,F W 表示像素級損失模型,表示第i個訓練樣本的梯度經過像素級損失模型F W 的輸出結果;表示第i個訓練樣本的風格化的參考圖像的梯度。
在其他的實施例中,所述根據每一訓練樣本的與對應的之差的絕對值訓練所述像素級損失模型,包括:採用下式訓練所述像素級損失模型:
其中,表示第i個訓練樣本的梯度,F W 表示像素級損失模型,表示第i個訓練樣本的梯度經過像素級損失模型的輸出結果;表示第i個訓練樣本的風格化的參考圖像的梯度,D表示訓練樣本集合中的樣本數。
在其他的實施例中,所述根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:
將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,作為所述風格圖像。
其中,所述風格圖像與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件,包括:所述風格圖像與所述初始圖像的結構差異程度小於相似度閾值或者,所述風格圖像與所述初始圖像的結構差異程度最小,其中,結構差異程度為梯度域上的風格圖像與所述初始圖像的在梯度域上的特徵圖在至少一個參考方向的變化趨勢。
其中,參考方向可以取圖像的在平面參考坐標系中的x、y方向,當然可以有其他更多的方向,或者只使用一個方向。差異程度可以採用差值或差值的絕對值或基於差值的各種數學變形運算(例如在x、y方向差值的絕對值的平方和,即,其中I表示初始圖像,S表示風格圖像,∥ ∥表示絕對值符號)。
在其他的實施例中,所述根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:根據進行圖像重構,得到風格圖像;其中:表示所述初始圖像在x方向的梯度,表示所述初始圖像在x方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示所述初始圖像在y方向的梯度,表示所述初始圖像在y方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示風格圖像在x方向的梯度,表示風格圖像在y方向的梯度。
在其他的實施例中,所述根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:根據所述初始圖像的顏色資訊和所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
其中,所述根據所述初始圖像的顏色資訊和所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,且將與所述初始圖像滿足顏色相似度條件的圖像,作為所述風格圖像。
在其他的實施例中,所述方法還包括:對所述初始圖像進行特徵提取,得到所述初始圖像中的人臉區域;對應地,所述根據所述初始圖像的顏色資訊和所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,且將與所述初始圖像中的人臉區域滿足顏色相似度條件的圖像,作為所述風格圖像。
其中顏色相似度條件,即顏色資訊滿足的顏色相似條件,即風格圖像與初始圖像的顏色的差異程度即小於設定值或最小,其中,顏色的差異程度採用待處理圖像與目標圖像的採樣點的顏色值的差值表示,即採用∥S-I∥表示,其中I表示初始圖像,S表示風格圖像。
本實施例中,為了不改變初始圖像的顏色或者人臉的臉色,因此設置了顏色相似度條件,其中,顏色相似度條件中可以整個初始圖像的顏色,也可以是初始圖像中人臉的顏色。
需要說明的是,上述兩個條件結構相似度條件和顏色相似度條件,從理論上可以單獨使用,即只使用一個條件來計算風格圖像;也可以同時採用兩個,同時分配對應的係數(權重),例如λ的取值為實數。
在其他的實施例中,所述將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,且將與所述初始圖像滿足顏色相似度條件的圖像,作為所述風格圖像,包括:
根據進行圖像重構,得到風格圖像;其中:I表示初始圖像,S表示風格圖像,表示所述初始圖像在x方向的梯度,表示所述初始圖像在x方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示所述初始圖像在y方向的梯度,表示所述初始圖像在y方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示風格圖像在x方向的梯度,表示風格圖像在y方向的梯度。
在其他的實施例中,所述將所述初始圖像的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型獲得初始圖像的在梯度域上的特徵圖,包括:步驟S31,確定所述初始圖像在至少一個參考方向的梯度;步驟S32,將在至少一個參考方向的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型對應獲得初始圖像在至少一個參考方向的在梯度域上的特徵圖;對應地,根據在至少一個參考方向的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
在其他的實施例中,所述至少一個參考方向包括在平面參考坐標系中的x、y方向上,對應地,所述確定所述初始圖像在至少一個參考方向的梯度,包括:確定所述初始圖像分別在x、y方向上的梯度;所述將在至少一個參考方向的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型對應獲得初始圖像在至少一個參考方向的在梯度域上的特徵圖,包括:分別將在x、y方向上的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型對應獲得初始圖像在x、y方向上的在梯度域上的特徵圖;對應地,所述根據在至少一個參考方向的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:根據在x、y方向上的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
下面分三階段來介紹本實施例的技術方案:第一階段先紹一下本發明實施例提供的卷積神經網路模型的結構,然後在第二階段介紹一下提供的卷積神經網路模型的訓練過程,接著在第三階段介紹一下利用訓練的卷積神經網路進行圖像重建的過程,即對初始圖像進行圖像風格轉換的方法。
第一階段:卷積神經網路模型的結構
圖5A為本發明實施例提供的卷積神經網路模型的組成結構示意圖,如圖5A所示,該卷積神經網路網路由兩部分構成:第一部分是要訓練的卷積神經網路51(第一卷積神經網路),其將自拍圖像的梯度作為輸入,後面接連續的卷積層和ReLu層,然後採用上採樣操作將特徵圖(feature map)上採樣至原圖大小,最後與藝術風格的參考圖像的梯度計算像素級損失(Pixel-wise Loss)Lpixel;其中,將自拍圖像的梯度作為輸入包括:將自拍圖像在x方向上的梯度和自拍圖像在y方向上的梯度分別作為卷積神經網路的輸入。
在卷積神經網路中,卷積層的每一個卷積濾波器重複的作用於整個感受野中,對輸入的自拍圖像進行卷積,卷積的結果構成了輸入的自拍圖像的特徵圖,這樣就提取出了自拍圖像的局部特徵。
卷積神經網路的一個特點就是:最大池化(max-pooling)採樣,它是一種非線性降採樣方法,從最大池化的數學公式可以看出,最大池化即對鄰域內特徵點取最大。在通過卷積獲取圖像特徵之後是利用這些特徵進行分類,在獲取圖像的卷積的特徵圖後,要通過最大池採樣方法對卷積特徵進行降維。將卷積特徵劃分為數個的不相交區域,用這些區域的最大(或平均)特徵來表示降維後的卷積特徵。最大池採樣方法的作用體現在兩個方面:(1)、它減小了來自上層隱藏層的計算複雜度;(2)、這些池化單元具有平移不變性,即使圖像有小的位移,提
取到的特徵依然會保持不變。由於增強了對位移的魯棒性,最大池採樣方法是一個高效的降低資料維度的採樣方法。
第二部分是在ImageNet中已經訓練好的VGG-16網路52(第二卷積神經網路),用來計算感知損失(perceptual loss)Lfeat。實際使用VGG-16的conv3-3層的輸出來計算感知損失。
最後,將第一部分的Lpixel和第二部分的Lfeat加在一起就是要計算的最終的總的目標函數(即總的損失L total)。
在一種實施例中,總的目標函數L total可以採用下面的公式(3-1)來計算。
L total=αL feat +βL pixel (3-1);其中,α和β的取值均為實數。例如,在訓練中可以將α和β分別設為整數。
下面簡單介紹一下圖像梯度,圖像梯度是描述圖像像素之間差異的一種方法,可以作為圖像的一種特徵表徵圖像。從數學角度而言,圖像梯度是指像素的一階導數,可以用下面的公式來表示圖像x方向的梯度和y方向的梯度:分別用下面的公式(3-2)和公式(3-3)來表示:
需要說明的是,計算圖像的梯度本身就有很多計算方法,只要能夠描述像素之間的差異即可,本領域的技術人員應當理解,計算圖像的梯度並不是一定用上述公式(3-2)和公式(3-3),事實上通常用的也是其它公式。例如,如果是疊加卷積操作來計算圖像梯度,那麼所使用的範本,通常為稱其為梯度運算元,常見的梯度運算元有Sobel運算元、Robinson運算元、Laplace運算元等。
第二階段:對第一部分的卷積神經網路的訓練過程
首先,確定訓練樣本,假設採集了D組訓練圖像(I 0 ,L(I 0)),(I 1 ,L(I 1)),......,(I D-1 ,L(I D-1)),其中I i 表示第i張原始圖像,L(I i)
表示對第i張原始圖像I i 採用現有的風格化演算法得到的令人不滿意的風格化參考圖像。
圖3中第一部分所計算的像素級損失Lpixel的定義如公式(4-1)所示:
公式(4-1)中,表示第i張原始圖像I i 在x方向的梯度或梯度表示,表示y方向的梯度或梯度表示。表示原始圖像的梯度,表示原始圖像I i 的在x方向上的梯度,表示原始圖像I i 的在y方向上的梯度。F W 表示第一部分的卷積神經網路模型,所以表示第i張原始圖像I i 的梯度經過卷積神經網路網路的結果,表示第i張原始圖像I i 在x方向上的梯度經過卷積神經網路網路的結果,表示第i張原始圖像I i 在y方向上的梯度經過卷積神經網路網路的結果。表示第i張原始圖像I i 的風格化參考圖像的梯度,表示第i張原始圖像I i 的風格化參考圖像在x方向上的梯度,表示第i張原始圖像I i 的風格化參考圖像在y方向上的梯度。
圖3中第二部分所計算的感知損失Lfeat的定義如公式(4-2)所示:
公式(4-2)中,ψ j ( )表示VGG-16網路的第j層卷積層的輸出特徵圖(feature map),C j 、H j 、W j 分別表示第j層卷積層對應的特徵圖的通道數、高和寬。
總的目標函數是感知損失Lfeat與像素級損失Lpixel二者的和;L total=αL feat +βL pixel (4-3);
公式(4-3)中,α和β的取值均為實數。例如,在訓練中可以將α和β分別設為整數。
在訓練中將α和β分別設為了10000和1,用英偉達的Titan X GPU進行了100K次的反覆運算,使用adam優化方法來對目標函數公式3進行優化,前50K次反覆運算,將學習率設為10-8,後50K次,將學習率設為10-9。
需要說明的是,本領域的技術人員在實施的過程中,可以對公式(4-1)和公式(4-2)進行一些修改。對公式(4-1),只要這些修改能夠表示出像素級損失即可,例如,將公式(4-1)中的修改為別的數值,例如或等等,將將公式(4-1)中的絕對值的平方修改為絕對值,或者,將將公式(4-1)中的絕對值的平方修改為絕對值的平方根。
第三階段、圖像重建過程
當新輸入一張圖像,如新的自拍圖像,為得到其對應的風格圖像,採用如下的公式(5)來確定輸出的風格化的圖像。
表示自拍圖像x方向的梯度,表示自拍圖像x方向的梯度經過訓練好的模型的輸出,同樣的是自拍圖像y方向的梯度,表示自拍圖像y方向的梯度經過訓練好的模型的輸出,表示風格圖像x方向的梯度,表示風格圖像y方向的梯度。
在實施的過程中,λ取10。通過對上式進行優化,即可得到S,即新的自拍圖像的風格圖像。
從以上實施例可以看出,本實施例實現了一種面向自拍的圖像風格轉換演算法,克服了之前的風格轉換方法應用到人臉上時的兩個重要缺點:一,人臉邊緣的變形;二,人臉膚色的不一致。本實施例的神經網路結構完全是在梯度域進行學習。相比於其他的圖像風格轉換方法,本方法在自拍照片的風格轉換,會克服之前方法邊緣形變和顏色不一致的缺點,能夠在實現圖像風格轉換的同時,對圖像進行美化和增強。
在其他的實施例中,第一部分是要訓練的卷積神經網路51(第一卷積神經網路)可以採用如圖5B的卷積神經網路,圖5B為本發明實施例卷積神經網路模型的組成結構示意圖,如圖5B所示,該模型的結構包括:
輸入層(input)501,自拍圖像在x或y方向上的梯度作為輸入;需要說明的是,h表示自拍圖像在x或y方向上的梯度的高(high),w表示自拍圖像在x或y方向的梯度的寬(width)。對於一幅自拍圖像I來說,對自拍圖像I在x方向上求梯度得到和對自拍圖像I在y方向上求梯度得到,然後將和的每一個顏色通道(或顏色分量)作為輸入。如果採用RGB(Red Green Blue,紅綠藍)色彩模型,則有三個顏色通道;對應地,對於一幅自拍圖像來說,就有6個輸入,分別是在R顏色通道、在G顏色通道和在B顏色通道,在R顏色通道、在G顏色通道和在B顏色通道。
conv1+ReLu1層、conv2+ReLu2層、conv3+ReLu3層、conv4+ReLu4層、conv5+ReLu5層、conv6+ReLu6層和conv7+ReLu7層;經過卷積層和ReLu層後,輸出的結果是一個特徵圖502,該特徵圖502的高為,該特徵圖502的寬為,該特徵圖502的通道數為c,其中,r是係數,r和c的取值與本實施例中的卷積神經網路模型的模型超參數有關,在本實施例中,模型超參數包括卷積核的大小(size)、卷積核的移動步長(stride)、輸入特徵圖補的資料(padding)。一般來說,卷積核的個數決定輸出特徵圖的通道數c。
上採樣層,輸入為511至51C,輸出為521至52C。
將輸出的特徵圖按照通道數c拆解開,這樣得到c個特徵圖511至51C,對511至51C中的每一個特徵圖上採樣至初始圖像的大小。在輸入層501中提到初始圖像即自拍圖像,自拍圖像的大小為h*w,那麼上採樣層輸出的上採樣圖像的大小521至52C也為h*w。在上採樣層中,輸入511對應的輸出為521,輸入512對應的輸出為522,以此類推,輸入51C對應的輸出為52C。
合成層531,輸入為521至52C,輸出為531;
將上採樣圖像521至52C進行合併,得到特徵圖531;輸出層,輸入為531,輸出為541;對特徵圖531進行卷積和激勵,即先後輸入到conv8、ReLu8和conv9,最終得到輸出541,輸出541的大小為原圖的大小h*w。
需要說明的是,圖5B所示的卷積神經網路模型可以用於替換圖5A中網路部分53。在本實施例中,在上採樣之前的卷積過程有7層,分別為conv1至conv7,在上採樣之前的激勵過程也有7層,分別為ReLu1至ReLu7。其中,7層卷積層(conv1至conv7)可以認為是像素級損失模型的第一卷積層集合,當然,還可以將7層卷積層和7層激勵層(ReLu1至ReLu7)認為是像素級損失模型的第一卷積層集合。在上採樣之後的也有兩層卷積,分別為conv8和conv9;在上採樣之後還有一層的激勵過程,即激勵層ReLu8。其中,2層卷積層(conv8和conv9)可以認為是像素級損失模型的第二卷積層集合,當然,還可以將2層卷積層和1層激勵層(ReLu8)認為是像素級損失模型的第二卷積層集合。
本領域的技術人員應當理解的是,在上採樣之前的卷積層的層數(第一卷積層集合中卷積層的層數)可以有變化,例如採用5層,9層、10層或者幾十層,對應的,在上採樣之前的激勵層的層數(第一卷積層集合中激勵層的層數)也可以有變化,例如採用5層、6層、9層、15層等等。在實施例中,在上採樣之前,卷積層後面會跟隨一個激勵層,即上採樣之前,一個卷積層與一個激勵層是交替地,本領域的技術人員應當理解的是,上述卷積層與激勵層的交替層數也可以變化,例如兩個卷積層後跟隨一個激勵層,然後一個卷積層後跟隨兩個激勵層。本實施例中,激勵層採用的激勵函數為ReLu,在其他的實施例中,激勵層還可以採用其他的激勵函數,例如sigmoid函數。在圖5B所述的實施例中未表現出池化層,在其他的實施例中,還可以加入池化層。在上採樣之後,卷積層的層數(第二卷積層集合中卷積層的層數)、以及卷積層與激勵層的順序都是可以變化的。
基於前述的實施例,本發明實施例提供一種圖像風格轉換裝置,該裝置包括所包括的各單元、以及各單元所包括的各模組,可以通過電子設備中的處理器來實現;當然也可通過具體的邏輯電路實現;在實施的過程中,處理器可以為中央處理器(CPU)、微處理器(MPU)、數位訊號處理器(DSP)或現場可程式設計閘陣列(FPGA)等。
圖6為本發明實施例圖像風格轉換裝置的組成結構示意圖,如圖6所示,所述裝置600包括獲取單元601、獲得單元602和重構單元603,其中:獲取單元601,用於獲取待進行風格轉換的初始圖像;獲得單元602,用於將所述初始圖像的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型獲得所述初始圖像的在梯度域上的特徵圖;所述圖像風格轉換模型是在梯度域基於像素級損失和感知損失訓練得到;重構單元603,用於根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
在其他的實施例中,所述裝置還包括訓練單元,用於訓練所述圖像風格轉換模型,所述圖像風格轉換模型的訓練目標為總的損失L total最小,其中,L total採用下式來表示:L total=αL feat +βL pixel;其中,所述L feat 表示感知損失,所述L pixel表示像素級損失,所述α和所述β的取值均為實數。
在其他的實施例中,所述α與所述β的比值大於10且小於10的五次方。
在其他的實施例中,所述圖像風格轉換模型包括像素級損失模型和感知損失模型,其中,所述感知損失模型是通過在梯度域將像素級損失最小作為訓練目標而得到的像素級損失模型,所述感知損失模型是通過在梯度域訓練將感知損失最小作為訓練目標而得到的。
在其他的實施例中,所述訓練單元包括:第一輸入模組,用於將訓練樣本的梯度輸入所述像素級損失模型,從所述像素級損失模型獲得所述訓練樣本的樣本輸出結果;第一確定模組,用於確定所述訓練樣本對應的風格化的參考圖像的梯度;第一訓練模組,用於根據所述參考圖像的梯度在所述感知損失模型的第j層卷積層的第一輸出特徵圖,和根據樣本輸出結果在所述感知損失模型的第j層卷積層的第二輸出特徵圖訓練所述感知損失模型。
在其他的實施例中,所述第一訓練模組,用於採用下式訓練所述感知損失模型:
其中,表示第i個訓練樣本的梯度,F W 表示像素級損失模型,表示第i個訓練樣本的梯度經過像素級損失模型的輸出結果;表示第i個訓練樣本的風格化的參考圖像的梯度;ψ j ( )表示感知損失模型採用感知損失模型時的第j層卷積層的輸出特徵圖,C j H j W j 別表示第j層卷積層對應的特徵圖的通道數、高和寬。
在其他的實施例中,當所述感知損失模型採用VGG16時,第j層卷積層為conv3-3。
在其他的實施例中,所述訓練單元還包括:第二確定模組,用於確定訓練樣本的梯度;第二輸入模組,用於將所述訓練樣本的梯度作為所述像素級損失模型的輸入,從所述像素級損失模型獲得樣本輸出結果;第三確定模組,用於確定所述訓練樣本對應的風格化的參考圖像的梯度;第二訓練模組,用於根據所述參考圖像的梯度和樣本輸出結果訓練所述像素級損失模型。
在其他的實施例中,所述像素級損失模型包括第一卷積層集合、上採樣層和第二卷積層集合,所述根據所述參考圖像的梯度和樣本輸出結果訓練所述像素級損失模型包括:將所述訓練樣本的梯度輸入到第一卷積層集合,得到作為樣本特徵圖;將所述樣本特徵圖輸入到上採樣層,上採樣至所述初始圖像的像素尺寸;將上採樣後的樣本特徵圖輸入到第二卷積層集合,得到樣本輸出結果。
在其他的實施例中,所述第二訓練模組,用於根據每一訓練樣本的與對應的之差的絕對值訓練所述像素級損失模型;其中,表示第i個訓練樣本的梯度,F W 表示像素級損失模型,表示第i個訓練樣本的梯度經過像素級損失模型F W 的輸出結果;表示第i個訓練樣本的風格化的參考圖像的梯度。
在其他的實施例中,所述第二訓練模組,用於採用下式訓練所述像素級損失模型:
其中,表示第i個訓練樣本的梯度,F W 表示像素級損失模型,表示第i個訓練樣本的梯度經過像素級損失模型F W 的輸出結果;表示第i個訓練樣本的風格化的參考圖像的梯度,D表示訓練樣本集合中的樣本數。
在其他的實施例中,所述重構單元,用於將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,作為所述風格圖像。
在其他的實施例中,所述風格圖像與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件,包括:
所述風格圖像與所述初始圖像的結構差異程度小於相似度閾值或者,所述風格圖像與所述初始圖像的結構差異程度最小,其中,結構差異程度為梯度域上的風格圖像與所述初始圖像的在梯度域上的特徵圖在至少一個參考方向的變化趨勢。
在其他的實施例中,所述重構單元,用於:根據進行圖像重構,得到風格圖像;其中:表示所述初始圖像在x方向的梯度,表示所述初始圖像在x方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示所述初始圖像在y方向的梯度,表示所述初始圖像在y方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示風格圖像在x方向的梯度,表示風格圖像在y方向的梯度。
在其他的實施例中,所述重構單元,用於根據所述初始圖像的顏色資訊和所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
在其他的實施例中,所述重構單元,用於將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,且將與所述初始圖像滿足顏色相似度條件的圖像,作為所述風格圖像。
在其他的實施例中,所述裝置還包括:提取單元,用於對所述初始圖像進行特徵提取,得到所述初始圖像中的人臉區域;對應地,所述重構單元,用於將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,且將與所述初始圖像中的人臉區域滿足顏色相似度條件的圖像,作為所述風格圖像。
在其他的實施例中,所述重構單元,用於根據進行圖像重構,得到風格圖像;
其中:I表示初始圖像,S表示風格圖像,表示所述初始圖像在x方向的梯度,表示所述初始圖像在x方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示所述初始圖像在y方向的梯度,表示所述初始圖像在y方向的梯度經過所述圖像風格轉換模型的在梯度域上的特徵圖,表示風格圖像在x方向的梯度,表示風格圖像在y方向的梯度。
在其他的實施例中,所述獲得單元,包括:第四確定模組,用於確定所述初始圖像在至少一個參考方向的梯度;獲得模組,用於將在至少一個參考方向的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型對應獲得初始圖像在至少一個參考方向的在梯度域上的特徵圖;對應地,所述重構單元,用於根據在至少一個參考方向的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
在其他的實施例中,所述至少一個參考方向包括在平面參考坐標系中的x、y方向上,對應地,確定單元,用於確定所述初始圖像分別在x、y方向上的梯度;所述獲得單元,用於分別將在x、y方向上的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型對應獲得初始圖像在x、y方向上的在梯度域上的特徵圖;對應地,所述重構單元,用於根據在x、y方向上的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
以上裝置實施例的描述,與上述方法實施例的描述是類似的,具有同方法實施例相似的有益效果。對於本發明裝置實施例中未披露的技術細節,請參照本發明方法實施例的描述而理解。
需要說明的是,本發明實施例中,如果以軟體功能模組的形式實現上述的圖像風格轉換方法,並作為獨立的產品銷售或使用時,也可以儲存在一個電腦可讀取儲存介質中。基於這
樣的理解,本發明實施例的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存介質中,包括若干指令用以使得一台電腦設備(可以是個電子設備或伺服器等)執行本發明各個實施例所述方法的全部或部分。而前述的儲存介質包括:U盤、移動硬碟、唯讀記憶體(Read Only Memory,ROM)、磁碟或者光碟等各種可以儲存程式碼的介質。這樣,本發明實施例不限制於任何特定的硬體和軟體結合。
對應地,本發明實施例提供一種電腦設備,包括記憶體和處理器,所述記憶體儲存有可在處理器上運行的電腦程式,所述處理器執行所述程式時實現上述的圖像風格轉換方法中的步驟。
本發明實施例提供一種電腦可讀儲存介質,其上儲存有電腦程式,該電腦程式被處理器執行時上述的圖像風格轉換方法中的步驟。
本發明實施例提供一種電腦程式產品,所述電腦程式產品包括電腦可執行指令,該電腦可執行指令被執行後,能夠實現上述圖像風格轉換方法中的步驟。
這裡需要指出的是:以上儲存介質和設備實施例的描述,與上述方法實施例的描述是類似的,具有同方法實施例相似的有益效果。對於本發明儲存介質和設備實施例中未披露的技術細節,請參照本發明方法實施例的描述而理解。
需要說明的是,圖7為本發明實施例中電腦設備的一種硬體實體示意圖,如圖7所示,該電腦設備700的硬體實體包括:處理器701、通信介面702和記憶體703,其中
處理器701通常控制電腦設備700的總體操作。
通信介面702可以使電腦設備通過網路與其他終端或伺服器通信。
記憶體703配置為儲存由處理器701可執行的指令和應用,還可以緩存待處理器701以及電腦設備700中各模組待處理或已經處理的資料(例如,圖像資料、音訊資料、語音通信資料和視頻通信資料),可以通過快閃記憶體(FLASH)或隨機訪問記憶體(Random Access Memory,RAM)實現。
應理解,說明書通篇中提到的“一個實施例”或“一實施例”意味著與實施例有關的特定特徵、結構或特性包括在本發明的至少一個實施例中。因此,在整個說明書各處出現的“在一個實施例中”或“在一實施例中”未必一定指相同的實施例。此外,這些特定的特徵、結構或特性可以任意適合的方式結合在一個或多個實施例中。應理解,在本發明的各種實施例中,上述各過程的序號的大小並不意味著執行順序的先後,各過程的執行順序應以其功能和內在邏輯確定,而不應對本發明實施例的實施過程構成任何限定。上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。
需要說明的是,在本文中,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。
在本申請所提供的幾個實施例中,應該理解到,所揭露的設備和方法,可以通過其它的方式實現。以上所描述的設備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,如:多個單元或元件可以結合,或可以集成到另一個系統,或一些特徵可以忽略,或不執行。另外,所顯示或討論的各組成部分相互之間的
耦合、或直接耦合、或通信連接可以是通過一些介面,設備或單元的間接耦合或通信連接,可以是電性的、機械的或其它形式的。
另外,在本發明各實施例中的各功能單元可以全部集成在一個處理單元中,也可以是各單元分別單獨作為一個單元,也可以兩個或兩個以上單元集成在一個單元中;上述集成的單元既可以採用硬體的形式實現,也可以採用硬體加軟體功能單元的形式實現。
本領域普通技術人員可以理解:實現上述方法實施例的全部或部分步驟可以通過程式指令相關的硬體來完成,前述的程式可以儲存於電腦可讀取儲存介質中,該程式在執行時,執行包括上述方法實施例的步驟;而前述的儲存介質包括:移動存放裝置、唯讀記憶體(Read Only Memory,ROM)、磁碟或者光碟等各種可以儲存程式碼的介質。
或者,本發明上述集成的單元如果以軟體功能模組的形式實現並作為獨立的產品銷售或使用時,也可以儲存在一個電腦可讀取儲存介質中。基於這樣的理解,本發明實施例的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存介質中,包括若干指令用以使得一台電腦設備(可以是電子設備或者伺服器等)執行本發明各個實施例所述方法的全部或部分。而前述的儲存介質包括:移動存放裝置、ROM、磁碟或者光碟等各種可以儲存程式碼的介質。
以上所述,僅為本發明的實施方式,但本發明的保護範圍並不局限於此,任何熟悉本技術領域的技術人員在本發明揭露的技術範圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護範圍之內。因此,本發明的保護範圍應以所述請求項的保護範圍為準。
S201:確定待進行風格轉換的初始圖像
S202:將所述初始圖像的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型獲得所述初始圖像的在梯度域上的特徵圖
S203:根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像
Claims (18)
- 一種圖像風格轉換方法,包括:獲取待進行風格轉換的初始圖像;將所述初始圖像的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型獲得所述初始圖像的在梯度域上的特徵圖;所述圖像風格轉換模型是在梯度域基於像素級損失和感知損失訓練得到;根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像;其中,所述根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,作為所述風格圖像;其中,所述風格圖像與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件,包括:所述風格圖像與所述初始圖像的結構差異程度小於相似度閾值,或者,所述風格圖像與所述初始圖像的結構差異程度最小,其中,結構差異程度為梯度域上的風格圖像與所述初始圖像的在梯度域上的特徵圖在至少一個參考方向的變化趨勢。
- 根據請求項1所述的方法,所述方法還包括:訓練所述圖像風格轉換模型;其中,所述圖像風格轉換模型的訓練目標為總的損失L total最小,其中,L total採用下式來表示:L total=αL feat +βL pixel;其中,所述L feat 表示感知損失,所述L pixel表示像素級損失,所述α和所述β的取值均為實數。
- 根據請求項1所述的方法,所述圖像風格轉換模型包括像素級損失模型和感知損失模型,其中所述像素級損失模型是通過在梯度域將像素級損失最小作為訓練目標而得到的,所述 感知損失模型是通過在梯度域訓練將感知損失最小作為訓練目標而得到的。
- 根據請求項3所述的方法,所述像素級損失模型和所述感知損失模型的訓練過程包括:將訓練樣本的梯度輸入所述像素級損失模型,從所述像素級損失模型獲得所述訓練樣本的樣本輸出結果;確定所述訓練樣本對應的風格化的參考圖像的梯度;根據所述參考圖像的梯度在所述感知損失模型的第j層卷積層的第一輸出特徵圖,和根據樣本輸出結果在所述感知損失模型的第j層卷積層的第二輸出特徵圖,訓練所述感知損失模型。
- 根據請求項3所述的方法,所述像素級損失模型的訓練過程包括:將訓練樣本的梯度作為所述像素級損失模型的輸入,從所述像素級損失模型獲得樣本輸出結果;確定所述訓練樣本對應的風格化的參考圖像的梯度; 根據所述參考圖像的梯度和樣本輸出結果訓練所述像素級損失模型。
- 根據請求項4所述的方法,所述像素級損失模型包括第一卷積層集合、上採樣層和第二卷積層集合,所述根據所述參考圖像的梯度和樣本輸出結果訓練所述像素級損失模型包括:將所述訓練樣本的梯度輸入到所述第一卷積層集合,得到樣本特徵圖;將所述樣本特徵圖輸入到所述上採樣層,上採樣至所述初始圖像的像素尺寸;將上採樣後的樣本特徵圖輸入到所述第二卷積層集合,得到樣本輸出結果。
- 根據請求項1至9任一項所述的方法,所述根據所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:根據所述初始圖像的顏色資訊和所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
- 根據請求項11所述的方法,所述根據所述初始圖像的顏色資訊和所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,且將與所述初始圖像滿足顏色相似度條件的圖像,作為所述風格圖像。
- 根據請求項11所述的方法,所述方法還包括:對所述初始圖像進行特徵提取,得到所述初始圖像中的人臉區域;對應地,所述根據所述初始圖像的顏色資訊和所述初始圖像的在梯度域上的特徵圖進行圖像重構,得到風格圖像,包括:將與所述初始圖像的在梯度域上的特徵圖滿足結構相似度條件的圖像,且將與所述初始圖像中的人臉區域滿足顏色相似度條件的圖像,作為所述風格圖像。
- 根據請求項1至9任一項所述的方法,所述將所述初始圖像的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型獲得初始圖像的在梯度域上的特徵圖,包括:確定所述初始圖像在至少一個參考方向的梯度;將在至少一個參考方向的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型對應獲得初始圖像在至少一個參考方向的在梯度域上的特徵圖;對應地,根據在至少一個參考方向的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
- 根據請求項15所述的方法,所述至少一個參考方向包括在平面參考坐標系中的x、y方向上,對應地,確定所述初始圖像分別在x、y方向上的梯度;分別將在x、y方向上的梯度輸入到圖像風格轉換模型,從所述圖像風格轉換模型對應獲得初始圖像在x、y方向上的在梯度域上的特徵圖;對應地,根據在x、y方向上的在梯度域上的特徵圖進行圖像重構,得到風格圖像。
- 一種電腦儲存介質,所述電腦儲存介質上儲存有電腦可執行指令,該電腦可執行指令被執行後,能夠實現請求項1至16任一項所述圖像風格轉換方法中的步驟。
- 一種電腦設備,所述電腦設備包括記憶體和處理器,所述記憶體上儲存有電腦可執行指令,所述處理器執行所述程式時實現請求項1至16任一項所述圖像風格轉換方法中的步驟。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810917979.7A CN109308679B (zh) | 2018-08-13 | 2018-08-13 | 一种图像风格转换方法及装置、设备、存储介质 |
CN201810917979.7 | 2018-08-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202009800A TW202009800A (zh) | 2020-03-01 |
TWI749356B true TWI749356B (zh) | 2021-12-11 |
Family
ID=65223859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108128796A TWI749356B (zh) | 2018-08-13 | 2019-08-13 | 一種圖像風格轉換方法及設備、儲存介質 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11200638B2 (zh) |
JP (1) | JP6874168B2 (zh) |
CN (1) | CN109308679B (zh) |
SG (1) | SG11202000062RA (zh) |
TW (1) | TWI749356B (zh) |
WO (1) | WO2020034481A1 (zh) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018033137A1 (zh) * | 2016-08-19 | 2018-02-22 | 北京市商汤科技开发有限公司 | 在视频图像中展示业务对象的方法、装置和电子设备 |
CN109308679B (zh) * | 2018-08-13 | 2022-08-30 | 深圳市商汤科技有限公司 | 一种图像风格转换方法及装置、设备、存储介质 |
CN109766895A (zh) * | 2019-01-03 | 2019-05-17 | 京东方科技集团股份有限公司 | 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法 |
CN111583165B (zh) * | 2019-02-19 | 2023-08-08 | 京东方科技集团股份有限公司 | 图像处理方法、装置、设备及存储介质 |
CN110070482B (zh) * | 2019-03-14 | 2023-05-02 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置和计算机可读存储介质 |
EP3731154A1 (en) * | 2019-04-26 | 2020-10-28 | Naver Corporation | Training a convolutional neural network for image retrieval with a listwise ranking loss function |
CN111860823A (zh) * | 2019-04-30 | 2020-10-30 | 北京市商汤科技开发有限公司 | 神经网络训练、图像处理方法及装置、设备及存储介质 |
CN110232401B (zh) * | 2019-05-05 | 2023-08-04 | 平安科技(深圳)有限公司 | 基于图片转换的病灶判断方法、装置、计算机设备 |
CN110189246B (zh) * | 2019-05-15 | 2023-02-28 | 北京字节跳动网络技术有限公司 | 图像风格化生成方法、装置及电子设备 |
CN112561778A (zh) * | 2019-09-26 | 2021-03-26 | 北京字节跳动网络技术有限公司 | 图像风格化处理方法、装置、设备及存储介质 |
US11625576B2 (en) * | 2019-11-15 | 2023-04-11 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for image style transformation |
US11080833B2 (en) * | 2019-11-22 | 2021-08-03 | Adobe Inc. | Image manipulation using deep learning techniques in a patch matching operation |
KR102172644B1 (ko) * | 2020-01-13 | 2020-11-02 | (주)에스프레소미디어 | 스타일 변환 외부 연동 시스템, 그리고 스타일 변환 외부 연동 서버 |
CN111340905B (zh) * | 2020-02-13 | 2023-08-04 | 北京百度网讯科技有限公司 | 图像风格化方法、装置、设备和介质 |
CN113496238A (zh) * | 2020-03-20 | 2021-10-12 | 北京京东叁佰陆拾度电子商务有限公司 | 模型训练方法、点云数据风格化方法、装置、设备及介质 |
CN111494946B (zh) * | 2020-04-23 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN113570508A (zh) * | 2020-04-29 | 2021-10-29 | 上海耕岩智能科技有限公司 | 图像修复方法及装置、存储介质、终端 |
CN111652846B (zh) * | 2020-04-30 | 2022-08-16 | 成都数之联科技股份有限公司 | 一种基于特征金字塔卷积神经网络的半导体缺陷识别方法 |
CN111402143B (zh) * | 2020-06-03 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN111667401B (zh) * | 2020-06-08 | 2022-11-29 | 武汉理工大学 | 多层次渐变图像风格迁移方法及系统 |
CN111932445A (zh) * | 2020-07-27 | 2020-11-13 | 广州市百果园信息技术有限公司 | 对风格迁移网络的压缩方法及风格迁移方法、装置和系统 |
CN111986075B (zh) * | 2020-08-12 | 2022-08-09 | 兰州交通大学 | 一种目标边缘清晰化的风格迁移方法 |
CN112070668A (zh) * | 2020-08-18 | 2020-12-11 | 西安理工大学 | 一种基于深度学习和边缘增强的图像超分辨方法 |
CN112102154B (zh) * | 2020-08-20 | 2024-04-26 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
US20220121931A1 (en) * | 2020-10-16 | 2022-04-21 | Adobe Inc. | Direct regression encoder architecture and training |
CN112288622B (zh) * | 2020-10-29 | 2022-11-08 | 中山大学 | 一种基于多尺度生成对抗网络的伪装图像生成方法 |
CN112233041A (zh) * | 2020-11-05 | 2021-01-15 | Oppo广东移动通信有限公司 | 图像美颜处理方法、装置、存储介质与电子设备 |
CN112348739B (zh) * | 2020-11-27 | 2021-09-28 | 广州博冠信息科技有限公司 | 图像处理方法、装置、设备及存储介质 |
KR102573822B1 (ko) * | 2021-02-04 | 2023-09-04 | (주)비케이 | 벡터 이미지의 화풍 변환 및 재생 방법 |
US11195080B1 (en) * | 2021-03-29 | 2021-12-07 | SambaNova Systems, Inc. | Lossless tiling in convolution networks—tiling configuration |
CN113240576B (zh) * | 2021-05-12 | 2024-04-30 | 北京达佳互联信息技术有限公司 | 风格迁移模型的训练方法、装置、电子设备及存储介质 |
CN113344772B (zh) * | 2021-05-21 | 2023-04-07 | 武汉大学 | 一种用于地图艺术化的迁移模型的训练方法和计算机设备 |
CN113256750B (zh) * | 2021-05-26 | 2023-06-23 | 武汉中科医疗科技工业技术研究院有限公司 | 医疗图像风格重建方法、装置、计算机设备和存储介质 |
CN113052786B (zh) * | 2021-05-31 | 2021-09-03 | 北京星天科技有限公司 | 一种声呐图像合成方法和装置 |
CN113763233A (zh) * | 2021-08-04 | 2021-12-07 | 深圳盈天下视觉科技有限公司 | 一种图像处理方法、服务器及拍照设备 |
TWI779824B (zh) * | 2021-09-10 | 2022-10-01 | 瑞昱半導體股份有限公司 | 卷積神經網路的圖像處理方法與系統 |
US11989916B2 (en) * | 2021-10-11 | 2024-05-21 | Kyocera Document Solutions Inc. | Retro-to-modern grayscale image translation for preprocessing and data preparation of colorization |
CN114004905B (zh) * | 2021-10-25 | 2024-03-29 | 北京字节跳动网络技术有限公司 | 人物风格形象图的生成方法、装置、设备及存储介质 |
CN114818803A (zh) * | 2022-04-25 | 2022-07-29 | 上海韶脑传感技术有限公司 | 基于神经元优化的单侧肢体患者运动想象脑电建模方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360490A (zh) * | 2011-09-30 | 2012-02-22 | 北京航空航天大学 | 基于颜色转换和编辑传播的图像季节特征增强方法 |
TWI620441B (zh) * | 2015-03-27 | 2018-04-01 | 英特爾公司 | 即時影像擷取參數的機器學習之技術 |
US20180225828A1 (en) * | 2016-05-09 | 2018-08-09 | Tencent Technology (Shenzhen) Company Limited | Image processing method and processing system |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6064768A (en) * | 1996-07-29 | 2000-05-16 | Wisconsin Alumni Research Foundation | Multiscale feature detector using filter banks |
AUPS170902A0 (en) * | 2002-04-12 | 2002-05-16 | Canon Kabushiki Kaisha | Face detection and tracking in a video sequence |
US6862024B2 (en) * | 2002-04-17 | 2005-03-01 | Mitsubishi Electric Research Laboratories, Inc. | Enhancing textured range images using a 2D editor |
US8306366B2 (en) * | 2007-08-23 | 2012-11-06 | Samsung Electronics Co., Ltd. | Method and apparatus for extracting feature points from digital image |
US8009921B2 (en) * | 2008-02-19 | 2011-08-30 | Xerox Corporation | Context dependent intelligent thumbnail images |
US8705847B2 (en) * | 2011-09-30 | 2014-04-22 | Cyberlink Corp. | Method and system of two-dimensional to stereoscopic conversion |
US9208539B2 (en) * | 2013-11-30 | 2015-12-08 | Sharp Laboratories Of America, Inc. | Image enhancement using semantic components |
CN106415594B (zh) * | 2014-06-16 | 2020-01-10 | 北京市商汤科技开发有限公司 | 用于面部验证的方法和系统 |
US10147017B2 (en) * | 2014-06-20 | 2018-12-04 | Qualcomm Incorporated | Systems and methods for obtaining structural information from a digital image |
CN105719327B (zh) * | 2016-02-29 | 2018-09-07 | 北京中邮云天科技有限公司 | 一种艺术风格化图像处理方法 |
CN106780367B (zh) * | 2016-11-28 | 2019-11-15 | 上海大学 | 基于字典学习的hdr照片风格转移方法 |
US20180197317A1 (en) * | 2017-01-06 | 2018-07-12 | General Electric Company | Deep learning based acceleration for iterative tomographic reconstruction |
US10477200B2 (en) * | 2017-04-13 | 2019-11-12 | Facebook, Inc. | Panoramic camera systems |
CN107578367B (zh) * | 2017-04-25 | 2020-10-02 | 北京陌上花科技有限公司 | 一种风格化图像的生成方法及装置 |
CN107171932B (zh) * | 2017-04-27 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 一种图片风格转换方法、装置及系统 |
US10565757B2 (en) * | 2017-06-09 | 2020-02-18 | Adobe Inc. | Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images |
CN107277615B (zh) * | 2017-06-30 | 2020-06-23 | 北京奇虎科技有限公司 | 直播风格化处理方法、装置、计算设备及存储介质 |
CN107481185A (zh) * | 2017-08-24 | 2017-12-15 | 深圳市唯特视科技有限公司 | 一种基于视频图像优化的风格转换方法 |
AU2017101166A4 (en) * | 2017-08-25 | 2017-11-02 | Lai, Haodong MR | A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks |
TWM558943U (zh) | 2017-11-22 | 2018-04-21 | Aiwin Technology Co Ltd | 運用深度學習技術之智慧影像資訊及大數據分析系統 |
CN108280814B (zh) * | 2018-02-08 | 2021-08-31 | 重庆邮电大学 | 基于感知损失的光场图像角度超分辨率重建方法 |
US10783622B2 (en) * | 2018-04-25 | 2020-09-22 | Adobe Inc. | Training and utilizing an image exposure transformation neural network to generate a long-exposure image from a single short-exposure image |
CN109308679B (zh) * | 2018-08-13 | 2022-08-30 | 深圳市商汤科技有限公司 | 一种图像风格转换方法及装置、设备、存储介质 |
US10896534B1 (en) * | 2018-09-19 | 2021-01-19 | Snap Inc. | Avatar style transformation using neural networks |
US11310475B2 (en) * | 2019-08-05 | 2022-04-19 | City University Of Hong Kong | Video quality determination system and method |
-
2018
- 2018-08-13 CN CN201810917979.7A patent/CN109308679B/zh active Active
- 2018-11-23 WO PCT/CN2018/117293 patent/WO2020034481A1/zh active Application Filing
- 2018-11-23 SG SG11202000062RA patent/SG11202000062RA/en unknown
- 2018-11-23 JP JP2019569805A patent/JP6874168B2/ja active Active
-
2019
- 2019-08-13 TW TW108128796A patent/TWI749356B/zh active
- 2019-12-25 US US16/726,885 patent/US11200638B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360490A (zh) * | 2011-09-30 | 2012-02-22 | 北京航空航天大学 | 基于颜色转换和编辑传播的图像季节特征增强方法 |
TWI620441B (zh) * | 2015-03-27 | 2018-04-01 | 英特爾公司 | 即時影像擷取參數的機器學習之技術 |
US20180225828A1 (en) * | 2016-05-09 | 2018-08-09 | Tencent Technology (Shenzhen) Company Limited | Image processing method and processing system |
Also Published As
Publication number | Publication date |
---|---|
US20200134778A1 (en) | 2020-04-30 |
JP2020533660A (ja) | 2020-11-19 |
SG11202000062RA (en) | 2020-03-30 |
US11200638B2 (en) | 2021-12-14 |
CN109308679A (zh) | 2019-02-05 |
CN109308679B (zh) | 2022-08-30 |
TW202009800A (zh) | 2020-03-01 |
WO2020034481A1 (zh) | 2020-02-20 |
JP6874168B2 (ja) | 2021-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI749356B (zh) | 一種圖像風格轉換方法及設備、儲存介質 | |
US11501415B2 (en) | Method and system for high-resolution image inpainting | |
Lim et al. | DSLR: Deep stacked Laplacian restorer for low-light image enhancement | |
CN109949255B (zh) | 图像重建方法及设备 | |
EP3678059B1 (en) | Image processing method, image processing apparatus, and a neural network training method | |
JP7417640B2 (ja) | リアルタイム映像超高解像度 | |
Fan et al. | Unified implicit neural stylization | |
Fu et al. | A model-driven deep unfolding method for jpeg artifacts removal | |
Cao et al. | Image Super-Resolution via Adaptive $\ell _ {p}(0< p< 1) $ Regularization and Sparse Representation | |
US11704844B2 (en) | View synthesis robust to unconstrained image data | |
Ghorai et al. | Multiple pyramids based image inpainting using local patch statistics and steering kernel feature | |
CN113066017B (zh) | 一种图像增强方法、模型训练方法及设备 | |
US20230019851A1 (en) | Methods and systems for high definition image manipulation with neural networks | |
Hou et al. | Learning based image transformation using convolutional neural networks | |
CN111862294A (zh) | 基于ArcGAN网络的手绘3D建筑自动上色网络结构及方法 | |
Lepcha et al. | A deep journey into image enhancement: A survey of current and emerging trends | |
CN111797855A (zh) | 图像处理、模型训练方法、装置、介质和设备 | |
Zhu et al. | PNEN: Pyramid non-local enhanced networks | |
Jiang et al. | Fast and high quality image denoising via malleable convolution | |
Huang et al. | Hybrid image enhancement with progressive laplacian enhancing unit | |
Wei et al. | A-ESRGAN: Training real-world blind super-resolution with attention U-Net Discriminators | |
Puthussery et al. | Wdrn: A wavelet decomposed relightnet for image relighting | |
Xu et al. | An edge guided coarse-to-fine generative network for image outpainting | |
Li et al. | Convolutional Neural Network Combined with Half‐Quadratic Splitting Method for Image Restoration | |
Yu et al. | Staged Transformer Network with Color Harmonization for Image Outpainting |