TWI777162B - 圖像處理方法及裝置、電子設備和電腦可讀儲存媒體 - Google Patents
圖像處理方法及裝置、電子設備和電腦可讀儲存媒體 Download PDFInfo
- Publication number
- TWI777162B TWI777162B TW109115181A TW109115181A TWI777162B TW I777162 B TWI777162 B TW I777162B TW 109115181 A TW109115181 A TW 109115181A TW 109115181 A TW109115181 A TW 109115181A TW I777162 B TWI777162 B TW I777162B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- loss
- training
- reconstructed
- network
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims description 241
- 238000013528 artificial neural network Methods 0.000 claims description 121
- 230000011218 segmentation Effects 0.000 claims description 86
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 85
- 238000012545 processing Methods 0.000 claims description 79
- 238000003709 image segmentation Methods 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 34
- 230000009466 transformation Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 16
- 230000004927 fusion Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 10
- 210000004709 eyebrow Anatomy 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 210000004209 hair Anatomy 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
Abstract
一種圖像處理方法及裝置、電子設備和電腦可讀儲存媒體,該方法包括:獲取第一圖像;獲取該第一圖像的至少一個引導圖像,該引導圖像包括該第一圖像中的目標對象的引導信息;基於該第一圖像的至少一個引導圖像對該第一圖像進行引導重構,得到重構圖像。本發明可以提高重構圖像的清晰度。
Description
本發明是有關於一種電腦視覺技術領域,尤其是指一種圖像處理方法及裝置、電子設備和電腦可讀儲存媒體。
相關技術中,由於拍攝環境或者攝影設備的配置等因素,獲取的圖像中會存在品質較低的情況,通過這些圖像很難實現人臉檢測或者其他類型的目標檢測,通常可以通過一些模型或者算法來重建這些圖像。大部分重建較低像素的圖像的方法在有雜訊和模糊混入的情況下,難以恢復出清晰圖像。
因此,本發明的目的,即在提供一種圖像處理的技術方案。
於是,本發明提供了一種圖像處理方法,其包括:獲取第一圖像;獲取該第一圖像的至少一個引導圖像,該引導圖像包括該第一圖像中的目標對象的引導信息;基於該第一圖像的至少一個引導圖像對該第一圖像進行引導重構,得到重構圖像。基於上述配置,可以實現通過引導圖像執行第一圖像的重構,即使第一圖像屬於退化嚴重的情況,但由於引導圖像的融合,也能重建出清晰的重構圖像,而獲得更好的重構效果。
在一些可能的實施方式中,該獲取該第一圖像的至少一個引導圖像,包括:獲取該第一圖像的描述信息;基於該第一圖像的描述信息確定與該目標對象的至少一個目標部位匹配的引導圖像。基於上述配置,可以根據不同的描述信息得到不同目標部位引導圖像,而且基於描述信息可以提供更為精確的引導圖像。
在一些可能的實施方式中,該基於該第一圖像的至少一個引導圖像對該第一圖像進行引導重構,得到重構圖像,包括:利用該第一圖像中該目標對象的當前姿態,對該至少一個引導圖像執行仿射變換,得到該當前姿態下與該引導圖像對應的仿射圖像;基於該至少一個引導圖像中與該目標對象匹配的至少一個目標部位,從該引導圖像對應的仿射圖像中提取該至少一個目標部位的子圖像;基於提取的該子圖像和該第一圖像得到該重構圖像。基於上述配置,可以根據第一圖像中目標對象的姿態調整引導圖像中對象的姿態,從而使得引導圖像內與目標對象匹配的部位可以調整成目標對象的姿態形式,在執行重構時,能夠提高重構精度。
在一些可能的實施方式中,該基於提取的該子圖像和該第一圖像得到該重構圖像,包括:利用提取的該子圖像替換該第一圖像中與該子圖像中目標部位對應的部位,得到該重構圖像,或者對該子圖像和該第一圖像進行卷積處理,得到該重構圖像。基於上述配置,可以提供不同方式的重構手段,具有重構方便且精度高的特點。
在一些可能的實施方式中,該基於該第一圖像的至少一個引導圖像對該第一圖像進行引導重構,得到重構圖像,包括:對該第一圖像執行超解析度圖像重建處理,得到第二圖像,該第二圖像的解析度高於該第一圖像的解析度;利用該第二圖像中該目標對象的當前姿態,對該至少一個引導圖像執行仿射變換,得到該當前姿態下與該引導圖像對應的仿射圖像;基於該至少一個引導圖像中與該對象匹配的至少一個目標部位,從該引導圖像對應的仿射圖像中提取該至少一個目標部位的子圖像;基於提取的該子圖像和該第二圖像得到該重構圖像。基於上述配置,可以經由超解析度圖像重建處理提高該第一圖像的清晰度,得到第二圖像,再根據第二圖像執行引導圖像的仿射變化,由於第二圖像的解析度高於第一圖像,在執行仿射變換以及後續的重構處理時,可以進一步提高重構圖像的精度。
在一些可能的實施方式中,該基於提取的該子圖像和該第二圖像得到該重構圖像,包括:利用提取的該子圖像替換該第二圖像中與該子圖像中目標部位對應的部位,得到該重構圖像,或者基於該子圖像和該第二圖像進行卷積處理,得到該重構圖像。基於上述配置,可以提供不同方式的重構手段,具有重構方便且精度高的特點。
在一些可能的實施方式中,該圖像處理方法還包括:利用該重構圖像執行身份識別,確定與該對象匹配的身份信息。基於上述配置,由於重構圖像與第一圖像相比,大大提升了清晰度以及具有更豐富的細節信息,基於重構圖像執行身份識別,可以快速且精確得到識別結果。
在一些可能的實施方式中,該圖像處理方法還通過第一神經網路執行該對該第一圖像執行超解析度圖像重建處理,得到該第二圖像,該方法還包括訓練該第一神經網路的步驟,其包括:獲取第一訓練圖像集,該第一訓練圖像集包括多個第一訓練圖像,以及與該第一訓練圖像對應的第一監督資料;將該第一訓練圖像集中的至少一個第一訓練圖像輸入至該第一神經網路執行該超解析度圖像重建處理,得到該第一訓練圖像對應的預測超解析度圖像;將該預測超解析度圖像分別輸入至第一對抗網路、第一特徵識別網路以及第一圖像語義分割網路,得到針對該預測超解析度圖像的辨別結果、特徵識別結果以及圖像分割結果;根據該預測超解析度圖像的辨別結果、特徵識別結果、圖像分割結果得到第一網路損失,基於該第一網路損失反向調節該第一神經網路的參數,直至滿足第一訓練要求。基於上述配置,可以基於對抗網路、特徵識別網路以及語義分割網路輔助訓練第一神經網路,在提高神經網路精度的前提下,還能夠藉由第一神經網路對圖像的各部分細節的精確識別。
在一些可能的實施方式中,根據該第一訓練圖像對應的預測超解析度圖像的辨別結果、特徵識別結果、圖像分割結果得到第一網路損失,包括:基於該第一訓練圖像對應的預測超解析度圖像和該第一監督資料中與該第一訓練圖像對應的第一標準圖像,確定第一像素損失;基於該預測超解析度圖像的辨別結果,以及該第一對抗網路對該第一標準圖像的辨別結果,得到第一對抗損失;基於該預測超解析度圖像和該第一標準圖像的非線性處理,確定第一感知損失;基於該預測超解析度圖像的特徵識別結果和該第一監督資料中的第一標準特徵,得到第一熱力圖損失;基於該預測超解析度圖像的圖像分割結果和該第一監督資料中與第一訓練樣本對應的第一標準分割結果,得到第一分割損失;利用該第一對抗損失、第一像素損失、第一感知損失、第一熱力圖損失和第一分割損失的加權和,得到該第一網路損失。基於上述配置,由於提供了不同的損失,結合各損失可以提高神經網路的精度。
在一些可能的實施方式中,通過第二神經網路執行該引導重構,得到該重構圖像,該方法還包括訓練該第二神經網路的步驟,其包括:獲取第二訓練圖像集,該第二訓練圖像集包括第二訓練圖像、該第二訓練圖像對應的引導訓練圖像和第二監督資料;利用該第二訓練圖像對該引導訓練圖像進行仿射變換得到訓練仿射圖像,並將該訓練仿射圖像和該第二訓練圖像輸入至該第二神經網路,對該第二訓練圖像執行引導重構,得到該第二訓練圖像的重構預測圖像;將該重構預測圖像分別輸入至第二對抗網路、第二特徵識別網路以及第二圖像語義分割網路,得到針對該重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果;根據該重構預測圖像的辨別結果、特徵識別結果、圖像分割結果得到該第二神經網路的第二網路損失,並基於該第二網路損失反向調節該第二神經網路的參數,直至滿足第二訓練要求。基於上述配置,可以基於對抗網路、特徵識別網路以及語義分割網路輔助訓練第二神經網路,在提高神經網路精度的前提下,還能夠實現第二神經網路對圖像的各部分細節的精確識別。
在一些可能的實施方式中,該根據該訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果、圖像分割結果得到該第二神經網路的第二網路損失,包括:基於該第二訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果得到全域損失和局部損失;基於該全域損失和局部損失的加權和得到該第二網路損失。基於上述配置,由於提供了不同的損失,結合各損失可以提高神經網路的精度。
在一些可能的實施方式中,基於該訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果得到全域損失,包括:基於該第二訓練圖像對應的重構預測圖像和該第二監督資料中與該第二訓練圖像對應的第二標準圖像,確定第二像素損失;基於該重構預測圖像的辨別結果,以及該第二對抗網路對該第二標準圖像的辨別結果,得到第二對抗損失;基於該重構預測圖像和該第二標準圖像的非線性處理,確定第二感知損失;基於該重構預測圖像的特徵識別結果和該第二監督資料中的第二標準特徵,得到第二熱力圖損失;基於該重構預測圖像的圖像分割結果和該第二監督資料中的第二標準分割結果,得到第二分割損失;利用該第二對抗損失、第二像素損失、第二感知損失、第二熱力圖損失和第二分割損失的加權和,得到該全域損失。基於上述配置,由於提供了不同的損失,結合各損失可以提高神經網路的精度。
在一些可能的實施方式中,基於該訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果得到局部損失,包括:提取該重構預測圖像中至少一個部位的部位子圖像,將至少一個部位的部位子圖像分別輸入至對抗網路、特徵識別網路以及圖像語義分割網路,得到該至少一個部位的部位子圖像的辨別結果、特徵識別結果以及圖像分割結果;基於該至少一個部位的部位子圖像的辨別結果,以及該第二對抗網路對該第二標準圖像中該至少一個部位的部位子圖像的辨別結果,確定該至少一個部位的第三對抗損失;基於該至少一個部位的部位子圖像的特徵識別結果和該第二監督資料中該至少一個部位的標準特徵,得到至少一個部位的第三熱力圖損失;基於該至少一個部位的部位子圖像的圖像分割結果和該第二監督資料中該至少一個部位的標準分割結果,得到至少一個部位的第三分割損失;利用該至少一個部位的第三對抗損失、第三熱力圖損失和第三分割損失的加和,得到該網路的局部損失。基於上述配置,可以基於各部位的細節損失,進一步提高神經網路的精度。
此外,本發明還提供一種圖像處理裝置,其包括:第一獲取模組,其用於獲取第一圖像;第二獲取模組,其用於獲取該第一圖像的至少一個引導圖像,該引導圖像包括該第一圖像中的目標對象的引導信息;重構模組,其用於基於該第一圖像的至少一個引導圖像對該第一圖像進行引導重構,得到重構圖像。基於上述配置,可以藉由通過引導圖像執行第一圖像的重構,即使第一圖像為退化嚴重的情況,由於引導圖像的融合,也能重建出清晰的重構圖像,具有更好的重構效果。
在一些可能的實施方式中,該第二獲取模組還用於獲取該第一圖像的描述信息;基於該第一圖像的描述信息確定與該目標對象的至少一個目標部位匹配的引導圖像。基於上述配置,可以根據不同的描述信息得到不同目標部位引導圖像,而且基於描述信息可以提供更為精確的引導圖像。
在一些可能的實施方式中,該重構模組包括:仿射單元,其用於利用該第一圖像中該目標對象的當前姿態,對該至少一個引導圖像執行仿射變換,得到該當前姿態下與該引導圖像對應的仿射圖像;提取單元,其用於基於該至少一個引導圖像中與該目標對象匹配的至少一個目標部位,從該引導圖像對應的仿射圖像中提取該至少一個目標部位的子圖像;重構單元,其用於基於提取的該子圖像和該第一圖像得到該重構圖像。基於上述配置,可以根據第一圖像中目標對象的姿態調整引導圖像中對象的姿態,從而使得引導圖像內與目標對象匹配的部位可以調整成目標對象的姿態形式,在執行重構時,能夠提高重構精度。
在一些可能的實施方式中,該重構單元還用於利用提取的該子圖像替換該第一圖像中與該子圖像中目標部位對應的部位,得到該重構圖像,或者對該子圖像和該第一圖像進行卷積處理,得到該重構圖像。基於上述配置,可以提供不同方式的重構手段,具有重構方便且精度高的特點。
在一些可能的實施方式中,該重構模組包括:超解析度單元,其用於對該第一圖像執行超解析度圖像重建處理,得到第二圖像,該第二圖像的解析度高於該第一圖像的解析度;仿射單元,其用於利用該第二圖像中該目標對象的當前姿態,對該至少一個引導圖像執行仿射變換,得到該當前姿態下與該引導圖像對應的仿射圖像;提取單元,其用於基於該至少一個引導圖像中與該對象匹配的至少一個目標部位,從該引導圖像對應的仿射圖像中提取該至少一個目標部位的子圖像;重構單元,其用於基於提取的該子圖像和該第二圖像得到該重構圖像。基於上述配置,可以通過超解析度重建處理提高第一圖像的清晰度,得到第二圖像,再根據第二圖像執行引導圖像的仿射變化,由於第二圖像的解析度高於第一圖像,在執行仿射變換以及後續的重構處理時,可以進一步提高重構圖像的精度。
在一些可能的實施方式中,該重構單元還用於利用提取的該子圖像替換該第二圖像中與該子圖像中目標部位對應的部位,得到該重構圖像,或者基於該子圖像和該第二圖像進行卷積處理,得到該重構圖像。基於上述配置,可以提供不同方式的重構手段,具有重構方便且精度高的特點。
在一些可能的實施方式中,該裝置還包括:身份識別單元,其用於利用該重構圖像執行身份識別,確定與該對象匹配的身份信息。基於上述配置,由於重構圖像與第一圖像相比,大大提升了清晰度以及具有更豐富的細節信息,基於重構圖像執行身份識別,可以快速且精確得到識別結果。
在一些可能的實施方式中,該超解析度單元包括第一神經網路,該第一神經網路用於執行該對該第一圖像執行超解析度圖像重建處理;並且該裝置還包括第一訓練模組,其用於訓練該第一神經網路,其中訓練該第一神經網路的步驟包括:獲取第一訓練圖像集,該第一訓練圖像集包括多個第一訓練圖像,以及與該第一訓練圖像對應的第一監督資料;將該第一訓練圖像集中的至少一個第一訓練圖像輸入至該第一神經網路執行該超解析度圖像重建處理,得到該第一訓練圖像對應的預測超解析度圖像;將該預測超解析度圖像分別輸入至第一對抗網路、第一特徵識別網路以及第一圖像語義分割網路,得到針對該預測超解析度圖像的辨別結果、特徵識別結果以及圖像分割結果;根據該預測超解析度圖像的辨別結果、特徵識別結果、圖像分割結果得到第一網路損失,基於該第一網路損失反向調節該第一神經網路的參數,直至滿足第一訓練要求。基於上述配置,可以基於對抗網路、特徵識別網路以及語義分割網路輔助訓練第一神經網路,在提高神經網路精度的前提下,還能夠實現第一神經網路對圖像的各部分細節的精確識別。
在一些可能的實施方式中,該第一訓練模組用於基於該第一訓練圖像對應的預測超解析度圖像和該第一監督資料中與該第一訓練圖像對應的第一標準圖像,確定第一像素損失;基於該預測超解析度圖像的辨別結果,以及該第一對抗網路對該第一標準圖像的辨別結果,得到第一對抗損失;基於該預測超解析度圖像和該第一標準圖像的非線性處理,確定第一感知損失;基於該預測超解析度圖像的特徵識別結果和該第一監督資料中的第一標準特徵,得到第一熱力圖損失;基於該預測超解析度圖像的圖像分割結果和該第一監督資料中與第一訓練樣本對應的第一標準分割結果,得到第一分割損失;利用該第一對抗損失、第一像素損失、第一感知損失、第一熱力圖損失和第一分割損失的加權和,得到該第一網路損失。基於上述配置,由於提供了不同的損失,結合各損失可以提高神經網路的精度。
在一些可能的實施方式中,該重構模組包括第二神經網路,該第二神經網路用於執行該引導重構,得到該重構圖像;並且該裝置還包括第二訓練模組,其用於訓練該第二神經網路,其中訓練該第二神經網路的步驟包括:獲取第二訓練圖像集,該第二訓練圖像集包括第二訓練圖像、該第二訓練圖像對應的引導訓練圖像和第二監督資料;利用該第二訓練圖像對該引導訓練圖像進行仿射變換得到訓練仿射圖像,並將該訓練仿射圖像和該第二訓練圖像輸入至該第二神經網路,對該第二訓練圖像執行引導重構,得到該第二訓練圖像的重構預測圖像;將該重構預測圖像分別輸入至第二對抗網路、第二特徵識別網路以及第二圖像語義分割網路,得到針對該重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果;根據該重構預測圖像的辨別結果、特徵識別結果、圖像分割結果得到該第二神經網路的第二網路損失,並基於該第二網路損失反向調節該第二神經網路的參數,直至滿足第二訓練要求。基於上述配置,可以基於對抗網路、特徵識別網路以及語義分割網路輔助訓練第二神經網路,在提高神經網路精度的前提下,還能夠實現第二神經網路對圖像的各部分細節的精確識別。
在一些可能的實施方式中,該第二訓練模組還用於基於該第二訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果得到全域損失和局部損失;基於該全域損失和局部損失的加權和得到該第二網路損失。基於上述配置,由於提供了不同的損失,結合各損失可以提高神經網路的精度。
在一些可能的實施方式中,該第二訓練模組還用於基於該第二訓練圖像對應的重構預測圖像和該第二監督資料中與該第二訓練圖像對應的第二標準圖像,確定第二像素損失;基於該重構預測圖像的辨別結果,以及該第二對抗網路對該第二標準圖像的辨別結果,得到第二對抗損失;基於該重構預測圖像和該第二標準圖像的非線性處理,確定第二感知損失;基於該重構預測圖像的特徵識別結果和該第二監督資料中的第二標準特徵,得到第二熱力圖損失;基於該重構預測圖像的圖像分割結果和該第二監督資料中的第二標準分割結果,得到第二分割損失;利用該第二對抗損失、第二像素損失、第二感知損失、第二熱力圖損失和第二分割損失的加權和,得到該全域損失。基於上述配置,由於提供了不同的損失,結合各損失可以提高神經網路的精度。
在一些可能的實施方式中,該第二訓練模組還用於:提取該重構預測圖像中至少一個部位的部位子圖像,將至少一個部位的部位子圖像分別輸入至對抗網路、特徵識別網路以及圖像語義分割網路,得到該至少一個部位的部位子圖像的辨別結果、特徵識別結果以及圖像分割結果;基於該至少一個部位的部位子圖像的辨別結果,以及該第二對抗網路對該第二訓練圖像對應的第二標準圖像中該至少一個部位的部位子圖像的辨別結果,確定該至少一個部位的第三對抗損失;基於該至少一個部位的部位子圖像的特徵識別結果和該第二監督資料中該至少一個部位的標準特徵,得到至少一個部位的第三熱力圖損失;基於該至少一個部位的部位子圖像的圖像分割結果和該第二監督數據中該至少一個部位的標準分割結果,得到至少一個部位的第三分割損失;利用該至少一個部位的第三對抗損失、第三熱力圖損失和第三分割損失的加和,得到該網路的局部損失。基於上述配置,可以基於各部位的細節損失,進一步提高神經網路的精度。
再,本發明還提供一種電子設備,其包括一處理器,及一用於儲存處理器可執行指令的記憶體,其中,該處理器被配置為調用該記憶體儲存的指令,以執行前述的圖像處理方法。
又,本發明還提供一種電腦可讀儲存媒體,其上儲存有電腦程式指令,該電腦程式指令被處理器執行時實現本發明圖像處理方法。
又,本發明還提供一種電腦可讀程式碼,當該電腦可讀程式碼在電子設備中運行時,該電子設備中的處理器執行前述的圖像處理方法。
本發明的功效在於:利用至少一個引導圖像執行第一圖像的重構處理,由於引導圖像中包括第一圖像的細節信息,得到的重構圖像相對於第一圖像提高了清晰度,即使在第一圖像退化嚴重的情況,也能通過融合引導圖像,生成清晰的重構圖像,即,本發明能夠結合多個引導圖像方便的執行圖像的重構得到清晰圖像。
本發明以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本發明,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本發明同樣可以實施。在一些實施例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本發明的主旨。
可以理解,本發明提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,不再贅述。
此外,本發明還提供了圖像處理裝置、電子設備、電腦可讀儲存媒體、程式,上述均可用來實現本發明提供的任一種圖像處理方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖1示出根據本發明實施例的一種圖像處理方法的流程圖,如圖1所示,該圖像處理方法,可以包括:
S10:獲取第一圖像;
本實施例中圖像處理方法的執行主體可以是圖像處理裝置,例如,圖像處理方法可以由終端設備或伺服器或其它處理設備執行,其中,終端設備可以為用戶設備(User Equipment,UE)、行動設備、用戶終端、終端、行動電話、無線電話、個人數位助理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等。伺服器可以為本機伺服器或者雲端伺服器,在一些可能的實現方式中,該圖像處理方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。只要能夠實現圖像處理,即可以作為本實施例的執行主體。
在一些可能的實施方式中,首先可以獲得待處理的圖像對象,即第一圖像,本實施例中的第一圖像可以為解析度相對較低,圖像品質較差的圖像,通過本實施例可以提高第一圖像的解析度,得到清晰的重構圖像。另外,第一圖像中可以包括目標類型的目標對象,例如本發明實施例中的目標對象可以為人臉對象,即通過本實施例可以實現人臉圖像的重構,從而可以方便的識別出第一圖像中的人物信息。在其他實施例中,目標對象也可以為其他類型,如動物、植物或者其他物體等等。
另外,本實施例獲取第一圖像的方式可以包括以下方式中的至少一種:接收傳輸的第一圖像、基於接收的選擇指令從儲存空間中選擇第一圖像、獲取圖像擷取設備擷取的第一圖像。其中,儲存空間可以為本機的儲存空間,也可以為網路中的儲存空間。上述僅為示例性說明,不作為本發明獲取第一圖像的具體限定。
S20:獲取該第一圖像的至少一個引導圖像,該引導圖像包括該第一圖像中的目標對象的引導信息;
在一些可能的實施方式中,第一圖像可以配置有相應的至少一個引導圖像。引導圖像中包括該第一圖像中的目標對象的引導信息,例如可以包括目標對象的至少一個目標部位的引導信息。如在目標對象為人臉時,引導圖像可以包括與目標對象的身份匹配的人物的至少一個部位的圖像,如眼睛、鼻子、眉毛、唇部、臉型、頭髮等至少一個目標部位的圖像。或者,也可以為服飾或者其他部位的圖像,本發明對此不作具體限定,只要能夠用於重構第一圖像,就可以作為本發明實施例的引導圖像。另外,本發明實施例中的引導圖像為高解析度的圖像,從而可以增加重構圖像的清晰度和準確度。
在一些可能的實施方式中,可以直接從其他設備接收與第一圖像匹配的引導圖像,也可以根據獲得的關於目標對象的描述信息得到引導圖像。其中,描述信息可以包括目標對象的至少一種特徵信息,如在目標對象為人臉對象時,描述信息可以包括:關於人臉對象的至少一種目標部位的特徵信息,或者描述信息也可以直接包括第一圖像中的目標對象的整體描述信息,例如該目標對象為某一已知身份的對象的描述信息。通過描述信息可以確定第一圖像的目標對象的至少一個目標部位的相似圖像或者確定包括與第一圖像中的對象相同的對象的圖像,該得到的各相似圖像或者包括相同對象的圖像即可以作為引導圖像。
在一個示例中,可以將一個或多個目擊證人提供的嫌疑人的信息作為描述信息,基於描述信息形成至少一個引導圖像。同時結合攝影鏡頭或者其他途徑得到的嫌疑人的第一圖像,利用各引導對該第一圖像重構,得到嫌疑人的清晰畫像。
S30:基於該第一圖像的至少一個引導圖像對該第一圖像進行引導重構,得到重構圖像
在得到第一圖像對應的至少一個引導圖像之後,即可以根據得到的至少一個圖像執行第一圖像的重構。由於引導圖像中包括第一圖像中目標對象的至少一個目標部位的引導信息,可以根據該引導信息引導重構第一圖像。而且即使第一圖像為退化嚴重的圖像的情況下,也能夠結合引導信息重構出更為清晰的重構圖像。
在一些可能的實施方式中,可以直接將相應目標部位的引導圖像替換到第一圖像中,得到重構圖像。例如,在引導圖像包括眼睛部分的引導圖像時,可以將該眼睛部分的引導圖像替換到第一圖像中,在引導圖像包括眼睛部分的引導圖像時,可以將該眼睛部分的引導圖像替換到第一圖像。通過該種方式可以直接將對應的引導圖像替換到第一圖像中,完成圖像重構。該方式具有簡單方便的特點,可以方便的將多個引導圖像的引導信息整合到第一圖像中,實現第一圖像的重構,由於引導圖像為清晰圖像,得到的重構圖像也為清晰圖像。
在一些可能的實施方式中,也可以基於引導圖像和第一圖像的卷積處理得到重構圖像。
在一些可能的實施方式中,由於得到的第一圖像中的目標對象的引導圖像的對象的姿態與第一圖像中目標對象的姿態可能不同,此時需要將各引導圖像與第一圖像扭轉(warp)。即將引導圖像中對象的姿態調整成與第一圖像中目標對象的姿態一致,而後利用調整姿態後的引導圖像執行第一圖像的重構處理,通過該過程得到的重構圖像的準確度會提高。
基於上述實施例,本發明實施例可以方便的基於第一圖像的至少一個引導圖像實現第一圖像的重構,得到的重構圖像能夠融合各引導圖像的引導信息,具有較高的清晰度。
下面結合附圖對本發明實施例的各過程進行詳細說明。
圖2示出根據本發明圖像處理方法的一實施例中的一步驟S20,其中,該獲取該第一圖像的至少一個引導圖像(步驟S20),包括:
S21:獲取該第一圖像的描述信息;
如上述,第一圖像的描述信息可以包括第一圖像中的目標對象的至少一個目標部位的特徵信息(或者特徵描述信息)。例如,在目標對象為人臉的情況下,描述信息可以包括:目標對象的眼睛、鼻子、唇、耳朵、面部、膚色、頭髮、眉毛等至少一種目標部位的特徵信息,例如描述信息可以為眼睛像A(已知的一個對象)的眼睛、眼睛的形狀、鼻子的形狀、鼻子像B(已知的一個對象)的鼻子,等等,或者描述信息也可以直接包括第一圖像中的目標對象整體像C(已知的一個對象)的描述。或者,描述信息也可以包括第一圖像中的對象的身份信息,身份信息可以包括姓名、年齡、性別等可以用於確定對象的身份的信息。上述僅為示例性的說明描述信息,不作為本發明描述信息的限定,其他與對象有關的信息都可以作為描述信息。
在一些可能的實施方式中,獲取描述信息的方式可以包括以下方式中的至少一種:接收通過輸入元件輸入的描述信息和/或接收具有標注信息的圖像(標注信息所標注的部分為與第一圖像中的目標對象相匹配的目標部位)。在其他實施方式中也可以通過其他方式接收描述信息,本發明對此不作具體限定。
S22:基於該第一圖像的描述信息確定與該對象的至少一個目標部位匹配的引導圖像。
在得到描述信息之後,即可以根據描述信息確定與第一圖像中的對象匹配的引導圖像。其中,在描述信息包括該對象的至少一個目標部位的描述信息時,可以基於各目標部位的描述信息確定相匹配的引導圖像,例如,描述信息中包括對象的眼睛像A(已知的一個對象)的眼睛,即可以從資料庫中獲得對象A的圖像,作為對象的眼睛部位的引導圖像,或者描述信息中包括對象的鼻子像B(已知的一個對象)的鼻子,即可以從資料庫中獲得對象B的圖像,作為對象的鼻子部位的引導圖像,或者,描述信息也可以包括對象的眉毛為濃眉,則可以在資料庫中選擇出與濃眉對應的圖像,將該濃眉圖像確定為對象的眉毛引導圖像,依此類推,可以基於獲取的圖像信息確定第一圖像中的對象的至少一個部位的引導圖像。其中,資料庫中可以包括多種對象的至少一個圖像,從而可以方便基於描述信息確定相應的引導圖像。
在一些可能的實施方式中,描述信息中也可以包括關於第一圖像中的對象A的身份信息,此時可以基於該身份信息從數據庫中選擇出與該身份信息匹配的圖像作為引導圖像。
通過上述配置,即可以基於描述信息確定出與第一圖像中的對象的至少一個目標部位相匹配的引導圖像,結合引導圖像對圖像進行重構可以提高獲取的圖像的精確度。
在得到引導圖像之後,即可以根據引導圖像執行圖像的重構過程,除了可以將引導圖像直接替換到第一圖像的相應目標部位之外,本發明實施例還可以在對引導圖像執行仿射變換之後,再執行替換或者卷積,來得到重構圖像。
圖3示出根據本發明圖像處理方法的實施例的一步驟S30,其中,該基於該第一圖像的至少一個引導圖像對該第一圖像進行引導重構,得到重構圖像(步驟S30),可以包括:
S31:利用該第一圖像中該目標對象的當前姿態,對該至少一個引導圖像執行仿射變換,得到該當前姿態下與該引導圖像對應的仿射圖像。
在一些可能的實施方式中,由於得到的關於第一圖像中的對象的引導圖像的對象的姿態與第一圖像中對象的姿態可能不同,此時需要將各引導圖像與第一圖像扭轉,即使得引導圖像中的對象的姿態與第一圖像中的目標對象的姿態相同。
本發明實施例可以利用仿射變換的方式,對引導圖像執行仿射變換,仿射變換後的引導圖像(即仿射圖像)中的對象的姿態與第一圖像中的目標對象的姿態相同。例如,第一圖像中的對象為正面圖像時,可以將引導圖像中的各對象通過仿射變換的方式調整為正面圖像。其中,可以利用第一圖像中的關鍵點位置和引導圖像中的關鍵點位置差異進行仿射變換,使得引導圖像和第二圖像在空間上姿態相同。例如可以通過對引導圖像的偏轉、平移、修復、刪除的方式得到與第一圖像中的對象的姿態相同的仿射圖像。對於仿射變換的過程在此不作具體限定,可以通過現有技術手段實現。
通過上述配置,可以得到與第一圖像中的姿態相同的至少一個仿射圖像(每個引導圖像在經仿射處理後得到一個仿射圖像),實現仿射圖像與第一圖像的扭轉(warp)。
S32:基於該至少一個引導圖像中與該目標對象匹配的至少一個目標部位,從引導圖像對應的的仿射圖像中提取該至少一個目標部位的子圖像。
由於得到的引導圖像為與第一圖像中的至少一個目標部位匹配的圖像,在經過仿射變換得到與各引導圖像對應的仿射圖像之後,可以基於每個引導圖像對應的引導部位(與對象所匹配的目標部位),從仿射圖像中提取該引導部位的子圖像,即從仿射圖像中分割出與第一圖像中的對象匹配的目標部位的子圖像。例如,在一引導圖像中與對象所匹配的目標部位為眼睛時,可以從該引導圖像對應的仿射圖像中提取出眼睛部位的子圖像。通過上述方式即可以得到與第一圖像中對象的至少一個部位匹配的子圖像。
S33:基於提取的該子圖像和該第一圖像得到該重構圖像。
在得到目標對象的至少一個目標部位的子圖像之後,可以利用得到的子圖像和第一圖像進行圖像重構,得到重構圖像。
在一些可能的實施方式中,由於每個子圖像可以與第一圖像的對象中的至少一個目標部位相匹配,可以將子圖像中相匹配的部位的圖像替換到第一圖像中的相應部位,例如,在子圖像的眼睛與對象相匹配時,可以將子圖像中的眼睛的圖像區域替換到第一圖像中的眼睛部位,在子圖像的鼻子與對象相匹配時,可以將子圖像中的鼻子的圖像區域替換到第一圖像中的眼睛部位,依次類推可以利用提取的子圖像中與對象相匹配的部位的圖像替換第一圖像中的相應部位,最終可以得到重構圖像。
或者,在一些可能的實施方式中,也可以基於該子圖像和該第一圖像的卷積處理,得到該重構圖像。
其中,可以將各子圖像與第一圖像輸入至卷積神經網路,執行至少一次卷積處理,實現圖像特徵融合,最終得到融合特徵,基於該融合特徵即可以得到融合特徵對應的重構圖像。
通過上述方式,即可以實現第一圖像的解析度的提高,同時得到清晰的重構圖像。
在本發明的另一些實施例中,為了進一步提高重構圖像的圖像精度和清晰度,也可以對第一圖像進行超解析度處理,得到比第一圖像的解析度高的第二圖像,並利用第二圖像執行圖像重構得到重構圖像。圖4示出根據本發明圖像處理方法的實施例的步驟S30的另一流程圖,其中,該基於該第一圖像的至少一個引導圖像對該第一圖像進行引導重構,得到重構圖像(步驟S30),還可以包括:
S301:對該第一圖像執行超解析度圖像重建處理,得到第二圖像,該第二圖像的解析度高於該第一圖像的解析度。
在一些可能的實施方式中,在得到第一圖像的情況下,可以對第一圖像執行圖像超解析度重建處理,得到提高圖像解析度的第二圖像。超解析度圖像重建處理可以通過低解析度圖像或圖像序列恢復出高解析度圖像。高解析度圖像意味著圖像具有更多的細節信息、更細膩的畫質。
在一個示例中,執行該超解析度圖像重建處理可以包括:對第一圖像執行線性插值處理,增加圖像的尺度:對線性插值得到的圖像執行至少一次卷積處理,得到超解析度重建後的圖像,即第二圖像。例如可以先將低解析度的第一圖像通過雙三次插值處理放大至目標尺寸(如放大至2倍、3倍、4倍),此時放大後的圖像仍為低解析度的圖像,而後將該放大後的圖像輸入至卷積神經網路,執行至少一次卷積處理,例如輸入至三層卷積神經網路,實現對圖像的YCrCb顏色空間中的Y通道進行重建,其中神經網路的形式可以為(conv1+relu1)—(conv2+relu2)—(conv3)),其中第一層卷積:卷積核尺寸9×9(f1×f1),卷積核數目64(n1),輸出64張特徵圖;第二層卷積:卷積核尺寸1×1(f2×f2),卷積核數目32(n2),輸出32張特徵圖;第三層卷積:卷積核尺寸5×5(f3×f3),卷積核數目1(n3),輸出1張特徵圖即為最終重建高解析度圖像,即第二圖像。上述卷積神經網路的結構僅為示例性說明,本發明對此不作具體限定。
在一些可能的實施方式中,也可以通過第一神經網路實現超解析度圖像重建處理,第一神經網路可以包括SRCNN網路(超解析度卷積神經網路)或者SRResNet網路(超解析度殘差神經網路)。例如可以將第一圖像輸入至SRCNN網路(超解析度卷積神經網路)或者SRResNet網路(超解析度殘差神經網路),其中SRCNN網路和SRResNet網路的網路結構可以根據現有神經網路結構確定,本發明不作具體限定。通過上述第一神經網路可以輸出第二圖像,可以得到的第二圖像比第一圖像的解析度高。
S302:利用該第二圖像中該目標對象的當前姿態,對該至少一個引導圖像執行仿射變換,得到該當前姿態下與該引導圖像對應的仿射圖像。
同步驟S31,由於第二圖像為相對於第一圖像提高了解析度的圖像,第二圖像中的目標對象的姿態與引導圖像的姿態也可能不同,在執行重構之前可以根據第二圖像中的目標對象的姿態對引導圖像進行仿射變化,得到與第二圖像中目標對象的姿態相同的仿射圖像。
S303:基於該至少一個引導圖像中與該對象匹配的至少一個目標部位,從該引導圖像對應的仿射圖像中提取該至少一個目標部位的子圖像;
同步驟S32,由於得到的引導圖像為與第二圖像中的至少一個目標部位匹配的圖像,在經過仿射變換得到與各引導圖像對應的仿射圖像之後,可以基於每個引導圖像對應的引導部位(與對象所匹配的目標部位),從仿射圖像中提取該引導部位的子圖像,即從仿射圖像中分割出與第一圖像中的對象匹配的目標部位的子圖像。例如,在一引導圖像中與對象所匹配的目標部位為眼睛時,可以從該引導圖像對應的仿射圖像中提取出眼睛部位的子圖像。通過上述方式即可以得到與第一圖像中對象的至少一個部位匹配的子圖像。
S304:基於提取的該子圖像和該第二圖像得到該重構圖像。
在得到目標對象的至少一個目標部位的子圖像之後,可以利用得到的子圖像和第二圖像進行圖像重構,得到重構圖像。
在一些可能的實施方式中,由於每個子圖像可以與第二圖像的對象中的至少一個目標部位相匹配,可以將子圖像中相匹配的部位的圖像替換到第二圖像中的相應部位,例如,在子圖像的眼睛與對象相匹配時,可以將子圖像中的眼睛的圖像區域替換到第一圖像中的眼睛部位,在子圖像的鼻子與對象相匹配時,可以將子圖像中的鼻子的圖像區域替換到第二圖像中的眼睛部位,依次類推可以利用提取的子圖像中與對象相匹配的部位的圖像替換第二圖像中的相應部位,最終可以得到重構圖像。
或者,在一些可能的實施方式中,也可以基於該子圖像和該第二圖像的卷積處理,得到該重構圖像。
其中,可以將各子圖像與第二圖像輸入至卷積神經網路,執行至少一次卷積處理,實現圖像特徵融合,最終得到融合特徵,基於該融合特徵即可以得到融合特徵對應的重構圖像。
通過上述方式,即可以通過超解析度重建處理進一步實現第一圖像的解析度的提高,同時得到更加清晰的重構圖像。
在得到第一圖像的重構圖像之後,還可以利用該重構圖像執行圖像中的對象的身份識別。其中,在身份資料庫中可以包括多個對象的身份信息,例如也可以包括面部圖像以及對象的姓名、年齡、職業等信息。對應的,可以將重構圖像與各面部圖像進行對比,得到相似度最高且該相似度高於閾值的面部圖像則可以確定為與重構圖像匹配的對象的面部圖像,從而可以確定重構圖像中的對象的身份信息。由於重構圖像的解析度和清晰度等品質較高,得到的身份信息的準確度也相對的提高。
為了更加清楚的說明本發明實施例,下面舉例說明圖像處理方法的過程。
圖5示出根據本發明圖像處理方法的實施例的一種過程。
其中,可以獲取第一圖像F1(LR低解析度的圖像),該第一圖像F1的解析度較低,畫面質量不高,將該第一圖像F1輸入至神經網路A(如SRResNet網路)中執行超解析度像重建處理,得到第二圖像F2(coarse SR模糊的超解析度圖像)。
在得到第二圖像F2之後,可以基於該第二圖像實現圖像的重構。其中可以獲得第一圖像的引導圖像F3(guided images),如可以基於第一圖像F1的描述信息得到各引導圖像F3,根據第二圖像F2中的對象的姿態對引導圖像F3執行仿射變換(warp)得到各仿射圖像F4。繼而可以根據引導圖像對應的部位從仿射圖像中提取出相應部位的子圖像F5。
而後,根據各子圖像F5和第二圖像F2得到重構圖像,其中可以對子圖像F5和第二圖像F2執行卷積處理,得到融合特徵,基於該融合特徵得到最終的重構圖像F6(fine SR 清晰的超解析度圖像)。
上述僅為示例性說明圖像處理的過程,不作為本發明的具體限定。
另外,在本發明實施例中,本發明實施例的圖像處理方法可以利用神經網路實現,例如步驟S201可以利用第一神經網路(如SRCNN或者SRResNet網路)實現超解析度重建處理,利用第二神經網路(卷積神經網路CNN)實現圖像重構處理(步驟S30),其中圖像的仿射變換可以通過相應的算法實現。
圖6示出根據本發明實施例訓練第一神經網路的流程。圖7示出根據本發明實施例中第一訓練神經網路的結構,其中,訓練神經網路的過程可以包括:
S51:獲取第一訓練圖像集,該第一訓練圖像集包括多個第一訓練圖像,以及與該第一訓練圖像對應的第一監督資料;
在一些可能的實施方式中,訓練圖像集可以包括多個第一訓練圖像,該多個第一訓練圖像可以為解析度較低的圖像,如可以為在昏暗的環境、晃動的情況或者其他影響圖像品質的情況下採集的圖像,或者也可以為在圖像中加入雜訊後得到的降低圖像解析度的圖像。對應的,第一訓練圖像集還可以包括與各第一訓練圖像對應的監督資料,本發明實施例的第一監督資料可以根據損失函數的參數確定。例如可以包括與第一訓練圖像對應的第一標準圖像(清晰圖像)、第一標準圖像的第一標準特徵(各關鍵點的位置的真實識別特徵)、第一標準分割結果(各部位的真實分割結果)等等,在此不作一一舉例說明。
現有的大部分重建較低像素人臉(如16*16)的方法很少考慮圖像嚴重退化的影響,如雜訊和模糊。一旦有雜訊和模糊混入,原有的模型就不適用。退化變得很嚴重時,即使加入雜訊和模糊重新訓練模型,依然無法恢復出清晰的五官。本發明在訓練第一神經網路或者下述的第二神經網路時,採用的訓練圖像可以為加入雜訊或者嚴重退化的圖像,從而提高神經網路的精度。
S52:將該第一訓練圖像集中的至少一個第一訓練圖像輸入至該第一神經網路執行該超解析度圖像重建處理,得到該第一訓練圖像對應的預測超解析度圖像;
在訓練第一神經網路時,可以將第一訓練圖像集中的圖像一起輸入至第一神經網路,或者分批次輸入至第一神經網路,分別得到各第一訓練圖像對應的超解析度重建處理後的預測超解析度圖像。
S53:將該預測超解析度圖像輸入分別輸入至第一對抗網路、第一特徵識別網路以及第一圖像語義分割網路,得到針對該第一訓練圖像對應的預測超解析度圖像的辨別結果、特徵識別結果以及圖像分割結果;
如圖7所示,可以結合對抗網路(Discriminator)、關鍵點檢測網路(FAN)以及語義分割網路(parsing)實現第一神經網路訓練。其中生成器(Generator)相當於本發明實施例的第一神經網路中。下面以該生成器為執行超解析度圖像重建處理的網路部分的第一神經網路為例進行說明。
將生成器輸出的預測超解析度圖像輸入至上述對抗網路、特徵識別網路以及圖像語義分割網路,得到針對該訓練圖像對應的預測超解析度圖像的辨別結果、特徵識別結果以及圖像分割結果。其中辨別結果表示第一對抗網路能否識別出預測超解析度圖像和標注圖像的真實性,特徵識別結果包括關鍵點的位置識別結果,以及圖像分割結果包括對象的各部位所在的區域。
S54:根據該預測超解析度圖像的辨別結果、特徵識別結果、圖像分割結果得到第一網路損失,基於該第一網路損失反向調節該第一神經網路的參數,直至滿足第一訓練要求。
其中,第一訓練要求為第一網路損失小於或者第一損失閾值,即在得到的第一網路損失小於第一損失閾值時,即可以停止第一神經網路的訓練,此時得到的神經網路具有較高的超解析度處理精度。第一損失閾值可以為小於1的數值,如可以為0.1,但不作為本發明的具體限定。
在一些可能的實施方式中,可以根據預測超解析度圖像的辨別結果得到對抗損失、可以根據圖像分割結果得到分割損失、根據得到的特徵識別結果得到熱力圖損失,以及根據得到的預測超解析度圖像得到相應的像素損失和處理後的感知損失。
具體地,可以基於該預測超解析度圖像的辨別結果以及第一對抗網路對該第一監督資料中第一標準圖像的辨別結果,得到第一對抗損失。其中,可以利用該第一訓練圖像集中各第一訓練圖像對應的預測超解析度圖像的辨別結果以及第一對抗網路對第一監督資料中與該第一訓練圖像對應的第一標準圖像的辨別結果,確定該第一對抗損失;其中,對抗損失函數的表達式為:; (1)
其中,表示第一對抗損失,表示預測超解析度圖像的辨別結果的期望分佈,表示預測超解析度圖像的樣本分佈,表示第一監督資料與第一訓練圖像對應的第一標準圖像的辨別結果的期望分佈,表示標準圖像的樣本分佈,表示梯度函數,|| ||2表示2範數,表示對和構成的直線上進行均勻採樣獲得的樣本分佈。
基於上述對抗損失函數的表達式,可以得到對應於預測超解析度圖像的第一對抗損失。
另外,基於該第一訓練圖像對應的預測超解析度圖像和該第一監督資料中的與第一訓練圖像對應的第一標準圖像,可以確定第一像素損失,像素損失函數的表達式為:(2)
其中,表示第一像素損失,表示與第一訓練圖像對應的第一標準圖像,表示第一訓練圖像對應的預測超解析度圖像(同上述),表示範數的平方。
通過上述像素損失函數的表達式可以得到預測超解析度圖像對應的第一像素損失。
另外,基於該預測超解析度圖像和第一標準圖像的非線性處理,可以確定第一感知損失,感知損失函數的表達式為:(3)
其中,表示第一感知損失,表示預測超解析度圖像和第一標準圖像的通道數,表示預測超解析度圖像和第一標準圖像的寬度,表示預測超解析度圖像和第一標準圖像的高度,表示用於提取圖像特徵的非線性轉換函數(如採用VGG網路中的conv5-3,出自於simonyan and zisserman,2014)。
通過上述感知損失函數的表達式可以得到超解析度預測圖像對應的第一感知損失。
另外,基於該訓練圖像對應的預測超解析度圖像的特徵識別結果和該第一監督資料中的第一標準特徵,得到第一熱力圖損失;熱力圖損失函數的表達式可以為:; (4)
其中,表示預測超解析度圖像對應的第一熱力圖損失,表示預測超解析度圖像和第一標準圖像的標記點(如關鍵點)個數,n為從1到N的整數變量,i表示行數,j表示列數,表示第n個標籤的預測超解析度圖像的第i行第j列的特徵識別結果(熱力圖),第n個標籤的第一標準圖像的第i行第j列的特徵識別結果(熱力圖)。
通過上述熱力圖損失的表達式可以得到超解析度預測圖像對應的第一熱力圖損失。
另外,基於該訓練圖像對應的預測超解析度圖像的圖像分割結果和該第一監督資料中的第一標準分割結果,得到第一分割損失;其中分割損失函數的表達式為:(5)
其中,表示預測超解析度圖像對應的第一分割損失,M表示預測超解析度圖像和第一標準圖像的分割區域的數量,m為從1到M的整數變量,表示預測超解析度圖像中的第m個分割區域,表示第一標準圖像中的第m個圖像分割區域。
通過上述分割損失的表達式可以得到超解析度預測圖像對應的第一分割損失。
根據上述得到的第一對抗損失、第一像素損失、第一感知損失、第一熱力圖損失和第一分割損失的加權和,得到該第一網路損失。第一網路損失的表達式為:(6)
其中,表示第一網路損失,、、、和分別為第一對抗損失、第一像素損失、第一感知損失、第一熱力圖損失和第一分割損失的權重。對於權重的取值可以預先設定,本發明對此不作具體限定,例如各權重的加和可以為1,或者權重中至少一個為大於1的值。
通過上述方式可以得到第一神經網路的第一網路損失,在第一網路損失大於第一損失閾值時,則確定為不滿足第一訓練要求,此時可以反向調整第一神經網路的網路參數,例如卷積參數,並通過該調整參數的第一神經網路繼續對訓練圖像集執行超解析度圖像處理,直到得到的第一網路損失小於或者等於第一損失閾值,即可以判斷為滿足第一訓練要求,並終止神經網路的訓練。
上述為第一神經網路的訓練過程,在本發明實施例中,也可以通過第二神經網路執行步驟S30的圖像重構過程,如第二神經網路可以為卷積神經網路。圖8示出根據本發明實施例訓練第二神經網路的流程。其中,訓練第二神經網路的過程可以包括:
S61:獲取第二訓練圖像集,該第二訓練圖像集包括多個第二訓練圖像、第二訓練圖像對應的引導訓練圖像以及第二監督資料;
在一些可能的實施方式中,第二訓練圖像集中的第二訓練圖像可以為上述第一神經網路預測形成的預測超解析度圖像,或者也可以為通過其他方式得到的解析度相對較低的圖像,或者也可以為引入雜訊後的圖像,本發明對此不作具體限定。
在執行第二神經網路的訓練時,也可以為每個訓練圖像配置至少一個引導訓練圖像,引導訓練圖像中包括對應的第二訓練圖像的引導信息,如至少一個部位的圖像。引導訓練圖像同樣為高解析度、清晰的圖像。每個第二訓練圖像可以包括不同數量的引導訓練圖像,並且各引導訓練圖像對應的引導部位也可以不同,本發明對此不作具體限定。
第二監督資料同樣也可以根據損失函數的參數確定,其可以包括與第二訓練圖像對應的第二標準圖像(清晰的圖像)、第二標準圖像的第二標準特徵(各關鍵點的位置的真實識別特徵)、第二標準分割結果(各部位的真實分割結果),也可以包括第二標準圖像中各部位的辨別結果(對抗網路輸出的辨別結果)、特徵識別結果和分割結果等等,在此不作一一舉例說明。
其中,在第二訓練圖像為第一神經網路輸出的超解析度預測圖像時,第一標準圖像和第二標準圖像相同,第一標準分割結果和第二標準分割結果相同,第一標準特徵結果和第二標準特徵結果相同。
S62:利用第二訓練圖像對該引導訓練圖像進行仿射變換得到訓練仿射圖像,並將該訓練仿射圖像和該第二訓練圖像輸入至該第二神經網路,對該第二訓練圖像執行引導重構,得到該第二訓練圖像的重構預測圖像。
如上所示,每個第二訓練圖像可以具有對應的至少一個引導圖像,通過第二訓練圖像中的對象的姿態可以對引導訓練圖像執行仿射變換,得到至少一個訓練仿射圖像。可以將第二訓練圖像對應的至少一個訓練仿射圖像以及第二訓練圖像輸入至第二神經網路中,得到相應的重構預測圖像。
S63:將該訓練圖像對應的重構預測圖像分別輸入至第二對抗網路、第二特徵識別網路以及第二圖像語義分割網路,得到針對該第二訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果。
同理,參照圖7所示,可以採用圖7的結構訓練第二神經網路,此時生成器可以表示第二神經網路,可以將第二訓練圖像對應的重構預測圖像也分別輸入至對抗網路、特徵識別網路以及圖像語義分割網路,得到針對該重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果。其中辨別結果表示重構預測圖像與標準圖像之間的真實性辨別結果,特徵識別結果包括重構預測圖像中關鍵點的位置識別結果,以及圖像分割結果包括重構預測圖像中對象的各部位所在的區域的分割結果。
S64:根據該第二訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果、圖像分割結果得到該第二神經網路的第二網路損失,並基於該第二網路損失反向調節該第二神經網路的參數,直至滿足第二訓練要求。
在一些可能的實施方式中,第二網路損失可以為全域損失和局部損失的加權和,即可以基於該訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果得到全域損失和局部損失,並基於該全域損失和局部損失的加權和得到該第二網路損失。
其中,全域損失可以為基於重構預測圖像的對抗損失、像素損失、感知損失、分割損失、熱力圖損失的加權和。
同樣的,與第一對抗損失的獲取方式相同,參照對抗損失函數,可以基於該對抗網路對該重構預測圖像的辨別結果以及對該第二監督資料中的第二標準圖像的辨別結果,得到第二對抗損失;與第一像素損失的獲取方式相同,參照像素損失函數,可以基於該第二訓練圖像對應的重構預測圖像和該第二訓練圖像對應的第二標準圖像,確定第二像素損失;與第一感知損失的獲取方式相同,參照感知損失函數,可以基於該第二訓練圖像對應的重構預測圖像和第二標準圖像的非線性處理,確定第二感知損失;與第一熱力圖損失的獲取方式相同,參照熱力圖損失函數,可以基於該第二訓練圖像對應的重構預測圖像的特徵識別結果和該第二監督資料中的第二標準特徵,得到第二熱力圖損失;與第一分割損失的獲取方式相同,參照分割損失函數,可以基於該第二訓練圖像對應的重構預測圖像的圖像分割結果和該第二監督資料中的第二標準分割結果,得到第二分割損失;利用該第二對抗損失、第二像素損失、第二感知損失、第二熱力圖損失和第二分割損失的加權和,得到該全域損失。
另外,確定第二神經網路的局部損失的方式可以包括:
提取該重構預測圖像中至少一個部位對應的部位子圖像,如眼睛、鼻子、嘴、眉毛、面部等部位的子圖像,將至少一個部位的部位子圖像分別輸入至對抗網路、特徵識別網路以及圖像語義分割網路,得到該至少一個部位的部位子圖像的辨別結果、特徵識別結果以及圖像分割結果;
基於該至少一個部位的部位子圖像的辨別結果,以及該第二對抗網路對該第二訓練圖像對應的第二標準圖像中該至少一個部位的部位子圖像的辨別結果,確定該至少一個部位的第三對抗損失;
基於該至少一個部位的部位子圖像的特徵識別結果和該第二監督資料中對應部位的標準特徵,得到至少一個部位的第三熱力圖損失;
基於該至少一個部位的部位子圖像的圖像分割結果和該第二監督資料中該至少一個部位的標準分割結果,得到至少一個部位的第三分割損失;及
利用該至少一個部位的第三對抗網路損失、第三熱力圖損失和第三分割損失的加和,得到該網路的局部損失。
和獲取上述損失的方式相同,可以利用重構預測圖像中各部位的子圖像的第三對抗損失、第三像素損失和第三感知損失的加和確定各部位的局部損失,例如,(8)
即可以通過眼眉的第三對抗損失、第三感知損失和第三像素損失之和得到眼眉的局部損失,通過眼睛的第三對抗損失、第三感知損失和第三像素損失之和得到眼睛的局部損失,鼻子的第三對抗損失、第三感知損失和第三像素損失之和得到鼻子的局部損失,以及通過唇部的第三對抗損失、第三感知損失和第三像素損失之和得到唇部的局部損失,依次類推可以得到重構圖像中各個部位的局部圖像,而後可以基於各個部位的局部損失之和得到第二神經網路的局部損失,即。 (9)
在得到局部損失和全域損失之和,即可以得到第二網路損失為全域損失和局部損失的加和值,即;其中表示第二網路損失。
通過上述方式可以得到第二神經網路的第二網路損失,在第二網路損失大於第二損失閾值時,則確定為不滿足第二訓練要求,此時可以反向調整第二神經網路的網路參數,例如卷積參數,並通過該調整參數的第二神經網路繼續對訓練圖像集執行超解析度圖像處理,直到得到的第二網路損失小於或者等於第二損失閾值,即可以判斷為滿足第二訓練要求,並終止第二神經網路的訓練,此時得到的第二神經網路可以精確的得到重構預測圖像。
綜上所述,本發明實施例可以對基於引導圖像執行低解析度圖像的重構,得到清晰的重構圖像。該方式可以方便的提高圖像的解析度,得到清晰的圖像。
本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
另外,本發明還提供了應用上述圖像處理方法的圖像處理裝置、電子設備。
圖9示出本發明一種圖像處理裝置的實施例,其中,該裝置包括:第一獲取模組10,其用於獲取第一圖像;第二獲取模組20,其用於獲取該第一圖像的至少一個引導圖像,該引導圖像包括該第一圖像中的目標對象的引導信息;及重構模組30,其用於基於該第一圖像的至少一個引導圖像對該第一圖像進行引導重構,得到重構圖像。
在一些可能的實施方式中,該第二獲取模組還用於獲取該第一圖像的描述信息;及基於該第一圖像的描述信息確定與該目標對象的至少一個目標部位匹配的引導圖像。
在一些可能的實施方式中,該重構模組包括:仿射單元,其用於利用該第一圖像中該目標對象的當前姿態,對該至少一個引導圖像執行仿射變換,得到該當前姿態下與該引導圖像對應的仿射圖像;提取單元,其用於基於該至少一個引導圖像中與該目標對象匹配的至少一個目標部位,從該引導圖像對應的仿射圖像中提取該至少一個目標部位的子圖像;及重構單元,其用於基於提取的該子圖像和該第一圖像得到該重構圖像。
在一些可能的實施方式中,該重構單元還用於利用提取的該子圖像替換該第一圖像中與該子圖像中目標部位對應的部位,得到該重構圖像,或者,對該子圖像和該第一圖像進行卷積處理,得到該重構圖像。
在一些可能的實施方式中,該重構模組包括:超解析度單元,其用於對該第一圖像執行超解析度圖像重建處理,得到第二圖像,該第二圖像的解析度高於該第一圖像的解析度;仿射單元,其用於利用該第二圖像中該目標對象的當前姿態,對該至少一個引導圖像執行仿射變換,得到該當前姿態下與該引導圖像對應的仿射圖像;提取單元,其用於基於該至少一個引導圖像中與該對象匹配的至少一個目標部位,從該引導圖像對應的仿射圖像中提取該至少一個目標部位的子圖像;及重構單元,其用於基於提取的該子圖像和該第二圖像得到該重構圖像。
在一些可能的實施方式中,該重構單元還用於利用提取的該子圖像替換該第二圖像中與該子圖像中目標部位對應的部位,得到該重構圖像,或者,基於該子圖像和該第二圖像進行卷積處理,得到該重構圖像。
在一些可能的實施方式中,該裝置還包括:身份識別單元,其用於利用該重構圖像執行身份識別,確定與該對象匹配的身份信息。
在一些可能的實施方式中,該超解析度單元包括第一神經網路,該第一神經網路用於執行該對該第一圖像執行超解析度圖像重建處理;並且,該裝置還包括第一訓練模組,其用於訓練該第一神經網路,其中訓練該第一神經網路的步驟包括:獲取第一訓練圖像集,該第一訓練圖像集包括多個第一訓練圖像,以及與該第一訓練圖像對應的第一監督資料;將該第一訓練圖像集中的至少一個第一訓練圖像輸入至該第一神經網路執行該超解析度圖像重建處理,得到該第一訓練圖像對應的預測超解析度圖像;將該預測超解析度圖像分別輸入至第一對抗網路、第一特徵識別網路以及第一圖像語義分割網路,得到針對該預測超解析度圖像的辨別結果、特徵識別結果以及圖像分割結果;及根據該預測超解析度圖像的辨別結果、特徵識別結果、圖像分割結果得到第一網路損失,基於該第一網路損失反向調節該第一神經網路的參數,直至滿足第一訓練要求。
在一些可能的實施方式中,該第一訓練模組用於基於該第一訓練圖像對應的預測超解析度圖像和該第一監督資料中與該第一訓練圖像對應的第一標準圖像,確定第一像素損失;基於該預測超解析度圖像的辨別結果,以及該第一對抗網路對該第一標準圖像的辨別結果,得到第一對抗損失;基於該預測超解析度圖像和該第一標準圖像的非線性處理,確定第一感知損失;基於該預測超解析度圖像的特徵識別結果和該第一監督資料中的第一標準特徵,得到第一熱力圖損失;基於該預測超解析度圖像的圖像分割結果和該第一監督資料中與第一訓練樣本對應的第一標準分割結果,得到第一分割損失;及利用該第一對抗損失、第一像素損失、第一感知損失、第一熱力圖損失和第一分割損失的加權和,得到該第一網路損失。
在一些可能的實施方式中,該重構模組包括第二神經網路,該第二神經網路用於執行該引導重構,得到該重構圖像;並且,該裝置還包括第二訓練模組,其用於訓練該第二神經網路,其中訓練該第二神經網路的步驟包括:獲取第二訓練圖像集,該第二訓練圖像集包括第二訓練圖像、該第二訓練圖像對應的引導訓練圖像和第二監督資料;利用該第二訓練圖像對該引導訓練圖像進行仿射變換得到訓練仿射圖像,並將該訓練仿射圖像和該第二訓練圖像輸入至該第二神經網路,對該第二訓練圖像執行引導重構,得到該第二訓練圖像的重構預測圖像;將該重構預測圖像分別輸入至第二對抗網路、第二特徵識別網路以及第二圖像語義分割網路,得到針對該重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果;及根據該重構預測圖像的辨別結果、特徵識別結果、圖像分割結果得到該第二神經網路的第二網路損失,並基於該第二網路損失反向調節該第二神經網路的參數,直至滿足第二訓練要求。
在一些可能的實施方式中,該第二訓練模組還用於基於該第二訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果得到全域損失和局部損失;及基於該全域損失和局部損失的加權和得到該第二網路損失。
在一些可能的實施方式中,該第二訓練模組還用於基於該第二訓練圖像對應的重構預測圖像和該第二監督資料中與該第二訓練圖像對應的第二標準圖像,確定第二像素損失;基於該重構預測圖像的辨別結果,以及該第二對抗網路對該第二標準圖像的辨別結果,得到第二對抗損失;基於該重構預測圖像和該第二標準圖像的非線性處理,確定第二感知損失;基於該重構預測圖像的特徵識別結果和該第二監督資料中的第二標準特徵,得到第二熱力圖損失;基於該重構預測圖像的圖像分割結果和該第二監督資料中的第二標準分割結果,得到第二分割損失;及利用該第二對抗損失、第二像素損失、第二感知損失、第二熱力圖損失和第二分割損失的加權和,得到該全域損失。
在一些可能的實施方式中,該第二訓練模組還用於提取該重構預測圖像中至少一個部位的部位子圖像,將至少一個部位的部位子圖像分別輸入至對抗網路、特徵識別網路以及圖像語義分割網路,得到該至少一個部位的部位子圖像的辨別結果、特徵識別結果以及圖像分割結果;基於該至少一個部位的部位子圖像的辨別結果,以及該第二對抗網路對該第二標準圖像中該至少一個部位的部位子圖像的辨別結果,確定該至少一個部位的第三對抗損失;基於該至少一個部位的部位子圖像的特徵識別結果和該第二監督資料中該至少一個部位的標準特徵,得到至少一個部位的第三熱力圖損失;基於該至少一個部位的部位子圖像的圖像分割結果和該第二監督資料中該至少一個部位的標準分割結果,得到至少一個部位的第三分割損失;及利用該至少一個部位的第三對抗損失、第三熱力圖損失和第三分割損失的加和,得到該網路的局部損失。
在一些實施例中,本發明裝置的實施例具有的功能或包含的模組可以用於執行上文方法的實施例所描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本發明還提出一種電腦可讀儲存媒體的實施例,其上儲存有電腦程式指令,該電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存媒體可以是揮發性電腦可讀儲存媒體或非揮發性電腦可讀儲存媒體。
本發明還提出一種電子設備的實施例,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,該處理器被配置為上述方法。
電子設備可以被提供為終端、伺服器或其它形態的設備。
圖10示出本發明一種電子設備的實施例。例如,電子設備800可以是行動電話,電腦,數位廣播終端,訊息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖10,電子設備800可以包括以下一個或多個元件:處理元件802,記憶體804,電源元件806,多媒體元件808,音訊元件810,輸入輸出(I/ O)介面812,感測器元件814,以及通信元件816。
處理元件802用於控制電子設備800的整體操作,諸如與顯示、電話呼叫、資料通信、相機操作及/或記錄操作相關聯的操作。處理元件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理元件802可以包括一個或多個模組,便於處理元件802和其他元件之間的交互。例如,處理元件802可以包括多媒體模組,以方便多媒體元件808和處理元件802之間的交互。
記憶體804被配置為儲存各種類型的資料以支持在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令、連絡人資料、電話簿資料、訊息、圖片、影片等。記憶體804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電子抹除式可複寫唯讀記憶體(EEPROM),可擦除可規劃式唯讀記憶體(EPROM),可程式化唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁碟或光碟。
電源元件806為電子設備800的各種元件提供電力。電源元件806可以包括電源管理系統,一個或多個電源,及其他與為電子設備800生成、管理和分配電力相關聯的元件。
多媒體元件808包括在該電子設備800和用戶之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸控面板(TP)。如果螢幕包括觸控面板,螢幕可以被實現為觸控螢幕,以接收來自用戶的輸入信號。觸控面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。該觸控感測器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與該觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體元件808包括一個前置攝影鏡頭和/或後置攝影鏡頭。當電子設備800處於操作模式,如拍攝模式或影片模式時,前置攝影鏡頭和/或後置攝影鏡頭可以接收外部的多媒體資料。每個前置攝影鏡頭和後置攝影鏡頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音訊元件810被配置為輸出和/或輸入音訊信號。例如,音訊元件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風被配置為接收外部音訊信號。所接收的音訊信號可以被進一步儲存在記憶體804或經由通信元件816發送。在一些實施例中,音訊元件810還包括一個揚聲器,用於輸出音訊信號。
輸入輸出介面812為處理元件802和外圍介面模組之間提供連接,上述外圍介面模組可以是鍵盤,滑鼠,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
感測器元件814包括一個或多個感測器,用於為電子設備800提供各個方面的狀態評估。例如,感測器元件814可以檢測到電子設備800的打開/關閉狀態,元件的相對定位,例如該元件為電子設備800的顯示器和小鍵盤,感測器元件814還可以檢測電子設備800或電子設備800一個元件的位置改變,用戶與電子設備800接觸的存在或不存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器元件814可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器元件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器元件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通信元件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信元件816經由廣播頻道接收來自外部廣播管理系統的廣播信號或廣播相關信息。在一個示例性實施例中,該通信元件816還包括近距離無線通訊(NFC)模組,以促進短距離通訊。例如,在NFC模組可基於無線射頻識別(RFID)技術,紅外數據協會(IrDA)技術,超寬頻(UWB)技術,藍芽(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個特殊應用積體電路(ASIC)、數位訊號處理器(DSP)、數位訊號處理設備(DSPD)、可程式化邏輯裝置(PLD)、現場可程式化邏輯閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現,用於執行上述方法。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存媒體,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
圖11示出本發明另一種電子設備的實施例。例如,電子設備1900可以被提供為一伺服器。參照圖11,電子設備1900包括處理元件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理元件1922執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理元件1922被配置為執行指令,以執行上述方法。
電子設備1900還可以包括一個電源元件1926被配置為執行電子設備1900的電源管理,一個有線或無線網路介面1950被配置為將電子設備1900連接到網路,和一個輸入輸出介面1958。電子設備1900可以操作基於儲存在記憶體1932的操作系統,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存媒體,例如包括電腦程式指令的記憶體1932,上述電腦程式指令可由電子設備1900的處理元件1922執行以完成上述方法。
本發明提供系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存媒體,其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。
電腦可讀儲存媒體可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存媒體例如可以是――但不限於――電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存媒體的更具體的例子(非窮舉的列表)包括:行動硬碟、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦除可規劃式唯讀記憶體(EPROM)、靜態隨機存取記憶體(SRAM)、唯讀記憶光碟(CD-ROM)、數位多功能影音光碟(DVD)、記憶卡、磁片、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存媒體不被解釋為瞬時信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存媒體下載到各個計算/處理設備,或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網路下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換器、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存媒體中。
用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微程式碼、韌體指令、狀態設定資料、或者以一種或多種程式語言的任意組合編寫的原始碼或目的碼,該程式語言包括物件導向的程式語言—諸如Smalltalk、C++等,以及常規的程序式程式語言—諸如“C”語言或類似的程式語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作為一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到用戶電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供商來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路,例如可程式化邏輯裝置、現場可程式化邏輯閘陣列(FPGA)或可程式化邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本發明的各個方面。
這裡根據本發明圖像處理方法、裝置(系統)和電腦程式產品的實施例的流程圖和方塊圖描述了本發明的各個方面。應當理解,流程圖和方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式化資料處理裝置的處理器,從而生產出一種機器,使得這些指令在通過電腦或其它可程式化資料處理裝置的處理器執行時,產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存媒體中,這些指令使得電腦、可程式化資料處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀媒體則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令加載到電腦、其它可程式化資料處理裝置、或其它設備上,使得在電腦、其它可程式化資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式化資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分,該模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方塊實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
以上已經描述了本發明的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的技術改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
S10、S20、S21、S22、S30、S31、S32、S33、S301、S302、S303、S304、S51、S52、S53、S54、S61、S62、S63、S64:步驟
F1:第一圖像
F2:第二圖像
F3:引導圖像
F4:仿射圖像
F5:子圖像
F6:重構圖像
A:神經網路
10:第一獲取模組
20:第二獲取模組
30:重構模組
800、1900:電子設備
802、1922:處理元件
804、1932:記憶體
806、1926:電源元件
808:多媒體元件
810:音訊元件
812、1958:輸入輸出介面
814:感測器元件
816:通信元件
820:處理器
1950:網路介面
本發明的其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中:
圖1是一流程圖,說明本發明圖像處理方法的一實施例;
圖2是一流程圖,說明本發明圖像處理方法的該實施例的一步驟S20;
圖3是一流程圖,說明本發明圖像處理方法的該實施例的一步驟S30;
圖4是一流程圖,說明本發明圖像處理方法的該實施例的一步驟S30的另一流程;
圖5是一示意圖,說明本發明圖像處理方法的該實施例的過程;
圖6是一流程圖,說明本發明圖像處理方法的該實施例的訓練一第一神經網路的流程;
圖7是一示意圖,說明本發明圖像處理方法的該實施例的該第一神經網路的結構;
圖8是一流程圖,說明本發明圖像處理方法的該實施例的訓練一第二神經網路的流程;
圖9是一方塊圖,說明本發明圖像處理裝置的一實施例;
圖10是一方塊圖,說明本發明電子設備的一實施例;及
圖11是一方塊圖,說明本發明電子設備的另一實施例。
S10、S20、S30:步驟
Claims (15)
- 一種圖像處理方法,該方法用於圖像處理裝置,包含:獲取一第一圖像;獲取該第一圖像的至少一個引導圖像,該至少一引導圖像包括該第一圖像中的一目標對象的一引導信息,該至少一引導圖像的解析度高於該第一圖像的解析度;基於該第一圖像的至少一個引導圖像對該第一圖像進行引導重構,得到重構圖像。
- 如請求項1所述的圖像處理方法,其中,該獲取該第一圖像的至少一個引導圖像,包括:獲取該第一圖像的描述信息;基於該第一圖像的描述信息確定與該目標對象的至少一個目標部位匹配的引導圖像。
- 如請求項1或2所述的圖像處理方法,其中,該基於該第一圖像的至少一個引導圖像對該第一圖像進行引導重構,得到重構圖像,包括:利用該第一圖像中該目標對象的當前姿態,對該至少一個引導圖像執行仿射變換,得到該當前姿態下與該引導圖像對應的仿射圖像;基於該至少一個引導圖像中與該目標對象匹配的至少一個目標部位,從該引導圖像對應的仿射圖像中提取該至少一個目標部位的子圖像;及基於提取的該子圖像和該第一圖像得到該重構圖像;或者,該基於該第一圖像的至少一個引導圖像對該第一圖 像進行引導重構,得到重構圖像,包括:對該第一圖像執行超解析度圖像重建處理,得到第二圖像,該第二圖像的解析度高於該第一圖像的解析度;利用該第二圖像中該目標對象的當前姿態,對該至少一個引導圖像執行仿射變換,得到該當前姿態下與該引導圖像對應的仿射圖像;基於該至少一個引導圖像中與該對象匹配的至少一個目標部位,從該引導圖像對應的仿射圖像中提取該至少一個目標部位的子圖像,及基於提取的該子圖像和該第二圖像得到該重構圖像。
- 如請求項3所述的圖像處理方法,其中,該基於提取的該子圖像和該第一圖像得到該重構圖像,包括:利用提取的該子圖像替換該第一圖像中與該子圖像中目標部位對應的部位,得到該重構圖像,或者對該子圖像和該第一圖像進行卷積處理,得到該重構圖像。
- 如請求項3所述的圖像處理方法,其中,該基於提取的該子圖像和該第二圖像得到該重構圖像,包括利用提取的該子圖像替換該第二圖像中與該子圖像中目標部位對應的部位,得到該重構圖像,或者基於該子圖像和該第二圖像進行卷積處理,得到該重構圖像。
- 如請求項1或2所述的圖像處理方法,還包含利用該重構圖像執行身份識別,確定與該對象匹配的身份信息,該身 份信息包含用於確定該對象的身份的信息。
- 如請求項3所述的圖像處理方法,其中,還通過第一神經網路執行該對該第一圖像執行超解析度圖像重建處理,得到該第二圖像,該方法還包括訓練該第一神經網路的步驟,其包括:獲取第一訓練圖像集,該第一訓練圖像集包括多個第一訓練圖像,以及與該第一訓練圖像對應的第一監督資料,將該第一訓練圖像集中的至少一個第一訓練圖像輸入至該第一神經網路執行該超解析度圖像重建處理,得到該第一訓練圖像對應的預測超解析度圖像,將該預測超解析度圖像分別輸入至第一對抗網路、第一特徵識別網路以及第一圖像語義分割網路,得到針對該預測超解析度圖像的辨別結果、特徵識別結果以及圖像分割結果;根據該預測超解析度圖像的辨別結果、特徵識別結果、圖像分割結果得到第一網路損失,基於該第一網路損失反向調節該第一神經網路的參數,直至滿足第一訓練要求。
- 如請求項7所述的圖像處理方法,其中,根據該第一訓練圖像對應的該預測超解析度圖像的辨別結果、特徵識別結果、圖像分割結果得到第一網路損失,包括:基於該第一訓練圖像對應的預測超解析度圖像和該第一監督數據中與該第一訓練圖像對應的第一標準圖 像,確定第一像素損失;基於該預測超解析度圖像的辨別結果,以及該第一對抗網路對該第一標準圖像的辨別結果,得到第一對抗損失,基於該預測超解析度圖像和該第一標準圖像的非線性處理,確定第一感知損失,基於該預測超解析度圖像的特徵識別結果和該第一監督資料中的第一標準特徵,得到第一熱力圖損失,基於該預測超解析度圖像的圖像分割結果和該第一監督資料中與第一訓練樣本對應的第一標準分割結果,得到第一分割損失,及利用該第一對抗損失、第一像素損失、第一感知損失、第一熱力圖損失和第一分割損失的加權和,得到該第一網路損失。
- 如請求項1所述的圖像處理方法,其中,還通過第二神經網路執行該引導重構,得到該重構圖像,該圖像處理方法還包括訓練該第二神經網路的步驟,其包括:獲取第二訓練圖像集,該第二訓練圖像集包括第二訓練圖像、該第二訓練圖像對應的引導訓練圖像和第二監督資料;利用該第二訓練圖像對該引導訓練圖像進行仿射變換得到訓練仿射圖像,並將該訓練仿射圖像和該第二訓練圖像輸入至該第二神經網路,對該第二訓練圖像執行引導重構,得到該第二訓練圖像的重構預測圖像; 將該重構預測圖像分別輸入至第二對抗網路、第二特徵識別網路以及第二圖像語義分割網路,得到針對該重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果;及根據該重構預測圖像的辨別結果、特徵識別結果、圖像分割結果得到該第二神經網路的第二網路損失,並基於該第二網路損失反向調節該第二神經網路的參數,直至滿足第二訓練要求。
- 如請求項9所述的圖像處理方法,其中,該根據該訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果、圖像分割結果得到該第二神經網路的第二網路損失,包括:基於該第二訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果,以及圖像分割結果得到全域損失和局部損失,及基於該全域損失和局部損失的加權和得到該第二網路損失。
- 如請求項10所述的圖像處理方法,其中,基於該訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果得到全域損失,包括:基於該第二訓練圖像對應的重構預測圖像和該第二監督資料中與該第二訓練圖像對應的第二標準圖像,確定第二像素損失;基於該重構預測圖像的辨別結果,以及該第二對抗網路對該第二標準圖像的辨別結果,得到第二對抗損失; 基於該重構預測圖像和該第二標準圖像的非線性處理,確定第二感知損失;基於該重構預測圖像的特徵識別結果和該第二監督數據中的第二標準特徵,得到第二熱力圖損失;基於該重構預測圖像的圖像分割結果和該第二監督數據中的第二標準分割結果,得到第二分割損失;及利用該第二對抗損失、第二像素損失、第二感知損失、第二熱力圖損失和第二分割損失的加權和,得到該全域損失。
- 如請求項10或11所述的圖像處理方法,其中,基於該訓練圖像對應的重構預測圖像的辨別結果、特徵識別結果以及圖像分割結果得到局部損失,包括:提取該重構預測圖像中至少一個部位的部位子圖像,將至少一個部位的部位子圖像分別輸入至對抗網路、特徵識別網路以及圖像語義分割網路,得到該至少一個部位的部位子圖像的辨別結果、特徵識別結果以及圖像分割結果;基於該至少一個部位的部位子圖像的辨別結果,以及該第二對抗網路對該第二訓練圖像對應的第二標準圖像中該至少一個部位的部位子圖像的辨別結果,確定該至少一個部位的第三對抗損失;基於該至少一個部位的部位子圖像的特徵識別結果和該第二監督資料中該至少一個部位的標準特徵,得到至少一個部位的第三熱力圖損失; 基於該至少一個部位的部位子圖像的圖像分割結果和該第二監督數據中該至少一個部位的標準分割結果,得到至少一個部位的第三分割損失;及利用該至少一個部位的第三對抗損失、第三熱力圖損失和第三分割損失的加和,得到該網路的局部損失。
- 一種圖像處理裝置,包含:第一獲取模組,獲取第一圖像;第二獲取模組,獲取該第一圖像的至少一個引導圖像,該引導圖像包括該第一圖像中的目標對象的引導信息,該至少一引導圖像的解析度高於該第一圖像的解析度;及重構模組,基於該第一圖像的至少一個引導圖像對該第一圖像進行引導重構,得到重構圖像。
- 一種電子設備,包含:處理器;及用於儲存處理器可執行指令的記憶體;其中,該處理器被配置為調用該記憶體儲存的指令,以執行請求項1-12中任意一項所述的圖像處理方法。
- 一種電腦可讀儲存媒體,用以儲存一電腦程式指令,包含:該電腦程式指令被處理器執行時實現請求項1-12中任意一項所述的圖像處理方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910385228.XA CN110084775B (zh) | 2019-05-09 | 2019-05-09 | 图像处理方法及装置、电子设备和存储介质 |
CN201910385228.X | 2019-05-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202042175A TW202042175A (zh) | 2020-11-16 |
TWI777162B true TWI777162B (zh) | 2022-09-11 |
Family
ID=67419592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109115181A TWI777162B (zh) | 2019-05-09 | 2020-05-07 | 圖像處理方法及裝置、電子設備和電腦可讀儲存媒體 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210097297A1 (zh) |
JP (1) | JP2021528742A (zh) |
KR (1) | KR102445193B1 (zh) |
CN (1) | CN110084775B (zh) |
SG (1) | SG11202012590SA (zh) |
TW (1) | TWI777162B (zh) |
WO (1) | WO2020224457A1 (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084775B (zh) * | 2019-05-09 | 2021-11-26 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN110705328A (zh) * | 2019-09-27 | 2020-01-17 | 江苏提米智能科技有限公司 | 一种基于二维码图像采集电力数据的方法 |
CN112712470B (zh) * | 2019-10-25 | 2024-09-06 | 华为技术有限公司 | 一种图像增强方法及装置 |
CN111260577B (zh) * | 2020-01-15 | 2023-04-18 | 哈尔滨工业大学 | 基于多引导图和自适应特征融合的人脸图像复原系统 |
CN113361300A (zh) * | 2020-03-04 | 2021-09-07 | 阿里巴巴集团控股有限公司 | 标识信息识别方法、装置、设备和存储介质 |
CN113449748A (zh) * | 2020-03-25 | 2021-09-28 | 阿里巴巴集团控股有限公司 | 一种图像数据处理方法及装置 |
CN111698553B (zh) * | 2020-05-29 | 2022-09-27 | 维沃移动通信有限公司 | 视频处理方法、装置、电子设备及可读存储介质 |
EP3929876B1 (en) * | 2020-06-22 | 2024-01-03 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Face editing method and apparatus, electronic device and readable storage medium |
CN111860212B (zh) * | 2020-06-29 | 2024-03-26 | 北京金山云网络技术有限公司 | 人脸图像的超分方法、装置、设备及存储介质 |
CN111861911B (zh) * | 2020-06-29 | 2024-04-16 | 湖南傲英创视信息科技有限公司 | 基于引导相机的立体全景图像增强方法和系统 |
KR102490586B1 (ko) * | 2020-07-20 | 2023-01-19 | 연세대학교 산학협력단 | 자기지도 학습 방식의 반복적 노이즈 저감 방법 |
CN112082915B (zh) * | 2020-08-28 | 2024-05-03 | 西安科技大学 | 一种即插即用型大气颗粒物浓度检测装置及检测方法 |
CN112529073A (zh) * | 2020-12-07 | 2021-03-19 | 北京百度网讯科技有限公司 | 模型训练方法、姿态估计方法、装置及电子设备 |
CN112541876B (zh) * | 2020-12-15 | 2023-08-04 | 北京百度网讯科技有限公司 | 卫星图像处理方法、网络训练方法、相关装置及电子设备 |
CN113160079B (zh) * | 2021-04-13 | 2024-08-02 | Oppo广东移动通信有限公司 | 人像修复模型的训练方法、人像修复方法和装置 |
KR20220145567A (ko) * | 2021-04-22 | 2022-10-31 | 에스케이하이닉스 주식회사 | 고해상도 프레임 생성 장치 |
CN113240687A (zh) * | 2021-05-17 | 2021-08-10 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备和可读存储介质 |
CN113343807A (zh) * | 2021-05-27 | 2021-09-03 | 北京深睿博联科技有限责任公司 | 一种重构引导下的复杂场景的目标检测方法及装置 |
CN113269691B (zh) * | 2021-05-27 | 2022-10-21 | 北京卫星信息工程研究所 | 一种基于卷积稀疏进行噪声仿射拟合的sar图像去噪方法 |
CN113255820B (zh) * | 2021-06-11 | 2023-05-02 | 成都通甲优博科技有限责任公司 | 落石检测模型训练方法、落石检测方法及相关装置 |
CN113706428B (zh) * | 2021-07-02 | 2024-01-05 | 杭州海康威视数字技术股份有限公司 | 一种图像生成方法及装置 |
CN113781347A (zh) * | 2021-09-13 | 2021-12-10 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备和计算机可读存储介质 |
US20230081128A1 (en) * | 2021-09-16 | 2023-03-16 | Samsung Electronics Co., Ltd. | Picture quality-sensitive semantic segmentation for use in training image generation adversarial networks |
CN113903180B (zh) * | 2021-11-17 | 2022-02-25 | 四川九通智路科技有限公司 | 一种高速公路检测车辆超速的方法及系统 |
US20230196526A1 (en) * | 2021-12-16 | 2023-06-22 | Mediatek Inc. | Dynamic convolutions to refine images with variational degradation |
CN114283486B (zh) * | 2021-12-20 | 2022-10-28 | 北京百度网讯科技有限公司 | 图像处理、模型训练、识别方法、装置、设备及存储介质 |
US11756288B2 (en) * | 2022-01-05 | 2023-09-12 | Baidu Usa Llc | Image processing method and apparatus, electronic device and storage medium |
TWI810946B (zh) * | 2022-05-24 | 2023-08-01 | 鴻海精密工業股份有限公司 | 圖像識別方法、電腦設備及儲存介質 |
CN114842198B (zh) * | 2022-05-31 | 2024-07-16 | 平安科技(深圳)有限公司 | 车辆智能定损方法、装置、设备及存储介质 |
WO2024042970A1 (ja) * | 2022-08-26 | 2024-02-29 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びコンピュータ読み取り可能な非一時的記憶媒体 |
US11908167B1 (en) * | 2022-11-04 | 2024-02-20 | Osom Products, Inc. | Verifying that a digital image is not generated by an artificial intelligence |
CN116883236B (zh) * | 2023-05-22 | 2024-04-02 | 阿里巴巴(中国)有限公司 | 图像超分方法以及图像数据处理方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018036960A (ja) * | 2016-09-01 | 2018-03-08 | 株式会社リコー | 画像類似度算出装置、画像処理装置、画像処理方法、及び記録媒体 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4043708B2 (ja) * | 1999-10-29 | 2008-02-06 | 富士フイルム株式会社 | 画像処理方法および装置 |
CN101593269B (zh) * | 2008-05-29 | 2012-05-02 | 汉王科技股份有限公司 | 人脸识别装置及方法 |
US8737769B2 (en) * | 2010-11-26 | 2014-05-27 | Microsoft Corporation | Reconstruction of sparse data |
CN103839223B (zh) * | 2012-11-21 | 2017-11-24 | 华为技术有限公司 | 图像处理方法及装置 |
JP6402301B2 (ja) * | 2014-02-07 | 2018-10-10 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 視線変換装置、視線変換方法及びプログラム |
US9906691B2 (en) * | 2015-03-25 | 2018-02-27 | Tripurari Singh | Methods and system for sparse blue sampling |
JP6636828B2 (ja) * | 2016-03-02 | 2020-01-29 | 株式会社東芝 | 監視システム、監視方法、および監視プログラム |
CN106056562B (zh) * | 2016-05-19 | 2019-05-28 | 京东方科技集团股份有限公司 | 一种人脸图像处理方法、装置及电子设备 |
CN107451950A (zh) * | 2016-05-30 | 2017-12-08 | 北京旷视科技有限公司 | 人脸图像生成方法、人脸识别模型训练方法及相应装置 |
WO2018042388A1 (en) * | 2016-09-02 | 2018-03-08 | Artomatix Ltd. | Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures |
KR102044003B1 (ko) * | 2016-11-23 | 2019-11-12 | 한국전자통신연구원 | 영상 회의를 위한 전자 장치 및 그의 동작 방법 |
CN108205816B (zh) * | 2016-12-19 | 2021-10-08 | 北京市商汤科技开发有限公司 | 图像渲染方法、装置和系统 |
US10552977B1 (en) * | 2017-04-18 | 2020-02-04 | Twitter, Inc. | Fast face-morphing using neural networks |
CN107480772B (zh) * | 2017-08-08 | 2020-08-11 | 浙江大学 | 一种基于深度学习的车牌超分辨率处理方法及系统 |
CN107993216B (zh) * | 2017-11-22 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 一种图像融合方法及其设备、存储介质、终端 |
CN107958444A (zh) * | 2017-12-28 | 2018-04-24 | 江西高创保安服务技术有限公司 | 一种基于深度学习的人脸超分辨率重建方法 |
CN109993716B (zh) * | 2017-12-29 | 2023-04-14 | 微软技术许可有限责任公司 | 图像融合变换 |
US10825219B2 (en) * | 2018-03-22 | 2020-11-03 | Northeastern University | Segmentation guided image generation with adversarial networks |
CN108510435A (zh) * | 2018-03-28 | 2018-09-07 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
US10685428B2 (en) * | 2018-11-09 | 2020-06-16 | Hong Kong Applied Science And Technology Research Institute Co., Ltd. | Systems and methods for super-resolution synthesis based on weighted results from a random forest classifier |
CN109544482A (zh) * | 2018-11-29 | 2019-03-29 | 厦门美图之家科技有限公司 | 一种卷积神经网络模型生成方法及图像增强方法 |
CN109636886B (zh) * | 2018-12-19 | 2020-05-12 | 网易(杭州)网络有限公司 | 图像的处理方法、装置、存储介质和电子装置 |
CN110084775B (zh) * | 2019-05-09 | 2021-11-26 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
-
2019
- 2019-05-09 CN CN201910385228.XA patent/CN110084775B/zh active Active
-
2020
- 2020-04-24 JP JP2020570118A patent/JP2021528742A/ja active Pending
- 2020-04-24 KR KR1020207037906A patent/KR102445193B1/ko active IP Right Grant
- 2020-04-24 SG SG11202012590SA patent/SG11202012590SA/en unknown
- 2020-04-24 WO PCT/CN2020/086812 patent/WO2020224457A1/zh active Application Filing
- 2020-05-07 TW TW109115181A patent/TWI777162B/zh active
- 2020-12-11 US US17/118,682 patent/US20210097297A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018036960A (ja) * | 2016-09-01 | 2018-03-08 | 株式会社リコー | 画像類似度算出装置、画像処理装置、画像処理方法、及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN110084775B (zh) | 2021-11-26 |
CN110084775A (zh) | 2019-08-02 |
SG11202012590SA (en) | 2021-01-28 |
WO2020224457A1 (zh) | 2020-11-12 |
KR102445193B1 (ko) | 2022-09-19 |
US20210097297A1 (en) | 2021-04-01 |
JP2021528742A (ja) | 2021-10-21 |
KR20210015951A (ko) | 2021-02-10 |
TW202042175A (zh) | 2020-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI777162B (zh) | 圖像處理方法及裝置、電子設備和電腦可讀儲存媒體 | |
TWI766286B (zh) | 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介 | |
TWI771645B (zh) | 文本識別方法及裝置、電子設備、儲存介質 | |
TWI765304B (zh) | 圖像重建方法及圖像重建裝置、電子設備和電腦可讀儲存媒體 | |
CN109257645B (zh) | 视频封面生成方法及装置 | |
TWI706379B (zh) | 圖像處理方法及裝置、電子設備和儲存介質 | |
TWI759647B (zh) | 影像處理方法、電子設備,和電腦可讀儲存介質 | |
CN110517185B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
TWI738172B (zh) | 影片處理方法及裝置、電子設備、儲存媒體和電腦程式 | |
JP2022523606A (ja) | 動画解析のためのゲーティングモデル | |
CN110675409A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
TW202113757A (zh) | 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介 | |
CN109871843B (zh) | 字符识别方法和装置、用于字符识别的装置 | |
WO2019245927A1 (en) | Subtitle displaying method and apparatus | |
CN111241887B (zh) | 目标对象关键点识别方法及装置、电子设备和存储介质 | |
CN109840917B (zh) | 图像处理方法及装置、网络训练方法及装置 | |
CN111553864A (zh) | 图像修复方法及装置、电子设备和存储介质 | |
CN112597944B (zh) | 关键点检测方法及装置、电子设备和存储介质 | |
CN113506229B (zh) | 神经网络训练和图像生成方法及装置 | |
CN113469876B (zh) | 图像风格迁移模型训练方法、图像处理方法、装置及设备 | |
CN109840890B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN112613447B (zh) | 关键点检测方法及装置、电子设备和存储介质 | |
CN112750081A (zh) | 图像处理方法、装置及存储介质 | |
WO2023142554A1 (zh) | 计数方法及装置、电子设备、存储介质和计算机程序产品 | |
CN111507131B (zh) | 活体检测方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent |