TWI757668B - 網路優化方法及裝置、圖像處理方法及裝置、儲存媒體 - Google Patents
網路優化方法及裝置、圖像處理方法及裝置、儲存媒體 Download PDFInfo
- Publication number
- TWI757668B TWI757668B TW108146017A TW108146017A TWI757668B TW I757668 B TWI757668 B TW I757668B TW 108146017 A TW108146017 A TW 108146017A TW 108146017 A TW108146017 A TW 108146017A TW I757668 B TWI757668 B TW I757668B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- feature
- loss value
- network
- new
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 171
- 238000005457 optimization Methods 0.000 title claims abstract description 59
- 238000003860 storage Methods 0.000 title claims abstract description 31
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 111
- 238000012545 processing Methods 0.000 claims abstract description 65
- 230000008569 process Effects 0.000 claims description 63
- 238000003062 neural network model Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 description 51
- 238000012549 training Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
一種網路優化方法及裝置、圖像處理方法及裝置、儲存媒體,其中,所述網路優化方法包括:獲取圖像樣本組;獲取所述圖像樣本組中圖像的第一特徵和第二特徵,並利用圖像的第一特徵得到第一分類結果;對圖像樣本組內圖像對執行特徵交換處理得到新的圖像對;利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及新的圖像對的第一特徵和第二特徵的第三損失值;至少根據第一損失值、第二損失值和第三損失值調節神經網路的參數,直至滿足預設要求。本發明實施例能夠有效地提高身份識別的精度。
Description
本發明是有關於一種網路優化領域,特別是指一種網路優化方法及裝置、圖像處理方法及裝置、儲存媒體。
行人重識別旨在學習有辨別性的特徵用於行人檢索與匹配。通常情况下,圖像數據集中的行人姿態多樣性、背景多樣性等因素,會影響身份特徵的提取。目前,相關技術中通過深度神經網路提取分解特徵進行身份識別。
因此,本發明之目的,即在提供了一種網路優化技術方案。
於是,本發明網路優化方法,所述方法用於優化神經網路,其包括:獲取圖像樣本組,所述圖像樣本組包括由相同對象的圖像形成的圖像對,以及由不同對象的圖像形成的圖像對;獲取所述圖像樣本組中圖像的第一特徵和第二特徵,並利用圖像的第一
特徵得到第一分類結果,所述第一特徵包括身份特徵,所述第二特徵包括屬性特徵;對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對,所述特徵交換處理為利用圖像對內的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一圖像,以及利用第一圖像的第二特徵以及第二圖像的第一特徵生成新的第二圖像;利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及所述新的圖像對的第一特徵和第二特徵的第三損失值;至少根據所述第一損失值、第二損失值和第三損失值調節神經網路的參數,直至滿足預設要求。
在一些實施態樣中,所述獲取所述圖像樣本組中圖像的第一特徵和第二特徵,包括:將所述圖像對的兩個圖像輸入至所述神經網路的身份編碼網路模組以及屬性編碼網路模組;利用所述身份編碼網路模組獲取所述圖像對內的兩個圖像的第一特徵,以及利用所述屬性編碼網路模組獲取所述圖像對內的兩個圖像的第二特徵。
在一些實施態樣中,所述利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及所述新的圖像對的第一特徵和第二特徵的第三損失值,包括:獲得通過所述身份編碼網路模組獲取的第一特徵的第一分類結果;利用第一預設方式,根據所述第一分類結果和所述圖像樣本組中圖像對應
的真實分類結果,獲得所述第一損失值。
在一些實施態樣中,在將所述圖像對的兩個圖像輸入至所述身份編碼網路模組之前,所述方法還包括:向所述圖像對的兩個圖像中對象的圖像區域加入噪音。
在一些實施態樣中,所述對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對,包括:將所述圖像樣本組的圖像對中圖像的第一特徵和第二特徵輸入至所述神經網路的生成網路模組;通過所述生成網路模組對所述圖像樣本組內圖像對執行所述特徵交換處理,得到所述新的圖像對。
在一些實施態樣中,在輸入的圖像對為相同對象的圖像的情况下,對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對,包括:對所述圖像對內的圖像執行一次特徵交換處理得到所述新的圖像對;所述對所述圖像對內的圖像執行一次特徵交換處理得到所述新的圖像對,包括:利用圖像對中的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一圖像,以及利用所述第一圖像的第二特徵以及第二圖像的第一特徵生成新的第二圖像。
在一些實施態樣中,在輸入的圖像對為不同對象的圖像的情况下,對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對,包括:對所述圖像對內的圖像執行兩次特徵交換處理得到新的圖像對;所述對所述圖像對內的圖像執行兩次特徵交換處理
得到新的圖像對,包括:利用圖像對中的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一中間圖像,以及利用所述第一圖像的第二特徵以及第二圖像的第一特徵生成新的第二中間圖像;利用所述第一中間圖像的第一特徵以及第二中間圖像的第二特徵生成新的第一圖像,利用所述第一中間圖像的第二特徵以及第二中間圖像的第一特徵生成新的第二圖像。
在一些實施態樣中,所述利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及所述新的圖像對的第一特徵和第二特徵的第三損失值,包括:利用第二預設方式,獲得通過所述生成網路模組獲得的新的圖像對相對於原始圖像對的第二損失值,所述原始圖像對與所述新的圖像對相對應。
在一些實施態樣中,所述利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及所述新的圖像對的第一特徵和第二特徵的第三損失值,包括:按照第三預設方式,基於所述新的圖像對的第一特徵和第二特徵以及對應的原始圖像對的第一特徵和第二特徵,得到所述新的圖像對的第一特徵和第二特徵的第三損失值,所述原始圖像對與所述新的圖像對相對應。
在一些實施態樣中,在對所述圖像樣本組內圖像對執
行特徵交換處理得到新的圖像對之後,所述方法還包括:將生成的新的圖像對輸入至所述神經網路的辨別網路模組,得到表示所述新的圖像對的真實程度的標籤特徵;利用第四預設方式,基於所述標籤特徵獲得所述新的圖像對的第四損失值。
在一些實施態樣中,所述至少根據所述第一損失值、第二損失值和第三損失值調節神經網路的參數,直至滿足預設要求,包括:利用所述第一損失值、第二損失值、第三損失值以及第四損失值得到所述神經網路的損失值;利用所述神經網路的損失值調節所述神經網路的參數,直至滿足預設要求。
在一些實施態樣中,所述利用所述第一損失值、第二損失值、第三損失值以及第四損失值得到所述神經網路的損失值,包括:在輸入至所述神經網路的圖像樣本組為相同對象的圖像對時,利用第五預設方式基於所述第一損失值、第二損失值、第三損失值以及第四損失值得到所述神經網路的第一網路損失值;在輸入至所述神經網路的圖像樣本組為不同對象的圖像對時,利用第六預設方式基於所述第一損失值、第二損失值、第三損失值以及第四損失值得到所述神經網路的第二網路損失值;基於所述第一網路損失值和第二網路損失值的加和結果得到所述神經網路的損失值。
於是,本發明圖像處理方法,其包括:接收輸入圖像;通過神經網路模型識別所述輸入圖像的第一特徵;基於所述第一特
徵確定所述輸入圖像中的對象的身份;其中,所述神經網路模型為通過上述的網路優化方法優化處理後得到的網路模型。
於是,本發明網路優化裝置,其包括:獲取模組,其用於獲取圖像樣本組,所述圖像樣本組包括由相同對象的圖像形成的圖像對,以及由不同對象的圖像形成的圖像對;特徵編碼網路模組,其用於獲取所述圖像樣本組中圖像的第一特徵和第二特徵;分類模組,其用於根據圖像的第一特徵得到第一分類結果;生成網路模組,其用於對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對,所述特徵交換處理為利用圖像對內的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一圖像,以及利用第一圖像的第二特徵以及第二圖像的第一特徵生成新的第二圖像;損失值獲取模組,其用於利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及所述新的圖像對的第一特徵和第二特徵的第三損失值;調節模組,其用於至少根據所述第一損失值、第二損失值和第三損失值調節神經網路的參數,直至滿足預設要求。
在一些實施態樣中,所述特徵編碼網路模組包括身份編碼網路模組和屬性編碼網路模組,其中,所述獲取模組還用於將所述圖像對的兩個圖像輸入至所述身份編碼網路模組以及屬性編碼網路模組;並且所述身份編碼網路模組用於獲取所述圖像對內的
兩個圖像的第一特徵,以及所述屬性編碼網路模組用於獲取所述圖像對內的兩個圖像的第二特徵。
在一些實施態樣中,所述損失值獲取模組還用於獲得通過所述身份編碼網路模組獲取的第一特徵對應的第一分類結果,並利用第一預設方式,根據所述第一分類結果和所述圖像樣本組中圖像對應的真實分類結果,獲得所述第一損失值。
在一些實施態樣中,所述裝置還包括:預處理模組,其用於在將所述圖像對的兩個圖像輸入至所述身份編碼網路模組之前,向所述圖像對的兩個圖像中對象的圖像區域加入噪音。
在一些實施態樣中,所述生成網路模組還用於在輸入的圖像對為相同對象的圖像的情况下,對所述圖像對內的圖像執行一次特徵交換處理得到所述新的圖像對;具體用於利用圖像對中的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一圖像,以及利用所述第一圖像的第二特徵以及第二圖像的第一特徵生成新的第二圖像。
在一些實施態樣中,所述生成網路模組還用於在輸入的圖像對為不同對象的圖像的情况下,對所述圖像對內的圖像執行兩次特徵交換處理得到新的圖像對;具體用於利用圖像對中的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一中間圖像,以及利用所述第一圖像的第二特徵以及第二圖像的第一特徵生
成新的第二中間圖像;利用所述第一中間圖像的第一特徵以及第二中間圖像的第二特徵生成新的第一圖像,利用所述第一中間圖像的第二特徵以及第二中間圖像的第一特徵生成新的第二圖像。
在一些實施態樣中,所述損失值獲取模組還用於利用第二預設方式,獲得通過所述生成網路模組獲得的新的圖像對相對於原始圖像對的第二損失值,所述原始圖像對與所述新的圖像對相對應。
在一些實施態樣中,所述損失值獲取模組還用於按照第三預設方式,基於所述新的圖像對的第一特徵和第二特徵以及對應的原始圖像對的第一特徵和第二特徵,得到所述新的圖像對的第一特徵和第二特徵的第三損失值,所述原始圖像對與所述新的圖像對相對應。
在一些實施態樣中,所述裝置還包括:辨別網路模組,其用於接收所述新的圖像對,並得到表示所述新的圖像對的真實程度的標籤特徵;所述損失值獲取模組還用於利用第四預設方式,基於所述標籤特徵獲得所述新的圖像對的第四損失值。
在一些實施態樣中,所述調節模組還用於利用所述第一損失值、第二損失值、第三損失值以及第四損失值得到所述神經網路的損失值;以及利用所述神經網路的損失值調節所述神經網路的參數,直至滿足預設要求。
在一些實施態樣中,所述調節模組還用於在輸入至所述神經網路的圖像樣本組為相同對象的圖像對時,利用第五預設方式基於所述第一損失值、第二損失值、第三損失值以及第四損失值得到所述神經網路的第一網路損失值;在輸入至所述神經網路的圖像樣本組為不同對象的圖像對時,利用第六預設方式基於所述第一損失值、第二損失值、第三損失值以及第四損失值得到所述神經網路的第二網路損失值;基於所述第一網路損失值和第二網路損失值的加和結果得到所述神經網路的損失值。
於是,本發明圖像處理裝置,其包括:接收模組,其用於接收輸入圖像;識別模組,其用於通過神經網路模型識別所述輸入圖像的第一特徵;身份確定模組,其用於基於所述第一特徵確定所述輸入圖像中的對象的身份;其中,所述神經網路模型為通過上述的網路優化方法優化處理後得到的網路模型。
於是,本發明電子設備,其包括:處理器;用於存儲處理器可執行指令的記憶體;其中,所述處理器被配置為:執行上述的方法。
於是,本發明電腦可讀儲存媒體,其上存儲有電腦程式指令,所述電腦程式指令被處理器執行時實現上述的方法。
於是,本發明電腦程式,其中,所述電腦程式包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子
設備中的處理器執行用於實現上述網路優化方法。
本發明之功效在於:可以有效地將提取輸入圖像中的第一特徵(身份特徵)以及第一特徵以外的第二特徵,通過交換兩張圖像的第二特徵而形成新的圖片,從而可以成功地將與身份相關的特徵和與身份無關的特徵分離開,其中與身份相關的特徵可以有效地用於行人重識別。本發明提供可以在訓練和應用階段都不需要任何除了圖像數據集之外的輔助信息,並且能夠提供充分的生成監測,且有效的提高識別精度。
10:獲取模組
20:特徵編碼網路模組
30:分類模組
40:生成網路模組
50:損失值獲取模組
60:調節模組
100:接收模組
200:識別模組
300:身分確定模組
814:感測器組件
816:通信組件
820:處理器
1900:電子設備
1922:處理組件
1926:電源組件
1932:記憶體
1950:網路埠
1958:輸入輸出埠
800:電子設備
802:處理組件
804:記憶體
806:電源組件
808:多媒體組件
810:音頻組件
812:輸入/輸出埠
S100~S500:流程步驟
S201~S203:流程步驟
S301~S303:流程步驟
S3031~S3032:流程步驟
S401~S402:流程步驟
S10~S30:流程步驟
本發明之其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中:圖1示出根據本發明實施例的一種網路優化方法的流程圖,圖2示出根據本發明實施例的網路優化方法中步驟S200的流程圖圖3示出根據本發明實施例網路優化方法步驟S300的流程圖;圖4示出根據本發明實施例網路優化方法步驟S303的流程圖;圖5示出根據本發明實施例的圖像處理方法中步驟S400的流程圖;
圖6示出根據本發明實施例利用第一類樣本執行網路優化處理的過程示意圖;圖7示出根據本發明實施例利用第二類樣本執行網路優化處理的過程示意圖;圖8示出根據本發明實施例的圖像處理方法的流程圖;圖9示出根據本發明實施例的一種網路優化裝置的方塊圖;圖10示出根據本發明實施例的一種圖像處理裝置的方塊圖;圖11示出根據本發明實施例的一種電子設備800的方塊圖;圖12示出根據本發明實施例的一種電子設備1900的方塊圖。
以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裏專用的詞“示例性”意為“用作例子、實施例或說明性”。這裏作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單
獨存在A,同時存在A和B,單獨存在B這三種情况。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本發明,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本發明同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本發明的主旨。
本發明實施例提供了一種網路優化方法,其可以用於訓練神經網路或者其他機器學習網路,例如,可以應用於對目標用戶進行人臉識別、身份驗證等場景的機器學習網路的訓練過程,還可以應用於對鑒別圖像真偽等對精度要求比較高的網路的訓練過程,本發明不對具體的應用場景進行限制,只要使用本發明提供的網路優化方法實施的過程均在本發明的保護範圍內。本發明實施例以神經網路為例進行說明,但不對此進行具體限定。通過本發明實施例的網路優化方法訓練後,可以提高網路的對人物對象的識別精度,同時不需要輸入圖像以外的其他輔助信息,具有簡單方便的特點。
本發明實施例提供的網路優化方案可以由終端設備、
伺服器或其它類型的電子設備執行,其中,終端設備可以為用戶設備(User Equipment,UE)、移動設備、用戶終端、終端、行動電話、室內無線電話、個人數位助理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中,該網路優化方法可以通過處理器調用記憶體中存儲的電腦可讀指令的方式來實現。
圖1示出根據本發明實施例的一種網路優化方法的流程圖,如圖1所示,本發明實施例的網路優化方法可以包括:S100:獲取圖像樣本組,所述圖像樣本組包括由相同對象的圖像形成的圖像對,以及由不同對象的圖像形成的圖像對;S200:獲取所述圖像樣本組中圖像的第一特徵和第二特徵,並利用圖像的第一特徵得到第一分類結果,所述第一特徵包括身份特徵,所述第二特徵包括屬性特徵;S300:對所述圖像樣本組內圖像執行特徵交換處理得到新的圖像對,所述特徵交換處理為利用圖像對內的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一圖像,以及利用第一圖像的第二特徵以及第二圖像的第一特徵生成新的第二圖像;S400:利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及所述新的圖像對的第一特徵和第二特徵的第三損失值;
S500:至少根據所述第一損失值、第二損失值和第三損失值,調節神經網路的參數,直至滿足預設要求。
本發明實施例中,在通過本發明實施例訓練神經網路時,可以首先向神經網路輸入圖像樣本組,該圖像樣本組作為訓練神經網路的樣本圖像。其中,在本發明實施例中,圖像樣本組可以包括兩類圖像樣本,第一類樣本為由相同對象的不同圖像組成的圖像對,第二類樣本為由不同對象的不同圖像組成的圖像對,即,在第一類樣本中,每個圖像對內的圖像是相同對象的不同圖像,在第二類樣本中,每個圖像對內的圖像是不同對象的不同圖像。其中每個圖像對可以包括兩個圖像,如下述第一圖像和第二圖像。另外,本發明實施例可以分別利用該兩種類型的圖像樣本對神經網路進行訓練。
進一步地,本發明實施例的圖像樣本組中的至少一個圖像可以具有對應的身份標識,該身份標識可以與圖像中的對象相對應,用於分辨圖像中的人物對象的身份。本發明實施例中,圖像樣本組中的至少一個圖像可以具有與其對應的對象對應的真實分類標籤,其可以由矩陣的形式表示,根據該真實分類標籤可以比較神經網路模型的分類結果的準確程度,如此可以確定相應的損失值。
在一些實施態樣中,獲取圖像樣本組的方式可以包
括:利用通信組件接收其他電子設備傳輸的圖像樣本組,如從伺服器、手機、任意的電腦設備等接收圖像樣本組。其中圖像樣本組中的至少一個圖像可以是通過攝影機采集的視訊圖像,經編碼處理後得到的多個圖像對,但不作為本發明的具體限定。
在獲取圖像樣本組後,即可以執行神經網路的具體優化過程。在步驟S200中,首先可以識別每個圖像對的第一圖像和第二圖像的第一特徵和第二特徵。其中,第一特徵可以包括圖像中的對象的身份特徵,如服飾的顏色、形狀、配飾特徵等,第二特徵可以為第一特徵以外的特徵,如屬性特徵,其可以包括人物對象的姿態特徵、背景特徵、環境特徵等。下面對獲取第一特徵和第二特徵方式進行舉例說明。
圖2示出根據本發明實施例的網路優化方法中步驟S200的流程圖,其中,所述獲取所述圖像樣本組中圖像的第一特徵和第二特徵,並利用圖像的第一特徵得到第一分類結果,包括:S201:將所述圖像對的兩個圖像輸入至所述神經網路的身份編碼網路模組以及屬性編碼網路模組;S202:利用所述身份編碼網路模組獲取所述圖像對內的兩個圖像的第一特徵,以及利用所述屬性編碼網路模組獲取所述圖像對內的兩個圖像的第二特徵;S203:利用所述神經網路的分類模組得到所述第一特
徵對應的第一分類結果。
其中,本發明實施例的神經網路可以包括身份編碼網路模組和屬性編碼網路模組,身份編碼網路模組可以用於識別圖像中對象的身份特徵,屬性編碼網路模組可以用於識別圖像中對象的屬性特徵。因此,可以將獲取的圖像樣本組中的至少一個圖像對分別輸入至上述身份編碼網路模組和屬性編碼網路模組。通過身份編碼網路模組可以獲取接收的圖像對內的兩個圖像的第一特徵,以及利用屬性編碼網路模組獲取接收的圖像對內的兩個圖像的第二特徵。例如輸入的圖像對中的兩個圖像分別用A和B表示,則通過身份編碼網路模組獲得A的第一特徵為Au,通過身份編碼網路模組獲得B的第一特徵為Bu,通過屬性編碼網路模組獲得A的第二特徵為Av,以及通過屬性編碼網路模組獲得B的第二特徵為Bv。
其中,身份編碼網路模組可以採用預設的人物特徵提取算法提取圖像中的第一特徵,或者也可以包括卷積模組、池化模組等模組單元,以執行第一特徵的獲取,對於身份編碼網路模組的結構,本發明實施例對此不進行具體限定,只要能夠提取圖像中的第一特徵,即可以作為本發明實施例的身份編碼網路模組。
同樣的,屬性編碼網路模組也可以採用預設的姿態以及背景特徵算法提取圖像中的第二特徵,或者也可以包括卷積模組等模組單元,對於屬性編碼網路模組的結構,本發明實施例對此不
進行具體限定,只要能夠提取圖像中的第二特徵,即可以作為本發明實施例的屬性編碼網路模組。
在提取了圖像對中兩個圖像的第一特徵和第二特徵之後,本發明實施例可以執行利用第一特徵進行分類識別的操作,同時還可以執行後續的特徵交換處理。
本發明實施例的神經網路中還可以包括分類模組,身份編碼網路模組的輸出側可以與分類模組的輸入側連接,從而接收所述身份編碼網路模組輸出的第一特徵,分類模組可以根據接收到的第一特徵得到第一分類結果。其中,所述第一分類結果用於表示與第一特徵對應的身份標識的預測結果,其預測結果可以按照矩陣的形式體現,該矩陣的元素為預測對象標識的機率。本發明實施例的分類模組的構成可以自行設定,其可以利用設定分類原則得到與第一特徵對應的第一分類結果,其中只要能夠執行第一特徵的分類即可以作為本發明實施例。在得到第一分類結果之後,可以獲得該第一分類結果對應的第一損失值,並可以進一步根據該第一損失值確定神經網路的損失值,反饋調節網路中的參數。
另外,在得到每個圖像的第一特徵和第二特徵之後,可以執行圖像對的每兩個圖像之間的特徵交換處理。其中,如上述實施例所述,特徵交換處理可以為將圖像對中的第一圖像的第二特徵和第二圖像的第二特徵進行交換,並基於第一特徵和交換後的第
二特徵得到新的圖像。
通過特徵交換處理,可以將一個圖像的第一特徵與另一個圖像的第二特徵進行組合,形成新的圖像,利用該新的圖像執行分類,可以有效的實現基於身份特徵對人物身份的識別,而降低背景、姿態等屬性的影響。
圖3示出根據本發明實施例的圖像處理方法中步驟S300的流程圖,其中,所述對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對,可以包括:S301:將所述圖像樣本組的圖像對輸入至所述神經網路的生成網路模組;S302:通過所述生成網路模組對所述圖像樣本組內圖像對執行所述特徵交換處理,得到所述新的圖像對。
本發明實施例中的神經網路還可以包括生成網路模組,該生成網路模組可以對身份編碼網路模組和屬性編碼網路模組得到的第一特徵和第二特徵執行特徵交換處理,並根據交換後的特徵得到新的圖像。具體的,如上述實施例所述,本發明實施例輸入的圖像樣本組可以包括兩種類型的圖像樣本組。其中,第一類樣本中的圖像對為相同對象的圖像。對於第一類樣本的圖像對,本發明實施例可以對每個圖像對內的圖像執行一次特徵交換處理。
其中,對於第一類樣本,所述對所述圖像樣本組內圖
像執行特徵交換處理得到新的圖像對,可以包括:對所述圖像對內的圖像執行一次特徵交換處理得到所述新的圖像對。該過程可以包括:利用每個圖像對中的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一圖像,以及利用所述第一圖像的第二特徵以及第二圖像的第一特徵生成新的第二圖像。
其中,由於第一類樣本內的圖像對中的兩個圖像為同一對象的不同圖像,因此在執行特徵交換處理後得到的新圖像仍可以為同一對象的圖像。在執行完成特徵交換處理之後,可以利用得到的新的圖像與對應的原始圖像之間的差異,以及新的圖像的第一特徵和第二特徵與對應的原始圖像的第一特徵和第二特徵的差異,確定神經網路的損失值,並可以直接根據生成的新圖像執行識別分類,此時可以將生成的新的圖像對輸入至分類模組,執行分類得到第二分類結果。
例如,第一類樣本中的圖像對包括圖像A和圖像B,通過身份編碼網路模組可以獲得A的第一特徵為Au,通過身份編碼網路模組獲得B的第一特徵為Bu,通過屬性編碼網路模組獲得A的第二特徵為Av,以及通過屬性編碼網路模組獲得B的第二特徵為Bv。A和B分別為相同對象的第一圖像和第二圖像,第一圖像和第二圖像不同。在執行特徵交換處理時,可以利用A的第一特徵Au和B的
第二特徵Bv得到新的第一圖像A',以及利用B的第一特徵Bu和A的第二特徵Av得到新的第二圖像B'。
如上所述,本發明實施例的神經網路可以包括生成網路模組,生成網路模組可以用於根據接收的第一特徵和第二特徵生成新的圖像。例如生成網路模組可以包括至少一個卷積單元,或者也可以包括其他的處理單元,通過生成網路模組可以得到第一特徵和第二特徵對應的圖像。即可以通過生成網路完成上述第二特徵的交換以及基於交換後的特徵生成圖像的過程。
通過上述特徵交換處理,可以通過交換兩張圖像的第二特徵而形成新的圖片,從而可以成功地將與身份相關的特徵和與身份無關的特徵分離,通過該種方式對神經網路進行訓練,可以提高神經網路對於身份特徵的識別精度。
另外,本發明實施例的圖像樣本組還可以包括第二類樣本組,其內的圖像對為不同對象的圖像。對於第二類樣本內的圖像對,本發明實施例可以對每個圖像對內的圖像執行兩次特徵交換處理。
針對第二類樣本組,圖4示出根據本發明實施例網路優化方法步驟S303的流程圖,其中所述在輸入的圖像對為不同對象的圖像的情况下,所述對所述圖像樣本組內圖像執行特徵交換處理得到新的圖像對,可以包括:對所述圖像對內的圖像執行兩次特徵
交換處理,得到新的圖像對,該過程可以包括:S3031:利用所述第二類樣本內每個圖像對中的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一中間圖像,以及利用所述第一圖像的第二特徵以及第二圖像的第一特徵生成新的第二中間圖像;S3032:利用所述第一中間圖像的第一特徵以及第二中間圖像的第二特徵生成新的第一圖像,利用所述第一中間圖像的第二特徵以及第二中間圖像的第一特徵生成新的第二圖像。
例如,通過身份編碼網路模組獲得A的第一特徵為Au,通過身份編碼網路模組獲得B的第一特徵為Bu,通過屬性編碼網路模組獲得A的第二特徵為Av,以及通過屬性編碼網路模組獲得B的第二特徵為Bv。A和B分別為不同對象的第一圖像和第二圖像。在執行第一次特徵交換處理時,可以利用A的第一特徵Au和B的第二特徵Bv得到新的第一中間圖像A',以及利用B的第一特徵Bu和A的第二特徵Av得到新的第二中間圖像B'。對應的,在執行第二次特徵交換處理時,可以再次利用身份編碼網路模組和屬性編碼網路模組分別獲取第一中間圖像A'的第一特徵和第二特徵,以及第二中間圖像B'的第一特徵和第二特徵,並進一步利用生成網路執行第一中間圖像A'的第二特徵以及第二中間圖像B'的第二特徵的交換處理,並利用第一中間圖像A'的第一特徵和第二中間
圖像B'的第二特徵生成新的第一圖像A",以及利用第一中間圖像A'的第二特徵和第二中間圖像B'的第一特徵生成新的第二圖像B"。
通過上述兩次特徵交換處理,可以通過交換兩張圖像的第二特徵而形成新的圖片,與相同身份對象的圖像對的訓練過程不同之處在於,對於第二類樣本,由於第一次特徵交換處理後沒有直接的像素級監測,因此可以進行第二次特徵交換處理,可以生成與原始圖像對應的圖像,該過程可以成為循環生成過程。
在執行完成特徵交換處理之後,可以利用得到的新的圖像與對應的原始圖像之間的差異,以及新的圖像的第一特徵和第二特徵與對應的原始圖像的第一特徵和第二特徵的差異,同時,該新的圖像的第一特徵也可以被輸入至分類模組執行分類處理得到第二分類結果。其中,對於第一類樣本的情况,可以直接得到最終的新的圖像的第一特徵的第二分類結果,對於第二類樣本的情况,除了可以得到最終的新的圖像的第一特徵的第二分類結果,也可以得到中間圖像的第一特徵的第二分類結果。本發明實施例可以根據上述第二分類結果以及新的圖像與原始圖像之間的差異和特徵之間的差異對神經網路進行優化。即本發明實施例可以根據神經網路的每個網路模組得到的輸出結果的損失值對神經網路進行反饋調節,直至神經網路的損失值滿足預設要求,如低於損失閾值時可以
確定為滿足該預設要求。本發明實施例的神經網路的損失函數可以與網路模組的損失函數有關,例如可以為多個網路模組的損失函數的加權和,基於此可以利用每個網路模組的損失值得到神經網路的損失值,以此對神經網路每個網路模組的參數進行調整,直至滿足損失值低於損失閾值的預設要求,該損失閾值本領域技術人員可以根據需求設定,本發明對此不進行具體限定。
下面,對本發明實施例的反饋調節過程進行詳細說明。
其中,在通過身份編碼網路模組得到圖像的第一特徵之後,分類模組可以根據該第一特徵得到第一分類結果,本發明實施例可以利用第一預設方式,獲得通過所述身份編碼網路模組獲得的第一特徵所得到的第一分類結果的第一損失值。其中,圖5示出根據本發明實施例的圖像處理方法中步驟S400的流程圖,其中獲取第一損失值的過程包括:S401:獲得通過所述身份編碼網路模組獲取的第一特徵的第一分類結果;S402:利用第一預設方式,根據所述第一分類結果和所述圖像樣本組中圖像對應的真實分類結果,獲得所述第一損失值。
如上述實施例所述,在步驟S200中,在獲得樣本中的圖像的第一特徵時,可以通過分類模組執行該第一特徵的分類識
別,得到與第一特徵對應的第一分類結果,該第一分類結果可以用矩陣的形式表示,其中每個元素表示為與每個身份標籤對應的機率,通過將該第一分類結果與真實分類結果進行對比,可以得到第一差值,本發明實施例可以將該第一差值確定為第一損失值。或者在其他實施例中,也可以將第一分類結果和真實分類結果輸入至分類模組的第一損失函數中,得到第一損失值,本發明對此不進行具體限定。
本發明實施例中,在通過第一類樣本和通過第二類樣本對神經網路進行訓練時,所採用的損失函數可以相同,或者也可以不同。並且,本發明實施例可以將在通過第一類樣本訓練得到的神經網路的損失值和通過第二類樣本訓練得到神經網路的損失值進行加和處理,得到最終的神經網路的損失值,並利用該損失值對網路進行反饋調節處理,其中在反饋調節的過程中可以調節神經網路每個網路模組的參數,也可以只調節其中一部分網路模組的參數,對此本發明不作具體限制。
首先,本發明實施例可以利用第一預設方式獲得通過所述身份編碼網路模組獲得的第一特徵所得到的第一分類結果的第一損失值。其中,第一預設方式的表達式可以如公式(1)所示:
其中,⊙表示元素相乘,C(I)表示第一分類結果對應的
N維預測特徵向量,L為對應的原始圖像的真實標籤對應的N維特徵向量(真實分類結果),L C 為第一損失函數對應的第一損失值,i為大於或者等於1且小於或者等於N的變量。
通過上述方式可以得到分類模組得到第一分類結果的第一損失值。其中,本發明實施例可以根據該第一損失值對身份編碼網路模組、屬性編碼網路模組以及分類模組的參數進行反饋調節,也可以根據該第一損失值和其他網路模組的損失值確定神經網路的整體損失值,對神經網路的至少一個網路模組進行統一的反饋調節,本發明對此不作限定。
其次,本發明實施例還可以對通過生成網路模組生成的新的圖像對進行處理,得到新的圖像對的第二損失值以及對應特徵的第三損失值。其中,確定第二損失值的方式可以包括:利用第二預設方式,獲得通過所述生成網路模組獲得的新的圖像對相對於原始圖像對的第二損失值。
本發明實施例中,通過生成網路可以得到新的圖像對,本發明實施例可以根據新的圖像對與原始圖像對之間的差異,確定第二損失值。
通過上述方式可以得到對於第一類樣本,通過生成網路模組生成的新的圖像對對應的第二損失值。
另外,本發明實施例還可以獲得新的第二圖像對的特徵所對應的第三損失值,其中,可以利用第三預設方式獲得所述第三損失值。
其中,第三預設方式的表達式可以如公式(4)所示:
其中,I Xu 表示原始圖像對中的第一圖像X u 的第一特徵,為新的第一圖像的第一特徵,I Xv 表示原始圖像對中的第二圖像X v 的第二特徵,為新的第二圖像的第二特徵,T為轉置運算,L s 為第三損失函數對應的損失值,||||2表示2範數。
通過上述方式可以得到分類模組得到生成網路模組生成的新的圖像對的特徵對應的第三損失值。
同樣的,本發明實施例可以分別根據第二損失值以及第三損失值對生成網路模組的參數進行反饋調節,也可以結合第一損失值對神經網路的多個網路模組同時進行反饋調節。例如在本發明的一些實施態樣中,可以分別利用上述第一損失值、第二損失值以及第三損失值的加權和得到神經網路的損失值,也就是說,神經網路的損失函數為上述第一損失函數、第二損失函數和第三損失函數的加權和,每個損失函數的權值本發明不進行具體限定,本領域技術人員可以根據需求自行設定。在得到的損失值大於損失閾值時,反饋調節多個網路模組的參數,直至損失值小於損失閾值,即可以終止訓練,此時神經網路優化完成。而且,在本發明實施例中,在基於第一類樣本的圖像對進行訓練時的第一損失函數、第二損失函數以及第三損失函數,與基於第二類本的圖像對進行時的第一損失函數、第二損失函數以及第三損失函數可以不同,但不作為本發明的具體限定。
另外,為了加強本發明實施例的神經網路的訓練精度,本發明實施例的神經網路還可以包括辨別網路模組,該辨別網路模組可以用於識別生成的新的圖像對的真假程度(真實程度的標籤特徵),可以根據該真假程度獲得辨別網路模組確定的生成與新
的圖像對對應的第四損失值。本發明實施例的識別網路和生成網路可以構成生成對抗網路。對於該生成對抗網路的具體結構本領域技術人員可以根據現有技術手段選擇合適的結構進行配置,本發明對此不進行具體限定。其中,本發明實施例可以將生成的新的圖像對輸入至所述神經網路的辨別網路模組,並利用第四預設方式獲得所述新的圖像對的第四損失值。
其中,第四預設方式的表達式如公式(5)所示:
其中,D表示辨別網路模組的模型函數,E[]表示期望,X表示新的圖像對應的原始圖像,即真實圖像,表示輸入至辨別網路模組的新的圖像,以及D(X)表示辨別網路模組對真實圖像的標籤特徵,表示辨別網路模組對輸入的新的圖像的標籤特徵。其中,中的元素為零至一之間的數值,越接近1,表示該元素真實程度越高。
在本發明實施例中,可以單獨執行辨別網路模組的訓練過程,即可以向辨別網路模組輸入生成的新的圖像以及對應的真實圖像,並基於上述第四損失函數得到對辨別網路模組進行訓練,直到第四損失函數對應的損失值低於訓練要求的損失閾值。
在另一些可能的實施例中,也可以將辨別網路模組與前述的身份編碼網路模組、屬性編碼網路模組以及生成網路模組同
時進行訓練,對應的,本發明實施例步驟S400也可以利用上述第一損失值、第二損失值、第三損失值和第四損失值獲得神經網路的損失值。也就是說,神經網路的損失函數為上述第一損失函數、第二損失函數、第三損失函數以及第四損失函數的加權和,每個損失函數的權值本發明不進行具體限定,本領域技術人員可以根據需求自行設定。在得到的損失值大於損失閾值時,反饋調節神經網路多個網路模組的參數,直至損失值小於損失閾值,即可以終止訓練,此時神經網路優化完成。
而且,在本發明實施例中,在基於第一類樣本的圖像對進行訓練時的第一損失函數、第二損失函數以及第三損失函數,與基於第二贋本組的圖像對進行時的第一損失函數、第二損失函數以及第三損失函數可以不同,但不作為本發明的具體限定。
在本發明的一些實施例中,在輸入至身份編碼網路模組和屬性編碼網路模組的圖像樣本組為相同對象的圖像對時(第一類樣本),利用第五預設方式基於所述第一損失值、第二損失值、第三損失值以及第四損失值得到所述神經網路的第一網路損失值,其中,第五預設方式的表達式如公式(6)所示:Lintra=Lc+λ irLir+λ sLs+λ advLadv 公式(6);其中,λ ir、λ s和λ adv分別為第二損失函數、第三損失函數以及第四損失函數的權重,Lintra為第一網路損失值。
在輸入至身份編碼網路模組和屬性編碼網路模組的圖像樣本組為不同對象的圖像對時,利用第六預設方式基於所述第一損失值、第二損失值、第三損失值以及第四損失值得到所述神經網路的第二網路損失值。其中,第六預設方式的表達式如公式(7)所示:Linter=Lc+λ crLcr+λ sLs+λ advLadv 公式(7);其中,λ cr、λ s和λ adv分別為第二損失函數、第三損失函數以及第四損失函數的權重,Linter為第二網路損失值。
本發明實施例可以根據第一網路損失值以及第二網路損失值的加和結果,得到神經網路的損失值,即神經網路的損失值L=Lintra+Linter。訓練過程中,在得到的損失值大於損失閾值時,反饋調節神經網路的參數,例如可以反饋調節多個網路模組(身份編碼網路模組、屬性編碼網路模組、生成網路模組以及辨別網路模組等)的參數,直至神經網路的損失值小於損失閾值,即可以終止訓練,此時神經網路優化完成。或者,在其他實施例中,也可以根據第一損失值調節身份編碼網路模組、屬性編碼網路模組以及分類模組的參數,以及根據第二損失值和第三損失值反饋調節生成網路模組的參數,根據第四損失值調節辨別網路模組的參數,直至損失值小於相應損失函數的損失閾值,即終止訓練。即本發明實施例可以分別對任意一個網路模組單獨進行反饋調節和訓練,也可以通過
神經網路的損失值,對神經網路部分或全部網路模組進行統一調節,本領域技術人員可以根據需求選擇適當的方式執行該調節過程。
另外,在本發明實施例中,為了提高神經網路的身份特徵的識別精度,在將所述圖像樣本組輸入至身份編碼網路模組之前還可以在圖像中添加噪音,例如向所述圖像對的兩個圖像中對象的圖像區域加入噪音。本發明實施例中,通過在人物對象的圖像區域的部分區域內加入覆蓋層的方式加入噪音,所述覆蓋層的大小本領域技術人員可以根據需求自行設定,本發明對此不進行限定。在此需要說明的是,本發明實施例僅在輸入至身份編碼網路模組的圖像加入噪音,對其他網路模組不引入噪音。通過該方式可以有效的提高神經網路的身份識別的精度。
為了更加清楚的說明本發明實施例,下面舉例對第一類樣本和第二類樣本的訓練過程進行說明。
圖6示出根據本發明實施例利用第一類樣本執行網路優化處理的過程示意圖,其中可以將針對同一對象的兩個圖像Xu和Xv輸入至身份編碼網路Eid獲得第一特徵,以及將圖像Xu和Xv輸入至屬性編碼網路Ea獲得第二特徵,將第一特徵輸入至分類器C得到第一分類結果,並得到第一損失值Lc。其中,輸入至身份編碼網路Eid的圖像可以被加入噪音,例如在人物對象的區域部分加入覆
蓋圖,以遮擋部分區域。
對圖像對中的第二特徵交換,並利用生成網路模組G得到交換處理後的兩個新的圖像,此時可以獲得兩個新的圖像對應的第二損失值Lir,以及兩個新的圖像對應的第一特徵和第二特徵對應的第三損失值Ls,將新的圖像輸入至辨別網路模組D,得到第四損失值Ladv。此時可以利用第一損失值Lc、第二損失值Lir、第三損失值Ls和第四損失值Ladv得到神經網路的損失值,在該損失值小於損失閾值時終止訓練,否則反饋調節神經網路的至少一個網路模組的參數。
圖7示出根據本發明實施例利用第二類樣本執行網路優化處理的過程示意圖,其中可以將針對不同對象的兩個圖像Xu和Yw輸入至身份編碼網路Eid獲得第一特徵,以及將圖像Xu和Yw輸入至屬性編碼網路Ea獲得第二特徵,將第一特徵輸入至分類器C得到第一分類結果,並得到第一損失值Lc。其中,輸入至身份編碼網路Eid的圖像可以被加入噪音,例如在人物對象的區域部分加入覆蓋圖,以遮擋部分區域。
對圖像對中的第二特徵交換,並利用生成器得到交換處理後的兩個中間圖像,進一步利用身份編碼網路模組Eid和屬性編碼網路模組Ea得到這兩個中間圖像的第一特徵和第二特徵,繼而交換中間圖像的第二特徵得到新的圖像。此時可以獲得兩個新的圖
像對應的第二損失值Ls,以及兩個新的圖像對應的第一特徵和第二特徵對應的第三損失值Lcr,將中間圖像或者新的圖像輸入至辨別網路模組D,得到第四損失值Ladv。此時可以利用第一損失值、第二損失值、第三損失值和第四損失值得到神經網路的損失值,在該損失值小於損失閾值時終止訓練,否則反饋調節神經網路的至少一個網路模組的參數。
本發明實施例,可以有效地將提取輸入圖像中的第一特徵(身份特徵)以及第一特徵以外的第二特徵,通過交換兩張圖像的第二特徵而形成新的圖片,從而可以成功地將與身份相關的特徵和與身份無關的特徵分離開,其中與身份相關的特徵可以有效地用於行人重識別。本發明實施例提供可以在訓練和應用階段都不需要任何除了圖像數據集之外的輔助信息,並且能夠提供充分的生成監測,且有效的提高識別精度。
本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
另外,本發明實施例還提供了一種圖像處理方法,該方法可以應用由第一方面提供的圖像優化方法得到的神經網路執行圖像識別的操作,獲得與輸入圖像對應身份的識別結果。
圖8示出根據本發明實施例的圖像處理方法的流程圖,其中所述方法包括:S10:接收輸入圖像;S20:通過神經網路模型識別所述輸入圖像的第一特徵;S30:基於所述第一特徵確定所述輸入圖像中的對象的身份;其中,所述神經網路模型為通過第一方面中任意一項所述的網路優化方法優化處理後得到的網路模型。
本發明實施例中,可以由第一方面訓練得到滿足要求的神經網路模型,並利用該神經網路模型執行圖像中對象的身份識別的操作,即可以利用神經網路模型形成能夠執行圖像識別等操作的圖像處理裝置,利用該裝置可以執行上述身份識別過程。
本發明實施例中,可以包括數據庫,該數據庫內可以包括多個人員對象的信息,例如人員對象的圖像、以及對應的身份信息,如姓名、年齡、職位等信息,本發明對此不進行限定。
在接入到輸入圖像後,本發明實施例可以將接收的輸入圖像的第一特徵與數據庫中的人員對象的圖像進行對比,判定數據庫中與之匹配的人員對象。由於本發明實施例的神經網路模型經上述實施例進行訓練,並滿足精度要求,從而本發明實施例可以精確的匹配出與輸入圖像匹配的對象,並進而獲得其相應的身份信
息。
本發明實施例的圖像處理方法能夠快速的識別圖像對象的身份,並能夠提高識別精度。
可以理解,本發明提及的上述各個方法實施例,在不違背原理邏輯的情况下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本發明不再贅述。
此外,本發明還提供了圖像處理裝置、電子設備、電腦可讀儲存媒體、程式,上述均可用來實現本發明提供的任一種圖像處理方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖9示出根據本發明實施例的網路優化裝置的方塊圖,如圖9所示,所述網路優化裝置包括:獲取模組10,其用於獲取圖像樣本組,所述圖像樣本組包括由相同對象的圖像形成的圖像對,以及由不同對象的圖像形成的圖像對;特徵編碼網路模組20,其用於獲取所述圖像樣本組中圖像的第一特徵和第二特徵;分類模組30,其用於根據圖像的第一特徵得到第一分類結果;生成網路模組40,其用於對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對,所述特徵交換處理為利用圖像對內的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一圖像,以及利用第一圖像的第二特徵以及第二圖像的
第一特徵生成新的第二圖像;損失值獲取模組50,其用於利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及所述新的圖像對的第一特徵和第二特徵的第三損失值;調節模組60,其用於至少根據所述第一損失值、第二損失值和第三損失值調節神經網路的參數,直至滿足預設要求。
在一些實施態樣中,所述特徵編碼網路模組包括身份編碼網路模組和屬性編碼網路模組,其中,所述獲取模組還用於將所述圖像對的兩個圖像輸入至所述身份編碼網路模組以及屬性編碼網路模組;並且所述身份編碼網路模組用於獲取所述圖像對內的兩個圖像的第一特徵,以及所述屬性編碼網路模組用於獲取所述圖像對內的兩個圖像的第二特徵。
在一些實施態樣中,所述損失值獲取模組還用獲得通過所述身份編碼網路模組獲取的第一特徵對應的第一分類結果,並利用第一預設方式,根據所述第一分類結果和所述圖像樣本組中圖像對應的真實分類結果,獲得所述第一損失值。
在一些實施態樣中,所述裝置還包括:預處理模組,其用於在將所述圖像對的兩個圖像輸入至所述身份編碼網路模組之前,向所述圖像對的兩個圖像中對象的圖像區域加入噪音。
在一些實施態樣中,所述生成網路模組還用於在輸入的圖像對為相同對象的圖像的情况下,對所述圖像對內的圖像執行
一次特徵交換處理得到所述新的圖像對,其包括:利用圖像對中的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一圖像,以及利用所述第一圖像的第二特徵以及第二圖像的第一特徵生成新的第二圖像。
在一些實施態樣中,所述生成網路模組還用於在輸入的圖像對為不同對象的圖像的情况下,對所述圖像對內的圖像執行兩次特徵交換處理得到新的圖像對,其包括:利用圖像對中的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一中間圖像,以及利用所述第一圖像的第二特徵以及第二圖像的第一特徵生成新的第二中間圖像;利用所述第一中間圖像的第一特徵以及第二中間圖像的第二特徵生成新的第一圖像,利用所述第一中間圖像的第二特徵以及第二中間圖像的第一特徵生成新的第二圖像。
在一些實施態樣中,所述損失值獲取模組還用於利用第二預設方式,獲得通過所述生成網路模組獲得的新的圖像對相對於原始圖像對的第二損失值,所述原始圖像對與所述新的圖像對相對應。
在一些實施態樣中,所述損失值獲取模組還用於按照第三預設方式,基於所述新的圖像對的第一特徵和第二特徵以及對應的原始圖像對的第一特徵和第二特徵,得到所述新的圖像對的第一特徵和第二特徵的第三損失值,所述原始圖像對與所述新的圖像
對相對應。
在一些實施態樣中,所述裝置還包括:辨別網路模組,其用於接收所述新的圖像對,並得到表示所述新的圖像對的真實程度的標籤特徵;所述損失值獲取模組還用於利用第四預設方式,基於所述標籤特徵獲得所述新的圖像對的第四損失值。
在一些實施態樣中,所述調節模組還用於利用所述第一損失值、第二損失值、第三損失值以及第四損失值得到所述神經網路的損失值;以及利用所述神經網路的損失值調節所述神經網路的參數,直至滿足預設要求。
在一些實施態樣中,所述調節模組還用於在輸入至所述神經網路的圖像樣本組為相同對象的圖像對時,利用第五預設方式基於所述第一損失值、第二損失值、第三損失值以及第四損失值得到所述神經網路的第一網路損失值;在輸入至所述神經網路的圖像樣本組為不同對象的圖像對時,利用第六預設方式基於所述第一損失值、第二損失值、第三損失值以及第四損失值得到所述神經網路的第二網路損失值;基於所述第一網路損失值和第二網路損失值的加和結果得到所述神經網路的損失值。
圖10示出根據本發明實施例的一種圖像處理裝置的方塊圖。如圖10所示,圖像處理裝置可以包括:接收模組100,其用於接收輸入圖像;
識別模組200,其用於通過神經網路模型識別所述輸入圖像的第一特徵;身份確定模組300,其用於基於所述第一特徵確定所述輸入圖像中的對象的身份;其中,所述神經網路模型為通過所述的網路優化方法優化處理後得到的網路模型。
在一些實施例中,本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裏不再贅述。
本發明實施例還提出一種電腦可讀儲存媒體,其上存儲有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存媒體可以是非揮發性電腦可讀儲存媒體。
本發明實施例還提出一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為上述方法。
本發明實施例還提供了一種電腦程式產品,包括電腦可讀代碼,當電腦可讀代碼在設備上運行時,設備中的處理器執行用於實現如上任一實施例提供的上述方法的指令。
電子設備可以被提供為終端、伺服器或其它形態的設備。
圖11示出根據本發明實施例的一種電子設備800的方塊圖。例如,電子設備800可以是移動電話,電腦,數位廣播終端,消息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖11,電子設備800可以包括以下一個或多個組件:處理組件802,記憶體804,電源組件806,多媒體組件808,音頻組件810,輸入/輸出(I/O)的埠812,感測器組件814,以及通信組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,數據通信,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他組件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互。
記憶體804被配置為儲存各種類型的數據以支持在電子設備800的操作。這些數據的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,連絡人數據,電話簿數據,訊息,圖片,視訊等。記憶體804可以由任何類型的揮發性或非揮發性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),
電子抹除式可程式化唯讀記憶體(EEPROM),可擦除可程式化唯讀記憶體(EPROM),可程式化唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。
電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與為電子設備800生成、管理和分配電力相關聯的組件。
多媒體組件808包括在所述電子設備800和用戶之間的提供一個輸出埠的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果螢幕包括觸摸面板,螢幕可以被實現為觸控式螢幕,以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸控感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸控感測器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝影機和/或後置攝影機。當電子設備800處於操作模式,如拍攝模式或錄影模式時,前置攝影機和/或後置攝影機可以接收外部的多媒體數據。每個前置攝影機和後置攝影機可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音頻組件810被配置為輸出和/或輸入音頻信號。例如,音頻組件810包括一個麥克風(MIC),當電子設備800處於
操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中,音頻組件810還包括一個揚聲器,用於輸出音頻信號。
I/O埠812為處理組件802和周邊介面模組之間提供埠,上述周邊介面模組可以是鍵盤,滑鼠,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
感測器組件814包括一個或多個感測器,用於為電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,組件的相對定位,例如所述組件為電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變,用戶與電子設備800接觸的存在或不存在,電子設備800方位或加速/减速和電子設備800的溫度變化。感測器組件814可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準
的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關信息。在一個示例性實施例中,所述通信組件816還包括近場通信(NFC)模組,以促進短程通信。例如,在NFC模組可基於射頻識別(RFID)技術,紅外數據協會(IrDA)技術,超寬帶(UWB)技術,藍牙(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個特殊應用積體電路(ASIC)、數位信號處理器(DSP)、數位信號處理設備(DSPD)、可程式化邏輯裝置(PLD)、現場可程式化邏輯閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現,用於執行上述方法。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存媒體,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
圖12是根據一示例性實施例示出的一種電子設備1900的方塊圖。例如,電子設備1900可以被提供為一伺服器。參照圖12,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指
令的模組。此外,處理組件1922被配置為執行指令,以執行上述方法。
電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理,一個有線或無線網路埠1950被配置為將電子設備1900連接到網路,和一個輸入輸出(I/O)埠1958。電子設備1900可以操作基於儲存在記憶體1932的操作系統,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存媒體,例如包括電腦程式指令的記憶體1932,上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。
本發明可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存媒體,其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。
電腦可讀儲存媒體可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存媒體例如可以是電存放裝置、磁存放裝置、光存放裝置、電磁存放裝置、半導體存放裝置或者上述的任意合適的組合,但不限於電存放裝置、磁存放裝置、光存放裝置、電磁存放裝置、半導體存放裝置或者上述的任意合適的組合。電腦可讀儲存媒體的更具體的例子(非窮舉的列表)包括:
可擕式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式化唯讀記憶體(EPROM或閃存)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能盤(DVD)、記憶棒、軟碟、機械編碼設備、例如其上存儲有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裏所使用的電腦可讀儲存媒體不被解釋為瞬時信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裏所描述的電腦可讀程式指令可以從電腦可讀儲存媒體下載到各個計算/處理設備,或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網路下載到外部電腦或外部儲存裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換器、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路埠從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存媒體中。
用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置數據、或者以一種或多種編程語言的任意組合
編寫的源代碼或目標代碼,所述編程語言包括面向對象的編程語言-諸如Smalltalk、C++等,以及常規的過程式編程語言-諸如“C”語言或類似的編程語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作為一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路-包括區域網路(LAN)或廣域網路(WAN)-連接到用戶電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供商來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態信息來個性化定制電子電路,例如可程式化邏輯電路、現場可程式化門陣列(FPGA)或可程式化邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本發明的各個方面。
這裏參照根據本發明實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解,流程圖和/或方塊圖的每個方框以及流程圖和/或方塊圖中各方框的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式化數據處理裝置的處理器,從而生產出一種機器,使得這些指令在通過電腦或其它可程式化數據處理裝置的處理器
執行時,產生了實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存媒體中,這些指令使得電腦、可程式化數據處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀媒體則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令加載到電腦、其它可程式化數據處理裝置、或其它設備上,使得在電腦、其它可程式化數據處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式化數據處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方框可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方框實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要
注意的是,方塊圖和/或流程圖中的每個方框、以及方塊圖和/或流程圖中的方框的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
以上已經描述了本發明的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情况下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中技術的技術改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
S100~S500:流程步驟
Claims (17)
- 一種網路優化方法,所述方法用於優化神經網路,所述網路優化方法包括:獲取圖像樣本組,所述圖像樣本組包括由相同對象的圖像形成的圖像對,以及由不同對象的圖像形成的圖像對;獲取所述圖像樣本組中圖像的第一特徵和第二特徵,並利用圖像的第一特徵得到第一分類結果,所述第一特徵包括身份特徵,所述第二特徵包括屬性特徵;對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對,所述特徵交換處理為利用所述圖像對內的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一圖像,以及利用所述第一圖像的第二特徵以及所述第二圖像的第一特徵生成新的第二圖像;利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及所述新的圖像對的第一特徵和第二特徵的第三損失值;至少根據所述第一損失值、所述第二損失值和所述第三損失值調節神經網路的參數,直至滿足預設要求。
- 如請求項1所述的網路優化方法,其中,所述獲取所述圖像樣本組中圖像的第一特徵和第二特徵,包括:將所述圖像對的兩個圖像輸入至所述神經網路的身份編碼網路模組以及屬性編碼網路模組;利用所述身份編碼網路模組獲取所述圖像對內的兩個圖像的第一特徵,以及利用所述屬性編碼網路模組獲取所述圖像對內的兩個圖像的第二特徵。
- 如請求項2所述的網路優化方法,其中,所述利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及所述新的圖像對的第一特徵和第二特徵的第三損失值,包括:獲得通過所述身份編碼網路模組獲取的所述第一特徵的所述第一分類結果;利用第一預設方式,根據所述第一分類結果和所述圖像樣本組中圖像對應的真實分類結果,獲得所述第一損失值。
- 如請求項2或3所述的網路優化方法,其中,在將所述圖像對的兩個圖像輸入至所述神經網路的所述身份編碼網路模組之前,所述網路優化方法還包括:向所述圖像對的兩個圖像中對象的圖像區域加入噪音。
- 如請求項1-3中任意一項所述的網路優化方法,其中,所述對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對,包括:將所述圖像樣本組的圖像對中圖像的第一特徵和第二特徵輸入至所述神經網路的生成網路模組;通過所述生成網路模組對所述圖像樣本組內圖像對執行所述特徵交換處理,得到所述新的圖像對。
- 如請求項1-3中任意一項所述的網路優化方法,其中,在輸入的圖像對為相同對象的圖像的情况下,對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對,包括:對所述圖像對內的圖像執行一次特徵交換處理得到所述新的圖像對;所述對所述圖像對內的圖像執行一次特徵交換處理得到所述新的圖像對,包括:利用所述圖像對中的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一圖像,以及利用所述第一圖像的第二特徵以及所述第二圖像的第一 特徵生成新的第二圖像。
- 如請求項1-3中任意一項所述的網路優化方法,其中,在輸入的圖像對為不同對象的圖像的情况下,對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對,包括:對所述圖像對內的圖像執行兩次特徵交換處理得到新的圖像對;所述對所述圖像對內的圖像執行兩次特徵交換處理得到新的圖像對,包括:利用所述圖像對中的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一中間圖像,以及利用所述第一圖像的第二特徵以及第二圖像的第一特徵生成新的第二中間圖像;利用所述第一中間圖像的第一特徵以及所述第二中間圖像的第二特徵生成新的第一圖像,利用所述第一中間圖像的第二特徵以及第二中間圖像的第一特徵生成新的第二圖像。
- 如請求項5所述的網路優化方法,其中,所述利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及所述新的圖像對的第一特徵和第二特徵的第三損失值,包括:利用第二預設方式,獲得通過所述生成網路模組獲得的新的圖像對相對於原始圖像對的第二損失值,所述原始圖像對與所述新的圖像對相對應。
- 如請求項1-3中任意一項所述的網路優化方法,其中,所述利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及所述新的圖像對的第一特徵和第二特徵的第三損失值,包括:按照第三預設方式,基於所述新的圖像對的第一特徵和第二特徵以及原始圖像對的第一特徵和第二特徵,得到所述新的圖像對的第一特徵和第二特徵的第三損失值,所述原始圖像對與所述新的圖 像對相對應。
- 如請求項1-3中任意一項所述的網路優化方法,其中,在對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對之後,所述網路優化方法還包括:將生成的所述新的圖像對輸入至所述神經網路的辨別網路模組,得到表示所述新的圖像對的真實程度的標籤特徵;利用第四預設方式,基於所述標籤特徵獲得所述新的圖像對的第四損失值。
- 如請求項10所述的網路優化方法,其中,所述至少根據所述第一損失值、所述第二損失值和所述第三損失值調節神經網路的參數,直至滿足預設要求,包括:利用所述第一損失值、所述第二損失值、所述第三損失值以及所述第四損失值得到所述神經網路的損失值;利用所述神經網路的損失值調節所述神經網路的參數,直至滿足預設要求。
- 如請求項11所述的網路優化方法,其中,所述利用所述第一損失值、所述第二損失值、所述第三損失值以及所述第四損失值得到所述神經網路的損失值,包括:在輸入至所述神經網路的圖像樣本組為相同對象的圖像對時,利用第五預設方式基於所述第一損失值、所述第二損失值、所述第三損失值以及所述第四損失值得到所述神經網路的第一網路損失值;在輸入至所述神經網路的圖像樣本組為不同對象的圖像對時,利用第六預設方式基於所述第一損失值、所述第二損失值、所述第 三損失值以及所述第四損失值得到所述神經網路的第二網路損失值;基於所述第一網路損失值和所述第二網路損失值的加和結果得到所述神經網路的損失值。
- 一種圖像處理方法,其中,包括:接收輸入圖像;通過神經網路模型識別所述輸入圖像的第一特徵;基於所述第一特徵確定所述輸入圖像中的對象的身份;其中,所述神經網路模型為通過請求項1-12中任意一項所述的網路優化方法優化處理後得到的網路模型。
- 一種網路優化裝置,其包括:獲取模組,其用於獲取圖像樣本組,所述圖像樣本組包括由相同對象的圖像形成的圖像對,以及由不同對象的圖像形成的圖像對;特徵編碼網路模組,其用於獲取所述圖像樣本組中圖像的第一特徵和第二特徵;分類模組,用於根據圖像的第一特徵得到第一分類結果;生成網路模組,用於對所述圖像樣本組內圖像對執行特徵交換處理得到新的圖像對,所述特徵交換處理為利用所述圖像對內的第一圖像的第一特徵以及第二圖像的第二特徵生成新的第一圖像,以及利用所述第一圖像的第二特徵以及所述第二圖像的第一特徵生成新的第二圖像;損失值獲取模組,用於利用預設方式,獲得所述第一分類結果的第一損失值、所述新的圖像對的第二損失值,以及所述新的圖像對的第一特徵和第二特徵的第三損失值; 調節模組,用於至少根據所述第一損失值、所述第二損失值和所述第三損失值調節神經網路的參數,直至滿足預設要求。
- 一種圖像處理裝置,其中,包括:接收模組,用於接收輸入圖像;識別模組,用於通過神經網路模型識別所述輸入圖像的第一特徵;身份確定模組,用於基於所述第一特徵確定所述輸入圖像中的對象的身份;其中,所述神經網路模型為通過請求項1-12中任意一項所述的網路優化方法優化處理後得到的網路模型。
- 一種圖像處理裝置,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:執行請求項1至12中任意一項所述的網路優化方法,或者執行如請求項13所述的圖像處理方法。
- 一種電腦可讀儲存媒體,其上存儲有電腦程式指令,其中,所述電腦程式指令被處理器執行時實現請求項1至12中任意一項所述的網路優化方法,或者實現請求項13所述的圖像處理方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910036096.X | 2019-01-15 | ||
CN201910036096.XA CN111435432B (zh) | 2019-01-15 | 2019-01-15 | 网络优化方法及装置、图像处理方法及装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202029062A TW202029062A (zh) | 2020-08-01 |
TWI757668B true TWI757668B (zh) | 2022-03-11 |
Family
ID=71580810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108146017A TWI757668B (zh) | 2019-01-15 | 2019-12-16 | 網路優化方法及裝置、圖像處理方法及裝置、儲存媒體 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11416703B2 (zh) |
JP (1) | JP7074877B2 (zh) |
KR (1) | KR102454515B1 (zh) |
CN (1) | CN111435432B (zh) |
SG (1) | SG11202009395SA (zh) |
TW (1) | TWI757668B (zh) |
WO (1) | WO2020147414A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI824796B (zh) * | 2022-10-26 | 2023-12-01 | 鴻海精密工業股份有限公司 | 圖像分類方法、電腦設備及儲存介質 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112132832B (zh) * | 2020-08-21 | 2021-09-28 | 苏州浪潮智能科技有限公司 | 一种增强图像实例分割的方法、系统、设备及介质 |
WO2022070106A1 (en) * | 2020-09-29 | 2022-04-07 | Servicenow Canada Inc. | Systems and methods for enforcing constraints in character recognition |
CN112989085B (zh) * | 2021-01-29 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN113469249B (zh) * | 2021-06-30 | 2024-04-09 | 阿波罗智联(北京)科技有限公司 | 图像分类模型训练方法、分类方法、路侧设备和云控平台 |
CN114119976B (zh) * | 2021-11-30 | 2024-05-14 | 广州文远知行科技有限公司 | 语义分割模型训练、语义分割的方法、装置及相关设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201520907A (zh) * | 2013-11-29 | 2015-06-01 | Nat Inst Chung Shan Science & Technology | 影像式機踏車與行人偵測系統及其方法 |
TW201623055A (zh) * | 2014-12-25 | 2016-07-01 | 財團法人車輛研究測試中心 | 行人偵測系統 |
CN109102025A (zh) * | 2018-08-15 | 2018-12-28 | 电子科技大学 | 基于深度学习联合优化的行人重识别方法 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9025864B2 (en) * | 2010-06-01 | 2015-05-05 | Hewlett-Packard Development Company, L.P. | Image clustering using a personal clothing model |
CN103366177B (zh) * | 2012-03-28 | 2016-12-07 | 佳能株式会社 | 对象检测分类器生成方法和设备、图像对象检测方法和设备 |
US9740917B2 (en) * | 2012-09-07 | 2017-08-22 | Stone Lock Global, Inc. | Biometric identification systems and methods |
CN105283884A (zh) * | 2013-03-13 | 2016-01-27 | 柯法克斯公司 | 对移动设备捕获的数字图像中的对象进行分类 |
GB201501510D0 (en) * | 2015-01-29 | 2015-03-18 | Apical Ltd | System |
US11205270B1 (en) * | 2015-03-25 | 2021-12-21 | Amazon Technologies, Inc. | Collecting user pattern descriptors for use in tracking a movement of a user within a materials handling facility |
US9953217B2 (en) * | 2015-11-30 | 2018-04-24 | International Business Machines Corporation | System and method for pose-aware feature learning |
CN106778604B (zh) * | 2015-12-15 | 2020-04-14 | 西安电子科技大学 | 基于匹配卷积神经网络的行人再识别方法 |
CN106096727B (zh) * | 2016-06-02 | 2018-12-07 | 腾讯科技(深圳)有限公司 | 一种基于机器学习的网络模型构造方法及装置 |
US10163042B2 (en) * | 2016-08-02 | 2018-12-25 | International Business Machines Corporation | Finding missing persons by learning features for person attribute classification based on deep learning |
KR102634166B1 (ko) * | 2016-10-04 | 2024-02-08 | 한화비전 주식회사 | 다중 크기 컨볼루션 블록 층을 이용한 얼굴 인식 장치 |
KR20180057096A (ko) * | 2016-11-21 | 2018-05-30 | 삼성전자주식회사 | 표정 인식과 트레이닝을 수행하는 방법 및 장치 |
CN108229267B (zh) * | 2016-12-29 | 2020-10-16 | 北京市商汤科技开发有限公司 | 对象属性检测、神经网络训练、区域检测方法和装置 |
KR102036963B1 (ko) * | 2017-01-03 | 2019-11-29 | 한국과학기술원 | Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템 |
US10255681B2 (en) * | 2017-03-02 | 2019-04-09 | Adobe Inc. | Image matting using deep learning |
CN108229276B (zh) * | 2017-03-31 | 2020-08-11 | 北京市商汤科技开发有限公司 | 神经网络训练及图像处理方法、装置和电子设备 |
US10824910B2 (en) * | 2017-05-04 | 2020-11-03 | Htc Corporation | Image processing method, non-transitory computer readable storage medium and image processing system |
WO2018208791A1 (en) * | 2017-05-08 | 2018-11-15 | Aquifi, Inc. | Systems and methods for inspection and defect detection using 3-d scanning |
KR102139740B1 (ko) * | 2017-06-09 | 2020-07-31 | 한국과학기술원 | 전자 장치 및 학습 모델 최적화 방법 |
CN107704838B (zh) * | 2017-10-19 | 2020-09-25 | 北京旷视科技有限公司 | 目标对象的属性识别方法及装置 |
FR3073311A1 (fr) * | 2017-11-09 | 2019-05-10 | Centralesupelec | Procede d'estimation de pose d'une camera dans le referentiel d'une scene tridimensionnelle, dispositif, systeme de realite augmentee et programme d'ordinateur associe |
CN108230359B (zh) * | 2017-11-12 | 2021-01-26 | 北京市商汤科技开发有限公司 | 目标检测方法和装置、训练方法、电子设备、程序和介质 |
CN108229379A (zh) * | 2017-12-29 | 2018-06-29 | 广东欧珀移动通信有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN108090470B (zh) * | 2018-01-10 | 2020-06-23 | 浙江大华技术股份有限公司 | 一种人脸对齐方法及装置 |
JP7062960B2 (ja) * | 2018-01-12 | 2022-05-09 | 株式会社リコー | 情報処理システム、プログラム、情報処理装置及び情報出力方法 |
CN110097606B (zh) * | 2018-01-29 | 2023-07-07 | 微软技术许可有限责任公司 | 面部合成 |
CN108875779A (zh) * | 2018-05-07 | 2018-11-23 | 深圳市恒扬数据股份有限公司 | 神经网络的训练方法、装置及终端设备 |
US11048919B1 (en) * | 2018-05-30 | 2021-06-29 | Amazon Technologies, Inc. | Person tracking across video instances |
CN109101866B (zh) * | 2018-06-05 | 2020-12-15 | 中国科学院自动化研究所 | 基于分割剪影的行人再识别方法及系统 |
CN109145150B (zh) * | 2018-06-15 | 2021-02-12 | 深圳市商汤科技有限公司 | 目标匹配方法及装置、电子设备和存储介质 |
EP3813661A4 (en) * | 2018-06-29 | 2022-04-06 | WRNCH Inc. | SYSTEM AND METHOD FOR ANALYZING HUMAN POSES |
CN109117744A (zh) * | 2018-07-20 | 2019-01-01 | 杭州电子科技大学 | 一种用于人脸验证的孪生神经网络训练方法 |
CN108986891A (zh) * | 2018-07-24 | 2018-12-11 | 北京市商汤科技开发有限公司 | 医疗影像处理方法及装置、电子设备及存储介质 |
CN109190470B (zh) * | 2018-07-27 | 2022-09-27 | 北京市商汤科技开发有限公司 | 行人重识别方法及装置 |
CN109089133B (zh) * | 2018-08-07 | 2020-08-11 | 北京市商汤科技开发有限公司 | 视频处理方法及装置、电子设备和存储介质 |
CN113164093A (zh) * | 2018-09-04 | 2021-07-23 | 伊爱慕威讯医疗设备有限公司 | 用于医学成像的装置和方法 |
CN109389069B (zh) * | 2018-09-28 | 2021-01-05 | 北京市商汤科技开发有限公司 | 注视点判断方法和装置、电子设备和计算机存储介质 |
US10922534B2 (en) * | 2018-10-26 | 2021-02-16 | At&T Intellectual Property I, L.P. | Identifying and addressing offensive actions in visual communication sessions |
GB2578789A (en) * | 2018-11-09 | 2020-05-27 | Sony Corp | A method, apparatus and computer program for image processing |
JP6869490B2 (ja) * | 2018-12-28 | 2021-05-12 | オムロン株式会社 | 欠陥検査装置、欠陥検査方法、及びそのプログラム |
CN110020633B (zh) * | 2019-04-12 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 姿态识别模型的训练方法、图像识别方法及装置 |
US20210201661A1 (en) * | 2019-12-31 | 2021-07-01 | Midea Group Co., Ltd. | System and Method of Hand Gesture Detection |
-
2019
- 2019-01-15 CN CN201910036096.XA patent/CN111435432B/zh active Active
- 2019-11-15 KR KR1020207033113A patent/KR102454515B1/ko active IP Right Grant
- 2019-11-15 JP JP2020552759A patent/JP7074877B2/ja active Active
- 2019-11-15 SG SG11202009395SA patent/SG11202009395SA/en unknown
- 2019-11-15 WO PCT/CN2019/118922 patent/WO2020147414A1/zh active Application Filing
- 2019-12-16 TW TW108146017A patent/TWI757668B/zh active
-
2020
- 2020-09-29 US US17/037,654 patent/US11416703B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201520907A (zh) * | 2013-11-29 | 2015-06-01 | Nat Inst Chung Shan Science & Technology | 影像式機踏車與行人偵測系統及其方法 |
TW201623055A (zh) * | 2014-12-25 | 2016-07-01 | 財團法人車輛研究測試中心 | 行人偵測系統 |
CN109102025A (zh) * | 2018-08-15 | 2018-12-28 | 电子科技大学 | 基于深度学习联合优化的行人重识别方法 |
Non-Patent Citations (1)
Title |
---|
網路文獻韕Yixiao Ge韕FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification韕 韕 韕NeurIPS韕20181006韕 韕https://arxiv.org/abs/1810.02936 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI824796B (zh) * | 2022-10-26 | 2023-12-01 | 鴻海精密工業股份有限公司 | 圖像分類方法、電腦設備及儲存介質 |
Also Published As
Publication number | Publication date |
---|---|
TW202029062A (zh) | 2020-08-01 |
KR20200143478A (ko) | 2020-12-23 |
CN111435432B (zh) | 2023-05-26 |
SG11202009395SA (en) | 2020-10-29 |
JP7074877B2 (ja) | 2022-05-24 |
CN111435432A (zh) | 2020-07-21 |
JP2021517321A (ja) | 2021-07-15 |
US20210012154A1 (en) | 2021-01-14 |
US11416703B2 (en) | 2022-08-16 |
KR102454515B1 (ko) | 2022-10-13 |
WO2020147414A1 (zh) | 2020-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI757668B (zh) | 網路優化方法及裝置、圖像處理方法及裝置、儲存媒體 | |
TWI724736B (zh) | 圖像處理方法及裝置、電子設備、儲存媒體和電腦程式 | |
TWI759722B (zh) | 神經網路訓練方法及裝置、圖像處理方法及裝置、電子設備和計算機可讀存儲介質 | |
CN111310616B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
WO2021196401A1 (zh) | 图像重建方法及装置、电子设备和存储介质 | |
JP7110412B2 (ja) | 生体検出方法及び装置、電子機器並びに記憶媒体 | |
WO2020135529A1 (zh) | 位姿估计方法及装置、电子设备和存储介质 | |
CN109977847B (zh) | 图像生成方法及装置、电子设备和存储介质 | |
TWI777112B (zh) | 圖像處理方法、電子設備和儲存介質 | |
CN110287671B (zh) | 验证方法及装置、电子设备和存储介质 | |
WO2021036382A9 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
TWI778313B (zh) | 圖像處理方法、電子設備和儲存介質 | |
CN111242303B (zh) | 网络训练方法及装置、图像处理方法及装置 | |
CN110909815A (zh) | 神经网络训练、图像处理方法、装置及电子设备 | |
WO2019237870A1 (zh) | 目标匹配方法及装置、电子设备和存储介质 | |
CN111259967A (zh) | 图像分类及神经网络训练方法、装置、设备及存储介质 | |
US20220270352A1 (en) | Methods, apparatuses, devices, storage media and program products for determining performance parameters | |
CN107133361B (zh) | 手势识别方法、装置和终端设备 | |
TWI770531B (zh) | 人臉識別方法、電子設備和儲存介質 | |
CN109086752A (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
CN110110742B (zh) | 多特征融合方法、装置、电子设备及存储介质 | |
WO2023155393A1 (zh) | 特征点匹配方法、装置、电子设备、存储介质和计算机程序产品 | |
CN111062407A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN113673433A (zh) | 一种行为识别方法及装置、电子设备和存储介质 | |
CN111723715B (zh) | 一种视频显著性检测方法及装置、电子设备和存储介质 |