TWI777536B - 針對圖像識別模型的增強訓練方法及裝置 - Google Patents

針對圖像識別模型的增強訓練方法及裝置 Download PDF

Info

Publication number
TWI777536B
TWI777536B TW110115580A TW110115580A TWI777536B TW I777536 B TWI777536 B TW I777536B TW 110115580 A TW110115580 A TW 110115580A TW 110115580 A TW110115580 A TW 110115580A TW I777536 B TWI777536 B TW I777536B
Authority
TW
Taiwan
Prior art keywords
image
pixel
value
sample
disturbance
Prior art date
Application number
TW110115580A
Other languages
English (en)
Other versions
TW202213268A (zh
Inventor
徐文浩
Original Assignee
大陸商支付寶(杭州)信息技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商支付寶(杭州)信息技術有限公司 filed Critical 大陸商支付寶(杭州)信息技術有限公司
Publication of TW202213268A publication Critical patent/TW202213268A/zh
Application granted granted Critical
Publication of TWI777536B publication Critical patent/TWI777536B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4014Identity check for transactions
    • G06Q20/40145Biometric identity checks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Processing (AREA)
  • Image Input (AREA)

Abstract

本說明書實施例提供一種針對圖像識別模型的增強訓練方法,從第一樣本集中隨機選擇預定數量或預定比例的樣本作為種子樣本,進行擴展,得到若干擴展樣本。其中擴展樣本在原有圖像的基礎上添加擾動,而標註結果不變。樣本擴展過程中,擾動值以基準像素為參考,向四周呈預定分布,從而可以很好地模擬真實擾動。由於擴展樣本在添加擾動後標註結果不變,經過擴展樣本訓練的圖像識別模型可以很好地識別本來的圖像的目標識別結果,從而提高圖像識別模型的穩固性。

Description

針對圖像識別模型的增強訓練方法及裝置
本說明書一個或多個實施例涉及電腦技術領域,尤其涉及圖像擾動處理、圖像樣本擴展以及利用擴展樣本對圖像識別模型進行增強訓練的方法及裝置。
圖像識別,是指利用電腦對圖像進行處理、分析和理解,以識別各種不同模式的目標和對象的技術。圖像識別廣泛應用於多種領域,例如無人駕駛、考勤、支付認證、刑偵追蹤等等。其中,在一些業務場景下,除了目標檢測,還需要識別相關目標是否真實目標實體,例如在人臉支付認證場景下,從用戶資金安全性考慮,為了避免使用人臉照片冒充真實的人進行支付,還需要確定人臉圖像是否為活體圖像。 這種情況下,如果圖像識別模型僅使用標準訓練樣本進行訓練,那麼在增加圖像干擾的情況下,圖像識別結果的準確度可能會降低,造成一定的困擾,例如人臉支付認證業務場景下的資金安全性無法保證。因此,如何提高圖像識別模型的穩固性,至關重要。
本說明書一個或多個實施例描述了一種圖像擾動、擾動圖像樣本產生以及利用產生的擾動樣本對圖像識別模型的增強訓練方法及裝置,用以解決背景技術提到的一個或多個問題。 根據第一方面,提供一種針對圖像識別模型的增強訓練方法,包括:從第一樣本集中隨機選擇預定數量或預定比例的樣本作為種子樣本,其中,各個種子樣本分別對應有各個種子圖像以及針對相應種子圖像的標註結果;對各個種子樣本分別獲取基於擴展操作得到的若干擴展樣本,其中,對於單個種子樣本的擴展操作包括:對於所述單個種子樣本對應的單個種子圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到單個擾動圖像,其中,所述預定分布與各個像素到基準像素的距離相關;基於所述單個擾動圖像與所述單個種子樣本對應的標註結果構成單個擴展樣本,所述基準像素按照預定規則確定;基於所述擴展樣本對所述圖像識別模型進行增強訓練。 根據一個實施例,所述對於所述單個種子樣本對應的單個種子圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到單個擾動圖像,包括:構建與所述單個種子圖像像素排列一致的遮罩圖像;根據預定規則在所述遮罩圖像上確定對應於預定的基準擾動值且與所述基準像素對應的基準點;在所述遮罩圖像上,以所述基準點為中心,向周圍各個像素按照所述預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值,得到第一噪訊圖像;基於所述第一噪訊圖像向所述單個種子圖像的第一圖像通道的融合結果,得到第一擾動圖像。 根據一個實施例,所述預定分布為線性分布或正態分布。 根據一個實施例,所述第一噪訊圖像向所述單個種子圖像的第一圖像通道的疊加結果包括,根據預定權重,對所述第一噪訊圖像上的各個擾動值和所述第一圖像通道的各個圖像值,按照像素一一對應加權平均得到的結果。 根據一個實施例,所述第一擾動圖像中,還包括:所述第一噪訊圖像向所述單個種子圖像的第二圖像通道的疊加結果;或者,其它噪訊圖像向所述單個種子圖像的第二圖像通道的疊加結果。 根據一個實施例,所述單個種子圖像包括第一像素,所述第一像素與所述基準像素的距離為,以所在行和列為座標,所述第一像素與所述基準像素的歐氏距離。 根據一個實施例,所述對於所述單個種子樣本對應的單個種子圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心按照與基準像素的距離呈預定分布的各個擾動值,得到單個擾動圖像,包括:構建與所述單個種子圖像像素排列一致的輔助矩陣;根據預定規則確定所述輔助矩陣中對應於預定的基準擾動值的基準元素,所述基準元素是與所述基準像素相對應的矩陣元素;在所述輔助矩陣中,以所述基準元素為中心向周圍各個元素按照預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值作為相應元素值,得到第一噪訊矩陣;基於所述第一噪訊矩陣向所述單個種子圖像的第一圖像通道的疊加結果,得到第一擾動圖像。 根據一個實施例,所述基於所述擴展樣本對所述圖像識別模型進行增強訓練包括:將各個擴展樣本加入所述第一樣本集,利用第一樣本集訓練所述圖像識別模型;或者,將各個擴展樣本加入第二樣本集,利用所述第二樣本集對經過第一樣本集訓練後的圖像識別模型進行增強訓練。 根據第二方面,提供一種圖像處理的方法,包括:構建與待處理圖像的像素排列一致的遮罩圖像;根據預定規則在所述遮罩圖像上確定對應於預定的基準擾動值的基準像素;在所述遮罩圖像上,以所述基準像素為中心,向周圍各個像素按照所述預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值,得到噪訊圖像;基於所述噪訊圖像向所述待處理圖像的第一圖像通道的融合結果,形成針對所述待處理圖像的擾動圖像。 根據一個實施例,所述預定分布為線性分布或正態分布。 根據一個實施例,所述噪訊圖像向所述待處理圖像的第一圖像通道的疊加結果包括,根據預定權重,對所述噪訊圖像上的各個擾動值和所述第一圖像通道的各個圖像值,按照像素一一對應加權平均得到的結果。 根據一個實施例,所述第一擾動圖像中,還包括:所述第一噪訊圖像向所述單個種子圖像的第二圖像通道的疊加結果;或者,其它噪訊圖像向所述單個種子圖像的第二圖像通道的疊加結果。 根據一個實施例,各個擾動值具有預先設定的最大值或最小值,對應與基準像素距離最大的像素。 根據第三方面,提供一種圖像樣本的擴展方法,包括:獲取待擴展的第一樣本,所述第一樣本對應有第一圖像,以及針對所述第一圖像的第一標註結果;針對所述第一圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到第一擾動圖像,其中,所述預定分布與各個像素到基準像素的距離相關;將所述第一擾動圖像與所述第一標註結果結合,得到第一擴展樣本。 根據一個實施例,所述針對所述第一圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到第一擾動圖像包括:構建與所述第一圖像的像素排列一致的遮罩圖像;根據預定規則在所述遮罩圖像上確定對應於預定的基準擾動值的基準點,所述基準點是與所述基準像素對應的像素;在所述遮罩圖像上,以所述基準點為中心,向周圍各個像素按照所述預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值,得到第一噪訊圖像;基於所述第一噪訊圖像向所述第一圖像的第一圖像通道的融合結果,形成針對所述第一圖像的第一擾動圖像。 根據一個實施例,各個擾動值具有預先設定的最大值或最小值,對應與基準像素距離最大的像素。 根據一個實施例,所述在所述遮罩圖像上,以所述基準點為中心,向周圍各個像素按照所述預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值,得到第一噪訊圖像還包括:在所述遮罩圖像上,以所述基準點為中心,向周圍各個像素按照所述預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值;對各個擾動值進行以下修正處理:針對單個像素,將相應擾動值修正為其預定鄰域被各個像素分別對應的各個擾動值的中值;將對應有修正後的各個擾動值的遮罩圖像作為第一噪訊圖像。 根據第四方面,提供一種針對圖像識別模型的增強訓練裝置,包括: 選擇單元,配置為從第一樣本集中隨機選擇預定數量或預定比例的樣本作為種子樣本,其中,各個種子樣本分別對應有各個種子圖像以及針對相應種子圖像的標註結果; 獲取單元,配置為對各個種子樣本分別獲取基於擴展操作得到的若干擴展樣本,其中,對於單個種子樣本的擴展操作包括:對於所述單個種子樣本對應的單個種子圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到單個擾動圖像,其中,所述預定分布與各個像素到基準像素的距離相關;基於所述單個擾動圖像與所述單個種子樣本對應的標註結果構成單個擴展樣本,所述基準像素按照預定規則確定; 訓練單元,配置為基於所述擴展樣本對所述圖像識別模型進行增強訓練。 根據第五方面,提供一種圖像處理的裝置,包括: 圖像構建單元,配置為構建與待處理圖像的像素排列一致的遮罩圖像; 基準確定單元,配置為根據預定規則在所述遮罩圖像上確定對應於預定的基準擾動值的基準像素; 擾動值產生單元,配置為在所述遮罩圖像上,以所述基準像素為中心,向周圍各個像素按照所述預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值,得到噪訊圖像; 圖像融合單元,配置為基於所述噪訊圖像向所述待處理圖像的第一圖像通道的融合結果,形成針對所述待處理圖像的擾動圖像。 根據第六方面,提供一種圖像樣本的擴展裝置,包括: 樣本獲取單元,配置為獲取待擴展的第一樣本,所述第一樣本對應有第一圖像,以及針對所述第一圖像的第一標註結果; 圖像擾動單元,配置為針對所述第一圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到第一擾動圖像,其中,所述預定分布與各個像素到基準像素的距離相關; 樣本擴展單元,配置為將所述第一擾動圖像與所述第一標註結果結合,得到第一擴展樣本。 根據第七方面,提供了一種電腦可讀儲存媒體,其上儲存有電腦程序程式,當所述電腦程序程式在電腦中執行時,令電腦執行第一方面、第二方面或第三方面的方法。 根據第八方面,提供了一種計算設備,包括儲存器和處理器,其特徵在於,所述儲存器中儲存有可執行代碼,所述處理器執行所述可執行代碼時,實現第一方面、第二方面或第三方面的方法。 透過本說明書實施例提供的方法和裝置,圖像識別模型在原始樣本集訓練的圖像識別功能基礎上,還利用添加擾動的擴展樣本進行訓練,由於擴展樣本保留了原來的樣本標註結果,因此,使得訓練好的圖像識別模型對於添加擾動後的圖像具有更好的識別功能,提高圖像識別模型的穩固性。
下面結合圖式,對本說明書提供的方案進行描述。 首先,結合圖1示出的一個具體實施場景進行說明。如圖1所示,是一個人臉識別的具體實施場景。在該實施場景中,首先,透過第一計算平臺訓練圖像識別模型。第一計算平臺可以利用大量人臉圖像作為訓練樣本,訓練圖像識別模型。其中,人臉圖像樣本可以對應有人臉輪廓標註結果、是否活體標註結果等中的至少一項標註結果,用於指導圖像識別模型的輸出結果。圖像識別模型例如可以透過卷積神經網路(CNN)等實現。圖像識別模型的訓練過程可以採用任何合適的常規方式(如透過梯度下降法調整模型參數等)進行,在此不做贅述。 透過第一計算平臺訓練的圖像識別模型可以被第二計算平臺用於人臉識別應用。其中,第一計算平臺和第二計算平臺可以設於同一設備、設備集群,也可以設於不同的設備或設備集群。例如,第一計算平臺可以設於為人臉識別服務提供支援的伺服器或區別於伺服器的其他設備,甚至可以是服務方委託的第三方平臺等。第二計算平臺可以設於為人臉識別服務提供支援的伺服器,也可以設於人臉識別客戶端。人臉識別服務可以附屬於其他客戶端,如支付客戶端,此時,第二計算平臺還可以為支付客戶端平臺。 在圖像識別模型經由第一計算平臺訓練好後,可以部署到第二計算平臺。客戶端在人臉識別頁面,透過採集相關圖像,傳遞至第二計算平臺,第二計算平臺透過訓練好的圖像識別模型對相關圖像進行人臉識別和活體檢測,並得到檢測結果。之後,第二計算平臺可以將檢測結果反饋至客戶端。 通常,在支付認證場景下,需要人臉識別為預定人臉,且檢測為活體(真實的人)的情況下,檢測結果才合格。如果使用照片代替真實的人完成圖像採集,那麼採集的圖像可能無法通過活體檢測。然而,實踐中,一些用戶(例如非法盜取他人財物的不法分子)為了通過檢測,透過對虛假圖像進行干擾,影響圖像識別結果的準確度,從而增加虛假圖像通過驗證的機率。例如透過調整光線、增加光照、改變圖像通道上的通道值等方式,對他人照片進行干擾之後用於人臉圖像採集。對於僅透過正常圖像訓練過的圖像識別模型來說,這些干擾圖像的識別準確度可能會降低。 為了提高圖像識別模型的穩固性,本說明書提出一種對圖像識別模型進行增強訓練的技術構思。在該技術構思下,可以在現有的訓練樣本中添加擾動,透過對樣本圖像進行擴展,構成擾動圖像,並利用相應樣本圖像的標註結果構成擴展樣本,從而對圖像識別模型進行增強訓練,使得人臉圖像中的活體圖像在添加干擾情況下仍然識別為活體,非活體圖像在添加干擾後仍然識別為非活體,提高圖像識別模型的穩固性。 下面詳細描述本說明書技術構思。 首先透過圖2,描述對圖像添加擾動的過程。圖2示出了根據本說明書一個實施例的圖像處理的流程示意圖。該流程的執行主體可以是任意具有計算能力的電腦、設備、伺服器等,例如圖1示出的第一計算平臺,或者第一計算平臺、第二計算平臺之外的其他計算平臺。 如圖2所示,該圖像處理的流程可以包括:步驟201,構建與待處理圖像像素排列一致的遮罩圖像;步驟202,根據預定規則在遮罩圖像上確定對應於預定的基準擾動值的基準像素;步驟203,在遮罩圖像上,以基準像素為中心,向周圍各個像素按照預定分布,產生由基準擾動值依次衰減或依次增強的各個擾動值,得到噪訊圖像;步驟204,基於噪訊圖像向待處理圖像的第一圖像通道的融合結果,形成針對所述待處理圖像的擾動圖像。 首先,在步驟201中,構建與待處理圖像像素排列一致的遮罩圖像。可以理解,這裡說的像素排列一致,是指與待處理圖像的像素數量、行數、列數均一致,例如為960×960。其中的待處理圖像可以是任意圖像。 遮罩圖像又稱為遮罩,其可以是選定的圖像、圖形或物體,可以用於對待處理的圖像(全部或局部)進行遮擋,來控制圖像處理的區域或處理過程。這裡,遮罩圖像用於表示可以疊加到原始圖像以產生干擾的圖形。事實上,這裡的遮罩圖像只是一種形象的描述,其可以是一個圖像,也可以是一個陣列。在遮罩圖像是圖像的情況下,其可以包括與待處理圖像一致的像素,例如為960×960像素。在遮罩圖像是陣列的情況下,其可以包括960×960個元素。初始時,遮罩圖像上各個元素可以為預定值(如0)或隨機值。 可以理解:一方面,遮罩圖像可以是針對待處理圖像產生的,也可以是針對與待處理圖像像素排列一致的一類圖像產生的;另一方面,針對待處理圖像或者待處理圖像對應的一類圖像,可以產生一個遮罩圖像,也可以產生多個遮罩圖像。 接著,在步驟202,根據預定規則在遮罩圖像上確定對應於預定的基準擾動值的基準像素。基準擾動值可以是作為擾動的參考值。例如可以是最大擾動值或最小擾動值。其中,基準擾動值可以是預先設定的固定值(如100),也可以是在合理範圍內隨機產生的數值。 這裡的預定規則可以是確定遮罩圖像上的基準點(對應基準像素)的規則。在一個實施例中,遮罩圖像上的基準點可以是隨機指定的像素或陣列中的元素。在另一個實施例中,針對第一圖像產生的遮罩圖像有多個,這多個遮罩圖像的基準像素之間,具有預定排列規則,例如,依次相連、依次間隔n個像素、由上至下排列、由左至右排列、由上至下排列且在相鄰行錯開一個像素,等等。此時,對於當前遮罩圖像來說,預定規則就是和前一個遮罩圖像之間按照預定排列規則得到的預定關係。 如此,可以在遮罩圖像上確定至少一個基準點(基準像素),並將基準擾動值確定為該像素對應的擾動值。 然後,通過透過步驟203,在掩膜遮罩圖像上,以基準像素為中心向周圍各個像素按照預定分布,產生由基準擾動值依次衰減或依次增強的各個擾動值,得到噪聲噪訊圖像。 通俗地講,該基準點(對應基準像素)可以看作干擾源所對應的點。干擾源例如可以是陽光入射點、電燈位置點、遮擋物等等。按照能量傳播的特性,以干擾源為中心,其干擾效果通常依次減弱。也就是說,干擾效果可以以基準像素為中心向周圍衰減。在干擾效果衰減過程中,圖像上的一些值可能逐漸減小或逐漸增大,如經光源干擾物干擾,隨著與干擾源的距離逐漸變遠,亮度可以逐漸減小,而經遮擋物干擾,隨著與干擾源的距離逐漸變遠,亮度可以逐漸增大。於是,以基準像素為中心向周圍擴展時,各個像素的各個擾動值,可以按照預定分布依次衰減或增強。 可以理解,預定分布可以用於描述擾動值在一定方向上的數值分布,例如線性分布、高斯分布等等。其中,這種分布可以是從基準點作為起始點沿一個方向的各個像素上的擾動值分布,也可以是經過基準點的一個方向上的各個像素的擾動值的整體分布(如整體線性),還可以是按照相應像素與基準點的距離形成的分布。下面以5×5的遮罩圖像,第3列第2行為基準像素,以線性分布和高斯分布為例具體說明。 在一個可選的實現方式中,基準像素與周圍其他像素的擾動值之間可以呈線性分布。例如,基準像素為頂點,沿某個方向的各個像素上的擾動值可以迴歸為線段。假設基準擾動值為20,5×5的噪訊圖像可以表示為以下陣列:
Figure 02_image001
該陣列中,第3行列第2行列的元素為20,其向左向第3行列第1行列上的擾動值12呈線性衰減,向右向第3列行第3行列、第4行列、第5行列上的擾動值15、10、5呈線性衰減…… 可以理解的是,該陣列僅作為按照行、列、斜線呈線性分布的示例,在其他實施例中,為了更加接近真實擾動,還可以不按照行、列等固有排列確定擾動值,而按照各個像素與基準像素的距離,相應擾動值呈線性分布。例如,假設距離基準像素的距離為r的像素對應擾動值為sr+b,其中,b為基準擾動值,如20,s為線性係數,在擾動值衰減時,s為負值,擾動值增強時,s為正值,r可以透過兩個像素的行列座標確定,例如第3列第5行像素與第3列第2行元素的距離為:
Figure 02_image003
。 根據另一個實施方式,各個像素的擾動值,可以以基準像素為中心,擾動值可以按照正態分布。可以參考圖3所示。其中正態分布中,可以將基準像素作為對稱中心,基準擾動值看作正態分布的最值點,或均值點,各個像素與基準像素的距離作為變量,均值為0的正態分布。其表達式例如為:
Figure 02_image005
其中,x-μ為當前像素與基準像素的距離,距離的計算方法例如為歐氏距離等。可以理解,對於基準像素,x-μ為0,f(x)取值為最大擾動值,由此也可以計算得到標準差σ。在可選的實現中,標準差σ例如也可以為預設的數值,如1。此時,最大擾動值或均值點可以基於標準差σ確定。 如圖2所示的實施例中,可以認為沿單個方向,各個像素分別對應的各個擾動值呈正態分布。在其他實施例中,可以僅考慮各個像素與基準像素的距離,而不必考慮經過基準像素的各個方向的線。即遮罩圖像上所有像素的擾動值整體上滿足以基準像素為中心的正態分布,在此不再贅述。 值得說明的是,在以上擾動值確定過程中,可能會出現位數較多的小數,為了更符合實際取值,或節約計算量,根據一個可能的設計,還可以對擾動值進行截斷處理。例如,在擾動值的合理候選值為整數的情況下,可以將小數進行以下處理:上取整、下取整、四捨五入取整等等。在圖像通道上的候選值可以為小數(如0-1之間)的情況下,可以將小數在進行以下處理以保留預定位數(如小數點後2位):預定位數後一位非零時進1、預定位數後一位為零時舍去、預定位數最後一位四捨五入等等。 根據一個可能的設計,還可以限定遮罩圖像中,擾動值衰減或增強的取值範圍,以控制擾動範圍。例如,擾動值向周圍衰減的情況下,可以設定最小擾動值,使得遮罩圖像上距離基準像素最遠的像素對應的擾動值不小於該最小擾動值。可以理解,該最小擾動值可以是小於基準擾動值的任意合理數值,具體可以根據業務需要確定。同理,在擾動值向周圍增強的情況下,可以設定最大擾動值,使得遮罩圖像上距離基準像素最遠的像素對應的擾動值不大於該最大擾動值。最大擾動值可以是大於基準擾動值的任意合理數值,具體可以根據業務需要確定。 如此,可以對於遮罩圖像上的各個像素或陣列中的各個元素,分別確定一個擾動值,這些擾動值與第一圖像上的各個像素一一對應。為了描述方便,對應有各個擾動值的遮罩圖像,可以稱之為噪訊圖像。值得說明的是,在遮罩圖像表示的是一個陣列(如輔助矩陣)的情況下,該陣列的元素數與待處理圖像的像素排列一致,前文描述中,遮罩圖像中的像素可以相當於該陣列中相應的元素,基準點可以是對應於基準像素的陣列元素,例如稱為基準元素。 進一步地,在步驟204中,基於噪訊圖像向待處理圖像的第一圖像通道的融合結果,得到第一擾動圖像。其中,這裡說的噪訊圖像與待處理圖像的第一圖像通道的融合,可以理解為相應元素值的融合,例如噪訊圖像上某個像素的擾動值與該像素在待處理圖像的第一圖像通道對應的圖像值之間的融合。 可以理解,圖像通常可以拆分為多個圖像通道,並在每個圖像通道上具有相應圖像值。圖像值可以指示出相應像素在相應圖像通道上的分量,圖像的顯示依賴各個圖像通道分量的疊加。 在一個實施例中,圖像可以拆分為R、G、B圖像通道,分別對應紅、綠、藍三種顏色。單個圖像通道上的圖像值對應相應顏色分量,通常取值分別為0-255之間的256個整數候選值。例如某個像素R通道上的圖像值為255,表示其在紅色通道上的份額為255,假設該像素在G通道、B通道上的圖像值均為0,則表示其在綠色和藍色上所占份額為0,該像素經各個通道上的顏色份額融合後顯示為純紅色。 在另一個實施例中,圖像還可以透過HSV顏色空間的圖像通道H、S、V構成。其中,HSV(Hue, Saturation, Value)是根據顏色的直觀特性創建的一種顏色空間,也稱六角錐體模型(Hexcone Model)。通常,每一種顏色都是由三個圖像通道:色調(Hue,也可以稱為色相,簡稱H),飽和度(Saturation,簡稱S)和色明度(Value,也稱為亮度,簡稱V)所表示的。色調H可以表示色彩資訊,即所處的光譜顏色的位置。該參數例如可以用角度量來表示,取值範圍為0~360°,若從紅色開始按逆時針方向計算,紅色為0°,綠色為120°,藍色為240°。它們的互補色是:黃色為60°,青色為180°,紫色為300°。色調H例如還可以用0-1之間的數值表示,其中,數值0對應角度0°,數值0.5可以對應角度180°,數值1可以對應角度360°。也就是說,在圖像通道H上,各個像素的取值份額可以為0°-360°,也可以為0-1之間的數值表示。飽和度S可以表示色彩的純度,純度越高,表現越鮮明,純度較低,表現則較黯淡。飽和度圖像通道上的圖像值的取值範圍例如可以為0.0~1.0。亮度V圖像通道上的圖像值的取值範圍通常為0.0(黑色)~1.0(白色)。 在又一個實施例中,圖像還可以拆分為YCrCb編碼下的Y、Cr、Cb圖像通道。YCbCr通常會用於影片中的影像連續處理,或是數位攝影系統中的圖像處理。圖像通道Y為亮度(luma)成分、而圖像通道Cb和Cr則為藍色和紅色的濃度偏移量成份。Y、Cr、Cb圖像通道的圖像值可RGB通道可以相互轉換。根據轉換方式不同,各圖像通道的圖像值取值範圍也可以不同。例如一種轉換方式下,Y圖像通道的圖像值取值範圍為16-235,Cr、Cb圖像通道的圖像值取值範圍為16-240。 在其他實施例中,圖像的顏色通道還可以由更多可能的拆分方式,在此不再一一例舉。根據以上描述可知,各個圖像通道可以由不同的取值範圍,相應地,對應的擾動值範圍也可以不同。 其中,在圖像值取值範圍一致的圖像通道上,可以利用包含擾動值的遮罩圖像,與任一個圖像通道的圖像值融合。例如,R、G、B通道均可以採用包含0-255範圍內的擾動值的遮罩圖像進行擾動,Cr、Cb通道均可以採用包含0-1範圍內的擾動值的遮罩圖像進行擾動,等等。 值得說明的是,對於第一圖像來說,可以在其一個圖像通道上添加擾動,也可以在多個圖像通道上添加擾動。通常,在RGB顏色空間,可以在R、G、B通道的至少一個通道上添加擾動,在HSV顏色空間,可以對H、S圖像通道的至少一個通道上添加擾動,在YCrCb顏色空間,可以對Cr、Cb圖像通道的至少一個通道上添加擾動。對不同的圖像通道添加擾動,在圖像值取值範圍相同時,可以採用相同的噪訊圖像與相應圖像通道上的圖像值融合,也可以採用不同的噪訊圖像分別與相應圖像通道上的圖像值融合。可以理解,對各個圖像通道的擾動可以看作對圖像的亮度、光線等的調整,例如對於H圖像通道的擾動可以相當於增加一個模擬光源,以及其對光線的影響。 下面描述噪訊圖像與單個圖像通道進行融合的過程。假設待添加擾動的圖像通道為第一圖像通道,通常可以將噪訊圖像的各個像素上的擾動值,與第一圖像通道的圖像值一一對應融合。 在一個實施例中,可以直接將擾動值與圖像值累加。例如某個像素在第一圖像通道上對應的圖像值為200,擾動值為20,則融合後,該像素在第一圖像通道上的圖像值可以為220。 然而,由於在產生擾動值過程中,存在一些預先無法完全限定的可能性,例如,某個像素對應較小的擾動值為2,假設該像素在第一圖像通道上本身的圖像值已經是255,那麼經過疊加,該像素在第一圖像通道上對應的圖像值為257,超出正常圖像值範圍0-255。這顯然是不合理的。因此,可選地,在將遮罩圖像上的擾動值與第一圖像通道上的圖像值疊加後,還可以確定最大值是否超過合理範圍,如0-255,如果超過,則將各個像素對應的擾動後的圖像值歸一化處理。歸一化的結果例如是,最大值歸一化為255,其他像素對應的歸一化結果與其擾動後的圖像值正相關,與該最大值負相關,並按照最大值的歸一化結果255進行歸一化。例如,假設該最大值記為a max,像素n對應的擾動後的圖像值記為a n,則歸一化結果可以為:255×a n/a max。 在另一個實施例中,可以將第一圖像通道上各個像素的圖像值,對應減去遮罩圖像上相應的擾動值。此時,也可能出現減後得到超出合理取值範圍的情況,例如,差值小於0。此時,可選地,可以將各個像素對應的圖像值添加偏移量,以使得減去擾動值後的最小圖像值為0。增加偏移量後,如果最大值超過合理取值範圍的最大取值,則可以利用前文類似的歸一化方式進行歸一化處理。另一方面可選地,還可以將擾動後的最大圖像值(如255)和最小圖像值(如-20)之間的差值(如275)作為歸一化因子,代替前文中的a max,對各個擾動後的圖像值進行歸一化處理,從而將減去擾動值後的各個圖像值歸一化到0-255之間。 在又一個實施例中,還可以將第一圖像通道上的圖像值和遮罩圖像上的擾動值按照預先確定的權重進行加權平均。例如,擾動值的權重為0.4,圖像值的權重為0.6。這樣,一方面保證了融合後的圖像值仍在合理取值範圍內,另一方面,可以透過權重有效控制擾動值的所占分量,避免擾動過大導致的圖像失真等問題。 在更多實施例中,圖像值和擾動值還有更多的融合方式,在此不再贅述。值得說明的是,以上以擾動值為正值為例進行了描述,然而,在一些可能的設計中,根據業務需要,擾動值還可以是負值,本說明書對此不做限定。 根據一個可能的設計,在將噪訊圖像融合到待處理圖像的第一圖像通道上之前,還可以對噪訊圖像進行修正處理。修正處理的目的在於,透過一種非線性平滑技術,將每一像素點的擾動值設置為與由該像素某鄰域窗口內的所有像素擾動值確定的數值。從而,讓各個像素對應的擾動值更接近真實值,消除孤立的噪訊點。修正處理的方式例如可以是取均值、中值等方式。以中值為例,可以把某個像素的擾動值用該像素一個鄰域中各個擾動值的中值代替。這種方式基於排序統計理論,有效抑制噪訊的非線性信號。其中,這裡的鄰域可以是方陣鄰域、圓形鄰域、十字形鄰域等等,以方陣鄰域為例,例如是以當前像素為中心的3×3方陣構成的鄰域。鄰域內各個像素的擾動值的最大值(如50)和最小值(如20)的中間值(如35)可以用於替換當前像素的擾動值。當最大值和最小值的中間值不是合理取值的情況下,例如在圖像通道的取值只能為整數(如R、G、B圖像通道)而中值為小數(如35.5),可以透過預先確定的方式(如下取整)將中值合理化。如此,經過修正處理後的噪訊圖像更接近真實場景下的光線或參數變化。 為了更明確對圖像添加擾動的過程,以一個具體例子進行說明。在該具體例子中,首先,可以將多個待處理的圖像按照像素分組,例如第一組均為500×500像素,第二組均為960×960像素,第三組均為1980×1024像素,等等。然後,針對其中一組,構建同樣像素大小的遮罩圖像,以第一組為例,可以構建500×500像素大小的遮罩圖像。然後在遮罩圖像上按照預定方式確定基準像素,例如第200列第250行的像素被確定為基準像素。接著,可以對基準像素確定基準擾動值M,該基準擾動值可以隨機產生。假設遮罩圖像對應的是R、G、B圖像通道,則M可以是預定範圍的數值,如0-255、0-150或者100-255之間的數值。接著,基於基準擾動值,以基準像素為中心,向周邊像素進行擾動值衰減或增強。其中,在衰減的情況下們還可以設置有小於M的衰減最小值m 1,m 1的取值範圍例如是0-M、0-M/2之間等,此時,擾動值範圍為m 1-M。在增強的情況下還可以設置有大於M的增強最小值m 2,m 2的取值範圍例如是M-255、2M/3-255之間等,此時,擾動值範圍為M-m 2。按照具體業務需求,計算各個擾動值,構成擾動圖像。各個擾動值還可以按照與基準像素的距離,滿足預定分布,例如線性分布、正態分布等。可以理解的是,針對第一組圖像,可以產生一個或多個擾動圖像。 再然後,可以將遮罩圖像與第一組圖像中的各個圖像,分別在進行融合。如圖3所示,假設融合過程為加權平均,其中相應圖像通道的權重為a,且0<a<1,如0.7,則遮罩圖像對應的權重為1-a。單個像素在指定圖像通道或者隨機確定的圖像通道上的融合結果為,a×圖像值+(1-a)×擾動值=擾動圖像值。被擾動圖像通道按照擾動圖像值指示的份額與其他各個圖像通道上的圖像值指示的份額融合可以展示出擾動後的圖像。 其中,單個圖像在擾動過程中,可以對一個圖像通道進行擾動,也可以對多個圖像通道進行擾動。在對多個圖像通道進行擾動的過程中,可以使用同一個擾動圖像進行,也可以分別使用不同的擾動圖像進行,本說明書對此不做限定。 透過以上具體例子,描述一個對圖像進行擾動處理的具體過程。透過對圖像的擾動,相當於對用於採集圖像的設備參數進行了調整,或者對光線等外在因素進行了改變。 作為以上圖像處理過程的一個具體應用場景,可以是圖像識別模型的樣本擴展過程。值得說明的是,圖像識別模型的樣本擴展過程的執行主體可以是具有一定計算能力的任意設備、電腦或伺服器,其可以是與圖2流程的執行主體一致,也可以不一致。如圖4所示,該樣本擴展過程可以包括以下步驟: 步驟401,獲取待擴展的第一樣本,第一樣本可以對應有第一圖像以及針對第一圖像的第一標註結果。第一樣本例如是可以用於訓練圖像識別模型的樣本。第一樣本可以是從樣本集中隨機獲取,也可以是按照指定順序獲取的。另外,第一樣本可以是從樣本集獲取的單獨樣本,也可以是所有獲取的樣本中具有某種像素分布(如500×500)的一組圖像中的任一個。 接著,在步驟402,針對第一圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到第一擾動圖像。其中,預定分布可以用來描述各個像素對應的擾動值和其與基準像素的距離之間的關係。例如為以與基準像素的距離為自變量的線性分布、正態分布等。 根據一個實施方式,第一擾動圖像的確定方式為: 構建與第一圖像的像素排列一致的遮罩圖像。其中遮罩圖像的數量為一個或多個。遮罩圖像中像素的行數、列數均與第一圖像一致; 根據預定規則在遮罩圖像上確定對應於預定的基準擾動值的基準點,基準點是與基準像素對應的像素。根據業務場景不同,基準預定值可以為最大擾動值或最小擾動值。基準預定值可以預先確定,也可以在該步驟402中確定。基準點也可以理解為參考點等。其可以理解為在圖像上增加的擾動光源、障礙物等等。基準點可以是遮罩圖像上的像素點。預定規則是用於確定基準點的規則,例如隨機確定、與洽談遮罩圖像一起按照一定確定規律確定等等; 在遮罩圖像上,以基準點為中心,向周圍各個像素按照預定分布,產生由基準擾動值依次衰減或依次增強的各個擾動值,得到第一噪訊圖像。產生各個擾動值的過程與步驟203描述的過程類似,在此不再贅述。第一噪訊圖像可以理解為給定各個像素對應的擾動值的遮罩圖像。各個擾動值中,還可以設定有最大值或最小值,對應與基準像素距離最大的像素。可選地,這裡說的最大值或最小值與基準擾動值是相對的,例如,基準擾動值為最大擾動值,則可以設定與基準像素距離最大的像素具有擾動值中的最小值,反之亦然。為了描述方便,將當前次確定擾動值的遮罩圖像稱為第一噪訊圖像。在一些實施例中,對於計算得到的各個擾動值,還可以進行修正處理,對應有修正後的擾動值的遮罩圖像稱為第一噪訊圖像,其中,修正處理的具體方法如前文的對擾動圖像的修正處理過程,在此不再贅述; 基於第一噪訊圖像向第一圖像的第一圖像通道的融合結果,形成針對第一圖像的第一擾動圖像。這裡,第一噪訊圖像向第一圖像的第一圖像通道的融合結果,可以理解為第一噪訊圖像上的各個擾動值,與第一圖像通道的各個圖像值,按照像素一一對應融合的結果。其中,融合方式可以為,加和、差值、加權平均等等,在此不再贅述。 根據另一個實施方式,還可以構建一個與第一圖像的像素排列一致的陣列,代替以上實施方式中的遮罩圖像。其中,陣列中的元素個數、行數、列數分別與第一圖像中的像素數、行數、列數一致,基準像素對應基準元素,或者將基準元素和基準像素統稱為基準點。其他處理過程與上述實施方式類似。 值得說明的是,對第一圖像進行擾動處理得到第一擾動圖像的過程可以與圖2示出的流程相對應,在一些實現中,圖2的相關描述可以適用於當前部分處理。 進一步地,在步驟403中,將第一擾動圖像與第一標註結果結合,得到第一擴展樣本。其中,可以將第一標註結果作為第一擾動圖像的標註結果,構成第一擴展樣本。其中,第一樣本的擴展樣本還可以有基於類似方法確定的多個。也就是說,擴展樣本保留了原始樣本的標註結果,這樣,無論對原始樣本增加怎樣的干擾,都保證標註結果保持不變。 通常,標註結果是對圖像識別模型的輸出結果的指引。更進一步地,擴展樣本可以用於模型增強訓練過程,以增加模型的穩固性。圖5示出了根據一個實施例對圖像識別模型進行增強訓練的流程。其中,該流程的執行主體可以是具有一定計算能力的任意電腦、設備或伺服器。其可以與圖2、圖4至少一個流程的執行主體一致,也可以不一致。 如圖5所示,對圖像識別模型進行增強訓練的流程包括: 首先,在步驟501中,從第一樣本集中隨機選擇預定數量或預定比例的樣本作為種子樣本。其中,第一樣本集可以是原本的訓練樣本集。由於選擇到的樣本是作為產生擴展樣本的基礎,一個樣本為基礎可以擴展出一個或多個擴展樣本,因此,在這裡將其稱為種子樣本。 各個種子樣本分別對應有各個種子圖像以及針對相應種子圖像的標註結果。選擇預定數量或預定比例的樣本作為種子樣本,而不是將第一樣本集中的全部樣本都作為種子樣本,一方面可以避免過大的計算量,另一方面,可以控制擴展樣本所占比例,避免擴展樣本過多,對圖像識別模型的性能產生不利影響。 接著,透過步驟502,對各個種子樣本分別獲取基於擴展操作得到的若干擴展樣本。其中,對於單個種子樣本的擴展操作可以包括:對於單個種子樣本對應的單個種子圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到單個擾動圖像,其中,預定分布與各個像素到基準像素的距離相關;基於單個擾動圖像與單個種子樣本對應的標註結果構成單個擴展樣本,基準像素按照預定規則確定。該擴展操作可以與圖4示出的流程相對應,在此不再贅述。 在一個實施例中,可以透過本步驟502,執行以上擴展操作,產生針對各個種子樣本的若干擴展樣本。 在另一個實施例中,還可以預先完成部分樣本擴展操作,在本步驟502中,進行另一部分操作。例如,可以預先針對第一樣本集中的樣本按照像素排列方式(行數、列數等)產生多個擾動圖像。則在本步驟502中,對於透過步驟501選擇到的種子樣本,可以從多個擾動圖像中挑選部分或全部擾動圖像,與種子圖像融合,從而得到相應的擴展圖像。 在又一個實施例中,還可以預先針對第一樣本集中的各個樣本,都產生有相應的若干擴展樣本,在本步驟502中,可以按照步驟501選擇的種子樣本,獲取其對應的部分或全部擴展樣本。 總之,對於步驟501中的單個種子樣本,均可以獲取基於以上擴展操作確定的若干擴展樣本。 進一步地,透過步驟503,基於擴展樣本對圖像識別模型進行增強訓練。根據一方面的實施方式,可以將各個擴展樣本加入上述的第一樣本集,如訓練樣本集,並利用第一樣本集訓練圖像識別模型。根據另一方面的實施方式,還可以將將各個擴展樣本加入第二樣本集,並利用第二樣本集對經過第一樣本集訓練後的圖像識別模型進行增強訓練。 值得說明的是,圖5示出的流程中,用到的擴展樣本可以是透過圖4的流程確定的擴展樣本。另一方面,在透過步驟502完成對樣本的擴展操作的情況下,前文針對圖4中的擴展樣本流程的描述,也同樣適用於步驟502中的相關部分,在此不再贅述。 可以理解,圖像識別模型在原始樣本集訓練的圖像識別功能基礎上,還利用添加擾動的擴展樣本進行訓練,由於擴展樣本保留了原來的樣本標註結果,因此,使得訓練好的圖像識別模型對於添加擾動後的圖像具有更好的識別功能,提高圖像識別模型的穩固性。以刷臉支付認證業務場景為例,在需要目標識別和活體檢測時,使用他人的人臉圖像添加干擾後進行刷臉支付認證,未經過擴展樣本訓練的圖像識別模型由於缺乏干擾樣本,可能會對其通過活體檢測,從而完成支付。而經過擴展樣本訓練的圖像識別模型,由於經過擾動樣本的訓練,對於包含活體的圖像,在添加擾動後仍然識別為活體圖像,對於非活體採集圖像,在添加擾動後仍然識別為非活體圖像,因此,可以具有更好的識別性能。 根據另一方面的實施例,參考圖6所示,還提供一種圖像處理的裝置600,包括: 圖像構建單元61,配置為構建與待處理圖像的像素排列一致的遮罩圖像; 基準確定單元62,配置為根據預定規則在遮罩圖像上確定對應於預定的基準擾動值的基準像素; 擾動值產生單元63,配置為在遮罩圖像上,以基準像素為中心,向周圍各個像素按照預定分布,產生由基準擾動值依次衰減或依次增強的各個擾動值,得到噪訊圖像; 圖像融合單元64,配置為基於噪訊圖像向待處理圖像的第一圖像通道的融合結果,形成針對待處理圖像的擾動圖像。 根據再一方面的實施例,參考圖7所示,還提供一種圖像樣本的擴展裝置700,包括: 樣本獲取單元71,配置為獲取待擴展的第一樣本,第一樣本對應有第一圖像,以及針對第一圖像的第一標註結果; 圖像擾動單元72,配置為針對第一圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到第一擾動圖像,其中,預定分布與各個像素到基準像素的距離相關; 樣本擴展單元73,配置為將第一擾動圖像與第一標註結果結合,得到第一擴展樣本。 根據另一方面的實施例,如圖8所示,還提供一種圖像識別模型的增強訓練裝置800。裝置800包括: 選擇單元81,配置為從第一樣本集中隨機選擇預定數量或預定比例的樣本作為種子樣本,其中,各個種子樣本分別對應有各個種子圖像以及針對相應種子圖像的標註結果; 獲取單元82,配置為對各個種子樣本分別獲取基於擴展操作,得到的若干擴展樣本,其中,對於單個種子樣本的擴展操作包括:對於單個種子樣本對應的單個種子圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到單個擾動圖像,其中,預定分布與各個像素到基準像素的距離相關;基於單個擾動圖像與單個種子樣本對應的標註結果構成單個擴展樣本,基準像素按照預定規則確定; 訓練單元83,配置為基於擴展樣本對圖像識別模型進行增強訓練。 值得說明的是,圖6、圖7、圖8所示的裝置600、700、800分別是與圖2、圖3、圖4示出的方法實施例相對應的裝置實施例,圖22、圖3、圖4示出的方法實施例中的相應描述同樣適用於裝置600、700、800,在此不再贅述。 根據另一方面的實施例,還提供一種電腦可讀儲存媒體,其上儲存有電腦程序程式,當所述電腦程序程式在電腦中執行時,令電腦執行結合圖2、圖4或圖5所描述的方法。 根據再一方面的實施例,還提供一種計算設備,包括儲存器和處理器,所述儲存器中儲存有可執行代碼,所述處理器執行所述可執行代碼時,實現結合圖2、圖4或圖5所述的方法。 本領域技術人員應該可以意識到,在上述一個或多個示例中,本說明書實施例所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時,可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或代碼進行傳輸。 以上所述的具體實施方式,對本說明書的技術構思的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本說明書的技術構思的具體實施方式而已,並不用於限定本說明書的技術構思的保護範圍,凡在本說明書實施例的技術方案的基礎之上,所做的任何修改、等同替換、改進等,均應包括在本說明書的技術構思的保護範圍之內。
201:步驟 202:步驟 203:步驟 204:步驟 401:步驟 402:步驟 403:步驟 501:步驟 502:步驟 503:步驟 600:裝置 61:圖像構建單元 62:基準確定單元 63:擾動值產生單元 64:圖像融合單元 700:裝置 71:樣本獲取單元 72:圖像擾動單元 73:樣本擴展單元 800:裝置 81:選擇單元 82:獲取單元 83:訓練單元
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些圖式獲得其它的圖式。 [圖1]示出本說明書技術構思下的一個具體實施架構示意圖; [圖2]示出根據一個實施例的圖像處理的方法流程圖; [圖3]示出根據一個具體例子的圖像處理原理示意圖; [圖4]示出根據一個實施例的樣本擴展的方法流程圖; [圖5]示出根據一個實施例的圖像識別模型的增強訓練的方法流程圖; [圖6]示出根據一個實施例的圖像處理裝置的示意性方塊圖; [圖7]示出根據一個實施例的樣本擴展的裝置的示意性方塊圖; [圖8]示出根據一個實施例的圖像識別模型的增強訓練的裝置的示意性方塊圖。

Claims (22)

  1. 一種針對圖像識別模型的增強訓練方法,由電腦執行,包括:從第一樣本集中隨機選擇預定數量或預定比例的樣本作為種子樣本,其中,各個種子樣本分別對應有各個種子圖像以及針對相應種子圖像的標註結果;對各個種子樣本分別獲取基於擴展操作得到的若干擴展樣本,其中,對於單個種子樣本的擴展操作包括:對於所述單個種子樣本對應的單個種子圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到單個擾動圖像,其中,所述預定分布與各個像素到基準像素的距離相關;基於所述單個擾動圖像與所述單個種子樣本對應的標註結果構成單個擴展樣本,所述基準像素按照預定規則確定;基於所述擴展樣本對所述圖像識別模型進行增強訓練。
  2. 根據請求項1所述的方法,其中,所述對於所述單個種子樣本對應的單個種子圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到單個擾動圖像,包括:構建與所述單個種子圖像像素排列一致的遮罩圖像;根據預定規則在所述遮罩圖像上確定對應於預定的基準擾動值且與所述基準像素對應的基準點;在所述遮罩圖像上,以所述基準點為中心,向周圍各 個像素按照所述預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值,得到第一噪訊圖像;基於所述第一噪訊圖像向所述單個種子圖像的第一圖像通道的融合結果,得到第一擾動圖像。
  3. 根據請求項1或2所述的方法,其中,所述預定分布為線性分布或正態分布。
  4. 根據請求項2所述的方法,其中,所述第一噪訊圖像向所述單個種子圖像的第一圖像通道的疊加結果包括,根據預定權重,對所述第一噪訊圖像上的各個擾動值和所述第一圖像通道的各個圖像值,按照像素一一對應加權平均得到的結果。
  5. 根據請求項2所述的方法,其中,所述第一擾動圖像中,還包括:所述第一噪訊圖像向所述單個種子圖像的第二圖像通道的疊加結果;或者,其它噪訊圖像向所述單個種子圖像的第二圖像通道的疊加結果。
  6. 根據請求項1所述的方法,其中,所述單個種子圖像包括第一像素,所述第一像素與所述基準像素的距離為,以所在行和列為座標,所述第一像素與所述基準像素的歐氏距離。
  7. 根據請求項1所述的方法,其中,所述對於所述單個種子樣本對應的單個種子圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心按照與 基準像素的距離呈預定分布的各個擾動值,得到單個擾動圖像,包括:構建與所述單個種子圖像像素排列一致的輔助矩陣;根據預定規則確定所述輔助矩陣中對應於預定的基準擾動值的基準元素,所述基準元素是與所述基準像素相對應的矩陣元素;在所述輔助矩陣中,以所述基準元素為中心向周圍各個元素按照預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值作為相應元素值,得到第一噪訊矩陣;基於所述第一噪訊矩陣向所述單個種子圖像的第一圖像通道的疊加結果,得到第一擾動圖像。
  8. 根據請求項1所述的方法,其中,所述基於所述擴展樣本對所述圖像識別模型進行增強訓練包括:將各個擴展樣本加入所述第一樣本集,利用第一樣本集訓練所述圖像識別模型;或者,將各個擴展樣本加入第二樣本集,利用所述第二樣本集對經過第一樣本集訓練後的圖像識別模型進行增強訓練。
  9. 一種圖像處理的方法,由電腦執行,包括:構建與待處理圖像的像素排列一致的遮罩圖像;根據預定規則在所述遮罩圖像上確定對應於預定的基準擾動值的基準像素; 在所述遮罩圖像上,以所述基準像素為中心,向周圍各個像素按照所述預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值,得到噪訊圖像;基於所述噪訊圖像向所述待處理圖像的第一圖像通道的融合結果,形成針對所述待處理圖像的擾動圖像。
  10. 根據請求項9所述的方法,其中,所述預定分布為線性分布或正態分布。
  11. 根據請求項9所述的方法,其中,所述噪訊圖像向所述待處理圖像的第一圖像通道的疊加結果包括,根據預定權重,對所述噪訊圖像上的各個擾動值和所述第一圖像通道的各個圖像值,按照像素一一對應加權平均得到的結果。
  12. 根據請求項9所述的方法,其中,所述第一擾動圖像中,還包括:所述第一噪訊圖像向所述單個種子圖像的第二圖像通道的疊加結果;或者,其它噪訊圖像向所述單個種子圖像的第二圖像通道的疊加結果。
  13. 根據請求項9所述的方法,其中,各個擾動值具有預先設定的最大值或最小值,對應與基準像素距離最大的像素。
  14. 一種圖像樣本的擴展方法,由電腦執行,包括:獲取待擴展的第一樣本,所述第一樣本對應有第一圖 像,以及針對所述第一圖像的第一標註結果;針對所述第一圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到第一擾動圖像,其中,所述預定分布與各個像素到基準像素的距離相關;將所述第一擾動圖像與所述第一標註結果結合,得到第一擴展樣本。
  15. 根據請求項14所述的方法,其中,所述針對所述第一圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到第一擾動圖像包括:構建與所述第一圖像的像素排列一致的遮罩圖像;根據預定規則在所述遮罩圖像上確定對應於預定的基準擾動值的基準點,所述基準點是與所述基準像素對應的像素;在所述遮罩圖像上,以所述基準點為中心,向周圍各個像素按照所述預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值,得到第一噪訊圖像;基於所述第一噪訊圖像向所述第一圖像的第一圖像通道的融合結果,形成針對所述第一圖像的第一擾動圖像。
  16. 根據請求項14所述的方法,其中,各個擾動值具有預先設定的最大值或最小值,對應與基準像素距離最大的像素。
  17. 根據請求項14所述的方法,其中,所述 在所述遮罩圖像上,以所述基準點為中心,向周圍各個像素按照所述預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值,得到第一噪訊圖像還包括:在所述遮罩圖像上,以所述基準點為中心,向周圍各個像素按照所述預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值;對各個擾動值進行以下修正處理:針對單個像素,將相應擾動值修正為其預定鄰域被各個像素分別對應的各個擾動值的中值;將對應有修正後的各個擾動值的遮罩圖像作為第一噪訊圖像。
  18. 一種針對圖像識別模型的增強訓練裝置,包括:選擇單元,配置為從第一樣本集中隨機選擇預定數量或預定比例的樣本作為種子樣本,其中,各個種子樣本分別對應有各個種子圖像以及針對相應種子圖像的標註結果;獲取單元,配置為對各個種子樣本分別獲取基於擴展操作得到的若干擴展樣本,其中,對於單個種子樣本的擴展操作包括:對於所述單個種子樣本對應的單個種子圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到單個擾動圖像,其中,所述預定分布與各個像素到基準像素的距離相關;基於所述單個擾動圖像與所述單個種子樣本對應的 標註結果構成單個擴展樣本,所述基準像素按照預定規則確定;訓練單元,配置為基於所述擴展樣本對所述圖像識別模型進行增強訓練。
  19. 一種圖像處理的裝置,包括:圖像構建單元,配置為構建與待處理圖像的像素排列一致的遮罩圖像;基準確定單元,配置為根據預定規則在所述遮罩圖像上確定對應於預定的基準擾動值的基準像素;擾動值產生單元,配置為在所述遮罩圖像上,以所述基準像素為中心,向周圍各個像素按照所述預定分布,產生由所述基準擾動值依次衰減或依次增強的各個擾動值,得到噪訊圖像;圖像融合單元,配置為基於所述噪訊圖像向所述待處理圖像的第一圖像通道的融合結果,形成針對所述待處理圖像的擾動圖像。
  20. 一種圖像樣本的擴展裝置,包括:樣本獲取單元,配置為獲取待擴展的第一樣本,所述第一樣本對應有第一圖像,以及針對所述第一圖像的第一標註結果;圖像擾動單元,配置為針對所述第一圖像,至少在一個圖像通道上,對各個像素分別融合以基準像素為中心呈預定分布排列的各個擾動值,得到第一擾動圖像,其中,所述預定分布與各個像素到基準像素的距離相關; 樣本擴展單元,配置為將所述第一擾動圖像與所述第一標註結果結合,得到第一擴展樣本。
  21. 一種電腦可讀儲存媒體,其上儲存有電腦程序程式,當所述電腦程序程式在電腦中執行時,令電腦執行請求項1至17中任一項的所述的方法。
  22. 一種計算設備,包括儲存器和處理器,其特徵在於,所述儲存器中儲存有可執行代碼,所述處理器執行所述可執行代碼時,實現請求項1至17中任一項所述的方法。
TW110115580A 2020-09-29 2021-04-29 針對圖像識別模型的增強訓練方法及裝置 TWI777536B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011054451.5 2020-09-29
CN202011054451.5A CN112101294B (zh) 2020-09-29 2020-09-29 针对图像识别模型的增强训练方法及装置

Publications (2)

Publication Number Publication Date
TW202213268A TW202213268A (zh) 2022-04-01
TWI777536B true TWI777536B (zh) 2022-09-11

Family

ID=73782545

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110115580A TWI777536B (zh) 2020-09-29 2021-04-29 針對圖像識別模型的增強訓練方法及裝置

Country Status (4)

Country Link
US (1) US11403487B2 (zh)
EP (1) EP3975045A1 (zh)
CN (1) CN112101294B (zh)
TW (1) TWI777536B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI827516B (zh) * 2023-06-06 2023-12-21 台達電子工業股份有限公司 影像處理裝置以及方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348126B (zh) * 2021-01-06 2021-11-02 北京沃东天骏信息技术有限公司 一种印刷物品中目标对象的识别方法和装置
CN113297624B (zh) * 2021-06-23 2023-04-18 支付宝(杭州)信息技术有限公司 图像的预处理方法及装置
CN113627475A (zh) * 2021-07-07 2021-11-09 厦门市美亚柏科信息股份有限公司 一种对样本进行不确定性估计的方法及装置
CN116503923B (zh) * 2023-02-16 2023-12-08 深圳市博安智控科技有限公司 训练人脸识别模型的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108677A (zh) * 2017-12-12 2018-06-01 重庆邮电大学 一种基于改进的cnn人脸表情识别方法
CN109903242A (zh) * 2019-02-01 2019-06-18 深兰科技(上海)有限公司 一种图像生成方法及装置
CN111260653A (zh) * 2020-04-27 2020-06-09 腾讯科技(深圳)有限公司 一种图像分割方法、装置、存储介质和电子设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7889242B2 (en) * 2006-10-26 2011-02-15 Hewlett-Packard Development Company, L.P. Blemish repair tool for digital photographs in a camera
JP5454075B2 (ja) * 2009-10-20 2014-03-26 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム
WO2013107467A1 (en) * 2012-01-17 2013-07-25 Sony Ericsson Mobile Communications Ab Portable electronic equipment and method of controlling an autostereoscopic display
CN102708541B (zh) * 2012-02-22 2015-01-14 贵州大学 微扰法解图像模糊
KR102144994B1 (ko) * 2013-09-30 2020-08-14 삼성전자주식회사 영상의 노이즈를 저감하는 방법 및 이를 이용한 영상 처리 장치
US9740959B2 (en) * 2015-03-13 2017-08-22 Trimble Inc. Acceleration of exposure fusion with pixel shaders
CN106485192B (zh) * 2015-09-02 2019-12-06 富士通株式会社 用于图像识别的神经网络的训练方法和装置
US11274929B1 (en) * 2017-10-17 2022-03-15 AI Incorporated Method for constructing a map while performing work
CN108256473A (zh) * 2018-01-17 2018-07-06 北京绽放时代科技有限公司 用于数据扩增的方法、装置和系统、计算机可读存储介质
CN109272031B (zh) * 2018-09-05 2021-03-30 宽凳(北京)科技有限公司 一种训练样本生成方法及装置、设备、介质
US10719301B1 (en) * 2018-10-26 2020-07-21 Amazon Technologies, Inc. Development environment for machine learning media models
CN110796206B (zh) * 2019-11-06 2022-08-30 国网山东省电力公司电力科学研究院 一种针对局部放电图谱的数据增强方法及装置
CN111402124B (zh) * 2020-03-24 2022-05-17 支付宝(杭州)信息技术有限公司 一种纹理图像和合成图像的生成方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108677A (zh) * 2017-12-12 2018-06-01 重庆邮电大学 一种基于改进的cnn人脸表情识别方法
CN109903242A (zh) * 2019-02-01 2019-06-18 深兰科技(上海)有限公司 一种图像生成方法及装置
CN111260653A (zh) * 2020-04-27 2020-06-09 腾讯科技(深圳)有限公司 一种图像分割方法、装置、存储介质和电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI827516B (zh) * 2023-06-06 2023-12-21 台達電子工業股份有限公司 影像處理裝置以及方法

Also Published As

Publication number Publication date
US20220101049A1 (en) 2022-03-31
CN112101294A (zh) 2020-12-18
EP3975045A1 (en) 2022-03-30
TW202213268A (zh) 2022-04-01
CN112101294B (zh) 2022-08-09
US11403487B2 (en) 2022-08-02

Similar Documents

Publication Publication Date Title
TWI777536B (zh) 針對圖像識別模型的增強訓練方法及裝置
US11610082B2 (en) Method and apparatus for training neural network model used for image processing, and storage medium
US11516412B2 (en) Image processing method, image processing apparatus and electronic device
US9344690B2 (en) Image demosaicing
US8947549B2 (en) Spectral synthesis for image capturing device processing
Chakrabarti et al. Modeling radiometric uncertainty for vision with tone-mapped color images
CN104702928B (zh) 修正图像交叠区的方法、记录介质以及执行装置
US10659738B2 (en) Image processing apparatus, image processing method, and image processing program product
Bi et al. Haze removal for a single remote sensing image using low-rank and sparse prior
US20220292635A1 (en) Method and apparatus with image correction
JP2013101615A (ja) 色ヒストグラムに基づき画像領域を記述する方法およびシステム
JP7463186B2 (ja) 情報処理装置、情報処理方法及びプログラム
US9911060B2 (en) Image processing apparatus, image processing method, and storage medium for reducing color noise in an image
CN115587948B (zh) 一种图像暗场校正方法及设备
CN111582155B (zh) 活体检测方法、装置、计算机设备和存储介质
Ulhaq et al. FACE: Fully automated context enhancement for night-time video sequences
Wang et al. Low-light images in-the-wild: A novel visibility perception-guided blind quality indicator
CN112700396A (zh) 一种人脸图片光照评价方法、装置、计算设备和存储介质
CN115035393A (zh) 频闪场景分类方法、模型训练方法、相关装置及电子设备
CN114529488A (zh) 图像融合方法、装置及设备、存储介质
Van Vo et al. High dynamic range video synthesis using superpixel-based illuminance-invariant motion estimation
CN102667853A (zh) 用于二进制传感器的滤光片设置学习
Yuan et al. Full convolutional color constancy with adding pooling
CN111242087A (zh) 物体识别方法及装置
JP7512150B2 (ja) 情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent