TWI782480B - 圖像處理方法及電子設備和電腦可讀儲存介質 - Google Patents
圖像處理方法及電子設備和電腦可讀儲存介質 Download PDFInfo
- Publication number
- TWI782480B TWI782480B TW110113119A TW110113119A TWI782480B TW I782480 B TWI782480 B TW I782480B TW 110113119 A TW110113119 A TW 110113119A TW 110113119 A TW110113119 A TW 110113119A TW I782480 B TWI782480 B TW I782480B
- Authority
- TW
- Taiwan
- Prior art keywords
- level
- feature map
- feature
- fusion
- scale
- Prior art date
Links
- 238000003860 storage Methods 0.000 title claims abstract description 29
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims description 133
- 238000012545 processing Methods 0.000 claims description 80
- 230000009466 transformation Effects 0.000 claims description 34
- 238000010606 normalization Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 28
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000009467 reduction Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013341 scale-up Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
本發明實施例提供了一種圖像處理方法及電子設備和電腦可讀儲存介質,所述方法包括:對待處理圖像進行M級特徵提取,得到所述待處理圖像的M級第一特徵圖,所述M級第一特徵圖中各級第一特徵圖的尺度不同,M為大於1的整數;對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,其中,每個所述特徵圖組包括所述第一特徵圖以及與所述第一特徵圖相鄰的第一特徵圖;對所述M級第二特徵圖進行目標檢測,得到所述待處理圖像的目標檢測結果。本發明實施例可提高目標檢測的效果。
Description
本發明關於電腦技術領域,尤其關於一種圖像處理方法及電子設備和電腦可讀儲存介質。
在通過深度學習對圖像進行處理的過程中,通常需要對圖像中目標(例如物體、動物、行人等)進行檢測,確定出圖像中目標的位置和類別等資訊。然而,圖像中目標的尺度可能相差較大,例如位於圖像中近處和遠處的綿羊。在相關技術中,對圖像中尺度相差較大的目標的檢測效果較差。
本發明提出了一種圖像處理技術方案。
根據本發明的一方面,提供了一種圖像處理方法,包括:對待處理圖像進行M級特徵提取,得到所述待處理圖像的M級第一特徵圖,所述M級第一特徵圖中各級第一特徵圖的尺度不同,M為大於1的整數;對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,每個特徵圖組包括所述第一特徵圖以及與所述第一特徵圖相鄰的第一特徵圖;對所述M級第二特徵圖進行目標檢測,得到所述待處理圖像的目標檢測結果。
在本發明的一些實施例中,與第i級第一特徵圖對應的特徵圖組包括第i-1級第一特徵圖、第i級第一特徵圖及第i+1級第一特徵圖,i為整數且1<i<M,所述對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,包括:對所述第i-1級第一特徵圖進行尺度縮小,得到第一個第i級第三特徵圖;對所述第i級第一特徵圖進行尺度不變的變換,得到第二個第i級第三特徵圖;對所述第i+1級第一特徵圖進行尺度放大,得到第三個第i級第三特徵圖;對所述第一個第i級第三特徵圖、所述第二個第i級第三特徵圖及第三個第i級第三特徵圖進行融合,得到第i級第二特徵圖,其中,所述第一個第i級第三特徵圖、所述第二個第i級第三特徵圖及第三個第i級第三特徵圖的尺度相同。
這樣,針對與第i級第一特徵圖對應的特徵圖組,可將尺度較大的第i-1級第一特徵圖縮小到與第i級第一特徵圖的尺度相同;將尺度較小的第i+1級第一特徵圖放大到與第i級第一特徵圖的尺度相同,以便統一該特徵圖組中各特徵圖的尺度。
在本發明的一些實施例中,與第1級第一特徵圖對應的特徵圖組包括所述第1級第一特徵圖及第2級第一特徵圖,所述對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,包括:對所述第1級第一特徵圖進行尺度不變的變換,得到第一個第1級第三特徵圖;對所述第2級第一特徵圖進行尺度放大,得到第二個第1級第三特徵圖;對所述第一個第1級第三特徵圖及所述第二個第1級第三特徵圖進行融合,得到第1級第二特徵圖,其中,所述第一個第1級第三特徵圖與所述第二個第1級第三特徵圖的尺度相同。
這樣,對於第1級第一特徵圖,其沒有前一級特徵圖,可僅對第1級第一特徵圖本身及相鄰的第2級第一特徵圖進行處理,得到的第一個第1級第三特徵圖與所述第二個第1級第三特徵圖的尺度相同。可將第一個與第二個第1級第三特徵圖相加,得到第1級第二特徵圖。通過這種方式,能夠實現第1級的相鄰特徵圖的融合。
在本發明的一些實施例中,與第M級第一特徵圖對應的特徵圖組包括第M-1級第一特徵圖及所述第M級第一特徵圖,所述對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,包括:對所述第M-1級第一特徵圖進行尺度縮小,得到第一個第M級第三特徵圖;對所述第M級第一特徵圖進行尺度不變的變換,得到第二個第M級第三特徵圖;對所述第一個第M級第三特徵圖及所述第二個第M級第三特徵圖進行融合,得到第M級第二特徵圖,其中,所述第一個第M級第三特徵圖與所述第二個第M級第三特徵圖的尺度相同。
這樣,對於第M級第一特徵圖,其沒有後一級特徵圖,可僅對第M級第一特徵圖本身及相鄰的第M-1級第一特徵圖進行處理,得到的第一個第M級第三特徵圖與所述第二個第M級第三特徵圖的尺度相同。可將第一個與第二個第M級第三特徵圖相加,得到第M級第二特徵圖。通過這種方式,能夠實現第M級的相鄰特徵圖的融合。
在本發明的一些實施例中,所述對所述第i-1級第一特徵圖進行尺度縮小,得到第一個第i級第三特徵圖,包括:通過第一卷積層對所述第i-1級第一特徵圖進行卷積,得到所述第一個第i級第三特徵圖,所述第一卷積層的卷積核尺寸為N×N,步長為n,N、n為大於1的整數,所述第i-1級第一特徵圖的尺度為所述第i級第一特徵圖的尺度的n倍;所述對所述第i級第一特徵圖進行尺度不變的變換,得到第二個第i級第三特徵圖,包括:通過第二卷積層對所述第i級第一特徵圖進行卷積,得到所述第二個第i級第三特徵圖,所述第二卷積層的卷積核尺寸為N×N,步長為1;所述對所述第i+1級第一特徵圖進行尺度放大,得到第三個第i級第三特徵圖,包括:通過第三卷積層及上採樣層對所述第i+1級第一特徵圖進行卷積及上採樣,得到所述第三個第i級第三特徵圖,所述第三卷積層的卷積核尺寸為N×N,步長為1。
這樣,可通過設置不同的卷積層,實現與第i級第一特徵圖對應的特徵圖組中各特徵圖的處理,能夠統一特徵圖組中各特徵圖的尺度,以便後續的融合處理。
在本發明的一些實施例中,所述對所述第1級第一特徵圖進行尺度不變的變換,得到第一個第1級第三特徵圖,包括:通過第二卷積層對所述第1級第一特徵圖進行卷積,得到所述第一個第1級第三特徵圖,所述第二卷積層的卷積核尺寸為N×N,步長為1,N為大於1的整數;所述對所述第2級第一特徵圖進行尺度放大,得到第二個第1級第三特徵圖,包括:通過第三卷積層及上採樣層對所述第2級第一特徵圖進行卷積及上採樣,得到第二個第1級第三特徵圖,所述第三卷積層的卷積核尺寸為N×N,步長為1。
這樣,可通過設置不同的卷積層,實現與第1級第一特徵圖對應的特徵圖組中各特徵圖的處理。
在本發明的一些實施例中,所述對所述第M-1級第一特徵圖進行尺度縮小,得到第一個第M級第三特徵圖,包括:通過第一卷積層對所述第M-1級第一特徵圖進行卷積,得到所述第一個第M級第三特徵圖,所述第一卷積層的卷積核尺寸為N×N,步長為n,N、n為大於1的整數,所述第i-1級第一特徵圖的尺度為所述第i級第一特徵圖的尺度的n倍;所述對所述第M級第一特徵圖進行尺度不變的變換,得到第二個第M級第三特徵圖,包括:通過第二卷積層對所述第M級第一特徵圖進行卷積,得到所述第二個第M級第三特徵圖,所述第二卷積層的卷積核尺寸為N×N,步長為1。
這樣,可通過設置不同的卷積層,實現與第M級第一特徵圖對應的特徵圖組中各特徵圖的處理。
在本發明的一些實施例中,所述第二卷積層及所述第三卷積層包括可變形卷積層或空洞卷積層。
這樣,在第二卷積層和第三卷積層為可變形卷積的情況下,可設置有額外的卷積層來學習偏移,然後將輸入特徵圖和偏移共同作為可變形卷積層的輸入,操作採樣點發生偏移,再進行卷積。在第二卷積層和第三卷積層為空洞卷積的情況下,可預先設定空洞卷積的擴張率,以便適應性調整卷積的感受野,進一步提高特徵圖融合的效果。
在本發明的一些實施例中,所述方法通過圖像處理網路實現,所述圖像處理網路包括串聯的P級融合網路塊,配置為對所述M級第一特徵圖進行P次尺度調整及融合,每級融合網路塊包括多個第一卷積層、多個第二卷積層及多個第三卷積層,P為正整數;所述對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,包括:將所述M級第一特徵圖輸入第一級融合網路塊中,輸出第一次融合的M級第四特徵圖;將第j-1次融合的M級第四特徵圖輸入第j級融合網路塊中,輸出第j次融合的M級第四特徵圖,j為整數且1<j<P;將第P-1次融合的M級第四特徵圖輸入第P級融合網路塊中,輸出所述M級第二特徵圖。
這樣,通串聯的P級融合網路塊對圖像進行處理的方式,能夠進一步提高融合效果。
在本發明的一些實施例中,每級融合網路塊還包括歸一化層,所述將第j-1次融合的M級第四特徵圖輸入第j級融合網路塊中,輸出第j次融合的M級第四特徵圖,包括:通過所述第j級融合網路塊的第一卷積層、第二卷積層及第三卷積層,對所述第j-1次融合的M級第四特徵圖對應的特徵圖組分別進行尺度調整及融合,得到所述第j次融合的M級中間特徵圖;通過所述歸一化層對所述第j次融合的M級中間特徵圖進行聯合批歸一化處理,得到所述第j次融合的M級第四特徵圖。
這樣,通過所述歸一化層對所述第j次融合的M級中間特徵圖進行聯合批歸一化處理,能夠有效穩定訓練過程並進一步提升性能,尤其在檢測任務中批量較小的情況下,聯合批歸一化能夠取得很好的效果。
在本發明的一些實施例中,所述方法通過圖像處理網路實現,所述圖像處理網路還包括回歸網路和分類網路,所述對所述M級第二特徵圖進行目標檢測,得到所述待處理圖像的目標檢測結果,包括:將所述M級第二特徵圖輸入所述回歸網路,確定所述待處理圖像中目標對應的圖像框;將所述M級第二特徵圖輸入所述分類網路,確定出所述待處理圖像中目標的類別,所述目標檢測結果包括所述目標對應的圖像框和所述目標的類別。
這樣,回歸網路和分類網路,分別用於實現目標檢測中的回歸任務和分類任務。
根據本發明的一方面,提供了一種圖像處理裝置,包括:特徵提取模組,配置為對待處理圖像進行M級特徵提取,得到所述待處理圖像的M級第一特徵圖,所述M級第一特徵圖中各級第一特徵圖的尺度不同,M為大於1的整數;尺度調整及融合模組,配置為對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,每個特徵圖組包括所述第一特徵圖以及與所述第一特徵圖相鄰的第一特徵圖;目標檢測模組,配置為對所述M級第二特徵圖進行目標檢測,得到所述待處理圖像的目標檢測結果。
根據本發明的一方面,提供了一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行上述方法。
根據本發明的一方面,提供了一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。
根據本發明的一方面提供了一種電腦程式產品,所述電腦程式產品包括一條或多條指令,所述一條或多條指令適於被處理器執行時實現上述圖像處理方法。
在本發明實施例中,能夠對待處理圖像進行M級特徵提取得到M級第一特徵圖;對每個第一特徵圖與其相鄰的特徵圖融合得到M級第二特徵圖;對M級第二特徵圖目標檢測得到目標檢測結果,從而能夠融合M級第一特徵圖的相鄰層之間特徵的相關資訊,有效提高目標檢測的效果。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本發明。根據下面參考附圖對示例性實施例的詳細說明,本發明的其它特徵及方面將變得清楚。
以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯物件的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本發明,在下文的實施方式中給出了眾多的細節。本領域技術人員應當理解,沒有某些細節,本發明同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本發明的主旨。
圖1a示出根據本發明實施例的圖像處理方法的流程圖,如圖1a所示,所述方法包括:
在步驟S11中,對待處理圖像進行M級特徵提取,得到所述待處理圖像的M級第一特徵圖,所述M級第一特徵圖中各級第一特徵圖的尺度不同,M為大於1的整數;
在步驟S12中,對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,其中,每個所述特徵圖組包括所述第一特徵圖以及與所述第一特徵圖相鄰的第一特徵圖;
在步驟S13中,對所述M級第二特徵圖進行目標檢測,得到所述待處理圖像的目標檢測結果。
在本發明的一些實施例中,所述圖像處理方法可以由終端設備或伺服器等電子設備執行,終端設備可以為使用者設備(User Equipment,UE)、移動設備、使用者終端、終端、蜂窩電話、無線電話、個人數位助理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等,所述方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。或者,可通過伺服器執行所述方法。
舉例來說,待處理圖像可以是包括目標(例如物體、動物、行人等)的圖像,待處理圖像可以是採用圖像採集設備(例如攝影頭)採集的,也可以是通過其它方式獲取的,本發明對此不作限制。
在本發明的一些實施例中,在步驟S11中,可例如通過特徵金字塔網路對待處理圖像進行多級特徵提取,從網路的不同層級抽取特徵圖,得到待處理圖像的M級第一特徵圖(也可稱為特徵金字塔),M為大於1的整數。其中,M級第一特徵圖中各級第一特徵圖的尺度不同。該特徵金字塔網路可包括至少M層卷積層、池化層等,本發明對特徵金字塔網路的網路結構不作限制。通過採用單尺度圖像進行檢測,能夠減少記憶體和計算成本。
圖1b為四種不同的生成多維度特徵組合的方法的示意圖,包括圖(a)特徵化的圖像金字塔圖、圖(b)單一尺度特徵、圖(c)金字塔特徵層次結構和(d)特徵金字塔網路,如圖1b所示,圖1b中圖(a)特徵化的圖像金字塔是使用圖像金字塔構建特徵金字塔。在每種尺度圖像上獨立地計算特徵,輸出預測的速度緩慢。圖1b中圖(b)單一尺度特徵,檢測系統選擇僅使用單一尺度特徵來加快檢測速度,輸出預測。圖1b中圖(c)金字塔特徵層次結構,重用金字塔特徵層次結構輸出預測。圖1b中圖(d)提出的特徵金字塔網路和圖(b)、圖(c)一樣快,但更準確。這樣,特徵金字塔網路自頂向下的過程通過上採樣的方式將頂層的小特徵圖放大到相鄰的特徵圖一樣的大小。這樣的好處是既利用了頂層較強的語義特徵,又利用了底層的高解析度資訊。
在後續處理過程中,在直接對M級第一特徵圖進行融合的情況下,能夠融合不同層之間的語義資訊,但無法體現相鄰層之間特徵的相關性。在該情況下,可通過步驟S12實現各級第一特徵圖與其相鄰的第一特徵圖之間的融合。
在本發明的一些實施例中,在步驟S12中,可對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,每個特徵圖組包括所述第一特徵圖以及與所述第一特徵圖相鄰的第一特徵圖。例如,對於任一第一特徵圖,可將相鄰的2q個特徵圖(也即前後各取q個特徵圖)的尺度調整到與該第一特徵圖的尺度相同,再將調整後的2q個特徵圖與該第一特徵圖相加,得到與該第一特徵圖對應的第二特徵圖,q≥1,本發明對q的取值不作限制。
在本發明的一些實施例中,也可將第一特徵圖的特徵圖組(包括第一特徵圖及相鄰的2q個特徵圖)的尺度統一到特定的尺度,例如將特徵圖組中的特徵圖均擴大到第一特徵圖的尺度的倍數,或均縮小到第一特徵圖的尺度的幾分之一。再將調整後的各個特徵圖相加,得到與該第一特徵圖對應的第二特徵圖。本發明對特徵圖組進行尺度調整的尺度範圍及方式均不作限制。
這樣,能夠捕捉到特徵圖維度的相關性以及空間維度的相關性,提高融合得到的特徵圖的精度。
在本發明的一些實施例中,可在步驟S13中對M級第二特徵圖進行目標檢測,得到待處理圖像的目標檢測結果。例如對M級第二特徵圖分別進行回歸和分類處理。經回歸處理後,可確定待處理圖像中目標所在的圖像區域(也即檢測框);經分類處理後,可確定待處理圖像中目標的類別。該待處理圖像的目標檢測結果可包括待處理圖像中目標所在的圖像區域(也即檢測框)和目標的類別等。
根據本發明的實施例,能夠對待處理圖像進行M級特徵提取得到M級第一特徵圖;對每個第一特徵圖與其相鄰的特徵圖融合得到M級第二特徵圖;對M級第二特徵圖目標檢測得到目標檢測結果,從而能夠融合M級第一特徵圖的相鄰層之間特徵的相關資訊,有效提高目標檢測的效果。
在本發明的一些實施例中,在步驟S11中得到的M級第一特徵圖中各級第一特徵圖的尺度可以是遞減的,例如,第一級第一特徵圖的尺度為512×512,第二級第一特徵圖的尺度為256×256,第三級第一特徵圖的尺度為128×128等。本發明對M級第一特徵圖的尺度取值不作限制。
在本發明的一些實施例中,對於M級第一特徵圖中的第i級第一特徵圖,(i為整數且1<i<M),與第i級第一特徵圖對應的特徵圖組包括第i-1級第一特徵圖、第i級第一特徵圖及第i+1級第一特徵圖,i為整數且1<i<M。其中,步驟S12包括:
對所述第i-1級第一特徵圖進行尺度縮小,得到第一個第i級第三特徵圖;
對所述第i級第一特徵圖進行尺度不變的變換,得到第二個第i級第三特徵圖;
對所述第i+1級第一特徵圖進行尺度放大,得到第三個第i級第三特徵圖;
對所述第一個第i級第三特徵圖、所述第二個第i級第三特徵圖及第三個第i級第三特徵圖進行融合,得到第i級第二特徵圖;
其中,所述第一個第i級第三特徵圖、所述第二個第i級第三特徵圖及第三個第i級第三特徵圖的尺度相同。
舉例來說,針對與第i級第一特徵圖對應的特徵圖組,可將尺度較大的第i-1級第一特徵圖縮小到與第i級第一特徵圖的尺度相同;將尺度較小的第i+1級第一特徵圖放大到與第i級第一特徵圖的尺度相同,以便統一該特徵圖組中各特徵圖的尺度。
在本發明的一些實施例中,對第i-1級第一特徵圖進行尺度縮小,可得到第一個第i級第三特徵圖;對第i級第一特徵圖進行尺度不變的變換,得到第二個第i級第三特徵圖;對第i+1級第一特徵圖進行尺度放大,得到第三個第i級第三特徵圖。其中,第一個、第二個及第三個第i級第三特徵圖的尺度相同。
在本發明的一些實施例中,可通過卷積、下採樣等方式實現尺度縮小;通過反卷積、上採樣、步長小於1的卷積等方式實現尺度放大;通過步長為1的卷積或其他處理方式實現尺度不變的變換,本發明對此不作限制。
在本發明的一些實施例中,可將第一個、第二個及第三個第i級第三特徵圖直接相加或按預設的權重相加,融合得到第i級第二特徵圖,該第i級第二特徵圖的尺度與第i級第一特徵圖的尺度相同。通過這種方式,能夠實現相鄰特徵圖的融合,提高特徵的提取效果。
在本發明的一些實施例中,所述對所述第i-1級第一特徵圖進行尺度縮小,得到第一個第i級第三特徵圖,包括:通過第一卷積層對所述第i-1級第一特徵圖進行卷積,得到所述第一個第i級第三特徵圖,所述第一卷積層的卷積核尺寸為N×N,步長為n,N、n為大於1的整數,所述第i-1級第一特徵圖的尺度為所述第i級第一特徵圖的尺度的n倍;
所述對所述第i級第一特徵圖進行尺度不變的變換,得到第二個第i級第三特徵圖,包括:通過第二卷積層對所述第i級第一特徵圖進行卷積,得到所述第二個第i級第三特徵圖,所述第二卷積層的卷積核尺寸為N×N,步長為1;
所述對所述第i+1級第一特徵圖進行尺度放大,得到第三個第i級第三特徵圖,包括:通過第三卷積層及上採樣層對所述第i+1級第一特徵圖進行卷積及上採樣,得到所述第三個第i級第三特徵圖,所述第三卷積層的卷積核尺寸為N×N,步長為1。
舉例來說,可通過設置不同的卷積層,實現與第i級第一特徵圖對應的特徵圖組中各特徵圖的處理。
在本發明的一些實施例中,可通過第一卷積層對第i-1級第一特徵圖進行卷積,得到第一個第i級第三特徵圖。該第一卷積層的卷積核尺寸為N×N,步長為n,N、n為大於1的整數,所述第i-1級第一特徵圖的尺度為所述第i級第一特徵圖的尺度的n倍,也即通過卷積實現尺度縮小。例如第i-1級第一特徵圖的尺度為256×256,第i級第一特徵圖的尺度為128×128,則n=2,即第i-1級第一特徵圖的長度和寬度均為第i級第一特徵圖的長度和寬度的2倍。經卷積後,得到的第一個第i級第三特徵圖的尺度為128×128。其中,N例如取值為3,本發明對N和n的取值不作限制。
在本發明的一些實施例中,可通過第二卷積層對第i級第一特徵圖進行卷積,得到第二個第i級第三特徵圖,該第二卷積層的卷積核尺寸為N×N,步長為1,也即通過卷積實現尺度不變的變換。例如第i級第一特徵圖的尺度為128×128,經卷積後,得到的第二個第i級第三特徵圖的尺度為128×128。應當理解,本領域技術人員可採用其他方式實現尺度不變的變換,本發明對此不作限制。
在本發明的一些實施例中,可通過第三卷積層及上採樣層對第i+1級第一特徵圖進行卷積及n倍上採樣,得到第三個第i級第三特徵圖,所述第三卷積層的卷積核尺寸為N×N,步長為1,也即通過卷積及上採樣實現尺度放大。例如第i+1級第一特徵圖的尺度為64×64,第i級第一特徵圖的尺度為128×128,則n=2。經卷積及2倍上採樣後,得到的第三個第i級第三特徵圖的尺度為128×128。應當理解,本領域技術人員可採用其他方式實現尺度放大,例如反卷積或步長為1/n的卷積等,本發明對此不作限制。
通過這種方式,能夠統一特徵圖組中各特徵圖的尺度,以便後續的融合處理。
在本發明的一些實施例中,可對第一個、第二個及第三個第i級第三特徵圖直接相加,得到第i級第二特徵圖。整個處理過程如下所示:
Y^i=Upsample(w^1*x^(i+1))+w^0*x^i+w^(-1)*_(s=2)x^(i-1) 公式(1)
對應的代碼:
在公式(1)中,Y^i表示第i級第二特徵圖;x^(i+1)、x^i、x^(i-1)分別表示第i+1級第一特徵圖、第i級第一特徵圖及第i-1級第一特徵圖;w^1、w^0、w^(-1)分別表示第三卷積層、第二卷積層及第一卷積層的權重;*表示卷積操作;s表示步長;Upsample表示上採樣操作。
公式(1)的處理過程可稱為金字塔卷積或尺度空間卷積。通過該金字塔卷積處理,可得到相鄰層資訊融合的第二特徵圖,能夠有效提高後續目標檢測的效果。
在本發明的一些實施例中,對於M級第一特徵圖中的第1級第一特徵圖,與第1級第一特徵圖對應的特徵圖組包括所述第1級第一特徵圖及第2級第一特徵圖。其中,步驟S12包括:
對所述第1級第一特徵圖進行尺度不變的變換,得到第一個第1級第三特徵圖;
對所述第2級第一特徵圖進行尺度放大,得到第二個第1級第三特徵圖;
對所述第一個第1級第三特徵圖及所述第二個第1級第三特徵圖進行融合,得到第1級第二特徵圖;
其中,所述第一個第1級第三特徵圖與所述第二個第1級第三特徵圖的尺度相同。
舉例來說,對於第1級第一特徵圖,其沒有前一級特徵圖,可僅對第1級第一特徵圖本身及相鄰的第2級第一特徵圖進行處理。
在本發明的一些實施例中,可對第1級第一特徵圖進行尺度不變的變換,得到第一個第1級第三特徵圖;對第2級第一特徵圖進行尺度放大,得到第二個第i級第三特徵圖。其中,第一個與第二個第1級第三特徵圖的尺度相同。
在本發明的一些實施例中,可將第一個與第二個第1級第三特徵圖相加,得到第1級第二特徵圖。通過這種方式,能夠實現第1級的相鄰特徵圖的融合。
在本發明的一些實施例中,所述對所述第1級第一特徵圖進行尺度不變的變換,得到第一個第1級第三特徵圖,包括:通過第二卷積層對所述第1級第一特徵圖進行卷積,得到所述第一個第1級第三特徵圖,所述第二卷積層的卷積核尺寸為N×N,步長為1,N為大於1的整數;
所述對所述第2級第一特徵圖進行尺度放大,得到第二個第1級第三特徵圖,包括:通過第三卷積層及上採樣層對所述第2級第一特徵圖進行卷積及上採樣,得到第二個第1級第三特徵圖,所述第三卷積層的卷積核尺寸為N×N,步長為1。
也就是說,可通過設置不同的卷積層,實現與第1級第一特徵圖對應的特徵圖組中各特徵圖的處理。可通過第二卷積層對第1級第一特徵圖進行卷積,得到第一個第1級第三特徵圖,也即通過卷積實現尺度不變的變換;可通過第三卷積層及上採樣層對第2級第一特徵圖進行卷積及n倍上採樣,得到第二個第1級第三特徵圖,也即通過卷積及上採樣實現尺度放大。處理方式與前面的描述類似,此處不再重複描述。
通過這種方式,能夠統一特徵圖組中各特徵圖的尺度,以便後續進行融合。
在本發明的一些實施例中,對於M級第一特徵圖中的第M級第一特徵圖,與第M級第一特徵圖對應的特徵圖組包括第M-1級第一特徵圖及所述第M級第一特徵圖。其中,步驟S12包括:
對所述第M-1級第一特徵圖進行尺度縮小,得到第一個第M級第三特徵圖;
對所述第M級第一特徵圖進行尺度不變的變換,得到第二個第M級第三特徵圖;
對所述第一個第M級第三特徵圖及所述第二個第M級第三特徵圖進行融合,得到第M級第二特徵圖;
其中,所述第一個第M級第三特徵圖與所述第二個第M級第三特徵圖的尺度相同。
舉例來說,對於第M級第一特徵圖,其沒有後一級特徵圖,可僅對第M級第一特徵圖本身及相鄰的第M-1級第一特徵圖進行處理。
在本發明的一些實施例中,可對第M-1級第一特徵圖進行尺度縮小,得到第一個第M級第三特徵圖;可對第M級第一特徵圖進行尺度不變的變換,得到第二個第M級第三特徵圖。其中,第一個與第二個第M級第三特徵圖的尺度相同。
在本發明的一些實施例中,可將第一個與第二個第M級第三特徵圖相加,得到第M級第二特徵圖。通過這種方式,能夠實現第M級的相鄰特徵圖的融合。
在本發明的一些實施例中,所述對所述第M-1級第一特徵圖進行尺度縮小,得到第一個第M級第三特徵圖,包括:通過第一卷積層對所述第M-1級第一特徵圖進行卷積,得到所述第一個第M級第三特徵圖,所述第一卷積層的卷積核尺寸為N×N,步長為n,N、n為大於1的整數,所述第i-1級第一特徵圖的尺度為所述第i級第一特徵圖的尺度的n倍;
所述對所述第M級第一特徵圖進行尺度不變的變換,得到第二個第M級第三特徵圖,包括:通過第二卷積層對所述第M級第一特徵圖進行卷積,得到所述第二個第M級第三特徵圖,所述第二卷積層的卷積核尺寸為N×N,步長為1。
也就是說,可通過設置不同的卷積層,實現與第M級第一特徵圖對應的特徵圖組中各特徵圖的處理。可通過第一卷積層對第M-1級第一特徵圖進行卷積,得到第一個第M級第三特徵圖,也即通過卷積實現尺度縮小;通過第二卷積層對第M級第一特徵圖進行卷積,得到第二個第M級第三特徵圖,也即通過卷積實現尺度不變的變換。處理方式與前面的描述類似,此處不再重複描述。通過這種方式,能夠統一特徵圖組中各特徵圖的尺度,以便後續進行融合。
在本發明的一些實施例中,第二卷積層及所述第三卷積層包括可變形卷積層或空洞卷積層。
圖1c為可變形卷積層的工作原理示意圖,包括輸入特徵圖11、可變形卷積層12、卷積13、偏移14和輸出特徵圖15。如圖1c所示,首先有一個額外的卷積13來學習偏移14,共用輸入特徵圖11。然後輸入特徵圖11和偏移14共同作為可變形卷積層12的輸入,操作採樣點發生偏移,再進行卷積,獲得輸出特徵圖15。
當金字塔卷積移動過最底層後,金字塔卷積中的普通卷積可替代為可變形卷積或空洞卷積,但是與最底層的卷積共用權重。其可以在特徵圖的不同位置動態調整感受野,與底層特徵圖的普通卷積實現對齊。在該情況下,調整後的金字塔卷積可稱為尺度均衡的金字塔卷積。
也就是說,對於與第i級第一特徵圖對應的特徵圖組,第i-1級第一特徵圖對應的第一卷積層為普通卷積;第i級第一特徵圖對應的第二卷積層和第i+1級第一特徵圖對應的第三卷積層為可變形卷積或空洞卷積。
在本發明的一些實施例中,在第二卷積層和第三卷積層為可變形卷積的情況下,可設置有額外的卷積層來學習偏移,然後將輸入特徵圖和偏移共同作為可變形卷積層的輸入,操作採樣點發生偏移,再進行卷積。
在本發明的一些實施例中,在第二卷積層和第三卷積層為空洞卷積的情況下,可預先設定空洞卷積的擴張率,以便適應性調整卷積的感受野。本發明對擴張率的設置不作限制。
通過這種方式,能夠適應性調整卷積的感受野,進一步提高特徵圖融合的效果。
在本發明的一些實施例中,根據本發明實施例的圖像處理方法可通過圖像處理網路實現,該圖像處理網路可包括特徵金字塔網路,用於對待處理圖像進行多級特徵提取。
在本發明的一些實施例中,該圖像處理網路可包括串聯的P級融合網路塊,用於對所述M級第一特徵圖進行P次尺度調整及融合,每級融合網路塊包括多個第一卷積層、多個第二卷積層及多個第三卷積層,P為正整數。
在本發明的一些實施例中,尺度調整及融合的過程可進行多次,該過程可通過P級融合網路塊實現,每級融合網路塊(可簡稱為PConv)均包括多個第一卷積層、多個第二卷積層及多個第三卷積層,分別用於對相鄰特徵圖組成的各個特徵圖組進行處理。P的取值例如為4,本發明對P的取值不作限制。
在本發明的一些實施例中,每級融合網路塊可對多個特徵圖組進行處理,每個特徵圖組對應於一組卷積層,用於對特徵圖組中的各個特徵圖進行卷積。例如,對於包括第i-1級第一特徵圖、第i級第一特徵圖及第i+1級第一特徵圖的特徵圖組,該特徵圖組對應的一組卷積層包括第一卷積層、第二卷積層、第三卷積層及上採樣層,用於分別對第i-1級第一特徵圖、第i級第一特徵圖及第i+1級第一特徵圖進行卷積。
在本發明的一些實施例中,步驟S12可包括:
將所述M級第一特徵圖輸入第一級融合網路塊中,輸出第一次融合的M級第四特徵圖;
將第j-1次融合的M級第四特徵圖輸入第j級融合網路塊中,輸出第j次融合的M級第四特徵圖,j為整數且1<j<P;
將第P-1次融合的M級第四特徵圖輸入第P級融合網路塊中,輸出所述M級第二特徵圖。
舉例來說,可將M級第一特徵圖輸入第一級融合網路塊中,進行第一次尺度調整及融合,輸出第一次融合的M級第四特徵圖;再將第一次融合的M級第四特徵圖輸入下一級融合網路塊。可將第j-1次融合的M級第四特徵圖輸入第j級融合網路塊中,進行第j次尺度調整及融合,輸出第j次融合的M級第四特徵圖,j為整數且1<j<P。可將第P-1次融合的M級第四特徵圖輸入第P級融合網路塊中,進行第P次尺度調整及融合,輸出M級第二特徵圖。
通過這種方式,能夠進一步提高融合效果。
在本發明的一些實施例中,每級融合網路塊還包括歸一化層,用於對該次融合後的特徵圖進行歸一化。其中,將第j-1次融合的M級第四特徵圖輸入第j級融合網路塊中,輸出第j次融合的M級第四特徵圖,可包括:
通過所述第j級融合網路塊的第一卷積層、第二卷積層及第三卷積層,對所述第j-1次融合的M級第四特徵圖對應的特徵圖組分別進行尺度調整及融合,得到第j次融合的M級中間特徵圖;
通過所述歸一化層對所述第j次融合的M級中間特徵圖進行聯合批歸一化處理,得到所述第j次融合的M級第四特徵圖。
舉例來說,對於第j次尺度調整及融合,可通過第j級融合網路塊的第一卷積層、第二卷積層及第三卷積層,對第j-1次融合的M級第四特徵圖對應的特徵圖組分別進行尺度調整及融合,得到第j次融合的M級中間特徵圖。
批歸一化的輸出:公式(2);公式(3);公式(4);公式(5);公式(6);
返回學習的放大倍數,偏移係數。
其中,公式(2)為規範化後的網路回應的公式;公式(3)為計算批次處理資料均值的公式;公式(4)為計算批次處理資料方差的公式;公式(5)為規範化公式;公式(6)為尺度變換和偏移的公式。
在本發明的一些實施例中,第j級融合網路塊可對第j-1次融合的M級第四特徵圖對應的多個特徵圖組進行處理,每個特徵圖組對應於一組卷積層,用於對特徵圖組中的各個特徵圖進行卷積。例如,對於包括第i-1級第一特徵圖、第i級第一特徵圖及第i+1級第一特徵圖的特徵圖組,該特徵圖組對應的一組卷積層包括第一卷積層、第二卷積層、第三卷積層及上採樣層,用於分別對第i-1級第一特徵圖、第i級第一特徵圖及第i+1級第一特徵圖進行卷積。
在本發明的一些實施例中,通過歸一化層統計第j次融合的M級中間特徵圖的統計量(例如均值和方差),對第j次融合的M級中間特徵圖進行聯合批歸一化處理,將歸一化的結果確定為第j次融合的M級第四特徵圖。
圖2a及圖2b示出根據相關技術的批歸一化的示意圖;圖2c示出根據本發明實施例的聯合批歸一化的示意圖。其中,在卷積層21處理後,輸出多個特徵圖(圖2a、圖2b及圖2c以兩個特徵圖為例進行說明);可通過批歸一化層(簡稱BN)22分別對多個特徵圖進行批歸一化;並可在批歸一化後,通過啟動層(例如ReLU層)23進行啟動。其中,γ和β分別表示放大倍數和偏移係數,可通過學習得到;μ和σ分別表示均值和標準差,可通過統計得到。
在相關技術中,如圖2a所示,可以使兩個批歸一化層22共用放大倍數γ和偏移係數β,分別統計各特徵圖的均值μ和標準差σ;如圖2b所示,可以使兩個批歸一化層22分別學習放大倍數γ和偏移係數β,分別統計各特徵圖的均值μ和標準差σ。
而在根據本發明實施例的聯合批歸一化處理中,如圖2c所示,可以使兩個批歸一化層22共用放大倍數γ和偏移係數β,共同統計所有特徵圖的均值μ和標準差σ。
通過聯合統計所有尺度的特徵圖的統計量,能夠有效穩定訓練過程並進一步提升性能,尤其在檢測任務中批量較小的情況下,聯合批歸一化能夠取得很好的效果。
在本發明的一些實施例中,該圖像處理網路還可包括回歸網路和分類網路,分別用於實現目標檢測中的回歸任務和分類任務。其中,回歸網路和分類網路可包括卷積層、啟動層、全連接層等,本發明對回歸網路和分類網路的網路結構不作限制。
本發明的實施例中,步驟S13可包括:
將所述M級第二特徵圖輸入所述回歸網路,確定所述待處理圖像中目標對應的圖像框;
將所述M級第二特徵圖輸入所述分類網路,確定出所述待處理圖像中目標的類別,所述目標檢測結果包括所述目標對應的圖像框和所述目標的類別。
舉例來說,可根據M級第二特徵圖來實現目標檢測中的回歸任務和分類任務。可將M級第二特徵圖輸入回歸網路中處理,回歸得到待處理圖像中的目標對應的圖像框;可將M級第二特徵圖輸入分類網路中處理,確定待處理圖像中的目標的類別。其中,待處理圖像的目標檢測結果可包括所述目標對應的圖像框和所述目標的類別。
相關技術中的檢測器通常為回歸任務和分類任務分別設計回歸頭部和分類頭部。而根據本發明實施例的圖像處理網路,將P級融合網路塊(使用金字塔卷積)作為回歸任務和分類任務的組合頭部,僅根據兩個任務對感受野的微弱不同,在回歸網路和分類網路中增加不共用的卷積,從而能夠大大降低計算量且不損失性能。
圖3a示出根據相關技術的檢測器的示意圖;圖3b示出根據本發明實施例的圖像處理網路的示意圖。
如圖3a所示,在相關技術中的檢測器,為回歸任務和分類任務分別設計回歸頭部31和分類頭部32,分別通過多級的網路塊(例如卷積塊)對特徵圖進行處理,在最後一級的網路塊分別實現回歸任務和分類任務,回歸任務得到圖像中K個目標的檢測框的4個頂點座標;分類任務得到圖像中K個目標的類別(設共有C個類別)。其中,每級網路塊可能包括卷積層、啟動層、全連接層等,本發明對此不作限制。
如圖3b所示,根據本發明實施例的圖像處理網路,將P級融合網路塊(可稱為P卷積塊)作為回歸任務和分類任務的組合頭部33,M級第一特徵圖經組合頭部33處理後,得到M級第二特徵圖。將M級第二特徵圖分別輸入回歸網路和分類網路各自的額外頭部34的網路塊中處理,在最後一級的網路塊(包括卷積層、啟動層、全連接層等)分別實現回歸任務和分類任務。回歸網路和分類網路的額外頭部34可各包括至少一個卷積層。可根據回歸任務和分類任務的感受野的微弱不同,為兩個額外頭部34的卷積層設置不同的卷積參數,本發明對此不作限制。
如圖3b所示,回歸任務得到圖像中K個目標的檢測框的4個頂點座標;分類任務得到圖像中K個目標的類別(設共有C個類別)。本發明對額外頭部34的網路塊以及最後一級網路塊的網路結構不作限制。
通過這種方式,根據本發明實施例的圖像處理網路,能夠大大降低計算量且不損失性能。
在本發明的一些實施例中,在應用根據本發明實施例的圖像處理網路之前,可對圖像處理網路進行訓練。也即將訓練集中的樣本圖像輸入圖像處理網路,經由特徵金字塔網路、P級融合網路塊、回歸網路及分類網路處理,得到樣本圖像的樣本目標檢測結果;根據多個樣本圖像的樣本目標檢測結果與標注結果的差異,確定網路損失;根據網路損失調整圖像處理網路的參數;在滿足訓練條件(例如網路收斂)的情況下,得到訓練後的圖像處理網路。本發明對訓練過程不作限制。
在本發明的一些實施例中,為了進一步利用特徵金字塔相鄰層之間特徵的相關性,提出一種三維的卷積形式—金字塔卷積,即同時關注特徵圖維度以及空間維度的相關性。根據本發明實施例的圖像處理方法,能夠通過空間尺度大的金子塔卷積,融合特徵金子塔中相鄰層之間特徵的相關資訊,更好地捕捉特徵圖維度以及空間維度的相關性。解決了物體檢測領域,特徵金字塔在提取不同尺度的特徵的情況下,只注重於融合不同層之間的語意資訊,忽視了相鄰層之間特徵的相關性的問題。
在本發明的一些實施例中,通過聯合批歸一化,與尺度空間卷積自然結合,整體統計所有尺度特徵圖的統計量,有效穩定訓練過程並進一步提升性能,使得批歸一化在批量較小時也能得到應用。解決了批歸一化在實際應用中,由於其對資料批量小時無法獲得準確的統計量,在物體檢測領域一直沒有得到很好的應用的問題。
在本發明的一些實施例中,為了減少普通的特徵金字塔與高斯金字塔之間的差別,根據本發明實施例的圖像處理方法,能夠用可變形卷積替換普通卷積,將金子塔卷積改進為尺度均衡卷積,從而減少普通的特徵金字塔與高斯金字塔之間的差別,使得網路處理不同尺度的提取時更加合理高效。通過在單階段檢測器使用共用的頭部模組來進一步提取特徵,能夠大大降低計算量且不損失性能,加快推理速度。解決了當前特徵金字塔以及共用頭部模組參數設計不合理的問題。
在本發明的一些實施例中,根據本發明實施例的圖像處理方法,在尺度變化較大的資料集上,能夠以極小的速度損失,使得單階段檢測器獲得了巨大的性能提升,並且在二階段檢測器也被驗證有效。
根據本發明實施例的圖像處理方法,能夠應用於物體檢測、行人檢測等場景中,實現物體尺度變化較大的場景(例如物體處於攝影頭的近景位置和遠景位置)的檢測任務,能夠同時提升檢測的性能和檢測速度。
可以理解,本發明提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本發明不再贅述。本領域技術人員可以理解,在實施方式的上述方法中,各步驟的執行順序應當以其功能和可能的內在邏輯確定。
此外,本發明還提供了圖像處理裝置、電子設備、電腦可讀儲存介質、程式,上述均可用來實現本發明提供的任一種圖像處理方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖4示出根據本發明實施例的圖像處理裝置的方塊圖,如圖4所示,所述裝置包括:
特徵提取模組41,配置為對待處理圖像進行M級特徵提取,得到所述待處理圖像的M級第一特徵圖,所述M級第一特徵圖中各級第一特徵圖的尺度不同,M為大於1的整數;
尺度調整及融合模組42,配置為對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,其中,每個所述特徵圖組包括所述第一特徵圖以及與所述第一特徵圖相鄰的第一特徵圖;
目標檢測模組43,配置為對所述M級第二特徵圖進行目標檢測,得到所述待處理圖像的目標檢測結果。
在本發明的一些實施例中,與第i級第一特徵圖對應的特徵圖組包括第i-1級第一特徵圖、第i級第一特徵圖及第i+1級第一特徵圖,i為整數且1<i<M,所述尺度調整及融合模組包括:第一尺度縮小子模組,配置為對所述第i-1級第一特徵圖進行尺度縮小,得到第一個第i級第三特徵圖;第一變換子模組,配置為對所述第i級第一特徵圖進行尺度不變的變換,得到第二個第i級第三特徵圖;第一尺度放大子模組,配置為對所述第i+1級第一特徵圖進行尺度放大,得到第三個第i級第三特徵圖;第一融合子模組,配置為對所述第一個第i級第三特徵圖、所述第二個第i級第三特徵圖及第三個第i級第三特徵圖進行融合,得到第i級第二特徵圖,其中,所述第一個第i級第三特徵圖、所述第二個第i級第三特徵圖及第三個第i級第三特徵圖的尺度相同。在本發明的一些實施例中,與第1級第一特徵圖對應的特徵圖組包括所述第1級第一特徵圖及第2級第一特徵圖,所述尺度調整及融合模組包括:第二變換子模組,配置為對所述第1級第一特徵圖進行尺度不變的變換,得到第一個第1級第三特徵圖;第二尺度放大子模組,配置為對所述第2級第一特徵圖進行尺度放大,得到第二個第1級第三特徵圖;第二融合子模組,配置為對所述第一個第1級第三特徵圖及所述第二個第1級第三特徵圖進行融合,得到第1級第二特徵圖,其中,所述第一個第1級第三特徵圖與所述第二個第1級第三特徵圖的尺度相同。在本發明的一些實施例中,與第M級第一特徵圖對應的特徵圖組包括第M-1級第一特徵圖及所述第M級第一特徵圖,所述尺度調整及融合模組包括:第二尺度縮小子模組,配置為對所述第M-1級第一特徵圖進行尺度縮小,得到第一個第M級第三特徵圖;第三變換子模組,配置為對所述第M級第一特徵圖進行尺度不變的變換,得到第二個第M級第三特徵圖;第三融合子模組,配置為對所述第一個第M級第三特徵圖及所述第二個第M級第三特徵圖進行融合,得到第M級第二特徵圖,其中,所述第一個第M級第三特徵圖與所述第二個第M級第三特徵圖的尺度相同。在本發明的一些實施例中,所述第一尺度縮小子模組配置為:通過第一卷積層對所述第i-1級第一特徵圖進行卷積,得到所述第一個第i級第三特徵圖,所述第一卷積層的卷積核尺寸為N×N,步長為n,N、n為大於1的整數,所述第i-1級第一特徵圖的尺度為所述第i級第一特徵圖的尺度的n倍;所述第一變換子模組配置為:通過第二卷積層對所述第i級第一特徵圖進行卷積,得到所述第二個第i級第三特徵圖,所述第二卷積層的卷積核尺寸為N×N,步長為1;所述對所述第一尺度放大子模組配置為:通過第三卷積層及上採樣層對所述第i+1級第一特徵圖進行卷積及上採樣,得到所述第三個第i級第三特徵圖,所述第三卷積層的卷積核尺寸為N×N,步長為1。在本發明的一些實施例中,所述第二變換子模組配置為:通過第二卷積層對所述第1級第一特徵圖進行卷積,得到所述第一個第1級第三特徵圖,所述第二卷積層的卷積核尺寸為N×N,步長為1,N為大於1的整數;所述第二尺度放大子模組配置為:通過第三卷積層及上採樣層對所述第2級第一特徵圖進行卷積及上採樣,得到第二個第1級第三特徵圖,所述第三卷積層的卷積核尺寸為N×N,步長為1。在本發明的一些實施例中,所述第二尺度縮小子模組配置為:通過第一卷積層對所述第M-1級第一特徵圖進行卷積,得到所述第一個第M級第三特徵圖,所述第一卷積層的卷積核尺寸為N×N,步長為n,N、n為大於1的整數,所述第i-1級第一特徵圖的尺度為所述第i級第一特徵圖的尺度的n倍;所述第三變換子模組配置為:通過第二卷積層對所述第M級第一特徵圖進行卷積,得到所述第二個第M級第三特徵圖,所述第二卷積層的卷積核尺寸為N×N,步長為1。在本發明的一些實施例中,所述第二卷積層及所述第三卷積層包括可變形卷積層或空洞卷積層。在本發明的一些實施例中,所述裝置通過圖像處理網路實現,所述圖像處理網路包括串聯的P級融合網路塊,配置為對所述M級第一特徵圖進行P次尺度調整及融合,每級融合網路塊包括多個第一卷積層、多個第二卷積層及多個第三卷積層,P為正整數;所述尺度調整及融合模組包括:第一融合子模組,配置為將所述M級第一特徵圖輸入第一級融合網路塊中,輸出第一次融合的M級第四特徵圖;第二融合子模組,配置為將第j-1次融合的M級第四特徵圖輸入第j級融合網路塊中,輸出第j次融合的M級第四特徵圖,j為整數且1<j<P;第三融合子模組,配置為將第P-1次融合的M級第四特徵圖輸入第P級融合網路塊中,輸出所述M級第二特徵圖。在本發明的一些實施例中,每級融合網路塊還包括歸一化層,所述第二融合子模組配置為:通過所述第j級融合網路塊的第一卷積層、第二卷積層及第三卷積層,對所述第j-1次融合的M級第四特徵圖對應的特徵圖組分別進行尺度調整及融合,得到所述第j次融合的M級中間特徵圖;通過所述歸一化層對所述第j次融合的M級中間特徵圖進行聯合批歸一化處理,得到所述第j次融合的M級第四特徵圖。在本發明的一些實施例中,所述裝置通過圖像處理網路實現,所述圖像處理網路還包括回歸網路和分類網路,所述目標檢測模組包括:回歸子模組,配置為將所述M級第二特徵圖輸入所述回歸網路,確定所述待處理圖像中目標對應的圖像框;分類子模組,配置為將所述M級第二特徵圖輸入所述分類網路,確定出所述待處理圖像中目標的類別,所述目標檢測結果包括所述目標對應的圖像框和所述目標的類別。
在一些實施例中,本發明實施例提供的裝置具有的功能或包含的模組可以配置為執行上文方法實施例描述的方法,其實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本發明實施例還提出一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是易失性電腦可讀儲存介質或非易失性電腦可讀儲存介質。本發明實施例還提出一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行上述方法。本發明實施例還提供了一種電腦程式產品,包括電腦可讀代碼,當電腦可讀代碼在設備上運行時,設備中的處理器執行用於實現如上任一實施例提供的圖像處理方法的指令。本發明實施例還提供了另一種電腦程式產品,用於儲存電腦可讀指令,指令被執行時使得電腦執行上述任一實施例提供的圖像處理方法的操作。電子設備可以被提供為終端、伺服器或其它形態的設備。
圖5示出根據本發明實施例的一種電子設備800的方塊圖。例如,電子設備800可以是行動電話,電腦,數位廣播終端,消息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖5,電子設備800可以包括以下一個或多個組件:處理組件802,記憶體804,電源組件806,多媒體組件808,音頻組件810,輸入/輸出(I/ O)的介面812,感測器組件814,以及通信組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,資料通信,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他組件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互。記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,消息,圖片,視頻等。記憶體804可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與為電子設備800生成、管理和分配電力相關聯的組件。多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。在螢幕包括觸摸面板的情況下,螢幕可以被實現為觸控式螢幕,以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝影頭和/或後置攝影頭。當電子設備800處於操作模式,如拍攝模式或視訊模式時,前置攝影頭和/或後置攝影頭可以接收外部的多媒體資料。每個前置攝影頭和後置攝影頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。音頻組件810被配置為輸出和/或輸入音頻信號。例如,音頻組件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音辨識模式時,麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中,音頻組件810還包括一個揚聲器,用於輸出音頻信號。I/ O介面812為處理組件802和週邊介面模組之間提供介面,上述週邊介面模組可以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。感測器組件814包括一個或多個感測器,用於為電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,組件的相對定位,例如所述組件為電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變,使用者與電子設備800接觸的存在或不存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中,所述通信組件816還包括近場通信(NFC)模組,以促進短程通信。例如,在NFC模組可基於射頻識別(RFID)技術,紅外資料協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。在示例性實施例中,電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式設計邏輯器件(PLD)、現場可程式設計閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子組件實現,用於執行上述方法。在示例性實施例中,還提供了一種非易失性電腦可讀儲存介質,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
圖6示出根據本發明實施例的一種電子設備1900的方塊圖。例如,電子設備1900可以被提供為一伺服器。參照圖6,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置為執行指令,以執行上述方法。
電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理,一個有線或無線網路介面1950被配置為將電子設備1900連接到網路,和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或類似。在示例性實施例中,還提供了一種非易失性電腦可讀儲存介質,例如包括電腦程式指令的記憶體1932,上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。
本發明可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質,其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。
電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是(但不限於)電存放裝置、磁存放裝置、光存放裝置、電磁存放裝置、半導體存放裝置或者上述的任意合適的組合。電腦可讀儲存介質的例子(非窮舉的列表)包括:可擕式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能盤(DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為暫態信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備,或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部存放裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。
用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼,所述程式設計語言包括物件導向的程式設計語言—諸如Smalltalk、C++等,以及常規的過程式程式設計語言—諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路—包括局域網(LAN)或廣域網路(WAN)—連接到使用者電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路,例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本發明的各個方面。
這裡參照根據本發明實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解,流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器,從而生產出一種機器,使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時,產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中,這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀介質則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上,使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方塊實際上可以基本並行地執行,它們有時也可以按相反的循序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
該電腦程式產品可以通過硬體、軟體或其結合的方式實現。在一個可選實施例中,所述電腦程式產品體現為電腦儲存介質,在另一個可選實施例中,電腦程式產品體現為軟體產品,例如軟體發展包(Software Development Kit,SDK)等等。
以上已經描述了本發明的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
工業實用性
在本發明實施例中,能夠對待處理圖像進行M級特徵提取得到M級第一特徵圖;對每個第一特徵圖與其相鄰的特徵圖融合得到M級第二特徵圖;對M級第二特徵圖目標檢測得到目標檢測結果,從而能夠融合M級第一特徵圖的相鄰層之間特徵的相關資訊,有效提高目標檢測的效果。
11:輸入特徵圖
12:可變形卷積層
13:卷積
14:偏移
15:輸出特徵圖
21:卷積層
22:批歸一化層(BN)
23:啟動層
31:回歸頭部
32:分類頭部
33:組合頭部
34:額外頭部
41:特徵提取模組
42:尺度調整及融合模組
43:目標檢測模組
800:電子設備
802:處理組件
804:記憶體
806:電源組件
808:多媒體組件
810:音頻組件
812:輸入/輸出介面
814:感測器組件
816:通信組件
820:處理器
1900:電子設備
1922:處理組件
1926:電源組件
1932:記憶體
1950:網路介面
1958:輸入輸出介面
S11~S13:步驟
此處的附圖被併入說明書中並構成本說明書的一部分,這些附圖示出了符合本發明的實施例,並與說明書一起用於說明本發明的技術方案。
圖1a示出根據本發明實施例的圖像處理方法的流程圖。
圖1b為四種不同生成多維度特徵組合的方法的示意圖。
圖1c為可變形卷積層的工作原理示意圖。
圖2a及圖2b示出根據相關技術的批歸一化的示意圖。
圖2c示出根據本發明實施例的聯合批歸一化的示意圖。
圖3a示出根據相關技術的檢測器的示意圖。
圖3b示出根據本發明實施例的圖像處理網路的示意圖。
圖4示出根據本發明實施例的圖像處理裝置的方塊圖。
圖5示出根據本發明實施例的一種電子設備的方塊圖。
圖6示出根據本發明實施例的一種電子設備的方塊圖。
S11~S13:步驟
Claims (11)
- 一種圖像處理方法,包括:對待處理圖像進行M級特徵提取,得到所述待處理圖像的M級第一特徵圖,所述M級第一特徵圖中各級第一特徵圖的尺度不同,M為大於1的整數;對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,其中,每個所述特徵圖組包括所述第一特徵圖以及與所述第一特徵圖相鄰的第一特徵圖;對所述M級第二特徵圖進行目標檢測,得到所述待處理圖像的目標檢測結果;其中,與所述M級第一特徵圖中第i級第一特徵圖對應的特徵圖組包括第i-1級第一特徵圖、第i級第一特徵圖及第i+1級第一特徵圖,i為整數且1<i<M,其中:所述對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,包括:通過第一卷積層對所述第i-1級第一特徵圖進行卷積,得到所述第一個第i級第三特徵圖,所述第一卷積層的卷積核尺寸為N×N,步長為n,N、n為大於1的整數,所述第i-1級第一特徵圖的尺度為所述第i級第一特徵圖的尺度的n倍;通過第二卷積層對所述第i級第一特徵圖進行卷積,得到所述第二個第i級第三特徵圖,所述第二卷積層的卷積核尺寸為N×N,步長為1; 通過第三卷積層及上採樣層對所述第i+1級第一特徵圖進行卷積及上採樣,得到所述第三個第i級第三特徵圖,所述第三卷積層的卷積核尺寸為N×N,步長為1對所述第一個第i級第三特徵圖、所述第二個第i級第三特徵圖及第三個第i級第三特徵圖進行融合,得到第i級第二特徵圖;其中,所述第一個第i級第三特徵圖、所述第二個第i級第三特徵圖及第三個第i級第三特徵圖的尺度相同。
- 根據請求項1所述的方法,其中,與第1級第一特徵圖對應的特徵圖組包括所述第1級第一特徵圖及第2級第一特徵圖,所述對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,包括:對所述第1級第一特徵圖進行尺度不變的變換,得到第一個第1級第三特徵圖;對所述第2級第一特徵圖進行尺度放大,得到第二個第1級第三特徵圖;對所述第一個第1級第三特徵圖及所述第二個第1級第三特徵圖進行融合,得到第1級第二特徵圖,其中,所述第一個第1級第三特徵圖與所述第二個第1級第三特徵圖的尺度相同。
- 根據請求項1所述的方法,其中,與第M級第一特徵圖對應的特徵圖組包括第M-1級第一特徵圖及所述第M級第一特徵圖; 所述對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,包括:對所述第M-1級第一特徵圖進行尺度縮小,得到第一個第M級第三特徵圖;對所述第M級第一特徵圖進行尺度不變的變換,得到第二個第M級第三特徵圖;對所述第一個第M級第三特徵圖及所述第二個第M級第三特徵圖進行融合,得到第M級第二特徵圖;其中,所述第一個第M級第三特徵圖與所述第二個第M級第三特徵圖的尺度相同。
- 根據請求項2所述的方法,其中,所述對所述第1級第一特徵圖進行尺度不變的變換,得到第一個第1級第三特徵圖,包括:通過第二卷積層對所述第1級第一特徵圖進行卷積,得到所述第一個第1級第三特徵圖,所述第二卷積層的卷積核尺寸為N×N,步長為1,N為大於1的整數;所述對所述第2級第一特徵圖進行尺度放大,得到第二個第1級第三特徵圖,包括:通過第三卷積層及上採樣層對所述第2級第一特徵圖進行卷積及上採樣,得到第二個第1級第三特徵圖,所述第三卷積層的卷積核尺寸為N×N,步長為1。
- 根據請求項3所述的方法,其中,所述對所述第M-1級第一特徵圖進行尺度縮小,得到第一個第M級第三特徵圖,包括:通過第一卷積層對所述第M-1級第 一特徵圖進行卷積,得到所述第一個第M級第三特徵圖,所述第一卷積層的卷積核尺寸為N×N,步長為n,N、n為大於1的整數,所述第i-1級第一特徵圖的尺度為所述第i級第一特徵圖的尺度的n倍;所述對所述第M級第一特徵圖進行尺度不變的變換,得到第二個第M級第三特徵圖,包括:通過第二卷積層對所述第M級第一特徵圖進行卷積,得到所述第二個第M級第三特徵圖,所述第二卷積層的卷積核尺寸為N×N,步長為1。
- 根據請求項1所述的方法,其中,所述第二卷積層及所述第三卷積層包括可變形卷積層或空洞卷積層。
- 根據請求項1所述的方法,其中,所述方法通過圖像處理網路實現,所述圖像處理網路包括串聯的P級融合網路塊,用於對所述M級第一特徵圖進行P次尺度調整及融合,每級融合網路塊包括多個第一卷積層、多個第二卷積層及多個第三卷積層,P為正整數;所述對與各級第一特徵圖對應的特徵圖組分別進行尺度調整及融合,得到M級第二特徵圖,包括:將所述M級第一特徵圖輸入第一級融合網路塊中,輸出第一次融合的M級第四特徵圖;將第j-1次融合的M級第四特徵圖輸入第j級融合網路塊中,輸出第j次融合的M級第四特徵圖,j為整數且1<j<P; 將第P-1次融合的M級第四特徵圖輸入第P級融合網路塊中,輸出所述M級第二特徵圖。
- 根據請求項7所述的方法,其中,每級融合網路塊還包括歸一化層;所述將第j-1次融合的M級第四特徵圖輸入第j級融合網路塊中,輸出第j次融合的M級第四特徵圖,包括:通過所述第j級融合網路塊的第一卷積層、第二卷積層及第三卷積層,對所述第j-1次融合的M級第四特徵圖對應的特徵圖組分別進行尺度調整及融合,得到所述第j次融合的M級中間特徵圖;通過所述歸一化層對所述第j次融合的M級中間特徵圖進行聯合批歸一化處理,得到所述第j次融合的M級第四特徵圖。
- 根據請求項1所述的方法,其中,所述方法通過圖像處理網路實現,所述圖像處理網路還包括回歸網路和分類網路,所述對所述M級第二特徵圖進行目標檢測,得到所述待處理圖像的目標檢測結果,包括:將所述M級第二特徵圖輸入所述回歸網路,確定所述待處理圖像中目標對應的圖像框;將所述M級第二特徵圖輸入所述分類網路,確定出所述待處理圖像中目標的類別,所述目標檢測結果包括所述目標對應的圖像框和所述目標的類別。
- 一種電子設備,包括:處理器; 配置為儲存處理器可執行指令的記憶體;其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行請求項1至9中任一項所述的方法。
- 一種電腦可讀儲存介質,其上儲存有電腦程式指令,其中,所述電腦程式指令被處理器執行時實現請求項1至9中任一項所述的圖像處理方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306929.2A CN111507408B (zh) | 2020-04-17 | 2020-04-17 | 图像处理方法及装置、电子设备和存储介质 |
CN202010306929.2 | 2020-04-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202141423A TW202141423A (zh) | 2021-11-01 |
TWI782480B true TWI782480B (zh) | 2022-11-01 |
Family
ID=71874374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110113119A TWI782480B (zh) | 2020-04-17 | 2021-04-12 | 圖像處理方法及電子設備和電腦可讀儲存介質 |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP2022532322A (zh) |
KR (1) | KR20220011207A (zh) |
CN (1) | CN111507408B (zh) |
TW (1) | TWI782480B (zh) |
WO (1) | WO2021208667A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507408B (zh) * | 2020-04-17 | 2022-11-04 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111967401A (zh) * | 2020-08-19 | 2020-11-20 | 上海眼控科技股份有限公司 | 目标检测方法、设备及存储介质 |
CN112232361B (zh) * | 2020-10-13 | 2021-09-21 | 国网电子商务有限公司 | 图像处理的方法及装置、电子设备及计算机可读存储介质 |
CN112200201A (zh) * | 2020-10-13 | 2021-01-08 | 上海商汤智能科技有限公司 | 一种目标检测方法及装置、电子设备和存储介质 |
CN113191390B (zh) * | 2021-04-01 | 2022-06-14 | 华中科技大学 | 一种图像分类模型的构建方法、图像分类方法及存储介质 |
CN114463605B (zh) * | 2022-04-13 | 2022-08-12 | 中山大学 | 基于深度学习的持续学习图像分类方法及装置 |
CN115223018B (zh) * | 2022-06-08 | 2023-07-04 | 东北石油大学 | 伪装对象协同检测方法及装置、电子设备和存储介质 |
CN115131641A (zh) * | 2022-06-30 | 2022-09-30 | 北京百度网讯科技有限公司 | 图像识别方法、装置、电子设备和存储介质 |
CN115018059B (zh) * | 2022-08-09 | 2022-11-18 | 北京灵汐科技有限公司 | 数据处理方法及装置、神经网络模型、设备、介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180060719A1 (en) * | 2016-08-29 | 2018-03-01 | International Business Machines Corporation | Scale-space label fusion using two-stage deep neural net |
CN110852349A (zh) * | 2019-10-21 | 2020-02-28 | 上海联影智能医疗科技有限公司 | 一种图像处理方法、检测方法、相关设备及存储介质 |
TW202013309A (zh) * | 2018-09-19 | 2020-04-01 | 財團法人工業技術研究院 | 基於神經網路的分類方法及其分類裝置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965719B2 (en) * | 2015-11-04 | 2018-05-08 | Nec Corporation | Subcategory-aware convolutional neural networks for object detection |
CN106096670B (zh) * | 2016-06-17 | 2019-07-30 | 深圳市商汤科技有限公司 | 级联卷积神经网络训练和图像检测方法、装置及系统 |
WO2018035805A1 (en) * | 2016-08-25 | 2018-03-01 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
JP6546618B2 (ja) * | 2017-05-31 | 2019-07-17 | 株式会社Preferred Networks | 学習装置、学習方法、学習モデル、検出装置及び把持システム |
KR102235745B1 (ko) * | 2018-08-10 | 2021-04-02 | 네이버 주식회사 | 컨볼루션 순환 신경망을 훈련시키는 방법 및 훈련된 컨볼루션 순환 신경망을 사용하는 입력된 비디오의 의미적 세그먼트화 방법 |
CN109816671B (zh) * | 2019-01-31 | 2021-09-24 | 深兰科技(上海)有限公司 | 一种目标检测方法、装置及存储介质 |
CN110378976B (zh) * | 2019-07-18 | 2020-11-13 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN110647834B (zh) * | 2019-09-18 | 2021-06-25 | 北京市商汤科技开发有限公司 | 人脸和人手关联检测方法及装置、电子设备和存储介质 |
CN111507408B (zh) * | 2020-04-17 | 2022-11-04 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
-
2020
- 2020-04-17 CN CN202010306929.2A patent/CN111507408B/zh active Active
-
2021
- 2021-03-19 KR KR1020227000768A patent/KR20220011207A/ko active Search and Examination
- 2021-03-19 JP JP2021566025A patent/JP2022532322A/ja active Pending
- 2021-03-19 WO PCT/CN2021/081782 patent/WO2021208667A1/zh active Application Filing
- 2021-04-12 TW TW110113119A patent/TWI782480B/zh active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180060719A1 (en) * | 2016-08-29 | 2018-03-01 | International Business Machines Corporation | Scale-space label fusion using two-stage deep neural net |
TW202013309A (zh) * | 2018-09-19 | 2020-04-01 | 財團法人工業技術研究院 | 基於神經網路的分類方法及其分類裝置 |
CN110852349A (zh) * | 2019-10-21 | 2020-02-28 | 上海联影智能医疗科技有限公司 | 一种图像处理方法、检测方法、相关设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111507408B (zh) | 2022-11-04 |
CN111507408A (zh) | 2020-08-07 |
WO2021208667A1 (zh) | 2021-10-21 |
JP2022532322A (ja) | 2022-07-14 |
TW202141423A (zh) | 2021-11-01 |
KR20220011207A (ko) | 2022-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI782480B (zh) | 圖像處理方法及電子設備和電腦可讀儲存介質 | |
TWI749423B (zh) | 圖像處理方法及裝置、電子設備和電腦可讀儲存介質 | |
TWI724736B (zh) | 圖像處理方法及裝置、電子設備、儲存媒體和電腦程式 | |
TWI766286B (zh) | 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介 | |
TWI740309B (zh) | 圖像處理方法及裝置、電子設備和電腦可讀儲存介質 | |
TWI759722B (zh) | 神經網路訓練方法及裝置、圖像處理方法及裝置、電子設備和計算機可讀存儲介質 | |
US20210012143A1 (en) | Key Point Detection Method and Apparatus, and Storage Medium | |
TWI769635B (zh) | 網路訓練、行人重識別方法、電子設備及電腦可讀存儲介質 | |
TWI759647B (zh) | 影像處理方法、電子設備,和電腦可讀儲存介質 | |
TWI773945B (zh) | 錨點確定方法、電子設備和儲存介質 | |
TWI771645B (zh) | 文本識別方法及裝置、電子設備、儲存介質 | |
WO2020155711A1 (zh) | 图像生成方法及装置、电子设备和存储介质 | |
TWI778313B (zh) | 圖像處理方法、電子設備和儲存介質 | |
WO2021169132A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110458218B (zh) | 图像分类方法及装置、分类网络训练方法及装置 | |
TW202029125A (zh) | 圖像處理方法及裝置、電子設備和儲存介質 | |
JP2022522551A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
KR20200106027A (ko) | 네트워크 모듈 및 분배 방법 및 장치, 전자 기기 및 저장 매체 | |
TW202141352A (zh) | 字元識別方法及電子設備和電腦可讀儲存介質 | |
CN111259967A (zh) | 图像分类及神经网络训练方法、装置、设备及存储介质 | |
TW202145064A (zh) | 對象計數方法、電子設備、電腦可讀儲存介質 | |
WO2022247091A1 (zh) | 人群定位方法及装置、电子设备和存储介质 | |
TWI770531B (zh) | 人臉識別方法、電子設備和儲存介質 | |
CN110910304B (zh) | 图像处理方法、装置、电子设备及介质 | |
CN112749709A (zh) | 图像处理方法及装置、电子设备和存储介质 |