TWI752466B

TWI752466B - 影像處理方法、處理器、電子設備、儲存媒介

Info

Publication number: TWI752466B
Application number: TW109112767A
Authority: TW
Inventors: 陳航; 朱烽
Original assignee: 大陸商深圳市商湯科技有限公司
Priority date: 2019-11-27
Filing date: 2020-04-16
Publication date: 2022-01-11
Also published as: CN110956122B; TW202121233A; JP2022516398A; WO2021103187A1; US20210312192A1; SG11202106680UA; KR20210075140A; CN110956122A

Abstract

一種影像處理方法、處理器、電子設備、儲存媒介，該方法包括：獲取待處理圖像、第一卷積核和第二卷積核，所述第一卷積核的感受野與所述第二卷積核的感受野不同；使用所述第一卷積核對所述待處理圖像進行卷積處理獲得第一特徵圖像，使用所述第二卷積核對所述待處理圖像進行卷積處理獲得第二特徵圖像；對所述第一特徵圖像和所述第二特徵圖像進行融合處理，獲得第一人群密度圖像。

Description

影像處理方法、處理器、電子設備、儲存媒介

本申請涉及影像處理技術領域，尤其涉及一種影像處理方法及裝置、處理器、電子設備、儲存媒介。

當公共場所出現人流量過大的情況時，易發生諸如踩踏之類的公共事件。因此如何對公共場所進行人群計數具有重大意義。

傳統方法基於深度學習技術可對公共場所的圖像進行處理，提取出圖像中的特徵資訊，並依據該特徵資訊可確定與公共場所的圖像對應的人群密度圖像，進而可依據人群密度圖像確定該公共場所的圖像種的人數，實現人群計數。

本申請提供一種影像處理方法及裝置、處理器、電子設備、儲存媒介。

第一方面，提供了一種影像處理方法，所述方法包括：

獲取待處理圖像、第一卷積核和第二卷積核，所述第一卷積核的感受野與所述第二卷積核的感受野不同；

使用所述第一卷積核對所述待處理圖像進行卷積處理獲得第一特徵圖像，使用所述第二卷積核對所述待處理圖像進行卷積處理獲得第二特徵圖像；

對所述第一特徵圖像和所述第二特徵圖像進行融合處理，獲得第一人群密度圖像。

在該方面中，透過使用感受野不同的第一卷積核和第二卷積核分別對待處理圖像進行卷積處理，以提取出不同尺度下的描述待處理圖像的內容的資訊，分別獲得第一特徵圖像和第二特徵圖像。透過對第一特徵圖像和第二特徵圖像進行融合處理，以利用不同尺度下的描述待處理圖像的內容的資訊，進而提高獲得的與待處理圖像對應的人群密度圖像的精度。

在一種可能實現的方式中，在所述對所述第一特徵圖像和所述第二特徵圖像進行融合處理，獲得第一人群密度圖像之前，所述方法還包括：

對所述待處理圖像進行第一特徵提取處理，獲得第一自注意力圖像，對所述待處理圖像進行第二特徵提取處理，獲得第二自注意力圖像，所述第一自注意力圖像和所述第二自注意力圖像均用於表徵所述待處理圖像的尺度資訊，且所述第一自注意力圖像所表徵的尺度資訊與所述第二自注意力圖像所表徵的尺度資訊不同；

依據所述第一自注意力圖像確定所述第一特徵圖像的第一權重，依據所述第二自注意力圖像確定所述第二特徵圖像的第二權重；

所述對所述第一特徵圖像和所述第二特徵圖像進行融合處理，獲得第一人群密度圖像，包括：

依據所述第一權重和所述第二權重對所述第一特徵圖像和所述第二特徵圖像進行融合處理，獲得所述第一人群密度圖像。

在該種可能實現的方式中，透過對待處理圖像分別進行第一特徵提取處理和第二特徵提取處理以提取不同尺度下的待處理圖像的資訊，獲得第一自注意力圖像和第二自注意力圖像。依據第一自注意力圖像確定第一特徵圖像的第一權重，依據第二自注意力圖像確定第二特徵圖像的第二權重，並依據第一權重和第二權重對第一特徵圖像和第二特徵圖像進行融合處理，可提高獲得的第一人群密度圖像的精度。

在另一種可能實現的方式中，所述依據所述第一權重和所述第二權重對所述第一特徵圖像和所述第二特徵圖像進行融合處理，獲得所述第一人群密度圖像，包括：

確定所述第一權重與所述第一特徵圖像之間的點積，獲得第三特徵圖像；

確定所述第二權重與所述第二特徵圖像之間的點積，獲得第四特徵圖像；

對所述第三特徵圖像和所述第四特徵圖像進行融合處理，獲得所述第一人群密度圖像。

在又一種可能實現的方式中，所述依據所述第一自注意力圖像確定所述第一特徵圖像的第一權重，依據所述第二自注意力圖像確定所述第二特徵圖像的第二權重，包括：

對所述第一自注意力圖像和所述第二自注意力圖像進行歸一化處理，獲得所述第一自注意力圖像對應的第三自注意力圖像和所述第二自注意力圖像對應的第四自注意力圖像；

將所述第三自注意力圖像作為所述第一權重，將所述第四自注意力圖像作為所述第二權重。

在該種可能實現的方式中，透過對第一自注意力圖像和第二自注意力圖像進行歸一化處理，可使第一自注意力圖像與第二自注意力圖像中相同位置的圖元點的圖元值的和為1。再透過將第一自注意力圖像作為第一權重、將第二自注意力圖像作為第二權重對第一特徵圖像和第二特徵圖像進行融合處理，可實現對待處理圖像中不同圖像區域執行不同感受野的卷積處理，進而提高獲得的第一人群密度圖像的精度。

在又一種可能實現的方式中，在所述使用所述第一卷積核對所述待處理圖像進行卷積處理獲得第一特徵圖像，使用所述第二卷積核對所述待處理圖像進行卷積處理獲得第二特徵圖像之前，所述方法還包括：

對所述待處理圖像進行第三特徵提取處理，獲得第五特徵圖像；

所述使用所述第一卷積核對所述待處理圖像進行卷積處理獲得第一特徵圖像，使用所述第二卷積核對所述待處理圖像進行卷積處理獲得第二特徵圖像，包括：

使用所述第一卷積核對所述第五特徵圖像進行卷積處理獲得所述第一特徵圖像，使用所述第二卷積核對所述第五特徵圖像進行卷積處理獲得所述第二特徵圖像；

所述對所述待處理圖像進行第一特徵提取處理，獲得第一自注意力圖像，對所述待處理圖像進行第二特徵提取處理，獲得第二自注意力圖像，包括：

對所述第五特徵圖像進行所述第一特徵提取處理，獲得所述第一自注意力圖像，對所述第五特徵圖像進行所述第二特徵提取處理，獲得所述第二自注意力圖像。

在該種可能實現的方式中，在使用第一卷積核對待處理圖像進行卷積處理獲得第一特徵圖像，使用第二卷積核對待處理圖像進行卷積處理獲得第二特徵圖像之前，對待處理圖像進行第三特徵提取處理，以提取出待處理圖像的特徵資訊，獲得第五特徵圖像。使用第一卷積核對第五特徵圖像進行卷積處理獲得第一特徵圖像，使用第二卷積核對所述第五特徵圖像進行卷積處理獲得所述第二特徵圖像。這樣可從待處理圖像中提取出更豐富的特徵資訊。

在又一種可能實現的方式中，所述第一卷積核和所述第二卷積核均為空洞卷積核，且所述第一卷積核的大小與所述第二卷積核的大小相同，且所述第一卷積核的權重與所述第二卷積核的權重相同，且所述第一卷積核的擴張率與所述第二卷積核的擴張率不同。

在該種可能實現的方式中，在第一卷積核和第二卷積核均為空洞卷積核的情況下，可將第一卷積核的權重與第二卷積核的權重取為相同，且可使第一卷積核的感受野與第二卷積核的感受野不同。這樣，使用第一卷積核對待處理圖像進行卷積處理獲得的第一特徵圖像包含的資訊和使用第二卷積核對待處理圖像進行卷積核處理獲得的第二特徵圖像包含的資訊僅存在尺度上的差異。在對第一特徵圖像和第二特徵圖像進行融合處理時，可更好的利用不同尺度下待處理圖像的資訊提高獲得的第一人群密度圖像的精度。

在又一種可能實現的方式中，所述第一卷積核或所述第二卷積核的擴張率為參考值。

在該種可能實現的方式中，透過將第一卷積核或第二卷積核的擴張率設為0（即參考值），可在使用第一卷積核或第二卷積核對待處理圖像進行卷積處理時實現對待處理圖像進行感受野為1的卷積處理，以更好的提取出待處理圖像中尺度小的圖像區域的資訊。

在又一種可能實現的方式中，所述方法還包括：確定所述第一人群密度圖像中的圖元值的和，獲得所述待處理圖像中的人數。

在該種可能實現的方式中，依據第一人群密度圖像可確定待處理圖像中的人數。

在又一種可能實現的方式中，所述方法應用於人群計數網路；

所述人群計數網路的訓練過程包括：

獲取樣本圖像；

使用所述人群計數網路對所述樣本圖像進行處理，獲得第二人群密度圖像；

依據所述樣本圖像與所述第二人群密度圖像之間的差異，獲得網路損失；

基於所述網路損失調整所述人群計數網路的參數。

在該種可能實現的方式中，使用訓練後的人群計數網路對待處理圖像進行處理，可獲得與待處理圖像對應的人群密度圖像。

在又一種可能實現的方式中，在所述依據所述樣本圖像與所述第二人群密度圖像之間的差異，獲得網路損失之前，所述方法還包括：

依據衝擊函數、高斯核以及所述樣本圖像，獲得所述樣本圖像的真實人群密度圖像；

所述依據所述樣本圖像與所述第二人群密度圖像之間的差異，獲得網路損失，包括：

依據所述真實人群密度圖像與所述第二人群密度圖像之間的差異，獲得所述網路損失。

在該種可能實現的方式中，將樣本圖像的真實人群密度圖像作為人群計數網路的監督資料，依據真實人群密度圖像與第二人群密度圖像之間的差異，確定人群計數網路的網路損失，可提高獲得的網路損失的精度，進而提升對人群計數網路的訓練效果。

在又一種可能實現的方式中，在所述經所述人群計數網路對所述樣本圖像進行處理，獲得第二人群密度圖像之前，所述方法還包括：

對所述樣本圖像進行預處理，獲得至少一張預處理後的圖像；

所述經所述人群計數網路對所述樣本圖像進行處理，獲得第二人群密度圖像，包括：

使用所述人群計數網路對所述至少一張預處理後的圖像進行處理，獲得至少一張第三人群密度圖像，所述預處理後的圖像與所述第三人群密度圖像一一對應；

依據所述至少一張預處理後的圖像中的靶心圖表像和與所述靶心圖表像對應的第三人群密度圖像之間的差異，獲得所述網路損失。

在該種可能實現的方式中，在將樣本圖像輸入至人群計數網路之前，透過對樣本圖像進行預處理，獲得至少一張預處理後的圖像，並將上述至少一張預處理後的圖像作為訓練資料登錄至人群計數網路。這樣，可達到擴充人群計數網路的訓練資料集的效果。

在又一種可能實現的方式中，所述預處理包括：從所述樣本圖像中截取預定尺寸的圖像、對所述樣本圖像或所述預定尺寸的圖像進行翻轉處理中的至少一種。

第二方面，提供了一種影像處理裝置，所述裝置包括：

獲取單元，用於獲取待處理圖像、第一卷積核和第二卷積核，所述第一卷積核的感受野與所述第二卷積核的感受野不同；

卷積處理單元，用於使用所述第一卷積核對所述待處理圖像進行卷積處理獲得第一特徵圖像，使用所述第二卷積核對所述待處理圖像進行卷積處理獲得第二特徵圖像；

融合處理單元，用於對所述第一特徵圖像和所述第二特徵圖像進行融合處理，獲得第一人群密度圖像。

在一種可能實現的方式中，所述裝置還包括：

特徵提取處理單元，用於在所述對所述第一特徵圖像和所述第二特徵圖像進行融合處理，獲得第一人群密度圖像之前，對所述待處理圖像進行第一特徵提取處理，獲得第一自注意力圖像，對所述待處理圖像進行第二特徵提取處理，獲得第二自注意力圖像，所述第一自注意力圖像和所述第二自注意力圖像均用於表徵所述待處理圖像的尺度資訊，且所述第一自注意力圖像所表徵的尺度資訊與所述第二自注意力圖像所表徵的尺度資訊不同；

第一確定單元，用於依據所述第一自注意力圖像確定所述第一特徵圖像的第一權重，依據所述第二自注意力圖像確定所述第二特徵圖像的第二權重；

所述融合處理單元用於：

在另一種可能實現的方式中，所述融合處理單元具體用於：

在又一種可能實現的方式中，所述第一確定單元用於：

在又一種可能實現的方式中，所述特徵提取處理單元，還用於在所述使用所述第一卷積核對所述待處理圖像進行卷積處理獲得第一特徵圖像，使用所述第二卷積核對所述待處理圖像進行卷積處理獲得第二特徵圖像之前，對所述待處理圖像進行第三特徵提取處理，獲得第五特徵圖像；

所述卷積處理單元用於：

所述特徵提取處理單元還用於：

在又一種可能實現的方式中，所述裝置還包括：第二確定單元，用於確定所述第一人群密度圖像中的圖元值的和，獲得所述待處理圖像中的人數。

在又一種可能實現的方式中，所述裝置執行的影像處理方法應用於人群計數網路；

所述裝置還包括：訓練單元，用於對所述人群計數網路進行訓練，所述人群計數網路的訓練過程包括：

獲取樣本圖像；

基於所述網路損失調整所述人群計數網路的參數。

在又一種可能實現的方式中，所述訓練單元還用於：

在所述依據所述樣本圖像與所述第二人群密度圖像之間的差異，獲得網路損失之前，依據衝擊函數、高斯核以及所述樣本圖像，獲得所述樣本圖像的真實人群密度圖像；

在又一種可能實現的方式中，所述訓練單元還用於：

在所述經所述人群計數網路對所述樣本圖像進行處理，獲得第二人群密度圖像之前，對所述樣本圖像進行預處理，獲得至少一張預處理後的圖像；

協力廠商面，提供了一種處理器，所述處理器用於執行如上述第一方面及其任意一種可能實現的方式的方法。

第四方面，提供了一種電子設備，包括：相互連接的處理器和儲存器，所述儲存器用於儲存電腦程式代碼，所述電腦程式代碼包括電腦指令，當所述處理器執行所述電腦指令時，所述電子設備執行如上述第一方面及其任意一種可能實現的方式的方法。

第五方面，提供了一種電腦可讀儲存媒介，所述電腦可讀儲存媒介中儲存有電腦程式，所述電腦程式包括程式指令，所述程式指令當被電子設備的處理器執行時，使所述處理器執行如上述第一方面及其任意一種可能實現的方式的方法。

第六方面，提供了一種包含指令的電腦程式產品，當所述電腦程式產品在電腦上運行時，使得電腦執行上述第一方面及其任一種可能的實現方式的方法。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本公開。

為了使所屬技術領域中具有通常知識者更好地理解本申請方案，下面將結合本申請實施例中的圖式，對本申請實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請一部分實施例，而不是全部的實施例。基於本申請中的實施例，所屬技術領域中具有通常知識者在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬於本申請保護的範圍。

本申請的說明書和申請專利範圍書及上述圖式中的術語“第一”、“第二”等是用於區別不同物件，而不是用於描述特定順序。此外，術語“包括”和“具有”以及它們任何變形，意圖在於覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統、產品或設備沒有限定於已列出的步驟或單元，而是可選地還包括沒有列出的步驟或單元，或可選地還包括對於這些過程、方法、產品或設備固有的其他步驟或單元。

在本文中提及“實施例”意味著，結合實施例描述的特定特徵、結構或特性可以包含在本申請的至少一個實施例中。在說明書中的各個位置出現該短語並不一定均是指相同的實施例，也不是與其它實施例互斥的獨立的或備選的實施例。所屬技術領域中具有通常知識者顯式地和隱式地理解的是，本文所描述的實施例可以與其它實施例相結合。

在公共場所（例如廣場、超市、地鐵站、碼頭等地方）中，有時會存在人流量過多的情況，進而導致人群過於密集的情況發生。這時易發生一些公共事故，例如踩踏事件。因此，如何對公共場所進行人群計數就變得非常有意義。

隨著深度學習技術的發展，基於深度學習的方法可確定圖像中的人數，實現人群計數。傳統的深度學習方法透過使用一個卷積核對整張圖像進行卷積處理以提取出圖像中的特徵資訊，並依據特徵資訊確定圖像中的人數。由於一個卷積核的感受野是固定不變的，若使用一個卷積核對整張圖像進行卷積處理，即相當於對圖像中不同尺度的內容進行相同感受野的卷積處理，而不同人物在圖像中的尺度不同，這將導致不能有效提取出圖像中的尺度資訊，進而導致確定的人數的誤差。

本申請中，圖像中近處的人物對應的圖像尺度大，圖像中遠處的人物對應的圖像尺度小。本申請實施例中的“遠”指與圖像中人物對應的真實人物與採集上述圖像的成像設備之間的距離遠，“近”指與圖像中人物對應的真實人物與採集上述圖像的成像設備之間的距離近。

在卷積神經網路中，感受野（receptive field）的定義是卷積神經網路每一層輸出的特徵圖（feature map）上的圖元點在輸入圖片上映射的區域大小。本申請中，卷積核的感受野即為使用該卷積核對圖像進行卷積處理的感受野。

本申請實施例提供的技術方案可提取出圖像中的尺度資訊，進而提升確定的人數的精度。

下面結合本申請實施例中的圖式對本申請實施例進行描述。

請參閱圖1，圖1是本申請實施例（一）提供的一種影像處理方法的流程示意圖，包括以下步驟：

步驟101、獲取待處理圖像、第一卷積核和第二卷積核，上述第一卷積核的感受野與上述第二卷積核的感受野不同。

本申請實施例的執行主體可以是伺服器、手機、電腦、平板電腦等終端硬體。本申請實施例提供的方法也可透過處理器運行電腦可執行代碼的方式執行。上述待處理圖像可以是任意圖像。例如，待處理圖像可以包含人物物件，其中，待處理圖像可以只包括人臉，並無軀幹、四肢（下文將軀幹和四肢稱為人體），也可以只包括人體，不包括人臉，還可以只包括下肢或上肢。本申請對待處理圖像具體包含的人體區域不做限定。又例如，待處理圖像可以包含動物。再例如，待處理圖像可以包含植物。本申請對待處理圖像中包含的內容不做限定。

在進行接下來的闡述之前，首先對本申請實施例中的卷積核的權重的含義進行定義。本申請實施例中，通道為1的卷積核以n×n的矩陣的形式存在，該矩陣中包含n×n個元素，每個元素均有一個取值，該矩陣中元素的取值即為卷積核的權重。在圖2a所示的3×3的卷積核中，若元素a的取值為44、元素b的取值為118、元素c的取值為192、元素d的取值為32、元素e的取值為83、元素f的取值為204、元素g的取值為61、元素h的取值為174、元素i的取值為250，則該3×3的卷積核的權重為圖2b所示的3×3的矩陣。

本申請實施例中，在滿足第一卷積核的感受野與第二卷積核的感受野不同的情況下，第一卷積核和第二卷積核均可是任意大小的卷積核，且第一卷積核的權重和第二卷積核的權重均可為任意自然數，本實施例對第一卷積核的大小、第二卷積核的大小、第一卷積核的權重以及第二卷積核的權重均不做限定。

獲取待處理圖像的方式可以是接收使用者透過輸入元件輸入的待處理圖像，也可以是接收終端發送的待處理圖像。獲取第一卷積核的方式可以是接收使用者透過輸入元件輸入的第一卷積核，也可以是接收終端發送的第一卷積核。獲取第二卷積核的方式可以是接收使用者透過輸入元件輸入的第二卷積核，也可以是接收終端發送的第二卷積核。上述輸入元件包括：鍵盤、滑鼠、觸控屏、觸控板和音訊輸入器等。上述終端包括手機、電腦、平板電腦、伺服器等。

步驟102、使用上述第一卷積核對上述待處理圖像進行卷積處理獲得第一特徵圖像，使用上述第二卷積核對上述待處理圖像進行卷積處理獲得第二特徵圖像。

由於第一卷積核的感受野與第二卷積核的感受野不同，使用第一卷積核對待處理圖像進行卷積處理和使用第二卷積核對待處理圖像進行卷積處理相當於以不同的感受野“觀察”圖像，實現獲得不同尺度下的圖像資訊。即第一特徵圖像和第二特徵圖像均包含用於描述待處理圖像的內容的資訊，但第一特徵圖像包含的資訊的尺度與第二特徵圖像包含的資訊的尺度不同。

步驟103、對上述第一特徵圖像和上述第二特徵圖像進行融合處理，獲得第一人群密度圖像。

本申請實施例中，人群密度圖像包含人群密度資訊。人群密度圖像中的每個圖元點的圖元值表徵在該圖元點處的人數。舉例來說，人群密度圖像中的圖元點A的圖元值為0.05，則圖元點A處有0.05個人。

需要理解的是，由於一個人覆蓋的圖像區域包含至少一個圖元點，當一個人覆蓋的圖像區域為1個圖元點時，該圖元點對應的圖元值為1，當一個人覆蓋的圖像區域為至少兩個圖元點時，該至少兩個圖元點的圖元值的和為1。因此，人群密度圖像中的圖元值的取值範圍為：大於或等於0且小於或等於1。舉例來說，人物A覆蓋的圖像區域包含圖元點a、圖元點b和圖元點c，則圖元點a的圖元值+圖元點b的圖元值+圖元點c的圖元值=1。

上述第一人群密度圖像為與待處理圖像對應的人群密度圖像，可表徵待處理圖像中的人群密度分佈。第一人群密度圖像的尺寸與待處理圖像的尺寸相同。本實施例中圖像的尺寸指圖像的寬和高。第一人群密度圖像中的第一圖元點的圖元值可用於表徵待處理圖像中的第二圖元點處的人數。其中，第一圖元點在第一人群密度圖像中的位置與第二圖元點在待處理圖像中的位置相同。

本申請實施例中，兩張圖像中相同位置的圖元點可參見圖3，如圖3所示，圖元點A₁₁ 在圖像A中的位置與圖元點B₁₁ 在圖像B中的位置相同，圖元點A₁₂ 在圖像A中的位置與圖元點k在圖像B₁₂ 中的位置相同，圖元點A₁₃ 在圖像A中的位置與圖元點B₁₃ 在圖像B中的位置相同，圖元點A₂₁ 在圖像A中的位置與圖元點B₂₁ 在圖像B中的位置相同，圖元點A₂₂ 在圖像A中的位置與圖元點B₂₂ 在圖像B中的位置相同，圖元點A₂₃ 在圖像A中的位置與圖元點B₂₃ 在圖像B中的位置相同，圖元點A₃₁ 在圖像A中的位置與圖元點B₃₁ 在圖像B中的位置相同，圖元點A₃₂ 在圖像A中的位置與圖元點B₃₂ 在圖像B中的位置相同，圖元點A₃₃ 在圖像A中的位置與圖元點B₃₃ 在圖像B中的位置相同。

若圖元點x在圖像X中的位置與圖元點y在圖像Y中的位置相同，為簡潔表述，下文將圖元點x稱為圖像X中與圖元點y位置相同的圖元點，或將圖元點y稱為圖像Y中與圖元點x位置相同的圖元點。

由於第一特徵圖像包含描述待處理圖像的圖像內容的資訊的尺度和第二待處理圖像包含描述待處理圖像的圖像內容的資訊的尺度不同，透過對第一特徵圖像和第二特徵圖像進行融合處理（例如對應位置的圖元值加權處理等），可利用不同尺度下的描述待處理圖像的圖像內容的資訊生成待處理圖像對應的人群密度圖像，即第一人群密度圖像。這樣，可提高獲得的與待處理圖像對應的人群密度圖像的精度，進而提升獲得的待處理圖像中人數的精度。

需要理解的是，本實施例闡述了透過兩個感受野不同的卷積核（即第一卷積核和第二卷積核）分別對待處理圖像進行卷積處理，獲得兩個尺度下的描述待處理圖像的圖像內容的資訊。但在實際使用中，也可透過三個或三個以上感受野不同的卷積核分別對待處理圖像進行卷積處理，以獲得三個或三個以上尺度下的描述待處理圖像的圖像內容的資訊，並將該三個或三個以上尺度下的描述待處理圖像的圖像內容的資訊進行融合，獲得與待處理圖像對應的人群密度圖像。

可選的，在獲得第一人群密度圖像後，可透過確定第一人群密度圖像中所有圖元點的圖元值的和，得到待處理圖像中的人數。

本實施例透過使用感受野不同的第一卷積核和第二卷積核分別對待處理圖像進行卷積處理，以提取出不同尺度下的描述待處理圖像的內容的資訊，分別獲得第一特徵圖像和第二特徵圖像。透過對第一特徵圖像和第二特徵圖像進行融合處理，以利用不同尺度下的描述待處理圖像的內容的資訊，提高獲得的與待處理圖像對應的人群密度圖像的精度，進而提升獲得的待處理圖像中人數的精度。

在圖像中，近處的人物覆蓋的圖像區域的面積比遠處的人物覆蓋的圖像區域的面積大。例如，圖4中人物C相較於人物D為近處的人物，且人物C覆蓋的圖像區域的面積比人物D覆蓋的圖像區域的面積大。而近處的人物覆蓋的圖像區域的尺度大，遠處的人物覆蓋的圖像區域的尺度小。因此，人物覆蓋的圖像區域的面積與人物覆蓋的圖像區域的尺度呈正相關。顯然，當卷積處理的感受野與人物覆蓋的圖像區域的面積相同時，透過卷積處理獲得的人物覆蓋的圖像區域的資訊最豐富（下文將可獲得人物覆蓋的圖像區域的最豐富的資訊的感受野稱為人物覆蓋區域的最佳感受野）。也就是說，人物覆蓋的圖像區域的尺度與人物覆蓋區域的最佳感受野呈正相關。

雖然實施例（一）透過使用感受野不同的第一卷積核和第二卷積核分別對待處理圖像進行卷積處理獲得不同尺度下的描述待處理圖像的內容的資訊。但第一卷積核的感受野和第二卷積核的感受野均為固定的，而待處理圖像中不同的圖像區域的尺度不同，因此分別使用第一卷積核和第二卷積核對待處理圖像進行卷積處理無法獲得待處理圖像中每個圖像區域的最佳感受野，即無法使獲得的待處理圖像中不同圖像區域的資訊均為最豐富。為此，本申請實施例還提供了一種透過在對第一特徵圖像和第二特徵圖像進行融合處理時為第一特徵圖像和第二特徵圖像賦予權重，以實現對待處理圖像中不同尺度的圖像區域進行不同感受野的卷積處理，進而獲得更豐富的資訊。

請參閱圖5，圖5是本申請實施例（二）提供的另一種影像處理方法的流程示意圖，包括以下步驟：

步驟501、對上述待處理圖像進行第一特徵提取處理，獲得第一自注意力圖像，對上述待處理圖像進行第二特徵提取處理，獲得第二自注意力圖像，上述第一自注意力圖像和上述第二自注意力圖像均用於表徵上述待處理圖像的尺度資訊，且上述第一自注意力圖像所表徵的尺度資訊與上述第二自注意力圖像所表徵的尺度資訊不同。

本申請實施例中，特徵提取處理可以是卷積處理，也可以是池化處理，還可以是卷積處理和池化處理的結合。本申請對第一特徵提取處理的實現方式和第二特徵提取處理的實現方式不做限定。

在一種可能實現的方式中，依次透過多層卷積層對待處理圖像進行逐級卷積處理，實現對待處理圖像的第一特徵提取處理，獲得第一自注意力圖像。同理，可依次透過多層卷積層對待處理圖像進行逐級卷積處理，實現對待處理圖像的第二特徵提取處理，獲得第二自注意力圖像。

可選的，在使用第一卷積核對待處理圖像進行卷積處理獲得第一特徵圖像，使用第二卷積核對待處理圖像進行卷積處理獲得第二特徵圖像之前，可對待處理圖像進行第三特徵提取處理，以提取出待處理圖像的特徵資訊，獲得第五特徵圖像。使用第一卷積核對第五特徵圖像進行卷積處理獲得第一特徵圖像，使用第二卷積核對所述第五特徵圖像進行卷積處理獲得所述第二特徵圖像。這樣可從待處理圖像中提取出更豐富的特徵資訊。

上述第一自注意力圖像的尺寸和上述第二自注意力圖像的尺寸均與待處理圖像的尺寸相同。上述第一自注意力圖像和上述第二自注意力圖像均可用於表徵待處理圖像的尺度資訊（即待處理圖像中不同圖像區域的尺度），且第一自注意力圖像所表徵的尺度資訊與第二自注意力圖像所表徵的尺度資訊不同。本申請實施例中，圖像（包括：上述第一特徵圖像、上述第二特徵圖像、上述第一自注意力圖像、上述第二自注意力圖像、下文將要提及的第三自注意力圖像等）的尺度與對待處理圖像進行特徵提取處理（包括上述第一特徵提取處理、上述第二特徵提取處理以及上述第三特徵提取處理）時所使用的卷積核的感受野匹配。例如，使用大小為3×3的卷積核對圖像進行卷積處理得到的圖像的尺度為a，使用大小為5×5的卷積核對圖像進行卷積處理得到的圖像的尺度為b，那麼使用大小為3×3的卷積核對待處理圖像進行特徵提取處理得到的自注意力圖像的尺度為a（即該自注意力圖像可表徵待處理圖像在尺度a的資訊），使用大小為5×5的卷積核對待處理圖像進行特徵提取處理得到的特徵圖像的尺度為b。

舉例來說（例1），第一自注意力圖像表徵待處理圖像在尺度a下的資訊，第二自注意力圖像表徵待處理圖像在尺度b下的資訊，其中，尺度a大於尺度b。

第一自注意力圖像中的圖元點的圖元值和第二自注意力圖像中的圖元點的圖元值的取值範圍均為：大於或等於0，且小於或等於1。第一自注意力圖像（或第二自注意力圖像）中的某個圖元點的圖元值越接近於1，表徵在待處理圖像中與該圖元點位置相同的圖元點的最佳尺度與第一自注意力圖像（或第二自注意力圖像）所表徵的尺度越接近。本申請實施例中，最佳尺度即為與該圖元點的最佳感受野對應的尺度。

接著例1繼續舉例，圖元點a和圖元點b為第一自注意力圖像中的兩個不同的圖元點，圖元點c為待處理圖像中與圖元點a在第一自注意力圖像中的位置相同的圖元點，圖元點d為待處理圖像中與圖元點b在第一自注意力圖像中的位置相同的圖元點。若圖元點a的圖元值為0.9，圖元點b的圖元值為0.7。則圖元點c的最佳尺度與尺度a之間的差異小於圖元點d的最佳尺度與尺度a之間的差異。

步驟502、依據上述第一自注意力圖像確定上述第一特徵圖像的第一權重，依據上述第二自注意力圖像確定上述第二特徵圖像的第二權重。

可選的，上述第一自注意力圖像所表徵的尺度與第一特徵圖像的尺度相同，上述第二自注意力圖像所表徵的尺度與第二特徵圖像的尺度相同。則第一自注意力圖像中的圖元點的圖元值與1越接近表徵第一特徵圖像中與該圖元點在第一自注意力圖像中的位置相同的圖元點的最佳尺度與第一特徵圖像的尺度越接近，第二自注意力圖像中的圖元點的圖元值與1越接近表徵第二特徵圖像中與該圖元點在第二自注意力圖像中的位置相同的圖元點的最佳尺度與第二特徵圖像的尺度越接近。

因此，可依據第一自注意力圖像確定第一特徵圖像的第一權重，以調整第一特徵圖像中的圖元點的尺度，使第一特徵圖像中的圖元點更接近最佳尺度。同理，可依據第二自注意力圖像確定第二特徵圖像的第二權重，以調整第二特徵圖像中的圖元點的尺度，使第二特徵圖像中的圖元點更接近最佳尺度。

在一種可能實現的方式中，可對第一自注意力圖像和第二自注意力圖像進行歸一化處理，獲得第一自注意力圖像對應的第三自注意力圖像和第二自注意力圖像對應的第四自注意力圖像。將第三自注意力圖像作為上述第一權重，將第四自注意力圖像作為上述第二權重。

在上述可能實現的方式中，透過對第一自注意力圖像和第二自注意力圖像進行歸一化處理，可使第一自注意力圖像與第二自注意力圖像中相同位置的圖元點的圖元值的和為1。舉例來說，圖元點a在第一自注意力圖像中的位置與圖元點b在第二自注意力圖像中的位置相同，則對第一自注意力圖像和第二自注意力圖像進行歸一化處理後圖元點a的圖元值和圖元點b的圖元值的和為1。如圖元點c在第三自注意力圖像中的位置與圖元點a在第一自注意力圖像中的位置相同，圖元點d在第四自注意力圖像中的位置與圖元點b在第二自注意力圖像中的位置相同，則圖元點c的圖元值與圖元點d的圖元值的和為1。

可選的，上述歸一化處理可透過將第一自注意力圖像和第二自注意力圖像分別輸入至softmax函數實現。需要理解的是，若第一自注意力圖像和第二自注意力圖像均包含多個通道的圖像，則將第一自注意力圖像與第二自注意力圖像中相同通道的圖像分別輸入至softmax函數。例如，第一自注意力圖像和第二自注意力圖像均包含2個通道的圖像，則在對第一自注意力圖像和第二自注意力圖像進行歸一化處理時，可將第一自注意力圖像中第一個通道的圖像和第二自注意力圖像中第一個通道的圖像輸入至softmax函數，獲得第三自注意力圖像中第一個通道的圖像以及第四自注意力圖像中第一個通道的圖像。

步驟503、依據上述第一權重和上述第二權重對上述第一特徵圖像和上述第二特徵圖像進行融合處理，獲得上述第一人群密度圖像。

由於獲得第一特徵圖像的卷積處理的感受野和獲得第二特徵圖像的卷積處理的感受野不同。透過將第三自注意力圖像作為第一特徵圖像的第一權重，將第四自注意力圖像作為第二特徵圖像的第二權重對第一特徵圖像和第二特徵圖像進行融合處理，可對待處理圖像中的不同圖像區域進行最佳感受野下的卷積處理。這樣，可充分提取待處理圖像中不同圖像區域的資訊，使獲得的與待處理圖像對應的人群密度圖像的精度更高。

在一種依據第一權重和第二權重對第一特徵圖像和第二特徵圖像進行融合處理，獲得第一人群密度圖像的實現方式中，計算第一權重與第一特徵圖像之間的點積，獲得第三特徵圖像，計算第二權重與第二特徵圖像之間的點積，獲得第四特徵圖像。透過對第三特徵圖像和第四特徵圖像進行融合處理（例如相同位置的圖元值相加），可獲得第一人群密度圖像。

本實施例透過對待處理圖像分別進行第一特徵提取處理和第二特徵提取處理以提取不同尺度下的待處理圖像的資訊，獲得第一自注意力圖像和第二自注意力圖像。依據第一自注意力圖像確定第一特徵圖像的第一權重，依據第二自注意力圖像確定第二特徵圖像的第二權重，並依據第一權重和第二權重對第一特徵圖像和第二特徵圖像進行融合處理，可提高獲得的第一人群密度圖像的精度。

在實施例（一）和實施例（二）中的第一卷積核的權重和第二卷積核的權重不同時，使用第一卷積核對待處理圖像進行卷積處理提取出的特徵資訊的側重點與使用第二卷積核對待處理圖像進行卷積處理提取出的特徵資訊的側重點不同。例如，使用第一卷積核對待處理圖像進行卷積處理側重於提取出待處理圖像中人物的屬性特徵（如衣服顏色、褲子長度），而使用第二卷積核對待處理圖像進行卷積處理側重於提取出待處理圖像中人物的輪廓特徵（該輪廓特徵可用於識別待處理圖像中是否包含人物）。再考慮到第一卷積核的感受野和第二卷積核的感受野的不同。這樣，在後續對提取出的第一特徵圖像和第二特徵圖像進行融合處理時，需要將不同尺度下的不同特徵資訊進行融合（如將尺度a下的屬性特徵與尺度b下的輪廓特徵融合），這將給尺度資訊的融合帶來困難。

為此，本申請實施例還提供了一種技術方案，將第一卷積核的權重和第二卷積核的權重取為相同，以減小對第一特徵圖像和第二特徵圖像進行融合處理時非尺度資訊的融合，提高尺度資訊融合的效果，進而提高獲得的第一人群密度圖像的精度。

由於若第一卷積核和第二卷積核為常規卷積核，在第一卷積核的感受野與第二卷積核的感受野不同的情況下，第一卷積核的權重與第二卷積核的權重不可能相同。因此，在接下來闡述的技術方案中第一卷積核和第二卷積核均為空洞卷積核，且第一卷積核的大小與第二卷積核的大小相同，且第一卷積核的權重與第二卷積核的權重相同，且第一卷積核的擴張率與第二卷積核的擴張率不同。

舉例來說，如圖6a、圖6b所示的兩個空洞卷積核，上述兩個空洞卷積核的大小均為3×3，其中，圖6a所示的空洞卷積核和圖6b所示的空洞卷積核中的黑色區域表示有參數，白色部分表示沒有參數（即參數為0）。可選的，可將圖6a所示的空洞卷積核的權重與圖6b所示的空洞卷積核的權重取為相同。此外，從圖中可以看出，由於圖6a所示的空洞卷積核的擴張率為2，圖6b所示的空洞卷積核的擴張率為1，圖6a所示的空洞卷積核的感受野與圖6b所示的空洞卷積核的感受野不同，具體的，圖6a所示的空洞卷積核的感受野（5×5）比圖6b所示的空洞卷積核的感受野（3×3）大。

在第一卷積核和第二卷積核均為空洞卷積核的情況下，可將第一卷積核的權重與第二卷積核的權重取為相同，且可使第一卷積核的感受野與第二卷積核的感受野不同。這樣，使用第一卷積核對待處理圖像進行卷積處理獲得的第一特徵圖像包含的資訊和使用第二卷積核對待處理圖像進行卷積核處理獲得的第二特徵圖像包含的資訊僅存在尺度上的差異。在對第一特徵圖像和第二特徵圖像進行融合處理時，可更好的利用不同尺度下待處理圖像的資訊提高獲得的第一人群密度圖像的精度。

可選的，可透過使第一卷積核和第二卷積核共用同一組權重的方式使第一卷積核的權重與第二卷積核的權重相同，這樣，在後續分別使用第一卷積核和第二卷積核對待處理圖像進行卷積處理時，可減少所需處理的參數的數量。

在空洞卷積核的大小一定的情況下，空洞卷積核的感受野與空洞卷積核的擴張率呈正相關。當空洞卷積核的擴張率為1時，空洞卷積核的感受野與相同大小的常規卷積核的感受野相同，如：圖6b所示的空洞卷積核的擴張率為1，此時該空洞卷積核的感受野與大小為3×3的常規卷積核的感受野相同。

考慮到待處理圖像中存在最佳尺度較小的圖元區域，這些尺度較小的圖像區域需要使用較小的感受野的卷積處理才能提取出更豐富的資訊。為此本申請實施例還提供了一種將空洞卷積核的擴張率設為0（即參考值），使空洞卷積核的感受野小於常規卷積核的感受野，以更好的提取出待處理圖像中尺度較小的圖像區域的資訊。

下面將從理論上推導擴張率為0的空洞卷積核如何實現。

假設使用一個大小為3×3，擴張率為d的空洞卷積核對待處理圖像進行卷積處理，則該卷積處理的過程滿足下式：

…式（1）

其中，

和

分別為空洞卷積核滑動至待處理圖像上某個圖元點時空洞卷積核的中心圖元點的位置。

為待處理圖像中的採樣點在待處理圖像中的座標，

為空洞卷積核的權重，

為空洞卷積核的偏差。

為待處理圖像，

為使用空洞卷積核對待處理圖像進行卷積處理獲得的特徵圖像。

當

時，式（1）可轉化為下式：

其中，

表示大小為1×1的常規卷積核的權重，

表示大小為1×1的常規卷積核的偏差。從式（2）可以看出使用一個大小為3×3、擴張率為0的空洞卷積核對待處理圖像進行卷積處理等價於使用9個大小為1×1的常規卷積核分別對待處理圖像進行卷積處理。因此，擴張率為0的空洞卷積核可使用9個1×1的常規卷積核代替，即擴張率為0的空洞卷積核中所有權重均位於空洞卷積核上的同一個位置。圖7所示為大小為3×3、擴張率為0的空洞卷積核，圖6所示的空洞卷積核中的黑色區域即為權重所在的位置。從圖6所示的空洞卷積核可以看出，擴張率為0的空洞卷積核的感受野為1。

本申請實施例中，在第一卷積核為空洞卷積核的情況下，透過將第一卷積核的擴張率設為0，可在使用第一卷積核對待處理圖像進行卷積處理時實現對待處理圖像進行感受野為1的卷積處理，以更好的提取出待處理圖像中尺度小的圖像區域的資訊。

本申請實施例還提供了一種人群計數網路，可用於實現前文所提及的技術方案。請參閱圖8，圖8為本申請實施例提供的一種人群計數網路的結構示意圖。如圖8所示，人群計數網路中的網路層依次串聯，共包含11層卷積層和9層池化層和6層尺度感知型卷積層。

將待處理圖像輸入至人群計數網路，經第一層卷積層對待處理圖像進行處理獲得第一層卷積層輸出的圖像，第一層卷積層輸出的圖像經第二層卷積層的處理獲得第二層卷積層輸出的圖像，第二層卷積層輸出的圖像經第一層池化層的處理獲得第一層池化層輸出的圖像，…，第十層卷積層輸出的圖像經第一層尺度感知型卷積層的處理獲得第一層尺度感知型卷積層輸出的圖像，…，第九層池化層輸出的圖像經第十一層卷積層的處理獲得第一人群密度圖像。

可選的，人群計數網路中除上述第十一層卷積層之外的所有卷積層中的卷積核的大小均可為3×3，第十一層卷積層中的卷積核的大小為1×1。第一層卷積層中卷積核的數量和第二層卷積層中卷積核的數量均可為64，第三層卷積層中卷積核的數量和第四層卷積層中卷積核的數量均可為128，第五層卷積層中卷積核的數量、第六層卷積層中卷積核的數量以及第七層卷積層中卷積核的數量均可為256，第八層卷積層中卷積核的數量、第九層卷積層中卷積核的數量以及第十層卷積層中卷積核的數量均可為512，第十一層卷積層中卷積核的數量為1。

人群計數網路中的池化層可以為最大池化層，也可以是平均池化層，本申請對此不做限定。

尺度感知型卷積層的結構示意圖可參見圖9。如圖9所示，尺度感知型卷積層包括三個空洞卷積核、一個自注意力模組。上述三個空洞卷積核的結構可參見圖6a、圖6b和圖7，此處將不再贅述。上述自注意力模組包含3個並聯的卷積層。

尺度感知型卷積層的輸入圖像分別經3個不同感受野的空洞卷積核的處理，分別獲得第六特徵圖像、第七特徵圖像和第八特徵圖像。

尺度感知型卷積層的輸入圖像分別經自注意力模組中的3個卷積層的卷積處理，分別獲得第五自注意力圖像、第六自注意力圖像和第七自注意力圖像。

第六特徵圖像的尺度與第五自注意力圖像的尺度相同，第七特徵圖像的尺度與第六自注意力圖像的尺度相同，第八特徵圖像的尺度與第七自注意力圖像的尺度相同。透過將第五自注意力圖像作為第六特徵圖像的權重，將第六自注意力圖像作為第七特徵圖像的權重，將第七自注意力圖像作為第八特徵圖像的權重，對第六特徵圖像、第七特徵圖像和第八特徵圖像進行融合處理，獲得尺度感知型卷積層的輸出圖像。即將第五自注意力圖像與第六特徵圖像進行點乘獲得第九特徵圖像，將第六自注意力圖像與第七特徵圖像進行點乘獲得第十特徵圖像，將第七自注意力圖像與第八特徵圖像進行點乘獲得第十一特徵圖像。對第九特徵圖像、第十特徵圖像和第十一特徵圖像進行融合處理，獲得尺度感知型卷積層的輸出圖像。可選的上述融合處理可以是將進行融合處理的兩張圖像中相同位置的圖元點的圖元值相加。

需要理解的是，圖8所示的人群計數網路中網路層的具體數量僅為一個示例，不應對本申請構成限定。

在應用圖8所示的人群計數網路對待處理圖像執行人群計數任務之前，需對人群計數網路進行訓練。為此，本申請還提供了一種人群計數網路的訓練方法。該訓練方法可包括以下步驟：獲取樣本圖像。經人群計數網路對樣本圖像進行處理，獲得第二人群密度圖像。依據樣本圖像與第二人群密度圖像之間的差異，獲得網路損失。基於網路損失調整人群計數網路的參數。

上述樣本圖像可以是任意數位圖像。例如，樣本圖像可以包含人物物件，其中，樣本圖像可以只包括人臉，並無軀幹、四肢（下文將軀幹和四肢稱為人體），也可以只包括人體，不包括人臉，還可以只包括下肢或上肢。本申請對樣本圖像具體包含的人體區域不做限定。又例如，樣本圖像可以包含動物。再例如，樣本圖像可以包含植物。本申請對樣本圖像中包含的內容不做限定。

經人群計數網路對樣本圖像的處理獲得與樣本圖像對應的第二人群密度圖像後，可依據樣本圖像與第二人群密度圖像之間的差異確定人群計數網路的網路損失。上述差異可以是樣本圖像與第二人群密度圖像中相同位置的圖元點的圖元值之間的差異。本申請實施例中樣本圖像中圖元點的圖元值可用於表徵圖元點處是否有人物，例如，人物A在樣本圖像中所覆蓋的圖像區域包含圖元點a，圖元點b，圖元點c，那麼圖元點a的圖元值、圖元點b的圖元值和圖元點c的圖元值均為1。若樣本圖像中的圖元點d不屬於人物覆蓋的圖像區域，則圖元點的圖元值為0。

在確定人群計數網路的網路損失後，可基於該網路損失透過反向梯度傳播的方式調整人群計數網路的參數，直至人群計數網路收斂，完成對人群計數網路的訓練。

由於樣本圖像中的圖元點的圖元值非0即1，而第二人群密度圖像中的圖元點的圖元值為大於或等於0且小於或等於1之間的數值。因此，依據用樣本圖像與第二人群密度圖像之間的差異確定人群計數網路的網路損失存在較大的差異。

由於真實人群密度圖像中圖元點的圖元值的取值範圍也為大於或等於0且小於或等於1之間的數值，可選的，可將樣本圖像的真實人群密度圖像作為監督資訊，依據真實人群密度圖像與第二人群密度圖像之間的差異確定人群計數網路的網路損失，以提高獲得的網路損失的精度。

在一種可能實現的方式中，依據脈衝函數、高斯核以及樣本圖像，可獲得上述樣本圖像的真實人群密度圖像。

在該種可能實現的方式中，可依據衝擊函數獲得樣本圖像的人物標籤圖像，該人物標籤圖像中圖元點的圖元值用於表徵圖元點是否屬於人物覆蓋的圖像區域。上述人物標籤圖像滿足下式：

…公式（3）

N 為樣本圖像中的總人數。

為人物覆蓋的圖像區域的中心在樣本圖像中的位置，用於表示該人物。

為樣本圖像中人物覆蓋的圖像區域的中心在樣本圖像中的位置的衝擊函數。若樣本圖像中的

處有人物，則

等於1，若樣本圖像中的

處沒有人物，則

等於0。

使用高斯核對上述人物標籤圖像進行卷積處理，可獲得樣本圖像的真實人群密度圖像，該過程滿足下式：

…公式（4）

…公式（5）

上述

為高斯核，

為該高斯核的標準差。

為正數。

為距離人物

最近的m 個人物與

之間的距離的平均值。顯然，

越大，與

對應的人物覆蓋的圖像區域的人群密度也越大。由於樣本圖像中遠處的人物的

比近處的人物的

小，透過使高斯核的標準差滿足

，可使高斯核的標準差與人物覆蓋的圖像區域的尺度呈正相關，即樣本圖像中不同圖像區域對應的高斯核的標準差不同。這樣，透過使用高斯核對樣本圖像進行卷積處理獲得的真實人群密度圖像的精確度更高。

舉例來說，公式（3）中的

為樣本圖像中人物的頭部覆蓋的圖像區域的中心（下文將稱為人頭區域的中心）在樣本圖像中的位置，

為樣本圖像中人頭區域的中心的位置的衝擊函數。若樣本圖像中的

處有人頭，則

等於1，若樣本圖像中的

處沒有人頭，則

等於0。基於公式（4）使用高斯核對上述人物標籤圖像進行卷積處理，得到樣本圖像的真實人群密度圖像。對人物標籤圖像中的第

個人頭進行卷積處理所使用的高斯核的標準差滿足

，其中，

為人物標籤圖像中的第

個人頭的中心與m個目標人頭的中心（此處的目標人頭為人物標籤圖像中距離第

個人頭最近的人頭）之間的平均距離，通常情況頭部的大小與兩個相鄰的人在擁擠的場景中的中心之間的距離有關，

在人群較密的情況下近似等於人頭大小。由於人物標籤圖像中“近”處的人頭覆蓋的圖像區域的面積比“遠”出的人頭覆蓋的圖像區域的面積大，也就是說，人物標籤圖像中“近”處的兩個人頭的中心之間的距離比“遠”出的兩個人頭的中心之間的距離大，透過使高斯核的標準差滿足

，可達到使高斯核的標準差與人物的頭部覆蓋的圖像區域的尺度呈正相關的效果。

在獲得樣本圖像的真實人群密度圖像後，可依據真實人群密度圖像中與第二人群密度圖像中相同位置的圖元點的圖元值之間的差異，確定人群計數網路的網路損失。例如將真實人群密度圖像中與第二人群密度圖像中所有的相同位置的圖元點的圖元值之間的差異的和作為人群計數網路的網路損失。

可選的，在將樣本圖像輸入至人群計數網路之前，可對樣本圖像進行預處理，獲得至少一張預處理後的圖像，並將上述至少一張預處理後的圖像作為訓練資料登錄至人群計數網路。這樣，可達到擴充人群計數網路的訓練資料集的效果。

上述預處理包括從樣本圖像中截取預定尺寸的圖像、對樣本圖像或所述預定尺寸的圖像進行翻轉處理中的至少一種。其中，預定大小可以為64×64。對樣本圖像進行翻轉處理包括：水準鏡面翻轉處理。

例如，分別沿樣本圖像的水準中軸線和豎直中軸線對樣本圖像進行劃分，可獲得4張預處理後的圖像。同時從樣本圖像中隨機截取5張預定尺寸的圖像，可獲得5張預處理後的圖像。至此，已獲得9張預處理後的圖像。對該9張預處理後的圖像進行水準鏡面翻轉處理，可獲得9張翻轉後的圖像，即另外9張預處理後的圖像。這樣即可獲得18張預處理後的圖像。

透過將至少一張預處理後的圖像輸入至人群計數網路，可獲得至少一張第三人群密度圖像，其中，每一張預處理後的圖像均對應有一張第三人群密度圖像。例如（例2），將圖像A、圖像B、圖像C這3張預處理後的圖像分別輸入至人群計數網路，將分別獲得與圖像A對應的人群密度圖像a，與圖像B對應的人群密度圖像b，圖像C對應的人群密度圖像c。其中，人群密度圖像a、人群密度圖像b、人群密度圖像c均可稱為第三人群密度圖像。

依據至少一張預處理後的圖像中的靶心圖表像和與靶心圖表像對應的第三人群密度圖像之間的差異，可獲得人群計數網路的網路損失。接著例2繼續舉例，依據圖像A與圖像a之間的差異可獲得第一差異，依據圖像B與圖像b之間的差異可獲得第二差異，依據圖像C與圖像c之間的差異可獲得第三差異。對第一差異、第二差異和第三差異求和可獲得人群計數網路的網路損失。

本實施例提供了一種人群計數網路，使用該人群計數網路對待處理圖像進行處理，可獲得與待處理圖像對應的人群密度圖像，進而可確定待處理圖像中的人數。

基於本申請實施例提供的技術方案，本申請實施例還提供了幾種可能實現的應用場景：

場景A：如上所述，在公共場所常因人流量過多導致人群過於密集的情況的發生，進而發生一些公共事故，如何對公共場所進行人群計數就具有非常大的意義。

目前，為了增強工作、生活或者社會環境中的安全性，會在各個公共場所內安裝監控攝像設備，以便根據視頻流資訊進行安全防護。利用本申請實施例提供的技術方案對監控攝像設備採集到的視頻流進行處理，可確定公共場所的人數，進而可有效預防公共事故的發生。

舉例來說，監控攝像設備的視頻流處理中心的伺服器可執行本申請實施例提供的技術方案，該伺服器可與至少一個監控攝像頭相連。伺服器在獲取到監控攝像頭發送的視頻流後，可採用本申請實施例提供的技術方案對視頻流中的每一幀圖像進行處理，以確定視頻流中的每一幀圖像中的人數。在圖像中的人數大於或等於人數閾值的情況下，伺服器可向相關設備發送指令，以進行提示或報警。例如，伺服器可向採集該圖像的攝像頭發送指令，該指令用於指示採集該圖像的攝像頭進行報警。又例如，伺服器可向採集該圖像的攝像頭所在的區域的管控人員的終端發送指令，該指令用於提示該終端輸出人數超過人數閾值的提示資訊。

場景B：商場中不同區域的人流量不同，將主推商品放置於人流量多的區域進行展示可有效提高主推商品的銷量，因此，如何準確確定商場不同區域的人流量對商家來說具有非常重要的意義。例如，商場中有區域A、區域B和區域C，其中區域B的人流量最大，基於此，商家可將主推商品放置於區域B進行展示，以提高主推商品的銷量。

商場的監控攝像頭的視頻流的管控中心的伺服器可執行本申請實施例提供的技術方案，該伺服器可與至少一個監控攝像頭相連。伺服器在獲取到監控攝像頭發送的視頻流後，可採用本申請實施例提供的技術方案對視頻流中的每一幀圖像進行處理，以確定視頻流中的每一幀圖像中的人數。依據每一幀圖像中的人數可確定不同攝像頭監控的區域在某一時間段內的人流量，進而可確定商場內的不同區域的人流量。例如，商場中有區域A、區域B、區域C，攝像頭A、攝像頭B和攝像頭C，其中，攝像頭A監控區域A，攝像頭B監控區域B，攝像頭C監控區域C。伺服器使用本申請實施例提供的技術方案對攝像頭A採集到的視頻流中的圖像進行處理，確定區域A在過去一個星期內平均每天的人流量為900，確定區域B在過去一個星期內平均每天的人流量為200，確定區域C在過去一個星期內平均每天的人流量為600。顯然，區域A的人流量最多，因此商家可將主推商品放置於區域A內進行展示，以提高主推商品的銷量。

所屬技術領域中具有通常知識者可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

上述詳細闡述了本申請實施例的方法，下面提供了本申請實施例的裝置。

請參閱圖10，圖10為本申請實施例提供的一種影像處理裝置的結構示意圖，該影像處理裝置1包括：獲取單元11、卷積處理單元12、融合處理單元13、特徵提取處理單元14、第一確定單元15、第二確定單元16以及訓練單元17。其中：

獲取單元11，用於獲取待處理圖像、第一卷積核和第二卷積核，所述第一卷積核的感受野與所述第二卷積核的感受野不同；

卷積處理單元12，用於使用所述第一卷積核對所述待處理圖像進行卷積處理獲得第一特徵圖像，使用所述第二卷積核對所述待處理圖像進行卷積處理獲得第二特徵圖像；

融合處理單元13，用於對所述第一特徵圖像和所述第二特徵圖像進行融合處理，獲得第一人群密度圖像。

在一種可能實現的方式中，所述影像處理裝置1還包括：

特徵提取處理單元14，用於在所述對所述第一特徵圖像和所述第二特徵圖像進行融合處理，獲得第一人群密度圖像之前，對所述待處理圖像進行第一特徵提取處理，獲得第一自注意力圖像，對所述待處理圖像進行第二特徵提取處理，獲得第二自注意力圖像，所述第一自注意力圖像和所述第二自注意力圖像均用於表徵所述待處理圖像的尺度資訊，且所述第一自注意力圖像所表徵的尺度資訊與所述第二自注意力圖像所表徵的尺度資訊不同；

第一確定單元15，用於依據所述第一自注意力圖像確定所述第一特徵圖像的第一權重，依據所述第二自注意力圖像確定所述第二特徵圖像的第二權重；

所述融合處理單元13用於：

在另一種可能實現的方式中，所述融合處理單元13具體用於：

在又一種可能實現的方式中，所述第一確定單元15用於：

在又一種可能實現的方式中，所述特徵提取處理單元14，還用於在所述使用所述第一卷積核對所述待處理圖像進行卷積處理獲得第一特徵圖像，使用所述第二卷積核對所述待處理圖像進行卷積處理獲得第二特徵圖像之前，對所述待處理圖像進行第三特徵提取處理，獲得第五特徵圖像；

所述卷積處理單元12用於：

所述特徵提取處理單元14還用於：

在又一種可能實現的方式中，所述影像處理裝置1還包括：第二確定單元16，用於確定所述第一人群密度圖像中的圖元值的和，獲得所述待處理圖像中的人數。

在又一種可能實現的方式中，所述影像處理裝置1執行的影像處理方法應用於人群計數網路；

所述影像處理裝置1還包括：訓練單元17，用於對所述人群計數網路進行訓練，所述人群計數網路的訓練過程包括：

獲取樣本圖像；

基於所述網路損失調整所述人群計數網路的參數。

在又一種可能實現的方式中，所述訓練單元17還用於：

在一些實施例中，本公開實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

圖11為本申請實施例提供的一種影像處理裝置的硬體結構示意圖。該影像處理裝置2包括處理器21，儲存器22，還可以包括輸入裝置23，輸出裝置24。該處理器21、儲存器22、輸入裝置23和輸出裝置24透過連接器相耦合，該連接器包括各類介面、傳輸線或匯流排等等，本申請實施例對此不作限定。應當理解，本申請的各個實施例中，耦合是指透過特定方式的相互聯繫，包括直接相連或者透過其他設備間接相連，例如可以透過各類介面、傳輸線、匯流排等相連。

處理器21可以是一個或多個圖形處理器（graphics processing unit， GPU），在處理器21是一個GPU的情況下，該GPU可以是單核GPU，也可以是多核GPU。可選的，處理器21可以是多個GPU構成的處理器組，多個處理器之間透過一個或多個匯流排彼此耦合。可選的，該處理器還可以為其他類型的處理器等等，本申請實施例不作限定。

儲存器22可用於儲存電腦程式指令，以及用於執行本申請方案的程式代碼在內的各類電腦程式代碼。可選地，儲存器包括但不限於是隨機儲存器（random access memory，RAM）、唯讀儲存器（read-only memory，ROM）、抹除式可程式設計唯讀儲存器（erasable programmable read only memory，EPROM）、或可擕式唯讀儲存器（compact disc read-only memory，CD-ROM），該儲存器用於相關指令及資料。

輸入裝置23用於輸入資料和訊號，以及輸出裝置24用於輸出資料和訊號。輸入裝置23和輸出裝置24可以是獨立的器件，也可以是一個整體的器件。

可理解，本申請實施例中，儲存器22不僅可用於儲存相關指令，還可用於儲存相關圖像，如該儲存器22可用於儲存透過輸入裝置23獲取的待處理圖像，又或者該儲存器22還可用於儲存透過處理器21獲得的第一人群密度圖像等等，本申請實施例對於該儲存器中具體所儲存的資料不作限定。

可以理解的是，圖11僅僅示出了影像處理裝置的簡化設計。在實際應用中，影像處理裝置還可以分別包含必要的其他元件，包含但不限於任意數量的輸入/輸出裝置、處理器、儲存器等，而所有可以實現本申請實施例的影像處理裝置都在本申請的保護範圍之內。

本申請實施例還提供了一種處理器，該處理器的緩存中可儲存電腦程式，當該電腦程式被該處理器執行時，該處理器可執行實施例（一）和實施例（二）所提供的技術方案、或實現已訓練的人群計數網路對待處理圖像的處理。

所屬技術領域中具有通常知識者可以意識到，結合本文中所公開的實施例描述的各示例的單元及演算法步驟，能夠以電子硬體、或者電腦軟體和電子硬體的結合來實現。這些功能究竟以硬體還是軟體方式來執行，取決於技術方案的特定應用和設計約束條件。所屬技術領域中具有通常知識者可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本申請的範圍。

所屬技術領域中具有通常知識者可以清楚地瞭解到，為描述的方便和簡潔，上述描述的系統、裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。所屬技術領域中具有通常知識者還可以清楚地瞭解到，本申請各個實施例描述各有側重，為描述的方便和簡潔，相同或類似的部分在不同實施例中可能沒有贅述，因此，在某一實施例未描述或未詳細描述的部分可以參見其他實施例的記載。

在本申請所提供的幾個實施例中，應該理解到，所揭露的系統、裝置和方法，可以透過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或元件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是透過一些介面，裝置或單元的間接耦合或通訊連接，可以是電性，機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外，在本申請各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。

在上述實施例中，可以全部或部分地透過軟體、硬體、固件或者其任意組合來實現。當使用軟體實現時，可以全部或部分地以電腦程式產品的形式實現。所述電腦程式產品包括一個或多個電腦指令。在電腦上載入和執行所述電腦程式指令時，全部或部分地產生按照本申請實施例所述的流程或功能。所述電腦可以是通用電腦、專用電腦、電腦網路、或者其他可程式設計裝置。所述電腦指令可以儲存在電腦可讀儲存媒介中，或者透過所述電腦可讀儲存媒介進行傳輸。所述電腦指令可以從一個網站網站、電腦、伺服器或資料中心透過有線（例如同軸電纜、光纖、數位用戶線路（digital subscriber line，DSL））或無線（例如紅外、無線、微波等）方式向另一個網站網站、電腦、伺服器或資料中心進行傳輸。所述電腦可讀儲存媒介可以是電腦能夠存取的任何可用媒介或者是包含一個或多個可用媒介集成的伺服器、資料中心等資料儲存設備。所述可用媒介可以是磁性媒介，(例如，軟碟、硬碟、磁帶)、光媒介(例如，數位通用光碟（digital versatile disc，DVD）)、或者半導體媒介（例如固態硬碟（solid state disk ，SSD））等。

所屬技術領域中具有通常知識者可以理解實現上述實施例方法中的全部或部分流程，該流程可以由電腦程式來指令相關的硬體完成，該程式可儲存於易失性和非揮發性電腦可讀取儲存媒介中，該程式在執行時，可包括如上述各方法實施例的流程。而前述的儲存媒介包括：唯讀儲存器（read-only memory，ROM）或隨機儲存器（random access memory，RAM）、磁碟或者光碟等各種可儲存程式代碼的媒介。

101、102、103、501、502、503:步驟 A、B:圖像 C、D:人物 1、2:影像處理裝置 11:獲取單元 12:卷積處理單元 13:融合處理單元 14:特徵提取處理單元 15:第一確定單元 16:第二確定單元 17:訓練單元 21:處理器 22:儲存器 23:輸入裝置 24:輸出裝置

為了更清楚地說明本申請實施例或背景技術中的技術方案，下面將對本申請實施例或背景技術中所需要使用的圖式進行說明。

此處的圖式被併入說明書中並構成本說明書的一部分，這些圖式示出了符合本公開的實施例，並與說明書一起用於說明本公開的技術方案。

圖1為本申請實施例提供的一種影像處理方法的流程示意圖；

圖2a為本申請實施例提供的一種卷積核的示意圖；

圖2b為本申請實施例提供的一種卷積核的權重的示意圖；

圖3為本申請實施例提供的一種相同位置的元素的示意圖；

圖4為本申請實施例提供的一種人群圖像示意圖；

圖5為本申請實施例提供的另一種影像處理方法的流程示意圖；

圖6a為本申請實施例提供的一種空洞卷積核的示意圖；

圖6b為本申請實施例提供的另一種空洞卷積核的示意圖；

圖7為本申請實施例提供的又一種空洞卷積核的示意圖；

圖8為本申請實施例提供的一種人群計數網路的結構示意圖；

圖9為本申請實施例提供的一種尺度感知型卷積層的結構示意圖；

圖10為本申請實施例提供的一種影像處理裝置的結構示意圖；

圖11為本申請實施例提供的一種影像處理裝置的硬體結構示意圖。

101、102、103:步驟

Claims

一種影像處理方法，其中，所述方法包括：獲取一待處理圖像、一第一卷積核和一第二卷積核，所述第一卷積核的感受野與所述第二卷積核的感受野不同；使用所述第一卷積核對所述待處理圖像進行卷積處理獲得一第一特徵圖像，使用所述第二卷積核對所述待處理圖像進行卷積處理獲得一第二特徵圖像；對所述待處理圖像進行一第一特徵提取處理，獲得一第一自注意力圖像，對所述待處理圖像進行一第二特徵提取處理，獲得一第二自注意力圖像，所述第一自注意力圖像和所述第二自注意力圖像均用於表徵所述待處理圖像的尺度資訊，且所述第一自注意力圖像所表徵的尺度資訊與所述第二自注意力圖像所表徵的尺度資訊不同；依據所述第一自注意力圖像確定所述第一特徵圖像的一第一權重，依據所述第二自注意力圖像確定所述第二特徵圖像的一第二權重；依據所述第一權重和所述第二權重對所述第一特徵圖像和所述第二特徵圖像進行融合處理，獲得所述第一人群密度圖像。
如申請專利範圍第1項所述之方法，其中，所述依據所述第一權重和所述第二權重對所述第一特徵圖像和所述第二特徵圖像進行融合處理，獲得所述第一人群密度圖像，包括：確定所述第一權重與所述第一特徵圖像之間的點積，獲得一第三特徵圖像；確定所述第二權重與所述第二特徵圖像之間的點積，獲得一第四特徵圖像；對所述第三特徵圖像和所述第四特徵圖像進行融合處理，獲得所述第一人群密度圖像。
如申請專利範圍第1項或第2項所述之方法，其中，所述依據所述第一自注意力圖像確定所述第一特徵圖像的一第一權重，依據所述第二自注意力圖像確定所述第二特徵圖像的一第二權重，包括：對所述第一自注意力圖像和所述第二自注意力圖像進行歸一化處理，獲得所述第一自注意力圖像對應的一第三自注意力圖像和所述第二自注意力圖像對應的一第四自注意力圖像；將所述第三自注意力圖像作為所述第一權重，將所述第四自注意力圖像作為所述第二權重。
如申請專利範圍第1項或第2項所述的方法，其中，在所述使用所述第一卷積核對所述待處理圖像進行卷積處理獲得一第一特徵圖像，使用所述第二卷積核對所述待處理圖像進行卷積處理獲得一第二特徵圖像之前，所述方法還包括：對所述待處理圖像進行第三特徵提取處理，獲得一第五特徵圖像；所述使用所述第一卷積核對所述待處理圖像進行卷積處理獲得一第一特徵圖像，使用所述第二卷積核對所述待處理圖像進行卷積處理獲得一第二特徵圖像，包括：使用所述第一卷積核對所述第五特徵圖像進行卷積處理獲得所述第一特徵圖像，使用所述第二卷積核對所述第五特徵圖像進行卷積處理獲得所述第二特徵圖像；所述對所述待處理圖像進行一第一特徵提取處理，獲得一第一自注意力圖像，對所述待處理圖像進行一第二特徵提取處理，獲得一第二自注意力圖像，包括：對所述第五特徵圖像進行所述第一特徵提取處理，獲得所述第一自注意力圖像，對所述第五特徵圖像進行所述第二特徵提取處理，獲得所述第二自注意力圖像。
如申請專利範圍第1項所述之方法，其中，所述第一卷積核和所述第二卷積核均為空洞卷積核，且所述第一卷積核的大小與所述第二卷積核的大小相同，且所述第一卷積核的權重與所述第二卷積核的權重相同，且所述第一卷積核的擴張率與所述第二卷積核的擴張率不同。
如申請專利範圍第1項所述之方法，其中，所述方法還包括：確定所述第一人群密度圖像中的圖元值的和，獲得所述待處理圖像中的人數。
如申請專利範圍第1項所述之方法，其中，所述方法應用於一人群計數網路；所述人群計數網路的訓練過程包括：獲取一樣本圖像；使用所述人群計數網路對所述樣本圖像進行處理，獲得一第二人群密度圖像；依據所述樣本圖像與所述第二人群密度圖像之間的差異，獲得一網路損失；基於所述網路損失調整所述人群計數網路的參數。
如申請專利範圍第7項所述之方法，其中，在所述依據所述樣本圖像與所述第二人群密度圖像之間的差異，獲得一網路損失之前，所述方法還包括：獲得所述樣本圖像的一真實人群密度圖像；所述依據所述樣本圖像與所述第二人群密度圖像之間的差異，獲得一網路損失，包括：依據所述真實人群密度圖像與所述第二人群密度圖像之間的差異，獲得所述網路損失。
如申請專利範圍第7項所述之方法，其中，在所述使用所述人群計數網路對所述樣本圖像進行處理，獲得一第二人群密度圖像之前，所述方法還包括：對所述樣本圖像進行一預處理，獲得一至少一張預處理後的圖像；所述使用所述人群計數網路對所述樣本圖像進行處理，獲得一第二人群密度圖像，包括：使用所述人群計數網路對所述至少一張預處理後的圖像進行處理，獲得一至少一張第三人群密度圖像，所述預處理後的圖像與所述第三人群密度圖像一一對應；所述依據所述樣本圖像與所述第二人群密度圖像之間的差異，獲得一網路損失，包括：依據所述至少一張預處理後的圖像中的一靶心圖表像和與所述靶心圖表像對應的所述第三人群密度圖像之間的差異，獲得所述網路損失。
如申請專利範圍第9項所述之方法，其中，所述預處理包括：從所述樣本圖像中截取一預定尺寸的圖像、對所述樣本圖像或所述預定尺寸的圖像進行翻轉處理中的至少一種。
一種處理器，其中，所述處理器用於執行如申請專利範圍第1項至第10項中任意一項所述之方法。
一種電子設備，其中，包括：相互連接的一處理器和一儲存器，所述儲存器用於儲存一電腦程式代碼，所述電腦程式代碼包括一電腦指令，當所述處理器執行所述電腦指令時，所述電子設備執行如申請專利範圍第1項至第10項中任一項所述之方法。
一種電腦可讀儲存媒介，其中，所述電腦可讀儲存媒介中儲存有一電腦程式，所述電腦程式包括一程式指令，當所述程式指令被電子設備的一處理器執行時，使所述處理器執行如申請專利範圍第1項至第10項中任意一項所述之方法。