TWI728791B

TWI728791B - 圖像語義分割方法及裝置、儲存介質

Info

Publication number: TWI728791B
Application number: TW109114127A
Authority: TW
Inventors: 張展鵬; 成慧; 張凱鵬
Original assignee: 中國商深圳市商湯科技有限公司
Priority date: 2019-12-30
Filing date: 2020-04-28
Publication date: 2021-05-21
Also published as: TW202125408A; CN111179283A; KR20210088546A; WO2021134970A1; JP2022518647A

Abstract

本揭露實施例公開了一種圖像語義分割方法及裝置、儲存介質，其中，所述方法包括：對獲取到的待處理圖像進行特徵提取，獲得第一特徵圖像；對所述第一特徵圖像同步提取多個範圍不同的上下文特徵，獲得多個第二特徵圖像；至少根據所述多個第二特徵圖像，確定目標圖像，並將所述目標圖像作為新的所述第一特徵圖像再次同步提取多個範圍不同的上下文特徵；響應於對所述第一特徵圖像同步提取多個範圍不同的上下文特徵的次數達到目標次數，基於最後一次獲得的所述目標圖像，生成所述待處理圖像對應的語義圖像。

Description

圖像語義分割方法及裝置、儲存介質

本揭露涉及深度學習領域，尤其涉及圖像語義分割方法及裝置、儲存介質。

對於可移動的機器設備而言，可以針對其裝載的攝影機所採集的圖像進行語義分割，獲得對場景的語義理解，從而實現避障、導航等功能。

目前，一方面，出於成本以及機動性能考慮，可移動的機器設備的計算資源往往比較受限。另一方面，可移動的機器設備需要即時地與現實環境進行交互。因此，如何在受限的計算資源下，進行即時語義分割，是挑戰性的技術問題。

本揭露實施例提供了一種圖像語義分割方法及裝置、儲存介質。

根據本揭露實施例的第一方面，提供一種圖像語義分割方法，所述方法包括：對獲取到的待處理圖像進行特徵提取，獲得第一特徵圖像；對所述第一特徵圖像同步提取多個範圍不同的上下文特徵，獲得多個第二特徵圖像；至少根據所述多個第二特徵圖像，確定目標圖像，並將所述目標圖像作為新的所述第一特徵圖像再次同步提取多個範圍不同的上下文特徵；響應於對所述第一特徵圖像同步提取多個範圍不同的上下文特徵的次數達到目標次數，基於最後一次獲得的所述目標圖像，生成所述待處理圖像對應的語義圖像。

在一些可選實施例中，所述對所述第一特徵圖像同步提取多個範圍不同的上下文特徵，獲得多個第二特徵圖像，包括：對所述第一特徵圖像分多個通道同步進行降維處理，獲得多個第三特徵圖像；對所述多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，獲得多個第二特徵圖像。

在一些可選實施例中，所述對所述多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，獲得多個第二特徵圖像，包括：採用深度可分離卷積且卷積核對應不同空洞係數的空洞卷積，對所述多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，獲得所述多個第二特徵圖像。

在一些可選實施例中，所述至少根據所述多個第二特徵圖像，確定目標圖像，包括：至少將所述多個第二特徵圖像進行融合，獲得第四特徵圖像；至少根據所述第四特徵圖像，確定所述目標圖像。

在一些可選實施例中，所述至少將所述多個第二特徵圖像進行融合，獲得第四特徵圖像，包括：將所述多個第二特徵圖像進行疊加，得到所述第四特徵圖像；或對所述多個第二特徵圖像和多個第三特徵圖像中的至少一個第三特徵圖像進行疊加，得到所述第四特徵圖像。

在一些可選實施例中，所述至少根據所述第四特徵圖像，確定所述目標圖像，包括：對所述第四特徵圖像進行上採樣，獲得所述目標圖像；或者，對所述第四特徵圖像進行子像素卷積，獲得所述目標圖像。

在一些可選實施例中，所述方法還包括：對所述待處理圖像進行特徵提取和降維處理後，獲得第五特徵圖像；其中，所述第五特徵圖像對應的特徵提取的層數小於所述第一特徵圖像對應的特徵提取的層數；所述至少根據所述第四特徵圖像，確定所述目標圖像，包括：在所述次數小於所述目標次數的情況下，將所述第四特徵圖像和所述第五特徵圖像疊加後進行上採樣，獲得所述目標圖像；或，在所述次數小於所述目標次數的情況下，對所述第四特徵圖像進行子像素卷積後得到的圖像與所述第五特徵圖像疊加，獲得所述目標圖像。

在一些可選實施例中，所述最後一次獲得的所述目標圖像對應的維度為目標維度；其中，所述目標維度是根據預設的所述語義圖像中所包括的物體類別的總數目確定的。

在一些可選實施例中，所述生成所述待處理圖像對應的語義圖像之後，所述方法還包括：根據所述語義圖像進行機器設備導航。

根據本公開實施例的第二方面，提供一種圖像語義分割裝置，所述裝置包括：特徵提取模組，配置為對獲取到的待處理圖像進行特徵提取，獲得第一特徵圖像；上下文特徵提取模組，配置為對所述第一特徵圖像同步提取多個範圍不同的上下文特徵，獲得多個第二特徵圖像；確定模組，配置為至少根據所述多個第二特徵圖像，確定目標圖像，並將所述目標圖像作為新的所述第一特徵圖像再次同步提取多個範圍不同的上下文特徵；語義圖像生成模組，配置為回應於對所述第一特徵圖像同步提取多個範圍不同的上下文特徵的次數達到目標次數，基於最後一次獲得的所述目標圖像，生成所述待處理圖像對應的語義圖像。

在一些可選實施例中，所述上下文特徵提取模組包括：第一處理子模組，配置為對所述第一特徵圖像分多個通道同步進行降維處理，獲得多個第三特徵圖像；第二處理子模組，配置為對所述多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，獲得多個第二特徵圖像。

在一些可選實施例中，所述第二處理子模組，配置為採用深度可分離卷積且卷積核對應不同空洞係數的空洞卷積，對所述多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，獲得所述多個第二特徵圖像。

在一些可選實施例中，所述確定模組包括：第一確定子模組，配置為至少將所述多個第二特徵圖像進行融合，獲得第四特徵圖像；第二確定子模組，配置為至少根據所述第四特徵圖像，確定所述目標圖像。

在一些可選實施例中，所述第一確定子模組，配置為將所述多個第二特徵圖像進行疊加，得到所述第四特徵圖像；或對所述多個第二特徵圖像和多個第三特徵圖像中的至少一個第三特徵圖像進行疊加，得到所述第四特徵圖像。

在一些可選實施例中，所述第二確定子模組，配置為對所述第四特徵圖像進行上採樣，獲得所述目標圖像；或者，對所述第四特徵圖像進行子像素卷積，獲得所述目標圖像。

在一些可選實施例中，所述裝置還包括：處理模組，配置為對所述待處理圖像進行特徵提取和降維處理後，獲得第五特徵圖像；其中，所述第五特徵圖像對應的特徵提取的層數小於所述第一特徵圖像對應的特徵提取的層數；所述第二確定子模組，配置為在所述次數小於所述目標次數的情況下，將所述第四特徵圖像和所述第五特徵圖像疊加後進行上採樣，獲得所述目標圖像；或者，在所述次數小於所述目標次數的情況下，對所述第四特徵圖像進行子像素卷積後得到的圖像與所述第五特徵圖像疊加，獲得所述目標圖像。

在一些可選實施例中，所述裝置還包括：導航模組，配置為根據所述語義圖像進行機器設備導航。

根據本揭露實施例的協力廠商面，提供一種電腦可讀儲存介質，所述儲存介質儲存有電腦程式，所述電腦程式用於執行上述第一方面任一所述的圖像語義分割方法。

根據本揭露實施例的第四方面，提供一種圖像語義分割裝置，包括：處理器；用於儲存所述處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體中儲存的可執行指令，實現第一方面中任一項所述的圖像語義分割方法。

根據本揭露實施例的第五方面，提供一種電腦程式，所述電腦程式使得電腦執行本揭露實施例第一方面中任一項所述的圖像語義分割方法。

本揭露實施例提供的技術方案可以包括以下有益效果：

本揭露實施例中，可以對獲取到的待處理圖像進行特徵提取，從而獲得第一特徵圖像，進而對第一特徵圖像同步提取多個範圍不同的上下文特徵，獲得多個第二特徵圖像。至少根據多個第二特徵圖像，確定目標圖像，並將該目標圖像作為新的第一特徵圖像，再次同步提取多個範圍不同的上下文特徵。在對第一特徵圖像同步提取多個範圍不同的上下文特徵的次數達到目標次數時，可以基於最後一次獲得的目標圖像，語義分割生成該待處理圖像對應的語義圖像。本公開實施例透過多次對待處理圖像對應的特徵圖像同步提取多個範圍不同的上下文特徵，充分融合不同尺度的上下文資訊，提高了語義分割的精度。

本揭露實施例中，可以先對第一特徵圖像分多個通道進行降維處理，獲得多個第三特徵圖像，再對多個第三特徵圖像中的至少兩個提取範圍不同的上下文特徵，獲得所對應的多個第二特徵圖像。實現了對所述第一特徵圖像同步提取多個範圍不同的上下文特徵的目的，有利於提高語義分割的準確性，以及減少了語義分割過程的計算量。

本揭露實施例中，可以採用深度可分離卷積且卷積核對應不同空洞係數的空洞卷積，對多個第三特徵圖像中的至少兩個提取範圍不同的上下文特徵，實現了對所述第一特徵圖像同步提取多個範圍不同的上下文特徵的目的，有利於提高語義分割的準確性。

本揭露實施例中，可以直接將多個第二特徵圖像疊加得到第四特徵圖像，或者還可以將多個第二特徵圖像和多個第三特徵圖像中的至少一個進行疊加，獲得第四特徵圖像，可用性高，可融合更多尺度的資訊，提高了進行語義分割的準確性。

本揭露實施例中，為了維持目標圖像的維度，可以對第四特徵圖像進行上採樣，從而得到目標圖像。或者還可以對第四特徵圖像進行子像素卷積，提高語義分割的效果，讓語義分割結果更加準確。

本揭露實施例中，可以在確定目標圖像之前，獲取第五特徵圖像。其中，第五特徵圖像是對待處理圖像提取低維圖像特徵所得到的圖像。所述第五特徵圖像對應的特徵提取的層數小於所述第一特徵圖像對應的特徵提取的層數。將第四特徵圖像和第五特徵圖像疊加後進行上採樣，獲得所述目標圖像，在對第一特徵圖像同步提取多個範圍不同的上下文特徵的次數達到目標次數的情況下，可以只對第四特徵圖像進行上採樣，獲得目標圖像，降低在降維處理後丟掉待處理圖像中的某些重要特徵的可能性，提高了語義分割的準確性。

本揭露實施例中，最後一次獲得的目標圖像的維度為目標維度，其中，目標維度是根據預設的所述語義圖像中所包括的物體類別的總數目確定的。確保最終得到的語義圖像的維度與待處理圖像維度一致。

本揭露實施例中，可以根據生成的待處理圖像對應的語義圖像進行機器設備導航，可用性高。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，並不能限制本揭露實施例。【圖式簡單發明】

此處的附圖被併入說明書中並構成本說明書的一部分，示出了符合本揭露的實施例，並與說明書一起用於解釋本揭露的原理。第1A圖是本揭露根據一示例性實施例示出的一種顏色圖像；第1B圖是本揭露根據一示例性實施例示出的一種語義圖像；第2圖是本揭露根據一示例性實施例示出的一種圖像語義分割方法流程圖；第3圖是本揭露根據一示例性實施例示出的另一種圖像語義分割方法流程圖；第4圖是本揭露根據一示例性實施例示出的一種進行不同範圍上下文特徵提取的場景示意圖；第5圖是本揭露根據一示例性實施例示出的另一種圖像語義分割方法流程圖；第6圖是本揭露根據一示例性實施例示出的另一種圖像語義分割方法流程圖；第7圖是本揭露根據一示例性實施例示出的一種獲得語義圖像的神經網路架構示意圖；第8A圖是本揭露根據一示例性實施例示出的一種後端子網路的架構示意圖；第8B圖是本揭露根據一示例性實施例示出的另一種後端子網路的架構示意圖；第8C圖是本揭露根據一示例性實施例示出的另一種後端子網路的架構示意圖；第8D圖是本揭露根據一示例性實施例示出的另一種後端子網路的架構示意圖；第9圖是本揭露根據一示例性實施例示出的又一種圖像語義分割方法流程圖；第10圖是本揭露根據一示例性實施例示出的一種圖像語義分割裝置框圖；第11圖是本揭露根據一示例性實施例示出的一種用於圖像語義分割裝置的一結構示意圖。

具體實施方式

這裡將詳細地對示例性實施例進行說明，其示例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本揭露相一致的所有實施方式。相反，它們僅是與如所附發明申請專利範圍中所詳述的、本揭露的一些方面相一致的裝置和方法的例子。

在本揭露運行的術語是僅僅出於描述特定實施例的目的，而非旨在限制本揭露。在本揭露和所附發明申請專利範圍中所運行的單數形式的「一種」、「所述」和「該」也旨在包括多數形式，除非上下文清楚地表示其他含義。還應當理解，本文中運行的術語“和/或”是指並包含一個或多個相關聯的列出專案的任何或所有可能組合。

應當理解，儘管在本揭露可能採用術語第一、第二、第三等來描述各種資訊，但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如，在不脫離本揭露範圍的情況下，第一資訊也可以被稱為第二資訊，類似地，第二資訊也可以被稱為第一資訊。取決於語境，如在此所運行的詞語「如果」可以被解釋成為「在……時」或「當……時」或「回應於確定」。

本揭露實施例提供了一種圖像語義分割方法，可以用於機器設備，例如機器人、無人駕駛車輛、無人機等可移動的機器設備。或者，可透過處理器運行電腦可執行代碼的方式實現本揭露實施例提供的方法。

圖像語義分割是指對輸入的紅綠藍（Red Green Blue，RGB）圖像中每個像素點，估計其所屬的物體種類，該物體種類可以包括但不限於各種物體，例如草地、人、車、建築物、天空等，得到與RGB圖像對應的尺寸和維度相同的帶有所屬物體種類標籤的語義圖。例如第1A圖是RGB圖像，第1B圖是對應的語義圖像。

本揭露實施例透過對該機器設備獲取到的待處理圖像進行特徵提取，得到第一特徵圖像；進而對第一特徵圖像分多次同步提取多個範圍不同的上下文特徵，獲得多個第二特徵圖像，從而至少根據多個第二特徵圖像確定目標圖像；最終可以基於最後一次獲得的目標圖像，生成語義圖像。本揭露實施例透過多次上下文特徵提取及融合，能充分融合不同尺度的上下文資訊，提高了語義分割的精度。機器設備可以根據該待處理圖像對應的語義圖像，對該機器設備前方的障礙物進行規避，合理規劃行駛路線，可用性高。

以上僅為本揭露示例性的應用場景，其他可以用到本揭露的圖像語義分割方法的場景均屬於本揭露的保護範圍。

如第2圖所示，第2圖是根據一示例性實施例示出的一種圖像語義分割方法，包括以下步驟：

在步驟101中，對獲取到的待處理圖像進行特徵提取，獲得第一特徵圖像。

本揭露實施例中，待處理圖像可以是即時圖像，即時圖像可以透過該機器設備上預先設置的攝影機進行圖像採集，採集的圖像中可包括位於該機器設備移動路線前方的各種物體。待處理圖像還可以是該機器設備已經採集到的圖像（例如機器設備中儲存的圖像），或者其他設備發送給該機器設備的、需要進行語義分割的圖像。

將待處理圖像中包括的原始圖像資訊轉換為一組具有明顯物理意義或者統計意義的特徵，從而可以得到第一特徵圖像；或者可以透過卷積網路，例如殘差網路（Residual Networks，ResNet）、視覺幾何組（Visual Geometry Group，VGG）網路等方式從待處理圖像中提取出高維圖像特徵，得到第一特徵圖像。

其中，在一些實施例中，對待處理圖像進行特徵提取時，可以提取出待處理圖像中例如哈爾特徵（Haar-like features，Haar）、局部二值模式（Local Binary Pattern，LBP）、方向梯度長條圖（Histogram of Oriented Gradient，HOG）等特徵。哈爾特徵描述的是圖像在局部範圍內像素值明暗變換資訊，LBP描述的是圖像在局部範圍內對應的紋理資訊，HOG描述的則是圖像在局部範圍內對應的形狀邊緣梯度資訊。或者，在另一些實施例中，對待處理圖像進行特徵提取時，可以提取出待處理圖像的高維視覺特徵。

在步驟102中，對所述第一特徵圖像同步提取多個範圍不同的上下文特徵，獲得多個第二特徵圖像。

在本揭露實施例中，上下文特徵提取是對第一特徵圖像中像素點鄰域內的其他像素點的分佈情況進行的統計。

範圍不同的上下文特徵提取是指間隔不同的像素數目進行的上下文特徵提取，例如在對第一特徵圖像進行上下文特徵提取時，可以同步對第一特徵圖像所包括的多個像素點間隔（例如3個、7個、12個像素點間隔）進行上下文特徵提取，分別得到多個第二特徵圖像。

在步驟103中，至少根據所述多個第二特徵圖像，確定目標圖像，並將所述目標圖像作為新的所述第一特徵圖像再次同步提取多個範圍不同的上下文特徵。

在本揭露實施例中，目標圖像是每次至少根據多個第二特徵圖像獲得的圖像。在確定了目標圖像之後，該目標圖像可以作為新的第一特徵圖像，再次返回執行步驟102。

在步驟104中，響應於對所述第一特徵圖像同步提取多個範圍不同的上下文特徵的次數達到目標次數，基於最後一次獲得的所述目標圖像，生成所述待處理圖像對應的語義圖像。

在本揭露實施例中，目標次數可以是大於等於2的正整數。

上述實施例中，可以對獲取到的待處理圖像進行特徵提取，從而獲得第一特徵圖像，進而對第一特徵圖像同步提取多個範圍不同的上下文特徵，獲得多個第二特徵圖像。至少根據多個第二特徵圖像，確定目標圖像，並將該目標圖像作為新的第一特徵圖像，再次同步提取多個範圍不同的上下文特徵。在對第一特徵圖像同步提取多個範圍不同的上下文特徵的次數達到目標次數時，可以基於最後一次獲得的目標圖像，語義分割生成該待處理圖像對應的語義圖像。本揭露實施例，透過多次對待處理圖像對應的特徵圖像同步提取多個範圍不同的上下文特徵，能充分融合不同尺度的上下文資訊，提高了語義分割的精度。

在一些可選實施例中，針對步驟101，可以採用特徵提取網路，將採集到的待處理圖像輸入該特徵提取網路，從而由該特徵提取網路輸出第一特徵圖像。其中，特徵提取網路可以是Resnet、VGG等可以進行特徵提取的神經網路。

在一些可選實施例中，例如圖3所示，步驟102可以包括：

在步驟102-1中，對所述第一特徵圖像分多個通道同步進行降維處理，獲得多個第三特徵圖像。

本揭露實施例中，對第一特徵圖像進行降維處理是為了後續更好地進行上下文特徵提取，有利於減少後續處理的計算量。對第一特徵圖像分多個通道進行降維處理，後續可以針對多個通道對應的降維處理後的圖像分別提取範圍不同的上下文特徵，有利於提高語義分割的準確性，以及減少了語義分割過程的計算量。

在本揭露實施例中，可以對第一特徵圖像分多個通道同步進行相同維度的降維處理，例如第4圖所示，採用1×1卷積核的卷積層進行多通道降維處理後得到的多個第三特徵圖像的維度可以是1×1×256維。

在步驟102-2中，對所述多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，獲得多個第二特徵圖像。

在本揭露實施例中，可以採用深度可分離卷積且卷積核對應不同空洞係數的空洞卷積，對多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，獲得所述多個第二特徵圖像，實現了對所述第一特徵圖像同步提取多個範圍不同的上下文特徵的目的，有利於提高語義分割的準確性。其中，空洞卷積可以選擇3×3大小的卷積核，也可以採用5×5或者7×7等大小的卷積核，本揭露實施例中對空洞卷積的卷積核大小不做限定。其中，可以根據語義分割的場景將空洞卷積的空洞係數r設置為不同的值，例如可以設置r為6、12、18、32等，根據r的值可以間隔不同的像素點數目進行上下文特徵提取。

例如第4圖所示，在對第一特徵圖像進行4個通道的降維處理後，獲得4個第三特徵圖像，分別記為第三特徵圖像1至第三特徵圖像4；可以對第三特徵圖像1不進行上下文特徵提取，第三特徵圖像2、3、4分別對應的空洞係數r的值為6、12和18，即對第三特徵圖像2、3、4分別每間隔6個像素點、12個像素點和18個像素點，提取上下文特徵，得到三個第二特徵圖像。

上述實施例中，可以先對第一特徵圖像分多個通道進行降維處理，獲得多個第三特徵圖像，再對多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，獲得所對應的至少兩個第二特徵圖像。實現了對所述第一特徵圖像同步提取多個範圍不同的上下文特徵的目的，有利於提高語義分割的準確性，以及減少了語義分割過程的計算量。

在一些可選實施例中，例如第5圖所示，步驟103至少根據所述多個第二特徵圖像，確定目標圖像的過程可以包括：

在步驟103-1中，至少將所述多個第二特徵圖像進行融合，獲得第四特徵圖像。

在本揭露實施例中，至少可以將上述步驟獲得的多個第二特徵圖像進行疊加，從而獲得第四特徵圖像。

例如，將多個第二特徵圖像堆放到一起，隨後透過一個卷積操作實現多尺度上下文特徵的融合，得到第四特徵圖像。還可以將多個第二特徵圖像進行拼接，得到第四特徵圖像。

在步驟103-2中，至少根據所述第四特徵圖像，確定所述目標圖像。

在一種可能的實現方式中，可以直接將第四特徵圖像作為目標圖像。在另一種可能的實現方式中，可以對第四特徵圖像進行可以提高語義分割效果的處理，從而得到目標圖像。在另一種可能的實現方式中，還可以根據第四特徵圖像和其他與待處理圖像關聯的特徵圖像，確定目標圖像。

上述實施例中，至少可以根據多個第二特徵圖像確定目標圖像，可用性高。

在一些可選實施例中，針對步驟103-1，在一種可能的實現方式中，可以將多個第二特徵圖像進行疊加，從而得到第四特徵圖像。為了更好地保留待處理圖像所對應的特徵資訊，提高語義分割的準確性，在另一種可能的實現方式中，還可以將多個第二特徵圖像和多個第三特徵圖像中的至少一個第三特徵圖像進行疊加，將疊加後得到的圖像作為第四特徵圖像。

多個第三特徵圖像就是對第一特徵圖像同步分多個通道進行降維處理後得到的圖像，本揭露實施例中，可以將多個第二特徵圖像和多個第三特徵圖像中的至少一個第三特徵圖像疊加，隨後透過一個卷積操作實現多尺度上下文特徵的融合，得到第四特徵圖像。還可以將多個第二特徵圖像和多個第三特徵圖像中的至少一個第三特徵圖像進行拼接，得到第四特徵圖像。

在上述實施例中，可以直接將多個第二特徵圖像疊加得到第四特徵圖像，或者還可以將多個第二特徵圖像和未進行上下文特徵提取的多個第三特徵圖像中的至少一個第三特徵圖像進行疊加，獲得第四特徵圖像，可用性高，可融合更多尺度的資訊，提高了進行語義分割的準確性。

在一些可選實施例中，針對步驟103-2，可以採用以下方式中的任意一種確定目標圖像。

在一種可能的實現方式中，所述至少根據所述第四特徵圖像，確定所述目標圖像，包括：對所述第四特徵圖像進行上採樣，獲得所述目標圖像。

在本揭露實施例中，由於目標圖像後續還需要進行降維處理或生成語義圖像，為了維持目標圖像的維度，需要對第四特徵圖像進行上採樣處理。在確定了第四特徵圖像之後，直接對第四特徵圖像進行上採樣處理（例如線性插值），從而得到目標圖像。進而將目標圖像作為新的第一特徵圖像，返回執行步驟102。

對第四特徵圖像進行上採樣處理時，對應的上採樣因數t可以為2、4、8等，每次對所述第四特徵圖像進行上採樣處理時，可以採用相同或不同的上採樣因數。其中，上採樣因數是對原圖像進行放大時，在像素點之間採用合適的插值演算法插入新的像素點的數目，例如上採樣因數t為2時，可以在兩個相鄰像素點之間採用線性插值演算法插入2個新的像素點。

在另一種可能的實現方式中，所述至少根據所述第四特徵圖像，確定所述目標圖像，包括：對所述第四特徵圖像進行子像素卷積，獲得所述目標圖像。

子像素卷積透過對輸出的特徵圖深度方向的像素進行平鋪，使得特徵圖深度變小而二維平面的空間尺度變大，從而提高特徵圖的空間解析度。

透過對第四特徵圖像進行子像素卷積可以提高語義分割的效果，讓語義分割結果更加準確。子像素卷積處理之後，還可以進行上採樣處理，透過上採樣處理獲得目標圖像，進而將目標圖像作為新的第一特徵圖像，返回執行步驟102。

在另一種可能的實現方式中，考慮到之前對第一特徵圖像進行了降維處理，後續的圖像都是基於根據降維處理後的多個第三特徵圖像得到的，但最終生成的語義圖像卻是與待處理圖像一樣的高維度的圖像，為了降低在降維處理後丟掉待處理圖像中的某些重要特徵的可能性，提高了語義分割的準確性，可以在確定目標圖像之前，獲取第五特徵圖像。

其中，第五特徵圖像是對待處理圖像提取低維圖像特徵所得到的圖像。所述第五特徵圖像對應的特徵提取的層數小於所述第一特徵圖像對應的特徵提取的層數。例如，對待處理圖像進行了10層特徵提取，獲得第一特徵圖像，那麼可以將前4層進行特徵提取後得到的圖像作為第五特徵圖像。

相應地，例如第6圖所示，上述方法還可以包括：

在步驟105中，對所述待處理圖像進行特徵提取和降維處理後，獲得第五特徵圖像。

本揭露實施例中，可以對第四特徵圖像和第五特徵圖像疊加後進行上採樣處理，得到目標圖像。

其中，在對第一特徵圖像同步提取多個範圍不同的上下文特徵的次數小於目標次數的情況下，步驟103-2可以將第四特徵圖像和第五特徵圖像疊加後進行上採樣，獲得所述目標圖像，在對第一特徵圖像同步提取多個範圍不同的上下文特徵的次數達到目標次數的情況下，可以只對第四特徵圖像進行上採樣，獲得目標圖像。將目標圖像作為新的第一特徵圖像，返回執行步驟102。每次進行上採樣處理時對應的上採樣因數t可以相同或不同。

在另一種可能的實現方式中，同樣可以根據第四特徵圖像和第五特徵圖像確定目標圖像。

在對第一特徵圖像同步提取多個範圍不同的上下文特徵的次數小於目標次數的情況下，對所述第四特徵圖像進行子像素卷積後得到的圖像與所述第五特徵圖像疊加，獲得所述目標圖像。在對第一特徵圖像同步提取多個範圍不同的上下文特徵的次數達到目標次數的情況下，直接對所述第四特徵圖像進行子像素卷積，獲得目標圖像。

在本揭露實施例中，為了確保語義分割的效果，同樣可以在對第一特徵圖像同步提取多個不同範圍的上下文特徵的次數小於目標次數的情況下，對第四特徵圖像先進行子像素卷積，將得到的圖像與第五特徵圖像疊加，獲得目標圖像。如果該次數達到目標次數，可以直接對第四特徵圖像進行子像素卷積，獲得目標圖像。其中，對第四特徵圖像進行子像素卷積後，還可以再進行上採樣。進而將目標圖像作為新的第一特徵圖像，返回執行步驟102。

需要說明的是，每次確定了目標圖像之後，將目標圖像作為新的第一特徵圖像再次同步提取多個範圍不同的上下文特徵時，對新的第一特徵圖像分多個通道同步進行降維處理時的得到的新的多個第三特徵圖像的維度，可以與之前進行降維處理後得到的多個第三特徵圖像的維度相同或不同。例如，上一次對第一特徵圖像分多個通道同步進行降維處理後得到1×1×256維度的多個第三特徵圖像，對新的第一特徵圖像分多個通道同步進行降維處理後可以得到1×1×128維度的新的多個第三特徵圖像。

另外，每次針對多個第三特徵圖像進行空洞卷積時的空洞係數也可以相同或不同。例如，上一次對多個第三特徵圖像中的至少兩個進行空洞卷積時，對應的空洞係數可以分別是6、12、18，對新的多個第三特徵圖像中的至少兩個進行空洞卷積時，對應的空洞係數可以分別是6和12。

上述實施例中，至少可以根據第四特徵圖像，確定一個目標圖像，從而確保語義分割的精度和準確性，可用性高。

在一些可選實施例中，為了確保最終得到的語義圖像的維度與待處理圖像維度一致，可以在輸出目標圖像之前，進行降維和/或升維處理，從而確保目標圖像對應的維度為目標維度。其中，目標維度是根據預設的所述語義圖像中所包括的物體類別的總數目確定的。

例如，目標維度可以是1×1×16N，N是預設的所述語義圖像中所包括的物體類別的總數目。如果語義圖像中需要分析出4類物體類別，那麼目標維度可以是1×1×64。

上述實施例中，最後一次獲得的目標圖像對應的維度可以與可以在輸出目標圖像之前，進行降維和/或升維處理（例如採用預設通道數的卷積層進行卷積操作），從而確保目標圖像的維度為目標維度關聯，提高了語義分割的準確性和精度。

在一些可選實施例中，針對步驟104，在最後一次獲得目標圖像之後，可以採用插值演算法生成該語義圖像，該插值演算法可以包括但不限於雙線性插值演算法。

對上述實施例進一步舉例說明如下，例如第7圖所示，採集到的待處理圖像（例如圖中所示的即時圖像）可以輸入一個全卷積的神經網路，由該全卷積的神經網路輸出對應的語義圖像。

該全卷積的神經網路可以包括前端子網路和後端子網路。

其中前端子網路可以是特徵提取網路，可以採用Resnet、VGG等神經網路。

在對前端子網路進行訓練的過程中，可以採用人工標注的圖像分類樣本資料集合，例如ImageNet。ImageNet集合中包括了圖像和對應的圖像特徵標籤，透過調整前端子網路的網路參數，讓前端子網路輸出結果與ImageNet樣本集合中的標籤內容匹配或者在容錯範圍內。

透過前端子網路可以獲得該待處理圖像對應的第一特徵圖像，進一步地將第一特徵圖像輸入後端子網路，獲得該後端子網路輸出的語義圖像。

在對後端子網路進行訓練時，可以採用人工標注的圖像語義分割樣本集合，例如CityScapes，透過後向傳播演算法訓練整個神經網路的網路參數，包括前端子網路和後端子網路的網路參數，讓後端子網路輸出結果與CityScapes樣本集合中的標籤內容匹配或者在容錯範圍內。

為了方便介紹後端子網路所採用的網路架構，本揭露實施例中僅以目標次數為2進行舉例說明，應當注意地是，目標次數為其他大於2的正整數值時均屬於本揭露的保護範圍。

在一種可能地實現方式中，後端子網路的網路架構可以如第8A圖所示。

透過子網路1，先對第一特徵圖像分多個通道同步進行降維處理，獲得多個第三特徵圖像。再對多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，可以透過深度可分離卷積且卷積核對應不同空洞係數的空洞卷積，獲得多個第二特徵圖像。

進一步地，可以將多個第二特徵圖像疊加後進行上採樣處理（第8A圖中未示出上採樣過程），得到目標圖像，也可以將多個第一圖像和未進行上下文特徵提取的至少一個第三特徵圖像疊加後進行上採樣處理，得到目標圖像。

直接將目標圖像作為新的第一特徵圖像，透過子網路2，先對新的第一特徵圖像分多個通道同步進行降維處理，再次獲得多個第三特徵圖像。再對多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，例如可以進行深度可分離卷積且卷積核對應不同空洞係數的空洞卷積，獲得多個第二特徵圖像。再次將多個第二特徵圖像疊加後進行上採樣處理，得到目標圖像，也可以將多個第一圖像和未進行上下文特徵提取的至少一個第三特徵圖像疊加後進行上採樣，得到目標圖像。

對子網路2輸出的目標圖像採用雙線性插值演算法，生成所述語義圖像。

上述實施例中，可以分多次對第一特徵圖像同步提取多個範圍不同的上下文特徵提取及融合，充分融合不同尺度的上下文資訊，提高了語義分割的精度。且由於採用了深度可分離的空洞卷積，減少了語義分割過程中的計算量。

在另一種可能實現方式中，後端子網路的網路架構可以如第8B圖所示。

透過子網路1，先對第一特徵圖像分多個通道同步進行降維處理，獲得多個第三特徵圖像。再對多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，例如可以進行深度可分離的空洞卷積操作，空洞係數互不相同，獲得多個第二特徵圖像。

為了提高語義分割的效果，可以將多個第二特徵圖像疊加後進行子像素卷積和上採樣處理，獲得目標圖像。或者可以將多個第二特徵圖像和未進行上下文特徵提取的至少一個第三特徵圖像疊加後進行子像素卷積和上採樣處理（第8B圖中未示出上採樣過程），得到目標圖像。

直接將目標圖像作為新的第一特徵圖像，透過子網路2，先對新的第一特徵圖像分多個通道同步進行降維處理，再次獲得多個第三特徵圖像。再對多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，例如可以進行深度可分離的空洞卷積操作，空洞係數互不相同，獲得多個第二特徵圖像。再次將多個第二特徵圖像疊加起來進行子像素卷積和上採樣處理，得到目標圖像，也可以將多個第一圖像和未進行上下文特徵提取的至少一個第三特徵圖像疊加後進行子像素卷積和上採樣處理，得到目標圖像。

上述實施例中，可以分多次對第一特徵圖像同步提取多個範圍不同的上下文特徵提取及融合，充分融合不同尺度的上下文資訊，提高了語義分割的精度。且由於採用了深度可分離的空洞卷積，減少了語義分割過程中的計算量。另外，還可以透過子像素卷積提高語義分割的效果。

在另一種可能地實現方式中，後端子網路的網路架構可以如第8C圖所示。

透過子網路1，先對第一特徵圖像分多個通道同步進行降維處理，獲得多個第三特徵圖像。再對多個第三特徵圖像中的至少兩個提取範圍不同的上下文特徵，例如可以進行深度可分離的空洞卷積操作，空洞係數互不相同，獲得多個第二特徵圖像。

進一步地，可以將多個第二特徵圖像和未進行上下文特徵提取的至少一個第三特徵圖像疊加後，再與第五特徵圖像進行疊加，對疊加後的圖像進行上採樣處理（第8C圖中未示出上採樣過程），得到目標圖像。其中，第五特徵圖像對應的特徵提取的層數小於所述第一特徵圖像對應的特徵提取的層數。

直接將目標圖像作為新的第一特徵圖像，透過子網路2，先對新的第一特徵圖像分多個通道同步進行降維處理，再次獲得多個第三特徵圖像。再對多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，例如可以進行深度可分離的空洞卷積操作，空洞係數互不相同，獲得多個第二特徵圖像。再次將多個第二特徵圖像和未進行上下文特徵提取的至少一個第三特徵圖像疊加後，對疊加後的圖像進行上採樣處理，得到目標圖像。

在另一種可能地實現方式中，後端子網路的網路架構可以如第8D圖所示。

進一步地，可以將多個第二特徵圖像和未進行上下文特徵提取的至少一個第三特徵圖像疊加後、進行子像素卷積和上採樣處理（第8D圖未示出上採樣過程），再與第五特徵圖像疊加，得到目標圖像。其中，第五特徵圖像對應的特徵提取的層數小於所述第一特徵圖像對應的特徵提取的層數。

直接將目標圖像作為新的第一特徵圖像，透過子網路2，先對新的第一特徵圖像分多個通道同步進行降維處理，再次獲得多個第三特徵圖像。再對多個第三特徵圖像中的至少兩個提取範圍不同的上下文特徵，例如可以進行深度可分離的空洞卷積操作，空洞係數互不相同，獲得多個第二特徵圖像。再次將多個第二特徵圖像和未進行上下文特徵提取的至少一個第三特徵圖像疊加後，對疊加後的圖像進行子像素卷積和上採樣處理，得到目標圖像。

另外，為了確保目標圖像的維度為目標維度，可以在將多個第二特徵圖像和未進行上下文特徵提取的至少一個第三特徵圖像疊加後，對疊加後的圖像進行降維處理和升維處理，再進行子像素卷積和上採樣處理，獲得目標圖像。

上述實施例中，可以分多次對第一特徵圖像同步提取多個範圍不同的上下文特徵提取及融合，充分融合不同尺度的上下文資訊，提高了語義分割的精度。由於採用了深度可分離的空洞卷積，減少了語義分割過程中的計算量。另外，採用第五特徵圖像確定目標圖像，可以確保待檢測圖像中的重要資訊不會丟失，同樣提高了語義分割的效果。

在一些可選實施例中，例如第9圖所示，在完成步驟104之後，該方法還可以包括：在步驟106中，根據所述語義圖像進行機器設備導航。

本揭露實施例中，可以根據生成的語義圖像對機器設備進行導航。例如語義圖像中包括障礙物，則可以進行躲避障礙物的導航，語義圖像中包括岔路口，則可以根據指定路線，確定是否需要直行或轉彎等。

上述實施例中，可以根據生成的待處理圖像對應的語義圖像進行機器設備導航，可用性高。

與前述方法實施例相對應，本揭露還提供了裝置的實施例。

如第10圖所示，第10圖是本揭露根據一示例性實施例示出的一種圖像語義分割裝置框圖，裝置包括：特徵提取模組210，配置為對獲取到的待處理圖像進行特徵提取，獲得第一特徵圖像；上下文特徵提取模組220，配置為對所述第一特徵圖像同步提取多個範圍不同的上下文特徵，獲得多個第二特徵圖像；確定模組230，配置為至少根據所述多個第二特徵圖像，確定目標圖像，並將所述目標圖像作為新的所述第一特徵圖像再次同步提取多個範圍不同的上下文特徵；語義圖像生成模組240，配置為回應於對所述第一特徵圖像同步提取多個範圍不同的上下文特徵的次數達到目標次數，基於最後一次獲得的所述目標圖像，生成所述待處理圖像對應的語義圖像。

在一些可選實施例中，所述上下文特徵提取模組220包括：第一處理子模組，配置為對所述第一特徵圖像分多個通道同步進行降維處理，獲得多個第三特徵圖像；第二處理子模組，配置為對所述多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，獲得多個第二特徵圖像。

在一些可選實施例中，所述第一確定子模組，配置為將所述多個第二特徵圖像進行疊加，得到所述第四特徵圖像；或者，對所述多個第二特徵圖像和多個第三特徵圖像中的至少一個第三特徵圖像進行疊加，得到所述第四特徵圖像。

對於裝置實施例而言，由於其基本對應於方法實施例，所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的，其中作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本揭露方案的目的。本領域普通技術人員在不付出進步性勞動的情況下，即可以理解並實施。

本揭露實施例還提供了一種電腦可讀儲存介質，儲存介質儲存有電腦程式，電腦程式用於執行上述任一項所述的圖像語義分割方法。

本公開實施例還提供了一種電腦程式，所述電腦程式使得電腦執行上述任一項所述的圖像語義分割方法。

在一些可選實施例中，本公開實施例提供了一種電腦程式產品，包括電腦可讀代碼，當電腦可讀代碼在設備上運行時，設備中的處理器執行用於實現如上任一實施例提供的圖像語義分割方法的指令。

在一些可選實施例中，本揭露實施例還提供了另一種電腦程式產品，用於儲存電腦可讀指令，指令被執行時使得電腦執行上述任一實施例提供的圖像語義分割方法的操作。

該電腦程式產品可以具體透過硬體、軟體或其結合的方式實現。在一個可選實施例中，所述電腦程式產品具體體現為電腦儲存介質，在另一個可選實施例中，電腦程式產品具體體現為軟體產品，例如軟體發展包(Software Development Kit，SDK)等等。

本揭露實施例還提供了一種圖像語義分割裝置，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，處理器被配置為調用所述記憶體中儲存的可執行指令，實現上述任一項所述的圖像語義分割方法。

第11圖為本申請實施例提供的一種圖像語義分割裝置的硬體結構示意圖。該圖像語義分割裝置310包括處理器311，還可以包括輸入裝置312、輸出裝置313和記憶體314。該輸入裝置312、輸出裝置313、記憶體314和處理器311之間透過匯流排相互連接。

記憶體包括但不限於是隨機儲存記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、可擦除可程式設計唯讀記憶體（Erasable Programmable Read Only Memory，EPROM）、或可擕式唯讀記憶體（Compact Disc Read-Only Memory，CD-ROM），該記憶體用於相關指令及資料。

輸入裝置用於輸入資料和/或信號，以及輸出裝置用於輸出資料和/或信號。輸出裝置和輸入裝置可以是獨立的器件，也可以是一個整體的器件。

處理器可以包括是一個或多個處理器，例如包括一個或多個中央處理器（Central Processing Unit，CPU），在處理器是一個CPU的情況下，該CPU可以是單核CPU，也可以是多核CPU。

記憶體用於儲存網路設備的程式碼和資料。

處理器用於調用該記憶體中的程式碼和資料，執行上述方法實施例中的步驟。具體可參見方法實施例中的描述，在此不再贅述。

可以理解的是，第11圖僅僅示出了一種圖像語義分割裝置的簡化設計。在實際應用中，圖像語義分割裝置還可以分別包含必要的其他元件，包含但不限於任意數量的輸入/輸出裝置、處理器、控制器、記憶體等，而所有可以實現本申請實施例的圖像語義分割裝置都在本揭露實施例的保護範圍之內。

在一些實施例中，本揭露實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

本領域技術人員在考慮說明書及實踐這裡公開的發明後，將容易想到本揭露實施例的其它實施方案。本揭露實施例旨在涵蓋本揭露的任何變型、用途或者適應性變化，這些變型、用途或者適應性變化遵循本揭露實施例的一般性原理並包括本揭露實施例未公開的本技術領域中的公知常識或者慣用技術手段。說明書和實施例僅被視為示例性的，本揭露實施例的真正範圍和精神由下面的發明申請專利範圍指出。

以上所述僅為本揭露的可選實施例而已，並不用以限制本揭露實施例，凡在本揭露實施例的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本揭露實施例保護的範圍之內。

101,102,102-1,102-2,103,103-1,103-2,104,105,106:步驟 210:特徵提取模組 220:下文特徵提取模組 230:確定模組 240:語義圖像生成模組 310:圖像語義分割裝置 311:處理器 312:輸入裝置 313:輸出裝置 314:記憶體

Claims

一種圖像語義分割方法，包括：對獲取到的待處理圖像進行特徵提取，獲得第一特徵圖像；對所述第一特徵圖像同步提取多個範圍不同的上下文特徵，獲得多個第二特徵圖像，其中，範圍不同的上下文特徵提取是指間隔不同的像素數目進行的上下文特徵提取；至少根據所述多個第二特徵圖像，確定目標圖像，並將所述目標圖像作為新的所述第一特徵圖像再次同步提取多個範圍不同的上下文特徵；響應於對所述第一特徵圖像同步提取多個範圍不同的上下文特徵的次數達到目標次數，基於最後一次獲得的所述目標圖像，生成所述待處理圖像對應的語義圖像。
根據請求項1所述的方法，其中，所述對所述第一特徵圖像同步提取多個範圍不同的上下文特徵，獲得多個第二特徵圖像，包括：對所述第一特徵圖像分多個通道同步進行降維處理，獲得多個第三特徵圖像；以及對所述多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，獲得多個第二特徵圖像。
根據請求項2所述的方法，其中，所述對所述多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，獲得多個第二特徵圖像，包括：採用深度可分離卷積且卷積核對應不同空洞係數的空洞卷積，對所述多個第三特徵圖像中的至少兩個第三特徵圖像提取範圍不同的上下文特徵，獲得所述多個第二特徵圖像。
根據請求項1-3任一項所述的方法，其中，所述至少根據所述多個第二特徵圖像，確定目標圖像，包括：至少將所述多個第二特徵圖像進行融合，獲得第四特徵圖像；以及至少根據所述第四特徵圖像，確定所述目標圖像。
根據請求項4所述的方法，其中，所述至少將所述多個第二特徵圖像進行融合，獲得第四特徵圖像，包括：將所述多個第二特徵圖像進行疊加，得到所述第四特徵圖像；或者，對所述多個第二特徵圖像和多個第三特徵圖像中的至少一個第三特徵圖像進行疊加，得到所述第四特徵圖像。
根據請求項4所述的方法，其中，所述至少根據所述第四特徵圖像，確定所述目標圖像，包括：對所述第四特徵圖像進行上採樣，獲得所述目標圖像；或者，對所述第四特徵圖像進行子像素卷積，獲得所述目標圖像。
根據請求項4所述的方法，其中，所述方法還包括：對所述待處理圖像進行特徵提取和降維處理後，獲得第五特徵圖像；其中，所述第五特徵圖像對應的特徵提取的層數小於所述第一特徵圖像對應的特徵提取的層數；所述至少根據所述第四特徵圖像，確定所述目標圖像，包括：在所述次數小於所述目標次數的情況下，將所述第四特徵圖像和所述第五特徵圖像疊加後進行上採樣，獲得所述目標圖像；或者，在所述次數小於所述目標次數的情況下，對所述第四特徵圖像進行子像素卷積後得到的圖像與所述第五特徵圖像疊加，獲得所述目標圖像。
根據請求項1-3任一項所述的方法，其中，所述最後一次獲得的所述目標圖像對應的維度為目標維度；其中，所述目標維度是根據預設的所述語義圖像中所包括的物體類別的總數目確定的。
根據請求項1-3任一項所述的方法，其中，所述生成所述待處理圖像對應的語義圖像之後，所述方法還包括：根據所述語義圖像進行機器設備導航。
一種電腦可讀儲存介質，所述儲存介質儲存有電腦程式，所述電腦程式用於執行上述請求項1-9任一所述的圖像語義分割方法。
一種圖像語義分割裝置，包括：處理器；用於儲存所述處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體中儲存的可執行指令，實現請求項1-9中任一項所述的圖像語義分割方法。