TWI762375B

TWI762375B - 語意分割錯誤偵測系統

Info

Publication number: TWI762375B
Application number: TW110125211A
Authority: TW
Inventors: 李綱; 林宗郁
Original assignee: 國立臺灣大學
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2022-04-21
Also published as: TW202303439A

Abstract

一種語意分割錯誤偵測系統，係用於偵測一語意分割裝置對一原始圖像進行語意分割之分類錯誤，該語意分割錯誤偵測系統包含：一圖像生成裝置及一比較裝置，該比較裝置將該原始圖像與圖像生成裝置所生成的重構圖像進行比對，而據以輸出一錯誤標記圖。

Description

語意分割錯誤偵測系統

本發明相關於一種語意分割系統，特別是相關於一種語意分割錯誤偵測系統。

語意分割（Semantic Segmentation）又名圖像分割，不同於圖像分類（Image Classification），語意分割的任務是根據已標籤好的圖像物件，行人、車輛、路樹、天空等物件，針對圖像中每一個像素點進行分類，而非針對整張圖像進行分類。由於語意分割屬於像素級別（Pixel Level）的分類任務，因此相較於圖像分類，語意分割的處理更為棘手。

近年來，隨著人工智慧（Artificial Intelligence；AI）的高度發展，各行各業也都嘗試著將人工智慧加入他們的應用當中，無人載具的感知系統也不例外。語意分割便是其中一個研究人員廣泛研究的領域，也在無人載具應用上有著極高的辨識正確率。然而這些方法常常假設他們在實際應用時的環境跟訓練時是相似的，甚至是看過的。在現實世界中，要保證所有類別以及環境都在訓練時能訓練到幾乎是不能的，舉例來說：在自駕車的駕駛環境中，機器需要有著偶爾會看到沒看過的東西的準備，例如一些地面上的紙箱、掉落物、翻車的卡車、甚至成群的羊。然而，人工智慧常常最為人所詬病的就是其解釋性極其不足，在無人載具這類需要高度安全性以及可靠性的系統中，往往一些不知道原因的辨識錯誤都會造成嚴重危害。因此，讓人工智慧感知系統，尤其是安全至上的視覺辨識系統，具備能夠偵測預測錯誤（detect failures）、辨識異常物體（out-of-distribution case）的能力是至關重要的。

緣此，本發明的目的即在提供一種語意分割錯誤偵測系統，可偵測語意分割之分類錯誤。

本發明為解決習知技術之問題所採用之技術手段係提供一種語意分割錯誤偵測系統，係用於偵測一語意分割裝置對一原始圖像進行語意分割之分類錯誤，該語意分割錯誤偵測系統包含：一圖像生成裝置，係經配置而將該語意分割裝置對該原始圖像進行語意分割而產生一語意遮罩，而以該語意遮罩作為一條件生成式對抗網路的一約束條件，而以該條件生成式對抗網路之生成器生成一重構圖像；以及一比較裝置，連接於該圖像生成裝置，該比較裝置具有一特徵金字塔網路架構的比較網路，該特徵金字塔網路架構的比較網路具有成對的第一特徵擷取模組及第二特徵擷取模組，該比較裝置係藉由將該原始圖像輸入至該第一特徵擷取模組且將該重構圖像輸入至該第二特徵擷取模組，該第一特徵擷取模組對於該原始圖像以卷積處理式方式進行特徵擷取而輸出多數個不同尺度的原始圖像特徵圖，該第二特徵擷取模組以卷積處理方式對於該重構圖像進行特徵擷取而輸出多數個不同尺度的重構圖像特徵圖，多個該原始圖像特徵圖的尺度為各別對應於多數個不同尺度的該重構圖像特徵圖，並藉由該特徵金字塔網路架構以自小尺度至大尺度的順序將相同尺度的該原始圖像特徵圖及該重構圖像特徵圖進行反卷積處理而後再與相對應尺度的未經過反卷積的該原始圖像特徵圖及該重構圖像特徵圖予以相加，如此以自小尺度至大尺度的順序逐層進行處理後最終而得到與該原始圖像及該重構圖像具有相同尺度的一錯誤標記圖，其中該錯誤標記圖係含有關於該語意分割裝置對該原始圖像進行語意分割所得之個別像素分類的信心指數，該信心指數係代表該語意分割裝置對該原始圖像之個別像素分類的正確與否的信心強弱程度。

在本發明的一實施例中係提供一種語意分割錯誤偵測系統，更包含一分類裝置，連接於該比較裝置，該分類裝置係經配置而根據一分類閾值而將該錯誤標記圖的各個該信心指數進行二元分類，而得到一錯誤結果圖。

在本發明的一實施例中係提供一種語意分割錯誤偵測系統，其中該分類裝置係經配置而根據一設定風險值而藉由一選擇性分類演算法得出該分類閾值。

在本發明的一實施例中係提供一種語意分割錯誤偵測系統，其中該第一特徵擷取模組及該第二特徵擷取模組皆具有ResNet18網路架構。

在本發明的一實施例中係提供一種語意分割錯誤偵測系統，其中該條件生成式對抗網路之生成器為一空間適應去正規化生成器。

在本發明的一實施例中係提供一種語意分割錯誤偵測系統，更包含該語意分割裝置。

在本發明的一實施例中係提供一種語意分割錯誤偵測系統，其中該語意分割裝置具有一全卷積神經網路。

在本發明的一實施例中係提供一種之語意分割錯誤偵測系統，其中該語意分割裝置具有一諧波密集連接神經網路。

經由本發明所採用之技術手段，本發明的語意分割錯誤偵測系統以條件生成式對抗網路重構由語意分割裝置所分割出的語意圖，生成與原始圖像類似的圖像（重構圖像），再藉由比較原始圖像與重構圖像來偵測語意分割裝置的預測錯誤，以及辨識異常物體。

以下根據第1圖至第5圖，而說明本發明的實施方式。該說明並非為限制本發明的實施方式，而為本發明之實施例的一種。

如第1圖及第3圖所示，依據本發明的一實施例的一語意分割錯誤偵測系統100，係用於偵測一語意分割裝置1對一原始圖像I1進行語意分割之分類錯誤，該語意分割錯誤偵測系統100包含：一圖像生成裝置2及一比較裝置3。

如第1圖所示，該圖像生成裝置2係經配置而將該語意分割裝置1對該原始圖像I1進行語意分割而產生一語意遮罩，而以該語意遮罩作為一條件生成式對抗網路的一約束條件，而以該條件生成式對抗網路之生成器生成一重構圖像I2。

如第1圖及第3圖所示，該比較裝置3連接於該圖像生成裝置2，該比較裝置3具有一特徵金字塔網路架構的比較網路30，該特徵金字塔網路架構的比較網路30具有成對的第一特徵擷取模組31及第二特徵擷取模組32，該比較裝置3係藉由將該原始圖像I1輸入至該第一特徵擷取模組31且將該重構圖像I2輸入至該第二特徵擷取模組32，該第一特徵擷取模組31對於該原始圖像I1以卷積處理方式進行特徵擷取而輸出多數個不同尺度的原始圖像特徵圖，該第二特徵擷取模組32以卷積處理方式對於該重構圖像I2進行特徵擷取而輸出多數個不同尺度的重構圖像特徵圖，多個該原始圖像特徵圖的尺度為各別對應於多數個不同尺度的該重構圖像特徵圖，並藉由該特徵金字塔網路架構以自小尺度至大尺度的順序將相同尺度的該原始圖像特徵圖及該重構圖像特徵圖進行反卷積處理而後再與相對應尺度的未經過反卷積的該原始圖像特徵圖及該重構圖像特徵圖予以相加，如此以自小尺度至大尺度的順序逐層進行處理後最終而得到與該原始圖像I1及該重構圖像I2具有相同尺度的一錯誤標記圖M0，其中該錯誤標記圖M0係含有關於該語意分割裝置1對該原始圖像I1進行語意分割所得之個別像素分類的信心指數，該信心指數係代表該語意分割裝置1對該原始圖像I1之個別像素分類的正確與否的信心強弱程度。

藉由上述結構，本發明的語意分割錯誤偵測系統100以條件生成式對抗網路重構由語意分割裝置1所分割出的語意圖，生成與原始圖像I1類似的圖像（重構圖像I2），再藉由比較原始圖像I1與重構圖像I2來偵測語意分割裝置1的預測錯誤，以及辨識異常物體。

具體而言，在該圖像生成裝置2中，條件生成式對抗網路（conditional Generative Adversarial Network；cGAN）為生成式對抗網路（generative adversarial network；GAN）的一種變形。如第2圖所示，在生成式對抗網路的架構中，主要包括有一生成器（generator）及一判別器（discriminator）。該生成器的任務是不斷生成相似於真實圖像的虛假圖像，該判別器則不斷從該生成器接收該虛假圖像，並判斷該虛假圖像的真偽。然後，該生成器通過該判別器之判斷而不斷改進，以盡可能使所生成出的虛假圖像能夠讓該判別器真偽難辨，如此便可以直接將噪音向量輸入訓練完的生成器，而生成出高擬真度的圖像。但生成式對抗網路仍有兩大缺點，一是模型訓練的不收斂問題，當生成器與判別器都由神經網路建構時，沒有達到均衡的情況下，它們有可能照著各自的策略進行調整。第二點是模型過於自由不可控，生成式對抗網路不需要求一個假設的數據分佈，而是使用一種分佈直接進行採樣，然而卻會造成在圖像擁有較多像素的情況下生成的圖像太過不可控。

該條件生成式對抗網路主要目的是為了解決該生成式對抗網路在圖像擁有較多像素的情況下生成的圖像太過不可控的問題。解決這個問題的一個方式就是讓該生成式對抗網路多幾個約束條件，使用額外訊息來指導資料生成的過程，這些條件變數可以基於多種資訊。在本發明中則是基於該語意分割裝置1將原始圖像I1分割為許多不同區域的語意遮罩（semantic masks）作為約束條件，輸入該條件生成式對抗網路。

較佳地，在本實施例中，該條件生成式對抗網路之生成器為一空間適應去正規化（Spatially-adaptive denormalization；SPADE）生成器。不同於傳統的生成式對抗網路，簡單的將卷積層、歸一層、以及啟動函數堆疊在一起形成生成模型，空間適應去正規化生成器使用了一種新的歸一化層，稱為空間自適應歸一化層。此創新的結構對輸入的語意遮罩進行處理，學出兩組轉換參數，使語意訊息得以有效保存並貫穿傳遞整個生成器，從而生成更真實的該重構圖像I2。

如第1圖及第3圖所示，該比較裝置3所使用的特徵金字塔網路架構的比較網路30是一種新型的比較網路，以下稱為SiameseFPN比較網路。SiameseFPN比較網路是一個特徵金字塔網路架構的孿生神經網路（Siamese Neuron Network），在特徵提取階段使用ResNet18網路架構作為特徵提取的骨幹，分別對該原始圖像I1以及該重構圖像I2進行特徵提取，接著在每一次的解碼中結合先前提取的不同尺度的特徵圖，亦即將編碼器以及解碼器相同大小的特徵圖結合，再放大之後再與同大小的特徵圖結合，最後的圖像會為每個像素輸出一個0到1的值，這個值代表著對於此像素分類的信心指數，信心指數越高在該錯誤標記圖M0上的顏色越淺，該比較裝置3覺得此像素的分類結果正確，反之會越深。

具體而言，如第3圖所示，SiameseFPN比較網路的作用在於將該原始圖像I1及該重構圖像I2作為輸入，並輸出標記錯誤區域的錯誤圖（錯誤標記圖M0）。在本實施例中，該第一特徵擷取模組31及該第二特徵擷取模組32皆具有ResNet18網路架構，分別對兩張輸入圖像進行特徵擷取，並輸出複數張特徵圖，特徵圖在第3圖中以立方體所表示。第3圖中標記為編碼的梯形方塊代表卷積層，其接收上一層之特徵圖作為輸入，並輸出含有更豐富的語意資訊之特徵圖。第3圖中標記為解碼的梯形方塊為反卷積層，其接收上一層之特徵圖作為輸入，並輸出還原至相對應大小之特徵圖。第3圖中以一點鏈線框起的部分為特徵金字塔網路（Feature Pyramid Network；FPN）架構，第4圖則為特徵金字塔網路架構的示意圖。該特徵金字塔網路架構將ResNet18網路架構後面幾層的經過卷積處理的特徵圖與經過反卷積處理後的相對應大小的特徵圖相加，最終得到該錯誤標記圖M0。

藉由SiameseFPN比較網路，能夠對該原始圖像I1及該重構圖像I2分別進行特徵擷取，並在不同的解碼層將低層與高層的特徵結合，達到結合豐富的語意資訊以及豐富的空間資訊的效果，而能更精確的比較兩圖像中不同尺度的物體差別。另一方面，SiameseFPN比較網路的運算速度快，在該第一特徵擷取模組31及該第二特徵擷取模組32為ResNet18網路架構的情況下，該比較裝置3的整體運算時間可達到0.008s，也就是125FPS，如此便能夠使整個該語意分割錯誤偵測系統100在運行時達到30FPS以上的實時運算速度。

如第5圖所示，依據本發明的另一實施例的語意分割錯誤偵測系統100a，更包含一分類裝置4，連接於該比較裝置3，該分類裝置4係經配置而根據一分類閾值而將該錯誤標記圖M0的各個該信心指數進行二元分類，而得到一錯誤結果圖M1。藉由該分類裝置4的設置，該錯誤標記圖M0的代表信心強弱程度的該信心指數（0~1）能夠藉由該分類閾值而分類（例如：信心指數大於分類閾值則分類為正確，信心指數不大於分類閾值則分類為錯誤），以更為明確地判斷個別像素分類是「正確」或「錯誤」。

較佳地，該分類裝置4係經配置而根據一設定風險值R而藉由一選擇性分類演算法得出該分類閾值。選擇性分類的目標是要輸出具有足夠低風險和足夠高覆蓋率選擇性分類器（selective classifier），選擇性分類器會在分類時將選擇函數低於閾值的樣本捨棄，只分類高於閾值的樣本，以保證最終的輸出風險值在一定的範圍內，且有最高的覆蓋率。但風險與覆蓋率是互相取捨的，風險越低，可能捨棄的樣本就越多，覆蓋率自然就低。根據此概念，該分類裝置4經配置而根據該設定風險值R（例如：2%，即，只允許2%分類錯誤），藉此學習出一選擇性分類器，並得出能夠滿足此條件且達到最佳覆蓋率的該分類閾值。

如第1圖及第5圖所示，在本發明的實施例中，該語意分割錯誤偵測系統100、100a更包括該語意分割裝置1。較佳地，該語意分割裝置1具有一全卷積神經網路（Fully Convolution Neural Network；FCN），或者該語意分割裝置1具有一諧波密集連接神經網路（Harmonic DenseNet；HarDNet）。

全卷積神經網路是將卷積神經網路中的全連接層替換成卷積層，如此一來，原先的輸出就會從一維的類別機率變為二維特徵圖，此特徵圖再接歸一化指數函數（SoftMax函數）獲取圖像中每個像素點所屬類別的機率，從而解決了卷積神經網路於圖像分割任務中的問題。該語意分割裝置1使用全卷積神經網路的主要原因有二個，其一是全卷積神經網路是語意分割基於深度學習的經典方法，其二是全卷積神經網路的可擴展性高，簡單的增加或減少一些神經網路層便能輕易的更改複雜度。因此，在該語意分割裝置1的其中一種實施方式中，選擇使用全卷積神經網路（例：「FCN-8s」）。諧波密集連接神經網路是在2019年所提出的一種新穎的神經網路，其藉由減少密集連接神經網路（DenseNet）中神經網路層的捷徑，來降低資料搬運次數、加快運算時間，並同時改變密集連接神經網路每一層的權重數，來增加運算量、擷取更多的特徵，藉此維持準確率。藉由使用全卷積神經網路或諧波密集連接神經網路作為該語意分割裝置1，並配合本發明的圖像生成裝置2、比較裝置3、及分類裝置4，可以有效地使整個該語意分割錯誤偵測系統100、100a維持在實時的推論速度（30FPS以上）。

以上之敘述以及說明僅為本發明之較佳實施例之說明，對於此項技術具有通常知識者當可依據以下所界定申請專利範圍以及上述之說明而作其他之修改，惟此些修改仍應是為本發明之發明精神而在本發明之權利範圍中。

100:語意分割錯誤偵測系統 100a:語意分割錯誤偵測系統 1:語意分割裝置 2:圖像生成裝置 3:比較裝置 30:特徵金字塔網路架構的比較網路 31:第一特徵擷取模組 32:第二特徵擷取模組 4:分類裝置 I1:原始圖像 I2:重構圖像 M0:錯誤標記圖 M1:錯誤結果圖 R:設定風險值

［第1圖］為顯示根據本發明的一實施例的語意分割錯誤偵測系統的方塊示意圖；［第2圖］為顯示一生成式對抗網路的示意圖；［第3圖］為顯示根據本發明的一實施例的語意分割錯誤偵測系統的特徵金字塔網路架構的比較網路的示意圖；［第4圖］為顯示一特徵金字塔網路架構的示意圖；［第5圖］為顯示根據本發明的另一實施例的語意分割錯誤偵測系統的方塊示意圖。

100:語意分割錯誤偵測系統

1:語意分割裝置

2:圖像生成裝置

3:比較裝置

I1:原始圖像

I2:重構圖像

M0:錯誤標記圖

Claims

一種語意分割錯誤偵測系統，係用於偵測一語意分割裝置對一原始圖像進行語意分割之分類錯誤，該語意分割錯誤偵測系統包含：一圖像生成裝置，係經配置而將該語意分割裝置對該原始圖像進行語意分割而產生一語意遮罩，而以該語意遮罩作為一條件生成式對抗網路的一約束條件，而以該條件生成式對抗網路之生成器生成一重構圖像；以及一比較裝置，連接於該圖像生成裝置，該比較裝置具有一特徵金字塔網路架構的比較網路，該特徵金字塔網路架構的比較網路具有成對的第一特徵擷取模組及第二特徵擷取模組，該比較裝置係藉由將該原始圖像輸入至該第一特徵擷取模組且將該重構圖像輸入至該第二特徵擷取模組，該第一特徵擷取模組對於該原始圖像以卷積處理方式進行特徵擷取而輸出多數個不同尺度的原始圖像特徵圖，該第二特徵擷取模組以卷積處理方式對於該重構圖像進行特徵擷取而輸出多數個不同尺度的重構圖像特徵圖，多個該原始圖像特徵圖的尺度為各別對應於多數個不同尺度的該重構圖像特徵圖，並藉由該特徵金字塔網路架構以自小尺度至大尺度的順序將相同尺度的該原始圖像特徵圖及該重構圖像特徵圖進行反卷積處理而後再與相對應尺度的未經過反卷積的該原始圖像特徵圖及該重構圖像特徵圖予以相加，如此以自小尺度至大尺度的順序逐層進行處理後最終而得到與該原始圖像及該重構圖像具有相同尺度的一錯誤標記圖，其中該錯誤標記圖係含有關於該語意分割裝置對該原始圖像進行語意分割所得之個別像素分類的信心指數，該信心指數係代表該語意分割裝置對該原始圖像之個別像素分類的正確與否的信心強弱程度。
如請求項1所述之語意分割錯誤偵測系統，更包含一分類裝置，連接於該比較裝置，該分類裝置係經配置而根據一分類閾值而將該錯誤標記圖的各個該信心指數進行二元分類，而得到一錯誤結果圖。
如請求項2所述之語意分割錯誤偵測系統，其中該分類裝置係經配置而根據一設定風險值而藉由一選擇性分類演算法得出該分類閾值。
如請求項1所述之語意分割錯誤偵測系統，其中該第一特徵擷取模組及該第二特徵擷取模組皆具有ResNet18網路架構。
如請求項1所述之語意分割錯誤偵測系統，其中該條件生成式對抗網路之生成器為一空間適應去正規化生成器。
如請求項1所述之語意分割錯誤偵測系統，更包含該語意分割裝置。
如請求項6所述之語意分割錯誤偵測系統，其中該語意分割裝置具有一全卷積神經網路。
如請求項6所述之語意分割錯誤偵測系統，其中該語意分割裝置具有一諧波密集連接神經網路。