TWI805869B

TWI805869B - 計算場景的主要分類的系統及方法

Info

Publication number: TWI805869B
Application number: TW108141924A
Authority: TW
Inventors: 哈米莫斯塔法伊爾; 劉青峰; 拉瑪麥斯理凡達利; 安德莉亞姜; 裵東運; 金泰義; 正元李; 劉在元; 麥宇倫威傑
Original assignee: 南韓商三星電子股份有限公司
Priority date: 2018-12-21
Filing date: 2019-11-19
Publication date: 2023-06-21
Also published as: US20230360396A1; US20230123254A1; US10929665B2; CN111353498A; US11532154B2; TW202032387A; US11847826B2; US20210174082A1; KR20200078314A; US20200202128A1

Abstract

一種計算場景的主要類別的方法包括：接收場景的輸入影像；產生所述輸入影像的分割圖，所述分割圖包括多個畫素，所述畫素中的每一者被以多個類別中的對應的類別進行標記；基於所述分割圖計算多個面積比率，所述面積比率中的每一者對應於所述分割圖的所述多個類別中的不同的類別；基於所述面積比率，應用推斷來產生多個分級標籤；以及基於所述多個分級標籤來輸出所述場景的所偵測主要類別。

Description

計算場景的主要分類的系統及方法

本揭露的實施例的各個態樣是有關於電腦視覺領域，具體而言包括一種藉由語意分割來提供主要場景分類的系統及方法。

場景分類（scene classification）是指感知自然場景並理解所述場景的內容的過程。人們可用眼睛感知場景並辨識所述場景的突出態樣（例如，在地標或觀光景點前面的人）。在電腦視覺的上下文中，場景分類可包括使用相機拍攝場景的一或多個影像並辨識場景中的要素。語意分割（semantic segmentation）是指辨識影像的與物件的特定類別（例如，人、建築物及樹木）對應的部分或區的過程。

本揭露的實施例的各個態樣是有關於實行場景的影像的主要場景分類。主要場景分類包括辨識場景的一或多個主體。本揭露的實施例的一些態樣利用語意分割來實行主要場景分類。

根據一個實施例，一種計算場景的主要類別的方法包括：接收場景的輸入影像；產生所述輸入影像的分割圖，所述分割圖包括多個畫素，所述畫素中的每一者被以多個類別中的對應的類別進行標記；基於所述分割圖計算多個面積比率，所述面積比率中的每一者對應於所述分割圖的所述多個類別中的不同的類別；基於所述面積比率，應用推斷來產生多個分級標籤；以及基於所述多個分級標籤來輸出所述場景的所偵測主要類別。

所述方法可更包括：基於所述多個面積比率的最高分級標籤來確定所述所偵測主要類別。

所述方法可更包括：使用多孔空間金字塔池化模組接收多孔卷積層的輸出，且所述分割圖可基於所述多孔空間金字塔池化模組的輸出而計算出。

所述計算所述面積比率可包括：藉由將所述分割圖的每一位置乘以多個空間重要性權重中的對應的一個空間重要性權重來對所述分割圖進行空間加權；以及對經空間加權的所述分割圖進行求和，以計算所述多個類別中的每一類別的空間加權面積比率，其中所述空間重要性權重是在與所述輸入影像的中間三分之一對應的區中具有最高權重的高斯濾波器的加權組合。

所述計算所述面積比率可更包括：藉由將所述多個類別中的每一類別的所述面積比率乘以多個類別重要性權重中的對應的類別重要性權重來對所述面積比率進行類別加權，且其中所述多個類別重要性權重可包括具有較背景類別群組高的權重的前景類別群組。

所述前景類別群組可包括文字類別及人類別，且所述背景類別群組可包括天空類別及樹木類別。

所述方法可更包括：接收所述輸入影像之前的輸入影像序列；對所述輸入影像序列中的每一影像的每一畫素計算柔性最大值；對所述輸入影像序列中的每一影像中的每一畫素實行時間濾波，以計算經濾波柔性最大值量；以及計算所述經濾波柔性最大值量中的最大值，以計算所述分割圖。

所述時間濾波可使用三重指數平滑濾波器來實行。

所述方法可更包括：為自所述輸入影像序列計算出的分割圖序列產生加權面積比率序列；以及對所述加權面積比率序列實行時間濾波，其中所述多個分級標籤是基於所述加權面積比率序列而計算出。

所述所偵測主要類別可藉由以下方式加以選擇：評估當先前所偵測主要類別是所述多個分級標籤中的第二最高分級標籤時且當最高分級標籤與所述第二最高分級標籤之間的加權面積比率的差異小於臨限值時滿足的滯後條件；因應於確定出滿足所述滯後條件，維持所述先前所偵測主要類別為所述主要類別；以及因應於確定出不滿足所述滯後條件，將所述最高分級標籤設定為所述所偵測主要類別。

所述分割圖的每一畫素可與一或多個對應的置信度值相關聯，所述一或多個對應的置信度值中的每一者對應於所述多個類別中的不同的一個類別，且所述方法可更包括藉由自所述分割圖的以下位置選擇值來對所述分割圖進行閾限：所述位置使得置信度圖的對應的位置的置信度值超過與所述分割圖的所述位置的類別對應的臨限值。

所述分割圖可自由所述卷積神經網路輸出的多個分數對數計算出，所述分數對數包括空間維度及特徵維度，且所述一或多個置信度值形成可藉由以下方式而產生的置信度圖：沿所述分數對數的所述特徵維度計算柔性最大值；以及沿所述分數對數的所述特徵維度計算所述柔性最大值的最大值，以計算與所述置信度圖的每一位置對應的所述置信度值。

所述卷積神經網路可包括被配置成計算所述輸入影像的類別的全域分類的全域分類頭（global classification head），且所述卷積神經網路可使用損失函數進行訓練，所述損失函數包括以下的加權和：與所述所偵測主要類別相關聯的第一損失；和與由所述全域分類頭計算的所述全域分類相關聯的第二損失。

所述全域分類頭可被配置成自所述卷積神經網路的輸出接收輸入。

所述方法可更包括使用被配置成接收多孔卷積層的輸出的多孔空間金字塔池化模組，其中所述分割圖可基於所述多孔空間金字塔池化模組的輸出而計算出，且其中所述全域分類頭可被配置成自所述多孔空間金字塔池化模組的所述輸出接收輸入。

所述卷積神經網路可被訓練成使用包括文字影像及對應的標籤的訓練資料來辨認所述多個類別中的文字類別，且所述對應的標籤可包括環繞文字的邊界框。

所述多個類別中的類別可包括多個子類別，且所述方法可更包括藉由以下方式對所述分割圖中與所述類別對應的區指配子類別：偵測在與所述類別對應的所述區中所述輸入影像的所述畫素中的每一者的顏色；基於所述畫素的所述顏色而對所述畫素中的每一者指配所述多個子類別中的一個子類別；以及基於在被指配給所述區的所述畫素的所述子類別中進行的多數決選來對所述區指配所述子類別。

所述類別可為水且所述子類別可包括：低飽和度水；綠色水；藍色水；以及其他水。

所述方法可更包括：辨識所述場景的所述輸入影像的與所述所偵測主要類別對應的部分；以及根據所述場景的所述輸入影像的所辨識出的所述部分來配置數位相機模組的相機設定值。

所述數位相機模組可為行動裝置的組件。

根據一個實施例，一種系統包括：處理器；以及記憶體，儲存指令，所述指令在由所述處理器執行時使所述處理器藉由以下方式計算場景的主要類別：接收場景的輸入影像；產生所述輸入影像的分割圖，所述分割圖包括多個畫素，所述畫素中的每一者被以多個類別中的對應的類別進行標記；基於所述分割圖計算多個面積比率，所述面積比率中的每一者對應於所述分割圖的所述多個類別中的不同的類別；基於所述面積比率，應用推斷來產生多個分級標籤；以及基於所述多個分級標籤來輸出所述場景的所偵測主要類別。

所述記憶體可更儲存用於藉由以下方式計算所述面積比率的指令：藉由將所述分割圖的每一位置乘以多個空間重要性權重中的對應的一個空間重要性權重來對所述分割圖進行空間加權；以及對經空間加權的所述分割圖進行求和，以計算所述多個類別中的每一類別的空間加權面積比率，其中所述空間重要性權重可為在與所述輸入影像的中間三分之一對應的區中具有最高權重的高斯濾波器的加權組合。

所述記憶體可更儲存以下指令：所述指令用於藉由將所述多個類別中的每一類別的所述面積比率乘以多個類別重要性權重中的對應的類別重要性權重而對所述面積比率進行類別加權來計算所述面積比率，且其中所述多個類別重要性權重可包括具有較背景類別群組高的權重的前景類別群組。

所述分割圖的每一畫素可與一或多個對應的置信度值相關聯，所述一或多個對應的置信度值中的每一者對應於所述多個類別中的不同的一個類別，且其中所述記憶體可更儲存用於藉由自所述分割圖的以下位置選擇值來對所述分割圖進行閾限的指令：所述位置使得置信度圖中的對應的位置的置信度值超過與所述分割圖的所述位置的類別對應的臨限值。

所述系統可更包括數位相機模組，其中所述記憶體更儲存在由所述處理器執行時使所述處理器進行以下操作的指令：辨識所述場景的所述輸入影像的與所述所偵測主要類別對應的部分；以及根據所述場景的所述輸入影像的所辨識出的所述部分來配置所述數位相機模組的相機設定值。

在以下詳細說明中，以例示方式僅示出並闡述本揭露的某些示例性實施例。熟習此項技術者將知，本揭露可以許多不同形式實施且不應被視作僅限於本文中所陳述的實施例。

本揭露的實施例的各個態樣是有關於實行場景的影像的主要場景分類。主要場景分類包括辨識場景的一或多個主體。本揭露的實施例的一些態樣利用語意分割來實行主要場景分類。舉例而言，本揭露的實施例的一些態樣是有關於對在場景中偵測到的物件指配重要性權重，其中重要性權重可基於物件的類別（例如，將物件分類成人、狗、貓、樹木、瀑布等）、物件在影像內的位置及物件在影像中的面積比率而計算出。

本揭露的實施例的一些應用是有關於與例如獨立的數位相機或被整合至智慧型電話中的數位相機一起使用。圖1是根據本揭露一些實施例的數位相機系統100的實例的方塊圖，數位相機系統100可為例如獨立的數位相機或智慧型電話的組件。為清晰起見，數位相機系統100一般包括數位相機模組110，數位相機模組110包括安裝於影像感測器114（例如，互補金屬氧化物半導體（complementary metal oxide semiconductor，CMOS）影像感測器）前面的鏡頭112。數位相機系統100可更包括被配置成接收由數位相機模組110拍攝的資料（例如，場景的影像資料）的處理器（或影像訊號處理器（image signal processor，ISP））130且可將接收到的資料儲存於記憶體150中。記憶體150可包括動態隨機存取記憶體（dynamic random access memory，DRAM）及/或永久記憶體（例如，快閃記憶體）。在一些情況下，影像訊號處理器被整合至處理器130中。在一些實施例中，數位相機系統100更包括協處理器（co-processor）170，例如現場可程式化閘陣列（field programmable gate array，FPGA）、圖形處理單元（graphical processing unit，GPU）、向量處理器（vector processor）或神經處理單元。在一些實施例中，協處理器170與處理器130整合於一起（例如，位於同一晶粒上）。

在許多情況下，當操作數位相機時，數位相機模組110持續拍攝場景的影像。舉例而言，數位相機系統100可在顯示裝置190上顯示連續拍攝的影像，以基於當前拍攝設定值（例如聚焦、光圈、快門速度、感測器增益（例如，感光度（ISO））、白平衡等）而藉由鏡頭向使用者（例如，攝影者）提供景物的即時預覽。在一些情況下，使用者可使用數位相機系統的控制元件來改變拍攝設定值，數位相機系統的控制元件可包括相機上的實體按鈕及標度盤（dial）或軟控制元件（例如，在觸控式顯示裝置190上顯示的控制元件）。作為一個實例，使用者可藉由對顯示使用者希望相機聚焦的場景的物件部分的顯示器的一部分進行觸控來調整相機的聚焦。一般而言，使用者亦可藉由激活「快門釋放」或「記錄」控制元件（例如，硬體按鈕或螢幕上顯示的軟體按鈕）來觸發對例如單個影像、影像叢發或視訊的記錄。

本揭露的實施例的一些態樣是有關於在觸發對影像的記錄之前，借助對連續拍攝的影像實行的主要場景分類來實行數位相機系統100的拍攝設定值的自動調整（例如，自動白平衡、自動曝光及自動聚焦，亦被稱為「3A」）。在一些實施例中，場景的被辨識的主要部分被供應作為處理器的唯一輸入來用於計算拍攝設定值。在一些實施例中，主要場景分類的一些部分或所有部分由協處理器170實行。

舉例而言，數位相機模組110可拍攝包括位於前景中及位於圖框中央的人的場景的視圖，其中人站在建築物的陰影中，而背景包括藍天及陽光明媚的草坪。因此，在本揭露的一個實施例中，對接收到的影像自動實行主要場景分類，以確定人是欲拍攝的影像的主要類別或「主體」。在確定出人是主要類別之後，處理器130可自動調整相機設定值，包括白平衡、曝光及聚焦，以針對場景的主體來對拍攝設定值進行微調（例如，針對陰影中主體的冷色溫而並非針對背景的暖色溫來調整白平衡、藉由增大光圈或曝光時間來增加曝光以解決陰影的黑暗，以及將聚焦設定在人上）。

可供比較的影像分類技術一般無法找到人會感知到的主要場景，此乃因不具有足夠大且經標記的資料集來訓練可對使用者一般遇到的各種各樣的主體進行分類的影像分類器。

因此，本揭露的實施例的各個態樣是有關於實行輸入影像的自動主要場景分類的系統及方法。更詳細而言，本揭露的實施例的各個態樣是有關於自動分析輸入影像，以確定輸入影像中與場景的「主要類別」或「主體」對應的部分或區，如通常由觀看場景的人所辨認的部分或區。本揭露的實施例的一些態樣是有關於在實行主要場景分類的過程中使用語意分割。

本揭露的實施例的一些態樣是有關於使用每一類別的加權面積比率，而並非使用分類模型的柔性最大值輸出。更詳細而言，使用具有最大面積比率的類別（例如，構成影像的最大部分的類別）一般無法提供通常會被人們辨識為場景的主要類別或主體的內容。此乃因背景類別（例如天空或沙灘或道路）在影像中常常具有最大的面積。因此，本發明揭露的一些實施例是有關於可被組合用於辨識主要類別的一或多種技術。

在可攜式裝置（例如智慧型電話及獨立的數位相機）中，例如能量消耗及重量（例如，電池大小）等考量因素會限制可供用於對影像實行主要場景分類的計算能力（例如，處理器的時脈速度及處理核的數目）及記憶體的數量。由此，本揭露的實施例的一些態樣是有關於降低主要類別計算的複雜度，以提供一種可在中間層行動處理器上足夠快地運行的系統，以例如提供對拍攝設定值的即時調整。在一些實施例中，系統以每秒至少10個圖框（或至少10赫茲）的速率運行。在本發明的一些實施例中，系統以每秒約14個圖框（約14赫茲）的速率運行。然而，本發明的實施例並非僅限於此，且系統的圖框速率或主要類別計算的執行時間可取決於以下因素：基礎硬體的計算能力、所用處理器的類型、及代碼多執行緒（multi-threading）的程度。

圖2是根據本揭露一個實施例的計算場景的分割圖的方法的流程圖。以下針對圖2所示方法200闡述的各種操作可由執行指令（例如，儲存於記憶體150中的指令）的處理器130及/或協處理器170執行，或者可整合至處理器130及/或協處理器170的電路中（例如，在現場可程式化閘陣列的情形中由位檔案進行程式化，或者在應用專用積體電路（application specific integrated circuit，ASIC）的情形中直接實施）。

圖3是根據本揭露一個實施例的被配置成對在影像輸入的單個圖框中所繪示的場景進行分類的主要場景分類器300的架構的方塊圖。參照圖3，輸入影像302（例如，由數位相機模組拍攝的影像）被供應至卷積神經網路310，以計算多個特徵。

本揭露的實施例的一個態樣是有關於使用低解析度影像作為主要場景分類系統的輸入。因此，可在210處對由數位相機模組110拍攝的影像進行大小調整，以產生具有以畫素為單位的工作大小為

的工作影像。圖3中所示的示例性輸入影像302的以畫素為單位的大小為320×240。在本揭露的各種實施例中，工作影像的尺寸

及

取決於一或多個因素。第一個因素包括較小影像的計算效率與較大工作大小的較高分割精度之間的折衷。第二個因素包括在以下更詳細地闡述的卷積神經網路310的輸入裁剪大小（input crop size），其中卷積神經網路310的工作大小與接受域（receptive field）的組合會影響網路的效能。第三個因素包括數位相機模組110的輸出大小，其中數位相機模組110可被配置成輸出各種大小中的一種大小的資料，使得可省略單獨的大小調整操作，進而進一步降低處理器130及/或協處理器170上的計算負荷。另一因素是計算硬體（例如，處理器130及/或協處理器170），其中硬體的直接輸出大小與資料的工作大小之間的匹配可降低計算成本（例如，可將工作大小選擇成使得向量化操作處於處理器130及/或協處理器170各自的向量暫存器的大小內）。在圖3中所示的示例性實施例中，輸入影像302具有320畫素乘240畫素（320×240）的大小。

在220處，卷積神經網路310自工作影像計算特徵。在本揭露的一些實施例中，使用緊致網路（compact network）實行語意分割，其中緊致模型適於在可攜式裝置上實行計算（例如推斷）（例如，適於在可攜式裝置中通常可具有的有限硬體上執行）。

因此，在本揭露的一些實施例中，使用行動網路V2（MobileNet V2）的修改版本（參見例如，桑德勒（Sandler）、馬克（Mark）等人，「行動網路V2：反向殘差及線性瓶頸（MobileNetV2: Inverted Residuals and Linear Bottlenecks）」，IEEE 電腦視覺及圖案辨認會議錄（ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition ），2018）作為骨幹自輸入影像（工作影像）提取特徵。與行動網路V2相似的神經網路架構被設計成在例如智慧型電話及平板電腦等行動裝置上可具有的受限計算資源上高效地運作。

在一些實施例中，卷積神經網路310的最末三層在每次跨越2個卷積之後皆被具有多個膨脹速率的多孔卷積取代，以增大接受域且在230處計算具有規定輸出大小

的所產生特徵圖。在圖3所示特定實施例中，卷積神經網路310包括四個層310A、310B、310C及310D，其中層310B、310C及310D實施具有各種膨脹速率的多孔卷積。在一個實施例中，層310A具有為1的膨脹速率，層310B具有為2的膨脹速率，層310C具有為4的膨脹速率，且層310D具有為8的膨脹速率，且其中層310A、310B、310C及310D的輸出分別具有80×60×24、40×30×32、20×15×96及20×15×320的大小，以產生基於多孔卷積的全域特徵圖312（例如，大小為20×15×256）。然而，本揭露的實施例並非僅限於此且並非僅限於特定數目的層及/或具有特定大小的層。20×15（空間維度）乘256個特徵的輸出大小較320×240的輸入大小小十六倍。

亦在小的卷積層處（例如，具有為1的膨脹速率的層310A的輸出處）自卷積神經網路310提取額外的小尺度特徵314，可對全域特徵圖312與小尺度特徵314進行級聯，且可將1×1卷積應用於經級聯的特徵，以自語意分割網路311產生分數對數316（是指由分類模型產生的原始、非歸一化預測向量）。參見例如，陳良傑（Chen, Liang-Chieh）等人，「重新思考用於語意影像分割的多孔卷積（Rethinking Atrous Convolution for Semantic Image Segmentation）」，arXiv 預印本 arXiv （ arXiv preprint arXiv ）： 1706.05587 （ 2017 ）。在圖3中所示的實施例中，分數對數316具有20×15×155的大小。

在240處，主要場景分類器自多孔輸出（例如，分數對數316）計算大小為

的分割圖320。與以上針對工作影像的工作大小相似地，輸出大小

及

亦可藉由考量計算效率來確定，其中使用MobileNet V2的輸出大小而並非使用原始影像輸入大小。在圖3中所示的實施例中，分割圖320具有20×15的空間大小。如圖3中所示，分割圖以對應的類別對沿輸出空間維度的畫素中的每一畫素進行標記（例如，不同的類別由與人、草、水及天空對應的不同顏色或陰影來表示）。

在250處，推斷模組330使用分割圖320、與各種類別相關聯的重要性權重以及物件在影像內的位置來計算類別得分340。接著在260處，使用所計算的類別得分340來辨識影像中的主要類別（或「場景」）。在本揭露的一些實驗性實施例中，目標場景類別是花、食物、天空、草、沙灘、水、樹、人、建築物、文字、貨車、摩托車、公共汽車、小汽車、狗及貓。然而，本揭露的實施例並非僅限於此，且本揭露的實施例可與更大數目的類別及/或不同的類別集合一起使用。

圖4是根據本揭露一個實施例的對分割圖實行推斷以計算類別得分的方法250的流程圖。本揭露的實施例的一些態樣是有關於在以在分割網路的輸出（分割網路的硬輸出）處辨識出的類別對畫素進行標記之後，使用面積比率來確定場景的主要類別。

另一態樣是有關於根據類別重要性指配的權重。舉例而言，即使相較於影像中與建築物對應的面積或部分，影像中與人對應的面積或部分小，站在建築物前面的人亦將具有較建築物高的重要性。另一方面，若建築物處於影像的中央，則建築物可具有較背景中的天空高的重要性。第三個態樣是有關於時間濾波，所述時間濾波對跨越圖框的結果進行平滑並處置接收到的相機影像中的顫動（jitter）。在一些實施例中，對所計算的面積比率實行時間濾波且與以上其他態樣進行組合，以計算最終修改面積比率。在此種實施例中，主要類別是具有最大修改面積比率的類別。

在252處，推斷模組330應用空間重要性權重

來增強分割圖

320的中央區的重要性，其中二進制運算符

表示逐要素乘法（element-wise multiplication）

舉例而言，可基於與類別

對應的單獨的分割圖

來為

個類別中的每一類別

（或出現在分割圖中的類別）計算單獨的加權圖

，其中：

接著可藉由對

中的所有的值進行求和（例如，

）來計算空間加權面積比率。

空間重要性權重是基於影像中感興趣的區的重要性來設定，影像中感興趣的區的重要性是自所觀察到的人們傾向關注影像的特定區的趨勢導出的。

對低解析度分割圖320應用空間權重。對每一畫素指配由空間濾波器

提供的權重。類別的面積是由此類別索引標記的區中所有畫素（例如，由此類別標記的所有畫素）的權重的和。由此類別索引標記的畫素是藉由在此畫素處找到具有最大軟輸出機率的類別而確定出，其中軟輸出由分割圖320中的網路遞送。

使用空間濾波器

對感興趣的區賦予重要性，空間濾波器

被作為多個高斯濾波器

的加權組合而導出：

對均值

、方差、高斯濾波器的大小以及用於對各別濾波器進行組合的權重

進行的微調是由人類觀看影像時的自然傾向所驅動的，有時在攝影中被稱為「三分定律（rule of thirds）」。具體而言，如圖5A中所示，將大小為

的中央高斯濾波器510加至加權象限濾波器520及側向濾波器530。圖5B示出圖5A中所示的各別濾波器的加權組合，其中濾波器550表示象限濾波器520的一些組合，且濾波器560表示濾波器550與側向濾波器530的組合。圖5C示出對圖5A及圖5B中所示的濾波器進行組合而得到的空間濾波器570，且是對由「三分定律」支配的區賦予重要性的平滑濾波器，其中在與輸入影像302的中間三分之一對應的區中具有最高權重。

對於大小為20×15的分割圖，所使用的各別濾波器的參數在表1中提供。（然而，本揭露的實施例並非僅限於此且可使用不同的均值、標準差及濾波器權重值）。所得濾波器

的權重在圖5D中示出。表 1 ：構成空間濾波器

的高斯濾波器的參數。

濾波器類型	有效濾波器大小	標準差	濾波器權重
象限濾波器1~2
象限濾波器3~4
側向濾波器1~2
側向濾波器3~4
中央濾波器

在一些實施例中，在252處不再應用空間權重。

在254處，推斷模組330基於254的輸入（例如，應用空間加權的空間加權分割圖

或原始分割圖320）來計算每一類別

的面積比率，其中

是類別的數目。具體而言，推斷模組330可對以每一類別進行標誌的經濾波分割圖

的畫素的數目進行計數，以確定以此類別進行標誌的整個分割圖的部分（或比率）。在分割圖被空間加權的情形中，每一面積比率是基於與加權分割圖中每一位置處的每一類別相關聯的加權值的和而計算出。

在256處，推斷模組330應用類別重要性權重

來增強前景類別（例如，人）的重要性，且降低背景類別（例如，天空）的重要性並計算預測值

。

在確定影像的重要部分或所喜歡部分的過程中，可基於自然的人類行為來預先確定或習得類別重要性權重

。具體而言，本揭露的一些實施例使用花、食物、天空、草、沙灘、水、樹木、人、建築物、文字、貨車、摩托車、公共汽車、小汽車、狗及貓該些目標類別進行了訓練。然而，本揭露的實施例並非僅限於此且可應用於不同的類別（例如，基於主要場景分類器的預期應用的上下文）或不同數目的類別（例如，根據應用的粒度要求及系統的計算約束條件而定具有更多類別或更少類別）。

在本揭露的一些實施例中，根據表2中所示的以上目標類別的重要性將以上目標類別分組成三個層階，接著基於以上目標類別的相對重要性（例如，「前景」、「中位」或「背景」）對每一群組指配初始權重：對群組1指配1.5的權重、對群組2指配1.0的權重且對群組3指配0.5的權重。最後，根據驗證資料集中的表現對每一特定類別的權重進行微調。每一類別的最終權重亦在表2中示出。表2：根據一個實施例的目標的類別重要性權重

群組	類別（權重）
群組1	文字（2.0）、人（1.5）、摩托車（1.5）、小汽車（1.5）、狗（1.5）、貓（1.5）
群組2	花（0.9）、食物（1.1）、草（1.0）、沙灘（1.1）、水（1.0）、貨車（1.0）公共汽車（1.0）
群組3	天空（0.8）、樹木（0.8）、建築物（0.8）

以上權重的動機是前景類別（群組1）較背景類別（群組3）重要，但當兩個背景類別一同出現時，一個類別可較另一類別重要。舉例而言，當草與天空一同出現於影像中時，相較於天空，人們常常對草更感興趣。

另一因素是：場景類別在影像中的空間大小可能非常小，但可能對場景非常重要。舉例而言，文字類別具有較同一群組中的其他類別高的權重，此乃因當拍攝影像時（例如，對於光學字元辨認而言），文字的高品質（例如，聚焦及高對比度）外觀可能特別重要，但亦可佔影像總面積的非常小的部分。

在一些實施例中，在256處不再應用類別權重。

在258處，在一個實施例中，主要場景分類器300對跨越圖框的場景預測應用時間濾波（例如，三重指數平滑時間濾波器（triple exponential smoothing temporal filter）或三階段指數濾波器（three-stage exponential filter））。（在一些實施例中，省略時間濾波258。）

更詳細而言，圖6是根據本揭露一個實施例的被修改成跨越影像輸入（例如，視訊輸入）的多個圖框實行時間濾波的主要場景分類器300的一部分的架構的方塊圖。如之前所述（例如，針對圖3所述），相同的參考編號指代相同的組件，且將不再針對圖6對該些相同的組件予以贅述。如圖6中所示，藉由在610處對畫素中的每一者（例如，20×15畫素，跨越每一畫素的155個維度）應用柔性最大值（softmax）模組來將由卷積神經網路310及多孔空間金字塔池化（例如，具有20×15×155的維度）生成的分數對數316歸一化，以計算柔性最大值量612（例如，大小為20×15×155）。使用時間濾波模組620對多個圖框（例如，當前圖框

、前一圖框

及前一圖框之前的圖框

）實行時間濾波，以產生經濾波柔性最大值量622（例如，大小為20×15×155）。在一個實施例中，使用濾波器因數（filter factor）

的三重指數平滑濾波器對每一三維（three-dimensional，3D）畫素值

進行獨立濾波（然而，本揭露的實施例並非僅限於此且可使用介於

的範圍內的不同的濾波器因數）。具體而言，對於當前圖框

：

其中

是用於計算分割圖320的經濾波柔性最大值量622。

將經濾波柔性最大值量622供應至argmax模組630，以計算每一畫素（例如，20×15畫素中的每一者）的最高得分類別，進而產生分割圖320。接著可將分割圖320供應至推斷模組330，進而以與上述方式相似的方式計算加權面積比率

（例如，基於空間位置及類別重要性進行加權）。

根據一個實施例，時間濾波由時間濾波模組632實行。所述濾波器使得主要場景分類器300能夠平滑地適應場景的改變，以避免跨越圖框的場景預測的突然改變，其中在圖框

處：

在一些實施例中，推斷模組330應用指數濾波，以相較於來自當前圖框（例如，以上

、

及

）的預測對來自過去圖框（例如，以上

、

及

）的預測指配以指數方式降低的重要性。所有三個階段皆使用平滑因數

，其中

（例如，

）。

接著可將經時間濾波的面積比率供應至分級模組640，以基於類別的加權面積比率對在影像中偵測到的類別（如分割圖中所示）進行分級，以計算分級標籤642。

返回參照圖2，在260處，主要場景分類器300自分級標籤642選擇得分最高的類別（例如，最高經濾波加權面積比率或分級標籤中的最高分級標籤）作為場景的主要類別

：

在一些實施例中，在輸出場景652的主要類別（例如，分級標籤中的最高分級標籤或類別）之前，可在260處將分級標籤642供應至滯後檢查模組650。

滯後檢查模組650可用於減少在偵測到的場景中發生的跨越圖框切換（toggle）的次數。舉例而言，若相機在水平方向上拍攝自海洋的視圖至人的視圖的全景，則由於各種雜訊源（例如，相機抖動、場景中的人、波浪或其他物件的移動、曝光調整雜訊等），主要類別可在「水」與「人」之間來回切換。此尤其可在分級標籤642中的頂部分級標籤及第二分級標籤具有可比的經濾波面積比率的情形中發生。因此，本揭露的一些實施例使用滯後來減少頂部類別之間的切換量。

在一個實施例中，滯後條件對應於當先前所偵測標籤現在是分級標籤642中的第二分級標籤且分級標籤642的第一分級標籤與第二分級標籤的置信度（或得分）差異小於滯後臨限值水準時的條件。若滿足滯後條件，則維持先前所偵測標籤為當前所偵測標籤且將所偵測標籤置信度設定為第二最高分級標籤（例如，當前所偵測標籤）的置信度。然而，若不滿足以上條件，則將當前所偵測標籤設定為分級標籤642中的最高分級標籤將且將所偵測標籤置信度設定為分級標籤642中最高分級標籤的置信度。換言之，當前所偵測輸出場景的置信度或得分可低於另一類別的得分，但主要場景分類器300將維持相同的輸出類別，直至新類別的置信度較當前類別的置信度高出臨限量為止。

定性地說，時間濾波自主要場景分類器提供更可預測且更穩定的輸出。一般而言，第一指數濾波器

對可能由使用者手的移動（例如，相機抖動）、感興趣物件的位置的輕微改變等導致的預測值

的一階變化（first order variation）進行平滑。第二指數濾波器

解決場景隨時間變化的趨勢，例如使用者將相機自樹木向上朝天空傾斜（例如，沿垂直平面旋轉）。在此實例中，指數濾波的第二階段使所偵測場景在過渡期間平滑地自「樹木」改變為「天空」，而不發生波動（例如，在「樹木」與「天空」之間跳躍）。第三指數濾波器階段

處置場景的突然改變，例如，當狗跳進場景中並位於相機前面時。由於指數濾波的第三階段，本揭露的實施例將僅在狗在多個圖框內持續出現時才將狗辨識為場景的一部分。儘管以上在三重指數平滑濾波器或三階段指數濾波器的上下文中闡述了時間濾波，但本揭露的實施例並非僅限於此且可以少於三個階段（例如，一個或兩個階段）或多於三個階段來實施。

本揭露的實施例的一些態樣亦是有關於一種基於置信度的推斷方法，所述方法使用分類器的軟輸出（例如，置信度得分或此畫素被分類為感興趣的類別中的任何一個類別的機率）。在一些實施例中，實行軟得分的進一步調整，例如進行閾限以減少或防止雜訊輸出或進行縮放以提升特定類別。所述調整可用於控制分類系統的查準率（precision）與查全率（recall）之間的折衷。

圖7是根據本揭露一個實施例的應用分類器的軟輸出的方法700的流程圖。如圖7中所示，在710處，首先使用柔性最大值對來自語意分割網路311的語意分數對數316進行歸一化。柔性最大值模組的輸出的每一通道表示此畫素的場景類別的柔性最大值機率（例如，圖7所示20×15×155分數對數的155個通道）。在710處，沿通道維度獲取每一畫素的最大值，將所述最大值作為置信度圖輸出。因此，在語意分割之後獲得兩個圖：一個是分割圖320

（例如，具有20×15的維度），其中每一要素或畫素被指配有

個類別中的類別索引（例如，來自

的整數）；且另一圖是置信度圖

，其中每一要素是

中對應的類別的柔性最大值得分。

在720處，主要場景分類器300將每個類別臨限值

應用於分割圖

的每一要素，以根據置信度圖獲得經閾限分割圖

：

定性地說，當分類的置信度值（自置信度圖

中對應的位置讀取）大於此類別

的臨限值

時，經閾限分割圖

的每一位置或畫素具有分割圖

的類別值

。

在本揭露的一些實施例中，當計算經閾限分割圖時，亦應用類別重要性，以賦予重要類別更大的權重（例如，根據上述類別重要性權重），且經閾限分割圖

的每個畫素取最大值來確定每一類別的畫素標籤。

在730處，如上所述，將經閾限分割圖

供應至推斷模組，以使用對

的基於空間、時間及類別重要性的推斷來修改並計算類別得分。

本揭露的實施例的一些態樣是有關於使用包括上述分割頭（segmentation head）及單獨的分類頭的雙頭模型（two-headed model）訓練主要場景分類器300。在一些實施例中，分類頭在訓練過程期間起到正則化（regularization）的作用，且分割頭用於場景分類，其中如上所述，具有最大面積比率的類別被視為主要場景。分割頭充當局域場景偵測器，以在空間上偵測場景中的每一物件或物質，而分類頭試圖為場景提供全域類別－此將被人們感知或適用於經訓練的應用（例如，用於實行自動白平衡、曝光及聚焦（「3A」）及/或其他影像訊號處理演算法）。

圖8是根據本揭露一個實施例的主要場景分類系統的方塊圖，所述主要場景分類系統更包括被配置成接收卷積神經網路310的輸出的分類頭。如圖8中所示，輸入影像302被供應至卷積神經網路310，如以上針對圖3所述，且卷積神經網路310的輸出被供應至包括上述多孔空間金字塔池化的分割頭810，以自分割圖計算分類標籤向量，其中分類標籤向量中的每一要素對應於自分割圖計算的每一類別的面積比率。

圖8中所示的主要場景分類系統更包括分類頭820，分類頭820包括被配置成計算影像302的全域分數對數824的向量的一或多個區塊822。在一些實施例中，所述一或多個區塊822包括一個附加殘差區塊、一個全域平均池化區塊及以通道大小作為類別數目的一個

卷積區塊。

在一個實施例中，當使用圖8中所示的雙頭模型來訓練主要場景分類系統時，用於訓練的損失函數是分割損失與分類損失的加權和。然而，在推斷（例如，模型的部署）期間，僅使用分割頭，而分類頭僅用於在訓練期間提供正則化損失。

圖9是根據本揭露一個實施例的主要場景分類系統的方塊圖，主要場景分類系統更包括被配置成接收語意分割網路311的輸出的分類頭920。圖9所示雙頭模型實質上相似於圖8所示雙頭模型，但使用來自語意分割網路311的分數對數316作為分類頭920的區塊922的輸入來計算全域分數對數924的向量（而非圖8所示實施例中卷積神經網路310的輸出）。

語意分割的比較技術一般需要進行複雜的逐畫素標記，且缺乏大的標記資料集一般會使此種逐畫素標記難以進行或不可能進行。因此，本揭露的實施例的一些態樣亦是有關於一種以半自動方式合併具有不同類別標籤的資料集的方法。具體而言，本揭露的實施例的一些態樣是有關於一種基於邊界框的畫素標記方法。此種基於邊界框的方法顯著提高了偵測例如文字類別（例如，影像中的印刷文字）等特定類別的效能。

作為一個實例，在本揭露的一個實施例中，自不同的訓練資料集收集並編譯以下十六個目標類別的資料：「花」、「食物」、「天空」、「草」、「水」、「樹木」、「人」、「建築物」、「貨車」、「摩托車」、「公共汽車」、「小汽車」、「狗」、「貓」、「沙灘」、「文字」及「無」。舉例而言，與以上類別中的大多數類別對應的訓練資料（例如，影像）是自ADE20k資料集（參見例如，藉由ADE20K資料集的場景解析（Scene Parsing through ADE20K Dataset），周博磊（Bolei Zhou）、趙航（Hang Zhao）、澤維爾·佩格（Xavier Puig）、桑亞·菲德勒（Sanja Fidler）、阿德拉·巴裡烏索（Adela Barriuso）及安東尼奧·托裡巴（Antonio Torralba），電腦視覺及圖案辨認（Computer Vision and Pattern Recognition，CVPR），2017）及MSCOCO素材資料集（參見例如，林宗義（Lin, Tsung-Yi）等人，「微軟coco：上下文中的共用物件（Microsoft coco: Common objects in context）」，歐洲電腦視覺會議（ European conference on computer vision ），施普林格，湛（Springer, Cham），2014）收集的且進行手動標記。

ADE20k資料集包括150個類別及「無」類別。MSCOCO素材影像資料集包括150個相似的標籤且更包括「文字」、「狗」、「貓」、「雪」及「無」類別，共155個類別。

為了僅輸出類別的目標數目（例如，十六個類別），對來自155個類別的子類別進行合併。舉例而言，「水」類別是自單獨的類別「水」、「海」、「河」、「湖」、「游泳池」及「瀑布」合併而來的。作為另一實例，「樹木」類別是自以「樹木」及「棕櫚樹（palm tree）」類別進行標記的資料合併而來的，且「建築物」類別是自「建築物」及「摩天大樓」類別合併而來的。圖10A是來自訓練資料集的影像（食物的展示箱的影像）的實例，圖10B是與圖10A所示影像對應的標籤圖的實例，其中所述影像基於圖10A中所示的物件的不同類別而被進行語意分割且每一區被以其對應的類別進行標記。

然而，在此實例中，文字類別的資料是自不同的資料集收集的，包括Wild資料集中的中文文字（參見例如，袁泰玲（Yuan, Tai-Ling）等人，「wild形式的中文文字（Chinese text in the wild）」，arXiv 預印本 arXiv:1803.00085 （2018））、MSCOCO文字資料集、KAIST文字資料集（參見例如，鐘傑雲（Jehyun Jung）、李成勳（SeongHun Lee）、周民蘇（Min Su Cho）及金亨吉（Jin Hyung Kim），「觸控TT：使用觸控螢幕介面的場景文字提取器（Touch TT: Scene Text Extractor Using Touch Screen Interface）」，ETRI雜誌，2011）、文件內分析及辨認（In Document Analysis and Recognition, ICDAR）2015資料集（參見例如，D.卡拉薩斯（D. Karatzas）、L. 戈麥斯-比戈爾達（L. Gomez-Bigorda）、A. 尼古拉（A. Nicolaou）、S. 高希（S. Ghosh）、A. 巴格達諾夫（A. Bagdanov）、M. 岩村明憲（M. Iwamura）、J. 馬塔斯（J. Matas）、L. 紐曼（L. Neumann）、V.R. 錢德拉塞卡（V.R. Chandrasekhar）、S. 路（S. Lu）及F.沙法特（F. Shafait），「ICDAR 2015關於健壯讀取的競爭（ICDAR 2015 competition on robust reading）」，文件分析及辨認（ICDAR），2015年第十三屆國際會議（1156至1160頁），IEEE）及影像網路（ImageNet）（參見例如，J. 鄧（J. Deng）、W. 董（W. Dong）、R. 索契（R. Socher）、L.-J. 李（L.-J. Li）、K. 李（K. Li）及L. 飛飛（L. Fei-Fei），「影像網路：大規模階層式影像資料集（ImageNet: A Large-Scale Hierarchical Image Database）」，IEEE 電腦視覺及圖案辨認（ CVPR ），2009）。

在一些情況下，將整個邊界框標記為文字區的訓練會產生較畫素層階文字字元標記（pixel level text character labeling）更佳的效能。由此，在本揭露的一些實施例中，使用由KAIST文字資料集提供的邊界框，而非進行每個畫素文字字符標記。若邊界框是由資料集提供的（例如wild資料集中的中文文字），則使用所供應的邊界框且邊界框內部的每一畫素被指配為文字類別的一部分（而非僅是與文字的字母形式對應的畫素）。若文字邊界框不是由資料集提供的（例如自ImageNet收集的一些文字影像），則本揭露的實施例的一些態樣使用預先訓練的文字偵測器來獲得文字影像中的文字邊界框。在一個此種實施例中，以殘差網路（Residual Network，ResNet）101（參見例如，何凱明（He, Kaiming）等人，「用於影像辨認的深度殘差學習（Deep residual learning for image recognition）」，IEEE 電腦視覺及圖案辨認會議錄 ，2016）作為在ICDAR 2013及ICDAR 2015資料集上預先訓練的骨幹的EAST文字偵測器（參見例如，周新宇（Zhou, Xinyu）等人，「EAST：高效且準確的場景文字偵測器（EAST: an efficient and accurate scene text detector）」，IEEE 電腦視覺及圖案辨認會議錄 ，2017）被應用於提取訓練資料中的文字的邊界框。圖11A是包括文字的輸入影像的實例，且圖11B是以灰色示出影像的與文字邊界框對應的部分的分割圖。影像的黑色的剩餘部分被指配為「無」類別。

本揭露的實施例的一些態樣亦是有關於對主要場景分類系統進行定製以偵測物件的子類別。舉例而言，實行3A調整有時需要確定物件的顏色，尤其是水的顏色，水可根據條件而呈現出各種不同的顏色（例如，藍色、灰色、綠色等）。在水類別的特定實例中，水可被劃分成四個子類別：「藍色水」、「綠色水」、「低飽和度水」（例如灰色）、及「其他水」。為區分不同的子類別，可使用分割圖320來辨識以母類別「水」進行標記的場景的部分。接著將輸入影像302的被分類為與「水」對應的部分轉換至色調、飽和度及值（hue, saturation, and value，HSV）顏色空間（例如，來自所輸入的紅、藍、綠（RGB）顏色空間）。因此，可基於表3對標記為「水」的區中的每一畫素進行分類：表3

條件	水顏色子類別
飽和度值小於12	「低飽和度水」
色調值介於67與150之間	「綠色水」
色調值介於151與255之間	「藍色水」
其他情況	「其他水」

在對「水」區中的畫素中的每一者進行分類之後，可對所有子類別畫素應用多數決選來辨識整個區的子類別。

因此，本揭露的實施例的一些態樣是有關於基於源影像中畫素的顏色進行子類別分類。

由此，本揭露的實施例的各個態樣是有關於計算由相機系統成像的場景的主要類別。儘管已結合某些示例性實施例闡述了本揭露，然而應理解，本揭露並非僅限於所揭露的實施例，相反，本揭露旨在覆蓋包括於隨附申請專利範圍及其等效形式的範圍內的各種潤飾及等效佈置。

100:數位相機系統 110:數位相機模組 112:鏡頭 114:影像感測器 130:處理器 150:記憶體 170:協處理器 190:顯示裝置 200、700:方法 210、220、230、240、252、254、256、260、610、710、720、730:步驟 250:步驟/方法 258:步驟/時間濾波 300:主要場景分類器 302:輸入影像 310:卷積神經網路 310A、310B、310C、310D:層 311:語意分割網路 312:全域特徵圖 314:小尺度特徵 316:分數對數/語意分數對數 320:分割圖/低解析度分割圖/原始分割圖 330:推斷模組 340:類別得分 510:中央高斯濾波器 520:加權象限濾波器/象限濾波器 530:側向濾波器 550、560:濾波器 570:空間濾波器 612:柔性最大值量 620、632:時間濾波模組 622:經濾波柔性最大值量 630:argmax模組 640:分級模組 642:分級標籤 650:滯後檢查模組 652:場景 810:分割頭 820、920:分類頭 822、922:區塊 824、924:全域分數對數

附圖與本說明書一同示出本揭露的示例性實施例，且與本說明一同用於闡釋本揭露的原理。圖1是根據一個實施例的數位相機系統的實例的方塊圖。圖2是根據一個實施例的計算場景的主要類別的方法的流程圖。圖3是根據一個實施例的影像輸入的單個圖框的主要場景分類系統的架構的方塊圖。圖4是根據一個實施例的對分割圖實行推斷以計算類別得分的方法的流程圖。圖5A示出根據一個實施例的中央高斯濾波器（central Gaussian filter）、象限濾波器（quadrant filter）及側向濾波器（sideways filter）。圖5B示出根據一個實施例的圖5A中所示的各別濾波器的加權組合。圖5C示出根據一個實施例的藉由將圖5A及圖5B中所示的濾波器進行組合而得到的空間濾波器（spatial filter）。圖5D是根據一個實施例的對20×15空間濾波器的空間濾波器權重的繪示。圖6是根據一個實施例的被修改成對影像輸入（例如，視訊輸入）的多個圖框實行時間濾波的主要場景分類系統的一部分的架構的方塊圖。圖7是根據一個實施例的應用分類器的軟輸出的方法的流程圖。圖8是根據一個實施例的主要場景分類系統的方塊圖，所述主要場景分類系統更包括被配置成接收卷積神經網路的輸出的分類頭（classification head）。圖9是根據一個實施例的主要場景分類系統的方塊圖。圖10A是來自訓練資料集的影像（食物的展示箱（display case）的影像）的實例，圖10B是與圖10A所示影像對應的標籤圖的實例，其中根據一個實施例，所述影像基於圖10A中所示的物件的不同的類別而被進行語意分割且每一區被以其對應的類別進行標記。圖11A是根據一個實施例的包括文字的輸入影像的實例，且圖11B是根據一個實施例的以灰色示出影像的與文字邊界框對應的部分的分割圖。

200:方法

210、220、230、240、260:步驟

250:步驟/方法

Claims

一種計算場景的主要類別的方法，包括：接收場景的輸入影像；由卷積神經網路產生所述輸入影像的分割圖，所述分割圖包括多個畫素，所述多個畫素中的每一者被以多個類別中的對應的類別進行標記；基於所述分割圖計算多個面積比率，所述多個面積比率中的每一者對應於所述分割圖的所述多個類別中的不同的類別；基於所述多個面積比率，應用推斷來產生多個分級標籤；以及基於所述多個分級標籤來輸出所述場景的所偵測主要類別。
如申請專利範圍第1項所述的方法，更包括：基於所述多個面積比率的最高分級標籤來確定所述所偵測主要類別。
如申請專利範圍第1項所述的方法，更包括：使用被配置成接收多孔卷積層的輸出的多孔空間金字塔池化模組，且其中所述分割圖是基於所述多孔空間金字塔池化模組的輸出而計算出。
如申請專利範圍第1項所述的方法，其中計算所述多個面積比率更包括：藉由將所述分割圖的每一位置乘以多個空間重要性權重中的對應的一個空間重要性權重來對所述分割圖進行空間加權；以及對經空間加權的所述分割圖進行求和，以計算所述多個類別中的每一類別的空間加權面積比率，其中所述多個空間重要性權重是在與所述輸入影像的中間三分之一對應的區中具有最高權重的高斯濾波器的加權組合。
如申請專利範圍第1項所述的方法，其中計算所述多個面積比率更包括：藉由將所述多個類別中的每一類別的面積比率乘以多個類別重要性權重中的對應的類別重要性權重來對所述多個面積比率進行類別加權，且其中所述多個類別重要性權重包括具有較背景類別群組高的權重的前景類別群組。
如申請專利範圍第5項所述的方法，其中所述前景類別群組包括文字類別及人類別，且其中所述背景類別群組包括天空類別及樹木類別。
如申請專利範圍第1項所述的方法，更包括：在所述輸入影像之前接收輸入影像序列；對所述輸入影像序列中的每一影像的每一畫素計算柔性最大值；對所述輸入影像序列中的每一影像中的每一畫素實行時間濾波，以計算經濾波柔性最大值量；以及計算所述經濾波柔性最大值量中的最大值，以計算所述分割圖。
如申請專利範圍第7項所述的方法，其中所述時間濾波是使用三重指數平滑濾波器來實行。
如申請專利範圍第7項所述的方法，更包括：為自所述輸入影像序列計算出的分割圖序列產生加權面積比率序列；以及對所述加權面積比率序列實行時間濾波，其中所述多個分級標籤是基於所述加權面積比率序列而計算出。
如申請專利範圍第9項所述的方法，其中所述所偵測主要類別是藉由以下方式加以選擇：評估當先前所偵測主要類別是所述多個分級標籤中的第二最高分級標籤時且當最高分級標籤與所述第二最高分級標籤之間的加權面積比率的差異小於臨限值時滿足的滯後條件；因應於確定出滿足所述滯後條件，維持所述先前所偵測主要類別為所述主要類別；以及因應於確定出不滿足所述滯後條件，將所述最高分級標籤設定為所述所偵測主要類別。
如申請專利範圍第1項所述的方法，其中所述分割圖的每一畫素與一或多個對應的置信度值相關聯，所述一或多個對應的置信度值中的每一者對應於所述多個類別中的不同的一個類別，且其中所述方法更包括藉由自所述分割圖的以下位置選擇值來對所述分割圖進行閾限：所述位置使得置信度圖的對應的位置的置信度值超過與所述分割圖的所述位置的類別對應的臨限值。
如申請專利範圍第11項所述的方法，其中所述分割圖是自由所述卷積神經網路輸出的多個分數對數計算出，所述多個分數對數包括空間維度及特徵維度，且其中所述一或多個置信度值形成藉由以下方式而產生的置信度圖：沿所述多個分數對數的所述特徵維度計算柔性最大值；以及沿所述多個分數對數的所述特徵維度計算所述柔性最大值的最大值，以計算與所述置信度圖的每一位置對應的置信度值。
如申請專利範圍第1項所述的方法，其中所述卷積神經網路包括被配置成計算所述輸入影像的一個類別的全域分類的全域分類頭，且其中所述卷積神經網路是使用損失函數進行訓練，所述損失函數包括以下的加權和：與所述所偵測主要類別相關聯的第一損失；與與由所述全域分類頭計算的所述全域分類相關聯的第二損失。
如申請專利範圍第13項所述的方法，其中所述全域分類頭被配置成自所述卷積神經網路的輸出接收輸入。
如申請專利範圍第13項所述的方法，更包括被配置成接收多孔卷積層的輸出的多孔空間金字塔池化模組，其中所述分割圖是基於所述多孔空間金字塔池化模組的輸出而計算出，且其中所述全域分類頭被配置成自所述多孔空間金字塔池化模組的所述輸出接收輸入。
如申請專利範圍第1項所述的方法，其中所述卷積神經網路被訓練成使用包括文字影像及對應的標籤的訓練資料來辨認所述多個類別中的文字類別，且其中所述對應的標籤包括環繞文字的邊界框。
如申請專利範圍第1項所述的方法，其中所述多個類別中的類別包括多個子類別，且其中所述方法更包括藉由以下方式對所述分割圖中與所述類別對應的區指配子類別：偵測在與所述類別對應的所述區中所述輸入影像的所述多個畫素中的每一者的顏色；基於所述多個畫素的所述顏色而對所述多個畫素中的每一者指配所述多個子類別中的子類別；以及基於在被指配給所述區的所述多個畫素的所述多個子類別中進行的多數決選來對所述區指配子類別。
如申請專利範圍第17項所述的方法，其中所述類別是水，且其中所述多個子類別包括：低飽和度水；綠色水；藍色水；以及其他水。
如申請專利範圍第1項所述的方法，更包括：辨識所述場景的所述輸入影像的與所述所偵測主要類別對應的部分；以及根據所述場景的所述輸入影像的所辨識出的所述部分來配置數位相機模組的相機設定值。
如申請專利範圍第19項所述的方法，其中所述數位相機模組是行動裝置的組件。
一種計算場景的主要類別的系統，包括：處理器；以及記憶體，儲存指令，所述指令在由所述處理器執行時使所述處理器藉由以下方式計算場景的主要類別：接收場景的輸入影像；產生所述輸入影像的分割圖，所述分割圖包括多個畫素，所述畫素中的每一者被以多個類別中的對應的類別進行標記；基於所述分割圖計算多個面積比率，所述多個面積比率中的每一者對應於所述分割圖的所述多個類別中的不同的類別；基於所述多個面積比率，應用推斷來產生多個分級標籤；以及基於所述多個分級標籤來輸出所述場景的所偵測主要類別。
如申請專利範圍第21項所述的系統，其中所述記憶體更儲存用於藉由以下方式計算所述多個面積比率的指令：藉由將所述分割圖的每一位置乘以多個空間重要性權重中的對應的一個空間重要性權重來對所述分割圖進行空間加權；以及對經空間加權的所述分割圖進行求和，以計算所述多個類別中的每一類別的空間加權面積比率，其中所述多個空間重要性權重是在與所述輸入影像的中間三分之一對應的區中具有最高權重的高斯濾波器的加權組合。
如申請專利範圍第21項所述的系統，其中所述記憶體更儲存藉由以下方式計算所述多個面積比率的指令：將每一類別的面積比率乘以多個類別重要性權重中的對應的類別重要性權重而對所述多個面積比率進行類別加權來，且其中所述多個類別重要性權重包括具有較背景類別群組高的權重的前景類別群組。
如申請專利範圍第23項所述的系統，其中所述前景類別群組包括文字類別及人類別，且其中所述背景類別群組包括天空類別及樹木類別。
如申請專利範圍第21項所述的系統，其中所述分割圖的每一畫素與一或多個對應的置信度值相關聯，所述一或多個對應的置信度值中的每一者對應於所述多個類別中的不同的類別，且其中所述記憶體更儲存用於藉由自所述分割圖的以下位置選擇值來對所述分割圖進行閾限的指令：所述位置使得置信度圖中的對應的位置的置信度值超過與所述分割圖的所述位置的類別對應的臨限值。
如申請專利範圍第21項所述的系統，更包括數位相機模組，其中所述記憶體更儲存在由所述處理器執行時使所述處理器進行以下操作的指令：辨識所述場景的所述輸入影像的與所述所偵測主要類別對應的部分；以及根據所述場景的所述輸入影像的所辨識出的所述部分來配置所述數位相機模組的相機設定值。