TWI754660B

TWI754660B - 訓練深層學習分類網路之系統和方法

Info

Publication number: TWI754660B
Application number: TW106127398A
Authority: TW
Inventors: 莫斯塔法伊爾－哈米; 杜憲治; 正元李
Original assignee: 南韓商三星電子股份有限公司
Priority date: 2016-12-22
Filing date: 2017-08-14
Publication date: 2022-02-11
Also published as: KR102513089B1; US20180181881A1; KR20180073424A; CN108229649B; TW201824098A; CN108229649A; US20220083861A1; US11205120B2

Abstract

本揭露提供多種裝置及其製作方法，以及訓練深層學習機器的系統和方法。在一態樣中，候選單元（例如，圖像中的檢測邊界框或者輸入音訊特徵的音素）使用軟標示法來分類，其中在圖像的情況下，基於檢測邊界框與用於一或多個類別的一或多個真實邊界框的重疊處，至少一標記具有範圍介於0與1之間的可能數值。

Description

訓練深層學習分類網路之系統和方法

本揭露是有關於一種深層神經網路，且特別是有關於一種訓練深層學習分類網路之系統和方法。

機器學習技術正不斷地演進，且已開始支援現代社會的許多態樣，其範圍從網頁搜尋（web search）、內容篩選（content filtering）、商家網站上的自動化推薦（automated recommendation）、自動化競賽（automated game playing），到物件檢測（object detection）、圖像分類（image classification）、語音辨識（speech recognition）、機器翻譯（machine translation）、藥物探索（drug discovery）以及染色體組（genomic）。機器學習領域中的當前技術形態是深層神經網路，深層神經網路使用由多個處理層構成的計算模型，所述處理層學習具有多個抽象層次的資料（通常是極大量的資料）的表示—在此為術語「深層學習（deep learning）」、「深層網路（deep network）」等等。參見（例如）楊立昆（LeCun, Yann）、約書亞本吉奧（Yoshua Bengio）及傑弗里·辛頓（Geoffrey Hinton）的「深層學習（Deep learning）」（《自然（Nature）》，第521卷，第436頁至第444頁（2015年5月28日）），其全文以引用的方式併入本文中。

在物件檢測與分類的機器學習中的第一階段為訓練（training）。針對圖像方面，訓練的進行使用了諸如人、寵物、車輛、房子等圖像的大數據集，其中每張圖像或圖像中的部份以一相對應的種類（category）或類別（class）來標示。另外，亦有一些公用的數據集。這種涉及圖像的訓練可分成如下兩個部份/階段：（1）檢測，於此階段檢測圖像中的候選/受檢測框（通常是基於位於框（box）內之物件（object）/類別的可信度，但亦可為隨機剪切（crops）），以及（2）分類，於此階段會基於檢測框與「真實（ground-truth）」框（即在數據集的圖像中這些框已知是含有前述物件/類別）的重疊處將標記分配給檢測框。

因此，本揭露已作出以至少處理本文中所描述的問題及/或缺點且至少提供下文所描述的優點。

根據本揭露的一種態樣，提供有一種訓練深層學習之方法，其包括接收用於分類的候選單元，以及藉由軟標示法分類候選單元，其中所述軟標示法提供至少一標記，其包括介於0與1之間的多個可能數值。

根據本揭露的一種態樣，提供有一種訓練深層學習之裝置，其包括一或多個非暫態電腦可讀媒體；以及至少一個處理器，其於執行儲存於一或多個非暫態電腦可讀媒體中的指令時進行以下步驟：接收用於分類的候選單元，以及藉由軟標示法分類候選單元，其中所述軟標示法提供至少一標記，其包括介於0與1之間的多個可能數值。

根據本揭露的一種態樣，提供有一種製作可訓練深度學習的晶片組之方法，所述晶片組包括至少一個處理器，其於執行儲存於一或多個非暫態電腦可讀媒體中的指令時進行以下步驟：接收用於分類的候選單元，以及藉由軟標示法分類候選單元，其中所述軟標示法提供至少一標記，其包括介於0與1之間的多個可能數值；以及儲存有所述指令的所述一或多個電腦可讀媒體。

根據本揭露的一種態樣，提供有一種用於測試裝置之方法，其包括測試該裝置是否具有至少一處理器，其於執行儲存於一或多個非暫態電腦可讀媒體的指令時可進行包括下述步驟的深層學習訓練：接收用於分類的候選單元，以及藉由軟標示法分類候選單元，其中所述軟標示法提供至少一標記，其包括介於0與1之間的多個可能數值；以及測試該裝置是否具有儲存有所述指令的所述一或多個非暫態電腦可讀媒體。

以下，將參考隨附圖式來詳細地描述本揭露的實施例。應注意，儘管在不同圖式中示出相同元件，但相同元件仍由相同圖式元件編號來標定。在以下說明中，諸如詳細配置及組件等具體細節僅供助於全面理解本揭露的各實施例。因此，熟習此項技術者應理解，可在不背離本揭露範疇下對本文所述的實施例做出各種變化及修改。另外，為清晰及簡明起見，省略了對熟知功能及構造的說明。下文所述用語是考慮到本揭露中的功能因而定義的用語，且可根據使用者、使用者的意圖、或習慣而有所不同。因此，用語的定義應基於本說明書通篇的內容來確定。

本揭露可具有各種潤飾及各種實施例，以下將參考附圖詳細地闡述各種實施例當中的實施例。然而，應理解，本揭露並非僅限於所述實施例，而是包括處於本揭露的範圍內的所有潤飾、等效形式、及替代形式。

儘管各種元件可能使用包括例如「第一」、「第二」等序數的用語來闡述，但結構元件不受所述用語限定。所述用語僅用以區分一個元件與另一元件。舉例而言，在不脫離本揭露範疇下，可將第一結構元件稱作第二結構元件。類似地，第二結構元件亦可被稱作第一結構元件。本文所用的用語「及/或」包括一或多個關聯項目中的任何及所有組合。

本文所用的用語僅用於闡述本揭露的各種實施例，而並非旨在限制本揭露。除非上下文另有明確指示，否則單數形式意欲包含複數形式。在本揭露中，應理解，用語「包括」或「具有」指示特徵、數字、步驟、操作、結構元件、部件、或其組合的存在，且並不排除一或多個其他特徵、數字、步驟、操作、結構元件、部件、或其組合的存在或添加的可能性。

除非有不同的定義，否則本文中所用全部用語具有與熟習本揭露所屬技術者所理解的含義相同的含義。此種用語（例如常用字典中所定義的用語）應解釋為具有與在相關技術領域中的上下文含義相同的含義，且除非在本揭露中明確定義，否則不應解釋為具有理想或過於正式的含義。

各種實施例可包含一或多個元件。元件可包含經配置以執行某些操作的任何結構。儘管一實施例可以作為描述呈特定配置且具有限數目個元件之範例，然為達成給定實施方式，所述實施例可視需要包含呈替代配置的更多或更少元件。值得注意的是，任何對「一個實施例」或「一實施例」的參考皆意謂結合所述實施例所描述的特定特徵、結構或特性包含於至少一個實施例中。片語「一個實施例」（或「一實施例」）在本說明書中的各處的出現未必指代同一實施例。

在本案中，用語「框」（box）可與用語「邊界框」（bounding box）交換使用。

本案將機器學習應用在取得、處理、分析以及理解數位圖像等方法，亦即運用在，例如，對圖像或圖像的一部份中的所有物進行物件檢測、物件辨識以及物件分類。

本揭露實施例針對「軟標示法」（soft labelling，將於下文詳述）進行說明，其於訓練過程中可提供較高效率和準確性。

一般而言，與圖像相關的標示法是基於檢測候選邊界框與用於一或多個類別/物件/種類的一或多個真實（ground-truth）邊界框的重疊處將所述類別/物件/種類分配給檢測候選邊界框。

圖1繪示分類階段中用於類別/物件A的檢測框110以及真實框120的範例。檢測（邊界）框110覆蓋面積

，且真實（邊界）框120覆蓋面積

。傳統上，用於類別/物件A的檢測框110在分類階段中是根據方程式(1)來決定：<img wi="455" he="108" file="IMG-2/Draw/02_image006.gif" img-format="jpg"> 其中

為檢測框110與真實框120的重疊處的面積，如圖1中標有參考編號115的陰影面積所示，而

為檢測框110與真實框120面積的聯集（即，檢測框110與真實框120兩者面積的總和減去陰影面積115）。

根據方程式(1)，用於類別/物件A的檢測框110其標記為簡單的二進位數值，其中當超過一半的檢測框110與真實框120重疊時，該標記=1，且當檢測框110有一半或少於一半與真實框120重疊的面積時，該標記=0。圖1中，由於重疊面積少於一半，用於類別/物件A的檢測框110的標記將為0。

這些標記是用以決定及校正機器誤差的一部份。一般而言，在訓練中，機器會修改其內部可調參數以減少從目標函數計算出的誤差。此時，目標函數可想成是就已知真實框而產生檢測框標記，藉以衡量誤差（或距離）。所述機器的內部可調參數，通常稱為權重（weight），是用以定義機器的輸入-輸出函數。在傳統的深層學習系統中，可能具有億萬個此種內部可調權重/參數，以及用來訓練機器的億萬個標示過的範例。

因此，訓練過程中，標示法會影響深層學習機器/網路的效率和準確性。

如上所述，習知的標示法對每個檢測候選邊界框的每個類別/物件/種類為非1即0（以下，將此種離散二進制標示法（discrete binary labelling）稱作硬標示法（hard labelling））。然而，在訓練階段中決定機器的內部可調參數/權重時，硬標示法會導致精準度上的損失。

在訓練時，將給定標記 t 及測得特徵z下參數 θ 的相似度最大化等同於將誤差 ε 最小化，亦即，將方程式(2)所示的負對數相似度函數（negative log-likelihood function）最小化：<img wi="379" he="93" file="IMG-2/Draw/02_image012.gif" img-format="jpg"> 其中 C 為類別的總數， t_i 為類別 i 的標記（其中 i = 1, 2, ..., C )，且 y_i 為給定測得特徵 z 下類別 i 的softmax概率（softmax probability）。舉例而言， y_c ，其為給定測得特徵 z 下類別 c 的softmax概率（即，

），可使用方程式(3)計算出：<img wi="275" he="75" file="IMG-2/Draw/02_image016.gif" img-format="jpg">

然而，在以硬標示法訓練時，根據用於輸入特徵 z 的真實標示法（ground truth labelling）， t_c 在類別 c 是真實類別（true class）時僅會等於1，否則等於0。可參見上述方程式(1)。這意味著僅有用於真實類別 c 的softmax概率能有助於方程式(2)中的加總。

在本揭露各實施例中，所述標記並非二進位，而可為取自0至1之間的任意值—即， t_c 為[0,1]之間的浮點（float）值（以下，稱為「軟標示法」）。以這種方式，方程式(2)中的精準度損失可計算成來自所有類別的softmax機率（大和小）全部的加權和（weighted sum）。雖然下文中探討了幾種特定的分配技術，本領域具有通常知識者應可理解，軟標示法中用以分配[0,1]之間的浮點值實際上有無限種可能的選擇。

在探討採用軟標示法的分配方案的範例前，需要先確認軟標示法仍能允許反向傳播（back-propagation）的正確進行。方程式(2)中的對數相似度函數

亦為交叉熵（cross-entropy）誤差函數

。在進行用於類別 i 的反向傳播時，交叉熵誤差函數相對於softmax所測得輸出 z_i 的導數

可藉由方程式(4)來計算：<img wi="138" he="53" file="IMG-2/Draw/02_image024.gif" img-format="jpg">

因此，本領域具有通常知識者應可理解，只要

（即，只要標記的總和除以用於相同輸入特徵的所有類別為1），此方程式便成立，對硬標示法以及軟標示法兩者來說皆然。也就是說，上述方程式(4)用於軟標示法時，由於標記之總和與上述一致因而仍然成立。

圖2是根據一實施例所繪示之使用檢測框210以及真實框220的軟標示法分配方案的範例。

圖2中，檢測框210覆蓋面積

，而真實框220覆蓋面積

，且兩者交集於交集面積215。因為圖2中存在兩種類別「A」以及「background」，檢測框210分別需要兩種標記： L_A 以及 L_bg 。用於類別/物件A及類別/物件background的檢測框210其標記是根據方程式(5)(a)及(5)(b)來決定：<img wi="175" he="79" file="IMG-2/Draw/02_image028.gif" img-format="jpg"><img wi="141" he="44" file="IMG-2/Draw/02_image030.gif" img-format="jpg"><img wi="175" he="65" file="IMG-2/Draw/02_image032.gif" img-format="jpg"> 其中

為檢測框210與真實框220的交集/重疊處的面積，如圖2中標有參考編號215的陰影面積所示。因此，方程式(5)(a)中，標記 L_A 等於經檢測框210的面積正規化之後的兩框的交集面積215，而標記 L_bg 則等於正規化後的餘數，即，1減去用於類別A的軟標記 L_A 。這種軟標示法滿足

的限制。

在根據本揭露另一實施例的軟標示法分配方案中，使用了臨界值在0、1以及由交集與總體檢測框的比值所決定的可變數值之間作選擇。更具體而言，以圖2中所用的框為例，用於類別/物件A及類別/物件background的檢測框210是根據方程式(6)(a)及(6)(b)來決定：<img wi="440" he="215" file="IMG-2/Draw/02_image036.gif" img-format="jpg"><img wi="141" he="44" file="IMG-2/Draw/02_image030.gif" img-format="jpg"> 其中，若交集面積大於臨界值 b ， L_A = 1；若交集面積小於臨界值 a ， L_A = 0；其他情況下， L_A = 交集的經正規化值（即，交集除以檢測框的總面積）。因這種軟標示法方案是將0及1分配至面積範圍，其可視為軟標示法與硬標示法的綜合，或稱為混合式（hybrid）標示法方案。然而，即使0及1也分配到其他標記，任何使用[0,1]範圍內數值的標記分配方案仍為軟標示法。

圖3是根據一實施例所繪示之在具有多種類別（即，多個真實框)的情況下，軟標示分配方案的範例。也就是說，圖2僅考慮到類別A及預設類別（即，background），而圖3則考慮到類別A及B外加預設類別background。

圖3中，檢測框310覆蓋面積

，用於類別A的真實框320覆蓋面積

，而用於類別B的真實框330覆蓋面積

。三個框都有交集的面積由網格框345來標示；僅有檢測框310與用於類別A的真實框320交集的面積由呈反Γ形的劃橫線部分325來標示；而僅有檢測框310與用於類別B的真實框330交集的面積由呈L形的劃直線部分335來標示。基此，檢測框310與用於類別A的真實框320的總重疊處為網格框345與劃橫線部分325兩者（=

），而檢測框310與用於類別B的真實框330的總重疊處為網格框345與劃直線部分335兩者（=

）。網格框345不僅為三個框的重疊處，也是兩個真實框的重疊處，因此

。

根據本揭露的一實施例，用於類別/物件A（ L_A ）、類別/物件B（ L_B ）以及background（ L_bg ）的檢測框310的標記是根據方程式(7)(a)至(7)(c)來決定：<img wi="467" he="90" file="IMG-2/Draw/02_image048.gif" img-format="jpg"><img wi="469" he="90" file="IMG-2/Draw/02_image050.gif" img-format="jpg"><img wi="205" he="44" file="IMG-2/Draw/02_image052.gif" img-format="jpg">

基此，在被正規化（即，除以檢測框310的總面積）之前，方程式(7)(a)中檢測框310與用於類別A的真實框320的交集/重疊處（=

）以及方程式(7)(b)中檢測框310與用於類別B的真實框330的交集/重疊處（=

）各自減去用於類別A的真實框320與用於類別B的真實框330的交集/重疊處的一半（= 網格框345 =

）。

也就是說，真實框間的重疊面積在分配標記時已分為一半。

在另一實施例中，重疊面積被分配以具有最高信心度得分的類別（來自前一檢測階段）。舉例而言，若檢測框310具有用於類別A的較高信心度得分，用於類別/物件A（ L_A ）、類別/物件（ L_B ）以及background（ L_bg ）的檢測框310的標記會根據以下方程式(8)(a)至(8)(c)來決定：<img wi="191" he="79" file="IMG-2/Draw/02_image058.gif" img-format="jpg"><img wi="406" he="90" file="IMG-2/Draw/02_image060.gif" img-format="jpg"><img wi="205" he="44" file="IMG-2/Draw/02_image052.gif" img-format="jpg">

上述參考圖3以及方程式(7)(a)～(7)(c)與(8)(a)～(8)(c)的分配方案兩者皆可歸納成任意數量的類別。

在本揭露的一實施例中，檢測框是使用主要物件檢測及分類框架（primary object detection and classification framework），例如單發檢測器（single shot detector；SSD，其用於物件候選產生器中）來產生。候選檢測接著由次要分類網路（secondary classification network）進一步分類以歸屬至感興趣的類別（class of interest）。關於上述框架的詳細說明，可參見杜等人（Du et al.）的「融合DNN：一種快速與強健的行人檢測用深層神經網路融合方法（Fused DNN: A deep neural network fusion approach to fast and robust pedestrian detection）」，arXiv:1610.034466v1（2016年10月11日），其全文以引用的方式併入本文中。在此框架中，來自主要網路的候選物件檢測與真實框重疊，以進一步將其以物件的種類/類型標示。在本揭露的實施例中，次要分類網路是使用如上述各類別的相關重疊面積，藉由軟標記來訓練。相較之下，習知的硬標記是根據兩框交集除以它們的聯集面積之後是否大於50%(即，上述方程式(1))來產生，且僅可應用於一個類別與所述預設的background類別的情況。

在使用ETH及INRIA數據集（如Ess等人在《關於電腦視覺和模式識別（Computer Vision and Pattern Recognition；CVPR’08)的IEEE會議，IEEE Press（2008年六月）》中的「用於強健多人追踪的移動視覺系統」（A mobile vision system for robust multi-person tracking）所定義，其全文以引用的方式併入本文中）來訓練深層學習機器（即，ResNet以及GoogleNet）以檢測圖像中行人的實驗/模擬中，應用了使用如上述方程式(6)(a)～(6)(b)等臨界值/邊界值的軟標示技術。詳言之，用於重疊處的較低臨界值為0.3，若低於該值則分配0的標記；而較高臨界值為0.7，若高於該值則分配1的標記。在0.3與0.7間，此範圍內可變數值被分配為標記，其具體的數值取決於所用的方程式而定（例如，方程式(5)(a)、(6)(a)、(7)(a)、(7)(b)等）。在另一種實驗/模擬中，臨界值為0.4及0.6。

由於使用了候選邊界框與真實邊界框之間的重疊比率（overlap ratio）來分配標記，軟標示法不但標明了每個候選邊界框中是否存在有行人（即，物件），更提供每個（內含行人的）候選邊界框中行人佔據了多少面積。這方式特別適用在重疊比率約為0.5且硬標示法處於邊界線（borderline）的邊界情況下。在行人漏檢率（missed detection rate）的性能比較上，與來自ETH數據集上的硬標記方法所能達成的33%行人漏檢率相較下，混合式軟-硬標示方案更可達30.4%。

根據本揭露的軟標示法可應用在如基於區域的卷積神經網路（region-based convolutional neural networks；R-CNN）等多工深層學習方法。可參見，例如，仁等人（Ren et al.）的「更快的R-CNN：通過區域提案網路實現即時物件檢測」（Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks），arXiv:1506.01497v3（2016年1月6日），其全文以引用的方式併入本文中。在所述網路中，區域提案網路（RPN）提供了物件有無檢測（object/no object detection）。這些檢測接著更藉由關注區域（region of interest；ROI）分類層，而分類成

類別其中之一。在應用軟標示法的一實施例中，軟標記是由來自RPN的檢測輸出所產生。且可使用任何軟標示分配方案，包括多階層的臨界值的使用，其中若兩個層級（tiers）中分配有0和1，則可稱之為涉及軟標示法和硬標示法組合的「混合式」方案，然根據本文所用術語的含義則可稱之為軟標示法分配方案無誤。相較於僅會從對應真實類別的檢測而將多工深層學習方法中的梯度（gradients）反向傳播的硬標示法，軟標示法提供了更高的精確度與準確性。

在上述實施例中，假設了兩個階段：檢測及分類，其中檢測階段產生類別/物件檢測框以及類別/物件真實框，其相關重疊比率是用以在分類階段中分配軟標記。基此，分類階段可視為是为每个檢測候選決定每個類別的先驗概率（a priori probability）所做的努力，其中概率總和（sum of probabilities）為1。然而，一般來說，軟標示技術有較廣泛的應用且不需要檢測階段。

廣義來說，根據本揭露的軟標示法可用作一種為基於輸入特徵的分類而產生先驗概率的機制。本領域具有通常知識者應可理解，用來產生此種先驗概率的特定方法是取決於所處情境（the context）。

在非檢測框架中進行分類的情境下，軟標記可使用其他旁側資訊（side information）來提取及分配，例如可由次要分類機制或者用於如非深層學習快速分類系統（其毋須獨立的檢測階段即可為每個類別提供先驗概率）等中的較簡易的低複雜度分類機制來產生。旁側資訊是任何與檢測物體相關但不直接由測得物體所提供的資訊。

舉例而言，將聲音模型用於自動語音處理的音素分類系統可使用根據本揭露的軟標示法。「音素」（phone）與音位（phoneme）類似，但抽象程度更加之小—音素為任何獨特的言語聲音（無論此聲音對詞句的意義是否至關重要亦或涉及何種語言），而音位則涉及其意義且須參考特定語言方能探討。簡單來說，「音素」是藉由人的語音產生的聲音單位。

因此，音素分類系統與圖像分類系統之間一個關鍵不同之處在於，聲級（acoustic level）上並無用於音素分類的真值（ground truth），所述真值僅存在詞或字母的級別。因此，初步分類（preliminary classification）會使用其他機制來提供，而初步分類會接著用於為訓練級中每個輸入特徵產生每個類別的軟標記。

在聲音模型分類中，每個輸入聲音特徵通常針對最符合的音素而標記為1，否則為0。這種二進位標示法是在稱為對準（alignment）的處理中，對來自如隱馬爾可夫模型（hidden Markov Model；HMM）、高斯混合模型HMM（Gaussian mixture model as HMM；GMM-HMM）等較簡易模型或另一種較簡易神經網路的分類得分上進行硬決策解碼（hard decision decoding）而產生。

在根據本揭露的一實施例中，軟標記可替代基於硬決策解碼的硬決策標示法，而由來自較簡易模型/機制（例如，前文提及的HMM以及GMM-HMM分類機制，或者較簡易預訓練神經網路）的分類得分直接產生。或者，軟標記可從輸入聲音特徵幀（input acoustic feature frame）上的列表解碼器（list decoder）提取。列表解碼器提供最可能（most probable）的音素序列的清單，而非列表解碼器僅提供最可信（most plausible）的音素序列。聲音特徵幀對應至所測得語音的聲音特徵的時間窗區（temporal window）。選定

個最佳途徑（paths），從中可提取軟分類標記（soft classification label），以使每個可能音素對應於每個經對準輸入聲音特徵。這些軟標記可經配置用以訓練整個分類網路。

在一實施例中，最大相似度解碼是用以提取所述軟標記。假設輸入聲音特徵向量為

，而

為經由一格（a trellis of）音素

的所有可能途徑的集合—即，

為用於輸入聲音特徵向量

的音素

的所有可能經對準排序

之集合。如此，則待分類排序

中的第

個幀的軟標記是

可被分類為可能音素

其中之一的概率，如方程式(9)所示：<img wi="375" he="79" file="IMG-2/Draw/02_image081.gif" img-format="jpg">

從上述方程式(9)可看出，這種軟標示法方案亦符合前文所述與方程式(4)相關的「總和除以全部類別為1」此種標記標準。換句話說，若

為所有可能音素的集合，則

。

)，第

個可能排序

在給定輸入聲音特徵向量

下，其概率可從途徑的聚集度量（aggregated metric）計算出。

若使用的是距離度量（distance metric），且其中第

個可能排序

具有長度

，則

可視為平方距離度量，並可如方程式(10)(a)所示來決定：<img wi="221" he="76" file="IMG-2/Draw/02_image097.gif" img-format="jpg">

相似度與平方距離度量呈反比且可由方程式(10)(b)來給定。<img wi="153" he="41" file="IMG-2/Draw/02_image099.gif" img-format="jpg">

為本領域具有通常知識者所熟知的是，向前-向後演算法（forward-backward algorithm）可用以在不具指數複雜度（exponential complexity）下估算最大後驗（maximum a posteriori；MAP）解

。

若使用了列表解碼方案或

-最佳解碼器，其使用非MAP解碼器而僅輸出

- 最佳序列，則可藉由將方程式(9)的加總限制在僅能為

- 最佳排序的狀況下，進一步地降低複雜度。用數學術語來說，若

對應於從列表解碼器或

-最佳解碼器輸出的具有大小為

的序列的

的子集合，則用於序列

中第

個幀（位於集合

內）的軟標記是

可被分類為可能音素

其中之一的概率，如方程式(11)所示：<img wi="381" he="79" file="IMG-2/Draw/02_image111.gif" img-format="jpg">

如上述實施例所示，本文中述及的軟標示技術具有多種新穎態樣，包括在分類階段中基於檢測邊界框與真實邊界框間交集面積來標示圖像。軟標示法提供了各式各樣可能的分配方案，例如，標記值0或1可與基於檢測邊界框與真實邊界框間交集面積且範圍介於0與1之間的可變標記數值並用（參見，例如，上述的方程式(6)(a)）。儘管時而稱作「混合式」或者硬標示法與軟標示法的組合，上述分配方案為本揭露所用術語「軟標示法」所涵蓋無誤。

如上所述，實驗結果展現了在使用若干普及的數據集來進行物件檢測時，軟標示法性能可較優於硬標示法。

當多個真實框在檢測邊界框中互相重疊時，根據本揭露，可使用許多方法來確保標記數值加總起來仍然為1。先前探討的兩個範例為拆分類別之間的重疊面積（參見，例如，與方程式(7)(a)～(7)(c)相關的說明）以及將整個重疊面積分配給具有來自檢測階段的最高信心度得分的類別（參見，例如，與方程式(8)(a)～(8)(c)相關的說明）。然而，本領域具有通常知識者應可意識到，亦可用許多其他方法在標記分配方案中操控與檢測邊界框重疊的多個類別，以確保概率（標記數值）的總和加起來後仍為1。

而且，本文中所述軟標示技術不限於圖像分析及/或檢測與分類階段兼具的深層學習系統。如上所述，軟標示技術可與應用於聲音模型及語音辨識的深層學習系統並用，其中並不具有與圖像分析相同形式的檢測階段。重述一次，以上僅為範例，本領域具有通常知識者應可意識到，根據本揭露的軟標示法可用於訓練在其他應用層面中的深層學習機器/系統。

圖4是根據本揭露一實施例所繪示之一般訓練深層學習方法的流程圖。在410中，接收用於分類的候選單元。針對用於圖像的深層學習機器，檢測階段會產生候選檢測邊界框，其通常伴隨有信心度得分。針對用於聲音的深層學習機器，將接收輸入音訊音訊特徵的音素。在420中，候選單元是藉由軟標示法來分類，其中至少一個標記具有範圍介於0與1之間的多個可能數值。針對用於圖像的深層學習機器，至少部份基於檢測邊界框與真實邊界框的重疊處，分類階段會為檢測邊界框產生類別的軟標記。針對用於聲音的深層學習機器，用於輸入音訊特徵的音素的軟標記可由使用概率模型及/或使用神經網路（例如，隱馬爾可夫模型（HMM）、高斯混合模型HMM（GMM-HMM)、較簡易預訓練神經網路、最大相似度解碼、距離度量、軟輸出解碼演算法或列表解碼方案）產生的分類得分來直接產生。

承上，根據本揭露的軟標示法分配方案，這些方案包括僅有一個標記採用範圍介於0與1之間的幾個數值，而一或多個其他標記僅採用0或1作為其數值（就「硬」標記僅可為0或1而「軟」標記可採用範圍介於0與1之間的數值的涵義上，這些方案亦可稱為「混合式」方案）。

圖5是根據一實施例所繪示之本揭露用於訓練深層學習裝置的示意圖。裝置500包括至少一處理器510以及一或多個非暫態電腦可讀媒體520。在執行儲存於一或多個非暫態電腦可讀媒體520的指令時，至少一處理器510進行以下步驟：接收用於分類的候選單元；以及藉由軟標示法分類候選單元，其中軟標示法提供至少一個標記，其包括介於0與1之間的多個可能數值。此外，所述一或多個非暫態電腦可讀媒體520儲存有用以使至少一處理器510進行上列步驟的指令。

圖6是根據一實施例所繪示之用以製作及測試本揭露裝置的例示性流程圖。

在650中，製作可訓練深層學習的裝置（此範例中為晶片組），其包括至少一個處理器以及一或多個非暫態電腦可讀媒體。在執行儲存於一或多個非暫態電腦可讀媒體上的指令時，所述至少一個處理器進行以下步驟：接收用於分類的候選單元；以及藉由軟標示法分類候選單元，其中軟標示法提供至少一個標記，其包括介於0與1之間的多個可能數值。所述一或多個非暫態電腦可讀媒體儲存有用以使所述至少一個處理器進行上列步驟的指令。

在660中，測試該裝置（此範例中為晶片組）。660的測試包括測試該裝置是否具有至少一個處理器，其於執行儲存於一或多個非暫態電腦可讀媒體的指令時可進行包括下述步驟的深層學習訓練：接收用於分類的候選單元，以及藉由軟標示法分類候選單元，其中所述軟標示法提供至少一個標記，其包括介於0與1之間的多個可能數值；以及測試該裝置是否具有所述一或多個非暫態電腦可讀媒體，其儲存有用於使所述至少一個處理器進行以下步驟的指令：接收用於分類的候選單元，以及藉由軟標示法分類候選單元，其中所述軟標示法提供至少一個標記，其包括介於0與1之間的多個可能數值。

本領域具有通常知識者應可理解，上述關於本揭露的一實施例所描述的步驟及/或操作可取決於特定實施例及/或實施方式而以不同次序或歷時不同時期等等而並行地或同時地發生。不同實施例可以不同次序或藉由不同方式或手段執行動作。本領域具有通常知識者應可理解，一些圖式是所執行動作的簡化表示，其在本文中的描述為簡化的概覽，而在現實世界中其實施方式將更加複雜，需要更多階段及/或組件且亦取決於特定實施方式的要求而有所變化。作為簡化表示，此等圖式並不展示其他所需步驟，源於此等步驟可為在本領域具有通常知識者所知及理解，且可能不與本描述有關及/或對本描述有幫助。

類似地，本領域具有通常知識者應可理解，一些圖式是僅展示有關組件的簡化方塊圖，且此等組件中的一些僅表示本領域中熟知的功能及/或操作，而非實際的硬體元件。在這些情況下，組件/模組中的一些或全部可以多種方式及/或方式組合被實施或提供，諸如至少部分地以韌體及/或硬體，包含但不限於一或多個特殊應用積體電路（application-specific integrated circuit；ASIC）、標準積體電路、執行適當指令的控制器，且包含微控制器及/或嵌入式控制器、場可程式化閘陣列（field-programmable gate array；FPGA）、複雜可程式化邏輯設備（complex programmable logic device；CPLD）及類似者。系統組件及/或資料結構中的一些或全部亦可作為內容（例如，作為可執行或其他機器可讀軟體指令或結構化資料）而儲存於非暫態電腦可讀媒體（例如，作為硬碟、記憶體、電腦網路或蜂巢式無線網路或其他資料傳輸媒體；或待由適當磁碟機或經由適當連接件（諸如DVD或快閃記憶體元件）讀取的可攜式媒體物品）上，藉以啟用或組態電腦可讀媒體及/或一或多個關聯計算系統或設備，以便執行或者以其他方式使用或提供內容執行至少一些所描述的技術。

可使用一或多個處理器、簡單微控制器、控制器及類似者（無論單獨地抑或呈多處理配置）以執行儲存於非暫態電腦可讀媒體上的指令序列，藉以實施本揭露的實施例。在一些實施例中，可代替或結合軟體指令而使用硬連線電路系統。因此，本揭露的實施例並不限於硬體電路系統、韌體及/或軟體的任何特定組合。

如本文中所使用的術語「電腦可讀媒體」指代儲存有可提供予處理器執行的指令的任何媒體。此類媒體可以許多形式呈現，包含但不限於非揮發性媒體或揮發性媒體。舉例而言，非暫態電腦可讀媒體的常見形式包含軟碟、可撓性磁碟、硬碟、磁帶或任何其他磁性媒體、CD-ROM、任何其他光學媒體、打孔卡、紙帶、具有孔圖案的任何其他實體媒體、RAM、PROM及EPROM、FLASH-EPROM、任何其他記憶體晶片或卡匣、或儲存有可由處理器執行的指令的任何其他媒體。

本揭露的一些實施例可至少部分地在可攜式設備上實施。如本文中所使用的「可攜式設備」及/或「行動設備」指代有接收無線信號能力的任何可攜式或可移動電子設備，包含但不限於多媒體播放器、通信設備、計算設備、導航設備等。因此，行動設備包含（但不限於）使用者裝備（user equipment；UE）、膝上型電腦、平板電腦、可攜式數位助理（Portable Digital Assistant；PDA）、mp3播放器、手持型PC、即時傳訊設備（Instant Messaging Device；IMD）、蜂巢式電話、全球導航衛星系統（Global Navigational Satellite System；GNSS）接收器、手錶、或可穿戴及/或攜帶於某個人身上的任何此類設備。

鑑於本揭露，本領域具有通常知識者應可理解，本揭露的各種實施例可實施於積體電路（integrated circuit；IC）中，積體電路亦被稱為微晶片、矽晶片、電腦晶片或僅僅被稱為「晶片」。此類IC可為（例如）寬頻及/或基頻數據機晶片。

儘管已描述若干實施例，但應理解，可在不脫離本揭露的範疇的情況下對其進行各種修改。因此，對於在本領域具有通常知識者將顯而易見，本揭露並不限於本文中所描述的實施例中的任一者，而是具有僅由所附申請專利範圍及其等效者界定的涵蓋範圍。

110、210、310‧‧‧檢測框115、215、325、335、345‧‧‧重疊處120、220、320、330‧‧‧真實框410、420、650、660‧‧‧步驟510‧‧‧處理器520‧‧‧電腦可讀非暫態媒體

以上及本揭露的特定實施例的其他態樣、特徵以及優點將自結合隨附圖式的以下詳細描述更顯而易見，在圖式中：圖1繪示一種在可應用本揭露的實施例之深層學習訓練處理中的分類階段用於類別/物件A的檢測框110以及真實框120的範例；圖2是根據一實施例所繪示之使用檢測框210以及真實框220的軟標示法分配方案的範例；圖3是根據一實施例所繪示之在具有三種類別（即，多個真實框)的情況下，軟標示法分配方案的範例；圖4是根據一實施例所繪示之一般訓練深層學習方法的流程圖；圖5是根據一實施例所繪示之本揭露裝置的示意圖；以及圖6是根據一實施例所繪示之用以製作及測試本揭露裝置的例示性流程圖。

310‧‧‧檢測框

320、330‧‧‧真實框

325、335、345‧‧‧重疊處

Claims

一種訓練深層學習之方法，包括：接收用於分類的候選單元，所述候選單元包括真實邊界框與檢測框之間的交集面積；以及藉由軟標示法分類所述候選單元，其中所述軟標示法基於在所述交集面積中測得給定特徵的概率，提供至少一標記，所述標記包括介於0與1之間的多個可能數值。
如申請專利範圍第1項所述的訓練深層學習之方法，其中所述候選單元為圖像中或輸入音訊特徵的音素。
如申請專利範圍第1項所述的訓練深層學習之方法，其中該軟標示法包括：基於用於一類別的所述交集面積為該檢測框提供該類別的標記。
如申請專利範圍第3項所述的訓練深層學習之方法，其中提供該類別的該標記的步驟包括：分配類別標記，所述類別標記的數值是使用所述交集面積而推導出。
如申請專利範圍第3項所述的訓練深層學習之方法，其中提供該類別的該標記的步驟包括：分配類別標記，所述類別標記的數值是從涉及所述交集面積的比率推導出。
如申請專利範圍第5項所述的訓練深層學習之方法，其中分配該類別標記的步驟包括：計算所述交集面積佔該檢測框的總體面積的比率。
如申請專利範圍第3項所述的訓練深層學習之方法，其中提供該類別的該標記的步驟是基於一或多個臨界值。
如申請專利範圍第7項所述的訓練深層學習之方法，其中提供該類別的標記的步驟包括：若基於所述交集面積的數值低於第一臨界值，分配0的類別標記；若基於所述交集面積的該數值高於第二臨界值，分配1的類別標記；以及若所述交集面積的該數值為於該第一臨界值、該第二臨界值或介於所述第一與第二臨界值之間，分配基於所述交集面積的該數值的類別標記。
如申請專利範圍第8項所述的訓練深層學習之方法，其中基於所述交集面積的該數值為所述交集面積佔該檢測框的總體面積的比值。
如申請專利範圍第3項所述的訓練深層學習之方法，其中為該檢測框提供該類別的該標記的步驟亦基於由檢測階段所提供的一或多個可信度，而該檢測框亦為該檢測階段所提供。
如申請專利範圍第3項所述的訓練深層學習之方法，其中為該檢測框提供該類別的該標記的步驟包括：基於用於第一類別的所述交集面積為該檢測框提供該第一類別的標記；以及基於用於第二類別的所述交集面積為該檢測框提供該第二類別的標記。
如申請專利範圍第1項所述的訓練深層學習之方法，其中所述候選單元為輸入音訊特徵的音素，以及其中該軟標示法包括：從來自機率模型或神經網路的分類得分直接產生軟標記。
如申請專利範圍第1項所述的訓練深層學習之方法，其中所述候選單元為輸入音訊特徵的音素，以及其中該軟標示法包括：從來自隱馬爾可夫模型(HMM)、高斯混合模型(GMM)或預訓練神經網路的分類得分直接產生軟標記。
如申請專利範圍第1項所述的訓練深層學習之方法，其中所述候選單元為輸入音訊特徵的音素，以及其中該軟標示法包括：使用最大相似度解碼法、距離度量、軟輸出解碼演算法或列表解碼方案來產生軟標記。
一種訓練深層學習之裝置，包括：一或多個非暫態電腦可讀媒體；以及至少一個處理器，其於執行儲存於所述一或多個非暫態電腦可讀媒體中的指令時進行以下步驟：接收用於分類的候選單元，所述候選單元包括真實邊界框與檢測框之間的交集面積；以及藉由軟標示法分類所述候選單元，其中所述軟標示法基於在所述交集面積中測得給定特徵的概率，提供至少一標記，所述至少一標記包括介於0與1之間的多個可能數值。
如申請專利範圍第15項所述的訓練深層學習之裝置，其中該軟標示法包括：基於用於一類別的所述交集面積為該檢測框提供該類別的標記。
如申請專利範圍第15項所述的訓練深層學習之裝置，其中所述候選單元為輸入音訊特徵的音素，以及其中該軟標示法包括：從來自機率模型或神經網路的分類得分直接產生軟標記。
一種晶片組製作方法，包括：製作可深層學習訓練的晶片組，所述深層學習訓練包括：提供至少一處理器，所述至少一處理器於執行儲存於一或多個非暫態電腦可讀媒體中的指令時進行以下步驟：接收用於分類的候選單元，所述候選單元包括真實邊界框與檢測框之間的交集面積；以及藉由軟標示法分類所述候選單元，其中所述軟標示法基於在所述交集面積中測得給定特徵的概率，提供至少一標記，所述至少一標記包括介於0與1之間的多個可能數值；以及提供儲存有所述指令的所述一或多個電腦可讀媒體。
一種用於測試裝置的方法，包括：測試該裝置是否具有至少一處理器，所述至少一處理器於執行儲存於一或多個非暫態電腦可讀媒體的指令時可進行包括下述步驟的深層學習訓練：接收用於分類的候選單元，所述候選單元包括真實邊界框與檢測框之間的交集面積；以及藉由軟標示法分類所述候選單元，其中所述軟標示法基於在所述交集面積中測得給定特徵的概率，提供至少一標記，所述至少一標記包括介於0與1之間的多個可能數值；以及測試該裝置是否具有儲存有所述指令的所述一或多個非暫態電腦可讀媒體。