TWI754660B - 訓練深層學習分類網路之系統和方法 - Google Patents
訓練深層學習分類網路之系統和方法 Download PDFInfo
- Publication number
- TWI754660B TWI754660B TW106127398A TW106127398A TWI754660B TW I754660 B TWI754660 B TW I754660B TW 106127398 A TW106127398 A TW 106127398A TW 106127398 A TW106127398 A TW 106127398A TW I754660 B TWI754660 B TW I754660B
- Authority
- TW
- Taiwan
- Prior art keywords
- deep learning
- soft
- class
- label
- intersection area
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013135 deep learning Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 title claims abstract description 41
- 238000001514 detection method Methods 0.000 claims abstract description 88
- 238000002372 labelling Methods 0.000 claims abstract description 72
- 238000012360 testing method Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 239000000203 mixture Substances 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims 2
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本揭露提供多種裝置及其製作方法,以及訓練深層學習機器的系統和方法。在一態樣中,候選單元(例如,圖像中的檢測邊界框或者輸入音訊特徵的音素)使用軟標示法來分類,其中在圖像的情況下,基於檢測邊界框與用於一或多個類別的一或多個真實邊界框的重疊處,至少一標記具有範圍介於0與1之間的可能數值。
Description
本揭露是有關於一種深層神經網路,且特別是有關於一種訓練深層學習分類網路之系統和方法。
機器學習技術正不斷地演進,且已開始支援現代社會的許多態樣,其範圍從網頁搜尋(web search)、內容篩選(content filtering)、商家網站上的自動化推薦(automated recommendation)、自動化競賽(automated game playing),到物件檢測(object detection)、圖像分類(image classification)、語音辨識(speech recognition)、機器翻譯(machine translation)、藥物探索(drug discovery)以及染色體組(genomic)。機器學習領域中的當前技術形態是深層神經網路,深層神經網路使用由多個處理層構成的計算模型,所述處理層學習具有多個抽象層次的資料(通常是極大量的資料)的表示—在此為術語「深層學習(deep learning)」、「深層網路(deep network)」等等。參見(例如)楊立昆(LeCun, Yann)、約書亞本吉奧(Yoshua Bengio)及傑弗里·辛頓(Geoffrey Hinton)的「深層學習(Deep learning)」(《自然(Nature)》,第521卷,第436頁至第444頁(2015年5月28日)),其全文以引用的方式併入本文中。
在物件檢測與分類的機器學習中的第一階段為訓練(training)。針對圖像方面,訓練的進行使用了諸如人、寵物、車輛、房子等圖像的大數據集,其中每張圖像或圖像中的部份以一相對應的種類(category)或類別(class)來標示。另外,亦有一些公用的數據集。這種涉及圖像的訓練可分成如下兩個部份/階段:(1)檢測,於此階段檢測圖像中的候選/受檢測框(通常是基於位於框(box)內之物件(object)/類別的可信度,但亦可為隨機剪切(crops)),以及(2)分類,於此階段會基於檢測框與「真實(ground-truth)」框(即在數據集的圖像中這些框已知是含有前述物件/類別)的重疊處將標記分配給檢測框。
因此,本揭露已作出以至少處理本文中所描述的問題及/或缺點且至少提供下文所描述的優點。
根據本揭露的一種態樣,提供有一種訓練深層學習之方法,其包括接收用於分類的候選單元,以及藉由軟標示法分類候選單元,其中所述軟標示法提供至少一標記,其包括介於0與1之間的多個可能數值。
根據本揭露的一種態樣,提供有一種訓練深層學習之裝置,其包括一或多個非暫態電腦可讀媒體;以及至少一個處理器,其於執行儲存於一或多個非暫態電腦可讀媒體中的指令時進行以下步驟:接收用於分類的候選單元,以及藉由軟標示法分類候選單元,其中所述軟標示法提供至少一標記,其包括介於0與1之間的多個可能數值。
根據本揭露的一種態樣,提供有一種製作可訓練深度學習的晶片組之方法,所述晶片組包括至少一個處理器,其於執行儲存於一或多個非暫態電腦可讀媒體中的指令時進行以下步驟:接收用於分類的候選單元,以及藉由軟標示法分類候選單元,其中所述軟標示法提供至少一標記,其包括介於0與1之間的多個可能數值;以及儲存有所述指令的所述一或多個電腦可讀媒體。
根據本揭露的一種態樣,提供有一種用於測試裝置之方法,其包括測試該裝置是否具有至少一處理器,其於執行儲存於一或多個非暫態電腦可讀媒體的指令時可進行包括下述步驟的深層學習訓練:接收用於分類的候選單元,以及藉由軟標示法分類候選單元,其中所述軟標示法提供至少一標記,其包括介於0與1之間的多個可能數值;以及測試該裝置是否具有儲存有所述指令的所述一或多個非暫態電腦可讀媒體。
以下,將參考隨附圖式來詳細地描述本揭露的實施例。應注意,儘管在不同圖式中示出相同元件,但相同元件仍由相同圖式元件編號來標定。在以下說明中,諸如詳細配置及組件等具體細節僅供助於全面理解本揭露的各實施例。因此,熟習此項技術者應理解,可在不背離本揭露範疇下對本文所述的實施例做出各種變化及修改。另外,為清晰及簡明起見,省略了對熟知功能及構造的說明。下文所述用語是考慮到本揭露中的功能因而定義的用語,且可根據使用者、使用者的意圖、或習慣而有所不同。因此,用語的定義應基於本說明書通篇的內容來確定。
本揭露可具有各種潤飾及各種實施例,以下將參考附圖詳細地闡述各種實施例當中的實施例。然而,應理解,本揭露並非僅限於所述實施例,而是包括處於本揭露的範圍內的所有潤飾、等效形式、及替代形式。
儘管各種元件可能使用包括例如「第一」、「第二」等序數的用語來闡述,但結構元件不受所述用語限定。所述用語僅用以區分一個元件與另一元件。舉例而言,在不脫離本揭露範疇下,可將第一結構元件稱作第二結構元件。類似地,第二結構元件亦可被稱作第一結構元件。本文所用的用語「及/或」包括一或多個關聯項目中的任何及所有組合。
本文所用的用語僅用於闡述本揭露的各種實施例,而並非旨在限制本揭露。除非上下文另有明確指示,否則單數形式意欲包含複數形式。在本揭露中,應理解,用語「包括」或「具有」指示特徵、數字、步驟、操作、結構元件、部件、或其組合的存在,且並不排除一或多個其他特徵、數字、步驟、操作、結構元件、部件、或其組合的存在或添加的可能性。
除非有不同的定義,否則本文中所用全部用語具有與熟習本揭露所屬技術者所理解的含義相同的含義。此種用語(例如常用字典中所定義的用語)應解釋為具有與在相關技術領域中的上下文含義相同的含義,且除非在本揭露中明確定義,否則不應解釋為具有理想或過於正式的含義。
各種實施例可包含一或多個元件。元件可包含經配置以執行某些操作的任何結構。儘管一實施例可以作為描述呈特定配置且具有限數目個元件之範例,然為達成給定實施方式,所述實施例可視需要包含呈替代配置的更多或更少元件。值得注意的是,任何對「一個實施例」或「一實施例」的參考皆意謂結合所述實施例所描述的特定特徵、結構或特性包含於至少一個實施例中。片語「一個實施例」(或「一實施例」)在本說明書中的各處的出現未必指代同一實施例。
在本案中,用語「框」(box)可與用語「邊界框」(bounding box)交換使用。
本案將機器學習應用在取得、處理、分析以及理解數位圖像等方法,亦即運用在,例如,對圖像或圖像的一部份中的所有物進行物件檢測、物件辨識以及物件分類。
本揭露實施例針對「軟標示法」(soft labelling,將於下文詳述)進行說明,其於訓練過程中可提供較高效率和準確性。
一般而言,與圖像相關的標示法是基於檢測候選邊界框與用於一或多個類別/物件/種類的一或多個真實(ground-truth)邊界框的重疊處將所述類別/物件/種類分配給檢測候選邊界框。
圖1繪示分類階段中用於類別/物件A的檢測框110以及真實框120的範例。檢測(邊界)框110覆蓋面積,且真實(邊界)框120覆蓋面積。傳統上,用於類別/物件A的檢測框110在分類階段中是根據方程式(1)來決定:<img wi="455" he="108" file="IMG-2/Draw/02_image006.gif" img-format="jpg">
其中為檢測框110與真實框120的重疊處的面積,如圖1中標有參考編號115的陰影面積所示,而為檢測框110與真實框120面積的聯集(即,檢測框110與真實框120兩者面積的總和減去陰影面積115)。
根據方程式(1),用於類別/物件A的檢測框110其標記為簡單的二進位數值,其中當超過一半的檢測框110與真實框120重疊時,該標記=1,且當檢測框110有一半或少於一半與真實框120重疊的面積時,該標記=0。圖1中,由於重疊面積少於一半,用於類別/物件A的檢測框110的標記將為0。
這些標記是用以決定及校正機器誤差的一部份。一般而言,在訓練中,機器會修改其內部可調參數以減少從目標函數計算出的誤差。此時,目標函數可想成是就已知真實框而產生檢測框標記,藉以衡量誤差(或距離)。所述機器的內部可調參數,通常稱為權重(weight),是用以定義機器的輸入-輸出函數。在傳統的深層學習系統中,可能具有億萬個此種內部可調權重/參數,以及用來訓練機器的億萬個標示過的範例。
因此,訓練過程中,標示法會影響深層學習機器/網路的效率和準確性。
如上所述,習知的標示法對每個檢測候選邊界框的每個類別/物件/種類為非1即0(以下,將此種離散二進制標示法(discrete binary labelling)稱作硬標示法(hard labelling))。然而,在訓練階段中決定機器的內部可調參數/權重時,硬標示法會導致精準度上的損失。
在訓練時,將給定標記 t
及測得特徵z下參數 θ
的相似度最大化等同於將誤差 ε
最小化,亦即,將方程式(2)所示的負對數相似度函數(negative log-likelihood function)最小化:<img wi="379" he="93" file="IMG-2/Draw/02_image012.gif" img-format="jpg">
其中 C
為類別的總數, ti
為類別 i
的標記(其中 i
= 1, 2, ..., C
),且 yi
為給定測得特徵 z
下類別 i
的softmax概率(softmax probability)。舉例而言, yc
,其為給定測得特徵 z
下類別 c
的softmax概率(即,),可使用方程式(3)計算出:<img wi="275" he="75" file="IMG-2/Draw/02_image016.gif" img-format="jpg">
然而,在以硬標示法訓練時,根據用於輸入特徵 z
的真實標示法(ground truth labelling), tc
在類別 c
是真實類別(true class)時僅會等於1,否則等於0。可參見上述方程式(1)。這意味著僅有用於真實類別 c
的softmax概率能有助於方程式(2)中的加總。
在本揭露各實施例中,所述標記並非二進位,而可為取自0至1之間的任意值—即, tc
為[0,1]之間的浮點(float)值(以下,稱為「軟標示法」)。以這種方式,方程式(2)中的精準度損失可計算成來自所有類別的softmax機率(大和小)全部的加權和(weighted sum)。雖然下文中探討了幾種特定的分配技術,本領域具有通常知識者應可理解,軟標示法中用以分配[0,1]之間的浮點值實際上有無限種可能的選擇。
在探討採用軟標示法的分配方案的範例前,需要先確認軟標示法仍能允許反向傳播(back-propagation)的正確進行。方程式(2)中的對數相似度函數亦為交叉熵(cross-entropy)誤差函數。在進行用於類別 i
的反向傳播時,交叉熵誤差函數相對於softmax所測得輸出 zi
的導數可藉由方程式(4)來計算:<img wi="138" he="53" file="IMG-2/Draw/02_image024.gif" img-format="jpg">
因此,本領域具有通常知識者應可理解,只要(即,只要標記的總和除以用於相同輸入特徵的所有類別為1),此方程式便成立,對硬標示法以及軟標示法兩者來說皆然。也就是說,上述方程式(4)用於軟標示法時,由於標記之總和與上述一致因而仍然成立。
圖2是根據一實施例所繪示之使用檢測框210以及真實框220的軟標示法分配方案的範例。
圖2中,檢測框210覆蓋面積,而真實框220覆蓋面積,且兩者交集於交集面積215。因為圖2中存在兩種類別「A」以及「background」,檢測框210分別需要兩種標記: LA
以及 Lbg
。用於類別/物件A及類別/物件background的檢測框210其標記是根據方程式(5)(a)及(5)(b)來決定:<img wi="175" he="79" file="IMG-2/Draw/02_image028.gif" img-format="jpg"><img wi="141" he="44" file="IMG-2/Draw/02_image030.gif" img-format="jpg"><img wi="175" he="65" file="IMG-2/Draw/02_image032.gif" img-format="jpg">
其中為檢測框210與真實框220的交集/重疊處的面積,如圖2中標有參考編號215的陰影面積所示。因此,方程式(5)(a)中,標記 LA
等於經檢測框210的面積正規化之後的兩框的交集面積215,而標記 Lbg
則等於正規化後的餘數,即,1減去用於類別A的軟標記 LA
。這種軟標示法滿足的限制。
在根據本揭露另一實施例的軟標示法分配方案中,使用了臨界值在0、1以及由交集與總體檢測框的比值所決定的可變數值之間作選擇。更具體而言,以圖2中所用的框為例,用於類別/物件A及類別/物件background的檢測框210是根據方程式(6)(a)及(6)(b)來決定:<img wi="440" he="215" file="IMG-2/Draw/02_image036.gif" img-format="jpg"><img wi="141" he="44" file="IMG-2/Draw/02_image030.gif" img-format="jpg">
其中,若交集面積大於臨界值 b
, LA
= 1;若交集面積小於臨界值 a
, LA
= 0;其他情況下, LA
= 交集的經正規化值(即,交集除以檢測框的總面積)。因這種軟標示法方案是將0及1分配至面積範圍,其可視為軟標示法與硬標示法的綜合,或稱為混合式(hybrid)標示法方案。然而,即使0及1也分配到其他標記,任何使用[0,1]範圍內數值的標記分配方案仍為軟標示法。
圖3是根據一實施例所繪示之在具有多種類別(即,多個真實框)的情況下,軟標示分配方案的範例。也就是說,圖2僅考慮到類別A及預設類別(即,background),而圖3則考慮到類別A及B外加預設類別background。
圖3中,檢測框310覆蓋面積,用於類別A的真實框320覆蓋面積,而用於類別B的真實框330覆蓋面積。三個框都有交集的面積由網格框345來標示;僅有檢測框310與用於類別A的真實框320交集的面積由呈反Γ形的劃橫線部分325來標示;而僅有檢測框310與用於類別B的真實框330交集的面積由呈L形的劃直線部分335來標示。基此,檢測框310與用於類別A的真實框320的總重疊處為網格框345與劃橫線部分325兩者(=),而檢測框310與用於類別B的真實框330的總重疊處為網格框345與劃直線部分335兩者(=)。網格框345不僅為三個框的重疊處,也是兩個真實框的重疊處,因此。
根據本揭露的一實施例,用於類別/物件A( LA
)、類別/物件B( LB
)以及background( Lbg
)的檢測框310的標記是根據方程式(7)(a)至(7)(c)來決定:<img wi="467" he="90" file="IMG-2/Draw/02_image048.gif" img-format="jpg"><img wi="469" he="90" file="IMG-2/Draw/02_image050.gif" img-format="jpg"><img wi="205" he="44" file="IMG-2/Draw/02_image052.gif" img-format="jpg">
基此,在被正規化(即,除以檢測框310的總面積)之前,方程式(7)(a)中檢測框310與用於類別A的真實框320的交集/重疊處(=)以及方程式(7)(b)中檢測框310與用於類別B的真實框330的交集/重疊處(=)各自減去用於類別A的真實框320與用於類別B的真實框330的交集/重疊處的一半(= 網格框345 =)。
也就是說,真實框間的重疊面積在分配標記時已分為一半。
在另一實施例中,重疊面積被分配以具有最高信心度得分的類別(來自前一檢測階段)。舉例而言,若檢測框310具有用於類別A的較高信心度得分,用於類別/物件A( LA
)、類別/物件( LB
)以及background( Lbg
)的檢測框310的標記會根據以下方程式(8)(a)至(8)(c)來決定:<img wi="191" he="79" file="IMG-2/Draw/02_image058.gif" img-format="jpg"><img wi="406" he="90" file="IMG-2/Draw/02_image060.gif" img-format="jpg"><img wi="205" he="44" file="IMG-2/Draw/02_image052.gif" img-format="jpg">
上述參考圖3以及方程式(7)(a)~(7)(c)與(8)(a)~(8)(c)的分配方案兩者皆可歸納成任意數量的類別。
在本揭露的一實施例中,檢測框是使用主要物件檢測及分類框架(primary object detection and classification framework),例如單發檢測器(single shot detector;SSD,其用於物件候選產生器中)來產生。候選檢測接著由次要分類網路(secondary classification network)進一步分類以歸屬至感興趣的類別(class of interest)。關於上述框架的詳細說明,可參見杜等人(Du et al.)的「融合DNN:一種快速與強健的行人檢測用深層神經網路融合方法(Fused DNN: A deep neural network fusion approach to fast and robust pedestrian detection)」,arXiv:1610.034466v1(2016年10月11日),其全文以引用的方式併入本文中。在此框架中,來自主要網路的候選物件檢測與真實框重疊,以進一步將其以物件的種類/類型標示。在本揭露的實施例中,次要分類網路是使用如上述各類別的相關重疊面積,藉由軟標記來訓練。相較之下,習知的硬標記是根據兩框交集除以它們的聯集面積之後是否大於50%(即,上述方程式(1))來產生,且僅可應用於一個類別與所述預設的background類別的情況。
在使用ETH及INRIA數據集(如Ess等人在《關於電腦視覺和模式識別(Computer Vision and Pattern Recognition;CVPR’08)的IEEE會議,IEEE Press(2008年六月)》中的「用於強健多人追踪的移動視覺系統」(A mobile vision system for robust multi-person tracking)所定義,其全文以引用的方式併入本文中)來訓練深層學習機器(即,ResNet以及GoogleNet)以檢測圖像中行人的實驗/模擬中,應用了使用如上述方程式(6)(a)~(6)(b)等臨界值/邊界值的軟標示技術。詳言之,用於重疊處的較低臨界值為0.3,若低於該值則分配0的標記;而較高臨界值為0.7,若高於該值則分配1的標記。在0.3與0.7間,此範圍內可變數值被分配為標記,其具體的數值取決於所用的方程式而定(例如,方程式(5)(a)、(6)(a)、(7)(a)、(7)(b)等)。在另一種實驗/模擬中,臨界值為0.4及0.6。
由於使用了候選邊界框與真實邊界框之間的重疊比率(overlap ratio)來分配標記,軟標示法不但標明了每個候選邊界框中是否存在有行人(即,物件),更提供每個(內含行人的)候選邊界框中行人佔據了多少面積。這方式特別適用在重疊比率約為0.5且硬標示法處於邊界線(borderline)的邊界情況下。在行人漏檢率(missed detection rate)的性能比較上,與來自ETH數據集上的硬標記方法所能達成的33%行人漏檢率相較下,混合式軟-硬標示方案更可達30.4%。
根據本揭露的軟標示法可應用在如基於區域的卷積神經網路(region-based convolutional neural networks;R-CNN)等多工深層學習方法。可參見,例如,仁等人(Ren et al.)的「更快的R-CNN:通過區域提案網路實現即時物件檢測」(Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks),arXiv:1506.01497v3(2016年1月6日),其全文以引用的方式併入本文中。在所述網路中,區域提案網路(RPN)提供了物件有無檢測(object/no object detection)。這些檢測接著更藉由關注區域(region of interest;ROI)分類層,而分類成類別其中之一。在應用軟標示法的一實施例中,軟標記是由來自RPN的檢測輸出所產生。且可使用任何軟標示分配方案,包括多階層的臨界值的使用,其中若兩個層級(tiers)中分配有0和1,則可稱之為涉及軟標示法和硬標示法組合的「混合式」方案,然根據本文所用術語的含義則可稱之為軟標示法分配方案無誤。相較於僅會從對應真實類別的檢測而將多工深層學習方法中的梯度(gradients)反向傳播的硬標示法,軟標示法提供了更高的精確度與準確性。
在上述實施例中,假設了兩個階段:檢測及分類,其中檢測階段產生類別/物件檢測框以及類別/物件真實框,其相關重疊比率是用以在分類階段中分配軟標記。基此,分類階段可視為是为每个檢測候選決定每個類別的先驗概率(a priori probability)所做的努力,其中概率總和(sum of probabilities)為1。然而,一般來說,軟標示技術有較廣泛的應用且不需要檢測階段。
廣義來說,根據本揭露的軟標示法可用作一種為基於輸入特徵的分類而產生先驗概率的機制。本領域具有通常知識者應可理解,用來產生此種先驗概率的特定方法是取決於所處情境(the context)。
在非檢測框架中進行分類的情境下,軟標記可使用其他旁側資訊(side information)來提取及分配,例如可由次要分類機制或者用於如非深層學習快速分類系統(其毋須獨立的檢測階段即可為每個類別提供先驗概率)等中的較簡易的低複雜度分類機制來產生。旁側資訊是任何與檢測物體相關但不直接由測得物體所提供的資訊。
舉例而言,將聲音模型用於自動語音處理的音素分類系統可使用根據本揭露的軟標示法。「音素」(phone)與音位(phoneme)類似,但抽象程度更加之小—音素為任何獨特的言語聲音(無論此聲音對詞句的意義是否至關重要亦或涉及何種語言),而音位則涉及其意義且須參考特定語言方能探討。簡單來說,「音素」是藉由人的語音產生的聲音單位。
因此,音素分類系統與圖像分類系統之間一個關鍵不同之處在於,聲級(acoustic level)上並無用於音素分類的真值(ground truth),所述真值僅存在詞或字母的級別。因此,初步分類(preliminary classification)會使用其他機制來提供,而初步分類會接著用於為訓練級中每個輸入特徵產生每個類別的軟標記。
在聲音模型分類中,每個輸入聲音特徵通常針對最符合的音素而標記為1,否則為0。這種二進位標示法是在稱為對準(alignment)的處理中,對來自如隱馬爾可夫模型(hidden Markov Model;HMM)、高斯混合模型HMM(Gaussian mixture model as HMM;GMM-HMM)等較簡易模型或另一種較簡易神經網路的分類得分上進行硬決策解碼(hard decision decoding)而產生。
在根據本揭露的一實施例中,軟標記可替代基於硬決策解碼的硬決策標示法,而由來自較簡易模型/機制(例如,前文提及的HMM以及GMM-HMM分類機制,或者較簡易預訓練神經網路)的分類得分直接產生。或者,軟標記可從輸入聲音特徵幀(input acoustic feature frame)上的列表解碼器(list decoder)提取。列表解碼器提供最可能(most probable)的音素序列的清單,而非列表解碼器僅提供最可信(most plausible)的音素序列。聲音特徵幀對應至所測得語音的聲音特徵的時間窗區(temporal window)。選定個最佳途徑(paths),從中可提取軟分類標記(soft classification label),以使每個可能音素對應於每個經對準輸入聲音特徵。這些軟標記可經配置用以訓練整個分類網路。
在一實施例中,最大相似度解碼是用以提取所述軟標記。假設輸入聲音特徵向量為,而為經由一格(a trellis of)音素的所有可能途徑的集合—即,為用於輸入聲音特徵向量的音素的所有可能經對準排序之集合。如此,則待分類排序中的第個幀的軟標記是可被分類為可能音素其中之一的概率,如方程式(9)所示:<img wi="375" he="79" file="IMG-2/Draw/02_image081.gif" img-format="jpg">
若使用的是距離度量(distance metric),且其中第個可能排序具有長度,則可視為平方距離度量,並可如方程式(10)(a)所示來決定:<img wi="221" he="76" file="IMG-2/Draw/02_image097.gif" img-format="jpg">
相似度與平方距離度量呈反比且可由方程式(10)(b)來給定。<img wi="153" he="41" file="IMG-2/Draw/02_image099.gif" img-format="jpg">
為本領域具有通常知識者所熟知的是,向前-向後演算法(forward-backward algorithm)可用以在不具指數複雜度(exponential complexity)下估算最大後驗(maximum a posteriori;MAP)解。
若使用了列表解碼方案或-最佳解碼器,其使用非MAP解碼器而僅輸出 -
最佳序列,則可藉由將方程式(9)的加總限制在僅能為 -
最佳排序的狀況下,進一步地降低複雜度。用數學術語來說,若對應於從列表解碼器或-最佳解碼器輸出的具有大小為的序列的的子集合,則用於序列中第個幀(位於集合內)的軟標記是可被分類為可能音素其中之一的概率,如方程式(11)所示:<img wi="381" he="79" file="IMG-2/Draw/02_image111.gif" img-format="jpg">
如上述實施例所示,本文中述及的軟標示技術具有多種新穎態樣,包括在分類階段中基於檢測邊界框與真實邊界框間交集面積來標示圖像。軟標示法提供了各式各樣可能的分配方案,例如,標記值0或1可與基於檢測邊界框與真實邊界框間交集面積且範圍介於0與1之間的可變標記數值並用(參見,例如,上述的方程式(6)(a))。儘管時而稱作「混合式」或者硬標示法與軟標示法的組合,上述分配方案為本揭露所用術語「軟標示法」所涵蓋無誤。
如上所述,實驗結果展現了在使用若干普及的數據集來進行物件檢測時,軟標示法性能可較優於硬標示法。
當多個真實框在檢測邊界框中互相重疊時,根據本揭露,可使用許多方法來確保標記數值加總起來仍然為1。先前探討的兩個範例為拆分類別之間的重疊面積(參見,例如,與方程式(7)(a)~(7)(c)相關的說明)以及將整個重疊面積分配給具有來自檢測階段的最高信心度得分的類別(參見,例如,與方程式(8)(a)~(8)(c)相關的說明)。然而,本領域具有通常知識者應可意識到,亦可用許多其他方法在標記分配方案中操控與檢測邊界框重疊的多個類別,以確保概率(標記數值)的總和加起來後仍為1。
而且,本文中所述軟標示技術不限於圖像分析及/或檢測與分類階段兼具的深層學習系統。如上所述,軟標示技術可與應用於聲音模型及語音辨識的深層學習系統並用,其中並不具有與圖像分析相同形式的檢測階段。重述一次,以上僅為範例,本領域具有通常知識者應可意識到,根據本揭露的軟標示法可用於訓練在其他應用層面中的深層學習機器/系統。
圖4是根據本揭露一實施例所繪示之一般訓練深層學習方法的流程圖。在410中,接收用於分類的候選單元。針對用於圖像的深層學習機器,檢測階段會產生候選檢測邊界框,其通常伴隨有信心度得分。針對用於聲音的深層學習機器,將接收輸入音訊音訊特徵的音素。在420中,候選單元是藉由軟標示法來分類,其中至少一個標記具有範圍介於0與1之間的多個可能數值。針對用於圖像的深層學習機器,至少部份基於檢測邊界框與真實邊界框的重疊處,分類階段會為檢測邊界框產生類別的軟標記。針對用於聲音的深層學習機器,用於輸入音訊特徵的音素的軟標記可由使用概率模型及/或使用神經網路(例如,隱馬爾可夫模型(HMM)、高斯混合模型HMM(GMM-HMM)、較簡易預訓練神經網路、最大相似度解碼、距離度量、軟輸出解碼演算法或列表解碼方案)產生的分類得分來直接產生。
承上,根據本揭露的軟標示法分配方案,這些方案包括僅有一個標記採用範圍介於0與1之間的幾個數值,而一或多個其他標記僅採用0或1作為其數值(就「硬」標記僅可為0或1而「軟」標記可採用範圍介於0與1之間的數值的涵義上,這些方案亦可稱為「混合式」方案)。
圖5是根據一實施例所繪示之本揭露用於訓練深層學習裝置的示意圖。裝置500包括至少一處理器510以及一或多個非暫態電腦可讀媒體520。在執行儲存於一或多個非暫態電腦可讀媒體520的指令時,至少一處理器510進行以下步驟:接收用於分類的候選單元;以及藉由軟標示法分類候選單元,其中軟標示法提供至少一個標記,其包括介於0與1之間的多個可能數值。此外,所述一或多個非暫態電腦可讀媒體520儲存有用以使至少一處理器510進行上列步驟的指令。
圖6是根據一實施例所繪示之用以製作及測試本揭露裝置的例示性流程圖。
在650中,製作可訓練深層學習的裝置(此範例中為晶片組),其包括至少一個處理器以及一或多個非暫態電腦可讀媒體。在執行儲存於一或多個非暫態電腦可讀媒體上的指令時,所述至少一個處理器進行以下步驟:接收用於分類的候選單元;以及藉由軟標示法分類候選單元,其中軟標示法提供至少一個標記,其包括介於0與1之間的多個可能數值。所述一或多個非暫態電腦可讀媒體儲存有用以使所述至少一個處理器進行上列步驟的指令。
在660中,測試該裝置(此範例中為晶片組)。660的測試包括測試該裝置是否具有至少一個處理器,其於執行儲存於一或多個非暫態電腦可讀媒體的指令時可進行包括下述步驟的深層學習訓練:接收用於分類的候選單元,以及藉由軟標示法分類候選單元,其中所述軟標示法提供至少一個標記,其包括介於0與1之間的多個可能數值;以及測試該裝置是否具有所述一或多個非暫態電腦可讀媒體,其儲存有用於使所述至少一個處理器進行以下步驟的指令:接收用於分類的候選單元,以及藉由軟標示法分類候選單元,其中所述軟標示法提供至少一個標記,其包括介於0與1之間的多個可能數值。
本領域具有通常知識者應可理解,上述關於本揭露的一實施例所描述的步驟及/或操作可取決於特定實施例及/或實施方式而以不同次序或歷時不同時期等等而並行地或同時地發生。不同實施例可以不同次序或藉由不同方式或手段執行動作。本領域具有通常知識者應可理解,一些圖式是所執行動作的簡化表示,其在本文中的描述為簡化的概覽,而在現實世界中其實施方式將更加複雜,需要更多階段及/或組件且亦取決於特定實施方式的要求而有所變化。作為簡化表示,此等圖式並不展示其他所需步驟,源於此等步驟可為在本領域具有通常知識者所知及理解,且可能不與本描述有關及/或對本描述有幫助。
類似地,本領域具有通常知識者應可理解,一些圖式是僅展示有關組件的簡化方塊圖,且此等組件中的一些僅表示本領域中熟知的功能及/或操作,而非實際的硬體元件。在這些情況下,組件/模組中的一些或全部可以多種方式及/或方式組合被實施或提供,諸如至少部分地以韌體及/或硬體,包含但不限於一或多個特殊應用積體電路(application-specific integrated circuit;ASIC)、標準積體電路、執行適當指令的控制器,且包含微控制器及/或嵌入式控制器、場可程式化閘陣列(field-programmable gate array;FPGA)、複雜可程式化邏輯設備(complex programmable logic device;CPLD)及類似者。系統組件及/或資料結構中的一些或全部亦可作為內容(例如,作為可執行或其他機器可讀軟體指令或結構化資料)而儲存於非暫態電腦可讀媒體(例如,作為硬碟、記憶體、電腦網路或蜂巢式無線網路或其他資料傳輸媒體;或待由適當磁碟機或經由適當連接件(諸如DVD或快閃記憶體元件)讀取的可攜式媒體物品)上,藉以啟用或組態電腦可讀媒體及/或一或多個關聯計算系統或設備,以便執行或者以其他方式使用或提供內容執行至少一些所描述的技術。
可使用一或多個處理器、簡單微控制器、控制器及類似者(無論單獨地抑或呈多處理配置)以執行儲存於非暫態電腦可讀媒體上的指令序列,藉以實施本揭露的實施例。在一些實施例中,可代替或結合軟體指令而使用硬連線電路系統。因此,本揭露的實施例並不限於硬體電路系統、韌體及/或軟體的任何特定組合。
如本文中所使用的術語「電腦可讀媒體」指代儲存有可提供予處理器執行的指令的任何媒體。此類媒體可以許多形式呈現,包含但不限於非揮發性媒體或揮發性媒體。舉例而言,非暫態電腦可讀媒體的常見形式包含軟碟、可撓性磁碟、硬碟、磁帶或任何其他磁性媒體、CD-ROM、任何其他光學媒體、打孔卡、紙帶、具有孔圖案的任何其他實體媒體、RAM、PROM及EPROM、FLASH-EPROM、任何其他記憶體晶片或卡匣、或儲存有可由處理器執行的指令的任何其他媒體。
本揭露的一些實施例可至少部分地在可攜式設備上實施。如本文中所使用的「可攜式設備」及/或「行動設備」指代有接收無線信號能力的任何可攜式或可移動電子設備,包含但不限於多媒體播放器、通信設備、計算設備、導航設備等。因此,行動設備包含(但不限於)使用者裝備(user equipment;UE)、膝上型電腦、平板電腦、可攜式數位助理(Portable Digital Assistant;PDA)、mp3播放器、手持型PC、即時傳訊設備(Instant Messaging Device;IMD)、蜂巢式電話、全球導航衛星系統(Global Navigational Satellite System;GNSS)接收器、手錶、或可穿戴及/或攜帶於某個人身上的任何此類設備。
鑑於本揭露,本領域具有通常知識者應可理解,本揭露的各種實施例可實施於積體電路(integrated circuit;IC)中,積體電路亦被稱為微晶片、矽晶片、電腦晶片或僅僅被稱為「晶片」。此類IC可為(例如)寬頻及/或基頻數據機晶片。
儘管已描述若干實施例,但應理解,可在不脫離本揭露的範疇的情況下對其進行各種修改。因此,對於在本領域具有通常知識者將顯而易見,本揭露並不限於本文中所描述的實施例中的任一者,而是具有僅由所附申請專利範圍及其等效者界定的涵蓋範圍。
110、210、310‧‧‧檢測框115、215、325、335、345‧‧‧重疊處120、220、320、330‧‧‧真實框410、420、650、660‧‧‧步驟510‧‧‧處理器520‧‧‧電腦可讀非暫態媒體
以上及本揭露的特定實施例的其他態樣、特徵以及優點將自結合隨附圖式的以下詳細描述更顯而易見,在圖式中: 圖1繪示一種在可應用本揭露的實施例之深層學習訓練處理中的分類階段用於類別/物件A的檢測框110以及真實框120的範例; 圖2是根據一實施例所繪示之使用檢測框210以及真實框220的軟標示法分配方案的範例; 圖3是根據一實施例所繪示之在具有三種類別(即,多個真實框)的情況下,軟標示法分配方案的範例; 圖4是根據一實施例所繪示之一般訓練深層學習方法的流程圖; 圖5是根據一實施例所繪示之本揭露裝置的示意圖;以及 圖6是根據一實施例所繪示之用以製作及測試本揭露裝置的例示性流程圖。
310‧‧‧檢測框
320、330‧‧‧真實框
325、335、345‧‧‧重疊處
Claims (19)
- 一種訓練深層學習之方法,包括:接收用於分類的候選單元,所述候選單元包括真實邊界框與檢測框之間的交集面積;以及藉由軟標示法分類所述候選單元,其中所述軟標示法基於在所述交集面積中測得給定特徵的概率,提供至少一標記,所述標記包括介於0與1之間的多個可能數值。
- 如申請專利範圍第1項所述的訓練深層學習之方法,其中所述候選單元為圖像中或輸入音訊特徵的音素。
- 如申請專利範圍第1項所述的訓練深層學習之方法,其中該軟標示法包括:基於用於一類別的所述交集面積為該檢測框提供該類別的標記。
- 如申請專利範圍第3項所述的訓練深層學習之方法,其中提供該類別的該標記的步驟包括:分配類別標記,所述類別標記的數值是使用所述交集面積而推導出。
- 如申請專利範圍第3項所述的訓練深層學習之方法,其中提供該類別的該標記的步驟包括:分配類別標記,所述類別標記的數值是從涉及所述交集面積的比率推導出。
- 如申請專利範圍第5項所述的訓練深層學習之方法,其中分配該類別標記的步驟包括: 計算所述交集面積佔該檢測框的總體面積的比率。
- 如申請專利範圍第3項所述的訓練深層學習之方法,其中提供該類別的該標記的步驟是基於一或多個臨界值。
- 如申請專利範圍第7項所述的訓練深層學習之方法,其中提供該類別的標記的步驟包括:若基於所述交集面積的數值低於第一臨界值,分配0的類別標記;若基於所述交集面積的該數值高於第二臨界值,分配1的類別標記;以及若所述交集面積的該數值為於該第一臨界值、該第二臨界值或介於所述第一與第二臨界值之間,分配基於所述交集面積的該數值的類別標記。
- 如申請專利範圍第8項所述的訓練深層學習之方法,其中基於所述交集面積的該數值為所述交集面積佔該檢測框的總體面積的比值。
- 如申請專利範圍第3項所述的訓練深層學習之方法,其中為該檢測框提供該類別的該標記的步驟亦基於由檢測階段所提供的一或多個可信度,而該檢測框亦為該檢測階段所提供。
- 如申請專利範圍第3項所述的訓練深層學習之方法,其中為該檢測框提供該類別的該標記的步驟包括:基於用於第一類別的所述交集面積為該檢測框提供該第一類別的標記;以及基於用於第二類別的所述交集面積為該檢測框提供該第二類別的標記。
- 如申請專利範圍第1項所述的訓練深層學習之方法,其中所述候選單元為輸入音訊特徵的音素,以及其中該軟標示法包括:從來自機率模型或神經網路的分類得分直接產生軟標記。
- 如申請專利範圍第1項所述的訓練深層學習之方法,其中所述候選單元為輸入音訊特徵的音素,以及其中該軟標示法包括:從來自隱馬爾可夫模型(HMM)、高斯混合模型(GMM)或預訓練神經網路的分類得分直接產生軟標記。
- 如申請專利範圍第1項所述的訓練深層學習之方法,其中所述候選單元為輸入音訊特徵的音素,以及其中該軟標示法包括:使用最大相似度解碼法、距離度量、軟輸出解碼演算法或列表解碼方案來產生軟標記。
- 一種訓練深層學習之裝置,包括:一或多個非暫態電腦可讀媒體;以及至少一個處理器,其於執行儲存於所述一或多個非暫態電腦可讀媒體中的指令時進行以下步驟:接收用於分類的候選單元,所述候選單元包括真實邊界框與檢測框之間的交集面積;以及藉由軟標示法分類所述候選單元,其中所述軟標示法基於在所述交集面積中測得給定特徵的概率,提供至少一標記,所述至少一標記包括 介於0與1之間的多個可能數值。
- 如申請專利範圍第15項所述的訓練深層學習之裝置,其中該軟標示法包括:基於用於一類別的所述交集面積為該檢測框提供該類別的標記。
- 如申請專利範圍第15項所述的訓練深層學習之裝置,其中所述候選單元為輸入音訊特徵的音素,以及其中該軟標示法包括:從來自機率模型或神經網路的分類得分直接產生軟標記。
- 一種晶片組製作方法,包括:製作可深層學習訓練的晶片組,所述深層學習訓練包括:提供至少一處理器,所述至少一處理器於執行儲存於一或多個非暫態電腦可讀媒體中的指令時進行以下步驟:接收用於分類的候選單元,所述候選單元包括真實邊界框與檢測框之間的交集面積;以及藉由軟標示法分類所述候選單元,其中所述軟標示法基於在所述交集面積中測得給定特徵的概率,提供至少一標記,所述至少一標記包括介於0與1之間的多個可能數值;以及提供儲存有所述指令的所述一或多個電腦可讀媒體。
- 一種用於測試裝置的方法,包括:測試該裝置是否具有至少一處理器,所述至少一處理器於執行儲存於一或多個非暫態電腦可讀媒體的指令時可進行包括下述步驟的深層學 習訓練:接收用於分類的候選單元,所述候選單元包括真實邊界框與檢測框之間的交集面積;以及藉由軟標示法分類所述候選單元,其中所述軟標示法基於在所述交集面積中測得給定特徵的概率,提供至少一標記,所述至少一標記包括介於0與1之間的多個可能數值;以及測試該裝置是否具有儲存有所述指令的所述一或多個非暫態電腦可讀媒體。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662438177P | 2016-12-22 | 2016-12-22 | |
US62/438,177 | 2016-12-22 | ||
US201662438795P | 2016-12-23 | 2016-12-23 | |
US62/438,795 | 2016-12-23 | ||
US15/588,223 US11205120B2 (en) | 2016-12-22 | 2017-05-05 | System and method for training deep learning classification networks |
US15/588,223 | 2017-05-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201824098A TW201824098A (zh) | 2018-07-01 |
TWI754660B true TWI754660B (zh) | 2022-02-11 |
Family
ID=62629871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106127398A TWI754660B (zh) | 2016-12-22 | 2017-08-14 | 訓練深層學習分類網路之系統和方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11205120B2 (zh) |
KR (1) | KR102513089B1 (zh) |
CN (1) | CN108229649B (zh) |
TW (1) | TWI754660B (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10970753B2 (en) * | 2017-06-01 | 2021-04-06 | Walmart Apollo, Llc | Systems and methods for matching products in the absence of unique identifiers |
GB2568083B (en) | 2017-11-03 | 2021-06-02 | Imagination Tech Ltd | Histogram-based per-layer data format selection for hardware implementation of deep neutral network |
GB2568084B (en) | 2017-11-03 | 2022-01-12 | Imagination Tech Ltd | Error allocation format selection for hardware implementation of deep neural network |
CN109034245B (zh) * | 2018-07-27 | 2021-02-05 | 燕山大学 | 一种利用特征图融合的目标检测方法 |
CN109308484A (zh) * | 2018-08-01 | 2019-02-05 | 清华大学 | 航空发动机多类故障最小风险诊断方法及装置 |
CN109188410B (zh) * | 2018-08-27 | 2020-12-25 | 清华大学 | 一种非视距场景下的距离校准方法、装置及设备 |
JP2020046883A (ja) * | 2018-09-18 | 2020-03-26 | 株式会社東芝 | 分類装置、分類方法およびプログラム |
TWI709188B (zh) * | 2018-09-27 | 2020-11-01 | 財團法人工業技術研究院 | 基於機率融合的分類器、分類方法及分類系統 |
US10503966B1 (en) * | 2018-10-11 | 2019-12-10 | Tindei Network Technology (Shanghai) Co., Ltd. | Binocular pedestrian detection system having dual-stream deep learning neural network and the methods of using the same |
WO2020081170A1 (en) * | 2018-10-20 | 2020-04-23 | The Nordam Group Llc | Neural vending machine |
CN112970037B (zh) * | 2018-11-06 | 2024-02-02 | 创惟科技股份有限公司 | 用于实施神经网络应用的多芯片系统、适用于多芯片系统的数据处理方法、和非暂时性计算机可读介质 |
CN109635668B (zh) * | 2018-11-16 | 2021-04-06 | 华中师范大学 | 基于软标签集成卷积神经网络的人脸表情识别方法及系统 |
US11436825B2 (en) | 2018-12-14 | 2022-09-06 | Samsung Electronics Co., Ltd. | Method and apparatus for determining target object in image based on interactive input |
KR102168541B1 (ko) * | 2018-12-20 | 2020-10-21 | 주식회사 마인즈랩 | 제1 신경망을 이용한 제2 신경망 학습 방법 및 컴퓨터 프로그램 |
CN111507362B (zh) * | 2019-01-30 | 2023-12-19 | 中强光电股份有限公司 | 神经网络的训练方法、基于神经网络的分类方法及其装置 |
US10915795B2 (en) * | 2019-02-05 | 2021-02-09 | International Business Machines Corporation | Image object recognition through multimodal conversation templates |
US10956682B2 (en) | 2019-02-05 | 2021-03-23 | International Business Machines Corporation | Image object disambiguation resolution using learner model based conversation templates |
CN110135456A (zh) * | 2019-04-08 | 2019-08-16 | 图麟信息科技(上海)有限公司 | 一种目标检测模型的训练方法及装置 |
CN110032450B (zh) * | 2019-04-17 | 2021-04-20 | 中山大学 | 一种基于固态盘扩展内存的大规模深度学习方法及系统 |
CN110047506B (zh) * | 2019-04-19 | 2021-08-20 | 杭州电子科技大学 | 一种基于卷积神经网络和多核学习svm的关键音频检测方法 |
TWI746987B (zh) * | 2019-05-29 | 2021-11-21 | 奇景光電股份有限公司 | 卷積神經網路系統 |
US11055540B2 (en) * | 2019-06-28 | 2021-07-06 | Baidu Usa Llc | Method for determining anchor boxes for training neural network object detection models for autonomous driving |
TWI710762B (zh) * | 2019-07-31 | 2020-11-21 | 由田新技股份有限公司 | 基於影像的分類系統 |
CN110472640B (zh) * | 2019-08-15 | 2022-03-15 | 山东浪潮科学研究院有限公司 | 一种目标检测模型预测框处理方法及装置 |
CN110659600B (zh) * | 2019-09-19 | 2022-04-29 | 北京百度网讯科技有限公司 | 物体检测方法、装置及设备 |
CN110909688B (zh) * | 2019-11-26 | 2020-07-28 | 南京甄视智能科技有限公司 | 人脸检测小模型优化训练方法、人脸检测方法及计算机系统 |
US20210158147A1 (en) * | 2019-11-26 | 2021-05-27 | International Business Machines Corporation | Training approach determination for large deep learning models |
LU101763B1 (en) * | 2020-05-04 | 2021-11-05 | Microsoft Technology Licensing Llc | Microsegment secure speech transcription |
US10885388B1 (en) * | 2020-08-04 | 2021-01-05 | Superb Ai Co., Ltd. | Method for generating training data to be used for training deep learning network capable of analyzing images and auto labeling device using the same |
CN112509583B (zh) * | 2020-11-27 | 2023-07-18 | 贵州电网有限责任公司 | 一种基于调度操作票系统的辅助监督方法及系统 |
KR102582431B1 (ko) * | 2021-07-13 | 2023-09-26 | (주)블루컴 | 차량 식별 학습 데이터 생성 방법 및 이를 이용한 차량 식별 학습 데이터 생성 시스템 |
US20230174110A1 (en) * | 2021-12-03 | 2023-06-08 | Zoox, Inc. | Vehicle perception system with temporal tracker |
CN114627891A (zh) * | 2022-05-16 | 2022-06-14 | 山东捷瑞信息技术产业研究院有限公司 | 一种动圈扬声器质量检测方法和装置 |
KR102540873B1 (ko) * | 2022-12-15 | 2023-06-07 | 주식회사 에이모 | 노이즈 레이블을 필터링하는 방법 및 장치 |
CN117609881B (zh) * | 2023-11-29 | 2024-04-30 | 阿童木(广州)智能科技有限公司 | 一种基于人工智能的金属重叠检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014205231A1 (en) * | 2013-06-19 | 2014-12-24 | The Regents Of The University Of Michigan | Deep learning framework for generic object detection |
CN105975915A (zh) * | 2016-04-28 | 2016-09-28 | 大连理工大学 | 一种基于多任务卷积神经网络的前方车辆参数识别方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4859351B2 (ja) * | 2004-06-14 | 2012-01-25 | 財団法人電力中央研究所 | 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム |
US7747372B2 (en) * | 2007-07-03 | 2010-06-29 | Toyota Motor Engineering & Manufacturing North America, Inc. | Systems and methods for user control of vehicular transmission shift points |
US8503767B2 (en) * | 2009-09-16 | 2013-08-06 | Microsoft Corporation | Textual attribute-based image categorization and search |
US8995739B2 (en) * | 2013-08-21 | 2015-03-31 | Seiko Epson Corporation | Ultrasound image object boundary localization by intensity histogram classification using relationships among boundaries |
JP6303090B2 (ja) | 2014-03-24 | 2018-04-04 | アルパイン株式会社 | 画像処理装置および画像処理プログラム |
US9373059B1 (en) | 2014-05-05 | 2016-06-21 | Atomwise Inc. | Systems and methods for applying a convolutional network to spatial data |
US9536293B2 (en) | 2014-07-30 | 2017-01-03 | Adobe Systems Incorporated | Image assessment using deep convolutional neural networks |
US9710729B2 (en) * | 2014-09-04 | 2017-07-18 | Xerox Corporation | Domain adaptation for image classification with class priors |
US9536167B2 (en) | 2014-12-10 | 2017-01-03 | Ricoh Co., Ltd. | Realogram scene analysis of images: multiples for scene analysis |
US9818048B2 (en) | 2015-01-19 | 2017-11-14 | Ebay Inc. | Fine-grained categorization |
US10115215B2 (en) | 2015-04-17 | 2018-10-30 | Monotype Imaging Inc. | Pairing fonts for presentation |
CN107851192B (zh) | 2015-05-13 | 2023-04-14 | 北京市商汤科技开发有限公司 | 用于检测人脸部分及人脸的设备和方法 |
US9443320B1 (en) | 2015-05-18 | 2016-09-13 | Xerox Corporation | Multi-object tracking with generic object proposals |
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN106203506B (zh) * | 2016-07-11 | 2019-06-21 | 上海凌科智能科技有限公司 | 一种基于深度学习技术的行人检测方法 |
US20210209412A1 (en) * | 2020-01-02 | 2021-07-08 | International Business Machines Corporation | Labeling data using automated weak supervision |
-
2017
- 2017-05-05 US US15/588,223 patent/US11205120B2/en active Active
- 2017-06-12 KR KR1020170073081A patent/KR102513089B1/ko active IP Right Grant
- 2017-08-14 TW TW106127398A patent/TWI754660B/zh active
- 2017-09-07 CN CN201710800049.9A patent/CN108229649B/zh active Active
-
2021
- 2021-11-22 US US17/532,323 patent/US20220083861A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014205231A1 (en) * | 2013-06-19 | 2014-12-24 | The Regents Of The University Of Michigan | Deep learning framework for generic object detection |
CN105975915A (zh) * | 2016-04-28 | 2016-09-28 | 大连理工大学 | 一种基于多任务卷积神经网络的前方车辆参数识别方法 |
Non-Patent Citations (3)
Title |
---|
;Umemural et al.,"IMAGE LABELING FOR LIDAR INTENSITY IMAGE USING K-NN OF FEATURE OBTAINED BY CONVOLUTIONAL NEURAL NETWORK", The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Volume XLI-B3,July 2016 * |
Jifeng Dai; Kaiming He;Jian Sun,"Convolutional Feature Masking for Joint Object and Stuff Segmentation", arXiv:1412.1283, 2015/04/02 * |
Umemural et al.,"IMAGE LABELING FOR LIDAR INTENSITY IMAGE USING K-NN OF FEATURE OBTAINED BY CONVOLUTIONAL NEURAL NETWORK", The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Volume XLI-B3,July 2016。 |
Also Published As
Publication number | Publication date |
---|---|
KR102513089B1 (ko) | 2023-03-22 |
US20180181881A1 (en) | 2018-06-28 |
KR20180073424A (ko) | 2018-07-02 |
CN108229649B (zh) | 2023-12-05 |
TW201824098A (zh) | 2018-07-01 |
CN108229649A (zh) | 2018-06-29 |
US20220083861A1 (en) | 2022-03-17 |
US11205120B2 (en) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI754660B (zh) | 訓練深層學習分類網路之系統和方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN111476284B (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
US11816888B2 (en) | Accurate tag relevance prediction for image search | |
CN107688821B (zh) | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 | |
US10380741B2 (en) | System and method for a deep learning machine for object detection | |
Baró et al. | Traffic sign recognition using evolutionary adaboost detection and forest-ECOC classification | |
WO2022037573A1 (zh) | 表单识别方法、装置、设备及计算机可读存储介质 | |
CN107209861B (zh) | 使用否定数据优化多类别多媒体数据分类 | |
CN106294344B (zh) | 视频检索方法和装置 | |
US11816149B2 (en) | Electronic device and control method thereof | |
US8761510B2 (en) | Object-centric spatial pooling for image classification | |
GB2547313A (en) | Accurate tag relevance prediction for image search | |
US7627474B2 (en) | Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons | |
US20080304743A1 (en) | Active segmentation for groups of images | |
US10043057B2 (en) | Accelerating object detection | |
US11449706B2 (en) | Information processing method and information processing system | |
US7634142B1 (en) | Detecting objects in images using a soft cascade | |
US20230113643A1 (en) | Leveraging unsupervised meta-learning to boost few-shot action recognition | |
Demertzis et al. | A deep spiking machine-hearing system for the case of invasive fish species | |
CN103793926A (zh) | 基于样本重选择的目标跟踪方法 | |
JP2008243208A (ja) | 住所認識装置 | |
Pourian et al. | Pixnet: A localized feature representation for classification and visual search | |
Keren et al. | Weakly Supervised One-Shot Detection with Attention Similarity Networks | |
JP2022038941A (ja) | 学習データ収集装置、学習装置、学習データ収集方法およびプログラム |