TWI636404B - 深度神經網路、使用深度神經網路的方法與電腦可讀媒體 - Google Patents
深度神經網路、使用深度神經網路的方法與電腦可讀媒體 Download PDFInfo
- Publication number
- TWI636404B TWI636404B TW106146091A TW106146091A TWI636404B TW I636404 B TWI636404 B TW I636404B TW 106146091 A TW106146091 A TW 106146091A TW 106146091 A TW106146091 A TW 106146091A TW I636404 B TWI636404 B TW I636404B
- Authority
- TW
- Taiwan
- Prior art keywords
- path
- alternative
- layer
- layers
- paths
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明提供一種深度神經網路及方法,用於以提高識別與分類的準確度,並且有效率地將多媒體資料識別及分類為多個預定資料類別中的一者。在深度神經網路中,使用從主枝(或側枝、子側枝等)延伸出的側枝(或子側枝、子子側枝等)、順序決策作出機制、及合作(融合)決策作出機制將使得深度神經網路具有快速的正向推理能力,藉此提高深度神經網路的識別與分類準確度及效率。
Description
本發明是有關於一種深度神經網路(deep neural network,DNN)。
神經網路被使用於多種應用。舉例來說,神經網路已被設計來從例如影像、聲音、影片、文字、或時間序列等資料提取特徵,以識別所述資料的模式。神經網路以連接成非環圖之神經元集合的模式建立。換句話說,某些神經元的輸出可變為其他神經元的輸入。神經網路模型常常被組織成由神經元形成的相異的層。不同的層可對其輸入執行不同種類的轉換。信號從第一(輸入)層開始,可能在穿越位於第一(輸入)層與最後一個(輸出)層之間的數個隱藏層之後傳播到最後一個(輸出)層。
在深度神經網路(即,具有多個隱藏層的神經網路)中,由神經元形成的每一層,基於前一層的輸出在相異的特徵集上進行訓練。神經元將來自資料的輸入(例如,向量)與一權重集(例如,矩陣)做組合,可放大或減弱輸入,輸入的任務經由演算法之學習而被指派重要性(significance)。將這些輸入-權重積求和,並使所求出的和透過啟動函數(例如,S函數(Sigmoid)、雙曲正切函數(Tanh)、修正線性函數(Rectified Linear Unit,ReLU)、滲漏型線性函數(Leaky ReLU)、最大值輸出(Maxout)等),以判斷信號經由網路是否會進一步影響最終結果(例如,動作分類)以及影響程度如何。將可調整權重與輸入特徵做配對是為這些特徵指派重要性的方式,即有關網路如何對輸入進行分類及群集。此種特徵階層(feature hierarchy)所提高的複雜性及抽象性使得深度神經網路可以透過非線性函數處理具有數十億個參數的巨量又高維度的資料集,並在無人工干預的情況下執行自動特徵提取。深度神經網路可以例如在邏輯(logistic)分類器或歸一化指數(softmax)分類器等的輸出層結束,所述輸出層為特定結果或標籤指派可能性 (likelihood)。假設給定以影像形式的原始資料,深度神經網路可例如預測/判定出輸入資料可能以某一百分比表示人、貓、馬等。
舉例來說,卷積神經網路(Convolutional Neutral Network,CNN)是一種類型的深度神經網路,其已在許多影像識別任務中展示出了其能力。雖然人們可增加網路大小(包括深度及寬度)來實現更高的影像識別準確度,但這樣做的代價是正向推理的等待時間會變多。舉例來說,以流行的卷積神經網路模型對影像網(ImageNet)資料集作標竿分析(benchmark),其顯示出為了將最高類別(top-1)錯誤從42.90%降低至22.16%,在測試時的等待時間(latency) 會從7.0毫秒(millisecond,ms)(亞曆克斯網(AlexNet))增加至109.32 ms(殘差網(ResNet))。因此,如何在不犧牲深度神經網路效率的條件下實現更高的識別與分類準確度變為一項重要的待解決問題。
因此,本申請提供一種深度神經網路以及用以將媒體資料識別及分類為多個預定資料類別的其中之一的方法,其具有已提高的識別、分類準確度以及效率。
根據本申請的第一方面,提供一種用於以提高的識別與分類準確度及效率將媒體資料識別及分類為多個預定資料類別中的一者的深度神經網路。所述深度神經網路包括:主路徑,依連續順序具有輸入層、僅X個由層形成的群組、至少一個池化層、及分類層,所述輸入層用於接收媒體資料,所述僅X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述主路徑中的所述X個由層形成的群組的輸出進行向下採樣,所述分類層用於所述媒體資料穿過所述主路徑時,計算每一所述多個預定資料類別中的類別可能性(class likelihood),其中X > 1且X是整數;至少一個替代性路徑,依連續順序具有所述輸入層、僅X個由層形成的群組、至少一個池化層、及分類層,所述僅X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述至少一個替代性路徑中的所述X個群組的輸出進行向下採樣,所述分類層用於當所述媒體資料穿過所述至少一個替代性路徑時,計算每一所述多個預定資料類別的類別可能性,其中每一所述至少一個替代性路徑中的所述X個由層形成的群組,是相對於由所述主路徑中的所述X個由層形成的群組中Y個群組,以及額外X-Y個由層形成的群組作為側枝相應於從所述主路徑中的所述X個群組中的相應的第Y個群組延伸而出,其中所述主路徑中的所述X個由層形成的群組中的相應的所述Y個群組是所述主路徑中的所述X個由層形成的群組中的第一個群組至所述主路徑中的所述X個由層形成的群組中的相應的第Y個群組,並且其中對於每一所述至少一個替代性路徑,相應的所述Y是整數,且1 ≤ Y < X;融合層,其中所述主路徑的所述分類層與所述至少一個替代性路徑的所述分類層在所述融合層處合併;以及預測器,依據最終類別可能性將所述媒體資料識別及分類,為所述多個預定資料類別中對應的一者,其中所述深度神經網路引導所述媒體資料依序一次一個地穿過所述至少一個替代性路徑及所述主路徑中的一者或多者直至所述最終類別可能性被輸出為止,且輸出以下作為所述最終類別可能性:所述至少一個替代性路徑及所述主路徑中首先達到或超過對應類別可能性閾值的那一個的最高類別可能性、或是輸出來自所述融合層的最高融合類別可能性當成所述最終類別可能性,其中所述融合層的最高融合類別可能性是基於所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的兩者或更多者的所述類別可能性。
此外,根據本申請的第二方面,提供一種用於使用深度神經網路以提高的識別與分類準確度及效率將媒體資料識別及分類為多個預定資料類別中的一者的方法。所述深度神經網路包括:主路徑,依連續順序具有輸入層、僅X個由層形成的群組、至少一個池化層、及分類層,所述輸入層用於接收媒體資料,所述僅X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述主路徑中的所述X個由層形成的群組的輸出進行向下採樣,所述分類層用於為所述媒體資料穿過所述主路徑時,計算每一所述多個預定資料類別中的類別可能性,其中X > 1且X是整數;至少一個替代性路徑,依連續順序具有所述輸入層、僅X個由層形成的群組、至少一個池化層、及分類層,所述僅X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述至少一個替代性路徑中的所述X個群組的輸出進行向下採樣,所述分類層用當所述媒體資料穿過所述至少一個替代性路徑時,計算每一所述多個預定資料類別中的類別可能性,其中每一所述至少一個替代性路徑中的所述X個由層形成的群組,是相對於由所述主路徑中的所述X個由層形成的群組中的Y個群組、以及額外X-Y個由層形成的群組作為側枝相應於從所述主路徑中的所述X個群組中的相應的第Y個群組延伸而出,其中所述主路徑中的所述X個由層形成的群組中的相應的所述Y個群組是所述主路徑中的所述X個由層形成的群組中的第一個群組至所述主路徑中的所述X個由層形成的群組中的相應的第Y個群組,並且其中對於每一所述至少一個替代性路徑,相應的所述Y是整數,且1 ≤ Y < X;融合層,其中所述主路徑的所述分類層與所述至少一個替代性路徑的所述分類層在所述融合層處合併;以及預測器,依據最終類別可能性將所述媒體資料識別及分類為所述多個預定資料類別中對應的一者。所述方法包括:引導所述媒體資料依序一次一個地穿過所述至少一個替代性路徑及所述主路徑中的一者或多者,直至所述最終類別可能性被輸出為止;輸出以下作為所述最終類別可能性:所述至少一個替代性路徑及所述主路徑中首先達到或超過對應類別可能性閾值的那一個的最高類別可能性、或者是輸出來自所述融合層的最高融合類別可能性當成所述最終類別可能性,其中所述融合層的最高融合類別可能性是基於所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的兩者或更多者的所述類別可能性;以及將所述媒體資料識別及分類為所述多個預定資料類別中與所述最終類別可能性對應的一者。
另外,根據本申請的第三方面,提供一種含有電腦程式產品的非暫時性電腦可讀媒體,所述電腦程式產品包括用於使用深度神經網路以提高的識別與分類準確度及效率將媒體資料識別及分類為多個預定資料類別中的一者的電腦可執行指令。所述深度神經網路包括:主路徑,依連續順序具有輸入層、僅X個由層形成的群組、至少一個池化層、及分類層,所述輸入層用於接收媒體資料,所述僅X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述主路徑中的所述X個由層形成的群組的輸出進行向下採樣,所述分類層用於為所述媒體資料穿過所述主路徑時,計算每一所述多個預定資料類別中的類別可能性,其中X > 1且X是整數;至少一個替代性路徑,依連續順序具有所述輸入層、僅X個由層形成的群組、至少一個池化層、及分類層,所述僅X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述至少一個替代性路徑中的所述X個群組的輸出進行向下採樣,所述分類層用於所述媒體資料穿過所述至少一個替代性路徑時,計算每一所述多個預定資料類別中的類別可能性,其中每一所述至少一個替代性路徑中的所述X個由層形成的群組,是相對於由所述主路徑中的所述X個由層形成的群組中的Y個群組、以及額外X-Y個由層形成的群組作為側枝相應於所述主路徑中的所述X個群組的第Y個群組延伸而出,其中所述主路徑中的所述X個由層形成的群組中的相應的所述Y個群組是所述主路徑中的所述X個由層形成的群組中的第一個群組至所述主路徑中的所述X個由層形成的群組中的相應的第Y個群組,並且其中對於每一所述至少一個替代性路徑,相應的所述Y是整數,且1 ≤ Y < X;融合層,其中所述主路徑的所述分類層與所述至少一個替代性路徑的所述分類層在所述融合層處合併;以及預測器,依據最終類別可能性被將所述媒體資料識別及分類,為所述多個預定資料類別中對應的一者。所述電腦程式產品包括用於以下的所述電腦可執行指令:引導所述媒體資料依序一次一個地穿過所述至少一個替代性路徑及所述主路徑中的一者或多者,直至所述最終類別可能性被輸出為止;輸出以下作為所述最終類別可能性:所述至少一個替代性路徑及所述主路徑中首先達到或超過對應類別可能性閾值的那一個的最高類別可能性、或是輸出來自所述融合層的最高融合類別可能性當成所述最終類別可能性,其中所述融合層的最高融合類別可能性是基於所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的兩者或更多者的所述類別可能性;以及將所述媒體資料識別及分類為所述多個預定資料類別中與所述最終類別可能性對應的一者。
依據下文所給出的詳細說明,本申請的其他適用範圍將變得顯而易見。然而,應理解,儘管表示本申請的優選實施例,但詳細說明及具體實例是僅以說明的方式給出,因為所屬領域中的技術人員依據本詳細說明將明瞭處於本發明的精神及範圍內的各種改變及修改。
現在將參照附圖詳細地闡述本申請,其中在所有數個視圖中,相同的參考編號將用於辨識相同或相似的元件。應注意,圖式應沿參考編號的取向方向來加以觀看。
在本申請的實施例中,一種深度神經網路包括:主路徑,依連續順序具有輸入層、僅X個由層形成的群組、至少一個池化層、及分類層,所述輸入層用於接收媒體資料,所述僅X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述主路徑中的所述X個由層形成的群組的輸出進行向下採樣,所述分類層用於為所述媒體資料穿過所述主路徑時,計算每一所述多個預定資料類別中的類別可能性,其中X > 1且X是整數;至少一個替代性路徑,依連續順序具有所述輸入層、僅X個由層形成的群組、至少一個池化層、及分類層,所述僅X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述至少一個替代性路徑中的所述X個群組的輸出進行向下採樣,所述分類層用於當所述媒體資料穿過所述至少一個替代性路徑時,計算每一所述多個預定資料類別的類別可能性,其中每一所述至少一個替代性路徑中的所述X個由層形成的群組,是相對於由所述主路徑中的所述X個由層形成的群組中的Y個群組,以及額外X-Y個由層形成的群組作為側枝相應於所述主路徑中的所述X個群組中的相應的第Y個群組延伸而出,其中所述主路徑中的所述X個由層形成的群組中的相應的所述Y個群組是所述主路徑中的所述X個由層形成的群組中的第一個群組至所述主路徑中的所述X個由層形成的群組中的相應的第Y個群組,並且其中對於每一所述至少一個替代性路徑,相應的所述Y是整數,且1 ≤ Y < X;融合層,其中所述主路徑的所述分類層與所述至少一個替代性路徑的所述分類層在所述融合層處合併;以及預測器,依據最終類別可能性將所述媒體資料識別及分類,為所述多個預定資料類別中對應的一者。所述深度神經網路引導所述媒體資料依序一次一個地穿過所述至少一個替代性路徑及所述主路徑中的一者或多者直至所述最終類別可能性被輸出為止,且輸出以下作為所述最終類別可能性:所述至少一個替代性路徑及所述主路徑中首先達到或超過對應類別可能性閾值的那一個的最高類別可能性、或是輸出來自所述融合層的最高融合類別可能性當成所述最終類別可能性,其中所述融合層的最高融合類別可能性是基於所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的兩者或更多者的所述類別可能性。
在一實施例中,所述深度神經網路是由電腦實施的,且由電腦的處理器或電子裝置的處理器執行以對所述媒體資料進行識別及分類。
在一實施例中,直至所述深度神經網路已引導所述媒體資料依序穿過所述至少一個替代性路徑中的每一者,所述深度神經網路才引導所述媒體資料穿過所述主路徑。
在一實施例中,所述至少一個替代性路徑包括多個替代性路徑,所述深度神經網路先引導所述媒體資料依序穿過每一所述多個替代性路徑後,所述深度神經網路才引導所述媒體資料穿過所述主路徑,並且所述深度神經網路依序以所述側枝在每一所述多個替代性路徑的長度的遞減次序引導所述媒體資料穿過所述多個替代性路徑,且所述側枝的所述長度在每一所述多個替代性路徑是每一所述多個替代性路徑的所述額外X-Y個由層形成的群組的總數,當所述多個替代性路徑側枝的所述長度有至少二者相同時,則依所述額外X-Y個由層形成的群組所包含的層的總數的遞增次序引導所述媒體資料穿過所述多個替代性路徑。
在一實施例中,當所述深度神經網路輸出所述最終類別可能性時,所述深度神經網路停止引導所述媒體資料穿過所述至少一個替代性路徑中的其餘路徑及所述主路徑。
在一實施例中,僅於目前一者在所述至少一個替代性路徑及所述主路徑中已引導所述媒體資料從中的所述最高類別可能性未達到或未超過所述對應類別可能性閾值時,所述融合層才針對每一所述多個預定資料類別計算所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的所述兩者或更多者的目前融合類別可能性,且僅於下一者在述至少一個替代性路徑及所述主路徑中已引導所述媒體資料從中的所述最高類別可能性未達到或未超過所述對應類別可能性閾值時,所述融合層才針對每一所述多個預定資料類別計算所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的兩者或更多者的下一融合類別可能性。
在一實施例中,當所述主路徑及所述至少一個替代性路徑中已引導所述媒體數據從中穿過的任何路徑中的所述兩者或更多者的對於每一所述多個預定資料類別中的所述當前融合類別可能性未達到或未超過對應類別可能性閾值時,所述深度神經網路引導所述媒體資料穿過所述至少一個替代性路徑及所述主路徑中的所述下一者,且所述至少一個替代性路徑中的所述目前一者係由所述主路徑的所述X個由層形成的群組中的第C個由層形成的群組延伸出,並且所述深度神經網路通過以下來引導所述媒體資料穿過所述至少一個替代性路徑及所述主路徑中的所述下一者:重新引導從所述主路徑的所述X個由層形成的群組中的所述第C個由層形成的群組輸出的資料進入所述主路徑的所述X個由層形成的群組中的第(C+1)個由層形成的群組中,並接著穿過所述至少一個替代性路徑及所述主路徑中的所述下一者的的其餘層,其中在所有所述至少一個替代性路徑中,C是相應的所述Y中的一者。
在一實施例中,所述融合層使用以下中的一者來計算所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述目前融合類別可能性:
(a)對於每一所述多個預定資料類別,通過對所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性,使用相同的權重來將所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性求平均;
(b)對於每一所述多個預定資料類別,通過對所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性,使用相應的權重來將所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性求平均;
(c)對於每一所述多個預定資料類別,從所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性中選擇最大類別可能性;
(d)對於每一所述多個預定資料類別,從所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性隨機地選擇類別可能性;以及
(e)對於每一所述多個預定資料類別,隨機地丟棄所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性中的預定數目的類別可能性,並接著執行(a)至(d)中的一者。
在一實施例中,所述類別可能性是以機率或類別分數的形式來表示。
在一實施例中,只有當所述至少一個替代性路徑及所述主路徑中已引導所述媒體資料從中穿過的任何先前路徑的所述最高類別可能性未達到或未超過所述對應類別可能性閾值時,所述深度神經網路才從所述融合層輸出所述最高融合類別可能性作為所述最終類別可能性。
在一實施例中,只有當所述最高融合類別可能性達到或超過其對應融合類別可能性閾值,或所述深度神經網路已引導所述媒體資料穿過每一所述至少一個替代性路徑及所述主路徑時,所述深度神經網路才從所述融合層輸出所述最高融合類別可能性作為所述最終類別可能性。
在一實施例中,所述至少一個替代性路徑中的任一者中的所述X個群組中所述層的總數,不同於所述主路徑中的所述X個由層形成的群組中所述層的總數。
在一實施例中,所述至少一個替代性路徑中的任一者中的所述X個群組中所述層的所述總數,小於所述主路徑中的所述X個由層形成的群組中所述層的總數。
在一實施例中,所述至少一個替代性路徑中的至少一由第N個由層形成的群組中所述層的總數,小於所述主路徑中的第N個由層形成的群組中所述層的總數,並且其中N > Y,且N是為Y+1、Y+2、…、X中的至少一者的整數。
在一實施例中,每一所述主路徑及所述至少一個替代性路徑中的每一所述層包括多個過濾器,且所述至少一個替代性路徑中的任一者中的所述X個由層形成的群組的所述過濾器的總數,不同於所述主路徑中的所述X個由層形成的群組的所述過濾器的總數。
在一實施例中,所述至少一個替代性路徑中的任一者中的所述X個由層形成的群組的所述過濾器的所述總數小於所述主路徑中的所述X個由層形成的群組的所述過濾器的所述總數。
在一實施例中,所述至少一個替代性路徑中的至少一者中的第K個由層形成的群組的所述過濾器的總數小於所述主路徑中的第K個由層形成的群組的所述過濾器的總數,並且其中K > Y,且K是為Y+1、Y+2、…、X中的至少一者的整數。
在一實施例中,所述主路徑中由同一所述由層形成的群組中的每一所述層具有相同總數的所述過濾器,且所述至少一個替代性路徑中的任一者中由同一所述由層形成的群組中的每一所述層具有相同總數的所述過濾器。
在一實施例中,所述深度神經網路是卷積神經網路。
在一實施例中,所述媒體資料是文字資料、圖形資料、影像資料、音訊資料、影片資料、或其中任一組合。
在一實施例中,所述媒體資料是顯示待檢驗產品的一部分的影像資料或影片資料,且所述多個預定資料類別包括有缺陷及無缺陷。
在一實施例中,所述至少一個替代性路徑包括多個替代性路徑,且具有額外X-Y-W個由層形成的群組的至少一個子側枝(sub-side branch),從所述側枝的所述額外X-Y個由層形成的群組中的相應的第W個群組延伸出,以由所述至少一個子側枝形成所述至少一個替代性路徑中的另一者的一部分,並且其中對於每 一所述至少一個子側枝,相應的所述W是整數,且1 ≤ W < X-Y。
在一實施例中,直至所述深度神經網路已引導所述媒體資料依序穿過具有所述至少一個子側枝的每一至少一個替代性路徑中,所述深度神經網路才引導所述媒體資料穿過具有所述側枝的所述替代性路徑。
在一實施例中,所述至少一個子側枝包括多個子側枝,所述多個子側枝分別形成具有所述子側枝的多個替代性路徑的一部分,直至所述深度神經網路已引導所述媒體資料依序穿過具有每一所述子側枝的所述多個替代性路徑,所述深度神經網路才引導所述媒體資料穿過具有所述側枝的所述替代性路徑,並且所述深度神經網路引導所述媒體資料依序由所述子側枝的長度的遞減次序以具有所述子側枝的每一所述多個替代性路徑穿過具有所述子側枝的所述多個替代性路徑,且具有所述子側枝的所述多個替代性路徑中的每一者的所述子側枝的所述長度是具有所述子側枝的每一所述多個替代性路徑的所述額外X-Y-W個由層形成的群組的總數。
在一實施例中,當所述媒體資料穿過具有所述子側枝的所述多個替代性路徑中的目前一者而未輸出所述最終類別可能性時,所述深度神經網路引導所述媒體資料穿過下一個具有所述子側枝的所述多個替代性路徑及具有所述側枝的所述替代性路徑,且所述目前一具有所述子側枝的所述多個替代性路徑,從具有所述側枝的所述替代性路徑的所述X-Y個由層形成的群組中的第V個由層形成的群組延伸出,並且所述深度神經網路通過以下來引導所述媒體資料穿過所述下一具有所述子側枝的所述多個替代性路徑及具有所述側枝的所述替代性路徑中:重新引導從具有所述側枝的所述替代性路徑的所述X個由層形成的群組中的所述第V個由層形成的群組輸出的資料進入具有所述側枝的所述替代性路徑的所述X個由層形成的群組中的第(V+1)個由層形成的群組中並接著穿過其餘層的所述下一具有所述子側枝的所述多個替代性路徑及具有所述側枝的所述替代性路徑中的所述下一者的其餘層,其中在所有所述至少一個子側枝中,V是相應的所述W中的一者。
在一實施例中,提供一種用於使用深度神經網路以提高的識別與分類準確度及效率將媒體資料識別及分類為多個預定資料類別中的一者的方法。所述深度神經網路包括:主路徑,依連續順序具有輸入層、僅X個由層形成的群組、至少一個池化層、及分類層,所述輸入層用於接收媒體資料,所述僅X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述主路徑中的所述X個由層形成的群組的輸出進行向下採樣,所述分類層用於為所述媒體資料穿過所述主路徑時,計算每一所述多個預定資料類別中的類別可能性,其中X > 1且X是整數;至少一個替代性路徑,依連續順序具有所述輸入層、僅X個由層形成的群組、至少一個池化層、及分類層,所述僅X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述至少一個替代性路徑中的所述X個群組的輸出進行向下採樣,所述分類層用於當所述媒體資料穿過所述至少一個替代性路徑時,計算每一所述多個預定資料類別中的類別可能性,其中每一所述至少一個替代性路徑中的所述X個由層形成的群組,是相對於由所述主路徑中的所述X個由層形成的群組中的Y個群組、以及額外X-Y個由層形成的群組作為側枝相應於所述主路徑中的所述X個群組中的相應的第Y個群組延伸而出,其中所述主路徑中的所述X個由層形成的群組中的相應的所述Y個群組是所述主路徑中的所述X個由層形成的群組中的第一個群組至所述主路徑中的所述X個由層形成的群組中的相應的所述第Y個群組,並且其中對於每一所述至少一個替代性路徑,相應的所述Y是整數,且1 ≤ Y < X;融合層,其中所述主路徑的所述分類層與所述至少一個替代性路徑的所述分類層在所述融合層處合併;以及預測器,依據最終類別可能性將所述媒體資料識別及分類,為所述多個預定資料類別中對應的一者。所述方法包括:引導所述媒體資料依序一次一個地穿過所述至少一個替代性路徑及所述主路徑中的一者或多者,直至所述最終類別可能性被輸出為止;輸出以下作為所述最終類別可能性:所述至少一個替代性路徑及所述主路徑中首先達到或超過對應類別可能性閾值的那一個的最高類別可能性、或是輸出來自所述融合層的最高融合類別可能性當成所述最終類別可能性,其中所述融合層的最高融合類別可能性是基於所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的兩者或更多者的所述類別可能性;以及將所述媒體資料識別及分類為所述多個預定資料類別中與所述最終類別可能性對應的一者。
在一實施例中,提供一種含有電腦程式產品的非暫時性電腦可讀媒體,所述電腦程式產品包括用於使用深度神經網路以提高的識別與分類準確度及效率將媒體資料識別及分類為多個預定資料類別中的一者的電腦可執行指令。所述深度神經網路包括:主路徑,依連續順序具有輸入層、僅X個由層形成的群組、至少一個池化層、及分類層,所述輸入層用於接收媒體資料,所述僅X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述主路徑中的所述X個由層形成的群組的輸出進行向下採樣,所述分類層用於為所述媒體資料穿過所述主路徑時,計算每一所述多個預定資料類別中的類別可能性,其中X > 1且X是整數;至少一個替代性路徑,依連續順序具有所述輸入層、僅X個由層形成的群組、至少一個池化層、及分類層,所述僅X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述至少一個替代性路徑中的所述X個群組的輸出進行向下採樣,所述分類層用於所述媒體資料穿過所述至少一個替代性路徑時,計算每一所述多個預定資料類別中的類別可能性,其中每一所述至少一個替代性路徑中的所述X個由層形成的群組,是相對於由所述主路徑中的所述X個由層形成的群組中的Y個群組、以及額外X-Y個由層形成的群組作為側枝相應於從所述主路徑中的所述X個群組中的相應的第Y個群組延伸而出,其中所述主路徑中的所述X個由層形成的群組中的相應的所述Y個群組是所述主路徑中的所述X個由層形成的群組中的第一個群組至所述主路徑中的所述X個由層形成的群組中的相應的所述第Y個群組,並且其中對於每一所述至少一個替代性路徑,相應的所述Y是整數,且1 ≤ Y < X;融合層,其中所述主路徑的所述分類層與所述至少一個替代性路徑的所述分類層在所述融合層處合併;以及預測器,依據最終類別可能性將所述媒體資料識別及分類為所述多個預定資料類別中對應的一者。所述電腦程式產品包括用於以下的所述電腦可執行指令:引導所述媒體資料依序一次一個地穿過所述至少一個替代性路徑及所述主路徑中的一者或多者,直至所述最終類別可能性被輸出為止;輸出以下作為所述最終類別可能性:所述至少一個替代性路徑及所述主路徑中首先達到或超過對應類別可能性閾值的那一個的最高類別可能性、或是輸出來自所述融合層的最高融合類別可能性當成所述最終類別可能性,其中所述融合層的最高融合類別可能性是基於所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的兩者或更多者的所述類別可能性;以及將所述媒體資料識別及分類為所述多個預定資料類別中與所述最終類別可能性對應的一者。
如所提及,雖然人們可增加網路大小(包括深度及寬度)來實現更高的影像識別準確度,但這樣做的代價是正向推理的等待時間會變得多。為了在不犧牲深度神經網路的效率的條件下實現更高的識別與分類準確度,一種深度神經網路被提出,其具有已提高的識別與分類準確度及效率。
如將使用以下實施例更詳細地解釋,在增強型深度神經網路中,除了深度神經網路的主路徑以外,還提供從深度神經網路的主路徑延伸出的至少一個側枝以形成至少一個替代性路徑,用以實現可行的、更快速的正向推理時間。在一實施例中,每一所述至少一個替代性路徑與主路徑相比具有“完整但更小”的結構,這意味著所述至少一個替代性路徑保持與主路徑相同數目的由層形成的群組(因此為“完整”的)但可具有比主路徑更少總數的層及/或更少總數的過濾器(因此為“更小”的)。由於所述至少一個替代性路徑(尤其在所述至少一個側枝)中層及/或過濾器的數目減少,因此如果所述至少一個替代性路徑的最高類別可能性達到或超過類別可能性閾值而退出深度神經網路時,則在所述至少一個替代性路徑處的計算時間將顯著減少,藉此在無需經過整個主路徑(以及其他替代性路徑)的情況下實現更快速的正向推理時間。
另外,當存在多個替代性路徑時,媒體資料將依序一次一個地穿過所述多個“完整但更小”的替代性路徑後才經過主路徑。只要存在一個(且第一個)替代性路徑其最高類別可能性達到或超過類別可能性閾值而退出深度神經網路,深度神經網路就停止引導媒體資料穿過所述替代性路徑中的其餘路徑及所述主路徑。此種順序決策作出機制還提高更早地退出深度神經網路的機會。
此外,為了提高深度神經網路的識別與分類準確度,還採取合作性決策作出機制以將所述主路徑及所述至少一個替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的類別可能性融合為最終類別可能性。由於將兩個或更多個路徑(主路徑或替代性路徑)的類別可能性融合來計算最終類別可能性,此種合作性決策作出機制可改進深度神經網路的識別與分類準確度。另外,當兩個或更多個路徑的類別可能性是來自替代性路徑且最高融合類別可能性達到或超過用以退出深度神經網路的融合類別可能性閾值時,因為將不需要經過整個主路徑(及其他替代性路徑),還可減少計算時間並實現更快速的正向推理時間。
圖1說明根據本申請實施例的深度神經網路,且圖2說明根據本申請實施例的深度神經網路的主路徑及替代性路徑。如圖1及圖2中所示,存在主路徑,所述主路徑依連續順序具有輸入層、僅X個由層形成的群組、池化層、及分類層,其中X > 1且X是整數。另外,存在替代性路徑(圖1及圖2中所示的最右側路徑),所述替代性路徑依連續順序具有所述輸入層、僅X個由層形成的群組、池化層、及分類層,其中最右側替代性路徑中的所述X個由層形成的群組是由所述主路徑中的所述X個由層形成的群組中的前Y個群組、以及作為側枝從主路徑中的所述X個群組中的第Y個群組延伸出的額外X-Y個由層形成的群組(被標示為第(Y+1)個群組、…、第X個群組)組成,並且其中Y是整數且1 ≤ Y < X。換句話說,主路徑的第一個由層形成的群組至第Y個由層形成的群組也是第一替代性路徑的第一個由層形成的群組至第Y個由層形成的群組,但第一替代性路徑的第(Y+1)個由層形成的群組至第X個由層形成的群組不同於主路徑的第(Y+1) 個由層形成的群組至第X個由層形成的群組。然而,主路徑及第一替代性路徑兩者具有相同數目(即,X)的由層形成的群組。在一實施例中,此替代性路徑具有比主路徑更少總數的層及/或更少總數的過濾器(filter)。因此,此替代性路徑與主路徑相比具有“完整但更小”的結構,因為此替代性路徑保持與主路徑相同數目(即,X)的由層形成的群組但具有比主路徑更少總數的層及/或更少總數的過濾器。
在另一實施例中,所述深度神經網路可包括多於一個替代性路徑。舉例來說,如圖1及圖2中所示,存在另一替代性路徑,所述另一替代性路徑依連續順序具有輸入層、僅X個由層形成的群組、池化層、及分類層,其中每一所述替代性路徑中的所述X個由層形成的群組是由主路徑中的所述X個由層形成的群組中的前Z個群組、以及作為側枝從主路徑中的所述X個群組中的第Z個群組延伸出的額外X-Z個由層形成的群組(被標示為第(Z+1)個群組、…、第X個群組),並且其中Z是整數且1 ≤ Y < Z < X。
換句話說,主路徑的第一個由層形成的群組至第Z個由層形成的群組也是此替代性路徑的第一個由層形成的群組至第Z個由層形成的群組,但第一替代性路徑的第(Z+1) 個由層形成的群組至第X個由層形成的群組不同於主路徑的第(Z+1) 個由層形成的群組至第X個由層形成的群組。然而,主路徑及此替代性路徑兩者(以及任何其他替代性路徑)具有相同數目(即,X)的由層形成的群組。在一實施例中,此替代性路徑(以及任何其他替代性路徑)具有比主路徑更少總數的層及/或更少總數的過濾器。因此,此替代性路徑(以及任何其他替代性路徑)與主路徑相比具有“完整但更小”的結構,因為此替代性路徑保持與主路徑相同數目(即,X)的由層形成的群組但具有比主路徑更少總數的層及/或更少總數的過濾器。
另外,可存在分別從主路徑中的所述X個群組中的另一些群組(例如,位於主路徑中的所述X群組中的第Y個群組之前以及第Z個群組之後的群組)延伸出的一些其他替代性路徑。舉例來說,如圖7中所示,存在另一替代性路徑,所述另一替代性路徑具有作為側枝從主路徑中的所述X個群組中的第C個群組延伸出的額外X-C個由層形成的群組(被標示為第(C+1) 個群組、…、第X個群組),並且其中C是整數且1 ≤ Y < C < Z < X。如同其他替代性路徑,此替代性路徑與主路徑相比也具有“完整但更小”的結構,因為此替代性路徑保持與主路徑相同數目(即,X)的由層形成的群組但具有比主路徑更少總數的層及/或更少總數的過濾器。
如所提及,在所說明的實施例中,所述替代性路徑中的每一者與主路徑相比均具有“完整但更小”的結構,且更具體來說在側枝的由層形成的群組處具有“完整但更小”的結構。在一實施例中,第一替代性路徑中的第N個由層形成的群組的層的總數小於主路徑中的第N個由層形成的群組的層的總數,並且其中N > Y且N是為Y+1、Y+2、…、X中的至少一者的整數。相似地,在實施例中,中間(位於第一替代性路徑與最後一個替代性路徑之間的一個)替代性路徑中的第N個由層形成的群組的層的總數小於主路徑中的第N個由層形成的群組的層的總數,並且其中N > C且N是為C+1、C+2、…、X中的至少一者的整數。相似地,在實施例中,最後一個替代性路徑中的第N個由層形成的群組的層的總數小於主路徑中的第N個由層形成的群組的層的總數,並且其中N > Z且N是為Z+1、Z+2、…、X中的至少一者的整數。
在一實施例中,所述主路徑及每一所述至少一個替代性路徑中的每一層包括多個過濾器,且所述至少一個替代性路徑中的任一者中的所述X個由層形成的群組的過濾器的總數不同於主路徑中的所述X個由層形成的群組的過濾器的總數。
在一實施例中,所述至少一個替代性路徑中的任一者中的所述X個由層形成的群組的過濾器的總數小於主路徑中的所述X個由層形成的群組的過濾器的總數。
在一實施例中,第一替代性路徑中的第K個由層形成的群組的過濾器的總數小於主路徑中的第K個由層形成的群組的過濾器的總數,並且其中K > Y且K是為Y+1、Y+2、…、X中的至少一者的整數。相似地,在實施例中,中間的(位於第一替代性路徑與最後一個替代性路徑之間的一個)替代性路徑中的第K個由層形成的群組的過濾器的總數小於主路徑中的第K個由層形成的群組的過濾器的總數,並且其中K > C且K是為C+1、C+2、…、X中的至少一者的整數。相似地,在實施例中,最後一個替代性路徑中的第K個由層形成的群組的過濾器的總數小於主路徑中的第K個由層形成的群組的過濾器的總數,並且其中K > Z且K是為Z+1、Z+2、…、X中的至少一者的整數。
在一實施例中,主路徑中的同一由層形成的群組中的每一層具有相同總數的過濾器,且所述至少一個替代性路徑中的任一者中的同一由層形成的群組中的每一層具有相同總數的過濾器。
圖3說明根據本申請的一實施例如何使媒體資料穿過深度神經網路。如圖3中所示,深度神經網路引導媒體資料依序一次一個地穿過所述至少一個替代性路徑及所述主路徑中的一者或多者直到最終類別可能性在預測器處被輸出為止,且輸出以下作為最終類別可能性:所述至少一個替代性路徑及所述主路徑中首先達到或超過對應類別可能性閾值的那一個的最高類別可能性、或是來自所述融合層的最高融合類別可能性基於所述主路徑及所述至少一個替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的類別可能性。
應注意,雖然圖3說明媒體資料如何穿過多於一個替代性路徑,但當深度神經網路中僅存在一個替代性路徑時,在媒體資料穿過所述替代性路徑但所述替代性路徑的最高類別可能性未能達到或未能超過對應類別可能性閾值之後,媒體資料將被引導回到主路徑,如圖13至圖15中所示。
在一實施例中,直至深度神經網路已引導媒體資料依序穿過至少一個替代性路徑中的每一者後,深度神經網路才引導媒體資料穿過主路徑。如圖3中所示,深度神經網路在引導媒體資料依序一次一個地穿過一個或多個替代性路徑後才引導媒體資料穿過主路徑。
在一實施例中,深度神經網路依序以側枝在每一所述多個替代性路徑的長度的遞減次序引導媒體資料穿過所述多個替代性路徑,且每一所述多個替代性路徑的側枝的長度是每一所述多個替代性路徑中的所述額外由層形成的群組的總數。如圖3中所示,第一替代性路徑(即,最右側路徑)具有最長側枝,因為此側枝具有最高數目(即,X-Y)的由層形成的群組。另一方面,圖3中所示的另一替代性路徑(即,最左側路徑)具有最短側枝,因為此側枝具有最低數目(即,X-Z)的由層形成的群組,其中1 ≤ Y < Z < X。此外,如圖7中所示,在最短側枝與最長側枝之間存在側枝具有(X-C)個由層形成的群組的另一替代性路徑,其中1 ≤ Y < C < Z < X。因此,在圖3至圖15所說明實施例中,深度神經網路引導媒體資料依序一次一個地穿過具有(X-Y)個由層形成的群組的側枝的第一替代性路徑、具有(X-C)個由層形成的群組的側枝的替代性路徑、具有(X-Z)個由層形成的群組的側枝的最後一個替代性路徑且接著穿過主路徑,直至最終類別可能性在預測器處被輸出為止,這將會停止引導媒體資料穿過替代性路徑中的其餘路徑及主路徑(如果媒體資料尚未穿過所述替代性路徑中的所述其餘路徑及所述主路徑),如以下所解釋。
如圖4及圖5中所示,深度神經網路引導媒體資料穿過依連續順序具有輸入層、主路徑的第一個由層形成的群組至第Y個由層形成的群組、額外(X-Y)個由層形成的群組(即,第一替代性路徑的第(Y+1) 個由層形成的群組至第X個由層形成的群組)、池化層、及分類層的第一替代性路徑,以為媒體資料(由分類層)針對每一所述多個預定資料類別輸出類別可能性。
在實施例中,將第一替代性路徑的所有類別可能性中的最高類別可能性(其對應於所述多個預定資料類別中的一者)與第一替代性路徑的類別可能性閾值(TH
1)進行比較。如果第一替代性路徑的最高類別可能性達到或超過第一替代性路徑的對應類別可能性閾值(TH
1),則第一替代性路徑的最高類別可能性將作為最終類別可能性被輸出到預測器以作出決策,即,將媒體資料識別及分類為所述多個預定資料類別中與最高類別可能性對應的一者。
在一實施例中,當深度神經網路輸出最終類別可能性(其接著被發送到預測器,以用於將媒體資料識別及分類為所述多個預定資料類別中與最高類別可能性對應的一者)時,深度神經網路停止引導媒體資料穿過替代性路徑中的其餘路徑及主路徑。因此,媒體資料不必經過整個/完整的主路徑,這顯著地減少計算時間(歸因於替代性路徑的“完整但更小”的結構)且因此提高識別與分類效率。
在一實施例中,所述媒體資料是文字資料、圖形資料、影像資料、音訊資料、影片資料、或其任一組合。
在一實施例中,所述媒體資料是顯示待檢驗產品的一部分的影像資料或影片資料,且所述多個預定資料類別包括有缺陷及無缺陷。舉例來說,所述媒體資料是顯示電子裝置一部分(例如印刷電路板(printed circuit board,PCB))的影像資料或影片資料,其將要在所述印刷電路板上檢驗有無任何可能的缺陷。當媒體資料穿過深度神經網路時,深度神經網路將使用從預測器輸出的最終類別可能性來將媒體資料識別及分類為所述兩個預定資料類別(例如,有缺陷及無缺陷)中與所述最終類別可能性對應的一者,以預測印刷電路板在特定部分處是否具有缺陷。
在實施例中,所述類別可能性是以機率或類別分數的形式來表示。舉例來說,在使用深度神經網路來判斷印刷電路板在特定部分處是否具有缺陷的實例中,類別可能性可以是以機率(例如,90%)或類別分數(例如,90/100)的形式來表示。在以上所說明的實施例中,例如,當媒體資料穿過第一替代性路徑且第一替代性路徑的分類層將“有缺陷”類別的類別可能性計算為90%並將“無缺陷”類別的類別可能性計算為10%並且第一替代性路徑的類別可能性閾值是85%時,所述兩個類別的最高類別可能性(即,90%)將與第一替代性路徑的類別可能性閾值(即,85%)進行比較以判斷所述最高類別可能性是否將被作為最終類別可能性輸出到預測器。由於所述最高類別可能性(即,90%)達到並超過對應類別可能性閾值(即,85%),因而所述最高類別可能性將被作為最終類別可能性輸出到預測器,且預測器將把媒體資料識別及分類為所述多個預定資料類別中與所述最高類別可能性對應的一者(即,“有缺陷”類別),這意味著印刷電路板在特定部分處被識別為具有缺陷。另一方面,當媒體資料穿過第一替代性路徑且第一替代性路徑的分類層將“有缺陷”類別的類別可能性計算為5%並將“無缺陷”類別的類別可能性計算為95%時,預測器將媒體資料識別及分類為與最終類別可能性對應的“無缺陷”類別,這意味著印刷電路板在特定部分處被識別為不具有缺陷。
在一實施例中,一旦深度神經網路識別及分類出印刷電路板在特定部分處具有缺陷,便也可對媒體資料應用額外的深度神經網路,以確定印刷電路板的特定部分處缺陷的類型以及缺陷的具體位置。
另一方面,如圖6中所示,如果第一替代性路徑的最高類別可能性未達到或未超過第一替代性路徑的對應類別可能性閾值(TH
1),則將不向預測器輸出最終類別可能性來作出決策。而是,媒體資料將必須經過下一替代性路徑(如果存在尚未使媒體資料從中穿過的至少一個替代性路徑)或主路徑(如果媒體資料已穿過所有替代性路徑,或者如果僅存在一個替代性路徑)。
在一實施例中,如果存在尚未使媒體資料從中穿過的至少一個替代性路徑,則如圖6中所示,深度神經網路通過以下來引導媒體資料穿過下一替代性路徑:重新引導從主路徑的所述X個由層形成的群組中的第Y個由層形成的群組輸出的資料進入主路徑的所述X個由層形成的群組中的第(Y+1) 個由層形成的群組並接著穿過下一替代性路徑的層中的其餘層。換句話說,當媒體資料穿過下一替代性路徑時,無需再次經過主路徑的所述X個由層形成的群組中的第一個由層形成的群組至第Y個由層形成的群組,因為這在第一替代性路徑期間已完成。因此,當經過下一替代性路徑時,無需再次作出在第一替代性路徑期間在主路徑的所述X個由層形成的群組中的第一個由層形成的群組至第Y個由層形成的群組中所作的計算。
在另一實施例中,如果第一替代性路徑是僅有的一個替代性路徑,則深度神經網路通過以下來引導媒體資料穿過主路徑:重新引導從主路徑的所述X個由層形成的群組中的第Y個由層形成的群組輸出的資料進入主路徑的所述X個由層形成的群組中的第(Y+1) 個由層形成的群組並接著穿過主路徑的層中的其餘層(這將具有如圖14及圖15中所示的相同流程,以下將對此進行解釋)。相似地,當經過主路徑時,在第一替代性路徑期間在主路徑的所述X個由層形成的群組中的第一個由層形成的群組至第Y個由層形成的群組中所作的計算無需再次作出。
如圖7及圖8中所示,在深度神經網路重新引導從主路徑的所述X個由層形成的群組中的第Y個由層形成的群組輸出的資料進入主路徑的所述X個由層形成的群組中的第(Y+1) 個由層形成的群組之後,資料將經過下一替代性路徑的層中的其餘層(依連續順序為主路徑的第(Y+1) 個由層形成的群組至第C個由層形成的群組、額外(X-C)個由層形成的群組(即,此替代性路徑的第(C+1) 個由層形成的群組至第X個由層形成的群組)、池化層、及分類層),以(由分類層)為媒體資料針對所述多個預定資料類別中的每一者輸出類別可能性。
在一實施例中,將此替代性路徑的所有類別可能性中的最高類別可能性(其對應於所述多個預定資料類別中的一者)與此替代性路徑的類別可能性閾值(TH
C)進行比較。如果此替代性路徑的最高類別可能性達到或超過此替代性路徑的對應類別可能性閾值(TH
C),則此替代性路徑的最高類別可能性將被作為最終類別可能性輸出到預測器以作出決策,即,將媒體資料識別及分類為所述多個預定資料類別中與所述最高類別可能性對應的一者。
在一實施例中,只有當所述至少一個替代性路徑及所述主路徑中已引導媒體資料從中穿過的當前一者的最高類別可能性未達到或未超過對應類別可能性閾值時,融合層才針對所述多個預定資料類別中的每一者計算所述主路徑及所述至少一個替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的當前融合類別可能性。舉例來說,如圖8中所示,如果此替代性路徑的最高類別可能性未達到或未超過此替代性路徑的對應類別可能性閾值(TH
C),則融合層將基於已引導媒體資料從中穿過的任何替代性路徑中的兩者或更多者的類別可能性來針對每一所述多個預定資料類別計算當前融合類別可能性。
在一實施例中,使用(但不限於)以下中的一者來選擇所述替代性路徑中用於計算當前融合類別可能性的兩者或更多者:
(a)已引導媒體資料從中穿過的所有替代性路徑中具有最高類別可能性的兩個或更多個替代性路徑;
(b)已引導媒體資料從中穿過的所有替代性路徑;
(c)已引導媒體資料從中穿過且具有比預定閾值高的最高類別可能性的所有替代性路徑;以及
(d)隨機地選擇已引導媒體資料從中穿過的的兩個或更多個替代性路徑。
在實施例中,融合層將通過(但不限於)以下中的一者基於已引導媒體資料從中穿過的任何替代性路徑中的兩者或更多者的類別可能性來針對所述多個預定資料類別中的每一者計算當前融合類別可能性:
(a)對於每一所述多個預定資料類別,通過對已引導媒體資料從中穿過的替代性路徑中的兩者或更多者的類別可能性使用相同的權重來將已引導媒體資料從中穿過的替代性路徑中的兩者或更多者的類別可能性求平均;
(b)對於每一所述多個預定資料類別,通過對已引導媒體資料從中穿過的替代性路徑中的兩者或更多者的類別可能性使用相應的權重來將已引導媒體資料從中穿過的替代性路徑中的兩者或更多者的類別可能性求平均;
(c)對於每一所述多個預定資料類別,從已引導媒體資料從中穿過的替代性路徑中的兩者或更多者的類別可能性選擇最大類別可能性;
(d)對於每一所述多個預定資料類別,從已引導媒體資料從中穿過的替代性路徑中的兩者或更多者的類別可能性隨機地選擇類別可能性;以及
(e)對於每一所述多個預定資料類別,隨機地丟棄已引導媒體資料從中穿過的至少一個替代性路徑中的兩者或更多者的類別可能性中的預定數目的類別可能性,並接著執行(a)至(d)中的一者。
在一實施例中,將所有融合類別可能性中的最高融合類別可能性(其對應於所述多個預定資料類別中的一者)與對應融合類別可能性閾值(TH
F)進行比較。如果所述最高融合類別可能性達到或超過對應融合類別可能性閾值(TH
F),則所述最高融合類別可能性將被作為最終類別可能性輸出到預測器以作出預測,即,將媒體資料識別及分類為所述多個預定資料類別中與最高融合類別可能性對應的一者。
換句話說,在圖8所示的實施例中,如果此替代性路徑的最高類別可能性達到或超過所述(非第一)替代性路徑的對應類別可能性閾值(TH
C)或者最高融合類別可能性達到或超過對應融合類別可能性閾值(TH
F),則可向預測器輸出最終類別可能性,以對媒體資料進行識別及分類。應注意,由於融合類別可能性是使用兩個或更多個路徑的類別可能性獲得,因而只有當媒體資料已被引導穿過至少兩個路徑時才能獲得融合類別可能性。因此,當媒體資料僅穿過第一替代性路徑時,將不會獲得融合類別可能性。
另一方面,如圖9中所示,如果此替代性路徑的最高類別可能性未達到或未超過所述(非第一)替代性路徑的對應類別可能性閾值(TH
C)且最高融合類別可能性未達到或未超過對應融合類別可能性閾值(TH
F),則將不向預測器輸出最終類別可能性來作出預測。而是,媒體資料將必須經過下一替代性路徑(如果存在尚未使媒體資料從中穿過的至少一個替代性路徑)或主路徑(如果媒體資料已穿過所有替代性路徑)。
在另一實施例中,如圖8A及圖9A中所示,如果此替代性路徑的最高類別可能性達到或超過所述(非第一)替代性路徑的對應類別可能性閾值(TH
C),則可向預測器輸出最終類別可能性,以對媒體資料進行識別及分類。如果此替代性路徑的最高類別可能性未達到或未超過此替代性路徑的對應類別可能性閾值(TH
C),則將不對兩個或更多個替代性路徑的類別可能性執行融合,且將不向預測器輸出最終類別可能性來作出預測。而是,媒體資料將必須經過下一替代性路徑(如果存在尚未使媒體資料從中穿過的至少一個替代性路徑)或主路徑(如果媒體資料已穿過所有替代性路徑)。
圖11及圖12顯示:在媒體資料穿過先前替代性路徑並經歷先前融合過程(如果有)時未輸出最終類別可能性,且深度神經網路如圖10中所示引導媒體資料穿過最後一個替代性路徑。圖11及圖12中所示的過程與圖8及圖9中所示的過程實質上相同,只不過最後一個替代性路徑具有從主路徑中的所述X個群組中的第Z個群組延伸出的側枝,其中Z是整數且1 ≤ Y < D < Z < X。
另外,在圖11及圖12所示的實施例,只有當最後一個替代性路徑的最高類別可能性未達到或未超過對應類別可能性閾值(TH
L)時,融合層才將針對每一所述多個預定資料類別計算所述主路徑及所述至少一個替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的新融合類別可能性。所述替代性路徑中用於計算當前融合類別可能性的兩者或更多者是使用(但不限於)上述方式中的一者加以選擇,且融合層將通過(但不限於)上述方式中的一者基於已引導媒體資料從中穿過的任何替代性路徑中的兩者或更多者的類別可能性來針對每一所述多個預定資料類別計算當前融合類別可能性。應注意,在不同替代性路徑期間選擇替代性路徑中用以計算當前融合類別可能性的兩者或更多者的方式可彼此相同或不同,且在不同替代性路徑期間計算融合類別可能性的方式可彼此相同或不同,並且不同替代性路徑的融合類別可能性閾值可彼此相同或不同。
相似地,圖11A及圖12A顯示與圖11及圖12所示過程相似的過程,只不過在圖11A及圖12A中未執行融合。另外,圖11A及圖12A所示過程與圖8A及圖9A所示過程實質上相同,只不過最後一個替代性路徑具有從主路徑中的所述X個群組中的第Z個群組延伸出的側枝,並且其中Z是整數且1 ≤ Y < D < Z < X。
在一實施例中,直至深度神經網路已引導媒體資料依序穿過每一至少一個替代性路徑,深度神經網路才引導媒體資料穿過主路徑。舉例來說,如圖13及圖14中所示,如果在媒體資料穿過所有替代性路徑之後未輸出最終類別可能性,則媒體資料將必須經過主路徑。另外,當深度神經網路僅具有一個替代性路徑(參見上述實施例)時,如果在媒體資料穿過僅有的替代性路徑之後未輸出最終類別可能性,則媒體資料將必須經過主路徑。
如圖14中所示,深度神經網路通過以下來引導媒體資料穿過主路徑:重新引導從主路徑的所述X個由層形成的群組中的第Z個由層形成的群組輸出的資料進入主路徑的所述X個由層形成的群組中的第(Z+1) 個由層形成的群組中並接著穿過主路徑的層中的其餘層。換句話說,當媒體資料穿過主路徑時,無需再次經過主路徑的所述X個由層形成的群組中的第一個由層形成的群組至第Z個由層形成的群組,因為這在替代性路徑期間已完成。因此,當經過主路徑時,在替代性路徑期間在主路徑的所述X個由層形成的群組中的第一個由層形成的群組至第Z個由層形成的群組中所作的計算無需再次作出。
如圖14中所示,在深度神經網路重新引導從主路徑的所述X個由層形成的群組中的第Z個由層形成的群組輸出的資料進入主路徑的所述X個由層形成的群組中的第(Z+1) 個由層形成的群組中之後,資料將經過主路徑的層中的其餘層(依連續順序為主路徑的第(Z+1) 個由層形成的群組至第X個由層形成的群組、池化層、及分類層),以(由分類層)為媒體資料針對每一所述多個預定資料類別輸出類別可能性。
在一實施例中,將主路徑的所有類別可能性中的最高類別可能性(其對應於所述多個預定資料類別中的一者)與此替代性路徑的類別可能性閾值(TH
M)進行比較。如果主路徑的最高類別可能性達到或超過主路徑的對應類別可能性閾值(TH
M),則主路徑的最高類別可能性將被作為最終類別可能性輸出到預測器以作出預測,即,將媒體資料識別及分類為所述多個預定資料類別中與最高類別可能性對應的一者。
在一實施例中,只有當已引導媒體資料從中穿過的主路徑的最高類別可能性未達到或未超過對應類別可能性閾值時,融合層才針對所述多個預定資料類別中的每一者計算主路徑及至少一個替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的當前融合類別可能性。舉例來說,如圖15中所示,如果主路徑的最高類別可能性未達到或未超過主路徑的對應類別可能性閾值(TH
M),則融合層將基於主路徑及替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的類別可能性來針對每一所述多個預定資料類別計算當前融合類別可能性。
在一實施例中,使用(但不限於)以下中的一者來選擇主路徑及替代性路徑中用於計算當前融合類別可能性的兩者或更多者:
(a)主路徑及所有替代性路徑中的替代性路徑中已引導媒體資料從中穿過的任何路徑中具有最高類別可能性的兩者或更多者;
(b)已引導媒體資料從中穿過的所有路徑(包括主路徑及替代性路徑);
(c)已引導媒體資料從中穿過且具有比預定閾值高的最高類別可能性的所有路徑(包括主路徑及替代性路徑);以及
(d)隨機選擇從主路徑及替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者。
在實施例中,融合層將通過(但不限於)以下中的一者基於主路徑及替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的類別可能性來針對所述多個預定資料類別中的每一者計算當前融合類別可能性:
(a)對於每一所述多個預定資料類別中,通過對主路徑及替代性路徑中已引導媒體資料從中穿過的兩者或更多者的類別可能性使用相同的權重來將主路徑及替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的類別可能性求平均;
(b)對於每一所述多個預定資料類別中,通過對主路徑及替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的類別可能性使用相應的權重來將主路徑及替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的類別可能性求平均;
(c)對於每一所述多個預定資料類別中,從主路徑及替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的類別可能性選擇最大類別可能性;
(d)對於每一所述多個預定資料類別中,從主路徑及替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的類別可能性隨機地選擇類別可能性;以及
(e)對於每一所述多個預定資料類別中,隨機地丟棄主路徑及替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的類別可能性中的預定數目的類別可能性,並接著執行(a)至(d)中的一者。
在一實施例中,不同於替代性路徑,由於不存在其他供媒體資料經過的路徑,因而所有融合類別可能性中的最高融合類別可能性(其對應於所述多個預定資料類別中的一者)將被作為最終類別可能性輸出以作出預測,即,將媒體資料識別及分類為所述多個預定資料類別中與最高融合類別可能性對應的一者(即,無需與對應融合類別可能性閾值進行比較)。
圖16說明根據本申請另一實施例的深度神經網路。圖16所示的深度神經網路與圖1所示的深度神經網路相似,只不過側枝中的某些側枝可具有從其延伸出的子側枝。出於說明目的,圖16僅顯示圖1中的最右側替代性路徑,而未顯示圖1中所示的主路徑及其他替代性路徑的細節。
如圖1及圖16中所示,兩個深度神經網路均具有依連續順序具有以下各項的替代性路徑:輸入層、僅X個由層形成的群組、池化層、及分類層,其中最右側替代性路徑中的所述X個由層形成的群組是由主路徑中的所述X個由層形成的群組中的前Y個群組、以及作為側枝從主路徑中的所述X個群組中的第Y個群組延伸出的額外(X-Y)個由層形成的群組(被標示為第(Y+1) 個群組、…、第X個群組)組成。然而,如圖16中所示,所述深度神經網路進一步包括從所述側枝的所述額外X-Y個群組中的第W個群組(即,圖16中的此替代性路徑的(從主路徑的第一個群組開始計數)第A個群組,且Y+W = A)延伸出的至少一個子側枝。因此,形成了另一替代性路徑,其依連續順序具有所述輸入層、僅X個由層形成的群組、池化層、及分類層,其中此替代性路徑中的所述X個由層形成的群組是由主路徑中的所述X個由層形成的群組中的前Y個群組、及所述第(Y+1) 個由層形成的群組至所述第A個由層形成的群組、以及作為子側枝從所述側枝的第W個由層形成的群組(即,圖16中的此替代性路徑的(從主路徑的第一群組開始計數)第A個群組)延伸出的額外X-A(即,X-Y-W)個由層形成的群組(被標示為第(A+1) 個群組、…、第X個群組)組成,其中A是整數且1 ≤ Y < A < X,並且W是整數且1 ≤ W < X-Y。換句話說,如同深度神經網路的主路徑及其他替代性路徑一樣,此替代性路徑(具有子側枝)也具有相同數目(即,X)的由層形成的群組。
在一實施例中,此種子側枝具有比從中延伸出子側枝的側枝更少總數的層及/或更少總數的過濾器。因此,此種具有子側枝的替代性路徑與具有側枝的替代性路徑相比具有“完整但更小”的結構,因為此種具有子側枝的替代性路徑保持與具有側枝的替代性路徑相同數目(即,X)的由層形成的群組、但具有比具有側枝的替代性路徑更少總數的層及/或更少總數的過濾器。
相似地,深度神經網路可具有從圖16所示側枝延伸出的多於一個子側枝,且可具有從其他側枝延伸出的一個或多個子側枝。另外,深度神經網路也可具有從任何子側枝延伸出的一個或多個子子側枝(sub-sub-side branch),依此類推。圖17說明圖16所示深度神經網路的主路徑及替代性路徑中的某些替代性路徑,其中包括一些具有子側枝的替代性路徑及一些具有子子側枝的替代性路徑。應注意,所述替代性路徑中的每一者保持與從中延伸出此特定替代性路徑的(主或替代性)路徑相同數目(即,X)的由層形成的群組,但具有比所述路徑更少總數的層及/或更少總數的過濾器,從而與從中延伸出此特定替代性路徑的(主或替代性)路徑相比具有“完整但更小”的結構。
另外,與圖1至圖15所示的實施例相同,在圖16及圖17所示的實施例中,當媒體資料進入到深度神經網路中時,深度神經網路將引導媒體資料依序一次一個地穿過替代性路徑及主路徑中的一者或多者直至最終類別可能性在預測器處被輸出為止,且輸出以下作為最終類別可能性:替代性路徑及主路徑中首先達到或超過對應類別可能性閾值的那一個的最高類別可能性、或者基於主路徑及替代性路徑中已引導媒體資料從中穿過的任何路徑中的兩者或更多者的類別可能性而來自融合層的最高融合類別可能性。
此外,在圖16及圖17所示的實施例中,以下各項是以與圖1至圖15所示實施例中所說明的方式相同的方式來進行計算且因此在此處將不加以解釋:穿過每一替代性路徑的媒體資料針對每一所述多個預定資料類別的類別可能性、基於主路徑及至少一個替代性路徑中的任何路徑中的兩者或更多者的類別可能性而定的融合類別可能性以及最終類別可能性。此外,與圖1至圖15所示實施例相同,在圖16及圖17所示的實施例中,由於融合類別可能性是使用兩個或更多個路徑(兩個或更多個替代性路徑、或者主路徑與一個或多個替代性路徑)的類別可能性而獲得,因此只有當媒體資料已被引導穿過至少兩個路徑時,才能獲得融合類別可能性。因此,當媒體資料僅穿過第一替代性路徑時,將不會獲得融合類別可能性。
在一實施例中,深度神經網路依序以側枝在每一多個替代性路徑中的長度的遞減次序引導媒體資料穿過所述多個替代性路徑,且側枝的長度在每一所述多個替代性路徑是每一所述多個替代性路徑的所述額外X-Y個由層形成的群組的總數。如果存在從側枝延伸出的子側枝,則深度神經網路將依序以子側枝在每一具有子側枝的替代性路徑中的長度的遞減次序引導媒體資料穿過具有子側枝的替代性路徑。換句話說,如果存在從側枝延伸出的子側枝,則當深度神經網路引導媒體資料依序穿過這些替代性路徑時,側枝被視為子側枝的主枝且子側枝被視為側枝的側枝,並且直至深度神經網路已引導媒體資料依序穿過具有特定側枝中的每一子側枝的替代性路徑,深度神經網路才引導媒體資料穿過具有所述特定側枝的替代性路徑。相同原理適用於具有不同層級的側枝(例如,側枝、子側枝、子子側枝、子子子側枝等)的替代性路徑。另外,直至深度神經網路已引導媒體資料依序穿過替代性路徑內每一具有較長側枝的替代性路徑,深度神經網路才引導媒體資料穿過具有較短側枝的替代性路徑。此外,直至深度神經網路已引導媒體資料依序穿過每一具有側枝的替代性路徑,深度神經網路才引導媒體資料穿過主路徑。此外,當深度神經網路在媒體資料穿過替代性路徑中的首個路徑便輸出最終類別可能性時,深度神經網路停止引導媒體資料穿過所述至少一個替代性路徑中的其餘路徑及主路徑。
舉例來說,如圖16及圖17中所示,深度神經網路將引導媒體資料穿過第一替代性路徑,因為第一路徑具有最長側枝、在最長側枝內具有最長子側枝且在最長側枝內的最長子側枝內具有最長子子側枝。如果深度神經網路在媒體資料穿過第一替代性路徑時未輸出最終類別可能性,則深度神經網路將引導媒體資料穿過第二替代性路徑,因為第二替代性路徑具有最長側枝、在最長側枝內具有最長子側枝且在最長側枝內的最長子側枝內具有第二長子子側枝。如果深度神經網路在媒體資料穿過第二替代性路徑時未輸出最終類別可能性,則深度神經網路將引導媒體資料穿過第三替代性路徑(其被視為子子側枝的主枝),因為第三替代性路徑具有最長側枝、在最長側枝內具有最長子側枝且在最長側枝內的最長子側枝內無子子側枝。
如果深度神經網路在媒體資料穿過第三替代性路徑時未輸出最終類別可能性,則深度神經網路將引導媒體資料穿過第四替代性路徑,因為第四替代性路徑具有最長側枝且在最長側枝內具有第二長子側枝。如果深度神經網路在媒體資料穿過第四替代性路徑時未輸出最終類別可能性,則深度神經網路將引導媒體資料穿過第五替代性路徑,因為第五替代性路徑具有最長側枝且在最長側枝內具有第三長子側枝。如果深度神經網路在媒體資料穿過第五替代性路徑時未輸出最終類別可能性,則深度神經網路將引導媒體資料穿過第六替代性路徑(其被視為子側枝的主枝),因為第六替代性路徑具有最長側枝且在最長側枝內無子側枝。此種過程將持續進行至深度神經網路輸出最終類別可能性為止(當媒體資料穿過替代性路徑中的首個路徑時,或當媒體資料在穿過所有替代性路徑之後穿過主路徑時)。
另外,與圖1至圖15所示的實施例相同,在圖16及圖17所示的實施例中,如果深度神經網路在媒體資料穿過替代性路徑時未輸出最終類別可能性,且存在尚未使媒體資料從中穿過的至少一個替代性路徑,則深度神經網路將通過以下來引導媒體資料穿過下一替代性路徑:重新引導從主枝(或側枝、子側枝…)延伸出的側枝(或子側枝、子子側枝…)的特定由層形成的群組輸出的資料進入主枝(或側枝、子側枝…)的下一由層形成的群組中並接著穿過所述下一替代性路徑的層中的其餘層。換句話說,當媒體資料穿過下一替代性路徑時,無需再次經過主枝(及/或側枝、子側枝…)的任何先前由層形成的群組,因為在先前的替代性路徑期間已使這些由層形成的群組作出了計算。
在實施例中,所述深度神經網路是卷積神經網路。圖18說明根據本申請實施例具有主路徑及替代性路徑的卷積神經網路。還說明對由此卷積神經網路(下文中稱為DFB-Net)帶來的增益的評估。
具體來說,如圖18中所示,主枝(基線模型)由五個卷積群組組成,後跟全域平均池化(global average pooling,GAP)層,且以具有歸一化指數(Softmax)的分類層結束。各構建塊是由廣泛的殘差網所構成而非瓶頸設計(bottleneck design)所構成。加權層的總數等於8
N + 2。如圖18中所示,採取N = 6、k = 6的結構,以得到具有50個層的基線卷積神經網路,此基線卷積神經網路由WRN-50-N6-k6表示。
儘管添加側枝才能形成完整的DFB-Net,但所述側枝是完整的且比主枝更小。“更小”暗示側枝配備有更少數目的層及/或更小的過濾器大小,以實現更快速的正向推理。“完整”意指枝狀子網路仍類似於主枝具有完整的形式。
具體來說,如圖18中所示,存在一個主路徑(依連續順序具有:輸入層;五(5)個卷積群組:Conv1、Conv2_x (x6)、Conv3_x (x6)、Conv4_x (x6)、及Conv5_x (x6);全域平均池化層;分類層(分類器+歸一化指數))、第一替代性路徑(依連續順序具有:輸入層;五(5)個卷積群組:Conv1、Conv2_x (x6)、Conv3_x (x2)、Conv4_x (x2)、Conv5_x (x2);全域平均池化層;分類層(分類器+歸一化指數))、及第二替代性路徑(依連續順序具有:輸入層;五(5)個卷積群組:Conv1、Conv2_x (x6)、Conv3_x (x6)、Conv4_x (x4)、Conv5_x (x4);全域平均池化層;分類層(分類器+歸一化指數))。
另外,如下在表1中顯示各個卷積群組Conv1、Conv2_x (x6)、Conv3_x (x6)、Conv4_x (x6)及Conv5_x以及全域平均池化層的輸出大小及塊類型:
表1
<TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td> 群組名稱 </td><td> 輸出大小 </td><td> 塊類型 </td></tr><tr><td> Convl </td><td> 56×56 </td><td><img wi="74" he="24" file="02_image003.jpg" img-format="jpg"></img></td></tr><tr><td> Conv2_x </td><td> 56×56 </td><td><img wi="114" he="48" file="02_image005.jpg" img-format="jpg"></img>×N </td></tr><tr><td> Conv3_x </td><td> 28×28 </td><td><img wi="114" he="48" file="02_image007.jpg" img-format="jpg"></img>×N </td></tr><tr><td> Conv4_x </td><td> 14×14 </td><td><img wi="114" he="48" file="02_image009.jpg" img-format="jpg"></img>×N </td></tr><tr><td> Conv5_x </td><td> 7×7 </td><td><img wi="120" he="48" file="02_image011.jpg" img-format="jpg"></img>×N </td></tr><tr><td> 全域平均池化 </td><td> 1×1 </td><td><img wi="50" he="24" file="02_image013.jpg" img-format="jpg"></img></td></tr></TBODY></TABLE>
其中,N是卷積群組中塊的數目,且k是用以增加過濾器大小的加寬因數(widening factor)。在此實施例中,對於主路徑,N被設定成6,且對於主路徑,k被設定成6,對於第一(即,最右側)替代性路徑的側枝,N被設定成2,且對於第一替代性路徑的側枝,k被設定成2,並且對於第二(即,最左側)替代性路徑的側枝,N被設定成4,且對於第二替代性路徑的側枝,k被設定成4。
如圖18中所說明,主路徑中的五(5)個卷積群組Conv1、Conv2_x (x6)、Conv3_x (x6)、Conv4_x (x6)、及Conv5_x (x6)具有總共49個層,第一替代性路徑中的五(5)個卷積群組Conv1、Conv2_x (x6) 、Conv3_x (x2)、Conv4_x (x2)、及Conv5_x (x2)具有總共25個層,且第二替代性路徑中的五(5)個卷積群組Conv1、Conv2_x (x6)、Conv3_x (x6)、Conv4_x (x4)、及Conv5_x (x4)具有總共41個層。因此,第一替代性路徑及第二替代性路徑具有比主路徑少的層。另外,由於對於第一替代性路徑及第二替代性路徑中的每一者的側枝比對於主路徑設定更小的k,因而第一替代性路徑及第二替代性路徑中的每一者的過濾器的數目小於主路徑的過濾器的數目。然而,第一替代性路徑及第二替代性路徑仍保持與主路徑相同數目(即,五(5))的卷積群組。因此,第一替代性路徑及第二替代性路徑中的每一者與主路徑相比具有“完整但更小”的結構。
[網路訓練]
為簡潔起見,從1、…、M開始對所說明卷積神經網路(下文稱為DFB-Net)的所有退出點進行編號,其中M代表主枝的退出點,且1代表最早側枝的退出點,依此類推。由於DFB-Net中存在多於一個退出點,因而通過關於與每一退出點相關聯的損失
(
)的加權和求解聯合優化問題來進行訓練,其中s = 1、
、M,且
分別表示所指定完整路徑中所含有的參數集。
假定訓練實例x,將每一完整路徑視為特徵提取器f(
),且接著通過下式給出完整路徑的恰在歸一化指數層之前的輸出z:
z =
f(
x; W
s)
。
假設所有可能標籤的數目是K,對於由歸一化指數層產生的標籤c,可如下呈現所預測機率
(c = 1、…、K):
並且,作出如下定義:
因此,可如下呈現完整路徑的損失函數
(
):
其中
表示樣本x的對應基準(ground truth)標籤,並使用1/K(1-of-K)編碼方案。可通過下式來表達整個DFB-Net的組合損失函數:
其中
是與每一枝狀損失函數
(
)相關聯的損失權重。
[正向推理]
為在已經過訓練的DFB-Net上執行正向推理,在以下演算法中將各程式公式化。首先,對於每一退出點s,需要指派退出閾值
作為置信量度。假定測試影像x,使用其由退出點s產生的歸一化指數機率y來作出早退出決策(early-exit decision):如果max{y}>
,則從此退出點返回argmax{y}作為所預測標籤並停止進一步計算;否則,繼續在下一分枝的後續層中進行正向評估。如果對於所有s,
,則通過將所有退出點的歸一化指數輸出求平均以獲得平均值
來作出機率融合,且接著返回argmax{
}作為所預測標籤。
<TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td><b>演算法</b><b>1</b><b>:</b>DFB-Net正向推理 </td></tr><tr><td><b>輸入:</b>測試影像<b><i>x</i></b>,退出閾值<img wi="30" he="24" file="02_image050.jpg" img-format="jpg"></img><b>輸出:</b>測試影像<b><i>x</i></b>的所預測標籤 1 <b>程式</b>DFB-Net(<b><i>x</i></b>, <img wi="30" he="24" file="02_image050.jpg" img-format="jpg"></img>) 2 初始化<img wi="14" he="26" file="02_image052.jpg" img-format="jpg"></img>= 0 3 <b>對於</b><i>s</i>= <i>1</i>、…、<i>M</i>,<b>進行</b> 4 <b><i>z</i></b> = <i>f(<b>x</b>; W<sub>s</sub>)</i> 5 y = softmax(<i>z</i>) 6 <b>如果</b>max<img wi="24" he="24" file="02_image054.jpg" img-format="jpg"></img>><i>p<sub>s</sub></i>,<b>則</b> 7 <b>返回</b><i>argmax</i><img wi="24" he="24" file="02_image056.jpg" img-format="jpg"></img> 8 <b>否則</b> 9 <img wi="14" he="26" file="02_image052.jpg" img-format="jpg"></img>=<img wi="14" he="26" file="02_image052.jpg" img-format="jpg"></img>+y 10 <img wi="14" he="26" file="02_image052.jpg" img-format="jpg"></img>=<img wi="14" he="26" file="02_image052.jpg" img-format="jpg"></img>/<i>M</i> 11 <b>返回</b><i>argmax</i><img wi="22" he="26" file="02_image057.jpg" img-format="jpg"></img></td></tr></TBODY></TABLE>
[實驗]
在網路訓練期間,用損失權重替換退出閾值,以形成損失的加權和來作為融合單元的輸出。使用具有動量(momentum)及權重衰減(weight decay)的SGD來從頭開始訓練基線模型(即,僅具有主路徑而無側枝的卷積神經網路)。一旦進行了訓練,我們就以已經過訓練的基線模型的權重來將DFB-Net的主枝初始化。對於側枝,通過所述方法將其權重初始化,且接著,我們訓練整個DFB-Net。對於基線模型訓練,學習率從0.1開始且每60個紀元(epoch)下降0.2,並且模型被訓練300個紀元。權重衰減被設定成0.0001,動量被設定成0.9,且微批大小(mini-batch size)被設定成50。
在CIFAR-10及CIFAR-100上對DFB-Net進行評估,且將結果與目前技術水準的方法進行比較。兩個CIFAR資料集分別由從10個類別及從100個類別抽取的32
32個彩色影像組成,並且各自含有用於訓練集的50,000個影像且含有用於測試集的10,000個影像。通過隨機地選取兩個值h、w
[48, 64]來應用尺度資料擴增及縱橫比資料擴增,且接著將影像的大小改變成h
w。接著,從大小已被改變的影像或其被水準翻轉後的結果隨機地採樣出48
48裁剪影像,其中每像素的均值被減去。
在測試時,將影像的大小改變成56
56而不進行任何裁剪以便以1為批次大小來進行正向推理,且在本文中所報告的執行時間是在安裝有CUDA® 8.0及cuDNN 5.1的NVIDIA® GeForce® GTX 1080(8GB)圖形處理器(Graphics Processing Unit,GPU)上運行的三次試驗內所有測試樣本中的平均值。實施方案是基於框架卡費(framework Caffe)。
[CIFAR資料集分類]
為在CIFAR-10上訓練整個DFB-Net,學習率從0.004開始,且紀元(epoch)的總數是180。對越早退出的分枝賦予越大的損失權重,以促進在側枝中進行更具鑒別性的特徵學習。將損失權重2.5附加到兩個側枝並將0.25附加到主枝。另外,在整個DFB-Net訓練中不使用丟棄(dropout)。表2顯示DFB-Net的正向推理結果。如表2中所示,DFB-Net在退出閾值被設定成(0.99, 0.975, 0.75)時性能勝過其基線模型且獲得3x的加速。當退出閾值被提升到(0.99, 0.99, 0.75)時,DFB-Net以3.07%的錯誤率實現目前技術水準的結果且仍獲得2.85x的加速。與B-殘差網相比,DFB-Net在以下三種量度上明顯地更優越:(1)準確度(79.19%對96.93%),(2)加速增益(1.9x對2.85x),以及(3)最短分枝處的退出樣本的比率(41.5%對80.0%)。
表2
<TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td><b>性能結果:</b><b>CIFAR-10</b></td></tr><tr><td> 網路拓撲 </td><td> 退出閾值 (退出-1,退出-2,退出-3) </td><td> 錯誤(%) </td><td> 時間(ms) </td><td> 增益(x) </td><td> 退出比(%) (退出-1,退出-2,退出-3,融合) </td><td> 每一分枝內的錯誤(%)(退出-1,退出-2,退出-3,融合) </td></tr><tr><td> (基線)WRN-50-N6-k6 </td><td> 不適用 </td><td> 3.23 </td><td> 29.67 </td><td> 1.00 </td><td> 不適用 </td><td> 不適用 </td></tr><tr><td> DFB-Net: (退出-1)分枝-1,18個層 (退出-2)分枝-2,38個層 (退出-3)基線,50個層 </td><td> 0.900,0.900,0.00 </td><td> 3.72 </td><td> 7.39 </td><td> 4.01 </td><td> 90.48,5.98,3.54 </td><td> 1.90,15.72,29.94 </td></tr><tr><td> 0.900,0.900,0.75 </td><td> 3.63 </td><td> 7.43 </td><td> 3.99 </td><td> 90.48,5.98,2.83,0.71 </td><td> 1.90,15.72,23.32,43.66 </td></tr><tr><td> 0.950,0.950,0.00 </td><td> 3.54 </td><td> 8.21 </td><td> 3.61 </td><td> 87.50,7.05,5.45 </td><td> 1.37,11.21,28.44 </td></tr><tr><td> 0.950,0.950,0.75 </td><td> 3.39 </td><td> 8.22 </td><td> 3.61 </td><td> 87.50,7.05,4.50,0.95 </td><td> 1.37,11.21,22.67,40.00 </td></tr><tr><td> 0.975,0.975,0.00 </td><td> 3.46 </td><td> 9.09 </td><td> 3.26 </td><td> 84.33,8.27,7.40 </td><td> 1.01,7.86,26.49 </td></tr><tr><td> 0.975,0.975,0.75 </td><td> 3.29 </td><td> 9.14 </td><td> 3.25 </td><td> 84.33,8.27,6.30,1.10 </td><td> 1.01,7.86,21.59,39.09 </td></tr><tr><td> 0.990,0.975,0.00 </td><td> 3.36 </td><td> 9.85 </td><td> 3.01 </td><td> 80.03,11.53,8.44 </td><td> 0.65,5.98,25.48 </td></tr><tr><td> 0.990,0.975,0.75 </td><td><b>3.15</b></td><td> 9.89 </td><td><b>3.00</b></td><td> 80.03,11.53,7.22,1.22 </td><td> 0.65,5.98,20.50,37.70 </td></tr><tr><td> 0.990,0.990,0.00 </td><td> 3.29 </td><td> 10.35 </td><td> 2.87 </td><td> 80.03,9.48,10.49 </td><td> 0.65,4.11,22.69 </td></tr><tr><td> 0.990,0.990,0.75 </td><td><b>3.07</b></td><td> 10.41 </td><td><b>2.85</b></td><td> 80.03,9.48,9.19,1.30 </td><td> 0.65,4.11,18.06,38.46 </td></tr></TBODY></TABLE>表 2. DFB-Net在CIFAR-10資料集上的性能結果(著色處會最佳地看出)。
為在CIFAR-100上訓練整個DFB-Net,在每一構建塊內應用丟棄(dropout),且學習率從0.025開始達總共200個紀元(epoch)。將損失權重3.75置於第一退出分枝上,將損失權重2.5置於第二退出分枝上,且將損失權重0.25置於主枝上。應注意,通過以2為跨度(stride)進行2
2平均池化來實作下採樣,隨後以1為跨度進行1
1卷積及3
3卷積。表3顯示正向推理結果並再次確認相同事實:DFB-Net的性能勝過其基線模型。具體來說,DFB-Net在退出閾值被設定成(0.8, 0.75, 0.75)時比其主枝實現更低的錯誤率,且獲得2.75x加速。當退出閾值被提升到(0.99, 0.99, 0.75)時,DFB-Net以16.01%的錯誤率實現目前技術水準的結果,且仍獲得1.56x加速。
表3
<TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td><b>性能結果:</b><b>CIFAR-100</b></td></tr><tr><td> 網路拓撲 </td><td> 退出閾值 (退出-1,退出-2,退出-3) </td><td> 錯誤(%) </td><td> 時間(ms) </td><td> 增益(x) </td><td> 退出比(%) (退出-1,退出-2,退出-3,融合) </td><td> 每一分枝內的錯誤(%) (退出-1,退出-2,退出-3,融合) </td></tr><tr><td> (基線)WRN-50-N6-k6 </td><td> 不適用 </td><td> 17.74 </td><td> 29.39 </td><td> 1.00 </td><td> 不適用 </td><td> 不適用 </td></tr><tr><td> DFB-Net: (退出-1)分枝-1,18個層 (退出-2)分枝-2,38個層 (退出-3)基線,50個層 </td><td> 0.75,0.75,0.00 </td><td> 18.06 </td><td> 10.01 </td><td> 2.94 </td><td> 78.73,11.47,9.80 </td><td> 10.91,34.70,56.02 </td></tr><tr><td> 0.75,0.75,0.75 </td><td> 17.89 </td><td> 10.02 </td><td> 2.93 </td><td> 78.73,11.47,4.38,5.42 </td><td> 10.91,34.70,38.58,66.97 </td></tr><tr><td> 0.80,0.75,0.00 </td><td> 17.78 </td><td> 10.62 </td><td> 2.77 </td><td> 75.83,13.43,10.74 </td><td> 9.75,33.43,54.93 </td></tr><tr><td> 0.80,0.75,0.75 </td><td><b>17.55</b></td><td> 10.67 </td><td><b>2.75</b></td><td> 75.83,13.43,4.93,5.81 </td><td> 9.75,33.43,37.93,65.40 </td></tr><tr><td> 0.85,0.80,0.00 </td><td> 17.34 </td><td> 11.51 </td><td> 2.55 </td><td> 72.62,14.32,13.06 </td><td> 8.39,29.19,54.13 </td></tr><tr><td> 0.85,0.80,0.75 </td><td> 17.09 </td><td> 11.52 </td><td> 2.55 </td><td> 72.62,14.32,6.18,6.88 </td><td> 8.39,29.19,37.70,65.26 </td></tr><tr><td> 0.90,0.90,0.00 </td><td> 16.94 </td><td> 13.04 </td><td> 2.25 </td><td> 68.64,13.50,17.86 </td><td> 6.98,23.11,50.56 </td></tr><tr><td> 0.90,0.90,0.75 </td><td> 16.64 </td><td> 13.06 </td><td> 2.25 </td><td> 68.64,13.50,9.25,8.61 </td><td> 6.98,23.11,35.35,63.41 </td></tr><tr><td> 0.95,0.85,0.00 </td><td> 16.64 </td><td> 13.77 </td><td> 2.13 </td><td> 62.61,19.73,17.66 </td><td> 4.87,22.76,51.53 </td></tr><tr><td> 0.95,0.85,0.75 </td><td> 16.42 </td><td> 13.81 </td><td> 2.13 </td><td> 62.61,19.73,9.06,8.60 </td><td> 4.87,22.76,36.53,64.77 </td></tr><tr><td> 0.99,0.99,0.00 </td><td> 16.60 </td><td> 18.81 </td><td> 1.56 </td><td> 50.79,14.68,34.53 </td><td> 2.30,8.92,40.89 </td></tr><tr><td> 0.99,0.99,0.75 </td><td><b>16.01</b></td><td> 18.83 </td><td><b>1.56</b></td><td> 50.79,14.68,21.91,12.62 </td><td> 2.30,8.92,27.89,58.80 </td></tr><tr><td><b>表</b><b>3</b>. DFB-Net在CIFAR-100資料集上的性能結果(著色處會最佳地看出)。 </td></tr></TBODY></TABLE>
[與目前技術水準方法的比較]
在表4中,將DFB-Net的錯誤率與目前技術水準的方法進行比較。應注意,應用了尺度資料擴增與縱橫比資料擴增兩者,而在此表中所列示的其他方法使用的是常用的資料擴增(隨機裁剪及/或水準翻轉)。DFB-Net在兩個資料集上的性能均勝過現有的目前技術水準方法,其中在CIFAR-10上錯誤率為3.07%且在CIFAR-100上錯誤率為16.01%。更勝一籌,當以1為批次大小在GTX 1080上運行時,平均來說,DFB-Net在CIFAR-10上花費少於10.5 ms且在CIFAR-100上花費少於19 ms便能完成正向推理。
表4
<TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td> 模型 </td><td> 深度 </td><td> 參數 </td><td> CIFAR-10 </td><td> CIFAR-100 </td></tr><tr><td> (啟動前)殘差網[6] </td><td> 1001 </td><td> 10.2M </td><td> 4.62 </td><td> 22.71 </td></tr><tr><td> 廣泛的殘差網[7] </td><td> 28 </td><td> 36.5M </td><td> 3.89 </td><td> 18.85 </td></tr><tr><td> 密集網-BC(k=24)[8] </td><td> 250 </td><td> 15.3M </td><td> 3.62 </td><td> 17.60 </td></tr><tr><td> 密集網-BC(k=40)[8] </td><td> 190 </td><td> 25.6M </td><td> 3.46 </td><td><b>17.18</b></td></tr><tr><td> DFB-Net基線(本發明) </td><td> 50 </td><td> 81.1M </td><td><b>3.23</b></td><td> 17.74 </td></tr><tr><td> DFB-Net(本發明) </td><td> 18/38/50 </td><td> 106.2M </td><td><b>3.07</b></td><td><b>16.01</b></td></tr><tr><td><b>表</b><b>4</b>:在CIFAR資料集上的錯誤率(%)—與目前技術水準方法的比較 </td></tr></TBODY></TABLE>
DFB-Net為推理時間與準確度之間的靈活權衡提供基於機率的直覺性退出閾值設定。如果對退出-1設定退出閾值0,則DFB-Net對於每次正向推理僅花費少於5.5 ms,且仍測得低的錯誤率(在CIFAR-10上為5.74%,在CIFAR-100上為21.61%)。另外,完整但更小的側枝強有力地促進大部分的測試樣本更早地退出,且因此為快速推理得到高的加速增益。此外,如果測試樣本未能超過退出閾值中的任一者,則作出機率融合會提供更好的合作性預測。
另外,所說明的DFB-Net(卷積神經網路)僅用於說明可通過使用從深度神經網路的主枝延伸出的側枝的結構而實現的益處,而不限於應用於將從深度神經網路的主枝延伸出的“完整但更小”的側枝的結構的卷積神經網路。其他類型的深度神經網路也可通過使用從主枝延伸出的“完整但更小”的側枝的結構而獲益。
如所提及,當在本申請中實施時,在深度神經網路中使用從主枝(或側枝、子側枝等)延伸出的側枝(或子側枝、子子側枝等)的“完整但更小”的結構、順序決策作出機制、及合作(融合)決策作出機制將使深度神經網路具有快速正向推理能力,以提高深度神經網路的識別與分類準確度及效率。
已如此闡述了本發明,將顯而易見,可以許多方式來改變本發明。此類改變不應被視為背離本發明的精神及範圍,且對於所屬領域中的技術人員來說將顯而易見的所有此類修改均旨在被包含在以上申請專利範圍的範圍內。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
無
依據下文所給出的詳細說明以及僅以說明方式給出且因此不限制本申請的附圖,將會更全面地理解本申請,並且在附圖中: 圖1說明根據本申請實施例的深度神經網路。 圖2說明圖1所示深度神經網路的主路徑及替代性路徑中的某些替代性路徑。 圖3說明根據本申請實施例如何使媒體資料穿過深度神經網路。 圖4說明根據本申請實施例的深度神經網路的第一替代性路徑。 圖5說明根據本申請實施例如何使媒體資料穿過圖4所示深度神經網路的第一替代性路徑,其中作出預測。 圖6說明根據本申請實施例如何使媒體資料穿過圖4所示深度神經網路的第一替代性路徑,其中未作出預測。 圖7說明根據本申請實施例的深度神經網路的另一替代性路徑。 圖8說明根據本申請實施例如何使媒體資料穿過圖7所示深度神經網路的替代性路徑,其中作出預測。 圖9說明根據本申請實施例如何使媒體資料穿過圖7所示深度神經網路的替代性路徑,其中在執行融合之後未作出預測。 圖8A說明根據本申請另一實施例如何使媒體資料穿過圖7所示深度神經網路的替代性路徑,其中在未執行融合時作出預測。 圖9A說明根據本申請另一實施例如何使媒體資料穿過圖7所示深度神經網路的替代性路徑,其中在未執行融合時未作出預測。 圖10說明根據本申請實施例的深度神經網路的最後一個替代性路徑。 圖11說明根據本申請實施例如何使媒體資料穿過圖10所示深度神經網路的最後一個替代性路徑,其中作出預測。 圖12說明根據本申請實施例如何使媒體資料穿過圖10所示深度神經網路的最後一個替代性路徑,其中在執行融合之後未作出預測。 圖11A說明根據本申請另一實施例如何使媒體資料穿過圖10所示深度神經網路的最後一個替代性路徑,其中在未執行融合時作出預測。 圖12A說明根據本申請另一實施例如何使媒體資料穿過圖10所示深度神經網路的最後一個替代性路徑,其中在未執行融合時作出預測。 圖13說明根據本申請實施例的深度神經網路的最後一個替代性路徑。 圖14說明根據本申請實施例如何使媒體資料穿過圖10所示深度神經網路的主路徑,其中在未執行融合時作出預測。 圖15說明根據本申請實施例如何使媒體資料穿過圖10所示深度神經網路的主路徑,其中在執行融合之後作出預測。 圖16說明根據本申請另一實施例的深度神經網路。 圖17說明圖16所示深度神經網路的主路徑及替代性路徑中的某些替代性路徑。 圖18說明根據本申請實施例具有主路徑及替代性路徑的卷積神經網路。
Claims (42)
- 一種使用深度神經網路的電子裝置,所述電子裝置用於使用所述深度神經網路將媒體資料識別及分類為多個預定資料類別中的一者,所述深度神經網路包括:主路徑,依連續順序具有輸入層、X個由層形成的群組、至少一個池化層、及分類層,所述輸入層用於接收媒體資料,所述X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述主路徑中的所述X個由層形成的群組的輸出進行向下採樣,所述分類層用於所述媒體資料穿過所述主路徑時,計算每一所述多個預定資料類別中的類別可能性,其中X>1且X是整數;至少一個替代性路徑,依連續順序具有所述輸入層、X個由層形成的群組、至少一個池化層、及分類層,所述X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述至少一個替代性路徑中的所述X個群組的輸出進行向下採樣,所述分類層用於當所述媒體資料穿過所述至少一個替代性路徑時,計算每一所述多個預定資料類別的類別可能性,其中每一所述至少一個替代性路徑中的所述X個由層形成的群組,是相對於由所述主路徑中的所述X個由層形成的群組中的Y個群組,以及額外X-Y個由層形成的群組作為側枝相應於所述主路徑中的所述X個群組中的相應的第Y個群組延伸而出,其中所述主路徑中的所述X個由層形成的群組中的相應的所述Y個群組是所 述主路徑中的所述X個由層形成的群組中的第一個群組至所述主路徑中的所述X個由層形成的群組中的相應的第Y個群組,並且其中對於每一所述至少一個替代性路徑,相應的所述Y是整數,且1Y<X;融合層,其中所述主路徑的所述分類層與所述至少一個替代性路徑的所述分類層在所述融合層處合併;以及預測器,依據最終類別可能性將所述媒體資料識別及分類,為所述多個預定資料類別中對應的一者,其中所述深度神經網路引導所述媒體資料依序一次一個地穿過所述至少一個替代性路徑及所述主路徑中的一者或多者直至所述最終類別可能性被輸出為止,而且輸出所述至少一個替代性路徑及所述主路徑中首先達到或超過對應類別可能性閾值的那一個的最高類別可能性當成是所述最終類別可能性、或是輸出來自所述融合層的最高融合類別可能性當成所述最終類別可能性,其中所述融合層的最高融合類別可能性是基於所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的兩者或更多者的所述類別可能性。
- 如申請專利範圍第1項所述的電子裝置,其中直至所述深度神經網路已引導所述媒體資料依序穿過所述至少一個替代性路徑中的每一者,所述深度神經網路才引導所述媒體資料穿過所述主路徑。
- 如申請專利範圍第2項所述的電子裝置,其中所述至少一個替代性路徑包括多個替代性路徑,所述深度神經網路先引導所述媒體資料依序穿過每一所述多個替代性路徑後,所述深度神經網路才引導所述媒體資料穿過所述主路徑,並且所述深度神經網路依序以所述側枝在每一所述多個替代性路徑的長度的遞減次序引導所述媒體資料穿過所述多個替代性路徑,且所述側枝的所述長度在每一所述多個替代性路徑是每一所述多個替代性路徑的所述額外X-Y個由層形成的群組的總數,當所述多個替代性路徑側枝的所述長度有至少二者相同時,則依所述額外X-Y個由層形成的群組所包含的層的總數的遞增次序引導所述媒體資料穿過所述多個替代性路徑。
- 如申請專利範圍第1項所述的電子裝置,其中當所述深度神經網路輸出所述最終類別可能性時,所述深度神經網路停止引導所述媒體資料穿過所述至少一個替代性路徑中的其餘路徑及所述主路徑。
- 如申請專利範圍第1項所述的電子裝置,其中於目前一者在所述至少一個替代性路徑及所述主路徑中已引導所述媒體資料從中的所述最高類別可能性未達到或未超過所述對應類別可能性閾值時,所述融合層才針對每一所述多個預定資料類別計算所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的所述兩者或更多者的目前融合類別可能性,且 於下一者在所述至少一個替代性路徑及所述主路徑中已引導所述媒體資料從中的所述最高類別可能性未達到或未超過所述對應類別可能性閾值時,所述融合層才針對每一所述多個預定資料類別計算所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的兩者或更多者的下一融合類別可能性。
- 如申請專利範圍第5項所述的電子裝置,其中當所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的所述兩者或更多者的對於每一所述多個預定資料類別中的所述當前融合類別可能性未達到或未超過對應類別可能性閾值時,所述深度神經網路引導所述媒體資料穿過所述至少一個替代性路徑及所述主路徑中的所述下一者,且所述至少一個替代性路徑中的所述目前一者係由所述主路徑的所述X個由層形成的群組中的第C個由層形成的群組延伸出,且所述深度神經網路通過以下來引導所述媒體資料穿過所述至少一個替代性路徑及所述主路徑中的所述下一者:重新引導從所述主路徑的所述X個由層形成的群組中的所述第C個由層形成的群組輸出的資料進入所述主路徑的所述X個由層形成的群組中的第(C+1)個由層形成的群組中,並接著穿過所述至少一個替代性路徑及所述主路徑中的所述下一者的其餘層,其中在所有所述至少一個替代性路徑中,C是相應的所述Y中的一者。
- 如申請專利範圍第5項所述的電子裝置,其中所述融合層通過以下中的一者來計算所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述目前融合類別可能性:(a)對於每一所述多個預定資料類別,通過對所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性,使用相同的權重來將所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性求平均;(b)對於每一所述多個預定資料類別,通過對所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性,使用相應的權重來將所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性求平均;(c)對於每一所述多個預定資料類別,從所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性中選擇最大類別可能性;(d)對於每一所述多個預定資料類別,從所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性隨機地選擇類別可能性;以及(e)對於每一所述多個預定資料類別,隨機地丟棄所述至少一個替代性路徑及所述主路徑中的所述兩者或更多者的所述類別可能性中的預定數目的類別可能性,並接著執行(a)至(d)中的一者。
- 如申請專利範圍第1項所述的電子裝置,其中所述類別可能性是以機率或類別分數的形式來表示。
- 如申請專利範圍第1項所述的電子裝置,其中只有當所述至少一個替代性路徑及所述主路徑中已引導所述媒體資料從中穿過的任何先前路徑的所述最高類別可能性未達到或未超過所述對應類別可能性閾值時,所述深度神經網路才從所述融合層輸出所述最高融合類別可能性作為所述最終類別可能性。
- 如申請專利範圍第9項所述的電子裝置,其中只有當所述最高融合類別可能性達到或超過其對應融合類別可能性閾值,或所述深度神經網路已引導所述媒體資料穿過每一所述至少一個替代性路徑及所述主路徑時,所述深度神經網路才從所述融合層輸出所述最高融合類別可能性作為所述最終類別可能性。
- 如申請專利範圍第1項所述的電子裝置,其中所述至少一個替代性路徑中的任一者中的所述X個群組中所述層的總數,不同於所述主路徑中的所述X個由層形成的群組中所述層的總數。
- 如申請專利範圍第11項所述的電子裝置,其中所述至少一個替代性路徑中的任一者中的所述X個群組中所述層的所述總數,小於所述主路徑中的所述X個由層形成的群組中所述層的所述總數。
- 如申請專利範圍第12項所述的電子裝置,其中所述至少一個替代性路徑中的至少一由第N個由層形成的群組中所述層的總數,小於所述主路徑中的第N個由層形成的群組中所述層的總 數,並且其中N>Y,且N是為Y+1、Y+2、…、X中的至少一者的整數。
- 如申請專利範圍第1項所述的電子裝置,其中每一所述主路徑及所述至少一個替代性路徑中的每一所述層包括多個過濾器,且所述至少一個替代性路徑中的任一者中的所述X個由層形成的群組的所述過濾器的總數,不同於所述主路徑中的所述X個由層形成的群組的所述過濾器的總數。
- 如申請專利範圍第14項所述的電子裝置,其中所述至少一個替代性路徑中的任一者中的所述X個由層形成的群組的所述過濾器的所述總數小於所述主路徑中的所述X個由層形成的群組的所述過濾器的所述總數。
- 如申請專利範圍第15項所述的電子裝置,其中所述至少一個替代性路徑中的至少一者中的第K個由層形成的群組的所述過濾器的所述總數小於所述主路徑中的第K個由層形成的群組的所述過濾器的所述總數,並且其中K>Y,且K是為Y+1、Y+2、…、X中的至少一者的整數。
- 如申請專利範圍第14項所述的電子裝置,其中所述主路徑中由同一所述由層形成的群組中的每一所述層具有相同所述總數的所述過濾器,且所述至少一個替代性路徑中的任一者中由同一所述由層形成的群組中的每一所述層具有相同所述總數的所述過濾器。
- 如申請專利範圍第1項所述的電子裝置,其中所述深度神經網路是卷積神經網路。
- 如申請專利範圍第1項所述的電子裝置,其中所述媒體資料是文字資料、圖形資料、影像資料、聲音資料、影片資料、或其中任一組合。
- 如申請專利範圍第19項所述的電子裝置,其中所述媒體資料是顯示待檢驗產品的一部分的影像資料或影片資料,且所述多個預定資料類別包括有缺陷及無缺陷。
- 如申請專利範圍第1項所述的電子裝置,其中所述至少一個替代性路徑包括多個替代性路徑,且具有額外X-Y-W個由層形成的群組的至少一個子側枝,從所述側枝的所述額外X-Y個由層形成的群組中的相應的第W個群組延伸出,以由所述至少一個子側枝形成所述至少一個替代性路徑中的另一者的一部分,並且其中對於每一所述至少一個子側枝,相應的所述W是整數,且1W<X-Y。
- 如申請專利範圍第21項所述的電子裝置,其中直至所述深度神經網路已引導所述媒體資料依序穿過具有所述至少一個子側枝的每一至少一個替代性路徑中,所述深度神經網路才引導所述媒體資料穿過具有所述側枝的所述替代性路徑。
- 如申請專利範圍第21項所述的電子裝置,其中所述至少一個子側枝包括多個子側枝,所述多個子側枝分別形成具有所述子側枝的多個替代性路徑的一部分,直至所述深度神經網路已引導所述媒體資料依序穿過具有每一所述子側枝的所述多個替代性路徑,所述深度神經網路才 引導所述媒體資料穿過具有所述側枝的所述替代性路徑,並且所述深度神經網路引導所述媒體資料依序由所述子側枝的長度的遞減次序以具有所述子側枝的每一所述多個替代性路徑穿過具有所述子側枝的所述多個替代性路徑,且具有所述子側枝的所述多個替代性路徑中的每一者的所述子側枝的所述長度是具有所述子側枝的每一所述多個替代性路徑的所述額外X-Y-W個由層形成的群組的總數。
- 如申請專利範圍第23項所述的電子裝置,其中當所述媒體資料穿過具有所述子側枝的所述多個替代性路徑中的目前一者而未輸出所述最終類別可能性時,所述深度神經網路引導所述媒體資料穿過下一個具有所述子側枝的所述多個替代性路徑及具有所述側枝的所述替代性路徑,且所述目前一具有所述子側枝的所述多個替代性路徑,從具有所述側枝的所述替代性路徑的所述X-Y個由層形成的群組中的第V個由層形成的群組延伸出,且所述深度神經網路通過以下來引導所述媒體資料穿過所述下一具有所述子側枝的所述多個替代性路徑及具有所述側枝的所述替代性路徑中:重新引導從具有所述側枝的所述替代性路徑的所述X個由層形成的群組中的所述第V個由層形成的群組輸出的資料進入具有所述側枝的所述替代性路徑的所述X個由層形成的群組中的第(V+1)個由層形成的群組中並接著穿過所述下一具有所述子側枝的所述多個替代性路徑及具有所述側枝的所述替代性路徑中的所述下一者的其餘層,其中在所有所述至少一個子側枝中,V是相應的所述W中的一者。
- 一種用於使用深度神經網路將媒體資料識別及分類為多個預定資料類別中的一者的方法,其中所述深度神經網路包括:主路徑,依連續順序具有輸入層、X個由層形成的群組、至少一個池化層、及分類層,所述輸入層用於接收媒體資料,所述X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述主路徑中的所述X個由層形成的群組的輸出進行向下採樣,所述分類層用於為所述媒體資料穿過所述主路徑時,計算每一所述多個預定資料類別中的類別可能性,其中X>1且X是整數;至少一個替代性路徑,依連續順序具有所述輸入層、X個由層形成的群組、至少一個池化層、及分類層,所述X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述至少一個替代性路徑中的所述X個群組的輸出進行向下採樣,所述分類層用於當所述媒體資料穿過所述至少一個替代性路徑時,計算每一所述多個預定資料類別中的類別可能性,其中每一所述至少一個替代性路徑中的所述X個由層形成的群組,是相對於由所述主路徑中的所述X個由層形成的群組中的Y個群組、以及額外X-Y個由層形成的群組作為側枝相應於所述主路徑中的所述X個群組中的相應的第Y個群組延伸而出,其中所述主路徑中的所述X個由層形成的群組中的相應的所述Y個群組是所述主路徑中的所述X個由層形成的群組中的第一個群組至所述主路徑中的所述X個由層形成的群組中的相應的第Y個群組,並且 其中對於每一所述至少一個替代性路徑,相應的所述Y是整數,且1Y<X;融合層,其中所述主路徑的所述分類層與所述至少一個替代性路徑的所述分類層在所述融合層處合併;以及預測器,依據最終類別可能性將所述媒體資料識別及分類,為所述多個預定資料類別中對應的一者,所述方法包括:引導所述媒體資料依序一次一個地穿過所述至少一個替代性路徑及所述主路徑中的一者或多者,直至所述最終類別可能性被輸出為止;輸出以下作為所述最終類別可能性:所述至少一個替代性路徑及所述主路徑中首先達到或超過對應類別可能性閾值的那一個的最高類別可能性、或是輸出來自所述融合層的最高融合類別可能性當成所述最終類別可能性,其中所述融合層的最高融合類別可能性是基於所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的兩者或更多者的所述類別可能性;以及將所述媒體資料識別及分類為所述多個預定資料類別中與所述最終類別可能性對應的一者。
- 如申請專利範圍第25項所述的方法,進一步包括:直至所述深度神經網路已引導所述媒體資料依序穿過所述至少一個替代性路徑中的每一者,才引導所述媒體數據穿過所述主路徑。
- 如申請專利範圍第26項所述的方法,其中所述至少一個替代性路徑包括多個替代性路徑,且所述方法進一步包括:所述深度神經網路先引導所述媒體資料依序穿過每一所述多個替代性路徑後,才引導所述媒體數據穿過所述主路徑;以及依序以所述側枝在每一所述多個替代性路徑的長度的遞減次序引導所述媒體資料穿過所述多個替代性路徑,其中所述側枝的所述長度在每一所述多個替代性路徑是每一所述多個替代性路徑的所述額外X-Y個由層形成的群組的總數,當所述多個替代性路徑側枝的所述長度有至少二者相同時,則依所述額外X-Y個由層形成的群組所包含的層的總數的遞增次序引導所述媒體資料穿過所述多個替代性路徑。
- 如申請專利範圍第25項所述的方法,進一步包括:當所述深度神經網路輸出所述最終類別可能性時,停止引導所述媒體資料穿過所述至少一個替代性路徑中的其餘路徑及所述主路徑。
- 如申請專利範圍第25項所述的方法,進一步包括:只有當所述至少一個替代性路徑及所述主路徑中已引導所述媒體資料從中穿過的當前一者的所述最高類別可能性未達到或未超過所述對應類別可能性閾值時,才由所述融合層針對所述多個預定資料類別中的每一者計算所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的所述兩者或更多者的當前融合類別可能性;以及只有當所述至少一個替代性路徑及所述主路徑中已引導所述 媒體資料從中穿過的下一者的所述最高類別可能性未達到或未超過所述對應類別可能性閾值時,才由所述融合層針對所述多個預定資料類別中的每一者計算所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的兩者或更多者的下一融合類別可能性。
- 如申請專利範圍第29項所述的方法,進一步包括:當所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的所述兩者或更多者的對於每一所述多個預定資料類別的所述當前融合類別可能性未達到或未超過對應類別可能性閾值時,引導所述媒體資料穿過所述至少一個替代性路徑及所述主路徑中的所述下一者;以及通過以下來引導所述媒體資料穿過所述至少一個替代性路徑及所述主路徑中的所述下一者:重新引導從所述主路徑的所述X個由層形成的群組中的第C個由層形成的群組輸出的資料進入所述主路徑的所述X個由層形成的群組中的第(C+1)個由層形成的群組中,並接著穿過所述至少一個替代性路徑及所述主路徑中的所述下一者的其餘層,其中在所有所述至少一個替代性路徑中,C是相應的所述Y中的一者,且所述至少一個替代性路徑中的所述目前一者係由從所述主路徑的所述X個由層形成的群組中的所述第C個由層形成的群組延伸出。
- 如申請專利範圍第25項所述的方法,進一步包括:只有當所述至少一個替代性路徑及所述主路徑中已引導所述媒體資料從中穿過 的任何先前路徑的所述最高類別可能性未達到或未超過所述對應類別可能性閾值時,才從所述融合層輸出所述最高融合類別可能性作為所述最終類別可能性。
- 如申請專利範圍第31項所述的方法,進一步包括:只有當所述最高融合類別可能性達到或超過其對應融合類別可能性閾值,或所述深度神經網路已引導所述媒體資料穿過每一所述至少一個替代性路徑及所述主路徑時,才從所述融合層輸出所述最高融合類別可能性作為所述最終類別可能性。
- 如申請專利範圍第25項所述的方法,其中所述至少一個替代性路徑中的任一者中的所述X個群組中所述層的總數,小於所述主路徑中的所述X個由層形成的群組中所述層的總數。
- 如申請專利範圍第33項所述的方法,其中所述至少一個替代性路徑中的至少一由第N個由層形成的群組中所述層的總數,小於所述主路徑中的第N個由層形成的群組中所述層的總數,並且其中N>Y,且N是為Y+1、Y+2、…、X中的至少一者的整數。
- 如申請專利範圍第25項所述的方法,其中每一所述主路徑及所述至少一個替代性路徑中的每一所述層包括多個過濾器,所述至少一個替代性路徑中的任一者中的所述X個由層形成的群組的所述過濾器的總數,小於所述主路徑中的所述X個由層形成的群組的所述過濾器的總數。
- 如申請專利範圍第35項所述的方法,其中所述至少一個替代性路徑中的至少一者中的第K個由層形成的群組的所述過濾器的總數小於所述主路徑中的第K個由層形成的群組的所述過 濾器的總數,並且其中K>Y,且K是為Y+1、Y+2、…、X中的至少一者的整數。
- 如申請專利範圍第35項所述的方法,其中所述主路徑中由同一所述由層形成的群組中的每一所述層具有相同總數的所述過濾器,且所述至少一個替代性路徑中的任一者中由同一所述由層形成的群組中的每一所述層具有相同總數的所述過濾器。
- 如申請專利範圍第25項所述的方法,其中所述至少一個替代性路徑包括多個替代性路徑,且具有額外X-Y-W個由層形成的群組的至少一個子側枝,從所述側枝的所述額外X-Y個由層形成的群組中的相應的第W個群組延伸出,以由所述至少一個子側枝形成所述至少一個替代性路徑中的另一者的一部分,並且其中對於每一所述至少一個子側枝,相應的所述W是整數,且1W<X-Y。
- 如申請專利範圍第38項所述的方法,進一步包括:直至所述深度神經網路已引導所述媒體資料依序穿過具有所述至少一個子側枝的每一至少一個替代性路徑中,才引導所述媒體資料穿過具有所述側枝的所述替代性路徑。
- 如申請專利範圍第38項所述的方法,其中所述至少一個子側枝包括多個子側枝,所述多個子側枝分別形成具有所述子側枝的多個替代性路徑的一部分,所述方法進一步包括:直至所述深度神經網路已引導所述媒體資料依序穿過具有每一所述子側枝的所述多個替代性路徑,才引導所述媒體資料穿過具有所述側枝的所述替代性路徑;以及 引導所述媒體資料依序由所述子側枝的長度的遞減次序以具有所述子側枝的每一所述多個替代性路徑穿過具有所述子側枝的所述多個替代性路徑,其中具有所述子側枝的每一所述多個替代性路徑的所述子側枝的所述長度是具有所述子側枝的所述多個替代性路徑中的每一者的所述額外X-Y-W個由層形成的群組的總數。
- 如申請專利範圍第40項所述的方法,進一步包括:當所述媒體資料穿過具有所述子側枝的所述多個替代性路徑中的目前一者而未輸出所述最終類別可能性時,引導所述媒體資料穿過下一個具有所述子側枝的所述多個替代性路徑及具有所述側枝的所述替代性路徑;以及通過以下來引導所述媒體資料穿過具有所述子側枝的所述多個替代性路徑及具有所述側枝的所述替代性路徑中的所述下一者:重新引導從具有所述側枝的所述替代性路徑的所述X個由層形成的群組中的第V個由層形成的群組輸出的資料進入具有所述側枝的所述替代性路徑的所述X個由層形成的群組中的第(V+1)個由層形成的群組中並接著穿過其餘層的所述下一具有所述子側枝的所述多個替代性路徑及具有所述側枝的所述替代性路徑,其中在所有所述至少一個子側枝中,V是相應的所述W中的一者,且所述目前一具有所述子側枝的所述多個替代性路徑,從具有所述側枝的所述替代性路徑的所述X-Y個由層形成的群組中的所述第V個由層形成的群組延伸出。
- 一種含有電腦程式產品的非暫時性電腦可讀媒體,所述電腦程式產品包括用於使用深度神經網路將媒體資料識別及分類為多個預定資料類別中的一者的電腦可執行指令,所述深度神經網路包括:主路徑,依連續順序具有輸入層、X個由層形成的群組、至少一個池化層、及分類層,所述輸入層用於接收媒體資料,所述X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述主路徑中的所述X個由層形成的群組的輸出進行向下採樣,所述分類層用於為所述媒體資料穿過所述主路徑時,計算每一所述多個預定資料類別中的類別可能性,其中X>1且X是整數;至少一個替代性路徑,依連續順序具有所述輸入層、X個由層形成的群組、至少一個池化層、及分類層,所述X個由層形成的群組用於從所述媒體資料提取特徵,所述至少一個池化層用於對來自所述至少一個替代性路徑中的所述X個群組的輸出進行向下採樣,所述分類層用於所述媒體資料穿過所述至少一個替代性路徑時,計算每一所述多個預定資料類別中的類別可能性,其中每一所述至少一個替代性路徑中的所述X個由層形成的群組,是相對於由所述主路徑中的所述X個由層形成的群組中的Y個群組、以及額外X-Y個由層形成的群組作為側枝相應於所述主路徑中的所述X個群組中的第Y個群組延伸而出,其中所述主路徑中的所述X個由層形成的群組中的相應的所述Y個群組是所述主路徑中的所述X個由層形成的群組中的第一個群組至所述主路徑中 的所述X個由層形成的群組中的相應的第Y個群組,並且其中對於每一所述至少一個替代性路徑,相應的所述Y是整數,且1Y<X;融合層,其中所述主路徑的所述分類層與所述至少一個替代性路徑的所述分類層在所述融合層處合併;以及預測器,依據最終類別可能性將所述媒體資料識別及分類,為所述多個預定資料類別中對應的一者,所述電腦程式產品包括用於以下的所述電腦可執行指令:引導所述媒體資料依序一次一個地穿過所述至少一個替代性路徑及所述主路徑中的一者或多者,直至所述最終類別可能性被輸出為止;輸出以下作為所述最終類別可能性:所述至少一個替代性路徑及所述主路徑中首先達到或超過對應類別可能性閾值的那一個的最高類別可能性、或是輸出來自所述融合層的最高融合類別可能性當成所述最終類別可能性,其中所述融合層的最高融合類別可能性是基於所述主路徑及所述至少一個替代性路徑中已引導所述媒體資料從中穿過的任何路徑中的兩者或更多者的所述類別可能性;以及將所述媒體資料識別及分類為所述多個預定資料類別中與所述最終類別可能性對應的一者。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762538811P | 2017-07-31 | 2017-07-31 | |
US62/538,811 | 2017-07-31 | ||
US15/793,086 | 2017-10-25 | ||
US15/793,086 US10474925B2 (en) | 2017-07-31 | 2017-10-25 | Deep neural network with side branches for recognizing and classifying media data and method for using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI636404B true TWI636404B (zh) | 2018-09-21 |
TW201911137A TW201911137A (zh) | 2019-03-16 |
Family
ID=64452846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106146091A TWI636404B (zh) | 2017-07-31 | 2017-12-27 | 深度神經網路、使用深度神經網路的方法與電腦可讀媒體 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109325583B (zh) |
TW (1) | TWI636404B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI717655B (zh) * | 2018-11-09 | 2021-02-01 | 財團法人資訊工業策進會 | 適應多物件尺寸之特徵決定裝置及方法 |
TWI740338B (zh) * | 2019-01-11 | 2021-09-21 | 美商谷歌有限責任公司 | 具有動態最小批次尺寸之運算方法,以及用於執行該方法之運算系統及電腦可讀儲存媒體 |
TWI785579B (zh) * | 2021-04-27 | 2022-12-01 | 和碩聯合科技股份有限公司 | 元件辨識模型之自動模型重建方法及系統 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353587B (zh) * | 2020-03-10 | 2024-01-12 | 中科(厦门)数据智能研究院 | 一种深度神经网络的可解释生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213302A1 (en) * | 2014-01-30 | 2015-07-30 | Case Western Reserve University | Automatic Detection Of Mitosis Using Handcrafted And Convolutional Neural Network Features |
TW201706871A (zh) * | 2015-05-21 | 2017-02-16 | 咕果公司 | 使用類神經網路處理器計算卷積 |
CN106960243A (zh) * | 2017-03-06 | 2017-07-18 | 中南大学 | 一种改进卷积神经网络结构的方法 |
CN106980895A (zh) * | 2017-02-22 | 2017-07-25 | 中国科学院自动化研究所 | 基于旋转区域的卷积神经网络预测方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4885757A (en) * | 1987-06-01 | 1989-12-05 | Texas Instruments Incorporated | Digital adaptive receiver employing maximum-likelihood sequence estimation with neural networks |
JPH0636061A (ja) * | 1992-07-21 | 1994-02-10 | Fujitsu Ltd | 階層型ニューラルネットワークの学習方式 |
JP2673871B2 (ja) * | 1993-08-26 | 1997-11-05 | 日本アイ・ビー・エム株式会社 | ニューラル・ネットワークによるパターン認識方法及び装置 |
CA2165400C (en) * | 1995-12-15 | 1999-04-20 | Jean Serodes | Method of predicting residual chlorine in water supply systems |
US6035057A (en) * | 1997-03-10 | 2000-03-07 | Hoffman; Efrem H. | Hierarchical data matrix pattern recognition and identification system |
TWI417746B (zh) * | 2010-12-03 | 2013-12-01 | Ind Tech Res Inst | 裝置的效能預測及故障檢測之方法 |
CN102368297A (zh) * | 2011-09-14 | 2012-03-07 | 北京英福生科技有限公司 | 一种用于识别被检测对象动作的设备、系统及方法 |
CN102915450B (zh) * | 2012-09-28 | 2016-11-16 | 常州工学院 | 一种在线自适应调整的目标图像区域跟踪方法 |
CN103745117B (zh) * | 2014-01-22 | 2017-01-18 | 哈尔滨工程大学 | 一种用于目标识别的决策概率转换方法 |
EP3089081A4 (en) * | 2014-02-10 | 2017-09-20 | Mitsubishi Electric Corporation | Hierarchical neural network device, learning method for determination device, and determination method |
CN104049755B (zh) * | 2014-06-18 | 2017-01-18 | 中国科学院自动化研究所 | 信息处理方法及装置 |
CN115690558A (zh) * | 2014-09-16 | 2023-02-03 | 华为技术有限公司 | 数据处理的方法和设备 |
GB2534884B (en) * | 2015-02-03 | 2019-04-17 | Jaguar Land Rover Ltd | A system for use in a vehicle |
CN105989368A (zh) * | 2015-02-13 | 2016-10-05 | 展讯通信(天津)有限公司 | 一种目标检测方法及装置以及移动终端 |
CN105404902B (zh) * | 2015-10-27 | 2019-02-05 | 清华大学 | 基于脉冲神经网络的图像特征描述和记忆方法 |
CN105512680B (zh) * | 2015-12-02 | 2019-01-08 | 北京航空航天大学 | 一种基于深度神经网络的多视sar图像目标识别方法 |
CN105760507B (zh) * | 2016-02-23 | 2019-05-03 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN106529578A (zh) * | 2016-10-20 | 2017-03-22 | 中山大学 | 一种基于深度学习的车辆品牌型号精细识别方法与系统 |
CN106384023A (zh) * | 2016-12-02 | 2017-02-08 | 天津大学 | 基于主路径的混合场强预测方法 |
-
2017
- 2017-12-27 TW TW106146091A patent/TWI636404B/zh active
-
2018
- 2018-02-24 CN CN201810156489.XA patent/CN109325583B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213302A1 (en) * | 2014-01-30 | 2015-07-30 | Case Western Reserve University | Automatic Detection Of Mitosis Using Handcrafted And Convolutional Neural Network Features |
TW201706871A (zh) * | 2015-05-21 | 2017-02-16 | 咕果公司 | 使用類神經網路處理器計算卷積 |
CN106980895A (zh) * | 2017-02-22 | 2017-07-25 | 中国科学院自动化研究所 | 基于旋转区域的卷积神经网络预测方法 |
CN106960243A (zh) * | 2017-03-06 | 2017-07-18 | 中南大学 | 一种改进卷积神经网络结构的方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI717655B (zh) * | 2018-11-09 | 2021-02-01 | 財團法人資訊工業策進會 | 適應多物件尺寸之特徵決定裝置及方法 |
TWI740338B (zh) * | 2019-01-11 | 2021-09-21 | 美商谷歌有限責任公司 | 具有動態最小批次尺寸之運算方法,以及用於執行該方法之運算系統及電腦可讀儲存媒體 |
TWI758223B (zh) * | 2019-01-11 | 2022-03-11 | 美商谷歌有限責任公司 | 具有動態最小批次尺寸之運算方法,以及用於執行該方法之運算系統及電腦可讀儲存媒體 |
TWI785579B (zh) * | 2021-04-27 | 2022-12-01 | 和碩聯合科技股份有限公司 | 元件辨識模型之自動模型重建方法及系統 |
Also Published As
Publication number | Publication date |
---|---|
CN109325583B (zh) | 2022-03-08 |
CN109325583A (zh) | 2019-02-12 |
TW201911137A (zh) | 2019-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI636404B (zh) | 深度神經網路、使用深度神經網路的方法與電腦可讀媒體 | |
Bhatnagar et al. | Classification of fashion article images using convolutional neural networks | |
Yang et al. | Deep learning for | |
CN108399158B (zh) | 基于依存树和注意力机制的属性情感分类方法 | |
US10474925B2 (en) | Deep neural network with side branches for recognizing and classifying media data and method for using the same | |
TWI729352B (zh) | 卷積神經網路的調整方法及電子裝置 | |
CN112199956B (zh) | 一种基于深度表示学习的实体情感分析方法 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN110914839A (zh) | 错误去相关的选择性训练 | |
CN107924491A (zh) | 未知类别的检测和用于未知类别的分类器的初始化 | |
CN110046249A (zh) | 胶囊网络的训练方法、分类方法、系统、设备及存储介质 | |
Farhoudi et al. | Fusion of deep learning features with mixture of brain emotional learning for audio-visual emotion recognition | |
Tahir et al. | Coronavirus: Comparing COVID-19, SARS and MERS in the eyes of AI | |
CN110175597A (zh) | 一种融合特征传播与聚合的视频目标检测方法 | |
CN108460336A (zh) | 一种基于深度学习的行人检测方法 | |
CN112927266B (zh) | 基于不确定性引导训练的弱监督时域动作定位方法及系统 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
WO2022030714A1 (en) | User classification based on user content viewed | |
Choi et al. | Confidence-based deep multimodal fusion for activity recognition | |
Hammam et al. | Stacking deep learning for early COVID-19 vision diagnosis | |
Rajeshwar | Hybrid particle swarm optimization-gravitational search algorithm based deep belief network: Speech emotion recognition: Hybrid PSO-GSA based DBN | |
Belal et al. | Interpretable multi labeled bengali toxic comments classification using deep learning | |
Sharif et al. | Deep crowd anomaly detection: state-of-the-art, challenges, and future research directions | |
Lee et al. | Unsupervised domain adaptation based on the predictive uncertainty of models | |
Kumar et al. | Sentiment analysis on online reviews using machine learning and NLTK |