TWI691930B - 基於神經網路的分類方法及其分類裝置 - Google Patents

基於神經網路的分類方法及其分類裝置 Download PDF

Info

Publication number
TWI691930B
TWI691930B TW107132968A TW107132968A TWI691930B TW I691930 B TWI691930 B TW I691930B TW 107132968 A TW107132968 A TW 107132968A TW 107132968 A TW107132968 A TW 107132968A TW I691930 B TWI691930 B TW I691930B
Authority
TW
Taiwan
Prior art keywords
probability vector
classification
classifier
neural network
vector
Prior art date
Application number
TW107132968A
Other languages
English (en)
Other versions
TW202013309A (zh
Inventor
黃茂裕
Original Assignee
財團法人工業技術研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人工業技術研究院 filed Critical 財團法人工業技術研究院
Priority to TW107132968A priority Critical patent/TWI691930B/zh
Priority to CN201811309647.7A priority patent/CN110929745B/zh
Priority to US16/182,619 priority patent/US10902314B2/en
Publication of TW202013309A publication Critical patent/TW202013309A/zh
Application granted granted Critical
Publication of TWI691930B publication Critical patent/TWI691930B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2528Combination of methods, e.g. classifiers, working on the same input data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種基於神經網路的分類方法,包括:獲得神經網路以及第一分類器;將輸入資料輸入至神經網路以產生特徵圖;裁切特徵圖以產生特徵圖的第一裁切部位及第二裁切部位;輸入第一裁切部位至第一分類器以產生第一機率向量;輸入第二裁切部位至第二分類器以產生第二機率向量,其中第一分類器的權重被分享給第二分類器;以及對第一機率向量及第二機率向量進行機率融合,藉以產生用以決定輸入資料的分類的估測機率向量。

Description

基於神經網路的分類方法及其分類裝置
本揭露是有關於一種分類方法及分類裝置,且特別是有關於一種基於神經網路的分類方法及其分類裝置。
在圖像辨識領域中,深層神經網路(deep neural network,DNN)已經成為常見的方法。藉由增加神經網路(neural network,NN)的深度,並使用龐大的標籤資料(labeled data)訓練各層的權重參數,深層神經網路可以達到準確的分類功效。然而,製作標籤資料需要耗費龐大的人力。為了增加標籤資料的多樣性,提出了多重裁切評測(multi-crop evaluation)技術。多重裁切評測技術可以將單一圖像裁切(crop)成多個裁切部位(cropped part),並將所述多個裁切部位分別輸入對應的分類器中。
應用多重裁切評測技術的分類裝置雖可達到較低的錯誤率,但也會造成運算量增加並且耗費更多的時間成本。因此,如何降低使用多重裁切神經網路需耗用的運算量與時間成本,是本領域人員致力的目標之一。
本揭露提供一種基於神經網路的分類裝置,包括:儲存媒體以及處理器。儲存媒體記錄多個模組。處理器耦接儲存媒體。處理器存取及執行儲存媒體的多個模組,所述多個模組包括:神經網路,根據輸入資料產生特徵圖;裁切層,裁切特徵圖以產生特徵圖的第一裁切部位及第二裁切部位;第一分類器,並且根據第一裁切部位產生第一機率向量;第二分類器,根據第二裁切部位產生第二機率向量,其中第一分類器的權重被分享給所述第二分類器;以及融合層,並對第一機率向量及第二機率向量進行機率融合,藉以產生用以決定輸入資料的分類的估測機率向量。
本揭露提供一種基於神經網路的分類方法,包括:獲得神經網路以及第一分類器;將輸入資料輸入至神經網路以產生特徵圖;裁切特徵圖以產生特徵圖的第一裁切部位及第二裁切部位;輸入第一裁切部位至第一分類器以產生第一機率向量;輸入第二裁切部位至第二分類器以產生第二機率向量,其中第一分類器的權重被分享給第二分類器;以及對第一機率向量及第二機率向量進行機率融合,藉以產生用以決定輸入資料的分類的估測機率向量。
本揭露提供一種基於神經網路的分類裝置,適用於對物品的外觀瑕疵進行分類,包括:自動光學檢測設備以及伺服器。自動光學檢測設備取得晶圓的圖像資料。伺服器包括儲存媒體及 處理器。伺服器耦接自動光學檢測設備並且接收圖像資料,其中儲存媒體記錄多個模組,且處理器耦接儲存媒體,並且存取及執行儲存媒體的多個模組,多個模組包括:神經網路,根據圖像資料產生特徵圖;裁切層,裁切特徵圖以產生特徵圖的第一裁切部位及第二裁切部位;第一分類器,根據第一裁切部位產生第一機率向量;第二分類器,根據第二裁切部位產生第二機率向量,其中第一分類器的權重被分享給所述第二分類器;以及融合層,對第一機率向量及第二機率向量進行機率融合,藉以產生用以決定所述圖像資料的分類的估測機率向量。
為讓本揭露的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
1101:第一模組
1102:第二模組
1103:第三模組
1123、1124:第二群組
1170:最終融合層
1224:第三群組
130:自動光學檢測設備
1300:伺服器
4、8、13:分類裝置
40、80:處理器
400、800、8000、1100:儲存媒體
410、810:輸入層
420、820、1120、1220:神經網路
430、830、1130、1230:裁切層
431、8301、8302、8303、8304、8305:裁切部位
440、841、842、843、844、845、860、1141、1142、1143、1144、1145:分類器
441、8410、8420、8430、8440、8450、8411、8421、8431、8441、8451:平均池化層
442、8412、8422、8432、8442、8452、862:分類層
443、8413、8423、8433、8443、8453、863:正規化指數函 數層
500、700、900、1000、1200:方法
821、822、823、824:第一群組
850、1150:融合層
861:級聯層
864:切片層
ev、ev0、ev'、ev1、ev2、ev3:估測機率向量
f1、f2、f3、f4、f5:特徵向量
fev:最終估測機率向量
S701、S702、S703、S704、S705、S706、S901、S902、S903、S904、S905、S906、S1001、S1002、S1003、S1004、S1005、S1201、1202、1203、1204、1205、1206:步驟
圖1繪示一種基於多重裁切神經網路的分類裝置的示意圖。
圖2繪示一種基於十二重裁切神經網路的分類裝置的示意圖。
圖3繪示另一種基於十二重裁切神經網路的分類裝置的示意圖。
圖4A根據本揭露的實施例中繪示具有單一裁切架構的基於神經網路之分類裝置的示意圖。
圖4B根據本揭露的實施例中繪示分類裝置的儲存媒體的示 意圖。
圖5根據本揭露的實施例中繪示增加輸入資料之多樣性的方法的示意圖。
圖6根據本揭露的實施例中繪示經由分類器將特徵圖轉換為機率向量的示意圖。
圖7根據本揭露的實施例中繪示基於神經網路的分類方法的流程圖。
圖8A根據本揭露的實施例中繪示具有多重裁切架構的基於神經網路之分類裝置的示意圖。
圖8B根據本揭露的實施例中繪示分類裝置的一種儲存媒體的示意圖。
圖8C根據本揭露的實施例中繪示分類裝置的另一種儲存媒體的示意圖。
圖9根據本揭露的實施例中繪示基於神經網路的分類方法的流程圖。
圖10根據圖8實施例的分類裝置繪示逐步地增加裁切部位的分類方法的流程圖。
圖11根據本揭露的實施例繪示分類裝置的另一種儲存媒體的示意圖。
圖12根據圖11實施例的分類裝置繪示逐步地增加神經網路的分類方法的流程圖。
圖13根據本揭露的實施例中繪示具有多重裁切架構的基於 神經網路之分類裝置的示意圖。
圖1繪示一種基於多重裁切神經網路(multi-crop neural network)的分類裝置的示意圖。圖1的分類裝置將單一圖像裁切為複數個不同的裁切部位,例如,將圖像的右上角裁切為右上角裁切部位,並將圖像的左下角裁切為左下角裁切部位。在該圖像的多個裁切部位分別輸入至對應的神經網路以及分類器之後,可產生對應多個裁切部位的多個預測分數。預測分數可具有多種不同的態樣,舉例來說,在圖1的實施例中,預測分數是以機率向量的形式呈現,但本揭露不限於此。對所述多個機率向量(即:多個預測分數)進行機率融合(probability fusion)所得到的機率向量便可作為對該圖像進行分類的依據。
相較於應用單一裁切評測(1-crop evaluation)技術的神經網路,應用多重裁切評測技術的神經網路可達到較低的錯誤率。表一表示應用ResNet神經網路模型於單一裁切神經網路架構與十重裁切(10-crop)神經網路架構的前一名(top-1)錯誤率及前五名(top-5)錯誤率的比較。
Figure 107132968-A0305-02-0007-1
Figure 107132968-A0305-02-0008-2
其中ResNet-50、ResNet-101及ResNet-152分別代表具有50層卷積層(convolutional layer)、101層卷積層及152層卷積層的殘差神經網路(residual network,ResNet)模型。由表一可知,相較於增加神經網路的卷積層數,使用多重裁切評測技術可以帶來較顯著地錯誤率改善。舉例來說,ResNet-50的前一名錯誤率為24.7%。若將卷積層增加至101層(即:ResNet-101),則前一名錯誤率可改善為23.6%。相對來說,在維持卷積層數為50層的情況下,若將ResNet-50套用於10-crop神經網路架構,可使前一名錯誤率改善為22.9%。亦即,多重裁切評測技術可在不增加大量的卷積層數的情況下,達到與增加大量卷積層數相同甚至更佳的準確率(Accuracy)。
再以Inception家族之神經網路模型為例。表二表示應用Inception家族之神經網路模型於單一裁切神經網路架構與十二重裁切(12-crop)神經網路架構的前一名錯誤率及前五名錯誤率的比較。
Figure 107132968-A0305-02-0008-3
以Inception-v4為例,當Inception-v4應用於單一裁切神經網路架 構時,前一名錯誤率為20.0%。相對來說,當Inception-v4應用於十二重裁切神經網路架構時,前一名錯誤率改善為18.7%。亦即,多重裁切神經網路架構可顯著地改善錯誤率。
圖2繪示一種基於十二重裁切神經網路的分類裝置的示意圖。圖2的分類裝置分別裁切單一圖像及其鏡像為六個裁切部位(總計12個裁切部位)。在各個裁切部位依序地輸入至一神經網路以及一分類器之後,可產生對應多個裁切部位的多個預測分數。在本實施例中,所述多個預測分數是以多個機率向量的形式呈現(即:12個機率向量)。對所述多個機率向量進行機率融合所得到的機率向量便可作為對該圖像進行分類的依據。相較於傳統不對輸入資料進行裁切的作法,圖2的分類裝置可獲得更為準確的分類結果。然而,由於圖2的分類裝置需要使用神經網路重複地執行12次運算,故該分類裝置會消耗較傳統約12倍的運算量,並且需耗費更多的時間。
圖3繪示另一種基於十二重裁切神經網路的分類裝置的示意圖。圖3的分類裝置之架構與圖2的分類裝置相似,兩者都是分別裁切單一圖像及其鏡像圖像為六個裁切部位(總計12個裁切部位)。然而,不同於圖2的分類裝置是將12個裁切部位分別輸入神經網路,圖3的架構是將12個裁切部位連接(concat)成為一筆級聯(concatenation)資料,再將該筆級聯資料輸入神經網路之中。接著,對神經網路的輸出資料進行切片(slice),以產生對應多個裁切部位的多個預測分數。在本實施例中,所述多個預 測分數是以多個機率向量的形式呈現(即:12個機率向量)。對所述多個機率向量進行機率融合所得到的機率向量便可作為對該圖像進行分類的依據。圖3的分類裝置雖僅需使用神經網路執行一次運算,但龐大的輸入資料量會使神經網路需消耗較傳統約12倍的記憶體來進行運算。再者,由於不同的裁切部位可能會包含交疊(overlap)的資料,因此使用此分類裝置可能會消耗較多運算量在辨識冗餘的資料上。
當多重裁切神經網路所使用的裁切數量大於一定數量時,將無法藉由增加裁切數量改善錯誤率。表三表示應用GoogLeNet神經網路模型於多種多重裁切神經網路架構的前五名錯誤率的比較。
Figure 107132968-A0305-02-0010-4
以應用了單一個GoogLeNet神經網路模型的單一裁切神經網路架構為例,其top-5錯誤率約為10.07%。若將單一個GoogLeNet應用於十重裁切神經網路架構,則錯誤率顯著地改善約0.92%。然而,若要進一步地改善約1.26%(7.89%-9.15%=-1.26%)的錯誤率,則需要將裁切部位的數量由10個擴增為144個。換言之, 當裁切數量增加至一定數量時,多重裁切評測技術所帶來的錯誤率改善效果將趨於不顯著。
為了進一步改善上述的多重裁切評測技術以降低所使用的運算時間、所使用的運算量以及分類的錯誤率,本揭露提出一種基於神經網路的分類裝置及分類方法。圖4A根據本揭露的實施例中繪示具有單一裁切架構的基於神經網路之分類裝置4的示意圖。分類裝置4包括處理器40及儲存媒體400。分類裝置4可應用於對晶圓或印刷電路板的外觀瑕疵進行分類,但本揭露不限於此。
處理器40耦接儲存媒體400,並且可存取或執行儲存於儲存媒體400的多個模組。處理器40可例如是中央處理單元(central processing unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(microprocessor)、數位信號處理器(digital signal processor,DSP)、可程式化控制器、特殊應用積體電路(application specific integrated circuit,ASIC)或其他類似元件或上述元件的組合,本揭露不限於此。
儲存媒體400用以儲存分類裝置4運行時所需的各項軟體、資料及各類程式碼。儲存媒體400可例如是任何型態的固定式或可移動式的隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)、硬碟(hard disk drive,HDD)、固態硬碟(solid state drive,SSD)或類似元件或上述元件的組合,本揭露不限於此。
在本實施例中,儲存媒體400儲存的多個模組包括輸入層410、神經網路420、裁切層(cropping layer)430以及分類器440,如圖4B所示。圖4B根據本揭露的實施例中繪示分類裝置4的儲存媒體400的示意圖。熟習相關技藝者當知,本揭露的輸入層410、神經網路420、裁切層430以及分類器440也可以是以硬體電路的方式實現,而非以儲存於儲存媒體400中的模組的方式實現,本揭露不限於此。
輸入層410用於接收輸入資料,並將輸入資料輸入至神經網路420。所述輸入資料可以是圖像資料或其他類型的多媒體資料,但本揭露不限於此。在一些實施例中,輸入層410可增加輸入資料的資料多樣性(例如透過如圖2或圖3所示的方式),使得分類裝置4的分類結果可以在輸入資料未增加的前提下獲得改善。在晶圓製造或印刷電路板製造的產業中,所述輸入資料可例如是由自動光學檢測設備(automated optical inspection equipment,AOI equipment)取得的晶圓之外觀的圖像資料,或是由自動外觀檢測設備(automated visual inspection equipment,AVI equipment)取得的印刷電路板之外觀的圖像資料,但本揭露不限於此。
圖5根據本揭露的實施例中繪示增加輸入資料之多樣性的方法500的示意圖,其中方法500可選擇性地應用在分類裝置4以及後續實施例將會提及的分類裝置8與分類裝置13,但本揭露不限於此。以應用於分類裝置4為例,假設原始的輸入資料為一 圖像資料,方法500可產生所述圖像資料的一鏡像圖像資料,並且將所述圖像資料及所述鏡像圖像資料連接成為一筆級聯資料。所述級聯資料即可作為新的輸入資料而輸入神經網路420之中。將所述級聯資料輸入至分類裝置4後,將產生對應所述級聯資料的預測分數。在本實施例中,預測分數是以機率向量的形式呈現,但本揭露不限於此。
在將機率向量切片(slice)為分別對應圖像資料及鏡像圖像資料的兩個機率向量後,可對所述兩個機率向量進行機率融合,從而產生可用於決定分類的估測機率向量。根據估測機率向量決定輸入資料之分類的方法將於本文後續說明。相較於圖2或圖3繪示的分類裝置需將圖像資料裁切為12個裁切部位以增加資料多樣性,方法500僅需將利用少量的輸入資料以及簡單的機率融合,即可得到準確率不下於傳統的基於十二重裁切神經網路之分類裝置的分類性能。
回到圖4B。神經網路420可自輸入層410接收輸入資料,並根據輸入資料產生特徵圖,其中神經網路420可例如是卷積神經網路(convolutional neural network,CNN)。神經網路420也可例如是自編碼神經網路、深度學習(deep learning)神經網路、深度殘差學習(deep residual learning)神經網路、受限玻爾茲曼機(Boltzmann machine,RBM)神經網路、遞歸神經網路(recursive neural network)或多層感知機(multilayer perceptron,MLP)神經網路等,本揭露不限於此。在本實施例中,可應用任意種已訓 練完成的神經網路以作為神經網路420。
基於卷積核(convolution kernel)之維度的不同,神經網路420可輸出一特徵圖或輸出對應於不同通道的多張特徵圖(以下敘述將以輸出一特徵圖的情況為例)。在本實施例中,可獲得任意一種已訓練完成的神經網路以作為神經網路420。換言之,分類裝置4所使用的神經網路420不需重新被訓練。因此,建立神經網路所需耗用的時間及運算量可被降低。
裁切層430可自神經網路420接收特徵圖,並且裁切所述特徵圖以產生特徵圖的裁切部位431,其中裁切部位431可以等同於特徵圖(相當於不裁切所述特徵圖),亦可為特徵圖的子集合。
分類器440對應於神經網路420,因此,當神經網路420為已訓練完成的神經網路時,可直接應用已訓練的神經網路的分類器以作為分類器440。分類器440可自裁切層430接收裁切部位431,並且根據裁切部位431產生對應裁切部位431的機率向量。產生機率向量的機制可參考圖6。圖6根據本揭露的實施例中繪示經由分類器440將特徵圖轉換為機率向量的示意圖。分類器440可包括平均池化(average-pooling)(或稱:裁切平均池化(crop-average-pooling,CAP))層441、分類層442以及正規化指數函數(softmax function)層443,如圖4B所示。在一些實施例中,平均池化層441可由任意種類的池化層(例如:最大池化(max-pooling)層)代替,本揭露不限於此。
首先,平均池化層441可接收多個通道的裁切部位431, 藉以產生分別對應所述多個通道的多個特徵點。為便於說明,圖6的實施例假設特徵圖具有共2048個通道(然而,特徵圖的通道數量可為任意的整數,本揭露並不限於此),且每個通道分別具有對應的裁切部位431。平均池化層441可根據2048個通道的裁切部位431產生分別對應2048個通道的2048個特徵點。
接著,分類層442可接收所述多個特徵點(即:2048個特徵點),並將所述多個特徵點轉換為一分數向量,其中所述分數向量中的每個元素對應一種分類,並且分類層442可以是一種全連接層(fully connected layer)。具體來說,分類層442可分配各種分類的權重給各個特徵點,並可根據所述各個特徵點及其權重而對每種分類進行評分,從而產生分別對應各種分類的多個評分值(score value)。所述多個評分值可組成所述分數向量。舉例來說,假設分類裝置4可將一物件識別為1000種的分類的其中之一,則所述2048個特徵點可依據各個特徵點在分類層442中對應的權重而映射至1000種分類,從而根據2048個特徵點產生分別對應各種分類的1000個評分值。所述1000個評分值可組成尺寸為1000×1的分數向量。
最後,在獲得分數向量之後,正規化指數函數層443可對分數向量進行正規化,藉以產生機率向量,其中所述機率向量中的每個元素對應一種分類且為介於0至1之間的實數。由於本實施例假設共有1000種分類,故機率向量具有1000個元素(但本揭露不限於此)。具體來說,正規化指數函數層443能將一個含 任意實數的K維的向量 z (例如:本揭露的分數向量)正規化以產生一個K維實向量σ( z )(例如:本揭露的估測機率向量)中,使得實向量σ( z )中的每一個元素的範圍都介於0至1之間,並且所有元素的和為1。分數向量經正規化指數函數處理層443後,分數向量中的各個元素會轉化為介於0至1之間的機率值,從而使分數向量轉化為估測機率向量ev,其中所述機率值代表輸入資料為所述機率值對應之分類的機率。
最後,分類器440可輸出用以決定輸入資料的分類的估測機率向量ev。若估測機率向量ev中的一元素的數值越高,則代表輸入資料為對應該元素之分類的機率越高。因此,輸入資料越可能被分類於該分類中。反之,若估測機率向量ev中一元素的數值越低,則代表輸入資料為對應該元素之分類的機率越低,因此,輸入資料越不可能被分類於該分類中。在晶圓製造或印刷電路板製造的產業中,分類器440所輸出的估測機率向量ev可例如是關於晶圓的外觀瑕疵的分類,或是印刷電路板的外觀瑕疵的分類,但本揭露不限於此。
圖7根據本揭露的實施例中繪示基於神經網路的分類方法700的流程圖,分類方法700可適用於分類裝置4。在步驟S701,獲得神經網路。在步驟S702,將輸入資料輸入至神經網路。在步驟S703,根據輸入資料產生特徵圖。在步驟S704,裁切特徵圖以產生特徵圖的裁切部位。在步驟S705,根據裁切部位產生對應裁切部位的機率向量。
圖8A根據本揭露的實施例中繪示具有多重裁切架構的基於神經網路之分類裝置8的示意圖。分類裝置8包括處理器80及儲存媒體800(或儲存媒體8000、儲存媒體1100)。分類裝置4可應用於對晶圓或印刷電路板的外觀瑕疵進行分類,但本揭露不限於此。
處理器80耦接儲存媒體800,並且可存取或執行儲存於儲存媒體800的多個模組。處理器80可例如是中央處理單元,或是其他可程式化之一般用途或特殊用途的微處理器、數位信號處理器、可程式化控制器、特殊應用積體電路或其他類似元件或上述元件的組合,本揭露不限於此。
儲存媒體800(或儲存媒體8000、儲存媒體1100)用以儲存分類裝置4運行時所需的各項軟體、資料及各類程式碼。儲存媒體800(或儲存媒體8000、儲存媒體1100)可例如是任何型態的固定式或可移動式的隨機存取記憶體、唯讀記憶體、快閃記憶體、硬碟、固態硬碟或類似元件或上述元件的組合,本揭露不限於此。
圖8B根據本揭露的實施例中繪示分類裝置8的一種儲存媒體800的示意圖(儲存媒體8000或儲存媒體1100的相關內容將於本文後續的實施例說明)。儲存媒體800包括輸入層810、神經網路820、裁切層830、多個分類器(分類器841、842、843、844及845)以及融合層850。熟習相關技藝者當知,本揭露的輸入層810、神經網路820、裁切層830、多個分類器(分類器841、 842、843、844及845)以及融合層850也可以是以硬體電路的方式實現,而非以儲存於儲存媒體800中的模組的方式實現,本揭露不限於此。
輸入層810用於接收輸入資料,並將輸入資料輸入至神經網路820。所述輸入資料可以是圖像資料或其他類型的多媒體資料,但本揭露不限於此。在一些實施例中,輸入層810可增加輸入資料的資料多樣性(例如透過如圖2或圖3所示的方式),使得分類裝置8的分類結果可以在輸入資料未增加的前提下獲得改善。
神經網路820可自輸入層810接收輸入資料,並根據輸入資料產生特徵圖,其中神經網路820可例如是卷積神經網路。神經網路820也可例如是自編碼神經網路、深度學習神經網路、深度殘差學習神經網路、受限玻爾茲曼機神經網路、遞歸神經網路或多層感知機神經網路等,本揭露不限於此。在本實施例中,可應用任意種已訓練完成的神經網路以作為神經網路820。
裁切層830可自神經網路820接收特徵圖,並裁切所述特徵圖以產生特徵圖的多個裁切部位。在本實施例中,裁切層830將特徵圖裁切為五個不同的裁切部位(裁切部位8301、8302、8303、8304及8305)。然而,裁切部位的數量、尺寸以及其對應特徵圖之位置等參數可由使用者依其需求調整,本揭露不限於此。在本實施例中,裁切部位8301為對應於特徵圖中心的裁切部位、裁切部位8302為對應於特徵圖左下角的裁切部位、裁切部位8303為對應於特徵圖左上角的裁切部位、裁切部位8304為對應於 特徵圖右上角的裁切部位並且裁切部位8305為對應於特徵圖右下角的裁切部位。
在本實施例中,各裁切部位分別對應一專屬的分類器。由於圖8B的實施例假設特徵圖被裁切為五個裁切部位,故儲存媒體800共包括五個分類器,分別為分類器841、842、843、844及845,其中,分類器841對應於裁切部位8301、分類器842對應於裁切部位8302、分類器843對應於裁切部位8303、分類器844對應於裁切部位8304並且分類器845對應於裁切部位8305。
分類器841、842、843、844及845的功能大致與分類器440相同。以分類器841為例,分類器841可對應於神經網路820。因此,當神經網路820為已訓練完成的神經網路時,可直接應用所述已訓練的神經網路的分類器以作為分類器841。分類器841可自裁切層830接收裁切部位8301,並且根據裁切部位8301產生對應裁切部位8301的機率向量。同樣地,分類器842可自裁切層830接收裁切部位8302,並且根據裁切部位8302產生對應裁切部位8302的機率向量。分類器843、844及845的功能可依此類推。
分類器841、842、843、844及845與分類器440的差異在於,分類器841、842、843、844及845可實施權重共享(weight sharing)技術。在本實施例中,由於儲存媒體800可直接應用任意種已訓練完成的神經網路及對應的分類器以分別作為神經網路820及分類器841,因此,分類器841的權重為已知的(即:不需經過運算即可獲得)。透過實施權重共享,分類器841的權重可被 分享給分類器842、843、844及845。
具體來說,可應用與分類器841的權重相同的權重於分類器842、843、844及845。以分類器841及分類器842為例。分類器841的分類層8412擁有的各種分類的權重(假設為權重矩陣 w1 )可分配給對應裁切部位8301的各個特徵點,並可根據所述多個特徵點及其權重而產生對應於裁切部位8301的分數向量。在權重共享的機制下,分類層8422可分配與分類層8412完全相同的權重(假設為權重矩陣 w2 ,其中 w1 = w2 )給對應裁切部位8302的各個特徵點,並可根據所述多個特徵點及其權重而產生對應於裁切部位8302的分數向量。換句話說,在本實施例中,分類裝置8並不需要重新訓練神經網路或分類器以適應新增之特徵圖的裁切部位(新增裁切部位相當於改變裁切層830的架構)。舉例來說,假設分類裝置4的神經網路420以及分類器440已經訓練完成。若使用者欲將分類裝置4(或儲存媒體400)改變為如分類裝置8(或儲存媒體800)的架構時,該名使用者可直接將分類裝置4的神經網路420直接應用至分類裝置8的神經網路820,並且將分類器440直接應用至分類器841,進而透過權重共享將分類器841的權重應用至分類器842、843、844及845。神經網路820以及分類器841至分類器845均不需經過訓練即可產生。
除實施了上述的權重共享技術外,分類器841、842、843、844及845產生機率向量的方法與分類器440產生機率向量的方法大致相同,在此不多贅述。分類器841、842、843、844及845可 分別產生對應裁切部位8301、8302、8303、8304及8305的多個機率向量。
融合層850可接收各裁切部位的機率向量,並對該些機率向量進行機率融合,藉以產生用以決定輸入資料的分類的估測機率向量ev0。在本實施例中,融合層850可對分類器841、842、843、844及845產生的多個機率向量進行機率融合,藉以產生用以決定輸入資料的分類的估測機率向量ev0。所述機率融合可例如是權重平均融合法(weighted average fusion)、最大值融合法(maximum fusion)及隨機法(random fusion)的其中之一,本揭露不限於此。
當使用權重平均融合法時,融合層850將使用相同的權重係數來對由分類器841、842、843、844及845產生的多個機率向量取平均以產生估測機率向量ev0(方法一)。然而,融合層850也可以使用不同的權重係數來對由分類器841、842、843、844及845產生的多個機率向量取平均以產生估測機率向量ev0(方法二)。
當使用最大值融合法時,融合層850會從由分類器841、842、843、844及845產生的多個機率向量中選出具有最大值的一元素,並將該元素對應的機率向量決定為估測機率向量ev0(方法三)。
當使用隨機法時,融合層850隨機地從由分類器841、842、843、844及845產生的多個機率向量中選出一者以作為估測 機率向量ev0(方法四)。或者,融合層850隨機地丟棄由分類器841、842、843、844及845產生的多個機率向量中的預設數目的一第二元素,並接著執行方法一至方法四中的一者,其中所述預設數目的所述第二元素分別對應於多個分類中的一者(方法五)。
若估測機率向量ev0中一元素的數值越高,則代表輸入資料為對應該元素之分類的機率越高,因此,輸入資料越可能被分類為該分類。反之,若估測機率向量ev0中一元素的數值越低,則代表輸入資料為對應該元素之分類的機率越低,因此,輸入資料越不可能被分類為該分類。在一實施例中,可以從估測機率向量ev0之中挑選出數值最大的元素(介於0至1的實數),並將輸入資料分類為與數值最大的元素相對應之分類。
圖8C根據本揭露的實施例中繪示分類裝置8的另一種儲存媒體8000的示意圖。儲存媒體8000包括輸入層810、神經網路820、裁切層830、多個平均池化層8410、8420、8430、8440及8450、分類器860以及融合層850。輸入層810、神經網路820及裁切層830的功能已詳述於前文中,故不再贅述。
在裁切層830將特徵圖裁切為五個不同的裁切部位(即:裁切部位8301、8302、8303、8304及8305)後,各裁切部位分別對應一專屬的平均池化層,分別為平均池化層8410、8420、8430、8440及8450,其中,平均池化層8410對應於裁切部位8301、平均池化層8420對應於裁切部位8302、平均池化層8430對應於裁切部位8303、平均池化層8440對應於裁切部位8304並且平均池 化層8450對應於裁切部位8305。
平均池化層8410、8420、8430、8440及8450的功能均相同。以平均池化層8410為例,平均池化層8410可接收對應一或多個通道的裁切部位8301,藉以產生分別對應所述多個通道的多個特徵點。平均池化層8410所產生的一或多個特徵點可組合成特徵向量f1並輸入至分類器860中。同樣地,平均池化層8420所產生的一或多個特徵點可組合成特徵向量f2並輸入至分類器860中、平均池化層8430所產生的一或多個特徵點可組合成特徵向量f3並輸入至分類器860中、平均池化層8440所產生的一或多個特徵點可組合成特徵向量f4並輸入至分類器860中、平均池化層8450所產生的一或多個特徵點可組合成特徵向量f5並輸入至分類器860中。
分類器860可包括級聯層(concatenation layer)861、分類層862、正規化指數函數層863以及切片層864。級聯層861可將所接收的特徵向量(即:特徵向量f1、f2、f3、f4及f5)連接成為一筆級聯特徵向量,再將該筆級聯特徵向量輸入至分類層862。
分類層862可將由特徵向量f1、f2、f3、f4及f5連接而成的級聯特徵向量轉換為一分數向量,其中所述分數向量中的每個元素對應一種分類,並且分類層862可以是一種全連接層。具體來說,分類層862可分配各種分類的權重給級聯特徵向量中的各個特徵點,並可根據所述各個特徵點及其權重而對每種分類進 行評分,從而產生分別對應各種分類的多個評分值。所述多個評分值可組成所述分數向量。
在獲得分數向量之後,正規化指數函數層863可對分數向量進行正規化,藉以產生機率向量,其中所述機率向量中的每個元素對應一種分類且為介於0至1之間的實數。具體來說,正規化指數函數層863能將一個含任意實數的K維的向量 z (例如:本揭露的分數向量)正規化以產生一個K維實向量σ( z )(例如:本揭露的估測機率向量)中,使得實向量σ( z )中的每一個元素的範圍都介於0至1之間,並且所有元素的和為1。分數向量經正規化指數函數處理層863後,分數向量中的各個元素會轉化為介於0至1之間的機率值,從而使分數向量轉化為機率向量,其中所述機率值代表輸入資料為所述機率值對應之分類的機率。
切片層864可對從正規化指數函數層863輸出的機率向量進行切片,以產生對應多個裁切部位(即:裁切部位8301、8302、8303、8304及8305)的多個預測分數。在本實施例中,所述多個預測分數是以多個機率向量的形式呈現(即:分別對應於裁切部位8301、8302、8303、8304及8305的5個機率向量)。
融合層850可接收各裁切部位的機率向量(即:分別對應於裁切部位8301、8302、8303、8304及8305的5個機率向量),並對該些機率向量進行機率融合,藉以產生用以決定輸入資料的分類的估測機率向量ev'。所述機率融合可例如是權重平均融合法、最大值融合法及隨機法的其中之一,本揭露不限於此。
圖9根據本揭露的實施例中繪示基於神經網路的分類方法900的流程圖,分類方法900可適用於儲存媒體800。在步驟S901,獲得神經網路以及第一分類器。在步驟S902,將輸入資料輸入至神經網路以產生特徵圖。在步驟S903,裁切特徵圖以產生特徵圖的第一裁切部位及第二裁切部位。在步驟S904,輸入第一裁切部位至第一分類器以產生第一機率向量。在步驟S905,輸入第二裁切部位至第二分類器以產生第二機率向量,其中第一分類器的權重被分享給第二分類器。在步驟S906,對第一機率向量及第二機率向量進行機率融合,藉以產生用以決定所述輸入資料的分類的估測機率向量。
回到圖8B,在一實施例中,在分類裝置8的儲存媒體800中,裁切層830可以逐步地增加裁切部位,而非直接將特徵圖裁切為非常多個裁切部位。如此,可以節約分類裝置8耗用的運算量。舉例來說,裁切層830可自神經網路820接收特徵圖,並裁切特徵圖以產生特徵圖的裁切部位8301及裁切部位8302。接著,分類器841可根據裁切部位8301產生第一機率向量,並且分類器842可根據裁切部位8302產生第二機率向量。接著,融合層850可對第一機率向量及第二機率向量進行機率融合,藉以產生用以決定輸入資料的分類的估測機率向量ev0。
在一實施例中,融合層850可具有一分類閾值。分類閾值用以判斷資訊量不足以判定輸入資料之分類的估測機率向量ev0。舉例來說,若估測機率向量ev0中的所有元素均小於分類閾 值,則融合層850將判定估測機率向量ev0涵蓋的資訊量還不足夠決定輸入資料的分類。因此,融合層850可選擇不輸出估測機率向量ev0。
假設涵蓋了裁切部位8301及裁切部位8302等兩個裁切部位之資訊的估測機率向量ev0的所有元素均小於分類閾值,則裁切層830可進一步地裁切特徵圖以產生特徵圖的第三個裁切部位:裁切部位8303。接著,分類器843可接收裁切部位8303,並且根據裁切部位8303產生第三機率向量,其中分類器841的權重被分享給分類器843。在獲得第三機率向量後,融合層850可對第一機率向量、第二機率向量以及第三機率向量進行機率融合,藉以產生第二估測機率向量(即:更新後的估測機率向量ev0)。若第二估測機率向量中的所有元素仍都小於分類閾值,則可再以增加裁切部位的方式獲得另一個新的估測機率向量(即:更新後的第二估測機率向量),直到所述新的估測機率向量中存在高於分類閾值的元素為止。
回到圖8C,在一實施例中,在分類裝置8的儲存媒體8000中的裁切層830可以逐步地增加裁切部位,而非直接將特徵圖裁切為非常多個裁切部位。如此,可以節約分類裝置8耗用的運算量。舉例來說,裁切層830可自神經網路820接收特徵圖,並裁切特徵圖以產生特徵圖的裁切部位8301及裁切部位8302。接著,平均池化層8410可根據裁切部位8301產生特徵向量f1,並且平均池化層8420可根據裁切部位8302產生特徵向量f2。接著,分 類器860可根據特徵向量f1及特徵向量f2產生分別對應於特徵向量f1(或裁切部位8301)及特徵向量f2(或裁切部位8302)的2個機率向量。接著,融合層850可對分類器860產生的2個機率向量進行機率融合,藉以產生用以決定輸入資料的分類的估測機率向量ev'。
在一實施例中,融合層850可具有一分類閾值。分類閾值用以判斷資訊量不足以判定輸入資料之分類的估測機率向量ev'。舉例來說,若估測機率向量ev'中的所有元素均小於分類閾值,則融合層850將判定估測機率向量ev'涵蓋的資訊量還不足夠決定輸入資料的分類。因此,融合層850可選擇不輸出估測機率向量ev'。
舉例來說,假設涵蓋了裁切部位8301及裁切部位8302等兩個裁切部位之資訊的估測機率向量ev'的所有元素均小於分類閾值,則裁切層830可進一步地裁切特徵圖以產生特徵圖的第三個裁切部位:裁切部位8303。接著,平均池化層8430可根據裁切部位8303產生特徵向量f3。接著,分類器860可根據特徵向量f1、f2及f3產生分別對應於特徵向量f1(或裁切部位8301)、特徵向量f2(或裁切部位8302)及特徵向量f3(或裁切部位8303)的3個機率向量。接著,融合層850可對分類器860產生的3個機率向量進行機率融合,藉以產生第二估測機率向量(即:更新後的估測機率向量ev')。若第二估測機率向量中的所有元素仍都小於分類閾值,則可再以增加裁切部位的方式獲得另一個新的估測機 率向量(即:更新後的第二估測機率向量),直到所述新的估測機率向量中存在高於分類閾值的元素為止。
圖10根據圖8A實施例的分類裝置8繪示逐步地增加裁切部位的分類方法1000的流程圖。在執行步驟S1001之前,可先執行圖9實施例的步驟S901至S906以取得對應第一機率向量及第二機率向量的估測機率向量。在步驟S1001,比較估測機率向量中是否存在大於分類閾值的元素。若為是,則進入步驟S1005,輸出用以決定輸入資料的分類的估測機率向量。若為否,則進入步驟S1002。在步驟S1002,裁切特徵圖以產生特徵圖的第三裁切部位。在步驟S1003,輸入第三裁切部位至第三分類器以產生第三機率向量,其中第一分類器的權重被分享給第三分類器。在步驟S1004,對第一機率向量、第二機率向量及第三機率向量進行機率融合,藉以更新估測機率向量。在更新估測機率向量之後,可重新進入步驟S1001,比較估測機率向量中是否存在大於分類閾值的元素。
在一實施例中,本揭露的分類裝置8還可以逐步地增加所應用的神經網路數量。圖11根據本揭露的實施例繪示分類裝置8的另一種儲存媒體1100的示意圖。儲存媒體1100可包括輸入層810、神經網路820、裁切層830、多個分類器(分類器841、842、843、844及845)以及融合層850。為便於說明,方框1101所框選的所有元件(包括:分類器841、842、843、844、845及融合層850)合稱為第一模組1101(如圖8B所示)。第一模組1101中 的各元件的功能已詳述於圖8B的實施例,故不再贅述。熟習相關技藝者當知,本揭露的輸入層410、神經網路420、裁切層430以及分類器440也可以是以硬體電路的方式實現,而非以儲存於儲存媒體400中的模組的方式實現,本揭露不限於此。
在本揭露中,神經網路820可例如是卷積神經網路。神經網路820可包括X個由層形成的第一群組,其中所述層可以是指卷積神經網路的卷積層。在本實施例中,所述X個由層形成的第一群組包括第一群組821、822、823及824,其中第一群組的數量X可以是任意的整數,本揭露不限於此。第一模組1101的融合層850可產生對應於神經網路820的第一估測機率向量ev1。若第一估測機率向量ev1的所有元素均小於分類閾值,則分類裝置8(或儲存媒體1100)可增加所應用的神經網路。
具體來說,儲存媒體1100還可以包括神經網路1120、裁切層1130、第二模組1102以及最終融合層1170,其中第二模組1102的功能與構造與第一模組1101相同。
神經網路1120可包括Y個由層形成的第一群組821及822以及額外(X-Y)個由層形成的第二群組1123及1124,其中所述Y個由層形成的第一群組821及822包含於所述X由層形成的第一群組821、822、823及824,X>Y
Figure 107132968-A0305-02-0029-17
1並且X及Y是整數。在一實施例中,所述X個由層形成的第一群組(例如:第一群組821、822、823及824)對應的所述Y個由層形成的第一群組(例如:第一群組821、822)是所述X個由層形成的第一群組中的第 一個群組至所述X個由層形成的第一群組中的第Y個群組。
在一實施例中,所述第二群組(例如:第二群組1123或1124)中的層的總數不同於所述第一群組(例如:第一群組821、822、823或824)中的層的總數。
在一實施例中,所述第二群組(例如:第二群組1123或1124)中的層的總數小於所述第一群組(例如:第一群組821、822、823或824)中的層的總數。
在一實施例中,所述第二神經網路(例如:神經網路1120)中的第N個群組(可以是第一群組或第二群組)的層的總數小於所述第一神經網路(例如:神經網路820)中的第N個群組(可以是第一群組或第二群組)的層的總數,其中N>Y,且N是整數Y+1、Y+2、...、X中的至少一者。
裁切層1130可自神經網路1120接收第二特徵圖,並且裁切第二特徵圖以產生第二特徵圖的多個裁切部位。
第二模組1102包括多個分類器(分類器1141、1142、1143、1144及1145),所述多個分類器可接收第二特徵圖的多個裁切部位,並且根據第二特徵圖的多個裁切部位產生多個機率向量。
第二模組1102還包括融合層1150。融合層1150可自所述多個分類器(分類器1141、1142、1143、1144及1145)接收所述多個機率向量,藉以產生第二估測機率向量ev2。
在獲得第二估測機率向量ev2後,第一估測機率向量ev1 與第二估測機率向量ev2會被輸入至最終融合層1170。最終融合層1170可對第一估測機率向量ev1及第二估測機率向量ev2進行機率融合,藉以產生最終估測機率向量fev。最終融合層1170所實施的機率融合可例如是權重平均融合法、最大值融合法及隨機法的其中之一,本揭露不限於此。最終融合層1170可具有與融合層850相同的分類閾值。
在產生最終估測機率向量fev後,若最終估測機率向量fev的所有元素仍全都小於分類閾值,則分類裝置8(或儲存媒體1100)可再以增加神經網路(例如:增加神經網路1120及其對應的裁切層1230與第三模組1103,其中第三模組1103的功能與構造與第一模組1101相同)的方式更新最終估測機率向量,直到最終估測機率向量中存在高於分類閾值的元素為止。
需注意的是,圖11繪示的儲存媒體1100應用了三個神經網路(神經網路820、1120以及1220),但所應用之神經網路的數量可由使用者依照本揭露之概念自行調整。圖12根據圖11實施例的儲存媒體1100繪示逐步地增加神經網路的分類方法1200的流程圖。在執行步驟S1201之前,可先執行圖9實施例的步驟S901至S906以取得對應第一機率向量及第二機率向量的估測機率向量。在步驟S1201,比較估測機率向量中是否存在大於分類閾值的元素。若為是,則進入步驟S1207,輸出用以決定輸入資料的分類的估測機率向量(例如:圖11中的第一機率向量ev1)。若為否,則進入步驟S1202。在步驟S1202,由第二神經網路根據輸入 資料輸出第二特徵圖。在步驟S1203,裁切第二特徵圖以產生第二特徵圖的多個裁切部位。在步驟S1204,根據多個裁切部位產生多個機率向量。在步驟S1205,對多個機率向量進行機率融合,藉以產生第二估測機率向量。在步驟S1206,接收估測機率向量及第二估測機率向量,並且對估測機率向量及第二估測機率向量進行機率融合,藉以產生用以決定輸入資料的分類的最終估測機率向量。在產生最終估測機率向量之後,可重新進入步驟S1201,比較最終估測機率向量中是否存在大於分類閾值的元素。當最終估測機率向量中存在大於分類閾值的元素時,在步驟S1207中,輸出用以決定輸入資料的分類的最終估測機率向量(例如:圖11中的第一機率向量fev)。
圖13根據本揭露的實施例中繪示具有多重裁切架構的基於神經網路之分類裝置13的示意圖。分類裝置13適用於對物品的外觀瑕疵進行分類。分類裝置13可包括自動光學檢測設備130及伺服器1300。自動光學檢測設備130可取得物品的圖像資料。視使用情境的不同,設備130也可例如是自動外觀檢測設備等可取得物品的圖像資料的設備,本揭露不限於此。伺服器1300可包括處理器80及儲存媒體800(或儲存媒體8000、1100)。伺服器1300耦接自動光學檢測設備130並且接收所述圖像資料已作為輸入資料。處理器80及儲存媒體800(或儲存媒體8000、1100)可根據輸入資料產生用以決定所述輸入資料的分類的估測機率向量,如圖8B的實施例所描述。
本揭露的應用領域廣泛,除了可用於辨識一般物體或自然影像外,還可應用於諸如工業視覺(例如:辨識產品瑕疵、工件種類或產品外觀等)、醫學輔助診斷(例如:辨識良性/惡性腫瘤醫學影像、視網膜病變醫學影像或肺癌醫學影像等)、自動光學檢測(AOI)以及自動外觀檢測(AVI)等領域。自動光學檢測是高速度、高精確度的光學影像檢測裝置,其可運用「機械視覺」作為對物體進行檢測,並且可代替人類的眼睛、大腦或手部動作,藉以檢測產品的質量或是否存在缺陷等。AOI技術屬於一種非接觸式的檢測技術,其可在製程中利用自動光學檢測設備得成品(例如:晶圓)或半成品的表面狀態,再以影像處理技術來檢測出異物或圖案異常等瑕疵。AOI技術可改良傳統以人力使用光學儀器來進行檢測的缺點。
表四、表五及表六顯示本揭露的分類裝置(例如:具有多重裁切架構的基於神經網路之儲存媒體800)與一般傳統之基於神經網路的分類裝置(基準)之間的比較。
表四中,各分類裝置所使用的神經網路模型為ResNet-269-v2。所使用的實驗資料集為ImageNet(ILSVRC-2012)Validation Dataset(共50,000張圖像、1000種分類)。所使用的實施方案是基於深度學習框架(deep learning framework)Caffe(但不需重新訓練分類器的權重)。
Figure 107132968-A0305-02-0033-6
Figure 107132968-A0305-02-0034-8
表五中,各分類裝置所使用的神經網路模型為ResNetXt-101-64x4d。所使用的實驗資料集為ImageNet(ILSVRC-2012)Validation Dataset(共50,000張圖像、1000種分類)。所使用的實施方案是基於深度學習框架Caffe(但不需重新訓練分類器的權重)。
Figure 107132968-A0305-02-0034-11
表六中,各分類裝置所使用的神經網路模型為Inception-v4。所使用的實驗資料集為ImageNet(ILSVRC-2012)Validation Dataset(共50,000張圖像、1000種分類)。所使用的實施方案是基於深度學習框架Caffe(但不需重新訓練分類器的權重)。
Figure 107132968-A0305-02-0035-12
本揭露的分類裝置也可用以辨識工業視覺資料集。表七顯示本揭露的分類裝置(例如:具有多重裁切架構的基於神經網路之儲存媒體800)與一般傳統之基於神經網路的分類裝置(基準)之間的比較。表七中,各分類裝置所使用的神經網路模型為DFB-WideResNet-3-Branch。所使用的實驗資料集為「資料集"_DS_180112-R5"」(動態隨機存取記憶體(Dynamic Random Access Memory,DRAM)之晶圓的外觀圖像,如表八所示)。所使用的實施方案是基於深度學習框架Caffe(但不需重新訓練分類器的權重)。
Figure 107132968-A0305-02-0035-13
Figure 107132968-A0305-02-0035-14
Figure 107132968-A0305-02-0036-16
綜上所述,本揭露的分類裝置可以在僅增加些許運算量以及不重新訓練神經網路模型的前提下,改善分類的錯誤率。分類裝置可透過對特徵圖進行裁切以在輸入資料未增加的情況下強化輸入資料的多樣性,從而改善應用神經網路進行分類的錯誤率。通過權重共享機制,當應用已訓練完成的神經網路及其分類器至本揭露之具有多重裁切特性的分類裝置時,將不需要重新訓練神經網路及其分類器。如此,可降低用於訓練的時間成本。另一方面,分類裝置還可以在分類的結果不顯著時增加特徵圖的裁切部位,逐步地改善分類的效果直至估測分數向量中的其中之一個元素大於分類閾值為止。除此之外,分類裝置還可以透過增加神經網路分枝的方式達到改善分類之錯誤率的效果。
雖然本揭露已以實施例揭露如上,然其並非用以限定本揭露,任何所屬技術領域中具有通常知識者,在不脫離本揭露的精神和範圍內,當可作些許的更動與潤飾,故本揭露的保護範圍當視後附的申請專利範圍所界定者為準。
1101:第一模組
800:儲存媒體
810:輸入層
820:神經網路
830:裁切層
8301、8302、8303、8304、8305:裁切部位
841、842、843、844、845:分類器
8411、8421、8431、8441、8451:平均池化層
8412、8422、8432、8442、8452:分類層
8413、8423、8433、8443、8453:正規化指數函數層
850:融合層

Claims (23)

  1. 一種基於神經網路的分類裝置,所述分類裝置包括: 儲存媒體,記錄多個模組;以及 處理器,耦接所述儲存媒體,所述處理器存取及執行所述儲存媒體的所述多個模組,所述多個模組包括: 神經網路,根據輸入資料產生特徵圖; 裁切層,裁切所述特徵圖以產生所述特徵圖的第一裁切部位及第二裁切部位; 第一分類器,並且根據所述第一裁切部位產生第一機率向量; 第二分類器,根據所述第二裁切部位產生第二機率向量,其中所述第一分類器的權重被分享給所述第二分類器;以及 融合層,對所述第一機率向量及所述第二機率向量進行機率融合,藉以產生用以決定所述輸入資料的分類的估測機率向量。
  2. 如申請專利範圍第1項所述的分類裝置,其中若所述估測機率向量的所有元素均小於分類閾值,則所述裁切層裁切所述特徵圖以產生所述特徵圖的第三裁切部位,並且所述分類裝置更包括: 第三分類器,根據所述第三裁切部位產生第三機率向量,其中 所述第一分類器的權重被分享給所述第三分類器;以及 所述融合層對所述第一機率向量、所述第二機率向量及所述第三機率向量進行機率融合,藉以產生用以決定所述輸入資料的所述分類的第二估測機率向量。
  3. 如申請專利範圍第1項所述的分類裝置,其中所述神經網路為卷積神經網路。
  4. 如申請專利範圍第3項所述的分類裝置,其中所述神經網路包括X個由層形成的第一群組,並且所述分類裝置更包括: 第二神經網路,包括Y個由層形成的第一群組以及額外(X-Y)個由層形成的第二群組,其中所述Y個由層形成的第一群組包含於所述X由層形成的第一群組,X > Y ≥ 1並且X及Y是整數。
  5. 如申請專利範圍第4項所述的分類裝置,其中與所述X個由層形成的第一群組對應的所述Y個由層形成的第一群組是所述X個由層形成的第一群組中的第一個群組至所述X個由層形成的第一群組中的第Y個群組。
  6. 如申請專利範圍第4項所述的分類裝置,其中若所述估測機率向量的所有元素均小於分類閾值,則所述第二神經網路根據所述輸入資料輸出第二特徵圖,並且所述分類裝置更包括: 第二裁切層,裁切所述第二特徵圖以產生所述第二特徵圖的多個裁切部位; 多個分類器,根據所述多個裁切部位產生多個機率向量; 第二融合層,對所述多個機率向量進行機率融合,藉以產生第二估測機率向量;以及 最終融合層,對所述估測機率向量及所述第二估測機率向量進行機率融合,藉以產生用以決定所述輸入資料的所述分類的最終估測機率向量。
  7. 如申請專利範圍第1項所述的分類裝置,其中所述第一分類器的權重被分享給所述第二分類器,包括: 應用與所述第一分類器的所述權重相同的權重於所述第二分類器。
  8. 如申請專利範圍第1項所述的分類裝置,其中所述第一分類器包括: 池化層,接收多個通道的所述第一裁切部位,藉以產生分別對應所述多個通道的多個特徵點; 分類層,將所述多個特徵點轉換為分數向量,其中所述分數向量中的每個元素對應一種分類;以及 正規化指數函數層,對所述分數向量進行正規化,藉以產生所述第一機率向量,其中所述第一機率向量中的每個元素對應一種分類。
  9. 如申請專利範圍第1項所述的分類裝置,其中所述融合層根據包括下列中的一者進行所述機率融合: 方法一:使用相同的權重係數來對所述第一機率向量及所述第二機率向量取平均以產生所述估測機率向量; 方法二:使用不同的權重係數來對所述第一機率向量及所述第二機率向量取平均以產生所述估測機率向量; 方法三:從所述第一機率向量及所述第二機率向量中選出具有最大值的元素,並將所述元素對應的機率向量決定為所述估測機率向量; 方法四:隨機地從所述第一機率向量及所述第二機率向量中選出一者以作為所述估測機率向量;以及 方法五:隨機地丟棄所述第一機率向量及所述第二機率向量中的預設數目的第二元素,並接著執行方法一至方法四中的一者,其中所述預設數目的所述第二元素分別對應於多個分類中的一者。
  10. 如申請專利範圍第1項所述的分類裝置,其中所述輸入資料包括圖像資料以及所述圖像資料的鏡像圖像資料。
  11. 如申請專利範圍第10項所述的分類裝置,其中所述圖像資料以與所述鏡像圖像資料連接以成為新的輸入資料。
  12. 一種基於神經網路的分類方法,所述分類方法包括: 獲得神經網路以及第一分類器; 將輸入資料輸入至所述神經網路以產生特徵圖; 裁切所述特徵圖以產生所述特徵圖的第一裁切部位及第二裁切部位; 輸入所述第一裁切部位至所述第一分類器以產生第一機率向量; 輸入所述第二裁切部位至第二分類器以產生第二機率向量,其中所述第一分類器的權重被分享給所述第二分類器;以及 對所述第一機率向量及所述第二機率向量進行機率融合,藉以產生用以決定所述輸入資料的分類的估測機率向量。
  13. 如申請專利範圍第12項所述的分類方法,其中若所述估測機率向量的所有元素均小於分類閾值,則所述分類方法更包括: 裁切所述特徵圖以產生所述特徵圖的第三裁切部位; 輸入所述第三裁切部位至第三分類器以產生第三機率向量,其中所述第一分類器的權重被分享給所述第三分類器;以及 對所述第一機率向量、所述第二機率向量及所述第三機率向量進行機率融合,藉以產生用以決定所述輸入資料的所述分類的第二估測機率向量。
  14. 如申請專利範圍第12項所述的分類方法,其中所述神經網路為卷積神經網路。
  15. 如申請專利範圍第14項所述的分類方法,其中所述神經網路包括X個由層形成的第一群組,且所述分類方法更包括: 獲得第二神經網路,所述第二神經網路包括Y個由層形成的第一群組以及額外(X-Y)個由層形成的第二群組,其中所述Y個由層形成的第一群組包含於所述X由層形成的第一群組,X > Y ≥ 1並且X及Y是整數。
  16. 如申請專利範圍第15項所述的分類方法,其中與所述X個由層形成的第一群組對應的所述Y個由層形成的第一群組是所述X個由層形成的第一群組中的第一個群組至所述X個由層形成的第一群組中的第Y個群組。
  17. 如申請專利範圍第15項所述的分類方法,其中若所述估測機率向量的所有元素均小於分類閾值,則所述分類方法更包括: 將所述輸入資料輸入至所述第二神經網路以產生第二特徵圖; 裁切所述第二特徵圖以產生所述第二特徵圖的多個裁切部位; 輸入所述多個裁切部位至多個分類器以產生多個機率向量; 對所述多個機率向量進行機率融合,藉以產生第二估測機率向量;以及 對所述估測機率向量及所述第二估測機率向量進行機率融合,藉以產生用以決定所述輸入資料的所述分類的最終估測機率向量。
  18. 如申請專利範圍第12項所述的分類方法,其中所述第一分類器的權重被分享給所述第二分類器,包括: 應用與所述第一分類器的所述權重相同的權重於所述第二分類器。
  19. 如申請專利範圍第12項所述的分類方法,其中所述第一分類器包括: 池化層,接收多個通道的所述第一裁切部位,藉以產生分別對應所述多個通道的多個特徵點; 分類層,將所述多個特徵點轉換為分數向量,其中所述分數向量中的每個元素對應一種分類;以及 正規化指數函數層,對所述分數向量進行正規化,藉以產生所述第一機率向量,其中所述第一機率向量中的每個元素對應一種分類。
  20. 如申請專利範圍第12項所述的分類方法,其中所述機率融合包括下列中的一者: 方法一:使用相同的權重係數來對所述第一機率向量及所述第二機率向量取平均以產生所述估測機率向量; 方法二:使用不同的權重係數來對所述第一機率向量及所述第二機率向量取平均以產生所述估測機率向量; 方法三:從所述第一機率向量及所述第二機率向量中選出具有最大值的元素,並將所述元素對應的機率向量決定為所述估測機率向量; 方法四:隨機地從所述第一機率向量及所述第二機率向量中選出一者以作為所述估測機率向量;以及 方法五:隨機地丟棄所述第一機率向量及所述第二機率向量中的預設數目的第二元素,並接著執行方法一至方法四中的一者,其中所述預設數目的所述第二元素分別對應於多個分類中的一者。
  21. 如申請專利範圍第12項所述的分類方法,其中所述輸入資料包括圖像資料以及該圖像資料的鏡像圖像資料。
  22. 如申請專利範圍第21項所述的方法,其中所述圖像資料以與所述鏡像圖像資料連接以成為新的輸入資料。
  23. 一種基於神經網路的分類裝置,適用於對物品的外觀瑕疵進行分類,所述分類裝置包括: 自動光學檢測設備,取得所述物品的圖像資料;以及 伺服器,包括儲存媒體及處理器,所述伺服器耦接所述自動光學檢測設備並且接收所述圖像資料,其中 所述儲存媒體記錄多個模組;以及 所述處理器耦接所述儲存媒體,並且存取及執行所述儲存媒體的所述多個模組,所述多個模組包括: 神經網路,根據所述圖像資料產生特徵圖; 裁切層,裁切所述特徵圖以產生所述特徵圖的第一裁切部位及第二裁切部位; 第一分類器,並且根據所述第一裁切部位產生第一機率向量; 第二分類器,根據所述第二裁切部位產生第二機率向量,其中所述第一分類器的權重被分享給所述第二分類器;以及 融合層,對所述第一機率向量及所述第二機率向量進行機率融合,藉以產生用以決定所述圖像資料的分類的估測機率向量。
TW107132968A 2018-09-19 2018-09-19 基於神經網路的分類方法及其分類裝置 TWI691930B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW107132968A TWI691930B (zh) 2018-09-19 2018-09-19 基於神經網路的分類方法及其分類裝置
CN201811309647.7A CN110929745B (zh) 2018-09-19 2018-11-05 基于神经网络的分类方法及其分类装置
US16/182,619 US10902314B2 (en) 2018-09-19 2018-11-07 Neural network-based classification method and classification device thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107132968A TWI691930B (zh) 2018-09-19 2018-09-19 基於神經網路的分類方法及其分類裝置

Publications (2)

Publication Number Publication Date
TW202013309A TW202013309A (zh) 2020-04-01
TWI691930B true TWI691930B (zh) 2020-04-21

Family

ID=69773666

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107132968A TWI691930B (zh) 2018-09-19 2018-09-19 基於神經網路的分類方法及其分類裝置

Country Status (3)

Country Link
US (1) US10902314B2 (zh)
CN (1) CN110929745B (zh)
TW (1) TWI691930B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI824796B (zh) * 2022-10-26 2023-12-01 鴻海精密工業股份有限公司 圖像分類方法、電腦設備及儲存介質

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10503998B2 (en) 2016-11-07 2019-12-10 Gracenote, Inc. Recurrent deep neural network system for detecting overlays in images
TWI709188B (zh) * 2018-09-27 2020-11-01 財團法人工業技術研究院 基於機率融合的分類器、分類方法及分類系統
US10785681B1 (en) * 2019-05-31 2020-09-22 Huawei Technologies Co., Ltd. Methods and apparatuses for feature-driven machine-to-machine communications
EP3748539A1 (en) * 2019-06-03 2020-12-09 Robert Bosch GmbH Device and method of digital image content recognition, training of the same
CN111507408B (zh) * 2020-04-17 2022-11-04 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN111832443B (zh) * 2020-06-28 2022-04-12 华中科技大学 一种施工违规行为检测模型的构建方法及其应用
CN111507319A (zh) * 2020-07-01 2020-08-07 南京信息工程大学 一种基于深度融合卷积网络模型的农作物病害识别方法
CN112149694B (zh) * 2020-08-28 2024-04-05 特斯联科技集团有限公司 一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端
TWI790788B (zh) * 2020-10-23 2023-01-21 國立臺灣大學 醫療影像分析系統及方法
US20220147799A1 (en) * 2020-11-12 2022-05-12 Samsung Electronics Co., Ltd. Neural computer including image sensor capable of controlling photocurrent
US20240108276A1 (en) * 2021-02-01 2024-04-04 The University Of Chicago Systems and Methods for Identifying Progression of Hypoxic-Ischemic Brain Injury
CN113255718B (zh) * 2021-04-01 2022-07-01 透彻影像科技(南京)有限公司 一种基于深度学习级联网络方法的宫颈细胞辅助诊断方法
CN113780463B (zh) * 2021-09-24 2023-09-05 北京航空航天大学 一种基于深度神经网络的多头归一化长尾分类方法
CN116777567A (zh) * 2023-08-17 2023-09-19 山东恒诺尚诚信息科技有限公司 一种基于人工智能的订单生成方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200529794A (en) * 2004-03-03 2005-09-16 Chi-Wen Hsieh Method of automatically evaluating age of bone and skeleton via hand X-ray photograph
TW201234042A (en) * 2011-02-02 2012-08-16 Nat Univ Tsing Hua Method of enhancing 3D image information density
CN106844739A (zh) * 2017-02-14 2017-06-13 中国科学院遥感与数字地球研究所 一种基于神经网络协同训练的遥感图像变化信息检索方法
TW201732690A (zh) * 2015-12-22 2017-09-16 應用材料以色列公司 半導體試樣的基於深度學習之檢查的方法及其系統
CN107358176A (zh) * 2017-06-26 2017-11-17 武汉大学 基于高分遥感影像区域信息和卷积神经网络的分类方法
TW201800057A (zh) * 2016-06-20 2018-01-01 蝴蝶網路公司 用於協助使用者操作超音波裝置的自動化影像獲取

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW374889B (en) 1999-03-03 1999-11-21 Gemintek Corp Vehicle parking fare rating report and the monitoring system
US7194134B2 (en) * 2001-01-02 2007-03-20 Microsoft Corporation Hierarchical, probabilistic, localized, semantic image classifier
EP2297203A1 (en) 2008-06-30 2011-03-23 Novo Nordisk A/S Anti-human interleukin-20 antibodies
US11410438B2 (en) * 2010-06-07 2022-08-09 Affectiva, Inc. Image analysis using a semiconductor processor for facial evaluation in vehicles
US9129161B2 (en) * 2013-05-31 2015-09-08 Toyota Jidosha Kabushiki Kaisha Computationally efficient scene classification
CN104346622A (zh) 2013-07-31 2015-02-11 富士通株式会社 卷积神经网络分类器及其分类方法和训练方法
US9245191B2 (en) * 2013-09-05 2016-01-26 Ebay, Inc. System and method for scene text recognition
US9978013B2 (en) 2014-07-16 2018-05-22 Deep Learning Analytics, LLC Systems and methods for recognizing objects in radar imagery
EP3158498A4 (en) 2014-11-15 2017-08-16 Beijing Kuangshi Technology Co. Ltd. Face detection using machine learning
US10650508B2 (en) 2014-12-03 2020-05-12 Kla-Tencor Corporation Automatic defect classification without sampling and feature selection
US9779330B2 (en) 2014-12-26 2017-10-03 Deere & Company Grain quality monitoring
EP3295368A1 (en) 2015-05-13 2018-03-21 Google LLC Deepstereo: learning to predict new views from real world imagery
CN106874921B (zh) * 2015-12-11 2020-12-04 清华大学 图像分类方法和装置
US10372968B2 (en) 2016-01-22 2019-08-06 Qualcomm Incorporated Object-focused active three-dimensional reconstruction
GB2549554A (en) 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image
EP3465537A2 (en) 2016-05-25 2019-04-10 Metail Limited Method and system for predicting garment attributes using deep learning
CN106295678B (zh) 2016-07-27 2020-03-06 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
US10402697B2 (en) * 2016-08-01 2019-09-03 Nvidia Corporation Fusing multilayer and multimodal deep neural networks for video classification
WO2018165753A1 (en) * 2017-03-14 2018-09-20 University Of Manitoba Structure defect detection using machine learning algorithms
US10147200B2 (en) * 2017-03-21 2018-12-04 Axis Ab Quality measurement weighting of image objects
CN107316058A (zh) 2017-06-15 2017-11-03 国家新闻出版广电总局广播科学研究院 通过提高目标分类和定位准确度改善目标检测性能的方法
US10572963B1 (en) * 2017-07-14 2020-02-25 Synapse Technology Corporation Detection of items
CN107481295B (zh) 2017-08-14 2020-06-30 哈尔滨工业大学 基于动态字节长度分配的卷积神经网络的图像压缩系统
WO2019060787A1 (en) * 2017-09-21 2019-03-28 Lexset.Ai Llc DETECTION OF AT LEAST ONE OBJECT IN AN IMAGE, OR A SEQUENCE OF IMAGES, AND DETERMINATION OF A CATEGORY AND AT LEAST ONE DESCRIPTOR FOR EACH OF THESE OBJECTS, GENERATION OF SYNTHETIC LEARNING DATA, AND FORMATION OF A NEURONAL NETWORK USING SYNTHETIC LEARNING DATA
CN108229341B (zh) * 2017-12-15 2021-08-06 北京市商汤科技开发有限公司 分类方法和装置、电子设备、计算机存储介质
CN108319968A (zh) * 2017-12-27 2018-07-24 中国农业大学 一种基于模型融合的果蔬图像分类识别方法及系统
CN108416769B (zh) * 2018-03-02 2021-06-04 成都斯斐德科技有限公司 基于预处理的ivoct图像易损斑块自动检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200529794A (en) * 2004-03-03 2005-09-16 Chi-Wen Hsieh Method of automatically evaluating age of bone and skeleton via hand X-ray photograph
TW201234042A (en) * 2011-02-02 2012-08-16 Nat Univ Tsing Hua Method of enhancing 3D image information density
TW201732690A (zh) * 2015-12-22 2017-09-16 應用材料以色列公司 半導體試樣的基於深度學習之檢查的方法及其系統
TW201800057A (zh) * 2016-06-20 2018-01-01 蝴蝶網路公司 用於協助使用者操作超音波裝置的自動化影像獲取
CN106844739A (zh) * 2017-02-14 2017-06-13 中国科学院遥感与数字地球研究所 一种基于神经网络协同训练的遥感图像变化信息检索方法
CN107358176A (zh) * 2017-06-26 2017-11-17 武汉大学 基于高分遥感影像区域信息和卷积神经网络的分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI824796B (zh) * 2022-10-26 2023-12-01 鴻海精密工業股份有限公司 圖像分類方法、電腦設備及儲存介質

Also Published As

Publication number Publication date
US10902314B2 (en) 2021-01-26
CN110929745B (zh) 2023-04-14
TW202013309A (zh) 2020-04-01
US20200090028A1 (en) 2020-03-19
CN110929745A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
TWI691930B (zh) 基於神經網路的分類方法及其分類裝置
CN107038751B (zh) 从2d图像进行3d建模对象的识别的方法、介质与系统
CN107209861B (zh) 使用否定数据优化多类别多媒体数据分类
CN108446689B (zh) 一种人脸识别方法
WO2019233166A1 (zh) 一种表面缺陷检测方法、装置及电子设备
CN112801169B (zh) 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质
TWI709188B (zh) 基於機率融合的分類器、分類方法及分類系統
JP2015506026A (ja) 画像分類
JPWO2019026104A1 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN112052868A (zh) 模型训练方法、图像相似度度量方法、终端及存储介质
CN111325237B (zh) 一种基于注意力交互机制的图像识别方法
CN115049952B (zh) 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法
CN114187467B (zh) 基于cnn模型的肺结节良恶性分类方法及装置
Sreela et al. Action recognition in still images using residual neural network features
Wasi et al. Arbex: Attentive feature extraction with reliability balancing for robust facial expression learning
CN113850811B (zh) 基于多尺度聚类和掩码打分的三维点云实例分割方法
CN106980878B (zh) 三维模型几何风格的确定方法及装置
KR102178238B1 (ko) 회전 커널을 이용한 머신러닝 기반 결함 분류 장치 및 방법
JP6991960B2 (ja) 画像認識装置、画像認識方法及びプログラム
CN108446602B (zh) 一种用于人脸检测的装置和方法
CN115984671A (zh) 模型在线更新方法、装置、电子设备及可读存储介质
Al-Taani et al. Automatic detection of pneumonia using concatenated convolutional neural network
KR102504319B1 (ko) 영상 객체 속성 분류 장치 및 방법
CN115294405A (zh) 农作物病害分类模型的构建方法、装置、设备及介质