TW201903649A - 辨識系統、辨識方法及非暫態電腦可讀取媒體 - Google Patents
辨識系統、辨識方法及非暫態電腦可讀取媒體 Download PDFInfo
- Publication number
- TW201903649A TW201903649A TW106119094A TW106119094A TW201903649A TW 201903649 A TW201903649 A TW 201903649A TW 106119094 A TW106119094 A TW 106119094A TW 106119094 A TW106119094 A TW 106119094A TW 201903649 A TW201903649 A TW 201903649A
- Authority
- TW
- Taiwan
- Prior art keywords
- result
- identification
- calculation result
- server
- equal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004364 calculation method Methods 0.000 claims abstract description 119
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 238000011176 pooling Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 11
- 238000003384 imaging method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 210000005036 nerve Anatomy 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 31
- 239000011159 matrix material Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00204—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
- H04N1/00244—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server with a server, e.g. an internet server
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/95—Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00204—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
- H04N1/00209—Transmitting or receiving image data, e.g. facsimile data, via a computer, e.g. using e-mail, a computer network, the internet, I-fax
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0084—Digital still camera
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Image Analysis (AREA)
Abstract
一種辨識系統包含一攝像裝置以及一伺服器。攝像裝置耦接伺服器。攝像裝置基於一影像資料以及一卷積神經網路產生第M層計算結果。攝像裝置傳送關聯於第M層計算結果的一特徵資訊。M為等於或大於1的一正整數,M小於或等於N。N為一預設正整數。伺服器接收特徵資訊。當M小於N時,伺服器基於特徵資訊以及卷積神經網路以疊代方式產生第K層計算結果。K為大於M的一正整數。K小於或等於N。當K等於N時,伺服器基於第K層計算結果以及一第一辨識模型產生關聯於影像資料的一第一辨識結果,以對影像資料進行辨識。
Description
本揭示中所述實施例內容是有關於一種辨識技術,且特別是有關於一種辨識系統、辨識方法及非暫態電腦可讀取媒體。
隨著影像技術的發展,針對影像的各種處理(例如:物件偵測)已被發展出來。在現有技術中,影像資料會從相機傳送至伺服器,以進行後續的處理或辨識。在傳送影像資料的過程中,可能會發生影像資料外洩的問題。
本揭示內容提出一種辨識系統、辨識方法及非暫態電腦可讀取媒體。
本揭示內容之一實施方式係關於一種辨識系統。辨識系統包含一攝像裝置以及一伺服器。攝像裝置耦接 伺服器。攝像裝置用以基於一影像資料以及一卷積神經網路(convolutional neural network)產生一第M層計算結果。攝像裝置傳送關聯於第M層計算結果的一特徵資訊。M為等於或大於1的一正整數,M小於或等於N。N為一預設正整數。伺服器接收特徵資訊。當M小於N時,伺服器基於特徵資訊以及卷積神經網路以疊代(iteration)方式產生一第K層計算結果。K為大於M的一正整數。K小於或等於N。當K等於N時,伺服器基於第K層計算結果以及一第一辨識模型產生關聯於影像資料的一第一辨識結果,以對影像資料進行辨識。
在一些實施例中,當M等於N時,第M層計算結果用以作為特徵資訊。伺服器基於特徵資訊以及第一辨識模型產生第一辨識結果。
在一些實施例中,伺服器更用以基於第一辨識結果以及一第二辨識模型產生關聯於影像資料的一第二辨識結果,且第二辨識模型不同於第一辨識模型。
在一些實施例中,第M層計算結果包含一卷積(convolution)結果、一池化(pooling)結果、一活化(activation)結果或一反卷積(deconvolution)結果。
在一些實施例中,攝像裝置更用以判斷一臨限時間是否滿足。當M小於N且臨限時間滿足時,攝像裝置傳送第M層計算結果至伺服器作為特徵資訊。當M小於N且臨限時間未滿足時,攝像裝置基於第M層計算結果以及卷積神經網路進行疊代演算。
本揭示內容之另一實施方式係關於一種辨識方法。辨識方法包含:藉由一攝像裝置基於一影像資料以及一卷積神經網路產生一第M層計算結果;藉由攝像裝置傳送關聯於第M層計算結果的一特徵資訊給一伺服器,M為等於或大於1的一正整數,M小於或等於N且N為一預設正整數;當M小於N時,藉由伺服器基於特徵資訊以及卷積神經網路以疊代方式產生一第K層計算結果,K大於M且K小於或等於N;以及當K等於N時,藉由伺服器基於第K層計算結果以及一第一辨識模型產生關聯於影像資料的一第一辨識結果,以對影像資料進行辨識。
在一些實施例中,當M等於N時,第M層計算結果用以作為特徵資訊。辨識方法更包含:當M等於N時,藉由伺服器基於特徵資訊以及第一辨識模型產生第一辨識結果。
在一些實施例中,辨識方法更包含:藉由伺服器基於第一辨識結果以及一第二辨識模型產生關聯於影像資料的一第二辨識結果。第二辨識模型不同於第一辨識模型。
在一些實施例中,第M層計算結果包含一卷積結果、一池化結果、一活化結果或一反卷積結果。
在一些實施例中,辨識方法更包含:藉由攝像裝置判斷一臨限時間是否滿足。當M小於N且臨限時間滿足時,藉由攝像裝置傳送第M層計算結果至伺服器作為特徵資訊。當M小於N且臨限時間未滿足時,藉由攝像裝置基於第 M層計算結果以及卷積神經網路進行疊代演算。
本揭示內容之另一實施方式係關於一種非暫態電腦可讀取記錄媒體。非暫態電腦可讀取記錄媒體儲存一電腦程式。電腦程式用以執行一辨識方法。辨識方法包含:基於一影像資料以及一卷積神經網路產生一第M層計算結果;傳送關聯於第M層計算結果的一特徵資訊,其中M為等於或大於1的一正整數,M小於或等於N,且N為一預設正整數;當M小於N時,基於特徵資訊以及卷積神經網路以疊代方式產生一第K層計算結果,其中K為大於M的一正整數,K小於或等於N;以及當K等於N時,基於第K層計算結果以及一第一辨識模型產生關聯於影像資料的一第一辨識結果,以對影像資料進行辨識。
綜上所述,本揭示中的辨識系統以及辨識方法,攝像裝置將特徵資訊而非影像資料傳送給伺服器。如此,可避免發生影像資料在傳送過程中發生外洩的問題。
100‧‧‧辨識系統
120‧‧‧攝像裝置
122‧‧‧處理器
140‧‧‧伺服器
142‧‧‧處理器
144‧‧‧記憶體
146‧‧‧處理器
IMG‧‧‧影像資料
FI‧‧‧特徵資訊
L1‧‧‧通訊連結
MD1‧‧‧辨識模型
MD2‧‧‧辨識模型
200‧‧‧辨識方法
S202、S204、S206、S208、S210、S212、S214、S216、S218、S220‧‧‧步驟
M1~M25‧‧‧像素值
KR‧‧‧特徵核心
K1~K9‧‧‧內容值
PL‧‧‧卷積結果
PO‧‧‧方陣
R1~R9、S1~S4‧‧‧內容值
為讓本揭示之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:第1圖是依照本揭示一些實施例所繪示的一種辨識系統的示意圖;第2圖是依照本揭示一些實施例所繪示的一種辨識方法的流程圖; 第3圖是依照本揭示一些實施例所繪示的一種卷積演算法的示意圖;以及第4圖是依照本揭示一些實施例所繪示的一種池化演算法的示意圖。
下文係舉實施例配合所附圖式作詳細說明,但所提供之實施例並非用以限制本揭示所涵蓋的範圍,而結構運作之描述非用以限制其執行之順序,任何由元件重新組合之結構,所產生具有均等功效的裝置,皆為本揭示所涵蓋的範圍。此外,圖式僅以說明為目的,並未依照原尺寸作圖。為使便於理解,下述說明中相同元件或相似元件將以相同之符號標示來說明。
另外,在全篇說明書與申請專利範圍所使用之用詞(terms),除有特別註明外,通常具有每個用詞使用在此領域中、在此揭露之內容中與特殊內容中的平常意義。某些用以描述本揭露之用詞將於下或在此說明書的別處討論,以提供本領域技術人員在有關本揭露之描述上額外的引導。
在本文中所使用的用詞『包含』、『包括』、『具有』、『含有』等等,均為開放性的用語,即意指包含但不限於。
關於本文中所使用之「耦接」,可指二或多個元件相互「直接」作實體或電性接觸,或是相互「間接」作實體 或電性接觸,亦可指二個或多個元件相互操作或動作。
請參考第1圖。第1圖是依照本揭示一實施例所繪示的一種辨識系統100的示意圖。以第1圖示例而言,辨識系統100包含攝像裝置120以及伺服器140。
在一些實施例中,攝像裝置120為網路攝影機(IP camera)、數位相機、智慧型手機、平板電腦、筆記型電腦、智慧家電或各式具有攝像功能的裝置。在一些實施例中,伺服器140為雲端伺服器或本地伺服器。
在一些實施例中,攝像裝置120耦接伺服器140。在一些實施例中,攝像裝置120透過其傳送模組(圖未示)與伺服器140建立通訊連結L1。如此,攝像裝置120與伺服器140得以透過通訊連結L1交換資料。舉例而言,攝像裝置120透過通訊連結L1傳送關聯於影像資料IMG的特徵資訊FI給伺服器140。在一些實施例中,通訊連結L1包含有線通訊連結或無線通訊連結。
在一些實施例中,攝像裝置120包含處理器122。在一些實施例中,處理器122是一中央處理器(CPU)、一微處理器、一處理電路或其他可執行指令的硬體元件。
在一些實施例中,伺服器140包含處理器142、記憶體144以及處理器146。記憶體144耦接處理器142以及處理器146。在一些實施例中,處理器142與處理器146分別是一中央處理器、一微處理器、一處理電路或其他可執行指令的硬體元件。在一些其他的實施例中,處理器142與處理器146共同形成一中央處理器、一微處理器、一處理電路 或其他可執行指令的硬體元件。在一些實施例中,記憶體144是唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶或其他可儲存資料的硬體元件。
在一些實施例中,處理器146包含或執行至少一辨識模型。以第1圖示例而言,處理器146包含或執行辨識模型MD1以及辨識模型MD2。在一些實施例中,辨識模型MD1或辨識模型MD2為一類神經網路模型。在一些實施例中,辨識模型MD1不同於辨識模型MD2。舉例而言,辨識模型MD1具有影像分類功能,且辨識模型MD2具有物件偵測功能。
在一些實施例中,辨識模型MD1或辨識模型MD2,其具體實現方式可為軟體、硬體與/或韌體。各種用以實現辨識模型MD1或辨識模型MD2的方式皆在本揭示內容的考量範圍內。
請參考第2圖以及第3圖。第2圖是依照本揭示一些實施例所繪示的一種辨識方法200的流程圖。第3圖是依照本揭示一些實施例所繪示的一種卷積演算法的示意圖。在一些實施例中,辨識方法200被應用於第1圖的辨識系統100中。辨識方法200包含步驟S202、步驟S204、步驟S206、步驟S208、步驟S210、步驟S212、步驟S214、步驟S216、步驟S218以及步驟S220。為了以較佳的方式理解本揭示內容,辨識方法200將搭配第1圖以及第3圖進行討論,但本揭示內容不以此為限制。
在步驟S202中,攝像裝置120與伺服器140協 商卷積神經網路(convolutional neural network;CNN)。在一些實施例中,攝像裝置120包含一或多個卷積神經網路。在一些實施例中,伺服器140包含一或多個卷積神經網路。在一些實施例中,攝像裝置120傳送一模型識別資訊(model ID)給伺服器140,使得攝像裝置120以及伺服器140採用相同的卷積神經網路。在一些實施例中,模型識別資訊用以綁定各種網路參數。在一些實施例中,卷積神經網路包含卷積(convolution)演算法、池化(pooling)演算法、活化(activation)演算法或反卷積(deconvolution)演算法。
在步驟S204中,攝像裝置120取得影像資料IMG。在一些實施例中,攝像裝置120拍攝一原始影像。原始影像經一前處理後產生影像資料IMG。舉例而言,原始影像經一像素縮減處理後產生影像資料IMG。如此,影像資料IMG的像素數量小於原始影像的像素數量。在一些其他的實施例中,影像資料IMG是未經前處理的原始影像本身。
以第3圖示例而言,影像資料IMG包含25個像素。該些像素包含像素值M1、像素值M2、...、像素值M25。上述影像資料IMG中像素的數量僅用以示例之目的。影像資料IMG中像素的各種數量皆在本揭示內容的考量範圍內。
在步驟S206中,處理器122進行卷積神經網路中的演算法,例如:卷積演算法。在一些實施例中,處理器 122利用特徵核心(例如:第3圖的特徵核心KR)對影像資料IMG進行卷積演算法以產生第1層計算結果。在一些實施例中,每個卷積神經網路對應一或複數個特徵核心。一個特徵核心包含複數個內容值。以第3圖示例而言,特徵核心KR包含9個內容值。該些內容值包含內容值K1、內容值K2、...、內容值K9。上述特徵核心KR中內容值的數量僅用以示例之目的。特徵核心KR中內容值的各種數量皆在本揭示內容的考量範圍內。
以下將針對卷積演算法進行敘述。首先,將特徵核心KR中的內容值K1~K9依序對應至影像資料IMG的像素值M1、M2、M3、M6、M7、M8、M11、M12以及M13。藉由卷積演算法可以得到第一個化簡值。舉例而言,內容值K1~K9分別為1、0、1、0、2、3、1、1、0且像素值M1、M2、M3、M6、M7、M8、M11、M12、M13分別為2、3、0、1、2、0、0、1、2。卷積演算法的演算結果為(1*2+0*3+1*0+0*1+2*2+3*0+1*0+1*1+0*2=7)。也就是說,第一個化簡值為7。接著,特徵核心KR整體往右平移一格,使得內容值K1~K9依序對應至影像資料IMG的像素值M2、M3、M4、M7、M8、M9、M12、M13以及M14。藉由卷積演算法可得到第二個化簡值。接著,特徵核心KR整體再往右平移一格,使得內容值K1~K9依序對應至影像資料IMG的像素值M3、M4、M5、M8、M9、M10、M13、M14以及M15。藉由卷積演算法可得到第三個化簡值。接著,特徵核心KR整體往下移一格並移至最左方,使得內容 值K1~K9依序對應至影像資料IMG的像素值M6、M7、M8、M11、M12、M13、M16、M17以及M18。藉由卷積演算法可得到第四個化簡值。其餘化簡值的計算方式依此類推。據此,最後可以得到9個化簡值。在一些實施例中,9個化簡值可依序排列成九宮格形狀的方陣(例如:卷積結果),此卷積結果為第M層計算結果。在一些實施例中,M為正整數,M小於或等於N。在一些實施例中,N為一預設正整數。舉例而言,此卷積結果被視為第1層計算結果。
藉由卷積演算法,原本包含有25個像素值的影像資料IMG得以被化簡為9個化簡值。在一些實施例中,特徵核心KR中的該些內容值可依據實際需求(例如:影像資料IMG的特質或後續處理的目的)設定之。如此,可萃取出重要資訊。
在一些實施例中,每個卷積神經網路對應複數個特徵核心。在這種情況下,處理器122同時利用複數個特徵核心對影像資料IMG進行化簡,以產生複數個第1層計算結果。
在步驟S208中,處理器122判斷一臨限時間是否滿足。在一些實施例中,臨限時間可依據實際需求設定或調整之。舉例而言,臨限時間依據處理器122的運算資源設定。
在一些實施例中,若臨限時間尚未滿足,則進入步驟S210。在步驟S210中,處理器122判斷M是否等於N。若否,則再次進入步驟S206。也就是說,處理器122將 對第M層計算結果進行卷積演算法以產生下一層(第(M+1)層)計算結果,且將M更新為(M+1)。以此類推,直到臨限時間滿足或者第N層計算結果產生。由於產生各層計算結果的過程相似於產生第1層計算結果的過程,故於此不再贅述。換言之,處理器122利用疊代方式進行演算。
在一些實施例中,若在步驟S208中臨限時間被判斷已滿足,則進入步驟S212。假設在臨限時間滿足時處理器122產生第M層計算結果。在步驟S212中,攝像裝置120將第M層計算結果作為特徵資訊FI,且透過通訊連結L1將特徵資訊FI傳送給伺服器140。接著,進入步驟S214。
由於攝像裝置120在步驟S212中是將特徵資訊FI(例如:第M層計算結果)傳送給伺服器140。如此,可避免傳送影像資料IMG以避免發生影像資料IMG外洩的問題。
在步驟S214中,處理器142對第M層計算結果進行卷積演算法。在一些實施例中,攝像裝置120以及伺服器140採用相同的卷積神經網路。在一些實施例中,處理器142將第M層計算結果填入第M層後對第M層計算結果進行卷積演算法,以產生第(M+1)層計算結果。在一些實施例中,第(M+1)層計算結果被視為第K層計算結果。K為大於M的一正整數,K小於或等於N。在一些實施例中,計算結果是以二進位大型物件(binary large object;Blob)的形式被記錄下來。也就是說,計算結果為視為二進位大型物件資料(Blob data)。各個二進位大型物件資料具有二進位大 型物件識別(Blob ID)。如此,處理器122或142得以透過Blob ID判斷計算結果是屬於哪一層,且將該計算結果填入對應的層。接著,處理器122或142得以對該計算結果進行卷積演算法以產生下一層計算結果。在一些實施例中,處理器122或142透過該計算結果的結構判斷此計算結果是利用哪一卷積神經網路所產生,且透過該計算結果的結構判斷此計算結果是屬於哪一層。舉例而言,若計算結果的結構為6×6×256,處理器122或142判斷此計算結果是由卷積神經網路AlexNet所產生。
在步驟S216中,處理器142判斷K是否等於N。若否,則再次進入步驟S214。也就是說,處理器142將對第K層計算結果進行卷積演算法以產生下一層(第(K+1)層)計算結果,且將K更新為(K+1)。以此類推,直到第N層計算結果產生,則進入步驟S218。換句話說,當K小於N時,處理器142以疊代方式進行演算,直到第N層計算結果產生。
在步驟S218中,處理器146基於辨識模型MD1與辨識模型MD2其中一者以及第N層計算結果產生辨識結果,以對影像資料IMG進行辨識。在一些實施例中,第N層計算結果被視為共享特徵(shared feature)資訊。在一些實施例中,共享特徵資訊儲存在記憶體144中。
在一些實施例中,處理器146將第N層計算結果輸入進辨識模型MD1,以產生關聯於影像資料IMG的第一辨識結果(例如:影像分類結果)。舉例而言,若影像資料IMG包含動物(例如:狗),辨識模型MD1依據第N層計算結果將 影像資料IMG分類至一動物類別。
在一些實施例中,處理器146將第N層計算結果輸入進辨識模型MD2,以產生關聯於影像資料IMG的第二辨識結果(例如:物件偵測結果)。舉例而言,若影像資料IMG包含動物(例如:狗),辨識模型MD2偵測影像資料IMG中該動物的位置。
在一些實施例中,處理器146將辨識模型MD1所產生的第一辨識結果輸入至辨識模型MD2,以產生關聯於影像資料IMG的第二辨識結果。也就是說,辨識模型MD1與辨識模型MD2形成多任務網路串接(multi-task network cascsdes)架構。
回到步驟S210。若處理器122判斷第N層計算結果已產生,則進入步驟S220。在步驟S220中,處理器122將第N層計算結果作為特徵資訊FI傳送給伺服器140。在一些實施例中,第N層計算結果被視為共享特徵資訊且透過通訊連結L1傳送給伺服器140,以儲存在記憶體144中。接著,進入步驟S218。步驟S218中的操作已於前面段落進行描述,於此不再贅述。
由於攝像裝置120在步驟S220中是將特徵資訊FI(例如:第N層計算結果)傳送給伺服器140。如此,可避免傳送影像資料IMG以避免發生影像資料IMG外洩的問題。
上述敘述中的辨識方法200包含示例性的操作,但該些操作不必依上述順序被執行。按照本揭示內容的 精神與範圍,本揭示內容的辨識方法200中的操作的順序能夠被改變,或者該些操作能夠視情況地同時或部分同時被執行。在一些實施例中,部分操作得以視情況地被省略。舉例而言,當攝像裝置120以及伺服器140被預設為採用相同的卷積神經網路時,步驟S202得以被省略。
在一些實施例中,相較於其他特徵截取演算法僅截取影像資料IMG中特定的像素值,卷積演算法考量了影像資料IMG中所有的像素值。如此,所產生的計算結果具有較大的適應性。也就是說,所產生的計算結果可應用於各種不同的辨識模型。
相較於第1層計算結果至第N層計算結果皆由伺服器產生的方式,在一些實施例中,攝像裝置120至少產生第1層計算結果,使得伺服器140的運算成本得以降低。
在一些實施例中,攝像裝置120的卷積層數或伺服器140的卷積層數依賴於臨限時間。在一些實施例中,臨限時間可依據攝像裝置120的運算資源及/或伺服器140的運算資源動態地調整。因此,辨識系統100具有可調整性。
在一些實施例中,辨識方法200可被實作為電腦程式且儲存於儲存裝置中。儲存裝置包含非暫態電腦可讀取記錄媒體或其他具有儲存功能的裝置。此電腦程式包括複數個程式指令。該些程式指令可由一或多個處理器來執行。
在一些實施例中,第M層計算結果或第K層計算結果可為卷積結果、池化結果、活化結果或反卷積結果。其他各種卷積神經網路中的計算結果皆在本揭示內容的範 圍內。
在一些實施例中,不同層計算結果為不同的演算法所產生的對應計算結果。舉例而言,第1層計算結果是卷積結果。第2層計算結果是對第1層計算結果(卷積結果)進行池化演算所產生的池化結果。第3層計算結果是對第2層計算結果(池化結果)進行活化演算所產生的活化結果。第4層計算結果是對第3層計算結果(活化結果)進行卷積演算所產生的卷積結果。第5層計算結果是對第4層計算結果(卷積結果)進行池化演算所產生的池化結果。第6層計算結果是對第5層計算結果(池化結果)進行活化演算所產生的活化結果。以此類推。
請參考第4圖。第4圖是依照本揭示一些實施例所繪示的一種池化演算法的示意圖。
以第4圖示例而言,卷積結果PL(例如:第1層卷積結果)包含9個內容值。該些內容值包含內容值R1、內容值R2、...、內容值R9。方陣PO用以化簡卷積結果PL以產生池化結果。以第4圖示例而言,方陣PO包含4個內容值。該些內容值包含內容值S1、內容值S2、內容值S3以及內容值S4。
以下將針對池化演算法進行敘述。首先,將方陣PO中的內容值S1、S2、S3、S4分別對應到卷積結果PL的內容值R1、R2、R4、R5後,可選出內容值R1、R2、R4、R5中的最大值作為第一個化簡值。接著,方陣PO整體往右平移一格,將方陣PO中的內容值S1、S2、S3、S4分別對 應到卷積結果PL的內容值R2、R3、R5、R6後,可選出內容值R2、R3、R5、R6中的最大值作為第二個化簡值。接著,方陣PO往下移一格並靠到最左方,將方陣PO中的內容值S1、S2、S3、S4分別對應到卷積結果PL的內容值R4、R5、R7、R8後,可選出內容值R4、R5、R7、R8中的最大值作為第三個化簡值。接著,方陣PO往右移一格,將方陣PO中的內容值S1、S2、S3、S4分別對應到卷積結果PL的內容值R5、R6、R8、R9後,可選出內容值R5、R6、R8、R9中的最大值作為第四個化簡值。據此,最後可以得到4個化簡值。4個化簡值例如可序排列成四宮格形狀的方陣(例如:第1層池化結果)。在一些實施例中,第M或K層池化結果被視為第M或K層計算結果。舉例而言,第1層池化結果被視為第1層計算結果。
藉由池化演算法,原本包含有9個內容值的卷積結果PL得以被化簡為4個化簡值。如此,可進一步萃取出重要資訊。
上述池化演算法的實現方式僅用以示例之目的。池化演算法的各種實現方式皆在本揭示內容的考量範圍內。舉例而言,在一些實施例中,池化演算法可採用平均數、最小值、中間值以取出化簡值。
綜上所述,本揭示中的辨識系統以及辨識方法,攝像裝置將特徵資訊而非影像資料傳送給伺服器。如此,可避免發生影像資料在傳送過程中發生外洩的問題。
雖然本揭示已以實施方式揭示如上,然其並非用 以限定本揭示,任何本領域具通常知識者,在不脫離本揭示之精神和範圍內,當可作各種之更動與潤飾,因此本揭示之保護範圍當視後附之申請專利範圍所界定者為準。
Claims (11)
- 一種辨識系統,包含:一攝像裝置,用以基於一影像資料以及一卷積神經網路(convolutional neural network)產生一第M層計算結果,且傳送關聯於該第M層計算結果的一特徵資訊,其中M為等於或大於1的一正整數,M小於或等於N,且N為一預設正整數;以及一伺服器,耦接該攝像裝置且用以接收該特徵資訊,其中當M小於N時,該伺服器基於該特徵資訊以及該卷積神經網路以疊代(iteration)方式產生一第K層計算結果,K為大於M的一正整數,K小於或等於N,當K等於N時,該伺服器基於該第K層計算結果以及一第一辨識模型產生關聯於該影像資料的一第一辨識結果,以對該影像資料進行辨識。
- 如申請專利範圍第1項所述的辨識系統,其中當M等於N時,該第M層計算結果用以作為該特徵資訊,且該伺服器基於該特徵資訊以及該第一辨識模型產生該第一辨識結果。
- 如申請專利範圍第1項所述的辨識系統,其中該伺服器更用以基於該第一辨識結果以及一第二辨識模型產生關聯於該影像資料的一第二辨識結果,且該第二辨識模型不同於該第一辨識模型。
- 如申請專利範圍第1項所述的辨識系統,其中該第M層計算結果包含一卷積(convolution)結果、一池化(pooling)結果、一活化(activation)結果或一反卷積(deconvolution)結果。
- 如申請專利範圍第1項所述的辨識系統,其中該攝像裝置更用以判斷一臨限時間是否滿足,當M小於N且該臨限時間滿足時,該攝像裝置傳送該第M層計算結果至該伺服器作為該特徵資訊,當M小於N且該臨限時間未滿足時,該攝像裝置基於該第M層計算結果以及該卷積神經網路進行疊代演算。
- 一種辨識方法,包含:藉由一攝像裝置基於一影像資料以及一卷積神經網路產生一第M層計算結果;藉由該攝像裝置傳送關聯於該第M層計算結果的一特徵資訊給一伺服器,其中M為等於或大於1的一正整數,M小於或等於N,且N為一預設正整數;當M小於N時,藉由該伺服器基於該特徵資訊以及該卷積神經網路以疊代方式產生一第K層計算結果,其中K為大於M的一正整數,K小於或等於N;以及當K等於N時,藉由該伺服器基於該第K層計算結果以及一第一辨識模型產生關聯於該影像資料的一第一辨 識結果,以對該影像資料進行辨識。
- 如申請專利範圍第6項所述的辨識方法,其中當M等於N時,該第M層計算結果用以作為該特徵資訊,該辨識方法更包含:當M等於N時,藉由該伺服器基於該特徵資訊以及該第一辨識模型產生該第一辨識結果。
- 如申請專利範圍第6項所述的辨識方法,更包含:藉由該伺服器基於該第一辨識結果以及一第二辨識模型產生關聯於該影像資料的一第二辨識結果,其中該第二辨識模型不同於該第一辨識模型。
- 如申請專利範圍第6項所述的辨識方法,其中該第M層計算結果包含一卷積結果、一池化結果、一活化結果或一反卷積結果。
- 如申請專利範圍第6項所述的辨識方法,更包含:藉由該攝像裝置判斷一臨限時間是否滿足;當M小於N且該臨限時間滿足時,藉由該攝像裝置傳送該第M層計算結果至該伺服器作為該特徵資訊;以及當M小於N且該臨限時間未滿足時,藉由該攝像裝置 基於該第M層計算結果以及該卷積神經網路進行疊代演算。
- 一種非暫態電腦可讀取媒體,儲存一電腦程式,該電腦程式用以執行一辨識方法,該辨識方法包含:基於一影像資料以及一卷積神經網路產生一第M層計算結果;傳送關聯於該第M層計算結果的一特徵資訊,其中M為等於或大於1的一正整數,M小於或等於N,且N為一預設正整數;當M小於N時,基於該特徵資訊以及該卷積神經網路以疊代方式產生一第K層計算結果,其中K為大於M的一正整數,K小於或等於N;以及當K等於N時,基於該第K層計算結果以及一第一辨識模型產生關聯於該影像資料的一第一辨識結果,以對該影像資料進行辨識。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106119094A TWI647624B (zh) | 2017-06-08 | 2017-06-08 | 辨識系統、辨識方法及非暫態電腦可讀取媒體 |
CN201710605149.6A CN109034176B (zh) | 2017-06-08 | 2017-07-24 | 辨识系统以及辨识方法 |
US15/673,407 US10212291B2 (en) | 2017-06-08 | 2017-08-09 | System, method, and non-transitory computer readable storage medium for image recognition based on convolutional neural networks |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106119094A TWI647624B (zh) | 2017-06-08 | 2017-06-08 | 辨識系統、辨識方法及非暫態電腦可讀取媒體 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI647624B TWI647624B (zh) | 2019-01-11 |
TW201903649A true TW201903649A (zh) | 2019-01-16 |
Family
ID=64564353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106119094A TWI647624B (zh) | 2017-06-08 | 2017-06-08 | 辨識系統、辨識方法及非暫態電腦可讀取媒體 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10212291B2 (zh) |
CN (1) | CN109034176B (zh) |
TW (1) | TWI647624B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI698811B (zh) * | 2019-03-28 | 2020-07-11 | 國立交通大學 | 多路徑卷積神經網路偵測方法及系統 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110185939B (zh) * | 2019-05-16 | 2021-04-02 | 西北工业大学 | 基于卷积神经网络的气体管道泄漏识别方法 |
US11605228B2 (en) | 2020-06-26 | 2023-03-14 | Nxp Usa, Inc. | System and method for sensor fusion system having distributed convolutional neural network |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5184824B2 (ja) * | 2007-06-15 | 2013-04-17 | キヤノン株式会社 | 演算処理装置及び方法 |
US8503539B2 (en) * | 2010-02-26 | 2013-08-06 | Bao Tran | High definition personal computer (PC) cam |
US20160026912A1 (en) * | 2014-07-22 | 2016-01-28 | Intel Corporation | Weight-shifting mechanism for convolutional neural networks |
TWI534656B (zh) * | 2014-08-28 | 2016-05-21 | 財團法人資訊工業策進會 | 辨識裝置、智慧裝置以及資訊提供方法 |
CN105844202A (zh) * | 2015-01-12 | 2016-08-10 | 芋头科技(杭州)有限公司 | 一种影像识别系统及方法 |
CN205621018U (zh) * | 2016-02-26 | 2016-10-05 | 陈进民 | 手机细胞/卷积神经网络加速器 |
CN106599925A (zh) * | 2016-12-19 | 2017-04-26 | 广东技术师范学院 | 一种基于深度学习的植物叶片识别系统与方法 |
-
2017
- 2017-06-08 TW TW106119094A patent/TWI647624B/zh active
- 2017-07-24 CN CN201710605149.6A patent/CN109034176B/zh active Active
- 2017-08-09 US US15/673,407 patent/US10212291B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI698811B (zh) * | 2019-03-28 | 2020-07-11 | 國立交通大學 | 多路徑卷積神經網路偵測方法及系統 |
Also Published As
Publication number | Publication date |
---|---|
CN109034176B (zh) | 2021-09-17 |
US20180359378A1 (en) | 2018-12-13 |
CN109034176A (zh) | 2018-12-18 |
US10212291B2 (en) | 2019-02-19 |
TWI647624B (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI721510B (zh) | 雙目圖像的深度估計方法、設備及儲存介質 | |
WO2021184972A1 (zh) | 图像分割方法、装置、电子设备及存储介质 | |
WO2017166586A1 (zh) | 基于卷积神经网络的图片鉴别方法、系统和电子设备 | |
WO2020098422A1 (zh) | 编码图案的处理方法和装置、存储介质、电子装置 | |
US20220076123A1 (en) | Neural network optimization method, electronic device and processor | |
JP2020523703A (ja) | ダブル視野角画像較正および画像処理方法、装置、記憶媒体ならびに電子機器 | |
TWI647624B (zh) | 辨識系統、辨識方法及非暫態電腦可讀取媒體 | |
CN108875482B (zh) | 物体检测方法和装置、神经网络训练方法和装置 | |
US11836898B2 (en) | Method and apparatus for generating image, and electronic device | |
CN109063776B (zh) | 图像再识别网络训练方法、装置和图像再识别方法及装置 | |
CN107808394B (zh) | 一种基于卷积神经网络的图像处理方法及移动终端 | |
KR102286903B1 (ko) | 객체의 3차원 재구성에 대한 초기 대응 할당들의 효율적인 데이터 처리를 위한 방법들 및 장치 | |
US10747691B2 (en) | Memory device, a dual inline memory module, a storage device, an apparatus for storing, a method for storing, a computer program, a machine readable storage, and a machine readable medium | |
CN112418243A (zh) | 特征提取方法、装置及电子设备 | |
CN117033039A (zh) | 故障检测方法、装置、计算机设备和存储介质 | |
CN112910890B (zh) | 基于时间卷积网络的匿名网络流量指纹识别方法及设备 | |
CN109871814B (zh) | 年龄的估计方法、装置、电子设备和计算机存储介质 | |
EP4198878A1 (en) | Method and apparatus for image restoration based on burst image | |
CN110008907B (zh) | 一种年龄的估计方法、装置、电子设备和计算机可读介质 | |
TWI638338B (zh) | 多場景的移動物體偵測方法及其影像處理裝置 | |
CN110210306B (zh) | 一种人脸跟踪方法和相机 | |
CN112329925B (zh) | 模型生成方法、特征提取方法、装置及电子设备 | |
CN116501649B (zh) | 一种基于先验信息的跟踪器黑盒攻击方法及系统 | |
CN114007134B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN114785907A (zh) | 通信系统、通信方法、存储介质及程序产品 |