TWI766478B - 目標資料特徵提取方法、及裝置 - Google Patents

目標資料特徵提取方法、及裝置 Download PDF

Info

Publication number
TWI766478B
TWI766478B TW109144343A TW109144343A TWI766478B TW I766478 B TWI766478 B TW I766478B TW 109144343 A TW109144343 A TW 109144343A TW 109144343 A TW109144343 A TW 109144343A TW I766478 B TWI766478 B TW I766478B
Authority
TW
Taiwan
Prior art keywords
data
unit
processing
hidden
target data
Prior art date
Application number
TW109144343A
Other languages
English (en)
Other versions
TW202207079A (zh
Inventor
嚴梓乘
Original Assignee
大陸商星宸科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商星宸科技股份有限公司 filed Critical 大陸商星宸科技股份有限公司
Publication of TW202207079A publication Critical patent/TW202207079A/zh
Application granted granted Critical
Publication of TWI766478B publication Critical patent/TWI766478B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本發明公開了一種目標資料特徵提取方法、及裝置。本發明透過提取一目標資料的特徵向量,確定預設神經網路的初始單元資料和初始隱藏資料,並將特徵向量以及初始單元資料和初始隱藏資料輸入至預設神經網路進行處理,以對預設神經網路的單元資料和隱藏資料進行更新,並儲存更新後的隱藏資料,將更新後的單元資料和隱藏資料再次輸入至預設神經網路進行處理,並將更新過程遞迴處理預設次數,並儲存每次更新後的隱藏資料,將預設次數處理後儲存的多個隱藏資料進行合併,以作為目標資料特徵進行輸出。本申請可以實現在LSTM網路中透過單項推演的方式來進行目標資料特徵的提取,從而使LSTM網路可以應用在不同的架構上,提升了多樣性。

Description

目標資料特徵提取方法、及裝置
本發明涉及資料處理領域,具體涉及一種目標資料特徵提取方法、及裝置。
圖像特徵的作用是用來描述圖像資訊,物理意義上的圖像特徵一般包括形狀、顏色、紋理、空間關係等。目前,採用卷積神經網路的方法提取圖像特徵的應用非常普遍,也取得了不錯的效果,如標準RNN(Recurrent Neural Network,遞迴神經網路)、LSTM網路(Long Short-Term Memory,長短期記憶)、GRU(Gated Recurrent Unit,閘控遞迴單元)等等,其中LSTM由於具有長距離記憶功能,因此其應用最為廣泛。
在自然語言處理中,LSTM特別擅長處理序列相關的任務,如對話系統、機器翻譯、圖像描述等等。一個擁有遞迴結構的模組,實際上可以拆解成多個相同子結構的組合,前一級的輸出,作為這一級的輸入。
習知技術中的LSTM往往都是基於Caffe(快速特徵嵌入的卷積結構,Convolutional Architecture for Fast Feature Embedding)架構的,運算冗餘,網路結構複雜。因此如何優化網路結構,減少運算步驟成為了極待解決的技術問題。
本發明提供一種目標資料特徵提取方法、及裝置,可以在LSTM網路中透過單項推演的方式來進行目標資料特徵的提取。
為解決上述技術問題,本發明實施例提供以下技術方案:一種目標資料特徵提取方法,包括:提取目標資料的特徵向量;確定預設神經網路的初始單元資料和初始隱藏資料,並將所述特徵向量以及初始單元資料和初始隱藏資料輸入至所述預設神經網路進行處理,以對所述預設神經網路的單元資料和隱藏資料進行更新,並儲存更新後的隱藏資料;將所述更新後的單元資料和隱藏資料再次輸入至所述預設神經網路進行處理,以再次對所述單元資料和隱藏資料進行更新,將所述更新過程遞迴處理預設次數,並儲存每次更新後的隱藏資料;將所述預設次數處理後儲存的多個隱藏資料進行合併,以作為目標資料特徵進行輸出。
本申請實施例可以實現在LSTM網路中透過單項推演的方式來進行目標資料特徵的提取,從而使LSTM網路可以應用在不同的架構上,提升了多樣性。
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
在本文中提及“實施例”意味著,結合實施例描述的特定特徵、結構或特性可以包含在本發明的至少一個實施例中。在說明書中的各個位置出現該短語並不一定均是指相同的實施例,也不是與其它實施例互斥的獨立的或備選的實施例。本領域技術人員顯式地和隱式地理解的是,本文所描述的實施例可以與其它實施例相結合。
本發明實施例提供一種目標資料特徵提取方法,該目標資料特徵提取方法的執行主體可以是本發明實施例提供的目標資料特徵提取裝置,或者整合了該目標資料特徵提取裝置的伺服器,其中該目標資料特徵提取裝置可以採用硬體或者軟體的方式實現。
在描述本發明的技術方案之前,先對相關的技術術語進行簡單解釋:
RNN:遞迴神經網路(Recurrent Neural Network, RNN)是一種以序列(sequence)資料為輸入,在序列的演進方向進行遞迴(recursion)且所有節點(遞迴單元)按鏈式連接的遞迴神經網路。
LSTM網路:長短期記憶網路(LSTM,Long Short-Term Memory)是一種時間遞迴神經網路,是為了解決一般的RNN(遞迴神經網路)存在的長期依賴問題而專門設計出來的,所有的RNN都具有一種重複神經網路模組的鏈式形式。在標準RNN中,這個重複的結構模組只有一個非常簡單的結構,例如一個tanh(雙曲正切函數)層。
Caffe:是一個兼具表達性、速度和思維模組化的深度學習框架。Caffe有Python和Matlab相關介面。Caffe支援多種類型的深度學習架構,面向圖像分類和圖像分割,還支援卷積神經網路(Convolutional neural network, CNN)、區域卷積神經網路(Region-based Convolutional Neural Network, R-CNN)、LSTM和全連接神經網路設計。
Feature map:目標資料經過特徵提取後的資料,在CNN的每個卷積層,資料都是以三維形式存在的。可以看成許多個二維圖片疊在一起,其中每一個稱為一個Feature map。
請參閱圖1,圖1是本發明實施例提供的目標資料特徵提取方法的一種流程示意圖。該目標資料特徵提取方法包括:
在步驟101中,提取目標資料的特徵向量。
其中,上述目標資料可以為電子設備透過攝像頭拍攝獲取的目標資料,還可以為從網路下載得到的目標資料等。
在一實施例中,可以將上述目標資料輸入至卷積神經網路模型,透過該卷積神經網路模型對目標資料進行目標識別處理,得到特徵向量。其中,卷積神經網路模型為與訓練後的模型。比如,上述卷積神經網路模型可以透過卷積層、啟動層和BN(Batch Normalization)層組成。可選的,對初始卷積神經網路模型中的節點參數進行初始化,透過訓練集和測試集,對初始化後的初始卷積神經網路模型進行訓練處理,得到訓練後的卷積神經網路模型。
需要說明的是,電子設備可以將目標資料輸入至訓練後的卷積神經網路模型,透過該卷積神經網路模型對目標資料進行目標識別處理,得到特徵向量。本實施例中,上述目標可以為目標資料中的人物、動物或建築物等。比如若上述目標為目標資料中的人物,則上述特徵向量可以包括目標資料中不同人物或相同人物的特徵向量。
在步驟102中,確定預設神經網路的初始單元資料和初始隱藏資料,並將特徵向量以及初始單元資料和初始隱藏資料輸入至預設神經網路進行處理,以對預設神經網路的單元資料和隱藏資料進行更新,並儲存更新後的隱藏資料。
目前,基於Caffe架構的LSTM網路中包含多個相同結構的LSTM單元組合,前一級的輸出,作為這一級的輸入。比如x0作為第一級的輸入,產生輸出h0,同時h0和x1作為第二級的輸入,產生輸出h1,以此類推。最終將每級產生的輸出合併到一起,作為最終的結果輸出。而本申請實施例為了讓LSTM適用於其他的架構,將LSTM網路進行改進,改進後的LSTM網路中僅包含一個LSTM單元。
請參閱圖2,圖2是本發明實施例提供的長短期記憶網路單元的結構示意圖。在該長短期記憶網路單元當中,該LSTM單元共有三個輸入,他們分別是經過前級卷積神經網路處理後的資料Xt、前一級LSTM單元輸出的隱藏資料ht-1以及前一級LSTM單元輸出的單元資料Ct-1。其中需要說明的是,若是第一次使用該LSTM網路對單元資料C和隱藏資料h進行更新,需要先確定該LSTM網路的初始單元資料C0和和初始隱藏資料h0,比如分別設置為0。該LSTM單元有兩個輸出,分別為更新後的單元資料Ct和更新後的隱藏資料ht。並且對於更新後的隱藏資料ht,既作為下一次更新時該LSTM單元的輸入,又作為最終輸出的一部分,因此還需進行儲存。
比如,在第一次使用LSTM網路進行更新時,先確定前一級的卷積神經網路輸入的資料X1,然後確定該LSTM網路的初始單元資料C0和初始隱藏資料h0,可以分別設為0,然後將X1、C0以及h0作為LSTM網路中的LSTM單元的輸入,經過該LSTM單元的內部運算後,輸出更新後的單元資料C1和更新後的隱藏資料h1,並將隱藏資料h1進行儲存。其中上述X1即為前端的卷積神經網路處理後的feature map。
需要說明的是,上述初始單元資料C0和初始隱藏資料h0,在Caffe框架的LSTM網路中是透過LSTM單元內建輸入的,即由LSTM單元內部生成的,LSTM網路外部不可見,而在本申請實施例提供的其他架構下的LSTM網路中,上述初始單元資料C0和和初始隱藏資料h0則作為整個LSTM網路的輸入。另外,還增加了LSTM網路的輸出,即更新後的單元資料C1和更新後的隱藏資料h1。自此,完成了一個單一的LSTM網路的運算。
在一實施例中,上述基於其他框架下的LSTM網路中的框架可以為NPU(神經網路處理器)框架,從而避免了LSTM網路只能基於Caffe框架的限制,提升了LSTM網路使用的多樣性。
在步驟103中,將更新後的單元資料和隱藏資料再次輸入至預設神經網路進行處理,以再次對單元資料和隱藏資料進行更新,將更新過程遞迴處理預設次數,並儲存每次更新後的隱藏資料。
在本申請實施例中,由於LSTM網路中僅包含一個LSTM單元,因此在得到上述更新後的單元資料C1和隱藏資料h1之後,還需要再次輸入至該LSTM網路進行處理。具體的,在第二次使用該LSTM網路進行更新處理時,該網路的輸入包括三個,分別是經過前級卷積神經網路處理後的資料X2、前一級LSTM單元輸出的隱藏資料h1以及前一級LSTM單元輸出的單元資料C1,從而再次對上述單元資料和隱藏資料進行更新,得到更新後的單元資料C2和隱藏資料h2,並對該隱藏資料h2進行儲存。
在一實施例中,透過上述LSTM網路多次對單元資料和隱藏資料進行更新,每次輸入該LSTM網路的輸入值都包括:經過前級卷積神經網路處理後的資料Xt、前一級LSTM單元輸出的隱藏資料ht-1以及前一級LSTM單元輸出的單元資料Ct-1,輸出則為更新後的隱藏資料ht和單元資料Ct,且保存隱藏資料ht。比如在使用LSTM網路進行16次更新後,得到最後一次更新的隱藏資料h16和單元資料C16,並在保存隱藏資料h16後,將經過16次更新分別輸出的h1、h2、h3……h16按照順序進行儲存。
進一步的,在上述LSTM單元中,可以透過三個控制開關來對隱藏資料和單元資料進行更新,比如,第一個開關負責控制繼續保存長期資料c,第二個開關負責控制把即時資料輸入到長期資料c,第三個開關負責控制是否把長期資料c作為當前的LSTM的輸出。而在一實施例中,可以透過閘(gate)來實現上述三個開關,其中,閘實質上也是一個全連接層,輸入是一個向量,輸出是一個0到1之間的實數向量。公式為:
g(x)=sigmoid(Wx+b)
其中,W為權重,b為偏置。具體的,用閘的輸出向量按元素乘以我們需要控制的那個向量,由於閘的輸出是0到1之間的實數向量,所以當閘輸出為0時,任何向量與之相乘都會得到0向量,這就相當於什麼都不能通過,輸出為1時,任何向量與之相乘都不會有任何改變,這就相當於什麼都可以通過。
在一實施例中,上述三個閘可以分別為遺忘閘(forget gate)、輸入閘(input gate)以及輸出閘(output gate),具體的,遺忘閘用於確定輸入的單元資料Ct-1中保留到當前時刻的單元資料Ct,輸入閘用於確定輸入到當前長短期記憶網路單元中的資訊數量xt,並對當前長短期記憶網路單元的資料Ct進行更新,輸出閘用於確定當前長短期記憶網路單元需要輸出的單元資料Ct和隱藏資料ht。
在一實施例中,所述遺忘閘、輸入閘和輸出閘中包括多個函數,分別為sigmoid函數、tanh函數、加法函數以及乘法函數。具體的,遺忘閘可以包括sigmoid函數和乘法函數,輸入閘可以包括sigmoid函數、tanh函數、加法函數以及乘法函數,輸出閘可以包括sigmoid函數、tanh函數和乘法函數。需要說明的是,本申請實施例提供的LSTM網路由於不限於Caffe框架,比如在某一NPU架構下的LSTM網路,則可以透過該NPU創建硬體運算元來實現上述多個函數的運算。
在步驟104中,將預設次數處理後儲存的多個隱藏資料進行合併,以作為目標資料特徵進行輸出。
比如在使用LSTM網路進行16次更新後,得到最後一次更新的隱藏資料h16和單元資料C16,並在保存隱藏資料h16後,將經過16次更新分別輸出的h1、h2、h3……h16按照順序進行儲存,並對上述16個隱藏資料進行合併,以作為目標資料特徵進行輸出。
在一實施例中,上述目標資料特徵可以用於對目標資料中的人物進行行為預測。進一步的上述預設神經網路即LSTM網路可以預先進行訓練,比如獲取訓練樣本,並將訓練樣本輸入到LSTM網路中對網路中的各個控制閘(遺忘閘、輸入閘和輸出閘)的權重、偏置資料進行訓練。為測試樣本的測試提供訓練好的LSTM網路模型,同時訓練樣本集的資料經過LSTM網路輸出人體訓練特徵,將人體訓練特徵輸入到softmax分類器中進行分類,獲得訓練分類結果。然後將測試樣本集輸入到訓練好的LSTM網路中進行測試,LSTM網路輸出人體測試特徵,將人體測試特徵輸入到softmax分類器中進行分類,獲得測試分類結果。最後可以根據訓練分類結果和測試分類結果,能夠實現將所有目標資料中的人體行為動作進行分類,根據分類結果,能夠識別目標資料中的所有的目標人體行為動作。
需要說明的是,上述目標資料包括文字,圖像和聲音等,本申請對此不作進一步限定。
由上可知,本申請實施例可以實現在LSTM網路中透過單項推演的方式來進行目標資料特徵的提取,從而使LSTM網路可以應用在不同的架構上,提升了多樣性。
根據上一實施例中所描述的目標資料特徵提取方法,以下將舉例作進一步詳細說明。
在本實施例中,將以該目標資料特徵提取裝置具體整合在終端裝置中為例進行說明。
請參閱圖3,圖3為本發明實施例提供的目標資料特徵提取方法的另一流程示意圖。該方法流程可以包括:
步驟201,對目標資料進行預處理。
在一實施例中,上述目標資料可以包括多張,比如可以為電子設備透過攝像頭多次拍攝獲取的多張目標資料,還可以為從網路下載得到的多張目標資料等。
在一實施例中,電子設備在對目標資料進行處理之前,電子設備可以將上述多張目標資料的大小調整為統一尺寸的目標資料後,在讀取調整尺寸後的目標資料。然後,電子設備對調整尺寸後的目標資料進行預處理。可選的,預處理可以表徵為對目標資料去除雜訊信號的處理,還可以表徵為對目標資料進行歸一化處理。在其他實施例中,上述預處理還可以為通道去均值方法。
步驟202,將預處理後的目標資料輸入至卷積神經網路中進行處理,以提取目標資料的特徵向量。
在一實施例中,可以將上述目標資料輸入至卷積神經網路模型,透過該卷積神經網路模型對目標資料進行目標識別處理,得到特徵向量。其中,卷積神經網路模型為經訓練後的模型。
步驟203,確定預設神經網路的初始單元資料和初始隱藏資料。
需要說明的是,上述初始單元資料和初始隱藏資料在Caffe框架的LSTM網路中是透過網路內部生成的,即內建輸入。而本實施例中的LSTM網路則是基於其他架構的,且只包括一個LSTM單元,LSTM單元設置於一神經網路裝置中,並可以是由硬體電路所構成。在本申請實施例提供的LSTM網路中,包括三個輸入值,分別為經過前級卷積神經網路處理後的資料Xt、前一級LSTM單元輸出的隱藏資料ht-1以及前一級LSTM單元輸出的單元資料Ct-1。
在一實施例中,若是第一次使用該LSTM網路對單元資料C和隱藏資料h進行更新,需要先確定該LSTM網路的初始單元資料C0和初始隱藏資料h0,比如均設置為0。
步驟204,將特徵向量以及初始隱藏資料合併後輸入至全連接層進行處理,生成卷積特徵向量。
在Caffe框架的LSTM網路中,通常包括兩個全連接層,並且兩個全連接層的輸入不相同,分別為經過前級卷積神經網路處理後的資料Xt,以及前一級LSTM單元輸出的隱藏資料ht-1。而本申請提供的基於其他框架的LSTM網路中僅包含一個全連接層,因此在本申請實施例中,還需要將特徵向量以及初始隱藏資料合併,如圖4所示,圖4為本發明實施例提供的全連接層的結構示意圖。即將上述Xt以及ht-1進行合併,並在合併後輸入至該全連接層進行處理,並生成卷積特徵向量。
步驟205,將卷積特徵向量等分為多個子向量,並透過sigmoid函數對每個子向量進行處理,得到處理結果。
繼續參閱圖4在一實施例中,針對LSTM網路中的全連接層輸出的卷積特徵向量,可以進一步對其進行等分,比如進行4等分,等分後再分別對每一部分進行sigmoid函數處理。在其他實施例中,還可以在進行等分後,對每一部分進行tanh函數處理。
步驟206,將處理結果和初始單元資料輸入至長短期記憶網路單元進行處理,以對預設神經網路的單元資料和隱藏資料進行更新,並儲存更新後的隱藏資料。
舉例來說,在第一次使用LSTM網路進行更新時,先確定前一級的卷積神經網路輸入的資料X1,然後確定該LSTM網路的初始單元資料C0和和初始隱藏資料h0,可以分別設為0,然後將X1、C0以及h0作為LSTM網路中的LSTM單元的輸入,經過該LSTM單元的內部運算後,輸出更新後的單元資料C1和更新後的隱藏資料h1,並將隱藏資料h1進行儲存。其中上述X1即為前端的卷積神經網路處理後的feature map。
步驟207,將更新後的單元資料和隱藏資料再次輸入至預設神經網路進行處理,以再次對單元資料和隱藏資料進行更新,將更新過程遞迴處理預設次數,並儲存每次更新後的隱藏資料。
進一步的,透過上述LSTM網路多次對單元資料和隱藏資料進行更新,每次輸入該LSTM網路的輸入值都包括:經過前級卷積神經網路處理後的資料Xt、前一級LSTM單元輸出的隱藏資料ht-1以及前一級LSTM單元輸出的單元資料Ct-1,輸出則為更新後的隱藏資料ht和單元資料Ct,且保存隱藏資料ht。在一實施例中,上述LSTM單元包括遺忘閘、輸入閘以及輸出閘。其中,LSTM單元中的第一步是決定我們會從單元資料中丟棄什麼資訊。這個決定透過一個稱為遺忘閘層完成。該閘會讀取ht-1和xt,輸出一個在0到1之間的數值給每個在單元資料ct-1中的數字。1表示“完全保留”,0表示“完全捨棄”。
遺忘閘用於確定輸入的單元資料Ct-1中保留到當前時刻的單元資料Ct。比如上一次LSTM單元輸出的隱藏資料ht-1和當前LSTM單元輸入xt透過sigmoid函數處理後得到當前LSTM單元中資訊ft,再透過ft計算需要丟棄的部分,其中計算ft的公式為:
ft=sigmoid(Wf*[ht-1,xt]+bf)
其中,Wf為當前LSTM單元中資訊ft的權重,bf為當前LSTM單元中資訊ft的偏置。
輸入閘用於確定輸入到當前長短期記憶網路單元中的資訊數量xt,並對當前長短期記憶網路單元的資料Ct進行更新。比如上一次LSTM單元輸出的隱藏資料ht-1和當前LSTM單元的輸入xt透過sigmoid函數處理後得到當前LSTM單元中需要被更新的資訊it,其中計算it的公式為:
it=sigmoid(Wi*[ht-1,xt]+bi)
其中,Wi為需要被更新的資訊it的權重,bi為需要被更新的資訊it的偏置。
然後,將當前LSTM單元資料更新為gt,將it與gt經過加法函數處理後與遺忘閘的輸出進行累加,並輸入到輸出閘中,其中計算gt的公式為:
gt=tanh[Wg*ht−1+Wg*xt+bg]
其中,Wg為gt的的權重,bg為gt的偏置。
輸出閘用於確定當前長短期記憶網路單元需要輸出的單元資料Ct和隱藏資料ht。其中計算該Ct和ht的公式為:
Ct=(ft*Ct−1)+(it*gt)
其中,Ct-1為更新前的LSTM單元的資料。
進一步的,先計算當前LSTM單元輸出的資訊ot,計算ot的公式為:
ot=sigmoid[Wo*ht−1+Wo*xt+bo]
其中,Wo為ot的的權重,bo為ot的偏置。然後在根據上述輸出的資訊ot計算該LSTM單元當前的隱藏資料ht,計算公式為:
ht=ot*tanh[ct]
步驟208,將預設次數處理後儲存的多個隱藏資料進行合併,以作為目標資料特徵進行輸出。
比如在使用LSTM網路進行16次更新後,得到最後一次更新的隱藏資料h16和單元資料C16,並在保存隱藏資料h16後,將經過16次更新分別輸出的h1、h2、h3……h16按照順序進行儲存,並對上述16個隱藏資料進行合併,以作為目標資料特徵進行輸出。
由上可知,本申請實施例可以實現在LSTM網路中透過單項推演的方式來進行目標資料特徵的提取,從而使LSTM網路可以應用在不同的架構上,提升了多樣性。
為便於更好的實施本發明實施例提供的目標資料特徵提取方法,本發明實施例還提供一種基於上述目標資料特徵提取方法的裝置。其中名詞的含義與上述目標資料特徵提取方法中相同,具體實現細節可以參考方法實施例中的說明。
請參閱圖5,圖5為本發明實施例提供的目標資料特徵提取裝置300的一種結構示意圖。其中,上述目標資料特徵提取裝置300可以包括:
提取單元301,用於提取目標資料的特徵向量。
在一實施例中,提取單元301可以將上述目標資料輸入至卷積神經網路模型,透過該卷積神經網路模型對目標資料進行目標識別處理,得到特徵向量。其中,卷積神經網路模型為與訓練後的模型。
處理單元302,用於確定預設神經網路的初始單元資料和初始隱藏資料,並將所述特徵向量以及初始單元資料和初始隱藏資料輸入至所述預設神經網路進行處理,以對所述預設神經網路的單元資料和隱藏資料進行更新,並儲存更新後的隱藏資料。
在一實施例中,上述預設神經網路可以為LSTM網路,且在該LSTM網路中僅包括一個LSTM單元以及全連接層。
比如,在第一次使用LSTM網路進行更新時,處理單元302先確定前一級的卷積神經網路輸入的資料X1,然後確定該LSTM網路的初始單元資料C0和初始隱藏資料h0,可以分別設為0,然後處理單元302將X1、C0以及h0作為LSTM網路中的LSTM單元的輸入,經過該LSTM單元的內部運算後,輸出更新後的單元資料C1和更新後的隱藏資料h1,並將隱藏資料h1進行儲存。
需要說明的是,上述初始單元資料C0和和初始隱藏資料h0,在Caffe框架的LSTM網路中是透過LSTM單元內建輸入的,即由LSTM單元內部生成的,LSTM網路外部不可見,而在本申請實施例提供的其他架構下的LSTM網路中,上述初始單元資料C0和和初始隱藏資料h0則作為整個LSTM網路的輸入。另外,還增加了LSTM網路的輸出,即更新後的單元資料C1和更新後的隱藏資料h1。自此,完成了一個單一的LSTM網路的運算。
更新單元303,用於將所述更新後的單元資料和隱藏資料再次輸入至所述預設神經網路進行處理,以再次對所述單元資料和隱藏資料進行更新,將所述更新過程遞迴處理預設次數,並儲存每次更新後的隱藏資料。
在本申請實施例中,由於LSTM網路中僅包含一個LSTM單元,因此在得到上述更新後的單元資料C1和隱藏資料h1之後,還需要再次輸入至該LSTM網路進行處理。
在一實施例中,更新單元303透過上述LSTM網路多次對單元資料和隱藏資料進行更新,每次輸入該LSTM網路的輸入值都包括:經過前級卷積神經網路處理後的資料Xt、前一級LSTM單元輸出的隱藏資料ht-1以及前一級LSTM單元輸出的單元資料Ct-1,輸出則為更新後的隱藏資料ht和單元資料Ct,且保存隱藏資料ht。
輸出單元304,用於將所述預設次數處理後儲存的多個隱藏資料進行合併,以作為目標資料特徵進行輸出。
比如在使用LSTM網路進行16次更新後,得到最後一次更新的隱藏資料h16和單元資料C16,並在保存隱藏資料h16後,輸出單元304將經過16次更新分別輸出的h1、h2、h3……h16按照順序進行儲存,並對上述16個隱藏資料進行合併,以作為目標資料特徵進行輸出。
在一實施例中,請參閱圖6,圖6為本發明實施例提供的目標資料特徵提取裝置300的另一種結構示意圖。其中,上述目標資料特徵提取裝置300中的所述提取單元301可以包括:
預處理子單元3011,用於對所述目標資料進行預處理;
提取子單元3012,用於將所述預處理後的目標資料輸入至卷積神經網路中進行處理,以提取所述目標資料的特徵向量。
在一實施例中,所述處理單元302可以包括:
第一處理子單元3021,用於將所述特徵向量以及初始隱藏資料合併後輸入至所述全連接層進行處理,得到處理結果;
第二處理子單元3022,用於將所述處理結果和所述初始單元資料輸入至所述長短期記憶網路單元進行處理。
以上對本發明實施例所提供的目標資料特徵提取方法、裝置進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。
101~104,201~208:步驟 Xt:經過前級卷積神經網路處理後的資料 ht-1:前一級LSTM單元輸出的隱藏資料 Ct-1:前一級LSTM單元輸出的單元資料 Ct:更新後的單元資料 ht:更新後的隱藏資料 300:目標資料特徵提取裝置 301:提取單元 302:處理單元 303:更新單元 304:輸出單元 3011:預處理子單元 3012:提取子單元 3021:第一處理子單元 3022:第二處理子單元
為了更清楚地說明本發明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本發明實施例提供的目標資料特徵提取方法的一種流程示意圖; 圖2是本發明實施例提供的長短期記憶網路單元的結構示意圖; 圖3是本發明實施例提供的目標資料特徵提取方法的另一流程示意圖; 圖4為本發明實施例提供的全連接層的結構示意圖; 圖5為本發明實施例提供的目標資料特徵提取裝置的結構示意圖; 圖6為本發明實施例提供的目標資料特徵提取裝置的另一種結構示意圖。
101~104:步驟

Claims (10)

  1. 一種目標資料特徵提取方法,應用於一電子裝置,包括:該電子裝置提取一目標資料的特徵向量;該電子裝置確定預設神經網路的一初始單元資料和一初始隱藏資料,並將所述特徵向量以及初始單元資料和初始隱藏資料輸入至所述預設神經網路進行處理,以對所述預設神經網路的單元資料和隱藏資料進行一更新程序,並儲存更新後的隱藏資料;該電子裝置將所述更新後的單元資料和隱藏資料再次輸入至所述預設神經網路進行處理,以再次對所述單元資料和隱藏資料進行該更新程序,以一預設次數遞迴處理所述更新程序,並儲存每次更新後的隱藏資料;以及該電子裝置將所述預設次數處理後儲存的多個隱藏資料進行合併,以作為目標資料特徵進行輸出。
  2. 如請求項1之目標資料特徵提取方法,所述預設神經網路包括一全連接層和一長短期記憶網路單元,其中,將所述特徵向量以及初始單元資料和初始隱藏資料輸入至所述預設神經網路進行處理的步驟包括:該電子裝置將所述特徵向量以及初始隱藏資料合併後輸入至所述全連接層進行處理,得到一全連接層處理結果;以及該電子裝置將所述全連接層處理結果和所述初始單元資料輸入至所述長短期記憶網路單元進行處理。
  3. 如請求項2之目標資料特徵提取方法,其中,將所述特徵向量以及初始隱藏資料合併後輸入至所述全連接層進行處理,得到全連接層處理結果的步驟包括:該電子裝置將所述特徵向量以及初始隱藏資料合併後輸入至所述全連接層進行處理,生成一卷積特徵向量;以及該電子裝置將所述卷積特徵向量等分為多個子向量,並透過sigmoid函數對每個子向量進行處理,得到處理結果。
  4. 如請求項1之目標資料特徵提取方法,其係應用於一神經網路裝置中,所述神經網路裝置包括一長短期記憶網路單元,該方法係使用該長短期記憶網路單元對所述單元資料和所述隱藏資料進行該預設次數的遞迴處理。
  5. 如請求項2之目標資料特徵提取方法,其中,所述長短期記憶網路單元包括依次連接的一遺忘閘、一輸入閘和一輸出閘;所述遺忘閘用於確定輸入的單元資料中保留到當前時刻的單元資料;所述輸入閘用於確定輸入到當前長短期記憶網路單元中的資訊數量,並對當前長短期記憶網路單元的資料進行更新;以及所述輸出閘用於確定當前長短期記憶網路單元需要輸出的單元資料和隱藏資料。
  6. 如請求項5之目標資料特徵提取方法,其中,所述遺忘閘、輸入閘和輸出閘中包括多個函數,分別為sigmoid函數、tanh函數、加法函數以及乘法函數,所述多個函數透過神經網路處理器中的運算元來進行運算。
  7. 如請求項1之目標資料特徵提取方法,其中,所述提取目標資料的特徵向量的步驟包括:該電子裝置對所述目標資料進行預處理;以及該電子裝置將所述預處理後的目標資料輸入至卷積神經網路中進行處理,以提取所述目標資料的特徵向量。
  8. 一種目標資料特徵提取裝置,包括:一提取單元,用於提取目標資料的特徵向量;一處理單元,用於確定預設神經網路的初始單元資料和初始隱藏資料,並將所述特徵向量以及初始單元資料和初始隱藏資料輸入至所述預設神經網路進行處理,以對所述預設神經網路的單元資料和隱藏資料進行一更新程序,並儲存更新後的隱藏資料;一更新單元,用於將所述更新後的單元資料和隱藏資料再次輸入至所述預設神經網路進行處理,以再次對所述單元資料和隱藏資料進行該更新程序,以一預設次數遞迴處理所述更新程序,並儲存每次更新後的隱藏資料;以及一輸出單元,用於將所述預設次數處理後儲存的多個隱藏資料進行合併,以作為目標資料特徵進行輸出。
  9. 如請求項8之目標資料特徵提取裝置,其中,所述處理單元包括:一第一處理子單元,用於將所述特徵向量以及初始隱藏資料合併後輸入至所述全連接層進行處理,得到處理結果;以及 一第二處理子單元,用於將所述處理結果和所述初始單元資料輸入至所述長短期記憶網路單元進行處理。
  10. 如請求項8之目標資料特徵提取裝置,其中,所述提取單元包括:一預處理子單元,用於對所述目標資料進行預處理;以及一提取子單元,用於將所述預處理後的目標資料輸入至一卷積神經網路中進行處理,以提取所述目標資料的特徵向量。
TW109144343A 2020-07-31 2020-12-15 目標資料特徵提取方法、及裝置 TWI766478B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010761747.4 2020-07-31
CN202010761747.4A CN112200198B (zh) 2020-07-31 2020-07-31 目标数据特征提取方法、装置及存储介质

Publications (2)

Publication Number Publication Date
TW202207079A TW202207079A (zh) 2022-02-16
TWI766478B true TWI766478B (zh) 2022-06-01

Family

ID=74006048

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109144343A TWI766478B (zh) 2020-07-31 2020-12-15 目標資料特徵提取方法、及裝置

Country Status (3)

Country Link
US (1) US20220036125A1 (zh)
CN (1) CN112200198B (zh)
TW (1) TWI766478B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990473B (zh) * 2021-10-28 2022-09-30 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107769972A (zh) * 2017-10-25 2018-03-06 武汉大学 一种基于改进的lstm的电力通信网设备故障预测方法
CN108764009A (zh) * 2018-03-21 2018-11-06 苏州大学 基于深度残差长短时记忆网络的视频事件识别方法
TW201917566A (zh) * 2017-07-05 2019-05-01 美商深視有限公司 深度視覺處理器
US20200074227A1 (en) * 2016-11-09 2020-03-05 Microsoft Technology Licensing, Llc Neural network-based action detection

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474950B2 (en) * 2015-06-29 2019-11-12 Microsoft Technology Licensing, Llc Training and operation of computational models
US11263514B2 (en) * 2016-01-13 2022-03-01 Google Llc Processing and generating sets using recurrent neural networks
US10089742B1 (en) * 2017-03-14 2018-10-02 Adobe Systems Incorporated Automatically segmenting images based on natural language phrases
US11042782B2 (en) * 2017-03-20 2021-06-22 Intel Corporation Topic-guided model for image captioning system
US10657439B2 (en) * 2017-10-24 2020-05-19 Shanghai Cambricon Information Technology Co., Ltd Processing method and device, operation method and device
CN107958044A (zh) * 2017-11-24 2018-04-24 清华大学 基于深度时空记忆网络的高维序列数据预测方法和系统
US10614342B1 (en) * 2017-12-11 2020-04-07 Amazon Technologies, Inc. Outfit recommendation using recurrent neural networks
CN109147890B (zh) * 2018-05-14 2020-04-24 平安科技(深圳)有限公司 一种医学报告的生成方法及设备
CN109344391B (zh) * 2018-08-23 2022-10-21 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
US11170257B2 (en) * 2018-10-15 2021-11-09 Ancestry.Com Operations Inc. Image captioning with weakly-supervised attention penalty
US20200125958A1 (en) * 2018-10-19 2020-04-23 Preferred Networks, Inc. Training apparatus, training method, inference apparatus, inference method, and non-transitory computer readable medium
CN109784287A (zh) * 2019-01-22 2019-05-21 中国科学院自动化研究所 基于情景信号类前额叶网络的信息处理方法、系统、装置
US20220188345A1 (en) * 2019-03-26 2022-06-16 Nippon Telegraph And Telephone Corporation Search apparatus, training apparatus, search method, training method, and program
US11039205B2 (en) * 2019-10-09 2021-06-15 Sony Interactive Entertainment Inc. Fake video detection using block chain
US11551474B2 (en) * 2019-10-21 2023-01-10 Sony Interactive Entertainment Inc. Fake video detection
CN111314345B (zh) * 2020-02-19 2022-09-16 安徽大学 一种保护序列数据隐私方法、装置、计算机设备及存储介质
GB2624002A (en) * 2022-11-03 2024-05-08 Darkvision Tech Inc Method and system for characterizing perforations in a tubular

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074227A1 (en) * 2016-11-09 2020-03-05 Microsoft Technology Licensing, Llc Neural network-based action detection
TW201917566A (zh) * 2017-07-05 2019-05-01 美商深視有限公司 深度視覺處理器
CN107769972A (zh) * 2017-10-25 2018-03-06 武汉大学 一种基于改进的lstm的电力通信网设备故障预测方法
CN108764009A (zh) * 2018-03-21 2018-11-06 苏州大学 基于深度残差长短时记忆网络的视频事件识别方法

Also Published As

Publication number Publication date
CN112200198A (zh) 2021-01-08
US20220036125A1 (en) 2022-02-03
TW202207079A (zh) 2022-02-16
CN112200198B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN113705769B (zh) 一种神经网络训练方法以及装置
Lokanath et al. Accurate object classification and detection by faster-RCNN
EP3992975A1 (en) Compound property analysis method and apparatus, compound property analysis model training method, and storage medium
Cruz et al. Using convolutional neural networks in robots with limited computational resources: detecting NAO robots while playing soccer
CN112639828A (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN109902293A (zh) 一种基于局部与全局互注意力机制的文本分类方法
WO2022068623A1 (zh) 一种模型训练方法及相关设备
CN109564572A (zh) 生成用于自动聊天的问题-答案对
Shetty et al. Video captioning with recurrent networks based on frame-and video-level features and visual content classification
CN109472274B (zh) 深度学习分类模型的训练装置和方法
CN111339308B (zh) 基础分类模型的训练方法、装置和电子设备
Gruber et al. Facing face recognition with ResNet: Round one
CN110457471A (zh) 基于A-BiLSTM神经网络的文本分类方法和装置
Tur et al. Evaluation of hidden markov models using deep cnn features in isolated sign recognition
TWI766478B (zh) 目標資料特徵提取方法、及裝置
CN116401552A (zh) 一种分类模型的训练方法及相关装置
CN117171554A (zh) 一种模型训练方法及相关设备
CN111652349A (zh) 一种神经网络的处理方法及相关设备
CN113407820B (zh) 利用模型进行数据处理的方法及相关系统、存储介质
Zhu et al. A novel simple visual tracking algorithm based on hashing and deep learning
Liu et al. A signer-independent sign language recognition method for the single-frequency dataset
CN114780863B (zh) 基于人工智能的项目推荐方法、装置、计算机设备及介质
Paharia et al. Optimization of convolutional neural network hyperparameters using improved competitive gray wolf optimizer for recognition of static signs of Indian Sign Language
Zhang et al. A novel CapsNet neural network based on MobileNetV2 structure for robot image classification
Sumera et al. Implementation of CNN and ANN for Fashion-MNIST-Dataset using Different Optimizers