TWI779454B - 動作辨識裝置及動作辨識方法 - Google Patents

動作辨識裝置及動作辨識方法 Download PDF

Info

Publication number
TWI779454B
TWI779454B TW110100748A TW110100748A TWI779454B TW I779454 B TWI779454 B TW I779454B TW 110100748 A TW110100748 A TW 110100748A TW 110100748 A TW110100748 A TW 110100748A TW I779454 B TWI779454 B TW I779454B
Authority
TW
Taiwan
Prior art keywords
action
cluster
motion
time interval
classifier
Prior art date
Application number
TW110100748A
Other languages
English (en)
Other versions
TW202228016A (zh
Inventor
江振國
劉永平
林志成
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW110100748A priority Critical patent/TWI779454B/zh
Priority to US17/155,353 priority patent/US11386714B1/en
Publication of TW202228016A publication Critical patent/TW202228016A/zh
Application granted granted Critical
Publication of TWI779454B publication Critical patent/TWI779454B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

一種動作辨識裝置及方法被揭露。該裝置擷取在一時間區間內的複數第一動作特徵向量,並擷取緊接著該時間區間的另一時間區間內的複數第二動作特徵向量;計算且排序各第一動作特徵向量與複數群中心之間的距離,以產生對應之各個第一群中心序列,並計算且排序各第二動作特徵向量與該些群中心之間的距離,以產生對應之各個第二群中心序列;根據該些第一群中心序列中群中心的出現次數、該些第二群中心序列中群中心的出現次數、以及該些第一群中心序列與該些第二群中心序列中群中心的出現次數,分別辨識出第一分解動作、第二分解動作及整體動作。

Description

動作辨識裝置及動作辨識方法
本發明係關於一種動作辨識裝置及用於該動作辨識裝置的動作辨識方法。具體而言,本發明係關於一種可同時辨識出分解動作及連續動作的動作辨識裝置及用於該動作辨識裝置的動作辨識方法。
雖然已存在基於「機器學習」的動作辨識模型,但這樣的動作辨識模型尚無法從連續動作中既精準地辨識出分解動作,又精準地辨識出整體動作。詳言之,分解動作與整體動作的時間長度不同,而現有的動作辨識模型只能建立在固定時間長度的動作訓練以及動作辨識。換言之,若某一個傳統的動作辨識模型是針對短時間長度的動作進行機器訓練而產生的,則其最多就只能準確地辨識出連續動作中的分解動作(短時間的動作);反之,若某一個傳統的動作辨識模型是針對長時間長度的動作進行機器訓練而產生的,則其最多也就只能準確地辨識出連續動作中的整體動作(長時間的動作)。因此,若要既精準地辨識出連續動作中的分解動作,又要精準地辨識出連續動作中的整體動作,則必須採用且整合短時間動作辨識模型以及長時間動作辨識模型二者,故會明顯增加各種成本(建模、訓練、測試等成本),且尚須克服整合二者的技術阻礙。
有鑑於此,如何提供能夠既精準地辨識出連續動作中的分解動作且精準地辨識出連續動作中的整體動作的動作辨識技術,將是本發明所屬技術領域亟待解決的問題。
為了解決至少上述的問題,本發明的實施例提供了一種動作辨識裝置。該動作辨識裝置可包含一儲存器及一處理器。其中該處理器與該儲存器電性連接。該儲存器用以儲存一特徵擷取器、一集群器、一分類器、以及一待辨識資料。該處理器透過該特徵擷取器,從該待辨識資料中,擷取在一第一時間區間內的複數第一動作特徵向量,並擷取在一第二時間區間內的複數第二動作特徵向量,其中該第二時間區間緊接著該第一時間區間。該處理器透過該集群器,計算且排序各個第一動作特徵向量與複數群中心之間的距離,以針對各個第一動作特徵向量產生對應之各個一第一群中心序列,並計算且排序各個第二動作特徵向量與該複數群中心之間的距離,以針對各個第二動作特徵向量產生對應之各個一第二群中心序列。該處理器根據該複數第一群中心序列中群中心的出現次數獲得一第一長條圖、根據該複數第二群中心序列中群中心的出現次數獲得一第二長條圖,以及根據該複數第一群中心序列與該複數第二群中心序列二者中群中心的出現次數獲得一第三長條圖。該處理器透過該分類器,辨識出該第一長條圖所對應的一第一分解動作、該第二長條圖所對應的一第二分解動作、以及該第三長條圖所對應的一整體動作。
為了解決至少上述的問題,本發明的實施例還提供了用於一動作辨識裝置的動作辨識方法。該方法可包含以下步驟:透過一特徵擷取器,從一待辨識資料中,擷取在一第一時間區間內的複數第一動作特徵向量,並擷取在一第二時間區間內的複數第二動作特徵向量,其中該第二時間區間緊接著該第一時間區間;透過一集群器,計算且排序各個第一動作特徵向量與複數群中心之間的距離,以針對各個第一動作特徵向量產生對應之各個一第一群中心序列,並計算且排序各個第二動作特徵向量與該複數群中心之間的距離,以針對各個第二動作特徵向量產生對應之各個一第二群中心序列;根據該複數第一群中心序列中群中心的出現次數獲得一第一長條圖、根據該複數第二群中心序列中群中心的出現次數獲得一第二長條圖,以及根據該複數第一群中心序列與該複數第二群中心序列二者中群中心的出現次數獲得一第三長條圖;以及透過一分類器,辨識出該第一長條圖所對應的一第一分解動作、該第二長條圖所對應的一第二分解動作、以及該第三長條圖所對應的一整體動作。
如上所述,該複數群中心可表示為該待辨識資料的「動作基底」,各個第一群中心序列與各個第二群中心序列都是基於同樣的「動作基底」而計算出來的。另外,根據計算複數第一群中心序列中群中心的出現次數而獲得的第一長條圖被用來辨識連續動作中第一時間區間內的分解動作(短時間的動作),根據計算複數第二群中心序列中群中心的出現次數而獲得的第二長條圖被用來辨識連續動作中第二時間區間內的分解動作(短時間的動作),而根據計算該複數第一群中心序列和複數第二群中心序列中群中心的出現次數而獲得的第三長條圖被用來辨識出連續動作中橫跨第一時間區間與第二時間區間的整體動作(長時間的動作)。無論是第一群中心序列或是第二群中心序列都是對應到同一組群中心,故相當於第一長條圖、第二長條圖與第三長條圖都是透過同樣的「動作基底」來表示。據此,在本揭露中,只需要建立一個動作辨識模型,就能夠精準地辨識出連續動作中的每一個分解動作(短時間的動作)與多個不同分解動作所組成的一或多個整體動作(長時間的動作),故可避免同時採用短時間動作辨識模型以及長時間動作辨識模型二者所產生的各種成本(建模、訓練、測試等成本)及所要解決的技術阻礙。據此,本文所揭露的內容確實有效地解決了傳統的動作辨識所面臨的上述問題。
以上內容並非為了限制本發明,而只是概括地敘述了本發明可解決的技術問題、可採用的技術手段以及可達到的技術功效,以讓本發明所屬技術領域中具有通常知識者初步地瞭解本發明。根據檢附的圖式及以下的實施方式所記載的內容,本發明所屬技術領域中具有通常知識者便可進一步瞭解本發明的各種實施例的細節。
以下將透過多個實施例來說明本發明,惟這些實施例並非用以限制本發明只能根據所述操作、環境、應用、結構、流程或步驟來實施。與本發明非直接相關的元件並未繪示於圖式中,但可隱含於圖式中。於圖式中,各元件(element)的尺寸以及各元件之間的比例僅是範例,而非用以限制本發明。除了特別說明之外,在以下內容中,相同(或相近)的元件符號可對應至相同(或相近)的元件。在可被實現的情況下,如未特別說明,以下所述的每一個元件的數量可以是一個或多個。
本揭露使用之用語僅用於描述實施例,並不意圖限制本發明。除非上下文另有明確說明,否則單數形式「一」也旨在包括複數形式。「包括」、「包含」等用語指示所述特徵、整數、步驟、操作、元素及/或元件的存在,但並不排除一或多個其他特徵、整數、步驟、操作、元素、元件及/或前述之組合之存在。用語「及/或」包含一或多個相關所列項目的任何及所有的組合。
除非上下文另有其他說明,否則有關「時間區間」、「動作特徵向量」、「群中心序列」、「長條圖」、「動作」等用語前被冠以「第一」、「第二」或「第三」,僅是為了區隔,且不應理解為具有順序性。
圖1A例示了根據某些實施例的動作辨識裝置的架構示意圖。圖1A所示內容僅是為了舉例說明本發明的實施例,而非為了限制本發明的保護範圍。
如圖1A所示,動作辨識裝置1可包含一儲存器11及一處理器13,且二者彼此電性連接(直接或間接連接)。處理器13可以是一種可程式化的特殊積體電路,其具有運算、儲存、輸出/輸入等能力,且可接受並處理各種編碼指令,藉以進行各種邏輯運算與算術運算,並輸出相應的運算結果。處理器13可被編程以解釋各種指令與執行各項任務或程式,以完成本揭露中所述的各種動作。舉例而言,處理器13可以包含:中央處理單元(Central Processing Unit,CPU)、數位訊號處理器(Digital Signal Processor,DSP)、微處理器(Microprocessor)、及/或微控制器(Microcontroller)等等。
儲存器11可包含一第一級儲存裝置(例如,記憶體),其與處理器13直接連接,並儲存處理器13可讀取的指令集。在某些實施例中,除了第一級儲存裝置,儲存器11還可包含一第二級儲存裝置(例如,硬碟、光碟),其透過內部的I/O通道來與處理器13連接,使用資料緩衝器來將資料傳送至該第一級記憶體。在某些實施例中,除了第一級儲存裝置與第二級儲存裝置之外,儲存器11亦可包含一第三級儲存裝置(例如,隨身碟、雲端硬碟),其也可將資料複製到該第二級儲存裝置內。
儲存器11可用以儲存一特徵擷取器20、一集群器30、一分類器40、以及一或多筆待辨識資料ID。每一筆待辨識資料ID可包含一連續動作資料。舉例而言,該連續動作資料可以是於一長時間區間(例如,2秒)內所產生的一段連續動作(例如,伸手再握手、或蹲下再跳躍等),且該段連續動作包含在多個短時間區間(例如,1秒)內所分別產生的多個分解動作(例如,前1秒伸手而後1秒握手、或是前1秒蹲下而後1秒跳躍等)。
儲存器11所儲存的特徵擷取器20、集群器30、與分類器40,可以是由動作辨識裝置1自行建立的,也可以是由外部裝置預先建立的。若由動作辨識裝置1自行建立特徵擷取器20、集群器30、與分類器40,則儲存器11可額外儲存多筆訓練資料TD,且由處理器13利用該多筆訓練資料TD訓練一特徵擷取模型、一集群模型、與一分類模型,以分別地建立特徵擷取器20、集群器30、與分類器40。如同待辨識資料ID,每一筆訓練資料TD同樣可包含一個連續動作資料,該連續動作資料可以是於一長時間區間內所產生的一段連續動作,且該段連續動作包含在多個短時間區間內所分別產生的多個分解動作。
特徵擷取器20可以是各種已知的特徵擷取器。舉例而言,在某些實施例中,特徵擷取器20可以是一卷積自動編碼器(Convolution Auto-Encoder,CAE),而在此情況下,處理器13可以使用訓練資料TD來訓練一CAE模型,以產生特徵擷取器20。訓練資料TD所包含的每一個連續動作資料可包含跨越多個時間點的多筆動作資料,且每一筆動作資料可作為CAE模型的一輸入。CAE模型可包含一編碼器與一解碼器,且該編碼器會編碼(Encode)並轉換該輸入以產生一隱藏空間表示(Latent-Space Representation),然後該解碼器會解碼(Decode)該隱藏空間表示以產生CAE模型的一輸出。重複調整該CAE模型的參數,直到CAE模型的輸出趨近於CAE模型的輸入,以將該編碼器訓練成特徵擷取器20。透過特徵擷取器20,處理器13便可以從訓練資料TD所包含的每一個連續動作資料所包含的每一筆動作資料中萃取一組動作特徵(相當於是一隱藏空間表示),且將其表示為一動作特徵向量(例如,降維後為128維度的向量)。
集群器30可以是各種已知的集群器。舉例而言,在某些實施例中,集群器30可以是一k-means集群器,而在此情況下,處理器13可以使用源自於訓練資料TD的動作特徵向量來訓練一k-means集群模型,以產生集群器30。k-means集群模型可先根據群總數以及初始群中心位置來針對特徵擷取器20所產生的每一個動作特徵向量進行分群,然後根據分群結果調整群中心位置。重複上述動作,直到群中心位置大致不再變動為止,以將該k-means集群模型訓練成集群器30。集群器30可以包含多個群,且每一個群具有一群中心。透過集群器30,處理器13便可以計算出特徵擷取器20所產生的每一個動作特徵向量與該多個群中心之間的距離,並根據這些距離由近至遠,針對每一個動作特徵向量產生一群中心序列。各個群中心序列的元素數量小於集群器30的群中心數量。舉例而言,若集群器30的群中心數量是50個,則各個群中心序列的元素數量可以保留前20個或前30個元素(即,只保留與各個動作特徵向量最接近的前20個或前30個群中心)。
以下將結合圖1B,舉例說明如何產生上述群中心序列。圖1B例示了根據本發明某些實施例的動作辨識裝置1如何產生群中心序列的示意圖。圖1B所示內容僅是為了舉例說明本發明的實施例,而非為了限制本發明的保護範圍。
如圖1B所示,集群器30包含群C1、C2、C3,且群C1、C2、C3分別具有群中心C1 C、C2 C、C3 C,透過集群器30,處理器13可計算出動作特徵向量V1與群中心C1 C、C2 C、C3 C之間的距離d11、d12、d13,並根據距離d11、d12、d13由近而遠排序,以產生群中心序列S1。另外,透過集群器30,處理器13可計算出動作特徵向量V2與群中心C1 C、C2 C、C3 C之間的距離d21、d22、d23,並根據距離d21、d22、d23由近而遠排序,以產生群中心序列S2。因與動作特徵向量V1最接近的為群中心依序為C1 C、C2 C、C3 C,故其對應的群中心序列S1即可表示為[1、2、3];而與動作特徵向量V2最接近的為群中心依序為C3 C、C1 C、C2 C,故其對應的群中心序列S2即可表示為[3、1、2]。
針對每一筆訓練資料TD所提供的連續動作資料,處理器13可根據訓練資料TD計算一時間區間(例如,長時間區間或短時間區間)內的動作特徵向量的數量,並透過滑動視窗(Sliding Window)判斷該時間區間內的群中心序列數量。每一次滑動視窗都會與前或後視窗的部分相疊。舉例而言,處理器13可根據以下方程式表示一短時間區間內的短時間動作特徵向量的數量,並根據該方程式的各參數計算該短時間區間的群中心序列數量:
Figure 02_image001
(方程式一) 當中,
Figure 02_image003
代表一短時間區間(例如,1秒)內包含的短時間動作特徵向量的數量(例如,30),
Figure 02_image005
代表視窗的大小(例如,10),
Figure 02_image007
代表每次視窗所滑動的值(例如,1),
Figure 02_image009
代表視窗滑動的次數(例如,20)。根據上述範例,
Figure 02_image011
Figure 02_image013
Figure 02_image015
,該短時間區間內的短時間動作特徵向量的數量為30(即,
Figure 02_image003
),且該短時間區間的群中心序列數量為21(即,
Figure 02_image017
)個。
處理器13可以根據上述方程式,且透過特徵擷取器20與集群器30的上述運作,產生對應到各個短時間區間的多個群中心序列,並藉由統計在各個短時間區間內所產生的多個群中心序列中群中心的出現次數,為各個短時間區間產生一短時間長條圖。另外,處理器13可以透過特徵擷取器20與集群器30的上述運作,產生對應到各個長時間區間的多個群中心序列,並藉由統計在各個長時間區間內所產生的多個群中心序列中群中心的出現次數,為各個長時間區間產生一長時間長條圖。所述短時間長條圖與長時間長條圖都是以相同的動作基底來表示。
以下將結合圖1C,舉例說明如何產生上述長條圖。圖1C例示了根據本發明某些實施例的動作辨識裝置1如何計算以獲得長條圖的示意圖。圖1C所示內容僅是為了舉例說明本發明的實施例,而非為了限制本發明的保護範圍。
如圖1C所示,透過特徵擷取器20,處理器13可從訓練資料TD中,擷取一第一時間區間1S(例如,第0秒至第1秒)內對應到多筆動作資料的複數第一動作特徵向量(此處的第一動作特徵向量為對應第一時間區間1S而定義的名稱,依據滑動視窗依序排列複數第一動作特徵向量,故複數個第一動作特徵向量中的各個第一動作特徵向量可相同也可不同),並擷取緊接著在第一時間區間1S後的一第二時間區間1S’(例如,第1秒至第2秒)內對應到多筆動作資料的複數第二動作特徵向量(此處的第二動作特徵向量為對應第二時間區間1S’而定義的名稱,依據滑動視窗依序排列複數第二動作特徵向量,故複數個第二動作特徵向量中的各個第二動作特徵向量可相同也可不同)。透過集群器30,處理器13可計算並排序複數第一動作特徵向量與多個群中心之間的距離,以針對每一個第一動作特徵向量產生對應的各個第一群中心序列,且計算並排序複數第二動作特徵向量與該多個群中心之間的距離,以針對每一個第二動作特徵向量產生對應的第二群中心序列。其中,該複數群中心可表示為訓練資料TD的「動作基底」,各個第一群中心序列與各個第二群中心序列都是基於同樣的「動作基底」而計算出來的。
進一步地,處理器13可根據計算該複數第一群中心序列中的各個群中心的出現次數,得到對應到第一時間區間1S(短時間)的一第一長條圖,且根據計算該複數第二群中心序列中的各個群中心的出現次數,得到對應到第二時間區間1S’(短時間)的一第二長條圖。除此之外,處理器13還可根據計算該複數第一群中心序列與該複數第二群中心序列二者中的各個群中心的出現次數,得到對應到時間區間2S(長時間)的一第三長條圖。該第三長條圖等於該第一長條圖的數值與該第二長條圖的數值相加之結果,且無論是第一群中心序列或是第二群中心序列都是對應到同一組群中心,故相當於該第一長條圖、該第二長條圖與該第三長條圖均是以相同的動作基底來表示。
處理器13可先擷取第一時間區間1S內的該複數第一動作特徵向量,然後再擷取第二時間區間1S’內的該複數第二動作特徵向量,但也可以反過來。在計算完該複數第一動作特徵向量後,處理器13可以先計算該複數第一動作特徵向量與該多個群中心之間的距離,然後再擷取第二時間區間1S’內的該複數第二動作特徵向量。或者,在計算完該複數第一動作特徵向量後,處理器13可以先擷取第二時間區間1S’內的複數第二動作特徵向量,然後再計算該複數第一動作特徵向量與該多個群中心之間的距離。
分類器40可以是各種已知的分類器。舉例而言,在某些實施例中,分類器40可以是一長短期記憶(Long Short Term Memory,LSTM)分類器,而在此情況下,處理器13可以使用源自於訓練資料TD的短時間長條圖與長時間長條圖來訓練一LSTM分類模型,以產生分類器40。詳言之,另外,處理器13可將使用相同動作基底表示的短時間長條圖與長時間長條圖分別輸入到LSTM分類模型,而LSTM分類模型會將每一個短時間長條圖與每一個長時間長條圖分類到一對應的動作。處理器13可將每一個短時間長條圖與每一個長時間長條圖與各個動作所對應的一基準真相(Ground Truth)做相似度比較,若兩者相似度的信心程度夠高,則輸出該動作作為答案。反之,重複進行上述動作,直到一預設的損失函數被滿足,以將LSTM分類模型訓練成分類器40。
在某些實施例中,該預設的損失函數可由一分類損失(Classification Loss)來表示。舉例而言,該預設的損失函數可表示如下:
Figure 02_image019
(方程式二) 當中,
Figure 02_image021
代表時間點,
Figure 02_image023
代表該時間點的動作,
Figure 02_image025
表示該動作的一偵測分數(即,機率)。
在某些實施例中,該預設的損失函數可由該分類損失與一排序損失(Ranking Loss)來表示。舉例而言,該預設的損失函數可表示如下:
Figure 02_image027
(方程式三) 當中,
Figure 02_image029
為分類損失,
Figure 02_image031
為控制常數,且
Figure 02_image033
為排序損失。
在某些實施例中,該排序損失
Figure 02_image033
可以是基於一偵測分數(Detection Score)的排序損失
Figure 02_image035
。排序損失
Figure 02_image035
可用以拉高動作本身的分數。舉例而言,排序損失
Figure 02_image035
可以表示如下:
Figure 02_image037
(方程式四) 當中,
Figure 02_image039
代表時間點
Figure 02_image041
的動作
Figure 02_image043
的一偵測分數; 當時間點
Figure 02_image021
的動作
Figure 02_image043
與時間點
Figure 02_image041
的動作
Figure 02_image045
相同,則
Figure 02_image047
Figure 02_image049
為最初時間點
Figure 02_image051
Figure 02_image053
之中的最大偵測分數;以及 當時間點
Figure 02_image021
的動作
Figure 02_image043
與時間點
Figure 02_image041
的動作
Figure 02_image045
不同,則
Figure 02_image055
Figure 02_image057
在某些實施例中,該排序損失
Figure 02_image033
也可以是基於一鑑別式邊際(Discriminative Margin)的排序損失
Figure 02_image059
。排序損失
Figure 02_image059
可用以拉高動作本身的分數並抑制最相似但是錯誤的動作。在某些實施例中,可計算一鑑別式邊際是否滿足一閾值。若滿足該閾值,則採該動作;若未滿足該閾值,則再加入另一時間點的動作進行判斷。其中該鑑別式邊際為一動作的一偵測分數與另一動作的一最大偵測分數的差異值。舉例而言,上述計算可以表示如下:
Figure 02_image061
(方程式五) 當中,動作
Figure 02_image023
與動作
Figure 02_image063
不同,
Figure 02_image065
代表動作
Figure 02_image023
的一偵測分數,
Figure 02_image067
代表動作
Figure 02_image063
的一最大偵測分數。另舉例而言,排序損失
Figure 02_image059
可以表示如下:
Figure 02_image069
(方程式六) 當中,
Figure 02_image071
代表時間點
Figure 02_image041
的動作
Figure 02_image043
的一鑑別式邊際; 當時間點
Figure 02_image021
的動作
Figure 02_image043
與時間點
Figure 02_image041
的動作
Figure 02_image045
相同,則
Figure 02_image047
Figure 02_image073
為最初時間點
Figure 02_image051
至時間點
Figure 02_image041
之中的最大鑑別式邊際;以及 當時間點
Figure 02_image021
的動作
Figure 02_image043
與時間點
Figure 02_image041
的動作
Figure 02_image045
不同,則
Figure 02_image055
Figure 02_image075
針對每一筆待辨識資料ID所提供的連續動作資料,處理器13可以透過特徵擷取器20,擷取出各個短時間區間內的複數短時間動作特徵向量,以及擷取出各個長時間區間內的複數長時間動作特徵向量。接著,透過集群器30,處理器13可以計算且排序各個短時間動作特徵向量與複數群中心之間的距離,以針對各個短時間動作特徵向量產生一短時間群中心序列,並計算且排序各個長時間動作特徵向量與該複數群中心之間的距離,以針對各個長時間動作特徵向量產生一長時間群中心序列。其中,該複數群中心可表示為待辨識資料ID的「動作基底」,各個短時間群中心序列與各個長時間群中心序列都是基於同樣的「動作基底」而計算出來的。
然後,處理器13可以藉由統計對應到各個短時間區間的複數短時間群中心序列中群中心的出現次數來計算而得到短時間長條圖,且藉由統計對應到各個長時間區間的複數長時間群中心序列中群中心的出現次數來計算而得到長時間長條圖。無論是短時間群中心序列或是長時間群中心序列都是對應到同一組群中心,故相當於短時間長條圖與長時間長條圖都是透過同樣的「動作基底」來表示。最後,透過分類器40,處理器13可將各個得到的短時間長條圖進行分類,以辨識出一短時間動作(分解動作),且可將各個得到的長時間長條圖進行分類,以辨識出一長時間動作(整體動作)。
以一連續動作資料只包含第一時間區間內的第一動作資料以及緊接著該第一時間區間的第二時間區間內的第二動作資料為例來說明。透過特徵擷取器20,處理器13可以擷取在該第一時間區間內該第一動作資料的複數第一動作特徵向量,並擷取在該第二時間區間內的該第二動作資料的複數第二動作特徵向量,其中該第二時間區間緊接著該第一時間區間。然後,透過集群器30,處理器13可計算且排序各個第一動作特徵向量與複數群中心之間的距離,以針對各個第一動作特徵向量產生對應之各個一第一群中心序列,並計算且排序各個第二動作特徵向量與該複數群中心之間的距離,以針對各個第二動作特徵向量產生對應之各個一第二群中心序列。其中,該複數群中心可表示為該待辨識資料的「動作基底」,各個第一群中心序列與各個第二群中心序列都是基於同樣的「動作基底」而計算出來的。
接著,處理器13可根據計算該複數第一群中心序列中群中心的出現次數獲得一第一長條圖、根據計算該複數第二群中心序列中群中心的出現次數獲得一第二長條圖,以及根據計算該複數第一群中心序列與該複數第二群中心序列二者中群中心的出現次數獲得一第三長條圖。無論是第一群中心序列或是第二群中心序列都是對應到同一組群中心,故相當於第一長條圖、第二長條圖與第三長條圖都是透過同樣的「動作基底」來表示。最後,透過分類器40,處理器13可將得到的該第一長條圖、該第二長條圖及該第三長條圖進行分類,以辨識出一第一分解動作(即該第一時間區間中的分解動作)、一第二分解動作(即該第二時間區間的分解動作)、以及一整體動作(即該第一時間區間及第二時間區間的完整動作)。
在某些實施例中,動作辨識裝置1還可額外包含一輸入介面,其中該輸入介面用以從一感測器接收待辨識資料ID。舉例而言,該感測器可包含一慣性測量單元(Inertial measurement unit,IMU),用以產生待辨識資料ID與訓練資料TD。在某些實施例中,前述之感測器可為設置在身體的不同位置的多個感測器。
圖2例示了根據本發明某些實施例的動作辨識裝置的方法的流程圖。圖2所示內容僅是為了舉例說明本發明的實施例,而非為了限制本發明的保護範圍。
參照圖2,一種用於一動作辨識裝置的動作辨識方法(下稱「動作辨識方法2」)可包含以下步驟:透過一特徵擷取器,從一待辨識資料中,擷取在一第一時間區間內的複數第一動作特徵向量(標示為步驟201);透過該特徵擷取器,從該待辨識資料中,擷取在一第二時間區間內的複數第二動作特徵向量,其中該第二時間區間緊接著該第一時間區間(標示為步驟203);透過一集群器,計算且排序各個第一動作特徵向量與複數群中心之間的距離,以針對各個第一動作特徵向量產生對應之各個一第一群中心序列(標示為步驟205);透過該集群器,計算且排序各個第二動作特徵向量與該複數群中心之間的距離,以針對各個第二動作特徵向量產生對應之各個一第二群中心序列(標示為步驟207);根據該複數第一群中心序列中群中心的出現次數獲得一第一長條圖、根據該複數第二群中心序列中群中心的出現次數獲得一第二長條圖,以及根據該複數第一群中心序列與該複數第二群中心序列二者中群中心的出現次數獲得一第三長條圖(標示為步驟209);透過一分類器,辨識出該第一長條圖所對應的一第一分解動作、該第二長條圖所對應的一第二分解動作、以及該第三長條圖所對應的一整體動作(標示為步驟211)。
圖2所示的步驟順序並非限制,且在可以實施的情況下,所示步驟順序可以被任意調整。在某些實施例中,可以依序執行步驟201、步驟203、步驟205、步驟207、步驟209及步驟211。在某些實施例中,可以依序執行步驟201、步驟205、步驟203、步驟207、步驟209及步驟211。在某些實施例中,可以依序執行步驟203、步驟207、步驟201、步驟205、步驟209及步驟211。在某些實施例中,可以依序執行步驟203、步驟201、步驟207、步驟205、步驟209及步驟211。在某些實施例中,步驟205和步驟207可以同時執行。
在某些實施例中,步驟209可以被拆解為三個子步驟,且可以分別地執行該三個子步驟。例如,在產生該複數第一群中心序列之後,即使尚未產生該複數第二群中心序列,仍可以先執行步驟209中有關該第一長條圖的計算;反之亦然。同樣地,在某些實施例中,步驟211可以被拆解為三個子步驟,且可以分別地執行該三個子步驟。例如,在計算而得到該第一長條圖之後,即使尚未計算而得到該第二長條圖,仍可以先執行步驟209中有關該第一分解動作的辨識;反之亦然。
在某些實施例中,該特徵擷取器是一卷積自動編碼器。
在某些實施例中,該集群器是一k-means集群器。
在某些實施例中,該分類器是一長短期記憶分類器。
在某些實施例中,該分類器是一長短期記憶分類器。另外,該長短期記憶分類器的損失函數包含一分類損失與一排序損失,且該排序損失是基於一偵測分數或一鑑別式邊際。
在某些實施例中,動作辨識方法2還包含以下步驟:利用該訓練資料訓練一特徵擷取模型、一集群模型、與一分類模型,以分別地建立該特徵擷取器、該集群器、與該分類器。
在某些實施例中,動作辨識方法2還包含以下步驟:從一感測器接收該待辨識資料。
在某些實施例中,動作辨識方法2還包含以下步驟:從一感測器接收該待辨識資料。另外,該感測器包含一慣性測量單元。
在某些實施例中,動作辨識方法2的上述所有實施例都可以由動作辨識裝置1來執行。
動作辨識方法2的每一個實施例都會對應到上文針對動作辨識裝置1所說明的至少一個實施例。因此,通常知識者能夠根據上文針對動作辨識裝置1的說明而直接瞭解動作辨識方法2的所有相應實施例,即使上文未就動作辨識方法2的所有實施例進行詳述。
上述實施例只是舉例來說明本發明,而非為了限制本發明的保護範圍。任何針對上述實施例進行修飾、改變、調整、整合而產生的其他實施例,只要是本發明所屬技術領域中具有通常知識者不難思及的,都已涵蓋在本發明的保護範圍內。本發明的保護範圍以申請專利範圍為準。
如下所示: 1:動作辨識裝置 11:儲存器 13:處理器 20:特徵擷取器 30:集群器 40:分類器 ID:待辨識資料 TD:訓練資料 C1、C2、C3:群 C1 C、C2 C、C3 C:群中心 V1、V2:動作特徵向量 S1、S2:群中心序列 d11、d12、d13:距離 d21、d22、d23:距離 1S:第一時間區間 1S’:第二時間區間 2S:時間區間 2:用於一動作辨識裝置的動作辨識方法、動作辨識方法 201~211:步驟
圖1A例示了根據本發明某些實施例的動作辨識裝置的架構示意圖。
圖1B例示了根據本發明某些實施例的動作辨識裝置如何產生群中心序列的示意圖。
圖1C例示了根據本發明某些實施例的動作辨識裝置如何計算以獲得長條圖的示意圖。
圖2例示了根據本發明某些實施例的動作辨識方法的流程圖。
2:用於一動作辨識裝置的動作辨識方法 201~211:步驟

Claims (16)

  1. 一種動作辨識裝置,包含:一儲存器,用以儲存一特徵擷取器、一集群器、一分類器、以及一待辨識資料;以及一處理器,與該儲存器電性連接,且用以:透過該特徵擷取器,從該待辨識資料中,擷取在一第一時間區間內的複數第一動作特徵向量,並擷取在一第二時間區間內的複數第二動作特徵向量,其中該第二時間區間緊接著該第一時間區間;透過該集群器,計算且排序各個第一動作特徵向量與複數群中心之間的距離,以針對各個第一動作特徵向量產生對應之各個一第一群中心序列,並計算且排序各個第二動作特徵向量與該複數群中心之間的距離,以針對各個第二動作特徵向量產生對應之各個一第二群中心序列;根據該複數第一群中心序列中群中心的出現次數獲得一第一長條圖、根據該複數第二群中心序列中群中心的出現次數獲得一第二長條圖,以及根據該複數第一群中心序列與該複數第二群中心序列二者中群中心的出現次數獲得一第三長條圖;以及透過該分類器,辨識出該第一長條圖所對應的一第一分解動作、該第二長條圖所對應的一第二分解動作、以及該第三長條圖所對應的一整體動作。
  2. 如請求項1所述的動作辨識裝置,其中該特徵擷取器是一卷積自動編碼器(Convolution Auto-Encoder,CAE)。
  3. 如請求項1所述的動作辨識裝置,其中該集群器是一k-means集群器。
  4. 如請求項1所述的動作辨識裝置,其中該分類器是一長短期記憶(Long Short Term Memory,LSTM)分類器。
  5. 如請求項4所述的動作辨識裝置,其中該長短期記憶分類器的損失函數包含一分類損失(Classification Loss)與一排序損失(Ranking Loss),且該排序損失是基於一偵測分數(Detection Score)或一鑑別式邊際(Discriminative Margin)。
  6. 如請求項1所述的動作辨識裝置,其中:該儲存器還用以儲存訓練資料;以及該處理器還用以利用該訓練資料訓練一特徵擷取模型、一集群模型、與一分類模型,以分別地建立該特徵擷取器、該集群器、與該分類器。
  7. 如請求項1所述的動作辨識裝置,還包含一輸入介面,其中該輸入介面用以從一感測器接收該待辨識資料。
  8. 如請求項7所述的動作辨識裝置,其中該感測器包含一慣性測量單元(Inertial measurement unit,IMU)。
  9. 一種用於一動作辨識裝置的動作辨識方法,包含:透過一特徵擷取器,從一待辨識資料中,擷取在一第一時間區間內的複數第一動作特徵向量,並擷取在一第二時間區間內的複數第二動作特徵向量,其中該第二時間區間緊接著該第一時間區間;透過一集群器,計算且排序各個第一動作特徵向量與複數群中心之間的距離,以針對各個第一動作特徵向量產生對應之各個一第一群中心序列,並計算且排序各個第二動作特徵向量與該複數群中心之間的距離,以針對各個第二動作特徵向量產生對應之各個一第二群中心序列;根據該複數第一群中心序列中群中心的出現次數獲得一第一長條圖、根據該複數第二群中心序列中群中心的出現次數獲得一第二長條圖,以及根 據該複數第一群中心序列與該複數第二群中心序列二者中群中心的出現次數獲得一第三長條圖;以及透過一分類器,辨識出該第一長條圖所對應的一第一分解動作、該第二長條圖所對應的一第二分解動作、以及該第三長條圖所對應的一整體動作。
  10. 如請求項9所述的動作辨識方法,其中該特徵擷取器是一卷積自動編碼器。
  11. 如請求項9所述的動作辨識方法,其中該集群器是一k-means集群器。
  12. 如請求項9所述的動作辨識方法,其中該分類器是一長短期記憶分類器。
  13. 如請求項12所述的動作辨識方法,其中該長短期記憶分類器的損失函數包含一分類損失與一排序損失,且該排序損失是基於一偵測分數或一鑑別式邊際。
  14. 如請求項9所述的動作辨識方法,還包含:利用一訓練資料訓練一特徵擷取模型、一集群模型、與一分類模型,以分別地建立該特徵擷取器、該集群器、與該分類器。
  15. 如請求項9所述的動作辨識方法,還包含:從一感測器接收該待辨識資料。
  16. 如請求項15所述的動作辨識方法,其中該感測器包含一慣性測量單元。
TW110100748A 2021-01-08 2021-01-08 動作辨識裝置及動作辨識方法 TWI779454B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW110100748A TWI779454B (zh) 2021-01-08 2021-01-08 動作辨識裝置及動作辨識方法
US17/155,353 US11386714B1 (en) 2021-01-08 2021-01-22 Motion recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110100748A TWI779454B (zh) 2021-01-08 2021-01-08 動作辨識裝置及動作辨識方法

Publications (2)

Publication Number Publication Date
TW202228016A TW202228016A (zh) 2022-07-16
TWI779454B true TWI779454B (zh) 2022-10-01

Family

ID=82321912

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110100748A TWI779454B (zh) 2021-01-08 2021-01-08 動作辨識裝置及動作辨識方法

Country Status (2)

Country Link
US (1) US11386714B1 (zh)
TW (1) TWI779454B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115590505B (zh) * 2022-12-15 2023-03-14 楠楠聚智信息科技有限责任公司 一种智能运动监测装置数据异常分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200910221A (en) * 2007-05-15 2009-03-01 Koninkl Philips Electronics Nv Method of determining motion-related features and method of performing motion classification
US20110228987A1 (en) * 2008-10-27 2011-09-22 Masahiro Iwasaki Moving object detection method and moving object detection apparatus
TW201727236A (zh) * 2016-01-22 2017-08-01 宏達國際電子股份有限公司 動作偵測裝置以及重複動作偵測方法
CN111339980A (zh) * 2020-03-04 2020-06-26 镇江傲游网络科技有限公司 基于时空直方图的动作识别方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10861151B2 (en) * 2015-08-07 2020-12-08 The Arizona Board Of Regents On Behalf Of Arizona State University Methods, systems, and media for simultaneously monitoring colonoscopic video quality and detecting polyps in colonoscopy
US10769442B1 (en) * 2017-09-11 2020-09-08 Amazon Technologies, Inc. Scene change detection in image data
US11200429B1 (en) * 2018-12-28 2021-12-14 Zoox, Inc. Tracking objects using sensor data segmentations and/or representations
CN113892112B (zh) * 2019-07-10 2024-08-09 赫尔实验室有限公司 用于动作识别的系统、方法和计算机程序产品
US11763566B2 (en) * 2020-06-26 2023-09-19 Objectvideo Labs, Llc Target association using occlusion analysis, clustering, or both

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200910221A (en) * 2007-05-15 2009-03-01 Koninkl Philips Electronics Nv Method of determining motion-related features and method of performing motion classification
US20110228987A1 (en) * 2008-10-27 2011-09-22 Masahiro Iwasaki Moving object detection method and moving object detection apparatus
TW201727236A (zh) * 2016-01-22 2017-08-01 宏達國際電子股份有限公司 動作偵測裝置以及重複動作偵測方法
CN111339980A (zh) * 2020-03-04 2020-06-26 镇江傲游网络科技有限公司 基于时空直方图的动作识别方法及装置

Also Published As

Publication number Publication date
TW202228016A (zh) 2022-07-16
US20220222467A1 (en) 2022-07-14
US11386714B1 (en) 2022-07-12

Similar Documents

Publication Publication Date Title
Zhang et al. Fusing geometric features for skeleton-based action recognition using multilayer LSTM networks
Singh et al. Video benchmarks of human action datasets: a review
Zhang et al. Chinese sign language recognition with adaptive HMM
Xiaohan Nie et al. Joint action recognition and pose estimation from video
Kumar et al. Sign language recognition
Ouyang et al. Multi-source deep learning for human pose estimation
Lillo et al. Discriminative hierarchical modeling of spatio-temporally composable human activities
Wang et al. Learning maximum margin temporal warping for action recognition
Singha et al. Hand gesture recognition based on Karhunen-Loeve transform
Ning et al. Discriminative learning of visual words for 3D human pose estimation
CN111742365A (zh) 用于监控系统中的音频事件检测的系统和方法
Xia et al. An evaluation of deep learning in loop closure detection for visual SLAM
Fu Human activity recognition and prediction
WO2021050772A1 (en) Action recognition with high-order interaction through spatial-temporal object tracking
Ravì et al. Real-time food intake classification and energy expenditure estimation on a mobile device
CN106709419B (zh) 一种基于显著轨迹空间信息的视频人体行为识别方法
Willems et al. Exemplar-based Action Recognition in Video.
Barrett et al. Action recognition by time series of retinotopic appearance and motion features
Fu et al. Beyond tree structure models: A new occlusion aware graphical model for human pose estimation
TWI779454B (zh) 動作辨識裝置及動作辨識方法
Sun et al. Action disambiguation analysis using normalized google-like distance correlogram
Abid et al. Dynamic hand gesture recognition from Bag-of-Features and local part model
CN105893967B (zh) 基于时序保留性时空特征的人体行为分类检测方法及系统
Yan et al. Drop loss for person attribute recognition with imbalanced noisy-labeled samples
Mahbub et al. One-shot-learning gesture recognition using motion history based gesture silhouettes

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent