TWI776566B - 動作識別方法、電腦設備及電腦可讀儲存介質 - Google Patents
動作識別方法、電腦設備及電腦可讀儲存介質 Download PDFInfo
- Publication number
- TWI776566B TWI776566B TW110123621A TW110123621A TWI776566B TW I776566 B TWI776566 B TW I776566B TW 110123621 A TW110123621 A TW 110123621A TW 110123621 A TW110123621 A TW 110123621A TW I776566 B TWI776566 B TW I776566B
- Authority
- TW
- Taiwan
- Prior art keywords
- feature
- action
- image
- target object
- motion detection
- Prior art date
Links
- 230000009471 action Effects 0.000 title claims abstract description 172
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000001514 detection method Methods 0.000 claims abstract description 224
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000011176 pooling Methods 0.000 claims description 69
- 238000000605 extraction Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 description 70
- 230000008569 process Effects 0.000 description 31
- 230000004044 response Effects 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Educational Technology (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Hardware Redundancy (AREA)
Abstract
本發明實施例公開了一種動作識別方法、電腦設備及電腦可讀儲存介質,其中,該方法包括:獲取第一圖像;識別所述第一圖像中包含目標對象的目標圖像區域;利用具有多個動作檢測分支的動作檢測網路,對所述目標圖像區域進行動作檢測處理,得到所述目標對象對應的多種第一動作檢測結果;其中,不同動作檢測分支檢測的動作類別不同;基於與多個動作檢測分支分別對應的第一動作檢測結果,確定所述目標對象的第二動作檢測結果。
Description
本發明關於電腦視覺技術領域,具體關於一種動作識別方法、電腦設備及電腦可讀儲存介質。
當前互聯網教育行業發展迅速,為學生與老師提供了方便舒適的上課環境。課堂交互智慧化是當前互聯網教育的重要方向。課堂交互智慧化主要包括基於學生動作識別與表情識別方面的智慧化。而傳統互聯網教育主要是通過電子按鈴等方式完成學生與老師的互動,學生的狀態難以辨別,體驗較為局限。
本發明實施例至少提供一種動作識別方法、電腦設備及電腦可讀儲存介質。
第一方面,本發明實施例提供了一種動作識別方法,包括:獲取第一圖像;識別所述第一圖像中包含目標對象的目標圖像區域;利用具有多個動作檢測分支的動作檢測網路,對所述目標圖像區域進行動作檢測處理,得到所述目標對象對應的多種第一動作檢測結果;其中,不同動作檢測分支檢測的動作類別不同;基於與多個動作檢測分支分別對應的第一動作檢測結果,確定所述目標對象的第二動作檢測結果。
這樣,通過利用具有多個動作檢測分支的動作檢測網路對學生的動作進行識別,其中,不同的動作檢測分支能夠檢測的動作類別不同,進而能夠通過一次檢測處理過程,得到學生做出多種動作中每種動作的檢測結果,從而能夠全面、準確地對學生的動作進行識別。
一種可選的實施方式中,所述識別所述第一圖像中包含目標對象的目標圖像區域,包括:對所述第一圖像進行特徵提取處理,得到所述第一圖像的第一特徵圖;所述第一特徵圖包括多個特徵通道分別對應的特徵子圖;不同所述特徵子圖中包含的特徵不同;基於多個特徵子圖中的第一特徵子圖包含的特徵,確定所述目標對象的中心點在所述第一特徵圖中的第一座標資訊;以及基於所述中心點在所述第一特徵圖中的第一座標資訊以及所述多個特徵子圖中的第二特徵子圖中包含的特徵,確定所述目標對象在所述第一特徵圖中的第一尺寸資訊;基於所述第一座標資訊以及所述第一尺寸資訊,確定所述目標圖像區域。
這樣,能夠準確的從第一圖像中確定出包括了目標對象的目標圖像區域。
一種可選的實施方式中,所述基於多個特徵子圖中的第一特徵子圖包含的特徵,確定所述目標對象的中心點在所述第一特徵圖中的第一座標資訊,包括:按照預設的池化尺寸和池化步長,對所述第一特徵子圖進行最大池化處理,得到多個池化值以及與多個所述池化值中的每個池化值對應的位置索引;所述位置索引用於標識所述池化值在所述第一特徵子圖中的位置;基於所述每個池化值以及第一閾值,從多個所述池化值中確定屬於所述中心點的目標池化值;基於所述目標池化值對應的位置索引,確定所述中心點在所述第一特徵圖中的第一座標資訊。
這樣,通過對第一特徵子圖進行最大池化處理,進而能夠更準確的從多個池化值中確定屬於目標對象的中心點的目標池化值,從而更精確的將目標對象的位置從第一圖像中確定出來。
一種可選的實施方式中,所述基於所述第一座標資訊以及所述第一尺寸資訊,確定所述目標圖像區域,包括:基於所述第一座標資訊、所述第一尺寸資訊、以及所述第一特徵圖中的第一特徵點和所述第一圖像中各個圖元點之間的位置映射關係,確定所述中心點在所述第一圖像中的第二座標資訊、以及所述目標對象在所述第一圖像中的第二尺寸資訊;基於所述第二座標資訊、以及所述第二尺寸資訊,確定所述目標圖像區域。
一種可選的實施方式中,所述基於所述第二座標資訊、以及所述第二尺寸資訊,確定所述目標圖像區域,包括:基於所述第二座標資訊、以及所述第二尺寸資訊,從所述第一圖像中確定包含所述目標對象的第一區域範圍;基於包含所述目標對象的第一區域範圍,確定包含所述目標對象的第二區域範圍,所述第二區域範圍大於所述第一區域範圍,且所述第二區域範圍包含所述第一區域範圍;基於所述第二區域範圍,從所述第一圖像中確定所述目標圖像區域。
這樣,通過對第一區域範圍進行外擴,得到第二區域範圍,能夠將目標對象更完整的包括在內,從而在基於目標圖像區域檢測目標對象做出的動作時,能夠得到更精確的檢測結果。
一種可選的實施方式中,所述動作檢測網路包括:特徵提取網路以及與所述特徵提取網路連接的多個動作檢測分支網路;所述利用具有多個動作檢測分支的動作檢測網路,對所述目標圖像區域進行動作檢測處理,得到所述目標對象對應的多種第一動作檢測結果,包括:利用所述特徵提取網路對所述目標圖像區域進行特徵提取處理,得到所述目標圖像區域的第二特徵圖;利用多個所述動作檢測分支網路分別對所述第二特徵圖進行動作檢測處理,得到與每個所述動作檢測分支網路分別對應的第一動作檢測結果。
這樣,利用多個動作檢測分支網路分別對目標圖像區域的第二特徵圖進行動作檢測處理,實現對每個目標對象的目標圖像區域進行多種動作類別的檢測,進而得到每個目標對象更加全面的動作檢測結果。
一種可選的實施方式中,所述利用多個所述動作檢測分支網路分別對所述第二特徵圖進行動作檢測處理,得到與每個所述動作檢測分支網路分別對應的第一動作檢測結果,包括:針對多個動作檢測分支網路中的每個動作檢測分支網路,利用所述動作檢測分支網路對所述第二特徵圖進行動作檢測處理,得到所述目標對象做出所述動作檢測分支網路檢測的動作類別的概率;基於所述概率、以及預先確定的第二閾值,確定與所述動作檢測分支網路對應的第一動作檢測結果。
第二方面,本發明實施例還提供一種動作識別裝置,包括:獲取模組,配置為獲取第一圖像;識別模組,配置為識別所述第一圖像中包含目標對象的目標圖像區域;檢測模組,配置為利用具有多個動作檢測分支的動作檢測網路,對所述目標圖像區域進行動作檢測處理,得到所述目標對象對應的多種第一動作檢測結果;其中,不同動作檢測分支檢測的動作類別不同;確定模組,配置為基於與多個動作檢測分支分別對應的第一動作檢測結果,確定所述目標對象的第二動作檢測結果。
一種可能的實施方式中,所述識別模組,配置為:對所述第一圖像進行特徵提取處理,得到所述第一圖像的第一特徵圖;所述第一特徵圖包括多個特徵通道分別對應的特徵子圖;不同所述特徵子圖中包含的特徵不同;基於多個特徵子圖中的第一特徵子圖包含的特徵,確定所述目標對象的中心點在所述第一特徵圖中的第一座標資訊;以及基於所述中心點在所述第一特徵圖中的第一座標資訊以及所述多個特徵子圖中的第二特徵子圖中包含的特徵,確定所述目標對象在所述第一特徵圖中的第一尺寸資訊;基於所述第一座標資訊以及所述第一尺寸資訊,確定所述目標圖像區域。
一種可能的實施方式中,所述識別模組,配置為:按照預設的池化尺寸和池化步長,對所述第一特徵子圖進行最大池化處理,得到多個池化值以及與多個所述池化值中的每個池化值對應的位置索引;所述位置索引用於標識所述池化值在所述第一特徵子圖中的位置;基於所述每個池化值以及第一閾值,從多個所述池化值中確定屬於所述中心點的目標池化值;基於所述目標池化值對應的位置索引,確定所述中心點在所述第一特徵圖中的第一座標資訊。
一種可能的實施方式中,所述識別模組,配置為:基於所述第一座標資訊、所述第一尺寸資訊、以及所述第一特徵圖中的第一特徵點和所述第一圖像中各個圖元點之間的位置映射關係,確定所述中心點在所述第一圖像中的第二座標資訊、以及所述目標對象在所述第一圖像中的第二尺寸資訊;基於所述第二座標資訊、以及所述第二尺寸資訊,確定所述目標圖像區域。
一種可能的實施方式中,所述識別模組,配置為:基於所述第二座標資訊、以及所述第二尺寸資訊,從所述第一圖像中確定包含所述目標對象的第一區域範圍;基於包含所述目標對象的第一區域範圍,確定包含所述目標對象的第二區域範圍,所述第二區域範圍包含所述第一區域範圍;基於所述第二區域範圍,從所述第一圖像中確定所述目標圖像區域。
一種可能的實施方式中,所述動作檢測網路包括:特徵提取網路以及與所述特徵提取網路連接的多個動作檢測分支網路;所述檢測模組,配置為:利用所述特徵提取網路對所述目標圖像區域進行特徵提取處理,得到所述目標圖像區域的第二特徵圖;利用多個所述動作檢測分支網路分別對所述第二特徵圖進行動作檢測處理,得到與每個所述動作檢測分支網路分別對應的第一動作檢測結果。
一種可能的實施方式中,所述檢測模組,配置為:針對多個動作檢測分支網路中的每個動作檢測分支網路,利用所述動作檢測分支網路對所述第二特徵圖進行動作檢測處理,得到所述目標對象做出所述動作檢測分支網路檢測的動作類別的概率;基於所述概率、以及預先確定的第二閾值,確定與所述動作檢測分支網路對應的第一動作檢測結果。
第三方面,本發明可選實現方式還提供一種電腦設備,處理器、記憶體,所述記憶體儲存有所述處理器可執行的機器可讀指令,所述處理器用於執行所述記憶體中儲存的機器可讀指令,所述機器可讀指令被所述處理器執行時,所述機器可讀指令被所述處理器執行時執行上述第一方面,或第一方面中任一種可能的實施方式中的步驟。
第四方面,本發明可選實現方式還提供一種電腦可讀儲存介質,該電腦可讀儲存介質上儲存有電腦程式,該電腦程式被運行時執行上述第一方面,或第一方面中任一種可能的實施方式中的步驟。
第五方面,本發明可選實現方式還提供一種電腦程式,所述電腦程式使得電腦執行上述第一方面,或第一方面中任一種可能的實施方式中的步驟。
為使本發明的上述目的、特徵和優點能更明顯易懂,下文特舉較佳實施例,並配合所附附圖,作詳細說明如下。
為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發明實施例的元件可以以各種不同的配置來佈置和設計。因此,以下對在附圖中提供的本發明的實施例的詳細描述並非旨在限制要求保護的本發明的範圍,而是僅僅表示本發明的選定實施例。基於本發明的實施例,本領域技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
經研究發現,基於電腦視覺的課堂學生動作識別,主要通過人體檢測、追蹤與動作分類技術,分析課堂上學生的動作,包括站立、舉手、趴桌子等行為。在針對學生的動作分類識別時,模型結構的設計通常為多分類的設計,例如,對於站立、舉手、趴桌子三種動作,會通過一個三分類的神經網路,預測出學生做出站立、舉手和趴桌子三種動作中每一種動作的概率;然後將其中概率最大者確定為學生做出的動作。但在實際的課堂中,學生可能同時做出多個動作,例如舉手和站立同時發生,或者舉手和趴桌子同時發生。但當前的檢測方法並不能檢測到學生同時做出的多種動作,導致對課堂上學生的動作識別存在不全面的問題。
基於上述研究,本發明實施例提供了一種動作識別方法,通過利用具有多個動作檢測分支的動作檢測網路對學生的動作進行識別,其中,不同的動作檢測分支能夠檢測的動作類別不同,進而能夠通過一次檢測處理過程,得到學生做出多種動作中每種動作的檢測結果,從而能夠全面、準確地對學生的動作進行識別。
針對以上方案所存在的缺陷,均是發明人在經過實踐並仔細研究後得出的結果,因此,上述問題的發現過程以及下文中本發明針對上述問題所提出的解決方案,都應該是發明人在本發明過程中對本發明做出的貢獻。
應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨後的附圖中不需要對其進行進一步定義和解釋。
為便於對本實施例進行理解,首先對本發明實施例所公開的一種動作識別方法進行詳細介紹,本發明實施例所提供的動作識別方法的執行主體一般為動作識別設備,該動作識別設備例如包括:終端設備或伺服器或其它處理設備,終端設備可以為使用者設備(User Equipment,UE)、移動設備、使用者終端、終端、蜂窩電話、無線電話、個人數位助理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中,該動作識別方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。
下面以執行主體為動作識別設備為例對本發明實施例提供的動作識別方法加以說明。需要注意的是,本發明實施例提供的動作識別方法不僅僅能夠在課堂上對學生的動作進行識別,還可以應用於其他可以同時做出多種動作的動作檢測的場景。
參見圖1所示,為本發明實施例提供的動作識別方法的流程圖,所述方法包括步驟S101~S104,其中:
S101:獲取第一圖像;
S102:識別所述第一圖像中包含目標對象的目標圖像區域;
S103:利用具有多個動作檢測分支的動作檢測網路,對所述目標圖像區域進行動作檢測處理,得到所述目標對象對應的多種第一動作檢測結果;其中,不同動作檢測分支檢測的動作類別不同;
S104:基於與多個動作檢測分支分別對應的第一動作檢測結果,確定所述目標對象的第二動作檢測結果。
在本發明實施例提供的動作識別方法中,目標對象例如包括人、動物、機械設備、車輛、機器人等中任一種。
動作檢測網路,例如為神經網路模型。示例性的,對神經網路進行訓練後,得到能夠對第一圖像中包括的目標對象所做出的動作進行檢測的神經網路模型。在該神經網路模型中,包括多個動作檢測分支,動作檢測分支又稱檢測頭,是動作檢測網路中的分支網路。各個檢測頭,能夠分別得到目標對象執行某種類別的動作的概率。不同檢測頭,檢測的動作類別不同。與每個動作檢測分支對應的第一動作檢測結果,能夠指示目標對象是否執行與對應動作檢測分支檢測的動作類別。第二動作檢測結果,能夠指示目標對象是否執行與多個動作檢測分支分別檢測的動作類別。
本發明實施例在獲取第一圖像後,識別第一圖像中包含的目標對象的目標圖像區域,利用具有多個動作檢測分支的動作檢測網路,對目標圖像區域進行動作檢測處理,得到目標對象對應多種第一動作檢測結果,再基於與多個動作檢測分支分別對應的第一動作檢測結果,確定目標對象的第二動作檢測結果,進而能夠通過一次檢測處理過程,得到學生做出多種動作中每種動作的檢測結果,從而能夠全面、準確地對學生的動作進行識別。
本發明實施例以將動作識別方法應用於對學生進行動作檢測為例,對上述S101~S104加以詳細描述。
I:在上述S101中,針對不同的應用場景,獲取第一圖像的方式有所區別。
示例性的,針對將該方法應用於課堂場景下,可以在老師授課的教室中設置動作識別設備,該動作識別設備例如為終端設備;動作識別設備能夠通過在授課的教室中安裝的攝影頭即時獲取學生上課時的第一圖像;或者在動作識別設備上設置有攝影頭,動作識別設備能夠通過自身設置的攝影頭獲取學生上課時的第一圖像。
在網路課堂場景下,動作識別設備例如為教師終端、學生終端、或者伺服器;在動作識別設備為教師終端的情況下,學生終端連接有攝影頭;學生終端通過攝影頭捕捉包括有學生的第一圖像,並將該第一圖像發送至教師終端;教師終端接收學生終端發送的第一圖像,並基於第一圖像對學生做出的動作進行檢測。在動作識別設備為學生終端的情況下,學生終端連接有攝影頭,學生終端通過其連接的攝影頭獲取包括有學生的第一圖像,並基於第一圖像對學生做出的動作進行檢測,然後將檢測結果發送至教師終端,從而使得教師能夠通過教師終端即時獲知學生所做出的動作。在動作識別設備為伺服器的情況下,伺服器接收學生終端發送的第一圖像,並基於第一圖像對學生做出的動作進行檢測,再將檢測結果發送至教師終端。
II:在上述S102中,在獲取的第一圖像中,除了包括目標對象外,還包括有其他圖像背景資訊,圖像背景資訊可能會對目標對象的第二動作檢測結果造成一定的干擾,因此可以首先對第一圖像中包括的目標對象的目標圖像區域進行檢測,再基於目標圖像區域實現對目標對象的動作檢測。
在一些可選實施例中,參見圖2所示,本發明實施例提供一種識別所述第一圖像中包含目標對象的目標圖像區域的具體方法,包括以下步驟。
S201:對所述第一圖像進行特徵提取處理,得到所述第一圖像的第一特徵圖;所述第一特徵圖包括多個特徵通道分別對應的特徵子圖;不同所述特徵子圖中包含的特徵不同。
在一些可選實施例中,可以利用卷積神經網路對第一圖像進行特徵提取處理,得到第一圖像的第一特徵圖。在利用卷積神經網路對第一圖像進行特徵提取處理後,得到第一圖像的第一特徵圖。
示例性的,第一特徵圖由多個通道的特徵子圖構成;多個特徵子圖疊加後,形成第一特徵圖。
S202:基於多個特徵子圖中的第一特徵子圖包含的特徵,確定所述目標對象的中心點在所述第一特徵圖中的第一座標資訊;以及基於所述中心點在所述第一特徵圖中的第一座標資訊以及所述多個特徵子圖中的第二特徵子圖中包含的特徵,確定所述目標對象在所述第一特徵圖中的第一尺寸資訊。
示例性的,在構成第一特徵圖的多個特徵子圖中,第i個通道的特徵子圖(也即上述第一特徵子圖)中包含的特徵,用於表徵第一特徵圖中的各個第一特徵點是否為目標對象的中心點。可以利用sigmoid啟動函數對第一特徵子圖進行啟動處理,將第一特徵圖中的各個第一特徵點在第一特徵子圖中的特徵值,轉換為a1至a2之間的數值。示例性的,a1例如為0;a2例如為1。
其中,針對某個第一特徵點而言,該第一特徵點在第一特徵子圖中的特徵值在轉換至0至1之間的數值後,對應的數值越趨向於1,則其屬於目標對象的中心點的概率也就越大。
進而,能夠基於各個第一特徵點在第一特徵子圖中的特徵值轉換至0至1之間後的數值,確定各個目標對象的中心點在第一特徵圖中對應的第一特徵點,並將確定的第一特徵點的第一座標資訊,確定為目標對象的中心點在第一特徵圖中的第一座標資訊。
在另一種可能的實施方式中,在實際預測過程中,在將第一特徵圖中的各個第一特徵點在第一特徵子圖中的特徵值,轉換為0至1之間的數值後,位置接近的第一特徵點對應的數值也可能較為接近;為了能夠為每個目標對象確定唯一的中心點,本發明實施例還可以採用下述方式確定所述目標對象的中心點在所述第一特徵圖中的第一座標資訊。
按照預設的池化尺寸和池化步長,對所述第一特徵子圖進行最大池化處理,得到多個池化值以及與多個所述池化值中的每個池化值對應的位置索引;所述位置索引用於標識所述池化值在所述第一特徵子圖中的位置;基於所述每個池化值以及第一閾值,從多個所述池化值中確定屬於所述中心點的目標池化值;基於所述目標池化值對應的位置索引,確定所述中心點在所述第一特徵圖中的第一座標資訊。
示例性的,例如可以對第一特徵子圖進行3×3、且步長為1的最大池化處理;在池化處理時,針對每3×3個第一特徵點在第一特徵子圖中的特徵值,確定3×3個第一特徵點的最大回應值及最大回應值在都第一特徵圖上的位置索引。此時,最大回應值的數量與第一特徵圖的尺寸相關;例如若第一特徵圖的尺寸為80×60×3,則在對第一特徵子圖進行最大池化處理後,得到的最大回應值共80×60個;且對於每個最大回應值,都可能存在至少一個其他最大回應值與其位置索引相同。再將位置索引相同的最大回應值合併,得到M個最大回應值,以及M個最大回應值中每個最大回應值對應的位置索引。進而將M個最大回應值中的每個最大回應值與第一閾值進行比對;在某最大響應值大於該第一閾值時,將該最大響應值確定為目標池化值。目標池化值對應的位置索引,即目標對象的中心點在第一特徵圖中的第一座標資訊。
這裡,可以在對第一特徵子圖進行啟動處理,將第一特徵圖中的各個第一特徵點在第一特徵子圖中的特徵值轉換為0-1之間的數值後,再進行最大池化處理,也可以直接對第一特徵子圖進行最大池化處理。
在對第一特徵子圖直接進行最大池化處理的情況下,可以在對第一特徵子圖進行最大池化處理後,將各個池化值利用啟動了函數進行啟動處理,將各個池化值轉換為0-1之間的數值,然後再基於第一轉換為0-1之間的數值的池化值以及第一閾值,得從多個池化值中確定屬於目標對象的中心點的目標池化值。
另外,在對第一特徵子圖直接進行最大池化處理的情況下,可以在對第一特徵子圖進行最大池化處理後,還可以直接基於池化值以及第一閾值,從多個池化值中確定屬於目標對象的中心點的目標池化值,此時,第一閾值和上述幾種要進行啟動處理的示例中的第一閾值的值不同。具體可以根據實際的需要進行具體選擇。
在另一示例中,在在構成第一特徵圖的多個特徵子圖中,第j個通道和第k個通道的特徵子圖(也即上述第二特徵子圖)中包含的特徵,用於表徵第一圖像的目標對象在第一特徵圖中的第一尺寸資訊。
示例性的,第一特徵圖中的各個第一特徵點在第j個通道的特徵子圖中的特徵值,表徵與各個第一特徵點的對應的第一尺寸資訊中的長度值;各個第一特徵點在第k個通道的特徵子圖中的特徵值,表徵與各個第一特徵點對應的第一尺寸資訊中的寬度值。
例如,在特徵子圖的數量為3時,i例如為0,j例如為1;k例如為2。具體的i、j和k的取值,根據實際的神經網路處理過程進行設定。
在得到中心點在第一特徵圖中的第一座標資訊後,基於該第一座標資訊,從第二特徵子圖中讀取表徵中心點的第一特徵點在第二特徵子圖中的特徵值,並將讀取的特徵值確定為目標對象在第一特徵圖中的第一尺寸資訊。
S203:基於所述第一座標資訊以及所述第一尺寸資訊,確定所述目標圖像區域。
在一些可選實施例中,在對第一圖像進行特徵提取處理,得到第一圖像的第一特徵圖後,本發明實施例還可採用以下方式確定所述目標圖像區域:生成第一圖像中各個圖元點、與第一特徵圖中的第一特徵點之間的位置映射關係;基於所述第一座標資訊、所述第一尺寸資訊、以及該位置映射關係,確定中心點在第一圖像中的第二座標資訊(可基於所述位置映射關係以及所述第一座標資訊,確定所述中心點在第一圖像中的第二座標資訊),以及所述目標對象在第一圖像中的第二尺寸資訊(基於所述第一尺寸資訊,確定所述目標對象在第一圖像中的第二尺寸資訊),再根據中心點在第一圖像中的第二座標資訊、以及目標對象在第一圖像中的第二尺寸資訊,確定目標圖像區域。
在基於第二座標資訊、以及第二尺寸資訊確定目標圖像區域時,在一種可能的實施方式中,可以直接將基於第二座標資訊、以及第二尺寸資訊確定為目標圖像區域;在另一種可能的實施方式中,還可以基於第二座標資訊和第二尺寸資訊,從第一圖像中確定包括目標對象的第一區域範圍,基於第一區域範圍,從第一圖像中確定包含目標對象的第二區域範圍;第二區域範圍大於第一區域範圍,且所述第二區域範圍包含所述第一區域範圍,基於第二區域範圍,從第一圖像中確定目標圖像區域。
示例性的,本發明實施例中可基於所述第一區域範圍的中心點以及所述第一區域範圍的四個頂點,按照由中心點到頂點的方向進行移動(即各頂點中每個頂點均向遠離中心點及其他頂點的方向移動),以在第一區域範圍的基礎上進行區域範圍的擴展,經各頂點移動後,得到第二區域範圍的四個頂點的所在位置,進而根據第二區域範圍的四個頂點的位置得到所述第二區域範圍。其中,每個頂點的移動距離可相同也可不同,即在第一區域範圍的基礎上進行區域範圍擴展的過程中,各頂點周邊的區域的擴展幅度/擴展尺寸,可以相同或不同,在此不予限定。
III:在上述S103中,動作檢測網路例如包括:特徵提取網路以及與所述特徵提取網路連接的多個動作檢測分支網路。其中,每個動作檢測分支網路對應一動作檢測分支,且不同動作檢測分支網路檢測的動作類別不同。
在利用具有多個動作檢測分支的動作檢測網路,對所述目標圖像區域進行動作檢測處理,得到所述目標對象對應的多種第一動作檢測結果時,在一些可選實施方式中,例如可以採用下述過程:
利用所述特徵提取網路對所述目標圖像區域進行特徵提取處理,得到所述目標圖像區域的第二特徵圖;利用多個所述動作檢測分支網路分別對所述第二特徵圖進行動作檢測處理,得到與每個所述動作檢測分支網路分別對應的第一動作檢測結果。
在一些可選實施例中,所述利用多個所述動作檢測分支網路分別對所述第二特徵圖進行動作檢測處理,得到與每個所述動作檢測分支網路分別對應的第一動作檢測結果,例如可採用下述過程:針對多個動作檢測分支網路中的每個動作檢測分支網路,利用所述動作檢測分支網路對所述第二特徵圖進行動作檢測處理,得到所述目標對象做出所述動作檢測分支網路檢測的動作類別的概率;基於所述概率、以及預先確定的第二閾值,確定與所述動作檢測分支網路對應的第一動作檢測結果。
示例性的,參見圖3所示,本發明實施例提供一種動作檢測網路的具體結構的示例;在將本發明實施例提供的動作識別方法用於對課堂上學生的動作識別時,動作檢測分支網路有三個,分別為A、B和C,動作檢測分支網路A檢測的動作類別為:站立;動作檢測分支網路B檢測的動作類別為舉手,動作檢測分支網路C檢測的動作類別為趴桌子。則在獲取第一圖圖像,並確定第一圖像中的各個學生在第一圖像中的目標圖像區域後,利用特徵提取網路M,對各個學生對應的目標圖像區域進行特徵提取處理,得到每個學生對應的第二特徵圖,利用動作檢測分支網路A對第二特徵圖進行動作檢測處理,得到該學生做出站立動作的概率;根據該學生做出站立動作的概率,以及對應的第二閾值,確定該學生做出站立動作的第一動作檢測結果,例如,在動作檢測分支網路A得到的學生做出站立動作的概率,大於對應的第二閾值時,則確定該學生做出站立動作。
類似的,利用動作檢測分支網路B對第二特徵圖進行動作檢測處理,得到該學生做出舉手動作的概率,並根據該學生做出舉手動作的概率,以及對應的第二閾值,確定該學生做出舉手動作的第一動作檢測結果。利用動作檢測分支網路C對第二特徵圖進行動作檢測處理,得到該學生做出趴桌子動作的概率,並根據該學生做出趴桌子動作的概率,以及對應的第二閾值,確定該學生做出趴桌子動作的第一動作檢測結果。
最終基於該學生做出站立動作、做出舉手動作、做出趴桌子動作分別對應的第一動作檢測結果,確定該學生最終的第二動作檢測結果。
例如,若動作檢測分支網路A得到的第一動作檢測結果為:未站立,動作檢測分支網路B得到的第一動作檢測結果為:舉手;動作檢測分支網路C得到的第一動作檢測結果為:未趴桌子,則對應的第二動作檢測結果為:未站立、舉手、且未趴桌子。
這裡需要注意的是,不同動作檢測分支網路對應的第二閾值可以相同,也可以不同,具體可以根據實際的需要進行設定。
示例性的,輸入特徵提取網路的目標圖像區域的圖像尺寸為112×112,特徵提取網路通過對目標圖像區域進行4次下採樣,得到尺寸為7×7的第二特徵圖;其中,對目標圖像區域的下採樣過程,例如為對目標圖像區域依次進行4次步長為2的卷積操作。再將7×7的第二特徵圖分別輸入至不同的動作檢測分支網路。針對每個動作檢測分支網路,首先對第二特徵圖進行卷積處理,進而對卷積處理的結果進行平均池化處理,得到一維資料,再採用sigmoid對一維資料進行啟動處理,最終得到與動作檢測分支網路對應的概率。
另外,在相關技術中,在利用神經網路對圖像中包括的目標對象的動作進行檢測前,通常會利用來源於多個圖像獲取設備的樣本圖像對神經網路進行訓練;來源於不同圖像獲取設備的樣本圖像由於拍攝參數的差異,會包含有不同的圖像特徵;神經網路能夠在訓練過程中學習到來源不同的樣本圖像的不同特徵,從而能夠在利用神經網路對圖像中包括的目標對象的動作進行檢測時,增強神經網路的泛化能力。在利用這種神經網路對圖像進行動檢檢測處理時,神經網路能夠輸出圖像中的目標對象執行某種動作的概率,再將該概率與預設的概率閾值進行比對,並基於比對結果,確定目標對象對應的動作檢測結果。但由於不同攝影頭的圖像獲取參數不同,造成了不同攝影頭所獲取的圖像品質會有所差異,圖像品質不同,所包含的圖像特徵也會存在差異;進而導致了利用相同的概率閾值作為統一的判斷標準,得到不同攝影頭獲得的圖像的動作檢測結果時,未必是最優的結果,會造成對部分圖像出現誤判的情況,導致檢測的準確度低的問題。
為了解決上述問題,本發明實施例還提供一種確定第二閾值的具體方法,包括:利用所述動作檢測網路,對與第一圖像具有關聯的多張第二圖像中的每張第二圖像進行分類處理,得到每張所述第二圖像的分類預測概率;基於多張所述第二圖像分別對應的分類預測概率以及多張所述第二圖像分別對應的預先標注好的實際分類結果,確定第二閾值。
其中,第一圖像和第二圖像具有關聯,包括下述至少一種:
所述第一圖像和所述第二圖像的拍攝參數的相似度大於預設的相似度閾值;
多張所述第一圖像以及所述第二圖像為同一圖像獲取設備獲取到的。
這樣,基於對由與第一圖像具有關聯的多張第二圖像的分類結果,得到第二閾值,在對第一圖像進行分類處理的過程中,由於第一圖像和第二圖像具有關聯,因此將上述第一分類閾值作為分類處理過程中的判斷標準之一時,能夠以更高的精度得到第二圖像的動作檢測結果,從而可以提升分類結果的準確率。
第一圖像和第二圖像具有關聯,例如包括下述至少一種。
(1):所述第一圖像和所述第二圖像的拍攝參數的相似度大於預設的相似度閾值。
例如可以將不同圖像的拍攝參數構成一參數向量;不同圖像的拍攝參數的相似度,例如可以通過不同圖像的參數向量之間的向量距離來表徵;在不同圖像的參數向量之間的向量距離小於預設的距離閾值時,即表徵該不同圖像的拍攝參數的相似度大與預設的相似度閾值。
(2):多張所述第一圖像以及所述第二圖像為同一圖像獲取設備獲取到的。
在圖像獲取設備投入使用前,可以通過上述步驟S101~S102,為圖像獲取設備確定一第一概率閾值;在該圖像獲取設備投入使用後,所獲取的第二圖像通過為其確定的第一概率閾值,進行分類處理。
在確定第二閾值時,是要使得利用確定的第二閾值對第二圖像的分類結果進行判別時,使得判別結果的正確率達到預設的正確率閾值。
示例性的,可以採用下述方式確定第二閾值:
確定多個備選閾值;針對多個所述備選閾值中的每個備選閾值,根據多張所述第二圖像分別對應的分類預測概率和實際分類結果,確定與每個所述備選閾值對應的預測正確率;基於多個所述備選閾值分別對應的預測正確率,從多個所述備選閾值中確定所述第二閾值。
示例性的,可以基於第二閾值的取值範圍、以及預設的取值步長,在取值範圍內確定多個備選閾值。
示例性的,在利用動作檢測網路對第二圖像進行分類處理後,例如可以利用sigmoid啟動函數,對分類處理的結果進行啟動處理,將分類處理的結果變化值0-1的取值區間範圍內;此時,分類處理的結果即能夠表徵第二圖像的分類預測概率。相應的,第二閾值的取值範圍為[0,1]。以0.05作為取值步長,則確定的多個備選閾值可以分別為:0、0.05、0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、1。
這裡需要注意的是,第二閾值的取值範圍,可以根據實際的情況確定,同時取值步長也可以根據實際的需要進行確定,例如還可以將取值步長確定為0.01、0.02等,本實施例中對此不做限定。
示例性的,假設動作檢測網路對第二圖像的分類結果包括:第二圖像中的目標對象做出了某動作或者第二圖像中的目標對象未做出該動作,在利用動作檢測網路對多張第二圖像進行分類處理後,得到第n張第二圖像的分類預測概率表示為:score_n。假設第二閾值的取值範圍為:[0,1],取值步長為0.001,則按照該步長0.001遍歷第二閾值的可能取值:thrd=0+0.001×k,其中,k∈[0,1000]。針對第p次遍歷,確定的備選閾值為:thrd_p=0+0.001×p,在此備選閾值thrd_p下,若score_n大於thrd_p,則表徵第二圖像的預測分類結果為做出對應動作,否則,第二圖像的預測分類結果為未做出對應動作。
然後,根據n張第二圖像對應的預測分類結果,以及n張第二圖像分別對應的實際分類結果,統計得到下述參量:
TP:實際做出動作,且在thrd_p備選閾值下預測為做出動作的第二圖像的數量;
TN:實際做出動作,且在thrd_p備選閾值下預測為未做出動作的第二圖像的數量;
FP:實際未做出動作,且在thrd_p備選閾值下預測為做出動作的第二圖像的數量;
FN:實際未做出動作,且thrd_p備選閾值下預測為未做出動作的第二圖像的數量。
另外,在本發明另一實施例中,為了能夠更準確的確定第二閾值,還可以將第二閾值的取值範圍劃分為多個取值區間,然後針對每個取值區間,根據多個第二圖像分別對應的分類預測概率和實際分類結果,確定每個取值區間對應的預測正確率,後基於多個取值區間分別對應的預測正確率,從多個取值區間中確定一目標取值區間,然後從多個目標取值區間內,確定多個備選閾值,並基於上述過程確定每個備選閾值對應的預測正確率,從而能夠減少在確定第二閾值時需要的計算量,節省計算資源和計算時間。
另外,本發明實施例中還可以採用逐步逼近法確定第二閾值。
本領域技術人員可以理解,上述方法的具體實施方式中,各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
基於同一發明構思,本發明實施例中還提供了與動作識別方法對應的動作識別裝置,由於本發明實施例中的裝置解決問題的原理與本發明實施例上述動作識別方法相似,因此裝置的實施可以參見方法的實施,重複之處不再贅述。
參照圖4所示,為本發明實施例提供的一種動作識別裝置的示意圖,所述裝置包括:獲取模組41、識別模組42、檢測模組43、以及確定模組44;其中,
獲取模組41,配置為獲取第一圖像;
識別模組42,配置為識別所述第一圖像中包含目標對象的目標圖像區域;
檢測模組43,配置為利用具有多個動作檢測分支的動作檢測網路,對所述目標圖像區域進行動作檢測處理,得到所述目標對象對應的多種第一動作檢測結果;其中,不同動作檢測分支檢測的動作類別不同;
確定模組44,配置為基於與多個動作檢測分支分別對應的第一動作檢測結果,確定所述目標對象的第二動作檢測結果。
一種可能的實施方式中,所述識別模組42,配置為:對所述第一圖像進行特徵提取處理,得到所述第一圖像的第一特徵圖;所述第一特徵圖包括多個特徵通道分別對應的特徵子圖;不同所述特徵子圖中包含的特徵不同;基於多個特徵子圖中的第一特徵子圖包含的特徵,確定所述目標對象的中心點在所述第一特徵圖中的第一座標資訊;以及基於所述中心點在所述第一特徵圖中的第一座標資訊以及所述多個特徵子圖中的第二特徵子圖中包含的特徵,確定所述目標對象在所述第一特徵圖中的第一尺寸資訊;基於所述第一座標資訊以及所述第一尺寸資訊,確定所述目標圖像區域。
一種可能的實施方式中,所述識別模組42,配置為:按照預設的池化尺寸和池化步長,對所述第一特徵子圖進行最大池化處理,得到多個池化值以及與多個所述池化值中的每個池化值對應的位置索引;所述位置索引用於標識所述池化值在所述第一特徵子圖中的位置;基於所述每個池化值以及第一閾值,從多個所述池化值中確定屬於所述中心點的目標池化值;基於所述目標池化值對應的位置索引,確定所述中心點在所述第一特徵圖中的第一座標資訊。
一種可能的實施方式中,所述識別模組42,配置為:基於所述第一座標資訊、所述第一尺寸資訊、以及所述第一特徵圖中的第一特徵點和所述第一圖像中各個圖元點之間的位置映射關係,確定所述中心點在所述第一圖像中的第二座標資訊、以及所述目標對象在所述第一圖像中的第二尺寸資訊;基於所述第二座標資訊、以及所述第二尺寸資訊,確定所述目標圖像區域。
一種可能的實施方式中,所述識別模組42,配置為:基於所述第二座標資訊、以及所述第二尺寸資訊,從所述第一圖像中確定包含所述目標對象的第一區域範圍;基於包含所述目標對象的第一區域範圍,確定包含所述目標對象的第二區域範圍,所述第二區域範圍包含所述第一區域範圍;基於所述第二區域範圍,從所述第一圖像中確定所述目標圖像區域。
一種可能的實施方式中,所述動作檢測網路包括:特徵提取網路以及與所述特徵提取網路連接的多個動作檢測分支網路;
所述檢測模組43,配置為:利用所述特徵提取網路對所述目標圖像區域進行特徵提取處理,得到所述目標圖像區域的第二特徵圖;利用多個所述動作檢測分支網路分別對所述第二特徵圖進行動作檢測處理,得到與每個所述動作檢測分支網路分別對應的第一動作檢測結果。
一種可能的實施方式中,所述檢測模組43,配置為:針對多個動作檢測分支網路中的每個動作檢測分支網路,利用所述動作檢測分支網路對所述第二特徵圖進行動作檢測處理,得到所述目標對象做出所述動作檢測分支網路檢測的動作類別的概率;基於所述概率、以及預先確定的第二閾值,確定與所述動作檢測分支網路對應的第一動作檢測結果。
關於裝置中的各模組的處理流程、以及各模組之間的交互流程的描述可以參照上述方法實施例中的相關說明,這裡不再詳述。
本發明實施例中,所述動作識別裝置中的獲取模組41、識別模組42、檢測模組43、以及確定模組44,在實際應用中均可由中央處理器(Central Processing Unit,CPU)、數位訊號處理器(Digital Signal Processor,DSP)、微控制單元(Microcontroller Unit,MCU)或可程式設計閘陣列(Field-Programmable Gate Array,FPGA)實現。
本發明實施例還提供了一種電腦設備,如圖5所示,為本發明實施例提供的電腦設備的結構示意圖,包括:處理器11和記憶體12;所述記憶體12儲存有所述處理器11可執行的機器可讀指令,當電腦設備運行時,所述機器可讀指令被所述處理器執行以實現本發明實施例前述動作識別方法的步驟。
上述指令的具體執行過程可以參考本發明實施例中所述的動作識別方法的步驟,此處不再贅述。
本發明實施例還提供一種電腦可讀儲存介質,該電腦可讀儲存介質上儲存有電腦程式,該電腦程式被處理器運行時執行上述方法實施例中所述的動作識別方法的步驟。其中,該儲存介質可以是易失性或非易失的電腦可讀取儲存介質。
本發明實施例所提供的動作識別方法的電腦程式產品,包括儲存了程式碼的電腦可讀儲存介質,所述程式碼包括的指令可用於執行上述方法實施例中所述的動作識別方法的步驟,具體可參見上述方法實施例,在此不再贅述。
本發明實施例還提供一種電腦程式,該電腦程式被處理器執行時實現前述實施例的任意一種方法。該電腦程式產品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中,所述電腦程式產品具體體現為電腦儲存介質,在另一個可選實施例中,電腦程式產品具體體現為軟體產品,例如軟體發展包(Software Development Kit,SDK)等等。
本發明所提供的幾個方法或設備實施例中所揭露的特徵,在不衝突的情況下可以任意組合,得到新的方法實施例或設備實施例。
所屬領域的技術人員可以清楚地瞭解到,為描述的方便和簡潔,上述描述的系統和裝置的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。在本發明所提供的幾個實施例中,應該理解到,所揭露的系統、裝置和方法,可以通過其它的方式實現。以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,又例如,多個單元或元件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些通信介面,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。
所述功能如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以儲存在一個處理器可執行的非易失的電腦可讀取儲存介質中。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存介質中,包括若干指令用以使得一台電腦設備(可以是個人電腦,伺服器,或者網路設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的儲存介質包括:U盤、移動硬碟、唯讀記憶體(Read-Only Memory,ROM)、隨機存取記憶體(Random Access Memory,RAM)、磁碟或者光碟等各種可以儲存程式碼的介質。
最後應說明的是:以上所述實施例,僅為本發明的具體實施方式,用以說明本發明的技術方案,而非對其限制,本發明的保護範圍並不局限於此,儘管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:任何熟悉本技術領域的技術人員在本發明揭露的技術範圍內,其依然可以對前述實施例所記載的技術方案進行修改或可輕易想到變化,或者對其中部分技術特徵進行等同替換;而這些修改、變化或者替換,並不使相應技術方案的本質脫離本發明實施例技術方案的精神和範圍,都應涵蓋在本發明的保護範圍之內。因此,本發明的保護範圍應所述以申請專利範圍的保護範圍為準。
11:處理器
12:記憶體
41:獲取模組
42:識別模組
43:檢測模組
44:確定模組
S101~S104,S201~S203:步驟
為了更清楚地說明本發明實施例的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,此處的附圖被併入說明書中並構成本說明書中的一部分,這些附圖示出了符合本發明的實施例,並與說明書一起用於說明本發明的技術方案。應當理解,以下附圖僅示出了本發明的某些實施例,因此不應被看作是對範圍的限定,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他相關的附圖。
圖1示出了本發明實施例所提供的一種動作識別方法的流程圖;
圖2示出了本發明實施例所提供的識別第一圖像中包含目標對象的目標圖像區域的具體方法的流程圖;
圖3示出了本發明實施例所提供的一種動作識別網路的結構的示意圖;
圖4示出了本發明實施例所提供的一種動作識別裝置的示意圖;
圖5示出了本發明實施例所提供的一種電腦設備的示意圖。
S101~S104:步驟
Claims (7)
- 一種動作識別方法,所述方法應用於動員識別設備,包括:獲取第一圖像;對所述第一圖像進行特徵提取處理,得到所述第一圖像的第一特徵圖;所述第一特徵圖包括多個特徵通道分別對應的特徵子圖;不同所述特徵子圖中包含的特徵不同;基於多個特徵子圖中的第一特徵子圖包含的特徵,確定目標對象的中心點在所述第一特徵圖中的第一座標資訊;以及基於所述中心點在所述第一特徵圖中的第一座標資訊以及所述多個特徵子圖中的第二特徵子圖中包含的特徵,確定所述目標對象在所述第一特徵圖中的第一尺寸資訊;基於所述第一座標資訊以及所述第一尺寸資訊,確定目標圖像區域;利用動作檢測網路中的特徵提取網路對所述目標圖像區域進行特徵提取處理,得到所述目標圖像區域的第二特徵圖;利用所述動作檢測網路中的多個動作檢測分支網路分別對所述第二特徵圖進行動作檢測處理,得到與每個所述動作檢測分支網路分別對應的第一動作檢測結果;其中,不同動作檢測分支檢測的動作類別不同;所述動作檢測網路包括:所述特徵提取網路以及與所述特徵提取網路連接的所述多個動作檢測分支網路;基於與多個動作檢測分支分別對應的第一動作檢測結果, 確定所述目標對象的第二動作檢測結果。
- 根據請求項1所述的動作識別方法,其中,所述基於多個特徵子圖中的第一特徵子圖包含的特徵,確定所述目標對象的中心點在所述第一特徵圖中的第一座標資訊,包括:按照預設的池化尺寸和池化步長,對所述第一特徵子圖進行最大池化處理,得到多個池化值以及與多個所述池化值中的每個池化值對應的位置索引;所述位置索引用於標識所述池化值在所述第一特徵子圖中的位置;基於所述每個池化值以及第一閾值,從多個所述池化值中確定屬於所述中心點的目標池化值;基於所述目標池化值對應的位置索引,確定所述中心點在所述第一特徵圖中的第一座標資訊。
- 根據請求項1或2所述的動作識別方法,其中,所述基於所述第一座標資訊以及所述第一尺寸資訊,確定所述目標圖像區域,包括:基於所述第一座標資訊、所述第一尺寸資訊、以及所述第一特徵圖中的第一特徵點和所述第一圖像中各個圖元點之間的位置映射關係,確定所述中心點在所述第一圖像中的第二座標資訊、以及所述目標對象在所述第一圖像中的第二尺寸資訊;基於所述第二座標資訊、以及所述第二尺寸資訊,確定所述目標圖像區域。
- 根據請求項3所述的動作識別方法,其中, 所述基於所述第二座標資訊、以及所述第二尺寸資訊,確定所述目標圖像區域,包括:基於所述第二座標資訊、以及所述第二尺寸資訊,從所述第一圖像中確定包含所述目標對象的第一區域範圍;基於包含所述目標對象的第一區域範圍,確定包含所述目標對象的第二區域範圍,所述第二區域範圍包含所述第一區域範圍;基於所述第二區域範圍,從所述第一圖像中確定所述目標圖像區域。
- 根據請求項1所述的動作識別方法,其中,所述利用多個所述動作檢測分支網路分別對所述第二特徵圖進行動作檢測處理,得到與每個所述動作檢測分支網路分別對應的第一動作檢測結果,包括:針對多個動作檢測分支網路中的每個動作檢測分支網路,利用所述動作檢測分支網路對所述第二特徵圖進行動作檢測處理,得到所述目標對象做出所述動作檢測分支網路檢測的動作類別的概率;基於所述概率、以及預先確定的第二閾值,確定與所述動作檢測分支網路對應的第一動作檢測結果。
- 一種電腦設備,包括:處理器、記憶體,所述記憶體儲存有所述處理器可執行的機器可讀指令,所述處理器用於執行所述記憶體中儲存的機器可讀指令,所述機器可讀指令被所述處理器執行時,所述處理器執行如請求項1至5任一項所述的動作識別方法的步驟。
- 一種電腦可讀儲存介質,所述電腦可讀儲存介質上儲存有電腦程式,所述電腦程式被電腦設備運行時,所述電腦設備執行如請求項1至5任一項所述的動作識別方法的步驟。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010755553.3 | 2020-07-31 | ||
CN202010755553.3A CN111881854A (zh) | 2020-07-31 | 2020-07-31 | 动作识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202207075A TW202207075A (zh) | 2022-02-16 |
TWI776566B true TWI776566B (zh) | 2022-09-01 |
Family
ID=73204793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110123621A TWI776566B (zh) | 2020-07-31 | 2021-06-28 | 動作識別方法、電腦設備及電腦可讀儲存介質 |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP2022546153A (zh) |
KR (1) | KR20220122735A (zh) |
CN (1) | CN111881854A (zh) |
TW (1) | TWI776566B (zh) |
WO (1) | WO2022021948A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881854A (zh) * | 2020-07-31 | 2020-11-03 | 上海商汤临港智能科技有限公司 | 动作识别方法、装置、计算机设备及存储介质 |
CN113469056A (zh) * | 2021-07-02 | 2021-10-01 | 上海商汤智能科技有限公司 | 行为识别方法、装置、电子设备及计算机可读存储介质 |
CN115841140B (zh) * | 2022-04-20 | 2023-08-11 | 北京爱芯科技有限公司 | 一种反最大池化运算方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401144A (zh) * | 2020-02-26 | 2020-07-10 | 华南理工大学 | 一种基于视频监控的手扶电梯乘客行为识别方法 |
CN111435422A (zh) * | 2019-01-11 | 2020-07-21 | 商汤集团有限公司 | 动作识别方法、控制方法及装置、电子设备和存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6751773B2 (ja) * | 2016-12-07 | 2020-09-09 | オリンパス株式会社 | 画像処理装置及び画像処理装置の作動方法 |
CN108681695A (zh) * | 2018-04-26 | 2018-10-19 | 北京市商汤科技开发有限公司 | 视频动作识别方法及装置、电子设备和存储介质 |
JP6943338B2 (ja) * | 2018-05-18 | 2021-09-29 | 日本電気株式会社 | 画像処理装置、システム、方法及びプログラム |
EP3807815A4 (en) * | 2018-06-14 | 2021-07-21 | Magic Leap, Inc. | DEEP NETWORK OF EXTENDED REALITY |
CN108875674B (zh) * | 2018-06-29 | 2021-11-16 | 东南大学 | 一种基于多列融合卷积神经网络的驾驶员行为识别方法 |
CN109726803B (zh) * | 2019-01-10 | 2021-06-29 | 广州小狗机器人技术有限公司 | 池化方法、图像处理方法及装置 |
CN109919008A (zh) * | 2019-01-23 | 2019-06-21 | 平安科技(深圳)有限公司 | 运动目标检测方法、装置、计算机设备及存储介质 |
CN110879993B (zh) * | 2019-11-29 | 2023-03-14 | 北京市商汤科技开发有限公司 | 神经网络训练方法、人脸识别任务的执行方法及装置 |
CN111310616B (zh) * | 2020-02-03 | 2023-11-28 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111160491B (zh) * | 2020-04-03 | 2020-09-01 | 北京精诊医疗科技有限公司 | 一种卷积神经网络中的池化方法和池化模型 |
CN111881854A (zh) * | 2020-07-31 | 2020-11-03 | 上海商汤临港智能科技有限公司 | 动作识别方法、装置、计算机设备及存储介质 |
-
2020
- 2020-07-31 CN CN202010755553.3A patent/CN111881854A/zh not_active Withdrawn
-
2021
- 2021-04-16 JP JP2021565729A patent/JP2022546153A/ja active Pending
- 2021-04-16 KR KR1020227026434A patent/KR20220122735A/ko unknown
- 2021-04-16 WO PCT/CN2021/087693 patent/WO2022021948A1/zh active Application Filing
- 2021-06-28 TW TW110123621A patent/TWI776566B/zh active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111435422A (zh) * | 2019-01-11 | 2020-07-21 | 商汤集团有限公司 | 动作识别方法、控制方法及装置、电子设备和存储介质 |
CN111401144A (zh) * | 2020-02-26 | 2020-07-10 | 华南理工大学 | 一种基于视频监控的手扶电梯乘客行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20220122735A (ko) | 2022-09-02 |
WO2022021948A1 (zh) | 2022-02-03 |
CN111881854A (zh) | 2020-11-03 |
JP2022546153A (ja) | 2022-11-04 |
TW202207075A (zh) | 2022-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI776566B (zh) | 動作識別方法、電腦設備及電腦可讀儲存介質 | |
US11308334B2 (en) | Method and apparatus for integration of detected object identifiers and semantic scene graph networks for captured visual scene behavior estimation | |
CN112101176B (zh) | 一种结合用户步态信息的用户身份识别方法及系统 | |
CN103415825A (zh) | 用于手势识别的系统和方法 | |
WO2022001106A1 (zh) | 关键点检测方法、装置、电子设备及存储介质 | |
CN111008576B (zh) | 行人检测及其模型训练、更新方法、设备及可读存储介质 | |
CN113326835A (zh) | 一种动作检测方法、装置、终端设备和存储介质 | |
CN107977668A (zh) | 一种机器人图像识别方法及系统 | |
EP2930653B1 (en) | Identifying movements using a motion sensing device coupled with an associative memory | |
Cottone et al. | User activity recognition via kinect in an ambient intelligence scenario | |
TWI731919B (zh) | 圖像識別方法與裝置及度量學習方法與裝置 | |
CN110163130B (zh) | 一种用于手势识别的特征预对齐的随机森林分类系统及方法 | |
KR20210054349A (ko) | 환자의 상지 동작에 의해 도출되는 특징값을 이용한 임상평가척도 예측 방법 | |
CN111738062A (zh) | 一种基于嵌入式平台的自动再识别方法及系统 | |
CN112818887B (zh) | 基于无监督学习的人体骨架序列行为识别方法 | |
TWI776429B (zh) | 動作識別方法及裝置、電腦可讀存儲介質 | |
CN115129834A (zh) | 一种问答方法及系统 | |
RU2694140C1 (ru) | Способ идентификации человека в режиме одновременной работы группы видеокамер | |
KR20220124446A (ko) | 머신러닝 기반 동물상 테스트 서비스 제공 방법 및 시스템 | |
CN114359646A (zh) | 一种视频分析方法、装置、系统、电子设备和介质 | |
CN113781379B (zh) | 图像质量确定方法、装置、电子设备及存储介质 | |
Nawfal et al. | Performance Evaluation Between Tiny Yolov3 and MobileNet SSDv1 for Object Detection | |
CN116935494B (zh) | 一种基于轻量化网络模型的多人坐姿识别方法 | |
CN110298210B (zh) | 一种基于视觉进行异常判断的方法和装置 | |
CN111881855A (zh) | 图像处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent |