TWI733616B - 人體姿勢辨識系統、人體姿勢辨識方法以及非暫態電腦可讀取儲存媒體 - Google Patents

人體姿勢辨識系統、人體姿勢辨識方法以及非暫態電腦可讀取儲存媒體 Download PDF

Info

Publication number
TWI733616B
TWI733616B TW109138489A TW109138489A TWI733616B TW I733616 B TWI733616 B TW I733616B TW 109138489 A TW109138489 A TW 109138489A TW 109138489 A TW109138489 A TW 109138489A TW I733616 B TWI733616 B TW I733616B
Authority
TW
Taiwan
Prior art keywords
human body
skeleton
image
images
posture recognition
Prior art date
Application number
TW109138489A
Other languages
English (en)
Other versions
TW202219823A (zh
Inventor
彭煜庭
宋彥陞
郭庭歡
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW109138489A priority Critical patent/TWI733616B/zh
Priority to CN202011291594.8A priority patent/CN114529979A/zh
Priority to US17/105,663 priority patent/US20220138459A1/en
Application granted granted Critical
Publication of TWI733616B publication Critical patent/TWI733616B/zh
Publication of TW202219823A publication Critical patent/TW202219823A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一種人體姿勢辨識系統包含來源影像裝置、儲存裝置及處理裝置。來源影像裝置接收複數個待辨識影像。儲存裝置儲存姿勢辨識模型,其中姿勢辨識模型係用以輸入骨架影像後可輸出人體姿勢辨識結果。骨架影像包含骨架。骨架包含複數個關節及複數個肢體。各肢體具有對應的肢體顏色,且各肢體顏色彼此不同。處理裝置耦接於來源影像裝置及儲存裝置。處理裝置經配置以從該些待辨識影像產生該些骨架影像;將該些骨架影像分別輸入姿勢辨識模型,以輸出對應的人體姿勢辨識結果;以及根據對應的人體姿勢辨識結果,判斷是否發出一異常訊息。

Description

人體姿勢辨識系統、人體姿勢辨識方法以及非暫態電腦可讀取儲存媒體
本案是有關於一種辨識系統及辨識方法,且特別是有關於一種人體姿勢辨識系統以及人體姿勢辨識方法。
人體姿勢辨識方法廣泛運用於公共場所,目的在於透過人體姿勢的辨識來判別在場域之中人員的狀態,以維護場域中人員的安全。例如在道路、交通環境、或是大眾運輸公共場所,當有人跌倒時,除了造成人員的受傷或生命危害而需要受到即時關注,跌倒還會導致場域的混亂而造成公共安全的危害。
為維護及掌握場域中人員的狀態,公共場所會設置攝影機來監控現場。然而目前的影像處理技術會受攝影機拍攝到現場的場域複雜度、拍攝角度、光線變化等變數,造成不易在影像中正確地判別現場人員的狀態。當場域複雜或人數眾多造成人員交疊狀況時,經常無法取得每個人員的完整影像,且目前影線辨識演算法多採用灰階影像來運算,更無法判斷人員的左右邊或是遠近,更難以辨識影像中的內容。這樣的情況,會影響辨識模型的訓練以及後續的影像辨識。
發明內容旨在提供本揭示內容的簡化摘要,以使閱讀者對本案內容具備基本的理解。此發明內容並非本揭示內容的完整概述,且其用意並非在指出本案實施例的重要/關鍵元件或界定本案的範圍。
根據本案之一實施例,揭示一種人體姿勢辨識系統,其包含來源影像裝置、儲存裝置以及處理裝置。來源影像裝置用以接收複數個待辨識影像。儲存裝置用以儲存姿勢辨識模型,其中姿勢辨識模型係用以輸入骨架影像後可輸出人體姿勢辨識結果。骨架影像包含有骨架,且骨架包含有複數個關節及複數個肢體。各肢體具有對應的肢體顏色,且各肢體顏色彼此不同。處理裝置耦接於來源影像裝置及儲存裝置。處理裝置經配置以執行以下操作:從該些待辨識影像產生該些骨架影像;將該些骨架影像分別輸入該姿勢辨識模型,以輸出對應的該人體姿勢辨識結果;以及根據對應的該人體姿勢辨識結果,判斷是否發出一異常訊息。
根據另一實施例,揭示一種人體姿勢辨識方法,包含以下步驟:接收複數個待辨識影像;從該些待辨識影像產生複數個骨架影像,其中該骨架影像包含有一骨架,且該骨架包含有複數個關節及複數個肢體,且各該肢體具有對應的一肢體顏色,且各該肢體顏色彼此不同;將該些骨架影像分別輸入一姿勢辨識模型,以輸出對應的一人體姿勢辨識結果;以及根據對應的該人體姿勢辨識結果,判斷是否發出一異常訊息。
根據另一實施例,揭示一種非暫態電腦可讀取儲存媒體,儲存多個程式碼,當該些程式碼被載入至一處理器後,該處理器執行該些程式碼以完成下列步驟:接收複數個待辨識影像;從該些待辨識影像產生複數個骨架影像;將該些骨架影像分別輸入一姿勢辨識模型,以輸出對應的一人體姿勢辨識結果,其中該骨架影像包含有一骨架,且該骨架包含有複數個關節及複數個肢體,且各該肢體具有對應的一肢體顏色,且各該肢體顏色彼此不同;以及根據對應的該人體姿勢辨識結果,判斷是否發出一異常訊息。
以下揭示內容提供許多不同實施例,以便實施本案之不同特徵。下文描述元件及排列之實施例以簡化本案。當然,該些實施例僅為示例性且並不欲為限制性。舉例而言,本案中使用「第一」、「第二」等用語描述元件,僅是用以區別以相同或相似的元件或操作,該用語並非用以限定本案的技術元件,亦非用以限定操作的次序或順位。另外,本案可在各實施例中重複元件符號及/或字母,並且相同的技術用語可使用相同及/或相應的元件符號於各實施例。此重複係出於簡明性及清晰之目的,且本身並不指示所論述之各實施例及/或配置之間的關係。
現今的保全監視系統相當發達,使用者可以取得在不同的場域中(例如捷運站、火車站、百貨商場等)的監視攝影機的影片。現有的保全監視系統多是需仰賴中控人員隨時地監視畫面,透過監視畫面來判斷現場是否有意外事件發生。然而,這樣的方法存在風險。若中控人員一時不注意或者顯示螢幕有瑕疵或毀損等意外狀況,將錯失對現場狀況的掌握。
參照第1圖,其繪示根據本案一些實施例中在一場域拍攝影片中之其中一待辨識影像100之示意圖。待辨識影像100是在捷運月台的畫面(scene)。為辨識影片中的人員是否有異常狀態,使用者可以在這些影片(video)中取得一幀(frame)的影像(image)(或者稱為圖片(picture)),以此影像作為待辨識影像100,以判斷此待辨識影像100中的人員是否有異常狀態。於一些實施例中,待辨識影像100中包含人體圖片,例如人體圖片110、120、130及140。擷取人體圖片的方法將說明如後。在捷運月台有多個乘客(如人體圖片110及120)即將走進車廂。在捷運月台有乘客(如人體圖片130)跌坐在地上。在捷運月台有乘客(如人體圖片140)倒臥在地。
請參照第2圖,其繪示根據本案一些實施例中一種人體姿勢辨識系統200的示意圖。人體姿勢辨識系統200可以透過辨識影像中的人體骨架,來實現自動偵測影像中的人體姿勢。
如第2圖所示,人體姿勢辨識系統200包含來源影像裝置210、處理裝置220以及儲存裝置230。來源影像裝置210以及儲存裝置230耦接於處理裝置220。
於一些實施例中,來源影像裝置210會接收複數個待辨識影像。待辨識影像可以是從即時串流或影片中所擷取出的任一影像。舉例而言,若影片的影格率(frame per second, fps)是30fps,代表此影片每秒顯示30幀。待辨識影像可以是影片中的任何一個靜態的畫面。於另一些實施例中,來源影像裝置210也可以接收一即時串流(Live stream),或者是預先儲存的影片(video)後,從中擷取出複數個待辨識影像。
於一些實施例中,儲存裝置230會儲存一姿勢辨識模型。姿勢辨識模型於輸入一骨架影像後,會輸出一人體姿勢辨識結果。舉例而言,姿勢辨識模型儲存有複數個骨架影像及對應的人體姿勢。當待辨識影像被輸入至姿勢辨識模型後,若判斷出待辨識影像中有骨架影像,則可進一步根據此骨架影像來辨識出人體的姿勢,以輸出人體的姿勢結果。姿勢辨識模型可以是卷積類神經網路(CNN)模型。卷積類神經網路可以是LeNet、AlexNet、VGGNet、GoogLeNet(Inception)、ResNet等模型,本案不限於此些模型。
於一些實施例中,處理裝置220從該些待辨識影像產生姿勢辨識模型所需要的骨架影像,骨架影像中包含一個以上的骨架。從影像中擷取出骨架影像的方法可以是人物肢體關鍵點偵測演算法。人物肢體關鍵點偵測演算法是透過偵測人體的關鍵點,例如關節,以藉由這些關鍵點來描繪人體的骨骼或肢體訊息。人物肢體關鍵點偵測演算法可以為但不限於OpenPose演算法、多人姿態估計演算法(regional multi-person pose estimation, RMPE)、DeepCut演算法、Mask R-CNN演算法等,或者任何自行建構開發用來檢測出人物肢體的演算法均可運用於本案。在執行人物肢體關鍵點偵測演算法而得到人體的關節位置之後,可根據關節位置的座標連線,繪製出骨架影像。
值得一提的是,待辨識影像是從即時串流或影片中擷取出的畫面或圖片,一個待辨識影像中可能沒有人體,或者有一個或以上的複數個人體。經由處理裝置220從一個待辨識影像產生骨架影像時,若待辨識影像中沒有骨架影像,則不需要輸入姿勢辨識模型。待辨識影像亦可能會擷取到一個或多個骨架影像,而一個待辨識影像中的每一個骨架影像都會逐一輸入姿勢辨識模型來進行辨識。
為進一步說明骨架影像於本案中的運作,請一併參照第1圖及第3A圖至第3D圖。第3A圖至第3D圖繪示本案一些實施例中儲存於姿勢辨識模型的骨架影像310至340之示意圖。於一些實施例中,第3A圖之骨架影像310及第3B圖之骨架影像320是對應到站立的人體姿勢。第3C圖之骨架影像330是對應到蹲坐的人體姿勢。第3D圖之骨架影像340是對應到跌倒的人體姿勢。值得一提的是,第3A圖至第3D圖繪示的骨架影像310至340僅為例示,姿勢辨識模型中對應到每個人體姿勢的骨架影像可以有複數個,骨架影像的數量越多,越可以增加判斷人體姿勢的精確度。
於一些實施例中,每個骨架影像中的骨架包含複數個關節及複數個肢體。各肢體具有對應的肢體顏色,並且各肢體顏色彼此不同。舉例而言,在計算出關節座標之後,可以獲得各關節座標之間的連線(即肢體)的線條,來繪製骨架影像。
於一些實施例中,第3A圖的骨架影像310包括關節311、312、313及314。在關節311及312之間的肢體322為左上臂。在關節313及314之間的肢體325為右上臂。在關節311及關節313之間的肢體324為人體肩膀。在肢體324上方的肢體321為頭部。在關節312至末端關節的肢體323為左下臂。在關節314至末端關節的肢體326為右下臂。以此類推,第3A圖僅標示部分肢體作為說明,而不限於此些肢體。
在一些實施例中,肢體321、322、323、324、325及326都具有對應的肢體顏色,並且每個肢體顏色都不同。舉例而言,肢體321是紅色,肢體322是淺綠色,肢體323是深綠色,肢體324是紫色,肢體325是黃色,以及肢體326是藍綠色。由於各肢體顏色彼此不同,骨架便可以區分出人員的左半邊或右半邊,當骨架有比較複雜的交疊時,也比較容易進行判斷,在辨識人體姿勢的時候可以更精準。此外,由於人體距離攝影機的距離不同,所產生的骨架影像的精細和模糊樣態也會有差異,為了能夠將和攝影機距離不同的骨架分開進行比對,當該骨架影像所對應之該人體圖片於該待辨識影像中的該畫素數目的該比例越高時,該骨架之各該肢體的線條越細,當該比例越低時,該骨架之各該肢體的線條越粗。
於一些實施例中,處理裝置220會從待辨識影像中取出人體圖片,並人物肢體關鍵點偵測演算法,從人體圖片中取得對應的複數個人體關鍵點座標。接著,處理裝置220根據這些人體關鍵點座標之間的連線,來獲得人體所對應的骨架影像及其肢體。於一些實施例中,人體關鍵點座標是對應於骨架影像的關節。
請復參照第1圖及第2圖,處理裝置220用以從待辨識影像100中產生骨架影像。舉例而言,處理裝置220對第1圖之待辨識影像100執行人物肢體關鍵點偵測演算法,由於待辨識影像100有四個乘客,因此處理裝置220可以產生分別對應到人體圖片110至140的四個骨架影像(未繪示)。
於一些實施例中,處理裝置220將產生的四個骨架影像分別輸入至姿勢辨識模型,以輸出人體姿勢辨識結果。舉例而言,處理裝置220從人體圖片110計算得到第一骨架影像(未繪示),並將第一骨架影像輸入至姿勢辨識模型。姿勢辨識模型中預先儲存有骨架影像(例如第3A圖至第3D圖的骨架影像310至340),逐一比對判斷是否存在有相同或相似於第一骨架影像的骨架影像。本實施例中,可以在姿勢辨識模型中得到相同或相似於第一骨架影像的骨架影像310,如第3A圖所示。由於骨架影像310對應至站立之人體姿勢,因此,處理裝置220輸出的人體姿勢辨識結果是站立姿勢。
相似地,處理裝置220從人體圖片120計算得到第二骨架影像(未繪示),並將第二骨架影像輸入至姿勢辨識模型。本實施例中,可以在姿勢辨識模型中得到相同或相似於第二骨架影像的骨架影像320,如第3B圖所示。由於骨架影像320對應至站立之人體姿勢,因此,處理裝置220輸出的人體姿勢辨識結果是站立姿勢。
相似地,處理裝置220從人體圖片130計算得到第三骨架影像(未繪示),並將第三骨架影像輸入至姿勢辨識模型。本實施例中,可以在姿勢辨識模型中得到相同或相似於第三骨架影像的骨架影像330,如第3C圖所示。由於骨架影像330對應至蹲坐之人體姿勢,因此,處理裝置220輸出的人體姿勢辨識結果是蹲坐姿勢。
相似地,處理裝置220從人體圖片140計算得到第四骨架影像(未繪示),並將第四骨架影像輸入至姿勢辨識模型。本實施例中,可以在姿勢辨識模型中得到相同或相似於第四骨架影像的骨架影像340,如第3D圖所示。由於骨架影像340對應至跌倒之人體姿勢,因此,處理裝置220輸出的人體姿勢辨識結果是跌倒姿勢。
於一些實施例中,處理裝置220會根據對應的人體姿勢辨識結果來判斷是否發出一異常訊息。承上述實施例說明,處理裝置220於第1圖的待辨識影像100中判斷出有乘客的人體姿勢是跌倒姿勢,則判定是異常狀態,因此發出一異常訊息。值得一提的是,對於人體姿勢是正常狀態或異常狀態,可隨著場景運用的不同而有所改變。舉例而言,在月台上若有乘客跌倒,則可能造成安全性的危害(例如跌入軌道),或者造成秩序的混亂(例如擋住通道)。這樣的情況下,可以將跌倒姿勢設定為異常姿勢。
為進一步說明本案的人體姿勢辨識方法,請一併參照第2圖及第4圖。
第4圖繪示根據本案一些實施例中一種人體姿勢辨識方法400的流程圖。人體姿勢辨識方法400可由第2圖的人體姿勢辨識系統200來執行。
於步驟S403,接收複數個待辨識影像。於一些實施例中,人體姿勢辨識系統200會接收複數個待辨識影像,以對這些待辨識影像進行辨識。
於步驟S405,分別從這些待辨識影像產生對應的骨架影像。於一些實施例中,人體姿勢辨識系統200對待辨識影像執行人物肢體關鍵點偵測演算法,計算出待辨識影像中的每一個人體所對應的骨架影像。
於一些實施例中,人體姿勢辨識方法400會從待辨識影像中取出人體圖片,並從人體圖片中取得對應的複數個人體關鍵點座標。接著,根據這些人體關鍵點座標之間的連線,來獲得人體所對應的骨架影像及其肢體。所述的人體關鍵點座標是對應於骨架影像的關節。
於步驟S410,對骨架影像中的每個肢體部位標記一顏色特徵,使得每個肢體部位的顏色特徵彼此不同。於一些實施例中,姿勢辨識模型中預先儲存的骨架影像的各肢體部位都有一對應的肢體顏色,例如頭部會標記為紅色。在後續對待辨識影像所產生的骨架影像中的肢體部位標記顏色特徵時,會遵循同樣的顏色特徵的規則,也就是若辨識出頭部,則該肢體部位的顏色特徵會被標記為紅色。
於步驟S415,將從待辨識影像中獲得的每一個骨架影像輸入至姿勢辨識模型。於一些實施例中,若從待辨識影像中計算出多個骨架影像,則每一個骨架影像都會被輸入至姿勢辨識模型,以判斷每一個人體的姿勢。
於一些實施例中,人體姿勢辨識方法400會進一步對骨架影像的各肢體的線條粗細進行調整,例如會隨著骨架影像對應的人體圖片於待辨識影像的畫素數目的比例,調整骨架影像中的骨架之線條粗細。舉例而言,根據具有該骨架影像的人體圖片的畫素數目以及待辨識影像的畫素數目,來計算兩者的比例。於一些實施例中,若骨架影像對應的人體圖片於待辨識影像的畫素數目的比例越高(例如18%),代表人體距離攝影機越近,則骨架影像中的骨架線條越細。相反地,若骨架影像對應的人體圖片於待辨識影像的畫素數目的比例越低(例如3%),代表人體距離攝影機越遠,則骨架影像中的線條越粗。於一些實施例中,由於人體距離攝影機的距離不同,所產生的骨架影像的精細和模糊樣態也會有差異,若能夠將距離不同的骨架分開比對,將可提高比對的精準度。距離攝影機越遠的人體圖像,其對應於的畫素數目的比例越低,其原始骨架的線條會越模糊,因此會調整加寬其骨架的線條。而距離攝影機越近的人體圖像,其對應於的畫素數目的比例越高,其原始骨架的線條會越清晰,因此調整變細其骨架的線條,以能夠清楚的呈現骨架的結構,以提升人體姿勢的辨識度。
於步驟S420,輸出人體辨識結果,以根據人體姿勢辨識結果,判斷是否發出異常訊息。於一些實施例中,若人體姿勢辨識結果符合一異常狀態,例如跌倒姿勢,則判定現場有異常狀態。此時,人體姿勢辨識方法400會發出一異常訊息,以供相關人員檢視。
姿勢辨識模型的訓練方法說明如下。
於一些實施例中,姿勢辨識模型是採用複數個訓練影像進行訓練所建立。請復參照第2圖,處理裝置220可取得來源影像裝置210中的複數個訓練影像。值得一提的是,任何多媒體串流的畫面、影像畫面等可擷取為靜態畫面的影像均可被運用來作為訓練影像。
於一些實施例中,處理裝置220使用這些訓練影像透過人物肢體關鍵點偵測演算法來獲得複數個訓練骨架影像,使得每一個訓練骨架影像中的各肢體都具有對應的肢體顏色。
於一些實施例中,處理裝置220會標記這些骨架影像所對應的人體姿勢辨識結果。例如提供一操作介面,讓標記的人員來選擇一個訓練骨架影像並記錄其所對應的人體姿勢,操作介面亦可顯示原始的訓練影像以供標記的人員來確認和紀錄所對應的人體姿勢。這些具有肢體顏色以及被標記有對應的人體姿勢辨識結果之骨架影像會被輸入訓練模型進行訓練。舉例而言,透過深度學習演算法來訓練模型。處理裝置220會根據具有對應肢體顏色的訓練骨架影像以及所對應的人體姿勢辨識結果,訓練並產生姿勢辨識模型。
於一些實施例中,處理裝置220使用這些訓練影像中每一個訓練骨架影像的人體圖片的畫素數目,來計算出空間特徵。處理裝置220可以根據各訓練影像中的複數個人體關鍵點座標及人體圖片的空間特徵,來獲得這些訓練骨架。舉例而言,訓練影像中可以有一或多個人體,而進一步從訓練影像中得到對應於人體的人體圖片。於一些實施例中,可透過人體圖片的畫素數目與訓練影像的畫素數目之比例,來推算出人體圖片和攝影機之間距離的遠近,而獲得此空間特徵。空間特徵可以是人體圖片的景深資訊。於一些實施例中,處理裝置220透過景深資訊來調整人體圖片的骨架影像的骨架線條的粗細。
於一些實施例中,當人體圖片的景深資訊指示人體和攝影機之間的距離越遠,則人體圖片之骨架影像的骨架線條會被加粗。於另一些實施例中,當人體圖片的景深資訊指示人體的距離越近,則人體圖片之骨架影像的骨架線條越細。
於一些實施例中,人體姿勢辨識方法400會等比例調整骨架影像的尺寸,以使用經調整的骨架影像來訓練姿勢辨識模型。請參照第5A圖至第5B圖,其繪示根據本案一些實施例中骨架影像510及520的示意圖。如第5A圖所示,從訓練影像中獲得骨架影像510。獲得骨架影像的方法如上說明,於此不再贅述。骨架影像510的影像寬度W1(例如是100畫素)及高度H1(例如是200畫素)。為使輸入至姿勢辨識模型的骨架影像的尺寸一致,會對骨架影像510的尺寸進行標準化的調整,例如將所有的骨架影像調整為一樣的尺寸,例如等比例縮小為48畫素之寬度及48畫素之高度。舉例而言,骨架影像510先進行等比例縮小(100畫素×200畫素縮小為24畫素×48畫素),接著再對不足48畫素的影像寬度填補至48畫素。如第5B圖所示,調整後的骨架影像520的影像寬度W2(例如是48畫素)及高度H2(例如是48畫素)。由於所有的骨架影像具有相同的長寬比,並且具有相同的影像尺寸。透過影像標準化的方法,除了可確保人體姿勢的正確性,還可提升深度學習影像訓練及辨識的時候之精準度。
於一些實施例中提出一種非暫態電腦可讀取儲存媒體,可儲存多個程式碼。當該些程式碼被載入至處理器或如第2圖之處理裝置220後,處理裝置220執行該些程式碼以執行如第4圖之步驟。舉例而言,處理裝置220接收複數個待辨識影像,從這些待辨識影像產生複數個骨架影像,並將這些骨架影像分別輸入至姿勢辨識模型,以輸出對應的人體姿勢辨識結果。以及,根據對應的人體姿勢辨識結果,判斷是否發出異常訊息。
綜上所述,本案的人體姿勢辨識系統及人體姿勢辨識方法中,將透過提取人體圖片的骨架影像來進行姿勢的比對,並且由於骨架影像的各肢體具有不同的顏色特徵,當肢體彼此之間或人體彼此之間交疊時,相較於傳統使用灰階來進行影像辨識的作法,本案對各肢體採用不同的顏色特徵可提升處理裝置進行視覺辨識的準確度。此外,由於人體較遠的時候人體圖片較小,這會降低處理裝置進行視覺辨識的精準度,因此,本案結合了人體圖片的深度資訊,來對應地加粗距離較遠的人體之骨架線條,以利於辨識人體各肢體及各肢體之間的關聯性。並且,相較於訓練影像或待辨識影像的尺寸,本案的骨架影像的尺寸較小,而可節省影像訓練及姿態辨識的運算時間,提升訓練及辨識的效率。據此,本案透過肢體的顏色特徵及空間資訊的方法可提供高效率及高精準度的影像訓練及姿態辨識。
上述內容概述若干實施例之特徵,使得熟習此項技術者可更好地理解本案之態樣。熟習此項技術者應瞭解,在不脫離本案的精神和範圍的情況下,可輕易使用上述內容作為設計或修改為其他變化的基礎,以便實施本文所介紹之實施例的相同目的及/或實現相同優勢。上述內容應當被理解為本案的舉例,其保護範圍應以申請專利範圍為準。
100:待辨識影像 110~140:人體圖片 200:人體姿勢辨識系統 210:來源影像裝置 220:處理裝置 230:儲存裝置 310~340:骨架影像 311~314:關節 321~326:肢體 400:人體姿勢辨識方法 S403~S420:步驟 510,520:骨架影像
以下詳細描述結合隨附圖式閱讀時,將有利於較佳地理解本揭示文件之態樣。應注意,根據說明上實務的需求,圖式中各特徵並不一定按比例繪製。實際上,出於論述清晰之目的,可能任意增加或減小各特徵之尺寸。 第1圖繪示根據本案一些實施例中在一場景拍攝的影片中之其中一待辨識影像之示意圖。 第2圖繪示根據本案一些實施例中一種人體姿勢辨識系統的示意圖。 第3A圖至第3D圖繪示本案一些實施例中儲存於姿勢辨識模型的骨架影像之示意圖。 第4圖繪示根據本案一些實施例中一種人體姿勢辨識方法的流程圖。 第5A圖至第5B圖繪示根據本案一些實施例中的調整骨架影像的示意圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無 國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無
200:人體姿勢辨識系統
210:來源影像裝置
220:處理裝置
230:儲存裝置

Claims (20)

  1. 一種人體姿勢辨識系統,包含: 一來源影像裝置,接收複數個待辨識影像; 一儲存裝置,儲存一姿勢辨識模型,其中該姿勢辨識模型係用以輸入一骨架影像後可輸出一人體姿勢辨識結果,該骨架影像包含有一骨架,且該骨架包含有複數個關節及複數個肢體,且各該肢體具有對應的一肢體顏色,且各該肢體顏色彼此不同;以及 一處理裝置,耦接於該來源影像裝置及該儲存裝置,其中該處理裝置經配置以: 從該些待辨識影像產生該些骨架影像; 將該些骨架影像分別輸入該姿勢辨識模型,以輸出對應的該人體姿勢辨識結果;以及 根據對應的該人體姿勢辨識結果,判斷是否發出一異常訊息。
  2. 如請求項1所述之人體姿勢辨識系統,其中該姿勢辨識模型係採用複數個訓練影像進行一訓練而產生,且該姿勢辨識模型的訓練係經由該處理裝置,使用該些訓練影像來獲得複數個訓練骨架影像,使得每一該些訓練骨架影像中的各該肢體具有對應的該肢體顏色,並標記每一該些訓練骨架影像所對應的該人體姿勢辨識結果,以及,根據具有對應該肢體顏色的該些訓練骨架影像以及所對應的該人體姿勢辨識結果,訓練並產生該姿勢辨識模型。
  3. 如請求項2所述之人體姿勢辨識系統,其中該些訓練骨架影像係經由該處理裝置使用該些訓練影像中對應每一該訓練骨架影像的一人體圖片的一畫素數目來計算一空間特徵,根據各該訓練影像中的複數個人體關鍵點座標及該人體圖片的該空間特徵來獲得該些訓練骨架影像。
  4. 如請求項3所述之人體姿勢辨識系統,其中一特定骨架之各該肢體的線條粗細,係依據該骨架影像所對應之該人體圖片於該待辨識影像中的該畫素數目的一比例而決定。
  5. 如請求項1所述之人體姿勢辨識系統,其中當該骨架影像所對應之該人體圖片於該待辨識影像中的一畫素數目的一比例越高時,該骨架之各該肢體的線條越細,當該比例越低時,該骨架之各該肢體的線條越粗。
  6. 如請求項3所述之人體姿勢辨識系統,其中該空間特徵包含該骨架影像所對應之該人體圖片的一景深資訊,以透過該景深資訊調整該人體圖片之該骨架影像的各該肢體的線條的粗細。
  7. 如請求項6所述之人體姿勢辨識系統,其中當該人體圖片的景深資訊指示人體的距離越遠,該人體圖片之該骨架影像的骨架線條越粗,以及當該人體圖片的景深資訊指示人體的距離越近,該人體圖片之該骨架影像的骨架線條越細。
  8. 如請求項1所述之人體姿勢辨識系統,其中該處理裝置更經配置以從該些待辨識影像中取出至少一人體圖片,從每一該人體圖片中取得其對應的複數個人體關鍵點座標,使用該些人體關鍵點座標之間的連線來獲得每一人體所對應的骨架影像及其該些肢體。
  9. 如請求項8所述之人體姿勢辨識系統,其中各該人體關鍵點座標對應於該骨架影像的該些關節之一。
  10. 如請求項2所述之人體姿勢辨識系統,其中該處理裝置更經配置以等比例調整該骨架影像的尺寸,以使用經調整的該骨架影像來訓練該姿勢辨識模型。
  11. 一種人體姿勢辨識方法,包含: 接收複數個待辨識影像; 從該些待辨識影像產生複數個骨架影像,其中該骨架影像包含有一骨架,且該骨架包含有複數個關節及複數個肢體,且各該肢體具有對應的一肢體顏色,且各該肢體顏色彼此不同; 將該些骨架影像分別輸入一姿勢辨識模型,以輸出對應的一人體姿勢辨識結果,;以及 根據對應的該人體姿勢辨識結果,判斷是否發出一異常訊息。
  12. 如請求項11所述之人體姿勢辨識方法,還包含: 採用複數個訓練影像進行一訓練而產生該姿勢辨識模型; 使用該些訓練影像來獲得複數個訓練骨架影像,使得每一該些訓練骨架影像中的各該肢體具有對應的該肢體顏色; 標記每一該些訓練骨架影像所對應的該人體姿勢辨識結果;以及 根據具有對應該肢體顏色的該些訓練骨架影像以及所對應的該人體姿勢辨識結果,訓練並產生該姿勢辨識模型。
  13. 如請求項12所述之人體姿勢辨識方法,還包含: 使用該些訓練影像中對應每一該訓練骨架影像的一人體圖片的一畫素數目來計算一空間特徵;以及 根據各該訓練影像中的複數個人體關鍵點座標及該人體圖片的該空間特徵來獲得該些訓練骨架影像。
  14. 如請求項13所述之人體姿勢辨識方法,還包含: 依據該骨架影像所對應之該人體圖片於該待辨識影像中的該畫素數目的一比例而決定一特定骨架之各該肢體的線條粗細。
  15. 如請求項11所述之人體姿勢辨識方法,其中當該骨架影像所對應之該人體圖片於該待辨識影像中的一畫素數目的一比例越高時,該骨架之各該肢體的線條越細,當該比例越低時,該骨架之各該肢體的線條越粗。
  16. 如請求項13所述之人體姿勢辨識方法,其中該空間特徵包含該骨架影像所對應之該人體圖片的一景深資訊,該人體姿勢辨識方法還包括透過該景深資訊調整該人體圖片之該骨架影像的各該肢體的線條的粗細。
  17. 如請求項11所述之人體姿勢辨識方法,還包含: 從該複數個待辨識影像中取出至少一人體圖片; 從每一該人體圖片中取得其對應的複數個人體關鍵點座標;以及 使用該些人體關鍵點座標之間的連線來獲得每一人體所對應的骨架影像及其該些肢體。
  18. 如請求項17所述之人體姿勢辨識方法,其中各該人體關鍵點座標對應於該骨架影像的該些關節之一。
  19. 如請求項12所述之人體姿勢辨識方法,還包含: 等比例調整該骨架影像的尺寸,以使用經調整的該骨架影像來訓練該姿勢辨識模型。
  20. 一種非暫態電腦可讀取儲存媒體,儲存多個程式碼,當該些程式碼被載入至一處理器後,該處理器執行該些程式碼以完成下列步驟: 接收複數個待辨識影像; 從該些待辨識影像產生複數個骨架影像; 將該些骨架影像分別輸入一姿勢辨識模型,以輸出對應的一人體姿勢辨識結果,其中該骨架影像包含有一骨架,且該骨架包含有複數個關節及複數個肢體,且各該肢體具有對應的一肢體顏色,且各該肢體顏色彼此不同;以及 根據對應的該人體姿勢辨識結果,判斷是否發出一異常訊息。
TW109138489A 2020-11-04 2020-11-04 人體姿勢辨識系統、人體姿勢辨識方法以及非暫態電腦可讀取儲存媒體 TWI733616B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW109138489A TWI733616B (zh) 2020-11-04 2020-11-04 人體姿勢辨識系統、人體姿勢辨識方法以及非暫態電腦可讀取儲存媒體
CN202011291594.8A CN114529979A (zh) 2020-11-04 2020-11-18 人体姿势辨识系统、人体姿势辨识方法以及非暂态计算机可读取储存媒体
US17/105,663 US20220138459A1 (en) 2020-11-04 2020-11-27 Recognition system of human body posture, recognition method of human body posture, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109138489A TWI733616B (zh) 2020-11-04 2020-11-04 人體姿勢辨識系統、人體姿勢辨識方法以及非暫態電腦可讀取儲存媒體

Publications (2)

Publication Number Publication Date
TWI733616B true TWI733616B (zh) 2021-07-11
TW202219823A TW202219823A (zh) 2022-05-16

Family

ID=77911180

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109138489A TWI733616B (zh) 2020-11-04 2020-11-04 人體姿勢辨識系統、人體姿勢辨識方法以及非暫態電腦可讀取儲存媒體

Country Status (3)

Country Link
US (1) US20220138459A1 (zh)
CN (1) CN114529979A (zh)
TW (1) TWI733616B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI785871B (zh) * 2021-10-31 2022-12-01 鴻海精密工業股份有限公司 姿勢識別方法、設備及存儲介質

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI824650B (zh) * 2022-08-05 2023-12-01 大可特股份有限公司 體態檢測系統及體態檢測方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787439A (zh) * 2016-02-04 2016-07-20 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN108229445A (zh) * 2018-02-09 2018-06-29 深圳市唯特视科技有限公司 一种基于级联金字塔网络的多人姿态估计方法
CN108710830A (zh) * 2018-04-20 2018-10-26 浙江工商大学 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法
CN110246181A (zh) * 2019-05-24 2019-09-17 华中科技大学 基于锚点的姿态估计模型训练方法、姿态估计方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111093782A (zh) * 2017-09-05 2020-05-01 富士通株式会社 评分方法、评分程序以及评分装置
US11308639B2 (en) * 2019-03-12 2022-04-19 Volvo Car Corporation Tool and method for annotating a human pose in 3D point cloud data
CN110929584A (zh) * 2019-10-28 2020-03-27 九牧厨卫股份有限公司 网络训练方法、监控方法、系统、存储介质和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787439A (zh) * 2016-02-04 2016-07-20 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN108229445A (zh) * 2018-02-09 2018-06-29 深圳市唯特视科技有限公司 一种基于级联金字塔网络的多人姿态估计方法
CN108710830A (zh) * 2018-04-20 2018-10-26 浙江工商大学 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法
CN110246181A (zh) * 2019-05-24 2019-09-17 华中科技大学 基于锚点的姿态估计模型训练方法、姿态估计方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI785871B (zh) * 2021-10-31 2022-12-01 鴻海精密工業股份有限公司 姿勢識別方法、設備及存儲介質

Also Published As

Publication number Publication date
US20220138459A1 (en) 2022-05-05
CN114529979A (zh) 2022-05-24
TW202219823A (zh) 2022-05-16

Similar Documents

Publication Publication Date Title
CN110222665B (zh) 一种基于深度学习和姿态估计的监控中人体动作识别方法
CN106228628B (zh) 基于人脸识别的签到系统、方法和装置
CN110837784B (zh) 一种基于人体头部特征的考场偷窥作弊检测系统
TWI733616B (zh) 人體姿勢辨識系統、人體姿勢辨識方法以及非暫態電腦可讀取儲存媒體
TWI439951B (zh) 人臉影像性別辨識系統及其辨識方法及其電腦程式產品
CN106384106A (zh) 一种基于三维扫描的反欺诈人脸识别系统
CN106156714A (zh) 基于骨骼关节特征和表面特征融合的人体行为识别方法
US20180307896A1 (en) Facial detection device, facial detection system provided with same, and facial detection method
CN106686347A (zh) 一种基于视频的判定地铁摄像机移位的方法
Kobayashi et al. Fine-grained action recognition in assembly work scenes by drawing attention to the hands
CN113705510A (zh) 目标识别跟踪的方法、装置、设备及存储介质
US11659134B2 (en) Image processing apparatus and image processing method
US20240020837A1 (en) Image processing apparatus, image processing method, and nontransitory computer-readable medium
CN112233770B (zh) 一种基于视觉感知的健身房智能管理决策系统
CN111813995A (zh) 一种基于时空关系的行人提取物品行为检测方法及系统
CN111144260A (zh) 一种翻越闸机的检测方法、装置及系统
CN116229507A (zh) 人体姿态检测方法及系统
CN112818801B (zh) 运动计数方法、识别装置、识别系统及存储介质
US20220207261A1 (en) Method and apparatus for detecting associated objects
US20220319232A1 (en) Apparatus and method for providing missing child search service based on face recognition using deep-learning
KR20220114819A (ko) 동적 카메라 영상 내의 객체를 실시간 추적하는 시스템 및 방법
CN113496200A (zh) 数据处理方法、装置、电子设备及存储介质
CN105955058A (zh) 无线智能家居系统
CN110909632A (zh) 一种利用交替光源进行人脸防伪的方法及装置
Nishida et al. SOANets: Encoder-decoder based Skeleton Orientation Alignment Network for White Cane User Recognition from 2D Human Skeleton Sequence.