TWI742690B - 人體檢測方法、裝置、電腦設備及儲存媒體 - Google Patents

人體檢測方法、裝置、電腦設備及儲存媒體 Download PDF

Info

Publication number
TWI742690B
TWI742690B TW109117278A TW109117278A TWI742690B TW I742690 B TWI742690 B TW I742690B TW 109117278 A TW109117278 A TW 109117278A TW 109117278 A TW109117278 A TW 109117278A TW I742690 B TWI742690 B TW I742690B
Authority
TW
Taiwan
Prior art keywords
feature matrix
contour
feature
bone
target
Prior art date
Application number
TW109117278A
Other languages
English (en)
Other versions
TW202112306A (zh
Inventor
段浩東
劉文韜
Original Assignee
大陸商北京市商湯科技開發有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商北京市商湯科技開發有限公司 filed Critical 大陸商北京市商湯科技開發有限公司
Publication of TW202112306A publication Critical patent/TW202112306A/zh
Application granted granted Critical
Publication of TWI742690B publication Critical patent/TWI742690B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/033Recognition of patterns in medical or anatomical images of skeletal patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本公開提供了一種人體檢測方法、裝置、電腦設備及儲存媒體,其中,該方法包括:獲取待檢測圖像;基於所述待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息;基於所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息,生成人體檢測結果。

Description

人體檢測方法、裝置、電腦設備及儲存媒體
本公開涉及圖像處理技術領域,具體而言,涉及一種人體檢測方法、裝置、電腦設備及儲存媒體。
隨著神經網路在圖像、視頻、語音、文本等領域的應用,用戶對基於神經網路的各種模型的精度要求也越來越高。在圖像中進行人體檢測是神經網路的一種重要應用場景,對人體檢測的精細度和計算數據量的要求較高。
本公開實施例的目的在於提供一種人體檢測方法、裝置、電腦設備及儲存媒體。
第一方面,本公開實施例提供了一種人體檢測方法,包括:獲取待檢測圖像;基於所述待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息;基於所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息,生成人體檢測結果。
本公開實施例能夠從待檢測圖像中,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息,並基於骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息,生成人體檢測結果,在提升表徵精細度的同時,兼顧計算數據量。
另外,本公開實施方式中,由於是採用表徵人體骨骼結構的骨骼關鍵點的位置訊息,和表徵人體輪廓的輪廓關鍵點的位置訊息來得到人體檢測結果,表徵人體的訊息更加豐富,具有更廣闊的應用場景,如圖像編輯、人體體型調整等。
一種可選實施方式中,所述輪廓關鍵點包括主輪廓關鍵點和輔助輪廓關鍵點;其中,兩個相鄰的所述主輪廓關鍵點之間存在至少一個輔助輪廓關鍵點。
在該實施方式中,通過主輪廓關鍵點的位置訊息和輔助輪廓關鍵點的位置訊息表徵人體輪廓,使得人體輪廓的標識更加精確,訊息量更加豐富。
一種可選實施方式中,基於所述待檢測圖像,確定用於表徵人體輪廓的輪廓關鍵點的位置訊息,包括:基於所述待檢測圖像,確定所述主輪廓關鍵點的位置訊息;基於所述主輪廓關鍵點的位置訊息,確定人體輪廓訊息;基於確定的所述人體輪廓訊息,確定多個所述輔助輪廓關鍵點的位置訊息。
在該實施方式中,能夠更加精確的定位主輪廓關鍵點的位置訊息、以及輔助輪廓關鍵點的位置訊息。
一種可選實施方式中,所述人體檢測結果包括下述一種或者多種:添加有骨骼關鍵點標記、以及輪廓關鍵點標記的待檢測圖像;包括所述骨骼關鍵點的位置訊息以及所述輪廓關鍵點的位置訊息的數據組。
在該實施方式中,包括了骨骼關鍵點標記、以及輪廓關鍵點標記的待檢測圖像能夠給人以更直觀的視覺印象;包括骨骼關鍵點的位置訊息以及輪廓關鍵點的位置訊息的數據組更易於後續處理。
一種可選實施方式中,該方法還包括:基於所述人體檢測結果,執行下述操作中一種或者多種:人體動作識別、人體姿態檢測、人體輪廓調整、人體圖像編輯、以及人體貼圖。
在該實施方式中,基於表徵精細更高和計算數據量更少的人體檢測結果,能夠以更高的精度、更快的速度實現更多的操作。
一種可選實施方式中,所述基於所述待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息,包括:基於所述待檢測圖像,進行特徵提取以獲得骨骼特徵及輪廓特徵,並將得到的骨骼特徵和輪廓特徵進行特徵融合;基於特徵融合結果,確定所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息。
該實施方式中,能夠對待檢測圖像進行特徵提取以獲得骨骼特徵和輪廓特徵,並將得到的骨骼特徵及輪廓特徵進行特徵融合,進而得到用於表徵人體骨骼結構的骨骼關鍵點的位置訊息,以及用於能夠表徵人體輪廓的輪廓關鍵點的位置訊息。基於該種方法得到的人體檢測結果,既能夠以更少的數據量表示人體,又提取到人體的骨骼特徵和輪廓特徵來表示人體,兼顧提升表徵精細度。
一種可選實施方式中,所述基於所述待檢測圖像,進行特徵提取以獲得骨骼特徵及輪廓特徵,並將得到的骨骼特徵和輪廓特徵進行特徵融合,包括:基於所述待檢測圖像,進行至少一次特徵提取,並將每次特徵提取得到的骨骼特徵以及輪廓特徵進行特徵融合,其中,在進行多次特徵提取的情況下,基於第i次特徵融合的特徵融合結果進行第i+1次特徵提取,i為正整數;所述基於特徵融合結果,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息,包括:基於最後一次特徵融合的特徵融合結果,確定所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息。
在該實施方式中,對待檢測圖像進行至少一次特徵提取,並將每次特徵提取得到的骨骼特徵以及輪廓特徵進行特徵融合,能夠使得具有位置關聯關係的骨骼特徵點和輪廓特徵點進行相互矯正,最終得到的骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息具有更高的精度。
一種可選實施方式中,所述基於所述待檢測圖像,進行至少一次特徵提取,包括:在第一次特徵提取中,使用預先訓練的第一特徵提取網路從待檢測圖像中提取用於表徵人體骨骼特徵的骨骼關鍵點的第一目標骨骼特徵矩陣;並提取用於表徵人體輪廓特徵的輪廓關鍵點的第一目標輪廓特徵矩陣;在第i+1次特徵提取中,使用預先訓練的第二特徵提取網路從第i次特徵融合的特徵融合結果中,提取用於表徵人體骨骼特徵的骨骼關鍵點的第一目標骨骼特徵矩陣;並提取用於表徵人體輪廓特徵的輪廓關鍵點的第一目標輪廓特徵矩陣;其中,第一特徵提取網路和第二特徵提取網路的網路參數不同,且不同次的特徵提取使用的第二特徵提取網路的網路參數不同。
在該實施例中,對骨骼特徵和輪廓特徵進行至少一次提取和至少一次的融合,最終得到的骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息具有更高的精度。
一種可選實施方式中,將提取得到的骨骼特徵和輪廓特徵進行特徵融合,包括:使用預先訓練的特徵融合神經網路對所述第一目標骨骼特徵矩陣、以及所述第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣;其中,所述第二目標骨骼特徵矩陣為三維骨骼特徵矩陣,該三維骨骼特徵矩陣包括與各個骨骼關鍵點分別對應的二維骨骼特徵矩陣;所述二維骨骼特徵矩陣中每個元素的值,表徵與該元素對應的像素點屬對應骨骼關鍵點的概率;所述第二目標輪廓特徵矩陣為三維輪廓特徵矩陣,該三維輪廓特徵矩陣包括與各個輪廓關鍵點分別對應的二維輪廓特徵矩陣;所述二維輪廓特徵矩陣中每個元素的值,表徵與該元素對應的像素點屬對應輪廓關鍵點的概率;不同次特徵融合使用的特徵融合神經網路的網路參數不同。
該實施方式中,基於預先訓練的特徵融合網路對骨骼特徵以及輪廓特徵進行融合,能夠得到更好的特徵融合結果,使最終得到的骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息具有更高的精度。
一種可選實施方式中,所述基於最後一次特徵融合的特徵融合結果,確定所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息,包括:基於最後一次特徵融合得到的第二目標骨骼特徵矩陣,確定所述骨骼關鍵點的位置訊息;以及基於最後一次特徵融合得到的第二目標輪廓特徵矩陣,確定所述輪廓關鍵點的位置訊息。
該實施方式中,經過至少一次特徵提取和特徵融合,使最終得到的骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息具有更高的精度。
一種可選實施方式中,所述第一特徵提取網路包括:共有特徵提取網路、第一骨骼特徵提取網路以及第一輪廓特徵提取網路;使用第一特徵提取網路從待檢測圖像中提取用於表徵人體骨骼特徵的骨骼關鍵點的第一目標骨骼特徵矩陣;並提取用於表徵人體輪廓特徵的輪廓關鍵點的第一目標輪廓特徵矩陣,包括:使用所述共有特徵提取網路對所述待檢測圖像進行卷積處理,得到包含骨骼特徵以及輪廓特徵的基礎特徵矩陣;使用所述第一骨骼特徵提取網路對所述基礎特徵矩陣進行卷積處理,得到第一骨骼特徵矩陣,並從所述第一骨骼特徵提取網路中的第一目標卷積層獲取第二骨骼特徵矩陣;基於所述第一骨骼特徵矩陣以及所述第二骨骼特徵矩陣,得到所述第一目標骨骼特徵矩陣;所述第一目標卷積層為所述第一骨骼特徵提取網路中,除最後一層卷積層外的其他任一卷積層;使用所述第一輪廓特徵提取網路,對所述基礎特徵矩陣進行卷積處理,得到第一輪廓特徵矩陣,並從所述第一輪廓特徵提取網路中的第二目標卷積層獲取第二輪廓特徵矩陣;基於所述第一輪廓特徵矩陣以及所述第二輪廓特徵矩陣,得到所述第一目標輪廓特徵矩陣;所述第二目標卷積層為所述第一輪廓特徵提取網路中,除最後一層卷積層外的其他任一卷積層。
該實施方式中,使用共有特徵提取網路提取骨骼特徵和輪廓特徵,去除待檢測圖像中除骨骼特徵和輪廓特徵外的其他特徵,然後分別使用第一骨骼特徵提取網路對骨骼特徵進行針對性提取,使用第一輪廓特徵提取網路對輪廓特徵進行針對性提取,所需要耗費的計算量更少。
一種可選實施方式中,所述基於所述第一骨骼特徵矩陣以及所述第二骨骼特徵矩陣,得到所述第一目標骨骼特徵矩陣,包括:將所述第一骨骼特徵矩陣以及所述第二骨骼特徵矩陣進行拼接處理,得到第一拼接骨骼特徵矩陣;對所述第一拼接骨骼特徵矩陣進行維度變換處理,得到所述第一目標骨骼特徵矩陣;所述基於所述第一輪廓特徵矩陣以及所述第二輪廓特徵矩陣,得到所述第一目標輪廓特徵矩陣,包括:將所述第一輪廓特徵矩陣以及所述第二輪廓特徵矩陣進行拼接處理,得到第一拼接輪廓特徵矩陣;對所述第一拼接輪廓特徵矩陣進行維度變換處理,得到所述第一目標輪廓特徵矩陣;其中,所述第一目標骨骼特徵矩陣的維度與所述第一目標輪廓特徵矩陣的維度相同、且所述第一目標骨骼特徵矩陣與所述第一目標輪廓特徵矩陣在相同維度上的維數相同。
該實施方式中,將第一骨骼特徵矩陣以及所述第二骨骼特徵矩陣進行拼接處理,使得第一目標骨骼特徵矩陣中具有更加豐富的骨骼特徵訊息;同時將第一輪廓特徵矩陣以及所述第二輪廓特徵矩陣進行拼接處理,使得第一目標輪廓特徵矩陣具有更加豐富的骨骼特徵訊息,在後續的特徵融合過程中,能夠以更高的精度提取得到骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息。
一種可選實施方式中,所述特徵融合神經網路包括:第一卷積神經網路、第二卷積神經網路、第一變換神經網路、以及第二變換神經網路;所述使用特徵融合神經網路對所述第一目標骨骼特徵矩陣、以及所述第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣,包括:使用所述第一卷積神經網路對所述第一目標骨骼特徵矩陣進行卷積處理,得到第一中間骨骼特徵矩陣;以及使用所述第二卷積神經網路對所述第一目標輪廓特徵矩陣進行卷積處理,得到第一中間輪廓特徵矩陣;將所述第一中間輪廓特徵矩陣與所述第一目標骨骼特徵矩陣進行拼接處理,得到第一拼接特徵矩陣;並使用所述第一變換神經網路對所述第一拼接特徵矩陣進行維度變換,得到所述第二目標骨骼特徵矩陣;將所述第一中間骨骼特徵矩陣與所述第一目標輪廓特徵矩陣進行拼接處理,得到第二拼接特徵矩陣,並使用所述第二變換神經網路對所述第二拼接特徵矩陣進行維度變換,得到所述第二目標輪廓特徵矩陣。
該實施方式中,通過將所述第一中間輪廓特徵矩陣與所述第一目標骨骼特徵矩陣進行拼接處理,並基於拼接處理結果得到第二目標骨骼特徵矩陣的方式,將骨骼特徵和輪廓特徵進行融合,以實現使用輪廓特徵提取得到的骨骼特徵進行矯正。另外,通過將所述第一中間骨骼特徵矩陣與所述第一目標輪廓特徵矩陣進行拼接處理,並基於拼接處理結果得到第二目標輪廓特徵矩陣的方式,以將骨骼特徵和輪廓特徵進行融合,以實現使用骨骼特徵對提取得到的輪廓特徵進行矯正。進而,能夠以更高的精度提取得到骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息。
一種可選實施方式中,所述特徵融合神經網路包括:第一定向卷積神經網路、第二定向卷積神經網路、第三卷積神經網路、第四卷積神經網路、第三變換神經網路、以及第四變換神經網路;所述使用特徵融合神經網路對所述第一目標骨骼特徵矩陣、以及所述第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣,包括:使用所述第一定向卷積神經網路對所述第一目標骨骼特徵矩陣進行定向卷積處理,得到第一定向骨骼特徵矩陣;並使用第三卷積神經網路對所述第一定向骨骼特徵矩陣進行卷積處理,得到第二中間骨骼特徵矩陣;以及使用所述第二定向卷積神經網路對所述第一目標輪廓特徵矩陣進行定向卷積處理,得到第一定向輪廓特徵矩陣;並使用第四卷積神經網路對所述第一定向輪廓特徵矩陣進行卷積處理,得到第二中間輪廓特徵矩陣;將所述第二中間輪廓特徵矩陣與所述第一目標骨骼特徵矩陣進行拼接處理,得到第三拼接特徵矩陣;並使用第三變換神經網路對所述第三拼接特徵矩陣進行維度變換,得到所述第二目標骨骼特徵矩陣;將所述第二中間骨骼特徵矩陣與所述第一目標輪廓特徵矩陣進行拼接處理,得到第四拼接特徵矩陣,並使用第四變換神經網路對所述第四拼接特徵矩陣進行維度變換,得到所述第二目標輪廓特徵矩陣。
該實施方式中,通過定向卷積的方式對特徵進行融合處理,能夠以更高的精度提取得到骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息。
一種可選實施方式中,所述特徵融合神經網路包括:位移估計神經網路、第五變換神經網路;所述使用特徵融合神經網路對所述第一目標骨骼特徵矩陣、以及所述第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣,包括:對所述第一目標骨骼特徵矩陣和所述第一目標輪廓特徵矩陣進行拼接處理,得到第五拼接特徵矩陣;將所述第五拼接特徵矩陣輸入至所述位移估計神經網路中,對預先確定的多組關鍵點對進行位移估計,得到每組關鍵點對中的一個關鍵點移動至另一關鍵點的位移訊息;將每組關鍵點對中的每個關鍵點分別作為當前關鍵點,從與該當前關鍵點配對的另一關鍵點對應的三維特徵矩陣中,獲取與所述配對的另一關鍵點對應的二維特徵矩陣;根據從所述配對的另一關鍵點到所述當前關鍵點的位移訊息,對所述配對的另一關鍵點對應的二維特徵矩陣中的元素進行位置變換,得到與該當前關鍵點對應的位移特徵矩陣;針對每個骨骼關鍵點,將該骨骼關鍵點對應的二維特徵矩陣,與其對應的各個位移特徵矩陣進行拼接處理,得到該骨骼關鍵點的拼接二維特徵矩陣;並將該骨骼關鍵點的拼接二維特徵矩陣輸入至所述第五變換神經網路,得到與該骨骼關鍵點對應的目標二維特徵矩陣;基於各個骨骼關鍵點分別對應的目標二維特徵矩陣,生成所述第二目標骨骼特徵矩陣;針對每個輪廓關鍵點,將該輪廓關鍵點對應的二維特徵矩陣,與其對應的各個位移特徵矩陣進行拼接處理,得到該輪廓關鍵點的拼接二維特徵矩陣;並將該輪廓關鍵點的拼接二維特徵矩陣輸入至所述第五變換神經網路,得到與該輪廓關鍵點對應的目標二維特徵矩陣;基於各個輪廓關鍵點分別對應的目標二維特徵矩陣,生成所述第二目標輪廓特徵矩陣。
該實施方式中,通過對骨骼關鍵點,以及輪廓關鍵點進行位移變換的方式實現特徵融合,能夠以更高的精度提取得到骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息。
一種可選實施方式中,所述人體檢測方法通過人體檢測模型實現;所述人體檢測模型包括:所述第一特徵提取網路和/或所述特徵融合神經網路:所述人體檢測模型為利用訓練樣本集中的樣本圖像訓練得到的,所述樣本圖像標注有人體骨骼結構的骨骼關鍵點的實際位置訊息、以及人體輪廓的輪廓關鍵點的實際位置訊息。
該實施方式中,通過該訓練方法的到的人體檢測模型具有更高的檢測精度,並通過該人體檢測模型能夠得到兼顧表徵精細度以及計算數據量的人體檢測結果。
第二方面,本公開實施例還提供一種人體檢測裝置,包括:獲取模組,用於獲取待檢測圖像;檢測模組,用於基於所述待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息;生成模組,用於基於所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息,生成人體檢測結果。
第三方面,本公開實施例還提供一種電腦設備,包括:處理器、非暫時性儲存媒體和匯流排,所述非暫時性儲存媒體儲存有所述處理器可執行的機器可讀指令,當電腦設備運行的情況下,所述處理器與所述儲存媒體之間通過匯流排通信,所述機器可讀指令被所述處理器執行的情況下執行上述第一方面,或第一方面中任一種可能的實施方式中的步驟。
第四方面,本公開實施例還提供一種電腦可讀取儲存媒體,該電腦可讀取儲存媒體上儲存有電腦程式,該電腦程式被處理器運行的情況下執行上述第一方面,或第一方面中任一種可能的實施方式中的步驟。
本公開實施例能夠從待檢測圖像中,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息,並基於骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息,生成人體檢測結果,在提升表徵精細度的同時,兼顧計算數據量。
為使本公開的上述目的、特徵和優點能更明顯易懂,下文特舉較佳實施例,並配合所附附圖,作詳細說明如下。
為使本公開實施例的目的、技術方案和優點更加清楚,下面將結合本公開實施例中附圖,對本公開實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本公開一部分實施例,而不是全部的實施例。通常在附圖中描述和示出的本公開實施例的組件可以以各種不同的配置來佈置和設計。因此,以下結合附圖所提供的本公開的實施例的詳細描述並非旨在限制要求保護的本公開的範圍,而是僅僅表示本公開的實施例。基於本公開的實施例,本領域技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬於本公開保護的範圍。
經研究發現,在進行人體檢測時,通常有下述兩種方式:骨骼關鍵點檢測法和語義分割法。
骨骼關鍵點檢測法;在該種方法中,通過神經網路模型從圖像中提取人體的骨骼關鍵點,並基於骨骼關鍵點得到對應的人體檢測結果;在該種人體檢測方法中,其採用了簡單的人體表示方法,具有更少的數據量,因而在基於該種方法得到的人體檢測結果進行其他後續處理時,所需要耗費的計算量也較少;其更多的被用於人體的姿勢、動作識別等領域;例如行為檢測、基於人體姿態的人機交互等領域;但由於該種方法並不能提取到人體的輪廓訊息,使得得到的人體檢測結果表徵精細度低。
語義分割法;在該種方法中,通過語義分割模型識別圖像中每一個像素點屬人體的概率,並基於圖像中各個像素點屬人體的概率,得到人體檢測結果;在該種人體檢測方法,雖然能夠完整的得到人體的輪廓訊息,但人體識別結果中所包含的計算數據量較大。
因此,一種能夠兼顧表徵精細度和計算數據量的人體檢測方法成為當前亟待解決的問題。
基於上述研究,本公開提供了一種人體檢測方法、裝置、電腦設備及儲存媒體,能夠對待檢測圖像進行特徵提取以提取得到人體的骨骼特徵和輪廓特徵,並將提取得到的骨骼特徵及輪廓特徵進行特徵融合,進而得到用於表徵人體骨骼結構的骨骼關鍵點的位置訊息,以及用於表徵人體輪廓的輪廓關鍵點的位置訊息。基於該種方法得到的人體檢測結果,具有更少的數據量,而且反映了人體的骨骼特徵和輪廓特徵,兼顧提升表徵精細度。
另外,本公開實施例中,由於是採用表徵人體骨骼結構的骨骼關鍵點的位置訊息,和表徵人體輪廓的輪廓關鍵點的位置訊息來得到人體檢測結果,表徵人體的訊息更加豐富,具有更廣闊的應用場景。
針對現有的人體檢測方式所存在的缺陷,需要經過反復實踐並仔細研究後才能確定,因此,對現有問題的發現過程以及本公開所提出的解決方案,都應該落入本公開的範圍之內。
以下對根據本公開實施例的一種人體檢測方法進行詳細介紹,該人體檢測方法可適用於具有數據處理能力的任意設備,例如計算機。
參見圖1所示,為本公開實施例提供的人體檢測方法的流程圖,其中:
步驟S101:獲取待檢測圖像。
步驟S102:基於待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息。
步驟S103:基於骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息,生成人體檢測結果。
下面分別對上述步驟S101~S103加以說明。
I:在上述步驟S101中,待檢測圖像可以是,例如安裝在目標位置的攝像頭所拍攝得到的待檢測圖像,其他電腦設備發送的待檢測圖像,從本地數據庫中讀取的預先保存的待檢測圖像等。待檢測圖像中可以包括人體圖像,也可以不包括人體圖像;若待檢測圖像中包括人體圖像,則能夠基於本公開實施例提供的人體檢測方法,得到最終的人體檢測結果;若待檢測圖像中不包括人體圖像,則得到的人體檢測結果例如為空。
II:在上述步驟S102中,如圖2 a所示,骨骼關鍵點可以用於表徵人體的骨骼特徵,該骨骼特徵包括人體的關節部位的特徵。關節例如為肘關節、手腕關節、肩關節、頸關節、胯關節、膝關節、踝關節等。示例性的,還可以在人體頭部設置骨骼關鍵點。
輪廓關鍵點可以用於表徵人體的輪廓特徵,其可以包括:主輪廓關鍵點,如圖2a所示,或者包括:主輪廓關鍵點和輔助輪廓關鍵點,如圖2b~圖2d所示;其中,圖2b~圖2d是圖2a中線框內的部位的局部圖。
其中,主輪廓關鍵點是表徵人體關節部位輪廓的輪廓關鍵點,如圖2a所示,例如肘關節的輪廓、腕關節的輪廓、肩關節的輪廓、頸關節的輪廓、胯關節的輪廓、膝關節的輪廓、踝關節的輪廓等,其一般與表徵對應關節部位的骨骼關鍵點對應出現。
輔助輪廓關鍵點是表徵人體關節部位之間輪廓的輪廓關鍵點,兩個相鄰主輪廓關鍵點之間的輔助輪廓關鍵點至少有一個;如圖2b示出示例中,兩個主輪廓關鍵點之間的輔助輪廓關鍵點有一個;如圖2c示出示例中,兩個主輪廓關鍵點之間的輔助輪廓關鍵點有兩個;如圖2d示出示例中,兩個主輪廓關鍵點之間的輔助輪廓關鍵點有三個。
以上附圖和文字描述中涉及到的骨骼關鍵點和輪廓關鍵點僅作為示例,以便於對本公開的理解。實際應用中,可以根據實際場景適當調整骨骼關鍵點和輪廓關鍵點的數量以及位置,本公開對此並不限定。
針對輪廓關鍵點包括:主輪廓關鍵點和輔助輪廓關鍵點的情況,可以採用下述方式基於待檢測圖像,確定用於表徵人體輪廓的輪廓關鍵點的位置訊息:
基於待檢測圖像,確定主輪廓關鍵點的位置訊息;基於主輪廓關鍵點的位置訊息,確定人體輪廓訊息;基於確定的人體輪廓訊息,確定多個輔助輪廓關鍵點的位置訊息。
針對輪廓關鍵點包括主輪廓關鍵點的情況,則直接基於待檢測圖像,確定主輪廓關鍵點的位置訊息即可。
本公開實施例提供一種基於待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息的具體方法:
基於待檢測圖像,進行特徵提取以獲得骨骼特徵及輪廓特徵,並將得到的骨骼特徵和輪廓特徵進行特徵融合;基於特徵融合結果,確定骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息。
基於待檢測圖像,進行骨骼特徵及輪廓特徵提取,可以採用但不限於下述A或B中任意一種。
A:對待檢測圖像,進行一次特徵提取,並對該次特徵提取得到的骨骼特徵以及輪廓特徵進行特徵融合。
B:對待檢測圖像,進行多次特徵提取,並在每次進行特徵提取後,對該次特徵提取得到的骨骼特徵及輪廓特徵進行特徵融合,並基於最後一次特徵融合的特徵融合結果,確定骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息。
以下將首先對A情況進行具體的描述。
在A情況下,基於該次特徵融合的特徵融合結果,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息和用於表徵人體輪廓的輪廓關鍵點的位置訊息。
下面在a1和a2中分別對特徵提取過程和特徵融合過程加以說明。
a1:特徵提取過程:
可以使用預先訓練的第一特徵提取網路從待檢測圖像中提取用於表徵人體骨骼特徵的骨骼關鍵點的第一目標骨骼特徵矩陣;並提取用於表徵人體輪廓特徵的輪廓關鍵點的第一目標輪廓特徵矩陣。
具體地,參見圖3所示,本公開實施例提供一種第一特徵提取網路的結構示意圖。第一特徵提取網路包括:共有特徵提取網路、第一骨骼特徵提取網路以及第一輪廓特徵提取網路。
參見圖4所示,本公開實施例還提供一種基於圖3提供的第一特徵提取網路從待檢測圖像中提取第一目標骨骼特徵矩陣及第一目標輪廓特徵矩陣的具體過程,包括如下步驟。
步驟S401:使用共有特徵提取網路對待檢測圖像進行卷積處理,得到包含骨骼特徵以及輪廓特徵的基礎特徵矩陣。
在具體實施中,待檢測圖像能夠被表示為一圖像矩陣;若待檢測圖像為單顏色通道圖像,例如灰度圖,則其能夠被表示為一個二維圖像矩陣;二維圖像矩陣中的各個元素,與待檢測圖像的像素點一一對應;二維圖像矩陣中各個元素的值,即為與各個元素對應的像素點的像素值。若待檢測圖像為多顏色通道圖像,例如RGB格式的圖像,則其能夠被表示為一個三維圖像矩陣;三維圖像矩陣中,包括了三個與不同顏色(例如,R、G、B)通道一一對應的二維圖像矩陣;任一二維圖像矩陣中各個元素的值,即為與各個元素對應的像素點,在對應顏色通道下的像素值。
共有特徵提取網路中包括了至少一層卷積層;將待檢測圖像的圖像矩陣輸入至共有特徵提取網路後,使用共有特徵提取網路對待檢測圖像的圖像矩陣進行卷積處理,提取待檢測圖像中的特徵。該種情況下,所提取到的特徵既包含骨骼特徵,又包含輪廓特徵。
步驟S402:使用第一骨骼特徵提取網路對基礎特徵矩陣進行卷積處理,得到第一骨骼特徵矩陣,並從第一骨骼特徵提取網路中的第一目標卷積層獲取第二骨骼特徵矩陣;基於第一骨骼特徵矩陣以及第二骨骼特徵矩陣,得到第一目標骨骼特徵矩陣;第一目標卷積層為第一骨骼特徵提取網路中,除最後一層卷積層外的其他任一卷積層。
在具體實施中,第一骨骼特徵提取網路包括了多層卷積層。多層卷積層依次連接,下一層卷積層的輸入,為上一層卷積層的輸出。具有該種結構的第一骨骼特徵提取網路能夠對基礎特徵矩陣進行多次卷積處理,並從最後一層卷積層得到第一骨骼特徵矩陣。此處,第一骨骼特徵矩陣為三維特徵矩陣;在該三維特徵矩陣中,包括了多個二維特徵矩陣,且各個二維特徵矩陣與預先確定的多個骨骼關鍵點一一對應。與某個骨骼關鍵點對應的二維特徵矩陣中元素的值,表示與該元素對應的像素點屬該骨骼關鍵點的概率,且與一個元素對應的像素點一般有多個。
另外,通過多層卷積層對基礎特徵矩陣的多次卷積處理,雖然能夠從基礎特徵矩陣中提取到人體的骨骼特徵,但隨著卷積次數的增加,會丟失待檢測圖像中的一些訊息,這些訊息裡也可能包括人體的骨骼特徵的相關訊息;若待檢測圖像中的訊息丟失過多,就可能會造成最終得到的用於表徵人體骨骼特徵的骨骼關鍵點的第一目標骨骼特徵矩陣不夠精確。因此,在本公開實施例中,還會從第一骨骼特徵提取網路的第一目標卷積層獲取第二骨骼特徵矩陣,並基於第一骨骼特徵矩陣以及第二骨骼特徵矩陣,得到第一目標骨骼特徵矩陣。
這裡,第一目標卷積層,為第一骨骼特徵提取網路中,除最後一層卷積層外的其他任一卷積層。在圖3的示例中,第一骨骼特徵提取網路中的倒數第二層卷積層被選定作為第一目標卷積層。
例如可以採用下述方式基於第一骨骼特徵矩陣以及第二骨骼特徵矩陣,得到第一目標骨骼特徵矩陣:
將第一骨骼特徵矩陣以及第二骨骼特徵矩陣進行拼接處理,得到第一拼接骨骼特徵矩陣;對第一拼接骨骼特徵矩陣進行維度變換處理,得到第一目標骨骼特徵矩陣。
此處,對第一拼接骨骼特徵矩陣進行維度變換處理的情況下,可以將其輸入至維度變換神經網路,使用該維度變換神經網路對第一拼接骨骼特徵矩陣進行至少一次卷積處理,得到第一目標骨骼特徵矩陣。
此處,維度變換神經網路可以將第一骨骼特徵矩陣及第二骨骼特徵矩陣中攜帶的特徵訊息進行融合,使得得到的第一目標骨骼特徵矩陣中,包含有更豐富的訊息。
步驟S403:使用第一輪廓特徵提取網路,對基礎特徵矩陣進行卷積處理,得到第一輪廓特徵矩陣,並從第一輪廓特徵提取網路中的第二目標卷積層獲取第二輪廓特徵矩陣;基於第一輪廓特徵矩陣以及第二輪廓特徵矩陣,得到第一目標輪廓特徵矩陣;第二目標卷積層為第一輪廓特徵提取網路中,除最後一層卷積層外的其他任一卷積層。在圖3的示例中,第一輪廓特徵提取網路中的倒數第二層卷積層被選定作為第二目標卷積層。
在具體實施中,第一輪廓特徵提取網路也包括了多層卷積層。多層卷積層依次連接,下一層卷積層的輸入,為上一層卷積層的輸出。具有該種結構的第一輪廓特徵提取網路能夠對基礎特徵矩陣進行多次卷積處理,並從最後一層卷積層得到第一輪廓特徵矩陣。此處,第一輪廓特徵矩陣為三維特徵矩陣;在該三維特徵矩陣中,包括了多個二維特徵矩陣,且各個二維特徵矩陣與預先確定的多個輪廓關鍵點一一對應。與某個輪廓關鍵點對應的二維特徵矩陣中元素的值,表示與該元素對應的像素點屬該輪廓關鍵點的概率,且與一個元素對應的像素點一般有多個。
這裡需要注意的是,輪廓關鍵點的數量和骨骼關鍵點的數量一般不同,因此,所得到的第一輪廓特徵矩陣中所包括的二維特徵矩陣的數量,與第一骨骼特徵矩陣中所包括的二維特徵矩陣的數量可以不同。
例如,若骨骼關鍵點的數量為14,輪廓關鍵點的數量為25個,則第一輪廓特徵矩陣中所包括的二維特徵矩陣數量為25個,第一骨骼特徵矩陣中所包括的二維特徵矩陣數量為14個。
另外,為了使得第一目標輪廓特徵矩陣中,也包含有更加豐富的訊息,可以採用如上述步驟S402類似的方式,從第一輪廓特徵提取網路中的第二目標卷積層獲取第二輪廓特徵矩陣,然後基於第一輪廓特徵矩陣和第二輪廓特徵矩陣,得到第一目標輪廓特徵矩陣。
此處,基於第一輪廓特徵矩陣和第二輪廓特徵矩陣,得到第一目標輪廓特徵矩陣的方式例如包括:
將第一輪廓特徵矩陣以及第二輪廓特徵矩陣進行拼接處理,得到第一拼接輪廓特徵矩陣;對第一拼接輪廓特徵矩陣進行維度變換處理,得到第一目標輪廓特徵矩陣。
需要注意的是,上述步驟S402和步驟S403中,第一目標骨骼特徵矩陣的維度與第一目標輪廓特徵矩陣的維度相同、且第一目標骨骼特徵矩陣與第一目標輪廓特徵矩陣在相同維度上的維數相同,以便後續基於第一目標骨骼特徵矩陣與第一目標輪廓特徵矩陣進行特徵融合處理。
例如,若第一目標骨骼特徵矩陣的維度為3,且各個維度的維數分別為64、32和14,那麼該第一目標骨骼特徵矩陣的維數表示為64*32*14;第一目標輪廓特徵矩陣的維數也可以表示為64*32*14。
另外,在另一種實施例中,還可以採用下述方式得到第一目標骨骼特徵矩陣和第一目標輪廓特徵矩陣:
使用共有特徵提取網路對待檢測圖像進行卷積處理,得到包含骨骼特徵以及輪廓特徵的基礎特徵矩陣;
使用第一骨骼特徵提取網路對基礎特徵矩陣進行卷積處理,得到第一骨骼特徵矩陣,並對第一骨骼特徵矩陣進行維度變換處理,得到第一目標骨骼特徵矩陣;
使用第一輪廓特徵提取網路對基礎特徵矩陣進行卷積處理,得到第一輪廓特徵矩陣,並對第一輪廓特徵矩陣進行維度變換處理,得到第一目標輪廓特徵矩陣。
在該種方式中,也能夠以較高的精度將人體的骨骼特徵和輪廓特徵從待檢測圖像中提取出來。
另外,本公開實施例中提供的第一特徵提取網路是預先訓練得到的。
這裡,本公開實施例提供的人體檢測方法通過人體檢測模型實現;人體檢測模型包括:第一特徵提取網路和/或特徵融合神經網路;
人體檢測模型為利用訓練樣本集中的樣本圖像訓練得到的,樣本圖像標注有人體骨骼結構的骨骼關鍵點的實際位置訊息、以及人體輪廓的輪廓關鍵點的實際位置訊息。
具體地,針對人體檢測模型中包括第一特徵提取網路的情況,第一特徵提取網路可以單獨訓練,也可以與特徵融合神經網路進行聯合訓練,也可以將單獨訓練和聯合訓練相結合。
訓練得到第一特徵提取網路的過程包括但不限於下述(1)和(2)所示。
(1)對第一特徵提取網路進行單獨訓練例如包括:
步驟1.1:獲取多張樣本圖像,以及每張樣本圖像的標注數據;標注數據包括:用於表徵人體骨骼結構的骨骼關鍵點的實際位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的實際位置訊息;
步驟1.2:將多張樣本圖像輸入第一基礎特徵提取網路中,得到第一樣本目標骨骼特徵矩陣,以及第一樣本目標輪廓特徵矩陣;
步驟1.3:基於第一樣本目標骨骼特徵矩陣,確定骨骼關鍵點的第一預測位置訊息;以及基於第一樣本目標輪廓特徵矩陣,確定輪廓關鍵點的第一預測位置訊息;
步驟1.4:基於骨骼關鍵點的實際位置訊息、以及骨骼關鍵點的第一預測位置訊息,確定第一損失;以及基於輪廓關鍵點的實際位置訊息、以及輪廓關鍵點的第一預測位置訊息,確定第二損失;
步驟1.5:基於第一損失、以及第二損失,對第一基礎特徵提取網路進行本輪訓練;
經過對第一基礎特徵提取網路的多輪訓練,得到第一特徵提取網路。
如圖3所示,第一損失為圖3中的LS1;第二損失為圖3中的LC1。基於第一損失和第二損失,監督第一基礎特徵提取網路的訓練,以得到較高精度的第一特徵提取網路。
(2)將第一特徵提取網路和特徵融合神經網路進行聯合訓練例如包括:
步驟2.1:獲取多張樣本圖像,以及每張樣本圖像的標注數據;標注數據包括:用於表徵人體骨骼結構的骨骼關鍵點的實際位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的實際位置訊息;
步驟2.2:將多張樣本圖像輸入第一基礎特徵提取網路中,得到第一樣本目標骨骼特徵矩陣,以及第一樣本目標輪廓特徵矩陣;
步驟2.3:使用基礎特徵融合神經網路對第一樣本目標骨骼特徵矩陣、以及第一樣本目標輪廓特徵矩陣進行特徵融合,得到第二樣本目標骨骼特徵矩陣和第二樣本目標輪廓特徵矩陣。
步驟2.4:基於第二樣本目標骨骼特徵矩陣,確定骨骼關鍵點的第二預測位置訊息;以及基於第二樣本目標輪廓特徵矩陣,確定輪廓關鍵點的第二預測位置訊息;
步驟2.5:基於骨骼關鍵點的實際位置訊息、以及骨骼關鍵點的第二預測位置訊息,確定第三損失;以及基於輪廓關鍵點的實際位置訊息、以及輪廓關鍵點的第二預測位置訊息,確定第四損失;
步驟2.6:基於第三損失、以及第四損失,對第一基礎特徵提取網路、以及基礎特徵融合神經網路進行本輪訓練;
經過對第一基礎卷積神經網路和基礎特徵融合神經網路的多輪訓練,得到第一特徵提取網路和特徵融合神經網路。
(3)將單獨訓練和聯合訓練相結合得到第一特徵提取網路的過程,可以採用上述(1)和(2)中的過程進行同步訓練。
或者還可以先採用(1)中的過程對第一特徵提取網路進行預訓練;將進行了預訓練之後得到的第一特徵提取網路,與特徵融合神經網路進行上述(2)中的聯合訓練。
需要注意的是,對第一特徵提取網路進行單獨訓練和聯合訓練,所採用的樣本圖像可以相同也可以不同。
在對第一特徵提取網路和特徵融合神經網路進行聯合訓練之前,也可以先對特徵融合神經網路進行預訓練,然後採用進行了預訓練的特徵融合神經網路,與第一特徵提取網路進行聯合訓練。
對特徵融合神經網路進行單獨訓練的詳細過程,可以參見下述a2示出的實施例的描述。
a2:特徵融合過程:
在得到用於表徵人體骨骼特徵的骨骼關鍵點的第一目標骨骼特徵矩陣,和用於表徵人體輪廓特徵的輪廓關鍵點的第一目標輪廓特徵矩陣後,就可以基於第一目標骨骼特徵矩和第一目標輪廓特徵矩陣進行特徵融合處理。
具體地,基於待檢測圖像進行骨骼特徵和輪廓特徵提取的過程中,雖然所使用的基礎特徵矩陣是同一個,但是第一骨骼特徵提取網路是從基礎特徵矩陣中提取骨骼特徵,而第一輪廓特徵提取網路是從基礎特徵矩陣中提取輪廓特徵。兩個過程相互獨立而存在。但是針對同一人體而言,輪廓特徵和骨骼特徵之間是具有相互的關聯關係的;將輪廓特徵和骨骼特徵進行融合的目的,是要利用骨骼特徵和輪廓特徵之間的相互影響關係。例如,可以基於輪廓特徵,對最終提取到的骨骼關鍵點的位置訊息進行修正,並基於骨骼特徵,對最終提取到的輪廓關鍵點的位置訊息進行修正,進而得到更加準確的骨骼關鍵點的位置訊息和輪廓關鍵點的位置訊息,以得到更高精度的人體檢測結果。
本公開實施例提供一種將提取得到的骨骼特徵和輪廓特徵進行特徵融合的具體方法,包括:使用預先訓練的特徵融合神經網路對第一目標骨骼特徵矩陣、以及第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣。
其中,第二目標骨骼特徵矩陣為三維骨骼特徵矩陣,該三維骨骼特徵矩陣包括與各個骨骼關鍵點分別對應的二維骨骼特徵矩陣;二維骨骼特徵矩陣中每個元素的值,表徵與該元素對應的像素點屬於對應骨骼關鍵點(即,該二維骨骼特徵矩陣對應的骨骼關鍵點)的概率;第二目標輪廓特徵矩陣為三維輪廓特徵矩陣,該三維輪廓特徵矩陣包括與各個輪廓關鍵點分別對應的二維輪廓特徵矩陣;二維輪廓特徵矩陣中每個元素的值,表徵與該元素對應的像素點屬對應輪廓關鍵點的概率。
本公開實施例中提供的特徵融合神經網路可以單獨訓練,也可以與第一特徵提取網路進行聯合訓練,也可以將單獨訓練和聯合訓練相結合。
將特徵融合神經網路與第一特徵提取網路進行聯合訓練的過程,可以參見上述(2),在此不再贅述。
針對不同結構的特徵融合神經網路,在對其進行單獨訓練的情況下,所用的訓練方法也會有所區別,針對不同結構的特徵融合神經網路的訓練方法,可以參見下述M1~M3。
對骨骼特徵和輪廓特徵進行特徵融合的過程可以包括但不限於下述M1~M3中至少一種。
M1:
參見圖5所示,本公開實施例提供一種特徵融合神經網路的具體結構,包括:第一卷積神經網路、第二卷積神經網路、第一變換神經網路、以及第二變換神經網路。
參見圖6所示,本公開實施例還提供一種基於圖5提供的特徵融合神經網路,對第一目標骨骼特徵矩陣、以及第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣的具體方法,包括以下步驟。
步驟S601:使用第一卷積神經網路對第一目標骨骼特徵矩陣進行卷積處理,得到第一中間骨骼特徵矩陣。執行步驟S603。
此處,第一卷積神經網路包括至少一層卷積層。若第一卷積神經網路有多層,則多層卷積層依次連接;本層卷積層的輸入為上一層卷積層的輸出。將第一目標骨骼特徵矩陣輸入至第一卷積神經網路,使用各卷積層對第一目標骨骼特徵矩陣進行卷積處理,以得到第一中間骨骼特徵矩陣。
該過程是為了能夠進一步的將骨骼特徵從第一目標骨骼特徵矩陣中提取出來。
步驟S602:使用第二卷積神經網路對第一目標輪廓特徵矩陣進行卷積處理,得到第一中間輪廓特徵矩陣。執行步驟S604。
此處,該處理過程與上述步驟S601類似,在此不再贅述。
需要注意的是,步驟S601和步驟S602的執行無先後順序。可以同步執行,也可以異步執行。
步驟S603:將第一中間輪廓特徵矩陣與第一目標骨骼特徵矩陣進行拼接處理,得到第一拼接特徵矩陣;並使用第一變換神經網路對第一拼接特徵矩陣進行維度變換,得到第二目標骨骼特徵矩陣。
這裡,將第一中間輪廓特徵矩陣與第一目標骨骼特徵矩陣進行拼接處理,得到第一拼接特徵矩陣,使得得到的第一拼接特徵矩陣中,既包括了輪廓特徵,又包括了骨骼特徵。
使用第一變換神經網路,對第一拼接矩陣進行進一步的維度變換,實際上是使用第一變換神經網路再次從第一拼接特徵矩陣中提取骨骼特徵;由於在得到第一拼接特徵矩陣的過程,去除了待檢測圖像中除骨骼特徵和輪廓特徵以外的其他特徵,僅包括了骨骼特徵和輪廓特徵,因而基於第一拼接特徵矩陣所得到的第二目標骨骼特徵矩陣中所包含的骨骼特徵,會受到輪廓特徵的影響,能夠建立骨骼特徵和輪廓特徵之間的相互聯繫,可以實現骨骼特徵和輪廓特徵的融合。
步驟S604:將第一中間骨骼特徵矩陣與第一目標輪廓特徵矩陣進行拼接處理,得到第二拼接特徵矩陣,並使用第二變換神經網路對第二拼接特徵矩陣進行維度變換,得到第二目標輪廓特徵矩陣。
這裡,將第一中間骨骼特徵矩陣與第一目標輪廓特徵矩陣進行拼接處理,得到第二拼接特徵矩陣的過程,與上述步驟S602種得到第一拼接特徵矩陣的過程類似,在此不再贅述。
同樣的,第二目標輪廓特徵矩陣所包含的輪廓特徵,會受到骨骼特徵的影響,建立了骨骼特徵和輪廓特徵之間的相互聯繫,實現了骨骼特徵和輪廓特徵的融合。
另一種實施例中,可以採用下述方式對特徵融合神經網路進行單獨訓練。
步驟3.1:獲取多張樣本圖像的第一樣本目標骨骼特徵矩陣、以及第一樣本目標輪廓特徵矩陣。
獲取方式與上述實施例中獲取第一目標骨骼特徵矩陣、第一目標輪廓特徵矩陣的方式類似,在此不再贅述。可以在與第一特徵提取網路進行聯合訓練的情況下獲取,也可以使用預訓練的第一特徵提取網路獲取。
步驟3.2:使用第一基礎卷積神經網路對第一樣本目標骨骼特徵矩陣進行卷積處理,得到第一樣本中間骨骼特徵矩陣。
步驟3.3:使用第二基礎卷積神經網路對第一樣本目標輪廓特徵矩陣進行卷積處理,得到第一樣本中間輪廓特徵矩陣。
步驟3.4:將第一樣本中間輪廓特徵矩陣與第一樣本目標骨骼特徵矩陣進行拼接處理,得到第一樣本拼接特徵矩陣;並使用第一基礎變換神經網路對第一樣本拼接特徵矩陣進行維度變換,得到第二樣本目標骨骼特徵矩陣。
步驟3.5:將第一樣本中間骨骼特徵矩陣與第一樣本目標輪廓特徵矩陣進行拼接處理,得到第二樣本拼接特徵矩陣,並使用第二基礎變換神經網路對第二樣本拼接特徵矩陣進行維度變換,得到第二樣本目標輪廓特徵矩陣。
步驟3.6:基於第二樣本目標骨骼特徵矩陣,確定骨骼關鍵點的第三預測位置訊息;以及基於第二樣本目標輪廓特徵矩陣,確定輪廓關鍵點的第三預測位置訊息。
步驟3.7:基於骨骼關鍵點的實際位置訊息、以及骨骼關鍵點的第三預測位置訊息,確定第五損失;以及基於輪廓關鍵點的實際位置訊息、以及輪廓關鍵點的第三預測位置訊息,確定第六損失。
步驟3.8:基於第五損失、以及第六損失,對第一基礎卷積神經網路、第二基礎卷積神經網路、第一基礎變換神經網路、以及第二基礎變換神經網路進行本輪訓練;
經過對第一基礎卷積神經網路、第二基礎卷積神經網路、第一基礎變換神經網路、以及第二基礎變換神經網路的多輪訓練,得到特徵融合神經網路。
此處,第五損失為圖5中的LS2;第六損失為圖5中的LC2。
M2:
參見圖7所示,本公開實施例提供的另一種特徵融合神經網路的具體結構,包括:第一定向卷積神經網路、第二定向卷積神經網路、第三卷積神經網路、第四卷積神經網路、第三變換神經網路、以及第四變換神經網路。
參見圖8所示,本公開實施例還提供一種基於圖7提供的特徵融合神經網路,對第一目標骨骼特徵矩陣、以及第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣的具體方法,包括以下步驟。
步驟S801:使用第一定向卷積神經網路對第一目標骨骼特徵矩陣進行定向卷積處理,得到第一定向骨骼特徵矩陣。使用第三卷積神經網路對第一定向骨骼特徵矩陣進行卷積處理,得到第二中間骨骼特徵矩陣。執行步驟S804。
步驟S802:使用第二定向卷積神經網路對第一目標輪廓特徵矩陣進行定向卷積處理,得到第一定向輪廓特徵矩陣;並使用第四卷積神經網路對第一定向輪廓特徵矩陣進行卷積處理,得到第二中間輪廓特徵矩陣。執行步驟S803。
步驟S803:將第二中間輪廓特徵矩陣與第一目標骨骼特徵矩陣進行拼接處理,得到第三拼接特徵矩陣;並使用第三變換神經網路對第三拼接特徵矩陣進行維度變換,得到第二目標骨骼特徵矩陣。
步驟S804:將第二中間骨骼特徵矩陣與第一目標輪廓特徵矩陣進行拼接處理,得到第四拼接特徵矩陣,並使用第四變換神經網路對第四拼接特徵矩陣進行維度變換,得到第二目標輪廓特徵矩陣。
在具體實施中,在將骨骼特徵和輪廓特徵進行特徵融合的過程中,由於骨骼關鍵點通常集中在人體的骨架,而輪廓關鍵點則集中在人體的輪廓,也即分佈在骨架周圍。因此需要針對骨骼特徵和輪廓特徵分別進行局部空間變換。例如,將骨骼特徵變換至輪廓特徵在輪廓特徵矩陣中的位置,並將輪廓特徵變換至骨骼特徵在骨骼特徵矩陣中的位置,以更好的提取出骨骼特徵和輪廓特徵,實現骨骼特徵和輪廓特徵的融合。
為了實現該目的,本公開實施例首先使用第一定向卷積神經網路對第一目標骨骼特徵矩陣進行定向卷積處理;該定向卷積能夠有效的在特徵層面實現骨骼特徵的定向空間變換。然後使用第三卷積神經網路對得到的第一定向骨骼特徵矩陣進行卷積處理,得到第二中間骨骼特徵矩陣。該種情況下,由於已經通過第一定向卷積層對骨骼特徵進行了定向空間變換,因此骨骼特徵實際上是向輪廓特徵方向發生了移動。然後,將第二中間骨骼特徵矩陣和第一目標輪廓特徵矩陣進行拼接處理,得到第四拼接特徵矩陣。第四拼接特徵矩陣在包括輪廓特徵的同時,還包括了進行了定向空間變換的骨骼特徵。然後使用第四變換神經網路對第四拼接特徵矩陣進行維度變換,也即從第四拼接特徵矩陣中,再一次提取輪廓特徵。以這種方式得到的第二目標輪廓特徵矩陣會受到骨骼特徵的影響,實現了骨骼特徵和輪廓特徵之間的融合。
同理,本公開實施例首先使用第二定向卷積神經網路對第一目標輪廓特徵矩陣進行定向卷積處理,該定向卷積能夠有效的在特徵層面實現輪廓特徵的定向空間變換。然後使用第四卷積神經網路對得到的第一定向輪廓特徵矩陣進行卷積處理,得到第二中間輪廓特徵矩陣。該種情況下,由於已經通過第二定向卷積層對輪廓特徵進行了定向空間變換,因此輪廓特徵實際上向骨骼特徵方向發生了移動。然後,對第二中間輪廓特徵矩陣和第一目標骨骼特徵矩陣進行拼接處理,得到第三拼接特徵矩陣。第三拼接特徵矩陣在包括骨骼特徵的同時,還包括了進行了定向空間變換的輪廓特徵。然後使用第三變換神經網路對第三拼接特徵矩陣進行維度變換,也即從第三拼接特徵矩陣中,再一次提取骨骼特徵。以這種方式得到的第二目標骨骼特徵矩陣會受到輪廓特徵的影響,實現了骨骼特徵和輪廓特徵之間的融合。
具體地,定向卷積由多次迭代卷積步驟組成,有效的定向卷積滿足下述要求:
(1)在每次迭代卷積步驟中,僅更新特徵矩陣中的一組元素的元素值;
(2)在最後一次迭代卷積步驟之後,所有元素的元素值應當只更新一次。
以對第一目標骨骼特徵矩陣進行定向卷積為例,為了實現定向卷積過程,可以定義一特徵函數序列
Figure 02_image001
,用於控制元素的更新順序。其中,函數Fk 的輸入是第一目標骨骼特徵矩陣中各元素的位置,而函數Fk 的輸出表示是否更新第k 次迭代中的元素。該輸出可以是1或0;1代表更新,0代表不更新。具體而言,在第k 次迭代過程中,只更新Fk = 1的區域中元素的元素值,而保持其他區域中元素的元素值不變。第i次迭代的更新可以表示為:
Figure 02_image003
其中,T0 (X) =XX 表示定向卷積的輸入,也即第一目標骨骼特徵矩陣;Wb 分別表示多次迭代過程中的共享權重和偏差。
為了實現骨骼特徵和輪廓特徵的融合,可以設定一對對稱的定向卷積算子,也即上述特徵函數序列
Figure 02_image001
,分別為散射卷積算子
Figure 02_image005
,和聚集卷積算子
Figure 02_image007
。其中,散射卷積算子負責由內向外依次更新特徵矩陣中的元素;而聚集卷積算子由外向內依次更新特徵矩陣中的元素。
在使用第一定向卷積神經網路對第一目標骨骼特徵矩陣進行定向卷積處理的情況下,由於要將骨骼特徵元素定向空間變換至該元素周圍的位置(與輪廓特徵更相關的位置),因此使用散射卷積算子
Figure 02_image005
;在使用第二定向卷積神經網路對第一目標輪廓特徵矩陣進行定向卷積處理的情況下,由於要將輪廓特徵元素定向空間變換至輪廓特徵矩陣中間的位置(與骨骼特徵更相關的位置),因此使用聚集卷積算子
Figure 02_image007
具體地,第一定向卷積神經網路對第一目標骨骼特徵矩陣進行定向卷積處理過程如下。
將第一目標骨骼特徵矩陣劃分為多個子矩陣,每個子矩陣被稱為一個網格;其中,若第一目標骨骼特徵矩陣為三維矩陣,三個維度的維數分別為:m、n、s,則第一目標骨骼特徵矩陣的維數被表示為m*n*s;若網格的大小為5,也即,每個網格的維數均可以被表示為5*5*s。
然後針對每個網格,使用散射卷積算子
Figure 02_image005
進行多次迭代卷積,得到目標子矩陣。如圖9a所示,提供了一種使用散射卷積算子
Figure 02_image005
對網格大小為5的子矩陣中元素的元素值進行兩次迭代更新的過程。其中,圖9a中a表示原始子矩陣;b表示進行了一次迭代得到的子矩陣,c表示進行兩次迭代得到的子矩陣,也即目標子矩陣。
將各個網格對應的目標子矩陣拼接在一起,得到第一定向骨骼特徵矩陣。
類似的,第二定向卷積神經網路對第一目標輪廓特徵矩陣進行定向卷積處理的過程如下。
將第一目標輪廓特徵矩陣劃分為多個子矩陣,每個子矩陣被稱為一個網格;其中,若第一目標輪廓特徵矩陣為三維矩陣,三個維度的維數分別為:m、n、s,則第一目標輪廓特徵矩陣的維數被表示為m*n*s;若網格的尺寸大小為5,也即,每個網格的維數均可以被表示為5*5*s。
然後針對每個網格,使用聚集卷積算子
Figure 02_image007
進行多次迭代卷積,得到目標子矩陣。
如圖9b所示,提供了一種使用聚集卷積算子
Figure 02_image007
對網格大小為5的子矩陣中元素的元素值進行兩次迭代更新的過程。其中,圖9b中a表示原始子矩陣;b表示進行了一次迭代得到的子矩陣,c表示進行兩次迭代得到的子矩陣,也即目標子矩陣。
將各個網格對應的目標子矩陣拼接在一起,得到第一定向輪廓特徵矩陣。
這裡需要注意的是,各個子矩陣的迭代卷積過程可以並行處理。
圖9a和圖9b中的示例,僅僅是使用散射卷積算子
Figure 02_image005
和聚集卷積算子
Figure 02_image007
對子矩陣中元素的元素值進行迭代更新的示例。
另一種實施例中,可以採用下述方式對特徵融合神經網路進行單獨訓練。
步驟4.1:獲取多張樣本圖像的第一樣本目標骨骼特徵矩陣、以及第一樣本目標輪廓特徵矩陣。
獲取方式與上述實施例中獲取第一目標骨骼特徵矩陣、第一目標輪廓特徵矩陣的方式類似,在此不再贅述。可以在與第一特徵提取網路進行聯合訓練的情況下獲取,也可以使用預訓練的第一特徵提取網路獲取。
步驟4.2:使用第一基礎定向卷積神經網路對第一樣本目標骨骼特徵矩陣進行定向卷積處理,得到第一樣本定向骨骼特徵矩陣;使用第一樣本定向骨骼特徵矩陣,以及輪廓關鍵點的實際位置訊息,得到第七損失。並基於第七損失,對第一基礎定向卷積神經網路進行本輪訓練。
此處,第七損失為圖7中的LC3。
這裡,使用第一基礎定向卷積神經網路對第一樣本目標骨骼特徵矩陣進行定向卷積處理,也即將第一樣本目標骨骼特徵矩陣進行定向空間變換。該種情況下,要使得得到的第一樣本定向骨骼特徵矩陣表徵的關鍵點的位置訊息,盡可能的與輪廓關鍵點的位置訊息保持一致。因此要基於第一樣本定向骨骼特徵矩陣,以及輪廓關鍵點的實際位置訊息,得到第七損失,使用第七損失,監督對第一基礎定向卷積神經網路的訓練。
步驟4.3:使用第二基礎定向卷積神經網路對第一樣本目標輪廓特徵矩陣進行定向卷積處理,得到第一樣本定向輪廓特徵矩陣;使用第一樣本定向輪廓特徵矩陣,以及骨骼關鍵點的實際位置訊息,得到第八損失。並基於第八損失,對第二基礎定向卷積神經網路進行本輪訓練。
此處,第八損失為圖7中的LS3。
步驟4.4:使用第四基礎卷積神經網路對第一樣本定向輪廓特徵矩陣進行卷積處理,得到第二樣本中間輪廓特徵矩陣;以及將得到的第二樣本中間輪廓特徵矩陣與第一樣本目標骨骼特徵矩陣進行拼接處理,得到第三樣本拼接特徵矩陣,並使用第三基礎變換神經網路對第三樣本拼接特徵矩陣進行維度變換,得到第二樣本目標骨骼特徵矩陣。
步驟4.5:基於第二樣本目標骨骼特徵矩陣確定骨骼關鍵點的第四預測位置訊息;基於骨骼關鍵點的實際位置訊息、以及骨骼關鍵點的第四預測位置訊息,確定第九損失。
此處,第九損失為圖7中LS4。
步驟4.6:使用第三基礎卷積神經網路對第一樣本定向骨骼特徵矩陣進行卷積處理,得到第二樣本中間骨骼特徵矩陣;以及將得到的第二樣本中間骨骼特徵矩陣與第一樣本目標輪廓特徵矩陣進行拼接處理,得到第四樣本拼接特徵矩陣,並使用第四基礎變換神經網路對第四樣本拼接特徵矩陣進行維度變換,得到第二樣本目標輪廓特徵矩陣。
步驟4.7:基於第二樣本目標輪廓特徵矩陣確定輪廓關鍵點的第四預測位置訊息;基於輪廓關鍵點的實際位置訊息、以及輪廓關鍵點的第四預測位置訊息,確定第十損失。
此處,第十損失為圖7中LC4。
步驟4.8:基於第九損失和第十損失,對第三基礎卷積神經網路、第四基礎卷積神經網路、第三基礎變換神經網路、以及第四基礎變換神經網路進行本輪訓練。
經過對第一基礎定向卷積神經網路、第二基礎定向卷積神經網路、第三基礎卷積神經網路、第四基礎卷積神經網路、第三基礎變換神經網路、以及第四基礎變換神經網路進行多輪訓練,得到訓練好的特徵融合神經網路。
M3:
參見圖10所示,本公開實施例提供的另一種特徵融合神經網路的具體結構,包括:位移估計神經網路、第五變換神經網路。
參見圖11所示,本公開實施例還提供一種基於圖10提供的特徵融合神經網路,對第一目標骨骼特徵矩陣、以及第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣的具體方法,包括以下步驟。
步驟S1101:對第一目標骨骼特徵矩陣和第一目標輪廓特徵矩陣進行拼接處理,得到第五拼接特徵矩陣。
步驟S1102:將第五拼接特徵矩陣輸入至位移估計神經網路中,對預先確定的多組關鍵點對進行位移估計,得到每組關鍵點對中的一個關鍵點移動至另一關鍵點的位移訊息;其中,每個關鍵點對中的兩個關鍵點位置相鄰,該兩個關鍵點包括一骨骼關鍵點和一輪廓關鍵點,或者包括兩個骨骼關鍵點,或者包括兩個輪廓關鍵點。
在具體實施中,會預先為人體確定多個骨骼關鍵點和多個輪廓關鍵點。如圖12所示,提供一種預先為人體確定的多個骨骼關鍵點和輪廓關鍵點的示例。在該示例中,骨骼關鍵點有14個,以圖12中較大的圓點分別表示:頭頂、脖子、兩肩、雙肘、雙腕、雙胯部、雙膝、以及雙踝;輪廓關鍵點有26個,以圖12中較小的圓點表示。除了表徵人體頭頂的骨骼關鍵點外,其他每個骨骼關鍵點都會對應有兩個輪廓關鍵點。其中,雙跨的骨骼關鍵點與同一輪廓關鍵點對應。
位置相鄰的兩個關鍵點能夠構成一個關鍵點對。如圖12中,每兩個通過線段直接連接的關鍵點能夠構成一個關鍵點對。也即,關鍵點對的構成可能出現下述三種情況:(骨骼關鍵點、骨骼關鍵點)、(輪廓關鍵點、輪廓關鍵點)、(骨骼關鍵點、輪廓關鍵點)。
位移估計神經網路包括多層卷積層,多層卷積層依次連接,用於對第五拼接特徵矩陣中的骨骼特徵和輪廓特徵進行特徵學習,得到每個關鍵點對中的一個關鍵點移動至另一個關鍵點的位移訊息。與每一個關鍵點對應的位移訊息有兩組。
例如,若關鍵點對為(P、Q),其中P和Q分別表示一個關鍵點。則該關鍵點對的位移訊息包括:從P移動至Q的位移訊息,和從Q移動至P的位移訊息。
每一組位移訊息均包括移動方向和移動距離。
步驟S1103:將每組關鍵點對中的每個關鍵點分別作為當前關鍵點,從與該當前關鍵點配對的另一關鍵點對應的三維特徵矩陣中,獲取與配對的另一關鍵點對應的二維特徵矩陣;其中,若配對的另一關鍵點為骨骼關鍵點,則該骨骼關鍵點對應的三維特徵矩陣為第一骨骼特徵矩陣;若配對的另一關鍵點為輪廓關鍵點,則該輪廓關鍵點對應的三維特徵矩陣為第一輪廓特徵矩陣。
步驟S1104:根據從配對的另一關鍵點到當前關鍵點的位移訊息,對配對的另一關鍵點對應的二維特徵矩陣中的元素進行位置變換,得到與該當前關鍵點對應的位移特徵矩陣。
此處,仍然以關鍵點對(P、Q)為例,首先將P作為當前關鍵點,並從Q對應的三維特徵矩陣中,獲取與Q對應的二維特徵矩陣。
這裡,若Q為骨骼關鍵點,則Q對應的三維特徵矩陣為第一骨骼特徵矩陣(見上述步驟S402)。若Q為輪廓關鍵點,則Q對應的三維特徵矩陣為第一輪廓特徵矩陣(見上述步驟S403)。
這裡,在Q為骨骼關鍵點的情況下,將第一骨骼特徵矩陣作為Q的三維特徵矩陣,並從第一骨骼特徵矩陣中,得到Q的二維特徵矩陣。這是由於第一骨骼特徵矩陣中,僅包括了骨骼特徵,能夠使得後續處理過程中學習到的骨骼特徵更加的有針對性。同理,在Q為輪廓關鍵點的情況下,將第一輪廓特徵矩陣作為Q的三維特徵矩陣,並從第一輪廓特徵矩陣中得到Q的二維特徵矩陣。這是由於第一輪廓特徵矩陣中僅包括了輪廓特徵,使得後續處理過程中學習到的輪廓特徵更具有針對性。
在得到Q的二維特徵矩陣後,基於從Q移動至P的位移訊息,對Q的二維特徵矩陣中的元素進行位置變換,得到P對應的位移特徵矩陣。
例如圖13所示,若從Q移動至P的位移訊息為(2,3)其中,2表示在第一維度上移動的距離為2,3表示在第二維度上移動的距離為3,則Q的二維特徵矩陣如圖13中a所示;對Q的二維特徵矩陣中的元素進行位置變換後,得到的與P對應的位移特徵矩陣如圖13中b所示。這裡僅以數字來進行位移訊息的相對表示,在實際實施中,應當結合具體方案來理解位移訊息,例如,位移訊息「2」可以指2個元素、2個單元格等等。
然後在將Q作為當前關鍵點,並從P對應的三維特徵矩陣中,獲取P對應的二維特徵矩陣。然後基於從P移動至Q的位移訊息,對P的二維特徵矩陣中的元素進行位置變換,得到Q對應的位移特徵矩陣Q。
如此,能夠生成每個骨骼關鍵點對應的位移特徵矩陣,和每個輪廓關鍵點對應的位移特徵矩陣。
這裡需要注意的是,每個骨骼關鍵點,可能會與多個關鍵點分別成對,因此,得到的每個骨骼關鍵點的位移特徵矩陣也可能會有多個;每個輪廓關鍵點,也可能會與多個關鍵點分別成對,因此得到的每個輪廓關鍵點的位移特徵矩陣也可能會有多個。且不同的輪廓關鍵點,對應的位移特徵矩陣的數量可能不同;不同的骨骼關鍵點,對應的位移特徵矩陣的數量也可能會有所不同。
步驟S1105:針對每個骨骼關鍵點,將該骨骼關鍵點對應的二維特徵矩陣,與該骨骼關鍵點對應的各個位移特徵矩陣進行拼接處理,得到該骨骼關鍵點的拼接二維特徵矩陣;並將該骨骼關鍵點的拼接二維特徵矩陣輸入至第五變換神經網路,得到與該骨骼關鍵點對應的目標二維特徵矩陣;基於各個骨骼關鍵點分別對應的目標二維特徵矩陣,生成第二目標骨骼特徵矩陣。
步驟S1106:針對每個輪廓關鍵點,將該輪廓關鍵點對應的二維特徵矩陣,與該輪廓關鍵點對應的各個位移特徵矩陣進行拼接處理,得到該輪廓關鍵點的拼接二維特徵矩陣;並將該輪廓關鍵點的拼接二維特徵矩陣輸入至第五變換神經網路,得到與該輪廓關鍵點對應的目標二維特徵矩陣;基於各個輪廓關鍵點分別對應的目標二維特徵矩陣,生成第二目標輪廓特徵矩陣。
例如,若P為骨骼關鍵點,且P對應的二維特徵矩陣為P’,P位於三個關鍵點對中,則基於上述過程,能夠得到P的三個位移特徵矩陣,分別為P1’、P2’和P3’,則將P’、P1’、P2’和P3’進行拼接,得到P的拼接二維特徵矩陣。該種情況下,P的三個位移特徵矩陣中,可能既有對骨骼關鍵點對應的二維特徵矩陣中的元素進行位置變換得到的,也有對輪廓關鍵點對應的二維特徵矩陣中的元素進行位置變換得到的。因此,將P’、P1’、P2’和P3’進行拼接,使得與P在位置上相鄰的各個關鍵點的特徵融合在一起。再使用第五變換神經網路對P的拼接二維特徵矩陣進行卷積處理,使得得到的P的目標二維特徵矩陣既包含了骨骼特徵,又包含了輪廓特徵,實現了骨骼特徵和輪廓特徵的融合。
同理,若P為輪廓關鍵點,也能夠基於上述過程,實現骨骼特徵和輪廓特徵的融合。
另一種實施例中,可以採用下述方式對特徵融合神經網路進行單獨訓練。
步驟5.1:獲取多張樣本圖像的第一樣本目標骨骼特徵矩陣、以及第一樣本目標輪廓特徵矩陣。
獲取方式與上述實施例中獲取第一目標骨骼特徵矩陣、第一目標輪廓特徵矩陣的方式類似,在此不再贅述。可以在與第一特徵提取網路進行聯合訓練的情況下獲取,也可以使用預訓練的第一特徵提取網路獲取。
步驟5.2:對第一樣本目標骨骼特徵矩陣和第一樣本目標輪廓特徵矩陣進行拼接處理,得到第五樣本拼接特徵矩陣。
步驟5.3:將第五樣本拼接特徵矩陣輸入至基礎位移估計神經網路中,對預先確定的多組關鍵點對進行位移估計,得到每組關鍵點對中的一個關鍵點移動至另一關鍵點的預測位移訊息;其中,每個關鍵點對中的兩個關鍵點位置相鄰,該兩個關鍵點包括一骨骼關鍵點和一輪廓關鍵點,或者包括兩個骨骼關鍵點,或者包括兩個輪廓關鍵點。
步驟5.4:將每組關鍵點對中的每個關鍵點分別作為當前關鍵點,從與該當前關鍵點配對的另一關鍵點對應的樣本三維特徵矩陣中,獲取與配對的另一關鍵點對應的樣本二維特徵矩陣。
步驟5.5:根據從配對的另一關鍵點到當前關鍵點的預測位移訊息,對配對的另一關鍵點對應的樣本二維特徵矩陣中的元素進行位置變換,得到與該當前關鍵點對應的樣本位移特徵矩陣。
步驟5.6:根據當前關鍵點對應的樣本位移特徵矩陣,以及與當前關鍵點對應的樣本二維特徵矩陣,確定位移損失。
步驟5.7:基於位移損失,對位移估計神經網路進行本輪訓練。
步驟5.8:針對每個骨骼關鍵點,將該骨骼關鍵點對應的樣本二維特徵矩陣,與該骨骼關鍵點對應的各個樣本位移特徵矩陣進行拼接處理,得到該骨骼關鍵點的樣本拼接二維特徵矩陣;並將該骨骼關鍵點的樣本拼接二維特徵矩陣輸入至第五基礎變換神經網路,得到與該骨骼關鍵點對應的樣本目標二維特徵矩陣;基於各個骨骼關鍵點分別對應的樣本目標二維特徵矩陣,生成第二樣本目標骨骼特徵矩陣。
步驟5.9:針對每個輪廓關鍵點,將該輪廓關鍵點對應的樣本二維特徵矩陣,與該輪廓關鍵點對應的各個樣本位移特徵矩陣進行拼接處理,得到該輪廓關鍵點的樣本拼接二維特徵矩陣;並將該輪廓關鍵點的樣本拼接二維特徵矩陣輸入至第五基礎變換神經網路,得到與該輪廓關鍵點對應的樣本目標二維特徵矩陣;基於各個輪廓關鍵點分別對應的樣本目標二維特徵矩陣,生成第二樣本目標輪廓特徵矩陣。
步驟5.10:基於第二樣本目標骨骼特徵矩陣、第二樣本目標輪廓特徵矩陣、骨骼關鍵點的實際位置訊息、以及輪廓關鍵點的實際位置訊息,確定變換損失。例如,可以基於第二樣本目標骨骼特徵矩陣確定骨骼關鍵點的預測位置訊息,基於第二樣本目標輪廓特徵矩陣確定輪廓關鍵點的預測位置訊息。基於骨骼關鍵點的預測位置訊息、實際位置訊息,以及輪廓關鍵點的預測位置訊息、實際位置訊息,來確定變換損失。
步驟5.11:基於變換損失,對第五基礎變換神經網路進行本輪訓練。
步驟5.12:經過對基礎位移估計神經網路、第五基礎變換神經網路的多輪訓練,得到特徵融合神經網路。
B:對待檢測圖像,進行多次特徵提取,並在每次進行特徵提取後,對該次特徵提取得到的骨骼特徵及輪廓特徵進行特徵融合,並基於最後一次特徵融合的特徵融合結果,確定骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息。
在進行多次特徵提取的情況下,基於第i次特徵融合的特徵融合結果進行第i+1次特徵提取,i為正整數。
在B中,進行第一次特徵提取的過程,與上述A中對待檢測圖像提取骨骼特徵和輪廓特徵的過程一致,在此不再贅述。
在B中進行除第一次特徵提取外的其他各次特徵提取的具體過程,包括:
使用第二特徵提取網路從上一次特徵融合的特徵融合結果中,提取用於表徵人體骨骼特徵的骨骼關鍵點的第一目標骨骼特徵矩陣;並提取用於表徵人體輪廓特徵的輪廓關鍵點的第一目標輪廓特徵矩陣;
其中,第一特徵提取網路和第二特徵提取網路的網路參數不同,且不同次的特徵提取使用的第二特徵提取網路的網路參數不同。
這裡,第一特徵提取網路和第二特徵提取網路均包括多層卷積層。第一特徵提取網路和第二特徵提取網路的網路參數例如包括但不限於:卷積層的數量、每一層卷積層使用的卷積核的大小、每一層卷積層使用的卷積核的數量等。
參見圖14所示,本公開實施例提供一種第二特徵提取網路的結構示意圖。第二特徵提取網路包括:第二骨骼特徵提取網路、以及第二輪廓特徵提取網路。
使用該第二特徵提取網路進行本次特徵提取的上一次特徵融合的特徵融合結果包括:第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣;具體得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣的過程參見上述A所示,在此不再贅述。
使用該第二特徵提取網路從上一次特徵融合的特徵融合結果中,提取用於表徵人體骨骼特徵的骨骼關鍵點的第一目標骨骼特徵矩陣;並提取用於表徵人體輪廓特徵的輪廓關鍵點的第一目標輪廓特徵矩陣的具體過程例如為:
使用第二骨骼特徵提取網路對上一次特徵融合得到的第二目標骨骼特徵矩陣進行卷積處理,得到第三骨骼特徵矩陣,並從第二骨骼特徵提取網路中的第三目標卷積層獲取第四骨骼特徵矩陣;基於第三骨骼特徵矩陣以及第四骨骼特徵矩陣,得到第五目標骨骼特徵矩陣。其中,第三目標卷積層為第二骨骼特徵提取網路中,除最後一層卷積層外的其他任一卷積層。
使用第二輪廓特徵提取網路對上一次特徵融合得到的第二目標輪廓特徵矩陣進行卷積處理,得到第三輪廓特徵矩陣,並從第二輪廓特徵提取網路中的第四目標卷積層獲取第四輪廓特徵矩陣;基於第三輪廓特徵矩陣以及第四輪廓特徵矩陣,得到第六目標輪廓特徵矩陣。第四目標卷積層為第二輪廓特徵提取網路中,除最後一層卷積層外的其他任一卷積層。
具體的處理方式與上述A中使用第一骨骼特徵提取網路從待檢測圖像中提取第一目標骨骼特徵矩陣及第一目標輪廓特徵矩陣的具體過程類似,在此不再贅述。
以上實施例對於上述Ⅱ中確定骨骼關鍵點以及輪廓關鍵點的位置訊息的方式進行了描述。
Ⅲ:在基於上述Ⅱ得到骨骼關鍵點的位置訊息和輪廓關鍵點的位置訊息後,可將各個骨骼關鍵點的位置,以及輪廓關鍵點的位置從待檢測圖像中確定出來。然後可以生成人體檢測結果。
人體檢測結果包括下述一種或者多種:包括骨骼關鍵點標記、以及輪廓關鍵點標記的待檢測圖像;包括骨骼關鍵點的位置訊息以及輪廓關鍵點的位置訊息的數據組。
後續,還可以基於人體檢測結果,執行下述操作中一種或者多種:人體動作識別、人體姿態檢測、人體輪廓調整、人體圖像編輯、以及人體貼圖。
此處,動作識別例如識別人體當前所作的動作,如打架、跑步等;人體姿態識別例如識別人體當前姿態,如臥倒、是否作出指定動作等;人體輪廓調整例如對人體的體型、身高進行調整等;人體圖像編輯例如對人體進行縮放、旋轉、剪裁等;人體貼圖例如將圖像A中的人體檢測出來後,將對應人體圖像粘貼至圖像B中。
本公開實施例能夠從待檢測圖像中,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息,並基於骨骼關鍵點的位置訊息、以及輪廓關鍵點的位置訊息,生成人體檢測結果,在提升表徵精細度的同時,兼顧計算數據量。
另外,本公開實施方式中,由於是採用表徵人體骨骼結構的骨骼關鍵點的位置訊息,和表徵人體輪廓的輪廓關鍵點的位置訊息來得到人體檢測結果,表徵人體的訊息更加豐富,具有更廣闊的應用場景,如圖像編輯、人體體型調整等。
基於同一技術構思,本公開實施例中還提供了與人體檢測方法對應的人體檢測裝置,由於本公開實施例中的裝置解決問題的原理與本公開實施例上述人體檢測方法相似,因此裝置的實施可以參見方法的實施,重複之處不再贅述。
參照圖15所示,為本公開實施例提供的一種人體檢測裝置的示意圖,所述裝置包括:獲取模組151、檢測模組152、生成模組153;其中,獲取模組151,用於獲取待檢測圖像;檢測模組152,用於基於所述待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息;生成模組153,用於基於所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息,生成人體檢測結果。
一種可能的實施方式中,所述輪廓關鍵點包括主輪廓關鍵點和輔助輪廓關鍵點;其中,兩個相鄰的所述主輪廓關鍵點之間存在至少一個輔助輪廓關鍵點。
一種可能的實施方式中,所述檢測模組152,用於採用下述方式基於所述待檢測圖像,確定用於表徵人體輪廓的輪廓關鍵點的位置訊息:基於所述待檢測圖像,確定所述主輪廓關鍵點的位置訊息;基於所述主輪廓關鍵點的位置訊息,確定人體輪廓訊息;基於確定的所述人體輪廓訊息,確定多個所述輔助輪廓關鍵點的位置訊息果。
一種可能的實施方式中,所述人體檢測結果包括下述一種或者多種:添加有骨骼關鍵點標記、以及輪廓關鍵點標記的待檢測圖像;包括所述骨骼關鍵點的位置訊息以及所述輪廓關鍵點的位置訊息的數據組。
一種可能的實施方式中,該人體檢測裝置還包括:執行模組154,用於基於所述人體檢測結果,執行下述操作中一種或者多種:人體動作識別、人體姿態檢測、人體輪廓調整、人體圖像編輯、以及人體貼圖。
一種可能的實施方式中,所述檢測模組152,用於採用下述方式基於所述待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息:基於所述待檢測圖像,進行特徵提取以獲得骨骼特徵及輪廓特徵,並將得到的骨骼特徵和輪廓特徵進行特徵融合;基於特徵融合結果,確定所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息。
一種可能的實施方式中,所述檢測模組152,用於採用下述方式基於所述待檢測圖像進行特徵提取以獲得骨骼特徵及輪廓特徵,並將得到的骨骼特徵和輪廓特徵進行特徵融合:基於所述待檢測圖像,進行至少一次特徵提取,並將每次特徵提取得到的骨骼特徵以及輪廓特徵進行特徵融合,其中,在進行多次特徵提取的情況下,基於第i次特徵融合的特徵融合結果進行第i+1次特徵提取,i為正整數;所述檢測模組152,用於採用下述方式基於特徵融合結果,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息:基於最後一次特徵融合的特徵融合結果,確定所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息。
一種可能的實施方式中,所述檢測模組152,用於採用下述方式基於所述待檢測圖像,進行至少一次特徵提取:在第一次特徵提取中,使用預先訓練的第一特徵提取網路從待檢測圖像中提取用於表徵人體骨骼特徵的骨骼關鍵點的第一目標骨骼特徵矩陣,以及用於表徵人體輪廓特徵的輪廓關鍵點的第一目標輪廓特徵矩陣;在第i+1次特徵提取中,使用預先訓練的第二特徵提取網路從第i次特徵融合的特徵融合結果中,提取用於表徵人體骨骼特徵的骨骼關鍵點的第一目標骨骼特徵矩陣;並提取用於表徵人體輪廓特徵的輪廓關鍵點的第一目標輪廓特徵矩陣;其中,第一特徵提取網路和第二特徵提取網路的網路參數不同,且不同次的特徵提取使用的第二特徵提取網路的網路參數不同。
一種可能的實施方式中,所述檢測模組152,用於採用下述方式將提取得到的骨骼特徵和輪廓特徵進行特徵融合:使用預先訓練的特徵融合神經網路對所述第一目標骨骼特徵矩陣、以及所述第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣;其中,所述第二目標骨骼特徵矩陣為三維骨骼特徵矩陣,該三維骨骼特徵矩陣包括與各個骨骼關鍵點分別對應的二維骨骼特徵矩陣;所述二維骨骼特徵矩陣中每個元素的值,表徵與該元素對應的像素點屬對應骨骼關鍵點的概率;所述第二目標輪廓特徵矩陣為三維輪廓特徵矩陣,該三維輪廓特徵矩陣包括與各個輪廓關鍵點分別對應的二維輪廓特徵矩陣;所述二維輪廓特徵矩陣中每個元素的值,表徵與該元素對應的像素點屬對應輪廓關鍵點的概率;不同次特徵融合使用的特徵融合神經網路的網路參數不同。
一種可能的實施方式中,所述檢測模組152,用於採用下述方式基於最後一次特徵融合的特徵融合結果,確定所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息:基於最後一次特徵融合得到的第二目標骨骼特徵矩陣,確定所述骨骼關鍵點的位置訊息;以及基於最後一次特徵融合得到的第二目標輪廓特徵矩陣,確定所述輪廓關鍵點的位置訊息。
一種可能的實施方式中,第一特徵提取網路包括:共有特徵提取網路、第一骨骼特徵提取網路以及第一輪廓特徵提取網路;所述檢測模組152,用於採用下述方式使用第一特徵提取網路從待檢測圖像中提取用於表徵人體骨骼特徵的骨骼關鍵點的第一目標骨骼特徵矩陣;並提取用於表徵人體輪廓特徵的輪廓關鍵點的第一目標輪廓特徵矩陣:
使用所述共有特徵提取網路對所述待檢測圖像進行卷積處理,得到包含骨骼特徵以及輪廓特徵的基礎特徵矩陣;使用所述第一骨骼特徵提取網路對所述基礎特徵矩陣進行卷積處理,得到第一骨骼特徵矩陣,並從所述第一骨骼特徵提取網路中的第一目標卷積層獲取第二骨骼特徵矩陣;基於所述第一骨骼特徵矩陣以及所述第二骨骼特徵矩陣,得到所述第一目標骨骼特徵矩陣;所述第一目標卷積層為所述第一骨骼特徵提取網路中,除最後一層卷積層外的其他任一卷積層;使用所述第一輪廓特徵提取網路,對所述基礎特徵矩陣進行卷積處理,得到第一輪廓特徵矩陣,並從所述第一輪廓特徵提取網路中的第二目標卷積層獲取第二輪廓特徵矩陣;基於所述第一輪廓特徵矩陣以及所述第二輪廓特徵矩陣,得到所述第一目標輪廓特徵矩陣;所述第二目標卷積層為所述第一輪廓特徵提取網路中,除最後一層卷積層外的其他任一卷積層。
一種可能的實施方式中,所述檢測模組152,用於採用下述方式基於所述第一骨骼特徵矩陣以及所述第二骨骼特徵矩陣,得到所述第一目標骨骼特徵矩陣:將所述第一骨骼特徵矩陣以及所述第二骨骼特徵矩陣進行拼接處理,得到第一拼接骨骼特徵矩陣;
對所述第一拼接骨骼特徵矩陣進行維度變換處理,得到所述第一目標骨骼特徵矩陣;
所述基於所述第一輪廓特徵矩陣以及所述第二輪廓特徵矩陣,得到所述第一目標輪廓特徵矩陣,包括:將所述第一輪廓特徵矩陣以及所述第二輪廓特徵矩陣進行拼接處理,得到第一拼接輪廓特徵矩陣;對所述第一拼接輪廓特徵矩陣進行維度變換處理,得到所述第一目標輪廓特徵矩陣;其中,所述第一目標骨骼特徵矩陣的維度與所述第一目標輪廓特徵矩陣的維度相同、且所述第一目標骨骼特徵矩陣與所述第一目標輪廓特徵矩陣在相同維度上的維數相同。
一種可能的實施方式中,所述特徵融合神經網路包括:第一卷積神經網路、第二卷積神經網路、第一變換神經網路、以及第二變換神經網路;
所述檢測模組152,用於採用下述方式使用特徵融合神經網路對所述第一目標骨骼特徵矩陣、以及所述第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣:使用所述第一卷積神經網路對所述第一目標骨骼特徵矩陣進行卷積處理,得到第一中間骨骼特徵矩陣;以及使用所述第二卷積神經網路對所述第一目標輪廓特徵矩陣進行卷積處理,得到第一中間輪廓特徵矩陣;將所述第一中間輪廓特徵矩陣與所述第一目標骨骼特徵矩陣進行拼接處理,得到第一拼接特徵矩陣;並使用所述第一變換神經網路對所述第一拼接特徵矩陣進行維度變換,得到所述第二目標骨骼特徵矩陣;將所述第一中間骨骼特徵矩陣與所述第一目標輪廓特徵矩陣進行拼接處理,得到第二拼接特徵矩陣,並使用所述第二變換神經網路對所述第二拼接特徵矩陣進行維度變換,得到所述第二目標輪廓特徵矩陣。
一種可能的實施方式中,所述特徵融合神經網路包括:第一定向卷積神經網路、第二定向卷積神經網路、第三卷積神經網路、第四卷積神經網路、第三變換神經網路、以及第四變換神經網路;
所述檢測模組152,用於採用下述方式使用特徵融合神經網路對所述第一目標骨骼特徵矩陣、以及所述第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣:使用所述第一定向卷積神經網路對所述第一目標骨骼特徵矩陣進行定向卷積處理,得到第一定向骨骼特徵矩陣;並使用第三卷積神經網路對所述第一定向骨骼特徵矩陣進行卷積處理,得到第二中間骨骼特徵矩陣;以及使用所述第二定向卷積神經網路對所述第一目標輪廓特徵矩陣進行定向卷積處理,得到第一定向輪廓特徵矩陣;並使用第四卷積神經網路對所述第一定向輪廓特徵矩陣進行卷積處理,得到第二中間輪廓特徵矩陣;將所述第二中間輪廓特徵矩陣與所述第一目標骨骼特徵矩陣進行拼接處理,得到第三拼接特徵矩陣;並使用第三變換神經網路對所述第三拼接特徵矩陣進行維度變換,得到所述第二目標骨骼特徵矩陣;將所述第二中間骨骼特徵矩陣與所述第一目標輪廓特徵矩陣進行拼接處理,得到第四拼接特徵矩陣,並使用第四變換神經網路對所述第四拼接特徵矩陣進行維度變換,得到所述第二目標輪廓特徵矩陣。
一種可能的實施方式中,所述特徵融合神經網路包括:位移估計神經網路、第五變換神經網路;
所述檢測模組152,用於採用下述方式使用特徵融合神經網路對所述第一目標骨骼特徵矩陣、以及所述第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣:對所述第一目標骨骼特徵矩陣和所述第一目標輪廓特徵矩陣進行拼接處理,得到第五拼接特徵矩陣;所述第五拼接特徵矩陣輸入至所述位移估計神經網路中,對預先確定的多組關鍵點對進行位移估計,得到每組關鍵點對中的一個關鍵點移動至另一關鍵點的位移訊息;將每組關鍵點對中的每個關鍵點分別作為當前關鍵點,從與該當前關鍵點配對的另一關鍵點對應的三維特徵矩陣中,獲取與所述配對的另一關鍵點對應的二維特徵矩陣;根據從所述配對的另一關鍵點到所述當前關鍵點的位移訊息,對所述配對的另一關鍵點對應的二維特徵矩陣中的元素進行位置變換,得到與所述當前關鍵點對應的位移特徵矩陣;針對每個骨骼關鍵點,將該骨骼關鍵點對應的二維特徵矩陣,與該骨骼關鍵點對應的各個位移特徵矩陣進行拼接處理,得到該骨骼關鍵點的拼接二維特徵矩陣;並將該骨骼關鍵點的拼接二維特徵矩陣輸入至所述第五變換神經網路,得到與該骨骼關鍵點對應的目標二維特徵矩陣;基於各個骨骼關鍵點分別對應的目標二維特徵矩陣,生成所述第二目標骨骼特徵矩陣;針對每個輪廓關鍵點,將該輪廓關鍵點對應的二維特徵矩陣,與該骨骼關鍵點對應的各個位移特徵矩陣進行拼接處理,得到該輪廓關鍵點的拼接二維特徵矩陣;並將該輪廓關鍵點的拼接二維特徵矩陣輸入至所述第五變換神經網路,得到與該輪廓關鍵點對應的目標二維特徵矩陣;基於各個輪廓關鍵點分別對應的目標二維特徵矩陣,生成所述第二目標輪廓特徵矩陣。
一種可能的實施方式中,所述人體檢測方法通過人體檢測模型實現;所述人體檢測模型包括:所述第一特徵提取網路和/或所述特徵融合神經網路;所述人體檢測模型為利用訓練樣本集中的樣本圖像訓練得到的,所述樣本圖像標注有人體骨骼結構的骨骼關鍵點的實際位置訊息、以及人體輪廓的輪廓關鍵點的實際位置訊息。
關於裝置中的各模組的處理流程、以及各模組之間的交互流程的描述可以參照上述方法實施例中的相關說明,這裡不再詳述。
本公開實施例還提供了一種電腦設備,如圖16所示,為本公開實施例提供的電腦設備結構示意圖,包括:
處理器11、儲存媒體12和匯流排13;儲存媒體12用於儲存執行指令,包括隨機存取記憶體121和外部記憶體122;這裡的隨機存取記憶體121也稱隨機存取記憶體儲器,用於暫時存放處理器11中的處理數據,以及與硬盤等外部記憶體122交換的數據,處理器11通過隨機存取記憶體121與外部記憶體122進行數據交換,當所述電腦設備100運行的情況下,所述處理器11與所述儲存媒體12之間通過匯流排13通信,使得所述處理器11在執行以下指令:獲取待檢測圖像;基於所述待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息;基於所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息,生成人體檢測結果。
本公開實施例還提供一種電腦可讀取儲存媒體,該電腦可讀取儲存媒體上儲存有電腦程式,該電腦程式被處理器運行的情況下執行上述方法實施例中所述的人體檢測方法的步驟。
本公開實施例所提供的人體檢測方法的電腦程式產品,包括儲存了程式代碼的電腦可讀取儲存媒體,所述程式代碼包括的指令可用於執行上述方法實施例中所述的人體檢測方法的步驟,具體可參見上述方法實施例,在此不再贅述。
所屬領域的技術人員可以清楚地瞭解到,為描述的方便和簡潔,上述描述的系統和裝置的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。在本公開所提供的幾個實施例中,應該理解到,所揭露的系統、裝置和方法,可以通過其它的方式實現。以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現的情況下可以有另外的劃分方式,又例如,多個單元或組件可以結合或者可以積體到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些通信介面,裝置或單元的間接耦合或通信連接,可以是電性、機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是實體上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本公開各個實施例中的各功能單元可以積體在一個處理單元中,也可以是各個單元單獨實體存在,也可以兩個或兩個以上單元積體在一個單元中。
所述功能如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用的情況下,可以儲存在一個處理器可執行的非易失的電腦可讀取儲存媒體中。基於這樣的理解,本公開的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存媒體中,包括若干指令用以使得一台電腦設備(可以是個人電腦、伺服器,或者網路設備等)執行本公開各個實施例所述方法的全部或部分步驟。而前述的儲存媒體包括:USB、移動硬碟、唯讀記憶體(Read-Only Memory,ROM)、隨機存取記憶體(Random Access Memory,RAM)、磁碟或者光碟等各種可以儲存程式代碼的媒體。
最後應說明的是:以上所述實施例,僅為本公開的具體實施方式,用以說明本公開的技術方案,而非對其限制,本公開的保護範圍並不局限於此,儘管參照前述實施例對本公開進行了詳細的說明,本領域的普通技術人員應當理解:任何熟悉本技術領域的技術人員在本公開揭露的技術範圍內,其依然可以對前述實施例所記載的技術方案進行修改或可輕易想到變化,或者對其中部分技術特徵進行等同替換;而這些修改、變化或者替換,並不使相應技術方案的本質脫離本公開實施例技術方案的精神和範圍,都應涵蓋在本公開的保護範圍之內。因此,本公開的保護範圍應所述以申請專利範圍的保護範圍為准。
11:處理器 12:儲存媒體 121:隨機存取記憶體 122:外部記憶體 13:匯流排 151:獲取模組 152:檢測模組 153:生成模組 154:執行模組 LC1:第二損失 LC2:第六損失 LC3:第七損失 LS1:第一損失 LS2:第五損失 LS3:第八損失 S101~S103、S401~S403、S601~S604、S801~S804、S1101~S1106:步驟
為了更清楚地說明本公開實施例的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應當理解,以下附圖僅出於說明目的示出了本公開的某些實施例,並不具有限制性,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他相關的附圖。在附圖中相同或相似的附圖標記代表同一要素或等同要素,一旦某一附圖標記在一個附圖中被定義,則在隨後的附圖中不需要對其進行進一步定義和解釋。 圖1示出了本公開實施例所提供的一種人體檢測方法的流程圖。 圖2a示出了本公開實施例所提供的一種輪廓關鍵點及骨骼關鍵點的位置示例。 圖2b示出了本公開實施例所提供的一種主輪廓關鍵點及輔助輪廓關鍵點的位置示例。 圖2c示出了本公開實施例所提供的另一種主輪廓關鍵點及輔助輪廓關鍵點的位置示例。 圖2d示出了本公開實施例所提供的另一種主輪廓關鍵點及輔助輪廓關鍵點的位置示例。 圖3示出了本公開實施例所提供的一種第一特徵提取網路的結構示意圖。 圖4示出了本公開實施例所提供的特徵提取方法的流程圖。 圖5示出了本公開實施例所提供的一種特徵融合網路的結構示意圖。 圖6示出了本公開實施例所提供的特徵融合方法的流程圖。 圖7示出了本公開實施例所提供的另一種特徵融合網路的結構示意圖。 圖8示出了本公開實施例所提供的另一種特徵融合方法的流程圖。 圖9a示出了本公開實施例所提供的一種使用散射卷積算子進行迭代更新過程的示意圖。 圖9b示出了本公開實施例所提供的一種使用聚集卷積算子進行迭代更新過程的示意圖。 圖10示出了本公開實施例所提供的另一種特徵融合網路的結構示意圖。 圖11示出了本公開實施例所提供的另一種特徵融合方法的流程圖。 圖12示出了本公開實施例所提供的骨骼關鍵點和輪廓關鍵點的示例。 圖13示出了本公開實施例所提供的對二維特徵矩陣中的元素進行位移變換的具體示例。 圖14示出了本公開實施例所提供的一種第二特徵提取網路的結構示意圖。 圖15示出了本公開實施例所提供的一種人體檢測裝置的示意圖。 圖16示出了本公開實施例所提供的一種電腦設備的示意圖。
S101~S103:步驟

Claims (15)

  1. 一種人體檢測方法,包括:獲取待檢測圖像;基於所述待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息;以及基於所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息,生成人體檢測結果,其中所述基於所述待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息的步驟包括:基於所述待檢測圖像,進行特徵提取以獲得骨骼特徵及輪廓特徵,並將得到的骨骼特徵和輪廓特徵進行特徵融合;以及基於特徵融合結果,確定所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息。
  2. 如請求項1所述的人體檢測方法,其中所述輪廓關鍵點包括主輪廓關鍵點和輔助輪廓關鍵點,其中兩個相鄰的所述主輪廓關鍵點之間存在至少一個所述輔助輪廓關鍵點,其中基於所述待檢測圖像,確定用於表徵人體輪廓的輪廓關鍵點的位置訊息的步驟包括:基於所述待檢測圖像,確定所述主輪廓關鍵點的位置訊息;基於所述主輪廓關鍵點的位置訊息,確定人體輪廓訊息;以 及基於確定的所述人體輪廓訊息,確定多個所述輔助輪廓關鍵點的位置訊息。
  3. 如請求項1所述的人體檢測方法,其中所述人體檢測結果包括下述一種或者多種:添加有骨骼關鍵點標記、以及輪廓關鍵點標記的所述待檢測圖像;以及包括所述骨骼關鍵點的位置訊息以及所述輪廓關鍵點的位置訊息的數據組,其中該方法還包括:基於所述人體檢測結果,執行下述操作中一種或者多種:人體動作識別、人體姿態檢測、人體輪廓調整、人體圖像編輯、以及人體貼圖。
  4. 如請求項1所述的人體檢測方法,其中所述基於所述待檢測圖像,進行特徵提取以獲得骨骼特徵及輪廓特徵,並將得到的骨骼特徵和輪廓特徵進行特徵融合的步驟包括:基於所述待檢測圖像,進行至少一次特徵提取,並將每次特徵提取得到的骨骼特徵以及輪廓特徵進行特徵融合,其中,在進行多次特徵提取的情況下,基於第i次特徵融合的特徵融合結果進行第i+1次特徵提取,i為正整數;其中所述基於特徵融合結果,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的 位置訊息的步驟包括:基於最後一次特徵融合的特徵融合結果,確定所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息。
  5. 如請求項4所述的人體檢測方法,其中所述基於所述待檢測圖像,進行至少一次特徵提取的步驟包括:在第一次特徵提取中,使用預先訓練的第一特徵提取網路從所述待檢測圖像中提取用於表徵人體骨骼特徵的骨骼關鍵點的第一目標骨骼特徵矩陣,以及用於表徵人體輪廓特徵的輪廓關鍵點的第一目標輪廓特徵矩陣;以及在第i+1次特徵提取中,使用預先訓練的第二特徵提取網路從第i次特徵融合的特徵融合結果中,提取所述第一目標骨骼特徵矩陣以及所述第一目標輪廓特徵矩陣,其中,第一特徵提取網路和第二特徵提取網路的網路參數不同,且不同次的特徵提取使用的第二特徵提取網路的網路參數不同。
  6. 根據請求項5所述的人體檢測方法,其中將提取得到的骨骼特徵和輪廓特徵進行特徵融合的步驟更包括:使用預先訓練的特徵融合神經網路對所述第一目標骨骼特徵矩陣、以及所述第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣;其中,所述第二目標骨骼特徵矩陣為三維骨骼特徵矩陣,該三維骨骼特徵矩陣包括與各個骨骼關鍵點分別對應的二維骨骼特 徵矩陣;所述二維骨骼特徵矩陣中每個元素的值,表徵與該元素對應的像素點屬於對應骨骼關鍵點的概率;所述第二目標輪廓特徵矩陣為三維輪廓特徵矩陣,該三維輪廓特徵矩陣包括與各個輪廓關鍵點分別對應的二維輪廓特徵矩陣;所述二維輪廓特徵矩陣中每個元素的值,表徵與該元素對應的像素點屬於對應輪廓關鍵點的概率;不同次特徵融合使用的特徵融合神經網路的網路參數不同。
  7. 如請求項5所述的人體檢測方法,其中所述第一特徵提取網路包括共有特徵提取網路、第一骨骼特徵提取網路以及第一輪廓特徵提取網路,其中所述使用第一特徵提取網路從所述待檢測圖像中提取所述第一目標骨骼特徵矩陣以及所述第一目標輪廓特徵矩陣的步驟包括:使用所述共有特徵提取網路對所述待檢測圖像進行卷積處理,得到包含骨骼特徵以及輪廓特徵的基礎特徵矩陣;使用所述第一骨骼特徵提取網路對所述基礎特徵矩陣進行卷積處理,得到第一骨骼特徵矩陣,並從所述第一骨骼特徵提取網路中的第一目標卷積層獲取第二骨骼特徵矩陣;基於所述第一骨骼特徵矩陣以及所述第二骨骼特徵矩陣,得到所述第一目標骨骼特徵矩陣;所述第一目標卷積層為所述第一骨骼特徵提取網路中,除最後一層卷積層外的其他任一卷積層;以及使用所述第一輪廓特徵提取網路,對所述基礎特徵矩陣進行卷積處理,得到第一輪廓特徵矩陣,並從所述第一輪廓特徵提取網 路中的第二目標卷積層獲取第二輪廓特徵矩陣;基於所述第一輪廓特徵矩陣以及所述第二輪廓特徵矩陣,得到所述第一目標輪廓特徵矩陣;所述第二目標卷積層為所述第一輪廓特徵提取網路中,除最後一層卷積層外的其他任一卷積層。
  8. 如請求項7所述的人體檢測方法,其中所述基於所述第一骨骼特徵矩陣以及所述第二骨骼特徵矩陣,得到所述第一目標骨骼特徵矩陣的步驟包括:將所述第一骨骼特徵矩陣以及所述第二骨骼特徵矩陣進行拼接處理,得到第一拼接骨骼特徵矩陣;以及對所述第一拼接骨骼特徵矩陣進行維度變換處理,得到所述第一目標骨骼特徵矩陣,其中所述基於所述第一輪廓特徵矩陣以及所述第二輪廓特徵矩陣,得到所述第一目標輪廓特徵矩陣的步驟更包括:將所述第一輪廓特徵矩陣以及所述第二輪廓特徵矩陣進行拼接處理,得到第一拼接輪廓特徵矩陣;以及對所述第一拼接輪廓特徵矩陣進行維度變換處理,得到所述第一目標輪廓特徵矩陣;其中,所述第一目標骨骼特徵矩陣的維度與所述第一目標輪廓特徵矩陣的維度相同、且所述第一目標骨骼特徵矩陣與所述第一目標輪廓特徵矩陣在相同維度上的維數相同。
  9. 如請求項6所述的人體檢測方法,其中所述特徵融合神經網路包括第一卷積神經網路、第二卷積神經網路、第一變換神 經網路、以及第二變換神經網路,其中所述使用特徵融合神經網路對所述第一目標骨骼特徵矩陣、以及所述第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣的步驟包括:使用所述第一卷積神經網路對所述第一目標骨骼特徵矩陣進行卷積處理,得到第一中間骨骼特徵矩陣;使用所述第二卷積神經網路對所述第一目標輪廓特徵矩陣進行卷積處理,得到第一中間輪廓特徵矩陣;將所述第一中間輪廓特徵矩陣與所述第一目標骨骼特徵矩陣進行拼接處理,得到第一拼接特徵矩陣;並使用所述第一變換神經網路對所述第一拼接特徵矩陣進行維度變換,得到所述第二目標骨骼特徵矩陣;以及將所述第一中間骨骼特徵矩陣與所述第一目標輪廓特徵矩陣進行拼接處理,得到第二拼接特徵矩陣,並使用所述第二變換神經網路對所述第二拼接特徵矩陣進行維度變換,得到所述第二目標輪廓特徵矩陣。
  10. 如請求項6所述的人體檢測方法,其中所述特徵融合神經網路包括第一定向卷積神經網路、第二定向卷積神經網路、第三卷積神經網路、第四卷積神經網路、第三變換神經網路、以及第四變換神經網路,其中所述使用特徵融合神經網路對所述第一目標骨骼特徵矩陣、以及所述第一目標輪廓特徵矩陣進行特 徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣的步驟包括:使用所述第一定向卷積神經網路對所述第一目標骨骼特徵矩陣進行定向卷積處理,得到第一定向骨骼特徵矩陣;並使用第三卷積神經網路對所述第一定向骨骼特徵矩陣進行卷積處理,得到第二中間骨骼特徵矩陣;使用所述第二定向卷積神經網路對所述第一目標輪廓特徵矩陣進行定向卷積處理,得到第一定向輪廓特徵矩陣;並使用第四卷積神經網路對所述第一定向輪廓特徵矩陣進行卷積處理,得到第二中間輪廓特徵矩陣;將所述第二中間輪廓特徵矩陣與所述第一目標骨骼特徵矩陣進行拼接處理,得到第三拼接特徵矩陣;並使用第三變換神經網路對所述第三拼接特徵矩陣進行維度變換,得到所述第二目標骨骼特徵矩陣;以及將所述第二中間骨骼特徵矩陣與所述第一目標輪廓特徵矩陣進行拼接處理,得到第四拼接特徵矩陣,並使用第四變換神經網路對所述第四拼接特徵矩陣進行維度變換,得到所述第二目標輪廓特徵矩陣。
  11. 如請求項6所述的人體檢測方法,其中所述特徵融合神經網路包括位移估計神經網路以及第五變換神經網路,其中所述使用特徵融合神經網路對所述第一目標骨骼特徵矩陣、以 及所述第一目標輪廓特徵矩陣進行特徵融合,得到第二目標骨骼特徵矩陣和第二目標輪廓特徵矩陣的步驟更包括:對所述第一目標骨骼特徵矩陣和所述第一目標輪廓特徵矩陣進行拼接處理,得到第五拼接特徵矩陣;將所述第五拼接特徵矩陣輸入至所述位移估計神經網路中,對預先確定的多組關鍵點對進行位移估計,得到每組關鍵點對中的一個關鍵點移動至另一關鍵點的位移訊息;將每組關鍵點對中的每個關鍵點分別作為當前關鍵點,從與該當前關鍵點配對的另一關鍵點對應的三維特徵矩陣中,獲取與所述配對的另一關鍵點對應的二維特徵矩陣;根據從所述配對的另一關鍵點到所述當前關鍵點的位移訊息,對所述配對的另一關鍵點對應的二維特徵矩陣中的元素進行位置變換,得到與所述當前關鍵點對應的位移特徵矩陣;針對每個骨骼關鍵點,將該骨骼關鍵點對應的二維特徵矩陣,與該骨骼關鍵點對應的各個位移特徵矩陣進行拼接處理,得到該骨骼關鍵點的拼接二維特徵矩陣;並將該骨骼關鍵點的拼接二維特徵矩陣輸入至所述第五變換神經網路,得到與該骨骼關鍵點對應的目標二維特徵矩陣;基於各個骨骼關鍵點分別對應的目標二維特徵矩陣,生成所述第二目標骨骼特徵矩陣;以及針對每個輪廓關鍵點,將該輪廓關鍵點對應的二維特徵矩陣,與該輪廓關鍵點對應的各個位移特徵矩陣進行拼接處理,得到該輪廓關鍵點的拼接二維特徵矩陣;並將該輪廓關鍵點的拼接二維 特徵矩陣輸入至所述第五變換神經網路,得到與該輪廓關鍵點對應的目標二維特徵矩陣;基於各個輪廓關鍵點分別對應的目標二維特徵矩陣,生成所述第二目標輪廓特徵矩陣。
  12. 如請求項1所述的人體檢測方法,其中所述人體檢測方法通過人體檢測模型實現,所述人體檢測模型包括第一特徵提取網路和/或特徵融合神經網路,其中所述人體檢測模型為利用訓練樣本集中的樣本圖像訓練得到的,所述樣本圖像標注有人體骨骼結構的骨骼關鍵點的實際位置訊息、以及人體輪廓的輪廓關鍵點的實際位置訊息。
  13. 一種人體檢測裝置,包括:獲取模組,用於獲取待檢測圖像;檢測模組,用於基於所述待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息;以及生成模組,用於基於所述骨骼關鍵點的位置訊息、以及所述輪廓關鍵點的位置訊息,生成人體檢測結果,其中所述基於所述待檢測圖像,確定用於表徵人體骨骼結構的骨骼關鍵點的位置訊息、以及用於表徵人體輪廓的輪廓關鍵點的位置訊息的步驟包括:基於所述待檢測圖像,進行特徵提取以獲得骨骼特徵及輪廓特徵,並將得到的骨骼特徵和輪廓特徵進行特徵融合;以及基於特徵融合結果,確定所述骨骼關鍵點的位置訊息、以及 所述輪廓關鍵點的位置訊息。
  14. 一種電腦設備,包括處理器、非暫時性儲存媒體和匯流排,所述非暫時性儲存媒體儲存有所述處理器可執行的機器可讀指令,當電腦設備運行的情況下,所述處理器與所述非暫時性儲存媒體之間通過匯流排通信,所述機器可讀指令被所述處理器執行以執行如請求項1至12任一所述方法的步驟。
  15. 一種電腦可讀取儲存媒體,其中該電腦可讀取儲存媒體上儲存有電腦程式,該電腦程式被處理器運行以執行如請求項1至12任一所述方法的步驟。
TW109117278A 2019-09-27 2020-05-25 人體檢測方法、裝置、電腦設備及儲存媒體 TWI742690B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910926373.4A CN110705448B (zh) 2019-09-27 2019-09-27 一种人体检测方法及装置
CN201910926373.4 2019-09-27

Publications (2)

Publication Number Publication Date
TW202112306A TW202112306A (zh) 2021-04-01
TWI742690B true TWI742690B (zh) 2021-10-11

Family

ID=69196895

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109117278A TWI742690B (zh) 2019-09-27 2020-05-25 人體檢測方法、裝置、電腦設備及儲存媒體

Country Status (9)

Country Link
US (1) US20210174074A1 (zh)
EP (1) EP3828765A4 (zh)
JP (1) JP7101829B2 (zh)
KR (1) KR20210038436A (zh)
CN (1) CN110705448B (zh)
AU (1) AU2020335016A1 (zh)
SG (1) SG11202101794SA (zh)
TW (1) TWI742690B (zh)
WO (1) WO2021057027A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705448B (zh) * 2019-09-27 2023-01-20 北京市商汤科技开发有限公司 一种人体检测方法及装置
CN111291793B (zh) * 2020-01-20 2023-11-14 北京大学口腔医学院 一种网格曲面的元素分类方法、装置及存储介质
CN111476291B (zh) * 2020-04-03 2023-07-25 南京星火技术有限公司 数据处理方法,装置及存储介质
CN111640197A (zh) * 2020-06-09 2020-09-08 上海商汤智能科技有限公司 一种增强现实ar特效控制方法、装置及设备
CN113469221A (zh) * 2021-06-09 2021-10-01 浙江大华技术股份有限公司 身份识别模型的训练方法和身份识别方法以及相关设备
CN113486751B (zh) * 2021-06-29 2023-07-04 西北大学 一种基于图卷积和边缘权重注意力的行人特征提取方法
CN113469018B (zh) * 2021-06-29 2024-02-23 中北大学 基于rgb与三维骨骼的多模态交互行为识别方法
CN113743257B (zh) * 2021-08-20 2024-05-14 江苏大学 一种融合时空特征的施工高空作业失稳状态检测方法
CN113837306B (zh) * 2021-09-29 2024-04-12 南京邮电大学 一种基于人体关键点时空图模型的异常行为检测方法
CN114299288A (zh) * 2021-12-23 2022-04-08 广州方硅信息技术有限公司 图像分割方法、装置、设备和存储介质
CN114519666B (zh) * 2022-02-18 2023-09-19 广州方硅信息技术有限公司 直播图像矫正方法、装置、设备及存储介质
CN115019386B (zh) * 2022-04-15 2024-06-14 北京航空航天大学 基于深度学习的运动辅助训练方法
CN115050101B (zh) * 2022-07-18 2024-03-22 四川大学 一种基于骨骼和轮廓特征融合的步态识别方法
CN115273154B (zh) * 2022-09-26 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于边缘重构的热红外行人检测方法、系统及存储介质
WO2024121900A1 (en) * 2022-12-05 2024-06-13 Nec Corporation Key-point associating apparatus, key-point associating method, and non-transitory computer-readable storage medium
CN115661138B (zh) * 2022-12-13 2023-03-21 北京大学第三医院(北京大学第三临床医学院) 基于dr影像的人体骨骼轮廓检测方法
CN116137074A (zh) * 2023-02-22 2023-05-19 常熟理工学院 电梯轿厢内乘客打斗行为的自动检测方法和系统
CN116434335B (zh) * 2023-03-30 2024-04-30 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN117315791B (zh) * 2023-11-28 2024-02-20 杭州华橙软件技术有限公司 骨骼动作识别方法、设备及存储介质
CN118068318B (zh) * 2024-04-17 2024-06-28 德心智能科技(常州)有限公司 基于毫米波雷达和环境传感器的多模态感知方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103733227A (zh) * 2012-06-14 2014-04-16 索弗特凯耐提克软件公司 三维对象建模拟合与跟踪
CN104537608A (zh) * 2014-12-31 2015-04-22 深圳市中兴移动通信有限公司 一种图像处理的方法及其装置
CN105550678A (zh) * 2016-02-03 2016-05-04 武汉大学 基于全局显著边缘区域的人体动作特征提取方法
CN109255783A (zh) * 2018-10-19 2019-01-22 上海摩象网络科技有限公司 一种多人图像上的人体骨骼关键点的位置排布检测方法
CN110059522A (zh) * 2018-01-19 2019-07-26 北京市商汤科技开发有限公司 人体轮廓关键点检测方法、图像处理方法、装置及设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4728795B2 (ja) * 2005-12-15 2011-07-20 日本放送協会 人物オブジェクト判定装置及び人物オブジェクト判定プログラム
WO2010099035A1 (en) * 2009-02-25 2010-09-02 Honda Motor Co., Ltd. Body feature detection and human pose estimation using inner distance shape contexts
CN102831380A (zh) * 2011-06-15 2012-12-19 康佳集团股份有限公司 一种基于深度图像感应的肢体动作识别方法及系统
US8786680B2 (en) * 2011-06-21 2014-07-22 Disney Enterprises, Inc. Motion capture from body mounted cameras
JP2014089665A (ja) * 2012-10-31 2014-05-15 Toshiba Corp 画像処理装置、画像処理方法、及び画像処理プログラム
CN103679175B (zh) * 2013-12-13 2017-02-15 电子科技大学 一种基于深度摄像机的快速3d骨骼模型检测方法
CN103955680B (zh) * 2014-05-20 2017-05-31 深圳市赛为智能股份有限公司 基于形状上下文的动作识别方法及装置
CN108229468B (zh) * 2017-06-28 2020-02-21 北京市商汤科技开发有限公司 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备
CN107705355A (zh) * 2017-09-08 2018-02-16 郭睿 一种基于多张图片的3d人体建模方法及装置
CN108229308A (zh) * 2017-11-23 2018-06-29 北京市商汤科技开发有限公司 目标对象识别方法、装置、存储介质和电子设备
CN108038469B (zh) * 2017-12-27 2019-10-25 百度在线网络技术(北京)有限公司 用于检测人体的方法和装置
CN109508625A (zh) * 2018-09-07 2019-03-22 咪咕文化科技有限公司 一种情感数据的分析方法及装置
CN109242868B (zh) * 2018-09-17 2021-05-04 北京旷视科技有限公司 图像处理方法、装置、电子设备及储存介质
WO2020068104A1 (en) * 2018-09-28 2020-04-02 Hewlett-Packard Development Company, L.P. Generating spatial gradient maps for a person in an image
CN109902659B (zh) * 2019-03-15 2021-08-20 北京字节跳动网络技术有限公司 用于处理人体图像的方法和装置
CN110084161B (zh) * 2019-04-17 2023-04-18 中山大学 一种人体骨骼关键点的快速检测方法及系统
CN110197117B (zh) * 2019-04-18 2021-07-06 北京奇艺世纪科技有限公司 人体轮廓点提取方法、装置、终端设备及计算机可读存储介质
CN110111418B (zh) * 2019-05-15 2022-02-25 北京市商汤科技开发有限公司 创建脸部模型的方法、装置及电子设备
CN110135375B (zh) * 2019-05-20 2021-06-01 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110705448B (zh) * 2019-09-27 2023-01-20 北京市商汤科技开发有限公司 一种人体检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103733227A (zh) * 2012-06-14 2014-04-16 索弗特凯耐提克软件公司 三维对象建模拟合与跟踪
CN104537608A (zh) * 2014-12-31 2015-04-22 深圳市中兴移动通信有限公司 一种图像处理的方法及其装置
CN105550678A (zh) * 2016-02-03 2016-05-04 武汉大学 基于全局显著边缘区域的人体动作特征提取方法
CN110059522A (zh) * 2018-01-19 2019-07-26 北京市商汤科技开发有限公司 人体轮廓关键点检测方法、图像处理方法、装置及设备
CN109255783A (zh) * 2018-10-19 2019-01-22 上海摩象网络科技有限公司 一种多人图像上的人体骨骼关键点的位置排布检测方法

Also Published As

Publication number Publication date
AU2020335016A1 (en) 2021-04-15
WO2021057027A1 (zh) 2021-04-01
TW202112306A (zh) 2021-04-01
CN110705448A (zh) 2020-01-17
JP7101829B2 (ja) 2022-07-15
EP3828765A1 (en) 2021-06-02
KR20210038436A (ko) 2021-04-07
JP2022503426A (ja) 2022-01-12
EP3828765A4 (en) 2021-12-08
CN110705448B (zh) 2023-01-20
US20210174074A1 (en) 2021-06-10
SG11202101794SA (en) 2021-04-29

Similar Documents

Publication Publication Date Title
TWI742690B (zh) 人體檢測方法、裝置、電腦設備及儲存媒體
Chen et al. Fsrnet: End-to-end learning face super-resolution with facial priors
CN111275518B (zh) 一种基于混合光流的视频虚拟试穿方法及装置
CN108596974B (zh) 动态场景机器人定位建图系统及方法
CN107103613B (zh) 一种三维手势姿态估计方法
US11417095B2 (en) Image recognition method and apparatus, electronic device, and readable storage medium using an update on body extraction parameter and alignment parameter
EP3971841A1 (en) Three-dimensional model generation method and apparatus, and computer device and storage medium
WO2021135827A1 (zh) 视线方向确定方法、装置、电子设备及存储介质
CN106780592A (zh) 基于相机运动和图像明暗的Kinect深度重建算法
CN110288614A (zh) 图像处理方法、装置、设备及存储介质
CN109325995B (zh) 基于人手参数模型的低分辨率多视角手部重建方法
CN107657664B (zh) 人脸表情合成后的图像优化方法、装置、存储介质和计算机设备
CN109948441B (zh) 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
JP2019096113A (ja) キーポイントデータに関する加工装置、方法及びプログラム
CN112560648B (zh) 一种基于rgb-d图像的slam方法
CN112734890A (zh) 基于三维重建的人脸替换方法及装置
CN105976395A (zh) 一种基于稀疏表示的视频目标跟踪方法
CN112184886A (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN110321452A (zh) 一种基于方向选择机制的图像检索方法
CN116863044A (zh) 人脸模型的生成方法、装置、电子设备及可读存储介质
CN109741245A (zh) 平面信息的插入方法及装置
CN113592021B (zh) 一种基于可变形和深度可分离卷积的立体匹配方法
CN117252914A (zh) 深度估计网络的训练方法、装置、电子设备及存储介质
CN114373040A (zh) 一种三维模型重建方法和采集终端
CN110189247B (zh) 图像生成的方法、装置及系统