KR102394354B1 - 키 포인트 검출 방법 및 장치, 전자 기기 및 저장 매체 - Google Patents

키 포인트 검출 방법 및 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR102394354B1
KR102394354B1 KR1020207012580A KR20207012580A KR102394354B1 KR 102394354 B1 KR102394354 B1 KR 102394354B1 KR 1020207012580 A KR1020207012580 A KR 1020207012580A KR 20207012580 A KR20207012580 A KR 20207012580A KR 102394354 B1 KR102394354 B1 KR 102394354B1
Authority
KR
South Korea
Prior art keywords
feature map
feature
processing
map
maps
Prior art date
Application number
KR1020207012580A
Other languages
English (en)
Other versions
KR20200065033A (ko
Inventor
쿤린 양
마오큉 티안
슈아이 이
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20200065033A publication Critical patent/KR20200065033A/ko
Application granted granted Critical
Publication of KR102394354B1 publication Critical patent/KR102394354B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • G06K9/629
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/033Recognition of patterns in medical or anatomical images of skeletal patterns
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시예는 키 포인트 검출 방법 및 장치, 전자 기기 및 저장 매체에 관한 것이다. 상기 방법은, 입력 이미지에 대한 복수 개의 스케일의 제1 특징 맵을 획득하는 단계 - 각 제1 특징 맵의 스케일은 다중 관계를 가짐 - ; 제1 피라미드 신경망을 이용하여 각 상기 제1 특징 맵에 대해 순방향 처리를 진행하여 상기 제1 특징 맵 각각에 일대일로 대응하는 제2 특징 맵을 얻는 단계 - 상기 제2 특징 맵은, 상기 제2 특징 맵에 일대일로 대응하는 상기 제1 특징 맵과 스케일이 동일함 - ; 제2 피라미드 신경망을 이용하여 상기 제2 특징 맵 각각에 대해 역방향 처리를 진행하여 상기 제2 특징 맵 각각에 일대일로 대응하는 제3 특징 맵을 얻는 단계 - 상기 제3 특징 맵은, 상기 제3 특징 맵에 일대일로 대응하는 상기 제2 특징 맵과 스케일이 동일함 - ; 및 각 상기 제3 특징 맵에 대해 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 입력 이미지 중의 각 키 포인트의 위치를 획득하는 단계를 포함한다. 본 발명은 키 포인트의 위치를 정확하게 추출할 수 있다.

Description

키 포인트 검출 방법 및 장치, 전자 기기 및 저장 매체
관련 출원의 상호 참조
본원은 출원 번호가 201811367869.4이고 출원 일자가 2018년 11월 16일인 중국 특허 출원에 기반하여 제공하였고, 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본원 발명에 원용된다.
본 발명은 컴퓨터 비전 기술분야에 관한 것으로서, 특히 키 포인트 검출 방법 및 장치, 전자 기기 및 저장 매체에 관한 것이다.
인체 키 포인트 검출은 인체 이미지로부터 관절 또는 오관 등 키 포인트의 위치 정보를 검출함으로써, 이러한 키 포인트의 위치 정보를 통해 인체의 자세를 설명한다.
인체는 이미지에서 크기가 상이하므로, 기존의 기술은 일반적으로 신경망을 적용하여 이미지의 멀티 스케일 특징을 획득할 수 있으며, 이는 최종적으로 인체 키 포인트의 위치를 예측하는데 사용된다. 그러나 이러한 방식을 사용하면 멀티 스케일 특징을 완전히 채굴 및 활용할 수 없으므로 키 포인트의 검출 정확도가 비교적 낮다는 것을 발견하였다.
본 발명의 실시예는 키 포인트 검출 정확도를 효과적으로 향상시키는 키 포인트 검출 방법 및 장치, 전자 기기 및 저장 매체를 제공한다.
본 발명의 실시예의 제1 측면에 따르면, 키 포인트 검출 방법을 제공하며, 상기 방법은,
입력 이미지에 대한 복수 개의 스케일의 제1 특징 맵을 획득하는 단계 - 각 제1 특징 맵의 스케일은 다중 관계를 가짐 - ; 제1 피라미드 신경망을 이용하여 각 상기 제1 특징 맵에 대해 순방향 처리를 진행하여 상기 제1 특징 맵 각각에 일대일로 대응하는 제2 특징 맵을 얻는 단계 - 상기 제2 특징 맵은, 상기 제2 특징 맵에 일대일로 대응하는 상기 제1 특징 맵과 스케일이 동일함 - ; 제2 피라미드 신경망을 이용하여 상기 제2 특징 맵 각각에 대해 역방향 처리를 진행하여 상기 제2 특징 맵 각각에 일대일로 대응하는 제3 특징 맵을 얻는 단계 - 상기 제3 특징 맵은, 상기 제3 특징 맵에 일대일로 대응하는 상기 제2 특징 맵과 스케일이 동일함 - ; 및 각 상기 제3 특징 맵에 대해 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 입력 이미지 중의 각 키 포인트의 위치를 획득하는 단계를 포함한다.
일부 가능한 실시형태에서, 상기 입력 이미지에 대한 복수 개의 스케일의 제1 특징 맵을 획득하는 단계는, 상기 입력 이미지를 기설정된 규격의 제1 이미지로 조절하는 단계 및 상기 제1 이미지를 잔차 신경망에 입력하고, 제1 이미지에 대해 상이한 샘플링 주파수의 다운 샘플링 처리를 수행하여 복수 개의 상이한 스케일의 제1 특징 맵을 얻는 단계를 포함한다.
일부 가능한 실시형태에서, 상기 순방향 처리는 제1 컨볼루션 처리 및 제1 선형 보간 처리를 포함하고, 상기 역방향 처리는 제2 컨볼루션 처리 및 제2 선형 보간 처리를 포함한다.
일부 가능한 실시형태에서, 상기 제1 피라미드 신경망을 이용하여 각 상기 제1 특징 맵에 대해 순방향 처리를 진행하여 상기 제1 특징 맵 각각에 일대일로 대응하는 제2 특징 맵을 얻는 단계는, 제1 컨볼루션 커널을 이용하여 제1 특징 맵
Figure 112020044358628-pct00001
중의 제1 특징 맵
Figure 112020044358628-pct00002
에 대해 컨볼루션 처리를 진행하여, 제1 특징 맵
Figure 112020044358628-pct00003
에 대응하는 제2 특징 맵
Figure 112020044358628-pct00004
을 획득하는 단계 - n은 제1 특징 맵의 개수를 나타내고, n은 1보다 큰 정수임 - ; 상기 제2 특징 맵
Figure 112020044358628-pct00005
에 대해 선형 보간 처리를 수행하여 제2 특징 맵
Figure 112020044358628-pct00006
에 대응하는 제1 중간 특징 맵
Figure 112020044358628-pct00007
을 획득하는 단계 - 제1 중간 특징 맵
Figure 112020044358628-pct00008
의 스케일은 제1 특징 맵 Cn-1의 스케일과 동일함 - ; 제2 컨볼루션 커널을 이용하여 제1 특징 맵
Figure 112020044358628-pct00009
이외의 각 제1 특징 맵
Figure 112020044358628-pct00010
에 대해 컨볼루션 처리를 진행하여, 제1 특징 맵
Figure 112020044358628-pct00011
에 일대일로 각각 대응하는 제2 중간 특징 맵
Figure 112020044358628-pct00012
을 얻는 단계 - 상기 제2 중간 특징 맵의 스케일은, 상기 제2 중간 특징 맵의 스케일에 일대일로 대응하는 제1 특징 맵과 스케일이 동일함 - ; 및 상기 제2 특징 맵
Figure 112020044358628-pct00013
및 각 상기 제2 중간 특징 맵
Figure 112020044358628-pct00014
에 기반하여, 제2 특징 맵
Figure 112020044358628-pct00015
및 제1 중간 특징 맵
Figure 112020044358628-pct00016
을 얻는 단계 - 상기 제2 특징 맵
Figure 112020044358628-pct00017
는 상기 제2 중간 특징 맵
Figure 112020044358628-pct00018
와 상기 제1 중간 특징 맵
Figure 112020044358628-pct00019
에 의한 중첩 처리를 통해 얻어지고, 제1 중간 특징 맵
Figure 112020044358628-pct00020
는 대응하는 제2 특징 맵
Figure 112020044358628-pct00021
의 선형 보간에 의해 얻어지며, 상기 제2 중간 특징 맵
Figure 112020044358628-pct00022
와 제1 중간 특징 맵
Figure 112020044358628-pct00023
의 스케일은 동일하며, i는 1보다 크거나 같고 n보다 작은 정수임 - 를 포함한다.
일부 가능한 실시형태에서, 상기 제2 피라미드 신경망을 이용하여 상기 제2 특징 맵 각각에 대해 역방향 처리를 진행하여 상기 제2 특징 맵 각각에 일대일로 대응하는 제3 특징 맵을 얻는 단계는, 제3 컨볼루션 커널을 이용하여 제2 특징 맵
Figure 112020044358628-pct00024
중의 제2 특징 맵
Figure 112020044358628-pct00025
에 대해 컨볼루션 처리를 진행하여, 제2 특징 맵
Figure 112020044358628-pct00026
에 대응하는 제3 특징 맵
Figure 112020044358628-pct00027
을 획득하는 단계 - m은 제2 특징 맵의 개수를 나타내고, m은 1보다 큰 정수임 - ; 제4 컨볼루션 커널을 이용하여 제2 특징 맵
Figure 112020044358628-pct00028
에 대해 컨볼루션 처리를 진행하여, 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00029
을 각각 얻는 단계 - 제3 중간 특징 맵의 스케일은 대응하는 제2 특징 맵의 스케일과 동일함 - ;
제5 컨볼루션 커널을 이용하여 제3 특징 맵
Figure 112020044358628-pct00030
에 대해 컨볼루션 처리를 진행하여 제3 특징 맵
Figure 112020044358628-pct00031
에 대응하는 제4 중간 특징 맵
Figure 112020044358628-pct00032
을 얻는 단계 각 제3 중간 특징 맵
Figure 112020044358628-pct00033
및 제4 중간 특징 맵
Figure 112020044358628-pct00034
을 이용하여, 제3 특징 맵
Figure 112020044358628-pct00035
및 제4 중간 특징 맵
Figure 112020044358628-pct00036
을 얻는 단계 - 제3 특징 맵
Figure 112020044358628-pct00037
는 제3 중간 특징 맵
Figure 112020044358628-pct00038
와 제4 중간 특징 맵
Figure 112020044358628-pct00039
의 중첩 처리를 통해 얻어지고, 제4 중간 특징 맵
Figure 112020044358628-pct00040
은 대응하는 제3 특징 맵
Figure 112020044358628-pct00041
이 제5 컨볼루션 커널 컨볼루션 처리를 통해 획득되며, j는 1보다 크고 m보다 작거나 같음 - 를 포함한다.
일부 가능한 실시형태에서, 각 상기 제3 특징 맵에 대해 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 입력 이미지 중의 각 키 포인트의 위치를 획득하는 단계는, 각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻는 단계 및 상기 제4 특징 맵에 기반하여 상기 입력 이미지 중 각 키 포인트의 위치를 획득하는 단계를 포함한다.
일부 가능한 실시형태에서, 상기 각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻는 단계는, 선형 보간의 방식을 이용하여, 각 제3 특징 맵을 스케일이 동일한 특징 맵으로 조정하는 단계 및 상기 스케일이 동일한 특징 맵을 연결하여 상기 제4 특징 맵을 얻는 단계를 포함한다.
일부 가능한 실시형태에서, 상기 각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻기 전에, 제1 그룹의 제3 특징 맵을 상이한 병목 블록 구조에 입력하여 컨볼루션 처리를 진행함으로써, 업데이트된 제3 특징 맵을 각각 얻는 단계 - 각 상기 병목 블록 구조는 상이한 개수의 컨볼루션 모듈을 포함하며, 상기 제3 특징 맵은 제1 그룹의 제3 특징 맵 및 제2 그룹의 제3 특징 맵을 포함하고, 상기 제1 그룹의 제3 특징 맵 및 상기 제2 그룹의 제3 특징 맵은 모두 적어도 하나의 제3 특징 맵을 포함함 - 를 더 포함한다.
일부 가능한 실시형태에서, 상기 각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻는 단계는, 선형 보간의 방식을 이용하여, 각 상기 업데이트된 제3 특징 맵 및 상기 제2 그룹의 제3 특징 맵을 스케일이 동일한 특징 맵으로 조정하는 단계 및 상기 스케일이 동일한 특징 맵을 연결하여 상기 제4 특징 맵을 얻는 단계를 포함한다.
일부 가능한 실시형태에서, 상기 제4 특징 맵에 기반하여 상기 입력 이미지 중 각 키 포인트의 위치를 획득하는 단계는, 제5 컨볼루션 커널을 이용하여 상기 제4 특징 맵에 대해 차원 축소 처리를 진행하는 단계 및 차원 축소 처리된 제4 특징 맵을 이용하여 입력 이미지의 키 포인트의 위치를 결정하는 단계를 포함한다.
일부 가능한 실시형태에서, 상기 제4 특징 맵에 기반하여 상기 입력 이미지 중 각 키 포인트의 위치를 획득하는 단계는, 제5 컨볼루션 커널을 이용하여 상기 제4 특징 맵에 대해 차원 축소 처리를 진행하는 단계 컨볼루션 블록 주의력 모듈을 이용하여 차원 축소 처리된 제4 특징 맵 중의 특징에 대해 정제 처리를 진행하여, 정제된 특징 맵을 얻는 단계 및 정제된 특징 맵을 이용하여 상기 입력 이미지의 키 포인트의 위치를 결정하는 단계를 포함한다.
일부 가능한 실시형태에서, 상기 방법은 훈련 이미지 데이터 세트를 이용하여 상기 제1 피라미드 신경망을 훈련시키는 단계를 더 포함하며, 이는 제1 피라미드 신경망을 이용하여 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제1 특징 맵에 대해 상기 순방향 처리를 진행하여, 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제2 특징 맵을 얻는 단계 각 제2 특징 맵을 이용하여 식별된 키 포인트를 결정하는 단계 제1 손실 함수에 따라 상기 키 포인트의 제1 손실 값을 얻는 단계 및 상기 제1 손실 값을 이용하여 훈련 횟수가 설정된 제1 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중의 각 컨볼루션 커널을 역방향으로 조절하는 단계를 포함한다.
일부 가능한 실시형태에서, 상기 방법은 훈련 이미지 데이터 세트를 이용하여 상기 제2 피라미드 신경망을 훈련시키는 단계를 더 포함하며, 이는 제2 피라미드 신경망을 이용하여 상기 제1 피라미드 신경망에 의해 출력된, 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제2 특징 맵에 대해 상기 역방향 처리를 진행하여, 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제3 특징 맵을 얻는 단계 각 제3 특징 맵을 이용하여 식별된 키 포인트를 결정하는 단계 제2 손실 함수에 따라 식별된 각 키 포인트의 제2 손실 값을 얻는 단계 상기 제2 손실 값을 이용하여 훈련 횟수가 설정된 제2 횟수 임계치에 도달할 때까지 상기 제2 피라미드 신경망 중 컨볼루션 커널을 역방향으로 조절하는 단계 또는, 상기 제2 손실 값을 이용하여 훈련 횟수가 설정된 제2 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중 컨볼루션 커널 및 제2 피라미드 신경망 중 컨볼루션 커널을 역방향으로 조절하는 단계를 포함한다.
일부 가능한 실시형태에서, 특징 추출 네트워크를 통해 각 상기 제3 특징 맵에 대한 특징 융합 처리를 수행하며, 특징 추출 네트워크를 통해 각 상기 제3 특징 맵에 대한 특징 융합 처리를 수행하기 전에, 상기 방법은 훈련 이미지 데이터 세트를 이용하여 상기 특징 추출 네트워크를 훈련시키는 단계를 더 포함하며, 이는 특징 추출 네트워크를 이용하여 상기 제2 피라미드 신경망에 의해 출력된, 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제3 특징 맵에 대해 상기 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 훈련 이미지 데이터 세트 중 각 이미지의 키 포인트를 식별하는 단계 제3 손실 함수에 따라 각 키 포인트의 제3 손실 값을 얻는 단계 상기 제3 손실 값을 이용하여 훈련 횟수가 설정된 제3 횟수 임계치에 도달할 때까지 상기 특징 추출 네트워크의 파라미터를 역방향으로 조절하는 단계 또는, 상기 제3 손실 함수를 이용하여 훈련 횟수가 설정된 제3 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중 컨볼루션 커널 파라미터, 제2 피라미드 신경망 중 컨볼루션 커널 파라미터 및 상기 특징 추출 네트워크의 파라미터를 역방향으로 조절하는 단계를 포함한다.
본 발명의 실시예의 제2 측면에 따르면, 키 포인트 검출 장치를 제공하며, 상기 장치는, 입력 이미지에 대한 복수 개의 스케일의 제1 특징 맵을 획득하도록 구성되는 멀티 스케일 특징 획득 모듈 - 각 제1 특징 맵의 스케일은 다중 관계를 가짐 - ; 제1 피라미드 신경망을 이용하여 각 상기 제1 특징 맵에 대해 순방향 처리를 진행하여 상기 제1 특징 맵 각각에 일대일로 대응하는 제2 특징 맵을 얻도록 구성되는 순방향 처리 모듈 - 상기 제2 특징 맵은, 상기 제2 특징 맵에 일대일로 대응하는 상기 제1 특징 맵과 스케일이 동일함 - ; 제2 피라미드 신경망을 이용하여 상기 제2 특징 맵 각각에 대해 역방향 처리를 진행하여 상기 제2 특징 맵 각각에 일대일로 대응하는 제3 특징 맵을 얻도록 구성되는 역방향 처리 모듈 - 상기 제3 특징 맵은, 상기 제3 특징 맵에 일대일로 대응하는 상기 제2 특징 맵과 스케일이 동일함 - ; 및 각 상기 제3 특징 맵에 대해 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 입력 이미지 중의 각 키 포인트의 위치를 획득하도록 구성되는 키 포인트 검출 모듈을 포함한다.
일부 가능한 실시형태에서, 상기 멀티 스케일 특징 획득 모듈은 상기 입력 이미지를 기설정된 규격의 제1 이미지로 조절하며, 상기 제1 이미지를 잔차 신경망에 입력하고, 제1 이미지에 대해 상이한 샘플링 주파수의 다운 샘플링 처리를 수행하여 복수 개의 상이한 스케일의 제1 특징 맵을 얻도록 구성된다.
일부 가능한 실시형태에서, 상기 순방향 처리는 제1 컨볼루션 처리 및 제1 선형 보간 처리를 포함하고, 상기 역방향 처리는 제2 컨볼루션 처리 및 제2 선형 보간 처리를 포함한다.
일부 가능한 실시형태에서, 상기 순방향 처리 모듈은, 제1 컨볼루션 커널을 이용하여 제1 특징 맵
Figure 112020044358628-pct00042
중의 제1 특징 맵
Figure 112020044358628-pct00043
에 대해 컨볼루션 처리를 진행하여, 제1 특징 맵
Figure 112020044358628-pct00044
에 대응하는 제2 특징 맵
Figure 112020044358628-pct00045
을 획득하고 - n은 제1 특징 맵의 개수를 나타내고, n은 1보다 큰 정수임 - ; 상기 제2 특징 맵
Figure 112020044358628-pct00046
에 대해 선형 보간 처리를 수행하여 제2 특징 맵
Figure 112020044358628-pct00047
에 대응하는 제1 중간 특징 맵
Figure 112020044358628-pct00048
을 획득하며 - 제1 중간 특징 맵
Figure 112020044358628-pct00049
의 스케일은 제1 특징 맵 Cn-1의 스케일과 동일함 - ; 제2 컨볼루션 커널을 이용하여 제1 특징 맵
Figure 112020044358628-pct00050
이외의 각 제1 특징 맵
Figure 112020044358628-pct00051
에 대해 컨볼루션 처리를 진행하여, 각각 제1 특징 맵
Figure 112020044358628-pct00052
에 일대일로 대응하는 제2 중간 특징 맵
Figure 112020044358628-pct00053
을 얻고 - 상기 제2 중간 특징 맵의 스케일은, 상기 제2 중간 특징 맵의 스케일에 일대일로 대응하는 제1 특징 맵과 스케일이 동일함 - ; 상기 제2 특징 맵
Figure 112020044358628-pct00054
및 각 상기 제2 중간 특징 맵
Figure 112020044358628-pct00055
에 기반하여, 제2 특징 맵
Figure 112020044358628-pct00056
및 제1 중간 특징 맵
Figure 112020044358628-pct00057
을 얻도록 - 상기 제2 특징 맵
Figure 112020044358628-pct00058
는 상기 제2 중간 특징 맵
Figure 112020044358628-pct00059
와 상기 제1 중간 특징 맵
Figure 112020044358628-pct00060
의 중첩 처리를 통해 얻어지고, 제1 중간 특징 맵
Figure 112020044358628-pct00061
는 대응하는 제2 특징 맵
Figure 112020044358628-pct00062
의 선형 보간에 의해 얻어지며, 상기 제2 중간 특징 맵
Figure 112020044358628-pct00063
와 제1 중간 특징 맵
Figure 112020044358628-pct00064
의 스케일은 동일하며, i는 1보다 크거나 같고 n보다 작은 정수임 - 구성된다.
일부 가능한 실시형태에서, 상기 역방향 처리 모듈은, 제3 컨볼루션 커널을 이용하여 제2 특징 맵
Figure 112020044358628-pct00065
중의 제2 특징 맵
Figure 112020044358628-pct00066
에 대해 컨볼루션 처리를 진행하여, 제2 특징 맵
Figure 112020044358628-pct00067
에 대응하는 제3 특징 맵
Figure 112020044358628-pct00068
을 획득하고 - m은 제2 특징 맵의 개수를 나타내고, m은 1보다 큰 정수임 - ; 제4 컨볼루션 커널을 이용하여 제2 특징 맵
Figure 112020044358628-pct00069
에 대해 컨볼루션 처리를 진행하여, 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00070
을 각각 얻으며 - 제3 중간 특징 맵의 스케일은 대응하는 제2 특징 맵의 스케일과 동일함 - ; 제5 컨볼루션 커널을 이용하여 제3 특징 맵
Figure 112020044358628-pct00071
에 대해 컨볼루션 처리를 진행하여 제3 특징 맵
Figure 112020044358628-pct00072
에 대응하는 제4 중간 특징 맵
Figure 112020044358628-pct00073
을 얻고 각 제3 중간 특징 맵
Figure 112020044358628-pct00074
및 제4 중간 특징 맵
Figure 112020044358628-pct00075
을 이용하여, 제3 특징 맵
Figure 112020044358628-pct00076
및 제4 중간 특징 맵
Figure 112020044358628-pct00077
을 얻도록 - 제3 특징 맵
Figure 112020044358628-pct00078
는 제3 중간 특징 맵
Figure 112020044358628-pct00079
와 제4 중간 특징 맵
Figure 112020044358628-pct00080
의 중첩 처리를 통해 얻어지고, 제4 중간 특징 맵
Figure 112020044358628-pct00081
은 대응하는 제3 특징 맵
Figure 112020044358628-pct00082
이 제5 컨볼루션 커널 컨볼루션 처리를 통해 획득되며, j는 1보다 크고 m보다 작거나 같음 - 구성된다.
일부 가능한 실시형태에서, 상기 키 포인트 검출 모듈은 각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻고, 상기 제4 특징 맵에 기반하여 상기 입력 이미지 중 각 키 포인트의 위치를 획득하도록 구성된다.
일부 가능한 실시형태에서, 상기 키 포인트 검출 모듈은 선형 보간의 방식을 이용하여, 각 제3 특징 맵을 스케일이 동일한 특징 맵으로 조정하고, 상기 스케일이 동일한 특징 맵을 연결하여 상기 제4 특징 맵을 얻도록 구성된다.
일부 가능한 실시형태에서, 상기 장치는, 제1 그룹의 제3 특징 맵을 상이한 병목 블록 구조에 입력하여 컨볼루션 처리를 진행함으로써, 업데이트된 제3 특징 맵을 각각 얻도록 구성되는 최적화 모듈 - 각 상기 병목 블록 구조는 상이한 개수의 컨볼루션 모듈을 포함하며, 상기 제3 특징 맵은 제1 그룹의 제3 특징 맵 및 제2 그룹의 제3 특징 맵을 포함하고, 상기 제1 그룹의 제3 특징 맵 및 상기 제2 그룹의 제3 특징 맵은 모두 적어도 하나의 제3 특징 맵을 포함함 - 을 더 포함한다.
일부 가능한 실시형태에서, 상기 키 포인트 검출 모듈은 또한 선형 보간의 방식을 이용하여, 각 상기 업데이트된 제3 특징 맵 및 상기 제2 그룹의 제3 특징 맵을 스케일이 동일한 특징 맵으로 조정하고, 상기 스케일이 동일한 특징 맵을 연결하여 상기 제4 특징 맵을 얻도록 구성된다.
일부 가능한 실시형태에서, 상기 키 포인트 검출 모듈은 또한 제5 컨볼루션 커널을 이용하여 상기 제4 특징 맵에 대해 차원 축소 처리를 진행하고, 차원 축소 처리된 제4 특징 맵을 이용하여 입력 이미지의 키 포인트의 위치를 결정하도록 구성된다.
일부 가능한 실시형태에서, 상기 키 포인트 검출 모듈은 또한 제5 컨볼루션 커널을 이용하여 상기 제4 특징 맵에 대해 차원 축소 처리를 진행하고, 컨볼루션 블록 주의력 모듈을 이용하여 차원 축소 처리된 제4 특징 맵 중의 특징에 대해 정제 처리를 진행하여 정제 처리된 특징 맵을 얻으며, 정제 처리된 특징 맵을 이용하여 상기 입력 이미지의 키 포인트의 위치를 결정하도록 구성된다.
일부 가능한 실시형태에서, 상기 순방향 처리 모듈은 또한 훈련 이미지 데이터 세트를 이용하여 상기 제1 피라미드 신경망을 훈련시키도록 구성되며, 상기 훈련 이미지 데이터 세트를 이용하여 상기 제1 피라미드 신경망을 훈련시키는 단계는, 제1 피라미드 신경망을 이용하여 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제1 특징 맵에 대해 상기 순방향 처리를 진행하여, 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제2 특징 맵을 얻는 단계 각 제2 특징 맵을 이용하여 식별된 키 포인트를 결정하는 단계 제1 손실 함수에 따라 상기 키 포인트의 제1 손실 값을 얻는 단계 및 상기 제1 손실 값을 이용하여 훈련 횟수가 설정된 제1 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중의 각 컨볼루션 커널을 역방향으로 조절하는 단계를 포함한다.
일부 가능한 실시형태에서, 상기 역방향 처리 모듈은 또한 훈련 이미지 데이터 세트를 이용하여 상기 제2 피라미드 신경망을 훈련시키도록 구성되며, 상기 훈련 이미지 데이터 세트를 이용하여 상기 제2 피라미드 신경망을 훈련시키는 단계는, 제2 피라미드 신경망을 이용하여 상기 제1 피라미드 신경망에 의해 출력된, 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제2 특징 맵에 대해 상기 역방향 처리를 진행하여, 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제3 특징 맵을 얻는 단계 각 제3 특징 맵을 이용하여 식별된 키 포인트를 결정하는 단계 제2 손실 함수에 따라 식별된 각 키 포인트의 제2 손실 값을 얻는 단계 상기 제2 손실 값을 이용하여 훈련 횟수가 설정된 제2 횟수 임계치에 도달할 때까지 상기 제2 피라미드 신경망 중 컨볼루션 커널을 역방향으로 조절하는 단계 또는 상기 제2 손실 값을 이용하여 훈련 횟수가 설정된 제2 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중 컨볼루션 커널 및 제2 피라미드 신경망 중 컨볼루션 커널을 역방향으로 조절하는 단계를 포함한다.
일부 가능한 실시형태에서, 상기 키 포인트 검출 모듈은 또한 특징 추출 네트워크를 통해 각 상기 제3 특징 맵에 대한 특징 융합 처리를 수행하며, 특징 추출 네트워크를 통해 각 상기 제3 특징 맵에 대한 특징 융합 처리를 수행하기 전에, 훈련 이미지 데이터 세트를 이용하여 상기 특징 추출 네트워크를 훈련시키도록 구성되며, 상기 훈련 이미지 데이터 세트를 이용하여 상기 특징 추출 네트워크를 훈련시키는 단계는, 특징 추출 네트워크를 이용하여 상기 제2 피라미드 신경망에 의해 출력된, 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제3 특징 맵에 대해 상기 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 훈련 이미지 데이터 세트 중 각 이미지의 키 포인트를 식별하는 단계 제3 손실 함수에 따라 각 키 포인트의 제3 손실 값을 얻는 단계 상기 제3 손실 값을 이용하여 훈련 횟수가 설정된 제3 횟수 임계치에 도달할 때까지 상기 특징 추출 네트워크의 파라미터를 역방향으로 조절하는 단계 또는, 상기 제3 손실 함수를 이용하여 훈련 횟수가 설정된 제3 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중 컨볼루션 커널 파라미터, 제2 피라미드 신경망 중 컨볼루션 커널 파라미터 및 상기 특징 추출 네트워크의 파라미터를 역방향으로 조절하는 단계를 포함한다.
본 발명의 실시예의 제3측면에 따르면, 전자 기기를 제공하며, 상기 전자 기기는, 프로세서 및 프로세서에서 실행 가능한 명령어를 저장하는 메모리를 포함하되 상기 프로세서는 제1 측면 중 어느 한 항에 따른 방법을 수행하도록 구성된다.
본 발명의 실시예의 제4 측면에 따르면, 프로세서에 의해 실행될 때 제1 측면 중 어느 한 항에 따른 방법을 구현하는 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능한 저장 매체를 제공한다.
본 발명의 실시예는 양방향 피라미드 신경망을 이용하여 키 포인트 특징 검출을 수행하는 방법을 제공하며, 순방향 처리의 방식을 이용하여 멀티 스케일 특징을 얻을 뿐만아니라 역방향 처리를 이용하여 더 많은 특징을 융합함으로써, 키 포인트의 검출 정확도를 더 향상시킬 수 있다.
이해할 것은, 전술한 일반적인 설명과 후술되는 세부 설명은 단지 예시적이고 해석적인 것이지 본 발명을 한정하는 것은 아니다.
본 발명의 다른 특징 및 측면은 이하 도면에서 예시적인 실시예에 대한 상세한 설명에 따라 보다 명확하게 설명될 수 있다.
여기서 도면은 명세서에 포함되어 본 명세서의 일부를 구성하며, 이러한 도면은 본 발명에 부합하는 실시예를 도시하며, 명세서와 함께 본 발명의 기술적 방안을 설명한다.
도 1은 본 발명의 실시예에 따른 키 포인트 검출 방법의 흐름도를 도시한다.
도 2는 본 발명의 실시예에 따른 키 포인트 검출 방법 중 단계 S100의 흐름도를 도시한다.
도 3은 본 발명의 실시예에 따른 키 포인트 검출 방법의 다른 흐름도를 도시한다.
도 4는 본 발명의 실시예에 따른 키 포인트 검출 방법 중 단계 S200의 흐름도를 도시한다.
도 5는 본 발명의 실시예에 따른 키 포인트 검출 방법 중 단계 S300의 흐름도를 도시한다.
도 6은 본 발명의 실시예에 따른 키 포인트 검출 방법 중 단계 S400의 흐름도를 도시한다.
도 7은 본 발명의 실시예에 따른 키 포인트 검출 방법 중 단계 S401의 흐름도를 도시한다.
도 8은 본 발명의 실시예에 따른 키 포인트 검출 방법의 다른 흐름도를 도시한다.
도 9는 본 발명의 실시예에 따른 키 포인트 검출 방법 중 단계 S402의 흐름도를 도시한다.
도 10은 본 발명의 실시예에 따른 키 포인트 검출 방법 중 제1 피라미드 신경망을 훈련시키는 흐름도를 도시한다.
도 11은 본 발명의 실시예에 따른 키 포인트 검출 방법 중 제2 피라미드 신경망을 훈련시키는 흐름도를 도시한다.
도 12는 본 발명의 실시예에 따른 키 포인트 검출 방법 중 특징 추출 네트워크 모델을 훈련시키는 흐름도를 도시한다.
도 13은 본 발명의 실시예에 따른 키 포인트 검출 장치의 블록도를 도시한다.
도 14는 본 발명의 실시예에 따른 전자 기기(800)의 블록도를 도시한다.
도 15는 본 발명의 실시예에 따른 전자 기기(1900)의 블록도를 도시한다.
이하 도면을 참조하여 본 발명의 다양한 실시예, 특징 및 측면을 상세히 설명한다. 도면에서 동일한 부호는 기능이 동일하거나 유사한 요소를 나타낸다. 도면에서 실시예의 다양한 측면을 도시하였으나 특별히 언급되지 않는 한 도면을 비례적으로 그릴 필요는 없다.
여기서 "예시적인"이라는 특수 단어는 "예, 실시예 또는 설명으로 사용됨”을 의미한다. 여기서 ‘예시적’으로 설명된 실시예는 반드시 다른 실시예보다 우수하거나 더 나은 것으로 해석되는 것은 아니다.
본 명세서에서 용어 "및/또는”은 관련된 대상의 연관 관계를 설명할 뿐이며, 3 가지 관계가 존재할 수 있음을 나타낸다. 예를 들어, A 및/또는 B는 A가 단독으로 존재, A와 B가 동시에 존재, B가 단독으로 존재하는 이 3 가지 경우를 나타낼 수 있다. 또한, 본 명세서에서 "적어도 하나”는 복수의 요소 중 어느 하나 또는 복수의 요 중 적어도 두 개의 임의의 조합을 나타낸다. 예를 들어, A, B, C 중 적어도 하나를 포함한다는 것은 A, B, C로 구성된 세트로부터 선택된 임의의 하나 또는 복수 개의 요소를 포함하는 것을 나타낼 수 있다.
또한, 본 발명의 실시예를 더 잘 설명하기 위하여, 아래의 구체적인 실시형태에서 많은 구체적인 세부사항을 제공한다. 통상의 기술자는 일부 구체적인 세부사항이 없어도 본 발명의 실시예를 실시할 수 있음을 이해해야 한다. 일부 실예에서, 통상의 기술자에게 잘 알려진 방법, 수단, 요소 및 회로는 본 발명의 실시예의 주제를 강조하기 위해 상세하게 설명되지 않는다.
본 발명의 실시예는 키 포인트 검출 방법을 제공하며, 상기 방법은 인체 이미지의 키 포인트 검출을 수행하는데 사용될 수 있으며, 이는 두 개의 피라미드 네트워크 모델을 이용하여 키 포인트의 멀티 스케일 특징의 순방향 처리 및 역방향 처리를 각각 수행하고 더 많은 특징 정보를 융합하여, 키 포인트 위치 검출의 정확도를 향상시킬 수 있다.
도 1은 본 발명의 실시예에 따른 키 포인트 검출 방법의 흐름도를 도시한다. 본 발명의 실시예에 따른 키 포인트 검출 방법은 아래의 단계를 포함할 수 있다.
단계 S100에 있어서, 입력 이미지에 대한 복수 개의 스케일의 제1 특징 맵을 획득하고, 각 제1 특징 맵의 스케일은 다중 관계를 갖는다.
본 발명의 실시예는 입력 이미지의 멀티 스케일 특징의 융합 방식을 적용하여 전술한 키 포인트의 검출을 수행한다. 먼저, 입력 이미지에 대한 복수 개의 스케일의 제1 특징 맵을 획득할 수 있으며, 각 제1 특징 맵의 스케일은 서로 상이하고, 각 스케일 사이에는 다중 관계가 존재한다. 본 발명의 실시예는 멀티 스케일 분석 알고리즘을 이용하여 입력 이미지에 대한 복수 개의 스케일의 제1 특징 맵을 얻을 수도 있고, 멀티 스케일 분석을 수행할 수 있는 신경망 모델을 통해 입력 이미지에 대한 복수 개의 스케일의 제1 특징 맵을 획득할 수도 있으며, 본 발명의 실시예는 구체적으로 한정하지 않는다.
단계 S200에 있어서, 제1 피라미드 신경망을 이용하여 각 상기 제1 특징 맵에 대해 순방향 처리를 진행하여 상기 제1 특징 맵 각각에 일대일로 대응하는 제2 특징 맵을 얻으며, 상기 제2 특징 맵과, 상기 제2 특징 맵에 일대일로 대응하는 상기 제1 특징 맵의 스케일은 동일하다.
본 실시예에서, 순방향 처리는 제1 컨볼루션 처리 및 제1 선형 보간 처리를 포함할 수 있으며, 제1 피라미드 신경망의 순방향 처리 과정을 통해 대응하는 제1 특징 맵과 스케일이 동일한 제2 특징 맵을 얻을 수 있다. 각 제2 특징 맵은 입력 이미지의 각 특징을 더 융합하며, 얻어진 제2 특징 맵과 제1 특징 맵의 개수는 동일하며, 제2 특징 맵 및 대응하는 제1 특징 맵의 스케일은 동일하다. 예를 들어, 본 발명의 실시예에서 얻어진 제1 특징 맵은 C1, C2, C3 및 C4일 수 있고, 대응하는 순방향 처리를 거쳐 얻어진 제2 특징 맵은 F1, F2, F3 및 F4일 수 있다. 제1 특징 맵 C1 내지 C4의 스케일 관계가 C1의 스케일이 C2의 스케일의 2 배이고, C2의 스케일이 C3의 스케일의 2 배이며, C3의 스케일이 C4의 2 배인 경우, 얻어진 제2 특징 맵 F1 내지 F4에서 F1과 C1의 스케일은 동일하고, F2와 C2의 스케일은 동일하며, F3과 C3의 스케일은 동일하고, F4와 C4의 스케일은 동일하며, 제2 특징 맵 F1의 스케일은 F2의 스케일의 2 배이고, F2의 스케일은 F3의 스케일의 2 배이며, F3의 스케일은 F4의 2 배이다. 전술한 것은 단지 제1 특징 맵의 순방향 처리를 거쳐 얻어진 제2 특징 맵의 예시적인 설명이며, 본 발명의 구체적인 한정이 아니다.
단계 S300에 있어서, 제2 피라미드 신경망을 이용하여 각 제2 특징 맵에 대해 역방향 처리를 진행하여 상기 제2 특징 맵 각각에 일대일로 대응하는 제3 특징 맵을 얻으며, 상기 역방향 처리는 제2 컨볼루션 처리를 포함하고, 상기 제3 특징 맵과, 상기 제3 특징 맵에 일대일로 대응하는 상기 제2 특징 맵의 스케일은 동일하다.
본 실시예에서, 역방향 처리는 제2 컨볼루션 처리 및 제2 선형 보간 처리를 포함하며, 제2 피라미드 신경망의 역방향 처리 과정을 통해 대응하는 제2 특징 맵과 스케일이 동일한 제3 특징 맵을 얻을 수 있다. 각 제3 특징 맵은 제2 특징 맵에 비해 입력 이미지의 특징을 더 융합하며, 얻어진 제3 특징 맵과 제2 특징 맵의 개수는 동일하며, 제3 특징 맵 및 대응하는 제2 특징 맵의 스케일은 동일하다. 예를 들어, 본 발명의 실시예에서 얻어진 제2 특징 맵은 F1, F2, F3 및 F4일 수 있고, 대응하는 역방향 처리를 거쳐 얻어진 제3 특징 맵은 R1, R2, R3 및 R4일 수 있다. 제2 특징 맵 F1, F2, F3 및 F4의 스케일 관계가 F1의 스케일이 F2의 스케일의 2 배이고, F2의 스케일이 F3의 스케일의 2 배이며, F3의 스케일이 F4의 2 배인 경우, 얻어진 제3 특징 맵 R1 내지 R4에서 R1과 F1의 스케일은 동일하고, R2와 F2의 스케일은 동일하며, R3과 F3의 스케일은 동일하고, R4와 F4의 스케일은 동일하며, 제3 특징 맵 R1의 스케일은 R2의 스케일의 2 배이고, R2의 스케일은 R3의 스케일의 2 배이며, R3의 스케일은 R4의 2 배이다. 전술한 것은 단지 제2 특징 맵이 역방향 처리를 거쳐 얻어진 제3 특징 맵의 예시적인 설명이며, 본 발명의 구체적인 한정이 아니다.
단계 S400에 있어서, 각 상기 제3 특징 맵에 대해 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 입력 이미지 중의 각 키 포인트의 위치를 획득한다.
본 발명의 실시예에서, 각 제1 특징 맵에 대해 순방향 처리를 진행하여 제2 특징 맵을 얻고, 제2 특징 맵의 역방향 처리에 의해 제3 특징 맵을 얻으면, 각 제3 특징 맵의 특징 융합 처리를 수행할 수 있다. 예를 들어, 본 발명의 실시예는 대응하는 컨볼루션 처리의 방식을 이용하여 각 제3 특징 맵의 특징 융합을 구현할 수 있으며, 제3 특징 맵의 스케일이 상이한 경우 스케일의 전환을 수행한 후 특징 맵의 스플라이싱 및 키 포인트의 추출을 수행할 수 있다.
본 발명의 실시예는 입력 이미지의 상이한 키 포인트에 대한 검출을 수행할 수 있다. 예를 들어, 입력 이미지가 인물 이미지인 경우, 키 포인트는 좌우 눈, 코, 좌우 귀, 좌우 어깨, 좌우 팔꿈치, 좌우 손목, 좌우 사타구니, 좌우 무릎, 좌우 발목 중 적어도 하나일 수 있다. 또는, 다른 실시예에서, 입력 이미지는 다른 유형의 이미지일 수도 있으며, 키 포인트 검출을 수행할 때, 다른 키 포인트를 식별할 수 있다. 따라서, 본 발명의 실시예는 제3 특징 맵의 특징 융합 결과에 따라, 키 포인트의 검출 식별을 더 수행할 수 있다.
전술한 구성에 기반하여, 본 발명의 실시예는 양방향 피라미드 신경망(제1 피라미드 신경망 및 제2 피라미드 신경망)을 통해 각각 제1 특징 맵에 기반하여 순방향 처리 및 추가 역방향 처리를 수행할 수 있으며, 입력 이미지의 특징 융합도를 효과적으로 향상하고, 나아가 키 포인트의 검출 정확도를 향상시킬 수 있다. 전술한 바와 같이, 본 발명의 실시예는 먼저 입력 이미지를 획득할 수 있다. 상기 입력 이미지는 임의의 이미지 유형일 수 있다. 예를 들어, 인물 이미지, 풍경 이미지, 동물 이미지 등일 수 있다. 상이한 유형의 이미지에 대해, 상이한 키 포인트를 식별할 수 있다. 예를 들어, 본 발명의 실시예는 인물 이미지를 예로 설명한다. 먼저, 단계 S100을 통해 입력 이미지가 복수 개의 상이한 스케일에서의 제1 특징 맵을 획득할 수 있다. 도 2는 본 발명의 실시예에 따른 키 포인트 검출 방법 중 단계 S100의 흐름도를 도시한다. 입력 이미지의 상이한 스케일에 대한 제1 특징 맵을 획득하는 단계(단계 S100)는 아래의 단계를 포함할 수 있다.
단계 S101에 있어서, 상기 입력 이미지를 기설정된 규격의 제1 이미지로 조절한다.
본 발명의 실시예는 먼저 입력 이미지의 사이즈 규격을 정규화할 수 있다. 즉, 먼저 입력 이미지를 기설정된 규격의 제1 이미지로 조절한다. 본 발명의 실시예에서, 기설정된 규격은 256pix*192pix일 수 있으며, pix는 픽셀 값이다. 다른 실시예에서, 입력 이미지를 다른 규격의 이미지로 통일적으로 전환할 수 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다.
단계 S102에 있어서, 상기 제1 이미지를 잔차 신경망에 입력하고, 제1 이미지에 대해 상이한 샘플링 주파수의 다운 샘플링 처리를 수행하여 상이한 스케일의 제1 특징 맵을 얻는다.
기설정된 규격의 제1 이미지를 얻은 후, 상기 제1 이미지에 대해 복수 개의 샘플링 주파수의 샘플링 처리를 수행할 수 있다. 예를 들어, 본 발명의 실시예는 제1 이미지를 잔차 신경망에 입력하는 것을 통해, 잔차 신경망을 통해 제1 이미지의 상이한 스케일에 대한 제1 특징 맵을 처리하여 얻을 수 있다. 상이한 스케일의 제1 특징 맵은 상이한 샘플링 주파수를 이용하여 제1 이미지에 대해 다운 샘플링 처리를 진행하여 얻어질 수 있다. 본 발명의 실시예의 샘플링 주파수는 1/8, 1/16, 1/32 등일 수 있으나, 본 발명의 실시예는 이에 대해 한정하지 않는다. 또한, 본 발명의 실시예 중의 특징 맵은 이미지의 특징 매트릭스를 가리킨다. 예를 들어, 본 발명의 실시예의 특징 매트릭스는 3 차원 매트릭스일 수 있다. 본 발명의 실시예에 따른 특징 맵의 길이 및 폭은 각각 대응하는 특징 매트릭스의 행 방향 및 열 방향에서의 차원일 수 있다.
단계 S100의 처리를 거친 후 입력 이미지의 복수 개의 상이한 스케일의 제1 특징 맵이 얻어진다. 또한, 다운 샘플링의 샘플링 주파수를 제어하여 각 제1 특징 맵 간의 스케일의 관계가
Figure 112020044358628-pct00083
Figure 112020044358628-pct00084
로 되게 할 수 있다. 여기서,
Figure 112020044358628-pct00085
는 각 제1 특징 맵을 나타내며,
Figure 112020044358628-pct00086
는 제1 특징 맵
Figure 112020044358628-pct00087
의 길이를 나타내며,
Figure 112020044358628-pct00088
는 제1 특징 맵
Figure 112020044358628-pct00089
의 폭을 나타내며,
Figure 112020044358628-pct00090
은 1보다 크거나 같은 정수이며, i는 변수이며, i의 범위는 [2, n]이며, n은 제1 특징 맵의 개수이다. 즉, 본 발명의 실시예 중 각 제1 특징 맵의 길이 및 폭 간의 관계는 모두 2의 k1 제곱 배이다.
도 3은 본 발명의 실시예에 따른 키 포인트 검출 방법의 다른 흐름도를 도시한다. (a) 부분은 본 발명의 실시예의 단계 S100의 과정을 도시하며, 단계 S100을 통해 4 개의 제1 특징 맵 C1, C2, C3 및 C4를 획득할 수 있다. 제1 특징 맵
Figure 112020044358628-pct00091
의 길이 및 폭이 각각 대응하는 것은 제1 특징 맵
Figure 112020044358628-pct00092
의 길이 및 폭의 2 배일 수 있고, 제2 특징 맵
Figure 112020044358628-pct00093
의 길이 및 폭이 각각 대응하는 것은 제3 특징 맵
Figure 112020044358628-pct00094
의 길이 및 폭의 2 배일 수 있으며, 제3 특징 맵
Figure 112020044358628-pct00095
의 길이 및 폭이 각각 대응하는 것은 제4 특징 맵
Figure 112020044358628-pct00096
의 길이 및 폭의 2 배일 수 있다. 본 발명의 실시예의 전술한 C1과 C2사이,
Figure 112020044358628-pct00097
Figure 112020044358628-pct00098
사이, 및
Figure 112020044358628-pct00099
Figure 112020044358628-pct00100
사이의 스케일 배수는 모두 동일할 수 있다. 예를 들어, k1의 값은 1이다. 다른 실시예에서, k1은 상이한 값일 수 있다. 예를 들어, 제1 특징 맵
Figure 112020044358628-pct00101
의 길이 및 폭이 각각 대응하는 것은 제1 특징 맵
Figure 112020044358628-pct00102
의 길이 및 폭의 2 배일 수 있고, 제2 특징 맵
Figure 112020044358628-pct00103
의 길이 및 폭이 각각 대응하는 것은 제3 특징 맵
Figure 112020044358628-pct00104
의 길이 및 폭의 4 배일 수 있으며, 제3 특징 맵
Figure 112020044358628-pct00105
의 길이 및 폭이 각각 대응하는 것은 제4 특징 맵
Figure 112020044358628-pct00106
의 길이 및 폭의 8 배일 수 있다. 그러나, 본 발명의 실시예는 이에 대해 한정하지 않는다.
입력 이미지의 상이한 스케일의 제1 특징 맵을 획득한 후, 단계 S200을 통해 제1 특징 맵의 순방향 처리 과정을 수행하여, 각 제1 특징 맵의 특징이 융합된 복수 개의 상이한 스케일의 제2 특징 맵을 얻을 수 있다.
도 4는 본 발명의 실시예에 따른 키 포인트 검출 방법 중 단계 S200의 흐름도를 도시한다. 상기 제1 피라미드 신경망을 이용하여 각 상기 제1 특징 맵에 대해 순방향 처리를 진행하여 상기 제1 특징 맵 각각에 일대일로 대응하는 제2 특징 맵을 얻는 단계(단계 S200)는 아래의 단계를 포함한다.
단계 S201에 있어서, 제1 컨볼루션 커널을 이용하여 제1 특징 맵
Figure 112020044358628-pct00107
중의 제1 특징 맵
Figure 112020044358628-pct00108
에 대해 컨볼루션 처리를 진행하여, 제1 특징 맵
Figure 112020044358628-pct00109
에 대응하는 제2 특징 맵
Figure 112020044358628-pct00110
을 획득하며, n은 제1 특징 맵의 개수를 나타내고, n은 1보다 큰 정수이며, 제1 특징 맵
Figure 112020044358628-pct00111
의 길이 및 폭은 각각 제2 특징 맵
Figure 112020044358628-pct00112
의 길이 및 폭과 대응하여 동일하다.
본 발명의 실시예 중 제1 피라미드 신경망에 의해 수행되는 순방향 처리는 제1 컨볼루션 처리 및 제1 선형 보간 처리를 포함할 수도 있고 다른 처리 과정을 포함할 수도 있으며 본 발명의 실시예는 이에 대해 한정하지 않는다.
가능한 실시형태에서, 본 발명의 실시예에서 획득된 제1 특징 맵은
Figure 112020044358628-pct00113
, 즉 n 개의 제1 특징 맵일 수 있으며,
Figure 112020044358628-pct00114
은 길이 및 폭이 제일 작은 특징 맵, 즉 스케일이 제일 작은 제1 특징 맵일 수 있다. 먼저, 제1 피라미드 신경망을 이용하여 제1 특징 맵
Figure 112020044358628-pct00115
에 대해 컨볼루션 처리를 진행할 수 있다. 즉, 제1 컨볼루션 커널을 이용하여 제1 특징 맵
Figure 112020044358628-pct00116
에 대해 컨볼루션 처리를 진행하여 제2 특징 맵
Figure 112020044358628-pct00117
을 얻는다. 상기 제2 특징 맵
Figure 112020044358628-pct00118
의 길이 및 폭은 각각 제1 특징 맵
Figure 112020044358628-pct00119
의 길이 및 폭과 동일하다. 제1 컨볼루션 커널은 3*3의 컨볼루션 커널일 수도 있고 다른 유형의 컨볼루션 커널일 수도 있다.
상기 S202에 있어서, 상기 제2 특징 맵
Figure 112020044358628-pct00120
에 대해 선형 보간 처리를 수행하여 제2 특징 맵
Figure 112020044358628-pct00121
에 대응하는 제1 중간 특징 맵
Figure 112020044358628-pct00122
을 획득하며, 제1 중간 특징 맵
Figure 112020044358628-pct00123
의 스케일은 제1 특징 맵 Cn-1의 스케일과 동일하다.
제2 특징 맵
Figure 112020044358628-pct00124
을 얻은 후, 상기 제2 특징 맵
Figure 112020044358628-pct00125
을 이용하여 이에 대응하는 제1 중간 특징 맵
Figure 112020044358628-pct00126
을 획득할 수 있다. 본 발명의 실시예는 제2 특징 맵
Figure 112020044358628-pct00127
에 대해 선형 보간 처리를 수행하여 제2 특징 맵
Figure 112020044358628-pct00128
에 대응하는 제1 중간 특징 맵
Figure 112020044358628-pct00129
을 획득할 수 있다. 제1 중간 특징 맵
Figure 112020044358628-pct00130
의 스케일은 제1 특징 맵 Cn-1의 스케일과 동일하다. 예를 들어, Cn-1의 스케일이 Cn의 스케일의 2 배인 경우, 제1 중간 특징 맵
Figure 112020044358628-pct00131
의 길이는 제2 특징 맵
Figure 112020044358628-pct00132
의 길이의 2 배이며, 제1 중간 특징 맵
Figure 112020044358628-pct00133
의 폭은 제2 특징 맵
Figure 112020044358628-pct00134
의 폭의 2 배이다.
단계 S203에 있어서, 제2 컨볼루션 커널을 이용하여 제1 특징 맵
Figure 112020044358628-pct00135
이외의 각 제1 특징 맵
Figure 112020044358628-pct00136
에 대해 컨볼루션 처리를 진행하여, 각각 제1 특징 맵
Figure 112020044358628-pct00137
이외의 각 제1 특징 맵
Figure 112020044358628-pct00138
에 일대일로 대응하는 제2 중간 특징 맵
Figure 112020044358628-pct00139
을 얻으며, 상기 제2 중간 특징 맵의 스케일은 이에 일대일로 대응하는 제1 특징 맵의 스케일과 동일하다.
동시에, 본 발명의 실시예는 제1 특징 맵
Figure 112020044358628-pct00140
이외의 각 제1 특징 맵
Figure 112020044358628-pct00141
에 대응하는 제2 중간 특징 맵
Figure 112020044358628-pct00142
을 획득할 수 있다. 제2 컨볼루션 커널을 이용하여 제1 특징 맵
Figure 112020044358628-pct00143
에 대해 각각 제2 컨볼루션 처리를 진행하여 각 제1 특징 맵
Figure 112020044358628-pct00144
에 일대일로 대응하는 제2 중간 특징 맵
Figure 112020044358628-pct00145
을 각각 얻을 수 있으며, 제2 컨볼루션 커널은 1*1의 컨볼루션 커널일 수 있으나, 본 발명은 이에 대해 구체적으로 한정하지 않는다. 제2 컨볼루션 처리를 통해 얻어진 각 제2 중간 특징 맵의 스케일은 대응하는 제1 특징 맵의 스케일과 각각 동일하다. 본 발명의 실시예는 제1 특징 맵
Figure 112020044358628-pct00146
의 역순에 따라 각 제1 특징 맵
Figure 112020044358628-pct00147
의 제2 중간 특징 맵
Figure 112020044358628-pct00148
을 획득할 수 있다. 즉, 먼저 제1 특징 맵
Figure 112020044358628-pct00149
에 대응하는 제2 중간 특징 맵
Figure 112020044358628-pct00150
을 획득한 후, 제1 특징 맵
Figure 112020044358628-pct00151
에 대응하는 제2 중간 특징 맵
Figure 112020044358628-pct00152
을 획득하며, 제1 특징 맵
Figure 112020044358628-pct00153
에 대응하는 제2 중간 특징 맵
Figure 112020044358628-pct00154
을 획득할 때까지 계속된다.
단계 S204에 있어서, 상기 제2 특징 맵
Figure 112020044358628-pct00155
및 각 상기 제2 중간 특징 맵
Figure 112020044358628-pct00156
에 기반하여, 제2 특징 맵
Figure 112020044358628-pct00157
및 제1 중간 특징 맵
Figure 112020044358628-pct00158
을 얻으며, 제2 특징 맵
Figure 112020044358628-pct00159
(제2 특징 맵
Figure 112020044358628-pct00160
로 표시할 수 있음)은 제1 특징 맵
Figure 112020044358628-pct00161
이외의 각 제1 특징 맵
Figure 112020044358628-pct00162
에 대응하는 제2 특징 맵이다. 제1 중간 특징 맵
Figure 112020044358628-pct00163
은 각 제2 특징 맵
Figure 112020044358628-pct00164
에 대응하는 제1 중간 특징 맵이며 여기서, 제1 특징 맵
Figure 112020044358628-pct00165
중의 제1 특징 맵
Figure 112020044358628-pct00166
에 대응하는 제2 특징 맵
Figure 112020044358628-pct00167
는 제2 중간 특징 맵
Figure 112020044358628-pct00168
와 제1 중간 특징 맵
Figure 112020044358628-pct00169
의 중첩 처리(합산 처리)를 통해 얻어지고, 제1 중간 특징 맵
Figure 112020044358628-pct00170
는 대응하는 제2 특징 맵
Figure 112020044358628-pct00171
가 선형 보간에 의해 얻어지며, 상기 제2 중간 특징 맵
Figure 112020044358628-pct00172
와 제1 중간 특징 맵
Figure 112020044358628-pct00173
의 스케일은 동일하며, 여기서, i는 1보다 크거나 같고 n보다 작은 정수이다.
또한, 각 제2 중간 특징 맵을 획득하는 동시에, 또는 각 제2 중간 특징 맵을 획득한 후, 이에 대응하여, 제1 중간 특징 맵
Figure 112020044358628-pct00174
이외의 다른 제1 중간 특징 맵
Figure 112020044358628-pct00175
을 더 획득할 수 있다. 본 발명의 실시예에서, 제1 특징 맵
Figure 112020044358628-pct00176
중 제1 특징 맵
Figure 112020044358628-pct00177
에 대응하는 제2 특징 맵은
Figure 112020044358628-pct00178
이다. 제2 중간 특징 맵
Figure 112020044358628-pct00179
의 스케일(길이 및 폭)은 각각 제1 중간 특징 맵
Figure 112020044358628-pct00180
의 스케일(길이 및 폭)과 동일하고, 제2 중간 특징 맵
Figure 112020044358628-pct00181
의 길이 및 폭은 제1 특징 맵 Ci의 길이 및 폭과 동일하다. 따라서, 얻어진 제2 특징 맵
Figure 112020044358628-pct00182
의 길이 및 폭은 각각 제1 특징 맵 Ci의 길이 및 폭이다. i는 1보다 크거나 같고 n보다 작은 정수이다.
구체적으로, 본 발명의 실시예는 여전히 역순의 처리 방식을 적용하여 제2 특징 맵 Fn 이외의 각 제2 특징 맵
Figure 112020044358628-pct00183
를 획득할 수 있다. 즉, 본 발명의 실시예는 먼저 제1 중간 특징 맵
Figure 112020044358628-pct00184
을 획득할 수 있으며, 여기서, 제1 특징 맵
Figure 112020044358628-pct00185
에 대응하는 제2 중간 맵
Figure 112020044358628-pct00186
을 이용하여 제1 중간 특징 맵
Figure 112020044358628-pct00187
과 중첩 처리를 진행하여 제2 특징 맵 Fn-1을 얻을 수 있으며, 여기서, 제2 중간 특징 맵
Figure 112020044358628-pct00188
의 길이 및 폭은 각각 제1 중간 특징 맵
Figure 112020044358628-pct00189
의 길이 및 폭과 동일하고, 제2 특징 맵 Fn-1의 길이 및 폭은 제2 중간 특징 맵
Figure 112020044358628-pct00190
Figure 112020044358628-pct00191
의 길이 및 폭이다. 이때, 제2 특징 맵 Fn-1의 길이 및 폭은 각각 제2 특징 맵 Fn의 길이 및 폭의 2 배이다(Cn-1의 스케일은 Cn의 스케일의 2 배임). 또한, 제2 특징 맵 Fn-1에 대해 선형 보간 처리를 진행하여 제1 중간 특징 맵
Figure 112020044358628-pct00192
을 얻어
Figure 112020044358628-pct00193
의 스케일이 Cn-1의 스케일과 동일하도록 할 수 있으며, 계속하여, 제1 특징 맵
Figure 112020044358628-pct00194
에 대응하는 제2 중간 맵
Figure 112020044358628-pct00195
을 이용하여 제1 중간 특징 맵
Figure 112020044358628-pct00196
과 중첩 처리를 진행하여 제2 특징 맵 Fn-2을 얻을 수 있으며, 여기서, 제2 중간 특징 맵
Figure 112020044358628-pct00197
의 길이 및 폭은 각각 제1 중간 특징 맵
Figure 112020044358628-pct00198
의 길이 및 폭과 동일하고, 제2 특징 맵 Fn-2의 길이 및 폭은 제2 중간 특징 맵
Figure 112020044358628-pct00199
Figure 112020044358628-pct00200
의 길이 및 폭이다. 예를 들어, 제2 특징 맵 Fn-2의 길이 및 폭은 각각 제2 특징 맵 Fn-1의 길이 및 폭의 2 배이다. 이와 같이 유추하여, 최종적으로 제1 중간 특징 맵
Figure 112020044358628-pct00201
를 획득할 수 있으며, 상기 제1 중간 특징 맵
Figure 112020044358628-pct00202
와 제1 특징 맵
Figure 112020044358628-pct00203
의 중첩 처리에 의해 제2 특징 맵 F1을 얻으며, F1의 길이 및 폭은 각각 C1의 길이 및 폭과 같다. 따라서, 각 제2 특징 맵을 얻으며,
Figure 112020044358628-pct00204
Figure 112020044358628-pct00205
를 만족하고,
Figure 112020044358628-pct00206
,
Figure 112020044358628-pct00207
이다.
예를 들어, 전술한4 개의 제1 특징 맵 C1, C2, C3 및 C4를 예로 설명한다. 도 3에 도시된 바와 같이, 단계 S200은 제1 피라미드 신경망(Feature Pyramid Network, FPN)을 사용하여 멀티 스케일의 제2 특징 맵을 획득할 수 있다. 여기서, 먼저 C4를 하나의 3*3의 제1 컨볼루션 커널을 거쳐 하나의 신규 특징 맵 F4(제2 특징 맵)를 산출하며, F4의 길이 및 폭의 크기는 C4와 동일하다. F4에 대해 양선형 보간의 업 샘플(upsample) 조작을 진행하여 하나의 길이 및 폭이 모두 2 배 확대된 특징 맵, 즉 제1 중간 특징 맵
Figure 112020044358628-pct00208
를 얻는다. C3은 하나의 1*1의 제2 컨볼루션 커널을 거쳐 하나의 제2 중간 특징 맵
Figure 112020044358628-pct00209
을 얻으며,
Figure 112020044358628-pct00210
Figure 112020044358628-pct00211
의 크기는 동일하며, 두 개의 특징 맵을 더하여 신규 특징 맵 F3(제2 특징 맵)을 얻어, 제2 특징 맵 F3의 길이 및 폭이 각각 제2 특징 맵 F4의 2 배로 되도록 한다. F3에 대해 양선형 보간의 업 샘플(upsample) 조작을 진행하여 하나의 길이 및 폭이 모두 2 배 확대된 특징 맵, 즉 제1 중간 특징 맵
Figure 112020044358628-pct00212
를 얻는다. C2는 하나의 1*1의 제2 컨볼루션 커널을 거쳐 하나의 제2 중간 특징 맵
Figure 112020044358628-pct00213
을 얻으며,
Figure 112020044358628-pct00214
Figure 112020044358628-pct00215
의 크기는 동일하며, 두 개의 특징 맵을 더하여 신규 특징 맵 F2(제2 특징 맵)을 얻어, 제2 특징 맵 F2의 길이 및 폭이 각각 제2 특징 맵 F3의 2 배로 되도록 한다. F2에 대해 양선형 보간의 업 샘플(upsample) 조작을 진행하여 하나의 길이 및 폭이 모두 2 배 확대된 특징 맵, 즉 제1 중간 특징 맵
Figure 112020044358628-pct00216
를 얻는다. C1은 하나의 1*1의 제2 컨볼루션 커널을 거쳐 하나의 제1 중간 특징 맵
Figure 112020044358628-pct00217
을 얻으며,
Figure 112020044358628-pct00218
Figure 112020044358628-pct00219
의 크기는 동일하며, 두 개의 특징 맵을 더하여 신규 특징 맵 F2(제2 특징 맵)을 얻어, 제2 특징 맵 F2의 길이 및 폭이 각각 제2 특징 맵 F2의 2 배가 되도록 한다. FPN을 거친 후, 마찬가지로 4 개의 상이한 스케일의 제2 특징 맵을 얻으며, 각각 F1, F2, F3 및 F4로 표시한다. 또한, F1과 F2 간의 길이 및 폭의 배수는 C1과 C2 간의 길이 및 폭의 배수와 동일하고, F2와 F3 간의 길이 및 폭의 배수는 C2와 C3 간의 길이 및 폭의 배수와 동일하며, F3과 F4 간의 길이 및 폭의 배수는 C3과 C4 간의 길이 및 폭의 배수와 동일하다.
전술한 피라미드 네트워크 모델의 순방향 처리를 거친 후, 각 제2 특징 맵에 더 많은 특징이 융합되도록 할 수 있다. 특징의 추출 정확도를 더 향상하기 위하여, 본 발명의 실시예는 단계 S200 후, 또한 제2 피라미드 신경망을 이용하여 각 제2 특징 맵에 대해 역방향 처리를 수행한다. 여기서, 역방향 처리는 제2 컨볼루션 처리 및 제2 선형 보간 처리를 포함할 수 있으며, 마찬가지로 다른 처리를 포함할 수도 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다.
도 5는 본 발명의 실시예에 따른 키 포인트 검출 방법 중 단계 S300의 흐름도를 도시한다. 여기서, 상기 제2 피라미드 신경망을 이용하여 각 제2 특징 맵에 대해 역방향 처리를 진행하여 상이한 스케일의 제3 특징 맵
Figure 112020044358628-pct00220
를 얻는 단계(단계 S300)는 아래의 단계를 포함할 수 있다.
단계 S301에 있어서, 제3 컨볼루션 커널을 이용하여
Figure 112020044358628-pct00221
중의 제2 특징 맵
Figure 112020044358628-pct00222
에 대해 컨볼루션 처리를 진행하여, 제2 특징 맵
Figure 112020044358628-pct00223
에 대응하는 제3 특징 맵
Figure 112020044358628-pct00224
을 획득하며, 제3 특징 맵
Figure 112020044358628-pct00225
의 길이 및 폭은 각각 제1 특징 맵
Figure 112020044358628-pct00226
의 길이 및 폭에 대응하여 동일하다. 여기서, m은 제2 특징 맵의 개수를 나타내고, m은 1보다 큰 정수이며, 이때 m과 제1 특징 맵의 개수 n은 동일하다.
역방향 처리의 과정에서, 먼저 길이 및 폭이 제일 큰 제2 특징 맵 F1로부터 역방향 처리를 진행할 수 있다. 예를 들어, 제3 컨볼루션 커널을 통해 상기 제2 특징 맵 F1에 대해 컨볼루션 처리를 진행하여, 길이 및 폭이 모두 F1과 동일한 제3 중간 특징 맵 R1을 얻을 수 있다. 제3 컨볼루션 커널은 3*3의 컨볼루션 커널일 수도 있고 다른 유형의 컨볼루션 커널일 수도 있다. 통상의 기술자는 상이한 요구에 따라 필요되는 컨볼루션 커널을 선택할 수 있다.
단계 S302에 있어서, 제4 컨볼루션 커널을 이용하여 제2 특징 맵
Figure 112020044358628-pct00227
에 대해 컨볼루션 처리를 진행하여, 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00228
을 각각 얻으며, 제3 중간 특징 맵의 스케일은 대응하는 제2 특징 맵의 스케일과 동일하다.
제3 특징 맵 R1을 얻은 후, 제4 컨볼루션 커널을 이용하여 제2 특징 맵 F1 이외의 각 제2 특징 맵
Figure 112020044358628-pct00229
에 대해 각각 컨볼루션 처리를 수행하여, 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00230
을 얻을 수 있다. 단계 S302에서, 제2 특징 맵 F1 이외의 제2 특징 맵
Figure 112020044358628-pct00231
은 제4 컨볼루션 커널을 통해 컨볼루션 처리를 수행할 수 있다. 먼저 F2에 대해 컨볼루션 처리를 진행하여 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00232
를 얻은 후, 계속하여 F3에 대해 컨볼루션 처리를 진행하여 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00233
을 얻을 수 있으며, 이와 같이 유추하여 제2 특징 맵 Fm에 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00234
을 얻는다. 본 발명의 실시예에서, 각 제3 중간 특징 맵
Figure 112020044358628-pct00235
의 길이 및 폭은 대응하는 제2 특징 맵
Figure 112020044358628-pct00236
의 길이 및 폭일 수 있다.
단계 S303에 있어서, 제5 컨볼루션 커널을 이용하여 제3 특징 맵
Figure 112020044358628-pct00237
에 대해 컨볼루션 처리를 진행하여 제3 특징 맵
Figure 112020044358628-pct00238
에 대응하는 제4 중간 특징 맵
Figure 112020044358628-pct00239
을 얻는다.
제3 특징 맵 R1을 얻은 후, 제4 컨볼루션 커널을 이용하여 제2 특징 맵 F1 이외의 각 제2 특징 맵
Figure 112020044358628-pct00240
에 대해 각각 컨볼루션 처리를 수행하여, 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00241
을 얻을 수 있다. 단계 S302에서, 제2 특징 맵 F1 이외의 제2 특징 맵
Figure 112020044358628-pct00242
은 제4 컨볼루션 커널을 통해 컨볼루션 처리를 수행할 수 있다. 먼저 F2에 대해 컨볼루션 처리를 진행하여 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00243
를 얻은 후, 계속하여 F3에 대해 컨볼루션 처리를 진행하여 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00244
을 얻을 수 있으며, 이와 같이 유추하여 제2 특징 맵 Fm에 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00245
을 얻는다. 본 발명의 실시예에서, 각 제3 중간 특징 맵
Figure 112020044358628-pct00246
의 길이 및 폭은 대응하는 제2 특징 맵
Figure 112020044358628-pct00247
의 길이 및 폭의 절반일 수 있다.
단계 S304에 있어서, 각 제3 중간 특징 맵
Figure 112020044358628-pct00248
및 제4 중간 특징 맵
Figure 112020044358628-pct00249
을 이용하여, 제3 특징 맵
Figure 112020044358628-pct00250
을 얻으며, 제3 특징 맵
Figure 112020044358628-pct00251
은 제3 중간 특징 맵
Figure 112020044358628-pct00252
와 제4 중간 특징 맵
Figure 112020044358628-pct00253
의 중첩 처리를 통해 얻어지고, 제4 중간 특징 맵
Figure 112020044358628-pct00254
은 대응하는 제3 특징 맵
Figure 112020044358628-pct00255
에 의해 제5 컨볼루션 커널 컨볼루션 처리를 통해 획득되며, j는 1보다 크고 m보다 작거나 같다.
단계 S301을 수행한 후, 또는 단계 S302를 수행한 후, 제5 컨볼루션 커널을 이용하여 제3 특징 맵 R1에 대해 컨볼루션 처리를 진행하여 제3 특징 맵 R1에 대응하는 제4 중간 특징 맵
Figure 112020044358628-pct00256
을 얻을 수도 있다. 제4 중간 특징 맵
Figure 112020044358628-pct00257
의 길이 및 폭은 제2 특징 맵 F2의 길이 및 폭이다.
또한, 단계 S302에서 얻은 제3 중간 특징 맵
Figure 112020044358628-pct00258
및 단계 S303에서 얻은 제4 중간 특징 맵
Figure 112020044358628-pct00259
을 이용하여, 제3 특징 맵
Figure 112020044358628-pct00260
이외의 제3 특징 맵
Figure 112020044358628-pct00261
을 얻을 수도 있다. 제3 특징 맵
Figure 112020044358628-pct00262
이외의 각 제3 특징 맵
Figure 112020044358628-pct00263
은 제3 중간 특징 맵
Figure 112020044358628-pct00264
와 제4 중간 특징 맵
Figure 112020044358628-pct00265
의 중첩 처리에 의해 얻어진다.
구체적으로, 단계 S304에서, 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00266
를 각각 이용하여 제4 중간 특징 맵
Figure 112020044358628-pct00267
과 중첩 처리를 진행하여 제3 특징 맵
Figure 112020044358628-pct00268
이외의 각 제3 특징 맵
Figure 112020044358628-pct00269
를 얻을 수 있다. 먼저, 제3 중간 특징 맵
Figure 112020044358628-pct00270
와 제4 중간 특징 맵
Figure 112020044358628-pct00271
의 합산 결과를 이용하여 제3 특징 맵 R2를 획득할 수 있다. 그 후, 제5 컨볼루션 커널을 이용하여 R2에 대해 컨볼루션 처리를 진행하여 제4 중간 특징 맵
Figure 112020044358628-pct00272
를 얻으며, 제3 중간 특징 맵
Figure 112020044358628-pct00273
과 제4 중간 특징 맵
Figure 112020044358628-pct00274
의 합산 결과를 통해 제3 특징 맵 R3을 획득할 수 있다. 이와 같이 유추하여, 나머지 제4 중간 특징 맵
Figure 112020044358628-pct00275
및 제3 특징 맵 R4...Rm을 추가로 얻을 수 있다.
또한, 본 발명의 실시예에서, 획득된 각 제4 중간 특징 맵
Figure 112020044358628-pct00276
의 길이 및 폭은 각각 제2 특징 맵 F2의 길이 및 폭과 동일하다. 제4 중간 특징 맵
Figure 112020044358628-pct00277
의 길이 및 폭은 각각 제4 중간 특징 맵
Figure 112020044358628-pct00278
의 길이 및 폭과 동일하다. 따라서, 얻어진 제3 특징 맵 Rj의 길이 및 폭은 각각 제2 특징 맵 Fi의 길이 및 폭이다. 또한, 각 제3 특징 맵 R1...Rn의 길이 및 폭은 각각 대응하게 제1 특징 맵 C1...Cn의 길이 및 폭과 동일하다.
이하 예를 들어 역방향 처리의 과정을 설명한다. 도 3에 도시된 바와 같이, 계속하여 제2 피라미드 네트워크(Reverse Feature Pyramid Network--RFPN)를 이용하여 멀티 스케일 특징을 추가로 최적화한다. 제2 특징 맵 F1은 하나의 3*3의 컨볼루션 커널(제3 컨볼루션 커널)을 거쳐, 하나의 신규 특징 맵 R1(제3 특징 맵)을 얻으며, R1의 길이 및 폭의 크기는 F1과 동일하다. 특징 맵 R1은 하나의 컨볼루션 커널이 3*3(제5 컨볼루션 커널)이고 스트라이드(stride)가 2인 컨볼루션 계산을 거쳐 하나의 신규 특징 맵을 얻으며,
Figure 112020044358628-pct00279
로 표시하며,
Figure 112020044358628-pct00280
의 길이 및 폭은 모두 R1의 절반일 수 있다. 제2 특징 맵 F2는 하나의 3*3의 컨볼루션 커널(제4 컨볼루션 커널)을 거쳐, 하나의 신규 특징 맵을 산출하며,
Figure 112020044358628-pct00281
로 표시한다.
Figure 112020044358628-pct00282
Figure 112020044358628-pct00283
의 크기는 동일하며,
Figure 112020044358628-pct00284
Figure 112020044358628-pct00285
를 더하여 신규 특징 맵 R2를 얻는다. R2 및 F3에 대해 R1 및 F2의 조작을 중복하여 신규 특징 맵 R3을 얻는다. R3 및 F4에 대해 R1및 F2의 조작을 중복하여 신규 특징 맵 R4를 얻는다. RFPN을 거친 후, 마찬가지로 4 개의 상이한 스케일의 특징 맵을 얻으며, 각각 R1, R2, R3 및 R4로 표시한다. 마찬가지로, R1과 R2 간의 길이 및 폭의 배수는 C1과 C2 간의 길이 및 폭의 배수와 동일하고, R2와 R3 간의 길이 및 폭의 배수는 C2와 C3 간의 길이 및 폭의 배수와 동일하며, R3과 R4 간의 길이 및 폭의 배수는 C3과 C4 간의 길이 및 폭의 배수와 동일하다.
전술한 구성에 기반하여, 제2 피라미드 네트워크 모델을 얻어 역방향 처리를 진행하여 제3 특징 맵 R1...Rn을 얻을 수 있다. 순방향 및 역방향 처리 이 두 개의 처리 과정을 거쳐 이미지의 융합된 특징을 더 향상시킬 수 있으며, 각 제3 특징 맵에 기반하여 정확하게 특징 포인트를 식별할 수 있다.
단계 S300 후, 각 제3 특징 맵 Ri의 특징 융합 결과에 따라, 입력 이미지의 각 키 포인트의 위치를 획득할 수 있다. 도 6은 본 발명의 실시예에 따른 키 포인트 검출 방법 중 단계 S400의 흐름도를 도시한다. 각 상기 제3 특징 맵에 대해 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 입력 이미지 중의 각 키 포인트의 위치를 획득하는 단계(단계 S400)는 아래의 단계를 포함할 수 있다.
단계 S401에 있어서, 각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻는다.
본 발명의 실시예에서, 각 스케일의 제3 특징 맵 R1...Rn을 획득한 후, 각 제3 특징 맵에 대해 특징 융합을 진행할 수 있다. 본 발명의 실시예에서 각 제3 특징 맵의 길이 및 폭이 서로 상이하므로, R2...Rn에 대해 각각 선형 보간 처리를 진행하여, 최종적으로 각 제3 특징 맵 R2...Rn의 길이 및 폭이 제3 특징 맵 R1의 길이 및 폭과 같도록 할 수 있다. 계속하여 처리된 제3 특징 맵을 조합하여 제4 특징 맵을 형성할 수 있다.
단계 S402에 있어서, 상기 제4 특징 맵에 기반하여 상기 입력 이미지 중 각 키 포인트의 위치를 획득한다.
제4 특징 맵을 획득한 후, 제4 특징 맵에 대해 차원 축소 처리를 진행할 수 있다. 예를 들어, 컨볼루션 처리를 통해 제4 특징 맵에 대해 차원 축소를 진행하고, 차원 축소된 특징 맵을 이용하여 입력 이미지의 특징 포인트의 위치를 식별할 수 있다.
도 7은 본 발명의 실시예에 따른 키 포인트 검출 방법 중 단계 S401의 흐름도를 도시한다. 상기 각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻는 단계(단계 S401)는 아래의 단계를 포함할 수 있다.
단계 S4012에 있어서, 선형 보간의 방식을 이용하여, 각 제3 특징 맵을 스케일이 동일한 특징 맵으로 조정한다.
본 발명의 실시예에서 획득된 각 제3 특징 맵 R1...Rn의 스케일이 서로 상이하므로, 먼저 각 제3 특징 맵을 스케일이 동일한 특징 맵으로 조정해야 한다. 본 발명의 실시예는 각 제3 특징 맵에 대해 상이한 선형 보간 처리를 수행하여 각 특징 맵의 스케일이 동일하도록 할 수 있으며, 선형 보간의 배수는 각 제3 특징 맵 간의 스케일 배수와 관련된다.
단계 S4013에 있어서, 선형 보간 처리된 각 특징 맵을 연결하여 상기 제4 특징 맵을 얻는다.
스케일이 동일한 각 특징 맵을 얻은 후, 각 특징 맵을 스플라이싱 조합하여 제4 특징 맵을 얻을 수 있다. 예를 들어, 본 발명의 실시예의 각 보간 처리된 특징 맵의 길이 및 폭은 모두 동일하며, 각 특징 맵을 높이 방향에서 연결하여 제4 특징 맵을 얻을 수 있다. 예를 들어, S4012 처리를 거친 각 특징 맵은 A, B, C 및 D로 표시될 수 있으며, 얻어진 제4 특징 맵은
Figure 112020044358628-pct00286
일 수 있다.
또한, 단계 S401 전에, 본 발명의 실시예는 작은 스케일의 특징에 대해 최적화를 진행하기 위하여, 길이 및 폭이 비교적 작은 제3 특징 맵을 추가로 최적화할 수 있으며, 상기 부분의 특징에 대해 추가 컨볼루션 처리를 진행할 수 있다. 도 8은 본 발명의 실시예에 따른 키 포인트 검출 방법의 다른 흐름도를 도시한다. 상기 각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻기 전에, 단계 S4011을 더 포함할 수 있다.
단계 S4011에 있어서, 제1 그룹의 제3 특징 맵을 상이한 병목 블록 구조에 입력하여 컨볼루션 처리를 진행함으로써, 대응하게 업데이트된 제3 특징 맵을 각각 얻으며, 각 상기 병목 블록 구조는 상이한 개수의 컨볼루션 모듈을 포함한다. 상기 제3 특징 맵은 제1 그룹의 제3 특징 맵 및 제2 그룹의 제3 특징 맵을 포함하고, 상기 제1 그룹의 제3 특징 맵 및 상기 제2 그룹의 제3 특징 맵은 모두 적어도 하나의 제3 특징 맵을 포함한다.
전술한 바와 같이, 작은 스케일의 특징 맵 내의 특징을 최적화하기 위하여, 작은 스케일의 특징 맵에 대해 추가 컨볼루션 처리를 진행할 수 있다. 제3 특징 맵 R1...Rm을 두 개의 그룹으로 나눌 수 있으며, 제1 그룹의 제3 특징 맵의 스케일은 제2 그룹의 제3 특징 맵의 스케일보다 작다. 이에 대응하여, 제1 그룹의 제3 특징 맵 내의 각 제3 특징 맵을 상이한 병목 블록 구조에 입력하여 업데이트된 제3 특징 맵을 얻을 수 있다. 상기 병목 블록 구조 내에는 적어도 하나의 컨볼루션 모듈이 포함될 수 있으며, 상이한 병목 블록 구조 중의 컨볼루션 모듈의 개수는 서로 상이할 수 있으며, 병목 블록 구조 컨볼루션 처리를 거쳐 얻어진 특징 맵의 크기는 입력되기 전의 제3 특징 맵의 크기와 같다.
제3 특징 맵의 개수의 기설정된 비율 값에 따라 상기 제1 그룹의 제3 특징 맵을 확정할 수 있다. 예를 들어, 기설정된 비율은 50%일 수 있다. 즉, 각 제3 특징 맵 중 스케일이 비교적 작은, 절반의 제3 특징 맵을 제1 그룹의 제3 특징 맵으로서 상이한 병목 블록 구조에 입력하여 특징 최적화 처리를 진행할 수 있다. 상기 기설정된 비율은 다른 비율 값일 수도 있으며, 본 발명은 이에 대해 한정하지 않는다. 또는, 다른 일부 가능한 실시예에서, 스케일 임계치에 따라 상기 병목 블록 구조에 입력된 제1 그룹의 제3 특징 맵을 결정할 수도 있다. 상기 스케일 임계치보다 작은 특징 맵은 병목 블록 구조에 입력될 필요가 있는 것으로 결정되어 특징 최적화 처리를 진행한다. 스케일 임계치에 대한 결정은 각 특징 맵의 스케일에 따라 결정될 수 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다.
또한, 병목 블록 구조의 선택은, 본 발명의 실시예에서 구체적으로 한정되지 않으며, 컨볼루션 모듈의 형태는 필요에 따라 선택될 수 있다.
단계 S4012에 있어서, 선형 보간의 방식을 이용하여, 업데이트된 제3 특징 맵 및 제2 그룹의 제3 특징 맵을 스케일이 동일한 특징 맵으로 조정한다.
S4011 단계를 수행한 후, 최적화된 제1 그룹의 제3 특징 맵 및 제2 그룹의 제3 특징 맵에 대해 스케일 정규화를 진행할 수 있다. 즉, 각 특징 맵을 사이즈가 동일한 특징 맵으로 조정한다. 본 발명의 실시예는 각 단계 S4011의 최적화된 제3 특징 맵 및 제2 그룹의 제3 특징 맵에 대해 대응하는 선형 보간 처리를 각각 수행함으로써, 크기가 동일한 특징 맵을 얻는다.
본 발명의 실시예에서, 도 3에 도시된 (d) 부분과 같이, 작은 스케일의 특징에 대해 최적화를 진행하기 위하여, R2, R3 및 R4 다음에 상이한 개수의 병목 블록(bottleneck block) 구조가 이어진다. R2 다음에 하나의 bottleneck block이 이어져 신규 특징 맵이 얻어지고,
Figure 112020044358628-pct00287
로 표시하며, R3 다음에 두 개의 bottleneck block이 이어져 신규 특징 맵이 얻어지고,
Figure 112020044358628-pct00288
으로 표시하며, R4 다음에 세 개의 bottleneck block이 이어져 신규 특징 맵이 얻어지고,
Figure 112020044358628-pct00289
로 표시한다. 융합을 진행하기 위하여, 4 개의 특징 맵 R1,
Figure 112020044358628-pct00290
,
Figure 112020044358628-pct00291
,
Figure 112020044358628-pct00292
의 크기를 통일해야 한다. 따라서,
Figure 112020044358628-pct00293
에 대해 양 선형 보간을 진행하는 업 샘플링(upsample) 조작에 대해 2 배 확대하여 특징 맵
Figure 112020044358628-pct00294
를 얻고,
Figure 112020044358628-pct00295
에 대해 양 선형 보간을 진행하는 업 샘플링(upsample) 조작에 대해 4 배 확대하여 특징 맵
Figure 112020044358628-pct00296
을 얻으며,
Figure 112020044358628-pct00297
에 대해 양 선형 보간을 진행하는 업 샘플링(upsample) 조작에 대해 8 배 확대하여 특징 맵
Figure 112020044358628-pct00298
를 얻는다. 이때, R1,
Figure 112020044358628-pct00299
,
Figure 112020044358628-pct00300
,
Figure 112020044358628-pct00301
의 스케일은 동일하다.
단계 S4013에 있어서, 스케일이 동일한 각 특징 맵을 연결하여 상기 제4 특징 맵을 얻는다.
단계 S4012 후, 스케일이 동일한 특징 맵을 연결할 수 있다. 예를 들어, 전술한 4 개의 특징 맵을 연결하여(concat) 얻은 신규 특징 맵은 바로 제4 특징 맵이다. 예를 들어, R1,
Figure 112020044358628-pct00302
,
Figure 112020044358628-pct00303
,
Figure 112020044358628-pct00304
이 4 개의 특징 맵은 모두 256 차원이며, 얻어진 제4 특징 맵은 1024 차원일 수 있다.
전술한 상이한 실시예 중의 구성을 통해 상응하는 제4 특징 맵을 얻을 수 있으며, 제4 특징 맵을 획득하면, 제4 특징 맵에 따라 입력 이미지의 키 포인트 위치를 얻을 수 있다. 제4 특징 맵에 대해 직접 차원 축소 처리를 진행하여, 차원 축소 처리된 특징 맵을 이용하여 입력 이미지의 키 포인트의 위치를 결정할 수 있다. 다른 일부 실시예에서, 차원 축소된 특징 맵에 대해 정제 처리를 진행하여 키 포인트의 정확도를 추가로 향상시킬 수도 있다. 도 9는 본 발명의 실시예에 따른 키 포인트 검출 방법 중 단계 S402의 흐름도를 도시한다. 상기 제4 특징 맵에 기반하여 상기 입력 이미지 중 각 키 포인트의 위치를 획득하는 단계는 아래의 단계를 포함할 수 있다.
단계 S4021에 있어서, 제5 컨볼루션 커널을 이용하여 상기 제4 특징 맵에 대해 차원 축소 처리를 진행한다.
본 발명의 실시예에서, 차원 축소 처리를 수행하는 방식은 컨볼루션 처리일 수 있다. 즉, 기설정된 컨볼루션 모듈을 이용하여 제4 특징 맵에 대해 컨볼루션 처리를 진행하여, 제4 특징 맵의 차원 축소를 구현하며, 예를 들어 256 차원의 특징 맵을 얻는다.
단계 S4022에 있어서, 컨볼루션 블록 주의력 모듈을 이용하여 차원 축소 처리된 제4 특징 맵 중의 특징에 대해 정제 처리를 진행하여, 정제된 특징 맵을 얻는다.
다음, 컨볼루션 블록 주의력 모듈을 이용하여 차원 축소 처리된 제4 특징 맵에 대해 정제 처리를 추가로 진행할 수 있다. 컨볼루션 블록 주의력 모듈은 종래기술에서의 컨볼루션 블록 주의력 모듈일 수 있다. 예를 들어, 본 발명의 실시예의 컨볼루션 블록 주의력 모듈은 채널 주의력 유닛 및 중요도 주의력 유닛을 포함할 수 있다. 먼저, 차원 축소 처리된 제4 특징 맵을 채널 주의력 유닛에 입력할 수 있다. 먼저 차원 축소 처리된 제4 특징 맵에 대해 높이 및 폭 기반 글로벌 최대 풀링(global max pooling) 및 글로벌 평균 풀링(global average pooling)을 진행한 후, 글로벌 최대 풀링을 거쳐 얻어진 제1 결과 및 글로벌 평균 풀링을 거쳐 얻어진 제2 결과를 각각 다층 퍼셉트론(MLP, Multilayer Perceptron)에 입력하고, MLP 처리된 두 개의 결과에 대해 합산 처리를 진행하여 제3 결과를 얻으며, 제3 결과에 대해 활성화 처리를 진행하여 채널 주의력 특징 맵을 얻을 수 있다.
채널 주의력 특징 맵을 얻은 후, 상기 채널 주의력 특징 맵을 중요도 주의력 유닛에 입력한다. 먼저, 상기 채널 주의력 특징 맵에 대해 채널 기반 글로벌 최대 풀링(global max pooling) 및 글로벌 평균 풀링(global average pooling) 처리를 진행하여 각각 제4 결과 및 제5 결과를 얻은 후, 제4 결과 및 제5 결과를 연결하며, 연결된 결과에 대해 컨볼루션 처리를 통해 차원 축소를 진행하며, sigmoid 함수를 이용하여 차원 축소 결과에 대해 처리를 진행하여 중요도 주의력 특징 맵을 얻은 후, 중요도 주의력 특징 맵과 채널 주의력 특징 맵을 곱하여 정제된 특징 맵을 얻을 수 있다. 전술한 것은 단지 본 발명의 실시예가 컨볼루션 블록 주의력 모듈에 대한 예시적인 설명이며, 다른 실시예에서, 다른 구성을 적용하여 차원 축소된 제4 특징 맵에 대해 정제 처리를 진행할 수도 있다.
단계 S4023에 있어서, 정제된 특징 맵을 이용하여 입력 이미지의 키 포인트의 위치를 결정한다.
정제된 특징 맵을 획득한 후, 상기 특징 맵을 이용하여 키 포인트의 위치 정보를 획득할 수 있다. 예를 들어, 상기 정제된 특징 맵을 3*3의 컨볼루션 모듈에 입력하여 입력 이미지 중 각 키 포인트의 위치 정보를 예측할 수 있다. 입력 이미지가 얼굴 이미지인 경우, 예측된 키 포인트는 17 개 키 포인트의 위치일 수 있다. 예를 들어, 좌우 눈, 코, 좌우 귀, 좌우 어깨, 좌우 팔꿈치, 좌우 손목, 좌우 사타구니, 좌우 무릎, 좌우 발목에 대한 위치를 포함할 수 있다. 다른 실시예에서, 다른 키 포인트의 위치를 획득할 수도 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다.
전술한 구성에 기반하여, 제1 피라미드 신경망의 순방향 처리 및 제2 피라미드 신경망의 역방향 처리를 통해 특징을 더 충분히 융합할 수 있으며, 따라서 키 포인트의 검출 정확도를 향상시킨다.
본 발명의 실시예에서, 제1 피라미드 신경망 및 제2 피라미드 신경망에 대한 훈련을 수행하여, 순방향 처리 및 역방향 처리가 작업 정확도를 충족하도록 할 수도 있다. 도 10은 본 발명의 실시예에 따른 키 포인트 검출 방법 중 제1 피라미드 신경망을 훈련시키는 흐름도를 도시한다. 본 발명의 실시예는 훈련 이미지 데이터 세트를 이용하여 상기 제1 피라미드 신경망을 훈련시킬 수 있으며, 이는 아래의 단계를 포함한다.
단계 S501에 있어서, 제1 피라미드 신경망을 이용하여 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제1 특징 맵에 대해 상기 순방향 처리를 진행하여, 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제2 특징 맵을 얻는다.
본 발명의 실시예에서, 훈련 이미지 데이터 세트를 제1 피라미드 신경망에 입력하여 훈련시킬 수 있다. 훈련 이미지 데이터 세트에는 복수 개의 이미지 및 이미지에 대응하는 키 포인트의 실제 위치가 포함될 수 있다. 제1 피라미드 네트워크를 이용하여 전술한 바와 같은 S100 및 단계 S200(멀티 스케일 제1 특징 맵의 추출 및 순방향 처리)을 수행하여, 각 이미지의 제2 특징 맵을 얻을 수 있다.
단계 S502에 있어서, 각 제2 특징 맵을 이용하여 식별된 키 포인트를 결정한다.
단계S201 후, 얻어진 제2 특징 맵을 이용하여 훈련 이미지의 키 포인트를 식별하고 훈련 이미지의 각 키 포인트의 제1 위치를 획득할 수 있다.
단계 S503에 있어서, 제1 손실 함수에 따라 상기 키 포인트의 제1 손실 값을 얻는다.
단계 S504에 있어서, 상기 제1 손실 값을 이용하여 훈련 횟수가 설정된 제1 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중의 각 컨볼루션 커널을 역방향으로 조절한다.
이에 대응하여, 각 키 포인트의 제1 위치를 얻은 후, 상기 예측하여 얻어진 제1 위치에 대응하는 제1 손실 값을 얻을 수 있다. 훈련 과정에서, 매번 훈련하여 얻어진 제1 손실에 따라 훈련 횟수가 제1 횟수 임계치에 도달할 때까지 제1 피라미드 신경망의 파라미터(예를 들어, 컨볼루션 커널의 파라미터)를 역방향으로 조절할 수 있다. 상기 제1 횟수 임계치는 필요에 따라 설정될 수 있으며, 일반적으로 120보다 큰 수치이다. 예를 들어, 본 발명의 실시예 중 제1 횟수 임계치는 140일 수 있다.
제1 위치에 대응하는 제1 손실은 제1 위치와 실제 위치 사이의 제1 차이값을 제1 손실 함수에 입력하여 획득된 손실 값일 수 있으며, 제1 손실 함수는 로그 손실 함수일 수 있다. 또는, 제1 위치와 실제 위치를 제1 손실 함수에 입력하여 대응하는 제1 손실 값을 획득할 수도 있다. 본 발명의 실시예는 이에 대해 한정하지 않는다. 전술한 것에 기반하여 제1 피라미드 신경망의 훈련 과정을 구현하고, 제1 피라미드 신경망 파라미터의 최적화를 구현할 수 있다.
또한, 이에 대응하여, 도 11은 본 발명의 실시예에 따른 키 포인트 검출 방법 중 제2 피라미드 신경망을 훈련시키는 흐름도를 도시한다. 본 발명의 실시예는 훈련 이미지 데이터 세트를 이용하여 상기 제2 피라미드 신경망을 훈련시킬 수 있으며, 이는 아래의 단계를 포함한다.
단계 S601에 있어서, 제2 피라미드 신경망을 이용하여 상기 제1 피라미드 신경망에 의해 출력된, 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제2 특징 맵에 대해 상기 역방향 처리를 진행하여, 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제3 특징 맵을 얻는다.
단계 S602에 있어서, 각 제3 특징 맵을 이용하여 키 포인트를 식별한다.
본 발명의 실시예에서, 먼저 제1 피라미드 신경망을 이용하여 훈련 데이터 세트 중 각 이미지의 제2 특징 맵을 획득한 후, 제2 피라미드 신경망을 통해 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제2 특징 맵에 대해 전술한 역방향 처리를 진행하여, 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제3 특징 맵을 얻은 다음, 제3 특징 맵을 이용하여 대응하는 이미지의 키 포인트의 제2 위치를 예측할 수 있다.
단계 S603에 있어서, 제2 손실 함수에 따라 식별된 키 포인트의 제2 손실 값을 얻는다.
단계 S604에 있어서, 상기 제2 손실 값을 이용하여 훈련 횟수가 설정된 제2 횟수 임계치에 도달할 때까지 상기 제2 피라미드 신경망 중 컨볼루션 커널을 역방향으로 조절하거나, 상기 제2 손실 값을 이용하여 훈련 횟수가 설정된 제2 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중 컨볼루션 커널 및 제2 피라미드 신경망 중 컨볼루션 커널을 역방향으로 조절한다.
이에 대응하여, 각 키 포인트의 제2 위치를 얻은 후, 상기 예측하여 얻어진 제2 위치에 대응하는 제2 손실 값을 얻을 수 있다. 훈련 과정에서, 매번 훈련하여 얻어진 제2 손실에 따라 훈련 횟수가 제2 횟수 임계치에 도달할 때까지 제2 피라미드 신경망의 파라미터(예를 들어, 컨볼루션 커널의 파라미터)를 역방향으로 조절할 수 있다. 상기 제2 횟수 임계치는 필요에 따라 설정될 수 있으며, 일반적으로 120보다 큰 수치이다. 예를 들어, 본 발명의 실시예 중 제2 횟수 임계치는 140일 수 있다.
여기서, 제2 위치에 대응하는 제2 손실은 제2 위치와 실제 위치 사이의 제2 차이값을 제2 손실 함수에 입력하여 획득된 손실 값일 수 있으며, 제2 손실 함수는 로그 손실 함수일 수 있다. 또는, 제2 위치와 실제 위치를 제2 손실 함수에 입력하여 대응하는 제2 손실 값을 획득할 수도 있다. 본 발명의 실시예는 이에 대해 한정하지 않는다.
본 발명의 다른 일부 실시예에서, 제2 피라미드 신경망을 훈련시키는 동시에, 제1 피라미드 신경망을 추가로 최적화 훈련시킬 수도 있다. 즉, 본 발명의 실시예에서, 단계 S604의 경우, 획득된 제2 손실 값을 이용하는 동시에 제1 피라미드 신경망 중의 컨볼루션 커널의 파라미터 및 제2 피라미드 신경망 중의 컨볼루션 커널의 파라미터를 역방향으로 조절할 수 있다. 따라서, 전체 네트워크 모델의 추가 최적화를 구현한다.
전술한 것에 기반하여 제2 피라미드 신경망의 훈련 과정을 구현하고, 제1 피라미드 신경망의 최적화를 구현할 수 있다.
또한, 본 발명의 실시예에서, 단계 S400은 특징 추출 네트워크 모델을 통해 구현될 수 있다. 본 발명의 실시예는 또한 특징 추출 네트워크 모델의 최적화 과정을 수행할 수 있다. 도 12는 본 발명의 실시예에 따른 키 포인트 검출 방법 중 특징 추출 네트워크 모델을 훈련시키는 흐름도를 도시한다. 훈련 이미지 데이터 세트를 이용하여 상기 특징 추출 네트워크 모델을 훈련시키는 단계는 아래의 단계를 포함할 수 있다.
단계 S701에 있어서, 특징 추출 네트워크 모델을 이용하여 상기 제2 피라미드 신경망에 의해 출력된, 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제3 특징 맵에 대해 상기 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 훈련 이미지 데이터 세트 중 각 이미지의 키 포인트를 식별한다.
본 발명의 실시예에서, 이미지 훈련 데이터 세트에 대응하는, 제1 피라미드 신경망의 순방향 처리 및 제2 피라미드 신경망의 처리를 거쳐 얻어진 제3 특징 맵을 특징 추출 네트워크 모델에 입력하고, 특징 추출 네트워크 모델을 통해 특징 융합을 수행하며, 정제 등 처리를 통해 훈련 이미지 데이터 세트 중 각 이미지의 키 포인트의 제3 위치를 얻을 수 있다.
단계 S702에 있어서, 제3 손실 함수에 따라 각 키 포인트의 제3 손실 값을 얻는다.
단계 S703에 있어서, 상기 제3 손실 값을 이용하여 훈련 횟수가 설정된 제3 횟수 임계치에 도달할 때까지 상기 특징 추출 네트워크의 파라미터를 역방향으로 조절하거나, 상기 제3 손실 함수를 이용하여 훈련 횟수가 설정된 제3 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중 컨볼루션 커널 파라미터, 제2 피라미드 신경망 중 컨볼루션 커널 파라미터 및 상기 특징 추출 네트워크의 파라미터를 역방향으로 조절한다.
이에 대응하여, 각 키 포인트의 제3 위치를 얻은 후, 상기 예측하여 얻어진 제3 위치에 대응하는 제3 손실 값을 얻을 수 있다. 훈련 과정에서, 매번 훈련하여 얻어진 제3 손실에 따라 훈련 횟수가 제3 횟수 임계치에 도달할 때까지 특징 추출 네트워크 모델의 파라미터(예를 들어, 컨볼루션 커널의 파라미터 또는 전술한 풀링 등 과정의 각 파라미터)를 역방향으로 조절할 수 있다. 상기 제3 횟수 임계치는 필요에 따라 설정될 수 있으며, 일반적으로 120보다 큰 수치이다. 예를 들어, 본 발명의 실시예 중 제3 횟수 임계치는 140일 수 있다.
제3 위치에 대응하는 제3 손실은 제3 위치와 실제 위치 사이의 제3 차이값을 제1 손실 함수에 입력하여 획득된 손실 값일 수 있으며, 제3 손실 함수는 로그 손실 함수일 수 있다. 또는, 제3 위치와 실제 위치를 제3 손실 함수에 입력하여 대응하는 제3 손실 값을 획득할 수도 있다. 본 발명의 실시예는 이에 대해 한정하지 않는다.
전술한 것에 기반하여 특징 추출 네트워크 모델의 훈련 과정을 구현하고, 특징 추출 네트워크 모델 파라미터의 최적화를 구현할 수 있다.
본 발명의 다른 일부 실시예에서, 특징 추출 네트워크를 훈련시키는 동시에, 제1 피라미드 신경망 및 제2 피라미드 신경망을 추가로 최적화 훈련시킬 수도 있다. 즉, 본 발명의 실시예에서, 단계 S703의 경우, 획득된 제3 손실 값을 이용하는 동시에 제1 피라미드 신경망 중 컨볼루션 커널의 파라미터, 제2 피라미드 신경망 중 컨볼루션 커널의 파라미터, 및 특징 추출 네트워크 모델의 파라미터를 역방향으로 조절하여, 전체 네트워크 모델의 추가 최적화를 구현할 수 있다.
총적으로, 본 발명의 실시예는 양방향 피라미드 네트워크 모델을 이용하여 키 포인트 특징 검출을 수행하는 것을 개시하며, 순방향 처리의 방식을 이용하여 멀티 스케일 특징을 얻을 뿐만아니라 역방향 처리를 이용하여 더 많은 특징을 융합시킴으로써, 키 포인트의 검출 정확도를 더 향상시킬 수 있다.
통상의 기술자는 구체적인 실시형태의 상기 방법에서 각 단계의 기록 순서가 엄격한 수행 순서를 의미하지 않고, 실시 과정에 대해 어떠한 한정을 구성하는 것이 아니며, 각 단계의 구체적인 수행 순서가 그 기능 및 가능한 내부 논리로 결정되어야 함을 이해할 수 있다.
이해할 것은, 본 발명에 언급된 전술한 각 방법 실시예가 원리 논리를 벗어나지 않고 서로 결합되어 결합된 실시예를 형성할 수 있으며, 편폭의 제한으로 인해 본 발명을 더 설명하지 않는다.
또한, 본 발명은 키 포인트 검출 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체, 프로그램을 더 제공하며, 전술한 것은 모두 본 발명에서 제공된 어느 한 키 포인트 검출 방법을 구현할 수 있으며, 상응한 기술적 방안 및 설명은 방법 부분의 상응한 기재를 참조하면 되므로 더 설명하지 않는다.
도 13은 본 발명의 실시예에 따른 키 포인트 검출 장치의 블록도를 도시하며, 도 13에 도시된 바와 같이, 상기 키 포인트 검출 장치는
입력 이미지에 대한 복수 개의 스케일의 제1 특징 맵을 획득하도록 구성되는 멀티 스케일 특징 획득 모듈(10) - 각 제1 특징 맵의 스케일은 다중 관계를 가짐 - ; 제1 피라미드 신경망을 이용하여 각 상기 제1 특징 맵에 대해 순방향 처리를 진행하여 상기 제1 특징 맵 각각에 일대일로 대응하는 제2 특징 맵을 얻도록 구성되는 순방향 처리 모듈(20) - 상기 제2 특징 맵은, 상기 제2 특징 맵에 일대일로 대응하는 상기 제1 특징 맵과 스케일이 동일함 - ; 제2 피라미드 신경망을 이용하여 상기 제2 특징 맵 각각에 대해 역방향 처리를 진행하여 상기 제2 특징 맵 각각에 일대일로 대응하는 제3 특징 맵을 얻도록 구성되는 역방향 처리 모듈(30) - 상기 제3 특징 맵은, 상기 제3 특징 맵에 일대일로 대응하는 상기 제2 특징 맵과 스케일이 동일함 - ; 및 각 상기 제3 특징 맵에 대해 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 입력 이미지 중의 각 키 포인트의 위치를 획득하도록 구성되는 키 포인트 검출 모듈(40)을 포함한다.
일부 가능한 실시형태에서, 상기 멀티 스케일 특징 획득 모듈은 상기 입력 이미지를 기설정된 규격의 제1 이미지로 조절하며, 상기 제1 이미지를 잔차 신경망에 입력하고, 제1 이미지에 대해 상이한 샘플링 주파수의 다운 샘플링 처리를 수행하여 복수 개의 상이한 스케일의 제1 특징 맵을 얻도록 구성된다.
일부 가능한 실시형태에서, 상기 순방향 처리는 제1 컨볼루션 처리 및 제1 선형 보간 처리를 포함하고, 상기 역방향 처리는 제2 컨볼루션 처리 및 제2 선형 보간 처리를 포함한다.
일부 가능한 실시형태에서, 상기 순방향 처리 모듈은, 제1 컨볼루션 커널을 이용하여 제1 특징 맵
Figure 112020044358628-pct00305
중의 제1 특징 맵
Figure 112020044358628-pct00306
에 대해 컨볼루션 처리를 진행하여, 제1 특징 맵
Figure 112020044358628-pct00307
에 대응하는 제2 특징 맵
Figure 112020044358628-pct00308
을 획득하고 - n은 제1 특징 맵의 개수를 나타내고, n은 1보다 큰 정수임 - ; 상기 제2 특징 맵
Figure 112020044358628-pct00309
에 대해 선형 보간 처리를 수행하여 제2 특징 맵
Figure 112020044358628-pct00310
에 대응하는 제1 중간 특징 맵
Figure 112020044358628-pct00311
을 획득하며 - 제1 중간 특징 맵
Figure 112020044358628-pct00312
의 스케일은 제1 특징 맵 Cn-1의 스케일과 동일함 - ; 제2 컨볼루션 커널을 이용하여 제1 특징 맵
Figure 112020044358628-pct00313
이외의 각 제1 특징 맵
Figure 112020044358628-pct00314
에 대해 컨볼루션 처리를 진행하여, 각각 제1 특징 맵
Figure 112020044358628-pct00315
에 일대일로 대응하는 제2 중간 특징 맵
Figure 112020044358628-pct00316
을 얻고 - 상기 제2 중간 특징 맵의 스케일은, 상기 제2 중간 특징 맵의 스케일에 일대일로 대응하는 제1 특징 맵과 스케일이 동일함 - ; 상기 제2 특징 맵
Figure 112020044358628-pct00317
및 각 상기 제2 중간 특징 맵
Figure 112020044358628-pct00318
에 기반하여, 제2 특징 맵
Figure 112020044358628-pct00319
및 제1 중간 특징 맵
Figure 112020044358628-pct00320
을 얻도록 - 상기 제2 특징 맵
Figure 112020044358628-pct00321
는 상기 제2 중간 특징 맵
Figure 112020044358628-pct00322
와 상기 제1 중간 특징 맵
Figure 112020044358628-pct00323
의 중첩 처리를 통해 얻어지고, 제1 중간 특징 맵
Figure 112020044358628-pct00324
는 대응하는 제2 특징 맵
Figure 112020044358628-pct00325
의 선형 보간에 의해 얻어지며, 상기 제2 중간 특징 맵
Figure 112020044358628-pct00326
와 제1 중간 특징 맵
Figure 112020044358628-pct00327
의 스케일은 동일하며, i는 1보다 크거나 같고 n보다 작은 정수임 - 구성된다.
일부 가능한 실시형태에서, 상기 역방향 처리 모듈은, 제3 컨볼루션 커널을 이용하여 제2 특징 맵
Figure 112020044358628-pct00328
중의 제2 특징 맵
Figure 112020044358628-pct00329
에 대해 컨볼루션 처리를 진행하여, 제2 특징 맵
Figure 112020044358628-pct00330
에 대응하는 제3 특징 맵
Figure 112020044358628-pct00331
을 획득하고 - m은 제2 특징 맵의 개수를 나타내고, m은 1보다 큰 정수임 - ; 제4 컨볼루션 커널을 이용하여 제2 특징 맵
Figure 112020044358628-pct00332
에 대해 컨볼루션 처리를 진행하여, 대응하는 제3 중간 특징 맵
Figure 112020044358628-pct00333
을 각각 얻으며 - 제3 중간 특징 맵의 스케일은 대응하는 제2 특징 맵의 스케일과 동일함 - ; 제5 컨볼루션 커널을 이용하여 제3 특징 맵
Figure 112020044358628-pct00334
에 대해 컨볼루션 처리를 진행하여 제3 특징 맵
Figure 112020044358628-pct00335
에 대응하는 제4 중간 특징 맵
Figure 112020044358628-pct00336
을 얻고 각 제3 중간 특징 맵
Figure 112020044358628-pct00337
및 제4 중간 특징 맵
Figure 112020044358628-pct00338
을 이용하여, 제3 특징 맵
Figure 112020044358628-pct00339
및 제4 중간 특징 맵
Figure 112020044358628-pct00340
을 얻도록 - 제3 특징 맵
Figure 112020044358628-pct00341
은 제3 중간 특징 맵
Figure 112020044358628-pct00342
과 제4 중간 특징 맵
Figure 112020044358628-pct00343
의 중첩 처리를 통해 얻어지고, 제4 중간 특징 맵
Figure 112020044358628-pct00344
은 대응하는 제3 특징 맵
Figure 112020044358628-pct00345
이 제5 컨볼루션 커널 컨볼루션 처리를 통해 획득되며, j는 1보다 크고 m보다 작거나 같음 - 구성된다.
일부 가능한 실시형태에서, 상기 키 포인트 검출 모듈은 각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻고, 상기 제4 특징 맵에 기반하여 상기 입력 이미지 중 각 키 포인트의 위치를 획득하도록 구성된다.
일부 가능한 실시형태에서, 상기 키 포인트 검출 모듈은 선형 보간의 방식을 이용하여, 각 제3 특징 맵을 스케일이 동일한 특징 맵으로 조정하고, 상기 스케일이 동일한 특징 맵을 연결하여 상기 제4 특징 맵을 얻도록 구성된다.
일부 가능한 실시형태에서, 상기 장치는, 제1 그룹의 제3 특징 맵을 상이한 병목 블록 구조에 입력하여 컨볼루션 처리를 진행함으로써, 업데이트된 제3 특징 맵을 각각 얻도록 구성되는 최적화 모듈 - 각 상기 병목 블록 구조는 상이한 개수의 컨볼루션 모듈을 포함하며, 상기 제3 특징 맵은 제1 그룹의 제3 특징 맵 및 제2 그룹의 제3 특징 맵을 포함하고, 상기 제1 그룹의 제3 특징 맵 및 상기 제2 그룹의 제3 특징 맵은 모두 적어도 하나의 제3 특징 맵을 포함함 - 을 더 포함한다.
일부 가능한 실시형태에서, 상기 키 포인트 검출 모듈은 또한 선형 보간의 방식을 이용하여, 각 상기 업데이트된 제3 특징 맵 및 상기 제2 그룹의 제3 특징 맵을 스케일이 동일한 특징 맵으로 조정하고, 상기 스케일이 동일한 특징 맵을 연결하여 상기 제4 특징 맵을 얻도록 구성된다.
일부 가능한 실시형태에서, 상기 키 포인트 검출 모듈은 또한 제5 컨볼루션 커널을 이용하여 상기 제4 특징 맵에 대해 차원 축소 처리를 진행하고, 차원 축소 처리된 제4 특징 맵을 이용하여 입력 이미지의 키 포인트의 위치를 결정하도록 구성된다.
일부 가능한 실시형태에서, 상기 키 포인트 검출 모듈은 또한 제5 컨볼루션 커널을 이용하여 상기 제4 특징 맵에 대해 차원 축소 처리를 진행하고, 컨볼루션 블록 주의력 모듈을 이용하여 차원 축소 처리된 제4 특징 맵 중의 특징에 대해 정제 처리를 진행하여 정제 처리된 특징 맵을 얻으며, 정제 처리된 특징 맵을 이용하여 상기 입력 이미지의 키 포인트의 위치를 결정하도록 구성된다.
일부 가능한 실시형태에서, 상기 순방향 처리 모듈은 또한 훈련 이미지 데이터 세트를 이용하여 상기 제1 피라미드 신경망을 훈련시키도록 구성되며, 상기 훈련 단계는 제1 피라미드 신경망을 이용하여 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제1 특징 맵에 대해 상기 순방향 처리를 진행하여, 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제2 특징 맵을 얻는 단계 각 제2 특징 맵을 이용하여 식별된 키 포인트를 결정하는 단계 제1 손실 함수에 따라 상기 키 포인트의 제1 손실 값을 얻는 단계 및 상기 제1 손실 값을 이용하여 훈련 횟수가 설정된 제1 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중의 각 컨볼루션 커널을 역방향으로 조절하는 단계를 포함한다.
일부 가능한 실시형태에서, 상기 역방향 처리 모듈은 또한 훈련 이미지 데이터 세트를 이용하여 상기 제2 피라미드 신경망을 훈련시키도록 구성되며, 상기 훈련 단계는 제2 피라미드 신경망을 이용하여 상기 제1 피라미드 신경망에 의해 출력된, 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제2 특징 맵에 대해 상기 역방향 처리를 진행하여, 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제3 특징 맵을 얻는 단계 각 제3 특징 맵을 이용하여 식별된 키 포인트를 결정하는 단계 제2 손실 함수에 따라 식별된 각 키 포인트의 제2 손실 값을 얻는 단계 상기 제2 손실 값을 이용하여 훈련 횟수가 설정된 제2 횟수 임계치에 도달할 때까지 상기 제2 피라미드 신경망 중 컨볼루션 커널을 역방향으로 조절하는 단계 또는, 상기 제2 손실 값을 이용하여 훈련 횟수가 설정된 제2 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중 컨볼루션 커널 및 제2 피라미드 신경망 중 컨볼루션 커널을 역방향으로 조절하는 단계를 포함한다.
일부 가능한 실시형태에서, 상기 키 포인트 검출 모듈은 또한 특징 추출 네트워크를 통해 각 상기 제3 특징 맵에 대한 특징 융합 처리를 수행하며, 특징 추출 네트워크를 통해 각 상기 제3 특징 맵에 대한 특징 융합 처리를 수행하기 전에, 훈련 이미지 데이터 세트를 이용하여 상기 특징 추출 네트워크를 훈련시키도록 구성되며, 상기 훈련 단계는 특징 추출 네트워크를 이용하여 상기 제2 피라미드 신경망에 의해 출력된, 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제3 특징 맵에 대해 상기 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 훈련 이미지 데이터 세트 중 각 이미지의 키 포인트를 식별하는 단계 제3 손실 함수에 따라 각 키 포인트의 제3 손실 값을 얻는 단계 상기 제3 손실 값을 이용하여 훈련 횟수가 설정된 제3 횟수 임계치에 도달할 때까지 상기 특징 추출 네트워크의 파라미터를 역방향으로 조절하는 단계 또는 상기 제3 손실 함수를 이용하여 훈련 횟수가 설정된 제3 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중 컨볼루션 커널 파라미터, 제2 피라미드 신경망 중 컨볼루션 커널 파라미터 및 상기 특징 추출 네트워크의 파라미터를 역방향으로 조절하는 단계를 포함한다.
일부 실시예에서, 본 발명의 실시예에서 제공된 장치에 구비된 기능 또는 포함된 모듈은 위의 방법 실시예에서 설명된 방법을 수행할 수 있으며, 그 구체적인 구현은 위의 방법 실시예의 설명을 참조하면 되며, 간결함을 위하여, 여기서 더 설명하지 않는다.
본 발명의 실시예는 프로세서에 의해 실행되면 전술한 방법을 구현하는 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능한 저장 매체를 더 제공한다. 컴퓨터 판독 가능한 저장 매체는 비 휘발성 컴퓨터 판독 가능한 저장 매체일 수 있다.
본 발명의 실시예는 전자 기기를 더 제공하며, 상기 전자 기기는 프로세서 및 프로세서에서 실행 가능한 명령어를 저장하는 메모리를 포함하되 상기 프로세서는 전술한 방법을 수행하도록 구성된다.
전자 기기는 단말기, 서버 또는 다른 형태의 기기로 제공될 수 있다.
도 14는 본 발명의 실시예에 따른 전자 기기(800)의 블록도를 도시한다. 예를 들어, 전자 기기(800)는 휴대폰, 컴퓨터, 디지털 방송 단말기, 메시지 송수신 기기, 게임기, 태블릿, 의료 기기, 운동기구, PDA 등 일 수 있다.
도 14를 참조하면, 전자 기기(800)는 처리 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입력/출력(I/O)의 인터페이스(812), 센서 컴포넌트(814) 및 통신 컴포넌트(816) 중의 하나 또는 복수 개 컴포넌트를 포함할 수 있다.
처리 컴포넌트(802)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 전자 기기(800)의 전반적인 동작을 제어한다. 처리 컴포넌트(802)는 전술한 방법의 전부 또는 일부 단계를 완료하도록 명령어를 실행하는 하나 또는 복수 개의 프로세서(820)를 포함할 수 있다. 또한, 처리 컴포넌트(802)는 처리 컴포넌트(802)와 다른 컴포넌트 간의 상호작용에 편리하도록 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(802)는 멀티미디어 컴포넌트(808)와 처리 컴포넌트(802) 간의 상호작용을 편리하도록 멀티미디어 모듈을 포함할 수 있다.
메모리(804)는 전자 기기(800)에서의 동작을 지원하기 위하여 다양한 유형의 데이터를 저장하도록 구성된다. 이러한 데이터의 실예는 전자 기기(800)에서 동작하는 임의의 애플리케이션 또는 방법의 명령어, 연락처 데이터, 전화번호부 데이터, 메시지, 그림, 동영상 등을 포함한다. 메모리(804)는 임의의 유형의 휘발성 또는 비 휘발성 저장 장치 또는 이들의 조합으로 구현될 수 있으며, 예컨대 정적 램(SRAM), 이이피롬(EEPROM), 이피롬(EPROM), 피롬(PROM), 롬(ROM), 자기저장장치, 플래시, 디스크, 광 디스크이다.
전력 컴포넌트(806)는 전자 기기(800)의 다양한 컴포넌트에 전력을 공급한다. 전원 컴포넌트(806)는 전원 관리 시스템, 하나 또는 복수 개의 전원, 및 다른 장치(800)를 위해 전력을 생성, 관리 및 할당하는 것과 관련된 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(808)는 상기 전자 기기(800)와 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서, 스크린은 액정 표시 장치(LCD) 및 터치 패널(TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 스크린은 사용자로부터의 입력 신호를 수신하도록 터치 스크린으로 구현될 수 있다. 터치 패널은 터치, 미끄럼 및 터치 패널 상의 제스처를 검출하도록 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 미끄럼 동작의 변계를 검출할 뿐만 아니라, 상기 터치 또는 미끄럼 동작과 관련된 지속시간 및 압력도 검출한다. 일부 실시예에서, 멀티미디어 컴포넌트(808)는 하나의 전방 카메라 및/또는 후방 카메라를 포함한다. 전자 기기(800)가 촬영 모드 또는 비디오 모드와 같은 동작 모드인 경우, 전방 카메라 및/또는 후방 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 전방 카메라 및 후방 카메라 각각은 하나의 고정된 광학 렌즈 시스템이거나 초점 및 광학 줌 능력을 구비할 수 있다.
오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들어, 오디오 컴포넌트(810)는 하나의 마이크로폰(MIC)을 포함하며, 전자 기기(800)가 호출 모드, 기록 모드 및 음성 식별 모드와 같은 동작 모드인 경우, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 또한 메모리(804)에 저장되거나 통신 컴포넌트(816)에 의해 송신될 수 있다. 일부 실시예에서, 오디오 컴포넌트(810)는 오디오 신호를 출력하는 하나의 스피커를 더 포함한다.
I/O 인터페이스(812)는 처리 컴포넌트(802)와 주변 장치 인터페이스 모듈 사이에 인터페이스를 제공하며, 상기 주변 장치 인터페이스 모듈은 키보드, 클릭 휠(click wheel), 버튼 등 일 수 있다. 이러한 버튼은 홈페이지 버튼, 음량 버튼, 시작 버튼 및 잠금 버튼을 포함하나 이에 한정되지 않는다.
센서 컴포넌트(814)는 전자 기기(800)에 각 측면의 상태 평가를 제공하는 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(814)는 전자 기기(800)의 온/오프 상태, 컴포넌트의 상대적 위치를 검출할 수 있다. 예를 들어, 상기 컴포넌트는 전자 기기(800)의 표시장치 및 키패드이다. 센서 컴포넌트(814)는 또한 전자 기기(800) 또는 전자 기기(800)의 한 컴포넌트의 위치 변화, 사용자와 전자 기기(800)의 접촉여부, 전자 기기(800)의 방위 또는 가속/감속 및 전자 기기(800)의 온도 변화를 검출할 수도 있다. 센서 컴포넌트(814)는 아무런 물리적 접촉 없이 근처 물체의 존재를 검출하도록 구성되는 근접 센서를 포함할 수 있다. 센서 컴포넌트(814)는 이미징 애플리케이션에서 사용되는 CMOS 또는 CCD 이미지 센서와 같은 광 센서를 포함할 수도 있다. 일부 실시예에서, 상기 센서 컴포넌트(814)는 가속도 센서, 자이로스코프 센서, 자기 센서, 압력 센서 또는 온도 센서를 포함할 수도 있다.
통신 컴포넌트(816)는 전자 기기(800)와 다른 기기 간의 유선 또는 무선 방식의 통신에 편리하도록 구성된다. 전자 기기(800)는 WiFi, 2G 또는 3G, 또는 이들의 조합과 같은 통신 표준 기반 무선 네트워크에 접속할 수 있다. 예시적인 실시예에서, 통신 컴포넌트(816)는 방송 채널을 통해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 예시적인 실시예에서, 상기 통신 컴포넌트(816)는 근거리 무선 통신(NFC) 모듈을 더 포함하여 단거리 통신을 촉진할 수 있다. 예를 들어, NFC모듈은 무선 주파수 식별(RFID) 기술, 적외선 데이터 통신(IrDA) 기술, 초광대역(UWB) 기술, 블루투스(BT) 기술 및 다른 기술에 기반하여 구현될 수 있다.
예시적인 실시예에서, 전자 기기(800)는 하나 또는 복수 개 응용 주문형 집적회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 처리 장치(DSPD), 프로그래머블 논리 소자(PLD), 필드 프로그램 가능 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로프로세서 또는 다른 전자소자로 구현되어 전술한 방법을 수행할 수 있다.
예시적인 실시예에서, 비 임시적 컴퓨터 판독 가능한 저장 매체를 더 제공한다. 예를 들어 컴퓨터 프로그램 명령어가 포함된 메모리(804). 전술한 컴퓨터 프로그램 명령어는 전자 기기(800)의 프로세서(820)에 의해 실행되어 전술한 방법을 완료할 수 있다.
도 15는 본 발명의 실시예에 따른 전자 기기(1900)의 블록도를 도시한다. 예를 들어, 전자 기기(1900)는 서버로 제공될 수 있다. 도 15를 참조하면, 전자 기기(1900)는 처리 컴포넌트(1922)를 포함하며, 처리 컴포넌트(1922)는 하나 또는 복수 개의 프로세서, 및 메모리(1932)를 대표로 하는 메모리 자원을 더 포함한다. 메모리 자원은 처리 컴포넌트(1222)에 의해 실행될 수 있는 명령어, 예를 들어, 애플리케이션을 저장한다. 메모리(1932)에 저장된 애플리케이션은 하나 또는 하나 이상의 각각 한 그룹의 명령에 대응하는 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(1922)는 전술한 방법을 수행하기 위하여 명령어를 실행하도록 구성된다.
전자 기기(1900)는 전자 기기(1900)의 전원 관리를 수행하도록 구성되는 하나의 전원 컴포넌트(1926), 전자 기기(1900)를 네트워크에 연결하는 하나의 유선 또는 무선 네트워크 인터페이스(1950) 및 하나의 입력/출력(I/O) 인터페이스(1958)를 더 포함할 수 있다. 전자 기기(1900)는 메모리(1932)에 저장된Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 등과 같은 운영체제에 기반하여 동작할 수 있다.
예시적인 실시예에서, 비 임시적 컴퓨터 판독 가능한 저장 매체를 더 제공한다. 예를 들어 컴퓨터 프로그램 명령어가 포함된 메모리(1932). 전술한 컴퓨터 프로그램 명령어는 전자 기기(1900)의 처리 컴포넌트(1922)에 의해 실행되어 전술한 방법을 완료할 수 있다.
본 발명은 시스템, 방법 및/또는 컴퓨터 프로그램 제품일 수 있다. 컴퓨터 프로그램 제품은 프로세서가 본 발명의 각 측면을 구현하도록 하는 컴퓨터 판독 가능한 프로그램 명령어가 로딩된 컴퓨터 판독 가능한 저장 매체를 포함한다.
컴퓨터 판독 가능한 저장 매체는 명령어 실행 기기에 의해 사용되는 명령어를 유지 및 저장할 수 있는 유형 기기일 수 있다. 컴퓨터 판독 가능한 저장 매체는 예를 들어 전기적 저장 장치, 자기 저장 장치, 광 저장 장치, 전자기 저장 장치, 반도체 저장 장치 또는 이들의 임의의 적절한 조합일 수 있으나 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더 구체적인 예(비 완전 리스트)는 휴대용 컴퓨터 디스크, 하드 디스크, 램(RAM), 롬(ROM), 이피롬(EPROM 또는플래시), 정적 램(SRAM), 시디롬(CD-ROM), 디브이디(DVD), 메모리 스틱, 플로피 디스크, 명령어가 저장된 펀치 카드 또는 홈 내 돌출 구조와 같은 기계적 인코딩 기기, 및 이들의 임의의 적절한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능한 저장 매체는 무선 전파 또는 다른 자유롭게 전파되는 전자기파, 도파관 또는 다른 전송 매체를 통해 전파되는 전자기파(예를 들어, 광섬유 케이블을 통한 광 펄스), 또는 전선을 통해 전송되는 전기 신호와 같은 순간 신호 자체로 해석되지 않는다.
여기서 설명되는 컴퓨터 판독 가능한 프로그램 명령어는 컴퓨터 판독 가능한 저장 매체로부터 각 컴퓨팅/처리 기기에 다운로드되거나, 인터넷, 랜, 광역망 및/또는 무선망과 같은 네트워크를 통해 외부 컴퓨터 또는 외부 저장 장치에 다운로드될 수 있다. 네트워크는 구리 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 스위치, 게이트웨이 컴퓨터 및/또는 에지 서버를 포함할 수 있다. 각 컴퓨팅/처리 기기 중의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 판독 가능한 프로그램 명령어를 수신하고, 각 컴퓨팅/처리 기기 중의 컴퓨터 판독 가능한 저장 매체에 저장하도록 컴퓨터 판독 가능한 프로그램 명령어를 전달한다.
본 발명의 동작을 수행하기 위한 컴퓨터 프로그램 명령어는 어셈블리 명령어, 명령어 세트 아키텍처 (ISA) 명령어, 머신 명령어, 머신 의존 명령어, 마이크로 코드, 펌웨어 명령어, 상태 설정 데이터, 또는 하나 또는 복수 개의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 객체 코드일 수 있다. 상기 프로그래밍 언어에는 Smalltalk, C++ 등과 같은 객체 지향 프로그래밍 언어, 및 "C" 언어 또는 유사한 프로그래밍 언어와 같은 일반적인 절차적 프로그래밍 언어가 포함된다. 컴퓨터 판독 가능한 프로그램 명령어는 사용자 컴퓨터에서 완전히 실행되거나, 사용자 컴퓨터에서 부분적으로 실행되거나, 독립적인 소프트웨어 패키지로서 실행되거나, 사용자 컴퓨터와 원격 컴퓨터에서 부분적으로 실행되거나 원격 컴퓨터나 서버에서 완전히 실행될 수있다. 원격 컴퓨터의 경우, 원격 컴퓨터는 랜(LAN) 또는 광역망(WAN)을 포함한 임의의 유형의 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 공급자를 이용하여 인터넷을 통해 연결). 일부 실시예에서, 프로그래머블 논리 회로, 현장 프로그래머블 게이트 어레이(FPGA) 또는 프로그램머블 논리 어레이 (PLA)와 같은 전자 회로는 컴퓨터 판독 가능한 프로그램 명령어의 상태 정보를 이용하여 개인화된다. 상기 전자 회로는 컴퓨터 판독 가능한 프로그램 명령어를 실행하여 본 발명의 다양한 측면을 구현할 수 있다.
여기서 본 발명의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 본 발명의 각 측면을 설명하였다. 이해할 것은, 흐름도 및/또는 블록도의 각 블록 및 흐름도 및/또는 블록도 중 각 블록의 조합은 모두 컴퓨터 판독 가능한 프로그램 명령어에 의해 구현될 수 있다.
이러한 컴퓨터 판독 가능한 프로그램 명령어는 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그램머블 데이터 처리 장치의 프로세서에 제공되어, 이러한 명령어가 컴퓨터 또는 다른 프로그램머블 데이터 처리 장치의 프로세서에 의해 실행될 때 흐름도 및/또는 블록도 중 하나 또는 복수 개의 블록에 규정된 기능/동작을 구현하는 장치를 생성하도록 머신을 생성한다. 이러한 컴퓨터 판독 가능한 명령어는 컴퓨터 판독 가능한 저장 매체에 저장될 수도 있다. 이러한 명령어는 컴퓨터, 프로그램머블처리 장치 및/또는 다른 기기가 특정의 방식으로 동작하도록 한다. 따라서, 명령어가 저장된 컴퓨터 판독 가능한 저장 매체는 흐름도 및/또는 블록도 중 하나 또는 복수 개의 블록에 규정된 기능/동작의 각 측면을 구현하는 명령어를 포함하는 제품을 포함한다.
컴퓨터 판독 가능한 프로그램 명령어는 또한 컴퓨터, 다른 프로그램머블 데이터 처리 장치 또는 다른 기기에 로딩되어, 컴퓨터로 구현되는 과정을 생성하기 위해 컴퓨터, 다른 프로그램머블 데이터 처리 장치 또는 다른 기기에서 일련의 동작 단계가 수행되도록 할 수 있다. 따라서, 컴퓨터, 다른 프로그램머블 데이터 처리 장치 또는 다른 기기에서 실행되는 명령어는 흐름도 및/또는 블록도 중 하나 또는 복수 개의 블록에 규정된 기능/동작을 구현할 수 있다.
도면 중 흐름도 및 블록도는 본 발명의 복수 개의 실시 예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 가능한 구현의 아키텍처, 기능 및 동작을 도시한다. 이와 관련하여, 흐름도 또는 블록도 중 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 명령어의 일부를 나타낼 수 있다. 상기 모듈, 프로그램 세그먼트 또는 명령어의 일부는 규정된 논리 기능을 구현하는 하나 또는 복수 개의 실행 가능한 명령어를 포함한다. 일부 대안적인 구현에서, 블록에 표시된 기능은 또한 도면에 표시된 것과 다른 순서를 벗어나서 발생할 수있다. 예를 들어, 두 개의 연속적인 블록은 실제로 실질적으로 병렬로 실행될 수 있으며, 때로는 관련 기능에 따라 역순으로 실행될 수 있다. 또한 유의할 것은, 블록도 및/또는 흐름도 중 각 블록, 및 블록도 및/또는 흐름도 중 블록의 조합은 규정된 기능 또는 동작을 수행하는 전용 하드웨어 기반 시스템으로, 또는 전용 하드웨어와 컴퓨터 명령어의 조합으로 구현될 수 있다.
이상, 본 발명의 각 실시예를 설명하였지만, 전술한 설명은 예시적이며, 철저하지 않으며, 개시된 각 실시예에 한정되지 않는다. 설명된 각 실시예의 범위 및 정신을 벗어나지 않으면서 많은 수정 및 변형이 통상의 기술자에게 명백할 것이다. 본 명세서에서 사용된 용어는 각 실시예의 원리, 실제 응용 또는 시장에서의 기술적 개선을 가장 잘 설명하거나 통상의 기술자가 본 명세서에 개시된 각 실시예를 이해할 수 있도록 선택된다.

Claims (30)

  1. 키 포인트 검출 방법으로서,
    입력 이미지에 대한 복수 개의 스케일의 제1 특징 맵을 획득하는 단계 - 각 제1 특징 맵의 스케일은 배수 관계를 가짐 - ;
    제1 피라미드 신경망을 이용하여 각 상기 제1 특징 맵에 대해 순방향 처리를 진행하여 상기 제1 특징 맵 각각에 일대일로 대응하는 제2 특징 맵을 얻는 단계 - 상기 제2 특징 맵은, 상기 제2 특징 맵에 일대일로 대응하는 상기 제1 특징 맵과 스케일이 동일함 - ;
    제2 피라미드 신경망을 이용하여 상기 제2 특징 맵 각각에 대해 역방향 처리를 진행하여 상기 제2 특징 맵 각각에 일대일로 대응하는 제3 특징 맵을 얻는 단계 - 상기 제2 특징 맵 각각에 대해 역방향 처리를 진행하는 순서와 각각의 상기 제2 특징 맵을 얻는 순서는 서로 반대되고, 상기 제3 특징 맵은, 상기 제3 특징 맵에 일대일로 대응하는 상기 제2 특징 맵과 스케일이 동일함 - ; 및
    각 상기 제3 특징 맵에 대해 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 입력 이미지 중의 각 키 포인트의 위치를 획득하는 단계를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  2. 청구항 1에 있어서,
    상기 입력 이미지에 대한 복수 개의 스케일의 제1 특징 맵을 획득하는 단계는,
    상기 입력 이미지를 기설정된 규격의 제1 이미지로 조절하는 단계 및
    상기 제1 이미지를 잔차 신경망에 입력하고, 제1 이미지에 대해 상이한 샘플링 주파수의 다운 샘플링 처리를 수행하여 복수 개의 상이한 스케일의 제1 특징 맵을 얻는 단계를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  3. 청구항 1에 있어서,
    상기 순방향 처리는 제1 컨볼루션 처리 및 제1 선형 보간 처리를 포함하고, 상기 역방향 처리는 제2 컨볼루션 처리 및 제2 선형 보간 처리를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  4. 청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
    상기 제1 피라미드 신경망을 이용하여 각 상기 제1 특징 맵에 대해 순방향 처리를 진행하여 상기 제1 특징 맵 각각에 일대일로 대응하는 제2 특징 맵을 얻는 단계는,
    제1 컨볼루션 커널을 이용하여 제1 특징 맵
    Figure 112020044446626-pct00443
    중의 제1 특징 맵
    Figure 112020044446626-pct00444
    에 대해 컨볼루션 처리를 진행하여, 제1 특징 맵
    Figure 112020044446626-pct00445
    에 대응하는 제2 특징 맵
    Figure 112020044446626-pct00446
    을 획득하는 단계 - n은 제1 특징 맵의 개수를 나타내고, n은 1보다 큰 정수임 - ;
    상기 제2 특징 맵
    Figure 112020044446626-pct00447
    에 대해 선형 보간 처리를 수행하여 제2 특징 맵
    Figure 112020044446626-pct00448
    에 대응하는 제1 중간 특징 맵
    Figure 112020044446626-pct00449
    을 획득하는 단계 - 제1 중간 특징 맵
    Figure 112020044446626-pct00450
    의 스케일은 제1 특징 맵 Cn-1의 스케일과 동일함 - ;
    제2 컨볼루션 커널을 이용하여 제1 특징 맵
    Figure 112020044446626-pct00451
    이외의 각 제1 특징 맵
    Figure 112020044446626-pct00452
    에 대해 컨볼루션 처리를 진행하여, 제1 특징 맵
    Figure 112020044446626-pct00453
    에 일대일로 각각 대응하는 제2 중간 특징 맵
    Figure 112020044446626-pct00454
    을 얻는 단계 - 상기 제2 중간 특징 맵의 스케일은, 상기 제2 중간 특징 맵의 스케일에 일대일로 대응하는 제1 특징 맵과 스케일이 동일함 - ; 및
    상기 제2 특징 맵
    Figure 112020044446626-pct00455
    및 각 상기 제2 중간 특징 맵
    Figure 112020044446626-pct00456
    에 기반하여, 제2 특징 맵
    Figure 112020044446626-pct00457
    및 제1 중간 특징 맵
    Figure 112020044446626-pct00458
    을 얻는 단계 - 상기 제2 특징 맵
    Figure 112020044446626-pct00459
    는 상기 제2 중간 특징 맵
    Figure 112020044446626-pct00460
    와 상기 제1 중간 특징 맵
    Figure 112020044446626-pct00461
    의 중첩 처리를 통해 얻어지고, 제1 중간 특징 맵
    Figure 112020044446626-pct00462
    는 대응하는 제2 특징 맵
    Figure 112020044446626-pct00463
    의 선형 보간에 의해 얻어지며, 상기 제2 중간 특징 맵
    Figure 112020044446626-pct00464
    와 제1 중간 특징 맵
    Figure 112020044446626-pct00465
    의 스케일은 동일하며, i는 1보다 크거나 같고 n보다 작은 정수임 - 를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  5. 청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
    상기 제2 피라미드 신경망을 이용하여 상기 제2 특징 맵 각각에 대해 역방향 처리를 진행하여 상기 제2 특징 맵 각각에 일대일로 대응하는 제3 특징 맵을 얻는 단계는,
    제3 컨볼루션 커널을 이용하여 제2 특징 맵
    Figure 112020044446626-pct00466
    중의 제2 특징 맵
    Figure 112020044446626-pct00467
    에 대해 컨볼루션 처리를 진행하여, 제2 특징 맵
    Figure 112020044446626-pct00468
    에 대응하는 제3 특징 맵
    Figure 112020044446626-pct00469
    을 획득하는 단계 - m은 제2 특징 맵의 개수를 나타내고, m은 1보다 큰 정수임 - ;
    제4 컨볼루션 커널을 이용하여 제2 특징 맵
    Figure 112020044446626-pct00470
    에 대해 컨볼루션 처리를 진행하여, 대응하는 제3 중간 특징 맵
    Figure 112020044446626-pct00471
    을 각각 얻는 단계 - 제3 중간 특징 맵의 스케일은 대응하는 제2 특징 맵의 스케일과 동일함 - ;
    제5 컨볼루션 커널을 이용하여 제3 특징 맵
    Figure 112020044446626-pct00472
    에 대해 컨볼루션 처리를 진행하여 제3 특징 맵
    Figure 112020044446626-pct00473
    에 대응하는 제4 중간 특징 맵
    Figure 112020044446626-pct00474
    을 얻는 단계 및
    각 제3 중간 특징 맵
    Figure 112020044446626-pct00475
    및 제4 중간 특징 맵
    Figure 112020044446626-pct00476
    을 이용하여, 제3 특징 맵
    Figure 112020044446626-pct00477
    및 제4 중간 특징 맵
    Figure 112020044446626-pct00478
    을 얻는 단계 - 제3 특징 맵
    Figure 112020044446626-pct00479
    는 제3 중간 특징 맵
    Figure 112020044446626-pct00480
    와 제4 중간 특징 맵
    Figure 112020044446626-pct00481
    의 중첩 처리를 통해 얻어지고, 제4 중간 특징 맵
    Figure 112020044446626-pct00482
    은 대응하는 제3 특징 맵
    Figure 112020044446626-pct00483
    이 제5 컨볼루션 커널 컨볼루션 처리를 통해 획득되며, j는 1보다 크고 m보다 작거나 같음 - 를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  6. 청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
    각 상기 제3 특징 맵에 대해 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 입력 이미지 중의 각 키 포인트의 위치를 획득하는 단계는,
    각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻는 단계 및
    상기 제4 특징 맵에 기반하여 상기 입력 이미지 중 각 키 포인트의 위치를 획득하는 단계를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  7. 청구항 6에 있어서,
    상기 각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻는 단계는,
    선형 보간의 방식을 이용하여, 각 제3 특징 맵을 스케일이 동일한 특징 맵으로 조정하는 단계 및
    상기 스케일이 동일한 특징 맵을 연결하여 상기 제4 특징 맵을 얻는 단계를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  8. 청구항 6에 있어서,
    상기 각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻기 전에, 제1 그룹의 제3 특징 맵을 상이한 병목 블록 구조에 입력하여 컨볼루션 처리를 진행함으로써, 업데이트된 제3 특징 맵을 각각 얻는 단계 - 각 상기 병목 블록 구조는 상이한 개수의 컨볼루션 모듈을 포함하며, 상기 제3 특징 맵은 제1 그룹의 제3 특징 맵 및 제2 그룹의 제3 특징 맵을 포함하고, 상기 제1 그룹의 제3 특징 맵 및 상기 제2 그룹의 제3 특징 맵은 모두 적어도 하나의 제3 특징 맵을 포함함 - 를 더 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  9. 청구항 8에 있어서,
    상기 각 제3 특징 맵에 대해 특징 융합 처리를 진행하여 제4 특징 맵을 얻는 단계는,
    선형 보간의 방식을 이용하여, 각 상기 업데이트된 제3 특징 맵 및 상기 제2 그룹의 제3 특징 맵을 스케일이 동일한 특징 맵으로 조정하는 단계 및
    상기 스케일이 동일한 특징 맵을 연결하여 상기 제4 특징 맵을 얻는 단계를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  10. 청구항 6에 있어서,
    상기 제4 특징 맵에 기반하여 상기 입력 이미지 중 각 키 포인트의 위치를 획득하는 단계는,
    제5 컨볼루션 커널을 이용하여 상기 제4 특징 맵에 대해 차원 축소 처리를 진행하는 단계 및
    차원 축소 처리된 제4 특징 맵을 이용하여 입력 이미지의 키 포인트의 위치를 결정하는 단계를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  11. 청구항 6에 있어서,
    상기 제4 특징 맵에 기반하여 상기 입력 이미지 중 각 키 포인트의 위치를 획득하는 단계는,
    제5 컨볼루션 커널을 이용하여 상기 제4 특징 맵에 대해 차원 축소 처리를 진행하는 단계
    컨볼루션 블록 주의력 모듈을 이용하여 차원 축소 처리된 제4 특징 맵 중의 특징에 대해 정제 처리를 진행하여, 정제된 특징 맵을 얻는 단계 및
    정제된 특징 맵을 이용하여 상기 입력 이미지의 키 포인트의 위치를 결정하는 단계를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  12. 청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
    상기 방법은 훈련 이미지 데이터 세트를 이용하여 상기 제1 피라미드 신경망을 훈련시키는 단계를 더 포함하며, 상기 훈련 이미지 데이터 세트를 이용하여 상기 제1 피라미드 신경망을 훈련시키는 단계는,
    제1 피라미드 신경망을 이용하여 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제1 특징 맵에 대해 상기 순방향 처리를 진행하여, 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제2 특징 맵을 얻는 단계
    각 제2 특징 맵을 이용하여 식별된 키 포인트를 결정하는 단계
    제1 손실 함수에 따라 상기 키 포인트의 제1 손실 값을 얻는 단계 및
    상기 제1 손실 값을 이용하여 훈련 횟수가 설정된 제1 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중의 각 컨볼루션 커널을 역방향으로 조절하는 단계를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  13. 청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
    상기 방법은 훈련 이미지 데이터 세트를 이용하여 상기 제2 피라미드 신경망을 훈련시키는 단계를 더 포함하며, 상기 훈련 이미지 데이터 세트를 이용하여 상기 제2 피라미드 신경망을 훈련시키는 단계는,
    제2 피라미드 신경망을 이용하여 상기 제1 피라미드 신경망에 의해 출력된, 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제2 특징 맵에 대해 상기 역방향 처리를 진행하여, 상기 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제3 특징 맵을 얻는 단계
    각 제3 특징 맵을 이용하여 식별된 키 포인트를 결정하는 단계
    제2 손실 함수에 따라 식별된 각 키 포인트의 제2 손실 값을 얻는 단계
    상기 제2 손실 값을 이용하여 훈련 횟수가 설정된 제2 횟수 임계치에 도달할 때까지 상기 제2 피라미드 신경망 중 컨볼루션 커널을 역방향으로 조절하는 단계 또는,
    상기 제2 손실 값을 이용하여 훈련 횟수가 설정된 제2 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중 컨볼루션 커널 및 제2 피라미드 신경망 중 컨볼루션 커널을 역방향으로 조절하는 단계를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  14. 청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
    특징 추출 네트워크를 통해 각 상기 제3 특징 맵에 대한 특징 융합 처리를 수행하며,
    특징 추출 네트워크를 통해 각 상기 제3 특징 맵에 대한 특징 융합 처리를 수행하기 전에, 상기 방법은 훈련 이미지 데이터 세트를 이용하여 상기 특징 추출 네트워크를 훈련시키는 단계를 더 포함하며, 상기 훈련 이미지 데이터 세트를 이용하여 상기 특징 추출 네트워크를 훈련시키는 단계는,
    특징 추출 네트워크를 이용하여 상기 제2 피라미드 신경망에 의해 출력된, 훈련 이미지 데이터 세트 중 각 이미지에 대응하는 제3 특징 맵에 대해 상기 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 훈련 이미지 데이터 세트 중 각 이미지의 키 포인트를 식별하는 단계
    제3 손실 함수에 따라 각 키 포인트의 제3 손실 값을 얻는 단계
    상기 제3 손실 값을 이용하여 훈련 횟수가 설정된 제3 횟수 임계치에 도달할 때까지 상기 특징 추출 네트워크의 파라미터를 역방향으로 조절하는 단계 또는, 상기 제3 손실 함수를 이용하여 훈련 횟수가 설정된 제3 횟수 임계치에 도달할 때까지 상기 제1 피라미드 신경망 중 컨볼루션 커널 파라미터, 제2 피라미드 신경망 중 컨볼루션 커널 파라미터 및 상기 특징 추출 네트워크의 파라미터를 역방향으로 조절하는 단계를 포함하는 것을 특징으로 하는 키 포인트 검출 방법.
  15. 키 포인트 검출 장치로서,
    입력 이미지에 대한 복수 개의 스케일의 제1 특징 맵을 획득하도록 구성되는 멀티 스케일 특징 획득 모듈 - 각 제1 특징 맵의 스케일은 배수 관계를 가짐 - ;
    제1 피라미드 신경망을 이용하여 각 상기 제1 특징 맵에 대해 순방향 처리를 진행하여 상기 제1 특징 맵 각각에 일대일로 대응하는 제2 특징 맵을 얻도록 구성되는 순방향 처리 모듈 - 상기 제2 특징 맵은, 상기 제2 특징 맵에 일대일로 대응하는 상기 제1 특징 맵과 스케일이 동일함 - ;
    제2 피라미드 신경망을 이용하여 상기 제2 특징 맵 각각에 대해 역방향 처리를 진행하여 상기 제2 특징 맵 각각에 일대일로 대응하는 제3 특징 맵을 얻도록 구성되는 역방향 처리 모듈 - 상기 제2 특징 맵 각각에 대해 역방향 처리를 진행하는 순서와 각각의 상기 제2 특징 맵을 얻는 순서는 서로 반대되고, 상기 제3 특징 맵은, 상기 제3 특징 맵에 일대일로 대응하는 상기 제2 특징 맵과 스케일이 동일함 - ; 및
    각 상기 제3 특징 맵에 대해 특징 융합 처리를 진행하며, 특징 융합 처리된 특징 맵을 이용하여 상기 입력 이미지 중의 각 키 포인트의 위치를 획득하도록 구성되는 키 포인트 검출 모듈을 포함하는 것을 특징으로 하는 키 포인트 검출 장치.
  16. 전자 기기로서,
    프로세서 및
    프로세서에서 실행 가능한 명령어를 저장하는 메모리를 포함하되
    상기 프로세서는 청구항 1 내지 청구항 3 중 어느 한 항에 따른 방법을 수행하도록 구성되는 것을 특징으로 하는 전자 기기.
  17. 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능한 저장 매체로서, 상기 컴퓨터 프로그램 명령어가 프로세서에 의해 실행될 때 청구항 1 내지 청구항 3 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
  18. 컴퓨터 판독 가능한 저장 매체에 저장되는 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 청구항 1 내지 청구항 3 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 컴퓨터 프로그램.
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
KR1020207012580A 2018-11-16 2019-04-22 키 포인트 검출 방법 및 장치, 전자 기기 및 저장 매체 KR102394354B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811367869.4 2018-11-16
CN201811367869.4A CN109614876B (zh) 2018-11-16 2018-11-16 关键点检测方法及装置、电子设备和存储介质
PCT/CN2019/083721 WO2020098225A1 (zh) 2018-11-16 2019-04-22 关键点检测方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
KR20200065033A KR20200065033A (ko) 2020-06-08
KR102394354B1 true KR102394354B1 (ko) 2022-05-04

Family

ID=66003175

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207012580A KR102394354B1 (ko) 2018-11-16 2019-04-22 키 포인트 검출 방법 및 장치, 전자 기기 및 저장 매체

Country Status (7)

Country Link
US (1) US20200250462A1 (ko)
JP (1) JP6944051B2 (ko)
KR (1) KR102394354B1 (ko)
CN (7) CN113569798B (ko)
SG (1) SG11202003818YA (ko)
TW (1) TWI720598B (ko)
WO (1) WO2020098225A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024117883A1 (ko) * 2022-12-02 2024-06-06 주식회사 엘지 경영개발원 기계 학습 기반 이상 검출 장치 및 방법

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102227583B1 (ko) * 2018-08-03 2021-03-15 한국과학기술원 딥 러닝 기반의 카메라 캘리브레이션 방법 및 장치
CN113569798B (zh) * 2018-11-16 2024-05-24 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
JP7103240B2 (ja) * 2019-01-10 2022-07-20 日本電信電話株式会社 物体検出認識装置、方法、及びプログラム
CN110378253B (zh) * 2019-07-01 2021-03-26 浙江大学 一种基于轻量化神经网络的实时关键点检测方法
CN110378976B (zh) * 2019-07-18 2020-11-13 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110705563B (zh) * 2019-09-07 2020-12-29 创新奇智(重庆)科技有限公司 一种基于深度学习的工业零件关键点检测方法
CN110647834B (zh) * 2019-09-18 2021-06-25 北京市商汤科技开发有限公司 人脸和人手关联检测方法及装置、电子设备和存储介质
KR20210062477A (ko) * 2019-11-21 2021-05-31 삼성전자주식회사 전자 장치 및 그 제어 방법
US20220092735A1 (en) * 2019-11-21 2022-03-24 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11080833B2 (en) * 2019-11-22 2021-08-03 Adobe Inc. Image manipulation using deep learning techniques in a patch matching operation
WO2021146890A1 (en) * 2020-01-21 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for object detection in image using detection model
CN111414823B (zh) * 2020-03-12 2023-09-12 Oppo广东移动通信有限公司 人体特征点的检测方法、装置、电子设备以及存储介质
CN111382714B (zh) * 2020-03-13 2023-02-17 Oppo广东移动通信有限公司 图像检测方法、装置、终端及存储介质
CN111401335B (zh) * 2020-04-29 2023-06-30 Oppo广东移动通信有限公司 一种关键点检测方法及装置、存储介质
CN111709428B (zh) * 2020-05-29 2023-09-15 北京百度网讯科技有限公司 图像中关键点位置的识别方法、装置、电子设备及介质
CN111784642B (zh) * 2020-06-10 2021-12-28 中铁四局集团有限公司 一种图像处理方法、目标识别模型训练方法和目标识别方法
CN111695519B (zh) * 2020-06-12 2023-08-08 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质
US11847823B2 (en) * 2020-06-18 2023-12-19 Apple Inc. Object and keypoint detection system with low spatial jitter, low latency and low power usage
CN111709945B (zh) * 2020-07-17 2023-06-30 深圳市网联安瑞网络科技有限公司 一种基于深度局部特征的视频拷贝检测方法
CN112131925B (zh) * 2020-07-22 2024-06-07 随锐科技集团股份有限公司 一种多通道特征空间金字塔的构造方法
CN112149558A (zh) * 2020-09-22 2020-12-29 驭势科技(南京)有限公司 一种用于关键点检测的图像处理方法、网络和电子设备
CN112132011B (zh) * 2020-09-22 2024-04-26 深圳市捷顺科技实业股份有限公司 一种面部识别方法、装置、设备及存储介质
CN112232361B (zh) * 2020-10-13 2021-09-21 国网电子商务有限公司 图像处理的方法及装置、电子设备及计算机可读存储介质
CN112364699A (zh) * 2020-10-14 2021-02-12 珠海欧比特宇航科技股份有限公司 基于加权损失融合网络的遥感图像分割方法、装置及介质
CN112257728B (zh) * 2020-11-12 2021-08-17 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备以及存储介质
CN112329888B (zh) * 2020-11-26 2023-11-14 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备以及存储介质
CN112581450B (zh) * 2020-12-21 2024-04-16 北京工业大学 基于膨胀卷积金字塔与多尺度金字塔的花粉检测方法
CN112800834B (zh) * 2020-12-25 2022-08-12 温州晶彩光电有限公司 一种基于跪拜行为识别来定位炫彩射灯的方法及系统
CN112836710B (zh) * 2021-02-23 2022-02-22 浙大宁波理工学院 一种基于特征金字塔网络的房间布局估计获取方法与系统
KR20220125719A (ko) * 2021-04-28 2022-09-14 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 목표 대상 검측 모델을 트레이닝하는 방법 및 장비, 목표 대상을 검측하는 방법 및 장비, 전자장비, 저장매체 및 컴퓨터 프로그램
CN113902903A (zh) * 2021-09-30 2022-01-07 北京工业大学 一种基于下采样的双注意力多尺度融合方法
KR102647320B1 (ko) * 2021-11-23 2024-03-12 숭실대학교산학협력단 객체 추적 장치 및 방법
CN114022657B (zh) * 2022-01-06 2022-05-24 高视科技(苏州)有限公司 一种屏幕缺陷分类方法、电子设备及存储介质
CN114724175B (zh) * 2022-03-04 2024-03-29 亿达信息技术有限公司 行人图像的检测网络、检测方法、训练方法、电子设备和介质
WO2024011281A1 (en) * 2022-07-11 2024-01-18 James Cook University A method and a system for automated prediction of characteristics of aquaculture animals
CN116738296B (zh) * 2023-08-14 2024-04-02 大有期货有限公司 机房状况综合智能监控系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346607A (zh) * 2014-11-06 2015-02-11 上海电机学院 基于卷积神经网络的人脸识别方法
CN108280455A (zh) * 2018-01-19 2018-07-13 北京市商汤科技开发有限公司 人体关键点检测方法和装置、电子设备、程序和介质
CN108764133A (zh) * 2018-05-25 2018-11-06 北京旷视科技有限公司 图像识别方法、装置及系统

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0486684A1 (en) * 1990-05-22 1992-05-27 International Business Machines Corporation Virtual neurocomputer architectures for neural networks
CN101510257B (zh) * 2009-03-31 2011-08-10 华为技术有限公司 一种人脸相似度匹配方法及装置
CN101980290B (zh) * 2010-10-29 2012-06-20 西安电子科技大学 抗噪声环境多聚焦图像融合方法
CN102622730A (zh) * 2012-03-09 2012-08-01 武汉理工大学 基于非降采样Laplacian金字塔和BEMD的遥感图像融合处理方法
CN103049895B (zh) * 2012-12-17 2016-01-20 华南理工大学 基于平移不变剪切波变换的多模态医学图像融合方法
CN103279957B (zh) * 2013-05-31 2015-11-25 北京师范大学 一种基于多尺度特征融合的遥感图像感兴趣区域提取方法
CN103793692A (zh) * 2014-01-29 2014-05-14 五邑大学 低分辨率多光谱掌纹、掌静脉实时身份识别方法与系统
JP6474210B2 (ja) * 2014-07-31 2019-02-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 大規模画像データベースの高速検索手法
EP3204888A4 (en) * 2014-10-09 2017-10-04 Microsoft Technology Licensing, LLC Spatial pyramid pooling networks for image processing
US9552510B2 (en) * 2015-03-18 2017-01-24 Adobe Systems Incorporated Facial expression capture for character animation
CN104793620B (zh) * 2015-04-17 2019-06-18 中国矿业大学 基于视觉特征捆绑和强化学习理论的避障机器人
CN104866868B (zh) * 2015-05-22 2018-09-07 杭州朗和科技有限公司 基于深度神经网络的金属币识别方法和装置
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
CN105184779B (zh) * 2015-08-26 2018-04-06 电子科技大学 一种基于快速特征金字塔的车辆多尺度跟踪方法
CN105912990B (zh) * 2016-04-05 2019-10-08 深圳先进技术研究院 人脸检测的方法及装置
GB2549554A (en) * 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image
US10032067B2 (en) * 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
US10702242B2 (en) * 2016-06-20 2020-07-07 Butterfly Network, Inc. Augmented reality interface for assisting a user to operate an ultrasound device
CN106339680B (zh) * 2016-08-25 2019-07-23 北京小米移动软件有限公司 人脸关键点定位方法及装置
US10365617B2 (en) * 2016-12-12 2019-07-30 Dmo Systems Limited Auto defect screening using adaptive machine learning in semiconductor device manufacturing flow
EP3573520A4 (en) * 2017-01-27 2020-11-04 Arterys Inc. AUTOMATED SEGMENTATION USING FULLY CONVOLUTIVE NETWORKS
CN108229490B (zh) * 2017-02-23 2021-01-05 北京市商汤科技开发有限公司 关键点检测方法、神经网络训练方法、装置和电子设备
CN106934397B (zh) * 2017-03-13 2020-09-01 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备
WO2018169639A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc Recognition in unlabeled videos with domain adversarial learning and knowledge distillation
CN108664981B (zh) * 2017-03-30 2021-10-26 北京航空航天大学 显著图像提取方法及装置
CN107194318B (zh) * 2017-04-24 2020-06-12 北京航空航天大学 目标检测辅助的场景识别方法
CN108229281B (zh) * 2017-04-25 2020-07-17 北京市商汤科技开发有限公司 神经网络的生成方法和人脸检测方法、装置及电子设备
CN108229497B (zh) * 2017-07-28 2021-01-05 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
CN107909041A (zh) * 2017-11-21 2018-04-13 清华大学 一种基于时空金字塔网络的视频识别方法
CN108182384B (zh) * 2017-12-07 2020-09-29 浙江大华技术股份有限公司 一种人脸特征点定位方法及装置
CN108021923B (zh) * 2017-12-07 2020-10-23 上海为森车载传感技术有限公司 一种用于深度神经网络的图像特征提取方法
CN108229445A (zh) * 2018-02-09 2018-06-29 深圳市唯特视科技有限公司 一种基于级联金字塔网络的多人姿态估计方法
CN108664885B (zh) * 2018-03-19 2021-08-31 杭州电子科技大学 基于多尺度级联HourGlass网络的人体关键点检测方法
CN108520251A (zh) * 2018-04-20 2018-09-11 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN108596087B (zh) * 2018-04-23 2020-09-15 合肥湛达智能科技有限公司 一种基于双网络结果的驾驶疲劳程度检测回归模型
CN113569798B (zh) * 2018-11-16 2024-05-24 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346607A (zh) * 2014-11-06 2015-02-11 上海电机学院 基于卷积神经网络的人脸识别方法
CN108280455A (zh) * 2018-01-19 2018-07-13 北京市商汤科技开发有限公司 人体关键点检测方法和装置、电子设备、程序和介质
CN108764133A (zh) * 2018-05-25 2018-11-06 北京旷视科技有限公司 图像识别方法、装置及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024117883A1 (ko) * 2022-12-02 2024-06-06 주식회사 엘지 경영개발원 기계 학습 기반 이상 검출 장치 및 방법

Also Published As

Publication number Publication date
SG11202003818YA (en) 2020-06-29
KR20200065033A (ko) 2020-06-08
CN113591755B (zh) 2024-04-16
CN113591755A (zh) 2021-11-02
TWI720598B (zh) 2021-03-01
CN113569796B (zh) 2024-06-11
CN113569798A (zh) 2021-10-29
CN113591754B (zh) 2022-08-02
CN113591754A (zh) 2021-11-02
TW202020806A (zh) 2020-06-01
CN109614876B (zh) 2021-07-27
WO2020098225A1 (zh) 2020-05-22
JP2021508388A (ja) 2021-03-04
CN113569797A (zh) 2021-10-29
CN113569798B (zh) 2024-05-24
JP6944051B2 (ja) 2021-10-06
CN113569797B (zh) 2024-05-21
CN113569796A (zh) 2021-10-29
CN109614876A (zh) 2019-04-12
US20200250462A1 (en) 2020-08-06
CN113591750A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
KR102394354B1 (ko) 키 포인트 검출 방법 및 장치, 전자 기기 및 저장 매체
KR102406354B1 (ko) 비디오 수복 방법 및 장치, 전자 기기 및 기억 매체
KR102632647B1 (ko) 얼굴과 손을 관련지어 검출하는 방법 및 장치, 전자기기 및 기억매체
CN109522910B (zh) 关键点检测方法及装置、电子设备和存储介质
TWI706379B (zh) 圖像處理方法及裝置、電子設備和儲存介質
TW202042175A (zh) 圖像處理方法及裝置、電子設備和電腦可讀儲存媒體
KR20210019537A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
KR20210102180A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
US20220262012A1 (en) Image Processing Method and Apparatus, and Storage Medium
US11314965B2 (en) Method and apparatus for positioning face feature points
TW202030648A (zh) 一種目標對象處理方法、裝置、電子設備及儲存介質
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
KR20200106027A (ko) 네트워크 모듈 및 분배 방법 및 장치, 전자 기기 및 저장 매체
CN110188865B (zh) 信息处理方法及装置、电子设备和存储介质
CN108984628B (zh) 内容描述生成模型的损失值获取方法及装置
CN109635926B (zh) 用于神经网络的注意力特征获取方法、装置及存储介质
KR20210054522A (ko) 얼굴 인식 방법 및 장치, 전자 기기 및 저장 매체
CN111079761A (zh) 图像处理方法、装置及计算机存储介质
CN117893591B (zh) 光幕模板识别方法及装置、设备、存储介质和程序产品
CN111753596A (zh) 神经网络的训练方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right