KR20210035787A - 키포인트 위치결정 방법, 장치, 전자 기기, 저장 매체 및 프로그램 - Google Patents

키포인트 위치결정 방법, 장치, 전자 기기, 저장 매체 및 프로그램 Download PDF

Info

Publication number
KR20210035787A
KR20210035787A KR1020210032551A KR20210032551A KR20210035787A KR 20210035787 A KR20210035787 A KR 20210035787A KR 1020210032551 A KR1020210032551 A KR 1020210032551A KR 20210032551 A KR20210032551 A KR 20210032551A KR 20210035787 A KR20210035787 A KR 20210035787A
Authority
KR
South Korea
Prior art keywords
feature map
key point
feature
map
image
Prior art date
Application number
KR1020210032551A
Other languages
English (en)
Other versions
KR102584074B1 (ko
Inventor
지안 왕
쯔펑 루
하오 순
홍우 장
쉬레이 웬
얼루이 딩
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210035787A publication Critical patent/KR20210035787A/ko
Application granted granted Critical
Publication of KR102584074B1 publication Critical patent/KR102584074B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06K9/00342
    • G06K9/3233
    • G06K9/4676
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)

Abstract

본 출원의 실시예는 키포인트 위치결정 방법, 장치, 전자 기기, 저장 매체 및 프로그램을 개시하는바, 인공지능, 이미지 처리, 심층학습 기술분야에 관한 것이다. 당해 방법의 일 구체적인 실시방식은, 위치결정할 이미지의 제1 특징맵 및 제2 특징맵을 추출하는 단계 - 여기서, 제1 특징맵과 제2 특징맵은 서로 다른 특징맵임 - ; 제1 특징맵에 기반하여 위치결정할 이미지 중의 키포인트의 초기 위치를 결정하는 단계; 제2 특징맵에 기반하여 키포인트의 오프셋량을 결정하는 단계; 및 키포인트의 초기 위치와 키포인트의 오프셋량을 합산하여 키포인트의 최종 위치를 얻는 단계를 포함한다. 당해 실시 방식은 서로 다른 특징맵을 사용하여 키포인트에 대해 각각 개략 위치결정 및 정밀 위치결정을 수행하는바, 나아가 특징맵의, 개략 위치결정 및 정밀 위치결정에서 주목받는 서로 다른 유형의 특징에 대한 학습 능력을 향상하고, 최종적으로는 키포인트 위치결정의 정확도를 향상한다.

Description

키포인트 위치결정 방법, 장치, 전자 기기, 저장 매체 및 프로그램{METHOD AND APPARATUS FOR FOR POSITIONING OF KEY POINT, DEVICE, STORAGE MEDIUM AND PROGRAM}
본 출원의 실시예는 컴퓨터 기술분야에 관한 것으로, 구체적으로 인공지능, 심층학습, 이미지 처리 기술분야에 관한 것이고, 특히, 키포인트 위치결정 방법, 장치, 전자 기기, 저장 매체 및 프로그램에 관한 것이다.
인체 키포인트 위치결정은 이미지에서 인체 핵심 부위의 좌표 위치를 탐지하고 위치결정하는 것을 가리키는바, 예를 들면 머리, 오관, 목, 사지 등 부위가 있다. 당해 기술은 인체 자세, 운동 궤적, 동작 각도 등의 분석에 광범위하게 응용되는데, 운동선수를 도와 체육 훈련을 수행할 수 있고, 헬스 트레이닝 효과를 분석할 수 있고 수업 효율을 향상할 수 있다.
현재, 인체 키포인트 위치결정의 주요 구현 방안은 심층 신경망을 특징맵 추출기로 사용하고, 다음, 특징맵에 기반하여 키포인트의 히트맵을 생성하고, 마지막으로, 히트맵에 따라 키포인트의 위치를 직접적으로 위치결정하는 것이다.
본 출원의 실시예는 키포인트 위치결정 방법, 장치, 전자 기기, 저장 매체 및 프로그램을 제공한다.
첫 번째 측면으로, 본 출원의 실시예는 키포인트 위치결정 방법을 제공하는바, 위치결정할 이미지의 제1 특징맵 및 제2 특징맵을 추출하는 단계 - 여기서, 제1 특징맵과 제2 특징맵은 서로 다른 특징맵임 - ; 제1 특징맵에 기반하여 위치결정할 이미지 중의 키포인트의 초기 위치를 결정하는 단계; 제2 특징맵에 기반하여 키포인트의 오프셋량을 결정하는 단계; 및 키포인트의 초기 위치와 키포인트의 오프셋량을 합산하여 키포인트의 최종 위치를 얻는 단계를 포함한다.
두 번째 측면으로, 본 출원의 실시예는 키포인트 위치결정 장치를 제공하는바, 위치결정할 이미지의 제1 특징맵 및 제2 특징맵을 추출하도록 구성되는 특징맵 추출 모듈 - 여기서, 제1 특징맵과 제2 특징맵은 서로 다른 특징맵임 - ; 제1 특징맵에 기반하여 위치결정할 이미지 중의 키포인트의 초기 위치를 결정하도록 구성되는 초기 위치결정 모듈; 제2 특징맵에 기반하여 키포인트의 오프셋량을 결정하도록 구성되는 오프셋량 결정 모듈; 및 키포인트의 초기 위치와 키포인트의 오프셋량을 합산하여 키포인트의 최종 위치를 얻도록 구성되는 최종 위치 생성 모듈을 포함한다.
세 번째 측면으로, 본 출원의 실시예는 전자 기기를 제공하는바, 적어도 하나의 프로세서; 및 적어도 하나의 프로세서에 통신적으로 연결되는 메모리를 포함하고, 메모리에는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어 있고, 명령은 적어도 하나의 프로세서에 의해 실행됨으로써 적어도 하나의 프로세서가 첫 번째 측면에서의 어느 한 구현방식에 따른 방법을 수행 가능하도록 한다.
네 번째 측면으로, 본 출원의 실시예는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체를 제공하는바, 컴퓨터 명령은 컴퓨터가 첫 번째 측면에서의 어느 한 구현방식에 따른 방법을 수행하도록 한다.
다섯 번째 측면으로, 본 출원의 실시예는 매체에 저장된 컴퓨터 프로그램을 제공하는바, 상술한 프로그램이 프로세서에 의해 실행되는 경우, 첫 번째 측면에서의 어느 한 구현방식에 따른 방법이 수행된다.
본 출원의 실시예에 의해 제공되는 키포인트 위치결정 방법, 장치, 전자 기기, 저장 매체 및 프로그램은, 우선, 위치결정할 이미지의 제1 특징맵 및 제2 특징맵을 추출하고; 다음, 제1 특징맵에 기반하여 위치결정할 이미지 중의 키포인트의 초기 위치를 결정하고, 제2 특징맵에 기반하여 키포인트의 오프셋량을 결정하고; 마지막으로, 키포인트의 초기 위치와 키포인트의 오프셋량을 합산하여 키포인트의 최종 위치를 얻는다. 서로 다른 특징맵을 사용하여 키포인트에 대해 각각 개략 위치결정 및 정밀 위치결정을 수행하는바, 나아가 특징맵의, 개략 위치결정 및 정밀 위치결정에서 주목받는 서로 다른 유형의 특징에 대한 학습 능력을 향상하고, 최종적으로는 키포인트 위치결정의 정확도를 향상한다. 직접 히트맵에 기반하여 키포인트 위치결정을 수행하는 경우, 오차가 존재하는 기술 과제를 해결한다. 당해 방안은 AI 기술 오픈 플랫폼에 응용될 수 있고, 그리고 기존의 오픈소스된 방안보다 우월하다.
본 부분에서 서술하는 내용은 본 개시의 실시예의 핵심적인 또는 중요한 특징을 표기하고자 하는 것이 아니고 본 개시의 범위를 한정하기 위한 것도 아님을 이해하여야 한다. 본 개시의 다른 특징은 하기의 발명의 상세한 내용에 의해 이해하기 수월해질 것이다.
하기 첨부 도면을 참조한 비한정적 실시예에 대한 상세한 서술을 읽어보면, 본 출원의 다른 특징, 목적 및 이점은 더 뚜렷해질 것이다. 첨부 도면은 본 방안을 더 잘 이해하기 위한 것으로, 본 출원을 한정하지 않는다.
도 1은 본 출원이 응용될 수 있는 예시적인 시스템 아키텍처이다.
도 2는 본 출원에 따른 키포인트 위치결정 방법의 일 실시예의 흐름도이다.
도 3은 본 출원에 따른 키포인트 위치결정 방법의 다른 실시예의 흐름도이다.
도 4는 본 출원의 실시예의 키포인트 위치결정 방법을 구현할 수 있는 장면도이다.
도 5는 본 출원에 따른 키포인트 위치결정 장치의 일 실시예의 구조 개략도이다.
도 6은 본 출원의 실시예의 키포인트 위치결정 방법을 구현하는 전자 기기의 블록도이다.
아래 첨부 도면을 결부하여 본 출원의 시범적 실시예를 설명하고자 하는데, 여기서는 이해를 돕고자 본 출원의 실시예의 다양한 세부사항을 포함하나 이를 단지 시범적인 것으로 간주하여야 한다. 따라서, 당업자라면, 여기서 서술한 실시예는 본 출원의 범위 및 사상에 위배되지 않으면서 다양한 변경 및 수정이 가능하다는 것을 인지하여야 한다. 마찬가지로, 명확함과 간결함을 위해, 아래 서술에서는 공지된 기능 및 구조에 대한 서술을 생략하기로 한다.
부연하면, 상충되지 않은 한, 본 출원의 실시예 및 실시예의 특징은 상호 조합될 수 있다. 아래 첨부도면을 참조하면서 실시예를 결부하여 본 출원을 상세히 설명하고자 한다.
도 1은 본 출원의 키포인트 위치결정 방법 또는 키포인트 위치결정 장치의 실시예를 응용할 수 있는 예시적인 시스템 아키텍처(100)를 도시한다.
도 1에 도시한 바와 같이, 시스템 아키텍처(100)는 단말기기(101), 네트워크(102) 및 서버(103)를 포함할 수 있다. 네트워크(102)는 단말기기(101)와 서버(103) 사이에서 통신 링크를 제공하는 매체로서 사용된다. 네트워크(102)는 다양한 연결 유형을 포함할 수 있는바, 예를 들면 유선, 무선 통신 링크 또는 광섬유 케이블 등일 수 있다.
사용자는 단말기기(101)를 사용하여 네트워크(102)를 통해 서버(103)와 인터랙션하여 메세지 등을 수신 또는 송신할 수 있다. 단말기기(101)에는 다양한 클라이언트 애플리케이션, 예를 들면 이미지 처리 애플리케이션 등이 설치되어 있을 수 있다.
단말기기(101)는 하드웨어일 수도 있고 소프트웨어일 수도 있다. 단말기기(101)가 하드웨어인 경우에는 카메라를 갖는 다양한 전자 기기일 수 있고, 감시 카메라, 스마트 기기 등을 포함하나 이에 한정되지 않는다. 단말기기(101)가 소프트웨어인 경우에는 상술한 전자 기기에 설치될 수 있다. 이는 복수의 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있고, 단일 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있다. 여기서는 구체적으로 한정하지 않는다.
서버(103)는 다양한 서비스를 제공하는 서버일 수 있는바, 예를 들면 이미지 처리 애플리케이션의 백스테이지 서버이다. 이미지 처리 애플리케이션의 백스테이지 서버는 단말기기(101)에 의해 취득된 위치결정할 이미지 등의 데이터에 대해 분석 등의 처리를 수행하고 처리 결과(예를 들면 키포인트의 최종 위치)를 단말기기(101)에 피드백할 수 있다.
부연하면, 서버(103)는 하드웨어일 수도 있고 소프트웨어일 수도 있다. 서버(103)가 하드웨어인 경우에는 복수의 서버로 구성되는 분산 서버 클러스터로 구현될 수도 있고 단일 서버로 구현될 수도 있다. 서버(103)가 소프트웨어인 경우에는 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산 서비스를 제공하는)로 구현될 수도 있고 단일 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있다. 여기서는 구체적으로 한정하지 않는다.
부연하면, 본 출원의 실시예에 의해 제공되는 키포인트 위치결정 방법은 일반적으로 서버(103)에 의해 수행되고, 상응하게, 키포인트 위치결정 장치는 일반적으로 서버(103)에 설치된다.
도 1에서의 단말기기, 네트워크 및 서버의 수는 단지 예시적인 것임을 이해하여야 한다. 구현의 필요에 따라, 임의 수의 단말기기, 네트워크 및 서버를 가질 수 있다. 서버(103)에 위치결정할 이미지가 저장되어 있는 경우, 시스템 아키텍처(100)는 단말기기(101) 및 네트워크(102)를 설치하지 않아도 된다. 이 외에도, 단말기기(101)가 처리 능력을 구비하는 경우, 본 출원의 실시예에 의해 제공되는 키포인트 위치결정 방법도 단말기기(101)에 의해 수행될 수 있고, 상응하게, 키포인트 위치결정 장치도 단말기기(101)에 설치될 수 있다. 이때, 시스템 아키텍처(100)는 네트워크(102) 및 서버(103)를 설치하지 않아도 된다.
계속하여 도 2를 참조하면, 이는 본 출원에 따른 키포인트 위치결정 방법의 일 실시예의 흐름(200)을 도시한다. 당해 키포인트 위치결정 방법은 하기 단계를 포함한다.
단계(201)에서, 위치결정할 이미지의 제1 특징맵 및 제2 특징맵을 추출한다.
본 실시예에서, 키포인트 위치결정 방법의 수행 주체(예를 들면 도 1에 도시한 서버(103))는 위치결정할 이미지를 취득하고 위치결정할 이미지의 제1 특징맵 및 제2 특징맵을 추출할 수 있다.
통상적으로, 상술한 수행 주체는 단말기기(예를 들면 도 1에 도시한 단말기기(101))에서 위치결정할 이미지를 취득할 수 있다. 여기서, 단말기기는 이미지 수집 기능을 지원하는 다양한 전자 기기일 수 있고, 감시 카메라, 스마트 기기 등을 포함하나 이에 한정되지 않는다. 당해 키포인트 위치결정 방법은 단말기기가 더 정확한 키포인트 위치결정을 취득하는 능력을 구비하도록 하고, 이로써 나아가 다운스트림 응용 분석, 예컨대 동작 인식, 인체 국소 속성 및 외형 특징(appearance feature)의 분석 등을 도울 수 있다. 이 외에도, 로컬에 위치결정할 이미지가 저장된 경우, 상술한 수행 주체는 로컬에 저장된 위치결정할 이미지를 취득할 수 있다.
실천에서는, 제1 특징맵과 제2 특징맵은 서로 다른 특징맵일 수 있다. 예를 들면, 2개의 독립적인 심층 신경망을 이용하여 각각 추출한 2개의 특징맵이다. 또 예를 들면, 하나의 심층 신경망의 2개의 서로 다른 합성곱층을 이용하여 각각 추출한 2개의 특징맵이다. 더 예를 들면, 하나의 심층 신경망의 2개의 독립적인 브랜치를 이용하여 각각 추출한 2개의 특징맵이다.
단계(202)에서, 제1 특징맵에 기반하여 위치결정할 이미지 중의 키포인트의 초기 위치를 결정한다.
본 실시예에서, 상술한 수행 주체는 제1 특징맵에 기반하여 개략 위치 결정을 수행하여 키포인트의 개략 위치를 얻을 수 있다. 예를 들면, 제1 특징맵 중의 특징을 분석하여 위치결정할 이미지 중의 키포인트의 초기 위치를 결정한다. 구체적으로, 제1 특징맵 중의 보다 큰 스케일의 전역 시맨틱 특징을 이용하여 키포인트의 초기 위치를 결정할 수 있다. 여기서, 키포인트는 위치결정할 이미지에 존재하는 목표의 주요 부위의 점일 수 있다. 키포인트의 초기 위치는 키포인트의 개략 위치일 수 있다. 위치결정할 이미지에 인체가 존재하는 경우를 예로 들면, 이에 대응되는 키포인트는 머리, 오관, 목, 사지 등 부위의 점을 포함할 수 있으나 이에 한정되지 않는다.
단계(203)에서, 제2 특징맵에 기반하여 키포인트의 오프셋량을 결정한다.
본 실시예에서, 상술한 수행 주체는 제2 특징맵에 기반하여 정밀 위치결정을 수행하여 키포인트의 정밀 오프셋을 얻을 수 있다. 예를 들면, 제2 특징맵 중의 특징을 분석하여 위치결정할 이미지 중의 키포인트의 오프셋량을 결정한다. 구체적으로, 제2 특징맵 중의 보다 작은 스케일의 국소 시맨틱 특징을 이용하여 키포인트의 오프셋량을 결정할 수 있다. 여기서, 키포인트의 오프셋량은 키포인트의 최종 위치와 초기 위치 간의 오프셋일 수 있다. 키포인트의 최종 위치는 키포인트의 정밀 위치일 수 있다.
단계(204)에서, 키포인트의 초기 위치와 키포인트의 오프셋량을 합산하여 키포인트의 최종 위치를 얻는다.
본 실시예에서, 상술한 수행 주체는 키포인트의 초기 위치와 키포인트의 오프셋량을 합산하여 키포인트의 최종 위치를 얻을 수 있다.
본 출원의 실시예에 의해 제공되는 키포인트 위치결정 방법은, 우선, 위치결정할 이미지의 제1 특징맵 및 제2 특징맵을 추출하고; 다음, 제1 특징맵에 기반하여 위치결정할 이미지 중의 키포인트의 초기 위치를 결정하고, 제2 특징맵에 기반하여 키포인트의 오프셋량을 결정하고; 마지막으로, 키포인트의 초기 위치와 키포인트의 오프셋량을 합산하여 키포인트의 최종 위치를 얻는다. 서로 다른 특징맵을 사용하여 키포인트에 대해 각각 개략 위치결정 및 정밀 위치결정을 수행하는바, 나아가 특징맵의, 개략 위치결정 및 정밀 위치결정에서 주목받는 서로 다른 유형의 특징에 대한 학습 능력을 향상하고, 최종적으로는 키포인트 위치결정의 정확도를 향상한다. 직접 히트맵에 기반하여 키포인트 위치결정을 수행하는 경우, 오차가 존재하는 기술 과제를 해결한다. 당해 방안은 AI 기술 오픈 플랫폼에 응용될 수 있고, 그리고 기존의 오픈소스된 방안보다 우월하다.
나아가 도 3을 참조하면, 이는 본 출원에 따른 키포인트 위치결정 방법의 다른 실시예의 흐름(300)을 도시한다. 당해 키포인트 위치결정 방법은 하기 단계를 포함한다.
단계(301)에서, 위치결정할 특징맵을 메인 네트워크에 입력하여 위치결정할 이미지의 초기 특징맵을 출력한다.
본 실시예에서, 키포인트 위치결정 방법의 수행 주체(예를 들면 도 1에 도시한 서버(103))는 하나의 심층 신경망의 2개의 독립적인 브랜치를 이용하여 2개의 특징맵을 각각 추출할 수 있다. 통상적으로, 심층 신경망은 하나의 메인 네트워크를 포함할 수 있고, 메인 네트워크로부터 제1 서브네트워크 및 제2 서브네트워크, 2개의 서로 다른 브랜치가 도출될 수 있다. 우선, 위치결정할 특징맵을 메인 네트워크에 입력하면 메인 네트워크는 위치결정할 이미지의 초기 특징맵을 출력할 수 있다. 여기서, 메인 네트워크는 대량의 합성곱층을 포함할 수 있다.
단계(302)에서, 초기 특징맵을 제1 서브네트워크 및 제2 서브네트워크에 각각 입력하여 제1 특징맵 및 제2 특징맵을 출력한다.
본 실시예에서, 상술한 수행 주체는 메인 네트워크에 의해 출력된 초기 특징맵을 각각 제1 서브네트워크 및 제2 서브네트워크에 입력하여 제1 특징맵 및 제2 특징맵을 출력할 수 있다.
여기서, 제1 서브네트워크와 제2 서브네트워크는 메인 네트워크의 2개의 서로 다른 브랜치일 수 있다. 이러한 2개의 브랜치는 대량의 합성곱층을 포함할 수 있고, 그 구조는 같을 수도 있고 다를 수도 있다. 구조가 같은 경우에, 그 파라미터는 반드시 서로 다른바, 이로써 2개의 브랜치에 의해 2개의 서로 다른 특징맵이 출력되도록 보장한다.
단계(303)에서, 제1 특징맵에 기반하여 위치결정할 이미지 중의 키포인트의 히트맵을 생성한다.
본 실시예에서, 상술한 수행 주체는 제1 특징맵에 기반하여 위치결정할 이미지 중의 키포인트의 히트맵을 생성할 수 있다. 여기서, 히트맵 위의 각 점의 히트값은 그 것이 키포인트일 확률을 특성화할 수 있다. 통상적으로, 히트값이 클수록 대응되는 점이 키포인트일 확률이 크다.
단계(304)에서, 히트맵 위의 점의 히트값에 기반하여 키포인트의 초기 위치를 결정한다.
본 실시예에서, 상술한 수행 주체는 히트맵 위의 점의 히트값에 기반하여 키포인트의 초기 위치를 결정할 수 있다. 예를 들면, 상술한 수행 주체는 히트값이 사전설정 역치보다 큰 점을 키포인트로 개략적으로 결정할 수 있는바, 이의, 히트맵에서의 위치가 바로 키포인트의 초기 위치이다.
일부 실시에서, 제1 특징맵을 1x1 합성곱하여 히트맵을 얻을 수 있다. 여기서, 히트맵의 채널 수와 키포인트의 개수는 같고, 히트맵의 채널은 키포인트와 일대일로 대응된다. 하나의 채널에서 응답값이 가장 큰 점의 위치가 바로 대응되는 키포인트의 초기 위치이다.
단계(305)에서, 키포인트의 초기 위치에 기반하여 제2 특징맵의 대응 위치에서 특징을 추출한다.
본 실시예에서, 상술한 수행 주체는 키포인트의 초기 위치에 따라 제2 특징맵에서 대응 위치를 서치하고 대응 위치에서 특징을 추출할 수 있다. 대응 위치에서만 특징을 추출하므로, 얻은 바로는 키포인트의 국소 시맨틱 특징이다.
단계(306)에서, 특징을 이용하여 오프셋량 회귀를 수행하여 키포인트의 오프셋량을 얻는다.
본 실시예에서, 상술한 수행 주체는 특징을 이용하여 오프셋량 회귀를 수행하여 키포인트의 오프셋량을 얻을 수 있다.
여기서, 키포인트의 오프셋량(
Figure pat00001
)은 공식
Figure pat00002
에 의해 얻을 수 있다.
Figure pat00003
는 키포인트의 초기 위치에 기반하여 제2 특징맵의 대응 위치에서 추출한 특징이다.
Figure pat00004
는 회귀 네트워크이고, 이는 1 내지 2층의 완전 연결층일 수 있다.
단계(307)에서, 키포인트의 초기 위치와 키포인트의 오프셋량을 합산하여 키포인트의 최종 위치를 얻는다.
본 실시예에서, 단계(307)의 구체적인 조작은 도 2에 도시한 실시예의 단계(204)에서 이미 상세히 소개하였는바, 이에 대한 상세한 설명은 생략하기로 한다.
도 3으로부터 알 수 있는바, 도 2에 대응되는 실시예에 비하면, 본 실시예에서의 키포인트 위치결정 방법의 흐름(300)은 특징맵 추출 단계 및 오프셋량 결정 단계를 강조한다. 이에 따라, 본 실시예에서 서술하는 방안에서는, 동일한 심층 신경망의 서로 다른 브랜치를 이용하여 제1 특징맵 및 제2 특징맵을 각각 추출하고, 추출 과정은 같은 층을 포함하기도 하고 독립적인 층을 포함하기도 하는바, 2개의 특징맵이 일정한 연관을 가지면서도 일정한 차이도 가지도록 할 수 있다. 이 외에도, 개략 위치결정 단계와 서로 다른 제2 특징맵을 사용하여 키포인트 위치 오차 회귀를 수행하여 키포인트에 대한 정밀 위치결정을 수행한다.
이해의 편의를 위해, 본 출원의 실시예의 키포인트 위치결정 방법을 구현할 수 있는 장면도를 제공한다. 도 4에 도시한 바와 같이, 당해 장면은 특징맵 추출 단계(401), 개략 위치결정 단계(402) 및 정밀 위치결정 단계(403)를 포함한다. 특징맵 추출 단계(401)에서, 2개의 독립적인 브랜치를 포함하는 심층 신경망을 이용하여 이미지의 제1 특징맵 및 제2 특징맵을 각각 추출한다. 개략 위치결정 단계(402)에서, 제1 특징맵에 기반하여 히트맵을 생성하고, 히트맵 위의 점의 히트값에 기반하여 키포인트의 개략 위치를 결정한다. 정밀 위치결정 단계(403)에서, 개략 위치에 기반하여 제2 특징맵의 대응 위치에서 특징을 추출하고, 특징을 이용하여 오프셋량 회귀를 수행하여 오프셋량을 얻는다. 마지막으로, 개략 위치를 오프셋량과 합산하면, 정밀 위치를 얻을 수 있다.
나아가 도 5를 참조하면, 상술한 각 도면에 도시한 방법에 대한 구현으로, 본 출원은 키포인트 위치결정 장치의 일 실시예를 제공하는바, 당해 장치 실시예는 도 2에 도시한 방법 실시예에 대응되고, 당해 장치는 구체적으로 다양한 전자 기기에 응용될 수 있다.
도 5에 도시한 바와 같이, 본 실시예의 키포인트 위치결정 장치(500)는 특징맵 추출 모듈(501), 초기 위치결정 모듈(502), 오프셋량 결정 모듈(503) 및 최종 위치 생성 모듈(504)을 포함할 수 있다. 여기서, 특징맵 추출 모듈(501)은, 위치결정할 이미지의 제1 특징맵 및 제2 특징맵을 추출하도록 구성되고 여기서, 제1 특징맵과 제2 특징맵은 서로 다른 특징맵이고; 초기 위치결정 모듈(502)은, 제1 특징맵에 기반하여 위치결정할 이미지 중의 키포인트의 초기 위치를 결정하도록 구성되고; 오프셋량 결정 모듈(503)은, 제2 특징맵에 기반하여 키포인트의 오프셋량을 결정하도록 구성되고; 최종 위치 생성 모듈(504)은, 키포인트의 초기 위치와 키포인트의 오프셋량을 합산하여 키포인트의 최종 위치를 얻도록 구성된다.
본 실시예에서, 키포인트 위치결정 장치(500)에서 특징맵 추출 모듈(501), 초기 위치결정 모듈(502), 오프셋량 결정 모듈(503) 및 최종 위치 생성 모듈(504)의 구체적인 처리 및 이에 따른 기술 효과는 각각 도 2에 대응되는 실시예에서의 단계(201) 내지 단계(204)의 관련 설명을 참조할 수 있는바, 이에 대한 상세한 설명은 생략하기로 한다.
본 실시예의 일부 대안적인 구현방식에서, 특징맵 추출 모듈(501)은 나아가, 위치결정할 특징맵을 메인 네트워크에 입력하여 위치결정할 이미지의 초기 특징맵을 출력하고; 초기 특징맵을 제1 서브네트워크 및 제2 서브네트워크에 각각 입력하여 제1 특징맵 및 제2 특징맵을 출력하도록 구성되고, 여기서, 제1 서브네트워크와 제2 서브네트워크는 메인 네트워크의 2개의 서로 다른 브랜치이다.
본 실시예의 일부 대안적인 구현방식에서, 초기 위치결정 모듈(502)은 제1 특징맵에 기반하여 위치결정할 이미지 중의 키포인트의 히트맵을 생성하도록 구성되는 히트맵 생성 서브모듈(미도시)을 포함하고; 초기 위치 결정 서브모듈(미도시)은, 히트맵 위의 점의 히트값에 기반하여 키포인트의 초기 위치를 결정하도록 구성된다.
본 실시예의 일부 대안적인 구현방식에서, 히트맵 생성 서브모듈은 나아가, 제1 특징맵을 1x1 합성곱하여 히트맵을 얻도록 구성되고, 여기서, 히트맵의 채널은 키포인트와 일대일로 대응된다.
본 실시예의 일부 대안적인 구현방식에서, 오프셋량 결정 모듈(503)은 나아가, 키포인트의 초기 위치에 기반하여 제2 특징맵의 대응 위치에서 특징을 추출하고; 특징을 이용하여 오프셋량 회귀를 수행하여 키포인트의 오프셋량을 얻도록 구성된다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독가능 저장 매체를 더 제공한다.
도 6에 도시한 바는, 본 출원에 따른 실시예의 키포인트 위치결정 방법을 수행하는 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크벤치, 개인용 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 다른 적합한 컴퓨터와 같은 다양한 형식의 디지털 컴퓨터를 가리키고자 하는 것이다. 전자 기기는 또한, 개인용 디지털 보조기, 셀룰러 폰, 스마트폰, 웨어러블 기기 및 다른 이와 유사한 컴퓨팅 기기와 같은 다양한 형식의 이동 장치를 가리킬 수 있다. 본 명세서에서 제시하는 부품, 이들의 연결과 관계 및 이들의 기능은 단지 예시일 뿐, 본 명세서에서 서술한 및/또는 청구하는 본 출원의 구현을 한정하고자 하는 것이 아니다.
도 6에 도시한 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(601), 메모리(602)를 포함하고, 각 부품을 연결하는 인터페이스는 고속 인터페이스와 저속 인터페이스를 포함한다. 각 부품은 서로 다른 버스를 이용하여 서로 연결되고 공통 메인보드에 장착되거나 또는 필요에 따라 다른 방식으로 장착될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있는바, 메모리에 저장되어 외부 입력/출력 장치(인터페이스에 커플링된 표시 기기와 같은)에 GUI의 그래픽 정보를 표시하기 위한 명령이 포함된다. 다른 실시 방식에서, 필요하다면 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있고, 각 기기는(예를 들어 서버 어레이, 한 그룹의 블레이드 서버 또는 멀티프로세서 시스템으로서) 일부 필요한 조작을 제공할 수 있다. 도 6은 프로세서(601)를 예시한다.
메모리(602)가 바로 본 출원에 의해 제공되는 비일시적 컴퓨터 판독가능 저장 매체이다. 상기 메모리에는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어 있는바, 상기 적어도 하나의 프로세서에 의해 본 출원에 의해 제공되는 키포인트 위치결정 방법이 수행되도록 한다. 본 출원의 비일시적 컴퓨터 판독가능 저장 매체는 컴퓨터 명령을 저장하고, 당해 컴퓨터 명령은 컴퓨터에 의해 본 출원에 의해 제공되는 키포인트 위치결정 방법이 수행되도록 한다.
메모리(602)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 본 출원의 실시예의 키포인트 위치결정 방법에 대응되는 프로그램 명령/모듈(예를 들면, 첨부 도면5에 도시한 특징맵 추출 모듈(501), 초기 위치결정 모듈(502), 오프셋량 결정 모듈(503) 및 최종 위치 생성 모듈(504))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행가능 프로그램 및 모듈을 저장할 수 있다. 프로세서(601)는 메모리(602)에 저장되는 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써 서버의 다양한 기능 응용 및 데이터 처리를 실행하는바, 즉 상술한 방법 실시예에서의 키포인트 위치결정 방법을 구현한다.
메모리(602)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있는바, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 있어서 필요한 응용 프로그램을 저장할 수 있고, 데이터 저장 영역은 키포인트 위치결정 방법의 전자 기기의 사용에 따라 생성되는 데이터 등을 저장할 수 있다. 이 외에도, 메모리(602)는 고속 랜덤 액세스 메모리를 포함할 수도 있고, 비일시적 메모리, 예를 들어 적어도 하나의 자기 디스크 저장 디바이스, 플래시 메모리 디바이스 또는 다른 비일시적 고체 상태 저장 디바이스를 더 포함할 수도 있다. 일부 실시에서, 메모리(602)는 대안적으로 프로세서(601) 대비 원격 설치되는 메모리를 포함하는바, 이러한 원격 메모리는 네트워크를 통해 키포인트 위치결정 방법의 전자 기기에 연결된다. 상술한 네트워크의 실제 예는 인터넷, 기업 내부 네트워크, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.
키포인트 위치결정 방법의 전자 기기는 입력 장치(603)와 출력 장치(604)를 더 포함할 수 있다. 프로세서(601), 메모리(602), 입력 장치(603) 및 출력 장치(604)는 버스 또는 다른 방식으로 연결될 수 있고, 도 6은 버스에 의한 연결을 예시한다.
입력 장치(603)는 입력되는 숫자 또는 문자(character) 정보를 수신하고, 키포인트 위치결정 방법의 전자 기기의 사용자 설정 및 기능 제어에 관련되는 키 신호 입력을 발생시킬 수 있는바, 예를 들면 터치 스크린, 숫자 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등의 입력 장치가 있다. 출력 장치(604)는 표시 기기, 보조 조명장치(예를 들어 LED) 및 촉각 피드백 장치(예를 들어 진동 모터) 등을 포함할 수 있다. 당해 표시 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에서 표시 기기는 터치 스크린일 수 있다.
여기서 서술하는 시스템과 기술의 다양한 실시 방식은 디지털 전자회로 시스템, 집적회로 시스템, 주문형ASIC(주문형 집적회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시 방식은 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램가능 프로세서를 포함하는 프로그램가능 시스템에서 실행되거나 및/또는 해석될 수 있고, 당해 프로그램가능 프로세서는 전용의 또는 범용의 프로그램가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령을 수신하고 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치로 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램가능 프로세서의 기계 명령을 포함하며, 고급 절차 프로그래밍 언어 및/또는 객체지향 프로그래밍 언어, 및/또는 어셈블리어/기계어를 이용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용한 바와 같이, 용어 '기계 판독가능 매체'와 '컴퓨터 판독가능 매체'는 기계 명령 및/또는 데이터를 프로그램가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들면 자기 디스크, 광 디스크, 메모리, 프로그램가능 논리 장치(PLD))를 가리키는바, 이는 기계 판독가능 신호로서의 기계 명령을 수신하는 기계 판독가능 매체를 포함한다. 용어 '기계 판독가능 신호'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 가리킨다.
사용자와의 인터랙션을 제공하기 위해, 여기서 서술하는 시스템과 기술을 컴퓨터에서 실시할 수 있는바, 당해 컴퓨터는 사용자한테 정보를 표시하기 위한 표시 장치(예를 들면 음극선관(CRT) 또는 액정 디스플레이(LCD) 모니터) 및 키보드와 포인팅 장치(예를 들면 마우스 또는 트랙볼)를 구비하고, 사용자는 당해 키보드와 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 다른 종류의 장치 또한 사용자와의 인터랙션을 제공하는 데 사용될 수 있는바, 예를 들면 사용자한테 제공되는 피드백은 임의 형식의 감각 피드백(예를 들어 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고, 임의 형식(소리 입력, 음성 입력 또는 촉각 입력을 포함함)으로 사용자로부터의 입력이 수신될 수 있다.
여기서 서술하는 시스템과 기술을 백스테이지 부품을 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버로서), 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들면 애플리케이션 서버), 프론트엔드 부품을 포함하는 컴퓨팅 시스템(예를 들면 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터가 있고, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통해 여기서 서술하는 시스템 및 기술의 실시 방식과 인터랙션할 수 있음), 또는 이러한 백그라운드 부품, 미들웨어 부품 또는 프런트 엔드 부품의 임의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의 형식 또는 매체의 디지털 데이터 통신(예를 들면 통신 네트워크)으로 시스템의 부품을 서로 연결시킬 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광대역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램에 의해 클라이언트와 서버의 관계가 발생한다.
본 출원의 기술에 따르면, 방안은, 우선, 위치결정할 이미지의 제1 특징맵 및 제2 특징맵을 추출하고; 다음, 제1 특징맵에 기반하여 위치결정할 이미지 중의 키포인트의 초기 위치를 결정하고, 제2 특징맵에 기반하여 키포인트의 오프셋량을 결정하고; 마지막으로, 키포인트의 초기 위치와 키포인트의 오프셋량을 합산하여 키포인트의 최종 위치를 얻는다. 서로 다른 특징맵을 사용하여 키포인트에 대해 각각 개략 위치결정 및 정밀 위치결정을 수행하는바, 나아가 특징맵의, 개략 위치결정 및 정밀 위치결정에서 주목받는 서로 다른 유형의 특징에 대한 학습 능력을 향상하고, 최종적으로는 키포인트 위치결정의 정확도를 향상한다. 직접 히트맵에 기반하여 키포인트 위치결정을 수행하는 경우, 오차가 존재하는 기술 과제를 해결한다. 당해 방안은 AI 기술 오픈 플랫폼에 응용될 수 있고, 그리고 기존의 오픈소스된 방안보다 우월하다.
위에서 제시한 다양한 형식의 흐름을 적용하여 단계를 재정렬, 증가 또는 삭제할 수 있음을 이해하여야 한다. 예를 들면, 본 출원에 기재된 각 단계는 병렬로 수행될 수도 있고, 순차로 수행될 수도 있고, 서로 다른 순서로 실행될 수도 있는바, 본 출원에서 개시하는 기술 방안에 대한 기대 결과를 구현할 수 있기만 하면 되는 것으로, 본 명세서는 이에 대해 한정하지 않는다.
상술한 구체적인 실시 방식은 본 출원의 보호 범위를 한정하지 않는다. 당업자라면, 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 치환이 가능하다는 것을 알아야 할 것이다. 본 출원의 사상과 원칙 내에서 행하는 임의의 수정, 등가적 치환 및 개량 등은 모두 본 출원의 보호 범위에 포함되어야 한다.

Claims (13)

  1. 키포인트 위치결정 방법으로서,
    위치결정할 이미지의 제1 특징맵 및 제2 특징맵을 추출하는 단계 - 상기 제1 특징맵과 상기 제2 특징맵은 서로 다른 특징맵임 - ;
    상기 제1 특징맵에 기반하여 상기 위치결정할 이미지 중의 키포인트의 초기 위치를 결정하는 단계;
    상기 제2 특징맵에 기반하여 상기 키포인트의 오프셋량을 결정하는 단계; 및
    상기 키포인트의 초기 위치와 상기 키포인트의 오프셋량을 합산하여 상기 키포인트의 최종 위치를 얻는 단계를 포함하는, 키포인트 위치결정 방법.
  2. 제1항에 있어서,
    상기 위치결정할 이미지의 제1 특징맵 및 제2 특징맵을 추출하는 단계는,
    상기 위치결정할 특징맵을 메인 네트워크에 입력하여 상기 위치결정할 이미지의 초기 특징맵을 출력하는 단계; 및
    상기 초기 특징맵을 제1 서브네트워크 및 제2 서브네트워크에 각각 입력하여 상기 제1 특징맵 및 상기 제2 특징맵을 출력하는 단계 - 상기 제1 서브네트워크와 상기 제2 서브네트워크는 상기 메인 네트워크의 2개의 서로 다른 브랜치임 - 를 포함하는, 키포인트 위치결정 방법.
  3. 제1항에 있어서,
    상술한 상기 제1 특징맵에 기반하여 상기 위치결정할 이미지 중의 키포인트의 초기 위치를 결정하는 단계는,
    상기 제1 특징맵에 기반하여 상기 위치결정할 이미지 중의 키포인트의 히트맵을 생성하는 단계; 및
    상기 히트맵 위의 점의 히트값에 기반하여 상기 키포인트의 초기 위치를 결정하는 단계를 포함하는, 키포인트 위치결정 방법.
  4. 제3항에 있어서,
    상술한 상기 제1 특징맵에 기반하여 상기 위치결정할 이미지 중의 키포인트의 히트맵을 생성하는 단계는,
    상기 제1 특징맵을 1x1 합성곱하여 상기 히트맵을 얻는 단계 - 상기 히트맵의 채널은 상기 키포인트와 일대일로 대응됨 - 를 포함하는, 키포인트 위치결정 방법.
  5. 제1항에 있어서,
    상술한 상기 제2 특징맵에 기반하여 상기 키포인트의 오프셋량을 결정하는 단계는,
    상기 키포인트의 초기 위치에 기반하여 상기 제2 특징맵의 대응 위치에서 특징을 추출하는 단계; 및
    상기 특징을 이용하여 오프셋량 회귀를 수행하여 상기 키포인트의 오프셋량을 얻는 단계를 포함하는, 키포인트 위치결정 방법.
  6. 키포인트 위치결정 장치로서,
    위치결정할 이미지의 제1 특징맵 및 제2 특징맵을 추출하도록 구성되는 특징맵 추출 모듈 - 상기 제1 특징맵과 상기 제2 특징맵은 서로 다른 특징맵임 - ;
    상기 제1 특징맵에 기반하여 상기 위치결정할 이미지 중의 키포인트의 초기 위치를 결정하도록 구성되는 초기 위치결정 모듈;
    상기 제2 특징맵에 기반하여 상기 키포인트의 오프셋량을 결정하도록 구성되는 오프셋량 결정 모듈; 및
    상기 키포인트의 초기 위치와 상기 키포인트의 오프셋량을 합산하여 상기 키포인트의 최종 위치를 얻도록 구성되는 최종 위치 생성 모듈을 포함하는, 키포인트 위치결정 장치.
  7. 제6항에 있어서,
    상기 특징맵 추출 모듈은 나아가,
    상기 위치결정할 특징맵을 메인 네트워크에 입력하여 상기 위치결정할 이미지의 초기 특징맵을 출력하고;
    상기 초기 특징맵을 제1 서브네트워크 및 제2 서브네트워크에 각각 입력하여 상기 제1 특징맵 및 상기 제2 특징맵을 출력하도록 구성되며,
    상기 제1 서브네트워크와 상기 제2 서브네트워크는 상기 메인 네트워크의 2개의 서로 다른 브랜치인, 키포인트 위치결정 장치.
  8. 제6항에 있어서,
    상기 초기 위치결정 모듈은
    상기 제1 특징맵에 기반하여 상기 위치결정할 이미지 중의 키포인트의 히트맵을 생성하도록 구성되는 히트맵 생성 서브모듈; 및
    상기 히트맵 위의 점의 히트값에 기반하여 상기 키포인트의 초기 위치를 결정하도록 구성되는 초기 위치 결정 서브모듈을 포함하는, 키포인트 위치결정 장치.
  9. 제8항에 있어서,
    상기 히트맵 생성 서브모듈은 나아가,
    상기 제1 특징맵을 1x1 합성곱하여 상기 히트맵을 얻도록 구성되며,
    상기 히트맵의 채널은 상기 키포인트와 일대일로 대응되는, 키포인트 위치결정 장치.
  10. 제6항에 있어서,
    상기 오프셋량 결정 모듈은 나아가,
    상기 키포인트의 초기 위치에 기반하여 상기 제2 특징맵의 대응 위치에서 특징을 추출하고;
    상기 특징을 이용하여 오프셋량 회귀를 수행하여 상기 키포인트의 오프셋량을 얻도록 구성되는, 키포인트 위치결정 장치.
  11. 전자 기기로서,
    하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램이 저장되어 있는 저장 장치를 포함하고,
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행되는 경우, 상기 하나 또는 복수의 프로세서에 의해 제1항 내지 제5항 중 어느 한 항의 방법이 구현되도록 하는, 전자 기기.
  12. 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독가능 매체에 있어서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행되는 경우, 제1항 내지 제5항 중 어느 한 항의 방법이 구현되는, 컴퓨터 판독가능 매체.
  13. 매체에 저장된 컴퓨터 프로그램으로서,
    상기 프로그램이 프로세서에 의해 실행되는 경우, 제1항 내지 제5항 중 어느 한 항의 방법이 구현되는, 매체에 저장된 컴퓨터 프로그램.
KR1020210032551A 2020-06-12 2021-03-12 키포인트 위치결정 방법, 장치, 전자 기기, 저장 매체 및 프로그램 KR102584074B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010538339.2 2020-06-12
CN202010538339.2A CN111695519B (zh) 2020-06-12 2020-06-12 关键点定位方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
KR20210035787A true KR20210035787A (ko) 2021-04-01
KR102584074B1 KR102584074B1 (ko) 2023-10-04

Family

ID=72480804

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210032551A KR102584074B1 (ko) 2020-06-12 2021-03-12 키포인트 위치결정 방법, 장치, 전자 기기, 저장 매체 및 프로그램

Country Status (5)

Country Link
US (1) US11610389B2 (ko)
EP (1) EP3869402B1 (ko)
JP (1) JP7194215B2 (ko)
KR (1) KR102584074B1 (ko)
CN (1) CN111695519B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210390731A1 (en) * 2020-06-12 2021-12-16 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for positioning key point, device, and storage medium

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132054A (zh) * 2020-09-24 2020-12-25 重庆邮电大学 一种基于深度学习的文档定位和分割方法
CN114511613B (zh) * 2020-11-16 2023-04-18 阿里巴巴集团控股有限公司 关键点检测方法、模型训练方法、装置、设备和存储介质
CN112784743B (zh) * 2021-01-21 2023-08-04 北京百度网讯科技有限公司 关键点的识别方法、装置及存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6573354B2 (ja) * 2014-11-28 2019-09-11 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
CN105447490B (zh) * 2015-11-19 2019-04-30 浙江宇视科技有限公司 基于梯度回归树的车辆关键点检测方法及装置
US10095957B2 (en) * 2016-03-15 2018-10-09 Tata Consultancy Services Limited Method and system for unsupervised word image clustering
JP6842039B2 (ja) * 2017-03-02 2021-03-17 富士通株式会社 カメラ位置姿勢推定装置、方法およびプログラム
US10095975B2 (en) * 2017-03-10 2018-10-09 Capital One Services, Llc Systems and methods for capturing visible information
WO2019108252A1 (en) * 2017-12-03 2019-06-06 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN108304765B (zh) * 2017-12-11 2020-08-11 中国科学院自动化研究所 用于人脸关键点定位与语义分割的多任务检测装置
CN108229445A (zh) * 2018-02-09 2018-06-29 深圳市唯特视科技有限公司 一种基于级联金字塔网络的多人姿态估计方法
CN109190636B (zh) * 2018-07-30 2022-05-31 北京航空航天大学 一种遥感图像舰船目标信息提取方法
US10872435B2 (en) * 2018-10-19 2020-12-22 Here Global B.V. Method and apparatus for iteratively establishing object position
CN113569798B (zh) * 2018-11-16 2024-05-24 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN109508681B (zh) * 2018-11-20 2021-11-30 北京京东尚科信息技术有限公司 生成人体关键点检测模型的方法和装置
US11019364B2 (en) * 2019-03-23 2021-05-25 Uatc, Llc Compression of images having overlapping fields of view using machine-learned models
CN110147776B (zh) * 2019-05-24 2021-06-11 北京百度网讯科技有限公司 确定人脸关键点位置的方法和装置
US10600210B1 (en) * 2019-07-25 2020-03-24 Second Spectrum, Inc. Data processing systems for real-time camera parameter estimation
CN110705365A (zh) * 2019-09-06 2020-01-17 北京达佳互联信息技术有限公司 一种人体关键点检测方法、装置、电子设备及存储介质
CN110738110A (zh) * 2019-09-11 2020-01-31 北京迈格威科技有限公司 基于锚点的人脸关键点检测方法、装置、系统和存储介质
CN110930454B (zh) * 2019-11-01 2022-11-22 北京航空航天大学 一种基于边界框外关键点定位的六自由度位姿估计算法
CN111104925B (zh) * 2019-12-30 2022-03-11 上海商汤临港智能科技有限公司 图像处理方法、装置、存储介质和电子设备
CN111191622B (zh) * 2020-01-03 2023-05-26 华南师范大学 基于热力图和偏移向量的姿态识别方法、系统及存储介质
CN111291631B (zh) * 2020-01-17 2023-11-07 北京市商汤科技开发有限公司 视频分析方法及其相关的模型训练方法、设备、装置
CN111695519B (zh) * 2020-06-12 2023-08-08 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质
CN114648747A (zh) * 2022-03-30 2022-06-21 上海商汤临港智能科技有限公司 目标检测、行驶控制方法、装置、电子设备及存储介质
CN114898190A (zh) * 2022-04-19 2022-08-12 北京沃东天骏信息技术有限公司 一种图像处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
George Papandreou외 6인, "Towards Accurate Multi-person Pose Estimation in the Wild", arxiv.org, (2017.04.14.) 1부.* *
Jun Yu외 5인, "Mobile Centernet for Embedded Deep Learning Object Detection", IEEE Xplore, (2020.06.09.) 1부.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210390731A1 (en) * 2020-06-12 2021-12-16 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for positioning key point, device, and storage medium
US11610389B2 (en) * 2020-06-12 2023-03-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for positioning key point, device, and storage medium

Also Published As

Publication number Publication date
KR102584074B1 (ko) 2023-10-04
CN111695519B (zh) 2023-08-08
EP3869402A1 (en) 2021-08-25
CN111695519A (zh) 2020-09-22
US20210390731A1 (en) 2021-12-16
JP2021197157A (ja) 2021-12-27
US11610389B2 (en) 2023-03-21
JP7194215B2 (ja) 2022-12-21
EP3869402B1 (en) 2023-05-17

Similar Documents

Publication Publication Date Title
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
KR20210035787A (ko) 키포인트 위치결정 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN111539514B (zh) 用于生成神经网络的结构的方法和装置
CN111931591B (zh) 用于构建关键点学习模型的方法、装置、电子设备及可读存储介质
CN111259671B (zh) 文本实体的语义描述处理方法、装置及设备
KR20210040301A (ko) 이미지 문답 방법, 장치, 기기, 저장매체 및 컴퓨터 프로그램
US20210319335A1 (en) Question analysis method, device, knowledge base question answering system and electronic equipment
CN111507355B (zh) 一种字符识别方法、装置、设备和存储介质
CN111582454B (zh) 生成神经网络模型的方法和装置
KR20210108906A (ko) 점군 데이터 처리방법, 장치, 전자기기 및 판독 가능 기록매체
CN112270711B (zh) 模型训练以及姿态预测方法、装置、设备以及存储介质
US11367284B2 (en) Method and apparatus for commenting video
CN111695698B (zh) 用于模型蒸馏的方法、装置、电子设备及可读存储介质
US11735168B2 (en) Method and apparatus for recognizing voice
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
CN111950293B (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
KR102487260B1 (ko) 이미지 처리 방법, 장치, 전자 기기 및 저장 매체
KR20210040878A (ko) 이미지의 테이블 추출 방법, 장치, 전자 기기 및 저장 매체
CN111539897A (zh) 用于生成图像转换模型的方法和装置
EP3869393B1 (en) Image recognition method and apparatus, electronic device, and medium
JP2022006189A (ja) 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器
CN111833391B (zh) 图像深度信息的估计方法及装置
CN111563591B (zh) 超网络的训练方法和装置
CN111767988A (zh) 神经网络的融合方法和装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant