KR20210157470A - 자세 검출 및 비디오 처리 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

자세 검출 및 비디오 처리 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20210157470A
KR20210157470A KR1020217036883A KR20217036883A KR20210157470A KR 20210157470 A KR20210157470 A KR 20210157470A KR 1020217036883 A KR1020217036883 A KR 1020217036883A KR 20217036883 A KR20217036883 A KR 20217036883A KR 20210157470 A KR20210157470 A KR 20210157470A
Authority
KR
South Korea
Prior art keywords
information
target
connection
training
depth information
Prior art date
Application number
KR1020217036883A
Other languages
English (en)
Inventor
첸 퀴안
준이 린
멩팅 첸
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202010566388.7A external-priority patent/CN111666917A/zh
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20210157470A publication Critical patent/KR20210157470A/ko

Links

Images

Classifications

    • G06K9/00348
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • G06K9/00355
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 자세 검출 및 비디오 처리 방법, 및 장치, 전자 기기 및 저장 매체에 관한 것이다. 상기 자세 검출 방법은, 타깃 이미지를 획득하는 단계; 상기 타깃 이미지에 따라, 상기 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 획득하는 단계; 및 상기 연속 깊이 정보 및 상기 위치 정보에 따라, 상기 타깃 대상의 자세를 결정하는 단계를 포함한다. 상기 과정을 통해, 타깃 대상의 자세를 더욱 정확하게 검출하므로, 자세 검출의 정밀도 및 효과를 향상한다.

Description

자세 검출 및 비디오 처리 방법, 장치, 전자 기기 및 저장 매체
본 발명은 출원 번호가 202010566388.7이고, 출원일이 2020년 6월 19일인 중국 특허 출원에 기반하여 제출하였고, 상기 중국 특허 출원의 우선권을 주장하며, 상기 중국 특허 출원의 모든 내용은 참조로서 본 발명에 인용된다.
본 발명은 이미지 처리 기술 분야에 관한 것이고, 특히 자세 검출 및 비디오 처리 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.
3차원 인체 자세 추정은 이미지 또는 비디오에서의 인체의 3차원 위치에 대해 추정하는 것을 의미한다. 상기 임무는 컴퓨터 비전 분야의 하나의 활발한 연구 과제이고, 많은 응용 프로그램(예를 들어 동작 인식, 인간 컴퓨터 인터렉션 및 자동 운전)의 관건적인 단계이다. 어떻게 입력된 이미지를 통해, 높은 정밀도의 3차원 위치 정보 예측을 구현하는지는, 현재 급히 해결해야 하는 기술적 과제이다.
본 발명은 자세 검출 기술 방안을 제공한다.
본 발명의 일 측면에 따르면, 자세 검출 방법을 제공하고, 상기 자세 검출 방법은,
타깃 이미지를 획득하는 단계; 상기 타깃 이미지에 따라, 상기 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 획득하는 단계; 및 상기 연속 깊이 정보 및 상기 위치 정보에 따라, 상기 타깃 대상의 자세를 결정하는 단계를 포함한다.
하나의 가능한 구현 방식에 있어서, 상기 타깃 이미지에 따라, 상기 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 획득하는 단계는, 상기 타깃 이미지를 제1 뉴럴 네트워크 모델에 통과시켜, 상기 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 얻는 단계; 를 포함하고, 상기 제1 뉴럴 네트워크 모델은 제1 훈련 데이터 및 제2 훈련 데이터를 통해 훈련하여 얻으며, 상기 제1 훈련 데이터는 훈련 대상을 포함하는 훈련 이미지이고; 및 상기 제2 훈련 데이터는 상기 훈련 대상의 연속 깊이 정보, 및 상기 훈련 대상의 위치 정보를 포함한다.
하나의 가능한 구현 방식에 있어서, 상기 연속 깊이 정보 및 상기 위치 정보에 따라, 상기 타깃 대상의 자세를 결정하는 단계는, 상기 연속 깊이 정보 및 상기 위치 정보를 제2 뉴럴 네트워크 모델에 통과시켜, 상기 타깃 대상의 자세를 얻는 단계; 를 포함하고, 상기 제2 뉴럴 네트워크 모델은 제2 훈련 데이터 및 제3 훈련 데이터를 통해 훈련되고, 상기 제2 훈련 데이터는 훈련 대상의 연속 깊이 정보, 및 상기 훈련 대상의 위치 정보를 포함하며 ; 상기 제3 훈련 데이터는 상기 훈련 대상의 자세를 포함한다.
하나의 가능한 구현 방식에 있어서, 상기 제2 훈련 데이터는 제3 훈련 데이터에 따라 생성되고, 상기 제3 훈련 데이터가 상기 훈련 대상의 자세를 포함하며; 상기 제3 훈련 데이터에 따라, 상기 제2 훈련 데이터를 생성하는 단계는, 상기 제3 훈련 데이터에서의 상기 훈련 대상의 자세에 따라, 상기 훈련 대상의 이산 깊이 정보, 및 상기 훈련 대상의 위치 정보를 얻는 단계; 적어도 일부 상기 이산 깊이 정보에 대해 처리하여, 상기 훈련 대상의 연속 깊이 정보를 얻는 단계; 및 상기 훈련 대상의 연속 깊이 정보 및 상기 훈련 대상의 위치 정보에 따라, 상기 제2 훈련 데이터를 생성하는 단계를 포함한다.
하나의 가능한 구현 방식에 있어서, 적어도 일부 상기 이산 깊이 정보에 대해 처리하여, 상기 훈련 대상의 연속 깊이 정보를 얻는 단계는, 적어도 일부 상기 이산 깊이 정보에 대응되는 적어도 하나의 연결을 획득하는 단계; 상기 연결에 대응되는 이산 깊이 정보에 따라, 적어도 하나의 상기 연결의 연속 깊이 서브 정보를 결정하는 단계; 및 적어도 하나의 상기 연속 깊이 서브 정보를 통계하여, 상기 훈련 대상의 연속 깊이 정보를 얻는 단계를 포함한다.
하나의 가능한 구현 방식에 있어서, 상기 연결에 대응되는 이산 깊이 정보에 따라, 적어도 하나의 상기 연결의 연속 깊이 서브 정보를 결정하는 단계는, 상기 연결에 대응되는 이산 깊이 정보에 따라, 선형 보간을 통해, 상기 연결에서의 적어도 하나의 포인트의 제1 연속 깊이 서브 정보를 얻는 단계; 적어도 하나의 상기 연결에 대응되는 연결 범위를 결정하는 단계; 상기 제1 연속 깊이 서브 정보에 따라, 상기 연결에 대응되는 연결 범위 내의 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 결정하는 단계; 및 상기 제1 연속 깊이 서브 정보 및 제2 연속 깊이 서브 정보 중 적어도 하나에 따라, 상기 연결에 대응되는 연속 깊이 서브 정보를 획득하여, 상기 적어도 하나의 상기 연결의 연속 깊이 서브 정보를 얻는 단계를 포함한다.
하나의 가능한 구현 방식에 있어서, 상기 제1 연속 깊이 서브 정보에 따라, 상기 연결에 대응되는 연결 범위 내의 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 결정하는 단계는, 상기 연결 범위가 상기 연결에 대응되는 이산 깊이 정보의 기설정 범위 내에 있을 경우, 상기 연결에 대응되는 이산 깊이 정보를, 상기 연결 범위 내 적어도 하나의 포인트의 제2 연속 깊이 서브 정보로 하는 단계; 및 상기 연결 범위가 상기 연결에 대응되는 이산 깊이 정보의 기설정 범위 외에 있을 경우, 상기 연결에서 상기 연결 범위 내의 포인트와 거리가 제일 가까운 제1 연속 깊이 서브 정보에 따라, 상기 연결 범위 내 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 얻는 단계를 포함한다.
본 발명의 일 측면에 따르면, 비디오 처리 방법을 제공하고, 상기 비디오 처리 방법은,
현재 시나리오에 대해 이미지 수집을 수행하여, 수집 비디오를 얻는 단계; 상기 수집 비디오에서, 적어도 두 개의 프레임의 타깃 대상을 포함하는 타깃 이미지를 선정하는 단계; 상기 어느 한 항에 따른 상기 자세 검출 방법을 통해, 적어도 두 개의 프레임의 상기 타깃 이미지에서의 상기 타깃 대상에 대해 자세 검출을 수행하여, 상기 수집 비디오에서의 상기 타깃 대상의 적어도 두 개의 자세를 결정하는 단계를 포함한다.
하나의 가능한 구현 방식에 있어서, 상기 비디오 처리 방법은 또한, 상기 타깃 대상의 적어도 두 개의 자세, 및 상기 수집 비디오에서의 프레임의 시간에 따라, 상기 타깃 대상의 연속 자세를 얻는 단계; 및 상기 타깃 대상의 연속 자세에 따라, 상기 타깃 대상에 대해 트레이스하는 단계를 포함한다.
본 발명의 일 측면에 따르면, 자세 검출 장치를 제공하고, 상기 자세 검출 장치는,
타깃 이미지를 획득하도록 구성한 타깃 이미지 획득부; 상기 타깃 이미지에 따라, 상기 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 획득하도록 구성된 정보 획득부; 및 상기 연속 깊이 정보 및 상기 위치 정보에 따라, 상기 타깃 대상의 자세를 결정하도록 구성된 자세 결정부를 포함한다.
하나의 가능한 구현 방식에 있어서, 상기 정보 획득부는, 상기 타깃 이미지를 제1 뉴럴 네트워크 모델에 통과시켜, 상기 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 얻고; 상기 제1 뉴럴 네트워크 모델이 제1 훈련 데이터 및 제2 훈련 데이터를 통해 훈련하여 얻으며 - 상기 제1 훈련 데이터 훈련 대상을 포함하는 훈련 이미지임 - ; 및 상기 제2 훈련 데이터가 상기 훈련 대상의 연속 깊이 정보, 및 상기 훈련 대상의 위치 정보를 포함하도록 구성된다.
하나의 가능한 구현 방식에 있어서, 상기 자세 결정부는, 상기 연속 깊이 정보 및 상기 위치 정보를 제2 뉴럴 네트워크 모델에 통과시켜, 상기 타깃 대상의 자세를 얻고; 상기 제2 뉴럴 네트워크 모델이 제2 훈련 데이터 및 제3 훈련 데이터를 통해 훈련하며 - 상기 제2 훈련 데이터는 훈련 대상의 연속 깊이 정보, 및 상기 훈련 대상의 위치 정보를 포함 - ; 상기 제3 훈련 데이터가 상기 훈련 대상의 자세를 포함하도록 구성된다.
하나의 가능한 구현 방식에 있어서, 상기 제2 훈련 데이터는 제3 훈련 데이터에 따라 생성되고, 상기 제3 훈련 데이터가 상기 훈련 대상의 자세를 포함하며; 상기 제3 훈련 데이터에 따라, 상기 제2 훈련 데이터를 생성하는 단계는, 상기 제3 훈련 데이터에서의 상기 훈련 대상의 자세에 따라, 상기 훈련 대상의 이산 깊이 정보, 및 상기 훈련 대상의 위치 정보를 얻는 단계; 적어도 일부 상기 이산 깊이 정보에 대해 처리하여, 상기 훈련 대상의 연속 깊이 정보를 얻는 단계; 및 상기 훈련 대상의 연속 깊이 정보 및 상기 훈련 대상의 위치 정보에 따라, 상기 제2 훈련 데이터를 생성하는 단계를 포함한다.
하나의 가능한 구현 방식에 있어서, 적어도 일부 상기 이산 깊이 정보에 대해 처리하여, 상기 훈련 대상의 연속 깊이 정보를 얻는 단계는, 적어도 일부 상기 이산 깊이 정보에 대응되는 적어도 하나의 연결을 획득하는 단계; 상기 연결에 대응되는 이산 깊이 정보에 따라, 적어도 하나의 상기 연결의 연속 깊이 서브 정보를 결정하는 단계; 및 적어도 하나의 상기 연속 깊이 서브 정보를 통계하여, 상기 훈련 대상의 연속 깊이 정보를 얻는 단계를 포함한다.
하나의 가능한 구현 방식에 있어서, 상기 연결에 대응되는 이산 깊이 정보에 따라, 적어도 하나의 상기 연결의 연속 깊이 서브 정보를 결정하는 단계는, 상기 연결에 대응되는 이산 깊이 정보에 따라, 선형 보간을 통해, 상기 연결에서의 적어도 하나의 포인트의 제1 연속 깊이 서브 정보를 얻는 단계; 적어도 하나의 상기 연결에 대응되는 연결 범위를 결정하는 단계; 상기 제1 연속 깊이 서브 정보에 따라, 상기 연결에 대응되는 연결 범위 내의 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 결정하는 단계; 및 상기 제1 연속 깊이 서브 정보 및 제2 연속 깊이 서브 정보 중 적어도 하나에 따라, 상기 연결에 대응되는 연속 깊이 서브 정보를 획득한다.
하나의 가능한 구현 방식에 있어서, 상기 제1 연속 깊이 서브 정보에 따라, 상기 연결에 대응되는 연결 범위 내의 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 결정하는 단계는, 상기 연결 범위가 상기 연결에 대응되는 이산 깊이 정보의 기설정 범위 내에 있을 경우, 상기 연결에 대응되는 이산 깊이 정보를, 상기 연결 범위 내 적어도 하나의 포인트의 제2 연속 깊이 서브 정보로 하는 단계; 및 상기 연결 범위가 상기 연결에 대응되는 이산 깊이 정보의 기설정 범위 외에 있을 경우, 상기 연결에서 상기 연결 범위 내의 포인트와 거리가 제일 가까운 제1 연속 깊이 서브 정보에 따라, 상기 연결 범위 내 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 얻는 단계를 포함한다.
본 발명의 일 측면에 따르면, 비디오 처리 장치을 제공하고, 상기 비디오 처리 장치는,
현재 시나리오에 대해 이미지 수집을 수행하여, 수집 비디오를 얻도록 구성된 이미지 수집부; 상기 수집 비디오에서, 적어도 두 개의 프레임의 타깃 대상을 포함하는 타깃 이미지를 선정하도록 구성된 선정부; 상기 어느 한 항에 따른 상기 자세 검출 방법을 통해, 적어도 두 개의 프레임의 상기 타깃 이미지에서의 상기 타깃 대상에 대해 자세 검출을 수행하여, 상기 수집 비디오에서의 상기 타깃 대상의 적어도 두 개의 자세를 결정하도록 구성된 자세 획득부를 포함한다.
하나의 가능한 구현 방식에 있어서, 상기 비디오 처리 장치는 또한, 상기 타깃 대상의 적어도 두 개의 자세, 및 상기 수집 비디오에서의 프레임의 시간에 따라, 상기 타깃 대상의 연속 자세를 얻고; 상기 타깃 대상의 연속 자세에 따라, 상기 타깃 대상에 대해 트레이스하도록 더 구성된다.
본 발명의 일 측면에 따르면, 전자 기기를 제공하고, 상기 전자 기기는,
프로세서; 및 프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하며; 여기서, 상기 프로세서는 상기 메모리에 저장된 명령어를 호출하여, 상기 자세 검출 방법을 실행하도록 구성된다.
본 발명의 일 측면에 따르면, 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 판독 가능한 저장 매체는, 상기 컴퓨터 프로그램 명령어가 프로세서에 의해 실행될 때, 상기 자세 검출 방법을 구현한다.
본 발명의 일 측면에 따르면, 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 작동되고, 상기 전자 기기에서의 프로세서에 의해 실행될 경우, 상기 자세 검출 방법을 구현한다.
본 발명의 실시예에 있어서, 타깃 이미지 및 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 획득하므로, 연속 깊이 정보 및 위치 정보에 따라 타깃 대상의 자세를 결정한다. 상기 과정을 통해, 타깃 대상의 연속 깊이 정보를 이용하여 타깃 대상에 대한 자세 예측을 구현할 수 있고, 깊이 정보가 연속적인 것이므로, 이산한 깊이 정보에 비해, 타깃 대상의 자세를 더욱 정확하게 검출하므로, 자세 검출의 정밀도 및 효과를 향상한다.
이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 해석적인 것이며, 본 발명을 한정하려는 것은 아니다.
아래에 첨부 도면에 따라 예시적 실시예를 상세하게 설명하므로, 본 발명의 다른 특징 및 측면이 더욱 명확해질 것이다.
아래의 도면은 본 명세서의 일부분으로서 명세서 전체를 구성하며, 이러한 도면은 본 발명에 맞는 실시예를 예시하여, 명세서와 함께 본 발명의 기술방안을 설명하기 위한것이다.
도 1은 본 발명의 실시예에 따른 자세 검출 방법의 흐름도이다.
도 2는 본 발명의 실시예에 따른 타깃 대상 연속 깊이 정보를 획득하는 예시도이다.
도 3은 본 발명의 실시예에 따른 연결 범위를 결정하는 예시도이다.
도 4는 본 발명의 실시예에 따른 비디오 처리 방법의 흐름도이다.
도 5는 본 발명의 응용예의 예시도이다.
도 6은 본 발명의 실시예에 따른 자세 검출 장치의 블록도이다.
도 7은 본 발명의 실시예에 따른 비디오 처리 장치의 블록도이다.
도 8은 본 발명의 실시예에 따른 전자 기기의 블록도이다.
도 9는 본 발명의 실시예에 따른 전자 기기의 블록도이다.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 예시적인 실시예, 특징 및 측면을 상세하게 설명한다. 도면에서 동일한 도면 부호는 동일하거나 유사한 기능을 갖는 요소를 나타낸다. 실시예의 다양한 측면이 도면에 도시되어 있지만, 특별히 언급되지 않는 한, 도면을 비율에 따라 그릴 필요는 없다.
본문에서 용어 “예시적”은 “예, 실시예 또는 설명으로 사용되는” 것을 의미한다. 여기서 "예시적"으로 설명된 임의의 실시예는 다른 예보다 뛰어나거나 좋은 것으로 해석될 필요는 없다.
본문에서의 용어 “및/또는”은 다만 연관 대상의 연관 관계를 설명하기 위한 것으로, 세 가지 관계가 존재할 수 있음을 의미하는데, 예를 들어, “A 및/또는 B”는, A가 단독적으로 존재하거나, A와 B가 동시에 존재하거나, B가 단독적으로 존재하는 세 가지 경우를 의미한다. 또한, 본 문에서 용어 "적어도 하나"는 복수의 어느 하나 또는 복수의 둘 중 어느 하나의 조합을 의미하고, 예를 들어, A, B, C 중 적어도 하나를 포함하여, A, B 및 C로 구성된 조합에서 선택된 어느 하나 또는 복수 개의 요소를 나타낼 수 있다.
또한, 본 발명을 더 잘 설명하기 위해, 아래의 구체적인 실시형태에서 다수의 구체적인 세부 사항을 제공한다. 본 분야의 기술자는 일부 구체적인 세부 사항이 없이도, 본 발명이 마찬가지로 실시될 수 있음을 이해해야 한다. 일부 예에 있어서, 본 분야에게 널리 알려진 방법, 수단, 구성 요소 및 회로는 본 발명의 요지를 강조하기 위해, 상세히 설명되지 않는다.
도 1은 본 발명의 실시예에 따른 자세 검출 방법의 흐름도이고, 상기 방법은 자세 검출 장치에 응용될 수 있으며, 자세 검출 장치는 단말 기기, 서버 또는 다른 처리 기기 등일 수 있다. 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 단말, 셀룰러 폰, 무선 전화, 개인용 정보 단말기(Personal Digital Assistant, PDA), 핸드 헬드 기기, 컴퓨팅 기기, 차량용 기기, 웨어러블 기기 등일 수 있다.
일부 가능한 구현 방식에 있어서, 상기 자세 검출 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다.
도 1에 도시된 바와 같이, 상기 자세 검출 방법은 단계 S11, 단계 S12 및 단계 S13을 포함한다.
단계 S11에 있어서, 타깃 이미지를 획득한다.
단계 S12에 있어서, 타깃 이미지에 따라, 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 획득한다.
단계 S13에 있어서, 연속 깊이 정보 및 위치 정보에 따라, 타깃 대상의 자세를 결정한다.
여기서, 타깃 이미지는, 자세 검출을 위한 임의의 이미지일 수 있고, 이의 구현 형식은 본 발명의 실시예에서 한정되지 않으며, 실제 상황에 따라 유연하게 결정될 수 있다. 하나의 가능한 구현 방식에 있어서, 타깃 이미지는 인체 자세 검출을 위한 인체 이미지일 수 있고; 하나의 가능한 구현 방식에 있어서, 타깃 이미지는 또한 기계 자세 검출(예를 들어 로봇 자세 검출 등)을 위한 기계 이미지 등일 수도 있다. 타깃 대상은 타깃 이미지에서 자세 검출을 수행하기 위한 대상일 수 있고, 이의 구현 형식은 타깃 이미지 및 자세 검출의 실제 상황에 따라 유연하게 결정될 수 있으며, 하나의 가능한 구현 방식에 있어서, 타깃 이미지가 인체 자세 검출을 위한 인체 이미지일 경우, 타깃 대상은 타깃 이미지에 포함되는 완전 인체일 수 있고, 팔, 허벅지, 몸통, 헤드부 등과 같은 타깃 이미지에 포함되는 인체의 일부 위치 또는 관절일 수 있으며; 하나의 가능한 구현 방식에 있어서, 타깃 이미지가 기계 자세 검출을 위한 기계 이미지일 경우, 타깃 대상은 타깃 이미지에 포함되는 전체의 기계 대상일 수 있고, 로봇 팔 또는 기계의 이동을 지지하는 이동 기구 등과 같은 타깃 이미지에 포함되는 기계의 어느 부위일 수도 있다. 후속으로 각 개시된 실시예는 모두 타깃 대상이 인체이고, 자세 검출이 인체 3차원 자세 검출인 것을 예로 하여 설명하고, 다른 가능한 구현 방식은 후속으로 각 개시된 실시예를 참조하여 유연하게 확장될 수 있으며, 더이상 설명하지 않는다.
타깃 이미지의 개수는 본 발명의 실시예에서 한정되지 않고, 하나일 수 있고 복수 개일 수도 있으며, 즉 한 번의 자세 검출의 과정에 있어서, 단지 하나의 타깃 이미지에 대해 자세 검출을 수행할 수 있고, 동시에 복수 개의 타깃 이미지에 대해 자세 검출을 수행할 수 있으며, 검출의 실제 수요에 따라 유연하게 결정하면 된다. 타깃 이미지에 포함되는 타깃 대상의 개수는 본 발명의 실시예에서 한정되지 않고, 하나의 가능한 구현 방식에 있어서, 하나의 타깃 이미지에서 하나의 타깃 대상을 포함할 수 있으며, 하나의 가능한 구현 방식에 있어서, 하나의 타깃 이미지에서 동시에 복수 개의 타깃 대상을 포함할 수 있으며, 실제 상황에 따라 유연하게 결정하면 된다.
단계 S11에 있어서, 타깃 이미지를 획득하는 방식은 본 발명의 실시예에서 한정되지 않고, 하나의 가능한 구현 방식에 있어서, 자세 검출 장치가 주동적으로 타깃 대상에 대해 이미지 수집(예를 들어 사진 또는 비디오 촬영 등)을 수행하는 방식을 통해 타깃 이미지를 획득할 수 있고; 하나의 가능한 구현 방식에 있어서, 자세 검출 장치가 비동적으로 타깃 이미지를 수신할 수도 있으며, 어떻게 구현하는지는 자세 검출 장치의 실제 상황에 따라 유연하게 결정하면 되고, 본 발명의 실시예에서 한정하지 않는다.
타깃 대상의 연속 깊이 정보는 타깃 대상에서의 연속된 복수 개의 샘플링 포인트의 깊이 정보일 수 있고, 타깃 대상에 대한 검출 과정에 있어서, 타깃 대상의 머리, 목, 어깨, 팔꿈치, 손, 어덩이, 무릅 및 발 등과 같은 타깃 대상의 일부 키포인트에 대해 검출할 수 있으며, 인체 구조에 기반하여 알다시피, 이러한 키포인트 사이에는 일반적으로 비교적 긴 거리가 있으며, 즉 이러한 키포인트는 서로 이산한 것이고, 예를 들어, 타깃 대상의 팔꿈치와 손목 사이에는 팔의 거리를 간격하고 있으며, 따라서, 키포인트의 깊이 정보는 일반적으로 이산한 깊이 정보이다. 연속 깊이 정보는 즉 인체 몸통의 강성 구조에 기반하여, 인접한 이산 키포인트 사이의 모든 포인트에 대해 깊이 예측을 수행하여 얻은 연속 정보이고, 하나의 가능한 구현 방식에 있어서, 연속 깊이 정보는 연속 깊이 특징도로 표현될 수 있다.
따라서, 단계 S12에 있어서, 타깃 이미지에서의 타깃 대상의 연속 깊이 정보를 획득하는 것은, 타깃 이미지에서의 타깃 대상이 커버한 범위 내에 포함되는 복수 개의 연속된 샘플링 포인트의 깊이 정보를 획득하는 것일 수 있고, 상기 연속 깊이 정보를 획득하는 방식은, 실제 상황에 따라 유연하게 선택될 수 있다.
타깃 대상에 대해 자세 검출을 수행하는 과정에 있어서, 최종적으로 얻어야 하는 것은 타깃 대상의 3차원 좌표일 수 있고, 깊이 정보는 3차원 좌표에서의 하나의 차원이므로, 하나의 가능한 구현 방식에 있어서, 단계 S12에서 타깃 대상의 2차원 위치 정보가 더 필요하며, 타깃 대상의 자세의 결정에 협조한다. 위치 정보의 구현 형식은 한정되지 않고, 실제 상황에 따라 유연하게 선택될 수 있으며, 하나의 가능한 구현 방식에 있어서, 타깃 대상의 위치 정보는 타깃 대상의 2차원 히트맵을 포함할 수 있고, 여기서, 포함되는 2차원 히트맵의 개수와 타입은 실제 상황에 따라 유연하게 결정될 수 있으며, 하나의 예에 있어서, 타깃 대상의 위치 정보는 타깃 대상의 키포인트의 2차원 히트맵을 포함할 수 있고, 및 타깃 대상 몸통의 2차원 히트맵 등 중 적어도 하나를 포함할 수 있다.
본 발명의 일부 실시예에 있어서, 타깃 대상의 위치 정보를 획득하는 방식은 마찬가지로 실제 상황에 따라 유연하게 결정될 수 있고, 하기 각 발명의 실시예를 참조한다.
하나의 가능한 구현 방식에 있어서, 단계 S12는, 타깃 이미지를 제1 뉴럴 네트워크 모델에 통과시켜, 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 얻는 단계를 포함한다.
제1 뉴럴 네트워크 모델은 타깃 대상 연속 깊이 정보와 위치 정보 추출 기능을 구비하는 뉴럴 네트워크 모델일 수 있고, 이의 구현 형식은 본 발명의 실시예에서 한정되지 않으며, 실제 상황에 따라 유연하게 설치할 수 있다. 입력 데이터는 타깃 이미지이고, 출력 데이터는 타깃 이미지에서의 타깃 대상의 연속 깊이 정보이므로, 하나의 가능한 구현 방식에 있어서, 제1 뉴럴 네트워크 모델은 제1 훈련 데이터 및 제2 훈련 데이터를 통해 제1 초기 뉴럴 네트워크에 대해 훈련하여 얻은 뉴럴 네트워크 모델일 수 있다. 여기서, 제1 훈련 데이터는 훈련 대상을 포함하는 훈련 이미지일 수 있고, 제2 훈련 데이터는 훈련 대상의 연속 깊이 정보 및 훈련 대상의 위치 정보를 포함할 수 있다. 여기서, 훈련 이미지에 포함되는 훈련 대상은, 타깃 대상과 동일할 수 있고, 타깃 대상과 동일한 타입에 속하지만 타깃 대상과 동일한 대상의 관련 대상이 아닐 수 있으며, 여기서, 구현 형식은 타깃 대상의 구현 형식을 참조할 수 있고, 여기서 더이상 설명하지 않는다. 훈련 이미지의 구현 형식은 마찬가지로 타깃 이미지의 구현 형식을 참조할 수 있고, 여기서 더이상 설명하지 않는다. 그러나 제2 훈련 데이터를 어떻게 획득하고, 및 제2 훈련 데이터에서 타깃 대상의 연속 깊이 정보 및 위치 정보는 어떻게 얻은 것인지는, 후속으로 각 개시의 실시예를 참조할 수 있고, 여기서 일단 전개하지 않는다. 제1 훈련 데이터 및 제2 훈련 데이터의 개수는 본 발명의 실시예에서 한정되지 않고, 실제 상황에 따라 유연하게 결정될 수 있다.
제1 초기 뉴럴 네트워크는 VGG, ResNet 또는 GoogleNet 등 흔한 뉴럴 네트워크일 수 있고, MobileNet V2 또는 ShuffleNet V2 등 경량급의 뉴럴 네트워크일 수도 있으며, 여기서, 어느 뉴럴 네트워크를 선택하여 제1 초기 뉴럴 네트워크로 할지는, 실제 수요에 따라 유연하게 선택하면 된다.
제1 훈련 데이터 및 제2 훈련 데이터를 제1 초기 뉴럴 네트워크에 입력하여 훈련하므로, 연속 깊이 정보 추출 기능을 구비하는 제1 뉴럴 네트워크 모델을 얻고, 상기 제1 뉴럴 네트워크 모델을 이용하여 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보에 대해 획득하며, 상기 과정을 통해, 비교적 편리한 방식을 이용하여 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 얻을 수 있고, 얻은 연속 깊이 정보의 정확성이 비교적 높으며, 자세 검출 난이도를 저하하는 동시에, 자세 검출의 정밀도를 향상한다. 동시에, 연속 깊이 정보를 포함하는 제2 훈련 데이터를 통해 훈련하여 제1 뉴럴 네트워크 모델을 얻으므로, 제1 뉴럴 네트워크 모델이 더욱 구조적인 깊이 정보를 공부하는데 편리할 수 있으므로, 제1 뉴럴 네트워크 모델에게 더욱 로버스트적인 일반화 기능을 제공할 수 있고, 제1 뉴럴 네트워크 모델이 더 많는 응용 시나리오에 적응하는데 편리하다.
하나의 가능한 구현 방식에 있어서, 단계 S12는,
타깃 이미지를 제4 뉴럴 네트워크 모델을 통해, 타깃 이미지에서의 타깃 대상의 연속 깊이 정보를 얻는 단계;
타깃 이미지를 제3 뉴럴 네트워크 모델을 통해, 타깃 이미지에서의 타깃 대상의 위치 정보를 얻는 단계를 더 포함할 수도 있다.
상기 개시의 실시예를 통해 알수 있는 바, 하나의 가능한 구현 방식에 있어서, 타깃 이미지를 각각 두 개의 상이한 뉴럴 네트워크에 입력하므로, 타깃 대상의 연속 깊이 정보 및 위치 정보를 각각 얻을 수 있다. 이러한 상황에 있어서, 제4 뉴럴 네트워크 모델은 단지 타깃 대상 연속 깊이 정보 추출 기능을 구비하는 뉴럴 네트워크 모델일 수 있고, 제3 뉴럴 네트워크 모델은 단지 타깃 대상 위치 정보 추출 기능을 구비하는 뉴럴 네트워크 모델일 수 있다. 따라서, 하나의 가능한 구현 방식에 있어서, 제1 뉴럴 네트워크 모델은 마찬가지로 제1 훈련 데이터 및 제4 훈련 데이터를 통해 제4 초기 뉴럴 네트워크에 대해 훈련하여 얻은 뉴럴 네트워크 모델일 수 있고, 제1 훈련 데이터의 구현 형식은 상기 각 개시의 실시예를 참조할 수 있으며, 여기서 더이상 설명하지 않고; 이러한 상황에 있어서, 제4 훈련 데이터의 구현 형식은 유연하게 변화할 수 있으며, 예를 들어 제4 훈련 데이터는 단지 훈련 대상의 연속 깊이 정보를 포함할 수 있다. 하지만 타깃 대상의 위치 정보는 제1 훈련 데이터와 공동으로 제3 뉴럴 네트워크 모델의 훈련 데이터로 하여, 제3 초기 뉴럴 네트워크 훈련에 대해 훈련하므로, 제3 뉴럴 네트워크 모델을 얻을 수 있다. 제3 초기 뉴럴 네트워크의 구현 형식은 유연하게 결정될 수 있고, 여기서, 제1 초기 뉴럴 네트워크를 참조할 수 있으며, 여기서 더이상 설명하지 않는다.
각각 타깃 이미지를 제4 뉴럴 네트워크 모델 및 제3 뉴럴 네트워크 모델에 입력하므로, 각각 타깃 대상의 연속 깊이 정보와 위치 정보를 얻고, 상기 과정을 통해, 제4 뉴럴 네트워크 모델 및 제3 뉴럴 네트워크 모델의 기능을 간소화하여, 제4 뉴럴 네트워크 모델과 제3 뉴럴 네트워크 모델의 정밀도를 향상할 수 있으며, 얻은 연속 깊이 정보와 위치 정보의 깊이를 효과적으로 향상할 수 있으므로, 자세 검출의 정밀도를 향상한다.
단계 S13에 있어서, 연속 깊이 정보에 따라 타깃 대상의 자세의 구현 방식을 결정하고, 본 발명의 실시예에서 한정하지 않는다. 하나의 가능한 구현 방식에 있어서, 단계 S13은, 연속 깊이 정보 및 위치 정보가 제2 뉴럴 네트워크 모델을 통해, 타깃 대상의 자세를 얻는다.
제2 뉴럴 네트워크 모델은 자세 검출 기능을 구비하는 뉴럴 네트워크 모델일 수 있고, 이의 구현 형식은 본 발명의 실시예에서 한정하지 않으며, 실제 상황에 따라 유연하게 설치할 수 있다. 입력 데이터는 연속 깊이 정보 및 위치 정보이고, 출력 데이터는 타깃 대상의 자세이므로, 하나의 가능한 구현 방식에 있어서, 제1 뉴럴 네트워크 모델은 제2 훈련 데이터 및 제3 훈련 데이터를 통해 제2 초기 뉴럴 네트워크에 대해 훈련하여 획득한 뉴럴 네트워크 모델일 수 있다. 여기서, 제2 훈련 데이터는 훈련 대상의 연속 깊이 정보 및 훈련 대상의 위치 정보를 포함할 수 있고, 제3 훈련 데이터는 훈련 대상의 자세를 포함할 수 있다. 여기서, 제2 훈련 데이터의 구현 형식은 상기 개시의 실시예에서 언급된 제2 훈련 데이터와 동일하고, 여기서 더이상 설명하지 않는다. 제3 훈련 데이터는 훈련 대상의 자세 예측 결과일 수 있고, 이의 구현 형식은 한정되지 않으며, 하나의 가능한 구현 방식에 있어서, 훈련 대상의 키포인트의 3차원 위치 정보(예를 들어 3차원 좌표)를 훈련 대상의 자세 예측 결과로 할 수 있다.
제2 초기 뉴럴 네트워크의 구현 형식은 상기 제1 초기 뉴럴 네트워크의 구현 형식을 참조할 수 있고, 즉 어느 흔한 뉴럴 네트워크로 구성될 수 있으며, 하나의 가능한 구현 방식에 있어서, 제2 초기 뉴럴 네트워크는 차례로 연결된 컨볼루션 계층과 풀링 계층으로 구성된 뉴럴 네트워크일 수 있고, 여기서, 컨볼루션 계층 및 풀링 계층의 개수 및 연결 순서 등은 본 발명의 실시예에서 한정되지 않는다.
제2 훈련 데이터 및 제3 훈련 데이터를 제2 초기 뉴럴 네트워크에 입력하여 훈련하므로, 자세 검출 기능을 구비하는 제2 뉴럴 네트워크 모델을 얻고, 상기 제2 뉴럴 네트워크 모델을 이용하여, 연속 깊이 정보 및 위치 정보에 따라 타깃 대상의 자세를 얻으며, 상기 과정을 통해, 연속 깊이 정보가 포함되는 제2 훈련 데이터를 이용하여 훈련하여 제2 뉴럴 네트워크 모델을 얻을 수 있고, 제2 뉴럴 네트워크 모델에게 더 많는 효과적인 정보를 제공할 수 있으므로, 더욱 정확한 예측 결과를 얻으며, 비교적 정확한 자세 예측을 구현할 수 있고, 복수 개의 타깃 이미지 또는 복수 개의 타깃 대상에 대해 동시에 처리하여 복수 개의 자세 검출 결과를 얻는데 편리하며, 자세 검출의 정밀도와 편리성을 향상한다.
본 발명의 실시예에 있어서, 타깃 이미지 및 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 획득하므로, 연속 깊이 정보 및 위치 정보에 따라 타깃 대상의 자세를 결정한다. 상기 과정을 통해, 연속 깊이 정보를 타깃 대상 자세 예측 과정의 중간 감독 정보로 하여 자세 검출을 구현하여, 타깃 대상의 자세를 더욱 정확하게 검출하므로, 자세 검출의 정밀도 및 효과를 향상한다.
각 상기 개시의 실시예를 통해 알 수 있는 바, 하나의 가능한 구현 방식에 있어서, 단계 S11 내지 단계 13을 통해 자세 검출을 구현하는 관건은 타깃 대상을 포함하는 연속 깊이 정보의 훈련 데이터를 통해 제1 뉴럴 네트워크 모델 및 제2 뉴럴 네트워크 모델에 대해 훈련하는 것이다. 하나의 데이터를 훈련하는 이미지에 있어서, 실제 사람이 특정된 센서 기기를 착용하여, 키포인트의 깊이 정보를 수집할 수 있고, 그러나 각 연속 샘플링 포인트의 깊이 정보를 획득하는 것은 구현하기 힘들며, 인공 라벨링의 방식을 통해 라벨링을 수행할 경우, 거대한 작업량이 생산되고, 시간과 인력을 소모한다.
따라서, 하나의 가능한 구현 방식에 있어서, 제2 훈련 데이터는 제3 훈련 데이터에 따라 생성할 수 있고, 제3 훈련 데이터는 훈련 대상의 자세를 포함한다.
여기서, 제3 훈련 데이터에 따라, 제2 훈련 데이터를 생성하는 단계는 단계 S21, S11 및 S23을 포함할 수 있다.
단계 S21에 있어서, 제3 훈련 데이터에서의 훈련 대상의 자세에 따라, 훈련 대상의 이산 깊이 정보, 및 훈련 대상의 위치 정보를 얻는다.
단계 S22에 있어서, 적어도 일부 이산 깊이 정보에 대해 처리하여, 훈련 대상의 연속 깊이 정보를 얻는다.
단계 S23에 있어서, 훈련 대상의 연속 깊이 정보 및 훈련 대상의 위치 정보에 따라, 제2 훈련 데이터를 생성한다.
여기서, 제3 훈련 데이터의 구현 방식은 상기 개시의 실시예와 동일하고, 여기서 더이상 설명하지 않는다. 상기 개시의 실시예에 따라 알다시피, 하나의 가능한 구현 방식에 있어서, 타깃 대상의 키포인트의 3차원 위치 정보를 타깃 대상의 자세 예측 결과로 할 수 있으므로, 따라서, 훈련 대상의 키포인트의 3차원 위치 정보를 훈련 대상의 자세 예측 결과로 할 수 있고, 즉 제3 훈련 데이터에는 직접 훈련 대상의 이산 깊이 정보 및 위치 정보가 포함될 수 있으며, 즉 단계 S21을 통해, 제3 훈련 데이터에 따라 직접 훈련 대상의 이산 깊이 정보 및 위치 정보를 얻을 수 있다.
상기 개시의 실시예에서 설명된 바와 같이, 이산 깊이 정보는 어느 키포인트 또는 샘플링 포인트의 깊이 정보일 수 있고, 따라서 단계 S21에 있어서, 얻은 이산 깊이 정보의 개수는, 제3 훈련 데이터에서의 키포인트 또는 포함되는 깊이 값을 구비하는 샘플링 포인트의 개수에 따라 결정될 수 있으며, 본 발명의 실시예에서 한정하지 않는다.
단계 S22를 통해 훈련 대상의 연속 깊이 정보를 얻는 과정에 있어서, 획득한 각 이산 깊이 정보에 따라 처리하여 얻을 수 있고, 획득한 이산 깊이 정보에 대해, 일부 정보를 선택하여 처리하여 얻을 수 있으며, 여기서, 획득한 전부 이산 깊이 정보을 이용할 것인지, 또는 여기서의 일부 이산 깊이 정보를 이용할 것인지, 및 어느 이산 깊이 정보를 이용할지를 어떻게 선택할지는, 모두 실제 상황에 따라 유연하게 선택될 수 있으며, 본 발명의 실시예에서 한정하지 않는다.
훈련 대상의 연속 깊이 정보을 얻은 후, 단계 S23을 통해, 훈련 대상의 연속 깊이 정보 및 위치 정보에 따라 제2 훈련 데이터를 생성할 수 있다. 단계 S23의 구현 방식은 본 발명의 실시예에서 한정되지 않고, 하나의 가능한 구현 방식에 있어서, 연속 깊이 정보는 연속 깊이 특징도의 형식을 통해 구현될 수 있고, 위치 정보는 2차원 히트맵의 형식을 통해 구현될 수 있으므로, 직접 연속 깊이 정보 및 위치 정보를 공동으로 제2 훈련 데이터로 할 수 있다.
훈련 대상 자세를 포함하는제3 훈련 데이터에 따라 훈련 대상을 포함하는 연속 깊이 정보 및 위치 정보의 제2 훈련 데이터를 생성하여, 제2 훈련 데이터를 획득하는 난이도 및 작업량을 많이 감소할 수 있으므로, 자세 검출의 구현 과정의 편리성을 향상한다.
본 발명의 일부 실시예에 있어서, 단계 S22에 있어서, 어떻게 적어도 일부 이산 깊이 정보에 대해 처리하여, 훈련 대상의 연속 깊이 정보를 얻는 처리 방식은 실제 상황에 따라 유연하게 결정될 수 있다. 하나의 가능한 구현방식에 있어서, 단계 S22는 단계 S221, 단계 S222 및 단계 S223을 포함할 수 있다.
단계 S221에 있어서, 적어도 일부 이산 깊이 정보에 대응되는 적어도 하나의 연결을 획득한다.
단계 S222에 있어서, 연결에 대응되는 이산 깊이 정보에 따라, 적어도 하나의 연결의 연속 깊이 서브 정보를 결정한다.
단계 S223에 있어서, 적어도 하나의 연속 깊이 서브 정보를 통계하여, 훈련 대상의 연속 깊이 정보를 얻는다.
여기서, 이산 깊이 정보에 대응되는 연결의 구현 형식은 실제 상황에 따라 유연하게 결정될 수 있다. 하나의 가능한 구현 방식에 있어서, 상기 연결은 실질적인 연결일 수 있고, 예를 들어 이산 깊이 정보에 대응되는 키포인트를 연결하여 연결선을 얻으므로, 연결선을 이산 깊이 정보에 대응되는 연결로 하며; 하나의 가능한 구현 방식에 있어서, 상기 연결은 실질적으로 연결되지 않는 대응 관계일 수도 있고, 즉 어느 이산 깊이 정보에 대응되는 키포인트 사이에 연결 관계가 구비되는 것을 결정하지만, 이러한 이산 깊이 정보에 대응되는 키포인트를 연결선을 통해 연결하지 않는다. 후속으로 각 개시의 실시예는 모두 획득한 연결이 실질적인 연결선인 것을 예로 설명하고, 실질적으로 연결되지 않고 연결선을 얻는 방식은, 후속으로 각 개시의 실시예를 참조하여 유연하게 확장할 수 있으며, 더이상 반복하여 상세히 설명하지 않는다.
상기 개시의 실시예에서 제출된 바와 같이, 타깃 대상의 연속 깊이 정보를 얻는 과정에서, 획득한 각 이산 깊이 정보에 대해 모두 처리하여 얻은 것일 수 있고, 여기서 일부 이산 깊이 정보에 대해 처리하여 얻은 것일 수도 있다. 따라서, 단계 S221에 있어서, 적어도 일부 이산 깊이 정보에 대응되는 적어도 하나의 연결을 획득하는 과정에 있어서, 획득한 모든 이산 깊이 정보에서, 임의의 두 개의 이산 깊이 정보에 대해 연결하는 것일 수 있고, 여기서 일부 이산 깊이 정보를 선택하여 연결하는 것일 수도 있으며, 이산 깊이 정보가 훈련 대상에서의 위치에 따라, 선택적인 연결일 수도 있고, 실제 수요에 따라 유연하게 결정하면 된다.
하나의 가능한 구현 방식에 있어서, 이산 깊이 정보가 획득한 훈련 대상의 키포인트의 깊이 정보일 경우, 키포인트가 훈련 대상에서의 위치에 따라, 키포인트의 이산 깊이 정보를 선택적으로 연결하는 것일 수 잇고, 예를 들어, 획득한 이산 깊이 정보가 손목, 팔꿈치, 어깨 및 머리를 포함할 경우, 인체의 몸통 구조에 기반하여, 손목과 팔꿈치의 이산 깊이 정보, 팔꿈치와 어깨의 이산 깊이 정보, 및 어깨와 머리의 이산 깊이 정보를 각각 연결하여, 세 개의 연결선을 얻을 수 있으며, 다른 연결 방식에 있어서, 예를 들어 손목과 머리 연결, 팔꿈치와 머리 연결등은, 인체 몸통의 분포 방식과 일치하지 않으므로, 이러한 이산 깊이 정보를 연결할 필요 없다.
적어도 두 개의 이산 깊이 정보를 연결하여 적어도 하나의 연결를 얻은 후, 단계 S222를 통해, 연결에 대응되는 이산 깊이 정보에 따라, 적어도 하나의 연결의 연속 깊이 서브 정보를 결정할 수 있다.
하나의 가능한 구현 방식에 있어서, 연결이 연결선일 경우, 연결선의 말단점에 대응되는 이산 깊이 정보에 따라, 적어도 하나의 연결선에 대응되는 연속 깊이 서브 정보를 얻는다. 여기서, 연결선의 말단점이 대응되는 이산 깊이 정보가, 즉 단계 S221에서 연결선을 얻는 과정에서, 연결된 이산 깊이 정보이다. 예를 들어, 상기 개시의 실시예에서 손목과 팔꿈치의 이산 깊이 정보, 팔꿈치와 어깨의 이산 깊이 정보 및 어깨와 머리의 이산 깊이 정보를 연결하므로 세 개의 연결선을 얻는 것을 언급하였고, 하나의 예에 있어서, 손목과 팔꿈치의 연결선에 대응되는 연속 깊이 서브 정보는, 손목의 이산 깊이 정보 및 팔꿈치의 이산 깊이 정보에 의해 얻은 것일 수 있으며, 팔꿈치와 어깨의 연결선 대응되는 연속 깊이 서브 정보는, 팔꿈치의 이산 깊이 정보 및 어깨의 이산 깊이 정보에 의해 얻은 것일 수 있고, 마찬가지로, 어깨와 머리의 연결선 대응되는 연속 깊이 서브 정보는, 어깨의 이산 깊이 정보 및 머리의 이산 깊이 정보에 의해 얻은 것일 수 있다. 여기서, 어떻게 연결선의 끝점의 이산 깊이 정보에 따라 연결선에 대응되는 연속 깊이 서브 정보를 얻는 것에 관한 과정은 후속으로 각 개시의 실시예를 참조할 수 있고, 여기서 일단 전개하지 않는다.
도 2는 본 발명의 실시예에 따른 훈련 대상 연속 깊이 정보를 획득하는 예시도이고, 도면에서 나타낸 바와 같이, 하나의 가능한 구현 방식에 있어서, 제3 훈련 데이터에서 획득한 훈련 대상의 이산 깊이 정보가 훈련 대상의 손목 이산 깊이 정보 Pw 및 훈련 대상의 손 팔꿈치 이산 깊이 정보 Pe를 포함할 수 있고, 이때 손목 이산 깊이 정보 Pw 및 Pe를 연결하여, 훈련 대상의 팔 연결선을 얻을 수 있으며, 손목 이산 깊이 정보 Pw 및 손 팔꿈치 이산 깊이 정보 Pe에 따라, 팔 연결선에 대응되는 연속 깊이 정보를 얻는다.
적어도 하나의 연결에 대응되는 연속 깊이 서브 정보를 얻은 후, 단계 S223을 통해, 이러한 연속 깊이 서브 정보에 대해 통계하여, 훈련 대상의 연속 깊이 정보를 얻을 수 있다. 통계의 방식은 실제 상황에 따라 유연하게 결정될 수 있고, 본 발명의 실시예에서 한정하지 않는다. 하나의 가능한 구현 방식에 있어서, 얻은 각 연결에 대응되는 연속 깊이 서브 정보를 병합하여, 공동으로 훈련 대상에 대응되는 연속 깊이 정보로 할 수 있고, 하나의 가능한 구현 방식에 있어서, 일부 선명한 오류가 있거나 훈련 대상 커버 범위를 초과한 연속 깊이 서브 정보를 삭제하여, 남은 연속 깊이 서브 정보를 보류하여 공동으로 훈련 대상의 연속 깊이 정보로 하며, 여기서, 선별 방식은 실제 상황에 따라 유연하게 선택하면 된다.
적어도 일부 이산 깊이 정보에 대응되는 적어도 하나의 연결을 획득하므로, 연결에 대응되는 이산 깊이 정보에 따라, 적어도 하나의 연결의 연속 깊이 서브 정보를 얻으므로, 적어도 하나의 연속 깊이 서브 정보를 통계하여, 훈련 대상의 연속 깊이 정보를 얻고, 상기 과정을 통해, 기존의 이산 깊이 정보에 따라, 훈련 대상 자신의 구조에 기반하여, 이산 깊이 정보와 연속 깊이 정보 사이의 관계를 구축하여, 이산 값에 따라 연속 값을 추론하는데 편리하며, 비교적 편리하게 훈련 대상의 연속 깊이 정보를 결정할 수 있고, 나아가 제2 훈련 데이터를 획득하는데의 난이도 및 작업량을 감소할 수 있고, 자세 검출의 구현 과정의 편리성을 향상한다.
상기 개시의 실시예에서, 단계 S222의 구현 방식을 한정하지 않는 것을 제출하였고, 하나의 가능한 구현 방식에 있어서, 단계 S222는 단계 S2221, 단계 S2222 및 단계 S2223을 포함할 수 있다.
단계 S2221에 있어서, 연결에 대응되는 이산 깊이 정보에 따라, 선형 보간을 통해, 연결 상 적어도 하나의 포인트의 제1 연속 깊이 서브 정보를 얻는다.
단계 S2222에 있어서, 적어도 하나의 연결에 대응되는 연결 범위를 결정한다.
단계 S2223에 있어서, 제1 연속 깊이 서브 정보에 따라, 연결에 대응되는 연결 범위 내의 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 결정한다.
단계 S2224에 있어서, 제1 연속 깊이 서브 정보 및 제2 연속 깊이 서브 정보 중 적어도 하나에 따라, 연결에 대응되는 연속 깊이 서브 정보르 얻는다.
여기서, 제1 연속 깊이 서브 정보는 연결 또는 연결선에 위치한 포인트의 깊이 정보이다. 상기 개시의 실시예에서 설명한 봐와 같이, 하나의 가능한 구현 방식에 있어서, 연결 이산 깊이 정보를 통해, 적어도 하나의 연결선을 얻을 수 있고, 상기 연결선의 끝점의 이산 깊이 정보가 즉 연결된 이산 깊이 정보이며, 따라서, 각 얻은 연결선에 있어서, 상기 연결선에는 모두 두 개의 포인트가 존재하고, 이 두 개의 포인트가 연결선에서의 위치를 알려지는 동시에, 대응되는 깊이 정보도 알려지며, 따라서, 이 연결선에 있어서, 연결선에 남은 포인트에 대응되는 깊이 정보는, 모두 이 두 개의 알려진 포인트의 깊이 정보를 통해 추론하여 얻을 수 있고, 따라서, 하나의 가능한 구현 방식에 있어서, 단계 S2221를 통해, 연결선의 말단점에 대응되는 이산 깊이 정보를 이용하여, 선형 보간을 통해, 연결선에 남은 포인트의 제1 연속 깊이 서브 정보를 얻을 수 있다. 여기서, 연결선에서 각 포인트의 제1 연속 깊이 서브 정보를 획득할 것인지, 또는 연결선에서 일부 포인트의 제1 연속 깊이 서브 정보를 획득할 것인지는, 수요에 따라 유연하게 결정될 수 있다. 하나의 가능한 구현 방식에 있어서, 연결선의 말단점에 대응되는 이산 깊이 정보를 통해, 선형 보간을 통해, 연결선에서의 제1 연속 깊이 서브 정보와 포인트 위치 사이의 관계 함수를 얻을 수있으므로, 연결선에서의 모든 포인트 또는 일부 포인트의 제1 연속 깊이 서브 정보를 얻어야 하는지에 상관 없이, 제1 연속 깊이 서브 정보의 포인트의 위치를 획득하여 관계 함수에 대입하면 얻을 수 있다.
제2 연속 깊이 서브 정보는 연결에 대응되는 연결 범위 내의 포인트의 깊이 정보일 수 있다. 상기 개시의 실시예에서 설명한 봐와 같이, 획득한 이산 깊이 정보는 단지 대상의 일부 키포인트의 이산 깊이 정보일 수 있고, 여전히 도 2를 예로 들면, 도면에서 나타낸 바와 같이, 획득한 이산 깊이 정보가 손목 키포인트 및 손 팔꿈치 키포인트의 깊이 정보 Pw와 Pe일 경우, Pw와 Pe를 연결하여 얻은 연결선은 훈련 대상의 팔 범위를 완전히 커버할 수 없고, 단지 상기 연결선에서의 제1 연속 깊이 서브 정보를 획득할 경우, 팔의 연속 깊이 정보를 완전히 반영하지 못할 수 있으므로, 하나의 가능한 구현 방식에 있어서, 연결선에서 적당한 확장을 수행하여, 연결선에 대응되는 연결 범위를 결정하므로, 연결선에서의 포인트의 제1 연속 깊이 서브 정보를 획득하는 기초 상에서, 나아가 연결 범위 내에서 커버한 남은 포인트의 제2 연속 깊이 서브 정보를 획득할 수 있다.
연결 범위의 결정 방식은 본 발명의 실시예에서 한정되지 않고, 하나의 가능한 구현 방식에 있어서, 연결선을 중심으로 하여, 훈련 대상의 경계까지 확장하여, 연결선에 대응되는 연결 범위를 얻는다. 하나의 가능한 구현 방식에 있어서, 작업량을 저하하고, 연결 범위의 결정 효율을 결정하기 위해, 하나의 기설정 반경을 설치하여, 연결선을 중심으로 하여, 기설정 반경까지 확장하여, 연결선의 연결 범위를 얻을 수 있다. 이 기설정 반경의 설치 방식은 실제 상황에 따라 유연하게 선택할 수 있고, 본 발명의 실시예에 한정되지 않으며, 하나의 예에 있어서, 하나의 가장자리 길이가 R의 확장 반경을 설정할 수 있고, 연결선을 중심선으로 하여, 하나의 너비가 2R이고, 길이가 연결선과 동일한 직사각형을 구조하며, 동시에 연결선의 두 개의 말단점에서, 각각 직사각형에서 멀어지는 측면으로, 두 개의 반경이 R인 반원을 구조하고, R의 값은 실제 상황에 따라 유연하게 설정될 수 있고, 이 두 개의 반경이 R인 반원과 너비가 2R인 직사각형은 공동으로 연결 범위를 구성한다. 도 3은 본 발명의 실시예에 따른 연결 범위를 결정하는 예시도이고, 도면에서 나타낸 바와 같이, 하나의 예에 있어서, Pw와 Pe의 연결선을 중심선으로 하여, 상기 방식에 따라 상기 연결에 대응되는 연결 범위를 구조할 수 있다.
연결 범위를 결정한 후, 제1 연속 깊이 서브 정보에 따라, 결정 연결 범위에 포함되는 포인트의 제2 연속 깊이 서브 정보를 결정할 수 있고; 여기서, 어떻게 결정할지는 하기 각 개시의 실시예를 참조할 수 있으며, 여기서 일단 전개하지 않는다.
제1 연속 깊이 서브 정보 및 제2 연속 깊이 서브 정보를 얻은 후, 두 개의 서브 정보에 따라 연속 깊이 서브 정보를 얻을 수 있고; 여기서, 제1 연속 깊이 서브 정보를 연속 깊이 서브 정보로 하며, 또는 제2 연속 깊이 서브 정보를 연속 깊이 서브 정보로 하고, 또는 제1 연속 깊이 서브 정보 및 제2 연속 깊이 서브 정보를 공동으로 연속 깊이 서브 정보로하거나, 그중의 일부 정보만 선택하여 연속 깊이 서브 정보로 할 수 있으며, 실제 상황에 따라 유연하게 선택할 수 있고, 본 발명의 실시예에서 한정하지 않는다.
상기 개시의 실시예에서 설명한 봐와 같이, 하나의 가능한 구현 방식에 있어서, 이산 깊이 정보의 연결는, 비 실질적 연결 대신 대응 관계일 수 있고, 이러한 상황에 있어서, 연결의 이산 깊이 정보 사이는 연결선이 없지만, 연결의 이산 깊이 정보의 위치 관계에 기반하여, 상기 개시의 실시예의 구현 방식을 참조하여, 선형 보간을 통해 결정 두자의 연결이 커버한 범위에서의, 상이한 포인트의 깊이 정보를 결정할 수 있으며, 여기서, 결정 과정은 상기 각 개시의 실시예를 참조하고, 여기서 더이상 설명하지 않는다.
연결에 대응되는 이산 깊이 정보에 따라 선형 보간을 수행하여 연결에서 적어도 하나의 포인트의 제1 연속 깊이 서브 정보를 얻고, 동시에 연결에 대응되는 연결 범위를 결정하므로, 제1 연속 깊이 서브 정보에 따라 연결 범위 내 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 얻고, 나아가 제1 연속 깊이 서브 정보 및 제2 연속 깊이 서브 정보 중 적어도 하나에 따라 연속 깊이 정보를 얻으므로, 적어도 하나의 연결의 연속 깊이 서브 정보를 얻으며; 상기 과정을 통해, 한편으로는 연결에서의 연속 깊이 서브 정보를 비교적 편리하게 획득할 수 있고, 다른 한편으로는, 연결의 커버 범위에 대해 확대하여, 연결에 대응되는 연결 범위 내의 연속 깊이 서브 정보를 얻을 수 있으므로, 뉴럴 네트워크 모델의 훈련을 위해 비교적 전면적이고 정확한 훈련 대상의 연속 깊이 정보를 획득하여, 나아가 자세 검출의 정밀도의 향상에 도움된다.
하나의 가능한 구현 방식에 있어서, 단계 S2223는 단계 S22231 및 단계 S22232를 포함한다.
단계 S22231에 있어서, 연결 범위가 연결에 대응되는 이산 깊이 정보의 기설정 범위 내에 있을 경우, 연결에 대응되는 이산 깊이 정보를, 연결 범위 내 적어도 하나의 포인트의 제2 연속 깊이 서브 정보로 한다.
단계 S22232에 있어서, 연결 범위가 상기 연결에 대응되는 이산 깊이 정보의 기설정 범위 외에 있을 경우, 연결에서 연결 범위 내의 포인트와 거리가 제일 가까운 제1 연속 깊이 서브 정보에 따라, 연결 범위 내 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 얻는다.
여기서, 연결에 대응되는 이산 깊이 정보의 기설정 범위는 연결 범위에서의 일부 범위에 포함될 수 있고, 여기서, 기설정 범위의 크기 및 정의 방식은 연결 범위의 결정 상황에 따라 유연하게 결정될 수 있다. 상기 개시의 실시예를 통해 알수 있는 바, 하나의 가능한 구현 방식에 있어서, 기설정 범위는 연결선의 끝점의 커버 영역 및 연결선에서의 다른 포인트의 커버 영역을 구분하기 위한 것일 수 있고, 즉 기설정 범위 내의 포인트에 있어서, 이에 대응되는 제2 연속 깊이 서브 정보는 끝점의 이산 깊이 정보에 의해 결정될 수 있고, 기설정 범위 외의 포인트에 있어서, 이에 대응되는 제2 연속 깊이 서브 정보는 연결선에서의 제1 연속 깊이 서브 정보에 의해 결정될 수 있다. 하나의 가능한 구현 방식에 있어서, 연결 범위의 구조 방식은 상기 개시의 실시예에서 설명한 봐와 같을 수 있고, 즉 연결선을 중심선으로 하여, 하나의 너비가 2R이고, 길이가 연결선과 동일한 직사각형을 구조하고, 연결선의 두 개의 말단점에서, 각각 직사각형에서 멀어지는 측면으로, 두 개의 반경이 R인 반원을 구조하며, 즉 이러한 상황에 있어서, 이 두 개의 반경이 R인 반원을, 연결 끝점의 기설정 범위로 볼 수 있고, 남은 너비가 2R인 직사각형은 연결 끝점의 기설정 범위 외로 볼 수 있다.
단계 S22231을 통해 알수 있다시피, 하나의 가능한 구현 방식에 있어서, 기설정 범위 내의 포인트에 대해, 기설정 범위에 대응되는 연결선의 끝점의 이산 깊이 정보를, 제2 연속 깊이 서브 정보로 할 수 있고, 도 3을 예로하여 설명하면, 도 3에서 알다시피, Pw를 원심으로 구조한 반경이 R인 반원에 있어서, 이러한 반원 내의 포인트의 제2 연속 깊이 서브 정보는 모두 Pw의 이산 깊이 정보와 동일하고, 마찬가지로, Pe를 원심으로 구조한 반경이 R인 반원에 있어서, 이러한 반원 내의 포인트의 제2 연속 깊이 서브 정보는 모두 Pe의 이산 깊이 정보와 동일하다.
단계 S22232를 통해 알수 있다시피, 하나의 가능한 구현 방식에 있어서, 기설정 범위 외의 포인트(여기서 상기 포인트를 P로 표시)에 있어서, 연결선에서, 포인트 P와 거리가 최근인 포인트의 제1 연속 깊이 서브 정보를, 포인트 P의 제2 연속 깊이 서브 정보로 한다. 여기서, 연결선에서 포인트 P와 거리가 최근인 포인트를 결정하는 방식을 하정하지 않고, 마찬가지로 도 3을 예로 하여 설명하면, 도면에서 나타낸 바와 같이, 하나의 가능한 구현 방식에 있어서, 포인트 P에서 연결선으로 수선을 그려, 수족 P’를 얻을 수 있고, 즉 P’의 제1 연속 깊이 서브 정보를, 포인트 P의 제2 연속 깊이 서브 정보로 할 수 있다.
상기 과정을 통해, 각각 연결에 대응되는 이산 깊이 정보가 커버한 기설정 범위의 제2 연속 깊이 서브 정보, 및 연결이 커버한 범위의 제2 연속 깊이 서브 정보를 얻을 수 있으므로, 연결 범위에서의 포인트에 대응되는 제2 연속 깊이 서브 정보를 얻고, 이러한 제2 연속 깊이 서브 정보의 결정 방식은 비교적 간편하며, 계산량이 적고, 나아가 제2 훈련 데이터를 획득하는 난이도 및 작업량을 감소하며, 자세 검출의 구현 과정의 편리성 및 정확성을 향상한다.
하나의 가능한 구현 방식에 있어서, 상기 각 개시의 실시예가 결정한 타깃 대상의 자세를, 동작 인식, 인간 컴퓨터 인터렉션 및 자동 운전 등과 같은 상이한 시나리오에 응용할 수도 있다. 하나의 가능한 구현 방식에 있어서, 상기 각 개시의 실시예에서 결정한 타깃 대상의 자세를 비디오 데이터의 처리 과정에 응용할 수 있다. 따라서, 본 발명의 실시예는 비디오 처리 방법을 더 제출한다.
도 4는 본 발명의 실시예에 따른 비디오 처리 방법의 흐름도이고, 상기 방법은 비디오 처리 장치에 응용될 수 있으며, 비디오 처리 장치의 구현 형식은 상기 개시의 실시예에서의 자세 검출 장치와 동일할 수 있고, 상이할 수도 있으며, 이의 구현 형식은 상기 각 개시의 실시예를 참조할 수 있고, 여기서 더이상 설명하지 않는다.
일부 가능한 구현방식에서, 상기 비디오 처리 방법은 프로세서에 의해 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출함으로써 구현될 수 있다.
도 4에 도시된 바와 같이, 상기 비디오 처리 방법은 단계 S21, 단계 S22 및 단계 S23을 포함한다.
단계 S21에 있어서, 현재 시나리오에 대해 이미지 수집을 수행하여, 수집 비디오를 얻는다.
단계 S22에 있어서, 상기 수집 비디오에서, 적어도 두 개의 프레임의 타깃 대상을 포함하는 타깃 이미지를 선정한다.
단계 S23에 있어서, 상기 각 개시의 실시예에서의 자세 검출 방법을 통해, 어도 두 개의 프레임의 상기 타깃 이미지에서의 상기 타깃 대상에 대해 자세 검출을 수행하여, 상기 수집 비디오에서의 상기 타깃 대상의 적어도 두 개의 자세를 결정한다.
여기서, 타깃 대상의 구현 방식은 상기 자세 검출에서의 각 개시의 실시예와 동일하고, 여기서 더이상 설명하지 않는다. 현재 시나리오는 타깃 대상을 포함하는 임의의 시나리오일 수 있고, 하기 각 개시의 실시예에 한정되지 않는다. 하나의 가능한 구현 방식에 있어서, 현재 시나리오 보행자 검출 시나리오, 자동 운전 시나리오, 교실에서의 대상 캡처 시나리오 및 회사 환경 검출 시나리오 등일 수 있다.
현재 시나리오에 대해 이미지 수집을 수행하는 방식은 현재 시나리오의 실제 상황에 따라 유연하게 결정될 수 있고, 예를 들어 현재 시나리오가 보행자 검출 시나리오일 경우, 횡단보도에 전개된 촬영 기기를 통해 이미지 수집을 수행할 수 있으며, 현재 시나리오가 자동 운전 시나리오일 경우, 차량에 전개된 촬영 기기를 통해 이미지 수집을 수행하는 등일 수 있다.
수집 비디오의 구현 형식은 이미지 수집의 실제 상황에 따라 유연하게 결정될 수 있고, 본 발명의 실시예에서 한정하지 않는다.
단계 S21을 통해 수집 비디오를 얻은 후, 단계 S22를 통해, 수집 비디오에서 적어도 두 개의 프레임의 타깃 대상을 포함하는 타깃 이미지를 선정할 수 있고, 여기서, 타깃 이미지의 구현 형식도 상기 자세 검출에서의 각 개시의 실시예 동일하며, 여기서 더이상 설명하지 않는다. 수집 비디오에서 적어도 두 개의 프레임의 타깃 대상을 포함하는 타깃 이미지를 선정하는 선정 방식은 실제 상황에 따라 유연하게 결정될 수 있고, 하기 각 개시의 실시예에 한정하지 않는다. 하나의 가능한 구현 방식에 있어서, 수집 비디오에서의 적어도 일부 프레임에 대해 타깃 대상 검출을 수행하고, 타깃 대상이 검출된 프레임에서, 랜덤으로 선정하거나 이미지 품질 등 표준에 따라 여기서의 적어도 일부 프레임을 선정하여, 타깃 이미지로 할 수 있다.
단계 S22를 통해적어도 두 개의 프레임의 타깃 대상을 포함하는 타깃 이미지를 얻은 후, 상기 임의의 개시의 실시예에서 제출된 자세 검출 방법을 통해, 선정된 타깃 이미지에 대해 자세 검출을 수행하여, 수집 비디오에서의 타깃 대상의 적어도 두 개의 자세를 결정할 수 있고, 여기서, 어떻게 자세를 결정할지는 타깃 이미지의 실제 상황에 따라 유연하게 결정될 수 있으며, 본 발명의 실시예에서 한정하지 않는다.
현재 시나리오에 대해 이미지 수집을 수행하여, 수집 비디오를 얻고, 수집 비디오에서 적어도 두 개의 프레임의 타깃 대상을 포함하는 타깃 이미지를 선정하며, 나아가 통해 상기 임의의 개시의 실시예에서 제출한 자세 검출 방법을 통해 수집 비디오에서의 타깃 대상의 적어도 두 개의 자세를 결정하는 것을 구현한다. 상기 과정을 통해, 연속 깊이 정보에 기반하여 구현된 자세 검출 과정을 비디오 처리 과정에 응용하므로, 동적 비디오에서, 비교적 정확하게 타깃 대상의 복수 개의 자세 결정하고, 효과적으로 비디오에서의 자세 검출의 정밀도를 향상하는데 편리하다.
하나의 가능한 구현 방식에 있어서, 수집 비디오에서 타깃 대상의 적어도 두 개의 자세를 얻은 후, 얻은 복수 개의 자세에 대해 처리할 수 있으므로, 하나의 가능한 구현 방식에 있어서, 본 발명의 실시예에서 제출한 비디오 처리 방법은 또한 단계 S24 및 단계 S25를 포함한다.
단계 S24에 있어서, 타깃 대상의 적어도 두 개의 자세, 및 수집 비디오에서의 프레임의 시간에 따라, 타깃 대상의 연속 자세를 얻는다.
단계 S25에 있어서, 상기 타깃 대상의 연속 자세에 따라, 상기 타깃 대상에 대해 트레이스한다.
상기 개시의 실시예에서 설명한 봐와 같이, 비디오에서의 타깃 대상의 자세를 수집하는 것은, 수집 비디오에서의 타깃 대상을 포함하는 프레임에 따라 결정될 수 있으며, 수집 비디오에서의 프레임이 시간의 선후 순서에 따라 배열될 수 있으므로, 이러한 프레임이 수집 비디오에서의 시간에 따라, 얻은 복수 개의 자세가 발생하는 선후 순서를 차례로 결정할 수 있으므로, 타깃 대상의 연속 자세를 결정한다.
본 발명의 일부 실시예에 있어서, 결정 타깃 대상의 연속 자세를 결정한 후, 타깃 대상에 대한 트레이스를 구현할 수 있다. 상기 과정을 통해, 상기 연속 깊이 정보를 이용하는 자세 검출 과정을, 타깃 대상의 트레이스 과정에 응용하므로, 트레이스의 정확성을 향상하고, 더욱 효과적인 트레이스를 구현할 수 있다.
예시적으로, 도시 안전 모니터링 시나리오에 있어서, 도시 모니터링 장치를 통해 도시에 대해 이미지 수집을 수행하여, 수집 비디오를 얻을 수 있고, 자세 검출 장치가 수집 비디오를 획득한 후, 수집 비디오에서 적어도 두 개의 프레임의 타깃 대상을 포함하는 이미지를 획득하고, 제1 뉴럴 네트워크 모델을 통해 적어도 두 개의 프레임의 타깃 대상을 포함하는 이미지에서, 타깃 대상에 대응되는 적어도 두 그룹의 연속 깊이 정보 및 위치 정보를 획득하며, 적어도 두 그룹의 연속 깊이 정보 및 위치 정보에 따라, 제1 뉴럴 네트워크 모델을 통해 대응되는 적어도 두 개의 자세를 얻고, 적어도 두 개의 자세, 및 적어도 두 개의 자세에서의 각 자세에 대응되는 프레임의 시간에 따라, 타깃 대상의 연속 자세를 얻으며, 나아가 타깃 대상의 행위가 싸움, 도적, 강도 등과 같은위험 행위인지 여부를 판단하고; 타깃 대상의 행위가 위험행위인 것을 결정할 경우, 자동으로 신고하며, 수집된 타깃 대상의 비디오 및 위험행위의 판단 결과를 경찰서에 송신한다.
아래는, 본 출원 실시예의 실제 응용 시나리오에서의 예시적 응용을 설명할 것이다.
3차원 인체 자세 추정은 컴퓨터 비전 분야에서의 하나의 기본 임무이고, 동작 인식, 인간 컴퓨터 인터렉션 및 자동 운전등 시나리오에 널리 응용되며, 어떻게 3차원 인체 자세 추정의 정확성을 향상할지는, 하나의 급히 해결해야 하는 기술적 과제이다.
도 5는 본 발명에 따른 응용예의 예시도이고, 도면에서 나타낸 바와 같이, 본 발명의 실시예는 자세 검출 방법 제출하고, 본 방법은 타깃 이미지에서 인체의 3차원 자세를 결정할 수 있고, 도면에서 나타낸 바와 같이, 본 발명의 응용예에서 자세 검출의 과정은,
도면에서 나타낸 바와 같이, 본 발명의 응용예에 있어서, 먼저 입력된 타깃 이미지를 제1 뉴럴 네트워크 모델(BackBone 메인 뉴럴 네트워크)에 통과할 수 있고, 제1 뉴럴 네트워크 모델이 입력된 타깃 이미지에 대해 처리하여, 세 개의 출력 결과를 얻을 수 있으며, 각각 인체 키포인트의 2차원 히트맵, 인체 몸통의 2차원 히트맵 및 인체 몸통을 포함하는 연속 깊이 정보의 깊이 보간도일 수 있고, 다음 얻은 세 개의 출력 결과를 공동으로 입력 데이터로 하여, 제2 뉴럴 네트워크 모델(Regression 복귀 네트워크)에 입력하며, 제2 뉴럴 네트워크 모델의 처리를 통해, 인체 몸통에서의 각 연속 포인트의 3차원 위치 좌표를 얻는다.
여기서, 제1 뉴럴 네트워크 모델의 구조는 천부층 네트워크에서 3 개의 예측 분지를 가하는 형식으로 구성된 수 있고, 천부층 네트워크는 타깃 이미지에서의 인체에 대해 특징 추출을 수행할 수 있으며, 얻은 특징 추출 결과를 각각 세 개의 예측 분지에 입력하고, 하나의 예측 분지는 인체 키포인트를 출력하는 2차원 히트맵을 예측하기 위한 것이며, 하나의 예측 분지는 인체 몸통의 2차원 히트맵을 출력하기 위한 것이고, 하나의 예측 분지는 인체 몸통을 포함하는 연속 깊이 정보의 깊이 보간도를 출력하기 위한 것이다. 따라서, 제1 뉴럴 네트워크 모델은, 인체를 포함하는 훈련 이미지, 인체 키포인트의 2차원 히트맵, 인체 몸통의 2차원 히트맵 및 인체 몸통을 포함하는 연속 깊이 정보의 깊이 보간도 등 네 개의 타입의 이미지를 통해 공동으로 훈련하여 얻을 수 있고, 여기서 인체 몸통을 포함하는 연속 깊이 정보의 깊이 보간도는 인체 몸통의 이산 깊이 정보도에 대해, 상기 개시의 실시예에서 제출한 임의의 방식을 통해 처리하여 얻을 수 있다.
제2 뉴럴 네트워크 모델의 구조는 컨볼루션 계층 및 풀링 계층을 연결하여 구성될 수 있고, 여기서, 제2 뉴럴 네트워크 모델이 입력 데이터에 대해 처리하는 과정에 있어서, 먼저 입력된 인체 키포인트의 2차원 히트맵, 인체 몸통의 2차원 히트맵 및 인체 몸통을 포함하는 연속 깊이 정보의 깊이 보간도 를 이미지 채널의 차원으로 스플라이싱하고, 스플라이싱된 데이터에 대해 컨볼루션 계층을 통해 수행 특징 융합을 수행하며, 풀링 계층을 통해 구현 예측을 구현하고, 마지막으로 인체 몸통에서의 각 연속 포인트의 3차원 위치 좌표를 출력한다. 따라서, 제2 뉴럴 네트워크 모델은, 인체 키포인트의 2차원 히트맵, 인체 몸통의 2차원 히트맵, 인체 몸통을 포함하는 연속 깊이 정보의 깊이 보간도 및 인체 몸통에서의 각 연속 포인트의 3차원 위치 좌표등 네 가지의 데이터를 통해 공동으로 훈련하여 얻을 수 있다.
설명해야 할 것은, 본 발명의 실시예의 이미지 처리 방법은 상기 인체 자세 검출의 과정에 응용되는 것을 한정하지 않고, 임의의 타깃 대상의 자세 검출에 응용될수 있으며, 본 발명은 이에 대해 한정하지 않는다.
이해할 수 있는 것은, 본 발명에서 언급된 상기 각 방법 실시예는, 원리 논리를 벗어나지 않는 조건 하에, 모두 서로 결합되어 결합 후의 실시예를 구성할 수 있고, 편폭의 제한으로, 본 발명에서는 더이상 설명하지 않는다. 본 분야의 기술자는 구체적인 실시형태의 상기 방법에서, 각 단계의 실행 순서는 그 기능 및 가능한 내부 논리에 의해 결정된다.
또한, 본 발명은 자세 검출 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체, 프로그램을 더 제공하고, 상기 자세 검출 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체, 프로그램은 모두 본 발명에서 제공한 어느 하나의 분배 방법을 구현하는데 사용될 수 있으며, 상응되는 기술방안 및 설명 및 참조 방법 부분의 상응되는 기재는, 여기서 더이상 반복하여 설명하지 않는다.
도 6은 본 발명의 실시예에 따른 자세 검출 장치의 블록도이다. 상기 자세 검출 장치는 단말 기기, 서버 또는 다른 처리 기기 등일 수 있다. 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 단말, 셀룰러 폰, 무선 전화, 개인용 정보 단말기(Personal Digital Assistant, PDA), 핸드 헬드 기기, 컴퓨팅 기기, 차량용 기기, 웨어러블 기기 등일 수 있다.
일부 가능한 구현 방식에 있어서, 상기 자세 검출 장치는 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다.
도 6에 도시된 바와 같이, 상기 자세 검출 장치(30)는, 타깃 이미지 획득부(31), 정보 획득부(32)를 포함한다.
타깃 이미지 획득부(31)는, 타깃 이미지를 획득하도록 구성된다.
정보 획득부(32)는, 타깃 이미지에 따라, 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 획득하도록 구성된다.
자세 결정부(33)는, 연속 깊이 정보 및 위치 정보에 따라, 타깃 대상의 자세를 결정하도록 구성된다.
하나의 가능한 구현 방식에 있어서, 정보 획득부는, 타깃 이미지를 제1 뉴럴 네트워크 모델에 통과시켜, 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 얻고; 제1 뉴럴 네트워크 모델이 제1 훈련 데이터 및 제2 훈련 데이터를 통해 훈련하여 얻으며 - 제1 훈련 데이터 훈련 대상을 포함하는 훈련 이미지임 - ; 및 제2 훈련 데이터가 훈련 대상의 연속 깊이 정보, 및 훈련 대상의 위치 정보를 포함하도록 구성된다.
하나의 가능한 구현 방식에 있어서, 자세 결정부는, 연속 깊이 정보 및 위치 정보를 제2 뉴럴 네트워크 모델에 통과시켜, 타깃 대상의 자세를 얻고; 제2 뉴럴 네트워크 모델이 제2 훈련 데이터 및 제3 훈련 데이터를 통해 훈련하며 - 제2 훈련 데이터는 훈련 대상의 연속 깊이 정보, 및 훈련 대상의 위치 정보를 포함 - ; 제3 훈련 데이터가 훈련 대상의 자세를 포함하도록 구성된다.
하나의 가능한 구현 방식에 있어서, 제2 훈련 데이터는 제3 훈련 데이터에 따라 생성하고, 제3 훈련 데이터가 훈련 대상의 자세를 포함하며; 제3 훈련 데이터에 따라, 제2 훈련 데이터를 생성하는 단계는, 제3 훈련 데이터에서의 훈련 대상의 자세에 따라, 훈련 대상의 이산 깊이 정보, 및 훈련 대상의 위치 정보를 얻는 단계; 적어도 일부 이산 깊이 정보에 대해 처리하여, 훈련 대상의 연속 깊이 정보를 얻는 단계; 및 훈련 대상의 연속 깊이 정보 및 훈련 대상의 위치 정보에 따라, 제2 훈련 데이터를 생성하는 단계를 포함한다.
하나의 가능한 구현 방식에 있어서, 적어도 일부 이산 깊이 정보에 대해 처리하여, 훈련 대상의 연속 깊이 정보를 얻는 단계는, 적어도 일부 이산 깊이 정보에 대응되는 적어도 하나의 연결을 획득하는 단계; 연결에 대응되는 이산 깊이 정보에 따라, 적어도 하나의 연결의 연속 깊이 서브 정보를 결정하는 단계; 및 적어도 하나의 연속 깊이 서브 정보를 통계하여, 훈련 대상의 연속 깊이 정보를 얻는 단계를 포함한다.
하나의 가능한 구현 방식에 있어서, 연결에 대응되는 이산 깊이 정보에 따라, 적어도 하나의 연결의 연속 깊이 서브 정보를 결정하는 단계는, 연결에 대응되는 이산 깊이 정보에 따라, 선형 보간을 통해, 연결 상 적어도 하나의 포인트의 제1 연속 깊이 서브 정보를 얻는 단계; 적어도 하나의 연결에 대응되는 연결 범위를 결정하는 단계; 제1 연속 깊이 서브 정보에 따라, 연결에 대응되는 연결 범위 내의 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 결정하는 단계; 및 제1 연속 깊이 서브 정보 및 제2 연속 깊이 서브 정보 중 적어도 하나에 따라, 연결에 대응되는 연속 깊이 서브 정보를 획득하여, 상기 적어도 하나의 상기 연결의 연속 깊이 서브 정보를 얻는 단계를 포함한다.
하나의 가능한 구현 방식에 있어서, 제1 연속 깊이 서브 정보에 따라, 연결에 대응되는 연결 범위 내의 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 결정하는 단계는, 연결 범위가 연결에 대응되는 이산 깊이 정보의 기설정 범위 내에 있을 경우, 연결에 대응되는 이산 깊이 정보를, 연결 범위 내 적어도 하나의 포인트의 제2 연속 깊이 서브 정보로 하는 단계; 및 연결 범위가 연결에 대응되는 이산 깊이 정보의 기설정 범위 외에 있을 경우, 연결에서 연결 범위 내의 포인트와 거리가 제일 가까운 제1 연속 깊이 서브 정보에 따라, 연결 범위 내 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 얻는 단계를 포함한다.
도 7은 본 발명 실시예에 따른 비디오 처리 장치의 블록도이다. 상기 비디오 처리 장치는 단말 기기, 서버 또는 다른 처리 기기 등일 수 있다. 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 단말, 셀룰러 폰, 무선 전화, 개인용 정보 단말기(Personal Digital Assistant, PDA), 핸드 헬드 기기, 컴퓨팅 기기, 차량용 기기, 웨어러블 기기 등일 수 있다.
일부 가능한 구현 방식에 있어서, 상기 비디오 처리 장치는 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다.
도 7에 도시된 바와 같이, 상기 비디오 처리 장치(40)는 이미지 수집부(41), 선정부(42), 자세 획득부(43)을 포함한다.
이미지 수집부(41)는, 현재 시나리오에 대해 이미지 수집을 수행하여, 수집 비디오를 얻도록 구성된다.
선정부(42)는, 상기 수집 비디오에서, 적어도 두 개의 프레임의 타깃 대상을 포함하는 타깃 이미지를 선정하도록 구성된다.
자세 획득부(43)는, 제1항 내지 제7항 중 어느 한 항에 따른 상기 자세 검출 방법을 통해, 적어도 두 개의 프레임의 상기 타깃 이미지에서의 상기 타깃 대상에 대해 자세 검출을 수행하여, 상기 수집 비디오에서의 상기 타깃 대상의 적어도 두 개의 자세를 결정하도록 구성된다.
하나의 가능한 구현 방식에 있어서, 비디오 처리 장치(40)는 또한, 타깃 대상의 적어도 두 개의 자세, 및 수집 비디오에서의 프레임의 시간에 따라, 타깃 대상의 연속 자세를 얻고; 타깃 대상의 연속 자세에 따라, 타깃 대상에 대해 트레이스하도록 더 구성된다.
본 발명 실시예는 또한 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 프로세서에 의해 실행될 때 상기 방법을 구현한다. 컴퓨터 판독 가능한 저장 매체는 비휘발성 컴퓨터 판독 가능한 저장 매체일 수 있다.
본 발명의 실시예는 또한 전자 기기를 제공하고, 프로세서; 및 프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하며; 여기서, 상기 프로세서는 상기 메모리에 저장된 명령어를 호출하여, 상기 방법을 실행하도록 구성된다.
본 발명의 실시예는 또한 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램 제품 을 제공하고, 컴퓨터 판독 가능한 코드가 기기에서 작동될 경우, 기기에서의 프로세서는 전술한 어느 한 실시예에서 제공한 이미지 처리 방법을 구현하기 위한 명령어를 실행한다.
본 발명의 실시예는 또한 컴퓨터 판독 가능한 명령어를 저장하기 위한 다른 컴퓨터 프로그램 제품을 제공하고, 명령어가 실행될 경우 컴퓨터가 전술한 어느 한 실시예에서 제공한 이미지 처리 방법의 동작을 실행하도록 한다.
전자 기기는 단말, 서버 또는 다른 형태의 기기로 제공될 수 있다.
본 발명의 실시예 및 기타 실시예에 있어서, "부분"은 부분 회로, 부분 프로세서, 부분 프로그램 또는 소프트웨어 등일 수 있으며, 물론 유닛일 수도 있고, 모듈 방식 또는 비모듈 방식일 수도 있다는 것이다.
도 8은 본 발명의 실시예에 따른 전자 기기(800)의 블록도이다. 예를 들어, 전자 기기(800)는 휴대폰, 컴퓨터, 디지털 방송 단말, 메시징 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 개인 휴대용 단말 등 단말일 수 있다.
도 8을 참조하면, 전자 기기(800)는 처리 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입력/출력(I/ O) 인터페이스(812), 센서 컴포넌트(814), 및 통신 컴포넌트(816) 중 하나 또는 복수 개를 포함할 수 있다.
처리 컴포넌트(802)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 전자 기기(800)의 전체적인 동작을 제어한다. 처리 컴포넌트(802)는, 상기 방법의 전부 또는 일부 단계를 완료하기 위한 명령어를 실행하는 하나 또는 복수 개의 프로세서(820)를 포함할 수 있다. 또한, 처리 컴포넌트(802)는 처리 컴포넌트(802) 및 다른 컴포넌트 사이의 상호 작용을 용이하게 하기 위해, 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(802)는 멀티미디어 컴포넌트(808) 및 처리 컴포넌트(802) 사이의 인터랙션을 용이하게 하기 위한 멀티미디어 모듈을 포함할 수 있다.
메모리(804)는 전자 기기(800)의 동작을 지원하기 위해 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예는 전자 기기(800)에서 동작하는 임의의 애플리케이션 프로그램 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(804)는 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 전기적 소거 가능한 프로그래머블 읽기 전용 메모리(Electrically Erasable Programmable Read Only Memory, EEPROM), 소거 가능한 프로그래머블 읽기 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 프로그래머블 읽기 전용 메모리(Programmable Read Only Memory, PROM), 읽기 전용 메모리(Read Only Memory, ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크 중 어느 한 타입의 휘발성 또는 비 휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.
전원 컴포넌트(806)는 전자 기기(800)의 다양한 컴포넌트에 전력을 공급한다. 전원 컴포넌트(806)는 전력 관리 시스템, 하나 또는 복수 개의 전력 및 전자 기기(800)를 위해 전력을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(808)는 상기 전자 기기(800) 및 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 모니터(Liquid Crystal Display, LCD) 및 터치 패널(Touch Panel, TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하기 위해 스크린은 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치, 슬라이드 및 터치 패널 상의 제스처를 감지하기 위한 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 수 있을 뿐만 아니라, 상기 터치나 슬라이드 동작과 관련된 지속 시간 및 압력을 검출할 수도 있다. 일부 실시에에 있어서, 멀티미디어 컴포넌트(808)는 하나의 전방 카메라 및 후방 카메라 중 적어도 하나를 포함한다. 전자 기기(800)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 경우, 전방 카메라 및 후방 카메라 중 적어도 하나는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라는 고정된 광학 렌즈 시스템이거나 초점 거리 및 광학 줌 기능을 구비할 수 있다.
오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들어, 오디오 컴포넌트(810)는 하나의 마이크로폰(MICrophone, MIC)을 포함하며, 전자 기기(800)가 콜 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드에 있을 경우, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(804)에 저장되거나 통신 컴포넌트(816)에 의해 송신될 수 있다. 일부 실시예에 있어서, 오디오 부재(810)는 오디오 신호를 출력하기 위한 하나의 스피커를 더 포함한다.
I/O 인터페이스(812)는 처리 부재(802)와 외부 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼을 포함할 수 있지만 이에 한정되지 않는다.
센서 컴포넌트(814)는 전자 기기(800)에 대해 다양한 측면의 상태 평가를 제공하기 위한 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(814)는 전자 기기(800)의 온/오프 상태, 상기 컴포넌트가 전자 기기(800)에 대한 디스플레이 및 키패드와 같은 컴포넌트의 상대적 위치를 검출할 수 있으며, 센서 컴포넌트(814)는 또한, 전자 기기(800) 또는 전자 기기(800)의 하나의 컴포넌트의 위치 변화, 사용자가 전자 기기(800)와의 접촉의 존재 또는 부재, 전자 기기(800) 방향 또는 가속/감속 및 전자 기기(800)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(814)는 그 어떤 물리적 접촉이 없이 근처의 물체의 존재를 검출하도록 구성된 근접 센서를 포함할 수 있다. 센서 컴포넌트(814)는 또한 이미징 응용에 사용하기 위한, CMOS 또는 CCD 이미지 센서와 같은 광 센서를 포함할 수 있다. 일부 실시에에 있어서, 상기 센서 컴포넌트(814)는 가속도 센서, 자이로스코프 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 컴포넌트(816)는 전자 기기(800) 및 다른 기기 사이의 유선 또는 무선 방식의 통신을 용이하게 하도록 구성된다. 전자 기기(800)는 WiFi, 2G 또는 3G, 또는 이들의 조합과 같은 통신 표준에 기반한 무선 네트워크에 액세스할 수 있다. 예시적 실시예에 있어서, 통신 컴포넌트(816)는 방송 채널을 통해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 하나의 예시적인 실시예에서, 상기 통신 컴포넌트(816)는 근거리 통신을 추진하는 근거리 무선 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별자(Radio Frequency Identification, RFID) 기술, 적외선 통신 규격(Infrared Data Association, IrDA) 기술, 초광대역(Ultra Wideband, UWB) 기술, 블루투스 기술 및 다른 기술에 기반하여 구현될 수 있다.
예시적 실시예에 있어서, 전자 기기(800)는 하나 또는 복수 개의 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 디지털 신호 프로세서(Digital Signal Processor, DSP), 디지털 신호 처리 장치(Digital Signal Processor Device, DSPD), 프로그래머블 논리 장치(Programmable Logic Device, PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 부품에 의해 구현되며, 전자 기기(800)는 상기 이미지 클러스터링 방법을 실행하기 위한 것이다.
예시적 실시예에 있어서, 컴퓨터 프로그램 명령어를 포함하는 메모리(804)와 같은 비휘발성 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 상기 방법을 완료하도록 전자 기기(800)의 프로세서(820)에 의해 실행된다.
도 9은 본 발명의 실시예에 따른 전자 기기(1900)의 블록도이다. 예를 들어, 전자 기기(1900)는 하나의 서버로 제공될 수 있다. 도 9을 참조하면, 전자 기기(1900)는 나아가 하나 또는 복수 개의 프로세서를 더 포함하는 처리 컴포넌트(1922), 및 처리 컴포넌트(1922)에 의해 실행되는 명령어를 저장하기 위한 메모리(1932)로 대표되는 메모리 자원을 포함한다. 메모리(1932)에 저장된 애플리케이션은 하나 또는 하나 이상의 한 세트의 명령어에 각각 대응되는 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(1922)는 명령어를 실행하여, 상기 얼굴 인식 방법을 실행하도록 구성된다.
전자 기기(1900)는 전자 기기(1900)의 전원 관리를 실행하도록 구성된 하나의 전력 컴포넌트(1926), 전자 기기(1900)를 네트워크에 연결하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(1950) 및 하나의 입력 출력(I/O) 인터페이스(1958)를 더 포함할 수 있다. 전자 기기(1900)는 예를 들어 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것 등과 같은 메모리(1932)에 저장된 것에 기반한 운영 시스템을 조작할 수 있다.
예시적 실시예에 있어서, 컴퓨터 프로그램 명령어를 포함하는 메모리(1932)와 같은 비휘발성 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 상기 방법을 완료하도록 전자 기기(1900)의 처리 컴포넌트(1922)에 의해 실행된다.
본 발명은 시스템, 방법 및 컴퓨터 프로그램 제품 중 적어도 하나일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독 가능한 저장 매체를 포함할 수 있고, 컴퓨터 판독 가능한 저장 매체에는 프로세서가 본 발명의 각 측면을 구현하도록 하는 컴퓨터 판독 가능한 프로그램 명령어가 존재한다.
컴퓨터 판독 가능한 저장 매체는 명령어 실행 기기에 의해 사용되는 명령어를 유지 및 저장할 수 있는 형태가 존재하는 기기일 수 있다. 컴퓨터 판독 가능한 저장 매체는 예를 들어 축전 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기 또는 전술한 축전 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기의 임의의 적절한 조합일 수 있지만 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더 구체적인 예는(비제한 리스트), 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(Random Access Memory, RAM), 판독 전용 메모리(Read Only Memory, ROM) 및 소거 가능하고 프로그램 가능한 판독 전용 메모리((Erasable Programmable Read Only Memory, EPROM) 또는 플래시 메모리), 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 휴대용 컴팩트 디스크 판독 전용 메모리(Portable Compact Disk Read-Only Memory, CD-ROM), DVD(Digital Versatile Disk), 메모리 스틱, 플로피 디스크, 명령어가 저장된 장치와 같은 기계적 코딩 장치 홀 카드 또는 그루브에서의 볼록한 구조 및 전술한 임의의 적절한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능한 저장 매체는 무선 전자파 또는 다른 자유롭게 전파되는 전자기파, 도파관 또는 다른 전송 매체를 통해 전파되는 전자기파(예를 들어, 광섬유 케이블을 통한 광펄스), 또는 와이어를 통해 전송되는 전기 신호와 같은 순간 신호 자체로 해석되지 않아야 한다.
여기서 설명한 컴퓨터 판독 가능한 프로그램 명령어는 컴퓨터 판독 가능한 저장 매체로부터 각 컴퓨팅/처리 기기로 다운 로드될 수 있거나, 인터넷, 근거리 통신망, 광역 통신망 및 무선 네트워크 중 적어도 하나와 같은 네트워크를 통해, 외부 컴퓨터 또는 외부 저장 기기로 다운 로드될 수 있다. 네트워크는 동 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및 에지 서버 중 적어도 하나를 포함 할 수 있다. 각 컴퓨팅/처리 기기의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 판독 가능한 프로그램 명령어를 수신하고, 각 컴퓨팅/처리 기기에서의 컴퓨터 판독 가능한 저장 매체에 저장하기 위해, 컴퓨터 판독 가능한 프로그램 명령어를 전달한다.
본 발명의 동작을 실행하기 위한 컴퓨터 프로그램 명령어는 어셈블리 명령어, 명령어 세트 아키텍처(Instruction Set Architecture, ISA) 명령어, 머신 명령어, 머신 관련 명령어, 마이크로 코드, 펌웨어 명령어, 상태 설정 데이터, 또는 하나 또는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 객체 코드일 수 있고, 상기 프로그래밍 언어에는 스몰 토크, C++ 등과 같은 객체 지향 프로그래밍 언어 및 "C" 언어 또는 유사한 프로그래밍 언어와 같은 기존 프로그래밍 언어가 포함되는다. 컴퓨터 판독 가능한 프로그램 명령어는 사용자 컴퓨터에서 완전히 실행되거나, 사용자 컴퓨터에서 부분적으로 실행되거나, 독립적인 소프트웨어 패키지로서 실행되거나, 사용자 컴퓨터에서 일부가 실행되고 원격 컴퓨터에서 일부가 실행되거나, 원격 컴퓨터 또는 서버에서 완전히 실행될 수 있다. 원격 컴퓨터와 관련된 상황에서 원격 컴퓨터는 근거리 통신망(Local Area Network, LAN) 또는 광대역 통신망(Wide Area Network, WAN)을 포함하는 모든 타입의 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어 인터넷 서비스 제공 업체를 사용하여 인터넷을 통해 연결). 일부 실시예에 있어서, 프로그램 가능한 논리 회로, 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA) 또는 프로그램 가능한 논리 어레이(Programmable Logic Array, PLA)와 같은 전자 회로는 컴퓨터 판독 가능한 프로그램 명령어의 상태 정보를 이용하여 개인화될 수 있고, 상기 전자 회로는 컴퓨터 판독 가능한 프로그램 명령어를 실행할 수 있음으로써, 본 발명의 다양한 측면을 구현한다.
여기서 본 발명의 다양한 측면은 본 발명의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및 블록도 중 적어도 하나를 참조하여 설명하였다. 흐름도 및 블록도 중 적어도 하나의 각 블록 및 흐름도 및 블록도 중 적어도 하나의 블록들의 조합은, 컴퓨터 판독 가능한 프로그램 명령어에 의해 모두 구현될 수 있음을 이해해야 한다.
이러한 컴퓨터 판독 가능한 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서에 제공 될 수 있음으로써, 이에 의해 이러한 명령어가 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서에 의해 실행되도록 하는 기계가 생성되고, 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현하는 장치가 생성된다. 이러한 컴퓨터 판독 가능한 프로그램 명령어를 컴퓨터 판독 가능한 저장 매체에 저장할 수도 있으며, 이러한 명령어는 컴퓨터, 프로그램 가능한 데이터 처리 장치 및 다른 기기가 특정한 방식으로 작동될 수 있도록 함으로써, 명령어가 저장되어 있는 컴퓨터 판독 가능한 매체는 제조품을 포함하며, 상기 제조품은 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현하는 명령어를 포함한다.
컴퓨터 판독 가능한 프로그램 명령어는 또한 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에 로딩될 수 있어, 컴퓨터로 구현되는 과정을 생성하기 위해, 일련의 동작 단계가 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에서 수행되도록 함으로써, 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에서 실행되는 명령어는 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현한다.
도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계 아키텍처, 기능 및 동작을 디스플레이한다. 이와 관련하여, 흐름도 또는 블록도의 각 블록은 모듈, 프로그램 세그먼트 또는 명령어의 일부를 나타낼 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령어의 일부는 하나 또는 복수 개의 지정된 논리적 기능을 구현하기 위한 실행 가능한 명령어를 포함한다. 일부 대안적인 구현에서, 블록에 표시된 기능은 도면에 표시된 것과 다른 순서로 발생될 수도 있다. 예를 들어, 두 개의 연속적인 블록은 실제로 병렬로 실행될 수 있으며, 때로는 관련 기능에 따라 역순으로 실행될 수도 있으며, 이는 관련된 기능에 의해 결정된다. 또한 유의해야 할 것은, 블록도 및 흐름도 중 적어도 하나에서의 각 블록, 및 블록도 및 흐름도 중 적어도 하나에서의 블록의 조합은, 지정된 기능 또는 동작의 전용 하드웨어 기반의 시스템에 의해 구현될 수 있거나, 전용 하드웨어와 컴퓨터 명령어의 조합으로 구현될 수 있다.
상기 컴퓨터 프로그램 제품은 구체적으로 하드웨어, 소프트웨어 또는 이들의 조합을 통해 구현될 수 있다. 하나의 선택 가능한 실시예에 있어서,상기 컴퓨터 프로그램 제품은 구체적으로 컴퓨터 저장 매체로 구현되며, 다른 하나의 선택적인 예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 소프트웨어 개발 키트(Software Development Kit, SDK) 등과 같은 소프트웨어 제품으로 구현된다.
이상 본 발명의 각 실시예를 설명하였고, 상기 설명은 예시적이고, 비철저하며, 개시된 각 실시예에 한정되지도 않는다. 설명된 각 실시예의 범위 및 사상을 벗어나지 않는 한, 많은 수정 및 변경은 본 기술분야의 통상의 기술자에게는 명백한 것이다. 본 명세서에서 사용된 용어의 선택은 각 실시예의 원리, 실제 응용 또는 시장에서의 기술에 대한 개선을 가장 잘 해석하거나, 당업자가 본 명세서에 개시된 각 실시예를 이해할 수 있도록 의도된다.
본 발명의 실시예에 있어서, 타깃 이미지 및 타깃 이미지에서 타깃 대상의 연속 깊이 정보 및 위치 정보를 획득하므로, 연속 깊이 정보 및 위치 정보에 따라 타깃 대상의 자세를 결정한다. 상기 과정을 통해, 타깃 대상의 연속 깊이 정보를 이용하여 타깃 대상에 대한 자세 예측을 구현할 수 있고, 깊이 정보가 연속적인 것이므로, 이산한 깊이 정보에 비해, 타깃 대상의 자세를 더욱 정확하게 검출하므로, 자세 검출의 정밀도 및 효과를 향상한다.

Claims (15)

  1. 자세 검출 방법으로서,
    타깃 이미지를 획득하는 단계;
    상기 타깃 이미지에 따라, 상기 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 획득하는 단계; 및
    상기 연속 깊이 정보 및 상기 위치 정보에 따라, 상기 타깃 대상의 자세를 결정하는 단계를 포함하는 것을 특징으로 하는 자세 검출 방법.
  2. 제1항에 있어서,
    상기 타깃 이미지에 따라, 상기 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 획득하는 단계는,
    상기 타깃 이미지를 제1 뉴럴 네트워크 모델에 통과시켜, 상기 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 얻는 단계; 를 포함하고,
    상기 제1 뉴럴 네트워크 모델은 제1 훈련 데이터 및 제2 훈련 데이터를 통해 훈련되고, 상기 제1 훈련 데이터는 훈련 대상을 포함하는 훈련 이미지이며,
    상기 제2 훈련 데이터는 상기 훈련 대상의 연속 깊이 정보, 및 상기 훈련 대상의 위치 정보를 포함하는 것을 특징으로 하는 자세 검출 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 연속 깊이 정보 및 상기 위치 정보에 따라, 상기 타깃 대상의 자세를 결정하는 단계는,
    상기 연속 깊이 정보 및 상기 위치 정보를 제2 뉴럴 네트워크 모델에 통과시켜, 상기 타깃 대상의 자세를 얻는 단계; 를 포함하고,
    상기 제2 뉴럴 네트워크 모델은 제2 훈련 데이터 및 제3 훈련 데이터를 통해 훈련되고,
    상기 제2 훈련 데이터는 훈련 대상의 연속 깊이 정보, 및 상기 훈련 대상의 위치 정보를 포함하고;
    상기 제3 훈련 데이터는 상기 훈련 대상의 자세를 포함하는 것을 특징으로 하는 자세 검출 방법.
  4. 제2항 또는 제3항에 있어서,
    상기 제2 훈련 데이터는 제3 훈련 데이터에 따라 생성되고, 상기 제3 훈련 데이터는 상기 훈련 대상의 자세를 포함하며;
    상기 제3 훈련 데이터에 따라, 상기 제2 훈련 데이터를 생성하는 단계는,
    상기 제3 훈련 데이터에서의 상기 훈련 대상의 자세에 따라, 상기 훈련 대상의 이산 깊이 정보, 및 상기 훈련 대상의 위치 정보를 얻는 단계;
    적어도 일부 상기 이산 깊이 정보에 대해 처리하여, 상기 훈련 대상의 연속 깊이 정보를 얻는 단계; 및
    상기 훈련 대상의 연속 깊이 정보 및 상기 훈련 대상의 위치 정보에 따라, 상기 제2 훈련 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 자세 검출 방법.
  5. 제4항에 있어서,
    적어도 일부 상기 이산 깊이 정보에 대해 처리하여, 상기 훈련 대상의 연속 깊이 정보를 얻는 단계는,
    적어도 일부 상기 이산 깊이 정보에 대응되는 적어도 하나의 연결을 획득하는 단계;
    상기 연결에 대응되는 이산 깊이 정보에 따라, 적어도 하나의 상기 연결의 연속 깊이 서브 정보를 결정하는 단계; 및
    적어도 하나의 상기 연속 깊이 서브 정보를 통계하여, 상기 훈련 대상의 연속 깊이 정보를 얻는 단계를 포함하는 것을 특징으로 하는 자세 검출 방법.
  6. 제5항에 있어서,
    상기 연결에 대응되는 이산 깊이 정보에 따라, 적어도 하나의 상기 연결의 연속 깊이 서브 정보를 결정하는 단계는,
    상기 연결에 대응되는 이산 깊이 정보에 따라, 선형 보간을 통해, 상기 연결에서의 적어도 하나의 포인트의 제1 연속 깊이 서브 정보를 얻는 단계;
    적어도 하나의 상기 연결에 대응되는 연결 범위를 결정하는 단계;
    상기 제1 연속 깊이 서브 정보에 따라, 상기 연결에 대응되는 연결 범위 내의 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 결정하는 단계; 및
    상기 제1 연속 깊이 서브 정보 및 상기 제2 연속 깊이 서브 정보 중 적어도 하나에 따라, 상기 연결에 대응되는 연속 깊이 서브 정보를 획득하여, 상기 적어도 하나의 상기 연결의 연속 깊이 서브 정보를 얻는 단계를 포함하는 것을 특징으로 하는 자세 검출 방법.
  7. 제6항에 있어서,
    상기 제1 연속 깊이 서브 정보에 따라, 상기 연결에 대응되는 연결 범위 내의 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 결정하는 단계는,
    상기 연결 범위가 상기 연결에 대응되는 이산 깊이 정보의 기설정 범위 내에 있을 경우, 상기 연결에 대응되는 이산 깊이 정보를, 상기 연결 범위 내 적어도 하나의 포인트의 제2 연속 깊이 서브 정보로 하는 단계; 및
    상기 연결 범위가 상기 연결에 대응되는 이산 깊이 정보의 기설정 범위 외에 있을 경우, 상기 연결에서 상기 연결 범위 내의 포인트와 거리가 제일 가까운 제1 연속 깊이 서브 정보에 따라, 상기 연결 범위 내 적어도 하나의 포인트의 제2 연속 깊이 서브 정보를 얻는 단계를 포함하는 것을 특징으로 하는 자세 검출 방법.
  8. 비디오 처리 방법으로서,
    현재 시나리오에 대해 이미지 수집을 수행하여, 수집 비디오를 얻는 단계;
    상기 수집 비디오에서, 적어도 두 개의 프레임의 타깃 대상을 포함하는 타깃 이미지를 선정하는 단계; 및
    제1항 내지 제7항 중 어느 한 항에 따른 상기 자세 검출 방법을 통해, 적어도 두개의 프레임의 상기 타깃 이미지에서의 상기 타깃 대상에 대해 자세 검출을 수행하여, 상기 수집 비디오에서의 상기 타깃 대상의 적어도 두 개의 자세를 결정하는 단계를 포함하는 것을 특징으로 하는 비디오 처리 방법.
  9. 제8항에 있어서,
    상기 비디오 처리 방법은 또한,
    상기 타깃 대상의 적어도 두 개의 자세, 및 상기 수집 비디오에서의 프레임의 시간에 따라, 상기 타깃 대상의 연속 자세를 얻는 단계; 및
    상기 타깃 대상의 연속 자세에 따라, 상기 타깃 대상에 대해 트레이스하는 단계를 더 포함하는 것을 특징으로 하는 비디오 처리 방법.
  10. 자세 검출 장치로서,
    타깃 이미지를 획득하도록 구성된 타깃 이미지 획득부;
    상기 타깃 이미지에 따라, 상기 타깃 이미지에서의 타깃 대상의 연속 깊이 정보 및 위치 정보를 획득하도록 구성된 정보 획득부;
    상기 연속 깊이 정보 및 상기 위치 정보에 따라, 상기 타깃 대상의 자세를 결정하도록 구성된 자세 결정부를 포함하는 것을 특징으로 하는 자세 검출 장치.
  11. 비디오 처리 장치로서,
    현재 시나리오에 대해 이미지 수집을 수행하여, 수집 비디오를 얻도록 구성된 이미지 수집부;
    상기 수집 비디오에서, 적어도 두 개의 프레임의 타깃 대상을 포함하는 타깃 이미지를 선정하도록 구성된 선정부; 및
    제1항 내지 제7항 중 어느 한 항에 따른 상기 자세 검출 방법을 통해, 적어도 두 개의 프레임 상기 타깃 이미지에서의 상기 타깃 대상에 대해 자세 검출을 수행하여, 상기 수집 비디오에서의 상기 타깃 대상의 적어도 두 개의 자세를 결정하도록 구성된 자세 획득부를 포함하는 것을 특징으로 하는 비디오 처리 장치.
  12. 전자 기기로서,
    프로세서 ; 및
    프로세서가 실행가능한 명령어를 저장하기 위한 메모리를 포함하고,
    상기 프로세서는, 상기 메모리에 저장된 명령어를 호출하여, 제1항 내지 제9항 중 어느 한 항에 따른 방법을 실행하도록 구성된 것을 특징으로 하는 전자 기기.
  13. 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 프로그램 명령어가 프로세서에 의해 실행될 경우, 제1항 내지 제9항 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
  14. 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 프로그램 제품은 컴퓨터 프로그램 또는 명령을 포함하고, 상기 컴퓨터 프로그램 또는 명령어가 컴퓨터에서 실행될 경우, 상기 컴퓨터가 제1항 내지 제9항 중 어느 한 항에 따른 방법을 구현하도록 하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
  15. 컴퓨터 프로그램으로서,
    상기 컴퓨터 판독 가능한 코드를 포함하며, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 작동되어, 상기 전자 기기에서의 프로세서에 의해 실행될 경우, 제1항 내지 제9항 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 컴퓨터 프로그램.
KR1020217036883A 2020-06-19 2020-12-21 자세 검출 및 비디오 처리 방법, 장치, 전자 기기 및 저장 매체 KR20210157470A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010566388.7 2020-06-19
CN202010566388.7A CN111666917A (zh) 2020-06-19 2020-06-19 姿态检测及视频处理方法、装置、电子设备和存储介质
PCT/CN2020/138127 WO2021253777A1 (zh) 2020-06-19 2020-12-21 姿态检测及视频处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
KR20210157470A true KR20210157470A (ko) 2021-12-28

Family

ID=79178426

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217036883A KR20210157470A (ko) 2020-06-19 2020-12-21 자세 검출 및 비디오 처리 방법, 장치, 전자 기기 및 저장 매체

Country Status (2)

Country Link
JP (1) JP2022541709A (ko)
KR (1) KR20210157470A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704776A (zh) * 2023-06-27 2023-09-05 镁佳(北京)科技有限公司 车辆开门预警方法、装置、计算机设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016212688A (ja) * 2015-05-11 2016-12-15 日本電信電話株式会社 関節位置推定装置、方法、及びプログラム
CN107066935B (zh) * 2017-01-25 2020-11-24 网易(杭州)网络有限公司 基于深度学习的手部姿态估计方法及装置
CN109711243B (zh) * 2018-11-01 2021-02-09 长沙小钴科技有限公司 一种基于深度学习的静态三维人脸活体检测方法
CN111191486B (zh) * 2018-11-14 2023-09-05 杭州海康威视数字技术股份有限公司 一种溺水行为识别方法、监控相机及监控系统
CN111178142A (zh) * 2019-12-05 2020-05-19 浙江大学 一种基于时空上下文学习的手部姿态估计方法
CN111145253B (zh) * 2019-12-12 2023-04-07 深圳先进技术研究院 一种高效的物体6d姿态估计算法

Also Published As

Publication number Publication date
JP2022541709A (ja) 2022-09-27

Similar Documents

Publication Publication Date Title
WO2021253777A1 (zh) 姿态检测及视频处理方法、装置、电子设备和存储介质
US20220254158A1 (en) Learning situation analysis method, electronic device, and storage medium
US11455788B2 (en) Method and apparatus for positioning description statement in image, electronic device, and storage medium
CN110674719B (zh) 目标对象匹配方法及装置、电子设备和存储介质
US11288531B2 (en) Image processing method and apparatus, electronic device, and storage medium
CN109871800B (zh) 一种人体姿态估计方法、装置和存储介质
US20220180553A1 (en) Pose prediction method and apparatus, and model training method and apparatus
TW202109449A (zh) 影像處理方法、電子設備,和電腦可讀儲存介質
CN111983635A (zh) 位姿确定方法及装置、电子设备和存储介质
KR102334279B1 (ko) 얼굴 특징점 위치결정 방법 및 장치
CN104036240A (zh) 人脸特征点的定位方法和装置
KR102367648B1 (ko) 전 방향 시차 영상 합성 방법, 장치 및 저장 매체
CN111104920A (zh) 视频处理方法及装置、电子设备和存储介质
CN110909203A (zh) 视频分析方法及装置、电子设备和存储介质
KR20220130707A (ko) 포인트 클라우드 맵 구축 방법 및 장치, 전자 기기, 저장 매체 및 프로그램
CN112906484A (zh) 一种视频帧处理方法及装置、电子设备和存储介质
CN110929616B (zh) 一种人手识别方法、装置、电子设备和存储介质
CN114581525A (zh) 姿态确定方法及装置、电子设备和存储介质
CN105188027A (zh) 附近用户查找方法及装置
KR20210157470A (ko) 자세 검출 및 비디오 처리 방법, 장치, 전자 기기 및 저장 매체
CN114581854A (zh) 一种人群统计方法及装置、电子设备和存储介质
WO2023155350A1 (zh) 一种人群定位方法及装置、电子设备和存储介质
CN111832338A (zh) 对象检测方法及装置、电子设备和存储介质
WO2022110801A1 (zh) 数据处理方法及装置、电子设备和存储介质
CN114821799A (zh) 基于时空图卷积网络的动作识别方法、装置和设备

Legal Events

Date Code Title Description
A201 Request for examination