KR20210084447A

KR20210084447A - 목표 추적 방법, 장치, 전자 디바이스 및 기록 매체

Info

Publication number: KR20210084447A
Application number: KR1020217010186A
Authority: KR
Inventors: 하이위 자오; 밍위안 장; 카이거 천
Original assignee: 센스타임 인터내셔널 피티이. 리미티드.
Priority date: 2019-12-23
Filing date: 2020-03-19
Publication date: 2021-07-07
Also published as: JP2022522319A; SG10201913029SA; WO2021130549A1; AU2020294281A1; JP7212154B2; US11244154B2; US20210192197A1

Abstract

본 발명은 목표 추적 방법, 장치, 전자 디바이스 및 기록 매체를 개시한다. 상기 방법은 처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻는 것; 상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 손을 목표 손으로 확정하는 것; 및 상기 처리 대기 이미지 내의 목표 손에 기반하여 상기 비디오 스트림 중에서 상기 목표 손을 추적하는 것을 포함하되, 상기 비디오 스트림 중의 이미지와 상기 처리 대기 이미지는, 동일한 목표 영역을 수집하여 얻은 것이며, 상기 비디오 스트림 중의 이미지는 상기 처리 대기 이미지를 수집한 후에 수집하여 얻은 것이다.

Description

목표 추적 방법, 장치, 전자 디바이스 및 기록 매체

본 발명은 컴퓨터 비전 기술에 관한 것인바, 구체적으로는 목표 추적 방법, 장치, 전자 디바이스 및 기록 매체에 관한 것이다.

최근, 인공지능 기술의 지속적인 발전과 함께 인공지능 기술은 컴퓨터 비전 및 음성인식에 있어서 비교적 양호한 효과를 얻고 있다. 일부 상대적으로 특수한 장면(예를 들면 데스크톱 게임 장면)에서 목표 인식과 추적을 실행할 때에, 단일 프레임의 사진을 이용하여 인식을 실행하면, 오판하기 쉽고, 또한 동영상 중의 다중 프레임을 이용하여 인식을 실행할 경우, 심층 학습 모델이 지나치게 커서 상대적으로 큰 시스템의 소비량을 초래한다.

본 발명은 목표 추적 해결 방안을 제공했다.

본 발명의 1양태에 따르면, 목표 추적 방법을 제공하는바, 상기 방법은 처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻는 것; 상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 손을 목표 손으로 확정하는 것; 및 상기 처리 대기 이미지 내의 목표 손에 기반하여 상기 비디오 스트림 중에서 상기 목표 손을 추적하는 것을 포함하되, 상기 비디오 스트림 중의 이미지와 상기 처리 대기 이미지는, 동일한 목표 영역을 수집하여 얻은 것이며, 상기 비디오 스트림 중의 이미지는 상기 처리 대기 이미지를 수집한 후에 수집하여 얻은 것이다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 손을 목표 손으로 확정하는 것은, 상기 손 검출 결과에 상기 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 동시에, 상기 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 손을 상기 목표 손으로 확정하는 것을 포함한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 당해 두 개의 손의 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정하는 것은, 상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 처리 대기 이미지의 상기 검출 프레임 내에 위치하는 이미지를 커팅하는 것; 및 상기 커팅된 이미지에 기반하여 상기 커팅된 이미지 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정하는 것을 포함한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 목표 제스처 중의 손 자세는 두 손이 모두 위쪽을 향하고 있으며, 당해 두 개의 손의 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정하는 것은, 상기 검출 프레임 내의 이미지를 제스처 분류 신경망에 입력하여, 손이 위쪽을 향한 것 또는 손이 기타 자세인 것을 포함하는 제스처 분류 결과를 얻는 것; 및 상기 손 검출 결과 중의 두 개의 손의 검출 프레임의 제스처 분류 결과가 상기 두 개의 검출 프레임 내의 두 손이 모두 위쪽을 향할 경우, 당해 두 개의 손의 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정하는 것을 포함한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 제스처 분류 신경망은 손 이미지 샘플로 훈련하여 얻은 것이며, 상기 손 이미지 샘플은 손이 위쪽을 향하는 이미지 샘플을 포함하고, 상기 손이 위쪽을 향하는 이미지 샘플의 라벨링 결과는 손의 손 바닥이다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정하는 것은, 상기 검출 프레임의 중심점이 상기 처리 대기 이미지의 미리 정의된 영역 내에 위치하는 것에 응답하여, 상기 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 위치하는 것으로 확정하는 것을 포함한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 미리 정의된 영역은 상기 처리 이미지 내의, 상기 목표 영역 내의 두 개의 서브 영역에 각각 대응하는 두 개의 소정의 서브 영역을 포함하고, 상기 검출 프레임의 중심점이 상기 처리 대기 이미지의 미리 정의된 영역 내에 위치하는 것에 응답하여, 상기 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 위치하는 것으로 확정하는 것은, 상기 처리 대기 이미지 내의 두 개의 검출 프레임의 중심점이 각각 두 개의 소정의 서브 영역 내에 있는 것으로 확정하는 것을 포함한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 처리 대기 이미지 내의 목표 손에 기반하여 상기 비디오 스트림 중에서 상기 목표 손을 추적하는 것은, 상기 비디오 스트림 중의 일 프레임의 이미지에 대해, 당해 프레임의 이미지 앞의 일 프레임의 이미지의 제1 행렬 및 제2 행렬에 기반하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 확정하는 것을 포함하되, 당해 프레임의 이미지의 제1 행렬은 목표 손의 검출 프레임의 중심의 당해 프레임의 이미지 내에서의 위치 정보를 포함하고, 당해 프레임의 이미지의 제2 행렬은 당해 프레임의 이미지의 제1 행렬의 공분산 행렬이며, 당해 프레임의 이미지의 제1 행렬 중의 각 원소의 결합 변동을 측정하는 데 사용된다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 당해 프레임의 이미지 앞의 일 프레임의 이미지의 제1 행렬 및 제2 행렬에 기반하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 확정하는 것은, 당해 프레임의 이미지의 손 검출 결과에 목표 손의 검출 프레임이 포함되어 있지 않은 것에 응답하여, 앞의 일 프레임의 이미지의 제1 행렬을 당해 프레임의 이미지의 제1 행렬로 확정하는 것; 및 수정 행렬을 이용하여 앞의 일 프레임의 이미지의 제2 행렬을 수정함으로써, 당해 프레임의 이미지 내의 제2 행렬을 얻는 것을 포함하되, 상기 수정 행렬은 상기 앞의 일 프레임의 이미지의 제2 행렬 중의 각 원소의 오차를 나타낸다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 당해 프레임의 이미지 앞의 일 프레임의 이미지의 제1 행렬 및 제2 행렬에 기반하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 확정하는 것은, 당해 프레임의 이미지의 손 검출 결과에 목표 손의 검출 프레임이 포함되어 있는 것에 응답하여, 당해 프레임의 이미지와 앞의 일 프레임의 이미지의 시간 간격에 기반하여 앞의 일 프레임의 이미지의 제1 행렬을 이용하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 예측하여 얻는 것; 상기 목표 손의 검출 프레임의 위치 정보에 기반하여 당해 프레임의 이미지의 제3 행렬 및 제4 행렬을 얻는 것 - 상기 제3 행렬은 목표 손의 검출 프레임의 중심의 당해 프레임의 이미지 내에서의 위치 정보를 포함하고, 상기 제4 행렬은 상기 제3 행렬 중의 각 원소의 오차를 나타냄 -; 및 상기 제2 행렬에 대응하는 가우스 분포와 상기 제4 행렬에 대응하는 가우스 분포를 곱셈하여 새로운 가우스 분포를 얻고, 얻은 새로운 가우스 분포의 평균치에 기반하여 상기 제1 행렬을 갱신하고, 얻은 새로운 가우스 분포의 공분산에 기반하여 상기 제2 행렬을 갱신하는 것을 포함한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 처리 대기 이미지는 상방으로부터의 시각으로 수집한 상기 목표 영역의 이미지다.

본 발명의 1양태에 따르면, 목표 추적 장치를 제공하는바, 상기 장치는 처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻기 위한 검출 유닛; 상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 손을 목표 손으로 확정하기 위한 확정 유닛; 상기 처리 대기 이미지 내의 목표 손에 기반하여 상기 비디오 스트림 중에서 상기 목표 손을 추적하기 위한 추적 유닛을 구비하되, 상기 비디오 스트림 중의 이미지와 상기 처리 대기 이미지는, 동일한 목표 영역을 수집하여 얻은 것이며, 상기 비디오 스트림 중의 이미지는 상기 처리 대기 이미지를 수집한 후에 수집하여 얻은 것이다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 확정 유닛은 구체적으로 상기 손 검출 결과에 상기 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 동시에, 상기 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 손을 상기 목표 손으로 확정한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 확정 유닛은 상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 처리 대기 이미지의 상기 검출 프레임 내에 위치하는 이미지를 커팅하고, 상기 커팅된 이미지에 기반하여 상기 커팅된 이미지 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 목표 제스처 중의 손 자세는 두 손이 모두 위쪽을 향하고 있으며, 상기 확정 유닛은 상기 검출 프레임 내의 이미지를 제스처 분류 신경망에 입력하여, 손이 위쪽을 향한 것 또는 손이 기타 자세인 것을 포함하는 제스처 분류 결과를 얻고, 상기 손 검출 결과 중의 두 개의 손의 검출 프레임의 제스처 분류 결과가 상기 두 개의 검출 프레임 내의 두 손이 모두 위쪽을 향할 경우, 당해 두 개의 손의 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 확정 유닛은 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정할 때에, 구체적으로 상기 검출 프레임 중심점이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 미리 정의된 영역은 상기 처리 이미지 내의, 상기 목표 영역 내의 두 개의 서브 영역에 각각 대응하는 두 개의 소정의 서브 영역을 포함하고, 상기 확정 유닛은 상기 검출 프레임의 중심점이 상기 처리 대기 이미지의 미리 정의된 영역 내에 위치하는 것에 응답하여, 상기 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 위치하는 것으로 확정할 때에, 구체적으로 상기 처리 대기 이미지 내의 두 개의 검출 프레임의 중심점이 각각 두 개의 소정의 서브 영역 내에 있는 것으로 확정한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 추적 유닛은 상기 비디오 스트림 중의 일 프레임의 이미지에 대해, 당해 프레임의 이미지 앞의 일 프레임의 이미지의 제1 행렬 및 제2 행렬에 기반하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 확정하고, 여기서, 당해 프레임의 이미지의 제1 행렬은 목표 손의 검출 프레임의 중심의 당해 프레임의 이미지 내에서의 위치 정보를 포함하고, 당해 프레임의 이미지의 제2 행렬은 당해 프레임의 이미지의 제1 행렬의 공분산 행렬이며, 당해 프레임의 이미지의 제1 행렬 중의 각 원소의 결합 변동을 측정하는 데 사용된다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 추적 유닛은 당해 프레임의 이미지 앞의 일 프레임의 이미지의 제1 행렬 및 제2 행렬에 기반하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 확정할 때에, 구체적으로 당해 프레임의 이미지의 손 검출 결과에 목표 손의 검출 프레임이 포함되어 있지 않은 것에 응답하여, 앞의 일 프레임의 이미지의 제1 행렬을 당해 프레임의 이미지의 제1 행렬로 확정하는 것; 및 수정 행렬을 이용하여 앞의 일 프레임의 이미지의 제2 행렬을 수정함으로써, 당해 프레임의 이미지 내의 제2 행렬을 얻되, 여기서, 상기 수정 행렬은 상기 앞의 일 프레임의 이미지의 제2 행렬 중의 각 원소의 오차를 나타낸다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 추적 유닛은 당해 프레임의 이미지의 손 검출 결과에 목표 손의 검출 프레임이 포함되어 있는 것에 응답하여, 당해 프레임의 이미지와 앞의 일 프레임의 이미지의 시간 간격에 기반하여 앞의 일 프레임의 이미지의 제1 행렬을 이용하여 당해 프레임의 이미지의 제1 예측 행렬 및 상기 제1 예측 행렬의 공분산 행렬인 제2 예측 행렬을 예측을 예측하여 얻고, 상기 목표 손의 검출 프레임의 위치 정보에 기반하여 당해 프레임의 이미지의 제3 예측 행렬 및 제4 예측 행렬을 얻되, 상기 제3 예측 행렬은 목표 손의 검출 프레임의 중심의 당해 프레임의 이미지 내의 예측 위치 정보를 포함하고, 상기 제4 예측 행렬은 상기 제3 행렬 중의 공분산 행렬이고, 상기 제2 예측 행렬에 대응하는 가우스 분포와 상기 제4 예측 행렬에 대응하는 가우스 분포를 곱셈하여 새로운 가우스 분포를 얻고, 얻은 새로운 가우스 분포의 평균치에 기반하여 당해 프레임의 이미지의 상기 제1 행렬을 확정하고, 얻은 새로운 가우스 분포의 공분산에 기반하여 당해 프레임의 이미지의 상기 제2 행렬을 확정한다.

본 발명의 1양태에 따르면, 전자 디바이스를 제공하는바, 상기 전자 디바이스는 메모리 및 프로세서를 구비하며, 상기 메모리는 프로세서 상에서 운행 가능한 컴퓨터 명령을 기억하고, 상기 프로세서가 상기 컴퓨터 명령이 실행될 때에, 본 발명의 임의의 실시 형태에 기재된 목표 추적 방법이 실현된다.

본 발명의 1양태에 따르면, 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체를 제공하는바, 상기 프로그램이 프로세서에 의해 실행될 때에, 본 발명의 임의의 기재된 목표 추적 방법이 실현된다.

본 발명의 하나 또는 복수의 실시예의 목표 인식 방법, 장치, 전자 디바이스 및 기록 매체에 따르면, 손 검출 결과 중의 검출 프레임 내의 손 자세에 대해 검출을 실행하고, 목표 제스처 중의 손 자세를 충족시키는 목표 손을 확정하는바, 즉 처리 대기 이미지 내에서 추적할 필요가 있는 목표 손을 인식하고, 동기적으로 수집한 비디오 스트림 중에서 상기 목표 손을 추적함으로써, 목표 제스처에 기반하여 빠르고 효과적으로 목표 손을 인식할 수 있고, 추적 효율을 향상시켰다.

이하, 본 명세서의 하나 또는 복수의 실시예 또는 종래 기술의 기술적 방안을 더 명확히 설명하기 위하여, 실시예 또는 종래 기술에 대한 설명에 사용될 필요가 있는 도면을 간단히 소개한다. 당연히, 아래에 설명하는 도면은 본 명세서의 하나 또는 복수의 실시예에 기재되는 몇몇의 실시예에 불과할 뿐, 당업자에 있어서 발명적 노력을 가하지 않고 이러한 도면에 기반하여 기타 도면을 얻을 수 있다.
도 1은 본 발명의 적어도 하나의 실시예에 의해 제공되는 목표 추적 방법의 플로우 차트이다.
도 2은 본 발명의 적어도 하나의 실시예에 의해 제공되는 목표 추적 방법의 적용 장면의 모식도이다.
도 3a∼3f는 본 발명의 적어도 하나의 실시예에 의해 제공되는 제스처 분류 결과의 모식도이다.
도 4는 본 발명의 적어도 하나의 실시예에 의해 제공되는 목표 추적 방법의 적용 장면의 모식도이다.
도 5은 본 발명의 적어도 하나의 실시예에 의해 제공되는 목표 추적 장치의 구성 모식도이다.
도 6은 본 발명의 적어도 하나의 실시예에 의해 제공되는 전자 디바이스의 구성 모식도이다.

이하, 당업자로 하여금 본 명세서의 하나 또는 복수의 실시예 중의 기술적 방안을 더 잘 이해하도록 하기 위하여, 본 명세서의 하나 또는 복수의 실시예 중의 도면을 참조하여, 본 명세서의 하나 또는 복수의 실시예 중의 기술적 방안을 명확하고 완전하게 설명한다. 당연히, 설명되는 실시예는 전부의 실시예가 아닌바, 본 명세서의 일부 실시예에 지나지 않는다. 본 명세서의 하나 또는 복수의 실시예에 기반하여 발명적 노력을 가하지 않고 당업자에 의해 얻을 수 있는 모든 기타 실시예는 모두 본 발명의 보호 범위에 속해야 한다.

본 발명의 적어도 하나의 실시예는 목표 추적 방법을 제공하는바, 상기 목표 추적 방법은 단말 디바이스 또는 서버 등의 전자 디바이스에 의해 실행될 수 있고, 단말 디바이스는 사용자 디바이스(User Equipment, UE), 모바일 디바이스, 사용자 단말, 단말, 셀룰러 전화, 무선 전화, 개인 디지털 보조(Personal Digital Assistant, PDA), 핸드 헬드 디바이스, 계산 디바이스, 차량용 디바이스, 웨어러블 디바이스 등을 포함할 수 있고, 상기 방법은 프로세서에 의해 메모리에 기억되어 있는 컴퓨터 판독 가능 명령을 호출하는 방식에 따라 실현될 수 있다.

도 1은 당해 목표 추적 방법의 흐름을 나타내며, 도 1에 나타낸 바와 같이, 단계 101∼단계 103을 포함할 수 있다.

단계 101에 있어서, 처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻는다.

본 발명의 실시예에 있어서, 상기 처리 대기 이미지는 이미지 수집 디바이스(예를 들면 카메라)에 의해 수집된 데스크탑 영역의 이미지일 수 있다. 상기 이미지는 완전한 데스크탑 이미지를 포함할 수도 있고, 데스크탑의 일부 이미지를 포함할 수도 있다.

화상 수집 디바이스에 의해 수집된 이미지는 비디오 스트림 중의 일 프레임일 수도 있고, 실시간으로 얻은 이미지일 수도 있는바, 본 발명은 이에 대해 한정하지 않는다.

본 발명의 실시예에 있어서, 예를 들면 faster RCNN 네트워크 등의 심층 학습 네트워크를 이용하여 이미지 내의 손을 검출함으로써, 손 검출 결과를 얻는다. 당업자는 faster RCNN 네트워크는 일 예에 불과할 뿐, 기타 네트워크를 사용하여 손 검출을 실행할 수도 있는바, 본 발명은 이에 대해 한정하지 않음을 이해해야 한다.

몇몇의 실시예에 있어서, 상방으로부터의 시각의 처리 대기 이미지를 수집할 수 있는바, 즉 버드 뷰 카메라(Birdview camera)을 사용하여 상기 처리 대기 이미지를 수집할 수 있다. 예를 들면 데스크탑 게임과 같은 적용 장면의 경우, 상방으로부터의 시각은 바람직한 촬영 시각이며, 당해 시각은 일반적으로 다른 물체에 의해 검출 목표가 가려지는 것을 방지할 수 있다. 그러나, 당업자는 화상 수집 디바이스가 좌측으로부터의 시각 또는 우측으로부터의 시각 등 기타 시각으로 수집한 처리 대기 이미지도 본 발명의 실시예에 의해 제안되는 목표 추적 방법에 적용될 수 있음을 이해해야 한다.

단계 102에 있어서, 상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 손을 목표 손으로 확정한다.

본 발명의 실시예에 있어서, 검출 프레임 내의 이미지에 대해 검출을 실행하고, 검출된 특징과 목표 제스처 중의 손 자세의 특징을 비교함으로써, 검출 프레임 내의 손 자세가 목표 제스처의 손 자세를 충족시키는지 여부를 확정할 수도 있고, 상기 검출 프레임 내의 손 자세에 대해 분류를 실행함으로써, 분류 결과에 기반하여 검출 프레임 내의 손 자세가 목표 제스처의 손 자세를 충족시키는지 여부를 판단할 수도 있다. 구체적인 판단 방법은 후술한다.

손 검출 결과에 하나 또는 복수의 손의 검출 프레임이 포함되어 있는 것에 응답하여, 그 중의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 검출 프레임을 목표 검출 프레임으로 확정할 수 있고, 또한 상기 목표 검출 프레임 내의 손을 목표 손으로 확정할 수 있다.

단계 103에 있어서, 상기 처리 대기 이미지 내의 목표 손에 기반하여 비디오 스트림 중에서 상기 목표 손을 추적한다.

여기서, 상기 비디오 스트림 중의 이미지와 상기 처리 대기 이미지는, 동일한 목표 영역을 수집하여 얻은 것이며, 상기 비디오 스트림 중의 이미지는 상기 처리 대기 이미지를 수집한 후에 수집하여 얻은 것이다.

몇몇의 실시예에 있어서, 상기 처리 대기 이미지와 상기 비디오 스트림 중의 이미지는 동기적으로 수집한 것일 수 있다.

몇몇의 실시예에 있어서, 상기 처리 대기 이미지는 상방으로부터의 시각으로 수집한 목표 영역의 이미지이며, 비디오 스트림 중의 이미지는 상방으로부터의 시각으로 수집한 상기 목표 영역의 이미지일 수도 있고, 측면으로부터의 시각 등의 다른 시각으로 수집한 상기 목표 영역의 이미지일 수도 있다.

상기 처리 대기 이미지에 있어서 목표 손이 확정된 것에 응답하여, 동기적으로 수집한 비디오 스트림 중에서 상기 목표 손을 추적한다.

처리 대기 이미지 내의 목표 손에 대해, 비디오 스트림 중의 이미지에서 상기 목표 손에 관련된 손을 확정하고, 당해 손을 비디오 스트림 중의 목표 손으로 확정하여 추적할 수 있다. 다양한 방법을 채용하여 상기 처리 대기 이미지 내의 손과 비디오 스트림 이미지 내의 손 사이의 관련 관계를 확정할 수 있는바, 본 발명은 이에 대해 한정하지 않는다.

본 발명의 실시예에 있어서, 손 검출 결과 중의 검출 프레임 내의 손 자세에 대해 검출을 실행하고, 목표 제스처 중의 손 자세를 충족시키는 목표 손을 확정하는바, 즉 처리 대기 이미지 내에서 추적할 필요가 있는 목표 손을 인식하고, 동기적으로 수집한 비디오 스트림 중에서 상기 목표 손을 추적함으로써, 목표 제스처에 기반하여 빠르고 효과적으로 목표 손을 인식할 수 있고, 추적 효율을 향상시켰다.

몇몇의 실시예에 있어서, 검출 프레임의 중심점을 손의 위치로 확정할 수 있다. 당업자는 또한 검출 프레임의 기타 위치점을 손의 위치로 확정할 수 있는바, 예를 들면 인식 대기 목표 제스처와 그 중의 하나의 손가락 사이의 관계가 더 밀접할 경우, 당해 손가락의 검출 프레임 내의 위치를 손의 위치로 확정할 수 있음을 이해해야 한다. 손의 위치의 구체적인 확정 방식은 인식 대기 목표 제스처와 검출 프레임의 관계에 기반하여 확정할 수 있다.

몇몇의 실시예에 있어서, 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 동시에, 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 손을 목표 손으로 확정한다.

본 발명의 실시예에 있어서, 손 검출 결과에 검출 프레임이 포함되어 있을 경우, 손 검출 결과에 검출 프레임의 위치 정보도 포함되어 있기에, 손의 상기 처리 대기 이미지 내의 위치 정보를 확정했다. 예를 들면, 검출 프레임의 중심점을 위치를 손의 위치로서 설정할 수 있다. 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키고, 또한 검출 프레임의 중심점이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있을 경우, 당해 검출 프레임 내의 손을 목표 손으로서 설정할 수 있다.

일 예에 있어서, 처리 대기 이미지에서 미리 정의된 영역은 상기 처리 대기 이미지 내의, 상기 목표 영역 내의 두 개의 서브 영역에 각각 대응하는 두 개의 소정의 서브 영역을 포함한다. 예를 들면, 목표 영역이 게임 테이블의 경우, 미리 정의된 영역은 게임 테이블 상의 두 개의 서브 영역에 대응하는 두 개의 소정의 서브 영역을 포함한다.

특정 영역에 나타난 특정 손 자세만을 목표 제스처로 설정할 경우, 처리 대기 이미지에서 미리 정의된 영역을 이용하여 검출 프레임 내의 손에 대해 위치 제약을 제공함으로써, 검출된 손 자세가 목표 제스처인지 여부를 더 정확하게 확정할 수 있다. 여기서, 처리 대기 이미지에서 미리 정의된 영역은 처리 대기 이미지를 촬영하는 화상 수집 디바이스의 위치, 내부 파라미터 및 실제의 공간 중의 목표 제스처에 대응하는 특정 영역에 기반하여 확정될 수 있다.

몇몇의 실시예에 있어서, 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는지 여부를 확정하는 것은, 검출 프레임 내의 이미지를 미리 훈련된 제스처 분류 신경망에 입력하여 제스처 분류 결과를 얻고, 상기 분류 결과에 기반하여 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는지 여부를 판단하는 것을 포함한다.

상기 제스처 분류 신경망은 컨볼루션 분류 모델일 수 있는바, 예를 들면 Rsenet 18을 백본 네트워크의 컨볼루션 분류 모델로 사용할 수 있다. 당업자는 얻을 필요가 있는 분류 유형에 따라 상기 제스처 분류 신경망을 확정할 수 있고, 얻을 필요가 있는 분류 유형은 인식 대기 목표 제스처에 따라 확정할 수 있는바, 본 발명은 이에 대해 한정하지 않음을 이해해야 한다.

일 예에 있어서, 인식 대기 목표 제스처가 손이 위쪽을 향한 것에만 관계될 경우, 얻을 필요가 있는 분류 유형은 손이 위쪽을 향한 것 또는 손이 기타 자세인 것을 포함할 수 있고, 여기서, 기타 자세는 손이 위쪽을 향한 것 이외의 손 자세인 것 및 손이 가려진 것을 포함한다. 손이 위쪽을 향하는 이미지 샘플을 이용하여 상기 제스처 분류 신경망을 훈련할 수 있고, 상기 손이 위쪽을 향하는 이미지 샘플의 라벨링 결과는 손의 손 바닥이다. 손이 위쪽을 향한 것은 손의 손 바닥이 위쪽을 향하고 있고, 처리 대기 이미지에서 손바닥이 보이는 것을 의미하며, 즉, 손바닥이 가려지지 않았음을 의미한다. 손이 가려져 있는 것은 손의 손 바닥이 가려져 있는 것을 의미한다. 본 발명의 실시 예에서, "위"와 "아래"라는 용어는 지면에 대해 상대적이다. 손의 경우 당해 손의 손 바닥이 당해 손의 손등보다 지상에 가까우면 손이 아래를 향하고 있다. 만약 당해 손의 손등이 손바닥보다 지상에 가까우면 손이 위를 향하고 있다.

일 예에 있어서, 인식 대기 목표 제스처가 손이 위쪽을 향한 것 및 손이 아래쪽을 향한 것에 관한 경우, 얻을 필요가 있는 분류 유형은 손이 위쪽을 향한 것, 손이 아래쪽을 향한 것 및 손이 기타 자세인 것을 포함할 수 있고, 여기서, 기타 자세는 손이 위쪽을 향한 것 또는 손이 아래쪽을 향한 것 이외의 손 자세인 것 및 손이 가려진 것을 포함한다. 손의 뒷면은 손의 손 바닥이 아래로 향하는 것이다. 손이 위쪽을 향하는 이미지 샘플 및 손이 아래쪽을 향하는 이미지 샘플을 이용하여 상기 제스처 분류 신경망을 훈련할 수 있되, 상기 손이 위쪽을 향하는 이미지 샘플의 라벨링 결과는 손의 손 바닥이고, 상기 손이 아래쪽을 향하는 이미지 샘플의 라벨링 결과는 손등을 나타내는 라벨일 수 있다.

일 예에 있어서, 인식 대기 목표 제스처가 특정 손 자세에 관한 경우, 분류 유형에는 당해 특정 자세가 포함되어 있는 필요가 있으며, 그러면 당해 특정 손 자세를 포함하는 샘플 손 이미지를 이용하여 상기 제스처 분류 신경망을 훈련함으로써, 상기 제스처 분류 신경망이 손의 검출 프레임의 이미지로부터 당해 특정 손 자세를 인식할 수 있도록 한다.

당업자는 또한 기타 방법에 따라 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정하고, 검출 프레임 내의 손 자세를 이용하여 제스처 검출을 실행할 수 있는바, 본 발명의 실시예는 이에 대해 한정하지 않음을 이해해야 한다.

본 발명의 실시예에 있어서, 제스처 분류 신경망을 이용하여 검출 프레임 내의 이미지에 대해 분류를 실행함으로써, 검출 프레임 내의 손 자세가 손이 위쪽을 향하는지 여부를 인식하는바, 즉 손의 손 바닥이 보이는 손 자세인지를 인식한다. 이 때에 채용하는 제스처 분류 신경망은 비디오 분류 모델과 비교하면 훈련 샘플의 취득 및 라벨링이 쉬워지고, 또한 제스처 분류 신경망 모델의 인식 속도가 빠르며, 손 자세에 대한 실시간 인식을 실현할 수 있다.

몇몇의 실시예에 있어서, 이하의 방법을 이용하여 상기 처리 대기 이미지 내의 목표 손에 기반하여 상기 비디오 스트림 중에서 상기 목표 손을 추적할 수 있다.

상기 비디오 스트림 중의 일 프레임의 이미지에 대해, 당해 프레임의 이미지 앞의 일 프레임의 이미지의 제1 행렬 및 제2 행렬에 기반하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 확정하되, 당해 프레임의 이미지의 제1 행렬은 목표 손의 검출 프레임의 중심의 당해 프레임의 이미지 내에서의 위치 정보를 포함하고, 당해 프레임의 이미지의 제2 행렬은 당해 프레임의 이미지의 제1 행렬의 공분산 행렬이며, 당해 프레임의 이미지의 제1 행렬 중의 각 원소의 결합 변동을 측정하는 데 사용된다.

처리 대기 이미지에서 목표 손이 인식된 것에 응답하여, 예를 들면 처리 대기 이미지 내에서 추적할 필요가 있는 목표 손이 인식된 경우, 동일한 시각으로 수집한 비디오 스트림 또는 다른 시각으로 수집한 비디오 스트림 중에서 추적할 필요가 있는 목표 손을 추적할 수 있다.

다른 시각으로 수집한 비디오 스트림 중에서 추적할 필요가 있는 목표 손을 추적할 때에, 먼저 하나의 이미지에서 목표 손과 관련되어 있는 손을 확정할 필요가 있으며, 여기서 당해 하나의 이미지는 비디오 스트림 중의 하나의 이미지 프레임인 동시에 처리 대기 이미지와 동기적으로 수집된 이미지 프레임이다. 목표 손과 관련되어 있는 손을 추적할 필요가 있는 목표 손으로 설정하고, 이어서 비디오 스트림 중에서 추적할 필요가 있는 목표 손을 추적한다.

이하, 동일한 시각으로 수집한 처리 대기 이미지와 비디오 스트림의 예를 들어 비디오 스트림 중에서 어떻게 추적할 필요가 있는 목표 손을 추적하는지를 설명한다.

처리 대기 이미지를 수집한 후에 수집된 비디오 스트림 중의 각 일 프레임의 이미지의 경우, 당해 프레임의 이미지의 제1 행렬과 제2 행렬은 앞의 일 프레임의 이미지의 제1 행렬과 제2 행렬에 기반하여 예측하여 얻은 것이다. 상기 처리 대기 이미지의 손 검출 결과에 기반하여 제1 행렬 X 및 제2 행렬 P의 초기 정보를 확정할 수 있다. 여기서, 제1 행렬 X는 목표 손의 검출 프레임의 중심의 당해 프레임의 이미지 내에서의 위치 정보를 포함하는바, 예를 들면 1*2의 행렬이다. 제2 행렬 P는 제1 행렬 X 중의 각 원소의 결합 변동인바, 예를 들면 위치 변수의 공분산 행렬이며, 여기서 제2 행렬 P는 수동으로 설정한 하이퍼 파라미터 행렬인바, 예를 들면 2*2의 행렬일 수 있다.

비디오 스트림 중이 임의의 프레임의 이미지에 대해, 손 검출 결과가 다르면, 다른 방식을 이용하여 당해 프레임의 이미지의 제1 행렬과 제2 행렬을 확정할 수 있다.

당해 프레임의 이미지의 손 검출 결과에 목표 손의 검출 프레임이 포함되어 있지 않은 것에 응답하여, 목표 손이 정지 상태에 있는 것으로 가정하고, 앞의 일 프레임의 이미지의 제1 행렬을 X당해 프레임의 이미지의 제1 행렬 X로 확정하는바, 즉 당해 프레임의 이미지의 제1 행렬 X가 앞의 일 프레임의 이미지의 제1 행렬과 동일하며, 당해 프레임의 이미지 내의 제2 행렬 P에 대해는 수정 행렬 Q를 이용하여 앞의 일 프레임의 이미지의 제2 행렬을 수정함으로써, 당해 프레임의 이미지 내의 제2 행렬을 얻는바, 즉 당해 프레임의 이미지 내의 제2 행렬을 앞의 일 프레임의 이미지의 제2 행렬과 수정 행렬 Q의 합으로 확정한다. 여기서, 수정 행렬 Q는 앞의 일 프레임의 이미지의 제2 행렬의 공분산 행렬이며, 앞의 일 프레임의 이미지의 제2 행렬의 결합 변동을 측정하는데 사용된다. 수정 행렬 Q는 수동으로 설정한 하이퍼 파라미터 행렬이며, 앞의 일 프레임의 이미지의 제2 행렬과 사이즈가 동일한 행렬이다. 앞의 일 프레임의 이미지의 제2 행렬이 2*2의 행렬일 경우, 수정 행렬 Q도 2*2의 행렬이다.

당해 프레임의 이미지의 손 검출 결과에 목표 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 손 검출 결과에 기반하여 앞의 일 프레임의 이미지에 기반하여 예측한 결과를 수정하여, 당해 프레임의 이미지의 제1 행렬 X 및 제2 행렬 P를 얻는다.

먼저, 당해 프레임의 이미지와 앞의 일 프레임의 이미지의 시간 간격에 기반하여 앞의 일 프레임의 이미지의 제1 행렬 X를 이용하여 당해 프레임의 이미지의 제1 예측 행렬 및 상기 제1 예측 행렬의 공분산 행렬인 제2 예측 행렬을 예측하여 얻을 수 있다. 예를 들면, 목표 손이 설정된 방향으로 균일한 속도로 직선운동을 하고 있는 것으로 가정하면, 당해 프레임의 이미지와 앞의 일 프레임의 이미지의 시간 간격에 기반하여 알려진 앞의 일 프레임의 이미지 위치 정보를 포함하는 제1 행렬에 기반하여 당해 프레임의 이미지의 제1 예측 행렬 및 제2 예측 행렬을 확정할 수 있다. 제 2 예측 행렬은 제 1 예측 행렬의 공분산 행렬이다. 제 1 예측 행렬은 당해 이미지 프레임 내의 목표 손의 검출 프레임의 중심의 제 1 예측 위치 정보를 포함한다. 당해 제 1 예측 위치 정보는 앞의 일 프레임의 이미지의 제1 행렬과 당해 프레임의 이미지 사이의 시간 간격에 기반하여 얻어진다.

이어서, 상기 목표 손의 검출 프레임의 위치 정보에 기반하여 당해 프레임의 이미지의 제3 예측 행렬을 얻고, 상기 제3 행렬의 공분산 행렬인 제4 예측 행렬을 얻을 수 있다. 여기서, 제 3 예측 행렬은 당해 이미지 프레임 내의 목표 손의 검출 프레임의 중심의 제 2 예측 위치 정보를 포함한다. 예를 들어, 목표 검출 프레임이 직사각형이라고 가정하면, 당해 이미지 프레임 내의 당해 사각형의 4개의 변의 위치를 확정 한 후, 당해 4개의 변의 위치에 기반하여 당해 제 2 예측 위치 정보를 확정한다. 제4 예측 행렬은 제3 예측 행렬 중의 각 원소의 결합 변동을 측정하며, 제4 예측 행렬도 수동으로 설정한 하이퍼 파라미터 행렬이다.

마지막으로 제4 예측 행렬이 제1 가우스 분포를 따르고, 또한 제2 예측 행렬이 제2 가우스 분포를 따르는 것으로 확정된 것에 응답하여, 제1 가우스 분포와 제2 가우스 분포를 곱셈하여 새로운 가우스 분포를 얻을 수 있다. 당해 새로운 가우스 분포의 평균치에 기반하여 당해 프레임의 이미지의 제1 행렬 X를 얻고, 당해 새로운 가우스 분포의 공분산에 기반하여 당해 프레임의 이미지의 제2 행렬 P를 얻을 수 있다. 이렇게 하여 당해 프레임의 이미지 내의 위치 정보를 포함하는 제1 행렬 X를 얻을 수 있기 때문에, 비디오 스트림 중에서의 목표 손에 대한 추적을 실현할 수 있다.

본 발명의 실시예에 있어서, 앞의 일 프레임의 이미지 목표 손의 위치 정보를 포함하는 제1 행렬 및 공분산 행렬 등의 제2 행렬을 이용하여 현재 프레임의 이미지 내의 목표 손의 위치 정보를 얻음으로써, 비디오 스트림 중에서 목표 손에 대한 추적을 정확하고 효과적으로 실현할 수 있다.

이하, 인식 대기 목표 제스처 중에서 두 손이 모두 위쪽을 향하는 동시에, 두 손이 각각 데스크탑의 두 개의 특정 서브 영역의 상방에 위치하여 있는 예를 들어, 본 발명의 실시예에 의해 제안되는 목표 추적 방법을 서술한다. 당업자는 당해 목표 추적 방법은 상술한 목표 제스처를 취하는 목표 손을 추적하는 것에 한정되지 않으며, 기타 목표 제스처를 취하는 목표 손을 추적하는데도 사용될 수 있음을 이해해야 한다.

도 2은 본 발명의 적어도 하나의 실시예에 의해 제공되는 목표 추적 방법의 적용 장면의 모식도이다. 도 2에 나타낸 바와 같이, 인식 대기 목표 제스처는 데스크탑(20)의 두 개의 영역(221) 및 (222)의 상방에서 취한 양손의 손의 손 바닥을 위로 향한 제스처다.

먼저, 상방으로부터의 시각으로 촬영한 데스크탑(20)의 일부 또는 전부의 영역을 포함하는 처리 대기 이미지에 대해 검출을 실행하고, 손 검출 결과를 얻는다.

손이 검출되었을 경우, 즉 손 검출 결과에 손의 검출 프레임이 포함되어 있을 경우, 상기 검출 프레임 내의 이미지를 제스처 분류 신경망에 입력하여 제스처 분류 결과를 얻는다. 상기 제스처 분류 신경망은 입력 이미지가 손이 위쪽을 향하는 것인지 기타 자세인지에 대해 분류를 실행하고, 얻은 제스처 분류 결과는 손이 위쪽을 향한 것 또는 손이 기타 자세인 것을 포함한다. 두 개의 검출 프레임의 분류 결과가 모두 손이 위쪽을 향한 것일 경우, 상기 검출 프레임 내의 손 자세가 모두 손이 위쪽을 향한 것으로 확정하고, 목표 제스처 중의 손 자세를 충족시키는 것으로 확정한다.

두 손이 모두 위쪽을 향하는 것으로 확정했을 경우, 두 개의 검출 프레임의 위치가 처리 대기 이미지의 두 개의 소정의 서브 영역 내에 있는지 여부를 확정한다. 여기서, 처리 대기 이미지의 두 개의 소정의 서브 영역은 상기 처리 대기 이미지를 촬영하는 화상 수집 디바이스의 위치, 내부 파라미터 및 데스크탑(20) 상의 두 개의 영역(221) 및 (222)의 위치에 기반하여 확정된다. 두 개의 검출 프레임의 중심점이 각각 상기 두 개의 소정의 서브 영역 내에 있는 것에 응답하여, 이 두 개의 손이 목표 제스처를 취한 것으로 확정한다.

일 예에 있어서, 상기 손의 검출 프레임에 따라 커팅하여 얻은 이미지를 상기 제스처 분류 신경망에 입력하여 제스처 분류 결과를 얻을 수 있다. 상기 처리 대기 이미지 내에 복수의 손의 검출 프레임이 포함되어 있으면, 복수의 커팅하여 얻은 이미지를 각각 상기 제스처 분류 신경망에 입력한다.

상기의 입력 이미지에 대해 손이 위쪽을 향하는지 손이 기타 자세인지의 분류를 실행하는 제스처 분류 신경망은 이하의 방법에 따라 훈련할 수 있다.

먼저, 손이 위쪽을 향하는 이미지 샘플을 얻고, 이미지 샘플 내의 손의 손 바닥에 대해 라벨링을 실행한다.

도 3a와 3b는 예시적인 손이 위쪽을 향하는 이미지 샘플이다. 정면에서 손의 손 바닥이 보이는 손 이미지를 손이 위쪽을 향하는 이미지 샘플로 사용할 수 있고, 상기 손이 위쪽을 향하는 이미지 샘플의 라벨링 결과는 손의 손 바닥이다. 여기서, 도 3a와 도 3b에서 손의 손 바닥에 있는 흰 점은 손이 위쪽을 향하는 이미지 샘플의 라벨이다. 도 3c∼3f는 예시적인 기타 자세의 손 이미지이며, 손이 아래쪽을 향하는 손 이미지 또는 손의 손 바닥이 가려진 손 이미지이며, 기타 자세로 라벨링할 수 있다. 손의 손 바닥이 가려졌다는 것은 손이 위쪽을 향할 때 손의 손 바닥이 가려진 것을 나타낸다.

상기의 이미지 샘플을 이용하여 상기 제스처 분류 신경망을 훈련할 수 있고, 훈련이 완료된 신경망은 검출 프레임 내의 이미지에 대해 분류를 실행하고, 손이 위쪽을 향한 것 또는 손이 기타 자세인 것을 포함하는 분류 결과를 얻을 수 있다.

몇몇의 실시예에 있어서, 제스처 분류 신경망을 이용하여 검출 프레임 내의 이미지에 대해 분류를 실행하여, 손이 위쪽을 향한 것, 손이 아래쪽을 향한 것, 또는 손이 기타 자세인 것을 포함하는 분류 결과를 얻을 수 있다. 당해 제스처 분류 신경망은 손이 위쪽을 향하는 이미지 샘플, 손이 뒷면이며 이미지 샘플 및 손이 기타 자세인 이미지 샘플을 얻어서 훈련을 실행할 수 있다. 여전히 도 3a∼3f를 예로 들면, 여기서 도 3a와 3b는 예시적인 손이 위쪽을 향하는 이미지 샘플이고, 상기 손이 위쪽을 향하는 이미지 샘플의 라벨링 결과는 손의 손 바닥이며, 도 3c와 도 3d는 예시적인 손이 아래쪽을 향하는 이미지 샘플이다. 손 등 전체와 5개의 손가락이 보이는 손 이미지를 뒷면 샘플 손 이미지로 사용하며, 이에 대해 뒷면으로 라벨링할 수 있고, 도 3e와 도 3f는 예시적인 손이 기타 자세인 이미지 샘플이다. 손의 손 바닥이 보이지 않는 동시에, 손 등과 5개의 손가락이 완전히 보이지 않는 손 이미지를 손이 기타 자세인 이미지 샘플로 사용하며, 이를 기타 자세로서 라벨링할 수 있다. 도 3e와 도 3f는 손의 손 바닥이 보이지 않기 때문에, 기타 자세에 속한다. 상기의 이미지 샘플을 이용하여 상기 제스처 분류 신경망을 훈련할 수 있고, 훈련이 완료된 신경망은 검출 프레임 내의 이미지에 대해 분류를 실행하고, 손이 위쪽을 향한 것, 손이 아래쪽을 향한 것 또는 손이 기타 자세인 것을 포함하는 분류 결과를 얻을 수 있다.

본 발명의 실시예에 있어서, 제스처 분류 신경망을 이용하여 검출 프레임 내의 이미지에 대해 분류를 실행함으로써, 검출 프레임 내의 제스처가 손이 위쪽을 향하는지 여부를 인식한다. 이 때에 채용하는 제스처 분류 신경망은 비디오 분류 모델과 비교하면 훈련 샘플의 취득 및 라벨링이 쉬워지고, 또한 제스처 분류 신경망모델의 인식 속도가 빠르며, 손 자세에 대한 실시간 인식을 실현할 수 있다.

제스처 분류 결과가 목표 제스처 중의 손 자세를 충족시키는 경우, 처리 대기 이미지 내의 미리 정의된 영역을 이용하여 위치 제약을 실행함으로써, 검출된 손이 목표 제스처를 취하는 것으로 더 확정할 수 있다.

데스크탑(20)을 포함하는 처리 대기 이미지에서 데스크탑(20)에 두 개의 영역(221) 및 (222)의 상방에서 양손의 손의 손 바닥이 위를 향해 제스처를 취하는 목표 손이 인식된 것에 응답하여, 그 후에 동기적으로 수집한 비디오 스트림 중에서 상기 목표 손을 추적한다. 예를 들면, 앞의 일 프레임의 이미지 목표 손의 위치 정보를 포함하는 제1 행렬 및 공분산 행렬 등의 제2 행렬을 이용하여 현재 프레임의 이미지 내의 목표 손의 위치 정보를 얻음으로써, 비디오 스트림 중의 목표 손에 대한 추적을 정확하고 효과적으로 실현할 수 있다.

이하, 목표 제스처가 딜러의 손씻기 제스처인 예를 들어, 본 발명의 실시예에 의해 제안되는 목표 추적 방법을 설명한다.

도 4는 본 발명의 적어도 하나의 실시예에 의해 제공되는 목표 추적 방법의 적용 장면의 모식도이다. 도 4에 나타낸 바와 같이, 게임 장면에 있어서, 게임 테이블(40)을 통해 게임할 수 있으며, 플레이어(421), (422), (423)은 게임 테이블의 딜러(43)의 반대 측에 위치 있고 있다. 게임 테이블은 딜러의 피교환 물품 영역(47)(딜러의 전방 영역), 플레이어의 피교환 물품 영역(441), (442)(플레이어의 전방 영역), 게임 실행 영역(46) 및 미리 정의된 영역 41(핫 영역이라고도 불리움)을 포함한다.

딜러의 손씻기 제스처란 딜러가 특정의 조작을 완료한 후 또는 특정 조작을 실행하기 전에, 양손의 손의 손 바닥을 위로 올려 딜러의 피교환 물품 영역(예를 들면 도 4 내의 피교환 물품 영역(47))의 양측에 평평하게 놓는 것을 통해, 손에 어떠한 물품도 가지고 있지 않음을 다른 사람에게 전시함으로써, 다음 게임 단계에 들어갈 수 있음을 나타내기 위한 제스처를 가리킨다.

본 발명의 실시예에 있어서, 게임 테이블 상의 딜러의 전방 피교환 물품 영역의 양측 두 개의 서브 영역(예를 들면 도 4 내의 서브 영역(411)과 서브 영역(412))을 실제 공간의 특정 영역으로서 설정한다. 상기 처리 대기 이미지를 촬영하는 화상 수집 디바이스의 위치, 내부 파라미터 및 특정 영역의 위치에 기반하여 처리 대기 이미지 내의 대응하는 두 개의 소정의 서브 영역을 확정하고, 상기 제스처 분류 결과에 대해 위치 제약을 실행할 수 있다.

게임 테이블(40)의 일부 또는 전부의 영역을 포함하는 처리 대기 이미지에 대해 검출을 실행하여 얻은 손 검출 결과에 검출 프레임이 포함되어 있을 경우, 상기 검출 프레임 내의 이미지를 미리 훈련된 제스처 분류 신경망에 입력하고, 상기 제스처 분류 신경망은 입력 이미지에 대해 손이 위쪽을 향하는지 기타 자세인지의 분류를 실행할 수 있다. 두 개의 검출 프레임의 이미지 분류 결과가 모두 손이 위쪽을 향한 것에 응답하여, 두 개의 검출된 위치가 상기 처리 대기 이미지의 두 개의 소정의 서브 영역 내에 있는지 여부를 더 확정할 수 있다. 두 개의 손이 각각 상기 두 개의 소정의 서브 영역 내에 있는 것으로 검출되는 경우는, 두 개의 손이 각각 게임 테이블(40) 위의 핫 영역에 들어간 것을 나타내며, 그러면 검출된 손이 손씻기 제스처를 취한 것으로 확정할 수 있다.

게임 테이블(40)을 포함하는 처리 대기 이미지에 있어서 손씻기 제스처를 취하는 목표 손이 인식된 것에 응답하여, 즉 딜러의 손이 인식된 것에 응답하여, 그 후에 동기적으로 수집한 비디오 스트림 중에서 딜러의 손을 추적한다. 예를 들면, 앞의 일 프레임의 이미지 목표 손의 위치 정보를 포함하는 제1 행렬 및 공분산 행렬 등의 제2 행렬을 이용하여 현재 프레임의 이미지 내의 딜러의 손 위치 정보를 얻음으로써, 비디오 스트림 중에서 딜러의 손에 대한 추적을 정확하고 효과적으로 실현할 수 있다. 딜러의 손을 인식함으로써, 딜러의 손에 특정의 금지된 물품을 쥐어져 있는지 여부를 감시 제어할 수 있다.

도 5은 본 발명의 적어도 하나의 실시예에 의해 제공되는 목표 추적 장치의 구성 모식도이다. 도 5에 나타낸 바와 같이, 상기 장치는 처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻기 위한 검출 유닛(501); 상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 손을 목표 손으로 확정하기 위한 확정 유닛(502); 및 상기 처리 대기 이미지 내의 목표 손에 기반하여 상기 비디오 스트림 중에서 상기 목표 손을 추적하기 위한 추적 유닛(503)을 구비하되, 상기 비디오 스트림 중의 이미지와 상기 처리 대기 이미지는, 동일한 목표 영역을 수집하여 얻은 것이며, 상기 비디오 스트림 중의 이미지는 상기 처리 대기 이미지를 수집한 후에 수집하여 얻은 것이다.

몇몇의 실시예에 있어서, 확정 유닛(502)은 구체적으로 상기 손 검출 결과에 상기 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 동시에, 상기 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 손을 상기 목표 손으로 확정한다.

몇몇의 실시예에 있어서, 확정 유닛(502)은 상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 처리 대기 이미지의 상기 검출 프레임 내에 위치하는 이미지를 커팅하고, 상기 커팅된 이미지에 기반하여 상기 커팅된 이미지 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정한다.

몇몇의 실시예에 있어서, 상기 목표 제스처 중의 손 자세는 두 손이 모두 위쪽을 향하고 있으며, 확정 유닛(502)은 상기 검출 프레임 내의 이미지를 제스처 분류 신경망에 입력하여, 손이 위쪽을 향한 것 또는 손이 기타 자세인 것을 포함하는 제스처 분류 결과를 얻고, 상기 손 검출 결과 중의 두 개의 손의 검출 프레임의 제스처 분류 결과가 상기 두 개의 검출 프레임 내의 두 손이 모두 위쪽을 향할 경우, 당해 두 개의 손의 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정한다.

몇몇의 실시예에 있어서, 상기 제스처 분류 신경망은 손 이미지 샘플로 훈련하여 얻은 것이며, 상기 손 이미지 샘플은 손이 위쪽을 향하는 이미지 샘플을 포함하고, 상기 손이 위쪽을 향하는 이미지 샘플의 라벨링 결과는 손의 손 바닥이다.

몇몇의 실시예에 있어서, 확정 유닛(502)은 상기 검출 프레임의 중심점이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정된 것에 응답하여, 상기 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정한다.

몇몇의 실시예에 있어서, 상기 미리 정의된 영역은 상기 처리 이미지 내의, 상기 목표 영역 내의 두 개의 서브 영역에 각각 대응하는 두 개의 소정의 서브 영역을 포함하고, 확정 유닛(502)은 상기 처리 대기 이미지 내의 두 개의 손의 검출 프레임의 중심점이 각각 두 개의 소정의 서브 영역 내에 있는 것으로 확정한다.

몇몇의 실시예에 있어서, 추적 유닛(503)은 상기 비디오 스트림 중의 일 프레임의 이미지에 대해, 당해 프레임의 이미지 앞의 일 프레임의 이미지의 제1 행렬 및 제2 행렬에 기반하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 확정하되, 여기서, 당해 프레임의 이미지의 제1 행렬은 목표 손의 검출 프레임의 중심의 당해 프레임의 이미지 내에서의 위치 정보를 포함하고, 당해 프레임의 이미지의 제2 행렬은 당해 프레임의 이미지의 제1 행렬의 공분산 행렬이며, 당해 프레임의 이미지의 제1 행렬 중의 각 원소의 결합 변동을 측정하는 데 사용된다.

몇몇의 실시예에 있어서, 추적 유닛(503)은 당해 프레임의 이미지 앞의 일 프레임의 이미지의 제1 행렬 및 제2 행렬에 기반하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 확정할 때에, 구체적으로 당해 프레임의 이미지의 손 검출 결과에 목표 손의 검출 프레임이 포함되어 있지 않은 것에 응답하여, 앞의 일 프레임의 이미지의 제1 행렬을 당해 프레임의 이미지의 제1 행렬로 확정하는 것; 및 수정 행렬을 이용하여 앞의 일 프레임의 이미지의 제2 행렬을 수정함으로써, 당해 프레임의 이미지 내의 제2 행렬을 얻되, 여기서, 상기 수정 행렬은 상기 앞의 일 프레임의 이미지의 제2 행렬 중의 각 원소의 오차를 나타낸다.

몇몇의 실시예에 있어서, 추적 유닛(503)은, 당해 프레임의 이미지의 손 검출 결과에 목표 손의 검출 프레임이 포함되어 있는 것에 응답하여, 당해 프레임의 이미지와 앞의 일 프레임의 이미지의 시간 간격에 기반하여 앞의 일 프레임의 이미지의 제1 행렬을 이용하여 당해 프레임의 이미지의 제1 예측 행렬 및 당해 제1 예측 행렬의 공분산 행렬인 제2 예측 행렬을 예측하여 얻고, 상기 목표 손의 검출 프레임의 위치 정보에 기반하여 당해 프레임의 이미지의 제3 예측 행렬 및 제4 예측행렬을 얻되, 상기 제3 예측 행렬은 목표 손의 검출 프레임의 중심의 당해 프레임의 이미지 내에서의 위치 정보를 포함하고, 상기 제4 예측 행렬은 상기 제3 예측 행렬의 공분산 행렬이며, 또한 상기 제2 예측 행렬에 대응하는 가우스 분포와 상기 제4 예측 행렬에 대응하는 가우스 분포를 곱셈하여 새로운 가우스 분포를 얻고, 얻은 새로운 가우스 분포의 평균치에 기반하여 당해 프레임의 이미지의 상기 제1 행렬을 확정하고, 얻은 새로운 가우스 분포의 공분산에 기반하여 당해 프레임의 이미지의 상기 제2 행렬을 확정한다. 몇몇의 실시예에 있어서, 상기 처리 대기 이미지는 상방으로부터의 시각으로 수집한 상기 목표 영역의 이미지다.

도 6은 본 발명의 적어도 하나의 실시예에 의해 제공되는 전자 디바이스의 구성 모식도이다. 상기 전자 디바이스는 프로세서; 및 프로세서에 의해 실행될 수 있는 명령을 기억하기 위한 메모리를 구비하되, 상기 프로세서는 상기 메모리에 기억되어 있는 명령을 호출함으로써, 적어도 하나의 실시예에 기재된 목표 추적 방법을 실행한다.

당업자는 본 발명의 하나 또는 복수의 실시예를 방법, 시스템 또는 컴퓨터 프로그램 제품으로 제공할 수 있음을 이해해야 한다. 따라서, 본 발명의 하나 또는 복수의 실시예는 완전한 하드웨어의 실시예, 완전한 소프트웨어의 실시예 또는 소프트웨어와 하드웨어를 조합시킨 실시예의 형태를 채용할 수 있다. 또한 본 발명의 하나 또는 복수의 실시예는 컴퓨터 이용 가능한 프로그램 코드를 포함하는 하나 또는 복수의 컴퓨터 이용 가능한 기록 매체(디스크 메모리, CD-ROM, 광학 메모리 등을 포함하지만, 이에 한정되지 않음) 상에서 실시되는 컴퓨터 프로그램 제품의 형태를 채용할 수 있다.

본 명세서의 실시예는 컴퓨터 판독 가능 기록 매체를 더 제공하는바, 당해 기록 매체에는 컴퓨터 프로그램이 기록되어 있으며, 상기 프로그램이 프로세서에 의해 실행될 때에, 본 발명의 임의의 실시예로 설명한 목표 추적 방법의 단계가 실현된다.

본 발명의 각 실시예는 모두 점진적인 방식을 통해 서술되었으며, 각 실시예들 사이의 동일 또는 유사한 부분은 서로 참조할 수 있고, 각 실시예에서는 기타 실시예와의 차이점에 중점을 두고 설명했다. 특히, 데이터 처리 디바이스의 실시예의 경우, 기본적으로 방법의 실시예와 유사하기 때문에, 상대적으로 간단히 서술했지만, 관련된 부분은 방법의 실시예의 부분 설명을 참조하면 된다.

상기에서 본 발명의 특정의 실시예를 서술했다. 기타 실시예는 첨부된 "특허 청구의 범위”의 범위 내에 있다. 몇몇의 경우, 특허 청구의 범위에 기재된 행위 또는 단계는 실시예와 다른 순서에 따라 실행될 수 있으며, 이 경우에도 여전히 기대하는 결과가 실현될 수 있다. 또한 도면에 나타낸 과정은, 기대하는 결과 얻기 위하여, 반드시 나타낸 특정 순서 또는 연속적인 순서를 필요로 하지 않는다. 몇몇의 실시 형태에 있어서, 멀티 태스크 처리 및 병렬 처리도 가능하거나, 또한 더 유리할 수도 있다.

본 발명의 보호대상(subject-matter) 및 기능 조작의 실시예는 디지털 전자 회로, 유형 컴퓨터 소프트웨어 또는 펌웨어, 본 발명에 개시되는 구성 및 그 구조적 등가물을 포함하는 컴퓨터 하드웨어 또는 이들의 하나 또는 복수의 조합으로 실현될 수 있다. 본 발명의 보호대상의 실시예는 하나 또는 복수의 컴퓨터 프로그램으로 실현될 수 있는바, 즉 유형 비 일시적 프로그램 캐리어 상에 부호화되어, 데이터 처리 장치에 의해 실행되거나, 또는 데이터 처리 장치의 조작을 제어하기 위한 컴퓨터 프로그램 명령 중의 하나 또는 복수의 모듈에 의해 실현될 수 있다. 대체적 또는 추가적으로, 프로그램 명령은 수동으로 생성되는 전파 신호 상에 부호화될 수 있는바, 예를 들면 기계에 의해 생성되는 전기신호, 광학 신호 또는 전자신호로 부호화될 수 있다. 당해 신호는 정보를 부호화하여 적절한 수신기 장치에 전송함으로써 데이터 처리 장치에 의해 실행되도록 하기 위하여 생성된다. 컴퓨터 기록 매체는 기계 판독 가능 기억 디바이스, 기계 판독 가능 기억 기판, 랜덤 액세스 메모리 디바이스 또는 직렬 액세스 메모리 디바이스 또는 이들의 하나 또는 복수의 조합일 수 있다.

본 명세서에 서술된 발명의 처리와 논리 플로우는 하나 또는 복수의 컴퓨터 프로그램을 실행하는 하나 또는 복수의 프로그램 가능한 컴퓨터에 의해 실행될 수 있으며, 입력 데이터에 기반하여 조작을 실행하여 출력을 생성함으로써 해당하는 기능을 실행한다. 상기 처리와 논리 플로우는 또한 예를 들면 FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(전용 집적 회로)등의 전용 논리 회로에 의해 실행될 수 있으며, 또한 장치도 전용 논리 회로로 실현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들면 범용 및/또는 전용 마이크로 프로세서 또는 임의의 기타 종류의 중심 처리 유닛을 포함한다. 일반적으로, 중심 처리 유닛은 판독 전용 메모리 및/또는 랜덤 액세스 메모리로부터 명령과 데이터를 수신하게 된다. 컴퓨터의 기본 컴포넌트는 명령을 실시 또는 실행하기 위한 중심 처리 유닛 및 명령과 데이터를 기억하기 위한 하나 또는 복수의 메모리 디바이스를 구비한다. 일반적으로, 컴퓨터는 자기 디스크, 자기 광학 디스크 또는 광학 디스크 등의 데이터를 기억하기 위한 하나 또는 복수의 대용량 기억 디바이스를 더 구비하거나, 또는 조작 가능하도록 당해 대 용량 기억 디바이스와 결합되어 데이터를 수신하거나 또는 데이터를 전송하거나, 또는 이 양자를 모두 포함한다. 그러나, 컴퓨터는 반드시 이러한 디바이스를 구비하는 것이 아니다. 한편, 컴퓨터는 다른 하나의 디바이스에 내장될 수 있는바, 예를 들면 휴대 전화, 개인 디지털 보조(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, 글로벌 포지셔닝 시스템(GPS) 수신기 또는 범용 시리얼 버스(USB) 플래시 드라이브 등의 포터블 기억 디바이스에 내장될 수 있고, 이러한 디바이스는 몇몇의 예에 지나지 않는다.

컴퓨터 프로그램 명령과 데이터의 기억에 적합한 컴퓨터 판독 가능 매체는 모든 형태의 비 휘발성 메모리, 매개 및 메모리 디바이스를 구비하는바, 예를 들면 반도체 메모리 디바이스(예를 들면, EPROM, EEPROM 및 플래시 디바이스), 자기 디스크(예를 들면, 내부 하드 디스크 또는 이동 가능 디스크), 자기 광학 디스크 및 CD ROM와 DVD-ROM디스크를 포함한다. 프로세서와 메모리는 전용 논리 회로에 의해 보완되거나 또는 전용 논리 회로에 구비될 수 있다.

본 발명은 많은 구체적인 실시의 세부 사항을 포함하지만, 이를 본 발명의 범위 또는 보호하려고 하는 범위를 한정하는 것으로 해석해서는 안되며, 주로 본 발명을 특정하는 몇몇의 실시예의 특징을 서술하기 위하여 사용된다. 본 발명의 복수의 실시예 중의 일부 특징은 단일 실시예에 조합되어 실시될 수도 있다. 다른 한편, 단일 실시예 중의 각 특징은 복수의 실시예로 독립적으로 실시되거나 또는 임의의 적절한 서브 조합으로 실시될 수도 있다. 또한, 특징이 상기와 같이 특정의 조합으로 역할을 발휘하며, 또한 처음부터 상기와 같이 보호한다고 주장했지만, 보호한다고 주장한 조합 중의 하나 또는 복수의 특징은 경우에 따라 당해 조합으로부터 제외될 수도 있고, 또한 보호한다고 주장한 조합은 서브 조합 또는 서브 조합의 변형을 지향할 수 있다.

마찬가지로, 도면에서 특정 순서에 따라 조작을 나타냈지만, 이는 이러한 조작을 나타낸 특정 순서에 따라 실행하도록 요구하거나 또는 순차적으로 실행하도록 요구하거나, 또는 예시한 모든 조작이 실행됨으로써 기대하는 결과가 실현되는 것을 요구하는 것으로 이해해서는 안된다. 경우에 따라 멀티 태스크 및 병렬 처리가 더 유리할 가능성이 있다. 한편, 상기의 실시예 중의 각 종의 시스템 모듈과 컴포넌트의 분리가 모든 실시예에서 모두 이렇게 분리되지 않으면 안되는 것으로 이해해서는 안되며, 또한 서술한 프로그램 컴포넌트와 시스템은 일반적으로 함께 단일 소프트웨어 제품에 통합되거나 또는 복수의 소프트웨어 제품에 패키징될 수 있음을 이해해야 한다.

따라서, 보호대상의 특정의 실시예가 이미 서술되었다. 기타 실시예는 첨부된 "특허 청구의 범위”의 범위 내에 있다. 경우에 따라 특허 청구의 범위에 기재되어 있는 동작은 기타 순서에 따라 실행될 경우에도 여전히 기대하는 결과가 실현될 수 있다. 한편, 도면에 나타낸 처리는 기대하는 결과를 실현하기 위하여, 반드시 나타낸 특정 순서 또는 순차를 필요로 하지 않는다. 일부 구현에 있어서, 멀티 태스크 및 병렬 처리가 더 유리할 가능성이 있다.

상기는 본 명세서의 하나 또는 복수의 실시예의 바람직한 실시예에 불과할 뿐, 본 명세서의 하나 또는 복수의 실시예를 한정하기 위하여 사용되는 것이 아니다. 본 명세서의 하나 또는 복수의 실시예의 기술적 사상과 원칙의 범위 내에서 행하여진 어떠한 수정, 등가 치환, 개량 등은 모두 본 명세서의 하나 또는 복수의 실시예가 보호하는 범위에 포함되어야 한다.

Claims

목표 추적 방법에 있어서,
처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻는 것;
상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 손을 목표 손으로 확정하는 것; 및
상기 처리 대기 이미지 내의 목표 손에 기반하여 비디오 스트림 중에서 상기 목표 손을 추적하는 것을 포함하고,
상기 비디오 스트림 중의 이미지와 상기 처리 대기 이미지는, 동일한 목표 영역을 수집하여 얻은 것이며, 상기 비디오 스트림 중의 이미지는 상기 처리 대기 이미지를 수집한 후에 수집하여 얻은 것인
것을 특징으로 하는 목표 추적 방법.
제1항에 있어서,
상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 손을 목표 손으로 확정하는 것은,
상기 손 검출 결과에 상기 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 동시에, 상기 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 손을 상기 목표 손으로 확정하는 것을 포함하는
것을 특징으로 하는 목표 추적 방법.
제1항 또는 제2항에 있어서,
상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 처리 대기 이미지의 상기 검출 프레임 내에 위치하는 이미지를 커팅하는 것; 및
상기 커팅된 이미지에 기반하여 상기 커팅된 이미지 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정하는 것을 더 포함하는
것을 특징으로 하는 목표 추적 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 목표 제스처 중의 손 자세는 두 손이 모두 위쪽을 향하고 있으며,
상기 목표 추적 방법은,
상기 검출 프레임 내의 이미지를 제스처 분류 신경망에 입력하여, 손이 위쪽을 향한 것 또는 손이 기타 자세인 것을 포함하는 제스처 분류 결과를 얻는 것; 및
두 개의 상기 손 검출 결과 중의 두 개의 손의 검출 프레임의 제스처 분류 결과가 상기 두 개의 검출 프레임 내의 두 손이 모두 위쪽을 향할 경우, 당해 두 개의 손의 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정하는 것을 더 포함하는
것을 특징으로 하는 목표 추적 방법.
제4항에 있어서,
상기 제스처 분류 신경망은 손 이미지 샘플로 훈련하여 얻은 것이며, 상기 손 이미지 샘플은 손이 위쪽을 향하는 이미지 샘플을 포함하고, 상기 손이 위쪽을 향하는 이미지 샘플의 라벨링 결과는 손의 손 바닥인
것을 특징으로 하는 목표 추적 방법.
제2항에 있어서,
상기 검출 프레임의 중심점이 상기 처리 대기 이미지의 미리 정의된 영역 내에 위치하는 것에 응답하여, 상기 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 위치하는 것으로 확정하는 것을 포함하는
것을 특징으로 하는 목표 추적 방법.
제6항에 있어서,
상기 미리 정의된 영역은 상기 처리 이미지 내의, 상기 목표 영역 내의 두 개의 서브 영역에 각각 대응하는 두 개의 소정의 서브 영역을 포함하고,
상기 검출 프레임의 중심점이 상기 처리 대기 이미지의 미리 정의된 영역 내에 위치하는 것에 응답하여, 상기 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 위치하는 것으로 확정하는 것은,
상기 처리 대기 이미지 내의 두 개의 검출 프레임의 중심점이 각각 두 개의 소정의 서브 영역 내에 있는 것으로 확정하는 것을 포함하는
것을 특징으로 하는 목표 추적 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 처리 대기 이미지 내의 목표 손에 기반하여 상기 비디오 스트림 중에서 상기 목표 손을 추적하는 것은,
상기 비디오 스트림 중의 일 프레임의 이미지에 대해, 당해 프레임의 이미지 앞의 일 프레임의 이미지의 제1 행렬 및 제2 행렬에 기반하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 확정하는 것을 포함하되,
당해 프레임의 이미지의 제1 행렬은 목표 손의 검출 프레임의 중심의 당해 프레임의 이미지 내에서의 위치 정보를 포함하고, 당해 프레임의 이미지의 제2 행렬은 당해 프레임의 이미지의 제1 행렬의 공분산 행렬인
것을 특징으로 하는 목표 추적 방법.
제8항에 있어서,
당해 프레임의 이미지 앞의 일 프레임의 이미지의 제1 행렬 및 제2 행렬에 기반하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 확정하는 것은,
당해 프레임의 이미지의 손 검출 결과에 목표 손의 검출 프레임이 포함되어 있지 않은 것에 응답하여, 앞의 일 프레임의 이미지의 제1 행렬을 당해 프레임의 이미지의 제1 행렬로 확정하는 것; 및
수정 행렬을 이용하여 앞의 일 프레임의 이미지의 제2 행렬을 수정함으로써, 당해 프레임의 이미지 내의 제2 행렬을 얻는 것을 포함하되,
상기 수정 행렬은 상기 앞의 일 프레임의 이미지의 제2 행렬의 공분산 행렬인
것을 특징으로 하는 목표 추적 방법.
제8항에 있어서,
당해 프레임의 이미지 앞의 일 프레임의 이미지의 제1 행렬 및 제2 행렬에 기반하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 확정하는 것은,
당해 프레임의 이미지의 손 검출 결과에 목표 손의 검출 프레임이 포함되어 있는 것에 응답하여, 당해 프레임의 이미지와 앞의 일 프레임의 이미지의 시간 간격에 기반하여 앞의 일 프레임의 이미지의 제1 행렬을 이용하여 당해 프레임의 이미지의 제1 예측 행렬 및 상기 제1 예측 행렬의 공분산 행렬인 제2 예측 행렬을 예측하여 얻는 것;
상기 목표 손의 검출 프레임의 위치 정보에 기반하여 당해 프레임의 이미지의 제3 예측 행렬 및 제4 예측 행렬을 얻는 것 - 상기 제3 예측 행렬은 목표 손의 검출 프레임의 중심의 당해 프레임의 이미지 내의 예측 위치 정보를 포함하고, 상기 제4 예측 행렬은 상기 제3 행렬 중의 공분산 행렬인 -;
상기 제2 예측 행렬에 대응하는 가우스 분포와 상기 제4 예측 행렬에 대응하는 가우스 분포를 곱셈하여 새로운 가우스 분포를 얻는 것; 및
얻은 새로운 가우스 분포의 평균치에 기반하여 당해 프레임의 이미지의 상기 제1 행렬을 확정하고, 얻은 새로운 가우스 분포의 공분산에 기반하여 당해 프레임의 이미지의 상기 제2 행렬을 확정하는 것을 포함하는
것을 특징으로 하는 목표 추적 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 처리 대기 이미지는 상방으로부터의 시각으로 수집한 상기 목표 영역의 이미지인
것을 특징으로 하는 목표 추적 방법.
목표 추적 장치에 있어서,
처리 대기 이미지에 대해 검출을 실행하여 손 검출 결과를 얻기 위한 검출 유닛;
상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 손을 목표 손으로 확정하기 위한 확정 유닛;
상기 처리 대기 이미지 내의 목표 손에 기반하여 비디오 스트림 중에서 상기 목표 손을 추적하기 위한 추적 유닛을 구비하되,
상기 비디오 스트림 중의 이미지와 상기 처리 대기 이미지는, 동일한 목표 영역을 수집하여 얻은 것이며, 상기 비디오 스트림 중의 이미지는 상기 처리 대기 이미지를 수집한 후에 수집하여 얻은 것인
것을 특징으로 하는 목표 추적 장치.
제12항에 있어서,
상기 확정 유닛은 상기 손 검출 결과에 상기 검출 프레임이 포함되어 있는 것에 응답하여, 상기 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 동시에, 상기 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 손을 상기 목표 손으로 확정하는
것을 특징으로 하는 목표 추적 장치.
제12항 또는 제13항에 있어서,
상기 확정 유닛은,
상기 손 검출 결과에 손의 검출 프레임이 포함되어 있는 것에 응답하여, 상기 처리 대기 이미지의 상기 검출 프레임 내에 위치하는 이미지를 커팅하고,
상기 커팅된 이미지에 기반하여 상기 커팅된 이미지 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정하는
것을 특징으로 하는 목표 추적 장치.
제12항 내지 제14항 중 어느 한 항에 있어서,
상기 목표 제스처 중의 손 자세는 두 손이 모두 위쪽을 향하고 있으며,
상기 확정 유닛은,
상기 검출 프레임 내의 이미지를 제스처 분류 신경망에 입력하여, 손이 위쪽을 향한 것 또는 손이 기타 자세인 것을 포함하는 제스처 분류 결과를 얻고,
상기 손 검출 결과 중의 두 개의 손의 검출 프레임의 제스처 분류 결과가 상기 두 개의 검출 프레임 내의 두 손이 모두 위쪽을 향할 경우, 당해 두 개의 손의 검출 프레임 내의 손 자세가 목표 제스처 중의 손 자세를 충족시키는 것으로 확정하는
것을 특징으로 하는 목표 추적 장치.
제15항에 있어서,
상기 제스처 분류 신경망은 손 이미지 샘플로 훈련하여 얻은 것이며, 상기 손 이미지 샘플은 손이 위쪽을 향하는 이미지 샘플을 포함하고, 상기 손이 위쪽을 향하는 이미지 샘플의 라벨링 결과는 손의 손 바닥인
것을 특징으로 하는 목표 추적 장치.
제13항에 있어서,
상기 확정 유닛은 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 있는 것으로 확정할 때에,
상기 검출 프레임의 중심점이 상기 처리 대기 이미지의 미리 정의된 영역 내에 위치하는 것에 응답하여, 상기 검출 프레임 내의 손이 상기 처리 대기 이미지의 미리 정의된 영역 내에 위치하는 것으로 확정하는
것을 특징으로 하는 목표 추적 장치.
제17항에 있어서,
상기 미리 정의된 영역은 상기 처리 이미지 내의, 상기 목표 영역 내의 두 개의 서브 영역에 각각 대응하는 두 개의 소정의 서브 영역을 포함하고,
상기 확정 유닛은,
상기 처리 대기 이미지 내의 두 개의 검출 프레임의 중심점이 각각 두 개의 소정의 서브 영역 내에 있는 것으로 확정하는
것을 특징으로 하는 목표 추적 장치.
제12항 내지 제18항 중 어느 한 항에 있어서,
상기 추적 유닛은,
상기 비디오 스트림 중의 일 프레임의 이미지에 대해, 당해 프레임의 이미지 앞의 일 프레임의 이미지의 제1 행렬 및 제2 행렬에 기반하여 당해 프레임의 이미지의 제1 행렬 및 제2 행렬을 확정하되,
당해 프레임의 이미지의 제1 행렬은 목표 손의 검출 프레임의 중심의 당해 프레임의 이미지 내에서의 위치 정보를 포함하고, 당해 프레임의 이미지의 제2 행렬은 당해 프레임의 이미지의 제1 행렬의 공분산 행렬인
것을 특징으로 하는 목표 추적 장치.
제19항에 있어서,
상기 추적 유닛은,
당해 프레임의 이미지의 손 검출 결과에 목표 손의 검출 프레임이 포함되어 있지 않은 것에 응답하여, 앞의 일 프레임의 이미지의 제1 행렬을 당해 프레임의 이미지의 제1 행렬로 확정하고, 수정 행렬을 이용하여 앞의 일 프레임의 이미지의 제2 행렬을 수정함으로써, 당해 프레임의 이미지 내의 제2 행렬을 얻되,
상기 수정 행렬은 상기 앞의 일 프레임의 이미지의 제2 행렬의 공분산 행렬인
것을 특징으로 하는 목표 추적 장치.
제19항에 있어서,
상기 추적 유닛은,
당해 프레임의 이미지의 손 검출 결과에 목표 손의 검출 프레임이 포함되어 있는 것에 응답하여, 당해 프레임의 이미지와 앞의 일 프레임의 이미지의 시간 간격에 기반하여 앞의 일 프레임의 이미지의 제1 행렬을 이용하여 당해 프레임의 이미지의 제1 예측 행렬 및 상기 제1 예측 행렬의 공분산 행렬인 제2 예측 행렬을 예측을 예측하여 얻고,
상기 목표 손의 검출 프레임의 위치 정보에 기반하여 당해 프레임의 이미지의 제3 예측 행렬 및 제4 예측 행렬을 얻되, 상기 제3 예측 행렬은 목표 손의 검출 프레임의 중심의 당해 프레임의 이미지 내의 예측 위치 정보를 포함하고, 상기 제4 예측 행렬은 상기 제3 행렬 중의 공분산 행렬이고,
상기 제2 예측 행렬에 대응하는 가우스 분포와 상기 제4 예측 행렬에 대응하는 가우스 분포를 곱셈하여 새로운 가우스 분포를 얻고, 얻은 새로운 가우스 분포의 평균치에 기반하여 당해 프레임의 이미지의 상기 제1 행렬을 확정하고, 얻은 새로운 가우스 분포의 공분산에 기반하여 당해 프레임의 이미지의 상기 제2 행렬을 확정하는
것을 특징으로 하는 목표 추적 장치.
제12항 내지 제21항 중 어느 한 항에 있어서,
상기 처리 대기 이미지는 상방으로부터의 시각으로 수집한 상기 목표 영역의 이미지인
것을 특징으로 하는 목표 추적 장치.
전자 디바이스에 있어서,
상기 전자 디바이스는 메모리 및 프로세서를 구비하며, 상기 메모리는 상기 프로세서 상에서 실행 가능한 컴퓨터 명령을 기억하고, 상기 프로세서가 상기 컴퓨터 명령이 실행될 때에, 제1항 내지 제11항 중 어느 한 항에 기재된 방법을 실행하도록 구성되는
것을 특징으로 하는 전자 디바이스.
컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체에 있어서,
상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때에, 제1항 내지 제11항 중 어느 한 항에 기재된 방법을 실행하도록 구성되는
것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.