KR20210113612A

KR20210113612A - 얼굴과 손을 관련지어 검출하는 방법 및 장치, 전자기기 및 기억매체

Info

Publication number: KR20210113612A
Application number: KR1020217021540A
Authority: KR
Inventors: 쿤린 양; 쿤 얀; 준 호우; 슈아이 이
Original assignee: 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date: 2019-09-18
Filing date: 2019-11-26
Publication date: 2021-09-16
Also published as: KR102632647B1; JP7238141B2; JP2022517914A; US20210326587A1; WO2021051650A1; TWI781359B; CN110647834A; TW202113680A; CN110647834B; SG11202106831QA

Abstract

본 발명은 얼굴과 손을 관련지어 검출하는 방법 및 장치, 전자기기 및 기억매체에 관한 것으로, 상기 방법은 인물 오브젝트의 이미지인 제1 이미지를 취득하는 것과, 상기 제1 이미지에 대하여 특징추출을 수행하여 복수의 스케일의 제1 특징도를 얻는 것과, 상기 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 상기 제1 특징도와 스케일이 일일이 대응하는 복수의 스케일의 제2 특징도를 얻는 것과, 얻어진 상기 복수의 스케일의 제2 특징도에 기초하여 상기 제1 이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 검출하는 것을 포함한다. 본 발명된 실시예에 있어서 간단하고 용이하게 얼굴과 손을 관련지어 검출할 수 있다.

Description

얼굴과 손을 관련지어 검출하는 방법 및 장치, 전자기기 및 기억매체

본 발명은 2019년 9월 18일에 중국 국가지식산권국에 제출된 출원번호가 제201910882139.6이고, 발명의 명칭이 “얼굴과 손을 관련지어 검출하는 방법 및 장치, 전자기기 및 기억매체”인 중국특허출원의 우선권을 주장하고, 그 모든 내용은 원용함으로써 본 발명에 포함된다.

본 발명은 컴퓨터비주얼기술의 분야에 관한 것으로 특히 사람의 얼굴과 손의 위치를 검출하는 방법 및 장치, 전자기기 및 기억매체에 관한 것이다.

인체의 얼굴, 손을 관련짓는 것이란 검출된 얼굴과 손을 관련지어 이 관련지어진 정보에 기초하여 손으로 수행된 임의의 조작을 임의의 구체적인 인간에게 대응시키는 것이다.

인체에 있어서 얼굴과 손이 비교적 멀리 떨어지기 때문에 위치정보에 의해 직접 관련지을 수는 없다. 그 때문에 종래기술에 있어서 통상 키포인트기술 및 물체검출기술을 이용하여 대응하는 얼굴의 프레임과 손의 프레임을 관련짓게 된다.

본 발명은 이미지처리에 있어서 얼굴과 손을 검출하는 발명을 제안한다.

본 발명된 일측면에서는 얼굴과 손을 관련지어 검출하는 방법으로서, 인물 오브젝트의 이미지인 제1 이미지를 취득하는 것과, 상기 제1 이미지에 대하여 특징추출을 수행하여 복수의 스케일의 제1 특징도를 얻는 것과, 상기 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 상기 제1 특징도와 스케일이 일일이 대응하는 복수의 스케일의 제2 특징도를 취득하는 것과, 얻어진 상기 복수의 스케일의 제2 특징도에 기초하여 상기 제1 이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 검출하는 것을 포함하는 방법을 제공한다. 상기 구성에 의해 본 발명된 실시예는 이미지에 있어서의 서로에게 관련성이 있는 얼굴과 손의 위치를 간단하고 용이하게 얻을 수 있음과 함께 검출정밀도를 높일 수 있다.

몇 가지 가능한 실시형태에서는 제1 이미지를 얻는 것은 하나 이상의 인물 오브젝트를 포함하는 이미지인 상기 제2 이미지를 얻는 것과, 상기 제2 이미지에 대하여 대상이 되는 인체의 검출을 수행하여 상기 제2 이미지에 있어서의 상기 하나 이상의 인물 오브젝트 중 어느 인물 오브젝트의 검출프레임을 얻는 것과, 상기 제2 이미지에 있어서 상기 어느 인물 오브젝트의 상기 검출프레임에 대응하는 이미지영역을 상기 어느 인물 오브젝트의 제1 이미지로서 결정하는 것을 포함한다. 상기 구성에 의해 본 발명된 실시예에서 얻어진 제1 이미지에 있어서 다른 환경요소의 영향이 제거되었기 때문에 검출정밀도를 더 높일 수 있다.

몇 가지 가능한 실시형태에서는 상기 제1 이미지에 대하여 특징추출을 수행하여 복수의 스케일의 제1 특징도를 얻는 것은 상기 제1 이미지를 미리 설정된 스케일의 제3 이미지로 조정하는 것과, 상기 제3 이미지를 잔차네트워크에 입력하여 상기 복수의 스케일의 제1 특징도를 얻는 것을 포함한다. 상기 구성에 의해 이미지의 스케일의 통일을 실현할 수 있고, 적용성을 높일 수 있다.

몇 가지 가능한 실시형태에서는 상기 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 복수의 스케일의 제2 특징도를 얻는 것은 상기 복수의 스케일의 제1 특징도를 특징 피라미드네트워크에 입력하고, 상기 특징 피라미드네트워크에 의해 상기 특징융합처리를 수행하여 상기 복수의 스케일의 제2 특징도를 얻는 것을 포함한다. 상기 구성에 의해 얻어진 복수의 스케일의 제2 특징도의 특징정밀도를 높일 수 있다.

몇 가지 가능한 실시형태에서는 스케일이 큰 순서대로 상기 복수의 제1 특징도를 {C₁, …, C_n}으로서 나타내고, 단 n은 제1 특징도의 수를 나타내고, 1보다 큰 정수이고, 상기 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 복수의 스케일의 제2 특징도를 얻는 것은 제1합성곱커널을 사용하여 제1 특징도 C_n에 대하여 합성곱처리를 수행하여 상기 제1 특징도 C_n에 대응하는 제2 특징도 F_n을 얻는 것으로서, 상기 제1 특징도 C_n의 스케일과 상기 제2 특징도 F_n의 스케일이 동일한 것과, 상기 제2 특징도 F_n에 대하여 선형보간처리를 수행하여 상기 제2 특징도 F_n에 대응하는 제1중간특징도 F'_n을 취득하는 것으로서, 상기 제1중간특징도 F'_n의 스케일과 제1 특징도 C_n-1의 스케일이 동일한 것과, 제2합성곱커널을 사용하여 상기 제1 특징도 C_n 이외의 제1 특징도 C_i에 대하여 합성곱처리를 수행하여 상기 제1 특징도 C_i에 대응하는 제2중간특징도 C'_i를 얻는 것으로서, 상기 제2중간특징도 C'_i의 스케일과 제1중간특징도 F'_i+1의 스케일이 동일하고, i는 1 이상, n 미만의 정수 변수인 것과, 상기 제2중간특징도 C'_i 및 대응하는 상기 제1중간특징도 F'_i+1을 사용하여 상기 제2 특징도 F_n 이외의 제2 특징도 F_i를 얻는 것으로서, 상기 제1중간특징도 F'_i+1이 대응하는 상기 제2 특징도 F_i+1을 선형보간하여 얻어진 것인 것을 포함한다. 상기 구성에 의해 스케일이 상이한 특징정보를 융합할 수 있고, 특징정밀도를 더 높일 수 있다.

몇 가지 가능한 실시형태에서는 상기 제2중간특징도 C'_i 및 대응하는 상기 제1중간특징도 F'_i+1을 사용하여 상기 제2 특징도 F_n 이외의 제2 특징도 F_i를 얻는 것은 상기 제2중간특징도 C'_i와 대응하는 상기 제1중간특징도 F'_i+1을 가산처리하여 상기 제2 특징도 F_i를 얻는 것을 포함한다. 상기 구성에 의해 2개의 중간특징의 특징정보를 유효하게 융합할 수 있다.

몇 가지 가능한 실시형태에서는 얻어진 상기 복수의 스케일의 제2 특징도에 기초하여 상기 제1 이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 검출하는 것은 상기 복수의 스케일의 제2 특징도 중 스케일이 최대인 제2 특징도에 대하여 합성곱처리를 수행하여 상기 얼굴 위치를 나타내는 마스크맵 및 상기 손 위치를 나타내는 마스크맵을 각각 얻는 것과, 상기 얼굴 위치의 마스크맵 및 상기 손 위치의 마스크맵에 기초하여 상기 제1 이미지에 있어서 관련성이 있는 손과 얼굴이 위치하는 위치영역을 결정하는 것을 포함한다. 상기 구성에 의해 관련성이 있는 얼굴과 손의 위치를 용이하게 예측하여 나타낼 수 있다.

몇 가지 가능한 실시형태에서는 상기 복수의 스케일의 제1 특징도 사이의 스케일의 관계는 L(C_i-1)=2^k1·L(C_i) 또한 W(C_i-1)=2^k1·W(C_i)이고, 단 C_i는 각 제1 특징도를 나타내고, L(C_i)는 상기 제1 특징도 C_i의 길이를 나타내고, W(C_i)는 상기 제1 특징도 C_i의 폭을 나타내고, k₁은 1 이상의 정수이고, i는 변수이며, 또한 i의 범위는 [2, n]이고, n은 제1 특징도의 수를 나타낸다.

몇 가지 가능한 실시형태에서는 상기 방법은 상기 제1 이미지에 상기 관련성이 있는 손과 얼굴을 강조표시하는 것과, 상기 제1 이미지에 있어서 검출된 관련성이 있는 얼굴 위치와 손 위치에 동일한 라벨을 할당하는 것 중 하나 이상을 포함한다. 상기 구성에 의해 관련성이 있는 얼굴과 손이 위치하는 이미지영역을 직관적으로 나타냄과 함께 상이한 인물 오브젝트의 관련성 검출결과를 유효하게 구별할 수 있다.

몇 가지 가능한 실시형태에서는 상기 방법은 뉴럴 네트워크에 의해 실현되고, 상기 뉴럴 네트워크를 트레이닝하는 단계는 인물 오브젝트를 포함하는 이미지로서, 관련성이 있는 얼굴 위치 및 손 위치의 진정한 라벨정보를 갖는 트레이닝이미지를 취득하는 것과, 상기 트레이닝이미지를 상기 뉴럴 네트워크에 입력하고, 상기 뉴럴 네트워크에 의해 상기 트레이닝이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 예측하는 것과, 예측된 관련성이 있는 상기 얼굴 위치와 손 위치 및 상기 라벨정보에 기초하여 네트워크 손실을 결정하고, 상기 네트워크 손실에 기초하여 트레이닝요구를 만족시킬 때까지 상기 뉴럴 네트워크의 네트워크파라미터를 조정하는 것을 포함한다. 상기 구성에 의해 뉴럴 네트워크의 최적화의 트레이닝을 실현할 수 있고, 네트워크의 검출정밀도를 확보할 수 있다.

본 발명된 제2측면에서는 얼굴과 손을 관련지어 검출하는 장치로서, 인물 오브젝트의 이미지인 제1 이미지를 취득하기 위한 취득모듈과, 상기 제1 이미지에 대하여 특징추출을 수행하여 복수의 스케일의 제1 특징도를 얻기 위한 특징추출모듈과, 상기 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 상기 제1 특징도와 스케일이 일일이 대응하는 복수의 스케일의 제2 특징도를 얻기 위한 융합모듈과, 얻어진 상기 복수의 스케일의 제2 특징도에 기초하여 상기 제1 이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 검출하기 위한 검출모듈을 포함하는 장치를 제공한다.

몇 가지 가능한 실시형태에서는 상기 취득모듈은 하나 이상의 인물 오브젝트를 포함하는 이미지인 제2 이미지를 취득하기 위한 취득유닛과, 상기 제2 이미지에 대하여 대상이 되는 인체의 검출을 수행하여 상기 제2 이미지에 있어서의 상기 하나 이상의 인물 오브젝트 중 어느 인물 오브젝트의 검출프레임을 얻기 위한 대상검출유닛과, 상기 제2 이미지에 있어서 상기 어느 인물 오브젝트의 상기 검출프레임에 대응하는 이미지영역을 상기 어느 인물 오브젝트의 제1 이미지로서 결정하기 위한 결정유닛을 포함한다.

몇 가지 가능한 실시형태에서는 상기 특징추출모듈은 또한 상기 제1 이미지를 미리 설정된 스케일의 제3 이미지로 조정하는 것과, 상기 제3 이미지를 잔차네트워크에 입력하여 상기 복수의 스케일의 제1 특징도를 얻는 것에 이용된다.

몇 가지 가능한 실시형태에서는 상기 융합모듈은 또한 상기 복수의 스케일의 제1 특징도를 특징 피라미드네트워크에 입력하고, 상기 특징 피라미드네트워크에 의해 상기 특징융합처리를 수행하여 상기 복수의 스케일의 제2 특징도를 얻는 것에 이용된다.

몇 가지 가능한 실시형태에서는 스케일이 큰 순서대로 상기 복수의 제1 특징도를 {C₁, …, C_n}으로서 나타내고, 단 n은 제1 특징도의 수를 나타내고, 1보다 큰 정수이고, 상기 융합모듈은 또한 제1합성곱커널을 사용하여 제1 특징도 C_n에 대하여 합성곱처리를 수행하여 상기 제1 특징도 C_n에 대응하는 제2 특징도 F_n을 얻는 것으로서, 상기 제1 특징도 C_n의 스케일과 상기 제2 특징도 F_n의 스케일이 동일한 것과, 상기 제2 특징도 F_n에 대하여 선형보간처리를 수행하여 상기 제2 특징도 F_n에 대응하는 제1중간특징도 F'_n을 취득하는 것으로서, 상기 제1중간특징도 F'_n의 스케일과 제1 특징도 C_n-1의 스케일이 동일한 것과, 제2합성곱커널을 사용하여 상기 제1 특징도 C_n 이외의 제1 특징도 C_i에 대하여 합성곱처리를 수행하여 상기 제1 특징도 C_i에 대응하는 제2중간특징도 C'_i를 얻는 것으로서, 상기 제2중간특징도 C'_i의 스케일과 제1중간특징도 F'_i+1의 스케일이 동일하고, i는 1 이상, n 미만의 정수 변수인 것과, 상기 제2중간특징도 C'_i 및 대응하는 상기 제1중간특징도 F'_i+1을 사용하여 상기 제2 특징도 F_n 이외의 제2 특징도 F_i를 얻는 것으로서, 상기 제1중간특징도 F'_i+1이 대응하는 상기 제2 특징도 F_i+1을 선형보간하여 얻어진 것인 것에 이용된다.

몇 가지 가능한 실시형태에서는 상기 융합모듈은 또한 상기 제2중간특징도 C'_i와 대응하는 상기 제1중간특징도 F'_i+1을 가산처리하여 상기 제2 특징도 F_i를 얻는 것에 이용된다.

몇 가지 가능한 실시형태에서는 상기 검출모듈은 또한 상기 복수의 스케일의 제2 특징도 중 스케일이 최대인 제2 특징도에 대하여 합성곱처리를 수행하여 상기 얼굴 위치를 나타내는 마스크맵 및 상기 손 위치를 나타내는 마스크맵을 각각 얻는 것과, 상기 얼굴 위치의 마스크맵 및 상기 손 위치의 마스크맵에 기초하여 상기 제1 이미지에 있어서 관련성이 있는 손과 얼굴이 위치하는 위치영역을 결정하는 것에 이용된다.

몇 가지 가능한 실시형태에서는 상기 복수의 스케일의 제1 특징도 사이의 스케일의 관계는 L(C_i-1)=2^k1·L(C_i) 또한 W(C_i-1)=2^k1·W(C_i)이고, 단 C_i는 각 제1 특징도를 나타내고, L(C_i)는 상기 제1 특징도 C_i의 길이를 나타내고, W(C_i)는 상기 제1 특징도 C_i의 폭을 나타내고, k₁은 1 이상의 정수이고, i는 변수이며 또한 i의 범위는 [2, n]이고, n은 제1 특징도의 수를 나타낸다.

몇 가지 가능한 실시형태에서는 상기 장치는 또한 상기 제1 이미지에 상기 관련성이 있는 손과 얼굴을 강조표시하기 위한 표시모듈과, 상기 제1 이미지에 있어서 검출된 관련성이 있는 얼굴 위치와 손 위치에 동일한 라벨을 할당하기 위한 할당모듈 중 하나 이상을 포함한다.

몇 가지 가능한 실시형태에서는 상기 장치는 상기 특징추출모듈, 상기 융합모듈 및 상기 검출모듈에 적용되는 뉴럴 네트워크를 포함하고, 상기 장치는 또한 상기 뉴럴 네트워크를 트레이닝하기 위한 트레이닝모듈을 포함하고, 상기 뉴럴 네트워크를 트레이닝하는 단계는 인물 오브젝트를 포함하는 이미지로서, 관련성이 있는 얼굴 위치 및 손 위치의 진정한 라벨정보를 갖는 트레이닝이미지를 취득하는 것과, 상기 트레이닝이미지를 상기 뉴럴 네트워크에 입력하고, 상기 뉴럴 네트워크에 의해 상기 트레이닝이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 예측하는 것과, 예측된 관련성이 있는 상기 얼굴 위치와 손 위치 및 상기 라벨정보에 기초하여 네트워크 손실을 결정하고, 상기 네트워크 손실에 기초하여 트레이닝요구를 만족시킬 때까지 상기 뉴럴 네트워크의 네트워크파라미터를 조정하는 것을 포함한다.

본 발명된 제3측면에서는 프로세서와, 프로세서에 의해 실행 가능한 명령을 기억하기 위한 메모리를 포함하고, 상기 프로세서는 제1측면의 어느 하나에 기재된 방법을 실행하기 위해 상기 메모리에 기억된 명령을 불러내도록 구성되는 전자기기를 제공한다.

본 발명된 제4측면에서는 컴퓨터프로그램 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체로서, 상기 컴퓨터프로그램 명령은 프로세서에 의해 실행되면 제1측면의 어느 하나에 기재된 방법을 실현시키는 컴퓨터 판독 가능 기억 매체를 제공한다.

본 발명된 제5측면에서는 컴퓨터로 판독 가능한 코드를 포함하는 컴퓨터프로그램으로서, 상기 컴퓨터로 판독 가능한 코드가 전자기기에 있어서 실행되면 상기 전자기기의 프로세서에 제1측면의 어느 하나에 기재된 방법을 실현하기 위한 명령을 실행시키는 컴퓨터프로그램을 제공한다.

본 발명된 실시예에서는 제2 이미지로부터 1개의 인물 오브젝트가 존재하는 영역에 대응하는 제1 이미지를 결정하고, 제1 이미지에 대하여 특징추출처리를 수행하여 대응하는 특징도를 얻고, 그리고 특징도에 대하여 멀티스케일의 특징융합처리를 수행하여 복수의 스케일의 제2 특징도를 얻을 수 있다. 제2 특징도는 제1 특징도에 비하여 보다 정확한 특징정보를 갖고, 제2 특징도를 처리함으로써 제1 이미지에 있어서의 관련성이 있는 손과 얼굴의 위치를 얻을 수 있고, 얼굴과 손을 검출하는 정밀도를 높일 수 있다. 또한 본 발명된 실시예의 발명은 이미지에 있어서의 관련성이 있는 손과 얼굴의 위치를 귀 또는 팔의 키포인트를 취득하지 않고 직접 얻을 수 있어 간단하고 용이하고 또한 정밀도가 높다는 특징이 있다.

이상의 일반것인 설명 및 후술하는 상세한 설명은 예시적·해석적인 것에 불과하고, 본 발명을 제한하는 것이 아님을 이해해야만 한다.

본 발명된 그 외의 특징 및 측면은 이하에 도면을 참조하면서 예시적인 실시예를 자세히 설명함으로써 명료해질 것이다.

여기서 본 명세서의 일부로서 포함되는 도면은 본 발명된 실시예에 적합하고, 명세서와 함께 본 발명된 기술적 해결수단의 설명에 이용된다.
도 1은 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 방법의 플로차트를 나타낸다.
도 2는 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 방법에 있어서의 단계 S10의 플로차트를 나타낸다.
도 3은 본 발명된 실시예에 따른 제2 이미지의 모식도를 나타낸다.
도 4는 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 방법에 있어서의 단계 S20의 플로차트를 나타낸다.
도 5는 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 방법에 있어서의 단계 S30의 플로차트를 나타낸다.
도 6은 본 발명된 실시예에 따른 특징추출 및 특징융합의 순서의 모식도를 나타낸다.
도 7은 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 방법에 있어서의 단계 S40의 플로차트를 나타낸다.
도 8은 본 발명된 실시예에 따른 뉴럴 네트워크를 트레이닝하는 플로차트를 나타낸다.
도 9는 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 장치의 블록도를 나타낸다.
도 10은 본 발명된 실시예에 따른 전자기기의 블록도를 나타낸다.
도 11은 본 발명된 실시예에 따른 다른 전자기기의 블록도를 나타낸다.

이하, 도면을 참조하면서 본 발명된 다양한 예시적인 실시예, 특징 및 방면을 상세하게 설명한다. 도면에 있어서의 동일한 부호는 동일하거나 또는 유사한 기능의 요소를 나타낸다. 도면에 있어서 실시예의 다양한 방면을 나타냈지만, 특별히 구애되지 않는 한 비례에 따라 도면을 그릴 필요가 없다.

여기에서의 용어 “예시적”이란 “예, 실시예로서 이용되는 것 또는 설명적인 것”을 의미한다. 여기서 “예시적”으로 설명되는 어떠한 실시예는 다른 실시예보다 바람직한 또는 우수한 것이라고 이해해서는 안 된다.

본 명세서에 있어서의 용어 “및/또는”은 단지 관련대상과의 관련관계를 기술하는 것이며, 3개의 관계가 존재 가능한 것을 나타내고, 예를 들어 A 및/또는 B는 A만 존재하고, A와 B의 양쪽이 존재하고, B만 존재한다는 3개의 경우를 나타내도 된다. 또한 본 명세서에 있어서의 용어 “하나 이상”는 복수 중 어느 하나 또는 복수 중 적어도 2개의 임의의 조합을 나타내고, 예를 들어 A, B, C 중 하나 이상을 포함하는 것은 A, B 및 C로 이루어지는 집합으로부터 선택된 어느 하나 또는 복수의 요소를 포함하는 것을 나타낼 수도 있다.

또한 본 발명을 보다 효과적으로 설명하기 위해 이하의 구체적인 실시형태에 있어서 다양한 구체적인 상세한 내용을 나타낸다. 당업자라면 본 발명은 어떠한 구체적인 상세한 내용이 없어도 마찬가지로 실시할 수 있다고 이해해야 한다. 몇 가지 실시예에서는 본 발명된 취지를 강조하기 위해 당업자가 숙지하고 있는 방법, 수단, 요소 및 회로에 대하여 상세한 설명을 하지 않는다.

본 발명된 실시예는 얼굴과 손을 관련지어 검출하는 방법을 제공하고, 이 방법은 임의의 이미지처리장치에 적용될 수 있다. 예를 들어 이 방법은 단말장치 또는 서버에 적용될 수 있고 또는 다른 처리장치에 적용될 수도 있다. 여기서 단말기기로서는 사용자기기(User Equipment, UE), 모바일장치, 사용자단말기, 단말기, 휴대전화, 무선전화, 휴대정보단말기(Personal Digital Assistant, PDA), 핸드헬드장치, 컴퓨팅디바이스, 차량탑재장치, 웨어러블장치 등을 들 수 있다. 몇 가지 가능한 실시형태에서는 이 얼굴과 손을 관련지어 검출하는 방법은 프로세서가 메모리에 기억된 컴퓨터로 판독 가능한 명령을 호출함으로써 실현된다.

도 1은 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 방법의 플로차트를 나타낸다. 도 1에 나타내는 바와 같이 상기 얼굴과 손을 관련지어 검출하는 방법은 하기 사항을 포함한다.

S10: 제1 이미지를 취득한다.

몇 가지 가능한 실시형태에서는 제1 이미지는 인물 오브젝트의 이미지가어도 되고, 하나 이상의 얼굴과 하나 이상의 손을 포함할 수 있다. 본 발명된 실시예는 해당 제1 이미지에 있어서의 인물 오브젝트의 손과 얼굴의 관련성 검출을 실현 가능하고, 해당 관련성이란 얻어진 얼굴과 손이 동일한 인물 오브젝트의 얼굴과 손인 것을 가리킨다.

몇 가지 가능한 실시형태에서는 제1 이미지를 취득하는 방법은 휴대전화, 카메라 등의 이미지취득기능을 갖는 장치인 이미지취득장치에 의해 제1 이미지를 직접 취득하는 것을 포함하여도 된다. 제1 이미지를 취득하는 방법은 다른 기기로부터 전송된 제1 이미지를 수신하거나 또는 메모리로부터 제1 이미지를 읽어내는 것을 포함하여도 된다. 또는 제1 이미지는 비디오스트리밍에 대하여 프레임선택조작을 수행하여 얻어진 이미지프레임이어도 되며, 본 발명에서는 특별히 한정하지 않는다.

다른 몇 가지 가능한 실시형태에서는 제1 이미지는 다른 이미지의 이미지영역의 일부여도 되며, 예를 들어 제1 이미지는 수신한 선택정보에 기초하여 다른 이미지로부터 선택된 이미지영역이어도 되고 또는 인체를 검출하도록 하는 대상검출의 방법에 의해 검출된 이미지영역이어도 되며, 본 발명에서는 특별히 한정하지 않는다.

S20: 상기 제1 이미지에 대하여 특징추출을 수행하여 복수의 스케일의 제1 특징도를 얻는다.

몇 가지 가능한 실시형태에서는 본 발명된 실시예는 제1 이미지에 대하여 특징추출처리를 수행하여 복수의 스케일의 제1 특징도를 얻을 수 있다. 예를 들어 본 발명된 실시예는 제1 이미지를 특징추출네트워크에 입력하여 복수의 스케일의 제1 특징도를 얻을 수 있다. 특징추출네트워크는 합성곱 뉴럴 네트워크 예를 들어 잔차네트워크(Res-Net)여도 된다. 해당 잔차네트워크에 의해 제1 이미지의 특징추출을 수행함으로써 적어도 2개의 스케일의 제1 특징도를 얻는다. 또는 다른 실시예에 있어서 다른 타입의 특징추출네트워크를 이용하여 당해 복수의 스케일의 제1 특징도를 얻는 것도 가능하며, 본 발명에서는 특별히 한정하지 않는다. 또는 다른 몇 가지 가능한 실시형태에서는 제1 이미지에 대하여 업샘플링 또는 다운샘플링을 수행하는 방법으로 복수의 스케일의 제1 특징도를 얻는 것도 가능하고, 예를 들어 상이한 샘플링레이트에 의해 당해 복수의 스케일의 제1 특징도를 얻는 것이 가능하다.

S30: 상기 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 상기 제1 특징도와 스케일이 일일이 대응하는 복수의 스케일의 제2 특징도를 얻는다.

몇 가지 가능한 실시형태에서는 복수의 스케일의 제1 특징도를 얻은 경우, 당해 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 당해 스케일의 제2 특징도를 얻을 수 있다. 특징융합에 의해 각 제2 특징도에 포함되는 특징정보의 정확도를 높일 수 있고, 얼굴과 손의 관련성 검출의 정밀도를 더 높일 수 있다.

몇 가지 가능한 실시형태에서는 특징 피라미드네트워크에 의해 당해 복수의 스케일의 제1 특징도의 특징융합처리를 수행할 수 있다. 인접하는 스케일의 제1 특징도의 특징정보에 대하여 특징융합을 수행하여 작은 스케일의 제1 특징도의 특징정보로부터 큰 스케일의 제1 특징도의 특징정보로 차례차례 융합함으로써 모든 스케일의 제1 특징도의 특징정보를 융합한 제2 특징도를 최종적으로 얻을 수 있다.

S40: 얻어진 상기 복수의 스케일의 제2 특징도에 기초하여 상기 제1 이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 검출한다.

몇 가지 가능한 실시형태에서는 복수의 스케일의 제2 특징도를 얻은 후, 당해 복수의 스케일의 제2 특징도에 기초하여 얼굴과 손의 관련성 검출을 실시할 수 있다. 각 스케일의 제2 특징도 중 하나 이상의 제2 특징도에 대하여 합성곱처리를 수행하여 제1 이미지에 있어서의 관련성이 있는 얼굴 위치 및 손 위치를 얻을 수 있다. 예를 들어 스케일이 최대인 제2 특징도를 합성곱층에게 입력하여 합성곱처리를 수행하여 1개의 얼굴 위치의 제1마스크맵, 왼손 위치의 제2마스크맵 및 오른손 위치의 제3마스크맵을 포함할 수 있는 얼굴 위치 및 손 위치에 관한 마스크맵을 각각 얻을 수 있다. 얻어진 각 마스크맵에 따라 제1 이미지에 있어서 관련성이 있는 손 위치와 얼굴 위치를 결정할 수 있다.

상기 구성에 의해 본 발명된 실시예는 관련성이 있는 손과 얼굴을 귀 또는 팔의 키포인트를 취득하지 않고 가우스분포를 만족시키는지의 여부를 분석하지 않아도 제1 이미지의 특징의 멀티스케일 추출 및 특징융합에 의해 직접 얻을 수 있기 때문에 간단하고 용이하고 또한 정밀도가 높다는 특징이 있다.

이하, 도면에 맞춰 본 발명된 실시예의 순서를 상세하게 설명한다. 상기 실시예에 기술된 바와 같이 본 발명된 실시예에서 얻어진 제1 이미지는 인물 오브젝트의 이미지가어도 된다. 실제의 응용에 있어서 얻어진 이미지에는 복수의 인물 오브젝트가 포함될 수 있지만, 동일한 인물 오브젝트의 얼굴과 손의 관련성 검출의 정밀도를 향상시키기 위해 본 발명은 얻어진 이미지로부터 각 인물 오브젝트의 이미지영역을 얻고, 그리고 각 이미지영역에 대하여 각각 특징추출 및 특징융합을 수행하여 각 인물 오브젝트의 얼굴과 손의 위치를 최종적으로 얻을 수 있다. 도 2는 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 방법에 있어서의 단계 S10의 플로차트를 나타낸다. 제1 이미지를 취득하는 것은 하기 사항을 포함한다.

S101: 하나 이상의 인물 오브젝트를 포함하는 이미지인 제2 이미지를 취득한다.

몇 가지 가능한 실시형태에서는 제1 이미지는 제2 이미지에 기초하여 얻어진 이미지가어도 된다. 제2 이미지는 하나 이상의 인물 오브젝트의 이미지가어도 된다. 제2 이미지를 취득하는 방법은 휴대전화, 카메라 등의 이미지취득기능을 갖는 장치인 이미지취득장치에 의해 제2 이미지를 직접 취득하는 것을 포함하여도 된다. 제2 이미지를 취득하는 방법은 다른 기기로부터 전송된 제2 이미지를 수신하는 것과 또는 메모리로부터 제2 이미지를 읽어내는 것을 포함하여도 된다. 또는 제2 이미지는 비디오스트리밍에 대하여 프레임선택조작을 수행하여 얻어진 이미지프레임이어도 되며, 본 발명에서는 특별히 한정하지 않는다.

도 3은 본 발명된 실시예에 따른 제2 이미지의 모식도를 나타낸다. 5개의 인물 오브젝트(A, B, C, D 및 E)를 포함하여도 된다. 다른 실시예에 있어서 제2 이미지는 1개의 인물 오브젝트만을 포함하여도 되고 또는 다른 수의 인물 오브젝트를 포함하여도 되며, 본 발명에서는 특별히 한정하지 않는다.

S102: 상기 제2 이미지에 대하여 대상이 되는 인체의 검출을 수행하여 상기 제2 이미지에 있어서의 상기 하나 이상의 인물 오브젝트 중 어느 인물 오브젝트의 검출프레임을 얻는다.

몇 가지 가능한 실시형태에서는 제2 이미지에 기초하여 제1 이미지를 얻을 때에 제2 이미지에 있어서의 각 인물 오브젝트에 대한 인체영역의 위치를 검출하여 당해 인물 오브젝트에 대응하는 제1 이미지를 얻을 수 있다. 제2 이미지에 복수의 인물 오브젝트가 포함될 때에 얻어진 제1 이미지에는 1개의 인물 오브젝트의 인체영역이 포함되어도 되지만, 다른 인물 오브젝트의 이미지의 적어도 일부 예를 들어 다른 오브젝트의 얼굴 또는 손의 적어도 일부도 포함하여도 된다. 본 발명된 실시예에서 제1 이미지에 대하여 후속처리를 수행하여 얻어진 제1 이미지에는 1개의 인물 오브젝트의 손과 얼굴이 있다.

전술한 바와 같이 제2 이미지에는 하나 이상의 인물 오브젝트가 포함되어도 되고, 본 발명은 당해 제2 이미지에 대하여 대상검출을 수행하여 제2 이미지에 있어서의 인물 오브젝트의 인체영역의 검출을 실현하고, 각 인물 오브젝트의 검출프레임을 얻을 수 있다.

몇 가지 가능한 실시형태에서는 대상이 되는 인체의 검출을 실시 가능한 뉴럴 네트워크에 의해 제2 이미지에 있어서의 인물 오브젝트에 대응하는 검출프레임을 검출할 수 있다. 당해 뉴럴 네트워크는 합성곱 뉴럴 네트워크가어도 되고, 트레이닝에 의해 이미지에 있어서의 각 인물 오브젝트 및 당해 인물 오브젝트의 위치영역(즉 검출프레임)을 정확하게 식별할 수 있는 합성곱 뉴럴 네트워크가어도 되며, 예를 들어 R-CNN 네트워크여도 되고 또는 대상검출을 실시 가능한 다른 뉴럴 네트워크가어도 되며, 본 발명에서는 특별히 한정하지 않는다.

도 3에 나타내는 바와 같이 대상검출처리에 의해 이미지에 있어서의 인물 오브젝트의 인체영역에 대응하는 검출프레임 예를 들어 인물 오브젝트(A)의 검출프레임(A1) 및 인물 오브젝트(D)의 검출프레임(D1)를 얻었다. 상기 설명은 예시적인 것에 불과하고, 다른 인물 오브젝트의 검출프레임을 검출할 수도 있다.

검출프레임을 얻을 때 이미지에 있어서의 인물 오브젝트마다의 검출프레임을 식별할 수도 있고, 품질요구를 만족시키는 검출프레임을 식별할 수도 있다. 예를 들어 도 3에 있어서 인물 오브젝트(B, C 및 D)에 대하여 얻어진 검출프레임의 품질값이 품질 역치 미만이고, 이때 인물 오브젝트(B, C 및 D)에 대응하는 검출프레임을 품질요구를 만족시키지 못한 검출프레임로서 결정하여 삭제처리를 수행할 수 있다. 검출프레임의 품질값은 대상검출처리를 수행할 때에 검출프레임이 얻어짐과 동시에 얻어진 당해 검출프레임에 대한 득점이나 신뢰도여도 된다. 당해 득점 또는 신뢰도가 품질 역치보다 큰 경우, 검출프레임이 품질요구를 만족시키고 있다고 결정한다. 품질 역치는 설정된 수치 예를 들어 80%여도 되고 또는 1 미만의 다른 수치여도 되며, 본 발명에서는 특별히 한정하지 않는다.

S103: 상기 어느 인물 오브젝트의 상기 검출프레임의 상기 제2 이미지에 있어서의 이미지영역을 상기 어느 인물 오브젝트에 대응하는 제1 이미지로서 결정한다.

제2 이미지에 있어서의 각 인물 오브젝트의 검출프레임을 얻은 경우, 제2 이미지에 있어서 검출프레임에 대응하는 이미지영역을 당해 검출프레임에 대응하는 인물 오브젝트의 제1 이미지로서 결정할 수 있다. 예를 들어 도 3에 나타내는 실시예에 있어서 제2 이미지에 있어서의 인물 오브젝트(A)의 검출프레임(A1) 및 인물 오브젝트(D)의 검출프레임(D1)를 얻을 수 있다. 이에 따라 A1에 대응하는 이미지영역을 인물 오브젝트(A)의 제1 이미지로서 결정하고, 검출프레임(D1)에 대응하는 이미지영역을 인물 오브젝트(D)의 제1 이미지로서 결정할 수 있다.

상기 구성에 의해 본 발명된 실시예에서 얻어진 제1 이미지에 있어서 다른 환경요소의 영향이 제거되었기 때문에 검출정밀도를 더 높일 수 있다. 또한 전술한 바와 같이 제2 이미지로부터 1개의 인물 오브젝트에 대한 이미지영역(제1 이미지)을 얻는 것에 기초하여 얻어진 제1 이미지는 1개의 인물 오브젝트에 대한 이미지가기는 하지만, 실제의 응용에서는 제2 이미지에 포함되는 각 인물이 서로 가까울 가능성이 있기 때문에 이때에 얻어진 제1 이미지에는 다른 인물 오브젝트의 적어도 일부가 포함될 수 있다. 예를 들어 도 3의 검출프레임(D1)는 인물 오브젝트(D)에 더하여 인물(C)의 얼굴의 일부를 포함할 수 있다. 본 발명은 후속의 처리순서에 의해 제1 이미지에 있어서의 동일한 인물 오브젝트의 얼굴과 손의 위치를 얻을 수 있다.

도 4는 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 방법에 있어서의 단계 S20의 플로차트를 나타낸다. 상기 제1 이미지에 대하여 특징추출을 수행하여 복수의 스케일의 제1 특징도를 얻는 것은 하기 사항을 포함한다.

S201: 상기 제1 이미지를 미리 설정된 사양의 제3 이미지로 조정한다.

몇 가지 가능한 실시형태에서는 얻어진 제1 이미지의 스케일이 다를 수 있다. 본 발명된 실시예는 얻어진 제1 이미지를 동일한 스케일, 즉 미리 설정된 스케일로 조정함으로써 동일한 스케일의 이미지에 대하여 후속의 특징추출처리를 수행할 수 있다. 본 발명된 실시예에 있어서의 미리 설정된 스케일은 네트워크의 설계 및 배치에 기초하여 결정할 수 있다. 예를 들어 본 발명된 실시예에 있어서의 미리 설정된 스케일은 256*192(높이*폭)이어도 되지만, 본 발명에서는 특별히 한정하지 않는다.

이미지스케일을 조정하는 방법은 업샘플링, 다운샘플링, 이미지보간 중 하나 이상을 포함하여도 되며, 본 발명에서는 특별히 한정하지 않고, 다른 방법에 의해 미리 설정된 스케일의 제3 이미지를 얻을 수도 있다.

S202: 상기 제3 이미지를 잔차네트워크에 입력하여 상기 복수의 스케일의 제1 특징도를 얻는다.

미리 설정된 스케일의 제3 이미지를 얻은 경우, 제3 이미지에 대하여 특징추출처리를 수행할 수 있다. 예를 들어 제3 이미지를 잔차네트워크(예를 들어 Resnet50)에 입력하여 이미지의 특징추출처리를 수행하여 상이한 스케일의 제1 특징도를 얻는다. 잔차네트워크의 상이한 합성곱층에 따라 상이한 스케일의 제1 특징도를 출력할 수 있다.

혹은 다른 실시형태에서는 예를 들어 피라미드 특징추출네트워크 등의 다른 특징추출네트워크에 의해 당해 멀티스케일의 제1 특징도를 얻을 수 있다. 또는 업샘플링 또는 다운샘플링의 방법에 의해 멀티스케일의 제1 특징도를 얻을 수 있다. 예를 들어 본 발명된 실시예의 샘플링 주파수는 1/8, 1/16, 1/32 등이어도 되지만, 본 발명된 실시예는 특별히 한정하지 않는다.

몇 가지 가능한 실시형태에서는 얻어진 각 제1 특징도끼리의 관계는 L(C_i-1)=2^k1·L(C_i) 또한 W(C_i-1)=2^k1·W(C_i)이고, 단 C_i는 각 제1 특징도를 나타내고, L(C_i)는 제1 특징도 C_i의 길이를 나타내고, W(C_i)는 제1 특징도 C_i의 폭을 나타내고, k₁은 1 이상의 정수이고, i는 변수이고 또한 i의 범위는 [2, n]이고, n은 제1 특징도의 수이다. 즉, 본 발명된 실시예에 있어서의 각 제1 특징도의 장폭간의 관계는 모두 2의 k₁승배이다.

일례에 있어서 본 발명에서 얻어진 제1 특징도는 수가 4개여도 되고, 각각 제1 특징도 C₁, C₂, C₃ 및 C₄로서 나타낼 수 있다. 제1 특징도 C₁의 길이 및 폭은 제1 특징도 C₂의 길이 및 폭에 대하여 각각 2배여도 되고, 제1 특징도 C₂의 길이 및 폭은 제1 특징도 C₃의 길이 및 폭에 대하여 각각 2배여도 되고, 및 제1 특징도 C₃의 길이 및 폭은 제1 특징도 C₄의 길이 및 폭에 대하여 각각 2배여도 된다. 본 발명된 실시예에 있어서 상기 C₁과 C₂ 사이, C₂와 C₃ 사이 및 C₃과 C₄ 사이의 길이의 배수 및 폭의 배수는 모두 동일하고, 즉 k₁은 1의 값을 취한다. 다른 실시예에 있어서 k₁은 상이한 값이어도 되며, 예를 들어 제1 특징도 C₁의 길이 및 폭은 제1 특징도 C₂의 길이 및 폭에 대하여 각각 2배여도 되고, 제1 특징도 C₂의 길이 및 폭은 제1 특징도 C₃의 길이 및 폭에 대하여 각각 4배여도 되고, 및 제1 특징도 C₃의 길이 및 폭은 제1 특징도 C₄의 길이 및 폭에 대하여 각각 8배여도 된다. 본 발명된 실시예는 특별히 한정하지 않는다.

제1 이미지에 대응하는 복수의 스케일의 제1 특징도를 얻은 경우, 각 제1 특징도의 특징융합처리를 더 수행하여 얻어진 제2 특징도의 특징정보의 정확도를 높일 수 있다.

몇 가지 가능한 실시형태에서는 제1 특징도에 대하여 특징융합처리를 수행하는 것은 피라미드 특징추출네트워크(FPN)를 이용하여 수행할 수 있다. 즉, 복수의 스케일의 제1 특징도를 특징 피라미드네트워크에 입력하고, 상기 특징 피라미드네트워크에 의해 상기 특징융합처리를 수행하여 제1 특징도에 대응하는 제2 특징도를 얻을 수 있다. 또는 다른 방식에 의해 특징융합처리를 수행할 수 있고, 예를 들어 합성곱처리 및 업샘플링처리에 의해 복수의 스케일의 제2 특징도를 얻을 수 있다. 상기 구성에 의해 얻어진 복수의 스케일의 제2 특징도의 특징정밀도를 높일 수 있다.

도 5는 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 방법에 있어서의 단계 S30의 플로차트를 나타낸다. 상기 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 복수의 스케일의 제2 특징도를 얻는 것은 하기 사항을 포함한다.

S301: 제1합성곱커널을 사용하여 제1 특징도 C_n에 대하여 합성곱처리를 수행하여 제1 특징도 C_n에 대응하는 제2 특징도 F_n을 취득하고, 제1 특징도 C_n의 스케일과 제2 특징도 F_n의 스케일은 동일하다.

몇 가지 가능한 실시형태에서는 본 발명된 실시예에서 얻어진 제1 특징도는 {C₁, …, C_n}으로서 나타낼 수 있다. 즉, n개의 제1 특징도가 있으며 또한 C_n은 길이 및 폭이 최소인 특징도, 즉 스케일이 최소인 제1 특징도여도 된다. n의 값이 커질수록 대응하는 제1 특징도의 스케일이 작아진다. 예를 들어 상기 제1 특징도 C₁, C₂, C₃ 및 C₄는 스케일이 순차적으로 작아진다.

특징융합처리를 수행할 때에 우선 스케일이 최소인 제1 특징도 C_n에 대응하는 제2 특징도 F_n을 얻을 수 있다. 예를 들어 제1합성곱커널에 의해 제1 특징도 C_n에 대하여 합성곱처리를 수행하여 제1 특징도 C_n에 대응하는 제2 특징도 F_n을 얻을 수 있고, 제1 특징도 C_n의 스케일과 제2 특징도 F_n의 스케일은 동일하다. 이와 같이 제2 특징도 F_n도 제2 특징도 중 스케일이 최소인 특징도이다. 제1합성곱커널에 의한 합성곱처리에서는 제1 특징도 C_n의 특징정보에 비하여 보다 정확한 제2 특징도 F_n을 얻을 수 있다. 제1합성곱커널은 3*3의 합성곱커널이어도 되고 또는 다른 타입의 합성곱커널이어도 된다.

S302: 상기 제2 특징도 F_n에 대하여 선형보간처리를 수행하여 제2 특징도 F_n에 대응하는 제1중간특징도 F'_n을 취득하고, 제1중간특징도 F'_n의 스케일과 제1 특징도 C_n-1의 스케일은 동일하다.

제2 특징도 F_n을 얻은 후, 당해 제2 특징도 F_n을 이용하여 그에 대응하는 제1중간특징도 F'_n을 취득할 수 있다. 본 발명된 실시예는 제2 특징도 F_n에 대하여 선형보간처리를 수행함으로써 제2 특징도 F_n에 대응하는 제1중간특징도 F'_n을 얻을 수 있다. 제1중간특징도 F'_n의 스케일과 제1 특징도 C_n-1의 스케일은 동일하다. 예를 들어 C_n-1의 스케일이 C_n의 스케일의 2배인 경우, 제1중간특징도 F'_n의 길이는 제2 특징도 F_n의 길이의 2배이고, 제1중간특징도 F'_n의 폭은 제2 특징도 F_n의 폭의 2배이다.

S303: 제2합성곱커널을 사용하여 제1 특징도 C_n 이외의 제1 특징도 C_i에 대하여 합성곱처리를 수행하여 상기 제1 특징도 C_i에 대응하는 제2중간특징도 C'_i를 취득하고, 상기 제2중간특징도 C'_i의 스케일과 제1중간특징도 F'_i+1의 스케일은 동일하고, i는 1 이상, n 미만의 정수 변수이다.

몇 가지 가능한 실시형태에서는 제1 특징도 C_n 이외의 각 제1 특징도 C₁ … C_n-1에 대응하는 제2중간특징도 C'₁ … C'_n-1을 취득할 수 있다. 제2합성곱커널을 사용하여 제1 특징도 C₁ … C_n-1에 대하여 각각 합성곱처리를 수행하여 각 제1 특징도 C₁ … C_n-1에 일일이 대응하는 제2중간특징도 C'₁ … C'_n-1을 각각 취득한다. 제2합성곱커널은 1*1의 합성곱커널이어도 되며, 본 발명에서는 특별히 한정하지 않는다. 제2합성곱커널에 의한 합성곱처리에 의해 얻어진 각 제2중간특징도의 스케일은 대응하는 제1 특징도의 스케일과 각각 동일하다. 본 발명된 실시예에 있어서 제1 특징도 C₁ … C_n-1의 반대 순서로 각 제1 특징도 C₁ … C_n-1의 제2중간특징도 C'₁ … C'_n-1을 얻을 수 있다. 즉, 제1 특징도 C₁에 대응하는 제2중간특징도 C'₁을 얻을 때까지 제1 특징도 C_n-1에 대응하는 제2중간특징도 C'_n-1을 얻고, 그 후 제1 특징도 C_n-2에 대응하는 제2중간도 C'_n-2를 얻도록 하는 처리를 반복할 수 있다.

S304: 상기 제2중간특징도 C'_i 및 대응하는 제1중간특징도 F'_i+1을 사용하여 상기 제2 특징도 F_n 이외의 제2 특징도 F_i를 얻는다. 제1중간특징도 F'_i+1은 대응하는 제2 특징도 F_i+1을 선형보간하여 얻어진 것이다.

각 제2중간특징도를 얻을 때 또는 각 제2중간특징도를 얻은 후, 그에 따라 제1중간특징도 F'_n 이외의 다른 제1중간특징도 F'₁ … F'_n-1을 얻을 수 있다. 본 발명된 실시예에 있어서 제1 특징도 C₁ … C_n-1 중의 제1 특징도 C_i에 대응하는 제2 특징도 F_i=C'_i+F'_i+1에 대하여 제2중간특징도 C'_i의 스케일(길이 및 폭)이 각각 제1중간특징도 F'_i+1의 스케일(길이 및 폭)과 동일하고, 또한 제2중간특징도 C'_i의 길이 및 폭과 제1 특징도 C_i의 길이 및 폭이 동일하기 때문에 얻어진 제2 특징도 F_i의 길이 및 폭은 각각 제1 특징도 C_i의 길이 및 폭이고, i는 1 이상, n 미만의 정수이다.

구체적으로는 본 발명된 실시예는 여전히 반대 순서로 처리함으로써 제2 특징도 F_n 이외의 각 제2 특징도 F_i를 취득할 수 있다. 즉, 본 발명된 실시예는 우선 제1중간특징도 F'_n-1을 취득할 수 있다. 제1 특징도 C_n-1에 대응하는 제2중간도 C'_n-1과 제1중간특징도 F'_n을 가산처리하여 제2 특징도 F_n-1을 얻을 수 있고, 제2중간특징도 C'_n-1의 길이 및 폭은 각각 제1중간특징도 F'_n의 길이 및 폭과 동일하고, 제2 특징도 F_n-1의 길이 및 폭은 제2중간특징도 C'_n-1 및 F'_n의 길이 및 폭이다. 이때 제2 특징도 F_n-1의 길이 및 폭은 각각 제2 특징도 F_n의 길이 및 폭의 2배이다(C_n-1의 스케일은 C_n의 스케일의 2배이다). 또한 제2 특징도 F_n-1에 대하여 선형보간처리를 수행하여 제1중간특징도 F'_n-1을 얻고, F'_n-1의 스케일과 C_n-1의 스케일을 동일하게 하고, 그리고 제1 특징도 C_n-2에 대응하는 제2중간도 C'_n-2와 제1중간특징도 F'_n-1을 가산처리하여 제2 특징도 F_n-2를 얻을 수 있다. 제2중간특징도 C'_n-2의 길이 및 폭은 각각 제1중간특징도 F'_n-1의 길이 및 폭과 동일하고, 제2 특징도 F_n-2의 길이 및 폭은 제2중간특징도 C'_n-2 및 F'_n-1의 길이 및 폭이다. 예를 들어 제2 특징도 F_n-2의 길이 및 폭은 각각 제2 특징도 F_n-1의 길이 및 폭의 2배이다. 이와 같이 하여 제1중간특징도 F'₂를 최종적으로 얻을 수 있고, 당해 제1중간특징도 F'₂와 제1 특징도 C'₁의 가산처리에 의해 제2 특징도 F₁을 얻을 수 있고, F₁의 길이 및 폭은 각각 C₁의 길이 및 폭과 동일하다. 이에 의해 각 제2 특징도를 얻음과 함께 L(F_i-1)=2^k1·L(F_i) 및 W(F_i-1)=2^k1·W(F_i)를 만족시키고, 또한 L(F_n)=L(C_n), W(F_n)=W(C_n)이 된다.

예를 들어 상기 4개의 제1 특징도 C₁, C₂, C₃ 및 C₄를 예로서 설명한다. 도 6은 본 발명된 실시예에 따른 특징추출 및 특징융합의 순서의 모식도를 나타낸다. 잔차네트워크 a에 의해 특징추출처리를 수행하고, 잔차네트워크 중의 4개의 합성곱층을 이용하여 스케일이 상이한 4개의 제1 특징도 C₁, C₂, C₃ 및 C₄를 각각 출력하고, 그 후 특징추출네트워크 b를 이용하여 특징융합처리를 수행하여 멀티스케일의 제2 특징도를 얻을 수 있다. 우선 C₄를 1개의 3*3의 제1합성곱커널을 이용해서 계산하여 1개의 새로운 특징도 F₄(제2 특징도)를 얻을 수 있고, F₄는 길이 및 폭의 크기가 C₄와 동일하다. F₄에 대하여 쌍선형보간의 업샘플링(upsample) 조작을 수행하여 길이 및 폭이 모두 2배 확대된 1개의 특징도인 제1중간특징도 F'₄를 얻는다. C₃을 1개의 1*1의 제2합성곱커널을 이용해서 계산하여 1개의 제2중간특징도 C'₃을 얻고, C'₃과 F'₄는 크기가 동일하고, 2개의 중간특징도를 가산하여 새로운 특징도 F₃(제2 특징도)를 얻고, 제2 특징도 F₃의 길이 및 폭을 각각 제2 특징도 F₄의 2배로 함과 함께 제1 특징도 C₃과는 스케일이 동일하도록 한다. F₃에 대하여 쌍선형보간의 업샘플링(upsample) 조작을 수행하여 길이 및 폭이 모두 2배 확대된 1개의 특징도인 제1중간특징도 F'₃을 얻는다. C₂를 1개의 1*1의 제2합성곱커널을 이용해서 계산하여 1개의 제2중간특징도 C'₂를 얻고, C'₂와 F'₃은 크기가 동일하고, 2개의 중간특징도를 가산하여 새로운 특징도 F₂(제2 특징도)를 얻고, 제2 특징도 F₂의 길이 및 폭을 각각 제2 특징도 F₃의 2배로 한다. F₂에 대하여 쌍선형보간의 업샘플링(upsample) 조작을 수행하여 길이 및 폭이 모두 2배 확대된 1개의 특징도인 제1중간특징도 F'₂를 얻는다. C₁을 1개의 1*1의 제2합성곱커널을 통해 계산하여 1개의 제2중간특징도 C'₁을 얻고, C'₁과 F'₂는 크기가 동일하고, 2개의 중간특징도를 가산하여 새로운 특징도 F₁(제2 특징도)을 얻고, 제2 특징도 F₁의 길이 및 폭을 각각 제2 특징도 F₂의 2배로 한다. FPN에 의한 처리후, 마찬가지로 스케일이 상이한 4개의 제2 특징도를 얻고, 각각 F₁, F₂, F₃ 및 F₄로서 기재한다. 또한 F₁과 F₂ 사이의 길이 및 폭의 배수는 C₁과 C₂ 사이의 길이 및 폭의 배수와 동일하고, F₂와 F₃ 사이의 길이 및 폭의 배수는 C₂와 C₃ 사이의 길이 및 폭의 배수와 동일하고, F₃과 F₄ 사이의 길이 및 폭의 배수는 C₃과 C₄ 사이의 길이 및 폭의 배수와 동일하다.

상기 배치에 의해 스케일이 상이한 특징정보를 융합할 수 있고, 특징정밀도를 더 높일 수 있다. 상기 방법에 의해 복수의 스케일의 제1 특징도에 각각 대응하는 제2 특징도를 얻을 수 있고, 제1 특징도의 특징정보와 비교하여 제2 특징도의 특징정보는 정확도가 향상되었다.

제2 특징도를 얻은 경우, 제2 특징도에 기초하여 제1 이미지에 있어서의 동일한 인물 오브젝트에 대한 얼굴과 손의 위치를 얻을 수 있다. 도 7은 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 방법에 있어서의 단계 S40의 플로차트를 나타낸다. 상기 실시예에 기술되어 있는 바와 같이 본 발명된 실시예에 있어서 얻어진 상기 복수의 스케일의 제2 특징도에 기초하여 상기 제1 이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 검출하는 것은 하기 사항을 포함한다.

S401: 상기 복수의 스케일의 제2 특징도 중 스케일이 최대인 제2 특징도에 대하여 합성곱처리를 수행하여 상기 얼굴 위치를 나타내는 마스크맵 및 상기 손 위치를 나타내는 마스크맵을 각각 얻는다.

몇 가지 가능한 실시형태에서는 얻어진 복수의 스케일의 제2 특징도 중 하나 이상의 제2 특징도를 합성곱층에 입력하고, 당해 하나 이상의 제2 특징도에 대하여 추가의 특징융합을 수행하고, 그에 따라 제1 이미지에 대응하는 동일한 인물 오브젝트의 얼굴 위치의 마스크맵 및 손 위치의 마스크맵을 생성한다. 본 발명은 스케일이 최대인 제2 특징도에 각 스케일의 특징도의 특징정보가 융합되어 있으므로 제2 특징도를 당해 합성곱층에 입력하여 손과 얼굴의 위치의 관련성 검출을 수행할 수 있다. 얻어진 마스크맵에 있어서의 요소는 1 및 0으로 이루어지는 것으로서 나타낼 수 있고, 1은 손 또는 얼굴의 위치영역을 나타낸다. 예를 들어 본 발명된 실시예는 동일한 인물 오브젝트의 얼굴 위치의 제1마스크맵, 왼손 위치의 제2마스크맵 및 오른손 위치의 제3마스크맵을 얻을 수 있고, 각 마스크맵에 있어서의 원소 1의 위치에 의해 제1 이미지에 있어서의 당해 관련성이 있는 얼굴과 손의 위치를 얻을 수 있다.

몇 가지 가능한 실시형태에서는 왼손과 오른손 중 1개만을 검출 가능한 경우, 검출되지 않은 손에 대응하는 마스크맵은 모두가 0인 마스크맵이어도 된다. 또는 관련성이 있는 얼굴과 손을 검출할 수 없는 경우, 출력되는 마스크맵은 모두가 0인 마스크맵이어도 된다.

몇 가지 가능한 실시형태에서는 얻어진 마스크맵은 인물 오브젝트마크 및 타입마크가 대응하여 관련지어질 수 있다. 인물 오브젝트마크는 다른 인물 오브젝트를 구별하는 것에 이용되고, 상이한 인물 오브젝트는 상이한 인물 오브젝트마크를 가져도 된다. 타입마크는 마스크맵에 대응하는 얼굴 위치, 왼손 위치 또는 오른손 위치를 나타내는 것에 이용된다. 상기 인물 오브젝트마크 및 타입마크에 의해 마스크맵마다 대응하는 인물 오브젝트 및 마스크맵에 대응하는 것이 얼굴인지 또는 손(왼손 또는 오른손)인지를 명확하게 결정할 수 있다.

S402: 상기 얼굴 위치의 마스크맵 및 상기 손 위치의 마스크맵에 기초하여 상기 제1 이미지에 있어서 관련성이 있는 손과 얼굴이 위치하는 위치영역을 결정한다.

관련성이 있는 손과 얼굴에 대응하는 마스크맵을 얻은 경우, 제1 이미지에 있어서의 관련성이 있는 손과 얼굴에 대응하는 위치영역을 더 얻는다.

본 발명된 실시예에서 얻어진 제1마스크맵 및 제2마스크맵의 스케일이 제1 이미지의 스케일과 동일하여도 되므로 마스크맵에 기초하여 결정된 얼굴 위치를 제1 이미지에 있어서의 당해 얼굴의 이미지영역에 매핑하고, 마스크맵에 기초하여 결정된 손 위치를 제1 이미지에 있어서의 손의 이미지영역에 매핑할 수 있고, 이에 의해 관련성이 있는 손과 얼굴이 위치하는 위치영역을 얻을 수 있다.

몇 가지 가능한 실시형태에서는 상기 제1 이미지에 있어서의 관련성이 있는 얼굴과 손의 위치가 검출된 후, 얻어진 마스크맵에 기초하여 매칭된 얼굴과 손을 제1 이미지에 강조표시할 수 있다. 예를 들어 관련성이 있는 얼굴과 손을 제시하기 위해 마스크맵을 제1 이미지에 있어서의 이미지영역에 있어서 검출프레임로 나타낸다. 도 3에 나타내는 바와 같이 이미지에 있어서 인물 오브젝트(D)와 관련지어진 얼굴검출프레임(D11) 및 손검출프레임(D12, D13)를 표시할 수 있다. 또한 본 발명된 실시예는 관련성이 있는 얼굴과 손에 동일한 라벨을 할당함으로써 당해 얼굴과 손이 동일한 인물 오브젝트의 얼굴과 손인 것을 마킹할 수 있다.

상기 배치에 의해 관련성이 있는 얼굴과 손의 위치를 용이하게 예측하여 나타낼 수 있다.

몇 가지 가능한 실시형태에서는 본 발명된 실시예에서 얻어진 관련성이 있는 얼굴과 손의 위치는 인물 오브젝트의 자세의 변화를 특정하는 것에 이용될 수 있다. 예를 들어 제1 이미지는 비디오스트리밍에 있어서의 이미지프레임에 기초하여 얻어진 것이어도 되고, 본 발명된 실시예의 방법에 의해 이미지프레임에 있어서의 동일한 인물 오브젝트에 대한 얼굴 위치의 변화 및 손 위치의 변화를 검출할 수 있고, 또한 당해 이미지프레임에 있어서의 얼굴 위치에 대한 표정식별을 수행하거나 또는 손 위치에 기초하여 제스처식별을 수행함으로써 표정의 변이미지황 또는 제스처의 변이미지황을 얻을 수 있다.

상기 실시예에 기술되어 있는 바와 같이 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 방법은 뉴럴 네트워크, 예를 들어 합성곱 뉴럴 네트워크에 적용될 수 있다. 상기 합성곱 뉴럴 네트워크는 예를 들어 잔차네트워크 및 피라미드네트워크로 구축하여 구성될 수 있다. 본 발명은 뉴럴 네트워크를 트레이닝하여 정밀도 요구를 만족시키는 뉴럴 네트워크를 얻을 수 있다. 도 8은 본 발명된 실시예에 따른 뉴럴 네트워크를 트레이닝하는 플로차트를 나타낸다. 상기 뉴럴 네트워크를 트레이닝하는 것은 하기 사항을 포함한다.

S501: 인물 오브젝트를 포함하는 이미지로서 관련성이 있는 얼굴 위치 및 손 위치의 진정한 라벨정보를 갖는 트레이닝이미지를 취득한다.

몇 가지 가능한 실시형태에서는 트레이닝이미지는 1개의 인물 오브젝트의 이미지가어도 되고, 또한 트레이닝 정밀도를 높이기 위해 트레이닝이미지에는 다른 인물 오브젝트의 얼굴 또는 손의 일부가 포함될 수 있다. 트레이닝이미지의 수는 복수이며, 본 발명은 트레이닝이미지의 수를 한정하지 않는다.

몇 가지 가능한 실시형태에서는 뉴럴 네트워크의 트레이닝을 감독하기 위해 트레이닝이미지에는 진정한 라벨정보가 관련지어질 수 있다. 트레이닝이미지에 있어서의 동일한 인물 오브젝트에 대한 얼굴 위치 및 손 위치(왼손 및 오른손)를 나타내기 위해 트레이닝이미지마다에는 관련성이 있는 얼굴 위치 및 손 위치의 진정한 라벨정보가 있다. 라벨정보는 마킹프레임로서 나타낼 수 있고 또는 위치좌표로서 나타낼 수도 있고 또는 관련성이 있는 손과 얼굴의 위치의 진정한 마스크맵으로서 나타낼 수도 있고, 트레이닝이미지에 있어서의 관련성이 있는 얼굴 위치 및 손 위치를 특정할 수 있으면 본 발명된 실시예로 할 수 있다.

S502: 상기 트레이닝이미지를 상기 뉴럴 네트워크에 입력하고, 상기 뉴럴 네트워크에 의해 상기 트레이닝이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 예측한다.

몇 가지 가능한 실시형태에서는 트레이닝이미지를 뉴럴 네트워크에 입력하여 특징추출, 특징융합 및 관련성이 있는 손과 얼굴의 위치의 검출을 수행할 수 있다.

예를 들어 잔차네트워크 등의 특징추출네트워크에 의해 트레이닝이미지의 멀티스케일 특징추출을 수행하여 복수의 스케일의 제1예측특징도를 얻을 수 있다. 특징추출의 순서의 상세한 내용은 상기 실시예의 설명을 참조할 수 있으며, 설명은 여기에서는 반복되지 않는다.

복수의 스케일의 제1 특징도를 얻은 후, 당해 복수의 스케일의 제1예측특징도에 대하여 특징융합처리를 수행할 수 있다. 예를 들어 피라미드네트워크(FPN)를 이용하여 당해 복수의 제1예측특징도의 특징융합을 수행하여 복수의 스케일의 제2예측특징도를 얻을 수 있다. 특징융합의 구체적인 순서의 설명은 여기에서는 반복되지 않고, 상세한 내용은 상기 실시예의 순서를 참조할 수 있다.

복수의 제2예측특징도를 얻은 경우, 각 제2예측특징도에 기초하여 합성곱처리를 수행하여 각 제2예측특징도에 기초하여 예측된 관련성이 있는 얼굴과 손의 위치의 예측마스크맵을 얻을 수 있다.

S503: 상기 트레이닝이미지에 대하여 예측된 관련성이 있는 상기 얼굴 위치와 상기 손 위치 및 상기 라벨정보에 기초하여 네트워크 손실을 결정하고, 상기 네트워크 손실에 기초하여 트레이닝요구를 만족시킬 때까지 상기 뉴럴 네트워크의 네트워크파라미터를 조정한다.

본 발명된 실시예는 각 스케일의 제2예측특징도로 예측하여 얻어진 얼굴의 예측마스크맵 및 손의 예측마스크맵과 얼굴과 손에 대응하는 진정한 마스크맵 사이의 차이에 기초하여 네트워크 손실을 얻을 수 있고, 여기서 대수손실함수에 의해 네트워크 손실을 결정할 수 있다. 예를 들어 본 발명된 실시예는 직접적으로 대수손실함수를 이용하여 처리하고, 각 스케일의 제2예측특징도로 얻어진 예측마스크맵과 마킹된 진정한 마스크맵 사이의 손실을 얻고, 당해 손실을 네트워크 손실로 하여 뉴럴 네트워크의 파라미터를 조정할 수 있다. 즉, 각 스케일에 대응하는 손실을 모두 네트워크 손실로 하여 뉴럴 네트워크 파라미터를 개별적으로 최적화할 수 있다.

또는 다른 실시형태에서는 본 발명된 실시예는 대수손실함수에 의해 각 스케일의 제2예측특징도로 얻어진 얼굴의 예측마스크맵, 손의 예측마스크맵과 진정한 라벨정보에 대응하는 마스크맵 사이의 서브네트워크 손실을 얻고, 각 스케일에 대응하여 얻어진 서브네트워크 손실의 가중합에 기초하여 네트워크 손실을 결정할 수 있다. 즉, 뉴럴 네트워크 파라미터를 정리하여 최적화하기 위해 각 스케일에 대응하는 손실의 가중합에 기초하여 네트워크 손실을 결정할 수 있다.

또한 본 발명된 실시예는 각 제2예측특징도의 예측결과에 기초하여 네트워크 손실을 얻을 수 있으므로 얻어진 뉴럴 네트워크는 모든 스케일의 제2예측특징도의 예측결과의 정밀도가 비교적 높고, 뉴럴 네트워크 전체의 검출정밀도를 높일 수 있다.

네트워크 손실을 얻은 경우, 네트워크 손실 및 손실 역치의 비교결과에 기초하여 뉴럴 네트워크의 네트워크파라미터를 조정한다. 예를 들어 네트워크 손실이 손실 역치보다 큰 경우, 얻어진 네트워크 손실이 손실 역치보다 작아질 때까지 뉴럴 네트워크의 파라미터를 피드백하여 조정하고, 예를 들어 특징추출네트워크, 피라미드 특징 네트워크 및 얻어진 마스크맵의 합성곱층의 파레메타를 조정하여 트레이닝이미지를 다시 처리한다. 또한 네트워크 손실이 손실 역치보다 작은 경우, 뉴럴 네트워크가 트레이닝 요구를 만족시킨다고 결정할 수 있고, 이때 트레이닝을 종료할 수 있다. 상기 배치에 의해 뉴럴 네트워크의 최적화의 트레이닝을 실현하고, 네트워크의 검출정밀도를 확보할 수 있다.

이상으로부터 본 발명된 실시예는 제2 이미지로부터 1개의 인체대상이 존재하는 영역에 대응하는 제1 이미지를 결정하고, 제1 이미지에 대하여 특징추출처리를 수행하여 대응하는 특징도를 얻고, 그리고 특징도에 대하여 멀티스케일의 특징융합처리를 수행하여 복수의 스케일의 제2 특징도를 얻을 수 있다. 제2 특징도는 제1 특징도에 비하여 보다 정확한 특징정보를 갖고, 제2 특징도를 처리함으로써 제1 이미지에 있어서의 관련성이 있는 손과 얼굴의 위치를 얻을 수 있고, 얼굴과 손을 검출하는 정밀도를 높일 수 있다. 또한 본 발명된 실시예의 발명은 이미지에 있어서의 관련성이 있는 손과 얼굴의 위치를 귀 또는 팔의 키포인트를 취득하지 않고 직접 얻을 수 있고, 간단하고 용이하고 또한 정밀도가 높다는 특징이 있다.

당업자라면 구체적인 실시형태에 따른 상기한 방법에서는 각 단계의 기재순서는 실행순서를 엄밀하게 한정하여 실시과정을 한정하는 것은 아니며, 각 단계의 실행순서가 그 기능과 가능한 내부의 논리에 의해 결정되는 것을 이해해야 한다.

본 발명에서 언급되는 상기 각 방법의 실시예는 원리와 논리에 위반하지 않는 한 서로 조합하여 실시예를 형성할 수 있음을 이해해야 한다. 지면에 한계가 있으므로 본 발명에서는 상세한 설명을 생략한다.

또한 본 발명에서는 얼굴과 손을 관련지어 검출하는 장치, 전자기기, 컴퓨터 판독 가능 기억 매체, 프로그램이 제공된다. 이들은 모두 본 발명에 따른 얼굴과 손을 관련지어 검출하는 방법의 어느 하나를 실현하기 위해 이용할 수 있다. 대응하는 기술적 해결수단과 설명은 방법의 대응하는 기재를 참조하면 되며 상세한 설명을 생략한다.

도 9는 본 발명된 실시예에 따른 얼굴과 손을 관련지어 검출하는 장치의 블록도를 나타낸다. 도 9에 나타내는 바와 같이 상기 얼굴과 손을 관련지어 검출하는 장치는 인물 오브젝트의 이미지인 제1 이미지를 취득하기 위한 취득모듈(10)과, 상기 제1 이미지에 대하여 특징추출을 수행하여 복수의 스케일의 제1 특징도를 얻기 위한 특징추출모듈(20)과, 상기 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 상기 제1 특징도와 스케일이 일일이 대응하는 복수의 스케일의 제2 특징도를 얻기 위한 융합모듈(30)과, 얻어진 상기 복수의 스케일의 제2 특징도에 기초하여 상기 제1 이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 검출하기 위한 검출모듈(40)을 포함한다.

몇 가지 가능한 실시형태에서는 상기 취득모듈은 하나 이상의 인물 오브젝트를 포함하는 이미지인 상기 제2 이미지를 취득하기 위한 취득유닛과, 상기 제2 이미지에 대하여 대상이 되는 인체의 검출을 수행하여 상기 제2 이미지에 있어서의 상기 하나 이상의 인물 오브젝트 중 어느 인물 오브젝트의 검출프레임을 얻기 위한 대상검출유닛과, 상기 제2 이미지에 있어서 상기 어느 인물 오브젝트의 상기 검출프레임에 대응하는 이미지영역을 상기 어느 인물 오브젝트의 제1 이미지로서 결정하기 위한 결정유닛을 포함한다.

몇 가지 가능한 실시형태에서는 상기 특징추출모듈은 또한 하나 이상의 인물 오브젝트를 포함하는 이미지인 상기 제2 이미지를 취득하는 것과, 상기 제2 이미지에 대하여 대상이 되는 인체의 검출을 수행하여 상기 제2 이미지에 있어서의 상기 하나 이상의 인물 오브젝트 중 어느 인물 오브젝트의 검출프레임을 얻는 것과, 상기 제2 이미지에 있어서 상기 어느 인물 오브젝트의 상기 검출프레임에 대응하는 이미지영역을 상기 어느 인물 오브젝트의 제1 이미지로서 결정하는 것에 이용된다.

몇 가지 가능한 실시형태에서는 상기 융합유닛은 또한 상기 복수의 스케일의 제1 특징도를 특징 피라미드네트워크에 입력하고, 상기 특징 피라미드네트워크에 의해 상기 특징융합처리를 수행하여 상기 복수의 스케일의 제2 특징도를 얻는 것에 이용된다.

몇 가지 가능한 실시형태에서는 스케일이 큰 순서대로 상기 복수의 제1 특징도를 {C₁, …, C_n}으로서 나타내고, 단 n은 제1 특징도의 수를 나타내고, 1보다 큰 정수이다.

상기 융합모듈은 또한 제1합성곱커널을 사용하여 제1 특징도 C_n에 대하여 합성곱처리를 수행하여 상기 제1 특징도 C_n에 대응하는 제2 특징도 F_n을 얻는 것으로서, 상기 제1 특징도 C_n의 스케일과 상기 제2 특징도 F_n의 스케일이 동일한 것과, 상기 제2 특징도 Fn에 대하여 선형보간처리를 수행하여 상기 제2 특징도 F_n에 대응하는 제1중간특징도 F'_n을 취득하는 것으로서, 상기 제1중간특징도 F'_n의 스케일과 제1 특징도 C_n-1의 스케일이 동일한 것과, 제2합성곱커널을 사용하여 상기 제1 특징도 C_n 이외의 제1 특징도 C_i에 대하여 합성곱처리를 수행하여 상기 제1 특징도 C_i에 대응하는 제2중간특징도 C'_i를 얻는 것으로서, 상기 제2중간특징도 C'_i의 스케일과 제1중간특징도 F'_i+1의 스케일이 동일하고, i는 1 이상, n 미만의 정수 변수인 것과, 상기 제2중간특징도 C'_i 및 대응하는 상기 제1중간특징도 F'_i+1을 사용하여 상기 제2 특징도 F_n 이외의 제2 특징도 F_i를 얻는 것으로서, 상기 제1중간특징도 F'_i+1이 대응하는 상기 제2 특징도 F_i+1을 선형보간하여 얻어진 것인 것에 이용된다.

몇 가지 가능한 실시형태에서는 상기 복수의 스케일의 제1 특징도 사이의 스케일의 관계는 L(C_i-1)=2^k1·L(C_i) 또한 W(C_i-1)=2^k1·W(C_i)이고, 단 C_i는 각 제1 특징도를 나타내고, L(C_i)는 상기 제1 특징도 C_i의 길이를 나타내고, W(C_i)는 상기 제1 특징도 C_i의 폭을 나타내고, k₁은 1 이상의 정수이고, i는 변수이고 또한 i의 범위는 [2, n]이고, n은 제1 특징도의 수를 나타낸다.

몇 가지 가능한 실시형태에서는 상기 장치는 상기 제1 이미지에 상기 관련성이 있는 손과 얼굴을 강조표시하기 위한 표시모듈과, 상기 제1 이미지에 있어서 검출된 관련성이 있는 얼굴 위치와 손 위치에 동일한 라벨을 할당하기 위한 할당모듈의 하나 이상을 포함한다.

몇 가지 가능한 실시형태에서는 상기 장치는 상기 특징추출모듈, 상기 융합모듈 및 상기 검출모듈에 적용되는 뉴럴 네트워크를 포함한다.

상기 장치는 상기 뉴럴 네트워크를 트레이닝하기 위한 트레이닝모듈을 추가로 포함하고, 상기 뉴럴 네트워크를 트레이닝하는 단계는 인물 오브젝트를 포함하는 이미지로서 관련성이 있는 얼굴 위치 및 손 위치의 진정한 라벨정보를 갖는 트레이닝이미지를 취득하는 것과, 상기 트레이닝이미지를 상기 뉴럴 네트워크에 입력하고, 상기 뉴럴 네트워크에 의해 상기 트레이닝이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 예측하는 것과, 예측된 관련성이 있는 상기 얼굴 위치와 상기 손 위치 및 상기 라벨정보에 기초하여 네트워크 손실을 결정하고, 상기 네트워크 손실에 기초하여 트레이닝요구를 만족시킬 때까지 상기 뉴럴 네트워크의 네트워크파라미터를 조정하는 것을 포함한다.

몇 가지 실시예에서는 본 발명된 실시예에 따른 장치가 구비하는 기능 또는 모듈은 전술한 방법의 실시예에 설명되는 방법을 실행하기 위해 이용할 수 있고, 그 구체적인 실현에 대하여 전술한 방법의 실시예의 설명을 참조하면 되고, 간소화를 위해 여기서 상세한 설명을 생략한다.

본 발명된 실시예에서는 컴퓨터프로그램 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체로서, 상기 컴퓨터프로그램 명령은 프로세서에 의해 실행되면 상기 방법을 실현시키는 컴퓨터 판독 가능 기억 매체가 더 제안된다. 컴퓨터 판독 가능 기억 매체는 비휘발성의 컴퓨터 판독 가능 기억 매체여도 된다.

본 발명된 실시예에서는 프로세서와, 프로세서에 의해 실행 가능한 명령을 기억하는 메모리를 포함하고, 상기 프로세서는 상기 방법을 실행하도록 구성되는 전자기기가 더 제안된다.

전자기기는 단말기, 서버 또는 다른 형태의 기기로서 제공되어도 된다.

도 10은 본 발명된 실시예에 따른 전자기기의 블록도를 나타낸다. 예를 들어 전자기기(800)는 휴대전화, 컴퓨터, 디지털 방송 단말기, 메시지 송수신기기, 게임콘솔, 태블릿형 기기, 의료기기, 피트니스기기, 퍼스널·디지털·어시스턴트 등의 단말기여도 된다.

도 10을 참조하면 전자기기(800)는 처리컴포넌트(802), 메모리(804), 전원컴포넌트(806), 멀티미디어컴포넌트(808), 오디오컴포넌트(810), 입력/출력(I/O)의 인터페이스(812), 센서컴포넌트(814), 및 통신컴포넌트(816) 중 1개 이상을 포함하여도 된다.

처리컴포넌트(802)는 통상 전자기기(800)의 전체적인 동작, 예를 들어 표시, 전화의 호출, 데이터통신, 카메라동작 및 기록동작에 관련된 동작을 제어한다. 처리컴포넌트(802)는 상기 방법의 모두 또는 일부의 단계를 실행하기 위해 명령을 실행하는 1개 이상의 프로세서(820)를 포함하여도 된다. 또한 처리컴포넌트(802)는 다른 컴포넌트와의 인터랙션을 위한 1개 이상의 모듈을 포함하여도 된다. 예를 들어 처리컴포넌트(802)는 멀티미디어컴포넌트(808)와의 인터랙션을 위해 멀티미디어모듈을 포함하여도 된다.

메모리(804)는 전자기기(800)에서의 동작을 서포트하기 위한 다양한 타입의 데이터를 기억하도록 구성된다. 이들 데이터는 예로서 전자기기(800)에 있어서 조작하는 모든 응용프로그램 또는 방법의 명령, 연락처데이터, 전화번호부데이터, 메시지, 픽처, 비디오 등을 포함한다. 메모리(804)는 예를 들어 정적 랜덤 액세스 메모리(SRAM), 전기적 소거 가능 프로그래머블 판독 전용 메모리(EEPROM), 소거 가능한 프로그래머블 판독 전용 메모리(EPROM), 프로그래머블 판독 전용 메모리(PROM), 판독 전용 메모리(ROM), 자기메모리, 플래시메모리, 자기디스크 또는 광디스크 등의 다양한 타입의 휘발성 또는 비휘발성 기억장치 또는 이들의 조합에 의해 실현할 수 있다.

전원컴포넌트(806)는 전자기기(800)의 각 컴포넌트에 전력을 공급한다. 전원컴포넌트(806)는 전원관리시스템, 1개 이상의 전원 및 전자기기(800)를 위한 전력 생성, 관리 및 배분에 관련된 다른 컴포넌트를 포함하여도 된다.

멀티미디어컴포넌트(808)는 상기 전자기기(800)와 사용자의 사이에서 출력인터페이스를 제공하는 스크린을 포함한다. 몇 가지 실시예에서는 스크린은 액정디스플레이(LCD) 및 터치패널(TP)를 포함하여도 된다. 스크린이 터치패널을 포함하는 경우, 사용자로부터의 입력신호를 수신하는 터치스크린으로서 실현하여도 된다. 터치패널은 터치, 슬라이드 및 터치패널에서의 제스처를 검지하도록 1개 이상의 터치센서를 포함한다. 상기 터치센서는 터치 또는 슬라이드 움직임의 경계를 검지할 뿐만 아니라 상기 터치 또는 슬라이드 조작에 관련된 지속시간 및 압력을 검출하도록 하여도 된다. 몇 가지 실시예에서는 멀티미디어컴포넌트(808)는 전면카메라 및/또는 배면카메라를 포함한다. 전자기기(800)가 동작모드 예를 들어 촬영모드 또는 촬상모드가 되는 경우, 전면카메라 및/또는 배면카메라는 외부의 멀티미디어 데이터를 수신하도록 하여도 된다. 각 전면카메라 및 배면카메라는 고정된 광학렌즈계 또는 촛점거리 및 광학 줌 능력을 갖는 것이어도 된다.

오디오컴포넌트(810)는 오디오신호를 출력 및/또는 입력하도록 구성된다. 예를 들어 오디오컴포넌트(810)는 1개의 마이크(MIC)를 포함하고, 마이크(MIC)는 전자기기(800)가 동작모드 예를 들어 호출모드, 기록모드 및 음성인식모드가 되는 경우, 외부의 오디오신호를 수신하도록 구성된다. 수신된 오디오신호는 다시 메모리(804)에 기억되거나 또는 통신컴포넌트(816)를 통하여 송신되어도 된다. 몇 가지 실시예에서는 오디오컴포넌트(810)는 또한 오디오신호를 출력하기 위한 스피커를 포함한다.

I/O 인터페이스(812)는 처리컴포넌트(802)와 주변인터페이스모듈의 사이에서 인터페이스를 제공하고, 상기 주변인터페이스모듈은 키보드, 클릭휠, 버튼 등이어도 된다. 이들 버튼은 홈버튼, 음량버튼, 스타트버튼 및 로크버튼을 포함하여도 되지만, 이들에 한정되지 않는다.

센서컴포넌트(814)는 전자기기(800)의 각 방면의 상태평가를 위해 1개 이상의 센서를 포함한다. 예를 들어 센서컴포넌트(814)는 전자기기(800)의 온/오프 상태 예를 들어 전자기기(800)의 표시장치 및 키패드와 같은 컴포넌트의 상대적 위치결정을 검출할 수 있고, 센서컴포넌트(814)는 또한 전자기기(800) 또는 전자기기(800)의 어느 컴포넌트의 위치의 변화, 사용자와 전자기기(800)의 접촉의 유무, 전자기기(800)의 방위 또는 가감속 및 전자기기(800)의 온도변화를 검출할 수 있다. 센서컴포넌트(814)는 어떤 물리적 접촉도 없는 경우에 근방의 물체의 존재를 검출하도록 구성되는 근접센서를 포함하여도 된다. 센서컴포넌트(814)는 또한 CMOS 또는 CCD 이미지 센서와 같은 이미징 어플리케이션에 있어서 사용하기 위한 광센서를 포함하여도 된다. 몇 가지 실시예에서는 당해 센서컴포넌트(814)는 또한 가속도센서, 자이로센서, 자기센서, 압력센서 또는 온도센서를 포함하여도 된다.

통신컴포넌트(816)는 전자기기(800)와 다른 기기의 유선 또는 무선통신을 실현하도록 구성된다. 전자기기(800)는 통신규격에 기초한 무선네트워크 예를 들어 WiFi, 2G 또는 3G 또는 이들의 조합에 액세스할 수 있다. 일예시적 실시예에서는 통신컴포넌트(816)는 방송채널을 통하여 외부의 방송관리시스템으로부터의 방송신호 또는 방송관련정보를 수신한다. 일예시적 실시예에서는 상기 통신컴포넌트(816)는 또한 근거리통신을 촉진시키기 위해 근거리무선통신(NFC) 모듈을 포함한다. 예를 들어 NFC 모듈은 무선주파수식별(RFID)기술, 적외선데이터협회(IrDA)기술, 초광대역(UWB)기술, 블루투스(BT)기술 및 다른 기술에 의해 실현할 수 있다.

예시적인 실시예에서는 전자기기(800)는 1개 이상의 주문형 집적회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 시그널 프로세서(DSPD), 프로그래머블 로직 디바이스(PLD), 필드 프로그래머블 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자요소에 의해 실현되고, 상기 방법을 실행하기 위해 이용될 수 있다.

예시적인 실시예에서는 또한 비휘발성 컴퓨터 판독 가능 기억매체 예를 들어 컴퓨터프로그램 명령을 포함하는 메모리(804)가 제공되고, 상기 컴퓨터프로그램 명령은 전자기기(800)의 프로세서(820)에 의해 실행되면 상기 방법을 실행시킬 수 있다.

도 11은 예시적인 일실시예의 전자기기(1900)의 블록도를 나타낸다. 예를 들어 전자기기(1900)는 서버로서 제공되어도 된다. 도 11을 참조하면 전자기기(1900)는 1개 이상의 프로세서를 포함하는 처리컴포넌트(1922) 및 처리컴포넌트(1922)에 의해 실행 가능한 명령 예를 들어 응용프로그램을 기억하기 위한 메모리(1932)를 대표로 하는 메모리 자원을 포함한다. 메모리(1932)에 기억되어 있는 응용프로그램은 각각이 1개의 명령군에 대응하는 1개 이상의 모듈을 포함하여도 된다. 또한 처리컴포넌트(1922)는 명령을 실행함으로써 상기 방법을 실행하도록 구성된다.

전자기기(1900)는 또한 전자기기(1900)의 전원관리를 실행하도록 구성되는 전원컴포넌트(1926), 전자기기(1900)를 네트워크에 접속하도록 구성되는 유선 또는 무선 네트워크 인터페이스(1950) 및 입출력(I/O) 인터페이스(1958)를 포함하여도 된다. 전자기기(1900)는 메모리(1932)에 기억되어 있는 오퍼레이팅 시스템 예를 들어 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것에 기초하여 동작할 수 있다.

예시적인 실시예에서는 또한 비휘발성 컴퓨터 판독 가능 기억 매체 예를 들어 컴퓨터프로그램 명령을 포함하는 메모리(1932)가 제공되고, 상기 컴퓨터프로그램 명령은 전자기기(1900)의 처리컴포넌트(1922)에 의해 실행되면 상기 방법을 실행시킬 수 있다.

본 발명은 시스템, 방법 및/또는 컴퓨터프로그램 제품이어도 된다. 컴퓨터프로그램 제품은 프로세서에 본 발명된 각 방면을 실현시키기 위한 컴퓨터 가독 프로그램 명령이 갖고 있는 컴퓨터 판독 가능 기억 매체를 포함하여도 된다.

컴퓨터 판독 가능 기억 매체는 명령실행기기에 사용되는 명령을 보존 및 기억 가능한 유형장치여도 된다. 컴퓨터 판독 가능 기억 매체는 예를 들어 전기기억장치, 자기기억장치, 광기억장치, 전자기억장치, 반도체기억장치 또는 상기 임의의 적당한 조합이어도 되지만, 이들에 한정되지 않는다. 컴퓨터 판독 가능 기억 매체의 더 구체적인 예(비망라적 리스트)로서는 휴대형 컴퓨터디스크, 하드디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대형 콤팩트디스크 판독 전용 메모리(CD-ROM), 디지털 다용도 디스크(DVD), 메모리스틱, 플로피디스크 예를 들어 명령이 기억되어 있는 천공카드 또는 슬롯내 돌기구조와 같은 기계적 부호화장치 및 상기 임의의 적당한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능 기억 매체는 순간신호 자체 예를 들어 무선전파 또는 다른 자유롭게 전파되는 전자파, 도파로 또는 다른 전송매체를 경유하여 전파되는 전자파(예를 들어 광 파이버 케이블을 통과하는 펄스광) 또는 전선을 경유하여 전송되는 전기신호로 해석되는 것은 아니다.

여기서 기술한 컴퓨터 가독 프로그램 명령은 컴퓨터 판독 가능 기억 매체로부터 각 계산/처리기기에 다운로드되어도 되고 또는 네트워크 예를 들어 인터넷, 근거리통신망, 광역네트워크 및/또는 무선네트워크를 통하여 외부의 컴퓨터 또는 외부기억장치에 다운로드되어도 된다. 네트워크는 구리전송케이블, 광섬유전송, 무선전송, 라우터, 파이어월, 교환기, 게이트웨이 컴퓨터 및/또는 에지서버를 포함하여도 된다. 각 계산/처리기기내의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 가독 프로그램 명령을 수신하고, 당해 컴퓨터 가독 프로그램 명령을 전송하여 각 계산/처리기기내의 컴퓨터 판독 가능 기억 매체에 기억시킨다.

본 발명된 동작을 실행하기 위한 컴퓨터프로그램 명령은 어셈블리 명령, 명령 세트 아키텍처(ISA) 명령, 기계어 명령, 기계 의존 명령, 마이크로코드, 펌웨어 명령, 상태 설정 데이터 또는 Smalltalk, C++ 등의 객체 지향 프로그램 언어 및 “C”언어 또는 유사한 프로그램 언어 등의 일반적인 수속형 프로그램 언어를 포함시키는 1개 이상의 프로그램 언어의 임의의 조합으로 쓰여진 소스코드 또는 목표코드여도 된다. 컴퓨터 가독 프로그램 명령은 완전히 사용자의 컴퓨터에 있어서 실행되어도 되고, 부분적으로 사용자의 컴퓨터에 있어서 실행되어도 되고, 스탠드 얼론 소프트웨어 패키지로서 실행되어도 되고, 부분적으로 사용자의 컴퓨터에 있어서 또한 부분적으로 리모트 컴퓨터에 있어서 실행되어도 되고, 또는 완전히 리모트 컴퓨터 혹은 서버에 있어서 실행되어도 된다. 리모트 컴퓨터에 관여하는 경우, 리모트 컴퓨터는 근거리통신망(LAN) 또는 광역네트워크(WAN)를 포함하는 임의의 종류의 네트워크를 경유하여 사용자의 컴퓨터에 접속되어도 되고, 또는 (예를 들어 인터넷 서비스 프로바이더를 이용하여 인터넷을 경유하여) 외부 컴퓨터에 접속되어도 된다. 몇 가지 실시예에서는 컴퓨터 가독 프로그램 명령의 상태정보를 이용하여 예를 들어 프로그래머블 논리회로, 필드 프로그래머블 게이트 어레이(FPGA) 또는 프로그래머블 논리 어레이(PLA) 등의 전자회로를 퍼스널라이즈하고, 당해 전자회로에 의해 컴퓨터 가독 프로그램 명령을 실행함으로써 본 발명된 각 방면을 실현하도록 하여도 된다.

여기서 본 발명된 실시예에 따른 방법, 장치(시스템) 및 컴퓨터프로그램 제품의 플로차트 및/또는 블록도를 참조하면서 본 발명된 각 양태를 설명하였으나, 플로차트 및/또는 블록도의 각 블록 및 플로차트 및/또는 블록도의 각 블록의 조합은 모두 컴퓨터 가독 프로그램 명령에 의해 실현할 수 있음을 이해하여야 한다.

이들 컴퓨터 가독 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그래머블 데이터 처리장치의 프로세서에 제공되고, 이들 명령이 컴퓨터 또는 다른 프로그래머블 데이터 처리장치의 프로세서에 의해 실행되면 플로차트 및/또는 블록도의 1개 이상의 블록에 있어서 지정된 기능/동작을 실현하도록 장치를 제조하여도 된다. 이들 컴퓨터 가독 프로그램 명령은 컴퓨터 판독 가능 기억 매체에 기억되고, 컴퓨터, 프로그래머블 데이터 처리장치 및/또는 다른 기기를 특정의 방식으로 동작시키도록 하여도 된다. 이에 의해 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체는 플로차트 및/또는 블록도의 1개 이상의 블록에 있어서 지정된 기능/동작의 각 방면을 실현하는 명령을 갖는 제품을 포함한다.

컴퓨터 가독 프로그램 명령은 컴퓨터, 다른 프로그래머블 데이터 처리장치 또는 다른 기기에 로드되고, 컴퓨터, 다른 프로그래머블 데이터 처리장치 또는 다른 기기에 일련의 동작단계을 실행시킴으로써 컴퓨터에 의해 실시되는 프로세스를 생성하도록 하여도 된다. 이와 같이 하여 컴퓨터, 다른 프로그래머블 데이터 처리장치 또는 다른 기기에 있어서 실행되는 명령에 의해 플로차트 및/또는 블록도의 1개 이상의 블록에 있어서 지정된 기능/동작을 실현한다.

도면 중 플로차트 및 블록도는 본 발명된 복수의 실시예에 따른 시스템, 방법 및 컴퓨터프로그램 제품의 실현 가능한 시스템 아키텍처, 기능 및 동작을 나타낸다. 이 점에서는 플로차트 또는 블록도에 있어서의 각 블록은 1개의 모듈, 프로그램 세그먼트 또는 명령의 일부분을 대표할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령의 일부분은 지정된 논리기능을 실현하기 위한 1개 이상의 실행 가능 명령을 포함한다. 몇 가지 대체로서의 실현형태에서는 블록에 표기되는 기능은 도면에 붙인 순서와 달리 실현되어도 된다. 예를 들어 연속적인 2개의 블록은 실질적으로 병렬로 실행하여도 되고, 또한 관련된 기능에 의해 반대 순서로 실행하여도 된다. 또한 블록도 및/또는 플로차트에 있어서의 각 블록 및 블록도 및/또는 플로차트에 있어서의 블록의 조합은 지정되는 기능 또는 동작을 실행하는 하드웨어에 기초한 전용 시스템에 의해 실현하여도 되고 또는 전용 하드웨어와 컴퓨터 명령의 조합에 의해 실현하여도 되는 점에도 주의하여야 한다.

이상, 본 발명된 각 실시예를 기술하였으나 상기 설명은 예시적인 것에 불과하고, 망라적인 것이 아니며 또한 나타난 각 실시예에 한정되는 것도 아니다. 당업자에게 있어서 설명된 각 실시예의 범위 및 정신으로부터 일탈하지 않고 다양한 수정 및 변경이 자명하다. 본 명세서에 선택된 용어는 각 실시예의 원리, 실제의 적용 또는 기존 기술에 대한 개선을 적합하게 해석하거나 또는 다른 당업자에게 본문에 나타난 각 실시예를 이해시키기 위한 것이다.

Claims

얼굴과 손을 관련지어 검출하는 방법으로서,
인물 오브젝트의 이미지인 제1 이미지를 취득하는 것과,
상기 제1 이미지에 대하여 특징추출을 수행하여 복수의 스케일의 제1 특징도를 얻는 것과,
상기 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 상기 제1 특징도와 스케일이 일일이 대응하는 복수의 스케일의 제2 특징도를 취득하는 것과,
얻어진 상기 복수의 스케일의 제2 특징도에 기초하여 상기 제1 이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 검출하는 것을 포함하는, 방법.
제 1 항에 있어서,
제1 이미지를 취득하는 것은
하나 이상의 인물 오브젝트를 포함하는 이미지인 상기 제2 이미지를 취득하는 것과,
상기 제2 이미지에 대하여 대상이 되는 인체의 검출을 수행하여 상기 제2 이미지에 있어서의 상기 하나 이상의 인물 오브젝트 중 어느 인물 오브젝트의 검출프레임을 얻는 것과,
상기 제2 이미지에 있어서 상기 어느 인물 오브젝트의 상기 검출프레임에 대응하는 이미지영역을 상기 어느 인물 오브젝트의 제1 이미지로서 결정하는 것을 포함하는, 방법.
제 1 항 또는 제 2 항에 있어서,
상기 제1 이미지에 대하여 특징추출을 수행하여 복수의 스케일의 제1 특징도를 얻는 것은
상기 제1 이미지를 미리 설정된 스케일의 제3 이미지로 조정하는 것과,
상기 제3 이미지를 잔차네트워크에 입력하여 상기 복수의 스케일의 제1 특징도를 얻는 것을 포함하는, 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 복수의 스케일의 제2 특징도를 얻는 것은
상기 복수의 스케일의 제1 특징도를 특징 피라미드네트워크에 입력하고, 상기 특징 피라미드네트워크에 의해 상기 특징융합처리를 수행하여 상기 복수의 스케일의 제2 특징도를 얻는 것을 포함하는, 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
스케일이 큰 순서대로 상기 복수의 제1 특징도를 {C₁,…,C_n}으로서 나타내고, 단 n은 제1 특징도의 수를 나타내고, 1보다 큰 정수이고,
상기 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 복수의 스케일의 제2 특징도를 얻는 것은
제1합성곱커널을 사용하여 제1 특징도 C_n에 대하여 합성곱처리를 수행하여 상기 제1 특징도 C_n에 대응하는 제2 특징도 F_n을 얻는 것으로서, 상기 제1 특징도 C_n의 스케일과 상기 제2 특징도 F_n의 스케일이 동일한 것과,
상기 제2 특징도 F_n에 대하여 선형보간처리를 수행하여 상기 제2 특징도 F_n에 대응하는 제1중간특징도 F'_n을 취득하는 것으로서, 상기 제1중간특징도 F'_n의 스케일과 제1 특징도 C_n-1의 스케일이 동일한 것과,
제2합성곱커널을 사용하여 상기 제1 특징도 C_n 이외의 제1 특징도 C_i에 대하여 합성곱처리를 수행하여 상기 제1 특징도 C_i에 대응하는 제2중간특징도 C'_i를 얻는 것으로서, 상기 제2중간특징도 C'_i의 스케일과 제1중간특징도 F'_i+1의 스케일이 동일하고, i는 1 이상, n 미만의 정수 변수인 것과,
상기 제2중간특징도 C'_i 및 대응하는 상기 제1중간특징도 F'_i+1을 사용하여 상기 제2 특징도 F_n 이외의 제2 특징도 F_i를 얻는 것으로서, 상기 제1중간특징도 F'_i+1이 대응하는 상기 제2 특징도 F_i+1을 선형보간하여 얻어진 것인 것을 포함하는, 방법.
제 5 항에 있어서,
상기 제2중간특징도 C'_i 및 대응하는 상기 제1중간특징도 F'_i+1을 사용하여 상기 제2 특징도 F_n 이외의 제2 특징도 F_i를 얻는 것은
상기 제2중간특징도 C'_i와 대응하는 상기 제1중간특징도 F'_i+1을 가산처리하여 상기 제2 특징도 F_i를 얻는 것을 포함하는, 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
얻어진 상기 복수의 스케일의 제2 특징도에 기초하여 상기 제1 이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 검출하는 것은
상기 복수의 스케일의 제2 특징도 중 스케일이 최대인 제2 특징도에 대하여 합성곱처리를 수행하여 상기 얼굴 위치를 나타내는 마스크맵 및 상기 손 위치를 나타내는 마스크맵을 각각 얻는 것과,
상기 얼굴 위치의 마스크맵 및 상기 손 위치의 마스크맵에 기초하여 상기 제1 이미지에 있어서 관련성이 있는 손과 얼굴이 위치하는 위치영역을 결정하는 것을 포함하는, 방법.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
상기 제1 이미지에 상기 관련성이 있는 손과 얼굴을 강조표시하는 것과,
상기 제1 이미지에 있어서 검출된 관련성이 있는 얼굴 위치와 손 위치에 동일한 라벨을 할당하는 것 중 하나 이상을 포함하는, 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
뉴럴 네트워크에 의해 실현되는 방법으로서, 상기 뉴럴 네트워크를 트레이닝하는 단계는
인물 오브젝트를 포함하는 이미지로서, 관련성이 있는 얼굴 위치 및 손 위치의 진정한 라벨정보를 갖는 트레이닝이미지를 취득하는 것과,
상기 트레이닝이미지를 상기 뉴럴 네트워크에 입력하고, 상기 뉴럴 네트워크에 의해 상기 트레이닝이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 예측하는 것과,
예측된 관련성이 있는 상기 얼굴 위치와 상기 손 위치 및 상기 라벨정보에 기초하여 네트워크 손실을 결정하고, 상기 네트워크 손실에 기초하여 트레이닝요구를 만족시킬 때까지 상기 뉴럴 네트워크의 네트워크파라미터를 조정하는 것을 포함하는, 방법.
얼굴과 손을 관련지어 검출하는 장치로서,
인물 오브젝트의 이미지인 제1 이미지를 취득하기 위한 취득모듈과,
상기 제1 이미지에 대하여 특징추출을 수행하여 복수의 스케일의 제1 특징도를 얻기 위한 특징추출모듈과,
상기 복수의 스케일의 제1 특징도에 대하여 특징융합처리를 수행하여 상기 제1 특징도와 스케일이 일일이 대응하는 복수의 스케일의 제2 특징도를 얻기 위한 융합모듈과,
얻어진 상기 복수의 스케일의 제2 특징도에 기초하여 상기 제1 이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 검출하기 위한 검출모듈을 포함하는, 장치.
제 10 항에 있어서,
상기 취득모듈은
하나 이상의 인물 오브젝트를 포함하는 이미지인 제2 이미지를 취득하기 위한 취득유닛과,
상기 제2 이미지에 대하여 대상이 되는 인체의 검출을 수행하여 상기 제2 이미지에 있어서의 상기 하나 이상의 인물 오브젝트 중 어느 인물 오브젝트의 검출프레임을 얻기 위한 대상검출유닛과,
상기 제2 이미지에 있어서 상기 어느 인물 오브젝트의 상기 검출프레임에 대응하는 이미지영역을 상기 어느 인물 오브젝트의 제1 이미지로서 결정하기 위한 결정유닛을 포함하는, 장치.
제 10 항 또는 제 11 항에 있어서,
상기 특징추출모듈은 추가로
상기 제1 이미지를 미리 설정된 스케일의 제3 이미지로 조정하는 것과,
상기 제3 이미지를 잔차네트워크에 입력하여 상기 복수의 스케일의 제1 특징도를 얻는 것에 사용되는, 장치.
제 10 항 내지 제 12 항 중 어느 한 항에 있어서,
상기 융합모듈은 추가로 상기 복수의 스케일의 제1 특징도를 특징 피라미드네트워크에 입력하고, 상기 특징 피라미드네트워크에 의해 상기 특징융합처리를 수행하여 상기 복수의 스케일의 제2 특징도를 얻는 것에 사용되는, 장치.
제 10 항 내지 제 13 항 중 어느 한 항에 있어서,
스케일이 큰 순서대로 상기 복수의 제1 특징도를 {C₁,…,C_n}으로서 나타내고, 단 n은 제1 특징도의 수를 나타내고, 1보다 큰 정수이고,
상기 융합모듈은 추가로
제1합성곱커널을 사용하여 제1 특징도 C_n에 대하여 합성곱처리를 수행하여 상기 제1 특징도 C_n에 대응하는 제2 특징도 F_n을 얻는 것으로서, 상기 제1 특징도 C_n의 스케일과 상기 제2 특징도 F_n의 스케일이 동일한 것과,
상기 제2 특징도 F_n에 대하여 선형보간처리를 수행하여 상기 제2 특징도 F_n에 대응하는 제1중간특징도 F'_n을 취득하는 것으로서, 상기 제1중간특징도 F'_n의 스케일과 제1 특징도 C_n-1의 스케일이 동일한 것과,
제2합성곱커널을 사용하여 상기 제1 특징도 C_n 이외의 제1 특징도 C_i에 대하여 합성곱처리를 수행하여 상기 제1 특징도 C_i에 대응하는 제2중간특징도 C'_i를 얻는 것으로서, 상기 제2중간특징도 C'_i의 스케일과 제1중간특징도 F'_i+1의 스케일이 동일하고, i는 1 이상, n 미만의 정수 변수인 것과,
상기 제2중간특징도 C'_i 및 대응하는 상기 제1중간특징도 F'_i+1을 사용하여 상기 제2 특징도 F_n 이외의 제2 특징도 F_i를 얻는 것으로서, 상기 제1중간특징도 F'_i+1이 대응하는 상기 제2 특징도 F_i+1을 선형보간하여 얻어진 것인 것에 사용되는, 장치.
제 14 항에 있어서,
상기 융합모듈은 추가로 상기 제2중간특징도 C'_i와 대응하는 상기 제1중간특징도 F'_i+1을 가산처리하여 상기 제2 특징도 F_i를 얻는 것에 사용되는, 장치.
제 10 항 내지 제 15 항 중 어느 한 항에 있어서,
상기 검출모듈은 추가로
상기 복수의 스케일의 제2 특징도 중 스케일이 최대인 제2 특징도에 대하여 합성곱처리를 수행하여 상기 얼굴 위치를 나타내는 마스크맵 및 상기 손 위치를 나타내는 마스크맵을 각각 얻는 것과,
상기 얼굴 위치의 마스크맵 및 상기 손 위치의 마스크맵에 기초하여 상기 제1 이미지에 있어서 관련성이 있는 손과 얼굴이 위치하는 위치영역을 결정하는 것에 사용되는, 장치.
제 10 항 내지 제 16 항 중 어느 한 항에 있어서,
상기 제1 이미지에 상기 관련성이 있는 손과 얼굴을 강조표시하기 위한 표시모듈과,
상기 제1 이미지에 있어서 검출된 관련성이 있는 얼굴 위치와 손 위치에 동일한 라벨을 할당하기 위한 할당모듈 중 하나 이상을 포함하는, 장치.
제 10 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 특징추출모듈, 상기 융합모듈 및 상기 검출모듈에 적용되는 뉴럴 네트워크를 포함하고,
상기 뉴럴 네트워크를 트레이닝하기 위한 트레이닝모듈을 추가로 포함하고,
상기 뉴럴 네트워크를 트레이닝하는 단계는
인물 오브젝트를 포함하는 이미지로서, 관련성이 있는 얼굴 위치 및 손 위치의 진정한 라벨정보를 갖는 트레이닝이미지를 취득하는 것과,
상기 트레이닝이미지를 상기 뉴럴 네트워크에 입력하고, 상기 뉴럴 네트워크에 의해 상기 트레이닝이미지에 있어서의 동일한 인물 오브젝트에 대한 관련성이 있는 얼굴 위치와 손 위치를 예측하는 것과,
예측된 관련성이 있는 상기 얼굴 위치와 상기 손 위치 및 상기 라벨정보에 기초하여 네트워크 손실을 결정하고, 상기 네트워크 손실에 기초하여 트레이닝요구를 만족시킬 때까지 상기 뉴럴 네트워크의 네트워크파라미터를 조정하는 것을 포함하는, 장치.
프로세서와,
프로세서에 의해 실행 가능한 명령을 기억하기 위한 메모리를 포함하고,
상기 프로세서는 제 1 항 내지 제 9 항 중 어느 한 항의 방법을 실행하기 위해 상기 메모리에 기억된 명령을 불러내도록 구성되는, 전자기기.
컴퓨터프로그램 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체로서, 상기 컴퓨터프로그램 명령은 프로세서에 의해 실행되면 제 1 항 내지 제 9 항 중 어느 한 항의 방법을 실현시키는, 컴퓨터 판독 가능 기억 매체.
컴퓨터로 판독 가능한 코드를 포함하는 컴퓨터프로그램으로서, 상기 컴퓨터로 판독 가능한 코드가 전자기기에 있어서 실행되면 상기 전자기기의 프로세서에 제 1 항 내지 제 9 항 중 어느 한 항의 방법을 실현하기 위한 명령을 실행시키는, 컴퓨터프로그램.