KR20190093726A

KR20190093726A - 영상으로부터 손을 검출하는 장치, 방법 및 컴퓨터 프로그램

Info

Publication number: KR20190093726A
Application number: KR1020180002703A
Authority: KR
Inventors: 박진욱; 전은솜; 권재철
Original assignee: 주식회사 케이티
Priority date: 2018-01-09
Filing date: 2018-01-09
Publication date: 2019-08-12

Abstract

영상으로부터 손을 검출하는 장치는 영상을 입력받는 입력부, 상기 영상을 구성하는 어느 하나의 프레임에 복수의 경계 박스를 설정하는 설정부, 상기 프레임으로부터 상기 복수의 경계 박스에 해당하는 복수의 이미지를 추출하는 추출부, 기트레이닝된 손의 모양에 기초하여 상기 추출된 복수의 이미지 각각에 포함된 객체가 손일 확률을 도출하는 확률 도출부, 기트레이닝된 손의 위치 추정 정보에 기초하여 상기 추출된 복수의 이미지 각각을 분석하여 손의 위치 정보를 추정하는 위치 추정부 및 상기 도출된 손일 확률 및 상기 추정된 손의 위치 정보에 기초하여 상기 프레임에서 손이 존재하는지 여부를 도출하는 도출부를 포함한다.

Description

영상으로부터 손을 검출하는 장치, 방법 및 컴퓨터 프로그램{APPARATUS, METHOD AND COMPUTER PROGRAM FOR DETECTING HAND FROM VIDEO}

본 발명은 영상으로부터 손을 검출하는 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.

사람과 상호작용할 수 있는 기기, 예를 들어, 컴퓨터, 스마트폰 등이 널리 보급됨에 따라 사람과 기기 간의 자연스러운 상호작용 인터페이스(NUI, Natural User Interface) 기술에 대한 연구가 활발하게 진행되고 있다. NUI 기술 중 하나로서 손을 이용하는 인터페이스는 자연스럽고 직관적인 상호작용이 가능하다는 장점을 가지고 있으며, HCI(Human-Computer Interaction), HRI(Human-Robot Interaction), HMI(Human-Machine Interaction) 분야 등에서 이용되고 있다.

이러한 손을 이용하는 인터페이스와 관련하여, 선행기술인 한국등록특허 제 10-0282618호는 회전특성을 이용한 손모양 인식 장치 및 그 방법을 개시하고 있다.

종래에는 입력 영상에서 사람의 손에 대한 특징 정보를 추출하여 손모양을 인식하기 위해 손의 경계선이나 특징점 혹은 색상 등의 정보를 활용한 손의 특징 정보를 이용한 기술이 이용되었다.

그러나 손의 특징 정보를 이용하는 기술은 손의 특성상 움직임이 다양하고, 다양한 형태의 손을 인식하는 특징 정보를 규정짓기 어렵고, 손을 인식하는 특징 정보가 정확성에 한계가 있다는 단점을 가지고 있다.

입력 영상으로부터 사용자의 손을 인식하고, 손의 위치를 추정하는 영상으로부터 손을 검출하는 장치, 방법 및 프로그램을 제공하고자 한다. 딥러닝 알고리즘을 이용하여 사용자의 손의 특징 정보와 영상 내 위치 정보를 추정함으로써, 조명 변화, 손 흔들림, 손 모양 변화, 손 크기 변화 등의 상황에서도 손 모양을 강건하게 인식하고, 손의 위치 정보를 정교하게 추정하는 영상으로부터 손을 검출하는 장치, 방법 및 프로그램을 제공하고자 한다. 연속적인 영상에서 손의 위치 정보를 이용하여 손의 궤적을 추정하는 시스템에 이용할 수 있도록 하는 영상으로부터 손을 검출하는 장치, 방법 및 프로그램을 제공하고자 한다. 손으로 표현할 수 있는 정보를 바탕으로 디스플레이, 음향기기, 디지털 사이니지, IoT 기기 등을 제어할 수 있도록 하는 영상으로부터 손을 검출하는 장치, 방법 및 프로그램을 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 영상을 입력받는 입력부, 상기 영상을 구성하는 어느 하나의 프레임에 복수의 경계 박스를 설정하는 설정부, 상기 프레임으로부터 상기 복수의 경계 박스에 해당하는 복수의 이미지를 추출하는 추출부, 기트레이닝된 손의 모양에 기초하여 상기 추출된 복수의 이미지 각각에 포함된 객체가 손일 확률을 도출하는 확률 도출부, 기트레이닝된 손의 위치 추정 정보에 기초하여 상기 추출된 복수의 이미지 각각을 분석하여 손의 위치 정보를 추정하는 위치 추정부 및 상기 도출된 손일 확률 및 상기 추정된 손의 위치 정보에 기초하여 상기 프레임에서 손이 존재하는지 여부를 도출하는 도출부를 포함하는 손 검출 장치를 제공할 수 있다.

본 발명의 다른 실시예는, 영상을 입력받는 단계, 상기 영상을 구성하는 어느 하나의 프레임에 복수의 경계 박스를 설정하는 단계, 상기 프레임으로부터 상기 복수의 경계 박스에 해당하는 복수의 이미지를 추출하는 단계, 기트레이닝된 손의 모양에 기초하여 상기 추출된 복수의 이미지 각각에 포함된 객체가 손일 확률을 도출하는 단계, 기트레이닝된 손의 위치 추정 정보에 기초하여 상기 추출된 복수의 이미지 각각을 분석하여 손의 위치 정보를 추정하는 단계 및 상기 도출된 손일 확률 및 상기 추정된 손의 위치 정보에 기초하여 상기 프레임에서 손이 존재하는지 여부를 도출하는 단계를 포함하는 손 검출 방법을 제공할 수 있다.

본 발명의 또 다른 실시예는, 컴퓨팅 장치에 의해 실행될 경우, 영상을 입력받고, 상기 영상을 구성하는 어느 하나의 프레임에 복수의 경계 박스를 설정하고, 상기 프레임으로부터 상기 복수의 경계 박스에 해당하는 복수의 이미지를 추출하고, 기트레이닝된 손의 모양에 기초하여 상기 추출된 복수의 이미지 각각에 포함된 객체가 손일 확률을 도출하고, 기트레이닝된 손의 위치 추정 정보에 기초하여 상기 추출된 복수의 이미지 각각을 분석하여 손의 위치 정보를 추정하고, 상기 도출된 손일 확률 및 상기 추정된 손의 위치 정보에 기초하여 상기 프레임에서 손이 존재하는지 여부를 도출하도록 하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램을 제공할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 입력 영상으로부터 사용자의 손을 인식하고, 손의 위치를 추정하는 영상으로부터 손을 검출하는 장치, 방법 및 프로그램을 제공할 수 있다. 딥러닝 알고리즘을 이용하여 사용자의 손의 특징 정보와 영상 내 위치 정보를 추정함으로써, 조명 변화, 손 흔들림, 손 모양 변화, 손 크기 변화 등의 상황에서도 손 모양을 강건하게 인식하고, 손의 위치 정보를 정교하게 추정하는 영상으로부터 손을 검출하는 장치, 방법 및 프로그램을 제공할 수 있다. 연속적인 영상에서 손의 위치 정보를 이용하여 손의 궤적을 추정하는 시스템에 이용할 수 있도록 하는 영상으로부터 손을 검출하는 장치, 방법 및 프로그램을 제공할 수 있다. 손으로 표현할 수 있는 정보를 바탕으로 디스플레이, 음향기기, 디지털 사이니지, IoT 기기 등을 제어할 수 있도록 하는 영상으로부터 손을 검출하는 장치, 방법 및 프로그램을 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 손 검출 장치의 구성도이다.
도 2a 내지 도 2d는 본 발명의 일 실시예에 따른 영상으로부터 손을 검출하는 과정을 설명하기 위한 예시적인 도면이다.
도 3은 본 발명의 일 실시예에 따른 손 검출 장치에서 영상으로부터 손을 검출하는 방법의 순서도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 손 검출 장치의 구성도이다. 도 1을 참조하면, 손 검출 장치(100)는 트레이닝부(110), 입력부(120), 설정부(130), 추출부(140), 확률 도출부(150), 위치 추정부(160), 관심 영역 설정부(170) 및 도출부(180)를 포함할 수 있다.

트레이닝부(110)는 학습 데이터를 이용하여 손의 모양을 트레이닝할 수 있다. 여기서, 학습 데이터는 손을 포함하는 영상 및 손을 포함하지 않는 영상을 포함하고, 손을 포함하는 영상은 손의 전체(예를 들어, 손을 펼친 형태)를 포함하는 영상 및 손의 일부분(예를 들어, 주먹을 쥔 형태)을 포함하는 영상을 포함할 수 있다. 트레이닝부(110)는 정답 이미지뿐만 아니라, 부분 정답 이미지를 데이터베이스에 포함시켜, 손의 모양을 트레이닝시키는데 이용할 수 있다.

이 때, 학습 데이터로 이용되는 손을 포함하는 영상은 손을 정확하게 감싸는 경계 박스에 해당되는 손 영상과 손을 정확하게 감싸며 경계 박스에 일부 겹쳐지는 손 영상이 이용될 수 있다.

트레이닝부(110)는 손 검출용 분류기로서, 예를 들어, 딥러닝을 위한 신경망의 일종인 CNN(Convolutional Neural Network)을 이용하여 학습할 수 있다. 트레이닝부(110)는 손 검출용 분류기를 통해 손을 인식하는 결과값을 도출하는 레이어를 학습시키고, 최종적으로 영상에 대해 손일 확률과 손이 아닐 확률값을 도출할 수 있다.

트레이닝부(110)는 학습 데이터를 이용하여 손의 위치 추정 정보를 트레이닝할 수 있다. 여기서, 손의 위치 추정 정보는 손의 모양을 트레이닝시키기 위해 사용한 CNN의 특징 정보와 동일하게 이용될 수 있으며, 손의 전체를 포함하는 정답 이미지와 입력 영상에 해당하는 학습 데이터 간의 상대적인 거리를 나타내는 좌표값일 수 있다.

트레이닝부(110)는 학습 데이터를 이용하여 손의 전체(정확한 손의 위치와 크기를 포함)에 해당하는 정답 이미지와 일정 이상 겹쳐지는 부분 정답 이미지를 수집할 수 있다. 예를 들어, 영상 내에 손이 하나만 존재하는 경우, 정답 이미지는 1개이지만, 부분 정답 이미지는 다수 존재할 수 있다. 따라서, 트레이닝부(110)는 부분 정답 이미지와 정답 이미지 간의 비교를 통해 크기가 더 작은지, 위치가 상하좌우로 밀려있는지를 판단할 수 있다. 즉, 트레이닝부(110)는 손에 대한 정답 이미지뿐만 아니라, 부분 정답 이미지를 데이터베이스에 포함하여 손을 검출하는데 이용할 수 있다.

손의 위치 추정 정보는 완벽한 정답 이미지와 손 검출용 분류기에 입력되는 이미지 사이에 발생하는 거리와 방향을 학습하는 과정을 통해 진행될 수 있다. 트레이닝부(110)는 거리 오차를 회귀분석(Regression Analysis)을 통해 수렴해야 하는 정답값(Ground Truth)으로 정의할 수 있다.

예를 들어, 손 검출용 분류기에 입력된 이미지가 손일 경우, 트레이닝부(110)는 완벽한 정답 이미지 기준 거리 오차를 정답으로 하여 학습 과정에서 오차에 근접하는 추정값을 도출할 수 있도록 학습할 수 있다. 여기서, 거리 오차는 손 학습에 입력되는 입력 이미지(완벽한 정답 이미지 또는 부분 정답 이미지)의 경계박스 좌상단과 우하단 총 2개의 점의 위치와 완벽한 정답 이미지의 좌상단 및 우하단 점 각각과의 위치 사이의 x 및 y축 픽셀 거리를 입력 이미지의 가로 및 세로 길이로 각각 나눈 상대 거리로 정의될 수 있으며, 좌상단 점과 우하단 점의 x, y축 상대 거리를 각각 의미하는 총 4개의 소수값으로 정의될 수 있다.

입력 이미지의 두 점과 완벽한 정답 이미지의 두 점 간의 거리 오차는 입력 이미지의 점이 완벽한 정답 이미지의 점보다 좌측 또는 상단에 위치할 경우 음수로, 우측 또는 하단에 존재할 경우 양수로 표현될 수 있다.

거리값은 상대적인 소수값으로, 상대적임의 기준은 완벽한 정답 이미지의 가로, 세로 길이를 기준으로 계산될 수 있다. 예를 들어, 완벽한 정답 이미지의 가로 길이가 100, 세로 길이가 200이고, 완벽한 정답 이미지의 좌상단 점이 (50, 50)이고, 우하단 점이 (150, 250)일 경우, 입력 이미지의 좌상단 점이 (40, 60)이고, 우하단 점이 (160, 160)이라면, 완벽한 정답 이미지의 좌상단 및 우하단 점과 입력 이미지의 좌상단 및 우하단 점 사이의 오차는 픽셀 거리로 계산하여 좌상단 점에 대해서는 (-10, 10)이고, 우하단 점에 대해서는 (10, -90)일 수 있다. 이 때, 완벽한 정답 이미지의 가로, 세로 길이를 기준으로 상대적인 길이를 최종적으로 계산하면, 좌상단 점의 오차는 (-10/100, 10/200), 우하단 점의 오차는 (10/100, -90/200)이 될 수 있다. 이러한 학습 과정을 통해 입력 이미지의 특징 정보에 기초하여 거리 오차들을 정확하게 추정할 수 있다.

입력부(120)는 영상을 입력받을 수 있다. 영상은 예를 들어, 스마트폰, 블랙박스, CCTV 등에 의해 촬영되어 네트워크를 통해 입력된 영상일 수 있다.

설정부(130)는 영상을 구성하는 어느 하나의 프레임에 복수의 경계 박스를 설정할 수 있다. 예를 들어, 입력된 영상에 포함된 손의 위치와 크기를 알 수 없으므로, 설정부(130)는 임의의 복수의 경계 박스를 바둑판 형태로 설정할 수 있다.

임의의 복수의 경계 박스는 크기와 위치가 정해진 것은 아니나, 손 검출 장치(100)에 의해 학습된 딥러닝 네트워크를 통해 동작되기 원하는 최종적인 계산 복잡도가 추정되면, 임의의 복수의 경계 박스는 초기 임의의 복수의 경계 박스의 숫자와 간격이 조정될 수 있다. 초기 임의의 복수의 경계 박스는 각각 크기가 다를 수 있으며, 서로 겹쳐질 수도 있다.

추출부(140)는 프레임으로부터 복수의 경계 박스에 해당하는 복수의 이미지를 추출할 수 있다.

확률 도출부(150)는 기트레이닝된 손의 모양에 기초하여 추출된 복수의 이미지 각각에 포함된 객체가 손일 확률을 도출할 수 있다. 예를 들어, 확률 도출부(150)는 복수의 경계 박스에 대해 해당 경계 박스로부터 추출된 이미지 내에 손이 존재할 확률과 정확한 손의 이미지를 추정하는 4개의 소수값을 도출할 수 있다.

도출부(170)는 도출된 손일 확률 및 추정된 손의 위치 정보에 기초하여 프레임에서 손이 존재하는지 여부를 도출할 수 있다. 도출부(170)는 복수의 이미지 중 각 이미지에 포함된 객체가 손일 확률이 높은 상위 적어도 하나의 이미지를 도출할 수 있다. 예를 들어, 도출부(170)는 확률 도출부(150)에서 도출된 값들 중 손일 확률이 높은 상위 몇 개의 이미지를 도출하고, 도출된 이미지로부터 추정된 정확한 손의 이미지를 기준으로 손이 존재하는지 여부를 도출할 수 있다.

위치 추정부(160)는 기트레이닝된 손의 위치 추정 정보에 기초하여 추출된 복수의 이미지 각각을 분석할 수 있다. 여기서, 추정된 손의 위치 정보는 이미지의 좌상단 점 및 우하단 점을 기준으로 손의 전체를 포함하는 정답 이미지가 존재할 것이라고 예상되는 좌상단 점 및 우하단 점 사이의 상대적인 좌표값(4개의 소수값)을 포함할 수 있다.

위치 추정부(160)는 분석된 복수의 이미지에 기초하여 손의 위치 정보를 추정할 수 있다. 예를 들어, 위치 추정부(160)는 도출된 손일 확률 값이 정해진 임계값보다 높은 동시에, 추정된 이미지와 앞서 추정된 이미지 사이의 위치 차이값이 특정 임계값보다 작을 경우, 해당 위치에 손이 존재한다고 판단하여 손 검출을 완료할 수 있다. 최종적으로, 위치 추정부(160)는 추정된 이미지를 손을 포함하는 이미지로 하여, 현재 프레임에서의 손 검출을 종료할 수 있다.

위치 추정부(160)는 각각의 정답 이미지에 대해 병렬식 또는 단계식으로 회귀분석을 수행할 수 있다. 예를 들어, 손의 검출 및 위치 추정 과정을 수행함에 있어서, 손의 부분 이미지를 포함하는 복수의 경계 박스가 존재하는 경우, 각각의 경계 박스들에 대해 각각 회귀분석을 수행하여 손을 검출하고, 손의 위치를 추정할 수 있다. 예를 들어, 손의 부분 이미지를 포함하는 경계 박스가 3개 존재하는 경우, 3개의 경계 박스 이미지 각각에 대해 한 번 더 손을 검출하고, 손의 위치를 추정하는 과정을 반복할 수 있다. 이러한 과정을 통해 각기 다른 경계 박스들이 하나의 경계 박스로 수렴하면서, 동시에 손일 확률이 '1'에 가깝게 상승한다면, 수렴한 경계 박스들은 올바르게 손의 위치를 추정한 것이라고 판단될 수 있다. 또한, 수행 속도의 향상을 위해 3개의 경계 박스 중 손일 확률이 가장 높은 1개만을 선택하여 손의 검출 및 손의 위치 추정 과정을 수행할 수도 있고, 손일 확률이 높은 상위 n개의 경계 박스들을 선택하여 손의 검출 및 손의 위치 추정 과정을 수행할 수도 있다.

이후, 상술된 손의 위치 정보가 추정되는 과정과 같이 손 인식률이 낮은 경계 박스들을 제거하고, 손 인식률이 높은 경계 박스들을 기준으로 재귀적으로 정답이라 추정되는 경계 박스의 영상을 입력하는 과정이 반복된다.

추출부(140)는 도출된 적어도 하나의 이미지에 대응하는 손의 위치 정보에 기초하여 프레임으로부터 추가 이미지를 더 추출할 수 있다.

확률 도출부(150)는 추출부(140)에서 손의 위치 정보에 기초하여 프레임으로부터 추가 이미지를 더 추출하면, 추가 이미지에 포함된 객체가 손일 확률을 도출할 수 있다.

위치 추정부(160)는 추가 이미지를 분석하여 손의 위치 정보를 추정할 수 있다.

도출부(170)는 추가 이미지에 포함된 객체가 손일 확률이 기설정된 확률값을 초과하고, 이미지를 분석하여 추정된 손의 위치 정보와 추가 이미지를 분석하여 추정된 손의 위치 정보 사이의 차이값이 기설정된 임계값 이하인 경우 추가 이미지를 최종 이미지로서 도출할 수 있다.

이 과정에서 손 검출 장치(100)는 정답 이미지로 추정된 이미지에 대해 검증을 수행할 수 있다. 손의 검출 및 손의 위치 추정 과정을 통해 각기 다른 경계 박스들이 하나의 경계 박스로 수렴한 경우, 해당 경계 박스가 정확하게 손의 위치를 추정한 것인지를 검증할 수 있다. 예를 들어, 설정부(130)는 수렴된 경계 박스 근처에 초기에 설정된 경계 박스와는 다른 위치 및 크기를 갖는 임의의 경계 박스를 설정하고, 추출부(140), 확률 도출부(150), 위치 추정부(160) 및 도출부(170)를 통해 임의로 설정된 경계 박스에서 손의 검출 및 손의 위치 추정 과정을 재귀적으로 수행하고, 임의로 설정한 경계 박스가 앞서 최종 도출된 경계 박스로 수렴하면, 최종 도출된 경계 박스가 손을 정확하게 검출하고, 손의 위치를 추정한 것으로 검증할 수 있다.

이하에서는, 연속된 영상이 존재할 경우, 다음 프레임에서 손을 검출함으로써, 연속된 프레임에서 손의 궤적을 추정하는 과정을 설명하도록 한다. 다음 프레임에 대해서도 영상부(120), 설정부(130), 추출부(140), 확률 도출부(150), 위치 추정부(160)는 동일한 기능을 수행할 수 있다. 즉, 하나의 프레임으로부터 복수의 경계 박스에 해당하는 복수의 이미지를 추출하여 손의 위치 정보를 추정하고, 이를 다시 입력 영상으로 손 학습 분류기에 입력함으로써, 재귀적으로 정답에 가장 근접한 입력 이미지의 경계박스 위치로 수렴해가도록 할 수 있다. 이를 통해, 초기 입력 영상이 손의 정답 이미지에 대한 경계박스가 아닌 일부가 겹쳐진 부분적 정답 경계박스라 할지라도, 본 발명에서 학습된 딥러닝 네트워크의 재귀적인 수행을 통해 손의 정답 경계 박스에 수렴하는 결과를 도출해낼 수 있다.

관심 영역 설정부(180)는 추정된 손의 위치 정보를 기준으로 프레임의 다음 프레임에 관심 영역을 설정할 수 있다. 이 때, 추정된 손의 위치 정보는 전체 프레임이 아닌 이전 프레임에서 추정된 손의 위치 정보일 수 있으며, 관심 영역 설정부(180)는 이전 프레임에서 추정된 손의 위치 정보의 경계 박스를 기준으로 한 프레임 사이에 손이 이동할 수 있는 한계 범위를 관심 영역으로 설정할 수 있다. 예를 들어, 관심 영역 설정부(180)는 현재 프레임에서 검출된 손의 가로, 세로 픽셀 길이를 각각 w, h로 정의한 경우, 다음 프레임의 관심 영역의 가로 길이는 w의 3~4배, 관심 영역의 세로 길이는 h의 3~4배 정도로 설정할 수 있다. 이 때, 관심 영역의 중심 픽셀은 검출된 손의 중심 픽셀과 동일할 수 있다.

도출부(170)는 관심 영역 설정부(180)에서 프레임의 다음 프레임에 관심 영역이 설정되면, 다음 프레임에서 설정된 관심 영역을 기준으로 손이 존재하는지 여부를 도출할 수 있다.

이러한 과정을 통해 손 검출 영역을 줄여감으로써, 손 검출의 정확도 및 속도를 향상시킬 수 있다.

이러한 손 검출 장치(100)는 영상으로부터 손을 검출하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 의해 수행될 수 있다. 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 손 검출 장치(100)의 영상을 입력받고, 영상을 구성하는 어느 하나의 프레임에 복수의 경계 박스를 설정하고, 프레임으로부터 복수의 경계 박스에 해당하는 복수의 이미지를 추출하고, 기트레이닝된 손의 모양에 기초하여 추출된 복수의 이미지 각각에 포함된 객체가 손일 확률을 도출하고, 기트레이닝된 손의 위치 추정 정보에 기초하여 추출된 복수의 이미지 각각을 분석하여 손의 위치 정보를 추정하고, 도출된 손일 확률 및 추정된 손의 위치 정보에 기초하여 프레임에서 손이 존재하는지 여부를 도출하도록 하는 명령어들의 시퀀스를 포함할 수 있다.

도 2a 내지 도 2d는 본 발명의 일 실시예에 따른 영상으로부터 손을 검출하는 과정을 설명하기 위한 예시적인 도면이다.

도 2a는 본 발명의 일 실시예에 따른 손이 위치한 영역을 포함하는 영상을 도시한 예시적인 도면이다. 도 2a를 참조하면, 영상이 입력되면, 손 검출 장치(100)는 입력된 영상(210) 중 손이 위치한 영역을 크롭하여 확대할 수 있다.

도 2b는 본 발명의 일 실시예에 따른 손을 포함한 영상에 대해 경계 박스를 설정하여 손을 검출하는 과정을 설명하기 위한 예시적인 도면이다. 도 2b를 참조하면, 손 검출 장치(100)는 파란색 경계박스(221)와 같이 손 인식을 원하는 임의의 영역에 대해 딥러닝 학습기를 통해 손 검출 및 위치 추정을 시도할 수 있다.

추정된 손의 위치 정보는 파란색 경계박스(221)의 좌상단 점 및 우하단 점을 기준으로 손의 전체를 포함하는 정답 이미지가 존재할 것이라고 예상되는 좌상단 점 및 우하단 점 사이의 상대적인 좌표값(222)을 포함할 수 있다. 예를 들어, 파란색 경계박스(221)의 좌상단 점(P1)의 좌표값은 (50, 110)이고, 우하단 점(P2)의 좌표값은 (120, 180)일 수 있다.

도 2c는 본 발명의 일 실시예에 따른 경계 박스로부터 손일 확률을 도출하고 추가 경계 박스를 설정하여 손을 검출하는 과정을 설명하기 위한 예시적인 도면이다. 도 2c를 참조하면, 손 검출 장치(100)는 영상에 포함된 파란색 경계박스(221)에 대해 객체가 손일 확률값(231)을 도출할 수 있다. 손일 확률값(231)은 0~1 사이의 소수값으로 손일 확률 또는 손이 아닐 확률로 출력될 수 있다. 이 때, 2개의 출력값(손일 확률 및 손이 아닐 확률)의 합은 1일 수 있다.

손 검출 장치(100)는 손일 확률값(231)이 임의의 경계값보다 높게 검출되면 경계 박스 내에 손이 존재하는 것으로 판단할 수 있다. 예를 들어, 손 검출 장치(100)는 손일 확률값(231)을 0.865로 출력할 수 있다. 이 때, 영상에서 실제 손이 위치했을 것이라고 추정되는 영역을 녹색 경계박스(232)로 추정하게 되며, 녹색 경계박스(232)의 좌상단 점 및 우하단 점을 기준으로 손의 전체를 포함하는 정답 이미지가 존재할 것이라고 예상되는 좌상단 점 및 우하단 점 사이의 상대적인 좌표값(233)을 포함할 수 있다. 예를 들어, 녹색 경계박스(232)의 좌상단 점(P3)의의 좌표값은 (37, 130)이고, 우하단 점(P4)의 좌표값은 (103, 194)일 수 있다. 여기서, 좌상단 점(P3)와 우하단 점(P4)의 위치는 4개의 소수값으로 출력될 수 있다. 4개의 소수값은 원본 영상의 가로, 세로의 길이를 기준으로 좌상단 점(P3) 및 우하단 점(P4)에 해당하는 두 점의 상대 위치를 나타내는 것일 수 있다.

손 검출 장치(100)는 손의 위치를 정확하게 추정하기 위해 추정된 손의 위치, 즉, 녹색 경계박스(232)를 입력 경계박스로 사용하여 재귀적으로 녹색 경계박스(232)에서의 손일 확률값 및 경계박스 추정을 다시 한 번 시도할 수 있다.

도 2d는 본 발명의 일 실시예에 따른 손이 검출된 결과를 도시한 예시적인 도면이다. 도 2d를 참조하면, 손 검출 장치(100)는 녹색 경계박스(232)에 대해 객체가 손일 확률값(241)을 도출할 수 있다.

도 2b의 파란색 경계박스(221)와 비교해서, 도 2d의 녹색 경계박스(232)가 파란색 경계박스(221)보다 손의 경계를 명확하게 잡고 있으므로, 손일 확률값(241)이 0.998로 더 높아진 것을 알 수 있다.

도 2c의 녹색 경계박스(232)를 입력 경계박스로 한 경우, 다시 추정된 손의 경계박스에 대한 좌표값(242)을 알 수 있다.

다시 추정된 손의 위치 정보는 다시 추정된 손의 경계박스의 좌상단 점(P5) 및 우하단 점(P6) 사이의 상대적인 좌표값(242)을 포함할 수 있다. 예를 들어, 다시 추정된 손의 경계박스는 좌상단 점(P5)의 좌표값은 (29, 128)이고, 우하단 점(P6)의 좌표값은 (99, 196)일 수 있다.

손 검출 장치(100)는 다시 추정된 경계박스의 좌표값(242)과 녹색 경계박스(232)의 좌표값(233)의 위치차를 계산하고, 차이값이 일정값 보다 작을 경우 손이 경계박스에 수렴하였다고 판단하여 재귀적인 검출 시도를 중지하고, 마지막으로 추정된 녹색 경계박스를 최종 경계박스로 정할 수 있다.

손 검출 장치(100)는 다음으로 입력된 연속된 프레임에서 현재 프레임에서 추정된 손의 경계박스를 기준으로 일정 범위를 관심 영역으로 지정하여 해당 관심 영역에서 손 인식 및 검출을 시도할 수 있다. 관심 영역은 한 프레임 사이에 손이 움직일 수 있을 것이라 가정할 수 있는 범위보다 조금 큰 영역으로 지정될 수 있으며, 관심 영역이 설정됨으로써 손 인식 및 검출 영역이 축소되어 손 인식 성공률 및 속도가 향상될 수 있다.

손 검출 장치(100)는 이러한 과정을 반복적으로 수행하여 연속된 프레임에서 손이 존재하는 영역을 찾은 후, 그 궤적을 연결시킴으로써 손의 위치를 추적할 수 있게 된다.

도 3은 본 발명의 일 실시예에 따른 손 검출 장치에서 영상으로부터 손을 검출하는 방법의 순서도이다. 도 5에 도시된 손 검출 장치(100)에서 영상으로부터 손을 검출하는 방법은 도 1 내지 도 2d에 도시된 실시예에 따른 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 2d에 도시된 실시예에 따른 손 검출 장치(100)에서 영상으로부터 손을 검출하는 방법에도 적용된다.

단계 S310에서 손 검출 장치(100)는 영상을 입력받을 수 있다.

단계 S320에서 손 검출 장치(100)는 영상을 구성하는 어느 하나의 프레임에 복수의 경계 박스를 설정할 수 있다.

단계 S330에서 손 검출 장치(100)는 프레임으로부터 복수의 경계 박스에 해당하는 복수의 이미지를 추출할 수 있다.

단계 S340에서 손 검출 장치(100)는 기트레이닝된 손의 모양에 기초하여 추출된 복수의 이미지 각각에 포함된 객체가 손일 확률을 도출할 수 있다.

단계 S350에서 손 검출 장치(100)는 기트레이닝된 손의 위치 추정 정보에 기초하여 추출된 복수의 이미지 각각을 분석하여 손의 위치 정보를 추정할 수 있다.

단계 S360에서 손 검출 장치(100)는 도출된 손일 확률 및 추정된 손의 위치 정보에 기초하여 프레임에 손이 존재하는지 여부를 도출할 수 있다.

상술한 설명에서, 단계 S310 내지 S360은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.

도 1 내지 도 3을 통해 설명된 손 검출 장치에서 영상으로부터 손을 검출하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 3을 통해 설명된 손 검출 장치에서 영상으로부터 손을 검출하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다.

컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 손 검출 장치
110: 트레이닝부
120: 입력부
130: 설정부
140: 추출부
150: 확률 도출부
160: 위치 추정부
170: 관심 영역 설정부
180: 도출부

Claims

영상으로부터 손을 검출하는 장치에 있어서,
영상을 입력받는 입력부;
상기 영상을 구성하는 어느 하나의 프레임에 복수의 경계 박스를 설정하는 설정부;
상기 프레임으로부터 상기 복수의 경계 박스에 해당하는 복수의 이미지를 추출하는 추출부;
기트레이닝된 손의 모양에 기초하여 상기 추출된 복수의 이미지 각각에 포함된 객체가 손일 확률을 도출하는 확률 도출부;
기트레이닝된 손의 위치 추정 정보에 기초하여 상기 추출된 복수의 이미지 각각을 분석하여 손의 위치 정보를 추정하는 위치 추정부; 및
상기 도출된 손일 확률 및 상기 추정된 손의 위치 정보에 기초하여 상기 프레임에서 손이 존재하는지 여부를 도출하는 도출부
를 포함하는 것인, 손 검출 장치.
제 1 항에 있어서
상기 도출부는 상기 복수의 이미지 중 각 이미지에 포함된 객체가 손일 확률이 높은 적어도 하나의 이미지를 도출하고,
상기 추출부는 상기 도출된 적어도 하나의 이미지에 대응하는 손의 위치 정보에 기초하여 상기 프레임으로부터 추가 이미지를 더 추출하는 것인, 손 검출 장치
제 2 항에 있어서
상기 확률 도출부는 상기 추가 이미지에 포함된 객체가 손일 확률을 도출하고,
상기 위치 추정부는 상기 추가 이미지를 분석하여 손의 위치 정보를 추정하는 것인, 손 검출 장치
제 3 항에 있어서
상기 도출부는 상기 추가 이미지에 포함된 객체가 손일 확률이 기설정된 확률값을 초과하고, 상기 이미지를 분석하여 추정된 손의 위치 정보와 상기 추가 이미지를 분석하여 추정된 손의 위치 정보 사이의 차이값이 기설정된 임계값 이하인 경우 상기 추가 이미지를 최종 이미지로서 도출하는 것인, 손 검출 장치
제 1 항에 있어서
상기 추정된 손의 위치 정보는 상기 이미지의 좌상단 점 및 우하단 점을 기준으로 손의 전체를 포함하는 정답 이미지가 존재할 것이라고 예상되는 좌상단 점 및 우하단 점 사이의 상대적인 좌표값을 포함하는 것인, 손 검출 장치.
제 1 항에 있어서
상기 추정된 손의 위치 정보를 기준으로 상기 프레임의 다음 프레임에 관심 영역을 설정하는 관심 영역 설정부
를 더 포함하고,
상기 도출부는 상기 다음 프레임에서 상기 설정된 관심 영역를 기준으로 손이 존재하는지 여부를 도출하는 것인, 손 검출 장치
제 1 항에 있어서
학습 데이터를 이용하여 상기 손의 모양을 트레이닝하는 트레이닝부
를 더 포함하고,
상기 학습 데이터는 손을 포함하는 영상 및 손을 포함하지 않는 영상을 포함하고,
상기 손을 포함하는 영상은 손의 전체를 포함하는 영상 및 손의 일부분을 포함하는 영상을 포함하는 것인, 손 검출 장치.
제 7 항에 있어서
상기 트레이닝부는 상기 학습 데이터를 이용하여 상기 손의 위치 추정 정보를 트레이닝하고,
상기 손의 위치 추정 정보는 손의 전체를 포함하는 정답 이미지와 입력 이미지에 해당하는 상기 학습 데이터 간의 상대적인 거리를 나타내는 좌표값인 것인, 손 검출 장치.
영상으로부터 손을 검출하는 방법에 있어서,
영상을 입력받는 단계;
상기 영상을 구성하는 어느 하나의 프레임에 복수의 경계 박스를 설정하는 단계;
상기 프레임으로부터 상기 복수의 경계 박스에 해당하는 복수의 이미지를 추출하는 단계;
기트레이닝된 손의 모양에 기초하여 상기 추출된 복수의 이미지 각각에 포함된 객체가 손일 확률을 도출하는 단계;
기트레이닝된 손의 위치 추정 정보에 기초하여 상기 추출된 복수의 이미지 각각을 분석하여 손의 위치 정보를 추정하는 단계; 및
상기 도출된 손일 확률 및 상기 추정된 손의 위치 정보에 기초하여 상기 프레임에서 손이 존재하는지 여부를 도출하는 단계
를 포함하는 것인, 손 검출 방법.
제 9 항에 있어서
상기 손일 확률을 도출하는 단계는 상기 복수의 이미지 중 각 이미지에 포함된 객체가 손일 확률이 높은 적어도 하나의 이미지를 도출하고,
상기 이미지를 추출하는 단계는 상기 도출된 적어도 하나의 이미지에 대응하는 손의 위치 정보에 기초하여 상기 프레임으로부터 추가 이미지를 더 추출하는 것인, 손 검출 방법.
제 10 항에 있어서
상기 손일 확률을 도출하는 단계는 상기 추가 이미지에 포함된 객체가 손일 확률을 도출하고,
상기 손의 위치 정보를 추정하는 단계는 상기 추가 이미지를 분석하여 손의 위치 정보를 추정하는 것인, 손 검출 방법.
제 11 항에 있어서
상기 손이 존재하는지 여부를 도출하는 단계는 상기 추가 이미지에 포함된 객체가 손일 확률이 기설정된 확률값을 초과하고, 상기 이미지를 분석하여 추정된 손의 위치 정보와 상기 추가 이미지를 분석하여 추정된 손의 위치 정보 사이의 차이값이 기설정된 임계값 이하인 경우 상기 추가 이미지를 최종 이미지로서 도출하는 것인, 손 검출 방법.
제 9 항에 있어서
상기 추정된 손의 위치 정보는 상기 이미지의 좌상단 점 및 우하단 점을 기준으로 손의 전체를 포함하는 정답 이미지가 존재할 것이라고 예상되는 좌상단 점 및 우하단 점 사이의 상대적인 좌표값을 포함하는 것인, 손 검출 방법.
제 9 항에 있어서
상기 추정된 손의 위치 정보를 기준으로 상기 프레임의 다음 프레임에 관심 영역을 설정하는 단계
를 더 포함하고,
상기 손이 존재하는지 여부를 도출하는 단계는 상기 다음 프레임에서 상기 설정된 관심 영역를 기준으로 손이 존재하는지 여부를 도출하는 것인, 손 검출 방법.
제 9 항에 있어서
학습 데이터를 이용하여 상기 손의 모양을 트레이닝하는 단계
를 더 포함하고,
상기 학습 데이터는 손을 포함하는 영상 및 손을 포함하지 않는 영상을 포함하고,
상기 손을 포함하는 영상은 손의 전체를 포함하는 영상 및 손의 일부분을 포함하는 영상을 포함하는 것인, 손 검출 방법.
제 15 항에 있어서
상기 트레이닝하는 단계는 상기 학습 데이터를 이용하여 상기 손의 위치 추정 정보를 더 트레이닝하고,
상기 손의 위치 추정 정보는 손의 전체를 포함하는 정답 이미지와 입력 이미지에 해당하는 상기 학습 데이터 간의 상대적인 거리를 나타내는 좌표값인 것인, 손 검출 방법.
손을 검출하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
영상을 입력받고,
상기 영상을 구성하는 어느 하나의 프레임에 복수의 경계 박스를 설정하고,
상기 프레임으로부터 상기 복수의 경계 박스에 해당하는 복수의 이미지를 추출하고,
기트레이닝된 손의 모양에 기초하여 상기 추출된 복수의 이미지 각각에 포함된 객체가 손일 확률을 도출하고,
기트레이닝된 손의 위치 추정 정보에 기초하여 상기 추출된 복수의 이미지 각각을 분석하여 손의 위치 정보를 추정하고,
상기 도출된 손일 확률 및 상기 추정된 손의 위치 정보에 기초하여 상기 프레임에서 손이 존재하는지 여부를 도출하도록 하는 명령어들의 시퀀스를 포함하는, 매체에 저장된 컴퓨터 프로그램.