WO2022050742A1

WO2022050742A1 - 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치

Info

Publication number: WO2022050742A1
Application number: PCT/KR2021/011899
Authority: WO
Inventors: 최치원; 김정환; 조성동
Original assignee: 주식회사 피앤씨솔루션
Priority date: 2020-09-03
Filing date: 2021-09-02
Publication date: 2022-03-10
Also published as: KR102305404B1

Abstract

본 발명에서 제안하고 있는 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치에 따르면, RGB 변환된 깊이 영상을 이용함으로써 자연광에도 강인한 손동작 검출을 할 수 있고, 딥러닝 기반의 관절 추론 모델을 이용해 손 관절의 좌표를 획득하고 좌표들의 상대적인 위치를 통해 손동작을 정의함으로써, 신속하고 정확하게 깊이 영상으로부터 실시간으로 손동작을 검출할 수 있다.

Description

깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치

본 발명은 착용형 증강현실 장치의 손동작 검출 방법 및 손동작 검출이 가능한 착용형 증강현실 장치에 관한 것으로서, 보다 구체적으로는 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치에 관한 것이다.

디지털 디바이스의 경량화 및 소형화 추세에 따라 다양한 웨어러블 디바이스(wearable device)들이 개발되고 있다. 이러한 웨어러블 디바이스의 일종인 헤드 마운티드 디스플레이(Head Mounted Display)는 사용자가 머리에 착용하여 멀티미디어 컨텐츠 등을 제공받을 수 있는 각종 디바이스를 의미한다. 여기서, 헤드 마운티드 디스플레이(HMD)는 사용자의 신체에 착용 되어 사용자가 이동함에 따라서 다양한 환경에서 사용자에게 영상을 제공하게 된다. 이러한 헤드 마운티드 디스플레이(HMD)는 투과(see-through)형과 밀폐(see-closed)형으로 구분되고 있으며, 투과형은 주로 증강현실(Augmented Reality, AR)용으로 사용되고, 밀폐형은 주로 가상현실(Virtual Reality, VR)용으로 사용되고 있다.

도 1은 일반적인 안경 형태의 헤드 마운티드 디스플레이(HMD)의 개략적인 구성을 도시한 도면이고, 도 2는 일반적인 밴드 형태의 헤드 마운티드 디스플레이(HMD)의 개략적인 구성을 도시한 도면이다. 도 1 및 도 2에 각각 도시된 바와 같이, 일반적인 안경 형태 또는 밴드 형태의 헤드 마운티드 디스플레이는 사용자의 안면 또는 두부에 착용 되어 투과되는 렌즈를 통해 실제 세계에 증강현실(AR)의 영상 정보를 투영하여 사용자에게 제공하게 된다.

헤드 마운티드 디스플레이는 기존의 터치스크린과 같은 입력 방식을 사용하기 어려우므로, 사용자 상호작용을 위한 최적화된 입력 방식이 필요하다. 헤드 마운티드 디스플레이의 증강현실에서 사용할 수 있는 입력 방식으로, HMD에 구비된 버튼이나 HMD와 연결된 별도의 입력 장치, 제스처 인식 등이 있을 수 있다. 그 중에서 제스처 인식은, 헤드 마운티드 디스플레이의 증강현실에서 사용할 수 있는 적합한 입력 방식이라고 할 수 있으나, 다양한 제스처를 실시간으로 정확하게 인식하는 기술에는 아직까지 한계가 있다.

최근에는 이미지 처리 분야에서 인공지능 기술이 활용되고 있는데, 대부분의 인공지능 기술은 계산 비용이 많이 들어서, 외부와의 통신 없이 HMD의 임베디드 환경에 인공지능 기술을 적용하기에는 한계가 있다. 또한, 실내외에서 자유롭게 사용할 수 있는 HMD의 특성상, 자연광이나 조명에도 강인한 제스처 인식 기술의 개발이 필요한 실정이다.

한편, 본 발명과 관련된 선행기술로서, 등록특허 제10-1700569호(발명의 명칭: 제스처 기반의 사용자 인증이 가능한 HMD 장치 및 상기 HMD 장치의 제스처 기반의 사용자 인증 방법, 등록일자: 2017년 01월 23일) 등이 개시된 바 있다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, RGB 변환된 깊이 영상을 이용함으로써 자연광에도 강인한 손동작 검출을 할 수 있고, 딥러닝 기반의 관절 추론 모델을 이용해 손 관절의 좌표를 획득하고 좌표들의 상대적인 위치를 통해 손동작을 정의함으로써, 신속하고 정확하게 깊이 영상으로부터 실시간으로 손동작을 검출할 수 있는, 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치를 제공하는 것을 그 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법은,

(1) 상기 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상(Depth map)으로 변환하는 단계;

(2) 상기 단계 (1)에서 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(Region of Interest, ROI)을 검출하는 단계;

(3) 상기 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 단계; 및

(4) 상기 단계 (3)에서 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는,

상기 착용형 증강현실 장치상의 임베디드 환경에서 수행될 수 있다.

더욱 바람직하게는, 상기 단계 (1)은,

(1-1) 상기 착용형 증강현실 장치의 뎁스 카메라에서 수집된 영상을 획득하는 단계; 및

(1-2) 상기 획득한 영상의 픽셀값을 컬러 맵핑하여, RGB 3채널의 깊이 영상으로 변환하는 단계를 포함할 수 있다.

더욱 바람직하게는, 상기 단계 (2)는,

(2-1) 상기 단계 (1)에서 변환한 깊이 영상으로부터 손 영역을 포함하는 복수의 후보 영역을 검출하는 단계; 및

(2-2) 상기 복수의 후보 영역에 NMS(Non-Maximum Suppression)를 적용해 하나의 관심 영역을 획득하는 단계를 포함할 수 있다.

더욱 바람직하게는, 상기 단계 (3)은,

(3-1) 상기 단계 (2)에서 검출된 관심 영역을 상기 관절 추론 모델의 입력으로 하여, 관절의 좌표 분포 맵을 추정하는 단계;

(3-2) 상기 단계 (3-1)에서 추정된 관절의 좌표 분포 맵에 NMS를 적용해 관절의 좌표를 획득하는 단계; 및

(3-3) 관절의 개수만큼 좌표를 출력하는 단계를 포함할 수 있다.

더욱 바람직하게는, 상기 단계 (4)에서는,

상기 단계 (3)에서 획득한 좌표의 정보를 인덱스로 맵핑하여 상기 손동작을 정의할 수 있다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치는,

상기 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상(Depth map)으로 변환하는 영상 변환 모듈;

상기 영상 변환 모듈에서 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(Region of Interest, ROI)을 검출하는 관심 영역 검출 모듈;

상기 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 좌표 추론 모듈; 및

상기 좌표 추론 모듈에서 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 손동작 검출 모듈을 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 영상 변환 모듈은,

(1-2) 상기 획득한 영상의 픽셀값을 컬러 맵핑하여, RGB 3채널의 깊이 영상으로 변환하는 단계를 수행하여, 깊이 영상을 획득할 수 있다.

도 1은 일반적인 안경 형태의 헤드 마운티드 디스플레이(HMD)의 개략적인 구성을 도시한 도면.

도 2는 일반적인 밴드 형태의 헤드 마운티드 디스플레이(HMD)의 개략적인 구성을 도시한 도면.

도 3은 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치의 손동작 검출 장치 구성을 도시한 도면.

도 4는 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 흐름을 도시한 도면.

도 5는 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면.

도 6은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서 변환 전 영상과 변환된 깊이 영상을 예를 들어 도시한 도면.

도 7은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.

도 8은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S210에서 관심 영역의 검출 화면을 예를 들어 도시한 도면.

도 9는 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면.

도 10은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 관절 포인트를 예를 들어 도시한 도면.

도 11은 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치의 전체 구성을 도시한 도면.

<부호의 설명>

100: 손동작 검출 장치

110: 영상 변환 모듈

120: 관심 영역 검출 모듈

130: 좌표 추론 모듈

140: 손동작 검출 모듈

200: HMD 프레임

300: 제어부

400: GPS 모듈

500: 카메라

600: 전원 공급부

700: 스위치부

800: 통신부

S100: 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상으로 변환하는 단계

S110: 뎁스 카메라에서 수집된 영상을 획득하는 단계

S120: 영상의 픽셀값을 컬러 맵핑하여 RGB 3채널의 깊이 영상으로 변환하는 단계

S200: 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(ROI)을 검출하는 단계

S210: 깊이 영상으로부터 손 영역을 포함하는 복수의 후보 영역을 검출하는 단계

S220: 복수의 후보 영역에 NMS를 적용해 하나의 관심 영역을 획득하는 단계

S300: 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 단계

S310: 관심 영역을 관절 추론 모델의 입력으로 하여, 관절의 좌표 분포 맵을 추정하는 단계

S320: 관절의 좌표 분포 맵에 NMS를 적용해 관절의 좌표를 획득하는 단계

S330: 관절의 개수만큼 좌표를 출력하는 단계

S400: 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 단계

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

도 3은 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치의 손동작 검출 장치(100) 구성을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치는, 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상(Depth map)으로 변환하는 영상 변환 모듈(110), 영상 변환 모듈(110)에서 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(Region of Interest, ROI)을 검출하는 관심 영역 검출 모듈(120), 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 좌표 추론 모듈(130) 및 좌표 추론 모듈(130)에서 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 손동작 검출 모듈(140)을 포함하여 구성될 수 있다.

즉, 영상 변환 모듈(110), 관심 영역 검출 모듈(120), 좌표 추론 모듈(130) 및 손동작 검출 모듈(140)은 손동작 검출 장치(100)를 구성하고, 손동작 검출 장치(100)는 착용형 증강현실 장치의 구성요소 중 하나일 수 있다. 손동작 검출 장치(100)는, 착용형 증강현실 장치상의 임베디드 환경에서 추후 도 4에서 상세히 설명할 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법을 수행할 수 있다.

여기서, 착용형 증강현실 장치는 사용자의 머리 또는 두부에 착용 되며, 착용형 증강현실 장치를 착용한 사용자가 광학계를 통해 투과되어 보이는 현실 세계와 디스플레이에서 출력되어 광학계를 통해 사용자의 동공으로 전달되는 영상 정보를 함께 제공받아 증강현실을 경험할 수 있도록 하는 장치일 수 있다. 여기서, 착용형 증강현실 장치는 글라스형, 고글형 등 다양할 수 있으며, 사용자의 신체에 착용 되어 사용자의 시야를 통한 증강현실을 경험할 수 있도록 한다면 그 구체적인 형태나 종류와 관계없이 본 발명의 착용형 증강현실 장치의 역할을 할 수 있다.

도 4는 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법은, 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상으로 변환하는 단계(S100), 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(ROI)을 검출하는 단계(S200), 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 단계(S300) 및 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 단계(S400)를 포함하여 구현될 수 있다.

단계 S100에서는, 영상 변환 모듈(110)이, 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상(Depth map)으로 변환할 수 있다. 이하에서는, 도 5를 참조하여 단계 S100의 세부적인 흐름에 대해 상세히 설명하도록 한다.

도 5는 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S100은, 뎁스 카메라에서 수집된 영상을 획득하는 단계(S110) 및 영상의 픽셀값을 컬러 맵핑하여 RGB 3채널의 깊이 영상으로 변환하는 단계(S120)를 포함하여 구현될 수 있다.

단계 S110에서는, 착용형 증강현실 장치의 뎁스 카메라에서 수집된 영상을 획득할 수 있다. 즉, 착용형 증강현실 장치의 전면 또는 측면에 뎁스 카메라를 구비하고, 뎁스 카메라가 획득한 사용자의 시선 방향의 영상을 영상 변환 모듈(110)이 전달받을 수 있다. 여기서, 뎁스 카메라는 깊이 영상(Depth map)을 지원하는 카메라로써, 뎁스 카메라에서 촬영된 영상은 16비트의 픽셀값을 갖고, 총 65,536(=2¹⁶) 범위를 가질 수 있다.

단계 S120에서는, 단계 S110에서 획득한 영상의 픽셀값을 컬러 맵핑하여, RGB 3채널의 깊이 영상으로 변환할 수 있다. 보다 구체적으로, 단계 S120에서는, 뎁스 카메라에서 수집된 영상의 총 65,536 범위의 픽셀값을 1024개의 색으로 컬러 맵핑하여, 깊이에 따라 색상이 차등화된 깊이 영상으로 변환할 수 있다. 영상 변환 모듈(110)은, 이처럼 RGB 채널로 변환된 깊이 영상을 관심 영역 검출 모듈(120)에 전달할 수 있다.

도 6은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서 변환 전 영상과 변환된 깊이 영상을 예를 들어 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S100에서는, 뎁스 카메라에서 획득한 영상(도 6의 좌측 이미지)을, 깊이에 따라 색상이 차등화되어 표시되도록 RGB 변환된 깊이 영상(도 6의 우측 이미지)으로 변환할 수 있다. RGB 채널로 변환된 깊이 영상은, 빨간색 타원으로 표시된 부분에서 확인할 수 있는 바와 같이, 자연광이나 조명 등의 영향에도 강인한 특징이 있다.

한편, 단계 S110에서는 획득한 영상을 전처리한 다음, 단계 S120에서 전처리된 영상을 깊이 영상으로 변환할 수 있다. 보다 구체적으로, 단계 S110에서는 해상도를 변경할 수 있다. 즉, 깊이 영상으로 변환하기 위해, 해상도 변경, 흑백 변환 등의 전처리 과정을 수행할 수 있다.

단계 S200에서는, 관심 영역 검출 모듈(120)이, 단계 S100에서 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(Region of Interest, ROI)을 검출할 수 있다. 단계 S200의 세부적인 흐름에 대해서는 추후 도 7을 참조하여 상세히 설명하도록 한다.

단계 S300에서는, 좌표 추론 모듈(130)이, 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득할 수 있다. 관절 추론 모델은, 사전 훈련된 CNN(Convoltional Neural Network)을 기반으로 할 수 있다. 단계 S300의 세부적인 흐름에 대해서는 추후 도 9를 참조하여 상세히 설명하도록 한다.

단계 S400에서는, 손동작 검출 모듈(140)이, 단계 S300에서 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의할 수 있다. 보다 구체적으로, 단계 S400에서는, 단계 S300에서 획득한 좌표의 정보를 인덱스로 맵핑하여 손동작을 정의할 수 있다. 즉, 사전 정의된 인덱스를 이용해, 손 관절의 정보를 인덱스로 맵핑하여 손동작을 정의할 수 있다. 이때, 손동작의 정의는, 사전 정의된 복수의 손동작 중 어느 하나로 분류하는 것일 수 있다.

도 7은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면이다. 도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S200은, 깊이 영상으로부터 손 영역을 포함하는 복수의 후보 영역을 검출하는 단계(S210) 및 복수의 후보 영역에 NMS를 적용해 하나의 관심 영역을 획득하는 단계(S220)를 포함하여 구현될 수 있다.

단계 S210에서는, 단계 S100에서 변환한 깊이 영상으로부터 손 영역을 포함하는 복수의 후보 영역을 검출할 수 있다. 여기서, 복수의 후보 영역들은 적어도 일부가 중첩될 수 있다. 사물 인식 기술을 이용해 손 영역을 검출하면, 바운딩 박스(bounding box) 형태로 후보 영역을 검출하게 되는데, 목표로 하는 하나의 손 영역에 대해 다양한 크기와 형태를 가지는 복수 개의 후보 영역이 검출될 수 있다. 이때, 단계 S200에서는 사물 인식을 위해 딥러닝 기반으로 학습된 손 검출 모델을 사용해 후보 영역을 검출할 수 있다.

보다 구체적으로, 손 검출 모델은, 손 영역 검출을 위해 CNN, YOLOv3 등의 신경망 기반 딥러닝 기술을 적용해 사전 학습된 모델일 수 있으며, 특히 모델 압축 기술을 통해 경량화하거나, ResNet, DenseNet, SqueezeNet, MobileNet, ShuffleNet 등 경량화된 딥러닝 알고리즘을 사용할 수 있다. 이와 같이 모델 압축 기술이나 경량화된 알고리즘을 이용하면, 착용형 증강현실 장치의 임베디드 환경에서도 빠르게 손 영역을 검출할 수 있다. 실시예에 따라서는, 랜덤 포레스트(Random Forest) 분류기를 손 검출 모델로 학습시켜 사용할 수 있으며, 가중 랜덤 포레스트 분류기(WRFR)나 캐스케이드 회귀 포레스트(Cascade Regression Forest) 등을 사용할 수도 있다. 이때, 학습 데이터로 RGB 3채널의 깊이 영상을 사용해 사전 학습된 손 검출 모델을 사용할 수 있다.

도 8은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S210에서 관심 영역의 검출 화면을 예를 들어 도시한 도면이다. 도 8에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S210에서는, 실시간 손동작 검출 목적에 맞도록 연산 속도가 빠른 손 검출 모델을 사용할 수 있다. 또한, 착용형 증강현실 장치를 착용한 사용자의 입력 신호로서 사용자의 손동작을 검출하는 것이 목적이므로, 다수의 손 영역을 검출할 필요 없이 하나 또는 둘의 손 영역만 검출하면 되므로, 검출 민감도보다 연산 속도에 비중을 두어 손 검출 모델을 구성할 수 있다. 다만, 도 8은 검출 모습을 예를 들어 도시한 것으로서, 단계 S210에서는 변환 전 영상이 아닌 도 6의 우측에 도시된 바와 같은 깊이 영상에서 손 영역을 검출하게 된다.

단계 S220에서는, 복수의 후보 영역에 NMS(Non-Maximum Suppression)를 적용해 하나의 관심 영역을 획득할 수 있다. 즉, 단계 S210에서 검출한 복수의 후보 영역의 적어도 일부가 겹치는 경우, 단계 S220에서는 NMS를 적용해 겹치는 영역 중에서 정확도가 가장 높은 것을 남겨 하나의 관심 영역을 획득할 수 있다. 이때, 복수의 후보 영역은 그 크기와 모양이 서로 다를 수 있으며, IoU(Intersection over Union)를 사용해 겹치는 영역을 확인할 수 있다. NMS를 적용하면 깊이 영상에 촬영된 노이즈의 효과를 최소화하고, 손동작 검출에 핵심적인 부분인 최적의 관심 영역을 획득할 수 있다.

도 9는 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면이다. 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S300은, 관심 영역을 관절 추론 모델의 입력으로 하여, 관절의 좌표 분포 맵을 추정하는 단계(S310), 관절의 좌표 분포 맵에 NMS를 적용해 관절의 좌표를 획득하는 단계(S320) 및 관절의 개수만큼 좌표를 출력하는 단계(S330)를 포함하여 구현될 수 있다.

단계 S310에서는, 단계 S200에서 검출된 관심 영역을 관절 추론 모델의 입력으로 하여, 관절의 좌표 분포 맵을 추정할 수 있다. 여기서, 관절 추론 모델은, 사전 훈련된 CNN(Convoltional Neural Network)을 기반으로 할 수 있다. 즉, 백본 네트워크(Backbone Network)로 사전 훈련된 CNN 기반의 손동작 분류 모델을 사용해 관심 영역으로부터 특징맵을 추출하고, 추론 모델을 연결하여 깊이 영상 내에서 손 관절의 좌표 분포 맵을 도출할 수 있다.

단계 S320에서는, 단계 S310에서 추정된 관절의 좌표 분포 맵에 NMS를 적용해 관절의 좌표를 획득할 수 있다. 즉, 단계 S310에서는, 하나의 관절에 대해 복수의 예측 결과(복수의 좌표)를 관절의 좌표 분포 맵으로 도출할 수 있는데, 단계 S320에서는 복수의 예측 결과에 NMS를 적용해 관절마다 하나의 좌표를 획득할 수 있다.

단계 S330에서는, 관절의 개수만큼 좌표를 출력할 수 있다. 보다 구체적으로는, 관절의 개수만큼의 행렬값으로 출력할 수 있다.

도 10은 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법에서, 관절 포인트를 예를 들어 도시한 도면이다. 도 10에 도시된 바와 같이, 한 손에 21개의 관절 포인트가 있으므로, 본 발명의 일실시예에 따른 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법의 단계 S300에서는, 하나의 관심 영역에 대해 21개의 좌표를 획득할 수 있다. 단계 S400에서는, 단계 S300에서 획득한 행렬값을 이용해, 손 관절의 좌표들의 상대적인 위치를 통해 손동작을 정의할 수 있다.

도 11은 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치의 전체 구성을 도시한 도면이다. 도 11에 도시된 바와 같이, 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치는, 손동작 검출 장치(100)를 포함하여 구성될 수 있으며, HMD 프레임(200), 제어부(300), GPS 모듈(400), 카메라(500), 전원공급부(600), 스위치부(700) 및 통신부(800)를 더 포함하여 구성될 수 있다.

HMD 프레임(200)은, 사용자가 머리나 두부에 착용할 수 있는 착용형 증강현실 장치의 프레임 구성이다. 이러한 HMD 프레임(200)은, 사용자가 머리에 착용한 상태에서 빛이 들어올 수 있는 프레임 구조를 갖는 헬멧(helmet) 형태 또는 고글(goggles) 형태로 구성될 수 있다. 여기서, HMD 프레임(200)이 헬멧 형태로 이루어지는 경우, 사용자의 머리에 착용되는 헬멧(미도시)과 헬멧의 전방에 배치되는 디스플레이 프레임(미도시) 구조로 구성될 수 있다. 또한, HMD 프레임(200)이 고글 형태로 구성되는 경우, 사용자의 머리에 착용될 수 있는 밴드 프레임(미도시)과, 밴드 프레임에 체결 고정되는 고글 프레임(미도시) 구조로 구성될 수 있다.

제어부(300)는, 증강현실 영상 정보를 생성하여 디스플레이로 전송되도록 제어할 수 있다. 특히, 제어부(300)는, 카메라(500)에서 촬영된 깊이 영상을 손동작 검출 장치(100)에 제공하고 손동작 검출 과정을 제어하며, 손동작 검출 장치(100)에서 정의된 손동작을 전달받아 손동작에 대응되는 제어 신호를 생성해 착용형 증강현실 장치를 제어할 수 있다.

또한, 본 발명의 일실시예에 따른 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치는, HMD 프레임(200)에 장착되어 위치 정보를 제공하기 위한 GPS 모듈(400), HMD 프레임(200)에 장착되어 손 영상을 포함하는 영상을 촬영하기 위한 카메라(500), 착용형 증강현실 장치의 구동을 위한 전원을 공급하기 위한 전원 공급부(600), 전원 공급부(600)의 온/오프를 위한 스위치부(700), 및 제어부(300)의 제어 하에 데이터 통신을 수행하는 통신부(800)를 더 포함하여 구성될 수 있다.

여기서, GPS 모듈(400)은 사용자의 위치 정보를 제공할 수 있다. 카메라(500)는 사용자가 바라보는 시선 방향의 영상을 촬영할 수 있으며, 깊이 영상을 지원하는 뎁스 카메라를 포함할 수 있다. 제어부(300)는, GPS 모듈(400), 카메라(500), 그 외 각종 센서에서 수집한 정보에 기초하여, 사용자에게 제공할 영상 정보를 생성해 디스플레이로 전송되도록 제어함으로써, 사용자가 증강현실을 통해 외부 환경에 대한 추가 정보 등을 최적화된 화면으로 전달받도록 할 수 있다.

또한, 스위치부(700)는 전원 공급부(600)의 온/오프를 위한 스위치를 HMD 프레임(200)의 일 측에 설치하거나, 또는 HMD 프레임(200)과 유선으로 연결되는 별도의 디바이스에 형성될 수 있다. 한편, 통신부(800)는 인접하는 다른 착용형 증강현실 장치나, 서버 등과 연동하여 연결 접속되고, 위치 정보, 센싱 정보 등 각종 정보가 서로 공유될 수 있도록 데이터 통신을 수행할 수 있다. 여기서, 통신부(800)는 인터넷 접속이 가능한 3G/4G/5G 및 LTE를 포함하는 다양한 무선 통신 방식이 적용되는 것으로 이해될 수 있다.

전술한 바와 같이, 본 발명에서 제안하고 있는 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법 및 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치에 따르면, RGB 변환된 깊이 영상을 이용함으로써 자연광에도 강인한 손동작 검출을 할 수 있고, 딥러닝 기반의 관절 추론 모델을 이용해 손 관절의 좌표를 획득하고 좌표들의 상대적인 위치를 통해 손동작을 정의함으로써, 신속하고 정확하게 깊이 영상으로부터 실시간으로 손동작을 검출할 수 있다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims

착용형 증강현실 장치의 손동작 검출 방법으로서,

(1) 상기 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상(Depth map)으로 변환하는 단계;

(2) 상기 단계 (1)에서 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(Region of Interest, ROI)을 검출하는 단계;

(3) 상기 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 단계; 및

(4) 상기 단계 (3)에서 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 단계를 포함하며,

상기 착용형 증강현실 장치상의 임베디드 환경에서 수행되어, 상기 착용형 증강현실 장치를 착용한 사용자의 입력 신호로서 사용자의 손동작을 검출하며,

상기 단계 (1)은,

(1-1) 상기 착용형 증강현실 장치의 뎁스 카메라에서 수집된 영상을 획득하는 단계; 및

(1-2) 상기 획득한 영상의 픽셀값을 컬러 맵핑하여, 깊이에 따라 색상이 차등화되어 표시되도록 RGB 3채널의 깊이 영상으로 변환하는 단계를 포함하며,

상기 단계 (2)는,

(2-1) 상기 단계 (1-2)에서 RGB 3채널로 변환된 깊이 영상으로부터, 경량화된 딥러닝 알고리즘으로 구현된 손 검출 모델을 사용해, 손 영역을 포함하는 복수의 후보 영역을 검출하는 단계; 및

(2-2) 상기 복수의 후보 영역에 NMS(Non-Maximum Suppression)를 적용해 하나의 관심 영역을 획득하는 단계를 포함하며,

상기 단계 (3)은,

(3-1) 상기 단계 (2)에서 검출된 관심 영역을 상기 관절 추론 모델의 입력으로 하여, 관절의 좌표 분포 맵을 추정하는 단계;

(3-2) 상기 단계 (3-1)에서 추정된 관절의 좌표 분포 맵에 NMS를 적용해 관절의 좌표를 획득하는 단계; 및

(3-3) 관절의 개수만큼 좌표를 출력하는 단계를 포함하는 것을 특징으로 하는, 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법.
제1항에 있어서, 상기 단계 (4)에서는,

상기 단계 (3)에서 획득한 좌표의 정보를 인덱스로 맵핑하여 상기 손동작을 정의하는 것을 특징으로 하는, 깊이 영상을 이용한 착용형 증강현실 장치의 손동작 검출 방법.
손동작 검출이 가능한 착용형 증강현실 장치로서,

상기 착용형 증강현실 장치에서 촬영되는 영상을 획득하고, 획득한 영상을 깊이 영상(Depth map)으로 변환하는 영상 변환 모듈(110);

상기 영상 변환 모듈(110)에서 변환한 깊이 영상으로부터 손 영역을 포함하는 관심 영역(Region of Interest, ROI)을 검출하는 관심 영역 검출 모듈(120);

상기 검출된 관심 영역으로부터 딥러닝 기반의 관절 추론 모델을 이용해 관절의 좌표를 획득하는 좌표 추론 모듈(130); 및

상기 좌표 추론 모듈(130)에서 획득한 좌표들의 상대적인 위치를 통해 손동작을 정의하는 손동작 검출 모듈(140)을 포함하며,

상기 착용형 증강현실 장치상의 임베디드 환경에서 수행되어, 상기 착용형 증강현실 장치를 착용한 사용자의 입력 신호로서 사용자의 손동작을 검출하며,

상기 영상 변환 모듈(110)은,

(1-1) 상기 착용형 증강현실 장치의 뎁스 카메라에서 수집된 영상을 획득하는 단계; 및

(1-2) 상기 획득한 영상의 픽셀값을 컬러 맵핑하여, 깊이에 따라 색상이 차등화되어 표시되도록 RGB 3채널의 깊이 영상으로 변환하는 단계를 수행하여, 깊이 영상을 획득하며,

상기 관심 영역 검출 모듈(120)은,

(2-1) 상기 단계 (1-2)에서 RGB 3채널로 변환된 깊이 영상으로부터, 경량화된 딥러닝 알고리즘으로 구현된 손 검출 모델을 사용해, 손 영역을 포함하는 복수의 후보 영역을 검출하는 단계; 및

(2-2) 상기 복수의 후보 영역에 NMS(Non-Maximum Suppression)를 적용해 하나의 관심 영역을 획득하는 단계를 수행하며,

상기 좌표 추론 모듈(130)은,

(3-1) 상기 관심 영역 검출 모듈(120)에서 검출된 관심 영역을 상기 관절 추론 모델의 입력으로 하여, 관절의 좌표 분포 맵을 추정하는 단계;

(3-2) 상기 단계 (3-1)에서 추정된 관절의 좌표 분포 맵에 NMS를 적용해 관절의 좌표를 획득하는 단계; 및

(3-3) 관절의 개수만큼 좌표를 출력하는 단계를 수행하여, 관절의 좌표를 획득하는 것을 특징으로 하는, 깊이 영상을 이용한 손동작 검출이 가능한 착용형 증강현실 장치.