KR20210068768A

KR20210068768A - 제스처 인식을 통한 디바이스 제어 방법 및 장치

Info

Publication number: KR20210068768A
Application number: KR1020190158183A
Authority: KR
Inventors: 이경욱; 장정우; 황영규; 김정배
Original assignee: 주식회사 알체라
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2021-06-10
Also published as: KR102357763B1

Abstract

제스처 인식을 통한 디바이스 제어 방법은, 사용자를 촬영한 영상을 분석하는 단계, 상기 영상에서 상기 사용자가 제스처를 취한 신체부위를 판단하는 단계, 상기 판단된 신체부위에 대응되도록 미리 설정된 방식을 통해, 상기 제스처를 인식하는 단계 및 상기 인식된 제스처에 매핑(mapping)하여 새로운 커맨드를 저장하거나, 상기 인식된 제스처에 대응되도록 미리 저장된 커맨드에 따른 동작을 수행하는 단계를 포함한다.

Description

제스처 인식을 통한 디바이스 제어 방법 및 장치 {METHOD AND APPARATUS FOR CONTROLLING DEVICE BY GESTURE RECOGNITION}

본 명세서에서 개시되는 실시예들은 제스처 인식을 통해 디바이스를 제어하는 방법 및 장치에 관한 것이다.

사용자의 모션 또는 제스처를 인식하는 기술이 점점 발전함에 따라 제스처를 통해 디바이스를 제어하는 방식이 널리 활용되고 있다.

예를 들어 사용자가 발표자료를 화면에 띄워 놓고 발표를 하는 중에, 동작의 자유도를 높이고 전파 수신 거리나 방향으로 인한 제약에서 벗어나기 위해 리모컨을 사용하는 대신 손과 같은 신체부위로 제스처를 취함으로써 발표자료와 관련된 제어를 수행할 수 있다.

이와 같은 제스처 인식을 통해 디바이스를 제어하는 기술에 있어서 가장 우선적으로 요구되는 점은 제스처 인식의 속도 및 정확도를 높은 수준으로 유지하는 것이다.

한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 명세서에서 개시되는 실시예들은, 사용자의 제스처를 인식한 결과에 따라 디바이스를 제어하기 위한 것이며, 특히 제스처 인식 속도 및 정확도를 모두 향상시키기 위한 방법 및 장치에 관한 것이다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 일 실시예에 따르면, 제스처 인식을 통한 디바이스 제어 방법은, 사용자를 촬영한 영상을 분석하는 단계, 상기 영상에서 상기 사용자가 제스처를 취한 신체부위를 판단하는 단계, 상기 판단된 신체부위에 대응되도록 미리 설정된 방식을 통해, 상기 제스처를 인식하는 단계 및 상기 인식된 제스처에 매핑(mapping)하여 새로운 커맨드를 저장하거나, 상기 인식된 제스처에 대응되도록 미리 저장된 커맨드에 따른 동작을 수행하는 단계를 포함할 수 있다.

다른 실시예에 따르면, 컴퓨팅 장치에서 제스처 인식을 통한 디바이스 제어 방법을 수행하기 위한 컴퓨터 프로그램으로서, 제스처 인식을 통한 디바이스 제어 방법은, 사용자를 촬영한 영상을 분석하는 단계, 상기 영상에서 상기 사용자가 제스처를 취한 신체부위를 판단하는 단계, 상기 판단된 신체부위에 대응되도록 미리 설정된 방식을 통해, 상기 제스처를 인식하는 단계 및 상기 인식된 제스처에 매핑(mapping)하여 새로운 커맨드를 저장하거나, 상기 인식된 제스처에 대응되도록 미리 저장된 커맨드에 따른 동작을 수행하는 단계를 포함할 수 있다.

또 다른 실시예에 따르면, 컴퓨팅 장치에서 제스처 인식을 통한 디바이스 제어 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체로서, 제스처 인식을 통한 디바이스 제어 방법은, 사용자를 촬영한 영상을 분석하는 단계, 상기 영상에서 상기 사용자가 제스처를 취한 신체부위를 판단하는 단계, 상기 판단된 신체부위에 대응되도록 미리 설정된 방식을 통해, 상기 제스처를 인식하는 단계 및 상기 인식된 제스처에 매핑(mapping)하여 새로운 커맨드를 저장하거나, 상기 인식된 제스처에 대응되도록 미리 저장된 커맨드에 따른 동작을 수행하는 단계를 포함할 수 있다.

또 다른 실시예에 따르면, 제스처 인식을 통한 디바이스 제어 장치는, 외부 장치와 데이터 송수신을 위한 통신을 수행하는 통신부, 제스처에 대응되는 커맨드에 대한 정보 및 제스처 인식을 통해 디바이스를 제어하기 위한 프로그램이 저장되는 저장부 및 상기 프로그램을 실행함으로써 제스처 인식을 통해 디바이스를 제어하는 제어부를 포함하며, 상기 제어부는, 상기 통신부를 통해 사용자를 촬영한 영상을 수신하여 상기 영상을 분석하고, 상기 영상에서 상기 사용자가 제스처를 취한 신체부위를 판단하고, 상기 판단된 신체부위에 대응되도록 미리 설정된 방식을 통해 상기 제스처를 인식하고, 상기 인식된 제스처에 매핑(mapping)하여 새로운 커맨드를 저장하거나, 상기 인식된 제스처에 대응되도록 미리 저장된 커맨드에 따른 동작을 수행할 수 있다.

전술한 과제 해결 수단 중 어느 하나에 의하면, 사용자가 제스처를 취한 신체부위에 따라서 다른 방식으로 제스처 인식을 수행함으로써 제스처 인식의 속도 및 정확도를 동시에 향상시키는 효과를 기대할 수 있다.

개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 일 실시예에 따른 제스처 인식을 통해 디바이스를 제어하는 시스템을 도시한 도면이다.
도 2는 일 실시예에 따른 제스처 인식을 통한 디바이스 제어 장치의 구성을 설명하기 위한 블록도이다.
도 3 내지 도 5는 실시예들에 따른 제스처 인식을 통해 디바이스를 제어하는 방법을 설명하기 위한 순서도들이다.
도 6은 일 실시예에 따른 제스처의 2단계 인식 방식을 설명하기 위한 도면이다.
도 7은 일 실시예에 따라 사용자가 특정 제스처를 취한 것이 맞는지 수학식을 통해 검증하는 방법을 설명하기 위한 도면이다.

아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐 아니라, ‘그 중간에 다른 구성을 사이에 두고 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.

도 1은 일 실시예에 따른 제스처 인식을 통해 디바이스를 제어하는 시스템을 도시한 도면이다. 도 1을 참조하면, 일 실시예에 따른 시스템은 서버(100), 카메라(200) 및 디스플레이 장치(300)를 포함할 수 있다.

도 1에 도시된 실시예는 디스플레이 장치(300)에 발표자료가 표시된 상태에서 사용자(400)가 발표를 수행하는 상황이다. 사용자(400)는 손(410)을 이용해 제스처를 취함으로써 디스플레이 장치(300)에 표시되는 발표자료를 제어하고 있다.

카메라(200)는 사용자(400)를 촬영하고 촬영 영상을 서버(100)로 전송한다. 촬영 영상은 서버(100)에서 제스처 인식에 사용된다. 카메라(200)는 캠코더, 웹캠 또는 스마트폰의 카메라 등과 같이 다양한 형태로 구현될 수 있다.

디스플레이 장치(300)는 사용자(400)의 제스처 인식을 통해 제어되는 디바이스로서, 도 1에서는 사용자(400)의 제스처에 따라 디스플레이 장치(300)에 표시되는 발표자료가 변경될 수 있다. 디스플레이 장치(300)는 TV, 모니터 또는 프로젝터 등과 같이 다양한 형태로 구현될 수 있다.

서버(100)는 카메라(200) 및 디스플레이 장치(300)와 통신을 수행함으로써 사용자(400)의 제스처에 따라서 발표자료의 표시가 변경되도록 디스플레이 장치(300)를 제어한다. 서버(100)는 카메라(200)로부터 수신한 촬영 영상으로부터 사용자(400)가 손(410)을 이용해 취한 제스처를 인식하고, 인식 결과에 따라서 디스플레이 장치(300)에 커맨드를 전송할 수 있다.

서버(100)는 사용자(400)가 제스처를 취한 신체부위에 따라서 다른 방식으로 제스처를 인식함으로써 제스처 인식의 속도 및 정확도를 모두 향상시킬 수 있다. 예를 들어, 서버(100)는 사용자가 손이나 안면을 이용하여 제스처를 취한 경우와 그 외의 신체부위를 이용하여 제스처를 취한 경우에 각각 다른 방식으로 제스처를 인식할 수 있다.

서버(100)가 사용자(400)의 제스처를 인식하고, 그에 따라 디스플레이 장치(300)를 제어하는 구체적인 프로세스에 대해서는 아래에서 도 2 내지 도 7을 참조하여 자세히 설명한다.

한편, 도 1에는 서버(100), 카메라(200) 및 디스플레이 장치(300)가 각각 서로 분리된 장치인 것으로 설명하였지만, 이와 다르게 둘 이상의 장치가 하나로 통합될 수도 있다. 예를 들어, 스마트폰이 사용자(400)를 촬영한 후 직접 촬영 영상으로부터 제스처를 인식하고, 인식 결과에 따라서 디스플레이 장치(300)에 커맨드를 전송함으로써, 서버(100)와 카메라(200)의 역할을 모두 수행할 수 있다. 또는, 디스플레이 장치(300)가 카메라(200)로부터 촬영 영상을 전송받아 제스처를 인식하고, 인식 결과에 따라서 화면에 표시되는 발표자료를 제어함으로써 서버(100)의 역할까지 수행할 수도 있다.

도 2는 일 실시예에 따른 제스처 인식을 통한 디바이스 제어 장치의 구성을 설명하기 위한 블록도이다. 도 2에 도시된 제스처 인식을 통한 디바이스 제어 장치는 도 1의 서버(100)에 해당된다. 앞서 설명한 바와 같이, 서버(100)는 사용자(400)의 제스처를 인식한 결과에 따라서 디스플레이 장치(300)를 제어할 수 있다.

도 2를 참조하면, 서버(100)는 통신부(110), 제어부(120) 및 저장부(130)를 포함할 수 있다.

통신부(110)는 외부 장치와 데이터를 송수신하기 위한 구성으로서, 다양한 방식의 유무선 통신을 지원할 수 있다. 예를 들어, 통신부(110)는 카메라(200)로부터 사용자(400)를 촬영한 영상을 수신할 수 있다. 또한, 통신부(110)는 디스플레이 장치(300)와 통신을 수행함으로써 제스처 인식 결과에 따른 커맨드를 디스플레이 장치(300)에 전송할 수 있다. 이를 위해 통신부(110)는 다양한 통신 프로토콜을 지원하는 통신 칩셋으로 구현될 수 있다.

제어부(120)는 CPU 등과 같은 적어도 하나의 프로세서를 포함하는 구성으로서, 서버(100)의 전반적인 동작을 제어한다. 제어부(120)는 저장부(130)에 미리 저장된 프로그램을 실행시킴으로써 촬영 영상으로부터 제스처를 인식하고, 그에 따라 디스플레이 장치(300)를 제어하는 프로세스를 수행할 수 있다.

다시 말해, 제어부(120)는 카메라(200)로부터 수신한 영상을 분석함으로써 사용자(400)가 손(410)을 이용해 취한 제스처를 인식하고, 인식된 제스처에 대응되는 커맨드를 디스플레이 장치(300)에 전송할 수 있다.

저장부(130)는 하드디스크, SSD 또는 RAM 등과 같이 다양한 종류의 메모리를 포함하는 구성으로서, 저장부(130)에는 다양한 종류의 프로그램 및 데이터가 저장될 수 있다. 특히, 저장부(130)에는 제스처 인식을 통해 디바이스를 제어하기 위한 프로그램이 저장될 수 있다. 또한, 저장부(130)에는 제스처와 대응되는 커맨드에 대한 정보가 저장될 수 있다.

이하에서는 제어부(120)가 제스처 인식을 통해 디바이스를 제어하는 프로세스에 대해서 도 3 내지 도 5의 순서도들을 참조하여 자세히 설명한다. 도 3 내지 도 5는 실시예들에 따른 제스처 인식을 통해 디바이스를 제어하는 방법을 설명하기 위한 순서도들이다.

도 3을 참조하면, 301 단계에서 제어부(120)는, 카메라(200)로부터 수신한, 사용자(400)를 촬영한 영상을 분석한다. 예를 들어, 제어부(120)는 영상을 구성하는 프레임들에 포함된 픽셀들의 RGB 데이터를 이용하여 분석을 수행할 수 있다.

302 단계에서 제어부(120)는, 301 단계의 분석 결과에 기초하여, 영상에서 사용자(400)가 제스처를 취한 신체부위를 판단한다. 제어부(120)는 영상에서 움직임이 있는지 여부 또는 미리 설정된 특정 포즈를 취했는지 여부에 기초하여 사용자(400)가 제스처를 취했는지를 판단하고, 사용자(400)가 제스처를 취했다고 판단되면 어느 신체부위를 통해서 해당 제스처를 취했는지를 판단한다. 도 1에 도시된 실시예의 경우, 제어부(120)는 사용자(400)의 손(410)이 제스처에 이용된 신체부위라고 판단할 수 있다.

한편, 본 실시예에서는 영상의 RGB 데이터 분석을 통해 사용자(400)가 제스처를 취한 신체부위를 판단하는 것으로 설명하였지만, 이와 다르게 딥러닝 네트워크를 통해 사용자(400)가 제스처를 취한 신체부위를 판단할 수도 있다. 예를 들어, 촬영 영상을 딥러닝 네트워크의 입력으로서 인가하면, 딥러닝 네트워크는 사용자(400)가 제스처를 취한 신체부위를 판단하여 결과로서 출력할 수 있다.

303 단계에서 제어부(120)는 302 단계에서 판단된 신체부위에 대응되도록 미리 설정된 방식을 통해 제스처를 인식한다. 이를 위해, 신체부위별로 제스처를 인식하기 위한 방식이 미리 설정될 수 있다. 예를 들어, 사용자(400)의 신체부위를 복수의 그룹으로 나누고, 각 그룹에 대응되는 제스처 인식 방식을 미리 설정할 수 있다.

이렇게 신체부위에 따라 다른 방식으로 제스처를 인식하는 이유는 다음과 같다. 사용자(400)는 다양한 신체부위를 통해 제스처를 취할 수 있는데, 신체부위별로 취할 수 있는 제스처의 복잡도가 달라진다. 예를 들어, 사용자(400)가 팔이나 몸통을 이용하여 제스처를 취하는 경우와 손이나 안면을 이용하여 제스처를 취하는 경우를 비교하면, 후자가 상대적으로 더 복잡한 제스처 표현이 가능할 것이다. 각각의 신체부위는 제스처 표현 시 이용되는 특징 포인트(feature point)들을 갖는데, 손이나 안면이 팔이나 몸통에 비해 더 많은 특징 포인트들을 포함하기 때문이다. 예를 들어, 손의 경우 손가락 관절의 마디들이 특징 포인트가 될 수 있으며(도 7 참조), 안면의 경우 눈, 코, 입, 눈썹 및 입꼬리 등이 특징 포인트가 될 수 있다.

특징 포인트가 많은 신체부위일수록 정확하게 제스처를 인식하기 어려울 수 있다. 반대로, 특징 포인트가 적은 신체부위의 경우 간단한 인식 프로세스만을 통해 비교적 정확하게 제스처를 인식할 수 있다. 따라서, 일 실시예에 따른 제스처 인식을 통한 디바이스 제어 방법에서 서버(100)의 제어부(120)는 특징 포인트가 적은 신체부위에 대해서는 1단계 인식방식을 이용하여 제스처를 인식함으로써 인식에 소요되는 시간을 최소화하고, 특징 포인트가 많은 신체부위에 대해서는 2단계 인식방식을 이용하여 제스처를 인식함으로써 인식에 시간이 다소 걸리더라도 인식 정확도를 높일 수 있다.

이하에서는 사용자(400)의 신체부위를 제1 그룹과 제2 그룹, 이렇게 두 개의 그룹으로 나눈다고 가정한다. 그룹을 나누는 기준은 신체부위에 포함된 특징 포인트들의 개수가 미리 설정된 기준 미만이라면 제1 그룹으로 분류하고, 미리 설정된 기준 이상이라면 제2 그룹으로 분류한다. 이때, 신체부위의 그룹을 나누는 기준 값은 필요에 따라 적절하게 설정될 수 있으며, 또한 세 개 이상의 그룹들로 신체부위를 분류하는 것도 가능하다. 이하에서는 팔이나 몸통은 제1 그룹에 속하고, 손이나 안면은 제2 그룹에 속한다고 가정한다. 물론, 특징 포인트들의 개수가 아닌 필요에 따른 다양한 기준에 의해 신체부위를 복수의 그룹으로 나눌 수 있음은 자명하다.

도 4를 참조하여 제스처를 취한 신체부위에 따라 다른 방식으로 제스처를 인식하는 구체적인 프로세스에 대해서 자세히 설명한다. 도 4는 도 3의 303 단계에 포함되는 세부 단계들을 설명하기 위한 순서도이다.

도 4를 참조하면, 401 단계에서 제어부(120)는 제스처를 취한 신체부위가 속한 그룹을 확인한다. 자세하게는, 제어부(120)는 제스처를 취한 신체부위에 포함되는 특징 포인트들의 개수를 확인하고, 확인된 수를 미리 설정된 기준과 비교하여 신체부위가 속한 그룹을 확인한다.

402 단계에서 제어부(120)는 제스처를 취한 신체부위가 제1 그룹에 포함되는지 여부를 판단한다. 판단 결과, 제스처를 취한 신체부위가 제1 그룹에 포함된다면 403 단계로 진행하여 제어부(120)는 1단계 인식방식에 따라 딥러닝 네트워크만을 이용하여 제스처를 인식한다. 즉, 제어부(120)는 촬영 영상을 딥러닝 네트워크의 입력으로 인가하고, 딥러닝 네트워크의 출력을 통해 제스처를 인식한다. 예를 들어, 딥러닝 네트워크의 출력이 복수의 종류의 제스처 각각에 대한 신뢰도 점수(confidence score)를 포함한다면, 제어부(120)는 신뢰도 점수가 가장 높은 제스처를 사용자(400)가 취한 제스처라고 판단한다.

한편 402 단계의 판단 결과, 제스처를 취한 신체부위가 제1 그룹에 포함되지 않는다면, 즉 제2 그룹에 포함된다면 404 단계로 진행하여 제어부(120)는 2단계 인식방식에 따라 딥러닝 네트워크 및 수학식을 이용하여 제스처를 인식한다. 이때, 딥러닝 네트워크는 1차적으로 제스처를 인식할 때 이용되고, 수학식은 1차적으로 인식된 제스처를 검증할 때 이용된다. 이하에서는 도 5 및 도 6을 참조하여 2단계 인식방식의 프로세스에 대해서 자세히 설명한다.

도 5는 도 4의 404 단계에 포함되는 세부 단계들을 설명하기 위한 순서도이고, 도 6은 일 실시예에 따른 2단계 인식 방식을 통해 제스처를 인식하는 과정을 설명하기 위한 도면이다. 도 5의 501 단계 및 502 단계는 각각 도 6의 1차적 인식 프로세스(610) 및 검증 프로세스(620)에 대응된다.

도 5를 참조하면, 501 단계에서 제어부(120)는 딥러닝 네트워크를 통해 1차적으로 제스처를 인식한다. 즉, 제어부(120)는 촬영 영상을 딥러닝 네트워크의 입력으로 인가하고, 딥러닝 네트워크의 출력을 통해 제스처를 인식한다. 예를 들어, 딥러닝 네트워크의 출력이 복수의 종류의 제스처 각각에 대한 신뢰도 점수를 포함한다면, 제어부(120)는 신뢰도 점수가 가장 높은 제스처를 사용자(400)가 취한 제스처라고 1차적으로 판단한다.

501 단계의 구체적인 예시를 도 6을 참조하여 설명한다. 도 6을 참조하면, 1차적 인식 프로세스(610)에서 영상이 딥러닝 네트워크의 입력으로 인가되면, 딥러닝 네트워크는 복수의 종류의 제스처 각각에 대한 신뢰도 점수를 출력할 수 있다. 도 6에 도시된 실시예에서는 5개 종류의 제스처 각각에 대한 신뢰도 점수가 출력되었다. 도 6에서 제어부(120)는 5개 종류의 제스처 중에서 신뢰도 점수가 가장 높은 제1 제스처를 1차적으로 인식한다. 또는, 제어부(120)는 신뢰도 점수가 미리 설정된 기준 이상인 제스처를 1차적으로 인식할 수도 있다.

다시 도 5로 돌아와서, 502 단계에서 제어부(120)는 1차적으로 인식된 제스처에 대응되는 수학식에, 제스처를 취한 신체부위에 포함된 특징 포인트들 간 거리를 대입함으로써 1차적으로 인식된 제스처를 검증한다. 이를 위해, 복수의 종류의 제스처 각각에 대해서 검증을 위한 수학식이 미리 마련될 수 있다. 이때, 수학식은 신체부위에 포함된 특징 포인트들 중 적어도 둘 이상의 특징 포인트들 간 거리를 변수로 할 수 있다. 제스처를 검증하기 위한 수학식의 예시, 그리고 수학식에 특정 포인트들 간 거리를 대입함으로써 제스처를 검증하는 구체적인 예시는 아래에서 도 7을 참조하여 설명한다.

502 단계의 구체적인 예시를 도 6을 참조하여 설명한다. 도 6을 참조하면, 검증 프로세스(620)에서 영상으로부터 제스처를 취한 신체부위에 포함된 특징 포인트들을 추출하고, 1차적 인식 프로세스(610)에서 선택된 제1 제스처에 대응되는 수학식을 적용한다. 다시 말해, 제1 제스처에 대응되는 수학식에, 제스처를 취한 신체부위로부터 추출한 특징 포인트들 간 거리를 대입한다. 마지막으로, 수학식의 출력 값에 기초하여, 사용자(400)가 취한 제스처가 제1 제스처가 맞는지 검증할 수 있다.

이하에서는, 도 7을 참조하여 수학식을 이용하여 제스처를 검증하는 구체적인 예시에 대해서 설명한다.

도 7을 참조하면, 손은 흔히 “OK”라고 하는 제스처를 취하고 있으며, 손에는 특징 포인트들이 식별하기 위한 번호와 함께 표시되어 있다. 손이 “OK” 제스처를 취한 것이 맞는지를 검증하기 위해 다음의 수학식들을 이용할 수 있다.

[수학식 1]

v1=Lerp(p_{0},p_{1};t)

[수학식 2]

v2=Lerp(p_{2},p_{3};t)

[수학식 3]

v3=Lerp(p_{4},p_{5};t)

[수학식 4]

v4=Lerp(v2,min_v/D3;t)

[수학식 5]

R=(v1/1.1)*(v2/1.1)*(v3/1.1)*(v4/0.55)

위 수학식들에 포함된 상수 및 변수들에 대해서 설명하면 다음과 같다. t는 0.9의 값을 갖는 상수이다. p_{0}는 0번 포인트와 9번 포인트 사이의 거리에 해당하는 값이다. p_{1}은 0번 포인트와 12번 포인트 사이의 거리에 해당하는 값이다. p_{2}는 0번 포인트와 13번 포인트 사이의 거리에 해당하는 값이다. p_{3}은 0번 포인트와 16번 포인트 사이의 거리에 해당하는 값이다. p_{4}는 0번 포인트와 17번 포인트 사이의 거리에 해당하는 값이다. p_{5}는 0번 포인트와 20번 포인트 사이의 거리에 해당하는 값이다. D1은 4번 포인트와 8번 포인트 사이의 거리에 해당하는 값이다. D2는 8번 포인트와 3번 포인트 사이의 거리에 해당하는 값이다. D3는 3번 포인트와 2번 포인트 사이의 거리에 해당하는 값이다. min_v는 D1과 D2 중 최소값을 의미한다. 그리고, Lerp는 선형보간(Linear Interpolation)을 의미한다.

손으로부터 특징 포인트들을 추출하고 수학식 1 내지 5를 이용하여 R 값을 구한 후, 1/R이 0.9보다 크면 "OK" 제스처가 맞다고 판단하고, 1/R이 0.9 이하이면 "OK" 제스처가 아니라고 판단할 수 있다.

이와 같이 특정 제스처를 취한 것이 맞는지를 검증하기 위한 수학식이 제스처의 종류별로 마련될 수 있으며, 제어부(120)는 이러한 수학식들을 이용하여 1차적으로 인식된 제스처가 맞는지 검증할 수 있다.

다시 도 3으로 돌아오면, 지금까지 설명한 방식에 따라서 제스처를 인식한 후 304 단계에서 제어부(120)는 인식된 제스처에 매핑(mapping)하여 새로운 커맨드를 저장하거나, 인식된 제스처에 대응되도록 미리 저장된 커맨드에 따른 동작을 수행할 수 있다.

예를 들어, 사용자(400)로부터 제스처 설정 등록 요청이 있는 경우, 제어부(120)는 사용자(400)가 취한 제스처를 인식하고, 인식된 제스처에 사용자가 선택한 커맨드를 매핑하여 저장할 수 있다. 이를 통해, 사용자(400)는 시스템을 자신에게 맞도록 커스터마이징할 수 있다.

또는, 사용자(400)가 제스처를 통해 디스플레이 장치(300) 제어를 시도하는 경우, 제어부(120)는 사용자(400)가 취한 제스처를 인식하고, 인식된 제스처에 대응되도록 미리 저장된 커맨드에 따라 디스플레이 장치(300)를 제어할 수 있다.

이상 설명한 실시예에서와 같이 사용자의 제스처를 인식한 결과에 따라 디바이스를 제어함에 있어서, 사용자가 제스처를 취한 신체부위에 따라서 다른 방식으로 제스처 인식을 수행함으로써 제스처 인식의 속도 및 정확도를 동시에 향상시키는 효과를 기대할 수 있다.

또한, 사용자의 선택이나 경험에 따라서 제공하는 템플릿의 형태를 달리 함으로써 콘텐츠 제작의 진입 장벽을 낮춰, 3차원 모델링에 대한 지식이 부족한 사용자도 쉽게 증강현실 콘텐츠를 제작할 수 있는 효과를 기대할 수 있다.

이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.

구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.

뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.

도 3 내지 도 7을 통해 설명된 실시예들에 따른 제스처 인식을 통한 디바이스 제어 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.

또한 도 3 내지 도 7을 통해 설명된 실시예들에 따른 제스처 인식을 통한 디바이스 제어 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.

따라서 도 3 내지 도 7을 통해 설명된 실시예들에 따른 제스처 인식을 통한 디바이스 제어 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.

여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.

또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.

그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.

상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 명세서를 통해 보호 받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.

100: 서버 110: 통신부
120: 제어부 130: 저장부
200: 카메라 300: 디스플레이 장치

Claims

제스처 인식을 통한 디바이스 제어 방법에 있어서,
사용자를 촬영한 영상을 분석하는 단계;
상기 영상에서 상기 사용자가 제스처를 취한 신체부위를 판단하는 단계;
상기 판단된 신체부위에 대응되도록 미리 설정된 방식을 통해, 상기 제스처를 인식하는 단계; 및
상기 인식된 제스처에 매핑(mapping)하여 새로운 커맨드를 저장하거나, 상기 인식된 제스처에 대응되도록 미리 저장된 커맨드에 따른 동작을 수행하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 제스처를 인식하는 단계는,
상기 판단된 신체부위가 속한 그룹을 확인하는 단계; 및
상기 판단된 신체부위가 제1 그룹에 속하는 경우 딥러닝 네트워크만을 이용하는 1단계 인식방식을 통해 상기 제스처를 인식하고, 상기 판단된 신체부위가 제2 그룹에 속하는 경우 딥러닝 네트워크 및 수학식을 이용하는 2단계 인식방식을 통해 상기 제스처를 인식하는 단계를 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 수학식은, 상기 신체부위에 포함된 특징 포인트(feature point)들 중 적어도 둘 이상의 특징 포인트들 간 거리를 변수로 하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 판단된 신체부위가 속한 그룹을 확인하는 단계는,
상기 판단된 신체부위에 포함된 특징 포인트들의 개수가 미리 설정된 기준 미만이면 상기 제1 그룹에 속하는 것으로 판단하고, 상기 판단된 신체부위에 포함된 특징 포인트들의 개수가 미리 설정된 기준 이상이면 상기 제2 그룹에 속하는 것으로 판단하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 판단된 신체부위가 속한 그룹을 확인하는 단계는,
상기 판단된 신체부위가 안면 또는 손이라면 상기 제2 그룹에 속하는 것으로 판단하고, 그 외의 경우에는 상기 제1 그룹에 속하는 것으로 판단하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 2단계 인식 방식은,
상기 딥러닝 네트워크를 통해 1차적으로 제스처를 인식하고,
상기 1차적으로 인식된 제스처에 대응되는 수학식에, 상기 신체부위에 포함된 특징 포인트들 간 거리를 대입함으로써 상기 1차적으로 인식된 제스처를 검증하는 것을 특징으로 하는 방법.
제6항에 있어서,
상기 2단계 인식 방식은,
상기 딥러닝 네트워크로부터 출력된 결과 중에서 신뢰도 점수(confidence score)가 가장 높은 제스처를 1차적으로 인식하고,
상기 수학식의 출력 값이 미리 설정된 기준 이상인 경우 상기 검증에 성공한 것으로 판단하는 것을 특징으로 하는 방법.
제1항에 기재된 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
제스처 인식을 통한 디바이스 제어 장치에 의해 수행되며, 제1항에 기재된 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램.
제스처 인식을 통한 디바이스 제어 장치에 있어서,
외부 장치와 데이터 송수신을 위한 통신을 수행하는 통신부;
제스처에 대응되는 커맨드에 대한 정보 및 제스처 인식을 통해 디바이스를 제어하기 위한 프로그램이 저장되는 저장부; 및
상기 프로그램을 실행함으로써 제스처 인식을 통해 디바이스를 제어하는 제어부를 포함하며,
상기 제어부는,
상기 통신부를 통해 사용자를 촬영한 영상을 수신하여 상기 영상을 분석하고, 상기 영상에서 상기 사용자가 제스처를 취한 신체부위를 판단하고, 상기 판단된 신체부위에 대응되도록 미리 설정된 방식을 통해 상기 제스처를 인식하고, 상기 인식된 제스처에 매핑(mapping)하여 새로운 커맨드를 저장하거나, 상기 인식된 제스처에 대응되도록 미리 저장된 커맨드에 따른 동작을 수행하는, 장치.
제10항에 있어서,
상기 제어부는 상기 제스처를 인식함에 있어서,
상기 판단된 신체부위가 속한 그룹을 확인하고, 상기 판단된 신체부위가 제1 그룹에 속하는 경우 딥러닝 네트워크만을 이용하는 1단계 인식방식을 통해 상기 제스처를 인식하고, 상기 판단된 신체부위가 제2 그룹에 속하는 경우 딥러닝 네트워크 및 수학식을 이용하는 2단계 인식방식을 통해 상기 제스처를 인식하는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 수학식은, 상기 신체부위에 포함된 특징 포인트(feature point)들 중 적어도 둘 이상의 특징 포인트들 간 거리를 변수로 하는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 제어부는 상기 판단된 신체부위가 속한 그룹을 확인함에 있어서,
상기 판단된 신체부위에 포함된 특징 포인트들의 개수가 미리 설정된 기준 미만이면 상기 제1 그룹에 속하는 것으로 판단하고, 상기 판단된 신체부위에 포함된 특징 포인트들의 개수가 미리 설정된 기준 이상이면 상기 제2 그룹에 속하는 것으로 판단하는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 제어부는 상기 판단된 신체부위가 속한 그룹을 확인함에 있어서,
상기 판단된 신체부위가 안면 또는 손이라면 상기 제2 그룹에 속하는 것으로 판단하고, 그 외의 경우에는 상기 제1 그룹에 속하는 것으로 판단하는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 2단계 인식 방식은,
상기 딥러닝 네트워크를 통해 1차적으로 제스처를 인식하고,
상기 1차적으로 인식된 제스처에 대응되는 수학식에, 상기 신체부위에 포함된 특징 포인트들 간 거리를 대입함으로써 상기 1차적으로 인식된 제스처를 검증하는 것을 특징으로 하는 장치.
제15항에 있어서,
상기 2단계 인식 방식은,
상기 딥러닝 네트워크로부터 출력된 결과 중에서 신뢰도 점수(confidence score)가 가장 높은 제스처를 1차적으로 인식하고,
상기 수학식의 출력 값이 미리 설정된 기준 이상인 경우 상기 검증에 성공한 것으로 판단하는 것을 특징으로 하는 장치.