KR20210069491A

KR20210069491A - 전자 장치 및 이의 제어 방법

Info

Publication number: KR20210069491A
Application number: KR1020190159394A
Authority: KR
Inventors: 김용성; 반대현; 이동완; 이홍표; 레이 장
Original assignee: 삼성전자주식회사
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2021-06-11
Also published as: US11514650B2; EP4004878A1; US20210166486A1; EP4004878A4; WO2021112406A1

Abstract

전자 장치가 개시된다. 본 전자 장치는 디스플레이, 디스플레이가 영상을 표시하는 전면에 대향되는 후면을 촬상하는 카메라 및 카메라에 의해 촬상된 영상에 기초하여 가상 객체를 렌더링하고, 촬상된 영상에서 사용자 신체가 검출되면 기학습된 학습 모델을 이용하여 검출된 사용자 신체에 대한 복수의 관절 좌표를 추정하고, 추정된 복수의 관절 좌표, 렌더링된 가상 객체 및 촬상된 영상을 이용하여 증강현실 이미지를 생성하고, 생성된 증강현실 이미지가 표시되도록 디스플레이를 제어하는 프로세서를 포함하고, 프로세서는 추정된 관절 좌표를 기초로 사용자 신체가 가상 객체를 터치하는 지를 확인하고, 터치가 확인되면 가상 객체의 투과율을 변경한다.

Description

전자 장치 및 이의 제어 방법{Electronic apparatus and Method for controlling the display apparatus thereof}

본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로, 더욱 상세하게는 카메라가 촬상한 영상에 가상 객체를 렌더링하고, 렌더링된 가상 객체 및 촬상된 영상을 이용하여 증강현실 이미지를 표시하는 전자 장치 및 이의 제어 방법에 관한 것이다.

증강현실(Augmented Reality, AR) 기술은 현실의 이미지나 배경에 3차원 가상 이미지를 겹쳐서 하나의 영상으로 보여주는 기술이다. 증강현실 기술은 스마트폰, 자동차 앞 유리에 HUD(Head-Up Display)로 구현되는 등 비디오 게임뿐만 아니라 일상 생활에서도 다양하게 활용되고 있다.

다만, 종래의 증강현실 기술의 경우, 카메라로 받은 이미지 위에 가상 객체를 덮어쓰는 형식으로 영상을 출력하였고, 사용자의 손이 가상 객체보다 카메라에 가까이 있는 경우에도, 가상 객체가 사용자의 손 위에 형성되어 가상 객체보다 카메라에 멀리 있는 것처럼 보일 수 있다는 문제점이 존재하였다.

또한, 종래의 증강현실 기술은 사용자와 가상의 객체간의 상호 작용을 위하여 복수의 카메라가 다양한 시점으로 사용자 및 공간을 촬상해야 하는 문제점이 존재하였고, 복수의 카메라가 촬상한 영상을 실시간으로 처리하기 위하여 고성능의 장비가 필요하다는 어려움이 존재하였다.

본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 하나의 카메라가 촬상한 영상에 가상 객체를 렌더링하고, 렌더링된 가상 객체 및 촬상된 영상을 이용하여 증강현실 이미지를 표시하는 전자 장치 및 이의 제어 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는 디스플레이; 상기 디스플레이가 영상을 표시하는 전면에 대향되는 후면을 촬상하는 카메라; 및 상기 카메라에 의해 촬상된 영상에 기초하여 가상 객체를 렌더링하고, 상기 촬상된 영상에서 사용자 신체가 검출되면 기학습된 학습 모델을 이용하여 상기 검출된 사용자 신체에 대한 복수의 관절 좌표를 추정하고, 상기 추정된 복수의 관절 좌표, 상기 렌더링된 가상 객체 및 상기 촬상된 영상을 이용하여 증강현실 이미지를 생성하고, 상기 생성된 증강현실 이미지가 표시되도록 상기 디스플레이를 제어하는 프로세서;를 포함하고, 상기 프로세서는, 상기 추정된 관절 좌표를 기초로 상기 사용자 신체가 상기 가상 객체를 터치하는 지를 확인하고, 상기 터치가 확인되면 상기 가상 객체의 투과율을 변경할 수 있다.

그리고, 상기 프로세서는, 상기 검출된 사용자 신체가 손이면, 기학습된 학습 모델을 이용하여 손가락 마디 및 손바닥에 대응되는 복수의 관절 좌표를 추정할 수 있다.

또한, 상기 프로세서는, 상기 추정된 복수의 관절 좌표를 기초로 가상의 손 객체 및 상기 가상 객체를 렌더링할 수 있다.

또한, 상기 프로세서는, 상기 터치에 대응되는 상기 가상 객체의 일 영역의 투과율을 변경할 수 있다.

그리고, 상기 프로세서는, 상기 터치가 확인되면, 상기 사용자 신체의 투과율을 변경하여 상기 사용자 신체를 투명하게 표시할 수 있다.

또한, 상기 프로세서는, 상기 카메라로부터 상기 촬상된 영상의 depth 데이터를 수신하고, 상기 수신된 depth 데이터를 더 이용하여 상기 증강현실 이미지를 생성할 수 있다.

그리고, 상기 기학습된 학습 모델은, CNN(Convolutional Neural Network)를 이용하여, 손 이미지를 포함하는 복수의 학습 데이터를 통해 학습될 수 있다.

그리고, 상기 복수의 학습 데이터는, 상기 손 이미지의 적어도 일 영역에 3D 좌표를 매칭한 제1 데이터 및 상기 손 이미지에 3D 좌표가 매칭되지 않은 제2 데이터를 포함하고, 상기 기학습된 학습 모델은, 상기 제1 데이터 및 상기 제2 데이터를 기초로 상기 CNN의 가중치를 업데이트하여 학습될 수 있다.

한편, 상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은 디스플레이가 영상을 표시하는 전면에 대향되는 후면을 촬상하는 단계; 상기 촬상된 영상에 기초하여 가상 객체를 렌더링하는 단계; 상기 촬상된 영상에서 사용자 신체가 검출되면 기학습된 학습 모델을 이용하여 상기 검출된 사용자 신체에 대한 복수의 관절 좌표를 추정하는 단계; 상기 추정된 복수의 관절 좌표, 상기 렌더링된 가상 객체 및 상기 촬상된 영상을 이용하여 증강현실 이미지를 생성하는 단계; 상기 생성된 증강현실 이미지를 표시하는 단계; 및 상기 추정된 관절 좌표를 기초로 상기 사용자 신체가 상기 가상 객체를 터치하는 지를 확인하고, 상기 터치가 확인되면 상기 가상 객체의 투과율을 변경하는 단계;를 포함할 수 있다.

그리고, 상기 추정하는 단계는, 상기 검출된 사용자 신체가 손이면, 기학습된 학습 모델을 이용하여 손가락 마디 및 손바닥에 대응되는 복수의 관절 좌표를 추정할 수 있다.

또한, 상기 렌더링하는 단계는, 상기 추정된 복수의 관절 좌표를 기초로 가상의 손 객체 및 상기 가상 객체를 렌더링할 수 있다.

또한, 상기 변경하는 단계는, 상기 터치에 대응되는 상기 가상 객체의 일 영역의 투과율을 변경할 수 있다.

그리고, 본 제어 방법은 상기 터치가 확인되면, 상기 사용자 신체의 투과율을 변경하여 상기 사용자 신체를 투명하게 표시하는 단계를 더 포함할 수 있다.

또한, 상기 생성하는 단계는, 상기 카메라로부터 상기 촬상된 영상의 depth 데이터를 수신하고, 상기 수신된 depth 데이터를 더 이용하여 상기 증강현실 이미지를 생성할 수 있다.

또한, 상기 복수의 학습 데이터는, 상기 손 이미지의 적어도 일 영역에 3D 좌표를 매칭한 제1 데이터 및 상기 손 이미지에 3D 좌표가 매칭되지 않은 제2 데이터를 포함하고, 상기 기학습된 학습 모델은, 상기 제1 데이터 및 상기 제2 데이터를 기초로 상기 CNN의 가중치를 업데이트하여 학습될 수 있다.

도 1은 본 개시의 일 실시 예에 따른, 전자 장치의 동작을 개략적으로 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 간략히 도시한 블록도이다.
도 3은 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 상세히 도시한 블록도이다.
도 4a 및 도 4b는 본 개시의 일 실시 예에 따른, 복수의 관절 좌표 추정 과정을 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시 예에 따른, 전자 장치에 의해 표시되는 증강현실 이미지를 설명하기 위한 도면이다.
도 6은 본 개시의 일 실시 예에 따른, 사용자의 신체에 가상의 손 객체를 렌더링 하는 과정을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시 예에 따른, 객체 터치에 대응되는 이벤트를 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시 예에 따른, 객체 터치에 대응되는 이벤트를 설명하기 위한 도면이다.
도 9은 본 개시의 일 실시 예 따른, 전자 장치의 제어 방법을 설명하기 위한 순서도이다.

이하에서 설명되는 실시 예는 본 개시의 이해를 돕기 위하여 예시적으로 나타낸 것이며, 본 개시는 여기서 설명되는 실시 예들과 다르게 다양하게 변형되어 실시될 수 있음이 이해되어야 할 것이다. 다만, 이하에서 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성요소에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명 및 구체적인 도시를 생략한다. 또한, 첨부된 도면은 개시의 이해를 돕기 위하여 실제 축척대로 도시된 것이 아니라 일부 구성요소의 치수가 과장되게 도시될 수 있다.

본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다.

본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

그리고, 본 명세서에서는 본 개시의 각 실시 예의 설명에 필요한 구성요소를 설명한 것이므로, 반드시 이에 한정되는 것은 아니다. 따라서, 일부 구성요소는 변경 또는 생략될 수도 있으며, 다른 구성요소가 추가될 수도 있다. 또한, 서로 다른 독립적인 장치에 분산되어 배치될 수도 있다.

이하에서는 도면을 참조하여 본 개시에 대해 더욱 상세히 설명하도록 한다.

도 1은 본 개시의 일 실시 예에 따른, 전자 장치의 동작을 개략적으로 설명하기 위한 도면이다. 도 1에서 도시된 바와 같이, 사용자는 전자 장치(100)를 착용하고, 사용자가 전자 장치(100)에서 표시되는 증강현실 이미지(11)를 이용하여 가상 객체(1)와 인터렉션하는 모습이 도시되어 있다.

여기서, 전자 장치(100)는 카메라 및 디스플레이를 포함하는 장치로, 도 1에 도시된 바와 같이, 전자 장치(100)는 사용자가 착용할 수 있는 착용형 AR 글라스 형태로 구현될 수 있다. 또는 일 실시 예로, 통신 기능을 포함하는 디스플레이 장치, 스마트폰, 랩탑 PC, 노트북 컴퓨터, 데스크탑 PC, 서버, 카메라 장치, 웨어러블 장치 중 적어도 하나로 구현될 수 있다.

전자 장치(100)는 디스플레이를 이용하여 사용자에게 증강현실 이미지(11)를 제공하고, 전자 장치(100)는 카메라를 이용하여 디스플레이가 이미지를 표시하는 전면에 대향되는 후면을 촬상하여 사용자의 손(15)을 움직임으로써 증강현실 이미지(11)에서 가상 객체(1)와 사용자 신체(10)를 인터렉션을 할 수 있다.

여기서, 증강현실 이미지(11)는 전자 장치(100)가 디스플레이를 통하여 사용자에게 제공되는 이미지로, 증강현실 이미지(11)는 사용자 신체(10) 및 가상 객체(1)가 표시될 수 있다. 또한, 증강현실 이미지(11)는 사용자가 존재하는 공간을 전자 장치(100)에 포함된 카메라가 촬상하고, 촬상된 영상을 통하여 실제로 존재하는 물체 및 주변 환경을 사용자에게 제공할 수 있다.

전자 장치(100)의 전면에는 디스플레이가 배치되어 사용자에게 증강현실 이미지(11)를 제공할 수 있고, 전자 장치(100)의 후면에는 카메라가 배치되어 사용자 주변 및 사용자 신체를 촬상할 수 있다. 본 개시의 일 실시 예에 따르면, 전자 장치(100)는 사용자의 시선 방향에 따라, 즉, 1인칭 시점으로 사용자의 주변 및 사용자 신체를 촬상하고 이를 기초로 생성된 이미지를 제공하므로, 전자 장치(100)는 현실감 있는 증강현실(Augmented Reality) 이미지를 제공할 수 있다.

또한, 본 개시의 일 실시 예에 따르면, 전자 장치(100)는 하나의 카메라를 포함할 수 있다. 전자 장치(100)는 하나의 카메라를 이용하여 영상 처리의 실시간성을 보장할 수 있고, 고성능의 장치를 요구하지 않을 수 있다. 전자 장치(100)는 기학습된 학습 모델을 이용하여 사용자의 신체(예컨대, 손)이 일부만 촬상된 경우에도 사용자 신체의 3D 좌표를 추정할 수 있다. 또한, 전자 장치(100)는 하나의 카메라를 이용함에도 불구하고 사용자 신체의 정확한 위치 및 동작을 추정할 수 있고, 이를 바탕으로 사용자에게 가상 객체와 인터렉션이 가능한 서비스를 제공할 수 있다.

도 2는 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 간략히 도시한 블록도이다. 도 2에서 도시된 바와 같이, 전자 장치(100)는 카메라(110), 디스플레이(120) 및 프로세서(130)를 포함할 수 있다.

카메라(110)는 디스플레이(120)가 영상을 표시하는 전자 장치(100)의 전면에 대향되는 후면을 촬상할 수 있다(S210). 카메라(110)는 사용자가 존재하는 공간 및 사용자 신체를 촬상할 수 있다. 카메라(110)는 전자 장치(100)의 후면을 촬상하기 위하여, 전자 장치(100)의 후면 또는 측면에 배치될 수 있다. 카메라(110)는 전자 장치(100)의 후면 또는 측면에 배치되나, 전자 장치(100)는 도 1에서 도시된 바와 같이, 착용형 글라스 AR 장치 또는 스마트폰 등으로 구현될 수 있으므로, 카메라(110)는 사용자의 동선 변화 및 시선 변화에 따라 방향이 가변되어 촬상될 수 있다.

그리고, 카메라(110)는 프로세서(130)와 유무선 통신 방식으로 연결될 수 있다. 카메라(110)가 촬상한 영상은 프로세서(130)에 의하여 일련의 처리를 거친 후 사용자에게 실시간으로 제공될 수 있다. 또한, 카메라(110)가 촬상한 영상은 후술하는 프로세서(130)에 의하여 증강현실 이미지를 생성하는 기초로 이용될 수 있다. 여기서, 카메라(110)가 촬상한 영상은 RGB 데이터를 포함하는 RGB 이미지일 수 있다. 또는, 본 개시의 다른 실시 예에 따르면, 카메라(110)는 depth 데이터를 획득할 수 있는 3D 카메라일 수 있다. 카메라(110)가 촬상한 영상으로부터 depth 데이터를 획득하고, 프로세서(130)는 획득된 depth 데이터를 증강현실 이미지를 생성하는 기초로 이용할 수 있다.

디스플레이(120)는 전자 장치(100)의 전면에 배치될 수 있다. 또한, 디스플레이(120)는 프로세서(130)와 유무선으로 연결되고, 디스플레이(120)는 프로세서(130)의 제어에 따라 다양한 정보를 표시할 수 있다. 특히, 디스플레이(120)는 프로세서(130)에 의하여 생성된 증강현실 이미지를 표시할 수 있다(S250). 디스플레이(120)는 전자 장치(100)의 후면에 배치된 카메라(110)로부터 촬상된 영상에 기초하여 생성된 증강현실 이미지를 표시하므로, 디스플레이(120)가 표시하는 증강현실 이미지는 1인칭 시점 이미지일 수 있다.

그리고, 디스플레이(120)는 LCD, LED, OLED, QLED 등과 같은 일반적인 디스플레이의 형태로 구현될 수 있고, 다른 실시 예에 따르면, 디스플레이(120)는 투명 디스플레이로도 구현될 수 있다. 구체적으로, 디스플레이(120)는 투명한 재질로 구현되어, 전자 장치(100) 외부의 빛이 디스플레이(120)를 투과하여 사용자에게 도달할 수 있으며, 사용자는 사용자의 신체 및 외부 환경을 디스플레이(120)를 투과하여 관찰할 수 있다. 투명 디스플레이의 예로, 투명 LCD(Liquid Crystal Display)형, 투명 TFEL(Thin-Film Electroluminescent Panel)형, 투명 OLED형 등으로 구현될 수 있고, 투명한 스크린에 영상을 투사하여 디스플레이하는 형식(예를들어, HUD(Head-Up Display))으로 구현될 수도 있다. 디스플레이(120)가 투명 디스플레이로 구현되는 경우, 프로세서(130)는 가상 객체만을 디스플레이(120)에 표시되도록 디스플레이(120)를 제어할 수 있다.

프로세서(130)는 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 특히, 프로세서(130)는 카메라(110)에 의해 촬상된 영상에 기초하여 가상 객체를 렌더링하고, 촬상된 영상에서 사용자 신체가 검출되면 기학습된 학습 모델을 이용하여 검출된 사용자 신체에 대한 복수의 관절 좌표를 추정하고, 추정된 복수의 관절 좌표, 렌더링된 가상 객체 및 촬상된 영상을 이용하여 증강현실 이미지를 생성하고, 생성된 증강현실 이미지가 표시되도록 디스플레이(120)를 제어할 수 있다.

구체적으로, 프로세서(130)는 카메라(110)와 전기적으로 연결될 수 있고, 카메라(110)가 촬상한 영상을 포함한 데이터를 카메라(110)로부터 수신할 수 있다. 프로세서(130)는 카메라(110)에 의해 촬상된 영상에 기초하여 가상 객체를 렌더링할 수 있다(S220). 구체적으로, 렌더링은 카메라(110)가 촬상한 제1 이미지에 대응되도록 가상 객체를 포함하는 제2 이미지를 생성하는 것을 의미할 수 있다. 즉, 렌더링이란 촬상된 영상의 일정 영역에 대응되도록 가상 객체를 생성하는 것을 의미할 수 있다. 프로세서(130)는 촬상된 영상에 기초하여 가상 객체를 렌더링하므로, 렌더링된 가상 객체는 공간에 대한 depth 정보를 포함할 수 있다.

한편, 프로세서(130)는 촬상된 영상에서 사용자 신체가 검출되면 기학습된 학습 모델을 이용하여 검출된 사용자 신체에 대한 복수의 관절 좌표를 추정할 수 있다(S230). 구체적으로, 프로세서(130)는 촬상된 영상에 포함된 RGB 데이터를 이용하여 사용자 신체에 대한 복수의 관절 좌표를 추정할 수 있다. 우선, 프로세서(130)는 촬상된 영상에서 사용자 신체를 검출하고, 프로세서(130)는 촬상된 영상으로부터 사용자 신체를 포함하는 RGB 데이터를 추출할 수 있다. 그리고, 프로세서(130)는 추출된 RGB 데이터를 기학습된 학습 모델을 이용하여 사용자 신체의 동작, 모습, 예상 좌표를 추정할 수 있다. 또 다른 실시 예에 따르면, 카메라(110)가 촬상한 영상에 depth 데이터를 포함할 수 있으며, depth 데이터를 더 이용하여 예상 좌표를 추정할 수도 있다.

여기서, 기학습된 학습 모델은 CNN(Convolutional Neural Network)를 이용하여, 손 이미지를 포함하는 복수의 학습 데이터를 통해 학습된 학습 모델일 수 있다. 사용자 신체가 손일 때, 학습 모델을 이용하여 관절 좌표를 추정하는 방법은 도 4a 및 도 4b를 참조하여 구체적으로 후술하기로 한다.

그리고, 프로세서(130)는 추정된 복수의 관절 좌표, 렌더링된 가상 객체 및 촬상된 영상을 이용하여 증강현실 이미지를 생성할 수 있다(S240). 여기서 증강현실 이미지는 카메라에 의하여 촬상된 제1 이미지 및 가상 객체를 포함하는 제2 이미지를 정합(matching) 또는 캘리브레이션(calibration)하여 생성된 제3 이미지를 의미할 수 있다.

그리고, 프로세서(130)는 생성된 증강현실 이미지가 표시되도록 디스플레이(120)를 제어할 수 있다. 디스플레이(120)에 증강현실 이미지가 표시되면, 사용자는 증강현실 이미지를 통하여 가상 객체와의 인터렉션을 할 수 있다. 구체적으로, 프로세서(130)는 추정된 관절 좌표를 기초로 사용자 신체가 가상 객체를 터치하는 지를 확인하고, 객체 터치가 감지되면 객체 터치에 대응되는 이벤트를 수행할 수 있다. 여기서, 이벤트는 가상 객체의 투과율을 변경하는 것을 의미할 수 있다. 프로세서(130)는 생성된 증강현실 이미지에 포함된 가상 객체의 alpha value를 pixel 단위로 변경할 수 있다.

프로세서(130)는 사용자 신체와 가상 객체의 터치가 확인되면 가상 객체의 투과율을 변경할 수 있다(S260). 또는, 프로세서(130)는 터치에 대응되는 가상 객체의 일 영역의 투과율만을 변경할 수 있다. 즉, 프로세서(130)는 가상 객체에 대응되는 모든 pixel의 alpha value를 변경하거나, 가상 객체의 일 영역의 pixel의 alpha value만을 변경하여 가상 객체의 투과율을 변경할 수 있다.

그리고, 프로세서(130)는 추정된 관절 좌표가 렌더링된 가상 객체에 대응되는 좌표에 위치하는 지를 기초로 객체 터치를 확인할 수 있다. 또한, 프로세서(130)는 카메라(110)에 의해 실시간으로 촬상된 영상을 통하여 관절 좌표를 실시간 또는 기설정된 시간간격으로 추적할 수 있다. 도 1에서 상술한 바와 같이, 하나의 카메라를 통해 촬상된 영상만을 이용하고, 촬상된 영상의 RGB 데이터를 이용하여 사용자 신체에 대한 복수의 관절 좌표만을 추정하므로, 프로세서(130)는 영상 처리의 실시간성을 확보할 수 있다.

도 3은 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 상세히 도시한 블록도이다. 도 3에 도시된 바와 같이, 전자 장치(100)는 카메라(110), 디스플레이(120), 프로세서(130), 통신 인터페이스(140), 메모리(150) 및 센서(160)를 포함할 수 있다. 한편, 도 3에 도시된 카메라(110), 디스플레이(120) 및 프로세서(130)는 도 2에서 설명하였으므로, 중복되는 설명은 생략하기로 한다.

통신 인터페이스(140)는 전자 장치(100)의 각 구성 또는 외부 장치(미도시)와 통신을 수행할 수 있다. 통신 인터페이스(140)가 외부 장치와 연결되는 것은 제3 기기(예로, 중계기, 허브, 액세스 포인트, 서버, 게이트웨이 등)를 거쳐서 통신하는 것을 포함할 수 있다.

그리고, 통신 인터페이스(140)는 외부 장치와 통신을 수행하기 위하여 다양한 통신 모듈을 포함할 수 있다. 구체적으로, 통신 인터페이스(140)는 NFC 모듈, 무선 통신 모듈, 적외선 모듈 및 방송 수신 모듈 등을 포함할 수 있다.

통신 인터페이스(140)는 외부 장치로부터 전자 장치(100)의 동작과 관련된 정보를 수신할 수 있으며, 일 실시 예에 따르면, 통신 인터페이스(140)를 이용하여 외부 서버 및 장치로부터 기학습된 학습 모델을 수신할 수 있으며, 프로세서(130)는 외부 고성능의 서버 및 장치를 이용하여 사용자 신체에 대한 좌표를 추정하기 위해 통신 인터페이스(140)를 제어할 수 있다. 또한, 통신 인터페이스(140)는 전자 장치(100)에 저장된 정보를 업데이트 하기 위하여 이용될 수 있다.

메모리(150)는 전자 장치(100)의 구성요소에 관계된 인스트럭션(Instruction) 또는 데이터를 저장할 수 있다. 특히, 메모리(150)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(150)는 프로세서(130)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(150), 프로세서(130) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다. 또한, 메모리(150)에는 디스플레이(120)의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다.

또한, 메모리(150)는 증강현실 이미지를 표시하기 위한 데이터를 저장할 수 있다. 구체적으로, 메모리(150)는 카메라(110)에 의하여 촬상된 영상을 저장할 수 있고, 프로세서(130)에 의해 생성된 가상 객체를 포함하는 제2 이미지를 저장할 수 있다. 또한, 메모리(150)는 촬상된 영상 및 렌더링된 가상 객체를 기초로 생성된 증강현실 이미지를 저장할 수 있다. 또한, 메모리(150)는 프로세서(130)에 의하여 추정된 사용자 신체에 대한 복수의 관절 좌표가 실시간으로 저장할 수 있다.

센서(160)는 객체를 감지할 수 있다. 구체적으로, 센서(160)는 열, 빛, 온도, 압력, 소리 등의 물리적인 변화를 감지하여 객체를 감지할 수 있다. 그리고, 센서(160)는 감지한 객체에 대한 좌표 정보를 출력할 수 있다. 구체적으로, 센서(160)는 감지된 객체의 3D 포인트 정보를 획득하거나, 거리에 기초한 좌표 정보를 출력할 수 있다.

예를 들어, 센서(160)는 라이다(Lidar) 센서, 레이더(Radar) 센서, 적외선 센서, 초음파 센서, RF 센서, 뎁스(depth) 센서, 거리 측정 센서일 수 있다. 여기서, 센서(160)는 액티브(Active) 센서의 일종으로 특정 신호를 전송하여 ToF(Time of Flight)를 측정하는 방식을 이용할 수 있다. ToF는 비행시간 거리측정 방법으로, 펄스가 발사된 기준 시점과 측정 대상물에서 반사되어 되돌아온 펄스의 검출 시점 사이의 시간차를 측정하여 거리를 측정하는 방법일 수 있다.

도 4a 및 도 4b는 본 개시의 일 실시 예에 따른, 복수의 관절 좌표 추정 과정을 설명하기 위한 도면이다.

도 4a에는 사용자 신체(40)와 손가락 마디 및 손바닥에 대응되는 복수의 관절 좌표(41 내지 46)가 도시되어 있고, 도 4b에는 복수의 관절 좌표(41 내지 46)가 연결된 손 이미지가 도시되어 있다.

전자 장치(100)는 카메라(110)에 의해 촬상된 영상에서 검출된 사용자 신체가 손이면, 손가락 마디 및 손바닥에 대응되는 복수의 관절 좌표를 추정하는 방법으로 기학습된 학습 모델을 이용할 수 있다.

여기서, 학습 모델은 CNN(Convolutional Neural Network)를 이용하여, 사람의 손 이미지를 포함하는 복수의 학습 데이터 또는 훈련 데이터를 통해 학습될 수 있다. 여기서, 학습 데이터는 손 이미지의 적어도 일 영역에 3D 좌표를 입력한 데이터 및 손 이미지에 3D 좌표가 매칭되지 않은 데이터에 기초하여 학습될 수 있다. 우선, 손 이미지의 적어도 일 영역에 3D 좌표를 입력한 데이터를 학습 모델을 이용하여 학습할 수 있다. 이후, 손 이미지에 3D 좌표가 매칭되지 않은 데이터를 이용하여 학습 모델로부터 출력 데이터를 얻고, 출력 데이터와 손 이미지의 적어도 일 영역에 3D 좌표를 입력한 데이터와의 손실 함수 또는 오차를 계산할 수 있다. 계산된 손실 함수 또는 오차를 이용하여 CNN의 가중치를 업데이트 하는 과정을 통하여 학습 모델이 학습될 수 있다.

구체적으로, 도 4a에 도시된 바와 같이, 학습 데이터 또는 훈련 데이터는 손가락 끝과 손가락 마디를 포함하는 복수의 관절에 3D 좌표가 배정된 손 이미지일 수 있다.

그리고, 도 4b에 도시된 바와 같이, 학습 모델은 다양한 손의 모양 및 크기를 포함하는 손 이미지 각각에 도 4a에 도시된 바와 같이 21개 좌표를 각각 입력한 후 기계학습(머신러닝)되어 형성되거나 딥러닝을 통하여 학습될 수 있다. 즉, 도 4b에 도시된 손 이미지는 학습 모델을 학습하기 위한 학습 데이터 또는 훈련 데이터일 수 있다.

도 4a에는 각 손가락에 대응되는 20개의 포인트와 손바닥에 대응되는 1개의 포인트로, 총 21개의 포인트가 배치된 사용자 신체(40)이 도시되어 있다. 사용자 신체(40)에 포함된 21개의 포인트는 사용자 신체에 대한 복수의 관절 좌표를 추정하는 데 기초가 될 수 있다.

구체적으로, 학습 모델이 도 4a의 사용자 신체(40)에 포함된 21개의 포인트보다 많은 포인트를 포함하는 실험 데이터 또는 학습 데이터를 이용하여 학습되는 경우, 전자 장치(100)는 촬상된 영상에 포함된 사용자 신체의 관절 좌표 및 위치를 보다 정확하게 파악할 수 있다. 다만, 도 4a의 사용자 신체(40)에 포함된 포인트의 개수는 일 실시 예에 불과하며, 구현시에는 전자 장치(100)의 성능에 따라 설정된 포인트의 개수는 5개 내지 40개의 범위에서 적절하게 선택될 수 있다.

도 4b에 도시된 바와 같이, 복수의 손 이미지는 학습 모델을 학습하기 위한 학습 데이터 또는 훈련 데이터일 수 있다. 전자 장치(100)는 도 4b에 도시된 손 이미지를 학습하여 사용자의 관절 좌표를 추정할 수 있다. 특히, 전자 장치(100)는 손의 일부분, 예컨대 손가락이 다른 객체 또는 피사체에 의하여 가려진 경우에도 촬상된 일부 이미지만을 가지고 가려진 손가락의 좌표를 추정할 수 있다.

예를 들어, 학습 모델이 도 4b의 데이터를 학습하고, 도 4b의 데이터와 유사한 손가락의 이미지가 주어진 경우를 가정할 수 있다. 이 경우, 종래 기술에 따르면 다른 객체 또는 피사체에 의하여 가려진 손가락에 대한 RGB 및 depth 데이터를 얻지 못하고, 주어진 데이터만을 가지고 가려진 손가락에 대한 정확한 좌표를 획득할 수 없다. 다만, 본 개시에 따른 전자 장치(100)는 다른 객체 또는 피사체에 의하여 가려진 손가락에 대하여도 기학습된 학습 모델을 이용하여 좌표를 추정할 수 있다. 다만, 상술한 예는 설명의 편의를 위한 하나의 예로써, 본 개시의 일 실시 예에 따라 손의 좌표를 추정하기 위하여 손의 모든 동작 및 자세와 관련된 데이터가 요구되지는 않는다.

도 5는 본 개시의 일 실시 예에 따른, 전자 장치에 의해 표시되는 증강현실 이미지를 설명하기 위한 도면이다.

도 5를 참조하면, 사용자 신체(50)를 포함하는 제1 이미지(51), 가상 객체(5)를 포함하는 제2 이미지(52) 및 사용자 신체(50)와 가상 객체(5)가 포함된 제3 이미지(53)가 도시되어 있다.

제1 이미지(51)는 전자 장치(100)에 포함된 카메라에 의하여 촬상된 영상일 수 있다. 구체적으로, 전자 장치(100)는 전자 장치(100)에 포함된 카메라에 의하여 전자 장치(100)의 후면을 촬상되고, 촬상된 영상에는 사용자 신체(50)가 포함될 수 있다. 제1 이미지(51)에는 카메라에 의하여 촬상된 사용자 신체(50)가 도시되어 있다.

그리고, 제2 이미지(52)는 전자 장치(100)에 포함된 카메라가 촬상한 제1 이미지에 대응되도록, 전자 장치(100)가 촬상된 영상에 기초하여 가상 객체(5)를 렌더링하여 생성된 이미지일 수 있다. 전자 장치(100)에 의하여 렌더링된 가상 객체(5)는 촬상된 영상에 기초하여 생성되므로, 공간에 대한 depth 정보를 포함할 수 있다.

그리고, 제3 이미지(53)는 전자 장치(100)가 제1 이미지(51) 및 제2 이미지(52)를 정합(matching) 또는 캘리브레이션(calibration)하여 생성된 이미지일 수 있다.

구체적으로, 전자 장치(100)는 전자 장치(100)에 포함된 카메라가 촬상한 제1 이미지에서 사용자 신체를 포함하는 RGB 데이터를 추출할 수 있다. 그리고, 전자 장치(100)는 추출된 RGB 데이터를 기학습된 학습 모델을 이용하여 사용자 신체의 동작, 모습 및 예상 좌표를 추정할 수 있다. 또는, 전자 장치(100)는 촬상된 영상에 depth 데이터가 포함될 수 있고, depth 데이터를 이용하여 사용자 신체에 대한 복수의 관절 좌표를 추정할 수 있다.

예를 들어, 전자 장치(100)는 제1 이미지(51)에 포함된 사용자 신체(50)인 손을 검출하고, 전자 장치(100)는 기학습된 학습 모델을 이용하여 검출된 사용자 신체(50)의 좌표를 추정할 수 있다. 또는, 전자 장치(100)는 촬상된 영상으로부터 사용자 신체(50)의 depth 데이터를 추가로 이용하여 사용자 신체(50)의 좌표를 추정할 수 있다.

그리고, 전자 장치(100)는 추정된 사용자 신체(50)의 관절 좌표와 가상 객체(5)의 depth 정보를 이용하여, 제1 이미지(51) 및 제2 이미지(52)를 정합(matching) 또는 캘리브레이션(calibration) 할 수 있다. 전자 장치(100)는 사용자 신체의 추정된 좌표 및 가상 객체의 좌표를 이용하여 증강현실 이미지를 생성하므로, 사용자는 전자 장치(100)의 디스플레이를 통하여 표시되는 가상 객체와의 인터렉션이 가능할 수 있다.

도 6은 본 개시의 일 실시 예에 따른, 사용자의 신체에 가상의 손 객체를 렌더링 하는 과정을 설명하기 위한 도면이다.

도 6를 참조하면, 가상의 손 객체(60)를 포함하는 증강현실 이미지(61)가 도시되어 있다. 전자 장치(100)는 전술한 바와 같이, 사용자 신체에 대한 복수의 관절 좌표를 추정할 수 있고, 추정된 복수의 관절 좌표에 기초하여 가상의 손 객체를 렌더링할 수 있다.

구체적으로, 전자 장치(100)는 촬상된 영상으로부터 사용자의 손을 검출하고, 검출된 사용자의 손에 대한 복수의 관절 좌표를 추정할 수 있다. 전자 장치(100)는 추정된 복수의 관절 좌표와 대응되는 좌표에 가상의 손 객체를 렌더링하고, 전자 장치(100)는 사용자 신체 대신 가상의 손 객체를 출력할 수 있다. 전자 장치(100)는 사용자의 손의 움직임을 실시간으로 추적하고, 전자 장치(100)는 가상의 손 객체를 사용자의 손에 덧씌움으로써, 사용자는 증강현실 이미지(61)에서 가상의 손 객체(60)를 자신의 손처럼 움직일 수 있고, 가상 객체와 인터렉션을 할 수 있다.

전자 장치(100)가 객체 터치를 감지하면, 사용자 신체 또는 가상 객체 중 적어도 하나를 투명하게 표시할 수 있다. 도 7 및 도 9을 참조하여, 전자 장치(100)가 가상 객체 또는 사용자 신체를 투명하게 표시하는 실시 예를 설명한다.

도 7은 본 개시의 일 실시 예에 따른, 전자 장치가 객체 터치에 대응되는 이벤트를 설명하기 위한 도면이다.

도 7을 참조하면, 가상 객체(7) 및 사용자 신체(70)를 포함하는 증강현실 이미지(71)가 도시되어 있다. 전자 장치(100)는 추정된 관절 좌표를 기초로 사용자 신체(70)가 가상 객체(7)를 터치하는지를 확인하고, 객체 터치가 감지되면 객체 터치에 대응되는 이벤트를 수행할 수 있다. 여기서, 이벤트는 가상 객체(7)의 투과율 또는 표시되는 가상 객체(7)의 색을 변경하는 것을 의미할 수 있다. 한편, 전자 장치(100)는 생성된 증강현실 이미지(71)에 포함된 가상 객체(7)의 alpha value를 pixel 단위로 변경할 수 있다. 전자 장치(100)는 사용자 신체(70)와 가상 객체(7)의 터치가 확인되면 가상 객체(7)의 투과율을 변경할 수 있다. 또는, 전자 장치(100)는 터치에 대응되는 가상 객체(7)의 일 영역의 투과율만을 변경할 수 있다. 즉, 전자 장치(100)는 가상 객체(7)에 대응되는 모든 pixel의 alpha value를 변경하거나, 가상 객체(7)의 일 영역의 pixel의 alpha value만을 변경하여 가상 객체의 투과율을 변경할 수 있다.

도 8은 본 개시의 일 실시 예에 따른, 객체 터치에 대응되는 이벤트를 설명하기 위한 도면이다.

도 8을 참조하면, 가상 객체(8) 및 사용자 신체(80a, 80b)를 포함하는 증강현실 이미지(81)가 도시되어 있다. 전자 장치(100)는 추정된 관절 좌표를 기초로 사용자 신체(80a, 80b)가 가상 객체(8)를 터치하는지를 확인하고, 객체 터치가 감지되면 객체 터치에 대응되는 이벤트를 수행할 수 있다. 여기서, 이벤트는 렌더링된 가상의 손 객체(80b)의 투과율을 변경하는 것을 의미할 수 있다.

한편, 전자 장치(100)는 생성된 증강현실 이미지에 포함된 가상의 손 객체(80b)의 alpha value를 pixel 단위로 변경할 수 있다. 전자 장치(100)는 사용자 신체(80a, 80b)와 가상 객체(8)의 터치가 확인되면 가상의 손 객체(80b)의 투과율을 변경할 수 있다. 또는, 전자 장치(100)는 터치에 대응되는 가상의 손 객체(80b)의 일 영역의 투과율만을 변경할 수 있다.

구체적으로, 도 8을 참조하면, 가상 객체(8)는 전자 장치(100)에 의하여 렌더링되고, 공간 상의 일정한 영역(예컨대, 직육면체의 일정한 크기의 영역)을 차지할 수 있다. 그리고, 전자 장치(100)는 가상 객체(8)의 3D 좌표를 파악할 수 있고, 사용자 신체(80a, 80b)의 3D 좌표도 추정할 수 있다. 즉, 전자 장치(100)는 가상 객체(8)와 사용자 신체(80a, 80b)의 3D 좌표를 비교하여 객체 터치 여부를 판단할 수 있다. 그리고, 전자 장치(100)는 사용자 신체(80a, 80b) 중 일부가 가상 객체(8)와 객체 터치가 발생하는 지를 판단할 수 있다. 전자 장치(100)는 가상 객체(8)와 객체 터치가 발생한 것으로 판단된 사용자 신체 중 일부 영역(가상의 손 객체(80b))의 투과율을 변경하거나, 렌더링된 가상의 손 객체(80b)의 색을 반전할 수 있다.

도 9은 본 개시의 일 실시 예 따른, 전자 장치의 제어 방법을 설명하기 위한 순서도이다.

전자 장치(100)는 카메라, 디스플레이 및 프로세서를 포함할 수 있다. 전자 장치(100)는 디스플레이가 영상을 표시하는 전면에 대향되는 후면을 촬상할 수 있다(S910). 여기서, 전면 및 후면은 설명의 편의를 위하여 기재한 것으로, 제 1면 및 제2 면일 수 있다.

또한, 전자 장치(100)는 촬상된 영상에 기초하여 가상 객체를 렌더링할 수 있다(S920). 구체적으로, 카메라가 촬상된 영상을 제1 이미지 또는 제1 레이어라고 할 때, 전자 장치(100)는 제1 이미지 또는 제1 레이어를 기초로 가상 객체를 포함하는 제2 이미지 또는 제2 레이어를 생성할 수 있다.

그리고, 전자 장치(100)는 촬상된 영상에서 사용자 신체가 검출되면 기학습된 학습 모델을 이용하여 검출된 사용자 신체에 대한 복수의 관절 좌표를 추정할 수 있다(S930). 구체적으로, 전자 장치(100)는 촬상된 영상에서 검출된 사용자 신체가 손인 경우, 기학습된 학습 모델을 이용하여 손가락 마디 및 손바닥에 대응되는 복수의 관절 좌표를 추정할 수 있다. 여기서, 기학습된 학습 모델은 손 이미지를 포함하는 복수의 학습 데이터를 통해 학습될 수 있다.

그리고, 전자 장치(100)는 추정된 복수의 관절 좌표, 렌더링된 가상 객체 및 촬상된 영상을 이용하여 증강현실 이미지를 생성할 수 있다(S940). 그리고, 전자 장치(100)는 생성된 증강현실 이미지를 표시할 수 있다(S950). 전자 장치(100)는 표시된 증강현실 이미지에서 사용자 신체가 가상 객체를 터치하는지를 확인하고, 객체 터치가 감지되면 객체 터치에 대응되는 이벤트를 수행할 수 있다. 특히, 전자 장치(100)는 추정된 관절 좌표를 기초로 사용자 신체가 가상 객체를 터치하는 지를 확인하고, 터치가 확인되면 가상 객체의 투과율을 변경할 수 있다(S960). 전자 장치(100)는 생성된 증강현실 이미지에 포함된 가상 객체의 alpha value를 pixel 단위로 변경할 수 있고, 전자 장치(100)는 추정된 관절 좌표가 렌더링된 가상 객체에 대응되는 좌표에 위치하는 지를 기초로 객체 터치를 확인할 수 있다. 그리고, 전자 장치(100)는 터치에 대응되는 가상 객체의 일 영역의 투과율만을 변결할 수도 있다. 즉, 전자 장치(100)는 가상 객체에 대응되는 모든 pixel의 alpha value를 변경하거나, 가상 객체의 일 영역의 pixel의 alpha value만을 변경하여 가상 객체의 투과율을 변경할 수 있다.

한편, 본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 개시의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

100: 전자 장치
110: 카메라
120: 디스플레이
130: 프로세서

Claims

전자 장치에 있어서,
디스플레이;
상기 디스플레이가 영상을 표시하는 전면에 대향되는 후면을 촬상하는 카메라; 및
상기 카메라에 의해 촬상된 영상에 기초하여 가상 객체를 렌더링하고, 상기 촬상된 영상에서 사용자 신체가 검출되면 기학습된 학습 모델을 이용하여 상기 검출된 사용자 신체에 대한 복수의 관절 좌표를 추정하고, 상기 추정된 복수의 관절 좌표, 상기 렌더링된 가상 객체 및 상기 촬상된 영상을 이용하여 증강현실 이미지를 생성하고, 상기 생성된 증강현실 이미지가 표시되도록 상기 디스플레이를 제어하는 프로세서;를 포함하고,
상기 프로세서는,
상기 추정된 관절 좌표를 기초로 상기 사용자 신체가 상기 가상 객체를 터치하는 지를 확인하고, 상기 터치가 확인되면 상기 가상 객체의 투과율을 변경하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 검출된 사용자 신체가 손이면, 기학습된 학습 모델을 이용하여 손가락 마디 및 손바닥에 대응되는 복수의 관절 좌표를 추정하는 전자 장치.
제2항에 있어서,
상기 프로세서는,
상기 추정된 복수의 관절 좌표를 기초로 가상의 손 객체 및 상기 가상 객체를 렌더링하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 터치에 대응되는 상기 가상 객체의 일 영역의 투과율을 변경하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 터치가 확인되면, 상기 사용자 신체의 투과율을 변경하여 상기 사용자 신체를 투명하게 표시하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 카메라로부터 상기 촬상된 영상의 depth 데이터를 수신하고, 상기 수신된 depth 데이터를 더 이용하여 상기 증강현실 이미지를 생성하는 전자 장치.
제1항에 있어서,
상기 기학습된 학습 모델은,
CNN(Convolutional Neural Network)를 이용하여, 손 이미지를 포함하는 복수의 학습 데이터를 통해 학습되는 전자 장치.
제7항에 있어서,
상기 복수의 학습 데이터는,
상기 손 이미지의 적어도 일 영역에 3D 좌표를 매칭한 제1 데이터 및 상기 손 이미지에 3D 좌표가 매칭되지 않은 제2 데이터를 포함하고,
상기 기학습된 학습 모델은,
상기 제1 데이터 및 상기 제2 데이터를 기초로 상기 CNN의 가중치를 업데이트하여 학습되는 전자 장치.
전자 장치의 제어 방법에 있어서,
디스플레이가 영상을 표시하는 전면에 대향되는 후면을 촬상하는 단계;
상기 촬상된 영상에 기초하여 가상 객체를 렌더링하는 단계;
상기 촬상된 영상에서 사용자 신체가 검출되면 기학습된 학습 모델을 이용하여 상기 검출된 사용자 신체에 대한 복수의 관절 좌표를 추정하는 단계;
상기 추정된 복수의 관절 좌표, 상기 렌더링된 가상 객체 및 상기 촬상된 영상을 이용하여 증강현실 이미지를 생성하는 단계;상기 생성된 증강현실 이미지를 표시하는 단계; 및
상기 추정된 관절 좌표를 기초로 상기 사용자 신체가 상기 가상 객체를 터치하는 지를 확인하고, 상기 터치가 확인되면 상기 가상 객체의 투과율을 변경하는 단계;를 포함하는 제어 방법.
제9항에 있어서,
상기 추정하는 단계는,
상기 검출된 사용자 신체가 손이면, 기학습된 학습 모델을 이용하여 손가락 마디 및 손바닥에 대응되는 복수의 관절 좌표를 추정하는 제어 방법.
제10항에 있어서,
상기 렌더링하는 단계는,
상기 추정된 복수의 관절 좌표를 기초로 가상의 손 객체 및 상기 가상 객체를 렌더링하는 제어 방법.
제9항에 있어서,
상기 변경하는 단계는,
상기 터치에 대응되는 상기 가상 객체의 일 영역의 투과율을 변경하는 제어 방법.
제9항에 있어서,
상기 터치가 확인되면, 상기 사용자 신체의 투과율을 변경하여 상기 사용자 신체를 투명하게 표시하는 단계;를 더 포함하는 제어 방법.
제9항에 있어서,
상기 생성하는 단계는,
카메라로부터 상기 촬상된 영상의 depth 데이터를 수신하고, 상기 수신된 depth 데이터를 더 이용하여 상기 증강현실 이미지를 생성하는 제어 방법.
제9항에 있어서,
상기 기학습된 학습 모델은,
CNN(Convolution Neural Network)를 이용하여, 손 이미지를 포함하는 복수의 학습 데이터를 통해 학습되는 제어 방법.
제15항에 있어서,
상기 복수의 학습 데이터는,
상기 손 이미지의 적어도 일 영역에 3D 좌표를 매칭한 제1 데이터 및 상기 손 이미지에 3D 좌표가 매칭되지 않은 제2 데이터를 포함하고,
상기 기학습된 학습 모델은,
상기 제1 데이터 및 상기 제2 데이터를 기초로 상기 CNN의 가중치를 업데이트하여 학습되는 제어 방법.