KR20230100472A - 손의 관절에 관한 위치 정보를 획득하는 증강 현실 디바이스 및 그 동작 방법 - Google Patents

손의 관절에 관한 위치 정보를 획득하는 증강 현실 디바이스 및 그 동작 방법 Download PDF

Info

Publication number
KR20230100472A
KR20230100472A KR1020210190393A KR20210190393A KR20230100472A KR 20230100472 A KR20230100472 A KR 20230100472A KR 1020210190393 A KR1020210190393 A KR 1020210190393A KR 20210190393 A KR20210190393 A KR 20210190393A KR 20230100472 A KR20230100472 A KR 20230100472A
Authority
KR
South Korea
Prior art keywords
position coordinate
hand
image frame
value
coordinate value
Prior art date
Application number
KR1020210190393A
Other languages
English (en)
Inventor
정지원
권태혁
김덕호
박황필
이건일
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210190393A priority Critical patent/KR20230100472A/ko
Priority to US18/018,814 priority patent/US20240265641A1/en
Priority to PCT/KR2022/020874 priority patent/WO2023128446A1/ko
Publication of KR20230100472A publication Critical patent/KR20230100472A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/014Hand-worn input/output arrangements, e.g. data gloves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

외부 디바이스로부터 획득한 센서 측정값을 이용하여 비젼 기반 핸드 트래킹 기술을 통해 획득한 손의 관절의 위치 정보의 정확도를 향상시키는 증강 현실 디바이스 및 그 동작 방법을 제공한다. 본 개시의 일 실시예에 따른 증강 현실 디바이스는 웨어러블 디바이스로부터 획득한 IMU(Inertial Measurement Unit) 센서의 측정값을 이용하여, 카메라를 통해 촬영된 복수의 이미지 프레임으로부터 획득한 손의 관절의 3차원 위치 좌표값을 보정함으로써, 손의 관절의 3차원 위치 좌표값을 업데이트할 수 있다.

Description

손의 관절에 관한 위치 정보를 획득하는 증강 현실 디바이스 및 그 동작 방법 {AN AUGMENTED REALITY DEVICE FOR OBTAINING POSITION INFORMATION OF JOINTS OF USER'S HAND AND A METHOD FOR OPERATING THE SAME}
본 개시는 사용자의 손에 포함되는 관절의 위치 정보를 획득하는 증강 현실(Augmented Reality, AR) 디바이스 및 그 동작 방법에 관한 것이다. 구체적으로, 본 개시는 카메라를 통해 획득한 복수의 이미지 프레임으로부터 사용자의 손에 포함되는 복수의 관절에 관한 3차원 위치 좌표값을 획득하고, 이를 통해 실시간으로 관절의 위치를 추적(tracking)하는 증강 현실 디바이스 및 그 동작 방법에 관한 것이다.
증강 현실(Augmented Reality)은 현실 세계의 물리적 환경 공간이나 현실 객체(real world object) 상에 가상 이미지를 오버레이(overlay)하여 함께 보여주는 기술로서, 증강 현실 기술을 활용한 증강 현실 디바이스(예를 들어, 스마트 글래스(Smart Glass)가 정보 검색, 길 안내, 카메라 촬영과 같이 일상 생활에서 유용하게 사용되고 있다. 특히, 스마트 글래스는 패션 아이템으로도 착용되고, 실외 활동에 주로 사용되고 있다.
증강 현실 디바이스는 특성 상 터치 조작이 불가능하므로, 증강 현실 서비스를 제공하기 위해서는 입력 수단으로써 사용자의 손의 3차원적 포즈(pose)와 제스처(gesture)를 이용하는 핸드 인터랙션(hand interaction)이 입력 인터페이스로서 중요하다. 따라서, 보다 실감나는 증강 현실 기술의 구현을 위해서는 손에 포함되는 복수의 관절의 3차원 위치 정보를 획득하고, 3차원 위치 정보를 통해 손의 포즈(형태)를 정확하게 추적하고, 제스처를 인식하는 기술이 요구된다.
일반적인 증강 현실 디바이스는 사용자의 양 손의 자유로움을 보장하기 위하여 별도의 외부 입력 장치를 사용하지 않고, 증강 현실 디바이스에 탑재되는 카메라를 이용하여 촬영된 이미지로부터 사용자의 손을 인식하는 비젼 기반 핸드 트래킹(Vision-based Hand tracking) 기술을 사용하고 있다. 증강 현실 디바이스는 스테레오 카메라 또는 깊이 카메라(depth camera)를 이용하여 손의 관절에 관한 3차원 위치 좌표값을 획득한다. 다만, 카메라를 이용하여 손의 관절의 3차원 위치 좌표값을 획득하는 경우, 카메라의 FOV(Field of View) 영역 내에서만 인식이 가능하므로 손이 인식되지 않는 경우 또는 오인식되는 경우 관절의 3차원 위치 좌표값의 정확도가 낮아지는 문제점이 발생된다. 손의 관절에 관한 3차원 위치 좌표값의 정확도가 낮은 경우, 손의 포즈 또는 제스처를 미인식하거나 오인식할 수 있고, 이에 따라 증강 현실 서비스의 안정성 및 사용자 만족도가 하락할 수 있다.
따라서, 비젼 기반 핸드 트래킹 기술의 손의 인식 정확도 및 관절의 위치 정보의 정확도를 향상시키고, 안정성 있는 증강 현실 서비스를 제공하는 증강 현실 디바이스에 대한 요구가 증가하고 있다.
본 개시의 다양한 실시예는 외부 디바이스로부터 획득한 센서 측정값을 이용하여 비젼 기반 핸드 트래킹 기술을 통해 획득한 손의 관절의 위치 정보의 정확도를 향상시키는 증강 현실 디바이스 및 그 동작 방법을 제공하는 것을 목적으로 한다. 본 개시의 일 실시예에 따른 증강 현실 디바이스는 외부 디바이스로부터 획득한 IMU(Inertial Measurement Unit) 센서의 측정값을 이용하여, 카메라를 통해 촬영된 복수의 이미지 프레임으로부터 획득된 손의 관절의 3차원 위치 좌표값을 보정함으로써, 손의 관절의 3차원 위치 좌표값을 업데이트할 수 있다.
상술한 기술적 과제를 해결하기 위하여 본 개시는 일 실시예는 사용자의 손에 포함된 복수의 관절에 관한 위치 정보를 획득하는 증강 현실 디바이스(Augmented Reality device)를 제공한다. 본 개시의 일 실시예는, 외부 디바이스와 데이터 통신을 수행하는 통신 인터페이스, 상기 손을 촬영함으로써, 상기 손을 포함하는 복수의 이미지 프레임을 획득하는 카메라, 적어도 하나의 명령어들(instructions)를 저장하는 메모리, 및 상기 적어도 하나의 명령어들을 실행하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는 상기 복수의 이미지 프레임으로부터 상기 손을 인식하고, 상기 인식된 손에 포함된 복수의 관절의 3차원 위치 좌표값을 획득하고, 상기 통신 인터페이스를 통해, 상기 외부 디바이스의 IMU 센서에 의해 상기 복수의 관절 중 적어도 하나의 관절에 관하여 측정된 센서 측정값을 획득하고, 상기 손의 인식 결과에 기초하여, 상기 복수의 이미지 프레임 중 제1 이미지 프레임으로부터 획득된 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하고, 판단 결과에 따라 상기 복수의 이미지 프레임 중 제1 이미지 프레임의 이전 시점의 프레임인 제2 이미지 프레임으로부터 획득된 상기 복수의 관절의 제1 위치 좌표값, 상기 제1 이미지 프레임으로부터 획득된 상기 복수의 관절의 제2 위치 좌표값, 및 이미지 프레임 별 상기 센서 측정값의 변화값 중 적어도 하나에 기초하여 상기 제2 위치 좌표값을 보정함으로써, 상기 제2 위치 좌표값을 업데이트하는 증강 현실 디바이스를 제공할 수 있다.
본 개시의 일 실시예에서, 상기 외부 디바이스는 사용자의 손목, 손가락, 또는 손 바닥 중 적어도 하나의 부위에 착용하는 웨어러블 디바이스(wearable device)이고, 상기 복수의 관절 중 적어도 하나의 관절에 관한 6 DoF(6 Degree of Freedom)의 측정값을 획득하는 상기 IMU 센서를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서는 상기 제1 이미지 프레임으로부터의 손의 미인식 여부 또는 상기 적어도 하나의 관절의 3차원 위치 좌표값의 미획득 여부에 기초하여, 상기 제1 이미지 프레임으로부터 획득된 상기 적어도 하나의 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서는 상기 제1 위치 좌표값과 상기 제2 위치 좌표값 간의 차이값을 산출하고, 상기 산출된 차이값을 기 설정된 임계치와 비교하고, 비교 결과에 기초하여, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서는 상기 손의 위치의 상기 카메라의 FOV(Field Of View) 영역 내부와 외부 간 위치 이동 여부에 기초하여, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서는 상기 손의 위치가 상기 카메라의 FOV 영역의 외부에 위치한 경우 획득된 상기 제1 위치 좌표값과 상기 FOV 영역의 내부에서 촬영된 상기 제1 이미지 프레임으로부터 획득된 상기 제2 위치 좌표값의 차이값에 기초하여, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서는 상기 획득된 센서 측정값을 상기 복수의 이미지 프레임의 초당 프레임 수(Frame per second, FPS)에 기초하여 샘플링하고, 상기 샘플링된 센서 측정값을 시간 순서에 따라 대응되는 상기 복수의 이미지 프레임과 매칭시킴으로써, 상기 센서 측정값을 상기 복수의 이미지 프레임과 동기화(synchronization)하며, 상기 동기화된 센서 측정값을 이용하여, 상기 이미지 프레임 별 센서 측정값의 변화값을 산출할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서는 상기 제1 위치 좌표값에 제1 가중치를 적용하고, 상기 제2 위치 좌표값에 제2 가중치를 적용하고, 상기 제1 가중치가 적용된 상기 제1 위치 좌표값, 상기 제2 가중치가 적용된 상기 제2 위치 좌표값, 및 상기 이미지 프레임 별 센서 측정값의 변화값에 기초하여 상기 제2 위치 좌표값을 보정할 수 있다.
본 개시의 일 실시예에서, 상기 제1 가중치 및 상기 제2 가중치는 상기 제1 이미지 프레임 및 상기 제2 이미지 프레임에서의 상기 사용자의 손 인식 여부, 상기 제1 위치 좌표값과 상기 제2 위치 좌표값의 차이값, 및 상기 사용자의 손이 상기 카메라의 FOV 영역 내외부 이동 여부 중 적어도 하나에 기초하여 결정될 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서는 상기 복수의 관절에 관한 상기 제2 위치 좌표값 중 대표 관절의 위치 좌표값을 보정하고, 상기 보정된 대표 관절의 위치 좌표값에 기초하여, 상기 복수의 관절 중 나머지 관절 각각에 관한 상기 제2 위치 좌표값을 업데이트할 수 있다.
상술한 기술적 과제를 해결하기 위하여 본 개시의 다른 실시예는, 증강 현실 디바이스가 사용자의 손의 관절에 관한 위치 정보를 획득하는 방법을 제공한다. 본 개시의 일 실시예에 따른 방법은, 복수의 이미지 프레임으로부터 상기 사용자의 손을 인식하고, 상기 인식된 손에 포함된 복수의 관절의 3차원 위치 좌표값을 획득하는 단계, 외부 디바이스의 IMU 센서를 이용하여 상기 복수의 관절 중 적어도 하나의 관절에 관하여 측정된 센서 측정값을 획득하는 단계, 상기 손의 인식 결과에 기초하여, 상기 복수의 이미지 프레임 중 제1 이미지 프레임으로부터 획득된 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계, 판단 결과에 따라 상기 복수의 이미지 프레임 중 제1 이미지 프레임의 이전 시점의 프레임인 제2 이미지 프레임으로부터 획득된 상기 복수의 관절의 제1 위치 좌표값, 상기 제1 이미지 프레임으로부터 획득된 상기 복수의 관절의 제2 위치 좌표값, 및 이미지 프레임 별 상기 센서 측정값의 변화값 중 적어도 하나에 기초하여 상기 제2 위치 좌표값을 보정함으로써, 상기 제2 위치 좌표값을 업데이트하는 단계, 및 상기 업데이트된 제2 위치 좌표값을 출력하는 단계를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계는, 상기 제1 이미지 프레임으로부터의 손의 미인식 여부 또는 상기 적어도 하나의 관절의 3차원 위치 좌표값의 미획득 여부에 기초하여, 상기 제1 이미지 프레임으로부터 획득된 상기 적어도 하나의 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계는 상기 제2 이미지 프레임으로부터 획득된 상기 제1 위치 좌표값과 상기 제1 이미지 프레임으로부터 획득된 상기 제2 위치 좌표값 간의 차이값을 산출하는 단계, 상기 산출된 차이값을 기 설정된 임계치와 비교하는 단계, 및 비교 결과에 기초하여 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계는, 상기 손의 위치의 상기 카메라의 FOV(Field Of View) 영역 내부와 외부 간 위치 이동 여부에 기초하여 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계는, 상기 손의 위치가 상기 카메라의 FOV 영역의 외부에 위치한 경우 획득된 상기 제1 위치 좌표값과 상기 FOV 영역의 내부에서 촬영된 상기 제1 이미지 프레임으로부터 획득된 상기 제2 위치 좌표값의 차이값에 기초하여 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 방법은 상기 이미지 프레임 별 센서 측정값의 변화값을 획득하는 단계를 더 포함하고, 상기 이미지 프레임 별 센서 측정값의 변화값을 획득하는 단계는 상기 획득된 센서 측정값을 상기 복수의 이미지 프레임의 초당 프레임 수(Frame per second, FPS)에 기초하여 샘플링하는 단계, 상기 샘플링된 센서 측정값을 시간 순서에 따라 대응되는 상기 복수의 이미지 프레임과 매칭시킴으로써, 상기 센서 측정값을 상기 복수의 이미지 프레임과 동기화(synchronization)하는 단계, 및 상기 동기화된 센서 측정값을 이용하여 상기 이미지 프레임 별 센서 측정값의 변화값을 산출하는 단계를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 제2 위치 좌표값을 업데이트하는 단계는 상기 제1 위치 좌표값에 제1 가중치를 적용하고, 상기 제2 위치 좌표값에 제2 가중치를 적용하는 단계, 및 상기 제1 가중치가 적용된 상기 제1 위치 좌표값, 상기 제2 가중치가 적용된 상기 제2 위치 좌표값, 및 상기 이미지 프레임 별 센서 측정값의 변화값에 기초하여 상기 제2 위치 좌표값을 보정하는 단계를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 제1 가중치 및 상기 제2 가중치는 상기 제1 이미지 프레임 및 상기 제2 이미지 프레임에서의 상기 사용자의 손 인식 여부, 상기 제1 위치 좌표값과 상기 제2 위치 좌표값의 차이값, 및 상기 사용자의 손이 상기 카메라의 FOV 영역 내외부 이동 여부 중 적어도 하나에 기초하여 결정될 수 있다.
본 개시의 일 실시예에서, 상기 제2 위치 좌표값을 업데이트하는 단계는 상기 복수의 관절에 관한 상기 제2 위치 좌표값 중 대표 관절의 위치 좌표값을 보정하는 단계, 및 상기 보정된 대표 관절의 위치 좌표값에 기초하여, 상기 복수의 관절 중 나머지 관절 각각에 관한 상기 제2 위치 좌표값을 업데이트하는 단계를 포함할 수 있다.
상술한 기술적 과제를 해결하기 위하여, 본 개시의 다른 실시예는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 개시는, 다음의 자세한 설명과 그에 수반되는 도면들의 결합으로 쉽게 이해될 수 있으며, 참조 번호(reference numerals)들은 구조적 구성요소(structural elements)를 의미한다.
도 1a는 본 개시의 일 실시예에 따른 증강 현실 디바이스가 손의 관절에 관한 위치 정보를 획득하는 동작을 도시한 개념도이다.
도 1b는 본 개시의 일 실시예에 따른 증강 현실 디바이스가 웨어러블 디바이스로부터 획득한 센서 측정값을 이용하여 손의 관절의 위치 정보를 업데이트하는 동작을 도시한 도면이다.
도 2는 본 개시의 일 실시예에 따른 증강 현실 디바이스의 구성 요소를 도시한 블록도이다.
도 3은 본 개시의 일 실시예에 따른 증강 현실 디바이스의 동작 방법을 도시한 흐름도이다.
도 4a는 증강 현실 디바이스가 스테레오 카메라를 통해 손을 인식하는 영역을 도시한 도면이다.
도 4b는 본 개시의 일 실시예에 따른 증강 현실 디바이스가 스테레오 카메라를 이용하여 손의 관절의 위치 정보를 획득하는 동작을 설명하기 위한 도면이다.
도 4c는 본 개시의 일 실시예에 따른 증강 현실 디바이스가 스테레오 카메라를 통해 획득한 이미지로부터 손의 관절의 위치 정보를 획득하는 동작을 설명하기 위한 도면이다.
도 5는 증강 현실 디바이스가 깊이 카메라를 통해 손을 인식하는 영역을 도시한 도면이다.
도 6은 본 개시의 일 실시예에 따른 증강 현실 디바이스가 인식한 손에 포함된 복수의 관절에 관한 위치 좌표값을 도시한 도면이다.
도 7은 본 개시의 일 실시예에 따른 증강 현실 디바이스가 손의 관절의 위치 좌표값의 보정 필요 여부를 판단하는 동작을 도시한 도면이다.
도 8은 본 개시의 일 실시예에 따른 증강 현실 디바이스가 손의 관절의 위치 좌표값의 보정 필요 여부를 판단하는 방법을 도시한 흐름도이다.
도 9는 본 개시의 일 실시예에 따른 증강 현실 디바이스가 손의 관절의 위치 좌표값의 보정 필요 여부를 판단하는 동작을 도시한 도면이다.
도 10은 본 개시의 일 실시예에 따른 증강 현실 디바이스가 손의 관절의 위치 좌표값의 보정 필요 여부를 판단하는 동작을 도시한 도면이다.
도 11a는 본 개시의 일 실시예에 따른 증강 현실 디바이스가 웨어러블 디바이스로부터 IMU 센서의 측정값 데이터를 획득하는 동작을 도시한 도면이다.
도 11b는 본 개시의 일 실시예에 따른 증강 현실 디바이스가 웨어러블 디바이스로부터 IMU 센서의 측정값 데이터를 획득하는 동작을 도시한 도면이다.
도 12는 본 개시의 일 실시예에 따른 증강 현실 디바이스가 웨어러블 디바이스로부터 획득한 IMU 센서의 측정값을 이미지 프레임과 동기화하고, 이미지 프레임 별 센서 측정값의 변화값을 획득하는 방법을 도시한 흐름도이다.
도 13은 본 개시의 일 실시예에 따른 증강 현실 디바이스가 웨어러블 디바이스로부터 획득한 IMU 센서의 측정값을 이미지 프레임의 FPS(Frame Per Second)에 기초하여 동기화(synchronization)하는 동작을 설명하기 위한 도면이다.
도 14는 본 개시의 일 실시예에 따른 증강 현실 디바이스가 손의 관절의 3차원 위치 좌표값을 보정하는 방법을 도시한 흐름도이다.
도 15는 본 개시의 일 실시예에 따른 증강 현실 디바이스가 손의 관절의 3차원 위치 좌표값을 업데이트하는 방법을 도시한 흐름도이다.
본 명세서의 실시예들에서 사용되는 용어는 본 개시의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다.
본 개시 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 본 명세서에 기재된 "...부", "...모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 시스템"이라는 표현은, 그 시스템이 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
또한, 본 개시에서 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
본 개시에서, '증강 현실(Augmented Reality)'은 현실 세계(Real world)의 물리적 환경 공간 내에 가상 이미지를 함께 보여주거나 현실 객체와 가상 이미지를 함께 보여주는 것을 의미한다.
본 개시에서, '증강 현실 디바이스'는 증강 현실을 표현할 수 있는 장치로서, 일반적으로 사용자가 안면부(顔面部)에 착용하는 안경 형상의 증강 현실 안경 장치(Augmented Reality Glasses) 뿐만 아니라, 두부(頭部)에 착용하는 헤드 마운트 디스플레이 장치 (HMD : Head Mounted Display Apparatus)나, 증강 현실 헬멧(Augmented Reality Helmet) 등을 포괄한다. 그러나, 이에 한정되는 것은 아니고, 증강 현실 디바이스는 모바일 디바이스, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 데스크 탑, 태블릿 PC, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 캠코더, IPTV(Internet Protocol Television), DTV(Digital Television), 착용형 기기(wearable device) 등과 같은 다양한 전자 장치로 구현될 수 있다.
본 개시에서, 'FOV(Field of View)'는 사용자가 증강 현실 디바이스의 카메라 렌즈를 통해 한번에 관측할 수 있는 화각 내 영역을 의미한다.
본 개시에서, '웨어러블 디바이스'는 사용자의 신체 일부에 착용하고, 착용 상태로 휴대하는 장치이다. 예를 들어, 웨어러블 디바이스는 스마트 워치, 링, 팔찌, 발찌, 목걸리, 콘택트 렌즈, 의류 일체형 장치(예컨대, 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나일 수 있으나, 이에 한정되는 것은 아니다. 본 개시의 일 실시예에서, 웨어러블 디바이스는 IMU(Inertial Measurement Unit) 센서를 포함할 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
이하에서는 도면을 참조하여 본 개시의 실시예들을 상세하게 설명한다.
도 1a는 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 손의 관절에 관한 위치 정보를 획득하는 동작을 도시한 개념도이다.
도 1b는 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 웨어러블 디바이스(2000)로부터 획득한 센서 측정값을 이용하여 손의 관절의 위치 정보를 업데이트하는 동작을 도시한 도면이다.
도 1a를 참조하면, 증강 현실 디바이스(1000)는 사용자의 안면부(顔面部)에 착용하는 안경 형상의 증강 현실 안경 장치(Augmented Reality Glasses)일 수 있다. 다른 실시예에서, 증강 현실 디바이스(1000)는 사용자의 두부(頭部)에 착용하는 헤드 마운트 디스플레이 장치 (HMD : Head Mounted Display Apparatus) 또는 증강 현실 헬멧 등 장치로 구현될 수 있다. 그러나 이에 한정되는 것은 아니고, 증강 현실 디바이스(1000)는 예를 들어, 모바일 디바이스, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 데스크 탑, 태블릿 PC, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 캠코더, IPTV(Internet Protocol Television), DTV(Digital Television), 착용형 기기(wearable device) 등과 같은 다양한 전자 장치로 구현될 수 있다.
증강 현실 디바이스(1000)는 복수의 카메라(1100L, 1100R)를 포함할 수 있다. 증강 현실 디바이스(1000)는 복수의 카메라(1100L, 1100R)를 이용하여 사용자의 손을 촬영함으로써, 복수의 이미지 프레임을 획득할 수 있다. 도 1a에는 증강 현실 디바이스(1000)가 좌안 카메라(1100L) 및 우안 카메라(1100R)로 구성된 복수의 카메라를 포함하는 것으로 도시되었으나, 도시된 바와 같이 한정되는 것은 아니다. 본 개시의 다른 실시예에서, 증강 현실 디바이스(1000)는 단일 카메라를 포함하거나, 또는 3개 이상의 멀티 카메라를 포함할 수도 있다.
증강 현실 디바이스(1000)는 인공지능 모델(Artificial Intelligent model, AI model)을 이용하여 복수의 이미지 프레임으로부터 사용자의 손을 인식할 수 있다. 인공지능 모델은 딥 러닝(Deep Learning) 기반의 객체 인식 모델로 구성될 수 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 객체 인식 모델을 이용한 추론을 통해 복수의 이미지 프레임 각각으로부터 손을 인식할 수 있다.
그러나, 이에 한정되는 것은 아니고, 증강 현실 디바이스(1000)는 공지의 이미지 프로세싱(image processing) 기술을 이용하여 복수의 이미지 프레임으로부터 사용자의 손을 인식할 수 있다.
증강 현실 디바이스(1000)는 복수의 이미지 프레임으로부터 인식된 손에 포함된 복수의 특징점에 관한 위치 정보를 획득할 수 있다. 본 개시에서, '특징점(keypoint, feature point)'은 이미지 내에서 주위 배경과 구분되거나 식별이 용이한 지점을 의미하고, 손의 경우 복수의 특징점은 손에 포함된 복수의 관절일 수 있다. 본 개시에서, '관절(joint)'은 손에 포함되는 복수의 뼈가 서로 연결되는 부분으로서, 손가락, 손 등, 또는 손바닥에 포함되는 하나 이상의 부위를 나타낸다. 일 실시예에서, 증강 현실 디바이스(1000)는 손의 인식 결과에 따라 손에 포함된 복수의 관절의 x축 및 y축에 관한 위치 정보인 2차원 위치 좌표값을 획득할 수 있다.
증강 현실 디바이스(1000)는 스테레오 매핑(Stereo mapping)을 통해, 좌안 카메라(1100L)를 통해 획득한 좌안 이미지 및 우안 카메라(1100R)를 통해 획득한 우안 이미지로부터 손에 포함된 복수의 관절의 깊이 값(depth value)인 z축 위치 좌표값을 획득할 수 있다. 그러나, 이에 한정되는 것은 아니고, 증강 현실 디바이스(1000)는 깊이 센서(depth sensor)를 포함하고, 깊이 센서를 통해 손에 포함된 복수의 관절에 관한 깊이 값 정보인 z축 위치 좌표값을 획득할 수 있다.
증강 현실 디바이스(1000)는 외부 디바이스로부터 IMU 센서 측정값을 획득할 수 있다. 일 실시예에서, 외부 디바이스는 사용자의 신체 일부에 착용하는 웨어러블 디바이스(2000)일 수 있다. 도 1a에 도시된 실시예에서, 웨어러블 디바이스(2000)는 사용자의 손가락에 착용하는 스마트 링(smart ring)일 수 있다. 그러나, 이에 한정되는 것은 아니고, 다른 실시예에서 웨어러블 디바이스(2000)는 스마트 워치, 팔찌, 발찌, 목걸리, 콘택트 렌즈, 의류 일체형 장치(예컨대, 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나일 수 있다.
도 1b를 함께 참조하면, 웨어러블 디바이스(2000)는 IMU 센서(2100) 및 통신 인터페이스(2200)를 포함할 수 있다.
IMU(Inertial Measurement Unit) 센서(2100)는 가속도 계(accelerometer), 자이로스코프(gyroscope), 및 자력계(magnetometer)의 조합을 통해 디바이스의 이동 속도, 방향, 각도, 및 중력 가속도를 측정하도록 구성되는 센서이다. 웨어러블 디바이스(2000)는 IMU 센서(2100)를 이용하여, 손가락의 위치 및 움직임에 관한 정보를 획득할 수 있다. 일 실시예에서, 웨어러블 디바이스(2000)는 IMU 센서(2100)를 이용하여, 손가락의 3차원 위치 좌표값(x축, y축, 및 z축 좌표값) 및 3축 각속도 값(롤(roll), 요(yaw), 피치(pitch))을 포함하는 6 DoF(6 Degree of Freedom) 측정값을 획득할 수 있다.
웨어러블 디바이스(2000)는 통신 인터페이스(2200)를 통해, 증강 현실 디바이스(1000)와 근거리 무선 통신 네트워크를 통해 페어링(pairing)될 수 있다. 일 실시예에서, 통신 인터페이스(2200)는 와이파이(WiFi), WFD(Wi-Fi Direct), 블루투스, BLE(Bluetooth Low Energy), NFC(Near Field Communication), 지그비(Zigbee), Ant+, 또는 마이크로 웨이브(μWave) 중 적어도 하나를 포함하는 근거리 무선 통신 네트워크를 통해 증강 현실 디바이스(1000)의 통신 인터페이스(1200)와 무선으로 연결되고, 데이터 통신을 수행할 수 있다. 웨어러블 디바이스(2000)는 IMU 센서(2100)를 통해 측정된 6 DoF 측정값에 관한 데이터를 통신 인터페이스(2200)를 통해 증강 현실 디바이스(1000)의 통신 인터페이스(1200)에 전송할 수 있다.
증강 현실 디바이스(1000)는 통신 인터페이스(1200) 및 프로세서(1300)를 포함할 수 있다. 프로세서(1300)는 복수의 이미지 프레임으로부터 획득된 손의 3차원 위치 좌표값의 보정 필요 여부를 판단하고, 판단 결과에 따라 3차원 위치 좌표값을 보정할 수 있다. 일 실시예에서, 프로세서(1300)는 복수의 이미지 프레임으로부터 손이 인식되지 않는 경우, 복수의 관절의 3차원 위치 좌표값이 오인식된 경우, 또는 손이 복수의 카메라(1100L, 1100R) 중 어느 하나의 카메라의 FOV 영역 외부로 이동한 경우, 복수의 관절의 3차원 위치 좌표값의 보정이 필요하다고 판단할 수 있다.
도 1b를 참조하면, 복수의 이미지 프레임 중 제1 시점(t1)에서의 제1 이미지 프레임(101)에서는 손에 포함된 복수의 관절에 관한 3차원 위치 좌표값(PL_1, PR_1)이 정상적으로 획득될 수 있다. 일 실시예에서, 제1 이미지 프레임(101)은 제1 좌안 이미지 프레임(101L) 및 제1 우안 이미지 프레임(101R)을 포함하고, 제1 좌안 이미지 프레임(101L)에서는 복수의 관절에 관한 3차원 위치 좌표값(PL_1)이 획득되고, 제1 우안 이미지 프레임(101R)에서는 복수의 관절에 관한 3차원 위치 좌표값(PR_1)이 획득될 수 있다. 제1 시점(t1) 이후인 제2 시점(t2)에서의 제2 이미지 프레임(102)은 제2 좌안 이미지 프레임(102L) 및 제2 우안 이미지 프레임(102R)을 포함하고, 제2 좌안 이미지 프레임(102L)에서는 복수의 관절에 관한 3차원 위치 좌표값(PL_2)이 획득될 수 있다. 그러나, 제2 우안 이미지 프레임(102R)에서는 사용자의 손이 인식되지 않고, 이에 따라 손에 포함되는 복수의 관절에 관한 3차원 위치 좌표값이 획득되지 않을 수 있다. 프로세서(1300)는 제2 시점(t2)에서의 제2 좌안 이미지 프레임(102L) 및 제2 우안 이미지 프레임(102R) 중 적어도 하나의 이미지 프레임에서 손이 인식되지 않거나, 복수의 관절에 관한 3차원 위치 좌표값이 획득되지 않는 경우, 관절의 위치 좌표값의 보정이 필요하다고 판단할 수 있다. 프로세서(1300)는 제2 시점(t2)에서의 제2 이미지 프레임(102)을 보정이 필요한 이미지 프레임으로 식별할 수 있다.
도 1b에서는 제1 이미지 프레임(101) 및 제2 이미지 프레임(102)이 각각 복수의 이미지 프레임을 포함하는 것으로 도시되었으나, 이는 증강 현실 디바이스(1000)가 좌안 카메라(1100L) 및 우안 카메라(1100R)를 포함하는 경우를 도시한 것이고, 본 개시가 도 1b에 도시된 바와 같이 한정되는 것은 아니다. 본 개시의 다른 실시예에서, 제1 이미지 프레임(101) 및 제2 이미지 프레임(102)은 단일 이미지 프레임으로 구성되거나, 또는 3개 이상의 복수의 이미지 프레임으로 구성될 수 있다.
손에 포함된 복수의 관절에 관한 3차원 위치 좌표값의 보정이 필요하다고 판단된 경우, 프로세서(1300)는 복수의 이미지 프레임 별 3차원 위치 좌표값과 웨어러블 디바이스(2000)로부터 획득한 IMU 센서(2100)의 측정값 데이터에 기초하여, 복수의 관절의 3차원 위치 좌표값을 보정할 수 있다. 일 실시예에서, 프로세서(1300)는 복수의 관절의 3차원 위치 좌표값의 보정이 필요하다고 판단된 현재 시점(예를 들어, 도 1b의 제2 시점(t2))에서의 제2 이미지 프레임으로부터 획득된 복수의 관절의 3차원 위치 좌표값들의 집합인 제2 위치 좌표값, 현재 시점 보다 이전 시점(예를 들어, 도 1b의 제1 시점(t1))에서의 제1 이미지 프레임으로부터 획득된 복수의 관절의 3차원 위치 좌표값들의 집합인 제1 위치 좌표값, 및 이미지 프레임 별 IMU 센서(2100)의 측정값 변화값을 이용하여, 제2 위치 좌표값을 보정할 수 있다.
프로세서(1300)는 통신 인터페이스(1200)를 통해 웨어러블 디바이스(2000)로부터 IMU 센서(2100)의 센서 측정값들을 실시간으로 획득할 수 있다. 프로세서(1300)는 실시간으로 획득한 센서 측정값들을 복수의 이미지 프레임(101, 102)의 초당 프레임 수(Frame Per Second, FPS)에 기초하여 동기화(Synchronization)할 수 있다. 프로세서(1300)는 동기화된 센서 측정값을 이용하여, 이미지 프레임 별 IMU 센서(2100)의 측정값 변화값을 산출할 수 있다.
도 1b에 도시된 실시예를 참조하면, 프로세서(1300)는 제1 시점(t1)과 제2 시점(t2) 사이에서의 센서 측정값들의 변화값을 산출할 수 있다. 프로세서(1300)는 산출된 측정값의 변화값과 제1 이미지 프레임(101)에서의 3차원 위치 좌표값(PL_1, PR_1) 및 제2 이미지 프레임(102)에서의 3차원 위치 좌표값(PL_2)을 이용하여 제2 이미지 프레임(102)에서의 3차원 위치 좌표값을 보정하고, 보정을 통해 업데이트된 3차원 위치 좌표값(PL_2', PR_2')을 획득할 수 있다. 일 실시예에서, 프로세서(1300)는 복수의 관절 중 대표 관절에 관한 3차원 위치 좌표값을 보정하고, 대표 관절과 나머지 관절과의 위치 관계에 기초하여 보정된 3차원 위치 좌표값을 기준으로 나머지 관절에 관한 3차원 위치 좌표값을 보정함으로써, 복수의 관절에 관한 3차원 위치 좌표값을 업데이트할 수 있다.
증강 현실 디바이스(1000)는 업데이트된 제2 이미지 프레임(102') 및 복수의 관절에 관한 업데이트된 3차원 위치 좌표값(PL_2', PR_2')을 출력할 수 있다. 증강 현실 디바이스(1000)는 출력된 3차원 위치 좌표값(PL_2', PR_2')을 현실 객체 또는 가상 이미지에 관한 사용자의 포즈 또는 제스쳐(gesture)를 인식하는 핸드 인터랙션(hand interaction)을 수행하는 애플리케이션에 제공하고, 애플리케이션을 실행함으로써 증강 현실 서비스를 제공할 수 있다.
일반적인 증강 현실 디바이스는 사용자의 양 손의 자유로움을 보장하기 위하여 별도의 외부 입력 장치를 사용하지 않고, 카메라를 이용하여 촬영된 이미지로부터 사용자의 손을 인식하는 비젼 기반 핸드 트래킹(Vision-based Hand tracking) 기술을 사용하고 있다. 카메라를 이용하여 손의 관절의 3차원 위치 좌표값을 획득하는 경우, 카메라의 FOV(Field of View) 영역 내에서만 인식이 가능하다. 예를 들어, 좌안 카메라(1100L) 및 우안 카메라(1100R)를 이용하여 이미지를 획득하고, 스테레오 맵핑을 통해 손에 포함된 복수의 관절에 관한 3차원 위치 좌표값을 획득하는 증강 현실 디바이스의 경우, 좌안 카메라(1100L)의 FOV(FOV1, 도 1a 참조)와 우안 카메라(1100R)의 FOV(FOV2, 도 1a 참조)가 중첩되는 영역(FOV3, 도 1a 참조)에서만 손이 정상적으로 인식되고, 다른 영역(예를 들어, FOV1, FOV2)에서는 손이 오인식되거나 관절의 3차원 위치 좌표값의 정확도가 현저하게 하락하는 문제점이 발생된다. 손의 관절에 관한 3차원 위치 좌표값의 정확도가 낮은 경우, 손의 포즈 또는 제스처를 미인식하거나 오인식할 수 있고, 이에 따라 증강 현실 서비스의 안정성 및 사용자 만족도가 하락할 수 있다.
도 1a 및 도 1b에 도시된 실시예에 따른 증강 현실 디바이스(1000)는 복수의 이미지 프레임 중 손이 인식되지 않거나, 손에 포함된 복수의 관절에 관한 3차원 위치 좌표값이 정상적으로 획득되지 않은 제2 이미지 프레임(102)을 식별하고, 웨어러블 디바이스(2000)로부터 획득된 IMU 센서(2100)의 측정값 변화값, 과거 시점인 제1 시점(t1)에서의 제1 이미지 프레임(101)에서 획득된 복수의 관절에 관한 3차원 위치 좌표값(PL_1, PR_1), 및 현재 시점인 제2 시점(t2)에서의 제2 이미지 프레임(102)에서 획득된 복수의 관절에 관한 3차원 위치 좌표값(PL_2)에 기초하여, 제2 이미지 프레임(102)에서의 3차원 위치 좌표값(PL_2)을 보정하고, 보정 결과에 따라 복수의 관절에 관한 업데이트된 3차원 위치 좌표값(PL_2', PR_2')을 획득할 수 있다. 본 개시의 실시예에 따른 증강 현실 디바이스(1000)는 웨어러블 디바이스(2000)로부터 수신된 IMU 센서(2100)의 센서 측정값을 이용하여 손에 포함된 복수의 관절에 관한 3차원 위치 좌표값을 업데이트함으로써, 복수의 관절에 관한 3차원 위치 정보의 정확도를 향상시킬 수 있다. 또한, 본 개시의 실시예에 따른 증강 현실 디바이스(1000)는 카메라(1100L, 1100R)의 FOV와는 상관 없이, FOV의 외부 영역에서도 손을 정확하게 트래킹할 수 있으므로, 애플리케이션을 통한 핸드 인터랙션 서비스의 안정성 및 사용자 만족도를 향상시킬 수 있다.
도 2는 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)의 구성 요소를 도시한 블록도이다.
도 2를 참조하면, 증강 현실 디바이스(1000)는 카메라(1100), 통신 인터페이스(1200), 프로세서(1300), 메모리(1400), 및 디스플레이부(1500)를 포함할 수 있다. 카메라(1100), 통신 인터페이스(1200), 프로세서(1300), 메모리(1400), 및 디스플레이부(1500)는 각각 전기적 및/또는 물리적으로 서로 연결될 수 있다.
도 2에 도시된 구성 요소는 본 개시의 일 실시예에 따른 것일 뿐, 증강 현실 디바이스(1000)가 포함하고 있는 구성 요소가 도 2에 도시된 것으로 한정되는 것은 아니다. 증강 현실 디바이스(1000)는 도 2에 도시된 구성 요소 중 일부를 포함하지 않을 수 있고, 도 2에 도시되지 않은 구성 요소를 더 포함할 수도 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 지자기 센서(geomagnetic sensor), 자이로 센서(gyro sensor), 및 가속도 센서(accelerometer)로 구성되는 IMU 센서 모듈을 더 포함할 수 있다.
카메라(1100)는 현실 공간을 촬영함으로써, 현실 공간 내의 현실 객체에 관한 이미지를 획득하도록 구성된다. 일 실시예에서, 카메라(1100)는 렌즈 모듈, 이미지 센서, 및 영상 처리 모듈을 포함할 수 있다. 카메라(1100)는 이미지 센서(예를 들어, CMOS 또는 CCD)에 의해 얻어지는 정지 이미지 또는 동영상을 획득할 수 있다. 영상 처리 모듈은 이미지 센서를 통해 획득된 정지 이미지 또는 동영상을 가공하여, 필요한 정보를 추출하고, 추출된 정보를 프로세서(1300)에 전달할 수 있다.
일 실시예에서, 카메라(1100)는 좌안 카메라(1100L, 도 1a 참조) 및 우안 카메라(1100R, 도 1b 참조)를 포함하고, 두 개의 카메라를 이용하여 촬영 대상체에 관한 3차원 입체 이미지를 획득하는 스테레오 카메라(Stereo camera)일 수 있다. 그러나, 이에 한정되는 것은 아니고, 카메라(1100)는 촬영 대상체의 깊이 값 정보를 획득하는 깊이 카메라(depth camera)를 포함할 수 있다.
일 실시예에서, 카메라(1100)는 프로세서(1300)의 제어에 의해 사용자의 손을 실시간으로 촬영함으로써, 복수의 이미지 프레임을 획득할 수 있다. 카메라(1100)는 획득된 복수의 이미지 프레임에 관한 데이터를 프로세서(1300)에 제공할 수 있다.
통신 인터페이스(1200)는 외부 디바이스(예컨대, 웨어러블 디바이스(2000, 도 1a 및 도 1b 참조), 또는 서버와 데이터 통신을 수행하도록 구성된다. 일 실시예에서, 통신 인터페이스(1200)는 근거리 무선 통신 모듈 및 이동 통신 모듈을 포함할 수 있다.
근거리 무선 통신 모듈(short-range wireless communication unit)은 무선 통신 네트워크를 이용하여 외부 디바이스 또는 서버와 연결하고, 데이터 송수신을 수행하도록 구성된다. 근거리 무선 통신 모듈은 예를 들어, 와이파이(WiFi), WFD(Wi-Fi Direct) 통신부, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, NFC(Near Field Communication unit), 지그비(Zigbee) 통신부, Ant+ 통신부, 또는 마이크로 웨이브(μWave) 통신부 중 적어도 하나의 하드웨어 모듈로 구성될 수 있으나, 이에 한정되는 것은 아니다. 일 실시예에서, 근거리 무선 통신 모듈(1220)은 게이트웨이(gateway) 또는 라우터(router)를 통해 외부 서버와 데이터 통신을 수행할 수도 있다.
일 실시예에서, 증강 현실 디바이스(1000)는 와이파이(WiFi), WFD(Wi-Fi Direct), 블루투스(Bluetooth), BLE(Bluetooth Low Energy), NFC(Near Field Communication unit), 지그비(Zigbee), Ant+, 또는 마이크로 웨이브(μWave) 중 적어도 하나의 근거리 무선 통신 네트워크를 이용하여, 웨어러블 디바이스(2000)와 페어링(pairing)하고, 웨어러블 디바이스(2000)로부터 IMU 센서(2100, 도 1b 참조)의 측정값 데이터를 수신할 수 있다.
이동 통신 모듈은 이동 통신망 상에서 기지국, 외부 디바이스, 또는 서버 중 적어도 하나와 무선 신호를 송수신하도록 구성되는 통신 모듈이다. 이동 통신 모듈은 예를 들어, 5G mmWave 통신, 5G Sub 6 통신, LTE(Long Term Evolution) 통신, 또는 3G 이동 통신 중 적어도 하나의 통신 방식을 이용하여 데이터를 송수신할 수 있다. 일 실시예에서, 이동 통신 모듈은 프로세서(1300)의 제어에 의해 서버와 데이터를 송수신할 수 있다.
프로세서(1300)는 메모리(1400)에 저장된 프로그램의 하나 이상의 명령어들(instructions)을 실행할 수 있다. 프로세서(1300)는 산술, 로직 및 입출력 연산과 시그널 프로세싱을 수행하는 하드웨어 구성 요소로 구성될 수 있다. 프로세서(1300)는 예를 들어, 중앙 처리 장치(Central Processing Unit), 마이크로 프로세서(microprocessor), 그래픽 프로세서(Graphic Processing Unit), ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), 및 FPGAs(Field Programmable Gate Arrays) 중 적어도 하나로 구성될 수 있으나, 이에 한정되는 것은 아니다.
도 2에는 프로세서(1300)가 하나의 엘리먼트로 도시되었으나, 이에 한정되는 것은 아니다. 일 실시예에서, 프로세서(1300)는 하나 또는 하나 이상의 복수 개로 구성될 수 있다.
일 실시예에서, 프로세서(1300)는 인공 지능(Artificial Intelligence; AI) 학습을 수행하는 AI 프로세서를 포함할 수 있다. 이 경우, AI 프로세서는 인공지능(AI) 시스템의 학습 네트워크 모델을 이용하여 사용자의 손을 인식할 수 있다. AI 프로세서는, 인공 지능(AI)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 증강 현실 디바이스(1000) 내의 프로세서(1300)에 탑재될 수 있다.
메모리(1400)에는 증강 현실 디바이스(1000)가 사용자의 손의 관절에 관한 위치 정보를 획득하기 위한 애플리케이션을 구성하는 명령어들(instructions)이 저장될 수 있다. 일 실시예에서, 메모리(1400)에는 프로세서(1300)가 판독할 수 있는 명령어들 및 프로그램 코드(program code)가 저장될 수 있다. 이하의 실시예에서, 프로세서(1300)는 메모리(1400)에 저장된 명령어들 또는 프로그램 코드들을 실행함으로써 구현될 수 있다.
메모리(1400)는 예를 들어, 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 또는 광 디스크 중 적어도 하나의 타입의 저장매체로 구성될 수 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 네트워크를 통해 접속 가능하고, 저장 기능을 수행하는 웹 스토리지(web storage) 또는 클라우드 서버를 운영할 수도 있다.
프로세서(1300)는 메모리(1400)에 저장된 명령어들 또는 프로그램 코드들을 실행함으로써 이하의 실시예들을 구현할 수 있다.
프로세서(1300)는 카메라(1100)로부터 사용자의 손에 관한 복수의 이미지 프레임을 획득할 수 있다. 일 실시예에서, 카메라(1100)는 현실 공간 내의 사용자의 손을 실시간으로 촬영함으로써 복수의 이미지 프레임을 획득하고, 획득된 복수의 이미지 프레임을 프로세서(1300)에 제공할 수 있다.
프로세서(1300)는 복수의 이미지 프레임으로부터 사용자의 손을 인식할 수 있다. 일 실시예에서, 프로세서(1300)는 인공지능 모델(Artificial Intelligent model, AI model)을 이용하여 복수의 이미지 프레임으로부터 손을 인식할 수 있다. '인공지능 모델'은 카메라(1100)로부터 입력받은 이미지 데이터로부터 객체를 인식하고, 객체를 타입에 따라 분류(classify)하도록 학습된 심층 신경망 모델을 포함할 수 있다. 인공지능 모델은 메모리(1400)에 저장될 수 있지만, 이에 한정되는 것은 아니다. 일 실시예에서, 인공지능 모델은 외부 서버에 저장되어 있고, 증강 현실 디바이스(1000)는 서버에 이미지 데이터를 전송하고, 서버의 인공지능 모델로부터 추론 결과인 객체의 타입에 관한 정보를 수신할 수도 있다.
인공지능 모델은 수만 내지 수억장의 이미지를 입력 데이터로 적용하고, 이미지에 포함되는 객체의 라벨값(label)을 출력 정답값(groundtruth)로 적용하여 학습된(trained) 모델 파라미터로 구성되는 심층 신경망 모델(Deep Neural Network)을 포함할 수 있다. 심층 신경망 모델은 예를 들어, 컨볼루션 신경망 모델(Convolutional Neural Network; CNN), 순환 신경망 모델(Recurrent Neural Network; RNN), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 및 심층 Q-네트워크 (Deep Q-Networks) 중 적어도 하나를 포함할 수 있다. 그러나, 인공지능 모델이 심층 신경망 모델만을 포함하는 것은 아니고, SVM(Support Vector Machine), 선형 회귀(linear regression), 로지스틱 회귀(logistic regression), 나이브 베이즈 분류(Naive Bayes), 랜덤 포레스트(random forest), decision tree, 또는 k-nearest neighbor algorithm 중 적어도 하나로 구성될 수도 있다.
프로세서(1300)는 인공지능(AI) 프로세서를 포함할 수 있다. 인공 지능(AI) 프로세서는, 인공 지능(AI)을 위한 전용 하드웨어 칩 형태로 구성될 수도 있고, 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로서 프로세서(1300)에 포함될 수 있다. 인공지능 프로세서는 인공지능 모델을 이용하여, 카메라(1100)를 통해 획득된 복수의 이미지 프레임으로부터 사용자의 손을 인식할 수 있다.
프로세서(1300)는 인공지능 모델을 이용하여 인식된 손에 포함된 복수의 특징점에 관한 위치 정보를 획득할 수 있다. 일 실시예예서, '특징점(keypoint, feature point)'은 이미지 내에서 주위 배경과 구분되거나 식별이 용이한 지점을 의미하고, 손의 경우 복수의 특징점은 손에 포함된 복수의 관절일 수 있다. 본 개시에서, '관절(joint)'은 손에 포함되는 복수의 뼈가 서로 연결되는 부분으로서, 손가락, 손 등, 또는 손바닥에 포함되는 하나 이상의 부위를 나타낸다. 일 실시예에서, 프로세서(1300)는 복수의 이미지 프레임으로부터의 손의 인식 결과에 따라 손에 포함된 복수의 관절의 x축 및 y축에 관한 위치 정보인 2차원 위치 좌표값을 획득할 수 있다.
프로세서(1300)는 좌안 카메라(1100L, 도 1a 참조)를 통해 촬영된 좌안 이미지로부터 획득된 관절의 2차원 위치 좌표값, 우안 카메라(1100R, 도 1a 참조)를 통해 촬영된 우안 이미지로부터 획득된 관절의 2차원 위치 좌표값, 좌안 카메라(1100L)와 우안 카메라(1100R) 간의 거리 차(baseline), 및 좌안 카메라(1100L) 및 우안 카메라(1100R) 각각의 초점 거리에 기초하여, 손에 포함된 복수의 관절의 깊이값인 z축 위치 좌표값을 획득할 수 있다. 스테레오 매핑(Stereo mapping) 기술에 대해서는 도 4a 내지 도 4c에서 상세하게 설명하기로 한다. 프로세서(1300)는 스테레오 매핑 기술을 이용하여 손에 포함된 복수의 관절에 관한 z축 위치 좌표값을 획득하고, 이를 통해 복수의 관절에 관한 3차원 위치 좌표값을 획득할 수 있다.
그러나, 이에 한정되는 것은 아니고, 증강 현실 디바이스(1000)는 깊이 카메라(depth camera)를 더 포함하고, 프로세서(1300)는 깊이 카메라를 통해 손에 포함된 복수의 관절에 관한 깊이 값 정보인 z축 위치 좌표값을 획득할 수 있다.
전술한 실시예에서, 프로세서(1300)는 인공지능 모델을 이용하여 사용자의 손을 인식하고, 인식된 손에 포함된 복수의 관절에 관한 3차원 위치 좌표값을 획득한다고 기재하였지만, 본 개시가 상술한 실시예로 한정되는 것은 아니다. 다른 실시예에서, 프로세서(1300)는 공지의 이미지 프로세싱(image processing) 기술을 이용하여 복수의 이미지 프레임으로부터 사용자의 손을 인식하고, 손에 포함된 복수의 관절에 관한 3차원 위치 좌표값을 획득할 수 있다.
프로세서(1300)는 손의 인식 결과에 기초하여, 복수의 이미지 프레임으로부터 획득된 복수의 관절의 3차원 위치 좌표값 중 적어도 하나의 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다. 프로세서(1300)는 복수의 이미지 프레임 중 적어도 하나의 이미지 프레임으로부터 손의 미인식 여부, 또는 적어도 하나의 관절의 3차원 위치 좌표값의 미획득 여부에 기초하여, 적어도 하나의 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다. 일 실시예에서, 프로세서(1300)는 복수의 이미지 프레임 중 손이 미인식되거나, 손에 포함된 복수의 관절 중 적어도 하나의 관절에 관한 3차원 위치 좌표값이 획득되지 않은 이미지 프레임을 식별하고, 식별된 이미지 프레임으로부터 획득된 적어도 하나의 관절에 관한 3차원 위치 좌표값을 보정이 필요한 위치 정보로 판단할 수 있다.
일 실시예에서, 프로세서(1300)는 보정이 필요한 이미지 프레임으로 식별된 현재 시점(t0)의 이미지 프레임으로부터 획득된 복수의 관절에 관한 3차원 위치 좌표값과 이전 시점(t-1)에서의 이미지 프레임으로부터 획득된 복수의 관절에 관한 3차원 위치 좌표값 간의 차이값을 산출하고, 산출된 차이값을 기 설정된 임계치와 비교함으로써 현재 시점의 이미지 프레임으로부터 획득된 복수의 관절에 관한 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다. 프로세서(1300)가 복수의 이미지 프레임 중 손의 미인식 또는 손에 포함된 적어도 하나의 관절에 관한 3차원 위치 좌표값의 미획득 여부에 기초하여, 적어도 하나의 관절에 관한 3차원 위치 좌표값의 보정 필요 여부를 판단하는 구체적인 실시예에 대해서는 도 7 내지 도 9에서 상세하게 설명하기로 한다.
일 실시예에서, 프로세서(1300)는 복수의 이미지 프레임 중 인식된 손의 위치가 카메라(1100)의 FOV(Field Of View) 영역 내부와 외부 간 이동하는지 여부에 기초하여, 복수의 관절 중 적어도 하나의 관절에 관한 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다. 프로세서(1300)가 카메라(1100)의 FOV 영역 내부와 외부 사이에서의 손의 이동 여부에 기초하여 손에 포함된 적어도 하나의 관절에 관한 3차원 위치 좌표값의 보정 필요 여부를 판단하는 구체적인 실시예에 대해서는 도 10에서 상세하게 설명하기로 한다.
보정이 필요하다고 판단된 경우, 프로세서(1300)는 복수의 이미지 프레임 중 보정이 필요하다고 판단된 이미지 프레임으로부터 획득된 복수의 관절에 관한 3차원 위치 좌표값, 이전 시점의 이미지 프레임으로부터 획득된 복수의 관절에 관한 3차원 위치 좌표값, 및 외부 디바이스로부터 획득된 IMU 센서의 센서 측정값에 기초하여, 복수의 관절에 관한 3차원 위치 좌표값을 보정할 수 있다. 일 실시예에서, 보정이 필요하다고 판단된 이미지 프레임이 현재 시점(t0)의 제2 이미지 프레임이고, 제2 이미지 프레임으로부터 획득된 복수의 관절에 관한 3차원 위치 좌표값이 제2 위치 좌표값인 경우, 프로세서(1300)는 현재 시점(t0) 보다 이전 시점(t-1)에서의 제1 이미지 프레임에서 획득된 복수의 관절에 관한 3차원 위치 좌표값인 제1 위치 좌표값, 제2 위치 좌표값, 및 웨어러블 디바이스(2000, 도 1a 및 도 1b 참조)로부터 획득한 IMU 센서(2100, 도 1b 참조)의 측정값 변화값에 기초하여, 제2 위치 좌표값을 보정할 수 있다.
프로세서(1300)는 통신 인터페이스(1200)를 통해 웨어러블 디바이스(2000)로부터 IMU 센서(2100)의 측정값을 실시간으로 획득할 수 있다. 웨어러블 디바이스(2000)는 예를 들어, 사용자의 손목에 착용하는 워치형 디바이스(2000a, 도 11a 참조) 또는 사용자의 손가락에 착용하는 스마트 링(smart ring)(2000b, 도 11b 참조)일 수 있다. 프로세서(1300)는 통신 인터페이스(1200)를 통해, 웨어러블 디바이스(2000)와 무선으로 페어링(pairing)하고, 데이터 통신을 수행할 수 있다. 프로세서(1300)는 통신 인터페이스(1200)를 통해, 웨어러블 디바이스(2000)로부터 IMU 센서(2100, 도 1b 참조)를 통해 측정된 6 DoF 측정값에 관한 데이터를 획득할 수 있다. 프로세서(1300)가 웨어러블 디바이스(2000)로부터 센서 측정값의 데이터를 획득하는 구체적인 실시예에 대해서는 도 11a 및 도 11b에서 상세하게 설명하기로 한다.
일 실시예에서, 프로세서(1300)는 실시간으로 획득한 IMU 센서(2100)의 측정값들을 복수의 이미지 프레임(101, 102)의 초당 프레임 수(Frame Per Second, FPS)에 기초하여 동기화(Synchronization)할 수 있다. 예를 들어, 웨어러블 디바이스(2000)의 IMU 센서(2100)가 1초에 500회 센싱하여, 1초에 500개의 센서 측정값을 획득하는 경우, 프로세서(1300)는 초당 500개의 센서 측정값을 복수의 이미지 프레임의 FPS에 따라 동기화할 수 있다. 예를 들어, 카메라(1100)를 통해 획득된 복수의 이미지 프레임의 FPS가 30인 경우, 프로세서(1300)는 1초에 500개의 센서 측정값을 30개로 샘플링하고, 샘플링된 30개의 센서 측정값을 대응되는 복수의 이미지 프레임과 매칭시킴으로써, 센서 측정값과 이미지 프레임을 동기화할 수 있다. 프로세서(1300)가 센서 측정값과 이미지 프레임을 동기화하는 구체적인 실시예에 대해서는 도 12 및 도 13에서 상세하게 설명하기로 한다.
프로세서(1300)는 이미지 프레임과 동기화된 센서 측정값을 이용하여, 이미지 프레임 별 센서 측정값의 변화값을 산출할 수 있다. 일 실시예에서, 프로세서(1300)는 제1 이미지 프레임과 동기화된 제1 센서 측정값과 제2 이미지 프레임과 동기화된 제2 센서 측정값 간의 차이값을 이용하여, 제2 이미지 프레임으로부터 획득된 복수의 관절에 관한 제2 위치 좌표값을 보정할 수 있다.
프로세서(1300)는 제1 위치 좌표값에 제1 가중치를, 제2 위치 좌표값에 제2 가중치를 각각 적용하고, 제1 가중치가 적용된 제1 위치 좌표값, 제2 가중치가 적용된 제2 위치 좌표값, 및 이미지 프레임 별 센서 측정값의 변화값에 기초하여, 제2 위치 좌표값을 보정할 수 있다. 일 실시예에서, 제1 가중치 및 제2 가중치는 제1 이미지 프레임 및 제2 이미지 프레임에서의 사용자의 손의 인식 여부, 제1 위치 좌표값과 제2 위치 좌표값 간의 차이값, 및 사용자의 손이 카메라(1100)의 FOV 영역 내외부 간 위치 이동 여부 중 적어도 하나에 기초하여 결정될 수 있다. 예를 들어, 제2 이미지 프레임에서 손이 인식되지 않은 경우, 프로세서(1300)는 제2 이미지 프레임에 적용되는 제2 가중치를 0 또는 0에 가까운 작은 값으로 결정하고, 제1 이미지 프레임에서 획득된 제1 위치 좌표값을 기준으로 제2 위치 좌표값을 보정할 수 있다. 다른 예를 들어, 제1 이미지 프레임에서 사용자의 손이 카메라(1100)의 FOV 영역 외부에 있었다가 제2 이미지 프레임에서는 손이 카메라(1100)의 FOV 내부로 이동하는 경우, 프로세서(1300)는 제1 위치 좌표값에 적용되는 제1 가중치를 0으로 적용하고, 제2 위치 좌표값에 적용되는 제2 가중치를 1로 결정함으로써, 제2 위치 좌표값을 기준으로 제2 위치 좌표값을 보정할 수 있다.
프로세서(1300)는 손에 포함된 복수의 관절 중 대표 관절에 관한 3차원 위치 좌표값을 보정하고, 보정된 대표 관절의 위치 좌표값에 기초하여 복수의 관절 중 나머지 관절 각각에 관한 3차원 위치 좌표값을 업데이트할 수 있다. 일 실시예에서, 프로세서(1300)는 대표 관절과 나머지 관절과의 위치 관계에 기초하여, 보정된 대표 관절의 3차원 위치 좌표값을 기준으로 나머지 관절에 관한 3차원 위치 좌표값을 보정함으로써, 복수의 관절에 관한 3차원 위치 좌표값을 업데이트할 수 있다.
프로세서(1300)는 업데이트된 복수의 관절에 관한 3차원 위치 좌표값을 출력할 수 있다. 일 실시예에서, 프로세서(1300)는 업데이트된 복수의 관절에 관한 3차원 위치 좌표값을 핸드 인터랙션(hand interaction)을 수행하는 애플리케이션에 제공할 수 있다. 프로세서(1300)는 애플리케이션을 실행함으로써, 현실 객체 또는 가상 이미지에 관한 손의 포즈 또는 제스처를 인식하고, 인식된 포즈 또는 제스처에 대응되는 기능 또는 동작을 수행할 수 있다.
일 실시예에서, 프로세서(1300)는 업데이트된 복수의 관절에 관한 3차원 위치 좌표값을 나타내는 그래픽 UI(Graphic User Interface)를 디스플레이부(1500) 상에 디스플레이할 수 있다.
디스플레이부(1500)는 카메라(1100)를 통해 촬영된 복수의 이미지 프레임을 디스플레이하도록 구성된다. 디스플레이부(1500)는 복수의 이미지 프레임으로부터 인식된 사용자의 손을 나타내는 영역에 마커(marker)를 표시할 수 있다. 일 실시예에서, 디스플레이부(1500)는 프로세서(1300)의 제어에 의해 손에 포함된 복수의 관절을 나타내는 그래픽 UI를 디스플레이할 수 있다.
일 실시예에서, 디스플레이부(1500)는 프로세서(1300)의 제어에 의해 가상 이미지를 디스플레이할 수 있다.
예를 들어, 증강 현실 디바이스(1000)가 안경 형태의 증강 현실 안경 장치(Augmented Reality Glasses)인 경우, 디스플레이부(1500)는 렌즈, 웨이브가이드(waveguide), 및 광학 모듈(예컨대, 프로젝터)을 포함할 수 있다.
그러나, 이에 한정되는 것은 아니고, 디스플레이부(1500)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함하는 물리적 장치로 구성될 수 있다. 일 실시예에서, 디스플레이부(1500)는 터치 인터페이스를 포함하는 터치스크린으로 구성될 수도 있다. 디스플레이부(1500)가 터치스크린으로 구성되는 경우, 디스플레이부(1500)는 터치 패널로 구성되는 사용자 입력부와 통합되는 구성 요소일 수 있다.
도 3은 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)의 동작 방법을 도시한 흐름도이다.
단계 S310에서, 증강 현실 디바이스(1000)는 복수의 이미지 프레임으로부터 사용자의 손에 포함된 복수의 관절에 관한 3차원 위치 좌표값을 획득한다. 일 실시예에서, 증강 현실 디바이스(1000)는 카메라를 이용하여 현실 공간에 위치하는 사용자의 손을 실시간으로 촬영함으로써, 복수의 이미지 프레임을 획득할 수 있다. 증강 현실 디바이스(1000)는 복수의 이미지 프레임으로부터 사용자의 손을 인식할 수 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 인공지능 모델(Artificial Intelligent model, AI model)을 이용하여 복수의 이미지 프레임으로부터 손을 인식할 수 있다. '인공지능 모델'은 카메라로부터 입력받은 이미지 데이터로부터 객체를 인식하고, 객체를 타입에 따라 분류(classify)하도록 학습된 심층 신경망 모델을 포함할 수 있다. 심층 신경망 모델은 예를 들어, 컨볼루션 신경망 모델(Convolutional Neural Network; CNN), 순환 신경망 모델(Recurrent Neural Network; RNN), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 및 심층 Q-네트워크 (Deep Q-Networks) 중 적어도 하나를 포함할 수 있다. 증강 현실 디바이스(1000)는 심층 신경망 모델을 이용하여, 복수의 이미지 프레임으로부터 손을 인식할 수 있다.
증강 현실 디바이스(1000)는 인공지능 모델을 이용하여 인식된 손에 포함된 복수의 특징점에 관한 위치 정보를 획득할 수 있다. 일 실시예예서, '특징점(keypoint, feature point)'은 이미지 내에서 주위 배경과 구분되거나 식별이 용이한 지점을 의미하고, 손의 경우 복수의 특징점은 손에 포함된 복수의 관절일 수 있다. 본 개시에서, '관절(joint)'은 손에 포함되는 복수의 뼈가 서로 연결되는 부분으로서, 손가락, 손 등, 또는 손바닥에 포함되는 하나 이상의 부위를 나타낸다. 일 실시예에서, 증강 현실 디바이스(1000)는 복수의 이미지 프레임으로부터의 손의 인식 결과에 따라 손에 포함된 복수의 관절의 x축 및 y축에 관한 위치 정보인 2차원 위치 좌표값을 획득할 수 있다. 증강 현실 디바이스(1000)는 좌안 카메라(1100L, 도 1a 참조)를 통해 촬영된 좌안 이미지 및 우안 카메라(1100R, 도 1a 참조)로부터 획득된 우안 이미지를 스테레오 매핑(Stereo mapping)함으로써, 손에 포함된 복수의 관절에 관한 z축 위치 좌표값을 획득할 수 있다.
그러나, 이에 한정되는 것은 아니고, 증강 현실 디바이스(1000)는 깊이 카메라(depth camera)를 더 포함하고, 깊이 카메라를 통해 손에 포함된 복수의 관절에 관한 깊이 값 정보인 z축 위치 좌표값을 획득할 수 있다.
일 실시예에서, 증강 현실 디바이스(1000)는 공지의 이미지 프로세싱(image processing) 기술을 이용하여 복수의 이미지 프레임으로부터 사용자의 손을 인식하고, 손에 포함된 복수의 관절에 관한 3차원 위치 좌표값을 획득할 수 있다.
단계 S320에서, 증강 현실 디바이스(1000)는 외부 디바이스의 IMU 센서를 이용하여 복수의 관절 중 적어도 하나의 관절에 관하여 측정된 센서 측정값을 획득한다. 일 실시예에서, 외부 디바이스는 사용자의 손목, 손가락, 또는 손 바닥 중 적어도 하나의 부위에 착용하는 웨어러블 디바이스(wearable device)일 수 있다. 웨어러블 디바이스는 예를 들어, 사용자의 손가락에 착용하는 스마트 링(smart ring)일 수 있다. 그러나, 이에 한정되는 것은 아니고, 웨어러블 디바이스(2000)는 스마트 워치, 팔찌, 발찌, 목걸리, 콘택트 렌즈, 의류 일체형 장치(예컨대, 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나일 수 있다. 증강 현실 디바이스(1000)는 와이파이(WiFi), WFD(Wi-Fi Direct), 블루투스, BLE(Bluetooth Low Energy), NFC(Near Field Communication), 지그비(Zigbee), Ant+, 또는 마이크로 웨이브(μWave) 중 적어도 하나를 포함하는 근거리 무선 통신 네트워크를 통해 증강 현실 디바이스(1000)의 통신 인터페이스(1200)와 무선으로 페어링(pairing)되고, 데이터 통신을 수행할 수 있다. 증강 현실 디바이스(1000)는 페어링된 웨어러블 디바이스로부터 IMU 센서(2100, 도 1b 참조)를 통해 측정된 6 DoF 측정값에 관한 데이터를 획득할 수 있다. 여기서, '6 DoF 측정값'은 손에 포함된 복수의 관절의 3차원 위치 좌표값(x축, y축, 및 z축 좌표값) 및 3축 각속도 값(롤(roll), 요(yaw), 피치(pitch))을 포함할 수 있다.
단계 S330에서, 증강 현실 디바이스(1000)는 손의 인식 결과에 기초하여, 3차원 위치 좌표값의 보정 필요 여부를 판단한다. 증강 현실 디바이스(1000)는 복수의 이미지 프레임으로부터 획득된 복수의 관절의 3차원 위치 좌표값 중 적어도 하나의 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 복수의 이미지 프레임 중 적어도 하나의 이미지 프레임으로부터 손의 미인식 여부, 또는 적어도 하나의 관절의 3차원 위치 좌표값의 미획득 여부에 기초하여, 적어도 하나의 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 복수의 이미지 프레임 중 손이 미인식되거나, 손에 포함된 복수의 관절 중 적어도 하나의 관절에 관한 3차원 위치 좌표값이 획득되지 않은 이미지 프레임을 식별하고, 식별된 이미지 프레임으로부터 획득된 적어도 하나의 관절에 관한 3차원 위치 좌표값을 보정이 필요한 위치 정보로 판단할 수 있다.
일 실시예에서, 증강 현실 디바이스(1000)는 복수의 이미지 프레임 중 손이 오인식되어, 손에 포함된 복수의 관절에 관한 3차원 위치 좌표값이 이전 이미지 프레임으로부터 획득된 3차원 위치 좌표값과 현저하게 차이나는 이미지 프레임을 식별하고, 식별된 이미지 프레임에서의 3차원 위치 좌표값을 보정이 필요한 위치 정보로 판단할 수 있다.
일 실시예에서, 증강 현실 디바이스(1000)는 복수의 이미지 프레임 중 인식된 손의 위치가 카메라(1100)의 FOV(Field Of View) 영역 내부와 외부 간 이동하는지 여부에 기초하여, 적어도 하나의 관절에 관한 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다.
단계 S340에서, 증강 현실 디바이스(1000)는 판단 결과에 따라, 제1 시점에서의 제1 이미지 프레임으로부터 획득된 제1 위치 좌표값, 제2 시점에서의 제2 이미지 프레임으로부터 획득된 제2 위치 좌표값, 및 이미지 프레임 별 센서 측정값의 변화값에 기초하여, 제2 위치 좌표값을 보정하고, 제2 위치 좌표값을 업데이트한다. 일 실시예에서, 복수의 이미지 프레임 중 보정이 필요하다고 식별된 이미지 프레임이 현재 시점(t0)의 제2 이미지 프레임인 경우, 증강 현실 디바이스(1000)는 현재 시점(t0) 보다 이전 시점(t-1)에서의 제1 이미지 프레임에서 획득된 복수의 관절에 관한 3차원 위치 좌표값인 제1 위치 좌표값, 제2 위치 좌표값, 및 웨어러블 디바이스(2000)로부터 획득한 IMU 센서(2100, 도 1b 참조)의 측정값의 변화값에 기초하여, 제2 위치 좌표값을 보정할 수 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 실시간으로 획득된 IMU 센서(2100)의 측정값을 복수의 이미지 프레임의 FPS에 따라 동기화하고, 동기화된 측정값을 이용하여 이미지 프레임 별 센서 측정값의 변화값을 산출할 수 있다. 증강 현실 디바이스(1000)는 제1 이미지 프레임과 동기화된 제1 센서 측정값과 제2 이미지 프레임과 동기화된 제2 센서 측정값 간의 차이값을 이용하여, 제2 이미지 프레임으로부터 획득된 복수의 관절에 관한 제2 위치 좌표값을 보정할 수 있다.
증강 현실 디바이스(1000)는 손에 포함된 복수의 관절 중 대표 관절에 관한 3차원 위치 좌표값을 보정하고, 보정된 대표 관절의 위치 좌표값에 기초하여 복수의 관절 중 나머지 관절 각각에 관한 3차원 위치 좌표값을 업데이트할 수 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 대표 관절과 나머지 관절과의 위치 관계에 기초하여, 보정된 대표 관절의 3차원 위치 좌표값을 기준으로 나머지 관절에 관한 3차원 위치 좌표값을 보정함으로써, 복수의 관절에 관한 3차원 위치 좌표값을 업데이트할 수 있다.
단계 S350에서, 증강 현실 디바이스(1000)는 업데이트된 복수의 관절에 관한 3차원 위치 좌표값을 출력한다. 일 실시예에서, 증강 현실 디바이스(1000)는 업데이트된 복수의 관절에 관한 3차원 위치 좌표값을 핸드 인터랙션(hand interaction)을 수행하는 애플리케이션에 제공할 수 있다. 증강 현실 디바이스(1000)는 애플리케이션을 실행함으로써, 현실 객체 또는 가상 이미지에 관한 손의 포즈 또는 제스처를 인식하고, 인식된 포즈 또는 제스처에 대응되는 기능 또는 동작을 수행할 수 있다.
도 4a는 증강 현실 디바이스(1000)가 스테레오 카메라(1100)를 통해 손을 인식하는 영역을 도시한 도면이다.
도 4a를 참조하면, 증강 현실 디바이스(1000)는 카메라(1100)를 이용하여, 사용자의 손을 실시간으로 촬영함으로써, 복수의 이미지 프레임을 획득할 수 있다. 일 실시예에서, 카메라(1100)는 좌안 카메라(1110) 및 우안 카메라(1120)를 포함하고, 두 개의 카메라를 이용하여 촬영 대상체에 관한 3차원 입체 이미지를 획득하는 스테레오 카메라일 수 있다.
좌안 카메라(1110)는 제1 FOV(410)의 영역 내에 위치하는 객체를 촬영함으로써, 복수의 좌안 이미지 프레임을 획득할 수 있다. 우안 카메라(1120)는 제2 FOV(420)의 영역 내에 위치하는 객체를 촬영함으로써, 복수의 우안 이미지 프레임을 획득할 수 있다. 증강 현실 디바이스(1000)는 복수의 좌안 이미지 프레임 및 복수의 우안 이미지 프레임 각각으로부터 손을 인식하고, 인식된 손에 포함된 복수의 관절의 x축 및 y축에 관한 위치 좌표값을 포함하는 2차원 위치 좌표값을 획득할 수 있다.
증강 현실 디바이스(1000)는 스테레오 매핑 기술을 통해 복수의 관절에 관한 z축 위치 좌표값을 획득하고, 복수의 관절에 관한 3차원 위치 좌표값을 획득할 수 있다. 증강 현실 디바이스(1000)는 복수의 좌안 이미지 프레임으로부터 획득된 복수의 관절의 2차원 위치 좌표값, 복수의 우안 이미지 프레임으로부터 획득된 복수의 관절의 2차원 위치 좌표값, 좌안 카메라(1110)와 우안 카메라(1120) 간의 거리 차(baseline), 및 좌안 카메라(1110) 및 우안 카메라(1120) 각각의 초점 거리에 기초하여, 복수의 관절의 깊이값인 z축 위치 좌표값을 획득할 수 있다. 증강 현실 디바이스(1000)가 복수의 관절의 z축 위치 좌표값을 획득하는 스테레오 매핑 기술에 대해서는 도 4b 및 도 4c에서 상세하게 설명한다.
도 4b는 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 스테레오 카메라(1100, 도 4a 참조)를 이용하여 손의 관절의 위치 정보를 획득하는 동작을 설명하기 위한 도면이다.
도 4b에는, 좌안 카메라(1110), 우안 카메라(1120), 및 사용자의 손에 포함된 관절(P)을 x-z 평면에서 바라본 모습이 도시된다. 도 4b를 참조하면, 관절(P), 좌안 이미지 프레임의 X축 위치 좌표값(Xl), 우안 이미지 프레임의 X축 위치 좌표값(Xr)이 이루는 삼각형과, 관절(P), 좌안 카메라(1110), 우안 카메라(1120)가 이루는 삼각형으로부터 하기 수학식 1이 도출될 수 있다.
Figure pat00001
여기서, 깊이 Z(도 4c 참조)는 하기의 수학식 2에 따라 계산될 수 있다.
Figure pat00002
이후, 좌안 카메라(1110)로부터 획득된 2차원 위치 좌표값(Xl, Yl) 및 획득된 깊이 값 Z를 이용하여 p=(Xl, Yl, Z, 1)를 구성할 수 있다.
다음으로, 하기 수학식 3에 따라 좌안 카메라(1110)로부터 획득된 2차원 좌표를 3차원 좌표로 변환할 수 있다.
Figure pat00003
Figure pat00004
Figure pat00005
상기 수학식 3에서, R은 좌안 카메라(1110)로부터 기 설정된 원점(예를 들어, 중심점 또는 좌안 카메라(1110) 및 우안 카메라(1120)의 중간 지점)까지의 축 회전 각도 파라미터를 나타낼 수 있고, T는 좌안 카메라(1110)로부터 기 설정된 원점(예를 들어, 중심점 또는 좌안 카메라(1110) 및 우안 카메라(1120)의 중간 지점)까지의 거리 파라미터를 나타낼 수 있다.
도 4c는 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 스테레오 카메라(1100, 도 4a 참조)를 통해 획득한 이미지로부터 손의 관절의 위치 정보를 획득하는 동작을 설명하기 위한 도면이다.
도 4c를 참조하면, 두 개의 이미지(IMl, IMr)에서 쌍을 이루는 특징점의 2차원 X축 위치 좌표값(Xl, Xr)로부터 해당 특징점의 3차원 좌표를 계산할 수 있다. 특징점의 3차원 좌표 계산에는 삼각측량법이 이용될 수 있다. Ol, Or 지점에 각각 좌안 카메라(1110, 도 4b 참조) 및 우안 카메라(1120, 도 4b 참조)가 배치될 수 있다. 이 때, 삼각형의 비율에 따라 하기와 같은 수학식 4가 획득될 수 있다.
Figure pat00006
Figure pat00007
Figure pat00008
좌안 카메라(1110)로 촬영한 이미지를 좌안 이미지라고 할 때, 증강 현실 디바이스(1000)는 좌안 이미지의 좌측 하단을 원점으로 하는 제1 손 관절의 2차원 좌표(Xl, Yl)를 획득할 수 있다. 마찬가지로, 우안 카메라(1120)로 촬영한 이미지를 우안 이미지라고 할 때, 우안 이미지의 좌측 하단을 원점으로 하는 제2 손 관절의 2차원 좌표(Xr, Yr)를 획득할 수 있다.
X축 상의 좌표에 대해서만 연산 수행하여 깊이값 Z를 획득할 경우, Z는 Z축 상의 좌표가 되고, 이를 이용하여 Y축 상 좌표를 산출할 수 있다. 따라서 X축의 좌표에 대해서만 연산을 수행하여도 관절(P)에 관한 3차원 위치 좌표값을 획득될 수 있다.
도 5는 증강 현실 디바이스(1000)가 깊이 카메라(1130)를 통해 손을 인식하는 영역을 도시한 도면이다.
도 5를 참조하면, 증강 현실 디바이스(1000)는 깊이 카메라(1130)를 포함할 수 있다. 깊이 카메라(depth camera)(1130)는 사용자가 바라보는 현실 객체의 깊이 값을 측정하는 카메라이다. 깊이 카메라(1130)는 물리적 공간 또는 환경을 스캔하고, 물리적 공간 또는 환경 내에 배치되는 현실 객체의 깊이 값을 현실 객체의 3차원 위치 좌표값에 따라 측정하고, 측정된 깊이 값을 각각의 3차원 위치 좌표값에 따라 배치하여 깊이 맵(depth map)을 생성할 수 있다.
깊이 카메라(1130)는 예를 들어, ToF(Time-Of-Flight) 센서 또는 라이다 센서(Light Detection And Ranging, LiDAR) 중 적어도 하나를 포함하고, ToF 센서 또는 라이다 센서를 이용하여 객체의 3차원 깊이 값을 측정할 수 있다.
증강 현실 디바이스(1000)는 깊이 카메라(1130)를 이용하여 FOV 영역(500) 내에 위치하는 사용자의 손을 촬영함으로써, 복수의 이미지 프레임을 획득할 수 있다. 증강 현실 디바이스(1000)는 복수의 이미지 프레임으로부터 손을 인식하고, 인식된 손에 포함된 복수의 관절에 관한 깊이 값을 포함하는 3차원 위치 좌표값을 획득할 수 있다. 도 5에 도시된 실시예에 따른 증강 현실 디바이스(1000)는 도 4a 내지 도 4c에 도시된 실시예와는 달리, 좌안 이미지 및 우안 이미지를 별개로 획득하지 않고, 단일 이미지 프레임을 획득하며, 단일 이미지 프레임으로부터 손의 관절의 3차원 위치 좌표값을 획득할 수 있다.
도 6은 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 인식한 손에 포함된 복수의 관절에 관한 위치 좌표값(P0 내지 P21)을 도시한 도면이다.
도 6을 참조하면, 증강 현실 디바이스(1000)는 복수의 이미지 프레임으로부터 사용자의 손을 인식하고, 손에 포함된 복수의 관절에 관한 위치 좌표값(P0 내지 P21)을 획득할 수 있다. 본 개시에서, '관절(joint)'은 손에 포함되는 복수의 뼈가 서로 연결되는 부분으로서, 손가락, 손 등, 또는 손바닥에 포함되는 하나 이상의 부위를 나타낸다.
도 6에 도시된 실시예에서, 증강 현실 디바이스(1000)는 손목의 관절에 관한 위치 좌표값(P0)을 획득하고, 손바닥에 포함된 복수의 관절에 관한 위치 좌표값(P1, P5, P9, P13, P17)을 획득할 수 있다. 증강 현실 디바이스(1000)는 5개의 손가락에 대하여 각각 3개의 관절에 관한 위치 좌표값을 획득할 수 있다. 예를 들어, 증강 현실 디바이스(1000)는 엄지 손가락에 대하여 P2, P3, 및 P4의 위치 좌표값을 획득하고, 검지 손가락에 대하여 P6, P7, 및 P8의 위치 좌표값을 획득하며, 중지 손가락에 대하여 P10, P11, 및 P12의 위치 좌표값을 획득하고, 약지 손가락에 대하여 P14, P15, 및 P16의 위치 좌표값을 획득하며, 소지 손가락에 대하여 P18, P19, 및 P20의 위치 좌표값을 획득할 수 있다.
증강 현실 디바이스(1000)는 21개의 관절 각각에 관한 X축, Y축, Z축의 위치 좌표값을 포함하는 3차원 위치 좌표값을 획득할 수 있다.
도 6에서 증강 현실 디바이스(1000)는 사용자의 손에 포함되는 21개의 관절에 관한 위치 좌표값(P0 내지 P20)을 획득하는 것으로 도시되었지만, 이는 예시적인 것이고, 복수의 관절의 개수가 21개로 한정되는 것은 아니다.
도 7은 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 손의 관절의 위치 좌표값의 보정 필요 여부를 판단하는 동작을 도시한 도면이다.
증강 현실 디바이스(1000)는 복수의 이미지 프레임으로부터 획득된 손의 관절의 3차원 위치 좌표값의 오인식 여부에 기초하여, 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 복수의 이미지 프레임 중 현재 시점의 이미지 프레임으로부터 획득된 손의 관절의 3차원 위치 좌표값과 이전 시점의 이미지 프레임으로부터 획득된 관절의 3차원 위치 좌표값 간의 차이값에 기초하여, 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다.
도 7을 참조하면, 이전 시점인 제1 시점(t1)에서 획득된 제1 이미지 프레임(701)은 제1 좌안 이미지 프레임(701L) 및 제1 우안 이미지 프레임(701R)을 포함할 수 있다. 제1 좌안 이미지 프레임(701L) 및 제1 우안 이미지 프레임(701R) 각각으로부터 손에 포함된 복수의 관절에 관한 복수의 제1 위치 좌표값(PL_1, PR_1)이 획득될 수 있다. 제2 시점(t2)에 획득된 제2 이미지 프레임(702)은 제2 좌안 이미지 프레임(702L) 및 제2 우안 이미지 프레임(702R)을 포함할 수 있다. 제2 좌안 이미지 프레임(702L) 및 제2 우안 이미지 프레임(702R) 각각으로부터 손에 포함된 복수의 관절에 관한 복수의 제2 위치 좌표값(PL_2, PR_2)이 획득될 수 있다. 도 7은 증강 현실 디바이스(1000)가 좌안 카메라 및 우안 카메라를 포함하는 스테레오 카메라를 이용하여 복수의 이미지 프레임을 획득하는 실시예를 도시한 것으로서, 본 개시가 도 7에 도시된 바와 같이 한정되는 것은 아니다. 본 개시의 다른 실시예에서, 제1 이미지 프레임(701) 및 제2 이미지 프레임(702)은 각각 단일 이미지로 구성될 수도 있다.
증강 현실 디바이스(1000)는 현재 시점인 제2 시점(t2)에서의 제2 이미지 프레임(702)으로부터 획득된 손의 관절에 관한 복수의 제2 위치 좌표값(PL_2, PR_2)과 이전 시점인 제1 시점(t1)에서의 제1 이미지 프레임(701)으로부터 획득된 손의 관절에 관한 복수의 제1 위치 좌표값(PL_1, PR_1)의 차이값이 기 설정된 임계치를 초과한 경우, 제2 이미지 프레임(702)을 보정이 필요한 이미지 프레임으로 식별하고, 복수의 제2 위치 좌표값(PL_2, PR_2)의 보정이 필요하다고 판단할 수 있다. 증강 현실 디바이스(1000)가 제1 위치 좌표값(PL_1, PR_1)과 제2 위치 좌표값(PL_2, PR_2) 간의 차이값에 기초하여 제2 위치 좌표값(PL_2, PR_2)의 보정 필요 여부를 판단하는 구체적인 방법은 도 8에서 상세하게 설명한다.
도 8은 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 손의 관절의 위치 좌표값의 보정 필요 여부를 판단하는 방법을 도시한 흐름도이다.
도 8에 도시된 단계 S810 내지 S840은 도 3에 도시된 단계 S330을 구체화한 단계들이다. 도 8의 단계 S810은 도 3에 도시된 단계 S320이 수행된 이후에 수행될 수 있다.
단계 S810에서, 증강 현실 디바이스(1000)는 제1 이미지 프레임(701, 도 7 참조)으로부터 획득된 제1 위치 좌표값(PL_1, PR_1, 도 7 참조)과 제2 이미지 프레임(702, 도 7 참조)로부터 획득된 제2 위치 좌표값(PL_2, PR_2, 도 7 참조) 간의 차이값을 산출한다. 일 실시예에서, 증강 현실 디바이스(1000)는 제1 좌안 이미지 프레임(701L, 도 7 참조)에서 획득된 제1 위치 좌표값(PL_1, 도 7 참조))과 제2 좌안 이미지 프레임(702L, 도 7 참조)에서 획득된 제2 위치 좌표값(PL_2, 도 7 참조) 간의 차이값을 계산하고, 제1 우안 이미지 프레임(701R, 도 7 참조)에서 획득된 제1 위치 좌표값(PR_1, 도 7 참조)과 제2 우안 이미지 프레임(702R, 도 7 참조)에서 획득된 제2 위치 좌표값(PR_2, 도 7 참조) 간의 차이값을 계산할 수 있다.
단계 S820에서, 증강 현실 디바이스(1000)는 산출된 차이값을 기 설정된 임계치(α)와 비교한다.
차이값이 임계치(α)를 초과한 경우(단계 S830), 증강 현실 디바이스(1000)는 제2 위치 좌표값(PL_2, PR_2)의 보정이 필요하다고 판단한다.
단계 S340에서, 증강 현실 디바이스(1000)는 이전 시점(예를 들어, 도 7의 제1 시점(t1))에서의 제1 이미지 프레임(701)으로부터 획득된 제1 위치 좌표값(PL_1, PR_1), 현재 시점(예를 들어, 도 7의 제2 시점(t2))에서의 제2 이미지 프레임(702)으로부터 획득된 제2 위치 좌표값(PL_2, PR_2), 및 이미지 프레임 별 센서 측정값의 변화값에 기초하여, 제2 위치 좌표값(PL_2, PR_2)을 보정하고, 제2 위치 좌표값(PL_2, PR_2)을 업데이트한다.
차이값이 임계치(α) 이하인 경우(단계 S840), 증강 현실 디바이스(1000)는 제2 위치 좌표값(PL_2, PR_2)의 보정이 불필요하다고 판단한다. 판단 결과에 따라, 증강 현실 디바이스(1000)는 현재 시점 이후의 제3 이미지 프레임으로부터 손의 관절에 관한 복수의 제3 위치 좌표값을 획득한다(단계 S310).
도 9는 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 손의 관절의 위치 좌표값의 보정 필요 여부를 판단하는 동작을 도시한 도면이다.
증강 현실 디바이스(1000)는 복수의 이미지 프레임으로부터 손의 미인식 여부 또는 손의 관절의 3차원 위치 좌표값의 미획득 여부에 기초하여, 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 복수의 이미지 프레임 중 현재 시점의 이미지 프레임으로부터 손이 인식되지 않거나, 또는 손의 관절에 관한 3차원 위치 좌표값이 획득되지 않는 경우, 현재 시점에서의 이미지 프레임을 3차원 위치 좌표값의 보정이 필요한 이미지 프레임으로 식별하고, 손의 관절에 관한 3차원 위치 좌표값의 보정이 필요하다고 판단할 수 있다.
도 9를 참조하면, 이전 시점인 제1 시점(t1)에서 획득된 제1 이미지 프레임(901)은 제1 좌안 이미지 프레임(901L) 및 제1 우안 이미지 프레임(901R)을 포함할 수 있다. 제1 좌안 이미지 프레임(901L) 및 제1 우안 이미지 프레임(901R) 각각으로부터 손에 포함된 복수의 관절에 관한 복수의 제1 위치 좌표값(PL_1, PR_1)이 획득될 수 있다. 현재 시점인 제2 시점(t2)에 획득된 제2 이미지 프레임(902)은 제2 좌안 이미지 프레임(902L) 및 제2 우안 이미지 프레임(902R)을 포함할 수 있다. 도 9에 도시된 실시예에서, 제2 좌안 이미지 프레임(920L)에서는 사용자의 손이 정상적으로 인식되지 않고, 제2 우안 이미지 프레임(902R)에서는 손은 인식되었으나, 손의 관절에 관한 3차원 위치 좌표값이 획득되지 않을 수 있다.
도 9는 증강 현실 디바이스(1000)가 좌안 카메라 및 우안 카메라를 포함하는 스테레오 카메라를 이용하여 복수의 이미지 프레임을 획득하는 실시예를 도시한 것으로서, 본 개시가 도 9에 도시된 바와 같이 한정되는 것은 아니다. 본 개시의 다른 실시예에서, 제1 이미지 프레임(901) 및 제2 이미지 프레임(902)은 각각 단일 이미지로 구성될 수도 있다.
증강 현실 디바이스(1000)는 사용자의 손이 정상적으로 인식되지 않거나 또는 손에 포함된 복수의 관절에 관한 3차원 위치 좌표값이 획득되지 않은 제2 이미지 프레임(902)을 보정이 필요한 이미지 프레임으로 식별하고, 제2 이미지 프레임(902)에서의 손의 관절의 3차원 위치 좌표값의 보정이 필요하다고 판단할 수 있다.
도 9에 도시된 실시예에서, 제2 이미지 프레임(902)에서는 손이 인식되지 않거나 또는 손의 관절의 3차원 위치 좌표값이 전혀 획득되지 않기 때문에, 증강 현실 디바이스(1000)는 제1 이미지 프레임(901)으로부터 획득된 제1 위치 좌표값(PL_1, PR_1)을 기준으로 제2 이미지 프레임(902)에서의 손의 관절의 3차원 위치 좌표값을 보정할 수 있다.
도 10은 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 손의 관절의 위치 좌표값의 보정 필요 여부를 판단하는 동작을 도시한 도면이다.
증강 현실 디바이스(1000)는 복수의 이미지 프레임 중 인식된 손의 위치가 카메라(1100, 도 1a 및 도 2 참조)의 FOV(Field Of View) 영역의 외부와 내부 간 이동하는지 여부에 기초하여, 손의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단할 수 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 복수의 이미지 프레임 중 현재 시점의 이미지 프레임에서는 손의 위치가 카메라(1100)의 FOV 영역 내부에 있어서 손이 인식되고, 손의 관절의 3차원 위치 좌표값이 획득되지만, 이전 시점의 이미지 프레임에서는 손의 위치가 카메라(1100)의 FOV 영역 외부에 있어서 손이 인식되지 않는 경우, 현재 시점에서의 이미지 프레임을 3차원 위치 좌표값의 보정이 필요한 이미지 프레임으로 식별할 수 있다. 이 경우, 증강 현실 디바이스(1000)는 식별된 이미지 프레임에서 획득된 손의 관절에 관한 3차원 위치 좌표값을 보정이 필요한 위치 정보로 판단할 수 있다.
도 10을 참조하면, 이전 시점인 제1 시점(t1)에서 획득된 제1 이미지 프레임(1001)은 제1 좌안 이미지 프레임(1001L) 및 제1 우안 이미지 프레임(1001R)을 포함할 수 있다. 제1 시점(t1)에서 사용자의 손의 위치가 카메라(1100)의 FOV 영역 외부에 위치하였으므로, 제1 좌안 이미지 프레임(1001L) 및 제1 우안 이미지 프레임(1001R)에서는 손이 인식되지 않고, 제1 좌안 이미지 프레임(1001L) 및 제1 우안 이미지 프레임(1001R)로부터 손의 관절의 3차원 위치 좌표값이 획득되지 않을 수 있다. 이 경우, 증강 현실 디바이스(1000)는 제1 시점(t1) 보다 이전 시점(예를 들어, t0)에서의 제1 좌안 이미지 프레임 및 제1 우안 이미지 프레임으로부터 손을 인식하여, 손의 관절의 3차원 위치 좌표값을 획득할 수 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 사용자의 손에 착용된 웨어러블 디바이스(2000, 도 1a 및 도 1b 참조)에 포함된 IMU 센서(2100, 도 1b 참조)에 의해 이전 시점(t0)과 제1 시점(t1) 사이에 측정된 센서 측정값을 획득할 수 있다. 증강 현실 디바이스(1000)는 웨어러블 디바이스(2000)로부터 획득한 IMU 센서(2100)의 측정값을 이용하여 이전 시점(t0)에서 획득된 관절의 3차원 위치 좌표값을 업데이트함으로써, 제1 시점(t1)에서의 관절에 관한 제1 위치 좌표값을 획득할 수 있다.
현재 시점인 제2 시점(t2)에서의 제2 이미지 프레임(1002)은 제2 좌안 이미지 프레임(1002L) 및 제2 우안 이미지 프레임(1002R)을 포함할 수 있다. 도 10에 도시된 실시예를 참조하면, 제2 시점(t2)에서는 사용자의 손이 카메라(1100)의 FOV 영역 내부로 이동하였으므로, 제2 좌안 이미지 프레임(1002L) 및 제2 우안 이미지 프레임(1002R)에서 모두 사용자의 손이 정상적으로 인식될 수 있다. 제2 좌안 이미지 프레임(1002L) 및 제2 우안 이미지 프레임(1002R)에서는 손의 관절에 관한 제2 위치 좌표값(PL_2, PR_2)이 획득될 수 있다.
도 10은 증강 현실 디바이스(1000)가 좌안 카메라 및 우안 카메라를 포함하는 스테레오 카메라를 이용하여 복수의 이미지 프레임을 획득하는 실시예를 도시한 것으로서, 본 개시가 도 10에 도시된 바와 같이 한정되는 것은 아니다. 본 개시의 다른 실시예에서, 제1 이미지 프레임(1001) 및 제2 이미지 프레임(1002)은 각각 단일 이미지로 구성될 수도 있다.
사용자의 손의 위치가 제1 시점(t1)에서는 카메라(1100)의 FOV 영역 외부에 위치하다가 제2 시점(t2)에서 카메라(1100)의 FOV 영역 내부로 이동하는 경우, 증강 현실 디바이스(1000)는 제2 시점(t2)에서의 제2 이미지 프레임(1002)를 보정이 필요한 이미지 프레임으로 식별하고, 제2 이미지 프레임(1002)으로부터 획득된 손의 관절의 3차원 위치 좌표값의 보정이 필요하다고 판단할 수 있다. 일 실시예에서, 증강 현실 디바이스(1000)는 카메라(1100)의 FOV 영역의 외부에서 웨어러블 디바이스(2000)의 IMU 센서(2100)의 센서 측정값을 이용하여 이전 시점(t0)에서의 손의 관절의 3차원 위치 좌표값을 업데이트함으로써 획득된 제1 시점(t1)에서의 제1 위치 좌표값과 카메라(1100)의 FOV 영역의 내부에서 촬영된 제2 이미지 프레임(1002)으로부터 획득된 손의 관절의 제2 위치 좌표값(PL_2, PR_2)의 차이값을 산출할 수 있다. 산출된 차이값이 기 설정된 임계치를 초과하는 경우, 증강 현실 디바이스(1000)는 제2 위치 좌표값(PL_2, PR_2)을 보정이 필요한 위치 정보로 판단할 수 있다.
도 10에 도시된 실시예에서, 사용자의 손의 위치가 제1 시점(t1)에서는 카메라(1100)의 FOV 영역 외부에 위치하다가 제2 시점(t2)에서 카메라(1100)의 FOV 영역 내부로 이동하는 경우, 제1 시점(t1)에서와 제2 시점(t2)에서 손 모양이 다를 수 있다. 이 경우, 제2 시점(t2)에서 획득된 제2 위치 좌표값(PL_2, PR_2)의 보정이 필요할 수 있다. 사용자의 손에 웨어러블 디바이스(2000)를 착용하고 있다고 하더라도, 웨어러블 디바이스(2000)의 IMU 센서(2100)는 손에 포함되는 복수의 관절 중 대표 관절에 관한 6 DoF(6 Degree of Freedom) 측정값만을 획득할 수 있으므로, 대표 관절이 아닌 나머지 관절의 위치 좌표값 변경 사항은 업데이트할 수 없다. 증강 현실 디바이스(1000)는 카메라(1100)의 FOV 영역의 외부에서 웨어러블 디바이스(2000)의 IMU 센서(2100)에 의해 획득된 센서 측정값을 이용하여 업데이트된 제1 시점(t1)에서의 손의 관절들에 관한 3차원 위치 좌표값과 카메라(1100)의 FOV 영역 내부에서 촬영된 제2 이미지 프레임(1002)으로부터 획득된 손의 관절들에 관한 3차원 위치 좌표값들의 차이값을 산출하고, 대표 관절이 아닌 나머지 관절들에 관한 3차원 위치 좌표값에서의 차이값이 큰 경우, 손 모양이 변형되었다고 판단할 수 있다. 이 경우, 증강 현실 디바이스(1000)는 제2 시점(t2)에서 획득된 제2 위치 좌표값(PL_2, PR_2)을 보정이 필요한 위치 정보로 판단할 수 있다.
도 10에 도시된 실시예에서, 제1 이미지 프레임(1001)에서는 손의 위치가 카메라(1100)의 FOV 영역 외부에 위치하였으므로 손이 인식되지 않기 때문에, 증강 현실 디바이스(1000)는 제2 이미지 프레임(1002)으로부터 획득된 제2 위치 좌표값(PL_2, PR_2)을 기준으로 제2 이미지 프레임(1002)에서의 손의 관절의 3차원 위치 좌표값을 보정할 수 있다.
도 11a는 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 웨어러블 디바이스(2000a)로부터 IMU 센서의 측정값 데이터를 획득하는 동작을 도시한 도면이다.
도 11a를 참조하면, 웨어러블 디바이스(2000a)는 사용자의 손목에 착용될 수 있다. 일 실시예에서, 웨어러블 디바이스(2000a)는 워치형 디바이스일 수 있다. 웨어러블 디바이스(2000a)는 IMU 센서를 포함할 수 있다. IMU(Inertial Measurement Unit) 센서는 가속도 센서(accelerometer), 자이로스코프(gyroscope), 및 지자력 센서(magnetometer)의 조합을 통해 웨어러블 디바이스(2000a)의 이동 속도, 방향, 각도, 및 중력 가속도를 측정하도록 구성된다. 일 실시예에서, IMU 센서는 x축 방향, y축 방향, 및 z축 방향의 가속도를 측정하는 3축 가속도 센서와 롤(roll), 피치(pitch), 및 요(yaw) 각속도를 측정하는 3축 각속도 센서를 포함할 수 있다.
웨어러블 디바이스(2000a)는 IMU 센서를 이용하여 손에 포함된 복수의 관절 중 가장 인접한 관절에 관한 3차원 위치 좌표값(x축, y축, 및 z축 좌표값) 및 3축 각속도 값(롤(roll), 요(yaw), 피치(pitch))을 포함하는 6 DoF(6 Degree of Freedom) 측정값을 획득할 수 있다. 도 11a에 도시된 실시예에서, 웨어러블 디바이스(2000a)는 손에 포함된 복수의 관절에 관한 위치 좌표값(P0 내지 P20) 중 손목에 인접한 P0의 위치 좌표값에 관한 6 DoF 측정값을 획득할 수 있다.
증강 현실 디바이스(1000)는 와이파이(WiFi), WFD(Wi-Fi Direct), 블루투스, BLE(Bluetooth Low Energy), NFC(Near Field Communication), 지그비(Zigbee), Ant+, 또는 마이크로 웨이브(μWave) 중 적어도 하나를 포함하는 근거리 무선 통신 네트워크를 통해 웨어러블 디바이스(2000a)와 무선으로 페어링(pairing)되고, 웨어러블 디바이스(2000a)와 데이터 통신을 수행할 수 있다. 증강 현실 디바이스(1000)는 웨어러블 디바이스(2000a)로부터 P0의 위치 좌표값에 관한 IMU 센서 측정값을 수신할 수 있다.
증강 현실 디바이스(1000)는 웨어러블 디바이스(2000a)로부터 수신한 P0 위치 좌표값에 관한 IMU 센서 측정값을 이용하여, P0의 위치 좌표값 뿐만 아니라, 나머지 관절에 관한 위치 좌표값(P1 내지 P20)을 보정할 수 있다. 증강 현실 디바이스(1000)가 손에 포함된 복수의 관절에 관한 위치 좌표값(P0 내지 P20)을 보정하는 구체적인 방법에 대해서는 도 14 및 도 15에서 상세하게 설명하기로 한다.
도 11b는 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 웨어러블 디바이스(2000b)로부터 IMU 센서의 측정값 데이터를 획득하는 동작을 도시한 도면이다.
도 11b를 참조하면, 웨어러블 디바이스(2000b)는 사용자의 손가락에 착용될 수 있다. 일 실시예에서, 웨어러블 디바이스(2000b)는 사용자의 손가락에 착용하는 스마트 링(smart ring)일 수 있다. 웨어러블 디바이스(2000b)는 IMU 센서를 포함할 수 있다. IMU 센서는 도 11a에서 설명한 것과 동일하므로, 중복되는 설명은 생략한다.
웨어러블 디바이스(2000b)는 IMU 센서를 이용하여 손에 포함된 복수의 관절 중 가장 인접한 관절에 관한 3차원 위치 좌표값(x축, y축, 및 z축 좌표값) 및 3축 각속도 값(롤(roll), 요(yaw), 피치(pitch))을 포함하는 6 DoF(6 Degree of Freedom) 측정값을 획득할 수 있다. 도 11b에 도시된 실시예에서, 웨어러블 디바이스(2000b)는 손에 포함된 복수의 관절에 관한 위치 좌표값(P0 내지 P20) 중 검지 손가락과 손바닥 사이의 관절인 P6의 위치 좌표값에 관한 6 DoF 측정값을 획득할 수 있다.
증강 현실 디바이스(1000)는 와이파이(WiFi), WFD(Wi-Fi Direct), 블루투스, BLE(Bluetooth Low Energy), NFC(Near Field Communication), 지그비(Zigbee), Ant+, 또는 마이크로 웨이브(μWave) 중 적어도 하나를 포함하는 근거리 무선 통신 네트워크를 통해 웨어러블 디바이스(2000a)와 무선으로 페어링(pairing)되고, 웨어러블 디바이스(2000b)와 데이터 통신을 수행할 수 있다. 증강 현실 디바이스(1000)는 웨어러블 디바이스(2000b)로부터 P6의 위치 좌표값에 관한 IMU 센서 측정값을 수신할 수 있다.
증강 현실 디바이스(1000)는 웨어러블 디바이스(2000b)로부터 수신한 P6 위치 좌표값에 관한 IMU 센서 측정값을 이용하여, P6의 위치 좌표값 뿐만 아니라, 나머지 관절에 관한 위치 좌표값(P0 내지 P5, P7 내지 P20)을 보정할 수 있다.
도 11a 및 도 11b에 도시된 실시예에서, 웨어러블 디바이스(2000a, 2000b)는 워치 형 디바이스 또는 스마트 링으로 도시되었지만, 본 개시의 웨어러블 디바이스가 도시된 바와 같이 한정되는 것은 아니다. 다른 실시예에서, 웨어러블 디바이스(2000a, 2000b)는 팔찌, 발찌, 목걸리, 콘택트 렌즈, 의류 일체형 장치(예컨대, 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나일 수 있다.
도 11a 및 도 11b에 도시된 실시예에서, 웨어러블 디바이스(2000a, 2000b)에 포함된 IMU 센서는 단위 시간 동안 기 설정된 횟수만큼 실시간으로 6 DoF 측정값을 획득할 수 있다. 예를 들어, IMU 센서는 관절에 관한 6 DoF 측정값을 1초에 500회 측정할 수 있다. 웨어러블 디바이스(2000a, 2000b)는 실시간으로 획득된 복수의 센서 측정값(예를 들어, 1초에 500회의 센서 측정값)에 관한 데이터를 증강 현실 디바이스(1000)에 전송할 수 있다. 증강 현실 디바이스(1000)의 카메라(1100, 도 1a 및 도 2 참조)는 예를 들어, 초당 30프레임 또는 초당 60프레임의 이미지 프레임을 획득할 수 있다. 이 경우, 단위 시간 당 획득되는 복수의 이미지 프레임의 수와 웨어러블 디바이스(2000a, 2000b)로부터 수신되는 IMU 센서의 센서 측정값의 수가 달라질 수 있다. IMU 센서의 측정값 데이터를 이용하여 복수의 이미지 프레임으로부터 획득된 손의 관절에 관한 3차원 위치 좌표값을 보정하기 위해서는, 복수의 이미지 프레임의 초당 프레임 수(FPS)와 센서 측정값의 수를 동기화할 필요가 있다. 증강 현실 디바이스(1000)가 복수의 이미지 프레임과 실시간으로 획득된 IMU 센서의 측정값 데이터를 동기화하는 구체적인 실시예에 대해서는 도 12 및 도 13에서 상세하게 설명하기로 한다.
도 12는 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 웨어러블 디바이스로부터 획득한 IMU 센서의 측정값을 이미지 프레임과 동기화(synchronization)하고, 이미지 프레임 별 센서 측정값의 변화값을 획득하는 방법을 도시한 흐름도이다.
도 13은 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 웨어러블 디바이스(2000)로부터 획득한 IMU 센서(2100)의 측정값을 이미지 프레임의 FPS(Frame Per Second)에 기초하여 동기화하는 동작을 설명하기 위한 도면이다.
도 12를 참조하면, 단계 S1200에서, 증강 현실 디바이스(1000)는 이미지 프레임 별 센서 측정값의 변화값을 획득한다. 도 12에 도시된 단계 S1200은 도 3에 도시된 단계 S320이 수행된 이후에 수행될 수 있다. 그러나, 이에 한정되는 것은 아니고, 단계 S1200은 도 3에 도시된 단계 S330이 수행된 이후에 수행될 수 있다. 도 12의 단계 S1200이 수행된 이후에는, 도 3의 단계 S340이 수행될 수 있다.
단계 S1200은 단계 S1210 내지 S1230을 포함할 수 있다.
단계 S1210에서, 증강 현실 디바이스(1000)는 센서 측정값을 복수의 이미지 프레임의 초당 프레임 수(FPS)에 기초하여 샘플링한다. 도 13을 함께 참조하면, 증강 현실 디바이스(1000)의 카메라(1100)는 1초에 n개의 이미지 프레임을 획득할 수 있다. 도 13에 도시된 시간-이미지 프레임에 관한 제1 그래프(130)를 참조하면, 카메라(1100)는 1초에 제1 이미지 프레임(f1) 내지 제n 이미지 프레임(fn)을 포함하는 n개의 이미지 프레임을 획득할 수 있다. 예를 들어, 카메라(1100)의 초당 프레임 수(FPS)가 30인 경우, n값은 30이고, 초당 프레임 수가 60인 경우, n값은 60일 수 있다.
웨어러블 디바이스(2000)는 IMU 센서(2100)를 이용하여 1초에 m개의 6 DoF 데이터 셋(6 DoF data set)을 획득할 수 있다. 도 13에 도시된 시간-센서 측정값에 관한 제2 그래프(132)를 참조하면, IMU 센서(2100)는 1초에 제1 측정값 데이터(S1) 내지 제n 측정값 데이터(Sm)을 포함하는 m개의 이미지 프레임을 획득할 수 있다. 예를 들어, m값은 500일 수 있으나, 이에 한정되지 않는다. 제2 그래프(132)에서, 제1 측정값 데이터(S1)은 제1 시점(t1)에서의 손의 관절에 관한 6 DoF 데이터 셋을 포함할 수 있다. 일 실시예에서, 제1 측정값 데이터(S1)는 제1 시점(t1)에서의 3차원 위치 좌표값(x축, y축, 및 z축 좌표값) 및 3축 각속도 값(롤(roll), 요(yaw), 피치(pitch))을 포함할 수 있다. 마찬가지로, 제2 측정값 데이터(S2)는 제2 시점(t2)에서의 손의 관절에 관한 6 DoF 데이터 셋을 포함할 수 있다.
웨어러블 디바이스(2000)는 1초 당 m개의 측정값 데이터(S1 내지 Sm)를 증강 현실 디바이스(1000)에 전송할 수 있다.
증강 현실 디바이스(1000)의 프로세서(1300)는 웨어러블 디바이스(2000)로부터 획득한 측정값 데이터(S-1 내지 Sm)를 복수의 이미지 프레임(f1 내지 fn)의 초당 프레임 수(FPS)에 따라 샘플링(sampling)할 수 있다. 예를 들어, 복수의 이미지 프레임(f1 내지 fn)의 초당 프레임 수(FPS)가 30이고, 1초 당 획득된 측정값 데이터(S1 내지 Sm)의 수가 500인 경우, 프로세서(1300)는 500개의 측정값 데이터(S1 내지 Sm) 중 30개의 측정값 데이터(S1' 내지 Sn')만을 샘플링할 수 있다. 도 13에 도시된 시간-샘플링된 측정값 데이터에 관한 제3 그래프(134)를 참조하면, 프로세서(1300)는 m개의 측정값 데이터(S1 내지 Sm) 중 n개의 측정값 데이터(S1'내지 Sn')만을 선택적으로 샘플링할 수 있다.
도 12의 단계 S1220에서, 증강 현실 디바이스(1000)는 샘플링된 센서 측정값을 시간 순서에 따라 대응되는 복수의 이미지 프레임과 매칭시킴으로써, 센서 측정값을 복수의 이미지 프레임과 동기화(synchronization)한다. 도 13을 함께 참조하면, 증강 현실 디바이스(1000)의 프로세서(1300)는 샘플링된 센서 측정값 데이터(S1' 내지 Sn')를 시간 순서에 따라 대응되는 복수의 이미지 프레임(f1 내지 fn)과 매칭시킬 수 있다. 도 13의 제1 그래프(130) 및 제3 그래프(134)를 참조하면, 프로세서(1300)는 제1 시점(t1)에서의 제1 이미지 프레임(f1)과 샘플링된 제1 측정값 데이터(S1')를 매칭시키고, 제2 시점(t2)에서의 제2 이미지 프레임(f2)과 샘플링된 제2 측정값 데이터(S2')를 매칭시킬 수 있다. 마찬가지 방법으로, 프로세서(1300)는 제n 이미지 프레임(fn)과 샘플링된 제n 측정값 데이터(Sn')를 매칭시킬 수 있다. 프로세서(1300)는 복수의 이미지 프레임(f1 내지 fn)과 샘플링된 센서 측정값 데이터(S1' 내지 Sn')을 매칭시킴으로써, 복수의 이미지 프레임(f1 내지 fn)과 센서 측정값 데이터(S1' 내지 Sn')을 동기화할 수 있다.
도 12의 단계 S1230에서, 증강 현실 디바이스(1000)는 동기화된 센서 측정값을 이용하여, 이미지 프레임 별 센서 측정값의 변화값을 산출한다. 도 13의 제3 그래프(134)를 참조하면, 증강 현실 디바이스(1000)의 프로세서(1300)는 제2 시점(t2)에서의 샘플링된 제2 측정값 데이터(S2)와 제1 시점(t1)에서의 샘플링된 제1 측정값 데이터(S1) 간의 차이값을 산출하여, 제2 이미지 프레임(f2)에 대한 측정값 변화값에 관한 정보를 획득할 수 있다. 프로세서(1300)는 제2 이미지 프레임(f2)으로부터 획득된 손의 관절에 관한 3차원 위치 좌표값을 보정하는 경우, 제2 시점(t2)에서 산출된 제2 측정값 데이터(S2)와 제1 측정값 데이터(S1) 간의 차이값에 관한 변화값 정보를 이용하여 3차원 위치 좌표값을 보정할 수 있다.
도 14는 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 손의 관절의 3차원 위치 좌표값을 보정하는 방법을 도시한 흐름도이다.
도 14에 도시된 단계 S1410 및 S1420은 도 3에 도시된 단계 S340을 구체화한 단계들이다. 도 14의 단계 S1410은 도 3에 도시된 단계 S330이 수행된 이후에 수행될 수 있다. 도 14의 단계 S1420이 수행된 이후에는 도 3에 도시된 단계 S350이 수행될 수 있다.
단계 S1410에서, 증강 현실 디바이스(1000)는 제1 위치 좌표값에 제1 가중치를 적용하고, 제2 위치 좌표값에 제2 가중치를 적용한다. 제1 가중치 및 제2 가중치는 각각 0 이상 1 이하의 값일 수 있다. 일 실시예에서, 제1 가중치 및 제2 가중치는 제1 이미지 프레임 및 제2 이미지 프레임 각각에서의 손 인식 여부, 제1 위치 좌표값과 제2 위치 좌표값의 차이값, 및 손이 카메라(1100, 도 1a 및 도 2 참조)의 FOV 영역 내외부 이동 여부 중 적어도 하나에 기초하여 결정될 수 있다.
일 실시예에서, 증강 현실 디바이스(1000)의 프로세서(1300, 도 2 참조)는 제1 이미지 프레임 및 제2 이미지 프레임 중 어느 하나의 이미지 프레임에서 손이 인식되지 않는 경우, 미인식된 이미지 프레임에 대한 가중치를 0 또는 0에 가까운 값으로 결정할 수 있다. 예를 들어, 제1 이미지 프레임에서 손이 인식되지 않고, 제2 이미지 프레임에서 손이 인식된 경우, 프로세서(1300)는 제1 이미지 프레임에 대한 제1 가중치를 0 또는 0에 가까운 작은 값으로 결정하고, 제2 가중치를 1 또는 1에 가까운 값으로 결정할 수 있다. 이 경우, 프로세서(1300)는 제2 이미지 프레임으로부터 획득된 3차원 위치 좌표값을 기준으로 보정 대상인 손의 관절의 3차원 위치 좌표값을 보정할 수 있다. 다른 예를 들어, 제1 이미지 프레임에서는 손이 인식되었지만, 제2 이미지 프레임에서 손이 인식되지 않은 경우, 프로세서(1300)는 제1 이미지 프레임에 대한 제1 가중치를 1 또는 1에 가까운 값으로 결정하고, 제2 이미지 프레임에 대한 제2 가중치를 0 또는 0에 가까운 값으로 결정할 수 있다. 이 경우, 프로세서(1300)는 제1 이미지 프레임으로부터 획득된 3차원 위치 좌표값을 기준으로 보정 대상인 제2 이미지 프레임에서의 손의 관절의 3차원 위치 좌표값을 보정할 수 있다.
일 실시예에서, 증강 현실 디바이스(1000)는 사용자의 손의 위치가 카메라(1100)의 FOV 영역의 내부에 위치하는지 또는 외부에 위치하는지 여부에 따라 제1 가중치 및 제2 가중치를 결정할 수 있다. 예를 들어, 제1 이미지 프레임에서 손의 위치가 카메라(1100)의 FOV 영역 외부에 위치하였다가 제2 이미지 프레임에서는 손의 위치가 카메라(1100)의 FOV 영역 내부로 이동하는 경우, 프로세서(1300)는 제1 이미지 프레임에 대한 제1 가중치를 0 또는 0에 가까운 작은 값으로 결정하고, 제2 가중치를 1 또는 1에 가까운 값으로 결정할 수 있다. 이 경우, 프로세서(1300)는 제2 이미지 프레임으로부터 획득된 3차원 위치 좌표값을 기준으로 보정 대상인 손의 관절의 3차원 위치 좌표값을 보정할 수 있다.
단계 S1420에서, 증강 현실 디바이스(1000)는 제1 가중치가 적용된 제1 위치 좌표값, 제2 가중치가 적용된 제2 위치 좌표값, 및 이미지 프레임 별 센서 측정값의 변화값에 기초하여, 제2 위치 좌표값을 보정한다. 일 실시예에서, 증강 현실 디바이스(1000)의 프로세서(1300)는 보정이 필요한 것으로 판단된 현재 시점(t0)의 제2 위치 좌표값에 제2 가중치를 적용하고, 이전 시점(t-1)의 제1 이미지 프레임으로부터 획득된 제1 위치 좌표값에 제1 가중치를 적용할 수 있다. 프로세서(1300)는 제1 가중치가 적용된 제1 위치 좌표값, 제2 가중치가 적용된 제2 위치 좌표값, 및 웨어러블 디바이스(2000, 도 13 참조)로부터 획득한 IMU 센서(2100)의 이미지 프레임 별 센서 측정값에 기초하여 제2 위치 좌표값을 보정할 수 있다.
도 15는 본 개시의 일 실시예에 따른 증강 현실 디바이스(1000)가 손의 관절의 3차원 위치 좌표값을 업데이트하는 방법을 도시한 흐름도이다.
도 15에 도시된 단계 S1510 및 S1520는 도 14에 도시된 단계 S1420을 구체화한 단계들이다. 도 15의 단계 S1520이 수행된 이후에는 도 3에 도시된 단계 S350이 수행될 수 있다.
단계 S1510에서, 증강 현실 디바이스(1000)는 복수의 관절에 관한 제2 위치 좌표값 중 대표 관절의 위치 좌표값을 보정한다. 대표 관절은 손에 포함되는 복수의 관절 중 임의의 관절로 결정될 수 있다. '대표 관절의 위치 좌표값'은 손에 포함된 복수의 관절 중 어느 하나의 관절의 위치 좌표로서, 예를 들어, 손목과 인접한 관절의 위치 좌표인 P0(도 6 참조)일 수 있다. 그러나, 이에 한정되는 것은 아니고, 대표 관절은 인덱스 핑거팁(index finger tip)일 수 있다. 예를 들어 인덱스 핑거팁이 검지 손가락의 손가락 끝인 경우, 대표 관절의 위치 좌표값은 P8(도 6 참조)일 수 있다.
증강 현실 디바이스(1000)의 프로세서(1300, 도 2 참조)는 손에 포함된 복수의 관절에 관한 제2 위치 좌표값 중 대표 관절에 관한 위치 좌표값을 보정할 수 있다.
단계 S1520에서, 증강 현실 디바이스(1000)는 보정된 대표 관절의 위치 좌표값에 기초하여, 복수의 관절 중 나머지 관절 각각에 관한 제2 위치 좌표값을 업데이트 한다. 일 실시예에서, 증강 현실 디바이스(1000)의 프로세서(1300)는 대표 관절과 나머지 관절과의 위치 관계에 기초하여, 보정된 대표 관절의 3차원 위치 좌표값을 기준으로 나머지 관절에 관한 3차원 위치 좌표값을 보정할 수 있다. 프로세서(1300)는 대표 관절의 3차원 위치 좌표값 및 나머지 관절의 3차원 위치 좌표값을 보정함으로써, 복수의 관절에 관한 3차원 위치 좌표값을 업데이트할 수 있다.
본 개시에서 설명된 증강 현실 디바이스(1000)에 의해 실행되는 프로그램은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 프로그램은 컴퓨터로 읽을 수 있는 명령어들을 수행할 수 있는 모든 시스템에 의해 수행될 수 있다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령어(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.
소프트웨어는, 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 컴퓨터 프로그램으로 구현될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체로는, 예를 들어 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.
컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장되는 경우를 구분하지 않는다. 예를 들어, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
또한, 본 명세서에 개시된 실시예들에 따른 프로그램은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.
컴퓨터 프로그램 제품은 소프트웨어 프로그램, 소프트웨어 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 증강 현실 디바이스(1000)의 제조사 또는 전자 마켓(예를 들어, 삼성 갤럭시 스토어)을 통해 전자적으로 배포되는 소프트웨어 프로그램 형태의 상품(예를 들어, 다운로드 가능한 애플리케이션(downloadable application))을 포함할 수 있다. 전자적 배포를 위하여, 소프트웨어 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 증강 현실 디바이스(1000)의 제조사의 서버, 전자 마켓의 서버, 또는 소프트웨어 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.
컴퓨터 프로그램 제품은, 증강 현실 디바이스(1000), 웨어러블 디바이스(2000), 및/또는 서버로 구성되는 시스템에서, 서버의 저장매체 또는 증강 현실 디바이스(1000)의 저장매체를 포함할 수 있다. 또는, 증강 현실 디바이스(1000)와 통신 연결되는 제3 장치(예를 들어, 모바일 디바이스)가 존재하는 경우, 컴퓨터 프로그램 제품은 제3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 증강 현실 디바이스(1000)으로부터 전자 장치 또는 제3 장치로 전송되거나, 제3 장치로부터 전자 장치로 전송되는 소프트웨어 프로그램 자체를 포함할 수 있다.
이 경우, 증강 현실 디바이스(1000), 웨어러블 디바이스(2000), 및 제3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 증강 현실 디바이스(1000), 웨어러블 디바이스(2000), 및 제3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.
예를 들면, 증강 현실 디바이스(1000)가 메모리(1400, 도 2 참조)에 저장된 컴퓨터 프로그램 제품을 실행하여, 증강 현실 디바이스(1000)와 통신 연결된 타 전자 장치(예를 들어, 모바일 디바이스)가 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.
또 다른 예로, 제3 장치가 컴퓨터 프로그램 제품을 실행하여, 제3 장치와 통신 연결된 전자 장치가 개시된 실시예에 따른 방법을 수행하도록 제어할 수 있다.
제3 장치가 컴퓨터 프로그램 제품을 실행하는 경우, 제3 장치는 증강 현실 디바이스(1000)로부터 컴퓨터 프로그램 제품을 다운로드하고, 다운로드된 컴퓨터 프로그램 제품을 실행할 수 있다. 또는, 제3 장치는 프리로드(pre-load)된 상태로 제공된 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수도 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 컴퓨터 시스템 또는 모듈 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (20)

  1. 사용자의 손에 포함된 복수의 관절에 관한 위치 정보를 획득하는 증강 현실 디바이스(Augmented Reality device)에 있어서,
    외부 디바이스와 데이터 통신을 수행하는 통신 인터페이스;
    상기 손을 촬영함으로써, 상기 손을 포함하는 복수의 이미지 프레임을 획득하는 카메라;
    적어도 하나의 명령어들(instructions)를 저장하는 메모리; 및
    상기 적어도 하나의 명령어들을 실행하는 적어도 하나의 프로세서;
    를 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 복수의 이미지 프레임으로부터 상기 손을 인식하고, 상기 인식된 손에 포함된 복수의 관절의 3차원 위치 좌표값을 획득하고,
    상기 통신 인터페이스를 통해, 상기 외부 디바이스의 IMU 센서에 의해 상기 복수의 관절 중 적어도 하나의 관절에 관하여 측정된 센서 측정값을 획득하고,
    상기 손의 인식 결과에 기초하여, 상기 복수의 이미지 프레임 중 제1 이미지 프레임으로부터 획득된 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하고,
    판단 결과에 따라, 상기 복수의 이미지 프레임 중 제1 이미지 프레임의 이전 시점의 프레임인 제2 이미지 프레임으로부터 획득된 상기 복수의 관절의 제1 위치 좌표값, 상기 제1 이미지 프레임으로부터 획득된 상기 복수의 관절의 제2 위치 좌표값, 및 이미지 프레임 별 상기 센서 측정값의 변화값 중 적어도 하나에 기초하여 상기 제2 위치 좌표값을 보정함으로써, 상기 제2 위치 좌표값을 업데이트하는, 증강 현실 디바이스.
  2. 제1 항에 있어서,
    상기 외부 디바이스는,
    사용자의 손목, 손가락, 또는 손 바닥 중 적어도 하나의 부위에 착용하는 웨어러블 디바이스(wearable device)이고, 상기 복수의 관절 중 적어도 하나의 관절에 관한 6 DoF(6 Degree of Freedom)의 측정값을 획득하는 상기 IMU 센서를 포함하는, 증강 현실 디바이스.
  3. 제1 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 제1 이미지 프레임으로부터의 손의 미인식 여부 또는 상기 적어도 하나의 관절의 3차원 위치 좌표값의 미획득 여부에 기초하여, 상기 제1 이미지 프레임으로부터 획득된 상기 적어도 하나의 3차원 위치 좌표값의 보정 필요 여부를 판단하는, 증강 현실 디바이스.
  4. 제1 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 제1 위치 좌표값과 상기 제2 위치 좌표값 간의 차이값을 산출하고, 상기 산출된 차이값을 기 설정된 임계치와 비교하고,
    비교 결과에 기초하여, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는, 증강 현실 디바이스.
  5. 제1 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 손의 위치의 상기 카메라의 FOV(Field Of View) 영역 내부와 외부 간 위치 이동 여부에 기초하여, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는, 증강 현실 디바이스.
  6. 제5 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 손의 위치가 상기 카메라의 FOV 영역의 외부에 위치한 경우 획득된 상기 제1 위치 좌표값과 상기 FOV 영역의 내부에서 촬영된 상기 제1 이미지 프레임으로부터 획득된 상기 제2 위치 좌표값의 차이값에 기초하여, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는, 증강 현실 디바이스.
  7. 제1 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 획득된 센서 측정값을 상기 복수의 이미지 프레임의 초당 프레임 수(Frame per second, FPS)에 기초하여 샘플링하고,
    상기 샘플링된 센서 측정값을 시간 순서에 따라 대응되는 상기 복수의 이미지 프레임과 매칭시킴으로써, 상기 센서 측정값을 상기 복수의 이미지 프레임과 동기화(synchronization)하며,
    상기 동기화된 센서 측정값을 이용하여, 상기 이미지 프레임 별 센서 측정값의 변화값을 산출하는, 증강 현실 디바이스.
  8. 제7 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 제1 위치 좌표값에 제1 가중치를 적용하고, 상기 제2 위치 좌표값에 제2 가중치를 적용하고,
    상기 제1 가중치가 적용된 상기 제1 위치 좌표값, 상기 제2 가중치가 적용된 상기 제2 위치 좌표값, 및 상기 이미지 프레임 별 센서 측정값의 변화값에 기초하여, 상기 제2 위치 좌표값을 보정하는, 증강 현실 디바이스.
  9. 제8 항에 있어서,
    상기 제1 가중치 및 상기 제2 가중치는,
    상기 제1 이미지 프레임 및 상기 제2 이미지 프레임에서의 상기 사용자의 손 인식 여부, 상기 제1 위치 좌표값과 상기 제2 위치 좌표값의 차이값, 및 상기 사용자의 손이 상기 카메라의 FOV 영역 내외부 이동 여부 중 적어도 하나에 기초하여 결정되는, 증강 현실 디바이스.
  10. 제1 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 복수의 관절에 관한 상기 제2 위치 좌표값 중 대표 관절의 위치 좌표값을 보정하고,
    상기 보정된 대표 관절의 위치 좌표값에 기초하여, 상기 복수의 관절 중 나머지 관절 각각에 관한 상기 제2 위치 좌표값을 업데이트하는, 증강 현실 디바이스.
  11. 증강 현실 디바이스(Augmented Reality device)가 사용자의 손의 관절에 관한 위치 정보를 획득하는 방법에 있어서,
    복수의 이미지 프레임으로부터 상기 사용자의 손을 인식하고, 상기 인식된 손에 포함된 복수의 관절의 3차원 위치 좌표값을 획득하는 단계;
    외부 디바이스의 IMU 센서를 이용하여 상기 복수의 관절 중 적어도 하나의 관절에 관하여 측정된 센서 측정값을 획득하는 단계;
    상기 손의 인식 결과에 기초하여, 상기 복수의 이미지 프레임 중 제1 이미지 프레임으로부터 획득된 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계;
    판단 결과에 따라, 상기 복수의 이미지 프레임 중 제1 이미지 프레임의 이전 시점의 프레임인 제2 이미지 프레임으로부터 획득된 상기 복수의 관절의 제1 위치 좌표값, 상기 제1 이미지 프레임으로부터 획득된 상기 복수의 관절의 제2 위치 좌표값, 및 이미지 프레임 별 상기 센서 측정값의 변화값 중 적어도 하나에 기초하여 상기 제2 위치 좌표값을 보정함으로써, 상기 제2 위치 좌표값을 업데이트하는 단계; 및
    상기 업데이트된 제2 위치 좌표값을 출력하는 단계;
    를 포함하는, 방법.
  12. 제11 항에 있어서,
    상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계는,
    상기 제1 이미지 프레임으로부터의 손의 미인식 여부 또는 상기 적어도 하나의 관절의 3차원 위치 좌표값의 미획득 여부에 기초하여, 상기 제1 이미지 프레임으로부터 획득된 상기 적어도 하나의 3차원 위치 좌표값의 보정 필요 여부를 판단하는, 방법.
  13. 제11 항에 있어서,
    상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계는,
    상기 제2 이미지 프레임으로부터 획득된 상기 제1 위치 좌표값과 상기 제1 이미지 프레임으로부터 획득된 상기 제2 위치 좌표값 간의 차이값을 산출하는 단계;
    상기 산출된 차이값을 기 설정된 임계치와 비교하는 단계; 및
    비교 결과에 기초하여, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계;
    를 포함하는, 방법.
  14. 제11 항에 있어서,
    상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계는,
    상기 손의 위치의 상기 카메라의 FOV(Field Of View) 영역 내부와 외부 간 위치 이동 여부에 기초하여, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는, 방법.
  15. 제14 항에 있어서,
    상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계는,
    상기 손의 위치가 상기 카메라의 FOV 영역의 외부에 위치한 경우 획득된 상기 제1 위치 좌표값과 상기 FOV 영역의 내부에서 촬영된 상기 제1 이미지 프레임으로부터 획득된 상기 제2 위치 좌표값의 차이값에 기초하여, 상기 적어도 하나의 관절의 3차원 위치 좌표값의 보정 필요 여부를 판단하는 단계;
    를 포함하는, 방법.
  16. 제11 항에 있어서,
    상기 이미지 프레임 별 센서 측정값의 변화값을 획득하는 단계;
    를 더 포함하고,
    상기 이미지 프레임 별 센서 측정값의 변화값을 획득하는 단계는,
    상기 획득된 센서 측정값을 상기 복수의 이미지 프레임의 초당 프레임 수(Frame per second, FPS)에 기초하여 샘플링하는 단계;
    상기 샘플링된 센서 측정값을 시간 순서에 따라 대응되는 상기 복수의 이미지 프레임과 매칭시킴으로써, 상기 센서 측정값을 상기 복수의 이미지 프레임과 동기화(synchronization)하는 단계; 및
    상기 동기화된 센서 측정값을 이용하여, 상기 이미지 프레임 별 센서 측정값의 변화값을 산출하는 단계;
    를 포함하는, 방법.
  17. 제16 항에 있어서,
    상기 제2 위치 좌표값을 업데이트하는 단계는,
    상기 제1 위치 좌표값에 제1 가중치를 적용하고, 상기 제2 위치 좌표값에 제2 가중치를 적용하는 단계; 및
    상기 제1 가중치가 적용된 상기 제1 위치 좌표값, 상기 제2 가중치가 적용된 상기 제2 위치 좌표값, 및 상기 이미지 프레임 별 센서 측정값의 변화값에 기초하여, 상기 제2 위치 좌표값을 보정하는 단계;
    를 포함하는, 방법.
  18. 제17 항에 있어서,
    상기 제1 가중치 및 상기 제2 가중치는,
    상기 제1 이미지 프레임 및 상기 제2 이미지 프레임에서의 상기 사용자의 손 인식 여부, 상기 제1 위치 좌표값과 상기 제2 위치 좌표값의 차이값, 및 상기 사용자의 손이 상기 카메라의 FOV 영역 내외부 이동 여부 중 적어도 하나에 기초하여 결정되는, 방법.
  19. 제11 항에 있어서,
    상기 제2 위치 좌표값을 업데이트하는 단계는,
    상기 복수의 관절에 관한 상기 제2 위치 좌표값 중 대표 관절의 위치 좌표값을 보정하는 단계; 및
    상기 보정된 대표 관절의 위치 좌표값에 기초하여, 상기 복수의 관절 중 나머지 관절 각각에 관한 상기 제2 위치 좌표값을 업데이트하는 단계;
    를 포함하는, 방법.
  20. 제11 항 내지 제19 항 중 어느 하나의 항에 기재된 방법을 구현하기 위한 적어도 하나의 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020210190393A 2021-12-28 2021-12-28 손의 관절에 관한 위치 정보를 획득하는 증강 현실 디바이스 및 그 동작 방법 KR20230100472A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210190393A KR20230100472A (ko) 2021-12-28 2021-12-28 손의 관절에 관한 위치 정보를 획득하는 증강 현실 디바이스 및 그 동작 방법
US18/018,814 US20240265641A1 (en) 2021-12-28 2022-12-20 Augmented reality device for obtaining position information of joints of user's hand and operating method thereof
PCT/KR2022/020874 WO2023128446A1 (ko) 2021-12-28 2022-12-20 손의 관절에 관한 위치 정보를 획득하는 증강 현실 디바이스 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210190393A KR20230100472A (ko) 2021-12-28 2021-12-28 손의 관절에 관한 위치 정보를 획득하는 증강 현실 디바이스 및 그 동작 방법

Publications (1)

Publication Number Publication Date
KR20230100472A true KR20230100472A (ko) 2023-07-05

Family

ID=86999768

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210190393A KR20230100472A (ko) 2021-12-28 2021-12-28 손의 관절에 관한 위치 정보를 획득하는 증강 현실 디바이스 및 그 동작 방법

Country Status (3)

Country Link
US (1) US20240265641A1 (ko)
KR (1) KR20230100472A (ko)
WO (1) WO2023128446A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230206622A1 (en) * 2020-09-25 2023-06-29 Sony Group Corporation Information processing device, information processing method, and program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6074170B2 (ja) * 2011-06-23 2017-02-01 インテル・コーポレーション 近距離動作のトラッキングのシステムおよび方法
US10234941B2 (en) * 2012-10-04 2019-03-19 Microsoft Technology Licensing, Llc Wearable sensor for tracking articulated body-parts
JP6075255B2 (ja) * 2013-09-20 2017-02-08 株式会社デンソー 入力装置、動作特定方法
JP6971788B2 (ja) * 2017-11-09 2021-11-24 シャープ株式会社 画面表示制御方法および画面表示制御システム

Also Published As

Publication number Publication date
WO2023128446A1 (ko) 2023-07-06
US20240265641A1 (en) 2024-08-08

Similar Documents

Publication Publication Date Title
US11500536B2 (en) Neural network system for gesture, wear, activity, or carry detection on a wearable or mobile device
CN109804411B (zh) 用于同时定位和映射的系统和方法
US10818092B2 (en) Robust optical disambiguation and tracking of two or more hand-held controllers with passive optical and inertial tracking
US10078377B2 (en) Six DOF mixed reality input by fusing inertial handheld controller with hand tracking
CN110476168A (zh) 用于手部跟踪的方法和系统
KR20170088655A (ko) 증강 현실 출력 방법 및 이를 지원하는 전자 장치
US11792517B2 (en) Pose tracking for rolling shutter camera
US10776943B2 (en) System and method for 3D association of detected objects
US20170365231A1 (en) Augmenting reality via antenna and interaction profile
US20200380723A1 (en) Online learning for 3d pose estimation
US20240265641A1 (en) Augmented reality device for obtaining position information of joints of user's hand and operating method thereof
US12093461B2 (en) Measurement based on point selection
KR20210158695A (ko) 영상에서 평면을 검출하는 전자 장치 및 그 동작 방법
US20240280355A1 (en) Joint bending estimation
KR20240006289A (ko) 공간의 위치 좌표계를 동기화하는 증강 현실 디바이스 및 방법
CN117289205A (zh) 用于对外部装置进行定位的方法和电子装置以及定位系统