KR20230079618A - 인체를 3차원 모델링하는 방법 및 장치 - Google Patents

인체를 3차원 모델링하는 방법 및 장치 Download PDF

Info

Publication number
KR20230079618A
KR20230079618A KR1020210166589A KR20210166589A KR20230079618A KR 20230079618 A KR20230079618 A KR 20230079618A KR 1020210166589 A KR1020210166589 A KR 1020210166589A KR 20210166589 A KR20210166589 A KR 20210166589A KR 20230079618 A KR20230079618 A KR 20230079618A
Authority
KR
South Korea
Prior art keywords
information
joint
error
shape factor
wearable device
Prior art date
Application number
KR1020210166589A
Other languages
English (en)
Inventor
지승훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210166589A priority Critical patent/KR20230079618A/ko
Priority to US17/732,803 priority patent/US20230169725A1/en
Publication of KR20230079618A publication Critical patent/KR20230079618A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Optics & Photonics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

일 실시 예에 따르면, 웨어러블 디바이스 착용자의 3차원 모델링을 위해, 웨어러블 디바이스에 장착된 복수의 촬영 장치들로부터 획득한, 착용자에 대한 복수의 영상들 각각에 대해 특징 맵(feature map)을 생성하고, 복수의 영상들 각각에 대해, 특징 맵에 기초하여 착용자의 관절(joint) 위치에 대응하는 조인트 키포인트(joint keypoint) 정보 - 조인트 키포인트 정보는 2차원 픽셀 정보 및 깊이 정보를 포함함 - 및 착용자의 형상(shape)에 대한 초기 형상 계수(shape coefficient) 정보를 획득하고, 조인트 키포인트 정보 및 초기 형상 계수 정보에 기초하여, 착용자를 3차원 모델링하기 위한 타겟 3차원 조인트 각도를 결정하고, 조인트 키포인트 정보 및 초기 형상 계수 정보에 기초하여, 착용자를 3차원 모델링하기 위한 타겟 형상 계수 정보를 결정하고, 및 타겟 3차원 조인트 각도 및 타겟 형상 계수 정보에 기초하여, 착용자에 대한 3차원 메쉬(mesh)를 획득할 수 있다.

Description

인체를 3차원 모델링하는 방법 및 장치{METHOD AND APPARATUS FOR 3D MODELING OF HUMAN BODY}
아래 실시예들은 인체를 3차원 모델링하는 방법 및 장치에 관한 것으로, 구체적으로는 웨어러블 디바이스를 착용한 사람의 신체를 3차원 모델링하는 방법 및 장치에 관한 것이다.
최근 영상으로부터 사람의 자세를 추출하는 기술들이 발전하여 행동 인식, 애니메이션 및 가상 현실이나 증강 현실과 같은 기존의 응용 분야뿐만 아니라 보안, 의료 등 다양한 분야에서 활용되고 있다. 예를 들어, 증강 현실, 가상 현실 공간상에서의 아바타 생성을 위해 단순한 자세(pose) 추출을 넘어 사람의 움직임을 상세하게 표현할 수 있도록, 3차원 공간 상에서 인간 모델을 복원하는 방법이 연구되고 있다. 사람의 움직임을 가상 공간상의 아바타에 투영하기 위해, 관절(joint)의 위치, 관절이 이루는 각도 및 사람의 체형에 대한 정보들이 활용된다.
특히, 머신러닝, 인공신경망 또는 딥러닝과 같은 인공지능 기술을 사용하여 2차원 영상으로부터 사람의 신체를 3차원 모델링하는 방법에 대한 연구가 활발하게 진행되고 있다. 예를 들어, Computer vision기술을 통해 2차원 영상 내에서 사람의 관절 위치를 화소 위치 단위로 찾는 방법, 사람의 피부를 포함한 형상(shape)을 추정하는 방법 등이 연구된 바 있다.
일 실시 예에 따른 웨어러블 디바이스의 착용자를 3차원 모델링하는 방법은, 상기 웨어러블 디바이스에 장착된 복수의 촬영 장치들로부터 획득한, 상기 착용자에 대한 복수의 영상들 각각에 대해, 특징 맵(feature map)을 생성하는 단계; 상기 복수의 영상들 각각에 대해, 상기 특징 맵에 기초하여 상기 착용자의 관절(joint) 위치에 대응하는 조인트 키포인트(joint keypoint) 정보 - 상기 조인트 키포인트 정보는 2차원 픽셀 정보 및 깊이 정보를 포함함 - 및 상기 착용자의 형상(shape)에 대한 초기 형상 계수(shape coefficient) 정보를 획득하는 단계; 상기 조인트 키포인트 정보 및 상기 초기 형상 계수 정보에 기초하여, 상기 착용자를 3차원 모델링하기 위한 타겟 3차원 조인트 각도를 결정하는 단계; 상기 조인트 키포인트 정보 및 상기 초기 형상 계수 정보에 기초하여, 상기 착용자를 3차원 모델링하기 위한 타겟 형상 계수 정보를 결정하는 단계; 및 상기 타겟 3차원 조인트 각도 및 상기 타겟 형상 계수 정보에 기초하여, 상기 착용자에 대한 3차원 메쉬(mesh)를 획득하는 단계를 포함할 수 있다.
일 실시 예에 따르면, 상기 특징 맵은, Mobilenet, Googlenet 및 Resnet 중 적어도 어느 하나에 기초하여 생성될 수 있다.
일 실시 예에 따르면, 상기 복수의 영상들 각각에 대해 상기 조인트 키포인트 정보 및 상기 초기 형상 계수 정보를 획득하는 단계는, 상기 특징 맵 및 제1 컨볼루션 신경망(convolution neural network) 모델에 기초하여 추론되는 상기 2차원 픽셀 정보를 획득하는 단계; 상기 특징 맵 및 제2 컨볼루션 신경망 모델에 기초하여 추론되는 상기 깊이 정보를 획득하는 단계; 및 상기 특징 맵에 대한 반복적 회귀분석(iterative regression)을 통해 상기 초기 형상 계수 정보를 획득하는 단계를 포함할 수 있다.
일 실시 예에 따르면, 상기 타겟 3차원 조인트 각도를 결정하는 단계는, 상기 2차원 픽셀 정보에 대한 오차를 계산하는 단계; 상기 깊이 정보에 대한 오차를 계산하는 단계; 시간에 따른 3차원 조인트 각도의 오차를 계산하는 단계; 상기 2차원 픽셀 정보에 대한 오차, 상기 깊이 정보에 대한 오차 및 상기 시간에 따른 3차원 조인트 각도의 오차에 기초하여 3차원 조인트 각도에 대한 전체 오차를 계산하는 단계; 및 상기 전체 오차가 최소가 되는 3차원 조인트 각도를 상기 타겟 3차원 조인트 각도로 결정하는 단계를 포함할 수 있다.
일 실시 예에 따르면, 상기 복수의 촬영 장치들이 상기 웨어러블 디바이스의 좌측에 장착된 좌측 촬영 장치 및 상기 웨어러블 디바이스의 우측에 장착된 우측 촬영 장치로 구성되는 경우, 상기 2차원 픽셀 정보에 대한 오차는, 하기 수학식 1에 기초하여 계산될 수 있다.
[수학식 1]
Figure pat00001
여기서,
Figure pat00002
는 상기 2차원 픽셀 정보에 대한 오차,
Figure pat00003
는 3차원 조인트 각도,
Figure pat00004
는 형상 계수 정보, X i
Figure pat00005
Figure pat00006
를 입력으로 vertex를 출력하는 SMPL(Skinned. Multi-person Linear Model)에서 i번째 관절의 3차원 위치 정보,
Figure pat00007
l 은 상기 좌측 촬영 장치의 장착 위치로 투영(projection)하는 함수,
Figure pat00008
r 은 상기 우측 촬영 장치의 장착 위치로 투영(projection)하는 함수,
Figure pat00009
li 는 상기 좌측 촬영 장치로 획득된 영상에서 i번째 관절의 상기 2차원 픽셀 정보,
Figure pat00010
ri 는 상기 우측 촬영 장치로 획득된 영상에서 i번째 관절의 상기 2차원 픽셀 정보, v li 는 상기 좌측 촬영 장치로 획득된 영상에서 i번째 관절이 관찰되었는지 여부에 대한 정보 - 관찰된 경우 1, 관찰되지 않은 경우 0 -, v ri 는 상기 우측 촬영 장치로 획득된 영상에서 i번째 관절이 관찰되었는지 여부에 대한 정보 - 관찰된 경우 1, 관찰되지 않은 경우 0 -,
Figure pat00011
는 L2-놈(norm)의 제곱으로, 각 성분의 제곱합을 의미함.
일 실시 예에 따르면, 상기 형상 계수 정보
Figure pat00012
의 초기값인 초기 형상 계수 정보
Figure pat00013
는, 상기 좌측 촬영 장치로 획득된 영상으로부터 획득된 초기 형상 계수 정보인
Figure pat00014
과 상기 우측 촬영 장치로 획득된 영상으로부터 획득된 초기 형상 계수 정보인
Figure pat00015
의 평균일 수 있다.
일 실시 예에 따르면, 상기 복수의 촬영 장치들이 상기 웨어러블 디바이스의 좌측에 장착된 좌측 촬영 장치 및 상기 웨어러블 디바이스의 우측에 장착된 우측 촬영 장치로 구성되는 경우, 상기 깊이 정보에 대한 오차는 좌측 깊이 정보 오차 및 우측 깊이 정보 오차를 합산함으로써 계산되며, 상기 좌측 깊이 정보 오차는 하기 수학식 2에 기초하여 계산되고, 상기 우측 깊이 정보 오차는 하기 수학식 3에 기초하여 계산될 수 있다.
[수학식 2]
Figure pat00016
여기서,
Figure pat00017
은 상기 좌측 깊이 정보 오차,
Figure pat00018
는 3차원 조인트 각도,
Figure pat00019
는 형상 계수 정보, X i
Figure pat00020
Figure pat00021
를 입력으로 vertex를 출력하는 SMPL에서 i번째 관절의 3차원 위치 정보,
Figure pat00022
은 상기 좌측 촬영 장치로 획득된 영상에서 상기 SMPL의 관절의 깊이 정보, X 0 는 상기 SMPL의 기준 관절의 3차원 위치 정보, v li 는 상기 좌측 촬영 장치로 획득된 영상에서 i번째 관절이 관찰되었는지 여부에 대한 정보 - 관찰된 경우 1, 관찰되지 않은 경우 0 -,
Figure pat00023
는 상기 좌측 촬영 장치로 획득된 영상에서 i번째 관절의 상기 깊이 정보,
Figure pat00024
는 상기 좌측 촬영 장치로 획득된 영상에서 i번째 관절의 깊이 정보의 초기값,
Figure pat00025
는 L2-놈(norm)의 제곱으로, 각 성분의 제곱합을 의미함.
[수학식 3]
Figure pat00026
여기서,
Figure pat00027
은 상기 우측 깊이 정보 오차,
Figure pat00028
는 3차원 조인트 각도,
Figure pat00029
는 상기 형상 계수 정보, X i
Figure pat00030
Figure pat00031
를 입력으로 vertex를 출력하는 SMPL에서 i번째 관절의 3차원 위치 정보,
Figure pat00032
은 상기 우측 촬영 장치로 획득된 영상에서 상기 SMPL의 관절의 깊이 정보, X 0 는 상기 SMPL의 기준 관절의 3차원 위치 정보, v ri 는 상기 우측 촬영 장치로 획득된 영상에서 i번째 관절이 관찰되었는지 여부에 대한 정보 - 관찰된 경우 1, 관찰되지 않은 경우 0 -,
Figure pat00033
는 상기 우측 촬영 장치로 획득된 영상에서 i번째 관절의 상기 깊이 정보,
Figure pat00034
는 상기 우측 촬영 장치로 획득된 영상에서 i번째 관절의 깊이 정보의 초기값,
Figure pat00035
는 L2-놈(norm)의 제곱으로, 각 성분의 제곱합을 의미함.
일 실시 예에 따르면, 상기 시간에 따른 3차원 조인트 각도의 오차는, 하기 수학식 4에 기초하여 계산될 수 있다.
[수학식 4]
Figure pat00036
여기서,
Figure pat00037
는 상기 시간에 따른 3차원 조인트 각도의 오차,
Figure pat00038
는 3차원 조인트 각도,
Figure pat00039
는 직전 프레임에서의 3차원 조인트 각도,
Figure pat00040
는 L2-놈(norm)의 제곱으로 각 성분의 제곱합을 의미함.
일 실시 예에 따르면, 상기 타겟 형상 계수 정보를 결정하는 단계는, 하기 수학식 5에 기초하여 계산될 수 있다.
[수학식 5]
Figure pat00041
여기서,
Figure pat00042
은 상기 타겟 형상 계수 정보,
Figure pat00043
는 상기 2차원 픽셀 정보에 대한 오차,
Figure pat00044
는 3차원 조인트 각도,
Figure pat00045
는 형상 계수 정보를 의미함.
일 실시 예에 따르면, 상기 복수의 촬영 장치들 각각은, 어안렌즈(fisheye lens)를 포함할 수 있다.
일 실시 예에 따르면, 상기 웨어러블 디바이스는, AR글래스 및 HMD(head-mounted display) 중 어느 하나일 수 있다.
일 실시 예에 따르면, 상기 복수의 촬영 장치들 중 적어도 두 개의 촬영 장치는, 상기 웨어러블 디바이스의 좌측 끝 및 우측 끝에, 각각 하단 방향으로 소정의 각도를 이루도록 장착되고, 각각 일정 크기의 화각(FoV: field of view)을 가질 수 있다.
일 실시 예에 따르면, 착용자의 3차원 모델링 방법을 수행하는 웨어러블 디바이스는, 상기 착용자에 대한 복수의 영상들을 획득하기 위한 복수의 촬영 장치들; 컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리; 및 상기 메모리에 억세스(access)하여 상기 명령어들을 실행하는 프로세서를 포함하고, 상기 명령어들은, 상기 복수의 영상들 각각에 대해, 특징 맵(feature map)을 생정하고, 상기 복수의 영상들 각각에 대해, 상기 특징 맵에 기초하여 상기 착용자의 관절(joint) 위치에 대응하는 조인트 키포인트(joint keypoint) 정보 - 상기 조인트 키포인트 정보는 2차원 픽셀 정보 및 깊이 정보를 포함함 - 및 상기 착용자의 형상(shape)에 대한 초기 형상 계수(shape coefficient) 정보를 획득하고, 상기 조인트 키포인트 정보 및 상기 초기 형상 계수 정보에 기초하여, 상기 착용자를 3차원 모델링하기 위한 타겟 3차원 조인트 각도를 결정하고, 상기 조인트 키포인트 정보 및 상기 초기 형상 계수 정보에 기초하여, 상기 착용자를 3차원 모델링하기 위한 타겟 형상 계수 정보를 결정하고, 및 상기 타겟 3차원 조인트 각도 및 상기 타겟 형상 계수 정보에 기초하여, 상기 착용자에 대한 3차원 메쉬(mesh)를 획득하도록 구성될 수 있다.
일 실시 예에 따르면, 상기 명령어들은, 상기 특징 맵 및 제1 컨볼루션 신경망(convolution neural network) 모델에 기초하여 추론되는 상기 2차원 픽셀 정보를 획득하고, 상기 특징 맵 및 제2 컨볼루션 신경망 모델에 기초하여 추론되는 상기 깊이 정보를 획득하고, 및 상기 특징 맵에 대한 반복적 회귀분석(iterative regression)을 통해 상기 초기 형상 계수 정보를 획득하도록 구성될 수 있다.
일 실시 예에 따르면, 상기 명령어들은, 상기 2차원 픽셀 정보에 대한 오차를 계산하고, 상기 깊이 정보에 대한 오차를 계산하고, 시간에 따른 3차원 조인트 각도의 오차를 계산하고, 상기 2차원 픽셀 정보에 대한 오차, 상기 깊이 정보에 대한 오차 및 상기 시간에 따른 3차원 조인트 각도의 오차에 기초하여 3차원 조인트 각도에 대한 전체 오차를 계산하고, 및 상기 전체 오차가 최소가 되는 3차원 조인트 각도를 상기 타겟 3차원 조인트 각도로 결정하도록 구성될 수 있다.
일 실시 예에 따르면, 상기 명령어들은, 시간에 따라 3차원 조인트 각도를 상기 2차원 픽셀 정보에 대한 오차에 입력함으로써 출력되는 값들을 합산한 값이 최소가 되는 형상 계수 정보를 상기 타겟 형상 계수 정보로 결정하도록 구성될 수 있다.
일 실시 예에 따르면, 상기 복수의 촬영 장치들 각각은, 어안렌즈(fisheye lens)를 포함할 수 있다.
일 실시 예에 따르면, 상기 웨어러블 디바이스는, AR글래스 및 HMD(head-mounted display) 중 어느 하나일 수 있다.
일 실시 예에 따르면, 상기 복수의 촬영 장치들 중 적어도 두 개의 촬영 장치는, 상기 웨어러블 디바이스의 좌측 끝 및 우측 끝에, 각각 하단 방향으로 소정의 각도를 이루도록 장착되고, 각각 일정 크기의 화각(FoV: field of view)을 가질 수 있다.
도 1은 일 실시 예에 따른 웨어러블 디바이스의 구조를 도시한 도면이다.
도 2a 및 도 2b는 착용자의 신체를 3차원 모델링하기 위한 기존 웨어러블 디바이스와 일 실시 예에 따른 웨어러블 디바이스의 구조적 차이를 설명하기 위한 도면이다.
도 3은 일 실시 예에 따른 웨어러블 디바이스의 블록도이다.
도 4a 및 도 4b는 일 실시예에 따른, 웨어러블 디바이스 착용자에 대한 복수의 영상들이 획득되는 동작을 설명하기 위한 도면이다.
도 5는 착용자에 대한 복수의 영상들로부터 착용자에 대한 3차원 메쉬가 획득되는 흐름을 설명하기 위한 흐름도이다.
도 6은 일 실시 예에 따른, 웨어러블 디바이스 착용자의 신체를 3차원 모델링하는 방법을 설명하기 위한 흐름도이다.
도 7은 일 실시 예에 따른 조인트 키포인트 정보 및 초기 형상 계수 정보를 획득하는 동작을 설명하기 위한 흐름도이다.
도 8은 일 실시 예에 따른 타겟 3차원 조인트 각도를 결정하는 동작을 설명하기 위한 흐름도이다.
도 9는 일 실시 예에 따른 타겟 형상 계수 정보를 결정하는 동작을 설명하기 위한 흐름도이다.
본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실제로 구현된 형태는 다양한 다른 모습을 가질 수 있으며 본 명세서에 설명된 실시예로만 한정되지 않는다.
제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~간의"와 "바로~간의" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
< 웨어러블 디바이스 >
도 1은 일 실시 예에 따른 웨어러블 디바이스(100)의 구조를 도시한 도면이다.
도 1을 참조하면, 일 실시 예에 따른 웨어러블 디바이스(100)는 AR Glass(augmented reality glass)일 수 있다. 웨어러블 디바이스(100)는 사용자가 실제로 보고 있는 영상 위에 가상의 영상(예를 들어, 물체의 정보) 등을 디스플레이하는 차세대 디바이스로, 사용자의 안면에 착용되어, 사용자에게 증강 현실 서비스 및/또는 가상 현실 서비스와 관련된 영상을 제공할 수 있다. 이를 위해 웨어러블 디바이스(100)는 주변을 인식하는 카메라, 센서 및 카메라와 센서를 통해 획득한 정보를 분석하여 실제 보고 있는 화면 위에 가상의 영상을 보여주는 광학 디스플레이를 포함할 수 있다.
웨어러블 디바이스(100)는 카메라와 센서를 이용하여 획득된 데이터에 기초하여 SLAM(simultaneous localization and mapping), 헤드 트래킹(head tracking), 핸드 트래킹(hand tracking), 표면 재구성(surface reconstruction)과 같은 비전 처리 프로세스를 수행하고 사용자 주변에 관한 정보를 실제 환경에 오버랩(overlap)하여 사용자에게 보여줄 수 있다.
웨어러블 디바이스(100)에서 SLAM(simultaneous localization and mapping), 헤드 트래킹(head tracking), 핸드 트래킹(hand tracking), 표면 재구성(surface reconstruction)과 같은 비전 처리 프로세스를 위해 요구되는 카메라 설정(예를 들어, 프레임 레이트, 노출 시간, 게인(gain))은 각각의 비전 처리 프로세스 마다 다를 수 있다.
일 실시 예에서, 웨어러블 디바이스(100)는 제1 디스플레이(105), 제2 디스플레이(110), 화면 표시부(115a,115b), 입력광학부재(120), 제1 투명부재(125a), 제2 투명부재(125b), 조명부(130a, 130b), 제1 PCB(135a), 제2 PCB(135b), 제1 힌지(hinge)(140a), 제2 힌지(140b), 제1 카메라(145a, 145b, 145c, 145d), 복수의 마이크(예: 제1 마이크(150a), 제2 마이크(150b), 제3 마이크(150c)), 복수의 스피커(예: 제1 스피커(155a), 제2 스피커(155b)), 배터리(160), 제2 카메라(175a, 175b), 제3 카메라(165), 및 바이저(visor)(170a, 170b)를 포함할 수 있다.
일 실시 예에서, 디스플레이(예: 제1 디스플레이(105) 및 제2 디스플레이(110))는, 예를 들면, 액정 표시 장치(liquid crystal display, LCD), 디지털 미러 표시 장치(digital mirror device, DMD), 실리콘 액정 표시 장치(liquid crystal on silicon, LCoS), 유기 발광 다이오드(organic light emitting diode, OLED) 또는 마이크로 엘이디(micro light emitting diode, micro LED)를 포함할 수 있다. 미도시 되었으나, 디스플레이가 액정 표시 장치, 디지털 미러 표시 장치, 또는 실리콘 액정 표시 장치 중 하나로 이루어지는 경우, 웨어러블 디바이스(100)는 디스플레이의 화면 출력 영역으로 광을 조사하는 광원을 포함할 수 있다. 다른 실시예에서, 디스플레이가 자체적으로 광을 발생시킬 수 있는 경우, 예를 들어, 유기 발광 다이오드 또는 마이크로 엘이디 중 하나로 이루어지는 경우, 웨어러블 디바이스(100)는 별도의 광원을 포함하지 않더라도 사용자에게 양호한 품질의 가상 영상을 제공할 수 있다. 일 실시 예에서, 디스플레이가 유기 발광 다이오드 또는 마이크로 엘이디로 구현된다면 광원이 불필요하므로, 웨어러블 디바이스(100)가 경량화될 수 있다. 이하에서는, 자체적으로 광을 발생시킬 수 있는 디스플레이는 자발광 디스플레이로 지칭되며, 자발광 디스플레이를 전제로 설명된다.
본 발명의 다양한 실시예들에 따른 디스플레이(예: 제1 디스플레이(105) 및 제2 디스플레이(110))는 적어도 하나의 마이크로 LED(micro light emitting diode)로 구성될 수 있다. 예컨대, 마이크로 LED는 자체 발광으로 적색(R, red), 녹색(G, green), 청색(B, blue)을 표현할 수 있으며, 크기가 작아(예: 100㎛ 이하), 칩 하나가 하나의 픽셀(예: R, G, 및 B 중 하나)을 구현할 수 있다. 이에 따라, 디스플레이가 마이크로 LED로 구성되는 경우, 백라이트유닛(BLU) 없이 높은 해상도를 제공할 수 있다.
이에 한정하는 것은 아니며, 하나의 픽셀은 R, G, 및 B를 포함할 수 있으며, 하나의 칩은 R, G, 및 B를 포함하는 픽셀이 복수개로 구현될 수 있다.
일 실시 예에서, 디스플레이(예: 제1 디스플레이(105) 및 제2 디스플레이(110))는 가상의 영상을 표시하기 위한 픽셀(pixel)들로 구성된 디스플레이 영역 및 픽셀들 사이에 배치되는 눈에서 반사되는 광을 수광하여 전기 에너지로 변환하고 출력하는 수광 픽셀(예: 포토 센서 픽셀(photo sensor pixel))들로 구성될 수 있다.
일 실시 예에서, 웨어러블 디바이스(100)는 수광 픽셀들을 통해 사용자의 시선 방향(예: 눈동자 움직임)을 검출할 수 있다. 예컨대, 웨어러블 디바이스(100)는 제1 디스플레이(105)를 구성하는 하나 이상의 수광 픽셀들 및 제2 디스플레이(110)를 구성하는 하나 이상의 수광 픽셀들을 통해 사용자의 우안에 대한 시선 방향 및 사용자의 좌안에 대한 시선 방향을 검출하고 추적할 수 있다. 웨어러블 디바이스(100)는 하나 이상의 수광 픽셀들을 통해 검출되는 사용자의 우안 및 좌안의 시선 방향(예: 사용자의 우안 및 좌안의 눈동자가 응시하는 방향)에 따라 가상 영상의 중심의 위치를 결정할 수 있다.
일 실시 예에서, 디스플레이(예: 제1 디스플레이(105) 및 제2 디스플레이(110))로부터 방출되는 광은 렌즈(미도시) 및 웨이브가이드(waveguide)를 거쳐 사용자의 우안(right eye)에 대면하게 배치되는 제1 투명부재(125a)에 형성된 화면 표시부(115a) 및 사용자의 좌안(left eye)에 대면하게 배치 제2 투명부재(125b)에 형성된 화면 표시부(115b)에 도달할 수 있다. 예컨대, 디스플레이(예: 제1 디스플레이(105) 및 제2 디스플레이(110))로부터 방출되는 광은 웨이브가이드를 거쳐 입력광학부재(120)와 화면 표시부(115a, 115b)에 형성된 그레이팅 영역(grating area)에 반사되어 사용자의 눈에 전달될 수 있다. 제1 투명 부재(125a) 및/또는 제2 투명 부재(125b)는 글래스 플레이트, 플라스틱 플레이트, 또는 폴리머로 형성될 수 있으며, 투명 또는 반투명하게 제작될 수 있다.
일 실시 예에서, 렌즈(미도시)는 디스플레이(예: 제1 디스플레이(105) 및 제2 디스플레이(110))의 전면에 배치될 수 있다. 렌즈(미도시)는 오목 렌즈 및/또는 볼록 렌즈를 포함할 수 있다. 예컨대, 렌즈(미도시)는 프로젝션 렌즈(projection lens) 또는 콜리메이션 렌즈(collimation lens)를 포함할 수 있다.
일 실시 예에서, 화면 표시부(115a, 115b) 또는 투명 부재(예: 제1 투명 부재(125a), 제2 투명 부재(125b))는 웨이브가이드(waveguide)를 포함하는 렌즈, 반사형 렌즈를 포함할 수 있다.
일 실시 예에서, 웨이브가이드는 글래스, 플라스틱, 또는 폴리머로 제작될 수 있으며, 내부 또는 외부의 일표면에 형성된 나노 패턴, 예를 들어, 다각형 또는 곡면 형상의 그레이팅 구조(grating structure)를 포함할 수 있다. 일 실시 예에 따르면, 웨이브가이드의 일단으로 입사된 광은 나노 패턴에 의해 디스플레이 웨이브가이드 내부에서 전파되어 사용자에게 제공될 수 있다. 일 실시 예에서, 프리폼(free-form)형 프리즘으로 구성된 웨이브가이드는 입사된 광을 반사 미러를 통해 사용자에게 제공될 수 있다. 웨이브가이드는 적어도 하나의 회절 요소 예컨대, DOE(diffractive optical element), HOE(holographic optical element)) 또는 반사 요소(예: 반사 거울) 중 적어도 하나를 포함할 수 있다. 일 실시 예에서, 웨이브가이드는 웨이브가이드에 포함된 적어도 하나의 회절 요소 또는 반사 요소를 이용하여 디스플레이(105, 110)로부터 방출되는 광을 사용자의 눈으로 유도할 수 있다.
다양한 실시예들에 따라, 회절 요소는 입력 광학 부재(120)/출력 광학 부재(미도시)를 포함할 수 있다. 예컨대, 입력 광학 부재(120)는 입력 그레이팅 영역(input grating area)을 의미할 수 있으며, 출력 광학 부재(미도시)는 출력 그레이팅 영역(output grating area)을 의미할 수 있다. 입력 그레이팅 영역은 디스플레이(예: 제1 디스플레이(105) 및 제2 디스플레이(110))(예: 마이크로 LED)로부터 출력되는 광을 화면 표시부(115a, 115b)의 투명 부재(예: 제1 투명 부재(150a), 제2 투명 부재(150b))로 광을 전달하기 위해 회절(또는 반사)시키는 입력단 역할을 할 수 있다. 출력 그레이팅 영역은 웨이브가이드의 투명 부재(예: 제1 투명 부재(150a), 제2 투명 부재(150b))에 전달된 광을 사용자의 눈으로 회절(또는 반사)시키는 출구 역할을 할 수 있다.
다양한 실시예들에 따라, 반사 요소는 전반사(total internal reflection, TIR)를 위한 전반사 광학 소자 또는 전반사 도파관을 포함할 수 있다. 예컨대, 전반사는 광을 유도하는 하나의 방식으로, 입력 그레이팅 영역을 통해 입력되는 광(예: 가상 영상)이 웨이브가이드의 일면(예: 특정 면)에서 100% 반사되도록 입사각을 만들어, 출력 그레이팅 영역까지 100% 전달되도록 하는 것을 의미할 수 있다.
일 실시 예에서, 디스플레이(105, 110)로부터 방출되는 광은 입력 광학 부재(120)를 통해 웨이브가이드로 광 경로가 유도될 수 있다. 웨이브가이드 내부를 이동하는 광은 출력 광학 부재를 통해 사용자 눈 방향으로 유도될 수 있다. 화면 표시부(115a, 115b)는 눈 방향으로 방출되는 광에 기반하여 결정될 수 있다.
일 실시 예에서, 제1 카메라(145a, 145b, 145c, 145d)는 3DoF(3 degrees of freedom), 6DoF의 헤드 트래킹(head tracking), 핸드(hand) 검출과 트래킹(tracking), 제스처(gesture) 및/또는 공간 인식을 위해 사용되는 카메라를 포함할 수 있다. 예컨대, 제1 카메라(145a, 145b, 145c, 145d)는 헤드 및 핸드의 움직임을 검출하고, 움직임을 추적하기 위해 GS(global shutter) 카메라를 포함할 수 있다.
일례로, 제1 카메라(145a, 145b, 145c, 145d)는 헤드 트래킹과 공간 인식을 위해서 스테레오(stereo) 카메라가 적용될 수 있고, 동일 규격, 동일 성능의 카메라가 적용될 수 있다. 제1 카메라(145a, 145b, 145c, 145d)는 빠른 손동작과 손가락과 같이 미세한 움직임을 검출하고 움직임을 추적하기 위해서 성능(예: 영상끌림)이 우수한 GS 카메라가 사용될 수 있다.
다양한 실시 예에 따라, 제1 카메라(145a, 145b, 145c, 145d)는 RS(rolling shutter) 카메라가 사용될 수 있다. 제1 카메라(145a, 145b, 145c, 145d)는 6 Dof를 위한 공간 인식, 깊이(depth) 촬영을 통한 SLAM 기능을 수행할 수 있다. 제1 카메라(145a, 145b, 145c, 145d)는 사용자 제스처 인식 기능을 수행할 수 있다.
일 실시 예에서, 제2 카메라(175a, 175b)는 눈동자를 검출하고 추적할 용도로 사용될 수 있다. 제2 카메라(175a, 175b)는 ET(eye tracking)용 카메라로 지칭될 수 있다. 제2 카메라(175a, 175b)는 사용자의 시선 방향을 추적할 수 있다. 웨어러블 디바이스(100)는 사용자의 시선 방향을 고려하여, 화면 표시부(115a, 115b)에 투영되는 가상영상의 중심이 사용자의 눈동자가 응시하는 방향에 따라 위치하도록 할 수 있다.
시선 방향을 추적하기 위한 제2 카메라(175a, 175b)는 눈동자(pupil)를 검출하고 빠른 눈동자의 움직임을 추적할 수 있도록 GS 카메라가 사용될 수 있다. 제2 카메라(165a)는 좌안, 우안용으로 각각 설치될 수 있으며, 좌안용 및 우안용 제2카메라(165a)는 성능과 규격이 동일한 카메라가 사용될 수 있다.
일 실시 예에서, 제3 카메라(165)는 HR(high resolution) 또는 PV(photo video)로 지칭될 수 있으며, 고해상도의 카메라를 포함할 수 있다. 제3 카메라(165)는 AF(auto focus) 기능과 떨림 보정(OIS(optical image stabilizer))과 같은 고화질의 영상을 얻기 위한 기능들이 구비된 칼라(color) 카메라를 포함할 수 있다. 이에 한정하는 것은 아니며, 제3 카메라(165)는 GS(global shutter) 카메라 또는 RS(rolling shutter) 카메라를 포함할 수 있다.
일 실시 예에서, 적어도 하나의 센서(예: 자이로 센서, 가속도 센서, 지자기 센서, 터치 센서, 조도 센서 및/또는 제스처 센서), 제1 카메라(145a, 145b, 145c, 145d)는 6DoF를 위한 헤드 트래킹(head tracking), 움직임 감지와 예측(pose estimation & prediction), 제스처 및/또는 공간 인식, 뎁스(depth) 촬영을 통한 슬램(slam) 기능 중 적어도 하나를 수행할 수 있다.
다른 실시예에서, 제1 카메라(145a, 145b, 145c, 145d)는 헤드 트래킹을 위한 카메라와 핸드 트래킹을 위한 카메라로 구분되어 사용될 수 있다.
일 실시 예에서, 조명부(130a, 130b)는 부착되는 위치에 따라 용도가 상이할 수 있다. 예컨대, 조명부(130a, 130b)는 프레임(frame) 및 템플(temple)을 이어주는 힌지(hinge)(예: 제1 힌지(140a), 제2 힌지(140b)) 주변이나 프레임을 연결해 주는 브릿지(bridge) 주변에 장착된 제1 카메라(145a, 145b, 145c, 145d)와 함께 부착될 수 있다. GS 카메라로 촬영하는 경우, 조명부(130a, 130b)는 주변 밝기를 보충하는 수단으로 사용될 수 있다. 예컨대, 어두운 환경이나 여러 광원의 혼입 및 반사 광 때문에 촬영하고자 하는 피사체 검출이 용이하지 않을 때, 조명부(130a, 130b)가 사용될 수 있다.
일 실시 예에서, 웨어러블 디바이스(100)의 프레임 주변에 부착된 조명부(130a, 130b)는 제2 카메라(175a, 175b)로 동공을 촬영할 때 시선 방향(eye gaze) 검출을 용이하게 하기 위한 보조 수단으로 사용될 수 있다. 조명부(130a, 130b)가 시선 방향을 검출하기 위한 보조 수단으로 사용되는 경우 적외선 파장의 IR(infrared) LED를 포함할 수 있다.
일 실시 예에서, PCB(예: 제1 PCB(135a), 제2 PCB(135b))에는 웨어러블 디바이스(100)의 구성요소들을 제어하는 프로세서(미도시), 메모리(미도시) 및 통신 모듈(미도시)이 포함될 수 있다. 통신 모듈은 도 1의 통신 모듈(190)과 동일하게 구성될 수 있고, 통신 모듈(190)에 대한 설명이 동일하게 적용될 수 있다. 예를 들어, 통신 모듈은 웨어러블 디바이스(100)와 외부 전자 장치 간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. PCB는 웨어러블 디바이스(100)를 구성하는 구성요소들에 전기적 신호를 전달할 수 있다.
통신 모듈(미도시)은 프로세서와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일실시예에 따르면, 통신 모듈(미도시)은 무선 통신 모듈(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈(미도시)은 블루투스, WiFi(wireless fidelity) direct 또는 IrDA(infrared data association)와 같은 근거리 통신 네트워크 또는 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크를 통하여 외부의 전자 장치와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성요소(예: 단일 칩)로 통합되거나, 또는 서로 별도의 복수의 구성요소들(예: 복수 칩들)로 구현될 수 있다.
무선 통신 모듈은 4G 네트워크 이후의 5G 네트워크 및 차세대 통신 기술, 예를 들어, NR 접속 기술(new radio access technology)을 지원할 수 있다. NR 접속 기술은 고용량 데이터의 고속 전송(eMBB(enhanced mobile broadband)), 단말 전력 최소화와 다수 단말의 접속(mMTC(massive machine type communications)), 또는 고신뢰도와 저지연(URLLC(ultra-reliable and low-latency communications))을 지원할 수 있다. 무선 통신 모듈은, 예를 들어, 높은 데이터 전송률 달성을 위해, 고주파 대역(예: mmWave 대역)을 지원할 수 있다. 무선 통신 모듈은 고주파 대역에서의 성능 확보를 위한 다양한 기술들, 예를 들어, 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO(multiple-input and multiple-output)), 전차원 다중입출력(FD-MIMO: full dimensional MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 또는 대규모 안테나(large scale antenna)와 같은 기술들을 지원할 수 있다.
웨어러블 디바이스(100)는 안테나 모듈(미도시)을 더 포함할 수 있다. 안테나 모듈은 신호 또는 전력을 외부(예: 외부의 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일실시예에 따르면, 안테나 모듈은 서브스트레이트(예: 제1 PCB(135a), 제2 PCB(135b)) 위에 형성된 도전체 또는 도전성 패턴으로 이루어진 방사체를 포함하는 안테나를 포함할 수 있다. 일실시예에 따르면, 안테나 모듈은 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다.
일 실시 예에서, 복수의 마이크(예: 제1 마이크(150a), 제2 마이크(150b), 제3 마이크(150c))는 외부의 음향 신호를 전기적인 음성 데이터로 처리할 수 있다. 처리된 음성 데이터는 웨어러블 디바이스(100)에서 수행 중인 기능(또는 실행 중인 어플리케이션)에 따라 다양하게 활용될 수 있다.
일 실시 예에서, 복수의 스피커(예: 제1 스피커(155a), 제2 스피커(155b))는 통신 모듈로부터 수신되거나 메모리에 저장된 오디오 데이터를 출력할 수 있다.
일 실시 예에서, 배터리(160)는 하나 이상 포함할 수 있으며, 웨어러블 디바이스(100)를 구성하는 구성요소들에 전원을 공급할 수 있다.
일 실시 예에서, 바이저(170a, 170b)는 투과율에 따라 사용자의 눈으로 입사되는 외부광의 투과량을 조절할 수 있다. 바이저(170a, 170b)는 화면 표시부(115a, 115b)의 앞 또는 뒤에 위치할 수 있다. 화면 표시부(115a, 115b)의 앞은 웨어러블 디바이스(100)를 착용한 사용자측과 반대 방향, 뒤는 웨어러블 디바이스(100)를 착용한 사용자측 방향을 의미할 수 있다. 바이저(170a, 170b)는 화면 표시부(115a, 115b)의 보호 및 외부광의 투과량을 조절할 수 있다.
일례로, 바이저(170a, 170b)는 인가되는 전원에 따라 색이 변경되어 투과율을 조절하는 전기 변색 소자를 포함할 수 있다. 전기 변색은 인가 전원에 의한 산화-환원 반응이 발생하여 색이 변경되는 현상이다. 바이저(170a, 170b)는 전기 변색 소자가 색이 변경되는 것을 이용하여, 외부광의 투과율을 조절할 수 있다.
일례로, 바이저(170a, 170b)는 제어모듈 및 전기 변색 소자를 포함할 수 있다. 제어모듈은 전기 변색 소자를 제어하여 전기 변색 소자의 투과율을 조절할 수 있다.
도 2a 및 도 2b는 착용자의 신체를 3차원 모델링하기 위한 기존 웨어러블 디바이스(201)와 일 실시 예에 따른 웨어러블 디바이스(101)의 구조적 차이를 설명하기 위한 도면이다.
인체를 3차원 모델링하기 위해서는 3차원 모델링할 대상자의 관절(joint)이 전부 또는 대부분이 포함된 영상이 필요했고, 이를 위해 대상자가 멀리서 촬영되어야 했다. 이와 같은 방법은 인체의 3차원 모델링을 위해 제3의 촬영 장치 또는 센서가 필요하므로 사용자는 고가의 추가적인 장비를 구매해야 했고, 사용자 편의를 위해 웨어러블 디바이스를 통해 착용자의 신체를 모델링하는 방법이 연구되었다.
도 2a를 참조하면, 착용자의 신체를 3차원 모델링하기 위한 기존의 웨어러블 디바이스의 일 예시가 도시된다. 웨어러블 디바이스(201)에는 착용자의 신체를 3차원 모델링하기 위한 촬영 장치(210)를 포함할 수 있다. 웨어러블 디바이스(201)는 촬영 장치(210)를 통해 촬영 가능한 손, 얼굴과 같은 신체 일부에 대해 3차원 모델링을 수행할 수 있다.
촬영장치(210)가 웨어러블 디바이스(201)에 가까이 부착되는 경우, 손과 같은 말단 이외 영역(예를 들어, 어깨, 팔꿈치, 발끝 등)이 촬영되지 못할 수 있고, 웨어러블 디바이스(201)는 착용자 신체 전체에 대한 3차원 모델링을 수행하지 못할 수 있다.
웨어러블 디바이스(201)의 착용자의 신체를 보다 많이 포함하는 영상을 획득하기 위해, 도 2a와 같이 촬영장치(210)가 착용자로부터 비교적 멀리 떨어진 형태로 웨어러블 디바이스(201)가 구현될 수 있다. 다만 도 2a의 웨어러블 디바이스(201)와 같이 구현되는 경우, 촬영 장치(210)의 무게로 인해 사용자 편의성이 저하될 수 있다. 웨어러블 디바이스(201)의 사이즈가 더 커지고 촬영 장치(210)가 웨어러블 디바이스(201)에 포함되는 형태로 구현되더라도, 웨어러블 디바이스(201)의 크기 증대로 인해 사용자 편의성이 저하될 수 있다.
도 2b를 참조하면, 일 실시 예에 따른 웨어러블 디바이스(101)가 도시된다. 웨어러블 디바이스(101)는 AR 글래스 형태일 수 있고, 도 1을 참조하여 전술한 웨어러블 디바이스(100)의 구성들의 적어도 일부를 포함할 수 있다. 도 1을 참조하여 전술한 웨어러블 디바이스(100)의 구성들에 대한 중복되는 설명은 생략한다.
전술한 도 1 및 도 2b, 후술할 도 4a에서 웨어러블 디바이스(101)는 AR글래스로 도시되었지만, 이에 제한되는 것은 아니고, 웨어러블 디바이스(101)는 HMD(head-mounted display) 형태로 구현될 수도 있다.
도 2b의 웨어러블 디바이스(101)는 도 2a를 참조하여 전술한 웨어러블 디바이스(201)와 달리, 복수의 촬영 장치들(233, 236)을 포함할 수 있다. 도 1을 참조하여 전술한 웨어러블 디바이스(100)는 촬영 장치들로 제1 카메라(145a, 145b, 145c, 145d), 제2 카메라(175a, 175b) 및 제3 카메라(165)를 포함할 수 있다고 설명하였지만, 도 2b의 웨어러블 디바이스(101)는 착용자의 3차원 모델링을 위한 복수의 촬영 장치들(233, 236)을 더 포함할 수 있다.
웨어러블 디바이스(101)에 장착된 촬영 장치는, 좌측 촬영 장치(233)와 우측 촬영 장치(236)를 포함하는 스테레오 비전 카메라일 수 있으나, 이에 제한되는 것은 아니다. 예를 들어, 좌측 촬영 장치(233), 우측 촬영 장치(236) 외에 3차원 모델링을 위한 복수의 촬영 장치들(예: 도 1의 제1 카메라(145a, 145b, 145c, 145d), 제2 카메라(175a, 175b) 및 제3 카메라(165))이 웨어러블 디바이스(101)에 더 포함될 수 있다.
좌측 촬영 장치(233) 및 우측 촬영 장치(236)는 착용자의 신체 말단까지 보다 넓은 영역을 촬영하기 위해 어안렌즈(fisheye lens)를 포함할 수 있다. 두 카메라(233, 236) 사이 거리는 약 20cm일 수 있고, 신체를 제대로 촬영하기 위해 하단 방향으로 소정의 각도(예를 들어, 약 60도)를 이루도록 웨어러블 디바이스(101)에 장착될 수 있다. 각 카메라(233, 236)는 일정 크기의 화각(FoV: field of view), 예를 들어 170도의 화각을 가질 수 있다.
도 2b를 참조하여 설명한 웨어러블 디바이스(101)의 구성에 대해서, 도 3을 참조하여 상세히 설명한다.
도 3은 일 실시 예에 따른 웨어러블 디바이스(101)의 블록도이다.
도 3을 참조하면, 웨어러블 디바이스(101)는 컴퓨터로 실행 가능한 명령어들이 저장된 메모리(330), 메모리(330)에 억세스하여 명령어들을 실행하는 프로세서(320) 및 복수의 촬영 장치들(예를 들어, 제1 촬영 장치(381), 제2 촬영 장치(382) 및 제3 촬영 장치(383) 등)을 포함하는 촬영 모듈(380)을 포함할 수 있다.
프로세서(320)는 통신 모듈(390)이 수신한 데이터 및 메모리(330)에 저장된 데이터를 처리할 수 잇다. "프로세서"는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 컴퓨터로 실행 가능한 명령어들(computer-executable instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서 (microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.
프로세서(320)는 메모리(예를 들어, 메모리(330))에 저장된 컴퓨터로 읽을 수 있는 코드(예를 들어, 소프트웨어) 및 프로세서(120)에 의해 유발된 인스트럭션들을 실행할 수 있다.
메모리(330)는 통신 모듈(390)이 수신한 데이터 및 프로세서(320)가 처리한 데이터를 저장할 수 있다. 예를 들어, 메모리(330)는 프로그램(또는 어플리케이션, 소프트웨어)을 저장할 수 있다. 저장되는 프로그램은 촬영 모듈(380)을 통해 획득한 복수의 영상들에 기초하여 웨어러블 디바이스(101) 착용자의 신체를 3차원 모델링할 수 있도록 코딩되어, 프로세서(320)에 의해 실행 가능한 신텍스(syntax)들의 집합일 수 있다.
메모리(330)는 하나 이상의 휘발성 메모리, 비휘발성 메모리 및 RAM(Random Access Memory), 플래시 메모리, 하드 디스크 드라이브 및 광학 디스크 드라이브를 포함할 수 있다. 메모리(330)는 웨어러블 디바이스(101)를 동작 시키는 명령어 세트(예를 들어, 소프트웨어)를 저장할 수 있다. 웨어러블 디바이스(101)를 동작 시키는 명령어 세트는 프로세서(120)에 의해 실행될 수 있다.
촬영 모듈(380)의 촬영 장치들(381, 382, 383)은 도 2b을 참조하여 전술한 바와 같이 스테레오 비전 카메라일 수 있고, 이미지 센서를 포함할 수 있다. 도 3에서는 촬영 장치들(381, 382, 383)이 웨어러블 디바이스(101)의 촬영 모듈(380)에 포함되는 것으로 도시하였지만, 촬영 장치들은 웨어러블 디바이스(101)에 탈부착 가능하게 구현될 수 있다. 예를 들어 촬영 장치들은 웨어러블 디바이스(101)에 장착되어 착용자의 3차원 모델링을 위한 영상들을 획득하고, 영상들을 웨어러블 디바이스(101)로 전송하도록 구성될 수 있다. 도 2b를 참조하여 촬영 장치들(233, 236)에 대해 전술한 바와 같이, 촬영 장치들(381, 382, 383)은 어안렌즈를 포함할 수 있고, 웨어러블 디바이스(101)의 좌측 끝 및 우측 끝에 각각 하단 방향으로 소정의 각도를 이루도록 장착되고, 각각 일정 크기의 화각을 가질 수 있다. 촬영 장치들로 복수의 영상들이 획득되는 동작에 대해서는 도 4a 및 도 4b를 참조하여 상세히 설명한다.
통신 모듈(390)은 프로세서(320) 및 메모리(330)와 연결되어 데이터를 송수신할 수 있다. 통신 모듈(390)은 외부의 다른 장치와 연결되어 데이터를 수신할 수 있다. 이하에서 "A"를 송수신한다라는 표현은 "A를 나타내는 정보(information) 또는 데이터"를 송수신하는 것을 나타낼 수 있다. 일 실시 예에 따르면, 통신 모듈(390)은 웨어러블 디바이스(101) 내의 회로망(circuitry)으로 구현될 수 있다. 예를 들어, 통신 모듈(390)은 내부 버스(internal bus) 및 외부 버스(external bus)를 포함할 수 있다. 다른 예로, 통신 모듈(390)은 웨어러블 디바이스(101)와 외부의 장치 또는 서버(예를 들어, 서버(300))를 연결하는 요소일 수 있다. 통신 모듈(390)은 인터페이스(interface)일 수 있다.
통신 모듈(390)은 외부의 장치 또는 서버(300)로부터 데이터를 수신하여, 프로세서(320) 및 메모리(330)에 데이터를 전송할 수 있다. 일 실시 예에 따르면, 프로세서(320)는 통신 모듈(390)을 통해 서버(300)와 통신을 수행할 수 있다.
서버(300)는 촬영 모듈(380)을 통해 획득한 영상들에 기초하여 웨어러블 디바이스(101) 착용자의 신체를 3차원 모델링할 수 있다. 예를 들어 웨어러블 디바이스(101)의 성능 문제로 웨어러블 디바이스(101)에서 3차원 모델링을 위한 동작 수행이 어려운 경우, 웨어러블 디바이스(101)는 통신 모듈(390)을 통해 서버(300)로 복수의 영상들을 전송하고, 서버(300)에서 복수의 영상들에 기초하여 웨어러블 디바이스(101) 착용자에 대한 3차원 모델링이 수행될 수 있다. 서버(300)는 착용자에 대한 3차원 메쉬(mesh)를 획득하고, 웨어러블 디바이스(101)는 통신 모듈(390)을 통해 3차원 메쉬를 수신할 수 있다.
아래에서 도 5 내지 도 9를 참조하여, 웨어러블 디바이스(101) 착용자의 신체를 3차원 모델링하는 방법을 상세히 설명한다.
도 4a 및 도 4b는 일 실시예에 따른, 웨어러블 디바이스(101) 착용자에 대한 복수의 영상들이 획득되는 동작을 설명하기 위한 도면이다.
도 4a를 참조하면, 도 2b 및 도 3을 참조하여 전술한 웨어러블 디바이스(101)를 착용하고 있는 착용자의 모습이 도시된다. 도 2b 및 도 3을 참조하여 전술한 바와 같이 웨어러블 디바이스(101)에는 복수의 촬영 장치들(233, 236)이 포함될 수 있고, 촬영 장치들은 착용자의 신체를 촬영할 수 있도록 웨어러블 디바이스(101)에 장착될 수 있다. 예를 들어, 도 2b를 참조하여 전술한 바와 같이 촬영 장치들(233, 236) 각각은 웨어러블 디바이스(101)의 좌측 끝 및 우측 끝에 각각 하단으로 약 60도를 이루도록 장착되고, 약 170도의 화각을 가질 수 있다.
도 4b를 참조하면, 도 4a를 참조하여 전술한 촬영 장치들(233, 236)에 의해 획득된 영상들이 도시된다. 영상(410)은 도 4a의 착용자 기준 좌측 촬영 장치인 촬영 장치(236)에 의해 획득된 영상이고, 영상(450)은 도 4a의 착용자 기준 우측 촬영 장치인 촬영 장치(233)에 의해 획득된 영상일 수 있다. 도 2b를 참조하여 전술한 바와 같이 촬영 장치는 어안 렌즈를 포함할 수 있고, 영상(410, 450)과 같이 원형 영상이 획득될 수 있다.
일 실시 예에 따르면, 복수의 촬영 장치들로 3차원 모델링할 대상자인 웨어러블 디바이스(101)의 착용자를 촬영함으로써, 착용자의 관절을 보다 많이 포함하는 영상들이 획득될 수 있다. 예를 들어, 영상(410, 450)에는 도 2a를 참조하여 전술한 착용자의 신체를 3차원 모델링하기 위한 기존 웨어러블 디바이스(201)의 촬영 장치(210)로 획득된 영상보다 착용자의 관절이 많이 포함될 수 있다.
일 실시 예에 따르면, 복수의 촬영 장치들이 상호 보완적으로 착용자를 촬영함으로써, 비관찰 관절(joint)의 수가 감소할 수 있다. 예를 들어 좌측 촬영 장치(236)로만 착용자를 촬영하는 경우, 영상(410)과 같이 착용자의 오른쪽 어깨 관절은 영상에 포함되지 않을 수 있다. 일 실시 예에 따른 웨어러블 디바이스(101)는 좌측 촬영 장치(236) 뿐만 아니라 우측 촬영 장치(233)로도 착용자를 촬영하여 영상(450)도 획득함으로써, 하나의 촬영 장치로만 착용자를 촬영하는 경우 획득되는 영상에서보다 비관찰 관절의 수가 감소할 수 있다.
도 3을 참조하여 전술한 웨어러블 디바이스(101)는, 도 4b와 같은 복수의 영상들(410, 450)에 기초하여 착용자의 신체를 3차원 모델링할 수 있다. 착용자에 대한 복수의 영상들로부터 3차원 모델링을 통해 착용자에 대한 3차원 메쉬가 획득되는 흐름에 대해서, 도 5를 참조하여 상세히 설명한다.
도 5는 착용자에 대한 복수의 영상들로부터 착용자에 대한 3차원 메쉬가 획득되는 흐름을 설명하기 위한 도면이다.
도 5를 참조하면, 도 4a를 참조하여 전술한 웨어러블 디바이스(101)를 착용한 착용자(500)가 도시되어 있고, 착용자(500)에 대한 3차원 모델링을 통해 3차원 메쉬(570)가 획득되는 흐름이 도시되어 있다. 도 4b를 참조하여 전술한 바와 같이, 복수의 촬영 장치들로 착용자에 대한 복수의 영상들, 예를 들어 도 4b의 좌측 영상(410) 및 우측 영상(450)이 획득될 수 있다. 이하 좌측 영상(410) 및 우측 영상(450)을 기준으로 설명하지만, 이에 제한되는 것은 아니고 도 2b 내지 도 4b를 참조하여 전술한 바와 같이 복수의 촬영 장치들로 복수의 영상들이 획득되고, 복수의 영상들에 기초하여 착용자에 대한 3차원 메쉬가 획득될수 있다.
단계 510에서, 복수의 영상들(410, 450)로부터 특징 맵(feature map)이 생성될 수 있다. 특징 맵은 다양한 컨볼루션 신경망(CNN, convolution neural network)에 기초하여 생성될 수 있다. 예를 들어, 특징 맵은 Mobilenet, Googlenet 및 Resnet 중 적어도 어느 하나에 기초하여 생성될 수 있다.
단계 520에서, 특징 맵에 기초하여 웨어러블 디바이스(101) 착용자의 관절(joint) 위치에 대응하는 조인트 키포인트(joint keypoint) 정보 및 착용자의 형상(shape)에 대한 초기 형상 계수(shape coefficient) 정보가 획득될 수 있다. 조인트 키포인트 정보에는 2차원 픽셀 정보 및 깊이 정보가 포함될 수 있다.
조인트 키포인트 정보 및 초기 형상 계수 정보는 복수의 영상들 각각에 대해 획득될 수 있다. 예를 들어, 좌측 영상(410)으로부터 획득된 2차원 픽셀 정보 및 깊이 정보에 따라 관절의 3차원 위치 및 깊이에 대한 정보가 포함된 데이터(521)가 획득되고, 우측 영상(450)으로부터 획득된 2차원 픽셀 정보 및 깊이 정보에 따라 관절의 3차원 위치 및 깊이에 대한 정보가 포함된 데이터(525)가 획득될 수 있다. 초기 형상 계수 정보 또한 복수의 영상들 각각에 대해 획득될 수 있다.
일 실시 예에 따르면, 2차원 픽셀 정보
Figure pat00046
, 깊이 정보
Figure pat00047
및 초기 형상 계수 정보
Figure pat00048
가 다른 방법으로 획득될 수 있다. 예를 들어 특징 맵 및 제1 CNN 모델에 기초하여 2차원 픽셀 정보
Figure pat00049
가 획득되고, 특징 맵 및 제2 CNN 모델에 기초하여 깊이 정보
Figure pat00050
가 획득되고, 특징 맵에 대한 반복적 회귀분석(iterative regression)을 통해 초기 형상 계수 정보
Figure pat00051
가 획득될 수 있다.
단계 530에서 3차원 상 착용자의 자세 복원(pose reconstruction)이 수행될 수 있다. 일 실시 예에 따르면, 단계 530에서 착용자의 관절들이 이루는 3차원 상 각도인 3차원 조인트 각도
Figure pat00052
에 대한 최적화(optimization)가 수행됨으로써 착용자를 3차원 모델링하기 위한 타겟 3차원 조인트 각도
Figure pat00053
가 결정될 수 있다. 예를 들어, 단계 520에서 획득된 2차원 픽셀 정보, 깊이 정보 및 초기 형상 계수 정보에 기초하여 단계 530에서 3차원 조인트 각도에 대한 오차가 계산되고, 오차가 최소가 되는 3차원 조인트 각도가 타겟 3차원 조인트 각도
Figure pat00054
로 결정될 수 있다.
단계 540에서, 3차원 상 착용자의 형상 복원(shape reconstruction)이 수행될 수 있다. 일 실시 예에 따르면, 단계 540에서 착용자의 형상에 대한 형상 계수
Figure pat00055
에 대한 최적화가 수행됨으로써 착용자를 3차원 모델링하기 위한 타겟 형상 계수
Figure pat00056
이 결정될 수 있다. 예를 들어, 단계 520에서 획득된 획득된 2차원 픽셀 정보, 깊이 정보 및 초기 형상 계수 정보에 기초하여 단계 540에서 형상 계수에 대한 오차가 계산되고, 오차가 최소화 되는 형상 계수가 타겟 형상 계수
Figure pat00057
로 결정될 수 있다.
단계 550에서, 인체를 3차원 모델링하는 SMPL(Skinned. Multi-person Linear Model)로 타겟 3차원 조인트 각도
Figure pat00058
및 타겟 형상 계수
Figure pat00059
이 입력되므로써, 착용자에 대한 3차원 메쉬(570)가 출력될 수 있다.
도 5를 참조하여 설명한 착용자에 대한 3차원 메쉬 획득 단계들을, 이하 웨어러블 디바이스(101) 측면에서 도 6 내지 도 9를 참조하여 상세히 설명한다.
< 웨어러블 디바이스 착용자의 3차원 모델링 방법 >
도 6은 일 실시 예에 따른, 웨어러블 디바이스 착용자의 신체를 3차원 모델링하는 방법을 설명하기 위한 흐름도이다.
단계 610 내지 단계 660은 도 2b 및 도 3을 참조하여 전술된 웨어러블 디바이스(101)의 프로세서(320)에 의해 수행될 수 있고, 간명한 설명을 위해 도 1 내지 도 5를 참조하여 설명한 내용과 중복되는 내용은 생략될 수 있다.
단계 610에서, 프로세서(320)는 웨어러블 디바이스(101)에 장착된 복수의 촬영 장치들(예: 도 2b 및 도 4a의 착용자 기준 좌측 촬영 장치(236) 및 우측 촬영 장치(233))로 복수의 영상들(예: 도 4b의 좌측 영상(410) 및 우측 영상(450))을 획득할 수 있다.
단계 620에서, 프로세서(320)는 복수의 영상들 각각에 대해 특징 맵을 생성할 수 있다. 단계 620은 도 5를 참조하여 전술한 단계 510에 대응할 수 있다. 예를 들어, 복수의 영상들 각각에 대해 Mobilenet, Googlenet 및 Resnet 중 적어도 어느 하나에 기초하여 특징 맵이 생성될 수 있다.
단계 630에서, 프로세서(320)는 복수의 영상들 각각에 대해, 특징 맵에 기초하여 조인트 키포인트 정보 및 초기 형상 계수 정보를 획득할 수 있다. 단계 630은 도 5를 참조하여 전술한 단계 520에 대응할 수 있다. 도 5의 단계 520에서 전술한 바와 같이, 프로세서(320)는 복수의 영상들 각각에 대해 2차원 픽셀 정보
Figure pat00060
, 깊이 정보
Figure pat00061
및 초기 형상 계수 정보
Figure pat00062
를 획득될 수 있다.
일 실시 예에 따르면, 복수의 촬영 장치들이 웨어러블 디바이스(101)의 좌측에 장착된 좌측 촬영 장치(236) 및 웨어러블 디바이스(101)의 우측에 장착된 우측 촬영 장치(233)로 구성될 수 있다. 프로세서(320)는 단계 630에서 좌측 영상(410)으로부터 2차원 픽셀 정보
Figure pat00063
, 깊이 정보
Figure pat00064
및 초기 형상 계수 정보
Figure pat00065
을 획득할 수 있고, 우측 영상(450)으로부터 2차원 픽셀 정보
Figure pat00066
, 깊이 정보
Figure pat00067
및 초기 형상 계수 정보
Figure pat00068
을 획득할 수 있다.
프로세서(320)가 복수의 영상들 각각에 대해 특징 맵에 기초하여 조인트 키포인트 정보 및 초기 형상 계수 정보를 획득하는 동작은 도 7을 참조하여 상세히 설명한다.
단계 640에서, 프로세서(320)는 복수의 영상들 각각에 대해 획득된 조인트 키포인트 정보 및 초기 형상 계수 정보에 기초하여, 착용자를 3차원 모델링하기 위한 타겟 3차원 조인트 각도를 결정할 수 있다. 단계 640은 도 5를 참조하여 전술한 단계 530에 대응할 수 있다. 도 5의 단계 530에서 전술한 바와 같이, 프로세서(320)는 착용자의 관절들이 이루는 3차원 상 각도인 3차원 조인트 각도
Figure pat00069
에 대한 최적화(optimization)를 수행함으로써 착용자를 3차원 모델링하기 위한 타겟 3차원 조인트 각도
Figure pat00070
를 결정할 수 있다. 예를 들어, 단계 630에서 획득된 2차원 픽셀 정보, 깊이 정보 및 초기 형상 계수 정보에 기초하여 단계 640에서 3차원 조인트 각도에 대한 오차가 계산되고, 오차가 최소가 되는 3차원 조인트 각도가 타겟 3차원 조인트 각도
Figure pat00071
로 결정될 수 있다. 프로세서(320)가 타겟 3차원 조인트 각도를 결정하는 동작은 도 8을 참조하여 상세히 설명한다.
단계 650에서, 프로세서(320)는 복수의 영상들 각각에 대해 획득된 조인트 키포인트 정보 및 초기 형상 계수 정보에 기초하여, 착용자를 3차원 모델링하기 위한 타겟 형상 계수 정보를 결정할 수 있다. 일 실시 예에 따르면, 타겟 형상 계수 정보를 결정하기 위한 초기 형상 계수 정보는 복수의 영상들 각각에 대해 획득된 초기 형상 계수 정보의 평균일 수 있다.
예를 들어, 도 5를 참조하여 설명한 바와 같이 복수의 촬영 장치들이 웨어러블 디바이스(101)의 좌측에 장착된 좌측 촬영 장치(236) 및 웨어러블 디바이스(101)의 우측에 장착된 우측 촬영 장치(233)로 구성되는 경우, 초기 형상 계수 정보
Figure pat00072
는 좌측 영상(410)으로부터 획득된 초기 형상 계수 정보
Figure pat00073
과 우측 영상(450)으로부터 획득된 초기 형상 계수 정보
Figure pat00074
의 평균일 수 있다.
단계 650은 도 5를 참조하여 전술한 단계 540에 대응할 수 있다. 도 5의 단계 540에서 전술한 바와 같이, 프로세서(320)는 착용자의 형상에 대한 형상 계수
Figure pat00075
에 대한 최적화를 수행함으로써 착용자를 3차원 모델링하기 위한 타겟 형상 계수
Figure pat00076
를 결정할 수 있다. 예를 들어, 단계 630에서 획득된 획득된 2차원 픽셀 정보, 깊이 정보 및 초기 형상 계수 정보에 기초하여 단계 650에서 형상 계수에 대한 오차가 계산되고, 오차가 최소화되는 형상 계수가 타겟 형상 계수
Figure pat00077
로 결정될 수 있다. 프로세서(320)가 타겟 3차원 형상 계수 정보를 결정하는 동작은 도 9를 참조하여 상세히 설명한다.
단계 660에서, 프로세서(320)는 단계 640에서 결정한 타겟 3차원 조인트 각도
Figure pat00078
및 단계 650에서 결정한 타겟 형상 계수 정보
Figure pat00079
에 기초하여 착용자에 대한 3차원 메쉬(예: 도 5의 3차원 메쉬(570))를 획득할 수 있다. 예를 들어,
Figure pat00080
Figure pat00081
를 입력으로 vertex를 출력하는 SMPL에 타겟 3차원 조인트 각도
Figure pat00082
및 타겟 형상 계수 정보
Figure pat00083
를 입력함으로써 착용자에 대한 3차원 메쉬가 획득될 수 있다.
도 7은 일 실시 예에 따른 조인트 키포인트 정보 및 초기 형상 계수 정보를 획득하는 동작을 설명하기 위한 흐름도이다.
단계 710 내지 단계 730은 도 3을 참조하여 전술된 웨어러블 디바이스(101)의 프로세서(320)에 의해 수행될 수 있고, 간결하고 명확한 설명을 위해 도 1 내지 도 6을 참조하여 설명한 내용과 중복되는 내용은 생략될 수 있다.
일 실시 예에 따르면, 단계 710 내지 단계 730은 도 6을 참조하여 설명한, 특징 맵에 기초하여 조인트 키포인트 정보 및 초기 형상 계수 정보를 획득하는 동작(예: 도 6의 단계 630)에 대응될 수 있다.
단계 710 내지 단계 730에서, 프로세서(320)는 도 5의 단계 520을 참조하여 전술한 바와 같이 2차원 픽셀 정보
Figure pat00084
, 깊이 정보
Figure pat00085
및 초기 형상 계수 정보
Figure pat00086
를 다른 방법으로 획득될 수 있다.
단계 710에서, 프로세서(320)는 복수의 영상들 각각에 대해, 특징 맵 및 제1 CNN 모델에 기초하여 2차원 픽셀 정보
Figure pat00087
를 획득할 수 있다.
단계 720에서, 프로세서(320)는 복수의 영상들 각각에 대해, 제1 CNN 모델과 같거나 다른 제2 CNN 모델 및 특징 맵에 기초하여 깊이 정보
Figure pat00088
를 획득할 수 있다.
단계 710 및 단계 720에서 프로세서(320)가 2차원 픽셀 정보 및 깊이 정보를 획득하는 동작에서, 히트맵(heatmap)이 활용될 수 있다. 예를 들어, 프로세서(320)는 복수의 영상 각각에 대해 특징 맵을 생성하고, 특징 맵의 관절마다 히트맵
Figure pat00089
을 생성할 수 있다. 일 례로, 추론하는 관절의 개수가 5개라면 하나의 영상(예를 들어, 좌측 영상(410))에 대해 5장의 히트맵이 생성될 수 있다. 각 히트맵 별로 정규화된 픽셀 값은 확률에 대응될 수 있고, 5장의 히트맵들 중 가장 높은 확률을 갖는 지점이 2차원 픽셀 정보
Figure pat00090
로 획득될 수 있다. 깊이 정보 역시 마찬가지로 프로세서(320)는 관절마다 히트맵
Figure pat00091
를 생성하고, 복수의 히트맵들 중 가장 높은 확률을 갖는 지점이 깊이 정보
Figure pat00092
로 획득될 수 있다.
단계 730에서, 프로세서(320)는 복수의 영상들 각각에 대해, 특징 맵에 대한 반복적 회귀분석(iterative regression)을 통해 초기 형상 계수 정보
Figure pat00093
를 획득할 수 있다. 초기 형상 계수 정보는, 도 6의 단계 650에서 설명한 바와 같이 형상 계수 정보를 최적화하는 과정의 초기값을 위해 획득될 수 있다. 착용자의 신체 형상에 대한 형상 계수는 시간의 흐름에 따라 영상들이 입력되더라도 변하지 않아야 하고, 타겟 형상 계수
Figure pat00094
는 형상 계수 최적화를 통해 획득될 수 있다.
일 실시 예에 따르면, 도 9를 참조하여 후술할 최적화 과정에서 직전 프레임의 형상 계수 정보가 필요하므로, 첫 프레임의 형상 계수 정보, 즉 초기 형상 계수 정보가 필요할 수 있다. 프로세서(320)는 단계 730에서 첫 프레임에 대해서만 반복적 회귀분석을 수행함으로써 초기 형상 계수 정보를 획득할 수 있고, 이후 프레임에 대해서는 도 9를 참조하여 후술할 최적화 과정을 수행함으로써 타겟 형상 계수 정보를 획득할 수 있다.
단계 710 내지 단계 730을 통해 프로세서(320)가 2차원 픽셀 정보
Figure pat00095
, 깊이 정보
Figure pat00096
및 초기 형상 계수 정보
Figure pat00097
를 획득하는 과정에서, 각 파라미터(
Figure pat00098
,
Figure pat00099
Figure pat00100
)는 딥러닝 기반의 학습을 통해 업데이트될 수 있고, 학습에 있어서 손실함수 L은 아래 [수학식 1]과 같이 정의될 수 있다. 이 때 학습의 의미는 아래 손실함수 L이 최소화되도록 각 파라미터를 지속적으로 업데이트하는 과정일 수 있다. 손실함수 L은 아래 [수학식 1]과 같이 2차원 픽셀 정보와 관련된 히트맵 정보의 오차, 깊이 정보와 관련된 히트맵 정보의 오차, 형상 계수 정보에 대한 오차를 포함할 수 있다.
Figure pat00101
여기서 L은 2차원 픽셀 정보, 깊이 정보 및 초기 형상 계수 정보 세가지 인자 모두에 대한 손실 함수이고,
Figure pat00102
는 2차원 픽셀 정보와 관련된 히트맵 정보의 ground truth,
Figure pat00103
는 깊이 정보와 관련된 히트맵 정보의 ground truth,
Figure pat00104
는 형상 계수 정보의 ground truth,
Figure pat00105
는 2차원 픽셀 정보와 관련된 히트맵 정보의 추론값,
Figure pat00106
는 깊이 정보와 관련된 히트맵 정보의 추론값,
Figure pat00107
은 형상 계수 정보의 추론값, w 1 , w 2 는 조정 가능한 하이퍼 파라미터(hyper parameter),
Figure pat00108
는 L2-놈(norm)의 제곱으로, 각 성분의 제곱합을 의미할 수 있다.
각 파라미터에 대한 ground truth는 메모리(예를 들어, 도 3의 메모리(330))에 저장되어 있을 수 있다. 예를 들어, 히트맵 정보에 대한 ground truth는 히트맵 정보에서 싱글 피크(single peak)에 대응하는 정보일 수 있고, 형상 계수에 대한 ground truth는 사전 조사된 착용자의 신체에 대한 형상 계수 정보일 수 있다.
학습 방법은 다양하게 구현될 수 있다. 예를 들어, 2차원 픽셀 정보, 깊이 정보 및 형상 계수 정보에 대해 하나씩 동결(freezing)하여 학습이 진행되고, 이후 미세 조정(fine tuning)이 수행될 수 있다. w 1 w 2 는 조정 가능한 하이퍼 파라미터(hyper-parameter)로, 프로세서(320)는 각 오차의 스케일을 조정함으로써 학습을 진행할 수 있다.
도 8은 일 실시 예에 따른 타겟 3차원 조인트 각도를 결정하는 동작을 설명하기 위한 흐름도이다.
단계 810 내지 단계 850은 도 3을 참조하여 전술된 웨어러블 디바이스(101)의 프로세서(320)에 의해 수행될 수 있고, 간결하고 명확한 설명을 위해 도 1 내지 도 7을 참조하여 설명한 내용과 중복되는 내용은 생략될 수 있다.
일 실시 예에 따르면, 단계 810 내지 단계 850은 도 6을 참조하여 설명한, 타겟 3차원 조인트 각도를 결정하는 동작(예: 도 6의 단계 640)에 대응될 수 있다.
단계 810 내지 단계 850에서, 타겟 3차원 조인트 각도는 아래 [수학식 2]에 기초하여 결정될 수 있다. 이하 단계 810 내지 단계 850에 대한 설명은 아래 [수학식 2]의 의미에 대응할 수 있다.
Figure pat00109
여기서,
Figure pat00110
은 타겟 3차원 조인트 각도,
Figure pat00111
는 2차원 픽셀 정보에 대한 오차,
Figure pat00112
는 깊이 정보에 대한 오차,
Figure pat00113
는 시간에 따른 3차원 조인트 각도의 오차, a b는 조정 가능한 하이퍼 파라미터를 의미할 수 있다.
단계 810에서, 프로세서(320)는 2차원 픽셀 정보에 대한 오차
Figure pat00114
를 계산할 수 있다. 일 실시 예에 따르면, 도 5를 참조하여 설명한 바와 같이 복수의 촬영 장치들이 웨어러블 디바이스(101)의 좌측에 장착된 좌측 촬영 장치(236) 및 웨어러블 디바이스(101)의 우측에 장착된 우측 촬영 장치(233)로 구성되는 경우, 2차원 픽셀 정보에 대한 오차
Figure pat00115
는 아래 [수학식 3]에 기초하여 계산될 수 있다.
Figure pat00116
여기서,
Figure pat00117
는 2차원 픽셀 정보에 대한 오차,
Figure pat00118
는 3차원 조인트 각도,
Figure pat00119
는 형상 계수 정보, X i
Figure pat00120
Figure pat00121
를 입력으로 vertex를 출력하는 SMPL에서 i번째 관절의 3차원 위치 정보,
Figure pat00122
l 은 좌측 촬영 장치(236)의 장착 위치로 투영(projection)하는 함수,
Figure pat00123
r 은 우측 촬영 장치(233)의 장착 위치로 투영하는 함수,
Figure pat00124
li 는 좌측 촬영 장치(236)로 획득된 영상(410)에서 i번째 관절의 2차원 픽셀 정보,
Figure pat00125
ri 는 우측 촬영 장치로(233) 획득된 영상(450)에서 i번째 관절의 2차원 픽셀 정보, v li 는 좌측 촬영 장치로 획득된 영상(410)에서 i번째 관절이 관찰되었는지 여부에 대한 정보 - 관찰된 경우 1, 관찰되지 않은 경우 0 -, v ri 는 우측 촬영 장치로 획득된 영상(450)에서 i번째 관절이 관찰되었는지 여부에 대한 정보 - 관찰된 경우 1, 관찰되지 않은 경우 0 -,
Figure pat00126
는 L2-노름(norm)의 제곱으로, 각 성분의 제곱합을 의미할 수 있다.
단계 820에서, 프로세서(320)는 깊이 정보에 대한 오차
Figure pat00127
를 계산할 수 있다. 일 실시 예에 따르면, 도 5를 참조하여 설명한 바와 같이 복수의 촬영 장치들이 웨어러블 디바이스(101)의 좌측에 장착된 좌측 촬영 장치(236) 및 웨어러블 디바이스(101)의 우측에 장착된 우측 촬영 장치(233)로 구성되는 경우, 깊이 정보에 대한 오차
Figure pat00128
는 좌측 깊이 정보 오차
Figure pat00129
및 우측 깊이 정보 오차
Figure pat00130
을 합산함으로써 계산될 수 있다. 이 때 좌측 깊이 정보 오차는 아래 [수학식 4]에 기초하여 계산되고, 우측 깊이 정보 오차는 아래 [수학식 5]에 기초하여 계산될 수 있다.
Figure pat00131
여기서,
Figure pat00132
은 좌측 깊이 정보 오차,
Figure pat00133
는 3차원 조인트 각도,
Figure pat00134
는 형상 계수 정보, X i
Figure pat00135
Figure pat00136
를 입력으로 vertex를 출력하는 SMPL에서 i번째 관절의 3차원 위치 정보,
Figure pat00137
은 좌측 촬영 장치(236)로 획득된 영상(410)에서 SMPL의 관절의 깊이 정보, X 0 는 SMPL의 기준 관절(예를 들어, 배꼽 또는 골반(pelvis))의 3차원 위치 정보, v li 는 좌측 촬영 장치(236)로 획득된 영상(410)에서 i번째 관절이 관찰되었는지 여부에 대한 정보 - 관찰된 경우 1, 관찰되지 않은 경우 0 -,
Figure pat00138
는 좌측 촬영 장치(236)로 획득된 영상(410)에서 i번째 관절의 깊이 정보,
Figure pat00139
는 좌측 촬영 장치(236)로 획득된 영상(410)에서 i번째 관절의 깊이 정보의 초기값,
Figure pat00140
는 L2-놈(norm)의 제곱으로, 각 성분의 제곱합을 의미할 수 있다.
Figure pat00141
여기서,
Figure pat00142
은 우측 깊이 정보 오차,
Figure pat00143
는 3차원 조인트 각도,
Figure pat00144
는 형상 계수 정보, X i
Figure pat00145
Figure pat00146
를 입력으로 vertex를 출력하는 SMPL에서 i번째 관절의 3차원 위치 정보,
Figure pat00147
은 우측 촬영 장치(233)로 획득된 영상(450)에서 SMPL의 관절의 깊이 정보, X 0 는 SMPL의 기준 관절의 3차원 위치 정보, v ri 는 우측 촬영 장치(233)로 획득된 영상(450)에서 i번째 관절이 관찰되었는지 여부에 대한 정보 - 관찰된 경우 1, 관찰되지 않은 경우 0 -,
Figure pat00148
는 우측 촬영 장치(233)로 획득된 영상(450)에서 i번째 관절의 깊이 정보,
Figure pat00149
는 우측 촬영 장치(233)로 획득된 영상(450)에서 i번째 관절의 깊이 정보의 초기값,
Figure pat00150
는 L2-놈(norm)의 제곱으로, 각 성분의 제곱합을 의미할 수 있다.
단계 830에서, 프로세서(320)는 시간에 따른 3차원 조인트 각도의 오차
Figure pat00151
를 계산할 수 있다. 시간에 따른 3차원 조인트 각도의 오차
Figure pat00152
는 아래 [수학식 6]에 기초하여 계산될 수 있다.
Figure pat00153
여기서,
Figure pat00154
는 시간에 따른 3차원 조인트 각도의 오차,
Figure pat00155
는 3차원 조인트 각도,
Figure pat00156
는 직전 프레임에서의 3차원 조인트 각도,
Figure pat00157
는 L2-놈(norm)의 제곱으로 각 성분의 제곱합을 의미할 수 있다.
일 실시 예에 따르면, 프로세서(320)는 [수학식 6]에 기초하여 이전 프레임과 큰 차이가 나지 않도록 정규화를 수행할 수 있다.
[수학식 3], [수학식 4] 및 [수학식 5]를 참조하면, 복수의 영상들 각각에서 관절이 관찰되었는지 여부에 대한 정보(예: v li 또는 v ri )가 포함되므로, 복수의 영상들 중 하나의 영상에 관찰되지 않은 비관찰 조인트가 존재하더라도 다른 영상들 중 해당 관절이 관찰되었다면 해당 정보가 착용자의 3차원 모델링에 반영될 수 있다.
[수학식 3], [수학식 4] 및 [수학식 5]를 참조하면, 복수의 영상들 모두에서 관찰되지 않은 관절이 존재하더라도 형상 계수 정보(예:
Figure pat00158
)에 기초하여 해당 관절의 위치가 추론될 수 있다. 예를 들어, 복수의 영상들 모두에 무릎 관절이 포함되지 않더라도 발끝이 적어도 하나의 영상에 포함된 경우, 형상 계수 정보인
Figure pat00159
에 따라 착용자의 신체 형상, 예를 들어 뼈 길이가 결정되므로, 무릎 관절의 위치가 추론될 수 있다.
[수학식 6]을 참조하면, 발끝과 같은 말단이 관찰되지 않은 경우에도 직전 프레임을 통해 추론될 수 있다.
[수학식 4] 및 [수학식 5]를 참조하면, 기준 관절(예를 들어, 배꼽 또는 골반(pelvis))의 3차원 위치 정보인 X 0 와의 상대 거리를 기준으로 오차를 계산하므로, 촬영 장치(233, 236)의 위치로 인한 오차가 줄어들 수 있다.
단계 840에서, 프로세서(320)는 2차원 픽셀 정보에 대한 오차
Figure pat00160
, 깊이 정보에 대한 오차
Figure pat00161
, 시간에 따른 3차원 조인트 각도의 오차
Figure pat00162
에 기초하여 3차원 조인트 각도에 대한 전체 오차를 계산할 수 있다. 예를 들어, [수학식 2]를 참조하여 전술한 바와 같이 프로세서(320)는 3차원 조인트 각도에 대한 전체 오차를
Figure pat00163
로 결정할 수 있다.
단계 850에서, 프로세서(320)는 3차원 조인트 각도에 대한 전체 오차가 최소가 되는 3차원 조인트 각도를 타겟 3차원 조인트 각도
Figure pat00164
로 결정할 수 있다. 예를 들어, 프로세서(320)는 [수학식 2]에 기초하여 타겟 3차원 조인트 각도를 결정할 수 있다.
도 9는 일 실시 예에 따른 타겟 형상 계수 정보를 결정하는 동작을 설명하기 위한 흐름도이다.
단계 910은 도 3을 참조하여 전술된 웨어러블 디바이스(101)의 프로세서(320)에 의해 수행될 수 있고, 간결하고 명확한 설명을 위해 도 1 내지 도 8을 참조하여 설명한 내용과 중복되는 내용은 생략될 수 있다.
일 실시 예에 따르면, 단계 910은 도 6을 참조하여 설명한, 타겟 형상 계수 정보를 결정하는 동작(예: 도 6의 단계 650)에 대응될 수 있다.
단계 910에서, 프로세서(320)는 시간에 따라 3차원 조인트 각도를 2차원 픽셀 정보에 대한 오차에 입력함으로써 출력되는 값들을 합산한 값이 최소가 되는 형상 계수 정보를, 타겟 형상 계수 정보로 결정할 수 있다. 예를 들어, 타겟 형상 계수 정보는 아래 [수학식 7]에 기초하여 결정될 수 있다.
Figure pat00165
여기서,
Figure pat00166
은 타겟 형상 계수 정보,
Figure pat00167
는 [수학식 2] 및 [수학식 3]의 2차원 픽셀 정보에 대한 오차,
Figure pat00168
는 시간에 따른 3차원 조인트 각도,
Figure pat00169
는 형상 계수 정보를 의미할 수 있다.
도 6의 단계 630을 참조하여 전술한 바와 같이, 프로세서(320)는 형상 계수 정보
Figure pat00170
에 대해서는 첫 프레임에 대해서만 반복적 회귀분석을 통해 초기 형상 계수 정보를 획득하고, 이후 프레임들에 대해서는 [수학식 7]에 기초하여 형상 계수 정보에 대한 최적화를 수행할 수 있다.
일 실시 예에 따르면, 첫 프레임에 대한 초기 형상 계수 정보만 반복적 회귀분석에 기초하여 획득하고, 이후 프레임부터는 [수학식 7]의
Figure pat00171
와 같이 SMPL([수학식 3]의 X i )과 시간에 따른 3차원 조인트 각도(
Figure pat00172
)가 포함된 오차를 기초로 최적화를 수행함으로써, 보다 정확도 높은 타겟 형상 계수
Figure pat00173
가 결정될 수 있다.
형상 계수 정보
Figure pat00174
는 웨어러블 디바이스(101)의 착용자마다 고유의 값을 갖는 파라미터로, 착용자의 자세에 대해 강건(robust)해야 형상 계수 정보에 대한 정확도가 향상될 수 있다. [수학식 7]에 따르면, 시간에 따른 3차원 조인트 각도
Figure pat00175
를 2차원 픽셀 정보에 대한 오차
Figure pat00176
에 입력함으로써 출력되는 오차들의 합이 최소가 되도록 설계함으로써 자세의 변화, 즉 시간에 따른 조인트 각도의 변화에 강건한 타겟 형상 계수 정보
Figure pat00177
이 결정될 수 있다.
도 6의 단계 660에서 전술한 바와 같이, 프로세서(320)는 도 8의 단계 810 내지 단계 850을 통해 결정된 타겟 3차원 조인트 각도
Figure pat00178
및 단계 910을 통해 결정된 타겟 형상 계수 정보
Figure pat00179
에 기초하여 착용자에 대한 3차원 메쉬(예: 도 5의 3차원 메쉬(570))를 획득할 수 있다. 예를 들어,
Figure pat00180
Figure pat00181
를 입력으로 vertex를 출력하는 SMPL에, 타겟 3차원 조인트 각도
Figure pat00182
및 타겟 형상 계수 정보
Figure pat00183
를 입력함으로써 착용자에 대한 3차원 메쉬가 획득될 수 있다.
착용자에 대한 3차원 메쉬는 다양한 분야에 활용될 수 있다. 착용자는 원격회의 또는 증강 현실에서의 아바타로 3차원 메쉬를 이용할 수 있다. 또는, 가상 객체 간 상호작용 또는 텔레프리전스(telepresence)를 통한 상대방과의 상호작용 시 3차원 메쉬가 활용될 수 있다.
웨어러블 디바이스(101)를 통해, 별도의 장비 없이 촬영, 3d 모델링, 움직임 추적(tracking) 등이 하나의 기기에서 수행될 수 있다. 사용자는 장소에 구애받지 않고 웨어러블 디바이스(101)를 통해 자신의 외형과 움직임을 3차원 모델링할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 웨어러블 디바이스의 착용자를 3차원 모델링하는 방법에 있어서,
    상기 웨어러블 디바이스에 장착된 복수의 촬영 장치들로부터 획득한, 상기 착용자에 대한 복수의 영상들 각각에 대해, 특징 맵(feature map)을 생성하는 단계;
    상기 복수의 영상들 각각에 대해, 상기 특징 맵에 기초하여 상기 착용자의 관절(joint) 위치에 대응하는 조인트 키포인트(joint keypoint) 정보 - 상기 조인트 키포인트 정보는 2차원 픽셀 정보 및 깊이 정보를 포함함 - 및 상기 착용자의 형상(shape)에 대한 초기 형상 계수(shape coefficient) 정보를 획득하는 단계;
    상기 조인트 키포인트 정보 및 상기 초기 형상 계수 정보에 기초하여, 상기 착용자를 3차원 모델링하기 위한 타겟 3차원 조인트 각도를 결정하는 단계;
    상기 조인트 키포인트 정보 및 상기 초기 형상 계수 정보에 기초하여, 상기 착용자를 3차원 모델링하기 위한 타겟 형상 계수 정보를 결정하는 단계; 및
    상기 타겟 3차원 조인트 각도 및 상기 타겟 형상 계수 정보에 기초하여, 상기 착용자에 대한 3차원 메쉬(mesh)를 획득하는 단계
    를 포함하는,
    3차원 모델링 방법.
  2. 제1항에 있어서,
    상기 특징 맵은,
    Mobilenet, Googlenet 및 Resnet 중 적어도 어느 하나에 기초하여 생성되는,
    3차원 모델링 방법.
  3. 제1항에 있어서,
    상기 복수의 영상들 각각에 대해 상기 조인트 키포인트 정보 및 상기 초기 형상 계수 정보를 획득하는 단계는,
    상기 특징 맵 및 제1 컨볼루션 신경망(convolution neural network) 모델에 기초하여 추론되는 상기 2차원 픽셀 정보를 획득하는 단계;
    상기 특징 맵 및 제2 컨볼루션 신경망 모델에 기초하여 추론되는 상기 깊이 정보를 획득하는 단계; 및
    상기 특징 맵에 대한 반복적 회귀분석(iterative regression)을 통해 상기 초기 형상 계수 정보를 획득하는 단계
    를 포함하는,
    3차원 모델링 방법.
  4. 제1항에 있어서,
    상기 타겟 3차원 조인트 각도를 결정하는 단계는,
    상기 2차원 픽셀 정보에 대한 오차를 계산하는 단계;
    상기 깊이 정보에 대한 오차를 계산하는 단계;
    시간에 따른 3차원 조인트 각도의 오차를 계산하는 단계;
    상기 2차원 픽셀 정보에 대한 오차, 상기 깊이 정보에 대한 오차 및 상기 시간에 따른 3차원 조인트 각도의 오차에 기초하여 3차원 조인트 각도에 대한 전체 오차를 계산하는 단계; 및
    상기 전체 오차가 최소가 되는 3차원 조인트 각도를 상기 타겟 3차원 조인트 각도로 결정하는 단계
    를 포함하는,
    3차원 모델링 방법.
  5. 제4항에 있어서,
    상기 복수의 촬영 장치들이 상기 웨어러블 디바이스의 좌측에 장착된 좌측 촬영 장치 및 상기 웨어러블 디바이스의 우측에 장착된 우측 촬영 장치로 구성되는 경우,
    상기 2차원 픽셀 정보에 대한 오차는,
    하기 수학식 1에 기초하여 계산되는,
    3차원 모델링 방법.
    [수학식 1]
    Figure pat00184

    여기서,
    Figure pat00185
    는 상기 2차원 픽셀 정보에 대한 오차,
    Figure pat00186
    는 3차원 조인트 각도,
    Figure pat00187
    는 형상 계수 정보, X i
    Figure pat00188
    Figure pat00189
    를 입력으로 vertex를 출력하는 SMPL(Skinned. Multi-person Linear Model)에서 i번째 관절의 3차원 위치 정보,
    Figure pat00190
    l 은 상기 좌측 촬영 장치의 장착 위치로 투영(projection)하는 함수,
    Figure pat00191
    r 은 상기 우측 촬영 장치의 장착 위치로 투영(projection)하는 함수,
    Figure pat00192
    li 는 상기 좌측 촬영 장치로 획득된 영상에서 i번째 관절의 상기 2차원 픽셀 정보,
    Figure pat00193
    ri 는 상기 우측 촬영 장치로 획득된 영상에서 i번째 관절의 상기 2차원 픽셀 정보, v li 는 상기 좌측 촬영 장치로 획득된 영상에서 i번째 관절이 관찰되었는지 여부에 대한 정보 - 관찰된 경우 1, 관찰되지 않은 경우 0 -, v ri 는 상기 우측 촬영 장치로 획득된 영상에서 i번째 관절이 관찰되었는지 여부에 대한 정보 - 관찰된 경우 1, 관찰되지 않은 경우 0 -,
    Figure pat00194
    는 L2-놈(norm)의 제곱으로, 각 성분의 제곱합을 의미함.
  6. 제5항에 있어서,
    상기 형상 계수 정보
    Figure pat00195
    의 초기값인 초기 형상 계수 정보
    Figure pat00196
    는,
    상기 좌측 촬영 장치로 획득된 영상으로부터 획득된 초기 형상 계수 정보인
    Figure pat00197
    과 상기 우측 촬영 장치로 획득된 영상으로부터 획득된 초기 형상 계수 정보인
    Figure pat00198
    의 평균인,
    3차원 모델링 방법.
  7. 제4항에 있어서,
    상기 복수의 촬영 장치들이 상기 웨어러블 디바이스의 좌측에 장착된 좌측 촬영 장치 및 상기 웨어러블 디바이스의 우측에 장착된 우측 촬영 장치로 구성되는 경우,
    상기 깊이 정보에 대한 오차는 좌측 깊이 정보 오차 및 우측 깊이 정보 오차를 합산함으로써 계산되며, 상기 좌측 깊이 정보 오차는 하기 수학식 2에 기초하여 계산되고, 상기 우측 깊이 정보 오차는 하기 수학식 3에 기초하여 계산되는,
    3차원 모델링 방법.
    [수학식 2]
    Figure pat00199

    여기서,
    Figure pat00200
    은 상기 좌측 깊이 정보 오차,
    Figure pat00201
    는 3차원 조인트 각도,
    Figure pat00202
    는 형상 계수 정보, X i
    Figure pat00203
    Figure pat00204
    를 입력으로 vertex를 출력하는 SMPL에서 i번째 관절의 3차원 위치 정보,
    Figure pat00205
    은 상기 좌측 촬영 장치로 획득된 영상에서 상기 SMPL의 관절의 깊이 정보, X 0 는 상기 SMPL의 기준 관절의 3차원 위치 정보, v li 는 상기 좌측 촬영 장치로 획득된 영상에서 i번째 관절이 관찰되었는지 여부에 대한 정보 - 관찰된 경우 1, 관찰되지 않은 경우 0 -,
    Figure pat00206
    는 상기 좌측 촬영 장치로 획득된 영상에서 i번째 관절의 상기 깊이 정보,
    Figure pat00207
    는 상기 좌측 촬영 장치로 획득된 영상에서 i번째 관절의 깊이 정보의 초기값,
    Figure pat00208
    는 L2-놈(norm)의 제곱으로, 각 성분의 제곱합을 의미함.
    [수학식 3]
    Figure pat00209

    여기서,
    Figure pat00210
    은 상기 우측 깊이 정보 오차,
    Figure pat00211
    는 3차원 조인트 각도,
    Figure pat00212
    는 상기 형상 계수 정보, X i
    Figure pat00213
    Figure pat00214
    를 입력으로 vertex를 출력하는 SMPL에서 i번째 관절의 3차원 위치 정보,
    Figure pat00215
    은 상기 우측 촬영 장치로 획득된 영상에서 상기 SMPL의 관절의 깊이 정보, X 0 는 상기 SMPL의 기준 관절의 3차원 위치 정보, v ri 는 상기 우측 촬영 장치로 획득된 영상에서 i번째 관절이 관찰되었는지 여부에 대한 정보 - 관찰된 경우 1, 관찰되지 않은 경우 0 -,
    Figure pat00216
    는 상기 우측 촬영 장치로 획득된 영상에서 i번째 관절의 상기 깊이 정보,
    Figure pat00217
    는 상기 우측 촬영 장치로 획득된 영상에서 i번째 관절의 깊이 정보의 초기값,
    Figure pat00218
    는 L2-놈(norm)의 제곱으로, 각 성분의 제곱합을 의미함.
  8. 제4항에 있어서,
    상기 시간에 따른 3차원 조인트 각도의 오차는, 하기 수학식 4에 기초하여 계산되는,
    3차원 모델링 방법.
    [수학식 4]
    Figure pat00219

    여기서,
    Figure pat00220
    는 상기 시간에 따른 3차원 조인트 각도의 오차,
    Figure pat00221
    는 3차원 조인트 각도,
    Figure pat00222
    는 직전 프레임에서의 3차원 조인트 각도,
    Figure pat00223
    는 L2-놈(norm)의 제곱으로 각 성분의 제곱합을 의미함.
  9. 제1항에 있어서,
    상기 타겟 형상 계수 정보를 결정하는 단계는,
    하기 수학식 5에 기초하여 계산되는,
    3차원 모델링 방법.
    [수학식 5]
    Figure pat00224

    여기서,
    Figure pat00225
    은 상기 타겟 형상 계수 정보,
    Figure pat00226
    는 상기 2차원 픽셀 정보에 대한 오차,
    Figure pat00227
    는 3차원 조인트 각도,
    Figure pat00228
    는 형상 계수 정보를 의미함.
  10. 제1항에 있어서,
    상기 복수의 촬영 장치들 각각은,
    어안렌즈(fisheye lens)를 포함하는,
    3차원 모델링 방법.
  11. 제1항에 있어서,
    상기 웨어러블 디바이스는,
    AR글래스 및 HMD(head-mounted display) 중 어느 하나인,
    3차원 모델링 방법.
  12. 제1항에 있어서,
    상기 복수의 촬영 장치들 중 적어도 두 개의 촬영 장치는,
    상기 웨어러블 디바이스의 좌측 끝 및 우측 끝에, 각각 하단 방향으로 소정의 각도를 이루도록 장착되고,
    각각 일정 크기의 화각(FoV: field of view)을 갖는,
    3차원 모델링 방법.
  13. 하드웨어와 결합되어 제1항 내지 제12항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  14. 착용자의 3차원 모델링 방법을 수행하는 웨어러블 디바이스에 있어서,
    상기 착용자에 대한 복수의 영상들을 획득하기 위한 복수의 촬영 장치들;
    컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리; 및
    상기 메모리에 억세스(access)하여 상기 명령어들을 실행하는 프로세서
    를 포함하고,
    상기 명령어들은,
    상기 복수의 영상들 각각에 대해, 특징 맵(feature map)을 생정하고,
    상기 복수의 영상들 각각에 대해, 상기 특징 맵에 기초하여 상기 착용자의 관절(joint) 위치에 대응하는 조인트 키포인트(joint keypoint) 정보 - 상기 조인트 키포인트 정보는 2차원 픽셀 정보 및 깊이 정보를 포함함 - 및 상기 착용자의 형상(shape)에 대한 초기 형상 계수(shape coefficient) 정보를 획득하고,
    상기 조인트 키포인트 정보 및 상기 초기 형상 계수 정보에 기초하여, 상기 착용자를 3차원 모델링하기 위한 타겟 3차원 조인트 각도를 결정하고,
    상기 조인트 키포인트 정보 및 상기 초기 형상 계수 정보에 기초하여, 상기 착용자를 3차원 모델링하기 위한 타겟 형상 계수 정보를 결정하고, 및
    상기 타겟 3차원 조인트 각도 및 상기 타겟 형상 계수 정보에 기초하여, 상기 착용자에 대한 3차원 메쉬(mesh)를 획득
    하도록 구성되는,
    웨어러블 디바이스.
  15. 제14항에 있어서,
    상기 명령어들은,
    상기 특징 맵 및 제1 컨볼루션 신경망(convolution neural network) 모델에 기초하여 추론되는 상기 2차원 픽셀 정보를 획득하고,
    상기 특징 맵 및 제2 컨볼루션 신경망 모델에 기초하여 추론되는 상기 깊이 정보를 획득하고, 및
    상기 특징 맵에 대한 반복적 회귀분석(iterative regression)을 통해 상기 초기 형상 계수 정보를 획득
    하도록 구성되는,
    웨어러블 디바이스.
  16. 제14항에 있어서,
    상기 명령어들은,
    상기 2차원 픽셀 정보에 대한 오차를 계산하고,
    상기 깊이 정보에 대한 오차를 계산하고,
    시간에 따른 3차원 조인트 각도의 오차를 계산하고,
    상기 2차원 픽셀 정보에 대한 오차, 상기 깊이 정보에 대한 오차 및 상기 시간에 따른 3차원 조인트 각도에 기초하여 전체 오차를 계산하고, 및
    상기 전체 오차가 최소가 되는 3차원 조인트 각도를 상기 타겟 3차원 조인트 각도로 결정
    하도록 구성되는,
    웨어러블 디바이스.
  17. 제14항에 있어서,
    상기 명령어들은,
    시간에 따라 3차원 조인트 각도를 상기 2차원 픽셀 정보에 대한 오차에 입력함으로써 출력되는 값들을 합산한 값이 최소가 되는 형상 계수 정보를 상기 타겟 형상 계수 정보로 결정
    하도록 구성되는,
    웨어러블 디바이스.
  18. 제14항에 있어서,
    상기 복수의 촬영 장치들 각각은,
    어안렌즈(fisheye lens)를 포함하는,
    웨어러블 디바이스.
  19. 제14항에 있어서,
    상기 웨어러블 디바이스는,
    AR글래스 및 HMD(head-mounted display) 중 어느 하나인,
    웨어러블 디바이스.
  20. 제14항에 있어서,
    상기 복수의 촬영 장치들 중 적어도 두 개의 촬영 장치는,
    상기 웨어러블 디바이스의 좌측 끝 및 우측 끝에, 각각 하단 방향으로 소정의 각도를 이루도록 장착되고,
    각각 일정 크기의 화각(FoV: field of view)을 갖는,
    웨어러블 디바이스.
KR1020210166589A 2021-11-29 2021-11-29 인체를 3차원 모델링하는 방법 및 장치 KR20230079618A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210166589A KR20230079618A (ko) 2021-11-29 2021-11-29 인체를 3차원 모델링하는 방법 및 장치
US17/732,803 US20230169725A1 (en) 2021-11-29 2022-04-29 Method and apparatus with 3d modeling of human body

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210166589A KR20230079618A (ko) 2021-11-29 2021-11-29 인체를 3차원 모델링하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20230079618A true KR20230079618A (ko) 2023-06-07

Family

ID=86500449

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210166589A KR20230079618A (ko) 2021-11-29 2021-11-29 인체를 3차원 모델링하는 방법 및 장치

Country Status (2)

Country Link
US (1) US20230169725A1 (ko)
KR (1) KR20230079618A (ko)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016140934A2 (en) * 2015-03-01 2016-09-09 Nextvr Inc. Methods and apparatus for making environmental measurements and/or using such measurements in 3d image rendering
US11430564B2 (en) * 2019-11-27 2022-08-30 Shanghai United Imaging Intelligence Co., Ltd. Personalized patient positioning, verification and treatment
EP4115606A4 (en) * 2020-03-05 2023-09-06 Magic Leap, Inc. SYSTEMS AND METHODS FOR END-TO-END SCENE RECONSTRUCTION FROM MULTI-VIEW IMAGES
US11804040B2 (en) * 2021-03-17 2023-10-31 Qualcomm Incorporated Keypoint-based sampling for pose estimation

Also Published As

Publication number Publication date
US20230169725A1 (en) 2023-06-01

Similar Documents

Publication Publication Date Title
US11385467B1 (en) Distributed artificial reality system with a removable display
US10528133B2 (en) Bracelet in a distributed artificial reality system
US11509883B2 (en) Electronic device
US10976807B2 (en) Distributed artificial reality system with contextualized hand tracking
US20230199328A1 (en) Method of removing interference and electronic device performing the method
US11733952B2 (en) Wearable electronic device including display, method for controlling display, and system including wearable electronic device and case
US11669159B2 (en) Eye tracker illumination through a waveguide
KR20190106900A (ko) 전자 디바이스
US20230259205A1 (en) Electronic device and method thereof for tracking user gaze and providing augmented reality service
US20230154368A1 (en) Method and device for controlling luminance of augmented reality (ar) image
US11893698B2 (en) Electronic device, AR device and method for controlling data transfer interval thereof
KR20230079618A (ko) 인체를 3차원 모델링하는 방법 및 장치
CN117121478A (zh) 包括多个相机的可穿戴电子装置
KR20220140221A (ko) 복수의 카메라를 포함하는 웨어러블 전자 장치
US12003697B2 (en) Wearable electronic device and method of outputting three-dimensional image
US11741862B2 (en) Augmented reality wearable electronic device including camera
EP4350420A1 (en) Lens assembly including light-emitting element disposed on first lens, and wearable electronic device including same
US20240046530A1 (en) Method of controlling display module, and electronic device performing the method
US20230163449A1 (en) Wearable electronic device including variable ground
US20240119683A1 (en) Electronic device and method for providing ar information using watch face image
KR20240011587A (ko) 렌즈리스 카메라를 포함하는 웨어러블 전자 장치 및 이를 이용한 이미지 처리 방법
KR20240036432A (ko) 영상을 표시하는 전자 장치 및 이의 제어 방법
KR20240050198A (ko) 사용자의 자세를 가이드하기 위한 웨어러블 장치 및 그 방법
KR20240062857A (ko) 가상 이미지를 표시하기 위한 전자 장치 및 방법
KR20240045930A (ko) 반사 광학 시스템을 포함하는 렌즈 어셈블리 및 이를 포함하는 웨어러블 전자 장치