KR20220083166A - 인체 추정 방법 및 장치 - Google Patents

인체 추정 방법 및 장치 Download PDF

Info

Publication number
KR20220083166A
KR20220083166A KR1020200173133A KR20200173133A KR20220083166A KR 20220083166 A KR20220083166 A KR 20220083166A KR 1020200173133 A KR1020200173133 A KR 1020200173133A KR 20200173133 A KR20200173133 A KR 20200173133A KR 20220083166 A KR20220083166 A KR 20220083166A
Authority
KR
South Korea
Prior art keywords
parameter
dimensional
human body
camera
dimensional appearance
Prior art date
Application number
KR1020200173133A
Other languages
English (en)
Inventor
지승훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200173133A priority Critical patent/KR20220083166A/ko
Priority to US17/222,322 priority patent/US11605206B2/en
Publication of KR20220083166A publication Critical patent/KR20220083166A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2016Rotation, translation, scaling

Abstract

인체 추정 방법 및 장치가 개시된다. 일 실시예에 따르면, 인체 추정 방법은 영상 프레임에 나타난 2차원 인체의 2차원 외형 파라미터를 결정하고, 2차원 외형 파라미터, 카메라 파라미터, 및 2차원 인체의 3차원 공간 파라미터에 기초하여 2차원 인체의 3차원 외형 파라미터를 결정하는 단계들을 포함한다.

Description

인체 추정 방법 및 장치{METHOD AND APPARATUS FOR ESTIMATING HUMAN BODY}
아래 실시예들은 인체 추정 방법 및 장치에 관한 것이다.
증강 현실(augmented reality, AR)은 현실 객체나 배경에 가상 객체를 겹쳐서 하나의 영상으로 보여주는 기술이다. AR 기술의 발전에 따라 컴퓨터 비전 분야의 객체 인식 기술의 중요도가 높아지고 있다. 예를 들어, 인체 추정은 화면에 나타난 사람 형상에 대응하는 인체 모델을 추정하는 기술이다. 인체 추정이 정확하게 수행되면, AR 기기를 통해 표현되는 사람 형상의 가상 객체 혹은 현실 객체와의 상호작용(interaction)이 가능하다. 예를 들어, 상호작용을 통해 어느 가상 객체가 해당 사람 형상을 피하거나 혹은 해당 사람 형상에 부딪치는 것이 연출될 수 있다. 이러한 인체 추정을 위해 종래에는 움직이는 사람을 영상 내에서 박스 형태로 인식하는 기술, 움직이지 않는 사람을 그 주변에서 단일 카메라를 통해 다양하게 촬영하여 3차원 형태로 추정하는 기술 등이 이용되었다.
일 실시예에 따르면, 인체 추정 방법은 카메라로부터 2차원 인체가 나타난 영상 프레임을 수신하는 단계; 상기 영상 프레임을 분석하여 상기 2차원 인체의 2차원 외형 파라미터를 결정하는 단계; 상기 2차원 외형 파라미터, 상기 카메라의 카메라 파라미터, 및 상기 2차원 인체의 3차원 공간 파라미터에 기초하여 상기 2차원 인체의 3차원 외형 파라미터를 결정하는 단계; 및 상기 3차원 공간 파라미터, 및 상기 3차원 외형 파라미터에 기초하여 상기 2차원 인체에 대응하는 3차원 인체를 추정하는 단계를 포함한다.
상기 2차원 외형 파라미터는 2차원 관절 파라미터 및 2차원 실루엣 파라미터를 포함할 수 있다. 상기 3차원 공간 파라미터는 상기 카메라와 상기 2차원 인체 간의 상대적인 관계를 나타내는 회전 파라미터 및 이동 파라미터 중 적어도 하나를 포함할 수 있다.
상기 3차원 공간 파라미터는 상기 카메라에 대응하는 제1 AR 기기의 제1 SLAM 정보 및 상기 2차원 인체에 대응하는 제2 AR 기기의 제2 SLAM 정보에 기초하여 결정될 수 있다. 상기 3차원 공간 파라미터는 상기 카메라에 대응하는 AR 기기의 관성 정보 및 상기 2차원 인체에 대응하는 사람의 위치 정보에 기초하여 결정될 수 있고, 상기 사람의 상기 위치 정보는 상기 사람을 지지하는 평면과 상기 사람 간의 접점에 기초하여 결정될 수 있다.
상기 3차원 외형 파라미터를 추정하는 단계는 후보 3차원 외형 파라미터, 상기 카메라 파라미터, 및 상기 3차원 공간 파라미터에 기초하여 임시 2차원 외형 파라미터를 결정하는 단계; 및 상기 임시 2차원 외형 파라미터와 상기 2차원 외형 파라미터 간의 차이에 기초하여 상기 후보 3차원 외형 파라미터를 상기 3차원 외형 파라미터로 결정하는 단계를 포함할 수 있다. 후보 3차원 관절 파라미터 및 후보 3차원 모양 파라미터를 포함할 수 있고, 상기 임시 2차원 외형 파라미터를 결정하는 단계는 상기 카메라 파라미터, 상기 3차원 공간 파라미터, 및 투사 함수(projection function)에 기초하여 상기 후보 3차원 관절 파라미터에 따른 3차원 관절로부터 2차원 관절을 결정하는 단계; 상기 카메라 파라미터, 상기 3차원 공간 파라미터, 및 상기 투사 함수에 기초하여 상기 후보 3차원 관절 파라미터 및 상기 후보 3차원 모양 파라미터에 따른 3차원 외형으로부터 2차원 실루엣을 결정하는 단계; 및 상기 2차원 관절 및 상기 2차원 실루엣에 기초하여 상기 임시 2차원 외형 파라미터를 결정하는 단계를 포함할 수 있다.
상기 3차원 외형 파라미터는 3차원 관절 파라미터 및 3차원 모양 파라미터를 포함할 수 있다. 상기 3차원 외형 파라미터를 결정하는 단계는 이전 영상 프레임들의 3차원 모양 파라미터들의 이전 평균 값 및 상기 영상 프레임의 3차원 모양 파라미터에 기초하여 현재 평균 값을 결정하는 단계; 및 상기 현재 평균 값을 상기 3차원 모양 파라미터로 결정하는 단계를 포함할 수 있다.
상기 2차원 외형 파라미터를 결정하는 단계는 미리 트레이닝된 CNN을 이용하여 상기 영상 프레임을 분석하는 단계를 포함할 수 있다. 상기 3차원 인체를 추정하는 단계는 상기 3차원 외형 파라미터를 SMPL(skinned multi-person linear model)에 적용하는 단계를 포함할 수 있다.
일 실시예에 따르면, 인체 추정 장치는 프로세서; 및 상기 프로세서에서 실행가능한 명령어들을 포함하는 메모리를 포함하고, 상기 명령어들이 상기 프로세서에서 실행되면, 상기 프로세서는 카메라로부터 2차원 인체가 나타난 영상 프레임을 수신하고, 상기 영상 프레임을 분석하여 상기 2차원 인체의 2차원 외형 파라미터를 결정하고, 상기 2차원 외형 파라미터, 상기 카메라의 카메라 파라미터, 및 상기 2차원 인체의 3차원 공간 파라미터에 기초하여 상기 2차원 인체의 3차원 외형 파라미터를 결정하고, 상기 3차원 공간 파라미터, 및 상기 3차원 외형 파라미터에 기초하여 상기 2차원 인체에 대응하는 3차원 인체를 추정하는, 프로세서를 포함한다.
일 실시예에 따르면, 전자 장치는 2차원 인체가 나타난 영상 프레임을 생성하는 카메라; 및 상기 영상 프레임을 분석하여 상기 2차원 인체의 2차원 외형 파라미터를 결정하고, 상기 2차원 외형 파라미터, 상기 카메라의 카메라 파라미터, 및 상기 2차원 인체의 3차원 공간 파라미터에 기초하여 상기 2차원 인체의 3차원 외형 파라미터를 결정하고, 상기 3차원 공간 파라미터, 및 상기 3차원 외형 파라미터에 기초하여 상기 2차원 인체에 대응하는 3차원 인체를 추정하는, 프로세서를 포함한다.
도 1은 일 실시예에 따른 인체 추정 장치의 동작을 개략적으로 나타낸다.
도 2는 일 실시예에 따른 인체 추정 방법을 나타내는 플로우 차트이다.
도 3은 일 실시예에 따른 각 파라미터를 통해 인체 추정을 수행하는 동작들을 나타낸다.
도 4는 일 실시예에 따른 3차원 공간 파라미터를 추정하는 동작들을 나타낸다.
도 5는 다른 일 실시예에 따른 3차원 공간 파라미터를 추정하는 동작들을 나타낸다.
도 6은 일 실시예에 따른 3차원 모양 파라미터를 업데이트하는 동작들을 나타낸다.
도 7은 일 실시예에 따른 인체 추정 장치의 구성을 나타내는 블록도이다.
도 8은 일 실시예에 따른 전자 장치의 구성을 나타내는 블록도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일 실시예에 따른 인체 추정 장치의 동작을 개략적으로 나타낸다. 도 1을 참조하면, 인체 추정 장치(100)에 2차원 영상(101)이 입력된다. 2차원 영상(101)은 단일 카메라로 촬영된 모노 영상(monocular image)일 수 있다. 또한, 2차원 영상(101)은 단일 프레임의 스틸 영상이거나, 혹은 복수의 프레임들의 비디오일 수 있다. 2차원 영상(101)은 2차원 인체를 피사체로서 포함할 수 있다. 2차원 영상(101)이 비디오인 경우 복수의 프레임들은 피사체로서 움직이는 인체를 포함할 수 있다.
인체 추정 장치(100)는 2차원 영상(101)에 나타난 2차원 인체에 대응하는 3차원 인체(102)를 추정할 수 있다. 인체 추정 장치(100)는 추정 결과로 3차원 인체(102)에 관한 정보(예: 모델 파라미터)를 출력하거나, 3차원 인체(102)를 포함하는 출력 영상을 출력할 수 있다. 예를 들어, 출력 영상은 2차원 영상(101)에 3차원 인체(102)를 겹쳐서 표현하는 합성 영상일 수 있다. 인체 추정 장치(100)는 하나의 2차원 영상(101)에 대해 하나의 3차원 인체(102)를 추정할 수 있다. 다시 말해, 하나의 3차원 인체(102)를 추정하기 위해 2차원 영상(101)이 복수로 필요하지 않으며, 2차원 영상(101)과 3차원 인체(102)가 일대일로 매핑될 수 있다. 2차원 영상(101)이 비디오인 경우 인체 추정 장치(100)는 각 프레임의 2차원 인체에 대응하는 3차원 인체(102)를 순차적으로 추정할 수 있다.
일 실시예에 따르면, 3차원 인체(102)는 AR 영상에 표현된 객체의 상호작용을 위해 이용될 수 있다. 예를 들어, AR 기기의 카메라를 통해 실제 사람이 촬영되어 2차원 영상(101)이 생성될 수 있고, 인체 추정 장치(100)는 2차원 영상(101)의 2차원 인체에 대응하는 3차원 인체(102)를 추정할 수 있다. AR 기기는 3차원 인체(102)를 통해 실제 사람의 정확한 정보를 알 수 있고, 실제 사람과 AR 가상 객체 간의 상호작용을 연출할 수 있다. 예를 들어, 사람이 옆모습을 보이며 서있는 경우에도 AR 기기는 가상 객체가 그 사람의 다리 사이를 통과하는 것을 연출할 수 있다. 3차원 인체(102)가 추정되지 않는다면 AR 기기는 사람의 다리 사이에 공간이 있다는 것을 인지하지 못하므로 이러한 연출이 불가능하다. 또한, 3차원 인체(102)를 통해 AR 기기와 사람 간의 거리, 사람의 위치, 사람의 각도, 사람의 형태 등이 정확히 추정될 수 있고, 이러한 추정 결과를 통해 다양한 상호작용 효과가 현실적으로 연출될 수 있다.
도 2는 일 실시예에 따른 인체 추정 방법을 나타내는 플로우 차트이다. 도 2를 참조하면, 단계(210)에서 인체 추정 장치는 카메라로부터 2차원 인체가 나타난 영상 프레임을 수신한다. 카메라는 모노 카메라(monocular camera)일 수 있고, 영상 프레임은 모노 영상(monocular image)일 수 있다. 입력 2차원 영상이 스틸 영상인 경우 영상 프레임은 해당 영상일 수 있고, 비디오인 경우 영상 프레임은 비디오의 복수의 프레임들 중에 어느 하나일 수 있다.
단계(220)에서 인체 추정 장치는 영상 프레임을 분석하여 2차원 인체의 2차원 외형 파라미터를 결정한다. 인체 추정 장치는 CNN(convolutional neural network)을 이용하여 영상 프레임을 분석할 수 있다. CNN은 입력 영상 프레임에 대응하는 2차원 외형 파라미터를 출력하도록 미리 트레이닝될 수 있다. 예를 들어, 2차원 외형 파라미터는 2차원 관절 파라미터(joint parameter) 및 2차원 실루엣 파라미터(silhouette parameter)를 포함할 수 있다. 2차원 관절 파라미터는 J로 나타낼 수 있고, 2차원 실루엣 파라미터는 S로 나타낼 수 있다. 관절 파라미터는 일정한 수의 키 포인트(key point)들을 특정할 수 있다. CNN은 2차원 인체를 포함하는 트레이닝 영상에서 2차원 인체의 키 포인트들 및 2차원 인체의 실루엣을 추출하여 2차원 관절 파라미터 및 2차원 실루엣 파라미터를 출력하도록 트레이닝될 수 있다.
단계(230)에서 인체 추정 장치는 2차원 외형 파라미터, 카메라의 카메라 파라미터, 및 2차원 인체의 3차원 공간 파라미터에 기초하여 2차원 인체의 3차원 외형 파라미터를 결정한다. 카메라 파라미터는 카메라 모델(camera model) 및/또는 내부 파라미터(intrinsic parameter)를 포함할 수 있다. 카메라 파라미터는 K로 나타낼 수 있다. 3차원 공간 파라미터는 카메라와 2차원 인체 간의 상대적인 관계를 나타내는 회전 파라미터(rotation parameter) 및 이동 파라미터(translation parameter)를 포함할 수 있다. 회전 파라미터는 R로 나타낼 수 있고, 이동 파라미터는 T로 나타낼 수 있다. 또한, 회전 파라미터 및 이동 파라미터는 포즈 파라미터(pose parameter)로 통칭될 수 있다.
3차원 외형 파라미터는 3차원 관절 파라미터(joint parameter) 및 3차원 모양 파라미터(shape parameter)를 포함할 수 있다. 3차원 관절 파라미터는 θ로 나타낼 수 있고, 3차원 모양 파라미터는 β로 나타낼 수 있다. 3차원 외형 파라미터는 3차원 인체 모델을 통해 인체의 3차원 형태로 복원될 수 있다. 예를 들어, 3차원 인체 모델은 SMPL(skinned multi-person linear model)일 수 있다.
복원된 3차원 형태가 실제 인체 형태에 얼마나 부합하는지는 3차원 인체 모델에 주어지는 정보가 무엇인지와 관련될 수 있다. 인체 추정 장치는 3차원 인체 모델에 2차원 외형 파라미터, 카메라 파라미터, 및 3차원 공간 파라미터를 제공하고, 이를 통해 3차원 외형 파라미터를 추정할 수 있다. 카메라 파라미터는 3차원 외형 파라미터의 추정에 입력 영상을 생성하는 카메라의 특성을 반영할 수 있다. 예를 들어, 인체가 렌즈의 어느 부분을 통해 촬영되는지에 따라 인체에 배럴 디스토션(barrel distortion), 핀쿠션 디스토션(pincushion distortion)과 같은 렌즈 왜곡이 생길 수 있는데, 카메라 파라미터를 통해 이러한 렌즈 왜곡이 고려될 수 있다. 3차원 공간 파라미터는 3차원 외형 파라미터의 추정에 카메라와 2차원 인체 간의 상대적인 공간적 관계를 반영할 수 있다. 예를 들어, 촬영 각도에 따라 인체의 형상이 왜곡되어 촬영될 수 있고, 촬영 거리에 따라 인체의 크기가 왜곡되어 촬영될 수 있는데, 3차원 공간 파라미터를 통해 이러한 형상 및/또는 크기가 고려될 수 있다.
인체 추정 장치는 아래 수학식 1 내지 3을 통해 3차원 외형 파라미터를 추정할 수 있다. 보다 구체적으로, 인체 추정 장치는 아래 수학식 1 및 2를 통해 임시 2차원 관절 파라미터
Figure pat00001
및 임시 2차원 실루엣 파라미터
Figure pat00002
를 결정할 수 있다.
Figure pat00003
Figure pat00004
수학식 1 및 2에서, K는 카메라 파라미터, xT, yT, zT는 이동 파라미터 T의 x-축 성분, y-축 성분, z-축 성분, Π는 투사 함수(projection function), R은 회전 파라미터, β는 후보 3차원 모양 파라미터, θ는 후보 3차원 관절 파라미터, X는 3차원 인체 모델(예: SMPL)을 나타낸다. 수학식 1 및 2를 참조하면, 인체 추정 장치는 후보 3차원 외형 파라미터(β, θ), K, 및 3차원 공간 파라미터(R, T)에 기초하여 임시 2차원 외형 파라미터(
Figure pat00005
,
Figure pat00006
)를 결정한다. 보다 구체적으로, 수학식 1에 따르면 θ와 R의 곱에 따른 회전된 3차원 관절이 Π를 통해 2차원 관절로 투사된다. 이후, 2차원 관절은 xT, yT, 및 zT에 따라 이동된 후, 여기에 K가 곱해져서
Figure pat00007
가 결정된다. 수학식 2에 따르면 θ 및 β에 따른 3차원 인체 모델의 결과와 R의 곱에 따른 회전된 3차원 외형이 Π를 통해 2차원 실루엣으로 투사된다. 이후, 2차원 실루엣은 xT, yT, 및 zT에 따라 이동된 후, 여기에 K가 곱해져서
Figure pat00008
가 결정된다.
인체 추정 장치는 아래 수학식 3을 통해 최종 3차원 관절 파라미터
Figure pat00009
및 최종 3차원 모양 파라미터
Figure pat00010
를 결정할 수 있다.
Figure pat00011
수학식 3에서 J는 2차원 관절 파라미터, i는 관절의 성분, S는 2차원 실루엣 파라미터를 나타낸다. 여기서 J 및 S는 단계(220)에서 추정된 영상 프레임 내 2차원 인체의 2차원 외형 파라미터를 의미한다. 수학식 3을 참조하면, 인체 추정 장치는 임시 2차원 외형 파라미터(
Figure pat00012
,
Figure pat00013
)와 2차원 외형 파라미터(J, S) 간의 차이에 기초하여 후보 3차원 외형 파라미터(θ, β)를 최종 3차원 외형 파라미터(
Figure pat00014
,
Figure pat00015
)로 결정할 수 있다. 보다 구체적으로, 인체 추정 장치는 임시 2차원 외형 파라미터(
Figure pat00016
,
Figure pat00017
)와 2차원 외형 파라미터(J, S) 간의 차이를 최소화하는 후보 3차원 외형 파라미터(θ, β)를 최종 3차원 외형 파라미터(
Figure pat00018
,
Figure pat00019
)로 결정할 수 있다.
단계(240)에서 인체 추정 장치는 3차원 공간 파라미터, 및 3차원 외형 파라미터에 기초하여 2차원 인체에 대응하는 3차원 인체를 추정한다. 여기서, 3차원 외형 파라미터는 단계(230)를 통해 결정된 최종 3차원 외형 파라미터(
Figure pat00020
,
Figure pat00021
)일 수 있다. 인체 추정 장치는 3차원 외형에 3차원 공간 파라미터를 적용할 수 있다. 예를 들어, 인체 추정 장치는 3차원 외형 파라미터에 3차원 공간 파라미터를 적용하여 3차원 인체를 표현하는 파라미터를 출력하거나, 혹은 3차원 외형 파라미터를 3차원 인체 모델(예: SMPL)에 적용하여 2차원 인체에 대응하는 3차원 인체의 외형을 결정한 뒤, 3차원 공간 파라미터를 통해 해당 3차원 외형을 회전 및 이동하여 3차원 인체를 출력 영상(예: AR 영상)에 표시할 수 있다.
도 3은 일 실시예에 따른 각 파라미터를 통해 인체 추정을 수행하는 동작들을 나타낸다. 도 3을 참조하면, 인체 추정 장치는 전자 장치(300)의 카메라로부터 영상 프레임(301)을 획득한다. 예를 들어, 전자 장치(300)는 AR 기기일 수 있다. 단계(310)에서 인체 추정 장치는 영상 프레임(301)에 관한 영상 분석을 수행하여 영상 프레임(301) 내 2차원 인체(302)에 관한 2차원 실루엣 파라미터(S) 및 2차원 관절 파라미터(J)를 결정한다. 인체 추정 장치는 CNN을 이용하여 2차원 실루엣 파라미터(S) 및 2차원 관절 파라미터(J)를 결정할 수 있다.
인체 추정 장치는 전자 장치(300)로부터 수신되는 파라미터 정보에 기초하여 카메라 파라미터(K) 및/또는 3차원 공간 파라미터(R, T)를 결정할 수 있다. 예를 들어, 인체 추정 장치는 전자 장치(300)로부터 카메라 파라미터(K)를 수신하거나, 혹은 카메라 파라미터(K)를 미리 알고 있을 수 있다. 카메라의 카메라 파라미터(K)는 생산과 동시에 정해지므로, 인체 추정 장치는 해당 정보를 전자 장치(300)로부터 수신하거나, 혹은 미리 알고 있을 수 있다. 또한, 인체 추정 장치는 전자 장치(300)의 센서에 의해 측정된 센서 데이터를 통해 3차원 공간 파라미터(R, T)를 결정할 수 있다.
예를 들어, 전자 장치(300)가 제1 AR 기기이고, 2차원 인체(302)에 대응하는 사람이 제2 AR 기기를 착용하고 있는 경우, 인체 추정 장치는 제1 AR 기기의 제1 SLAM(simultaneous localization and mapping) 정보 제2 AR 기기의 제2 SLAM 정보에 기초하여 3차원 공간 파라미터(R, T)를 결정할 수 있다. 이와 달리, 전자 장치(300)가 제1 AR 기기이고, 2차원 인체(302)에 대응하는 사람이 AR 기기를 착용하지 않은 경우, 인체 추정 장치는 2차원 인체(302)에 대응하는 객체를 지지하는 평면과 객체 간의 접점에 기초하여 객체의 위치 정보를 결정하고, 제1 AR 기기의 관성 정보 및 객체의 위치 정보에 기초하여 3차원 공간 파라미터(R, T)를 결정할 수 있다. 3차원 공간 파라미터(R, T)의 결정 동작은 추후 도 4 및 도 5를 통해 추가로 설명한다.
단계(320)에서 인체 추정 장치는 최적화 처리를 수행할 수 있고, 이에 따라 3차원 모양 파라미터(β) 및 3차원 관절 파라미터(θ)를 결정할 수 있다. 예를 들어, 인체 추정 장치는 2차원 실루엣 파라미터(S), 2차원 관절 파라미터(J), 카메라 파라미터(K), 3차원 공간 파라미터(R, T)에 기초하여 수학식 1 내지 3에 따른 최적화 처리를 수행할 수 있다. 그런 다음, 단계(330)에서 인체 추정 장치는 인체 추정을 수행할 수 있다.
인체 추정 장치는 3차원 공간 파라미터(R, T) 및 3차원 외형 파라미터(β, θ)에 기초하여 2차원 인체(302)에 대응하는 3차원 인체(304)를 추정할 수 있다. 예를 들어, 인체 추정 장치는 3차원 외형 파라미터(β)에 3차원 공간 파라미터(R, T)를 적용하여 3차원 인체(304)를 표현하는 파라미터를 출력하거나, 혹은 3차원 외형 파라미터(β)를 3차원 인체 모델(예: SMPL)에 대입하여 2차원 인체(302)에 대응하는 3차원 인체(304)의 외형을 결정한 뒤, 3차원 공간 파라미터(R, T)를 통해 해당 3차원 외형을 회전 및 이동하여 3차원 인체(304)를 출력 영상(303)에 표시할 수 있다.
도 4는 일 실시예에 따른 3차원 공간 파라미터를 추정하는 동작들을 나타낸다. 도 4를 참조하면, 제1 AR 기기(410)는 제1 AR 기기(410)의 카메라를 이용하여 제2 AR 기기(420)를 착용한 제2 사용자(421)를 촬영한다. 도 4에 도시되지 않았으나, 제1 AR 기기(410)의 사용자는 제1 사용자로 지칭될 수 있다.
제1 AR 기기(410)는 제1 AR 기기(410)의 제1 SLAM 정보 및 제2 AR 기기(420)의 제2 SLAM 정보에 기초하여 3차원 공간 파라미터를 추정할 수 있다. 3차원 공간 파라미터는 회전 파라미터 및 이동 파라미터를 포함할 수 있다. 3차원 공간 파라미터는 제1 AR 기기(410)와 제2 AR 기기(420) 간의 상대적인 관계를 나타낼 수 있고, 또한 제1 AR 기기(410)의 카메라 및/또는 제1 AR 기기(410)의 제1 사용자와 제2 사용자(421) 간의 상대적인 관계를 나타내는 것으로 간주될 수 있다.
제1 AR 기기(410) 및 제2 AR 기기는 각자 SLAM을 통해 자신의 회전 정보 및 이동 정보를 알 수 있기 때문에, 3차원 공간(400)에 대한 지도 공유를 통해 서로의 위치에 따른 상대적인 위치를 알 수 있다. 예를 들어, 제1 AR 기기(410) 및 제2 AR 기기는 서로의 지도 정보를 통합하여 공동 지도 정보를 도출할 수 있고, 이동 정보의 차이를 통해 상대적 거리를 결정할 수 있고, 회전 정보의 차이를 통해 상대적 회전을 결정할 수 있다. 제1 AR 기기(410) 및 제2 AR 기기는 SLAM 및/또는 지도 정보의 공유를 위해 서로 연결될 수 있다. 도 4에는 AR 기기를 설명하고 있으나, 3차원 공간 파라미터 및/또는 3차원 인체를 추정하기 위해 AR 기기 이외의 다른 전자 장치가 사용될 수도 있다.
도 5는 다른 일 실시예에 따른 3차원 공간 파라미터를 추정하는 동작들을 나타낸다. 도 5를 참조하면, 제1 AR 기기(510)는 제1 AR 기기(510)의 카메라를 이용하여 제2 사용자(521)를 촬영한다. 또한, 도 5에 도시되지 않았으나, 제1 AR 기기(510)의 사용자는 제1 사용자로 지칭될 수 있다. 도 4와 달리 제2 사용자(521)는 SLAM과 같은 정보를 측정하기 위한 기기(예: AR 기기)를 착용하지 않는 것을 가정한다. 이 경우, 제1 AR 기기(510)는 평면 검출을 이용하여 3차원 공간 파라미터를 추정할 수 있다.
보다 구체적으로, 제1 AR 기기(510)는 평면 검출을 통해 제2 사용자(521)를 지지하는 평면(500)을 검출하고, 평면(500)과 제2 사용자(521) 간의 접점(501)을 제2 사용자(521)의 위치 정보로 결정할 수 있다. 예를 들어, 제1 AR 기기(510)는 평면(500)과 제2 사용자(521)의 발이 교차하는 지점을 접점(501)으로 결정할 수 있다. 그런 다음, 제1 AR 기기(510)는 제1 AR 기기(510)의 관성 정보 및 제2 사용자(521)의 위치 정보에 기초하여 3차원 공간 파라미터를 결정할 수 있다.
3차원 공간 파라미터는 회전 파라미터 및 이동 파라미터를 포함할 수 있다. 제1 AR 기기(510)는 IMU(inertial measurement unit) 센서를 이용하여 제1 AR 기기(510)의 관성 정보를 결정할 수 있고, 관성 정보에 기초하여 회전 파라미터를 결정할 수 있다. 또한, 제1 AR 기기(510)는 제1 AR 기기(510)의 위치와 제2 사용자(521)의 위치 간의 차이에 기초하여 이동 파라미터(예: XT, YT, ZT)를 결정할 수 있다.
3차원 공간 파라미터는 제1 AR 기기(510)와 제2 사용자(521) 간의 상대적인 관계를 나타낼 수 있고, 또한 제1 AR 기기(510)의 카메라 및/또는 제1 AR 기기(510)의 제1 사용자와 제2 사용자(521) 간의 상대적인 관계를 나타내는 것으로 간주될 수 있다. 도 5에는 AR 기기를 설명하고 있으나, 3차원 공간 파라미터 및/또는 3차원 인체를 추정하기 위해 AR 기기 이외의 다른 전자 장치가 사용될 수도 있다.
도 6은 일 실시예에 따른 3차원 모양 파라미터를 업데이트하는 동작들을 나타낸다. 사람의 자세는 움직임에 따라 변할 수 있지만, 사람의 외형(예: 크기, 부피 등)은 단기간에 변하지 않는다. 이러한 특성을 고려하여 인체 추정 장치는 각 프레임을 통해 추정된 3차원 모양 정보로 3차원 모양 파라미터를 지속적으로 업데이트할 수 있다. 인체 추정 장치는 아래 수학식 4를 통해 3차원 모양 파라미터를 도출할 수 있다.
Figure pat00022
수학식 4에서
Figure pat00023
는 이전 타임 스텝(t-1)까지의 이전 영상 프레임들의 3차원 모양 파라미터들의 이전 평균 값,
Figure pat00024
는 현재 타임 스텝(t)의 현재 영상 프레임의 3차원 모양 파라미터를 나타낸다. 현재 프레임의 최종적인 3차원 모양 파라미터는
Figure pat00025
이므로,
Figure pat00026
는 임시 3차원 모양 파라미터로 지칭될 수 있다.
Figure pat00027
Figure pat00028
의 가중 평균을 통해 현재 평균 값
Figure pat00029
가 도출된다. 이전 평균 값
Figure pat00030
에 더 많은 프레임들의 정보가 반영되어 있으므로, 이전 평균 값
Figure pat00031
에 해당 프레임들의 수에 따른 가중치가 부여될 수 있다. 인체 추정 장치는 현재 평균 값
Figure pat00032
을 3차원 모양 파라미터
Figure pat00033
로 결정할 수 있다.
도 6을 참조하면, 이전 타임 스텝(t-1)의 영상 프레임에 관한 이전 인체 추정 동작(610) 및 현재 타임 스텝(t)의 영상 프레임에 관한 현재 인체 추정 동작(620)이 도시된다. 이전 인체 추정 동작(610) 및 현재 인체 추정 동작(620)에는 도 3의 인체 추정 동작에 관한 설명이 적용될 수 있고, 업데이트(614, 624) 동작들을 위해 수학식 4가 이용될 수 있다.
이전 인체 추정 동작(610)은 이전 타임 스텝(t-1)의 파라미터들(K, Rt-1, Tt-1)의 도출 동작, 최적화 처리(611) 동작, 인체 추정(612) 동작을 포함할 수 있고, 이에 따라 3차원 인체(613)가 추정될 수 있다. 최적화 처리(611)를 통해 이전 프레임의 3차원 관절 파라미터
Figure pat00034
및 임시 3차원 모양 파라미터
Figure pat00035
가 도출되면,
Figure pat00036
에 기초한 업데이트(614) 동작을 통해 이전 평균 값
Figure pat00037
이 결정될 수 있고,
Figure pat00038
는 이전 프레임의 3차원 모양 파라미터
Figure pat00039
로 결정될 수 있다.
현재 인체 추정 동작(620)은 현재 타임 스텝(t)의 파라미터들(K, Rt, Tt)의 도출 동작, 최적화 처리(621) 동작, 인체 추정(622) 동작을 포함할 수 있고, 이에 따라 3차원 인체(623)가 추정될 수 있다. 최적화 처리(621)를 통해 현재 프레임의 3차원 관절 파라미터
Figure pat00040
및 임시 3차원 모양 파라미터
Figure pat00041
가 도출되면,
Figure pat00042
Figure pat00043
에 기초한 업데이트(624) 동작을 통해 현재 평균 값
Figure pat00044
이 결정될 수 있고,
Figure pat00045
는 현재 프레임의 3차원 모양 파라미터
Figure pat00046
로 결정될 수 있다.
이와 같은 업데이트 과정은 대상 객체에 해당하는 인체를 여러 뷰(view)로 관찰하여 추정되는 3차원 모양 파라미터의 분포를 추정할 수 있다. 업데이트의 횟수가 증가할수록, 다양한 뷰의 추정이 수행될 수 있고, 그 평균은 실제 값(ground truth)에 가까워질 수 있다. 객체의 고유 특성인 모양 파라미터의 평균 값은 지속적인 관찰에 따라 특정 값으로 수렴할 수 있다. 따라서 업데이트 과정은 이전 뷰로부터 추정된 모양 파라미터의 평균 값을 활용하여 정확도를 향상시키고, 이 과정은 결과적으로 신체 관절 위치의 정확도도 향상시킬 수 있다. 모양 파라미터의 향상은 신체의 각 부분(예: 팔, 다리, 목, 허리 등)의 길이의 정확도를 향상시키고, 3차원 인체 모델(예: SMPL)을 통해 3차원 관절 추정의 정확도를 향상시킬 수 있다.
도 7은 일 실시예에 따른 인체 추정 장치의 구성을 나타내는 블록도이다. 도 7을 참조하면, 인체 추정 장치(700)는 프로세서(710) 및 메모리(720)를 포함한다. 메모리(720)는 프로세서(710)에 연결되고, 프로세서(710)에 의해 실행가능한 명령어들, 프로세서(710)가 연산할 데이터 또는 프로세서(710)에 의해 처리된 데이터를 저장할 수 있다. 메모리(720)는 비일시적인 컴퓨터 판독가능 매체, 예컨대 고속 랜덤 액세스 메모리 및/또는 비휘발성 컴퓨터 판독가능 저장 매체(예컨대, 하나 이상의 디스크 저장 장치, 플래쉬 메모리 장치, 또는 기타 비휘발성 솔리드 스테이트 메모리 장치)를 포함할 수 있다.
프로세서(710)는 도 1 내지 도 6 및 도 8의 동작을 수행하기 위한 명령어들을 실행할 수 있다. 예를 들어, 프로세서(710)는 카메라로부터 2차원 인체가 나타난 영상 프레임을 수신하고, 영상 프레임을 분석하여 2차원 인체의 2차원 외형 파라미터를 결정하고, 2차원 외형 파라미터, 카메라의 카메라 파라미터, 및 2차원 인체의 3차원 공간 파라미터에 기초하여 2차원 인체의 3차원 외형 파라미터를 결정하고, 3차원 공간 파라미터, 및 3차원 외형 파라미터에 기초하여 2차원 인체에 대응하는 3차원 인체를 추정한다. 그 밖에, 인체 추정 장치(700)에는 도 1 내지 도 6 및 도 8의 설명이 적용될 수 있다.
도 8은 일 실시예에 따른 전자 장치의 구성을 나타내는 블록도이다. 도 8를 참조하면, 전자 장치(800)는 프로세서(810), 메모리(820), 카메라(830), 저장 장치(840), 입력 장치(850), 출력 장치(860), 네트워크 인터페이스(870), 및 센서(880)를 포함할 수 있으며, 이들은 통신 버스(890)를 통해 서로 통신할 수 있다. 예를 들어, 전자 장치(800)는 이동 전화, 스마트 폰, PDA, 넷북, 태블릿 컴퓨터, 랩톱 컴퓨터 등과 같은 모바일 장치, 스마트 워치, 스마트 밴드, 스마트 안경 등과 같은 웨어러블 디바이스, 데스크탑, 서버 등과 같은 컴퓨팅 장치, 텔레비전, 스마트 텔레비전, 냉장고 등과 같은 가전 제품, 도어 락 등과 같은 보안 장치, 스마트 차량 등과 같은 차량, AR 기기, VR 기기, 드론(drone)의 일부로 구현될 수 있다. 전자 장치(800)는 도 1의 인체 추정 장치(100) 및/또는 도 7의 인체 추정 장치(700)를 구조적 및/또는 기능적으로 포함할 수 있다.
프로세서(810)는 전자 장치(800) 내에서 실행하기 위한 기능 및 명령어들을 실행한다. 예를 들어, 프로세서(810)는 메모리(820) 또는 저장 장치(840)에 저장된 명령어들을 처리할 수 있다. 프로세서(810)는 도 1 내지 도 7을 통하여 설명된 동작을 수행할 수 있다. 메모리(820)는 컴퓨터 판독가능한 저장 매체 또는 컴퓨터 판독가능한 저장 장치를 포함할 수 있다. 메모리(820)는 프로세서(810)에 의해 실행하기 위한 명령어들을 저장할 수 있고, 전자 장치(800)에 의해 소프트웨어 및/또는 애플리케이션이 실행되는 동안 관련 정보를 저장할 수 있다.
카메라(830)는 사진 및/또는 비디오를 촬영할 수 있다. 예를 들어, 카메라(830)는 상대방의 2차원 인체를 포함하는 2차원 영상을 촬영할 수 있다. 카메라(830)는 모노 영상(monocular image)을 촬영하는 모노 카메라(monocular camera)일 수 있다. 저장 장치(840)는 컴퓨터 판독가능한 저장 매체 또는 컴퓨터 판독가능한 저장 장치를 포함한다. 저장 장치(840)는 메모리(820)보다 더 많은 양의 정보를 저장하고, 정보를 장기간 저장할 수 있다. 예를 들어, 저장 장치(840)는 자기 하드 디스크, 광 디스크, 플래쉬 메모리, 플로피 디스크 또는 이 기술 분야에서 알려진 다른 형태의 비휘발성 메모리를 포함할 수 있다.
입력 장치(850)는 키보드 및 마우스를 통한 전통적인 입력 방식, 및 터치 입력, 음성 입력, 및 이미지 입력과 같은 새로운 입력 방식을 통해 사용자로부터 입력을 수신할 수 있다. 예를 들어, 입력 장치(850)는 키보드, 마우스, 터치 스크린, 마이크로폰, 또는 사용자로부터 입력을 검출하고, 검출된 입력을 전자 장치(800)에 전달할 수 있는 임의의 다른 장치를 포함할 수 있다. 출력 장치(860)는 시각적, 청각적 또는 촉각적인 채널을 통해 사용자에게 전자 장치(800)의 출력을 제공할 수 있다. 출력 장치(860)는 예를 들어, 디스플레이, 터치 스크린, 스피커, 진동 발생 장치 또는 사용자에게 출력을 제공할 수 있는 임의의 다른 장치를 포함할 수 있다. 네트워크 인터페이스(870)는 유선 또는 무선 네트워크를 통해 외부 장치와 통신할 수 있다. 센서(880)는 IMU(inertial measurement unit) 센서와 같은 다양한 센서를 포함할 수 있고, 이들을 통해 SLAM 정보, 관성 정보 등을 생성할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 카메라로부터 2차원 인체가 나타난 영상 프레임을 수신하는 단계;
    상기 영상 프레임을 분석하여 상기 2차원 인체의 2차원 외형 파라미터를 결정하는 단계;
    상기 2차원 외형 파라미터, 상기 카메라의 카메라 파라미터, 및 상기 2차원 인체의 3차원 공간 파라미터에 기초하여 상기 2차원 인체의 3차원 외형 파라미터를 결정하는 단계; 및
    상기 3차원 공간 파라미터, 및 상기 3차원 외형 파라미터에 기초하여 상기 2차원 인체에 대응하는 3차원 인체를 추정하는 단계
    를 포함하는 인체 추정 방법
  2. 제1항에 있어서,
    상기 2차원 외형 파라미터는
    2차원 관절 파라미터 및 2차원 실루엣 파라미터를 포함하는,
    인체 추정 방법.
  3. 제1항에 있어서,
    상기 3차원 공간 파라미터는
    상기 카메라와 상기 2차원 인체 간의 상대적인 관계를 나타내는 회전 파라미터 및 이동 파라미터 중 적어도 하나를 포함하는,
    인체 추정 방법.
  4. 제1항에 있어서,
    상기 3차원 공간 파라미터는
    상기 카메라에 대응하는 제1 AR 기기의 제1 SLAM 정보 및 상기 2차원 인체에 대응하는 제2 AR 기기의 제2 SLAM 정보에 기초하여 결정되는,
    인체 추정 방법.
  5. 제1항에 있어서,
    상기 3차원 공간 파라미터는
    상기 카메라에 대응하는 AR 기기의 관성 정보 및 상기 2차원 인체에 대응하는 사람의 위치 정보에 기초하여 결정되고,
    상기 사람의 상기 위치 정보는
    상기 사람을 지지하는 평면과 상기 사람 간의 접점에 기초하여 결정되는,
    인체 추정 방법.
  6. 제1항에 있어서,
    상기 3차원 외형 파라미터를 추정하는 단계는
    후보 3차원 외형 파라미터, 상기 카메라 파라미터, 및 상기 3차원 공간 파라미터에 기초하여 임시 2차원 외형 파라미터를 결정하는 단계; 및
    상기 임시 2차원 외형 파라미터와 상기 2차원 외형 파라미터 간의 차이에 기초하여 상기 후보 3차원 외형 파라미터를 상기 3차원 외형 파라미터로 결정하는 단계
    를 포함하는, 인체 추정 방법.
  7. 제6항에 있어서,
    상기 후보 3차원 외형 파라미터는
    후보 3차원 관절 파라미터 및 후보 3차원 모양 파라미터를 포함하고,
    상기 임시 2차원 외형 파라미터를 결정하는 단계는
    상기 카메라 파라미터, 상기 3차원 공간 파라미터, 및 투사 함수(projection function)에 기초하여 상기 후보 3차원 관절 파라미터에 따른 3차원 관절로부터 2차원 관절을 결정하는 단계;
    상기 카메라 파라미터, 상기 3차원 공간 파라미터, 및 상기 투사 함수에 기초하여 상기 후보 3차원 관절 파라미터 및 상기 후보 3차원 모양 파라미터에 따른 3차원 외형으로부터 2차원 실루엣을 결정하는 단계; 및
    상기 2차원 관절 및 상기 2차원 실루엣에 기초하여 상기 임시 2차원 외형 파라미터를 결정하는 단계
    를 포함하는, 인체 추정 방법.
  8. 제1항에 있어서,
    상기 3차원 외형 파라미터는
    3차원 관절 파라미터 및 3차원 모양 파라미터를 포함하는,
    인체 추정 방법.
  9. 제8항에 있어서,
    상기 3차원 외형 파라미터를 결정하는 단계는
    이전 영상 프레임들의 3차원 모양 파라미터들의 이전 평균 값 및 상기 영상 프레임의 3차원 모양 파라미터에 기초하여 현재 평균 값을 결정하는 단계; 및
    상기 현재 평균 값을 상기 3차원 모양 파라미터로 결정하는 단계
    를 포함하는, 인체 추정 방법.
  10. 제1항에 있어서,
    상기 2차원 외형 파라미터를 결정하는 단계는
    미리 트레이닝된 CNN을 이용하여 상기 영상 프레임을 분석하는 단계를 포함하는,
    인체 추정 방법.
  11. 제1항에 있어서,
    상기 3차원 인체를 추정하는 단계는
    상기 3차원 외형 파라미터를 SMPL(skinned multi-person linear model)에 적용하는 단계를 포함하는,
    인체 추정 방법.
  12. 하드웨어와 결합되어 제1항 내지 제11항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
  13. 프로세서; 및
    상기 프로세서에서 실행가능한 명령어들을 포함하는 메모리
    를 포함하고,
    상기 명령어들이 상기 프로세서에서 실행되면, 상기 프로세서는
    카메라로부터 2차원 인체가 나타난 영상 프레임을 수신하고,
    상기 영상 프레임을 분석하여 상기 2차원 인체의 2차원 외형 파라미터를 결정하고,
    상기 2차원 외형 파라미터, 상기 카메라의 카메라 파라미터, 및 상기 2차원 인체의 3차원 공간 파라미터에 기초하여 상기 2차원 인체의 3차원 외형 파라미터를 결정하고,
    상기 3차원 공간 파라미터, 및 상기 3차원 외형 파라미터에 기초하여 상기 2차원 인체에 대응하는 3차원 인체를 추정하는, 프로세서
    를 포함하는 인체 추정 장치.
  14. 제13항에 있어서,
    상기 2차원 외형 파라미터는
    2차원 관절 파라미터 및 2차원 실루엣 파라미터를 포함하고,
    상기 3차원 공간 파라미터는
    상기 카메라와 상기 2차원 인체 간의 상대적인 관계를 나타내는 회전 파라미터 및 이동 파라미터 중 적어도 하나를 포함하고,
    상기 3차원 외형 파라미터는
    3차원 관절 파라미터 및 3차원 모양 파라미터를 포함하는,
    인체 추정 장치.
  15. 제13항에 있어서,
    상기 프로세서는
    후보 3차원 외형 파라미터, 상기 카메라 파라미터, 및 상기 3차원 공간 파라미터에 기초하여 임시 2차원 외형 파라미터를 결정하고,
    상기 임시 2차원 외형 파라미터와 상기 2차원 외형 파라미터 간의 차이에 기초하여 상기 후보 3차원 외형 파라미터를 상기 3차원 외형 파라미터로 결정하는,
    인체 추정 장치.
  16. 제13항에 있어서,
    상기 3차원 외형 파라미터는
    3차원 관절 파라미터 및 3차원 모양 파라미터를 포함하고,
    상기 프로세서는
    이전 영상 프레임들의 3차원 모양 파라미터들의 이전 평균 값 및 상기 영상 프레임의 3차원 모양 파라미터에 기초하여 현재 평균 값을 결정하고,
    상기 현재 평균 값을 상기 3차원 모양 파라미터로 결정하는,
    인체 추정 장치.
  17. 2차원 인체가 나타난 영상 프레임을 생성하는 카메라; 및
    상기 영상 프레임을 분석하여 상기 2차원 인체의 2차원 외형 파라미터를 결정하고,
    상기 2차원 외형 파라미터, 상기 카메라의 카메라 파라미터, 및 상기 2차원 인체의 3차원 공간 파라미터에 기초하여 상기 2차원 인체의 3차원 외형 파라미터를 결정하고,
    상기 3차원 공간 파라미터, 및 상기 3차원 외형 파라미터에 기초하여 상기 2차원 인체에 대응하는 3차원 인체를 추정하는, 프로세서
    를 포함하는 전자 장치.
  18. 제17항에 있어서,
    상기 2차원 외형 파라미터는
    2차원 관절 파라미터 및 2차원 실루엣 파라미터를 포함하고,
    상기 3차원 공간 파라미터는
    상기 카메라와 상기 2차원 인체 간의 상대적인 관계를 나타내는 회전 파라미터 및 이동 파라미터 중 적어도 하나를 포함하고,
    상기 3차원 외형 파라미터는
    3차원 관절 파라미터 및 3차원 모양 파라미터를 포함하는,
    전자 장치.
  19. 제17항에 있어서,
    상기 프로세서는
    후보 3차원 외형 파라미터, 상기 카메라 파라미터, 및 상기 3차원 공간 파라미터에 기초하여 임시 2차원 외형 파라미터를 결정하고,
    상기 임시 2차원 외형 파라미터와 상기 2차원 외형 파라미터 간의 차이에 기초하여 상기 후보 3차원 외형 파라미터를 상기 3차원 외형 파라미터로 결정하는,
    전자 장치.
  20. 제17항에 있어서,
    상기 3차원 외형 파라미터는
    3차원 관절 파라미터 및 3차원 모양 파라미터를 포함하고,
    상기 프로세서는
    이전 영상 프레임들의 3차원 모양 파라미터들의 이전 평균 값 및 상기 영상 프레임의 3차원 모양 파라미터에 기초하여 현재 평균 값을 결정하고,
    상기 현재 평균 값을 상기 3차원 모양 파라미터로 결정하는,
    전자 장치.
KR1020200173133A 2020-12-11 2020-12-11 인체 추정 방법 및 장치 KR20220083166A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200173133A KR20220083166A (ko) 2020-12-11 2020-12-11 인체 추정 방법 및 장치
US17/222,322 US11605206B2 (en) 2020-12-11 2021-04-05 Method and apparatus with human body estimation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200173133A KR20220083166A (ko) 2020-12-11 2020-12-11 인체 추정 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20220083166A true KR20220083166A (ko) 2022-06-20

Family

ID=81941842

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200173133A KR20220083166A (ko) 2020-12-11 2020-12-11 인체 추정 방법 및 장치

Country Status (2)

Country Link
US (1) US11605206B2 (ko)
KR (1) KR20220083166A (ko)

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2327061A4 (en) * 2008-08-15 2016-11-16 Univ Brown METHOD AND DEVICE FOR ESTIMATING BODY SHAPES
US8638985B2 (en) * 2009-05-01 2014-01-28 Microsoft Corporation Human body pose estimation
GB0915589D0 (en) 2009-09-07 2009-10-07 Sony Comp Entertainment Europe Image processing method, apparatus and system
US8905551B1 (en) 2010-12-23 2014-12-09 Rawles Llc Unpowered augmented reality projection accessory display device
AU2011205223C1 (en) 2011-08-09 2013-03-28 Microsoft Technology Licensing, Llc Physical interaction with virtual objects for DRM
US8855366B2 (en) 2011-11-29 2014-10-07 Qualcomm Incorporated Tracking three-dimensional objects
US9367928B2 (en) 2012-10-05 2016-06-14 Universidade De Coimbra Method for aligning and tracking point regions in images with radial distortion that outputs motion model parameters, distortion calibration, and variation in zoom
US10533850B2 (en) 2013-07-12 2020-01-14 Magic Leap, Inc. Method and system for inserting recognized object data into a virtual world
KR101553273B1 (ko) 2013-12-20 2015-09-15 배재대학교 산학협력단 증강현실 서비스를 제공하는 방법 및 장치
US10395411B2 (en) 2015-06-24 2019-08-27 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Skinned multi-person linear model
US10388075B2 (en) 2016-11-08 2019-08-20 Rockwell Automation Technologies, Inc. Virtual reality and augmented reality for industrial automation
US20190325654A1 (en) 2018-04-24 2019-10-24 Bae Systems Information And Electronic Systems Integration Inc. Augmented reality common operating picture
US11475630B2 (en) * 2018-10-17 2022-10-18 Midea Group Co., Ltd. System and method for generating acupuncture points on reconstructed 3D human body model for physical therapy
KR20190106900A (ko) 2019-03-19 2019-09-18 엘지전자 주식회사 전자 디바이스
US11069131B2 (en) * 2019-09-26 2021-07-20 Amazon Technologies, Inc. Predictive personalized three-dimensional body models

Also Published As

Publication number Publication date
US20220189123A1 (en) 2022-06-16
US11605206B2 (en) 2023-03-14

Similar Documents

Publication Publication Date Title
JP6258953B2 (ja) 単眼視覚slamのための高速初期化
US10460512B2 (en) 3D skeletonization using truncated epipolar lines
US11481982B2 (en) In situ creation of planar natural feature targets
US8933931B2 (en) Distributed asynchronous localization and mapping for augmented reality
CN108369653A (zh) 使用眼睛特征的眼睛姿态识别
CN110866977B (zh) 增强现实处理方法及装置、系统、存储介质和电子设备
WO2023071964A1 (zh) 数据处理方法, 装置, 电子设备及计算机可读存储介质
US20160210761A1 (en) 3d reconstruction
US11403781B2 (en) Methods and systems for intra-capture camera calibration
Chen et al. A real-time markerless augmented reality framework based on SLAM technique
Kowalski et al. Holoface: Augmenting human-to-human interactions on hololens
US20200211275A1 (en) Information processing device, information processing method, and recording medium
TW202314593A (zh) 定位方法及設備、電腦可讀儲存媒體
CN113870213A (zh) 图像显示方法、装置、存储介质以及电子设备
WO2019150431A1 (ja) 情報処理装置
KR20220122287A (ko) 증강 현실 제공 장치의 포즈 결정 방법 및 장치
KR20220083166A (ko) 인체 추정 방법 및 장치
US20240020901A1 (en) Method and application for animating computer generated images
WO2021065607A1 (ja) 情報処理装置および方法、並びにプログラム
Liu et al. Human performance capture using multiple handheld kinects
CN112711324B (zh) 基于tof相机的手势交互方法及其系统
Li et al. Virtual reality realization technology and its application based on augmented reality
CN117315100A (zh) 用于捕捉目标对象的运动的方法、装置及电子设备
CN117315155A (zh) 用于虚拟试衣场景转换的提示方法及系统、设备及介质
CN117689826A (zh) 三维模型构建和渲染方法、装置、设备以及介质

Legal Events

Date Code Title Description
A201 Request for examination