KR20230110962A - 디지털 휴먼 제스처 증강 방법 및 시스템 - Google Patents
디지털 휴먼 제스처 증강 방법 및 시스템 Download PDFInfo
- Publication number
- KR20230110962A KR20230110962A KR1020220006578A KR20220006578A KR20230110962A KR 20230110962 A KR20230110962 A KR 20230110962A KR 1020220006578 A KR1020220006578 A KR 1020220006578A KR 20220006578 A KR20220006578 A KR 20220006578A KR 20230110962 A KR20230110962 A KR 20230110962A
- Authority
- KR
- South Korea
- Prior art keywords
- digital human
- coordinates
- image
- joint
- gesture
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000003416 augmentation Effects 0.000 claims description 37
- 230000003190 augmentative effect Effects 0.000 claims description 32
- 230000009471 action Effects 0.000 claims description 13
- 241000282412 Homo Species 0.000 claims description 6
- 238000010191 image analysis Methods 0.000 claims description 5
- 210000000746 body region Anatomy 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 10
- 230000001965 increasing effect Effects 0.000 abstract description 6
- 230000014509 gene expression Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 230000001815 facial effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 210000001331 nose Anatomy 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- 206010013142 Disinhibition Diseases 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000001943 fluorescence-activated cell sorting Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000003739 neck Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000000323 shoulder joint Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Architecture (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
Abstract
디지털 휴먼의 제스처 증강 방법 및 시스템이 제시된다. 증강 방법:은 캐릭터 생성부를 통해 디지털 휴먼을 생성하는 단계; 카메라에 의해 실제 인물의 실사 영상을 촬영하는 단계; 영상 처리부에 의해 상기 실사 영상으로부터 실제 인물의 관절(keypoint) 좌표를 추출하는 단계; 상기 다시 신체 관절 좌표의 값을 증강 가중치를 결정하는 단계; 그리고 디지털 휴먼 제어부에 의해 상기 증강된 관절 좌표에 의해 상기 디지털 휴먼의 관절 좌표를 변화시켜 상기 실제 인물의 관절 움직임에 비해 증강된 디지털 휴먼을 생성하는 단계;를 포함할 수 있다.
Description
본 개시는 가상 공간에 존재하는 디지털 휴먼(Digital Human)을 생성하는 방법에 관한 것으로, 상세하게는 현실의 실제 인물의 움직임의 강도를 증강하여 반영하는 디지털 휴먼을 생성하는 방법 및 시스템에 관한 것이다.
디지털 휴먼(Digital Human)은 인간의 외형을 가지는 아바타 (Avatar)로서 가상 공간에 표현된다. 이러한 디지털 휴먼은 현실 공간에서의 실존 인물을 모방할 수 있게 됨에 따라 디지털 휴먼을 통해 가상 공간에 자신을 표현하려는 수요가 증가하고 있다.
디지털 휴먼으로 실존 인물 자신을 표현하기 위해 고려되는 외형적 요소에는 디지털 휴먼의 사실적인 모델링 및 모방되는 제스처 및 표정 등이 있다. 디지털 휴먼의 제스처는 인간의 자연스러운 의사 표현에 수반되는 매우 중요한 의사 전달 요소이다.
사람과 사람간 의사소통에서 제스처가 중요한 역할을 하는 것처럼 가상 공간에서도 디지털 휴먼의 제스처는 의사소통에 중요한 영향을 미친다. 이러한 디지털 휴먼을 통해 실제 인물의 의사를 효과적인 전달하는 연구는 바람직하다.
Ducheneaut, N., Wen, M. H., Yee, N., and wadley, G. (2009, April). Body and mind: a study of avatar personalization in three virtual worlds. In Proceedings of the SIGCHI conference on human factors in computing systems (pp. 1151-1160).
류지헌, 양은별. (2019). 동영상의 화면크기와 아바타의 제스처 유형이 학습자의 실재감 지각에 미치는 영향. , 31(4), 653-671.
Vacharkulksemsuk, T., Reit, E., Khambatta, P., Eastwick, P. W., Finkel, E. J., and Carney, D. R. (2016). Dominant, open nonverbal displays are attractive at zero-acquaintance. Proceedings of the National Academy of Sciences, 113(15), 4009-4014.
본 개시는 디지털 휴먼에 의한 의사소통 효과를 증대시킬 수 있는 방법 및 시스템을 제시한다.
본 개시는 의사 소통 효과를 증대하기 위하여 실제 인물의 비언어적 표현인 제스처의 강도를 조절하여 디지털 휴먼에 의한 효과적 의사 전달 및 감성 전이를 유도하는 방법 및 시스템을 제안한다.
본 개시에 따른 디지털 휴먼의 제스처 증강 방법:은
캐릭터 생성부를 통해 디지털 휴먼을 생성하는 단계;
카메라에 의해 실제 인물의 실사 영상을 촬영하는 단계;
영상 처리부에 의해 상기 실사 영상으로부터 실제 인물의 관절(keypoint) 좌표를 추출하는 단계;
상기 다시 신체 관절 좌표의 값을 증강 가중치를 결정하는 단계; 그리고
디지털 휴먼 제어부에 의해 상기 증강된 관절 좌표에 의해 상기 디지털 휴먼의 관절 좌표를 변화시켜 상기 실제 인물의 관절 움직임에 비해 증강된 제스처르 가지는 디지털 휴먼을 생성하는 단계;를 포함한다.
본 개시의 구체적인 실시 예에 따르면, 상기 증강된 관절 좌표는 실제 인물의 상체 영역에 대응할 수 있다.
또한, 본 개시의 구체적인 실시 예에 따르면, 상기 관절이 포함된 인체의 특정 부분에 연계된 관절 좌표이다.
본 개시의 구체적인 실시 예에 따르면, 상기 디지털 휴먼을 생성하는 단계:는
상기 실제 인물로부터 카메라에 의해 실사 영상을 촬영하는 단계; 그리고
상기 캐릭터 생성부에 의해 상기 실사 영상으로부터 상기 디지털 휴먼을 모델링하여 생성하는 단계;를 포함한다.
본 개시의 구체적인 실시 예에 따르면,
상기 관절 좌표를 추출하는 단계:는
상기 영상 분석부에 의해 2차원 평면 상의 관절 좌표를 추출하는 단계; 그리고
3D 분석기를 이용해 상기 2차원 평면에 수직인 제3의 방향(z)를 추론하여, 3차원 관절 좌표(x, y, z)를 추출하는 단계;를 포함할 수 있다.
본 개시의 다른 실시 예에 따르면,
상기 증강 가중치를 결정하는 단계에서,
상기 3차원 관절 좌표에서 x, y, z 3개의 좌표 중 적어도 하나의 관절 좌표에 대한 가중치를 결정할 수 있다.
본 개시의 다른 실시 예에 따르면,
상기 디지털 휴먼은 영상을 통해 학습을 주도 디지털 휴먼 튜터(DHT, digital human tutor)이며, 디스플레이에 상기 DHT와 함께 학습 영상이 같이 표시될 수 있다.
본 개시의 따른 디지털 휴먼 생성 시스템:은
실제 인물을 촬영하는 카메라;
상기 실제 인물에 대응하는 디지털 휴먼을 생성하는 캐릭터 생성부;
상기 카메라에 의해 얻어지는 상기 실제 인물의 실사 영상으로부터 관절 좌표를 추출하는 영상 분석부;
상기 실사 영상의 관절 좌표를 증강하여 상기 디지털 휴먼의 관절 좌표로 반영하여 증강된 제스처의 디지털 휴먼을 생성하는 영상 생성부; 그리고
상기 디지털 휴먼이 포함된 목표 영상을 표시하는 디스플레이;를 포함한다.
본 개시에 다른 실시 예에 따르면,
상기 영상 분석부는 2차원의 관절 좌표를 추출하며,
상기 영상 생성부는 상기 2차원 관절 좌표로부터 3차원 좌표를 추출하는 3D 분석기;를 도 포함할 수 있다.
본 개시에 따른 디지털 휴먼 생성 시스템에서,
상기 영상 생성부:는 상기 디지털 휴먼과 함께 배경으로 표현되는 특정 목적의 배경 영상을 포함하는 목표 영상을 생성할 수 있다.
상기 3D 분석기는 컴퓨터에서 수행되는 딥러닝 모델에 의해 제공될 수 있다.
본 개시에 따른 디지털 휴먼 생성 시스템은 가상 공간에 존재하는 디지털 휴먼 튜터(Digital Human Tutor)의 생성에 적용될 수 있다.
도1은 본 개시에 따른 제스처 증강 방법의 개념을 설명하는 흐름도이다.
도2는 본 개시에 따른 제스처 증강 방법의 보다 구체적인 실시 예를 설명하는 흐름도이다.
도3은 본 개시에 따른 제스처 증강 방법에서, 실제 인물의 안면 특징을 추출하는 방법의 흐름도이다.
도4는 본 개시에 따른 제스처 증강 방법에서, 실제 인물로부터 추출되는 여러 관절을 보여준다.
도5는 본 개시에 따른 제스처 증강 방법이 적용되지 않은 DH의 오리지널 영상을 보인다.
도6내지 도8은 개시에 따른 제스처 증강 방법에서 DH의 손부분의 x, y, z 좌표별 증강에 따른 결과를 보이는 영상이다.
도9는 도8은 개시에 따른 제스처 증강 방법에서 x, y, z 방향으로 손의 좌표가증강된 상태의 결과를 보이는 영상이다.
도10은 도8은 개시에 따른 제스처 증강 방법에서, 증강 전 DH와 증강 완료 후의 DH를 비교해 보인다.
도2는 본 개시에 따른 제스처 증강 방법의 보다 구체적인 실시 예를 설명하는 흐름도이다.
도3은 본 개시에 따른 제스처 증강 방법에서, 실제 인물의 안면 특징을 추출하는 방법의 흐름도이다.
도4는 본 개시에 따른 제스처 증강 방법에서, 실제 인물로부터 추출되는 여러 관절을 보여준다.
도5는 본 개시에 따른 제스처 증강 방법이 적용되지 않은 DH의 오리지널 영상을 보인다.
도6내지 도8은 개시에 따른 제스처 증강 방법에서 DH의 손부분의 x, y, z 좌표별 증강에 따른 결과를 보이는 영상이다.
도9는 도8은 개시에 따른 제스처 증강 방법에서 x, y, z 방향으로 손의 좌표가증강된 상태의 결과를 보이는 영상이다.
도10은 도8은 개시에 따른 제스처 증강 방법에서, 증강 전 DH와 증강 완료 후의 DH를 비교해 보인다.
이하, 첨부도면을 참조하여 본 발명 개념의 바람직한 실시 예들을 상세히 설명하기로 한다. 그러나, 본 발명 개념의 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명 개념의 범위가 아래에서 상술하는 실시 예들로 인해 한정 되어 지는 것으로 해석되어져서는 안 된다. 본 발명 개념의 실시 예들은 당 업계에서 평균적인 지식을 가진 자에게 본 발명 개념을 보다 완전하게 설명하기 위해서 제공 되는 것으로 해석되는 것이 바람직하다. 동일한 부호는 시종 동일한 요소를 의미한다. 나아가, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명 개념은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어 지지 않는다.
제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는 데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지 않는다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명 개념의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 반대로 제 2 구성 요소는 제 1 구성 요소로 명명될 수 있다.
본 출원에서 사용한 용어는 단지 특정한 실시 예들을 설명하기 위해 사용된 것으로서, 본 발명 개념을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, “포함한다” 또는 “갖는다” 등의 표현은 명세서에 기재된 특징, 개수, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
달리 정의되지 않는 한, 여기에 사용되는 모든 용어들은 기술 용어와 과학 용어를 포함하여 본 발명 개념이 속하는 기술 분야에서 통상의 지식을 가진 자가 공통적으로 이해하고 있는 바와 동일한 의미를 지닌다. 또한, 통상적으로 사용되는, 사전에 정의된 바와 같은 용어들은 관련되는 기술의 맥락에서 이들이 의미하는 바와 일관되는 의미를 갖는 것으로 해석되어야 하며, 여기에 명시적으로 정의하지 않는 한 과도하게 형식적인 의미로 해석되어서는 아니 될 것임은 이해될 것이다.
어떤 실시 예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 수행될 수도 있다.
상기 디지털 휴먼(Digital Human, 이하, DH)는 컴퓨터 프로그래밍에 의해 생성되는 객체(Object)로서 인간의 외형을 가지는 아바타 (Avartar)이며, 이는 다양한 인체적 특성에 대한 속성(property)를 가지며, 이는 객체의 속성의 수정/갱신을 위한 메소드(method) 또는 함수(function)등에 의해 제어가 가능한다.
이러한 DH는 단순히 메타버스에 사용되거나, 온라인 학습 시스템 등에서 실 교수자의 아바타로서 적용된다. 최근 바이러스 감염증의 확산으로 비대면 서비스의 수요가 증가하면서, 대면 의사소통보다 온라인을 통한 간접적인 의사소통의 증가로 공감이 결여되는 탈억제효과 (disinhibition effect)가 중요한 문제로 대두되고 있다. 이는 온라인 학습상황에서도 교수자와 학습자 간 공감 소통이 어려움에 따라 중요한 문제로 고려되고 있다. 따라서 교수자와 학습자 간 공감 상호작용을 높이기 위해 원격으로 학습자의 태도를 인식하고 이에 맞는 적절한 교수자의 반응 또는 피드백을 조절하는 것이 필요하다. 교수자가 학습자의 다양한 반응을 모방하면 학습자는 자기자신과 교수자가 비슷한 느낌을 받게 되어 사회적 유대감이 증대되고 이에 따라 교수자에게 더 공감하는 경향이 있다. 따라서 학습자의 표정이나 반응을 실시간으로 인식하고 이에 대해 가상의 교수자인 디지털 휴먼 튜터가 반응하거나 그 표정을 모방하도록 하는 기술은 학습자로 하여금 공감을 유도하고 학습의 효과를 높일 수 있다.
본 개시는 다양한 용도로 사용되는 DH의 비언어적 표현을 보다 효과적으로 전달할 수 있는 DH의 제스처 증강 방법 및 이를 적용하는 시스템에 관련한다.
본 개시에 따른 DH의 제스처 증강 방법은 동영상 카메라가 부설된 컴퓨터 기반 영상 처리 시스템에 의해 수행된다. 이러한 영상 처리 시스템은 영상을 처리하는 소프트웨어 및/또는 하드웨어 기반으로 하는 캐릭터 생성부, 영상 처리부, 디지털 휴먼 제어부 등을 포함하며, 외부 입력 장치로서 실제 인물을 촬영하는 카메라와, 컴퓨터의 제어 및 정보 입력을 위한 디스플레이, 키보드, 마우스 등을 포함할 수 있다.
구체적으로 본 발명에 따른 디지털 휴먼 생성 시스템은, 도11에 도시된 바와같이 실제 인물을 촬영하는 카메라(11), 실제 인물에 대응하는 디지털 휴먼을 생성하는 캐릭터 생성부(12), 카메라에 의해 얻어지는 상기 실제 인물의 실사 영상으로부터 관절 좌표를 추출하는 영상 분석부(13), 상기 실사 영상의 관절 좌표를 증강하여 상기 디지털 휴먼의 관절 좌표로 반영하여 증강된 제스처의 디지털 휴먼을 생성하는 영상 생성부(14), 그리고 상기 디지털 휴먼이 포함된 목표 영상을 표시하는 디스플레이(15);를 포함한다.
위와 같은 시스템에 의해 구현되는 본 개시에 따른 HT 제스처의 증강 방법은 다음과 같다.
도1은 본 개시에 따른 DH의 제스처 증강 방법의 흐름도를 보인다.
본 개시에 따른 증강된 제스처를 가지는 DH의 생성 방법은, 먼저, 아바타 형태의 DH (Digital Human)을 생성하고 (S01), DH에 대응하는 실제 인물을 촬영하여 관절 좌표를 추출한다(S12). 상기 관절 좌표를 증감하여 관절 좌표를 변환한다(S13). 그리고 증강된 관절 좌표를 DH에 반영하여, DH의 자세를 실제 인물의 제스처에 비해 강조되도록 하고(S15), 그리고 이를 활성화한다(S15).
도2는 보다 구체적인 DH의 제스처 증강 방법의 흐름도이며, 이를 참조하면서, 보다 더 구체적인 DH 제스처 증강 방법을 설명한다.
<S21 단계>
이 단계에서는 DH 객체를 형성하는 단계이다. 이 과정은 실제 인물 촬영과 함께 이루어 질 수 있다. 이것은 DH의 외모를 인공적으로 형성할 수 도 있으나, 다른 실시 예에 따르면, 실제 인물의 외모를 모방하여 DH의 외모로 덧입힐 수 있다. 이 경우, DH 모델 생성부 내에서 실제 인물의 안면을 촬영한 후, 이로부터 안면 특징을 추출하여, 이를 DH의 외모 특성으로 반영할 수 있다. 이를 위한 실제 DH 생성기로서 “Character Creator”라는 프로그램을 적용할 수 있다.
실제 인물의 외모를 특징 지우는 특성은 다음과 같은 방법에 의해 추출할 수 있다.
도3은 디지털 휴먼의 생성 방법에서, 실제 인물의 안면 특징 검출 과정을 보인다.
A. Face detection
실제 촬영된 실제 인물의 촬영 영상 내에서 안면 영역을 검출한다.
B. Facial Landmark detection
이 과정에서는 검출한 얼굴 영역 내에서 기존의 방법에 의해 FACS에서 정의하는 얼굴 특징점(landmark)을 검출한다. 이때에 실제 인물의 눈, 코, 입, 눈썹, 턱선의 위치 등 68개의 특징점으로 검출하여 실제 인물의 얼굴 특징을 데이터로 확보한다.
C. Face Alignment
상기 특징점 데이터를 상기 HT의 안면 특징에 반영하고, 이로써 실제 인물의 안면을 닮은 전신 또는 반신 영상의 HT를 생성한다.
<S22 단계>
상기와 같이 HT (객체)를 생성한 후, 상기 실제 인물의 전신 또는 반신을 촬영한다.
<S23 단계>
실제 인물의 전신 또는 반신 영상으로부터 관절(keypoint)의 좌표를 추출한다. 신체의 관절은 대략 18개이며, 보다 자연스러운 제스처 표현을 위해서는 18개의 관절 좌표의 추출이 바람직하다. 이러한 관절 좌표의 추출에는 다양한 방법이 사용될 수 있으며, 여기에는 머신러닝에 의한 딥러닝 모델이 적용될 수 있다. 알려진 딥러닝 모델에는 cmu, mobilenet_thin, mobilenet_v2_large, mobilenet_v2_small, tf-pose-estimation, openpose 및 vnect 등이 있다. 여기에서의 관절 좌표 추출은 DH 모델을 실제 인물의 관절에 대응시키기 위한 DH 초기화 과정이다.
<S24 단계>
이 단계에서는 상기 과정에서 추출된 관절 좌표를 상기 과정에서 생성된 DH의 관절에 1:1 맵핑(mapping) 한다. 즉. DH의 관절의 좌표가 상기 실제 인물의 관절 좌표가 1:1로 상호 연계된다.
<S25 단계>
이 단계에서는 실제 인물 영상에서 인물의 움직임에 따른 이동된 관절 좌표를 일정한 프레임 간격으로 관절 좌표를 추출한다.
이 단계에서, 관절 좌표의 추출은 전술한 바와 같은 딥러닝 모델로서 cmu, mobilenet_thin, mobilenet_v2_large, mobilenet_v2_small, tf-pose-estimation, openpose 및 vnect 등을 적용한다.
<S26 단계>
이 단계는 실제 인물의 제스처를 크게 강조하는 제스처 증강을 위한 좌표 증강 단계이다. 관절 좌표의 증감은 원래 추출된 2차원 좌표에 대해서 수행될 수 있다. 본 개시의 다른 실시 예에 따르면, 보다 현실감이 있는 적극적 제스처의 구현을 위하여 상기 2차원 좌표(x, y) 를 3차원 좌표 (x, y, z)로 변환한다. 상기 2차원 좌표 (x, y)는 2차원 영상 이미지 평면에서의 좌표이며, 이에 추가되는 제3의 좌표 “z” 는 영상 이미지 평면에 수직한 방향의 좌표이다. 이러한 변환에 의하면, 원래 추출된 2차원 좌표(x, y)에 z 방향의 좌표가 추가됨으로써 (x, y, z)로 표현되는 3차원 좌표가 구성될 수 있다. 여기에서 상기 좌표는 상기 신체의 특정 영역, 예를 들어, 손 영역이 포함될 수 있으며, 좌표 변환에 의해 손의 위치가 상하, 좌우, 전후로 바뀔 수 있다.
이러한 3차원 변환에는 3차원 자세 추출(3D pose estimation)이 적용될 수 있으며, 이러한 변환을 위한 알고리즘에는 Mutual PnP, Lifting from the Deep (Denis Tome, Chris Russell, Lourdes Agapito, 2017) 등이 있다.
상기 3차원 관절 좌표의 수는 입력된 2차원 좌표의 수인 18 보다 증가되게 되는데, 예를 들어 최대 3차원 관절 좌표의 수 54에 이를 수 있다. 이때의 제스처의 증강은 좌표의 증감 또는 좌표상 각도의 증강을 포함할 수 있다.
<S27 단계>
상기와 같은 과정으로 증강된 좌표, 예를 들어 증강된 2차원 또는 3차원 관절 좌표를 DH 모델(객체)에 적용하여, 증강된 제스처를 DH에 구현하는 것이다.
<S28a, S28b 단계>
상기와 같은 증강된 제스처를 가지는 DH를 목표 동영상에서 구현하여 활성화하고, 이와 동시에 다음의 실제 인물의 제스처 변화 검출을 위해 실제 인물의 전신을 연속 촬영하면서, 전술한 <S25 단계>로 복귀시켜 전술한 바와 같은 루틴을 반복시켜, 목표하는 영상 또는 목표 DH를 구현 또는 획득한다.
정리하면, 초기에 DH 객체를 생성한 후, 이 DH 객체의 관절 특성을 실제 인물의 관절에 맵핑하여, DH의 초기화를 수행하고, 이 이후에 연속적으로 실제 인물의 관절 좌표를 인식하여 이를 증강한 후, 이를 DH 객체 반영하여 활성화하는 과정이 본 개시의 주요 과정이다.
본 개시에서 언급된 관절은 도4에 도시된 바와 같이 18개의 관절로 분류된다.
도4를 참조하면 실제 인물로부터 추출되는 관절의 최대 수는 18이며, 여기에는 팔다리, 어깨 관절 뿐 아니라 안면의 코, 양 눈, 양 귀, 입 그리고 목이 포함된다.
위의 관절에서 보다 자연스러운 자체 또는 제스처 구현을 위해서는 모든 관절이 사용되는 것이 필요한다.
다음에서는 실제 구현된 증강된 제스처의 DH를 설명한다.
도5 내지 도8는 제스처 증강이 이루어지지 않은 DH 및 좌표별로 증강된 DH를 예시한다.
도5는 영상을 통해 학습을 지도하는 교수자(Tutor), 즉 DHT(Digital Human Tutor)를 예시한다. 도5의 영상에서는 DHT는 소극적으로 양 손을 상체 안쪽에 위치하고 있다.
도6은 DH의 제스처를 일부 증강한 것으로 3차원 좌표에서 x 방향의 각도를증강한 예를 보인다.
도5와 도6을 비교해서 알 수 있듯이, 도5에 비해 도6은 보다 적극적이고 활발한 손동작을 보이고 있다.
도7은 DH의 3차원 좌표에서 y 방향의 각도를 증강한 예를 보이고, 도8은 y 방향의 각도를 증강한 예를 보이고, 그리고, 도8은 z 방향의 증강을 보인다.
도9는 증강 전의 DH(좌측)와 x,y,z 모든 방향으로 좌표 각도 증강이 이루어진 DH(우측)를 비교해 보인다.
도9에 비교 도시된 바와 같이, 증강 전에 비해 증강 후의 자세가 보다 적극적이고 동적임을 느낄 수 있다. 이는 DH의 비언어적 표현이 매우 강하게 표현됨을 보여 준다.
상기와 같은 영상의 변환에는 다양한 프로그램형태의 동영상 제어기가 사용될 수 있는데, 예를 들어 Unity 라는 소프트웨어를 이용할 수 있다.
Unity에서 각 관절의 움직임은 Unity에서 제공되는 slider UI의 0~10 사이의 범위 값으로 증강시킬 수 있으며,각 관절의 증강은 관절 각도 값이 소정 범위, 예를 들어 최대 50도에서 -50도 범위로 증감될 수 있다. 도6내지 도9에 도시된 바와 같이 팔 부분 제스처의 증강을 원하는 경우 영상 처리자가 팔 부분에 해당하는 관절을 선택하고 관절의 x, y, z 각도를 각각 선택하여 0~10 사이의 범위 값으로 각도 값을 증강시키게 된다.
위의 방법에 의해 생성되는 DH는 다양한 분야에 적용될 수 있으며, 여기에는 영상 학습 시스템에서 DHT로 적용할 수 있다. 영상 학습 시스템에서 교수자의 언어적 표현뿐 아니라 몸의 제스처로 나타나는 비언어적 표현까지도 학습자에게 효과적으로 전달할 수 있고, 따라서 학습효율의 상승이 가능하게 된다. 이러한 비언어적 표현의 전달은 가상 세계에서도 유용하게 사용될 수 있다.
이상에서 살펴본 바와 같이 본 발명의 모범적 실시 예들에 대해 상세히 기술되었지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구 범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형하여 실시할 수 있을 것이다. 따라서 본 발명의 앞으로의 실시 예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.
Claims (12)
- 캐릭터 생성부를 통해 디지털 휴먼을 생성하는 단계;
카메라에 의해 실제 인물의 실사 영상을 촬영하는 단계;
영상 처리부에 의해 상기 실사 영상으로부터 실제 인물의 관절(keypoint) 좌표를 추출하는 단계;
상기 다시 신체 관절 좌표의 값을 증강 가중치를 결정하는 단계; 그리고
디지털 휴먼 제어부에 의해 상기 증강된 관절 좌표에 의해 상기 디지털 휴먼의 관절 좌표를 변화시켜 상기 실제 인물의 관절 움직임에 비해 증강된 디지털 휴먼을 생성하는 단계;를 포함하는 디지털 휴먼의 제스처 증강 방법. - 제1항에 있어서,
상기 증강된 관절 좌표는 실제 인물의 관절이 포함된 상체 영역에 대응하는, 디지털 휴먼의 제스처 증강 방법. - 제1항에 있어서,
상기 디지털 휴먼을 생성하는 단계:는
상기 실제 인물로부터 카메라에 의해 실사 영상을 촬영하는 단계; 그리고
상기 캐릭터 생성부에 의해 상기 실사 영상으로부터 상기 디지털 휴먼을 모델링하여 생성하는 단계;를 포함하는, 디지털 휴먼의 제스처 증강 방법. - 제1항 또는 제2항에 있어서,
상기 관절 좌표를 추출하는 단계:는
상기 영상 분석부에 의해 2차원 평면 상의 관절 좌표를 추출하는 단계; 그리고
3D 분석기를 이용해 상기 2차원 평면에 수직인 제3의 방향(z)를 추론하여, 3차원 관절 좌표(x, y, z)를 추출하는 단계;를 포함하는, 디지털 휴먼의 제스처 증강 방법. - 제4항에 있어서,
상기 증강 가중치를 결정하는 단계에서,
상기 3차원 관절 좌표에서 x, y, z 3개의 좌표 중 적어도 어는 하나의 관절 좌표에 대한 가중치를 결정하는, 디지털 휴먼의 제스처 증강 방법. - 제1항 내지 제3항 중의 어느 한 항에 있어서,
상기 증강 가중치를 결정하는 단계에서,
상기 3차원 관절 좌표에서 x, y, z 3개의 좌표 중 적어도 어는 하나의 관절 좌표에 대한 가중치를 결정하는, 디지털 휴먼의 제스처 증강 방법. - 제1항에 있어서,
상기 디지털 휴먼은 영상을 통해 학습을 인도하는 디지털 휴먼 튜터(DHT, digital human tutor)이며, 디스플레이에 상기 DHT와 함께 학습 영상이 같이 표시되는, 디지털 휴먼의 제스처 증강 방법. - 제1항에 기재된 방법을 수행하는 디지털 휴먼의 제스처 증강 시스템에 있어서,
실제 인물을 촬영하는 카메라;
상기 실제 인물에 대응하는 디지털 휴먼을 생성하는 캐릭터 생성부;
상기 카메라에 의해 얻어지는 상기 실제 인물의 실사 영상으로부터 관절 좌표를 추출하는 영상 분석부;
상기 실사 영상의 관절 좌표를 증강하여 상기 디지털 휴먼의 관절 좌표로 반영하여 증강된 제스처의 디지털 휴먼을 생성하는 영상 생성부; 그리고
상기 디지털 휴먼이 포함된 목표 영상을 표시하는 디스플레이;를 포함하는 디지털 휴먼의 제스처 증강 시스템. - 제8항에 있어서,
상기 증강된 관절 좌표는 실제 인물의 관절이 포함된 상체 영역에 대응하도록 하는, 디지털 휴먼의 제스처 증강 시스템. - 제8항 또는 제9항에 있어서,
상기 영상 분석부는 2차원의 관절 좌표를 추출하며,
상기 영상 생성부는 상기 2차원 관절 좌표로부터 3차원 좌표를 추출하는 3D 분석기;를 도 포함하는, 디지털 휴먼의 제스처 증강 시스템. - 제10항에 있어서,
상기 영상 생성부:는 상기 디지털 휴먼과 함께 배경으로 표현되는 특정 목적의 배경 영상을 포함하는 목표 영상을 생성하는, 디지털 휴먼의 제스처 증강 시스템. - 제8항 또는 제9항에 있어서,
상기 영상 생성부:는 상기 디지털 휴먼과 함께 배경으로 표현되는 특정 목적의 배경 영상을 포함하는 목표 영상을 생성하는, 디지털 휴먼의 제스처 증강 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220006578A KR20230110962A (ko) | 2022-01-17 | 2022-01-17 | 디지털 휴먼 제스처 증강 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220006578A KR20230110962A (ko) | 2022-01-17 | 2022-01-17 | 디지털 휴먼 제스처 증강 방법 및 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230110962A true KR20230110962A (ko) | 2023-07-25 |
Family
ID=87428900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220006578A KR20230110962A (ko) | 2022-01-17 | 2022-01-17 | 디지털 휴먼 제스처 증강 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230110962A (ko) |
-
2022
- 2022-01-17 KR KR1020220006578A patent/KR20230110962A/ko active Search and Examination
Non-Patent Citations (3)
Title |
---|
Ducheneaut, N., Wen, M. H., Yee, N., and wadley, G. (2009, April). Body and mind: a study of avatar personalization in three virtual worlds. In Proceedings of the SIGCHI conference on human factors in computing systems (pp. 1151-1160). |
Vacharkulksemsuk, T., Reit, E., Khambatta, P., Eastwick, P. W., Finkel, E. J., and Carney, D. R. (2016). Dominant, open nonverbal displays are attractive at zero-acquaintance. Proceedings of the National Academy of Sciences, 113(15), 4009-4014. |
류지헌, 양은별. (2019). 동영상의 화면크기와 아바타의 제스처 유형이 학습자의 실재감 지각에 미치는 영향. , 31(4), 653-671. |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7389032B2 (ja) | 仮想アバタのコンテキストベースのレンダリング | |
US20240312100A1 (en) | Using three-dimensional scans of a physical subject to determine positions and/or orientations of skeletal joints in the rigging for a virtual character | |
US20210097875A1 (en) | Individual viewing in a shared space | |
US20220157004A1 (en) | Generating textured polygon strip hair from strand-based hair for a virtual character | |
US11557076B2 (en) | Computer generated hair groom transfer tool | |
US20180088663A1 (en) | Method and system for gesture-based interactions | |
US20200005138A1 (en) | Methods and systems for interpolation of disparate inputs | |
CN115769174A (zh) | 用于最佳注视辨别的化身定制 | |
CN112148118A (zh) | 生成物理环境中的人的姿势信息 | |
CN112753007A (zh) | 虚拟角色的姿势空间变形的姿势空间维度减小 | |
US11836840B2 (en) | Systems and methods for cross-application authoring, transfer, and evaluation of rigging control systems for virtual characters | |
CN114630738B (zh) | 用于模拟感测数据和创建感知的系统和方法 | |
Thiebaux et al. | Real-time expressive gaze animation for virtual humans | |
Dhanasree et al. | Hospital emergency room training using virtual reality and leap motion sensor | |
US20230260156A1 (en) | Methods and systems for interpolation of disparate inputs | |
Avramova et al. | A virtual poster presenter using mixed reality | |
KR20230110962A (ko) | 디지털 휴먼 제스처 증강 방법 및 시스템 | |
US20240320889A1 (en) | Method and system for augmenting digital human gesture | |
Horst et al. | Avatar2Avatar: Augmenting the Mutual Visual Communication between Co-located Real and Virtual Environments. | |
KR20240002079A (ko) | 제스처 증강 교감형 디지털 휴먼 튜터 생성 방법 및 시스템 | |
KR20240002080A (ko) | 실재감 있는 제스처 증강 디지털 휴먼 튜터 생성 방법 및 시스템 | |
US20230215069A1 (en) | System and method for mimicking user handwriting or other user input using an avatar | |
Manfredi et al. | AvatarizeMe: A Fast Software Tool for Transforming Selfies into Animatable Lifelike Avatars Using Machine Learning | |
Vladić et al. | Integration of augmented reality into the CAD modeling and engineering drawing training of designers | |
Lee et al. | Intuitive Multi-modal Recognition and NUI/NUX Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application | ||
AMND | Amendment |