KR20240002080A

KR20240002080A - 실재감 있는 제스처 증강 디지털 휴먼 튜터 생성 방법 및 시스템

Info

Publication number: KR20240002080A
Application number: KR1020220079272A
Authority: KR
Inventors: 황민철; 김경빈; 목수빈; 윤대호; 조아영
Original assignee: 상명대학교산학협력단
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2024-01-04

Abstract

본 개시는 제스처 증강 디지털 휴먼 튜터 (DHT)의 생성 방법 및 시스템에 관련한다. 디지털 휴먼 튜터의 생성 방법:은 교수자의 반신 또는 전신 영상과 강의 영상을 획득하는 단계; 상기 교수자의 안면 영상을 이용하여 교수자의 안면 영상에 대응하는 디지털 휴먼 튜터를 생성하는 단계; 상기 강의 영상에서 교수자의 강의 중 얼굴 및 제스쳐의 외형적 특징을 추출하는 단계; 그리고 상기 외형적 특징을 상기 디지털 휴먼 튜터에 반영하여 상기 디지털 휴먼 튜터를 활성화하는 단계;를 포함한다.

Description

실재감 있는 제스처 증강 디지털 휴먼 튜터 생성 방법 및 시스템{Method and system for generating gesture-enhanced realistic digital human tutor}

본 개시는 가상 공간에 존재하는 디지털 휴먼 튜터(Digital Human Tutor)를 생성하는 방법에 관한 것으로, 상세하게는 학습자의 반응에 교감하는 것으로 제스처가 증강된 디지털 휴먼 튜터의 생성 방법 및 장치에 관한 것이다.

최근 바이러스 감염증의 확산으로 비대면 서비스의 수요가 증가하면서, 대면 의사소통보다 온라인을 통한 간접적인 의사소통의 증가로 공감이 결여되는 탈억제효과 (disinhibition effect)가 중요한 문제로 대두되고 있다.

따라서 교수자와 학습자 간 공감 상호작용을 높이기 위해 원격으로 학습자의 태도를 인식하고 이에 맞는 적절한 교수자의 반응 또는 피드백을 조절하는 것이 필요하다.

교수자가 학습자의 다양한 반응을 모방하면 학습자는 자기자신과 교수자가 비슷한 느낌을 받게 되어 사회적 유대감이 증대되고 이에 따라 교수자에게 더 공감하는 경향이 있다.

따라서 학습자의 표정이나 반응을 실시간으로 인식하고 이에 대해 가상의 교수자인 디지털 휴먼 튜터가 반응하거나 그 표정을 모방하도록 하는 기술은 학습자로 하여금 공감을 유도하고 학습의 효과를 높일 수 있다.

Joinson, A. N. (2007). Disinhibition and the Internet. In Psychology and the Internet (pp. 75-92). Academic Press. Suler, J. (2004). The online disinhibition effect. Cyberpsychology and behavior, 7(3), 321-326. Chartrand, T. L., and Van Baaren, R. (2009). Human mimicry. Advances in experimental social psychology, 41, 219-274.] Schutte, N. S., and Stilinovi?, E. J. (2017). Facilitating empathy through virtual reality. Motivation and emotion, 41(6), 708-712. 최원경(Choi, Wonkyung).(2020). 면대면 대 비대면 강의 만족도 비교. 영어교과교육, 19(4): 223-245 김상미 (2020). 코로나19 관련 온라인 교육에 관한 국내 언론보도기사 분석. 한국디지털콘텐츠학회 논문지, 21(6), 1091-1100. 윤보람. (2018). 증강현실 기반 원격 협업 시스템에서 가상 아바타의 외형이 사용자의 사회적 실재감에 미치는 영향=(The) effect of virtual avatar appearance on user's social presence in an augmented reality-based remote collaboration System. Heidicker, P., Langbehn, E., and Steinicke, F. (2017, March). Influence of avatar appearance on presence in social VR. In 2017 IEEE Symposium on 3D User Interfaces (3DUI) (pp. 233-234). IEEE. Zibrek, K., Kokkinara, E., and McDonnell, R. (2018). The effect of realistic appearance of virtual characters in immersive environments-does the character's personality play a role?. IEEE transactions on visualization and computer graphics, 24(4), 1681-1690. 이우리, 황민철. (2014). 한국인 표준 얼굴 표정 이미지의 감성 인식 정확률. 한국콘텐츠학회논문지, 14(9), 476-483. Jo, D., Kim, K. H., and Kim, G. J. (2017). Effects of avatar and background types on users’ co-presence and trust for mixed reality-based teleconference systems. In Proceedings the 30th Conference on Computer Animation and Social Agents (pp. 27-36).

본 개시는 가상 공간에서의 디지털 휴먼 튜터의 실재감을 향상시키고 학습자의 공감을 효과적으로 유도할 수 있는 제스처 증강 디지털 휴먼 튜터의 생성 방법 및 시스템을 제시한다.

본 개시는 온라인 상 교수자의 제스처를 포함하는 외형적 특징과 교수자 얼굴의 무의식적 미세 표현을 가상 아바타인 디지털 휴먼 튜터에게 입힘으로써 디지털 휴먼 튜터를 실감나게 생성하는 제스처 증강 디지털 휴먼 튜터의 생성 방법 및 장치를 제안한다.

본 개시는 비대면 학습 상황에서 학습자의 반응을 인식하고 이를 모방할 수있도록 교수자의 제스처를 증강하여 학습자의 반응을 효과적으로 유도할 수 있는 제스처 증강 디지털 휴먼 튜터의 생성 방법 및 시스템을 제시한다.

본 개시에 따른 디지털 휴먼 튜터의 생성 방법:은

카메라에 의해 실제 교수자의 안면 영상과 강의 영상을 획득하는 단계;

영상 프로세서에 의해 상기 실사 영상으로부터 교수자의 관절(keypoint) 좌표와 얼굴의 외형적 특징을 추출하는 단계;

특성 프로세서에 의해 상기 얼굴의 외형적 특징으로부터 외형적 특징 변화와 상기 관절 좌표의 값에 대한 증강 가중치를 결정하는 단계;

캐릭터 생성부에 의해 상기 교수자의 얼굴 특징안면 영상을 이용하여 교수자의 안면 영상에 대응하는 디지털 휴먼 튜터를 생성하는 단계; 그리고

캐릭터 제어부에 의해 상기 외형적 특징을 상기 디지털 휴먼 튜터에 반영하되, 상기 증강된 관절 좌표에 의해 상기 디지털 휴먼 튜터의 관절 좌표를 변화시키는 디지털 휴먼 튜터를 활성화하는 단계;를 포함한다.

본 개시의 구체적인 실시 예에 따르면, 상기 증강된 관절 좌표는 실제 교수자의 상체 영역에 대응할 수 있다.

본 개시의 구체적인 실시 예에 따르면, 상기 관절이 포함된 인체의 특정 부분에 연계된 관절 좌표이다.

본 개시의 구체적인 실시 예에 따르면,

상기 관절 좌표를 추출하는 단계:는

상기 영상 분석부에 의해 2차원 평면 상의 관절 좌표를 추출하는 단계; 그리고

3D 분석기를 이용해 상기 2차원 평면에 수직인 제3의 방향(z)를 추론하여, 3차원 관절 좌표(x, y, z)를 추출하는 단계;를 포함할 수 있다.

본 개시의 다른 실시 예에 따르면,

상기 증강 가중치를 결정하는 단계에서,

상기 3차원 관절 좌표에서 x, y, z 3개의 좌표 중 적어도 하나의 관절 좌표에 대한 가중치를 결정할 수 있다.

본 개시의 다른 실시 예에 따르면,

상기 디지털 휴먼은 영상을 통해 학습을 주도 디지털 휴먼 튜터(DHT, digital human tutor)이며, 디스플레이에 상기 DHT와 함께 학습 영상이 같이 표시될 수 있다.

하나 또는 그 이상의 실시 예에 따르면, 상기 안면 영상에 특징점을 추출하고, 상기 특징점을 이용해 상기 디지털 휴먼 튜터의 외형을 설정할 수 있다.

하나 또는 그 이상의 실시 예에 따르면, 상기 특징점은 FACS에 정의하는 랜드마크로부터 선택될 수 있다.

하나 또는 그 이상의 실시 예에 따르면, 강의 영상에서 교수자의 특징점을 추출하고, 추출된 특징점의 움직임 데이터를 추출하고, 상기 움직임 데이터로부터 미세 표현 데이터를 추출할 수 있다.

하나 또는 그 이상의 실시 예에 따르면, 상기 미세 표현 데이터를 추출하기 위하여 상기 특징점 추적에 KLT (Kanade-Lucas-Tomasi) 추적 알고리즘 또는 TM (Transformation Matrix) 기반 추적 알고리즘을 적용하여 미세 표현 데이터(Micro Expression Data, MED)를 계산할 수 있다.

하나 또는 그 이상의 실시 예에 따르면, 상기 미세 표현 데이터로부터 무의식적 미세 표현 데이터를 추출하기 위하여, 미세 표현 데이터에 대한 소정 주파수의 필터링을 수행하고, 필터링 된 미세표현 데이터에 대해 주성분 분석(PCA)에 의해 심박의 주기성을 판단하고, 상기 주기성이 상기 디지털 휴먼 튜터의 미세 표현을 위한 입력 값으로 사용될 수 있다.

하나 또는 그 이상의 실시 예에 따르면, 상기 교수자의 외형적 특징은 FACS에서 정의하는 특징점(Landmark)으로 추출되며, 상기 디지털 휴먼 튜터에 대해서는 상기 특징점에 의한 AU 단위로 상기 외형적 특징을 반영할 수 있다.

본 개시에 따른 디지털 휴먼 튜터의 생성 시스템:은

실제 교수자의 안면 영상과 강의 영상을 획득하는 하나 이상의 카메라;

상기 실사 영상으로부터 실제 인물의 관절(keypoint) 좌표와 얼굴의 외형적 특징을 추출하는 영상 프로세서;

상기 교수자의 강의 중 안면 영상에서 얼굴의 외형적 특징 변화와 상기 관절좌표의 변화를 추출하고, 상기 관절 좌표의 값에 대한 증강 가중치를 결정하는 특성 프로세서;

상기 교수자의 안면 영상을 이용하여 교수자의 안면 영상에 대응하는 디지털 휴먼 튜터를 생성하는 캐릭터 생성부;상기 외형적 특징을 상기 디지털 휴먼 튜터에 반영하되, 상기 증강된 관절 좌표에 의해 상기 디지털 휴먼 튜터의 관절 좌표를 변화시키는 디지털 휴먼 튜터를 활성화하는 캐릭터 제어부; 그리고

상기 디지털 휴먼 튜터가 포함된 강의 영상을 생성하는 강의 영상 생성부;를 포함한다.

본 개시의 구체적인 실시 예에 따르면,

상기 관절 좌표를 추출하는 단계:는

본 개시의 다른 실시 예에 따르면,

상기 증강 가중치를 결정하는 단계에서,

본 개시의 다른 실시 예에 따르면,

하나 또는 그 이상의 실시 예에 따르면, 상기 캐릭터 생성부는 상기 안면 영상에 특징점을 추출하고, 상기 특징점을 이용해 상기 디지털 휴먼 튜터의 외형을 설정할 수 있다.

하나 또는 그 이상의 실시 예에 따르면, 캐릭터 생성부는 상기 특징점으로 FACS에 정의하는 랜드마크로부터 선택할 수 있다.

하나 또는 그 이상의 실시 예에 따르면, 상기 특성 프로세서는 강의 영상에서 교수자의 특징점을 추출하고, 추출된 특징점의 움직임 데이터를 추출하고, 상기 움직임 데이터로부터 미세 표현 데이터를 추출할 수 있다.

하나 또는 그 이상의 실시 예에 따르면, 상기 특성 프로세서는, 상기 미세 표현 데이터를 추출하기 위하여 상기 특징점 추적에 KLT (Kanade-Lucas-Tomasi) 추적 알고리즘 또는 TM (Transformation Matrix) 기반 추적 알고리즘를 적용할 수 있다.

하나 또는 그 이상의 실시 예에 따르면, 상기 특성 프로세서는, 상기 미세 표현 데이터로부터 무의식적 미세 표현 데이터를 추출하기 위하여, 미세 표현 데이터에 대한 소정 주파수의 필터링을 수행하고, 필터링된 미세표현 데이터에 대해 주성분 분석(PCA)에 의해 심박의 주기성을 판단하고, 상기 주기성을 상기 디지털 휴먼 튜터의 미세 표현을 위한 입력 값으로 사용될 수 있다.

하나 또는 그 이상의 실시 예에 따르면, 상기 특성 프로세서는 상기 교수자의 외형적 특징은 FACS에서 정의하는 특징점(Landmark)으로 추출하며, 상기 디지털 휴먼 튜터에 대해서는 상기 특징점에 의한 AU 단위로 상기 외형적 특징을 반영할 수 있다.

도1은 하나 또는 그 이상의 실시 예에 따른 교수자의 얼굴 및 관절 특징 검출 과정을 보이는 플로우챠트이다.
도2은 FACS(Facial Action Coding System)에서 정의하는 얼굴 특징점 (Landmark)의 배열을 예시한다.
도3은 하나 또는 그 이상의 실시 예에 따라, 얼굴 영상(Facial Video)-얼굴검출(Face Detection)-특징점 검출(Facial Landmark detection) 과정의 결과물을 보인다.
도4는 하나 또는 그 이상의 실시 예에 따라, 카메라로 촬영된 교수자 영상에서 얼굴 영역으로부터 심장 박동에 의한 얼굴의 무의식적 미세 표현을 추출하기 위한 과정을 보여주는 플로우챠트이다.
도5는 전술한 미세표현 데이터(MED)에 대한 슬라이딩 윈도우 기법을 포함하는 것으로 심장 박동 신호를 판단하는 과정의 플로우챠트이다.
도6은 하나 또는 그 이상의 실시 예에 따른 제스처 증강 방법의 개념을 설명하는 흐름도이다.
도7는 하나 또는 그 이상의 실시 예에 따른 제스처 증강 방법에서, 실제 인물로부터 추출되는 여러 관절을 보여준다.
도8은 하나 또는 그 이상의 실시 예에 따른 제스처 증강 방법이 적용되지 않은 DHT(digital human tutor)의 오리지널 영상을 보인다.
도9 내지 도12는 하나 또는 그 이상의 실시 예에 따른 제스터 증강 방법에서 DHT의 손부분의 x, y, z 좌표별 증강에 따른 결과를 보이는 영상이다.
도12는 하나 또는 그 이상의 실시 예에 따른 제스처 증강 방법에서 x, y, z 방향으로 손의 좌표가 증강된 상태의 결과를 보이는 영상이다.
도13은 하나 또는 그 이상의 실시 예에 따른 제스처 증강 방법에서, 제스쳐증강 전 DHT와 제스처 증강 완료 후의 DHT를 비교해 보인다.
도14는 하나 또는 그 이상의 실시 예에 따라, DHT에 의한 강의 영상을 제작하는 과정을 도식화한 것이다.
도15는 하나 또는 그 이상의 실시 예에 따라, DHT에 의한 강의 영상을 제작하는 시스템의 구성도이다.
도16은 하나 또는 그 이상의 실시 예에 따라 제작된 강의 영상용 재생 시스템을 예시한다.

이하, 첨부도면을 참조하여 본 발명 개념의 바람직한 실시 예들을 상세히 설명하기로 한다. 그러나, 본 발명 개념의 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명 개념의 범위가 아래에서 상술하는 실시 예들로 인해 한정 되어 지는 것으로 해석되어져서는 안 된다. 본 발명 개념의 실시 예들은 당 업계에서 평균적인 지식을 가진 자에게 본 발명 개념을 보다 완전하게 설명하기 위해서 제공 되는 것으로 해석되는 것이 바람직하다. 동일한 부호는 시종 동일한 요소를 의미한다. 나아가, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명 개념은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.흐

제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는 데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지 않는다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명 개념의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 반대로 제 2 구성 요소는 제 1 구성 요소로 명명될 수 있다.

본 출원에서 사용한 용어는 단지 특정한 실시 예들을 설명하기 위해 사용된 것으로서, 본 발명 개념을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, “포함한다” 또는 “갖는다” 등의 표현은 명세서에 기재된 특징, 개수, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

달리 정의되지 않는 한, 여기에 사용되는 모든 용어들은 기술 용어와 과학 용어를 포함하여 본 발명 개념이 속하는 기술 분야에서 통상의 지식을 가진 자가 공통적으로 이해하고 있는 바와 동일한 의미를 지닌다. 또한, 통상적으로 사용되는, 사전에 정의된 바와 같은 용어들은 관련되는 기술의 맥락에서 이들이 의미하는 바와 일관되는 의미를 갖는 것으로 해석되어야 하며, 여기에 명시적으로 정의하지 않는 한 과도하게 형식적인 의미로 해석되어서는 아니 될 것임은 이해될 것이다.

어떤 실시 예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 수행될 수도 있다.

이하에서 하나 또는 그 이상의 실시 예에 따르면, 교수자의 외형적 특징, 얼굴의 무의식적 미세 표현을 가상 아바타인 디지털 휴먼 튜터(Digital Human Tutor, 이하, DHT)에게 이식 방법 및 시스템이 제시된다.

이에 따르면, 실제 교수자의 제스쳐 및 표정 등이 DHT의 움직임 및 표정 변화에 반영되고, 특히 실제 교수자의 영상에서 추출한 교수자의 눈, 눈썹, 코, 입, 얼굴형 등의 외형적 특징이 DHT에 표현되고, 또한 그 표정 변화도 교수자의 얼굴 영역에서 추출된 얼굴 표정의 변화에 반영된다. 또한 교수자의 제스처를 인식하여 이를 DHT에 반영하며 이때에 공감 확대를 위해 제스처를 증강하여 반영한다. 이를 통해서 비대면 교육 환경에서 교수자와 학습자가 상호 인터랙션 하고 있다는 느낌을 주고, DHT에 대해 신뢰도를 높여 소통의 질을 향상시키고 교육 환경의 제약을 개선시키는데 기여할 수 있을 것으로 기대된다.

본 개시에 따른 실시 예는 DHT를 생성하기 위하여 다음의 3단계의 과정을 포함한다.

단계1: 교수자의 안면 형상 및 표정 특성을 포함하는 안면 특징 및 제스처 특징을 포함하는 외형적 특징, 그리고 안면 표정으로 부터 무의식적 미세 표현 데이터를 인식한다.

단계2: 인식된 교수자의 특징을 적용한 DHT를 생성한다.

단계3: 생성된 DHT를 커스터마이징 한다.

교수자의 외형적 특징은 얼굴(안면)의 특징 값과 신체의 관절 포인트의 특징 값을 포함한다. 얼굴의 특징값은 교수자의 안면 영상으로 얻어지며, 관절 포인트의 특징 값은 신체 관절이 포함된 신체 전반 또는 상체 영역의 사진으로부터 얻어 질 수 있다.

이하에서는 안면 특징값과 관절 포인트의 특징값의 검출에 대해 별개로 설명되며, 먼저 안면 영상으로부터 표정 변화에 따른 얼굴 특징 값을 추출에 대해 설명한다.

<단계 1> 교수자의 외형적 특징과 미세 표현 데이터의 인식

I. 교수자의 외형적 특징 검출

카메라로 촬영된 교수자 영상의 얼굴 및 반신 또는 전신 영역으로부터 교수자의 외형적 특징을 추출하기 위한 과정이다. 다음과 같은 단계로 진행된다. 안면의 외형적 특징은 표 1과 같이 눈썹, 눈, 코, 입, 턱의 각 요소의 얼굴 특징 값을 포함한다. 안면 특징 값은 각 요소의 중립적인 위치 또는 크기에서의 변화율을 나타낸다.

도1은 이하에서 설명될 교수자 안면 및 관절 특징 검출 과정을 보이는 플로우챠트이다. 도2은 FACS에서 정의 하는 특징점 (Landmark)의 배치를 예시하며, 도3은 아래에서 설명되는 얼굴영상(Facial Video)-얼굴검출(Face Detection)-특징점 검출(Facial Landmark detection) 과정에 따른 결과물을 보인다.

i. Facial Video Acquisition

30fps 이상의 영상 촬영이 가능한 카메라로부터 얼굴이 포함된 교수자의 상반신 또는 전신 모습을 촬영한다.

ii. Face detection

촬영한 영상 이미지 내에서 교수자의 얼굴이 위치하는 영역을 검출한다. 이단계에서는 Viola Jones 의 방법이 적용될 수 있다.

iii. Facial Landmark detection

검출한 얼굴 영역 내에서 교수자의 외형적 특징을 검출한다. 이때 외형적 특징은 눈썹, 눈, 코, 입, 턱이며, 위치는 68개의 특징점 (Landmark)을 이용해 검출할 수 있다. 상기 특징점은 예를 들어 Ekman의 FACS(Facial Action Coding System)를 기반으로 정의되고 검출될 수 있다. 안면 근육 AU(Action Unity)를 정의하며, 이들 AU에 의해 외형적 특징 움직임을 검출한다.

아래의 표2는 얼굴 표정의 변화를 판단하기 위한 얼굴 근육의 움직임을 정의하는 AU 와 각 AU에 속하는 랜드마크를 설명한다.

iv. 관절 추출

이 단계는 전술한 안면 외형 특징 검출 과정과 함께 병렬 수행된다.

안면 특징이 추출된 교수자의 전신 또는 반신 영상으로부터 교수자의 관절(keypoint)의 좌표를 추출한다.

신체의 관절은 대략 18개이며, 보다 자연스러운 제스처 표현을 위해서는 18개의 관절 좌표의 추출이 바람직하다. 이러한 관절 좌표의 추출에는 다양한 방법이 사용될 수 있으며, 여기에는 머신러닝에 의한 딥러닝 모델이 적용될 수 있다. 알려진 딥러닝 모델에는 cmu, mobilenet_thin, mobilenet_v2_large, mobilenet_v2_small, tf-pose-estimation, openpose 및 vnect 등이 있다.

이 단계에서는 실제 인물 영상에서 인물의 움직임에 따른 이동된 관절 좌표를 일정한 프레임 간격으로 관절 좌표를 추출한다.

이 단계에서, 관절 좌표의 추출은 전술한 바와 같은 딥러닝 모델로서 cmu, mobilenet_thin, mobilenet_v2_large, mobilenet_v2_small, tf-pose-estimation, openpose 및 vnect 등을 적용한다.

상기와 같이 얻어진 관절 좌표는 증강된다. 과정 좌표의 증강 단계는 교수자의 제스처를 크게 강조하는 제스처 증강을 위한 좌표 증강 단계이다. 관절 좌표의 증감은 원래 추출된 2차원 좌표에 대해서 수행될 수 있다.

II. 심장 박동에 의한 얼굴의 무의식적 미세 표현 데이터 추출

교수자의 내적 감성 또는 감정은 얼굴의 표정 변화를 통해서 인지할 수 있다. 얼굴 표정은 내적 감정에 따른 안면 근육의 움직임에 기인한다. 따라서, 얼굴의 움직임, 특히 여러 AU들의 움직임을 평가함으로써 내적 감정을 평가 또는 판단할 수 있다. 그런데, 여기에는 감정과는 무관한 교수자의 의식적 움직임이 같이 나타날 수 있고, 이것은 내적 감정을 평가하는데 노이즈로 작용할 수 있다. 따라서 교수자의 얼굴 근육에 나타난 미세 움직임에서 의식적 움직임을 제거한다면 교수자의 진정한 미세 표정, 즉 내적 감정을 평가할 수 있다.

본 실시 예에 의해, 이러한 노이즈 성분으로서의 의식적인 움직임은 필터링된다. 이러한 노이즈 성분을 배제한 내적 감성에 기초하는 미세 움직임은 분당 45에서 150회 범위의 정상 심박수(BPM)에 기초하여 발현된다.

도4는 카메라로 촬영된 교수자 영상에서 얼굴 영역으로부터 심장 박동에 의한 얼굴의 무의식적 미세 표현을 추출하기 위한 과정을 보여주는 플로우챠트이며, 이하에서 이 과정을 상세히 설명한다.

i. Facial Video

교수자의 외형적 특징을 검출하기 위해 교수자의 얼굴 영역이 포함된 상반신 또는 전신을 촬영하여 안면 여상을 획득한다. 안면 영상의 획득에는 카메라에 의한 시청자 안면의 촬영 및 영상 콘텐츠의 연속적 캡쳐가 포함된다. 이 단계에서 예를 들어 30fps의 두 안면 영상을 획득한다.

ii. Face detection

얼굴 검출(face detection) 및 추적(tracking)을 통해 얼굴 영역 또는 포인트를 추출한다. 얼굴 영역의 추출은 사람의 얼굴 부위마다 나타나는 명암의 특징을 이용한 Viola-Jones 알고리즘, HOG(Histogram of Oriented Gradients) 등의 방법을 적용한다.

iii. Area Selection

검출된 얼굴 영역에서 노이즈 신호가 가장 적게 발생하는 이마(forehead)와 코(nose) 영역을 선택한다.

iv. Feature Extraction:

선택된 이마와 코 영역에서 다른 포인트와 대비해 추적하기 위한 다수의 특징점을 추출한다. 이러한 특징점 추출에는 Good-Feature-To-Track (GFTT) 알고리즘, FLD (Facial Landmark Detection) 알고리즘이 적용될 수 있다. 본 실시 예에서는, GFTT 알고리즘을 적용하여 다수의 특징점(Landmark)을 추출한다.

v. Feature Tracking

추출된 각 특징점의 움직임 데이터를 구한다. 이러한 특징 추적에는 KLT (Kanade-Lucas-Tomasi) 추적 알고리즘, TM (Transformation Matrix) 기반 추적 알고리즘 등이 적용될 수 있다. 본 실시 예에서는, 연속된 프레임에 대해서 KLT 알고리즘을 이용해 각 특징점 마다 이전 프레임 대비 현재 프레임에서 y좌표 값이 움직인 값을 추적하여 심장박동에 의한 무의식적 미세 표현 데이터(Micro Expression Data, MED)를 추출한다. 미세 표현 데이터의 추출에는 슬라이딩 윈도우 기법이 이용될 수 있으며, 이때의 윈도우 사이즈는 30s, 인터벌 사이즈는 1s로 설정할 수 있다.

III. 심장 박동 신호 판단

도5는 전술한 미세표현 데이터(MED)에 대한 슬라이딩 윈도우 기법을 포함하는 것으로 심장 박동 신호를 판단하는 과정의 플로우챠트이다.

이 과정은 위의 과정에서 추출된 무의식적 미세 표현 데이터(MED)로부터 미세 표현에 대해 노이즈가 없는 심장 반응에 의한 성분만을 추출하기 위한 과정이다.

i. Bandpass Filter

얼굴의 무의식적 미세 표현 신호에 대해 Butterworth Bandapss Filter (5 order, 0.75-5Hz)를 이용해 심박수 대역에 해당하는 주파수인 0.75Hz(45bpm)~2.5Hz(150bpm) 대역만을 추출한다.

ii. Principal Component Analysis

PCA(Principal Component Analysis)는 각 특징점(Landmark)에서 추출된 얼굴의 무의식 미세 표현 데이터로부터 동일한 성분을 가진 하나의 얼굴 무의식 미세 표현 데이터를 추출하기 위한 과정으로, 주성분 분석을 통해 5개의 컴포넌트(Component)를 추출한다. 각 컴포넌트(Component)에 대해 생체 신호는 주기성을 띈다는 특징을 이용해 가장 높은 주기성을 보이는 컴포넌트 (Component)를 최종 얼굴 미세 표현 데이터로 추출한다. 주기성은 다음과 같이 계산된다.

여기에서, s는 시계열 신호, FFT는 시계열 신호를 주파수 대역으로 변환하기 위한 푸리에 분석 방법, PS는 시계열 신호 s에 대한 주파수 대역의 파워 스펙트럼이다.

여기에서 Max Power는 전체 파워 스펙트럼에서 가장 큰 파워 값

여기에서 Total Power 는 전체 파워 스펙트럼의 합이다.

최종적으로 시계열 신호 s 에 대한 주기성(Periodicity)는 다음과 같이 계산된다.

최종적으로, 교수자 얼굴의 미세 표현으로부터 심장 반응에 대한 주기성 (심박수)이 분석되고, 이 값은 DHT 가 교수자 얼굴의 미세 표현을 하도록 하기 위한 입력 값으로 사용된다.

구체적으로, PCA를 거쳐서 나온 0.75~Hz(45bpm)~2.5Hz(150bpm) 대역의 얼굴 미세 신호는 디지털 휴먼 튜터의 얼굴 랜드마크 특징 점(눈썹, 눈, 코, 입, 턱)의 y좌표에 진폭 값으로 반영된다. 따라서, DHT의 입력값은 얼굴의 외적 표정과 내적 감정이 스며 있는 내적 표정을 동적으로 변화시킨다.

<단계 2> 인식된 교수자의 특징을 적용한 디지털 휴먼 튜터(DHT) 생성

DHT는 <단계 1> 에서 인식된 교수자의 특징 값을 기본 값(default)으로 사용하여 하기와 같은 과정을 진행한다. 교수자의 특징 값은 얼굴의 외적 표정과 내적 감정이 스며 있는 내적 표정에 관계된다.

I. 디지털 휴먼 튜터 (DHT) 생성

<단계1> 에서 교수자의 특징을 인식하기 위해 사용된 정면 영상을 투사하여 가상 아바타의 외관 골격을 형성해주는 자동화된 SW (예: REALLUSION Character Creator3)의 휴먼 모델을 사용하여 DHT를 초기화한다. 이러한 휴먼 모델은 API 또는 DLL (dynamic link library) 로 제공 가능하므로, DHT가 적용되는 어플리케이션에 이식이 가능할 것이다.

II. 디지털 휴먼 튜터 (DHT) 외형 보정

세부적으로 인식된 교수자의 특징 값(눈썹, 눈, 코, 입, 턱)을 기준으로 정규화해 DHT의 외형을 보정한다. DHT로서 전술한 바와 같이 상용화된 가상 아바타가 이용될 수 있으며, 전술한 바와 같은 과정을 통해 얻은 데이터에 기반하여 DHT의 기본적 외적 속성을 셋팅 한다.

III. 교수자 특징 적용

시간에 따른 프레임을 생성하여 <단계1> 에서 인식된 교수자의 심박 대역에 해당하는 주기적인 진동 주파수에 따라 DHT의 얼굴 랜드마크 특징점에 y(수직방향) 좌표의 진폭 값을 변화시킨다. 이러한 교수자 특징의 적용은 교수자의 얼굴 표정 및 감정을 DHT에 복제하여 DHT를 활성화하는 것이며, 따라서 교수자를 몸짓, 얼굴표정, 얼굴에 드러나는 복잡한 감성적 움직임이 활성화된 DHT를 통해서 학습자에게 전달될 수 있다.

<단계3> 생성된 디지털 휴먼 튜터 (DHT) 커스터마이징

전 단계에서 기본 값으로 형성된 DHT의 외형은 사용자가 임의로 커스터마이징 할 수 있다. 커스터마이징할 수 있는 특징 값은 표 1과 같으며 -중립적 특징 값을 기준으로 소정 범위, Character Creator 의 경우 -100에서 +100까지의 범위로 조정할 수 있다.

이와 같은 과정을 통해서, 교수자의 실제 얼굴 표정 및 얼굴에 나타난 감정이 디지털 휴먼 튜터의 표정에 반영할 수 있고, 이로써 보다 효과적인 정보의 전달 또는 감정 전달이 가능하게 될 것이다.

이에 더하여 상기 DHT에 교수자의 제스처 변화에 따른 관절 좌표의 증강하여 반영함으로써 학습자에게 교수자의 감성뿐 아니라 학습자의 관심을 더욱 강화한다.

도6은 DHT의 제스처 증강 방법의 흐름도이며, 이를 참조하면서 DHT 제스처 증강 방법을 설명한다.

여기에서 사용되는 DHT는 전술한 방법에 의해 교수자로부터 얻어진 안면 특징이 반영된 외모를 가진다. DHT의 외모를 인공적으로 형성할 수 도 있으나, 본 개시에서는 DHT 캐릭터 생성부에서 실제 인물의 안면을 촬영한 후, 이로부터 안면 특징을 추출하여, 이를 DHT의 외모 특성으로 반영할 수 있다. 이를 위한 실제 캐릭터 생성기로서 “Character Creator”라는 프로그램을 적용할 수 있다.

상기 실제 인물의 전신 또는 반신을 연속 촬영한다.

실제 인물의 전신 또는 반신 영상으로부터 관절(keypoint)의 좌표를 추출한다. 신체의 관절은 대략 18개이며, 보다 자연스러운 제스처 표현을 위해서는 18개의 관절 좌표의 추출이 바람직하다. 이러한 관절 좌표의 추출에는 다양한 방법이 사용될 수 있으며, 여기에는 머신러닝에 의한 딥러닝 모델이 적용될 수 있다. 알려진 딥러닝 모델에는 cmu, mobilenet_thin, mobilenet_v2_large, mobilenet_v2_small, tf-pose-estimation, openpose 및 vnect 등이 있다. 여기에서의 관절 좌표 추출은 DHT 모델을 실제 인물의 관절에 대응시키기 위한 과정이다.

이 단계에서는 상기 과정에서 추출된 관절 좌표를 상기 과정에서 생성된 DHT의 관절에 1:1 맵핑(mapping) 한다. 즉. DH의 관절의 좌표가 상기 실제 인물의 관절 좌표가 1:1로 상호 연계된다.

여기에서, 관절 좌표의 추출은 전술한 바와 같은 딥러닝 모델로서 cmu, mobilenet_thin, mobilenet_v2_large, mobilenet_v2_small, tf-pose-estimation, openpose 및 vnect 등을 적용한다.

이 단계는 실제 인물의 제스처를 크게 강조하는 제스처 증강을 위한 좌표 증강 단계이다. 관절 좌표의 증감은 원래 추출된 2차원 좌표에 대해서 수행될 수 있다. 본 개시의 다른 실시 예에 따르면, 보다 현실감이 있는 적극적 제스처의 구현을 위하여 상기 2차원 좌표(x, y) 를 3차원 좌표 (x, y, z)로 변환한다. 상기 2차원 좌표 (x, y)는 2차원 영상 이미지 평면에서의 좌표이며, 이에 추가되는 제3의 좌표 “z” 는 영상 이미지 평면에 수직한 방향의 좌표이다. 이러한 변환에 의하면, 원래 추출된 2차원 좌표(x, y)에 z 방향의 좌표가 추가됨으로써 (x, y, z)로 표현되는 3차원 좌표가 구성될 수 있다. 여기에서 상기 좌표는 상기 신체의 특정 영역, 예를 들어, 손 영역이 포함될 수 있으며, 좌표 변환에 의해 손의 위치가 상하, 좌우, 전후로 바뀔 수 있다.

이러한 3차원 변환에는 3차원 자세 추출(3D pose estimation)이 적용될 수 있으며, 이러한 변환을 위한 알고리즘에는 Mutual PnP, Lifting from the Deep (Denis Tome, Chris Russell, Lourdes Agapito, 2017) 등이 있다.

상기 3차원 관절 좌표의 수는 입력된 2차원 좌표의 수인 18 보다 증가되게 되는데, 예를 들어 최대 3차원 관절 좌표의 수 54에 이를 수 있다. 이때의 제스처의 증강은 좌표의 증감 또는 좌표상 각도의 증강을 포함할 수 있다.

상기와 같은 과정으로 증강된 좌표, 예를 들어 증강된 2차원 또는 3차원 관절 좌표를 DHT 모델에 적용하여, 증강된 제스처를 DHT에 구현한다.

상기와 같은 증강된 제스처를 가지는 DHT를 목표 동영상에서 구현하여 활성화하고, 이와 동시에 다음의 실제 인물의 제스처 변화 검출을 위해 강의 중에 있는 교수자를 연속 촬영하면서, 전술한 <S65 단계>로 복귀시켜 전술한 바와 같은 루틴을 반복시키면서 증강된 제스쳐를 가지는 DHT를 구현한다.

정리하면, 초기에 DHT 객체를 생성한 후, 이 DHT 객체의 관절 특성을 실제 인물의 관절에 맵핑하여, DHT의 초기화를 수행하고, 이 이후에 연속적으로 실제 인물의 관절 좌표를 인식하여 이를 증강한 후, 이를 DHT 객체 반영하여 활성화하는 과정이 본 개시의 주요 과정이다.

본 개시에서 언급된 관절은 도7에 도시된 바와 같이 18개의 관절로 분류된다.

도7을 참조하면 실제 인물로부터 추출되는 관절의 최대 수는 18이며, 여기에는 팔다리, 어깨 관절 뿐 아니라 안면의 코, 양 눈, 양 귀, 입 그리고 목이 포함된다.

위의 관절에서 보다 자연스러운 자체 또는 제스처 구현을 위해서는 모든 관절이 사용되는 것이 필요한다.

다음에서는 실제 구현된 증강된 제스처의 DHT를 설명한다.

도8은 영상을 통해 학습을 지도하는 교수자(Tutor), 즉 DHT(Digital Human Tutor)를 예시한다. 도8의 영상에서는 DHT는 소극적으로 양 손을 상체 안쪽에 위치하고 있다.

도9는 DH의 제스처를 일부 증강한 것으로 3차원 좌표에서 x 방향의 각도를증강한 예를 보인다.

도8과 도9를 비교해서 알 수 있듯이, 도8에 비해 도9은 보다 적극적이고 활발한 손동작을 보이고 있다.

도9는 DHT의 3차원 좌표에서 x 방향의 각도를 증강한 예를 보이고, 도10은 y 방향의 각도를 증강한 예를 보이고, 그리고, 도11은 z 방향의 증강을 보인다. 그리고, 도12는 x, y, z 모든 방향으로의 증강을 보인다.

도13은 증강 전의 DHT(좌측)와 x, y, z 모든 방향으로 좌표 각도 증강이 이루어진 DHT(우측)를 비교해 보인다.

도13에 비교 도시된 바와 같이, 증강 전에 비해 증강 후의 자세가 보다 적극적이고 동적임을 느낄 수 있다. 이는 DH의 비언어적 표현이 매우 강하게 표현됨을 보여 준다.

상기와 같은 영상의 변환에는 다양한 프로그램형태의 동영상 제어기가 사용될 수 있는데, 예를 들어 Unity 라는 소프트웨어를 이용할 수 있다.

Unity에서 각 관절의 움직임은 Unity에서 제공되는 slider UI의 0~10 사이의 범위 값으로 증강시킬 수 있으며,각 관절의 증강은 관절 각도 값이 소정 범위, 예를 들어 최대 50도에서 -50도 범위로 증감될 수 있다. 도6내지 도9에 도시된 바와 같이 팔 부분 제스처의 증강을 원하는 경우 영상 처리자가 팔 부분에 해당하는 관절을 선택하고 관절의 x, y, z 각도를 각각 선택하여 0~10 사이의 범위 값으로 각도 값을 증강시키게 된다.

위의 방법에 의해 생성되는 DHT는 다양한 분야에 적용될 수 있으며, 여기에는 영상 학습 시스템에서 DHT로 적용할 수 있다. 영상 학습 시스템에서 교수자의 r감성 및 언어적 표현뿐 아니라 몸의 제스처로 나타나는 비언어적 표현까지도 학습자에게 효과적으로 전달할 수 있고, 따라서 학습효율의 상승이 가능하게 된다. 이러한 비언어적 표현의 전달은 가상 세계에서도 유용하게 사용될 수 있다.

도14는 전술한 바와 같은 DHT에 의한 강의 영상을 제작하는 과정을 도식화한 것이며, 도15은 이를 위한 시스템의 구조를 개략적으로 보인다.

도14과 도15을 참조하면 강의 영상의 제작에는 두 개의 카메라(31a, 31b)가 필요하다.

하나의 카메라(31a)는 실제 교수자의 얼굴을 촬영하여 영상 프로세서(31)를거친 후 전술한 바와 같은 과정을 통해 교수자의 외형과 닮은 DHT를 캐릭터 생성부(33)를 이용해 생성한다.

그리고 다른 하나의 카메라(31b)로는 교수자에 의한 강의 내용을 촬영하고, 이로부터 전술한 바와 같은 과정을 통해 영상 프로세서(32)에 의해 안면 및 관절을 검출하고 및 특성 프로세서(34)에 의해 교수자의 표정, 시선, 제스쳐 등의 변화를 감지하여 특성 값 변수를 측정 또는 추출한다.

위와 같은 과정에서 얻은 DHT 모델에 대해 상기 특성값 변수를 대입 또는 이식함으로써 DHT 모델을 활성화한다.

DHT 모델의 활성화는 교수자의 외형에 더불어 교수자의 얼굴 표정, 시선, 제스쳐를 가지도록 DHT 모델에 이식하는 DHT 모델 특성 제어부(35)에 의해 이루어진다. 이러한 과정을 통해 생성된 강의 영상은 매체에 저장되고 그리고 상기 매체를 통해 강의 영상은 배포된다.

도16은 본 개시의 한 실시 예에 따라, 상기 강의 영상을 이용해 온라인 강의를 수강하는 수강 시스템(1)을 개략적으로 도시한다.

상기 수강 시스템(1)은 상기 강의 영상 자료를 내려 받거나 아니면 스트리밍을 통해 재생하며, 이를 학습자(20)에게 디스플레이(12)를 통해 전달한다. 학습자(20)에게 디스플레이(12)를 통해 제시되는 강의 영상은 대부분 음향 성분을 포함하므로 이를 재생하는 음향 장치가 수강 시스템(1)에 추가로 부가될 수 있다. 상기 수강 시스템(1)은 일반적인 컴퓨터를 기반으로 하므로 컴퓨터에 기본적으로 장착되는 키보드(14), 마우스(15), 모니터(12) 등 입출력 장치 및 이들이 연결되는 본체(11)를 포함하는 컴퓨터 시스템(1)을 기반하는 하드웨어의 구조를 가진다.

이상에서 살펴본 바와 같이 본 발명의 모범적 실시 예들에 대해 상세히 기술되었지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구 범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형하여 실시할 수 있을 것이다. 따라서 본 발명의 앞으로의 실시 예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

Claims

카메라에 의해 실제 교수자의 안면 영상과 강의 영상을 획득하는 단계;
영상 프로세서에 의해 상기 실사 영상으로부터 교수자의 관절(keypoint) 좌표와 얼굴의 외형적 특징을 추출하는 단계;
특성 프로세서에 의해 상기 얼굴의 외형적 특징으로부터 외형적 특징 변화와 상기 관절 좌표의 값에 대한 증강 가중치를 결정하는 단계;
캐릭터 생성부에 의해 상기 교수자의 얼굴 특징안면 영상을 이용하여 교수자의 안면 영상에 대응하는 디지털 휴먼 튜터를 생성하는 단계; 그리고
캐릭터 제어부에 의해 상기 외형적 특징을 상기 디지털 휴먼 튜터에 반영하되, 상기 증강된 관절 좌표에 의해 상기 디지털 휴먼 튜터의 관절 좌표를 변화시키는 디지털 휴먼 튜터를 활성화하는 단계;를 포함하는, 제스처 증강 디지털 휴먼 튜터의 생성 방법.
제1항에 있어서,
상기 관절 좌표를 추출하는 단계:는
상기 영상 분석부에 의해 2차원 평면 상의 관절 좌표를 추출하는 단계; 그리고
3D 분석기를 이용해 상기 2차원 평면에 수직인 제3의 방향(z)를 추론하여, 3차원 관절 좌표(x, y, z)를 추출하는 단계;를 포함하는, 제스처 증강 디지털 휴먼 튜터의 생성 방법.
제2항에 있어서,
상기 증강 가중치를 결정하는 단계에서,
상기 3차원 관절 좌표에서 x, y, z 3개의 좌표 중 적어도 하나의 관절 좌표에 대한 가중치를 결정하는, 제스처 증강 디지털 휴먼 튜터의 생성 방법.
제1항에 있어서,
상기 교수자의 외형적 특징을 추출하는 단계에서,
상기 강의 영상에서 교수자의 특징점을 추출하고, 추출된 특징점의 움직임 데이터를 추출하고, 상기 움직임 데이터로부터 미세 표현 데이터를 추출하는, 제스처 증강 디지털 휴먼 튜터의 생성 방법.
제4항에 있어서,
상기 미세 표현 데이터를 추출하기 위하여 상기 특징점 추적에 KLT (Kanade-Lucas-Tomasi) 추적 알고리즘 또는 TM (Transformation Matrix) 기반 추적 알고리즘를 적용하는, 제스처 증강 디지털 휴먼 튜터의 생성 방법.
제4항 또는 제5항에서, 상기 미세 표현 데이터로부터 무의식적 미세 표현 데이터를 추출하기 위하여, 미세 표현 데이터에 대한 소정 주파수의 필터링을 수행하고, 필터링 된 미세표현 데이터에 대해 주성분 분석(PCA)에 의해 심박의 주기성을 판단하고, 상기 주기성이 상기 디지털 휴먼 튜터의 미세 표현을 위한 입력 값으로 사용하는, 제스처 증강 디지털 휴먼 튜터의 생성 방법.
제6항에 있어서,
상기 교수자의 외형적 특징은 FACS에서 정의하는 특징점(Landmark)으로 추출되며, 상기 디지털 휴먼 튜터에 대해서는 상기 특징점에 의한 AU 단위로 상기 외형적 특징을 반영하는, 제스처 증강 디지털 휴먼 튜터의 생성 방법.
제1항 내지 제5항 중의 어느 한 항에 있어서,
상기 교수자의 외형적 특징은 FACS에서 정의하는 특징점(Landmark)으로 추출되며, 상기 디지털 휴먼 튜터에 대해서는 상기 특징점에 의한 AU 단위로 상기 외형적 특징을 반영하는, 제스처 증강 디지털 휴먼 튜터의 생성 방법.
실제 교수자의 안면 영상과 강의 영상을 획득하는 하나 이상의 카메라;
상기 실사 영상으로부터 실제 인물의 관절(keypoint) 좌표와 얼굴의 외형적 특징을 추출하는 영상 프로세서;
상기 교수자의 강의 중 안면 영상에서 얼굴의 외형적 특징 변화와 상기 관절좌표의 변화를 추출하고, 상기 관절 좌표의 값에 대한 증강 가중치를 결정하는 특성 프로세서;
상기 교수자의 안면 영상을 이용하여 교수자의 안면 영상에 대응하는 디지털 휴먼 튜터를 생성하는 캐릭터 생성부;
상기 외형적 특징을 상기 디지털 휴먼 튜터에 반영하되, 상기 증강된 관절 좌표에 의해 상기 디지털 휴먼 튜터의 관절 좌표를 변화시키는 디지털 휴먼 튜터를 활성화하는 캐릭터 제어부; 그리고
상기 디지털 휴먼 튜터가 포함된 강의 영상을 생성하는 강의 영상 생성부;를 포함하는, 제스처 증강 디지털 휴먼 튜터의 생성 시스템.
제9항에 있어서,
상기 캐릭터 생성부는, 외형적 특징을 추출하는 단계에서 상기 안면 영상에 특징점을 추출하고, 상기 특징점을 이용해 상기 디지털 휴먼 튜터의 외형을 설정하는, 제스처 증강 디지털 휴먼 튜터의 생성 시스템.
제10항에 있어서,
상기 캐릭터 생성부는 상기 안면 영상에 특징점을 추출하고, 상기 특징점을 이용해 상기 디지털 휴먼 튜터의 외형을 설정하는, 제스처 증강 디지털 휴먼 튜터의 생성 시스템.
제11항에 있어서,
캐릭터 생성부는 상기 특징점으로 FACS에 정의하는 랜드마크로부터 선택하는,디지털 휴먼 튜터의 생성 시스템.
제11항에 있어서,
상기 특성 프로세서는 강의 영상에서 교수자의 특징점을 추출하고, 추출된 특징점의 움직임 데이터를 추출하고, 상기 움직임 데이터로부터 미세 표현 데이터를 추출하는, 제스처 증강 디지털 휴먼 튜터의 생성 시스템.
제13항에 있어서,
상기 특성 프로세서는, 상기 미세 표현 데이터를 추출하기 위하여 상기 특징점 추적에 KLT (Kanade-Lucas-Tomasi) 추적 알고리즘 또는 TM (Transformation Matrix) 기반 추적 알고리즘를 적용하는, 제스처 증강 디지털 휴먼 튜터의 생성 시스템.
제14항에 있어서,
상기 특성 프로세서는, 상기 미세 표현 데이터로부터 무의식적 미세 표현 데이터를 추출하기 위하여, 미세 표현 데이터에 대한 소정 주파수의 필터링을 수행하고, 필터링된 미세표현 데이터에 대해 주성분 분석(PCA)에 의해 심박의 주기성을 판단하고, 상기 주기성을 상기 디지털 휴먼 튜터의 미세 표현을 위한 입력 값으로 사용하는, 제스처 증강 디지털 휴먼 튜터의 생성 시스템.
제15항에 있어서,
상기 특성 프로세서는 상기 교수자의 외형적 특징으로 FACS에서 정의하는 특징점(Landmark)으로 추출하며, 상기 디지털 휴먼 튜터에 대해서는 상기 특징점에 의한 안면 근육 AU(Action Unit) 단위로 상기 외형적 특징을 반영하는, 제스처 증강 디지털 휴먼 튜터의 생성 시스템.
제9항에 있어서,
상기 특성 프로세서는
상기 영상 분석부에 의해 2차원 평면 상의 관절 좌표를 추출하고, 그리고
3D 분석기를 이용해 상기 2차원 평면에 수직인 제3의 방향(z)를 추론하여, 3차원 관절 좌표(x, y, z)를 추출하는, 제스처 증강 디지털 휴먼 튜터의 생성 시스템.
제17항에 있어서,
상기 특성 프로세서는, 상기 3차원 관절 좌표에서 x, y, z 3개의 좌표 중 적어도 하나의 관절 좌표에 대한 증강 가중치를 결정하는, 제스처 증강 디지털 휴먼 튜터의 생성 시스템.