KR101807513B1

KR101807513B1 - 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치 및 분석방법

Info

Publication number: KR101807513B1
Application number: KR1020150066506A
Authority: KR
Inventors: 김진우
Original assignee: 한국전자통신연구원
Priority date: 2015-05-13
Filing date: 2015-05-13
Publication date: 2017-12-12
Also published as: US20160335485A1; KR20160133676A; US9886623B2

Abstract

3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치 및 분석방법이 개시된다. 본 발명의 일 면에 따른 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치는, 복수 카메라의 물리적인 상대 위치와, 상기 복수 카메라가 주변 환경을 촬영하여 생성한 영상 정보를 이용하여 상기 주변 환경에 대한 3차원 가상 공간을 생성하는 3차원 공간 생성부; 상기 3차원 가상 공간 상에서 상기 영상 정보에 포함되어 있는 제1 객체 및 제2 객체의 상대적인 위치를 추정하고, 상기 제1 객체 및 상기 제2 객체의 상대적인 위치에 기초하여 상기 제1 객체와 상기 제2 객체에 대한 접촉 정보를 생성하는 3차원 영상 분석부; 상기 접촉 정보를 사전에 학습된 행동패턴과 비교하여, 상기 제1 객체 또는 상기 제2 객체를 조작하는 사용자의 행동패턴을 인식하는 행동패턴 인식부; 및 인식된 행동패턴에 따른 사용자 의도를 온톨로지 기반으로 추론하는 사용자 의도 인식부를 포함한다.

Description

3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치 및 분석방법{THE ANALYSIS APPARATUS AND METHOD OF USER INTENTION USING VIDEO INFORMATION IN THREE DIMENSIONAL SPACE}

본 발명은 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치 및 분석방법에 관한 것으로서, 보다 상세하게는 실제 세계를 복원한 3차원 가상 공간에서 인식된 사용자의 손과 사용자의 머리 사이의 상호작용을 분석하여 사용자 의도를 인식하는 사용자 의도 분석장치 및 분석방법에 관한 것이다.

종래의 차량용 운전자 모니터링 시스템은 운전자의 얼굴 표정을 분석하거나, 눈의 깜빡임 혹은 깜빡임 주기 및 패턴을 분석하여 졸음, 주의 분산, 감정을 분석하는 것에 초점을 두고 있다.

또한, 차량용 증강현실 구현을 위해서 운전자의 시선을 추적하여 3차원 객체를 증강시키고, 운전자의 자세, 동작을 인식하여 차량용 UI를 조작하는 연구가 이루어지고 있다.

이미 BMW, AUDI, BenZ, GM, Continental, Denso 등 세계적인 자동차 기업들은 고유의 음성, 터치, 동작 인식 등으로 구성된 차량용 멀티모달 인터페이스가 결합된 휴먼 머신 인터페이스 사용자 경험(HMI UX: Human Machine Interface User eXperience)를 확보하여 상용화 단계에 진입했다.

하지만, 기존의 단 방향성을 가진 동작 인식, 얼굴 표정 인식 기술만으로는 운전자의 의도를 정확히 분석하기 어렵고, 또한 기존의 동작 인식 기술들은 운전자에 따라 매번 보정작업(Calibration)을 해야 하는 문제점을 가지고 있다.

본 발명은 상술한 종래 기술의 문제점을 해결하기 위하여, 실제 세계를 복원한 3차원 공간에서 한 사람의 신체 부위 간의 상대적인 위치 관계를 분석한, 접촉/비접촉 정보를 이용하여 사용자의 의도를 정확하게 인식하는 분석장치 및 그 분석방법을 제공하는 것을 목적으로 한다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상술한 본 발명의 목적을 달성하기 위한 본 발명의 일 면에 따른 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치는, 복수 카메라의 물리적인 상대 위치와, 상기 복수 카메라가 주변 환경을 촬영하여 생성한 영상 정보를 이용하여 상기 주변 환경에 대한 3차원 가상 공간을 생성하는 3차원 공간 생성부; 상기 3차원 가상 공간 상에서 상기 영상 정보에 포함되어 있는 제1 객체 및 제2 객체의 상대적인 위치를 추정하고, 상기 제1 객체 및 상기 제2 객체의 상대적인 위치에 기초하여 상기 제1 객체와 상기 제2 객체에 대한 접촉 정보를 생성하는 3차원 영상 분석부; 상기 접촉 정보를 사전에 학습된 행동패턴과 비교하여, 상기 제1 객체 또는 상기 제2 객체를 조작하는 사용자의 행동패턴을 인식하는 행동패턴 인식부; 및 인식된 행동패턴에 따른 사용자 의도를 온톨로지 기반으로 추론하는 사용자 의도 인식부를 포함한다.

상기 3차원 공간 생성부는, 상기 주변 환경을 제1 방향으로 촬영하는 제1 카메라가 생성하는 3차원 공간의 복셀(Voxel)과 상기 주변 환경을 제2 방향으로 촬영하는 제2 카메라가 생성하는 3차원 공간의 복셀(Voxel)이 이루는 교차된 3차원 공간에 대해, 상기 3차원 가상 공간을 생성한다.

상기 3차원 영상 분석부는, 상기 제1 객체 및 상기 제2 객체의 3차원 위치를 추정하여, 상기 제1 객체 및 상기 제2 객체에서 랜드마크로 사용할 제1 특징점 및 제2 특징점을 검출하고, 상기 제1 특징점 및 상기 제2 특징점을 상기 제1 객체 및 상기 제2 객체를 모델링한 3차원 모델에 정합시킨다.

또한, 상기 3차원 영상 분석부는 상기 제1 특징점 및 상기 제2 특징점이 정합된 상기 제1 객체의 3차원 모델과 상기 제2 객체의 3차원 모델의 위치를 추적하여, 상기 제1 객체와 상기 제2 객체에 대한 접촉 정보를 생성한다.

또한, 상기 3차원 영상 분석부는 상기 제1 특징점 및 상기 제2 특징점이 정합된 상기 제1 객체의 3차원 모델과 상기 제2 객체의 3차원 모델 상의 임의의 점 또는 임의의 영역에 식별자(ID)를 부여하고, 식별자가 부여된 임의의 점 또는 임의의 영역(이하, 노드라고 칭함)과, 다른 노드들 간의 접촉 여부와, 해당 노드들의 식별자를 포함하는 n차원의 접촉 정보를 생성한다.

또한, 상기 3차원 영상 분석부는 기 정의된 임계 거리와 각 노드들 간의 거리를 비교하여 각 노드들 간의 접촉 정보를 접촉, 인접, 비접촉으로 구분하여 생성한다.

또한, 상기 3차원 영상 분석부는 상기 주변 환경을 제1 방향에서 촬영한 영상정보를 이용하여 객체에 대한 제1 감지정보를 생성하는 제1 감지부와, 상기 주변 환경을 제2 방향에서 촬영한 영상정보를 이용하여 객체에 대한 제2 감지정보를 생성하는 제2 감지부와, 상기 제1 객체에 대한 제1 스캔 데이터를 생성하는 제1 스캔부와, 상기 제2 객체에 대한 제2 스캔 데이터를 생성하는 제2 스캔부와, 상기 제1 및 제2 감지정보를 조합하여 검출된 상기 제1 객체에서 랜드마크로 사용되는 특징점을 상기 제1 스캔 데이터와 정합하는 제1 정합부와, 상기 제1 및 제2 감지정보를 조합하여 검출된 상기 제2 객체에서 랜드마크로 사용되는 특징점을 상기 제2 스캔 데이터와 정합하는 제2 정합부와, 상기 제1 정합부에서 정합 결과 출력되는 상기 제1 객체의 3차원 모델과, 상기 제2 정합부에서 정합 결과 출력되는 상기 제2 객체의 3차원 모델에 대한 접촉 정보를 생성하는 접촉 판단부를 포함한다.

상기 행동패턴 인식부는, 학습된 사용자의 행동패턴을 저장하는 사용자 경험 저장부와, 상기 접촉 정보에 포함되어 있는 n-차원의 벡터로부터 상기 학습된 사용자의 행동패턴을 분류하는 행동패턴 분석부와, 분류된 행동패턴을 상기 접촉 정보에 해당하는 사용자의 행동패턴으로 인식하여 출력하는 행동패턴 출력부를 포함한다.

상기 사용자 의도 인식부는, 사용자의 행동패턴과 사용자의 의도 사이의 상관관계를 온톨로지 기반으로 분석한 정보를 저장하는 사용자 경험 분석부와, 상기 사용자 경험 분석부에서 분석된 사용자의 행동패턴과 사용자 의도 사이의 상관관계에 기초하여, 상기 행동패턴 인식부에서 인식된 사용자의 행동패턴에 해당하는 사용자 의도를 판단하는 사용자 의도 판단부와, 상기 사용자 의도 판단부에서 판단된 사용자 의도와 인식된 사용자의 행동패턴 사이의 상관관계를 학습하고, 학습된 결과를 상기 사용자 경험 분석부에 전달하는 사용자 경험 학습부를 포함한다.

한편, 상술한 본 발명의 목적을 달성하기 위한 본 발명의 다른 면에 따른 3차원 공간에서 영상정보를 이용한 사용자 의도 분석방법은, 복수 카메라의 물리적인 상대 위치와, 상기 복수 카메라가 주변 환경을 촬영하여 생성한 영상 정보를 이용하여 상기 주변 환경에 대한 3차원 가상 공간을 생성하는 단계; 상기 3차원 가상 공간 상에서 상기 영상 정보에 포함되어 있는 제1 객체 및 제2 객체의 상대적인 위치를 추정하고, 상기 제1 객체 및 상기 제2 객체의 상대적인 위치에 기초하여 상기 제1 객체와 상기 제2 객체에 대한 접촉 정보를 생성하는 단계; 상기 접촉 정보를 사전에 학습된 행동패턴과 비교하여, 상기 제1 객체 또는 상기 제2 객체를 조작하는 사용자의 행동패턴을 인식하는 단계; 및 인식된 행동패턴에 따른 사용자 의도를 온톨로지 기반으로 추론하는 단계를 포함한다.

상기 3차원 가상 공간을 생성하는 단계는, 상기 주변 환경을 제1 방향으로 촬영하는 제1 카메라가 생성하는 3차원 공간의 복셀(Voxel)과 상기 주변 환경을 제2 방향으로 촬영하는 제2 카메라가 생성하는 3차원 공간의 복셀(Voxel)이 이루는 교차된 3차원 공간에 대해, 상기 3차원 가상 공간을 생성하는 단계를 포함한다.

상기 접촉 정보를 생성하는 단계는, 상기 제1 객체 및 상기 제2 객체의 3차원 위치를 추정하여, 상기 제1 객체 및 상기 제2 객체에서 랜드마크로 사용할 제1 특징점 및 제2 특징점을 검출하고, 상기 제1 특징점 및 상기 제2 특징점을 상기 제1 객체 및 상기 제2 객체를 모델링한 3차원 모델에 정합시키는 단계를 포함한다.

또한, 상기 접촉 정보를 생성하는 단계는, 상기 제1 특징점 및 상기 제2 특징점이 정합된 상기 제1 객체의 3차원 모델과 상기 제2 객체의 3차원 모델의 위치를 추적하여, 상기 제1 객체와 상기 제2 객체에 대한 접촉 정보를 생성하는 단계를 포함한다.

또한, 상기 접촉 정보를 생성하는 단계는, 상기 제1 특징점 및 상기 제2 특징점이 정합된 상기 제1 객체의 3차원 모델과 상기 제2 객체의 3차원 모델 상의 임의의 점 또는 임의의 영역에 식별자(ID)를 부여하고, 식별자가 부여된 임의의 점 또는 임의의 영역(이하, 노드라고 칭함)과, 다른 노드들 간의 접촉 여부와, 해당 노드들의 식별자를 포함하는 n차원의 접촉 정보를 생성하는 단계를 포함한다.

또한, 상기 접촉 정보를 생성하는 단계는, 기 정의된 임계 거리와 각 노드들 간의 거리를 비교하여 각 노드들 간의 접촉 정보를 접촉, 인접, 비접촉으로 구분하여 생성하는 단계를 포함한다.

또한, 상기 접촉 정보를 생성하는 단계는, (a) 상기 주변 환경을 제1 방향에서 촬영한 영상정보를 이용하여 객체에 대한 제1 감지정보를 생성하는 단계와, (b) 상기 주변 환경을 제2 방향에서 촬영한 영상정보를 이용하여 객체에 대한 제2 감지정보를 생성하는 단계와, (c) 상기 제1 객체에 대한 제1 스캔 데이터를 생성하는 단계와, (d) 상기 제2 객체에 대한 제2 스캔 데이터를 생성하는 단계와, (e) 상기 제1 및 제2 감지정보를 조합하여 검출된 상기 제1 객체에서 랜드마크로 사용되는 특징점을 상기 제1 스캔 데이터와 정합하는 단계와, (f) 상기 제1 및 제2 감지정보를 조합하여 검출된 상기 제2 객체에서 랜드마크로 사용되는 특징점을 상기 제2 스캔 데이터와 정합하는 단계와, (g) 상기 제1 객체에서 검출된 특징점과 상기 제1 스캔 데이터의 정합 결과 출력되는 상기 제1 객체의 3차원 모델과, 상기 제2 객체에서 검출된 특징점과 상기 제2 스캔 데이터의 정합 결과 출력되는 상기 제2 객체의 3차원 모델에 대한 접촉 정보를 생성하는 단계를 포함한다.

이 때, 상기 (g) 단계는, 상기 제1 특징점 및 상기 제2 특징점이 정합된 상기 제1 객체의 3차원 모델과 상기 제2 객체의 3차원 모델 상의 임의의 점 또는 임의의 영역에 식별자(ID)를 부여하는 단계와, 식별자가 부여된 임의의 점 또는 임의의 영역(이하, 노드라고 칭함)과, 다른 노드들 간의 접촉 여부와, 해당 노드들의 식별자를 포함하는 n차원의 접촉 정보를 생성하는 단계를 포함한다.

상기 행동패턴을 인식하는 단계는, 상기 접촉 정보에 포함되어 있는 n-차원의 벡터로부터 학습된 사용자의 행동패턴을 분류하는 단계와, 분류된 행동패턴을 상기 접촉 정보에 해당하는 사용자의 행동패턴으로 인식하여 출력하는 단계를 포함한다.

상기 추론하는 단계는, 사용자의 행동패턴과 사용자의 의도 사이의 상관관계를 온톨로지 기반으로 분석한 정보를 저장하는 단계와, 사용자의 행동패턴과 사용자 의도 사이의 상관관계에 기초하여, 인식된 사용자의 행동패턴에 해당하는 사용자 의도를 판단하는 단계와, 판단된 사용자 의도와 인식된 사용자의 행동패턴 사이의 상관관계를 학습하는 단계를 포함한다.

이상 상술한 바와 같은 본 발명에 따르면, 사용자의 얼굴을 인식할 때, 손에 의해 얼굴이 가려지거나, 또는 햇빛 혹은 그림자의 영향으로 얼굴이 가려지는 현상(Occlusion)을 극복하여, 사용자의 얼굴 인식률을 향상시킬 수 있다.

또한, 본 발명은 손, 얼굴 간의 관절 수준의 움직임 분석을 통해, 사용자의 경험을 추정하므로 구체적이고 다양한 사용자 의도를 분석할 수 있다.

또한, 본 발명은 사용자의 감정과 상황에 따라 표출되는 얼굴과 손 간의 접촉 여부를 3차원 모델 기반으로 판단하여 사용자 경험을 학습함으로써, 의미 있는 행동 분석에 유리한 면이 있다.

도 1은 본 발명의 실시예에 따른 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치의 구성을 도시한 블록도.
도 2는 도 1에 도시된 3차원 공간 생성부에서 생성된 가상의 3차원 공간에서 객체들 간의 상대적인 위치 관계를 도시한 개념도.
도 3은 도 1에 도시된 3차원 영상 분석부의 구성을 도시한 블록도.
도 4는 본 발명의 실시예에 따라 사용자의 얼굴/머리 표면과 손가락 간의 접촉 여부를 판단하는 방식을 설명하기 위한 개념도.
도 5는 도 1에 도시된 행동 패턴 인식부 의 구성을 도시한 블록도.
도 6은 도 1에 도시된 사용자 의도 인식부의 구성을 도시한 블록도.
도 7은 본 발명의 실시예에 따른 3차원 공간에서 영상정보를 이용한 사용자 의도 분석방법을 도시한 흐름도.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가급적 동일한 부호를 부여하고 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있는 경우에는 그 상세한 설명은 생략한다.

도 1은 본 발명의 실시예에 따른 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치의 구성을 도시한 블록도이다.

도 1을 참조하면, 본 발명의 실시예에 따른 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치는, 3차원 공간 생성부(100), 3차원 영상 분석부(200), 행동패턴 인식부(300), 사용자 의도 인식부(400)를 포함하여 구성된다.

3차원 공간 생성부(100)는 복수 카메라의 물리적인 상대 위치와, 상기 복수 카메라가 주변 환경을 촬영하여 생성한 영상 정보를 이용하여 상기 주변 환경에 대한 3차원 가상 공간을 생성한다.

이 때, 상기 3차원 공간 생성부(100)는 특정 공간의 주변 환경에 대하여 카메라를 통해 촬영하여 생성한 영상 정보를 입력 받는다. 여기서, 카메라는 컬러 카메라(color camera) 또는 깊이 카메라(depth camera)가 될 수 있다. 이하에서는, 도 2를 참조하여 상기 3차원 공간 생성부(100)가 주변 환경에 대한 3차원 가상 공간을 생성하는 방법에 대해 설명한다.

도 2는 도 1에 도시된 3차원 공간 생성부에서 생성된 가상의 3차원 공간에서 객체들 간의 상대적인 위치 관계를 도시한 개념도이다.

도 2를 참조하면, 특정 공간의 일정한 위치에 깊이 카메라(D101, D102)와 가상의 3차원 공간 생성을 위해 랜드마크로 사용되는 장치들(DW101, DW102, DW103)이 설치된 예가 도시된다. 만약, 특정 공간을 차량 내부로 가정한다면, 랜드마크로 사용되는 장치들(DW101, DW102, DW103)은 룸 미러, 사이드 미러, 네비게이션 장치 등이 될 수 있다.

깊이 카메라(D101, D102)와 랜드마크로 사용되는 장치들(DW101, DW102, DW103) 간의 물리적인 상대적인 위치는 알려져 있고, 상기 3차원 공간 생성부(100)는 알려져 있는 깊이 카메라(D101, D102)와 랜드마크로 사용되는 장치들(DW101, DW102, DW103) 간의 물리적인 상대적인 위치를 이용하여 가상의 3차원 좌표계를 생성한다.

여기서, 각각의 깊이 카메라(D101, D102)는 물리적으로 다른 위치에 설치되어 주변 환경에 대해 서로 다른 방향에서 촬영된 영상정보를 생성한다. 예컨대, 차량 내부에서 깊이 카메라(D101)는 차량 천정에 설치되어 운전자의 머리 위를 촬영한 영상정보(W101)를 생성하고, 깊이 카메라(D102)는 대시보드나 클러스터 등에 설치되어 운전자의 정면을 촬영한 영상정보(W102)를 생성할 것이다.

상기 3차원 공간 생성부(100)는 깊이 카메라(D101)이 생성하는 3차원 영상정보(W101)의 복셀(Voxel)과 깊이 카메라(D102)가 생성하는 3차원 영상정보의 복셀(Voxel)이 이루는 교차된 3차원 공간(W103)에 대해, 3차원 가상 좌표계 상에서 3차원 가상 공간을 생성한다. 즉, 상기 3차원 공간 생성부(100)는 각각의 깊이 카메라(D101, D102)가 생성하는 각 복셀(Voxel)의 위치 정보로부터 상대 위치를 복원하여 교차된 3차원 공간(W103)에 대한 3차원 가상 공간을 생성한다. 이 때, 3차원 가상 공간에서 객체들 간의 상대적인 위치정보는 파악될 수 있다.

3차원 영상 분석부(200)는 상기 3차원 가상 공간 상에서 상기 영상 정보에 포함되어 있는 제1 객체 및 제2 객체의 상대적인 위치를 추정하고, 상기 제1 객체 및 상기 제2 객체의 상대적인 위치에 기초하여 상기 제1 객체와 상기 제2 객체에 대한 접촉 정보를 생성한다.

상기 3차원 영상 분석부(200)는 상기 3차원 공간 생성부(100)에서 생성된 3차원 가상 공간 상에서 상기 제1 객체 및 상기 제2 객체의 3차원 위치를 추정하여, 상기 제1 객체 및 상기 제2 객체에서 랜드마크로 사용할 제1 특징점 및 제2 특징점을 검출하고, 상기 제1 특징점 및 상기 제2 특징점을 상기 제1 객체 및 상기 제2 객체를 모델링한 3차원 모델에 정합시킨다.

또한, 상기 3차원 영상 분석부(200)는 상기 제1 특징점 및 상기 제2 특징점이 정합된 상기 제1 객체의 3차원 모델과 상기 제2 객체의 3차원 모델의 위치를 추적하여, 상기 제1 객체와 상기 제2 객체에 대한 접촉 정보를 생성한다.

예컨대, 상기 3차원 영상 분석부(200)는 상기 제1 특징점 및 상기 제2 특징점이 정합된 상기 제1 객체의 3차원 모델과 상기 제2 객체의 3차원 모델 상의 임의의 점 또는 임의의 영역에 식별자(ID)를 부여하고, 식별자가 부여된 임의의 점 또는 임의의 영역(이하, 노드라고 칭함)과, 다른 노드들 간의 접촉 여부와, 해당 노드들의 식별자를 포함하는 n차원의 접촉 정보를 생성한다.

이 때, 상기 3차원 영상 분석부(200)는 기 정의된 임계 거리와 각 노드들 간의 거리를 비교하여 각 노드들 간의 접촉 정보를 접촉, 인접, 비접촉으로 구분하여 생성할 수 있다.

만약, 상기 3차원 가상 공간이 차량 내부의 주변 환경을 복원한 것이라고 가정한다면, 상기 제1 객체 및 상기 제2 객체는 운전자의 머리/얼굴 및 손/손가락이 될 수 있다. 이하에서는 설명의 편의를 위해, 상기 3차원 가상 공간이 차량 내부의 주변 환경을 복원한 것이라고 가정하고, 차량 내부의 주변 환경을 촬영한 영상에서 운전자의 머리/얼굴과 손/손가락 간의 위치관계에 따라 접촉 정보를 생성하는 예를 설명한다.

도 3은 도 1에 도시된 3차원 영상 분석부의 구성을 도시한 블록도이다.

도 3을 참조하면, 3차원 영상 분석부(200)는 제1 감지부(210), 제2 감지부(220), 손/손가락 정합부(230), 머리/얼굴 정합부(240), 손 스캔부(250), 머리/얼굴 스캔부(260), 손 모델링부(270), 머리/얼굴 모델링부(280), 접촉 판단부(290)를 포함하여 구성될 수 있다.

제1 감지부(210)는 차량 내부의 주변 환경을 제1 방향에서 촬영한 영상정보를 이용하여 객체에 대한 제1 감지정보를 생성한다. 예컨대, 상기 제1 감지부(210)는 차량 천정에 설치된 깊이 카메라에서 촬영된 주변 환경에 대한 영상정보를 이용하여 운전자 머리 상단 데이터를 사전에 학습된 데이터와 비교하여 검출하고, 검출된 머리 상단 데이터의 위치를 3차원 가상 공간 상에서 추정한다.

제2 감지부(220)는 차량 내부의 주변 환경을 제2 방향에서 촬영한 영상정보를 이용하여 객체에 대한 제2 감지정보를 생성한다. 예컨대, 상기 제2 감지부(220)는 차량의 클러스터 등에 설치된 깊이 카메라에서 운전자 정면을 촬영한 영상정보를 이용하여 운전자 얼굴 정면 데이터를 사전에 학습된 데이터와 비교하여 검출하고, 검출된 얼굴 정면 데이터의 위치를 3차원 가상 공간 상에서 추정한다.

이 때, 상기 제1 감지부(210)에서 검출된 운전자 머리 상단 데이터 및 추정된 위치와, 상기 제2 감지부(220)에서 검출된 운전자 얼굴 정면 데이터 및 추정된 위치는 서로 실시간으로 공유되기 때문에, 예컨대, 운전자의 얼굴이 손 등에 의해 가려지더라도 손과 얼굴의 레이어를 구분하여, 각 카메라의 위치로부터 독립적으로 얼굴 및 손의 위치가 추정이 가능하다.

손 스캔부(250)는 차량 내부에 있는 운전자의 손/손가락 영역에 대한 3차원 스캔 데이터를 생성한다.

머리/얼굴 스캔부(260)는 차량 내부에 있는 운전자의 얼굴/머리 영역에 대한 3차원 스캔 데이터를 생성한다. 이때, 상기 손 스캔부(250) 및 머리/얼굴 스캔부(260)는 3차원 스캔 데이터를 생성하기 위한 복수의 센서 어레이로 구성될 수 있고, 이때 상기 센서는 초음파 센서가 사용될 수 있다.

손/손가락 정합부(230)는 제1 및 제2 감지정보를 조합하여 검출된 운전자의 손/손가락에서 랜드마크로 사용되는 특징점을 상기 손 스캔부(250)에서 생성된 손/손가락 영역에 대한 3차원 스캔 데이터와 정합한다. 이때, 운전자의 손/손가락의 위치는 매 프레임마다 실시간으로 추정된다.

머리/얼굴 정합부(240)는 제1 및 제2 감지정보를 조합하여 검출된 머리/얼굴에서 랜드마크로 사용되는 특징점을 머리/얼굴 스캔부(260)에서 생성된 머리/얼굴에 대한 3차원 스캔 데이터와 정합한다. 이때, 운전자의 머리/얼굴의 위치는 매 프레임마다 실시간으로 추정된다.

접촉 판단부(290)는 운전자의 손과 얼굴 표면의 닿는 부분을 3차원 가상 공간 상에서 실시간으로 판단, 인식, 추정한다. 이하, 도 4를 참조하여 본 발명의 실시예에서 운전자의 얼굴/머리 표면과 손가락 간의 접촉 여부를 판단하는 방식을 알아보도록 한다. 도 4에는 본 발명의 실시예에 따라 사용자의 얼굴/머리 표면과 손가락 간의 접촉 여부를 판단하는 방식을 예시적으로 도시된다.

손 모델링부(270)는 상기 손 스캔부(250)의 스캔 데이터를 이용하여 운전자의 손/손가락을 모델링하고, 손/손가락의 3차원 모델 상에서 임의의 점 또는 임의의 영역에 식별자(ID)를 부여한다.

머리/얼굴 모델링부(280)는 상기 머리/얼굴 스캔부(260)의 스캔 데이터를 이용하여 운전자의 머리/얼굴을 모델링하고, 머리/얼굴의 3차원 모델 상에서 임의의 점 또는 임의의 영역에 식별자를 부여한다.

도 4를 참조하면, 운전자 손가락 관절 혹은 표면상 26개의 부분 영역[H101-1~H101-26]에 ID가 부여되고, 3차원 머리 표면상에 N개의 부분 영역[F101-1~F101-N]에 각각 ID 부여된 것이 예시적으로 도시된다.

상기 접촉 판단부(290)는 식별자가 부여된 임의의 점 또는 임의의 영역(이하, 노드라고 칭함)과, 다른 노드들 간의 접촉 여부와, 해당 노드들의 식별자를 포함하는 n차원의 접촉 정보를 생성한다. 이 때, 상기 3차원 영상 분석부(200)는 기 정의된 임계 거리와 각 노드들 간의 거리를 비교하여 각 노드들 간의 접촉 정보를 접촉, 인접, 비접촉으로 구분하여 생성할 수 있다.

예컨대, 손의 일부분과 얼굴의 일부분의 접촉 여부는 각 노드 상의 한 지점과 가장 가까운 점간의 거리가 사전에 정의한 특정 값 이하일 때 접촉, 인접, 비접촉 등의 단계로 구분하여 패킷에 저장될 수 있다. 구체적으로, [H101-1]과 [F101-1]의 거리 (D-HF)가 특정거리(d, d')와 관련하여 D-HF < d : 접촉, d < D-HF < d' : 인접, D-HF > d' 비접촉... 등으로 여러 단계로 구분하여 접촉 정보를 생성할 수 있다.

행동패턴 인식부(300)는 상기 접촉 정보를 사전에 학습된 행동패턴과 비교하여, 상기 제1 객체 또는 상기 제2 객체를 조작하는 사용자의 행동패턴을 인식한다.

도 5는 도 1에 도시된 행동패턴 인식부 의 구성을 도시한 블록도이다.

도 5를 참조하면, 행동패턴 인식부(300)는 행동패턴 분석부(310), 행동패턴 출력부(320), 사용자 경험 저장부(330)를 포함한다.

행동패턴 분석부(310)는 접촉 정보에 포함되어 있는 n-차원의 벡터로부터 학습된 사용자의 행동패턴을 분류한다.

행동패턴 출력부(320)는 분류된 행동패턴을 상기 접촉 정보에 해당하는 사용자의 행동패턴으로 인식하여 출력한다.

사용자 경험 저장부(330)는 학습된 사용자의 행동패턴을 저장한다. 이때, 학습된 사용자의 행동패턴은 후술할 사용자 의도 인식부(400)로부터 전달되어 저장될 수 있다.

사용자 의도 인식부(400)는 인식된 행동패턴에 따른 사용자 의도를 온톨로지 기반으로 추론한다.

도 6은 도 1에 도시된 사용자 의도 인식부의 구성을 도시한 블록도이다.

도 6을 참조하면, 사용자 의도 인식부(400)는 사용자 경험 분석부(410), 사용자 의도 판단부(420), 사용자 의도 출력부(430), 사용자 경험 학습부(440)를 포함한다.

사용자 경험 분석부(410)는 사용자의 행동패턴과 사용자의 의도 사이의 상관관계를 온톨로지 기반으로 분석한 정보를 저장한다.

사용자 의도 판단부(420)는 상기 사용자 경험 분석부(410)에서 분석된 사용자의 행동패턴과 사용자 의도 사이의 상관관계에 기초하여, 상기 행동패턴 인식부(300)에서 인식된 사용자의 행동패턴에 해당하는 사용자 의도를 판단한다.

사용자 경험 학습부(440)는 상기 사용자 의도 판단부(420)에서 판단된 사용자 의도와 인식된 사용자의 행동패턴 사이의 상관관계를 학습하고, 학습된 결과를 상기 사용자 경험 분석부(410)에 전달한다.

이하에서는 본 발명에 따른 3차원 공간에서 영상정보를 이용한 사용자 의도 분석방법에 대하여 설명하도록 한다. 앞서, 도 1 내지 도 6을 참조한 본 발명에 따른 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치의 동작에 대한 설명과 일부 중복되는 부분은 생략하여 설명하기로 한다.

도 7은 본 발명의 실시예에 따른 3차원 공간에서 영상정보를 이용한 사용자 의도 분석방법을 도시한 흐름도이다.

먼저, 3차원 공간 생성부(100)는 특정 공간의 주변 환경에 대하여 카메라를 통해 촬영하여 생성한 영상 정보를 입력 받는다(S100).

그리고, 3차원 공산 생성부(100)는 주변 환경에 대한 영상 정보를 생성하는 복수의 카메라의 물리적인 위치와, 3차원 공간 좌표를 복원하기 위해 랜드마크로 사용되는 장치들 간의 물리적인 위치 관계 정보를 획득하고, 이들 위치 관계로부터 카메라가 촬영한 영상 정보를 보정한다(S200).

이어, 3차원 공간 생성부(100)는 복수 카메라의 물리적인 상대 위치와, 상기 복수 카메라가 주변 환경을 촬영하여 생성한 영상 정보를 이용하여 상기 주변 환경에 대한 3차원 가상 공간을 생성한다(S300).

이어, 3차원 영상 분석부(200)는 상기 3차원 가상 공간 상에서 상기 영상 정보에 포함되어 있는 손/손가락 및 머리/얼굴의 상대적인 위치를 추정하고(S410, S420), 손/손가락 및 머리/얼굴의 상대적인 위치에 기초하여 손/손가락 및 머리/얼굴에 대한 접촉 정보를 생성한다(S500).

다음으로, 행동패턴 인식부(300)는 상기 접촉 정보를 사전에 학습된 행동패턴과 비교하여, 상기 접촉 정보에 해당하는 사용자의 행동패턴을 인식한다(S600).

이어, 사용자 의도 인식부(400)는 인식된 행동패턴에 따른 사용자 의도를 온톨로지 기반으로 추론한다(S700).

본 발명에 따르면, 사용자의 얼굴을 인식할 때, 손에 의해 얼굴이 가려지거나, 또는 햇빛 혹은 그림자의 영향으로 얼굴이 가려지는 현상(Occlusion)을 극복하여, 사용자의 얼굴 인식률을 향상시킬 수 있다.

본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

복수 카메라의 물리적인 상대 위치와, 상기 복수 카메라가 주변 환경을 촬영하여 생성한 영상 정보를 이용하여 상기 주변 환경에 대한 3차원 가상 공간을 생성하는 3차원 공간 생성부;
상기 3차원 가상 공간 상에서 상기 영상 정보에 포함되어 있는 제1 객체 및 제2 객체의 3차원 위치를 추정하고, 상기 제1 객체 및 상기 제2 객체의 상대적인 위치에 기초하여 3차원 모델로 모델링된 상기 제1 객체의 노드들과 상기 제1 객체의 노드들에 대응하는 3차원 모델로 모델링된 상기 제2 객체의 노드들 간의 각 거리와 기 정의된 임계 거리를 비교한 비교 결과에 따라 상기 제1 객체의 노드들과 상기 제2 객체의 노드들 간의 접촉 패턴을 나타내는 n차원의 접촉 정보를 생성하는 3차원 영상 분석부;
상기 접촉 정보를 사전에 학습된 행동패턴과 비교하여, 상기 제1 객체 또는 상기 제2 객체를 조작하는 사용자의 행동패턴을 인식하는 행동패턴 인식부; 및
인식된 행동패턴에 따른 사용자 의도를 온톨로지 기반으로 추론하는 사용자 의도 인식부
를 포함하는 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치.
제1항에 있어서, 상기 3차원 영상 생성부는,
상기 주변 환경을 제1 방향으로 촬영하는 제1 카메라가 생성하는 3차원 공간의 복셀(Voxel)과 상기 주변 환경을 제2 방향으로 촬영하는 제2 카메라가 생성하는 3차원 공간의 복셀(Voxel)이 이루는 교차된 3차원 공간에 대해, 상기 3차원 가상 공간을 생성하는 것
인 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치.
제1항에 있어서, 상기 3차원 영상 분석부는,
상기 제1 객체 및 상기 제2 객체의 3차원 위치를 추정하여, 상기 제1 객체 및 상기 제2 객체에서 랜드마크로 사용할 제1 특징점 및 제2 특징점을 검출하고, 상기 제1 특징점 및 상기 제2 특징점을 상기 제1 객체 및 상기 제2 객체를 모델링한 3차원 모델에 정합시키는 것
인 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치.
제3항에 있어서, 상기 3차원 영상 분석부는,
상기 제1 특징점 및 상기 제2 특징점이 정합된 상기 제1 객체의 3차원 모델과 상기 제2 객체의 3차원 모델의 위치를 추적하여, 상기 제1 객체와 상기 제2 객체에 대한 접촉 정보를 생성하는 것
인 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치.
제3항에 있어서, 상기 3차원 영상 분석부는,
상기 제1 특징점 및 상기 제2 특징점이 정합된 상기 제1 객체의 3차원 모델과 상기 제2 객체의 3차원 모델 상의 임의의 점 또는 임의의 영역에 식별자(ID)를 부여하고, 식별자가 부여된 임의의 점 또는 임의의 영역(이하, 노드라고 칭함)과, 다른 노드들 간의 접촉 여부와, 해당 노드들의 식별자를 포함하는 n차원의 접촉 정보를 생성하는 것
인 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치.
제5항에 있어서, 상기 3차원 영상 분석부는,
기 정의된 임계 거리와 각 노드들 간의 거리를 비교하여 각 노드들 간의 접촉 정보를 접촉, 인접, 비접촉으로 구분하여 생성하는 것
인 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치.
제1항에 있어서, 상기 3차원 영상 분석부는,
상기 주변 환경을 제1 방향에서 촬영한 영상정보를 이용하여 객체에 대한 제1 감지정보를 생성하는 제1 감지부와,
상기 주변 환경을 제2 방향에서 촬영한 영상정보를 이용하여 객체에 대한 제2 감지정보를 생성하는 제2 감지부와,
상기 제1 객체에 대한 제1 스캔 데이터를 생성하는 제1 스캔부와,
상기 제2 객체에 대한 제2 스캔 데이터를 생성하는 제2 스캔부와,
상기 제1 및 제2 감지정보를 조합하여 검출된 상기 제1 객체에서 랜드마크로 사용되는 특징점을 상기 제1 스캔 데이터와 정합하는 제1 정합부와,
상기 제1 및 제2 감지정보를 조합하여 검출된 상기 제2 객체에서 랜드마크로 사용되는 특징점을 상기 제2 스캔 데이터와 정합하는 제2 정합부와,
상기 제1 정합부에서 정합 결과 출력되는 상기 제1 객체의 3차원 모델과, 상기 제2 정합부에서 정합 결과 출력되는 상기 제2 객체의 3차원 모델에 대한 접촉 정보를 생성하는 접촉 판단부를 포함하는 것
인 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치.
제1항에 있어서, 상기 행동패턴 인식부는,
학습된 사용자의 행동패턴을 저장하는 사용자 경험 저장부와,
상기 접촉 정보에 포함되어 있는 n-차원의 벡터로부터 상기 학습된 사용자의 행동패턴을 분류하는 행동패턴 분석부와,
분류된 행동패턴을 상기 접촉 정보에 해당하는 사용자의 행동패턴으로 인식하여 출력하는 행동패턴 출력부를 포함하는 것
인 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치.
제1항에 있어서, 상기 사용자 의도 인식부는,
사용자의 행동패턴과 사용자의 의도 사이의 상관관계를 온톨로지 기반으로 분석한 정보를 저장하는 사용자 경험 분석부와,
상기 사용자 경험 분석부에서 분석된 사용자의 행동패턴과 사용자 의도 사이의 상관관계에 기초하여, 상기 행동패턴 인식부에서 인식된 사용자의 행동패턴에 해당하는 사용자 의도를 판단하는 사용자 의도 판단부와,
상기 사용자 의도 판단부에서 판단된 사용자 의도와 인식된 사용자의 행동패턴 사이의 상관관계를 학습하고, 학습된 결과를 상기 사용자 경험 분석부에 전달하는 사용자 경험 학습부를 포함하는 것
인 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치.
복수 카메라의 물리적인 상대 위치와, 상기 복수 카메라가 주변 환경을 촬영하여 생성한 영상 정보를 이용하여 상기 주변 환경에 대한 3차원 가상 공간을 생성하는 단계;
상기 3차원 가상 공간 상에서 상기 영상 정보에 포함되어 있는 제1 객체 및 제2 객체의 3차원 위치를 추정하고, 상기 제1 객체 및 상기 제2 객체의 상대적인 위치에 기초하여 3차원 모델로 모델링된 상기 제1 객체의 노드들과 상기 제1 객체의 노드들에 대응하는 3차원 모델로 모델링된 상기 제2 객체의 노드들 간의 각 거리와 기 정의된 임계 거리를 비교한 비교 결과에 따라 상기 제1 객체의 노드들과 상기 제2 객체의 노드들 간의 접촉 패턴을 나타내는 n차원의 접촉 정보를 생성하는 단계;
상기 접촉 정보를 사전에 학습된 행동패턴과 비교하여, 상기 제1 객체 또는 상기 제2 객체를 조작하는 사용자의 행동패턴을 인식하는 단계; 및
인식된 행동패턴에 따른 사용자 의도를 온톨로지 기반으로 추론하는 단계
를 포함하는 3차원 공간에서 영상정보를 이용한 사용자 의도 분석방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제