WO2017099292A1

WO2017099292A1 - 물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치

Info

Publication number: WO2017099292A1
Application number: PCT/KR2016/000730
Authority: WO
Inventors: 변혜란; 임광용
Original assignee: 연세대학교 산학협력단
Priority date: 2015-12-11
Filing date: 2016-01-22
Publication date: 2017-06-15
Also published as: KR20170070298A; KR101758693B1

Abstract

본 발명은 영상에서 사용자의 행동을 인식하는 방법 및 그 장치에 관한 것이다. 본 발명에 따른 행동 인식 장치는 입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출부; 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함할 수 있다.

Description

물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치

본 발명은 영상에서 사용자의 행동을 인식하는 방법 및 그 장치에 관한 것이다.

전통적으로 장치가 사용자의 입력을 수신하기 위하여 키보드나 마우스 또는 터치 패드와 같은 인터페이스를 사용하여 왔으나, 보다 직관적이고 편리한 사용자 입력 수신을 위하여 음성이나 영상을 인식하는 기술들이 개발되어 사용되고 있다.

특히 촬영된 영상에서 사용자의 동작과 자세를 인식하여 사용자의 행동의 의미를 인식하는 기술이 널리 연구되고 있다. 예를 들면 센서 또는 카메라를 이용하여 사람의 신체 골격(Skeleton)을 검출하고, 관절의 이동 궤적을 분석하여 사용자의 행동 및 제스처를 인식하는 기술이 개발되어 사용되고 있다. 그리고 이와 같은 기존의 사용자 행동 인식 방법들은 주로 사용자의 동작을 보다 정확하게 분석하여 행동을 인식하려는 노력을 기울여 왔다.

그러나 단순히 영상 내에 포함된 정보만을 이용하여 사용자의 행동을 인식하는 방식은 인식 정확도에 있어서 한계가 있고, 잘못된 인식 결과가 출력될 가능성이 높다. 관련된 선행기술문헌으로는 (특허문헌 0001) 대한민국 공개특허공보 제2013-0005548호 (2013.01.16)이 있다.

본 발명은 미리 정의된 물체-행동 간의 관계 모델을 이용하여 영상에서의 사용자 행동 인식 성능을 향상시키는 방법과 그에 관한 장치를 제공하고자 한다. 본 발명은 사용자의 행동이 동일 또는 유사한 행동인 경우에도, 해당 행동이 발생하는 공간이나 장소 또는 행동에 관련된 물체의 종류에 따라, 그 의미가 다르다는 사실에 착안하여, 물체-행동 간의 관계 모델을 사전에 정의하고, 이를 이용하여 영상에서 검출된 사용자의 행동의 의미를 인식하는 행동 인식 장치 및 그에 관한 방법을 제공하고자 한다.

상기 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 행동 인식 장치는, 입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출부; 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함할 수 있다.

일 실시예에 있어서 상기 주요 면 추출부는 상기 입력 영상에서 적어도 하나 이상의 주요 노멀 벡터를 추출하고, 상기 입력 영상에서 상기 추출한 주요 노멀 벡터에 대응하는 각 영역을 상기 주요 면으로 추출할 수 있다.

일 실시예에 있어서 상기 주요 면 추출부는, 상기 입력 영상에서 지역적 노멀 벡터를 산출하고, 상기 산출한 지역적 노멀 벡터 중에서 상기 주요 노멀 벡터를 결정하는 주요 노멀 벡터 추출부를 포함할 수 있다.

일 실시예에 있어서 상기 주요 노멀 벡터 추출부는 상기 입력 영상의 지역적 면에서의 노멀 벡터를 상기 지역적 노멀 벡터로 산출하고, 상기 산출한 지역적 노멀 벡터들을 클러스터링하고, 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정할 수 있다.

일 실시예에 있어서 상기 주요 면 추출부는, 상기 입력 영상에서 상기 주요 노멀 벡터를 가지는 화소들을 수집하고, 상기 수집한 화소들을 클러스터링하여 상기 주요 노멀 벡터에 대응하는 상기 주요 면을 추출하는 면 추출부를 포함할 수 있다.

일 실시예에 있어서 상기 행동 목록 설정부는 상기 입력 영상 내에 존재하는 객체의 위치 정보와 상기 객체의 의미 정보를 포함하는 객체 인식 정보를 입력받고, 상기 주요 면의 위치에 대응하는 상기 객체의 의미 정보에 따라 상기 주요 면의 의미를 인식하는 주요 면 인식부를 포함할 수 있다.

일 실시예에 있어서 상기 행동 목록 설정부는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 주요 면의 의미에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 주요 면의 상기 행동 목록을 설정하는 목록 설정부를 포함할 수 있다.

일 실시예에 있어서 상기 물체-행동 관계 모델은 적어도 하나 이상의 상기 물체에 대하여, 각 상기 물체 별로 상기 물체와 관계된 적어도 하나 이상의 상기 행동을 미리 정의한 모델인 것을 특징으로 할 수 있다.

일 실시예에 있어서 상기 물체 인식 장치는 상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식하는 객체 인식부를 더 포함할 수 있다.

일 실시예에 있어서 상기 객체 인식부는 상기 검출한 객체의 상기 입력 영상 내에서의 위치 정보를 설정하고, 상기 인식한 객체의 의미 정보를 설정할 수 있다.

일 실시예에 있어서 상기 행동 인식부는, 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출하는 행동 위치 검출부; 상기 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하는 주요 면 선택부; 및 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 사용자 행동 인식부를 포함할 수 있다.

일 실시예에 있어서 상기 주요 면 선택부는 상기 주요 면 추출부에서 추출된 상기 주요 면들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 주요 면을 선택할 수 있다.

일 실시예에 있어서 상기 사용자 행동 인식부는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.

상기 과제를 해결하기 위하여 본 발명의 또 다른 실시예에 따른 행동 인식 장치는 입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식하는 객체 인식부; 상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함할 수 있다.

일 실시예에 있어서 상기 행동 목록 설정부는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 인식한 객체에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 객체의 상기 행동 목록을 설정할 수 있다.

일 실시예에 있어서 상기 행동 인식부는, 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출하는 행동 위치 검출부; 상기 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하는 객체 선택부; 및 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 사용자 행동 인식부를 포함할 수 있다.

일 실시예에 있어서 상기 객체 선택부는 상기 입력 영상의 상기 객체들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 객체를 선택할 수 있다.

상기 과제를 해결하기 위하여 본 발명의 또 다른 실시예에 따른 행동 인식 방법은 입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출 단계; 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정 단계; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식 단계;를 포함할 수 있다.

상기 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 행동 인식 방법에 있어서, 입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식하는 객체 인식 단계; 상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정하는 행동 목록 설정 단계; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식 단계;를 포함할 수 있다.

본 발명에 따른 행동 인식 장치 및 그 방법에 의하면 영상에서 사용자의 행동의 의미를 보다 정확하게 인식할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 행동 인식 장치의 블록도이다.

도 2는 주요 면 추출부(200)의 세부 블록도이다.

도 3 a, 도 3 b는 주요 면 추출부(200)의 동작을 설명하기 위한 참고도이다.

도 4는 행동 목록 설정부(300)의 세부 블록도이다.

도 5는 물체-행동 관계 그래프 모델을 나타내는 참고도이다.

도 6은 행동 인식부(400)의 세부 블록도이다.

도 7은 본 발명의 일 실시예에 따른 행동 인식 장치의 블록도이다.

도 8은 행동 인식부(3000)의 세부 블록도이다.

도 9는 본 발명의 일 실시예에 따른 행동 인식 방법의 흐름도이다.

도 10은 주요 면 추출 단계(S200)의 세부 흐름도이다.

도 11은 행동 목록 설정 단계(S300)의 세부 흐름도이다.

도 12는 행동 인식 단계(S400)의 세부 흐름도이다.

도 13은 본 발명의 일 실시예에 따른 행동 인식 방법의 흐름도이다.

도 14는 행동 인식 단계(S3000)의 세부 흐름도이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

본 발명의 일 실시예에 따른 행동 인식 장치는 주요 면 추출부(200), 행동 목록 설정부(300), 행동 인식부(400)를 포함할 수 있다. 여기서 필요에 따라 본 발명의 일 실시예에 따른 행동 인식 장치는 객체 인식부(100)를 더 포함할 수도 있다.

여기서 본 발명에 따른 행동 인식 장치는 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한 필요에 따라 각 구성요소들은 각각 하나의 독립적인 하드웨어로 구현되거나 각 하드웨어에 포함될 수도 있다. 또한 본 발명에 따른 행동 인식 장치는 소프트웨어 프로그램으로 구현되어 프로세서 또는 신호 처리 모듈 위에서 동작할 수 있고, 또는 하드웨어의 형태로 구현되어 각종 프로세서, 칩(Chip), 반도체, 소자 등에 포함될 수 도 있다. 또한 본 발명에 따른 행동 인식 장치는 각종 임베디드 시스템 또는 디바이스 상에서 하드웨어 또는 소프트웨어 모듈의 형태로 포함되어 동작할 수 있다. 바람직하게는 본 발명에 따른 행동 인식 장치는 TV 디바이스, 노트북, 핸드폰에 포함되어 구현되거나, 또는 상기 장치들과 네트워크로 연결된 서버 장치에 포함되어 구현될 수 있다.

주요 면 추출부(200)는 입력 영상에서 적어도 하나 이상의 주요 면을 추출한다.

행동 목록 설정부(300)는 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정한다.

행동 인식부(400)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다.

그리고 객체 인식부(100)는 상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식한다.

먼저 객체 인식부(100)의 동작에 대하여 설명한다.

객체 인식부(100)는 상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식한다. 일 실시예에 있어서 객체 인식부(100)는 주요 면 추출부(200) 및 행동 인식부(400)가 이용하는 입력 영상과 동일한 입력 영상에서 객체를 검출하고 인식할 수 있다. 또는 객체 인식부(100)는 주요 면 추출부(200) 및 행동 인식부(400)가 이용하는 입력 영상과 다른 별도의 입력 영상을 입력받고 위 별도의 입력 영상에서 객체를 검출하고 인식할 수 있다. 일 실시예에 따르면 주요 면 추출부(200) 및 행동 인식부(400)는 깊이 정보가 포함된 입력 영상을 입력받을 수 있고, 객체 인식부(100)는 2 차원의 단순 입력 영상을 입력받을 수 있다.

여기서 객체 인식부(100)는 상기 검출한 객체의 상기 입력 영상 내에서의 위치 정보를 설정하고, 상기 인식한 객체의 의미 정보를 설정할 수 있다. 일 실시예에 따르면 객체 인식부(100)는 검출한 객체의 위치를 입력 영상 내의 특정 좌표로 설정하여 상기 위치 정보를 설정할 수 있고, 인식한 객체의 의미에 따라 해당 위치 정보에 대응하는 의미 정보를 설정할 수 있다. 여기서 객체의 의미 정보란 검출한 객체가 어떠한 사물 또는 물체에 해당하는지에 관한 정보로, 예를 들면 '문', '의자', '테이블' 등이 될 수 있다.

여기서 객체 인식은 분류기(Classifier)를 이용하여 객체를 미리 정의된 복수개의 부류(Class) 중 어느 하나의 부류로 인식하는 방식으로 수행될 수 있다. 여기서 객체 인식부(100)는 영상이서 객체를 검출하고, 상기 검출한 객체를 미리 설정된 객체 인식 알고리즘을 이용하여 인식할 수 있다. 여기서 미리 설정된 객체 인식 알고리즘은 다양한 객체 인식 방법 중 하나로 선택될 수 있다. 여기서 객체 인식부(100)는 영상을 분석하여 미리 정해진 특징(Feature) 정보를 이용하여 검출하고자 하는 대상 객체를 검출하고 인식할 수 있다. 여기서 객체를 검출 및 인식하기 위하여, 기존의 다양한 종류의 특징을 상기 영상에서 추출하고, 이를 이용하여 객체 검출 및 인식을 수행할 수 있다. 예를 들면 객체의 검출 및 인식을 위하여 에지 특성이나 코너 특성, 또는 LoG(Laplacian of Gaussian), DoG(Difference of Gaussian) 등의 다양한 특징을 추출하여 이용할 수 있다. 또한 여기서 객체의 검출 및 인식을 위하여 SIFT(Scale-invariant feature transform), SURF(Speeded Up Robust Features), HOG(Histogram of Oriented Gradients)를 비롯한 기존의 다양한 특징 서술(Feature Description) 방식을 이용할 수 있다. 또는 객체의 검출 및 인식을 위하여 템플릿 이미지와 대상 이미지 내의 일정 영역을 비교하여 객체를 검출하고 인식할 수도 있다. 또한 객체의 검출 및 인식을 위하여 위와 같이 추출한 특징이나 템플릿 등을 기반으로 미리 학습한 분류기를 이용하여 상기 영상 내 객체들을 검출하고 인식할 수 있다. 여기서 이용하는 분류기는 SVM 머신이 될 수도 있고, 기타 기존의 다양한 분류 함수를 이용한 분류기를 이용할 수 있다. 또한 객체 인식부(100)는 영상에서 객체를 인식하기 위하여 다양한 객체 인식 방법을 이용할 수 있다. 예를 들면 'Lowe, David G. "Object recognition from local scale-invariant features." Computer vision, 1999. The proceedings of the seventh IEEE international conference on. Vol. 2. Ieee, 1999.' 또는 'Belongie, Serge, Jitendra Malik, and Jan Puzicha. "Shape matching and object recognition using shape contexts." Pattern Analysis and Machine Intelligence, IEEE Transactions on 24.4 (2002): 509-522.'에 기재된 기술을 이용하여 영상에서 객체를 인식할 수 있고, 기타 다양한 객체 인식 방법을 이용할 수 있다.

이하에서는 먼저 주요 면 추출부(200)의 동작에 대하여 보다 상세히 설명한다.

여기서 입력 영상은 2차원 영상이 될 수 있고, 또는 깊이 정보를 포함하는 영상이 될 수도 있다. 또한 여기서 주요 면은 상기 입력 영상에 포함된 면들 중에서 중요한 것으로 판단한 면이 될 수 있다. 그리고 상기 면은 입력 영상에서 동일한 세그먼트로 분할된 화소들의 집합이 될 수 있다.

일 실시예에 있어서 주요 면 추출부(200)는 다양한 영상 세그먼테이션 알고리즘을 이용하여 입력 영상을 분할하여 분할된 세그먼트 별로 면을 설정하고, 분할된 세그먼트 중에서 중요한 것으로 판단한 세그먼트를 주요 면으로 설정할 수 있다. 여기서 세그먼트들 간에서 면적이 소정의 비율 이상이 되는 세그먼트를 중요한 세그먼트로 선택하여 상기 주요 면으로 설정할 수 있다. 여기서 영상 세그먼테이션 알고리즘을 공지된 다양한 세그먼트 알고리즘을 사용할 수 있다.

여기서 상기 입력 영상이 깊이 정보를 포함하는 3차원 영상인 경우, 주요면 추출부(200)는 이하 설명하는 바와 같이 입력 영상에서 노멀 벡터를 추출하고 이를 기준으로 주요 면을 추출할 수 있다. 이때 주요 면 추출부(200)는 상기 입력 영상에서 적어도 하나 이상의 주요 노멀 벡터를 추출하고, 상기 입력 영상에서 상기 추출한 주요 노멀 벡터에 대응하는 각 영역을 상기 주요 면으로 추출할 수 있다.

이를 위하여 주요 면 추출부(200)는 주요 노멀 벡터 추출부(210), 면 추출부(220)를 포함할 수 있다.

도 2는 주요 면 추출부(200)의 세부 블록도이다.

주요 노멀 벡터 추출부(210)는 상기 입력 영상에서 지역적 노멀 벡터를 산출하고, 상기 산출한 지역적 노멀 벡터 중에서 상기 주요 노멀 벡터를 결정한다. 여기서 주요 노멀 벡터 추출부(210)는 상기 입력 영상의 지역적 면에서의 노멀 벡터를 상기 지역적 노멀 벡터로 산출하고, 상기 산출한 지역적 노멀 벡터들을 클러스터링하고, 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정할 수 있다.

여기서 주요 노멀 벡터 추출부(210)는 입력 영상에 포함된 각 점들에 대하여 인접하는 점들을 하나의 집합으로 하여 지역적 면을 설정하고, 지역적 면에서의 노멀 벡터를 산출할 수 있다. 일 실시예에 있어서 주요 노멀 벡터 추출부(210)는 주 성분 분석 방법(Principle Component Analysis)을 이용하여 지역적 면의 노멀 벡터를 산출할 수 있다. 이때 인접하는 점들의 좌표를 구성하는 성분 벡터를 주 성분 분석 방법을 이용하여 분해하여, 주성분인 두 축을 획득할 수 있고, 획득한 두 축의 외적으로 상기 지역적 면의 노멀 벡터를 산출할 수 있다.

예를 들면 도 3 a와 같은 입력 영상에서 지역적 면의 노멀 벡터를 산출할 수 있다.

다음으로 주요 노멀 벡터 추출부(210)는 위와 같이 추출한 지역적 면에서의 노멀 벡터인 지역적 노멀 벡터를 이용하여 주요 노멀 벡터를 추출할 수 있다. 그리고 이때 하나 이상의 노멀 벡터가 추출될 수 있다. 일 실시예에서 상기 지역적 노멀 벡터 중에서 소정의 비율 이상을 가지는 벡터를 주요 노멀 벡터로 추출할 수 있다. 또 다른 실시예에서는 상기 지역적 노멀 벡터를 클러스터링하고 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정할 수 있다. 이때 클러스터링된 벡터들 중에서 소정의 비율 이상을 차지하는 벡터를 주요 노멀 벡터로 결정할 수 있다. 예를 들면 주요 노멀 벡터는 영상 내의 바닥 면에 수직인 방향의 노멀 벡터와 벽면에 수직인 방향의 노멀 벡터가 될 수 있다. 일 실시예에 따르면 주요 노멀 벡터 추출부(210)는 Mean-Shift 알고리즘을 이용하여 상기 클러스터링을 수행할 수 있다.

예를 들면 도 3 a와 같은 입력 영상에서 추출한 지역적 노멀 벡터를 클러스터링할 수 있다.

면 추출부(220)는 상기 입력 영상에서 상기 주요 노멀 벡터를 가지는 화소들을 수집하고, 상기 수집한 화소들을 클러스터링하여 상기 주요 노멀 벡터에 대응하는 상기 주요 면을 추출한다. 동일한 주요 노멀 벡터를 가지는 화소들이라고 할지라도 입력 영상에서 서로 다른 객체의 면에 포함된 화소들이 될 수 있다. 따라서 면 추출부(220)는 주요 노멀 벡터를 가지는 화소들을 클러스터링하고, 클러스터링된 화소들의 집합을 각각 주요 면으로 추출할 수 있다. 여기서 입력 영상에서 바닥 면에 수직인 방향의 주요 노멀 벡터에 해당하는 화소들은 바닥에 해당하는 화소들이 될 수 있고, 또는 테이블 상면에 해당하는 화소들이 될 수 있고, 또는 의자의 앉는 면에 해당하는 화소들이 될 수도 있다. 따라서 이들 화소들을 서로 다른 주요 면으로 추출하기 위하여, 상술한 바와 같이 주요 노멀 벡터를 가지는 화소들을 클러스터링하고, 그 결과에 따라 분류된 화소들의 집합 별로 주요 면을 설정함으로써, 입력 영상에서 주요 면을 추출할 수 있다.

예를 들면 도 3 a와 같은 입력 영상에서 주요 노멀 벡터를 가지는 화소들을 클러스터링하여 주요 면을 추출할 수 있다.

일 실시예에서 면 추출부(220)는 클러스터링된 화소들의 집합들 중 주된 클러스터에 해당하는 화소들의 집합을 주요 면으로 추출할 수 있다. 예를 들면 면 추출부(220)는 클러스터링된 화소들의 집합들이 소정의 크기 이상을 가지거나 입력 영상에서 소정의 비율 이상을 가지는 경우에만 이를 주요 면으로 선택할 수 있다.

이때 일 실시예에서 면 추출부(220)는 상기 추출된 주요 면들 중에서 주요 노멀 벡터의 각도에 따라 일부를 선별하여, 선별된 주요 면들만을 주요 면으로 다시 설정할 수 있다. 여기서 면 추출부(220)는 미리 설정한 각도의 범위 내에 해당하는 주요 노멀 벡터를 가지는 주요 면 만을 주요 면으로 다시 설정하고, 그 범위에 해당하지 않는 주요 노멀 벡터를 가지는 주요 면들은 주요 면에서 제거할 수 있다. 예를 들면 면 추출부(220)는 수평면과 수직면에 해당하는 면들만을 주요 면으로 추출하기 위하여, 주요 노멀 벡터를 미리 설정한 각도 범위와 비교하고, 그 결과에 따라 주요 면을 최종 결정할 수 있다. 여기서 미리 설정한 각도의 범위는 -20도 내지 20도 등 필요에 따라 설정할 수 있다.

예를 들면 도 3 b는 도 3 a와 같은 입력 영상에 대하여 상기 과정들을 수행한 결과, 각도 범위에 따라 수평면에 해당하는 주요 면만을 선별한 결과를 나타내는 참고도이다. 도 3 b를 참조하면 바닥 면(P1), 테이블 상면(P2), 의자 상면(P3)과 같이 주요 면이 설정될 수 있다.

다음으로는 행동 목록 설정부(300)의 동작에 대하여 보다 상세히 설명한다.

행동 목록 설정부(300)는 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정한다. 주요 면 추출부(200)에서 추출된 주요 면은 입력 영상에서 특정 구역에 해당하는 정보만을 보유하고 있다. 이에 추출된 주요 면의 의미를 파악하기 위하여, 이하 상세히 설명할 바와 같이 행동 목록 설정부(300)는 입력 영상 내의 객체에 관한 인식 정보를 입력받고, 이를 이용하여 상기 추출한 주요 면의 의미를 인식할 수 있다. 예를 들면 행동 목록 설정부(300)는 특정 주요 면을 문 또는 바닥 면으로 인식할 수 있고, 이때 주요 면의 의미는 문, 바닥 면이 된다. 이때 행동 목록 설정부(300)는 인식한 주요 면의 의미에 따라 주요 면 별로 발생 가능한 행동을 결정하고 이를 행동 목록으로 설정한다. 예를 들면 특정 주요 면을 문으로 인식한 경우, '문을 여는 행동', '문을 닫는 행동' 등을 포함하는 행동 목록을 설정할 수 있다.

여기서 행동 목록 설정부(300)는 주요 면 인식부(310), 목록 설정부(320)를 포함할 수 있다.

도 4는 행동 목록 설정부(300)의 세부 블록도이다.

주요 면 인식부(310)는 상기 입력 영상 내에 존재하는 객체의 위치 정보와 상기 객체의 의미 정보를 포함하는 객체 인식 정보를 입력받고, 상기 주요 면의 위치에 대응하는 상기 객체의 의미 정보에 따라 상기 주요 면의 의미를 인식한다. 여기서 주요 면 인식부(310)는 주요 면의 위치에 대응하는 객체로, 주요 면으로부터 소정의 거리 이내에 위치하는 객체 또는 주요 면과 겹쳐서 존재하는 객체를 선택할 수 있다. 이를 위하여 주요 면 인식부(310)는 주요 면의 위치와 객체의 위치 정보를 상호 비교하여 주요 면과 객체의 대응 여부를 결정할 수 있다. 이와 같이 주요 면에 대응하는 객체를 결정한 다음 주요 면 인식부(310)는 주요 면에 대응하는 객체의 의미 정보에 따라 주요 면의 의미를 인식할 수 있다. 예를 들면 주요 면의 위치에 대응하는 객체의 의미가 '문'인 경우, 상기 주요 면의 의미는 '문'이 될 수 있다.

일 실시예에 있어서 행동 인식 장치에 객체 인식부(100)가 포함되고, 객체 인식부(100)가 검출한 객체의 상기 입력 영상 내에서의 위치 정보와 인식한 객체의 의미 정보를 설정하는 경우, 주요 면 인식부(310)는 객체 인식부(100)에서 생성한 객체 인식 정보를 입력받을 수 있다.

목록 설정부(320)는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 주요 면의 의미에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 주요 면의 상기 행동 목록을 설정한다. 여기서 행동 목록은 가능한 행동들을 목록으로 저장한 것이며, 각 주요 면 별로 행동 목록이 설정될 수 있다.

여기서 상기 물체-행동 관계 모델은 적어도 하나 이상의 상기 물체에 대하여, 각 상기 물체 별로 상기 물체와 관계된 적어도 하나 이상의 상기 행동을 미리 정의한 모델이 될 수 있다. 각 물체 별로 물체와 관련된 사용자의 가능한 행동들이 존재하므로, 각 물체 별로 행동을 미리 정의하여 상기 물체-행동 관계 모델을 설정할 수 있다. 또한 여기서 상기 물체-행동 관계 모델은 물체 별로 관련된 행동들을 정의함에 있어서 물체를 전제하였을 때 특정 행동이 발생할 확률을 설정할 수 있다. 여기서 물체 별로 연관된 행동들에 대하여 서로 다른 확률 값들이 설정될 수 있다.

이때 목록 설정부(320)는 물체-행동 관계 모델에서 주요 면의 의미에 대응하는 물체를 검색하고, 상기 검색한 물체와 관계된 행동 및 해당 행동의 확률 값을 추출하여 행동 목록에 포함시킬 수 있다. 따라서 행동 목록은 행동과 행동 별 확률 값을 저장할 수 있다.

일 실시예에서 상기 물체-행동 관계 모델은 상기 물체와 상기 행동 간의 관계를 노드와 에지 간의 연결 그래프로 나타낸 그래프 모델이 될 수 있다. 여기서 물체 별로 관련된 행동들이 물체 노드에 연결된 행동 노드로 표현될 수 있다. 이때 물체와 관련된 행동이 발생할 확률을 에지에 설정하거나 또는 행동 노드에 설정하여 정의할 수 있다. 도 5는 각 물체와 관계있는 행동을 물체 노드와 행동 노드 간의 에지 연결로 나타낸 그래프 모델을 나타내는 참고도이다. 이와 같은 그래프 모델을 이용하는 경우 목록 설정부(320)는 주요 면의 의미에 대응하는 물체를 상기 그래프 모델에서 검색하고, 검색한 물체와 에지로 연결된 행동들을 선별하여, 선별한 행동들을 행동 목록에 포함시킬 수 있다. 도 5를 참조하면 만일 주요 면이 '소파'로 인식된 경우, 그래프 모델에서 '소파'에 해당하는 물체 노드를 검색할 수 있고, '소파' 물체 노드와 연결된 행동 노드들을 선별하여, '식사', '눕는 행동', '앉는 행동', '스트레칭', '일어나는 행동'을 행동 목록에 포함시킬 수 있다. 여기서 상기 물체-행동 관계 모델은 그래프 모델 이외에도 다양한 자료 구조를 이용하여 물체와 행동 간의 관계를 정의할 수 있음은 물론이다.

다음으로는 행동 인식부(400)의 동작에 대하여 보다 상세히 설명한다.

도 6은 행동 인식부(400)의 세부 블록도이다.

행동 인식부(400)는 행동 위치 검출부(410), 주요 면 선택부(420), 사용자 행동 인식부(430)를 포함할 수 있다.

행동 위치 검출부(410)는 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출한다. 이와 같은 행동 위치 검출은 사용자 행동 인식부(430)에서 수행될 수도 있고, 이 경우 행동 위치 검출부(410)는 사용자 행동 인식부(430)에 포함될 수도 있다.

주요 면 선택부(420)는 상기 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택한다. 여기서 주요 면 선택부(420)는 상기 주요 면 추출부에서 추출된 상기 주요 면들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 주요 면을 선택할 수 있다. 여기서 소정의 거리는 필요에 따라 설정될 수 있는 값이다.

사용자 행동 인식부(430)는 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 사용자 행동 인식부(430)는 행동이 발생한 위치에 대응하는 주요 면에 대하여 미리 설정된 발생 가능한 행동에 관한 행동 목록을 참조하여 사용자의 행동을 인식함으로써, 단순히 사용자의 동작 또는 자세를 분석하여 행동을 인식하는 것 보다 정확하게 행동을 인식할 수 있는 효과가 있다. 예를 들면 사용자의 행동이 발행한 위치에 대응하는 주요 면의 의미가 '의자'인 경우, 사용자가 무릎을 구부리면서 몸을 낮추는 동작을 '앉는 행동'으로 인식할 수 있다. 여기서 사용자의 동작 또는 자세만을 분석할 경우 사용자가 무릎을 구부리면서 몸을 낮추는 동작을 '스쿼트 행동'으로 오인식할 수도 있지만, 본 발명에 따른 사용자 행동 인식부(430)는 위와 같이 행동이 발생한 위치에 대응하는 주요 면의 의미에 따라 미리 설정된 행동 목록을 참조함으로써, 해당 주요 면에서 발생할 가능성이 있는 행동들 중에서 사용자의 행동을 인식할 수 있고, 그에 따라 행동 인식 정확도를 향상시킬 수 있는 효과가 있다.

여기서 사용자 행동 인식부(430)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다. 사용자 행동 인식부(430)는 특정한 사용자의 동작 또는 자세를 분석하여 하나 이상의 후보 행동으로 이를 인식할 수 있다. 그리고 복수개의 후보 행동들 중에서 상기 행동 목록에 포함된 행동과 대응하는 후보 행동을 선정하여, 이를 사용자 행동으로 인식할 수 있다. 여기서 후보 행동이 행동 목록에 포함된 행동과 동일하면 이를 사용자 행동으로 인식할 수 있고, 또는 후보 행동이 행동 목록에 포함된 행동과 정확하게 일치하지는 않더라도 관련된 행동으로 판단될 수 있는 경우 이를 사용자 행동으로 인식할 수 있다. 후보 행동과 행동 목록에 포함된 행동 간의 대응 관계를 판단하기 위하여는, 행동 간의 관계를 미리 정의한 모델을 이용할 수 있다. 일 실시예에 따르면 상기 물체-행동 관계 모델을 이용할 수도 있다.

여기서 주요 면 선택부(420)는 사용자의 행동이 발생한 위치에 대응하는 주요 면을 복수개 선택할 수도 있다. 사용자 행동 인식부(430)는 복수개의 주요 면에 대응하는 행동 목록들에서 후보 행동에 대응하는 행동들을 복수개 발견할 수 있다. 이때 사용자 행동 인식부(430)는 발견한 행동들 중에서, 행동 목록에 행동과 함께 저장된 확률 값을 참조하여 확률 값이 가장 높은 행동을 선택하여, 사용자 행동으로 인식할 수 있다. 또한 이때 주요 면과 사용자의 행동이 발생한 위치 간의 거리에 따라 산출되는 가중치를 각 행동 별 확률 값에 곱한 값을 기준으로, 행동 목록에서 행동을 선택하여 사용자의 행동으로 인식할 수도 있다. 위와 같은 구성을 통하여 사용자의 행동이 발생한 위치에 보다 가까이 존재하는 주요 면의 행동 목록에 포함된 행동들을 보다 우선시할 수 있는 효과가 있다. 이를 위하여 상기 가중치는 주요 면과 사용자의 행동이 발생한 위치 간의 거리와 반비례하도록 설정될 수 있다.

또한 상기 후보 행동들 중에서 행동 목록에 포함된 행동들과 대응하는 후보 행동이 복수개 존재하는 경우에도 위에서 설명한 바와 같이 확률 값을 기준으로 행동 목록에서 최우선의 행동을 선택하여 사용자의 행동으로 인식할 수 있다.

여기서 사용자 행동 인식부(430)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하기 위하여 다양한 공지된 사용자 자세 인식 또는 포스쳐 인식 또는 동작 인식 또는 제스쳐 인식 알고리즘을 사용할 수 있다. 그리고 상기 인식 알고리즘의 수행 결과 사용자의 동작 또는 자세를 적어도 하나 이상의 후보 행동으로 인식할 수 있다. 즉 사용자의 자세나 동작은 경우에 따라 실제 사용자가 서로 다른 의도를 가지고 행동한 것임에도 불구하고, 그 외관상의 행동은 유사하게 나타날 수 있기 때문에, 사용자 행동 인식부(430)는 사용자의 동작 또는 자세를 인식하여 사용자가 의도할 수 있는 복수개의 후보 행동을 결정할 수 있다. 상술한 예와 같이 사용자의 동작이 무릎을 구부려 몸을 낮추는 동작인 경우, 이에 대하여 '앉는 행동' 또는 '스쿼트 행동'으로 후보 행동을 결정할 수 있다. 또는 사용자의 동작이 서있는 상태로 한 손을 전방으로 이동시키는 동작인 경우, 이에 대하여 '악수 행동' 또는 '문을 여는 행동'으로 후보 행동을 결정할 수 있다.

여기서 사용자 행동 인식부(430)는 상기 입력 영상에서 사용자의 형체 또는 그에 따른 스켈레톤 정보를 인식하고, 이를 분석하여 사용자의 동작 또는 자세를 인식할 수 있다. 예를 들면 "Generating skeletons and centerlines from the distance transform, C.Wayne Niblack. et al., CVGIP: Graphical Models and Image Processing, Volume 54, Issue 5, September 1992, Pages 420-437", "휴먼-로봇 인터액션을 위한 하이브리드 스켈레톤 특징점 추출, 주영훈, 소제윤, 제어로봇시스템학회 논문지 14.2 (2008): 178-183.", "Human action recognition using star skeleton, Hsuan-Sheng Chen. et al, Proceeding VSSN '06 Proceedings of the 4th ACM international workshop on Video surveillance and sensor networks Pages 171-178", "Binary shape recognition using the morphological skeleton transform, P.E. Trahanias, Pattern Recognition, Volume 25, Issue 11, November 1992, Pages 1277-1288"에서 각 개시하고 있는 사용자 형체 또는 스켈레톤 인식 방법을 이용할 수 있다. 여기서 사용자 행동 인식부(430)는 상술한 예 이외에도 다양한 사용자 형체 인식 기술을 이용하여 사용자의 형체 또는 그에 따른 스켈레톤, 골격을 인식할 수 있음은 물론이다.

여기서 사용자 행동 인식부(430)가 인식하는 사용자의 자세는 특정한 시점에서의 상기 사용자의 신체의 일부분의 형태나 자세 또는 포즈가 될 수 있고, 사용자의 동작은 일정한 시간 동안의 상기 사용자의 신체의 일부분의 형태나 자세 또는 포즈의 움직임이나 변화가 될 수 있다. 그리고 여기서 사용자 행동 인식부(430)가 사용자의 자세 또는 동작을 인식하기 위하여 분석하는 사용자의 신체의 일부분은 사용자의 손이 될 수 있고, 필요에 따라 사용자의 팔, 상반신, 하반신, 전신 등이 될 수 있다. 여기서 사용자 행동 인식부(430)는 상기 사용자의 형체에 따른 사용자의 골격(스켈레톤)의 자세 또는 시간의 흐름에 따른 변화를 인식하여 사용자의 자세 또는 동작을 사전에 정의된 후보 행동으로 인식할 수 있다. 여기서 후보 행동은 골격의 자세 또는 시간의 흐름에 따른 변화 동작에 따라 미리 정의될 수 있다. 사용자 행동 인식부(430)는 입력 영상에서 인식한 사용자의 골격에 대한 인식 정보와 미리 정의된 후보 행동에 관한 정보를 비교하여 그 결과에 따라 사용자의 동작 또는 자세가 어느 후보 행동에 해당하는지를 인식할 수 있다. 그리고 이때 상술한 바와 같이 인식한 결과에 따라 가능성이 있는 복수개의 후보 행동을 결정할 수 있다.

여기서 사용자 행동 인식부(430)는 사용자의 형체 또는 골격을 인식하여 사용자의 동작 또는 자세에 따른 후보 행동을 인식하기 위하여 다양한 공지된 제스쳐 인식 기술을 사용할 수 있다. 예를 들면 사용자 입력 정보 식별부는 "Dynamic hand gesture recognition using the skeleton of the hand, Ionescu, Bogdan, et al. EURASIP Journal on Applied Signal Processing 2005 (2005): 2101-2109.", "Robust part-based hand gesture recognition using kinect sensor, Ren, Zhou, et al., Multimedia, IEEE Transactions on 15.5 (2013): 1110-1120.", "Human action recognition using star skeleton, Hsuan-Sheng Chen. et al, Proceeding VSSN '06 Proceedings of the 4th ACM international workshop on Video surveillance and sensor networks Pages 171-178"에서 개시하고 있는 각 제스쳐 인식 방법을 이용할 수 있고, 기타 다양한 제스쳐 인식 방법을 이용할 수 있다.

본 발명의 또 다른 실시예에 따른 행동 인식 장치는 객체 검출부(1000), 행동 목록 설정부(2000), 행동 인식부(3000)를 포함할 수 있다.

도 7은 상기 또 다른 실시예에 따른 행동 인식 장치의 블록도이다.

객체 인식부(1000)는 입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식한다. 여기서 객체 인식부(1000)는 상술한 객체 인식부(100)와 동일한 방식으로 객체를 검출하고 인식할 수 있다.

행동 목록 설정부(2000)는 상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정한다.

여기서 행동 목록 설정부(2000)는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 인식한 객체에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 객체의 상기 행동 목록을 설정할 수 있다. 여기서 물체-행동 관계 모델을 이용하여 검색한 물체에 따라 행동 목록을 설정하는 동작은 상술한 행동 목록 설정부(300)와 동일한 방식으로 수행될 수 있다.

행동 인식부(3000)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 행동 인식부(3000)는 상술한 행동 인식부(400)에 대하여 상세히 설명한 부분에서 주요 면 대신 검출한 객체를 이용하여 행동 목록을 참조하여 상용자의 행동을 인식할 수 있고, 세부 동작은 상술한 행동 인식부(400)와 동일하게 수행될 수 있다.

도 8은 행동 인식부(3000)의 세부 블록도이다.

행동 인식부(3000)는 행동 위치 검출부(3100), 객체 선택부(3200), 사용자 행동 인식부(3300)를 포함할 수 있다.

행동 위치 검출부(3100)는 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출한다.

객체 선택부(3200)는 상기 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택한다. 여기서 객체 선택부(3200)는 상기 입력 영상의 상기 객체들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 객체를 선택할 수 있다.

사용자 행동 인식부(3300)는 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 사용자 행동 인식부(3300)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.

본 발명의 또 다른 실시예에 따른 행동 인식 방법은 주요 면 추출 단계(S200), 행동 목록 설정 단계(S300), 행동 인식 단계(S400)를 포함할 수 있다. 여기서 또 다른 실시예에 따른 행동 인식 방법은 객체 인식 단계(S100)를 더 포함할 수도 있다. 여기서 상기 실시예에 따른 행동 인식 방법은 도 1 내지 도 6을 참조하면서 상세히 설명한 본 발명의 일 실시예에 따른 행동 인식 장치가 동작하는 방식과 동일하게 동작할 수 있다.

주요 면 추출 단계(S200)는 입력 영상에서 적어도 하나 이상의 주요 면을 추출한다.

행동 목록 설정 단계(S300)는 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주오 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정한다.

행동 인식 단계(S400)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다.

객체 인식 단계(S100)는 상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식한다. 여기서 객체 인식 단계(S100)는 상기 검출한 객체의 상기 입력 영상 내에서의 위치 정보를 설정하고, 상기 인식한 객체의 의미 정보를 설정할 수 있다.

주요 면 추출 단계(S200)는 상기 입력 영상에서 적어도 하나 이상의 주요 노멀 벡터를 추출하고, 상기 입력 영상에서 상기 추출한 주요 노멀 벡터에 대응하는 각 영역을 상기 주요 면으로 추출할 수 있다. 여기서 주요 면 추출 단계(S200)는 주요 노멀 벡터 추출 단계(S210), 면 추출 단계(S220)를 포함할 수 있다.

도 10은 주요 면 추출 단계(S200)의 세부 흐름도이다.

주요 면 추출 단계(S200)는 주요 노멀 벡터 추출 단계(S210), 면 추출 단계(S220)를 포함할 수 있다.

주요 노멀 벡터 추출 단계(S210)는 상기 입력 영상에서 지역적 노멀 벡터를 산출하고, 상기 산출한 지역적 노멀 벡터 중에서 상기 주요 노멀 벡터를 결정한다. 주요 노멀 벡터 추출 단계(S210)는 상기 입력 영상의 지역적 면에서의 노멀 벡터를 상기 지역적 노멀 벡터로 산출하고, 상기 산출한 지역적 노멀 벡터들을 클러스터링하고, 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정할 수 있다.

면 추출 단계(S220)는 상기 입력 영상에서 상기 주요 노멀 벡터를 가지는 화소들을 수집하고, 상기 수집한 화소들을 클러스터링하여 상기 주요 노멀 벡터에 대응하는 상기 주요 면을 추출한다.

행동 목록 설정 단계(S300)는 주요 면 인식 단계(S310), 목록 설정 단계(S320)를 포함할 수 있다.

도 11은 행동 목록 설정 단계(S300)의 세부 흐름도이다.

주요 면 인식 단계(S310)는 상기 입력 영상 내에 존재하는 객체의 위치 정보와 상기 객체의 의미 정보를 포함하는 객체 인식 정보를 입력받고, 상기 주요 면의 위치에 대응하는 상기 객체의 의미 정보에 따라 상기 주요 면의 의미를 인식한다.

목록 설정 단계(S320)는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 주요 면의 의미에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 주요 면의 상기 행동 목록을 설정한다.

여기서 상기 물체-행동 관계 모델은 적어도 하나 이상의 상기 물체에 대하여, 각 상기 물체 별로 상기 물체와 관계된 적어도 하나 이상의 상기 행동을 미리 정의한 모델이 될 수 있다. 여기서 상기 물체-행동 관계 모델은 상기 물체와 상기 행동 간의 관계를 노드와 에지 간의 연결 그래프로 나타낸 그래프 모델이 될 수 있다.

행동 인식 단계(S400)는 행동 위치 검출 단계(S410), 주요 면 선택 단계(S420), 사용자 행동 인식 단계(S430)를 포함할 수 있다.

도 12는 행동 인식 단계(S400)의 세부 흐름도이다.

행동 위치 검출 단계(S410)는 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출한다.

주요 면 선택 단계(S420)는 상기 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택한다.

사용자 행동 인식 단계(S430)는 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다.

여기서 주요 면 선택 단계(S420)는 상기 주요 면 추출 단계에서 추출된 상기 주요 면들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 주요 면을 선택할 수 있다.

여기서 사용자 행동 인식 단계(S430)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.

본 발명의 또 다른 실시예에 따른 행동 인식 방법은 객체 인식 단계(S1000), 행동 목록 설정 단계(S2000), 행동 인식 단계(S3000)를 포함할 수 있다. 여기서 상기 실시예에 따른 행동 인식 방법은 도 7 내지 도 8을 참조하면서 설명한 본 발명의 일 실시예에 따른 행동 인식 장치가 동작하는 방식과 동일하게 동작할 수 있다.

도 13은 상기 또 다른 실시예에 따른 행동 인식 방법의 흐름도이다.

객체 검출 단계(S1000)는 입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식한다. 행동 목록 설정 단계(S2000)는 상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정한다. 행동 인식 단계(S3000)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 행동 목록 설정 단계(S2000)는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 인식한 객체에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 객체의 상기 행동 목록을 설정할 수 있다.

여기서 행동 인식 단계(S3000)는 행동 위치 검출 단계(S3100), 객체 선택 단계(S3200), 사용자 행동 인식 단계(S3300)를 포함할 수 있다. 도 14는 행동 인식 단계(S3000)의 세부 흐름도이다.

행동 위치 검출 단계(S3100)는 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출한다. 객체 선택 단계(S3200)는 상기 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택한다. 여기서 객체 선택 단계(S3200)는 상기 입력 영상의 상기 객체들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 객체를 선택할 수 있다. 사용자 행동 인식 단계(S3300)는 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 사용자 행동 인식 단계(S3300)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.

이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.

또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

행동 인식 장치에 있어서,

입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출부;

상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및

상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함하는 것을 특징으로 하는 행동 인식 장치.
제1항에 있어서,

상기 주요 면 추출부는 상기 입력 영상에서 적어도 하나 이상의 주요 노멀 벡터를 추출하고, 상기 입력 영상에서 상기 추출한 주요 노멀 벡터에 대응하는 각 영역을 상기 주요 면으로 추출하는 것을 특징으로 하는 행동 인식 장치.
제2항에 있어서, 상기 주요 면 추출부는,

상기 입력 영상에서 지역적 노멀 벡터를 산출하고, 상기 산출한 지역적 노멀 벡터 중에서 상기 주요 노멀 벡터를 결정하는 주요 노멀 벡터 추출부를 포함하는 것을 특징으로 하는 행동 인식 장치.
제3항에 있어서,

상기 주요 노멀 벡터 추출부는 상기 입력 영상의 지역적 면에서의 노멀 벡터를 상기 지역적 노멀 벡터로 산출하고, 상기 산출한 지역적 노멀 벡터들을 클러스터링하고, 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정하는 것을 특징으로 하는 행동 인식 장치.
제2항에 있어서, 상기 주요 면 추출부는,

상기 입력 영상에서 상기 주요 노멀 벡터를 가지는 화소들을 수집하고, 상기 수집한 화소들을 클러스터링하여 상기 주요 노멀 벡터에 대응하는 상기 주요 면을 추출하는 면 추출부를 포함하는 것을 특징으로 하는 행동 인식 장치.
제1항에 있어서,

상기 행동 목록 설정부는 상기 입력 영상 내에 존재하는 객체의 위치 정보와 상기 객체의 의미 정보를 포함하는 객체 인식 정보를 입력받고, 상기 주요 면의 위치에 대응하는 상기 객체의 의미 정보에 따라 상기 주요 면의 의미를 인식하는 주요 면 인식부를 포함하는 것을 특징으로 하는 행동 인식 장치.
제1항에 있어서,

상기 행동 목록 설정부는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 주요 면의 의미에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 주요 면의 상기 행동 목록을 설정하는 목록 설정부를 포함하는 것을 특징으로 하는 행동 인식 장치.
제7항에 있어서,

상기 물체-행동 관계 모델은 적어도 하나 이상의 상기 물체에 대하여, 각 상기 물체 별로 상기 물체와 관계된 적어도 하나 이상의 상기 행동을 미리 정의한 모델인 것을 특징으로 하는 행동 인식 장치.
제1항에 있어서,

상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식하는 객체 인식부를 더 포함하는 것을 특징으로 하는 행동 인식 장치.
제9항에 있어서,

상기 객체 인식부는 상기 검출한 객체의 상기 입력 영상 내에서의 위치 정보를 설정하고, 상기 인식한 객체의 의미 정보를 설정하는 것을 특징으로 하는 행동 인식 장치.
제1항에 있어서, 상기 행동 인식부는,

상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출하는 행동 위치 검출부;

상기 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하는 주요 면 선택부; 및

상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 사용자 행동 인식부를 포함하는 것을 특징으로 하는 행동 인식 장치.
제11항에 있어서,

상기 주요 면 선택부는 상기 주요 면 추출부에서 추출된 상기 주요 면들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 주요 면을 선택하는 것을 특징으로 하는 행동 인식 장치.
제11항에 있어서,

상기 사용자 행동 인식부는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식하는 것을 특징으로 하는 행동 인식 장치.
행동 인식 장치에 있어서,

입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식하는 객체 인식부;

상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및

상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함하는 것을 특징으로 하는 행동 인식 장치.
제14항에 있어서,

상기 행동 목록 설정부는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 인식한 객체에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 객체의 상기 행동 목록을 설정하는 것을 특징으로 하는 행동 인식 장치.
제14항에 있어서, 상기 행동 인식부는,

상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출하는 행동 위치 검출부;

상기 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하는 객체 선택부; 및

상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 사용자 행동 인식부를 포함하는 것을 특징으로 하는 행동 인식 장치.
제16항에 있어서,

상기 객체 선택부는 상기 입력 영상의 상기 객체들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 객체를 선택하는 것을 특징으로 하는 행동 인식 장치.
제16항에 있어서,

상기 사용자 행동 인식부는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식하는 것을 특징으로 하는 행동 인식 장치.
행동 인식 방법에 있어서,

입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출 단계;

상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정 단계; 및

상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식 단계;를 포함하는 것을 특징으로 하는 행동 인식 방법.
행동 인식 방법에 있어서,

입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식하는 객체 인식 단계;

상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정하는 행동 목록 설정 단계; 및

상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식 단계;를 포함하는 것을 특징으로 하는 행동 인식 방법.