KR102241705B1

KR102241705B1 - 멀티모달 행위 검출 장치 및 방법

Info

Publication number: KR102241705B1
Application number: KR1020170178137A
Authority: KR
Inventors: 김도형; 김재홍; 이재연; 장민수
Original assignee: 한국전자통신연구원
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2021-04-19
Also published as: KR20190076380A

Abstract

멀티모달 행위 검출 장치 및 방법이 개시된다. 본 발명의 일실시예에 따른 멀티모달 행위 검출 장치는 사용자가 착용한 웨어러블 센서 장치 및 로봇에 장착된 로봇 센서 장치가 센싱한 데이터를 이용하여 상기 사용자를 행위를 검출할 대상으로 인식하는 인식부; 상기 센싱한 데이터가 포함하는 영상과 음성을 복수개의 엔진을 이용하여 상기 대상의 행위를 검출하는 검출부 및 상기 복수개의 엔진이 검출한 대상의 행위를 융합하여 상기 대상의 행위에 대한 이벤트 확률 리스트를 생성하는 이벤트 생성부를 포함한다.

Description

멀티모달 행위 검출 장치 및 방법 {APPARATUS AND METHOD FOR DETECTING ACTION BASED ON MULTI-MODAL}

본 발명은 지능 정보 기술에 관한 것으로, 보다 상세하게는 유-헬스케어 로봇 기술에 관한 것이다.

고령 사회의 빠른 도래와 독거노인 가구의 급증으로 인해 고령자의 삶의 질 저하와 고령자 지원을 위한 사회 공공지출의 급격한 증가가 예상되고 있다. 이러한 사회 문제에 대한 해결책의 하나로 휴먼케어 로봇이 고령자와 함께 생활하면서 고령자를 이해하고 정서적으로 교류하면서 상황에 맞는 건강, 생활, 인지, 정서 서비스를 제공해 주기 위해 필요한 지능정보-로봇 기술의 개발이 요구되고 있다.

이러한 지능정보 기술이 탑재된 휴먼케어 로봇은 고령자와의 심리적, 정서적 교감을 기반으로 하는 개인 맞춤형 돌봄 서비스 제공이 가능하고, 로봇을 기반으로 하는 고령자 특화 지능정보기술은 기존의 u-Heathcare 기술과 접목하여 적극적인 의료?건강 및 생활지원 서비스에 활용이 가능하다.

이러한 지능정보-로봇 기술 중에 고령자가 행하고 있는 동작이 어떤 행동인지를 파악하는 행위검출 기술은 고령자의 생활패턴을 파악하고 고령자가 현재 행하는 행위의 의도를 이해하고 예측하기 위한 핵심 기술이다. 또한 인식된 결과를 바탕으로 직접적인 건강지원 및 생활지원 서비스의 제공이 가능하여 그 활용도가 매우 높은 기술이다.

휴먼케어 로봇 환경에서의 행위검출 기술의 중요성에도 불구하고 현재 기술의 신뢰도는 매우 낮아 실제 로봇 환경에 적용하기에는 많은 어려움이 있다.

기존 대부분의 행위검출 기술은 드라마, 영화 등의 2D 영상을 분석하여 비디오 내에서의 어떤 행위가 발생하는 지를 이해하기 위한 목적으로 활발히 연구되어 왔다. 비디오 내에서 행해지는 스포츠 동작, 악기 연주 동작 등은 동작 간의 구별이 용이하며 행동이 발생하는 환경에 서로 차이가 있어 인식이 비교적 용이한 측면이 있다.

하지만, 주로 고령자를 대상으로 하는 휴먼케어 로봇 환경에서 요구되는 행위검출 기술은 2D 영상 분석을 기반으로 하는 비디오 분석에서 요구되는 기술과는 다르며 다음과 같은 어려운 문제를 해결해야 한다는 점에서 도전적이라고 할 수 있다.

첫째, 고령자의 행동들은 동작의 차이가 크지 않다.

둘째, 실내의 협소한 가정환경이므로 행동이 일어나는 배경의 차이가 크지 않다.

셋째, 이동 카메라이므로 같은 행동이라도 다양한 각도, 높이, 거리, 배경에서 촬영될 수 있다.

넷째, 행동인식에 필요한 중요 영상을 로봇이 획득하지 못 할 수도 있다. 즉 모니터링 할 수 있는 범위가 제한적이다. (예를 들어 세수 행위를 검출하고자 하는 경우에 로봇이 고령자가 세수하는 앞모습 영상을 획득할 수 있는 확률이 매우 낮다)

위와 같은 문제에도 불구하고 고령자에게 적절한 휴먼케어 서비스를 제공하기 위해서는 안정적으로 고령자의 행위를 검출하는 기술이 필수적이다. 휴먼케어 로봇에서 활용 가능한 행위 검출 기술 중, 활용도와 신뢰성이 가장 높은 기술은 시각기반 행위검출 기술이나 로봇 환경에서는 앞서 언급한 이유로 높은 성능을 기대하기 어렵다.

따라서 휴먼케어 로봇의 안정적인 행위 검출 성능을 확보하고 검출 가능한 모니터링 범위를 확장하기 위해서 본 발명에서는 멀티모달 행위검출 시스템을 제안한다.

멀티모달 행위검출 시스템은 휴먼이 생활하는 공간 내에 설치된 다중 센서와 로봇에 장착된 센서를 복합적으로 활용하여 휴먼이 현재 어떤 행동을 수행하고 있는지를 실시간으로 검출하는 시스템이다. 신뢰도 높은 행위검출을 위해서는 센서 데이터 분석결과들의 단순한 취합에 그치는 것이 아니라 휴먼과 로봇이 공존하는 환경에 대한 이해, 개별 센서들로부터 분석된 결과들의 특징 파악, 로봇이 제공하는 휴먼케어 서비스에 대한 이해를 기반으로 멀티모달 시스템이 구성되어야 하며, 본 발명에서는 이를 위한 시스템 구조도를 제시한다.

한편, 한국공개특허 제 10-2009-0001723 호“건강관리로봇을 이용한 헬스케어 관리시스템”는 헬스케어 컨텐츠를 가지는 관리서버와 연동 가능한 건강관리로봇을 구성함으로써 사용자의 요구에 따라 즉각적으로 헬스케어 컨텐츠를 제공할 수 있는 건강 관리로봇을 이용한 헬스케어 관리시스템에 관하여 개시하고 있다.

본 발명은 전술한 종래 기술들의 문제점을 개선한 기술로서, 로봇이 휴먼과 함께 생활하는 로봇 환경에서 발생할 수 있는 다양한 변화들에 대해서 휴먼의 행위를 높은 신뢰도로 검출할 수 있는 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 생활패턴과 행위의도에 반응하는 선제적 서비스와 능동적인 건강 서비스를 제공하는 것을 목적으로 한다.

또한, 본 발명은 유-헬스케어(u-Healthcare) 기술과 접목하여 적극적인 의료·건강 및 생활지원 서비스에 활용하는 것을 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 일실시예에 따른 멀티모달 행위 검출 장치는 사용자가 착용한 웨어러블 센서 장치 및 로봇에 장착된 로봇 센서 장치가 센싱한 데이터를 이용하여 상기 사용자를 행위를 검출할 대상으로 인식하는 인식부; 상기 센싱한 데이터가 포함하는 영상과 음성을 복수개의 엔진을 이용하여 상기 대상의 행위를 검출하는 검출부 및 상기 복수개의 엔진이 검출한 대상의 행위를 융합하여 상기 대상의 행위에 대한 이벤트 확률 리스트를 생성하는 이벤트 생성부를 포함한다.

또한, 상기한 목적을 달성하기 위한 본 발명의 일실시예에 따른 멀티모달 행위 검출 방법은 멀티모달 행위 검출 장치를 이용하는 멀티모달 행위 검출 방법에 있어서, 사용자가 착용한 웨어러블 센서 장치 및 로봇에 장착된 로봇 센서 장치가 센싱한 데이터를 이용하여 상기 사용자를 행위를 검출할 대상으로 인식하는 단계; 상기 센싱한 데이터가 포함하는 영상과 음성을 복수개의 엔진을 이용하여 상기 대상의 행위를 검출하는 단계 및 상기 복수개의 엔진이 검출한 대상의 행위를 융합하여 상기 대상의 행위에 대한 이벤트 확률 리스트를 생성하는 단계를 포함한다.

본 발명은 전술한 종래 기술들의 문제점을 개선한 기술로서, 로봇이 휴먼과 함께 생활하는 로봇 환경에서 발생할 수 있는 다양한 변화들에 대해서 휴먼의 행위를 높은 신뢰도로 검출할 수 있는 방법을 제공할 수 있다.

또한, 본 발명은 생활패턴과 행위의도에 반응하는 선제적 서비스와 능동적인 건강 서비스를 제공할 수 있다.

또한, 본 발명은 유-헬스케어(u-Healthcare) 기술과 접목하여 적극적인 의료·건강 및 생활지원 서비스에 활용할 수 있다.

도 1은 본 발명의 일실시예에 따른 멀티모달 행위 검출 시스템을 나타낸 도면이다.
도 2는 본 발명의 일실시예에 따른 인식 대상의 행동들을 나타낸 도면이다.
도 3은 본 발명의 일실시예에 따른 멀티모달 행위 검출 시스템을 나타낸 블록도이다.
도 4는 도 3에 도시된 로봇 센서 장치의 일 예를 세부적으로 나타낸 블록도이다.
도 5는 본 발명의 일실시예에 따른 멀티모달 행위 검출 장치를 나타낸 블록도이다.
도 6은 도 5에 도시된 인식부의 일 예를 세부적으로 나타낸 블록도이다.
도 7은 도 5에 도시된 검출부의 일 예를 세부적으로 나타낸 블록도이다.
도 8은 본 발명의 일실시예에 따른 멀티모달 행위 검출 방법을 나타낸 동작흐름도이다.
도 9는 본 발명의 일실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 멀티모달 행위 검출 시스템을 나타낸 도면이다. 도 2는 본 발명의 일실시예에 따른 인식 대상의 행동들을 나타낸 도면이다.

도 1을 참조하면, 본 발명의 일실시예에 따른 멀티모달 행위 검출 시스템은 고령자의 신체에 부착된 각종 웨어러블 센서, 로봇에 장착된 로봇 단말 센서, 고령자가 생활하는 공간 내에 설치된 환경 센서 및 IoT Devices의 센서들이 연계된 센서 네트워크(Sensor network)가 존재하는 것을 알 수 있다. 이러한 센서 네트워크로부터 입력되는 다양한 센서 데이터는 각 센서를 분석할 수 있는 각각의 분석 엔진의 입력이 된다. 예를 들어 로봇 단말 센서인 2D 또는 3D 카메라로부터 입력되는 영상 데이터는 시각기반 행위검출 엔진에 입력되며, 웨어러블 센서로부터 획득된 데이터는 센서기반 행위검출 엔진에 의해 분석된다. 멀티모달 행위 검출 장치(100)의 멀티모달 행위 검출 SW는 시각기반 행위검출 엔진, 센서기반 행위검출 엔진, 장면이해 엔진, 음향인식 엔진 등의 결과를 융합하여 최종적으로 고령자의 행동을 검출하는 SW 시스템이다. 다시 말해 멀티모달 행위 검출 장치(100)는 각 엔진으로부터 인식된 결과를 입력으로 받아 고령자의 일상 행동 및 교류 행동의 아이디와 그 행위의 시작 시간과 종료 시간을 출력할 수 있다. 또한, 상기에서 설명한 개별 분석 엔진들과 멀티모달 행위 검출 장치(100)는 모두 휴먼케어 로봇 통합 시스템 내에 위치하고 별도의 서버에서 동작할 수도 있다.

도 2을 참조하면, 본 발명의 일실시예에 따른 인식 대상의 행동들과 인식 대상의 스켈레톤을 나타낸 것을 알 수 있다.

또한, 본 발명은 하기 표 1 및 표 2와 같이 인식 대상의 행동들을 분류하여 세부 행동으로 인식할 수 있다.

대분류	중분류	소분류	세부행동
일반행동	단순행동	상태	서있다
			앉아있다
			누워있다
			손들다
		동작	걷다
		동작	뛰다
	일반실내활동	일상행동	세수하다
			양치하다
			숟가락으로밥먹다
			포크로과일먹다
			물마시다
			옷을입다/벗다
			화장하다
			머리를빗다
			전화하다
			스마트폰보다
			글씨를쓰다
			담배피다
			박수치다
			음료를붓다
		가사활동	음식자르다
			설거지하다
			진공청소기를돌리다
			바닥을닦다
		여가활동	피아노연주하다
			바이올린연주하다
			기타연주하다
			춤추다
			책읽다
			신문보다
			TV시청하다
			바느질하다
			컴퓨터하다

대분류	중분류	소분류	세부행동
휴먼케어 로봇 특화행동	고령자특화행동	건강보조활동	약먹다
			맨손체조하다
		특이행동	휠체어이동하다
			기어다니다
			쓰러지다
	HH interaction		대화하다
			악수하다
			포옹하다
			싸우다
	HR interaction		손짓하여부르다
			좌우로안녕하다
			환하게웃다

도 3은 본 발명의 일실시예에 따른 멀티모달 행위 검출 시스템을 나타낸 블록도이다.

도 3을 참조하면, 본 발명의 일실시예에 따른 멀티모달 행위 검출 시스템은 웨어러블 센서 장치(10), 로봇 센서 장치(20) 및 멀티모달 행위 검출 장치(100)를 포함한다.

웨어러블 센서 장치(10) 사용자의 신체에 부착되어 사용자의 행동을 센싱한 신호를 생성할 수 있다.

예를 들어, 웨어러블 센서 장치(10)는 사용자의 손목 등에 착용되어 센서의 관성 측정 장치(Inertial Measurement Unit)를 사용자의 행동에 대한 센싱 데이터를 생성할 수 있다.

로봇 센서 장치(20)는 로봇에 장착되어 2D 또는 3D 카메라를 이용하여 인식 대상을 촬영하고, 비디오 데이터를 생성할 수 있다.

이 때, 로봇 센서 장치(20)는 마이크를 이용하여 대상으로부터 발생하는 소리로부터 오디오 데이터를 생성할 수 있다.

멀티모달 행위 검출 장치(100)는 웨어러블 센서 장치(10)와 로봇 센서 장치(20)로부터 데이터를 수신하여 인식 대상에 대한 행동을 검출하고 행동에 대한 이벤트를 생성할 수 있다.

도 4는 도 3에 도시된 로봇 센서 장치의 일 예를 세부적으로 나타낸 블록도이다.

도 4를 참조하면, 본 발명의 일실시예에 따른 로봇 센서 장치(20)는 휴먼 위치 검출부(21), 휴먼 추적부(22) 및 행동 인식 판단부(23)를 포함할 수 있다.

휴먼 위치 검출부(21)는 가정 내에서 실제 휴먼이 위치하고 있는 장소에 대한 정보를 제공하는 휴먼 위치 검출(person localization) 엔진을 사용할 수 있다.

이 때, 휴먼 위치 검출부(21)는 위치 정보를 (x, y, z) 절대 좌표 형태로 제공할 수 있고, 위치의 의미론적인 장소 정보(예) 거실, 주방, 현관 등)를 제공할 수 있다.

휴먼 추적부(22)는 로봇의 시각 범위 내에 존재하는 휴먼의 위치를 검출하는 휴먼 추적(person tracking) 엔진을 사용할 수 있다.

이 때, 휴먼 추적부(22)는 로봇의 위치를 중심으로 휴먼의 상대적인 위치 정보를 제공한다.

휴먼 위치 검출 엔진과 휴먼 추적 엔진은 상시 구동 되어야 하는 엔진으로서 로봇 센서 장치(20)(로봇 플랫폼)에서 바로 수행될 수 있다.

이 때, 로봇 센서 장치(20)는 이들 엔진의 결과를 상시 모니터링 하면서 행동인식에 적합한 환경이 되었다고 판단되면 서버에 위치하고 있는 행위 검출을 위한 엔진들을 구동시킬 수 있다.

즉, 행동 인식 판단부(23)는 휴먼 위치 검출부(21)와 휴먼 추적부(22)에서 생성한 정보에 기반하여 아래 조건을 만족할 때, 행위 검출 엔진을 구동시킬 수 있다.

휴먼이 인식 대상 행동이 발생할 수 있는 장소에 위치하고 있다.

휴먼이 로봇으로부터 5m 이내의 적정 거리에 위치하고 있다.

휴먼이 3초 이상 안정적으로 추적되고 있어야 한다.

추적되고 있는 휴먼의 바디 파트가 50% 이상 검출되고 있다.

추적되고 휴먼의 정면 또는 측면 모습이 20% 이상 검출되고 있다.

이 때, 행동 인식 판단부(23)는 상기 조건들이 만족되어 행동 인식 엔진을 구동하기에 적절한 환경이라고 판단되면 비로소 서버에 위치하고 있는 각종 엔진들을 구동시킬 수 있다.

도 5는 본 발명의 일실시예에 따른 멀티모달 행위 검출 장치를 나타낸 블록도이다. 도 6은 도 5에 도시된 인식부의 일 예를 세부적으로 나타낸 블록도이다. 도 7은 도 5에 도시된 검출부의 일 예를 세부적으로 나타낸 블록도이다.

도 5를 참조하면, 본 발명의 일실시예에 따른 멀티모달 행위 검출 장치(100)는 인식부(110), 검출부(120) 및 이벤트 생성부(130)를 포함한다.

멀티모달 행위 검출 장치(100)는 로봇 센서 장치(20)로부터 획득된 일련의 RGB 영상 또는 3차원 깊이 영상 시퀀스를 입력 받아 분석하는 물체검출(object detection)엔진, 자세인식(pose recognition)엔진, 장면이해(scene understanding)엔진, 시각기반 행위검출(vision-based action detection)엔진을 이용하여 인식 대상의 행위를 검출할 수 있다.

인식부(110)는 사용자가 착용한 웨어러블 센서 장치(10) 및 로봇에 장착된 로봇 센서 장치(20)가 센싱한 데이터를 이용하여 상기 사용자를 행위를 검출할 대상으로 인식할 수 있다.

도 6을 참조하면, 인식부(110)는 물체 검출부(111), 자세 인식부(112), 자세 이해부(113) 및 음향 인식부(114)를 포함할 수 있다.

물체 검출부(111)는 물체검출(object detection)엔진을 이용하여 영상 내에 존재하고 있는 물체의 아이디를 인식할 수 있다.

예를 들어, 물체 검출부(111)는 휴먼이 손에 쥐고 있는 물체를 인식하는 할 수 있다. 물체를 가지고 행하는 행동의 경우 휴먼의 동작 분석만으로는 신뢰도 높은 행동을 검출하기에는 어려운 경우가 많다. 예를 들어, 드라이버로 나사를 돌리는 행위와 열쇠로 현관문을 여는 행위의 경우에 휴먼의 동작이 비슷하기 때문에 동작 분석으로는 두 행위의 구별이 쉽지 않으며 손에 쥐고 있는 물체가 무엇인지가 인식되어야 비로소 정확한 행동 검출이 가능해 진다. 또 다른 예로 리모콘을 조작하는 행동과 핸드폰으로 전화를 거는 행동의 구별이 있다.

자세 인식부(112)는 자세인식(pose recognition)엔진을 이용하여 영상을 분석하고, 휴먼이 현재 어떤 자세인지를 취하고 있는지를 인식할 수 있다. 예를 들어, 인식 대상의 자세는 '서 있다', '허리를 구부린 자세로 서 있다', '소파에 앉아 있다', '의자에 앉아 있다', '바닥에 앉아 있다', '쪼그려 앉아 있다', '손으로 턱을 괴고 앉아 있다', '반듯이 누워 있다', '엎드려 누워 있다', '옆으로 누워 있다' 등이 있다.

이 때, 자세 인식부(112)는 자세 인식 엔진의 결과를 이용하여 시각기반 행위검출 엔진은 인식해야 하는 행동들의 후보 집합을 구성할 수 있기 때문에 인식 엔진의 성능 향상에 기여할 수 있다. 예를 들어, 휴먼이 누워 있는 자세로 인식되었다면 누워서는 절대로 할 수 없는 행동들(예를 들어 물을 마시다, 세수하다 등)은 행위검출 엔진의 인식 대상에서 제외 될 수 있고 인식해야 하는 행동의 수가 줄어들었기 때문에 그 신뢰도는 더 높아진다고 할 수 있다.

자세 이해부(113)는 장면 이해(Scene understanding)엔진을 이용하여 로봇 센서 장치(20)가 생성한 영상 데이터로부터 2D RGB 정지 영상을 분석하여 이 영상이 어떤 장면인지를 서술할 수 있다.

이 때, 자세 이해부(113)는 영상 내에 존재하는 물체의 위치 관계 및 휴먼이 존재하는 장소에 대한 정보 등을 제공할 수 있다. 이 때, 자세 이해부(113)는 결과 정보로서 휴먼의 행동 정보도 제공될 수 있지만, 이러한 행동은 정지 영상에서의 장면 이해를 기반으로 추출된 정보로서 동작 분석을 기반으로 하는 시각기반 행위검출 엔진의 결과와는 다를 수 있다.

음향 인식부(114)는 음향인식(sound recognition) 엔진을 이용하여 로봇의 마이크에서 획득된 오디오 데이터를 입력으로 받아 현재 환경에서 발생하는 소리가 무슨 소리인지를 판단할 수 있다. 음향인식 엔진의 인식 결과는 이벤트 발생부(130)에 입력이 될 수 있다. 휴먼이 취할 수 있는 행동 중에 음향이 중요한 역할을 하는 행동들이 있으며 이러한 경우에 음향인식 결과는 행위 검출의 신뢰도 향상에 도움이 된다. 예를 들면, 초인종이 울리는 경우에 수반될 것으로 예상되는 행동(현관문 열기, 월패드 응답하기 등)들로 검출 대상 후보군을 생성할 수 있으며, 이러한 압축된 후보군은 행위 검출의 신뢰도를 획기적으로 향상시킬 수 있다. 또한, 전화벨이 울리는 소리와 함께 휴먼이 대화하는 소리가 인식되었다면 로봇의 시각정보가 입력되지 않는 상황에서도 휴먼의 현재 행동을 쉽게 유추할 수 있다. 이러한 측면에서 음향인식 엔진은 로봇의 행동 검출 범위를 확장할 수 있는 장점을 지닌다.

검출부(120)는 센싱한 데이터가 포함하는 영상과 음성을 복수개의 엔진을 이용하여 대상의 행위를 검출할 수 있다.

도 7을 참조하면, 검출부(120)는 시각 행위 검출부(121) 및 웨어러블 센서 기반 행위 검출부(122)를 포함할 수 있다.

시각 행위 검출부(121)는 시각기반 행위검출(vision-based action detection)엔진을 이용하여 일련의 영상 시퀀스에서 휴먼의 동작을 분석하고, 휴먼이 어떤 행동을 하고 있는지를 인식하고 검출할 수 있다. 시각 행위 검출부(121)에 입력되는 영상 시퀀스는 2D RGB 영상과 3D 깊이(depth)영상이 있고, 깊이 영상으로부터 추출 가능한 3D 휴먼 관절(skeleton)도 처리할 수 있다. 이 때, 시각 행위 검출부(121)는 주로 휴먼의 동작을 분석하여 휴먼의 행위를 검출하며 앞서 언급한 물체검출 엔진의 결과와 자세인식 엔진의 결과를 활용하여 검출 신뢰도를 향상시킬 수 있다.

웨어러블 센서 기반 행위 검출부(122)는 웨어러블 센서기반 행위검출(Wearable sensor-based action detection)엔진을 이용하여 휴먼이 장착한 센서에서 획득되는 일련의 신호들을 분석하고 휴먼의 행동을 인식할 수 있다.

이 때, 웨어러블 센서 기반 행위 검출부(122)는 손목 등에 착용하고 있는 센서의 관성 측정 장치(Inertial Measurement Unit)에서 발생하는 시그널을 분석함으로써 시각기반 행동인식이나 음향인식 엔진에서 추출할 수 있는 정보와는 또 다른 특성의 정보들을 획득할 수 있다. 이러한 정보들은 최종적으로 이벤트 발생부(130)에 입력되어 영상과 음성에서 추출된 정보와 융합되어 행위 검출 신뢰도를 향상시킬 수 있다. 예를 들어, 양치질 하기와 같이 단위 동작이 반복되는 행위는 영상은 음성 정보 보다 센서 기반 시그널을 분석하면 상대적으로 쉽게 인식할 수 있다. 이러한 정보들이 상호보완적으로 결합될 수 있고 최종적으로 휴먼 행위 검출 시스템의 신뢰도를 향상시킬 수 있다.

이벤트 생성부(130)는 복수개의 엔진이 검출한 대상의 행위를 융합하여 상기 대상의 행위에 대한 이벤트 확률 리스트를 생성할 수 있다.

이 때, 이벤트 생성부(130)는 개별 엔진들(시각기반 행위검출 엔진, 장면이해 엔진, 음향인식 엔진, 웨어러블 센서기반 행위검출 엔진 등)에서 인식된 결과를 유기적으로 융합하여 최종적으로 휴먼이 취한 행위와 그 발생시점에 대한 이벤트를 생성할 수 있다.

이 때, 이벤트 생성부(130)는 복수개의 개별 인식 엔진의 결과를 융합할 수 있다.

이 때, 이벤트 생성부(130)는 수학식 1에 나타낸 바와 같이 인식 대상 행위들에 대한 이벤트 확률 리스트를 생성할 수 있다.

R_k는 인식기 k에 의하여 산출된 행위에 대한 이벤트 확률 리스트이며, p_i,k는 현재 휴먼이취하고 있는 행위가 i번째 행위일 확률 값이며, N은 인식 대상 행위의 수이다. 이들 확률 값 p_i,k는 수학식 2와 같이 전체 확률 값들의 합이 1이 되도록 정규화 되며, 만약 인식기 k가 인식을 할 수 없는 영상이라면 모든 p_i,k는 디폴트값으로 1/N이 할당될 수 있다.

개별 인식기에 의하여 제공된 확률 리스트들은 이벤트 생성부(130)에 의하여 일련의 통합 과정을 거치며, 최종적으로 수학식 3과 같은 형태의 인식된 행위에 대한 확률 리스트 RR이 제공될 수 있다. 이벤트 발생부(130)는 수학식 4에 의해 개별 인식기로부터의 산출된 각 행위에 대한 확률 정보를 통합하고, 통합된 확률 값들은 수학식 2와 동일한 방법으로 전체 확률 값들의 합이 1이 되도록 다시 정규화 할 수 있다. 이 때, k는 개별 인식기의 개수이다.

또한, 이벤트 생성부(130)는 언급한 엔진들 이외에 다른 분석 엔진이 추가된 경우에도 행위 통합 과정을 수행하여 이벤트 확률 리스트를 생성할 수 있다.

도 8은 본 발명의 일실시예에 따른 멀티모달 행위 검출 방법을 나타낸 동작흐름도이다.

도 8을 참조하면, 본 발명의 일실시예에 따른 멀티모달 행위 검출 방법은 먼저 휴먼을 인식할 수 있다(S210).

즉, 단계(S210)는 인식부(110)에 의해, 사용자가 착용한 웨어러블 센서 장치(10) 및 로봇에 장착된 로봇 센서 장치(20)가 센싱한 데이터를 이용하여 상기 사용자를 행위를 검출할 대상으로 인식할 수 있다.

또한, 본 발명의 일실시예에 따른 멀티모달 행위 검출 방법은 행위를 검출할 수 있다(S220).

즉, 단계(S220)는 검출부(120)에 의해, 센싱한 데이터가 포함하는 영상과 음성을 복수개의 엔진을 이용하여 상기 대상의 행위를 검출할 수 있다.

또한, 본 발명의 일실시예에 따른 멀티모달 행위 검출 방법은 이벤트를 생성할 수 있다(S230).

즉, 단계(S230)는 이벤트 생성부(130)에 의해, 복수개의 엔진이 검출한 대상의 행위를 융합하여 상기 대상의 행위에 대한 이벤트 확률 리스트를 생성할 수 있다.

도 9는 본 발명의 일실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.

도 9를 참조하면, 본 발명의 일실시예에 따른 멀티모달 행위 검출 장치(100)는 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1100)에서 구현될 수 있다. 도 9에 도시된 바와 같이, 컴퓨터 시스템(1100)은 버스(1120)를 통하여 서로 통신하는 하나 이상의 프로세서(1110), 메모리(1130), 사용자 인터페이스 입력 장치(1140), 사용자 인터페이스 출력 장치(1150) 및 스토리지(1160)를 포함할 수 있다. 또한, 컴퓨터 시스템(1100)은 네트워크(1180)에 연결되는 네트워크 인터페이스(1170)를 더 포함할 수 있다. 프로세서(1110)는 중앙 처리 장치 또는 메모리(1130)나 스토리지(1160)에 저장된 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1130) 및 스토리지(1160)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체일 수 있다. 예를 들어, 메모리는 ROM(1131)이나 RAM(1132)을 포함할 수 있다.

이상에서와 같이 본 발명에 따른 멀티모달 행위 검출 장치 및 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

10: 웨어러블 센서 장치 20: 로봇 센서 장치
21: 휴먼 위치 검출부 22: 휴먼 추적부
23: 행동 인식 판단부
100: 멀티모달 행위 검출 장치
110: 인식부 111: 물체 검출부
112: 자세 인식부 113: 자세 이해부
114: 음향 인식부 120: 검출부
121: 시각 행위 검출부
122: 웨어러블 센서 기반 행위 검출부
130: 이벤트 생성부
1100: 컴퓨터 시스템 1110: 프로세서
1120: 버스 1130: 메모리
1131: 롬 1132: 램
1140: 사용자 인터페이스 입력 장치
1150: 사용자 인터페이스 출력 장치
1160: 스토리지 1170: 네트워크 인터페이스
1180: 네트워크

Claims

사용자가 착용한 웨어러블 센서 장치 및 로봇에 장착된 로봇 센서 장치가, 상기 사용자를 센싱한 데이터를 이용하여 상기 사용자를 인식하는 인식부;
복수개의 행위 검출 엔진을 이용하여 상기 센싱한 데이터로부터 상기 사용자의 행위를 검출하는 검출부; 및
상기 복수개의 행위 검출 엔진이 검출한 상기 사용자의 복수개의 행위들을 융합하여 이벤트 확률 리스트를 생성하는 이벤트 생성부;
를 포함하고,
상기 이벤트 생성부는
상기 사용자의 복수개의 행위들의 개수와 상기 사용자의 행위가 기설정된 순번에서 발생할 확률 값을 이용하여 상기 사용자의 복수개의 행위들이 발생할 확률 값들을 산출하고, 상기 사용자의 복수개의 행위들이 발생할 확률 값들을 정규화하여 상기 이벤트 확률 리스트를 생성하는 것을 특징으로 하는 멀티모달 행위 검출 장치.
청구항 1에 있어서,
상기 인식부는
상기 사용자가 손에 쥐고 있는 물체, 상기 사용자의 자세, 상기 사용자가 위치한 장소에 대한 정보 및 상기 사용자가 위치한 장소에서 발생한 소리에 대한 정보 중 적어도 하나를 인식하여 상기 센싱한 데이터를 생성하는 것을 특징으로 하는 멀티모달 행위 검출 장치.
청구항 2에 있어서,
상기 검출부는
시각 기반 행위 검출 엔진을 이용하여 상기 센싱한 데이터에 포함된 영상 정보로부터 2차원 영상과 3차원 깊이 영상으로부터 상기 사용자의 3차원 스켈레톤 영상을 추출하여 상기 사용자의 행위를 검출하는 것을 특징으로 하는 멀티모달 행위 검출 장치.
청구항 3에 있어서,
상기 검출부는
웨어러블 센서 기반 행위 검출 엔진을 이용하여 상기 센싱한 데이터에 포함된 관성 정보를 이용하여 상기 사용자의 행위를 검출하는 것을 특징으로 하는 멀티모달 행위 검출 장치.
삭제
멀티모달 행위 검출 장치의 멀티모달 행위 검출 방법에 있어서,
사용자가 착용한 웨어러블 센서 장치 및 로봇에 장착된 로봇 센서 장치가, 상기 사용자를 센싱한 데이터를 이용하여 상기 사용자를 인식하는 단계;
복수개의 행위 검출 엔진을 이용하여 상기 센싱한 데이터로부터 상기 사용자의 행위를 검출하는 단계; 및
상기 복수개의 행위 검출 엔진이 검출한 상기 사용자의 복수개의 행위들을 융합하여 이벤트 확률 리스트를 생성하는 단계;
를 포함하고,
상기 이벤트 확률 리스트를 생성하는 단계는
상기 사용자의 복수개의 행위들의 개수와 상기 사용자의 행위가 기설정된 순번에서 발생할 확률 값을 이용하여 상기 사용자의 복수개의 행위들이 발생할 확률 값들을 산출하고, 상기 사용자의 복수개의 행위들이 발생할 확률 값들을 정규화하여 상기 이벤트 확률 리스트를 생성하는 것을 특징으로 하는 멀티모달 행위 검출 방법.
청구항 6에 있어서,
상기 인식하는 단계는
상기 사용자가 손에 쥐고 있는 물체, 상기 사용자의 자세, 상기 사용자가 위치한 장소에 대한 정보 및 상기 사용자가 위치한 장소에서 발생한 소리에 대한 정보 중 적어도 하나를 인식하여 상기 센싱한 데이터를 생성하는 것을 특징으로 하는 멀티모달 행위 검출 방법.
청구항 7에 있어서,
상기 검출하는 단계는
시각 기반 행위 검출 엔진을 이용하여 상기 센싱한 데이터에 포함된 영상 정보로부터 2차원 영상과 3차원 깊이 영상으로부터 상기 사용자의 3차원 스켈레톤 영상을 추출하여 상기 사용자의 행위를 검출하는 것을 특징으로 하는 멀티모달 행위 검출 방법.
청구항 8에 있어서,
상기 검출하는 단계는
웨어러블 센서 기반 행위 검출 엔진을 이용하여 상기 센싱한 데이터에 포함된 관성 정보를 이용하여 상기 사용자의 행위를 검출하는 것을 특징으로 하는 멀티모달 행위 검출 방법.
삭제