WO2019132459A1

WO2019132459A1 - 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치

Info

Publication number: WO2019132459A1
Application number: PCT/KR2018/016537
Authority: WO
Inventors: 김은솔; 온경운; 장하영
Original assignee: 주식회사 써로마인드로보틱스
Priority date: 2017-12-28
Filing date: 2018-12-21
Publication date: 2019-07-04

Abstract

사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 장치가 개시된다. 본 발명의 일 실시예에 따른 멀티 모달 정보 결합 장치는 사용자의 행동을 촬영하고, 상기 사용자의 음성을 입력받는 입력부; 기설정된 복수의 정서적 행동 레이블 및 기설정된 복수의 정서적 행동 신경망 모델을 저장하는 저장부; 및 촬영된 영상 및 상기 음성에 기초하여 시계열 윈도우를 생성하고, 상기 정서적 행동 신경망 모델과 비교하여 상기 시계열 윈도우에 상응하는 정서적 행동레이블을 추출하는 제어부;를 포함한다.

Description

사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치

본 발명은 멀티 모달 정보를 결합하는 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 사용자의 정서적 행동 인식을 위한 멀티 모달 정보를 결합하는 방법 및 그 장치에 관한 것이다.

멀티모달 인터페이스란 기계가 인간과의 통신을 위해 마이크, 키보드, 영상, 터치, 펜 등을 이용하여 인터페이스하는 것을 말한다.

일반적으로 멀티 모달 정보 결합 방법으로 통해 사람을 카메라로 관찰하여 촬영한 동영상으로부터 사람의 명시적인 행동(예를 들면 자전거 타기, 등산하기, 노래하기, 뛰기 등)은 쉽게 구별할 수 있다. 그러나 종래 인식 기술은 사람의 얼굴 이미지를 이용하거나 목소리 정보를 이용하여, 기쁨, 놀람, 슬픔, 무표정 등 비교적 간단한 감정 정보만을 추출할 수 밖에 없고, 복수 감정들이 조합되는 복합적이고 애매한 인간의 감정까지 인식하기는 한계가 있다.

본 발명은 전술한 바와 같은 문제점을 해결하기 위하여 창출된 것으로서, 영상 정보와 소리 정보를 효율적으로 결합하여 정서적 행동을 정확하게 추출함으로써 객체가 표현하는 복잡하고 다양한 감정상태를 인식할 수 있는 발명을 제공하는데 그 목적이 있다.

그러나, 본 발명의 목적들은 상기에 언급된 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 장치는 사용자의 행동을 촬영하고, 상기 사용자의 음성을 입력받는 입력부; 기설정된 복수의 정서적 행동 레이블 및 기설정된 복수의 정서적 행동 신경망 모델을 저장하는 저장부; 및 촬영된 영상 및 상기 음성에 기초하여 시계열 윈도우를 생성하고, 상기 정서적 행동 신경망 모델과 비교하여 상기 시계열 윈도우에 상응하는 정서적 행동레이블을 추출하는 제어부;를 포함한다.

상기 시계열 윈도우는 촬영된 영상 및 상기 음성을 이미지 시퀀스 및 스펙트로그램(spectrogram)으로 각각 변환하여 기설정된 시간단위로 샘플링한 것이다.

상기 제어부는 상기 시계열 윈도우로부터 추출된 새로운 정서적 행동 정보를 학습 데이터베이스로 구축하여 레이블링한다.

상기 저장부는 레이블링된 상기 새로운 정서적 행동을 새로운 정서적 행동 신경망 모델로 저장한다.

상술한 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법은 카메라 및 마이크를 통해 객체의 음성 및 행동을 입력받는 단계; 상기 행동을 촬영한 영상 및 상기 음성을 각각 이미지 시퀀스 및 스펙트로그램으로 변환하는 단계; 상기 이미지 시퀀스 및 상기 스펙트로그램을 기설정된 시간단위의 시계열 윈도우로 합성하는 단계; 기설정된 복수의 정서적 행동 신경망 모델 중 상기 시계열 윈도우에 대응하는 모델을 추출하는 단계; 및 상기 추출된 모델의 정서적 행동 레이블을 출력하는 단계를 포함한다.

상기 추출하는 단계는 상기 복수의 정서적 행동 신경망 모델 중에 상기 시계열 윈도우에 대응하는 모델이 없는 경우, 상기 시계열 윈도우로부터 학습 데이터베이스로 구축하는 단계; 상기 학습 데이터베이스를 레이블링하는 단계; 및 상기 레이블링된 학습 데이터베이스를 새로운 정서적 행동 신경망 모델로 저장하는 단계를 포함한다.

전술한 바와 같은 본 발명에 의하면, 소리 정보와 영상 정보를 적합하게 합성하여 정확하게 객체의 감정상태를 인식할 수 있는 효과가 있다.

또한 본 발명에 의하면, 객체의 감정상태에 대한 추가 정보를 지속적으로 학습함으로써, 복잡한 정서적 정보를 효율적으로 인식할 수 있는 효과가 있다.

또한 본 발명에 의하면, 객체의 명시적인 행동 뿐 아니라 말과 언어의 행동에서 드러나는 정서적 정보까지 추출함으로써, 정서 지원 서비스에 효과적으로 사용될 수 있다.

또한 본 발명에 의하면, 객체의 복잡한 정서 상태를 인식하여 교감하는 대화 또는 반응이 가능할 수 있다.

도 1은 본 발명의 멀티 모달 정보 결합 장치를 나타낸 도면이다.

도 2는 도 1에 도시된 멀티 모달 정보 결합 장치의 일 실시예를 보다 구체적으로 나타낸 것이다.

도 3은 도 1에 도시된 멀티 모달 정보 결합 장치의 다른 실시예를 보다 구체적으로 나타낸 것이다.

도 4는 본 발명의 일 실시예에 따른 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법을 나타낸 흐름도이다.

도 5는 본 발명의 다른 실시예에 따른 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법을 나타낸 흐름도이다.

이하, 도면을 참조하여 본 발명을 실시하기 위한 구체적인 내용을 실시 예에 기초하여 설명한다. 이들 실시 예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시 예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는 적절하게 설명된다면 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있는 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백히 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 발명의 멀티 모달 정보 결합 장치에서 추출하고자 하는 사용자 정서는 기본 정서 및 복합적 정서이다. 기본 정서의 예로서, 행복함, 우울함, 속상함, 흥분됨, 지침, 불쾌함, 날카로움, 즐거움, 평온함, 무기력함, 활기참 등이 있다. 복합적 정서의 예로서, 수용, 관용, 신뢰, 존경, 불안, 두려움, 경악, 섬뜩함, 공황, 공포, 혼란, 호기심, 경계, 관심, 비탄, 서러움, 실의, 수심, 혐오, 역겨움, 반감, 지루함, 격노, 적개심, 짜증, 환희, 평온, 의기양양 등이 있다.

본 발명은 촬영된 영상 및 소리에 기초하여 사용자의 정서적 행동을 시계열 윈도우로 추출하고, 이를 데이터베이스로부터 상응하는 정서 정보로 예측하고 정서 지원 서비스에 활용하는 멀티 모달 정보 결합 방법 및 그 장치에 관한 것이다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시 예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1을 참조하면, 멀티 모달 정보 결합 장치(1)는 제어부(100), 입력부(200), 출력부(300), 네트워크 인터페이스(400) 및 저장부(500)를 포함한다.

제어부(100)는 멀티 모달 정보 결합 장치(1)의 입력 정보를 프로세싱한다.

보다 구체적으로 설명하면, 제어부(100)는 입력부(200)로부터 수신된 촬영된 영상 및 상기 음성에 기초하여 시계열 윈도우를 생성할 수 있다. 이때 제어부(100)는 상기 시계열 윈도우를 생성하면서 언어적 정보(예를 들면 사용자가 하는 말)와 비언어적 정보(예를 들면 배경음, 소음 등)로 구분하여 영상 또는 음성에 포함된 노이즈를 제거할 수 있다. 그 결과, 영상 정보와 음성 정보를 결합함으로써 영상 정보만으로 또는 음성 정보만으로 구분하기 어려운 노이즈를 제거가능하다.

제어부(100)는 저장부(500)의 정서적 행동 신경망 모델과 비교하고, 상기 시계열 윈도우에 상응하는 정서적 행동 레이블을 추출한다.

시계열 윈도우는 기설정된 시간단위의 에피소딕 메모리(episodic memory)일 수 있다.

입력부(200)는 사용자(이하 객체)의 객체정보 또는 배경정보를 촬영하고 음성을 수신한다. 객체정보는 객체의 움직임에 대한 정보일 수 있다.배경정보는 객체가 위치하는 곳의 배경영역에 대한 정보이다. 입력부(200)는 일 실시예에 따라, 카메라(201) 및 마이크(202)를 포함한다. 카메라(201)는 사용자, 즉 객체의 움직임을 소정의 시간동안 촬영한다. 마이크(202)는 사용자에 의해 발생하는 소리-예를 들면 음성, 감탄사, 사용자가 사물과 마찰하며 내는 소리 등-를 입력받는다.

입력되는 객체정보로부터 추출되는 복합적 정서적 행동의 일 예로 큰소리 지르기, 욕하기, 같이 있는 사람 방해하기, 같이 있는 사람 때리기, 싸우기, 무시하기, 불평하기, 지나치게 논쟁하기, 울화 터뜨리기 등이 있다.

입력부(200)는 다른 실시예에 따라 센싱부(203)를 더 포함할 수 있다. 센싱부(203)는 다양한 실시예에 따라, 터치 센서, 지문 센서, 중력 센서, 심박 센서, 적외선 센서 또는 온도 센서 등일 수 있다.

출력부(300)는 사용자의 입력을 요청하는 메시지나 촬영 또는 판단된 정서적 행동 정보를 영상 및/또는 음향으로 출력한다. 출력부(300)는 디스플레이(301) 및 음향장치(302)를 포함하여, 메시지 또는 정서적 행동 정보를 멀티미디어 형식으로 출력한다.

네트워크 인터페이스(400)는 멀티 모달 정보 결합 장치와 외부 기기를 연결한다. 일 실시예로 멀티 모달 정보 결합 장치는 네트워크 인터페이스(400)를 통해 휴먼 케어 로봇 등과 통신할 수 있다.일 실시예로 네트워크 인터페이스(400)는 인터페이스 범용성을 가진 REST(Representational safe transfer) API에 의한 것일 수 있다. 일 실시예로 네트워크 인터페이스(400)는 인터페이스 범용성을 가진 HTTP(HyperText Transfer Protocol)에 의한 것일 수 있다.

저장부(500)는 복수의 정서적 행동 레이블 및 복수의 정서적 행동 신경망 모델을 저장한다. 각 정서적 행동 신경망 모델은 정서적 행동 레이블과 상관되어 저장될 수 있다. 다양한 실시예에 따라 각 모델은 정서적 행동 레이블과 일대다 매칭일 수도 있고, 다대다 매칭일 수도 있고, 다대일 매칭되어 저장될 수도 있다.

도 2는 도 1에 도시된 멀티 모달 정보 결합 장치의 일 실시예를 보다 구체적으로 나타낸 것이다. 설명의 편의를 위해 도 1과의 차이점을 위주로 설명한다.

도 2를 참조하면, 제어부(100)는 시계열 윈도우 추출부(111) 및 정서적 행동 레이블 인식부(112)를 포함한다.

시계열 윈도우 추출부(111)는 입력부(200)로부터 수신된 동영상 및 소리를 각각 이미지 시퀀스 및 스펙트로그램(spectrogram)으로 변환한다. 프레임 단위의 이미지 시퀀스 및 스펙트로그램은 기설정된 제1 시간단위-예를 들면 1초-로 추출될 수 있다. 시계열 윈도우 추출부(111)는 이미지 시퀀스 및 스펙트로그램을 시계열 윈도우로 합성할 수 있다. 이때 시계열 윈도우는 이미지 시퀀스 및 스펙드로그램을 기설정된 제2 시간단위로 샘플링할 수 있다. 이때 제2 시간단위는 실시예에 따라 제1 시간단위와 같을 수도 있고 더 클 수도 있다.

정서적 행동 레이블 인식부(112)는 샘플링된 시계열 윈도우를 저장부(500)에 저장된 복수의 정서적 행동 신경망 모델과 비교한다. 정서적 행동 레이블 인식부(112)는 상기 시계열 윈도우에 상응하는 모델이 있는 경우, 상기 모델의 해당 정서적 행동 레이블 정보를 출력부(300) 또는 네트워크 인터페이스(400)로 전송한다.

정서적 행동 레이블 인식부(112)는 상기 시계열 윈도우에 상응하는 모델이 없는 경우, 상기 시계열 윈도우로부터 추출된 새로운 정서적 행동 정보를 학습 데이터베이스로 구축하여 레이블링한다.

저장부(500)는 정서적 행동 신경망 모델 학습부(501), 정서적 행동 레이블링부(502) 및 학습 데이터베이스(DB) 구축부(503)를 포함한다.

정서적 행동 신경망 모델 학습부(501)는 기설정된 복수의 정서적 행동 신경망 모델을 데이터베이스화하여 저장하고, 레이블링된 새로운 정서적 행동 정보를 새로운 모델로 저장한다.

정서적 행동 레이블링부(502)는 상기 각 정서적 행동 신경망 모델과 연관된 기설정된 복수의 정서적 행동 레이블을 데이터베이스화하여 저장하고, 학습 DB 구축부(503)를 통해 입력되는 새로운 정서적 행동 정보를 레이블링하여 저장한다.

학습 DB 구축부(503)는 멀티 모달 정보 결합 장치(1)에 입력된 시계열 윈도우에 상응하는 모델이 없는 경우, 상기 시계열 윈도우로부터 추출된 새로운 정서적 행동 정보를 학습 데이터베이스로 구축한다.

따라서, 본 발명에 의하면, 소리 정보와 영상 정보를 적합하게 합성하여 정확하게 객체의 감정상태를 인식할 수 있는 효과가 있다.

도 3은 도 1에 도시된 멀티 모달 정보 결합 장치의 다른 실시예를 보다 구체적으로 나타낸 것이다.설명의 편의를 위해 도 1 및 도 2와의 차이점을 위주로 설명한다.

도 2와 달리 도 3의 실시예에서는 추출된 시계열 윈도우가 정서적 행동 신경망 모델 데이터베이스(511)에 저장되어 있는 복수의 모델 중 상응하는 모델이 없는 경우, 새로운 정서적 행동에 대한 학습 프로세스를 제어부(100')에서 수행한다.

도 3을 참고하면, 제어부(100')는 도 2와 달리 시계열 윈도우 추출부(121) 및 정서적 행동 레이블 인식부(122)외에 학습 DB 구축부(123)을 더 포함할 수 있다. 저장부(500')는 정서적 행동 레이블부(510) 및 정서적 행동 신경망 모델 데이터베이스(511)를 포함할 수 있다.

즉, 제어부(100')는 새로운 정서적 행동이라고 판단되면, 학습 DB 구축부(123)에서 상기 시계열 윈도우로부터 새로운 정서적 행동 정보를 추출하여 새로운 학습 데이터베이스로 프로세싱한다. 그리고 저장부(500')는 새로운 학습 데이터베이스를 수신하여 정서적 행동 레이블부(510)에서 레이블링하고, 정서적 행동 신경망 모델 DB(511)에 새로운 모델 정보를 추가 저장한다.

본 발명에 의하면, 객체의 감정상태에 대한 추가 정보를 지속적으로 학습함으로써, 복잡한 정서적 정보를 효율적으로 인식할 수 있는 효과가 있다.

도 4를 참고하면, 멀티 모달 정보 결합 장치(1)는 먼저 객체의 행동을 촬영하고 음성을 입력받는다. 촬영된 영상 및 입력된 소리는 각각 이미지 시퀀스 및 스펙트로그램으로 변환한다(S10).

멀티 모달 정보 결합 장치(1)는 이미지 시퀀스 및 스펙트로그램을 합성하여 기설정된 시간단위의 시계열 윈도우로 추출한다(S11). 이때 시계열 윈도우는 이미지 시퀀스 및 스펙트로그램에서 유의미한 객체의 정서적 행동 정보를 추출한 것이다.

멀티 모달 정보 결합 장치(1)는 기설정된 복수의 정서적 행동 신경망 모델과 시계열 윈도우를 비교한다(S12). 상기 시계열 윈도우에 상응하는 모델이 있는 경우, 해당 모델에 상응하는 정서적 행동 레이블을 비교결과로 출력한다(S13).

따라서, 본 발명에 의하면, 소리 정보와 영상 정보를 적합하게 합성하여 노이즈를 제거함으로써 정확하게 객체의 감정상태를 인식할 수 있는 효과가 있다.

도 5를 참고하면, 멀티 모달 정보 결합 장치(1)는 먼저 객체의 행동을 촬영하고 음성을 입력받는다. 촬영된 영상 및 입력된 소리는 각각 이미지 시퀀스 및 스펙트로그램으로 변환한다(S10).

멀티 모달 정보 결합 장치(1)는 이미지 시퀀스 및 스펙트로그램을 합성하여 기설정된 시간단위의 시계열 윈도우로 추출한다(S21). 이때 시계열 윈도우는 이미지 시퀀스 및 스펙트로그램에서 유의미한 객체의 정서적 행동 정보를 추출한 것이다.

멀티 모달 정보 결합 장치(1)는 기설정된 복수의 정서적 행동 신경망 모델과 시계열 윈도우를 비교하여 상기 시계열 윈도우에 상응하는 모델이 없는 경우, 상기 시계열 윈도우의 새로운 정서적 행동 정보를 학습 데이터베이스로 구축한다(S23).

멀티 모달 정보 결합 장치(1)는 상기 새로운 정서적 행동 정보에 대한 새로운 레이블링을 수행하고(S24), 레이블링된 상기 새로운 정서적 행동 정보를 새로운 정서적 행동 신경망 모델로 저장한다(S25).

한편, 본 발명의 일 실시 예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

본 발명은 특정 기능들 및 그의 관계들의 성능을 나타내는 방법 단계들의 목적을 가지고 위에서 설명되었다. 이러한 기능적 구성 요소들 및 방법 단계들의 경계들 및 순서는 설명의 편의를 위해 여기에서 임의로 정의되었다. 상기 특정 기능들 및 관계들이 적절히 수행되는 한 대안적인 경계들 및 순서들이 정의될 수 있다. 임의의 그러한 대안적인 경계들 및 순서들은 그러므로 상기 청구된 발명의 범위 및 사상 내에 있다. 추가로, 이러한 기능적 구성 요소들의 경계들은 설명의 편의를 위해 임의로 정의되었다. 어떠한 중요한 기능들이 적절히 수행되는 한 대안적인 경계들이 정의될 수 있다. 마찬가지로, 흐름도 블록들은 또한 어떠한 중요한 기능성을 나타내기 위해 여기에서 임의로 정의되었을 수 있다. 확장된 사용을 위해, 상기 흐름도 블록 경계들 및 순서는 정의되었을 수 있으며 여전히 어떠한 중요한 기능을 수행한다. 기능적 구성 요소들 및 흐름도 블록들 및 순서들 둘 다의 대안적인 정의들은 그러므로 청구된 본 발명의 범위 및 사상 내에 있다.

본 발명은 또한 하나 이상의 실시 예들의 용어로, 적어도 부분적으로 설명되었을 수 있다. 본 발명의 실시 예는 본 발명, 그 측면, 그 특징, 그 개념, 및/또는 그 예를 나타내기 위해 여기에서 사용된다. 본 발명을 구현하는 장치, 제조의 물건, 머신, 및/또는 프로세스의 물리적인 실시 예는 여기에 설명된 하나 이상의 실시 예들을 참조하여 설명된 하나 이상의 측면들, 특징들, 개념들, 예들 등을 포함할 수 있다. 더구나, 전체 도면에서, 실시 예들은 상기 동일한 또는 상이한 참조 번호들을 사용할 수 있는 상기 동일하게 또는 유사하게 명명된 기능들, 단계들, 모듈들 등을 통합할 수 있으며, 그와 같이, 상기 기능들, 단계들, 모듈들 등은 상기 동일한 또는 유사한 기능들, 단계들, 모듈들 등 또는 다른 것들일 수 있다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시 예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시 예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시 예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

사용자의 행동을 촬영하고, 상기 사용자의 음성을 입력받는 입력부;

기설정된 복수의 정서적 행동 레이블 및 기설정된 복수의 정서적 행동 신경망 모델을 저장하는 저장부; 및

촬영된 영상 및 상기 음성에 기초하여 시계열 윈도우를 생성하고, 상기 정서적 행동 신경망 모델과 비교하여 상기 시계열 윈도우에 상응하는 정서적 행동레이블을 추출하는 제어부;를 포함하고,

상기 시계열 윈도우는

촬영된 영상 및 상기 음성을 이미지 시퀀스 및 스펙트로그램(spectrogram)으로 각각 변환하여 기설정된 시간단위로 샘플링한 것인,

사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 장치.
제1항에 있어서, 상기 제어부는

상기 시계열 윈도우로부터 추출된 새로운 정서적 행동 정보를 학습 데이터베이스로 구축하여 레이블링하고,

상기 저장부는

레이블링된 상기 새로운 정서적 행동을 새로운 정서적 행동 신경망 모델로 저장하는 것인,

사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 장치.
카메라 및 마이크를 통해 객체의 음성 및 행동을 입력받는 단계;

상기 행동을 촬영한 영상 및 상기 음성을 각각 이미지 시퀀스 및 스펙트로그램으로 변환하는 단계;

상기 이미지 시퀀스 및 상기 스펙트로그램을 기설정된 시간단위의 시계열 윈도우로 합성하는 단계;

기설정된 복수의 정서적 행동 신경망 모델 중 상기 시계열 윈도우에 대응하는 모델을 추출하는 단계; 및

상기 추출된 모델의 정서적 행동 레이블을 출력하는 단계를 포함하는,

사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법.
제3항에 있어서, 상기 추출하는 단계는

상기 복수의 정서적 행동 신경망 모델 중에 상기 시계열 윈도우에 대응하는 모델이 없는 경우, 상기 시계열 윈도우로부터 학습 데이터베이스로 구축하는 단계;

상기 학습 데이터베이스를 레이블링하는 단계; 및

상기 레이블링된 학습 데이터베이스를 새로운 정서적 행동 신경망 모델로 저장하는 단계를 포함하는 것인, 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법.